가입 로그인

Karim Abboud

회원 가입일: 2022

브론즈 리그

5780포인트
Google Cloud에서 데이터 레이크와 데이터 웨어하우스 빌드하기 Earned 1월 15, 2024 EST
BigQuery ML을 사용한 예측 모델링을 위한 데이터 엔지니어링 Earned 10월 23, 2023 EDT
Google Cloud에서 ML API용으로 데이터 준비하기 Earned 10월 5, 2023 EDT
BigQuery로 데이터 웨어하우스 빌드 Earned 10월 4, 2023 EDT
Dataflow를 사용한 서버리스 데이터 처리: 운영 Earned 9월 13, 2023 EDT
Dataflow를 사용한 서버리스 데이터 처리: 파이프라인 개발 Earned 6월 8, 2023 EDT
Dataflow를 사용한 서버리스 데이터 처리: 기초 Earned 2월 3, 2023 EST
Smart Analytics, Machine Learning, and AI on Google Cloud - 한국어 Earned 1월 30, 2023 EST
Google Cloud에서 스트리밍 데이터 파이프라인 빌드하기 Earned 1월 25, 2023 EST
Google Cloud에서 일괄 데이터 파이프라인 빌드하기 Earned 1월 11, 2023 EST
Google Cloud에서 데이터 레이크와 데이터 웨어하우스 빌드하기 Earned 1월 3, 2023 EST
Google Cloud Big Data and Machine Learning Fundamentals - 한국어 Earned 12월 26, 2022 EST

데이터 레이크와 데이터 웨어하우스를 사용하는 기존 접근방식은 효과적일 수 있지만, 특히 대규모 엔터프라이즈 환경에서는 단점이 있습니다. 이 과정에서는 데이터 레이크하우스의 개념과 데이터 레이크하우스를 만드는 데 사용되는 Google Cloud 제품을 소개합니다. 레이크하우스 아키텍처는 개방형 표준 데이터 소스를 사용하며 데이터 레이크와 데이터 웨어하우스의 장점을 결합하여 많은 단점을 해결합니다.

자세히 알아보기

중급 BigQuery ML을 사용한 예측 모델링을 위한 데이터 엔지니어링 기술 배지를 획득하여 Dataprep by Trifact로 데이터 변환 파이프라인을 BigQuery에 빌드, Cloud Storage, Dataflow, BigQuery를 사용한 ETL(추출, 변환, 로드) 워크플로 빌드, BigQuery ML을 사용하여 머신러닝 모델을 빌드하는 기술 역량을 입증할 수 있습니다.

자세히 알아보기

초급 Google Cloud에서 ML API용으로 데이터 준비하기 기술 배지를 완료하여 Dataprep by Trifacta로 데이터 정리, Dataflow에서 데이터 파이프라인 실행, Managed Service for Apache Spark에서 클러스터 생성 및 Apache Spark 작업 실행, Cloud Natural Language API, Google Cloud Speech-to-Text API, Video Intelligence API를 포함한 ML API 호출과 관련된 기술 역량을 입증하세요.

자세히 알아보기

중급 BigQuery로 데이터 웨어하우스 빌드 기술 배지를 완료하여 데이터를 조인하여 새 테이블 만들기, 조인 관련 문제 해결, 합집합으로 데이터 추가, 날짜로 파티션을 나눈 테이블 만들기, BigQuery에서 JSON, 배열, 구조체 작업하기와 관련된 기술 역량을 입증하세요.

자세히 알아보기

Dataflow 과정 시리즈의 마지막 편에서는 Dataflow 운영 모델의 구성요소를 소개합니다. 파이프라인 성능의 문제를 해결하고 최적화하기 위한 도구와 기법을 살펴봅니다. 그런 다음 Dataflow 파이프라인의 테스트, 배포, 안정성 권장사항을 검토합니다. 마지막으로 Dataflow 파이프라인을 사용자가 수백 명이나 되는 조직으로 쉽게 확장할 수 있는 템플릿을 검토해 보겠습니다. 이 강의는 데이터 플랫폼이 예상치 못한 상황에서도 안정성과 복원력을 갖추도록 하는데 도움이 됩니다.

자세히 알아보기

Dataflow 과정 시리즈의 두 번째 편에서는 Beam SDK를 사용하여 파이프라인을 개발하는 방법을 자세히 살펴보겠습니다. 먼저 Apache Beam 개념에 대한 복습부터 시작하겠습니다. 다음으로 윈도우, 워터마크, 트리거를 사용하여 스트리밍 데이터를 처리하는 방법을 알아봅니다. 그런 다음 파이프라인의 소스 및 싱크 옵션, 정형 데이터를 표현하는 스키마, State 및 Timer API를 사용하여 스테이트풀(Stateful) 변환을 수행하는 방법을 다룹니다. 이제 파이프라인 성능을 극대화하는 데 도움이 되는 권장사항을 살펴보겠습니다. 과정의 마지막 부분에서는 Beam에서 비즈니스 로직을 표현하기 위한 SQL과 DataFrame을 소개하고 Beam 노트북을 사용하여 파이프라인을 반복적으로 개발하는 방법을 알아봅니다.

자세히 알아보기

이 과정은 Dataflow를 사용한 서버리스 데이터 처리에 관한 3개 과정으로 이루어진 시리즈 중 1부입니다. 이 첫 번째 과정에서는 Apache Beam이 무엇인지, Dataflow와 어떤 관계가 있는지 복습하는 내용으로 시작합니다. 다음으로 Apache Beam의 비전과 Beam 이식성 프레임워크의 이점에 대해 설명합니다. Beam 이식성 프레임워크는 개발자가 선호하는 프로그래밍 언어를 원하는 실행 백엔드와 함께 사용할 수 있다는 비전을 실현합니다. 그런 다음 Dataflow를 통해 컴퓨팅과 스토리지를 분리하면서 비용을 절감하는 방법과 ID, 액세스, 관리 도구가 Dataflow 파이프라인과 상호작용하는 방식을 알아봅니다. 마지막으로 Dataflow에서 사용 사례에 맞는 적절한 보안 모델을 구현하는 방법을 살펴봅니다.

자세히 알아보기

머신러닝을 데이터 파이프라인에 통합하면 데이터에서 더 많은 인사이트를 도출할 수 있습니다. 이 과정에서는 머신러닝을 Google Cloud의 데이터 파이프라인에 포함하는 방법을 알아봅니다. 맞춤설정이 거의 또는 전혀 필요 없는 경우에 적합한 AutoML에 대해 알아보고 맞춤형 머신러닝 기능이 필요한 경우를 위해 Notebooks 및 BigQuery 머신러닝(BigQuery ML)도 소개합니다. Vertex AI를 사용해 머신러닝 솔루션을 프로덕션화하는 방법도 다루어 보겠습니다.

자세히 알아보기

이 과정에서는 스트리밍 데이터 파이프라인을 빌드할 때 직면하는 실제 과제를 해결하기 위해 실습을 진행합니다. Google Cloud 제품을 사용하여 지속적이고 무제한적인 데이터를 관리하는 데 중점을 둡니다.

자세히 알아보기

이 중급 과정에서는 Google Cloud에서 강력한 일괄 데이터 파이프라인을 설계, 빌드, 최적화하는 방법을 알아봅니다. 기본적인 데이터 처리를 넘어, 시의적절한 비즈니스 인텔리전스와 중요한 보고에 필수적인 대규모 데이터 변환과 효율적인 워크플로 조정에 대해 살펴봅니다. Apache Beam용 Dataflow와 Apache Spark용 서버리스(Dataproc Serverless)를 사용하여 구현을 실습하고, 파이프라인 안정성과 운영 우수성을 보장하기 위해 데이터 품질, 모니터링, 알림에 대한 중요한 고려사항을 다룹니다. 데이터 웨어하우징, ETL/ELT, SQL, Python, Google Cloud 개념에 대한 기본적인 지식이 있으면 좋습니다.

자세히 알아보기

데이터 레이크와 데이터 웨어하우스를 사용하는 기존 접근방식은 효과적일 수 있지만, 특히 대규모 엔터프라이즈 환경에서는 단점이 있습니다. 이 과정에서는 데이터 레이크하우스의 개념과 데이터 레이크하우스를 만드는 데 사용되는 Google Cloud 제품을 소개합니다. 레이크하우스 아키텍처는 개방형 표준 데이터 소스를 사용하며 데이터 레이크와 데이터 웨어하우스의 장점을 결합하여 많은 단점을 해결합니다.

자세히 알아보기

이 과정에서는 데이터-AI 수명 주기를 지원하는 Google Cloud 빅데이터 및 머신러닝 제품과 서비스를 소개합니다. Google Cloud에서 Vertex AI를 사용하여 빅데이터 파이프라인 및 머신러닝 모델을 빌드하는 프로세스, 문제점 및 이점을 살펴봅니다.

자세히 알아보기