Rohan Satyarthi
회원 가입일: 2024
골드 리그
16565포인트
회원 가입일: 2024
This course is part 1 of a 3-course series on Serverless Data Processing with Dataflow. In this first course, we start with a refresher of what Apache Beam is and its relationship with Dataflow. Next, we talk about the Apache Beam vision and the benefits of the Beam Portability framework. The Beam Portability framework achieves the vision that a developer can use their favorite programming language with their preferred execution backend. We then show you how Dataflow allows you to separate compute and storage while saving money, and how identity, access, and management tools interact with your Dataflow pipelines. Lastly, we look at how to implement the right security model for your use case on Dataflow.
This 1-week, accelerated on-demand course builds upon Google Cloud Platform Big Data and Machine Learning Fundamentals. Through a combination of video lectures, demonstrations, and hands-on labs, you'll learn to build streaming data pipelines using Google cloud Pub/Sub and Dataflow to enable real-time decision making. You will also learn how to build dashboards to render tailored output for various stakeholder audiences.
머신러닝을 데이터 파이프라인에 통합하면 데이터에서 더 많은 인사이트를 도출할 수 있습니다. 이 과정에서는 머신러닝을 Google Cloud의 데이터 파이프라인에 포함하는 방법을 알아봅니다. 맞춤설정이 거의 또는 전혀 필요 없는 경우에 적합한 AutoML에 대해 알아보고 맞춤형 머신러닝 기능이 필요한 경우를 위해 Notebooks 및 BigQuery 머신러닝(BigQuery ML)도 소개합니다. Vertex AI를 사용해 머신러닝 솔루션을 프로덕션화하는 방법도 다루어 보겠습니다.
이 과정에서는 스트리밍 데이터 파이프라인을 빌드할 때 직면하는 실제 과제를 해결하기 위해 실습을 진행합니다. Google Cloud 제품을 사용하여 지속적이고 무제한적인 데이터를 관리하는 데 중점을 둡니다.
데이터 파이프라인은 일반적으로 추출-로드(EL), 추출-로드-변환(ELT) 또는 추출-변환-로드(ETL) 패러다임 중 하나에 속합니다. 이 과정에서는 일괄 데이터에 사용해야 할 패러다임과 사용 시기에 대해 설명합니다. 또한 BigQuery, Dataproc에서의 Spark 실행, Cloud Data Fusion의 파이프라인 그래프, Dataflow를 사용한 서버리스 데이터 처리 등 데이터 변환을 위한 Google Cloud의 여러 가지 기술을 다룹니다. Google Cloud에서 Qwiklabs를 사용해 데이터 파이프라인 구성요소를 빌드하는 실무형 실습도 진행합니다.
초급 Compute Engine에서 Cloud Load Balancing 구현하기 기술 배지 과정을 완료하여 Compute Engine에서 가상 머신 만들기 및 배포, 네트워크 및 애플리케이션 부하 분산기 구성과 관련된 기술 역량을 입증하세요.
데이터 레이크와 데이터 웨어하우스를 사용하는 기존 접근방식은 효과적일 수 있지만, 특히 대규모 엔터프라이즈 환경에서는 단점이 있습니다. 이 과정에서는 데이터 레이크하우스의 개념과 데이터 레이크하우스를 만드는 데 사용되는 Google Cloud 제품을 소개합니다. 레이크하우스 아키텍처는 개방형 표준 데이터 소스를 사용하며 데이터 레이크와 데이터 웨어하우스의 장점을 결합하여 많은 단점을 해결합니다.
이 과정에서는 데이터-AI 수명 주기를 지원하는 Google Cloud 빅데이터 및 머신러닝 제품과 서비스를 소개합니다. Google Cloud에서 Vertex AI를 사용하여 빅데이터 파이프라인 및 머신러닝 모델을 빌드하는 프로세스, 문제점 및 이점을 살펴봅니다.