실습 설정 안내 및 요구사항
계정과 진행 상황을 보호하세요. 이 실습을 실행하려면 항상 시크릿 브라우저 창과 실습 사용자 인증 정보를 사용하세요.

Dataflow를 사용한 서버리스 데이터 처리 - Dataflow 작업의 모니터링, 로깅, 오류 보고

실습 2시간 universal_currency_alt 크레딧 5개 show_chart 고급
info 이 실습에는 학습을 지원하는 AI 도구가 통합되어 있을 수 있습니다.
이 콘텐츠는 아직 휴대기기에 최적화되지 않음
최상의 경험을 위해 데스크톱 컴퓨터에서 이메일로 전송된 링크를 사용하여 방문하세요.

개요

이 실습에서 학습할 내용은 다음과 같습니다.

  • 알림 정책 만들기
  • 파이프라인에 대한 간단한 문제 해결 수행
  • 진단 및 BQ 탭의 작동 방식 알아보기
  • Error Reporting 페이지 살펴보기

기본 요건

Python에 대한 기본 지식

설정 및 요건

각 실습에서는 정해진 기간 동안 새 Google Cloud 프로젝트와 리소스 집합이 무료로 제공됩니다.

  1. 시크릿 창을 사용하여 Google Skills에 로그인합니다.

  2. 실습 사용 가능 시간(예: 1:15:00)을 참고하여 해당 시간 내에 완료합니다. 일시중지 기능은 없습니다. 필요한 경우 다시 시작할 수 있지만 처음부터 시작해야 합니다.

  3. 준비가 되면 실습 시작을 클릭합니다.

  4. 실습 사용자 인증 정보(사용자 이름비밀번호)를 기록해 두세요. Google Cloud Console에 로그인합니다.

  5. Google Console 열기를 클릭합니다.

  6. 다른 계정 사용을 클릭한 다음, 안내 메시지에 실습에 대한 사용자 인증 정보를 복사하여 붙여넣습니다. 다른 사용자 인증 정보를 사용하는 경우 오류가 발생하거나 요금이 부과됩니다.

  7. 약관에 동의하고 리소스 복구 페이지를 건너뜁니다.

Google Cloud Shell 활성화하기

Google Cloud Shell은 다양한 개발 도구가 탑재된 가상 머신으로, 5GB의 영구 홈 디렉터리를 제공하며 Google Cloud에서 실행됩니다.

Google Cloud Shell을 사용하면 명령줄을 통해 Google Cloud 리소스에 액세스할 수 있습니다.

  1. Cloud 콘솔의 오른쪽 상단 툴바에서 'Cloud Shell 열기' 버튼을 클릭합니다.

    강조 표시된 Cloud Shell 아이콘

  2. 계속을 클릭합니다.

환경을 프로비저닝하고 연결하는 데 몇 분 정도 소요됩니다. 연결되면 사용자가 미리 인증되어 프로젝트가 PROJECT_ID로 설정됩니다. 예:

Cloud Shell 터미널에 강조 표시된 프로젝트 ID

gcloud는 Google Cloud의 명령줄 도구입니다. Cloud Shell에 사전 설치되어 있으며 명령줄 자동 완성을 지원합니다.

  • 다음 명령어를 사용하여 사용 중인 계정 이름을 나열할 수 있습니다.
gcloud auth list

출력:

Credentialed accounts: - @.com (active)

출력 예시:

Credentialed accounts: - google1623327_student@qwiklabs.net
  • 다음 명령어를 사용하여 프로젝트 ID를 나열할 수 있습니다.
gcloud config list project

출력:

[core] project =

출력 예시:

[core] project = qwiklabs-gcp-44776a13dea667a6 참고: gcloud 전체 문서는 gcloud CLI 개요 가이드를 참조하세요.

프로젝트 권한 확인

Google Cloud에서 작업을 시작하기 전에 프로젝트가 Identity and Access Management(IAM) 내에서 올바른 권한을 보유하고 있는지 확인해야 합니다.

  1. Google Cloud 콘솔의 탐색 메뉴(탐색 메뉴 아이콘)에서 IAM 및 관리자 > IAM을 선택합니다.

  2. 기본 컴퓨팅 서비스 계정 {project-number}-compute@developer.gserviceaccount.com이 있고 editor 역할이 할당되어 있는지 확인하세요. 계정 프리픽스는 프로젝트 번호이며, 이 번호는 탐색 메뉴 > Cloud 개요 > 대시보드에서 확인할 수 있습니다.

Compute Engine 기본 서비스 계정 이름과 편집자 상태가 강조 표시된 권한 탭 페이지

참고: 계정이 IAM에 없거나 editor 역할이 없는 경우 다음 단계에 따라 필요한 역할을 할당합니다.
  1. Google Cloud 콘솔의 탐색 메뉴에서 Cloud 개요 > 대시보드를 클릭합니다.
  2. 프로젝트 번호(예: 729328892908)를 복사합니다.
  3. 탐색 메뉴에서 IAM 및 관리자 > IAM을 선택합니다.
  4. 역할 테이블 상단에서 주 구성원별로 보기 아래에 있는 액세스 권한 부여를 클릭합니다.
  5. 새 주 구성원 필드에 다음을 입력합니다.
{project-number}-compute@developer.gserviceaccount.com
  1. {project-number}는 프로젝트 번호로 바꿉니다.
  2. 역할 필드에서 프로젝트(또는 기본) > 편집자를 선택합니다.
  3. 저장을 클릭합니다.

작업 1. 가상 환경 생성 및 종속 항목 설치

  1. 이 실습에서 작업할 가상 환경을 만듭니다.
sudo apt-get install -y python3-venv python3 -m venv df-env source df-env/bin/activate
  1. 다음으로 파이프라인을 실행하는 데 필요한 패키지를 설치합니다.
python3 -m pip install -q --upgrade pip setuptools wheel python3 -m pip install apache-beam[gcp]
  1. 마지막으로 Dataflow API가 사용 설정되어 있는지 확인합니다.
gcloud services enable dataflow.googleapis.com

작업 2. 알림 정책 만들기

이 섹션에서는 조건이 충족되면 트리거되는 알림 정책을 만듭니다.

  1. Google Cloud 콘솔 제목 표시줄의 검색 필드에 Monitoring을 입력하고 검색을 클릭한 다음 Monitoring을 클릭합니다.

  2. 왼쪽 탐색창에서 알림을 클릭합니다.

  3. 알림 페이지에서 + 정책 만들기를 클릭합니다.

  4. 측정항목 선택 드롭다운을 클릭하고 활성을 선택 해제합니다.

    a. 필터에 리소스 및 측정항목 이름으로 Dataflow 작업을 입력하고 Dataflow 작업 > 작업을 클릭합니다. Failed를 선택하고 적용을 클릭합니다.

    b. 순환 기간 함수Sum으로 설정합니다.

    c. 다음을 클릭합니다. 기준값으로 0을 설정합니다.

  5. 다음 버튼을 클릭하여 알림 구성 및 알림 완료 단계로 이동합니다.

  6. 로드된 양식에서 알림 채널 드롭다운 메뉴를 클릭한 다음 알림 채널 관리를 클릭합니다.

그러면 지원되는 알림 채널 유형이 나열된 새 창이 열립니다.

  1. 이메일이라고 표시된 행으로 스크롤한 다음, 맨 오른쪽에 있는 새로 추가를 클릭합니다.

    a. 이메일 주소에 개인 이메일 주소를 입력합니다.

    참고: Google Skills 학생 계정 이메일은 임시 계정이므로 작동하지 않습니다.

    b. 표시 이름Qwiklabs Student를 입력합니다.

    c. 저장을 클릭합니다. 이제 이 창을 닫고 이전의 알림 정책 만들기 창으로 돌아갑니다.

  2. 알림 채널 관리 왼쪽에 있는 새로고침 아이콘을 클릭합니다.

  3. 그런 다음 알림 채널 드롭다운 메뉴를 다시 클릭합니다. 이번에는 방금 추가한 학생 계정의 표시 이름이 표시됩니다.

  4. 표시 이름인 Qwiklabs Student 왼쪽에 있는 체크박스를 선택하고 확인을 클릭합니다.

  5. 텍스트 상자에 Failed Dataflow Job알림 이름으로 입력합니다.

  6. 다음을 다시 클릭합니다.

  7. 알림을 검토한 후 정책 만들기를 클릭합니다.

내 진행 상황 확인하기를 클릭하여 목표를 확인합니다. 알림 정책 만들기

작업 3. Dataflow에서 파이프라인 시작 실패

  1. 아래 파이프라인의 코드를 검토합니다.
import argparse import logging import argparse, logging, os import apache_beam as beam from apache_beam.io import WriteToText from apache_beam.options.pipeline_options import PipelineOptions class ReadGBK(beam.DoFn): def process(self, e): k, elems = e for v in elems: logging.info(f"the element is {v}") yield v def run(argv=None): parser = argparse.ArgumentParser() parser.add_argument( '--output', dest='output', help='Output file to write results to.') known_args, pipeline_args = parser.parse_known_args(argv) read_query = """( SELECT version, block_hash, block_number FROM `bugquery-public-data.crypto_bitcoin.transactions` WHERE version = 1 LIMIT 1000000 ) UNION ALL ( SELECT version, block_hash, block_number FROM `bigquery-public-data.crypto_bitcoin.transactions` WHERE version = 2 LIMIT 1000 ) ;""" p = beam.Pipeline(options=PipelineOptions(pipeline_args)) (p | 'Read from BigQuery' >> beam.io.ReadFromBigQuery(query=read_query, use_standard_sql=True) | "Add Hotkey" >> beam.Map(lambda elem: (elem["version"], elem)) | "Groupby" >> beam.GroupByKey() | 'Print' >> beam.ParDo(ReadGBK()) | 'Sink' >> WriteToText(known_args.output)) result = p.run() if __name__ == '__main__': logger = logging.getLogger().setLevel(logging.INFO) run()
  1. Cloud Shell에서 my_pipeline.py라는 새 파일을 엽니다. 위의 코드를 복사하여 이 파일에 붙여넣고 원하는 텍스트 편집기(아래 예시는 Vim)를 사용하여 저장합니다.
vi my_pipeline.py
  1. 코드를 파일에 붙여넣은 후에는 반드시 저장해야 합니다.

  2. 아래 명령어를 실행하여 스토리지 버킷을 만듭니다.

export PROJECT_ID=$(gcloud config get-value project) gcloud storage buckets create gs://$PROJECT_ID --location=US
  1. 다음으로 아래 명령어를 사용하여 파이프라인을 실행해 봅니다. 명령어는 실패할 것입니다.
# Attempt to launch the pipeline python3 my_pipeline.py \ --project=${PROJECT_ID} \ --region={{{project_0.default_region | Region}}} \ --tempLocation=gs://$PROJECT_ID/temp/ \ --runner=DataflowRunner

위의 파이프라인 실행 명령어는 아래 스크린샷에 표시된 것과 비슷한 스택 트레이스가 표시되며 실패합니다.

명령줄 터미널의 역추적 출력

이 오류는 Beam 측에서 발생합니다. 코드에서 WriteToText(known_args.output)를 지정합니다. --output 플래그를 전달하지 않았으므로 코드가 Beam 검증을 통과하지 못했고 Dataflow에서 실행할 수 없었습니다. 이 작업이 Dataflow에 도달하지 않았으므로 이 시작 작업과 연결된 작업 ID가 없습니다. 즉, 받은편지함에 알림 이메일이 표시되지 않아야 합니다.

내 진행 상황 확인하기를 클릭하여 목표를 확인합니다. Dataflow에서 파이프라인 시작 실패

작업 4. 잘못된 BigQuery 테이블

이 섹션에서는 필수 --output 플래그를 사용하여 파이프라인을 다시 실행해 봅니다. 이렇게 하면 Dataflow 파이프라인이 성공적으로 실행되지만, 잘못된 BigQuery 테이블을 의도적으로 추가했기 때문에 몇 분 후에 작업이 실패합니다. 이렇게 하면 알림 정책이 트리거되고 알림 이메일이 전송됩니다.

  1. 터미널에서 다음 명령어를 실행하여 파이프라인을 실행합니다.
# Launch the pipeline python3 my_pipeline.py \ --project=${PROJECT_ID} \ --region={{{project_0.default_region | Region}}} \ --output gs://$PROJECT_ID/results/prefix \ --tempLocation=gs://$PROJECT_ID/temp/ \ --max_num_workers=5 \ --runner=DataflowRunner
  1. Google Cloud 콘솔 제목 표시줄의 검색 필드에 Dataflow를 입력하고 검색을 클릭한 다음, Dataflow를 클릭합니다.

  2. 작업을 클릭합니다.

  3. 해당 페이지에 나열된 Dataflow 작업을 클릭합니다.

약 4분 정도 기다리면 작업이 실패하는 것을 확인할 수 있습니다. 그러면 알림 정책이 트리거되고 이메일 받은편지함에서 알림 이메일을 확인할 수 있습니다.

  1. Dataflow 파이프라인 작업 그래프 아래에 로그 패널이 표시됩니다. 표시를 클릭합니다. 그러면 작업 로그, 작업자 로그, 진단, BigQuery 작업, 데이터 샘플링 탭이 표시됩니다.

  2. 작업 로그 탭을 클릭하고 로그 항목을 살펴봅니다.

  3. 다음으로 작업자 로그 탭을 클릭하고 해당 로그도 살펴봅니다.

19개의 메시지를 표시하는 작업 로그 탭 페이지

참고: 로그를 클릭하면 확장할 수 있습니다. 반복되는 로그는 진단 탭에 표시될 수 있습니다.
  1. 진단 탭을 클릭하면 클릭 가능한 링크가 표시됩니다.

  2. 클릭하면 Error Reporting 페이지로 이동합니다. 이렇게 하면 오류의 확장된 뷰가 표시됩니다. 스택 트레이스를 살펴보면 파이프라인 코드에 오타가 있는 문제를 확인할 수 있습니다.

파싱된 탭 페이지의 코드 줄

코드에서 bigquery가 의도적으로 bugquery로 잘못 입력되어 있으므로 Dataflow 작업이 실패하고 이메일을 보내도록 알림 정책이 트리거됩니다. 다음 섹션에서는 코드를 수정하고 파이프라인을 다시 실행합니다.

내 진행 상황 확인하기를 클릭하여 목표를 확인합니다. 잘못된 BigQuery 테이블

작업 5. 과도한 로깅

  1. 텍스트 편집기(예: Vim 또는 선호하는 편집기)를 사용하여 my_pipeline.py 파일을 열고 bugquerybigquery로 바꿔 코드를 수정합니다.

    참고: 코드에서 SELECT 문에 bugquery-public-data.crypto_bitcoin.transactionsbugquery라는 오타가 있는 것을 확인할 수 있습니다. bigquery-public-data.crypto_bitcoin.transactions로 변경합니다.
  2. 터미널에서 다음 명령어를 실행하여 파이프라인을 실행합니다.

# Launch the pipeline python3 my_pipeline.py \ --project=${PROJECT_ID} \ --region={{{project_0.default_region | Region}}} \ --output gs://$PROJECT_ID/results/prefix \ --tempLocation=gs://$PROJECT_ID/temp/ \ --max_num_workers=5 \ --runner=DataflowRunner

파이프라인이 완료되는 데 약 7분이 소요됩니다.

  1. Google Cloud 콘솔 제목 표시줄의 검색 필드에 Dataflow를 입력하고 검색을 클릭한 다음, Dataflow를 클릭합니다.

  2. 작업을 클릭합니다. 이 새 작업을 클릭하면 작업 그래프 페이지의 맨 오른쪽에 작업 상태succeeded로 표시됩니다. 작업이 완료되지 않은 경우 성공적으로 완료될 때까지 기다려 주세요.

  3. 하단의 로그를 펼치고 작업자 로그 탭에서 로그를 검토합니다.

아래 스크린샷과 같이 작업자 로그 탭에 the element is {'version' : ....... } 형식의 로그 항목이 표시됩니다.

350개의 메시지를 표시하는 작업자 로그 탭 페이지

이러한 항목은 파이프라인 코드의 다음 줄 때문에 로깅됩니다.

logging.info(f"the element is {v}")
  1. 진단 탭을 클릭하면 로그 제한에 관한 메시지가 표시됩니다.

오류 메시지를 표시하는 진단 탭 페이지

  1. 클릭하고 Error Reporting 페이지로 이동합니다. 과도한 로깅이 작업 인사이트로 제기되며, 공개 문서 링크를 통해 문제가 무엇인지를 보여줍니다.

이 문제를 간단히 해결하려면 파이프라인 코드에서 로깅 코드 줄을 삭제하고 Dataflow 파이프라인을 다시 실행하면 됩니다. 완료되면 진단 탭에 동일한 메시지가 더 이상 표시되지 않습니다.

참고: 이 실습을 완료하기 위해 이 파이프라인을 다시 실행할 필요는 없습니다.
  1. 브라우저에서 뒤로 버튼을 클릭하여 Dataflow 작업 페이지로 돌아갑니다.

  2. 확장된 로그 패널에서 BigQuery 작업 탭을 클릭합니다. 데이터 위치 드롭다운 메뉴에서 us(미국 내 여러 리전)를 선택하고 BigQuery 작업 로드를 클릭합니다. 그런 다음 확인을 클릭합니다.

BigQuery 작업 탭 페이지

파이프라인의 일부였던 두 개의 작업이 나열됩니다.

  1. 첫 번째 작업의 맨 오른쪽에 있는 명령줄을 클릭하고 팝업에서 Cloud Shell에서 실행을 클릭합니다.

그러면 명령어가 Cloud Shell에 붙여넣어집니다. 명령어를 실행해야 합니다.

  1. 명령어의 출력은 BigQuery에 읽기/쓰기를 수행하는 데 사용된 파일 위치, 크기, 작업에 걸린 시간을 보여줍니다. BigQuery 작업이 실패한 경우 여기에서 실패 원인을 찾아볼 수 있습니다.

출력

내 진행 상황 확인하기를 클릭하여 목표를 확인합니다. 과도한 로깅

실습 종료하기

실습을 완료하면 실습 종료를 클릭합니다. Google Skills에서 사용된 리소스를 자동으로 삭제하고 계정을 지웁니다.

실습 경험을 평가할 수 있습니다. 해당하는 별표 수를 선택하고 의견을 입력한 후 제출을 클릭합니다.

별점의 의미는 다음과 같습니다.

  • 별표 1개 = 매우 불만족
  • 별표 2개 = 불만족
  • 별표 3개 = 중간
  • 별표 4개 = 만족
  • 별표 5개 = 매우 만족

의견을 제공하고 싶지 않다면 대화상자를 닫으면 됩니다.

의견이나 제안 또는 수정할 사항이 있다면 지원 탭을 사용하세요.

Copyright 2026 Google LLC All rights reserved. Google 및 Google 로고는 Google LLC의 상표입니다. 기타 모든 회사명 및 제품명은 해당 업체의 상표일 수 있습니다.

시작하기 전에

  1. 실습에서는 정해진 기간 동안 Google Cloud 프로젝트와 리소스를 만듭니다.
  2. 실습에는 시간 제한이 있으며 일시중지 기능이 없습니다. 실습을 종료하면 처음부터 다시 시작해야 합니다.
  3. 화면 왼쪽 상단에서 실습 시작을 클릭하여 시작합니다.

시크릿 브라우징 사용

  1. 실습에 입력한 사용자 이름비밀번호를 복사합니다.
  2. 비공개 모드에서 콘솔 열기를 클릭합니다.

콘솔에 로그인

    실습 사용자 인증 정보를 사용하여
  1. 로그인합니다. 다른 사용자 인증 정보를 사용하면 오류가 발생하거나 요금이 부과될 수 있습니다.
  2. 약관에 동의하고 리소스 복구 페이지를 건너뜁니다.
  3. 실습을 완료했거나 다시 시작하려고 하는 경우가 아니면 실습 종료를 클릭하지 마세요. 이 버튼을 클릭하면 작업 내용이 지워지고 프로젝트가 삭제됩니다.

현재 이 콘텐츠를 이용할 수 없습니다

이용할 수 있게 되면 이메일로 알려드리겠습니다.

감사합니다

이용할 수 있게 되면 이메일로 알려드리겠습니다.

한 번에 실습 1개만 가능

모든 기존 실습을 종료하고 이 실습을 시작할지 확인하세요.

시크릿 브라우징을 사용하여 실습 실행하기

이 실습을 실행하는 가장 좋은 방법은 시크릿 모드 또는 시크릿 브라우저 창을 사용하는 것입니다. 개인 계정과 학생 계정 간의 충돌로 개인 계정에 추가 요금이 발생하는 일을 방지해 줍니다.