Google Cloud 기초: BigQuery 시작하기 | Google Skills for Partners

Load data from Cloud Storage into BigQuery

내 진행 상황 확인하기

/ 10

이 실습에는 학습을 지원하는 AI 도구가 통합되어 있을 수 있습니다.

개요

이번 실습에서는 BigQuery 테이블에 웹 서버 로그를 로드해보고, 데이터를 로드한 후에는 BigQuery 웹 사용자 인터페이스 및 BigQuery CLI를 사용해 이 데이터를 쿼리하겠습니다.

BigQuery를 사용하면 페타바이트 규모의 데이터베이스를 양방향으로 분석할 수 있으며 거의 실시간으로 대규모 데이터 세트를 분석할 수도 있습니다. 또한 널리 사용되는 SQL 2011 쿼리 언어 및 함수를 제공합니다.

BigQuery에 저장된 데이터는 내구성이 매우 우수합니다. Google은 기본적으로 사용자의 데이터를 복제하여 저장하며 복제본에 대한 비용은 청구하지 않습니다. BigQuery는 사용한 리소스의 비용만 지불하면 됩니다. BigQuery 데이터 스토리지는 저렴합니다. 쿼리 비용은 처리되는 데이터의 양에 따라 청구됩니다. 쿼리를 제출하고 나면 쿼리 시간의 컴퓨팅 노드만큼의 비용만 지불하면 되고 컴퓨팅 클러스터를 계속 실행시키기 위한 비용은 지불하지 않아도 됩니다.

BigQuery를 사용하다 보면 프로젝트(이 과정의 다른 부분에서 다룸), 데이터 세트, 테이블, 작업 등 여러 가지 Google Cloud 리소스와 상호작용하게 됩니다. 이 실습에서는 이러한 리소스 중 몇 가지를 소개하면서 BigQuery와 상호작용할 때 리소스의 역할을 간단히 보여줍니다.

데이터 세트: 데이터 세트는 0개 이상의 테이블을 포함하는 그룹화 메커니즘입니다. 데이터 세트는 액세스 제어에서 가장 낮은 수준의 단위입니다. 데이터 세트는 GCP 프로젝트에서 소유하며 각 데이터 세트는 개별 사용자와 공유할 수 있습니다.

테이블: 테이블은 행과 열로 구성된 구조로서 실제 데이터를 포함하고 있습니다. 각 테이블에는 강력하게 유형화된 값의 열을 설명하는 스키마가 있고 모든 테이블은 데이터 세트에 속해 있습니다.

목표

이번 실습에서는 다음 작업의 실행 방법을 알아봅니다.

Cloud Storage에서 BigQuery로 데이터를 로드합니다.
BigQuery에 있는 데이터를 쿼리합니다.

작업 1. Google Cloud 콘솔에 로그인

각 실습에서는 정해진 기간 동안 새 Google Cloud 프로젝트와 리소스 집합이 무료로 제공됩니다.

시크릿 창을 사용하여 Qwiklabs에 로그인합니다.
실습 사용 가능 시간(예: 1:15:00)을 참고하여 해당 시간 내에 완료합니다.
일시중지 기능은 없습니다. 필요한 경우 다시 시작할 수 있지만 처음부터 시작해야 합니다.
준비가 되면 실습 시작을 클릭합니다.
실습 사용자 인증 정보(사용자 이름 및 비밀번호)를 기록해 두세요. Google Cloud Console에 로그인합니다.
Google Console 열기를 클릭합니다.
다른 계정 사용을 클릭한 다음, 안내 메시지에 이 실습에 대한 사용자 인증 정보를 복사하여 붙여넣습니다.
다른 사용자 인증 정보를 사용하는 경우 오류가 발생하거나 요금이 부과됩니다.
약관에 동의하고 리소스 복구 페이지를 건너뜁니다.

할당받은 리전이 미국 또는 유럽 중 어디에 가까운지 기록해 둡니다.

작업 2. Cloud Storage에서 BigQuery로 데이터 로드

이 작업에서는 CSV 파일 형식을 사용하고 스키마 생성에 BigQuery의 자동 감지 기능을 활용하여 새 데이터 세트(logdata)와 테이블(accesslog)을 만들어 공개 Cloud Storage 버킷의 외부 데이터를 BigQuery로 직접 가져옵니다.

Google Cloud 콘솔의 탐색 메뉴()에서 BigQuery를 클릭한 다음 완료를 클릭합니다.
탐색기 섹션의 프로젝트 ID 옆에서 작업 보기 아이콘을 클릭하여 프로젝트 내에 새로운 데이터 세트를 만듭니다. 그런 다음 데이터 세트 만들기를 선택합니다.
데이터 세트 만들기 대화상자의 데이터 세트 ID에 logdata를 입력합니다.
위치 유형으로 US(미국 내 여러 리전)를 선택합니다.
데이터 세트 만들기를 클릭합니다.
프로젝트 ID를 펼치고 logdata 데이터 세트 옆에 있는 작업 보기 아이콘을 클릭합니다.
테이블 만들기를 선택합니다.

테이블 만들기 페이지에서 다음을 지정하고 나머지 설정은 기본값으로 둡니다.

속성	값
테이블을 만들 소스	Google Cloud Storage
GCS 버킷에서 파일 선택	cloud-training/gcpfci/access_log.csv
파일 형식	CSV
대상 데이터 세트 이름	logdata
대상 테이블 이름	accesslog
대상 테이블 유형	네이티브 테이블

참고: 이전에 테이블을 만들었다면 '이전 작업에서 만들기' 옵션을 사용하여 사용자 설정으로 유사한 테이블을 빨리 만들 수 있습니다.

스키마에서 자동 감지를 선택합니다.
나머지는 기본값을 적용하고 테이블 만들기를 클릭합니다.

BigQuery에서 테이블을 만들고 여기에 데이터를 업로드하기 위한 로드 작업이 생성됩니다(몇 초 정도 걸릴 수 있음).
(선택사항) 작업 진행 상황을 추적하려면 작업 기록을 클릭합니다.
로드 작업이 완료되면 logdata > accesslog를 클릭합니다.
테이블 세부정보 페이지에서 세부정보를 클릭하여 테이블 속성을 본 다음 미리보기를 클릭하여 테이블 데이터를 봅니다.

이 테이블에 있는 각 행은 웹 서버의 조회 로그를 나타냅니다. 첫 번째 필드의 string_field_0은 클라이언트의 IP 주소입니다. 4~9번째 필드는 조회가 발생한 일, 월, 연도, 시간, 분, 초의 로그입니다. 이 활동에서는 웹 서버의 일일 로드 패턴에 관해 알아봅니다.

진행 상황 확인을 클릭하여 목표를 확인합니다. Cloud Storage에서 BigQuery로 데이터 로드

작업 3. BigQuery 웹 UI를 사용해 데이터 쿼리

이 작업에서는 이전에 만든 accesslog 테이블을 BigQuery 웹 UI를 사용하여 쿼리합니다.

쿼리 편집기 창에 다음 쿼리를 입력하거나 복사하여 붙여넣습니다.
BigQuery에 데이터 로드 시 자동으로 스키마를 조회하라고 지시했기 때문에 각 웹 조회가 도착한 시간대가 int_field_6 필드에 표시됩니다.
select int64_field_6 as hour, count(*) as hitcount from logdata.accesslog group by hour order by hour
쿼리 검사기에서 쿼리 문법이 유효(초록색 체크표시로 표시됨)함을 알 수 있으며 쿼리에서 처리할 데이터양이 표시됩니다. 처리될 데이터양을 고려해 Google Cloud 가격 계산기를 사용하면 쿼리 비용을 알 수 있습니다.
실행을 클릭하고 결과를 확인합니다. 웹사이트 조회 수가 가장 많은 시간대는 언제인가요? 조회 수가 가장 적은 시간대는 언제인가요?

작업 4. bq 명령어를 사용해 데이터 쿼리

이 작업에서는 Cloud Shell에서 bq 명령어를 사용해 이전에 만든 accesslog 테이블을 쿼리합니다.

Google Cloud 콘솔에서 Cloud Shell 활성화()를 클릭한 다음 계속을 클릭합니다. 메시지가 표시되면 승인을 클릭합니다.
Cloud Shell 프롬프트에 다음 명령어를 입력합니다.
bq query "select string_field_10 as request, count(*) as requestcount from logdata.accesslog group by request order by requestcount desc"
bq 명령어를 처음으로 사용하면 명령어가 Google Cloud 사용자 인증 정보를 캐시한 다음 기본 프로젝트를 선택하라고 요청합니다. Qwiklabs에서 할당받은 프로젝트를 선택합니다. 프로젝트 이름은 qwiklabs-gcp-에 16진수 숫자가 붙은 형식입니다.

그러면 bq 명령어가 명령줄에서 요청된 작업을 실행합니다. 웹 서버에서 제공된 URL 중 가장 인기 있었던 URL은 무엇인가요? 가장 인기가 없었던 URL은 무엇인가요?

수고하셨습니다.

이번 실습에서는 Cloud Storage에 저장된 데이터를 Google BigQuery에 호스팅된 테이블에 로드해봤습니다. 그런 다음 데이터를 쿼리하여 패턴을 확인했습니다.

실습 종료하기

실습을 완료하면 실습 종료를 클릭합니다. Google Cloud Skills Boost에서 사용된 리소스를 자동으로 삭제하고 계정을 지웁니다.

실습 경험을 평가할 수 있습니다. 해당하는 별표 수를 선택하고 의견을 입력한 후 제출을 클릭합니다.

별점의 의미는 다음과 같습니다.

별표 1개 = 매우 불만족
별표 2개 = 불만족
별표 3개 = 중간
별표 4개 = 만족
별표 5개 = 매우 만족

의견을 제공하고 싶지 않다면 대화상자를 닫으면 됩니다.

의견이나 제안 또는 수정할 사항이 있다면 지원 탭을 사용하세요.

개요

목표

작업 1. Google Cloud 콘솔에 로그인

작업 2. Cloud Storage에서 BigQuery로 데이터 로드

작업 3. BigQuery 웹 UI를 사용해 데이터 쿼리

작업 4. bq 명령어를 사용해 데이터 쿼리

수고하셨습니다.

실습 종료하기

시작하기 전에

시크릿 브라우징 사용

콘솔에 로그인

시크릿 브라우징을 사용하여 실습 실행하기