본문으로 건너뛰기
데이터 엔지니어
50

데이터 엔지니어 코스

커넥터 · 파이프라인 · 코드 노드 · 스케줄링 · 디버깅까지, 엔지니어가 포털에서 데이터를 가져오고 자동화하기까지의 한 사이클을 6 레슨으로 끝까지 따라갑니다.

0/6 완료

코스 소개

D.Hub 포털을 데이터 엔지니어 시점에서 익히는 코스입니다. 분석가 코스가 "이미 있는 데이터 위에 화면을 만드는 사람"의 흐름이라면, 엔지니어 코스는 그 "이미 있는 데이터"가 어떻게 거기 있게 되는지 — 외부 시스템에서 가져오고, 변환하고, 매일 자동으로 돌고, 실패하면 어떻게 알아채고 고치는지 — 의 한 사이클을 6 레슨으로 끝까지 갑니다. 합쳐서 약 50분.

레슨 한 개는 5–10분 단위. 한 자리에서 끝까지 가도, 하루에 한두 개씩 끊어 가도 됩니다.

사전 준비

  • 포털 접근 권한 (Editor 이상). 커넥터 등록과 파이프라인 실행 권한이 필요.
  • 분석가 코스를 끝냈거나, 컬렉션·데이터셋의 기본 개념을 알고 있다는 가정.
  • 다음 중 하나의 실습용 데이터 출처
    • 사내 운영 DB의 읽기 전용 계정, 또는
    • 1만 행 정도의 CSV 한 개 (커넥터 레슨에서 일부 단계를 우회 가능)

dbt·Airflow·Snowflake 같은 외부 도구를 다뤄 봤다면 매핑이 빠릅니다. 필수는 아니고, 01 레슨에서 이 도구들과 포털 표면의 대응을 한 표로 정리합니다.

완료 후 할 수 있는 것

  • 엔지니어가 포털에서 자주 머무는 네 표면(커넥터·파이프라인·코드·데이터셋)의 입출력과 역할 경계를 설명한다.
  • 외부 시스템에 커넥터 하나를 등록하고 운영 데이터를 포털 데이터셋으로 떨어뜨린다.
  • 워크플로우 편집기에서 source → 변환 → sink 흐름의 첫 파이프라인을 한 사이클 돌린다.
  • 표준 노드로 못 끝내는 변환을 Python 또는 SQL 코드 노드로 짠다.
  • 같은 파이프라인을 정해진 주기로 자동 실행시키고, 실패 시 알림이 오게 설정한다.
  • 실행이 실패하면 로그와 노드 상태로 원인을 좁히고, 재실행 또는 부분 재실행을 결정한다.
  • 자기가 만든 데이터셋의 권한을 정리해 분석가에게 깔끔히 인계한다.

이 코스 다음에 무엇이 있을까

엔지니어 흐름 안에서 더 깊이 들어갈 후보.

  • 워크숍: 리테일 재고 인텔리전스 — 이 코스의 모든 표면(커넥터·파이프라인·코드 노드·스케줄)이 도메인 시나리오 한 건에서 한 번에 엮입니다. 분석가와 같이 한 사이클 가는 흐름. 약 90분.
  • 튜토리얼: 시나리오 빠른 importdhub2-examples의 한 시나리오를 자기 환경에 1줄로 적재. 워크숍 1단계와 같은 도구를 미리 만져 봅니다.
  • 분석가 코스 — 자기가 만든 데이터셋이 분석가의 컬렉션 트리에 어떻게 보이는지 직접 확인하고 싶을 때. 06 레슨의 인계 직전 단계를 분석가 시점으로 한 번 더 거치는 효과.

각 레슨 옆 체크박스를 채우면 진척이 자동 기록됩니다.

Lessons

  1. 01엔지니어 워크플로 개요엔지니어가 포털에서 다루는 네 표면 — 커넥터 · 파이프라인 · 코드 · 데이터셋 — 의 입출력과 dbt · Airflow와의 대응을 한 표로 정리합니다.
    7
  2. 02커넥터로 외부 데이터 가져오기외부 DB · S3 · REST API에 커넥터 한 개를 등록하고 운영 데이터를 포털 데이터셋으로 떨어뜨리기까지의 흐름을 인증 · 스키마 · 권한 세 축으로 정리합니다.
    9
  3. 03첫 파이프라인 — 노드 세 개와 한 번의 실행워크플로우 편집기에서 source → 변환 → sink 노드 세 개를 잇고 실행해, 직전 레슨에서 떨어뜨린 원본 데이터셋을 분석가에게 노출할 수 있는 마트 데이터셋으로 한 사이클 만들어 봅니다.
    8
  4. 04코드 노드 — Python · SQL로 변환 작성하기표준 노드(필터 · 집계 · 조인)가 못 끝내는 변환을 만났을 때 코드 노드로 짧은 Python 또는 SQL을 끼워 같은 파이프라인 안에서 처리합니다.
    9
  5. 05스케줄링과 실행 모드 — 매일 자동으로 도는 파이프라인같은 파이프라인을 cron 또는 이벤트 기반으로 자동 실행시키고, overwrite · append · CDC 실행 모드와 실패 시 통보 채널을 정합니다.
    8
  6. 06디버깅 · 모니터링 · 분석가에 인계운영 중 실패한 파이프라인의 원인을 로그 · 노드 상태 · 데이터 미리보기 세 면으로 좁히고, 같은 표면에서 데이터셋 권한을 정리해 분석가에게 인계하기까지를 한 사이클로 닫습니다.
    9