본문 바로가기
Data Science

[글또]Analytics Engineer 직무 뜯어보기

by 지지플랏 2024. 1. 21.
반응형

글의 목적

데이터 분석은 self serving부터 시작한다는 가치관을 가지고 일을 하다 보니 엔지니어링 프레임워크 관심을 두게 되었다. 이런 흐름을 반영하듯 Analytic Engineer 직무가 최근에 국내 기업에도 도입되고 있는 것 같아서 구직활동 겸 공부해본다. 

대상독자

  1. Analytic Engineer에 관심 있는 현직자, 취준생
  2. 데이터 분야에 흐름이 궁금한 개발/데이터 직군

1. Analytics Engineer(AE) 출현배경

데이터의 저장비용하락과 처리기술의 발전으로 빅데이터 직군이 태동하면서 빅데이터 관련 직무들이 많이 파생되어 가는 것은 잘 알려진 사실이다. 이 부분은 성윤님의 유튜브에서 잘 설명된 장표가 있어서 대체한다.

카일스쿨 - 요즘 데이터 분석가의 현실, 데이터 분석 직군 세분화 트렌드

데이터 산업이 발전함에 따라 기존의 세부직군도 회사에 따라 재정의 되며 나눠지게 되었고 그 대표적인 예가 기존에 데이터분석가가 비즈니스 결정을 돕는 비즈니스분석가서비스의 발전을 지향하는 프로덕트 분석가로 나누어진 것 이다.

이런 상황에서 데이터 엔지니어와 데이터분석가의 gap을 채워줄 중간자의 역할로 Analytics Engineer가 새로운 직군으로 나타난 것은 비슷한 결의 현상으로 예상할 수 있다. 데이터를 self-serving 하는 역량이 꽤나 중요해졌고 기존 데이터 분석가에게는 실험과 인사이트 발굴에 집중해야 하는 데이터분석가에게는 프로그래밍 역량도 높다고 기대하기 어려우니 그 현실을 반영하는 것 같다. 

AE는 Glassdoor에 이미 2만개에 가까운 공고들이 있다. DA는 1만개, DE는 3천개인 것과 대조적



2. Analytics Engineer 가 해야할 일

데이터그룹 성숙도에 따른 역할 분할

이런 출현 배경 속에서 AE가 할일은 당연히 엔지니어링과 데이터 분석 그 어딘가 일 것이다. AE 자체가 직군을 세분화하면서 만들어진 상황이다 보니 데이터 그룹의 성숙도에 영향을 받을 수 있다는 점을 참고하면 좋을 것 같다. 따라서 역할을 깊게 이해하려면 데이터 파이프라인의 맥락 속에서 이해해보려 한다.

① 데이터 처리 및 분석 플랫폼

  • 역할: 대규모 데이터 세트의 처리 및 분석을 수행하며, 실시간 및 배치 데이터 처리를 위한 플랫폼을 구축한다. 데이터 처리의 성능과 효율성 향상에 초점
  • 기술 스택 예시
    1. Hadoop: 대규모 데이터 세트를 처리하고 저장하기 위한 오픈소스 프레임워크로 분산 파일 시스템(HDFS)를 사용하여 데이터를 저장하고 대용량 데이터 처리를 수행
    2. Apache Spark: 메모리 기반 분산 컴퓨팅 시스팀. 실시간 처리

② 데이터 모델링 및 웨어하우징

  • 역할: 데이터의 구조화 및 조직화, 데이터 웨어하스 내 테이블과 마트 설계, 데이터 적재 조회 분석을 위한 효휼적인 모델링
  • 기술 스택 예시
  1. SQL 데이터베이스: MySQL과 같은 데이터 웨어하우스에서 테이블 설계 및 관리
  2. 데이터 웨어하우징 솔루션: Amazon RedShift, Snowflake 등 대규모 데이터를 효율적으로 저장하고 분석

③ 데이터 파이프라인 및 오케스트레이션

  • 역할: 데이터의 ETL 과정을 관리하고, 다양한 데이터 소스와 시스템의 데이터 흐름 조율, 파이프라인 자동화 및 최적화
  • 기술 스택 예시: 데이터 파이프라인 워크플로우 관리 플랫폼 Apache Airflow


3. DE, AE, DA 별 차이 정리

  Data Engineer Analytic Engineer Data Analyst
역할 - 데이터 인프라 구축 및 유지에 초점 - 데이터 모델링 및 웨어하우스, 비즈니스 인텔리전스에 초점
- 비즈니스 인사이트, 의사결정에 용이하게 하는 역할
- 비즈니스 인사이트, 의사결정 지원 자체에 초점
기술스택 - DBMS
- 빅데이터 처리 프레임워크(Hadoop, Spark)
- 클라우드 서비스
- 데이터 파이프라인 도구(Airflow, Kafka)
- SQL 및 DBMS
- 데이터 웨어하우스 솔루션(Snowflake, Redshift)
- 데이터 시각화 도구(Tableau, Looker)
- 빅데이터 처리 프레임워크(Hadoop, Spark)
- 데이터 파이프라인 도구(Airflow)
- 데이터 분석 도구 및 언어(SQL, Python, R)
- 데이터 시각화 도구(Tableau, Looker)
주요 업무 - 데이터 저장소 및 파이프라인 구축 및 관리 
- ETL 프로세스 관리
- 데이터 웨어하우스 및 마트 구축
- 데이터 오케스트레이션
- 시각화 분석을 위한 대시보드 및 보고서 작성
- 통계분석, A/B test, 인사이트 제공

 

4. 그래서 공부 뭐해야 함?

결론은 어떻게 입문할까 고민하고 네이버,토스 등 공고를 확인 해보았을 떄 한가지 문장으로 요약될 수 있었다.

DBT, Spark, Airflow,  를 기반으로 한 데이터 파이프라인 개발 지식과 경험

위 성과를 달성하기 위해서 참고해볼만한 컨텐츠를 커뮤너티와 지인들에게 수집해봤는데 아무래도 데이터엔지니어링 관련 과목들 중에 AE의 Job Description에 적용해볼 만한 것을 고르는 게 고민스러웠다. 정리해보자면 다음과 같다.

 

저의 궁금증에 해결해주신 글또의 태훈님.. 감사..!
성윤님의 추추가의견..👍

5. 마무리

생각보다 오랜만에 기술적인 내용을 파려니까 모호한 단어들과 상상력을 동원해서 이해하기가 힘들었다. 아직도 모호하지만 한편으로는 새로운 세계로 진입하게 되는 것 같다 흥미롭기도 엉덩이가 들썩들썩 ~ 이제 공부하자 !

*이 글을 쓰는데 알짜시간으로는  4시간, calender day로 2일 걸렸습니다.

 

6. 출처

 

7. 글또 9기 글 모음

반응형