지지플랏의 DataScience

[글또]Analytics Engineer 직무 뜯어보기 본문

Data Science

[글또]Analytics Engineer 직무 뜯어보기

지지플랏 2024. 1. 21. 23:36

글의 목적

데이터 분석은 self serving부터 시작한다는 가치관을 가지고 일을 하다 보니 엔지니어링 프레임워크 관심을 두게 되었다. 이런 흐름을 반영하듯 Analytic Engineer 직무가 최근에 국내 기업에도 도입되고 있는 것 같아서 구직활동 겸 공부해본다. 

대상독자

  1. Analytic Engineer에 관심 있는 현직자, 취준생
  2. 데이터 분야에 흐름이 궁금한 개발/데이터 직군

1. Analytics Engineer(AE) 출현배경

데이터의 저장비용하락과 처리기술의 발전으로 빅데이터 직군이 태동하면서 빅데이터 관련 직무들이 많이 파생되어 가는 것은 잘 알려진 사실이다. 이 부분은 성윤님의 유튜브에서 잘 설명된 장표가 있어서 대체한다.

카일스쿨 - 요즘 데이터 분석가의 현실, 데이터 분석 직군 세분화 트렌드

데이터 산업이 발전함에 따라 기존의 세부직군도 회사에 따라 재정의 되며 나눠지게 되었고 그 대표적인 예가 기존에 데이터분석가가 비즈니스 결정을 돕는 비즈니스분석가서비스의 발전을 지향하는 프로덕트 분석가로 나누어진 것 이다.

이런 상황에서 데이터 엔지니어와 데이터분석가의 gap을 채워줄 중간자의 역할로 Analytics Engineer가 새로운 직군으로 나타난 것은 비슷한 결의 현상으로 예상할 수 있다. 데이터를 self-serving 하는 역량이 꽤나 중요해졌고 기존 데이터 분석가에게는 실험과 인사이트 발굴에 집중해야 하는 데이터분석가에게는 프로그래밍 역량도 높다고 기대하기 어려우니 그 현실을 반영하는 것 같다. 

AE는 Glassdoor에 이미 2만개에 가까운 공고들이 있다. DA는 1만개, DE는 3천개인 것과 대조적



2. Analytics Engineer 가 해야할 일

데이터그룹 성숙도에 따른 역할 분할

이런 출현 배경 속에서 AE가 할일은 당연히 엔지니어링과 데이터 분석 그 어딘가 일 것이다. AE 자체가 직군을 세분화하면서 만들어진 상황이다 보니 데이터 그룹의 성숙도에 영향을 받을 수 있다는 점을 참고하면 좋을 것 같다. 따라서 역할을 깊게 이해하려면 데이터 파이프라인의 맥락 속에서 이해해보려 한다.

① 데이터 처리 및 분석 플랫폼

  • 역할: 대규모 데이터 세트의 처리 및 분석을 수행하며, 실시간 및 배치 데이터 처리를 위한 플랫폼을 구축한다. 데이터 처리의 성능과 효율성 향상에 초점
  • 기술 스택 예시
    1. Hadoop: 대규모 데이터 세트를 처리하고 저장하기 위한 오픈소스 프레임워크로 분산 파일 시스템(HDFS)를 사용하여 데이터를 저장하고 대용량 데이터 처리를 수행
    2. Apache Spark: 메모리 기반 분산 컴퓨팅 시스팀. 실시간 처리

② 데이터 모델링 및 웨어하우징

  • 역할: 데이터의 구조화 및 조직화, 데이터 웨어하스 내 테이블과 마트 설계, 데이터 적재 조회 분석을 위한 효휼적인 모델링
  • 기술 스택 예시
  1. SQL 데이터베이스: MySQL과 같은 데이터 웨어하우스에서 테이블 설계 및 관리
  2. 데이터 웨어하우징 솔루션: Amazon RedShift, Snowflake 등 대규모 데이터를 효율적으로 저장하고 분석

③ 데이터 파이프라인 및 오케스트레이션

  • 역할: 데이터의 ETL 과정을 관리하고, 다양한 데이터 소스와 시스템의 데이터 흐름 조율, 파이프라인 자동화 및 최적화
  • 기술 스택 예시: 데이터 파이프라인 워크플로우 관리 플랫폼 Apache Airflow


3. DE, AE, DA 별 차이 정리

  Data Engineer Analytic Engineer Data Analyst
역할 - 데이터 인프라 구축 및 유지에 초점 - 데이터 모델링 및 웨어하우스, 비즈니스 인텔리전스에 초점
- 비즈니스 인사이트, 의사결정에 용이하게 하는 역할
- 비즈니스 인사이트, 의사결정 지원 자체에 초점
기술스택 - DBMS
- 빅데이터 처리 프레임워크(Hadoop, Spark)
- 클라우드 서비스
- 데이터 파이프라인 도구(Airflow, Kafka)
- SQL 및 DBMS
- 데이터 웨어하우스 솔루션(Snowflake, Redshift)
- 데이터 시각화 도구(Tableau, Looker)
- 빅데이터 처리 프레임워크(Hadoop, Spark)
- 데이터 파이프라인 도구(Airflow)
- 데이터 분석 도구 및 언어(SQL, Python, R)
- 데이터 시각화 도구(Tableau, Looker)
주요 업무 - 데이터 저장소 및 파이프라인 구축 및 관리 
- ETL 프로세스 관리
- 데이터 웨어하우스 및 마트 구축
- 데이터 오케스트레이션
- 시각화 분석을 위한 대시보드 및 보고서 작성
- 통계분석, A/B test, 인사이트 제공

 

4. 그래서 공부 뭐해야 함?

결론은 어떻게 입문할까 고민하고 네이버,토스 등 공고를 확인 해보았을 떄 한가지 문장으로 요약될 수 있었다.

DBT, Spark, Airflow,  를 기반으로 한 데이터 파이프라인 개발 지식과 경험

위 성과를 달성하기 위해서 참고해볼만한 컨텐츠를 커뮤너티와 지인들에게 수집해봤는데 아무래도 데이터엔지니어링 관련 과목들 중에 AE의 Job Description에 적용해볼 만한 것을 고르는 게 고민스러웠다. 정리해보자면 다음과 같다.

 

저의 궁금증에 해결해주신 글또의 태훈님.. 감사..!
성윤님의 추추가의견..👍

5. 마무리

생각보다 오랜만에 기술적인 내용을 파려니까 모호한 단어들과 상상력을 동원해서 이해하기가 힘들었다. 아직도 모호하지만 한편으로는 새로운 세계로 진입하게 되는 것 같다 흥미롭기도 엉덩이가 들썩들썩 ~ 이제 공부하자 !

*이 글을 쓰는데 알짜시간으로는  4시간, calender day로 2일 걸렸습니다.

 

6. 출처

 

7. 글또 9기 글 모음