일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 영화
- 제약
- 임상통계
- CC#3
- 사이허브
- F분포
- Toastmaster
- 공유경제
- 대중연설
- 분석
- 정형데이터
- 영어연설
- 풀러스
- 구글#빅쿼리#데이터분석
- Public Speaking
- CC#5
- 토스트마스터
- 2018계획
- PGTM
- 데분
- SQLD
- 데이터
- 엘뱌키안
- 데이터분석
- 연설
- 취업
- 카이제곱분포
- publicspeaking
- 인과추론
- 평창
- Today
- Total
지지플랏의 DataScience
2024년 데이터 직군이 나가야 할 방향 정리하기 ft. AI시대 데이터직군 생존 전략 본문
데이터 사이언스라는 분야는 앞으로도 건재할까? IT 직군의 데이터분석가는 AI 시대에 영속할까? 아니면 없어지게 될까. 데이터 직군이 나아가야 할 방향을 고민해본 내용을 정리해본다.
1. 글 목차
- 데이터 사이언스는 없어질까?
- 데이터 분석가 직군은 없어질까?
- 기업 사례로 본 데이터직무의 역할
- 데이터 직군은 왜 진입하기 어려운가?
- 앞으로 데이터 분석가의 방향성은?
- 기타) DS & 배포 Framework
2. 본문
2022년 ChatGPT가 발표된 뒤로 IT업계는 AI에 대한 화두를 빼놓은 발표주제가 없다시피 하다. 데이터 분석가는 직군은 어떻게 변모할 것인가에 대한 고민을 모아 이 글에 풀어 넣어본다.
2.1. 데이터 사이언스는 없어질까?
No. 데이터 사이언스라는 말이 유창하긴 하지만 기존에 데이터 기반으로 의사결정으로 하는 업무들은 항상 있었다. Excel로 소규모 데이터를 정리하고 보고하는 일, 실험에서 얻는 결과를 통계분석을 통해 결론을 내리는 일 등등. 최근에 와서 "데이터분석" 이라는 행위가 고유명사로 변모했지만, 여전히 데이터 사이언스는 유효하고 앞으로도 그럴 것이다. 단지 저장가격의 저하, 처리능력의 증가 그리고 알고리즘의 발전으로 빅데이터를 활용할 수 있는 방법이 많아졌기에 빅데이터 트렌드가 잠시 주목 받는 것일 뿐이라고 생각된다.
2.2. 데이터 분석가 직군은 없어질까?
어느정도 Yes. 현재 IT 업계에서는 회사 내 데이터를 보고 리포팅 하는 역할을 하는 Business Data Analyst, 웹/앱에서 발생되는 데이터를 가지고 서비스에 실험과 검증을 통해 성장시키는 Product Analyst, 머신러닝/딥러닝 모델을 이용해 미래를 예측하거나 이미지생성, LLM 서비스를 구현하는 Data Scientist 등이 주력 직무이다.
LLM/AI서비스들이 분석의 수단을 어느정도 지원하지만 결정을 책임 져주거나 회사에 맞는 fine-tunning을 도와주진 않는다. 아직은 이 AI서비스를 도입하고 적용하고 Action까지 이어지는 단계에는 AI보다는 사람의 역량이 필요한 부분이 많다. 그럼에도 많은 곳에서 업무에 AI를 도입하고 있다. 대표적인 예시가 원티드의 데이터볼트 SQL쿼리 생성AI의 예시이다.
https://m.blog.naver.com/wantedlab/223277157047
하지만 이것도 데이터가 잘 "흐르는" 조직에서 존재할 수 있는 직무이고 대부분의 스타트업 혹은 규모가 있는 기업이라면 이렇게 세분화 되진 않고 그저 IT 조직의 구성원이 "분석"이라고 할 수 있는 부분 일부를 담당하는 형태이다. 전자라고 하면 데이터 분석 업무 그 자체가 독립적인 직무로 존재할 수 있지만, 후자는 분석이라는 수행보다는 그를 위한 준비 (예를들면 데이터 수집, 용어 통일, 데이터 가버넌스 관리, 파이프라인 구축)이 더 필요하다.
따라서 데이터 분석이라는 직무 자체는 데이터 기반으로 의사결정할 수 있는 회사 혹은 문화에 존재할 수 있고 후술할 데이터직군 통합 관점에서 pivot이 될 것으로 생각한다.
2.3. 기업 사례로 보는 데이터 직군의 역할
① 제조업 공장 회사 A 기업은 장비를 구입하여 데이터를 쌓고 있다. 이를 운영 혹은 분석에 사용한다기보다는 구입한 장비에 대한 AS 이슈로 만일에 대비하여 Log 형태로 데이터를 보관하고 있다. 구성원은 데이터가 존재하는지 혹은 어떻게 활용할 수 있는지에 대한 아이디어가 없어 수집만 진행하고 있다.
② 스타트업 교육 회사 B 기업은 수강생들의 데이터를 Google Spreadsheet로 관리하고 있다. 교육과정마다 평가 기준이 다르다. 어떤 교육은 과제 채점이 5점 만점. 어떤 과제는 21점 만점 등으로 기준이 세워져있다. 각자 운영 Manager가 담당하고 있다. 필요할 때마다 그래프를 그려서 보고 있으며 통합된 관리는 하지 않고 있다.
A 기업의 사례는 운영DB와 분석DB의 분리가 되지 않은 문제이다. 실제로 분석을 뭘 할 수 있는지 그러기 위해선 어떤 형태로 데이터가 저장되어야 하는지 대표와 개발자들은 관심이 없거나 알지 못한다. 일차적으로 눈앞에 있는 업무들을 처리해야 하니까 당장의 성과가 중요하기에 데이터 기반 의사결정을 하지 않는다. 이 부분에서는 데이터 분석가는 Log 형태의 데이터를 최소한 JSON 형태로 저장하고 정형화하도록 프로세스를 만들고 필요에 따라 시계열 형태 등으로 시각화해야 할 것이다.
B 기업의 사례는 일반적인 스타트업에서 만연하다. Spreadsheet는 매우 훌륭한 데이터 분석 툴이지만 먼저 전체 교육과정에 대한 평가 스케일이 정리되어야 할 것이다. 근데 누구를 설득해야 하는가? 최소한 교육과정을 다루는 개발 파트장들 그리고 나아가서 대표한테 제시해야할 것이다. 현재 평가 척도가 파편화되어있으니 최소한의 기준을 정해야 한다고. 두 번째로는 데이터베이스에 저장해야한다. SpreadSheet는 정보 수정이 쉬운 만큼 손실도 쉽다. 공통된 데이터베이스 RDB이든 NoSQL이던 최소한 대시보드를 연결 가능한 서비스로 탑재를 해야 할 것이다.
위 2가지 사례만 보아서 데이터 분석가의 직무는 어떤 국소적인 일이라기보다 컨설팅에 가까운 것처럼 보인다. 나는 데이터 분석가가 컨설팅업과 교집합이 많다고 생각하며 "회사가 가진 체질, 문제를 바꾸기 위해서 도구나 방법 나아가 프로세스를 제시하는 것"이 회사에 존재하는 이유라고 생각한다.
2.4. 데이터 직군은 왜 진입하기 어려운가?
위 내용을 보았을 때 분석가가 갖춰야 하는 요소가 참 많아 보인다. 교과서적으로 Hard Skill(프로그래밍 능력, IT지식, 분석능력), Soft Skill(의사소통 능력, 발표 능력)가 필요하다는 이야기들이 피부로 와닿지 않을 수 있다. 분석가가 하는 일을 복기하면서 설명해보면 회사가 가진 체질, 문제를 바꾼다. 라는 내용은 회사의 생리 혹은 최소한 해당 산업군의 메타인지가 있을 때 가능하다. 안타깝게도 이를 알려주는 부트캠프나 강의는 매우 희박하고 N개의 산업군과 N*M개의 회사가 있기에 내가 관심있는 회사를 뜯어보고 파헤쳐봐야 한다.
동아비즈니스리뷰(DBR), 하버드비즈니스리뷰(HBR), 비즈니스캔버스와 같은 잡지,책을 이용해서 최소한 내가 관심있는 회사가 어떻게 돈을 벌고 어디에 쓰는지에 대한 Diagram을 그려야 회사가 가진 체질, 문제를 이해할 수 있다.
두 번째로 도구와 방법 나아가 프로세스를 제시하는 것은 회사에 이미 몸담고 있는 사람이라면 도구와 방법은 Youtbue, 책, 강의를 통해 배울 수 있다. 데이터를 적재하는 방법이 필요하다면 개발자와 얘기하여 정량적 데이터 분석을 위한 데이터 저장 방식을 제안할 수 있다. 운영DB에서 데이터를 추출하여 데이터 마트를 만들거나 분석DB를 구축해보자. 나아가 대시보드를 제작하여 데이터기반 의사결정을 지원할 수 도 있다. 혹은 추론통계나 머신러닝 기법을 이용해서 데이터를 활용하는 방법에 대해서 배우고 적용해볼 수 있겠다.
2.5. 앞으로 데이터분석가는 방향성은?
사실 이 글을 쓰게된 트리거가 하용호님의 AI시대 데이터직군 생존 전략밋업이다. 2022년에 발표하신 데이터를 하는 사람은 어떤 커리어를 밟아야하나? 도 매우 좋은 자료고 요즘에도 여전히 적용되므로 데이터분석 입문자들은 반드시 듣길 권하는 편이다. 2022년 발표와 일관성 있게 말씀하시고 또 강조하는 단어는 Full Stack Data Expert 이다.
최근 데이터 직군에 대한 거품이 꺼진 이유 중 하나는 끝내주는 결과를 가져와도(혹은 가져왔다고 생각하지만) "그래서 뭐 어떻게 해야할까요?" 라는 추가 Action이 없기 때문이다. 나는 이런점에서 데이터분석가가 장기적으로 데이터 수집 -> 정제 -> 분석 -> 배포 까지하는 Pipeline을 구축할 수 있는 사람이 되어야 한다고 생각하며 이런 관점에서 용호님이 말씀하신 것과 어느정도 결이 같다. (사실 그전에 강연을 들어서 그런지도..)
그에 따라 기존 Data Engineer와 Data Analyst의 간극을 메워줄 혹은 둘 다 역할을 수행할 수 있는 Analytics Engieer 직무의 생성도 시대의 흐름이라고 더욱 생각이 든다.
https://snowgot.tistory.com/entry/Analytics-Engineer-%EC%A7%81%EB%AC%B4-%EB%9C%AF%EC%96%B4%EB%B3%B4%EA%B8%B0
더욱 이 주장에 힘들 실어줄 수 있는 배경은 역시 AI이다. 기존에는 Hard Skill의 깊이가 깊었고 그만큼 숙련된 여러사람이 필요했다면 현재 그리고 앞으로는 AI 도움 혹은 서비스(SaaS)의 도움을 받아 시간과 노력을 단축하게 되었다. 서비스는 점점 우리의 일을 줄일 것이며 우리는 필요한 서비스를 선별하여 도입하고 합리적인 가격인지 의사결정하는 과정을 개입하게 될 것이라 생각한다.
마침 용호님 자료에서 괜찮은 Data Science Framework를 정리해주셔서 같이 남겨본다.
기타) DS & 배포 Framework
DS Framework
- vanna ai: text2SQL / using LLM/RAG
- pygwalker: jupyternotebook에서 시각화 기능적용
- imbalanced-learn: 불균형데이터처리방법
- InterpretML: 설명가능한 AI, GBM의 glass box 모델 제공, xgboost보다 성능 좋음. 기존 SHAP 등 XAI에 대체제가 될수도?
- pyod: 이상치 탐색
배포 Framework
jupyternotebook에서 신기해하는 시대는 끝났다. 실제 운영배포단계를 배워야할 시기
위 프레임워크를 적용해서 하나의 PoC를 만들어 보는 것도 좋은 배움이 될 수 있을 텐데... 그거까지 하면 글이 너무 길어지므로 다음에 ...!
3. 마무리
최근에 다양한 스타트업의 이슈들이나 데이터/AI와 아직은 친숙하지 않은 회사들의 사례를 마주하면서 여전히 데이터 직무는 할일이 많겠다 라는 생각이 들었다. 나아가서 데이터분석가에서 이제는 컨설턴트의 역할로, 회사의 문제를 해결하고 방법을 제시하는 조언자로서 CDO로서의 방향이 명확해진 것 같다.
4. 출처
'Data Science' 카테고리의 다른 글
ADP 32회 시험 후기와 복기 (0) | 2024.10.13 |
---|---|
글또 10기를 시작하며 다짐 글 (1) | 2024.10.13 |
(15) DSforS: Chap7. 7.1 주성분 분석(PCA) (0) | 2024.06.26 |
생존분석과 lifeline 패키지 활용 - LogRank, 카플란-마이어, 콕스비례위험모형 (2) | 2024.06.11 |
DataScience 책 추천(교양, 통계, 데이터과학, 머신러닝, 프로그래밍 등 ) (0) | 2024.06.10 |