[데이터 과학을 위한 통계] 책 리뷰와 KPT 회고

지지플랏 2024. 7. 2. 17:37

2024. 7. 2. 17:37

2달간 데이터과학을 위한 통계 스터디를 완료했습니다! 무사 마무리를 기념하며 책에 대한 평가와 스터디에 대한 회고를 진행해보았습니다. 100년만의 스터디였는데 뒤돌아보니 안했으면 후회했을 것 같네요!

1. 글 목차

스터디 결성 이유
책 리뷰
스터디 KPT

2. 본문

2.1. 스터디 결성이유

이제 머신러닝을 조금 아는 수준이 되었는데 뭔가 부족한 이런 마음이 한켠에 있었습니다. 그 니즈를 해결하고자 여러 책을 탐색했었는데 21년에 처음 나온 이 책이 눈에 띄더라구요. 1판에는 R코드만 있었는데 2판이 되면서 Python 코드도 추가되었고 통계, 머신러닝, 데이터과학에 대한 다양한 분야를 아우르는 것 같아 깊은 독서를 위해 진행하게 되었습니다.

2.2. 책 리뷰

2.2.1. 책의 장단점

기본적으로 데이터사이언스를 위한 이론을 제공합니다. 컨텐츠는 EDA, 통계분석, 회귀, 지도-비지도학습을 다룹니다. 단원마다 용어를 설명해주고 읽을 거리를 제시해주고 실습을 위한 코드도 제공해준다는 점이 장점입니다.

하지만 380쪽 남짓한 책에서 데이터 사이언스의 모든 내용과 실습코드까지 정리하긴 확실히 쉽지 않아보입니다. 전체적으로 이 개념을 이렇게 간단히 넘어간다고? 라고 생각하는 부분도 분명 있지만, 한번 데이터과학에 대한 기술을 공부하기 위한 입문자를 위한 책이라면 괜찮을 것 같습니다. 만약 머신러닝을 더 깊게 공부하고 싶다면 비숍의 패턴인식과 기계학습 책을 볼 것 같습니다.

✅ 이런분에게 추천

기초통계학과 머신러닝 등 전체 데이터사이언스 방법론을 이해하고 싶은 분
데이터사이언스 이론은 있으나 실습코드를 이용해 공부하고 싶은 분

❌ 이런분에게는 비추천

수식으로 정리된 바이블을 원하시는 분
개념 하나하나를 꼭꼭 씹어먹어야 직성이 풀리시는 분

2.2.2. 스터디 팀원들의 후기

배경을 좀 말하자면 1,2번 팀원은 문과로 데이터분석 부트캠프만 참여헀고, 3번 팀원은 정보통신대 & 석사. 그리고 본인은 전공자는 아니지만 5년차 분석가입니다.

1번 팀원: 나도 헤이해졌지만 초반만큼 심화는 못 공부했는데도 불구하고 책이 불친절했다.
2번 팀원: 좋았던 점은 최대한 수학적인 부분이나 장벽을 걷어낸점 이다. 수식을 강요되었으면 좀 어려웠을것.
3번 팀원: 부실한설명, 불친절하다. 알고리즘을 1,2, 3, 4 식으로 논문식 설명 추상적이라 아쉽다.
나: 용어정리 더 읽어볼 것 들이 좋았다. 용두사미식 설명이 좀 있다. 역자들도 지쳤나? 2권이 나와야한다.

2.3. 스터디 방법 및 KPT

기간: 2달
빈도: 일주일 2회,각 1-2시간씩
스터디준비: 스터디 범위를 읽어오되 본인이 관심가는 주제나 용어 기준으로 풀어서 문서형식으로 남기기(Notion, 블로그)
스터디방법: 일일 발표 주제 적기, 화면 공유하며 각자 발표

스터디를 해본 결과 KPT는 다음과 같습니다.

Keep
1. 가장 마음에 들었던 점은 기본 개념에 수식을 열심히 찾아보면서 Latex로 블로그글에 남겼던 점입니다. 하나하나 수식을 뜯어보고 Chatgpt 및 검색을 해가면서 수식이 나타내는 바가 무엇인지 이해하는 부분이 좀 더 방법론을 깊게 다가가는데 도움을 줬습니다. 그 과정에서 개발자를 위한 필수수학 책이 나와서 도움을 좀 받았습니다.
2. 기술블로그를 성장시킴에 있어서 SEO를 적용해보고 싶었는데 기본적인 서식 Template를 만들어보았습니다. 가장 상단에 메타컨텐츠를 추가하면서 구조가 잡혀가는 부분이 있어 계속 유지할 생각입니다.
Problem
1. 개인적으로 스터디의 방향성이 "읽어보고 관심 있는 내용 정리"하기 여서 그때 그때 세부 주제를 정했기 때문에 글의 일관성이 부족🤣 하다는 점이 아쉽네요.
2. 수식으로만 이해하다보니 실제 예시와 코드로 이해하는 부분은 부족했습니다.
Try
- (Problem 1번 보완) 방법론 - 코드 & 시각화 - 실제 예시까지 이어지는 콘텐츠의 개요를 추가 해야겠습니다. 또한 어떤 컨텐츠를 읽을 때 "나는 책의 내용을 수식화 해봐야지"와 같은 컨셉을 잡고 공부해볼 수 있을 것 같습니다.
- (Problem 2번 보완) 예시와 코드로 구현하려면 조금 고민하는 시간이 필요한데 그럼 스터디의 시간이 너무 많이 투자되어서 지속성이 없는 단점이 생길 수 있을 것 같습니다. 전체 분량이나 실제예시가 필요한 컨텐츠의 기준을 세워야 겠습니다.

3. 마무리

개인적으로는 내가 아는 개념을 수식화하여 정리하는 것이 과정이 꽤나 재밌다고 생각이 들었습니다. 이제 이걸 비즈니스 혹은 도메인에 연결하는 방법을 고민할 차례일 것 같네요. 반면, 선형대수나 기초통계는 늘 공부해도 까먹는다는 걸 느껴서 이어 Khan Academy 공부할 생각입니다. 수식을 알면 더 많은 글을 읽을 수 있고 이해도가 올라가는 경험을 해서 더 가속이 붙네요. 다음에는 통계학 일반 내용으로 연재해보겠습니다.

그럼

'Data Science > 데이터과학을 위한 통계' 카테고리의 다른 글

(16) DSforS: Chap 7: 클러스터링(k-means,계층, GMMs) (1)	2024.06.30
(14) DSforS: Chap6. 6.3 배깅과 랜덤포레스트~ 6.4.부스팅 (0)	2024.06.26
(13)DSforS: Chap6. 6.2 트리 모델 - 정보이득개념 (0)	2024.06.23
(12) DSforS: Chap6. 6.1. k-최근접 이웃, 거리지표(마할라노비스) (0)	2024.06.16
(11) DSforS : Chap5 5.5 불균형 데이터 다루기 (0)	2024.06.16

지지플랏의 DataScience