일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 영어연설
- 취업
- CC#5
- 2018계획
- Toastmaster
- 연설
- F분포
- 엘뱌키안
- 평창
- SQLD
- 카이제곱분포
- 분석
- 제약
- 영화
- PGTM
- 인과추론
- 데이터
- 데분
- 구글#빅쿼리#데이터분석
- 데이터분석
- 임상통계
- 토스트마스터
- 사이허브
- 공유경제
- CC#3
- 풀러스
- 정형데이터
- 대중연설
- Public Speaking
- publicspeaking
- Today
- Total
지지플랏의 DataScience
[데이터 과학을 위한 통계] 책 리뷰와 KPT 회고 본문
2달간 데이터과학을 위한 통계 스터디를 완료했습니다! 무사 마무리를 기념하며 책에 대한 평가와 스터디에 대한 회고를 진행해보았습니다. 100년만의 스터디였는데 뒤돌아보니 안했으면 후회했을 것 같네요!
1. 글 목차
- 스터디 결성 이유
- 책 리뷰
- 스터디 KPT
2. 본문
2.1. 스터디 결성이유
이제 머신러닝을 조금 아는 수준이 되었는데 뭔가 부족한 이런 마음이 한켠에 있었습니다. 그 니즈를 해결하고자 여러 책을 탐색했었는데 21년에 처음 나온 이 책이 눈에 띄더라구요. 1판에는 R코드만 있었는데 2판이 되면서 Python 코드도 추가되었고 통계, 머신러닝, 데이터과학에 대한 다양한 분야를 아우르는 것 같아 깊은 독서를 위해 진행하게 되었습니다.
2.2. 책 리뷰
2.2.1. 책의 장단점
기본적으로 데이터사이언스를 위한 이론을 제공합니다. 컨텐츠는 EDA, 통계분석, 회귀, 지도-비지도학습을 다룹니다. 단원마다 용어를 설명해주고 읽을 거리를 제시해주고 실습을 위한 코드도 제공해준다는 점이 장점입니다.
하지만 380쪽 남짓한 책에서 데이터 사이언스의 모든 내용과 실습코드까지 정리하긴 확실히 쉽지 않아보입니다. 전체적으로 이 개념을 이렇게 간단히 넘어간다고? 라고 생각하는 부분도 분명 있지만, 한번 데이터과학에 대한 기술을 공부하기 위한 입문자를 위한 책이라면 괜찮을 것 같습니다. 만약 머신러닝을 더 깊게 공부하고 싶다면 비숍의 패턴인식과 기계학습 책을 볼 것 같습니다.
✅ 이런분에게 추천
- 기초통계학과 머신러닝 등 전체 데이터사이언스 방법론을 이해하고 싶은 분
- 데이터사이언스 이론은 있으나 실습코드를 이용해 공부하고 싶은 분
❌ 이런분에게는 비추천
- 수식으로 정리된 바이블을 원하시는 분
- 개념 하나하나를 꼭꼭 씹어먹어야 직성이 풀리시는 분
2.2.2. 스터디 팀원들의 후기
배경을 좀 말하자면 1,2번 팀원은 문과로 데이터분석 부트캠프만 참여헀고, 3번 팀원은 정보통신대 & 석사. 그리고 본인은 전공자는 아니지만 5년차 분석가입니다.
1번 팀원: 나도 헤이해졌지만 초반만큼 심화는 못 공부했는데도 불구하고 책이 불친절했다.
2번 팀원: 좋았던 점은 최대한 수학적인 부분이나 장벽을 걷어낸점 이다. 수식을 강요되었으면 좀 어려웠을것.
3번 팀원: 부실한설명, 불친절하다. 알고리즘을 1,2, 3, 4 식으로 논문식 설명 추상적이라 아쉽다.
나: 용어정리 더 읽어볼 것 들이 좋았다. 용두사미식 설명이 좀 있다. 역자들도 지쳤나? 2권이 나와야한다.
2.3. 스터디 방법 및 KPT
- 기간: 2달
- 빈도: 일주일 2회,각 1-2시간씩
- 스터디준비: 스터디 범위를 읽어오되 본인이 관심가는 주제나 용어 기준으로 풀어서 문서형식으로 남기기(Notion, 블로그)
- 스터디방법: 일일 발표 주제 적기, 화면 공유하며 각자 발표
스터디를 해본 결과 KPT는 다음과 같습니다.
- Keep
- 가장 마음에 들었던 점은 기본 개념에 수식을 열심히 찾아보면서 Latex로 블로그글에 남겼던 점입니다. 하나하나 수식을 뜯어보고 Chatgpt 및 검색을 해가면서 수식이 나타내는 바가 무엇인지 이해하는 부분이 좀 더 방법론을 깊게 다가가는데 도움을 줬습니다. 그 과정에서 개발자를 위한 필수수학 책이 나와서 도움을 좀 받았습니다.
- 기술블로그를 성장시킴에 있어서 SEO를 적용해보고 싶었는데 기본적인 서식 Template를 만들어보았습니다. 가장 상단에 메타컨텐츠를 추가하면서 구조가 잡혀가는 부분이 있어 계속 유지할 생각입니다.
- Problem
- 개인적으로 스터디의 방향성이 "읽어보고 관심 있는 내용 정리"하기 여서 그때 그때 세부 주제를 정했기 때문에 글의 일관성이 부족🤣 하다는 점이 아쉽네요.
- 수식으로만 이해하다보니 실제 예시와 코드로 이해하는 부분은 부족했습니다.
- Try
- (Problem 1번 보완) 방법론 - 코드 & 시각화 - 실제 예시까지 이어지는 콘텐츠의 개요를 추가 해야겠습니다. 또한 어떤 컨텐츠를 읽을 때 "나는 책의 내용을 수식화 해봐야지"와 같은 컨셉을 잡고 공부해볼 수 있을 것 같습니다.
- (Problem 2번 보완) 예시와 코드로 구현하려면 조금 고민하는 시간이 필요한데 그럼 스터디의 시간이 너무 많이 투자되어서 지속성이 없는 단점이 생길 수 있을 것 같습니다. 전체 분량이나 실제예시가 필요한 컨텐츠의 기준을 세워야 겠습니다.
3. 마무리
개인적으로는 내가 아는 개념을 수식화하여 정리하는 것이 과정이 꽤나 재밌다고 생각이 들었습니다. 이제 이걸 비즈니스 혹은 도메인에 연결하는 방법을 고민할 차례일 것 같네요. 반면, 선형대수나 기초통계는 늘 공부해도 까먹는다는 걸 느껴서 이어 Khan Academy 공부할 생각입니다. 수식을 알면 더 많은 글을 읽을 수 있고 이해도가 올라가는 경험을 해서 더 가속이 붙네요. 다음에는 통계학 일반 내용으로 연재해보겠습니다.
그럼
'Data Science > 데이터과학을 위한 통계' 카테고리의 다른 글
(16) DSforS: Chap 7: 클러스터링(k-means,계층, GMMs) (1) | 2024.06.30 |
---|---|
(14) DSforS: Chap6. 6.3 배깅과 랜덤포레스트~ 6.4.부스팅 (0) | 2024.06.26 |
(13)DSforS: Chap6. 6.2 트리 모델 - 정보이득개념 (0) | 2024.06.23 |
(12) DSforS: Chap6. 6.1. k-최근접 이웃, 거리지표(마할라노비스) (0) | 2024.06.16 |
(11) DSforS : Chap5 5.5 불균형 데이터 다루기 (0) | 2024.06.16 |