지지플랏의 DataScience

[데이터 과학을 위한 통계] 책 리뷰와 KPT 회고 본문

Data Science/데이터과학을 위한 통계

[데이터 과학을 위한 통계] 책 리뷰와 KPT 회고

지지플랏 2024. 7. 2. 17:37
반응형

2달간 데이터과학을 위한 통계 스터디를 완료했습니다!  무사 마무리를 기념하며 책에 대한 평가와 스터디에 대한 회고를 진행해보았습니다. 100년만의 스터디였는데 뒤돌아보니 안했으면 후회했을 것 같네요!


1. 글 목차

  • 스터디 결성 이유
  • 책 리뷰
  • 스터디 KPT

2. 본문

2.1. 스터디 결성이유

이제 머신러닝을 조금 아는 수준이 되었는데 뭔가 부족한 이런 마음이 한켠에 있었습니다. 그 니즈를 해결하고자 여러 책을 탐색했었는데 21년에 처음 나온 이 책이 눈에 띄더라구요. 1판에는 R코드만 있었는데 2판이 되면서 Python 코드도 추가되었고 통계, 머신러닝, 데이터과학에 대한 다양한 분야를 아우르는 것 같아 깊은 독서를 위해 진행하게 되었습니다. 

2.2. 책 리뷰

2.2.1. 책의 장단점

기본적으로 데이터사이언스를 위한 이론을 제공합니다. 컨텐츠는 EDA, 통계분석, 회귀, 지도-비지도학습을 다룹니다. 단원마다 용어를 설명해주고 읽을 거리를 제시해주고 실습을 위한 코드도 제공해준다는 점이 장점입니다. 

 

하지만 380쪽 남짓한 책에서 데이터 사이언스의 모든 내용과 실습코드까지 정리하긴 확실히 쉽지 않아보입니다. 전체적으로 이 개념을 이렇게 간단히 넘어간다고? 라고 생각하는 부분도 분명 있지만, 한번 데이터과학에 대한 기술을 공부하기 위한 입문자를 위한 책이라면 괜찮을 것 같습니다. 만약 머신러닝을 더 깊게 공부하고 싶다면 비숍의 패턴인식과 기계학습 책을 볼 것 같습니다. 

 

✅ 이런분에게 추천 

  • 기초통계학과 머신러닝 등 전체 데이터사이언스 방법론을 이해하고 싶은 분
  • 데이터사이언스 이론은 있으나 실습코드를 이용해 공부하고 싶은 분

❌ 이런분에게는 비추천

  • 수식으로 정리된 바이블을 원하시는 분
  • 개념 하나하나를 꼭꼭 씹어먹어야 직성이 풀리시는 분 

 

2.2.2. 스터디 팀원들의 후기

배경을 좀 말하자면 1,2번 팀원은 문과로 데이터분석 부트캠프만 참여헀고, 3번 팀원은 정보통신대 & 석사. 그리고 본인은 전공자는 아니지만 5년차 분석가입니다. 

1번 팀원: 나도 헤이해졌지만 초반만큼 심화는 못 공부했는데도 불구하고 책이 불친절했다. 
2번 팀원: 좋았던 점은 최대한 수학적인 부분이나 장벽을 걷어낸점 이다. 수식을 강요되었으면 좀 어려웠을것.
3번 팀원: 부실한설명, 불친절하다. 알고리즘을 1,2, 3, 4  식으로 논문식 설명 추상적이라 아쉽다. 
나: 용어정리 더 읽어볼 것 들이 좋았다. 용두사미식 설명이 좀 있다. 역자들도 지쳤나? 2권이 나와야한다.

 

2.3. 스터디 방법 및 KPT

스터디 Timeline

  • 기간: 2달
  • 빈도: 일주일 2회,각 1-2시간씩
  •  
  • 스터디준비: 스터디 범위를 읽어오되 본인이 관심가는 주제나 용어 기준으로 풀어서 문서형식으로 남기기(Notion, 블로그)
  • 스터디방법: 일일 발표 주제 적기, 화면 공유하며 각자 발표

마지막날 발표리스트

스터디를 해본 결과 KPT는 다음과 같습니다. 

  • Keep
    1. 가장 마음에 들었던 점은 기본 개념에 수식을 열심히 찾아보면서 Latex로 블로그글에 남겼던 점입니다. 하나하나 수식을 뜯어보고 Chatgpt 및 검색을 해가면서 수식이 나타내는 바가 무엇인지 이해하는 부분이 좀 더 방법론을 깊게 다가가는데 도움을 줬습니다. 그 과정에서 개발자를 위한 필수수학 책이 나와서 도움을 좀 받았습니다. 
    2. 기술블로그를 성장시킴에 있어서 SEO를 적용해보고 싶었는데 기본적인 서식 Template를 만들어보았습니다. 가장 상단에 메타컨텐츠를 추가하면서 구조가 잡혀가는 부분이 있어 계속 유지할 생각입니다.

  • Problem
    1. 개인적으로 스터디의 방향성이 "읽어보고 관심 있는 내용 정리"하기 여서 그때 그때 세부 주제를 정했기 때문에 글의 일관성이 부족🤣 하다는 점이 아쉽네요.
    2. 수식으로만 이해하다보니 실제 예시와 코드로 이해하는 부분은 부족했습니다.
  • Try
    • (Problem 1번 보완) 방법론 - 코드 & 시각화 - 실제 예시까지 이어지는 콘텐츠의 개요를 추가 해야겠습니다. 또한 어떤 컨텐츠를 읽을 때 "나는 책의 내용을 수식화 해봐야지"와 같은 컨셉을 잡고 공부해볼 수 있을 것 같습니다.
    • (Problem 2번 보완)  예시와 코드로 구현하려면 조금 고민하는 시간이 필요한데 그럼 스터디의 시간이 너무 많이 투자되어서 지속성이 없는 단점이 생길 수 있을 것 같습니다. 전체 분량이나 실제예시가 필요한 컨텐츠의 기준을 세워야 겠습니다.

3. 마무리

개인적으로는 내가 아는 개념을 수식화하여 정리하는 것이 과정이 꽤나 재밌다고 생각이 들었습니다. 이제 이걸 비즈니스 혹은 도메인에 연결하는 방법을 고민할 차례일 것 같네요. 반면, 선형대수나 기초통계는 늘 공부해도 까먹는다는 걸 느껴서 이어 Khan Academy 공부할 생각입니다. 수식을 알면 더 많은 글을 읽을 수 있고 이해도가 올라가는 경험을 해서 더 가속이 붙네요. 다음에는 통계학 일반 내용으로 연재해보겠습니다.

그럼

반응형