Data Science/데이터과학을 위한 통계16 [데이터 과학을 위한 통계] 책 리뷰와 KPT 회고 2달간 데이터과학을 위한 통계 스터디를 완료했습니다! 무사 마무리를 기념하며 책에 대한 평가와 스터디에 대한 회고를 진행해보았습니다. 100년만의 스터디였는데 뒤돌아보니 안했으면 후회했을 것 같네요!1. 글 목차스터디 결성 이유책 리뷰스터디 KPT2. 본문2.1. 스터디 결성이유이제 머신러닝을 조금 아는 수준이 되었는데 뭔가 부족한 이런 마음이 한켠에 있었습니다. 그 니즈를 해결하고자 여러 책을 탐색했었는데 21년에 처음 나온 이 책이 눈에 띄더라구요. 1판에는 R코드만 있었는데 2판이 되면서 Python 코드도 추가되었고 통계, 머신러닝, 데이터과학에 대한 다양한 분야를 아우르는 것 같아 깊은 독서를 위해 진행하게 되었습니다. 2.2. 책 리뷰2.2.1. 책의 장단점기본적으로 데이터사이언스를 위한 이.. 2024. 7. 2. (16) DSforS: Chap 7: 클러스터링(k-means,계층, GMMs) 이번글은 데이터 과학을 위한 통계 마지막 단원이자 내용인 클러스터링에 대해서 배운다. 크게는 k-평균클러스터링과 계층적 클러스터링, 모델 기반의 클러스터링의 원리와 차이 적용 방법에 대해서 기술한다.1. 책 목차7.2. k-평균클러스터링7.2.1. 간단한예제7.2.2. k-평균 알고리즘7.2.3. 클러스터해석7.2.4. 클러스터 개수 선정7.3. 계층적 클러스터링7.3.1.과 간단한 예제7.3.2. 덴드로그램7.3.3. 병합 알고리즘7.3.4. 비유사도 측정7.4. 모델 기반 클러스터링7.4.1. 다변량 정규분포7.4.2. 정규 혼합7.4.3. 클러스터 개수 결정하기7.5. 스케일링과 범주형 변수7.5.1. 변수 스케일링7.5.2. 지배 변수7.5.3. 범주형 데이터와 고워거리7.5.4. 혼납 데이터의 .. 2024. 6. 30. (14) DSforS: Chap6. 6.3 배깅과 랜덤포레스트~ 6.4.부스팅 회귀와 분류의 기본모델을 살펴보았다면 이제는 앙상블기법의 기본과 해당 하위개념인 배깅방법을 적용한 랜덤포레스트 그리고 부스팅을 알아볼 차례이다. 머신러닝에서 가장 성능 높다고 평가받는 모델의 기초가 된 개념을 알아보자.1. 글목차6.3.1. 배깅6.3.2. 랜덤포레스트6.3.3. 변수 중요도6.3.4. 하이퍼파라미터부스팅2. 본문 2.1. 배깅늘 데이터분석은 데이터가 문제다. 오리지널 데이터는 작고 소중하다(?) 반면 데이터가 적은 경우가 있다. 이경우를 보완하기위해서 부트스트래핑이라는 방법이 첫 번째 등장했다. 부트스트래핑이란 복원추출을 통해서 기존 데이터와 유사하지만 다양성을 보장하기 위한 방법론이다. 해당 하는 데이터를 이용하여 모델에 적용하고 결과 값을 합치면 Bootstrapping + Aggr.. 2024. 6. 26. (13)DSforS: Chap6. 6.2 트리 모델 - 정보이득개념 1. 책 목차6.2. 트리모델6.2.1. 간단한 예제6.2.2. 재귀 분할 알고리즘6.2.3. 동질성과 불순도 측정하기6.2.4. 트리 형성 중지하기6.2.5. 연속값 예측하기6.2.6. 트리 활용하기6.3. 배깅과 랜덤 포레스트6.3.1. 배깅6.3.2. 랜덤 포레스트2. 본문트리는 기본적으로 if-else로 이루어지는 구조로 성장한다. 트리(tree,나무)라는 표현을 쓰는 이유는 의사결정과정이 나무가 뻗어나가는 모양과 유사하기 때문이다. 시작하는 변수를 Root 노드(뿌리 노드)라고 하며 마지막 노드를 Leaf 노드(잎 노드)라고 한다. 그렇다면 어떤 변수부터 시작하여 분기해가야하는가? 오늘은 분기를 나눌 때의 기준인 정보이득과 엔트로피를 알아보자. 2.1. 엔트로피첫번째로 엔트로피 개념이 등장한다... 2024. 6. 23. (12) DSforS: Chap6. 6.1. k-최근접 이웃, 거리지표(마할라노비스) 1. 책 목차6.1. k-최근접 이웃6.1.1. 예제: 대출 연체 예측6.1.2. 거리 지표6.1.3. 원-핫인코더6.1.4. 표준화(정규화, z점수)6.1.5. k 선택하기6.1.6. KNN 통한 피처 엔지니어링 2. 본문머신러닝알고리즘을 설명할 때 나는 딱 2가지 알고리즘 중에 하나를 선택해서 설명을 시작한다. 첫 번째는 중학교 때 배웠던 일차방정식을 적용할 수 있는 선형회귀 그리고 유유상종의 원리를 이용한 k-최근접 이웃 방법(KNN). 사실 선형회귀를 시작으로 머신러닝을 설명하는 것은 어느 책이나 동일할 것이다. 반면 KNN부터 설명하는 책은 박해선님의 혼자공부하는머신러닝+딥러닝 에서 발견했는데 이런 시작 방법도 좋다고 생각한다.그런의미에서 k-NN은 꽤나 애정이 가는 알고리즘이기도 하고 지금은.. 2024. 6. 16. (11) DSforS : Chap5 5.5 불균형 데이터 다루기 1. 책 목차 5.5: 불균형 데이터 다루기5.5.1. 과소표본추출5.5.2. 과잉표본추출과 상향/하향가중치5.5.3. 데이터 생성5.5.4. 비용기반 분류5.5.5. 예측 결과 분석5.6. 마치며2. 본문불균형 데이터는 분류문제에서 굉장히 중요한 데이터 전처리 과정이라고 생각하지만 입문자들에게는 평가절하되는 면이 많다. 이유인 즉슨 Toy Project에서 제시되는 데이터는 일반적으로 전처리하는 과정에서 Class 불균형을 해결하고 오는 경우가 많기 때문이다. 그래서 실제로는 분류문제에서 중요한 방법이다. 하지만 그 처리 방법이 데이터마다, 산업마다 다르기 때문에 예시가 잘 없는 것일 수도 있다는 생각이다. 2.1. 과소표본추출 방법: 가중치 적용일반적으로 데이터가 많아 과소표본(Undersampl.. 2024. 6. 16. 이전 1 2 3 다음