'2024/06 글 목록

이번글은 데이터 과학을 위한 통계 마지막 단원이자 내용인 클러스터링에 대해서 배운다. 크게는 k-평균클러스터링과 계층적 클러스터링, 모델 기반의 클러스터링의 원리와 차이 적용 방법에 대해서 기술한다.1. 책 목차7.2. k-평균클러스터링7.2.1. 간단한예제7.2.2. k-평균 알고리즘7.2.3. 클러스터해석7.2.4. 클러스터 개수 선정7.3. 계층적 클러스터링7.3.1.과 간단한 예제7.3.2. 덴드로그램7.3.3. 병합 알고리즘7.3.4. 비유사도 측정7.4. 모델 기반 클러스터링7.4.1. 다변량 정규분포7.4.2. 정규 혼합7.4.3. 클러스터 개수 결정하기7.5. 스케일링과 범주형 변수7.5.1. 변수 스케일링7.5.2. 지배 변수7.5.3. 범주형 데이터와 고워거리7.5.4. 혼납 데이터의 ..

드디어 마지막장이다. 비지도학습은 정답 없이 데이터로부터 의미를 이끌어내는 통계적 방법을 말한다. 4 ~ 6장까지 지도학습이 독립변수와 종속변수를 이용하여 종속변수를 설명할 수 있는 관계를 이끌어 내는 것과 대조적이다. 비지도학습은 다양한 방법이 있다. 대표적인 주성분분석(PCA) 해서 알아보자1. 책 목차7.1.1 주성분 분석(PCA) 간단한 예제7.1.2.주성분 계산7.1.3. 주성분 해석2. 본문2.1. 주성분 분석N개의 열을 가지고 있는 데이터가 있다고 하자. 독립변수가 많으면 많을수록 좋다. 정보는 다다익선이니까. 하지만 변수가 너무 많아지는 반면 공통된 내용을이 중복된다면? 핵심적인 내용만 뽑아서 사용할 수 도 있을 것이다. 이것이 주성분 분석의 기본 idea이다.전체 변수의 변동성을 거의 대..

회귀와 분류의 기본모델을 살펴보았다면 이제는 앙상블기법의 기본과 해당 하위개념인 배깅방법을 적용한 랜덤포레스트 그리고 부스팅을 알아볼 차례이다. 머신러닝에서 가장 성능 높다고 평가받는 모델의 기초가 된 개념을 알아보자.1. 글목차6.3.1. 배깅6.3.2. 랜덤포레스트6.3.3. 변수 중요도6.3.4. 하이퍼파라미터부스팅2. 본문 2.1. 배깅늘 데이터분석은 데이터가 문제다. 오리지널 데이터는 작고 소중하다(?) 반면 데이터가 적은 경우가 있다. 이경우를 보완하기위해서 부트스트래핑이라는 방법이 첫 번째 등장했다. 부트스트래핑이란 복원추출을 통해서 기존 데이터와 유사하지만 다양성을 보장하기 위한 방법론이다. 해당 하는 데이터를 이용하여 모델에 적용하고 결과 값을 합치면 Bootstrapping + Aggr..

1. 책 목차6.2. 트리모델6.2.1. 간단한 예제6.2.2. 재귀 분할 알고리즘6.2.3. 동질성과 불순도 측정하기6.2.4. 트리 형성 중지하기6.2.5. 연속값 예측하기6.2.6. 트리 활용하기6.3. 배깅과 랜덤 포레스트6.3.1. 배깅6.3.2. 랜덤 포레스트2. 본문트리는 기본적으로 if-else로 이루어지는 구조로 성장한다. 트리(tree,나무)라는 표현을 쓰는 이유는 의사결정과정이 나무가 뻗어나가는 모양과 유사하기 때문이다. 시작하는 변수를 Root 노드(뿌리 노드)라고 하며 마지막 노드를 Leaf 노드(잎 노드)라고 한다. 그렇다면 어떤 변수부터 시작하여 분기해가야하는가? 오늘은 분기를 나눌 때의 기준인 정보이득과 엔트로피를 알아보자. 2.1. 엔트로피첫번째로 엔트로피 개념이 등장한다...

1. 책 목차6.1. k-최근접 이웃6.1.1. 예제: 대출 연체 예측6.1.2. 거리 지표6.1.3. 원-핫인코더6.1.4. 표준화(정규화, z점수)6.1.5. k 선택하기6.1.6. KNN 통한 피처 엔지니어링 2. 본문머신러닝알고리즘을 설명할 때 나는 딱 2가지 알고리즘 중에 하나를 선택해서 설명을 시작한다. 첫 번째는 중학교 때 배웠던 일차방정식을 적용할 수 있는 선형회귀 그리고 유유상종의 원리를 이용한 k-최근접 이웃 방법(KNN). 사실 선형회귀를 시작으로 머신러닝을 설명하는 것은 어느 책이나 동일할 것이다. 반면 KNN부터 설명하는 책은 박해선님의 혼자공부하는머신러닝+딥러닝 에서 발견했는데 이런 시작 방법도 좋다고 생각한다.그런의미에서 k-NN은 꽤나 애정이 가는 알고리즘이기도 하고 지금은..

1. 책 목차 5.5: 불균형 데이터 다루기5.5.1. 과소표본추출5.5.2. 과잉표본추출과 상향/하향가중치5.5.3. 데이터 생성5.5.4. 비용기반 분류5.5.5. 예측 결과 분석5.6. 마치며2. 본문불균형 데이터는 분류문제에서 굉장히 중요한 데이터 전처리 과정이라고 생각하지만 입문자들에게는 평가절하되는 면이 많다. 이유인 즉슨 Toy Project에서 제시되는 데이터는 일반적으로 전처리하는 과정에서 Class 불균형을 해결하고 오는 경우가 많기 때문이다. 그래서 실제로는 분류문제에서 중요한 방법이다. 하지만 그 처리 방법이 데이터마다, 산업마다 다르기 때문에 예시가 잘 없는 것일 수도 있다는 생각이다. 2.1. 과소표본추출 방법: 가중치 적용일반적으로 데이터가 많아 과소표본(Undersampl..

1. 생존분석이란시간-이벤트 데이터(예: 생존 시간, 고장 시간 등)를 분석하는 데 사용됨주요 목표는 생존 시간 분포를 추정하고, 생존 시간에 영향을 미치는 요인을 식별하며, 여러 그룹 간의 생존 시간을 비교하는것. 대표적인 방법으로 LogRank, 카플란-마이어 추정법, 콕스 비례위험 모형이 있다. 2.1. 카플란-마이어 추정법 (Kaplan-Meier Estimator)특정 시간까지 이벤트가 발생하지 않을 확률(생존 함수)을 비모수적으로 추정하는 방법각 시간 점에서 생존 확률을 계산하고, 이를 통해 전체 생존 곡선을 작성.사건이 독립적이라는 가정이 있지만, 실제로는 이 가정이 항상 만족되지 않을 수 있음(실제로 병은 누적되는 대미지가 있으므로)$ \hat{S}(t) = \prod_{t_i \leq t..

1. 목차5.3. 로지스틱회귀5.4. 분류모델 평가하기5.4.1 ~ 3. 혼동행렬, 분류문제, 정밀도, 재현율, 특이도5.4.4 ~ 5: ROC곡선, AUC 5.4.6. 향상도(lift) 2. 본문늘 머신러닝을 배울 때 선형회귀만큼은 잘 이해가 된다. 선형직선은 중학교때부터 배웠기에 익숙하고 에러의 개념을 받아들이기도 어렵지않으니까. 하지만 이 로지스틱 회귀라는 놈은 늘 어딘가 2% 부족한 설명을 하게되는 경우가 많다. 왜그럴까? 일단 첫 번째 문턱은 바로 오즈비(odds ratio)에 대한 생소함이라고 생각한다. 2.1. 로지스틱 회귀2.1.0. 나이브한 접근법본격적으로 들어가기 전 선형회귀로 한번 이진 분류를 예측한다고 해보자. import matplotlib.pyplot as pltimport ..

Last Updated 2025.05.21. 2018년 이후 데이터과학업계에 몸 담으면서 유용하게 공부했던 책과 컨텐츠 혹은 추천받는 책들을 모았습니다. 하지만 명심하세요 자신에게 잘 맞는 책은 지금 당장 도서관 또는 서점에 달려가서 펼쳤을 때 읽기 편한 책입니다. 아래 내용은 참고만 하세요 :) 제 향후 방향성에 따라 데이터 엔지니어링 책 추천 글도 작성하고 있습니다.https://snowgot.tistory.com/194 DataScience를 위한 엔지니어링 책 추천지난 통계학/데이터사이언스 책 추천에 이어서 엔지니어링 관련 책 추천을 해보려 합니다. 데이터 사이언스에서 CS, 백엔드, 프론트, 네트워크, 데이터 모델링 등 필수적이진 않지만 알면 알수록snowgot.tistory.com1. 교양데이..

1. 목차5.1. 나이브베이즈(NB)5.2. 선형판별분석(LDA) 2. 본문 들어가기에 앞서 이책이 이론적으로는 확실히 친절한 책은 아님을 다시 확인시켜주는 단원이라 생각된다. 특히 나이브 베이즈와 판별분석은 그렇게 와닿는 예시는 아니니 다른 타 도서나 추가 공부가 필요함을 미리 알아두자.2.1. 나이브베이즈(NB)2.1.1. 베이즈 추정추론 대상의 사전확률과 정보를 가지고 사후 확률을 추론하는 통계 기법을 베이즈 추정(Bayesian Estimation)이라고 한다. $ P(\theta | X) $: 데이터 $X$가 주어졌을 때 모수 $\theta$의 사후 확률 분포(posterior distribution) $ P(X | \theta) $: 모수 $\theta$ 가 주어졌을 때 데이터 $X$의 우도..

티스토리툴바