일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- CC#5
- 사이허브
- 2018계획
- 취업
- SQLD
- Public Speaking
- 분석
- 풀러스
- 인과추론
- 영어연설
- 데분
- 평창
- 정형데이터
- 영화
- CC#3
- F분포
- 공유경제
- 토스트마스터
- 연설
- 제약
- 카이제곱분포
- 엘뱌키안
- 데이터
- 구글#빅쿼리#데이터분석
- PGTM
- 데이터분석
- 대중연설
- 임상통계
- publicspeaking
- Toastmaster
- Today
- Total
목록전체 글 (131)
지지플랏의 DataScience
1. 책 목차6.1. k-최근접 이웃6.1.1. 예제: 대출 연체 예측6.1.2. 거리 지표6.1.3. 원-핫인코더6.1.4. 표준화(정규화, z점수)6.1.5. k 선택하기6.1.6. KNN 통한 피처 엔지니어링 2. 본문머신러닝알고리즘을 설명할 때 나는 딱 2가지 알고리즘 중에 하나를 선택해서 설명을 시작한다. 첫 번째는 중학교 때 배웠던 일차방정식을 적용할 수 있는 선형회귀 그리고 유유상종의 원리를 이용한 k-최근접 이웃 방법(KNN). 사실 선형회귀를 시작으로 머신러닝을 설명하는 것은 어느 책이나 동일할 것이다. 반면 KNN부터 설명하는 책은 박해선님의 혼자공부하는머신러닝+딥러닝 에서 발견했는데 이런 시작 방법도 좋다고 생각한다.그런의미에서 k-NN은 꽤나 애정이 가는 알고리즘이기도 하고 지금은..
1. 책 목차 5.5: 불균형 데이터 다루기5.5.1. 과소표본추출5.5.2. 과잉표본추출과 상향/하향가중치5.5.3. 데이터 생성5.5.4. 비용기반 분류5.5.5. 예측 결과 분석5.6. 마치며2. 본문불균형 데이터는 분류문제에서 굉장히 중요한 데이터 전처리 과정이라고 생각하지만 입문자들에게는 평가절하되는 면이 많다. 이유인 즉슨 Toy Project에서 제시되는 데이터는 일반적으로 전처리하는 과정에서 Class 불균형을 해결하고 오는 경우가 많기 때문이다. 그래서 실제로는 분류문제에서 중요한 방법이다. 하지만 그 처리 방법이 데이터마다, 산업마다 다르기 때문에 예시가 잘 없는 것일 수도 있다는 생각이다. 2.1. 과소표본추출 방법: 가중치 적용일반적으로 데이터가 많아 과소표본(Undersampl..
1. 생존분석이란시간-이벤트 데이터(예: 생존 시간, 고장 시간 등)를 분석하는 데 사용됨주요 목표는 생존 시간 분포를 추정하고, 생존 시간에 영향을 미치는 요인을 식별하며, 여러 그룹 간의 생존 시간을 비교하는것. 대표적인 방법으로 LogRank, 카플란-마이어 추정법, 콕스 비례위험 모형이 있다. 2.1. 카플란-마이어 추정법 (Kaplan-Meier Estimator)특정 시간까지 이벤트가 발생하지 않을 확률(생존 함수)을 비모수적으로 추정하는 방법각 시간 점에서 생존 확률을 계산하고, 이를 통해 전체 생존 곡선을 작성.사건이 독립적이라는 가정이 있지만, 실제로는 이 가정이 항상 만족되지 않을 수 있음(실제로 병은 누적되는 대미지가 있으므로)$ \hat{S}(t) = \prod_{t_i \leq t..
1. 목차5.3. 로지스틱회귀5.4. 분류모델 평가하기5.4.1 ~ 3. 혼동행렬, 분류문제, 정밀도, 재현율, 특이도5.4.4 ~ 5: ROC곡선, AUC 5.4.6. 향상도(lift) 2. 본문늘 머신러닝을 배울 때 선형회귀만큼은 잘 이해가 된다. 선형직선은 중학교때부터 배웠기에 익숙하고 에러의 개념을 받아들이기도 어렵지않으니까. 하지만 이 로지스틱 회귀라는 놈은 늘 어딘가 2% 부족한 설명을 하게되는 경우가 많다. 왜그럴까? 일단 첫 번째 문턱은 바로 오즈비(odds ratio)에 대한 생소함이라고 생각한다. 2.1. 로지스틱 회귀2.1.0. 나이브한 접근법본격적으로 들어가기 전 선형회귀로 한번 이진 분류를 예측한다고 해보자. import matplotlib.pyplot as pltimport ..
Last Updated 2024.10.28. 2018년 이후 데이터과학업계에 몸 담으면서 유용하게 공부했던 책과 컨텐츠 혹은 추천받는 책들을 모았습니다. 하지만 명심하세요 자신에게 잘 맞는 책은 지금 당장 도서관 또는 서점에 달려가서 펼쳤을 때 읽기 편한 책입니다. 아래 내용은 참고만 하세요 :) 1. 교양데이터 리터러시 빅데이터 시대, 성과를 이끌어 내는 데이터 문해력(입문서 추천 ★)빅데이터를 지배하는 통계의 힘(입문서 추천 ★)통계학 빅데이터를 잡다(입문서 추천 ★)양승화 - 그로스해킹한줄평: 프로덕트 데이터분석가를 희망하는 사람치고 안본사람 없을 듯! 인프런강좌: 그로스해킹 - 데이터와 실험을 통해 성장하는 서비스를 만드는 방법 2. 통계류근관 - 기초통계학(입문서 추천 ★)한줄평: 기본이면서 ..
1. 목차5.1. 나이브베이즈(NB)5.2. 선형판별분석(LDA) 2. 본문 들어가기에 앞서 이책이 이론적으로는 확실히 친절한 책은 아님을 다시 확인시켜주는 단원이라 생각된다. 특히 나이브 베이즈와 판별분석은 그렇게 와닿는 예시는 아니니 다른 타 도서나 추가 공부가 필요함을 미리 알아두자.2.1. 나이브베이즈(NB)2.1.1. 베이즈 추정추론 대상의 사전확률과 정보를 가지고 사후 확률을 추론하는 통계 기법을 베이즈 추정(Bayesian Estimation)이라고 한다. $ P(\theta | X) $: 데이터 $X$가 주어졌을 때 모수 $\theta$의 사후 확률 분포(posterior distribution) $ P(X | \theta) $: 모수 $\theta$ 가 주어졌을 때 데이터 $X$의 우도..
1. 목차4.5. 회귀방정식의 해석4.6. 회귀진단4.7. 다항회귀와 스플라인회귀4.8. 마치며 2. 본문회귀방정식의 해석에서는 더하여 회귀방정식의 해석에서는 변수간 상관성, 다중공선성,교란변수, 상호작용에 대해서 다룬다. 회귀진단에서는 특이값, 영향값, 이분산성, 비정규성, 오차 간의 상관, 편잔차그림과 비선형성을 다룬다.다항회귀와 스플라인회귀는 선형회귀에서 다항식,스플라인, 일반화가법모형 등 응용하는 방법을 다룬다. 2.1 교란변수의 정의책에서는 교란변수를 "중요한 예측변수이지만 회귀방정식에서 누락되어 결과를 잘못되게 이끄는 변수" 라고 설명하고 있다. 의학통계에서 얘기하는 교란변수는 조금 다른 의미인 것 같아 정리해보려한다. 흔히 교란변수(confounder)는 독립변수간이 관계를 살피는 상황 ..
1. 목차4.1. 단순선형회귀4.2. 다중선형회귀4.3. 회귀를 이용한 예측4.4. 회귀에서의 요인변수 2. 본문2.1. OLS 계산법에 대한 이해늘 회귀분석을 하면서 최소자승법에 대한 계산이 궁금했다. OLS의 계산방법은 다음 출처를 인용한다. https://recipesds.tistory.com/entry/%EC%97%90%EB%9D%BC%EC%9D%B4-%EC%9D%BC%EB%8B%A8-%EB%A0%88%EC%B8%A0-%EB%91%90-%EC%9E%87-%ED%9A%8C%EA%B8%B0-%EB%B6%84-%EC%84%9D-OLS-Regression 에라이, 일단 레츠 두 잇, 회귀분석 - OLS Regression 손으로 풀어보기자, 이제까지 회귀에 대해서 계속 말만 꺼냈지, 실제로 회귀를 해보지..