일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 |
- 풀러스
- 데이터
- 분석
- 영화
- 임상통계
- 정형데이터
- 데분
- 대중연설
- SQLD
- 제약
- 엘뱌키안
- CC#5
- F분포
- Public Speaking
- 토스트마스터
- 연설
- 영어연설
- 취업
- 데이터분석
- 평창
- PGTM
- 공유경제
- Toastmaster
- 구글#빅쿼리#데이터분석
- 인과추론
- CC#3
- 사이허브
- publicspeaking
- 2018계획
- 카이제곱분포
- Today
- Total
목록2024/06/16 (2)
지지플랏의 DataScience
1. 책 목차6.1. k-최근접 이웃6.1.1. 예제: 대출 연체 예측6.1.2. 거리 지표6.1.3. 원-핫인코더6.1.4. 표준화(정규화, z점수)6.1.5. k 선택하기6.1.6. KNN 통한 피처 엔지니어링 2. 본문머신러닝알고리즘을 설명할 때 나는 딱 2가지 알고리즘 중에 하나를 선택해서 설명을 시작한다. 첫 번째는 중학교 때 배웠던 일차방정식을 적용할 수 있는 선형회귀 그리고 유유상종의 원리를 이용한 k-최근접 이웃 방법(KNN). 사실 선형회귀를 시작으로 머신러닝을 설명하는 것은 어느 책이나 동일할 것이다. 반면 KNN부터 설명하는 책은 박해선님의 혼자공부하는머신러닝+딥러닝 에서 발견했는데 이런 시작 방법도 좋다고 생각한다.그런의미에서 k-NN은 꽤나 애정이 가는 알고리즘이기도 하고 지금은..
1. 책 목차 5.5: 불균형 데이터 다루기5.5.1. 과소표본추출5.5.2. 과잉표본추출과 상향/하향가중치5.5.3. 데이터 생성5.5.4. 비용기반 분류5.5.5. 예측 결과 분석5.6. 마치며2. 본문불균형 데이터는 분류문제에서 굉장히 중요한 데이터 전처리 과정이라고 생각하지만 입문자들에게는 평가절하되는 면이 많다. 이유인 즉슨 Toy Project에서 제시되는 데이터는 일반적으로 전처리하는 과정에서 Class 불균형을 해결하고 오는 경우가 많기 때문이다. 그래서 실제로는 분류문제에서 중요한 방법이다. 하지만 그 처리 방법이 데이터마다, 산업마다 다르기 때문에 예시가 잘 없는 것일 수도 있다는 생각이다. 2.1. 과소표본추출 방법: 가중치 적용일반적으로 데이터가 많아 과소표본(Undersampl..