일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 |
- 대중연설
- 카이제곱분포
- 영어연설
- 데분
- 분석
- 임상통계
- CC#5
- 사이허브
- 공유경제
- Public Speaking
- Toastmaster
- 정형데이터
- 풀러스
- SQLD
- PGTM
- 취업
- 데이터분석
- 구글#빅쿼리#데이터분석
- 영화
- 엘뱌키안
- publicspeaking
- 인과추론
- 데이터
- 제약
- CC#3
- F분포
- 2018계획
- 토스트마스터
- 연설
- 평창
- Today
- Total
목록2024/06/26 (2)
지지플랏의 DataScience
드디어 마지막장이다. 비지도학습은 정답 없이 데이터로부터 의미를 이끌어내는 통계적 방법을 말한다. 4 ~ 6장까지 지도학습이 독립변수와 종속변수를 이용하여 종속변수를 설명할 수 있는 관계를 이끌어 내는 것과 대조적이다. 비지도학습은 다양한 방법이 있다. 대표적인 주성분분석(PCA) 해서 알아보자1. 책 목차7.1.1 주성분 분석(PCA) 간단한 예제7.1.2.주성분 계산7.1.3. 주성분 해석2. 본문2.1. 주성분 분석N개의 열을 가지고 있는 데이터가 있다고 하자. 독립변수가 많으면 많을수록 좋다. 정보는 다다익선이니까. 하지만 변수가 너무 많아지는 반면 공통된 내용을이 중복된다면? 핵심적인 내용만 뽑아서 사용할 수 도 있을 것이다. 이것이 주성분 분석의 기본 idea이다.전체 변수의 변동성을 거의 대..
회귀와 분류의 기본모델을 살펴보았다면 이제는 앙상블기법의 기본과 해당 하위개념인 배깅방법을 적용한 랜덤포레스트 그리고 부스팅을 알아볼 차례이다. 머신러닝에서 가장 성능 높다고 평가받는 모델의 기초가 된 개념을 알아보자.1. 글목차6.3.1. 배깅6.3.2. 랜덤포레스트6.3.3. 변수 중요도6.3.4. 하이퍼파라미터부스팅2. 본문 2.1. 배깅늘 데이터분석은 데이터가 문제다. 오리지널 데이터는 작고 소중하다(?) 반면 데이터가 적은 경우가 있다. 이경우를 보완하기위해서 부트스트래핑이라는 방법이 첫 번째 등장했다. 부트스트래핑이란 복원추출을 통해서 기존 데이터와 유사하지만 다양성을 보장하기 위한 방법론이다. 해당 하는 데이터를 이용하여 모델에 적용하고 결과 값을 합치면 Bootstrapping + Aggr..