일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- CC#5
- 데이터
- 카이제곱분포
- 데분
- 인과추론
- 대중연설
- 풀러스
- 평창
- CC#3
- 영어연설
- 연설
- 데이터분석
- 구글#빅쿼리#데이터분석
- PGTM
- 공유경제
- Toastmaster
- SQLD
- 영화
- 사이허브
- 취업
- 토스트마스터
- 엘뱌키안
- 분석
- 제약
- Public Speaking
- publicspeaking
- 임상통계
- 2018계획
- F분포
- 정형데이터
- Today
- Total
지지플랏의 DataScience
(15) DSforS: Chap7. 7.1 주성분 분석(PCA) 본문
드디어 마지막장이다. 비지도학습은 정답 없이 데이터로부터 의미를 이끌어내는 통계적 방법을 말한다. 4 ~ 6장까지 지도학습이 독립변수와 종속변수를 이용하여 종속변수를 설명할 수 있는 관계를 이끌어 내는 것과 대조적이다. 비지도학습은 다양한 방법이 있다. 대표적인 주성분분석(PCA) 해서 알아보자
1. 책 목차
- 7.1.1 주성분 분석(PCA) 간단한 예제
- 7.1.2.주성분 계산
- 7.1.3. 주성분 해석
2. 본문
2.1. 주성분 분석
N개의 열을 가지고 있는 데이터가 있다고 하자. 독립변수가 많으면 많을수록 좋다. 정보는 다다익선이니까. 하지만 변수가 너무 많아지는 반면 공통된 내용을이 중복된다면? 핵심적인 내용만 뽑아서 사용할 수 도 있을 것이다. 이것이 주성분 분석의 기본 idea이다.
전체 변수의 변동성을 거의 대부분을 설명할 수 있는 적은 수의 변수들의 집합을 주성분이라고 하며 예측변수들의 선형결합으로 만든다. 또한, 주성분분석(Principle Component Analysis,PCA)은 변수들의 공통된 특징을 설명하는 성질로 재구성하는 방법이다. 칼 피어슨이 처음 제안하였다. 간단한 식으로 표현하자면 두 변수 $X_{1}$과 $X_{2}$에 대해서 두 주성분 $Z_{i}$($i = $ 1 또는 2)가 있다고 한다면
$ Z_{i} = w_{i,1}X_{1}+w_{i,2}X_{2} $
- $w_{i,1},w_{i,2}$는 주성분의 부하
첫 주성분 $Z_{i}$은 전체 변동성을 가장 잘 설명하는 선형결합이라고 할 수 있다. 두 번째 주성분 $Z_{2}$는 첫 주성분과 서로 수직이며 나머지 변동성을 설명한다.
그럼 어떻게 정보를 축약할까? 방법은 정사영에 있다.
x1과 x2라는 변수가 있을 때 동시에 설명하는 어떤 축을 만들고 싶다고 하자. 그렇다면 각 점을 사영하였을때 정보량이 많은 축을 새롭게 새우면 된다. 이때 등자하는 것이 공분산행렬, 고유값과 고유 벡터이다.
2.1. 고유값, 고유벡터
PCA의 목적은 데이터이 분산을 최대한 유지하면서 차원을 축소하는 것이다. 반면 공분산 행렬은 각 변수및 변수간의 상호작용을 나타내는 행렬이므로 전체 데이터의 분산을 설명할 수 있는 도구가 된다. 고유값과 고유벡터에 대한 설명은 다음 블로그글에 작성해놓았다.
'Data Science' 카테고리의 다른 글
글또 10기를 시작하며 다짐 글 (1) | 2024.10.13 |
---|---|
2024년 데이터 직군이 나가야 할 방향 정리하기 ft. AI시대 데이터직군 생존 전략 (0) | 2024.08.20 |
생존분석과 lifeline 패키지 활용 - LogRank, 카플란-마이어, 콕스비례위험모형 (2) | 2024.06.11 |
DataScience 책 추천(교양, 통계, 데이터과학, 머신러닝, 프로그래밍 등 ) (0) | 2024.06.10 |
[글또] LLM 관련 모듈 동향 살펴보기- OPEN AI, Langchain , Pandas AI (0) | 2024.03.31 |