지지플랏의 DataScience

(15) DSforS: Chap7. 7.1 주성분 분석(PCA) 본문

Data Science

(15) DSforS: Chap7. 7.1 주성분 분석(PCA)

지지플랏 2024. 6. 26. 16:01
반응형

드디어 마지막장이다. 비지도학습은 정답 없이 데이터로부터 의미를 이끌어내는 통계적 방법을 말한다. 4 ~ 6장까지 지도학습이 독립변수와 종속변수를 이용하여 종속변수를 설명할 수 있는 관계를 이끌어 내는 것과 대조적이다. 비지도학습은 다양한 방법이 있다. 대표적인 주성분분석(PCA) 해서 알아보자


1. 책 목차

  • 7.1.1 주성분 분석(PCA) 간단한 예제
  • 7.1.2.주성분 계산
  • 7.1.3. 주성분 해석

2. 본문

2.1. 주성분 분석

N개의 열을 가지고 있는 데이터가 있다고 하자. 독립변수가 많으면 많을수록 좋다. 정보는 다다익선이니까. 하지만 변수가 너무 많아지는 반면 공통된 내용을이 중복된다면? 핵심적인 내용만 뽑아서 사용할 수 도 있을 것이다. 이것이 주성분 분석의 기본 idea이다.

전체 변수의 변동성을 거의 대부분을 설명할 수 있는 적은 수의 변수들의 집합을 주성분이라고 하며 예측변수들의 선형결합으로 만든다. 또한, 주성분분석(Principle Component Analysis,PCA)은 변수들의 공통된 특징을 설명하는 성질로 재구성하는 방법이다.  칼 피어슨이 처음 제안하였다. 간단한 식으로 표현하자면 두 변수 $X_{1}$과 $X_{2}$에 대해서 두 주성분 $Z_{i}$($i = $ 1 또는 2)가 있다고 한다면

$ Z_{i} = w_{i,1}X_{1}+w_{i,2}X_{2} $

  • $w_{i,1},w_{i,2}$는 주성분의 부하

첫 주성분 $Z_{i}$은 전체 변동성을 가장 잘 설명하는 선형결합이라고 할 수 있다. 두 번째 주성분 $Z_{2}$는 첫 주성분과 서로 수직이며 나머지 변동성을 설명한다.

그럼 어떻게 정보를 축약할까?  방법은 정사영에 있다. 

x1과 x2라는 변수가 있을 때 동시에 설명하는 어떤 축을 만들고 싶다고 하자. 그렇다면 각 점을 사영하였을때 정보량이 많은 축을 새롭게 새우면 된다. 이때 등자하는 것이 공분산행렬, 고유값과 고유 벡터이다.

2.1. 고유값, 고유벡터

PCA의 목적은 데이터이 분산을 최대한 유지하면서 차원을 축소하는 것이다. 반면 공분산 행렬은 각 변수및 변수간의 상호작용을 나타내는 행렬이므로 전체 데이터의 분산을 설명할 수 있는 도구가 된다. 고유값과 고유벡터에 대한 설명은 다음 블로그글에 작성해놓았다.

https://snowgot.tistory.com/entry/9-DSforS-Chap5-%EB%B6%84%EB%A5%98-51-53-%EB%82%98%EC%9D%B4%EB%B8%8C-%EB%B2%A0%EC%9D%B4%EC%A6%88-%EB%A1%9C%EC%A7%80%EC%8A%A4%ED%8B%B1%ED%9A%8C%EA%B7%80

 

(9) DSforS : Chap5. 분류 5.1 ~ 5.3 나이브베이즈(NB), 선형판별분석(LDA)

1. 목차5.1. 나이브베이즈(NB)5.2. 선형판별분석(LDA) 2. 본문 들어가기에 앞서 이책이 이론적으로는 확실히 친절한 책은 아님을 다시 확인시켜주는 단원이라 생각된다. 특히 나이브 베이즈와 판별

snowgot.tistory.com

 

 

 

반응형