지지플랏의 DataScience

(2) DSforS : Chap 1 탐색적 데이터분석 1.5 ~ 2.3 본문

Data Science/데이터과학을 위한 통계

(2) DSforS : Chap 1 탐색적 데이터분석 1.5 ~ 2.3

지지플랏 2024. 5. 13. 18:59
반응형

데이터 과학통계 1.5. ~ 2.3.에서는  탐색적 데이터분석의 사례를 소개한다. 

  • 1.5 데이터 분포 탐색하기
  • 1.6 이진 데이터와 범주 데이터 탐색하기
  • 1.7 상관관계
  • 1.8 두 개 이상의 변수 탐색하기
  • 1.9 마치며

2. 데이터와 표본 분포

  • 2.1 임의 표본추출과 표본 편향
  • 2.2 선택 편향
  • 2.3 통계학에서의 표본분포

 

1. 용어정리

  • 커널밀도추정(Kernel Density Estimation): 밀도 추정이란 관측된 데이터로 원래 변수의 확률 분포 특성을 추정하는 것이다. 여기서 밀도 추정 방법에서도 Parametric 한 방법과 Non-Parametric 한 방법으로 나누어진다.  Parametric 방법은 정규분포와 같은 분포를 가정하고 밀도를 추정하는 것이다.

    반면 현실에서는 이렇게 모델이 미리 주어지는 경우가 없으므로 순수하게 관측된 데이터만으로 확률밀도함수를 추정행해야하는데 이를 Non Parametric 추정이라고하며 대표적으로 histogram 방법, 커널밀도추정이 있다.

출처: https://darkpgmr.tistory.com/147

 

Kernel Density Estimation(커널밀도추정)에 대한 이해

얼마전 한 친구가 KDE라는 용어를 사용하기에 KDE가 뭐냐고 물어보니 Kernel Density Estimation이라 한다. 순간, Kernel Density Estimation이 뭐지? 하는 의구심이 생겨서 그 친구에게 물어보니 자기도 잘 모른

darkpgmr.tistory.com

 

  • 상관계수
  • 데이터의 분포(Data Distribution): 어떤 데이터 집합에서 각 개별 값의 도수 분포
  • 표본 분포(Sampling Distribution): 여러 표본들 혹은 재표본들로부터 얻은 표본통계량의 도수 분포

모수는 변하지 않음. 하지만 통계량은 표본은 어떻게 추출하냐에 따라서 그 값이 다르게 나타남. 예를 들면 표본 n= 30개를 반복해서 100개 추출할 수 있음. 그럼 표본들의 각각의 평균들에 대한 발생 분포를 그릴 수 있음. 이는 중심극한 정리와 연결됨

  • 중심극한정리(Central Limit Theorem): 표본 크기가 커질 수록 표본분포가 정규분포를 따르는 경향

모집단이 어떤 분포를 가지고 있던지 표본의 크기가 크다면 특정사건이 일어날 확률을 계산할 수 있게되는 장점이 있음. 다시말해 중심극한 정리는 표본 평균들이 이루는 분포와 모집단의 관계를 증명하여 모수를 추정할 수 있는 근거를 마련하는 의의를 가짐.

출처: https://drhongdatanote.tistory.com/57

  • 표준오차(standard error): 여러 표본들로부터 얻는 표본통계량의 변량

표본의 크기가 클수록 표준 오차는 작아짐. 

 

반응형