지지플랏의 DataScience

(1) Khan Academy: 확률과 통계 - 1 ~ 3 단원: 범주형자료와 양적자료 본문

Data Science/Khan Academy

(1) Khan Academy: 확률과 통계 - 1 ~ 3 단원: 범주형자료와 양적자료

지지플랏 2024. 7. 8. 17:06
반응형

데이터과학을 위한 통계 스터디에 이어서 Khan Academy의 확률과 통계 단원을 가볍게 공부해본다.  Khan Academy는 무료로 수학을 배울 수 있는 플랫폼인데 중학교부터 대학교 과정까지 필수수학을 다루며, 영상과 평가 홈페이지가 매우 잘 되어 있다. 본 카테고리에서는 소개와 동시에 확률과 통계에 대한 내용을 정리하고 유의미한 컨텐츠 내용들을 정리해볼 예정이다.

 


1. 글목차

  • 1단원: 범주형 자료 요약하기
  • 2단원: 양적자료를 나타내고 분석하기
  • 3단원: 양적 자료의 요약

 

2. 본문

기본적으로 확률과 통계 과목은 대학교 기초 수준의 내용으로  자료분석부터 시작하는 간단한 내용부터 회귀와 분산분석까지 포함하는 단변량, 다변량 분석의 내용까지을 다룬다. 기본적으로 Quiz과 단원별 테스트가 존재하며 이를 알려주는 약 5분 길이의 Youtube 영상도 있다. 

아래와 같이 진도가 표기되며 문제를 풀 수 있다. 문제 정답 수에 따라 등급이 올라간다. 중간  ⚡ 퀴즈 내용이며 ⭐ 는 단원 테스트이다. 단원테스트까지 완료하면 마스터 👑 배지가 수여된다. 만약 중간에 틀리더라도 다시 공부하여 맞추면 등급을 올릴 수 있다.

각 단원의 내용은 다음과 같다.

  • 1단원: 범주형 자료 분석하기
  • 2단원: 양적 자료를 나타내고 분석하기
  • 3단원: 양적 자료의 요약 

 

2.1. 1단원 범주형 자료 분석하기

1단원인만큼 별 내용이 없다. 그림그래프, 막대그래프, 파이그래프를 종합한 일반적인 자료 해석 문제가 나온다. 난이도는 중학생 정도? 

귀여운 문제들

2.2. 2단원 양적 자료를 나타내고 분석하기

2단원은 이원도수분포표를 읽고 해석하는 소단원과 범주형 자료의 추세를 분석하는 문제가 나온다. 

범주형 자료 추세 분석

이원분석을 하기 위해서 두 사건의 독립이라고 가정하고 기대도수를 입력하는 문제이다. 추후 카이제곱 검정의 이해를 위해서 똑똑하게 배치해논 것 같다는 생각이 들었다. 

2.3. 3단원 양적 자료의 요약

본격적인 기술통계가 등장한다. 평균, 중앙, 최빈값의 개념을 다룬다. 이상치를 배우면서 boxplot, IQR의 개념을 배운다.또한 모집단과 표본의 분산과 표준편차의 개념을 배운다. 

3단원부터는 조금 더 고급진 내용들이 나오는데, 항상 표본분산을 구할때 자유도 n-1로 나누는 이유에 대해서 시각적으로 설명하는 유튜브가 있어서 첨부한다. 사실 이론적인 증명은 아니지만 sampling하면서 n-1로 나눌 때 True Variance와 가까워지는 모습을 실제로 보는게 흥미롭다.

https://www.youtube.com/watch?v=F2mfEldxsPI&t=285s

 

 

3. 결론

처음에는 자료해석문제만 나와서 뜨뜨 미지근 했는데, 중간에 핵심적인 내용도 많이 있어서,  대단원 문제풀기 -> 이후 부족한 내용 Youtubue 보강하기 -> 정리하기 순으로 정리하면 입문자에게 꽤나 괜찮은 플랫폼일 것 같다. 문제를 마냥 풀기엔 심심할 것 같아서 주어진 문제를 코드로 풀고 Github에 올리는 식으로 진행할 예정

https://github.com/bellepoque7/khan_statistics/blob/main/3%EB%8B%A8%EC%9B%90.R

 

반응형