지지플랏의 DataScience

(7) Khan Academy: 11단원 모평균과 모비율 추론, 신뢰구간 본문

Data Science/Khan Academy

(7) Khan Academy: 11단원 모평균과 모비율 추론, 신뢰구간

지지플랏 2024. 8. 4. 23:48
반응형

 11단원에서는 정규분포하에서의 신뢰구간을 구하는 방법에 대해서 논한다. 


1. 글목차

  • 모평균과 모비율이 중요한 이유
  • 모비율 추론
  • 모평균 추론

 

2. 본문

2.1. 모평균과 모비율이 중요한 이유

  • 모평균은 전체 모집단의 평균이다. 우리가 관심있는 변수 (ex 키, 소득, 점수)등에 대한 전체 모집단에 일반적인 수준을 이해하는데 도움이 되는 대표적인 지표이다.
  • 모비율은 전체 모집단에서 발생하는 비율이다.(ex 후보를 지지하는 비율) 
  • 통계학의 중요한 목표 중 하나는 표본으로 부터 모집단에 대한 결론을 도출하는 것이다. 모평균과 모비율에 대한 추정은 이를 기반하기 위한 근거가 될 수 있다. 
  • 또한, 모평균과 모비율은 정확히 아는 것을 불가능에 가깝기 때문에 신뢰구간을 설정함으로서 특정 범위 내에 있는 확률을 제공하게 된다. 
  • 신뢰구간(confidentail Interval)은 모수(모평균 혹은 모집단)에 대한 추정한 값을 중심으로 이 모수가 포함될 것이라고 기대되는 범위이다. 일반적으로 신뢰수준은 95% 혹은 99%로 표현한다.
  • 예컨데 모평균의 95% 신뢰구간이 10과 20사이라고 한다면, 여러 번 분포을 추출하여 동일한 방법으로 신뢰구간을 계산할 때 그 중 95%의 신뢰구간이 실제로 모평균을 포함할 것이라는 의미이다. 

 

2.2. 모비율 추론

2.2.1. 비율 추론의 조건

  1. 표본은 집단에서 무작위로 추출
  2. 표본 크기  $np >= 5$ 이면서 $np(1-p) >= 5$ (즉 사건의 성공 및 실패 횟수가 5회 이상)
    - Khan Academy에서는 10으로 제안하고 있음.
  3. 각 표본의 독립성(일반적으로 비복원 추출시 표본의 크기가 모집단 크기를 10%를 넘지 않을 때)
    위 10%는 절대적인 정해진 수치가 아닌 경험적 가이드라인 임을 주의! 이를 통해 비복원추출에서도 추출의 독립성을 확보하는 것에 목적을 두는 것.

만약 위 조건을 만족하지 않는다면  부트스트래핑 혹은 비모수적인 방법을 고려해야한다. 

seaborn 모듈에서 제공하는 errobar 옵션

 

 위 조건들은 대부분 표본의 크기가 충분히 클 경우 모집단의 분포에 관계 없이 표본 비율(표본평균)의 분포는 정규분포에 근사하게 된다는 중심극한정리(Central Limit Theroy)에 따라 만족된다. 

 

 

2.2.2. 그럼에도 불구하고?

중심극한정리는 강력한 이론이지만 ① 표본의 크기가 작거나 ② 모집단의 분포가 비정규적(비대칭, 첨도가 높음) ③ 이상치가 있는 경우 ④ 모수적 가정이 불확실하여 유연한 분석이 필요할 때 와 같은 이유로  부트스트래핑과 비모수적 방법이 필요할 수 있다. 

특히 부트스트래핑은 흔히 신뢰구간을 표현하기 위한 데이터 사이언스에서 애용하는 방법이므로 한번쯤 확인해보면 좋다. 

https://snowgot.tistory.com/entry/DSforS-Chap-2-%ED%83%90%EC%83%89%EC%A0%81-%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D-24-28

 

(3) DSforS : Chap 2 탐색적 데이터분석 2.4 ~ 2.8

1. 목차2.4. 부트스트랩2.5. 신뢰구간2.6. 정규분포2.7. 긴꼬리 분포2.8. 스튜던트 t 분포모수, 통계량을 넘어가서 표본샘플링과 신뢰구간, 분포 등에 대해서 알려주는 단원입니다.  2. 본문2.4. 부트

snowgot.tistory.com

 

 

2.2.1 모비율에 대한 신뢰 구간

$ \hat{p} \pm Z \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$

  • 모집단에서 특정한 사건이 발생하는 비율 p에 대해 신뢰구간을 구하는 방법
  • $\hat{p}$ : 표본 비율
  • $Z$: 검정통계량

Z 검정 통계량은 가설 검정하에서 표본 비율과 귀무가설 모집단의 비율간 차이가 표준오차와 비교해 얼마나 큰지를 나타내는 지표이다.

$ Z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1 - p_0)}{n}}}$ 

  • $\hat{p}$: 표본 비율
  • $p_{0}$: 귀무가설에서 주장하는 모집단 비율
  • $n$:표본 크기
    (Z 검정에서는 모집단의 분산이 주어져있거나 충분히 큰 표본으로 표본의 분산이 모집단의 분포를 잘 추정한다고 가정 따라서 자유도를 사용하지 않음)

 

 

2.3. 모평균 추론

1. 모평균: 모분산(표준편차)를 알고 있는 경우 

$\overline{x} \pm Z  \frac{\sigma}{\sqrt(n)} $

  • $\overline{x}$: 표본 평균
  • $Z$: 신뢰 수준에 해당하는 $Z$값( 95% : 1.96, 99% : 2.58)
  • $\sigma$: 모집단의 표준 편차
  • $n$: 표본의 크기

하지만 모집단에 대한 데이터 획득이 어려운 상황에서 모평균을 알지 못하여 추정을 하는 것인데 당연히 모분산을 아는 경우도 매우 드물다. 예를 들자면 기계가 생산하는 제품의 결과에 대한 변동이 일정하게 유지되는 경우 과거의 데이터로부터 모분산을 안다고 가정하는 식으로 진행할 수 있다. 

2. 모평균: 모분산(표준편차)을 모르는 경우

$\overline{x} \pm t  \frac{s}{\sqrt(n)} $

  • 이 경우 표본의 표준 편차 $s$를 사용하고 t-분포를 적용한다.
  • $t$: 신뢰구간과 자유도에 따른 t 값(자유도는 n-1)
  • $s$: 표본의 표준 편차

 

2.4. 웹/앱서비스에서의 적용

  • 클릭률(Click Through Rate,CTR) 분석
    • 상황: 특정 광고 배너나 버튼이 노출된 후 사용자가 이를 클릭한 비율을 분석
    • 모비율: 전체 사용자 중 해당 광고를 클릭한 사용자의 비율을 모비율로 추정
    • 예시: 1000명의 노출군 중 150명이 광고를 클릭했다면 전체 사용자에 대한 클릭률을 추정하여 캠페인의 성과를 측정 가능
  • 앱 내 구매율 분석
    • 상황: 앱을 다운로드한 사용자가 실제로 인앱 구매를 진행한 비율
    • 모비율: 다운로드한 사용자 중 구매한 사용자의 비율을 모비율로 추정
    • 예시: 10,000명의 다운로드 사용자 중 500명이 구매했다면 전체 사용자에 대한 구매율 추정
  • 평균 사용시간 분석
    • 상황: 앱 사용자들이 앱을 사용하는 평균 시간을 분석
    • 모평균: 앱에서 보낸 평균시간을 모평균으로 추정
    • 예시: 앱 사용자의 표본 500명의 일일 평균 사용시간이 30분이라며 전체 사용자에 대한 일일 평균 사용시간을 추정하여 사용 패턴 분석
  • 평균 주문 금액 분석
    • 상황: 모바일 쇼핑앱에서 사용자가 한번의 거래에서 소비하는 평균 금액 분석
    • 모평균: 특정 기간동안 발생한 거래의 평균 금액을 모평균으로 추정, 사용자당 수익(ARPU)를 계산
    • 예시: 표본으로 선택한 1000건의 거래에서 평균 주문금액이 $50이라면 전체 거래 평균 금액을 추정
  • 종합 활용: A/B 테스트
    • 모비율: 버튼 디자인의 클릭률 기반 A/B test
    • 모평균: 두 랜딩 페이지에 따른 앱에서 보내는 평균 시간 비교

 

3. 읽어볼만한 글

https://yozm.wishket.com/magazine/detail/1967/

 

사용자 데이터를 효과적으로 분석하는 법 | 요즘IT

사용성 평가나 설문 조사 그리고 인터뷰와 같은 사용자 조사는 고객 관점에서의 사업 기회 발굴과 디자인 개선에 대한 인사이트를 제공해 줍니다. 그렇지만 단순히 사용자 조사로 수집된 데이

yozm.wishket.com

 

반응형