지지플랏의 DataScience

(6) DSforS : Chap 3 통계적 실험과 유의성 검정 3.4 ~ 3.8. 본문

Data Science/데이터과학을 위한 통계

(6) DSforS : Chap 3 통계적 실험과 유의성 검정 3.4 ~ 3.8.

지지플랏 2024. 5. 27. 17:26
반응형

1. 목차

  • 3.4. 통계적 유의성과 p값
  • 3.5. t검정
  • 3.6. 다중검정
  • 3.7. 자유도
  • 3.8. 분산분석

 

 

2. 본문

3.4. 1종오류와 2종오류

  • 1종 오류: 귀무가설이 참인데도 불구하고 귀무가설을 채택하지 않는 오류
  • 2종 오류: 귀무가설이 거짓인데도 불구하고 귀무가설을 채택하는 오류

일반적으로 귀무가설은 믿어지고 있는 본래 사상, 주제이고 대립가설으 새로운 주장이다.  귀무가설이 참인데도 불구하고 귀무가설을 채택하지 않는 오류인 1종 오류를 관리하는게 일반 적이다. 

예컨데, 새로운 고혈압약을 개발했다고 하자. 이를 검정한 결과가 실제로는 고혈압약이 효능이 없었는데도 불구하고 고혈압치료가 된다고 시판하면 국민의 위해성이 걱정된다. 따라서 이를 관리하는 지표로 놓고 엄격하게 관리한다. 이를 유의수준(significance level)이라고 한다. 

반면 2종오류는 실제로 효능이 있는데고 불구하고 효능이 없다라고 판단하는 오류이다. 이 오류는 국민의 위해성에는 관련이없기 때문에 1종오류보다 덜 엄격하게 관리한다. 사실 이 1종오류, 2종오류는 trade off가 있어서 둘 다 낮은 수준으로 관리할 수 없다. 

여기서 하나 등장하는 용어는 바로 검정력(Statistical Power)이다. 이는 대립가설(약이 효과가 있다)가 사실일때 사실로 결정할 확률이다. 검정력은 표본 크기(sample size)를 얼만큼 수집해야하는가를 결정해줍니다.

단계별 절차:

  1. 효과 크기 계산:
    • 두 그룹의 클릭률 p1, p2가 있다고 가정합니다.
    • 효과 크기 (effect size, d)를 계산합니다: 
    • 𝑑=𝑝1−𝑝2
  2. 유의수준 (alpha) 및 검정력 (power) 설정:
    • 일반적으로 alpha는 0.05, power는 0.8로 설정합니다.
  3. 표본 크기 계산 공식:
    • 이항 분포를 따르는 두 그룹의 비교를 위해 표본 크기를 계산하는 공식은 다음과 같습니다
       

여기서 Z_alpha/2는 정규분포의 상위, Z_beta는 검정력의 하위 백분위수 

4. 계산 수행

  • p1, p2, alpha, power를 사용하여 각 값을 계산합니다.
  • 일반적으로 사용되는 임계값 (Z 값)

 

from scipy.stats import norm
import numpy as np

# 입력 변수
p1 = 0.1
p2 = P + 0.02  # 2퍼 크기를 감지할 수 있는 표본 크기 생성
alpha = 0.05
power = 0.8

# Z 값 계산
Z_alpha = norm.ppf(1 - alpha / 2)
Z_beta = norm.ppf(power)

# 효과 크기
d = p2 - p1

# 표본 크기 계산
n = ((Z_alpha + Z_beta) ** 2 * (p1 * (1 - p1) + p2 * (1 - p2))) / d ** 2
n = np.ceil(n)  # 반올림

n

#3839

 

반응형