(6) DSforS : Chap 3 통계적 실험과 유의성 검정 3.4 ~ 3.8.

2024. 5. 27. 17:26·Data Science/데이터과학을 위한 통계
목차
  1. 1. 목차
  2. 2. 본문
반응형

1. 목차

  • 3.4. 통계적 유의성과 p값
  • 3.5. t검정
  • 3.6. 다중검정
  • 3.7. 자유도
  • 3.8. 분산분석

 

 

2. 본문

3.4. 1종오류와 2종오류

  • 1종 오류: 귀무가설이 참인데도 불구하고 귀무가설을 채택하지 않는 오류
  • 2종 오류: 귀무가설이 거짓인데도 불구하고 귀무가설을 채택하는 오류

일반적으로 귀무가설은 믿어지고 있는 본래 사상, 주제이고 대립가설으 새로운 주장이다.  귀무가설이 참인데도 불구하고 귀무가설을 채택하지 않는 오류인 1종 오류를 관리하는게 일반 적이다. 

예컨데, 새로운 고혈압약을 개발했다고 하자. 이를 검정한 결과가 실제로는 고혈압약이 효능이 없었는데도 불구하고 고혈압치료가 된다고 시판하면 국민의 위해성이 걱정된다. 따라서 이를 관리하는 지표로 놓고 엄격하게 관리한다. 이를 유의수준(significance level)이라고 한다. 

반면 2종오류는 실제로 효능이 있는데고 불구하고 효능이 없다라고 판단하는 오류이다. 이 오류는 국민의 위해성에는 관련이없기 때문에 1종오류보다 덜 엄격하게 관리한다. 사실 이 1종오류, 2종오류는 trade off가 있어서 둘 다 낮은 수준으로 관리할 수 없다. 

여기서 하나 등장하는 용어는 바로 검정력(Statistical Power)이다. 이는 대립가설(약이 효과가 있다)가 사실일때 사실로 결정할 확률이다. 검정력은 표본 크기(sample size)를 얼만큼 수집해야하는가를 결정해줍니다.

단계별 절차:

  1. 효과 크기 계산:
    • 두 그룹의 클릭률 p1, p2가 있다고 가정합니다.
    • 효과 크기 (effect size, d)를 계산합니다: 
    • 𝑑=𝑝1−𝑝2d=p1−p2
  2. 유의수준 (alpha) 및 검정력 (power) 설정:
    • 일반적으로 alpha는 0.05, power는 0.8로 설정합니다.
  3. 표본 크기 계산 공식:
    • 이항 분포를 따르는 두 그룹의 비교를 위해 표본 크기를 계산하는 공식은 다음과 같습니다
       

여기서 Z_alpha/2는 정규분포의 상위, Z_beta는 검정력의 하위 백분위수 

4. 계산 수행

  • p1, p2, alpha, power를 사용하여 각 값을 계산합니다.
  • 일반적으로 사용되는 임계값 (Z 값)

 

from scipy.stats import norm
import numpy as np

# 입력 변수
p1 = 0.1
p2 = P + 0.02  # 2퍼 크기를 감지할 수 있는 표본 크기 생성
alpha = 0.05
power = 0.8

# Z 값 계산
Z_alpha = norm.ppf(1 - alpha / 2)
Z_beta = norm.ppf(power)

# 효과 크기
d = p2 - p1

# 표본 크기 계산
n = ((Z_alpha + Z_beta) ** 2 * (p1 * (1 - p1) + p2 * (1 - p2))) / d ** 2
n = np.ceil(n)  # 반올림

n

#3839

 

반응형

'Data Science > 데이터과학을 위한 통계' 카테고리의 다른 글

(8) DSforS : Chap4. 회귀와 예측 4.5 ~ 4.8 회귀방정식의 해석 ~ 끝  (0) 2024.06.04
(7) DSforS : Chap 4. 회귀와 예측 4.1 ~ 4.4 단순선형회귀 ~ 요인변수  (1) 2024.06.03
(5) DSforS : Chap 3 통계적 실험과 유의성 검정 3.1 ~ 3.3.  (0) 2024.05.22
(4) DSforS : Chap 2 탐색적 데이터분석 2.4 ~ 2.8  (6) 2024.05.20
(3) DSforS : Chap 2 탐색적 데이터분석 2.4 ~ 2.8  (1) 2024.05.15
  1. 1. 목차
  2. 2. 본문
'Data Science/데이터과학을 위한 통계' 카테고리의 다른 글
  • (8) DSforS : Chap4. 회귀와 예측 4.5 ~ 4.8 회귀방정식의 해석 ~ 끝
  • (7) DSforS : Chap 4. 회귀와 예측 4.1 ~ 4.4 단순선형회귀 ~ 요인변수
  • (5) DSforS : Chap 3 통계적 실험과 유의성 검정 3.1 ~ 3.3.
  • (4) DSforS : Chap 2 탐색적 데이터분석 2.4 ~ 2.8
지지플랏
지지플랏
DataScience 컨설팅을 업으로 하고있습니다.
  • 지지플랏
    지지플랏의 DataScience
    지지플랏
  • 전체
    오늘
    어제
    • 지지플랏
      • Data Science
        • SQL
        • Engineering
        • 데이터과학을 위한 통계
        • Khan Academy
        • 실무로 통하는 인과추론 with 파이썬
        • 데이터 중심 어플리케이션 설계(DDIA)
        • 컴퓨터 밑바닥의 비밀
        • 자동화
        • LLM
      • 담벼락
        • 인터뷰
        • 생각이 자란다
        • 컨텐츠 독후감
        • Career Development
        • ToastMasters
      • 기타- 비연재
        • 전공
  • 블로그 메뉴

    • Home
    • Admin
    • Write
  • 링크

    • Linkedin
    • Github
  • 공지사항

    • 지지플랏의 Data Science
  • 인기 글

  • 태그

    인과추론
    대중연설
    데이터
    PGTM
    영어연설
    풀러스
    데이터분석
    평창
    F분포
    토스트마스터
    제약
    빅쿼리
    공유경제
    연설
    분석
    취업
    영화
    SQLD
    a/btest
    Toastmaster
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
지지플랏
(6) DSforS : Chap 3 통계적 실험과 유의성 검정 3.4 ~ 3.8.

개인정보

  • 티스토리 홈
  • 포럼
  • 로그인
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.