지지플랏의 DataScience

(5) Khan Academy: 9단원 확률변수 본문

Data Science/Khan Academy

(5) Khan Academy: 9단원 확률변수

지지플랏 2024. 7. 31. 20:11
반응형

이산확확률변수와 연속확률 변수들을 정리해본다.


1. 글목차

  • 이산확률변수
  • 연속확률변수

2. 본문

현실의 세계 문제는 다양하고 복잡하다. 동전을 던지는 실험, 도로에서 발생하는 교통사고의 수, 특정 시간동안 걸려오는 콜 전화의 수 등  다양한 상황을 정확하게 반영하기 위해서 다른 확률 변수가 필요하다고 할 수 있다. 

확률변수는 특정 현상을 모델링하는데 의의미가 있다. 예컨데 포아송 확률변수는 일정 시간 또는 공간에서 발생하는 사건의 수를 모델링하는데 유용한 식으로 말이다. 오늘은 이산확률 변수에 대하서 정리해보자.

2.1. 이산확률변수

- 각 시행마다 성공확률($p$)가 정해져 있을때 시행 횟수 ($n$)회 중에서 성공한 횟수 ($X$)의 도수 분포

  • 평균: $E(X) = np$  혹은 $ E(X) = \sum_{k=0}^{n}{k*Pr(X=k)}$
  • 분산: $Var(X) = npq$ 혹은 $ Var(X) = E(X^{2}) - (E(X})^{2}$ 

위 식을 파이썬을 구현해보자. decimal모듈 이용해 정확한 계산을 해본다.

 

2.2.1. 베르누이 확률변수

  • 베르누이 확률변수(Bernoulli Random Variable)은 성공 실패를 단 두 가지의 가능한 결과를 가지는 실험을 나타내는 확률 변수이다. 
  • 예시: 동전을 던졌을 때 앞면이 나오는 경우, 뒷면이 나오는 경우
  • 분포: 베르누이 분포

2.2.2.이항확률 변수

  • 이항확률 변수(Binomial Random Variable)은 성공과 실패 두가지 가능한 결과를 가지는 실험을 일정 횟수 반복할 때, 그 성공 횟수를 나타내는 확률 변수
  • 독립적인 베르누이 시행을 n번 반복했을 때 성공한 횟수를 나타내는 확률 변수
  • 분포: 이항 분포
  • 조건
    • 각 시행은 실패 혹은 성공
    • 각 시행은 독립적
    • 확률 변수는 고정되어야함(유한한 숫자)
    • 각 시행의 성공 확률은 상수

2.2.3. 기하확률 변수

  • 기하확률변수(Geometric Random Variable)은 독립적인 베르누이 시행을 반복할 때, 첫 번째 성공이 나타낼 때까지의 시행 횟수를 나타내는 확률변수
  • 예시: 6의 나올 때 까지의 주사위를 굴리는 시행
  • 분포: 기하분포

2.2.4. 포아송 확률 변수

  • 포아송 확률변수는 일정 시간 또는 공간에서 발생하는 사건의 수
  • 예시: 특정 시간 동안 전화 교환기에 도착하는 전화의 수
  • 분포: 포아송 분포

2.2.5. 음이항 확률변수

  • 음이항 확률변수(Negative Binomial Random Variable)은 성공확률 $p$를 가지는 독립적인 베르누이 시행에서 $r$번째 성공이 발생할 때 까지 시행 횟수(실패 횟수)를 나타내는 확률 변수
  • 예시: 주사위를 3번 던져 6 나올까지의 던진 횟수
  • 분포: 음이항 분포

2.2.6. 다항 확률 변수

  • 다항 확률변수(Mutinomial Random Variable은 여러 개의 가능한 결과가 존재하는 경우에 각 결과가 나타나는 횟수를 나타내는 확률변수
  • 예시: 주사위를 10번 던져 각각의 면이 나오는 횟수
  • 분포: 다항 분포

2.2.7. 초기하 확률 변수

  • 초기하 확률 변수(Hypergeometric Random Variable)은 집단에서 성공과 실패가 있는 경우 중복없이 추출할 때 성공의 갯수를 나타낸느 확률 변수
  • 예시: 10개 카드 중 4개의 에이스가 있는 카드 덱에서 3장의 카드를 뽑았 을 때, 에이스가 나온느 갯수
  • 분포: 초기하 분포

2.3. 연속확률 변수

  • 확률 밀도 함수(Probability Density Function , PDF)란 연속확률 변수가 특정 값을 가능성을 나타내는 함수 이다. 
  • 특징
  1. 비음수성: $ f(x) >= 0 $
  2. 모든 확률의 합 1 : $\int_{-\infty}^{\infty} f(x) \, dx = 1$
  3. 구간확률 계산은 그래프의 적분 값 : $ \Pr(a \leq X \leq b) = \int_{a}^{b} f(x) \, dx$
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

# 정규분포의 매개변수 설정
mu = 0      # 평균 (mean)
sigma = 1   # 표준편차 (standard deviation)

# X값 범위 설정 (평균을 중심으로 -4sigma ~ 4sigma)
x = np.linspace(mu - 4*sigma, mu + 4*sigma, 1000)

# 정규분포의 확률밀도함수 계산
pdf = norm.pdf(x, mu, sigma)

# 그래프 그리기
plt.plot(x, pdf, label=f'Normal Distribution\n$\mu={mu}$, $\sigma={sigma}$')
plt.title('Probability Density Function (PDF)')
plt.xlabel('X')
plt.ylabel('Density')
plt.legend()
plt.grid(True)
plt.show()

2.3.1. 정규확률 변수

  • 정규 확률 변수(Normal Distribution)을 따르는 확률 변수로 연속 확률 변수 중 가장 널리 알려진 분포
  • 예시: 키, 시험 점수 등

2.3.2. 지수확률 변수

  • 지수 확률 분포(Exponential Distribution)을 따르는 확률 변수로 연속 확률 변수 중에서 사건 간의 대기 시간을 모델링하는데 사용
  • 포아송 분포와 밀접관 관련
  • 예시: 반도체 장치의 수명

2.3.3. 카이제곱 확률 변수

  • 카이제곱 분포(Chi-Square Distribution)을 따르는 확률 변수로 정규 분포를 따르는 독립적인 표본들의 제곱합을 따르는 분포
  • 예시: 카이제곱 독립성 검정, 적합성 검정 등

2.3.4. t분포 확률 변수

  •  표본의 분포를 분석할 떄 사용되며 특히 표본의 크기가 작은 경우 사용
  • 예시: 두 집단의 평균비교

2.3.5. F-분포 확률 변수

  • 두 독립적인 카이제곱 분포를 따르는 확률 변수의 비율로 정의
  • 주로 분산분석(ANOVA)에 사용됨
  • 예시: 집단 간 분산의 비교
반응형