지지플랏의 DataScience

(2) Khan Academy: 확률과 통계 - 연구설계 본문

Data Science/Khan Academy

(2) Khan Academy: 확률과 통계 - 연구설계

지지플랏 2024. 7. 15. 11:11
반응형

6단원 연구설계 단원에서는 통계학적 질문이 무엇인지, 표본조사의 방법, 통계 연구법의 종류, 실험등에 대해서 배운다. 학부때부터 실험을 많이 진행해왔는데, 빅데이터 산업군에 들어오면서 실험연구에서 진행되는 분석과 유사하면서 다르다고 느껴졌다. 그 구분법이 궁금했었다.이번 글에는 통계 연구법에 대한 분류를 알아본다.


1. 글목차

  • 2.1. 표본연구
  • 2.2.  관찰연구
  • 2.3. 실험연구

2. 본문

양적 연구를의 통계연구법은 표본연구, 관찰연구, 실험연구 3가지로 구분 할 수 있겠다. 

2.1. 표본연구

  • 정의: 표본 연구는 전체 모집단에서 일정한 기준에 따라 선택된 부분집합. 즉 표본을 조사하여 모집단의 특정을 추정하는 연구방법.
  • 특징
    • 표본추출: 모집단에서 표본을 무작위로 추출, 표본 추출 방법이 중요함
    • 추론:  표본의 결과를 바탕으로 모집단의 특성을 추론
    • 대표성: 표본이 모집단을 잘 대표할 때 결과의 신뢰성이 높아짐.
  • 예시
    • 선거 출구조사


2.2. 관찰연구

  • 정의: 연구자가 변수를 조작하지 않고 자연스럽게 발생하는 현상이나 집단을 관찰하여 기록하는 방법. 변수들 간의 관계를 파악하는데 유용하지만 인과관계를 명확히 규정하기 어렵다는 단점. 비실험 연구, 탐색 연구라고도 한다. 
  • 특징
    • 비조작성: 연구자가 독립변수를 조작하지 않음
    • 자연 발생: 연구는 자연스럽게 발생하는 상황이나 현상을 관찰
    • 인과성 부족: 상관관계는 파악할 수 있지만 인과관계를 확정짓긴 어려움
  • 예시
    • 흡연자와 비흡엽자의 건강 상태 비교

 

 

2.3. 실험연구

  • 정의: 변수들 간의 관계를 발견하기 위해 통제된 상황에서 독립변수을 인위적으로 조작하여 종속변수에 어떤 영향을 미치는가를 객관적으로 측정하여 분석하는 연구방법
  • 특징
    • 조작성: 연구자가 독립변수를 조작하여 실험 조건을 설정
    • 통제: 실험 조건을 통제하여 외부 변수 영향을 최소화(ex 무작위 배정밥업)
    • 인과성 명확: 독립변수와 종속변수 간의 인과관계를 밝힐 수 있음
  • 예시
    • A/B  test를 통한 두가지 웹 사이트 디자인 효과 비교
    • 약물 효과를 평가하기 위한 무작위 대조 실험(Randomized Control Trial)

모바일에서 자주 사용하는 A/B test

흔히 통계분석이라고 하면 들 수 있는 예시라고 생각했고 대부분의 공대학생들이 1학년때 배우는 자연과학실험의 기반이 되는 연구법이다. 어렴풋히 첫 수업때 실험연구법을 배웠던 것 같은데 기억이..😊  실험연구에서 중요한 키워드는 무작위 배정이라는 방법으로 Confounder를 제외하는 방법이다.

작년에 데이터분야에서 떠오르는 키워드였던 인과추론도 실험연구이다. 인과추론(Casual Inference)와 예측(prediction)은 서로 다른 개념이다. 인과추론은 말그대로 실험 연구의 한 분야이며, 그 관계를 입증하는데 목적이 있다. 반면 예측은 결과값을 정확하는게 목적이다. 종종 데이터분석을 공부하는 학생들은 예측모델링을 통해 통계분석을 한다고 생각하는데 실제로는 그렇지 않다. 다음 그림에 그 구분이 잘 되어있다. 

Hünermund, P., Kaminski, J., & Schmitt, C. (2021). Causal Machine Learning and Business Decision Making.  Available at SSRN 3867326 .

 

3. 출처

 

반응형