일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 대중연설
- Toastmaster
- F분포
- 토스트마스터
- Public Speaking
- 엘뱌키안
- 공유경제
- 데이터분석
- 연설
- 영어연설
- 정형데이터
- CC#5
- 제약
- 데이터
- 분석
- 영화
- 인과추론
- publicspeaking
- CC#3
- 임상통계
- 구글#빅쿼리#데이터분석
- 사이허브
- SQLD
- 데분
- 풀러스
- 취업
- 카이제곱분포
- PGTM
- 2018계획
- 평창
- Today
- Total
지지플랏의 DataScience
(3) Chapter 3 그래프 인과모델 본문
본격적으로 인과추론을 위한 언어인 그래프 모델에 대해서 알아본다. 그래프 모델은 기본적으로 사슬구조, 분기구조, 충돌구조를 개념으로 설명한다. 또한, 교랸편향과 선택편향에 알아 본다.
1. 글목차
- 그래프 인과모델
- 그래프 구조: 사슬, 분기, 충돌구조
- 교란편향
- 선택편향
2. 본문
2.1. 그래프 인과모델
1장에서는 인과추정량의 정의, 2장에서는 인과추론을 하기 위한 온라인통제 실험과 기초통계지식에 대해서 알아보았다. 3장에서는 인과추론의 식별과 추정 2단계 중에서 식별에 대한 내용을 더 깊게 들어간다. 식별은 문제가 언어추론의 식으로 표현될 수 있는지 판단하는 단계이며, 추정은 데이터를 사용하여 인과 효과 값을 계산하는 단계이다. 수식이 수학의 언어이듯 인과추론에서는 수식에 더하여 그래프로 설명하는데 그 개념을 담기 위한 단원이라고 생각하면 된다.
그래프의 표기가 중요한 이유는 인과 구조의 명확한 표현으로 변수들 간의 상호작용을 쉽게 이해할 수 있기 때문이다. 핵심 요소는 다음과 같다.
- 노드(Node): 그래프에서 확률변수를 나타내는 원을 의미함
- T: 처지변수 / M: 중재자 / Y: 종속변수
- 엣지(Edge): 변수들의 관계를 나타내는 화살표이며 방향성을 표현한다.
- 방향성 비순환 그래프(DAG, Directed Acyclic Graph): 사이클이 없는 방향성 그래프이다. 순환 구조가 없다고 가정함
2.2. 그래프 구조: 사슬, 분기, 충돌구조
2.2.1. 사슬 구조
가장 간단한 구조는 사슬(Chain)구조이다. 위 그림의 (a) 그래프이며 인과관계는 화살표 방향으로 흐르지만 상관관계는 양방향으로 흐른다. 위 경우에는 X와 Y는 독립이 아니며 다음과 같이 표현한다.
$ X \not\perp Z $
반면 Y를 고정시킨다면 X와 Z는 독립이 되며 다음과 같이 표현한다.
$ X \perp Z | Y $
고정시킨다는 것은 조건부라고 표현하기도 한다. 이게 무슨소리냐하면 X를 공부시간, Y를 시험대비 학습 수준(상/중/하), Z를 성적이라고 한다면, 시험대비 학습 수준이 고정된다면 X와 Y의 인과관계가 차단된다. 시험 대비 학습수준이 동일하다면 공부를 얼마나 하든 성적에 영향이 없다는 것이다.
2.2.2. 사슬 구조
두번째 분기(fork)구조에는 공통원인이 있다. 같은 변수(X)가 Y,Z에 공통된 원인이 된다. 이런 경우 X는 교란요인(Cofounder)라고 부른다. 예컨데 좋은 데이터분석가를 정의해보자. 좋은 데이터 분석가(X)는 뛰어난 SQL 쿼리능력(Y)와 데이터 시각화 능력(Z)에 영향을 주는 교란변수이다. 회사는 좋은 데이터 분석가를 뽑고 싶기 떄문에 기본적으로 SQL쿼리 시험을 보는 것이고 이는 데이터 시각화 능력이 있는 가능성이 높다고 할 수 있겠다. 이렇게 SQL쿼리능력과 데이터 시각화 능력 간에는 상관관계가 존재한다.
일반적으로 공통원인을 공유하는 두 변수는 독립이다. 좋은 데이터 분석가는 일반적으로 SQL쿼리시험과 데이터 시각화 능력이 관계가 있다.
$ Y \not\perp Z$
반면, 공통원인이 주어지면(고정시키면) 두 변수는 독립이다. 예컨대 좋은 데이터분석가 역량을 고정한다면, 서로 다른 관측치끼리 비교할때 SQL쿼리 능력이 증가하면 데이터 시각화 능력에 대한 역량이 떨어질 수 있다.
$ Y \perp Z | X$
2.2.3. 충돌 구조
마지막으로 충돌 구조는 두 노드가 하나의 자식(Z)을 공유하지면 그들(X,Y)사이에는 직접적인 관계가 없는 경우이다. 일반적으로 두 변수는 독립이다. 부모의 키는 서로 독립인 경우를 생각하자.
$ X \perp Y $
하지만 Z가 고정된다면 두 변수는 독립이지 않다. 만약 자식의 키가 170인 가족을 모은다면, 한쪽 부모의 키가 크면 자연스럽게 다른쪽 부모는 작은 경향을 나타낼 것이다.
$ X \not\perp Y | Z $
2.3. 식별예제
컨설턴트 영입 유무에 따른 회사 수익의 변동유무를 측정해보자.
- profits_prev_6m: 컨설턴트 고용시점 이전 6개월 간의 회사수익
- profits_next_6m: 고용시점 이후 6개월간의 회사 수익
- consultancy: 컨설턴트 고용 유무
import pandas as pd
df = pd.DataFrame({"profits_prev_6m":[1,1,1,5,5,5], "consultancy":[0,0,1,0,1,1],"profits_next_6m":[1,1.1,1.2,5.5,5.7,5.7]})
df
컨설턴트 영업 유무에 따른 6개월간의 단순 수익을 비교하면 다음과 같다.
$E[Y | T = 1] - E[Y | T = 0] $
$ \frac{(1.2 + 5.7 + 5.7)}{3} - \frac{(1.0 + 1.1 + 5.5)}{3} = 1.67 $
코드로 구현하면 다음과 같다.
con_df = df.groupby(['consultancy'])[['profits_next_6m']].mean()
diff = (con_df.loc[1] - con_df.loc[0]).values[0]
print(f"{diff:.2f}")
#1.67
하지만 위 결과 값은 기본적으로 과거 실적이 좋았던 회사들이 컨설팅을 고용한 비율이 높기 때문에 인과효과라고 하기 어렵다. 따라서 과거 실적이 비슷한 회사끼리 비교하여 한다.
avg_df = (df.groupby(['consultancy','profits_prev_6m'])['profits_next_6m'].mean())
avg_df.loc[1] - avg_df.loc[0]
'''
profits_prev_6m
1 0.15
5 0.20
Name: profits_next_6m, dtype: float64
'''
위 경우 ATE는 (0.15 + 0.2)/ 2 인가 된다. 즉, 컨설턴트를 고용한 평균처치 효과는 175,000달러가 된다고 알 수 있다.
여기서 뒷문경로(Back door path)의 개념이 나온다. 6개월 이후 수익에 영향을 줄 수 있는 변수는 처치한 변수(컨설팅)과 6개월 이전의 수익이다. 결과적으로 6개월 이후 수익이 컨설팅이 영향있다는 것을 입증하기 위해서는 6개월 이전의 수익을 고정시켜 뒷문경로를 차단하여 올바른 인과관계를 도출하는 것이다.
2.3. 교랸편향
편향의 첫 번째 주요 원인은 교란이다. 교란은 대개 열린 뒷문 경로가 있을때 발생하는데, 이는 처치와 결과가 공통 원인을 공유하기 떄문이다. 위 예시와 같이 인과효과를 식별하려면 처치와 결과 사이의 모든 뒷문 경로를 닫아 T -> Y로 이루어지는 직접적인 효과만 남겨야한다. 이를 위해선 처치와 결과의 공통 원인을 보정해야하지만 항상 이 원인을 알 수 있거나 측정 가능한 것은 아니다.
예컨대 관리자의 자질 -> 교육 -> 팀 참여도에 관한 인과관계를 측정하기 위해선 관리자 자질이 직접적으로 팀 참여도에 기여하는 뒷문경로를 차단야한다. 하지만 관리자의 자질은 정량적으로 측정하기 어려우므로, 관리자의 근속기간, 교육 수준 등의 외부변수로 영향을 측정할 수 있으며 이를 대리 교란 요인이라고 한다.
2.4. 선택편향
3. 출처와 링크
'Data Science > 실무로 통하는 인과추론 with 파이썬' 카테고리의 다른 글
(6) Chapter 5: 매칭 Part1: 성향 점수(PS), 역확률 가중치(IPW) (3) | 2024.10.07 |
---|---|
(5) Chapter 4: 유용한 선형회귀 Part2: FWL 방법론 (4) | 2024.09.30 |
(4) Chapter 4: 유용한 선형회귀 Part 1 - 온라인 마케팅 (3) | 2024.09.23 |
(2) Chapter 2 인과추론을 위한 무작위 실험과 기초 통계 (1) | 2024.09.09 |
(1) Chapter: 인과추론 소개 (5) | 2024.09.02 |