일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 2018계획
- 정형데이터
- Toastmaster
- F분포
- 평창
- publicspeaking
- 데이터분석
- 임상통계
- CC#5
- 취업
- 구글#빅쿼리#데이터분석
- 사이허브
- 데이터
- 카이제곱분포
- 인과추론
- 풀러스
- 분석
- 제약
- SQLD
- 연설
- 토스트마스터
- 공유경제
- Public Speaking
- 엘뱌키안
- CC#3
- PGTM
- 대중연설
- 영화
- 영어연설
- 데분
- Today
- Total
지지플랏의 DataScience
왜 프로덕트 팀은 A/B테스트를 사랑할까? (feat 인과추론) 본문
흔히 데이터 분석가라는 공고의 많은 부분이 프로덕트 분석을 지향하고 A/B test 의 지식과 경험을 요합니다. 도대체 A/Bㅅtest가 무엇이길래 이렇게 신봉되는 걸까요? 연구의 큰 종류인 관찰연구와 실험연구의 구분와 실험연구의 대표적인 방법인 RCT 그리고 온라인 환경에 이식된 온라인통제실험(OCE)의 흐름을 살펴보고 A/B test가 왜 중요해졌는지 알아보겠습니다.
1. 태초에 관찰과 실험이 있노라: 관찰연구
분석이라는 관점에서 개입유무에 따라 관찰연구(Observational Study)와 실험연구(Experimental Study) 가 존재합니다. 대부분의 분석은 집계로 부터 시작하고, SQL과 같은 쿼리문은 Descriptive하게 정보를 보는 것이 중점을 둡니다. 물론 그 그 과정에서 비즈니스에 적용할 수 있는 지표나 잘 정의된 문제를 보는 입장에서는 이만한 기술이 없죠. 덜 논쟁적(중요..)이고 우리는 그 정보를 가지고 어떻게 행동(Action)해야하는지 고민하면 됩니다. 집게된 데이터에 관심을 가지지 왜 이렇게 나왔는지에 대해서 논쟁하진 않거든요. 심플하고 간단하고 이해하기 쉬우니까요. 하지만 분석의 본질은 단순 집계만 머물지 않습니다.
우리는 관찰하고 인과관계를 밝혀내길 희망합니다. 관찰연구는 연구자 혹은 분석가가 직접적으로 개입하지 않고 자연스럽게 발생하는 데이터를 관찰하여 분석하는 연구 설계라고 하며, 피험자 혹은 연구 대상자에게 위해가 아주 적습니다. 흡연자와 건강 상태를 비교하는 연구, 웹사이트에서 사용자들이 자발적으로 클릭한 광고의 효과를 분석하는 경우가 해당됩니다. 이 관찰연구는 이미 주어진 데이터로 기술통계를 내거나 확인하는 연구이므로 이미 있는 데이터를 후향적(respective)으로 연구한다는 특징을 가지고 있습니다.
하지만 우리는 어떤 변화를 일으켜서 그 영향을 비교하고 싶은 것에 관심이 더 많습니다. "여기 버튼을 우측 하단으로 옮기면 어떨까?" , "만약 할인 쿠폰을 발행한다면 얼만큼 반응할까" 와 같은 관점 말입니다. 예를 들어 당근마켓의 사례를 보죠. 뱃지 획득 유무에 따른 잔존율의 상관관계를 밝혀 냈다고 합시다. 뱃지를 획득한 사람은잔존율이 높아! 굉장히 합리적으로 들리는데요.
하지만 현실은 그렇게 녹록하지 않습니다. 상관관계를 방해하는 녀석이 있는데 이를 교란변수(Counfounding)이라고 합니다. 이게 모든 관찰연구의 한계의 근본인 녀석입니다. 아주 흉악한 녀석이죠. 우리는 교란변수를 제어(Control)하고 싶습니다. 하지만 두가지 문제가 있습니다.
먼저 교란변수는 측정되지 않는 경우가 많습니다. 회원가입할 때 성별, 나이, 전화번호부 등 마케팅 동의 다 하시나요? 애초에 데이터가 존재하지 않으면 제어하는 것이 어렵습니다. 두 번째 문제는 인과관계는 여러가지 요소가 뒤엉켜 껴안고 있어서 이거를 생선살 발라내듯 발라내는 것이 어렵습니다. 이를 내생성 문제(Endogeneity problem)라고 합니다.
2. 교란변수 극복하기 - 인과추론(Casual Inference)
인과추론은 이 내생성 문제를 어떻게든 해결할려고 뜯어말리는 시어머니와 같습니다. 말 그대로 X-Y의 인과관계를 밝혀내는 방법입니다만, 관찰된 데이터를 가지고 교란변수를 통제하는 방법론(Ex. PS 매칭, 차분법) 등이 필수적으로 요구됩니다.인과추론은 멋진 이상향을 보여주지만 어려운 학문입니다.
https://playinpap.github.io/introduction-to-causal-inference/
인과추론 입문하기
✍🏻 이 글은 저자의 블로그 에서도 만나보실 수 있습니다. 오늘은 인과추론의 기초적인 내용들에 대해 이야기…
playinpap.github.io
3. 교란변수 극복하기 - 실험 연구(Experimental Study)
그럼 교란변수에 우리는 손 들고 항복을 선언해야할까요? 그렇지 않습니다.우리 잘생긴 피셔형님이 좋은 대책을 가져왔습니다. 바로 실험연구 중 무작위 대조실험입니다. 실험연구는 연구가 실험 대상을 처치에 따라 두 그룹으로 배정하여 결과를 비교하는 연구이며, 실험연구가 중요한 이유는 모든 변수를 통제(Control)하고 우리가 원하는 개입(Intervention)에 따른 영향을 분석할 수 있기 때문입니다.
임상시험은 대표적인 실험연구이자 무작위 대조 실험의 한 예시이며, 이를 차용하여 온라인에 적용하면 온라인 통제 실험(Online Controlled Experiment, OCE)라고 합니다.
임상시험에서 고혈압 약제를 투여한 그룹과 플라시보(Placebo)를 투여한 그룹 간의 혈압 개선 연구처럼 의학적 분야에서는 RCT(Random Clinical Trial) 라고 불리우며, 웹사이트 A/B 테스트에서 두 가지 페이지를 무작위로 보여주고 클릭율을 비교하는 연구는 OCE의 예시 라고 할 수 있겠습니다.
위 실험설계는 모두 나머지 모든 변수를 통제(Contol)하고 처치(독립변수)로 인한 결과(종속변수)에 관심이 있고 데이터를 전향적(Prospective)하게 수집하여 연구한다느 특징을 가지고 있습니다. 종합적으로 정리하자면 다음과 같습니다.
관찰연구 | RCT(실험연구) | |
개입 여부 | 연구자가 직접 개입하지 않고 자연스러운 데이터 관찰 |
대조군과 실험군을 무작위로 할당 실험군에 개입 |
인과 관계 규명 | 어려움 | 가능 |
교란 변수 통제 | 교란변수 어려움, PSM 등을 통한 제어 방법 도입 必 |
무작위할당으로 교란변수를 통제 가능 |
윤리 문제 | 거의 없음 | 발생할 수 있음 (Ex 신약 개발) |
실행 비용 | 비용이 적고 시간이 덜 소요 | 시간과 비용이 많이 듬 |
적용 예시 | 흡연이 건강에 미치는 영향 | 임상시험, 온라인 통제실험 |
4. 마무리
인과추론과 기존에 배웠던 지식을 합치면서 자연스럽게 Product Anlaysis 분야가 A/B test 집착하는 이유도 이해가 잘가게되었습니다. 실제로 저는 임상시험은 아니지만 공학대학에서 약 3년간 실험연구만 전공으로 했었기 때문에 이런 정리가 좀 더 와닿는 면이 있었습니다. 근본적으로 과학은 통제가능한 실험을 좋아하고 그 분야에 리소스를 많이 투여할 수 밖에 없는그만의 매력이 있는 것 같습니다.
A/B test는 아마 데이터 직무 분야에서 Gold Standard로 정말 오래동안 영속될 것 같은 느낌이 듭니다. 반면 이런 OCE를 못하는 환경에서의 대안으로 인과추론이 역시 부상할 것이라는 것을 더 마음에 와닿게 되었습니다. 지식의 상아탑을 올라가려면 아마 꽤 오랜시간 저를 괴롭힐 것 같은데, 이미 한번 스터디를 하면서 완벽하게 이해하지 못했기 때문입니다.
국내에는 인과추론의 데이터과학 Youtube와 가짜연구소의 인과추론 스터디가 좋은 레퍼런스를 남겨주고 있는데, 더더 좋은 자료가 나올 것이라 믿고 확인하며 실업무에서 도입 사례에 대해서 연구해볼 가치가 있을 것 같네요. 그럼 다음에 깨달음의 언덕에 다다를때쯤 다시 한번 포스팅 해보겠습니다.
https://www.youtube.com/@causaldatascience
인과추론의 데이터과학
데이터 분석을 통해 원인과 결과를 탐구하는 인과추론 (causal inference)을 다룹니다.
www.youtube.com
'Data Science' 카테고리의 다른 글
신뢰구간의 2가지 계산방법: t분포와 부트스트래핑 (0) | 2024.11.24 |
---|---|
ADP 32회 시험 후기와 복기 (0) | 2024.10.13 |
글또 10기를 시작하며 다짐 글 (1) | 2024.10.13 |
2024년 데이터 직군이 나가야 할 방향 정리하기 ft. AI시대 데이터직군 생존 전략 (0) | 2024.08.20 |
(15) DSforS: Chap7. 7.1 주성분 분석(PCA) (0) | 2024.06.26 |