일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Public Speaking
- 토스트마스터
- CC#5
- 취업
- 평창
- PGTM
- 풀러스
- SQLD
- 연설
- 제약
- publicspeaking
- 대중연설
- 임상통계
- 공유경제
- 영어연설
- 데분
- 엘뱌키안
- 2018계획
- 데이터분석
- 데이터
- 구글#빅쿼리#데이터분석
- F분포
- 카이제곱분포
- CC#3
- 사이허브
- 인과추론
- 정형데이터
- 분석
- 영화
- Toastmaster
- Today
- Total
목록Data Science (54)
지지플랏의 DataScience
1장에서는 인과추론의 소개, 2장에서는 RCT의 중요성과 기초 통계개념 그리고 3장에서는 인과관계를 표현하는 그래프 인과모델에 대해서 알아보았다. 이번 장에서는 인과관계를 추론하는데 아주 중요한 회귀분석을 알아본다. 회귀분석은 데이터 분석에서 접할 수 있는 가장 간단하지만 파워풀한 통계방법론으로 편향을 줄이는 방법에서도 유용하다. 또한, 온라인 마케팅 모델에서의 실용적인 사례도 알아본다.1. 글목차A/B test 결과 회귀분석 적용온라인 마케팅에서의 회귀분석2. 본문2.1. A/B test 결과 회귀분석 적용온라인 스트리밍 서비스를 하는 회사에서 새로운 추천시스템을 개발했고 이를 측정하기 위해서 A/Btest를 수행했다. 이를 단순집계와 선형회귀의 결과로 표현해보자.import pandas as pdda..
본격적으로 인과추론을 위한 언어인 그래프 모델에 대해서 알아본다. 그래프 모델은 기본적으로 사슬구조, 분기구조, 충돌구조를 개념으로 설명한다. 또한, 교랸편향과 선택편향에 알아 본다. 1. 글목차그래프 인과모델그래프 구조: 사슬, 분기, 충돌구조교란편향선택편향2. 본문2.1. 그래프 인과모델1장에서는 인과추정량의 정의, 2장에서는 인과추론을 하기 위한 온라인통제 실험과 기초통계지식에 대해서 알아보았다. 3장에서는 인과추론의 식별과 추정 2단계 중에서 식별에 대한 내용을 더 깊게 들어간다. 식별은 문제가 언어추론의 식으로 표현될 수 있는지 판단하는 단계이며, 추정은 데이터를 사용하여 인과 효과 값을 계산하는 단계이다. 수식이 수학의 언어이듯 인과추론에서는 수식에 더하여 그래프로 설명하는데 그 개념을 ..
지난 글에서는 인과추론의 개념과 등장하는 지표에 대해서 알아보았다. 또한, 어떤 처치를 주었을 때와 주어지지 않은 경우를 동시에 관측할 수 없는 상황이 있는 것도 이해했다. 이번 단원에는 극복하기 위한 방법 중 하나로 무작위 배정 실험과 함께 유의수준, p-value 등 기초 통계 개념도 정리한다. 1. 글목차온라인 통제 실험(OCE)무작위 통제 실험(RCT)수식으로 알아보는 무작위 배정의 효과불확실성 반영하기 1: 표본오차와 신뢰구간불확실성 반영하기 2 : 가설검정표본 크기 계산 2. 본문2.1. 온라인 통제 실험(OCE)이전 글에서 평균처치효과(ATE)를 통해 처지에 대한 추정량을 측정할 수 있으며 이를 위해서 실험군과 대조군이 교환가능성이 존재해야한다는 사실을 획득했다.이 교환가능성을 확보하기 위..
인과관계는 데이터 분석을 입문할 때 항상 등장하는 개념이다. 단순히 "상관관계와 헷갈리지 말자!! 도메인지식을 활용하자!" 라는 성급한 마무리로 인과관계를 밝혀내고 측정하는 방법에 대해서는 넘겨 버린 것이 사실이다. 이번에 실무로 통하는 인과추론 책을 스터디하면서 공부하는 내용을 정리할 예정이다. 1. 글목차인과추론의 기본 개념인과 추론을 위한 기본 수식과 기호인과 추정량2. 본문 2.1. 인과추론의 기본 개념 인과추론(Casual Inference)란 무엇인가? 두 변수 $X_{1}, X_{2}$의 상관관계를 알았다고 하자. 하지만 두 변수가 바로 원인과 결과로 속단하긴 어렵다. $X_{1}$이 원인 $X_{2}$가 결과일 수 도 있고 그 반대의 경우일 수 도 있다. 반면 둘 다 원인의 결과가 아닌 ..
데이터 사이언스라는 분야는 앞으로도 건재할까? IT 직군의 데이터분석가는 AI 시대에 영속할까? 아니면 없어지게 될까. 데이터 직군이 나아가야 할 방향을 고민해본 내용을 정리해본다. 1. 글 목차데이터 사이언스는 없어질까?데이터 분석가 직군은 없어질까?기업 사례로 본 데이터직무의 역할데이터 직군은 왜 진입하기 어려운가?앞으로 데이터 분석가의 방향성은? 기타) DS & 배포 Framework2. 본문2022년 ChatGPT가 발표된 뒤로 IT업계는 AI에 대한 화두를 빼놓은 발표주제가 없다시피 하다. 데이터 분석가는 직군은 어떻게 변모할 것인가에 대한 고민을 모아 이 글에 풀어 넣어본다. 2.1. 데이터 사이언스는 없어질까? No. 데이터 사이언스라는 말이 유창하긴 하지만 기존에 데이터 기반으로 의사결정으..
이번 글은 Khan Acadmey 마지막 단원인 14 ~ 16단원에 해당하는 카이제곱 분포와 검정방법 3가지(적합도, 독립성, 동질성), 분산분석에 대해서 다룬다. 예시로 쉽게 알아보고 Python 코드를 이용해서 적용해보자.1. 글목차카이제곱 분포카이제곱 검정: 적합도, 독립성, 동질성 검정F 분포분산분석2. 본문2.1. 카이제곱 분포카이제곱분포이란 무엇인가? 표준정규분포를 따르는 $Z \sim N(0,1^{2})$변수의 그림을 떠올려 보자. 이를 제곱한 분포를 그려보자. 새로운 분포인 $\chi^{2} = Z^{2}$라고 표현할 수 있다. 표준정규분포는 평균이 0 이고 표준편차가 1인 분포를 따르기 때문에 이를 제곱한 결과는 0에 대부분 쏠려 있을 것이다. 반면 평균이 0 이지만 0을 벗어난 ..
이번 글에서는 추론통계의 핵심 유의성 검정과 등장하는 개념, 그리고 일반적인 통계방법론을 정리해본다.1. 글목차유의성 검정에 필요한 개념1종오류와 2종오류유의성 검정 절차통계검정 절차(Diagram) -연속형 종속변수인 경우, 일반적인 경우2. 본문 2.1. 유의성 검정의 개념유의성검정은 연구나 실험에서 관찰된 결과가 우연에 의한 것인지 아니면 실제로 의미있는 차이가 존재하는지를 판단한다는 것이다. 이를 위해 몇가지 기본 개념을 설명하고 진행해야한다. 귀무가설($H_{0}$): 일반적으로 받아들여지는 사실대립가설($H_{1}$): 주장하고자 하는 바(귀무가설의 반대)왜 귀무가설을 상정해야하는가? 수학의 증명방법 중에 귀류법 이라는 것이 있다. 모순에 의한 논증법으로 일단 귀무가설이 사실이라고 치자. 그..
11단원에서는 정규분포하에서의 신뢰구간을 구하는 방법에 대해서 논한다. 1. 글목차모평균과 모비율이 중요한 이유모비율 추론모평균 추론 2. 본문2.1. 모평균과 모비율이 중요한 이유모평균은 전체 모집단의 평균이다. 우리가 관심있는 변수 (ex 키, 소득, 점수)등에 대한 전체 모집단에 일반적인 수준을 이해하는데 도움이 되는 대표적인 지표이다.모비율은 전체 모집단에서 발생하는 비율이다.(ex 후보를 지지하는 비율) 통계학의 중요한 목표 중 하나는 표본으로 부터 모집단에 대한 결론을 도출하는 것이다. 모평균과 모비율에 대한 추정은 이를 기반하기 위한 근거가 될 수 있다. 또한, 모평균과 모비율은 정확히 아는 것을 불가능에 가깝기 때문에 신뢰구간을 설정함으로서 특정 범위 내에 있는 확률을 제공하게 된다. 신뢰..