일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 구글#빅쿼리#데이터분석
- CC#5
- 사이허브
- 2018계획
- 영화
- 제약
- 분석
- 공유경제
- 영어연설
- 취업
- PGTM
- 풀러스
- 평창
- 토스트마스터
- 데이터
- SQLD
- F분포
- Toastmaster
- 연설
- 데이터분석
- 대중연설
- CC#3
- 카이제곱분포
- 인과추론
- Public Speaking
- 데분
- 엘뱌키안
- 정형데이터
- publicspeaking
- 임상통계
- Today
- Total
목록Data Science (54)
지지플랏의 DataScience
흔히 데이터 분석가라는 공고의 많은 부분이 프로덕트 분석을 지향하고 A/B test 의 지식과 경험을 요합니다. 도대체 A/Bㅅtest가 무엇이길래 이렇게 신봉되는 걸까요? 연구의 큰 종류인 관찰연구와 실험연구의 구분와 실험연구의 대표적인 방법인 RCT 그리고 온라인 환경에 이식된 온라인통제실험(OCE)의 흐름을 살펴보고 A/B test가 왜 중요해졌는지 알아보겠습니다.1. 태초에 관찰과 실험이 있노라: 관찰연구 분석이라는 관점에서 개입유무에 따라 관찰연구(Observational Study)와 실험연구(Experimental Study) 가 존재합니다. 대부분의 분석은 집계로 부터 시작하고, SQL과 같은 쿼리문은 Descriptive하게 정보를 보는 것이 중점을 둡니다. 물론 그 그 과정에서 비즈니..
이번 글에서는 A/B 테스트를 비롯한 데이터 과학에서 자주 사용되는 신뢰구간이 등장한 이유를 알아봅니다. 또한, 신뢰구간의 t-분포 기반 방법과 부트스트래핑 기법을 비교하여 설명합니다. 부트스트래핑은 컴퓨터 자원을 활용한 현대적 방법으로, 데이터 과학에서 왜 중요한지를 알아봅시다.1. 글목차점추정의 한계와 구간 추정의 필요성신뢰구간의 등장현재 데이터과학에서 부트스트래핑의 중요성 2. 본문2.1. 점추정의 한계와 구간 추정의 필요성통계학의 기본은 모집단을 알아내는 방법론입니다. 하지만 모집단에 대한 전수조사가 불가능에 가깝기 때문에 표본을 가지고 모집단에 대한 특징 평균,표준편차를 구하는 것이 추론통계의 기초라고 하겠습니다 . 표본데이터로 모평균은 쉽게 구할 수 있는 법칙이 있는데 Law of Large ..
통계에 관련된 책이나 분석방법을 찾다보면 자연스럽게 선형대수학에 대한 개념이 나오게 된다. 이번에는 khan Academy와 개발자를 위한 선형대수학 책을 병행학습하며 기초에 대해서 정리해보고자 한다.1. 글목차기본개념데이터분석의 활용 분야벡터2. 본문2.1. 기본 개념세상에는 두가지 값이 존재한다. 크기만 존재하는 값을 의미하는 스칼라(Scala), 크기와 방향이 존재하는 벡터(Vector). 이과 전공으로 물리학에서 자주 등장하는 힘에 관련된 표기를 흔히 벡터로 표기하기 때문에 익숙하다. 선형대수학(Linear Algebra)는 이처럼 벡터와 행렬, 선형 변환과 같은 수학적인 구조를 다루는 학문이다. 통계학과에서는 2학년의 전공 필수 과목이다.선형은 직선처럼 행동하는 성질을 뜻하며, 벡터와 행렬 연산..
9월 2일부터 2달간 진행된 인과추론 스터디에 대한 후기를 남깁니다. 작년에 워낙 핫한 분야이기도 하였고, 마냥 쉽지 않을거라 생각했지만 이때 아니면 언제 공부해보겠는가라는 생각으로 진행했습니다. 매주 Chapter를 학습하고 개념들을 정리하면서 블로깅까지 마무리를 했습니다. 1. Keep블로그에 Latex문법을 쓰면서 꽤나 속도가 늘었습니다. 이제는 손으로 쓰는것보다 Latex문법이 편할 정도입니다. Notion 역시 Latex 문법을 지원하기 때문에 공부 자료를 정리하기가 매우 좋아져서 만족합니다.책에 함축된 개념들이 많아서 한 번이 아닌 이틀에 걸쳐서 반복해서 읽고 데이터의 인과추론 유튜브를 보면서 복습을 했습니다. 모호하던 개념들이 정리가 되는 점이 좋았습니다.스터디 참여원들에게 알려주면서 스스로..
2024년 10월 12일 ADP 시험을 보고 왔습니다. 결론적으로 말하자면 디버깅하는데 시간을 너무 많이 써서 100% 실력발휘를 못한거 같아 너무 아쉽습니다. 문제는 평이했지만 시간이 너무 모자라서 아쉬움이 많이 남는 회차입니다. 복기도 할 겸 정리를 해봅니다.1. 개요9시 ~ 9시 30분: 화장실 동선확인, 자료 정리, 응시표, 신분증 준비 등을 진행시험은 신도림 테크노마트 5층 그린컴퓨터학원에서 치뤘습니다. 9시 정시에 입장했지만, 수험생 번호표도 안 붙어있어서 시험장으로서 준비는 잘 안되어있습니다. 입장해서 주위 환경과 동선을 파악하고 자료정리에 신경을 썼습니다.https://naver.me/GxOLoE1G 그린컴퓨터아트학원 신도림캠퍼스 : 네이버방문자리뷰 61 · 블로그리뷰 74m.place..
1. 도입글또 10기가 다시 시작되었다. 8기가 시작한게 23년 1월이니 거의 만 2년에 가까워지는 것 같다. 글또에서 글을 쓰고자고 결심한 이유는 일을하면서 문서의 힘을 경험하면서이다. 결국 다수의 사람들이 커뮤니케이션 하기 가장 기본적은 매체는 글과 문서이라고 느껴졌다. 그렇게 퇴사를 하고 개인사업을 진행하면서 내가 필요한 지식을 Hard Copy 혹은 인터넷에서 수집하는 도중 충격받은 블로그가 하나 있다.https://recipesds.tistory.com/ 친절한 데이터 사이언티스트 되기 강좌Data Recipes (통계에서 머신러닝까지) 여기는 데이터사이언티스트가 되고 싶은 분들에게 기본적으로 알아야하는 것들을 널리 이롭게 알리고자 하는 곳예요. 강의실전체Map을 참고하세요!! ★ by 히rec..
지난 글에서는 선형회귀분석을 사용하여 교란요인을 보정하는 방법과 온라인 실험상에서의 활용 방법을 알아보았습니다. 이번에는 또 다른 편향 방법 중 하나인 성향 점수 가중치(propensity weighting)에 대해서 알아보고 실제 예시로 구현해보겠습니다.1. 글목차매칭의 필요성매칭의 정의방법1: 성향점수(PS)방법2: 역확률 가중치(IPW)2. 본문2.1. 매칭(Matching)의 필요성교육프로그램의 효과를 측정하기 위해서 교육과정에서 얻은 데이터가 있습니다. 우리의 목적은 교육을 받은 사실(처치변수)과 직원 참여도(결과변수) 간의 인과관계를 추정하여 실제적으로 교육 프로그램이 효과가 있는지 확인할 예정입니다.navie하게 단순성형회귀로 표준화된 참여점수(종속변수) ~ 처치변수(독립변수)에 관한 회귀..
지난 글에서는 온라인통제 실험상에서의 인과추론과 선형회귀모델을 적용하는 방법에 대해서 알아보았다. 이번 글은 선형회귀가 어떻게 무작위 배정을한 것처럼 보이게 할 수 있는지 원리와 그 기반에 되는 직교화의 개념, FWL 방법론에 대해서 작성해본다! 1. 글목차조건부 독립성직교화: 기하학 관점선형회귀관점에서의 직교화: FWL더미변수를 이용한 회귀 분석심슨의 역설2. 본문지난 글에서는 무작위 배정을 통한 교란변수의 통제가 중요하다는 것을 알았다. 하지만, RCT가 불가능하거나 어려운 상황 예컨데, 은행에서 고객들의 대출을 빌려주는 상황에서는 어떻게 처치변수(신용한도)가 채무불이행(결과변수)에 미치는 영향을 정량화 할 수 있을까? 실무로 통하는 인과추론 책 4단원에서는 선형회귀를 통한 방법론을 설명하고 있다...