일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- CC#3
- 취업
- 데이터분석
- 사이허브
- 카이제곱분포
- 영어연설
- 구글#빅쿼리#데이터분석
- 대중연설
- CC#5
- publicspeaking
- 인과추론
- 풀러스
- 데이터
- 평창
- 영화
- PGTM
- 정형데이터
- 분석
- 엘뱌키안
- Toastmaster
- 제약
- Public Speaking
- 연설
- SQLD
- 공유경제
- F분포
- 데분
- 2018계획
- 토스트마스터
- 임상통계
- Today
- Total
목록지지플랏 (132)
지지플랏의 DataScience
1. 목차4.1. 단순선형회귀4.2. 다중선형회귀4.3. 회귀를 이용한 예측4.4. 회귀에서의 요인변수 2. 본문2.1. OLS 계산법에 대한 이해늘 회귀분석을 하면서 최소자승법에 대한 계산이 궁금했다. OLS의 계산방법은 다음 출처를 인용한다. https://recipesds.tistory.com/entry/%EC%97%90%EB%9D%BC%EC%9D%B4-%EC%9D%BC%EB%8B%A8-%EB%A0%88%EC%B8%A0-%EB%91%90-%EC%9E%87-%ED%9A%8C%EA%B8%B0-%EB%B6%84-%EC%84%9D-OLS-Regression 에라이, 일단 레츠 두 잇, 회귀분석 - OLS Regression 손으로 풀어보기자, 이제까지 회귀에 대해서 계속 말만 꺼냈지, 실제로 회귀를 해보지..
1. 목차3.4. 통계적 유의성과 p값3.5. t검정3.6. 다중검정3.7. 자유도3.8. 분산분석 2. 본문3.4. 1종오류와 2종오류1종 오류: 귀무가설이 참인데도 불구하고 귀무가설을 채택하지 않는 오류2종 오류: 귀무가설이 거짓인데도 불구하고 귀무가설을 채택하는 오류일반적으로 귀무가설은 믿어지고 있는 본래 사상, 주제이고 대립가설으 새로운 주장이다. 귀무가설이 참인데도 불구하고 귀무가설을 채택하지 않는 오류인 1종 오류를 관리하는게 일반 적이다. 예컨데, 새로운 고혈압약을 개발했다고 하자. 이를 검정한 결과가 실제로는 고혈압약이 효능이 없었는데도 불구하고 고혈압치료가 된다고 시판하면 국민의 위해성이 걱정된다. 따라서 이를 관리하는 지표로 놓고 엄격하게 관리한다. 이를 유의수준(significan..
1. 목차3.1. A/B검정3.2. 가설검정3.3. 재표본 추출 2. 본문본 단원에서는 통계석 실험에 대한 본격적인 설명을 시작하며 A/B 테스트시작한다. 일반적으로 실험이라함은 어떤 가설을 확인하거나 기각하기 위한 목표를 가지고 수행하는 방법을 말한다. 예컨데 약품A가 기존 약품보다 낫다 라는 가설을 세울 수도 있을 것이며, 가격A가 가격B보다 수익성이 높다 라는 가설을 세울 수 도 있을 것이다. 3.1. A/B 테스트A/B 테스트는 두가지 처리방법/제품/절차 중 어느 것이 더 우월하다는 것을 입증하기 위하여 실험군을 두 그룹으로 나누어서 진행하는 실험이다. 일반적으로 아무런 처리도 하지 않은 것을 대조군 처리한 그룹을 처리군(실험군)이라고한다.용어정리처리(treatment): 어떤 대상에게 주어지..
1. 목차2.9.이항분포2.10. 카이제곱분포2.11. F분포2.12. 푸아송 분포와 그 외 관련 분포들2.13. 마치며 2. 본문2.9. 이항분포베르누이분포는 1회 실행하였을 때, 결과를 0 또는 1로 표현한 분포이다. 반면, 이항분포는 각 시행마다 성공확률(p)가 정해져있을때 주어진 시행 횟수(n) 중에서 성공한 횟수(x)의 도수 분포를 말한다. 따라서 n,p에 따라 다양한 이항분포가 존재한다. 이항분포의 평균은 n * p 이며 분산은 n * p * (1-p) 이다. N이 커지면 정규분포로 근사할 수 있다. 관련용어시행(trial): 독립된 결과를 가져오는 하나의 사건(예: 동전 던지기)성공(sucees): 시행에 대한 관심의 결과(유의어:1, 즉 0에 대한 반대)이항식(binomial): 두 가지 ..
1. 목차2.4. 부트스트랩2.5. 신뢰구간2.6. 정규분포2.7. 긴꼬리 분포2.8. 스튜던트 t 분포모수, 통계량을 넘어가서 표본샘플링과 신뢰구간, 분포 등에 대해서 알려주는 단원입니다. 2. 본문2.4. 부트스트랩재표본추출(재표집, 리샘플링, resampling): 관측 데이터로부터 반복해서 표본추출하는 과정. 부트스트랩과 순열(셔플링) 과정을 표현부트스트랩(Bootstrap): 통계량이나 모수를 추정하는 방법 중 하나로, 현재 있는 표본에서 추가적으로 표본을 복원추출하고 각 표본에 대한 통계량과 모델을 다시 계산하는 방법, 데이터나 표본통계량이 정규분포를 따라야한다는 가정이없는 장점부트스트랩 표본(Booststrap sample): 관측 데이터 집합으로 얻는 복원 추출 표본 부트스트랩 알고리즘1..
데이터 과학통계 1.5. ~ 2.3.에서는 탐색적 데이터분석의 사례를 소개한다. 1.5 데이터 분포 탐색하기1.6 이진 데이터와 범주 데이터 탐색하기1.7 상관관계1.8 두 개 이상의 변수 탐색하기1.9 마치며2. 데이터와 표본 분포2.1 임의 표본추출과 표본 편향2.2 선택 편향2.3 통계학에서의 표본분포 1. 용어정리커널밀도추정(Kernel Density Estimation): 밀도 추정이란 관측된 데이터로 원래 변수의 확률 분포 특성을 추정하는 것이다. 여기서 밀도 추정 방법에서도 Parametric 한 방법과 Non-Parametric 한 방법으로 나누어진다. Parametric 방법은 정규분포와 같은 분포를 가정하고 밀도를 추정하는 것이다.반면 현실에서는 이렇게 모델이 미리 주어지는 경우가 ..
데이터 과학통계 1.1. ~ 1.4.에서는 탐색적 데이터분석의 사례를 소개한다. 1.1 정형화된 데이터의 요소1.2 테이블 데이터1.3 위치 추정1.4. 변이추정1. 용어 정리데이터과학을 처음 마주할 때 가장 곤란한 사실은 같은 의미를 다른 용어로 쓸 때가 있다는 것이다. 데이터를 레코드라고 하기도하며, 레코드는 2차원 테이블의 행을 뜻한다. 혹은 관측치라고도 부른다. 2차원 테이블에서 세로축을 열이라고 부르기도 차원 혹은 변수라고 부르기도한다. 이는 데이터과학이라는 학문이 통계학과 컴퓨터공학의 2가지 나무에서 성장하여 만난 학문이기 때문이다. 그 때문인지 본 책에서는 용어를 통일하려는 노력을 많이한다. 1.1 정형화된 데이터의 요소연속형 데이터: 구간형, 실수형, 수치형 데이터이산형 데이터: 정수형..
예상독자 데이터를 주기적으로 수집하는 자동화를 구현하고 싶은 데이터 엔지니어, 분석가, 개발자 목차 글의 개요 GCP 셋업 GCP 인스턴스 만들기 빅쿼리 연결 자동화 익히기 Linux 스케쥴러 Cron 알아보기 Hello world 출력하는 실행파일 만들기 OPEN API 데이터 빅쿼리에 저장 자동화하기 깃 설치 및 환경설정 파이썬 가상환경 설정 및 패키지 설치 스크립트 실행 및 자동화 태우기 1. 글 개요 데이터 수집부터 시작하고자하는 데이터 직무라면 파이프라인에 대해서 고민하게 될 것이다. 다양한 방법이 있겠지만 나는 그렇게 부지런한편이 아니니 가장 간단하게 자동화하고 싶은 마음에 GCP을 사용하기로 했다. 본 글에서는 GCP 서버를 세팅하여(자동화), kamis API에서 데이터를 주기적으로 데이터..