일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- F분포
- 토스트마스터
- 데분
- 2018계획
- PGTM
- 데이터분석
- 제약
- 영화
- 취업
- CC#3
- 구글#빅쿼리#데이터분석
- 인과추론
- 엘뱌키안
- 카이제곱분포
- 데이터
- 연설
- 평창
- 사이허브
- 대중연설
- 영어연설
- SQLD
- Public Speaking
- 임상통계
- 정형데이터
- Toastmaster
- 분석
- CC#5
- 공유경제
- publicspeaking
- 풀러스
- Today
- Total
목록Data Science/Khan Academy (9)
지지플랏의 DataScience
통계에 관련된 책이나 분석방법을 찾다보면 자연스럽게 선형대수학에 대한 개념이 나오게 된다. 이번에는 khan Academy와 개발자를 위한 선형대수학 책을 병행학습하며 기초에 대해서 정리해보고자 한다.1. 글목차기본개념데이터분석의 활용 분야벡터2. 본문2.1. 기본 개념세상에는 두가지 값이 존재한다. 크기만 존재하는 값을 의미하는 스칼라(Scala), 크기와 방향이 존재하는 벡터(Vector). 이과 전공으로 물리학에서 자주 등장하는 힘에 관련된 표기를 흔히 벡터로 표기하기 때문에 익숙하다. 선형대수학(Linear Algebra)는 이처럼 벡터와 행렬, 선형 변환과 같은 수학적인 구조를 다루는 학문이다. 통계학과에서는 2학년의 전공 필수 과목이다.선형은 직선처럼 행동하는 성질을 뜻하며, 벡터와 행렬 연산..
이번 글은 Khan Acadmey 마지막 단원인 14 ~ 16단원에 해당하는 카이제곱 분포와 검정방법 3가지(적합도, 독립성, 동질성), 분산분석에 대해서 다룬다. 예시로 쉽게 알아보고 Python 코드를 이용해서 적용해보자.1. 글목차카이제곱 분포카이제곱 검정: 적합도, 독립성, 동질성 검정F 분포분산분석2. 본문2.1. 카이제곱 분포카이제곱분포이란 무엇인가? 표준정규분포를 따르는 $Z \sim N(0,1^{2})$변수의 그림을 떠올려 보자. 이를 제곱한 분포를 그려보자. 새로운 분포인 $\chi^{2} = Z^{2}$라고 표현할 수 있다. 표준정규분포는 평균이 0 이고 표준편차가 1인 분포를 따르기 때문에 이를 제곱한 결과는 0에 대부분 쏠려 있을 것이다. 반면 평균이 0 이지만 0을 벗어난 ..
이번 글에서는 추론통계의 핵심 유의성 검정과 등장하는 개념, 그리고 일반적인 통계방법론을 정리해본다.1. 글목차유의성 검정에 필요한 개념1종오류와 2종오류유의성 검정 절차통계검정 절차(Diagram) -연속형 종속변수인 경우, 일반적인 경우2. 본문 2.1. 유의성 검정의 개념유의성검정은 연구나 실험에서 관찰된 결과가 우연에 의한 것인지 아니면 실제로 의미있는 차이가 존재하는지를 판단한다는 것이다. 이를 위해 몇가지 기본 개념을 설명하고 진행해야한다. 귀무가설($H_{0}$): 일반적으로 받아들여지는 사실대립가설($H_{1}$): 주장하고자 하는 바(귀무가설의 반대)왜 귀무가설을 상정해야하는가? 수학의 증명방법 중에 귀류법 이라는 것이 있다. 모순에 의한 논증법으로 일단 귀무가설이 사실이라고 치자. 그..
11단원에서는 정규분포하에서의 신뢰구간을 구하는 방법에 대해서 논한다. 1. 글목차모평균과 모비율이 중요한 이유모비율 추론모평균 추론 2. 본문2.1. 모평균과 모비율이 중요한 이유모평균은 전체 모집단의 평균이다. 우리가 관심있는 변수 (ex 키, 소득, 점수)등에 대한 전체 모집단에 일반적인 수준을 이해하는데 도움이 되는 대표적인 지표이다.모비율은 전체 모집단에서 발생하는 비율이다.(ex 후보를 지지하는 비율) 통계학의 중요한 목표 중 하나는 표본으로 부터 모집단에 대한 결론을 도출하는 것이다. 모평균과 모비율에 대한 추정은 이를 기반하기 위한 근거가 될 수 있다. 또한, 모평균과 모비율은 정확히 아는 것을 불가능에 가깝기 때문에 신뢰구간을 설정함으로서 특정 범위 내에 있는 확률을 제공하게 된다. 신뢰..
이산확확률변수와 연속확률 변수들을 정리해본다.1. 글목차이산확률변수연속확률변수2. 본문현실의 세계 문제는 다양하고 복잡하다. 동전을 던지는 실험, 도로에서 발생하는 교통사고의 수, 특정 시간동안 걸려오는 콜 전화의 수 등 다양한 상황을 정확하게 반영하기 위해서 다른 확률 변수가 필요하다고 할 수 있다. 확률변수는 특정 현상을 모델링하는데 의의미가 있다. 예컨데 포아송 확률변수는 일정 시간 또는 공간에서 발생하는 사건의 수를 모델링하는데 유용한 식으로 말이다. 오늘은 이산확률 변수에 대하서 정리해보자.2.1. 이산확률변수- 각 시행마다 성공확률($p$)가 정해져 있을때 시행 횟수 ($n$)회 중에서 성공한 횟수 ($X$)의 도수 분포평균: $E(X) = np$ 혹은 $ E(X) = \sum_{k=0}^..
이번 단원들은 확률, 조합, 순열에 대해서 다룬다. 기본적인 내용이니만큼 간단하게 정리해본다.1. 글목차2.1. 순열과 조합2.2. 확률과 통계 빈출 기호2. 본문확률과 통계 과목에서 나오는 2가지 개념은 순열과 조합이다. 2.1 순열과 조합순열(Permutation)정의: 순열은 순서를 고려하여 객채를 배열하는 방법이다. 즉 $n$ 개의 객체 중 $r$개를 선택하여 배열하는 경우의 수를 의미한다. 공식:$ P(n, r) = \frac{n!}{(n-r)!}$ 조합(Combination)정의: 조합은 순서를 고려하지 않고 객체를 선택하는 방법. 즉 $n$개의 객체 중 $r$개를 순서 없이 선택하는 경우의 수공식: $ C(n, r) = \binom{n}{r} = \frac{n!}{r!(n-r)!} $ 2...
선형회귀를 예제를 이용해서 구해보자1. 글목차단순선형회귀다중선형회귀2. 본문 3. 참고Linear Regression in SQL, Is It Possible?Multiple Regression in Pure SQL
6단원 연구설계 단원에서는 통계학적 질문이 무엇인지, 표본조사의 방법, 통계 연구법의 종류, 실험등에 대해서 배운다. 학부때부터 실험을 많이 진행해왔는데, 빅데이터 산업군에 들어오면서 실험연구에서 진행되는 분석과 유사하면서 다르다고 느껴졌다. 그 구분법이 궁금했었다.이번 글에는 통계 연구법에 대한 분류를 알아본다.1. 글목차2.1. 표본연구2.2. 관찰연구2.3. 실험연구2. 본문양적 연구를의 통계연구법은 표본연구, 관찰연구, 실험연구 3가지로 구분 할 수 있겠다. 2.1. 표본연구정의: 표본 연구는 전체 모집단에서 일정한 기준에 따라 선택된 부분집합. 즉 표본을 조사하여 모집단의 특정을 추정하는 연구방법.특징표본추출: 모집단에서 표본을 무작위로 추출, 표본 추출 방법이 중요함추론: 표본의 결과를 바..