일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 엘뱌키안
- 임상통계
- 사이허브
- CC#3
- Toastmaster
- 2018계획
- PGTM
- 연설
- 토스트마스터
- 카이제곱분포
- 취업
- 구글#빅쿼리#데이터분석
- 영어연설
- 풀러스
- 제약
- 데이터
- F분포
- 데이터분석
- 분석
- 대중연설
- 정형데이터
- 영화
- publicspeaking
- 공유경제
- SQLD
- 데분
- 평창
- CC#5
- Public Speaking
- 인과추론
- Today
- Total
목록지지플랏 (132)
지지플랏의 DataScience
이번 단원들은 확률, 조합, 순열에 대해서 다룬다. 기본적인 내용이니만큼 간단하게 정리해본다.1. 글목차2.1. 순열과 조합2.2. 확률과 통계 빈출 기호2. 본문확률과 통계 과목에서 나오는 2가지 개념은 순열과 조합이다. 2.1 순열과 조합순열(Permutation)정의: 순열은 순서를 고려하여 객채를 배열하는 방법이다. 즉 $n$ 개의 객체 중 $r$개를 선택하여 배열하는 경우의 수를 의미한다. 공식:$ P(n, r) = \frac{n!}{(n-r)!}$ 조합(Combination)정의: 조합은 순서를 고려하지 않고 객체를 선택하는 방법. 즉 $n$개의 객체 중 $r$개를 순서 없이 선택하는 경우의 수공식: $ C(n, r) = \binom{n}{r} = \frac{n!}{r!(n-r)!} $ 2...
선형회귀를 예제를 이용해서 구해보자1. 글목차단순선형회귀다중선형회귀2. 본문 3. 참고Linear Regression in SQL, Is It Possible?Multiple Regression in Pure SQL
6단원 연구설계 단원에서는 통계학적 질문이 무엇인지, 표본조사의 방법, 통계 연구법의 종류, 실험등에 대해서 배운다. 학부때부터 실험을 많이 진행해왔는데, 빅데이터 산업군에 들어오면서 실험연구에서 진행되는 분석과 유사하면서 다르다고 느껴졌다. 그 구분법이 궁금했었다.이번 글에는 통계 연구법에 대한 분류를 알아본다.1. 글목차2.1. 표본연구2.2. 관찰연구2.3. 실험연구2. 본문양적 연구를의 통계연구법은 표본연구, 관찰연구, 실험연구 3가지로 구분 할 수 있겠다. 2.1. 표본연구정의: 표본 연구는 전체 모집단에서 일정한 기준에 따라 선택된 부분집합. 즉 표본을 조사하여 모집단의 특정을 추정하는 연구방법.특징표본추출: 모집단에서 표본을 무작위로 추출, 표본 추출 방법이 중요함추론: 표본의 결과를 바..
데이터과학을 위한 통계 스터디에 이어서 Khan Academy의 확률과 통계 단원을 가볍게 공부해본다. Khan Academy는 무료로 수학을 배울 수 있는 플랫폼인데 중학교부터 대학교 과정까지 필수수학을 다루며, 영상과 평가 홈페이지가 매우 잘 되어 있다. 본 카테고리에서는 소개와 동시에 확률과 통계에 대한 내용을 정리하고 유의미한 컨텐츠 내용들을 정리해볼 예정이다. 1. 글목차1단원: 범주형 자료 요약하기2단원: 양적자료를 나타내고 분석하기3단원: 양적 자료의 요약 2. 본문기본적으로 확률과 통계 과목은 대학교 기초 수준의 내용으로 자료분석부터 시작하는 간단한 내용부터 회귀와 분산분석까지 포함하는 단변량, 다변량 분석의 내용까지을 다룬다. 기본적으로 Quiz과 단원별 테스트가 존재하며 이를 알려주..
2달간 데이터과학을 위한 통계 스터디를 완료했습니다! 무사 마무리를 기념하며 책에 대한 평가와 스터디에 대한 회고를 진행해보았습니다. 100년만의 스터디였는데 뒤돌아보니 안했으면 후회했을 것 같네요!1. 글 목차스터디 결성 이유책 리뷰스터디 KPT2. 본문2.1. 스터디 결성이유이제 머신러닝을 조금 아는 수준이 되었는데 뭔가 부족한 이런 마음이 한켠에 있었습니다. 그 니즈를 해결하고자 여러 책을 탐색했었는데 21년에 처음 나온 이 책이 눈에 띄더라구요. 1판에는 R코드만 있었는데 2판이 되면서 Python 코드도 추가되었고 통계, 머신러닝, 데이터과학에 대한 다양한 분야를 아우르는 것 같아 깊은 독서를 위해 진행하게 되었습니다. 2.2. 책 리뷰2.2.1. 책의 장단점기본적으로 데이터사이언스를 위한 이..
이번글은 데이터 과학을 위한 통계 마지막 단원이자 내용인 클러스터링에 대해서 배운다. 크게는 k-평균클러스터링과 계층적 클러스터링, 모델 기반의 클러스터링의 원리와 차이 적용 방법에 대해서 기술한다.1. 책 목차7.2. k-평균클러스터링7.2.1. 간단한예제7.2.2. k-평균 알고리즘7.2.3. 클러스터해석7.2.4. 클러스터 개수 선정7.3. 계층적 클러스터링7.3.1.과 간단한 예제7.3.2. 덴드로그램7.3.3. 병합 알고리즘7.3.4. 비유사도 측정7.4. 모델 기반 클러스터링7.4.1. 다변량 정규분포7.4.2. 정규 혼합7.4.3. 클러스터 개수 결정하기7.5. 스케일링과 범주형 변수7.5.1. 변수 스케일링7.5.2. 지배 변수7.5.3. 범주형 데이터와 고워거리7.5.4. 혼납 데이터의 ..
드디어 마지막장이다. 비지도학습은 정답 없이 데이터로부터 의미를 이끌어내는 통계적 방법을 말한다. 4 ~ 6장까지 지도학습이 독립변수와 종속변수를 이용하여 종속변수를 설명할 수 있는 관계를 이끌어 내는 것과 대조적이다. 비지도학습은 다양한 방법이 있다. 대표적인 주성분분석(PCA) 해서 알아보자1. 책 목차7.1.1 주성분 분석(PCA) 간단한 예제7.1.2.주성분 계산7.1.3. 주성분 해석2. 본문2.1. 주성분 분석N개의 열을 가지고 있는 데이터가 있다고 하자. 독립변수가 많으면 많을수록 좋다. 정보는 다다익선이니까. 하지만 변수가 너무 많아지는 반면 공통된 내용을이 중복된다면? 핵심적인 내용만 뽑아서 사용할 수 도 있을 것이다. 이것이 주성분 분석의 기본 idea이다.전체 변수의 변동성을 거의 대..
회귀와 분류의 기본모델을 살펴보았다면 이제는 앙상블기법의 기본과 해당 하위개념인 배깅방법을 적용한 랜덤포레스트 그리고 부스팅을 알아볼 차례이다. 머신러닝에서 가장 성능 높다고 평가받는 모델의 기초가 된 개념을 알아보자.1. 글목차6.3.1. 배깅6.3.2. 랜덤포레스트6.3.3. 변수 중요도6.3.4. 하이퍼파라미터부스팅2. 본문 2.1. 배깅늘 데이터분석은 데이터가 문제다. 오리지널 데이터는 작고 소중하다(?) 반면 데이터가 적은 경우가 있다. 이경우를 보완하기위해서 부트스트래핑이라는 방법이 첫 번째 등장했다. 부트스트래핑이란 복원추출을 통해서 기존 데이터와 유사하지만 다양성을 보장하기 위한 방법론이다. 해당 하는 데이터를 이용하여 모델에 적용하고 결과 값을 합치면 Bootstrapping + Aggr..