일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- Public Speaking
- 풀러스
- 제약
- 2018계획
- 구글#빅쿼리#데이터분석
- 대중연설
- F분포
- 데분
- 임상통계
- 사이허브
- 카이제곱분포
- CC#5
- CC#3
- 평창
- PGTM
- 데이터분석
- SQLD
- 인과추론
- 영어연설
- 연설
- 영화
- 취업
- publicspeaking
- 정형데이터
- 분석
- Toastmaster
- 토스트마스터
- 엘뱌키안
- 공유경제
- 데이터
- Today
- Total
지지플랏의 DataScience
(7) DSforS : Chap 4. 회귀와 예측 4.1 ~ 4.4 단순선형회귀 ~ 요인변수 본문
(7) DSforS : Chap 4. 회귀와 예측 4.1 ~ 4.4 단순선형회귀 ~ 요인변수
지지플랏 2024. 6. 3. 16:431. 목차
- 4.1. 단순선형회귀
- 4.2. 다중선형회귀
- 4.3. 회귀를 이용한 예측
- 4.4. 회귀에서의 요인변수
2. 본문
2.1. OLS 계산법에 대한 이해
늘 회귀분석을 하면서 최소자승법에 대한 계산이 궁금했다. OLS의 계산방법은 다음 출처를 인용한다.
① 오차의 정의
② b0에 대한 편미분*
미분이란 방정식의 최소 값을 찾기 위하여 수행되는 수학적 기법이며, 편미분이란 다항변수의 식에서 특정변수를 제외한 나머지 변수를 상수로 취급하여 미분하는 것.
③ b1에 대한 편미분
다시 말해 에러를 최소화하는 값은 (1), (2)식에 대한 해가 바로 우리가 찾으려고하는 b0와 b1이다. 해당 연립방정식을 정리하면 다음과 같은 식이 나오고
신기하게도 b1은 x,y에 대한 공분산을 x의 분산으로 나눈 값이다.
이를 좌표평변에 분포형태로 표현한다면 기울기는 x,y의 공동 변화량에 대한 x의 비율이라고 해석 할 수 있다.
예컨데 x가 배달거리, y가 배달 시간이라고 한다면 다음과 같이 b1,b0을 구할 수 있다.
2.2 선형회귀에서 독립변수 t-test p-value의 의미
선형회귀에서도 t-test를 한다. 이때 귀무가설은 회귀계수 beta가 0이다 라는 것(다시말해 해당 독립변수는 종속변수에 아무런 영향이 없다는 것이며) 대립가설은 beta가 0이 아니다 라는 것이다. 따라서 검정통계량은 다음과 같이 설정한다.
2.3. 선형회귀에서 F 검정이 나오는 이유
이 역시 다음 출처를 인용한다.
회귀모델에서 F검정은 모델이 유의한가 유의하지 않는 가를 검정하기 위하여 사용한다. 귀무가설은 모든 회귀계수가 0이고 대립가설은 하나라도 회귀계수가 0이 아니라는 의미이다. 다시말하면 단순회귀인 경우에는 t-test와 f-test가 같은 결과를 갖게 된다.
좀더 시각적으로 위 선형회귀를 도식화한 그림에서 보자면
마치 다음과 같이 볼 수 있고
이는 집단간 분산과 집단내 분산의 비율을 검정하는 F분포의 사용 ANOVA와 유사하다고 할 수 있다. ANOVA는 범주형 집단을, 회귀는 연속형 집단의 차이를 다룬다는 점이 다를 뿐이다.
F분포는 설명이가능한변동/설명불가능한 변동의 비율이며, 이를 ANOVA에서는 그룹간분산/그룹내 분산으로 표현했다. 반면 회귀분석에서는 MSR/MSE 로 표현할 뿐 설명가능/불가능에 대한 의미는 동일하다는 점을 기억하면 좋다.
얽혀있던 통계지식과 회귀가 조금씩 맞아 들어가는 기분이 조금 들긴하지만.. 선형대수로 완벽하게 정리할 때까지는 완전히 개운함을 얻진 못할 것 같다.
'Data Science > 데이터과학을 위한 통계' 카테고리의 다른 글
(9) DSforS : Chap5. 분류 5.1 ~ 5.3 나이브베이즈(NB), 선형판별분석(LDA) (0) | 2024.06.10 |
---|---|
(8) DSforS : Chap4. 회귀와 예측 4.5 ~ 4.8 회귀방정식의 해석 ~ 끝 (0) | 2024.06.04 |
(6) DSforS : Chap 3 통계적 실험과 유의성 검정 3.4 ~ 3.8. (0) | 2024.05.27 |
(5) DSforS : Chap 3 통계적 실험과 유의성 검정 3.1 ~ 3.3. (0) | 2024.05.22 |
(4) DSforS : Chap 2 탐색적 데이터분석 2.4 ~ 2.8 (6) | 2024.05.20 |