지지플랏의 DataScience

(7) DSforS : Chap 4. 회귀와 예측 4.1 ~ 4.4 단순선형회귀 ~ 요인변수 본문

Data Science/데이터과학을 위한 통계

(7) DSforS : Chap 4. 회귀와 예측 4.1 ~ 4.4 단순선형회귀 ~ 요인변수

지지플랏 2024. 6. 3. 16:43
반응형

1. 목차

  • 4.1. 단순선형회귀
  • 4.2. 다중선형회귀
  • 4.3. 회귀를 이용한 예측
  • 4.4. 회귀에서의 요인변수

 

2. 본문

2.1. OLS 계산법에 대한 이해

늘 회귀분석을 하면서 최소자승법에 대한 계산이 궁금했다. OLS의 계산방법은 다음 출처를 인용한다. 

https://recipesds.tistory.com/entry/%EC%97%90%EB%9D%BC%EC%9D%B4-%EC%9D%BC%EB%8B%A8-%EB%A0%88%EC%B8%A0-%EB%91%90-%EC%9E%87-%ED%9A%8C%EA%B8%B0-%EB%B6%84-%EC%84%9D-OLS-Regression

 

에라이, 일단 레츠 두 잇, 회귀분석 - OLS Regression 손으로 풀어보기

자, 이제까지 회귀에 대해서 계속 말만 꺼냈지, 실제로 회귀를 해보지 않았으니까, 서툴더라도 회귀라는 것을 한번 해보자고요. - 분석 결과의 해석은 이걸 해 보고 하는 것으로... 아직은 회귀에

recipesds.tistory.com

① 오차의 정의

② b0에 대한 편미분*

미분이란 방정식의 최소 값을 찾기 위하여 수행되는 수학적 기법이며, 편미분이란 다항변수의 식에서 특정변수를 제외한 나머지 변수를 상수로 취급하여 미분하는 것.

 

③ b1에 대한 편미분

다시 말해 에러를 최소화하는 값은 (1), (2)식에 대한 해가 바로 우리가 찾으려고하는 b0와 b1이다. 해당 연립방정식을 정리하면 다음과 같은 식이 나오고

신기하게도 b1은 x,y에 대한 공분산을 x의 분산으로 나눈 값이다. 

이를 좌표평변에 분포형태로 표현한다면  기울기는 x,y의 공동 변화량에 대한 x의 비율이라고 해석 할 수 있다.

예컨데 x가 배달거리, y가 배달 시간이라고 한다면 다음과 같이 b1,b0을 구할 수 있다.

 

 

2.2 선형회귀에서 독립변수 t-test p-value의 의미

선형회귀에서도 t-test를 한다. 이때 귀무가설은 회귀계수 beta가 0이다 라는 것(다시말해 해당 독립변수는 종속변수에 아무런 영향이 없다는 것이며) 대립가설은 beta가 0이 아니다 라는 것이다.  따라서 검정통계량은 다음과 같이 설정한다.

 

2.3. 선형회귀에서 F 검정이 나오는 이유

이 역시 다음 출처를 인용한다.

https://recipesds.tistory.com/entry/%ED%9A%8C%EA%B7%80%EC%99%80-%EA%B2%80%EC%A0%95-%ED%9A%8C%EA%B7%80%EB%B6%84%EC%84%9D%EA%B2%B0%EA%B3%BC%EA%B0%80-%EC%9C%A0%EC%9D%98%ED%95%9C%EA%B0%80-%ED%86%B5%EA%B3%84%EC%A0%81%EC%9D%B8-%ED%95%B4%EC%84%9D-t-F%EA%B2%80%EC%A0%95-%EA%B7%B8%EB%A6%AC%EA%B3%A0-%EA%B0%91%EB%B6%84%EC%8B%B8-ANOVA-%EC%97%A5

 

회귀와 검정 - 회귀분석결과가 괜찮은가? 통계적인 해석 t, F검정, 그리고 갑분싸 ANOVA 엥?

"회귀분석 결과의 해석과 R²(설명력,결정계수)의 의미, 그리고 R²은 상관계수의 제곱. 응?"편에 이어, 회귀분석을 했으면 그 결과를 검정해야 무릇 통계라고 할 수 있지 않겠습니꽈아아? 회귀에

recipesds.tistory.com

 

 

회귀모델에서 F검정은 모델이 유의한가 유의하지 않는 가를 검정하기 위하여 사용한다. 귀무가설은 모든 회귀계수가 0이고 대립가설은 하나라도 회귀계수가 0이 아니라는 의미이다. 다시말하면 단순회귀인 경우에는 t-test와 f-test가 같은 결과를 갖게 된다. 

좀더 시각적으로  위 선형회귀를 도식화한 그림에서 보자면

마치 다음과 같이 볼 수 있고

 

이는 집단간 분산과 집단내 분산의 비율을 검정하는 F분포의 사용 ANOVA와 유사하다고 할 수 있다. ANOVA는 범주형 집단을, 회귀는 연속형 집단의 차이를 다룬다는 점이 다를 뿐이다.  

F분포는 설명이가능한변동/설명불가능한 변동의 비율이며, 이를 ANOVA에서는 그룹간분산/그룹내 분산으로 표현했다. 반면 회귀분석에서는 MSR/MSE 로 표현할 뿐  설명가능/불가능에 대한 의미는 동일하다는 점을 기억하면 좋다.

 

얽혀있던 통계지식과 회귀가 조금씩 맞아 들어가는 기분이 조금 들긴하지만.. 선형대수로 완벽하게 정리할 때까지는 완전히 개운함을 얻진 못할 것 같다.

반응형