지지플랏의 DataScience

(8) DSforS : Chap4. 회귀와 예측 4.5 ~ 4.8 회귀방정식의 해석 ~ 끝 본문

Data Science/데이터과학을 위한 통계

(8) DSforS : Chap4. 회귀와 예측 4.5 ~ 4.8 회귀방정식의 해석 ~ 끝

지지플랏 2024. 6. 4. 22:34
반응형

1. 목차

  • 4.5. 회귀방정식의 해석
  • 4.6. 회귀진단
  • 4.7. 다항회귀와 스플라인회귀
  • 4.8. 마치며

 

2. 본문

  • 회귀방정식의 해석에서는 더하여 회귀방정식의 해석에서는 변수간 상관성, 다중공선성,교란변수, 상호작용에 대해서 다룬다.  
  • 회귀진단에서는  특이값, 영향값, 이분산성, 비정규성, 오차 간의 상관, 편잔차그림과 비선형성을 다룬다.
  • 다항회귀와 스플라인회귀는 선형회귀에서 다항식,스플라인, 일반화가법모형 등 응용하는 방법을 다룬다.

 

2.1 교란변수의 정의

책에서는 교란변수를 "중요한 예측변수이지만 회귀방정식에서 누락되어 결과를 잘못되게 이끄는 변수" 라고 설명하고 있다. 의학통계에서 얘기하는 교란변수는 조금 다른 의미인 것 같아 정리해보려한다. 

흔히 교란변수(confounder)는 독립변수간이 관계를 살피는 상황 속에서 교호작용(interaction)과 함께 언급된다. 예컨대 상관계수 분석을 하다보면 자주 주는 예시가  아이스크림 판매량이 높으면 상어에 물리는 사람들이 많다. 라는 이야기로 상관관계와 인과관계의 구분이 필요하다는 얘기를 한다. 이게 무슨말이냐면 두 측정 변수가 상관관계가 있다고 해서 원인-결과로 직결적으로 해석하면 안된다는 것이다.  이 과정에서 각 변수(X,Y) 영향을 주는 변수, 교란변수가 바로 여름이라는 특징이다. 

이런 점에서 "누락되어"라는 말이 어쩌면 합리적이면서도 데이터가 없는데 어떻게 누락된지 아닌지 알아요 라는 질문이 들기도 한다.

어쩌면이 포인트

결국 제대로된 모델을 만들려면 교란변수를 데이터화하고 모델링을 하는데 일조해야한다는 것인데.. 만약 그런 통찰이 없다면?  통찰이 있다해도 데이터가 없다면?  곤란해질 것 같긴하다. 

 

2.2 스플라인과 일반화가법모형

- 스플라인은 몇몇 제어점을 이용하여 부드러운 곡선을 만들어내는 수학적 도구이다. 이때 매듭점(knot)개념이등장하고 이 매듭점을 충분히 연결해주는 함수가 스플라인이다. 다항회귀(x^2, x^3)는 어느정도 곡률을 담아낼 수 있지만 고차항을 추가하는 것은 회귀방정식에 바람직하지 않은 결과를 초래한다. 

흔히 x의 의 구간을 여러부분으로 나누어 회귀모델을 각각 구현할 수 있으며 다항식의 차수와 매듭의 위치를 설정하여 만든다. 선형회귀보다 해석하기 어렵기 때문에 산점도와 같은 시각화 방법을 이용하는 것이 바람직하다.. 곡선은 직선의 연속

여기서 등장하는 것이 일반화 가법모형(Generalized Additive Model, GAM)이다. GAM은 스플라인 매듭을 자동으로 결정할 수 있는 장점이 있다. 요즘 같은 ML기법이 많이 등장한 이후 가법모형이 애매한 포지션을 가지고 있지않은가 생각이 되면서도  매우 좋은 예측력과 통계적 추론이가능하며 모형의 구조를 이해할 수 있어서 사용된다. 예를들어 각 요소에 대한 유의성검정, 신뢰구간 계산, 효과 크기 추정이 여전이 가능하다. 

 

GAM의 특징은 다음과 같다. 

  • 비선형성: 각 독립 변수에 대해서 비선형함수를 사용하여 복잡한 관계를 모델링
    • GAM의 예시
  • 가법성: 모델은 여러개의 스무딩 함수의 합으로 구성, 독립적으로 해석 가능
  • 유연성: 다양한 분포에 적용 가능(이항, 포아송 분포 등)

이런 상황에서 GAM은 데이터 포인트를 부드럽게 연결하는 도구로 되는 특성 때문에 주로 GAM에서는 스플라인을 활용하여 독립변수의 비선형효과를 모델링한다.  대표적은 스플라인 방법은 ① 선형 스플라인 ② 큐빅스플라인 ③ B-스플라인

 

반응형