본문 바로가기

통계학

회귀분석(Regression)

회귀분석 : 주어진 (독립)변수로 (종속)변수를 예측하기 위한 분석이다.

- 단순 회귀(Simple Regression) : 독립변수 1개 & 종속변수 1개

- 다중 회귀(Multiple Regression) : 독립변수 2개 이상 & 종속변수 1개

 

ex) 수입과 지출의 관계

ID 수입 지출
1 1,534,000 1,200,500
2 1,323,500 1,040,330
3 3,543,200 2,350,350
... ... ...
53 7,753,000 6,540,270

 

예를 들어, 위와 같은 데이터와 그래프가 존재할 때 주어진 수입의 최대값이 7,753,000원 일때

그보다 많은 수입이 발생할때 대략 얼마의 지출을 하게되는지 예측하려면 추세선이 필요하다.

 

추세선 : y^ = a +bx

점들 : y = a + bx +e(error)

-> 점과 선 사이의 오차가 가장 작은 추세선이 가장 합리적이다.

-> 오차가 +, -가 섞여있기 때문에, error들을 모두 합하면 정확한 결과값이 나오기 어렵다.

-> 즉, 오차의 제곱들(모두 양수)의 총합이 최소인 추세선이 가장 합리적인 추세선이다. (최소제곱법, OLS)

 

주어진 독립변수와 종속변수의 관계를 탐색하여 새로운 독립변수를 통하여 종속변수를 예측하기 위한 분석이다. 그러기 위해서는, 오차의 제곱의 합을 최소로 만드는 최소제곱법(OLS, Ordinary Least Square)을 이용하여, 추세선 y = a + bx (a는 절편, b는 기울기)을 구한다. 

 

회귀 분석 전제조건

전제조건 내용
선형성 독립변수와 종속변수간에 선형관계가 존재한다.
등분산성 등분산성을 만족해야한다. 즉, 잔차들은 같은 분산을 가진다. 

* 이분산성(heteroskedasticity) : 잔차들은 다른 분산을 가진다. 즉, 회귀계수의 표준오차(분산)이 다름

(분산이 다른 잔차들)


어느 구간의 표준오차를 사용해야 될지 모른다. 만약에 왼쪽 구간의 표준오차를 사용하게 되면, 표준오차가 매우 작게 되어서 변수가 유의해질 확률이 높아지지만, 오른쪽의 퍼진 표준오차를 사용하게 되면, 표준오차가 매우 커지게 된다. 따라서, 잔차의 분산이 동일하지 않으면, 회귀분석을 하기에 적합하지 않게 된다. 

이분산성을 확인하는 방법은 여러가지가 존재한다.
ex) 산포도, 잔차도, whtie test, ...

독립성 잔차와 독립변수의 값이 관련이 없어야 한다. 
비상관성 관측치들의 잔차들끼리 상관이 없어야 한다.
정규성 잔차는 평균이 0이고 분산이 a^2인 정규 분포를 따름

 

'통계학' 카테고리의 다른 글

t-test  (0) 2021.12.19
표준정규분포  (0) 2021.12.11
기초 통계학  (0) 2021.11.20
상관관계(공분산, 상관계수)  (1) 2021.11.18
t-test  (0) 2021.07.12