분산분석(ANOVA)
분산 분석이란?
두 개 이상의 집단 간 비교를 수행하고자 할 때 집단 내의 분산, 총 평균과 각 집단의 평균 차이에 의해 생긴 집단 간 분산 비교로 얻은 F-분포를 이용하여 가설 검정을 수행하는 방법
특징
1) 검정 통계량인 F-검정 통계량 값은 집단 내 분산 대비 집단 간 분산이 몇 배 더 큰지를 나타내는 값
2) 분산 분석은 복수의 집단을 비교할 때 분산을 계산함으로써 집단 간에 통계적인 차이가 있다고 할 수 있는지 혹은 차이가 없다고 할 수 있는지를 판정하는 분석 방법
종류
종류 | 설명 |
일원분산 분석 | 집단을 나누는 요인인 독립변수가 1개이고 종속변수가 1개인 경우 독립변수에 의한 집단 사이의 종속변수 평균 차이를 비교하기 위한 분석 |
이원분산 분석 | 독립변수가 2개이고 종속변수가 1개인 경우에서의 집단 간 종속 변수의 평균 차이를 분석하는 방법 |
다변량 분산 분석 | 종속변수가 2개 이상인 경우에 집단 간 종속변수의 평균 차이를 비교하는 방법 |
공분산 분석 | 연속형 외생변수가 종속변수에 미치는 영향을 제거한 후 순수한 집단 간 종속변수의 평균차이를 평가하는 방법 |
일원분산 분석(One-way ANOVA)
- 종속변수 : 연속형(Continuos)변수만 가능
- 독립변수 : 이산형/범주형(Discrete/Categorical)변수만 가능
예시
영상물이 어린이들에게 미치는 영향을 연구하기 위해서, 어린이들을 세가지 집단으로 나누고 첫번째 그룹에는 폭력적인 영화, 두번째는 드라마, 세번째는 공익광고를 보여주고, 폭력적인 행동을 점수화한 적이 있다.
-> 종속변수 : 폭력행동 점수
-> 독립변수 : 영상의 종류 3가지
1. 우변의 m(뮤)는 평균을 뜻한다.
- 종속변수의 값이 100% 독립변수의 영향이라고 볼 수 없기 때문에
- 예를 들어, 아이의 폭력성이 종속변수, 독립변수가 폭력적인 영화를 보여주거나 안보여준 것일때, 폭력적인 영화를 보여주지 않은 집단의 폭력성이 무조건 0이 될 수는 없다. (기타 다른 요소들도 있을 수 있기 때문에)
- 하지만 ANOVA에서 이 평균값은 우리의 관심사가 아니다.
2. 관심사는 rj(타우_제이)이다.
- r은 독립변수를 의미하고
- j 는 그룹을 의미한다. (j = 1,2,3,4)
3. Yij는 종속변수이다.
- j는 독립변수의 그룹을 의미한다.
- i는 그 그룹 내의 ID이다.
4. eij는 오차이다.
- j는 독립변수의 그룹을 의미한다.
- i는그 그룹내의 ID이다.
- e의 뜻은 오차이다.
- 독립변수로 설명되지 않는 랜덤한 오차를 뜻한다.
-> 좌변으로 평균을 넘기면 이러한 형태가 된다.
F-value - F값이란?
- F값이란 2개의 분산의 비율이다.
- 2개의 분산으로 평균값이 같은지 다른지 어떻게 알 수 있나?
ex) 1,2,3,4,5의 평균은 3이고 분산은 2.5이다.
- 분산을 구하려면, 먼저 평균이 필요하다.