카테고리 없음

분산분석(ANOVA)

Data_Minsu 2021. 12. 6. 00:29

분산 분석이란?

두 개 이상의 집단 간 비교를 수행하고자 할 때 집단 내의 분산, 총 평균과 각 집단의 평균 차이에 의해 생긴 집단 간 분산 비교로 얻은 F-분포를 이용하여 가설 검정을 수행하는 방법

 

특징

1) 검정 통계량인 F-검정 통계량 값은 집단 내 분산 대비 집단 간 분산이 몇 배 더 큰지를 나타내는 값

2) 분산 분석은 복수의 집단을 비교할 때 분산을 계산함으로써 집단 간에 통계적인 차이가 있다고 할 수 있는지 혹은 차이가 없다고 할 수 있는지를 판정하는 분석 방법 

 

종류

 

종류 설명
일원분산 분석 집단을 나누는 요인인 독립변수가 1개이고 종속변수가 1개인 경우
독립변수에 의한 집단 사이의 종속변수 평균 차이를 비교하기 위한 분석
이원분산 분석 독립변수가 2개이고 종속변수가 1개인 경우에서의 집단 간 종속 변수의 평균 차이를 분석하는 방법
다변량 분산 분석 종속변수가 2개 이상인 경우에 집단 간 종속변수의 평균 차이를 비교하는 방법
공분산 분석  연속형 외생변수가 종속변수에 미치는 영향을 제거한 후 순수한 집단 간 종속변수의 평균차이를 평가하는 방법

 

일원분산 분석(One-way ANOVA)

- 종속변수 : 연속형(Continuos)변수만 가능

- 독립변수 : 이산형/범주형(Discrete/Categorical)변수만 가능

 

예시 

영상물이 어린이들에게 미치는 영향을 연구하기 위해서, 어린이들을 세가지 집단으로 나누고 첫번째 그룹에는 폭력적인 영화, 두번째는 드라마, 세번째는 공익광고를 보여주고, 폭력적인 행동을 점수화한 적이 있다. 

-> 종속변수 : 폭력행동 점수

-> 독립변수 : 영상의 종류 3가지

 

1. 우변의 m(뮤)는 평균을 뜻한다. 

- 종속변수의 값이 100% 독립변수의 영향이라고 볼 수 없기 때문에

- 예를 들어, 아이의 폭력성이 종속변수, 독립변수가 폭력적인 영화를 보여주거나 안보여준 것일때, 폭력적인 영화를 보여주지 않은 집단의 폭력성이 무조건 0이 될 수는 없다. (기타 다른 요소들도 있을 수 있기 때문에)

- 하지만 ANOVA에서 이 평균값은 우리의 관심사가 아니다.

 

2. 관심사는 rj(타우_제이)이다.

- r은 독립변수를 의미하고

- j 는 그룹을 의미한다. (j = 1,2,3,4)

 

3. Yij는 종속변수이다.

- j는 독립변수의 그룹을 의미한다.

- i는 그 그룹 내의 ID이다.

 

4. eij는 오차이다. 

- j는 독립변수의 그룹을 의미한다.

- i는그 그룹내의 ID이다.

- e의 뜻은 오차이다. 

- 독립변수로 설명되지 않는 랜덤한 오차를 뜻한다.

 

-> 좌변으로 평균을 넘기면 이러한 형태가 된다.

 

F-value -  F값이란?

- F값이란 2개의 분산의 비율이다.

- 2개의 분산으로 평균값이 같은지 다른지 어떻게 알 수 있나?

ex) 1,2,3,4,5의 평균은 3이고 분산은 2.5이다.

- 분산을 구하려면, 먼저 평균이 필요하다.