본문 바로가기

통계학

t-test

* t-test란

- 모집단의 표준편차가 알려지지 않았을 때, 정규분포의 모집단에서 모은 샘플(표본)의 평균값에 대한 가설검정 방법

- 이름이 t-test인 이유는? -> t-test를 개발한 William Sealy Gosset의 필명이 student라서 마지막 글자인 t에서 t-test가 되었다는 설이 있다.

 

* t-test의 목적 

- 단순하게 생각하면, 두 개의 집단이 같은지 다른지 비교하기 위해 사용된다. 

 

* 통계학에서 집단이란?

- 크게 두 가지로 분류할 수 있다.

ㄴ 모집단 vs 표본집단(샘플)

 

 

 

ex) 만약, 아래 두 대학의 샘플을 조사하여, 남학생의 평균 키를 비교해보고자 할 때, 

아래 1.4cm의 차이는 우연히 발생하였을까? 또는, 아닐까?

만약 우연히 발생하였다면, 두 집단의 키는 같다고 판단할 수 있을 것이고

만약 우연히 발생하지 않았다면, 두 집단의 키는 다르다고 판단할 수 있을 것이다.

 

 

 

그렇다면, 과연 1.4cm의 차이는 크다고 말할 수 있을까? 작다고 말할 수 있을까?

-> 이 1.4cm가 얼마나 큰지 혹은 작은지 결정할 수 있는 비교 대상이 필요한데, 그 비교 대상이 바로 표준편차(또는, 분산)이 된다.

 

 

 

표준편차의 의미 {1, 2, 3, 4, 5}라는 자료에서, 평균은 3이고 분산은 2.5 표준편차는 대략 1.58이다

즉, 데이터가 평균값 3을 중심으로 평균적으로 1.58 퍼져있다는 의미가 된다.

3 - 1.58 = 1.42 // 3 + 1.58 = 4.58 

이 표준편차가 유의미할까? 아닐까?

-> 데이터에 큰 문제가 없는 한 표준편차는 의미없는 우연히 퍼져있는 정도일 것이다. 

 

 

 

그렇다면, A와 B의 데이터들의 표준편차가 Xcm라고 가정할때, 만약 1.4cm가 표준편차 Xcm보다 현저히 작다면,

우리는 1.4cm에 큰 의미를 두지 않게 된다. 그러나 Xcm가 1.4cm보다 현저히 크다면, 우리는 1.4cm에 큰 의미를 둘 수 있게 된다. 그렇다면 현저히 크고 작음을 어떻게 판단할 것인가?

 

 

위의 질문에 답하기에 앞서, 정규분포에 대한 이해가 필요함

https://dsms27.tistory.com/manage/posts/

 

TISTORY

나를 표현하는 블로그를 만들어보세요.

www.tistory.com

 

 

정규분포곡선의 아래는 즉 확률을 의미한다. A대학 남학생 평균키와 B대학 남학생 평균키가 우연히 같은 확률이라는 문장의 확률도 곡선의 아래 면적을 의미한다. 다만, t-test의 확률은 정규분포를 쓰지 않고 다른 분포 곡선을 사용한다.

 

 

* t-test의 목적은 두 집단의 평균값이 같은지 다른지 알고 싶은 것이다.

ㄴ 얼마나 커야하는지? 수식으로 이해하기

ㄴ 표준정규분포에서 배운 z-value와 z-test에 대한 개념처럼,

ㄴ t-값과 -분포에 적용해본다. 

 

* t-value의 분자 값이 두 집단의 차이를 나타낸다.

* 표본의 크기 (n)이 커지면 커질수록, t값은 커지고

* 표본의 크기 (n)이 커지면 커질수록, t-분포는 표준 정규분포에 근사

* t-test에서 자유도(df)는 n-1로 계산되므로, 표본의 크기가 커지면 자유도가 커지고, 자유도가 커졌다는 의미는 우리가 

t-분포에 묶여있다가 자유롭게 표준정규분포를 사용할 수 있음을 의미 

 

 

 

*** t-test 예제

A 대학 평균 178.5cm

B 대학 평균 179.9cm 

만약, 표준편차(s)가 7.05cm였고, 표분의 크기(n)가 101명일때, t-test 식에 대입해보면, 대략 1.996이 나온다.

(179.9cm - 178.5cm) / (7.05/101) ≒ 1.996 

 

그리고, t-value table에서 0.05 / 양측검정의 값을 찾아낸다.

해당하는 값은 1.984라는 값을 찾을 수 있다. 

-> Critival Value (C.V)라고 한다. 

 

우리가 구한 1.4cm의 차이는 1.996으로 변환되고, 그 값은

1.984보다 큰 값이다. 따라서 위의 곡선의 빨간 부분(5%)에 들어간다.

즉, 두 대학의 평균키가 다를 확률은 5프로보다 작으므로, 이 차이는 통계적으로 유의미하다고 볼 수 있다.

 

 

 

출처 : 유투버 Sapientia a Dei 

'통계학' 카테고리의 다른 글

군집분석 설명 및 간단 분석 with 논문  (0) 2023.05.16
카이제곱 검정  (0) 2021.12.19
표준정규분포  (0) 2021.12.11
회귀분석(Regression)  (0) 2021.12.05
기초 통계학  (0) 2021.11.20