* t-test란
- 모집단의 표준편차가 알려지지 않았을 때, 정규분포의 모집단에서 모은 샘플(표본)의 평균값에 대한 가설검정 방법
- 이름이 t-test인 이유는? -> t-test를 개발한 William Sealy Gosset의 필명이 student라서 마지막 글자인 t에서 t-test가 되었다는 설이 있다.
* t-test의 목적
- 단순하게 생각하면, 두 개의 집단이 같은지 다른지 비교하기 위해 사용된다.
* 통계학에서 집단이란?
- 크게 두 가지로 분류할 수 있다.
ㄴ 모집단 vs 표본집단(샘플)
ex) 만약, 아래 두 대학의 샘플을 조사하여, 남학생의 평균 키를 비교해보고자 할 때,
아래 1.4cm의 차이는 우연히 발생하였을까? 또는, 아닐까?
만약 우연히 발생하였다면, 두 집단의 키는 같다고 판단할 수 있을 것이고
만약 우연히 발생하지 않았다면, 두 집단의 키는 다르다고 판단할 수 있을 것이다.
그렇다면, 과연 1.4cm의 차이는 크다고 말할 수 있을까? 작다고 말할 수 있을까?
-> 이 1.4cm가 얼마나 큰지 혹은 작은지 결정할 수 있는 비교 대상이 필요한데, 그 비교 대상이 바로 표준편차(또는, 분산)이 된다.
표준편차의 의미 {1, 2, 3, 4, 5}라는 자료에서, 평균은 3이고 분산은 2.5 표준편차는 대략 1.58이다
즉, 데이터가 평균값 3을 중심으로 평균적으로 1.58 퍼져있다는 의미가 된다.
3 - 1.58 = 1.42 // 3 + 1.58 = 4.58
이 표준편차가 유의미할까? 아닐까?
-> 데이터에 큰 문제가 없는 한 표준편차는 의미없는 우연히 퍼져있는 정도일 것이다.
그렇다면, A와 B의 데이터들의 표준편차가 Xcm라고 가정할때, 만약 1.4cm가 표준편차 Xcm보다 현저히 작다면,
우리는 1.4cm에 큰 의미를 두지 않게 된다. 그러나 Xcm가 1.4cm보다 현저히 크다면, 우리는 1.4cm에 큰 의미를 둘 수 있게 된다. 그렇다면 현저히 크고 작음을 어떻게 판단할 것인가?
위의 질문에 답하기에 앞서, 정규분포에 대한 이해가 필요함
https://dsms27.tistory.com/manage/posts/
정규분포곡선의 아래는 즉 확률을 의미한다. A대학 남학생 평균키와 B대학 남학생 평균키가 우연히 같은 확률이라는 문장의 확률도 곡선의 아래 면적을 의미한다. 다만, t-test의 확률은 정규분포를 쓰지 않고 다른 분포 곡선을 사용한다.
* t-test의 목적은 두 집단의 평균값이 같은지 다른지 알고 싶은 것이다.
ㄴ 얼마나 커야하는지? 수식으로 이해하기
ㄴ 표준정규분포에서 배운 z-value와 z-test에 대한 개념처럼,
ㄴ t-값과 -분포에 적용해본다.
* t-value의 분자 값이 두 집단의 차이를 나타낸다.
* 표본의 크기 (n)이 커지면 커질수록, t값은 커지고
* 표본의 크기 (n)이 커지면 커질수록, t-분포는 표준 정규분포에 근사
* t-test에서 자유도(df)는 n-1로 계산되므로, 표본의 크기가 커지면 자유도가 커지고, 자유도가 커졌다는 의미는 우리가
t-분포에 묶여있다가 자유롭게 표준정규분포를 사용할 수 있음을 의미
*** t-test 예제
A 대학 평균 178.5cm
B 대학 평균 179.9cm
만약, 표준편차(s)가 7.05cm였고, 표분의 크기(n)가 101명일때, t-test 식에 대입해보면, 대략 1.996이 나온다.
(179.9cm - 178.5cm) / (7.05/101) ≒ 1.996
그리고, t-value table에서 0.05 / 양측검정의 값을 찾아낸다.
해당하는 값은 1.984라는 값을 찾을 수 있다.
-> Critival Value (C.V)라고 한다.
우리가 구한 1.4cm의 차이는 1.996으로 변환되고, 그 값은
1.984보다 큰 값이다. 따라서 위의 곡선의 빨간 부분(5%)에 들어간다.
즉, 두 대학의 평균키가 다를 확률은 5프로보다 작으므로, 이 차이는 통계적으로 유의미하다고 볼 수 있다.
출처 : 유투버 Sapientia a Dei
'통계학' 카테고리의 다른 글
군집분석 설명 및 간단 분석 with 논문 (0) | 2023.05.16 |
---|---|
카이제곱 검정 (0) | 2021.12.19 |
표준정규분포 (0) | 2021.12.11 |
회귀분석(Regression) (0) | 2021.12.05 |
기초 통계학 (0) | 2021.11.20 |