본문 바로가기

통계학

t-test

drinks.csv
0.00MB

# drinks 데이터셋의 기본 정보 조회하기
import pandas as pd
drinks = pd.read_csv("drinks.csv")
drinks.info()
drinks.head()

 

# scipy 모듈 설치

# scipy : 통계 관련 기능 제공 

pip install scipy
from scipy import stats

# 아프리카와 유럽간의 맥주 소비량 차이를 검증
# t_test : 두 집단간의 평균의 차이 
# 유럽과 아프리카 지역의 통계 검정

# africa : 아프리카의 대륙의 국가 정보만 저장 

# europe : 유럽 대륙의 국가 정보만 저장
africa = drinks.loc[drinks['continent']=='AF']
europe = drinks.loc[drinks['continent']=='EU']

 

# t-test 값을 저장

# t-statistic : 평균 차이. 음수 : 뒤 쪽의 데이터의 평균 큰 경우

# p-value(유의확률) : 결과가 0. 두 집단의 평균이 같지 않다.

# 아프리카와 유럽의 맥주 소비량의 차이는 확률적으로 유의미하다. 

# 귀무 가설 : 예상되는 가설
# 대립 가설 : 귀무가설의 반대 되는 값

# equal_var = True 분산이 같다고 가정(생략시 기본값)/ False 분산이 다르다고 가정

tTestResult = stats.ttest_ind(africa['beer_servings'],europe['beer_servings'])
tTestResultDiffVar = stats.ttest_ind(africa['beer_servings'],europe['beer_servings'],equal_var=False)

print("The t-statistic and p-value assuming equal variances is %.3f and %.3f." % tTestResult)
print("The t-statistic and p-value not assuming equal variances is %.3f and %.3f." % tTestResultDiffVar)

 

 

'통계학' 카테고리의 다른 글

t-test  (0) 2021.12.19
표준정규분포  (0) 2021.12.11
회귀분석(Regression)  (0) 2021.12.05
기초 통계학  (0) 2021.11.20
상관관계(공분산, 상관계수)  (1) 2021.11.18