# drinks 데이터셋의 기본 정보 조회하기
import pandas as pd
drinks = pd.read_csv("drinks.csv")
drinks.info()
drinks.head()
# scipy 모듈 설치
# scipy : 통계 관련 기능 제공
pip install scipy
from scipy import stats
# 아프리카와 유럽간의 맥주 소비량 차이를 검증
# t_test : 두 집단간의 평균의 차이
# 유럽과 아프리카 지역의 통계 검정
# africa : 아프리카의 대륙의 국가 정보만 저장
# europe : 유럽 대륙의 국가 정보만 저장
africa = drinks.loc[drinks['continent']=='AF']
europe = drinks.loc[drinks['continent']=='EU']
# t-test 값을 저장
# t-statistic : 평균 차이. 음수 : 뒤 쪽의 데이터의 평균 큰 경우
# p-value(유의확률) : 결과가 0. 두 집단의 평균이 같지 않다.
# 아프리카와 유럽의 맥주 소비량의 차이는 확률적으로 유의미하다.
# 귀무 가설 : 예상되는 가설
# 대립 가설 : 귀무가설의 반대 되는 값
# equal_var = True 분산이 같다고 가정(생략시 기본값)/ False 분산이 다르다고 가정
tTestResult = stats.ttest_ind(africa['beer_servings'],europe['beer_servings'])
tTestResultDiffVar = stats.ttest_ind(africa['beer_servings'],europe['beer_servings'],equal_var=False)
print("The t-statistic and p-value assuming equal variances is %.3f and %.3f." % tTestResult)
print("The t-statistic and p-value not assuming equal variances is %.3f and %.3f." % tTestResultDiffVar)
'통계학' 카테고리의 다른 글
t-test (0) | 2021.12.19 |
---|---|
표준정규분포 (0) | 2021.12.11 |
회귀분석(Regression) (0) | 2021.12.05 |
기초 통계학 (0) | 2021.11.20 |
상관관계(공분산, 상관계수) (1) | 2021.11.18 |