본문 바로가기

통계학

(8)
군집분석 설명 및 간단 분석 with 논문 대학원 과제로 만든 군집분석에 대한 ppt 자료를 업로드한 내용입니다. ------------------ 1. 군집분석 개념 - 군집분석의 정의 및 종류 - K-means Clustering 설명 2. 군집분석 논문 사례 - 군집분석을 통한 중소기업 온라인 마케팅 지원 수혜기업의 세분화 전략에 관한 연구 3. 군집분석을 이용한 분석 - 한국 프로야구 투수들의 군집 분석
카이제곱 검정 * 카이제곱 검정 (chi-square test) 우리가 가진 변수가 모두 명목척도일 때, 사용하는 분석 방법 - t-test와 ANOVA는 명목척도일 때, 사용할 수 없음 - 교차분석이라고도 함 - chi-square value와 chi-square 분포를 가진다. * 카이제곱 검정을 언제 할까? - 변수가 명목척도일 때 - 자료(데이터)의 값은 개수(count)여야 함 * 카이제곱 검정의 목적 1) 변수가 한 개인 경우 : 변수내 그룹간의 비율(proportion)이 같은지 다른지 -> 단, 그룹이 2개인 경우 Binomial test -> 그룹이 여러개인 경우 카이제곱 검정 2) 변수가 두 개인 경우 : 변수 사이의 연관성(Association)이 있는지 없는지 ex) 휴대폰 사용과 뇌암(Brain..
t-test * t-test란 - 모집단의 표준편차가 알려지지 않았을 때, 정규분포의 모집단에서 모은 샘플(표본)의 평균값에 대한 가설검정 방법 - 이름이 t-test인 이유는? -> t-test를 개발한 William Sealy Gosset의 필명이 student라서 마지막 글자인 t에서 t-test가 되었다는 설이 있다. * t-test의 목적 - 단순하게 생각하면, 두 개의 집단이 같은지 다른지 비교하기 위해 사용된다. * 통계학에서 집단이란? - 크게 두 가지로 분류할 수 있다. ㄴ 모집단 vs 표본집단(샘플) ex) 만약, 아래 두 대학의 샘플을 조사하여, 남학생의 평균 키를 비교해보고자 할 때, 아래 1.4cm의 차이는 우연히 발생하였을까? 또는, 아닐까? 만약 우연히 발생하였다면, 두 집단의 키는 같다고..
표준정규분포 정규분포란? 정규분포의 특징 - 종모양 - 정가운데 (평균)을 중심으로 좌우 대칭 - 정규분포의 양 끝은 영원히 '0'에 닿지 않음 - 정규분포의 아래 면적은 확률을 의미 함 ㄴ 곡선의 아래의 면적의 합은 '1' -> 따라서 정규분포를 이용한 확률을 구하려면 적분을 해야 함 -> 표준정규분포 - 평균이 0이고 표준편차가 1인 정규분포 - 무한대 가지의 정규분포 곡선을 적분하는 번거로움을 덜기 위해 ex) 표준정규분포의 예시 대학교 신입생 1,000명을 대상으로 영어 실력고사를 시행 영어점수의 분포가 정규분포에 근사 평균점수는 82이고 표준편차는 5 이때, 82점부터 90점까지의 점수를 받은 학생의 수는? 해당 구간의 면적(확률) x 1,000명을 구하면, 해당 구간의 학생 수를 구할 수 있지만, 해당 구..
회귀분석(Regression) 회귀분석 : 주어진 (독립)변수로 (종속)변수를 예측하기 위한 분석이다. - 단순 회귀(Simple Regression) : 독립변수 1개 & 종속변수 1개 - 다중 회귀(Multiple Regression) : 독립변수 2개 이상 & 종속변수 1개 ex) 수입과 지출의 관계 ID 수입 지출 1 1,534,000 1,200,500 2 1,323,500 1,040,330 3 3,543,200 2,350,350 ... ... ... 53 7,753,000 6,540,270 예를 들어, 위와 같은 데이터와 그래프가 존재할 때 주어진 수입의 최대값이 7,753,000원 일때 그보다 많은 수입이 발생할때 대략 얼마의 지출을 하게되는지 예측하려면 추세선이 필요하다. 추세선 : y^ = a +bx 점들 : y = a..
기초 통계학 기술 통계학 수집한 자료들을 정리하고 요약하여 자료가 어떤 특성을 갖고 있는지 해석하는 통계학의 한 분야 자료 요약 방법 1. 시각적인 방법(그래프)를 통한 자료 요약 2. 각종 통계 숫자를 이용한 자료의 요약 대표값 : 최빈값, 평균, 중앙값 -예시 데이터- 1. 최빈값 (Mode) (1) 줄기-잎 그림으로 확인한 최빈값 data 양 끝 값의 변화에 둔감하다. 이것은 중앙값의 장점이다. 분산 - 데이터가 평균으로부터 흩어진 정도 - 편차(데이터 -평균)의 합은 0이므로 편차의 제곱의 합을 이용하여 계산 - 모분산은 편차의 제곱의 합을 모집단의 수(N)으로 나누어주고, 표본분산은 표분의 수에서 1을 뺀 자유도(n-1)로 나누어 어 계산 * 자유도 (df = degree of freedom) 주어진 조건하..
상관관계(공분산, 상관계수) 1. 상관관계란? 기온을 x로 판매량을 y로 순서쌍으로 표시 ex) (14.2, 215) 좌측의 표를 이용하여, 우측의 산점도로 그린다. 즉, 순서쌍을 그래프 위 점으로 표현한다. 이럴 경우, 점들이 일정한 패턴을 나타낼 수 있는데, 위의 예시에서는, 기온이 오를수록 아이스크림의 판매량도 오른다고 볼 수 있다. 반대로, 기온이 떨어질수록 아이스크림의 판매량은 떨어진다. 즉, 두가지의 변량 사이의 일정한 관계가 성립한다고 볼 수 있다. => 상관관계 : 두 가지의 변량 사이의 관계 양의 상관관계 : x값이 커지면 y의 값도 커진다. 음의 상관과계 : x값이 작아지면 y의 값도 작아진다. 기울기 > 0, y의 증가량 / x의 증가량 2. 공분산이란? X나 Y의 분산은 X나 Y의 값이 얼마나 퍼져있는지를 표현..
t-test # drinks 데이터셋의 기본 정보 조회하기 import pandas as pd drinks = pd.read_csv("drinks.csv") drinks.info() drinks.head() # scipy 모듈 설치 # scipy : 통계 관련 기능 제공 pip install scipy from scipy import stats # 아프리카와 유럽간의 맥주 소비량 차이를 검증 # t_test : 두 집단간의 평균의 차이 # 유럽과 아프리카 지역의 통계 검정 # africa : 아프리카의 대륙의 국가 정보만 저장 # europe : 유럽 대륙의 국가 정보만 저장 africa = drinks.loc[drinks['continent']=='AF'] europe = drinks.loc[drinks['cont..