본문 바로가기

분류 전체보기

(116)
[3] 선형대수의 데이터 유형 [선형대수의 데이터 유형] 스칼라 숫자 하나로 이루어진 데이터이다. 예를 들어, 어떤 붓꽃 한 송이의 꽃잎 길이를 측정하면 숫자가 하나 나오고 이것이 스칼라가 된다. (표기) 𝑥 ∈ R 벡터 여러 숫자가 특정한 순서대로 모여 있는 것을 말한다. 예를 들어, 붓꽃의 종을 알아내려고 크기를 측정할 때, 𝛘₁ : 꽃받침 길이, 𝛘₂ : 꽃받침 폭, 𝛘₃ 꽃잎 길이, 𝛘₄ 꽃잎 폭 등의 데이터의 묶음이 있어야 유리하다. 이럴 경우, 숫자의 순서를 유지하는 것이 정보 전달의 혼동을 방지할 수 있다. (표기) 𝑥 ∈ R⁴ (표기, N개의 데이터를 가진 벡터인 n-차원 벡터) 𝑥 ∈ Rⁿ ※ 또는 다양한 형태로 표현할 수 있어서, 문맥에 따라서 결정해야할 상황이 많다. 넘파이를 이용하여 코드로 벡터를 표현할 수 있다..
[2] 수열과 집합의 연산 수학에서 쓰이는 수열과 집합의 연산은 코드에서는 반복문(loop, iteration)등으로 사용된다. 데이터 분석을 위해서는 많은 숫자의 합이나 곱을 계산해야 하기 때문에, 이러한 수학적 개념을 이해하는 것은 필수적이다. 우선 수열과 집합의 개념을 수식으로 이해해야 한다. 수열은 N개의 숫자 또는 변수가 순서대로 나열된 것이다. 1, 2, 3, 4 𝑥₁ , 𝑥₂ , 𝑥₃ , 𝑥₄ , 𝑥₅ , 𝑥₆ 집합은 순서가 중요하지 않은 숫자들의 모임이다. {1, 2, 3, 4} {𝑥₁ , 𝑥₂ , 𝑥₃ , 𝑥₄ , 𝑥₅ , 𝑥₆} 그리스 문자 Σ(시그마)와 Π(파이)의 기호를 이용하여, 간단하게 표시한다. 읽을 때는 각각 썸(합)과 프로덕트(곱)라고 읽을 수 있다. 합과 곱 아래에는 인덱스의 시작 값, 위에는 인덱..
[1] 수학를 위한 그리스 문자 우리는 일상에서 흔히 '알파', '베타', '델타', '파이' 등의 단어를 듣는다. 이는 모두 그리스 문자를 뜻한다. 영어로 따지면 알파벳과 같은 개념이다. 알파, 베타, 감마는 중학교 수학에서 배우는 2차 방정식에서 등장하고, 주식에서도 알파는 초과 수익률을 표현하는 개념으로도 쓰인다. 또한, 그리스 문자는 요즘 코로나의 변이 바이러스의 이름에서도 볼 수 있는데, 영국에서는 첫번째 변이 바이러스인 알파, 인도에서는 4번째 변이 바이러스인 델타, 남아공에서는 2번째 변이 바이러스인 베타 바이러스 등이 등장하였다. 과거에는, '스페인 독감'처럼 바이러스 이름에 국가의 이름을 붙이곤 했는데, 세계보건기구인 WHO는 특정 국가의 이름에 붙이면 편견이 생기기 때문에 이를 지양하고, 그리스 문자를 붙여 관리하기 ..
카이제곱 검정 * 카이제곱 검정 (chi-square test) 우리가 가진 변수가 모두 명목척도일 때, 사용하는 분석 방법 - t-test와 ANOVA는 명목척도일 때, 사용할 수 없음 - 교차분석이라고도 함 - chi-square value와 chi-square 분포를 가진다. * 카이제곱 검정을 언제 할까? - 변수가 명목척도일 때 - 자료(데이터)의 값은 개수(count)여야 함 * 카이제곱 검정의 목적 1) 변수가 한 개인 경우 : 변수내 그룹간의 비율(proportion)이 같은지 다른지 -> 단, 그룹이 2개인 경우 Binomial test -> 그룹이 여러개인 경우 카이제곱 검정 2) 변수가 두 개인 경우 : 변수 사이의 연관성(Association)이 있는지 없는지 ex) 휴대폰 사용과 뇌암(Brain..
t-test * t-test란 - 모집단의 표준편차가 알려지지 않았을 때, 정규분포의 모집단에서 모은 샘플(표본)의 평균값에 대한 가설검정 방법 - 이름이 t-test인 이유는? -> t-test를 개발한 William Sealy Gosset의 필명이 student라서 마지막 글자인 t에서 t-test가 되었다는 설이 있다. * t-test의 목적 - 단순하게 생각하면, 두 개의 집단이 같은지 다른지 비교하기 위해 사용된다. * 통계학에서 집단이란? - 크게 두 가지로 분류할 수 있다. ㄴ 모집단 vs 표본집단(샘플) ex) 만약, 아래 두 대학의 샘플을 조사하여, 남학생의 평균 키를 비교해보고자 할 때, 아래 1.4cm의 차이는 우연히 발생하였을까? 또는, 아닐까? 만약 우연히 발생하였다면, 두 집단의 키는 같다고..
표준정규분포 정규분포란? 정규분포의 특징 - 종모양 - 정가운데 (평균)을 중심으로 좌우 대칭 - 정규분포의 양 끝은 영원히 '0'에 닿지 않음 - 정규분포의 아래 면적은 확률을 의미 함 ㄴ 곡선의 아래의 면적의 합은 '1' -> 따라서 정규분포를 이용한 확률을 구하려면 적분을 해야 함 -> 표준정규분포 - 평균이 0이고 표준편차가 1인 정규분포 - 무한대 가지의 정규분포 곡선을 적분하는 번거로움을 덜기 위해 ex) 표준정규분포의 예시 대학교 신입생 1,000명을 대상으로 영어 실력고사를 시행 영어점수의 분포가 정규분포에 근사 평균점수는 82이고 표준편차는 5 이때, 82점부터 90점까지의 점수를 받은 학생의 수는? 해당 구간의 면적(확률) x 1,000명을 구하면, 해당 구간의 학생 수를 구할 수 있지만, 해당 구..
표본 추출 표본 추출 기법 기법 설명 예시 단순 무작위 추출 모집단에서 규칙 없이 표본 추출 100개의 전구에서 무작위로 10개의 전구 계통 추출 모집단을 일정한 간격으로 추출 100명의 사람에게 번포료를 나눠주고 끝자리가 7로 끝나는 사람들을 선정 층화 추출 모집단을 여러 계층으로 나누고 계층별로 무작위 추출을 수행 계층은 내부적으로 동질 외부적으로 이질 지역별 여론 조사를 위해 조사 지역을 도별로 나누고, 각 도에서 무작위로 100명씩선정 군집 추출 모집단을 여러 군집으로 나누고 일부 군집의 전체 또는 일부를 추출 계층과는 다르게 군집의 성질은 따로 고려되지 X 100개의 전구에 무작위로 검은색, 노란색, 파란색을 칠하고 파란색의 전구를 모두 추출 자료 측정 속성 척도 설명 예시 질적 속성 명목 척도 단순히 집..
분산분석(ANOVA) 분산 분석이란? 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단 내의 분산, 총 평균과 각 집단의 평균 차이에 의해 생긴 집단 간 분산 비교로 얻은 F-분포를 이용하여 가설 검정을 수행하는 방법 특징 1) 검정 통계량인 F-검정 통계량 값은 집단 내 분산 대비 집단 간 분산이 몇 배 더 큰지를 나타내는 값 2) 분산 분석은 복수의 집단을 비교할 때 분산을 계산함으로써 집단 간에 통계적인 차이가 있다고 할 수 있는지 혹은 차이가 없다고 할 수 있는지를 판정하는 분석 방법 종류 종류 설명 일원분산 분석 집단을 나누는 요인인 독립변수가 1개이고 종속변수가 1개인 경우 독립변수에 의한 집단 사이의 종속변수 평균 차이를 비교하기 위한 분석 이원분산 분석 독립변수가 2개이고 종속변수가 1개인 경우에서의 집단 ..