분류 전체보기 (118) 썸네일형 리스트형 R - treemap (나무지도) 트리맵은 많은 계층 구조(트리 구조) 데이터를 표시하는 데 적합합니다. 시각화의 공간은 양적 변수에 의해 크기와 순서가 정해지는 사각형으로 분할됩니다. library(treemap) data(GNI2014) head(GNI2014) str(GNI2014) treemap(GNI2014, #데이터셋 index=c('continent','iso3'), #continent 그리고 iso3 나눠준다. vSize='population', #사각형의 크기 vColor='GNI', #색상 국민 총생산 type='value', title="World's GNI") # state.x77 데이터셋으로 나무지도 출력하기 # 타일의 면적 : 주의 면적(Area), 타일의 색 소득(Income) 표시된 나무 지도 출력하기 # 데.. R - 조합, 집계 # 조합 함수 combn() : 조합 추출하기 # 5개 데이터 중에서 3개를 선택할 때 조합의 갯수 출력하기 cbn R - 샘플링(sampling) 샘플링 : 데이터가 너무 큰 경우 분석 시간이 많이 걸릴때, 일부의 데이터만 추출하여 대략의 결과를 미리 확인할수 있다. 1) 비복원 추출 : 한번 선택된 데이터는 제외 2) 복원 추출 : 한번 선택된 데이터 포함 #복원 추출 x R - 정렬 (sort, order) 정렬 : 주어진 기준에 따라 데이터를 크기 순으로 재배열하는 과정 - 숫자의 경우는 숫자의 크기에 따라 정렬이 가능 - 문자열의 경우는 알파벳순 또는 가나다순으로 정렬이 가능 1. sort() : 값의 크기에 따라 값들을 정렬 # 정렬(sort) v1 R - 결측값 처리 # 데이터 전처리(data preprocessing) - 확보한 데이터를 정제하고 가공하여 분석에 적합한 형태로 만드는 과정 - 현실에서는 잘 정리된 데이터셋을 바로 얻는 경우가 많지 않다. - 데이터 전처리는 전체 분석 과정에서 오랜 시간을 차지한다. # 결측값의 처리 - 결측값은 데이터 수지, 저장 과정에서 값을 얻지 못하는 경우 발생(NA) - 결측값이 섞여 있는 데이터셋은 분석할 때 문제를 일으킴 ex) 합, 평균 계산시 - 결측값은 크게 2가지 방법으로 처리한다. (1) 결측값을 제거하거나 제외한 후 분석 (2) 결측값을 추정하여 적당한 값으로 치환한 후 분석 #아래의 경우 결측값이 섞여 있어 합계가 NA가 된다. z R - attach/detach 함수 # attach(데이터셋명) : 데이터셋명을 생략가능 # detach(데이터셋명) : 데이터셋명을 생략가능을 생략불가로 변경 #경제 지표 데이터 분석하기 str(longley) #$ GNP.deflator: 인플레이션 조정 GNP 국민 총생산 #$ GNP : 국민총생산 #$ Unemployed : 실업자수 ##$ Armed.Forces: 군인 수 #$ Population : 비제도적 인구 #$ Year : 년 #$ Employed : 취업자수 # GNP 200 초과 인구수 109 이상 1960년 초과 고용인수 50초과인 레코드 조회시 아래와 같이 작성해야한다. longley[longley$GNP>200&longley$Population>=109&longley$Year>1960&longley$Employe.. R - 산점도(scatter plot) 산점도 : 다중변수 데이터에서 두 변수에 포함된 값들을 2차원 그래프상에 점으로 표현하여 분포를 관찰할 수 있도록 하는 도구 # mtcars의 wt 데이터와 mpg 데이터 사이의 관계를 확인하기 위해 산점도 그래프 그리기 plot(mtcars$wt,mtcars$mpg,main='중량-연비 그래프',xlab='중량(wt)',ylab='연비(mpg)',col='red',pch=19) * 대략적으로 우하향하는 산점도 관계를 확인할 수 있다. 즉, 음의 상관관계가 있다고 볼 수 있다. -> 중량이 높을 수록 연비가 낮아진다. * pch : 점의 종류이다. 아래 숫자를 입력할시 해당하는 모양으로 출력된다. # 여러 변수들 간의 산점도 vars R - 상자그림(box plot) 상자 그림 : 사분위수를 시각화하여 그래프 형태로 나타낸 것. 특이값 파악에 유용하다. 상자 그림이 포함하는 값 # 최솟값 : 저장된 값 중에 가장 작은 값 # 최댓값 : 저장된 값 중에 가장 큰 값 # 1사분위 값 : 25%에 해당하는 값. Q1 # 중앙 값 : 50%에 해당하는 값 Q2 # 3사분위 값 : 75%에 해당하는 값. Q3 -> 단일 변수 수치형 자료를 분석시 사용된다. # 상자그림 그래프로 cars 데이터 분석하기 1) str(cars) 2) hist(cars$dist) 3) dist 이전 1 ··· 9 10 11 12 13 14 15 다음 목록 더보기