본문 바로가기

R

(13)
R - 정렬 (sort, order) 정렬 : 주어진 기준에 따라 데이터를 크기 순으로 재배열하는 과정 - 숫자의 경우는 숫자의 크기에 따라 정렬이 가능 - 문자열의 경우는 알파벳순 또는 가나다순으로 정렬이 가능 1. sort() : 값의 크기에 따라 값들을 정렬 # 정렬(sort) v1
R - 결측값 처리 # 데이터 전처리(data preprocessing) - 확보한 데이터를 정제하고 가공하여 분석에 적합한 형태로 만드는 과정 - 현실에서는 잘 정리된 데이터셋을 바로 얻는 경우가 많지 않다. - 데이터 전처리는 전체 분석 과정에서 오랜 시간을 차지한다. # 결측값의 처리 - 결측값은 데이터 수지, 저장 과정에서 값을 얻지 못하는 경우 발생(NA) - 결측값이 섞여 있는 데이터셋은 분석할 때 문제를 일으킴 ex) 합, 평균 계산시 - 결측값은 크게 2가지 방법으로 처리한다. (1) 결측값을 제거하거나 제외한 후 분석 (2) 결측값을 추정하여 적당한 값으로 치환한 후 분석 #아래의 경우 결측값이 섞여 있어 합계가 NA가 된다. z
R - attach/detach 함수 # attach(데이터셋명) : 데이터셋명을 생략가능 # detach(데이터셋명) : 데이터셋명을 생략가능을 생략불가로 변경 #경제 지표 데이터 분석하기 str(longley) #$ GNP.deflator: 인플레이션 조정 GNP 국민 총생산 #$ GNP : 국민총생산 #$ Unemployed : 실업자수 ##$ Armed.Forces: 군인 수 #$ Population : 비제도적 인구 #$ Year : 년 #$ Employed : 취업자수 # GNP 200 초과 인구수 109 이상 1960년 초과 고용인수 50초과인 레코드 조회시 아래와 같이 작성해야한다. longley[longley$GNP>200&longley$Population>=109&longley$Year>1960&longley$Employe..
R - 산점도(scatter plot) 산점도 : 다중변수 데이터에서 두 변수에 포함된 값들을 2차원 그래프상에 점으로 표현하여 분포를 관찰할 수 있도록 하는 도구 # mtcars의 wt 데이터와 mpg 데이터 사이의 관계를 확인하기 위해 산점도 그래프 그리기 plot(mtcars$wt,mtcars$mpg,main='중량-연비 그래프',xlab='중량(wt)',ylab='연비(mpg)',col='red',pch=19) * 대략적으로 우하향하는 산점도 관계를 확인할 수 있다. 즉, 음의 상관관계가 있다고 볼 수 있다. -> 중량이 높을 수록 연비가 낮아진다. * pch : 점의 종류이다. 아래 숫자를 입력할시 해당하는 모양으로 출력된다. # 여러 변수들 간의 산점도 vars
R - 상자그림(box plot) 상자 그림 : 사분위수를 시각화하여 그래프 형태로 나타낸 것. 특이값 파악에 유용하다. 상자 그림이 포함하는 값 # 최솟값 : 저장된 값 중에 가장 작은 값 # 최댓값 : 저장된 값 중에 가장 큰 값 # 1사분위 값 : 25%에 해당하는 값. Q1 # 중앙 값 : 50%에 해당하는 값 Q2 # 3사분위 값 : 75%에 해당하는 값. Q3 -> 단일 변수 수치형 자료를 분석시 사용된다. # 상자그림 그래프로 cars 데이터 분석하기 1) str(cars) 2) hist(cars$dist) 3) dist