본문 바로가기

전체 글

(116)
R - 샘플링(sampling) 샘플링 : 데이터가 너무 큰 경우 분석 시간이 많이 걸릴때, 일부의 데이터만 추출하여 대략의 결과를 미리 확인할수 있다. 1) 비복원 추출 : 한번 선택된 데이터는 제외 2) 복원 추출 : 한번 선택된 데이터 포함 #복원 추출 x
R - 정렬 (sort, order) 정렬 : 주어진 기준에 따라 데이터를 크기 순으로 재배열하는 과정 - 숫자의 경우는 숫자의 크기에 따라 정렬이 가능 - 문자열의 경우는 알파벳순 또는 가나다순으로 정렬이 가능 1. sort() : 값의 크기에 따라 값들을 정렬 # 정렬(sort) v1
R - 결측값 처리 # 데이터 전처리(data preprocessing) - 확보한 데이터를 정제하고 가공하여 분석에 적합한 형태로 만드는 과정 - 현실에서는 잘 정리된 데이터셋을 바로 얻는 경우가 많지 않다. - 데이터 전처리는 전체 분석 과정에서 오랜 시간을 차지한다. # 결측값의 처리 - 결측값은 데이터 수지, 저장 과정에서 값을 얻지 못하는 경우 발생(NA) - 결측값이 섞여 있는 데이터셋은 분석할 때 문제를 일으킴 ex) 합, 평균 계산시 - 결측값은 크게 2가지 방법으로 처리한다. (1) 결측값을 제거하거나 제외한 후 분석 (2) 결측값을 추정하여 적당한 값으로 치환한 후 분석 #아래의 경우 결측값이 섞여 있어 합계가 NA가 된다. z
R - attach/detach 함수 # attach(데이터셋명) : 데이터셋명을 생략가능 # detach(데이터셋명) : 데이터셋명을 생략가능을 생략불가로 변경 #경제 지표 데이터 분석하기 str(longley) #$ GNP.deflator: 인플레이션 조정 GNP 국민 총생산 #$ GNP : 국민총생산 #$ Unemployed : 실업자수 ##$ Armed.Forces: 군인 수 #$ Population : 비제도적 인구 #$ Year : 년 #$ Employed : 취업자수 # GNP 200 초과 인구수 109 이상 1960년 초과 고용인수 50초과인 레코드 조회시 아래와 같이 작성해야한다. longley[longley$GNP>200&longley$Population>=109&longley$Year>1960&longley$Employe..
R - 산점도(scatter plot) 산점도 : 다중변수 데이터에서 두 변수에 포함된 값들을 2차원 그래프상에 점으로 표현하여 분포를 관찰할 수 있도록 하는 도구 # mtcars의 wt 데이터와 mpg 데이터 사이의 관계를 확인하기 위해 산점도 그래프 그리기 plot(mtcars$wt,mtcars$mpg,main='중량-연비 그래프',xlab='중량(wt)',ylab='연비(mpg)',col='red',pch=19) * 대략적으로 우하향하는 산점도 관계를 확인할 수 있다. 즉, 음의 상관관계가 있다고 볼 수 있다. -> 중량이 높을 수록 연비가 낮아진다. * pch : 점의 종류이다. 아래 숫자를 입력할시 해당하는 모양으로 출력된다. # 여러 변수들 간의 산점도 vars
R - 상자그림(box plot) 상자 그림 : 사분위수를 시각화하여 그래프 형태로 나타낸 것. 특이값 파악에 유용하다. 상자 그림이 포함하는 값 # 최솟값 : 저장된 값 중에 가장 작은 값 # 최댓값 : 저장된 값 중에 가장 큰 값 # 1사분위 값 : 25%에 해당하는 값. Q1 # 중앙 값 : 50%에 해당하는 값 Q2 # 3사분위 값 : 75%에 해당하는 값. Q3 -> 단일 변수 수치형 자료를 분석시 사용된다. # 상자그림 그래프로 cars 데이터 분석하기 1) str(cars) 2) hist(cars$dist) 3) dist
SQL [20] - PL/SQL 1. PL/SQL이란? 오라클에서 제공하는 프로그래밍 언어 일반 프로그래밍 언어적인 요소를 다 가지고 있어서 실무에서 요구되는 절차적인 데이터 처리를 다 할 수 있다. 특히 SQL과 연동되어 막강한 기능을 구현할 수 있다. 2. PL/SQL의 구조 선언부(Declare) / 실행부(Begin) / 예외처리부(Exception)로 구성된다. Declare - 모든 변수나 상수를 선언하는 부분 Executable - 제어문, 반복문, 함수 정의 등의 로직을 기술함 Exception - 실행 도중 에러 발생시 해결하는 문장들을 기술함 ** PL/SQL의 결과를 출력해보기 위해서는, SET SERVEROUTPUT ON; 명령어를 통하여 출력 기능을 활성화해야 합니다. -- 예시 양식 Declare vno num..
SQL [19] - Sequence -- 오라클에서만 사용됨 -- 자동 번호 증가 객체 -- 2개의 구문 밖에 없음 -- 1) 시퀀스이름.nextval : 다음 번호 리턴 -- 2) 시퀀스이름.currval : 현재까지 최종 번호. 세션에서 반드시 nextval 사용 이후에 사용 가능함 1. 시퀀스 생성 (1) 테이블 생성 no, name 컬럼을 가진 test111 테이블 생성하기 create table test111 ( no number(4), name varchar2(30) ); (2) 조회 select * from test111; (3) test111 테이블에서 사용한 시퀀스 생성 create sequence test111_no; (4) test1 테이블에 시퀀스 nextval을 이용하여, 순번 데이터를 저장 insert into t..