본문 바로가기

Programming/R6

[R #6] 데이터 조작 이번 단원에서는 수집한 데이터를 분석 목적에 맞게 가공/처리하는 변환과 조작 관련 패키지를 중심으로 구성되어있다. 배워볼 패키지 명은 plyr / dplyr / reshape / reshape2이다. 1. plyr 패키지 : 두 개 이상의 data frame을 대상으로 Key값을 이용하여 하나로 병합하거나 집단 변수를 기준으로 함수를 적용하여 요약 집계 결과를 제공하는 패키지. > join 함수 : 데이터를 병합(join 연산)하는 함수 - 형식 : join( df_x, df_y, by=, type=, match=) - df_x / df_y : join 할 데이터 프레임 - by= : 기준 열 - type : 조인 타입을 설정 (default = 'left') left - 왼쪽(x) 데이터의 기준 변수(.. 2020. 6. 11.
[R #5] 데이터 시각화 1. 시각화 도구 분류 > 변수의 연속성에 따른 분류 이산변수 연속변수 막대, 점, 원형차트 등 상자 박스, 히스토그램, 산점도 등 > 칼럼 특성에 따른 분류 칼럼 특성 도구 숫자형 범주형 1 hist, plot, barplot 1 pie, barplot 2 plot, abline, boxplot 3 scatterplot3d n n pairs 2. 이산변수 시각화 > 막대 차트 시각화(barplot) argument 내용 xlim/ylim x/y 축 값 범위 xlab/ylab x/y 축 이름 col 색상 main 차트 제목 hoirz 가로 막대형 설정(default = F) beside x축 값을 측면으로 배열(F = 누적 막대) space 막대 간격(커질수록 막대 굵기는 작아짐) cex 막대 크기 설정.. 2020. 6. 6.
[R #4] 제어문과 함수 1. 연산자 > 산술연산자 사칙연산(+,-,*,/)과 나머지연산(%%), 제곱연산(^,**)으로 구성되어있다. * 다른 프로그래밍 언어와의 차이점은 나누기(/)에서 나타났다. R에서는 integer와 double의 구분이 없어 연산을 하면 항상 몫이 아닌 실제 나눈 값이 나온다. > 관계/논리연산자 관계연산-동등/크기비교(==, !=, >, >=)와 논리연산-(&, |, !, xor())으로 구성되어있다 . 2. 조건문 > if() - 형식 : if(){statements} [else if(){statements}] [else{statements}] * 주의할 점은 else if/ else를 붙일 때 앞의 닫는 중괄호(' } ')와 같은 줄에 붙여야 한다.` > ifelse() 함수 : 3항 연산자와 유.. 2020. 6. 3.
[R #3] 데이터 입출력 1. 데이터 불러오기 > 키보드 입력 'scan()' 함수 : 벡터의 원소를 차례대로 입력. 아무값도 입력하지 않으면 입력이 종료된다. 함수의 argument를 입력하지 않으면 numeric 타입만 입력이 가능하다. 문자열 입력을 위해서는 argument로 'what = character()'를 입력해야 한다. 'edit()' 함수 : 표 형식의 데이터 편집기를 통해 값을 입력할 수 있다. > 로컬 파일 불러오기 'read.table()' 함수 : 테이블 형태로 작성되어 있으며, 공백,탭 등의 구분자로 구분된 파일을 불러오는 함수 - 형식 : read.table(file=,sep="",header=) * header : 칼럼명 여부 (default = F) 'na.strings' = 인자를 통해 특정문자.. 2020. 5. 27.
[R #2] 데이터의 유형과 구조 1. Vector - 특징 : 1차원의 선형 자료구조. : 변수[index]로 참조 가능. index는 1부터 시작. : 동일한 자료형만 저장 가능. - 백터 객체 생성 : 'c()' - 조합, 'seq()' - 수열, 'rep()' - 반복/복제의 함수를 이용하여 생성이 가능하다. v_num 숫자>논리 순으로 변환이 된다는 것을 알 수 있었다.(숫자-논리간에는 TRUE가 1, FALSE가 0이 된다.) > 칼럼(열)명 지정 : 'names()'함수를 이용하여 벡터 데이터에 칼럼명을 지정할 수 있다. age apply() 함수 : 행렬에 함수를 적용하여 자료를 처리하는데 이용하는 함수. 형식 : 'apply(X, MARGIN, FUN, ....)' X - 함수를 적용할 행렬 객체 MARGIN - 함수 적.. 2020. 5. 24.
[R #1] R 개요 - 교재 '빅데이터 분석을 위한 R프로그래밍(김진성 저)'을 사용하고 있다. 두께나 구성이 전공책 수준인 것 같다. 출판사 홈페이지에 연습문제 솔루션과 실습용 파일들을 제공해주는 점은 전공책 이상인 것 같다. 이제 Chapter 1까지 보긴 했지만 굉장히 괜찮은 책 같다. - 기본 제공 데이터 셋 R에서는 기본으로 제공되는 데이터 셋이 있다. 'data()'함수를 실행하면 여러 종류의 데이터 셋이 있다. 객체로 되어있는지 "" 없이 데이터 셋 이름만 치면 바로 값이 나온다. 그리고 내가 값을 덮어씌울 수 있다.그렇게 되면 Rstudio를 재시작하지 않는 한은 다시 불러오지 못하는 것 같다. women // 몸무게와 키 데이터프레임 출력 women 2020. 5. 21.