해보記/R 27

<記> R 데이터 핸들링 (1)

데이터를 다루기 위한 여러가지 함수들을 살펴보자 행 / 열 / 문자열 개수 확인하기 행 / 열 / 문자열 개수를 알아내기 위해서는 nrow / ncol / nchar / dim 등 함수를 사용한다. # 데이터 프레임을 생성한다. > tmp_df nrow(tmp_df) # ncol( ) 함수는 열의 개수를 결과로 출력한다. > ncol(tmp_df) # dim( ) 함수는 행과 열의 개수를 결과로 출력한다. > dim(tmp_df) # 벡터를 생성한다. > tmp_vec nchar(tmp_vec) # 벡터 내의 값의 개수를 알기 위해서는 length( ) 함수를 사용한다. > length(tmp_vec) 행 / 열 이름 변경하기 데이터의 행과 열의 이름을 확인하거나 변경을 위해서는 names / dimna..

해보記/R 2019.12.10

<記> R 연산자

R의 연산자 우선순위 높은 것부터 낮은 순으로, 왼쪽부터 오른쪽으로 연산순위가 매겨진다. 연산자 뜻 추가 설명 [ [[ 인덱스 좌우 쌍으로 사용(예. [3], [[2]]) :: ::: 이름 공간(name space)에 있는 변수에 접근하기 $ @ 요소 뽑아내기, 슬롯 뽑아내기 ^ 지수 - + 단항 마이너스와 플러스 부호 : 수열 생성 n:m 수열 n, n+1, n+2, ..., m을 생성 %any% 특수 연산자 %/% 나눗셈 몫만 출력 * / 곱하기, 나누기 + - 더하기, 빼기 == != = 비교 같다, 다르다, 크다, 작다 등 ! 논리 부정 not의 의미 & && 논리 "and", 단축(short-circuit) "and" (논리 곱) | || 논리 "or", 단축(Shor-circuuit) "or"..

해보記/R 2019.12.06

<記> R List

리스트(List) 리스트는 서로 다른 형태(mode)의 자료를 포함하는 하나의 객체이다. list( ) > li li[[1]] # [[1]] : 첫 번째 성분 > mat1 list1 son length(son) # 리스트 자료의 개수 > mode(son) # 리스트 자료의 형태 > names(son) # 리스트 각 구성요소의 이름 리스트의 성분 추출 기본적인 성분 추출 방법은 [[ ]]를 사용하여 성분의 index를 이용하는 방법이다. 만약 성분의 이름을 지정하였다면 $ 연산자를 이용하여 특정 성분을 추출할 수 있다. 단 성분의 원소를 추출하는 경우에는 [ ]를 사용한다. > exm exm[[2]] # 리스트의 2번째 성분 > exm[[2]][2] # 2번째 성분 중 2번째 원소 > names(exm) ..

해보記/R 2019.12.05

<記> R data.frame

데이터 프레임(data.frame) 데이터 프레임은 행렬과 비슷한 형태로 되어있다. 행렬(matrix)은 행과 열의 차원으로 표시되며 숫자, 문자, 논리형 등 같은 형태(mode)의 객체를 가지는 반면, 데이터 프레임은 각 열(column)들이 서로 다른 형태(mode)의 객체를 가질 수 있고, 범주형 변수를 가질 수도 있기 떄문에 범주형 자료분석에도 유용하게 사용된다. data.frame( ) # 이미 생성되어 있는 벡터들을 결합하여 데이터 프레임을 생성 > char1 num1 test1 a1 dim(a1) test3 df1 df1[, "Col3"] > df1[1, ] > df1[3, "Col1"]

해보記/R 2019.12.04

<記> R Array

배열(Array) 배열(Array)은 행렬을 2차원 이상으로 확장시킨 객체로써 2차원의 구조를 갖는 행렬도 배열의 한 종류이다. 그러나 일반적으로 3차원 이상의 차원을 갖는 데이터 객체를 배열이라 부른다. array( ) 행렬의 속성과 같이 자료의 개수를 나타내는 length, 형태를 보여주는 mode, 각 차원의 벡터의 크기를 나타내는 dim, 그리고 각 차원의 리스트 이름을 나태내는 dimnames로 구성된다. # 배열의 생성 > array(1:6) # 1~6 자료로 1차원 배열 생성 > array(1:6, c(2, 3)) # 1~6 자료로 2차원 배열 생성 > array(1:8, c(2, 2, 2)) # 1~8 자료로 3차원 배열 생성 dim( ) > arr dim(arr) ary1 ary2 ary..

해보記/R 2019.12.03

<記> R Matrix

행렬(Matrix) 행렬(Matrix)은 동일한 형으로 구성된 2차원이 데이터 구조이다. 행의 차원과 열의 차원을 갖는 행렬은 수학에서의 행렬과는 달리 문자형이나 논리형 등을 원소로 사용할 수 있다. 그러나, 행렬의 원소는 한가지 형의 자료로만 구성되어야 한다. matrix( ) # 행렬(matrix)는 여러 변수들이 이차원적으로 모여 있는 개체로, 행렬을 생성하기 위해서는 matrix() 함수를 사용한다. > matrix(1:9, nrow=3) # nrow : 행의 개수 지정 # ncol : 열의 개수 지정, byrow=T : 행 기준 행렬을 생성 > matrix(c(1, 4, 7, 2, 5, 8, 3, 6, 9), byrow=T, ncol=3) 행렬에서의 데이터 추출 > mat mat[1, ] # 행..

해보記/R 2019.12.03

<記> R Vector

앞서 R에서 사용하는 데이터의 유형과 데이터 구조에 대해 간단하게 알아보았다. 2019/11/20 - [해보記/R] - R 데이터 유형과 데이터 구조 벡터(Vector)에 대해서도 간단하게 알아보았다 2019/11/19 - [해보記/R] - R 변수와 벡터 벡터를 비롯한 매트릭스, 배열, 데이터 프레임, 리스트 등에 대해서도 차차 더 알아보기로 하자. 벡터(Vector) 한 개 이상의 원소로 구성된 자료 구조로서 R의 '데이터 셋'(data set) 중에서 가장 기본이 되는 '데이터 셋'이다. 수치형 또는 문자형, 논리형 데이터를 원소(벡터의 원소는 한가지만 가능)로 하는 1차원의 배열 형태를 가진다. c( ) 함수 하나의 벡터에는 다른 형태의 데이터가 원소로 구성될 수 없다. 수치형 벡터는 정수, 실수..

해보記/R 2019.12.02

<記> R Data Input/Output - 파일에 데이터 저장하기

파일에서 데이터를 가져오는 것에 이어서 파일에 데이터를 저장하는 것도 살펴보자. 데이터 Export 파일에 데이터를 저장하는 방법들 중 wrtite.table, write.csv 함수에 대해서 살펴보자. 우선 Export 하는데 이용할 데이터를 생성하고, 생성된 데이터를 파일로 저장하는 순서로 진행한다. # 샘플데이터 생성 # 난수 생성기의 seed 값 > n DT head(DT) #tail 함수로 DT에 있는 데이터의 뒤 몇개 데이터 조회 > tail(DT) write.csv() # write.csv() 함수로 CSV 파일에 저장하기 # DT의 데이터를 'out_test.csv' 파일에 저장한다. > write.csv(DT, "C:\\R_WD\\out_test.csv", sep=",", row.name..

해보記/R 2019.11.29

<記> R Data Input/Output - 파일에서 데이터 가져오기

R, RStudio를 이용해 데이터를 분석하기 위해서는 먼저 데이터를 R로 가져와야 한다. .csv 형태의 정형 데이터를 읽어서 R의 오브젝트에 입력하거나, 오브젝트의 내용을 .csv 파일로 내보내거나, DB에서 데이터를 읽어 오거나 또는 DB로 데이터를 저장하는 등의 데이터 I/O에 대해서 살펴보자. 데이터 Import 파일에서 데이터를 가져오는 방법은 다양하다. CSV(Comma-Separated Values)는 확장자의 뜻 그대로, 여러가지 필드를 컴마(쉼표 ,)로 구분해 놓은 정형화된 텍스트 데이터 파일이다. 예제 파일은 앞서 산점도에서 사용했던 데이터('hfda_ch09_employees_kr.csv')에서 20건의 데이터만 가져다 새로 생성한 'C:\\R_WD\\io_test.csv' 파일을 ..

해보記/R 2019.11.28

<記> R 데이터 유형과 데이터 구조

R에서 사용되는 데이터의 유형과 데이터 구조를 살펴보자. 데이터 유형 'mode()' 함수를 이용해 데이터의 유형을 확인할 수 있다. RStudio에서는 Values 창에서도 확인이 가능하다. 수치형(numeric) : 숫자로 이루어진 데이터 유형, 정수형(integer)과 실수형(double)으로 구분 논리형(logic) : 참(TRUE) 또는 거짓(FALSE)의 논리값이나 논리 연산자로 계산된 논리값 문자형(character) : 문자나 문자열 복소수형(complex) : 실수와 허수로 구성된 복소수 다음의 함수들은 반환값으로 데이터의 유형을 확인해 준다. 함수의 데이터형과 같은 데이터면 TRUE값을 반환한다. is.numeric(x) 수치형 여부 is.integer(x) 정수형 여부 is.doubl..

해보記/R 2019.11.20