'RStudio' 태그의 글 목록

RStudio 18

기타 많이 쓰이는 함수 scale( ) : 중심화 > x scale(x, scale = FALSE) subset( ) : 원소의 일부 선택 > subset(airquality, Temp > 94, select = c(Ozone, Temp)) sample( ) : 샘플링 > sample(c(1:10), 5) match( ) : 일치하는 원소 추출 > intersect intersect(1:10, 7:20) which( ) : 조건을 만족하는 원소의 인덱스 > which(LETTERS == "R") choose( ) : 조합의 수 > choose(5, 2) > for (n in 0:10) print(choose(n, k = 0:n)) any( ) : 원소 중 임의의 한 원소 (하나라도 있으면 TRUE, 없으..

해보記/R 2019.12.17

<記> R 함수 - 문자형

문자형 데이터를 다루는데 주로 사용되는 함수 toupper( ) : 대문자로 전환 > x x x x nchar(x) strsplit( ) : 문자형 데이터를 정해진 구분자로 분리 > x split_x x strtrim(x, 2) > strtrim(x, 4) substr( ) : 문자의 일부분을 선택 혹은 변경 > substr("abdcegf", 1, 3) paste( ) : 문자의 결합 > paste(x, collapse = " ") grep( ) : 문자형 데이터 중 정의된 문자를 포함하는 인덱스 > x grep("e", x) regexpr( ) : 문자형 데이터 중 정의된 문자의 위치를 출력(첫 번째) > regexpr("e", x) grepexpr( ) : 문자형 데이터 중 정의된 문자의 위치를 출..

해보記/R 2019.12.17

<記> R 함수 - 데이터 요약, 대푯값, 정렬

데이터를 요약하여 출력하는데 자주 사용되는 함수 length( ) : 원소의 수 > x length(x) sum( ) : 원소의 합 > sum(x) prod( ) : 원소의 곱 > prod(x) cumsum( ) : 누적합 > cumsum(x) cumprod( ) : 곱의 누적합 > cumprod(x) cummin( ) : 최소값의 누적합 > cummin(x) cummax( ) : 최대값의 누적합 > cummax(x) 대푯값을 출력하는데 주로 사용되는 함수 mean( ) : 평균값 > mean(x) median( ) : 중위값 > mean(x) max( ) : 최대값 > max(x) min( ) : 최소값 > min(x) which.max( ) : 최대값의 인덱스 > which.max(x) which.m..

해보記/R 2019.12.17

<記> R 데이터 핸들링 (3)

데이터 정렬하기 데이터를 정렬하는 함수는 sort / oder 가 있다. Vector 데이터는 주로 sort( )를, Matrix 데이터는 order( )를 사용한다. > a sort(a) > order(a) # 값의 순위값(위치)을 나타낸다 > sort(a, decreasing = T) > order(a, decreasing = T) > tmp1 tmp1[order(tmp1$BB), ] # 컬럼 BB에 대하여 내림차순 정렬 > tmp1[order(tmp1$BB, decreasing = T), ] 문자열 처리 문자열 처리에는 paste / substring / strsplit / grep / sub / toupper / tolower 등의 함수가 사용된다. paste( ) # 문자열을 합친다. > pas..

해보記/R 2019.12.16

<記> R 데이터 핸들링 (2)

데이터 합치기 데이터를 합치기 위해서는 cbind / rbind / merge 함수 등이 주로 사용된다. cbind( ) cblind( ) 함수는 컬럼(column)을 합치기 위한 함수다. 합칠 대상이 되는 데이터의 행 개수는 동일하여야 한다. 합칠 대상이 되는 데이터가 데이터 프레임(data.frame)인 경우는 데이터의 유형이 달라도 상관없지만, 행렬(matrix)인 경우는 데이터 유형이 같아야 한다. (행렬은 원소는 단일 유형의 데이터로 구성되어야 함가 되는 데이터가 한가지 유형으로만 되어야 함) > aa bb cbind(aa, bb) > tmp_df cbind(tmp_df, aa) rbind( ) rbind( )는 행(row)을 합치기 위한 함수다. 합칠 대상이 되는 데이터의 열 개수는 동일하여야..

해보記/R 2019.12.13

<記> R 데이터 핸들링 (1)

데이터를 다루기 위한 여러가지 함수들을 살펴보자 행 / 열 / 문자열 개수 확인하기 행 / 열 / 문자열 개수를 알아내기 위해서는 nrow / ncol / nchar / dim 등 함수를 사용한다. # 데이터 프레임을 생성한다. > tmp_df nrow(tmp_df) # ncol( ) 함수는 열의 개수를 결과로 출력한다. > ncol(tmp_df) # dim( ) 함수는 행과 열의 개수를 결과로 출력한다. > dim(tmp_df) # 벡터를 생성한다. > tmp_vec nchar(tmp_vec) # 벡터 내의 값의 개수를 알기 위해서는 length( ) 함수를 사용한다. > length(tmp_vec) 행 / 열 이름 변경하기 데이터의 행과 열의 이름을 확인하거나 변경을 위해서는 names / dimna..

해보記/R 2019.12.10

<記> R 연산자

R의 연산자 우선순위 높은 것부터 낮은 순으로, 왼쪽부터 오른쪽으로 연산순위가 매겨진다. 연산자 뜻 추가 설명 [ [[ 인덱스 좌우 쌍으로 사용(예. [3], [[2]]) :: ::: 이름 공간(name space)에 있는 변수에 접근하기 $ @ 요소 뽑아내기, 슬롯 뽑아내기 ^ 지수 - + 단항 마이너스와 플러스 부호 : 수열 생성 n:m 수열 n, n+1, n+2, ..., m을 생성 %any% 특수 연산자 %/% 나눗셈 몫만 출력 * / 곱하기, 나누기 + - 더하기, 빼기 == != = 비교 같다, 다르다, 크다, 작다 등 ! 논리 부정 not의 의미 & && 논리 "and", 단축(short-circuit) "and" (논리 곱) | || 논리 "or", 단축(Shor-circuuit) "or"..

해보記/R 2019.12.06

<記> R List

리스트(List) 리스트는 서로 다른 형태(mode)의 자료를 포함하는 하나의 객체이다. list( ) > li li[[1]] # [[1]] : 첫 번째 성분 > mat1 list1 son length(son) # 리스트 자료의 개수 > mode(son) # 리스트 자료의 형태 > names(son) # 리스트 각 구성요소의 이름 리스트의 성분 추출 기본적인 성분 추출 방법은 [[ ]]를 사용하여 성분의 index를 이용하는 방법이다. 만약 성분의 이름을 지정하였다면 $ 연산자를 이용하여 특정 성분을 추출할 수 있다. 단 성분의 원소를 추출하는 경우에는 [ ]를 사용한다. > exm exm[[2]] # 리스트의 2번째 성분 > exm[[2]][2] # 2번째 성분 중 2번째 원소 > names(exm) ..

해보記/R 2019.12.05

<記> R data.frame

데이터 프레임(data.frame) 데이터 프레임은 행렬과 비슷한 형태로 되어있다. 행렬(matrix)은 행과 열의 차원으로 표시되며 숫자, 문자, 논리형 등 같은 형태(mode)의 객체를 가지는 반면, 데이터 프레임은 각 열(column)들이 서로 다른 형태(mode)의 객체를 가질 수 있고, 범주형 변수를 가질 수도 있기 떄문에 범주형 자료분석에도 유용하게 사용된다. data.frame( ) # 이미 생성되어 있는 벡터들을 결합하여 데이터 프레임을 생성 > char1 num1 test1 a1 dim(a1) test3 df1 df1[, "Col3"] > df1[1, ] > df1[3, "Col1"]

해보記/R 2019.12.04

<記> R Array

배열(Array) 배열(Array)은 행렬을 2차원 이상으로 확장시킨 객체로써 2차원의 구조를 갖는 행렬도 배열의 한 종류이다. 그러나 일반적으로 3차원 이상의 차원을 갖는 데이터 객체를 배열이라 부른다. array( ) 행렬의 속성과 같이 자료의 개수를 나타내는 length, 형태를 보여주는 mode, 각 차원의 벡터의 크기를 나타내는 dim, 그리고 각 차원의 리스트 이름을 나태내는 dimnames로 구성된다. # 배열의 생성 > array(1:6) # 1~6 자료로 1차원 배열 생성 > array(1:6, c(2, 3)) # 1~6 자료로 2차원 배열 생성 > array(1:8, c(2, 2, 2)) # 1~8 자료로 3차원 배열 생성 dim( ) > arr dim(arr) ary1 ary2 ary..

해보記/R 2019.12.03

1 2

데이터 세상에서 살아남記

빅데이터 분석, 시스템 구축과 관련해서 공부하고 배운 것을 소소하게 나누어 보려 합니다.

데이터는 언제나 옳다, 산포 측도, 데이터 핸들링, 빅데이터 시스템 구축 가이드, 책거리, 빅데이터, 빅데이터 시스템, 통계 용어, 위치 측도, 斷想, 데이터는, 빅데이터 분석 기술, 옳다, 함수, 데이터 분석, Head First Data Analysis, 단상, 목차, r, RStudio,

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

RStudio 18

티스토리툴바