분류 전체보기 84

<記> R Array

배열(Array) 배열(Array)은 행렬을 2차원 이상으로 확장시킨 객체로써 2차원의 구조를 갖는 행렬도 배열의 한 종류이다. 그러나 일반적으로 3차원 이상의 차원을 갖는 데이터 객체를 배열이라 부른다. array( ) 행렬의 속성과 같이 자료의 개수를 나타내는 length, 형태를 보여주는 mode, 각 차원의 벡터의 크기를 나타내는 dim, 그리고 각 차원의 리스트 이름을 나태내는 dimnames로 구성된다. # 배열의 생성 > array(1:6) # 1~6 자료로 1차원 배열 생성 > array(1:6, c(2, 3)) # 1~6 자료로 2차원 배열 생성 > array(1:8, c(2, 2, 2)) # 1~8 자료로 3차원 배열 생성 dim( ) > arr dim(arr) ary1 ary2 ary..

해보記/R 2019.12.03

<記> R Matrix

행렬(Matrix) 행렬(Matrix)은 동일한 형으로 구성된 2차원이 데이터 구조이다. 행의 차원과 열의 차원을 갖는 행렬은 수학에서의 행렬과는 달리 문자형이나 논리형 등을 원소로 사용할 수 있다. 그러나, 행렬의 원소는 한가지 형의 자료로만 구성되어야 한다. matrix( ) # 행렬(matrix)는 여러 변수들이 이차원적으로 모여 있는 개체로, 행렬을 생성하기 위해서는 matrix() 함수를 사용한다. > matrix(1:9, nrow=3) # nrow : 행의 개수 지정 # ncol : 열의 개수 지정, byrow=T : 행 기준 행렬을 생성 > matrix(c(1, 4, 7, 2, 5, 8, 3, 6, 9), byrow=T, ncol=3) 행렬에서의 데이터 추출 > mat mat[1, ] # 행..

해보記/R 2019.12.03

<記> R Vector

앞서 R에서 사용하는 데이터의 유형과 데이터 구조에 대해 간단하게 알아보았다. 2019/11/20 - [해보記/R] - R 데이터 유형과 데이터 구조 벡터(Vector)에 대해서도 간단하게 알아보았다 2019/11/19 - [해보記/R] - R 변수와 벡터 벡터를 비롯한 매트릭스, 배열, 데이터 프레임, 리스트 등에 대해서도 차차 더 알아보기로 하자. 벡터(Vector) 한 개 이상의 원소로 구성된 자료 구조로서 R의 '데이터 셋'(data set) 중에서 가장 기본이 되는 '데이터 셋'이다. 수치형 또는 문자형, 논리형 데이터를 원소(벡터의 원소는 한가지만 가능)로 하는 1차원의 배열 형태를 가진다. c( ) 함수 하나의 벡터에는 다른 형태의 데이터가 원소로 구성될 수 없다. 수치형 벡터는 정수, 실수..

해보記/R 2019.12.02

<記> CentOS 7에 PostgreSQL 12 설치하기

현재 구성하고 있는 서버에는 이미 CentOS를 설치할 때 패키지로 설치된 PostgreSQL이 있다.(솔직히 언제 어떻게 설치했는지 기억이 나질 않는다... ㅡㅡ; 그냥 패키지로 설치되었다 추측하고 있다.) # PostgreSQL 버전 확인 $ /usr/bin/postgres --version 기존에 설치되어 있는 PostgreSQL 9.2.24를 삭제하고 최신 버전의 PostgreSQL(11 이상)을 설치하려 한다. 1. PostgreSQL 9.2.24 삭제하기 먼저 service로 등록되어 실행되고 있는 PostgreSQL을 확인합니다. # 실행 서비스 확인 $ systemctl list-unit-files --type=service 그냥 이렇게 조회하면 너무 많이 나와 계속 스페이스를 눌러야 하죠..

해보記/Server 2019.12.02

<記> R Data Input/Output - 파일에 데이터 저장하기

파일에서 데이터를 가져오는 것에 이어서 파일에 데이터를 저장하는 것도 살펴보자. 데이터 Export 파일에 데이터를 저장하는 방법들 중 wrtite.table, write.csv 함수에 대해서 살펴보자. 우선 Export 하는데 이용할 데이터를 생성하고, 생성된 데이터를 파일로 저장하는 순서로 진행한다. # 샘플데이터 생성 # 난수 생성기의 seed 값 > n DT head(DT) #tail 함수로 DT에 있는 데이터의 뒤 몇개 데이터 조회 > tail(DT) write.csv() # write.csv() 함수로 CSV 파일에 저장하기 # DT의 데이터를 'out_test.csv' 파일에 저장한다. > write.csv(DT, "C:\\R_WD\\out_test.csv", sep=",", row.name..

해보記/R 2019.11.29

<記> R Data Input/Output - 파일에서 데이터 가져오기

R, RStudio를 이용해 데이터를 분석하기 위해서는 먼저 데이터를 R로 가져와야 한다. .csv 형태의 정형 데이터를 읽어서 R의 오브젝트에 입력하거나, 오브젝트의 내용을 .csv 파일로 내보내거나, DB에서 데이터를 읽어 오거나 또는 DB로 데이터를 저장하는 등의 데이터 I/O에 대해서 살펴보자. 데이터 Import 파일에서 데이터를 가져오는 방법은 다양하다. CSV(Comma-Separated Values)는 확장자의 뜻 그대로, 여러가지 필드를 컴마(쉼표 ,)로 구분해 놓은 정형화된 텍스트 데이터 파일이다. 예제 파일은 앞서 산점도에서 사용했던 데이터('hfda_ch09_employees_kr.csv')에서 20건의 데이터만 가져다 새로 생성한 'C:\\R_WD\\io_test.csv' 파일을 ..

해보記/R 2019.11.28

[빅데이터] 4. 빅데이터 시스템 구축을 위한 요소 기술(2)

앞선 장에서는 빅데이터 시스템 구축의 요소 기술 중 수집 기술, 저장 기술, 처리 기술에 대한 내용을 살펴보았다. 여기서는 빅데이터 시스템 구축 요소 기술 중 텍스트 마이닝, 오피니언 마이닝, 소셜 분석, 클러스터 분석 등의 빅데이터 분석 기술에 대한 내용들이 소개되고, 빅데이터의 분석 결과를 인지하기 쉽도록 표현하는 방법(시각화의 여러가지 형태 등)들에 대한 소개의 장이다. 5. 빅데이터 분석 기술 마이닝은 수집된 데이터에서 분석을 통하여 새로운 규칙이나 패턴을 찾아내는 것을 말한다. 텍스트 마이닝 일반적인 데이터 마이닝은 관계형 데이터베이스 기반의 구조화된 데이터를 분석하는 것을 말한다. 그러나 비구조적 문서가 대부분인 빅데이터는 일반적인 데이터 마이닝을 수행하기 어렵기 때문에 자연어 처리 기술과 문..

[빅데이터] 4. 빅데이터 시스템 구축을 위한 요소 기술(1)

빅데이터 시스템을 구축하기 위한 여러 요소 기술에 대하여 소개되어 있다. 여기서는 여러 요소 기술 중 수집기술, 저장기술, 처리기술에 대하여 소개하고 있다. 빅데이터 수집기술의 종류와 간단한 특징을 소개하고, 빅데이터 저장기술의 유형별 종류와 특징, 빅데이터 처리기술의 종류와 특징도 소개한다. 1. 빅데이터 솔루션 체계 빅데이터 기술의 규정 요소(6V) 구분 내용 크기(Volume) 대량의 데이터(페타바이트 수준) 다양성(Variety) 정형 데이터 + 반정형 데이터(XML 등) + 비정형 데이터(동영상, 음악 등) 속도(Velocity) 실시간으로 생성되는 데이터(로그, 대화 내용 등) 진실성(Veracity) 데이터가 가지고 있는 사실성 혹은 의사결정 연관성 시각화(Visualization) 정보 이..

[빅데이터] 3. 빅데이터 시스템 아키텍처(2)

앞장에서 살펴본 내용이 이어 빅데이터 시스템 플랫폼의 구성 내용과 특징을 살펴보고, 빅데이터 시스템의 검증은 어떻게, 어떤 포인트에서 수행하여야 하는지, 또 검증을 위한 테스트 환경은 어떻게 구성되어야 하는지 살펴본다. 어쩌면, 가장 중요한 내용인지도 모르겠다. 빅데이터 시스템을 구축하고 목적에 기여하는 결과를 도출해 내기 위해서는 일을 추진하는 조직이 어떻게 구성되어야 하는지에 대한 내용이 소개된다. 2019/11/22 - [공부하記/빅데이터 시스템 구축 가이드] - [빅데이터] 3. 빅데이터 시스템 아키텍처(1) 3. 빅데이터 시스템 플랫폼 플랫폼(Platform) 소프트웨어 응용 프로그램들을 돌리는 데 쓰이는 하드웨어와 소프트웨어를 말함 구분 내용 데이터 통합 3V(Varierty, Velocity..

[빅데이터] 3. 빅데이터 시스템 아키텍처(1)

빅데이터 시스템을 기능적인 측면에서의 구성방식을 살펴보는 장이다. 빅데이터 시스템을 구축하고자 할 때 고려해야할 사항들을 제시해 주고 있다. 어떤 목적으로, 어떤 데이터를, 어떻게 확보하고 저장할 것인지, 빅데이터 플랫폼의 종류는 어떠한 것들이 있는지, 어떤 특징이 있는지, 구축할 빅데이터 시스템에 대한 검증은 어떻게 해야 하는지, 검증을 위한 테스트 환경은 어떻게 구축하여야 하는지 등에 대한 내용을 소개하고 있다. 여기서는 빅데이터 자체의 확보와 관리, 시스템 구축을 통해 얻고자 하는 것에 대한 목적성을 살펴보고, 어떻게 어떤 방법으로 저장하여 관리할 것인지에 대한 내용까지 살펴보았다. 1. 빅데이터 거버넌스 거버넌스(Governance)란? 일반적으로 ‘과거의 일방적인 정부 주도적 경향에서 벗어나 정..