전체 글 84

통계 용어 정리(2) - 산포도

산포도 산포도란 대푯값을 중심으로 자료들이 흩어져 있는 정도를 의미한다. 이는 하나의 수치로서 표현되며 수치가 작을수록 자료들이 대푯값에 밀집되어 있고, 클수록 자료들이 대푯값을 중심으로 멀리 흩어져 있다. 산포도는 자료의 분포에 대한 정보를 제공해 주는데 자료의 평균이 같다고 하더라도 산포도에 따라 자료의 내용이나 성질이 달라질 수 있다. 따라서 여러 자료들의 특성을 서로 비교하기 위해서는 평균뿐만 아니라 자료들이 평균으로부터 어떻게 흩어져 분포하고 있는가를 알 필요가 있다. 평균과 특정 자료값의 차이를 편차(deviation)라고 한다. 각각의 자료 값들은 평균값의 양 쪽에 위치하는데 편차는 각각의 자료값에서 평균값을 빼주는 것으로 계산하므로, 양수 혹은 음수 값을 갖게 된다. 특히 편차가 0인 자료..

통계 용어 정리(1) - 대표값

통계학이라는 학문을 공부하기 이전에 통계, 통계학에서 사용되는 용어부터 정리하고 넘어가기로 하자. 낯선 나라에 가서 처음 배워야 하는 것이 그 나라 말을 구성하는 단어 이듯이 통계학이라는 낯선 나라의 단어인 용어들부터 확인하고, 익히고 해야 할 것이다. 본격적인 '통계학'으로 들어가기 전에 우선 '통계'라는 것에 대해서 살펴보기로 하자. 통계란 무엇인가? 사전적인 의미는 다음과 같다. 통계(統計) 1.수집된 자료를 정리하고 그 내용을 특징짓는 수치를 산정하여 일정한 체계에 따라 숫자로 나타냄 2.한데 몰아서 계산함 1. statistical 2. statistic 3. data 4. number 5. figure 그렇다면, 통계학이란 이 통계를 학문적으로 정리한 것, 통계를 다루는 학문이라 할 수있을 텐..

<記> R 위치 측도와 산포 측도

R을 공부하는 이유는 당연히 통계분석을 잘하기 위해서이다. 따라서, R을 공부한다는 것은 통계학에 대한 기본 지식이 있거나, 아니면 통계학에 대한 기본적인 내용을 같이 공부한다는 말일 것이다. 통계학에 대한 공부를 병행하면서 통계 실습에 대한 부분을 R로 진행하여 기록에 더할까 한다. 2019/12/22 - [공부하記/통계학] - 통계학 기초 - 자료의 생성, 모집단과 표본, 위치 측도와 산포 측도 어느 과목에 대한 100명의 시험성적을 예제 데이터로 사용한다. # Plot > plot(exam) summary( ) 함수를 통해 데이터의 기본 정보를 확인할 수 있다. Minimum(최소값), 1st Quartile(1사분위값), Median(2nd Quartile)(중간값), 3rd Quartile(3사..

해보記/R 2019.12.23

통계학 기초 - 자료의 생성, 모집단과 표본, 위치 측도와 산포 측도

통계학(Statistic)이란? 1) 문제에 대한 합리적인 답을 줄 수 있도록 숫자로 표시되는 정보를 수집하고 정리 2) 이를 해석하고 신뢰성 있는 결론을 이끌어 내는 방법을 연구하는 학문 모집단에서 제기된 문제에 대한 합리적인 답을 줄 수 있도록, 모집단의 성격을 잘 대변하는 표본에 속한 각각의 추출 단위로부터 특성값을 측정, 숫자로 변환한 후 이를 정리, 해석하여 모집단에 대한 신뢰성 있는 결론을 이끌어내는 방법을 연구하는 학문 추출단위 (Sampling unit) : 전체(모집단)를 구성하는 각 개체 특성값 (Characteristic) : 각 추출 단위의 특성을 나타내는 값. 예) 키, 나이, 수확량 등 모집단 (Population) : 통계적 분석의 대상이 된느 조사 대상 전부. 예) 대한민국 ..

[빅데이터] 5. 빅데이터 처리와 저장의 핵심 기술, 하둡과 NoSQL (3)

챕터의 제목 처럼 빅데이터의 처리와 저장에 있어서의 핵심 기술인 하둡, 그리고 NoSQL에 대해서 알아가고 있는 중이다. 이 책에서는 하나의 챕처를 통해 개념정리 수준에서 설명을 하고 있다. 하지만 이 와 관련된 기술들은 하루가 다르게 발전하고 있고, 각각의 기술들은 어느정도 활용이 가능한 수준으로 파악하려면 시간을 들여 별도로 공부를 해야할 듯 하다. 역시 전문가의 길은 멀고도 지난한 것 같다. 3. NoSQL이란 무엇인가? 현재 가장 많이 사용되고 있는 데이터베이스는 RDB라는 것은 어느 누구도 이견이 없을 듯 하다. 하지만 SNS의 폭발적 성장, 4차 산업혁명이라 일컬어지는 ICT 융합, IoT 등 데이터 양 자체의 어마어마한 증가 뿐만아니라 데이터의 형식 또한 반정형 또는 비정형 데이터가 빠른 속..

[빅데이터] 5. 빅데이터 처리와 저장의 핵심 기술, 하둡과 NoSQL (2)

내용 파악에 점점 시간이 오래 걸리고 있다. 하지만, 꾸준히 조금씩이라도... 2. 하둡의 구성 요소와 적용 방안 하둡 에코 시스템은 하둡의 기본적인 HDFS와 MapReduce에 프로젝트를 추가하여 하둡 기반의 폭넓은 플랫폼을 제공한다. 이는 하둡의 HDFS와 MapReduce로 하기 어려운 작업을 더 쉽게 할 수 있게 한다. 하둡 에코 시스템 하둡 관련 필요 기술들로 관련 프로젝트들을 구성하고 이들을 모아 하나의 생태계를 구성한것을 말한다. 하나의 하둡 에코 시스템이 모든 비즈니스의 빅데이터 처리에 알맞은 것은 아니므로, 해당 분야별로 필요한 기술 요소를 선택하여 거기에 맞는 하둡 아키텍처를 구성해야 한다. Hcatalog 하둡은 HDFS에 대용량 파일을 저장할 수 있지만, 저장 파일은 비구조적 데이..

<記> R 데이터 반복문 - for, while, repeat, apply, aggregate

R에서의 반복문은 for, while 이외에도 repeat, apply, aggregate 등이 있다. 이 중 apply, aggregate 등은, 사용하기는 쉽지만 수행속도가 느린 for 를 보완하기 위한 반복문이다. for # for(변수 in 반복횟수) 실행문 : 실행문을 반복 횟수만큼 실행 # 변수 i가 1에서 5까지의 값을 갖을 때까지 print(rep(i, i))라는 실행문을 실행한다. # i = 1 이면 print(rep(1, 1))을 실행하고, i = 2 이면 print(rep(2, 2))를 실행한다. i = 5 까지 반복 수행한다. > for(i in 1:5) + print(rep(i, i)) # 1부터 10까지 합 구하기 > sum.x for(i in 1:10) + sum.x sum.x..

해보記/R 2019.12.18

<記> R 데이터 조건문 - if/ifelse, switch

R은 통계분석을 위한 프로그램을 작성하는 언어이다. C, Java 등과 같다. 무엇을 목적을 하느냐가 다를 뿐이라고 할까? R도 다른 프로그램 언어와 같기 때문에, 당연히 프로세스가 진행되는 동안에 제어문이나 조건문 등이 있다. 대표적인 데이터 조건문인 if/ifelse, switch 에 대해 살펴보자 if/ifelse 특정한 조건을 만족했을 경우에만 프로그램 코드를 수행하는 제어 구문으로 항상 논리 연산이 수반 된다. 논리에 따른 결과값에 따라 어떤 코드를 수행할지 결정한다. # if (조건) 실행문 > x y if(sum(x) < sum(y)) + print(x) # if(조건) 조건이 참일 때 실행문 else 조건이 참이 아닐 때 실행문 # 괄호안의 조건이 참이면 참일때의 실행문을 수행하고, 거짓일..

해보記/R 2019.12.18

<記> R 함수 - 기타

기타 많이 쓰이는 함수 scale( ) : 중심화 > x scale(x, scale = FALSE) subset( ) : 원소의 일부 선택 > subset(airquality, Temp > 94, select = c(Ozone, Temp)) sample( ) : 샘플링 > sample(c(1:10), 5) match( ) : 일치하는 원소 추출 > intersect intersect(1:10, 7:20) which( ) : 조건을 만족하는 원소의 인덱스 > which(LETTERS == "R") choose( ) : 조합의 수 > choose(5, 2) > for (n in 0:10) print(choose(n, k = 0:n)) any( ) : 원소 중 임의의 한 원소 (하나라도 있으면 TRUE, 없으..

해보記/R 2019.12.17

<記> R 함수 - 문자형

문자형 데이터를 다루는데 주로 사용되는 함수 toupper( ) : 대문자로 전환 > x x x x nchar(x) strsplit( ) : 문자형 데이터를 정해진 구분자로 분리 > x split_x x strtrim(x, 2) > strtrim(x, 4) substr( ) : 문자의 일부분을 선택 혹은 변경 > substr("abdcegf", 1, 3) paste( ) : 문자의 결합 > paste(x, collapse = " ") grep( ) : 문자형 데이터 중 정의된 문자를 포함하는 인덱스 > x grep("e", x) regexpr( ) : 문자형 데이터 중 정의된 문자의 위치를 출력(첫 번째) > regexpr("e", x) grepexpr( ) : 문자형 데이터 중 정의된 문자의 위치를 출..

해보記/R 2019.12.17