데이터 세상에서 살아남記

전체 글 87

상관 분석(Correlation Analysis) 상관 분석은 연속적인 변수로 측정된 두 변수 간의 선형 관계를 분석하는 것으로, 상관 관계는 서열 척도, 등간 척도, 비율 척도로 측정된 변수들간의 관련성 정도를 알아보기 위한 것이다. 하나의 변수가 다른 변수와의 어느 정도 밀접한 관련성을 가지고 변화하는 가를 알아보기 위해 사용하는 것으로, 두 변수 간의 관련성을 구할 경우 단순상관관계를 실시하고, 부분 또는 편 상관관계는 어떤 변수를 통제한 상태에서 두 변수의 상관관계를, 중다 상관관계는 두 개 이상의 독립변수에 가중치를 부여하여 상관관계를 구하는 것이다. 척도와 변인 척도 특성 변인의 분류 변인의 특성 보기 비율척도 · 서열성, 동간성의 정보를 제공해줄 뿐 아니라, 절대영점(0)을 갖고 있는 척도로..

공부하記/통계학 2019.12.31

<記> R 스타일 가이드

R 역시 프로그래밍 언어이기 때문에 다른 프로그램 개발 언어들 처럼, 스크립트를 작성함에 있어 표준화할 필요가 있다. 오브젝트 명, 함수 명 등에 대하여 공통된 규칙을 사용하여 표준화함으로써 계산 혹은 함수사용에 있어 발생하는 논리적, 사용자 실수를 제거할 수 있으며, R의 특장점을 살려 성능 최적화를 달성할 수 있다. R 스타일 가이드 요약 구분 내용 예 Naming File명을 정할 떄, 프로그램의 내용을 충분히 설명할 수 있는 것으로 정하고 확장자명을 '.R'로 한다. predict_ad_revenue.R 변수명을 정할 때, 모두 소문자로 사용하고, 구분자는 '_'로 한다. avg_clicks, date_click, click_id Function명을 정할 때, 기능 및 대상을 유추 할 수 있도록 ..

해보記/R 2019.12.30

통계 용어 정리(3) - 비·비율·율, 퍼센트(%)·퍼센트포인트(%p), 변동률, 기여율·기여도

비(ratio) · 비율(proportion) · 율(rate)은 일반적으로 구별하여 사용하지 않고 있다. 하지만 엄밀히 개념적으로 구별되므로 이에 관한 정확한 의미를 알아둘 필요가 있다. 특히 인구와 관련된 통계에서 이 세 개념이 사용된 때는 각별한 주의가 필요하다. 비(ratio)는 두 개 숫자의 상대적 크기를 비교한 것으로 분자와 분모가 서로 독립적인 관계로 서로 다른 범주일 때 사용된다. A에 대한 B의 비는 B÷A 로 계산된다. 성비, 인구밀도(인구/면적) 등이 비에 해당한다. 비율(proportion)은 비의 특수한 형태로 분모에 분자가 포함된다. 전체 미혼자 중 남자 미혼자의 비율{남자 미혼자 / (남자 미혼자 + 여자 미혼자)}이 그 예이다. 율(rate)이란 특정기간 동안에 발생된 사건을..

공부하記/통계학 2019.12.30

통계 용어 정리(2) - 산포도

산포도 산포도란 대푯값을 중심으로 자료들이 흩어져 있는 정도를 의미한다. 이는 하나의 수치로서 표현되며 수치가 작을수록 자료들이 대푯값에 밀집되어 있고, 클수록 자료들이 대푯값을 중심으로 멀리 흩어져 있다. 산포도는 자료의 분포에 대한 정보를 제공해 주는데 자료의 평균이 같다고 하더라도 산포도에 따라 자료의 내용이나 성질이 달라질 수 있다. 따라서 여러 자료들의 특성을 서로 비교하기 위해서는 평균뿐만 아니라 자료들이 평균으로부터 어떻게 흩어져 분포하고 있는가를 알 필요가 있다. 평균과 특정 자료값의 차이를 편차(deviation)라고 한다. 각각의 자료 값들은 평균값의 양 쪽에 위치하는데 편차는 각각의 자료값에서 평균값을 빼주는 것으로 계산하므로, 양수 혹은 음수 값을 갖게 된다. 특히 편차가 0인 자료..

공부하記/통계학 2019.12.30

통계 용어 정리(1) - 대표값

통계학이라는 학문을 공부하기 이전에 통계, 통계학에서 사용되는 용어부터 정리하고 넘어가기로 하자. 낯선 나라에 가서 처음 배워야 하는 것이 그 나라 말을 구성하는 단어 이듯이 통계학이라는 낯선 나라의 단어인 용어들부터 확인하고, 익히고 해야 할 것이다. 본격적인 '통계학'으로 들어가기 전에 우선 '통계'라는 것에 대해서 살펴보기로 하자. 통계란 무엇인가? 사전적인 의미는 다음과 같다. 통계(統計) 1.수집된 자료를 정리하고 그 내용을 특징짓는 수치를 산정하여 일정한 체계에 따라 숫자로 나타냄 2.한데 몰아서 계산함 1. statistical 2. statistic 3. data 4. number 5. figure 그렇다면, 통계학이란 이 통계를 학문적으로 정리한 것, 통계를 다루는 학문이라 할 수있을 텐..

공부하記/통계학 2019.12.28

<記> R 위치 측도와 산포 측도

R을 공부하는 이유는 당연히 통계분석을 잘하기 위해서이다. 따라서, R을 공부한다는 것은 통계학에 대한 기본 지식이 있거나, 아니면 통계학에 대한 기본적인 내용을 같이 공부한다는 말일 것이다. 통계학에 대한 공부를 병행하면서 통계 실습에 대한 부분을 R로 진행하여 기록에 더할까 한다. 2019/12/22 - [공부하記/통계학] - 통계학 기초 - 자료의 생성, 모집단과 표본, 위치 측도와 산포 측도 어느 과목에 대한 100명의 시험성적을 예제 데이터로 사용한다. # Plot > plot(exam) summary( ) 함수를 통해 데이터의 기본 정보를 확인할 수 있다. Minimum(최소값), 1st Quartile(1사분위값), Median(2nd Quartile)(중간값), 3rd Quartile(3사..

해보記/R 2019.12.23

통계학 기초 - 자료의 생성, 모집단과 표본, 위치 측도와 산포 측도

통계학(Statistic)이란? 1) 문제에 대한 합리적인 답을 줄 수 있도록 숫자로 표시되는 정보를 수집하고 정리 2) 이를 해석하고 신뢰성 있는 결론을 이끌어 내는 방법을 연구하는 학문 모집단에서 제기된 문제에 대한 합리적인 답을 줄 수 있도록, 모집단의 성격을 잘 대변하는 표본에 속한 각각의 추출 단위로부터 특성값을 측정, 숫자로 변환한 후 이를 정리, 해석하여 모집단에 대한 신뢰성 있는 결론을 이끌어내는 방법을 연구하는 학문 추출단위 (Sampling unit) : 전체(모집단)를 구성하는 각 개체 특성값 (Characteristic) : 각 추출 단위의 특성을 나타내는 값. 예) 키, 나이, 수확량 등 모집단 (Population) : 통계적 분석의 대상이 된느 조사 대상 전부. 예) 대한민국 ..

공부하記/통계학 2019.12.22

[빅데이터] 5. 빅데이터 처리와 저장의 핵심 기술, 하둡과 NoSQL (3)

챕터의 제목 처럼 빅데이터의 처리와 저장에 있어서의 핵심 기술인 하둡, 그리고 NoSQL에 대해서 알아가고 있는 중이다. 이 책에서는 하나의 챕처를 통해 개념정리 수준에서 설명을 하고 있다. 하지만 이 와 관련된 기술들은 하루가 다르게 발전하고 있고, 각각의 기술들은 어느정도 활용이 가능한 수준으로 파악하려면 시간을 들여 별도로 공부를 해야할 듯 하다. 역시 전문가의 길은 멀고도 지난한 것 같다. 3. NoSQL이란 무엇인가? 현재 가장 많이 사용되고 있는 데이터베이스는 RDB라는 것은 어느 누구도 이견이 없을 듯 하다. 하지만 SNS의 폭발적 성장, 4차 산업혁명이라 일컬어지는 ICT 융합, IoT 등 데이터 양 자체의 어마어마한 증가 뿐만아니라 데이터의 형식 또한 반정형 또는 비정형 데이터가 빠른 속..

읽記 (데이터 과학, IT 분야)/빅데이터 시스템 구축 가이드 2019.12.20

[빅데이터] 5. 빅데이터 처리와 저장의 핵심 기술, 하둡과 NoSQL (2)

내용 파악에 점점 시간이 오래 걸리고 있다. 하지만, 꾸준히 조금씩이라도... 2. 하둡의 구성 요소와 적용 방안 하둡 에코 시스템은 하둡의 기본적인 HDFS와 MapReduce에 프로젝트를 추가하여 하둡 기반의 폭넓은 플랫폼을 제공한다. 이는 하둡의 HDFS와 MapReduce로 하기 어려운 작업을 더 쉽게 할 수 있게 한다. 하둡 에코 시스템 하둡 관련 필요 기술들로 관련 프로젝트들을 구성하고 이들을 모아 하나의 생태계를 구성한것을 말한다. 하나의 하둡 에코 시스템이 모든 비즈니스의 빅데이터 처리에 알맞은 것은 아니므로, 해당 분야별로 필요한 기술 요소를 선택하여 거기에 맞는 하둡 아키텍처를 구성해야 한다. Hcatalog 하둡은 HDFS에 대용량 파일을 저장할 수 있지만, 저장 파일은 비구조적 데이..

읽記 (데이터 과학, IT 분야)/빅데이터 시스템 구축 가이드 2019.12.19

<記> R 데이터 반복문 - for, while, repeat, apply, aggregate

R에서의 반복문은 for, while 이외에도 repeat, apply, aggregate 등이 있다. 이 중 apply, aggregate 등은, 사용하기는 쉽지만 수행속도가 느린 for 를 보완하기 위한 반복문이다. for # for(변수 in 반복횟수) 실행문 : 실행문을 반복 횟수만큼 실행 # 변수 i가 1에서 5까지의 값을 갖을 때까지 print(rep(i, i))라는 실행문을 실행한다. # i = 1 이면 print(rep(1, 1))을 실행하고, i = 2 이면 print(rep(2, 2))를 실행한다. i = 5 까지 반복 수행한다. > for(i in 1:5) + print(rep(i, i)) # 1부터 10까지 합 구하기 > sum.x for(i in 1:10) + sum.x sum.x..

해보記/R 2019.12.18

1 2 3 4 5 6 ··· 9

데이터 세상에서 살아남記

빅데이터 분석, 시스템 구축과 관련해서 공부하고 배운 것을 소소하게 나누어 보려 합니다.

목차, 빅데이터 분석 기술, 책거리, 단상, 옳다, 빅데이터 시스템 구축 가이드, 산포 측도, 데이터는, 위치 측도, RStudio, 斷想, 통계 용어, 함수, 데이터 분석, r, 데이터는 언제나 옳다, 데이터 핸들링, 빅데이터 시스템, Head First Data Analysis, 빅데이터,

« 2025/03 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

전체 글 87

티스토리툴바