전체 글 84

[옳다] 2장. 대용량의 미가공 데이터를 호스팅하고 공유하기

다량의 파일을 공유할 때 직면하는 문제 데이터 저장 방법 선택하기 - 파일을 확장 가능하고 경제적인 방식으로 공유할 수 있으면서 물리적으로 저장하는 방식 선택 : IAAS (Infrastructure as a service, 서비스로서의 인프라) - 분산 스토리지 솔루션 적합한 데이터 포맷 선택하기 - 사용자에게 제공하는 데이터의 포맷 결정 : CSV - 다양한 호환성 확보 또는 플랫 데이터로 표현하기 쉬운 경우 : XML(eXtensibe Markup Language) - 다양한 포맷으로 변환해야 하는 구조화된 문서 : JSON(JavaScript Object Notation) - 애플리케이션 개발자와 비관계형 데이터베이스 관리자에 유용 #CSV 예제 first_name,last_name,book,da..

[옳다] 1장. 데이터를 성공적으로 다루는 네 가지 법칙

"비즈니스의 모든 기술 분야에서 통용되는 첫 번째 규칙은 효율적인 작업에 자동화를 적용하면 효율성이 배가된다는 것이다. 두 번째 규칙은 비효율적인 작업에 자동화를 적용하면 비효율성이 배가된다는 것이다." - 빌 게이츠(Bill Gates) 무한대로 확장 가능한 솔루션을 구축하라. 현재 솔루션의 한계를 인지하고, 언제 확장 한계에 도달하는지 이해하고 병목을 해결할 계획을 세우는 것이 중요하다. 인터넷을 통해 데이터를 공유할 수 있는 시스템을 구축하라. 시스템은 반드시 대상 고객에게 데이터를 공유할 수 있게 설계해야 한다. 보유한 데이터로 이윤을 창출하는 조직의 구성원은 해당 데이터에 대해 질문할 수 있어야 한다. 과거에는 많은 조직에서 모든 데이터를 단 하나의 관리 가능한 공간에 넣으려고 데이터 웨어하우스..

[옳다] 0. 목차

1부 빅데이터 시대의 방향 1장. 데이터를 성공적으로 다루는 네 가지 법칙 2부 대용량 데이터의 수집 및 공유 2장. 대용량의 미가공 데이터를 호스팅하고 공유하기 3장. 대중이 생성한 데이터를 수집하기 위한 NoSQL 기반의 웹 애플리케이션 구축하기 4장. 데이터 사일로를 다루는 전략 3부 데이터에 관해 질문하기 5장. 하둡, 하이브, 샤크를 이용해 대용량 데이터 집합에 대해 질문하기 6장. 구글 빅쿼리를 이용한 데이터 대시보드 구축하기 7장. 대용량 데이터 탐색을 위한 데이터 시각화 전략 4부 데이터 파이프라인 구축하기 8장. 하나로 합치기 : 맵리듀스 데이터 파이프라인 9장. 피그와 캐스케이딩을 이용한 데이터 변환 워크플로우 구축하기 5부 대용량 데이터를 위한 기계 학습 10장. 머하웃을 이용한 대용..

어려운 이야기

난 남들에게 싫다는 소리를 별로 못한다. 그 때문에 피해를 가끔 보기도 하지만, 다른 사람에게 싫다는 소리를 하는 것은 내게는 참 어려운 일이다. 특히나 금전에 관계된 경우는 더욱 그렇다. 돈을 빌려달라는 얘기를 거절하는 것도, 빌려준 돈을 받으려 할 때도.. 고쳐야지, 하지만.. 여전히 내게는 어려운 이야기 이고, 떄론 후회하게 만든다.. 그런, 저런 이야기들 쉽게하는 방법은 없나요??

삶 언저리 2020.02.14

가방 들어주기

'가방 좀 들어드릴까요?' '아 괜찮습니다.' '그래도, 들어 드릴께요..' '그럼.. 감사합니다...' 얼마전 귀가길의 버스에서 보았던 정경이다.. 예전에는 내가 중학교, 고등학교를 다니던 시절엔 늘상 있었던 일이고, 대단히 자연스러운 일이었는데.. 오랜만에 보게된 모습이어서 인지, 조금은 낯설게 느껴진다. 하긴, 요즘은 학생들의 가방 패션이 많이 바뀌어서 - 예전에는 지금처럼 배낭을 매고 다니는건 극히 드문일이 었으니깐... - 들어 주겠다는 사람도, 가방을 맏기려는 사람도 선뜻 내키지 않는 일이 되었을 수도 있겠다. 하지만, 단순히 가방의 패션이 바뀌어서만은 아닐것이다. 내 자신도 왠지 어색하고, 낯설게 느껴지는 풍경이 지금의 사회상을 반영하고 있..

삶 언저리 2020.02.13

<記> R 상관계수와 공분산

앞서 살펴본 상관분석의 통계학적 기초에 이어, 상관계수와 공분산에 대한 R 에서의 실행을 살펴보려 한다. 2019/12/31 - [공부하記/통계학] - 통계학 기초 - 상관분석 예제로 사용하는 데이터는 보스톤시의 한 공원에서 10일동안 공원에서 해당 일에 근무중인 방범대원의 수(x)와 보고된 좀도둑의 건수(y)이다. 두 데이터간의 상관계수와 공분산을 살펴보자. # 데이터 > x y plot(x, y) # 표본상관계수 > cor(x, y) # 표본공분산 > cov(x, y) # 표본공분산 = 표본상관계수 * x의 표준편차 * y의 표준편차 > cor(x, y) * sd(x) * sd(y) 표본상관계수가 -0.9690786로 음의 상관관계가 강하게 나타남을 알 수 있다.

해보記/R 2020.01.01

통계학 기초 - 상관분석

상관 분석(Correlation Analysis) 상관 분석은 연속적인 변수로 측정된 두 변수 간의 선형 관계를 분석하는 것으로, 상관 관계는 서열 척도, 등간 척도, 비율 척도로 측정된 변수들간의 관련성 정도를 알아보기 위한 것이다. 하나의 변수가 다른 변수와의 어느 정도 밀접한 관련성을 가지고 변화하는 가를 알아보기 위해 사용하는 것으로, 두 변수 간의 관련성을 구할 경우 단순상관관계를 실시하고, 부분 또는 편 상관관계는 어떤 변수를 통제한 상태에서 두 변수의 상관관계를, 중다 상관관계는 두 개 이상의 독립변수에 가중치를 부여하여 상관관계를 구하는 것이다. 척도와 변인 척도 특성 변인의 분류 변인의 특성 보기 비율척도 · 서열성, 동간성의 정보를 제공해줄 뿐 아니라, 절대영점(0)을 갖고 있는 척도로..

<記> R 스타일 가이드

R 역시 프로그래밍 언어이기 때문에 다른 프로그램 개발 언어들 처럼, 스크립트를 작성함에 있어 표준화할 필요가 있다. 오브젝트 명, 함수 명 등에 대하여 공통된 규칙을 사용하여 표준화함으로써 계산 혹은 함수사용에 있어 발생하는 논리적, 사용자 실수를 제거할 수 있으며, R의 특장점을 살려 성능 최적화를 달성할 수 있다. R 스타일 가이드 요약 구분 내용 예 Naming File명을 정할 떄, 프로그램의 내용을 충분히 설명할 수 있는 것으로 정하고 확장자명을 '.R'로 한다. predict_ad_revenue.R 변수명을 정할 때, 모두 소문자로 사용하고, 구분자는 '_'로 한다. avg_clicks, date_click, click_id Function명을 정할 때, 기능 및 대상을 유추 할 수 있도록 ..

해보記/R 2019.12.30

통계 용어 정리(3) - 비·비율·율, 퍼센트(%)·퍼센트포인트(%p), 변동률, 기여율·기여도

비(ratio) · 비율(proportion) · 율(rate)은 일반적으로 구별하여 사용하지 않고 있다. 하지만 엄밀히 개념적으로 구별되므로 이에 관한 정확한 의미를 알아둘 필요가 있다. 특히 인구와 관련된 통계에서 이 세 개념이 사용된 때는 각별한 주의가 필요하다. 비(ratio)는 두 개 숫자의 상대적 크기를 비교한 것으로 분자와 분모가 서로 독립적인 관계로 서로 다른 범주일 때 사용된다. A에 대한 B의 비는 B÷A 로 계산된다. 성비, 인구밀도(인구/면적) 등이 비에 해당한다. 비율(proportion)은 비의 특수한 형태로 분모에 분자가 포함된다. 전체 미혼자 중 남자 미혼자의 비율{남자 미혼자 / (남자 미혼자 + 여자 미혼자)}이 그 예이다. 율(rate)이란 특정기간 동안에 발생된 사건을..