읽記 (데이터 과학, IT 분야)/Head First Data Analysis 16

[HFDA] 마치며...

'에드워드 터프티'와 그의 시각화 원칙 비교, 대조, 차이를 보여준다. 인과 관계, 구조, 설명, 체계적인 구조를 나타낸다. 다변량 데이터를 나타낸다. 즉, 여러 변수를 보여준다. 단어, 숫자, 이미지, 그래프를 완벽하게 통합한다. 증거에 대해 철저하게 설명한다. 결국, 해석에 대한 프레젠테이션의 성공 여부는 내용의 질, 유효성, 완전성에 달려있다. 오래된 책이기도 하고(초판 발행 2013년), 입문서 중에서도 정말 초급 입문서라고 봐야겠네요. 기초적이긴 하지만, 실제로 있을법한 몇 가지 예를 들어가며 맛보기로 '데이터 분석이란 이런 것이다', '데이터 분석가가 하는 일은 이런 것이야' 정도의 개념 정립을 위해 읽기에 무난한 책인듯합니다. 여하튼, 첫 번째 도서 'Head First Data Analys..

[HFDA] 13. 데이터 정리 / 순서를 부여하다

데이터 정리 원본 데이터의 복사본을 저장합니다. 최종적으로 필요한 데이터 집합의 모양을 미리 시각화합니다. 정돈되지 않은 데이터에서 반복적인 패턴을 찾습니다. 정리와 재구성을 수행합니다. 완성된 데이터를 사용합니다. 이번장도 별다른 게 없네요. 그냥... 입문서답다고나 할까?? [HFDA] 0. 목차

[HFDA] 12. 관계형 데이터베이스 / 관련지어보자

관계형 데이터베이스란? 데이터의 관계 모형에 기반하는 데이터베이스를 말한다. 관계형 데이터베이스 안에 있는 모든 데이터는 키(key)와 값(value)들의 간단한 관계를 테이블화 시킨 구조를 갖는다. 이번 장은 별도 코멘트를 하거나 정리할 만한 사항이 없네요.. 그냥 우리가 흔히 알고 있는 RDB(Relational Database)에 대한 특징 소개(?) 정도가 전부인 듯합니다. 쉽게 한 번 읽어 보시면 충분할 것 같습니다. [HFDA] 0. 목차

[HFDA] 11. 오류 / 오류를 잘 처리하다

"회귀식은 평균적인 결과를 예측한다. 현실의 결과는 당연히 평균과 완전히 동일하지 않다." 보간법(= 내삽), 보외법(= 외삽) ▶ 보간법(= 내삽) : 데이터 범위 내에서 값을 예측하는 것. 독립 변수의 중간값에 대한 해당 함수의 값을 예측하는 것 ▶ 보외법(= 외삽) : 데이터 범위 밖의 값을 예측하는 것. .........................................원래의 관찰 범위를 넘어서서 다른 변수와의 관계에 기초하여 변수의 값을 추정하는 것 회귀식을 통한 데이터 분석은 바로 이 보간 값을 예측하기 위함이다. 보외 값을 예측할 수도 있지만, 더 큰 불확실성과 무의미한 결과를 생성할 가능성이 매우 높아진다. 확률 오차(chance error : root mean square 오차, ..

[HFDA] 10. 회귀 / 예측

ㅇ 알고리즘 다양한 요구 수준에 대해 어떤 결과가 나오는지를 나타내는 일종의 결정 과정 어떠한 문제를 해결하기 위해 정해진 일련의 절차나 방법을 공식화한 형태로 표현한 것 ㅇ 회귀 분석(Regression analysis) 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 방법이다. 시간에 따라 변화하는 데이터나 어떤 영향, 가설적 실험, 인과 관계의 모델링 등의 통계적 예측에 이용될 수 있다. 그러나 많은 경우 가정이 맞는지 아닌지 적절하게 밝혀지지 않은 채로 이용되어 그 결과가 오용되는 경우도 있다. 특히 통계 소프트웨어의 발달로 분석이 용이해져서 결과를 쉽게 얻을 수 있지만 적절한 분석 방법의 선택이었는지 또한 정확한 정보 분석인지 판단하는 것은 연구자에 달려 ..

[HFDA] 9. 히스토그램 / 숫자의 모양

ㅇ 히스토그램 (Histogram) 값의 각 범위에 포함된 데이터 요소의 분포를 나타내기 위한 시각화 방법 표로 되어 있는 도수 분포를 그래프로 나타낸 것 R을 처음으로 사용하는 장이네요... R 스크립트 실행 - 설치부터 실행까지 > hist(employees$인상률, breaks=50) #인상률에 대한 히스토그램 그리기 > sd(employees$인상률) #인상률에 대한 표준편차 구하기 > summary(employees$인상률) #인상률에 대한 요약 통계 구하기 #(최소값, 1분위값, 중간값, 평균값, 3분위값, 최대값) > hist(employees$인상률[employees$년도 == 2007], breaks=50) #2007년도 인상률로만 히스토그램 그리기 히스토그램은 데이터의 분포가 어떻게 되..

[HFDA] 8. 휴리스틱 분석 / 인간처럼 분석한다

ㅇ 휴리스틱 (Heuristics) 1. (심리학에서) 어렵거나 이해하기 어려운 속성을 보다 친밀한 속성으로 대신하는 것 2. (컴퓨터 과학에서) 정확한 답을 낼 가능성은 높지만 최적성이 보장되지 않는 문제 해결 방식 인간의 모든 논리적 사고는 휴리스틱이며, 최적화는 매우 특정한 문제에만 사용할 수 있는 이상적인 것 - 심리학자 모씨. -- p.277 심리학에서 인간의 추론, 의사결정, 문제 해결 등의 특징을 기술하기 위해 사용되는 개념. 알고리즘(문제를 해결하기 위한 절차나 방법)과 대비되며, 굳이 이분법적으로 접근하면 인간의 '직관'을 반영하는 사고방식으로, 시간이나 자료의 부족, 인지적 자원의 제약, 문제 특성 등의 이유로 답을 도출하기 위한 정확한 절차를 사용하지 않고 경험과 직관에 의존해 '대충..

[HFDA] 7. 주관적 확률 / 숫자에 대한 믿음

주관적 확률은 분석가의 믿음을 나타낸다. 그러므로, 자신의 믿음의 크기를 상대방에게 주지 시키기 위해서는 '높다', '낮다', '많다', '적다' 같은 단어를 이용한 표현보다는 명확하게 '85점', '40점', '70% 이상', '30% 이하'와 같이 숫자를 이용하여 표현하는 것이 좋다. 주관적 확률은 누구나 이해할 수 있지만 충분히 사용되지 않고 있습니다. 우수한 데이터 분석가는 뛰어난 전달자입니다. 주관적 확률은 여러분의 생각과 믿음을 다른 사람에게 정확하게 전달하는 계목적인 방법입니다." -- p.247 음... 베이즈 정리를 다시 리마인드~ 베이즈 정리와 주관적 확률을 사용하면 가설이 참일 경우 증거가 실현될 확률을 구할 수 있다. ㅇ 분산(variance) 어떤 확률 변수가 기댓값(어떤 확률적 ..

[HFDA] 6. 베이지안 통계 / 첫 걸음을 내딛다

ㅇ 조건부 확률 (Conditional Probability) 어떤 사건 B가 일어났을 때 사건 A가 일어날 확률을 의미한다. 사건 B가 발생했을 때 사건 A가 발생하는 도수(혹은 수량)는 사건 B의 영향을 받아 변하는데 이를 조건부 확률이라 한다. -- by. Wikipedia P(A|B) : B가 일어났을 때 A가 일어날 확률 P(A|~B) : B가 일어나지 않았을 때, A가 일어날 확률 P(A|B) : B가 일어났을 때, A가 일어날 확률 P(~A|B) : B가 일어났을 때, A가 일어나지 않을 확률 P(~A|~B) : B가 일어나지 않았을 때, A가 일어나지 않을 확률 ㅇ 사전 확률 (Prior probability) 특정 사상이 일어나기 전의 확률. 현재의 정보를 기초로 하여 정한 기준 비율 ㅇ..

[HFDA] 5. 가설검정 / 그렇지 않다고 말해줘

변수는 음(-)의 상관관계도 있고 양(+)의 상관관계도 있다. 음(-)의 상관관계 : 어느 한쪽이 증가하면 다른 한쪽이 줄어드는 상관관계 양(+)의 상관관계 : 어느 한쪽이 증가하면 다른 한쪽도 증가하는 상관관계 각 변수 간의 양/음의 상관관계를 하나의 모델로 통합하여 모든 상관관계를 나타낼 수 있는 다이어그램을 그린다. 반증은 가설 검증의 기본 반증 : 여러 가설 중 확인되지 않은 가설들을 제거하여 마지막 남는 가설을 선택하는 것 만족화 : 여러 가설 중 가장 적당하다 생각되는 가설을 선택하는 것. 이때 다른 가설들을 배제하지 않는다 가설 검증을 할 때는 만족화의 위험을 피하기 위해 반증을 이용하는 게 좋다. 만족화의 가장 큰 문제점은 다른 대안을 충분히 분석하지 않고 가설을 선택함으로써 그에 반하는 ..