읽記 (데이터 과학, IT 분야) 34

[HFDA] 10. 회귀 / 예측

ㅇ 알고리즘 다양한 요구 수준에 대해 어떤 결과가 나오는지를 나타내는 일종의 결정 과정 어떠한 문제를 해결하기 위해 정해진 일련의 절차나 방법을 공식화한 형태로 표현한 것 ㅇ 회귀 분석(Regression analysis) 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 방법이다. 시간에 따라 변화하는 데이터나 어떤 영향, 가설적 실험, 인과 관계의 모델링 등의 통계적 예측에 이용될 수 있다. 그러나 많은 경우 가정이 맞는지 아닌지 적절하게 밝혀지지 않은 채로 이용되어 그 결과가 오용되는 경우도 있다. 특히 통계 소프트웨어의 발달로 분석이 용이해져서 결과를 쉽게 얻을 수 있지만 적절한 분석 방법의 선택이었는지 또한 정확한 정보 분석인지 판단하는 것은 연구자에 달려 ..

[HFDA] 9. 히스토그램 / 숫자의 모양

ㅇ 히스토그램 (Histogram) 값의 각 범위에 포함된 데이터 요소의 분포를 나타내기 위한 시각화 방법 표로 되어 있는 도수 분포를 그래프로 나타낸 것 R을 처음으로 사용하는 장이네요... R 스크립트 실행 - 설치부터 실행까지 > hist(employees$인상률, breaks=50) #인상률에 대한 히스토그램 그리기 > sd(employees$인상률) #인상률에 대한 표준편차 구하기 > summary(employees$인상률) #인상률에 대한 요약 통계 구하기 #(최소값, 1분위값, 중간값, 평균값, 3분위값, 최대값) > hist(employees$인상률[employees$년도 == 2007], breaks=50) #2007년도 인상률로만 히스토그램 그리기 히스토그램은 데이터의 분포가 어떻게 되..

[HFDA] 8. 휴리스틱 분석 / 인간처럼 분석한다

ㅇ 휴리스틱 (Heuristics) 1. (심리학에서) 어렵거나 이해하기 어려운 속성을 보다 친밀한 속성으로 대신하는 것 2. (컴퓨터 과학에서) 정확한 답을 낼 가능성은 높지만 최적성이 보장되지 않는 문제 해결 방식 인간의 모든 논리적 사고는 휴리스틱이며, 최적화는 매우 특정한 문제에만 사용할 수 있는 이상적인 것 - 심리학자 모씨. -- p.277 심리학에서 인간의 추론, 의사결정, 문제 해결 등의 특징을 기술하기 위해 사용되는 개념. 알고리즘(문제를 해결하기 위한 절차나 방법)과 대비되며, 굳이 이분법적으로 접근하면 인간의 '직관'을 반영하는 사고방식으로, 시간이나 자료의 부족, 인지적 자원의 제약, 문제 특성 등의 이유로 답을 도출하기 위한 정확한 절차를 사용하지 않고 경험과 직관에 의존해 '대충..

[HFDA] 7. 주관적 확률 / 숫자에 대한 믿음

주관적 확률은 분석가의 믿음을 나타낸다. 그러므로, 자신의 믿음의 크기를 상대방에게 주지 시키기 위해서는 '높다', '낮다', '많다', '적다' 같은 단어를 이용한 표현보다는 명확하게 '85점', '40점', '70% 이상', '30% 이하'와 같이 숫자를 이용하여 표현하는 것이 좋다. 주관적 확률은 누구나 이해할 수 있지만 충분히 사용되지 않고 있습니다. 우수한 데이터 분석가는 뛰어난 전달자입니다. 주관적 확률은 여러분의 생각과 믿음을 다른 사람에게 정확하게 전달하는 계목적인 방법입니다." -- p.247 음... 베이즈 정리를 다시 리마인드~ 베이즈 정리와 주관적 확률을 사용하면 가설이 참일 경우 증거가 실현될 확률을 구할 수 있다. ㅇ 분산(variance) 어떤 확률 변수가 기댓값(어떤 확률적 ..

[HFDA] 6. 베이지안 통계 / 첫 걸음을 내딛다

ㅇ 조건부 확률 (Conditional Probability) 어떤 사건 B가 일어났을 때 사건 A가 일어날 확률을 의미한다. 사건 B가 발생했을 때 사건 A가 발생하는 도수(혹은 수량)는 사건 B의 영향을 받아 변하는데 이를 조건부 확률이라 한다. -- by. Wikipedia P(A|B) : B가 일어났을 때 A가 일어날 확률 P(A|~B) : B가 일어나지 않았을 때, A가 일어날 확률 P(A|B) : B가 일어났을 때, A가 일어날 확률 P(~A|B) : B가 일어났을 때, A가 일어나지 않을 확률 P(~A|~B) : B가 일어나지 않았을 때, A가 일어나지 않을 확률 ㅇ 사전 확률 (Prior probability) 특정 사상이 일어나기 전의 확률. 현재의 정보를 기초로 하여 정한 기준 비율 ㅇ..

[HFDA] 5. 가설검정 / 그렇지 않다고 말해줘

변수는 음(-)의 상관관계도 있고 양(+)의 상관관계도 있다. 음(-)의 상관관계 : 어느 한쪽이 증가하면 다른 한쪽이 줄어드는 상관관계 양(+)의 상관관계 : 어느 한쪽이 증가하면 다른 한쪽도 증가하는 상관관계 각 변수 간의 양/음의 상관관계를 하나의 모델로 통합하여 모든 상관관계를 나타낼 수 있는 다이어그램을 그린다. 반증은 가설 검증의 기본 반증 : 여러 가설 중 확인되지 않은 가설들을 제거하여 마지막 남는 가설을 선택하는 것 만족화 : 여러 가설 중 가장 적당하다 생각되는 가설을 선택하는 것. 이때 다른 가설들을 배제하지 않는다 가설 검증을 할 때는 만족화의 위험을 피하기 위해 반증을 이용하는 게 좋다. 만족화의 가장 큰 문제점은 다른 대안을 충분히 분석하지 않고 가설을 선택함으로써 그에 반하는 ..

[HFDA] 4. 데이터 시각화 / 그림은 여러분을 더 똑똑하게 만든다

새로운 시각화 정보를 볼 때는 가장 먼저 "시각화 정보의 뒷면에는 어떤 데이터가 있는가?"라는 의문을 가져야 한다. "뛰어난 데이터 분석은 데이터 검토로 시작해서 데이터 검토로 끝난다." ㅇ 뛰어난 시각화란? 데이터를 나타낸다 (데이터 직관화가 높을수록) 적절한 비교를 한다 (인과관계 또는 상관관계를 파악할 수 있도록) 여러 변수를 나타낸다 (다변량 시각화. 세 개 이상의 변수를 다루는 경우, 동일 형식으로 여러 결과를 한 번에 표현) ㅇ 산포도(산점도) 탐색적 데이터 분석을 위한 도구로, 검증해야 할 가설을 찾기 위해 데이터를 둘러보는 것을 의미한다. 어떤 변수가 다른 변수에 영향을 줄 경우의 인과관계(즉 상관관계)를 조사할 때 산포도 사용을 선호한다. 일반적으로 X축은 독립 변수(영향을 미치는 변수,..

[HFDA] 3. 최적화 / 최대한 가져가기

데이터는 두 가지로 분류할 수 있다. 통제할 수 있는 것, 통제할 수 없는 것. 제약은 통제 가능한 변수를 제한한다. 이러한 고려 사항을 제한 조건이라고 한다. 왜냐하면 제한이 문제에 대한 인자를 조절하기 때문이다. 제약은 최적화를 위한 방법을 알려주지 않는다. 다만 최적화를 위해 할 수 없는 것들을 알려줄 뿐이다. 반면 결정 변수는 통제할 수 있는 변수이다. 제한 조건을 충족하는 범위 내에서 최적화 방안을 선택할 수 있다. 다른 값들을 변경해 가며, 원하는 값을 가능한 크게(또는 작게)하고 싶어 하는 것을 최적화 문제라 한다. 최적화 문제를 해결하려면 결정 변수, 제한 조건, 그리고 최대화할 것을 목적 함수로 정리할 필요가 있다. 최대화 또는 최소화할 '무엇'을 목적이라 하고, 이 목적에 대한 최적의 ..

[HFDA] 2. 실험 / 이론을 검증하라

분석 및 통계의 가장 기본적인 원칙 중 하나는 비교법이다. 통계치가 유의미해 보인다면 다른 통계 데이터와 비교하여 그 이유를 설명할 수 있어야 한다. 충분히 명확하게 비교되지 않는 데이터는 잘못된 분석 결과를 초래한다. ㅇ 실험 연구 변인 간 관계를 발견하기 위해 통제된 상황에서 인위 조작한 독립변인이 종속 변인에 미치는 영향을 객관적인 방법으로 측정하여 분석하는 연구방법 - 모집단을 대표하는 표본집단을 (임의) 추출하고 임의로 그룹 배정하여 일반화가 가능하도록 실험하는 것 - 독립변수 중 일부를 실험자가 조작할 수 있음 (적어도 하나는 존재해야 함) - 임의(무작위) 배정을 통해 인과관계를 증명할 수 있음 (실험 결과에 영향을 미칠 수 있는 요인이 고루 분배) ㅇ 관찰연구 관찰 대상의 행동 특성을 직접..

[HFDA] 1. 데이터 분석 입문 / 잘게 쪼개라

데이터 분석은 문제를 식별하고 해결하는 것이다. 탐색적 데이터 분석에서 검증할 만한 가치가 있는 가설을 찾아내야 한다. ㅇ 문제의 정의 - 문제나 목표를 명확히 정의하지 않고 데이터 분석을 하는 것은 목적지를 정해놓지 않고 여행을 떠나는 것과 같다 ㅇ 문제와 데이터를 작게 분할 - 문제를 다루기 쉽게 해결할 수 있는 크기로 분할한다 - 큰 문제에서 분해한 작은 문제의 해답을 찾으면 큰 문제의 해답을 얻을 수 있다 - 관점을 달리해 비교 / 대조하며 데이터를 분해하고 살펴본다 ㅇ 각 요소에 대한 평가 - 분할했던 각각의 요소를 평가한다 - 분석에 자신을 포함시키는 것은 자신의 가정을 명시적으로 밝히고, 결론에 대해 깊은 확신을 가진다는 것을 의미 ㅇ 결론(또는 권고안) 도출 - 데이터의 분석을 통하여 얻은..