데이터 분석 4

[HFDA] 4. 데이터 시각화 / 그림은 여러분을 더 똑똑하게 만든다

새로운 시각화 정보를 볼 때는 가장 먼저 "시각화 정보의 뒷면에는 어떤 데이터가 있는가?"라는 의문을 가져야 한다. "뛰어난 데이터 분석은 데이터 검토로 시작해서 데이터 검토로 끝난다." ㅇ 뛰어난 시각화란? 데이터를 나타낸다 (데이터 직관화가 높을수록) 적절한 비교를 한다 (인과관계 또는 상관관계를 파악할 수 있도록) 여러 변수를 나타낸다 (다변량 시각화. 세 개 이상의 변수를 다루는 경우, 동일 형식으로 여러 결과를 한 번에 표현) ㅇ 산포도(산점도) 탐색적 데이터 분석을 위한 도구로, 검증해야 할 가설을 찾기 위해 데이터를 둘러보는 것을 의미한다. 어떤 변수가 다른 변수에 영향을 줄 경우의 인과관계(즉 상관관계)를 조사할 때 산포도 사용을 선호한다. 일반적으로 X축은 독립 변수(영향을 미치는 변수,..

[HFDA] 3. 최적화 / 최대한 가져가기

데이터는 두 가지로 분류할 수 있다. 통제할 수 있는 것, 통제할 수 없는 것. 제약은 통제 가능한 변수를 제한한다. 이러한 고려 사항을 제한 조건이라고 한다. 왜냐하면 제한이 문제에 대한 인자를 조절하기 때문이다. 제약은 최적화를 위한 방법을 알려주지 않는다. 다만 최적화를 위해 할 수 없는 것들을 알려줄 뿐이다. 반면 결정 변수는 통제할 수 있는 변수이다. 제한 조건을 충족하는 범위 내에서 최적화 방안을 선택할 수 있다. 다른 값들을 변경해 가며, 원하는 값을 가능한 크게(또는 작게)하고 싶어 하는 것을 최적화 문제라 한다. 최적화 문제를 해결하려면 결정 변수, 제한 조건, 그리고 최대화할 것을 목적 함수로 정리할 필요가 있다. 최대화 또는 최소화할 '무엇'을 목적이라 하고, 이 목적에 대한 최적의 ..

[HFDA] 2. 실험 / 이론을 검증하라

분석 및 통계의 가장 기본적인 원칙 중 하나는 비교법이다. 통계치가 유의미해 보인다면 다른 통계 데이터와 비교하여 그 이유를 설명할 수 있어야 한다. 충분히 명확하게 비교되지 않는 데이터는 잘못된 분석 결과를 초래한다. ㅇ 실험 연구 변인 간 관계를 발견하기 위해 통제된 상황에서 인위 조작한 독립변인이 종속 변인에 미치는 영향을 객관적인 방법으로 측정하여 분석하는 연구방법 - 모집단을 대표하는 표본집단을 (임의) 추출하고 임의로 그룹 배정하여 일반화가 가능하도록 실험하는 것 - 독립변수 중 일부를 실험자가 조작할 수 있음 (적어도 하나는 존재해야 함) - 임의(무작위) 배정을 통해 인과관계를 증명할 수 있음 (실험 결과에 영향을 미칠 수 있는 요인이 고루 분배) ㅇ 관찰연구 관찰 대상의 행동 특성을 직접..

[HFDA] 1. 데이터 분석 입문 / 잘게 쪼개라

데이터 분석은 문제를 식별하고 해결하는 것이다. 탐색적 데이터 분석에서 검증할 만한 가치가 있는 가설을 찾아내야 한다. ㅇ 문제의 정의 - 문제나 목표를 명확히 정의하지 않고 데이터 분석을 하는 것은 목적지를 정해놓지 않고 여행을 떠나는 것과 같다 ㅇ 문제와 데이터를 작게 분할 - 문제를 다루기 쉽게 해결할 수 있는 크기로 분할한다 - 큰 문제에서 분해한 작은 문제의 해답을 찾으면 큰 문제의 해답을 얻을 수 있다 - 관점을 달리해 비교 / 대조하며 데이터를 분해하고 살펴본다 ㅇ 각 요소에 대한 평가 - 분할했던 각각의 요소를 평가한다 - 분석에 자신을 포함시키는 것은 자신의 가정을 명시적으로 밝히고, 결론에 대해 깊은 확신을 가진다는 것을 의미 ㅇ 결론(또는 권고안) 도출 - 데이터의 분석을 통하여 얻은..