읽記 (데이터 과학, IT 분야)/Head First Data Analysis

[HFDA] 1. 데이터 분석 입문 / 잘게 쪼개라

Light Pillar 2019. 11. 18. 13:46

데이터 분석은 문제를 식별하고 해결하는 것이다.

탐색적 데이터 분석에서 검증할 만한 가치가 있는 가설을 찾아내야 한다.

 

데이터 분석의 단계. 결정의 불확실성이 제거 될때 까지 반복해서 수행

ㅇ 문제의 정의

      - 문제나 목표를 명확히 정의하지 않고 데이터 분석을 하는 것은 목적지를 정해놓지 않고 여행을 떠나는 것과 같다

 

ㅇ 문제와 데이터를 작게 분할

      - 문제를 다루기 쉽게 해결할 수 있는 크기로 분할한다

      - 큰 문제에서 분해한 작은 문제의 해답을 찾으면 큰 문제의 해답을 얻을 수 있다

      - 관점을 달리해 비교 / 대조하며 데이터를 분해하고 살펴본다

 

ㅇ 각 요소에 대한 평가

      - 분할했던 각각의 요소를 평가한다

      - 분석에 자신을 포함시키는 것은 자신의 가정을 명시적으로 밝히고, 결론에 대해 깊은 확신을 가진다는 것을 의미

 

ㅇ 결론(또는 권고안) 도출

      - 데이터의 분석을 통하여 얻은 통찰로 데이터에 기반한 의사결정에 도움이 되도록 한다

 

 

  • 데이터를 기반으로 하는 통계 모델은 멘탈 모델에 따라 달라진다.
  • 멘탈 모델에 따라 무엇에 중점을 두어야 하며, 어떤 것에 선택적으로 주의를 집중해야 하는지가 결정된다.
  • 명확한 멘탈 모델은 가장 적절하고 유용한 통계 모델을 만들 수 있는 가능성으로 높인다.
  • 잘못된 멘탈 모델을 사용하면 분석은 시작하기 전부터 실패한다.
  • 불확실한 것과 모르는 것을 명확히 하고 이를 구체화하라.
  • 구체화된 불확실성과 맹점은 지식의 격차를 해소하기 위한 주의 깊은 고찰로 더 나은 결론에 도달할 수 있게 한다.
  • 모델이 처음부터 올바른 가정에 근거하고 있는지 확인하고 가정을 뒤집는 데이터가 있으면 즉시 재검토해야 한다.(※ 멘탈 모델 : 세상에서 일어날 수 있는 사건이나 상황을 묘사할 수 있는 마음의 표상)
  • 원시 데이터는 반드시 데이터 작업이 이루어지는 곳과 분리해서 보관해야 하며, 항상 작업된 데이터와 비교할 수 있어야 한다,

일반적으로 데이터가 많다는 것은 좋은 것이다

그저 데이터를 사용해 무엇을 성취하려고 하는지에 대해 초점을 맞추는 것이 좋다. 목적과 가정을 잃는 즉시 엄청난 양의 데이터에 묻혀 헤매기 쉽다. 하지만 뛰어난 데이터 분석은 데이터를 통해 무엇을 알아내고 싶은지에 대해 항상 초점이 맞춰진 분석이다.

 

 

[HFDA] 0. 목차