읽記 (데이터 과학, IT 분야)/Head First Data Analysis

[HFDA] 2. 실험 / 이론을 검증하라

Light Pillar 2019. 11. 18. 13:47

분석 및 통계의 가장 기본적인 원칙 중 하나는 비교법이다.

통계치가 유의미해 보인다면 다른 통계 데이터와 비교하여 그 이유를 설명할 수 있어야 한다.

충분히 명확하게 비교되지 않는 데이터는 잘못된 분석 결과를 초래한다.

 

 

 실험 연구

변인 간 관계를 발견하기 위해 통제된 상황에서 인위 조작한 독립변인이 종속 변인에 미치는 영향을 객관적인 방법으로 측정하여 분석하는 연구방법

    - 모집단을 대표하는 표본집단을 (임의) 추출하고 임의로 그룹 배정하여 일반화가 가능하도록 실험하는 것

    - 독립변수 중 일부를 실험자가 조작할 수 있음 (적어도 하나는 존재해야 함)

    - 임의(무작위) 배정을 통해 인과관계를 증명할 수 있음 (실험 결과에 영향을 미칠 수 있는 요인이 고루 분배)

 

 관찰연구

관찰 대상의 행동 특성을 직접 객관적, 계획적으로 관찰해서 분석하는 연구 방법

    - 현상을 관찰할 뿐 조작할 수 있는 독립변수가 없음

    - 임의 배정을 사용하지 않음으로 인과관계에 대한 결론을 도출해야 하는 문제에서는 그다지 효과가 없음

    - 관련성 여부(상관관계)만 파악할 수 있는 한계를 이해하고 잘못된 결론을 도출하지 않도록 주의해야 함

 

 교락 인자(Confounder)

비교대상 인자 이외에 드러나는 차이를 발생시키는 인자

쉽게 드러나지 않으며 드러난 교락 인자가 문제를 일으키는 것이라면 데이터를 재조작하여 결론을 수정하여야 한다

(※ 두 개 이상의 인자에 의한 효과를 각 인자의 효과로 분리할 수 없을 경우 그 인자들은 교락 되어 있다고 한다)

 

교락 인자가 무엇인지 알아내는 것은 사실 과학보다는 기술에 가까운 문제이다.  연구대상에 관한 상식적인 질문을 해가면서 어떤 변수가 결과에 대한 교락인자가 될 수 있을지 상상해야 한다.  데이터 분석 및 통계의 모든 것과 마찬가지로 정량적인 기술이 아무리 훌륭하더라도 항상 결론이 합리적인가는 매우 중요하다.  결론이 합리적이고, 교락인자를 철저하게 찾았다면 관찰연구를 위한 할 수 있는 모든 작업을 한 것이다.

 무작위

대상 집단에서 무작위로 구성원을 선택하는 것은 교락인자를 피하는 좋은 방법이다.

대상을 무작위로 그룹에 할당하면 무작위로 할당하지 않았을 때 교락인자가 될 수 있는 요인이 대조군과 실험군 속에 동일하게 나타나게 된다.

그룹의 구성원을 무작위로 선택하면 그룹들은 서로 유사하기 때문에 비교가 가능해진다.

 

 

[HFDA] 0. 목차