분석 및 통계의 가장 기본적인 원칙 중 하나는 비교법이다.
통계치가 유의미해 보인다면 다른 통계 데이터와 비교하여 그 이유를 설명할 수 있어야 한다.
충분히 명확하게 비교되지 않는 데이터는 잘못된 분석 결과를 초래한다.
ㅇ 실험 연구
변인 간 관계를 발견하기 위해 통제된 상황에서 인위 조작한 독립변인이 종속 변인에 미치는 영향을 객관적인 방법으로 측정하여 분석하는 연구방법
- 모집단을 대표하는 표본집단을 (임의) 추출하고 임의로 그룹 배정하여 일반화가 가능하도록 실험하는 것
- 독립변수 중 일부를 실험자가 조작할 수 있음 (적어도 하나는 존재해야 함)
- 임의(무작위) 배정을 통해 인과관계를 증명할 수 있음 (실험 결과에 영향을 미칠 수 있는 요인이 고루 분배)
ㅇ 관찰연구
관찰 대상의 행동 특성을 직접 객관적, 계획적으로 관찰해서 분석하는 연구 방법
- 현상을 관찰할 뿐 조작할 수 있는 독립변수가 없음
- 임의 배정을 사용하지 않음으로 인과관계에 대한 결론을 도출해야 하는 문제에서는 그다지 효과가 없음
- 관련성 여부(상관관계)만 파악할 수 있는 한계를 이해하고 잘못된 결론을 도출하지 않도록 주의해야 함
ㅇ 교락 인자(Confounder)
비교대상 인자 이외에 드러나는 차이를 발생시키는 인자
쉽게 드러나지 않으며 드러난 교락 인자가 문제를 일으키는 것이라면 데이터를 재조작하여 결론을 수정하여야 한다
(※ 두 개 이상의 인자에 의한 효과를 각 인자의 효과로 분리할 수 없을 경우 그 인자들은 교락 되어 있다고 한다)
교락 인자가 무엇인지 알아내는 것은 사실 과학보다는 기술에 가까운 문제이다. 연구대상에 관한 상식적인 질문을 해가면서 어떤 변수가 결과에 대한 교락인자가 될 수 있을지 상상해야 한다. 데이터 분석 및 통계의 모든 것과 마찬가지로 정량적인 기술이 아무리 훌륭하더라도 항상 결론이 합리적인가는 매우 중요하다. 결론이 합리적이고, 교락인자를 철저하게 찾았다면 관찰연구를 위한 할 수 있는 모든 작업을 한 것이다.
ㅇ 무작위
대상 집단에서 무작위로 구성원을 선택하는 것은 교락인자를 피하는 좋은 방법이다.
대상을 무작위로 그룹에 할당하면 무작위로 할당하지 않았을 때 교락인자가 될 수 있는 요인이 대조군과 실험군 속에 동일하게 나타나게 된다.
그룹의 구성원을 무작위로 선택하면 그룹들은 서로 유사하기 때문에 비교가 가능해진다.
'읽記 (데이터 과학, IT 분야) > Head First Data Analysis' 카테고리의 다른 글
[HFDA] 4. 데이터 시각화 / 그림은 여러분을 더 똑똑하게 만든다 (0) | 2019.11.18 |
---|---|
[HFDA] 3. 최적화 / 최대한 가져가기 (0) | 2019.11.18 |
[HFDA] 1. 데이터 분석 입문 / 잘게 쪼개라 (0) | 2019.11.18 |
[HFDA] 0. 목차 (0) | 2019.11.18 |
[HFDA] Head First Data Analysis (0) | 2019.11.18 |