읽記 (데이터 과학, IT 분야)/빅데이터 시스템 구축 가이드

[빅데이터] 6. 빅데이터를 통한 가치 창출, 데이터 분석 기술 (3)

Light Pillar 2022. 2. 17. 01:16

점점 어려워지는 내용에 진도는 갈수록 더뎌진다.. ㅜㅜ

 

이 책에서 다루어지는 내용들은 깊이가 너무 에매한 것 같다. 그냥 이런게 있다는 수준으로 넘어가기도 하고, 때로는 그 수준을 넘겨 깊지도 얕지도 않은 모호한 깊이로 다루기도 한다.

 

특히 데이터 분석과 통계에 관련된 부분들이 그러한데... 다음에 더 전문적인 서적들을 통해 더 정리해 보기로 하자.


4. 실무 활용이 높은 통계 분석 기술

통계 분석의 이해

통계학은 계량 자료를 수집하여 분석, 설명하고 결과를 제시하는 학문이다. 특정 집단인 모집단의 성격과 특성을 파악하기 위해 표본을 추출하여 전체 특성을 추론한다.

 

통계학은 적용 분야에 따라 기술 통계학과 추측 통계학을 나뉜다.

기술 통계학 (Descriptive Statistics) 추측 통계학 (Inferential Statistics)
모집단에서 표본을 추출하여 정리, 요약하여 결론을 냄 정리, 요약, 결론을 통해 모집단 특성을 추론
빈도 분석, 평균값 분석, 산포도 분석 교차 분석, ANOVA, 상관 분석, 회귀 분석

통계에서 자료 형태는 크게 범주형(사칙연산 불가능, 질적 혹은 비계측 자료)과 수치형(사칙연산 가능, 양적 혹은 계측 자료)으로 나뉜다.

 

분할표와 가설 검증

두 개의 변수 간 관련성을 보고자 할때 가설을 세우고 범주형 변수와 변수 간 관측값을 넣은 분할표(Contingency Table)를 작성하고,  분석을 통해 가설이 맞는지 아닌지를 판단한다. 통계분석에서는 귀무가설과 대립가설이 있는데, 귀무가설은 가설검증에서 진실이라고 가정하는 가설이며, 대립가설은 귀무가설이 기각될 때 진실로 받아들이는 가설이다.

 

귀무가설(Null Hypothesis, H0) :

   - 영가설이라고도 불리며, 차이가 없거나 의미가 없는 가설을 말한다.

   - 가설검증에서 진실이라고 가정하는 가설

   - 기존에 일반적인 사실로 받아들이는 내용

 

대립가설(Alternatice Hypothesis, H1) :

   - 차이가 있음을 밝히려는 가설을 말한다.

   - 귀무가설이 기각될 때 진실로 받아들이는 가설

   - 귀무가설과 반대되는 새롭게 검증하고자 하는 주장

 

카이 제곱 :

   - 귀무가설과 대립가설을 수학적으로 검증하는 것

   - 가설의 기각과 채택을 위해서 유의확률과 유의수준을 사용

   - 유의확률은 p-value로 표기하며, 귀무가설이 맞는데 틀렸다고 할 확률을 말한다.

   - 유의수준은 분석자가 세운 대립가설의 채택(귀무가설의 기각)을 위한 유의확률 p-value의 범위를 말한다.

   - 예를들어, 유의수준 0.05일때 유의확률이 0.03으로 유의수준이 더 크면 귀무가설은 기각되고,

     유의확률이 0.21로 유의수준 보다 크면 대립확률은 기각되고 귀무가설이 채택된다.

 

유의확률과 유의수준

통계처리를 할 때 대개는 모집단의 분산, 평균을 알기가 어렵다. 모집단 자체를 전수 조사하기가 어렵고 모집단의 정확한 범위를 알지 못하기 때문이다. 그래서 실제 모집단에서 표본을 추출하여 그것의 분산(표본분산)이나 평균(표본평균)을 낸다.

특히, 표본 수가 크지 않을 때에는 표본분산(표본 표준편차)을 사용한 t-분포를 이요한다. 이것을 t-test라 한다.

두 개 모집단의 모평균이 서로 같은가 아닌가를 검정할 때 귀무가설과 대립가설을 세운다.

     귀무가설  H0    두 개의 모평균이 같다.
     대립가설  H1    두 개의 모평균은 다르다.

유의수준(Significance Level)은 보통 1%(0.01), 5%(0.05), 10%(0.1) 세 개를 주로 사용하는데, 그중에서도 1%와 5%를 많이 사용한다. 유의수준 0.05라 함은 두 개 집단의 모평균은 실제 같은데 잘못해서 귀무가설을 기각하게 될 확률(모평균이 같지 않을 것으로 판단할 확률)을 의미한다. 이것이 소위 "1종 오류"를 범할 확률이다.

달리 말하면, 5%(0.05)의 유의성이란 테스트 결과 "사실이 아닐 확률이" 5% 또는 "사실일 확률"이 95%라는 뜻이다. 정확히 말하면 이와 같은 테스트 방법을 100번 사용할 때 95번 정도만 제대로 맞게 검정한다는 뜻이다.

유의확률은 p-value라 하며 귀무가설을 기각할 수 있는 최소한의 확률을 의미한다. 유의확률이 0.009로 도출되었다고 하자. 유의확률은 앞선 유의수준보다 정확히 계산한 것으로 귀무가설을 잘못 기각할 확률이 0.9%밖에 안된다는 뜻이다.

1% 이내냐 5% 이내냐를 얘기하는 것이 유의수준이고, 실제 테스트를 했더니 잘못될 확률이 정확히 얼마인지를 계산한 것이 유의확률이다. 여기서는 0.009(0.9%)니까, 5%는 물론 1%의 유의수준에서 귀무가설을 기가할 수 있다는 뜻이다.

즉, 두 모집단의 모평균이 서로 같다는 귀무가설을 잘못 기각할 확률이 1% 이하(정확히 말하면 0.9%)라는 뜻이다. (쉽게 말해, 두 개의 집단 간 모평균이 다를 확률이 99.1%라는 것이다.)

 

가설검증에서 세워진 귀무가설과 대립가설응 판단하고자 할 때, 분석자가 유의확률을 5%로 정했다면 5%는 유의수준이 된다. 즉, 유의확률이 유의수준 5% 안에 들면(작으면), 귀무가설이 기각된다. 유의수준은 이처럼 연구자가 정하고 실제 확률 p를 기반으로 비교 분석한다. 당연히 연구자가 유의수준을 작게하면, 귀무가설 기각이 어려워지고, 너무 크면 그만큼 오류 확률이 높아 분석 결과 신뢰성이 떨어진다.

 

기타 분석

t 검증(t-test)

두 집단 간의 평균 차를 통한 검증, 두 집단의 속성을 알아보는 데 있어 평균 차이를 이용한다.

독립변수로 집단은 2개의 집단이어야 하며 종속변수는 사칙연산이 가능한 연속변수 여야 한다.

 

ANOVA(Analysis of Variance) , 분산분석

세 집단의 차이를 알아보는 분석법.

독립변수가 하나일때는 일원배치 분산분석, 독립변수가 두 개이면 이원배치 분산분석이라 한다.

 

상관분석(Correlation Analysis)

두 변수 간에 관계가 있는지를 상관계수로 나타내는 것, 

상관계수는 단순히 관계의 정도만 나타낼 뿐, 두 변수 간 인과관계를 설명하진 않는다. 

피어슨 상관계수는 보편적으로 가장 많이 쓰는 방식, 스피어만 상관계수는 순서를 이요한 관계 분석을 한다.

 

회귀분석(Regression Analysis)

통계분석에서 가장 많이 쓰이는 분석법.

독립변수의 영향이 종속변수에 어떤 영향을 미칠지 파악, 상관분석에서는 연관성의 강도만을 확인하지만, 회귀분석에서는 변화의 크기를 파악한다. 즉, 회귀분석에서는 방향성을 가진 변수 x에 의해 변할 수 있는 변수 y의 변화를 살펴본다.

단순 회귀분석, 다중 회귀분석, 위계적 회귀분석으로 구분

 

R

R은 데이터 분석 소프트웨어이자 통계 분석을 위한 개발 플랫폼이다.

R의 주요 특징

최근에는 빅데이터의 고급 분석 요구가 높아짐에 따라 하둡 연계를 위한 노력이 이루어지고 있다. RHIPE, RHadoop, RHive 등이 새롭게 나옴에 따라 R은 빅데이터 분석의 핵심 툴로 쓰인다.


이번 챕터는 정말 진도 나가기가 어려웠던 느낌이다. ㅡㅡ;

 

[빅데이터] 0. 목차