공부하記/통계학

통계학 기초 - 상관분석

Light Pillar 2019. 12. 31. 14:20

상관 분석(Correlation Analysis)

상관 분석은 연속적인 변수로 측정된 두 변수 간의 선형 관계를 분석하는 것으로, 상관 관계는 서열 척도, 등간 척도, 비율 척도로 측정된 변수들간의 관련성 정도를 알아보기 위한 것이다.

 

하나의 변수가 다른 변수와의 어느 정도 밀접한 관련성을 가지고 변화하는 가를 알아보기 위해 사용하는 것으로, 두 변수 간의 관련성을 구할 경우 단순상관관계를 실시하고, 부분 또는 편 상관관계는 어떤 변수를 통제한 상태에서 두 변수의 상관관계를, 중다 상관관계는 두 개 이상의 독립변수에 가중치를 부여하여 상관관계를 구하는 것이다.

 

척도와 변인

척도 특성 변인의 분류 변인의 특성 보기
비율척도 · 서열성, 동간성의 정보를 제공해줄 뿐 아니라, 절대영점(0)을 갖고 있는 척도로 한 측정치는 다른 측정치의 두배, 세배 등의 비율에 관한 정보를 갖고 있는 척도를 말함
· 평균, 표준편차, 정규분포 검정 등 등간척도와 같음
비율변인 · 절대영점을 갖고 있다
· 측정치는 비율 또는 퍼센트로 비교될 수 있다.
거리, 시간, 무게 등
등간척도
(분류, 순위, 동간격)
· 서열상 뿐만 아니라 어느 만큼 차이가 있는가 하는 동간성에 관한 정보를 갖고 있는 척도
· 서열화되고 동시에 변인간의 간격이 같음(등간)
· 평균, 표준편차, 정규분포검정
등간변인 · 동간적이다
· 측정시간의 거리가 비교될 수 있다.
년(year), 온도, IQ 등
서열척도 · 한 변인이 측정 또는 분류되었을때 같다, 다르다라는 정보 뿐만 아니라 크다, 작다라는 서열에 관한 정보를 제공하는 척도
· 서열상의 관계 등이 있음
서열변인 · 순위의 정보만 있다. 백분위수, 랭킹, 순위(학업성적) 등
명목(명명)척도 · 한 변인이 측정 또는 분류되었을때 어떤 사물, 사람 또는 속성을 분류하기 위한 목적
· 계량의 의미가 없으며, 질적인 성격을 가짐
· 빈도분석,교차분석,카이검정 등
명목변인 · 서로 다른 속성의 정보만 있다. 성별, 국적, 누의 샐깔, 출신학교 등

 

상관 계수(Correlation coeffcient)란?

연속적인 변수로 측정된 두 변수간의 선형 관계를 분석하는 기법인 상관 분석(Correlation analysis)에서 한 변수가 증가하거나 감소함에 따라 다른 한 변수가 선형적으로 증가하거나 감소하는지를 나타내는 것으로, 두 변수 간의 선형관계가 존재하는지 나타내는 측도를 말한다.

 

상관 계수는 피어슨 상관 계수(Pearson correlation coeffcient), 스피어만 순위 상관 계수(Spearman rank correlation coeffcient), 켄달의 타우(Kenddall's Tau) 등 여러 종류가 있다.

 

일반적으로 피어슨 상관 계수(Pearson correlation coeffcient)를 사용하는데 상관 관계의 정도를 나타내는 단위로 'ρ' (rho)를, 표본 상관계수로 'r' 을 사용한다. 피어슨 상관계수는 연속형 자료간의 상관 관계를 나타내며 두 변수 중 적어도 어느 하나는 정규성을 따른다는 가정이 필요하다.

 

두 변수가 정규성을 따르지 않는 경우, 또는 연속형 변수가 아닌 경우는 값에 순위를 매기고, 그 순위에 따른 상관 계수인 스피어만 순위 상관 계수(Spearman rank correlation coeffcient)를 사용한다. 

 

 

자료의 분포에 따른 상관계수

< 상관 계수 해석 >

  • -1 ~ 1까지의 값을 갖는다.
  • 두 변량 X, Y사이의 선형 관계의 정도를 나타내는 수치
  • 절대값이 0에 가까울 수록 선형관계가 없고, 절대값이 1에 가까울 수록 선형 관계가 있다는 것을 의미한다.

 

공분산(Covariance)이란?

두 확률변수간의 상관 정도를 나타내며, 상관관계의 상승 혹은 하강하는 경향을 확인 가능하다.(1개의 변수의 이산정도를 나타내는 분산과는 별개임)

 

만약 2개의 변수 중 하나의 값이 상승하는 경향을 보일 때, 다른 값도 상승하는 경향의 상관관계에 있다면, 공분산의 값은 양수가 될 것이다. 반대로 2개의 변수중 하나의 값이 상승하는 경향을 보일 때, 다른 값이 하강하는 경향을 보인다면 공분산의 값은 음수가 된다.

 

이렇게 공분산은 상관관계의 상승 혹은 하강하는 경향을 이해할 수 있으나 2개 변수의 측정 단위의 크기에 따라 값이 달라지므로 상관분석을 통해 정도를 파악하기에는 부적절하다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수 ρ를 사용한다.

 

피어슨 상관계수에 사용되는 표본 공분산(sample covariance)

공분산은 -∞ ~ ∞ 까지 값을 가질 수 있으며 절대값의 크기가 크면 클수록 두 확률 변수 간의 관련성이 크다고 할 수 있다.