공부하記/통계학

통계 용어 정리(2) - 산포도

Light Pillar 2019. 12. 30. 13:29

산포도

산포도란 대푯값을 중심으로 자료들이 흩어져 있는 정도를 의미한다. 이는 하나의 수치로서 표현되며 수치가 작을수록 자료들이 대푯값에 밀집되어 있고, 클수록 자료들이 대푯값을 중심으로 멀리 흩어져 있다.

 

산포도는 자료의 분포에 대한 정보를 제공해 주는데 자료의 평균이 같다고 하더라도 산포도에 따라 자료의 내용이나 성질이 달라질 수 있다. 따라서 여러 자료들의 특성을 서로 비교하기 위해서는 평균뿐만 아니라 자료들이 평균으로부터 어떻게 흩어져 분포하고 있는가를 알 필요가 있다.

 

산포도

 

평균과 특정 자료값의 차이를 편차(deviation)라고 한다. 각각의 자료 값들은 평균값의 양 쪽에 위치하는데 편차는 각각의 자료값에서 평균값을 빼주는 것으로 계산하므로, 양수 혹은 음수 값을 갖게 된다. 특히 편차가 0인 자료값은 평균값이 된다. 편차의 절대값이 크면 그 값은 평균에서 멀리 떨어져 있음을 의미한다.  편차들을 모두 합하면 항상 0이 된다. 

 

따라서 단순히 편차들의 합은 산포도로 사용될 수 없어(∵ 합이 0이 되므로), 각각의 편차를 제곱하여 이를 산술 평균한 것이 분산(variance)이다. 편차부분을 제곱하기 때문에 양수 값인 편차와 음수 값인 편차가 상쇄되지 않아 합은 0이 되지 않는다.

 

분산편차를 제곱해 계산하기 때문에 실제 편차보다 큰 수치를 만들어내 체감 편차가 실제편차보다 크게 나온다는 단점이 있다. 따라서 이러한 문제 점을 없애기 위해서 분산에 제곱근을 씌워 값을 구한 것이 표준편차(편차를 제곱하고 다시 제곱근을 취하는 것으로 표준화 과정을 거친 값으로 이해하면 된다)이다. 표준편차(standard deviation)산포도를 나타내는 지표로 가장 널리 이용되고 있다. 표준편차가 크다면 이는 분포가 넓게 흩어져 있음을 나타낸다.

 

 

여러 집단 간의 산포도를 비교할 때 사용하는 것이 변이계수(변동계수, coefficient of variation, CV)이다. 변이 계수표준편차를 평균으로 나눈 값으로 상대표준편차(relative standard deviation, RSD)라고도 한다. 경우에 따라서는 100을 곱하여 퍼센트(%)로 나타낸다.

 

비교집단 자료들의 평균이 같다면 표준편차를 이용하여 산포도를 알 수가 있지만, 만약 평균이 다른 경우에는 산포도의 정도를 비교하기가 곤란해지므로 이때 변이계수를 사용하게 된다. 변이계수의 값이 클수록 상대적인 차이가 크다는 것을 의미한다.

 

예를 들어, A와 B 두 회사의 임금에 관하여 A사는 평균 250만원, 표준편차 25만 원이고, B사는 평균 320만 원, 표준편차 27만 원이라고 가정을 해보자. 표준편차만을 비교했을 때는 B사가 A사보다 커서 B사의 임금이 고르지 않은 것으로 보이지만, 두 회사의 임금 평균이 다르므로 단위평균에 대한 산포도인 변이계수를 계산해보면 A사는 10%(= 25만 원 ÷ 250만 원 × 100), B사는 8.44%(= 27만 원 ÷ 320만 원 × 100)이므로 임금은 A사가 더 고르지 않다는 것을 알 수 있다.

 

 

 

- 통계청 자료로 '통계용어 · 지표의 이해'에서 발췌하였음