공부하記/통계학

통계학 기초 - 자료의 생성, 모집단과 표본, 위치 측도와 산포 측도

Light Pillar 2019. 12. 22. 12:45

통계학(Statistic)이란?

1) 문제에 대한 합리적인 답을 줄 수 있도록 숫자로 표시되는 정보를 수집하고 정리

2) 이를 해석하고 신뢰성 있는 결론을 이끌어 내는 방법을 연구하는 학문

 

모집단에서 제기된 문제에 대한 합리적인 답을 줄 수 있도록, 모집단의 성격을 잘 대변하는 표본에 속한 각각의 추출 단위로부터 특성값을 측정, 숫자로 변환한 후 이를 정리, 해석하여 모집단에 대한 신뢰성 있는 결론을 이끌어내는 방법을 연구하는 학문

 

<용어 정리>

  • 추출단위 (Sampling unit) : 전체(모집단)를 구성하는 각 개체
  • 특성값 (Characteristic) : 각 추출 단위의 특성을 나타내는 값. 예) 키, 나이, 수확량 등
  • 모집단 (Population) : 통계적 분석의 대상이 된느 조사 대상 전부. 예) 대한민국 국민 전체
  • 표본 (Sample) : 통계적 분석을 위하여 선택된 모집단의 일부

<모집단과 표본의 예>

  • 연구 목적 : 대한민국 성인 남성의 평균 키 조사
  • 모집단 : 대한민국 성인 남성
  • 특성값 : 키
  • 추출 단위의 예 : 서울시에 거주하는 대한민국 국적의 25세 남성 김아무개씨
  • 이를 위해 모든 대한민국 성인 남성의 키를 조사할 수 없기 때문에, 표본을 추출(Sampling)하여 모집단의 일부만을 조사한다.

 

여러 가지 표본 추출법

1) 단순 랜덤 추출(Simple random sampling)

  • 모집단의 각 추출단위가 표본으로 선택될 확률이 같은 방법
  • 동일 개체가 중복 추출될 수 없는 단순 랜덤 비복원 추출(simple random sampling without replacement)과 동일 개체가 선택될 수 있는 단순 랜덤 복원 추출(simple random sampling with replacement)로 나뉜다
  • 복원 추출법은 비복원 추출법에 비해 좀 더 빈번히 사용되며, 모집단의 크기가 비교적 작을 때 적합하다
  • 모집단의 크기가 크고 표본의 크기가 작을 때는 같은 개체를 중복하여 뽑을 확률이 적어지기에 복원 추출법과 비복원 추출법 간의 차이 또한 적어진다
  • 현실적으로 적용하기는 쉽지만 비효율적이며, 순수한 무작위 추출은 거의 사용하지 않는다

 

2) 층화 추출(Stratified random sampling)

  • 모집단을 몇 개의 동질적인 층으로 나눈 다음, 각 층에서 표본을 단순 랜덤 추출하여 이들 전체를 표본으로 간주하는 방법
  • 예) XX대학교에서 성희롱에 대한 학생들의 의견 조사를 위해 성별로 층을 나누어 각 성별마다 정해진 크기만큼 표본을 추출한다.

 

3) 집락 추출(Cluster sampling)

  • Sub group의 성격이 전체 모집단과 비슷한 경우 추출단위 별로 표본을 추출하는 방법
  • 추출 단위 : "집락"  예) 읍, 면, 동
  • 이점 : 추출작업이 편리하고 비용 절감(지리적 요건)이 가능하다.
  • 예) 서울시 시민들의 자동차 보유 현황을 조사하기 위해 서울시의 전체 약 400개의 동 중에서 50개의 동만을 선택하여 이들 동만을 조사한다

 

위치 측도와 산포 측도

위치 측도(location parameters) : 모집단/표본에 속한 특성값들의 대략적인 크기를 나타내는 측도

산포 측도(scale parameters) : 모집단/표본에 속한 특성값들이 얼마나 멀리/가까이 퍼져있나를 나타내는 측도

 

[위치 측도(location parameters)]

  • 표본평균(sample mean) : 데이터의 합계를 데이터의 총 개수로 나눈 값
  • 중앙값(median) : 데이터를 크기 순서로 나열할 때 가장 중앙에 위치하게 되는 데이터값
  • 분위수(quantile) : q-quantiles는 정렬된 데이터를 균등하게 q개로 나누는 값들이다. 특히 4-quantiles를 사분위수(quartile)라 하고 순서대로 세개의 점을 각각 first quartile(Q1), second quartile(Q2), third quartile(Q3)라 한다.
  • 백분위수(percentile) : p-percentile이란 해당 값 이하의 데이터가 전체의 p%인 값을 의미한다.
    • first quantile(Q1) : 25 percentile
    • second quantile(Q2) : 50 percentile = 중앙값(median)
    • third quantile(Q3) : 75 percentile 

 

[산포 측도(scale parameters)]

  • 표본분산(sample variance) : 데이터의 값이 평균으로부터 떨어져 있는 정도를 나타내는 값
  • 표본표준편차(sample deviation) : 데이터가 얼마나 퍼져 있는가를 나타내는 값
  • 평균절대편차(mean absolute deviation) : 데이터가 얼마나 퍼져 있는가를 나타내는 값
  • 사분위수 범위(interquartile range) : IQR이라고도 하며, 데이터의 Q3값과 Q1값의 차이를 나타내는 값(Q3 - Q1)

 

2019/12/23 - [해보記/R] - <記>R 위치 측도와 산포 측도