통계학(Statistic)이란?
1) 문제에 대한 합리적인 답을 줄 수 있도록 숫자로 표시되는 정보를 수집하고 정리
2) 이를 해석하고 신뢰성 있는 결론을 이끌어 내는 방법을 연구하는 학문
모집단에서 제기된 문제에 대한 합리적인 답을 줄 수 있도록, 모집단의 성격을 잘 대변하는 표본에 속한 각각의 추출 단위로부터 특성값을 측정, 숫자로 변환한 후 이를 정리, 해석하여 모집단에 대한 신뢰성 있는 결론을 이끌어내는 방법을 연구하는 학문
<용어 정리>
- 추출단위 (Sampling unit) : 전체(모집단)를 구성하는 각 개체
- 특성값 (Characteristic) : 각 추출 단위의 특성을 나타내는 값. 예) 키, 나이, 수확량 등
- 모집단 (Population) : 통계적 분석의 대상이 된느 조사 대상 전부. 예) 대한민국 국민 전체
- 표본 (Sample) : 통계적 분석을 위하여 선택된 모집단의 일부
<모집단과 표본의 예>
- 연구 목적 : 대한민국 성인 남성의 평균 키 조사
- 모집단 : 대한민국 성인 남성
- 특성값 : 키
- 추출 단위의 예 : 서울시에 거주하는 대한민국 국적의 25세 남성 김아무개씨
- 이를 위해 모든 대한민국 성인 남성의 키를 조사할 수 없기 때문에, 표본을 추출(Sampling)하여 모집단의 일부만을 조사한다.
여러 가지 표본 추출법
1) 단순 랜덤 추출(Simple random sampling)
- 모집단의 각 추출단위가 표본으로 선택될 확률이 같은 방법
- 동일 개체가 중복 추출될 수 없는 단순 랜덤 비복원 추출(simple random sampling without replacement)과 동일 개체가 선택될 수 있는 단순 랜덤 복원 추출(simple random sampling with replacement)로 나뉜다
- 복원 추출법은 비복원 추출법에 비해 좀 더 빈번히 사용되며, 모집단의 크기가 비교적 작을 때 적합하다
- 모집단의 크기가 크고 표본의 크기가 작을 때는 같은 개체를 중복하여 뽑을 확률이 적어지기에 복원 추출법과 비복원 추출법 간의 차이 또한 적어진다
- 현실적으로 적용하기는 쉽지만 비효율적이며, 순수한 무작위 추출은 거의 사용하지 않는다
2) 층화 추출(Stratified random sampling)
- 모집단을 몇 개의 동질적인 층으로 나눈 다음, 각 층에서 표본을 단순 랜덤 추출하여 이들 전체를 표본으로 간주하는 방법
- 예) XX대학교에서 성희롱에 대한 학생들의 의견 조사를 위해 성별로 층을 나누어 각 성별마다 정해진 크기만큼 표본을 추출한다.
3) 집락 추출(Cluster sampling)
- Sub group의 성격이 전체 모집단과 비슷한 경우 추출단위 별로 표본을 추출하는 방법
- 추출 단위 : "집락" 예) 읍, 면, 동
- 이점 : 추출작업이 편리하고 비용 절감(지리적 요건)이 가능하다.
- 예) 서울시 시민들의 자동차 보유 현황을 조사하기 위해 서울시의 전체 약 400개의 동 중에서 50개의 동만을 선택하여 이들 동만을 조사한다
위치 측도와 산포 측도
위치 측도(location parameters) : 모집단/표본에 속한 특성값들의 대략적인 크기를 나타내는 측도
산포 측도(scale parameters) : 모집단/표본에 속한 특성값들이 얼마나 멀리/가까이 퍼져있나를 나타내는 측도
[위치 측도(location parameters)]
- 표본평균(sample mean) : 데이터의 합계를 데이터의 총 개수로 나눈 값
- 중앙값(median) : 데이터를 크기 순서로 나열할 때 가장 중앙에 위치하게 되는 데이터값
- 분위수(quantile) : q-quantiles는 정렬된 데이터를 균등하게 q개로 나누는 값들이다. 특히 4-quantiles를 사분위수(quartile)라 하고 순서대로 세개의 점을 각각 first quartile(Q1), second quartile(Q2), third quartile(Q3)라 한다.
- 백분위수(percentile) : p-percentile이란 해당 값 이하의 데이터가 전체의 p%인 값을 의미한다.
- first quantile(Q1) : 25 percentile
- second quantile(Q2) : 50 percentile = 중앙값(median)
- third quantile(Q3) : 75 percentile
[산포 측도(scale parameters)]
- 표본분산(sample variance) : 데이터의 값이 평균으로부터 떨어져 있는 정도를 나타내는 값
- 표본표준편차(sample deviation) : 데이터가 얼마나 퍼져 있는가를 나타내는 값
- 평균절대편차(mean absolute deviation) : 데이터가 얼마나 퍼져 있는가를 나타내는 값
- 사분위수 범위(interquartile range) : IQR이라고도 하며, 데이터의 Q3값과 Q1값의 차이를 나타내는 값(Q3 - Q1)
'공부하記 > 통계학' 카테고리의 다른 글
통계학 기초 - 상관분석 (0) | 2019.12.31 |
---|---|
통계 용어 정리(3) - 비·비율·율, 퍼센트(%)·퍼센트포인트(%p), 변동률, 기여율·기여도 (0) | 2019.12.30 |
통계 용어 정리(2) - 산포도 (0) | 2019.12.30 |
통계 용어 정리(1) - 대표값 (0) | 2019.12.28 |