통계학 기초 - 자료의 생성, 모집단과 표본, 위치 측도와 산포 측도

공부하記/통계학

통계학 기초 - 자료의 생성, 모집단과 표본, 위치 측도와 산포 측도

Light Pillar 2019. 12. 22. 12:45

통계학(Statistic)이란?

1) 문제에 대한 합리적인 답을 줄 수 있도록 숫자로 표시되는 정보를 수집하고 정리

2) 이를 해석하고 신뢰성 있는 결론을 이끌어 내는 방법을 연구하는 학문

모집단에서 제기된 문제에 대한 합리적인 답을 줄 수 있도록, 모집단의 성격을 잘 대변하는 표본에 속한 각각의 추출 단위로부터 특성값을 측정, 숫자로 변환한 후 이를 정리, 해석하여 모집단에 대한 신뢰성 있는 결론을 이끌어내는 방법을 연구하는 학문

<용어 정리>

추출단위 (Sampling unit) : 전체(모집단)를 구성하는 각 개체
특성값 (Characteristic) : 각 추출 단위의 특성을 나타내는 값. 예) 키, 나이, 수확량 등
모집단 (Population) : 통계적 분석의 대상이 된느 조사 대상 전부. 예) 대한민국 국민 전체
표본 (Sample) : 통계적 분석을 위하여 선택된 모집단의 일부

<모집단과 표본의 예>

연구 목적 : 대한민국 성인 남성의 평균 키 조사
모집단 : 대한민국 성인 남성
특성값 : 키
추출 단위의 예 : 서울시에 거주하는 대한민국 국적의 25세 남성 김아무개씨
이를 위해 모든 대한민국 성인 남성의 키를 조사할 수 없기 때문에, 표본을 추출(Sampling)하여 모집단의 일부만을 조사한다.

여러 가지 표본 추출법

1) 단순 랜덤 추출(Simple random sampling)

모집단의 각 추출단위가 표본으로 선택될 확률이 같은 방법
동일 개체가 중복 추출될 수 없는 단순 랜덤 비복원 추출(simple random sampling without replacement)과 동일 개체가 선택될 수 있는 단순 랜덤 복원 추출(simple random sampling with replacement)로 나뉜다
복원 추출법은 비복원 추출법에 비해 좀 더 빈번히 사용되며, 모집단의 크기가 비교적 작을 때 적합하다
모집단의 크기가 크고 표본의 크기가 작을 때는 같은 개체를 중복하여 뽑을 확률이 적어지기에 복원 추출법과 비복원 추출법 간의 차이 또한 적어진다
현실적으로 적용하기는 쉽지만 비효율적이며, 순수한 무작위 추출은 거의 사용하지 않는다

2) 층화 추출(Stratified random sampling)

모집단을 몇 개의 동질적인 층으로 나눈 다음, 각 층에서 표본을 단순 랜덤 추출하여 이들 전체를 표본으로 간주하는 방법
예) XX대학교에서 성희롱에 대한 학생들의 의견 조사를 위해 성별로 층을 나누어 각 성별마다 정해진 크기만큼 표본을 추출한다.

3) 집락 추출(Cluster sampling)

Sub group의 성격이 전체 모집단과 비슷한 경우 추출단위 별로 표본을 추출하는 방법
추출 단위 : "집락" 예) 읍, 면, 동
이점 : 추출작업이 편리하고 비용 절감(지리적 요건)이 가능하다.
예) 서울시 시민들의 자동차 보유 현황을 조사하기 위해 서울시의 전체 약 400개의 동 중에서 50개의 동만을 선택하여 이들 동만을 조사한다

위치 측도와 산포 측도

위치 측도(location parameters) : 모집단/표본에 속한 특성값들의 대략적인 크기를 나타내는 측도

산포 측도(scale parameters) : 모집단/표본에 속한 특성값들이 얼마나 멀리/가까이 퍼져있나를 나타내는 측도

[위치 측도(location parameters)]

표본평균(sample mean) : 데이터의 합계를 데이터의 총 개수로 나눈 값
중앙값(median) : 데이터를 크기 순서로 나열할 때 가장 중앙에 위치하게 되는 데이터값
분위수(quantile) : q-quantiles는 정렬된 데이터를 균등하게 q개로 나누는 값들이다. 특히 4-quantiles를 사분위수(quartile)라 하고 순서대로 세개의 점을 각각 first quartile(Q1), second quartile(Q2), third quartile(Q3)라 한다.
백분위수(percentile) : p-percentile이란 해당 값 이하의 데이터가 전체의 p%인 값을 의미한다.
- first quantile(Q1) : 25 percentile
- second quantile(Q2) : 50 percentile = 중앙값(median)
- third quantile(Q3) : 75 percentile

[산포 측도(scale parameters)]

표본분산(sample variance) : 데이터의 값이 평균으로부터 떨어져 있는 정도를 나타내는 값
표본표준편차(sample deviation) : 데이터가 얼마나 퍼져 있는가를 나타내는 값
평균절대편차(mean absolute deviation) : 데이터가 얼마나 퍼져 있는가를 나타내는 값
사분위수 범위(interquartile range) : IQR이라고도 하며, 데이터의 Q3값과 Q1값의 차이를 나타내는 값(Q3 - Q1)

2019/12/23 - [해보記/R] - <記>R 위치 측도와 산포 측도

'공부하記 > 통계학' 카테고리의 다른 글

통계학 기초 - 상관분석 (0)	2019.12.31
통계 용어 정리(3) - 비·비율·율, 퍼센트(%)·퍼센트포인트(%p), 변동률, 기여율·기여도 (0)	2019.12.30
통계 용어 정리(2) - 산포도 (0)	2019.12.30
통계 용어 정리(1) - 대표값 (0)	2019.12.28

현재글통계학 기초 - 자료의 생성, 모집단과 표본, 위치 측도와 산포 측도

데이터 세상에서 살아남記

빅데이터 분석, 시스템 구축과 관련해서 공부하고 배운 것을 소소하게 나누어 보려 합니다.

함수, 옳다, 빅데이터 시스템 구축 가이드, 斷想, 목차, RStudio, 데이터는 언제나 옳다, 데이터 분석, 통계 용어, 산포 측도, Head First Data Analysis, 책거리, 단상, 데이터 핸들링, 위치 측도, r, 빅데이터, 데이터는, 빅데이터 시스템, 빅데이터 분석 기술,

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

데이터 세상에서 살아남記