산포도 2

통계 용어 정리(2) - 산포도

산포도 산포도란 대푯값을 중심으로 자료들이 흩어져 있는 정도를 의미한다. 이는 하나의 수치로서 표현되며 수치가 작을수록 자료들이 대푯값에 밀집되어 있고, 클수록 자료들이 대푯값을 중심으로 멀리 흩어져 있다. 산포도는 자료의 분포에 대한 정보를 제공해 주는데 자료의 평균이 같다고 하더라도 산포도에 따라 자료의 내용이나 성질이 달라질 수 있다. 따라서 여러 자료들의 특성을 서로 비교하기 위해서는 평균뿐만 아니라 자료들이 평균으로부터 어떻게 흩어져 분포하고 있는가를 알 필요가 있다. 평균과 특정 자료값의 차이를 편차(deviation)라고 한다. 각각의 자료 값들은 평균값의 양 쪽에 위치하는데 편차는 각각의 자료값에서 평균값을 빼주는 것으로 계산하므로, 양수 혹은 음수 값을 갖게 된다. 특히 편차가 0인 자료..

<記> R로 그리는 산점도(산포도)와 회귀선

R로 그리는 산점도(산포도) 산점도(산포도)는 두 변수를 비교하는 것이다. 사용 데이터는 'Head First Data Analysis' 의 예제를 이용하고, 데이터 구조는 다음과 같다. > #employees 오브젝트에 데이터를 저장한다. > employees # 요구, 수령 두 변수를 비교 > plot(employees$요구[employees$협상여부==TRUE], employees$수령[employees$협상여부==TRUE]) R로 회귀선 그리기 R에 의해 그려진 산점도를 보면 두 변수는 양(+)의 상관관계를 갖는 선형성을 나타내는 것으로 보여진다. 그렇다면 두 변수의 상관도(r)는 어떻게 될까? > cor(employees$요구[employees$협상여부==TRUE], employees$수령[em..

해보記/R 2019.11.15