읽記 (데이터 과학, IT 분야)/Head First Data Analysis

[HFDA] 10. 회귀 / 예측

Light Pillar 2019. 11. 18. 13:55

 알고리즘

다양한 요구 수준에 대해 어떤 결과가 나오는지를 나타내는 일종의 결정 과정

어떠한 문제를 해결하기 위해 정해진 일련의 절차나 방법을 공식화한 형태로 표현한 것

 

 

 회귀 분석(Regression analysis)

관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 방법이다.
시간에 따라 변화하는 데이터나 어떤 영향, 가설적 실험, 인과 관계의 모델링 등의 통계적 예측에 이용될 수 있다. 그러나 많은 경우 가정이 맞는지 아닌지 적절하게 밝혀지지 않은 채로 이용되어 그 결과가 오용되는 경우도 있다. 특히 통계 소프트웨어의 발달로 분석이 용이해져서 결과를 쉽게 얻을 수 있지만 적절한 분석 방법의 선택이었는지 또한 정확한 정보 분석인지 판단하는 것은 연구자에 달려 있다. 

-- by. Wikipedia  

 

 

 데이터 간에 선형의 상관관계가 있을 때 회귀선은 유용하다

상관관계는 두 변수 간의 선형 관계이며, 관계가 선형이 되기 위해서는 산포도의 점은 거의 직선이 되어야 한다

상관관계는 강한 상관관계(산점이 밀접하게 선형으로 위치한 경우)와 약한 상관관계(산점이 선형을 보이기는 하나 밀접하지 않은 경우)가 있으며, 그 강도는 상관계수(r)로 표시된다.

r은 -1에서 1 사이의 값을 가지며, 0은 두 변수 사이에 상관관계가 없다는 것을, 1이나 -1완전 상관관계를 의미한다.

 

> #상관계수(r) 구하기
> cor(employees$요구[employees$협상여부==TRUE], employees$수령[employees$협상여부==TRUE])

 

 

"회귀선의 기울기는 상관계수와 y의 표준편차의 곱을 x의 표준편차로 나눈 값과 같다"

 


지극히 당연하게도, 회귀선을 구하고 기울기와 y절편을 구해서 예측값을 산출한다 해도 그 예측값이 실제로 얼마나 비슷하게 들어맞을지는 알수가 없다. 단지 그 예측값이 실제값으로 반영될 확률이 얼마나 높은 지를 어림잡을 수 있을 뿐!

 

 

[HFDA] 0. 목차