읽記 (데이터 과학, IT 분야)/Head First Data Analysis

[HFDA] 11. 오류 / 오류를 잘 처리하다

Light Pillar 2019. 11. 18. 13:55

"회귀식은 평균적인 결과를 예측한다. 현실의 결과는 당연히 평균과 완전히 동일하지 않다."

 

 

보간법(= 내삽), 보외법(= 외삽)

 

▶ 보간법(= 내삽) : 데이터 범위 내에서 값을 예측하는 것. 독립 변수의 중간값에 대한 해당 함수의 값을 예측하는 것

▶ 보외법(= 외삽) : 데이터 범위 밖의 값을 예측하는 것.

.........................................원래의 관찰 범위를 넘어서서 다른 변수와의 관계에 기초하여 변수의 값을 추정하는 것

 

회귀식을 통한 데이터 분석은 바로 이 보간 값을 예측하기 위함이다. 보외 값을 예측할 수도 있지만, 더 큰 불확실성과 무의미한 결과를 생성할 가능성이 매우 높아진다. 

 


 

확률 오차(chance error : root mean square 오차, rms 오차)는 모델이 예측한 것과 결과의 편차를 의미한다. 통계에서 확률 오차는 잔차(residuals)라고도 하고, 잔차 분석은 적절한 통계 모델링을 위한 핵심적인 부분이다.

 

예측 결과에 대한 오류를 잘 처리하기 위해서는 오차를 정량적으로 파악해야 한다.

확률 오차의 분포(잔차 분포)가 어떻게 되어 있는지가 중요하다. 

 

표준점이나 관측값이 회귀선에서 평균적으로 얼마나 떨어져 있는지를 나타내는 통계 데이터가 필요하다.

이는 표준편차(표준점이 관측값으로부터 얼마나 떨어져 있는지를 나타내는 것)와 흡사하며, 회귀선에 대한 확률 오차(rms 오차)의 분포는 산술평균의 표준편차처럼 사용(예측과 결과가 얼마나 차이가 나는지)할 수 있는 측정 기준이다. 

 

제곱 평균 제곱근(root mean square; rms)은 값들의 제곱에 대한 평균의 제곱근으로 구하고, 이는 변화하는 값의 크기에 대한 통계적 척도로 이용된다.

 


 

rms 오차를 차용한 예측 모델은 예측값에 대한 오차 범위를 지정함으로써 예측값에 대한 신뢰성을 높일 수 있다.

경우에 따라서는 관측값의 산포도를 구간으로 나누어 볼 필요가 있다.

각 구간은 각각의 회귀분석을 통한 회귀선을 구하게 되고, 각 구간에 따른 rms 오차를 차용하여 구간 별 예측모델을 작성할 수 있다.

분할된 예측 모델을 통한 예측값은 각각의 오차 범위를 가지게 되고, 신뢰성이 더 증대된 예측값을 구할 수 있게 된다.

 

 

[HFDA] 0. 목차