데이터 시각화 2

[HFDA] 9. 히스토그램 / 숫자의 모양

ㅇ 히스토그램 (Histogram) 값의 각 범위에 포함된 데이터 요소의 분포를 나타내기 위한 시각화 방법 표로 되어 있는 도수 분포를 그래프로 나타낸 것 R을 처음으로 사용하는 장이네요... R 스크립트 실행 - 설치부터 실행까지 > hist(employees$인상률, breaks=50) #인상률에 대한 히스토그램 그리기 > sd(employees$인상률) #인상률에 대한 표준편차 구하기 > summary(employees$인상률) #인상률에 대한 요약 통계 구하기 #(최소값, 1분위값, 중간값, 평균값, 3분위값, 최대값) > hist(employees$인상률[employees$년도 == 2007], breaks=50) #2007년도 인상률로만 히스토그램 그리기 히스토그램은 데이터의 분포가 어떻게 되..

[HFDA] 4. 데이터 시각화 / 그림은 여러분을 더 똑똑하게 만든다

새로운 시각화 정보를 볼 때는 가장 먼저 "시각화 정보의 뒷면에는 어떤 데이터가 있는가?"라는 의문을 가져야 한다. "뛰어난 데이터 분석은 데이터 검토로 시작해서 데이터 검토로 끝난다." ㅇ 뛰어난 시각화란? 데이터를 나타낸다 (데이터 직관화가 높을수록) 적절한 비교를 한다 (인과관계 또는 상관관계를 파악할 수 있도록) 여러 변수를 나타낸다 (다변량 시각화. 세 개 이상의 변수를 다루는 경우, 동일 형식으로 여러 결과를 한 번에 표현) ㅇ 산포도(산점도) 탐색적 데이터 분석을 위한 도구로, 검증해야 할 가설을 찾기 위해 데이터를 둘러보는 것을 의미한다. 어떤 변수가 다른 변수에 영향을 줄 경우의 인과관계(즉 상관관계)를 조사할 때 산포도 사용을 선호한다. 일반적으로 X축은 독립 변수(영향을 미치는 변수,..