책거리 27

[HFDA] 4. 데이터 시각화 / 그림은 여러분을 더 똑똑하게 만든다

새로운 시각화 정보를 볼 때는 가장 먼저 "시각화 정보의 뒷면에는 어떤 데이터가 있는가?"라는 의문을 가져야 한다. "뛰어난 데이터 분석은 데이터 검토로 시작해서 데이터 검토로 끝난다." ㅇ 뛰어난 시각화란? 데이터를 나타낸다 (데이터 직관화가 높을수록) 적절한 비교를 한다 (인과관계 또는 상관관계를 파악할 수 있도록) 여러 변수를 나타낸다 (다변량 시각화. 세 개 이상의 변수를 다루는 경우, 동일 형식으로 여러 결과를 한 번에 표현) ㅇ 산포도(산점도) 탐색적 데이터 분석을 위한 도구로, 검증해야 할 가설을 찾기 위해 데이터를 둘러보는 것을 의미한다. 어떤 변수가 다른 변수에 영향을 줄 경우의 인과관계(즉 상관관계)를 조사할 때 산포도 사용을 선호한다. 일반적으로 X축은 독립 변수(영향을 미치는 변수,..

[HFDA] 3. 최적화 / 최대한 가져가기

데이터는 두 가지로 분류할 수 있다. 통제할 수 있는 것, 통제할 수 없는 것. 제약은 통제 가능한 변수를 제한한다. 이러한 고려 사항을 제한 조건이라고 한다. 왜냐하면 제한이 문제에 대한 인자를 조절하기 때문이다. 제약은 최적화를 위한 방법을 알려주지 않는다. 다만 최적화를 위해 할 수 없는 것들을 알려줄 뿐이다. 반면 결정 변수는 통제할 수 있는 변수이다. 제한 조건을 충족하는 범위 내에서 최적화 방안을 선택할 수 있다. 다른 값들을 변경해 가며, 원하는 값을 가능한 크게(또는 작게)하고 싶어 하는 것을 최적화 문제라 한다. 최적화 문제를 해결하려면 결정 변수, 제한 조건, 그리고 최대화할 것을 목적 함수로 정리할 필요가 있다. 최대화 또는 최소화할 '무엇'을 목적이라 하고, 이 목적에 대한 최적의 ..

[HFDA] 2. 실험 / 이론을 검증하라

분석 및 통계의 가장 기본적인 원칙 중 하나는 비교법이다. 통계치가 유의미해 보인다면 다른 통계 데이터와 비교하여 그 이유를 설명할 수 있어야 한다. 충분히 명확하게 비교되지 않는 데이터는 잘못된 분석 결과를 초래한다. ㅇ 실험 연구 변인 간 관계를 발견하기 위해 통제된 상황에서 인위 조작한 독립변인이 종속 변인에 미치는 영향을 객관적인 방법으로 측정하여 분석하는 연구방법 - 모집단을 대표하는 표본집단을 (임의) 추출하고 임의로 그룹 배정하여 일반화가 가능하도록 실험하는 것 - 독립변수 중 일부를 실험자가 조작할 수 있음 (적어도 하나는 존재해야 함) - 임의(무작위) 배정을 통해 인과관계를 증명할 수 있음 (실험 결과에 영향을 미칠 수 있는 요인이 고루 분배) ㅇ 관찰연구 관찰 대상의 행동 특성을 직접..

[HFDA] 1. 데이터 분석 입문 / 잘게 쪼개라

데이터 분석은 문제를 식별하고 해결하는 것이다. 탐색적 데이터 분석에서 검증할 만한 가치가 있는 가설을 찾아내야 한다. ㅇ 문제의 정의 - 문제나 목표를 명확히 정의하지 않고 데이터 분석을 하는 것은 목적지를 정해놓지 않고 여행을 떠나는 것과 같다 ㅇ 문제와 데이터를 작게 분할 - 문제를 다루기 쉽게 해결할 수 있는 크기로 분할한다 - 큰 문제에서 분해한 작은 문제의 해답을 찾으면 큰 문제의 해답을 얻을 수 있다 - 관점을 달리해 비교 / 대조하며 데이터를 분해하고 살펴본다 ㅇ 각 요소에 대한 평가 - 분할했던 각각의 요소를 평가한다 - 분석에 자신을 포함시키는 것은 자신의 가정을 명시적으로 밝히고, 결론에 대해 깊은 확신을 가진다는 것을 의미 ㅇ 결론(또는 권고안) 도출 - 데이터의 분석을 통하여 얻은..

[HFDA] 0. 목차

1. 데이터 분석 입문 / 잘게 쪼개라 / 데이터는 어디든지 있습니다. 2. 실험 / 이론을 검증하라 / 여러분의 생각을 증명할 수 있나요? 3. 최적화 / 최대한 가져가기 / 우리 모두는 무언가를 더 얻고 싶어 합니다. 4. 데이터 시각화 / 그림은 여러분을 더 똑똑하게 만든다 / 수치표만으로는 충분하지 않습니다. 5. 가설검정 / 그렇지 않다고 말해줘 / 세상은 설명하기 까다로울 수 있습니다. 6. 베이지안 통계 / 첫 걸음을 내딛다 / 여러분은 항상 새로운 데이터를 수집할 것입니다. 7. 주관적 확률 / 숫자에 대한 믿음 / 때로는 숫자로 표현하는 것이 좋은 방법입니다. 8. 휴리스틱 분석 / 인간처럼 분석한다 / 현실 세계에는 여러분이 다룰 수 있는 것보다 더 많은 변수가 있습니다. 9. 히스토그..

[HFDA] Head First Data Analysis

책소개 Head First Data Analysis : 당신을 최고의 데이터 분석가로 이끌어줄 마법 같은 학습서 세상에는 수많은 데이터가 있고, 그것을 어떻게 이해하느냐는 당신의 몫입니다. 어디서부터 시작할까요? 『Head First Data Analysis』는 당신이 엑셀이나 오픈오피스, 나아가서는 R을 사용하여 데이터를 조직화하고, 산포도와 히스토그램에서 의미 있는 패턴을 찾아내고, 휴리스틱을 사용하여 결론을 도출하고, 실험과 가설 검정을 통해 미래를 예측하게 해줍니다. 또한 명쾌한 시각화를 통해 당신이 발견한 것을 보여줍니다. 혹시 새 제품의 성공 가능 www.hanbit.co.kr 데이터 분석 공부와 관련하여 입문도서로 선택한 첫번째 교제이다. Head Fist 시리즈는 워낙에 유명한 시리즈라 별..

[빅데이터] 빅데이터 시스템 구축 가이드

책소개 빅데이터 시스템 구축 가이드 | 프리렉 빅데이터 시스템 구축 가이드 | 프리렉 freelec.co.kr 부제에 끌려서였을까? '실무 관점에서 빅데이터의 전체 그림을 그리는' 빅데이터와 관련하여 실무에 바로 적용 가능한 책을 찾다가 보게 되었던 책이다. 가까운 도서관에서 이책 저책 뒤적거리던 중 발견해서 한번 살펴보고, 구입한 이후로 그저 책장에서 잠자고 있었던... 절실함이 부족했었던걸까? 이런 저런 회사 업무에 치이다 마음의 여유를 잃어버려, 내 시간 동안에도 내 공부를 하지 못했던, 지난 시간이 아쉽기만 하다.