읽記 (데이터 과학, IT 분야) 34

[빅데이터] 6. 빅데이터를 통한 가치 창출, 데이터 분석 기술 (3)

점점 어려워지는 내용에 진도는 갈수록 더뎌진다.. ㅜㅜ 이 책에서 다루어지는 내용들은 깊이가 너무 에매한 것 같다. 그냥 이런게 있다는 수준으로 넘어가기도 하고, 때로는 그 수준을 넘겨 깊지도 얕지도 않은 모호한 깊이로 다루기도 한다. 특히 데이터 분석과 통계에 관련된 부분들이 그러한데... 다음에 더 전문적인 서적들을 통해 더 정리해 보기로 하자. 4. 실무 활용이 높은 통계 분석 기술 통계 분석의 이해 통계학은 계량 자료를 수집하여 분석, 설명하고 결과를 제시하는 학문이다. 특정 집단인 모집단의 성격과 특성을 파악하기 위해 표본을 추출하여 전체 특성을 추론한다. 통계학은 적용 분야에 따라 기술 통계학과 추측 통계학을 나뉜다. 기술 통계학 (Descriptive Statistics) 추측 통계학 (In..

[빅데이터] 6. 빅데이터를 통한 가치 창출, 데이터 분석 기술 (2)

3. 빅데이터의 핵심 분석 기술, 데이터 마이닝 데이터 마이닝이란? 데이터 마이닝은 대량의 데이터에서 알려지지 않은 정보와 패턴을 찾는 지식발견 프로세스다. 기계학습과 데이터 마이닝이 겹치고 있다. 차이점은 기계학습은 훈련 데이터를 통해 배운 지식을 기반으로 예측하는 반면에, 데이터 마이닝은 데이터베이스 내의 숨은 지식 발견을 목적으로 한다는 것이다. 데이터 마이닝광 관계된 여러 분야 구 분 내 용 KDD Knowledge Discovery in Database 숨겨진 지식을 탐구하는 과정을 얘기하며, 데이터 마이닝은 이것의 한 분야이다. 패턴 인식 데이터베이스에서 특정 패턴을 찾는 기법 통계학 수량적 비교를 통해 집단현상을 관찰, 처리하는 학문 뉴로컴퓨팅 Neurocomputing 신경망 등과 관련된 ..

[빅데이터] 6. 빅데이터를 통한 가치 창출, 데이터 분석 기술 (1)

빅데이터를 통해 가치를 창출하는 분석 기술을 소개하고 있다. 빅데이터 분석은 전통적인 데이터 분석을 기반으로, 기존 정형 데이터 중심의 분석 기술보다 비정형 데이터 기반 기술이 더 쓰이고 대량의 데이터를 처리한다는 차이점이 있다. 웹 3.0을 이야기 하는 시대에 아직 웹 2.0 이라니... ㅡㅡ; 1. 어떤 데이터 분석 기술을 활용하는가? 빅데이터 분석에는 곽 전통적 분석 기술과 웹 2.0, 클라우드 기술 등 모든 기술이 융합된 분석이 쓰인다. 시맨틱 웹(Semantic Web) 컴퓨터가 사람을 대신하여 정보를 읽고 이해하고 가공하여 새로운 정보를 만들어 낼 수 있는, 이해하기 쉬운 의미로 된 차세대 지능형 웹. 웹 2.0 모든 사람이 제공되는 데이터를 활용하여 다양한 신규 서비스를 생산해 낼 수 있는 ..

[옳다] 2장. 대용량의 미가공 데이터를 호스팅하고 공유하기

다량의 파일을 공유할 때 직면하는 문제 데이터 저장 방법 선택하기 - 파일을 확장 가능하고 경제적인 방식으로 공유할 수 있으면서 물리적으로 저장하는 방식 선택 : IAAS (Infrastructure as a service, 서비스로서의 인프라) - 분산 스토리지 솔루션 적합한 데이터 포맷 선택하기 - 사용자에게 제공하는 데이터의 포맷 결정 : CSV - 다양한 호환성 확보 또는 플랫 데이터로 표현하기 쉬운 경우 : XML(eXtensibe Markup Language) - 다양한 포맷으로 변환해야 하는 구조화된 문서 : JSON(JavaScript Object Notation) - 애플리케이션 개발자와 비관계형 데이터베이스 관리자에 유용 #CSV 예제 first_name,last_name,book,da..

[옳다] 1장. 데이터를 성공적으로 다루는 네 가지 법칙

"비즈니스의 모든 기술 분야에서 통용되는 첫 번째 규칙은 효율적인 작업에 자동화를 적용하면 효율성이 배가된다는 것이다. 두 번째 규칙은 비효율적인 작업에 자동화를 적용하면 비효율성이 배가된다는 것이다." - 빌 게이츠(Bill Gates) 무한대로 확장 가능한 솔루션을 구축하라. 현재 솔루션의 한계를 인지하고, 언제 확장 한계에 도달하는지 이해하고 병목을 해결할 계획을 세우는 것이 중요하다. 인터넷을 통해 데이터를 공유할 수 있는 시스템을 구축하라. 시스템은 반드시 대상 고객에게 데이터를 공유할 수 있게 설계해야 한다. 보유한 데이터로 이윤을 창출하는 조직의 구성원은 해당 데이터에 대해 질문할 수 있어야 한다. 과거에는 많은 조직에서 모든 데이터를 단 하나의 관리 가능한 공간에 넣으려고 데이터 웨어하우스..

[옳다] 0. 목차

1부 빅데이터 시대의 방향 1장. 데이터를 성공적으로 다루는 네 가지 법칙 2부 대용량 데이터의 수집 및 공유 2장. 대용량의 미가공 데이터를 호스팅하고 공유하기 3장. 대중이 생성한 데이터를 수집하기 위한 NoSQL 기반의 웹 애플리케이션 구축하기 4장. 데이터 사일로를 다루는 전략 3부 데이터에 관해 질문하기 5장. 하둡, 하이브, 샤크를 이용해 대용량 데이터 집합에 대해 질문하기 6장. 구글 빅쿼리를 이용한 데이터 대시보드 구축하기 7장. 대용량 데이터 탐색을 위한 데이터 시각화 전략 4부 데이터 파이프라인 구축하기 8장. 하나로 합치기 : 맵리듀스 데이터 파이프라인 9장. 피그와 캐스케이딩을 이용한 데이터 변환 워크플로우 구축하기 5부 대용량 데이터를 위한 기계 학습 10장. 머하웃을 이용한 대용..

[빅데이터] 5. 빅데이터 처리와 저장의 핵심 기술, 하둡과 NoSQL (3)

챕터의 제목 처럼 빅데이터의 처리와 저장에 있어서의 핵심 기술인 하둡, 그리고 NoSQL에 대해서 알아가고 있는 중이다. 이 책에서는 하나의 챕처를 통해 개념정리 수준에서 설명을 하고 있다. 하지만 이 와 관련된 기술들은 하루가 다르게 발전하고 있고, 각각의 기술들은 어느정도 활용이 가능한 수준으로 파악하려면 시간을 들여 별도로 공부를 해야할 듯 하다. 역시 전문가의 길은 멀고도 지난한 것 같다. 3. NoSQL이란 무엇인가? 현재 가장 많이 사용되고 있는 데이터베이스는 RDB라는 것은 어느 누구도 이견이 없을 듯 하다. 하지만 SNS의 폭발적 성장, 4차 산업혁명이라 일컬어지는 ICT 융합, IoT 등 데이터 양 자체의 어마어마한 증가 뿐만아니라 데이터의 형식 또한 반정형 또는 비정형 데이터가 빠른 속..

[빅데이터] 5. 빅데이터 처리와 저장의 핵심 기술, 하둡과 NoSQL (2)

내용 파악에 점점 시간이 오래 걸리고 있다. 하지만, 꾸준히 조금씩이라도... 2. 하둡의 구성 요소와 적용 방안 하둡 에코 시스템은 하둡의 기본적인 HDFS와 MapReduce에 프로젝트를 추가하여 하둡 기반의 폭넓은 플랫폼을 제공한다. 이는 하둡의 HDFS와 MapReduce로 하기 어려운 작업을 더 쉽게 할 수 있게 한다. 하둡 에코 시스템 하둡 관련 필요 기술들로 관련 프로젝트들을 구성하고 이들을 모아 하나의 생태계를 구성한것을 말한다. 하나의 하둡 에코 시스템이 모든 비즈니스의 빅데이터 처리에 알맞은 것은 아니므로, 해당 분야별로 필요한 기술 요소를 선택하여 거기에 맞는 하둡 아키텍처를 구성해야 한다. Hcatalog 하둡은 HDFS에 대용량 파일을 저장할 수 있지만, 저장 파일은 비구조적 데이..

[빅데이터] 5. 빅데이터 처리와 저장의 핵심 기술, 하둡과 NoSQL (1)

하둡과 NoSQL에 대한 소개가 있는 장이다. 제법 많은 페이지를 할당해 소개하고 있어 앞선 3, 4장과 같이 파트를 나눠서 기록하려 한다. 1. 하둡이란 무엇인가? 하둡(Apache Hadoop, High-Availability Distributed Object-Oriented Platform)은 데이터가 늘어날 수록 대용량 저장소와 빠른 처리를 위한 고성능을 요구하는 수직적 확장방식의 중앙집중식이 아니라, 다수의 범용 컴퓨터들로 분산하여 저장하고 처리하는 수평적 확장방식의 분산처리 플랫폼이다. 하둡은 빅데이터 처리를 보장하는 검증된 플랫폼이다. 하둡은 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임워크이다. 원래 너치(Apa..

[빅데이터] 4. 빅데이터 시스템 구축을 위한 요소 기술(2)

앞선 장에서는 빅데이터 시스템 구축의 요소 기술 중 수집 기술, 저장 기술, 처리 기술에 대한 내용을 살펴보았다. 여기서는 빅데이터 시스템 구축 요소 기술 중 텍스트 마이닝, 오피니언 마이닝, 소셜 분석, 클러스터 분석 등의 빅데이터 분석 기술에 대한 내용들이 소개되고, 빅데이터의 분석 결과를 인지하기 쉽도록 표현하는 방법(시각화의 여러가지 형태 등)들에 대한 소개의 장이다. 5. 빅데이터 분석 기술 마이닝은 수집된 데이터에서 분석을 통하여 새로운 규칙이나 패턴을 찾아내는 것을 말한다. 텍스트 마이닝 일반적인 데이터 마이닝은 관계형 데이터베이스 기반의 구조화된 데이터를 분석하는 것을 말한다. 그러나 비구조적 문서가 대부분인 빅데이터는 일반적인 데이터 마이닝을 수행하기 어렵기 때문에 자연어 처리 기술과 문..