책거리 27

[옳다] 2장. 대용량의 미가공 데이터를 호스팅하고 공유하기

다량의 파일을 공유할 때 직면하는 문제 데이터 저장 방법 선택하기 - 파일을 확장 가능하고 경제적인 방식으로 공유할 수 있으면서 물리적으로 저장하는 방식 선택 : IAAS (Infrastructure as a service, 서비스로서의 인프라) - 분산 스토리지 솔루션 적합한 데이터 포맷 선택하기 - 사용자에게 제공하는 데이터의 포맷 결정 : CSV - 다양한 호환성 확보 또는 플랫 데이터로 표현하기 쉬운 경우 : XML(eXtensibe Markup Language) - 다양한 포맷으로 변환해야 하는 구조화된 문서 : JSON(JavaScript Object Notation) - 애플리케이션 개발자와 비관계형 데이터베이스 관리자에 유용 #CSV 예제 first_name,last_name,book,da..

[옳다] 1장. 데이터를 성공적으로 다루는 네 가지 법칙

"비즈니스의 모든 기술 분야에서 통용되는 첫 번째 규칙은 효율적인 작업에 자동화를 적용하면 효율성이 배가된다는 것이다. 두 번째 규칙은 비효율적인 작업에 자동화를 적용하면 비효율성이 배가된다는 것이다." - 빌 게이츠(Bill Gates) 무한대로 확장 가능한 솔루션을 구축하라. 현재 솔루션의 한계를 인지하고, 언제 확장 한계에 도달하는지 이해하고 병목을 해결할 계획을 세우는 것이 중요하다. 인터넷을 통해 데이터를 공유할 수 있는 시스템을 구축하라. 시스템은 반드시 대상 고객에게 데이터를 공유할 수 있게 설계해야 한다. 보유한 데이터로 이윤을 창출하는 조직의 구성원은 해당 데이터에 대해 질문할 수 있어야 한다. 과거에는 많은 조직에서 모든 데이터를 단 하나의 관리 가능한 공간에 넣으려고 데이터 웨어하우스..

[옳다] 0. 목차

1부 빅데이터 시대의 방향 1장. 데이터를 성공적으로 다루는 네 가지 법칙 2부 대용량 데이터의 수집 및 공유 2장. 대용량의 미가공 데이터를 호스팅하고 공유하기 3장. 대중이 생성한 데이터를 수집하기 위한 NoSQL 기반의 웹 애플리케이션 구축하기 4장. 데이터 사일로를 다루는 전략 3부 데이터에 관해 질문하기 5장. 하둡, 하이브, 샤크를 이용해 대용량 데이터 집합에 대해 질문하기 6장. 구글 빅쿼리를 이용한 데이터 대시보드 구축하기 7장. 대용량 데이터 탐색을 위한 데이터 시각화 전략 4부 데이터 파이프라인 구축하기 8장. 하나로 합치기 : 맵리듀스 데이터 파이프라인 9장. 피그와 캐스케이딩을 이용한 데이터 변환 워크플로우 구축하기 5부 대용량 데이터를 위한 기계 학습 10장. 머하웃을 이용한 대용..

[빅데이터] 4. 빅데이터 시스템 구축을 위한 요소 기술(2)

앞선 장에서는 빅데이터 시스템 구축의 요소 기술 중 수집 기술, 저장 기술, 처리 기술에 대한 내용을 살펴보았다. 여기서는 빅데이터 시스템 구축 요소 기술 중 텍스트 마이닝, 오피니언 마이닝, 소셜 분석, 클러스터 분석 등의 빅데이터 분석 기술에 대한 내용들이 소개되고, 빅데이터의 분석 결과를 인지하기 쉽도록 표현하는 방법(시각화의 여러가지 형태 등)들에 대한 소개의 장이다. 5. 빅데이터 분석 기술 마이닝은 수집된 데이터에서 분석을 통하여 새로운 규칙이나 패턴을 찾아내는 것을 말한다. 텍스트 마이닝 일반적인 데이터 마이닝은 관계형 데이터베이스 기반의 구조화된 데이터를 분석하는 것을 말한다. 그러나 비구조적 문서가 대부분인 빅데이터는 일반적인 데이터 마이닝을 수행하기 어렵기 때문에 자연어 처리 기술과 문..

[빅데이터] 4. 빅데이터 시스템 구축을 위한 요소 기술(1)

빅데이터 시스템을 구축하기 위한 여러 요소 기술에 대하여 소개되어 있다. 여기서는 여러 요소 기술 중 수집기술, 저장기술, 처리기술에 대하여 소개하고 있다. 빅데이터 수집기술의 종류와 간단한 특징을 소개하고, 빅데이터 저장기술의 유형별 종류와 특징, 빅데이터 처리기술의 종류와 특징도 소개한다. 1. 빅데이터 솔루션 체계 빅데이터 기술의 규정 요소(6V) 구분 내용 크기(Volume) 대량의 데이터(페타바이트 수준) 다양성(Variety) 정형 데이터 + 반정형 데이터(XML 등) + 비정형 데이터(동영상, 음악 등) 속도(Velocity) 실시간으로 생성되는 데이터(로그, 대화 내용 등) 진실성(Veracity) 데이터가 가지고 있는 사실성 혹은 의사결정 연관성 시각화(Visualization) 정보 이..

[빅데이터] 3. 빅데이터 시스템 아키텍처(2)

앞장에서 살펴본 내용이 이어 빅데이터 시스템 플랫폼의 구성 내용과 특징을 살펴보고, 빅데이터 시스템의 검증은 어떻게, 어떤 포인트에서 수행하여야 하는지, 또 검증을 위한 테스트 환경은 어떻게 구성되어야 하는지 살펴본다. 어쩌면, 가장 중요한 내용인지도 모르겠다. 빅데이터 시스템을 구축하고 목적에 기여하는 결과를 도출해 내기 위해서는 일을 추진하는 조직이 어떻게 구성되어야 하는지에 대한 내용이 소개된다. 2019/11/22 - [공부하記/빅데이터 시스템 구축 가이드] - [빅데이터] 3. 빅데이터 시스템 아키텍처(1) 3. 빅데이터 시스템 플랫폼 플랫폼(Platform) 소프트웨어 응용 프로그램들을 돌리는 데 쓰이는 하드웨어와 소프트웨어를 말함 구분 내용 데이터 통합 3V(Varierty, Velocity..

[빅데이터] 3. 빅데이터 시스템 아키텍처(1)

빅데이터 시스템을 기능적인 측면에서의 구성방식을 살펴보는 장이다. 빅데이터 시스템을 구축하고자 할 때 고려해야할 사항들을 제시해 주고 있다. 어떤 목적으로, 어떤 데이터를, 어떻게 확보하고 저장할 것인지, 빅데이터 플랫폼의 종류는 어떠한 것들이 있는지, 어떤 특징이 있는지, 구축할 빅데이터 시스템에 대한 검증은 어떻게 해야 하는지, 검증을 위한 테스트 환경은 어떻게 구축하여야 하는지 등에 대한 내용을 소개하고 있다. 여기서는 빅데이터 자체의 확보와 관리, 시스템 구축을 통해 얻고자 하는 것에 대한 목적성을 살펴보고, 어떻게 어떤 방법으로 저장하여 관리할 것인지에 대한 내용까지 살펴보았다. 1. 빅데이터 거버넌스 거버넌스(Governance)란? 일반적으로 ‘과거의 일방적인 정부 주도적 경향에서 벗어나 정..

[빅데이터] 2. 빅데이터 구축 방법

실제 빅데이터 구축에 필요한 사항이라며, 빅데이터의 특성에 따라 살펴보아야 할 사항을 이야기한다. 어떻게 구축할 것인가? / 어떤 데이터를 수집할 것인가? / 구축할 때 핵심 사항은 무엇인가? 어떤 데이터를 어떻게 구축해서 어떻게 사용할 것인가? 빅데이터라는 화두가 처음 회자되었을 때부터, 관심을 가진 많은 사람들이 고민해 왔던 내용일 듯하다. 물론 나도 마찬가지였다. 1. 어떻게 데이터를 구축해야 하는가? 구축 방법론 수요 인식 및 목표 설정 : 부서 간 통합된 문제 제기와 협의가 필요 데이터 역량 검토 : 조직의 데이터 활용과 관리 능력. 지속적인 데이터 유입 여부와 적절한 통제 관리 도입 검토 및 사업 계획 : 기술적인 부문과 비용적인 부문으로 나뉜다. 데이터 수집 비용도 고려 빅데이터 도입 : 협..

[빅데이터] 1. 빅데이터 시대

빅데이터 관련 칼럼이나 서적의 첫 장은 항상 이런 내용으로 시작한다. 이 책도 마찬가지다. '빅데이터란 무엇인가?'로 시작하는 빅데이터에 대한 개론과 거대 담론을 소개하고 있다. 1. 빅데이터란 무엇인가? : 빅데이터 개념 정의, 3V(Volume, Variety, Velocity), 3V+1V에 대한 적당한 소개... 기관 빅데이터 정의 Gartner (2012) 향상된 시사점(Insight)과 더 나은 의사결정을 위해 사용되는 비용 효율이 높고, 혁신적이며, 대용량, 고속 및 다양성의 특성을 가진 정보 자산 McKinsey (2011) 일반적인 데이터베이스 SW가 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터 IDC (2011) 다양한 종류의 대규모 데이터에서 낮은 비용으로 가치를 추출..

[빅데이터] 0. 목차

Part 1 빅데이터의 개념 1장 빅데이터 시대 빅데이터란 무엇인가? 빅데이터를 통해 얻을 수 있는 가치는 무엇인가? 빅데이터에 어떻게 접근해야 하는가? Part 2 빅데이터 구축 방법 2장 빅데이터 구축 방법 어떻게 빅데이터를 구축해야 하는가? 어떠한 데이터를 가지고 시작해야 하나? 빅데이터 구축의 전제조건 빅데이터 구축의 핵심 요소 빅데이터 구축 프로세스 3장 빅데이터 시스템 아키텍처 빅데이터 거버넌스 빅데이터 시스템 아키텍처 수립 전략 빅데이터 시스템 플랫폼 빅데이터 시스템 검증 방법 빅데이터 시스템 구축을 위한 조직 구성 Part 3 빅데이터 기술 및 보안 4장 빅데이터 시스템 구축을 위한 요소 기술 빅데이터 솔루션 체계 빅데이터 수집 기술 빅데이터 저장 기술 빅데이터 처리 기술 빅데이터 분석 기..