읽記 (데이터 과학, IT 분야)/데이터는 언제나 옳다! 4

[옳다] 2장. 대용량의 미가공 데이터를 호스팅하고 공유하기

다량의 파일을 공유할 때 직면하는 문제 데이터 저장 방법 선택하기 - 파일을 확장 가능하고 경제적인 방식으로 공유할 수 있으면서 물리적으로 저장하는 방식 선택 : IAAS (Infrastructure as a service, 서비스로서의 인프라) - 분산 스토리지 솔루션 적합한 데이터 포맷 선택하기 - 사용자에게 제공하는 데이터의 포맷 결정 : CSV - 다양한 호환성 확보 또는 플랫 데이터로 표현하기 쉬운 경우 : XML(eXtensibe Markup Language) - 다양한 포맷으로 변환해야 하는 구조화된 문서 : JSON(JavaScript Object Notation) - 애플리케이션 개발자와 비관계형 데이터베이스 관리자에 유용 #CSV 예제 first_name,last_name,book,da..

[옳다] 1장. 데이터를 성공적으로 다루는 네 가지 법칙

"비즈니스의 모든 기술 분야에서 통용되는 첫 번째 규칙은 효율적인 작업에 자동화를 적용하면 효율성이 배가된다는 것이다. 두 번째 규칙은 비효율적인 작업에 자동화를 적용하면 비효율성이 배가된다는 것이다." - 빌 게이츠(Bill Gates) 무한대로 확장 가능한 솔루션을 구축하라. 현재 솔루션의 한계를 인지하고, 언제 확장 한계에 도달하는지 이해하고 병목을 해결할 계획을 세우는 것이 중요하다. 인터넷을 통해 데이터를 공유할 수 있는 시스템을 구축하라. 시스템은 반드시 대상 고객에게 데이터를 공유할 수 있게 설계해야 한다. 보유한 데이터로 이윤을 창출하는 조직의 구성원은 해당 데이터에 대해 질문할 수 있어야 한다. 과거에는 많은 조직에서 모든 데이터를 단 하나의 관리 가능한 공간에 넣으려고 데이터 웨어하우스..

[옳다] 0. 목차

1부 빅데이터 시대의 방향 1장. 데이터를 성공적으로 다루는 네 가지 법칙 2부 대용량 데이터의 수집 및 공유 2장. 대용량의 미가공 데이터를 호스팅하고 공유하기 3장. 대중이 생성한 데이터를 수집하기 위한 NoSQL 기반의 웹 애플리케이션 구축하기 4장. 데이터 사일로를 다루는 전략 3부 데이터에 관해 질문하기 5장. 하둡, 하이브, 샤크를 이용해 대용량 데이터 집합에 대해 질문하기 6장. 구글 빅쿼리를 이용한 데이터 대시보드 구축하기 7장. 대용량 데이터 탐색을 위한 데이터 시각화 전략 4부 데이터 파이프라인 구축하기 8장. 하나로 합치기 : 맵리듀스 데이터 파이프라인 9장. 피그와 캐스케이딩을 이용한 데이터 변환 워크플로우 구축하기 5부 대용량 데이터를 위한 기계 학습 10장. 머하웃을 이용한 대용..

[옳다] 데이터는 언제나 옳다!

책소개 데이터는 언제나 옳다! 대규모 데이터 처리와 분석 실무: 유스케이스별 빅데이터 및 NoSQL 기술 가이드 빅데이터의 효과적인 활용: 실제 활용 사례, 예제, 실용적인 코드, 그리고 상세 해법들 대용량 데이터 분석은 이제 거의 모든 비즈니스에서 매우 중요하다. 모바일과 소셜 기술은 대용량 데이터를 만들어내고 있다. 분산 클라우드 컴퓨팅은 그와 같은 대용량 데이터를 저장하고 분석할 수 있는 자원을 제공하고 있다. 전문가들은 NoSQL 데이터베이스를 비롯해 완전히 새로운 기술들로 무장하고 있다. 하지만 지금까지 제목에 ‘빅데이터’라는 단어가 포함된 대부분의 책에서 wikibook.co.kr 나는 참 부제에 끌리는 경우가 많은가 보다... 특히 '실무'라는 단어에... '대규모 데이터 처리와 분석 실무 ..