데이터는 언제나 옳다 3

[옳다] 2장. 대용량의 미가공 데이터를 호스팅하고 공유하기

다량의 파일을 공유할 때 직면하는 문제 데이터 저장 방법 선택하기 - 파일을 확장 가능하고 경제적인 방식으로 공유할 수 있으면서 물리적으로 저장하는 방식 선택 : IAAS (Infrastructure as a service, 서비스로서의 인프라) - 분산 스토리지 솔루션 적합한 데이터 포맷 선택하기 - 사용자에게 제공하는 데이터의 포맷 결정 : CSV - 다양한 호환성 확보 또는 플랫 데이터로 표현하기 쉬운 경우 : XML(eXtensibe Markup Language) - 다양한 포맷으로 변환해야 하는 구조화된 문서 : JSON(JavaScript Object Notation) - 애플리케이션 개발자와 비관계형 데이터베이스 관리자에 유용 #CSV 예제 first_name,last_name,book,da..

[옳다] 1장. 데이터를 성공적으로 다루는 네 가지 법칙

"비즈니스의 모든 기술 분야에서 통용되는 첫 번째 규칙은 효율적인 작업에 자동화를 적용하면 효율성이 배가된다는 것이다. 두 번째 규칙은 비효율적인 작업에 자동화를 적용하면 비효율성이 배가된다는 것이다." - 빌 게이츠(Bill Gates) 무한대로 확장 가능한 솔루션을 구축하라. 현재 솔루션의 한계를 인지하고, 언제 확장 한계에 도달하는지 이해하고 병목을 해결할 계획을 세우는 것이 중요하다. 인터넷을 통해 데이터를 공유할 수 있는 시스템을 구축하라. 시스템은 반드시 대상 고객에게 데이터를 공유할 수 있게 설계해야 한다. 보유한 데이터로 이윤을 창출하는 조직의 구성원은 해당 데이터에 대해 질문할 수 있어야 한다. 과거에는 많은 조직에서 모든 데이터를 단 하나의 관리 가능한 공간에 넣으려고 데이터 웨어하우스..

[옳다] 데이터는 언제나 옳다!

책소개 데이터는 언제나 옳다! 대규모 데이터 처리와 분석 실무: 유스케이스별 빅데이터 및 NoSQL 기술 가이드 빅데이터의 효과적인 활용: 실제 활용 사례, 예제, 실용적인 코드, 그리고 상세 해법들 대용량 데이터 분석은 이제 거의 모든 비즈니스에서 매우 중요하다. 모바일과 소셜 기술은 대용량 데이터를 만들어내고 있다. 분산 클라우드 컴퓨팅은 그와 같은 대용량 데이터를 저장하고 분석할 수 있는 자원을 제공하고 있다. 전문가들은 NoSQL 데이터베이스를 비롯해 완전히 새로운 기술들로 무장하고 있다. 하지만 지금까지 제목에 ‘빅데이터’라는 단어가 포함된 대부분의 책에서 wikibook.co.kr 나는 참 부제에 끌리는 경우가 많은가 보다... 특히 '실무'라는 단어에... '대규모 데이터 처리와 분석 실무 ..