빅데이터 시스템 구축 가이드 12

[빅데이터] 6. 빅데이터를 통한 가치 창출, 데이터 분석 기술 (3)

점점 어려워지는 내용에 진도는 갈수록 더뎌진다.. ㅜㅜ 이 책에서 다루어지는 내용들은 깊이가 너무 에매한 것 같다. 그냥 이런게 있다는 수준으로 넘어가기도 하고, 때로는 그 수준을 넘겨 깊지도 얕지도 않은 모호한 깊이로 다루기도 한다. 특히 데이터 분석과 통계에 관련된 부분들이 그러한데... 다음에 더 전문적인 서적들을 통해 더 정리해 보기로 하자. 4. 실무 활용이 높은 통계 분석 기술 통계 분석의 이해 통계학은 계량 자료를 수집하여 분석, 설명하고 결과를 제시하는 학문이다. 특정 집단인 모집단의 성격과 특성을 파악하기 위해 표본을 추출하여 전체 특성을 추론한다. 통계학은 적용 분야에 따라 기술 통계학과 추측 통계학을 나뉜다. 기술 통계학 (Descriptive Statistics) 추측 통계학 (In..

[빅데이터] 6. 빅데이터를 통한 가치 창출, 데이터 분석 기술 (2)

3. 빅데이터의 핵심 분석 기술, 데이터 마이닝 데이터 마이닝이란? 데이터 마이닝은 대량의 데이터에서 알려지지 않은 정보와 패턴을 찾는 지식발견 프로세스다. 기계학습과 데이터 마이닝이 겹치고 있다. 차이점은 기계학습은 훈련 데이터를 통해 배운 지식을 기반으로 예측하는 반면에, 데이터 마이닝은 데이터베이스 내의 숨은 지식 발견을 목적으로 한다는 것이다. 데이터 마이닝광 관계된 여러 분야 구 분 내 용 KDD Knowledge Discovery in Database 숨겨진 지식을 탐구하는 과정을 얘기하며, 데이터 마이닝은 이것의 한 분야이다. 패턴 인식 데이터베이스에서 특정 패턴을 찾는 기법 통계학 수량적 비교를 통해 집단현상을 관찰, 처리하는 학문 뉴로컴퓨팅 Neurocomputing 신경망 등과 관련된 ..

[빅데이터] 6. 빅데이터를 통한 가치 창출, 데이터 분석 기술 (1)

빅데이터를 통해 가치를 창출하는 분석 기술을 소개하고 있다. 빅데이터 분석은 전통적인 데이터 분석을 기반으로, 기존 정형 데이터 중심의 분석 기술보다 비정형 데이터 기반 기술이 더 쓰이고 대량의 데이터를 처리한다는 차이점이 있다. 웹 3.0을 이야기 하는 시대에 아직 웹 2.0 이라니... ㅡㅡ; 1. 어떤 데이터 분석 기술을 활용하는가? 빅데이터 분석에는 곽 전통적 분석 기술과 웹 2.0, 클라우드 기술 등 모든 기술이 융합된 분석이 쓰인다. 시맨틱 웹(Semantic Web) 컴퓨터가 사람을 대신하여 정보를 읽고 이해하고 가공하여 새로운 정보를 만들어 낼 수 있는, 이해하기 쉬운 의미로 된 차세대 지능형 웹. 웹 2.0 모든 사람이 제공되는 데이터를 활용하여 다양한 신규 서비스를 생산해 낼 수 있는 ..

[빅데이터] 5. 빅데이터 처리와 저장의 핵심 기술, 하둡과 NoSQL (3)

챕터의 제목 처럼 빅데이터의 처리와 저장에 있어서의 핵심 기술인 하둡, 그리고 NoSQL에 대해서 알아가고 있는 중이다. 이 책에서는 하나의 챕처를 통해 개념정리 수준에서 설명을 하고 있다. 하지만 이 와 관련된 기술들은 하루가 다르게 발전하고 있고, 각각의 기술들은 어느정도 활용이 가능한 수준으로 파악하려면 시간을 들여 별도로 공부를 해야할 듯 하다. 역시 전문가의 길은 멀고도 지난한 것 같다. 3. NoSQL이란 무엇인가? 현재 가장 많이 사용되고 있는 데이터베이스는 RDB라는 것은 어느 누구도 이견이 없을 듯 하다. 하지만 SNS의 폭발적 성장, 4차 산업혁명이라 일컬어지는 ICT 융합, IoT 등 데이터 양 자체의 어마어마한 증가 뿐만아니라 데이터의 형식 또한 반정형 또는 비정형 데이터가 빠른 속..

[빅데이터] 5. 빅데이터 처리와 저장의 핵심 기술, 하둡과 NoSQL (1)

하둡과 NoSQL에 대한 소개가 있는 장이다. 제법 많은 페이지를 할당해 소개하고 있어 앞선 3, 4장과 같이 파트를 나눠서 기록하려 한다. 1. 하둡이란 무엇인가? 하둡(Apache Hadoop, High-Availability Distributed Object-Oriented Platform)은 데이터가 늘어날 수록 대용량 저장소와 빠른 처리를 위한 고성능을 요구하는 수직적 확장방식의 중앙집중식이 아니라, 다수의 범용 컴퓨터들로 분산하여 저장하고 처리하는 수평적 확장방식의 분산처리 플랫폼이다. 하둡은 빅데이터 처리를 보장하는 검증된 플랫폼이다. 하둡은 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임워크이다. 원래 너치(Apa..

[빅데이터] 4. 빅데이터 시스템 구축을 위한 요소 기술(2)

앞선 장에서는 빅데이터 시스템 구축의 요소 기술 중 수집 기술, 저장 기술, 처리 기술에 대한 내용을 살펴보았다. 여기서는 빅데이터 시스템 구축 요소 기술 중 텍스트 마이닝, 오피니언 마이닝, 소셜 분석, 클러스터 분석 등의 빅데이터 분석 기술에 대한 내용들이 소개되고, 빅데이터의 분석 결과를 인지하기 쉽도록 표현하는 방법(시각화의 여러가지 형태 등)들에 대한 소개의 장이다. 5. 빅데이터 분석 기술 마이닝은 수집된 데이터에서 분석을 통하여 새로운 규칙이나 패턴을 찾아내는 것을 말한다. 텍스트 마이닝 일반적인 데이터 마이닝은 관계형 데이터베이스 기반의 구조화된 데이터를 분석하는 것을 말한다. 그러나 비구조적 문서가 대부분인 빅데이터는 일반적인 데이터 마이닝을 수행하기 어렵기 때문에 자연어 처리 기술과 문..

[빅데이터] 3. 빅데이터 시스템 아키텍처(2)

앞장에서 살펴본 내용이 이어 빅데이터 시스템 플랫폼의 구성 내용과 특징을 살펴보고, 빅데이터 시스템의 검증은 어떻게, 어떤 포인트에서 수행하여야 하는지, 또 검증을 위한 테스트 환경은 어떻게 구성되어야 하는지 살펴본다. 어쩌면, 가장 중요한 내용인지도 모르겠다. 빅데이터 시스템을 구축하고 목적에 기여하는 결과를 도출해 내기 위해서는 일을 추진하는 조직이 어떻게 구성되어야 하는지에 대한 내용이 소개된다. 2019/11/22 - [공부하記/빅데이터 시스템 구축 가이드] - [빅데이터] 3. 빅데이터 시스템 아키텍처(1) 3. 빅데이터 시스템 플랫폼 플랫폼(Platform) 소프트웨어 응용 프로그램들을 돌리는 데 쓰이는 하드웨어와 소프트웨어를 말함 구분 내용 데이터 통합 3V(Varierty, Velocity..

[빅데이터] 3. 빅데이터 시스템 아키텍처(1)

빅데이터 시스템을 기능적인 측면에서의 구성방식을 살펴보는 장이다. 빅데이터 시스템을 구축하고자 할 때 고려해야할 사항들을 제시해 주고 있다. 어떤 목적으로, 어떤 데이터를, 어떻게 확보하고 저장할 것인지, 빅데이터 플랫폼의 종류는 어떠한 것들이 있는지, 어떤 특징이 있는지, 구축할 빅데이터 시스템에 대한 검증은 어떻게 해야 하는지, 검증을 위한 테스트 환경은 어떻게 구축하여야 하는지 등에 대한 내용을 소개하고 있다. 여기서는 빅데이터 자체의 확보와 관리, 시스템 구축을 통해 얻고자 하는 것에 대한 목적성을 살펴보고, 어떻게 어떤 방법으로 저장하여 관리할 것인지에 대한 내용까지 살펴보았다. 1. 빅데이터 거버넌스 거버넌스(Governance)란? 일반적으로 ‘과거의 일방적인 정부 주도적 경향에서 벗어나 정..

[빅데이터] 2. 빅데이터 구축 방법

실제 빅데이터 구축에 필요한 사항이라며, 빅데이터의 특성에 따라 살펴보아야 할 사항을 이야기한다. 어떻게 구축할 것인가? / 어떤 데이터를 수집할 것인가? / 구축할 때 핵심 사항은 무엇인가? 어떤 데이터를 어떻게 구축해서 어떻게 사용할 것인가? 빅데이터라는 화두가 처음 회자되었을 때부터, 관심을 가진 많은 사람들이 고민해 왔던 내용일 듯하다. 물론 나도 마찬가지였다. 1. 어떻게 데이터를 구축해야 하는가? 구축 방법론 수요 인식 및 목표 설정 : 부서 간 통합된 문제 제기와 협의가 필요 데이터 역량 검토 : 조직의 데이터 활용과 관리 능력. 지속적인 데이터 유입 여부와 적절한 통제 관리 도입 검토 및 사업 계획 : 기술적인 부문과 비용적인 부문으로 나뉜다. 데이터 수집 비용도 고려 빅데이터 도입 : 협..

[빅데이터] 1. 빅데이터 시대

빅데이터 관련 칼럼이나 서적의 첫 장은 항상 이런 내용으로 시작한다. 이 책도 마찬가지다. '빅데이터란 무엇인가?'로 시작하는 빅데이터에 대한 개론과 거대 담론을 소개하고 있다. 1. 빅데이터란 무엇인가? : 빅데이터 개념 정의, 3V(Volume, Variety, Velocity), 3V+1V에 대한 적당한 소개... 기관 빅데이터 정의 Gartner (2012) 향상된 시사점(Insight)과 더 나은 의사결정을 위해 사용되는 비용 효율이 높고, 혁신적이며, 대용량, 고속 및 다양성의 특성을 가진 정보 자산 McKinsey (2011) 일반적인 데이터베이스 SW가 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터 IDC (2011) 다양한 종류의 대규모 데이터에서 낮은 비용으로 가치를 추출..