읽記 (데이터 과학, IT 분야)/빅데이터 시스템 구축 가이드

[빅데이터] 2. 빅데이터 구축 방법

Light Pillar 2019. 11. 20. 22:04

실제 빅데이터 구축에 필요한 사항이라며, 빅데이터의 특성에 따라 살펴보아야 할 사항을 이야기한다.

 

어떻게 구축할 것인가?  /  어떤 데이터를 수집할 것인가?  /  구축할 때 핵심 사항은 무엇인가?

 

어떤 데이터를 어떻게 구축해서 어떻게 사용할 것인가? 빅데이터라는 화두가 처음 회자되었을 때부터, 관심을 가진 많은 사람들이 고민해 왔던 내용일 듯하다. 물론 나도 마찬가지였다.

 


1. 어떻게 데이터를 구축해야 하는가?

구축 방법론

빅데이터 구축 방법론

  • 수요 인식 및 목표 설정 : 부서 간 통합된 문제 제기와 협의가 필요
  • 데이터 역량 검토 : 조직의 데이터 활용과 관리 능력. 지속적인 데이터 유입 여부와 적절한 통제 관리
  • 도입 검토 및 사업 계획 : 기술적인 부문과 비용적인 부문으로 나뉜다. 데이터 수집 비용도 고려
  • 빅데이터 도입 : 협의와 컨설팀을 통해 최대한 위험을 회피하고 조정하여야 함

 

구축 유형

  • 분석 환경 구축형 : 빅데이터 분석과 활용을 위한 시스템 자체 구죽
  • 분석 서비스 연계형 : 외부 전문 기관의 분석 환경을 활용하거나 외부 분석 시스템과 연계

 

외부 컨설팅

빅데이터 시스템은 문제의 도출과 통찰력 기반 분석으로 문제를 해결한다.

빅데이터 주제는 전문 컨설팅의 분석 능력에 의존하며, 전문 컨설팅은 조직 내의 적절한 문제를 도출한다.

 

 

2. 어떠한 데이터를 가지고 시작해야 하나?

데이터 유형 데이터 형태 수집 기술 특징 데이터 종류
정형 데이터 RDB RDB Aggregator 관계형 데이터베이스에서 정형 데이터를 수집하여 HDFS나 Hbase 등의 NoSQL에 저장 RDB, 스프레드시트 등
반정형 데이터 HTML Crawling SNS, 뉴스, 웹 정보 등 인터넷상의 웹 문서와 정보 수집 HTML, XML, JSON, 웹 문서, 웹로그, 센서 데이터 등
실시간 데이터 Open API 서비스, 정보, 데이터 등을 개방된 API로 수집
XML RSS 웹 기반의 최신 정보를 공유하기 위한 서비스
Log 데이터 Log Aggregator 웹서버 로그, 웹로그, 트랜젝션 로그 등 각종 로그 데이터
비정형 데이터

File 데이터

FTP TCP/IP 프로토콜을 활용하는 인터넷 서버를 통한 각종 파일 송수신 소셜 데이터, 문서(워드, 한글), 이미지, 오디오, 비디오 등
WMV, MP3 등 Streaming 인터넷에서 음성, 오디오, 비디오 데이터를 실시간 수집
  • 정형 데이터는 전통적인 관계형 데이터베이스가 가장 일반적이다. 데이터는 칼럼과 그 칼럼의 데이터 속성에 맞는 데이터로 레코드(행)를 구성한다.
  • 비정형 데이터는 숫자, 문자 등이 섞여있는, 구조가 정해져 있지 않은 데이터를 말한다. 데이터는 Key와 그에 맞는 Value의 쌍 형태로 구성한다.
  • 반정형 데이터는 HTML과 XML이 대표적이다.

 

3. 빅데이터 구축의 전제조건

'사업의 이해와 정의' > '추진 환경 분석' > '추진 계획 수립'의 순서로 해당 사업을 이해하고 사업 환경을 분석하여 한다.

 

사업의 이해와 정의

  • 수요분석 및 문제 정의 : 빅데이터 도입의 필요성 인식 및 문제 구체화
  • 분석 시나리오 작성 : 조직과 사용자 모두 만족하는 문제 해결 방안 제시
  • 대안 분석 : 사업의 선정 (분석 환경 구축형 or 분석 서비스 연계형)

 

사업 추진 환경 분석

  • 데이터 접근과 확보성
  • 분석 인프라 환경 분석
  • 예산 확보와 투자 환경
  • 활용 및 운영 환경

 

추진 계획 수립

 

4. 빅데이터 구축의 핵심 요소

빅데이터 구축의 핵심 요소는 자원(조직 목표에 맞는 데이터 활용을 위한 빅데이터 발견), 기술(데이터 처리를 위한 수집, 저장, 변환, 분석, 시각화 기술 등), 인력(통찰과 인사이트를 찾는 데이터 과학자나 전문가)의 세 가지다.

 

노무라연구소의 광의의 빅데이터 3요소

  • 인재 · 조직 : 빅데이터에서 의미 있는 정보를 도출하는 인재나 조직(데이터 과학자 등)
  • 데이터 처리 · 축적 · 분석 기술 : 대량의 데이터를 효율적으로 처리, 분석하는 기술
  • 데이터 : 비정형 데이터와 구조화 데이터(고객 데이터 등)

자원

데이터 자원 발굴은 새로운 기회의 창출을 의미하고 적절한 활용은 조직 발전에 기여한다. 활용을 위한 데이터는 품질을 보증할 수 있고 신뢰할 수 있어야 한다.

 

데이터 자원 확보를 위한 단계적 방법

단계 내용 방법
1. Silos
(Hoarding)
조직의 독자적인 데이터 생성, 저장 중심
외부 테이터는 인터넷을 통해 수집 가능
데이터의 신뢰성과 품질 제고 노력 필요
생성, 저장, 수집
2. Exchanges
(Sharing)
기업의 데이터를 외부 기관들과 상호 교환하는 단계
(1:1 또는 1:n의 공유, 연계)
연계, 공유
3. Pools
(Aggregating)
특정 활동이나 목적을 위해 모인 연합, 그룹, 클럽들이 상호 협력과 공동의 장 형성
표준화된 데이터 폼의 연계를 통해 국경을 넘는 정보 교환과 상호 이용 가능
참여, 협력
4. Commons
(Co-creating)
오픈된 플랫폼을 통한 데이터 공유
상호 협력과 참여를 통한 공동 자원 참조
오픈, 창조

 

기술

빅데이터를 처리하는 기술은 수집, 저장, 처리, 분석, 표현 기술 등으로 압축된다. 활용과 예측 측면에서 빅데이터 기술은 추론과 상황 인식 등으로 넓힐 수 있지만, 앞선 다섯 분야의 기술이 주요 핵심이다.

빅데이터의 기술

 

인력

빅데이터에서 인력이란 데이터 내부의 통찰과 인사이트를 발견할 수 있는 데이터 과학자(Data Scientist)를 말한다.

데이터 과학자의 역량과 조건

 

5. 빅데이터 구축 프로세스

빅데이터 시스템 구축 프로세스

설계

설계는 요구사항을 분석하여 전체 시스템의 개념부터 상세 설계까지 밑그림을 그리는 작업이다.

요구 사항 분석 → 참조 데이터 확보 → 공유 보안 체계 → 시스템 개념 설계 → 규모 산정 검토 → 시스템 상세 설계 → 시험 시스템 구현 → 타당성 검증 보안

 

구축

구축은 실제 데이터의 수집과 통합 및 분석을 통해 결과를 배포하는 과정이다.

데이터 획득과 통합 → 데이터 관리와 조직화 → 분석 모델링/수행 → 결과 배포/관리 시스템

 

시험

시험과 연계는 분석 서비스 연계형으로 외부 전문 기관의 데이터와 분석 리소스를 활용하거나, 내부 데이터를 외부 분석 시스템과 연계 활용하는 방식이다.

업체 선정, 시험 환경 구축, 평가 및 최적화 → 외부 서비스 연계

 

연계

목표와 맞는 외부 서비스 업체를 선정하였으면 연계를 위한 서비스를 설계하고 구현한다.

연계 시스템 설계 → 연계 시스템 구현 → 연계 분석 시험

 


너무도 많은 정보가 나열되어 있는 듯하다.

저자는 이 내용들을 기억하기 바란 건가? 아니면 그저 알아두라는 것인가?

 

 

 

[빅데이터] 0. 목차