앞장에서 살펴본 내용이 이어 빅데이터 시스템 플랫폼의 구성 내용과 특징을 살펴보고, 빅데이터 시스템의 검증은 어떻게, 어떤 포인트에서 수행하여야 하는지, 또 검증을 위한 테스트 환경은 어떻게 구성되어야 하는지 살펴본다.
어쩌면, 가장 중요한 내용인지도 모르겠다. 빅데이터 시스템을 구축하고 목적에 기여하는 결과를 도출해 내기 위해서는 일을 추진하는 조직이 어떻게 구성되어야 하는지에 대한 내용이 소개된다.
2019/11/22 - [공부하記/빅데이터 시스템 구축 가이드] - [빅데이터] 3. 빅데이터 시스템 아키텍처(1)
3. 빅데이터 시스템 플랫폼
플랫폼(Platform) 소프트웨어 응용 프로그램들을 돌리는 데 쓰이는 하드웨어와 소프트웨어를 말함
구분 | 내용 |
데이터 통합 | 3V(Varierty, Velocity, Volume) 특징의 데이터 통합과 관리 |
고급 분석 | 내부 시스템에서 고급 분석을 지원 |
시각화 | 상황별 주제 분석에 의한 데이터의 시각화 |
개발 환경 | 새로운 분석 애플리케이션을 위한 개발 환경 제공 |
최적화 | 최적화와 스케줄링 작업 수행 |
보안과 운영 | 시스템 보안과 거버넌스의 적용 |
하둡 시스템 (Hardoop System)
오픈소스 하둡은 플랫폼 구성의 가장 핵심인 시스템으로, MapReduce와 HDFS를 통해 빅데이터를 처리한다.
빅데이터 작업은 하둡 시스템에서 Map과 Reduce로 나뉘는데, Map에서는 작업 또는 데이터를 작은 작업 단위로 쪼개어 주고, Reduce에서 최적화되고 정렬된 작업을 하나의 세트로 결과 처리한다.
스트림 컴퓨팅 (Stream Computing)
스트림 컴퓨팅은 실시간으로 들어오는 데이터 처리를 위한 플랫폼이다.
구조적 데이터뿐만 아니라 비디오, 오디오 형태의 비구조적이며 크기가 매우 큰 데이터도 처리할 수 있는 고급 분석 작업이 더해지고, 이러한 작업을 위해 병렬 처리가 반복된다.
데이터 웨어하우스 (Data Warehouse)
데이터 웨어하우스는 업무 처리 데이터베이스에서 정보를 추출, 가공하여 분석 및 의사결정을 하는 데이터베이스이다.
빅데이터 플랫폼의 데이터 웨어하우스는 기존 시스템과 새로운 시스템간의 통합 측면에서 다루어야 한다.
정보 통합과 거버넌스 (Information Integration & Governance)
빅데이터 플랫폼은 정보 통합 차원에서 구조적, 비구조적, 스트리밍의 여러 데이터를 다뤄야 한다. 거버넌스 측면에서는 개인정보 보안, 빅데이터 관련 메타 데이터, 데이터 생명주기 관리와 마스터 데이터 연계가 있다.
사용자 인터페이스 (Visualization & Discovery / Application Development / Systems Management)
사용자 인터페이스는 크게 비즈니스 현업 사용자, 개발자, 관리자로 나눈다.
가속기 (Accelerators)
가속기는 소프트웨어 성능을 높이는 도구로, 웹 애플리케이션 가속기는 사이트 접속 시간이나 다운로드 속도 향상에 쓰인다.
분석 애플리케이션 (Analytic Applications)
리포팅이나 시각화 툴 등이 포함되며, 예측 분석 툴로는 통계 기반의 SPSS, SAS, R 등이 있다.
4. 빅데이터 시스템 검증 방법
빅데이터 시스템 검증은 테스트를 통해 시스템의 오류 여부를 확인하는 것이다.
빅데이터 시스템은 데이터 소스를 하둡 HDFS에 저장하고, 저당된 데이터는 MapReduce를 통해 처리한다. 처리된 데이터는 결괏값으로 출력되며 이는 분석 리포팅이나 트랜잭션 시스템 처리를 위해 데이터 웨어하우스로 이전된다.
빅데이터 처리의 이 3 단계마다 테스트를 수행하여 데이터가 오류없이 처리되도록 해야 한다.
빅 데이터 처리 단계에서는 데이터 품질 결함이나 성능 문제가 없는지 확인하기 위해 빅 데이터의 3V가 검증됩니다.
- Volume : 처리 및 분석이 필요한 여러 시스템에서 방대한 양의 데이터를 검증한다. 검증 실행 시간을 줄이기 위해 모든 비교 스크립트를 여러 노드에서 병렬로 실행할 수 있다.
- Variety : 텍스트 기반 데이터, 소셜 미디어 데이터와 같은 비구조적인 다양한 데이터가 증가하고 있다.
- Velocity : 여러 디지털 기기의 보급과 통신망의 고속화로 더욱 빠르게 데이터가 생성되고 있다. 데이터가 생성되는 속도와 비즈니스 가치를 이끌어 내기 위한 실시간 분석의 필요성이 증가하고 있다.
기능 테스트 요구 사항 기능 중심으로 수행하는 테스트이다.
비기능 테스트 특성을 중심으로 테스트, 성능, 부하, 화환성, 보안 테스트 등이 있다.
Throughput(처리율) 컴퓨터 시스템의 처리 능력을 나타내는 개념, 단위 시간당 처리할 수 있는 업무 단위량을 말한다.
Name Node HDFS의 구성 요소로 파일 정보, 접근 권한 등의 관리를 수행한다.
Data Node HDFS의 구성 요소로 실제 데이터의 저장과 복제 등을 수행한다.
RTP(Recovery Time Objective) 복원하는 데 걸리는 시간
RPO(Recovery Point Objective) 복원할 때 어느 시점까지 복원할지 정한 지점
테스트 환경
빅데이터에서 대량의 데이터와 병렬 노드를 다룰 테스트 환경 구성은 매우 중요하다.
빅데이터 테스트 인프라 요구 사항 평가
- 빅데이터 처리에 대한 평가
- QA에서 요구하는 테이터 노드의 평가
- 프라이버시 혹은 퍼블릭 클라우드 보안 평가
- 클라우드 환경에서 제공하는 소프트웨어 평가
빅데이터 테스트 인프라 설계
- 클라우드 노드 구성을 디스크 공간, 램 등의 설계
- 클라우드 인프라 서비스 제공자 파악
- 서비스 계약, 유지보수 및 의사소통 방법
- 데이터 보안 설계
- 테스트 전략, 배포, 유형, 데이터 크기 등 설계
빅데이터 테스트 인프라 적용과 유지보수
- 클라우드 테스트 환경 인스턴스 생성
- 설계 시 계획한 하둡 등의 소프트웨어 설치
- 정상 작동 확인을 위한 샘플 테스트 실행
- 테스트 코드의 배포 및 실행
회귀 테스트 오류를 제거하거나 수정한 시스템이나 시스템 컴포넌트, 프로그램이 오류 제거와 수정으로 인해 새로이 유입된 오류가 없는지를 확인하는 일종의 반복 시험
5. 빅데이터 시스템 구축을 위한 조직 구성
빅데이터 전담 조직
구분 | 내용 |
CIO(Chief Information Officer) | 경영과 전사적으로 정보기술과 정보 시스템을 총괄하는 책임자 |
CAO(Cheif Analytics Officer) | 데이터 분석을 통해 비즈니스 의사결정을 돕는 총괄책임자 |
CDO(Cheif Digital Officer) | 아날로그 비즈니스에서 디지털로 변환을 돕는 총괄책임자 대표적으로 모바일 기기, 소셜 미디어, 웹 기반 가상품(가상화폐, 물건)등 대응 |
데이터 과학자가 데이터 분석을 통해 새로운 가치를 찾는 사람이라면, CAO는 이런 가치를 전사적으로 적용하고 비즈니스 의사결정을 돕는다. CAO는 이를 위해 관련부서와의 협의와 경영진과의 의사소통이 원활해야 한다. 전사적인 업무 추진이나 의사소통을 위해서 CAO를 CEO 직속으로 두어야 영향력과 리더십을 충분히 발휘할 수 있다.
성공적인 빅데이터 시스템을 구축하기 위해서는... 두 말이 필요 없다. CEO의 의지와 이해가 반드시 필요하다.
'읽記 (데이터 과학, IT 분야) > 빅데이터 시스템 구축 가이드' 카테고리의 다른 글
[빅데이터] 4. 빅데이터 시스템 구축을 위한 요소 기술(2) (0) | 2019.11.27 |
---|---|
[빅데이터] 4. 빅데이터 시스템 구축을 위한 요소 기술(1) (0) | 2019.11.25 |
[빅데이터] 3. 빅데이터 시스템 아키텍처(1) (0) | 2019.11.22 |
[빅데이터] 2. 빅데이터 구축 방법 (0) | 2019.11.20 |
[빅데이터] 1. 빅데이터 시대 (0) | 2019.11.18 |