읽記 (데이터 과학, IT 분야)/빅데이터 시스템 구축 가이드

[빅데이터] 4. 빅데이터 시스템 구축을 위한 요소 기술(2)

Light Pillar 2019. 11. 27. 23:45

앞선 장에서는 빅데이터 시스템 구축의 요소 기술 중 수집 기술, 저장 기술, 처리 기술에 대한 내용을 살펴보았다.

 

여기서는 빅데이터 시스템 구축 요소 기술 중 텍스트 마이닝, 오피니언 마이닝, 소셜 분석, 클러스터 분석 등의 빅데이터 분석 기술에 대한 내용들이 소개되고, 빅데이터의 분석 결과를 인지하기 쉽도록 표현하는 방법(시각화의 여러가지 형태 등)들에 대한 소개의 장이다. 

 


 

5. 빅데이터 분석 기술

마이닝은 수집된 데이터에서 분석을 통하여 새로운 규칙이나 패턴을 찾아내는 것을 말한다.

 

텍스트 마이닝

일반적인 데이터 마이닝은 관계형 데이터베이스 기반의 구조화된 데이터를 분석하는 것을 말한다. 그러나 비구조적 문서가 대부분인 빅데이터는 일반적인 데이터 마이닝을 수행하기 어렵기 때문에 자연어 처리 기술과 문서 처리 기술을 이용해 포맷이 없는 데이터를 특정 포맷에 맞게 만들고 여기서 정보를 추출하는 텍스트 마이닝을 수행한다.

 

테이터 마이닝과 텍스트 마이닝 비교

비교 내용 데이터 마이닝 텍스트 마이닝
대상 데이터 수치 / 범주화된 데이터 텍스트
데이터 구조 관계형 데이터베이스 비정형 텍스트
목표 미래 상황과 결과의 예견 / 예측 적합한 정보를 획득하고, 의미를 정제하고 범주화함
방법 기계학습 기계학습 포함
인덱싱, 신경망 처리, 자연어 처리, 오톨로지 등 적용 가능
성숙도 1994년이후 광범위하게 구현 2000년 이후 광범위한 구현 시작
기계학습(Machine Learning) 인공 지능의 한 분야로, 컴퓨터가 학습할 수 있는 알고리즘과 기술을 개발하는 분야

신경망 처리 뇌기능의 특성 몇 가지를 컴퓨터 시뮬레이션으로 표현하는 것을 목표로 하는 수학 모델

자연어 처리(Natural Language Process) 인간이 발화하는 언어 현상을 기계적으로 분석해서 컴퓨터가 이해할 수 있는 형태로 만드는 자연 언어 이해 혹은 그러한 형태를 다시 인간이 이해할 수 있는 언어로 표현하는 제반 기술을 의미. 컴퓨터를 이용하는 사람 언어의 이해, 생성 및 분석을 다루는 인공 지능 기술

온톨로지 사람들이 세상에 대하여 보고 듣고 느끼고 생각하는 것에 대하여 토론으로 합의를 이룬 바를 개념적이고 컴퓨터에서 다룰 수 있는 형태로 표현한 모델. 온톨로지는 일단 합의된 지식을 나타내므로 어느 개인에게 국한되는 것이 아니라 그룹 구성원이 모두 동의하는 개념

텍스트 마이닝 처리 절차

 

"텍스트 마이닝은 데이터 마이닝을 위해 비구조적 데이터를 구조화하는 과정이다."

 

 

오피니언 마이닝

오피니언 마이닝(Opinion Mining)은 최근에 주목받는 학문으로 정보 검색(IR : Information Retrieval, 집합적인 정보로부터 원하는 내용과 관련이 있는 부분을 얻어내는 행위를 말한다. 이를 위해 메타 데이터나 색인을 사용할 수 있다.), 자연어 처리 등의 기법을 이용하여 의견을 추출하는 분석 기술이다.

오피니언은 여러 사람의 의견을 말하고 오피니언 마이닝은 이러한 의견을 분석하는 것이다.

 

오피니언 마이닝을 위한 주요 기술

  • 콘텐츠 분류(Content Categorization) : 사전에 분류할 정보를 정의하고, 정의된 항목 중 글의 내용에서 관련 항목을 분류한다. 예를 들어, 평판 주제라면 기업의 이미지, 상품 등에 대한 각각의 만족도 수준(매우 만족~매우 불만)을 의미에 따라 자동으로 분류한다.
  • 온톨로지 관리(Ontology Management) : 문장 내에서 사용한 단어에 가중치를 부여하여 문장별로 중요도에 대한 점수표를 만들어 가장 중요한 문장(가중치가 가장 높은 문장)을 추천한다.
  • 감성 분석(Sentiment Analysis) : 문장의 의미를 파악하여 글의 내용에 대하여 긍정과 부정, 좋고 나쁨을 기준으로 분류하거나 만족과 불만족에 대한 강도를 지수화한다. 지수를 기반으로, 고객의 감성 트랜드를 시계열로 분석하여 고객 감성 변화에 기업이 신속하게 대응하고, 부정적인 의견 확산을 방지한다.
  • 텍스트 마이닝(Text Mining) : 수많은 문서를 분석하여 문서 내에서 핵심 키워드를 찾아내고 키워드 간의 관계 정보를 생성한다. 이후 관계 정보를 사용하여 전체 문서 내용을 대략 신속하게 확인 할 수 있도록 한다.

소셜 분석

소셜 네트워크 분석(Social Network Analysis, SNA)은 소셜 사이언스(Social Science, 사회과학 : 인간과 인간 사이의 관계에서 일어나는 사회 현상과 인간의 사회적 행동을 탐구하는 과학의 한 분야)와 네트워크 분석, 그래프 이론 등 폭넓은 분야에 걸쳐 있다.

소셜 분석은 쉬운 그래프 작성과 분석을 위한 툴이 필요하다. 대표적인 툴로는 NodeXL, Pajek, R packages for SNA 등이 있으며, 이를 통해 시각화와 분석을 수행한다.

 

SNA의 기본 개념

구분 내용
Network 다양한 소셜 네트워크를 표현하는 법
Tie Strength (유대 강도) 네트워크 내의 강하고 약한 연결 고리를 식별하는 법
Key Player 네트워크 내에서 key / 중심 노드를 식별하는 법
Cohesion (응집력) 전체 네트워크 구성을 측정

 

클러스터 분석

클러스터 분석(Cluster Analysis)은 유사한 그룹을 묶어 새로운 지식과 가치를 얻는 방법이다.

클러스터 분석은 계층과 비계층으로 나뉘는데, 그 차이점은 자료의 크기이다. 계층적 클러스터 분석은 자료 크기가 제한적이며, 비계층적 클러스터 분석에서는 자료 크기에 제한이 없다.

 

6. 빅데이터 표현 기술

표현 기술은 무분별한 데이터의 패턴을 쉽게 찾을 수 있도록 해주는 데이터 시각화 기술이다. 그림과 차트, 그래프, 사진 등 직관적으로 파악이 가능한 요소들로 구성된다.

 

빅데이터 시각화는 다음의 3가지 요구를 만족시킨다.

  • 요약(Summarization) : 데이터의 양을 시각화 하는데 많이 사용. 다양한 색상을 통해 시각적 이해를 도와줌.
  • 입자감(Granularity) : 데이터를 속성별로 분류하여 보여주는 시각화 방법.
  • 노이즈 필터링(Noise filtering) : Data Reduction을 거쳐 노이즈 데이터를 제거, 주요 데이터를 효과적으로 표현.

빅데이터 시각화 방법

  • 시간 시각화 : 시간의 변화에 따른 값을 표현하는 것으로 변화하는 값 자체가 중요하면 막대 그래프를, 시간에 따른 값 자체의 변화가 중요하면 시계열 그래프로 표현하는것이 좋다.
  • 분포 시각화 : 전체 대비 일정 부분의 분포를 보여주는 방식으로 파이 차트가 많이 쓰이고 시간에 따른 분포의 변화를 보여주는 방식으로 누적영역그래프가 많이 쓰인다.
  • 관계 시각화 : 서로 다른 요소들 사이의 관계를 찾는 시각화로, 상관 관계는 한 요소의 변화가 어떤 방법으로 다른 요소를 변화케 하는지 알아보는 방법(주로 산포도 이용)으로, 분포는 평균과 중앙값, 최빈값 등을 틍해 데이터의 분포를 나타내는 방법(줄기-잎 그래프, 막대 그래프 등)으로 많이 쓰인다.
  • 비교 시각화 : 여러 변수를 비교하는 방법, 색상 강도를 통해 어떤 부분이 많이 쓰이거나 참조되었는지 쉽게 파악할 수 있다.(다차원 통계 데이터 비교)
  • 공간 시각화 : 지리 정보를 이용하여 해당 데이터 값을 지리 데이터와 결합하여 표현한다.
  • 인포그래픽 : 복잡하고 어려운 전문지식 또는 데이터를 보다 쉽고 명확하게 이해할 수 있도록 그래픽과 텍스트를 균형있게 조합하여 시각화하는 방법이다. 인포그래픽은 빠르고 다양한 정보를 단순화하는 장점이 있다.

시각화 데이터 검색 툴을 통한 3V 접근

구분 내용
Volume 전통적 BI와는 달리 대용량의 데이터를 다룸으로써 풍부한 인사이트를 얻음
데이터 홍수를 단순화하여 다룸으로써 가치 있는 의미를 찾을 수 있음
Variety 여러 데이터 소스와 구조절, 반정형, 비정형 형태의 다양한 데이터 접근과 조합에 따른 주요 의미를 발굴
버블 차트, 3D 데이터 랜드스케이프, 트리맵, 박스플롯, 히트맵, 워드 클라우드 등의 그래픽 유형을 사용하여 다양한 소스의 복합 데이터에 대한 해석, 뷰, 상호작용이 가능
Velocity 배치 작업의 한계를 벗어나 데이터 스트림을 실시간으로 파악할 수 있음
리포트 작성의 지연 시간을 최소화하여 보여주고 분석 가능하게 함

대표적인 시각화 툴

구분 내용
Tableau 스탠퍼드 대학교수인 펫 하나한(Pat Hanrahan)의 R&D 프로젝트에서 탄생
비주얼 쿼리 언어인 VizQLTM을 사용함/이 언어는 사용자가 데이터베이스와 상호작용하면서 그래픽 / 시각적인 결과를 얻을 수 있는 선언 언어임
구글 오픈 차트 구글에서 open API를 통해서 제공하는 데이터 시각화 도구
웹사이트에 대한 데이터 시각화를 지원하여, 간단한 파이 차트부터 복잡한 계층 트리 지도까지 다양한 형태의 그래픽 기능을 지원함
Flicker API flicker에서 제공하는 open API를 이용하여 사용자가 원하는 사진과 관련한 데이터 시각화 기능을 구현할 수 있음
IBM Many Eyes 회사의 판매 데이터부터 풋볼시합 결과, 구조화되어 있지 않은 이메일 정보에 이르기까지 많은 양의 데이터를 시각화함으로써 알지 못했던 패턴을 발견할 수 있도록 해주는 데이터 시각화 기술
R 빅데이터 시대의 통계 분석 도구를 넘어 기업의 분석 플랫폼으로서 역할 수행
구글 Visualization Chart API로 R에서 구굴과 통신하여 데이터의 고급 분석 가능
그 외에 Spotfire, Qlik, View 등의 상업용 데이터 시각화 프로그램과 연동을 지원

과거에는 데이터의 범위나 크기 등이 한정적일 수 밖에 없어서 시각적 접근 방법이 크게 중요하지 않았다. 하지만, 이제는 다양한 데이터 집합을 어떤 식으로 쉽게 보여주는가가 데이터 제공자나 사용자에게 필요한 부분이 되었다. 

 


개념적인 내용이 많아서 도식화 되어 있는 것을 같이 살펴보는 것이 좋을 것 같다.

적절한 이미지는 추후에 보충하기로 하자...

 

2019/11/25 - [공부하記/빅데이터 시스템 구축 가이드] - [빅데이터] 4. 빅데이터 시스템 구축을 위한 요소 기술(1)

 

 

[빅데이터] 0. 목차