읽記 (데이터 과학, IT 분야)/빅데이터 시스템 구축 가이드

[빅데이터] 6. 빅데이터를 통한 가치 창출, 데이터 분석 기술 (2)

Light Pillar 2022. 1. 27. 13:48

3. 빅데이터의 핵심 분석 기술, 데이터 마이닝

 

데이터 마이닝이란?

데이터 마이닝은 대량의 데이터에서 알려지지 않은 정보와 패턴을 찾는 지식발견 프로세스다.

데이터 마이닝 개념도

기계학습과 데이터 마이닝이 겹치고 있다. 차이점은 기계학습은 훈련 데이터를 통해 배운 지식을 기반으로 예측하는 반면에, 데이터 마이닝은 데이터베이스 내의 숨은 지식 발견을 목적으로 한다는 것이다.

 

데이터 마이닝광 관계된 여러 분야

구 분 내 용
KDD Knowledge Discovery in Database
숨겨진 지식을 탐구하는 과정을 얘기하며, 데이터 마이닝은 이것의 한 분야이다.
패턴 인식 데이터베이스에서 특정 패턴을 찾는 기법
통계학 수량적 비교를 통해 집단현상을 관찰, 처리하는 학문
뉴로컴퓨팅 Neurocomputing
신경망 등과 관련된 분야를 연구

 

데이터 마이닝 기법

데이터 마이닝의 기법

의사결정 트리

목적 집합을 Yes 혹은 No의 선택으로 나누거나 선택형 항목인 1항, 2항, 3항 등을 통해 그룹화한다. 초기 무분별한 집합은 선택이 진행됨에 따라 분류를 명확히 한다.

의사결정 트리의 예

의사결정 트리에서는 레벨이 더 깊어질수록 분류 이유와 목적이 더 명확해진다.

이러한 이유로 의사결정 트리는 데이터 마이닝뿐만이 아니라 유사한 모델을 통해 아키텍처 설계나 논리적 문제 해결에도 쓰인다.

 

인공 신경망

뇌의 상호작용과 경험 기반의 생물학적 활동을 모형화한 것으로, 인간의 뇌가 경험적 학습을 활동으로 연결하듯이 신경망 분석은 데이터 학습을 통해 패턴을 찾는다. 학습과정을 통해 패턴을 찾는 것은 기계학습과 연관된다.

신경망 분석에서는 내부적인 작업을 알기 어려우며 단지 결과물을 제공할 뿐이다. 이 때문에 신경망 분석은 의사결정 트리와 달리 정확히 예측하는 것이 더욱 중요하다.

인공 신경망 개념도

입력층에서 입력 변수를 받으며, 가운데 은닉층은 입력층 변수를 처리하고 출력층으로 전달한다. 출력층은 목표 변수에 대응하는 곳으로 최종 예측 값을 낸다.

신경망 분석은 주로 인공지능 분야에서 중요한 역할을 하며 음성 인식, 문자 인식, 이미지 인식 등 비정형 데이터 식별에 많이 쓰이며, 빅데이터를 명확하게 하는 하나의 분석도구로써 이용하고 특정 패턴 추적에 유리하다.

 

사례기반 추론

과거 유사한 사례를 통해 문제를 해결하는 방법으로 결과 추정이 어려운 경우, 과거 비슷한 사례를 분석하여 가장 근접한 결과를 내농는다.

사례기반 추론 과정

근접 이웃 방법론 (Nearest-Neighbor Method)이라는 유사성 측정을 수행해야 하고, 유사 사례를 찾으려면 사례에 대한 데이터가 잘 나와 있어야 하며, 유사성 측정이 잘 이루어져야 한다.

 

연관규칙

연관규칙은 장바구니 규칙이라고 하며, 데이터 마이닝의 가장 기본적인 기법이다. 발생한 정보의 확률적 빈도를 분석하여 데이터 구성 요소 간 연관관계를 파악한다.

어떤 사건 A가 일어나면 사건 B가 일어나는 것을 찾는 것으로, 이러한 분석을 위해서는 과거 데이터가 신뢰할 수 있는 정보여야 하며 이를 기반으로 신뢰도를 측정한다,

 

연관규칙의 각 지표

구 분 설 명
지지도 (S) 사건 A와 사건 B가 함께 발생되는 확률이며 높을수록 의미가 있다.
S = P(A∩B) = (A, B 동시 발생)/(전체 발생 수)
신뢰도 (C) 사건 A 발생 시 사건 B가 발생되는 조건부 확률이며 높으면 연관성이 높다.
C = P(B|A) = P(A∩B)/P(A)
향상도 (L) 신뢰도를 사건 B의 발생 비율로 나눈 것으로, 사건 A와 사건 B의 상관관계를 통해 독립적인지 종속적인지 판단한다.
L = P(B|A)/P(B) = P(A∩B)/(P(A)*P(B))
1이면 독립관계이고 1보다 크면 양의 상관간계, 작으면 음의 상관관계이다.

연관규칙은 항목 수와 데이터에 의존적이기에 항목 수보다 데이터가 적으면 결과를 신뢰하기 어렵다는 단점이 있다.