읽記 (데이터 과학, IT 분야) 34

[빅데이터] 4. 빅데이터 시스템 구축을 위한 요소 기술(1)

빅데이터 시스템을 구축하기 위한 여러 요소 기술에 대하여 소개되어 있다. 여기서는 여러 요소 기술 중 수집기술, 저장기술, 처리기술에 대하여 소개하고 있다. 빅데이터 수집기술의 종류와 간단한 특징을 소개하고, 빅데이터 저장기술의 유형별 종류와 특징, 빅데이터 처리기술의 종류와 특징도 소개한다. 1. 빅데이터 솔루션 체계 빅데이터 기술의 규정 요소(6V) 구분 내용 크기(Volume) 대량의 데이터(페타바이트 수준) 다양성(Variety) 정형 데이터 + 반정형 데이터(XML 등) + 비정형 데이터(동영상, 음악 등) 속도(Velocity) 실시간으로 생성되는 데이터(로그, 대화 내용 등) 진실성(Veracity) 데이터가 가지고 있는 사실성 혹은 의사결정 연관성 시각화(Visualization) 정보 이..

[빅데이터] 3. 빅데이터 시스템 아키텍처(2)

앞장에서 살펴본 내용이 이어 빅데이터 시스템 플랫폼의 구성 내용과 특징을 살펴보고, 빅데이터 시스템의 검증은 어떻게, 어떤 포인트에서 수행하여야 하는지, 또 검증을 위한 테스트 환경은 어떻게 구성되어야 하는지 살펴본다. 어쩌면, 가장 중요한 내용인지도 모르겠다. 빅데이터 시스템을 구축하고 목적에 기여하는 결과를 도출해 내기 위해서는 일을 추진하는 조직이 어떻게 구성되어야 하는지에 대한 내용이 소개된다. 2019/11/22 - [공부하記/빅데이터 시스템 구축 가이드] - [빅데이터] 3. 빅데이터 시스템 아키텍처(1) 3. 빅데이터 시스템 플랫폼 플랫폼(Platform) 소프트웨어 응용 프로그램들을 돌리는 데 쓰이는 하드웨어와 소프트웨어를 말함 구분 내용 데이터 통합 3V(Varierty, Velocity..

[빅데이터] 3. 빅데이터 시스템 아키텍처(1)

빅데이터 시스템을 기능적인 측면에서의 구성방식을 살펴보는 장이다. 빅데이터 시스템을 구축하고자 할 때 고려해야할 사항들을 제시해 주고 있다. 어떤 목적으로, 어떤 데이터를, 어떻게 확보하고 저장할 것인지, 빅데이터 플랫폼의 종류는 어떠한 것들이 있는지, 어떤 특징이 있는지, 구축할 빅데이터 시스템에 대한 검증은 어떻게 해야 하는지, 검증을 위한 테스트 환경은 어떻게 구축하여야 하는지 등에 대한 내용을 소개하고 있다. 여기서는 빅데이터 자체의 확보와 관리, 시스템 구축을 통해 얻고자 하는 것에 대한 목적성을 살펴보고, 어떻게 어떤 방법으로 저장하여 관리할 것인지에 대한 내용까지 살펴보았다. 1. 빅데이터 거버넌스 거버넌스(Governance)란? 일반적으로 ‘과거의 일방적인 정부 주도적 경향에서 벗어나 정..

[빅데이터] 2. 빅데이터 구축 방법

실제 빅데이터 구축에 필요한 사항이라며, 빅데이터의 특성에 따라 살펴보아야 할 사항을 이야기한다. 어떻게 구축할 것인가? / 어떤 데이터를 수집할 것인가? / 구축할 때 핵심 사항은 무엇인가? 어떤 데이터를 어떻게 구축해서 어떻게 사용할 것인가? 빅데이터라는 화두가 처음 회자되었을 때부터, 관심을 가진 많은 사람들이 고민해 왔던 내용일 듯하다. 물론 나도 마찬가지였다. 1. 어떻게 데이터를 구축해야 하는가? 구축 방법론 수요 인식 및 목표 설정 : 부서 간 통합된 문제 제기와 협의가 필요 데이터 역량 검토 : 조직의 데이터 활용과 관리 능력. 지속적인 데이터 유입 여부와 적절한 통제 관리 도입 검토 및 사업 계획 : 기술적인 부문과 비용적인 부문으로 나뉜다. 데이터 수집 비용도 고려 빅데이터 도입 : 협..

[빅데이터] 1. 빅데이터 시대

빅데이터 관련 칼럼이나 서적의 첫 장은 항상 이런 내용으로 시작한다. 이 책도 마찬가지다. '빅데이터란 무엇인가?'로 시작하는 빅데이터에 대한 개론과 거대 담론을 소개하고 있다. 1. 빅데이터란 무엇인가? : 빅데이터 개념 정의, 3V(Volume, Variety, Velocity), 3V+1V에 대한 적당한 소개... 기관 빅데이터 정의 Gartner (2012) 향상된 시사점(Insight)과 더 나은 의사결정을 위해 사용되는 비용 효율이 높고, 혁신적이며, 대용량, 고속 및 다양성의 특성을 가진 정보 자산 McKinsey (2011) 일반적인 데이터베이스 SW가 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터 IDC (2011) 다양한 종류의 대규모 데이터에서 낮은 비용으로 가치를 추출..

[빅데이터] 0. 목차

Part 1 빅데이터의 개념 1장 빅데이터 시대 빅데이터란 무엇인가? 빅데이터를 통해 얻을 수 있는 가치는 무엇인가? 빅데이터에 어떻게 접근해야 하는가? Part 2 빅데이터 구축 방법 2장 빅데이터 구축 방법 어떻게 빅데이터를 구축해야 하는가? 어떠한 데이터를 가지고 시작해야 하나? 빅데이터 구축의 전제조건 빅데이터 구축의 핵심 요소 빅데이터 구축 프로세스 3장 빅데이터 시스템 아키텍처 빅데이터 거버넌스 빅데이터 시스템 아키텍처 수립 전략 빅데이터 시스템 플랫폼 빅데이터 시스템 검증 방법 빅데이터 시스템 구축을 위한 조직 구성 Part 3 빅데이터 기술 및 보안 4장 빅데이터 시스템 구축을 위한 요소 기술 빅데이터 솔루션 체계 빅데이터 수집 기술 빅데이터 저장 기술 빅데이터 처리 기술 빅데이터 분석 기..

[HFDA] 마치며...

'에드워드 터프티'와 그의 시각화 원칙 비교, 대조, 차이를 보여준다. 인과 관계, 구조, 설명, 체계적인 구조를 나타낸다. 다변량 데이터를 나타낸다. 즉, 여러 변수를 보여준다. 단어, 숫자, 이미지, 그래프를 완벽하게 통합한다. 증거에 대해 철저하게 설명한다. 결국, 해석에 대한 프레젠테이션의 성공 여부는 내용의 질, 유효성, 완전성에 달려있다. 오래된 책이기도 하고(초판 발행 2013년), 입문서 중에서도 정말 초급 입문서라고 봐야겠네요. 기초적이긴 하지만, 실제로 있을법한 몇 가지 예를 들어가며 맛보기로 '데이터 분석이란 이런 것이다', '데이터 분석가가 하는 일은 이런 것이야' 정도의 개념 정립을 위해 읽기에 무난한 책인듯합니다. 여하튼, 첫 번째 도서 'Head First Data Analys..

[HFDA] 13. 데이터 정리 / 순서를 부여하다

데이터 정리 원본 데이터의 복사본을 저장합니다. 최종적으로 필요한 데이터 집합의 모양을 미리 시각화합니다. 정돈되지 않은 데이터에서 반복적인 패턴을 찾습니다. 정리와 재구성을 수행합니다. 완성된 데이터를 사용합니다. 이번장도 별다른 게 없네요. 그냥... 입문서답다고나 할까?? [HFDA] 0. 목차

[HFDA] 12. 관계형 데이터베이스 / 관련지어보자

관계형 데이터베이스란? 데이터의 관계 모형에 기반하는 데이터베이스를 말한다. 관계형 데이터베이스 안에 있는 모든 데이터는 키(key)와 값(value)들의 간단한 관계를 테이블화 시킨 구조를 갖는다. 이번 장은 별도 코멘트를 하거나 정리할 만한 사항이 없네요.. 그냥 우리가 흔히 알고 있는 RDB(Relational Database)에 대한 특징 소개(?) 정도가 전부인 듯합니다. 쉽게 한 번 읽어 보시면 충분할 것 같습니다. [HFDA] 0. 목차

[HFDA] 11. 오류 / 오류를 잘 처리하다

"회귀식은 평균적인 결과를 예측한다. 현실의 결과는 당연히 평균과 완전히 동일하지 않다." 보간법(= 내삽), 보외법(= 외삽) ▶ 보간법(= 내삽) : 데이터 범위 내에서 값을 예측하는 것. 독립 변수의 중간값에 대한 해당 함수의 값을 예측하는 것 ▶ 보외법(= 외삽) : 데이터 범위 밖의 값을 예측하는 것. .........................................원래의 관찰 범위를 넘어서서 다른 변수와의 관계에 기초하여 변수의 값을 추정하는 것 회귀식을 통한 데이터 분석은 바로 이 보간 값을 예측하기 위함이다. 보외 값을 예측할 수도 있지만, 더 큰 불확실성과 무의미한 결과를 생성할 가능성이 매우 높아진다. 확률 오차(chance error : root mean square 오차, ..