읽記 (데이터 과학, IT 분야)/데이터는 언제나 옳다!

[옳다] 2장. 대용량의 미가공 데이터를 호스팅하고 공유하기

Light Pillar 2022. 1. 19. 17:04

다량의 파일을 공유할 때 직면하는 문제

 

데이터 저장 방법 선택하기

 - 파일을 확장 가능하고 경제적인 방식으로 공유할 수 있으면서 물리적으로 저장하는 방식 선택

 : IAAS (Infrastructure as a service, 서비스로서의 인프라)  -  분산 스토리지 솔루션

 

적합한 데이터 포맷 선택하기

 - 사용자에게 제공하는 데이터의 포맷 결정

 : CSV  -  다양한 호환성 확보 또는 플랫 데이터로 표현하기 쉬운 경우

 : XML(eXtensibe Markup Language)  -  다양한 포맷으로 변환해야 하는 구조화된 문서

 : JSON(JavaScript Object Notation)  -  애플리케이션 개발자와 비관계형 데이터베이스 관리자에 유용

#CSV 예제
first_name,last_name,book,date
"Michael", "Manoochehri", "Data Just Right", 2013

<!-- XML 예제 -->
<xml>
  <author>Michael Manoochehri</author>
  <list>
    <book position="1">Data Just Right</book>
  </list>
</xml>

// JSON 예제
{
"name": "Micheal",
"booK":{"title":"Data Just Right","date":"2013"}
}

  : 데이터 직렬화(data serialization)  -  데이터를 바이트 배열(바이너리) 방식으로 변환

        - 데이터에 대한 설명이나 스키마를 제공하고 발신자와 수신자 모두에게 공통된 장소에 스키마를 정의해야 한다.

        - 메시지 송수신자 모두 데이터를 직렬화하기 위해 프로그래밍 언어를 이용해 표준 인터페이스를 구축해야 한다.

        --- 아파치 쓰리프트(Apache Thrift), 프로토콜 버퍼(Protocol Buffers), 아파치 아브로(Apache Avro)

 

어떻게 데이터를 보여줄 것인가?

 - 사용자가 어떻게 데이터에 접근할 것인가

 

문제 해결하기

 - 데이터를 저장하고 공유하는 전략을 다루고, 특정 활용 사례에 맞는 최적의 데이터 포맷을 이해한다.

 - 다양한 활용 사례와 데이터를 처리하고 분석하고 시각화하는 전략이 필요하다.