다량의 파일을 공유할 때 직면하는 문제
데이터 저장 방법 선택하기
- 파일을 확장 가능하고 경제적인 방식으로 공유할 수 있으면서 물리적으로 저장하는 방식 선택
: IAAS (Infrastructure as a service, 서비스로서의 인프라) - 분산 스토리지 솔루션
적합한 데이터 포맷 선택하기
- 사용자에게 제공하는 데이터의 포맷 결정
: CSV - 다양한 호환성 확보 또는 플랫 데이터로 표현하기 쉬운 경우
: XML(eXtensibe Markup Language) - 다양한 포맷으로 변환해야 하는 구조화된 문서
: JSON(JavaScript Object Notation) - 애플리케이션 개발자와 비관계형 데이터베이스 관리자에 유용
#CSV 예제
first_name,last_name,book,date
"Michael", "Manoochehri", "Data Just Right", 2013
<!-- XML 예제 -->
<xml>
<author>Michael Manoochehri</author>
<list>
<book position="1">Data Just Right</book>
</list>
</xml>
// JSON 예제
{
"name": "Micheal",
"booK":{"title":"Data Just Right","date":"2013"}
}
: 데이터 직렬화(data serialization) - 데이터를 바이트 배열(바이너리) 방식으로 변환
- 데이터에 대한 설명이나 스키마를 제공하고 발신자와 수신자 모두에게 공통된 장소에 스키마를 정의해야 한다.
- 메시지 송수신자 모두 데이터를 직렬화하기 위해 프로그래밍 언어를 이용해 표준 인터페이스를 구축해야 한다.
--- 아파치 쓰리프트(Apache Thrift), 프로토콜 버퍼(Protocol Buffers), 아파치 아브로(Apache Avro)
어떻게 데이터를 보여줄 것인가?
- 사용자가 어떻게 데이터에 접근할 것인가
문제 해결하기
- 데이터를 저장하고 공유하는 전략을 다루고, 특정 활용 사례에 맞는 최적의 데이터 포맷을 이해한다.
- 다양한 활용 사례와 데이터를 처리하고 분석하고 시각화하는 전략이 필요하다.
'읽記 (데이터 과학, IT 분야) > 데이터는 언제나 옳다!' 카테고리의 다른 글
[옳다] 1장. 데이터를 성공적으로 다루는 네 가지 법칙 (0) | 2022.01.18 |
---|---|
[옳다] 0. 목차 (0) | 2022.01.18 |
[옳다] 데이터는 언제나 옳다! (0) | 2019.11.12 |