읽記 (데이터 과학, IT 분야)/데이터는 언제나 옳다!

[옳다] 1장. 데이터를 성공적으로 다루는 네 가지 법칙

Light Pillar 2022. 1. 18. 09:27
"비즈니스의 모든 기술 분야에서 통용되는 첫 번째 규칙은 효율적인 작업에 자동화를 적용하면 효율성이 배가된다는 것이다. 두 번째 규칙은 비효율적인 작업에 자동화를 적용하면 비효율성이 배가된다는 것이다."

- 빌 게이츠(Bill Gates)

 

무한대로 확장 가능한 솔루션을 구축하라.

현재 솔루션의 한계를 인지하고, 언제 확장 한계에 도달하는지 이해하고 병목을 해결할 계획을 세우는 것이 중요하다.

 

인터넷을 통해 데이터를 공유할 수 있는 시스템을 구축하라.

시스템은 반드시 대상 고객에게 데이터를 공유할 수 있게 설계해야 한다.

보유한 데이터로 이윤을 창출하는 조직의 구성원은 해당 데이터에 대해 질문할 수 있어야 한다.

과거에는 많은 조직에서 모든 데이터를 단 하나의 관리 가능한 공간에 넣으려고 데이터 웨어하우스 솔루션을 선택했다. 하지만 이제는 데이터 기반의 조직이 되겠다는 것은 활용 사례에 가장 적합한 데이터 사일로에 데이터를 저장하고 다양한 시스템을 통합하는 도구를 구축한다는 것을 의미한다.

 

인프라가 아닌 솔루션을 구축하라.

물리적 하드웨어를 구매해서 설치하고 관리하는 것이 주요 업무가 됐다면 이는 장애물에 부딪혔다는 신호로 받아들여야 한다.

클라우드 기반의 서비스를 이용하는 것이 무조건 좋다는 것은 아니다.

가상 인프라 상에서 서비스를 구축하는 것과 프라이버시 문제 및 사용자 관련 주의사항 사이에는 트레이드오프가 존재한다. 하지만 클라우드 기반 애플리케이션을 구입하거나 구축하는 것이 예외적인 경우가 아니라 기본으로 여겨지고 있다는 점은 분명하다.

 

데이터에서 가치를 찾는 것에 집중하라.

대용량 데이터 솔루션을 구현하는 개발자들이 흔히 저지르는 실수가 있다. 솔루션 아키텍트는 기술에 먼저 관심을 보이고, 그럼 다음에 해결하려는 문제를 고민한다. 전략에 맞게 투자를 결정한다는 관점에서 데이터 솔루션이 답해야 하는 것은 비즈니스와 관련된 질문이라는 사실을 항상 염두에 둬야 한다.

데이터에서 가치를 찾아내려면 답해야 할 비즈니스 질문을 명확히 알고 있는 것이 가장 중요하다.

대용량 데이터를 수집하는 것만으로는 조직에 마술과도 같은 가치를 제공하지 못한다. 데이터에서 오는 실제 가치는 비즈니에서 가장 취약한 부분을 이해하고, 현실에 맞는 질문을 하고, 의사결정을 위한 분석 결과와 통찰을 이용함으로써 얻을 수 있다.


데이터 수집 레이어를 설계할 때 염두에 둬야 할 최우선 목표는 어떤 데이터베이스를 사용하더라도 데이터를 처리할 때 너무 느려지거나 응답 실패가 생기지 않아야 한다는 것이다.

 

소프트웨어는 빠르게 돌아가야 한다. 네트워크를 통해 수천 명에 달하는 사용자의 데이터를 수집하는 데이터베이스를 설계하는 것과 대용량 데이터를 거의 실시간에 가깝게 분석하는 소프트웨어를 설계하는 것은 때론 완전히 다른 문제다.

 

빅데이터 트레이드오프 시대에는 데이터 라이프사이클에 맞춰 대용량 데이터를 처리할 수 있는 시스템을 구축하려면 파이프라인 각 단계별로 특화된 소프트웨어를 사용할 수 있어야 한다.


대용량 데이터 문제를 해결하는 것은 결국 잘 정의된 실용적인 확용 사례에 적합한 확장 전략을 잘 만드는 것으로 요약된다. 데이터 처리 파이프라인에서 각 단계의 문제에 특화된 여러 기술들을 조합해서 사용하는 것이 최선의 해결책이다. 대용량 데이터를 캐싱해서 가용성을 높이고 빠르게 분석하기 위해 여러 기술들을 조합해야 한다. 이렇듯 더 복잡한 파이프라인에서는 데이터 변환 기술이 필요하고, 공유 효율성과 호환성에 특화된 포맷을 사용할 수도 있다.

 

데이터 전략을 잘 결정하려면 핵심 데이터 원칙을 항상 염두에 둬야 한다. 기술을 선택하기 전에 현상황에 마즌 비즈니스 필요성과 활용 사례를 명확히 이해해야 한다. 데이터 솔루션을 확장하는 계획을 미리 수립해야 한다. 엄청나게 데이터가 증가해도 처리할 수 있는 데이터베이스를 처음부터 구축하거나, 새로 등장하는 소프트웨어와 잘 호환되도록 데이터 솔루션을 구축해야 한다. 데이터를 불러오거나 내보내기 할 수 있어야 한다. 내부용인지 아니면 외부용인지 고려해서 데이터 공유전략을 고민해야 한다. 새로운 하드웨어를 구입하고 관리하는 방향은 피하는 것이 좋다. 그리고 무엇보다고 소프트웨어를 개발하는 프로젝트를 시작하기 전에 현재 해결해야 하는 문제를 항상 염두에 둬야 한다.