새로운 석유, 데이터를 대하는 바른 자세

<고영혁의 데이터 액션>

  • 고영혁 트레저데이터 지사장 / 고넥터 대표
  • 입력 : 2017.11.06 17:30:50   수정 : 2017-11-07 09:49:00
  • 프린트
  • 이메일
  • 페이스북
  • 트위터
  • 카카오스토리
  • 공유
“데이터는 새로운 석유다(Data is the new oil).”

포브스, 이코노미스트, 포춘 등 세계적으로 권위 있는 매체에서 근 10년간 꾸준히 다룬 주제다. 인간 생활에서 필수불가결한 각종 동력 및 플라스틱, 화학섬유, 아스피린과 같은 각종 원료, 제품을 만들어내는 원유의 가치와 산유국이 상징하는 의미를 생각해보면 이 문장이 데이터의 가치를 얼마나 드라마틱하게 표현했는지 알 수 있다.

유명 매체들에서 이런 식으로 많이 계몽(?)해서 그런지 몰라도 데이터가 중요하다는 주장은 이제 굉장히 흔한 이야기가 됐다. 2010년대 초반에는 빅데이터라는 용어를 빌어 뭔가 마술 같은 일을 만들어내는 도구라는 느낌으로 시장에서 받아들였다면 지금은 석유라는 비유에 맞게 큰 가치를 만들어내는 원천 재료 자체로 인식을 하고 있다.
그런데 안타깝게도 딱 여기까지인 경우가 여전히 많다. 중요하긴 중요한데 그래서 데이터를 어떻게 만들어내고 관리해야 석유에 비유할 만한 막대한 가치를 창출할 수 있는지는 여전히 오리무중이다.

대기업들은 인공지능(AI), 딥러닝, 챗봇 등 최근 뜨거운 감자가 된 데이터 활용 방법에 대해 새로 팀을 구성해 시범 프로젝트를 진행하는 등 여러가지 노력을 하고 있다. 그러나 정작 이러한 것들을 돌리기 위해 반드시 갖춰야 할, 제대로 된 데이터를 확보하고 관리하는 방법에는 상대적으로 관심이나 고민이나 노력이 부족한 상황이다.

대기업이니까 우린 석유와 같은 데이터가 이미 많다고 생각하는 경우도 다반사인데 데이터로 실제로 값어치 있는 무언가를 만들어보는 과정에서 대개는 그것이 착각이었음을 알게 된다. 양은 많을지 몰라도 제대로 정리돼 있지 않거나 처음부터 제대로 설계되지 않았거나 필요한 다른 데이터와 연결하기가 어려운 상황이기 때문이다. 근래 이런 문제를 해결하기 위해 데이터 거버넌스 조직을 셋팅한 대기업들도 있지만 내부 상황을 볼 때 여전히 어려움이 많아 보인다.

새로운 석유라고 할 수 있는 데이터를 제대로 만들고 관리하려면 어떤 자세로 데이터를 대해야 할까? 재미있게도 이 논의의 발단이 된 석유와 데이터를 비교해 보면 실마리를 찾을 수 있다. 크게 석유의 생성, 정제의 관점에서 살펴보도록 하자.

석유와 데이터의 공통점

석유는 기본적으로 탄화수소로 구성된 물질로서 생명체에서 비롯된 유기물이 지하에 매몰돼 적절한 압력과 온도 조건에서 오랜 시간에 걸쳐 생성된다는 학설이 지배적이다. 이 때 산소에 노출되면 바로 산화해 일산화탄소나 이산화탄소가 되기 때문에 대기와의 접촉이 쉽지 않은 해저 지층에 해양 플랑크톤 등이 퇴적돼 만들어지는 것으로 보고 있다. 석유 자체도 원료이지만 석유를 만들어내는 원천 재료가 있고 적절한 환경 조건이 갖춰져야 한다는 점이 핵심이다. 석유는 지금 인위적으로 만들어서 바로 쓸 수 있는 것이 아니라 오랜 시간에 걸쳐 만들어진 것을 발굴해 쓰고 있다.

데이터의 경우 석유처럼 세상에 이미 존재하는 것을 찾아서 사용할 수도 있다. 단 최소한의 조건만 충족시키면 바로 가치가 보장되는 석유와 달리 데이터는 자신에게 잘 맞아서 가치를 높여줄 수 있는 데이터를 찾기가 쉽지는 않다. 만들어가려는 비즈니스와 서비스에 따라 가치를 증폭시킬 수 있는 데이터의 속성과 형태는 저마다 다르며, 같은 범주에 들어있는 데이터라고 하더라도 세부적인 표현 방법에 따라 가용 여부가 달라지는 경우도 허다하다. 생각보다 쓸만한 데이터가 여기저기 많이 있기도 하지만 문제는 자신이 필요로 하는 데이터를 찾기 위한 보편적인 검색이나 거래 시장이 아직 대중적으로 활성화되어 있지는 않다.

하지만 석유와 달리 데이터는 사용한다고 없어지는 것이 아니고 더군다나 길지 않은 시간 안에 직접 생산해 바로 활용할 수 있다. 또 이렇게 해야 제대로 된 가치를 발휘할 수 있다. 빅데이터가 화두가 되면서 데이터라는 것은 일단 어느 정도 규모 이상으로 축적하거나 확보한 다음에 활용할 수 있는 것으로 오해하는 사람들이 꽤 있는데 잘못된 접근법이다.

앞에서 이야기한 것처럼 제대로 활용할 수 있는 데이터의 조건은 생각보다 까다롭다. 즉 직접 데이터를 만들어서 쌓는 경우에도 추후에 어떻게 활용할 지 어느 정도는 범위와 방향성을 설정하고 그에 맞게 설계해서 쌓아야 가치있게 활용할 수 있지 그렇지 않고 별다른 고민 없이 쌓기만 하면 양만 많을 뿐 쓰지 못하는 쓰레기가 되는 경우가 실제로 허다하다. 심지어는 뒤에 이야기할 정제를 열심히 한다고 해도 쓸 수 없는 데이터만 잔뜩 들고 있는 경우들을 어렵지 않게 볼 수 있다.

한편 빅데이터라고 부를 정도의 대규모 데이터를 생산, 관리, 활용하는 것은 과거에는 많은 시간과 돈과 사람이 투입돼야 하는 일이었기에 대기업에서만 가능한 일로 여겨졌지만 지금은 구글, 아마존, 마이크로소프트 같은 회사들이 이런 환경을 클라우드 인프라 서비스 형태로 적정 가격에 제공하고 있다. 좀 더 바로 쓸 수 있는 플랫폼 레벨에서는 트레저데이터 같은 회사들의 솔루션을 크고 작은 기업들이 활용하면서 빅데이터 활용에 대한 허들이 많이 낮아진 상태다. 이처럼 필요한 데이터를 설계해 일단 생산하기 시작하면 그 이후의 장벽은 거의 없어진데다가 대기업 정도의 사업이나 서비스 규모가 돼야 대량의 데이터가 생산되는 것이 아니라 스타트업이라고 하더라도 데이터가 핵심이 되는 애드테크(adtech) 분야의 스타트업이라면 하루에 수십억건 이상의 데이터를 생산하고 처리하는 모습을 어렵지 않게 찾아볼 수 있다.

대기업의 서비스라면 사용자 1000만명은 기본으로 생각하는 경향이 있는데 애드테크 분야가 아니라고 하더라도 알차게 활용하는 사용자를 20만명 정도 확보한 서비스라면 서비스를 사용하는 과정에서 실시간으로 수집할 수 있는 행동 로그 데이터만 해도 상당한 양이 나온다. 이 데이터는 해당 서비스와 비즈니스를 고도화하는 데에 활용할 수 있으며 그 외에도 여러가지 가치를 만들어낼 수 있는데 쌓아가면서 바로 가치를 만들어낼 수 있다는 점에 주목해야 한다.

데이터에도 ‘사람에 대한 이해’가 핵심

행동 로그 데이터와 관련해서는 석유와 재미있는 상관관계를 도출해 낼 수 있는데 석유도 갑자기 만들어지는 것이 아니라 유기물의 퇴적에 의해 생성되는 것처럼 이 데이터 역시 유기체인 사람이 서비스를 활용하는 과정에서 생성된다. 즉 이용자가 서비스와 어떻게 상호작용을 하는지 제대로 이해하고 사업적으로 어떻게 연결될지 고민해야 값진 데이터를 설계하고 생산할 수 있게 된다. 비단 행동 로그 데이터뿐만이 아니라 거의 모든 데이터는 결국 우리가 살아가는 세상을 바탕으로 생성되고 사람과 독립적인 자연 현상에 대한 데이터도 있지만 사회 현상과 관련된 데이터는 사람을 떼어놓고 생각할 수가 없기 때문에 결국 데이터를 잘 설계해서 생산하려면 사람에 대한 이해가 핵심이다.

큰 가치를 만들어내거나 비싸게 팔 수 있는 데이터가 되려면 이처럼 설계가 중요하다. 데이터 설계는 모니터 앞에 앉아 이런저런 문서를 본다고 잘 나오는 것이 아니라 초기 의도, 그리고 실제 활용시 계속 수정하고 개선해야 향상된다. 활용해 봐야 무엇이 잘못되었는지 무엇이 부족한지 구체적으로 알 수 있고 이것을 토대로 개선하는 작업을 반복하는 것, 결국 PDCA(Plan – Do – Check – Act/Adjust) 사이클의 철학이 데이터의 생산에도 마찬가지로 적용된다.

스타트업에 이 철학을 적용한 것이 린 스타트업(Lean Startup)이라면 같은 논리로 린 데이터(lean data)가 중요하다고 말할 수 있다. 일단 생산해서 쌓고 나서 정제하고 활용하자는 자세는 데이터에는 맞지 않다. 활용을 해 봐야 정제의 방향을 잡을 수 있고 정제해 가면서 쌓지 않으면 결과물은 활용하기 어려운 애물단지 쓰레기가 될 뿐이다.

여기서 정제라는 의미를 좀 더 구체적으로 파고들어갈 필요가 있다. 석유는 여러가지 물질들이 혼합돼 있고 각각의 끓는 점이 다르기 때문에 단계적으로 온도를 높여 끓여서 기화되는 것들을 액화시키는 분별증류를 통해 단계마다 다른 물질인 LPG, 휘발유, 나프타, 등유, 경유, 중유, 윤활유, 아스팔트 등을 얻어낸다. 이렇게 얻어낸 1차 정제의 결과물들로 끝나는 것이 아니라 이들을 활용해 플라스틱을 만들어내기도 하고 섬유를 만들어내기도 하면서 계속적으로 부가가치를 창출한다.

데이터도 마찬가지이다. 최초 생성되는 데이터를 원천데이터 혹은 메타데이터라고 하는데 이것이 석유, 원유에 해당한다. 데이터를 정제해서 다양한 파생 데이터를 만들어내 각각 용도에 맞게 활용하고 이 파생 데이터들을 다른 데이터들과 결합시켜서 완전히 새로운 가치를 만들어내는 데이터 제품의 원료로 쓰이고 있다. 석유를 바라보는 관점이 데이터에 얼마나 잘 들어맞는지 보여주는 또 하나의 대목이다.

하지만 석유와 다른 점은 메타데이터에서부터 어느 정도 구조 설계가 되어 있지 않으면 제대로 정제할 수도 없고 다른 데이터와 결합시킬 수도 없다는 점이다.
이 메타데이터에 대한 구조 설계를 제대로 하기 위해서 앞에서 강조한 것이 활용과 실행이다.

최근 글로벌 유명 리서치 기관인 가트너는 메타데이터 플랫폼의 활용이 앞으로 글로벌 기업의 중요한 숙제가 될 것으로 보고 관련 컨퍼런스를 개최하기도 했다. “Data is the new oil”은 확실히 맞는 말이지만 이제는 이 명제를 추상적으로 받아들일 때가 아니라 데이터 액션을 통해 실제로 데이터를 활용해 가면서 더 값어치 있는 데이터로 진화시켜가면서 생산하는 자세를 내재화해야 하는 시기이다. 내재화에 필요한 것은 사람에 대한 이해이고 더 나아가면 서비스와 사람 사이의 상호작용에 대한 이해다. 데이터 액션의 주체를 대기업으로 한정하는 소극적인 자세를 혹시라도 갖고 있다면 바로 버려야 한다는 것을 염두에 두자.

[고영혁 트레저데이터 지사장 / 고넥터 대표]
[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]
섬네일 이미지
고영혁 트레저데이터 지사장 / 고넥터 대표 다른기사 보기
통계학, 경제학, 경영학을 공부하고 NHN과 지마켓에서 데이터를 활용한 여러 서비스와 사업을 기획, 성장시켰다. 현재 데이터 전문 컨설팅 기업 고넥터의 대표이자 실리콘밸리 소재 글로벌 기업인 트레저데이터 지사장으로 재직하면서 전세계의 다양한 기업들이 데이터를 활용해서 가치를 낼 수 있도록 돕고 있다.