억대 연봉 받는 데이터 사이언티스트가 갖춰야 할 8가지 역량 ②

<고영혁의 데이터 액션>

  • 고영혁 트레저데이터 지사장 / 고넥터 대표
  • 입력 : 2017.08.25 17:47:18   수정 : 2017-08-29 09:37:42
  • 프린트
  • 이메일
  • 페이스북
  • 트위터
  • 카카오스토리
  • 공유
*편집자 주 : 이 글은 지난 16일 게재된 '억대 연봉 받는 데이터 사이언티스트가 갖춰야 할 8가지 역량 ①'의 후속편이다. 전 글을 읽기 원하는 독자는 여기를 클릭하면 볼 수 있다.

다섯째는 하둡(Hadoop)이다.

항상 적용되는 것은 아니지만 일반적인 사람들이 흔히 생각하는 컴퓨터의 저장용량 단위인 기가바이트, 테라바이트를 훌쩍 뛰어넘는 방대한 양의 데이터, 즉 빅데이터를 대상으로 작업하는 경우가 종종 있다.
빅데이터를 제대로 처리하기 위한 대표적인 기술 환경이 바로 하둡으로 통칭되는 다양한 도구들이다. 이런 환경에서 데이터의 저장과 전송, 처리와 분석 등이 이뤄지다보니 데이터 사이언스를 깊숙한 레벨까지 최적화하려면 하둡을 이해하고 적절한 환경을 구축해 쓸 줄 알아야 한다.

하지만 하둡이 등장한 지 얼마 안된 빅데이터 시대 초창기와 달리 지금은 토탈 솔루션 형태로 패키징해서 작업 환경을 제공하는 경우가 늘어나고 있다. 따라서 이런 하나하나의 기술적인 환경에 대한 이해도가 떨어지더라도 데이터 사이언스를 하는 데에 큰 문제가 생기지는 않는다. 단 만들어 놓은 데이터 사이언스 환경을 쓰는 것이 아니라 자신에게 맞는 환경을 직접 구축하고 최적화하려면 역시 하둡에 대한 상당수준의 지식과 경험이 필요하다.

 기사의 0번째 이미지
사진설명하둡 에코 시스템 [사진 출처 : http://1004jonghee.tistory.com]
▶ 여기를 누르시면 크게 보실 수 있습니다
여섯째 시각화다.

시각화는 통계에서 잠시 언급한 탐색적 데이터 분석(EDA)을 수행할 때에도 인간의 시각을 통한 직관적인 발견, 해석을 가능하게 해 주는 중요한 역량이다. 숫자를 통해 분석해야 하는 경우도 많지만 숫자가 전부라고 생각하면 문제를 효율적으로 해결하기 어렵다. 인간은 시각 자극에 대해 민감하게 반응하는 특성을 갖고 있기 때문에 경우에 따라 그래프를 간단하게라도 그려보는 것이 문제 해결 단서를 훨씬 쉽게 찾아낼 수 있는 방법이 되기도 한다.

물론 이제는 이미지 자체에 딥러닝을 적용해 인간의 시각으로도 놓치기 쉬운 것들을 훨씬 정교하고 빠르게 분류하는 경우들이 많아지고 있지만 단순한 분류로는 도출하기 힘든, 소위 ‘직관’의 영역에 있는 것들은 시각화를 통해 효율적으로 발동되기 때문에 앞으로도 한동안은 여전히 의미있는 역량이 될 것이다. 같은 데이터라고 하더라도 어떤 시각화 기법이나 그래프로 표현했는지에 따라 이해하고 발견하기 쉬운 포인트가 달라진다. 즉 데이터의 기본 속성과 데이터를 통해 무엇을 알아내고자 하는지에 따라 최적의 시각화 기법이 달라지기 때문에 어떤 상황에 어떤 시각화를 적용하는 것이 적절한지 제대로 아는 것은 데이터 사이언스에서 중요한 역량이 된다.

시각화는 또 다른 관점으로도 볼 필요가 있다. 데이터 사이언스의 결과물 역시 결국 의사 결정 및 의사 결정에 대한 근거다. 이 결과물은 이해 관계자들에게 설명 또는 설득의 대상이 되는데 적절한 시각화는 시각적 스토리텔링을 통해 이해와 설득의 효율을 상당히 높여준다. 전문적인 정보 시각화 디자인의 영역에 들어가면 데이터 사이언티스트와는 독립적인 커리어를 타는 것이 맞지만 데이터 사이언티스트는 시각화 할 주제와 소재만 찾아주고 시각화는 별개라고 생각하는 접근법보다 긴밀하게 연결해 같이 고려하는 접근법이 성과 내기에 훨씬 낫다.

 기사의 1번째 이미지
사진설명인포그래픽 사례 [사진 출처 : 비주얼리]
▶ 여기를 누르시면 크게 보실 수 있습니다
일곱째는 분야 전문성이다.

현업에서 흔히 도메인 지식(domain knowledge)이라고도 표현되는 이것은 문자 그대로 데이터 사이언스를 통해 풀고자 하는 문제가 속한 업계, 산업에 대한 전문성을 의미한다. 예를 들어 게임을 즐기는 이용자들의 게임 이용 데이터를 토대로 더 오래도록 즐기는 게임으로 발전시키거나 사람들이 돈을 더 많이 낼 법한 게임 아이템을 설계하는 문제는 데이터 사이언스 접근법으로 해결할 수 있지만 이 때 필요한 것이 게임 자체와 게임을 즐기는 이용자와 게임으로 돈을 버는 사업에 대한 이해다.

이 분야 전문성이 없다고해서 문제가 해결될 수 있는 확률이 0인 것은 아니지만 분야 전문성이 있는 경우와는 비교할 수 없을 정도로 일이 비효율적으로 진행된다. 왜냐하면 데이터 사이언스의 기본이 되는 가설의 수립 및 원천 데이터에 대한 탐색적 데이터 분석을 할 때 이 분야에 대해 많이 알수록 어차피 틀릴 얼토당토 않은 가설을 세우지 않게 되고 같은 분석 결과물을 보더라도 분야 전문성이 없는 사람보다 훨씬 연관성이 높고 심도 있는 연계 가설 및 다양한 문제 해결 시나리오를 떠올릴 수 있기 때문이다.

여덟째는 커뮤니케이션이다.

시각화를 이야기할 때에도 다뤘지만 데이터 사이언티스트는 기본적으로 자신이 만들어낸 결과물이 비즈니스에 제대로 적용돼 성과를 낼 수 있도록 관련 주체들과 원활한 커뮤니케이션을 할 필요가 있다. 그런 건 다른 조직이 신경 쓸 일이고 데이터 사이언스 조직은 오로지 데이터를 다루고 분석해서 레포트나 모델링만 뽑아내면 된다고 생각하는 순간부터 이미 성과를 내기 어려운 길로 들어서는 것이다. 현장의 많은 사례들이 이 시나리오를 그대로 보여주고 있다.

데이터 사이언티스트의 궁극의 목표는 자신이 찾아낸 문제 해결의 원리를 제품화해 비즈니스 문제가 자동으로 해결되는 데이터 제품(data product)를 만드는 것인데 이런 제품을 만드는 데에는 관련 주체들과의 긴밀한 커뮤니케이션이 필수요소다. 굳이 데이터 제품의 제작까지 가지 않더라도 자기들이 해결해야 하는 문제와 관련된 사람들과의 커뮤니케이션이 부족한 상태에서는 제대로 해결하기가 너무 어렵다.

성과를 내는 데이터 사이언티스트에게 커뮤니케이션은 또다른 관점에서 중요한 요소다. 지금까지 다룬 8가지의 핵심 역량을 모두 어느 정도 이상의 수준으로 갖춘 사람이 얼마나 있을까? 각 영역을 5점 척도로 평가한다면 각 영역에 대해서 최소한 3점 이상은 돼야 그 영역을 어느 정도 수준 이상으로 다룬다고 할 수 있을 것이다. 8가지 영역에 대해 모두 3점 이상을 갖춘 경우도 드물지만 설사 이런 사람이 있다 해도 데이터 사이언스가 고도의 성과를 내려면 4점, 5점으로 준비된 역량들이 바탕이 돼야 한다. 즉 한 명의 데이터 사이언티스트가 혼자서 성과를 내기는 일반적으로 쉽지 않다는 이야기이다.

그래서 데이터 사이언스가 성과를 내려면 개인 플레이가 아니라 팀 플레이가 현실적인 접근법이다. 4, 5 점 수준으로 핵심 역량 두 세 개를 가진 데이터 사이언티스트와 다른 역량들에서 4, 5점의 수준으로 역량을 닦아온 데이터 사이언티스트가 팀을 짜서 서로 부족한 분을 메꾸고 협력할 때에 훨씬 효율적으로 성과를 낼 수 있다. 결국 개인 플레이가 아니라 팀 플레이이기 때문에 팀 안에서 상호간의 커뮤니케이션이 중요한 성공 요인이 된다.

수학, 통계학, 프로그래밍, 머신러닝, 하둡생태계, 시각화, 분야 전문성, 커뮤니케이션. 이 8가지에 대한 이해, 경험, 활용이 바로 성과를 내고 인정받는 데이터 사이언티스트가 되기 위해 갖춰야 하고 지속적으로 계발해야 할 역량이다. 데이터 사이언스는 학문이라기보다는 기본적으로 현실의 문제를 해결하기 위한 굉장히 실용적인 문제 해결 접근법으로 여러 요소들이 복합적으로 관련돼 있는 대표적인 융복합 분야다. 수학이나 통계학, 커뮤니케이션처럼 뼈대가 탄탄하게 다져져 있어 변화에 빠르게 적응하기보다 원천적인 토대를 잘 익혀두면 되는 요소들도 포함하지만 하둡, 머신러닝, 일부 첨단 프로그래밍 라이브러리 및 시각화 라이브러리와 같은 요소들은 굉장히 빠르게 변화하고 있어 흐름을 수시로 확인하고 최신의 좋은 방법론을 계속해서 익혀야 할 필요도 있다.

데이터 사이언티스트는 결코 손쉽게 획득할 수 있는 커리어가 아니다. 각 역량들을 제대로 배우고 경험을 쌓기 위해 상당한 시간과 돈을 투자해야 하는 커리어가 맞다. 그러나 8가지 역량을 모두 어느 수준 이상 갖추어야만 데이터 사이언티스트로서의 커리어를 시작할 수 있는 것이 아니라는 점을 놓치지 말아야 한다. 경험적으로 봤을 때 최소 두가지 이상 역량에 대해 어느 수준 이상의 이해도와 경험을 쌓은 상태라면 팀 동료들과의 협업을 전제로 데이터 사이언스를 통해 의미있는 성과를 만들어낼 수 있다. 만약 혼자서 성과를 내야 하는 상황이라면 최소한 해결하고자 하는 문제 분야에 대한 분야 전문성과 통계적인 접근법, 데이터를 처리하는 기본적인 프로그래밍 역량을 갖춰야 한다. 대용량 데이터 환경에서 문제를 해결해야 하는 경우라면 하둡 생태계에 대해 직접 이해하고 구축하지는 못한다고 하더라도 조직에서 구축해 놓은 하둡 환경에서 데이터를 기본적으로 처리하는 역량은 갖고 있어야 한다.

8가지 역량 패턴을 직관적으로 살펴보기에 가장 적절한 시각화 그래프는 스파이더 차트(방사형 그래프)이다. 필자인 나 자신을 5점 척도로 계량화해보면 다음과 같이 표현할 수 있다.

 기사의 2번째 이미지
사진설명필자의 데이터 사이언티스트 8가지 역량 분포도 [사진 출처 : 고영혁]
▶ 여기를 누르시면 크게 보실 수 있습니다
10대 초부터 코딩을 해 왔지만 20대 초반부터 10년 가까이를 프로그래밍에서 손을 뗐다가 30대 중후반부터 다시 잡았기 때문에 해당 역량을 키울 여지가 아직 많이 있다. 머신러닝 쪽은 프로젝트를 할 때마다 필요에 의해 하나씩 적용해서 사용하고 있는 현황이라 원천적인 알고리즘을 학구적으로 파고들고 계발하는 수준은 절대 아니고 사실 앞으로도 그렇게 공부할 계획은 없다. 딥러닝을 포함해 이 분야가 이미 구글, 아마존, 바이두, 마이크로소프트 같은 초거대 글로벌 기업들에 의해 접근성이 낮아지고 쉽게 사용할 수 있는 형태로 진행되고 있기 때문이다.

하둡과 관련해서는 엔지니어 커리어가 아니었기 때문에 제대로 파고든 적이 없지만 현재 일하고 있는 분야 자체가 빅데이터이다보니 업무상 필요한 정도의 지식은 갖추고 있는 상황이다. 직접 최적화된 시스템을 구축할 것이 아니라면, 하둡 생태계를 구성하는 각각의 도구들에 대해 굳이 활용법을 몰라도 빅데이터 처리에 별다른 문제가 없는 흐름으로 가고 있기 때문에 이 부분에 대한 역량 계발에는 별로 크게 투자할 계획이 없다.

수학과 통계학은 오래도록 공부해왔고 모델링과 패턴에 대해 끊임없이 고민하고 활용하면서 역량을 키워왔으며, 분야전문성과 커뮤니케이션의 경우는 게임 업계와 전자 상거래 업계에서 데이터를 기반으로 오만가지 일들을 바닥부터 만들어서 키운 경험들을 갖고 있다보니 자연스럽게 토대가 형성이 됐다. 특히 회사를 나온 이후 헬스케어, 이동통신, 리테일, 교육 등 다양한 분야의 많은 기업들을 대상으로 데이터 컨설팅을 하면서 역량이 크게 강화됐다. 특정 도메인 한 두 개에 대해 제대로 도메인 전문성을 확보한 상태라면 새로운 다른 도메인에 대한 전문성은 비교적 효율적으로 습득할 수 있는 여러 방법들이 있다.

성과를 내는 데이터 사이언티스트가 되기 위한 핵심 역량은 있지만 왕도는 없다.
자신이 가장 즐겁게 파고들 수 있고 자신 있는 역량부터 쌓아가다가 다른 역량들로 조금씩 확장해 가면 된다. 이 때 각 역량들이 어떻게 연결되는지에 대한 감각을 느끼면서 확장하는 것이 중요하다.

여기에 항상 잊지 말아야 할 두 가지 명제가 있다. 하나는 혼자서 다 할 수 없다는 것과 혹은 혼자서 다 하는 것이 비효율적일 수 있음을 염두에 두어야 한다는 것. 다른 하나는 끊임없이 공부하고 자기 수련을 해야 하는 분야라는 것. 단순히 연봉만 바라보고 선택하기에는 초기 진입은 문제 없더라도 유지와 발전이 쉽지 않은 직업이다.

[고영혁 트레저데이터 지사장 / 고넥터 대표]
[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]
섬네일 이미지
고영혁 트레저데이터 지사장 / 고넥터 대표 다른기사 보기
통계학, 경제학, 경영학을 공부하고 NHN과 지마켓에서 데이터를 활용한 여러 서비스와 사업을 기획, 성장시켰다. 현재 데이터 전문 컨설팅 기업 고넥터의 대표이자 실리콘밸리 소재 글로벌 기업인 트레저데이터 지사장으로 재직하면서 전세계의 다양한 기업들이 데이터를 활용해서 가치를 낼 수 있도록 돕고 있다.