억대 연봉 받는 데이터 사이언티스트가 갖춰야 할 8가지 역량 ①

<고영혁의 데이터 액션>

  • 고영혁 트레저데이터 지사장 / 고넥터 대표
  • 입력 : 2017.08.16 17:43:50   수정 : 2017-08-17 11:34:26
  • 프린트
  • 이메일
  • 페이스북
  • 트위터
  • 카카오스토리
  • 공유
2012년 하버드 비즈니스 리뷰가 21세기 가장 섹시한 직업으로 데이터 사이언티스트(Data Scientist)를 꼽으면서 이 새로운 직업은 전세계 수많은 사람들의 관심을 끌게 됐다. 이 용어가 나온 근원지인 미국 채용 시장을 잘 보여주는 구인구직 서비스 인디드(indeed.com)의 2016년 리포트 ‘미국에서 가장 연봉이 높은 기술 직업은?’을 살펴보면 기술 직업 15개 중에서 IT보안 전문가와 소프트웨어 아키텍트의 뒤를 이어 데이터 사이언티스트가 3위를 차지하고 있다. 직군 별 연봉 및 기타 상세한 정보들을 살펴볼 수 있는 페이스케일(payscale.com)을 살펴봐도 데이터 사이언티스트는 높은 연봉이 보장된 커리어 성장 패턴을 보이고 있음을 확인할 수 있다.

 기사의 1번째 이미지
사진설명데이터 사이언티스트 직군의 연봉 분포 [사진 출처 : 페이스케일]
한국에는 이러한 정보들을 체계적으로 보여주는 서비스가 아직 없어 수치로 말하기는 어렵지만 거의 모든 크고 작은 기업들이 데이터 사이언티스트를 뽑고 싶은데 마땅한 사람이 없어서 못뽑는다고 하소연을 하고 있다는 얘기를 직간접적으로 전해듣고 있다.
공급대비 수요가 부족하면 당연히 몸값이 올라가기 마련이고 실제로 데이터 사이언티스트의 연봉은 국내 역시 꽤 높게 형성돼 있다.

그러나 이렇게 인기 있는 직업의 경우 자연스럽게 몸값 거품도 있기 마련이이다. 특히 채용 담당자가 제대로 평가하기 어려운 신종 직업이라는 점을 노려 데이터 사이언티스트라고 하기에는 사실상 부적절한 역량과 업무 경험을 가진 사람들이 스스로를 데이터 사이언티스트라고 주장하면서 채용 담당자들과 기업들을 골탕 먹이는 경우도 점점 많아지고 있다.

이처럼 ‘뜨거운 감자’인 데이터 사이언티스트 분야에 종사하려고 마음을 먹었다면 어떻게 해야 시장에서 실질적으로 인정받는 성과를 내는 사람으로 성장할 수 있을지 궁금할 것이다. 뽑는 입장에서도 어떻게 성장해 온 사람이 진짜 일 잘 해서 성과를 내는 데이터 사이언티스트일지 궁금할 수밖에 없다. 이 용어 자체가 2008년에 링크트인(LinkedIn)의 데이터 제품 총괄이었던 DJ 파틸이 ‘우리 같은 일을 하는 사람들이 데이터 사이언티스트다’라고 말한 것에서 나온 것이기 때문에 역사가 채 10년도 안됐으며 산업 현장에서 나왔기 때문에 학술적으로 정교하게 정의가 된 용어도 아니다. 고로 객관식 답안지처럼 용어의 명확한 뜻과 이 커리어를 밟기 위한 정형화된 공식이 존재하지도 않는다.

물리 법칙을 연구하는 과학이 물리학이고 생명체의 법칙을 연구하는 과학이 생명과학인 여타 과학들과 달리 데이터 사이언스는 데이터를 연구하는 과학이 아니라 현실 세계의 다양한 문제, 보통은 비즈니스와 밀접한 관계를 갖고 있는 문제를 데이터를 통해 해결하는 절차와 방법을 통칭한다. 따라서 과학과 산업의 융복합, 다양한 학문들간의 융복합이 자연스러운 영역이기 때문에 정형화된 순차적인 커리어보다는 다양한 커리어와 역량의 융복합이 일반적이다. 한국 및 세계의 뛰어난 데이터 사이언티스트들을 살펴봐도 그 배경이 정말 다양하다는 것을 알 수 있다.

 기사의 0번째 이미지
사진설명위키피디아에서 이야기하는 데이터 사이언스의 절차 [사진 출처 : 위키피디아]
그러나 공식화된 성장의 지름길은 없지만 현업에서 성과를 제대로 내는 데이터 사이언티스트들이 노력해 쌓은 역량들을 이들이 현업에서 해결해야 하는 일의 성격과 연결해 정리할 수는 있다. 21세기에 가장 섹시하다는 이 새로운 커리어를 관심있게 보는 사람에게는 이번 정리가 도움이 될 것이다. 앞으로 두회에 걸쳐 8가지 특징을 살펴볼 것이며 순번에 따른 우선순위가 없다는 점을 미리 밝힌다.

첫번째는 수학이다.

데이터 사이언티스트는 세상의 여러가지 모습들을 숫자와 수식으로 표현하는 모델링을 수시로 하게 된다. 이렇게 해야 세상의 흐름을 읽고 예측해 연관된 비즈니스에 도움을 줄 수 있기 때문이다. 수치화 될 수 있는 수많은 데이터들의 대부분은 어디서 툭 튀어나온 것이 아니라 결국 세상의 한 부분에서 나온 것이기 때문에 데이터들을 보면서 세상을 읽는 작업도 밥 먹듯이 하게 된다. 즉 데이터로 세상을 읽고, 세상에서 모델을 설정해 데이터를 뽑아내는 쌍방향의 작업을 해야 하는데 이 기반이 되는 것이 바로 수학이다. 수학을 대학에서 제대로 공부한 사람, 예를 들어 수학 석사나 박사를 이수했다면 데이터 사이언티스트가 되기에 유리한 점으로 작용할 수도 있다. 그러나 데이터 사이언스에서 요구되는 수학적인 감각은 꼭 수학을 전공으로 아주 깊게 파고들지 않았어도 수학을 세상을 읽는 도구로서 제대로 느끼고 활용할 수 있다면 어느 정도는 이미 갖고 있는 역량이라고 볼 수 있다.

두번째는 통계학이다.

통계학의 근간은 결국 확률과 분포다. 데이터 사이언스에서는 수많은 데이터들을 활용해 우리가 해결하고자 하는 문제에 대한, 혹은 해결책에 대한 단서를 지니고 있는 분포와 패턴을 찾아낸다. 이러한 패턴의 분류는 머신러닝 등을 이용해 보완하거나 개량할 수 있지만 탐색적 데이터 분석(EDA)이라고 하는 데이터 사이언스의 앞단계 프로세스의 상당 부분은 사람이 통계학의 여러 방법론과 이론을 바탕으로 직접 수행해야 한다. 또 비즈니스에 도움이 되는 일의 상당수는 결국 앞으로의 기대 수익을 예상하고 그것을 벌 수 있는 조건을 구현하거나 재현하는 데에 초점을 맞추게 돼 확률적인 접근법이 필수다.

한편 데이터 사이언스도 여타 과학과 마찬가지로 가설의 수립과 검증을 통해 논리적인 해결책을 도출하게 되는데 이 작업의 기본이 되는 것 역시 통계학의 방법론이다. 통계학은 다른 모든 과학에서도 기본이 되는 중요한 도구이며 데이터 사이언스에서도 마찬가지 역할을 하고 있다.

세번째는 프로그래밍, 코딩이다.

데이터 사이언스를 하는 과정에서 일반적으로 가장 많은 시간을 차지하는 작업을 멍잉(munging) 혹은 랭글링(wrangling)이라고 한다. 수많은 다양한 데이터들에 대해 모양을 바꿔가면서 살펴보거나 정제하거나 조합을 다르게 시도해보거나 하는 작업들을 지칭한다. 사람이 일일이 손으로 할 수 있는 작업이 아니며 엑셀이나 다른 보편적인 생산성 도구로 수행하기에도 데이터의 양이나 복잡도 등에서 큰 무리가 따른다. 따라서 이런 작업을 하기에 최적화된 프로그래밍 언어로 코딩을 해서 해결하거나 가급적 자동화해야 한다.

데이터 사이언스의 코딩에서 많이 활용되는 프로그래밍 언어는 파이썬, R, SQL 로 축약될 수 있다. 이 언어들이 데이터 멍잉과 랭글링에 최적화 된 기능들을 많이 보유하고 있기도 하고 데이터를 읽고, 쓰고, 살펴보고, 분석하는 데에 태생적으로 특화된 언어들이기 때문이다. 컴퓨터 과학을 전공으로 하면 프로그래밍과 코딩 역량에 있어서 가산점을 가져갈 수도 있지만 심지어 컴퓨터 과학 전공자 중에서도 코딩은 잘 못하는 경우도 있고, 비전공자라도 데이터 사이언스를 잘 하는 데에는 아무 문제 없는 수준으로 코딩을 배우고 익힐 수도 있다.

 기사의 2번째 이미지
사진설명데이터 사이언스 코딩에 많이 활용되는 대표적인 노트북 도구인 주피터 [사진 출처 : dataquest.io]
▶ 여기를 누르시면 크게 보실 수 있습니다


네번째는 바로 머신러닝이다.

알파고가 뜨면서 이제는 딥러닝이나 머신러닝이라는 단어가 일반인들도 한 번쯤은 들어 봤을 법한 기술 용어가 됐다. 간단하게 핵심만 이야기하면 딥러닝은 머신러닝의 한 세부 기법이며, 머신러닝은 인간 고유의 본질적 능력으로 오래전부터 여겨져왔던 ‘분류’라는 인지 행동을 기계가 자동으로 하는 기법이라고 볼 수 있다. 분류라는 행동은 정치, 경제, 사회, 문화 곳곳에 알게 모르게 자연스럽게 녹아 있으며 인간이 생존할 수 있는 중요한 본능 역시 적군과 아군의 분류다. 바꿔 말하면 분류는 세상의 수많은 문제들을 푸는 데에 다양한 형태로 활용할 수 있으며 데이터 사이언스에서도 분류로 풀어야 하는 문제가 많을 수밖에 없는데 이것을 인간이 아닌 기계가 머신러닝이라는 이름으로 할 수 있게 되었다는 점은 많은 것을 시사한다.


분류는 다시 두 가지로 나눌 수 있는데 보기들 중 어느 하나로 분류하면 되는 객관식처럼 선택지를 미리 알고 분류하는 경우와 선택지 자체를 몰라서 그냥 서로 다른 둘 이상의 집단이라고 경계선을 긋는 분류가 있다. 그러나 이같은 분류 내에 사실은 수많은 파생 형태와 고려 사항이 있기 때문에 머신러닝이라는 방법론을 따로 제대로 공부하고 연습하지 않고서는 그냥 툭 가져다가 쓸 수 없다. 단 머신러닝에 대해 본질적인 깊은 이해를 갖고 있지 않더라도 큰 무리 없이 데이터 사이언스의 목표를 달성할 수 있게끔 갈수록 머신러닝 및 딥러닝의 활용이 빠르게 쉬워지고 대중화되는 흐름에 있다는 점은 눈여겨 볼만하다.

 기사의 3번째 이미지
사진설명머신러닝의 구분 – 지도학습(Supervised Learning)과 비지도학습 [사진 출처 : 캠브리지스파크]
▶ 여기를 누르시면 크게 보실 수 있습니다


편집자 주 : 나머지 4가지 역량과 데이터 사이언티스트 커리어 계발을 위해 명심해야 할 점들은 2부에서 이어집니다.

[고영혁 트레저데이터 지사장 / 고넥터 대표]
[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]