02.21
뉴스홈 > 인터뷰
[데이터사이언티스트를 찾아서] “데이터 사이언스 위한 전문인력 없이는 빅데이터도 없다”전용준 리비젼컨설팅 대표

   
▲ 전용준 리비젼컨설팅 대표 / 경영학 박사

[컴퓨터월드] ‘빅데이터’라는 단어는 언젠가부터 IT 분야에 국한되지 않고 우리 사회 곳곳에서 보편적으로 쓰이기 시작했다. 이제는 빅데이터를 분석하고, 활용하며, 접목시킨다는 표현을 다양한 분야에서 흔히 접하게 된다. 그러나 그게 과연 빅데이터가 맞는지, 또 그만한 가치를 제공할 수 있는지에 대해서는 대부분 물음표가 붙는 것도 사실이다.

본지에 ‘스몰데이터의 역습’ 기고를 통해 데이터에 대한 새로운 시각을 선보인 바 있는 전용준 리비젼컨설팅 대표는 ‘데이터 사이언티스트’가 없이는 빅데이터도 없다고 주장하며, ‘데이터 사이언스’를 위한 전문 인력 양성의 필요성을 강조하고 있다. 20년간 데이터 분석에 매진해온 그의 이야기에 귀기울여본다.

 

아주대학교에서 경영학 박사 학위를 받고 미국 워싱턴대학교에서 방문학자(Visiting Scholar)로 연수한 바 있는 전용준 박사는 경영학의 인공지능 분야를 전공하면서 데이터와 인연을 맺었다. 예측 모델에 인공지능을 탑재하기 위해 통계 프로그램을 직접 만들고 여러 알고리즘을 적용해보는 과정에서 데이터를 접했던 게 계기가 됐다.

이후로 전용준 박사는 20년간 유통, 서비스, 금융, 공공, 제조, 통신, 의료 등 다양한 분야에서 데이터를 다뤄왔다. CRM에서의 고객 분석에서 출발, 데이터마이닝과 예측 모델링 등을 주로 다루며 대량 데이터에 대한 고급 분석과 컨설팅을 수행해왔다.

현재 전용준 박사는 데이터 분석 전문 컨설팅 회사 리비젼컨설팅의 대표를 맡고 있으며, 경희대학교 디지털경영MBA 빅데이터 전공 책임교수을 겸임하고 있다. 또 정보화진흥원(NIA) 등 공공기관의 정부3.0과 빅데이터에 대한 자문에도 참여중이다. 데이터 분석 전문가인 그로부터 들은 여러 이야기를 일문일답 형태로 정리했다.

 

빅데이터란 무엇이라고 보나.

무엇이 빅데이터고, 무엇은 빅데이터가 아니라고 딱 잘라서 이분법적으로 나누기는 어렵다. 빅데이터는 양(Volume)만을 지칭하는 것이 아니다. 얼마나 다양하게 결합하는지(Variety), 얼마나 빨리 처리하는지(Velocity)도 관건이다. 이 3가지 V를 동시에 만족시키는 것은 아직 나타나지도 않았다. 데이터는 지속적으로 커질 것이 자명하며, 진정한 ‘빅’은 앞으로 접하게 될 것이다.

CRM과 빅데이터의 관계도 같은 맥락으로 바라볼 수 있다. 분석의 범위와 기술은 늘어났지만, 고객과 시장에 대한 인사이트를 얻는데 중점을 두는 것은 마찬가지기 때문이다. 빅데이터는 CRM의 연장선상에 있다는 의견에 동의하며, 이를 시기적으로 나누는 이분법적인 시각 또한 의미 없다고 본다.

요즘에는 소셜 빅데이터를 활용했다는 사례를 종종 접하는데, 데이터를 수집할 수 있는 개방형 SNS 중 널리 쓰이는 트위터도 활용 가능한 데이터는 폐쇄형 SNS인 페이스북의 20분의 1 수준이다. 대개 중요하거나 개인적인 정보는 개방을 꺼리는 등 SNS의 형태별로 사용 의도도 다르므로, 어느 한쪽만 분석해서는 오류를 범할 수 있다. 또 예측을 위해서는 기초적인 탐색에서 그칠 게 아니라 모델링이 포함된 고급 분석까지 이뤄져야 한다.


빅데이터 열기, 얼마나 갈까.

빅데이터라는 단어가 국내에 알려지기 시작한지 3년여가 흘렀다. 그 배경에는 IT 경기를 위한 측면도 있었기 때문에, 또 하나의 비즈니스 트렌드 용어로 치부될 수도 있다. 그간 빅데이터에 대한 과장이나 왜곡된 측면도 많았던 반면, 이윤을 남기는 등의 가시적인 성과는 거의 없다시피 했다. 이제 정리되기 시작해, 비현실적인 기대감은 점차 줄어들 것으로 본다.

국내의 열기도 정부3.0 등 공공 분야를 제하면 그리 뜨겁다고 할 수 없는 상황이며, 이마저도 경험과 전문성의 결여로부터 비롯된 근시안적인 시각과 허술한 계획으로 인한 문제를 안고 있다. 성공사례나 실질적인 비전이 없다보니 민간에서는 투자에 소극적이게 되고, 그저 다른 곳에서 먼저 해보기를 기다리는 형국이다.

사실 우리가 준비가 덜된 것일 뿐, 해외에서는 인식이 다르고 성공사례도 존재한다. 아마존의 경우 국내에서는 로그데이터를 버리기 일쑤였던 10년 전부터 이를 활용해왔고, 총 직원 5,000명 규모의 링크드인은 데이터 분석을 담당하는 40여명만으로 약 3억명의 회원들의 다양한 데이터를 소화할 정도로 기술과 역량을 쌓아왔다. 우리는 출발과 확산이 2~3년쯤 늦은 편이고, 미국과는 그 이상의 격차를 보인다. 개인적으로는 해외 성공사례를 국내에 소개해 전반적인 방향성을 찾는데 도움을 주고 싶다.

   
▲ 빅데이터와 데이터 사이언스

한편, 앞으로는 빅데이터보다 데이터를 다루는 ‘데이터 사이언스’라는 구체적인 실체와, 이를 맡는 ‘데이터 사이언티스트’에 대한 관심이 꾸준히 늘어날 것으로 본다. 가트너도 최근 ‘하이프 사이클(Hype Cycle)’ 발표를 통해 빅데이터보다 늦게 대중화된 단어인 데이터 사이언스가 오히려 더 빠르게 정상적인 궤도에 오를 것으로 전망했다. 사물인터넷(IoT)의 발달에 힘입어 데이터 사이언스는 향후 수십 년 내에 현재 사람이 맡는 일과 역할의 90% 이상을 재정의할 것으로 보인다.


데이터 사이언스의 주체, 데이터 사이언티스트는 어떤 사람인가.

데이터 사이언스의 전부라 할 수 있는 데이터 사이언티스트는 고급 데이터 분석가라고 생각한다. 데이터 사이언스 자체가 다양한 모습으로 이뤄지므로, 데이터 사이언티스트도 획일적인 모습을 지칭하기 어려운 점이 있다. 수행하는 분석에 따라 일회성(One-Off) 분석, 운영성 시스템(Production System) 개발 등 크게 2가지 분야로 나눌 수 있다.

먼저, 일회성 분석은 사람들이 그때그때 궁금해 하는 것들에 대한 이유나 상황을 파악하는 용도로, 일정하지 않고 매번 다른 내용과 과정을 가진다는 특징이 있다. 경영컨설턴트가 데이터 분석도 할 수 있는 셈으로, 컨설팅적인 요소가 강한 만큼 인사이트가 중요하다. 개인적으로는 이 분야에 가까운 일들을 주로 다뤄왔다.

반면, 운영성 시스템 개발은 일정 형식의 분석이 지속적으로 반복되는 형태로, 자동화된 시스템이 분석을 수행하는 방식이다. 아마존의 개인화된 상품 제안이나, 신용카드사의 승인시스템에 들어가는 비정상건 식별 등을 예로 들 수 있다. 기계적인 자동 처리를 이용한다는 측면에서 툴 개발의 성격을 띤다.

이 두 가지 분야는 상당히 다른 업무를 수행하며, 필요한 기술과 배경지식도 다를 수밖에 없다. 더욱이 오픈소스 환경으로 바뀌어가는 현 세태에서 개인이 양쪽 분야 모두 제대로 갖추기는 현실적으로 어렵다. 결국 앞으로는 서로간의 이해를 바탕으로 각자의 주특기 영역을 맡아 협력하는 데이터 사이언티스트 팀이 데이터 사이언스의 주역으로 떠오를 것이다.


데이터 사이언티스트, 직업으로서 전망은 어떤가.

국내에서는 아직 데이터 사이언티스트를 찾기 쉽지 않으나, 향후 중요한 직종으로서 이들을 찾는 곳이 늘어날 것이다. 분석도 점차 자동화되는 추세라 세간에서 기대하는 수요만큼은 아닐 수 있지만, 데이터의 종류와 양이 계속 늘어나고 있을 뿐 아니라 대부분의 분야에서 이들을 필요로 하게 될 것이기 때문이다.

   
▲ 미국 데이터사이언티스트 고용형태별 연봉

다만, 데이터 사이언티스트를 장밋빛으로만 바라보는 것은 지양해야 한다. 수입부터 살펴보면, 국내에 아직 연봉 1억 이상은 별로 없는 것으로 알고 있으며, 오히려 경영컨설턴트의 평균 연봉이 더 높을 것이다. 미국의 경우 박사 마치고 초임으로 2~3억을 받는다는데, 이는 시장 규모가 클수록 자동화에 기여하는 이의 가치가 크기 때문이다. 또한, 상당한 업무량을 소화하는 경우가 잦으며, 업무 자체도 집중을 요하는 구석이 많아 예민해지기 쉽다. 즉, 적성에 맞아야 한다.

데이터 사이언티스트가 되면 새로운 아이디어로 스타트업을 만들어 스스로 기회를 만들 수도 있고, 지분을 받고 합류해 성공할 수도 있다. 국내에서 연봉이 높지 않다는 것은 국내 시장이 작고 낙후돼있다는 것과 더불어 우리 인력들의 경쟁력이 낮다는 것을 의미할 수도 있다.


데이터 사이언티스트가 되기 위해 필요한 자질은.

비즈니스적인 감각, 자제력(Self-Control), 인내심, 탐구심, 특정분야 업무지식(Domain Knowledge) 순으로 중요하며, 이 가운데 부족함이 있으면 지속하기 쉽지 않다. 통계에 대한 기본 개념 정도는 갖추는 게 좋으며, 고급 통계 부분은 선택적이다. 나아가 성공을 거두려면 조직 내외에서 자신의 계획을 이행하고 결과를 적용하는 실행력이 바탕이 돼야 한다.

데이터를 바라보는 관점은 이론과 실제를 겸비하는 것을 권장한다. 학업만으로는 실제상황에서 발생할 수 있는 여러 변수에 대한 대처를 못하고, 현업에서는 일정기간 내 빨리 자동화시키는 것에만 매달리는 매너리즘에 빠져 품질을 높일 수 있는 부분을 간과하기 쉽다. 이에 대해서는 정부에서 나서서 산학협력과 정보공유의 장을 마련해줘야 하며, 학문끼리와 산업분야끼리도 교류할 필요가 있다.


데이터 사이언티스트 양성 프로그램이 많아지고 있는데.

단기 교육부터 대학원 프로그램까지 많은 교육과정들이 생기고 있는데, 문제는 양이 아니라 질이다. 데이터 사이언티스트가 무엇이고, 어디에 필요하며, 어느 정도가 돼야 경쟁력을 갖추는지 등 구체적인 부분에 대한 이해가 부족하다. 이와 같은 맥락으로 최근 유행하는 ‘머신 러닝’에 대해서도 우려하는 목소리가 들려온다.

무엇보다 학생들을 가르칠 선생님이 없다는 게 가장 큰 문제다. 심지어 데이터를 제대로 다뤄본 적도 없는 이들이 양성 프로그램에 강사로 참여해 자신도 잘 모르는 부분을 미취업자나 대학생들에게 가르치는데, 그렇게 몇 달 배운다고 무엇이 될 수 있겠으며, 어떤 효과를 거둘 수 있겠는가. 경험과 전문성을 바탕으로 선생님 역할을 맡을 수 있는 전문 인력이 시급하다.

개인적으로는 이를 위해 속칭 ‘슈퍼 데이터 사이언티스트 아카데미’라는 것을 준비하고 있다. 북미 기업 등에서 실력 있는 데이터 사이언티스트들을 선생님으로 스카웃, 국내에서 데이터 분석에 대한 이론적 또는 실무적인 기초를 지닌 이들부터 세계적으로 통할만한 실력을 갖출 수 있도록 글로벌 프로젝트도 진행하며 양성하는 것이다. 당장 국내에서는 선생님을 구할 수 없으므로 스카웃부터 적잖은 돈이 들겠지만, 이렇게 양성된 데이터 사이언티스트들은 그보다 큰 가치를 창출할 수 있으리라 여긴다.

 

인터뷰를 마치면서, 20년간 데이터 분석을 맡아왔는데 힘들지 않냐고 묻는 기자의 질문에, 전용준 박사는 ‘천직’이라고 답하며 소탈한 웃음을 보였다. 컨설팅 업무는 물론, 데이터 관련 강의, 공공기관의 자문·평가, 향후 목표인 후진 양성까지 다양한 활동을 펼치며 바쁜 나날을 보내고 있는 전 박사지만, 그 와중에도 짬짬이 기타를 연주해 유튜브에 올리고 곡을 만들기도 하는 등 멋과 여유 또한 잃지 않고 있었다.

한편 전용준 박사는 10월 8일 개최되는 ‘데이터 사이언티스트 컨퍼런스’(www.itdaily-conference.com)에 대한 기대감도 나타냈다. “데이터 사이언스라는 단어를 알리고, 데이터 사이언티스트에 대한 이해를 돕고 싶다”고 밝힌 전 박사는 ‘글로벌 시장에서 데이터 사이언스의 실제 모습: 상상과 현실’을 주제로 발표에 나선다. “막연한 환상을 깨주겠다”고 다짐하는 모습은 새삼 그의 ‘천직’이 무엇인지 깨닫게 해줬다.
   
▲ 전용준 리비젼컨설팅 대표 / 경영학 박사

여백
컴퓨터월드 추천기업 솔루션
인기기사 순위
IT Daily 추천기업 솔루션
153-023) 서울시 금천구 가산동 327-32 대륭테크노타운 12차 13층 1314호 (주)ITMG
TEL:02-2029-7200  FAX:02-2029-7220  사업자등록번호:106-86-40304
개인정보/청소년보호책임자:윤현기  등록번호:서울 아 00418  등록일자:2006.10  발행인:김용석  편집인:김선오