데이터 계의 유니콘, 데이터사이언티스트들이 이야기하는 현실과 미래 (2)

[컴퓨터월드] ‘빅데이터’ 바람이 날로 거세지는 오늘날, 데이터 분석을 위한 도구와 방법 및 활용방안에 대한 논의는 곳곳에서 앞 다퉈 이뤄지고 있다. 그러나 정작 이를 수행할 주체인 ‘데이터 사이언티스트’에 대해서는 널리 인식되지 못하고 있는 것이 작금의 현실이다. 주어가 없는 문장이 그 의미의 해석에 모호함을 불러오듯, 데이터 사이언티스트가 없는 빅데이터는 그 방향성을 잃고 표류할 우려가 상존하기 마련이다.

이 가운데 지난 8일 본지와 빅데이터전문가협의회가 공동 주최한 ‘데이터 사이언티스트의 현실과 미래’ 컨퍼런스에서는 데이터 사이언티스트에 대해 함께 생각을 나누고, 세계적인 흐름을 파악하며, 국내의 현 주소 및 향후 전망을 짚어보는 자리가 마련됐다. 데이터 분석이 새로운 성장동력으로 부상하는 시대에 요구되는 인재상은 무엇이며, 데이터 사이언티스트라 불리는 그 인재의 현실과 미래는 각각 어떤지, 이에 대해 다양한 분야의 데이터 사이언티스트들에게 직접 들어본다.


입체적인 기술을 지닌 ‘멀티 플레이어’

▲ 유충현 R테크센터 고문의 발표모습

네 번째 발표에는 유충현 R테크센터 고문이 ‘빅데이터 시장에서 데이터 사이언티스트의 역할과 비전’을 주제로 강연했다. “데이터 사이언티스트라면 단편적인 기술이 아닌, 입체적인 기술을 지닌 멀티 플레이어 능력을 갖춰야 한다”며 데이터 분석 사례와 함께 데이터 사이언티스트의 역할에 대해 알려줬다.

유충현 고문은 “데이터 분석을 위한 수리적인 이론과 데이터 조작을 위한 컴퓨터 엔지니어링, 데이터 이해를 위한 업무지식과 경험을 갖춘 멀티 플레이어 능력이야말로 데이터 사이언티스트가 갖춰야할 능력”이라고 강조했다. 데이터를 준비하고 분석하며 정보화하기 위해서는 단편적인 기술이 아닌, 입체적인 기술이 필요하다는 것이다. 유 고문은 “데이터 사이언티스트가 업무가 많은 직장인으로 보일 수도 있지만, 직접 데이터를 조작하고 분석하기 위해서는 멀티플레이어가 돼야한다”고 밝혔다.

또 유충현 고문은 데이터 사이언티스트에 대해 “데이터를 조작하고 분석하며 이해하는 일련의 데이터 서비스 과정의 작업을 수행하는 인물”이라고 정의하며, “데이터 사이언티스트의 길을 염두하고 있다면 논리적 사고, 수리적 사고, 커뮤니케이션 스킬을 무엇보다 필수역량으로 먼저 갖춰야 한다”고 설명했다.

데이터 분석을 위한 마이닝 툴은 마치 기성복과 같아, 마이닝 툴에 의존해 분석한다면 패턴이 익숙해지는 단점이 생겨 논리적 사고와 수리적 사고가 필요하다는 것이다. 또 과거의 데이터를 포함한 빅데이터는 잘 정리돼있지 않은 데이터다보니 논리적 사고와 수리적 사고 없이는 바람직하지 못한 결과를 얻지 못한다는 설명이다.

더불어, 데이터 사이언티스트는 커뮤니케이션 스킬로 승부해야 한다고 주장했다. “데이터 분석 속에는 정직과 신의가 있어야 한다”며, “포장하지 말고 현실 그대로 작성하되 대안은 반드시 제시하는 커뮤니케이션 스킬이 중요하다”고 강조했다. 또 “데이터 분석 결과가 어이없게 나왔다 하더라도 상황을 이겨내는 강한 정신력도 데이터 사이언티스트가 갖춰야 할 역량”이라고 덧붙였다.

이밖에도 유충현 고문은 데이터 사이언티스트의 현실적인 문제도 지적했다. “데이터 사이언티스트에 대한 수요와 공급의 불균형이 심각한 상황”이라며, “필드에 사람이 없는데 몸값은 오르지 않는 부분이 개선돼야 한다”고 주장했다. 또 “공공의 경우 데이터 분석가에게 돈을 지불하는 영역이 없는 현실도 개선돼야 하고, 연구학습과 실무를 병행할 수 있는 업무환경도 마련돼야 한다”고 언급했다.

 

눈물 젖은 빵을 먹어본 ‘스타 플레이어’

▲ 전용준 리비젼컨설팅 대표의 발표모습

다섯 번째 발표에는 전용준 리비젼컨설팅 대표가 ‘글로벌 마켓에서의 데이터 사이언스 실제모습: 상상과 현실’이라는 주제로 강연에 나섰다. “막연한 생각이 아닌, 데이터 사이언티스트라는 스타 플레이어가 되기 위해 요구되는 현실적인 문제를 알리겠다”며 구체적인 사례를 제시했다.

먼저 전용준 대표는 ‘빅데이터’보다 데이터를 다루는 ‘데이터 사이언스’라는 실체에 대해 주목하기를 주문했다. 데이터 산업에 진출하려는 지역은 아직 빅데이터에 대한 관심에 머무르는 반면, 데이터 산업을 선도하는 지역에서는 데이터 사이언스에 대해 실질적으로 접근하는 상황을 보여주며 “이미 거품이 빠지고 있는 빅데이터에 비해, 더 늦게 대중화된 데이터 사이언스가 오히려 더 빠르게 정상적인 궤도에 오를 것으로 전망된다”고 설명했다.

아울러, 할 배리언(Hal Varian), 로리 스켈리(Laurie Skelly), 제이크 포웨이(Jake Porway), D.J. 패틸(Patil), 힐러리 메이슨(Hilary Mason), 마이클 플라워스(Michael Flowers), 링크드인의 데이터 팀, 패션회사 트루핏 등 북미의 여러 데이터 사이언티스트들을 소개했고, 이 가운데 유능한 경력자들이 실리콘 밸리로 몰리고 있는 현상을 지적하며 “마이클 플라워스가 이끌었던 뉴욕시의 데이터 사이언티스트 팀도 20대 위주로 구성됐는데, 이는 미국도 공공 부문의 데이터 사이언스가 금전적인 문제에 직면해있다는 방증이 된다”고 밝혔다.

전용준 대표는 데이터 사이언티스트에 대해 “데이터 분석가와 달리, 필요한 데이터를 직접 파악하고 끌어올 수 있어야 한다”고 정의, 이를 위한 현실적인 요건으로 ▲관련 분야 석·박사 학위 이상 권장 ▲하둡, 파이썬, R, SAS 등을 다루는 기술 ▲해당 업무 지식(Domain Knowledge)과의 결합 등을 꼽았다.

또한, 비즈니스 인사이트 영역과 자동화 시스템 영역의 협업을 바탕으로 한 데이터 사이언티스트 팀의 필요성을 주장했으며, 현재의 단기적인 수급 불균형에 대해서는 “데이터 분석에 대한 이론적 또는 실무적인 기초를 지닌 이들부터 고급 인재가 될 수 있도록 지원해야 된다”고 해결방안을 제시했다.

마지막으로 전용준 대표는 데이터 사이언티스트가 되기를 희망하는 이들에게 “시간이 흘러 수급이 안정돼 희소성이 떨어진 상황에서도 당장의 이득보다 장기적인 큰 목표를 위해 데이터 사이언스를 꾸준히 공부할 수 있을지, 인내심과 커뮤니케이션을 바탕으로 폭넓게 협력을 구하며 일할 수 있을지 스스로 고민해봐야 한다”고 충고했다. “모두가 메이저리그의 스타 플레이어가 될 수 없듯, 마이너리그에서 눈물 젖은 빵을 먹으며 실력을 닦아야 데이터 사이언티스트가 될 수 있는 자격이 주어진다”는 게 전 대표의 설명이다.

 

새로운 관점의 기술에 대한 이해를 통해 시장과 함께 진화

▲ 임상배 오라클 부장의 발표모습

여섯 번째 세션은 임상배 한국오라클 부장이 맡아 ‘빅데이터 애널리틱스 인 액션’을 주제로 발표했다. 빅데이터 분석 아키텍쳐 핵심기술 및 트렌드에 대해 소개하며 “진화하는 빅데이터 분석 시장에서 데이터 사이언티스트에게는 새로운 관점의 기술에 대한 이해가 요구된다”고 밝혔다.

임상배 부장은 최근 빅데이터 분석 시장이 “기존 하둡 기반 분석에서 인(In)-DB 기반 분석으로 진화하고 있다”고 강조했다. 생산성, 유지보수 등의 편의성을 제공하고 결과적으로 비용을 최소화할 수 있는 방안이 요구된다는 것이다.

임 부장은 “기존 데이터 처리 방식이 프로그램이 있는 곳으로 데이터를 가져와 처리하는 방식으로, 빅데이터 환경에서는 프로그램을 데이터가 있는 곳으로 전송해 분석을 수행하는 게 보다 효율적인 방안”이라며, “하둡은 이를 지원하기 위해 대량의 데이터를 대상으로 여러 대의 노드들이 계산을 동시에 수행하는 방식으로 데이터 처리 기술을 구현했다”고 설명했다.

이어, “기존에는 별도의 분석 인프라를 기반으로 데이터 이동·복제·변환 등 작업을 수행한 후 분석을 했다면, 인-DB 분석은 데이터가 있는 그곳에서 데이터 이동이 없거나 최소화된 상태에서 분석을 수행한다”며, “데이터 이동 및 중복으로 발생되는 분석용 서버들을 제거하고 확장성과 관리성, 높은 보안성을 제공해 결과적으로 총 소유비용(TCO)을 절감시킨다”고 부연했다.

임상배 부장은 이러한 기술적 변화가 “데이터와 분석의 거리를 단축하는 방향으로 진행되고 있다”며, “기업에서 분석 시스템 운영 및 구축 시 데이터 사이언티스트에게 바라는 건 확장성, 성능, 운영시스템 배치 등에 대한 능력이므로, 기업에서 원하듯이 데이터와 분석의 거리를 단축하기 위해서는 새로운 관점의 기술에 대한 이해가 필요하다”고 강조했다.

더불어 임상배 부장은 데이터 사이언티스트에게 데이터 플랫폼 종류에 상관없이 단일한 분석환경을 제공할 필요성을 주장했다. “기업의 요구를 충족하면서 기술적으로 접근성이 높고 이미 알고 있는 기술을 활용할 수 있는 분석환경을 제공받아야 한다”며, “기존 R의 환경, 문장, 문법을 가능한 그대로 사용할 수 있는 환경 등이 마련돼야 한다”고 덧붙였다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지