데이터 계의 유니콘, 데이터 사이언티스트들이 이야기하는 현실과 미래 (1)

[컴퓨터월드] ‘빅데이터’ 바람이 날로 거세지는 오늘날, 데이터 분석을 위한 도구와 방법 및 활용방안에 대한 논의는 곳곳에서 앞 다퉈 이뤄지고 있다. 그러나 정작 이를 수행할 주체인 ‘데이터 사이언티스트’에 대해서는 널리 인식되지 못하고 있는 것이 작금의 현실이다. 주어가 없는 문장이 그 의미의 해석에 모호함을 불러오듯, 데이터 사이언티스트가 없는 빅데이터는 그 방향성을 잃고 표류할 우려가 상존하기 마련이다.

이 가운데 데이터 사이언티스트에 대해 함께 생각을 나누고, 세계적인 흐름을 파악하며, 국내의 현 주소 및 향후 전망을 짚어보는 자리가 마련됐다. 데이터 분석이 새로운 성장동력으로 부상하는 시대에 요구되는 인재상은 무엇이며, 데이터 사이언티스트라 불리는 그 인재의 현실과 미래는 각각 어떤지, 이에 대해 다양한 분야의 데이터 사이언티스트들로부터 직접 들어본다.

 

인도와 유럽의 전설에 나오는 동물인 ‘유니콘’은 말과 같은 외형을 지녔지만 이마에는 뿔이 하나 있어 희귀하게 여겨진다.

IT 업계를 관통하는 빅데이터의 핵심인 데이터 사이언티스트 역시 데이터 계의 유니콘으로 귀한 존재다. 전설 속에만 남아있는 유니콘과 같이 일각에서는 데이터 사이언티스트의 존재를 부정하기도 한다.

지난 8일 본지와 빅데이터전문가협의회가 공동 주최한 ‘데이터 사이언티스트의 현실과 미래’ 컨퍼런스가 역삼동 포스코P&S타워에서 개최됐다.

‘데이터 사이언티스트의 현실과 미래’라는 주제로 열린 이 컨퍼런스는 국내 정상급 데이터사이언티스트 및 관련 전문가들을 통해 빅데이터 성공을 위한 데이터 사이언티스트의 역할에 대해 살펴보는 자리가 됐다.

특히 국내뿐 아니라 전세계의 상황과 사례, 동향, 이슈와 방향성, 과제도 종합적으로 공유하는 기회도 마련했다.

 

‘과학자(사이언티스트)’로서의 데이터 사이언티스트

▲ 줄리안 리(Julian Lee) 레볼루션 애널리틱스 컨설턴트의 발표 모습

‘데이터 사이언티스트 컨퍼런스’의 개회와 함께 발표에 나선 연사는 싱가폴의 레볼루션 애널리틱스(Revolution Analytics)에서 테크니컬 프리세일즈 컨설턴트로 근무 중인 줄리안 리(Julian Lee)로, ‘Data Scientist in Dynamic Asia’를 주제로 현지에서 원격으로 발표를 진행했다. 레볼루션 애널리틱스는 오픈소스 R의 상용화된 버전을 공급하고 있는 회사다.

컴퓨터공학을 전공한 줄리안 리는 싱가폴 국립암센터(National Cancer Center Singapore)에서 위암에 대해 공부하며 데이터마이닝 업무를 수행했고, 다국적 제약기업 일라이 릴리(Eli Lilly)에서는 데이터 수집, 분석, 일반화 업무를 담당한 바 있다.

줄리안 리는 먼저 “‘데이터 사이언스’라는 표현은 모순어법(Oxymoron)”이라고 지적했다. “기본적으로 과학이란 데이터 없이 가설을 세우고 목표에 접근해 답을 찾는 방식인데, 데이터 사이언스는 그렇지 않다”는 것이 줄리안 리의 설명이다.

이에 따라 줄리안 리는 ‘과학(사이언스)’으로서의 데이터 사이언스에 주목, “과학에서 데이터 분석은 하나의 도구일 뿐”이라고 말했다. 또 “항상 모델의 결함에 대해 의심을 갖고 다양한 실험을 통해 지속적으로 업그레이드해나가는 게 과학적인 접근방식”이라며, “데이터 사이언티스트도 과학자처럼 논리적인 사고방식이 밑바탕이 돼야 한다”고 설명했다.

아울러 줄리안 리는 현재 산업에서 데이터 사이언티스트에게 요구하는 것으로 ▲프로그래밍 언어와 통계 모델을 다루는 ‘IT 툴 기술’ ▲새로운 정보를 학습해 효율적으로 사용할 수 있도록 결부시키는 ‘알고리즘 이해’ ▲특정 분야에서 필요로 하는 ‘전문 지식(Domain Knowledge)’ ▲분석의 가치를 경영진이나 일반인들에게 알리는 ‘커뮤니케이션 능력’ 등을 꼽았다.

마지막으로 줄리안 리는 급격히 성장하는 아시아 시장에서 데이터 사이언티스트들이 “치열해지는 경쟁 속에 보다 정교한 모델을 설계하고 이론을 적용하며, 나아가 미래를 예측하고 더 많은 이익을 낼 수 있는 조직을 구성할 줄도 알아야 한다”고 주장했다.

 

개척정신과 능동적 태도 등 자질 갖춰야

▲ 허명회 고려대 통계학과 교수의 발표 모습

이어진 기조연설에는 허명회 고려대학교 통계학과 교수가 ‘데이터 사이언티스트로 입신(立身)하기’를 주제로 연단에 올랐다. “데이터를 제대로 다루기 위해서는 개척정신과 능동적 태도를 비롯한 문제해결 능력, 창의력, 소통 능력 등을 갖춰야 한다”며 데이터 사이언티스트가 갖춰야 할 정신과 자질에 대해 발표했다.

허명회 교수는 이날 발표에서 몸을 세운다는 뜻의 ‘입신’이라는 단어를 키워드로 잡았다. 먼저, 데이터를 다루는 데이터 사이언스, 데이터 엔지니어링 작업에서 데이터로부터 정보를 추출하고 정화해 지식으로 끌어올리는 기본적인 과정이 가장 중요하다고 설명했다.

허 교수는 “데이터로부터 정보와 지식을 추출하는 일이 가장 중요하지만 많은 사람들이 이 점을 간과하고 있다”며, “더 좋은 데이터를 만들기 위해 이 부분을 신경 쓰지 않는다면 실제적으로 성과를 낼 수 없다”고 말했다.

빅데이터에 대해 허명회 교수는 아직까지 아무도 접근하지 않았던 자료라고 정의했다. 이어 “데이터를 다루는 데이터 사이언티스트와 데이터 엔지니어는 이제까지 다루지 못한 데이터를 분석하는 선구자 및 개척자”라며, “데이터 사이언티스트와 데이터 엔지니어는 새로운 것에 대해 갈망하고 추구하는 프런티어 정신이 있어야 한다”고 주장했다.

이와 함께 허명회 교수는 데이터 사이언티스트로서 갖춰야 할 자질로 능동적 태도, 문제해결 능력, 창의력, 소통 능력 등을 꼽았다. “데이터 사이언티스트는 소재를 스스로 찾아서 학습할 수 있도록 능동적인 태도가 중요하다”며, “문제해결을 위해 기존의 학습지 문제풀이 방식에서 실제의 문제풀이를 이뤄낼 수 있는 문제해결 능력을 갖춰야 한다”고 강조했다.

또한 허 교수는 “창의적인 실제의 문제를 풀 수 있는 사람이 데이터 사이언티스트가 될 수 있다”며, “점점 개인화되고 있는 상황에서 소통할 수 있고 사회성을 가진 데이터 사이언티스트가 필요하다”고 밝혔다.

이밖에도 허명회 교수는 데이터 사이언티스트가 되기 위해 갖춰야할 정신과 자질 외에 ▲통계학적인 소양 ▲데이터베이스(DB) 및 웹(Web) 기술 등 컴퓨터 능력 ▲미적분학 및 선형대수 등 수학적인 소양 ▲역사학 경제학 사회과학 공학 등 적용분야 지식 ▲R, 파이썬(Python), 자바(Java) 등 언어를 다루는 능력 등도 필요하다고 설명했다.

한편, 허명회 교수는 데이터 사이언티스트를 키우는데 있어 현실적인 문제도 언급했다. “데이터 사이언스를 공부하려면 전산학과, 산업공학과 등에서 배워야 한다는 학과 이기주의가 팽배해 있다”며, “학과에 충성할 필요 없이, 이를 뛰어넘어야 경쟁력이 될 수 있다”고 꼬집었다.

아울러, “단기적인 성과주의와 갑을관계로 대표되는 용역꾼 역할은 데이터 사이언티스트의 능력을 저하시키는 주된 요인”이라며, “법·제도의 뒷받침이 되지 않고 학과주의와 랩(Lab) 중심의 교육환경도 데이터 사이언티스트의 육성을 가로막는 장애물”이라고 지적했다.

 

전문 지식을 바탕으로 ROI까지 바라볼 수 있어야

▲ 금기돈 AXA다이렉트 CRM팀장의 발표 모습

세 번째 발표는 금기돈 AXA다이렉트손해보험 파이낸스본부 CRM팀장이 맡았다. AXA다이렉트에서 정보계 시스템을 운영하며 전사적인 데이터를 다루고 업무 평가(Business Assessment)와 업무 재설계(Business Reengineering)도 담당하고 있는 금 팀장은 금융 업계에서도 고객과의 접촉이 비교적 제한적인 보험 업계, 특히 오프라인 채널이 없는 온라인 보험에서 데이터를 활용해 이를 극복하는 구체적인 사례를 들어 데이터 사이언스에 대한 이해를 도왔다.

금기돈 팀장이 데이터를 다루는 팀원들에게 가장 먼저 주문하는 것은 보험 업무에 필요한 ‘전문 지식(Domain Knowledge)’이다. “기본적으로 비즈니스 시스템의 흐름을 알아야 한다. 패턴이 존재하는 비즈니스에서 실제 업무 경험은 중요하게 작용한다”며, 이는 데이터 사이언티스트 또한 마찬가지라고 강조했다.

더불어 금 팀장은 ‘커뮤니케이션 능력’의 필요성을 역설했다. “분석이 그저 분석으로만 그치는 경우가 80%에 달하는 것으로 알고 있다”며, “실질적으로 실행에 착수할 수 있는 액션 플랜(Action Plan)이 없는 분석은 앙꼬 없는 찐빵”이라고 지적했다.

이어, AXA다이렉트 CRM팀의 데이터 활용 사례로 ‘상담원 역량 진단 프로세스(SR Ability Diagnosis)’와 ‘보험사기 적발 시스템(Fraud Detection System)’을 들었다. ‘상담원 역량 진단 프로세스’는 실질적인 정보만을 모델링을 통해 추려 실적 등급별 코칭 가이드를 제공하고, 영업단계의 바텀-업(Bottom-Up) 방식을 바탕으로 올랩(OLAP)으로 시각화한 개인별 실적과 음성 분석(Speech Analysis) 정보를 제공한다.

또 ‘보험사기 적발 시스템’은 보험 조사원들의 노하우를 시스템화해 프로세스를 자동화시킨 것으로, 금기돈 팀장은 “구축 이후 20억 정도를 아끼는 효과를 봤다”고 밝혔다. “모델 분석을 통한 작업 자체가 기업 입장에서의 ROI(투자수익률)까지 연결돼야 한다”는 게 금 팀장의 생각이다.

이와 함께 금기돈 팀장은 현재 진행 중인 대표적인 계획인 ‘CEP(Customer Experience Platform)’와 ‘COE(Center Of Excellence)’에 대해 설명했다. ‘CEP’는 데이터웨어하우스(DW)에서 나아가 웹로그나 음성 정보 등 구조화되지 않은 데이터까지 통합해 다루는 인프라를 구축하는 것이다. ‘COE’는 데이터를 다루는 인력이 부족한 문제를 해결하기 위해 각 부서별 데이터 담당인원을 정식으로 할당, 데이터마이닝, 올랩, SQL 등 필요한 기술을 교육해 분석인력을 양성하는 것이다.

한편 금기돈 팀장은 빅데이터에 대해 “우리는 내부 데이터에 대해서는 어떻게 최적화시킬 것이냐를, 외부 데이터에 대해서는 어떤 게 우리에게 맞느냐를 전략의 시작으로 삼았다”고 말했다. 또 기업이 구하는 데이터 사이언티스트에 대해서는 “수리적 소양이 있는 게 좋고, 객관화된 지표가 있으며 참조가 된다”고 덧붙였다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지