박용익 LG CNS 빅데이터사업부문장

[컴퓨터월드] ‘21세기의 원유’라고 불리는 ‘빅데이터’에 대한 관심은 나날이 늘어가고 있다. 유행처럼 번지고 있는 빅데이터이지만, 아직 이에 대한 정의부터 명확하게 내려져 있다고 볼 수는 없는 상황이다. 그럼에도 ‘빅데이터는 곧 돈’이라는 듯이 여기저기서 남발되고 있어, 웹툰 가우스전자에서는 이를 ‘보고서를 통과시켜주는 마법의 키워드’라고 풍자하기도 했다.

국내 시스템 통합(SI) 분야의 ‘빅 3’ 중 하나로 꼽히는 LG CNS의 빅데이터사업부문을 이끌고 있는 박용익 부문장은 빅데이터라는 단어가 곧 없어질 것이라고 내다봤다. 역설적으로, 데이터의 처리와 분석을 통한 의사결정이 필수불가결해지기 때문이라는 것. 데이터를 바라보는 그의 관점에 대해 들어본다.

▲ 박용익 LG CNS 빅데이터사업부문장

박용익 LG CNS 빅데이터사업부문장은 경영학 석사 과정에서 데이터와 분석에 대해 처음 접하게 됐다. DB(데이터베이스)를 전공한 지도교수의 가르침으로, 경영학도임에도 SQL을 활용해 간단한 응용프로그램을 직접 코딩해서 만들기도 했다.

경영학 박사 취득 후 박용익 부문장은 주로 컨설턴트로서 경력을 쌓아왔다. 컨설팅 프로젝트의 출발은 데이터를 수집하고 분석하는 것이므로, ‘데이터’와 ‘분석’에 대해 많은 고민을 하게 됐다고 한다. 특히 ‘분석에 유용한, 또는 필요한 데이터’가 무엇인지에 대해 고민하면서, 분석과정에서 요행을 바라는 ‘투망식 분석’이 아닌, ‘합목적적 분석’을 익힐 수 있었다고 밝혔다.

이 가운데 박용익 부문장은 석·박사 과정에서 학문적인 목적으로 배웠던 ‘사회과학 연구조사 방법론’도 큰 도움이 됐다고 언급했다. 현상에서 자신이 보고자하는 바를 정의, 이를 가설로 만들고, 데이터와 분석을 통해 검증해나가는 기본을 닦아놓았던 것.

빅데이터와의 첫 만남은 지난 2009년 LG CNS의 한 고객사를 대상으로 소셜 분석에 대한 파일럿 프로젝트를 수행하며 이뤄졌다. 빅데이터가 마케팅에 의미 있는 변화를 줄 수 있겠다는 생각에서 출발했고, 이후 사내에서 빅데이터를 연구하는 TF팀을 맡게 되며 본격적으로 빠져들었다는 게 박 부문장의 설명이다.

현재 LG CNS의 빅데이터 관련 사업을 이끌고 있는 그로부터 들은 빅데이터와 데이터 사이언티스트에 대한 이야기를 일문일답 형태로 정리했다.

 

빅데이터란 무엇이며, 최근의 열기에 대해 어떻게 바라보나.

빅데이터에 대한 정의로 일반적으로 통용되는 3V(Volume, Velocity, Variety)에 동감하며, 외부 강연이나 고객 대상 설명회 등에도 이 정의를 활용하고 있다.

이 가운데 논란이 있는 건 데이터양(Volume)인데, ‘얼마나 커야 빅데이터인가(How big is ‘big’)’라는 부분이다. 이에 대해 예전에는 ‘수백 테라바이트 정도’라고 답변하곤 했는데, 요즘에는 ‘기존 DB 또는 데이터 관리 인프라에서, 성능 때문이든 가격 때문이든 간에, 관리하기 어려운 크기’라고 이야기하고 있다.

이러한 크기의, 빠르게 발생하는, 다양한 유형의 데이터는 이전에도 존재했다. 최근 빅데이터가 주목받게 된 것은 이를 합리적인 성능과 비용으로 저장 및 처리할 수 있는 기술의 발전이 있었기 때문이다.

하둡(Hadoop)을 중심으로 한 오픈소스 기술들은 빅데이터 저장 및 처리에서 기존 DB에 비해 획기적인 가성비를 제공한다. 이전에는 엄두내지 못했던 분석이 가능해지고, 이러한 분석에서 나온 인사이트가 의미 있는 결과로 연결됨으로써 관심이 커진 것이다.


빅데이터와 기존 CRM을 비교한다면.

먼저 CRM에 대한 잘못된 시각을 정리할 필요가 있다. 물론 CRM 초창기에 거품과 잘못된 접근법이 있었고, 그 거품이 어느 한순간 꺼지기도 했다. 그러나 현재 기업경영에서 CRM이란 주제가 없어진 게 아니며, 오히려 그 기본요소로 파고들었다. 마케팅 영역 종사자들과 의견을 나눠보면 CRM에 대해 ‘한때의 유행’이라고 생각하는 사람은 아무도 없다. CRM의 각 요소는 이제 경영과 마케팅의 기본으로 여겨진다.

이는 빅데이터도 마찬가지다. 개인적으로 외부 강연이나 고객대상 설명회에서 이 ‘빅데이터’라는 용어가 곧 없어질 것이라고 말해왔다. 대신 향후 모든 기업에서 내·외부의 데이터를 처리할 때, 빅데이터 처리 및 분석은 당연한 요소로 고려될 것이라 본다.

빅데이터란 주제에 대해 현재 일부 거품이 있는 것도 사실이고, 전가의 보도인양 잘못 생각하는 경우도 있다. 하지만 이러한 오해는 곧 없어질 것이고, 빅데이터와 이를 활용한 분석이 기업경영의 한 축으로 자리 잡게 될 것이다.

마치 BI(비즈니스 인텔리전스)와 DW(데이터웨어하우스)도 오랜 논란을 거쳐 이제는 필수불가결한 의사결정 지원체계로 자리한 것과 같은 맥락이다. 해외 유수 리서치 기관의 보고서도 이제 빅데이터는 ‘무엇인가’, ‘왜 해야 하나’의 단계에서 ‘어떻게 할까’의 단계로 넘어갔다고 의견을 내고 있다.


한때 소셜 분석이 유행처럼 번진 적도 있다.

빅데이터가 등장하던 초기에 소셜 분석이 관심을 받았던 이유는, 당시 유일하게 접근 가능한 빅데이터가 소셜 데이터였기 때문이다. 기업에서 발생하는 진정한 빅데이터는 외부 유출을 엄격하게 통제하므로, 이를 분석에 활용하거나 이슈화하기 쉽지 않은 면이 있다.

문제는 소셜 분석을 통해 무엇을 봤는가에 있다. 대부분의 소셜 분석은 ‘분석(Analytics)’이 아니라 ‘사실(Fact)’을 보여주는 것에 급급했다. 소셜 미디어 상의 방대한 데이터가 모아져서 어떤 단어가 얼마나 나온다는 정도의 기본적인 통계만으로도 신기해했던 것이다.

또 이러한 분석 아닌 ‘집계’가 구체적인 ‘가치(Value)’를 찾아줄 수 있는 영역이 아닌, 정치권이나 선거 등에서 기존 여론조사를 대신하는 용도로 많이 활용되면서, 단순 집계 다음에 오는 공허함을 해결하지 못했다고 본다. 즉 ‘그래서 어쩌라는 거냐(So what)’ 같은 질문에 대한 답이 궁해졌고, 이는 소셜 분석에 대한 급격한 실망감으로 이어지게 됐다.

그렇지만 이미 기업에서는 다양한 영역에서 보다 깊이 있는 분석을 활용한 소셜 분석이 이뤄지고 있고, 이를 연구개발, 생산, 품질관리, 고객서비스개선 등 다양한 영역에 활용하고 있다. 단순 집계 차원이 아닌, 마케팅이나 생산 등 기업의 고유활동에 대한 깊이 있는 이해로부터 출발하는 것으로, 분석가의 역량이 매우 중요한 역할을 하게 된다.

향후 소셜 분석은 이러한 깊이 있는 분석에 기반, 구체적 가치 창출로 나아가게 될 것이다. 단순한 소셜 미디어 데이터 분석이 아니라, 소셜 미디어 상의 데이터와 기업의 내부데이터, 나아가 공공데이터까지 결합해 분석하는 형태로 이뤄지게 되리라 전망한다.


빅데이터의 핵심, 데이터 사이언티스트는 어떤 사람인가.

‘데이터 사이언티스트’는 분석과 기술을 고루 이해하고, 무엇을 분석할 지 알아낼 수 있으며, 컨설턴트이자 실행 역량까지 겸비한 사람이다. 무엇보다 삶 속에 분석이 체화(體化)돼, 매사를 분석을 통해 볼 수 있는 이가 데이터 사이언티스트라고 생각한다.

실제로 기업의 고객들과 빅데이터 관련 분석 프로젝트를 진행해보면, 그 과정이 한편으로는 컨설팅과 상당히 유사하고, 또 다른 한편으로는 사회과학이나 자연과학 논문을 쓰는 과정과 상당히 비슷하다.

따라서 데이터 사이언티스트라면 문제를 정의하고, 가설을 세우고, 그것을 특정한 또는 특별한 방법론을 통해 검증하고, 나아가 결과에 대해 명쾌하게 커뮤니케이션까지 이루는 역량이 요구된다. 수리적 모델링이나 통계적 분석방법, 그리고 기계학습 등의 연관 기술에 대한 이해는 기본이다.


오픈소스의 약진으로 상용 분석프로그램 입지가 약해졌다던데.

오픈소스의 활용은 비단 분석프로그램 영역만의 이슈가 아니고, 빅데이터에 대한 논의도 처음부터 오픈소스 기술을 바탕으로 이뤄져왔다. 혼란이 없어야 할 부분은 오픈소스 기반 분석프로그램이 모두 ‘빅데이터용’은 아니라는 점이다.

흔히 ‘R’이 널리 쓰이는데, R 자체가 빅데이터에 특화된 분석프로그램은 아니라고 본다. 그저 통계분석 프로그램으로, 이를 빅데이터에 활용하기 위해서는 상당한 수정이 필요하다. 이렇게 되면 결국 ‘상용화’로 이어지게 되고, 이미 이런 상용제품이 나와 있기도 하다. 빅데이터 관점에서 볼 때, 기존 상용 분석프로그램과 오픈소스 프로그램의 우열을 가리는 논의는 의미 없다.


LG CNS 빅데이터사업부문은 데이터를 어떻게 활용하고 있나.

LG CNS 빅데이터사업부문에는 200여명의 인력이 근무 중으로, 데이터 사이언티스트를 포함한 비즈니스 분석가, 컨설턴트, 그리고 빅데이터와 데이터기반기술에 대한 전문 엔지니어로 구성돼있다. 그 모태가 된 것은 2010년 시작된 AA(Advanced Analytics) TF팀으로, 얼마나 일찍부터 연구개발과 투자를 해왔는지 알 수 있는 부분이다.

현재 LG CNS는 하둡의 자사 표준 배포판을 보유하고 있으며, 데이터 플랫폼부터 비즈니스 응용프로그램까지 11개 솔루션으로 구성된 ‘LG CNS 빅데이터 솔루션 스위트(Big Data Solution Suite)’를 개발해 보유하고 있다.

아울러, 지난 4년 동안 30개 이상의 빅데이터 관련 사업을 수행하면서 탄탄한 고객층과 레퍼런스 사이트를 확보하고 있고, 빅데이터 단독으로도 해외 유수의 빅데이터 전문기업 못지않은 매출을 기록하고 있다. 많은 기업들이 망설이고 있는 동안, 주요 기업들은 이미 빅데이터에 대한 적용을 마무리해가는 상황이다.

 

인터뷰 말미에서 향후 계획을 묻는 기자의 질문에 박용익 부문장은 ‘Analytics Oriented Company’라는 개념을 구상하고 있다고 답했다. “대다수의 의사결정이 분석의 결과에 근거해 이뤄지고, 회사의 이슈들을 분석을 활용해 풀어나가는 기업”이자, 이를 위해 “필요한 데이터와 분석이 실시간(Real Time) 기반으로 제공되며, 상당 수준의 의사결정에 대한 지원이 정보시스템과 분석을 기반으로 ‘Intelligent’하게 이뤄지는 기업”이라는 설명이다.

‘Analytics Oriented Company’라 할 수 있는 기업모델은 어떻게 될지, 필요한 기술 인프라는 무엇일지, 어떤 프로세스와 인력 및 인적역량이 필요할지에 대한 그림을 그려보고 있다는 박용익 부문장은 “완벽하진 않겠지만, 곧 이러한 고민의 결과물을 여러 동료들과 공유할 수 있을 것으로 기대한다”고 포부를 밝혔다.

관련기사

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지