[대담] 빅데이터 분석의 허와 실

전용준 박사(리비젼컨설팅 대표) / 정성원 이사(데이타솔루션 마케팅 이사)

[컴퓨터월드] 전용준 박사(이하 전 박사) 신년 벽두부터 ‘빅데이터’ 광풍으로 시작했던 지난해와 비교하면 올해는 차분합니다. 지난해는 과열 조짐이라고 볼 수 있을 만큼 모든 컨퍼런스와 세미나에서 빅데이터 정의부터 시작해 활용과 가치에 대해 앞다퉈 논의했습니다. 그나마 지난해 말부터 실제 사례들이 나오기 시작하면서 빅데이터 가치에 대해 차분히 재조명을 하면서 중립적인 시각을 갖기 위한 노력들을 하고 있습니다.

최근 글로벌 기업에서 추진한 소셜미디어 데이터를 활용한 시장변화 예측 프로젝트를 수행하기도 했지만, 빅데이터 활용에 대해 빅데이터 분석에 많이 집중되고 있는 모습입니다.

정성원 이사는 ‘빅데이터’ 어떻게 바라보고 계십니까?

빅데이터, 사이즈가 문제 아니다

정성원 이사(이하 정 이사) 빅데이터 개념에 대한 언급부터 시작해야 합니다. 빅데이터는 쉽게 말게 분석이 아닌 데이터 관리 차원의 접근으로 탄생된 용어입니다. 단적인 예로 구글의 경우 데이터가 많다보니 기존 파일시스템으로 처리가 어려웠습니다. 이 부분에서 구글은 데이터 분산을 목적으로 한 파일시스템을 만들었으며, 이 과정에서 얻은 결과물이 우리가 흔히 알고 있는 ‘하둡(Hadoop)’입니다.

하둡은 대용량 데이터 분산 처리에 탁월한 성능을 발휘하지만 정확성은 떨어진다는 단점이 있습니다. 우리가 흔히 사용하는 페이스북만 보더라도 본인이 글을 게재했다고 해서 곧장 볼 수 있는 게 아니라 한참 뒤에야 본인 글을 확인할 수 있는 경우가 종종 생깁니다. 이는 하둡파일시스템이 정확성보다 관리 효율성과 대량의 데이터 처리를 목적으로 설계됐기 때문에 발생하는 현상입니다.

그런데, 막상 빅데이터가 화두가 되면서 기업들은 빅데이터가 수집된 이후 무엇을 할 것인가에 대한 논의를 하기 시작했고, 또한 빅데이터를 보유하지 않은 입장에서 텍스트 데이터, 소셜미디어 데이터, 센서 데이터 등을 수집해 빅데이터로 만들려는 움직임을 보였습니다. 이 같은 과정에서 빅데이터 개념이 확산되어 나간 것이죠.

정리를 하자면 빅데이터 개념은 분석을 목적으로 한다기보다 대용량 파일을 처리하기 위한 수단으로 탄생했다는 점을 강조하고 싶습니다. 그렇기 때문에 “빅데이터다”, “빅데이터가 아니다”라는 논쟁은 의미가 없다고 할 수 있습니다.

빅데이터 개념 역시 ‘빅’이라는 단어는 ‘어려운’ 또는 ‘이제껏 살펴보지 못한’으로 해석하는 게 맞지 결코 사이즈의 문제로 왈가왈부할 문제는 아니라는 게 제 시각입니다.

전 박사 빅데이터를 넓은 시각으로 바라볼 수 있지만 오늘 이 자리에서는 ‘빅데이터 분석’에 초점을 맞춰 깊은 대화를 나눌까 합니다. 오랫동안 분석과 관련해 통계와 기업 분석을 지원했던 입장에서 이야기를 들어보고 싶습니다.

정 이사 분석도 나름대로 구분을 지어야 할 것 같습니다. 가장 기초가 되는 리포팅과 관련한 ‘기본 분석’은 쉽게 말해서 수학에서 더하기 빼기와 같은 집계 통계입니다. 이를 그래프로 보여주는 영역까지 포함할 수 있습니다.

기본 분석과 구분이 되는 분석 방법에는 ‘고급 분석’이 있습니다. 글로벌 사례를 찾아봤을 때 일부는 기본 분석을 적용하기도 했지만, 고급 분석을 적용한 사례가 더 많습니다. 다만 빅데이터 분석의 경우 고급 분석에 접근한 사례는 아직까지 나온 것이 없는 것으로 파악하고 있습니다.

전 박사 빅데이터 분석과 관련해 정보화진흥원에서 발표했던 사례가 있습니다. 질병 예측, 보건의료, 재난 등 빅데이터 사례가 나오고 있는데 빅데이터 분석을 통해 예측한다는 것이 어떤 의미를 지니고 있습니까?

정 이사 예전부터 다루던 GIS(지리정보시스템) 데이터를 분석하는 것은 일반적인 분석입니다. 그러나 최근 빅데이터 사례는 스마트폰에서 발생하는 위치정보까지 다루는 등 그동안 다루지 않았던 데이터들을 다루는데 초점이 맞춰져 있습니다. 전에 관심을 가지지 않거나 시간이 지나 폐기했던 또는 크기가 커서 분석하지 못했던 데이터들이 빅데이터 시대에 가치를 얻을 수 있지 모르니 살펴보자는 상황입니다.

전 박사 모 카드사는 광고를 통해 ‘빅데이터’란 단어를 광고 문구로 내세운 사례가 있습니다. 마케터 입장에서는 좋은 카피를 썼다고 판단되나, 이런 점이 빅데이터 개념에 혼선을 줄 수 있지 않을까 우려되기도 합니다.

정 이사 이슈가 하나 생기면 해석하는 사람에 따라 관점이 다르니 당연히 혼란이 오기 마련입니다. CRM 역시 마케팅인가 경영인가 IT인가를 두고 혼란을 겪었던 것처럼 빅데이터 역시 모든 것들이 빅데이터란 이름으로 수식되는 과정에서 빅데이터를 두고 혼란을 겪기에 충분한 상황입니다.

제조업에서는 그동안 품질관리를 진행해왔습니다. 자동화된 시스템 구축으로 생성되는 데이터가 많았고, 정밀한 품질을 요구한 기업의 경우 그 데이터가 지금 말하고 있는 빅데이터 만큼 생성돼기도 했습니다. 이렇게 생성된 데이터 중 일부분만 가져다 분석을 하고 나머지는 시간이 지남에 따라 버리기 일쑤였습니다. 지금 말하고 있는 빅데이터 관점에서 보면 제조업은 이미 빅데이터를 도입하고 있었던 게 됩니다. 데이터마이닝 역시 큰 데이터를 가지고 분석을 해왔습니다.

따라서, 과거에 비해서 엄청나게 데이터가 커지고 하는 것보다는 다루는 데이터 영역 자체가 다양해졌다고 보는 게 더 설득력을 가질 수 있을 것입니다.

한 예로 안전행정부에서 추진한 빅데이터 관련 사업 중 물가지수를 온라인에서 산정해보자는 시범사업이 있었습니다. 지금껏 물가지수는 통계청에서 대표 품목인 481개 항목을 시장에서 조사를 하고 있었습니다. 이 과정에서 파견인력과 비용이 발생하는데 이 부분을 절감하기 위해 온라인 쇼핑몰에서 가격 정보를 수집해서 물가지수에 반영한다는 개념입니다.

실제 미국 MIT에서도 연구를 한 적 있는 이번 시범사업은 네이버 지식쇼핑과 다음, 그리고 이마트 등에서 대표 품목 481개 중 300개 항목을 크롤링해 추정식에 의해 물가지수를 산정하는 사업을 진행했습니다.

또 통계청에서는 5년마다 인구조사를 하는데 엄청난 비용이 소요됩니다. 이를 통신사의 통화량 정보를 가져와 도시 간 이동을 파악해 보는 식의 접근도 이뤄지고 있습니다.

그 밖에 △쇠고기 수요 예측 △산불 위험 예보 및 구축 △SNS 활용한 재난 경보 △의약품 의료정보 통합정보 시스템 구축 등 시범사례들이 시도되고 있습니다.

전 박사 우리가 쇠고기를 먹고 싶을 때 쇠고기를 인터넷에서 검색하는 사람은 극히 드물 것 같습니다. 그런 점에서 쇠고기 수요예측과 같은 시범사업에 대해서는 정확성 부분에 의구심이 듭니다.

정 이사 아직 설계 단계이기 때문에 명확한 것은 아닙니다. 다만, 과거는 추세를 이용해 예측을 했지만 심리적인 접근은 하지 않았으니, SNS 상에 쇠고기에 대한 여론을 파악해 긍정과 부정 등 심리적 요인을 데이터화해 추가하겠다는 것입니다.

빅데이터 분석, 다루지 않았던 데이터를 다루는 미지의 탐험과 같아

전 박사 빅데이터라고 하지만 많은 시범사업이 SNS를 활용한 쪽으로 몰려 있는 상황은 어떻게 보십니까?

정 이사 그동안 시도하지 않았던 데이터인만큼 SNS 활용에 몰려 있는 것이 사실입니다. ‘소셜미디어=빅데이터’란 공식이 만들어지면서 SNS 분석이 기하급수적으로 늘어나고 있습니다

소셜미디어 상에서 기업들은 알 수 없는 고객들의 다양한 의견들이 나올 것으로 예상했지만, 그런 데이터는 사실 찾아보기 힘듭니다. 우리나라 경우를 봤을 때 음식에 대한 의견이 나오는 것이 아니라, 음식점 장소와 먹은 음식 사진만 올려지고 있습니다.

기업 입장에서는 고객들의 감성적인 부분을 접근하려고 해도 사실 외에는 드러내지 않기 때문에 분석이 쉽지 않다고 봅니다. 그런 점에서 소셜미디어를 분석해 가치 있는 정보가 분석될까 하는 부분에서 의구심을 가지게 됩니다. 과거부터 해왔던 VOC(Voice Of Customer) 분석과 다를 바 없지 않습니까.

전 박사 트위터를 분석했더니 트윗의 80% 이상이 뉴스를 그대로 전달한 것이라는 통계 수치도 있습니다. 말을 바꾸면 트위터 상 여론은 뉴스 미디어에 초점이 맞춰져 있다고 볼 수 있습니다.

만약 애플에서 신제품이 출시됐다고 하면 우리는 트위터 상에서 사람들의 반응을 확인할 수 있을 것이라고 예측하고 있지만 실제로는 고작 애플 신제품에 대한 기사를 퍼오고 있는 게 현실입니다

정 이사 빅데이터의 대표적 사례 중 하나는 구글 독감 예측입니다. 그러나 뚜껑을 열어보니 정확도는 떨어져 있습니다. 그동안 구글의 독감 예측은 미국 보건당국보다 빨리 예측됐다고 했지만 미화된 부분이 컸던 것입니다. 실제 활용할 만큼 정확성을 가졌냐는 부분에서는 부정적 시각입니다.

예전에 데이터마이닝 때도 맥주와 기저귀처럼 말만 번지르르 하지 실행되지 않았던 사례와 동일한 건이라고 보면 됩니다. 실제 맥주와 기저귀도 실행됐던 건 아닙니다. 그동안에 몰랐던 것을 찾아냈다는 차원에서 이야기하기 좋은 사례 그 이상 그 이하도 아닙니다. 즉, 획기적인 발상의 전환을 데이터가 도움이 됐다는 것이지 효과가 있었다는 건 아니라고 봐야 합니다.

전 박사 시차 문제에 대해서도 논의를 해 봅시다. 뉴스 기사는 이미 사건이 벌어지고 난 후 다루는 게 일반적인데 이 것이 소셜미디어에서 회자된다면 문제가 있는 것 아닙니까? 예측 입장에서 놓고 봤을 때 소셜미디어가 먼 미래에 대한 예측 지수로써 가치가 있을 것인가에 의문이 듭니다. 구글 사례를 보더라도 일 년 후에 보니 예측 정확도가 많이 떨어졌다는 것은 유명한 일화입니다. 겨우 2주의 생명력을 가지고 있었던 것으로 나타났습니다.

코스콤 주가예측도 두 종류의 예측을 합니다. 소셜미디어로 향후 5일간만 예측을 하고 장기적 예측은 거시적 지표만 쓰는 게 현실입니다. 소셜미디어를 예측에 활용한다고 하지만 선행적인 지표로 활용 하는지는 간과되고 있다는 겁니다. 예를 들면 생수를 만든 제조하는 기업에서 소셜 분석을 통해 특정 지역에 생수에 대한 수요가 높다는 점을 찾았다고 하지만 그만큼 추가 물량을 제공하기 위해서는 일주일이 소요되는데 만약 그 때까지도 계속 생수 수요가 높을 것인가라는 부분에서 확신을 할 수는 없습니다.

정 이사 다분히 휘발성인 측면이 있죠.

전 박사 그렇다면 소셜미디어가 아닌 다른 데이터를 활용한 빅데이터 분석은 어떻습니까?

정 이사 일단 데이터가 많으면 좋은 점도 나쁜 점도 존재합니다. 나쁜 점이라고 한다면 일단 빅데이터라고 칭하는 데이터들은 정리가 제대로 되어 있지 않습니다. 내부 데이터는 정리가 잘 되어 있는 반면 센서 데이터나 외부 데이터의 경우 그렇지 않습니다. 정리는 관리의 관점입니다. 데이터가 정리가 잘 되지 않았는데 무엇이 나올 수 있을까라는 점에서 부정적으로 바라보고 있습니다.

전 박사 지금 분석을 이야기 하고 있는데, 데이터적인 접근이 아니라 기술적인 접근에서 분석 기술은 10년 전과 비교해 발전했다고 볼 수 있습니까?

정 이사 큰 데이터는 데이터 관리 측면에서 꽤 기술적 발전을 이뤘습니다. 하둡과 맵리듀스 등이 대표적 사례입니다. 고급 분석의 경우 기술적 발전이 더디다고 볼 수 있습니다.

다만 빅데이터가 이슈가 되면서 그동안 쓰지 않았던 분석 기법인 텍스트 마이닝 분석이 최근 사용되고 있다는 점은 긍정적입니다. 소셜 미디어 중 영향력 분석은 과거에 하지 않았던 분석입니다. 또한 소셜네트워크 분석 또한 기존에 없었던 분석입니다. 네트워크 중심 인물과 확산 그리고 도달 정보 등 소셜 상에서 흩어진 데이터들이 분석 기법이 됩니다.

이 정도로 발전을 이뤘다고 정리할 수 있습니다.

전 박사 즉, 예측과 고급분석은 저장관리 기술에서 하둡처럼 급성장한 것이 아니라는 말로 들립니다. 통계 분석이라는 측면에서 보면 기초부터 분석까지 빅데이터 시대 이전과 지금과 차이가 있습니까?

정 이사 고급분석의 발전은 더딘 편에 속합니다.
우선 통계분석에서 고급 통계분석과 시각화에 관심을 가지고 있습니다. 데이터 사이즈가 커졌는데 고급 분석을 통한 예측을 하기보다 한 번에 보여줄 수 있는 시각화를 선호하고 있습니다. 이전에는 통계분석하는 전문가들만이 쓰던 그래프가 이제는 어느 정도 대중화가 되었다고 볼 수 있습니다.

전 박사 2차원 그래프도 예전에는 시도 하지 않았던 것이라고 알고 있습니다. 모든 고객을 하나의 차트 내에 표현하겠다는 것이 합리적인 시각이냐는 점에서 의구심이 듭니다. 이 점에 대해 어떻게 생각하십니까?

정 이사 전체적인 흐름의 파악은 패턴 이해에 도움이 됩니다. 그러나 이해를 통해 얻을 수 있는 것에 비교하자면 많은 노력이 필요하다는 게 문제입니다.

통계하는 사람 입장에서 보면 100만 명이나 10만 명이나 수치화한 것은 전혀 다를 바 없지만 빅데이터 입장에서 보면 전체를 그래프로 표현합니다. 분석 전문가 입장에서는 사실 효율이 떨어지는 작업이라고 볼 수 있습니다. 예를 들어 커피 한 잔 마실 만큼 기다려서 얻는 결과와 점심을 먹고 와야 얻을 수 있는 결과가 같다고 하면 이 얼마나 허무하겠습니까.

전 박사 하둡과 같은 대용량 데이터 분산 처리 기술이 선보였지만 처리 속도가 상상할 만큼 빠르지 않다는 의견도 있습니다.

정 이사 덴마크에 본사를 둔 베스타스 윈드 시스템즈는 전세계 기상정보를 활용해 풍력발전소 최적 입지조건을 계산했습니다. 이 계산에 기존에 1주일 걸렸다면 빅데이터 시스템을 이용해서 IBM 시스템 구축으로 10시간 이내로 분석이 가능해졌습니다. 이 정도의 발전을 봤을 때 빅데이터 분석을 해 볼만 하다는 결론이 나옵니다.

전 박사 기술적인 발전이 이뤄졌다고 하더라도 분석가가 아닌 경영진까지 활용할 수 있어야 제대로 된 효과를 발휘할 것으로 보입니다. 이와 관련한 여건은 어느 정도 성숙됐습니까?

분석의 꽃, ‘데이터 사이언티스트’

정 이사 그 가교 역할을 해주는 사람을 ‘데이터 사이언티스트’라고 부릅니다. 기술, IT 비즈니스 등 여러 측면 통찰을 통해 비즈니스적 가치를 주는 역할을 담당합니다.

전 박사 통상 큰 조직에서는 의사결정권자에게 보고되는 사항은 A4 한 장을 넘어가면 안 된다고 합니다. 현실적으로 의사결정을 실무자로 권한이양 해야 한다는 주장도 나오고 있습니다. 이에 대한 생각은 어떻습니까?

정 이사 우리나라 기업에서 분석을 잘했다고 칭찬하는 것은 드문 경우입니다. 남의 분석을 실행에 옮기는 사람이 칭찬을 받지, 분석을 잘 하는 사람은 공로를 치하 받기가 어려운 게 현실입니다.
빅데이터 시대에 데이터 사이언티스트를 양성해야 한다고 하지만 별동대와 같은 분석 조직은 회사 내 승진에 한계가 있다고들 생각합니다.

전 박사 정부 또한 데이터 사이언티스트를 육성하겠다고 하는데, 현실이 이렇다면 결국 개인의 발전이라는 측면에서 봤을 때 도와주는 것이 아니라 수렁으로 내보내는 꼴이 되는 거 아닙니까?

정 이사 21세기 유망직종으로 데이터 사이언티스트를 꼽고 있지만, 기업 내 높은 위치까지 도달하기는 힘들 것으로 판단됩니다.
외국의 경우 분석은 특정한 사람이 아닌 누구나 다 해야하는 것으로 인식되어 있지만, 우리나라의 경우 별동대처럼 특수한 임무를 전담하는 식으로 분석을 수행할 가능성이 큽니다. 이런 점에서 인력양성은 헛된 일이 될 수 있습니다. 몇 명을 양성하겠다고 하는 목표가 중요한 것이 아니라, 양성된 인력이 우리나라 기업 조직에서 대접 받을 수 있는가라는 부분에서 회의적입니다.

전 박사 요즘 비교적 능력이 있는 인물의 경우 구글, 페이스북, 링크드인으로 취직을 하려고 합니다. 과거에는 영어가 제약이었지만 이제는 영어가 능숙한 만큼 이런 제약도 없다고 봅니다. 그런 점에서 정부가 육성하고자 하는 데이터 사이언티스트는 공허한 꿈일 수도 있을 것 같습니다.

정 이사 석·박사 출신 인력이 프로젝트 경력 3~4년 정도 경험을 쌓고 창의력을 가졌다면 데이터사이언티스로 성장할 수 있습니다.
그러나 이런 분석가와 개발자가 비슷한 수준의 대우를 받는 것이 문제입니다. 개발 코드를 잘 짜는 방법을 익히는 것과 고급 분석을 익히는 것은 차원이 다르지만 단가가 같다면 이는 문제가 되는 부분입니다. 분석가 인력에 대한 단가를 높여야합니다.

학술연구시장 주도로 ‘오픈소스’ 약진

전 박사 빅데이터 분석도 시장인만큼 시장 측면에서 데이터 사이언티스트 만큼이나 주목받는 것이 오픈소스입니다. 고급 분석 측면에서 오픈소스와 상용SW의 장단점은 무엇이라고 생각하십니까?

정 이사 오픈소스는 커뮤니티를 중심으로 고급 분석 알고리즘이 수없이 새롭게 나오는 곳입니다. 작은 아이디어일지라도 금세 알고리즘을 생성하는 학계 사람들을 오픈소스를 활용하는 만큼 다양한 알고리즘을 접할 수 있습니다. 그러나 상용SW의 경우 개발자가 제한적인만큼 보편타당한 분석 알고리즘 위주로 생성됩니다.

하지만, 오픈소스는 여러 아이디어가 추가되기 때문에 다양성을 지니고 있지만 기술지원은 없다는 단점을 지니고 있습니다. 반대로 상용SW는 다양하지는 않지만 기술지원이 가능하다는 장점을 있습니다.

전 박사 시장점유율을 살펴봤을 때 SAS가 오랫동안 독보적으로 시장에서 1위를 차지했습니다. 그런데 최근 나온 보고서에 따르면 2014년부터는 R이 분석에서 메인이 될 것이라는 예측이 나오기도 합니다. 오픈소스 기반 ‘R’과 ‘파이썬’의 성장속도가 기하급수적으로 늘어나고 있는 상황에서 시장 판세는 어떻게 달라질까요?

정 이사 학술연구 분야에서 오픈소스 영향이 커질 것으로 전망됩니다. 상용SW도 보완재로 R과 연계하는 방안으로 전략을 펼치고 있습니다. 또한 오픈소스의 약진은 학술연구시장의 규모가 커진다는 것도 의미합니다.

기업의 경우 고급 분석은 목적이 아니라 도구입니다. 만약 R과 같은 오픈소스로 고급분석을 하겠다고 나섰을 때 알고리즘을 누가 담당하느냐 하는 부분에서 문제가 될 수 있습니다.

다만 R을 직접 쓰는 것이 아니라 레드햇 전략처럼 검증된 것을 패키지화시켜 이를 지원하는 서비스가 창출되는 것도 어느 정도 예측이 가능합니다.

전 박사 데이터 시장이 너무 과점적 형태로 흘러가는 것이 아니냐는 비판이 나오고 있습니다.10개 남짓 소프트웨어 회사 중에서 상위 2~3개 기업이 전체 시장의 80~90%의 점유율을 차지하고 있습니다. 분석 소프트웨어 시장에서 고객은 선택의 여지가 없습니다. 이런 모습이 바람직하다고 보지는 않습니다.

정 이사 시장이 이렇게 편향된 점에는 고객의 잘못이 일정 부분 있습니다. 미국에는 통계 소프트웨어 만 수백 개가 있습니다. 외국 기업들이 소프트웨어 선택에 있어 갖가지 판단 근거를 가지고 직접 선택을 한다면 국내 기업들은 위험을 줄이기 위해서 레퍼런스를 1순위로 강조하고 있습니다. 이는 시장을 선점한 기업 위주로 시장이 편성되며 후발업체는 시장에 진입하기 어렵다는 말이 됩니다.

전 박사 이 자리를 빌려 빅데이터 개념의 근원이 분석이 아닌 데이터 관리였다는 점과, 실제 빅데이터 대표적 사례인 구글 독감 예보는 잘 꾸며진 장식품에 불과하다는 것에 대해 논의했습니다. 마지막으로 정리하는 차원에서 당부의 말을 하는 것으로 마무리를 짓겠습니다.

정 이사 빅데이터 프로젝트는 현재 정부 주도로 이뤄지고 있습니다. 빅데이터 프로젝트에서 가장 중요한 요소는 데이터 사이언티스트입니다. 하지만 단기속성으로 전문가를 만들겠다는 정부의 발상은 위험합니다.

모 지자체는 두 달 동안 교육을 통해 빅데이터 사이언티스트라는 타이틀을 부여하고, 취업은 각자 알아서 하라는 식으로 인력을 양성하고 있습니다. 교육 과정에서 소요되는 비용 역시 청년 실업에 관한 예산입니다. 이 같은 정부의 시각은 빅데이터 시장의 활성화에 전혀 도움이 되지 않습니다. 또한 고급 분석을 다룰 수 있는 인력 양성의 경우도 가치를 인정해주지 않는 이상 시장에서 자리 잡을 수 없을 것이라는 것을 다시 한 번 강조하는 것으로 마무리 짓겠습니다.

고수연 기자 going@itdaily.kr

다른기사 보기

상단영역

본문영역

[대담] 빅데이터 분석의 허와 실

전용준 박사(리비젼컨설팅 대표) / 정성원 이사(데이타솔루션 마케팅 이사)

기사 댓글 0

비회원 로그인