“빅 데이터는 단지 지나가는 유행이 아니라 접근법간의 벽을 허무는 과정”

대담-미 Info Group 유혁 부사장 - 소프트웨어공학센터 이상은 소장

[아이티데일리] 미 Info Group 유혁(52세, 미국명 Stephen H. Yu) 부사장. 그는 미국에서 데이터베이스 마케팅 분야에만 25년 이상 경험을 가진 데이터 분석 전문가로 평가된다. 특히 1대 1 마케팅 부문에서는 미국 내에서 몇 안 되는 숨은 실력자로 알려지고 있다. 한 마디로 세계인들의 주목을 받고 있는 빅 데이터 관련 최고의 전문가 가운데 한 사람으로 지목되고 있다고 할 수 있다. 그가 최근 한국을 방문, 한국SW공학센터, 한국과학정보기술 등으로부터 초청을 받아 빅 데이터와 관련 강연을 해 주목을 받았다. 그는 “데이터는 사회를 바꿔나가는 원동력 가운데 하나이기 때문에 그만큼 중요하다”며, “창조경제에 한 획을 그을 수 있는 게 빅 데이터라고 본다”고 주장했다. 그러나 그는 “데이터 분석기구들이 지나친 유행을 타는 것은 바람직하지 않다”며 지적하기도 했다. 따라서 “경제민주화 못지않게 정보의 민주화도 중요하다”고 유 부사장은 강조했다. 본지는 유혁 부사장과 우리나라의 소프트웨어 기술 및 제품을 산업에 어떻게 적용시킬 것인지에 대한 해답을 찾고 있는 한국SW공학센터 이상은 소장을 초대, 대담의 자리를 마련했다. 최고의 고수들을 초청해 최대의 화두인 ‘빅 데이터’를 주제로 대담을 한 것이다. 이 소장과 유 부사장은 빅 데이터에 대한 접근방법은 서로 달랐지만 큰 틀에서는 크게 다르지 않았다. 참고로 유 부사장은 미국 씨러큐즈 유니버시티(Syracuse University)에서 경영학을 전공했고, 이상은 소장은 대학교에서 전자공학을 전공했지만 석·박사는 모두 경영학을 전공했다. 즉 유 부사장은 경영 측면에서 IT를, 이상은 소장은 IT를 바탕으로 한 경영적인 측면에서 빅 데이터를 바라보는 관점이 서로 비슷했다는 것이다. 최고의 전문가들의 대담을 통해 빅 데이터가 왜 중요하고 가치가 있는지 그 해답을 찾아본다.

*유혁 부사장은 ‘유’로, 이상은 소장은 ‘이’로 표기

▲ 유혁 Info Group 부사장

빅 데이터 접근법은 “‘왜’라는 질문에서 시작”

이: 소속이 어디죠.
유: 지금 소속을 옮기는 과정에 있다. 현재는 Infogroup이라는 미국 굴지의 데이터베이스 회사에서 개발팀을 담당하는 부사장(Vice President, Data Strategy)을 맡고 있다. 하지만 미국 굴지의 광고회사나 출판회사 등으로부터 스카웃 제의를 받아 놓고 있어 어디로 갈지 고민 중이다. 물론 이들 기업들로부터의 제의는 빅 데이터와 관련된 프로젝트 때문이다. 주로 이들 기업들은 빅 데이터를 통한 새로운 시장창출을 기대하고 있지만 기존 또는 새로 창출되는 데이터를 어떻게 활용할 지에 대한 해답을 잘 찾지 못하고 있는 것으로 알고 있다. 이에 대한 마스터플랜을 짜 달라는 제안을 받아놓고 있는 상태이다.

이: 국내 빅 데이터 전문가라고 평가되는 서울대 조성준 교수나 다음의 송길영 부사장들과도 교류가 있는 것으로 알고 있다.
유: 서울대학교에서 Data Mining학과를 만든 장본인이 조성준 교수로 알고 있다. Data Mining학과는 미국에도 없다. 그래서 미국에서는 통계학과를 졸업한 사람들을 데려다가 사업에 관한 것을 가르쳐서 일을 하고 있다. 그런데 한국은 적용에 관한 것까지 가르쳐서 사회에 내보내고 있으니 저 같은 사람들은 정말 고맙게 생각한다. 그만큼 조 교수가 빅 데이터 관련 선구자적인 입장에 있다고 할 수 있다. 송길영 부사장도 조 교수가 “둘이 만나면 할 얘기가 많을 것 같다”며 소개해 줬다. 송 부사장과는 빅 데이터 분야에서 접근법이 다르고 배경도 다르지만 결국은 사용자들이 “질문을 먼저 해야 한다”라는 데 의견을 같이 하고 있다. 그런 사용자들의 질문에 대해 미시적인 접근을 하는 사람이다. 즉 나는 “누가 무엇을 언제에 관한” 해답을 찾아주고 있고, 송길영 부사장은 더 어렵고 원론적인 “왜”에 대한 해답을 찾아준다. 그게 사실은 제일 어려운 일이다. 송 부사장은 과학뿐 아니라 사회학, 심리학, 인문학 등 다양한 시각에서 접목을 시키고 있다. 반면 나는 개개인에 대한 답을 구한다. 즉 어떤 사람이 (누구에게) 팔고자 할 상품의 판매확률이 얼마나 될 것인지에 대한 해답을 찾는다. 하지만 결국 중간에서 만난다. 요즘은 접근법간의 벽을 부수는 게 화두이다. 요즘은 광고회사에서도 이런 벽을 어떻게 허물 수 있나?라는 질문을 하고, 나같이 일대일 마케팅을 하는 사람에게도 자문을 구한다. 나는 빅 데이터는 단지 지나가는 유행이 아니라 접근법간의 벽들을 허무는 과정이라고 보고 있다. 그런 의미에서 조 교수와 송 부사장님을 만나면 늘 반갑고 재미있다.

내 역할은 ‘가교 역할’
이: 한국계 미국인이죠? Info Group 부사장이고 과거에는 I-Behavior란 정보회사를 창업해 CTO로 일했다고 들었다. 그 I-Behavior가 구매기록까지 다루는 (종합)데이터(co-op Database) 회사 중 미국 2위라고 들었다.
유: 미국에서 데이터 관련 업계가 많은데 “어떤 사람이 무엇을 살까?”라는 해답을 찾아주는 회사는 몇 개 안 된다. 그 중에서 규모가 2위이고 내가 떠난 이후에도 계속 발전하고 있다.

이: 그런 회사에서 창업 CTO로 일했는데, 구체적으로 어떤 업무를 했나.
유: 나는 나를 ‘교량 역할을 하는 사람’이라고 소개한다. 즉 실제 업무에서 데이터베이스 디자인하는 사람들하고 통계하는 사람들, 마케팅을 하는 고객들 등 모두가 다른 말을 하는 경우가 많다. 그래서 이들을 잘 이해시키고, 설득해 상호 커뮤니케이션이 잘 이뤄져 시너지 효과를 낼 수 있도록 가교 역할을 한다. 그리고 실제로 그러한 계획들이 실현될 수 있도록 프로젝트를 이끌어 나간다. 흔히 고객들이 컨퍼런스 같은 곳에서 유행어를 듣고 와서는 다짜고짜 “이런 걸 해 주세요”라고 하는데, (그런 말 뒤에 있는 진정한 의미를) 알아듣고 그 사람이 원하는 게 정말 이런 것이구나? 라고 해석하는 게 정말 필요하다. 그리고 프로젝트가 끝난 뒤 편한 말로 결과를 설명을 해주는 것도 필요하다. 그냥 통계자료나 떠넘기면 안 된다. 반면에 데이터를 만지는 사람들은 보고서를 쓰라면 자기 고생한 기록까지 거의 다 가져온다. 본인이 열심히 일한 것을 알리고 싶어서이기도 하고, 또한 모든 것을 학술적으로 접근하기 위해서이다. 그걸 줄여서 요점을 찾아주는 사람이 필요하고, 또 고객이 원하는 것을 수학하는 사람이 숫자로 타깃을 표현해 줄 수도 있어야 한다. 더욱이 정책결정을 하는 중역들은 인내심에 한계가 있어 핵심적인 포인트만을 서너 개로 줄여서 설명해야만 한다. 이런 중요한 대목 대목에 중간 역할을 하는 사람이 필요하다. 그게 내가하는 역할이다.

▲ 이상은 소프트웨어공학센터 소장

이: 가교 역할이란 게 경영과 기술의 접목도 해당되는 것 아닌가? 아무튼 빅 데이터가 화두인데, 모바일이나 SNS, 그리고 사람마다 이해하는 빅 데이터의 수준이 다 다른 것 같다. 전문가 입장에서 빅 데이터가 어떤 것인지 중요한 핵심 요소와 기술이 무엇인지 말해 달라.
유: 늘 데이터를 만져오던 사람 입장에서는 사실 그다지 새로운 게 없다. 데이터는 항상 커져왔고 컴퓨터도 항상 빨라져 왔다. 최근에 관심을 갖는 빅 데이터(Big Data)를 정의하자면 세 개의 ‘V’자가 필요하다. 즉 ▲Volume(양), ▲Velocity(속도), 그리고 ▲Variety(다양성) 등이다. 다시 말해 정말 빅 데이터라 부르려면 volume, 즉 양이 엄청나야만 하고, 속도(velocity)도 빨라야 한다. 여기에 다양성(variety)도 있어야 한다. 예를 들면 SNS처럼 사람들의 표현을 대변하는 데이터는 과거엔 우리가 만져보지 못한 데이터이다. 지금은 기술적 환경이 되니까 “많은 모바일(mobile) 전화가 어느 쪽 길로 많이 다니는데?”라는 정보까지 얻을 수 있다. 이들 세 가지 V가 예전에 없었던 것을 가능하게 하고 있다. 그런데 요새 이 분야에 새로이 들어오는 사람들의 관점은 그냥 단순히 “앞으로 내가 의사결정을 할 때 데이터를 보고 해야 하겠다”라는 모든 데이터에 관련된 의사결정과정(decision making process)을 전부 빅 데이터라 뭉뚱그려 부르는 경향이 있다. 다만 예전에는 나 같은 사람을 보고 뭐하는 사람이냐? 란 질문을 하면 그 질문에 10분 정도 설명을 해가며 대답해야 했는데, 지금은 그냥 빅 데이터 한다고 하면 누구나 쉽게 이해한다. 하지만 너무 많은 부분을 빅 데이터라 부르기 때문에 혼란이 있을 수 있다. 스몰 데이터(Small Data)도 만져보지 않고 그냥 빅 데이터로 간다는 분들도 많고, 빅 데이터라고 부르기도 어색한 양의 데이터를 갖고 빅 데이터라고 하면 곤란하다.

빅 데이터의 핵심은 ‘3V’
이: 그런 부분에서 주로 정형화(structure) 된 마케팅데이터 뿐 아니라 모바일이나 센서에서 나오는 여러 가지 데이터를 분석, 특히 실시간으로 분석하기 위해서는 기술적인 요소가 반드시 필요한 것 같다. 그런 것을 과거의 기술만으로 해결이 안 되니까 하둡(Hadoop) 등과 같은 분산처리 기술 같은 것도 필요하다는 말씀인가.
유: 근본적으로 데이터 비즈니스에서 성공을 하려면 핵심은 세 가지라고 본다. 일단 데이터 수집(collection)을 잘 해야만 한다. 즉 수집과 저장이다. 사실 많은 빅 데이터에 관한 토론은 여기까지가 전부인 경우가 많다. 다음은 가공(refinement)이다. 즉 어떻게 하면 수집한 데이터를 잘 가공해서 사용자의 질문에 정확한 답을 줄 수 있는가이다. 거기에는 통계(statistical analysis), 데이터베이스 디자인(database design), 분류(categorization), 요약(summarization) 등이 포함된다. 세 번째 단계는 공급(delivery)이다. 사람들이 리얼타임, 리얼타임 하지만 어떻게 이걸 잘 가공해서 전달해 줄 것인지, 과연 정보를 실시간으로 필요로 하는 사람인지, 아니면 아침에 리포트만 한 번 확인하는 것인지 등 고객이 어떻게 사용하는가를 정확히 알고 맞춤형 데이터로 정확한 ‘대답’을 공급(delivery)까지 해줘야 성공할 수 있다. collection, refinement, delivery 등의 과정을 놓고 볼 때 빅 데이터에 대한 화두는 아직도 첫 단계에 머물러 있는 경우가 많다. 그렇지만 축적 하나만 보더라도 엄청난 발전이라고 볼 수 있다. 그러한 저장(storage)과 소환(retrieval)의 관점에서 볼 때 예전에는 관계형데이터베이스(RDBMS)가 유행했는데, 요즘은 워낙 저장해야할 데이터와 그 성질이 다양해져서 비정형 데이터베이스(unstructured database) 쪽으로 옮겨가는 단계이다. 그렇다고 관계형데이터베이스(relational database)의 효용성이 떨어졌다는 말은 물론 아니다. 하지만 많은 경우 비정형 데이터베이스는 정보의 저장과 빠른 소환 능력에만 치중하게 되는 경향이 있다. 비정형 데이터베이스는 사실 분석하기가 쉽지 않다. 예를 들자면 누가 페이스북을 하다가 ‘좋아요’ 버튼을 누른 경우 그건 한 데이터의 조각일 뿐이고 그것을 나중에 다시 보고 싶을 때 빨리 꺼낼 수만 있으면 근본적인 기능은 충족된 것이다. 하지만 그 ‘사람(버튼을 누른)’ 자체의 성향과 패턴이 어떤 것인지를 알아내야만 한다면 관점이 달라진다. 내가 이 사람이 앞으로 어떤 걸 할 건지를 알아맞힐 수 있을 것인지, 앞으로 어떤 상품이 수요가 많아질 것인지 등에 대한 해답을 찾으려면 그 데이터를 보는 방법과 데이터베이스의 구조를 바꿔야만(임시적으로라도) 한다. 그건 또 데이터를 사람이 알아듣게 버릴 건 버리고 줄일 건 줄이는 과정이기도 한다. 너무 많은 데이터가 있는데 어떻게 하면 (던져진 질문에) 상관이 있는 데이터만 골라서 겁내지 않고 버릴 수 있는지 등에 대해서는 그와 관련된 전문가가 필요하다. 그래서 가공(refinement) 과정이 가장 중요하다고 할 수 있다.

이: 요새 빅 데이터 성공사례가 미국, 싱가폴 등에서 부분적으로 나오고 있지 않은가. 반대로 실패사례도 많은 것 같다. 어떤 요소 때문에 성공하고, 실패하는가.

실패는 실패에 대한 기준 없이 시작했기 때문
유: 실패라고 하면 실패에 대한 기준이 없었기 때문인 경우가 많다. 빅 데이터는 요술 방망이도 아닌데, 다들 너무 많은 걸 바라고 있는 것 같다. 갑자기 그것 조금 했다고 매출이 두 배가 되길 바라면 안 된다. 게다가 너무 많은 돈을 투자하는 경우도 많다. 실패 사례를 보면 무엇을 실패라고 정하지도 않고 덤빈 경우가 많다. 데이터 분석을 제대로 하는 사람들이라면 실패에서 배울 점을 찾아내 그 다음에는 성공으로 이끈다. 한 마디로 연구를 지속적으로 해야만 하고, 성공 매트릭스(Success Metrics)도 미리 정해놓고 덤벼야 한다. 기적을 바라는 건 기대(expectation)치가 그만큼 틀렸다는 데서 출발한다는 것이다. “반응률이 2%였는데 2.5%만 넘어도 좋아”라는 식으로 구체적인 기대치도 세워야 한다. 또 다른 가장 큰 실패 이유는 데이터 가공에 시간이 너무 오래 걸려서 미처 일을 제대로 못한 경우이다. 그리고 (중역, 마케팅, IT등 실무 팀 간의) 커뮤니케이션이 잘 안 되는 것도 실패의 중요한 요인이라고 할 수 있다. 불확실한 타깃은 불확실한 결과로 이어질 수밖에 없다. 세 번째는 확실한 해답을 원하는데 사용될 데이터가 망가져 있거나 가공이 제대로 안 돼 있으면 실패할 수밖에 없다. 모든 데이터마이닝의 기본에는 통계적인 모델이 들어가 있는데, 결과가 마음에 안 들면 흔히 모델이 틀려서 망했다고 하는 경우가 많다. 그런데 이를 자세히 들여다보면 모델만 제대로 돌아가고 나머지 부분이 어긋난 경우가 많다. 모델 만들 땐 일만에서 20,000줄만 있으면 샘플로 할 수 있다. 나는 고객들과 상담하면서 항상 지적하는 것이 그 결과를, 즉 모델의 알고리듬을 200,000,000줄에 어플라이(apply)할 수 있나? 또는 그것을 제대로 했나? 등이다. 그 적용(apply)하는 과정이 굉장히 어렵다. 그걸 나는 모델의 전과 후(before & after the modeling process)라고 한다. 모델을 짜기 전에 어떤 일이 틀렸는지. 또한 모델을 짠 후에는 어떤 게 틀렸는지 등을 보기 시작하면 답이 나온다. 덧붙이자면 실패라는 건 장기적 실패와 단기적 실패가 있는데, 단기적 실패만을 보고 포기하지 말라는 말씀을 분명히 드리고 싶다. 모든 데이터 관련 활동은 순환이고, 그 순환의 고리를 막는다고 해서 “Closed Loop”이라고 한다. 여기에는 시작과 끝이 있는 게 아닌데 연결고리 중간 하나만 보고 “이거 안됐네!” 하지 말고, 순환의 고리를 연결을 해주고, “이번 시도는 기대에 미치지 못했지만 이러이러한 가설 때문에 틀린 것 같으니 그걸 토대로 다시 한 번 해봅시다”라는 접근이 필요하다. 그런데 이런 접근은 중역들의 의지가 없으면 도저히 할 수 없다. 그래서 정책 결정자들의 실행(Commitment)이 중요한 것이다.

이: 모델을 한다거나 무슨 모델을 만든다거나 할 때 여러 가지 알고리즘이 있는데, 거기에 대해서 설명을 해 달라.
유: 아주 간단히 말해 모델이란 어떤 대상과 그 대상이 아닌 사람들의 차이에 대한 수학적 표현이다. 재미있는 것은 무슨 모델경시대회를 보면 1등부터 꼴찌까지의 차이가 그렇게 크지 않다는 것이다. 즉 모델을 짜는 방법의 차이보다 데이터 질의 차이가 더 큰 요점이란 얘기다. 또한 그것은 전적으로 수학적인 얘기도 아니다. 나를 포함한 많은 데이터베이스 마케터(database marketer)들은 사업하는 사람들이지 수학하는 사람이 아니다. 방법, 즉 메쏘돌로지(methodology)의 차이가 제일 작다. 사실은 타깃을 제대로 정하고, 또 그것을 데이터로 표현하는 것이 가장 중요한 성공의 요인이다. 예를 들어 어떤 데이터 전문가가 자동차 액세서리 회사의 마케팅 수석 부사장과 얘기를 해보니 “10불도 안 쓰는 사람 필요 없어”라고 해서 그것을 “그냥 돈 많이 쓰는 사람만 원하는구나?”라고 짐작을 하고 분석을 해 봤더니 정작 고객이 원하는 대상에는 두 가지의 상반된 그룹이 존재하고 있었다. 즉 자주 오면서 돈을 조금 쓰는 사람, 아주 가끔 오는데 돈을 진짜 많이 쓰는 사람이었다. 그런데 이런 걸 분석하지 않고 그냥 고객 말만 듣고서 타깃을 정하면 두 가지 상반된 집단(universe)의 중간치를 타깃으로 잡게 된다. 그것은 존재하지 않는, 즉 없는 타깃이다. 이런 타깃에 관한 토론이 가장 중요하다. 방법은 모델을 짜는 통계전문가에게 맡겨도 된다. 하지만 비전문가들은 뭐가 잘못되면 통계한 사람 탓을 가장 먼저 하는 경우가 많다.

빅 데이터는 ‘요술방망이’가 아니다
이: 사실 많은 사람들은 빅 데이터 하면 예상하는 것들의 문제가 다 풀리고, 뭔가 아주 혁신적인 대답을 얻을 것으로 기대하고 있다. 실제는 어떤가? 빅 데이터가 갖는 허와 실. 뭘 기대하고 시작해야 하는지 궁금하다.
유: 무슨 대답을 원하는지에 대한 질문이 먼저라고 본다. 간단한 예를 들자면 통신회사의 비즈니스 모델은 어떻게 하면 많은 고객을 모으고, 그렇게 모은 고객들과의 관계를 될 수 있는 대로 장기간 유지하면서 많은 수익을 끌어올릴 수 있을까에 있다. 그런데 처음 실무자를 만나보면 그 한 사람의 책임에는 어떻든 미래의 수익 예측에는 별 관심이 없는 경우가 있다. 고객만 끌어들이는 데 관심을 두고 있기 때문에 그것만이 그 실무자에게는 목적이 될 수도 있다. 또한 그런 목적의 데이터베이스 짜는 것은 복잡하지도 않다. 그런 반면, 또 다른 실무자나 중역은 “나는 모든 걸 원한다. 한 번 사인 업(sign up)했으면 관두지도 말아야 하고, 심지어는 이 고객이 언제 관둘지 예측해서 관두기 전에 바로바로 커뮤니케이션을 해야 한다”라고 요구하면 일이 복잡하고 돈도 더 많이 들게 된다. 그러나 “누가 언제 관두는지 예측하는 것을 뺀다면 예산도 절반으로 줄어들 수 있다.” 그러니까 어떤 문제에 대한 대답을 원하는지 그 질문부터 먼저 해야 한다. 자동차를 살 때랑 똑같다. 옵션 몇 개 빼면 절반 가격으로 떨어지는데, 그 옵션을 굳이 다 넣으시겠습니까? 라는 질문부터 해야 한다. 빅 데이터가 항상 기적을 일으키는 건 아니다. 결과가 조금씩 좋아지면서 장기적으로 이익이 된다고 생각하는 게 맞다. 마치 복리이자처럼 계속 조금씩 오르다 보면 몇 년 후 결과가 커져있는 것과 같은 이치라고 할 수 있다.

성공은 모든 임직원이 같이 고민해야 한다
이: 너무 큰 기대치는 갖지 말아달라는 것이지요.
유: 기대치를 현실적이고 구체적으로 줄이는 게 중요하다. 갑자기 이걸 했더니 매출이 급격히 오르는 게 아니라는 것이다. 어떤 한 상품이나 부서에서 구체적인 실험적 단계를 거쳐 테스트를 해보고, 그 성공의 결과를 차츰 확대하는 식으로 하는 게 중요하다. 한꺼번에 다 되는 건 없다. 여러 번 강조한대로 중역 분들을 만나면 그 분의 고민이 무엇인지에 대한 질문부터 먼저 해야 한다. 더 나아가 이런 일-빅 데이터-을 해보고 싶은 실무자를 만나면 인문적 접근을 해야 한다고 말씀드리고 싶다. 비즈니스에 관한 해법이 중요한 것이지 데이터베이스의 도구나 수학이론이 중요한 게 아니기 때문이다. 다 수익을 올리기 위한 도구이지 목적이 아니기 때문이다. 내가 애널리스트를 뽑을 때 네 가지 관점에서 본다. 먼저 기본적인 것은 실무에 관한 지식과 실력, 즉 통계하는 사람은 통계를 잘해야 하고. 데이터베이스 만드는 사람은 데이터베이스를 잘 만들어야한다는 것이다. 두 번째는 상대방의 말을 알아듣고 복잡한 이론을 일반인도 알아들을 수 있게 하느냐이다. 같은 영어로 말하는데도 무슨 얘기를 하는지 모를 때가 있다. 세 번째는 비즈니스 모델에 관한 이해이다. 자기가 일하는 회사나 고객이 어떻게 돈을 벌고 있는지에 대해 궁금해 하라는 것이다. 네 번째는 일에 대한 열정이다. 게으른 천재나 남과 일할 수 없는 사람은 조직에서 필요 없다. 이러한 요소들은 단지 기술적이나 수학적인 것만이 아닌 것이다. 한 가지 덧붙이자면 데이터에 관한 프로젝트들을 데이터나 상품, 회사의 구조 중심이 아닌 고객 중심(Customer Centric)의 관점에서 접근하라는 것이다. 내가 과거에 상대했던 고객들 중에는 큰 은행들도 있었다. 이름을 거론하긴 그렇지만 이미 80년대에 모든 디비전(division)의 데이터베이스를 한 군데로 모아 놓은 회사도 있었다. 빅 데이터란 말이 나오기도 전에 빅 데이터를 하고 있었다는 것이다. 그런데 문제는 그런 데이터를 갖고 있으면서도 사용자들에 대한 교통정리가 안됐다. 즉 어떤 한 가구에 프리미엄 카드, 골드 카드, 일반 카드 등 종류별로 모두 다 단시간 내에 메일링을 해왔던 것이다. 데이터가 집대성돼 있어도 사용자가 고객 위주의 사고방식을 갖지 않으면 이런 일이 발생한다. 한 마디로 구매자 중심으로 가야만 한다. 마케팅 담당자들이 각각 “나는 프리미엄 카드 실적만 올리면 돼”, “난 골드카드만 하면 돼” “난 이런 파생상품만 팔면 돼” 이런 식으로 접근한 것이다. 데이터베이스에 그렇게 많은 돈을 투자해 놓고, 실질적인 업무에 있어서는 투자를 안 한 경우와 별로 다를 게 없는 것이다. 따라서 마인드셋(Mindset)부터 바꿔야 한다. 모든 실무자들 발상의 전환이 우선되어야 한다는 것이다. 데이터를 만지는 사람들만 고민해야 할 문제가 아니다. 사장에서부터 모든 임직원이 여기에 대해 고민을 같이 해야 성공할 수 있다. 유행이니까 나도 해 봐야지라는 식이 아닌, 근본적인 발상의 전환이 필요하다. 돌려서 말하면 고객은 다 개인이고, 그들은 데이터 만지는 사람들, 마케팅 실무자의 틀에 갇혀있지 않다는 말이다. 내가 이메일을 받고 반응을 했다고 단지 온라인(online)에 있는 사람이라고 규정지어도 괜찮을까? 나는 개인일 뿐이고 내일 당장 오프라인(offline)에서 구매를 할 수도 있는 것이다. 사소한 것 같지만 이런 발상의 전환이 데이터베이스의 구조 자체를 더 효과적으로, 그리고 인본주의적으로 바꿀 수 있다.

이: 과거의 데이터는 과거의 데이터일 뿐이지만, 사실 빅 데이터라는 건 향후를 예상하기 위해서 하는 것이지 과거 분석만을 하기 위한 건 아니지 않은가.

빅 데이터는 향후를 예상하기 위한 것
유: 하도 논란이 있어서 그 분석, 즉 분석학(Analytics)에 관해 네 가지로 정리하면 다음과 같다. 첫 번째는 말씀하신 과거를 의미하는 것이다. 즉 BI(Business Intelligence)라고도 할 수 있는데, “내가 이런 일을 했는데, 이런 결과가 나왔다”라든가 “주말에 이메일을 날렸는데 이런 결과가 나왔다”라는 식의 아주 기초적이지만 중요한 분석이다. 사실은 빅 데이터에서 처음으로 만진 게 이런 것이다. 두 번째는 묘사적인 분석(Descriptive Analytics)이다. 대상에 관한 묘사를 얼마나 잘하느냐는 것이다. 우리 고객은 “주로 여자들이고, 30~40대고, 보통 학부형이고, 이런 동네에 살고, 집 평수는 대충 이 정도다”라는 식의 분석틀이다. 이런 분석을 하면 마치 그런 사람을 눈앞에서 보고 있는 것처럼 플래닝(planning) 할 수 있고, “그런 사람이 어디에 많지?”라고 써먹을 수 있다. 세 번째는 예측적인 분석학(Predictive Analytics)이다. 예측을 가능하게 하는 것이고 이게 바로 통계학적 모델을 짜는 첫 번째 이유이다. 즉 어떤 사람이 “과거에는 이렇게 했고, 이런 것으로 미루어 볼 때 앞으로 무엇을 할 확률은 이거다”라고 예측한다. 예를 들어 이 사람이 비행기를 타고 해외여행을 일 년에 5번 갈 확률은 “이렇다”라거나 “이 사람이 1년에 우리 회사에 쓰는 돈이 얼마나 될 것이고, 계약을 몇 개월 안에 해지할 확률은 이렇다”고 예측해 주는 것이다. 이런 것들이 지금까지 내가 말한 화두의 대부분이다. 사실 가장 어려운 일이기도 하다. 네 번째는 좀 다른데, 이건 일대일 마케팅에서의 미시적 관점이 아니라 마케터가 어떻게 돈을 쓰면 결과가 어떻게 극대화될 것인가를 보는 것이다. 그것을 최적화 모델(Optimization Model)이라고 한다. 내가 예산이 100만 불이 있는데 그걸 어디에 어떻게 쓸까라는 질문에 관한 대답이다. 그것도 수학적으로 모델을 짜서 해답을 제시한다. 광고회사(Marketing Agency)에 가면 그걸 분석(analytics)이라고 부른다. 이처럼 분석의 정의가 다양해서 많은 혼란이 일어나고 있다. 때문에 만나서 딴 소리 하는 경우가 많다. 나는 이 가운데 세 번째를 중점적으로 한다.

미국은 정부의 관용이 커 성공가능성 높다
이: 빅 데이터 시장이 커질 걸로 모든 기관이 예측하고 있다. 공공기관에도 빅 데이터 프로젝트가 많이 올라와 있다. 시범적인 시도와 같은, 즉 빅 데이터가 미국은 어느 정도이고, 우리나라와는 어떤 차이가 있다고 보는가.
유: 미국에서는 데이터 산업이 수 십 년째 이어져오고 있지만 아직도 잘하는 사람과 못하는 사람의 차이는 상당히 크다. 한 마디로 잘하는 사람은 아주 잘하고, 못하는 사람은 아주 못한다. 잘하는 사람들은 거래 내역까지 다 파악하고 고객 개개인에게 맞춤형으로 상품을 패키지화해서 팔려고 하고, 마케팅 커뮤니케이션(marketing communication)도 그렇게 한다. 그런 걸 아웃소싱outsourcing하는 산업도 있다. 그리고 미국에선 데이터에 대한 정부의 관용이 엄청나다. 사실 빅 데이터로 가장 성공한 사람 중의 하나가 오바마 대통령이다.

이: 미국도 개인정보 보호를 중요하게 생각하지 않나.
유: 중요하게 생각하고 있고, 실제로 정치적 이슈가 된다. 하지만 데이터를 공유하는 것에 관한한 미국이 있고, 그리고 다른 모든 나라가 있다는 표현을 할 만큼 관대하다. 그렇다고 남용을 한다는 것은 물론 아니다. 관련법도 많다. 하지만 무조건 안 된다며 모두 다 막아 놓지는 않았다. PII, 즉 Personally Identifiable Information에 관한한 데이터 공유에 엄격한 룰이 적용되지만 근본적으로 차단되어있지는 않다는 말이다.

이: 빅 데이터를 개별적인 회사의 프로젝트로 볼 때 국가적으로 빅 데이터가 잘되기 위해서 기업은 어떤 준비를 해야 한다고 보는가.
유: 정부 차원에서 먼저 해결되어야 할 이슈들이 있다고 본다. 많은 아이디어를 갖고 한국에 오고 싶었는데. 못 오는 이유가 규제가 너무 많아서이다. 언젠가 현대백화점 얘기를 들었다. 즉 현대백화점의 고객 리스트를 훔쳐서 누가 순서대로 도둑질을 했는데, 이런 것에 혼비백산한 정부가 아예 데이터를 다른데다 공유도 못하게 법을 만들었다고. 하지만 데이터는 합쳐질수록 파생 상품이 많아지고 산업 자체가 커진다. 내가 창업 CTO로 일한 I-Behavior란 회사도 근본적인 아이디어는 2,000여개의 회사 데이터를 한 곳에 모아놓으니까 엄청난 효과가 생긴다는 것이다. 그런 비즈니스를 한국에서 한다면 무조건 불법이지 않은가. 프라이버시(privacy)에 관한 비유를 들자면 누가 비행기를 타고 가고 있는데 옆에 모르는 사람이 앉았다. 그런데 심심해서 얘기를 시작했다. 그러다보면 서로에 관한 정보를 알게 되는데, 어디까지가 ‘이상하지 않은’ 질문인지에 대한 대답을 우리는 사회적 합의로 알고 있다. 회사도 그런 선을 넘지 말자는 것이다. 그리고 그 선을 넘지 않도록 산업(industry) 자체가 규제를 해야 한다. 미국 기업들은 “이러진 맙시다”라며 자체적으로 규제를 하고 있다. 그리고 오랜 동안 이런 일을 해오다보니 소비자를 잘못 건드리면 결과가 좋을 수 없다는 것을 서로 잘 알고 있다. 하나 더 덧붙이자면 이런 관점도 있다. 만약 소비자 데이터가 무조건 프라이버시를 침해하는 거라고 본다면, 그 틀을 굳이 개인이나 가구별이 아닌 동네별로, 지역별로, 아니면 다른 더 큰 틀로 보더라도 데이터를 전혀 안 보고 의사결정(decision making)을 하는 것 보다 훨씬 더 낫다는 것이다. 미리 겁먹고 싸잡아 관둘 일이 아니라는 것이다. 아무튼 한국 전체의 분위기를 볼 때 너무 규제가 많다. 미국에도 데이터 프라이버시에 관한 시민단체도 많다. 그런데도 왜 데이터의 공유를 원천적으로 불법화를 못하는지 그 이유가 있다. 첫째는 정치인 자체가 빅 데이터를 사용하고 있기 때문이다. 오바마 대통령도 빅 데이터 없이는 당선이 안됐다. 규제를 만들어도 자신들 정치인들은 예외로 놓을 정도이다. 또 하나는 이 데이터 산업이 너무 커져있기 때문에 이걸 없앴다가는 몇 조, 몇 억불($) 짜리 사업이 하루아침에 없어진다는 것이다. 데이터나 데이터베이스 마케팅을 불법화하면 직장이 몇 개가 없어질지 계산이 안 나올 정도이다. 나라 전체가 데이터를 공유함으로써 효율성도 올라가는 것은 분명하다.
나는 이런 질문을 한다. 왜 한국에서 일하는 분들, 특히 일선 실무진들의 업무 속도는 미국의 두 세배로 빠르게 보이는데, 나라 전체의 생산성을 따지면 왜 한국이 항상 세계 1등이 아닌지 의문이다. 나는 그걸 감히 말씀드리자면 의사결정과정(decision making process)에 엄청난 비효율적 요소가 존재하지 않느냐? 라는 질문을 던진다. 이런 비효율적인 일에 부담하는 사회적 비용이 너무 크다. 그런데, 이걸 하는데 돈이 얼마나 들어가는지에 대한 비용(과 직접적인 이익만을 생각할 게 아니라 전체적으로 효율이 얼마나 올라가는지 생각해볼 만하다. 데이터에 기초한 의사결정(decision making)은 배짱으로 추진력을 가지는 것만큼이나 중요하다고 본다.

한국은 규제가 너무 많다
이: 미국은 비전이 강한 것 같다.
유: 하지만 뒤집어 보면 너무나 월스트리트 중심의 사고방식이다. 사실 그것이 사람을 행복하게 만드는 사고방식은 아니라고 본다. 단기이익 추구에 너무 집착하는 기업이 대다수이다. 실제로 월스트리트는 단 2분기의 목표를 이루지 못한 CEO를 용서하지 않는다. 오히려 장기적인 투자는 한국이 더 우세하지 않을까 판단된다. 물론 나라 전체를 싸잡아 평가할 수는 없다.

이: 전자정부의 세 번째 버전인데 가장 중요한 화두가 데이터 공유이다. 그렇지 않고는 안 된다. 미국은 구글 같은 데가 있어서 알아서 산업이 돌아갈 수 있지만 우리는 정부가 공개를 안 하면 되지 않는 상황이다.
유: 미국 정부의 입장에서 보면, 이건 세금 내고 우리가 걷은 정보니까 사람들에게 줄 수 있다고 할 수 있다. 물론 개인정보는 절대 공유하지 않는다. 하지만 도시 구역별로, 동네별로 합쳐놓은 데이터는 미 통계국(Census Bureau)에서 직접 무상으로 제공한다. 물론 가공이 필요한 데이터지만 정부가 가공할 데이터를 준다는 것은 대단한 일이다. 한국도 이런 식의 발상의 전환이 필요하지 않을까 생각된다. 경제 민주화도 대기업뿐만이 아닌 영세상인도 어디에 치킨가게를 열어야 성공할 수 있는지를 데이터를 보고 결정할 수 있는 분위기에서 나오는 것 아닐까 생각한다. 데이터는 우리가 기록의 대상이기도 한 동시에 우리 모두가 사용할 수 있는 아주 쓸모 있는 도구라는 것이다.

이: 정보공개를 하면 헛된 데이터가 들어갈 수가 없다. 박근혜 정부가 필히 한다고 하고 있다. 처음에는 틀린 데이터라 하더라도 틀린 데이터로 트렌드를 알 수 있고. 아는 만큼 모을 수 있어 예측(prediction is making)도 할 수 있다. 일관성 있는 게 정확성보다 더 중요하다. 아무튼 고객들은 빅 데이터를 통해 수익을 얼마나 창출할 수 있는지에 더 관심을 갖고 있다.
유: 예를 들면 많은 데이터를 축적하고 들여다보면 공장이나 공사현장에서 주말이나 어떤 요일에 사고가 많이 터진다라는 게 보일 수 있다. 그때 사고가 꼭 터질 보장은 없지만 최소한 그때 더 조심해야겠네라는 경각심을 줄 수 있다. 실제로 뉴욕 경찰은 이미 90년대에 범죄 데이터를 지도에 옮겨놓고 우범지역을 관리하여 범죄율을 낮춘 바 있다. 이런 사소하다고 보일 수 있는 결정이 전체적 효율을 높이는 것이라고 생각한다. 사람들이 빅 데이터를 어렵고 크게 생각하는 이유는 첫째, 잘 모르기 때문이고, 둘째는 무조건 돈이 많이 든다는 생각을 갖고 있어서라고 생각한다. 하지만 다들 데이터의 사용을 생활의 일부로 만든다는 생각부터 가져야 한다.

이: 툴을 통한 분석 및 예측의 정확도는 얼마나 믿을만한가.
유: 사람에 따라 다르다. 어떤 툴을 쓰든 사람이 하는 일이기 때문이다.

이: 사람의 지식(knowledge)이 툴의 활용을 결정한다는 얘긴가.
유: IT 쪽은 툴만 자꾸 팔아먹으려고 한다. 하지만 도구는 도구일 뿐이다. 어떠한 툴이나 도구도 저절로 생각해주고 결론을 내려주지 않는다. 비싼 기타를 샀다고 Eric Clapton같은 기타리스트가 된다는 보장이 없는 것과 마찬가지이다. 데이터 분석 기구들이 지나친 유행을 타는 것은 바람직하지 않다.

경제민주화 못지않게 정보의 민주화도 중요
이: 데이터 시장의 성장속도는 어떤가.
유: 미국은 이미 성숙단계에 들어간 상황이다. 하지만 여러 가지 데이터를 한곳에 모아 연결해보려는 시도가 과거에 데이터를 다루지 않았던 사람들 사이에서도 일어나고 있다. 앞으로는 모이는 데이터의 양이 엄청날 것이라는 게 눈에 보인다. 나는 젊은이들에게 수학이나 통계를 전공하면 먹고 사는데 지장이 없을 것이라고 말해주고 있다.

이: 분석하는 분들이나 마케터들이 미국에도 많은가.
유: 데이터베이스 마케팅이라고 하는데, 많다. 컨퍼런스 하면 수천 명씩 모인다.
이: 한국에서는 데이터베이스 과학자라고 하는데.
유: 미국에서도 Data Scientist라고도 부른다. 미국은 나라가 커서 그런지 모르겠지만 컨퍼런스가 많고 그걸 듣는 사람도 많다. 취재 나온 사람도 많고 자생적으로 생겨난 유저 컨퍼런스(user conference) 등도 많아서 여건은 참 좋다.

이: 빅 데이터는 미국에서 시작했고, 미국을 중심으로 확산되고 있는데, 과연 그게 몇 십억. 몇 백억을 써서 해야 할 일인가.
유: 양심적인 대답은 데이터 자체가 주력 상품이 아닌 이상 거기에 몇 백억을 쓰지 말라는 것이다. 작은 시도로 작은 성공을 많이 만들어낸다는 접근 방식이 바람직하다. 그런 작은 시도들이 효과적으로 이루어지려면 그런 일만 전문적으로 하는 아웃소싱(outsourcing)해주는 회사들도 있어야 전체적인 효율이 높아진다. 모든 데이터 관련 일들을 다들 집안에서 해결하려고 하는 것은 집집마다 간장공장을 차려놓고 한 종지씩 만들어 먹는 격이다. 간장을 말로 해먹는 경우가 아니면 모든 일을 집안에서 하는 것은 비효율적이다. 세계 굴지의 크레딧 카드 회사들도 마케팅 데이터베이스(marketing database) 일은 아웃소싱(outsourcing)하는 경우가 대부분이다. 그들은 카드회사이지 데이터 전문회사가 아니라는 것을 알고 있는 것이다.

이: 빅 데이터가 스마트폰처럼 산업 판도를 뒤집을 힘이 있다고 보는가? 기업들은 그런 착각을 하고 있는 것 같다.
유: 그럴 정도의 혁신을 일으키진 못할 것 같다. 그리고 이건 상품에 관한 질문이 아니다. 하지만 데이터는 사회를 바꾸어나가는 원동력 가운데 하나임에는 분명하다. 데이터의 올바른 사용은 경험에 비추어 볼 때 효율 상승을 이끌게 마련이다. 하지만 결정과정을 바꾸었다고 천지개벽이 일어날 듯 떠드는 것도 바람직하진 않다.

이: IT가 없으면 빅 데이터는 실체가 없다고 본다. 실체가 있다고 해서 빅 데이터가 효과를 내는 것도 아니다. 성과나 효과를 내기 위해서는 비즈니스적인 결정을 해야만 한다.
유: 결국 아무리 꿈을 꿔도 IT없이는 꿈은 이루어지지 않는다. 그리고 꿈을 꾸고 그 꿈에 대한 해석을 내놓는 것은 여전히 사람의 몫이다.

김용석 기자 yskim@itdaily.kr

다른기사 보기

상단영역

본문영역

“빅 데이터는 단지 지나가는 유행이 아니라 접근법간의 벽을 허무는 과정”

대담-미 Info Group 유혁 부사장 - 소프트웨어공학센터 이상은 소장

기사 댓글 0

비회원 로그인