컴퓨터월드 주최 산·학·연·관·사용자 초청 좌담회

[컴퓨터월드] 2014년 갑오년. 올해도 역시 2014년 IT 시장을 주도할 화두에 대한 관심이 매우 높다. 사물인터넷, 3D 프린터, 웨어러블 디바이스 등 새롭게 주목받을 화두와 함께 빅데이터, 클라우드 등 지속적인 관심을 받는 화두 등이 뒤섞여 있다.

그 중 ‘21세기 원유’라고 불리며 새로운 가치를 창출해줄 수 있다는‘빅데이터’가 이제 막 개화기를 넘어서려고 하고 있다. 지난 2011년 새해 마법처럼 IT 시장의 중심에 선 이후 지금까지 무수히 많은 컨퍼런스와 세미나가 빅데이터란 주제로 청중들과 만남을 시도했다. 빅데이터 열풍 초기에는 빅데이터에 대한 정의에 대한 접근이 이뤄졌다면 이제는 빅데이터를 두고 활용할 수 있는 사례 및 경험을 공유하는 식으로 변화가 일고 있다. 바야흐로 빅데이터 2.0 시대로 접어든 것이다.

그러나 현재까지 빅데이터에 대한 정보는 한정되어 있다. 해외 및 대기업 위주로 빅데이터 프로젝트가 진행돼 국내 많은 기업들이 원하는 정보를 얻기에는 제약이 많기 때문이다. 이 과정에서 잘못된 인식과 접근으로 빅데이터 자체를 오인하는 경우도 발생하고 있다. 이에 컴퓨터월드는 2014년 신년을 맞아 빅데이터 관련 산·학·연 전문가 및 정부기관, 그리고 실제 사용자 등 다양한 입장을 대변할 이들을 초청해 좌담회를 개최했다.

‘빅데이터 과연 미래인가?’라는 주제로 2013년 빅데이터 성과 정리와 함께 2014년 빅데이터 시장을 전망했던 좌담회 내용을 정리한다.
 


일시  2013년 12월 11일 오후
장소 삼성동 인탑스빌딩 5층 투비소프트

진       행   이진수 편집국장  (컴퓨터월드/아이티데일리)
산 업 계     강용성 회장          (빅데이터기업협의회/와이즈넛 대표)
학      계    조성준 교수          (서울대학교 산업공학과/서울대 빅데이터센터 부센터장)
연 구 계     안창원 박사          (한국전자통신연구원 빅데이터SW플랫폼연구부)
정부기관    정옥남 사무관      (미래창조과학부 연구성과확산과)
정부기관    정현관 사무관      (안전행정부 공공정보정책과)
사 용 자     김대곤 박사          (국립재난안전연구원 미래재난연구팀)
 


 



이진수
최근 2년간 IT 시장의 큰 화두라고 하면 ‘빅데이터’를 꼽을 수 있다. 이 자리를 통해 올해 빅데이터와 관련된 성과를 정리하는 한편 시장에서 성장을 위한 과제는 무엇인지 논의하기 위해 산·학·연·관 전문가 및 사용자 대표 등을 모셨다.

 

오늘의 주제는 ‘빅데이터, 과연 미래인가’이다. 두 가지 의미를 부여할 수 있다. ‘빅데이터가 현재 성숙기로 나가고 있는 것인가’ 아니면 ‘미래를 내다보고 가야하는 도전기인가’라는 질문과 함께 또 다른 측면에서는 빅데이터가 가지고 있는 거품적인 요소, 즉 글로벌 기업 마케팅에서 새로운 키워드를 통해 시장을 만들려고 하는 쪽으로 치우치는 게 아닌가 하는 우려에 대해 자유롭게 토론을 하고자 한다. 좌담회 첫 번째 주제로 올해 빅데이터에 대한 각 분야별 성과를 정리해보자.

정부 주도 빅데이터 사업 개화
내년 금융과 일부 제조업도 가세…활성화 기대

강용성 빅데이터 이슈는 3년 전부터 언급되면서 시작됐다. 미국이나 해외 중심으로 빅데이터 관련 사례들이 소개됐고, IT시장에서 최신 기술 흡수가 빠르다고 알려진 우리나라 역시 빅데이터 이슈에 시장이 개화될 조짐을 보였다. 시장 초기에 SAS나 오라클 등이 본사 및 해외 사례를 중심으로 국내에서 마케팅을 시작했으며, 이와 같이 많은 벤더 및 학회 등이 빅데이터에 대한 개념에 대한 접근으로 세미나들을 줄줄이 개최했다.

그러다 최근 본격적으로 PoC(Proof of Concept) 등 빅데이터 도입을 위한 움직임이 드러났다. 특히 공공기관들이 적용가능한 사례 등을 탐색하는 단계를 밟았다. 2013년 한해 변화된 부분을 찾자면 빅데이터가 개념 단계를 넘어 민간기업, 그 중 중공업이나 일부 제조 분야에서 PoC 요청이 있었고 이에 빅데이터 관련 벤더들이 참여했다는 점이다.

빅데이터 시장에 가장 큰 영향을 미친 것은 안전행정부가 추진했던 빅데이터 시범사업이다. 많은 기업들이 실제 빅데이터 사업에 대해 구체화된 모습을 직접 대면하게 된 사례로 손꼽을 수 있다. 그렇지만 이런 움직임을 빅데이터 시장이 활성화됐다는 근거로 내놓기에는 미약한 점이 많다. 민간 기업 움직임은 PoC까지 선을 그어놓고 더 이상 활발한 진행을 하지 않고 있기 때문이다.

다만 일부 금융권을 중심으로 제조업 등에 빅데이터가 적용되지 않을까 하는 기대를 하게 하는 PoC나 ISP(Information Strategy Planning)들이 나오고 있다는 점은 향후 시장을 밝게하는 요인으로 작용할 것이라 예상된다. 공공기관은 ISP나 PoC를 넘어서 시범사업 등 구체적인 구축사업을 벌이고 있어 민간기업보다는 한 스텝 빠르게 빅데이터 이슈에 대응하고 있다.

국내 사례 등 환경적인 요소를 고려해봤을 때 빅데이터 시장은 공공이 주도하고 있다고 판단된다. 실제 기업이 수익을 낼 수 있는 사업이 무엇인지 조사 해봐도 정부의 시범사업으로 나타난다. 게다가 2014년부터 금융과 일부 제조업에서 빅데이터 구축 프로젝트를 진행할 것으로 예상돼 빅데이터 시장의 규모는 더욱 커질 것으로 내다보고 있다.

정옥남 미국이나 유럽의 경우 이미 2011년에 빅데이터 마스터플랜을 수립했다. 우리나라 역시 2012년 12월 국가정보화위원회가 마스터플랜을 수립하고 안행부가 VIP 보고를 했다. 정부 조직 개편 이후 미래창조과학부가 빅데이터 관련 업무를 전담하고 안행부는 전자정부 사업을 전담하는 식으로 진행한다.

우리나라의 경우 일단 빅데이터 마스터플랜을 수립했지만 모든 사업을 포괄하는 종합 계획은 없다. 그래도 주요 성과라고 할 수 있는 것은 미래부가 빅데이터 관련 5개 시범사업을 추진한 것처럼 우리나라 전체 빅데이터 사업 발전을 위한 전략을 12월에 발표했다. 공식적으로 전략을 발표했다는 것은 후속조치를 어떻게 할 것인가에 대한 로드맵을 발표한 것이기 때문에 빅데이터 활용을 위한 종합계획을 수립했다고 볼 수 있다.

이번 전략은 2013년부터 2017년까지 계획이 포함되어 있으며, 앞으로 중장기 계획에 따라 예산 배분과 실제 사업을 추진할 계획이다.

정현관 정부가 2012년 빅데이터 계획을 수립했다면 2013년은 빅데이터 사업을 시작하는 등 첫 발자국을 내디뎠다고 정리할 수 있다. 시범사업이라서 사업 규모가 크지 않지만 산업 발전에 도움을 줄 수 있을 정도의 영향력은 미쳤다고 생각한다.

지난해까지는 ISP와 마스터플랜을 통해 그 과정으로 시행착오를 겪으면서 경험을 쌓았다. 안행부에서는 공공 분야에 어떤 데이터가 있는 전수조사를 하고 그 데이터를 바탕으로 민간에 개방해 산업을 활성화시킬 수 있을까 하는 부분 체계를 만들려고 한다. 현재까지 공공데이터가 16% 공개되어 있다고 조사됐다.

오는 2016~2017년에는 데이터의 60%까지 공개하는 것이 안행부에서 추진하고 있는 정부 3.0의 주요 과제 중 하나다. 또한 데이터 개방을 바탕으로 빅데이터 분석으로 이어지게 만드는 것도 정부 3.0 10대 과제로 추진되고 있다. 2013년이 빅데이터 원년의 해였다면 2014년은 확산되어 나가는 방향이 될 것이다.

이진수 발표한 내용을 정리 하자면 빅데이터는 도약을 위한 탐색기를 거치고 있다고 볼 수 있다. 산업계와 정부기관 외 연구기관에서는 빅데이터를 어떻게 바라보고 있는가.

 

전혀 새롭지 않은 주제 ‘빅데이터’, 그러나…

안창원 연구기관 입장에서 빅데이터는 ‘동전의 양면’, ‘양날의 칼’ 같은 존재다. 모두 연구 주제가 빅데이터란 주제로 달고 나올 수밖에 없는 상황이 됐다. 한편으로는 빅데이터란 말 한 마디로 모든 것이 용인된다는 것 자체가 경이로운 상황이다.

빅데이터 기술이 어디서부터 어디까지냐고 물어보면 포함되지 않는 기술은 없을 것이다. 국민을 대상으로 또는 정부를 대상으로 설득하기 위한 가장 좋은 단어인 것은 사실이다. 다만 기술 개발하는 측면에서는 그게 하나의 포장이며, 기술적으로 빅데이터 기술을 발전하기 위한 협의와 대화 등이 이뤄져야 하는데 그런 부문에서 더딘 부분이 아쉽다.

빅데이터라는 것이 컴퓨터 구조, 파일시스템 데이터베이스 등 아주 전통적인 IT 기술을 반복하는 이슈라서 이 부분을 다시 언급 안 할 수 없는데 이런 주제를 들고 나오면 이미 식상하고 이걸 빅데이터로 포장을 하면 새로운 것처럼 서로가 서로를 적당히 속이고 넘어가는 상황이 연출되고 있다.

국민을 대상으로 새로운 기회에 대한 접근은 좋지만 연구·개발하는 입장에서는 거품 빼고, 바람 빼고, 포장 빼고 순수하게 기술적인 측면에서 취해야하는 것이 무엇일까 하는 진중한 고민을 하는 분위기 조성이 되어 있지 않다.

이런 아쉬움에도 불구하고 빅데이터 덕분에 그동안 등한시됐던 기술들이 다시 관심을 받게 된 점은 칭찬할 만하다. 그동안 데이터는 애플리케이션 중심에서 들어왔다 나가는 식의 손님 같은 존재였다. 이제는 데이터가 중심에 서서 컴퓨팅과 애플리케이션이 이를 지원하는 입장으로 패러다임이 바뀌고 있다. 데이터는 지금도 예측할 수 없을 정도로 무한정 확대되고 있어 이런 식으로 변화를 맞이하게 된 것이다.


▲ 안창원 한국전자통신연구원 박사(좌)

 

현재 빅데이터라고 하면 데이터를 한 곳에 모아두자는 것이 모든 기관들의 중점 사안이다. 그 많은 데이터를 서로 다른 헤게모니를 가지고 있는 조직들 사이에 이견을 넘어서 한 곳에 모아둘 수 있을까? 다른 기술적 방법에 대한 고민을 해 봐야 한다.

산업이 필요한 기술들은 우리 기술이 아니라고 하더라도 웬만큼 제공되고 있다. 하지만 과학기술 쪽에서 지금보다 상상할 수 없는 빅데이터가 쌓이고 활용이 돼야 한다면 “지금 기술인 하둡으로 해결이 되느냐?”라는 질문에 “아닐 것이다”라는 답을 하고 싶다. 그런 부분에 대한 기술은 우리가 먼저 인지를 하고 시작을 하면 산업 쪽으로 넘어간다.

이진수 그나마 빅데이터가 개념을 넘어서 PoC나 사범사업이 이뤄지는 등 실체에 접근하기 시작했다. 이런 과정에서 빅데이터 접근에 대한 가이드라인이 필요할 것 같다. 빅데이터를 도입했을 때 취할 수 있는 것과 특히 수요자 및 사용자들이 빅데이터 프로젝트를 진행할 경우 거쳐야할 일련의 과정들은 무엇이 있는가에 대해 논의를 해보자.

김대곤 국립재난안전연구원은 재난분야에서 현상들을 조명하거나 대응 전략을 수립하는 게 기본 목표다. 재난 분야에서 많은 데이터가 필요했다. 기존 자연재해 기준이면 기상과 지형 등 고전적인 구조적 대책을 하려면 기초적인 데이터가 필요하다. 이를 데이터마이닝이라는 이름으로 수치 데이터를 활용한다. 그러나 이제는 보고서 형태로 나오면서 정형화된 데이터마이닝보다는 비정형화된 데이터들이 더 많이 축적되고 있다.

이런 모습들이 정리가 돼서 시각적으로 보여주기 시작하면 사고의 전환이나 우리가 생각지 못했던 관점에서 재난 대응이 제시되지 않을까 하는 차원에서 빅데이터 프로젝트를 시도했다. 기초 공학입장에서 빅데이터가 처음에는 마술처럼 모든 것이 다 되는 것처럼 되는 줄 알았다.

PoC와 여러 벤더를 방문했을 때 포장이 잘 되어 있다. 빅데이터면 다 된다는 식이다. 다만 벤더에서 정확하게 무엇을 알고 싶어 하고 무엇을 하고자 하는지를 말해야 이뤄줄 수 있다고 조언을 했다.

좀 더 기획을 진행하면서 수립과 절차를 밟아보니 그 이야기는 다시 처음으로 돌아가서 어떤 데이터를 요구하고 어떤 데이터를 상세화해서 우리가 쓸 것인지를 계획을 갖고 가야지만 그 연결 과정에서 기능으로 빅데이터를 쓸 수 있다는 이야기로 이해가 됐다.


▲ 김대곤 국립재난안전연구원 박사

 

지금 사실 미래부와 안행부는 많은 공공데이터를 수집하고 그것을 이런 개념으로 접근하고자 한다. 예전에 컴퓨터는 하드웨어 부문을 이야기하고 그것이 빨리 돌아갈 수 있는 꿈을 실현할 수 있는 것도 있고, 그 연구기관에 비춰보면, 슈퍼컴퓨터를 가지고 있다. 또는 수많은 하드웨어 기반 도입이 구축되어 있어야 했다. 그러나 이런 해석을 할 아이디어는 있었지만 하지 못했다. 그런 기반들이 공통 기반으로 가고 솔루션까지도 공통 기반으로 이뤄지고 있다.

사실 가장 중요한 것은 실수요자들이 세밀하게 무엇이 필요한가라는 부문은 공통 기반에서는 절대 제공해줄 수 없는 부분이다. 그리고 세밀화된 빅데이터 자료들이 어떻게 표출된 지 공통 기반으로 받쳐 줄 수 있냐 하는 부문에서 힘들다고 본다.

그런 과정에서 어떤 기반까지 공통 기반으로 지원을 하고 그것에 대한 고민과 그것에 대해 효율적으로 많은 제공이 됐을 때, 그 이후 세밀화된 결과들을 레퍼런스를 만들어졌을 때 다양한 결과물이 표출창이 될 수 있다.

몇 단계로 분류돼야 한다. 빅데이터로 하나로 묶으려고 하는 시도들이 가장 크다 보니까 지금 절차상에서 아이러니, 실제 해보면 아닌데 하는 생각을 갖고 있는데 의문이 든다.

빅데이터 솔루션 개발 업체들이 이것을 컴퓨팅 개념에서 기술적 개념을 연결하는 부문으로 생각하지 말고 그것을 기본으로 과연 수요자들이 어떤 것을 요구하는지에 대한 깊이 있는 접근이 있어야 다양한 서비스가 이뤄진다.

이진수 정리를 하자면 여러 가지 시행착오를 겪으면서 얻은 결론은 사용자가 뚜렷한 자기 목적과 방법 데이터 처리 계획이 세워져 있고 이해가 깊어야 한다고 볼 수 있는가.

김대곤 수요자가 접근을 할 때 빅데이터가 모든 게 가능하게 한다고 하는 식의 홍보를 한다. 수요자는 이런 홍보를 믿고 막연하게 접근을 하는 오류를 범한다. 그런데 접근을 해서 피부로 체험을 했을 때 그때 괴리감을 느끼게 된다. 예산과 계획을 수립하고 접근을 했다고 생각했는데도 불구하고 무엇을 해야 할 지에 대한 계획과 목표를 재수립해야 하는 원점으로 돌아왔다.

이런 경우에 부딪칠 경우 보통 사업을 포기하거나 다른 대안을 찾는 등 빅데이터에 대한 거리감을 가지게 된다. 이런 현실적인 문제는 직접 부딪치지 않고서는 알 수 없다. 이런 부분에 대한 실제적 경험과 준비에 대한 부분이 적극적으로 알려져야 빅데이터 프로젝트에 대한 인식이 좋아지고 실패도 줄어들게 될 것이다.

강용성 이런 고민은 수요자뿐만 아니라 공급자도 똑같이 고민하는 부분이다. 빅데이터라는 것이 한 벤더가 모든 부분을 다 커버하기 쉽지 않은 분야다. 이런 이슈가 생기는 이유는 각자 제공할 수 있는 영역 내에서 자기 역할의 전부만 이야기하기 때문이다. ‘빅데이터란 이런 것이다’라는 접근에서 수요자가 듣고 싶어 하는 것과 공급자가 이야기하는 것에 대한 시각 자체가 다르기 때문에 공급자의 대화법은 잘못됐다는 것을 인정한다.

빅데이터기업협의회의 구성 요소를 살펴볼 필요가 있다. 협의회 회원사를 살펴보면 컨설팅과, 학교, 서비스, 클라우드 등 다양한 벤더들이 합류하고 있다. 빅데이터 프로젝트를 기존 프로젝트와 동일하게 진행하다보니 전체를 바라보지 못하고 있다. 이에 막히는 부분이 생겼을 경우 확인을 해야 하는데 할 곳이 없다. 현재 빅데이터기업협의회가 고민하고 있는 가장 큰 과제다.

해외 빅데이터 사례를 국내에 소개하고 있다. 데이터 사이언티스트라고 모셔왔더니 현지화 장벽에 막혀버렸다. 국내에서는 경험도 없고 가이드도 못한다. 이런 상황에서 결국 데이터 사이언티스트는 없다는 결론까지 도출이 되고 있는 상황이다.


▲ 강용성 빅데이터기업협의회 회장

 

현재 빅데이터 사업에 들어가면 공급자는 발주처에게 “충분히 알고 있어야 하는 것 아니냐”고 언성을 높이고 있으며, 발주처는 공급자에게 “투입되기 전에 다른 사례들을 익히고 와야 하는 것 아니냐”라고 티격태격하며 사업 지연이 일어나고 있다.

그나마 공공기관 시범사업으로 빅데이터 시장의 숨통이 틔워지고 있다. 그러나 정부 기관이 주로 하는 사업은 재난 관련된 사례를 제외하고 크리티컬한 업무에 적용되는 건 아니다. 재난 사례처럼 명확한 ROI가 나오는 사업이 아니라는 이야기다.

실제 민간기업들의 빅데이터 도입이 더딘 이유는 국립미래재난안전연구원처럼 명확한 ROI가 나와야 하는데 공공기관의 시범사업은 이런 요구를 충족할만한 사례가 아니기 때문에 이런 ROI가 명확한 구체적인 사례를 요구하기 때문에 더디게 움직이고 있는 것이다.

빅데이터의 핵심 ‘데이터’

이진수 최근 미래부와 관계부처 합동으로 빅데이터를 창조경제 및 정부3.0 핵심동력으로 육성하기 위한 ‘빅데이터 산업 발전전략’을 발표했다. △6대 유망업종에 활용할 프로젝트 추진 △수요예보제 실시, 7대 핵심 원천기술 개발, 5천명 전문인력 양성 △법제도 정비(DB산업진흥법 제정, 개인정보 활용 가이드 마련) △업종 내 상호협력 협의체 구성·운영 △전문기업육성 및 공동브랜드화를 통한 해외진출 지원 등을 주요 골자로 뽑을 수 있다.

이처럼 빅데이터 산업을 활성화하기 위한 움직임이 있지만 제도라는 것은 특성상 플레이어들이 먼저 치고 나온 뒤에야 보완이 되고 완비가 되는 사이클이 있다. 이런 점에서 법·제도는 새로운 기술과 환경에 대한 최대 걸림돌이라는 지적을 늘 받는다. 이런 점에서 빅데이터 활성화를 위해 선결해야 할 과제는 무엇이며 이를 보완할 수 있는 방안은 무엇인지에 대한 의견들을 내보자.

안창원 데이터가 없는 사람에게 데이터를 달라고 하는 상황이 벌어지고 있다. 모 기관의 경우 데이터에 대해 물어보면 모른다고 답변한다. 그 부분에 답변을 하려면 3~4년 준비를 해야 한다는 답변을 받았다.

안행부에서 공공기관을 대상으로 데이터에 대한 전수조사를 하고 있다. 공공데이터가 어떤 형식으로 쌓여있다는 부분에서 공개를 해야 하는데 데이터를 파악하지 못한 기관에게 데이터를 막무가내로 공개해달라고 하면 이는 제약이 될 것이다.

 

우선 정부가 공공이란 이름으로 가지고 있는 데이터를 어디에 무슨 목적으로 언제부터 어떤 형식으로 갖춰져 있는지 메타데이터를 공개하고 이런 부분에서 메타데이터 환경을 마련하는 것으로 공공데이터 개방이라는 첫 단추를 채울 수 있다.

정현관 안행부에서 추진하고 있는 데이터 전수조사는 전 부처에서 공공데이터 기준을 나눠 2017년까지 60%까지 데이터를 공개하고 나머지 부문에서는 목록 수준에서 볼 수 있다는 것을 말한다.

올해도 조사를 했지만 내년에는 공공데이터 이용활성화 법률을 만들어 위원회도 구성할 예정이다. 또한 데이터가 있어도 받을 수 없는 경우 등 공공데이터를 둘러싼 분쟁에 대비해 분쟁조정위원회도 발족해 중재할 수 있게 환경을 조성할 예정이다. 이런 기반이 확충되면 공공데이터를 주고받으며 이를 통해 민간에서 활성화 할 수 있는 방향이 생길 것이다. 이런 일련의 과정은 안행부에서 추진하는 정부3.0 과제의 첫 번째로 중요하게 생각하고 있다.

김대곤 실제 빅데이터에 대한 접근을 서비스 모델과 활용에 대해 고민하지만 무엇이 필요한지 공통기반 자료 전수조사를 통해 할 필요가 있다.

예를 들어 물고기가 뛰어놀 수 있는 장을 마련해주면 어떻게 놀 건지는 물고기의 역할이다. 그런데 장을 마련해주는 것 외에 물고기가 갈 수 있는 어로나 구획을 만들어주는 것은 앞서나가고 있는 부분이라고 생각한다. 정부는 어떻게 활용할 건지에 대한 제안과 환경을 조성하면 사용자는 이를 활용해 나온 결과를 이런 제안과 환경을 조성한 기관과 공유하는 부분이 있어야 한다.

강용성 아직까지 전통적인 기존 플랫폼을 기반으로 바라보고 있기 때문에 빅데이터 도입에 제약이 많다. 그나마 예측 부문에 있어서는 조금 쉬운 부분이 많다. 현실적으로 이런 접근 사례들이 조금씩 나오고 있다.
최근 한 예로 코스콤의 ‘빅데이터를 활용한 주가예측분석’을 들 수 있다. 코스콤은 주가 예측을 하는 기관으로 예측을 위해 분석을 하고 있다. 이런 분석 틀에 소셜네트워크 부분을 추가해 시뮬레이션화했다. SNS 상에서 아이폰, 갤럭시 등 휴대전화를 언급하면 스마트폰 제조업체 주가에 어떤 영향을 줄까 이런 부분을 수집해서 주가 예측 항목에 추가한 셈이다. 즉, 본래 주가 예측을 위한 모델을 위한 데이터를 100% 보유하고 있지만 소셜네트워크라는 데이터를 10% 추가한 것이다.

이와 동일한 모델로 미래부에서 추진했던 ‘빅데이터 기반의 의약품 안전성 조기경보 서비스’이 있다. 이 서비스는 한국의약품안전관리원이 보유한 유해사례 신고데이터와 인터넷 포털, 소셜사이트 등의 빅데이터에서 의약품 부작용, 의심정보 등을 수집, 분석해 유의의약품에 대한 조기경보를 발행하는 서비스다.


▲ 정현관 안전행정부 사무관

 

의약품에 대한 부작용 가능성 판단이나 의심되는 의약품에 대한 정보를 수집하기에는 이미 민간에 퍼지게 된 후다. 이를 좀 더 빨리 정보를 수집하기 위해 소셜네트워크 상에 언급되는 의약품에 대한 정보를 수집해 조금이라도 문제 있다는 메시지를 찾아내 대응하는 것이다. 코스콤과 의약품 관련 사례들은 기존 분석 방식을 뒤집는 것이 아니라 기존 분석 방식에 추가로 다른 데이터를 포함해 오차율과 신속성을 더하는 방식이다.

빅데이터의 필수요건 ‘데이터 사이언티스트’

이진수 빅데이터 시대가 도래하면서 데이터 사이언티스트가 필수요건으로 떠오르고 있다. 심지어 미래 선호 직업으로 데이터 사이언티스트가 물망에 오르기도 한다. 그러나 데이터 사이언티스트가 실제 없는 허상이라는 반론도 만만치 않다. 실제 데이터 사이언티스트라고 할 수 있는 직업이 있는지에 대한 의문의 목소리도 나오고 있다. 빅데이터 시대 데이터 사이언티스
트를 어떻게 봐야 하는가.

조성준 데이터 사이언티스트는 산업공학, 컴퓨터공학, 통계공학에 합쳐져야 한다. 과거 계산통계학이라는 학과가 있었다. 이 학과가 진짜 데이터 사이언티스트라고 불릴 수 있었다. 그런데 그 당시 전공에서 컴공이 9명, 통계 1명 등 불균형으로 인해 과가 분리됐다. 아쉬운 일이다.


▲ 조성준 서울대학교 교수

 

현재 데이터 사이언티스트가 갖춰야 할 산업공학, 컴퓨터공학, 통계공학 중 두 가지 이상 습득한 사람은 거의 없다고 볼 수 있다. 최근 들어 대학원생을 기준으로 한 분야에서 공부하던 사람이 다른 분야로 넘어서 공부하고 있는 수준까지는 도달했다. 이를 체계적으로 육성하기 위해서는 학과 간 협동과정을 거쳐야 데이터 사이언티스트가 육성될 것이다.

미국은 이미 명문대에서 15개월 과정으로 데이터 사이언티스트를 육성하기 위한 교과과정을 만들었다. 우리나라 역시 최근 충북대에서 데이터 사이언티스트를 육성하기 위한 교과과정을 개설했다. 아쉬운 점은 서울권은 제도적 제약 때문에 육성하고 싶어도 육성할 수 없는 상황이라는 것이다. 교과과정과 육성을 위한 준비는 모두 맞췄지만 제도적으로 풀리지 않아서 손만 놓고 있는 게 현실이다.

안창원 IT 역사를 비춰보면, 하드웨어에서 소프트웨어, 소프트웨어에서 하드웨어 등 여러 변화기를 거쳤다. 이 과정에서 데이터는 늘 가공되고 처리되어 왔다. 흔히 말해 데이터 시대에 살고 있는 것이다. 이런 환경에서 디지털화가 가속화될수록 데이터가 소통할 수 있는 능력이 갖춰져 비로소 빅데이터 이슈가 관심을 받게 된 것이다.

이 과정에서 필수요소로 데이터 사이인티스트를 이야기하고 있지만 현실적으로 데이터 사이언티스트가 아닌 데이터 사이언스‘팀’을 만들어야 한다.

어떤 프로젝트에 참가했을 때 서로 대화가 되지 않는 상황이 종종 발생을 한다. 서로 다루는 전문용어가 있으며, 각 지칭하는 단어가 다르기 때문에 이런 일이 생기는 것이다. 그러나 데이터를 갖고 있는 집단과 가공해야 할 집단 그리고 분석해야 할 집단은 이런 불편한 관계 속에서도 소통을 해야 한다. 이런 모습이 데이터 사이언스팀이라고 할 수 있다.

또한 완벽한 데이터 사이언스팀을 구성하기 위해서는 공대뿐만 아니라 인문학이 섞인 융합 기반으로 가야 한다. 유럽의경우 50% 이상이 사회과학을 배웠다. 우리나라는 90%가 IT를 하는 사람이다. 이런 점에서 문과와 이과를 나눌 것이 아니라 문과와 이과를 통합하는 통섭형 인재를 육성하기 위한 기반을 조성해야 한다.

김대곤 지금은 심리학, 사회학, 미래학 등 인문학이 따라오지 않는 데이터는 설득력과 연결이 떨어진다. 방정식으로 표현이 안 되는 한계에 도달한다.

국립재난안전연구원 역시 인력 채용 시 인문학 전공자를 영입하려 하고 있으나, 실제 지원이 활발하지는 않다. 재난안전에 인문학은 전문인력이 아니라는 선입견 때문이다. 여러 방면에서 연구를 위해서는 한 분야 전문가가 아닌 여러 분야의 전문가들이 모여 융합을 이룬 팀이 있어야 한다.

강용성 데이터 사이언티스트는 유토피아 같은 이야기다. 빅데이터를 구축하기 위해서는 현업의 일하는 방식을 바꿔야 함에도 불구하고 이에 대한 변화를 두지 않고 빅데이터에 대해 이야기하는 것은 어불성설이다. 과거 분석하는 방식을 살펴보자. 빨간 립스틱을 100만개 팔았다고 하면 이 매출 추이를 보고 다음 해 빨간 립스틱 판매를 어떻게 할 것인가에 대한 논의를 할 것이다. 그런데 갑작스럽게 노란 립스틱이 유행한다고 하면 그 해 판매 전략은 실패한 것이 된 것이다. 이를 막기 위해서는 유행에 대한 정보를 수집해 변화가 있다면 이를 실시간으로 파악하고 분석에 적용하게 할 수 있는 사람이 필요하다.

정현관 정부부처를 대상으로 빅데이터를 활용하기 위한 계획서를 제출하라고 하면 부처들은 활용계획서를 제출한다. 그러나 구체적인 방안이 없는 뜬구름 잡기 식의 계획이다. 정부부처나 지자체는 빅데이터를 활용하고 싶어 하지만 이를 제대로 이해하지 못해서 컨설팅을 해달라는 수요가 넘쳐난다.

결국 사업을 만들기 위해 전문가와 현업 담당자가 만나서 TF팀을 운영하는 것 자체가 데이터 사이언티스트라고 할 수 있다.

김대곤 데이터 사이언티스트에 대한 언급도 중요하지만 교육을 위한 장에 대한 언급도 필요하다. 모든 사업을 사례 중심으로만 할 수 없다. 시범사업이 나오고 TF팀이 꾸려지지만 각자 환경과 추진방향이 다르기 때문에 세부적인 맞춤형 계획이 필요하다. 이를 위해서는 교육이 필요하다. IBM이나 SAS 등 유료 교육들이 있긴 하지만 현재 이런 수요를 감당할 수 있는 부분까지는 아니다. 이런 교육을 할 수 있는 장을 만들어야 한다.

정옥남 이번 정부의 목표는 일자리 창출이다. 빅데이터 역시 데이터 전문인력 양성과 맞물려 일자리 창출을 기본으로 한다. 인프라 측면에서는 생태계를 조성해야 한다.


▲ 정옥남 미래창조과학부 사무관

 

조성준 빅데이터를 분석할 사람도 많지 않지만 현업에서 빅데이터에 대한 이해도는 낮고 빅데이터를 활용할 수 있는 상황도 조성되지 않았다. 분석가가 목표를 설정할 수도 없다. 예를 들어 반도체 공정에서 분석가가 반도체 전문가일 수 없다. 이 부분은 분석가가 아닌 현업 사용자에게 초기 분석 교육을 활성화해야 한다. 다만 현업은 근무 강도가 높고 비용과 시간적인 부분 때문에 교육이 되지 않는다. 이런 체계에서 배워야 할 사람도 많고 가르쳐야 할 사람도 많은데 연결이 되지 않는다.

빠질 수 없는 문제 ‘개인정보공개’ 해결책은?

이진수 빅데이터 이슈에서 빠질 수 없는 부분이 개인정보보호다. 이런 점 때문에 최근 방통위가 ‘빅데이터 개인정보보호 가이드라인(안)’을 공개했다. 빅데이터 서비스에서 공개 정보 또는 이용 내용 정보를 수집, 조합, 분석, 처리 및 관리에 있어서 지켜야 할 사항들이 담겨 있긴 하지만 100% 만족한다고 할 수는 없을 것 같다. 특히 우리나라의 개인정보보호법에 대한 규제는 불필요할 정도로 까다롭고 제약도 많다는 게 중론이다. 빅데이터 시각에서 바라보는 개인정보보호, 어떻게 생각하나.

 

안창원 데이터 보안 이슈는 굉장히 중요하다. 빅데이터 시대 보안이 중요하다 하지만 논의가 구체화되는 상황까지 도출하지 못한 듯하다.

어디서 쓸지 모르지만 데이터를 모아두고 새로운 꽃을 피우는지 보자고 불특정 다수 데이터를 수집하다보니 모든 법에 다 저촉된다. 이는 기술적으로도 해결하지 못하는 과제다.

특정 분야에 그 데이터를 쓰고 누가 보유하고 있는지 좁혀지다 보면 그 부분을 해결하기 위한 암호화코드 등 구체적인 사례가 나올 것으로 예상되고 있다. 다만 데이터에 대한 보안에 문제가 있는 것은 확실하지만 현재는 막연한 상태다.

강용성 정부가 하려는 빅데이터 사업은 국민에게 편리성을 제공하려는 측면이 크다. 안행부 시범사업 중 물가지수 예측이 그런 부분이다. 그러나 미국 내 S전자가 추진했던 빅데이터 PoC를 보면 상황이 다르다. 그 쪽은 마이크로타깃팅이 주요목적이다. 고객에게 휴대전화를 구입하게 하기 위해 DM 발송을 하는데 어떻게 휴대전화 구매고객을 찾아내고 이들로부터 구매욕구를 충족시킬 수 있을까라는 고민을 하고 있다.

단적인 예로 모 기업이 회원 정보를 분석하고자 하면 가입자동의를 받아야하는 게 원칙이다. 그러나 미국의 경우 한 번만 동의를 받으면 지속적으로 분석을 할 수 있지만 우리나라의 경우 분석을 할 때마다 동의를 받아야 한다. 데이터 활용과 개인정보는 떼려야 뗄 수 없는 관계다.

미국 대통령인 오바마가 재선에 성공한 이유는 빅데이터를 활용한 마이크로타깃팅이었다. 한 가정 내 남편과 아내가 다른 정책 안내문을 받아볼 수 있게 해야 하는데 우리나라의 경우 개인정보보호법에 의해 마이크로타깃팅을 할 수 없는 상황이다.

개인정보를 활용해 서비스 개발을 해야 하는데 첫 단추부터 발목을 잡혀 서비스 개발이 안 되는 상황이 안타깝다.

정현관 서울시의 심야버스 노선에 빅데이터를 활용한 사례가 좋은 사례가 될 수 있을 것 같다. 개인정보보호법에 저촉되지 않는 방향에서 데이터를 활용한 구체적인 방향과 가공, 그리고 의미 있는 활용 등 선을 넘지 않는 한계 내에서 활용했다.

김대곤 우리나라와 미국의 경우 관점의 차이가 크다. 우리나라의 경우 국민의 사회적 비용 부담을 줄이기 위해 국가가 나서서 제도하는 것이 많다.

미국의 경우 개인이 소송 걸고 피해 비용을 챙긴다. 우리나라는 그런 절차나 방식에 익숙하지 않아서 법적 절차를 관청이나 해당 부서에서 담당한다.

 

개인정보의 경우도 미국과 우리나라의 관점이 다르다. 미국은 어느 정도 가이드라인만 그어놓고 나머지 부분은 개인에 맡긴다. 우리나라는 세부적인 부분까지 정부에서 나서서 제약을 건다. 이런 흐름에 따라 개인들은 개인정보 공개를 매우 꺼려한다. 심지어 SNS 상에서 본인 위치가 드러나는 것도 꺼려해 위치 기반 설정을 끄는 경우가 많다. 이럴 경우 재난에 대한 정보를 수집할 때 애로사항이 생긴다.

즉, 트위터 상에서 비가 온다고 하지만 어디서 비가 오는지 알려면 위치정보가 트위터 상에서 공개돼야 하지만 위치정보를 공개한 데이터는 전체 트위터 데이터의 5% 밖에 되지 않는 상황이 발생한다.

조성준 빅데이터는 크게 사람과 관련된 것과 사물에 관련된 것으로 나눌 수 있다. 사람에 관련된 이슈는 개인정보보호법이라는 강력한 법 때문에 제약이 생겼다. 미국의 경우 개인정보를 사고팔 수 있는 시장이 열렸지만 우리나라는 개인정보를 사고 팔 경우 안 좋은 일만 벌어지고 있다.

이런 상황에도 불구하고 우리나라 역시 미국 수준까지 도달하지 못하더라도 어느 정도 일정 수준 이하로 법의 제약을 완화하는 수준으로 가야한다.

개인정보 공개와 개인정보 도난이 혼동되고 있다. 이는 운전해서 사고 날 수 있으니 자동차를 만들 때 사고 나지 않게 만들라는 것과 같은 논리다.

법률 전문가들이 사생활은 공유할 수 있는 대상이라고 이야기하고 있다. 즉, 개인정보는 제약을 둬선 안 되는 부분이라는 것이다.

빅데이터, 커다란 변화의 물결

이진수 CRM과 빅데이터는 데이터를 통해 매출 증대를 이루는 점과 IT에서 시작했지만 마케팅, 현업 실무진들이 사용하는 등 유사성이 있다. 그런 점에서 CRM처럼 엄청난 관심과 예산을 들이붓다 쓰라린 추억으로 남은 CRM처럼 빅데이터도 CRM 전철을 밟을 것이라는 예상들이 나오고 있다. 빅데이터가 변화하는 기대에 부응할 것인가, 지나치는 트렌드 중 하나에 불과할 것인가를 놓고 봤을 때 빅데이터에 대한 미래에 대해 어떻게 생각하는가?


▲ 이진수 컴퓨터월드 편집국장

 

강용성 빅데이터란 말은 개념적으로 봤을 때 ‘데이터’와 ‘빅’이 합쳐졌다. 어떤 트렌드에 함몰돼 강조하다보면 빅데이터는 추후 ‘전략 데이터’등으로 말이 변화돼서 나타날 것이다. 그렇다는 이야기는 ‘빅데이터는 신기루처럼 사라지고 전략데이터가 새롭게 나오나?’ 이런 부분은 아니다. 웹2.0, 정부3.0처럼 진화하는 과정이다. 철기 시대를 맞이하기 위해서는 청동기 시대가 필수인 것처럼 ‘협업’, ‘공유’란 말이 10년 전부터 나오고 웹 2.0이 나왔다. 페이스북 역시 웹2.0을 기반으로 한 서비스다. 그 속에서 빅데이터와 하둡 등 가지가 뻗어 나왔던 것이다. 빅데이터 역시 유행 때문에 관심이 증폭됐다가 사라지는 것이 아니다.

정옥남 의사결정 시 데이터를 기반으로 한다고 하지만 빅데이터 이슈가 나오고 나서는 이에 대한 기반이 넓어지고 진화한 것이다.

빅데이터가 유행처럼 끝나지 않고 지속되려면 빅데이터란 기술을 따라갈 것이 아니라 기업 측면에서 ‘무엇을 할 것인가’란 실제적 리드가 무엇일까에 대한 질문의 해답을 찾는 것이 중요하다. 만약 빅데이터 대신 다른 단어가 쓰이더라도 데이터라는 본질은 사라지지 않는다. 빅데이터는 의사결정의 좋은 기반이 될 것으로 예상한다.

김대곤 빅데이터는 현재 위치를 찾아가는 과정에 있다. 기존 빅데이터가 존재감을 알리기 위한 단계라면 이제는 어떤 역할을 하고 어떤 위치에 서 있을 것인지에 대한 과정 중에 있다.

‘빅데이터가 무엇이다’라고 하는 정의를 성급하게 내리지 말고 역할을 찾아줘야 한다. 그래야 자생할 것이다. 이런 빅데이터 역할을 찾는데 누구 하나가 나설 게 아니라 산학연관이 모두 다 같이 찾아야 한다. 일부에서는 “빅데이터를 넘어서 스마트데이터로 갈 것이다”고 말하지만 그건 이름의 차이일 뿐 하등 변화는 없다.

조성준 빅데이터가 CRM 전철을 밟지 말라는 법은 없다. CRM이 뜨겁다가 한방에 갔다. 기업들이 이것을 왜 해야 하는지 고민 없이 벤더들이 하라고 하니 10~20억 원씩 투자했다. 결국 ROI가 나오지 않았고 속았다고 표현을 했던 것이다.

 

“무엇을 해야 할 지 뚜렷한 목표와 계획이 없으면 투자하지 말고 가만있어라 그러면 망하지 않는다”라는 우스갯소리가 있다. 빅데이터 역시 하둡 설치하고 사람 채용하고 시스템 증설 등 고민 없이 하다보면 CRM 전철을 밟을 수 있다고 경고하고 싶다. 우리나라가 감성적인 국민성이 있음에도 불구하고 이제는 팩트 기반 의사결정을 하려는 생각으로 바뀌고 있다. 경험했다고 우기는 것이 아니라 데이터부터 보자는 식으로 시작하는 방향으로 흐르고 있다.

이제는 광고업체들이 내가 쓴 20억 원이 매출로 연결되는지를 내놓으라고 한다. 광고팀에서 분석팀이 있다는 것은 천지개벽할 일처럼 변화가 일어나고 있다.

정현관 빅데이터라는 단어는 없어질지 모르지만 큰 흐름은 변화가 없을 것이다. 데이터를 기반으로 무엇인가 하겠다고 하는 부분은 계속될 것이다. 정부는 정책 수립에 데이터 기반으로 샘플링을 하겠다고 나서고 있다. 또한 데이터가 있으니 국민 개개인에게 맞춤형 서비스를 제공할 수 있다. 개인이 동의하면 서비스를 받는 시대가 열린 것이다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지