빅데이터 분석 중요성 및 활용법 등 논의

▲ 컴퓨터월드/IT DAILY와 한국BI데이터마이닝학회가 ‘2015 BI 컨퍼런스’를 개최했다.

[컴퓨터월드] 컴퓨터월드/IT DAILY와 한국BI데이터마이닝학회가 주최한 2015 BI 컨퍼런스가 지난 4월 3일 서울 삼성동 코엑스 컨벤션센터에서 개최됐다. ‘빅데이터 시대의 실시간 예측분석과 BI’란 주제로 개최된 이번 행사는 국내외 빅데이터 및 BI 관련 기업 16곳의 산업세션과 한국BI데이터마이닝학회 5개 학술세션 등 21개의 세션이 진행됐으며, 행사장 외부에는 데모 등을 시연하며 참관객들의 이해를 돕기 위한 전시부스가 꾸며졌다.

이번 컨퍼런스를 통해 발표자들은 빅데이터 분석의 중요성과 빅데이터 분석 방법, 그리고 이를 어떻게 활용해야 하는지 등에 대해 참가자들과 공유하는 시간을 가졌다. 이번 컨퍼런스의 주제 발표 내용들을 정리해본다.

2015 BI 컨퍼런스는 ‘빅데이터 시대의 실시간 예측분석과 BI’라는 주제에 걸맞게 ‘어떤 데이터를 어떻게 분석할 것인가’와 ‘무엇을 예측하고 어떻게 활용할 것인가’ 등에 대해 심도 있는 논의가 펼쳐졌다. 이제는 기업들이 ‘빅데이터가 무엇인가’에 대해 고민했던 시기가 지났으며, 대신 ‘빅데이터로 무엇을 해야 하는가’에 대해 고민하고 있는 시기다. 이에 대한 대답으로 컨퍼런스 발표자들은 단순히 빅데이터 분석만이 아닌 예측 분석과 실시간 분석의 중요성, 그리고 그것을 어떻게 비즈니스에 접목시켜야 하는지에 대해 강조했다.

이진권 SAS 상무는 개회사를 통해 최근 성과를 내고 있는 기업들의 특징은 빅데이터를 이용한 융합 서비스나 예측 분석, 또는 실시간 분석 등을 비즈니스에 접목하고 있다고 소개했다. 또한 빅데이터를 과거 CRM처럼 소문만 무성하고 성공하지 못한 IT 트렌드라는 부정적인 시각으로 보는 사람들에게 ▲벤더가 주도한 CRM과 달리 빅데이터는 사용자가 주도하고 있다는 점 ▲빅데이터가 구글처럼 실제로 돈을 벌 수 있는 모델을 만들어내고 있다는 점 ▲빅데이터가 IT시스템적인 접근만이 아닌 CEO의 아젠다인 경우가 많다는 점 등 CRM과 차이점을 들며 빅데이터의 활용성을 높게 점쳤다.

아울러 박헌진 한국BI데이터마이닝학회장은 환영사를 통해 “IT가 발달하고 분석시장이 생겨나면서 각 분야에서 데이터 분석 인력들을 배출하고 있다. 또한 빅데이터가 IT업계의 중요한 화두가 되면서 다시 한 번 분석시장이 활기를 찾고 있다”라며, “이번 BI 컨퍼런스를 비롯해 지속적인 산·학 연계를 통해 데이터 시장이 더 넓어지기를 기대한다”고 밝혔다.

▲ 박헌진 한국BI데이터마이닝학회장(왼쪽)과 이진권 SAS코리아 상무

“데이터를 효과적으로 관리할 수 있는 방법을 고안하라”

▲ 이상우 한국EMC 이사

컨퍼런스의 첫 번째 발표자로 나선 이상우 한국 EMC 이사는 기업들이 데이터를 효과적으로 관리할 수 있은 방법을 강구해야 된다고 강조했다.

현재 IT업계는 방대한 데이터를 정보의 원천으로 활용할 수 있는 빅데이터에 주목하고 있다. 지난해 전체 데이터의 65%가 비정형 데이터였으며, 올해는 약 75%로 늘어날 것이라는 예상이 있다. 2017년까지는 80%까지 증가할 것으로 예상됐다. 단순히 전체 데이터 한 종류가 늘어난다기보다는 비정형 데이터 자체의 용량이 늘어난다는 것에 주목할 필요가 있다.

실제 비정형 데이터는 2015년 71EB(엑사바이트)에서 2017년에 133EB로 두 배 정도 늘어날 것으로 전망된다. 133EB면 굉장히 큰 수치다. 전례 없이 증가하는 비정형 데이터에 대해 ‘어떻게 관리할 것인가’와 ‘어떻게 가치를 끌어낼 것인가“가 기업들에게 던져진 새로운 숙제다.

대부분 기업환경은 전통적인 워크로드 형태를 띠고 있다. 이런 경우 특별한 워크로드와 특정 업무를 지원하기 위해 각각의 스토리지 인프라를 가져야 한다. 이러면 실제로 데이터를 효율적으로 관리하기 힘들고 복잡하다. 그리고 분산돼 있는 데이터들이 한 곳에 몰리는 현상이 발생하기도 한다.

이런 과제를 해결하기 위해 EMC가 제시하는 방법은 ‘데이터 레이크(Data Lake)’다. 수많은 시냇물과 지류가 모여 호수가 되듯이 데이터가 파일이든 빅데이터든 아니면 하둡이든 그 형태에 상관없이 막대한 양을 수용하고 저장할 수 있다.

데이터 레이크는 하나의 통합된 데이터 풀이다. 하나의 카피가 존재하고, 그것으로 여러 워크로드가 함께 사용할 수 있다. 막대한 데이터를 저장할 수 있기 때문에 확장성이 좋으면서도, 기존에 중요시했던 엔터프라이즈 데이터 규정 준수나 데이터 보호도 지원한다.

데이터 레이크는 다양한 데이터를 활용할 수 있다는 것이 특징이다. 기존 DB는 활용 분야와 업무에 따라서 형식이 다르기 때문에 같은 방식으로 전환시켜야 연관관계로 볼 수 있다. 기업 데이터를 통합하기에는 시간과 비용이 많이 들지만, 데이터 레이크는 변하지 않는 데이터의 집합이기 때문에 필요할 때마다 조합해서 분석할 수 있다.

그렇다면 왜 데이터 레이크가 필요한가. 현재 너무 많은 데이터 인프라가 고립돼 있으며, 따로 구성돼 있다. 관리도 어렵고 확장에 대한 부담도 존재한다. 그리고 중복 데이터가 만연해있는 것 역시 문제다. IDC는 전체 데이터의 65%를 중복 데이터로 보고 있다. 데이터 레이크를 구성하면 이러한 중복된 데이터를 없애는 것이 가능하다.

이를 통해 기존 IT 자원을 유지하는 것도 가능하다. 중복 데이터로 인해 고비용 인프라 구성을 해야 할 필요가 없기 때문이다. 그리고 데이터가 많으면 실시간 데이터 분석도 어려울뿐더러 시간도 많이 소모된다.

EMC의 전략은 고립된 데이터 및 분석을 단일 스토리지에 통합해서 TCO 절감과 함께 결과 도출을 위한 시간을 단축하는 것과, 기존 투자를 보호하자는 것, 그리고 스냅샷이나 보호 등을 빅데이터 분석에 그대로 적용하자는 것이다. 이를 위해 피보탈, 클라우데라, 호튼웍스 등과 협력을 지속적으로 추진하고 있다.

“데이터 분석은 회사 전체를 아우르는 지식을 통합하고 최적화하는 것”
 

▲ 송혁 클릭 부장

두 번째 발표자로 나선 송혁 클릭 부장은 기업들이 비즈니스의 성공을 위해 필요한 것은 “데이터에서 인사이트를 얻어야 하는 것”이라고 강조하며, 데이터 분석은 회사 전체를 아우르는 지식을 통합하고 최적화하는 것이라고 소개했다.

모바일 게임회사들은 어떻게 매출을 올릴까? 킹닷컴의 모바일 게임 ‘캔디크러시소다’를 보자. 게임사는 어떤 유저가 어떤 스테이지에서 클리어를 하지 못하는지를 추적하고 있다.

킹닷컴은 2억 건의 데이터를 클릭으로 가져와 분석한다. 그리고 해당 스테이지를 클리어하지 못한 사람들에게 5달러짜리 스테이지 클리어 아이템을 2달러에 판다는 특별한 제안을 한다. 그렇게 되면 유저들은 2달러를 주고 결제할 것인지, 아니면 그냥 할지 고민하게 된다. 그리고 킹닷컴의 매출은 이처럼 데이터를 활용한 이전과 이후가 큰 폭으로 차이가 발생했다.

클릭이 제공하는 디스커버리 플랫폼은 더욱 많은 유저들이 데이터 분석을 할 수 있도록 해, 개인 및 전체 조직에 기여할 수 있는 가치를 최대한으로 높일 수 있도록 지원한다. 클릭의 디스커버리 플랫폼이 고객을 돕는 방법은 크게 ▲디스커버(Discover) ▲디사이드(Decide) ▲두(Do) 등 3가지다.

디스커버는 연관 검색과 비교 분석, 예측을 할 수 있게 해주는 것이다. 클릭은 연관검색 특허를 갖고 있다. 디사이드는 협업을 할 수 있게 해준다. 기업 내에서 일방적으로 보고를 하면 보고받는 사람이 이해도가 떨어진다. 그러나 내가 분석에 참여한 것을 통해 인사이트를 구하면 20%정도 이해도가 늘어난다. 두는 설득이다. 연관 검색과 비교 분석을 하고, 예측한 것을 협업을 통해 보고한 이후에는 설득이 가능하다.

클릭의 센스는 인메모리 접근방식으로 90% 이상의 데이터 압축(Compress)을 사용한다. 연관 검색 및 분석에 활용되며, 수억 건에서부터 수십억 건의 데이터를 로딩해 사용이 가능하다. 현재 한국은행에서도 클릭 제품을 사용하고 있으며, 2TB 정도의 데이터를 256GB 환경에서 사용하고 있다.

클릭만의 장점은 라이브 데모를 보여줄 수 있다는 점이다. 클릭 센스는 인터페이스가 간단하다. 데이터를 ‘드래그 앤 드롭’해 데이터 시트를 열어보면 아주 간단하게 차트가 만들어진다. 산업분류 등 필터를 적용하고 파일 챕터에서 매출이라는 값만 누르면 자동으로 결과가 제시된다. 간단한 시각화와 더불어 데이터가 이동이 돼 요약된다. 반응형 웹 기반으로 HTML5 지원하는 모든 브라우저에서 돌아간다. 따라서 모바일에서도 분석을 하거나 볼 수 있다.

라이브러리 기능과 글로벌 서치 기능도 있다. 글로벌 서치는 데이터 필드뿐 아니라 프로젝트 서치도 가능하다. 결과에는 콘텍스트 서치가 제공된다. 텍스트 안에 텍스트를 계속 검색할 수 있다.

특이하게도 클릭의 센스는 API를 공개한다. 이것이 중요한데, 구글 크롬의 확장 프로그램에 보면 ‘센스잇’이라는 확장 프로그램이 있다. 이걸 다운로드 받으면 아이콘이 생성된다. 프로야구를 검색해보면 데이터가 나온다. 팀순위를 들어가서 센스잇을 클릭하면 자동으로 어떤 테이블이 있는지 확인하고, 이를 가져올 수도 있다.

데이터 분석은 회사 전체를 아우르는 지식을 통합하고 최적화하는 것이다. 클릭은 더욱 많은 유저들이 데이터 분석을 할 수 있도록 지원하고 있다. 클릭의 BI 솔루션은 분석의 핵심인 연관 관계를 찾는데 최적화돼 있으며, 간단한 ‘드래그 앤 드롭’만으로도 원하는 인사이트를 구할 수 있도록 돕는다. 특히 엑셀이나 파워포인트 등 기존 템플릿에도 이를 그대로 활용할 수 있게 하는 편의성도 제공한다.

“하둡으로 현업에서 빅데이터 분석 가능해”

▲ 김윤건 SAS코리아 이사

오전 세션의 마지막 주자로 나선 김윤건 SAS코리아 이사는 ‘하둡 정글 헤쳐나가기’라는 주제로 발표하며, 하둡을 이용하면 IT 부서를 거치지 않고 현업에서도 충분히 빅데이터 분석이 가능하다고 밝혔다.

빅데이터 하면 제일 먼저 떠오르는 것이 하둡이지만, 이를 활용하는 것에는 어려움이 있다. 우선 ▲하둡 전문인력을 찾기가 어렵고, ▲하둡을 활용하기 위해 필요한 맵리듀스가 이질적이기 때문에 전문인력 성숙도도 부족하며, ▲하둡 자체로는 분석 기능이 없기 때문이다. 그러나 분석을 통해 저장만이 아닌 가치, 즉 인사이트를 찾아내야 한다.

현업에서 이미 정의된 질문은 정의된 데이터가 준비돼 있다. 이 상태에서 새로운 질문을 한다고 가정하자. 새로운 질문은 통찰, 즉 인사이트를 얻기 위함이다. 이 새로운 질문을 위해 데이터를 다시 정리하고 절차를 정리하면 최소 몇 주에서 몇 달이 걸릴 수 있다.

하둡에 기대하는 것은 정형 데이터뿐만 아니라 비정형 데이터와 머신 데이터를 통합하는 것이다. 알 수 없었던, 그리고 할 수 없었던 질문을 던지고 그 질문을 통해서 인사이트를 찾는 것이다.

하둡에 질문을 막 던질 수 있고 인사이트를 찾아줄 수 있으려면 데이터 지원 작업이 편해야 한다. 현업에서 하둡을 직접 할 수 있으면 좋을 것이다. 그렇게 되면 IT부서를 거치지 않아도 되기 때문에 몇 주나 몇 달이 아니라 하루 만에 데이터를 받아볼 수 있을 것이다. 그러기 위해선 이런 과정을 지원해주는 플랫폼이 필요하다.

인사이트는 노력으로 구할 수 있는 것이 아니라 발견해야 하는 것이다. 약간의 운과 노력을 통해 발견할 수 있다. 또한 데이터 소스를 쓸 수 있다고 해서 그 데이터로 어떤 것을 바로 얻어낼 수 있는 것은 아니다. 데이터를 연계해야 한다. 이 과정들을 통해 상관성과 모순성을 발견할 수 있다. 이런 상관성과 모순성이 인사이트의 기본이다.

이를 위해 SAS가 준비한 것이 있다. ‘SAS 데이터 로더’와 ‘SAS 비주얼 애널리틱스’가 그 것이다. 이 제품들은 IT부서가 아닌 현업 사용자들을 위한 것이다.

하둡을 위해 해야할 일은 데이터를 가져오는 작업을 현업에서 직접 할 수 있어야 한다. 데이터 로더는 쿼리 필터링과 로딩하는 작업까지 일관적으로 제공한다. 이처럼 데이터 준비단계를 거쳐 비주얼 애널리틱스를 통해 인사이트를 찾을 수 있다. 데이터 소스를 꿰고 있을 필요는 없다. 그리고 실제 데이터 소스를 보지 않아도 가능하다.

현재 하둡에서 분석을 활용하는 방법은 데이터를 다른 곳에 가져가서 분석하는 것이 대부분이다. SQL이나 임팔라, 타조와 같은 기존 분석도구도 있고, R과 같은 오픈소스를 이용한 분석도 있다. 그러나 결과적으로 데이터를 갖고 와서 분석하는 것이라는 점에는 변함이 없다.

가장 효율적인 것은 하둡에서 직접 하는 것이라고 본다. SAS는 하둡과 함께 하나의 데이터 소스를 바라보고 가져오며, 하둡과 함께 메모리를 끌어올려 분석하고, SAS의 로직이 하둡 내부에서 프로세싱 될 수 있도록 한다. 이를 이용하면 하둡으로 분석할 때 IT부서를 통해 하는 것보다 현업에서 직접 하는 것이 가능하다.

“산업 성장, 규제보다는 활용에 초점 맞춰야 가능해”
 

▲ 구태언 테크앤로 대표변호사

오후 주제 발표는 구태언 테크앤로 대표변호사가 맡았다. 구 변호사는 ‘빅데이터를 활용한 핀테크 기업에 대한 개인정보보호 규제와 대응’이란 주제로 산업이 발전하기 위해서는 개인정보의 적절한 이용과 더불어 정부의 관리감독이 필요하다고 강조했다.

BI 솔루션을 제공하는 경우는 B2C가 많다. 이 경우 대인 고객 서비스를 하는 것이니 개인정보 규제가 적용되고, BI솔루션 회사들은 개인정보 처리 수탁자가 된다. 이 의미는 회원을 받고 멤버십 계약 주체가 아니더라도 솔루션을 통해 정보를 처리하는 순간 관련 법령이 적용된다는 의미다.

여러분이 제공하는 서비스에 고객 데이터가 넘어와 처리되거나 B2C 기업 서버에 올라가 제공하고 있다면 개인정보에 직간접적으로 접촉을 하게 된다. 처리도 해야 되고 프로세스적으로 구성하는 처리를 하게 되겠지만, 직접 가서 직원들이 또는 아웃소싱 업체들이 유지보수하게 된다. 개인정보 처리 시스템을 중심으로 보는 시각이 강화되고 개인정보 규제가 적용되는 이유다. 개인정보보호법령 때문에 그간 많은 어려움을 겪어왔는데, 이 문제가 해결되지 않은 채 빅데이터 활성화를 기대하긴 어렵다.

한창 이슈가 되고 있는 핀테크는 IT 산업과 금융 산업이 만나는 것이다. 그러나 우리나라는 금융업이 문어발처럼 돼 있고, 금산분리 및 은산분리 원칙 때문에 IT기업들이 금융업을 수행하기 어려웠다. 그런데 진입장벽 낮아지면 끝인가? IT산업은 개인정보 관련 엄청난 규제가 있다. 핀테크는 금융규제와 더불어 이도 이겨내야 한다.

우리나라는 다른 나라와 차원이 다르다. 미국에서는 페이스북 메신저를 통해 간편한 자금이체를 서비스하고 있다. 우리나라의 경우 일일이 고지를 해야 하므로 페이스북에 없는 서비스라면 새로 동의를 받아야 한다. 엄격한 고지와 동의 원칙 때문이다.

개인정보를 수집해서 서비스를 구현할 수 있는 수많은 아이디어는 나오고 있겠지만, 이것들을 특허로 출원해 우리 기업이 보유하고 글로벌에서 경쟁이 가능해야 한다. 그러나 우리나라는 인터넷이 보급된 지 수년이 지나 망은 최고급인데, 정작 쓸 만한 서비스도 별로 없고 세계적인 테크 기업도 별로 없다. SW를 도외시해 이렇다고 하지만, 온라인 규제가 2000년 초반부터 발달한 것도 이에 일조했다.

사전 규제는 많은 불편을 야기한다. 개별 고지와 동의는 너무 불편하고, 심지어 위험한 상황도 초래할 수도 있다. 동의는 껍데기가 됐다. 이용자는 마음 놓고 이용하고 정부가 잘 살펴봐서 문제가 있으면 제재하는 등 나서야 한다. 1~2년 더 머뭇거리다가는 어려움이 많을 것이다. 법은 만든 노력의 10배를 들여야 개정된다는 얘기가 있다. 앞으로 데이터를 가져오는 방식으로 서비스하다가 사고 나면 홈플러스처럼 법정에 서게 되고, 각 부처의 조사와 집단소송도 당할 수 있다. 선진국과 경쟁하기 위해서는 이 같은 문제가 해결돼야 한다.

IT업체를 통한 빅데이터 산업이 성공적으로 형성되고 글로벌 기업들과 경쟁하게 하기 위해서는 소송문제도 잘 이겨내야 되고, 특허도 잘 대응해야 되고, 개인정보보호 관련 문제를 여러 부처에서 모여 해결해줘야 한다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지