빅데이터 이루는 힘, 개방과 공유

 


▲ 빅데이터가 우리 생활 가까이에서도 활용될 있다는 것을 보여준 뉴스

[컴퓨터월드] 지난 10월 8일, 한 지상파 방송사에서 이색적인 뉴스가 나왔다. 바로 ‘비올 때는 소시지빵, 맑은 날은 샌드위치 잘 팔려’라는 제목의 뉴스가 보도된 것. 일반 사람들이 봤을 때 ‘저런 것도 과연 뉴스인가’라는 의문을 품을 수 있는 제목임에 틀림없었다. 실제로 해당 뉴스가 나간 날 여러 인터넷 커뮤니티에는 뉴스를 보도한 방송사에 대한 많은 의견들이 쏟아졌다. 뉴스를 내보낸 방송사에 대한 비웃음과 조롱이 섞인 글들도 다수 등록됐다. 그러나 조금이라도 IT와 관련된 일을 한 사람이 봤다면 쉽게 웃고 지나치지는 않았을 것이다. 당시 뉴스를 보도한 기자는 분명히 ‘빅데이터’라는 단어를 언급하고 있었기 때문이다.

최근 몇 년 간 IT업계 화두는 단연 빅데이터다. 빅데이터란 데이터의 생성이나 주기, 양, 형식 등이 매우 방대해져서 기존 방식으로는 수집이나 저장, 검색, 분석 등이 어려운 데이터를 의미한다. 특히 이전까지는 데이터로 취급하지 않았던 것들도 이제는 엄연한 데이터로 인정받게 되며 그 규모는 더더욱 커지고 있다. 특히 무선 네트워크와 모바일 기기의 발달로 인해 SNS 등 개인들이 생성하는 데이터의 양도 급속도로 증가하며 빅데이터는 더욱 빅(BIG)해지고 있다.

빅데이터가 주목받고 있는 이유는 단순하다. 데이터 속에 필요한 것이 있기 때문이다. 많은 데이터를 모으고 분석을 통해 그 속에서 어떤 사회현상에 대한 어떤 법칙 등을 발견하고 통찰력(Insight)을 찾아서 그에 대응하는 조치를 취한다. 기업 입장에서는 문제를 해결하고 수익을 추구하는 쪽으로 이용하는 것이다.

사실 소시지빵 뉴스와 빅데이터를 연관 짓기에는 다소 어려운 부분도 있다. 뉴스 보도 대상이 된 제과점은 5년간 쌓인 데이터를 토대로 비오는 날에는 소시지빵이 잘 팔리고 맑은 날에는 샌드위치가 잘 팔린다는 통계적 분석을 얻은 것이기 때문이다. 그러나 예전 같으면 단순하게 생각하고 모으지 않았을 데이터들을 취합하고 분석해서 얻은 결론일 뿐만 아니라, 그 결론이 실제 해당 제과점에게 수익으로 이어지고 있다는 점에서 빅데이터 분석과도 유사하다고 볼 수 있다.

앞선 제과점의 사례를 보면 5년 동안 날씨에 따른 고객들의 구매패턴이라는 데이터가 누적되었기 때문에 비올 때는 소시지빵이 잘 팔리고 맑은 날에는 샌드위치가 잘 팔린다는 결과를 얻어낼 수 있었다. 즉, 많은 고객들의 행적이 제과점이라는 곳에서 공유되었기 때문에 가능했던 것이다.

이처럼 데이터 분석을 통해 어떤 법칙과 통찰력을 찾아내기 위해서는 빅데이터와 같은 많은 데이터들이 필요하다. 표본과 사례가 많으면 많을수록 확률적으로도 정확도가 높아지기 때문이다.

빅데이터를 이루는 근간은 개방과 공유다. 빅데이터의 대표적인 사례로 손꼽히는 SNS만 보더라도 개방과 공유를 확인할 수 있다. 트위터는 작성한 글을 불특정 다수의 누구에게라도 전달해주며, 타인이 작성한 글도 쉽게 확인할 수 있다. 그렇기에 전달 속도가 빠르면서도 그 파급력도 상당하다.

반면, 페이스북은 트위터 만큼 빠른 파급력을 가져오진 않지만, 오히려 인적 네트워크를 통해 연결됨으로써 관련 있는 사람들과 빠르게 정보를 공유할 수 있다. 이 또한 트위터와 마찬가지로 정보를 개방하고 공유한다는 것은 동일하다.
 


▲ 빅데이터를 이루는 힘인 개방과 공유는 대한민국 정부가 추진하는 정부 3.0의 기조와도 일치한다.



이전까지 데이터는 공유보다는 소유의 개념이 강했다. 그러나 정보화 사회로 접어들면서 인터넷이 보급되고 모바일 기기가 확산되면서 더 이상 데이터를 감추기만 할 수는 없게 됐다. 오히려 데이터들을 개방하고 공유함으로써 그동안 없었던 새로운 비즈니스를 창출하는 등 효과도 보게 됐다. 우리나라 정부도 최근 개방과 소통, 그리고 공유와 협력을 통한 ‘정부 3.0’이라는 기치를 내걸고 개방과 소통, 그리고 공유와 협력을 통한 국정 운영을 할 것임을 표방하고 있다.

이에 따라 그동안 공공기관들도 보유하고 있던 데이터들을 차츰 개방하고 있다. 국가 안보 등 중요한 사안이나 민감한 개인정보가 아닌 이상 공공 데이터 또는 열린 데이터라 불리는 다양한 데이터들이 빅데이터라는 커다란 품안에 안기고 있다.

 

쇼핑, 의료, 선거 등 생활과 밀접한 부분에서도 빅데이터 활용

제과점 사례처럼 빅데이터는 사회 각계각층에서 다양하게 사용되고 있다. 무엇보다 트렌드 파악과 사전 예측을 중요시하는 분야에서는 앞 다퉈 빅데이터를 도입해 활용하고 있다. 빅데이터를 가장 활발하게 활용하는 곳은 단연 쇼핑 분야다. 고객이 원하는 것이 무엇인지 고객 행동을 통해 파악하고 그에 맞는 제품을 추천하는 형태로 활용한다.

누구나 한 번쯤은 쇼핑몰에서 클릭해본 제품, 그리고 그와 연관된 제품이 다음 쇼핑몰 방문 시 광고로 뜨는 것을 본 경험이 있을 것이다. 이것은 해당 쇼핑몰이 빅데이터를 활용하고 있기 때문이다.

 


▲ 인터넷 쇼핑몰에서도 빅데이터를 활용해 사용자 맞춤형 정보를 제공한다.



온라인 쇼핑몰 ‘옥션’과 ‘11번가’는 이처럼 빅데이터를 활용해 자사 고객들에게 맞춤형 서비스를 제공하고 있다. 고객이 어느 상품을 클릭했는지, 어떤 상품을 구매했는지, 어떤 후기를 남겼는지 등을 종합적으로 수집하고 분석해 해당 고객이 희망하는 것에 대해 적절한 상품을 추천한다.

이는 그동안 축적된 데이터를 통해 고객이 클릭하는 상품은 구매하기 위함이거나 관심이 있기 때문이라는 분석 결과를 도출했기 때문. 그렇기에 고객이 상품을 구매하지 않았더라도 차후 방문 시 해당 상품을 구입하도록 유도하는 광고를 배치한다.

이밖에도 고객이 관심을 갖는 카테고리를 설정했을 경우 해당 카테고리에 있는 새로운 제품이 출시되거나 할인 행사 등을 진행할 때 고객에게 해당 사실을 알리며 방문을 유도하고 구매할 수 있도록 한다. 이 모든 것들도 빅데이터를 수집하고 분석했기 때문에 가능한 것이다.

의료분야에도 빅데이터가 도입되고 있다. 김병인 포스텍 산업공학과 교수팀이 개발한 시뮬레이션 프로그램 PIOS(POSTECH Internet based Outpatient Simulator)도 그 중 하나다.

인터넷 상에서 PIOS에 간단히 데이터를 입력하는 것만으로도 예비 진료를 받을 수 있으며, 이를 통해 외래환자는 예약, 접수, 초진, 재진, 검사, 처방, 수납 등 프로세스가 최적화된 질 높은 의료서비스를 받을 수 있다.

또 특정 병원에 특화된 시뮬레이션 모델이 아니라 어느 병원 시스템에서든 동시에 적용할 수 있고, 별도의 프로그래밍 없이 인터넷을 통해 지정된 포맷에 따른 데이터 입력만으로 시뮬레이션이 가능하다. 시뮬레이션 결과 역시 일반 병원 관리자들이 이해할 수 있는 수준으로 자동 생성된다.

모바일 기기가 보급되면서 카카오톡, 트위터, 페이스북 등 소셜 네트워크 서비스(SNS)가 매스미디어에 필적하는 소셜 미디어로 재탄생하자 많은 곳에서 소셜 미디어 분석을 통해 시민들의 심중을 읽으려 하고 있다. 표심을 얻기 위한 정치권도 예외는 아니다. 실제로 소셜 분석을 선거 당선자 예측에 활용하기도 한다.

SNS에 많이 등장하는 선거 관련 키워드는 무엇인지, 어느 후보자 이름이 많이 거론되는지, 어떤 성향의 단어가 자주 사용되는지 등을 통해 선거에서 어느 후보 또는 어느 정당이 이길 것인지 예측하는 것. 지난 2011년 서울시장 선거 때 트위터 분석을 통해 예측한 후보자가 실제로 당선이 됐으며, 소셜을 통해 투표 독려가 이뤄지는 등 선거 예측에 많은 영향을 미쳤다. 이처럼 소셜과 같은 빅데이터 분석은 정치권에서도 중요하게 다뤄지고 있다.

 

빅데이터 수집, 제한이 없다?

이전까지 활용하지 않았던 데이터들의 효용에 눈을 뜨게 된 이후 정부와 기업 등 각 기관들은 빅데이터 분석을 통한 통찰력과 수익을 얻기 위해 많은 데이터를 수집하고 있다. 그러나 자칫 데이터 수집에 열을 올린 나머지 개인정보를 비롯한 민감한 정보 수집에 대한 우려도 높아지고 있다.

 


▲ 페이스북에서 많은 개인정보를 유추할 수 있다.



특히 페이스북, 트위터 등 SNS는 이용자들에게 맞춤형 정보를 제공하기 위해 많은 개인정보를 요구하고 있으며, 이런 개인정보들을 수집하는 것이 가능해지면서 실제로 개인정보 침해가 발생하고 있는 것으로 나타났다.

이는 한국전자통신연구원(ETRI)이 조사한 결과에서도 잘 드러난다. ETRI ‘빅데이터 개인정보 분석 기술’을 통해 페이스북 657만개, 트위터 277만개 등 한국인 SNS 이용자 계정 934만개를 대상으로 개인정보 노출현황을 분석 실험한 결과에 따르면 페이스북의 경우 성별(92%), 고등학교(47%), 혈액형(40%), 관심사(19%), 좋아하는 음악(14%) 순으로 개인 신상 정보가 노출됐으며, 트위터의 경우 이름(69%), 지역(45%), 직업 (33%) 순으로 노출됐다.

뿐만 아니라 페이스북에서 이름과 고등학교 조합만을 통해서도 개인이 식별되는 경우는 226만 명(34%), 대학교 정보를 추가할 경우 297만 명(45%)의 개인 식별이 가능했다.

 


ETRI는 트위터와 페이스북에 노출된 이름, ID 등 간단한 정보를 이용해 최소 17만 개의 트위터 계정과 페이스북 계정을 서로 연결할 수 있는 것으로 파악됐다고 설명했다.

ETRI 측은 “그동안 정보 하나하나를 조합해 개인을 식별하거나, 계정을 상호 연결해 더 많은 정보가 노출될 수 있는 위험성이 많이 지적되어 왔다”며, “이번 조사 결과를 통해 그 심각성을 확인했다”고 밝혔다.

이밖에도 에드워드 스노든의 폭로로 인해 밝혀진 미국 국가안보국(NSA)의 프리즘이나 영국의 템포라와 같이 정보 감시를 위한 국가적 데이터 수집도 발생하고 있다. 비록 국가 안보를 위한 것이라고는 하나 빅데이터 시대를 맞이하며 개인정보보호에 대한 필요성은 한층 높아지고 있다.

데이터, 새로운 비즈니스 원천

구글, 페이스북, 네이버가 가진 공통점이 있다면 무엇일까? 답은 바로 자체 데이터센터를 보유한 인터넷 기업들이라는 것이다. 이들은 콘텐츠 서비스를 이용자들에게 제공하고 있으며, 이를 위해 이용자들의 데이터를 수집하고 저장한다. 그렇기에 인터넷 기업들은 다른 일반 기업들보다 데이터를 수집하는데 유리한 위치에 있다.

최근 개인정보보호법 시행으로 인해 주민등록번호와 같은 식별정보는 일체 수집이 금지되며, 또 정보를 수집하는 것도 정보제공자의 동의를 받아야만 할 수 있다. 그러나 인터넷 기업들의 경우 이용자들이 자발적으로 정보제공에 동의하며 자신들의 정보를 꾸준히 업로드하고 있다. 일반 기업들의 입장에선 부러운 점이 아닐 수 없다.

일반 기업들이 어떤 목적을 위해 이런 이용자 데이터를 구하려면 상당히 어렵다. 원하는 데이터가 있다면 그것을 구입하는 것이 오히려 빠르고 경제적이다. 인터넷 기업들은 데이터를 가졌기에 다른 기업들이 필요로 하는 것들을 판매할 수 있다. 즉, 데이터가 곧 새로운 비즈니스의 원천이 되는 것이다.

이미 이를 위한 ‘데이터 마켓플레이스’도 등장하고 있다. 데이터를 사고파는 시장인 셈이다.

구글은 검색서비스로 사업을 시작했지만, 이제는 자신들이 보유한 많은 데이터를 이용해 빅데이터 분석 서비스를 제공하는 ‘빅쿼리’를 운영하고 있다. 네이버도 구글과 마찬가지로 빅데이터 분석 서비스를 제공하고 있다. 데이터의 중요성이 갈수록 높아지고 있는 만큼, 데이터는 새로운 비즈니스를 이끌게 될 것이다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지