선거를 바라보는 또 하나의 창

[컴퓨터월드] ‘우생마사(牛生馬死)’라는 사자성어가 있다. 홍수의 물살에 휩쓸렸을 때 말은 힘으로 극복하려다 죽고, 소는 그 흐름에 따라 떠다녀 살아나온다는 뜻이다. IT분야로부터 흘러나온 ‘빅데이터’라는 급류는 이제 홍수를 이뤘고, 바다건너 미국의 선거판은 그 쓰나미에 휩쓸렸다.

19세기 미국 학자 제임스 클라크(James Clarke)는 직업정치인을 정치가(statesman)와 정치꾼(politician)으로 분류, “정치꾼은 다음 선거를 생각하지만, 정치가는 다음 세대를 생각한다”고 정의했다. 빅데이터가 다음 세대를 향한 흐름으로 부상한 만큼, 우리나라의 다음 선거에도 빅데이터가 더욱 자주 등장하고 활약할 것으로 기대된다.

그 주체가 정치가이든 정치꾼이든 간에, 그들이 다루는 게 진짜 빅데이터든 말만 빅데이터든 간에 말이다. 데이터를 활용한 선거 분석과 국내의 흐름에 대해 짚어본다.


오바마의 재선과 빅데이터

지난 2012년 11월 버락 오바마 미국 대통령이 재선에 성공하면서, 오바마 측 선거캠프에 속해있던 IT팀의 활약상도 덩달아 유명세를 탔다. 오바마의 초선에 SNS를 적극 활용한 선거운동이 일익을 담당했다면, 재선에는 빅데이터 분석을 통한 개인별 맞춤형 마이크로타기팅(micro-targeting) 전략이 주효했다는 점에서였다.

오바마 캠프는 선거 2년 전부터 빅데이터 확보 및 분석을 위해 이 조직을 꾸렸다. 트위터, 페이스북, 구글플러스, 링크드인 등 SNS상의 다양한 정보는 물론, 유권자·기부자·자원봉사자의 명단을 비롯해 여론조사기관, 광고사, 휴대전화, 총기라이선스, 신용카드 및 대출정보 등의 데이터를 수집했다.

이를 바탕으로 유권자를 다양하게 분류, 각각의 집단별로 세부적인 공략에 들어갔다. 유권자 개인별로 캠페인을 펼쳐 심지어 부부에게도 각각 다른 공약을 강조했으며, 유권자의 인터넷 환경에는 집단의 성향별로 맞춤형 배너가 띄워졌다. 이를 통해 지지자들을 결속시켰으며, 특히 유동층 공략에 효과를 거둬 대다수 경합주에서 선거인단을 확보하는데 성공했다.

후원금 모금을 독려하는 인사의 이름도 유권자 성향에 따라 바뀌었으며, 데이터를 바탕으로 문자메시지를 보내 기부를 받는 ‘텍스트 투 도네이트’ 프로그램은 기존보다 4배 이상 높은 효과를 거뒀다. 뉴욕지역 40대 여성의 후원을 이끌어내기 위해 TV드라마 ‘섹스 앤 더 시티’의 주인공을 맡았던 사라 제시카 파커의 집에서 모금행사를 개최해 흥행한 것도 빅데이터를 활용한 것이었다.

짐 메시나 오바마 캠프 총괄책임자는 “선거운동의 일거수일투족을 수치화했다”고 밝힌 바 있다. 슈퍼컴퓨터로 매일 6만 6천 번에 달하는 시뮬레이션을 실시, 갖가지 시나리오별로 다양한 정책과 공약 및 전달방식에 따른 민심의 향배를 예측해나갔다. 분석과 홍보에는 아마존의 클라우드 서버가 대규모로 활용됐다.

경험과 감각에 의존하는 전통적인 방식에서 벗어나 기술과 분석을 바탕으로 공략하는 새로운 선거 전략의 시대가 도래한 것이다.


우리나라의 선거와 데이터 분석

▲ 와이즈넛의 ‘초이스 2014’

국내에도 오바마의 재선 이전부터 소셜 분석이라는 이름으로 데이터의 활용이 이뤄지고 있었으며, 빅데이터를 선거에 활용하려는 시도들이 이어지고 있다.

와이즈넛은 지난 6월 4일 열렸던 ‘제6회 전국동시지방선거’에서도 후보자들의 온라인 영향력을 보여주는 한국형 선거 빅데이터 분석 사이트 ‘초이스 2014’ 서비스 사이트를 운영했고, 선거가 끝난 뒤 선거 득표 결과와의 비교 결과를 발표한 바 있다.

후보자에 대한 관심도 지수(BAI)와 신뢰지수(BTI), 매체 총노출 지수(BVI) 등을 개발, 관심지역 11개 선거구와 서울시 교육감선거에서 서울시장, 광주시장, 대구시장, 세종시장, 경기도지사, 제주도지사의 광역단체장과 서울시교육감의 당선을 적중했다.

‘초이스 2014’에서 온라인 노출, 호감도, 신뢰도, 관심지수 등의 다차원 지수분석을 통해 6.4 지방선거의 판세를 가늠하고 민심의 향방을 살펴봤다는 점에서 시사하는 바가 크다고 와이즈넛은 평가했다.

검색기술 기반 빅데이터기업 와이즈넛은 커피, 휴대폰, 자동차, 신용카드 등 생활밀착형 브랜드가 언급된 온라인 버즈를 분석해주는 ‘브랜드페어(BrandFair)’ 서비스를 제공하고 있다.

▲ 와이즈넛의 ‘브랜드페어’

언론매체에게 빅데이터를 활용한 분석 리포트나 관련 API를 제공하는 경우도 있다. 코난테크놀로지는 6.4 지방선거 당시 한 지상파 방송사에게 리포트와 API를 제공하며 선거를 분석한 바 있다.

이와 관련해 코난테크놀로지 사업지원팀 김문희 부장은 “세월호가 지난 선거에 큰 영향을 미쳤다”며, “세월호 참사 이후 SNS상에 선거에 대한 언급과 안전에 대한 공약이 증가한 것은 물론, 기존에 안전문제에 대해 신경써왔던 후보에 대한 언급도 늘어났다”고 설명했다.

코난테크놀로지의 분석 서비스는 연관어의 시계열 분석을 통해 SNS상에서 언급된 양으로 밀접도를, 알고리즘 분석을 통해 호감도를 파악한다.

방송사와 진행했던 6.4 지방선거 분석에서는 언급된 양을 위주로 파악했는데, 정규분포에 수렴할 만큼 일정량 이상을 측정하면 오분석 확률은 줄어들어 경향성에 부합하며, 실제로도 상당부분 부합한 결과가 나왔다는 것이 코난테크놀로지의 설명이다.

검색솔루션 및 미디어자산관리 솔루션 전문기업 코난테크놀로지는 SNS에서 자발적으로 확산되는 소비자의 여론을 실시간으로 모니터링하고 이를 다양한 기준으로 분석하는 텍스트마이닝 기반의 리스닝 플랫폼 펄스K(PulseK)를 서비스하고 있다.

▲ 코난테크놀로지의 ‘펄스K’


소셜과 빅데이터 사이

오바마의 재선 성공으로부터 한 달여 뒤인 지난 2012년 12월에 열렸던 ‘제18대 대통령 선거’에서는 와이즈넛과 코난테크놀로지뿐 아니라 여러 업체들이 소셜 분석이라는 이름으로 앞다퉈 서비스를 선보였다.

그러나 약 1년 6개월여가 흐른 지난 6.4 지방선거에서는 이러한 선거 관련 서비스를 제공하는 곳이 큰 폭으로 줄어들었다. 한발 더 나아간 빅데이터라는 키워드는 날이 갈수록 각광을 받고 있는 것과는 정반대의 현상이 벌어진 셈이다.

이에 대한 여러 가지 이유 중에는 지난 대선에서 국내의 많은 업체들이 예측했던 것과는 다른 결과가 나왔던 점이 부각됐다. 대선 하루 전날 구글트렌드에서 박근혜 대통령과 문재인 후보의 검색 비율은 각각 52.5% 47.5%였고, 이는 각각 51.6%, 48.0%인 실제 득표율 결과와 유사했다. 그러나 소셜 분석을 다뤘던 대부분의 국내 업체들은 대선 관련 분석에서 씁쓸한 성적표를 받아들었다.

이에 대해 업계의 한 관계자는 “개인정보의 유통이 가능해 개별적 타깃팅이 보다 수월한 미국시장과 달리, 국내의 경우 개인의 글은 많지만 정보 접근성 부분에서는 미국에 비해 부족한 것이 사실”이라고 말했다. 빅데이터 분석을 활용하는데 핵심이라고 할 수 있는 다양성에서 문제가 될 수 있다는 것이다.

이는 SNS상의 정보를 수집하는데도 적용되는데 ▲주로 40대 이하가 사용하는 연령층 ▲젊은 세대가 주로 거주하는 수도권과 대도시 위주인 지역 ▲보여주고 싶은 것만 공개하려는 심리 ▲다수의 압박으로 소수의 목소리가 묻히는 쏠림현상 등의 문제가 거론돼 왔다.

지난 대선에 대한 부정확한 분석결과도 표본의 한계에서 비롯됐다는 것이 업계의 시각이다. SNS상에서 얻을 수 있는 데이터의 양이 과연 충분한지에 대한 의문도 제기되고 있다.

이에 대해, 개인정보 활용에 제약이 존재하는 현재의 국내 상황에서 데이터를 활용한 선거분석은 출구조사나 전화설문 등의 기존 방법을 대체하는 것이 아니라, 이러한 방법들과 함께 바라볼 수 있는 또 하나의 새로운 방법이라는 것이 대부분의 업계 관계자들의 설명이다.

빅데이터 분석은 특정 데이터 하나만이 아니라 여러 관점에서 결합해서 이들 간의 관계와 영향을 분석하는 것이기 때문에, 소셜 분석의 모니터링 수준에서 벗어나 예측과 분석을 통해 목표를 보다 명확하게 하려면 기존 방법들로부터 얻을 수 있는 데이터를 비롯해 보다 많고 다양한 데이터가 필요하다는 것이다.

와이즈넛 전략경영본부 김영래 부장은 “최근 분석해보니 SNS를 사용하는 연령층이 확산되고 있고, 보다 다양한 의견들이 개진되기 시작했다”며, “데이터의 증가와 기술의 발전으로 보다 세세하고 정확한 분석이 가능해짐에 따라 점차 개선돼 나가리라 본다”고 설명했다.

이밖에도, SNS가 대중화되면서 공개성으로 인한 각종 사건사고가 점차 알려짐에 따라, 데이터의 신뢰도도 나아지고 있다는 분석도 존재했다.


보다 다양하고 정확하게 바라보기 위해

▲ 텍스트 분석 트렌드 변화 (자료제공: 구방본 SAS코리아 이사)

일각에서는 선거 관련 분석 서비스가 감소한 것이 홍보효과가 줄어들었기 때문이라고 바라보고 있다. 관련 업체들이 홍보용으로 제공하기에는 이러한 분석 서비스가 일반화돼 식상해진 감이 있고, 대중들에게 분석결과를 내놓기에는 ‘잘해야 본전’인 셈이라는 것이다.

나아가 각 정당을 비롯해 선거의 후보자 및 관련 기관에게 선거 관련 분석 솔루션을 판매하기에도 어려운 것이 현실이다. 현재 국내 정치인들이 분석을 통한 전략보다는 ‘명함과 악수’에 압도적으로 비중을 두고 있으며, 관심은 표하지만 비용을 대는 것에는 인색하다는데 상당수의 업계 관계자들이 공감을 표하기도 했다. 서비스가 가능해지려면 정치계부터 바뀌어야 한다는 것이다.

또 현재로서는 상용화하기에 업체에게도 부담이 될 수 있는 면이 존재한다. 올랩(OLAP) 솔루션 제공업체 마이크로스트레티지의 이동협 차장은 “클라우드 서비스 등을 통한 지속가능한 솔루션이 필요한데, 선거라는 이벤트의 일회성 솔루션은 업체들에게 비용 대비 투자효과 등에서 부담될 수 있다”고 설명했다.

데이터를 활용한 선거분석이 당분간 출구조사나 전화설문 등 기존의 방법들을 완벽하게 대체하지는 못할 수 있으나, 또 다른 방향의 유의미한 분석을 제공한다는 점은 간과할 수 없는 사실이다.

기존의 방법들보다 더 많은 대상에 대한 결과를 더 저렴한 가격에 확인할 수 있고, 선거 직전까지 언제 어디서든 실시간으로 분석할 수 있는 점은, 전체적인 여론의 향방을 가늠할 수 있다는 측면과 더불어 현재로서도 충분히 매력적인 부분이다.

비즈니스 분석 SW기업 SAS코리아의 구방본 이사는 “텍스트 분석에 있어서 형태소 분석 이상으로 문맥을 파악할 수 있는 기술이 보다 정확한 결과 도출에 중요하다”며, “기술이 발전해 소위 ‘알바’로 인한 왜곡도 충분히 걸러낼 수 있다”고 설명했다.

오바마의 재선 성공 당시 상대였던 미트 롬니 후보자의 캠프에서도 빅데이터를 활용했다. 다만, 오바마 캠프가 ‘어떻게 공략할 것인가’에 초점을 맞춘데 비해, 롬니 캠프는 ‘지지율 차이가 얼마인가’에 더 집중했고, 결국 결과에서 차이를 불러왔다.

빅데이터를 활용한 선거 분석을 바탕으로 펼치는 다양한 전략적인 수 싸움이 활발해질 가까운 미래에는 정책과 공약도 그만큼 더 충실히 이행되기를 기대한다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지