김동철 / 데이타솔루션 총괄본부 전무(공학박사)

 
▲ 김동철 / 데이타솔루션 총괄본부 전무(공학박사)
[아이티데일리] 환자를 다루고 병을 치료하는 사람이 의사라면, 데이터를 들여다보고 데이터에 이상이 있는지를 찾아보고 의미를 찾아 내는 사람은 데이터 과학자라고 한다. 데이터 과학자의 주무기는 통계에 그 기반을 두고 있으며, 경제, 정치, 과학, 국방 등의 개별 분야의 지식을 더해서 데이터가 가지고 있는 고유의 의미와 해당분야의 전문성을 바탕으로 한 해석을 동시 에 제시한다. 통계적 지식이 없는 전문성은 데이터의 기본이 결여될 가능성이 많고 전문성이 결여된 통계 지식은 응용력과 현실성이 떨어지게 된다. 빅데이터 시대가 도래함으로써 데이터 자체에 대한 관심이 어느 때보다 뜨겁다. 어떻게 하면 현재 가지고 있는 데이터를 빅데이터로 만들 것인가를 놓고 여기저기서 논란이 일고 있다. 여기서 주의해야 할 것은 빅데이터 자체가 목적이 아니라는 사실이다. 실제로 알고 싶은 것을 정하고 그것을 보다 정확하게 알아가기 위하여 데이터를 통해 문제를 해결하자는 것이다.
 
데이터 자체는 그것이 작던 크던 간에 있는 그대로 쓰는 것은 마치 의사가 진료하기 전에 환자의 말만 듣고 기본적인 청진기 진료를 하지 않는 것과 같다. 그렇게 되면 폐렴을 일반 감기로 오진하는 오류를 범하게 되고 환자는 적절한 치료시기를 놓치게 된다. 데이터도 마찬가지 이다. 잘못된 데이터를 가지고 생산에 들어가서 이미 완제품이 나왔다면 되돌릴 수 없는 것이다. 그나마 소비자에게 까지 가기 전에 발견했다면 다행일 것이다. 글로벌 대기업들도 이런 시기를 놓쳐서 리콜까지 실시하는 것을 수없이 보아왔다. 데이터를 잘 못 다루어서 발생하는 엄청난 비용을 동반하는 뼈아픈 교훈이다. 이와 관련된 더 가슴 아픈 진실들이 있다. 이는 과학자적 양심과 관련된 것인데, 데이터를 결과에 맞추어 가공하는 것이다. 그러한 일들은 잘 밝혀지지 않지만 얼마 전에 미국에서 자동차연비를 허위로 기재하여 국가적 망신을 당한 사례도 그런 예이다.
 
데이터에는 이러저러한 이유로 필요한 분석을 하기 이전에 조치 해야 할 부분들이 상당히 많다. 전체적인 데이터 분석에는 기본적인 데이터를 처리하는 데에 50% 이상의 시간을 할애하고 나머지 시간을 고도의 분석에 쓰는 것이 적당하다고 한다. 그만큼 데이터를 신중히 다루어야 한다는 것이다. 데이터는 원래 그 자체로 오차라는 것을 가지고 있다. 실험 중에 나오는 오차, 장비로 인한 오차, 사람에 의한 오차, 어쩔 수 없는 오차(White Noise라고도 한다), 그리고 전문적인 견해에 따른 오차 등등이 있다. 이러한 오차를 가지고 있는 데이터를 그대로 가지고 뭔가를 하려고 한다면 엄청난 위험을 지닌 결과를 도출하게 된다. 문제는 그렇게 도출한 결과가 보기에도 좋고 여러 정황에 잘 맞아 떨어질 때 위험은 현실이 되어 버린다.
 
데이터를 들여다 볼 때의 기본은 원래의 의도대로 데이터가 구성되어 있느냐 하는 것이다. 인구통계에 출생 년도가 2015년이후인 자료가 있다면 당연히 수정되어야 한다. 제품생산시의 원료의 데이터에 음수가 들어 있다면 그것 역시 잘 못된 것이다. 신체 지수 데이터에 신장이 3m 가 넘는 사람이 있다면 역시 다시 살펴야 할 것이다. 이러한 기초 데이터 이외에 측정 데이터에도 면밀한 검토가 필요하다. 설문 조사의 경우에 성의 없이 모두 한쪽 방향으로만 응답한 경우 응답의 신뢰도에 문제를 줄 수 있다. 또한 당연히 부정적인 답이 나와야 상식적인 응답인데 반대로 응답했다면 이 또한 정상적인 상태의 응답지인지를 살펴볼 필요가 있다. 예를 들어 온도가 섭씨 40도를 넘는 상태에서 쾌적하다거나 시원하다고 답한 사람들은 몸 상태가 정상이 아닌 관계로 분석에서 제외할 필요가 있다는 말이다. 그렇지 않을 경우, 만족도 평균 온도에 영향을 주어 에너지 절감 및 전체 집단의 만족도 온도 추정에 오류를 가져오게 된다. 좀 더 복잡한 경우를 본다면 학력에 따라 구매성향의 차이를 알아보려고 했을 때, 실제 나이보다 학력을 높게 기재하는 경우가 있는데 이런 데이터도 걸러내야 하는 것이다. 실제는 어떤지 한번쯤 심각하게 반성해 볼 일이다.
 
과학분야가 아닌 일반 사회 과학 분야에서는 데이터가 이론과 잘 들어맞지 않는다. 사회의 다양성으로 인해 특정한 이론을 데이터를 통해 규명하는 것이 어렵기 때문이다. 이런 경우에 연구자들은 쉽사리 데이터에 손을 대고 싶은 유혹에 직면한다. 데이터가 커지는 빅데이터로 갈수록 이러한 증상은 커지기 마련이다. 게다가 크게 관련이 없는 데이터들까지 한데 모아서 분석하자면 분석 이론의 근거를 제공하는 여러 가정들이 잘 맞지 않게 되어 또 다른 심각한 오류를 만들어 낼 수 있다. 실제로 과거 여러 사례에서 이러한 정황들을 찾아볼 수 있으며 대개는 통계를 잘 모르는 다른 분야의 전문가들이 스스로 고도의 통계 기법들을 정제되지 않은 데이터를 가지고 분석함으로 인해서 생기는 결과들이다.
 
어느 제조 유통 기업이 현재 보유하고 있는 고객 데이터를 가지고 보다 효율적으로 시장을 공략해서 실적을 개선해 보고자 한다면 어떻게 해야 하는가? 현재의 데이터가 분석할 만큼의 상태로 되어 있는지를 먼저 점검해봐야 한다. 그리고 빅데이터적인 접근을 위해 회사 내부에 이용할 만한 다른 데이터가 있는지 살펴 보아야 한다. 이때 데이터 과학자들이 산재해 있는 모든 것들은 데이터화하는 프로세스에 동참하는 것이 바람직하다. 눈에 보이지 않는 데이터가 보이는 데이터 보다 많은 법이다.
 
요즘은 개인 정보 보호 관련 법률에 따라 직접적으로 꼭 필요한 정보를 얻기가 어려워지고 있다. 또한 그간에 축척 된 자료들도 부적절하게 외부에 유출됨에 따라 자료의 이용에 한계를 두고자 하는 움직임들이 거세지고 있는 것도 사실이다. 이런 때 일수록 작은 한 조각의 데이터로부터도 필요한 정보를 얻어낼 수 있는 실력이 필요하게 되었다. 따라서 빅데이터를 바라 보는 시각도 기본으로 돌아가서 현재의 데이터 수준과 분석 수준을 돌아보고 데이터 과학자적인 능력도 아울러 함께 겸비하도록 해야 한다. 이렇게 하는 것이 시류에 편승하여 서둘러 가는 것보다 정도를 가는 것이므로 경제적인 면으로나 진실을 알아가는 것에서나 결국은 앞서가는 것이 될 것이다.
 
저작권자 © 컴퓨터월드 무단전재 및 재배포 금지