김문영 비투엔컨설팅 상무

▲ 김문영 비투엔컨설팅 상무
[컴퓨터월드]

데이터가 제공하는 무한한 기회, 전략적 자산으로서의 데이터

기업의 정보시스템에 많은 투자가 이루어지면서 전사적으로 데이터를 수집할 수 있는 능력이 향상되고 있다. 대부분 기업은 비즈니스 경쟁력 제고를 위해 데이터를 어떻게 활용할 것인가에 주목하고 있으며 전통적인 데이터웨어하우스 뿐 아니라 빅데이터에 이르기까지 관련된 기술 발달도 가속화되고 있다.

근래 들어 데이터 분석을 경영 의사 결정에 활용하고자 하는 경향은 더욱 강화되고 있으며 ‘과거에 어떤 일이 일어났는지’와 현재의 상태를 파악하는 분석에서 앞으로 어떤 일이 일어날 것인가 또는 앞으로 어떤 일을 하기 위해서는 무엇을 해야 할 것인가를 예측하는 분석에 더욱 무게가 실리고 있다.

그러나 ‘기업이 보유하고 있는 데이터를 정확하게 파악하고 최적의 의사결정을 내리는데 활용하고 있는가’란 질문에 자신 있게 대답할 수 있는 기업은 많지 않을 것이다. 또한, 데이터 분석에 대한 관심에 비해 분석 역량과 의사결정 문화 측면에서 대다수 기업들의 준비는 미비해 많은 시행착오를 겪고 있는 것이 현실이다.

여기에서는 점차 중요성이 강조되고 있는 데이터 분석에 필요한 핵심 개념과 절차를 소개하고 데이터 분석적인 관점에서 문제를 이해하고 해결하기 위한 사람의 역할에 대해 말하고자 한다.

 

데이터 분석적으로 사고하기 위한 핵심 개념

적절한 데이터를 찾아내고 분석하기 위해서는 통계학적 지식에서부터 Hadoop, Map-Reduce와 같은 IT 기술에 이르기까지 많은 기술들이 사용된다. 그러나 좀 더 일반화되고 추상적인 분석을 위한 핵심 개념을 이해하는 것이 구체적인 작업과 알고리즘을 자연스럽게 이해하는데 많은 도움이 된다.

비즈니스 문제를 데이터 분석 작업으로 체계화하기 위해 많은 기법들이 연구되고 있다<표>. 기본 개념에 충실한 의사 소통은 비즈니스 관계자와 데이터 분석가, 개발자간의 문제의 이해와 분석 결과 활용을 원활하게 하는데 많은 도움을 줄 것으로 기대된다.

▲ 데이터 분석기법의 기본개념

 

데이터 분석을 위한 절차

비행기가 날기 위해서는 목적지와 항로, 그리고 항로까지 비행할 추진력을 얻기 위한 연료가 필요하다. 마찬가지로 데이터를 분석할 때는 분석 목적과 도착점을 설정하고 그 도착점을 향하기에 충분한 환경인지, 구체적인 비즈니스 문제가 있는지, 데이터 처리 기반이 존재하는지를 확인하는 것이 중요하다.

또한 비행기를 운행하기 위해 경험 많은 파일럿과 승무원이 필요하듯이 데이터 분석에 필요한 역량과 리더십 및 커뮤니케이션 능력을 갖춘 유기적인 데이터 분석 조직이 반드시 필요하다.

데이터 분석을 진행하는 단계는 해결해야 할 문제와 환경에 따라 세부적인 절차는 상이할 수 있으나 일반적으로 이해하기 쉽고 여러 산업 영역에 적용 가능한 CRISP-DM(Cross Industry Standard Process for Data Mining)을 예로 들 수 있다.

▲ CRISP 데이터마이닝 프로세스

데이터 분석 프로세스의 첫 단계이자 가장 중요한 단계는 업무 이해 즉, 해결할 문제를 이해하는 것이다. 많은 경우 데이터 분석을 통해 해결해야 할 비즈니스 문제가 명확하게 정의되지 않을 수 있으므로 기획과 가설 구상력을 갖추고 데이터 분석의 과제와 목적 및 우선순위를 결정한다.

업무 이해 단계에서는 업무 및 기업 환경에 대한 이해를 바탕으로 한가지 관점에 집착하지 않고 다양한 관점에서 가설을 구축하고 분석할 수 있는 창의적인 분석 역량이 요구된다.

비즈니스 문제를 해결하는 것이 비행의 목적지라면 데이터는 비행기가 날기 위한 연료에 해당된다. 문제 해결을 위해 최적화된 데이터가 준비된 경우는 거의 없으므로 데이터를 이해하고 준비하는 과정은 때론 매우 지루하다.

업무 이해 단계에 수립된 가설에 필요한 데이터 레이아웃을 정의하고, 이를 확보하기 위해 각 시스템의 데이터를 추출, 가공하고 가공 결과를 검증하는 일은 데이터 분석가 업무의 상당 부분을 차지하기도 한다.

종종 데이터를 준비하는 단계에서 완벽한 대량의 데이터가 아니면 분석이 불가능하거나 분석 결과를 신뢰할 수 없는 것으로 오해하는 경우가 있는데 무작위 추출을 감당할 수 있는 표본과 데이터의 결손을 보완하거나 또는 허용할 수 있는 알고리즘을 도입할 수 있다면 분석이 가능하므로 지나치게 소극적인 선택을 할 필요는 없다.

처리된 데이터는 가설을 바탕으로 모델을 구축하고 여러 분석 도구와 기술을 이용해 가설 검증을 반복한다. 이 단계에서 주의할 점은 데이터 분석 결과 자체만으로는 비즈니스 문제 해결에 적용할 해결책으로 연결하기 부족하다는 점이다. 데이터 분석 결과에 유의미하게 영향을 주는 요소는 사실 매우 복잡 다양하므로 업무 현장의 경험과 직관을 통해 더욱 정확도 높은 가설과 모델로 정교화하는 과정이 반드시 필요하다.

우리가 마주하고 있는 데이터는 0, 1로 이루어진 숫자가 아니라 숫자의 배후에 있는 사람들의 행동이며 데이터 분석 결과는 빙산의 일각일 위험성이 반드시 존재한다. 따라서 가설과 업무 현장의 경험과 직관을 융합해 모델을 보완하는 과정이 특히 중요한 의미를 지닐 수 밖에 없다. 이렇게 수립된 가설과 모델은 업무 현장에서 실천과 검증을 반복하며 시행착오를 통해 업무의 시점에서 최적화 고도화된다.

 

데이터 분석을 통한 문제 해결의 열쇠는 결국 사람

“이 사건은 살인 사건이고 범인은 남자입니다. 그는 키가 6피트가 넘는 활기 왕성한 사람으로 큰 키에 비해 발은 작고 구두코가 네모난 조잡한 구두를 신었으며 인도산 트리키노플리 시가를 피웠죠. 이곳에는 피살자와 함께 사륜마차를 타고 왔는데, 그 마차를 끈 말은 세발은 헌 편자를, 오른쪽 앞발은 새 편자를 박았네요. 살인자는 얼굴이 붉고 오른쪽 손톱이 유난히 긴 남자입니다. 이런 것은 몇 가지 특징에 지나지 않으나 수사에 도움이 될 것입니다. “ (셜록 홈즈 - 주황색 연구)

데이터 분석을 진행하다 보면 마치 위의 예시와 같이 셜록 홈즈와 같은 천재에 의해 기업이 지닌 문제를 일사 분란하게 해결되는 영웅담을 기대하는 경우가 종종 존재한다. 그러나 데이터 분석은 의사 결정의 최적화를 돕는 도구일 뿐이며 잘못된 데이터 분석은 커다란 문제를 일으킬 수도 있다.

‘데이터는 거짓말을 하지 않는다’라는 말도 있지만 데이터로 모든 것을 설명할 수는 없으며 사람은 데이터가 올바르다고 해서 반드시 움직이지는 않는다는 한계도 분명히 존재한다. 데이터 분석에 있어 사람의 창조성이나 직관이 중요하게 여겨지는 이유도 이 때문이며 훌륭한 데이터 분석 모델을 경영 성과로 이끌어 내는 것도 결국 현장에 있는 사람이다.

그러므로 데이터 분석을 단순한 IT 기술에 의한 수리 모델의 구현이 아닌 사람에 의한 사람을 위한 작업임을 이해할 때 데이터 분석의 진정한 가치가 비즈니스 영역에서 효력을 발휘할 것으로 기대된다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지