[데이터사이언티스트를 찾아서] “빅데이터 분석, 데이터의 본질을 바라보는 것부터”

유충현 한화생명 차장

[컴퓨터월드] 컴퓨터가 발명된 이후로, 데이터의 저장용량 및 처리속도는 해마다 증가해왔다. 최근 사회 전반에 걸쳐 ‘빅데이터’ 붐이 일어나기 이전에도, 데이터 분석은 이를 바탕으로 활용이 필요한 곳에서 유의미한 성과를 거두며 발전을 거듭해왔다. 빅데이터에 대한 논의도 이제는 차츰 성숙돼가는 추세로, 분석을 통한 인사이트 도출에 그 초점이 모아지고 있다.

R을 오랫동안 다뤄오며 다양한 데이터 분석 경험을 보유한 유충현 한화생명 차장은 “훌륭한 인사이트를 도출하기 위해서는 데이터의 본질을 꿰뚫어볼 수 있어야 한다”고 주장하면서, “데이터의 질적 향상이야말로 분석의 핵심”이라고 강조한다. ‘데이터’와 ‘분석’에 대한 그의 이야기에 귀기울여본다.

유충현 한화생명 차장은 학창시절부터 확률과 통계에 관심을 가졌고, 이에 따라 전공도 통계학을 선택했다. 군 전역 후에는 복학을 준비하면서 전공 공부를 위해 C 언어로 통계분석 라이브러리를 만들었고, 이를 지속해 대학교 3학년 때인 94년에는 ‘C로 배우는 통계학’이라는 책을 저술하기도 했다. 이 시기에 R의 상업용 프로그램인 S-PLUS도 접하게 됐고, 자연스럽게 지금까지 R을 다뤄온 계기가 됐다.

대학교 졸업 후 유충현 차장은 SI(시스템통합) 기업인 삼성SDS에 취직해 DW(데이터웨어하우스) 및 BI(비즈니스 인텔리전스) 관련 업무를 담당하게 됐지만, 출퇴근길이나 주말에는 짬짬이 시간을 투자해 데이터 분석 관련 이론을 학습하고 기술을 연마했다. 데이터 분석 관련 일을 하고 싶다는 꿈을 잃지 않기 위해서였다.

이렇게 신념을 지니고 준비해오던 유충현 차장은 2000년대 들어 본격적으로 데이터 분석 분야에 뛰어들게 됐고, 이후 여러 곳에서 다양한 데이터 분석 프로젝트를 수행해왔다. “R이라는 분석도구를 남들보다 먼저 접할 수 있었던 점을 행운으로 여긴다”는 유 차장은, “돌이켜보면 바로 데이터 분석 업무에 뛰어들지 않고 DW, BI를 통해 시스템과 프로그래밍 스킬을 쌓은 점이 전화위복이 된 것 같다”고 회고했다.

“열정에 대한 화답을 받은, 억세게 재수 좋은 케이스”라고 자평하며 겸양을 보이는 유충현 차장이지만, 데이터 분석과 관련해 이야기를 나눌 때면 눈빛부터 달라지는 모습을 보였다. 데이터 분석 전문가라는 오랜 꿈을 이룬 그로부터 들은 빅데이터와 데이터 사이언티스트에 대한 견해를 일문일답 형태로 정리했다.

빅데이터를 정의한다면.

세간에는 가트너에서 정의한 3V, 양(Volume), 속도(Velocity), 다양성(Variety)으로 가장 많이 회자될 것이다. 이 기준에 의해 과연 얼마부터 빅데이터인지 반문하고 싶다. 개인적으로는 이 정의가 정보화 시대의 데이터 특징을 설명하는 키워드 정도로 여겨진다. 20년 전의 기초통계학 서적에는 30개의 데이터를 대표본이라고 기술했지만, 지금은 경우에 따라 3,000만 건의 데이터도 크다고 볼 수 없다. 또 데이터의 양뿐만 아니라 변량의 개수도 많이 늘었다.

이런 변화에 통계학 이론이 탄력적으로 대처를 못한 새, 데이터 분석 분야에서는 머신러닝 기반의 데이터마이닝 기법이 통계학의 부족한 부분을 채워왔다. 그리고 위자드나 워크플로우 방식의 UX를 갖는 분석도구가 데이터 분석을 보다 대중화시키는데 기여했다. 그러나 이러한 분석툴은 데이터 분석방법의 획일화를 가져왔고, 툴에 길들여진 데이터 분석가들은 더 정확한 모델링 기법을 찾는 것에만 집중하지 않았나 생각한다.

물론 이런 방법이 틀리다고 보지는 않는다. 다만, 데이터의 조작과 다양한 데이터의 연계를 통해 데이터의 질을 높이는데 소홀했다는 것이다. 데이터를 적극적으로 활용하는 것, 데이터의 가치를 끌어올리는 데이터 중심(Data Driven) 분석방법이야말로 빅데이터 분석이라고 본다. 데이터 분석 모델링 기법의 성능을 획기적으로 끌어올릴 수 없다면, 데이터의 가치 향상을 꾀해야 한다.

빅데이터가 비즈니스 트렌드 용어로 치부되는 경우도 있다.

빅데이터에 대한 사회적인 관심이 늘어난 것은, 데이터 분석의 가치에 대한 공감대가 형성됐다는 점에서 긍정적이다. 그런데 이러한 관심이 점증적으로 형성된 것이 아니라 단기간에 폭발적으로 이뤄진 부분에는 IT시장에서의 의도된 각색도 없지 않았다고 본다. 공급자들이 새로운 먹거리를 위해, 이미 존재해오던 데이터 분석에 ‘빅’이라는 팬시(fancy)한 접두어를 붙인 것 같다.

소셜분석이나 CRM이 마치 빅데이터의 전부인양 받아들이는 세간의 인식도 이런 점에서 기인한다. 일반적으로 이해하기 수월한 일부 사례들이 비즈니스적인 목적이 가미돼 활용되고 회자되다보니 오해를 불러일으킨 것이다. 특히 국내의 경우 고객의 니즈에 따르기보다는 팬시한 트렌드를 세팅해 시장을 열려고 하는 측면이 있다. 시장에서는 솔루션만 팔지, 경험을 파는 빅데이터 벤더가 많지 않으니 더욱 혼란스럽다.

그래서 일각의 부정적인 시선이 이해가고, 또 우려되기도 한다. 빅데이터 사상이 솔루션 벤더와 만나 본질이 호도되고, 툴을 포장하는 껍데기가 되지 않을까 걱정된다. 많은 DW, BI, 분석 솔루션과 장비들이 빅데이터로 화장을 했고, 많은 관련 프로젝트가 빅데이터를 분석했다면서 실적을 발표한다. 정부의 여러 유관부처에서도 경쟁적으로 빅데이터 분석 프로젝트의 실적을 홍보한다.

데이터를 통해 인사이트를 도출하는 것이 목적이 돼야 하는데, 그 과정에 있는 수단이 곧 빅데이터인 것처럼 왜곡되고 있다. 솔루션만 도입한다고 해서 빅데이터 분석이 가능해지는 것이 아닌데, 차라리 ‘빅’이라는 미사여구를 벗어버리면 이러한 혼란이 덜해질 수도 있다. 데이터 분석의 가치를 의심하지 말고, 본질적인 분석이 많은 곳에서 보다 적극적으로 시도돼야 한다.

최근 정부3.0 등 공공데이터 개방에 대해 어떻게 바라보나.

개인정보보호를 위한 제도적 범주 안에서 최대한 데이터가 공개돼야 한다. 공공기관들이 서로 데이터에 대한 헤게모니를 잃지 않으려고 하니 유관부서끼리의 데이터 교류에도 방어적이다. 이는 국민을 이롭게 할 분석사업의 공공재로 데이터를 보기보다는, 기관의 소유물처럼 인식하고 있기 때문이다. 공공재로서의 가치와 개방의 철학 없이 슬로건처럼 진행되는 경향이 있는데, 이는 일정기간의 시행착오를 거치면서 개선될 것으로 본다.

개방 자체는 이미 상당히 진행된 상태지만, 정작 쓸 만한 양질의 공공데이터는 그리 많지 않은 점도 문제다. 데이터가 분석에 유용하게 활용될 수 있으려면, 이미 집계된 통계가 아니라 원천데이터(Raw Data)가 공개돼야 한다. 또 정보공개의 양적인 면에만 치중되는 점을 해결하기 위해서는 공개한 양이 아니라 질로 평가하는 방법도 필요해 보인다.

무엇보다 공공데이터를 기업 대상으로도 충분히 개방해야 한다. 데이터의 성격에 따라 조심스럽게 접근할 필요는 있겠지만, 쓸 만한 데이터가 별다른 이유 없이 학술연구 용도만으로 제한된 경우가 많다. 정부에서 법률 등으로 가이드라인을 제시하면, 기업은 이를 위반했을 때 피해가 더 크므로 이 테두리 안에서 활용하게 된다. 이러한 부분을 잘 정비해 충분히 공개해야지, 부가가치를 높일 수 있는 기업의 접근을 막는 것은 창조경제에 역행하는 것 아닌가.

공공 빅데이터 프로젝트의 경우도 마찬가지다. 공공기관에 유사부처가 많아서, 서로 비슷한 아이템으로 경쟁하다보니 프로젝트당 예산도 적어진다. 이러한 문제에 대해 중심을 잡고, 또 제도적으로 힘을 실어줄 수 있는 조직이 필요하다. 현재로서는 이러한 중심이 있어야 파편화돼있는 데이터를 모을 수 있고, 성공사례를 만들어 시장을 활성화시킬 수 있다.

빅데이터의 핵심, 데이터 사이언티스트는 어떤 사람인가.

분석요건을 잘 파악해 일련의 과정을 스스로 코디네이트(coordinate)하고, 원천데이터에서 스스로 데이터를 가공 및 분석해 결과를 도출하는 사람이라고 생각한다. 빅데이터의 3V와 같이 데이터 사이언티스트에 대한 정의와 필요기술도 모범답안처럼 몇몇 회자되는데, 개인적으로는 간단히 ‘데이터를 분석하는 사람’이라고 여긴다. 데이터 사이언티스트라는 단어에 얽매일 필요는 없다고 본다.

필요한 역량을 꼽자면, 데이터 조작에 요구되는 기술적인 능력, 통계학 등을 활용하기 위한 수리적인 능력, 가설을 세우고 분석을 풀어갈 수 있는 논리적인 능력 등을 들 수 있다. 특히 최근에는 빠르게 데이터를 처리하기 위해서도 프로그래밍 스킬 등 데이터 조작 능력이 적잖이 요구된다. 업무지식(Domain Knowledge) 또한 데이터 조작을 위한 전제조건으로, 해당 영역의 전문가까지는 못 되더라도 협업 시 소통 가능한 수준의 지식은 필수적이다.

무엇보다 데이터의 본질을 바라보려는 태도가 가장 중요하고, 필요한 역량들은 흡수해나가면 된다. 데이터를 잘 바라보기 위해서는 많은 고민과 상상이 필요하다. 어떤 데이터를 접할 때, 그저 그 자체나 알고리즘만 생각할 것이 아니라, 그 데이터가 어떻게 생성되고 변형되며 소멸될지에 대해서도 고민하고 상상해볼 필요가 있다. 앞으로는 이러한 점이 빅데이터 분석의 핵심이 될 것이다.

국내에 데이터 사이언티스트가 부족하다는데.

국내 시장에는 경험 많은 데이터 사이언티스트가 아직 많지 않아서, 희소성에 의해 그 가치가 상승하고 있다. 그러나 다분히 전문적인 영역이고 많은 경험과 스킬셋을 요구하는 것에 비해 시장에서의 용역단가는 저평가되는 경향도 없지 않다. 희소성에 따른 가치는 높지만 단가는 현실적이지 못한 것이다.

데이터 사이언티스트를 양성하려면 이러한 시니어 데이터 사이언티스트들이 멘토링을 통해 주니어 데이터 사이언티스트들을 이끌어줄 수 있어야 하는데, 현재로서는 매우 부족한 구조라 이와 같은 수급불균형은 지속될 것으로 보인다. 게다가 얼마 되지 않는 시니어급들을 자금력 있는 대기업에서 모두 데려가고 있는 형편이라, 데이터 분석 기반의 의사결정이 이뤄지는 대기업과 그렇지 못한 중소기업의 격차는 갈수록 벌어질 것으로 전망된다.

이 문제는 그간 데이터 분석이 국내 기업에 정착하지 못했던 이유와 일맥상통하다. 수요가 있을 때마다 외부 용역을 통해 일회성 프로젝트 위주로 해결해오다보니, 데이터 분석능력의 내재화가 이뤄지지 못했던 것이다. 이제는 기업과 분석솔루션벤더 및 분석업체 등에서 시니어급만 찾을 것이 아니라, 주니어급의 발굴 및 육성에 적극 나서서 분석능력 내재화에 힘을 기울여야 한다. 악순환을 끊기 위해서라도 장기적인 관점에서 바라볼 필요가 있다.

데이터 분석의 질적 가치를 향상시키려면.

통계학에 유의수준이 존재하듯, 데이터 분석에는 항상 오차가 있기 마련이다. 통계는 확률모형이지 확정모형이 아니며, 확률이란 것은 예측이 틀릴 수 있는 가능성을 내포한다. 이러한 오차를 줄이기 위해 그동안 데이터마이닝 기법이 발전돼왔지만, 이것만으로는 한계가 있을 수 있다. 데이터의 질이 받쳐줘야 양이 늘어나는 것도 유의미하므로, 질적인 가치를 높이는데 주력할 필요가 있다.

이를 위해서는 데이터 조작을 직접 수행할 수 있어야 한다. 원천데이터의 구조를 이해하고 숨겨진 특성을 반영해, 분석에 사용할 데이터를 가공할 수 있어야 한다. 따로 IT 담당자 등 남에게 맡긴다면 그 결과를 보장할 수 없으므로, 빅데이터 관점에서는 반쪽짜리 분석가인 셈이다. 개인적으로 하둡(Hadoop) 기반 시스템에서는 하이브(Hive)를, RDBMS(관계형 데이터베이스 관리시스템)에서는 SQL을 이용해왔고, 로그는 쉘 스크립트(Shell Script) 등으로 조작하기도 한다.

분석의 목적에 따라 데이터를 다루는데 차이가 있다는 점도 염두에 둬야 한다. 행태와 패턴을 찾기 위해서는 원천데이터 중심의 접근이 필요할 것이며, 고객의 이탈을 예측하는 등의 분류(classification) 모형은 고객별 실적이나 상태 등을 집계해야 할 것이다. 또 주식시장에서 주가를 예측한다면 해당 종목들을 일별로 집계하는 시계열 데이터로의 가공이 필요할 것이다. 즉, 분야의 차이보다는 분석 케이스에 따라 데이터를 다루는 방법이 달라진다.

아울러, 데이터의 본질적인 의미를 파악하기 위해서는 먼저 시각화 기법을 시도해보는 것을 권하고 싶다. 백문이 불여일견이듯, 개인적으로는 데이터 분석과 관련해 ‘백수불여일화(百數不如一畵)’를 좌우명 중 하나로 삼고 있다. 많은 양의 통계량으로 설명할 수 없는 사실을 단 하나의 시각화 결과물로 쉽게 설명할 수 있는 경우가 적지 않기 때문이다. 통계나 데이터마이닝 모델의 난이도가 데이터 사이언티스트의 스킬을 가늠하는 척도는 아니다.

한편, IoT(사물인터넷)의 경우 빅데이터 사상이 필요한 영역이고, 이에 따른 데이터 분석에도 대중화된 기법뿐만 아니라 새로운 각도에서 접근할 필요가 있다. IoT는 비즈니스 모델에 따라 유용한 인사이트나 사용자를 편리하게 하는 서비스가 나올 수 있는 생자리(숨겨진 낚시 포인트)로 보인다. 생자리에서는 초보도 많이 낚을 수 있듯, 그간 활용되지 않았던 데이터는 간단한 분석을 통해서도 훌륭한 성과를 거둘 수 있다.

인터뷰를 마치며 향후 계획을 묻는 질문에 대해 유충현 한화생명 차장은 “데이터의 질적 향상을 꾀하는 시도를 계속할 것”이라고 답했다. “타성에 젖어 비교적 간단하게 집계해 변수를 만드는 것이 아니라, 데이터의 탐색을 통해 특징이 잘 반영될 수 있는 유의미한 파생변수를 만들거나 다양한 데이터를 묶어보고 분석에 시도되지 않았던 데이터를 붙여보는 것”이라고 설명하며, “데이터를 분석하는 사람은 분석할 데이터를 스스로 만들어야 한다는 점을 잊지 말아야 한다”고 강조했다.

유충현 차장은 R 시각화를 주제로 한 단행본도 조만간 발간할 예정으로, 현재 출판사에서 조판을 마무리하고 있다. 또한, 수년 전 운영했던 R 관련 블로그도 재정비해 R과 데이터 분석에 대한 경험을 공유할 계획으로, 시간적인 여유가 난다면 올 하반기에는 미트업(meet up)을 통한 교류도 생각해두고 있다고 밝혔다.

마지막으로 유충현 차장은 데이터 사이언티스트를 꿈꾸는 이들에게 “꿈을 잃지 말고 정진한다면 좋은 기회가 올 것”이라고 당부했다. 꿈속에서, 꿈을 지키기 위한 그의 노력은 지금도 계속되고 있다.

상단영역

본문영역

[데이터사이언티스트를 찾아서] “빅데이터 분석, 데이터의 본질을 바라보는 것부터”

유충현 한화생명 차장

관련기사

기사 댓글 0

비회원 로그인