[데이터사이언티스트를 찾아서] “빅데이터는 수단일 뿐, 분석 목적 잊지 말아야”

조성준 서울대학교 산업공학과 교수

[컴퓨터월드] 대부분의 사람들은 어딘가를 향해 찾아갈 때 자연히 목적지를 정하는 일부터 먼저 할 것이다. 어떤 교통수단으로, 어떤 길을 통해야 빠르고 편할지 알아보는 것은 그 다음 일이다.

데이터 분석을 할 때도 마찬가지다. 분석의 목적부터 정해지지 않았다면 수행과정에서 그 방향을 잃고 표류하게 될 수밖에 없다. 빅데이터가 떠오르고 있다는 말만 듣고서 무작정 시작하는 것은, 마치 지나가는 차가 좋아 보인다고 무작정 타놓고서 원하는 곳에 닿기를 바라는 일과 진배없다.

이에 조성준 서울대 산업공학과 교수는 “빅데이터는 수단일 뿐, 데이터 분석을 하는 목적을 망각하지 말아야 한다”고 강조한다. 데이터 사이언티스트 양성에 힘써온 그에게 국내 데이터 사이언스 분야가 나아가야 할 길을 물었다.

주요 약력
- 서울대학교 산업공학과 학사·석사
- 미국 워싱턴대학교 컴퓨터공학과 석사
- 미국 메릴랜드대학교 컴퓨터공학과 박사
- 前 한국BI데이터마이닝학회장
- 現 서울대학교 산업공학과 교수 겸 데이터마이닝센터장
- 現 정부3.0추진위원회 빅데이터전문위원장

조성준 서울대학교 산업공학과 교수는 어렸을 적부터 문제 해결에 흥미를 느꼈고, 비즈니스 문제를 컴퓨터로 분석해 해결해나가는 산업공학으로 자연스럽게 진로를 택했다. 그러나 그가 대학에 진학해 데이터 분석에 첫발을 내딛던 시기는 분석의 가치가 인정받는 풍토와는 거리가 있던 시대였다. “80년대는 분석할 시간에 일단 몸부터 움직이는 편이 더 득이 되던 고도성장기로, 돈키호테가 흥하고 햄릿이 망하던 시대였다”는 것이 그의 회상이다.

그 와중에 데이터 분석을 수행하면서 컴퓨터의 매력에 더욱 깊이 빠져든 조성준 교수는 이후 유학길에 오르면서 컴퓨터공학을 새로운 전공으로 삼기에 이른다. 조 교수는 “컴퓨터를 좀 더 이해할 수 있게 되면서 분석의 틀을 갖출 수 있었고, 또 일찍부터 기계학습(머신러닝)을 전공할 수 있었기에 지금으로서는 만족할만한 결정”이라면서, “30년 전 인공지능(AI)과 기계학습 붐이 일었을 때 딥러닝 개념도 이미 등장했지만, 당시에는 위성사진 정도를 제외하면 다룰 만한 빅데이터가 없다시피 했었다”고 회고했다.

예나 지금이나 조성준 교수가 가장 관심을 두는 곳은 제조 분야다. 90년대 중반 포스텍(포항공대)에 있던 시절부터 제조 분야에 기계학습을 접목하는 시도를 해왔으며, 최근에도 품질 제고 및 수요 예측에 초점을 맞춰 국내 유수의 기업들과 함께 다양한 프로젝트를 수행하고 있다. 데이터 분석을 통한 실질적인 가치 창출에 집중하고 있는 그로부터 들은 빅데이터와 데이터 사이언티스트에 대한 견해를 문답 형태로 정리했다.

빅데이터와 데이터 사이언스에 대한 시각은.

빅데이터는 마치 광산과 같다. 즉 패시브 오브젝트(passive object)로, 이 자체만으로는 할 수 있는 것이 없다. 데이터에서 가치를 뽑아내는 과정을 광산에서 보석을 캐는 일에 비유한다면, 빅데이터라는 광산에서 원석을 채굴하고 컴퓨터라는 도구를 활용한 정제와 가공을 거쳐 데이터 사이언스라는 공예 작업을 마친 후에야 비로소 보석과 같은 인사이트(insight)와 포어사이트(foresight)를 얻게 되는 셈이다. 빅데이터는 수단이고 데이터 사이언스는 방법론일 뿐이다.

데이터 분석 과정은 데이터를 생성하고 보유해서 언제든지 활용할 수 있도록 처리하는 1단계, 분석을 위해 기계학습과 각종 통계기법 및 DB기술을 동원하는 2단계, 이를 바탕으로 비즈니스 가치를 뽑아내서 실제 적용하는 3단계로 나눠볼 수 있다. ROI(투자수익률)와 같은 가치를 얻기 위해서는 처음부터 3단계를 바라보면서 단계를 밟아야 하나, 이를 염두에 두지 않은 채 진행하다가 방향을 잃는 경우도 적잖이 접하게 된다. 빅데이터가 주목받는다고 해서 무작정 시작하는 일은 지양해야 한다.

데이터 분석은 목적 중심으로 이뤄져야 하며, 비즈니스와 연결돼야 비로소 가치가 창출된다. 데이터 기반의 객관성, 개인화와 같은 개별성, 개선되고 발전되는 지속성 등 세 가지가 분석 목적이 된다. 비즈니스 쪽에서부터 이에 대한 니즈가 있어야 한다. 현업에서는 실제로 어떤 도움이 되는지 알기 힘들 수 있으므로, 분석가들이 활용사례를 공유하는 장이 많아져야 한다. 또 의사결정권자가 목적과 가치를 이해하는 것이 이상적이나, 국내의 경우 경영진들이 빅데이터를 들어는 봤어도 대부분 제대로 모른다. 경영진들을 위한 체계적인 교육도 필요하다.

제조 분야에서 다양한 분석 프로젝트를 수행해왔던데.

데이터 분석 및 활용을 통한 제조공정 최적화에 대해서는 꾸준히 연구해오고 있다. 최근에는 품질 제고 및 수요 예측에 관심을 두고 있다. 제조업체가 생각하는 품질과 소비자가 받아들이는 품질은 다를 수 있다. 품질 확보를 위해 공정에서 여러 검사와 조치가 행해지지만 결국 A/S는 따로 이뤄지고 있지 않나. 유명 셰프가 요리했어도 고객들의 입맛에 안 맞으면 소용없는 것처럼, 공정에서 제조 불량이 없었다고 해도 고객들이 불편을 겪는다면 품질에 문제가 있다고 봐야 한다.

이 간극을 좁히려면 제조공정에서 생성되는 데이터와 A/S과정에서 얻게 되는 데이터를 함께 분석해서 연관성을 찾아야 한다. 이를 위해서는 기술적인 측면에서도 극복해야 할 부분이 있겠지만, 무엇보다 기업 내부적인 이슈부터 해결할 필요가 있다. 각 부서별로 해당되는 영역이 존재하니 어느 곳에서 이를 주도해야 할지, 필요한 데이터들을 어떻게 관리해야 할지, 또 평가는 어떻게 이뤄져야 할지 등에 대해 교통정리가 돼야 한다. 이는 제조사와 서비스사 또는 부품회사 간에도 마찬가지로 적용된다.

궁극적으로는 수요예측을 위해 데이터의 공급망이 구축돼야 한다. 대부분의 제조사들은 데이터의 공유를 부분적으로 제한하고 있어서 협력사들로서는 관련 계획을 세우는 것부터 어려움을 겪고 있다. 제조사 입장에서도 다양한 곳에서 얻는 데이터를 활용하면 보다 명확한 의사결정이 가능해지므로, 내부적인 장벽들을 허물고 데이터 파이프라인을 형성해야 한다. 스페인 패션브랜드 자라(Zara)의 성공에는 이러한 노력이 뒷받침됐다는 것은 잘 알려진 사실이다.

정부3.0을 통해 공공데이터가 개방되고 있다. 보완할 점이 있다면.

정부 입장에서는 어떤 데이터를 어떻게 공개해야 좋을지 알기 어렵다는 점이 문제고, 민간 입장에서는 많은 데이터 중에 정작 쓸 만한 것은 찾기 어렵다는 점이 문제다. 이를 해결하기 위해서는 정부와 실수요자 간 소통이 보다 원활하게 이뤄질 필요가 있다. 예를 들어 특정 주제를 놓고 관련 기관들과 실수요자들이 한곳에 모여 어떤 데이터를 보유 중인지 메타데이터를 공개하고 이에 대한 요청도 구체화하는 과정을 지속하다보면 보다 실질적인 활용사례가 발굴될 것으로 사료된다.

개인정보 보호 문제나 이해관계 때문에 공개되지 못하는 공공데이터들도 적지 않다. 개인정보 보호 문제는 공익과 저울질하게 돼있다. 성범죄자를 인터넷에서 열람할 수 있는 것처럼 프라이버시보다 귀중한 가치를 위해서는 데이터를 개방할 수 있다고 보며, 그 기준에 대해서는 사회적 공감대가 형성돼야 할 것이다. 또 범죄, 침수, 공해 등의 데이터가 공개되면 일부 지역의 집값에 영향이 갈 수밖에 없겠지만, 하물며 FTA를 맺을 때도 더 큰 국익을 위해 농민들의 손해를 감수하지 않았나. 이렇게 이해관계가 결부되면서 데이터 개방에 차질을 빚는 부분도 공론화해 지속적으로 개선해나가야 한다.

한편, 빅데이터의 대두에 따른 ‘빅브라더’ 문제는 기우라고 여겨진다. 단, 정부나 기업에서 법을 준수한다는 전제하에서의 이야기다. 신호위반으로 교통사고가 났다면 빨간불에 정지하지 않은 해당 차량이 잘못한 것이지, 이 때문에 전체 차량 운행 자체를 금하지는 않는다. 데이터의 제공과 관리 및 활용 등에 대해 사회적인 공감대를 바탕으로 명확한 기준을 세우고 이를 지키는 것부터 신경 써야 한다.

데이터 사이언티스트가 되려면 어떤 역량이 필요한가.

데이터 사이언티스트가 되기 위해서는 분석할 데이터를 컴퓨터로 마련하는 능력, 이를 통계나 기계학습을 통해 분석하는 능력, 그 결과를 비즈니스에 적용하는 능력 등 크게 세 가지 역량이 필요하다. 컴퓨터공학, 통계학, 산업공학, 경영학 등 다양한 학문에 걸쳐 역량이 요구되는 셈이다. 이를 개인이 다 갖추기는 힘들고, 데이터 사이언티스트 팀을 꾸리는 것이 현실적인 방법이다. 각각 특정 영역에 대한 전문적인 역량을 무기로 삼으면서 나머지 다른 영역에 대해서도 기본적인 소양을 갖춰 서로 소통할 수 있으면 된다.

이 같은 맥락으로 데이터 사이언티스트로서 업무수행 시 가장 중시되는 역량은 커뮤니케이션 능력이다. 소통하면서 각자의 전문역량이 융합돼야 팀의 존재의의가 있기 때문이다. 더욱이 그 결실을 바탕으로 의사결정권자를 비롯해 여러 조직들을 설득하려면 커뮤니케이션 능력은 필수적이다. 속칭 ‘공돌이’들은 말하기와 글쓰기 능력이 아쉬운 경우가 많은데, 이는 그들의 앞길에 한계로 작용하기도 한다. 개인적으로는 공대생들에게 문과생들이 많은 동아리에 들어 다양한 경험을 쌓으라고 권하고 있다. 커뮤니케이션 역량은 스스로 키워나갈 수밖에 없다.

프로그래밍언어의 경우 한 가지라도 무기로 삼기를 권장한다. 개인적으로 파이썬(Python)을 추천하고 있으며, 문과생들도 익혔으면 한다. 파이썬이 어렵게 느껴진다면 R도 좋다. 요즘 들어 초중고 SW교육이 본격적으로 추진되고 있지만 사실 이것도 늦은 감이 있다. 분석 전문가와 도메인 전문가가 시너지를 내야 가치가 창출되는데, 교육이 문과와 이과로 나뉘어 있었다보니 이공계 배경이 없는 곳에서는 SW나 데이터 분석에 대한 이해 자체가 부족한 경우가 적지 않다. 좀 더 친근하게 다가설 수 있도록 교육이 바뀌어야 한다.

국내 데이터 사이언티스트 부족이 문제로 지적되고 있다.

국내에는 데이터 분석 전문인력 자체가 태부족이다. 유수의 기업들도 컨설팅해보면 사람 없다고 난리다. 이를 해결하기 위해 본격적으로 양성에 나서야 하는데, 빅데이터와 데이터 사이언스가 기존 여러 학문에 걸쳐 일정부분씩 해당된다는 점이 문제다. 미국의 경우 빅데이터 석사과정 등을 신설하며 시장과 산업의 니즈에 따라 유연하게 대처하고 있는 반면, 우리 대학 교육은 시장이나 산업과는 다소 유리된 시스템을 유지하고 있다.

특히 상당수 대학들이 수도권 대학 정원 규제에 묶여 이러한 수요에 대응하지 못하고 있는 점이 문제다. 기존 학과들 간의 탄력적인 정원조정을 통해 자체적으로 해결할 수 있다면 좋겠지만, 여러 이해관계가 얽히는 사안이라 상당한 마찰을 빚게 될 수밖에 없다. 수도권 내 급증하고 있는 빅데이터 및 데이터 사이언스 관련 수요에 대응하기 위해서는 필요 시 대학의 전체 정원을 늘리는 것이 지름길이다. 수도권 대학 정원 규제를 손볼 필요가 있으며, 이에 대한 논의가 요구되는 시점이다.

인터뷰를 마치면서 조성준 서울대학교 산업공학과 교수는 “교육자로서 데이터 사이언티스트 양성은 물론, 비즈니스 의사결정권자들이나 공공 분야를 대상으로 한 눈높이 교육에 본격적으로 나서고자 한다”고 밝혔다. 단순히 정보를 습득하는 수준을 넘어 직접 분석과정을 체험해봄으로써 각자 필요로 하는 가치를 찾을 수 있도록 돕는다는 계획이다.

아울러 조성준 교수는 국내 기업들의 경쟁력 제고를 위한 다양한 활동도 계속할 생각이다. “데이터를 활용해 좀 더 객관적이고 개별적이며 연속적인 가치를 제공해 ROI로 이어질 수 있도록 돕고자 한다”면서 조 교수는 “빅데이터로 우리 기업들의 경쟁력을 더욱 높이고 싶고, 청년들을 위한 일자리도 많이 마련하고 싶다”는 바람을 이야기했다. 그의 바람이 이뤄지는 날이 앞당겨지기를 기대해본다.

상단영역

본문영역

[데이터사이언티스트를 찾아서] “빅데이터는 수단일 뿐, 분석 목적 잊지 말아야”

조성준 서울대학교 산업공학과 교수

관련기사

기사 댓글 0

비회원 로그인