이영섭 동국대학교 통계학과 교수 / 한국BI데이터마이닝학회 회장

[컴퓨터월드] 4차 산업혁명의 물결이 거세게 일고 있다. 인공지능, 빅데이터, 사물인터넷, 로봇 등을 중심으로 관련 산업이 당초 예상을 뛰어넘어 빠르게 성장할 조짐이다. 그러나 우리나라의 4차 산업혁명 경쟁력은 지난해 말 기준으로 세계 19위라고 한다. 2016년 25위에서 6단계 뛰어 올라 우리나라가 4차 산업혁명에 빠르게 대응하고 있다는 것으로도 해석되지만, OECD 35개 국가 중 중하위권에 속한다.

아무튼 4차 산업혁명의 핵심 아이템들은 데이터를 기본으로 하고 있다. 데이터가 그만큼 중요하다는 것이다. 컴퓨터가 발달하면서 대용량의 데이터를 축적과 처리를 하게 됐고, 이젠 이를 활용해 또 다른 분야로 빠르게 발전해 나가고 있는 것이다. 때문에 데이터의 중요성은 아무리 강조해도 지나치지 않을 것이다. 데이터를 4차 산업혁명의 ‘원유’라고 하는 이유가 바로 여기에 있다. 원유를 정제해 휘발유, 경유, 등유 등으로 용도에 따라 분류해 내듯이 데이터를 중심으로 인공지능, 빅데이터, 사물인터넷, 로봇 등 다양하게 활용되고 있는 것이다.

본지는 이에 따라 한국인으로는 처음으로 데이터마이닝 통계학 박사학위(미 럿거스대학교(Rutgers University), 뉴저지주립대)를 받았고(1999년), 한국BI데이터마이닝학회 회장을 맡고 있는 동국대학교 이영섭 통계학과 교수를 만났다. 그는 관련 분야에서는 내로라 할 만큼 잘 알려진 데이터 통계 전문가로 정평이 나 있다. 데이터를 어떻게 활용해야만 4차 산업혁명을 성공적으로 이끌어 나갈 수 있고, 우리나라가 세계 시장을 주도해 나갈 수 있을 것인지 짚어봤다.

▲ 이영섭 동국대학교 통계학과 교수 / 한국BI데이터마이닝학회 회장


AI, 빅데이터, BI 등의 뿌리는 ‘데이터’

- 4차 산업혁명의 핵심 아이템이라 할 수 있는 인공지능, 머신러닝, 딥러닝, 빅데이터, BI 등은 상호 어떤 연계성을 갖고 있나.

“인공지능은 인간의 지능을 컴퓨터로 구현하는 것을 말하고, 머신러닝(기계학습)은 이러한 인공지능을 위해 컴퓨터로 모델링(모형구축)하는 모든 행위를 말한다. 딥러닝은 머신러닝 기법 가운데 특히 인공신경망 기법을 기반으로 해 학습의 정밀도를 높이는 알고리즘을 말한다. 이러한 복잡한 러닝(학습)기법들은 컴퓨터의 발달로 인하여 전에는 처리할 수 없었던 대용량의 데이터를 처리할 수가 있게 됐다. 이 때부터 빅데이터라는 용어가 출현했다. 이러한 분석결과를 각 비즈니스의 요구에 맞는, 다시 말해 의사결정에 도움을 주는 시스템을 BI(Business Intelligence)라고 할 수 있다. 인공지능, 머신러닝, 딥러닝으로 표현할 수 있으면, 이를 위해 빅데이터가 필요하고, 이것을 비즈니스에 연결시켜주는 것이 BI라고 할 수 있다.”


- 4차 산업혁명을 주도하기 위해서는 어떻게 하는 게 좋다고 보는가.

“첫째, 민관학연이 함께 참여하여 국가 중장기 계획을 수립하여야하고, 둘째는 데이터 기반의 산업육성, 셋째는 이를 분석할 수 있는 인력양성, 넷째는 성공한 결과보다도 실패한 결과도 인정해주는 사회적인 분위기 조성이 중요하다. 마지막으로 당장의 가시적인 결과가 나오지 않더라고 장기적인 관점에서 바라보는 지혜가 필요하다고 생각한다.”


- 4차 산업혁명과 관련, 우리나라 기술 수준은 어디까지 와 있다고 보는가.

“2016년 세계경제포럼에서 4차 산업혁명을 의제로 삼으면서 세계적으로 관심을 갖기 시작했다. 이의 주요 기반 기술로는 사물인터넷, 빅데이터, 인공지능, 로봇공학 등을 꼽고 있다. 2017년 12월 한국무역협회 국제무역연구원의 4차 산업혁명 경쟁력 순위 분석에 의하면 싱가포르(1위), 미국(3위), 영국(8위), 독일(13위), 대만(14위), 일본(15등) 등의 순으로 나타났다. 우리나라는 19위라고 한다. 우리나라의 기술력 수준은 미국, EU 국가대비 80% 정도라고 생각한다. 다시 말해 우리나라는 기술력이 있기 때문에 지금부터라도 이에 집중한다면 세계 시장을 주도할 가능성도 충분하다고 본다.”

데이터는 21세기의 ‘원유’

- 4차 산업혁명의 기본은 데이터에 있다고 본다. 그렇다면 얼마나 정확한 데이터를 얼마나 많이 확보하고 있느냐가 성공의 관건인데, 우리나라는 이에 대한 확보가 그렇게 많지 않다는 지적이다.

“데이터를 21세기의 원유에 비유한다. 그만큼 데이터가 중요하다는 의미이다. 그러나 이러한 데이터도 잘 정제되어야 의미가 있지, 만약 잘못 정제된 데이터로 모형을 구축한다면 그 결과는 미스리딩(misleading, 오해하게 되는) 되기 쉽다. 따라서 데이터의 품질관리가 무엇보다도 중요하다고 생각한다. 현재 우리가 분석할 수 있는 데이터는 어디에나 존재한다고 생각한다. 다만 데이터가 어디에 있고, 어떤 데이터들이 존재하는지에 대한 지도화(mapping)가 잘 안 돼 있다, 그래서 데이터 지도화와 올바르게 정제된 데이터를 위한 데이터 품질관리 또는 전처리과정에 더 많은 노력과 연구가 필요하다고 생각한다.”


- 데이터마이닝으로 박사학위를 받으신 국내 최초의 인물로 평가받고 있다. 데이터마이닝과 BI, 4차 산업혁명 등과 연계해 무엇이 얼마나 다르고, 어떤 차이점이 있는가.

“빅데이터 분석기법, 기계학습기법, 데이터 마이닝 기법 등이 비슷비슷하다고 본다. 다만 연구자의 백그라운드에 따라 다른 용어를 사용할 뿐이라고 생각한다. 또한 4차 산업혁명 시대에 빅데이터 분석을 위하여 기존의 데이터마이닝 기법을 사용하며, BI를 여전히 사용하리라고 생각한다. 시대에 따라 용어는 약간 변할 수 있지만, 데이터 기반의 분석기법, 그것을 효율적으로 표현하는 BI 시스템 등은 4차 산업혁명 시대에도 여전히 중요하다고 생각한다.”


- 한국BI데이터마이닝학회 회장으로서 4차 산업혁명에 대한 학계의 입장은 어떤가.

“앞서 언급한 바와 같이 4차 산업혁명의 개념은 산업계(특히 제조업), 정부, 금융 분야에서 많이 거론되고 있다. 데이터마이닝, BI, 빅데이터 등의 시대를 거쳐 이제는 4차 산업혁명이라는 용어가 화두로 떠오르고 있다. 학계에서는 4차 산업혁명이라는 용어가 또 언제 사라질지 모르는 거품이 아닐까 우려하고 있다. 그러나 용어의 변화에 상관없이 그 밑바탕을 이루어 근원적인 이론이나 원천기술을 개발하는 것이 연구자의 역할이라고 생각한다. 우리 사회가 발전하고 지속적인 성장을 위해서는 학계에서의 다양한 근원적인 연구가 필수적이라고 생각한다.”


- 구글이 텐서플로우(Tensorflow)를 공개했음에도 불구하고 국내에서는 이를 이해할 수 있는 인력이 부족해 활용하지 못하고 있다는 지적이다.

“현재 국내의 텐서플로우를 잘 사용하는 프로그래머나 분석가가 적은 것은 사실이다. 그러나 모든 프로그램이나 패키지가 그렇듯이 다른 프로그램 언어를 잘 사용할 수 있다면 프로그램의 원리는 비슷하기 때문에 최신의 프로그램 언어를 습득하는 것은 어렵지 않다. 또한 최근의 모든 프로그램은 오픈소스이기 때문에 인터넷으로 얼마든지 습득하고 배우는 것이 가능하다. 따라서 텐서플로우를 잘 사용하는 인력이 부족하다는 것은 큰 문제가 아니다. 다시 말해 선진국 또는 선도기업과의 차이는 크지 않다고 할 수 있다. 다만 기본적인 딥러닝 알고리즘을 잘 이해할 수 있는 교육과정이 많이 개설되어야 한다고 생각한다.”


데이터마이닝 통계학 박사 국내 1호

- 정부는 국내 지능정보 산업에 대한 적극적인 지원의사를 표명하고 있다. 육성과 발전이 제대로 이뤄지려면 어떻게 하는 게 좋다고 보는가.

“인력양성과 국가 공공데이터의 개방이다. 특히 공공데이터는 수요자의 요구수준에 맞는 형태의 맞춤형 데이터 개방이 필요하다고 본다. 개인정보 보호와 활용에 대한 법제도화도 중요하다.”


- 지난 2월 한국BI데이터마이닝학회 회장을 맡았다. 어디에 역점을 두고 활동할 계획인가.

“이제 막 회장임기(2년)를 시작했다. 학회는 국내의 데이터마이닝을 전공하거나 관심이 많은 학자와 연구자 중심의 학회이다. 주로 통계학, 산업공학, 컴퓨터학, 경영정보학, 경영학, 그리고 연구소와 기업 관계자들이 주 회원이다. 신진학자들을 회원으로 좀 더 확보하고 싶다. 그리고 산학연이 같이 할 수 있는 융합사업도 추진해 시너지를 낼 수 있는 사업도 확장해보고 싶다.”


- 빅데이터 시대에 기업이 가공한 개인정보의 소유권이나 프라이버시 침해에 대한 이슈도 제기되고 있는데, 어떤 시각인가.

“개인정보 보호와 활용은 다른 문제라고 생각한다. 개인정보는 보호되어야 하지만, 또한 삶의 질 향상을 위해서는 활용도 되어야 한다. 개인정보가 활용되면 마치 개인정보가 보호되지 않고, 반대로 개인정보를 보호하려면 개인정보를 활용해서는 안 된다는 이분법적인 사고는 안 된다고 생각한다. 우리나라는 개인정보에 대한 법이 너무나 엄격하다. 미국에서는 하지마라고 지정 되지 않은 것이면 다 활용가능하나 우리나라는 해라 하는 것 제외하고는 하면 안 되는 그런 방식이다.”

“개인적인 생각이지만 개인정보 활용법은 이렇다. 질병관리본부나 이런데서 자기 유전자 정보나 개인정보를 줌으로써 이게 활용이 된다는 것을 국민들이 인식을 하면 된다. 예를 들어 안젤리나 졸리에게 자료를 주면 내가 언제 유방암에 걸리겠구나 하고 미리 대처를 할 수 있다. 그것은 곧 개인정보를 모두 넣어야 내 병을 분석하고 예측도 할 수 있다. CCTV도 그렇다. 개인 동선이 다 파악돼 사생활 침해라는 지적도 나왔다. 그러나 CCTV로 인해 범인들을 잡아 낼 수 있는데 활용되기도 한다. 따라서 CCTV를 서로 자기 동네에 설치해 달라는 요구도 많다. 개인정보문제는 법으로 해결되어야 한다.”

                                                ▲ “교수는 명예를 좇는 사람”

이영섭 교수가 미국에서 데이터마이닝으로 박사학위를 받을 당시 관련 분야가 가장 주목을 받았다고 한다. 그럼에도 그는 기업으로부터 거액의 연봉을 거절하고 대학교 교수직을 택했다고 한다. 그는 그런 인물이다. 천직으로 생각한 교수직에 책임을 다 하는 인물인 것이다. 학생들로부터 가장 인기 있는 인물로 손꼽히는 비결이 여기에 있었다.


BI의 트렌드는 ‘클라우드’

- BI의 전 세계적인 트렌드와 방향은.

“데이터를 불러와서 분석하는 것이 아니라, 데이터가 저장된 곳에서 분석을 하는 방향으로 점점 나아감에 따라 클라우드로 전환하는 추세이다. 두 번째는 BI가 과거나 현재의 상태를 분석하는 기술적 분석이라면 BA는 예측분석, 또는 처방적 분석이라고도 한다. BI는 BA(비즈니스분석) 기술을 도입함으로써 좀 더 BI의 범위를 확장하는 것이 필요하다고 생각한다. 세 번째는 BI가 BA로 확장함에 따라 BA기술을 접목한 고급분석기법들의 저변화가 확대될 것이라고 생각한다.”


- 데이터 시대에 진정한 IT강국이 되기 위해서는 어떻게 하는 게 좋다고 보는가.

“코드교육, 실패를 인정하는 문화, 실제 데이터를 가지고 분석을 해보고 경험을 쌓는 것이 중요하다고 본다. 특히 어떤 툴을 사용할 줄 아느냐가 중요한 게 아니라 데이터를 바라보는 진지한 능력이 중요하다고 생각한다. 즉, 데이터를 보고 뭔가를 찾아내겠다는 탐정가와 같은 자세가 중요하다고 생각한다. 또한 다른 분야와의 상호 융합을 통해 시너지 효과를 내는 것도 중요하다고 생각한다.”


한편 이영섭 회장은 통계학 전공자로서 데이터 마이닝으로 박사학위를 받은 국내 첫 인물로 국가통계위원회 통계데이터분과위원장을 비롯해 민관합동 빅데이터 TF팀 민간위원, 통계청 빅데이터 통계 전략 포럼 위원, 국가온실가스통계관리위원회, 기상청 기상기후 빅데이터 IT/경제분과위원 등 각 분야에서 데이터와 관련된 다양한 활동을 펼치고 있다.

그런 공로를 인정받아 지난 2014년 3월에는 세계기상의 날에 국무총리상을 수상했고, 지난해 12월에는 행정안전부로부터 공공빅데이터활용활성화와 정부혁신 공로를 인정받아 행정안전부장관 표창도 받았다.

사실 그는 미국에서 박사학위를 받고 글로벌 기업인 NCR연구소에 입사, 한국지사 요청으로 국내 통신회사인 KTF의 데이터 마이닝 프로젝트를 수행한 바 있다. 다시 말해 그는 당시 국내 굴지의 기업들로부터 높은 연봉을 내세워 스카웃 제의를 받았으나 거절하고 대학교수를 택했다. 학생들을 가르치는 게 더 적성에 적합하다고 판단했기 때문이라고 한다.

그래서인지 이 교수는 학생들로부터 가장 인기 좋은 교수로 손꼽힌다고 한다. 인터뷰를 진행하는 동안에도 그는 재미있는 유머를 섞은 답변을 해 웃음이 그치지 않았다. 그에게는 교수직이 천직임을 알게 됐다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지