조성준 한국BI데이터마이닝학회 회장


▲ 조성준 한국BI데이터마이닝학회 회장



데이터마이닝은 대량의 데이터로부터 의미 있는 패턴이나 룰을 추출하는 분석 방법이다. 각종 데이터가 매일매일, 아니 매 순간 엄청나게 쏟아지고 있다. 그야말로 빅(Big) 데이터 시대라고 할 수 있다. 그러나 그런 수많은 데이터들이 과연 얼마나 쓸모 있는지에 대해서는 의문이다. 그래서 주목 받고 있는 게 데이터마이닝이다. 즉 각 부문에서 생성되고 있는 각종 데이터를 분석해 의미 있는 정보를 추출해서 이를 경영에 필요한 의사결정에 정확한 기본 데이터로 사용할 수 있도록 한다는 것이다. 의사결정에 데이터가 결정적인 역할을 하기 때문이다. 때문에 미국의 타임지는 21세기에 가장 유망한 직종 가운데 하나로 데이터마이너를 5위에 올렸고, MIT에서 발간하는 테크놀로지리뷰지는 향후 떠오르는 기술 분야로 데이터마이닝을 1위와 9위에 올렸다.
조성준 한국BI데이터마이닝학회 회장이자 서울대학교 산업공학과 교수는 데이터의 가치와 중요성을 널리 알리는 전도사로 평가되는 대표적인 인물로 손꼽힌다. 그는 데이터마이닝을 널리 알리기 위해 대학진학을 앞 둔 고등학교 학생들을 대상으로 매년 여름방학과 겨울방학에 '데이터마이닝 캠프'를 열고 있는데, 매 회마다 학생들의 신청이 쇄도해 참가인원을 한정시키고 있을 만큼 주목을 받고 있다. 조성준 교수는 "사실 고등학생들이 데이터마이닝에 높은 관심을 가질 것이라고는 미처 생각하지 못했었고, 다만 데이터의 중요성이 필요하기 때문에 고등학생 때부터 그것을 알아야만 향후 진로를 선택하는데 큰 도움이 될 것이라는 단순한 생각에서 시작했다. 그것은 착각이었다"고 지적했다. 고등학생들을 대상으로 한 일개 캠프에 불과할지 모르지만 고등학생들이 데이터의 중요성을 깨닫고, 이를 잘 활용할 수 있는 미래의 일꾼들로 성장발전할 수 있는 그 기틀을 마련해 준다는 데 상당한 의미가 있다고 할 수 있다. 사실 데이터의 중요성은 이미 잘 알려져 있다. 하지만 대다수 기업이나 기관, 그리고 사람들은 그 중요성을 피부로 느끼고 있지 않고 있는 게 현실이다. 남의 일처럼 생각하고 있는 것이다. 그러나 데이터를 어떻게 활용하느냐에 따라 비즈니스 성공여부가 달려있는 만큼 데이터의 중요성과 가치는 아무리 강조해도 부족하지 않다. 조성준 교수를 만나본다.

데이터마이닝 캠프에 고등학생 대거 몰려

지난달에도 8회 데이터마이닝 캠프를 열어 성공리에 마쳤다. 데이터마이닝 캠프 대상이 고등학생들인데, 특별한 이유라도 있는지요.

▶ 빅(Big) 데이터 시대라서가 아니라 매 순간 쏟아지는 데이터는 상당히 중요할 뿐만 아니라 가치가 있습니다. 또한 데이터의 중요성은 널리 알려져 있지만 그것을 어떻게 활용하는지에 대해서는 잘 모르고 있습니다. 특히 고등학생들이 대학 진학을 위해 공부를 열심히 하고 있지만 본인의 적성에 적합한 학과를 선택해야만 하는지에 대해서는 정확하게 모르고 있습니다. 대다수 선생님이나 부모님들의 권유, 그리고 수학능력시험 점수에 따라 전공학과를 선택하고 있는 게 현실입니다.
데이터의 중요성이나 가치, 그리고 활용범위를 안다면 고등학생들이 전공학과를 선택하는 데 많은 도움이 될 것으로 판단됩니다. 데이터마이닝은 대량의 데이터로부터 의미 있는 패턴이나 룰을 추출하는 분석방법인데, 오늘 날 재무, 소매, 마케팅, 제조 분야 등 각 산업에서 데이터가 대량으로 생성되고 있습니다. 이러한 각종 데이터를 잘 분석해 의미 있는 정보를 추출해 경영을 하는데, 의사결정에 결정적인 역할을 하도록 활용하는 것입니다. 앞으로는 더 많은 데이터가 생성되므로 미래 전망 또한 매우 밝습니다.
이에 따라 서울대학교와 한국BI데이터마이닝학회는 대학진학을 앞 둔 고등학교 학생들에게 미래형 연구응용 분야이자 학제 간 분야인 데이터마이닝에 대해 소개하고자 '데이터마이닝 캠프'를 시작하게 된 것입니다.
향후 데이터마이닝은 정치학, 경제학, 사회학, 경영학, 언론정보학, 심리학, 의학, 생명과학, 약학, 컴퓨터공학, 전기전자공학, 화학공학, 산업공학, 경영공학 등 다양한 분야에서 활용될 것입니다. 특히 이러한 학문에 관심 있는 학생들에게는 상당한 도움이 될 것입니다. 사실 캠프를 시작할 때 고등학생들이 데이터마이닝에 높은 관심을 가질 것이라고는 미처 생각하지 못했었습니다. 한 10명이나 등록을 할 까? 라는 생각을 했었습니다. 그러나 그것은 착각이었습니다.

대학교 진학 정보 크게 부족 때문

지난해 2월 처음 시작한 데이터마이닝 캠프는 서울을 중심으로 6개 광역시 고등학교를 대상으로 캠프 참여 공문을 보냈는데, 당초 예상을 깨고 1,000명을 넘는 신청을 해 인원을 제한하기까지 했습니다. 한 마디로 폭발적인 반응이었다고 할 수 있습니다. 그 동안 고등학생들이 대학 진학을 위해 공부를 열심히 했지만 각 학과에 대한 정보, 다시 말해 어떤 학과가 무엇을 하는 곳이고, 또한 어떻게 해야만 미래 자기만의 학문이나 직업을 가질 것인가에 대한 지식이 크게 부족했던 것입니다.
고등학생들을 대상으로 한 일개 캠프에 불과할지 모르지만 고등학생들이 데이터의 중요성을 깨닫고, 이를 잘 활용할 수 있는 미래의 일꾼들로 성장 발전할 수 있는 그 기틀을 마련해 준다는 데 상당한 의미가 있다고 할 수 있습니다.
흔히 데이터마이닝이라고 하면 기업 또는 기관들이 어떤 목적, 예를 들어 비즈니스에 활용하기 위한 정보로만 활용하는 것으로 알고 있는데, 고등학생들을 대상으로 캠프를 열었고, 그 캠프에 높은 관심을 보인 것은 일반적인 상식의 허를 찔린 셈입니다.
사실 고등학생들이 대학에 진학하면서 전공을 정할 수 있는 정확하고, 상세한 정보가 그렇게 많지 않습니다. 컴퓨터도 제대로 배우지 않고, 컴퓨터는 프로그램만 짜는 것으로만 인식한다면 그것은 크게 잘못됐다고 봅니다. 고등학교 교육과정이 30년 전과 크게 달라진 게 없다는 것도 큰 문제점 가운데 하나라고 봅니다.

Big 데이터 시대, Fact가 기본

그렇다면 데이터마이닝 캠프가 고등학생들에게 무엇을 얼마나 도움을 줬다고 보시는지요.

▶ 참여한 학생들로부터의 피드백이 한결같이 "너무 좋다"는 반응입니다. 참가했던 학생이 다시 오는 경우도 있고, 그 동안 몰랐던 사실을 알게 돼 미래 진로에 대한 의사결정에 많은 도움이 됐다는 반응입니다. 특히 질의응답 시간에는 학부모님도 참여할 수 있는데, 학부모님들의 참석이 예상을 뛰어넘고 있을 만큼 관심이 높습니다.
데이터마이닝을 공부하겠다고 하면 주로 통계학과, 산업공학과, 컴퓨터공학과를 선택하는 게 맞습니다.

그야말로 빅 데이터 시대라고 합니다. 즉, 데이터를 어떻게 활용하느냐에 따라 비즈니스 성공여부를 파악할 수도 있다고 하는데, 어떻게 준비하고, 대응해 나가야 한다고 보시는지요.

▶ 맞습니다. 빅 데이터 시대라고 할 수 있지요. 최근 대우조선해양 연구 프로젝트 가운데 하나가 데이터를 어떻게 활용해야만 비즈니스를 성공적으로 이끌어 나갈 수 있을지에 대한 연구를 자문해 준 적이 있습니다. 의사결정에 가장 큰 도움이 되는 것은 데이터이고, 그 데이터는 품질(Quality)이 좋아야 하는데, 사실 품질이 좋은 데이터가 얼마나 되는지는 의문입니다.
사실 정부를 비롯한 금융, 통신, 그리고 제조 기업들에 이르기까지 많은 기관과 기업들이 그 동안 전산화를 추진해 왔고, 각종 데이터들을 데이터베이스화 해 놓고 있지만 핵심 요소인 데이터에 대한 품질이 얼마나 좋은가? 라는 데는 의문이라고 할 수 있습니다. 아마 모르긴 몰라도 기존 데이터들을 모두 다 버려도 아무런 문제가 발생하지 않을 것입니다. 그만큼 데이터의 품질이 떨어진다는 말입니다. 미국도 마찬가지일 것입니다. 다만 그나마 잘 돼 있는 분야는 금융과 통신에 불과합니다.
경영의 의사결정에 도움을 줄 수 있는 컴퓨팅 환경을 구축하려면 무엇보다도 데이터의 품질을 높여야 합니다. 그래야만 그런 데이터들을 중심으로 분석하고, 의미 있는 정보를 추출해 의사결정에 도움을 줄 수 있다고 봅니다.
조작된 데이터를 바탕으로 분석한다면 의사결정 역시 잘못할 수밖에 없는 것 아니겠습니까?
과거에는 손으로 기록을 했기 때문에 데이터를 조작할 가능성이 높았고, 그만큼 품질이 떨어졌다고 할 수 있습니다. 그러나 이젠 센서를 통해 자동으로 생성되는 데이터, 예를 들어 전화나 신용카드 등을 통해 모아진 데이터는 조작이 안 되기 때문에 데이터의 품질이 높다고 할 수 있습니다.
백화점을 이용하는 고객들의 각종 구매 데이터를 분석한다면, 어떤 고객이 어떤 제품을 선호하고, 얼마나 이용하는지 등에 대한 분석을 정확하게 할 수 있을 것입니다. 이에 따른 비즈니스 방향을 결정할 수도 있는 것입니다. 아무튼 데이터를 비즈니스에 활용하기 위해서는 데이터를 수집 활용하는 측에서 기준이나 규정 등을 정해 관리하는 게 가장 적합한 방법이라고 할 수 있습니다.

'데이터 마이너'는 21세기 유망 직종

국내 기업들은 BI시스템을 갖췄다고 하지만, 그것을 어떻게 활용하는지에 대해서는 의문입니다. 제대로 활용하기 위해서는 무엇을 어떻게 해야만 한다고 보시는지요.

▶ 사실 BI는 투자 후 몇 년이 지나야 수익여부를 판단할 수 있습니다. 그런데, 대다수 기업들은 6개월, 또는 단기간에 수익여부를 따지는 경향이 짙습니다. 특히 담당 임원들은 오랫동안 그 자리에 있는 게 아니기 때문에 단기간의 수익을 먼저 고려해야만 하는 게 당연할 수 있습니다. BI를 제대로 활용하기 위해서는 최고경영자 또는 오너가 의지를 갖고 추진하지 않으면 쉽지 않습니다.
BI는 작년에 무엇이 있었는지를 파악해 보는 것이고, 데이터마이닝은 내년에 어떻게 전개될지를 사전에 예측해 보는 것입니다. 한 마디로 예측 분석하는 게 데이터마이닝인데, 그것을 정확하게 하기 위해서는 정확한 데이터가 기본입니다. 다시 말해 전년 고객이 올해도, 내년에도 고객이 될수 있는지를 파악해 보는 것입니다.

한국BI데이터마이닝학회 회장직까지 맡고 있는데, 역점을 두고 추진하는 것은 무엇인지요.

▶ 데이터마이닝과 관련 지식을 가르치는 학문이 통계학과, 산업공학과, 컴퓨터공학과 등의 3개 학과로 나눠져 있습니다. 해서 관련 학과 교수들이 모여 의견을 교환할 수 있는 교류 기회를 갖고 상호도움을 받자는 것입니다. 여러 학문 학자들이 모여 연구하다보면 그만큼 학문의 폭과 깊이가 넓어집니다.
최근에는 회원 교수들이 기업체를 대상으로 강의를 하는 등의 활동도 하고 있습니다. 데이터의 중요성과 가치를 널리 알리고, 데이터를 비즈니스에 어떻게 활용해서 생산성이나 효율성을 높이는 지에 대한 지식이나 정보를 제공해주는 것입니다.
학회 회원은 200여명이고, 1년에 두 번 정기적인 모임을 갖고 있습니다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지