본지, 제16회 ‘2019 BI컨퍼런스’ 개최

[컴퓨터월드] 본지(컴퓨터월드 / IT DAILY)가 지난달 11일 ‘제16회 BI(Business Intelligence) 컨퍼런스’를 삼성동 코엑스 그랜드볼룸에서 개최했다. ‘사례를 통해 본 AI & BI’라는 주제로 열린 올해 BI 컨퍼런스에서는 인공지능(AI)과 맞물려 새로운 방향으로 빠르게 발전 중인 BI의 현주소를 살펴볼 수 있는 다양한 세션들이 준비됐다.

BI는 이제 AI 기술의 발전과 함께 새로운 모습으로 빠르게 발전하고 있다. 즉, BI는 AI라는 날개를 달고 협업지능(CI)으로 진화, 한층 더 똑똑하고 편리하게 비즈니스를 돕고 있다. 또한, 최근 AI 및 빅데이터 산업을 둘러싸고 미·중의 패권경쟁이 치열해지고 있는 상황에서, 데이터의 효율적이고 적절한 관리 및 활용은 우리 기업에게도 중요한 역량으로 강조되고 있다. 본지가 한국데이터마이닝학회와 공동으로 주최, BI 분야를 대표하는 국내외 14개 기업들이 참가한 이번 ‘2019 BI 컨퍼런스’의 주요 내용을 정리했다.

 

“AI, BI를 넘어 CI로 나아갈 것”
-
이영섭 한국데이터마이닝학회장 / 동국대 통계학과 교수

▲ 이영섭 한국데이터마이닝학회장 / 동국대 통계학과 교수

2019 BI컨퍼런스는 한국데이터마이닝학회 학회장을 맡고 있는 이영섭 동국대학교 통계학과 교수의 환영사로 시작했다. 이영섭 교수는 “지난해 발표된 한 조사기관의 비공개 보고서에 따르면, 인공지능(AI)의 성장은 머신러닝이 주도할 것으로 전망된다. 특히 데이터 분석에 있어 AI 및 머신러닝을 활용하려는 니즈가 증가할 것”이라면서, “더불어 많은 사람들이 AI가 본격적으로 상용화되면 일자리가 많이 없어질 것이라고 우려를 표하지만, 오히려 AI를 통해 더 많은 일자리가 창출될 것이라는 예측도 있다. 기업들이 AI가 창출한 수익을 더 많은 일자리를 창출하는 데 사용할 것이라는 전망이다”라고 말했다.

이어 “AI 발전과 더불어 BI도 발전할 것으로 보인다. BI플랫폼이 대두되는 등 좀 더 진화된 모습을 보일 것”이라며, “이런 트렌드에 맞춰 머신러닝과 AI를 통해 데이터를 분석할 수 있는 전문가를 양성해야 한다. 최근 대학은 물론, 정부에서도 데이터 사이언티스트 육성을 추진하고 있다”고 설명했다.

또한 이 교수는 “데이터 경제 시대를 맞아 데이터 공유가 늘어나야 한다. 정부에서도 공공 데이터 포털을 통해 데이터를 개방하고 있다. 이에 따라 데이터의 품질 또한 높아지고, 양도 많아 질 것으로 예상된다”며, “최근 데이터를 정의하는 것을 보면 ▲자료 ▲정보 ▲인텔리전스(Intelligence) 등으로 표현하고 있다. 자료는 말 그대로 보유하고 있는 자료를 뜻하며, 정보는 데이터를 토대로 1차 가공한 것을 의미한다. 인텔리전스는 자료와 정보를 토대로 축적한 지능을 뜻한다. 데이터 경제 시대에 대응하기 위해서는 바로 이 ‘인텔리전스’를 만들어야 한다”고 강조했다.

이영섭 교수는 마지막으로 “이런 시대 흐름에 맞춰 AI와 BI 주제의 이번 컨퍼런스는 매우 유익한 자리가 될 것이라고 생각한다. 이번 컨퍼런스를 통해 AI 및 BI를 넘어 CI(협업 지능: Collaboration Intelligence)로 나아가는 흐름을 파악했으면 한다”고 말하며, 환영사를 마무리 지었다.


“플랫폼, 재능, 자본, 정책, 리더십이 중요하다”
- 차상균 서울대학교 빅데이터연구원장 / 교수

▲ 차상균 서울대학교 빅데이터연구원장 / 교수

다음으로 서울대학교 빅데이터연구원장 차상균 교수가 연단에 올라 ‘AI & 빅데이터 산업을 둘러싼 미·중의 패권경쟁과 우리의 대응전략’을 주제로 키노트 강연을 했다. 인메모리 기술 HANA의 연구 개발을 주도한 차 교수는 직접 경험한 중국과 미국에서의 최근 AI & 빅데이터 산업 관련 변화상을 요약해 전달했다.

오늘날 빅데이터와 AI는 국가 안보 측면의 문제가 되고 있다. 특히 중국은 현재 법적인 문제를 신경쓰지 않고 있어 데이터 관련 이노베이션에서 앞서고 있다. 정부 주도로 AI를 포함한 IT 분야에서 미국을 추월하기 위해 알리바바, 텐센트, 바이두, 화웨이, 하이크비전 등 기업들을 지원하고 있다. 역사와 관광의 도시였던 항저우의 경우, 12년 만에 가장 빠르게 성장하는 하이테크 시티로 성장했다. 알리바바의 AI 스피커는 9시간 만에 100만 대가 팔렸을 정도로 중국의 시장 영향력은 거대하다.

한편 미국은 실리콘 밸리를 중심으로 디지털 관련 산업이 꽃피고 있다. 특히 MIT, 스탠포드 대학과 같은 명문 대학들이 깊은 혁신의 원천으로 기능한다. 구글, 아마존, 엔비디아, 페이스북, 테슬라, 마이크로소프트, 애플 등 내로라하는 거대 기업들의 혁신이 실리콘밸리를 중심으로 이뤄졌다. 가능성을 가진 벤처 기업들도 수없이 많다.

차 교수는 또한 디지털 이노베이션(Digital Innovation), 또는 디지털 트랜스포메이션(Digital Transformation)을 위해 중요한 다섯 가지 요소에 대해 짚었다. 바로 ▲디지털 기술 플랫폼 ▲새로운 디지털 재능 ▲자본 ▲정부 정책 ▲전략적 리더십이 그것이다.

차상균 교수는 “핵심은 혁신 기술과 혁신 인재, 혁신 비즈니스 모델이 창의적 사업의 근원이라는 것이다. 사람이 변화(transformation)되고, 회사가, 국가가 트랜스포메이션되면 혁신이 일어난다”면서, “오늘날은 지난 제조업 중심시대에 비해 혁신을 위한 아이디어, 즉 창의적인 비즈니스 모델이 중요해졌다. 그리고 이러한 아이디어를 내는 데에는 혁신을 해낼 수 있는 좋은 인재가 필요하다. 즉 사람이 중요하다는 결론이다”라고 말했다.

이어 “자본은 전 세계적으로 많이 풀렸기에 걱정되지는 않는다”면서, “정책의 경우 흔히 규제 완화만을 이야기하곤 하지만, 그보다는 적극적인 산업 정책과 로드맵이 보이지 않아 안타깝다. 또한 사람과 사회는 변화를 싫어하기에 이를 극복하기 위해 중요한 것이 바로 리더다”라고 강조했다.


“AI, BI, CI 통합해 코딩 없는 환경 만든다”
-
배영근 비아이매트릭스 대표

▲ 배영근 비아이매트릭스 대표

이어 배영근 비아이매트릭스 대표가 ‘인텔리전스의 진화(AI, BI, CI)’라는 제목의 주제발표를 진행했다. 배영근 대표는 기존에 분석이나 보고서 작성 등을 위해 수행됐던 BI를 넘어, 계정계·정보계와의 협업(Collaboration)을 통한 인텔리전스 기반의 비즈니스 예측과 계획 수립의 중요성을 강조했다.

배영근 대표는 “인텔리전스란 우리가 갖고 있는 지식을 활용하는 수준을 말한다. AI는 사람의 행동이나 생각을 컴퓨터가 모방해 목표를 달성할 수 있도록 돕는 것이다. 또한 BI는 통계분석이나 임원정보시스템, 경영정보시스템, OLAP 등의 키워드를 갖는다”면서, “CI는 보고서, 분석 리포팅 등 지금까지의 BI에 다양한 알고리즘을 추가하고 데이터마이닝, 빅데이터 분석, 시각화 등을 위한 AI를 더한다. 이로써 계정계나 정보계의 경영계획, 수요예측, 판매계획, 수급계획 등과 손쉽게 접합할 수 있도록 협업이 가능한 계획을 수립할 수 있도록 돕는 것”이라고 설명했다.

최근 BI 플랫폼은 빅데이터, 애니데이터 등으로부터 데이터를 읽어 전처리를 하고, 데이터마이닝과 AI 알고리즘 기반의 분석 알고리즘을 적용해 비즈니스 조직이 이를 활용하면서 인사이트를 얻을 수 있기를 요구받고 있다. 비아이매트릭스는 ‘아이스트림(i-STREAM)’과 ‘아이빅(i-BIG)’으로 이러한 요구에 대응하고 있다. 이 솔루션들은 데이터 추출/처리/분석을 손쉽게 할 수 있도록 개발돼, IT조직의 도움 없이도 간단하게 분석할 수 있도록 돕는다.

또한 비아이매트릭스는 CI를 위한 ‘AUD(Adcanced UI Development, 아우디) 시스템 구축 방법론’을 제시하고 있다. 분석-설계-코딩-테스트 단계에서, 사용자가 원하는 시스템을 설계해 넘겨주더라도 개발자가 코딩하고 테스트하는 과정에 시간이 많이 소요된다. 이에 비아이매트릭스는 코딩을 자동화해 PDF 같은 UI 설계만으로도 제품을 만들어낼 수 있도록 AUD방법론을 제시하고 있다.

배영근 대표는 1990년대 이후 모든 개발자의 꿈이라고 할 수 있는 SW개발 자동화 도구는 과거에도 이미 수 차례 시도된 바 있지만, 대부분의 유효한 성과를 거두지 못했다고 설명했다. 프로그램 소스를 100% 생성하는 것이 불가능할뿐더러 플로우 디자인이 어려워 모델링 복잡도가 증가하는 문제가 있었으며, 또한 생성된 소스에 대한 리버스 엔지니어링을 통해 세세한 수정을 더하는 과정이 필요해, 차라리 전통적 방법으로 코딩하는 것이 유리한 경우가 많았다는 것이다.

2000년대 이후에는 직관적이고 이해하기 쉬운 개발 환경을 제공하는 GUI 기반의 UI·UX 플랫폼이 등장했지만, 이 역시 직접 작성해야 하는 SQL이나 스크립트들이 많고 검증에 많은 시간이 소요됐다. 배 대표는 “이는 결국 자동으로 SW를 만든다는 이상과는 거리가 먼 것이었다”고 말했다.

비아이매트릭스가 주창하는 ‘AUD 방법론’은 SQL과 코딩 없이 UI 설계만으로 화면개발을 완료하는 방법이다. 데이터 조회(Select SQL)의 경우 문장을 자동으로 생성한다. 컬럼을 선택해 마우스로 드래그앤드롭하면 자동으로 SQL 문장을 생성하고 DB에서 데이터를 가져온다. 또한 특허를 출원한 업데이트(Update SQL)/데이터 저장(Insert SQL) 자동 생성 기능도 포함된다.

더불어 보고 있는 UI화면에서 데이터를 수정하면 DB에 자동으로 데이터를 업데이트하고 저장한다. 또한 데이터 입력, 콤보 선택, 버튼 클릭 등 다양한 이벤트에 반응하는 동작을 설정할 수 있다. PPT에서 개체에 동작을 설정하는 것처럼, UI에서 몇 가지 설정만 갖고 마우스 클릭과 같은 특정 이벤트에 대응해 데이터 테이블을 띄우는 등의 동작을 하도록 설정할 수 있다.

배영근 대표는 “자동차가 초기 수동 변속기에서 자동 변속기로 변화하고, 각종 편의 기능들이 자동화됐듯이 UI·UX도 하나씩 자동화를 해나가면 될 것”이라며, “인공지능(AI), 업무지능(BI), 협업지능(CI)을 통해 효율적인 업무를 수행하도록 하는 것이 비아이매트릭스의 목표이며, 30년간 IT에 몸담아 얻은 지식을 바탕으로 실질적으로 도움 되는 지식을 전달하고 싶다”고 강조했다.


빅데이터 분석의 새로운 영역, 프로세스 마이닝 활용 사례
-
김영일 퍼즐데이터 대표

▲ 김영일 퍼즐데이터 대표

다음 순서로 연단에 오른 김영일 퍼즐데이터 대표는 ‘빅데이터 분석의 새로운 영역, 프로세스 마이닝 활용 사례’에 대해 발표했다. 김 대표는 “디지털 트랜스포메이션은 결국 데이터를 연결하는 프로세스의 혁신”이라고 강조하며, 기업 내 복잡한 비즈니스 프로세스를 도식화하고 손쉽게 개선점을 찾아낼 수 있는 프로세스 마이닝의 가치를 공유했다.

많은 기업들은 자사의 프로세스 혁신을 통해 비즈니스 효율성을 개선하고 새로운 성과를 창출하기 위해 노력하고 있다. 대부분의 경우 이러한 프로세스 혁신(Process Innovation)은 외부의 전문 컨설턴트를 영입해 진행된다. 자사의 현재 업무 프로세스를 분석하고, 개선점을 도출해 실행하며, 새롭게 자리잡은 비즈니스 프로세스를 평가하는 일련의 과정을 수행해야 한다. 이러한 컨설팅 프로젝트에는 적지 않은 시간과 비용이 소요되지만, 결과적으로 비즈니스 프로세스를 혁신함으로서 소정의 성과를 거둘 수 있다면 충분히 합리적인 선택이 될 수 있다.

▲ 그림1. 비즈니스 프로세스가 과도하게 복잡해지면 수작업으로 분석하는 것이 불가능하다.

하지만 외부 컨설턴트의 수작업을 통한 비즈니스 프로세스 분석에는 한계가 있다. 기업의 규모가 커지고 사업 영역이 확장될수록 복잡도는 꾸준히 증가한다. 비즈니스 프로세스의 복잡도가 높아질수록 분석과 개선점을 도출하는 데 드는 시간과 비용은 지수함수로 증가한다. 만약 기업의 비즈니스 프로세스가 매우 복잡하게 구성돼 있어, 전문 컨설턴트가 착수하더라도 과도한 시간과 비용을 필요로 한다면 어떨까? 이런 상황에 처한 기업들은 비즈니스 프로세스 혁신을 포기해야 하는 것일까?

프로세스 마이닝은 이렇게 비즈니스 프로세스 혁신의 현실적인 한계에 부딪힌 기업에게 해답을 줄 수 있다. 프로세스 마이닝은 기업 내 IT 시스템에서 발생하는 로그 데이터를 분석해 기업의 비즈니스 프로세스를 손쉽게 시각화한다.

오늘날 기업 내 거의 모든 업무는 IT 시스템을 통해 이루어지고 있다. 따라서 사건이 발생했을 때 수사기관이 CCTV를 통해 실제로 일어났던 사실관계를 찾아내는 것처럼, IT 시스템의 로그데이터를 통해 기업 내 비즈니스 프로세스를 파악할 수 있다. 기업은 이렇게 시각화한 비즈니스 프로세스 맵을 통해 각각의 성과를 분석하거나, 개선점을 찾고 반영하기 전에 모의 시뮬레이션을 수행할 수 있다.

특히 RPA(Robotic Process Automation, 로봇 프로세스 자동화)를 통해 기업 내 업무 효율을 높이기 위해서는 필연적으로 자사 비즈니스 프로세스를 분석하고 도식화하는 과정이 필요하다. 프로세스 마이닝을 활용하면 RPA를 우선적으로 적용할 영역을 선택하거나, RPA를 적용했을 때 얻을 수 있는 효과를 사전에 시뮬레이션할 수 있다.

▲ 그림2. 프로세스 마이닝을 통해 손쉽게 비즈니스 프로세스를 분석하고 개선점을 찾을 수 있다.

프로세스 마이닝이 모든 비즈니스 혁신을 주도할 수 있는 것은 아니지만, 비즈니스 혁신을 원하는 기업들에게 가이드 역할을 할 수 있다. 프로세스 마이닝은 자사의 현재 비즈니스 프로세스에 대한 현황을 파악하고 이를 시각화한 비즈니스 프로세스 맵을 그린다. 이 프로세스 맵은 기업이 수행하고자 하는 디지털 트랜스포메이션의 지도 역할을 수행할 수 있다.

김 대표는 “많은 기업들이 비즈니스 프로세스 혁신을 위해 높은 비용을 지불하며 전문 컨설팅 기관에 의뢰하고 있지만, 이러한 방법 역시 기업의 규모가 커지고 복잡도가 높아지면 한계에 이른다”며, “프로세스 마이닝은 기업이 자사의 비즈니스 프로세스를 점검하고 효율적인 혁신 방안을 찾을 수 있도록 합리적인 해결방법을 제시한다”고 말했다.


엑셀처럼 쉽고 간편한 ‘파인리포트’와 ‘파인BI’
-
김동민 피앤디솔루션 부장

▲ 김동민 피앤디솔루션 부장

오전 마지막 세션은 김동민 피앤디솔루션 부장이 ‘BI & Advanced Business Reporting 구축전략’을 주제로 발표했다. 김동민 부장은 피앤디솔루션이 국내 시장에 선보이고 있는 중국 환루안(Fanruan)사의 ‘파인리포트(Fine Report)’ 및 ‘파인BI(Fine BI)’ 솔루션을 소개했다.

먼저 ‘파인리포트’는 코딩 없이 다양한 분석 리포트를 만들 수 있도록 지원한다. 원격으로 분석 화면을 배포하거나 관리할 수 있도록 각종 기능을 제공하고 있다. 엑셀과 유사한 UI를 갖고 있어 친숙하게 사용할 수 있으며, 그리드나 차트 등도 쉽게 만들 수 있다. HTML5 차트를 이용, 웹표준에도 연동된다.

또한, 개발 없이 사용자가 입력한 데이터를 DB에 삽입(insert)할 수 있도로 지원한다. 자체 포털을 갖고 있어 별도 개발 없이 서비스 가능하다. 모바일 앱도 별도 제공해 PC에서 보는 화면을 그대로 볼 수 있다. 관계형 및 비 관계형 DB 및 기타 데이터 소스를 단일 보고서로 통합할 수 있다.

다음으로 ‘파인BI’는 셀프 BI를 위한 솔루션이다. 사용자가 직접 원하는 형태의 차트를 만들고 분석을 할 수 있도록 해준다. 편리하게 데이터를 다룰 수 있으며, 탁월한 빅데이터 처리 성능이 장점이다. 데이터 준비 절차도 간단하다. 업무 관리/통제 데이터를 쉽게 다룰 수 있고, 시각화 기반의 데이터 분석을 할 수 있도록 한다. 파이선, R과 같은 통계 툴과의 연동도 지원한다.

특히 기존에는 IT담당자가 분석 툴을 만들어 주고, 툴이 마음에 들지 않으면 다시 IT에 요청해야 했으나 ‘파인BI’를 이용하면 드래그앤 드롭만으로 실무자가 분석 툴을 만들 수 있어 편리하다.

김동민 부장은 “대시보드와 셀프BI를 단일 솔루션으로 사용할 수 있는 툴은 없느냐는 질문을 많이 받는데, 현재 시점에서는 시장에 존재하지 않는 것 같다. 다만 ‘파인리포트’와 ‘파인BI’ 두 솔루션을 통합해 활용하면 시너지를 낼 수 있을 것으로 생각한다”고 덧붙였다.


빅데이터 시대의 거버넌스
-
윤지홍 인포매티카 이사

▲ 윤지홍 인포매티카 이사

점심시간 후 오후에는 산업 세션과 한국데이터마이닝학회의 학술세션으로 나눠 발표가 진행됐다. 먼저 산업세션의 첫 번째 트랙에서는 ▲윤지홍 인포메티카 이사의 ‘빅데이터시대의 거버넌스’ ▲신동원 데이터브릭 전무의 ‘트리팩타를 이용한 셀프서비스 데이터 전처리 방법’ ▲이준호 잘레시아 상무의 ‘코딩없이 머신러닝 데이터를 4배 더 빠르게 준비할 수 있는 Self Service Data Prep 기술과 구축사례’ 등의 순으로 발표가 이어졌다.

오후 세션 산업 부문 트랙1의 첫 발표를 맡은 윤지홍 인포매티카 이사는 ‘빅데이터 시대의 거버넌스’를 주제로 연단에 올랐다. 오늘날 많은 전문가들인 데이터가 4차 산업혁명의 원유라고 말한다. 이에 따라 기업들은 너나할 것 없이 더 많은 데이터를 수집하고 저장하는 것에 혈안이 돼있다. 하지만 가공하지 않은 원유를 그대로 사용할 수 없는 것처럼, 가공되지 않은 데이터 역시 사용할 수 없는 것은 마찬가지다.

윤지홍 인포매티카 이사는 발표에 앞서 “한 고객사는 대량의 데이터를 저장하기 위한 하둡 환경을 갖춰놓고서는, 데이터는 모아놨는데 무엇을 어떻게 해야할 지 모르겠다며 우리에게 컨설팅을 요청했다”며, “이는 빅데이터를 위한 환경은 구성했지만 정작 데이터 거버넌스는 전혀 수립되지 않았다는 말”이라고 설명했다.

데이터 거버넌스란 기업이 데이터를 전략적 자산으로 인식하고 데이터에 대한 프로세스, 정책, 기술 등을 조율해 유용하고 일관된 데이터를 생성·유지·관리할 수 있도록 돕는 일련의 과정을 의미한다. 만약 기업이 복잡하고 까다로운 데이터 관리에 골머리를 썩고 있다면, 가장 먼저 올바른 데이터 거버넌스가 정립돼 있는지를 판단해야 한다.

과거에도 데이터 거버넌스라는 용어는 있었다. 새로운 프로젝트가 계획되면 담당자가 업무 프로세스를 정리하고, 그에 관련된 프로그램과 데이터셋을 연결한다. 데이터를 다루는 방법을 정의하고 표준을 정립하며, 더 나아가 사용하는 데이터 테이블까지 새롭게 매핑한다. 하지만 이러한 탑다운 방식의 데이터 거버넌스는 해당 프로젝트가 끝나면 아무도 사용하지 않게 된다. 프로젝트를 위해 새롭게 정의된 테이블이나 프로그램들은 프로젝트 종료와 함께 사장된다.

▲ 그림3. 새로운 데이터 거버넌스는 각 비즈니스 영역과 그들이 연결되는 방식, 그리고 사람과 조직 등을 정의해야 한다.

그렇다면 지속적으로 실행 가능한 데이터 거버넌스는 어떻게 정의돼야 하는가? 이에 대해 윤지홍 이사는 “비즈니스 메타를 정의하고, 프로세스 뿐만 아니라 사람과 조직을 정의해야 한다”고 조언한다. 필요에 따라 그때그때 새로운 규칙을 만들고 이를 준수케 하기 위한 협의체를 두는 것이 아니라, 무엇보다 먼저 실제로 비즈니스에 적용할 수 있는 규칙을 정립하고 협의체는 구성원들이 규칙에 따라 일하는 방식을 바꿔나갈 수 있도록 도와야 한다는 것이다.

윤 이사는 “데이터 거버넌스가 기존에는 시스템 중심으로 적용됐다면, 이제는 기업의 문화를 바꾸는 근본적인 것으로 인식돼야 한다”면서, “개별 시스템이나 프로젝트로 접근하는 것이 아니라 전사적인 업무 프로세스를 분석하고 필요한 데이터 유형과 관리방법을 정의해, 구성원들이 함께 개선해나갈 수 있는 협업 환경을 만들어야 한다”고 덧붙였다.


트리팩타를 이용한 셀프서비스 데이터 전처리 방법
-
신동원 데이터브릭 전무

▲ 신동원 데이터브릭 전무

이어 두 번째 발표로는 신동원 데이터브릭 전무가 ‘트리팩타(Trifacta)를 이용한 셀프서비스 데이터 전처리 방법’을 주제로, 오늘날 각광받고 있는 셀프서비스 데이터 분석 트렌드와 이를 수행할 수 있는 트리팩타 솔루션의 활용 사례에 대해 소개했다.

원시 데이터(raw data)를 사용자가 이해하고 사용할 수 있도록 가공하기 위해서는 데이터에 대한 전처리 과정이 필요하다. 이러한 전처리 업무는 데이터를 다룰 수 있는 IT부서의 일이었지만, 데이터의 중요성이 높아지면서 IT부서에 데이터 관련 업무가 집중됨에 따라 적절한 시기에 필요한 데이터를 받는 것이 쉽지 않게 됐다. 특히 과거에 비해 데이터 자체의 복잡성이 높아지고 비정형 데이터와 같은 어려운 데이터 분석 수요도 늘어나는 만큼, IT부서가 기업의 모든 데이터 수요에 대응하는 것은 현실적으로 불가능하게 됐다.

트리팩타는 셀프서비스 데이터 전처리 도구로, IT부서의 도움 없이도 비즈니스 조직이 손쉽게 데이터를 가공하고 사용할 수 있도록 돕는다. 이를 통해 기존에는 IT부서와 실랑이하며 몇 개월 만에 받을 수 있었던 가공된 데이터를, 비즈니스 조직이 직접 다루고 인사이트 창출에 활용할 수 있다.

실제로 트리팍타는 데이터에 대한 지식과 IT 기술을 갖추지 못한 사용자라도 손쉽게 데이터를 다루고 관리할 수 있도록 머신러닝과 AI 기반의 다양한 기능을 제공한다. 복잡한 명령어 입력이 아니라 마우스 클릭으로 모든 기능을 사용할 수 있으며, 탁구를 하는 것처럼 사용자와 질문과 답변을 주고받으며 작업을 진행할 수 있도록 설계됐다. 또한 사용자의 업무 패턴을 학습해 다음에 어떤 작업을 수행할지 예측하고 추천한다. 아울러 기업 내 데이터 거버넌스 환경을 학습해, 사용자가 데이터 거버넌스를 준수하면서 고도화된 데이터 분석을 수행할 수 있도록 돕는다.

신동원 전무는 “트리팩타는 별도의 프로그램 개발 없이 데이터 분석가와 비즈니스 유저가 예측적 상호작용(predictive interaction)을 통해 데이터 전처리를 수행할 수 있는 혁신적인 UX와 강력한 랭글링 기능을 제공한다”고 말했다.


셀프서비스 데이터 프렙 기술과 구축 사례
-
이준호 잘레시아 상무

▲ 이준호 잘레시아 상무

“전 세계적으로 IT 지식 없이 도메인 지식만 갖추고 있는 비즈니스 사용자는 10억 명에 달한다. 팍사타(Paxata)의 비전은 IT 지식을 갖추지 않은 사용자들도 필요에 따라 데이터를 원하는 형태로 가공하고 즉시 사용할 수 있도록 해, 기업의 모든 업무 프로세스와 시스템을 보다 지능적으로 만들 수 있도록 지원하는 것이다.”

트랙1 세 번째 발표를 맡은 이준호 잘레시아 상무는 ‘코딩 없이 머신러닝 데이터를 4배 더 빠르게 준비할 수 있는 셀프서비스 데이터 프렙(data preparation, 데이터 전처리) 기술과 구축 사례’를 주제로 발표하며 이같이 밝혔다. 머신러닝과 같은 고도화된 데이터 기술을 활용하기 위해서는 충분히 가공된 데이터를 준비해야 하지만, 이러한 데이터 준비 과정에 전체 프로젝트 시간과 역량의 80%가 소요되고 있다. 따라서 기업은 높은 데이터 품질을 유지하면서도 데이터 준비 과정을 효율화할 수 있는 데이터 전처리 솔루션 도입을 고려해야 한다.

▲ 그림4. 데이터 전처리 솔루션을 통해 전체 프로젝트의 80%를 차지하는 데이터 준비 과정을 단축할 수 있다.

셀프서비스 데이터 분석이나 데이터 전처리와 같은 개념은 일부 선도적인 기업과 사용자층을 중심으로 관심이 확대되고 있기는 하지만, 아직 국내에서 주류를 차지할 만큼 많이 활용되고 있는 개념은 아니다. 하지만 팍사타와 같은 대표적인 셀프서비스 데이터 전처리 솔루션들을 중심으로 국내에서 사용자 층을 빠르게 넓혀가고 있다.

특히 이날 발표에서 이준호 상무는 1천만 건에 달하는 KRX 상장기업 시가총액 데이터를 활용한 라이브 데모를 진행했다. 참가자들은 데이터를 업로드하고 간단한 상호작용을 통해 데이터 전처리를 수행하며, 전처리 결과를 확인하고 수정과 개선을 거쳐 데이터를 필요한 형태로 가공하는 모든 과정을 현장에서 함께 볼 수 있었다. 특히 모든 전처리 과정은 웹브라우저 상에서 실행돼, 수행하는 PC의 성능에 관계없이 뛰어난 전처리 업무 수행이 가능했다.

끝으로 이준호 상무는 “데이터 거버넌스나 협업과 관계된 기술은 대부분의 데이터 전처리 제품들이 대동소이하게 가지고 있지만, 사용자와의 유연한 상호작용이나 고도화된 인텔리전트 기능, 클라우드 상에서 쿠버네티스 기술을 기반으로 제공하는 스케일아웃 기능 등은 팍사타만의 특징”이라며, “팍사타를 통해 머신러닝에 필요한 지도학습 데이터를 빠르게 준비하고, 수작업 위주의 보고서 작성에 소요되는 불필요한 업무 시간을 단축할 수 있을 것”이라고 말했다.


머신러닝 기반의 예측분석 통한 일반보험 손해예측
-
정한근 데이타솔루션 데이터사이언스팀 책임

▲ 정한근 데이타솔루션 데이터사이언스팀 책임

두 번째 트랙에서는 ▲정한근 데이타솔루션 데이터사이언스팀 책임의 ‘머신러닝 기반의 예측 분석 통한 일반보험 손해예측’ ▲조외현 데이터벅스 대표 컨설턴트의 ‘Streamig Processing; The Secret Sause for operationalizing Machine learning’ ▲전규화 비아이매트릭스 컨설팅사업부 팀장의 ‘EPA 기반의 BI 구축사례’ 등이 발표됐다.

트랙2의 첫 발표를 맡은 정한근 데이타솔루션 책임은 ‘머신러닝 기반의 예측분석을 통한 일반보험 손해예측’이라는 주제로 머신러닝의 개요와 함께 분석 사례에 대해 설명했다.

머신러닝이란 인공지능의 한 분야로, 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야다. 순환신경망(RNN), 합성곱신경망(CNN) 등과 같은 인공신경망(ANN) 기술을 통틀어 딥러닝이라고 하며, 딥러닝은 머신러닝의 알고리즘 중 하나에 해당한다.

그리고 머신러닝의 핵심 기술 중 앙상블(Ensemble) 기법이 있다. 여러 개의 모델을 생성하고, 생성된 모델을 서로 결합해 높은 성능의 새로운 모델을 생성하는 기법이다. 특히 모델의 결합에는 배깅(Bagging)과 부스팅(Boosting)이라는 방법이 쓰이며, 이를 통해 자동으로 더 잘 맞는 모델을 만들어내도록 한다. 대표적으로 최근 뜨고 있는 랜덤포레스팅 같은 알고리즘에 활용된다.

이어 정한근 책임은 데이타솔루션이 진행한 일반보험 언더라이팅(UW)시스템 고도화 및 업무자동화 시스템 구축 사례에 대해 설명했다. 설명에 따르면 기존 언더라이팅 시스템은 심사가 직관적 판단에 의해 이뤄져 인수판단 결과가 상이하거나, 일관성 없는 심사결과가 나옴에 따라 기존에 위험 평가에 대한 정확성이 떨어지는 문제가 발생했다. 또한 자동화와 리스크 정보 제공이 미흡한 상태였다. 이에 UW시스템을 고도화하고 업무 자동화를 실현, 손해율을 개선하고 업무를 효율화함으로써 IFRS17에 대비한 기반을 미련하고자 했다.

해당 사례에서는 랜덤 포레스트와 서포트 벡터 머신, 두 가지 앙상블한 모델을 생성했다. 더불어 전통적 통계기법과 함께 앙상블한 머신러닝 모델을 통합 운영해 적합한(strong) 모델을 발견, 지속 모니터링 중이다.

마지막으로 정한근 책임은 데이터 프레퍼레이션(preparation)의 중요성에 대해 설명했다. 정 책임은 “가비지 인, 가비지 아웃(Garbage In, Garbage Out)이라고 데이터가 나쁘면 좋은 결과가 나올 수 없다. 기존 전통적 통계 방식이건, 딥러닝이건, 머신러닝이건 어떤 걸 사용하든지 데이터 정제 작업이 가장 중요하다. 그 다음이 알고리즘이다”라면서, “실제로 포브스 조사에 따르면 데이터 사이언티스트들이 클렌징과 데이터 구조화, 데이터셋 콜렉팅 등을 포함해 데이터 클렌징에 79%의 시간을 쓴다고 한다. 당장 결과가 없어 조바심이 날 수 있지만, 자칫하면 반복작업 때문에 시간이 더 들 수 있다. 데이터 클렌징에 정답은 사실 없지만, 데이터 셋 확인, 결측 값 처리, 이상 값 처리, 피처 엔지니어링 등을 포함하는 데이터 프레퍼레이션이 중요하다”고 조언했다.


스트리밍 프로세싱: 머신러닝을 운영하기 위한 비밀소스
-
조외현 데이터벅스 대표 컨설턴트

▲ 조외현 데이터벅스 대표 컨설턴트

오후 세션 트랙2의 두 번째 발표는 조외현 데이터벅스 대표 컨설턴트가 ‘스트리밍 프로세싱: 머신러닝을 운영하기 위한 비밀 소스(Streamig Processing; The Secret Sauce for operationalizing Machine learning)’라는 주제로 진행했다. 조외현 컨설턴트는 스트리밍 프로세싱 기술의 트렌드 및 사례는 물론, 실제 머신러닝을 운영할 때 어떻게 활용할 것인가에 대해 설명했다.

조외현 컨설턴트는 “인간의 뇌도 자연스럽게 학습하는 구조인 것처럼, AI도 적절하게 데이터를 넣어주지 않으면 학습할 수 없다”면서, “데이터를 학습, 트레이닝된 머신러닝이 환경변화를 감지해 이상 징후를 탐지하고, 탐지한 데이터를 바탕으로 다시 트레이닝하는 선순환 구조에 대해 다뤄보고자 한다”고 말하며 발표를 시작했다.

조외현 컨설턴트에 따르면, 머신러닝의 가치는 실시간으로 최신 데이터를 어떻게 수집하는가에 따라 발휘된다. 실시간 데이터에 대한 전처리 과정, 정합성이 맞지 않은 데이터로는 머신러닝을 해봤자 의미가 없다. 피처(Feature)를 추출해내는 과정이 실시간으로 필요하다. 일반적으로 트레이닝 할 때는 이미 만들어진 데이터셋을 활용한다. 그러나 이 경우 운영시스템에서 발생하는 데이터를 직접적으로 반영하기는 쉽지 않다. 그렇기 때문에 스트리밍 통합(Streaming Intergration)이 더욱 필요하다.

머신러닝을 운영하기 위해서는 실시간 모델 호출부터 지속적인 수집 및 스트리밍 프로세싱, 자동화된 리트레이닝(Re-Training), 엔터프라이즈급의 솔루션 등이 요구된다. 스트리밍 통합이 필요한 이유는 모든 엔터프라이즈 데이터가 이동하는 것과 동시에 데이터 볼륨에 있어 높은 처리량을 제공할 수 있으며, 데이터 처리 및 분석이 가능하고 나아가 상관관계 분석도 가능하다. 또한 실시간으로 검증 가능하고 가시적인 데이터를 만들 수 있다.

최근 기업들은 데이터 아키텍처를 꾸밀 때 스트리밍 통합을 최우선적으로 고려하고 있다. 기업들이 스트리밍 통합을 추진하는 이유는 ▲데이터 배포 및 일관성 ▲클라우드 최적화 ▲분석을 위한 인터그레이션 ▲실시간 분석 ▲IoT 에지 프로세싱 및 분석 등을 위해서다.

조외현 컨설턴트는 머신러닝 운영을 위한 스트리밍 아키텍처를 구성하고, ▲머신러닝 인터그레이션 ▲데이터 아키텍처 구성 ▲실시간 데이터 수집 ▲스트리밍 처리와 피처 추출 ▲데이터 저장 등의 과정으로 머신러닝 테스트를 진행한다고 설명했다. 이후 환경에 맞는 메커니즘을 통해 훈련된 모델에 접근하고 실시간으로 피처를 전달, 범주화 및 스코어링을 통해 이상 징후 등을 확인할 수 있으며 추가 분석 및 데이터 결합을 진행, 대시보드를 통해 결과를 확인할 수 있다.

조외현 컨설턴트는 네트워크 보안 분야 침입탐지시스템(IDS)에 적용된 사례를 발표했다. 이 사례의 경우 네트워크에 돌고 있는 데이터를 수집해 피처를 추출하고, 이를 바탕으로 모델과 비교해 이상 징후를 탐지한다. 이후 보안담당자에게는 이상 데이터만 분석할 수 있도록 제공했다.


EPA 기반의 BI 구축사례
- 전규화 비아이매트릭스 컨설팅사업부 팀장

▲ 전규화 비아이매트릭스 컨설팅사업부 팀장

트랙2의 마지막 발표는 전규화 비아이매트릭스 팀장이 ‘EPA(Excel Process Automation) 기반의 BI 구축사례’를 주제로 발표했다. 최근 반복적으로 처리해야 하는 단순 업무를 로봇 소프트웨어를 통해 자동화하는 RPA(Robotic Process Automation) 솔루션에 대한 관심이 높다. 현재 금융권에서 대출 신청 프로세스를 자동화하는 데까지 쓰일 정도로 진화했다. 사전에 대출이 가능한지 적격/부적격을 심사하고, 승인 후 메일을 보내는 업무를 하고 있다. 기존에 사람이 반드시 해야 하는 것으로 여겨졌던 업무까지도 자동화되고 있는 것이다.

하지만 이날 전규화 팀장은 RPA가 아닌, 다소 생소한 ‘EPA’를 주제로 발표했다. 전 팀장은 “실제로 기업 실무자들은 주간보고, 월간보고, 경영계획수립, 수요 예측 등 정해진 기간마다 수치를 수정해 보고하는 업무를 많이 하고 있다. 바로 엑셀 파일을 이용한 정형화된 업무들로, 이를 자동화할 수 있을 것으로 보는 것이 EPA의 시작이다”라고 설명하며 먼저 유통사의 종합 매출분석 사례를 소개했다.

일반적으로 유통사는 많은 거래처를 다룬다. 수많은 거래처에 수많은 품목들까지, 매출 분석을 위한 엑셀 데이터시트가 방대하다. 좌우로 스크롤하는 양이 많아 운동장 엑셀 파일이라고 부를 정도다. 비아이매트릭스는 이처럼 복잡한 엑셀 파일을 웹에서 타인과 공유까지 가능한, ‘아이매트릭스(i-MATRIX)’ 솔루션을 활용해 엑셀 업무 자동화를 돕고 있다. 특징 중 하나는 특정 지역에 대한 상세 데이터를 보고 싶을 경우, 지역을 클릭하면 해당 데이터로 바로 이동해 데이터를 볼 수 있다는 것이다. 만약 일반적인 엑셀이라면 지역별로, 담당자별로 다른 엑셀 파일을 찾아 확인해야 했지만, 더블클릭하면 바로 하위항목으로 이동하는 것이다.

건설사의 손익추정 시뮬레이션을 위한 데이터 취합 사례도 소개됐다. 전규화 팀장은 “업무를 편하게 하기 위해 엑셀이 아닌 다른 방법을 사용해야 했는데, 현장에서는 어렵다며 엑셀을 사용하기를 원했다. 때문에 현장별로 데이터를 취합하는 것은 시간이 너무 많이 걸렸다. 이에 현업 담당자들이 엑셀에 수치를 입력하면, 실제 데이터가 DB에 저장이 되도록 만들었다. 그리고 본사에서는 취합 양식에 따라 데이터를 불러와 보고서를 만들 수 있다. 휴먼 오류 등도 개선 가능하게 된다”고 설명했다.

비아이매트릭스가 이야기하는 EPA는 현업이 쓰고 있는 엑셀파일을 개선해 업무시간을 기존보다 단축시키자는 취지를 갖고 있다. 전규화 팀장은 “비아이매트릭스는 데이터에 대한 셋업, 분석, 집계, 최종 분석 리포트까지 만들 수 있도록 돕고 있다. 기존에 쓰던 엑셀 기반 업무를 시스템화하기보다는, 자동화만 진행함으로써 엑셀의 자유도와 확장성을 보장할 수 있다”고 강조했다.

한편, 오후 산업 부문 발표와 함께 한국데이터마이닝학회의 학술 부문 세션 발표도 진행됐다.

특히 올해는 ▲인공신경망과 딥러닝 응용 ▲네트워크 방법론 및 머신러닝 응용 ▲딥러닝 응용: CNN과 RNN ▲모니터링 및 예측 모델 ▲텍스트 마이닝 및 감성분석 ▲바이오 의료 데이터 분석 등 예년보다 더욱 다양하고 수준 높은 주제의 발표가 진행돼 학생뿐만 아니라 많은 현업 데이터 분석가들의 이목이 집중됐다.


“머신러닝 적용에 있어 빅뱅과 같은 성공은 없다”
- 전용준 리비젼컨설팅 대표

▲ 전용준 리비젼컨설팅 대표

2019 BI컨퍼런스의 산업 부문 마지막 발표는 전용준 리비젼컨설팅 대표가 ‘비즈니스 머신러닝 적용사례들의 교훈- 기대와 실전의 차이’라는 주제로 진행했다. 전용준 대표는 “기업들이 ‘머신러닝은 적용만 하면 돈을 벌 수 있는 기술’이라고 인지했다가 최근 현실을 깨닫기 시작했다”고 말하며, 발표를 시작했다.

전용준 대표에 따르면, 최근 머신러닝 관련된 시장이 몇 년간 꾸준히 성장하고 있다. 이에 따라 인력 수요도 폭발하고 있으며, 많은 사람들이 데이터 사이언스를 공부하고 직업으로 하겠다고 말한다. 시장의 수요가 커지고 있기 때문에 용어가 난무하고 있으며, 특히 데이터 과학과 AI가 한 세트로 묶이고 있다. 기업의 경영진들 또한 이 기술을 통해 돈을 벌 수 있을 것이라는 인식을 갖고 있다.

머신러닝을 도입하는 범위도 넓어지고 있다. 수력, 원자력 등 발전 분야는 물론, 버스 및 지하철 등 대중교통까지 다양한 분야에서 관심을 보이고 있다. 특히 우리나라에서만 기형적인 상황을 보이고 있다. 글로벌에서는 인공지능보다 머신러닝이라는 단어를 사용하는 경우가 많은 것에 비해, 우리나라에서는 인공지능을 훨씬 많이 언급한다. 한국 사람들이 유행에 민감하다는 얘기다. 하지만 기업에서 기술을 통해 돈을 벌기 위해서는 실체를 파악해야 한다.

기업에서는 머신러닝을 통해 비즈니스 성과를 창출할 수 있을 것으로 기대하지만, 사실상 현실과의 차이를 느끼고 있다. 기업들이 현실로 느끼고 있는 머신러닝은 이전의 프로젝트와 다른 완전히 새로운 프로젝트며, 머신러닝을 구축했다고 해도 원하는 결과 값을 얻을 수 없다. 또한 프로젝트를 추진할 전문인력도 매우 부족한 상태며, 데이터가 부족하다는 것도 절실히 느끼고 있다. 기업들은 머신러닝을 한 번 완성하면 스스로 발전할 것이라고 생각했지만, 실상은 꾸준한 업데이트와 더욱 많은 인력이 필요하다는 것을 느끼고 있다. 머신러닝을 구축하는 것은 경험을 통해 노하우를 축적하는 것 이외에는 왕도가 없다.

실제로 기업들은 경영진들이 관심을 가지는 영역에 대해 시작하고 보는 경향이 있다. 얼마나 많은 시간 및 비용 투자가 필요할지, 어떤 준비를 해야 하는지 등의 고려해야할 사항은 고려하지 않고 추진하는 것이다. 짧은 시간, 제한적인 비용으로 머신러닝을 추진하기 때문에 실제적으로 기대만큼의 효과를 거두지 못하고 있다.

현재 머신러닝을 통해 효과를 보고 있는 기업은 오랫동안 머신러닝 프로젝트를 추진해 온 기업이라 할 수 있다. 은행의 경우 스코어링에 모델이 적용돼 있는데, 20년 전부터 적용된 모델이다. 하지만 이를 대체할 모델이 나오지 않고 있는 것은 그만큼 오랜 시간 노하우가 축적돼야 한다는 것을 의미한다.

머신러닝 적용 사례가 점차 많아지고 있다. 그러나 대부분 실패 사례다. 끈기를 갖고 끝까지 머신러닝 프로젝트를 추진한 사례가 적기 때문이다. 가다가 원하는 결과가 나오지 않는다면 포기하는 경향이 있다. 대표적인 케이스로 ▲1:1 모바일 마케팅 ▲스팸 필터링 등을 설명했다.

전 대표는 “비즈니스 현장에서 필요한 것은 국어 능력이다. 내가 풀고 싶은 문제는 무엇이고, 어떤 결과가 나와야 하는지 등을 명확히 정리할 수 있어야 한다”며, “알파고를 지금 당장 업무에 적용한다고 해서 비즈니스가 창출되지 않는다. 비즈니스 의사결정 결과는 명확한 승패가 아닐뿐더러 무수한 변수가 존재한다. 비즈니스를 위한 AI/머신러닝 구현은 상상보다 월등히 어려운 문제임을 알아야 한다”고 지적했다.

또한 “머신러닝과 관련해 데이터는 가장 큰 이슈다. 데이터의 양, 종류, 품질, 메타데이터 등 제대로 확보하고 있는 것이 없다. 그렇다고 필요한 데이터를 살 수도 없다. 규제가 있기 때문이다. 데이터 확보에도 막대한 비용이 발생한다”며, “데이터 가공 및 모델링에도 이슈가 있다. 데이터를 분류하기 위한 라벨도 명확하지 않으며, 데이터도 최신상태가 아니기 때문에 진실성이 떨어진다”고 설명했다.

이어 “이런 다양한 문제가 있기 때문에 글로벌에서도 전망이 변하고 있다. 가트너도 관련 시장이 빠른 속도로 성장할 것으로 예상했지만, 최근에는 발전속도를 하향 조정했다. 이런 시장의 안정화가 되기 위해서는 3년 이상의 시간이 필요할 것을 보인다”고 덧붙였다.

마지막으로 전용준 대표는 “비즈니스 머신러닝 실전의 교훈은 기술과 경험을 보유하고, 관리할 수 있는 역량을 갖춘 팀이 필요하다. 또한 절대 서두르면 안 된다. 머신러닝 프로젝트는 오랜시간이 걸리는 것임을 명심해야 한다. 특히 감당할 수 있는 단순한 사이즈로 머신러닝을 운영해 성공 사례를 쌓아가야 한다”고 말하며, 발표를 마무리했다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지