[컴퓨터월드] 본지 컴퓨터월드/아이티데일리가 지난달 29일 ‘2021 AI&빅데이터 웨비나’를 온라인으로 개최했다. 이번 웨비나는 ‘구축사례를 통해 본 AI&빅데이터의 현주소’라는 주제로, 구체적인 사례를 통해 산업계의 디지털 혁신(Digital Transformation)을 이끌고 있는 AI와 빅데이터 기술의 트렌드를 살펴보는 자리로 마련됐다.

이미 많은 기업들이 AI‧빅데이터 활용의 필요성을 인지하고 있지만, 구체적으로 어떤 투자를 수행해야 하는지 몰라 어려움을 겪는 경우가 많다. 이번 웨비나에서는 학계‧산업계 전문가들의 발표를 통해 기업들이 고민하고 있는 AI‧빅데이터 활용 전략을 제시하고, 최선의 방법론을 마련하기 위해 어떤 요소들을 고려해야 하는지 확인할 수 있도록 했다.

‘2021 AI&빅데이터 웨비나’는 연세대학교 조성배 교수의 키노트를 시작으로 데이터솔루션, 메타빌드, 비투엔 등 국내 AI‧빅데이터 전문기업들이 참가해 관련 업계의 최신 트렌드와 기술 동향을 공유했다. 각 세션의 주요 내용을 정리했다.


AI&빅데이터의 산업체 활용 : 최신 트렌드와 전략
조성배 연세대학교 교수, 한국데이터마이닝학회 회장

첫 번째 기조연설은 연세대학교 조성배 교수가  ‘AI&빅데이터의 산업체 활용 : 최신 트렌드와 전략’이라는 주제로 발표했다. 

최근 AI 기술은 많은 데이터를 학습하며 고도화될 수 있는 ‘성장하는 AI’, 사람들과 소통하고 공감하며 신뢰할 수 있는 형태로 진화하는 ‘사회친화적 AI’ 등으로 발전하고 있다. 이를 통해 새롭게 개발되는 기술들이 빅데이터 분야의 새로운 도구로 자리잡았다. 한편 빅데이터 분야에서는 수집‧저장‧관리‧분석‧활용 등 모든 분야의 기술이 고도화되면서 새로운 데이터가 축적되고, 이들이 AI 개발을 위한 학습 데이터가 되면서 상호 보완적인 관계를 갖고 있다.

사실 모든 사람들이 AI에 대해 긍정적으로 생각하지는 않는다. 디지털 혁신을 위한 필수 기술이라고 떠받들어지면서 맹목적으로 신봉하고 있을 뿐이라는 지적이다. 일각에서는 “예전에 내가 한 번 써봤는데, 알맹이는 없고 마케팅 용어로나 쓰이는 것”이라며 불편한 시각을 내비치기도 한다. 최근 몇 년 사이 기업들의 AI 도입이 빠르게 늘어나고 있지만, 실제로 적지 않은 기업들이 AI 도입 과정에서 실패를 겪기도 했다.

이에 대해 조성배 교수는 AI라는 기술이 태생적으로 가질 수밖에 없는 한계라고 설명했다. AI는 특정한 체계를 바탕으로 꾸준히 발전해온 단일한 기술이 아니라 굉장히 다양한 분야에서 독자적으로 개발된 기술들의 결합체이기 때문이다. 따라서 AI 기술의 일부만을 접하고 실망하는 일이 일어날 수 있다. 또한 AI를 정의하는 기준이 명확하지 않다보니 AI라는 명칭을 오남용하기도 하고, 마케팅적으로 도움이 된다고 생각하면 가볍게 가져다 쓰는 현상이 비일비재하게 발생하고 있다.

조성배 교수는 사용자 입장에서 AI를 구성하는 모든 기술을 다 알아야 할 필요는 없다고 조언했다. 중요한 것은 AI 관련 기술에 대해 아는 게 아니라, 내가 풀어야 하는 문제에 어떤 기술을 적용해야 하는지 파악하는 것이다.

이를 위해서는 무엇보다 먼저 자신이 직면해있는 문제가 무엇인지를 알아야 한다. 조성배 교수는 “산업체 사람들과 얘기하다보면 의외로 본인의 문제를 이해하지 못하고 있다는 생각이 든다. 본인의 문제가 무엇인지 알면 이미 50% 정도는 해결된 셈”이라고 설명했다. 문제를 정확히 파악하고 나면 다음은 필요한 데이터를 준비해야 한다. 최근에는 정부에서 AI 학습용 데이터를 구축하거나 데이터 바우처 등을 통해 구매 비용을 지원하기도 한다. 본인이 해결하고자 하는 문제 상황에 따라 그에 관련된 데이터를 마련하면 된다.

문제 상황과 데이터를 확보했다면 이제 본격적으로 AI 관련 기술을 활용할 차례다. 최근 대부분의 AI 관련 기술들은 오픈소스로 제공되고 있기 때문에 최초 접근 자체는 어렵지 않다. 문제는 수많은 AI 기술들 중 목적에 맞는 기술들을 찾고 적용하는 것이다. 이에 대해 조성배 교수는 세 가지 핵심 요소를 고려해야 한다고 조언했다.

첫 번째는 딥러닝 모델을 복합적으로 활용하는 하이브리드 딥러닝 방식을 사용해야 한다는 것이다. 딥러닝 모델 중 가장 일반적이고 근간이 되는 것은 인코더(Encoder)와 디코더(Decoder)를 통해 특정한 입력값에 대한 출력값을 내놓는 방식이다. 이를 기반으로 충분한 데이터와 컴퓨팅 자원을 갖추고 있다면 많은 문제들을 해결할 수 있지만, 완벽하지는 않다.

사전에 많은 데이터들을 학습한 모델을 가져다가 유사한 다른 문제에 적용하는 전이학습(Transfer Learning)은 모델 학습에 필요한 시간과 비용을 크게 줄이면서 정확성을 높일 수 있는 방법이다. 입력값을 예측해 이와 유사한 출력값을 내놓도록 세팅하는 오토 인코더(Auto-Encoder), 이와 유사하지만 주어진 문제에서 중요한 특징들을 자동으로 뽑아낼 수 있는 딥 오토 인코더(Deep Auto-Encoder), 생성자(generator)와 판별자(diciminator)라는 두 개의 적대적 모델을 활용해 적은 데이터로도 뛰어난 학습 효과를 낼 수 있는 GAN(Generative Adversarial Network) 등 다양한 AI 기술들을 복합적으로 활용해야만 최선의 결과를 얻을 수 있다.

두 번째는 알고리즘에 대해 이해하고 복합적으로 활용해야 한다는 것이다. 알고리즘을 단순하게 풀어보면 입력값에 대해 출력값을 내어주는 일련의 명령어 뭉치다. 이 명령어 뭉치가 어떻게 작동하는지에 따라 심볼릭 AI(Symbolic AI)와 뉴럴(Neural AI)로 구분할 수 있다.

알고리즘은 입력된 데이터에 정확한 출력값을 내주는 명령어 뭉치다.

전통적인 방식인 심볼릭 AI는 사전에 입력한 규칙(rule)을 판단 기준으로 삼는 방법이다. 입력값의 특징에 대해 잘 알고 정확한 규칙을 설정할 수 있다면, 학습 데이터가 적거나 아예 없어도 정확한 출력값을 제공할 수 있다. 알고리즘이 작동하는 과정도 비교적 정확하게 파악할 수 있다. 반면 뉴럴 AI는 신경망(neural network) 형태로 구축된 딥러닝 알고리즘을 활용한다. 심볼릭 AI와 달리 학습을 통해 사전에 정의되지 않은 패턴도 구분할 수 있고, 입력값에 다소 노이즈가 있어도 높은 확률로 정확한 출력값을 낼 수 있다. 하지만 입력값이 복잡해질수록 모델의 구조 또한 복잡해져, 내부 구조가 블랙박스화 되면서 해석이 불가능해질 위험도 안고 있다.

심볼릭 AI와 뉴럴 AI 중 어느 한 쪽이 더 뛰어나다고 말하기는 어렵다. 이에 최근에는 두 가지의 우열을 가리기보다는 각각의 장점을 활용하는 뉴로-심볼릭 AI(Neuro-Symbolic AI)에 대한 연구가 각광받고 있다. 논리적인 규칙을 신경망 내부에서 활용할 수 있도록 임베딩한다거나, 신경망에서 얻은 결과값에서 규칙성을 찾아 심볼릭 AI로 활용하는 식이다. 두 가지 방법을 적절히 활용한다면 AI 시스템의 정확도와 효율성을 더욱 높일 수 있다.

마지막 세 번째는 AI의 편향성을 주의해야 한다는 점이다. 최근 전 세계적으로 AI 시스템이 특정 단체나 인종을 차별하고 비하하는 발언을 하면서 물의를 빚고 있다. AI는 데이터를 학습해 모델을 만드는 과정이므로, 데이터 자체에 편향성이 존재한다면 만들어진 AI가 공정하지 않게 작동할 수 있다. 이를 해결하기 위해 ▲학습 데이터를 수정하거나(전처리) ▲알고리즘을 수정하거나(내처리) ▲출력값을 보정하는 방법(후처리)을 활용하고 있다.

학습 데이터를 수정하는 방법은 데이터 생성 과정에서 편향성이 제거되기에 다양한 알고리즘에 적용 가능하지만, 데이터 자체가 왜곡되거나 특성이 손실돼 결과값의 신뢰도가 떨어질 수 있다. 반면 알고리즘을 수정하는 방법은 모델 학습 과정에서 편향성이 최소한으로 표출되도록 제어하는데, 모델 학습 과정이 복잡해지는데다 데이터 왜곡을 최소화하려다보니 잠재적으로 편향성이 완전히 사라지지는 않는다는 문제를 안고 있다. 마지막으로 출력값을 보정하는 방법은 모든 모델에 적용 가능하며 결과값의 신뢰도에도 문제가 없으나, 편향성을 줄이기 위해 사용자가 수동으로 사후 처리를 해야 한다.

조성배 교수는 “AI 분야에는 가장 성능이 뛰어난 하나의 기술이 존재하지 않는다. 그러니 AI를 도입하려는 기업은 자사의 문제점을 잘 분석한 다음 거기에 알맞은 최선의 기술들을 모아서 문제를 해결해야 한다”며, “최근에는 오픈소스를 통해 대부분의 AI 기술들이 공개되고 있으므로, 오픈소스의 바다에서 옥석을 가리고 내게 필요한 것을 적절하게 취할 수 있는 능력이 SW엔지니어들의 경쟁력이 될 것”이라고 조언했다.


빅데이터와 인공지능의 융합을 통한 가치창출
정성원 데이타솔루션 빅데이터 러닝센터 총괄상무

두 번째 세션은 정성원 데이타솔루션 빅데이터 러닝센터 총괄상무가 ‘빅데이터와 인공지능의 융합을 통한 가치창출’이라는 주제로 발표했다.

먼저 정성원 상무는 AI는 성능에 따라 크게 세 가지로 분류할 수 있다고 설명했다. 오늘날의 AI는 제한된 범위에서 인간의 역할을 보조하고 있는 약 AI(Artificial Narrow Intelligence)에 불과하다. 컴퓨터를 활용한 산술연산이나 정보 검색을 통한 퀴즈 풀이, 음성 인식, 상품 추천, 자율주행 등 대다수의 AI 기술은 약 AI 수준에 머물러있다. 향후 2040년에는 인간의 지능 수준을 거의 동등하게 재현할 수 있는 강 AI(Artificial General Intelligence)가 출현할 것으로 예상된다. 알파고 제로(AlphaGo Zero)의 경우 약 AI와 강 AI 사이에 위치하고 있다. 앞으로 2060년에 이르면 인간의 지능을 최소 1,000배 이상 앞지르는 슈퍼 AI(Artificial Super Intelligence)가 등장할 것이다.

AI에 대한 전 세계적 관심이 크게 증가하면서 AI의 발전 속도는 기하급수적으로 가속화되고 있다. 실제로 유관 기술이라고 할 수 있는 빅데이터나 머신러닝에 비해, AI에 대한 관심은 2016년까지 지극히 낮은 수준에 머물러있었다. 하지만 2016년 3월, 전 세계적으로 가장 유명한 AI인 알파고가 이세돌을 무너트리자 AI는 빅데이터와 머신러닝을 누르고 가장 큰 관심사로 떠올랐다. 국내에서는 최근 몇 년 사이에 서울대, 연세대, 고려대, 카이스트, 포스텍 등 주요 대학교가 AI 관련 학과나 대학원, 위원회 등을 신설하는 등 높은 관심을 보이고 있다.

AI 기술 중 산업계에서 가장 먼저 도입되기 시작한 것은 단연 챗봇(Chatbot)이다. 오늘날 인터넷 상에서 고객에게 비대면으로 상품을 소개하거나 상담 서비스를 제공하는 챗봇을 쉽게 찾아볼 수 있다. 처음에 검색 기반의 질의응답 수준에 머물러있던 챗봇은 고객과의 소통을 강화하고 성향을 파악해 맞춤형 상품을 추천할 수 있는 수준까지 진화했다. 챗봇을 처음으로 유통업계에 적용한 것은 일본의 의류 유통업체인 유니클로로, 2017년 구글의 ‘api.ai’라는 애플리케이션을 바탕으로 대고객 서비스를 제공하는 챗봇 ‘유니클로 IQ’를 개발했다. 고객이 챗봇 서비스에 원하는 코디나 패션 트렌드를 입력하면 그에 맞는 상품들을 검색해 장바구니에 담고 구매 화면까지 원스톱으로 연결한다.

챗봇에서 한 걸음 더 나아가면 채팅이 아닌 음성으로 AI와 소통하는 서비스가 출현한다. 음성인식 기반의 AI 서비스로 대표적인 것이 바로 AI 스피커다. 아마존이 처음으로 ‘에코’를 출시한 이후 구글은 ‘구글 홈’을 출시하며 이에 맞섰다. 국내에서는 SKT ‘누구’, KT ‘기가지니’, 네이버 ‘웨이브’ 등이 출시됐다.

흥미로운 점은 AI 스피커 중 가장 자연스러운 대화가 가능하다는 ‘구글 홈’이 아마존 ‘에코’보다 시장 점유율이 훨씬 낮다는 점이다. 2018년 기준 ‘구글 홈’의 점유율은 30% 정도에 머물러있지만, 아마존 ‘에코’는 66%로 두 배 이상을 기록했다.

이는 고객들이 AI 스피커에 가장 기대하는 것이 자연스러운 대화 성능이 아니며, 대화 이후에 이어지는 서비스라는 것을 의미한다. 아마존은 전 세계에서 가장 큰 이커머스 플랫폼을 운영하면서 사용자에게 최적화된 알고리즘 기반 추천 시스템 ‘A9’를 갖추고 있다. ‘A9’는 2.1억 명에 달하는 아마존 고객들의 구매내역과 결제정보, 뛰어난 머신러닝 응용 알고리즘을 바탕으로 고객에게 최적의 상품과 서비스를 제공할 수 있었다.

AI 기반의 추천 서비스는 이제 한계가 없을 정도로 다양한 분야에서 활용되고 있다. ‘인터레스트 위젯(Interest Widget)’은 스마트폰으로 쇼핑몰을 살펴보고 있는 고객의 움직임을 감지해 관련 상품을 표시하거나 개인화된 제품 목록을 보여주는 서비스다. 상품 구매 가능성이 높다고 판단되거나 망설임이 감지되면 관련된 쿠폰을 제시해 구매를 유도하기도 한다. 해당 서비스는 머신러닝 엔진인 ‘이모션 I/O(Emotion I/O)’가 사용자의 시선이나 표정을 추적해, 지금 살펴보고 있는 상품을 살 의지가 어느 정도인지를 확인할 수도 있다. 실제로 ‘인터레스트 위젯’을 적용한 쇼핑몰은 상품 구매 전환율이 10% 이상 개선된 바 있다.

정성원 상무는 “다양한 분야의 AI 활용 사례를 살펴본 결과, AI가 발전하려면 꼭 필요한 3대 요소가 있다는 것을 확인했다”며, “첫 번째는 AI의 재료가 되는 학습용 데이터, 두 번째는 뛰어난 성능을 발휘하기 위한 학습 알고리즘이다. 마지막으로 가장 중요한 것은 방대한 데이터와 복잡한 알고리즘을 감당할 수 있을 만큼 빠른 처리 역량 갖춘 고성능 컴퓨터”라고 강조했다.

AI 발전을 위해서는 데이터와 알고리즘, 고성능 컴퓨터가 모두 갖춰져야 한다.

정성원 상무는 뛰어난 컴퓨팅 성능이 확보되지 않으면 AI 프로젝트에 소요되는 시간과 비용이 크게 늘어날 수 있다고 설명하며, AI 프로젝트에 최적화된 기능을 갖춘 델테크놀로지스의 서버 솔루션 ‘파워에지(PowerEdge)’를 소개했다. AI 학습 성능에 GPU의 중요성이 높아지고 있는 가운데, ‘파워에지’ 서버는 높은 I/O 처리량과 동일한 상면 내에 다수의 GPU를 설치할 수 있다는 장점으로 AI 프로젝트에 최적화된 성능을 갖췄다.

또한 정성원 상무는 대다수의 머신러닝 프로젝트가 클라우드 기반으로 추진되고 있다는 점을 지적하며, 클라우드 환경에 최적화된 델테크놀로지스의 ‘레디 솔루션 포 AI(Ready Solution for AI)’이 효과적인 해결방안이 될 수 있다고 설명했다. ‘레디 솔루션 포 AI’는 엔비디아 GPU 기반의 딥러닝 클러스터 관리 및 모델링 프레임워크를 포함하고 있으며, 간소화된 AI 검증 솔루션과 고성능 컴퓨팅(HPC) 성능을 제공한다.

정성원 상무는 “공급이 소비를 추월한 오늘날, 고객들은 자신에게 맞춰 개인화되고 지능화된 상품을 추천받기를 원한다. 이러한 서비스를 제공하기 위해서는 데이터를 효과적으로 분석 및 활용할 수 있는 데이터 과학자와 솔루션이 갖춰져야 한다”며, “국내는 아직 데이터의 활용 능력이 글로벌 기업에 비해 크게 부족하다. 기업에서는 현재 보유하고 있는 데이터가 많든 적든 간에 발빠르게 데이터 활용 프로젝트를 시작해 관련 역량을 강화할 필요가 있다”고 강조했다.


건강 데이터 기반의 AI 서비스
송세헌 메타빌드 지능융합센터 팀장

송세헌 메타빌드 지능융합센터 팀장은 ‘건강 데이터 기반의 AI 서비스’ 구축사례를 소개했다.

최근 의료‧헬스케어 분야에서는 ▲진료 기록, 보험 청구정보, 학계 연구 등과 같은 기존 데이터에 ▲웨어러블 디바이스를 통해 수집한 생체 데이터, IoT 센서로 수집한 실시간 환자 상태 정보, 소셜 데이터 등 신규 데이터를 결합해 새로운 제품과 서비스를 개발하고 있다. 이러한 시도는 실시간 환자 모니터링 및 건강 관리, 의료 이미지 분석과 인사이트를 통한 위험 분석, 신약 개발이나 의료 가상비서 개발에 이르기까지 다방면으로 성과를 내고 있다.

국내에서는 이미 방대한 의료 데이터가 마련돼있다. 예를 들어 공공에서는 국민건강보험공단이 보험료‧진료‧검진 등 약 3조 4천억 건의 데이터를 보유하고 있으며, 건강보험심사평가원은 진료‧투약내역‧의약품 등에 대해 약 3조 건의 데이터를 가지고 있다. 국립암센터 역시 암 발생 현황 통계 등 유용한 데이터를 다수 갖추고 있다. 하지만 공공 의료 데이터의 민간 활용은 제대로 이뤄지지 않고 있다. 방대한 데이터를 갖추고 있음에도 극히 일부의 데이터만이 코호트(Cohort) 형태로 개방되고 있는 실정이다.

민간의 경우에는 개인이나 기업 의료기관에서 임상 기록을 포함한 다양한 데이터를 EMR 형태로 구축하고 있다. 의료기관이나 기업에서 이러한 데이터를 활용해 가치를 창출하고 있지만, 디지털 헬스케어나 제약사 등에서의 활용은 미미하다.

의료 데이터는 질병 진단이나 예측, 맞춤형 의료 서비스 개발, 의료 AI나 신약 개발 등 다방면에서 활용될 수 있다. 잠재적으로는 국내에서만 약 2,456억 원, 국제적으로는 약 14조 원에 달하는 가치를 창출할 것으로 예상된다. 이미 미국이나 핀란드, 일본 등은 정부 주도로 데이터 기반의 미래 의료 기술 개발 및 산업 혁신 전략을 추진하고 있어, 우리나라 역시 발빠른 대응이 필요한 상황이다.

이에 메타빌드는 국내 의료 데이터 기반의 혁신을 주도하기 위해 AI 서비스 개발을 추진하게 됐다. 해당 연구는 고령 인구를 대상으로 하는 장기요양보험 제도를 AI 기반으로 최적화하는 것을 목표로 했다. 장기요양보험 제도는 65세 이상의 노인 또는 노인성 질환을 가진 사람들에게 제공되는 사회보험 서비스로, 우리나라가 초고령 사회로 진입하고 있다는 점을 고려할 때 지속적으로 중요성이 높아질 것으로 예상된다.

하지만 장기요양보험 제도의 혜택을 받고 있는 사람은 많지 않다. 이는 장기요양보험 제도가 신청자에 한해 제공될뿐더러, 대면 조사를 통해 90여 개 항목을 통과한 경우에만 수급 대상이 될 수 있기 때문이다. 이에 따라 대상자의 13.9%만이 장기요양보험 제도를 신청했으며, 신청자의 9.6%만이 수급 대상자로 인정받았다. 만약 AI를 활용해 장기요양보험 제도의 대상자 심사와 수급 절차를 개선한다면 노인복지 사각지대를 해소할 수 있을 뿐만아니라, 노인들의 질환 및 심신 상태 모니터링을 통해 악화를 방지하고 장기요양보험 진입시기를 지연함으로써 사회적 비용을 절감하는 효과도 거둘 수 있을 것으로 기대된다.

메타빌드는 건강보험 및 장기요양보험 등의 빅데이터 분석과 AI를 활용해 ▲장기요양보험 수급 예측 서비스 ▲맞춤형 요양 서비스 개발에 나섰다. 먼저 수급 예측 서비스는 정책결정자와 일선 업무담당자들을 위한 것으로, 국민건강보험 업무포털 시스템에 적용돼 보험 미신청자들을 발굴하고 수급 예측 모델을 제공한다. 맞춤형 요양 서비스는 노인 및 보호자 등을 위한 대국민 서비스로, 국민건강보험 홈페이지를 통해 유용한 건강 정보나 맞춤형 요양 서비스에 대한 정보를 제공하는 것을 목표로 한다.

이러한 서비스 개발에는 건강보험 자격, 진료 명세, 건강검진/문진 등 국민건강보험공단이 보유하고 있는 2조 5천억 건 이상의 방대한 의료 데이터가 활용됐다. 이러한 데이터를 인구학적 정보와 노인성/대사성 질환 정보, 건강상태 및 생활패턴에 대한 정보 등으로 분류하고 정제·가공 과정을 거쳐 신경망 학습이 가능한 데이터로 변환했다. 또한 기상청이 보유한 생활기상지수, 보건기상지수 등의 데이터와 워크넷의 노인 구인 정보 등을 더해 차후 유용한 서비스를 제공할 수 있는 기반을 갖췄다.

메타빌드가 개발한 국민건강보험공단의 장기요양보험 수급 예측 시스템
메타빌드가 개발한 국민건강보험공단의 장기요양보험 수급 예측 시스템

이를 통해 개발된 AI 기반 서비스는 현재 국민건강보험 업무포털 시스템에 적용돼 ▲장기요양보험 예측 현황 및 통계 정보 ▲수급 신청자 예측 및 개인별 예측 결과 ▲나이대별, 질환별 통계 기반 수급 예측 정보 등을 제공하고 있다. 또한 국민건강보험 홈페이지의 맞춤형 요양 서비스는 사용자가 본인의 데이터를 입력하면 건강보험공단의 데이터와 결합해 질환 예측과 건강 지식, 전문가 칼럼 등 다양한 콘텐츠들을 제공한다. 또한 기상청의 데이터를 활용해 자외선 지수, 식중독 지수, 천식폐질환 가능지수, 뇌졸중 가능지수 등 건강 관리에 위협이 될 수 있는 요소들을 제공하고 있다.

향후 메타빌드는 AI 플랫폼 기술을 활용해 장기요양보험과 관련한 추가적인 서비스들을 개발할 계획이다. 가령 현재 장기요양보험과 관련된 수급자 상담은 한 명의 상담사가 획일화된 질문으로 진행하고 있어 개인별 맞춤형 정보 확인이 어렵고, 6개월에 한 번씩 진행돼 급격한 상태변화를 파악하기 어렵다는 문제가 있다. 메타빌드는 건강보험공단의 데이터를 활용해 개인 상담 이력과 노인 상태 모니터링 모델을 개발하고, 상담 서비스에 접목할 수 있는 지식 베이스를 구성해 노인별로 맞춤형 상담을 제공할 계획이다.

송세헌 팀장은 “메타빌드는 국민건강보험공단과 함께한 스마트 헬스케어 사례 외에도 스마트 시티, 스마트 교통 등 다양한 분야에서 성공적인 AI 플랫폼 레퍼런스를 보유하고 있다”며, “앞으로도 메타빌드는 최고의 AI 기술로 사회 현안 해결을 도모하는 데에 최선을 다할 것”이라고 강조했다.


빅데이터 분석/활용을 위한 데이터 거버넌스 프레임워크
정동원 비투엔 근무 전략사업본부 거버넌스전략팀 팀장(이사)

마지막 세션에서는 정동원 비투엔 전략사업본부 거버넌스전략팀 이사가 연사로 나섰다. 정동원 팀장은 최근 다양한 산업 분야에서 데이터 거버넌스 사업이 추진되면서 관련 기술과 트렌드가 빠르게 변화하고 있다고 강조하며 ‘빅데이터 분석/활용을 위한 데이터 거버넌스 프레임워크’라는 주제에 대해 발표했다.

먼저 정동원 이사는 데이터 거버넌스가 무엇인지를 정의해야 한다고 밝혔다. 이미 거버넌스라는 단어가 많은 영역에서 사용되고 있지만 정확히 무엇을 의미하는지에 대해서는 이견이 있다는 설명이다. 이에 대해 정동원 이사는 데이터 거버넌스를 ‘기업이 데이터를 체계적으로 생산·관리하고, 해당 데이터를 사용자가 효과적으로 사용·활용할 수 있도록 하기 위한 일련의 업무’로 정의했다. 여기에 더해 해당 업무를 수행하기 위한 원칙과 기준, 조직 및 R&R, 관련 업무 도구(시스템)까지가 모두 데이터 거버넌스의 정의에 포함될 수 있다.

최근 기업들은 AI와 빅데이터에 관련된 투자를 과감하게 진행하고 있다. 하지만 과감한 투자를 진행했음에도 불구하고 성공 사례를 찾기는 쉽지 않다. 실패 이유로는 분석 인프라의 낮은 퍼포먼스, 관련 기술의 미성숙, 데이터 사이언티스트의 역량 부족, 분석 가능한 데이터의 부족 등이 꼽힌다. 기업이 AI와 빅데이터에 대한 투자를 성공시키고 활성화하기 위해서는 먼저 이와 같은 요소들에 대해 정확한 원인 분석과 진단이 이뤄져야 한다. 이러한 원인 분석과 진단은 데이터 거버넌스 프레임워크가 갖춰야 할 필수 요소다.

이어서 정동원 이사는 AI·빅데이터 관리를 위한 데이터 거버넌스 프레임워크가 기존과 어떻게 달라져야 하는지 설명했다. 먼저 첫 번째는 데이터의 운영·관리뿐만 아니라 활용 측면을 고려해야 한다. 과거에는 데이터가 비즈니스 수행의 결과물 정도로만 관리되고 단순한 기록물로 축적됐다. 하지만 데이터에서 새로운 가치를 발견하고 기존의 문제를 개선하기 위한 도구로 사용하려면, 데이터를 수집·저장하는 단계에서부터 활용 측면을 고려해야 한다.

두 번째는 데이터의 현황(As-Is)에 대한 진단과 미래 방향성(To-Be)을 설계할 수 있어야 한다. 과거에 사용된 ISP 방법론 같은 경우, 정보화 전략의 현황을 진단하고 개선하는 일련의 행위가 담겨 있지만 향후 지속적으로 운영하는 부분은 고려하지 않았다는 한계가 있다. 하지만 데이터 거버넌스 프레임워크는 단순히 일회성 프로젝트를 위한 도구로 활용되는 것이 아니라, 향후에도 지속적으로 기업의 데이터 거버넌스를 관리하고 운영할 수 있는 구조로 개발돼야 한다.

마지막으로 데이터 거버넌스 프레임워크는 유동성을 갖춰야 한다. 데이터 거버넌스 프레임워크를 구축했다고 하더라도 기업의 목표와 주변을 둘러싼 비즈니스 환경은 빠르게 변화하고 있다는 점을 간과해서는 안된다. 따라서 데이터 거버넌스 프레임워크 역시 변화에 대응할 수 있는 형태로 구성되는 것이 바람직하다.

그렇다면 데이터 분석이 활성화되기 위해서는 데이터 거버넌스 프레임워크가 어떤 역할을 수행해야 할까? 이에 대해 정동원 이사는 데이터가 사용자에게 전달될 때 ▲활용 가능한 품질·포맷으로 ▲적절한 시점에 ▲효과적인 방식으로 전달돼야 하며, 사용자는 최적의 방법으로 데이터를 활용해 유의미한 결과를 얻을 수 있어야 한다고 강조했다.

비투엔의 데이터 거버넌스 프레임워크
비투엔의 데이터 거버넌스 프레임워크

이를 위해 비투엔은 전사적인 데이터 라이프 사이클을 먼저 고려한 데이터 거버넌스 프레임워크를 구축했다. 비투엔의 데이터 거버넌스 프레임워크는 데이터가 생산·저장·가공·활용되는 일련의 과정을 고려해 ▲안정적·체계적 데이터 생산 및 운영 관리 ▲데이터 관리의 지능화 ▲데이터 활용 최적화 등 3개의 레이어로 구분돼있다. 이에 대해 정동원 이사는 “일반적인 데이터 거버넌스 프레임워크를 보면 가장 먼저 기업의 최종적인 비전이 있고, 그 아래에 세부적인 목표와 정책이 정의된다. 반면 비투엔은 데이터 거버넌스 프레임워크가 다뤄야 할 주요 모듈별로 목표와 정책, 원칙·기준·절차·도구 등을 각각 정의해 차별화하고 있다. 프로젝트 현장에서도 이와 같이 개별적으로 정의된 프레임워크가 더 이상적이라고 생각한다”고 설명했다.

끝으로 정동원 이사는 비투엔의 데이터 거버넌스 프레임워크를 실제 산업 현장에 적용한 사례를 소개했다. 해당 프로젝트에서는 먼저 비즈니스 현황 분석을 통해 기업의 데이터 거버넌스 체계와 관리 형태를 점검한 결과, 데이터 분석가들이 원하는 데이터를 찾기 어려워한다는 문제점이 발견됐다. 이에 따라 비투엔은 데이터 공유 활용 지원 시스템 구축이라는 목표를 설정하고 ▲데이터셋과 메타DB 구축 ▲데이터셋에 대한 검색 및 조회 기능 구축 ▲유관 시스템과의 연계 체계 구축 등을 단계적으로 수행했다. 또한 향후 데이터 거버넌스 프레임워크가 지속적으로 관리‧운영될 수 있도록 업무 프로세스 분석을 수행해, 각 업무별로 필요한 인력과 수행에 필요한 시간 등을 산출해 제공했다.

정동원 이사는 “만약 기업에서 AI‧빅데이터 환경에 대해 많은 투자를 진행했으나 아직 충분한 결과를 얻지 못한 상황이라면, 데이터 거버넌스에 대한 수립 또는 운영에 대한 고민이 필요한 시점”이라고 강조했다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지