[지상중계] 하이브리드 IT 시대의 데이터 전략을 논하다

본지, 제18회 ‘2021 데이터 컨퍼런스’ 개최

[컴퓨터월드] 본지(컴퓨터월드/IT DAILY)가 지난달 25일 양재동 엘타워에서 ‘제18회 2021 데이터 컨퍼런스’를 개최했다. 이날 행사는 ‘성공적인 하이브리드 데이터 플랫폼을 위한 A to Z’라는 주제로, 각계 전문가와 기업들이 다양한 데이터 관련 솔루션들과 사례들을 공유하며 성공을 위한 인사이트를 공유했다.

클라우드의 영향력이 증가하면서 기업들의 IT 인프라가 온프레미스와 클라우드를 아우르는 하이브리드 환경으로 옮겨가고 있다. 하이브리드 환경에서는 데이터가 생성 및 활용되는 포인트가 증가해 관리해야 할 범위가 늘어나면서 전 세계 기업들이 자사의 데이터 관리 역량을 재차 점검하게 만든다. 아무리 정확한 데이터 분석 시스템을 갖추고 있다고 하더라도 원하는 데이터를 적시에 찾고 활용할 수 없다면 무용지물이기 때문이다.

이번 ‘2021 데이터 컨퍼런스’는 복잡한 하이브리드 IT 환경에서 데이터를 손쉽게 찾고 활용할 수 있는 전략을 제시하기 위해 마련됐다. 또한 마이데이터와 메타버스, 그래프DBMS 등 최신 IT 기술과 트렌드를 데이터 관점에서 살펴보는 시간도 준비됐다.

“혁신 위해서는 현상이 아닌 원인 분석 필요하다”

가장 먼저 연단에 오른 것은 한국데이터마이닝학회 회장을 맡고 있는 김용대 서울대학교 통계학과‧데이터사이언스학과 교수였다. 김용대 교수는 ‘상관관계에서 인과관계로 : 데이터 과학의 새로운 흐름’이라는 주제로 축사 및 키노트 발표를 진행했다. 과거부터 현재까지 데이터를 활용하는 방법이 변화해온 양상을 소개하고, 최근 전 세계적으로 분석의 트렌드가 상관관계 분석에서 인과관계 분석으로 옮겨가고 있다고 설명했다.

유사 이래로 데이터로 할 수 있는 일들은 점점 늘어나고 있다. 과거에는 왕정이나 정부 등 지배 계층이 원활한 통치를 위해 데이터를 수집하고 활용했다. 세금을 걷고 병사를 징집하기 위해서는 영지 내 인구나 재화 생산에 대한 통계적인 정보가 필요했다. 이러한 통치 관점의 데이터 활용은 정치 산술이라고 불리기도 했다. 이후 18세기 프랑스 대혁명 이후에는 국민들의 생활을 분석하고 개선하기 위한 사회통계가 발달했고, 19세기에는 본격적이고 현대적인 통계학이 탄생해 합리적인 데이터 분석 방법에 대한 연구가 등장했다.

지난 20세기에서부터 현재의 21세기에 이르기까지, 데이터는 하나의 학문이나 과학의 영역을 넘어 실전적으로 산업을 혁신하는 원동력이 됐다. 과거의 데이터로 현상을 분석하고 기록하는 것만이 아니라, 기업이 자사의 비즈니스를 개선하고 생산력을 높여 돈을 벌기 위한 수단으로 활용되고 있다. 김용대 교수는 “오늘날 기업들은 데이터 분석을 통해 손쉽게 비즈니스 현황을 파악하거나 보다 개인화되고 미시적인 예측을 할 수 있게 됐다”며, 구글이나 AT&T 등 데이터를 통해 빠르게 성장하고 있는 핵심 기업들에 대해 소개했다.

김용대 교수는 이어 최근 전 세계적으로 데이터 분석의 관심이 상관관계 분석에서 인과관계 분석으로 옮겨가고 있다고 설명했다. 상관관계는 수집한 데이터와 변수 사이에서 공통적으로 발생하는 현상이다. 그들 사이의 관계는 구체적으로 알 수 없으나, 통계적으로 A와 B의 그래프가 함께 움직인다면 이들 사이에 어떤 상관관계가 있을 것이라고 판단한다. 예를 들어 담배를 피우는 사람이 폐암에 걸릴 확률이 높다거나, 커피를 마시면 수명이 늘어난다거나, 게임을 많이 하면 성적이 떨어진다거나 하는 식이다. 오늘날 비즈니스 현장에서 활용되는 대다수는 상관관계 분석이다.

반면 인과관계 분석은 A와 B 사이의 직접적인 원인-결과 관계를 찾는 것이 목표다. 예를 들어 일반적으로 고기 소비량이 많은 나라는 평균 수명이 길다. 두 데이터의 상관관계를 분석하면 고기 소비량과 평균 수명은 연관이 있는 값처럼 보이지만, 인과관계를 분석해보면 둘 사이에는 직접적인 관계가 없다는 것을 알 수 있다. 단순히 국민들의 소득 수준이 높은(GDP가 높은) 나라가 고기 소비량이 많고 뛰어난 의료시설 덕분에 평균 수명도 길 뿐이다. 다른 예시로는 소아마비 발병률과 아이스크림 판매량이 있는데, 두 데이터들을 1년 주기로 그래프에 그려보면 비슷하게 움직이는 것을 알 수 있다. 하지만 아이스크림이 소아마비를 유발하는 것도, 소아마비가 아이스크림 판매를 촉진하는 것도 아니다. 둘 사이에는 ‘기온’이라는 제3의 공통된 원인이 있다.

김용대 교수는 “이미 미국 방위고등연구계획국(DARPA)은 대규모 인과추론 프로젝트를 수행했으며, AAAI나 NeuroIPS, ICML 등 수많은 글로벌 학회에서도 인과관계 분석 연구성과들이 속속 발표되고 있다”며, “상관관계 분석이 ‘어떤 학생이 성적이 좋을까?’와 같이 예측을 목표로 하는 것이라면, 인과관계 분석은 ‘성적이 좋아지는 원인이 무엇일까?’처럼 원인을 찾는 것이 목표다. 단순히 과거 데이터에 대한 통계적 분석을 넘어 실제 원인을 찾고 변화를 일으킬 수 있는 요인을 제시한다”고 설명했다.

별이 다섯 개! 통합UI솔루션, AUD플랫폼

김용대 교수의 축사 및 키노트에 이어, 배영근 비아이매트릭스 대표가 ‘2021 데이터 컨퍼런스’의 첫 번째 세션을 맡았다. 배영근 대표는 ‘별이 다섯 개! 통합UI솔루션, AUD플랫폼’이라는 주제로 발표에 나섰다.

배영근 대표는 먼저 “IT 조직은 비즈니스 조직의 요구사항이 적힌 설계서를 바탕으로 기능과 화면을 개발해야 한다. 비즈니스 조직의 요청에 따라 반복적으로 프로그램을 짜는 것은 귀찮고 번거로운 작업이다”라며, “만약 비즈니스 조직의 요구사항을 입력하면 자동으로 UI와 기능이 개발되는 제품이 있다면 매우 편리할 것”이라고 밝혔다. 또한 IT 기술이 발전하면서 이와 같이 편리하고 자동화된 개발도구가 현실화되고 있다며, 자사의 통합 UI 플랫폼 ‘AUD플랫폼’과 엑셀 기반의 HTML5 자동 생성 기술을 소개했다.

배영근 대표는 혁신을 위해서는 기존의 것을 배제하고 뛰어넘는 방식을 취해야 하고, 한편으로는 간결하고 쉬운 방법을 제시해야 한다고 강조했다. 이를 설명하기 위해 우리나라와 일본의 기차역 개찰구 시스템, 과거의 전자기기와 오늘날의 스마트폰 등을 예시로 들었다.

과거에 우리나라와 일본 기차역에서는 역무원이 개찰구에서 승객들의 티켓을 확인한 후 펀칭기로 구멍을 뚫어 표시를 남겼다. 이러한 비효율적인 업무 방식을 개선하기 위해 일본은 자동화된 개찰구 시스템을 개발했다. 승객이 개찰구에 마련된 기계에 티켓을 집어넣으면 자동으로 운행 정보를 확인하고 펀칭기로 구멍을 뚫어준다. 해당 기계의 성능은 매우 뛰어나서 티켓을 여러 장 넣거나 뒤집어 넣어도 순식간에 처리된다. 일본은 한 대당 수천만 원을 들여 대부분의 기차역에 고도화된 개찰구 시스템을 구축했다. 반면 우리나라는 개찰구 자체를 없애는 선택을 했다. 대신 부정승차를 방지하기 위해 차 내에서 승무원이 소지한 단말기로 예매 정보를 확인할 수 있도록 했다. IT 기술로 기존의 업무 방식을 개선하는 대신 파격적인 배제와 혁신을 도입했다.

한편 과거의 전자기기들은 구매 후 사용하기 전에 설명서를 읽어보는 게 일반적이었다. 세탁기나 비디오와 같은 가전제품을 조작하기 위해서는 설명서를 참조해야 했고, 폴더폰처럼 기능이 많은 전자기기에는 두툼한 설명서가 반드시 딸려왔다. 반면 오늘날 출시되는 스마트폰들은 기존의 어떤 전자기기보다 기능이 다양하고 복잡하지만, 사용자들이 조작법을 알기 위해 설명서를 참조하는 경우가 드물다. 이는 터치, 슬라이드, 오므리기/넓히기 등 쉽고 직관적인 UI가 갖춰져 있기 때문이다.

비아이매트릭스의 통합 UI 플랫폼 ‘AUD플랫폼’은 이러한 혁신의 두 가지 요소를 모두 적용했다. 전통적인 분석-설계-개발-테스트 등 복잡한 4단계 워터폴 모델(Waterfall Model)을 파격적으로 줄여 화면 개발과 데이터 연동까지 1단계로 수행하고, 3가지 SW봇(bot)을 포함한 12개의 아이콘만으로 모든 기능을 통합해 설명서가 필요없는 쉽고 직관적인 UI를 구성했다.

배영근 대표는 “전 세계적으로 로우코드(low-code), 노코드(no-code) 열풍이 불고 있다. 아마존, 마이크로소프트, 구글, 오라클까지 다들 로우코드, 노코드 솔루션을 만들고 있다. 그런데 그들의 툴은 코딩을 줄인 대신 세팅해야 하는 것들이 너무 많아 어렵고 복잡하다”며, “비아이매트릭스의 ‘AUD플랫폼’은 뛰어난 기능을 제공하면서도 간결한 UI 구성을 통해 초심자도 간단히 익히고 사용할 수 있는 혁신적인 제품”이라고 강조했다.

데이터 분석 및 머신러닝에 특화된 전문 RDBMS “벡터” 활용 사례

두 번째 세션은 ‘데이터 분석 및 머신러닝에 특화된 전문 RDBMS “벡터(Vector)” 활용 사례’라는 주제로, 김정중 이글로벌시스템 빅데이터사업부 이사가 발표에 나섰다.

김정중 이사는 “빅데이터에 대한 담론에서 중요한 것은 우리가 지금까지 겪어보지 못했던 문제들을 맞이해 많은 데이터 속에서 해결책을 찾고 테스트하면서 결과를 얻는 과정이다. 특히 데이터 사이언스 분야에서는 과학적인 방법론, 프로세스와 알고리즘에 대한 개선이 사회적인 문제들을 어떻게 인식하고 개선할 것인가에 초점이 맞춰져 있다”며, “4차 산업혁명 시대에는 이익집단들이 지능 환경이라는 형태 속에서 데이터를 보는 시각을 넓히고 있으며, 다양한 분야에서 상호 결합되는 데이터들을 어떻게 바라볼 것인지를 고민하고 있다”고 설명했다.

자동화된 제조 공정에서는 분석을 위한 데이터들을 어떻게 수집하고 관리하며 분석할 것인지가 중요한 이슈로 떠올랐다. IoT 센서를 통해 수집되는 데이터는 매우 복잡하고 방대해 기존의 방법론으로 모든 공정의 데이터를 관리하고 분석하는 것은 불가능에 가깝다. 그렇다고 전체 데이터에서 일부 샘플만을 추출해 분석할 경우, 샘플 데이터가 나머지 모든 데이터를 대변할 수 있을 거라고는 기대하기 어렵다. 제조 공정의 불량률이 0.1% 수준이라면 전체의 1%에 불과한 샘플 데이터만으로 어떻게 이상 사례를 파악할 수 있겠는가?

많은 어려움이 산적해 있음에도 불구하고, 자동화된 제조 공정에서 데이터 수집과 분석을 하지 않을 수는 없다. 전체 제조 시스템을 관리하기 위해서는 결국 데이터에 대한 철저한 수집과 분석이 필요하다. 데이터를 통해 제조 공정을 통제하지 않으면 불시에 시스템 다운이 발생해 심각한 비즈니스 손실을 야기할 수 있다. 이러한 상황을 미연에 방지하기 위해서는 전체 공정 데이터를 실시간으로 빠르게 수집‧분석하고 문제 상황을 찾아낼 수 있는 시스템이 요구된다. 또한 데이터를 기반으로 제조시설의 성능과 가동률을 향상시킬 방법을 찾아 천문학적인 비용 절감과 생산성 향상을 도모할 수도 있다.

김정중 이사는 액티언의 ‘벡터(Vector)’를 통해 제조 공정에서 생산되는 방대한 데이터를 처리하고 분석할 수 있다고 설명했다. 김정중 이사는 “‘벡터’는 빅데이터 처리와 분석에 특화된 전문 DBMS”라고 소개하며, 국내 반도체 제조 공장에 도입돼 데이터 기반의 혁신을 도모한 사례를 공유했다. 기존에 해당 공장에서 사용하던 대용량 DBMS는 한 번에 10억 건의 데이터를 분석할 수 있었으나, ‘벡터’ 도입 이후 5천억 건의 데이터를 동시에 분석할 수 있게 돼 효율이 크게 향상됐다. 분석 용량 역시 기존의 1테라바이트에서 300테라바이트로 증가했으며, 데이터 수집·저장 기간도 일 단위에서 1년으로 증가했다.

김정중 이사는 “우리가 액티언의 ‘벡터’를 통해 도모하는 것은 제조 공정에서 축적되는 데이터를 실시간으로 분석해 이상현상을 발견하거나 인사이트를 얻는 것”이라며, “데이터를 통한 개선은 하루아침에 이뤄지는 게 아니라, 축적된 노하우와 프로세스를 얼마나 실제 데이터에 잘 적용하느냐에 달려있다”고 강조했다.

데이터 관점에서 바라본 메타버스

다음 세션은 양경철 데이터스트림즈 지능데이터사업부문 사업개발센터 공공그룹장이 맡았다. 양경철 그룹장은 ‘데이터 관점에서 바라본 메타버스’라는 주제로, 최근 화제가 되고 있는 메타버스에 대해 분석하고 데이터 산업과의 관계를 설명하는 시간을 가졌다.

양경철 그룹장은 먼저 진보된 인터넷, 현실공간과 가상공간의 융합, 또 다른 자아 정체성으로 활용하는 플랫폼 등 메타버스를 정의하는 다양한 표현들을 소개했다. 메타버스는 최근에야 주목받은 기술인만큼 아직 그에 대한 정의가 명확하지 않고, 증강현실(AR)이나 라이프로깅, 거울세계 등 유형별 분류 체계 역시 만들어지지 않았다. 국내에서는 문화체육관광부(문체부)가 ‘아바타로 현실의 활동과 그 이상의 경험을 할 수 있는 디지털 세계’로 정의한 사례가 대표적이지만 이 역시 메타버스를 정확히 표현했다고 보기는 어렵다.

국내에서는 정부가 한국형 뉴딜 2.0 프로젝트를 발표하면서 메타버스를 디지털 분야의 핵심 키워드 중 하나로 꼽았다. 과학기술정보통신부(과기부)는 메타버스 얼라이언스를 모집해 관련 기술과 산업 육성에 나서고 있고, 문체부 역시 메타버스 콘텐츠 제작에 예산을 지원해 한국형 디지털 콘텐츠를 만드는 등 적극적인 활동을 추진 중이다. 한편 민간시장에서는 금융 업계가 가장 빠르게 메타버스 시장에 뛰어들고 있다. 신한은행은 자체 메타버스 플랫폼 구축에 나서고 있으며, NH농협은행도 금융과 게임을 통합한 ‘NH독도버스’ 오픈을 준비 중이다. 이외에 이동통신사나 제조 기업들도 메타버스를 이용한 비즈니스 혁신에 나서고 있다.

그러면 데이터 산업의 관점에서 메타버스는 기존의 현실세계와 어떤 차이가 있을까? 가장 큰 특징은 세계를 구성하는 모든 요소들이 데이터로 치환될 수 있다는 점이다. 메타버스 공간을 구성하는 요소들과 사용자의 행동, 주변 사물들과의 상호작용 등이 모두 데이터로 수집될 수 있다. 가령 기존의 온라인 쇼핑몰에서는 사용자가 머무른 페이지와 확인한 상품 등에 대해 제한적인 정보만을 수집할 수 있지만, 메타버스 공간에서는 사용자의 구체적인 이동 경로나 행동, 시선이나 음성(채팅) 정보들이 모두 데이터로 수집된다. 이는 즉 기존의 현실세계보다 훨씬 더 방대하고 다양한 데이터들을 얻을 수 있다는 것을 의미한다.

양경철 그룹장은 “지금 메타버스가 받고 있는 관심은 거품이라는 지적이 있다. 하지만 메타버스의 미래가 어떻게 변할 지는 아무도 모른다. 아직 메타버스는 게임이나 가상체험, 경제활동 등 제한적인 영역에서만 활용되고 있다. 미래에는 보다 개인화된 공간, 가상 실험공간, 사회문제 실험과 해결의 장으로 발전할 것이다”라면서, “이러한 메타버스의 핵심은 데이터다. 현재 우후죽순처럼 생겨나는 메타버스들이 상호간 표준화와 융합이 활성화되면서 데이터 생산량이 크게 증가하고 관리가 중요해질 것이다. 이러한 환경에서는 메타버스의 구축과 운영을 위해 모든 데이터와 관련 프로세스, SW들을 연결하는 통합된 데이터 패브릭(data fabric)이 필요할 것”이라고 설명했다.

디지털 혁신을 위한 핵심은 ‘데이터’

‘2021 데이터 컨퍼런스’의 오전 마지막 세션에서는 최문규 메가존 이사가 연단에 올랐다. 최문규 이사는 ‘디지털 혁신을 위한 핵심은 ‘데이터’’라는 주제로 데이터 분야의 글로벌 핵심 트렌드와 기업의 현실적인 데이터 전략에 대한 인사이트를 제시했다.

과기부가 2020년 발표한 자료에 따르면 국내 데이터 산업 시장은 매년 10% 이상 성장해 약 19조 원 규모에 도달했다. 그러나 여전히 ▲지저분하고 사일로화된 데이터 ▲머신러닝, AI 등 관련 기술의 어려움 ▲데이터가 조각나(fraction) 있어서 한정적인 인사이트 ▲보안과 신뢰성, 개인정보 이슈 등 규제와 운영에 대한 어려움 등 다양한 엔터프라이즈 도전과제들이 산적해있다. 데이터 전문가에 대한 수요가 많지만 공급이 따라가지 못한다는 점도 중대한 문제다.

데이터 산업에 많은 어려움과 과제들이 있음에도 불구하고, 이것들을 천천히 해결할 여유도 없이 글로벌 데이터 생태계는 빠르게 변화하고 있다. 특히 코로나19 팬데믹으로 인해 디지털화가 급격히 진행되면서 데이터를 수집하고 분석하는 것은 그 어느 때보다 중요해졌다. 현재 글로벌 데이터 생태계에서 가장 중요한 이슈는 ▲데이터 분석을 통해 비즈니스 변화에 민첩하게 대응하고 이를 더욱 가속시키기는 것 ▲AI를 통해 기업의 효율성‧생산성을 높여 비즈니스 가치를 높이는 것 ▲원격 업무와 스마트 디바이스 활용이 증가하면서 다양한 장소로 분산되는 데이터들을 면밀히 관리하고 대응하는 것 등이다.

최문규 이사는 “전 세계 기업의 99%는 데이터를 자사의 비즈니스에 활용해 새로운 가치를 창출하고 혁신을 달성하려 한다. 하지만 성공하는 경우는 약 8%에 불과하다”고 지적했다. 급변하는 시장에서 데이터를 수집‧관리‧분석하고 이를 활용할 수 있는 의사결정 체계를 갖추는 것은 쉽지 않은 일이다.

이에 대해 최문규 이사는 “무엇보다 가장 먼저 분명한 목표를 수립해야 한다”고 조언했다. 대다수 기업들은 데이터 기반의 혁신을 추진할 때 무엇부터 시작해야 하는지, 최적의 수행경로는 무엇인지, 기술 옵션을 어떻게 최적화할 수 있는지, 비즈니스 사례는 어떻게 검증해야 하는지 등을 고민한다. 하지만 이러한 구체적인 실행 방법보다 선행돼야 할 것은 데이터 분석 프로젝트의 명확한 목표와 구체적인 요구사항을 찾는 것이다.

이에 대해 최문규 이사는 “데이터 분석은 데이터가 있기 때문에 하는 것이 아니라, 명확한 목표가 있기 때문에 하는 것이다. 데이터를 많이 모았으니까 일단 뭐라도 분석해보자든가, 데이터 분석이 유행이라고 하니 우리도 뭔가 해보자는 식의 접근법으로는 원하는 가치를 얻기 힘들다”고 덧붙였다.

데이터 주제별로 나뉘어 심도깊은 내용 공유

점심시간 이후에는 주제에 따라 두 개 트랙으로 나누어 각각 발표가 진행됐다.

트랙1에서는 ▲박민지 클루커스 데이터분석 그룹 컨설턴트의 ‘클라우드 데이터, 제대로 활용할 수 있는 3가지 원칙’ ▲김영일 퍼즐데이터 대표의 ‘프로세스 마이닝을 통한 커스터머 저니(Journey) 분석 및 프론트 엔드 프로세스 혁신’ ▲김덕하 인포매티카 프리세일즈의 ‘AI/ML을 이용한 데이터 관리와 데이터 카탈로그’ 등의 세션이 진행됐다.

또한 트랙2에서는 ▲이동우 지티원 정보기술연구소 수석의 ‘빅데이터/마이데이터를 위한 데이터 거버넌스 플랫폼’ ▲조현기 타이거그래프 기술이사의 ‘Graph DB 시대 One Cennected Data의 효용적 분석과 AI/ML’ ▲이진형 MSTR 수석 엔지니어의 ‘전사 분석 확산을 위한 BI 트렌드 및 도입 사례’ 등의 세션이 마련됐다.

클라우드 데이터, 제대로 활용할 수 있는 3가지 원칙

트랙1의 첫 번째 세션은 박민지 클루커스 데이터분석 그룹 컨설턴트가 ‘클라우드 데이터, 제대로 활용할 수 있는 3가지 원칙’에 대해 발표했다.

데이터 분석이 비즈니스 혁신을 위한 필수 요건으로 자리잡으면서 데이터 아키텍처를 새롭게 설계·구축하려는 수요가 많아지고 있다. 특히 머신러닝과 AI 기술을 활용할 수 있는 분석 시스템 마련, 실시간 데이터 분석을 위한 스트리밍 데이터 파이프라인 구축 등 고도화된 기술 수준을 필요로 하는 요구사항도 늘어나고 있다.

박민지 컨설턴트는 “데이터 분석에 대한 고객들의 요구사항이 다양해지고 있으며, 프로젝트 현장에서는 고객들의 요구를 반영해 다양한 아키텍처를 제안하고 있다. 이는 워크로드에 따라 데이터 웨어하우스(DW), 데이터 레이크, 데이터 레이크하우스 등 3가지 아키텍처로 분류할 수 있다”고 설명했다.

DW는 전통적이면서 가장 일반적인 형태다. 데이터 소스 중에서 정형 데이터를 통합해 설계한다. 스테이지 구성을 통해 데이터 마트와 BI까지 일괄적으로 구축하는 경우가 많다. 온프레미스로 구축하는 경우도 많지만, 클라우드로 구축할 경우 CSP들이 제공하는 DW 엔진과 서비스들을 활용할 수 있다. AWS의 ‘레드시프트(Redshift)’, MS의 애저 시냅스(Azure Synapse Analytics)’, 구글의 ‘빅쿼리(BigQuery)’ 등이 대표적이다.

박민지 컨설턴트는 제조 분야의 K사가 클라우드로 DW를 구축한 사례를 소개했다. K사의 핵심 요구사항은 ▲BI 대시보드 구축 ▲복수의 IDC에 분산된 DBMS를 대상으로 하는 통합 DW 구축 등이었다. 실시간 분석이 필요하지는 않아서 스트리밍 파이프라인을 구축할 필요는 없었기에 ETL 기반의 배치 처리가 가능하도록 설계했다. 기존에 온프레미스 환경에서 사용하고 있었던 DW 엔진이 있었지만, 장기적인 클라우드 전환을 위해 구글의 빅쿼리로 전환하는 프로젝트를 진행 중이다.

DW는 관련 기술이 풍부하고 비교적 저렴한 비용으로 효율적인 시스템 구축이 가능하기는 하지만, 비정형 데이터나 실시간 분석 등에 제약이 있다는 한계를 갖는다. 이 경우 DW 대신 데이터레이크 구축을 고려하는 게 좋다. 데이터레이크는 정형·비정형·반정형 등 데이터의 종류를 가리지 않고 HDFS 중심의 레이크 스토리지에 데이터를 적재한다. 여기에 AI와 머신러닝 기술을 적용하거나 실시간 데이터 분석이 가능하도록 스파크(Spark)나 카프카(kafka) 등 하둡 생태계 기술들을 활용한다.

그러나 데이터레이크 역시 완벽하지는 않다. 트랜잭션에 ACID(Atomicity, Consistency, Isolation, Durablility)를 보장하지 않고, DW보다 훨씬 복잡한 아키텍처를 필요로 한다. 만약 데이터레이크의 장점을 유지하면서 ACID를 보장받고 싶다면 데이터레이크하우스를 고려할 수 있다. 박민지 컨설턴트에 이어 발표에 나선 임상배 데이터브릭스코리아 솔루션 아키텍트는 데이터레이크 트랜잭션에 ACID를 보장하고 성능을 최적화한 ‘델타레이크(Deltalake)’를 소개했다. ‘델타레이크’를 통해 데이터레이크의 한계를 보완할 수 있을 뿐만 아니라, 스트리밍과 배치 처리를 통합해 보다 편리한 사용성을 보장한다.

박민지 컨설턴트는 “빅데이터 아키텍처를 구현하고 싶은 조직은 결국 DW, 데이터레이크, 레이크하우스 등 3가지 아키텍처에서 크게 벗어나지 않을 것”이라며, “각각의 장점과 단점을 이해하고 가공하려는 데이터 요건을 정리해 최적의 아키텍처를 구성해야 한다”고 조언했다.

프로세스 마이닝을 통한 커스터머 저니 분석 및 프론트 엔드 프로세스 혁신

두 번째 세션은 ‘프로세스 마이닝을 통한 커스터머 저니(Journey) 분석 및 프론트 엔드 프로세스 혁신’이라는 주제로 김영일 퍼즐데이터 대표가 연단에 올랐다.

디지털 트랜스포메이션이 가속화되면서 기업의 업무 방식이 크게 변화하고 있다. 업무 복잡성이 증가하면서 내부 업무에 대한 분석 역시 어려워지고 있다. 기업에서는 조직 내의 업무 프로세스를 개선하고 최적화하기 위해 노력하지만, 업무 복잡성이 증가하면서 사람이 직접 수행하는 것은 힘들다. ‘프로세스 마이닝’은 데이터를 활용해 조직 내부의 업무 프로세스를 분석함으로써 병목현상이 발생하는 부분을 찾고 최적화할 수 있도록 돕는다.

프로세스 마이닝은 기업 내에서 운영하는 다양한 시스템이 생성하는 이벤트 로그를 확인해 실제 업무 프로세스를 분석한다. 이벤트 로그에 담긴 사용자 ID와 활동 내역을 보면 조직 내의 누가 언제 어떤 작업을 수행했는지 알 수 있다. 이를 전사에 확대 적용하면 조직 내의 모든 업무 프로세스 흐름을 시각화할 수 있으며, 업무가 몰려 지연이 발생하는 시스템이나 사용이 적어 규모를 줄여도 되는 시스템 등을 즉시 확인하고 최적화하는 것도 가능하다.

이는 조직 내에서만이 아니라 고객들의 행동을 시각화하고 모니터링하는 데에도 사용될 수 있다. 김영일 대표는 공공기관의 민원 처리 과정을 프로세스 마이닝으로 분석한 결과를 소개했다. 민원인이 기관에 방문해 대국민 서비스를 이용하면 성별과 나이대, 지역, 서비스 내역 등을 비식별화하고 사용자 ID를 부여해 추적한다. 이를 통해 주로 방문하는 민원인 정보를 통계적으로 확인할 수 있을 뿐만 아니라 구간별로 서비스가 제공되는 순서, 상대적으로 많은 시간이 소요되는 업무와 그렇지 않은 업무들이 파악된다. 이를 통해 기관은 뛰어난 대국민 서비스를 제공할 수 있도록 응대 매뉴얼을 수정하거나 표준 업무 프로세스를 최적화할 수 있다.

이어서 김영일 대표는 자사의 프로세스 마이닝 솔루션 ‘프로디스커버리(ProDiscovery)’를 소개하며, ‘프로디스커버리’를 통해 업무 프로세스를 최적화한 다양한 실제 사례들을 소개했다. 특히 온라인 쇼핑몰에서 고객이 웹사이트에 방문에 제품을 구매하고 나갈 때까지 일련의 과정을 점검해 고객 경험(CX)을 개선하는 사례는 컨퍼런스 참가자들의 많은 관심을 받았다. 고객의 속성 정보에서부터 사이트를 방문한 경로나 페이지 당 머무른 시간, 제품 간에 이동하는 패턴 등을 분석해 CX를 개선하거나, 구매 전환율을 기준으로 상위 10% 그룹과 하위 10% 그룹을 비교해 구매에 영향을 미치는 원인들을 분석한다면 최적의 온라인 마케팅 전략을 수립할 수 있을 것이다.

김영일 대표는 “프로세스 마이닝은 기업의 내부 프로세스에서부터 대외적인 고객 관리와 분석에 이르기까지 다양한 프로세스 기반의 업무들을 시각화해 생산성을 높이고 서비스 수준을 개선할 수 있도록 돕는다”며, “현재 ‘프로디스커버리’는 업무 프로세스가 실시간으로 변화하는 모습을 모니터링하거나 표준 프로세스와의 비교 분석이 가능하도록 기능을 고도화하고 있다. 다음 버전에서는 특정 업무를 변경했을 때 전체 업무 프로세스에 어떤 영향을 미치는지 확인할 수 있는 시뮬레이션 기능도 탑재될 예정”이라고 밝혔다.

AI/ML을 이용한 데이터 관리와 데이터 카탈로그

트랙1의 마지막 세션은 김덕하 인포매티카 프리세일즈가 맡았다. 김덕하 프리세일즈는 ‘AI/ML을 이용한 데이터 관리와 데이터 카탈로그’라는 주제로 발표를 진행했다.

흔히 데이터 1.0시대라고 불리는 1990년도에는 ERP 등 제한적인 업무에서만 데이터를 분석하고 활용해왔다. 이후 데이터 2.0 시대와 3.0 시대를 넘어, 오늘날에는 AI와 머신러닝과 같은 고도화된 기술로 데이터를 수집하고 활용하는 데이터 4.0 시대가 도래했다. 하지만 그만큼 데이터를 관리해야하는 IT 조직의 부담이 크게 증가했다. 셀프서비스(self-service) 분석에 대한 수요가 증가하면서 기존 IT 유저 뿐만 아니라 데이터나 IT 기술에 대한 이해가 부족한 비즈니스 조직에서도 데이터를 활용할 수 있도록 쉽고 편리한 플랫폼을 제공하는 것도 중요해졌다.

이에 인포매티카는 데이터 수집과 관리에 AI와 머신러닝 기술을 접목한 ‘AI 클레어(Claire)’를 제공한다. 김덕하 프리세일즈는 “‘AI 클레어’를 통해 IT 전문가가 아닌 사용자들도 편리하고 빠르게 데이터를 탐색하고 스스로 이용할 수 있는 플랫폼을 제공한다”며, ‘AI 클레어’가 갖춘 다양한 데이터 관리 기술들을 소개했다.

먼저 ‘AI 클레어’는 자연어처리 기술을 자연어처리(NLP) 기술을 활용해 기업 내의 다양한 데이터들로부터 메타데이터를 자동으로 생성한다. 기업이 관리해야 하는 데이터의 양이 기하급수적으로 늘어났기 때문에, IT 조직이 직접 비즈니스 용어를 분석하고 메타데이터를 만드는 방법으로는 속도를 따라갈 수 없게 됐다. 따라서 NLP 기술을 통해 빈번히 사용되는 컬럼과 테이블 명을 추출하고, 유사한 명칭을 통합해 대표적인 메타데이터 값을 생성해 자동으로 데이터를 저장할 수 있다.

유사도 탐색 기능도 갖추고 있다. 데이터를 저장하는 공간이 온프레미스와 클라우드 등으로 다변화되면서 유사한 데이터가 여러 장소에 중복 저장되는 경우가 많아졌다. 이 경우 동일한 데이터 도메인으로 유사한 데이터들을 통합하고 실시간으로 동기화할 수 있는 기능이 요구된다. 유사도 탐색 기능은 데이터의 패턴이나 컬럼명 등을 분석하고 중복된 데이터 값들을 찾아 데이터 관리 역량을 높인다.

데이터의 특성을 추상화해 하나로 묶을 수 있도록 해주는 도메인 추천 기능도 탑재됐다. NLP 기술과 유사도 탐색 기능을 결합해 현재 운영 중인 비즈니스 상에서 중요한 도메인들을 추천하고 자동으로 데이터들을 분류해주는 기능이다. 특정 컬럼이나 테이블이 잘못된 도메인으로 분류돼 있을 경우 사용자에게 알람을 주는 기능도 갖췄다. 이를 통해 데이터 관리자는 폭발적으로 증가하는 데이터들을 빠르게 분류하고 분석가들이 원하는 데이터에 손쉽게 접근할 수 있도록 지원할 수 있다.

김덕하 프리세일즈는 “인포매티카는 전문가를 위한 ETL 솔루션을 제공하던 기업에서 데이터 거버넌스 전반을 지원할 수 있는 기업으로 성장했다”며, “‘AI 클레어’를 포함해 다양한 데이터 카탈로그와 전처리 솔루션 라인업을 갖추고 있어, 비즈니스 담당자들도 얼마든지 원하는 목적에 맞게 데이터를 찾고 활용할 수 있는 환경을 제공한다”고 말했다.

빅데이터/마이데이터를 위한 데이터 거버넌스 플랫폼

오후 트랙 2는 이동우 지티원 정보기술연구소 수석의 ‘빅데이터/마이데이터를 위한 데이터 거버넌스 플랫폼’ 발표로 문을 열었다. 이동우 수석은 “최근 데이터 트렌드가 통합에서 활용으로 넘어가고 있다. 셀프서비스 등으로 비즈니스 담당자가 곧 데이터 담당자가 되고 있다”고 강조하며 발표를 시작했다.

이 수석에 따르면, 개인정보보호법, GDPR 등 데이터 활용과 밀접한 컴플라이언스가 강화되고 있어 데이터 흐름 관리가 매우 중요해지고 있다. 데이터 흐름을 전반적으로 관리하기 위해서는 데이터 거버넌스 환경을 구축해야 한다.

빅데이터 분석 및 처리 시스템은 원본데이터를 획득, 처리 및 분석해 인사이트를 제공하는 전사적 데이터 활용공간이다. 구체적으로 살펴보면 ▲데이터 획득 계층 ▲메시지 전달 계층 ▲데이터 흡수 계층 ▲배치 계층 ▲속도 계층 ▲제공 계층 ▲데이터 저장 계층 등으로 구분할 수 있다. 조직들은 빅데이터 활용에 포커스를 맞추고 있지만, 데이터 관리에 많은 어려움을 겪고 있다. 특히 데이터 레이크 환경에서의 문제를 호소하고 있으며, 이는 속도 및 셀프서비스라는 관점에 맞춰져 있다.

비즈니스의 속도 및 신뢰가 보장된 빅데이터 분석·처리 시스템은 높은 수준의 데이터 품질, 데이터 흐름 관리, 빅데이터 큐레이터 환경 등이 필요하다. 특히 최근에는 관리가 잘되고 있던 ‘좋은 데이터(Good Data)’를 넘어, 관리가 되고 있지 않았던 ‘나쁜 데이터(Bad Data)’까지 활용하고자 하는 경향이 나타나고 있다.

빅데이터가 데이터 활용의 늪이 되지 않게 하려면 데이터 거버넌스 체계를 갖춰야 한다. 데이터 추적성 및 데이터 계보, 데이터 카탈로그, 데이터 거버넌스 포털 등의 체계를 플랫폼으로 구축해야 한다.

지티원은 데이터 거버넌스 및 컴플라이언스 관련 소프트웨어를 개발해 공급하고 있다. 지티원의 데이터 거버넌스 플랫폼은 데이터 흐름, 카탈로그, 품질관리 등에 초점을 맞춘 기능을 제공한다. 지티원은 ▲데이터 카탈로그 솔루션 ‘메타 카탈로그(Meta Catalog)’ ▲데이터 리니지 솔루션 ‘데이터 호크(Data Hawk)’ ▲데이터 품질 관리 솔루션 ‘DQ마이너(DQ Miner)’ ▲메타데이터 관리 솔루션 ‘메타마이너(MetaMiner)’ 등을 통해 데이터 거버넌스 플랫폼을 구축한다.

데이터 카탈로그는 메타데이터 관리, 데이터 흐름 추적 관리 등을 검색으로 조회할 수 있으며, 데이터 분류 체계 및 비즈니스 친화적인 UI 등이 포함된다. 데이터 카탈로그를 구축하기 위해서는 매핑 작업이 필요하며, 보통 매핑 작업은 컨설팅의 영역으로 포함된다.

데이터 흐름 관리는 데이터 활용은 물론, GDPR 등 컴플라이언스를 충족시키기 위해 필요하다. 흐름 관리를 하면 데이터 추적이 쉬워지기 때문이다.

지티원은 데이터 리니지를 수집하고, 분석 관리하는 솔루션을 ‘데이터호크’로 명명했다. 데이터 호크의 특징은 정밀분석 기술, 가시화, 규칙 자동 추출, 80여 종 언어 및 DBMS 분석 등이다.

이동우 수석은 데이터 품질 관리 솔루션 ‘DQ마이너’를 소개하면서 “비정형 데이터 가치에 대한 관심은 엄청나다. 하지만 비정형 데이터 품질에 대한 표준이 없다. 공공기관의 비정형 데이터를 조사하고, 관리하고자 하는 프로젝트가 추진될 예정이다. 비정형 데이터 품질에 초점을 맞춰보면, 메타데이터 및 객체 데이터가 진단 대상이 될 것으로 보인다. 이를 위해서 지티원은 데이터 품질 연구를 비정형 데이터에 맞췄다. 메터데이터 품질, 센서데이터 품질, 이미지 품질 데이터, AI학습 데이터 등 품질을 위해 연구를 지속하고 있다”고 소개했다.

그래프DB 시대 원 커넥티드 데이터의 효용적 분석과 AI/ML

이어진 세션에서는 조현기 타이거그래프 기술이사가 ‘그래프DB 시대 원 커넥티드 데이터의 효용적 분석과 AI/ML’라는 주제로, 그래프 DB에 대해 소개했다. 조현기 이사는 “아직 국내에는 그래프 DB에 대한 개념이 정립돼 있지 않다. 그래프DB를 이해하기 위해선 우선 그래프를 네트워크라고 이해하면 좋을 것”이라고 말하며 설명을 시작했다.

조 이사에 따르면 우리나라에서는 아직 소수의 기업만 그래프DB를 활용하고 있다. 하지만 타이거그래프만 해도 글로벌 레퍼런스가 1,200개를 넘고 있다. 우리나라가 그래프DB와 관련해 시장이 늦게 열리고 있는 것뿐이다. 그래프DB는 쪼개져 있는 데이터를 연결해 의미를 찾는 것에 초점을 맞추고 있다.

기존의 RDB에서는 데이터를 연결하기 위해 쿼리를 짜야 한다. 업무팀에서 요청하는 데이터를 연결하려면 전문가도 쿼리를 짜는 데 어려움을 겪는다. 그래프 DB는 데이터의 연결을 미리 해둔 것이다. 미리 연결된 데이터에서 필요한 것만 찾으면 된다. 조현기 이사는 “비유를 하자면, 기존의 RDB는 강을 건너기 위해 다리를 하나하나 놓아야 한다. 이에 비해 그래프 DB는 이미 다리가 놓여 있기 때문에 건너가기만 하면 된다”고 설명했다.

RDB는 가장 볌용적으로 사용되고 있으며, 데이터의 일관성과 정합성을 보장한다. 스키마가 있어 규악된 데이터를 넣고 사용한다는 것이 특징이다. 키밸류DB는 초대용량의 로그데이터와 같이 짧은 시간의 대량으로 발생하는 데이터를 쌓을 수 있다. 스키마 없는 사용이 가능하지만, 데이터 일관성 문제 등 관리 이슈가 발생할 수 있다.

그래프DB는 그래프 네트워크를 표현하기 위한 목적의 DB다. 연결된 데이터에 대한 네트워크 분석을 실시간성으로 할 수 있으며, 대량의 데이터 분석도 동시에 가능하다. 다만 범용 DB를 대체하는 용도로 사용되지 않는다. 연결 데이터에 대해 강점을 갖고 있어 RDB나 노SQL을 대체하지 않는다. 기존 DB에 추가하는 형태로 사용한다.

데이터 연결관점에서 RDB는 데이터간 관계를 잘 표현한다. 하지만 데이터 연결을 위해서는 조인과 인덱스 조회 등을 통해 데이터 조회가 가능하다. 문제는 중간에 인덱스가 잘못되면 답이 나오지 않는다는 것이다.

그래프DB는 출발부터 연결을 표현하기 위해 설계된 DB다. RDB는 선언적 스키마, 테이블의 연결이기 떄문에 실제 데이터를 연결할 때마다 내부적으로 연결을 만들고 실행해야 한다. 그래프 DB는 이미 데이터 값(노드) 수준에서 연결이 돼 있어 연결을 타고 ‘순회(Traverse)’하면 된다.

그래프DB로는 ▲커스터머 360 ▲머신러닝 ▲사기 예방 ▲소셜네트워크 분석 등이 가능하다. 딥링크 분석, 다차원분석, 패턴 분석, 커뮤니티 분석 등이 가능하다.

타이거그래프는 트랜잭셔널과 분석, 두 가지를 모두 지원한다. 레이블드 프로퍼티 그래프(Labeled Property Graphs)라는 기능을 통해 노드 및 에지(Edge, 데이터간 관계성)의 속성을 관리할 수 있다. 그래프DB는 성능이 매우 중요하며, 타이거그래프는 네이티브 그래프 디자인과 C++엔진, 스토리지 아키텍처 확장, 분산 아키텍처 등을 통해 그래프DB 중 가장 빠른 성능을 제공한다. 조 이사는 “타이거그래프는 익스터널ID 값이 들어오면 인터널ID 값으로 변환해 노드와 에지가 같은 노드 사이에 배치될 수 있도록 분산 전략을 적용했다. 하나의 노드에서 해결할 수 있는 구조를 통해 네트워크 비효율을 줄여 성능을 높인 것이 특징이다”라고 설명했다.

전사 분석 확산을 위한 BI 트렌드 및 도입사례

트랙 2 마지막 세션은 이진형 MSTR 수석 엔지니어의 ‘전사 분석 확산을 위한 BI 트렌드 및 도입사례’가 발표됐다. 이진형 수석은 “최근 데이터 분야에서는 셀프 서비스 분석이 가장 많은 화두가 되고 있으며, 이러한 환경을 구축하기 위해 조직들이 노력하고 있다. 초기 셀프서비스 분석은 IT 담당자가 구성해놓은 전사 분석 플랫폼에서 비즈니스 담당자들이 OLAP 등의 도구를 활용해 데이터를 산출하고 분석해왔다. 최근에는 비즈니스담당자들의 분석 역량이 향상됨에 따라, 사용자가 분석 역량을 갖추고 있다는 전제하고 있는 도구들도 나타나고 있다”고 설명했다.

지난해 데이터 분석환경을 위한 중요도 조사 결과에 따르면 데이터 품질 관리, 시각화 및 데이터 디스커버리, 데이터 기반 의사결정, 데이터 거버넌스가 상위권에 오른 것을 확인할 수 있다. 2016년과 비교해보면 셀프서비스 BI와 빠른 BI 개발의 중요도가 낮아졌으며, 데이터 품질 관리는 지속적으로 상위권에 위치하고 데이터 거버넌스의 중요도가 높아졌다. 이는 BI 플랫폼 시장의 발전 과정이 진행되면서 데이터 분석 플로우에서의 사용자 역할이 변화했고, 이것이 중요도 트렌드가 변화되는 데 영향을 미쳤다는 분석이다.

셀프서비스 분석이 어려운 이유는 데이터셋을 작성하는데 복잡한 데이터의 구조, 테이블 간의 관계에 대한 이해와 SQL 스킬이 필수적으로 필요하기 때문이다. 이에 MSTR은 데이터 분석 플로우에서 시맨틱 레이어(Semantic Layer)를 통해 데이터 거버넌스를 확보하고 보다 많은 현업 사용자가 업무에 필요한 데이터를 스스로 확보하고 분석을 수행할 수 있도록 지원하고 있다. MSTR 시맨틱 레이어는 물리적인 데이터 구조, 시스템 관점의 용어를 비즈니스 추상화를 통해 업무 관점으로 구성하는 것이 특징이다.

또한 MSTR은 시맨틱 레이어를 기반으로 SQL 쿼리 작성없이 쉽게 데이터셋을 작성할 수 있도록 지원, 현업 사용자가 IT 담당자 도움 없이 스스로 데이터를 획득/분석하며 시각화 대시보드를 구성하는 셀프 서비스 분석 환경을 제공한다.

이어 이 수석은 MSTR 분석 플랫폼에 대해 소개했다. 이 수석은 “기업의 단일 분석 플랫폼으로 데이터 분석 시장에서 중요하게 평가받고 있는 시각화 및 데이터 디스커버리, 데이터 품질 및 신뢰성, 데이터 거버넌스, 셀프 서비스 BI 기능 등을 제공한다”고 설명하며, MSTR 데이터 분석 플랫폼 데모를 진행했다.

또한 업무시스템에 필요한 정보를 즉시 활용하는 ‘하이퍼인텔리전스(Hyper Intelligence)’ 기능도 소개했다. 하이퍼인텔리전스 활용사례로는 온라인 쇼핑 MD, 고객지원센터, 프로젝트 수익성 관리, 마케팅 등을 꼽았다. 하이퍼인텔리전스는 ▲웹 기반의 다양한 업무 시스템 및 이메일 환경에서 관련 정보를 제공하는 ‘하이퍼웹’ ▲알림과 검색을 통해 상황에 맞는 관련 정보 검색 및 활용을 지원하는 ‘하이퍼모바일’ ▲오피스 아웃룩에 애드인으로 제공되는 ‘하이퍼오피스’로 구성돼 있다.

마지막으로 이 수석은 MSTR에 대해 소개했다. 이진형 수석은 “마이크로스트레티지는 1989년 미국에서 설립돼 30년 이상 데이터 분석 플랫폼을 연구개발 해왔다. 데이터 분석과 관련해 모든 과정에 해당하는 기능과 기술을 보유하고 있는 데이터 분석 솔루션 전문 기업이다. 기업의 비전은 조직들이 데이터를 기반으로 합리적인 의사결정을 내릴 수 있도록 지원한다는 것이다”라고 말했다.

순수한 열정만으로 모은 데이터, 위험한 인사이트와 나쁜 AI를 만든다

이날 ‘2021 데이터 컨퍼런스’의 마지막 세션은 트랙1·2로 나뉘어있던 참가자들이 다시 한 자리에 모여 진행됐다. 마지막 세션은 박지환 씽크포비엘 대표가 연단에 올라 ‘순수한 열정만으로 모은 데이터, 위험한 인사이트와 나쁜 AI를 만든다’는 주제에 대해 발표를 진행했다.

박지환 대표는 가장 먼저 참가자들에게 “AI는 왜 치명적인 실수를 하는가?”라는 질문을 던졌다. AI와 머신러닝 기술이 빠르게 발전하고 있음에도 불구하고 전 세계적으로 여전히 많은 사건사고들이 발생하고 있다. 무인 자동차경주 차량이 주행 중에 코스를 이탈해 벽을 들이박고, 독일에서는 자율주행차가 장애인을 인식하지 못해 사고를 냈다. 축구공을 자동으로 추적하도록 프로그래밍된 카메라는 대머리 심판의 머리를 축구공으로 착각하기도 했으며, 아마존이 AI 기반의 인재 채용 모델을 적용했다가 여성 차별 문제가 불거지는 사태도 발생했다.

박지환 대표는 “이러한 문제는 데이터가 부족했거나 개발자들의 역량이 부족해서 일어난 문제가 아니다. 그보다는 AI를 학습시킨 데이터들이 중립적이지 않았기 때문에, 데이터를 생성한 사람들의 무의식적인 편견이 AI에 반영됐기 때문이다”라고 설명했다. AI는 입력된 데이터에 기반해 출력값을 내므로, 학습시키는 데이터들을 면밀히 분석하지 않으면 얼마든지 의도하지 않은 결과가 일어날 수 있다.

따라서 AI 알고리즘을 고민하기에 앞서 제대로 된 학습용 데이터를 마련하는 방법을 고민해야 한다. 최근 정부에서는 기업의 데이터 활용을 가속화하기 위해 대량의 공공데이터들을 개방하고 있다. 하지만 기업 입장에서는 아무 데이터나 필요한 게 아니라 학습에 사용할 수 있는 검증된 데이터가 필요하다. 처음부터 완벽한 데이터를 제공할 수는 없겠지만, 적어도 어디에 문제가 있고 어떤 부분을 보완해야 하는지 정도는 알 수 있어야 한다는 것이다.

박지환 대표는 “우수한 AI 기반 서비스들이 시장에 안착하고 글로벌로 뻗어나가기 위해서는 품질 좋은 데이터들이 확보돼야 한다. 정부에서는 데이터를 풀기만 할 게 아니라 올바른 데이터를 구분할 수 있는 공적 기준을 마련해야 한다. 데이터에 대한 공적 기준, 그리고 데이터의 다양성과 밸런스를 평가할 수 있는 객관적 기준이 만들어져서 민간시장에 뿌리내려야 한다”고 강조했다.

국제적으로 AI의 성능을 평가할 수 있는 다양한 기준들이 나오고 있다. ISO25012와 같은 것들이 대표적이다. 하지만 이러한 기준들은 해당 AI가 고지된 대로 정확한 기능을 수행하고 있는지에 초점을 찾문다. 입력값에 오류는 없는지, 결과값은 제대로 표시되는 지를 검사하는 것이다. AI가 학습한 데이터의 편향성을 검사할 수 있는 기준은 아직 만들어지지 않았다.

박지환 대표는 “앞으로 AI에 중요한 것은 성능이 아니라 신뢰성이 될 것이다. 우리나라에서도 일부 국회의원들을 통해 좋은 법안들이 속속 나오고 있지만 국회에 계류돼 통과하지 못하고 있다. 최근 GPT-3 사례에서 보듯 글로벌 AI 기업들이 자사의 기술력을 빠르게 고도화해나가는 상황에서 국내 기업들도 박차를 가해 따라갈 수 있도록 발빠른 대처가 필요하다”고 밝혔다.

김성수, 권정수, 박재현, 정종길 기자

상단영역

본문영역

[지상중계] 하이브리드 IT 시대의 데이터 전략을 논하다

본지, 제18회 ‘2021 데이터 컨퍼런스’ 개최

기사 댓글 0

비회원 로그인