가상화 레이어와 데이터 간 매핑, 자연어 기반 데이터 호출 등에 AI 적용 확대

[컴퓨터월드] 4차 산업혁명의 원유, 비즈니스 혁신의 근간. 이 수식어들은 모두 데이터의 중요성을 강조하는 말들이다. 데이터는 모든 산업에서 기업 경쟁력의 가장 중요한 핵심 자원으로 자리 잡았다. 전 세계 기업 및 조직들은 경쟁력 향상을 위해 데이터를 빠르게 활용할 수 있는 환경을 마련하는데 총력을 기울이고 있다. 특히 생성형 인공지능(AI)이 촉발한 AI 민주화로 인해 데이터 접근성이 향상된 현재, 데이터 소비자층 역시 IT 직군에서 비 IT 직군으로 영역이 확장되고 있다. 이에 따라 소비자 중심의 데이터 활용 환경인 데이터 패브릭(Data Fabric)이 각광받고 있다. 데이터 패브릭에 대해 짚어본다.


1세대 데이터 활용 전략의 한계

데이터는 기업 및 조직의 비즈니스 성패를 좌우할 열쇠로 꼽힌다. 데이터를 활용해 가치 있는 인사이트를 얼마나 신속하게 도출할 수 있는지가 기업 경쟁력의 척도가 되고 있다. 4차 산업혁명 시대에 디지털 전환이라는 과제를 해결할 수 있는지에 대한 여부는 데이터의 양도 양이지만, 데이터를 신속하게 활용할 수 있느냐에 달려있다.

오래 전부터 기업 및 조직들은 데이터 활용을 강조해 왔다. 데이터 웨어하우스(DW), 데이터 마트(DM)를 기반으로 한 데이터 활용 전략을 1세대로 정의할 수 있다.

수많은 데이터가 저장된 스토리지에서 데이터 분석 목적에 맞게 구조화된 데이터 질의 언어인 SQL(Structured Query Language)을 이용해 데이터를 찾아 낸 후 이를 추출·변환·적재(ETL)하고 DB 내 데이터에 대한 변경을 식별해 필요한 데이터를 전송·공유하는 자동화 기술인 변경 데이터 캡쳐(CDC) 등의 과정을 거쳐 DW에 물리적으로 저장했다. 또 이렇게 저장된 데이터를 분석해 비즈니스 인텔리전스 도구(BI 툴)나 리포팅 도구, 더 나아가 비즈니스 애플리케이션 등을 활용해 시각화했다. 이것이 바로 1세대 데이터 활용 절차다.

그러나 이 1세대 데이터 활용 절차는 데이터 관리자 및 데이터 소비자에게 많은 부담으로 작용했다. 원천 데이터 소스의 양이 기하급수적으로 늘어남에 따라 DW나 DM과 같은 데이터 중앙 저장소를 계속해서 확대해야 하는 문제에 직면하게 됐다. 이는 물리적인 데이터 이동에 대한 인적, 비용적 부담은 물론 데이터 저장소(물리적인 스토리지)를 확대해야 하는 문제와, 민감한 데이터의 이동에 따른 보안 관리의 어려움으로 이어졌다.


AI 보편화로 새로운 데이터 활용 전략 야기

최근에는 생성형 AI로 인해 누구나 AI를 쉽게 이용한다는 개념인 ‘인공지능 민주화(AI Democratization)’가 데이터 활용의 차세대 방법론을 야기하는 중요한 요소로 작용하고 있다.

이에 대해 엔코아 김범 사업부문장은 “AI는 곧 데이터다. 무수히 많은 데이터의 학습으로 만들어진 알고리즘, 또 더 많은 데이터로 완성된 AI 모델, 그 AI 모델이 만들어 내는 데이터. AI가 보편화될수록 데이터 활용의 저변도 확대되고 있다. AI를 통해 데이터를 활용하고자 하는 수요는 새로운 데이터 활용 전략을 야기하고 있다는 것을 의미한다”고 말했다.

1세대 데이터 활용 절차의 한계를 극복하고, AI 민주화에 따른 새로운 데이터 활용 전략 필요성을 충족할 수 있는 2세대 데이터 활용 전략으로 떠오른 것이 바로 ‘데이터 패브릭(Data Fabric)’이다. 데이터 패브릭은 여러 운영, 분석계 시스템을 비롯해 원천 데이터가 유기적으로 연결돼 하나의 덩어리로 조직돼 있는 섬유(fabric)처럼 촘촘히 연결된 아키텍처다. 데이터 패브릭을 통해 각 기업은 데이터를 조직적으로 연결하고 통합해 관리함으로써 다양한 비즈니스 요구사항에 대응할 수 있는 유연하고 확장 가능한 체계를 구현할 수 있다. 데이터 패브릭은 데이터를 연결해 가치를 만들겠다는 개념으로 특정 기술로 완성되는 것이 아니다. 데이터의 수집·저장·통합·분석 등에 요구되는 모든 기술들이 데이터 패브릭을 구성하는 인자가 된다.

 데이터스트림즈가 제시하는 데이터 패브릭 구축 아키텍처 (출처: 데이터스트림즈)
데이터스트림즈가 제시하는 데이터 패브릭 구축 아키텍처 (출처: 데이터스트림즈)

데이터 활용 전략 등과 관련해 데이터패브릭이 기존 1세대와의 가장 큰 차이점은 데이터 중앙 저장소에 있다. 데이터 패브릭은 데이터의 중앙 저장소에 ‘데이터 가상화’ 기술이 적용된다. 물리적인 데이터 중앙 저장소를 개별로 두는 것이 아니라 가상화된 레이어(Virtual Layer)로 구현한 것이다.

엠클라우드브리지 정진우 MS 데이터 & AI 팀장은 “데이터 가상화는 다양한 데이터를 통합해 사용자에게 하나의 데이터 원천으로 보이게끔 하는 기술이다. 실제 데이터의 위치와 형식을 추상화해 데이터 소비자가 일관된 방식으로 데이터에 접근할 수 있다. 이를 통해 데이터의 복잡성을 숨기고 데이터 소비자에게 단일 뷰를 제공해 데이터 통합 및 접근성을 높일 수 있다”고 말했다. 그는 이어 데이터 패브릭을 구현하는 데 데이터 가상화가 중요한 이유에 대해 “다양한 데이터 원본을 효율적으로 관리하고 활용하기 위해 일관된 접근성과 유연성을 제공하기 때문이다. 복잡한 ETL 프로세스를 줄여 비용을 절감하고 데이터 보안과 규정 준수를 강화할 수도 있다”고 설명했다.

가상화된 레이어에는 버추얼 뷰(Virtual View)가 존재한다. 실제 데이터가 레이어에 저장된 것이 아닌 원천 데이터 저장소에 어떠한 데이터가 존재하는지를 매핑(Mapping)을 통해 보여주는 것이다. 또 버추얼 뷰는 일목요연하게 정리돼 ‘데이터 카탈로그’로 구성된다. 데이터 카탈로그는 데이터의 속성을 정의하는 메타데이터 기반 관리 도구를 포함하고 있다.

물리적인 데이터 중앙 저장소를 구축해야 하는 1세대와는 달리 데이터 소비자가 원하는 시점에 가상화된 레이어를 연결해 원하는 데이터를 가져올 수 있도록 한 것이 바로 차세대 데이터 활용 전략이다. 그리고 이를 구현할 수 있는 아키텍처, 설계도가 바로 데이터 패브릭이다.


통상 3단계 구축 과정

데이터 패브릭을 구현하는 과정은 △기업 데이터 환경 및 요구사항 분석 △데이터 패브릭 아키텍처 설계 △장애복구 및 대응 순이다.

먼저 기업의 데이터 환경과 요구사항을 분석하고 데이터 접점을 단일화해야 한다. 사용자가 원하는 데이터를 얻기 위해 직접 이곳저곳을 돌아다니는 것이 아닌, 하나의 플랫폼에서 손쉽게 데이터를 찾을 수 있어야 한다. 또 어떤 종류의 데이터를 어떤 업무에 적용할 것인지에 대한 것도 구체화해야 한다.

핵심은 데이터 환경을 분석하는 과정에서 데이터 거버넌스에 대한 체계를 새롭게 정립해야 한다는 점이다. 물론 데이터 활용 의지가 큰 기업이라면 거버넌스 체계 역시 잘 정리돼 있을 것이다. 하지만 그렇지 못한 기업이라면 데이터 환경 및 요구사항 분석 과정에서 데이터 표준화를 함께 진행해야 한다.

데이터스트림즈 김현철 제품사업본부 전무는 “데이터 패브릭을 단순 DW에만 적용할 것인지 아니면 계정계나 전사적으로 적용해야 할 것인지를 먼저 정의해야 한다. 이후 정의된 기준에 맞춰 데이터를 표준화해야 한다. 또 설계한 데이터 패브릭에 맞춰 메타데이터를 표준화해야 한다. 예를 들어 A부서는 ID, B부서는 이름, C부서는 네임 등으로 정의돼 있다면 이를 모두 ‘이름’이라는 메타데이터로 통일시키는 작업을 해야 한다는 것”이라면서 “실질적으로 데이터 패브릭을 구성하기 위해선 최우선 순위가 메타데이터 표준화다. 데이터스트림즈는 ‘테라원 슈퍼쿼리’라는 제품을 통해 이를 지원하고 있다”고 말했다.

다음은 데이터 패브릭 솔루션을 활용해 논리적(Logical)으로 데이터 저장소들을 연결한다. 기존에 구축된 데이터베이스(DB), DW, 데이터 레이크 등을 그대로 둔 채, 이러한 데이터 저장소들과 사용자 사이에 추가적인 가상화 레이어를 구축한다. 가상화 레이어에는 각 저장소가 보유하고 있는 데이터에 대한 정보가 담겨 있기 때문에, 데이터 소비자는 가상화 레이어에 접속해 쿼리를 보내 원하는 데이터를 찾고 필요에 따라 다른 데이터와 통합하고 분석에 활용할 수 있다.

 엔코아의 데이터 가상화 구축 아키텍처 (출처: 엔코아)
엔코아의 데이터 가상화 구축 아키텍처 (출처: 엔코아)

마지막은 이렇게 설계된 데이터 패브릭 환경이 장애가 발생하지 않도록 꾸준히 관리하는 작업이 필요하다. 장애가 발생할 경우를 대비해 비상 대응 계획을 수립하고 필요한 경우 장애 복구 절차를 실행할 수 있어야 한다.


메타데이터 관리에 역점 둬야

데이터 패브릭을 이용하는 과정에서 가장 중요한 작업이 있다. 바로 ‘메타데이터를 관리하는 것’이다. 일반적으로 데이터 카탈로그는 기업이 보유한 데이터를 손쉽게 찾을 수 있도록 메타데이터 기반의 검색 도구를 포함한다. 잘 관리된 메타데이터는 데이터 간 연결성을 보여줄 수 있기에 기존의 DB, DW 중심의 분석 환경에서도 중요한 요소였다.

하지만 그동안 데이터 분석이 일부 전문가들에 의해 이뤄질 때는 메타데이터 관리에 다소 문제가 있어도 극복할 수 있었다. 메타데이터가 실시간으로 관리되지 않아 몇 개의 데이터 저장소 간에 다소 불일치가 있다고 하더라도, 통합 과정에서 데이터 전문가가 수작업으로 수정할 수 있었던 것이다. 물론 지금도 대다수 기업에서는 주기적으로 전문가 개인의 판단에 따른 수동적 메타데이터 관리를 수행하고 있다. 그러나 지금처럼 복잡하고 다양한 데이터들이 폭발적으로 늘어나고 있는 상황에서 기존의 수동적 메타데이터 관리로는 문제를 해결할 수 없다.

한 업계 관계자는 “몇 개의 데이터 저장소를 전문가가 직접 연결하고 분석하는 것이 아닌, 전사 데이터를 단일한 플랫폼으로 연결하고 비전문가도 손쉽게 활용할 수 있도록 구성하기 위해서는 메타데이터 관리를 자동화할 필요가 있다. 여기에는 전문적인 시스템을 활용한 능동적 메타데이터(Active Metadata) 관리가 요구된다”고 덧붙였다.

메타데이터 관리를 자동화하면 기존에 전문가의 수작업으로 이뤄지던 수동적 메타데이터 관리에서는 불가능했던 실시간성을 확보할 수 있다. 자동화된 메타데이터 관리 시스템은 전사적인 데이터 관련 통계나 쿼리 등을 분석해 관리자에게 새로운 메타데이터 정보를 실시간으로 제안할 수 있다. 오래된 메타데이터 정보나 수정이 필요한 부분을 찾아 추천함으로써 품질 리스크도 방지할 수 있다.

[인터뷰] 생성형 AI 접목으로 데이터 접근성 개선될 것”
엔코아 김범 사업부문장

Q. 생성형 AI가 데이터 패브릭의 어떤 영역에 적용되는가.
A. 주로 편의성에 초점이 맞춰진다. 메타데이터 관리를 자동화할 수 있는 부분과 데이터 소비자가 자연어로 데이터를 찾는 영역 등에 적용되고 있다. 먼저 데이터 가상화 영역에 AI 모델이 포함돼 메타데이터를 표준화하고 관리를 자동화할 수 있어야 한다. 통상 메타데이터 표준화 작업 공정은 데이터 패브릭 전체 구축 기간의 60%에 해당하는데 이 과정을 AI로 자동화할 경우 공수를 대폭 줄일 수 있게 된다. 자동화할 경우 메타데이터 관리에 실시간성을 부여할 수도 있다. 자동화된 메타데이터 관리 시스템은 전사적인 데이터 관련 통계나 쿼리 등을 분석해 관리자에게 새로운 메타데이터 정보를 제안하거나 자동으로 추가한다. 오래된 메타데이터 정보나 수정이 필요한 부분을 찾아 추천함으로써 품질에 대한 리스크도 줄일 수 있다.

이 외에 데이터 소비자가 직접 가상화된 영역에서 쿼리를 전송하거나 API로 호출해서 데이터를 찾아야 하는데 이를 자연어로 처리할 수 있도록 AI 모델을 두기도 한다. 일반적으로 데이터 관리자와 데이터 소비자의 편의성을 확대하는 방향으로 AI가 적용되고 있다.

Q. 메타데이터 관리 측면에서 지식그래프를 이용하기도 하는가.
A. 메타데이터 간의 의미론적 연결을 위해서 지식그래프를 적용하기도 한다. 각각의 메타데이터를 단일한 개체로 두는 것이 아닌, 개체 간의 관계와 개념을 분석할 수 있는 지식그래프 기술을 활용해 메타데이터가 갖는 관계성을 지능화된 네트워크로 연결할 수 있다. 이 경우 사람이 개입하지 않아도 커스터머와 고객이 유사한 의미임을 파악하도록 관리할 수 있다.

Q. 엔코아의 데이터 패브릭 비즈니스에 생성형 AI가 접목됐는가.
A. 엔코아는 AI 전문기업으로 변신하고 있다. 이 과정에서 생성형 AI 활용은 필수적이다. 기존 데이터 관리 전문기업으로서 컨설팅과 솔루션 공급 그리고 생성형 AI에 대한 전문성을 결합해 고객이 AI 도입 전략에 필요한 데이터 활용 프로세스도 함께 구축할 수 있도록 돕고 있다. 또한 각 과정을 구현할 수 있는 솔루션도 제안하고 있다. 가령 챗GPT 기반의 데이터 모델링 툴인 DA# AI 파워드 팩을 공급해 데이터 표준화를 완성하고 DV#을 통해 데이터 가상화를 구축할 수 있다. 이처럼 엔코아의 각 데이터 및 AI 비즈니스에 생성형 AI는 빠지지 않고 포함돼있다. 또한 표준 모델 구조를 관리할 수 있는 ‘데이터웨어 메타#’ 등 여러 제품도 함께 제공하고 있다.


메타데이터 표준화 등에 생성형 AI 적용 확대

데이터 패브릭에도 생성형 AI가 적용되기 시작했다. 가장 먼저 적용되기 시작한 영역은 메타데이터 표준화다. 일반적으로 데이터 소비자가 가상화된 레이어에서 찾고자 하는 데이터를 입력할 경우, 가상화된 레이어가 원천 데이터 저장소에서 입력받은 값과 동일한 데이터를 찾아 연결하는 ‘매핑’이라는 작업을 수행한다. 가령 가상화된 레이어에 고객 데이터를 검색할 경우 원천 데이터 소스에서 고객 데이터에 해당하는 데이터를 매핑, 짝을 지어 보여주는 것을 의미한다.

하지만 매핑 과정에서 메타데이터가 통일되지 않았을 경우 사람이 개입해 직접 메타데이터를 통일하는 별도의 작업을 수행해야 한다. 최근 이 과정에 AI가 적용되기 시작했다. 가상화된 레이어에 메타데이터를 통일하는 기능이 담긴 AI 모델을 두고 매핑 작업이 진행될 때 동작해 같은 의미의 데이터를 찾아올 수 있도록 한 것이다. 데이터 소비자의 입장에서는 이 같은 절차가 보이지 않지만, AI 모델이 동작하며 사람의 개입을 최소화하고 메타데이터를 표준화할 수 있다.

이에 대해 엔코아 김범 사업부문장은 “데이터 가상화 기술이 좋다고는 하지만 메타데이터를 표준화하는 작업은 사람이 개입해 직접 수행했어야 했다. 전적으로 AI에 맡길 수는 없지만 1차로 수행할 경우 매핑에 대한 공수를 상당부분 줄일 수 있다. 메타데이터 관리를 자동화하는데 AI가 적용되기 시작한 것”이라고 설명했다.

매핑 외에도 AI는 가상화된 레이어와 데이터 소비자 사이에 위치하며 자연어로 원하는 데이터를 찾는 데 적용될 수 있다. 데이터 패브릭의 핵심은 ‘데이터 소비자 중심’이다. 데이터 소비자가 가상화된 레이어에 쿼리를 날려 원하는 데이터를 찾을 만큼 역량이 부족할 수도 있다. 이 경우 AI가 적용돼 데이터 소비자가 자연어로 ‘고객 데이터’라고 질의를 하더라도 AI 모델이 이를 쿼리로 전환해 보내는 역할을 할 수도 있다는 것이다. 이와 같은 형태로 AI는 데이터 가상화단에 적용되면서 메타데이터 관리를 자동화하거나 자연어 질의를 가능하게 한다.

이에 대해 엔코아 김범 사업부문장은 “최근 국내·외 많은 기업들은 데이터 활용의 중요성을 인지하고 데이터 패브릭 전략을 수립하기 위해 총력을 기울이고 있다. 이때 AI를 접목한다면 데이터 활용 전략을 더욱 고도화할 수 있을 것”이라고 말했다.


본격 시장 개화…클라우드 기반 MS 패브릭 ‘주목’

데이터 활용에 대한 수요가 확대되면서 데이터 패브릭 시장 역시 성장하고 있다. 한 국내 기업의 조사 결과에 따르면, 국내 데이터 패브릭 시장은 2020년부터 2021년까지 15% 성장률을 기록했고, 2021년 이후에는 해마다 28%씩 성장하고 있는 것으로 나타났다. 코로나19로 인해 디지털 전환 가속화 및 생성형 AI로 인해 데이터 분석 수요가 급증하면서 이 같은 성장세가 나타난 것으로 분석된다.

글로벌 데이터 패브릭 시장 역시 가파르게 성장하고 있다. 마켓앤마켓의 시장 조사에 따르면, 전 세계 데이터 패브릭 시장 규모는 2020년 1조 3,990억 원(10억 달러)에서 연평균 26.3%씩 성장하며 2026년에는 5조 8,758억 원(42억 달러)에 달할 것으로 전망된다.

이에 대해 엠클라우드브리지 정진우 팀장은 “기업들이 앞다퉈 데이터 중심의 디지털 전환 전략을 채택함에 따라 데이터 관리와 분석에 대한 수요가 크게 증가하고 있다. 특히 클라우드 기반의 데이터 패브릭 솔루션에 대한 수요가 높아지고 있는 추세다”면서 “기업들이 클라우드 환경에서 데이터를 보다 효율적으로 관리하고 활용하고자 관련 서비스를 도입하고 있기 때문인 것으로 분석된다. 글로벌 기업을 비롯해 중소기업들도 데이터 패브릭을 도입해 비즈니스 프로세스를 최적화하고 경쟁력을 향상하고 있다. 이러한 동향은 데이터 관련 기술 및 서비스 기업에게 비즈니스 기회로 작용하고 있으며, 데이터 패브릭 시장은 지속적으로 성장할 것으로 예측된다”고 말했다.

이처럼 국내외 시장이 본격적으로 개화하자 관련 솔루션 기업들의 시장 진출도 덩달아 늘어나고 있다. 먼저 국내 기업의 경우 데이터 관리 비즈니스를 영위해 온 데이터스트림즈와 엔코아가 시장에 선제적으로 대응하고 있다.

데이터스트림즈는 테라원(TeraONE) 플랫폼을 비즈니스 전면에 내세우고 있다. ‘테라원(TeraONE)’이라는 통합 플랫폼을 통해 데이터 패브릭에 필요한 세부 솔루션들을 제공하고 있다. 테라원은 빅데이터 수집·가공·저장부터 데이터 거버넌스, 데이터 가상화, AI 분석, 빅데이터 관리 기능을 통합·제공한다. 크게 데이터 레이크를 지원하는 ‘스탠더드’ 버전, 수집부터 시각화까지 데이터 분석의 전 과정을 지원하는 ‘프로페셔널’ 버전, 데이터 거버넌스 기반 데이터 가상화를 지원하는 ‘패브릭’ 버전 등 3가지로 구성돼있다.

데이터스트림즈 김현철 전무는 “데이터스트림즈는 DW 분석이 각광 받던 시절부터 쌓아온 데이터 전문 관리·활용 기술력과 이 기술력이 잘 녹아든 솔루션을 토대로 기업 및 조직의 데이터 활용 환경을 혁신하도록 돕고 있다. 실제로 근로복지공단과 NH농협생명의 데이터 패브릭 구현 사업을 수행한 바 있다. 근로복지공단에는 클라우드 기반 빅데이터 플랫폼을 구축했고, 테라원 슈퍼쿼리로 가상화 데이터 정보 관리를 지원했다. 또한 시뮬레이션 화면, 분석 포털 등을 개발했다. NH농협생명에는 빅데이터 분석 기반의 경영 혁신과 고객 마케팅 강화 효과를 거두고자 다양한 종류의 데이터를 가상화 레이어에서 통합 및 분석할 수 있는 차세대 빅데이터 플랫폼을 구축했다”면서 “이 같은 풍부한 구축 경험과 14종의 솔루션을 토대로 국내·외 기업들의 데이터 활용을 혁신하도록 적극적으로 지원하고 있다”고 말했다.

엔코아 역시 데이터 비즈니스를 수행하며 축적한 기술력과 노하우를 살려 데이터 패브릭 비즈니스를 펼치고 있다. 엔코아는 ‘데이터웨어 DV샵(DATAWARE DV#)’이라는 솔루션을 토대로 데이터 가상화를 지원하고 있다. 엔코아의 데이터 가상화 솔루션 DV샵은 이기종 시스템과 멀티 클라우드를 지원하고, 접근제어, 이력관리, 데이터마스킹 등의 기능을 제공한다. 데이터 통합 관리 플랫폼인 ‘엔코아 데이터웨어’는 데이터 포털 구축 솔루션인 ‘DP샵’을 비롯해, 데이터 설계·메타 데이터 관리·데이터 품질 관리 등을 위한 데이터 거버넌스 솔루션 등 10여개 솔루션으로 구성돼 있다.

 엔코아의 DV샵을 활용한 논리적 데이터 레이크 구축 개요 (출처: 엔코아)
엔코아의 DV샵을 활용한 논리적 데이터 레이크 구축 개요 (출처: 엔코아)

엔코아 김범 사업부문장은 “엔코아는 상황에 따라 데이터 아키텍처를 탄력적으로 구성할 수 있고 변경할 수 있는 기술을 제공한다. 이 과정에서 데이터 품질 확보가 선행되며 데이터를 어떻게 공급하고 찾도록 할 것인지에 대한 체계도 갖추고 있다”고 설명했다.

한편, 해외 제품 중 국내 시장에서 가장 많은 관심을 받는 제품이 있다. 바로 마이크로소프트의 ‘MS 패브릭’이다. MS 패브릭은 데이터 관리 및 분석 영역에 특화된 솔루션이다. 데이터 취합/가공, 데이터 저장, 데이터 분석 등 서비스를 통해 데이터 모델링부터 BI 시각화, 리포트 생성까지 한 번에 처리할 수 있는 엔드투엔드 플랫폼이다. MS의 클라우드 플랫폼인 ‘애저’ 기반으로 구동되며, 오피스 솔루션인 ‘M365’, 챗GPT나 코파일럿과 같은 생성형 AI와도 연동돼 있다.

MS 패브릭이 각광받는 이유에 대해 엠클라우드브리지 정진우 MS 데이터 & AI 팀장은 “크게 3가지 이유가 있다. 먼저 SaaS 기반 통합 아키텍처로 7가지 핵심 서비스를 토대로 데이터 허브를 구축할 수 있다. 또 애저 오픈AI 서비스와 통합할 수 있고 GPT 기반 코파일럿 서비스로 ML 모델과도 호환된다. 마지막으로는 MS의 핵심인 클라우드 오피스 제품인 ‘M365’와 통합·연계돼 확장성과 유연성이 높다”고 설명했다.

 MS 패브릭 소개 (출처: 엠클라우드브리지)
MS 패브릭 소개 (출처: 엠클라우드브리지)

MS 패브릭은 구체적으로 MS 패브릭의 세부 서비스인 ‘MS 데이터 팩토리(Data Factory)’와 ‘시냅스 데이터 엔지니어링(Synapse Data Engineering)’, ‘시냅스 리얼타임 애널리틱스(Synapse Realtime Analytics)’ 등으로 데이터를 수집하고 통합하며 표준화할 수 있다. 또한 통합 데이터를 적재하고 운용하기 위해 ‘시냅스 데이터 웨어하우스(Synapse Data Warehouse)’, ‘원 레이크(One Lake)’ 등 서비스를 적용할 수 있고, 통합 데이터 예측·분석을 위해 ‘시냅스 데이터 사이언스(Synapse Data Science)’, ‘MS 코파일럿(MS Copilot)’, ‘데이터 액티베이터(Data Activator)’ 등 서비스를 이용할 수 있다. 이렇게 분석된 결과는 ‘MS 파워 BI’, ‘MS 파워 피봇’, ‘MS PPT-파워 BI’ 등으로 시각화해 이용할 수 있다.

[인터뷰] “클라우드 기반 데이터 패브릭으로 데이터 활용 체계 수립”
엠클라우드브리지 정진우 MS 데이터 & AI 팀장
엠클라우드브리지 정진우 MS 데이터 & AI 팀장

Q. 클라우드 기반 데이터 패브릭의 강점은 무엇인가.
A. 클라우드의 장점을 오롯이 살려 데이터 패브릭을 구현할 수 있다. 일반적으로 온프레미스 기반 데이터 패브릭 솔루션의 경우 서버 스팩과 보안 패치 등을 모두 준수해야 한다. 통상적으로 데이터 패브릭을 구상하기 위해서는 서버의 스팩도 요구된다. 도입 후 최소 10년에서 최대 15년까지 이용하는 국내 기업들의 서버 스팩상 데이터 패브릭을 구상하기에 어려움이 따르는 곳이 많다. 그렇다고 이를 위해 억 단위의 비용을 투자할 수는 없는 노릇이다.

아울러 보안 패치도 중요하다. 가령 각 기업마다 설치된 보안 프로그램이 존재하는데 이 영역 안으로 들어와 데이터 패브릭 솔루션이 등록돼야 한다. 이는 보안 프로그램의 요구사항을 벗어날 수도 있다. 일례로 금융사의 경우 일반 기업들이 이용하는 보안 프로그램보다 더 많은 비용을 지불하고 고스팩의 최신 보안 프로그램을 이용한다. 이 보안 프로그램의 영역 안으로 데이터 패브릭 솔루션이 들어가기 위해서는 번거로운 작업을 수행해야 한다. 이러한 상황을 타개할 수 있는 방법이 바로 클라우드 기반 데이터 패브릭이다.

Q. 데이터 가상화가 데이터 패브릭 구현에 중요한 이유와 이에 맞춘 데이터 관리 전략은.
A. 데이터 가상화가 중요한 이유는 다양한 데이터 원본을 효율적으로 관리하고 활용하기 위해 일관된 접근성과 유연성을 제공하기 때문이다. 복잡한 ETL 프로세스를 줄여 비용을 절감하고 데이터 보안과 규정 준수 요건을 강화할 수 있다.

데이터 관리 전략은 운영계 시스템(ERP, CRM 등)과 분석계/정보계 시스템 등 2가지 관점에서 설명할 수 있다. 먼저 운영계 시스템 측면에서 데이터 관리 전략은 기업의 운영 시스템에서 관리되는 기준정보(마스터 데이터)에 대한 정비가 우선돼야 한다. 이종 간의 기간계 시스템에 대한 통합 관점에서의 기준정보 통합이 아닌, 하나의 시스템 내에서도 해당 운영계 시스템 구축시에는 기준정보 등을 잘 셋업하고 운영하면서 업데이트나 유지보수가 되지 않아 각 기업이 가지고 있는 기준정보와 실제 트랜잭션 데이터가 불일치하는 사례가 많다.

업무 프로세스의 복잡도나 운영계 시스템에 대한 지속적인 투자와 관심, 실제 업무 프로세스와 운영계 시스템의 밀접도에 영향을 받기 때문에 기준정보 관리가 되지 않는 기업들이 의외로 많다. 이러한 기준정보는 분석계/정보계 시스템으로 통합된다고 하더라도 ‘알아서 잘 딱 깔끔하고 센스있게’ 인공지능(AI)이 통합하는 것이 아니므로 운영계 시스템에서부터 기준정보 관리는 일관성 있게 고품질로 관리돼야 한다.

다음은 분석계/정보계 시스템에서의 데이터 관리 전략이다. 분석계/정보계 시스템에서는 이종 간의 운영계 시스템의 데이터를 통합하고자 하는 요구가 크다. 때문에 비즈니스 요구사항 분석과 조직 내 각 부서와의 협력과 커뮤니케이션이 필요하다. 특정한 부서 관점에서만 데이터가 통합된다면 조직 내 다른 부서에서는 데이터의 통합화/중앙화가 아니라 부서별 별도의 데이터 패브릭이 생성될 가능성이 있다.

또한 데이터 문서화와 메타데이터에 대한 관리가 필요하다. 데이터의 출처, 의미 및 관계를 명확하게 문서화하고 이를 통해서 어떠한 관점에서 데이터가 통합됐는지 조직 내 사용자들이 이해도를 높이고 유지보수를 용이하게 만들어야 관리의 효율성을 극대화할 수 있다.

Q. 클라우드 기반 데이터 패브릭을 구축할 때 유의할 점은.
A. 기업의 데이터를 잘 정돈해야 한다는 점을 강조하고 싶다. 현재 데이터 레이크, 데이터 패브릭, 또는 AI 기반 머신러닝 모델 구축과 같은 IT 환경에서 혁신적인 기술과 방법론이 쏟아져 나오고 있다. 특히 국내 기업들은 MS의 ‘파워 BI’ 혹은 태블로의 BI 등을 통해서 데이터 활용에 중점을 두고 데이터의 활용을 위한 기업 가치 향상을 꾀하고 있다.

그러나 이러한 데이터 활용을 위한 기업 가치 향상도 기업의 데이터가 잘 정리 또는 정제돼 있어야 최적의 분석 환경을 만들 수 있다. 기업은 업무용 시스템을 1~2개 정도가 아닌 다중의 시스템을 사용하고, 각 시스템이 사일로하기에 기업의 실무 담당자 입장에서 데이터를 활용할 수 있는 환경 자체를 잘 구축해 놓는 것이야 말로 데이터를 분석하고 활용할 수 있는 환경을 만드는 것이다. 이러한 기업의 데이터 분석 환경이 선행돼야 빅데이터 기반 분석 및 미래 예측이 가능한 AI/ML 환경을 구축할 수 있다.


기업은 좋은 제품을 선택하는 것도 중요하지만 데이터 활용을 위한 체계적인 전략에 역점을 둬야 한다.

데이터스트림즈 김현철 제품사업본부 전무는 “데이터 패브릭이라는 혁신적인 아키텍처를 구현하는 것도 좋지만, 기업 및 조직의 일하는 방식에 혁신이 우선되어야 한다. 데이터 중심의 일하는 방식에 초점을 맞추고 데이터 가상화, 데이터 카탈로그 등 솔루션을 도입해야 한다는 의미다. 또 ‘데이터 소비자 중심’이라는 데이터 패브릭의 핵심 가치를 살리기 위해서는 조직원들이 데이터에 기반해 미래를 예측하고 중요한 비즈니스 의사결정을 내리는 것을 자연스럽게 인식하고, 본인의 업무에 데이터를 활용하려는 의지가 선결돼야 한다”고 강조했다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지