메타데이터 기반 데이터 계보 관리 수요 증대

[컴퓨터월드] IT업계에서 ‘리니지’라고 하면 적잖은 이들은 유명한 국산 게임을 먼저 떠올릴 것이다. 혈통 또는 계보라는 뜻의 이 단어가 최근 들어 데이터 관련 분야에서도 종종 쓰이고 있다. 데이터 거버넌스의 일환으로, 데이터의 흐름을 시각화해 계보로 구현하고 관리하기 위한 ‘데이터 리니지’가 화두가 되고 있기 때문이다. 국내에서도 금융업계를 중심으로 조금씩 수요가 늘어가고 있는 데이터 리니지 솔루션에 대해 살펴본다.

 

데이터의 흐름을 본다

데이터 거버넌스는 기업 IT시스템 내 데이터를 관리하기 위한 정책 및 프로세스를 뜻한다. 기업이 보유하고 활용하는 데이터가 많아질수록 이들을 체계적으로 관리해야 할 필요성 역시 늘어나기 마련이므로, 빅데이터라는 화두를 거쳐 데이터 사이언스에 대한 관심이 늘어난 현 시점에서 데이터 거버넌스는 그 중요성이 갈수록 커져가고 있다.

‘데이터 리니지(Data Lineage, 데이터 계보)’가 최근 들어 주목받기 시작한 것 또한 같은 맥락에서 바라볼 수 있다. 기업의 업무가 복잡해지고 시스템 간 연계가 늘어나면서, 현재 쓰이는 데이터가 어떻게 생성됐고, 어떤 과정을 거쳤으며, 어디에 쓰이고 있는지 등의 계보를 관리해 현황을 파악하고자 하는 니즈가 확대된 것이다. 일반적으로 DW(데이터웨어하우스)를 기반으로 하는 기업 BI(비즈니스 인텔리전스) 프로세스에서 데이터의 정합성에 문제가 발생한 경우를 그 대표적인 예로 꼽을 수 있다.

즉 ‘데이터 계보 관리’는 최초 생성부터 ETL(추출·적재·변환) 과정을 거쳐 타깃 DB(데이터베이스)에 이동돼 저장되는 일련의 데이터 흐름에 대해, 그 생성, 변경, 이동 등 이력과 생명주기를 관리함으로써 전사 데이터가 적합한 과정을 거쳐 최적화된 형태로 활용되고 있는지 적시에 확인하는 것을 목적으로 한다. 데이터 흐름을 확보해 데이터 유통의 투명성을 확보하고, 데이터 오류의 원인을 파악해 원인을 제거하며, 궁극적으로 데이터 계보를 현행화함으로써 데이터의 정확성과 시스템의 안정성을 향상시키기 위함이다.

▲ 데이터스트림즈 ‘Q-트랙’ 사용화면

“데이터 스트림을 보여주는 데이터스트림즈 ‘Q-트랙’”

▲ 신동선 데이터스트림즈 PPC본부 상무
데이터는 사용자에게 적시에 정확하게 공급돼야 하며, 다양하게 활용돼야 한다. 데이터 생성과 수집부터 가공, 변환, 이동 및 보고서 작성 등 활용과정까지 정확한 데이터가 적합한 사용자에게 효율적으로 공급되고 있는지에 대해 데이터의 흐름을 시각화하는 것은 데이터 거버넌스의 핵심영역이다. 보이지 않은 것은 관리할 수 없다. 이에 데이터스트림즈가 자체 개발한 MT(매핑트레이싱)엔진을 기반으로 삼아 지난 2014년 하반기 출시한 데이터 리니지 솔루션 ‘Q-트랙(Q-Track)’은 데이터가 흘러가는 모든 과정을 눈으로 볼 수 있고 추적할 수 있도록 데이터 스트림을 시각화해주는 솔루션이다.

주로 금융권 고객들의 니즈에 따라 개발된 이 솔루션은 언어별 파서엔진에 의한 소스 자동 파싱 기반의 흐름 분석을 통해 실제 현황을 보여준다는 점에서 차별화됐으며, 현재 D은행과 K은행에 도입됐다. 앞으로 데이터 리니지 솔루션은 개인정보 보안 관련 용도로도 활용될 것으로 예상하며, ‘Q-트랙’ 2.0버전에서는 계정계·운영계를 포괄하고 타 벤더 ETL· BI 솔루션과 연계해 데이터 흐름을 전사적인 관점으로 시각화하는 대상 시스템 적용범위를 확장할 수 있도록 솔루션 엔진개발에 매진할 것이다.

 

메타데이터 관리 솔루션의 전직

기존에도 데이터 흐름이라는 개념은 있었고, 그 표현방식은 업무처리 프로세스 설계 기반으로 데이터 처리 과정을 설계단계에서 데이터 플로우 다이어그램으로 정의하는 형태였다. 수년 전부터 데이터 거버넌스가 강조됨에 따라 메타데이터 기반의 데이터 표준, 구조, 품질, 흐름 등의 관리가 이를 위한 방안으로 확산되면서 데이터 계보 관리 또한 데이터 거버넌스의 한 축을 맡게 됐다.

이에 따라 데이터 계보 관리 솔루션들은 데이터 흐름의 근거를 메타데이터에서 찾는다. 기존에는 데이터 매핑 정의서 기반으로 수작업해 연결 맵을 표현하기도 했으나, 소스가 변경될 때마다 변경작업을 수행해주지 않으면 실제상황과 차이가 발생하므로 오류 개연성도 상존하고 비효율적이라는 문제가 있었다. 그래서 현재 출시되는 솔루션들은 기존 영향도 분석 등에 쓰이던 자동 파싱(parsing) 기능을 응용, 메타데이터를 바탕으로 어떤 프로그램이 어떤 DB테이블의 컬럼을 참조하고 있는지 파악하고 비즈니스 프로세스에 따른 처리 순서를 식별해 해당 데이터의 흐름을 구현하는 방식이다.

그러므로 데이터 계보 관리와 메타데이터 관리는 동전의 양면과도 같다고 할 수 있다. 기존 BTM(비즈니스 트랜잭션 관리)과도 유사한 측면을 지니고 있으며, 새롭게 개발됐다기보다는 기존 메타데이터 관리의 기능을 토대로 시점의 변경 또는 발상의 전환을 통해 등장한 셈이다. 데이터 파싱 기술을 보유한 데이터 거버넌스 전문기업들이 그대로 이 시장의 주역을 맡고 있으며, 메타데이터 관리는 물론 데이터 모델링, 데이터 통합, 데이터 품질, MDM(마스터데이터 관리) 등의 솔루션과도 시너지를 기대할 수 있다.

다만 SAP의 ERP(전사자원관리)와 같이 애플리케이션의 메타데이터가 오픈돼있지 않아 스키마를 읽어올 수 없다면 파싱을 수행할 수 없어 해당 부분의 데이터 흐름을 파악하는데 제약이 생긴다. 인포매티카와 SAP처럼 데이터 계보 관리 솔루션사와 애플리케이션 벤더사 간 별도의 협약을 맺지 않는 이상, 데이터 통합 용도로 개방돼있는 부분을 제외하고는 추적이 불가능해진다. 이는 메타데이터가 암호화됐거나 변조된 경우에도 마찬가지다.

“깊이 있는 파싱 기술 기반의 지티원 ‘DL마이너’”

▲ 백운기 지티원 상무
데이터 리니지 솔루션은 데이터 품질을 담보하기 위한 가장 확실한 장치 중 하나다. 데이터 값이 맞는지, 근거가 무엇인지, 어떤 과정을 거쳐 현재에 이르렀는지 등에 대한 신뢰성을 담보해주기 때문이다. 데이터 리니지에 대해 과거에는 DB컬럼을 수동으로 매핑하는 수준으로 인식했고, 일본의 경우에는 아직 이러한 의미로 통용된다. 이와 달리 자동으로 데이터 계보를 구현하기 위해서는 특히 셸스크립트를 분석하는 파싱 기술이 충분히 뒷받침돼야 한다.

지티원은 지난 2015년 하반기에 한 글로벌 은행 한국지사의 프로젝트를 수행하는 과정에서 국내 최고라 자부하는 프로그램·DB 파싱 기술을 기반으로 기존 솔루션의 기능을 활용하는 시각을 바꿔 계보를 구현, ‘DL마이너’ 출시로 이어졌다. 글로벌 주요 은행의 경우 바젤3(Basel III, 은행자본 건전화방안)에 의거, 데이터 리니지로 신뢰성을 입증해야 하기 때문이다. 향후 금융당국의 정책적인 방향에 따라 국내에도 관련 시장이 열릴 수 있다고 보며, 지티원은 국내 시장의 변화에 발맞추는 동시에 일본 시장에서도 기회를 엿볼 계획이다.

 

솔루션벤더들의 금융 분야 향한 공성전

▲ 엔코아 ‘DF#’ 데이터 흐름 분석 구성도

국내 데이터 거버넌스 전문기업들은 데이터 계보 관리 솔루션의 수요처로 금융 분야를 첫손에 꼽고 있다. 일반적으로 DW 활용이 활성화돼있으며, 비즈니스 특성상 데이터의 투명한 관리와 함께 즉각적으로 오류를 바로잡을 수 있는 역량을 필요로 하기 때문이다. 또한 차세대 시스템 구축 사업을 통해 IFRS(국제회계기준) 등에 대응하면서, 현황 파악에서 나아가 장차적인 분석에도 데이터 계보 관리를 접목시키려는 시도가 이뤄지고 있다.

금융 분야 외에도 CRM(고객관계관리)을 활용하고 있는 유통 분야나 제조 분야 등 원천데이터를 다양하게 가공해 분석을 수행하고 있는 곳이라면 데이터 계보 관리에 대한 수요가 존재할 수 있다. 다양한 분석 목적에 따라 기업 내외의 원천데이터 입수단계부터 이를 기반으로 리포트를 생성하기까지 해당 데이터가 거치는 과정을 체계적으로 관리, 분석의 근거를 마련하는 동시에 데이터 오류와 부적합한 이동을 방지할 수 있기 때문이다.

이밖에도, 기업 IT시스템의 안정적인 관리뿐 아니라, 데이터 활용에 대한 부서 간 업무 협조에도 시각화된 데이터 계보가 유용할 수 있다. 해외의 경우 공공분야에서 민감한 데이터를 관리하는 데 데이터 계보 관리 기능이 쓰인 사례도 존재한다. 나아가 데이터 중복과 의존성(dependency) 파악에 응용한다면 마이크로서비스 아키텍처(MSA)가 구축된 환경에서도 활용될 수 있을 것이다.

“데이터 전문 컨설팅 역량 녹인 엔코아 ‘DF#’”

▲ 정철원 엔코아 R&D센터 이사
최근 들어 국내 시장에서 데이터 리니지가 회자되는 이유는 빅데이터나 4차 산업혁명 등 새로운 IT트렌드에서 찾을 수 있다. 기업들이 데이터의 중요성을 인지하기 시작하면서 결국 데이터 활용이라는 측면에서 수요가 늘어나고 관련 문제도 함께 발생하는 것이기 때문이다. 엔코아의 데이터 리니지 솔루션 ‘DF#’의 경우 지난해 중국시장을 공략하는 과정에서 고객의 요구사항에 따라 기존 메타데이터 관리 솔루션에 기능을 추가 개발, 이후 그간 쌓아온 컨설팅 노하우도 녹여 별도 솔루션으로 출시하게 됐다.

데이터 리니지 솔루션의 주요 수요처는 금융권이 될 것으로 보이며, 국내에서도 이 분야에서 가장 먼저 필요로 하는 상황이다. 금융업계뿐만 아니라 전사적인 데이터 관리가 요구되는 분야라면 어디든 도입을 고려해볼 수 있을 것으로, 기존 데이터 모델링 및 메타데이터 관리 관련 시장의 수요가 그대로 이어질 것으로 보고 있다. 엔코아 ‘DF#’은 데이터 리니지의 애즈-이즈(as-is)를 넘어 투-비(to-be)까지 보여주고 이를 바탕으로 데이터 거버넌스를 갖추도록 지원하는 것을 목표로 하고 있다.

 

데이터 거버넌스 전문기업들의 새로운 사냥터

▲ 인포매티카 ‘EIC’ 및 ‘비즈니스글로서리’ 솔루션 사용화면

데이터는 사용자에게 적시에 정확하게 공급돼야 하며, 다양하게 활용돼야 한다. 글로벌 IT컨설팅기관 가트너는 지난해부터 메타데이터 관리 솔루션에 대한 매직 쿼드런트 보고서를 발표하기 시작했는데, 이는 그만큼 데이터 거버넌스의 중요성이 널리 인식되고 있다는 의미로도 풀이된다. 더욱이 IT부서뿐 아니라 현업부서에서도 데이터를 다루고 확인하고자 하는 니즈가 증가하고 있는 현 시점에서, 시각적으로 데이터의 흐름을 파악할 수 있는 데이터 계보 관리 기능은 다방면에서 유용하게 활용될 수 있을 것이다.

메타데이터를 기반으로 하며, 과거 메타데이터 관리 솔루션의 범주에 포함되기도 했던 데이터 계보 관리 솔루션에 대한 국내 시장의 수요는 아직 초기단계라고 할 수 있다. 그러나 데이터를 기반으로 비즈니스를 영위하는 기업들이 많아질수록 데이터 계보 관리를 필요로 하는 수요도 함께 늘어날 전망이며, 빅데이터와 데이터 사이언스는 이를 가속화시킬 것으로 보인다. 새로운 시장을 창출하며 출사표를 던진 데이터 거버넌스 전문기업들의 행보에 귀추가 주목된다.

“현업 사용자에게 다가가는 인포매티카”

▲ 인포매티카 TCG
조현탁 부장(왼쪽), 임정혜 부장(오른쪽)
인포매티카 대표제품인 ‘파워센터(PowerCenter)’의 어드밴스드 에디션에서는 메타데이터 관리 기능을 제공, 이를 통해 수년 전부터 데이터 리니지를 볼 수 있도록 지원하고 있다. 과거보다 훨씬 규모가 커지고 복잡해졌으며 다양한 환경에 기반을 두게 된 현재의 기업 IT시스템에서 데이터 애셋 관리를 위해 데이터 리니지를 파악하고 활용하는 것은 더욱 중요해졌다. 이에 따라 최근에는 ‘라이브 데이터 맵(LDM)’ 기능을 지원하고 있으며, 메타데이터를 위한 검색엔진이라 할 수 있는 ‘엔터프라이즈 인포메이션 카탈로그(EIC)’ 솔루션을 새롭게 하둡 기반으로 출시했다.

기존의 데이터 리니지 관련 기능이 어떤 부분이 안 맞는지 확인하는데 주로 쓰였다면, ‘EIC’의 경우 개별 메타데이터 오브젝트에 대한 360도 뷰를 제공해 연결된 데이터와 품질지표 및 문서자산까지 모두 검색할 수 있게 돼있다. 또한 인포매티카의 비즈니스 용어사전 솔루션 ‘비즈니스 글로서리(Business Glossary)’는 비즈니스 용어와 메타데이터를 통합 관리, 현업에서 비즈니스 용어만으로도 연계돼있는 메타데이터를 찾아 계보를 알 수 있게 해준다. 과거와 달리 기업IT가 더 이상 IT부서에만 해당되는 게 아니듯, 현업부서에서도 데이터를 충분히 파악하고 활용할 수 있도록 지원하는 데 중점을 두고 있다.

 

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지