데이터 거버넌스 구축 무르익으며 시장 급성장 초읽기

[컴퓨터월드] 전 산업계에서 디지털 혁신이 빠르게 진행되면서 기업들은 앞다투어 새로운 제품을 도입하고 시스템을 확대하고 있다. 이에 따라 IT 환경과 업무 시스템은 하루가 다르게 복잡해지고 있다. 이러한 가운데 기업의 데이터 관리 조직에서는 다양한 시스템 사이를 오가는 데이터들을 실시간으로 감시하고 그 흐름을 파악하고자 하는 요구가 증가하고 있다. 데이터의 탄생부터 죽음까지 모든 라이프 사이클을 추적하는 데이터 리니지에 대해 살펴봤다.


데이터 생애주기 추적해 신뢰성 확보

IT 기술을 활용한 디지털 혁신이 기업들의 최우선 과제가 되면서 IT 전반에 대한 투자가 빠르게 늘어나고 있다. 특히 데이터는 이미 전 세계 모든 조직들의 핵심 자원으로 자리 잡았다. 이제 데이터를 효과적으로 활용하지 못하는 조직은 비즈니스 환경에서 생존하기 어렵게 됐다. 실시간으로 생산되는 데이터를 수집하고 관리하며 분석을 통해 필요한 인사이트를 창출하는 능력이야말로 모든 기업들의 기본 소양이다.

하지만 IT에 대한 투자가 증가하고 데이터 활용에 대한 요구가 확대되면서 기업의 IT 환경은 더욱 복잡해지고 있다. 새로운 솔루션을 도입하고 데이터 인프라를 확장하는 일련의 과정은 업무 시스템들 간의 복잡성을 높인다. 복잡한 시스템 상에서는 장애나 이슈에 대한 추적이 어려워 관리 부담이 늘어날 수밖에 없다. 업무 시스템 간의 연계가 복잡해지니 각 시스템에서 생산되는 데이터를 추적하는 것도 쉽지 않고, 데이터를 활용하는 부서가 늘어나면서 전사적인 데이터 추적과 관리 또한 어렵다.

만약 기업이 대량의 데이터를 보유하고 있다고 하더라도, 데이터를 투명하게 관리할 수 없다면 가치가 크게 훼손된다. 관리되지 않은 데이터는 신뢰성을 보장할 수 없기 때문이다. 아무리 뛰어난 데이터 분석 시스템을 보유하고 있다고 하더라도 원재료인 데이터의 신뢰성을 검증할 수 없다면 분석 결과의 정확성 또한 보장할 수 없다. 따라서 데이터의 활용과 분석 역량을 갖추기에 앞서 올바른 데이터 관리 역량을 보유하는 것은 필수적이다. 오늘날 전 세계 수많은 기업들이 데이터 거버넌스를 중요시하며 관련 인프라를 갖추는 이유다.

데이터 리니지는 데이터의 라이프 사이클을 추적해 가시적으로 제공한다. (출처: 엔코아)

데이터 계보 관리(Data Lineage, 이하 데이터 리니지)는 조직 내에서 데이터의 수집 및 저장, 이동과 통합, 분석, 폐기에 이르는 모든 라이프 사이클을 추적한다. 이는 특정 데이터가 어떤 시스템에서 생성됐고 어느 DB에 저장됐는지, 이후 어떤 과정을 거쳐 현재는 어디서 활용되고 있는지 등을 투명하게 확인해 실시간으로 파악하는 것을 목적으로 한다. A라는 데이터의 생애를 분석해 지금 A라는 값으로 존재하는 근거를 제시하는 것이다.

이를 통해 데이터의 신뢰성을 크게 높일 수 있을 뿐만 아니라, 특정 데이터에서 오류가 발생했을 때 해당 데이터가 만들어진 흐름을 역추적해 원인을 파악하고 대응할 수도 있다. 그럼에도 불구하고 그동안 데이터 리니지에 대한 산업계의 관심은 여타 데이터 관련 시스템보다 낮았다.
 

선제적 도입보다는 거버넌스 수립부터

데이터 거버넌스는 조직 내에서 데이터의 정확성을 확보하고 품질을 높여 가치를 창출하기 위해 수행하는 모든 기술과 정책을 의미한다. 국내에서 데이터 거버넌스를 갖추기 위해 가장 먼저 시작한 것은 메타데이터 관리였다. 메타데이터는 다양한 시스템에서 생산되는 ‘값’들을 가치 있는 ‘데이터’로 만들기 위해 해당 값의 성질을 정의하는 요소다. 메타데이터를 관리함으로써 특정한 값의 나열에 공통된 의미가 부여되고, 이를 손쉽게 결합하거나 조직 내에서 공유하면서 가치를 창출할 수 있다. 전사적인 데이터 분석을 위해서는 반드시 갖춰져야 한다.

이후에는 데이터 품질 관리가 주목을 받았다. 데이터의 품질을 관리한다는 개념은 메타데이터 관리를 포함해 데이터 거버넌스 전반을 포함해야겠지만, 여기서는 보다 지엽적인 의미에서 보유하고 있는 데이터의 정확성을 점검하고 오류 데이터를 찾아내는 시스템만으로 한정하고자 한다. 이러한 데이터 품질 관리는 데이터를 다루는 수요층이 IT 조직에서 비즈니스 조직으로 옮겨감에 따라 더욱 각광받고 있다. 데이터에 대한 전문성이 부족한 비즈니스 조직이 직접 데이터를 다루는 과정에서 IT 조직의 통제력이 떨어지고 품질이 낮아질 수 있기 때문이다.

반면 데이터 리니지는 그동안 메타데이터 관리나 품질 관리에 비해 등한시됐던 것이 사실이다. 이는 데이터 리니지의 특징에서 비롯한다. 여타 기술들은 부분적으로 도입해도 어느 정도 효과가 있지만, 데이터 리니지는 다른 데이터 관리 체계가 갖춰진 뒤에야 본격적인 성과를 기대할 수 있기 때문이다.

예를 들어 데이터 품질 관리 시스템을 통해 특정 데이터의 오류를 발견했다고 하자. 오류가 발생하는 원인은 셀 수 없을 정도로 많다. 원인을 파악하기 위해서는 오류가 발생된 시스템만이 아닌, 해당 데이터가 거쳐 온 모든 시스템들을 역추적 해야 한다. 만약 규모가 커서 각각의 시스템을 관리하는 조직이 다르다면 원인 분석에 한 달 이상이 소요될 수도 있다. 이 경우 데이터 리니지를 도입하면 데이터의 생성부터 폐기까지 모든 과정을 추적할 수 있다. 하다못해 데이터의 구체적인 변경 내역이 아니라 이동 경로만 파악할 수 있어도 원인 분석 시간을 크게 줄일 수 있다.

반면 전사적인 데이터 관리 체계가 갖춰지지 않은 채 데이터 리니지만을 먼저 구축하는 것으로는 효과를 보기 어렵다. 특히 데이터 거버넌스 혁신 프로젝트를 앞두고 있어 관리 체계에 큰 변화가 예고된 경우 더욱 그렇다. 데이터스트림즈 관계자는 “데이터 거버넌스는 정책 수립이나 조직 개편과 같은 광범위한 변화를 요구하기 때문에 데이터 리니지만 먼저 구축하는 것은 도움이 되지 않는다”며, “고객사들에게도 다른 데이터 관리 체계를 갖춘 후 필요성을 느꼈을 때 데이터 리니지를 고려하라고 권장한다”고 설명했다.

“서두르지 말고 장기적 계획에 따라 도입해야”
이상화 데이터스트림즈 PS본부 수석


데이터 리니지는 결국 데이터의 흐름을 가시화하는 것이다. 여기서 데이터의 흐름이란 전통적으로 계정계, 정보계에서부터 데이터 마트, OLAP까지 모든 지점을 포함한다. 다른 시스템들이 갖춰진 후 이들을 연결하는 것이 바로 데이터 리니지다. 바꿔 말하면, 연결할 것들이 없는데 데이터 리니지만 도입하겠다고 나서면 실패하기 쉽다. 또한 연결점들을 만들겠다고 데이터 거버넌스 혁신 프로젝트와 함께 진행하면 프로젝트 기간과 예산이 감당하기 힘들 정도로 늘어날 수 있다.

KB국민은행은 최근 5년에 걸쳐서 데이터 거버넌스 혁신 프로젝트를 진행했다. 사내에 데이터전략본부 등을 신설하고 대대적인 개선에 나섰으며, 금융권에서는 매우 성공적인 데이터 거버넌스 프로젝트로 꼽힌다. 그동안 1차부터 3차까지 나눠서 프로젝트를 진행했는데, 데이터 리니지를 전사적으로 도입해 고도화한 것은 마지막인 3차 프로젝트였다. 1~2차에서 어느 정도 데이터 관리 체계가 잡히고 운영이 안정화된 후, 이제 데이터 리니지가 효과를 볼 수 있겠다 싶은 시점에 도입한 것이다. 결과적으로 실제 사용자들의 만족도도 높고 활용도 잘 되고 있다. 이런 계획과 고민 없이 도입하면 효과를 보기 힘들다.

최근 금융권에서는 기존에 운영하던 계정계, 정보계 시스템 등에 마이데이터 서비스라는 대규모 이슈가 더해지면서 시스템의 규모나 복잡성이 크게 증가하고 있는 상황이다. 여기에 산업계 전반의 클라우드 전환이 가속화되면서 클라우드로 넘어가는 시스템과 새로 생기는 시스템 간의 연계 또한 중요하게 여겨진다. 데이터 리니지를 도입할 당위성은 충분히 갖춰진 셈이다. 이에 따라 데이터 리니지에 대한 수요는 향후 3년 안에 폭발적으로 늘어날 것으로 예상한다. 이미 금융권을 시작으로 일부 제조‧통신 분야에서도 프로젝트가 나오고 있다.

고도화된 파싱 기술로 매핑 정보 수집 자동화

데이터 리니지가 별개의 기술이나 제품으로 탄생하기 전에도 데이터의 흐름을 파악하려는 시도는 있었다. 업무 프로세스를 고려해 시스템 간에 데이터가 어떻게 흐르도록 설계됐는지를 가시적으로 표현하는 식이다. 대개는 데이터 매핑 정의서에 작성된 정보를 기반으로 IT 조직에서 수작업으로 작성했다.

하지만 수작업으로 진행되는 만큼 당연히 실시간성이 떨어지게 된다. 업무 시스템 간의 연계 구조나 데이터 연결 형태가 변경될 때마다 이를 즉각 반영하기는 쉽지 않기 때문이다. 담당자가 직접 수정하기 때문에 휴먼 에러가 발생할 가능성도 있다. 당시에는 업무 시스템의 복잡성이 높지 않아 어느 정도는 수작업으로 관리할 수 있었고, 실시간으로 데이터의 흐름을 시각화하고 관리해야 한다는 인식이 낮았기 때문으로 보인다.

데이터스트림즈의 데이터 리니지 솔루션 ‘Q-트랙(Q-Track)’ 구조도

최근 데이터 리니지 솔루션들은 데이터의 흐름 관리를 자동화하는 데에 초점을 맞춘다. EAI, ESB, CDC, ETL 등 데이터의 흐름이 발생하는 지점을 파악하고, 이들과의 연계를 자동화해 데이터 매핑 정보를 수집한다. 해당 시스템 마다 제품 개발사가 다르고 기능을 구현하는 방법이 다르므로 이들을 분석할 수 있는 파싱(parsing) 엔진을 다양하게 갖춰야 한다. 실제로 국내에서 강세를 보이고 있는 데이터 리니지 솔루션 개발사들은 영향도 분석 솔루션 등을 개발하며 프로그램이나 DB에 대한 파싱 기술을 축적하고 있는 경우가 많다.

만약 기업 내 형상관리 시스템이 구축된 경우 이를 분석하는 것이 효율적이다. 형상관리 시스템은 기업 내 대부분의 SW 구성요소를 파악해 버전별로 관리하고 변경사항을 추적하며, 시스템 및 데이터 간의 연계 정보를 실시간으로 관리한다. 형상관리 시스템 내에서 메타데이터 정보를 기준으로 업무 시스템 간에 데이터가 어떻게 이동하는지를 파악해 데이터 흐름을 시각화할 수 있다.

“‘데이터 관리’라는 목표 아래 연결된 프로세스 갖춰야”
김범 엔코아 전략사업본부 전무


데이터 리니지는 데이터의 흐름이 발생하는 원천으로부터 데이터를 수집하는 것으로 시작된다. 기업의 업무 시스템에서 데이터가 발생하는 부분은 EAI, ESB 등이 있으며, 이러한 시스템과 자동화된 연계가 필요하다. 또한 운영 측면에서는 SQL 등을 통한 데이터 관리에 의해 데이터 흐름이 발생한다. 이러한 부분을 분석해 데이터 흐름을 보여줄 수 있어야 한다. 다시 말해 데이터 리니지는 ▲시스템을 이용한 데이터 흐름 관리 ▲데이터 소스 및 타깃 관리 ▲데이터 매핑 정의서 활용 ▲문서 형태의 흐름 관리 등을 복합적으로 활용해야 한다.

기업이 데이터 관리를 바라볼 때 가장 주의해야 할 점은 각각의 다양한 데이터 기술을 독립적으로 보는 것이다. 실제 기업 데이터 관리는 데이터 품질 고도화라는 목표로 진행되고 있으나, 이러한 목적을 달성하기 위해서는 데이터 표준, 모델, 구조, 품질 등 다양한 데이터 프로세스와 기술들이 연결돼야 한다. 즉 데이터 관리를 위한 엔드 투 엔드(End-to-End) 기술과 솔루션이 유기적으로 연결돼야 기업의 데이터 관리라는 명제를 달성할 수 있으며, 리니지 기술 또는 제품도 이러한 프로세스의 일부로 연계됐을 때 정확한 목적을 달성할 수 있다.

엔코아의 ‘데이터웨어 DF#(DATAWARE DF#)’은 기업의 기준 정보가 관리되는 MDM(Master Data Management)부터 기간계, 정보계는 물론 사용자의 BI 화면까지 전반적인 데이터 리니지 지원이 가능하다. 데이터 표준, 모델, 형상, 애플리케이션 영향도 분석은 물론 EAI, ESB, 대외 시스템 연계, CDC, ETL 등 다양한 데이터 흐름의 매핑 정보를 전사적으로 관리할 수 있다. 무엇보다 데이터 통합관리 솔루션 ‘데이터웨어’의 모듈로 제공돼 다른 솔루션들과 보다 유기적인 연계가 가능하며, 이를 통해 명확하고 체계적인 데이터 흐름 관리 기능과 분석 모니터링이 가능한 가시적인 화면을 제공한다.

현행 시스템 파악 난항…적극적 의지와 참여가 핵심

한편 데이터 리니지 솔루션을 공급하는 기업들은 데이터 리니지 시스템을 구축할 때 현행 시스템에 대한 분석과 정리가 가장 중요하면서도 어렵다고 입을 모은다. 이것이 선행되지 않으면 데이터 리니지 도입이 지연될뿐더러 효과를 보기도 어렵다. 고객사가 형상관리 시스템을 구축해 운영하고 있더라도 완전하지는 않다. 형상관리 시스템에 등록돼 있다고 해서 모두 현재 운영되고 있는 시스템은 아니기 때문이다.

많은 IT 담당자들이 필요에 따라 테이블을 만들고 활용하지만, 사용한 후 필요 없어진 테이블을 지우는 데에는 인색하다. 이후에 어떤 용도로 사용될지 모른다는 심리 때문이다. ETL 프로세스를 만들었을 경우 이후에도 변경해가면서 사용할 수 있는데, 괜히 기존에 개발해둔 것을 건드렸다가 나쁜 영향을 줄 수도 있으니 그대로 두고 새롭게 만드는 일이 부지기수다. 이렇게 낭비되는 요소들이 전부 형상관리 시스템에 축적돼있다.

공급기업 입장에서는 기존에 운영하던 시스템 중 데이터 리니지를 통해 유의미한 요소와 그렇지 않은 것들을 구별하기가 쉽지 않다. 고객사가 적극적인 의지를 가지고 공급기업과 협력하지 않으면 요원한 일이다. 물론 데이터 리니지를 도입한 후 전사적인 데이터 흐름을 분석해보면 현재 사용하지 않고 있는 테이블이나 프로그램을 구분할 수 있겠지만, 사전에 가능한 범위 내에서 불필요한 프로그램들을 통합하거나 정리함으로써 데이터 리니지 구축을 더욱 매끄럽게 추진할 수 있다.

데이터 리니지 도입에 앞서 분명한 목표와 요구사항을 수립해야 한다. (출처: 지티원)

반대로 특정 조직에서 독립적으로 사용하는 시스템이라는 이유로 소스를 별도로 관리, 형상관리 시스템에 등록하지 않은 경우도 있다. 이러한 시스템을 사전에 파악하지 못해 구축 단계에서 포함시키지 못하면 전사적인 데이터 리니지 구축은 요원해진다. 본격적인 데이터 리니지 구축 프로젝트에 돌입하기 전에 해당 조직과의 면담을 통해 시스템 개요를 파악하고 적극적인 협조를 약속받아야 한다.

이렇듯 성공적인 데이터 리니지 구축을 위해서는 고객사의 적극적인 참여가 필수적이다. 엔코아 관계자는 “데이터 리니지에 대한 기본적인 전략 없이 솔루션의 성능에만 기대하는 것은 문제”라며, “데이터 흐름은 물론, 기업의 데이터 매니지먼트 전반에 대한 체계적인 전략이 수립됐을 때 보다 효율적으로 프로젝트를 수행할 수 있다”고 조언했다.

“솔루션 도입만이 해답 아냐…요구사항 구체화와 목표 수립이 중요”
백운기 지티원 상무


최근 금융권을 중심으로 데이터 흐름을 가시화하고 관리하고자 하는 수요가 빠르게 증가하고 있다. 4차 산업혁명 시대가 도래 하면서 데이터의 중요성이 강조되고 있는데, 끊임없이 이동하고 변화하는 데이터의 흐름 정보를 수작업으로 관리하는 것은 이미 한계에 부딪혔기 때문이다. 데이터를 관리하는 환경이 다변화되면서 빅데이터 및 클라우드 환경까지 아우를 수 있는 데이터 리니지 기술에 대한 요구 또한 증가하고 있다.

특히 비즈니스 조직의 데이터 활용이 증가하면서 비전문가도 쉽고 빠르게 특정 데이터의 원천을 찾을 수 있도록 돕는 데이터 카탈로그(Data Catalog) 시스템과의 연계 요구도 늘어나고 있다. 반면 IT 조직은 단순히 ETL 매핑 정보에 기반한 데이터 리니지 관리에서 벗어나, SQL 및 프로그램 소스를 포함해 더 깊은 레벨에서 데이터 계보를 확인하고 싶어한다. DBMS나 ETL 등이 다양해지면서 더 많은 종류의 툴들을 분석할 수 있는 기술을 원한다.

하지만 이런 모든 문제가 데이터 리니지 솔루션 도입으로 단박에 해결되지는 않는다. 데이터 리니지를 도입하기 전에 먼저 데이터 리니지의 활용도에 대한 숙고가 필요하다. 어떤 범위의 데이터를 분석해 데이터 리니지를 가시화할 것인지에 대해 조직 내의 공감대가 이뤄져야 한다. 현행 시스템에 대한 충분한 분석이 이뤄져야 하는 것은 물론이며, 데이터 리니지 정보를 어느 정도로 깊이 있게 획득하고자 하는지, 이를 얼마나 지속적으로 유지할 수 있을지도 확인해야 한다.

만약 데이터 리니지의 범위와 수준이 결정되지 않은 상태에서 모호한 요구사항만 가지고 시작할 경우 끝나지 않는 프로젝트로 전락할 가능성이 있다. 데이터 리니지 도입을 검토하는 기업은 다양한 산업군에서 구축사례들을 조사하고 우리 조직에 필요한 시사점을 도출하는 한편, 공급기업과 함께 공동의 목표 수준을 설정해야 한다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지