데이터 접점 단일화, 능동적 메타데이터 관리 등으로 데이터 리터러시 높여야

[컴퓨터월드] 데이터의 중요성은 나날이 높아지고 있다. 오늘날 데이터를 활용하지 않고 혁신을 도모할 수 있는 기업은 없다. 산업 분야를 막론하고 이미 데이터는 가장 중요한 자원으로 자리잡았고, 전 세계 기업과 조직들은 데이터를 수집하고 활용할 수 있는 기반을 마련하는 데에 총력을 기울이고 있다. 특히 데이터로부터 최대한의 가치를 생산해낼 수 있는 사용자 중심의 데이터 전략이 각광받고 있으며, 데이터 메시(Data Mesh)와 데이터 패브릭(Data Fabric)과 같은 새로운 개념들 역시 속속 등장하고 있다.

데이터 전략의 해묵은 과제들

데이터는 조직의 디지털 혁신과 관련해 가장 주목받고 있는 핵심 동력이다. 조직의 현 상황을 분석하고 미래의 중요한 비즈니스 의사결정을 내리기 위해서는 데이터를 올바르게 수집하고 분석해 인사이트를 확보할 수 있는 역량이 필수적이다.

데이터와 관련된 기술들의 가장 중요한 목표는 사용자가 원하는 시점에 필요한 데이터를 제공하는 것이다. 이를 위해 다양한 시스템에서 생성되는 데이터를 잘 수집하고 저장해두었다가 원하는 형태로 가공해 제공하는 일련의 기술들이 개발되고, 기업에서는 이러한 기술들을 전략적으로 구성해 데이터 파이프라인을 구축한다.

그러나 데이터가 받고 있는 막대한 관심에도 불구하고, 여전히 데이터 관리 및 활용과 관련한 기술과 아이디어들은 충분히 성숙되지 못했다. 해묵은 과제들은 대부분 해결되지 못하고 있으며, 오히려 시스템의 복잡성이 높아지고 사용 가능한 데이터의 종류가 다양해지면서 새로운 과제들이 늘어만 가고 있는 상황이다.

폭발적으로 늘어나는 데이터의 실시간 수집과 저장, 방대한 데이터의 비용효율적인 보관, 정형‧비정형‧반정형 데이터 등 서로 다른 유형의 데이터 통합, 분산된 저장소 간의 사일로화 제거 등 기업들이 해결해야 할 문제는 얼마든지 산적해있다.

이러한 문제들을 해결하기 위해 몇 년 전 기업들이 가장 먼저 주목한 것은 데이터 레이크(Data Lake)였다. 당시에는 AI와 빅데이터 등의 키워드가 떠오르면서 전 산업계에서 의미있는 데이터의 양과 종류가 폭증하고 있었다. 또한 데이터 분석과 활용에 있어 민첩성의 중요성이 높아지면서, 데이터 전문가 이외의 일반적인 비즈니스 조직들도 직접 데이터에 접근해 활용하려는 시도가 이어졌다.

따라서 데이터를 수집하고 저장하는 쪽에서는 방대한 데이터를 빠르게 적재하고, 데이터를 사용하는 쪽에게는 데이터에 대한 접근 경로를 간소화할 필요가 있었다. 데이터 레이크는 다양한 데이터를 그대로 저장(schemeless)함으로써 속도를 높이고, 사용자가 필요로 할 때 그에 맞춰 형식을 부여(scheme-on-read)하는 방식을 통해 이러한 수요에 정확히 들어맞았다. 한때 데이터 레이크는 미래를 준비하는 기업에게서 빼놓을 수 없는 핵심 전략으로 자리잡았다.


사용하기 어려운 데이터 레이크

그러나 최근 많은 조직들은 데이터 레이크가 모든 문제를 해결할 수 있는 만능열쇠가 아님을 체감하고 있다. 데이터 레이크를 구축하면서 기대했던 목표들이 생각보다 낮은 성과를 보이고, 해결되리라 여겼던 문제들 역시 완전히 해결되지 못했기 때문이다.

다양한 저장소에 산재돼 있던 데이터들을 한 곳으로 몰아넣어 관리하는 것은 가능했지만, 데이터 레이크로 기존 데이터들을 복제해 옮겨야 하는 만큼 스토리지 인프라에 막대한 비용 투자를 필요로 했다. 또한 사용자가 하나의 데이터 레이크에서 어떠한 데이터든 찾을 수 있도록 만들겠다는 발상은 유의미했으나, 실제 운영 환경에서는 일부 데이터 전문가만이 데이터 레이크에 있는 원천 데이터(raw data)를 가져다가 필요에 맞게 가공해 사용할 수 있었다. 데이터 레이크는 수집‧저장과 분석‧활용이라는 두 가지 측면에서 모두 문제점을 노출한 셈이다.

데이터 레이크는 전 세계적인 유행을 타고 한시적인 대세로 자리잡기는 했으나, 현재에 이르러서는 조직 내 필요에 따라 기존의 인프라와 병행해 운영할 수 있는 수단 중 하나로 남게 됐다. 기업이 데이터 전략을 구성함에 있어 선택할 수 있는 카드 중 하나가 되었을 뿐, 근본적인 데이터 전략 자체에 혁신을 가져오지는 못했다는 의미다. 이는 당시 데이터 레이크가 폭증하는 데이터를 빠르게 저장하는 데에는 유리했지만, 데이터를 활용하는 데에는 상대적으로 유용하지 못했기 때문으로 보인다.

앞서 언급한 바와 같이, 데이터 관련 기술의 목표는 사용자가 원하는 시점에 필요한 데이터를 제공하는 것이다. 여기서 사용자란 충분한 역량을 갖춘 일부 데이터 전문가만이 아니라, 상대적으로 역량이 떨어지는 대다수 현업 비즈니스 조직원들을 포함한다.

비즈니스 조직에서도 IT팀의 도움 없이 직접 데이터를 분석하고 활용하려는 시민 데이터 과학자(CDS, Citizen Data Scientist)의 중요성이 높아지고 있기 때문이다. 이들에게는 간단한 조작만으로도 원하는 데이터를 찾고 활용할 수 있는 간편한 환경이 마련돼야 한다. 이러한 관점에서 본다면 데이터 레이크가 사용자에게 전문적인 역량을 요구한다는 점은 상당한 문제로 작용한다.


사용자 중심의 데이터 전략

오늘날 많은 기업들은 사용자 중심의 데이터 전략을 강조하고 있다. CDS와 같은 비전문가들도 손쉽게 데이터를 활용할 수 있는 데이터 리터러시(Data Literacy) 역량을 높임으로써 자사가 보유한 데이터의 가치를 한층 더 높일 수 있기 때문이다.

기업이 사용자 입장을 고려한 데이터 전략을 마련할 때 먼저 고려해야할 것은 데이터 접점을을 단일화하는 것이다. 사용자가 원하는 데이터를 얻기 위해 직접 이곳저곳을 돌아다니는 대신, 하나의 플랫폼에서 손쉽게 데이터를 찾고 가지고 갈 수 있어야 한다.

한계가 있기는 했지만 많은 기업들이 선택했던 데이터 레이크 전략 역시 전사 데이터를 하나의 저장소에 담아 사용자가 여러 곳을 돌아다니지 않도록 했다. IBM은 산재된 이기종 DBMS들에 손쉽게 접근할 수 있는 커먼SQL(Common SQL) 엔진을 개발했으며, 클라우데라는 CDP(Cloudera Data Platform)를 통해 멀티 클라우드 상의 데이터 저장소들을 연결함으로써 하둡 배포판 벤더가 아닌 데이터 플랫폼 벤더로 자리매김했다.

이는 현대적인 데이터 전략에서도 마찬가지다. 최근 부각되고 있는 데이터 메시(Data Mesh)나 데이터 패브릭(Data Fabric) 역시 사용자가 전사 데이터를 하나의 플랫폼을 통해 찾고 획득할 수 있어야 한다고 강조한다.

데이터 메시는 기업 내에서 특정 데이터를 생산하는 조직이 그에 대한 소유권을 가지고 관리하는 전략이다. 기존의 데이터 웨어하우스(DW)나 데이터 레이크 전략은 전사 데이터를 중앙집중화된 하나의 시스템으로 통합하는 데에 초점을 맞췄지만, 데이터 메시는 일원화된 원칙 아래에서 도메인 별로 데이터에 대한 소유와 관리를 나누어 맡기는 점이 특징이다. 데이터 전문가 역시 중앙집중화된 하나의 팀 대신 각 조직에 분산배치될 수 있다.

데이터 메시는 각 도메인 별로 데이터를 소유하고 관리하는 체계다. (출처: 데이터스트림즈)
데이터 메시는 각 도메인 별로 데이터를 소유하고 관리하는 체계다. (출처: 데이터스트림즈)

데이터에 대한 권한과 기술 전문가들이 각 도메인별로 나뉨으로써 데이터를 보다 효율적으로 관리할 수 있게 된다. 영업팀의 데이터는 영업팀이, 인사팀의 데이터는 인사팀이 관리하게 되니 각자의 도메인 지식을 살린 데이터 관리 전략을 수립할 수 있기 때문이다.

따라서 해당 도메인에서만 사용하는 특정 솔루션이나 요구사항을 반영해 효율적인 아키텍처를 구현하거나, 변경이 필요할 경우에도 상대적으로 유연하게 대응할 수 있다. 중앙화된 통합 데이터 플랫폼을 통하지 않고도 조직 간의 데이터 연결과 통합이 가능하니 데이터의 실시간성을 확보하면서도 병목현상을 방지하게 된다.

물론 조직별 사일로화가 일어나지 않도록 서로 다른 조직 간에 데이터를 조회하고 공유할 수 있도록 데이터 가상화(Data Virtualization)나 데이터 페더레이션(Data Federation)과 같은 기술을 함께 사용할 필요가 있다.

데이터 패브릭은 사용자 중심의 데이터 환경을 구축하기 위해 데이터의 원천 소스부터 사용자에게 도달하는 모든 과정을 최적화하는 일련의 전략이다. 이는 특정 제품이나 솔루션, 기술셋으로 이루어지는 것이 아니다. 손쉽게 다양한 데이터 저장소에 접근하고 원하는 데이터를 빠르게 얻을 수 있도록 데이터 파이프라인 전체를 혁신하는 보다 광의적인 시각을 의미한다.

데이터 패브릭 역시 전사 데이터를 중앙집중화된 하나의 플랫폼으로 물리적인 통합을 하는 대신, 기존에 저장돼 있는 데이터 저장소들을 유기적으로 연결할 수 있는 데이터 가상화 기술을 활용한다. 중요한 것은 사용자가 단일화된 가상화 플랫폼에서 전사 데이터를 손쉽게 검색하고 빠르게 획득할 수 있는 파이프라인을 구축함으로써 데이터 사일로를 방지하는 것이다. 이와 함께 CDS가 사용하게 될 가상화 플랫폼의 사용 편의성을 강화해 조직 내 데이터 리터러시 역량을 높이는 것도 필요하다.


물리적 통합에서 논리적 통합으로

상기한 데이터 메시나 데이터 패브릭과 같은 사용자 중심적인 데이터 전략들은 모두 데이터 저장소들을 물리적(physical)으로 통합하지 않는 것을 전제로 한다. 이미 기업들은 데이터 레이크 등을 통해 복잡하고 다양한 시스템들이 생산하는 데이터들을 물리적으로 통합하는 것이 효과적이지 않다는 것을 경험했기 때문이다.

대신 이들은 분산된 데이터 저장소들간에 유기적인 연결이 가능하도록 논리적인(logical) 통합을 추구한다. 기존에 구축된 데이터베이스(DB), DW, 데이터 레이크 등을 그대로 둔 채로, 이러한 데이터 저장소들과 사용자 사이에 추가적인 가상화 레이어를 구축한다.

가상화 레이어는 각 저장소들이 보유하고 있는 데이터에 대한 정보를 담고 있다. 따라서 사용자는 가상화 레이어에 접속해 다양한 데이터 저장소 중에서 자신이 원하는 데이터를 찾고, 필요에 따라 쿼리를 날리거나 다른 데이터와 통합해 분석에 활용할 수 있다.

이러한 방법의 가장 큰 장점은 비용효율적이라는 것이다. 기존의 DW나 데이터 레이크 기반의 물리적인 데이터 통합은 원천 데이터 저장소에서 새로운 통합 저장소로 데이터를 복제하는 방식으로 이뤄지기 때문에, 아무리 적게 잡아도 기존 대비 2배 이상의 데이터 저장공간이 필요하다.

일반적인 데이터 가상화 구조 (출처: 디노도)
일반적인 데이터 가상화 구조 (출처: 디노도)

반면 데이터 가상화는 원천 데이터를 복제하는 대신 데이터의 위치와 추상화된 정보만 가상화 레이어로 올리기 때문에 훨씬 비용 효율적이다. 원천 데이터 저장소와 통합 저장소 사이에 배치성으로 데이터를 해야 하는 물리적 통합에 비해, 사용자의 요청이 발생했을 때 원천 데이터 저장소에서 데이터를 가지고 오는 논리적 통합이 데이터 버전 관리와 정합성 확보에도 유리하다.

논리적 통합은 보안 측면에서도 장점을 갖는다. 데이터 레이크에 물리적으로 통합된 데이터들은 각 데이터에 대한 개별적인 접근 권한 관리가 까다롭고, 적용할 수 있는 보안 기술 역시 제한적이다.

반면 논리적인 통합을 구현하고 가상화 레이어를 구축하게 되면, 사용자는 가상화 레이어라는 단일한 통로를 통해서만 데이터에 접근하게 되므로 접속 이력이나 활동 내역 등을 효과적으로 관리할 수 있다. 가상화 레이어에 권한 관리 시스템을 탑재한다면 권한이 없는 사용자가 회사 내 기밀이나 민감한 고객 정보에 접근하는 것도 방지할 수 있다. 또한 원천 데이터들은 운영 중인 관계형DB나 DW에 그대로 담겨있기 때문에 대다수 보안 기술들을 그대로 적용하는 것도 가능하다.


데이터 가상화, 또다른 ‘만능열쇠’는 아니다

물론 데이터 가상화가 모든 점에서 유리한 것은 아니다. 우선 쿼리 성능이 저하된다는 문제다. 원천 데이터 저장소와 사용자 사이에 가상화 레이어가 추가되기 때문에, 원천 데이터 저장소에 직접 쿼리를 날리는 것에 비하면 성능이 저하되는 것이 당연하다. 한 가상화 제품 벤더 담당자는 “기업의 IT 환경이나 도입한 제품에 따라 차이가 있지만, 직접 쿼리를 날리는 것에 비해 10~15% 정도의 성능 저하는 있을 수 있다”고 설명했다.

이에 따라 주요 데이터 가상화 제품 벤더들은 가상화 레이어에 의한 성능 저하를 최소화할 수 있도록 기술 고도화에 집중하고 있다. 데이터 가상화 분야의 주요 벤더인 디노도의 경우, 원천 데이터 저장소에 대한 조회와 통합 성능을 향상시키기 위한 동적 쿼리 최적화 엔진을 탑재해 스마트 쿼리 가속화(Smart Query Acceleration) 기능을 지원한다. 이는 사용자가 입력한 쿼리의 속성을 분석해 어떤 저장소에 접근하는지, 어떤 데이터를 가지고 와야하는지 등을 미리 파악하고, 최상의 성능을 낼 수 있는 형태로 쿼리를 재작성(rewrite)해서 각각의 데이터 저장소로 보내는 기능이다.

또 다른 주요 벤더인 팁코 역시 AI 및 규칙 기반의 쿼리 최적화 도구를 갖추고 있는 것은 물론, 대용량 병렬처리(MPP, Massively Parallel Processing)가 가능한 쿼리 가속화 엔진을 탑재했다. 이를 통해 가상화 레이어에 의한 성능 저하와 운영DB에 대한 부하를 최소화할 수 있다.

다만 대다수 전문가들은 가상화를 통해 얻는 장점에 비하면 다소간의 성능 저하는 미미한 수준이라고 조언한다. 데이터 레이크를 통한 물리적인 전사적 데이터 통합은 ROI와 실시간성을 고려했을 때 매우 비효율적이며, 기존의 분산된 데이터 저장소를 그대로 유지하는 것은 접근성과 데이터 리터러시 측면에서 선택할 수 없는 방법이다. 오히려 원천 데이터 저장소들이 데이터 레이크로 통합될 때까지 기다리거나, 개별 데이터 저장소들을 돌아다니며 원하는 데이터를 찾는 지난한 과정에 비하면, 데이터 가상화가 야기하는 약간의 성능 저하는 납득 가능한 수준이라는 것이다.

데이터 가상화의 또 다른 문제는 원천 데이터 저장소에 대한 부하가 증가할 수 있다는 점이다. 데이터 가상화는 실시간으로 원천 데이터 저장소에서 최신의 데이터를 가지고 올 수 있다는 장점을 가지고 있지만, 이는 반대로 언제든 원천 데이터 저장소에 부하를 가할 수 있다는 것을 의미한다.

따라서 가상화 레이어를 당장 가동되고 있는 운영계 등에 연결한다면, 데이터의 실시간성은 확보할 수 있겠지만 다소 위험부담을 감수해야 한다. 이 경우에는 가상화 레이어를 개발계나 검증계에 연결하는 것이 효과적일 수 있다.

한편 이러한 단점들은 데이터 가상화가 기존 데이터 기술들을 완벽히 대체할 수는 없다는 것을 시사한다. 기업에게는 다소 비용이 들고 번거롭더라도 최대한의 성능이 필요한 요구사항이 있을 수 있고, 데이터의 실시간성이 중요하지 않은 분석 작업이라면 기존의 DW나 데이터 레이크를 활용하는 것이 유리할 수도 있다.

따라서 기업은 자사의 필요에 따라 기존 데이터 전략과 새로운 전략을 효율적으로 조합해야 한다. 이전의 많은 기술들이 그러했던 것처럼, 데이터 가상화 역시 기업의 혁신을 담보할 만능열쇠로 생각해서는 안된다.


메타데이터 관리 자동화로 실시간성 더해야

사용자 중심적인 데이터 전략에서 또 한 가지 중요한 것은 데이터 카탈로그(Data Catalog)를 잘 구성하는 것이다. 일반적으로 데이터 카탈로그는 기업 내에서 보유하고 있는 데이터들을 손쉽게 찾을 수 있도록 메타데이터 기반의 검색 도구를 포함한다. 잘 관리된 메타데이터는 데이터들 간의 전사적인 연결성을 보여줄 수 있기 때문에 기존의 DB, DW 중심의 분석 환경에서도 중요한 요소였다.

그동안 데이터 분석이 일부 전문가의 손으로 이뤄질 때는 다소 문제가 있어도 극복할 수 있는 것이 사실이다. 메타데이터가 실시간으로 관리되지 않아 몇 개의 데이터 저장소 간에 다소 불일치가 있다고 하더라도, 통합 과정에서 데이터 전문가가 수작업으로 수정하는 경우도 빈번히 있었다.

지금도 대다수 기업에서는 주기적으로 전문가 개인의 판단에 따른 수동적 메타데이터(passive metadata) 관리를 수행하고 있다. 그러나 지금처럼 복잡하고 다양한 데이터들이 폭발적으로 늘어나고 있는 상황에서 기존의 수동적 메타데이터 관리를 수행하는 것은 효과적이지 못하다.

비단 몇 개의 데이터 저장소를 전문가가 직접 연결하고 분석하는 것이 아닌, 전사 데이터를 단일한 플랫폼으로 연결하고 비전문가도 손쉽게 활용 가능하도록 구성하기 위해서는 메타데이터 관리 역시 자동화할 필요가 있다. 여기에는 전문적인 시스템을 활용한 능동적 메타데이터(active metadata) 관리가 요구된다. 자동화된 메타데이터 관리의 핵심은 실시간성 확보와 품질 리스크에 대한 대안 제시, 메타데이터 간의 의미론적 연결 등이다.

먼저 메타데이터 관리를 자동화함으로써 기존에 전문가의 수작업으로 이뤄지던 수동적 메타데이터 관리에서는 불가능했던 실시간성을 확보할 수 있다. 자동화된 메타데이터 관리 시스템은 전사적인 데이터 관련 통계나 쿼리 등을 분석해 관리자에게 새로운 메타데이터 정보를 제안하거나 자동으로 추가한다. 오래된 메타데이터 정보나 수정이 필요한 부분을 찾아 추천함으로써 품질 리스크 역시 방지할 수 있다.

메타데이터 간의 의미론적 연결은 지식그래프(knowledge graph)를 통해 이뤄진다. 각각의 메타데이터를 단일한 개체로 남겨두는 것이 아니라, 개체 간의 관계와 개념을 분석하는 지식그래프 기술을 활용해 메타데이터들이 서로 관계성을 갖는 지능화된 네트워크로 연결될 수 있도록 한다. 이렇게 연결된 메타데이터 네트워크에서는 사람이 직접 개입하지 않아도 ‘성명’과 ‘이름’이 같은 의미임을, ‘40대 남성’과 ‘중년 남성’이 유사한 의미임을 자동으로 파악하고 관리 가능하다.

이러한 의미론적 연결고리가 완성되면 관리자의 개입 없이도 사용자의 의도를 이해해 찾고자 하는 데이터와 함께 관련성 있는 데이터들을 추천할 수 있게 된다.


‘데이터 중심의 혁신’을 받아들이는 자세

오늘날 많은 기업들은 데이터로부터 더 많은 가치를 확보하고 혁신을 가속화하기 위해 새로운 데이터 전략 마련을 추구하고 있다. 최근 몇 년 사이 데이터의 중요성이 급격하게 부각되면서 달성해야 할 과제들이 산적해 있으며, 데이터 메시와 데이터 패브릭과 같은 새로운 용어들도 앞다투어 등장받고 있는 상황이다.

하지만 이러한 변화가 기존의 것을 완전히 뒤집는 혁명으로 다가오지는 않는다. 데이터 메시나 데이터 패브릭과 같은 용어들은 일견 신선해 보이지만, 내부를 살펴보면 모두 기존에 사용하고 있던 기술들이 고도화되고 새롭게 조립되는 과정에서 만들어졌다. 분산된 데이터들의 사일로 방지와 데이터 접점의 일원화는 이미 많은 기업들이 시도하고 있었던 것들이고, 이들이 현재는 데이터 가상화 기술을 통해 현실화되고 있는 것이다.

따라서 기업의 데이터 전략은 비단 새로운 기술과 솔루션 도입으로 담보되지 않는다. 데이터 중심의 혁신이라는 파도를 유행처럼 받아들여 휩쓸려가기보다, 자사의 일하는 방식에 대한 연구를 통해 가장 효과적인 데이터 전략을 찾아야 한다.

중요한 것은 기존의 전통적인 방식을 일신해 데이터 중심의 일하는 방식을 받아들이는 것이다. 데이터 가상화와 카탈로그 기술 등을 활용하면 비전문가도 손쉽게 활용할 수 있는 사용자 중심의 데이터 인프라를 마련할 수 있겠지만, 이것이 조직원들의 데이터 리터러시 향상으로 이어지지는 않는다. 조직원들이 데이터에 기반해 미래를 예측하고 중요한 비즈니스 의사결정을 내리는 것을 자연스럽게 인식하고, 본인의 업무에 데이터를 활용하려는 의지를 갖추는 것이 선결과제일 것이다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지