수면 위로 떠오른 데이터 레이크의 한계…차세대 데이터 전략의 핵심은 ‘데이터 가상화’

[컴퓨터월드] 데이터의 중요성이 높아지고 새로운 기술이 등장하는 속도가 점점 더 빨라지면서 데이터 관리에 어려움을 겪는 기업은 늘어만 가고 있다. 한때 데이터 레이크는 많고 복잡한 데이터 저장소들을 통합 관리해 대부분의 어려움을 해결해줄 수 있을 것으로 보였지만, 특유의 한계에 의해 기업에서 선택할 수 있는 새로운 선택지가 됐을 뿐 기존의 데이터 아키텍처들을 대체하는 새로운 표준(post standard)를 세우지는 못했다.

오늘날 전 세계의 많은 기업들은 자사의 비즈니스 변화에 맞춰 데이터 전략을 새롭게 수립하고 있다. 차세대 데이터 전략을 수립하려는 기업들이 가장 주목해야 할 것은 데이터 가상화(data virtuarization) 기술이다. 이는 데이터 웨어하우스로 대표되는 기존 데이터 저장소들의 한계와 데이터 레이크의 실패를 극복하기 위해 가장 효과적인 수단으로 보인다.


복잡해지기만 하는 데이터 관리

최근 글로벌 컨설팅 기업 맥킨지가 공개한 보고서에 따르면, 글로벌 상위 2,000개 기업 중 70% 이상이 최근 2년 사이에 최신 기술을 활용한 새로운 데이터 아키텍처를 도입했거나 가까운 시일 내에 도입하려는 로드맵을 가지고 있는 것으로 나타났다. 하지만 이들 중 약 50%는 한 가지로 통합되지 않은 데이터 모델을 활용하고 있으며, 대다수는 자사의 데이터 중 25% 이하만을 단일한 데이터 플랫폼에 통합하고 있는 것으로 나타났다. 이는 기업이 보유한 데이터 중 75% 이상은 통합되지 않은 개별 데이터 저장소에 보관되고 있으며, 데이터 사일로(silo)화가 상당한 수준으로 일어나고 있다는 것을 의미한다.

특히 대다수 기업들이 채택하고 있는 하이브리드, 혹은 멀티 클라우드 환경은 데이터 사일로화를 더욱 가속화시키고 있다. 기업들은 비즈니스 변화에 따른 IT 인프라의 유연성, 탄력성, 가용성 등을 확보하기 위해 하이브리드 및 멀티 클라우드 환경을 사용하고 있다. 그러나 하이브리드 및 멀티 클라우드 환경에서는 전사 데이터들을 통합해 분석하고 활용할 수 있는 집약적인 데이터 기반 서비스를 구축하기 어렵다. 데이터가 저장되는 공간이 다양하게 분산되는 만큼 데이터 라이프 사이클 전반에 대한 관리 비용과 보안 문제는 크게 증가한다.

MSA(Micro Service Architecture) 역시 마찬가지다. MSA는 개별 서비스들을 작은 단위로 나누어 운영하면서 기존의 모놀리식 아키텍처(Monolithic Architecture)가 가진 많은 한계들을 극복할 수 있었지만, 반대로 데이터 관리 측면에서는 복잡성을 상당히 높이는 결과를 가지고 왔다. 한발 앞서 SOA(Service-Oriented Architecture)가 그러했던 것처럼 MSA 역시 서비스를 중심으로 IT 인프라를 구성하고 운영하며, 이는 데이터 또한 마찬가지다. MSA를 활용하는 기업에서 데이터 아키텍트는 개별 서비스에 맞춰 데이터 저장소를 나누어 관리해야 하며, 동시에 데이터의 중복 저장을 최대한 방지해 비용효율화를 달성하고 서로 다른 저장소 간의 데이터 정합성을 유지할 수 있어야 한다. 여러 개의 서비스들이 하나의 비즈니스 트랜잭션으로 엮여있을 경우, 데이터 정합성 유지 등은 더욱 큰 과제로 자리잡는다.

MSA는 서비스 중심으로 데이터 저장소를 분리해 관리를 어렵게 만든다. (출처: 데이터스트림즈)

데이터는 오래전부터 올바른 비즈니스 의사결정을 내리는 데에 핵심 요소로 인식돼왔고, 최근 몇 년 사이에는 기업의 경쟁력을 확보하기 위해서는 가장 중요하게 관리돼야 할 자원으로 자리잡았다. 그럼에도 불구하고 증가하는 데이터들의 수집과 보관, 무질서한 데이터에 대한 정제와 관리, 분산된 데이터 저장소 간의 중복 및 사일로화 제거 등, 데이터 관리의 가장 가장 기본적인 문제조차도 여전히 기업들의 골칫거리로 남아있다.


데이터 레이크의 두 가지 실패

이러한 골칫거리를 해소할 수 있는 수단으로 가장 먼저 각광받은 것은 데이터 레이크(data lake)였다. 데이터 레이크는 기업이 수집할 수 있는 모든 데이터들을 날것(raw data) 그대로 몰아넣고 관리할 수 있으므로, 폭발적으로 늘어나는 데이터들을 빠르게 저장하면서도 데이터 분석 및 활용에 대한 수요 증가에도 효과적으로 대응 가능할 것으로 예상됐다. 특히 기존의 데이터 웨어하우스(DW)가 구축 단계에서 설정된 형식의 데이터만을 저장할 수 있고 유연성도 떨어져, 데이터 중심 비즈니스에서 새로운 데이터들을 수집하고 활용하는 데에 한계를 드러내고 있었기에 데이터 레이크의 가능성은 더욱 달콤한 과실로 다가왔다.

이에 따라 몇 년 전부터 방대한 데이터를 저장하고 활용하려는 기업들 사이에서 데이터 레이크의 유행이 들불처럼 번져나갔다. 하지만 최근 기업들은 데이터 레이크가 기존의 문제들을 모두 해결해줄 수 있는 만능열쇠가 아님을 깨닫고 있다. 데이터 레이크가 가진 한계가 서서히 수면 위로 떠오르고 있는 셈이다.

데이터 레이크의 실패는 크게 두 가지로 나타났다. 먼저 ROI 측면에서의 실패다. 데이터 레이크를 구축하는 데에 큰 비용을 투자했음에도 불구하고 그 이상의 가치나 인사이트를 얻지 못했기 때문이다. 기존 서비스들을 지속적으로 운영하기 위해 기존 데이터 관련 인프라들을 유지하면서, 이를 통합하고 활용하기 위해 데이터 레이크를 추가적으로 구축하려다보니 데이터 관리나 인프라에 투자되는 비용은 몇 배로 증가했다. 이러한 투자에도 불구하고 전 세계 데이터 레이크 중 상당수는 그저 데이터를 모아서 쌓아두었을 뿐인 데이터 야적장, 혹은 데이터를 한 번 빠트리면 다시 건져 올리기 어려운 데이터 늪(swamp)으로 전락하고 말았다.

많은 이들이 데이터 레이크를 통해 전사 데이터의 사일로화를 해결하고 접근성을 높일 수 있을 것이라고 선전하지만, 정작 데이터 레이크에서 직접 원하는 데이터를 찾는 것은 일부의 데이터 전문가들에게나 가능한 일이다. 조직원들의 데이터 활용 능력을 의미하는 데이터 리터러시(Data Literacy) 관점에서 본다면, 대다수 데이터 레이크들은 전사적인 데이터 리터러시 역량에 부정적인 영향을 미치고 있다.

또 하나의 실패는 데이터 보안 측면에서 나타났다. 기존 데이터베이스(DB)나 DW들은 거의 대부분 관계형DB(RDB) 형태였고, 이에 따라 암호화나 접근 제어, 비식별화 등 대다수 데이터 보안 기술 역시 RDB에 맞춰서 개발됐다. 데이터 저장소가 서로 분리돼 있었기 때문에 개별 저장소마다 서로 다른 보안 기술과 프로세스를 적용함으로써 효과적인 데이터 보안 관리도 가능했다.

하지만 데이터 레이크는 기업 내 모든 데이터들을 하나의 저장소에 집어넣으며, 서로 다른 서비스에서 생산된 데이터들을 결합하고 활용할 수 있어야 하기 때문에 개별 데이터에 대한 암호화나 접근 제어 등을 그대로 적용하기 어렵다. 가령 각각 암호화가 돼있는 A 시스템과 B 시스템의 데이터를 하나의 데이터 레이크에 부어넣었다면, 사용자가 이들을 결합하기 위해서 먼저 각각의 데이터에 적용된 암호화를 자유롭게 해제(복호화)할 수 있어야 한다. 그러나 이같은 자유로운 복호화는 민감정보 관리 측면에서 상당한 문제를 야기할 수 있다. 최근에는 데이터 레이크 상에서도 높은 수준의 데이터 보안을 유지할 수 있도록 다양한 기술들이 개발되고 있지만, 기존에 RDB 기반으로 고도화돼왔던 데이터 보안 기술들에 비하면 크게 부족한 상황이다.


레이크의 한계 극복하는 데이터 가상화

데이터 레이크가 가진 수많은 장점에도 불구하고, 데이터 레이크는 DB와 DW로 구성된 전통적인 데이터 아키텍처를 완전히 대체하지 못했다. 대다수 기업들은 전통적인 데이터 아키텍처와 데이터 레이크를 필요에 따라 구분해 사용하고 있다. 이는 즉 전통적인 데이터 아키텍처가 가진 많은 문제들은 여전히 해결되지 못한 상황이라는 것을 의미한다. 기업들은 여전히 전통적인 데이터 아키텍처에서 분산된 데이터 저장소들 사이를 연결하고 서로 다른 이종간 데이터를 손쉽게 결합할 수 있는 방법을 찾고 있다. 이러한 측면에서 최근에는 데이터 패브릭, 데이터 메시, 데이터 레이크하우스(data lakehouse) 등 다양한 기술과 개념들이 차세대 데이터 전략으로 주목받고 있다. 그리고 이러한 차세대 데이터 전략에서 가장 중요한 기술로 꼽히는 것이 데이터 가상화(data virtuarization)다.

데이터 레이크가 추구한 것은 데이터 저장소들 간의 물리적인(physical) 통합이다. 쉽게 말해 여러 저장소들에 산재돼 있던 모든 데이터들을 하나의 거대한 저장소에 물리적으로 복사해 저장하자는 개념이다. 반면 데이터 가상화는 데이터 저장소들간의 논리적인(logical) 통합을 추구한다. DB, DW, 데이터 레이크까지 기존의 모든 데이터 저장소들을 각각의 데이터 소스로 정의하고, 이러한 데이터 소스에 접근할 수 있는 가상화 레이어를 구성한다. 가상화 레이어는 그 자체로 데이터를 가지고 있지 않지만 각각의 데이터 소스들이 어떤 데이터를 가지고 있는지를 알고 있다. 따라서 사용자는 각각의 데이터 소스에 직접 접근하지 않고, 가상화 레이어에서 원하는 데이터를 찾아 쿼리를 날릴 수 있다. 가상화 레이어는 사용자의 요청에 따라 각각의 데이터 소스를 뒤져 필요한 데이터를 찾고 결합해 보여준다.

다양한 데이터 소스와 사용자 사이에 데이터 가상화 레이어를 구성해 논리적인 데이터 통합을 실현할 수 있다. (출처: 엔코아)
다양한 데이터 소스와 사용자 사이에 데이터 가상화 레이어를 구성해 논리적인 데이터 통합을 실현할 수 있다. (출처: 엔코아)

개념적으로 데이터 가상화는 데이터 레이크의 두 가지 실패를 완전히 해결한다. 먼저 ROI 측면에서, 구축 단계에서 물리적인 데이터 복제가 최소화되기 때문에 인프라 구축 비용을 크게 절약할 수 있다. 데이터 레이크는 스토리지를 구입하는 비용만 해도 최소한 기존에 보유하고 있던 수준의 2배 이상을 필요로 하지만, 데이터 가상화는 가상화 레이어를 통해 각 데이터 저장소 간의 논리적인 연결고리만을 만들어줄 뿐 물리적으로 복제해 저장하지 않기에 훨씬 비용 효율적이다. 또한 데이터 레이크는 원본이 되는 DB나 DW와 데이터 레이크 사이에 물리적으로 복제된 데이터들을 실시간으로 동기화하고 정합성을 유지해줘야 하지만, 데이터 가상화는 요청이 발생한 순간에 각각의 데이터 소스에서 데이터를 가지고 오기 때문에 실시간 동기화에 대한 부담도 적다.

보안 측면에서는 사용자의 접근 경로가 단일화된다는 것, 그리고 물리적인 데이터 복제가 없다는 것이 큰 장점으로 작용한다. 사용자는 각각의 저장소에 직접 접근하는 대신 가상화 레이어를 포털처럼 이용하게 된다. 접근 경로가 단일화되기 때문에 접속 이력이나 활동 내역 등을 보다 손쉽게 관리할 수 있다. 포털처럼 기능하는 가상화 레이어에서 사용자의 권한 관리 시스템을 잘 구축한다면, 접근 권한이 있는 데이터 소스에서만 데이터를 찾고 결합하도록 함으로써 동일한 쿼리에 대해서도 사용자에 따라 서로 다른 결과물을 보여주게 된다. 만약 각각 암호화가 적용된 데이터 소스들을 결합해야 할 경우, 가상화 레이어에서 복호화해 데이터를 결합한 후 결과물은 다시 암호화해서 반환하는 것도 가능하다. 기존에 운영하던 RDB 기반의 데이터 아키텍처들을 그대로 유지할 수 있으니 고도화된 보안 기술들을 그대로 활용할 수 있다는 장점도 있다.

MSA, 서비스 중심의 데이터 분리
엔코아 김범 전무

 

MSA가 등장한 가장 큰 이유는 시스템 간의 느슨한 결합(loosely coupled system)이라는 목적을 달성하기 위한 것이다. 서비스들을 작은 단위로 쪼개서 전체 서비스 중단 없이도 독자적인 업데이트나 점검이 가능하도록 하고, 한 곳에서 장애가 발생하더라도 전체가 영향을 받는 일을 방지하기 위해 나왔다. 완전히 새로운 용어라기보다는 앞서 나온 SOA(Service Oriented Architecture)와 비슷한 사상으로 탄생했다. ‘서비스 오리엔티드’라는 이름에서 알 수 있듯 이는 서비스 중심의 관점이다. 그렇다면 MSA를 데이터 중심적인 관점에서 들여다보면 어떻게 될까?

기존의 모놀리식 아키텍처에서는 다양한 서비스에서 사용되는 데이터들이 서로 중첩되도록 섞여있었다. 가령 서비스A에는 데이터1과 2가, 서비스B에는 데이터 2와 3이 사용되는 식이다. 그렇다면 모놀리식 아키텍처를 MSA에 맞춰 분리하기 위해서는 데이터를 어떻게 분리하고 저장할 것인지 고민해야 한다. 여기서 데이터 아키텍트는 모놀리식 시스템에 맞춰 쌓아온 데이터들을 개별 서비스에 맞춰 잘 분리하고, 중첩되는 데이터들이 지속적으로 동기화되고 정합성을 맞출 수 있도록 데이터 거버넌스를 제대로 만들어나가야 한다.

한편 모놀리식 아키텍처에서 MSA로 전환한다고 해도 개별 서비스들이 완전히 독립적으로 작동하지는 않는다. 하나의 비즈니스 트랜잭션에서는 여러 개의 서비스들이 동시에 돌아가야 하기 때문이다. 특정 비즈니스 트랜잭션을 구성하는 서비스 중 하나가 장애를 일으키면 해당 트랜잭션은 멈춰버리게 마련이다. MSA 관점에서는 각각의 서비스들이 서로 악영향을 주고받지 않고 잘 돌아가더라도, 전체 비즈니스 트랜잭션 관점에서는 모놀리식과 다르지 않다. 데이터 관점에서는 더 골치가 아프다. MSA에서는 중첩되도록 나누어놓은 데이터 위에서 하나의 비즈니스 트랜잭션을 구성하는 서비스들이 동시에 돌아가야 하니, 나누어놓은 데이터 간의 정합성이 항상 실시간으로 보장돼야 한다. 오히려 데이터 관점에서는 모든 서비스들이 하나의 저장소 안에서 돌아갔던 모놀리식 아키텍처가 편하다고 여겨질 정도다.

이때 사용되는 대표적인 기술이 데이터 가상화다. 각각의 서비스들이 개별적으로 돌아가는 가운데 서비스 간의 데이터 정합성을 맞추기 위해 데이터 레이크를 활용할 수는 없다. 비용도 비싸겠지만 무엇보다 실시간성을 보장할 수 없다는 점이 문제다. 하나의 비즈니스 트랜잭션 위에서 모든 서비스들이 동시에 돌아가야 하니까. 그러니 데이터 레이크 대신 데이터 가상화 기술을 통해 실시간으로 데이터 저장소 간의 정합성을 검증하는 것이 유리하다.

그동안 수많은 기업들이 MSA로 전환하면서 데이터와 관련된 어려움을 겪어왔고, 그 결과 데이터 가상화에 대한 필요성을 인식하게 됐다. MSA로의 전환을 추진하려는 기업은 서비스 중심의 아키텍처에서 어떻게 데이터를 분리하고 정합성을 실시간으로 유지할 것인지 충분한 고민과 논의를 거쳐야 할 것이다.

‘데이터 주도적인 혁신’을 위한 차세대 전략

오늘날 기업들은 데이터 레이크의 실패를 딛고 데이터 리터러시를 높일 수 있는 차세대 데이터 전략을 추구하고 있다. 이에 따라 데이터 패브릭이나 데이터 메시와 같은 새로운 용어들이 각광받고 있는 상황이다. 아직은 사람마다 각각의 용어에 다른 해석을 내놓고 필요한 기술 스택도 다르게 정의하고 있지만, 결국 중요한 것은 데이터 가상화를 통한 데이터 소스들의 논리적인 연결이다. 따라서 데이터 가상화는 기업들의 차세대 데이터 전략에 있어 새로운 기준(post standard)으로 자리잡을 것으로 보인다.

데이터 가상화를 통해 기업이 보유한 모든 데이터 소스들이 논리적으로 연결되고, 사용자가 데이터 카탈로그(data catalog) 등을 통해 편리하게 원하는 데이터를 찾고 결합해 데이터 리터러시를 확보할 수 있는 환경, 이것이 오늘날 기업들이 추구하는 차세대 데이터 전략의 핵심이다. 이러한 관점에서 데이터 패브릭 등은 과거의 DW나 데이터 레이크와 같이 특정 기술 스택이나 제품을 의미하는 것이 아니라, 기업이 데이터를 관리하고 활용하는 방법 자체가 다음 단계로 나아가는 것으로 해석할 수 있다.

데이터 패브릭의 핵심은 모든 데이터 소스들을 논리적으로 연결하고 사용자의 데이터 리터러시를 확보하는 것이다. (출처: 가트너)
데이터 패브릭의 핵심은 모든 데이터 소스들을 논리적으로 연결하고 사용자의 데이터 리터러시를 확보하는 것이다. (출처: 가트너)

특히 이러한 변화는 기존에 우리가 쌓아왔던 수많은 데이터 관련 기술들이 고도화된 끝에서 만들어졌다는 점이 인상깊다. 앞서 데이터 레이크는 물리적인 데이터 공간을 통합한다는 거대하고 파괴적인 변화를 만들면서 기존의 기술들과 배치되는 부분들이 많았지만, 데이터 가상화로 대표되는 차세대 데이터 전략들은 기존의 기술과 인프라를 최대한 활용하면서 데이터 리터러시를 극대화한다. 이에 대해 데이터스트림즈 나희동 전무는 “오늘날 기업들이 추구하는 것은 데이터 주도적인 혁신(Data Driven Innovation)이다. 이것은 데이터 메시, 데이터 패브릭 등으로 표현되는 현대적인 데이터 아키텍처로 실현될 것이고, 그동안 데이터를 수집하고 저장하며 분석하기 위해 만들어졌던 모든 기술들이 궁극적으로 현대적인 데이터 아키텍처를 만들기 위해 활용될 것”이라고 강조했다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지