[커버스토리] 데이터 중심 비즈니스를 위한 효과적인 데이터 저장 전략

글로벌 DBMS 벤더들이 제시하는 최선의 데이터 전략

[컴퓨터월드] 오늘날 전 세계 모든 기업들은 데이터 중심적인(data driven) 비즈니스 프로세스를 구축하는 것을 중요한 목표로 삼고 있다. 업계를 가리지 않고 폭발적으로 증가하고 있는 데이터들을 효과적으로 수집하고 이를 비즈니스에 활용하고자 하는 것은 모든 기업들이 당면하고 있는 목표다.

유통업계의 경우 고객을 이해하고 더 다양한 서비스를 제공하기 위해 온라인·오프라인을 가리지 않고 민첩하게 고객 데이터를 확보해 분석하고 있으며, 금융업계에서는 사기 행위 등을 탐지하고 막아내기 위해 실시간으로 수많은 데이터들을 확인해야만 한다.

이러한 문제는 비단 새롭게 생성되는 데이터에 대해서만 일어나는 것은 아니다. 오랜 역사를 가지고 있는 기업들은 그동안 축적된 데이터에서 새로운 인사이트를 찾을 수는 없는지 끊임없이 탐구하고 있으며, 그동안 역량 부족으로 분석할 수 없었던 데이터들을 활용하기 위해 머신러닝이나 인공지능(AI)과 같은 최신 기술을 도입하고 있다.

이에 본지에서는 글로벌 DBMS 벤더들을 중심으로 효과적인 데이터 저장에 대한 취재를 진행해, 데이터 중심적인 비즈니스 프로세스 구축을 지원하기 위한 벤더들의 전략에 대해 들어봤다.

< 아마존웹서비스(AWS) >
최적의 인사이트를 얻기 위한 단일한 데이터 레이크 전략
AWS는 자사 고객들이 저장하는 데이터의 양이 매년 2배씩 늘어나고 있다는 점을 먼저 지적했다. 데이터는 이미 폭발적으로 증가하고 있다. 이들은 금융권의 거래 데이터, 유통업계에서 생성되는 고객의 주문 데이터, CCTV나 위성 등에서 생성되는 이미지 데이터, IoT 센서 등에서 생성되는 스트리밍 데이터 등 저장해야 하는 데이터의 종류 역시 다양해지고 있다.

데이터의 수집뿐만 아니라 분석과 활용 면에서도 다양화가 이뤄지고 있다. 과거에는 전문적인 역량을 갖춘 직원만이 데이터를 다룰 수 있었지만, 오늘날 데이터의 소비자는 매우 다양해졌다. 이들은 비즈니스 사용자 및 분석가, 데이터 분석가와 데이터 과학자 등으로 분류되며, 소비자의 종류에 따라 원하는 데이터와 접근 방식이 달라질 수 있다.

가령 비즈니스 사용자와 분석가의 경우, 데이터 웨어하우스(DW)를 활용하는 것이 가장 친숙하다. 이들은 대시보드나 BI 도구를 활용해 DW에 저장된 데이터를 분석하며, 저장소의 부하를 줄이면서 쿼리를 날리고 최대한의 정보를 빠르게 만들어내는 것을 목표로 한다. 반면 데이터 분석가나 데이터 과학자의 경우, 복잡하고 정제되지 않은 데이터도 능숙하게 다루며 머신러닝 모델을 적용하거나 AI 시스템을 구축하기를 원하기 때문에 오히려 기존의 관계형 DBMS(RDBMS)가 더 유리하다.

▲ AWS는 ‘아마존 S3’와 ‘아마존 글루’ 등을 활용한 데이터 레이크 중심의 전략을 강조한다.

그렇다면 데이터가 수집되는 측과 사용되는 측을 모두 고려해야하는 데이터 저장소는 어떤 형태를 취해야 하는가? 이에 대해 AWS는 모든 데이터를 ‘아마존 S3(Amazon Simple Storage Service, Amazon S3)’과 같은 데이터 레이크로 보내고, ‘아마존 글루(AWS Glue)’를 활용해 적절한 데이터 거버넌스를 구축함으로서 활용도를 높이는 방법을 찾아야 한다고 조언한다. 데이터 레이크는 종류를 가리지 않고 모든 데이터를 단일한 저장소에 담아 데이터의 중복 저장을 방지하고 최신 상태로 유지한다. 여기에 저장소에 담긴 데이터에 대한 정보를 관리할 수 있는 서비스 레이어를 생성해 단일한 접점에서 기업의 모든 데이터를 활용할 수 있도록 구성한다는 전략이다.

‘아마존 S3’는 데이터의 수집 및 저장 단계에서 데이터의 성질을 정의하지 않고 그대로(raw data) 저장함으로써 해당 단계에 소요되는 시간을 최소화할 수 있다. 이는 빠르고 대량으로 생성되는 데이터들을 실시간으로 저장할 수 있도록 하며, 데이터가 활용될 때 분석가가 원하는 형태로 정의됨으로서 활용도를 높인다. 또한 기존의 인프라에서 데이터를 빠르게 가져올 수 있는 다양한 방법론들을 제공한다.

<인터뷰>
“고객 수요에 맞춘 최적의 데이터 전략 지원”
크레이그 스타이어스(Craig Stires) AWS APAC지역 데이터&분석 총괄

Q. 단일한 저장소의 중요성을 강조하는 이유는?
데이터를 저장하는 데에 있어 산업계와 기업의 특색을 막론하고 항상 최선의 방법이 존재하는 것은 아니다. 가령 데이터가 생성되는 곳에 데이터 저장소를 구축한다면 새롭게 만들어지는 데이터를 포착하고 이상행위를 탐지하는 점에서는 유리할 수 있지만, 데이터를 분석하는 역량은 조금 떨어질 수 있다.

특히 유통기업이 이러한 데이터 저장소에 전적으로 의지한다면, 거래 데이터를 많이 수집할 수 있는 대신 많은 분석가들이 복잡한 쿼리를 수행했을 경우 시스템 과부하를 일으켜 퍼포먼스가 떨어질 수 있다. 그러므로 오프라인 매장과 같이 데이터 생성되는 지점과 IT 조직이 접근할 수 있는 데이터 저장소는 명백히 분리돼야 하며, 그렇게 해야만 확장성도 유지할 수 있다.

하지만 AWS는 그동안 고객들을 관찰하며 발견한 가장 중요한 트렌드가 바로 단일한 데이터 저장소라고 판단했다. ‘아마존 S3’와 같은 단일한 저장소와 ‘아마존 글루’와 같은 데이터 카탈로그 레이어를 더하면 기업의 모든 사용자들은 항상 일관성있게 데이터에 접근할 수 있다. 복잡하게 산재된 데이터를 관리하는 데에 낭비되는 비용을 줄이고, 모든 사용자들이 모든 데이터에 접근할 수 있도록 지원하기 위해서는 단일한 데이터 저장소 전략이 요구된다.

물론 우리는 고객들에게 특정한 서비스를 반드시 이용해야 한다고 강요하지 않는다. AWS의 미션은 고객들에게 가장 활용성이 높고 효과적인 도구를 제공하는 것이며, 이를 위해 고객들의 요구를 분석해 165개 가량의 보안·저장·분석·IoT 등 다양한 서비스를 출시했다. 하지만 오늘날 데이터를 저장하고 활용함에 있어 고객들이 원하는 요구사항에 가장 잘 들어맞는 것은 데이터 레이크에 기업의 모든 데이터를 저장하고 이를 활용할 수 있는 별도의 서비스 레이어를 두는 것이라고 생각한다.

Q. 클라우드는 인프라에 투자할 자금이 충분치 않고 비즈니스 여건 역시 빠르게 변화하는 스타트업들에게 유용한 대안으로 여겨지고 있다. 이러한 기업들에게 필요한 조언이 있다면?
AWS는 그동안 많은 스타트업과 함께 해왔다. 넷플릭스나 에어비앤비, 핀터레스트 등 이제 글로벌 대기업으로 성장한 많은 스타트업들이 AWS와 함께했다. 이 과정에서 우리는 아주 작게 시작했으나 매우 빠르게 성장하는 기업들의 이야기를 들을 수 있었고, 그들이 100% 관리 가능하면서 설계하기 쉬운 서비스를 이용해 운영비용을 낮추고자 한다는 것을 알게 됐다.

오늘날 AWS가 제공하는 클라우드 서비스들은 별도의 인프라 구매 없이도 스트리밍 서비스를 제공하거나 몇 번의 클릭만으로 데이터 분석을 수행할 수 있다. 특히 서버리스(Serverless) 서비스를 활용하면 기업이 클라우드 상의 인프라조차 신경쓰지 않고 필요한 만큼 탄력있게 비즈니스를 운영할 수 있다. 저렴하고 작은 규모로 시작해서 쉽게 확장해나갈 수 있는 인프라가 필요하다면 AWS가 최선의 서비스를 제공할 수 있을 것이다.

특히 중소기업이나 스타트업들은 규모에 상관없이 새로운 비즈니스에 몰두해야 하는 경우가 있다. 이와 같이 제한적인 리소스를 가지고 있는 기업들을 위해 AWS는 ‘레이크 포메이션(AWS Lake Formation)’ 서비스를 출시할 예정이다. ‘레이크 포메이션’은 기업들이 머신러닝을 기반으로 자동적으로 데이터를 추출 및 분석하고, 데이터 레이크를 능동적으로 활용할 수 있도록 돕는다.

< 구축사례 >
NAB, 코어뱅킹 시스템 이전 및 통합된 데이터 저장 전략 수립

내셔널오스트레일리아은행(National Australia Bank, NAB)은 지난해 12월 AWS를 장기적인 전략적 클라우드 제공업체로 선정하고, 2019년까지 코어 뱅킹 시스템을 비롯한 300여 개의 애플리케이션을 AWS로 이전하기로 결정했다.

그동안 NAB는 페타바이트 규모의 방대한 데이터들이 각 은행 전역에 흩어져있다는 문제를 갖고 있었다. 산재돼있는 데이터에서 고객의 선호사항과 같은 인사이트를 얻어내기 위해서는 수 개월의 시간과 많은 자원이 소요됐다. 이를 해결하기 위해 NAB는 ‘아마존 S3’와 ‘아마존 레드시프트(Amazon Redshift)’, ‘아마존 아테나(Amazon Athena)’ 등을 활용한 클라우드 상의 데이터 레이크를 구축했다. 방대한 데이터들을 클라우드 상에서 통합하고 일관된 관리체계를 갖출 수 있게 됨으로서 NAB는 비즈니스 인사이트를 창출하는 작업을 수 분 이내로 완료할 수 있게 됐다.

아울러 NAB는 AWS 상에서 ‘NAB 서비스 클라우드(NAB Services Cloud)’, ‘NAB 데이터 허브(NAB Data Hub)’, ‘NAB 디스커버리 클라우드(NAB Discovery Cloud)’ 등 3가지 새로운 전략 플랫폼을 개발하고 있다. 이를 통해 보다 효율적으로 데이터를 수집하고 활용하며 고객 경험에 대한 정확한 시각에 기반해 생산성을 높이겠다는 전략이다.

< IBM >
고객의 모든 데이터 전략을 지원하는 폭넓은 서비스
오늘날 고객이 요구하는 데이터 관리 전략을 지원할 수 없는 벤더는 시장에서 경쟁력을 가질 수 없다. 과거에는 기업마다 데이터 관리 전략에 큰 차이가 나지 않았고 한정된 제품 중 최적의 제품을 선택해 사용하는 것이 자연스러웠다. 하지만 지금은 100개의 기업이 100개의 데이터 관리 전략을 가지고 있다.

만약 고객이 머신러닝과 AI와 같은 최신 기술의 도입을 준비해야 하는데 이를 지원할 수 없다고 한다거나, 적절한 데이터 거버넌스 체계를 필요로 하는데 서드파티 제품을 사용하라고 한다면 그 벤더는 신뢰를 얻을 수 없을 것이다. 따라서 벤더는 고객의 모든 데이터 관리 전략에 대응할 수 있는 폭넓은 역량을 가져야 한다.

IBM은 고객이 가지고 있는 모든 데이터 관리 전략에 자사의 솔루션과 기술을 매칭할 수 있다고 설명했다. 최근 IBM이 포커싱하고 있는 AI의 경우, 고객이 원하는 AI를 단계별로 구축하기 위한 사다리(The Ladder to AI)를 제공한다. 고객의 궁극적인 목표인 AI를 달성하기 위해서는 사다리의 각 단계를 해결해야 하며, 각각의 단계에도 당연히 많은 데이터들이 요구된다. 따라서 고객과 IBM은 어떤 데이터 거버넌스를 수립하고 어디서 데이터를 수집하며, 머신러닝을 포함한 다양한 기술·서비스에 어떻게 데이터를 연결할 것인지를 함께 고민해야 한다.

▲ IBM은 ‘커먼 SQL’을 통해 멀티 클라우드 환경의 복잡한 데이터 저장 전략에 대응한다.

이를 위해서는 다양한 데이터들을 저장할 수 있는 다양한 데이터 스토어가 필요하며, 서로 다른 장소에 저장된 데이터들을 손쉽게 확인하고 접근할 수 있도록 돕는 단일한 접점이 마련돼야 한다. 이러한 측면에서 IBM은 오랫동안 다양한 종류의 DBMS를 서비스해온 경험을 갖추고 있으며, 복수의 클라우드 상에 존재하는 다양한 DBMS들을 손쉽게 접근하고 사용할 수 있는 ‘커먼 SQL(Common SQL)’을 개발해 사용하고 있다. 고객은 IBM의 컨설팅을 통해 최선의 데이터 저장소를 도입하고, 자사의 서비스·애플리케이션이 멀티 클라우드 상의 데이터에 문제없이 접근할 수 있도록 ‘커먼 SQL’을 사용할 수 있다.

<인터뷰>
멀티 클라우드에 대응하기 위한 해답, ‘커먼 SQL’
김규병 한국IBM 실장

모든 데이터를 통합하고 관리하는 것은 불가능하다. 오늘날 전 세계에 그런 기술을 갖추고 있는 기업은 없다. 한두 개의 벤더가 기술과 시장을 장악하고 표준화된 데이터 저장 방법론을 제시하지 않는 이상 앞으로도 불가능할 것이다. 오픈소스 진영에서만 해도 일 년에 몇 개씩 데이터 스토어를 내놓고 있다. IBM은 오픈소스 진영에 많은 기여를 하고 있고 관련 기술을 확보하고 있지만, 그렇다고 하더라도 모든 것을 해낼 수는 없다.

하지만 달리 얘기하자면, 그럴 필요도 없다. 다양한 비즈니스 과정에서 생산되는 데이터들은 각각 적절한 저장소가 다르게 마련이다. 클라우드에 저장해야 하는 데이터가 있는가 하면 온프레미스 인프라가 가장 잘 맞는 데이터도 있다. OLTP냐 OLAP냐, 분석 용도냐 아카이빙용이냐, 정형이냐 비정형이냐. 이런 특징들을 무시하고 모두 단일한 DBMS에 몰아넣으면 제대로 된 퍼포먼스를 낼 수가 없다.

오늘날 산업별로 다양한 비즈니스 요건들을 모두 커버할 수 있는 단 하나의 DBMS가 있는가? 단언컨대 없다. IBM 또한 ‘DB2’를 포함해 많은 DBMS들을 가지고 있다. 관리나 사용성 측면에서 이들은 모두 다른 특색을 갖고 있으며, 사용자는 자신의 비즈니스 목적에 따라 최적의 DBMS를 선택해서 사용하게 될 것이다. 기업은 필연적으로 다양한 데이터 저장소를 가지게 된다.

과거에는 얼마나 많은 데이터와 종류를 단일한 DBMS로 지원할까가 중요한 고민거리였다. 지금은 멀티 클라우드, 멀티 플레이스 등이 당연해지면서 데이터를 어디에 어떻게 저장할 것인지가 중요해졌다. 오늘날 기업들의 고민은 데이터를 어디에 저장하고 어떻게 싱글뷰를 제공할 것인가, 이기종DB에 대한 관리는 어떻게 할 것인가 하는 것들이다.

이러한 고민에 대한 해답으로 IBM이 강조하는 것은 ‘Anywhere’다. 이것은 ‘커먼 SQL’이라는 이름으로 구체화됐다. 멀티 플레이스, 멀티 플레이스, 멀티 DBMS에서 발생하는 기술 요소들을 통합하기 위해 ‘커먼 SQL 엔진’을 만들고, 모든 DBMS에 접근하고 기술이나 표준을 ‘커먼 SQL’로 통합해서 다같이 볼 수 있도록 한다. 다양한 DBMS 제품들이 가지고 있는 특징을 추출해 모든 데이터 타입을 통합하고 관리할 수 있도록 구성한다. 이는 ‘커먼 SQL’에 쿼리를 날리면 각 DBMS에 맞게 파싱해서 전달하는 것이 아니라, 마이크로서비스 레벨에서 각 저장소에 들어가는 기술들을 통합하는 과정이다.

‘커먼 SQL’을 통해 멀티 플레이스에 있는 데이터들을 손쉽게 연계할 수 있게 연계할 수 있게 되면, 기존의 데이터 기반 솔루션들의 한계도 자연스럽게 사라지게 된다. 이에 따라 IBM은 우리가 가지고 있는 데이터 분석 솔루션들을 마이크로서비스화해서 쿠버네티스나 오픈시프트와 같은 가상화 플랫폼에 올릴 수 있도록 개발 중이다. 이러한 측면에서는 레드햇과의 시너지도 기대할 수 있을 것이다.

< 마이크로소프트 >
단일한 플랫폼 상에서 모든 데이터 전략 구현
많은 기업들이 폭발적으로 늘어나는 데이터를 기업 내 여러 조직에서 활용하고, 다양한 분석 도구가 원활히 접근할 수 있는 대규모 저장소를 갖추기 위해 데이터 레이크 도입을 검토하고 있다. 마이크로소프트(MS)는 특히 그동안 대량의 데이터를 누적해온 공공기관 등지에서 데이터 기반의 대국민 서비스를 만들기 위해 데이터 레이크 도입을 검토하는 경우가 많다고 설명했다.

기업이 최적의 데이터 레이크 환경을 구축하기 위해서는 대용량 스케일 확장, 최적화된 성능 유지, 데이터 분석 도구의 종류에 관계없이 접근 가능한 멀티모델 API 등이 제공되는지 검토해야 한다. 데이터 레이크는 단일화된 데이터 저장소에서 모든 사용자와 서비스를 지원하므로, 도입 이전에 충분한 검토가 선행돼야 한다. 또한 분석가와 같은 데이터 소비자들이 원활하게 필요한 데이터에 접근하면서도, 각자의 권한을 세세하게 설정해 보안 사고를 방지할 수 있는 보안 기능이 탑재돼야 한다.

이러한 데이터 레이크 환경을 성공적으로 구축할 수 있다면 데이터 수집·탐색·전처리·모델링·대시보드 구축까지 모두 단일한 저장소에서 진행하므로, 기업은 복수의 데이터 저장소를 마련하는 등 복잡한 시스템을 갖추지 않고 성공적인 데이터 중앙화를 달성할 수 있다.

▲ ‘MS 애저’는 단일한 플랫폼 상에서 모든 데이터 서비스를 제공한다.

MS는 자사 클라우드 서비스 ‘애저(MS Azure)’를 통해 수집·저장·분석 등 데이터와 관련된 모든 것들을 단일한 플랫폼 상에서 지원하고 있다. 현재 ‘애저’ 상에서 제공되고 있는 데이터 관련 서비스들은 약 30여 가지로, 기업의 데이터 전략 및 AI 기반의 활용 시나리오에 따라 각각의 서비스들을 탄력적으로 조립해 서비스를 설계할 수 있다.

가령 ‘애저 데이터 레이크 스토리지(Azure Data Lake Storage)’는 확장성이 뛰어나고 비용효율적인 데이터 레이크 구축을 지원한다. ‘애저 데이터 레이크 스토리지’는 고성능 파일 시스템이 가진 기능들과 ‘애저 블롭 스토리지(Azure Blob Storage)’의 기능을 활용해 데이터를 분석하고 인사이트를 만들어내는 과정을 최적화하며, ‘파워 BI(Power BI)’와 같은 분석용 애플리케이션과 원활한 데이터 교환이 가능하도록 CDM(Common Data Model)을 제공한다.

이외에도 전통적인 RDBMS를 위한 ‘SQL DB’, 데이터 저장소의 효과적인 활용을 위한 ‘SQL DW’ 등을 사용할 수 있다. 특히 최근 각광받고 있는 ‘애저 데이터브릭(Azure Databricks)’ 서비스의 경우, DW 기반의 실시간 분석이나 고급 분석 등 다양한 환경에서 빠른 속도로 데이터 전처리나 모델링, 트레이닝 등을 수행할 수 있다.

한편 최근 기업들은 단일한 데이터 레이크 이외에도 다양한 DBMS를 선택적으로 활용하는 복수의 데이터 저장소 전략을 취하는 경우가 늘고 있다. 전통적인 RDBMS는 물론, ‘몽고DB(MongoDB)’나 ‘카산드라(Cassandra)’, 혹은 그래프DB(GraphDB)와 같은 NoSQL DBMS도 활용 영역을 넓혀가고 있다. 이러한 데이터 저장소를 활용하는 기업들은 문서나 이미지, 영상과 같은 비정형 데이터들을 다양하게 사용하고 있어 분류나 정제 작업이 큰 부담으로 작용한다.

이를 위해 MS는 복잡하고 다양한 양식의 데이터 가운에 필요한 정보를 빠르고 정확하게 찾아낼 수 있는 지식 마이닝(Knowledge Mining)을 지원한다. ‘애저 코그너티브(Azure Cognitive)’ 서비스는 다양한 문자·음성·이미지·영상 등에 대한 인지기능을 활용해 데이터에 대한 정보를 분석하며, ‘애저 서치(Azure Search)’ 서비스와 연동돼 사용자에게 필요한 정보를 전달한다. MS가 제공하는 지식 마이닝 기술을 통해 사용자는 ‘애저’ 상에서 정형·비정형을 가리지 않고 원하는 데이터를 찾아낼 수 있다.

< 구축사례 >
LG전자 디지털 사이니지 시스템 구축

디지털 사이니지는 서비스가 종료될 때까지 항상 문제없이 켜져있어야 한다. 디지털 사이니지 디스플레이의 평균적은 보증기간은 30,000~50,000 시간이며, 약 5년 정도는 중단없이 작동할 수 있어야 한다는 것을 의미한다. 따라서 디지털 사이니지 디스플레이에서 가장 중요한 것은 가용성이며 이를 위해 항상 사용 현황을 모니터링하고 관리할 수 있어야 한다.

LG전자는 ‘MS 애저’ 상에서 국내외 디지털 사이니지 시스템을 구축했다. 해당 시스템은 디스플레이에 장착된 IoT 센서로 과열이나 메모리 부족과 같은 상태를 모니터링한다. 실시간으로 생성되는 센서 데이터는 ‘MS 애저’ 상에서 즉시 수집 및 분석되며, 관리 효율을 높이기 위해 클라우드 기반의 ‘애저 SQL 데이터 웨어하우스’를 사용하고 있다. 특히 ‘MS 애저’가 제공하는 쉽고 간단한 개발환경을 활용해 예상보다 서비스 개발 기간을 2개월 단축하고, 비용 역시 20% 가량 절약했다.

이러한 모니터링 현황은 직관적으로 구현된 대시보드에서 확인할 수 있다. 관리자는 녹색·황색·적색으로 구분되는 모든 디스플레이의 상태를 확인하고 필요에 따라 각 장치에 필요한 조치를 취할 수 있다. 이를 통해 물리적인 해결이 필요한 경우를 제외하고 대부분의 경우 사전에 문제 발생 여부를 예측하고 원격으로 해결함으로써 서비스 중단을 방지한다. ‘MS 애저’가 제공하는 원격 관리 시스템을 활용해 현장 지원을 없앰으로써, 디스플레이 수명이 다할 때까지 현장에 재방문하지 않게 됐다.

< 오라클 >
자율운영 기술 활용한 효율적인 데이터 관리 강조
오라클은 최근의 기업들이 데이터 관리와 활용이라는 두 가지 노선을 중심으로 데이터 전략을 수립하고 있다고 설명했다. 데이터의 양이 폭증하고 있는 점을 감안해 이를 비용효율적으로 수집·저장·관리하는 방법을 필요로 하는 한편, 비즈니스팀이 IT팀의 도움을 최소화하면서도 축적된 데이터에 손쉽게 접근하고 빠르게 인사이트를 얻어낼 수 있는 수단을 마련해야 한다.

오라클은 이러한 데이터 관리와 활용 전략의 변화에 기업들이 유연하게 대처할 수 있도록 클라우드 기반의 자율운영(Autonomous) 기술 기반의 데이터 관리 전략을 제시한다. 자율운영 기술은 DB를 포함한 데이터 저장소의 프로비저닝, 업그레이드, 패치, 백업 등을 머신러닝 기반의 AI가 자동으로 수행하도록 한다. 관리 업무를 자동화함으로서 데이터 저장소의 종류가 다양화되고 규모 역시 확대되더라도 보다 빠르고 효율적인 시스템을 구축할 수 있다. 따라서 기업은 데이터가 생성되는 순간부터 분석 및 업무에 활용되는 순간까지의 데이터 라이프사이클을 획기적으로 줄일 수 있다.

오라클의 자율운영 기술을 적용한 첫 번째 제품인 ‘오라클 자율운영 DW(Oracle Autonomous Data Warehouse, ADW)’는 기업의 데이터 활용을 민첩하게 하면서도 보다 비용효율적인 환경을 제공한다. ADW는 데이터 관리와 분석에 특화된 클라우드 기반의 DB 플랫폼 서비스다. 많은 클라우드 서비스들은 통합된 관리 시스템을 통해 원클릭(one click)으로 DB 관리가 가능하도록 제공하고 있지만, ADW는 한 번의 클릭조차 필요없는 완전한 자율운영 형태의 관리 기능을 제공한다.

자율운영 기술은 기존에 DB 관리자들이 수행해야 했던 일상적인 업무 없이도 스스로 DB를 운영 및 모니터링하고 성능을 개선한다. 패치, 백업, 버전업과 같은 반복적인 업무는 물론, 데이터의 양과 업무 부하에 따라 실시간으로 확장 또는 축소되는 탄력적이고 유연한 환경을 제공한다. 이제 DB 관리자들은 패치가 잘 이루어졌는지 혹은 데이터가 잘 보호되고 있는지 일일이 점검하지 않아도 시스템을 최상의 상태로 유지할 수 있다. 따라서 기업은 비즈니스 혁신을 위한 핵심적이고 창의적인 업무에 보다 많은 시간을 투자할 수 있게 된다.

이러한 자율운영 기술의 활용은 전통적인 온프레미스 데이터 저장소를 보유하고 있는 기업이 클라우드 전환을 고려할 경우 효과적인 선택지가 될 수 있다. 온프레미스 데이터 저장소는 기업 운영데이터의 전사적인 취합과 분석에 적합하도록 구축돼있지만, 새롭게 발생하는 데이터와 빠르게 변화하는 비즈니스 분석 요건에 대응하기에는 부족하다. 데이터센터 인프라를 포함한 자원의 한계가 존재할뿐더러 다양한 데이터 처리를 위한 새로운 기술들을 수용하고 변화하기 어렵기 때문이다.

이미 구축된 데이터 저장소가 크고 복잡할수록 이를 개선하는 것은 더욱 어렵다. 따라서 전통적인 데이터 저장소의 직접적이고 전면적인 변화를 추진하기보다는, 기존의 데이터 저장소를 유지하면서도 보다 유연하게 자원을 활용하고 새로운 기술을 빠르게 도입할 수 있는 클라우드 환경을 함께 가지고 가는 하이브리드 시스템을 선택하는 것이 현명하다.

하이브리드 시스템을 선택할 경우 기업은 기존의 온프레미스 인프라에 대한 관리인력을 유지하면서도 새로운 클라우드 환경을 위한 관리인력을 충원해야 한다. 이 경우 오라클의 ADW가 제공하는 효율적인 데이터 저장소 관리 기능이 유용하게 활용될 수 있다. ADW로 클라우드 데이터 저장소를 빠르게 구축하고 새롭게 발생하는 다양한 유형의 데이터를 수용하며, 온프레미스 환경에서 이전되는 데이터들을 자율운영 기술로 간편하게 관리·운영함으로써 기존의 데이터 저장소만으로는 수용하기 어려웠던 새로운 비즈니스 요건들을 달성할 수 있도록 한다.

< 구축사례 >
SK스토아 실시간 데이터 저장·분석 시스템 구축
SK스토아는 디지털 기술을 활용한 TV·모바일 쇼핑과 광고사업 등을 수행하고 있으며, 보다 다양한 업종 영역으로의 확장을 고려하고 있다.

SK스토아는 특히 홈쇼핑 방송 중에 실시간으로 데이터들을 수집 및 분석해 신속한 의사결정을 내릴 수 있는 시스템을 필요로 했다. 여기에는 고객들의 반응과 행동 데이터는 물론, 타 방송 편성 데이터, 상품 검색 순위, 날씨 데이터와 같은 외부 데이터를 기존에 축적돼있는 내부 데이터와 연계하는 과정도 요구된다. 아울러 이렇게 분석한 데이터를 모바일 웹과 연동해 사용자가 손쉽게 데이터 기반의 인사이트에 접근할 수 있는 환경을 마련하고, 반복적인 기초데이터 집계 및 보고자료 생성을 자동화해 효율적인 업무 프로세스를 마련하고자 했다.

이를 위해 SK스토아는 오라클이 제공하는 클라우드 기반의 데이터 에코시스템을 모두 적용했다. DIPC(Data Integration Platform Cloud)를 통해 원천 데이터의 실시간 수집·적재·처리를 수행하는 데이터 통합 환경을 마련하고, ADW와 통합 분석 플랫폼 오라클 애널리틱 클라우드(Oracle Analytic Cloud)를 적용해 목적형 분석마트 설계 및 복합 분석 대시보드를 구현했다. 이렇게 마련된 분석마트와 대시보드를 통해 현업 사용자가 직접 데이터를 조회·추출하고 셀프 서비스 분석을 수행할 수 있는 환경을 마련했다.

오라클의 클라우드 기반 데이터 에코시스템을 통해 SK스토아는 온프레미스 대비 HW·SW 도입 비용을 50% 이상 절감했으며, 초기 시스템 개발 및 테스트 등에 소요되는 시간을 단축할 수 있었다. 또한 데이터 관리를 자동화해 보다 효과적으로 시스템을 운영하고 리스크를 줄일 수 있었으며, ADW의 서비스 중단 없는 인프라 확장·축소를 통해 트래픽이 집중되는 피크타임에도 유연한 대응이 가능해졌다.

<티맥스>
독자 기술 활용한 클라우드 인프라 전환 지원
엔터프라이즈 시스템이 클라우드로 전환되는 경우 얻을 수 있는 이점은 다양하다. 필요에 따라 IT 리소스를 확장/축소해 예측하기 어려운 시스템 부하에 대응하면서도 효율적인 비용 체계를 유지할 수 있으며, 빠른 구축과 저렴한 초기 도입비용은 새롭게 IT 인프라를 갖춰야 하는 기업들에게 매력적인 선택지다. DB 시장 역시 수년 전부터 클라우드로의 전환이 가속화되고 있다.

하지만 클라우드로의 전면적인 전환은 많은 기업들에게 여전히 불안을 안겨준다. 특히 오랫동안 운영되면서 많은 데이터를 축적한 기업일수록 더욱 그렇다. 기존에 온프레미스 환경에서 원활히 운영되던 시스템들이 클라우드 환경에서도 원활히 작동하리라는 보장이 없고, 기존의 데이터와 새롭게 축적되는 데이터들이 클라우드 상에서 제대로 처리·저장될 지를 확인할 수 없다. DBMS를 포함해 많은 IT 인프라 벤더들은 자사 클라우드의 안정성과 호환성에 대해 이야기하지만, 대규모 투자를 통해 진행하는 클라우드 전환 과정에서 문제가 발생할 경우 기업 활동에 적지 않은 영향을 받게 되는 고객은 더욱 신중해지게 마련이다.

티맥스데이터는 클라우드 도입을 망설이고 있는 기업을 대상으로 쉽고 빠르게 적용해볼 수 있는 블록형 클라우드 제품을 준비하고 있다. 이는 HW 3대 정도를 놓고 그 위에 프라이빗 클라우드 플랫폼을 구성해 사용자가 티맥스 클라우드를 경험해볼 수 있도록 만들어졌다. 사용자는 상대적으로 중요성이 떨어지는 업무부터 클라우드 전환을 파일럿 프로젝트 식으로 시험해볼 수 있다. 이에 따라 확신을 얻을 수 없는 클라우드 서비스에 대해 대규모 비용·역량 투자와 시행착오로 인한 위험부담을 지지 않아도 된다.

또한 블록형 확장 구조를 채택했기에 필요에 따라 HW를 조금씩 붙여나갈 수 있도록 구성됐다. 이에 더해 프라이빗 클라우드 상에서 인프라 가상화 뿐만 아니라 티맥스 그룹이 보유한 미들웨어, 빅데이터 분석 솔루션 등 다양한 제품과 서비스를 안정적으로 사용할 수도 있다. 해당 제품의 명칭은 ‘서비스형 클라우드 어플라이언스’로, 스탠다드·엔터프라이즈·프리미엄 등 3가지 모델로 구성돼 연내 출시될 예정이다.

티맥스오에스의 ‘프로존(ProZone)’ 역시도 프라이빗 클라우드 구축을 위한 선택지 중 하나다. ‘프로존’은 티맥스가 보유한 시스템 SW 노하우와 기술력이 결집된 클라우드 플랫폼으로, 기존에 익숙한 하이퍼바이저 방식의 가상화와 OS 레벨의 컨테이너 기반 가상화를 모두 지원해 클라우드 애플리케이션의 빠른 배포와 관리를 돕는다. 티맥스오에스는 지난해 4월 사내 IT 시스템을 프로존 기반의 클라우드 환경으로 전면 전환한 바 있다.

탈 오라클 등 DB시장 변화 발맞춰 적극 공략
한편 티맥스데이터는 오늘날 국내 DB 시장에 급격한 변화가 일어나고 있다는 점을 지적했다. 구체적으로 살펴보면 ▲산업 전반에서 가속화되고 있는 탈 오라클 현상 ▲낮은 클라우드 전환율에 비해 정부의 클라우드 확산을 위한 규제 완화 등의 행보 ▲데이터 활용을 위한 데이너 거버넌스 도입 본격화 ▲오픈API 플랫폼 기반 데이터 공유 확대 ▲공공부문 데이터 전면 개방과 데이터 품질 고도화 수요 ▲AI·머신러닝 기반의 빅데이터 솔루션 도입 확산 ▲IoT 센서 데이터 등 새로운 형태의 데이터에 대한 수요 확산 등이다.

특히 국내 산업 전반의 탈 오라클 현상은 몇 년 전부터 꾸준히 수치로 나타나고 있다. DB 시장에서 일정 규모 이상의 인프라를 갖춘 기업은 많든 적든 ‘오라클DB’를 활용하고 있다는 게 정설이다. 하지만 지난해 현대차그룹이 ‘오라클DB’ 대신 티맥스데이터의 ‘티베로(Tibero)’를 도입하겠다고 밝히는 등, 산업계 전반에서 ‘오라클DB’에 대한 평가가 전과 같지 않은 것은 사실이다.

과거 오라클DB의 독주를 견인했던 다중 버전 동시성 제어(MultiVersion Concurrency Control, MVCC)나 오라클9i에 처음 도입된 RAC(Real Application Clusters) 등은 이제 예전만큼 독보적인 기술이 아니다. 또한 일반적으로 오라클 제품은 높은 유지보수 비용을 지불해야 한다는 인식이 있어, IT 인프라 비용을 절감하고자 하는 기업들의 요구에 부응하지 못하고 있다는 분석이다.

티맥스데이터는 DB 시장에서 일어나는 급격한 변화에 발맞춰 ‘티베로’를 중심으로 적극적인 시장 공략에 나설 계획이다. 특히 ‘오라클DB’와의 높은 호환성을 자랑하는 ‘티베로’는 탈 오라클을 원하는 기업들에게 유용한 선택지가 될 수 있다. ‘티베로’는 이미 클라우드 환경에서 우수한 성능과 확장성을 검증받았으며, 티베로 액티브 클러스터(Tibero Active Cluster, TAC)와 같은 기술을 활용해 높은 가용성을 제공한다.

아울러 ‘하이퍼데이터(HyperData)’를 통해 사내 시스템 곳곳에 흩어져있는 데이터들을 물리적으로 통합하지 않고도 손쉽게 각각의 데이터들을 확인하고 활용할 수 있도록 지원한다. ‘하이퍼데이터’는 데이터 가상화, 분석, 시각화, 수집 등을 효율적으로 지원하는 빅데이터 통합 플랫폼이다. 사용자는 데이터 가상화 기술을 활용해 이기종 DB에 저장돼 있는 데이터들을 본인의 분석 환경으로 손쉽게 불러와 사용할 수 있어, 복수의 장소에 저장된 데이터들을 손쉽게 가상 환경에서 통합해 분석에 드는 시간을 절감한다.

▲ ‘하이퍼데이터’를 통해 데이터의 물리적 통합 없이도 시스템 곳곳에 산재된 데이터에 접근할 수 있다.

김성수 기자 kimss56@itdaily.kr

다른기사 보기

상단영역

본문영역

[커버스토리] 데이터 중심 비즈니스를 위한 효과적인 데이터 저장 전략

글로벌 DBMS 벤더들이 제시하는 최선의 데이터 전략

기사 댓글 0

비회원 로그인