컬럼 지향적인 DB와 어플라이언스 통해 데이터웨어하우스 혁신 구현

데이터웨어하우스는 빠르게 성장하고 있다. IDC의 설문조사에 따르면, 기업들의 약 40%가 데이터 볼륨이 매년 50% 증가하고 있지만 웨어하우스는 규모 면에서 18%만 증가하고 있는 것으로 나타났다. 이러한 성장에 대처하기 위해서는 기존 데이터베이스를 신중하게 조정해야 하지만 기업들의 경우 레거시 데이터 웨어하우스 용량을 업그레이드하는데 소극적인 상황이다.

이에 따라 데이터 웨어하우스 어플라이언스와 컬럼 스토어(column-store) 데이터베이스가 각광 받고 있다.

둘 다 최근에 등장한 것으로, 가용한 모든 데이터에 대한 심도 있는 분석을 가능하게 해주며 기업의 당면 과제를 해결하는데 손색이 없다는 평가이다.

◆가용한 모든 데이터의 분석 및 전사적 활용 가능케 지원=데이터 웨어하우스 어플라이언스 시장을 8년 동안 이끌어온 네티자(Netezza)의 공동 설립자이자 신생 어플라이언스 벤더인 데이터유토피아(Dataupia)의 CEO인 포스터 힌쇼우는 "월마트와 아마존 등과 같은 기업들이 성공을 거둔 요인 중의 하나는 데이터를 분석하고 전사적으로 활용했기 때문"이라고 밝혔다. 그는 "기업들의 경우 자사 데이터를 철저히 분석해 새로운 매장을 열거나 제품 판매에 연계시켜야 하며 고객들에게 적절한 프로그램을 제공해야 한다"고 말했다.

웨어하우징의 대안들
벤더 제품 컬럼-스토어 DB 데이터웨어하우스 어플라이언스
Calpont CNX Data Warehouse Platform √

DATAllegro DATAllegro v3 √

Dataupia Dataupia Satori Server √

Greenplum Greenplum Database G3 √

HP NeoView √

IBM InfoSphere Balanced Warehouse E-Class √

Infobright Brighthouse √

Kognitio WX2 √

Netezza Netezza Performance Server √

ParAccel* ParAccel Analytic √



Sand Technology Sand/DNA Software √

Sybase* Sybase IQ √



Vertica* Vertica Database √





* 컬럼 스토어 데이터베이스는 써드 파티 하드웨어에서 어플라이언스 컨피규레이션으로 제공될 수 있다.

신속한 쿼리 성능을 제공하며 손쉽게 도입이 가능하고 가격도 합리적인 어플라이언스가 벤더들로부터 잇달아 공개되고 있는 이유가 여기에 있다.

IBM과 테라데이타는 자체 어플라이언스를 보유하고 있으며 오라클의 경우 써드 파티 하드웨어를 활용하고 있다. 하지만 이들 거대 업체들은 컬럼 스토어 데이터베이스의 위협에 적절히 반응하기엔 몸집이 너무 비대하다는 지적이다.

어플라이언스와 컬럼 스토어 데이터베이스가 데이터 웨어하우징의 새로운 시대를 열고 있지만 도입할 경우에는 신중한 자세를 취할 필요가 있다.

어플라이언스와 컬럼 스토어 데이터베이스의 경우 전통적인 전사적 데이터 웨어하우스(EDW)를 언제든지 대체할 수 있지는 않기 때문이다. 이들 대안 제품들은 EDW로부터 데이터 집약적인 애플리케이션의 로드를 덜어주는 데이터 마트에 사용되는 경우가 많아 메인 데이터 웨어하우스를 대체하기엔 무리가 있다는 의견이 지배적이다.

◆컬럼 단위의 쿼리, 다양하고 복잡한 애플리케이션에 적합=데이터를 로우(row; 열)로 저장하는 전통적인 데이터베이스와 달리, 컬럼 스토어 데이터베이스는 데이터를 수직적으로 저장한다.

고객 데이터베이스를 예로 들면, 로우 스토어 데이터베이스는 각각의 고객의 기록을 쿼리하지만 컬럼 스토어 데이터베이스는 선택된 컬럼에 쿼리할 수 있다. 로우 방식은 새로운 고객의 트랜잭션마다 많은 것이 쓰여지는 OLTP에 적합한 반면, 컬럼 스토어는 특정 변수에 따라 많은 것이 읽혀지는 OLAP에 이상적이다.

영향 평가: 컬럼 스토어 데이터베이스와 데이터 웨어하우스 어플라이언스
장점 위험성
IT 부서 어플라이언스는 도입과 관리가 용이하며 전통적인 웨어하우스에 비해 비용도 낮은 편이다. 컬럼 스토어 데이터베이스는 쿼리 성능과 데이터 압축 효과도 높다. 익숙하지 않은 제품의 경우 새로운 데이터 관리 부담과 데이터 통합 문제를 야기할 수 있다. 컬럼 스토어 데이터베이스는 변수가 많은 쿼리에는 적합하지 않다.
비즈니스 부서 어플라이언스와 컬럼 스토어 데이터베이스는 기업들의 의사 결정 속도를 높여주며 데이터 집중적인 쿼리를 실행할 수 있다. 의사 지원과 위험 분석 애플리케이션은 복잡하다. 이 경우 투자비가 많이 들며 테스트에도 많은 시간이 소요된다.
비즈니스 경쟁력 은행권과 보험 회사, 통신 업체, 유통 업체들의 경우 연계와 상향 판매 등에서 신속한 분석이 가능해 경쟁력을 높일 수 있다. 적절하게 테스트되지 못한 분석 모델은 나쁜 결과를 초래할 수 있다.

종합 평가: 어플라이언스와 컬럼 스토어 데이터베이스는 복잡하며 데이터 집중적인 쿼리에 대해 비용 효과적이며 고성능의 대안 솔루션이 될 수 있다. 하지만 전사적인 데이터 웨어하우스를 대체하고자 할 경우에는 신중하게 접근할 필요가 있다.

컬럼 스토어 데이터베이스는 많은 애플리케이션에 적합하다. 통신 업체들은 과금과 히스토리 목적으로 전사적인 데이터 웨어하우스에 보관되어야 하는 콜 데이터 기록이 엄청나게 많지만 컬럼 형태로 추출된 데이터가 마케팅 분석을 위해 데이터 마트에 저장될 수 있다. 대형 유통 업체와 은행, 보험 업체들 역시 연계와 상향 판매 등을 위해 동일한 접근 방식을 취하고 있다.

IRS(Internal Revenue Service)는 1996년에 Sybase IQ를 사용해 2TB 웨어하우스로 시작한 최초의 컬럼 스토어 방식을 출범했다. IRS의 리서치 데이터베이스 부문장인 제프 버틀러는 "당시만해도 2TB는 매우 큰 데이터베이스였다"고 말했다. 컬럼 기반의 데이터베이스는 쿼리 시간을 수일에서 수시간으로 단축시킬 수 있어 생산성 차원에서 대폭 향상된다는 것이 버틀러의 설명이며, 그는 "현재 158TB를 보유하고 있으며 한때 여러 시간이 걸렸던 쿼리가 단 몇 초면 완료된다"고 밝혔다.

◆어플라이언스, 도입 및 관리가 용이하고 높은 성능 자랑=데이터 웨어하우스 어플라이언스는 로우 기반이건 컬럼 스토어 데이터베이스건 간에 공통적으로 대량 병렬 처리(MPP) 방식이며 아무것도 공유하지 않는 구조이다. MPP는 쿼리 로드가 많은 프로세서나 노드로 분포된다는 것을 의미하며 공유되는 것이 없다는 것은 각각의 노드가 독립적으로서, 자체 메모리와 스토리지를 통해 이루어진다는 의미이다. 결과적으로, 전통적인 데이터 웨어하우스를 구동하는 고성능의 대칭형 멀티프로세서 서버에 영향을 끼치지 않고 높은 성능을 달성할 수 있게 된다.

또한 어플라이언스는 전통적인 웨어하우스에 비해 도입 및 관리가 용이하다는 점 때문에 높은 평가를 받고 있다. 이러한 점을 내세워 ParAccel과 Sybase, Vertica 등 컬럼 스토어 데이터베이스 벤더들은 써드 파티 하드웨어에 소프트웨어-하드웨어를 번들로 제공하고 있다.

테라데이타의 경우최초로 MPP에 하드웨어와 소프트웨어를 번들로 제공했으며 신생 업체들은 가격 경쟁력을 내세워 시장을 공략하고 있다. 테라데이타는 최근 자사의 EDW 제품의 성능과 확장성을 업그레이드하는 동시에 데이터 마트와 소규모 웨어하우스용도의 어플라이언스를 발표하면서 시장에 대응하고 있다.

◆신중한 선택 필요, 필요한 애플리케이션의 유형과 처리 속도 감안해야=어플라이언스나 컬럼 스토어 데이터베이스의 도입을 고려하고 있다면 EDW를 대체할 것인지 또는 데이터 집중적인 분석 쿼리에 대한 로드를 덜 것인지를 판단해야 한다.

EDW 대체 용도로 도입할 생각이라면 컬럼 스토어 제품이 로우 집중적인 쿼리에 적합하지 않다는 것을 상기할 필요가 있다. EDW가 다양한 형태의 쿼리로 수많은 사용자들을 지원하고 있다면 모든 어플라이언스가 이러한 기능을 제공하지는 않는다는 것을 알아두어야 한다.

테라데이타의 대표적인 제품과 IBM의 InfoSphere Balanced Warehouse E-Class, HP의 네오뷰(Neoview), DATAllegro v3, Greenplum의 G3 모두 기술적으로는 EDW 도입에 적합하지만 HP, DATAllegro, Greenplum은 테라데이타나 IBM의 데이터 통합 및 정보 관리 소프트웨어에 맞는 파트너를 사용해야 한다.

어플라이언스와 컬럼 스토어 데이터베이스는 분석 데이터 마트에 효과적이며 복잡한 쿼리와 데이터 볼륨이 방대한 곳에서의 웨어하우스에 특화되어 있다.

뉴욕증권거래소의 모회사인 NYSE Euronext의 경우 오라클 데이터베이스에 구성된 세 대의 노후한 100TB 웨어하우스를 세 대의 Netezza Performance Servers로 교체했다. 전통적인 웨어하우스에서는 26시간이나 걸리던 복잡한 쿼리들이 2시간 30분으로 줄어들었으며 7분 정도 소요되던 간단한 쿼리도 이제는 5초로 줄어들었다.

하지만 이것이 전형적인 EDW는 아니다. 로드는 하루에 수백건의 쿼리로 제한되며 사용자 커뮤니티는 어플라이언스 한 대당 150개 정도로 국한되어 디바이스에서 20명의 사용자들만이 동시에 접근이 가능하다.

따라서 사용자와 쿼리의 볼륨에 따라 데이터 웨어하우스를 선택해야 한다는 의미가 된다. 필요한 애플리케이션의 유형과 처리 속도를 감안해 어플라이언스나 컬럼 기반의 데이터베이스, 또는 전통적인 방식을 고려하는 접근 방식이 요구된다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지