계량적인 요구사항 마련ㆍ장기수요 예측 등 DW확장 5단계 접근 방법

LGR 텔레커뮤니케이션즈는 310TB에 이르는 오라클 데이터 웨어하우스를 보유하고 있다. 이 웨어하우스는 CDRlive라는 LGR 서비스의 '첨병' 역할을 담당하는데, CDRlive는 LGR의 고객들이 콜 데이터 기록에 접근할 수 있게 해준다. 매일 실시간으로 업데이트 되며 하루 24시간 365일 동안 중단없이 쿼리를 처리한다. LGR의 데이터 웨어하우스는 지속적으로 확대되어왔으며 내년에는 올해보다 약 두 배 정도 규모가 커질 것으로 예상된다.

새로운 세대의 데이터 웨어하우스는 LGR과 같은 형태로, 엄청난 속도로 성장하며 다차원적이고 기업 관련 이벤트에 신속히 반응해야 하는 중요한 비즈니스 프로세스를 지원해야 한다. 회사에 저장된 데이터 양이 250GB건 혹은 250TB건 간에, 다음과 같은 공통의 문제에 직면해 있을 것이다.

▸적절한 아키텍처를 보유하고 있는가?
▸적절한 플랫폼에서 구동하는가?
▸새로운 사용자에게 서비스가 가능한가?
▸지속적인 업데이트는 어떻게 이루어지고 있는가?
▸급변하는 기술 환경 속에서 적절히 대응이 가능한가?

이러한 모든 질문의 해답은 '확장성'으로 귀결된다. 확장성이 어느 정도나 구현되느냐에 따라 향후 데이터 웨어하우스 구축의 성패가 좌우된다고 해도 과언이 아니다. 테라데이타와 IBM은 확장성에 초점을 맞춘 제품을 공급해왔으며 오라클과 마이크로소프트도 신제품에 이러한 기능을 대폭 확대하고 있다.

데이터 볼륨 급증세 = 데이터 웨어하우스 관리자들이 직면한 확장성 문제를 더욱 촉발하고 있는 점은 다음과 같다. 첫번째는 데이터 볼륨이 급격히 증가하고 있다는 것이다. WinterCorp의 조사에 따르면 대형 데이터 웨어하우스의 경우 2년마다 3배로 증가하고 있는 것으로 나타났다. 또한 데이터 웨어하우스는 훨씬 시간에 민감하다. 수백만 건의 기록이 거의 즉각적으로 처리되어야 한다.

데이터의 초고속 활용 즉, 실시간 데이터 분석은 '운영(operational) BI'라 불린다. 테라데이타는 이를 7년 전부터 '전술적인 데이터 웨어하우징'으로 규정했으며 IBM의 다이나믹 데이터 웨어하우징 역시 유사한 개념이 적용되어 있다.

운영 BI는 데이터 웨어하우스 확장성에 큰 암시를 주고 있다. 많은 사용자들을 수용할 수 있으며 보다 빈번하게 시간에 민감한 상호작용이 이루어지며 중요한 비즈니스 프로세스를 지원할 수 있기 때문이다.

세 번째 트렌드는 데이터와 쿼리, 워크로드, 분석 등 규모를 증폭시키는데 기여하는 요소들의 복잡성 역시 증가하고 있다는 것이다. 데이터 웨어하우스가 예측 가능한 업데이트와 직관적인 리포팅 등과 같이 단순한 일만 처리할 경우 새로운 문제를 야기하지 않고도 확장이 가능하다. 하지만 대규모의 복잡한 분류 작업이나 계산 등을 실행할 때와 같이 정교하고 예측 불가능한 쿼리에 대응해야 할 경우 그 요구 사항은 걷잡을 수가 없게 된다.

최근의 데이터 웨어하우스는 복잡한 쿼리와 분석, 리포트를 실행할 수 있다. 또한 데이터 관계가 거미줄처럼 얽혀있으며 수많은 테이블과 컬럼으로 이루어진 정교한 상황에서도 운영이 가능하다.

데이터의 다면적인 성장 고려해 아키텍처와 투자 규모 결정해야 = 이베이의 데이터 웨어하우스는 주 시스템과 보조 시스템에 약 5PB에 이르는 디스크 스토리지를 포함하고 있으며 주 시스템과 보조 시스템 모두 테라데이타를 구동하고 있다. 재난 복구를 위한 보조 시스템은 주 시스템에서 약 1.6km 떨어진 곳에 위치해 있다. 각 시스템은 이베이의 주요 데이터에 대한 사본을 보유하고 있으며 엔터프라이즈 데이터 웨어하우스로 조직되어 있다. 사본 모두가 15분마다 업데이트된다.

하루 약 5,000명의 사용자와 1천만 건의 쿼리가 있으며 100억~150억 건의 정보량을 매일 업데이트한다. 수많은 테이블이 연관되어 있으며 쿼리는 단순한 것에서부터 여러 시간이 걸리는 분석 작업에 이르기까지 다양하다.

시스템의 규모를 감안해볼 때, 성장 속도는 예상보다 훨씬 빠른데, 사용자의 수는 전년 대비 25% 증가했으며 쿼리는 두 배가 많아졌고 시스템 사이즈는 지난 4년 동안 매년 최소 두 배 이상 커졌다.

이베이의 이 같은 경험은 저장된 데이터의 양만큼 데이터 웨어하우스가 증가하지 않는다는 점이다. 데이터 볼륨과 사용자의 수, 쿼리 볼륨, 데이터 지연, 데이터 및 쿼리의 복잡성 등 훨씬 다차원적으로 한꺼번에 팽창하게 된다. 아키텍처와 투자에 대한 판단을 내릴 때, 이러한 다면적인 성장을 고려해야 한다.

데이터 웨어하우스 확장 5단계 접근방법 = 급격한 성장세를 보이는 데이터 웨어하우스를 처리하고 확장성을 위한 요구 사항에 대응하기 위해서는 다음과 같은 5단계의 접근 방법을 고려해야 한다.

1. 계량적인 요구 사항을 마련하라.
시스템적이고 측정을 토대로 한 엔지니어링 프로세스를 사용해야 한다. 여기에는 데이터베이스와 워크로드의 규모와 매크로에 대한 추정, 서비스 수준에 대한 목표, 운영 스케줄이 포함되어야 한다.

2. 장기적인 니즈를 예측하라.
앞으로 수년 이내에 현재 회사의 데이터 웨어하우스는 지금보다 몇 배 이상 커지게 될 것이다. 장기적인 요구 사항을 추정하기 위해서는 새로운 애플리케이션이나 확장 영역, 추가적인 데이터 수준, 신규 사용자, 툴, 데이터 소스 등의 요인을 고려해야 한다. 엔지니어링 요구 사항의 경우 확장성 측면에서 어떻게 성장할 지에 대한 규정이 포함되어야 할 것이다.

3. 중요한 리스크는 무엇이 있는지 예상해본다.
벤더와 사용자 그룹, 레퍼런스 업체, 컨설턴트 등과 요구 사항에 대한 문서 작업시 예상되는 리스크를 정리해봐야 한다. 모든 엔지니어링 요구 사항은 천차만별이기 때문에 비즈니스의 목표에 따른 중요한 문제에 초점을 맞추는 것이 필요하다. 위조를 탐지하는 애플리케이션의 경우 수신되자마자 데이터베이스에 연결되어야 한다.

한편, 처음에는 비교적 위험성이 낮아보였더라도 데이터 웨어하우스 볼륨이 증가하게 되면 상황이 바뀔 수 있으므로 위험성 평가는 정기적으로 이루어져야 할 것이다.

4. 목표에 대한 솔루션을 측정하라.
현재 요구 사항과 관련, 중요한 리스크에 대한 솔루션 측정이 이루어져야 한다. 이 단계가 제대로 진행되기 위해서는 확장성과 복잡성에 대해 현실적으로 생각해야 한다.

5. 간극을 관리하라.
현실적인 분석과 테스트를 진행해보면 의도한 데이터 웨어하우스가 모든 요구 사항을 언제나 만족하지 않는다는 것을 알게 된다. 이 경우 더 큰 문제로 비화되기 전에 회사 경영진에 이를 알리고 대책을 강구해야 한다.

확장성 갖춘 시스템적인 관리 프로세스 구현해야 = 다차원적인 데이터 웨어하우스의 성장을 처리하기 위한 새로운 기술 트렌드는 매우 병렬적인 구조로 이루어져 있다. 최근 발표한 HP 오라클 엑사데이터 스토리지 서버(HP Oracle Exadata Storage Server)는 I/O 집중적인 업무가 실행될 수 있게 여러 디스크에서 한꺼번에 데이터를 처리하도록 개발되었다. 또한 마이크로소프트는 올해 초 인수한 DATAllegro 기술과 연계한 SQL 서버를 개발 중인데, I/O 대역폭과 프로세서의 병렬 처리를 대폭 향상시킨 것이 특징이다.

1990년대, 대규모의 병렬 프로세스(MPP)는 너무 고가에다 수요도 별로 없어 이렇다 할 시장이 없었지만 점차 관리성과 신뢰성, 이용성이 강화되면서 시장이 급속히 확대되기에 이른다. 클러스터라고도 불린 MPP는 이제 주류로 자리를 잡아가고 있다.

데이터 웨어하우스의 실무자들은 최근 급증하는 데이터 웨어하우스의 규모와 급변하는 아키텍처로 야기되는 변화에 대응하느라 분투하고 있다. 잊지 말아야 할 것은, 새로운 하드웨어를 구매하거나 새로운 아키텍처를 도입한다고 해서 비즈니스 문제가 해결된다는 것이 아니라는 점이다. 필요한 사항을 결정한 다음 해당 사항을 해결할 수 있는 시스템을 도입해야 한다. 이를 위해서는 확장성을 갖춘 시스템적인 관리 프로세스를 구현하며 모든 단계에서 테스트를 실행해 요구 사항을 계량화해야 한다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지