과학적이고 체계적인 방법론과 프로세스 구현

IBM이 2006년 글로벌 기업의 최고 경영자들을 대상으로 조사한 바에 따르면, 87%의 CEO가 향후 2년 내에 혁신을 주도하기 위한 근본적인 변화가 뒤따라야 할 것이라 밝혔고, 60% 이상의 CEO는 이를 위해 효과적으로 정보를 활용해야 한다고 응답했다.

주목할 만한 연구 결과 중 하나는 정보 통합을 성공적으로 주도한 기업이 그렇지 못한 기업에 비해서 가치를 창출할 가능성이 5배나 높다는 것이다. 여기서 성공적인 정보 통합이란 보다 포괄적인 범위로 확대되어 가고 있다. 상당수의 기업들이 정보 관리 인프라로부터 최상의 가치를 이끌어내기 위해 서로 다른 정보 소스를 통합할 뿐 아니라 기업 내 공유되는 데이터의 일관성, 품질 및 의미에 대한 신뢰성을 보장하기 위해 데이터 품질 관리라는 새로운 과제를 성공적인 데이터 통합을 위한 핵심 요소로 인식하게 되었다.

DI, 전략적 비즈니스 이슈로 인식해야
이를 뒷받침 하는 연구 결과가 있다. 가트너가 최근 발표한 데이터 통합 주요 사용 트랜드에 대한 연구 보고서에 따르면, 기존의 데이터 통합은 주로 비즈니스 인텔리전스(BI)나 CRM 등의 정보 분석을 위한 통합이 주된 요구였다면 최근, 글로벌 그리고 전 산업별로 나타난 바에 따르면 비용 절감과 마스터 데이터 관리, 컴플라이언스에 대한 효과적인 대응을 위한 통합이 BI나 CRM 등에 앞선 주된 이유로 나타났다.

주목 할 점은 기업이 데이터 통합을 한 차원 높은 전략적인 비즈니스 이슈로 인식하기 시작하였다는 점이며, 많은 조직들이 데이터 통합 프로젝트를 지원하기 위해 전사적 아키텍처를 개발하고 도입하는 방향으로 나아가고 있다는 것이다. 또한 통합적이고 일관된 뷰를 가진 전사적 싱글 버전 데이터를 통해 기업 가치를 제고할 수 있도록 데이터 통합 전 과정에 걸쳐 데이터 품질 관리를 고려하고 있다. 최근 일련의 보도자료를 통해 알 수 있듯이 데이터 품질은 앞으로 데이터 거버넌스(governance)의 일부로 전사 차원에서 관리되어야 할 것이다. 하지만 현실을 살펴보면 아직도 저 품질의 데이터로 인해 발생하는 문제점은 실로 다양하며, 이것이 비즈니스에 미치는 영향도 우려할만하다.

데이터 표준화와 통합
성공적인 데이터 품질 관리를 위해 IBM은 데이터 표준화와 통합은 우선적으로 소스 데이터에 대한 이해를 바탕으로 정확하게 범위를 산정하고 데이터 값의 품질 정제까지 포함하는 전사 차원의 데이터 품질 관점에서 접근하는 것이 바람직하다고 제안한다.

이를 위한 데이터 품질 관리 아키텍처의 요건으로 기업은 데이터 품질 관리에 필요한 모든 솔루션을 단일화 된 인프라 기술로 채택할 필요가 있다. 또한 데이터는 끊임없이 변화하고 생성되므로 데이터 품질 관리 역시 일회성 작업이 아닌 지속적이고 반복적으로 수행되어야 하며, 이를 뒷받침할 수 있는 공학적이고 체계적인 방법론과 프로세스의 구현이 필수적이다. IBM의 데이터 품질 관리 프로세스의 세부 수행 절차는 <그림 2>와 같다.

우선 IBM은 시스템 환경 분석을 통해 AS-IS 데이터 현황을 파악하고, 품질관리의 분석 대상이 되는 데이터를 추출하여 Staging DB에 적재하는 Extraction 단계를 거쳐, 기술적/업무적 관점에서 이들 데이터 품질의 오류 및 결함을 식별하고 그 원인을 분석하는 Assessment 단계를 거친다.

다음으로 이어지는 Alignment 단계에서는 원인별로 정제 방안을 정의하고 실제로 오류 및 결함 데이터를 정제하게 된다. 이때 데이터는 정형 데이터와 비정형 데이터 정제 모두 포함한다. 정제된 데이터를 대상으로 또다시 중복 데이터를 식별하고 이 가운데 Best Surviving 데이터를 결정하여 Single View(단일 뷰)로 통합 규칙을 정의하게 된다. 이 과정부터는 전사 DB에 대하여 적용된다. 마지막 단계는 최종 목표로 하는 타깃 DB로 데이터를 변환하여 Single View로 통합하여 적재한다.

데이터 품질관리 체계의 효율적인 구축
또한 IBM은 데이터 품질 관리 프로젝트 수행 시, DQM 로드맵을 설정하여 지속적으로 데이터 품질을 모니터링 할 수 있는 견고한 시스템 인프라를 설계한다. 이러한 시스템 인프라는 DQM의 성공적인 도입은 물론 DQM 체계가 기업 내에 성공적으로 적용 및 활용, 확산 및 정착 되도록 하기 위한 다양한 전략과 일련의 활동을 포함한다. 특히 IBM은 데이터 통합 및 품질관리에 필요한 핵심 요소 기술을 단일 플랫폼 상에 통합한 'WebSphere Data Integration Suite' 제품을 통해 전사 데이터 표준화 수행을 위한 전 과정을 자동화된 툴로 구현하도록 지원하고 있다.

IBM이 경쟁사와 비교하여 갖는 우수한 점은 바로 이러한 과학적인 품질관리 방법론에 의한 품질 프로세스를 구현한다는 점이다. 그리고 지난 4년 간 국내 데이터 통합 시장의 1위 기업으로써 쌓은 다양한 프로젝트 경험과 고객 맞춤형 접근 방법, 그리고 통합 솔루션은 이러한 과학적 방법론과 버무려져 기업이 가장 필요로 하는 데이터 품질 관리 체계를 효율적으로 구축하도록 뒷받침한다.

하반기 WebSphere Information Server 출시
최근 경쟁사들도 이러한 통합된 전사 정보 아키텍처의 중요성을 눈치 채기 시작하고, 기존의 주력 분야인 ETL 혹은 OLAP 제품 라인을 강화함으로써 이러한 핵심 기능을 통합하기 위한 인프라 구축에 나서기 시작했다. 하지만 이러한 인수 합병이 모두 최근 6 개월 내에 이루어졌다는 점을 고려해야 한다. IBM SWG IIS사업부(구 어센셜)는 이들 경쟁사와는 달리 오직 데이터 통합이라는 한 길만을 위해 달려 왔다.

지난 4년 간 데이터 통합 및 품질관리와 관련하여 집요할 정도의 인수합병을 통해 전사 정보 통합에 필요한 요소 기술들을 단일 플랫폼 상에 통합하는 작업을 진행해 왔으며, 아키텍처 상의 통합이 완수되는 올 하반기에는 WebSphere Information Server라는 새로운 차원의 차세대 정보 통합 솔루션을 출시할 계획이다. 가트너가 올해 발표한 연구에서도 IBM 정보통합플랫폼 아키텍처 상의 통합은 2006년 하반기 완료 예정이나 주요 경쟁사는 데이터 통합에 필요한 핵심 기술을 최근 6개월 인수함으로써 향후 제품 통합까지 상당 시간이 소요될 것으로 예상하고 있다.

이러한 제품 로드맵 상의 차이는 결과적으로 통합된 메타 데이터, 통합된 유저 인터페이스, 통합된 리포팅과 관리, 공통의 컨넥티비티, 공통의 엔진과 병렬 프로세싱 등과 같은 핵심적인 부분의 막대한 차이(gap)를 초래할 것이라 본다. 가트너는 올해 1사분기에 발표한 'Who's Who in Extraction, Transformation and Loading Tools' 보고서에서 IBM을 ETL과 데이터 통합 플랫폼을 제공하는 최고의(premier) ETL 솔루션 제공업체로 평가하면서, 특히 통합된 데이터 품질관리 컴포넌트와 함께 중차대한 데이터 통합 프로젝트에 다양하게 활용될 수 있는 포괄적인 데이터통합 플랫폼임을 강조하고 있다. 이에 비하여 경쟁사는 아직 BI나 DW에 포커스 된 데이터 통합 솔루션에 그치고 있다는 것이다.

IBM은 여러 가지 측면에서 다른 경쟁사와는 확실히 다르다. 최근 하이닉스와 같은 주요 데이터품질관리 프로젝트를 추진하면서 얻은 교훈은 경쟁사의 약점이나 가격 등과 같은 얄팍한 세일즈 전술 차원을 넘어서는 영업 전략이 필요하다는 것이다. 다시 말하면 고객에게 전달하는 가치(Value), 즉 가치영업을 위해서는 단지 몇몇 컴포넌트를 결합하는 형태가 아닌 단일 플랫폼으로 통합화된 솔루션을 제공하는 것이 데이터품질관리 프로젝트의 성패를 결정짓는 핵심이라고 본다. IBM의 경쟁상대는 그런 점에서 어떻게 하면 고객에게 더 큰 가치를 전달할 수 있는지 우리와의 싸움인 것이다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지