데이터통합 관련 모든 단계 지원

과거 하나의 시스템에서 모든 업무를 수행했을 때는 의미조차 없었지만 지금은 하나의 기업 내에도 수많은 시스템이 존재하고 운용되고 있다. 하나의 시스템이 자체적으로 데이터를 생성하고 사용하다가 소멸되는 경우는 거의 없이, 생성된 정보는 어디엔가 다른 시스템에 필요한 정보로 제공돼야 하며 자신도 어디에선가 생성된 정보를 필요로 하게 된다.

DI의 의미는 이러한 시스템간에 필요로 하는 데이터를 적절한 형태를 통하여 적절한 주기로 서로 주고 받으므로 시스템간에 일치된 정보를 유지하고 관리하게 되는 일련의 과정이라고 볼 수 있다. DI의 물리적인 형태로는 데이터가 발생한 시스템에서 데이터를 필요로 하는 시스템으로의 데이터 전송작업을 의미한다. 또 ETL이나 실시간 DI(RTDI) 등의 형태로 표현을 할 수 있으며 논리적인 DI로는 물리적인 작업을 통해 시스템간 정보의 일치성을 보장받게 되는 시스템 구성으로 MDM(Master Data Management), Data Migration, CDH(Customer Data Hub)와 Data Quality, Metadata Management 등으로 분리가 된다.



▲ <그림1> 데이터 통합의 정의



데이터통합 솔루션의 필요성
오늘날 기업시스템이 복잡해지고 각각의 시스템 간 데이터의 연계 필요성이 많아지면서 데이터 통합의 필요성이 대두되고 있다. 데이터 통합의 필요성이 대두되는 첫 번째 이유로는 현재 구성되어 있는 데이터 통합 작업의 한계에서 온다고 볼 수 있다. 이미 우리는 90년대 중반부터 DW, BI 등의 형태로 정보계 시스템을 구축하여 운용하고 있는 상태다. 2000년에 구축되었다 하더라도 이미 6년 이상 사용한 시스템이고, 정보계 시스템에서 가장 해결하기 어려운 부분이 데이터 통합에 대한 어려움이었다.

데이터 량의 증가, 계속적인 변경 사항 발생, 에러 발생에 대한 모니터링의 어려움, 수행 속도의 한계 등으로 인하여 근본적인 해결 없이 미봉책으로 근근이 유지 보수 차원에서 작업을 수행했지만 이제는 더 이상 현재의 상태로 유지하기에는 한계에 도달하게 되었다. 최근 들어 많이 수행하는 프로젝트 명을 보면 XXX 차세대 시스템, XXX 고도화 프로젝트 등을 통하여 기존의 시스템에서 운용하던 개발된 데이터 통합을 강력한 기능을 포함하고 있는 데이터 통합 툴을 통하여 변경하고자 하는 노력이 계속 되고 있다.

두 번째는 실시간 데이터 처리의 어려움에서 필요성이 강화된다고 볼 수 있다. 최근 들어 IT 트렌드의 조류는 실시간 정보시스템 구축으로 볼 수 있다. RTE, BAM(Business Activity Monitoring), 리얼타임 Time BI, BPM(Business Process Management) 등이 실시간 데이터를 필요로 하는 시스템 들이다. 물론 현재도 이러한 업무를 수행하고 있지 못하는 것은 아니다. 최근 들어 CIO나 CEO의 사무실에 보면 현황판이라는 형태로 50인치 모니터에 현재 시점에서 기업에서 발생하는 주요 정보(매출액, 생산량, 콜 건수, 불량건수, 에러건수 등)를 계속적으로 모니터링 해주는 작업을 수행하고 있다.

단순히 생각하자면 아주 간단한 작업 같이 보이지만 내부적으로는 운영계 시스템에 수시로 부하를 초래하는 아주 바람직하지 못한 작업의 하나다. 이러한 부분이 실시간으로 운영계 시스템에서 정보계 시스템으로의 데이터 통합이 필요한 부분이다. 운영계 부하 없이 운영계 시스템에서 데이터 입력 시 바로 정보계로 전달되어 실시간으로 현장의 정보를 경영층에 제공 할 필요가 있는 것이다. 이 작업은 프로그램 개발을 통하여 구현하기는 불가능 하다고 볼 수 있고 데이터 통합 툴에서 적절하게 기능을 제공하여 사용자 측면에서는 단순하게 이용만 하는 형태의 기능 제공이 필요하다.



▲ <그림2> 데이터통합 시장동향



데이터 마이그레이션의 중요성
세 번째로 차세대 시스템 구축에 따른 데이터 마이그레이션 또한 데이터 통합의 필요성 측면에서 볼 때 중요한 부분을 차지하고 있다. 점차적으로 메인프레임의 사용자가 줄어들고, 차세대 시스템을 구축하고자 하는 기업들이 늘어나고 있다. 새로운 시스템이 정상적으로 운용되기 위해서는 과거 시스템의 데이터가 적절한 변경 작업을 통하여 신 시스템으로의 전이가 필수적인 요소이다. 신 시스템 오픈을 위하여 시스템이나 애플리케이션 등 모든 사항이 준비되었다고 하더라도 데이터 마이그레이션이 완벽하게 이루어지지 않았다면 아무런 의미가 없게 된다.

그 동안 데이터 마이그레이션은 단순히 현 시스템에서 신 시스템으로 데이터만 옮기면 된다는 생각에서 출발하지만 프로젝트 마지막 단계에서 가장 많은 어려움으로 남는 부분은 데이터 마이그레이션인 경우가 대부분이다. 데이터 마이그레이션의 위험성은 데이터를 전이하는데 제한된 시간 내에 모든 작업이 완료되어야 한다는 점과 모든 데이터가 완벽하게 전이 되어야 한다는 것이다. 인포매티카에서는 이러한 어려움을 최소화하기 위한 다양한 기능을 제공하여 데이터 마이그레이션의 완성도를 높이고자 한다. 수행 속도 향상을 위한 파티셔닝 기능, 멀티 프로세싱 기능을 제공하며 작업의 완전성을 쉽게 판단하기 위한 모니터링 기능 등을 제공한다. 차츰 대형 메인프레임 사용자들의 차세대 시스템 구축이 활발해 짐에 따라 당분간 데이터 마이그레이션의 중요성은 지속될 것이다.

네 번째로 데이터품질의 중요성이다. 요사이 금융기관에서 많이 수행하고 있는 차세대 시스템 구축에 데이터 품질 프로젝트가 동시에 수행되고 있다. 차세대 시스템 구축에 데이터 품질 프로젝트가 동시에 수행된다면 시스템의 안정적 관리를 하는데 많은 도움이 될 뿐만 아니라 기존의 데이터에 대한 이관 작업을 수행하는데 있어 신 시스템의 데이터 품질 관리 또한 큰 이득이 될 수 있다.

데이터 품질의 중요성
다음으로는 바젤과 같은 경우겠지만 정보시스템 구축 시에 데이터 품질 관리 프로젝트를 동시에 수행하게 된다. 일반적으로 현재의 운용계 시스템에서 데이터 품질의 문제가 발생했다면 신뢰성 있는 시스템으로의 자리를 잡을 수 없었을 것이다.

그러나 데이터 품질 문제의 발생은 타 시스템으로의 전이를 하는 과정에서 생각하지 못하는 문제점들이 나타나게 되어 새로이 구축되는 정보시스템의 신뢰도를 무너뜨리는 효과를 발생하게 된다. 또한 정보시스템의 경우 품질 관리가 꼭 필요한 이유 중의 하나는 데이터의 성질이 자신이 발생한 정보가 아니라 외부에서 전달 받은 정보이기 때문에 데이터의 품질에 대한 확신이 없을 경우 ETL 작업의 완전성을 보장 받을 수 없을 것이다. 또한 정보시스템 대부분은 하나의 시스템에서 데이터를 추출하는 것이 아니라 다수의 시스템에서 여러 형태로 데이터를 ETL 하고 있기 때문에 일반적인 상태에서 작업을 수행하게 된다면 근본적인 데이터의 품질 보장에 한계를 느끼게 될 것이다.

마지막으로 지금도 기업 내에서는 새로운 프로젝트에 대한 계획을 세우거나 수행을 하고 있다. 대부분의 시스템은 자체적으로 데이터를 발생하고 소멸 시키는 경우는 거의 없이 외부에서 데이터를 추출하거나 외부로 데이터를 전이하는 작업을 수행하게 된다.

우선은 작은 부분부터 데이터 품질 관리 프로젝트를 수행하는 것이 접근적인 방법에서 쉬운 방법이며 또한 새로이 구축되는 시스템과 해당 시스템과의 연계가 되는 시스템부터 시작하는 것이 좋을 것이다. 이러한 부분은 데이터 통합 측면에서 데이터의 품질 관리 프로젝트 형태로 시작하는 것이 바람직해 보인다. 시스템 구축 방법의 한 축인 버텀-업 방식으로 작은 부분에서 시작하여 효과를 확인하고 다시 전사적인 측면에서 차츰 프로젝트를 확대하는 것이 적응력을 키우는데도 효과 적인 것이다.

여기에서 메타데이터에 관한 중요성을 강조한다. 메타데이터는 데이터에 대한 정보이고 데이터 품질은 실 데이터에 관련된 부분으로 생각하면 서로 관련이 없을 것으로 보일 수 있다. 실제로 메타데이터 관리만 진행하는 프로젝트가 있고 메타데이터는 설명하지 않으면서 데이터 품질관리를 하겠다는 프로젝트가 있다. 물론 기업에서 관리하는 모든 데이터에 대한 정보를 구축하기 위하여 메타데이터 관리만 하는 프로젝트는 가능하지만 메타데이터 없이 데이터 품질 프로젝트는 존재 할 수 없다. 데이터 품질 관리를 위한 분석 단계부터 메타데이터에 대한 정보를 수집하기 시작하여 메타데이터를 중심으로 데이터 품질관리를 수행하게 된다. 데이터 품질을 관리하기 위한 기본적인 관리의 시작이 바로 메타데이터 관리인 것이다.

우선 기업 내에서 존재하는 모든 데이터에 대한 정보를 하나의 리포지토리에 등록하여 관리하게 되고 각각의 테이블 별, 컬럼별로 품질 관리에 필요한 정보를 툴을 통하여 동일한 리포지토리에 저장하게 된다. 품질의 대상은 물론 데이터지만 품질관리와 데이터 사이의 매개체 역할을 하는 것이 메타데이터인 것이다.



▲ <그림3> 데이터통합 트렌드



인포매티카, 데이터통합 모든 단계 지원
인포매티카는 데이터 통합의 모든 단계를 통해 데이터를 추출하는 과정에서부터 타깃에 데이터를 저장하는 단계 중 중간에 데이터를 검증하는 과정과 클렌징 하는 과정을 포함하여 데이터 품질관리 기능을 제공하고 있다. 데이터를 추출하는 과정에서는 파워익스체인지와 파워센터를 통하여 소스 시스템의 형태에 관계없이 소스 시스템으로부터 메타데이터를 자동으로 추출하여 통합 리포지토리에 저장 관리하게 된다.

통합 리포지토리에 관리되는 정보를 기반으로 데이터를 추출하게 되면 데이터 익스플로러를 통하여 데이터의 프로파일링 작업을 수행하게 된다. 이 과정에서 데이터의 유의 수준을 점검 할 수 있으며 데이터 퀄리티를 통하여 문제가 발생한 데이터의 클렌징 작업을 수행하게 됩니다. 우리가 원하는 수준에 도달한 데이터는 파워센터를 통하여 타깃 시스템의 데이터베이스로 안전하게 저장 될 것이다.

대부분의 IT 솔루션은 새로운 트렌드나 방법론이 개발되면 과거에 사용되던 제품이나 개발은 사장되는 것이 일반화 되었지만 데이터 통합의 분야에서는 프로젝트의 성격이나 환경에 따라 새로운 기능의 요구에 따라 최신의 기능을 갖고 있는 툴을 사용하기도 하지만 아직도 개발을 통하여 데이터 통합 작업을 수행하는 프로젝트도 상당량 진행되고 있듯이 현재까지도 모든 솔루션이 적절하게 운용되고 있는 상황이다. 그러나 앞으로 새로운 시스템을 구축하거나 프로젝트를 수행하게 된다면 최신의 기능을 보유하고 있는 최신의 툴을 이용하여 개발 이후에 상당기간 운용 측면에서 좀 더 적은 비용으로 쉽게 관리되는 방향으로 기획하여 적용하는 것이 중요하다고 본다.

인포매티카 DI 솔루션
-Informatica PowerCenter ; 일원화된 단일 엔터프라이즈 데이터 통합 플랫폼으로 기업과 정부기관들이 형식에 관계없이 모든 비즈니스 시스템의 데이터에 대한 액세스, 검색 및 통합 기능 등을 수행한다. 또 레거시 시스템 마이그레이션, 애플리케이션 인스턴스 통합, 여러 운영 시스템 간의 데이터 동기화 등 복잡한 문제에 대한 전사적인 미션 크리티컬 솔루션으로 데이터 통합 과제를 해결한다.

-Informatica PowerExchange ; 배치, 변경 또는 실시간 환경에서 복잡한 시스템에 대한 주문형 액세스를 제공하는 검증된 특허 소프트웨어이다. PowerExchange는 독립형 서비스 형태로, 또는 선도적인 데이터 통합 플랫폼인 Informatica PowerExchange와 통합된 형태로 메인프레임, 미드레인지 관계형 데이터베이스 및 파일 기반 시스템을 포함한 모든 주요 엔터프라이즈 데이터 시스템에 대한 액세스를 제공한다. PowerExchange는 다양하고 복잡한 소스 시스템의 데이터에 대해 경제적이고, 안전하고, 믿을 수 있으며, 확장성 있는 액세스를 제공함으로써 전사적인 데이터 가치 실현을 가능하게 한다.

-Informatica Data Quality ; 데이터 소유자가 전사적인 데이터 품질 솔루션을 설계, 관리, 배포 및 제어할 수 있도록 지원하는 업무 중심의 정보 품질 플랫폼이다. 기업 내에서 정보 품질을 구현하는 데 있어 가장 중요한 3대 요소는 사람, 프로세스 기술이다. Informatica Data Quality는 기업 내 적절한 담당자가 효율적이고 장기적인 데이터 품질 전략을 구현하는 데 필요한 권한과 기능을 제공하는 전략적 플랫폼이라고 할 수 있다.

Informatica Data Quality는 기업 데이터 분석가가 전사적인 데이터 개선 및 정제 프로젝트를 관리할 수 있도록 지원하는 업계 유일의 정보 품질 제품이다. 정보 소비자가 정보 품질에 대한 책임을 질 수 있도록 하는 방식으로 기업의 정보 품질 필요성을 이해하는 데 가장 적합한 위치의 직원들에게 권한을 부여한다. 또한, 지식 노동자들은 전사적인 차원에서 데이터를 모니터링, 향상 및 수정할 수 있는 데이터 분석, 정제, 매칭 및 통합 규칙을 구현할 수 있다. Informatica Data Quality는 Informatica 자체 데이터 품질 관리 프로세스를 포함한 표준 방법론을 통해 정보 품질 프로그램을 배치할 수 있도록 지원한다.

-Informatica Data Explorer ; 혁신적인 솔루션이지만 데이터 프로파일링 및 매핑 방법론은 매우 간단하다. 프로파일링 프로세스의 목표는 수년 또는 수십 년 전에 어떻게 설계되었는지가 아니라 실제 존재하는 데이터에 대한 완벽한 이해와 정확한 메타데이터를 제공하는 것이다. 설계 이후, 해당 데이터는 분명히 변경될 것이며, 기존 문서는 더 이상 데이터 소스의 컨텐츠 및 구조를 정확하게 설명할 수 없다. Informatica 데이터 조사 프로세스의 각 단계에 따라, 데이터 분석 담당자는 소스의 실제 컨텐츠, 품질 및 구조적 관계는 물론, 정확한 데이터 모델 또는 사전 정의된 타겟(패키지 CRM 시스템, ERP 패키지 또는 DW 설계 등)에 대한 최상의 매핑 방식을 발견할 수 있다.

논리적이고 이해하기 쉬운 웍플로우에서 가능한 모든 옵션을 제공하는 마법사를 통해 데이터 프로파일링 프로세스가 실행되기 때문에 Informatica Data Explorer는 신속하게 구축되고 결과를 도출할 수 있다. 사용자는 프로세스 및 단계를 생성한 다음, 양방향 작업 또는 정기적인 일괄 프로세스로 실행되도록 저장할 수 있다.

인포매티카 DI 비즈니스 전략
인포매티카는 데이터 통합에 특화된 기업으로 오라클, SAP, IBM, HP, 액센츄어 등 유수의 BI, 애플리케이션, DBMS, 컨설팅 벤더들과 강력한 파트너십을 구축하고 비즈니스협력을 강화하고 있다. 파트너사들과 비즈니스협력 강화에 인포매티카가 가지고 있는 중립성도 타 벤더에 비해 강점이라 꼽을 수 있다. 고객들은 저마다 다양한 벤더의 다양한 솔루션을 사용하고 있다. DBMS 사용의 경우 기업들이 동일 DB 내에서 데이터를 이동, 통합하는 것은 10% 정도에 불과하고, 대부분 다양한 이 기종 DB를 사용하고 있다. 이런 환경에서 인포매티카 처럼 중립성을 유지한다는 점이 다양한 모델을 만드는데 더 유리하다. 데이터를 여러 애플리케이션에 걸쳐 통합하는 작업이 쉽지 않다는 점을 감안한다면, 중립성을 유지한다는 점과 DI에 특화된 기업이라는 점만으로도 인포매티카의 경쟁력은 충분하다고 본다.

데이터 프로파일과 데이터 표준화를 위해 인수한 시뮬레러티시스템즈를 파워센터 데이터 통합 제품에 추가하여 제품의 기능을 대폭 강화시켰다. 인포매티카는 무엇보다 실시간 데이터 통합 시장에 주도적인 역할을 수행하고자 한다. 과거의 정보가 아닌 실시간 현장의 정보를 경영 정보에 활용하기 위한 기술을 제공할 것이다. 또한 각 인더스트리에 적합한 솔루션을 제공하고 ERP 환경의 정보를 실시간으로 경영진의 의사 결정지원에 적합한 정보를 제공하기 위한 기반 기술로 활용할 것이다. 특히 파워익스체인지의 경우 오라클 기반 트랜잭션 시스템에 저장된 중요한 운영 데이터에 신속하게 액세스하여 기존 애플리케이션에 영향을 미치지 않고 실시간으로 변경 데이터를 활용할 수 있는 효율적이고 비용 효과적인 방법이 가능하다.

국내 데이터 통합 시장에 대한 올해의 기본 전략은 "고성장 추세를 견지해 매출목표를 달성하고 파트너 및 제휴를 확대함으로써 최적의 메타데이터 관리와 최고의 데이터 품질을 보장할 수 있도록 지원하는 토털 데이터 통합 벤더로서 포지셔닝 하는 것" 이다. 또한 파트너를 위한 영업 및 기술지원을 강화해 파트너사의 역량을 높이는데 총력을 기울일 계획이며 데이터 통합 및 인포메이션 허브 프로젝트를 위한 아키텍트 서비스 제공, 메타데이터 관리 및 데이터 품질을 위한 컨설팅 서비스 제공, 패키지형 교육 프로그램 설계 등 전문가 서비스 등도 계획하고 있다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지