엔터프라이즈 데이터 통합과 IBM의 DI

DB2 Content Manager
WebSphere Information Integrator(WebSphere II)
WebSphere Data Integration Suite

기업에서는 수많은 데이터가 지속적으로 생성되고 있다. 연구 조사에 따르면 통제가 불가능 한 데이터 증가량과 데이터 통합 문제가 새로운 애플리케이션 도입을 지연시키고 있다. The Data Warehousing Institute(TDWI)의 최근 조사에 의하면, 조사 대상 기관의 69%가 새로운 애플리케이션의 실행에 있어 데이터 통합 문제가 장애물이 된다고 밝힌 바 있다. 조사 응답자가 데이터통합에 관련하여 표명한 3가지 주요 우려 사항은 데이터 품질 및 보안, 부족한 업무 사례 및 불충분한 자금 그리고 빈약한 데이터 통합 인프라였다.

"2004~2008년 전 세계 데이터 통합 소비 지출 예상" 보고서에서 IDC는 전 세계적 데이터 통합 소비 지출액이 2003년 93억 달러에서 2008년이 되면 136억 달러로 늘어날 것으로 추정하고 있다. 그러나 데이터 통합이 성공을 거두기 위해서는 이러한 자금은 데이터의 품질문제를 해결하고 전사적 데이터 통합 인프라를 구축하는데 사용되어야 한다.

이 보고서는 데이터 통합 애플리케이션을 지원하기 위한 기업 인프라의 계획 및 구축 방법을 자세히 조명하는 것이다. 또한 기존의 데이터 통합 기법 및 기술을 검토하고, 이들 중 모든 데이터 통합 애플리케이션에 활용될 수 있는 기술을 제안하며, 전사적 데이터 통합 환경을 지원하기 위해 사용될 수 있는 IBM의 데이터 통합 솔루션 활용 방법에 대해 설명한다.

데이터 통합의 특성
데이터 통합에는 비즈니스 프로세스 및 비즈니스 사용자들에게 전사 비즈니스 데이터에 대한 통합적이고 일관성 있는 뷰(view)를 제공하기 위해 애플리케이션, 도구, 기법, 기술 및 관리 서비스의 프레임워크가 포함된다<그림1 참조>.

애플리케이션은 사용자가 구축하거나 공급 업체가 개발한 솔루션으로 하나 이상의 데이터 통합 도구를 사용한다.
도구는 상용 제품으로 하나 이상의 데이터통합 기술을 지원한다. 이러한 도구들은 데이터 통합 애플리케이션을 설계 및 구축하기 위해 사용된다.
하나 이상의 데이터통합 관련기법을 구현한다.
기법은 데이터를 통합하기 위한 기술에 의존한 접근 방식이다.
관리 서비스는 데이터 품질, 메타데이터 및 데이터 통합 시스템 운영 관리를 지원한다.

데이터 통합기법
데이터를 통합하기 위해 사용되는 세 가지 주요 기법은 데이터 결합, 데이터 연합 및 데이터 배포이다<그림 2>. 이러한 세 가지 기법은 데이터 통합처리 과정 중에 변경된 데이터 캡처와 데이터의 변환 기법을 반복적으로 사용할 수 있다.

데이터 결합(Data Consolidation)
데이터 결합은 여러 소스 시스템에서 데이터를 캡처하고 해당 데이터를 영구적 데이터 저장소로 통합한다. 이 데이터 저장소는 비즈니스 인텔리전스 애플리케이션 보고 및 분석에 사용되는 데이터 웨어하우스가 될 수 있으며 문서, 이미지 및 웹 페이지와 같은 비구조적 정보를 포함하는 컨텐츠 저장소가 될 수도 있다.

데이터 결합시, 소스 시스템에서 갱신이 발생하는 시간과 타깃 저장소에서 발생하는 갱신 시간 사이에 일반적으로 보통 지연 또는 대기 시간이 발생한다. 비즈니스 요구사항에 따라 이와 같은 대기 시간은 몇 초, 몇 시간 또는 며칠이 될 수 있다. 근접실시간(near-real-time)이란 단어가 몇 분 또는 몇 시간에 이르는 짧은 대기 시간의 타깃 데이터를 설명하기 위해 종종 사용된다. 대기 시간이 전혀 없는 데이터를 실시간(real-time) 데이터라고 하지만, 데이터 결합기능을 사용하여 실시간 데이터를 확보하는 것은 어렵다.

대기 시간이 긴 데이터(예: 1일 이상)의 타깃 데이터 저장소는 계획된 간격으로 소스 시스템에서 데이터를 끌어오는(Pull) 배치 데이터 통합 애플리케이션을 사용하여 구축된다. 한편 대기시간이 짧은 타깃 데이터의 저장소는 소스 시스템에서 데이터 변경사항을 지속적으로 캡처하고 타깃 저장소에 데이터 변경사항을 밀어 넣는(Push) 온라인 데이터 통합 애플리케이션으로 갱신하게 된다. 이 밀어 넣기 접근 방식은 데이터 결합을 위해 캡처되는 데이터변경사항을 식별하는 데이터 결합 애플리케이션이 요구된다. 일반적으로 CDC(변경 데이터 캡처) 기법의 일부 형식이 이 작업에서 사용된다.

Pull 결합모드와 Push 결합모드가 함께 사용될 수 있다. 예를 들어, 온라인 Push 애플리케이션이 배치 Pull 애플리케이션에 의해 계획된 시간 간격으로 질의되는 스테이징 영역에서 데이터 변경사항을 축적할 수 있다. Push 모드는 이벤트 주도형으로, Pull 모드는 온디맨드주도형으로 실현하는 것이 중요하다. 데이터 결합의 장점은, 데이터 결합시 소스 시스템에서 타깃 데이터 저장소로 데이터가 이동함에 따라 대량의 데이터가 변환(재구성, 정제, 정리 및 집계)될 수 있다는데 있다. 데이터 결합의 단점은 데이터 통합 프로세스를 지원하기 위해 컴퓨팅 자원이 요구되고, 타깃 데이터 저장소를 지원하기 위해 디스크 공간이 필요하다는 것이다.

데이터 결합은 운영 데이터 저장소(ODS)와 전사 데이터웨어하우스(EDW)를 구축하고 유지하기 위해 데이터웨어하우징 애플리케이션에서 사용하는 주요 접근 방식이다. 데이터 결합은 독립 데이터 마트를 구축하는데 사용될 수 있지만, 이런 경우 통합 프로세스가 하나의 데이터 소스(예: 전사 데이터웨어하우스)를 사용한다. 데이터웨어하우징 환경에서 ETL(추출, 변환 및 적재) 기술은 데이터 결합을 지원하기 위해 사용되는 좀 더 보편적인 기술 중 하나다. 또 다른 데이터 결합기술은 ECM(전사 컨텐츠 관리)이다. 대부분의 ECM 솔루션은 문서, 보고서 및 웹페이지와 같은 비구조적 데이터를 통합하고 관리하는데 중점을 두고 있다.

데이터 연합(Data federation)
데이터 연합은 하나 이상의 소스 데이터 파일에 대한 단일 가상 뷰 기능을 제공한다. 비즈니스 애플리케이션이 이 가상 뷰에 대해 질의를 실행하는 경우, 데이터 연합 엔진이 적절한 소스 데이터 저장소로부터 데이터를 검색하고 통합하여 가상 뷰 및 질의정의와 일치시키고 요청 비즈니스 애플리케이션에 그 결과를 보낸다. 정의에 따르면, 데이터 연합은 온디맨드 기준으로 소스 시스템으로부터 데이터를 항상 끌어냅니다. 데이터를 소스 데이터 파일에서 가져올 때 필요한 데이터 변환이 이루어진다. 전사정보통합(EII)은 데이터 통합을 위한 연합 접근 방식을 지원하는 기술의 한 예이다.

연합 시스템의 핵심 요소 중의 하나가 소스 데이터에 액세스하기 위해 데이터 연합 엔진에서 사용하는 메타 데이터다. 경우에 따라 이 메타 데이터는 소스 파일로 매핑 되는 가상 뷰 만으로 유일하게 구성된다. 고급 솔루션에서 메타데이터는 소스 시스템에 존재하는 데이터 크기와 이에 액세스하기 위해 사용되는 액세스 경로에 대한 자세한 정보를 포함할 수도 있다. 이와 같이 확장된 정보의 지원으로 연합된 솔루션은 소스 시스템에 액세스할 수 있다.

연합 접근 방식의 주요 장점은, 기존 데이터에 대한 액세스를 제공하는 한편 다른 데이터 저장소로 소스 데이터를 결합해야 하는 필요성을 없애 준다는 데에 있다. 그러나 데이터 연합은 대량의 데이터를 검색 및 조정하는 경우 또는 소스 데이터에 치명적인 데이터 품질 문제가 있는 애플리케이션에는 적합하지 않다. 다른 고려사항으로는 실행 시 다양한 데이터 소스에 액세스할 때 발생할 수 있는 잠재적인 성능 상의 영향 및 오버헤드가 있다.

데이터 결합 비용이 데이터 연합을 통해 기대할 수 있는 경영적 혜택보다 중요한 경우 데이터 연합이 사용될 수도 있다. 운영 질의 및 보고는 이러한 상황에 발생하는 경우 하나의 사례가 된다. 데이터 연합은 데이터 보안 정책과 라이선스 제한 사항이 소스 데이터의 복사를 방해하는 경우 유용하게 사용될 수 있다. 신디케이트 데이터는 보통 후자의 범주에 속한다. 또한 데이터 연합은 기업 인수 합병 후 단기적 데이터 통합 솔루션으로 이용될 수 있다.

데이터 연합에 필요한 소스 데이터 조사 및 프로파일링은 데이터 결합시 필요한 소스 데이터 조사 및 프로파일링과 유사하다. 따라서 조직은 데이터 결합과 데이터 연합 모두를 지원하는 데이터 통합제품을 사용하거나, 또는 최소한 결합 및 연합에 사용되는 메타 데이터를 공유할 수 있는 제품을 사용해야 한다.

데이터 배포
데이터 배포 애플리케이션은 한 장소에서 다른 장소로 데이터를 복사한다. 이러한 애플리케이션은 일반적으로 온라인으로 운영되며 데이터를 타깃 위치로 밀어 넣는다(이벤트 주도형). 소스 시스템의 갱신은 비동기식 또는 동기식으로 타깃 시스템에 배포될 수 있다. 동기식 배포가 수행되려면 동일한 실제 트랜잭션에서 소스 시스템과 타깃 시스템 모두에 대해 갱신이 발생해야 한다. 이용되는 동기화의 유형에 관계없이 배포 기능은 타깃으로 데이터 전달을 보장하며, 이 기능은 데이터 배포를 차별화 하는 핵심 요소이다. 대부분의 동기식 데이터배포 기술은 소스와 타깃 간의 양 방향 데이터 교환을 지원한다. 전사 애플리케이션 통합(EAI)과 전사 데이터 복제(EDR)는 데이터 배포를 지원하는 기술의 예라고 할 수 있다.

데이터 배포의 최대 장점은 실시간 또는 근접 실시간 데이터의 이동시 사용될 수 있다는 점이다. 다른 장점으로는, 보장된 데이터의 제공 및 양 방향 데이터 배포 기술이 있다. 이러한 여러 가지 기능의 사용 가능성은 제품에 따라 다르다. 또한 데이터 배포 기능은 워크 로드 밸런싱, 백업 및 복구, 재해 복구에도 사용될 수 있다.

데이터 배포 기능의 구현은 성능 및 데이터 재구성, 정리 기능에 따라 상당히 다르게 나타난다. 일부 전사 데이터 복제 제품들이 많은 양의 데이터 이동과 재구성을 지원하는 반면, EAI 제품들은 대량 데이터 이동 및 데이터 재구성 기능에 종종 제한을 받는다. 이러한 차이가 발생하는 부분적인 이유 중 하나는 전사 데이터 복제는 데이터 중심형의 아키텍처인 반면, EAI는 메시지 또는 트랜잭션 중심형의 아키텍처라는데 있다.

혼합접근법
데이터 통합 애플리케이션에서 사용되는 기법은 비즈니스와 기술 요구사항 모두에 따라 달라진다. 여러 개의 데이터 통합 기법이 포함된 혼합 접근법을 데이터 통합 애플리케이션이활용하는 것은 아주 일반적인 사례다. 한 가지 좋은 예로, 고객 정보에 대해 조화로운 뷰를 제공하는 것이 목적이고 고객마스터 데이터관리(CDM) 애플리케이션이 있다.

CDM에 대한 간단한 접근법은 결합된 고객 데이터 저장소를 구축하는 것으로, 이 저장소에는 소스 시스템으로부터 캡처된 고객데이터가 포함된다. 결합 저장소에 있는 정보의 대기 시간은 데이터가 온라인으로 또는 배치 형태로 결합되는지 여부에 따라, 그리고 결합 저장소에 적용되는 갱신의 빈도수에 따라 달라진다. CDM에 대한 또 다른 접근법은 데이터 연합으로, 여기서 소스 시스템에 있는 고객 데이터의 가상 업무 뷰가 정의된다. 이와 같은 뷰 기능을 소스 시스템의 현재 고객 정보에 액세스하는 비즈니스 애플리케이션에서 활용한다. 연합 접근법은 공통키에 기초한 관련 고객 정보에 연결하기 위해 메타 데이터 참조 파일을 채택할 수도 있다.

혼성 데이터 결합과 데이터 연합 접근법이 적절할 수도 있다. 공통 고객 데이터(이름, 주소 등)가 단일 저장소에서 결합될 수 있지만, 특정 소스 애플리케이션(예: 고객주문)에 고유한 고객 데이터가 연합될 수 있다. 이 혼합형 접근법은 데이터 배포기능을 접목하여 확대될 수 있다. 고객이 웹 저장소 트랜잭션 중 자신의 이름과 주소를 갱신하는 경우, 이 변경사항은 결합 데이터 저장소로 보내진 후 소매 대리점 고객 데이터베이스와 같은 다른 소스 시스템으로 배포될 수 있다.

데이터 통합 기술
위에서 약술한 데이터 통합 기법 구현을 위해 광범위한 기술이 제공된다. 본 장에서는 핵심 요소 중, ETL(추출, 변환, 적재), 전사 정보 통합(EII) 및 전사 애플리케이션 통합(EAI)의 세 가지를 검토하고, 전사 데이터 복제(EDR) 및 전사 컨텐츠 관리(ECM)도 간략하게 살펴본다.

추출, 변환 및 적재
명칭에서 의미하는 바와 같이, ETL(추출, 변환, 적재) 기술은 소스 데이터에서 데이터를 추출하여 업무 환경을 만족 시킬 수 있도록 해당 데이터를 변환한 후 그 결과를 타깃 위치로 적재하는 것이다. 소스 데이터와 타깃 데이터는 일반적으로 데이터베이스나 파일의 형태이지만, 메시지 큐와 같은 다른 데이터 저장소 형식일 수 도 있다.

데이터는 일정 주도형의 Pull 모드 또는 이벤트 주도형의 Push 모드에서 추출되며 두 가지 모드는 수정된 데이터 캡처를 활용한다. Pull 모드 작동은 데이터의 결합을 지원하며 일반적으로 배치 형태로 이루어지고, Push 모드 작동은 타깃 데이터 저장소로 수정 사항을 배포하면서 온라인상에서 이루어진다. 데이터 변환은 데이터 기록 재구성 및 조정, 데이터 컨텐츠 정리 및 또는 데이터 컨텐츠 집계를 포함하고, 데이터 적재는 타깃 데이터 저장소를 완전히 새로 고치는 결과를 초래하거나, 타깃 위치를 갱신함으로써 수행될 수 있다. 여기서 사용되는 인터페이스는 실제 ODBC, JBDC, JMS와 같은 표준을 포함하거나 원시 데이터베이스 및 애플리케이션 인터페이스를 포함한다.

이전의 ETL 솔루션에서는 계획된 시간 간격으로 배치 작업을 실행하여 무 계층 파일과 관련 데이터베이스에서 데이터를 캡처하고, 관계 형 DBMS에서 관리하는 데이터웨어하우스로 캡처한 데이터를 통합했다. 최근 몇 년 동안 상업용 ETL 공급업체들은 자신들의 제품을 크게 개선하고 확장하고 있다. 그 사례는 다음과 같다.

추가 소스-레거시 데이터, 애플리케이션 패키지, XML 파일, 웹 로그, EAI 소스, 웹서비스, 비구조적 데이터
추가 타깃-EAI 타깃, 웹 서비스
데이터 변환-사용자 정의된 종료기능, 데이터 프로파일링 및 데이터 품질 관리, 표준 프로그래밍 언어지원, DBMS 엔진활용, 웹 서비스
우수한 관리-작업 일정 계획 및 추적, 메타데이터 관리, 오류복구
성능-병렬처리, 로드밸런싱, 캐싱, 원시 DBMS 애플리케이션 지원 및 데이터 적재 인터페이스
유용성-보다 시각적인 개발 인터페이스
보안기능-외부 보안 패키지 및 익스트라넷 지원

이와 같이 개선된 기능은 다른 광범위한 전사 데이터 통합 프로젝트를 수용할 수 있는 데이터웨어하우징을 위한 데이터 결합 기능을 능가하면서 ETL 제품의 활용범위를 확장시키고 있다.

전사정보통합
EII(전사정보통합)는 분산 데이터의 가상 업무 뷰 기능을 제공한다. 이 뷰 기능은 운영업무 트랜잭션 데이터, 데이터웨어하우스 및 또는 비구조적 정보에 대한 수요 중심형 질의 액세스에 이용된다. EII는 데이터 통합에 대한 데이터연합 접근법을 지원한다.

EII의 목적은 분산 데이터가 마치 단일 데이터베이스에 있는 것처럼 애플리케이션이 분산데이터를 볼 수 있도록 하는데 있다. EII는 데이터가 의미상으로 달라지고 그 형식이 변하는 장소에서, 그리고 다른 데이터 인터페이스를 채택할 수 있는 여러 장소에 존재하는, 데이터검색의 복합성으로부터 애플리케이션을 자유롭게 한다.

기본적으로, 분산 데이터에 대한 EII 액세스에는 하위 구성요소의 가상 뷰에 대해 제기된 질의를 세분화하는 기능과, 처리를 위해 필요한 데이터가 있는 장소로 각 하위 구성 요소를 전송하는 기능이 포함된다. 다음, EII 제품은 검색된 데이터를 결합하여 질의를 실행한 애플리케이션으로 최종 결과를 보낸다. 고급형 EII 솔루션은 최적의 성능을 위해 이러한 프로세스를 조종하는 우수한 성능기능을 구비하고 있다.

EII 제품들은 두 가지 다른 기술 배경인 관계형 DBMS와 XML로부터 발전했다. 그러나 업계의 추세는 SQL(ODBC와 JDBC) 및 XML(XQuery와 XPath) 데이터 인터페이스를 모두 지원하는 제품으로 이동하고 있다. 대부분의 EII 제품들은 Java 기반이다. 기능적으로 볼 때 제품들은 상당히 다른 특징을 보이고 있다. 질의의 최적화 및 성능은 제품 차별화의 핵심영역이다. 태생적으로 DBMS 배경을 가진 EII 제품은 분산 데이터베이스 관리 시스템(DDBMS) 개발 시 이루어진 연구를 십 분 활용하기 때문에 우수한 성능을 발휘하는 경우가 많다.

대부분의 EII 제품은 이기종 데이터에 대해 읽기 전용 액세스를 제공한다. 그러나 일부제품들은 제한된 갱신기능을 제공한다. 주요 성능과 관련된 또 다른 선택 사항으로, EII 제품이 결과를 캐시에 저장하고 관리자는 캐시에 있는 데이터의 유효한 시점 또는 새로 고칠 필요성이 있는 시점을 결정하는 규칙을 규정할 수 있도록 지원하는 EII 제품 기능이 있다. EII 제품 평가시 고려해야 하는 주요 기능은 데이터소스와 타깃 지원(웹 서비스 및 비구조적데이터 포함), 변환기능, 메타데이터 관리, 소스 데이터 갱신기능, 인증 및 보안옵션, 성능 및 캐싱이다.

EII와 ETL 비교
데이터웨어하우징에서 EII 데이터 연합 기능이 기존 ETL 데이터 결합 접근 방식을 대체할 수 없다는 점을 주목해야 한다. 전체적으로 연합된 데이터웨어하우스는 성능 및 데이터 일관성 문제로 인해 권장되지 않는다. 대신 EII는 특정 비즈니스 요구 사항을 충족시키기 위해 데이터웨어하우징 환경을 확장하고 개선하는데 이용되어야 한다.

EII는 특정 유형의 데이터 접근 문제 해결시 사용되는 우수한 기술이지만, 연합 데이터 이용에 따른 상쇄 효과를 이해하는 것은 중요하다. 한 가지 문제는 연합된 질의 가운데 업무 트랜잭션 시스템에 대한액세스를 요구할 수 있다는 점이다. 운영 업무 트랜잭션 시스템에 대한 복잡한 EII 질의처리는 해당시스템에서 실행되는 운영 애플리케이션의 성능에 영향을 미칠 수 있다. EII 접근방식은 복잡성이 낮고 보다 구체적인 질의를 운영시스템으로 보냄으로써 이러한 영향을 줄일 수 있다.

EII가 가지고 있는 또 다른 잠재적 문제점은 다양한 소스 시스템의 데이터를 변환하는 방법이다. 이는 데이터웨어하우스 구축을 위해 ETL 프로세스를 설계할 때 해결해야 하는 문제점과 유사하다. 소스 데이터와 타깃 데이터 간의 관계에 대한 동일한 상세 프로파일링과 분석이 필요하다. 때때로 분석 결과에 따라서 데이터 간의 관계가 너무 복잡하거나 소스 데이터의 품질이 현저히 낮아서 연합 액세스가 어렵다고 판단될 수 있다. EII는 상세한 모델링 및 분석에 대한 필요성을 줄이지는 못한다. EII 환경에서 데이터 변환의 실시간 특성으로 인해, 실제 설계과정 중에 더욱 정확한 작업을 요구할 수도 있다.

ETL과 EII 모두는 데이터웨어하우징과 데이터 통합 시 수행하는 역할이 있으며, 조직은 이러한 기술을 모두 실행해야 할 필요가 있다. ETL과 EII로 구성된 두 개의 별도 제품을 구매하는 대신, 기업은 공유 메타데이터로 설정된 단일통합 제품 형태로 두 가지 기술을 모두 지원하는 공급업체를 찾아야한다.

ETL 공급 업체들은 EII 기능을 제공하기 시작했으며, 이 기능은 ETL 제품이 스스로 제공하거나 또는 제 3자 제품의 서비스를 이용하여 제공될 수 도 있다. 일부 ETL 제품들은 이기종 데이터에 액세스 하고자 배후에서 EII 서비스를 이용한다.

제공되는 제품 및 서비스 내에서 EII 구성 요소를 다른 애플리케이션 시스템에 배치해야 하는 환경이 존재한다. 다양한 데이터 저장소에 액세스하기 위해 EII를 채택하는 기업포털 또는 대시보드 애플리케이션이 이러한 환경의 한 예다. 이런 경우, 포털 플랫폼에 전체 데이터 통합 제품을 적용할 필요가 없을 뿐만 아니라 이러한 작업에는 엄청난 비용이 소요될 수도 있다.

전사 애플리케이션 통합
EAI(전사 애플리케이션 통합)는 표준 인터페이스를 사용하여 애플리케이션 시스템들이 비즈니스 트랜잭션, 메시지 및 데이터를 상호 간에 통신하고 교환할 수 있도록 지원하면서 애플리케이션 시스템을 통합한다. 또한 EAI를 통해 애플리케이션은 애플리케이션의 위치 또는 형식을 파악하지 않고도 데이터에 투명하게 액세스 할 수 있다. EAI는 일반적으로 실시간 운영업무 트랜잭션 처리를 위해 채택된다. 또한 데이터통합에 대한 데이터 배포 접근법을 지원 한다.

EAI 산업계의 방향이 기존 및 패키지형 애플리케이션의 상호연결을 지원하는 전사 서비스버스(ESB)의 이용으로 이동하고 있으며, 또한 부분적으로 서비스지향 아키텍처(SOA)를 구성하는 웹 서비스 이용으로 전환되고 있다. 데이터 통합의 관점에서, EAI는 애플리케이션 간의 데이터를 이동시키고 ETL 프로세스와 같은 다른 데이터 통합 애플리케이션으로 실시간 이벤트 데이터를 라우팅 하는데 이용될 수 있다. 소스와 타깃 애플리케이션에 대한 액세스는 웹서비스, Microsoft .NET 인터페이스, JMS와 같은 Java 관련기능, 기존 애플리케이션 인터페이스 및 어댑터 등을 통해 이루어진다.

EAI는 하나의 애플리케이션에서 다른 애플리케이션으로 소량의 데이터를 배포하도록 설계됐다. 이러한 데이터 배포는 동기식 또는 비동기식으로 진행될 수 있지만, 대부분 단일 비즈니스 트랜잭션의 범위 내에서 항상 이루어진다. 비동기식 배포의 경우, 비즈니스 트랜잭션은 다양한 개별 트랜잭션으로 분할될 수 있다. 항공편 예약, 호텔예약, 랜트카 예약이 각각 개별적으로 진행되지만 모두 연계되어야 하는 Travelrequest (여행예약)가 그 예일 것이다.

EAI 시스템 내에서의 데이터 변환과 메타데이터 기능은 단일 트랜잭션 및 메시지 구조에 맞춰져 있으며, 이들은 일반적으로 ETL 제품이 처리하는 복잡한 데이터를 지원할 수 없다. 이러한 점을 고려하면, EAI는 ETL과 경쟁구도를 형성하지 않는다.

EAI와 ETL의 비교
공급업체마다 견해가 다르겠지만, EAI와 ETL은 상호 경쟁하는 기술 분야가 아니다. EAI와 ETL이 상호 연계되어 사용될 수 있는 여러 가지 상황이 존재한다. 즉, EAI는 ETL의 입력소스로 작용할 수 있으며 ETL은 EAI에 대한 서비스의 역할을 수행할 수 있다.

EAI의 주요 목적중 하나가 조직 내에 존재하는 다양한 범위의 애플리케이션에 대한 투명한 액세스를 제공하는 것이다. 따라서 EAI-to-ETL 인터페이스를 통해 ETL 제품은 애플리케이션 데이터에 액세스할 수 도 있다. 이와 같은 상호 연결기능은 웹서비스 또는 메시지 큐를 사용하여 구축될 수 있으며, EAI-to-ETL 인터페이스는 ETL 공급업체들이 애플리케이션 데이터 소스를 위해 포인트 투 포인트(point-to-point) 어댑터를 개발해야 하는 필요성을 없앤다. 또한 EAI가 실시간 처리에 중점을 두고 있기 때문에, EAI-to-ETL 인터페이스는 짧은 대기 시간 데이터를 요구하는 ETL 애플리케이션용 실시간 이벤트 소스로 활용될 수 도 있고, ETL 애플리케이션의 타깃으로 사용될 수 도 있다.

일부 ETL과 EAI 공급 업체들이 마케팅 및 기술 관련성을 발표하고 있으나, 이들이 제공하는 인터페이스는 아직 초보적인 수준이다. 잠재적 사용자들은 이러한 인터페이스의 기능과 성능을 신중하게 평가할 필요가 있다. 그러나 이러한 인터페이스의 품질은 지속적으로 향상될 것이라 예상된다. 현재 동적인 EAI-to-ETL 인터페이스를 이용하는 대신에, 많은 조직이 데이터파일을 작성하는 EAI 제품을 사용하고 있다. 이 데이터 파일은 나중에 애플리케이션의 입력정보가 된다.

반대 방향으로, EAI 애플리케이션은 ETL을 서비스로 이용한다. 일부 ETL 공급 업체들은 이미 개발자들이 ETL 작업을 웹서비스로 정의할 수 있도록 지원하고 있다. 이러한 ETL 웹서비스는 EAI 애플리케이션을 통해 실행될 수 있다. 이는 EAI 환경에 추가 변환 기능을 제공할 뿐만 아니라, 코드 및 메타데이터의 재사용도 지원한다.

전사데이터복제(Enterprise data replication)
일부 다른 데이터통합 기술도 살펴볼 가치가 있다. 예를 들어, 데이터복제는 데이터통합 과정에 필요한 데이터 배포 기능과 변경 데이터수집(CDC) 방안 모두를 지원한다. EDR이 ETL, EII 또는 EAI 만큼 자주 눈에 띄지 않지만, 데이터통합 프로젝트에 광범위하게 이용되고 있다. 눈에 띄지 않는 이유 중 하나는 EDR이 종종 다른 솔루션으로 패키지화되어 제공되기 때문이다.

예를 들어, 모든 주요 관계형 DBMS 공급업체들은 데이터 복제기능을 제공하고 있으며, CDC 솔루션을 제공하는 기업들은 데이터 복제기능을 채택하고 있다. EDR은 데이터통합을 위해 사용될 뿐만 아니라, 데이터백업 및 복구 그리고 데이터 미러링 및 워크로드 밸런싱 시나리오에도 이용된다.

EDR 도구들은 그 기능이 다양하다. 복제 도구들은 소스 데이터 수정사항을 캡처한 후 하나 이상의 원격 데이터베이스에 배포하기 위해 데이터베이스 트리거 및 복구로 그를 종종 채택하고 있다. 복구 로그를 사용하면 소스 애플리케이션에 미치는 영향이 줄어든다. 대부분의 경우, 배포는 갱신을 생성하는 원래 트랜잭션에서 비동기식으로 이루어진다.

그러나 일부EDR 제품은 여러 데이터베이스 간에 양방향 데이터 동기식 배포기능을 지원한다. 또한 일부 제품에서는 데이터가 데이터베이스 간 이동할 때 데이터의 변환도 가능하다. EDR과 EAI 사이의 더욱 분명한 차이점 중 하나로, 데이터 복제가 데이터베이스 간 데이터의 이동을 위해 설계된 반면, EAI는 애플리케이션 간 메시지와 트랜잭션 이동을 위해 설계된 배경이 있다. EDR은 일반적으로 EAI 보다 월등히 많은 데이터를 포함한다.

비구조적 데이터의 통합
지금까지 논의된 대부분의 데이터 통합 기술은 구조적인 데이터를 중심으로 하고 있다. 그러나 변화가 감지되고 있다. 일부 EII 공급업체들은 현재 비구조적데이터소스, 특히 텍스트기준 문서에 대한 연합(federated) 방식의 접근 기능을 제공 하고 있다. ETL 공급업체들은 비구조적데이터의 처리를 연구하고 있다.

비구조적데이터를 처리하기 위해 ETL과 EII를 채택하는 애플리케이션은 종종결과를 구조적 정보에 통합하거나 구조적정보와 연결할 필요성이 발생한다. 예를 들어, 제품판매 분석과 광고 또는 시장조사 관련제품정보를 검색하는 마케팅 애플리케이션이 있다.

비구조적데이터의 통합을 처리하는 다른 기술로, 문서, 웹 정보 및 리치미디어의 통합에 중점을 두는 전사 컨텐츠 관리(ECM)가 있다. ECM 제품은 광범위한 사용자를 위해 수많은 비구조적 데이터를 공유하고 관리하는데 집중하고 있다. 이러한 제품들은 공유데이터 저장소에 컨텐츠 관리계층을 추가하며, 이 계층에서 메타데이터 관리, 버전화, 템플리트 및 워크플로우를 제공한다.

ECM 컨텐츠 저장소는 EII 또는 ETL 애플리케이션의 데이터소스로 작동할 수 있다. 여기서의 핵심은 비구조적 데이터에 대한 액세스뿐 만 아니라, 비구조적 데이터의 구조, 컨텐츠 및 비즈니스 적 의미를 설명하는 메타데이터에 대한 액세스도 제공한다는 것이다. 이는 패키지화된 애플리케이션 데이터의 비즈니스 적 의미를 이해하는데 있어 메타데이터가 다시금 중요한 역할을 담당하게 되는 관점에서 해당데이터를 액세스하고 통합하는 기술과 관련된 이슈와 유사한다. 두 가지 경우 모두, 지원되는 소스 데이터 및 애플리케이션이 무엇인지 파악하고 소스데이터와 메타데이터의 통합 수준을 평가하는 것이 중요하다.

데이터 통합 애플리케이션
데이터 통합 전략과 인프라는 조직의 사용자 상호작용 통합전략, 비즈니스 프로세스 및 애플리케이션을 고려해야 한다. 업계의 동향 중 하나는 서비스지향 아키텍처(SOA)로 통합업무환경을 구축하는 것이다. SOA 환경에서는 비즈니스 프로세스, 애플리케이션, 데이터에 대한 처리 및 조작이 서로 간에 상호작용할 수 있는 개별 서비스로 분할된다. 일반적으로 웹 서비스기술은 공급업체에 종속되지 않는 플랫폼이며 이전 SOA 접근 방식보다 구현이 쉽기 때문에 SOA는 웹 서비스를 이용하는 경우가 많다.

마스터데이터 관리 및 고객 데이터 통합
MDM은 애플리케이션 시스템 전체에 흩어져 있는 조직의 주요 마스터데이터에 대한 일관된 뷰를 제공하고 유지 관리하는 일련의 과정이다. 이 프로세스에 관련된 데이터의 유형은 산업별 및 조직 별로 다르지만, 일반적으로 고객, 부품, 인력 및 재무가 이에 해당된다. 대부분의 MDM 애플리케이션은 현재 고객데이터처리에 집중하고 있는데, 이는 영업 및 마케팅프로세스를 지원함으로써 수익구조를 개선할 수 있기 때문이다.

여기서 고객 데이터 통합(CDI), 고객 식별 정보관리(CIM) 및 고객 마스터 데이터 관리(CDM)라는 새로운 용어가 사용될 수 있는데, CDM이 일반적이다. MDM 및 CDM은 종종 기술로서 언급되고 있으나, 실제로 이것은 비즈니스 애플리케이션이다.

MDM과 CDM 모두의 목적은 분산데이터에 대한 일관된 뷰 기능을 제공하는 것이다. 이 뷰는 기본 데이터통합 기법과 기술이 활용되어 만들어지며, 비즈니스 트랜잭션 애플리케이션 및 또는 분석 애플리케이션에서 사용될 수도 있다. 활용되는 실제기법과 기술은 데이터 대기시간과 같은 애플리케이션 요구사항과 통합 데이터의 갱신 또는 읽기전용기능의 필요성에 따라 달라진다.

MDM 및 CDM이 데이터통합 기능에 추가한 것은 주요 마스터데이터가 관련 업무영역 및 산업과 연결될 때 그 마스터데이터에 대해 비즈니스 적 의미를 부여한 점이다. 따라서 MDM 또는 CDM 솔루션의 가치는 제공되는 기술플랫폼에서 발생될 뿐만 아니라, 비즈니스 의미 계층의 역량을 통해서도 창출된다. MDM 및 CDM 데이터저 장소는 데이터웨어하우징 애플리케이션의 데이터 소스로도 활용될 수 있다. MDM 애플리케이션에서 데이터의 비즈니스적 의미를 정의하는 것은 복잡한 작업으로, 조직 전체적으로 데이터가 사용되는 방법에 대해 정확한 이해가 필요하다.

데이터 통합 전략의 개발
데이터 통합에 대한 전사적인 접근방식의 부재가 수많은 조직에서 새로운 애플리케이션을 개발하는데 장애물이 되고 있다. 이러한 문제를 해결하기 위해 조직은 중장기적인 목표를 설정하고 새로운 데이터통합 프로젝트를 지원하는 기법, 기술 및 도구를 제공하는 유연한 전사 데이터통합 아키텍처를 구축해야한다. 이 아키텍처는 새로운 애플리케이션의 요구사항이 발견될 때마다, 그리고 새로운 데이터통합기술과 제품이 도입됨에 따라 시간이 흐르면서 발전을 거듭해야 한다. 이와 같은 아키텍처는 대량 데이터를 보유한 복잡한 이기종 데이터 환경의 조직에 있어 특히 중요하다.

그러나 기업은 단순히 전사 데이터 통합 아키텍처를 구축하는 것 보다, 데이터 통합 전략을 수립하는데 더욱 집중해야 할 것이다. 또한 데이터 통합 프로젝트를 통해서 기술을 확보하고 최상의 비즈니스 사례를 만들어야 한다. 비즈니스 트랜잭션, 비즈니스 인텔리전스 및 비즈니스 협업과 같은 프로세싱이 더욱 긴밀하게 연계되어야 하기 때문에, 조직 내 정치적인 문제들을 해결하고, IT 조직을 재구성하여 데이터통합 뿐만 아니라 여타 전사통합원칙에 포함된 중론들을 하나로 모아야 할 필요성도 제기될 것이다.

많은 기업들이 데이터 통합 성능평가 센터의 서비스를 활용하여 자신의 전사 데이터통합 전략을 개발하고 있다. 이 센터의 목적은 전사적인 통합 아키텍처를 설계 및 지원하여 데이터통합 기술과 자원에 대한 공유 툴을 제공할 뿐만 아니라, 조직의 모든 비즈니스 통합 방식을 단일그룹으로 취합하는데 있다.

IBM 데이터통합 솔루션
이 장에서는 IBM의 핵심 데이터 통합 제품을 살펴본다. 이장의 목표는 제품에 대해 전문적인 안내를 제공하는 것이 아니라, 각 제품의 주요기능에 대한 개요를 제공하고 각 제품이 위에서 설명한 데이터통합기법 및 기술을 지원하는 방법을 검토하는 것이다.

IBM의 데이터통합 솔루션은 넓게는 다음의 세 가지 관련 제품 플랫폼으로 구성되어 있다.
1) DB2 Content Manager - 디지털미디어, 웹 컨텐츠 및 기업 및 작업그룹문서 등과 같은 비구조적 데이터와 반-구조적데이터의 관리 및 결합에 사용된다.
2) WebSphere Information Integrator(WebSphere II) -구조적데이터, 반-구조적데이터 및 비구조적데이터의 연합, 배포 및 검색에 사용된다.
3) WebSphere Data Integration Suite -데이터품질개선 및 구조적데이터와 반-구조적데이터의 결합과 배포에 사용된다.
<표>는 각각의 제품 플랫폼이 지원하는 기술과 각 접근법을 통해 처리되는 데이터의 유형을 요약한 것이다. 각 제품군이 제공하는 기능의 개요는 다음과 같다.

IBM DB2 Content Manager
비구조적 및 반-구조적 정보의 통합을 위한 IBM의 전사 컨텐츠 관리(ECM) 솔루션이 DB2 Content Manager에서 제공된다. 이 제품은 디지털 미디어관리, 웹 컨텐츠 관리, 문서 관리 및 기록관리 기능을 제공한다.

IBM Web Sphere Information Integrator
WebSphere Information Integrator(WebSphere II)는 종종 업계에서 연합 데이터서버로 인식 되지만, 실제로는 데이터연합 뿐만 아니라 데이터배포 및 전사검색기능도 제공한다. 여기서는 데이터 연합기능에 대해 먼저 살펴본 후 다른 데이터 통합 기능에 대해 알아본다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지