11.18
주요뉴스
뉴스홈 > 기고
[스페셜 리포트] 데이터 연합(Data federation)
WebSphere II 데이터 연합기능을 통해 애플리케이션은 다양한 구조적데이터, 반-구조적데이터 및 비구조적 데이터를 정보가 위치한 장소에 관계없이 마치 단일자원처럼 이용하고 통합할 수 있다. 이러한 연합기능은 다음과 같은 제품버전으로 제공된다.

WebSphere II Standard Edition에서는 구조적데이터와 반-구조적데이터에 대한 연합된SQL 질의 액세스가 가능하다. 지원되는 데이터 저장소에는 IBM DB2 및 Informix, Microsoft SQL Server, Oracle, Sybase 및 Teradata와 같은 관계형 시스템과 Microsoft Excel 파일, 웹서비스, WebSphere MQ 메시지 및 XML 문서와 같은 반-구조적 데이터가 있다. ODBC 또는 OLE DB 인터페이스를 제공하는 모든 시스템에도 액세스 할 수 있다. 관계형 데이터베이스, WebSphere MQ 및 웹 서비스 데이터 제공자도 갱신 할 수 있으며, 다른 모든 데이터 공급 업체는 읽기 전용으로 액세스 할 수 있다.

제공된 개발키트를 통해 추가 데이터 저장소를 지원하기 위한 사용자 정의 코드를 개발할 수 있다. 제품과 함께 제공되는 주요 데이터 연합 기능에는 원가 기반질의 최적화 및 통합캐싱 등이 있다. WebSphere II Advanced Edition은 Standard Edition과 동일한 기능과 IBM의 DB2 UDB 관계형 DBMS에 대한 무제한 라이선스를 제공한다.

WebSphere II Content Edition에서는 애플리케이션이 단일 양방향 인터페이스를 통해 여러 컨텐츠 레포지토리와 워크플로우 시스템에 액세스할 수 있다. 저장소에는 문서, 이미지, 음성, 비디오 및 기타 비구조적정보가 포함될 수도 있다. WebSphere II Content Edition에서는 이와 같이 공통점이 없는 비구조적 컨텐츠 소스를 단일시스템처럼 운영하고 볼 수 있다. 지원되는 작업에는 체크인, 체크아웃, 컨텐츠와 메타데이터의 확인 및 수정, 워크플로우 처리, 정보 마이닝 등이 있다.

지원되는 컨텐츠 저장소 공급업체에는 IBM(Content Manager, Lotus Notes, Lotus Domino), EMC(Documentum), Filenet, Open Text, Interwoven, Stellent, Hummingbird, Microsoft(Index Server)가 있다. 제공된 도구 키트를 통해 조직은 컨텐츠 커넥터를 개발 및 구성하고 추가 상업용 및 독점적 저장소에 배치할 수 있다. 키트는 Google 및 파일 시스템에 액세스하기 위한 샘플커넥터와 함께 제공된다.

WebSphere Classic Federation Edition for z/OS에서 Windows 및 UNIX 애플리케이션은SQL 문을 사용하여 메인프레임 데이터베이스 및 파일에 액세스할 수 있다. 이러한 JDBC 또는 ODBC SQL 구문이 본 제품에 의해 기본 읽기 및 쓰기 API 호출로 동적 변환된다. 액세스 가능한 데이터 저장소에는 IBM VSAM 및IMS, CA-IDMS, CA-Datacom, Software AG Adabas 및 DB2 UDB for z/OS 등이 있다. 본 제품은 물리적 데이터베이스 및 파일을 가상 관계형 테이블로 매핑 하는 사용자 정의 메타데이터에 의해 구동된다.

연합 데이터베이스 설계
IBM Rational Data Architect는 WebSphere II 데이터 연합기능과 관련된 주요 제품 중 하나다. 이 제품은 데이터 모델링 및 데이터 통합설계를 위한 통합된 도구세트를 제공하며, 메타데이터 검색, 매핑 및 분석과 같은 전통적인 데이터 모델링 기능도 겸비하고 있다. Rational Data Architect는 연합 데이터베이스의 설계 및 개발을 단순화할 뿐만 아니라 전통적인 데이터 모델링 작업에도 적합하다. 이를 통해 설계자는 논리적 데이터 모델에 대한 전사 뷰를 정의 및 유지 관리하고, 기존 데이터베이스들의 관계를 검색하며, 타깃 연합스키마를 작성할 수 있다.

데이터 배포(Data propagation)
WebSphere II의 데이터 배포 기능은 WebSphere II Replication Edition과 WebSphere II Event Publisher Edition을 통해 제공된다. 두 가지 버전은 모두 WebSphere II Standard Edition과 함께 제공된다.

WebSphere II Replication Edition은 다중 플랫폼 및 다양한 데이터베이스 환경에서 정보를 배포하고 동기화한다. 관계 형 데이터베이스에서, 또는 관계 형 데이터베이스로 데이터를 복제하기 위한 두 가지 옵션을 제공한다.

SQL 복제- 타깃시스템으로 확정된 소스변경사항을 복제하기 전에 관계형 테이블에서 해당 변경사항을 스테이징 한다. 지원되는 소스 및 타깃 데이터베이스 시스템은 DB2, Informix, Microsoft SQL Server, Oracle 및 Sybase이다. Teradata도 타깃 시스템으로 지원된다.

큐 복제-확정된 소스 변경사항은 IBM WebSphere MQ 메시지 큐를 통해 타깃시스템으로 전송되는 메시지로 작성된다. 큐 복제는 트랜잭션을 DB2 시스템 간에 이동하거나, DB2에서Oracle, Microsoft SQL Server, Informix 및 Sybase와 같은 타깃으로 옮기는 고속의 신기술이다. 제 3자 관계 형 시스템으로의 복제는 WebSphere Information Integrator의 연합서버기능을 활용하여 수행된다.

SQL 복제의 경우, 소스 데이터 변경 사항은 로그 기반 또는 데이터베이스 트리거 메커니즘을 사용하여 캡처되어 관계 형 스테이징 테이블에 삽입된다. 적용 프로세스는 스테이징 테이블로부터 변경사항을 비동기식으로 읽고 타깃 시스템에 대한 갱신을 처리한다. 타깃 시스템은 일반적으로 데이터웨어하우스와 같은 읽기전용 데이터베이스이다. 데이터이동은 연속적으로, 이벤트 위주로, 또는 정해진 일정에 따라 자동으로 수행되거나 주기적으로 수행될 수 있다. 복제 프로세스가 진행되는 중에 데이터를 변환하기 위해서 SQL 문이나 내장 프로시저를 호출할 수 있다.

큐 복제는 SQL 복제를 보완하지만 대체하는 것은 아니다. 이는 소스데이터 변경이 일어나는 시간과 타깃이 갱신될 때까지의 시차를 최소화해야 온디맨드 애플리케이션에 적합하다. SQL 복제와 달리, 큐 복제는 양방향 복제기능도 제공한다.

큐 복제의 경우, 캡처 프로그램은 소스 시스템에서 실행되는데 변경된 소스 데이터에 대한 DB2 복구 로그를 읽어서 WebSphere MQ 큐에 작성한다. 적용엔진은 트랜잭션 종속성을 파악하고, 병렬처리를 극대화하고 대기시간을 최소화하는 것을 목표로 타깃 시스템에서 트랜잭션을 재실행한다. 복제된 데이터를 타깃시스템에 적용하기 전에 이 데이터를 변환하기 위해 내장 프로시저를 활용할 수 있다.

WebSphere II Event Publisher Edition에서도 데이터 배포 기능을 제공한다. DB2 UDB 복구 로그에 기록된 데이터베이스 변경 이력을 캡처하고 XML 형식으로 변환해서 다른 애플리케이션에서 사용할 수 있도록 WebSphere MQ를 통해서 전송하게 된다. WebSphere MQ와 통합되거나, Java Message Service(JMS)를 지원하는 애플리케이션 또는 서비스는 해당데이터 변경사항을 비동기적으로 수신한다. 이 기능은 정보를 정보브로커와 웹 애플리케이션에 제공하기 위해 사용되거나, 또는 소스데이터의 갱신, 삽입 또는 삭제에 대한 처리와 프로세스를 트리거하기 위해 사용될 수 있다.

WebSphere II Classic Event Publisher는 데이터베이스 변경사항을 캡처하는 기능을 확장하여 CA-IDMS, IBM CICS VSAM 및IMS 데이터소스를 포함한다.

전사검색
전사검색은 WebSphere II OmniFind Edition에서 제공하는 WebSphere II의 새로운 기능이다. 이 검색기능은 파일시스템, 컨텐츠 보관소, 데이터베이스, 협업시스템 및 애플리케이션에 저장된 전사정보를 찾기 위해 사용된다. 컨텐츠 크롤링, 파싱 및 토큰화, 분류, 주석, 색인화 및 검색기능을 수행한다. WebSphere IIContent Edition과 DB2 Content Manager를 지원할 뿐만 아니라, OmniFind는 웹소스, 뉴스그룹, Microsoft Exchange 공용폴더 및 DB2, Informix 및 Oracle과 같은 관계 형 데이터베이스 제품을 포함한 기타 다양한 컨텐츠 소스에 대한 액세스를 가능하게 한다. 이 제품은 Google Desktop Search for Enterprise 인터페이스에 접속하고 작동하는 검색 애플리케이션도 제공한다.

OmniFind 검색 기능은 WebSphere II OmniFind for WebSphere Portal을 사용하는 IBM WebSphere Portal에 통합될 수 있으며, 이를 통해 조직은 기존의 포털분류법을 컨텐츠 탐색 및 분류를 위해 이용할 수 있다. 전사 검색 기능 외에, WebSphere II OmniFind Edition은 텍스트 파일에서 개념, 사실 및 관계를 추출하기 위해 사용할 수 있는 텍스트 분석기능도 제공한다. 제 3자 및 외부 애플리케이션은 IBM UIMA(Unstructured Information Management Architecture; 비구조적 정보관리 아키텍처) 인터페이스를 통해 텍스트 분석엔진에 액세스할 수 있다.

UIMA의 정의
UIMA는 광범위한 텍스트 분석기능의 생성, 검색, 구성 및 배치를 지원하고 검색 엔진 및 데이터베이스와 같은 정보 서비스에 연결할 수 있는 기능을 지원하는 소프트웨어 프레임워크다. UIMA 프레임워크는 다양한 공급업체의 텍스트 분석구성 요소들이 함께 작동할 수 있도록 런 타임 환경을 제공한다. IBM은 UIMA를 오픈소스 커뮤니티에 제공하기 위한 제안을 하고 있다.

텍스트 분석은 문서, 주석 및 메모필드, 문제보고, 전자메일, 웹사이트 및 기타 텍스트 기반 정보소스를 분석하기 위해 사용된다. 예를 들어, 추출된 정보는 검색 결과의 품질을 향상시키거나, 텍스트 분석 기능을 기존의 비즈니스 인텔리전스 및 데이터웨어하우징 애플리케이션에 추가하기 위해 사용될 수 있다.

IBM WebSphere Data Integration Suite
WebSphere Data Integration Suite는 구조적 데이터와 반-구조적데이터를 통합하고 데이터품질을 관리하기 위한 데이터통합 플랫폼을 제공한다. 이 제품군은 IBM이 Ascential Software 인수를 통해 제공되는 성과다. 2006년, IBM은 중요한 설계 및 기능적 변경 사항을 도입하고 있으며, 이 제품군을 IBM의 다른 정보통합 제품과 통합하기 위한 기초를 작성하고 있다.

Hawk라는 코드명의 2006년 출시 판에는 중요한 두 가지 인프라 관련 요소가 포함된다. 첫 번째는 데이터통합 제품군의 제품들이 사용하는 모든 데이터를 조정하기 위한 새로운 메타데이터기능이다. 두 번째는 궁극적으로 소프트웨어의 용이성증대를 위해 전체 제품 포트폴리오에 걸쳐 사용되는 단순화된 새로운 사용자 인터페이스를 위한 기초다.

개선된 아키텍처의 목표는 공유 메타데이터저장소, 양 방향 메타데이터 상호교환을 포함한 메타데이터 서비스, J2EE 기반 플랫폼 서비스 및 통합병렬 처리 엔진을 제공하는 데이터 통합 플랫폼을 공급하는 것이다. 이 아키텍처는 <그림 3>을 참고하면 된다. WebSphere Data Integration Suite를 구성하는 제품들은 다음과 같다.

WebSphere DataStage는 수많은 소스 데이터를 수집 및 변환하고 통합하는 확장 가능한 데이터 통합 엔진을 제공한다. 이 제품은 대부분의 데이터베이스 제품과 일반 파일들, PeopleSoft, SAP 및 Siebel과 같은 패키지 형 애플리케이션, XML 데이터 및 웹서비스를 비롯하여 광범위한 소스 및 타깃시스템을 지원한다. WebSphere DataStage가 수집하는 데이터는 주기적으로, 또는 계획된 일정에 따라 수신되거나 근접 실시간으로(near-real-time) 전송될 수 있다. 근접 실시간 수집기능은 Java Messaging Service(JMS) 및 WebSphere MQ 메시지 큐에서 메시지를 캡처한다.

WebSphere DataStage SOA Edition은 WebSphere DataStage에서 개발된 통합 로직을 공유 서비스로 배포하기 위한 SOA(서비스 지향 아키텍처)를 제공한다. 이를 통해 기업은 공유 디렉토리에 등록되어 여러 프로젝트 간에 재사용할 수 있는 데이터통합 서비스 라이브러리를 개발할 수 있다. 이러한 서비스는 웹서비스, JMS 또는 Enterprise Java Bean과 같은 표준을 사용하는 모든 프로세스나 애플리케이션에서 호출할 수 있다.

WebSphere DataStage MVS Edition은 메인프레임 데이터에 대한 기본 데이터통합 기능을 제공한다. 이것은 레거시데이터와 다른 전사데이터와의 통합을 지원한다. 또한 일반파일, VSAM 파일, DB2, IMS 및 Teradata 데이터베이스를 처리하기 위한 COBOL 애플리케이션과 사용자정의 JCL 스크립트를 생성한다.

WebSphere DataStage for z/OS는IBM z/OS 서버에서 Unix System Services(USS)를 지원한다. 이 제품은 DataStage Designer에서 DataStage Job을 생성한다는 점에서 DataStage MVS Edition과 유사한다. 일단 생성된 DataStage 작업은 USS 환경으로 전달되어 실행된다.

WebSphere Metadata Services는 WebSphere Data Integration Suite의 구성 요소로서 전사 메타데이터 디렉토리를 포함하고, 선진 데이터모델링, 데이터품질, ETL, 데이터프로파일링 및 비즈니스 인텔리전스 도구 간의 양 방향 메타 데이터 교환을 지원한다. 이 구성 요소의 웹 기반 인터페이스는 IT 전문가 및 비즈니스 사용자들에게 저장소에 저장 및 관리되는 메타데이터를 이용하기 위한 보고 및 검색 기능을 제공한다. 이 인터페이스는 사용자에게 저장소 메타데이터에 대한 그래픽 뷰 기능을 제공하고 데이터 변경에 대한 데이터 관계 보고 및 경향분석을 모두 포함한다.

WebSphere Business Glossary는 비즈니스 사용자가 비즈니스분류(taxonomy) 또는 어휘(vocabulary)의 작성 및 관리를 위해 사용할 수 있는 새로운 웹 기반 도구다. 이 도구는 경영 데이터의 의미, 종속성, 용법, 품질 및 소유자에 대해 기록하고 협업을 위해 사용할 수 있다.

WebSphere Information Analyzer는 새로운 데이터 컨텐츠 프로파일링, 품질 모니터링 및 감사 도구다. 이 제품은 소스 데이터 값 과열 / 테이블 관계를 확인 및 분석하기 위해 사용된다. 또한 소스에서 타깃 필드로의 매핑을 용이하게 하며 타깃 데이터베이스 정의를 작성할 뿐만 아니라 분석가가 예외 데이터를 자세히 조사할 수 있도록 지원하며, 분석가가 비즈니스 명칭, 설명 및 기타 속성을 테이블과 열에 추가할 수 있는 기능을 제공한다. 또한 통합된 데이터품질 방법론과 사용자 정의 가능한 데이터품질 대시보드도 포함한다.

WebSphere QualityStage는 데이터품질 개선도구로, 분석가들에게 자동화된 데이터품질 검증 및 대조 작업을 정의하기 위한 포인트-앤-클릭 방식의 인터페이스를 제공한다. 이러한 작업은 데이터 품질 작업을 위해 사용자 정의 할 수 있는 미리 만들어진 개체와 테이블을 활용할 수 있다. 여기에는 전화번호, 전자 메일주소, 생년월일 설명항목과 같은 텍스트 기반 데이터를 표준화할 수 있는 기능이 포함된다.
또한 품질 보증프로그램을 지원하기 위한 평가 기준 보고서를 생성한다. WebSphere QualityStage 처리 작업은 WebSphere DataStage 제품군의 SOA 버전이나 독립형 C 또는 Java 애플리케이션을 사용하여 실시간 프로세스에 통합할 수 있다.

마스터데이터 관리
본 문서의 앞부분에서 설명한 바와 같이, MDM(마스터데이터 관리)는 고객, 제품, 직원, 금융 등과 같은 비즈니스 실체를 위해 전사적 마스터 참조 데이터를 통합하고 관리하는 애플리케이션들로 구성되어 있다. 이 분야의 공급업체 솔루션들은 현재 광범위한 기능을 포함하고 있지만, 업계는 운영 및 분석처리용으로 조직의 마스터 데이터를 관리하기 위한 전체 MDM 환경을 구축하는 방향으로 나아가고 있다. IBM MDM 전략 및 개발계획은 이러한 업계의 방향과 일치한다.
이 글에서 살펴본 데이터 통합 제품들은 마스터데이터 통합 아키텍처의 백본을 형성한다. MDM 애플리케이션이 이 아키텍처를 기반으로 구축될 수 있다.

예를 들어 WebSphere Product Center는 IBM 데이터통합 제품군을 사용하여 제품, 위치, 협력업체, 조직 및 거래조건에 대한 정보를 관리하고 연결하기 위한 저장소를 기업에 제공한다. 또한 본 제품을 통해 이러한 정보를 기존 전사 시스템과 외부 거래협력업체를 타깃으로 배포하고 동기화할 수 있다. IBM은 다른 MDM 비즈니스 영역을 위해 유사한 기능을 제공할 계획이다.

IBM은 최근 MDM 솔루션 확장의 일환으로 뱅킹, 보험, 소매업 및 정보통신분야에서 고객 데이터통합 미들웨어를 제공하던 선두기업인 DWL을 인수한 후 WebSphere Customer Center를 출시했다. WebSphere Customer Center는 여러 데이터소스를 종합하여 잠재 고객 및 고객에 대한 통합된 뷰를 제공한다. 이 제품은 통합된 고객 정보에 대한 실시간 뷰와 일련의 비즈니스 서비스를 제공하여 고객정보를 유지관리하고 소스 시스템으로 배포한다. WebSphere Customer Center에는 고객 데이터통합을 처리하기 위해 약 300개의 내장된 Java 비즈니스 서비스를 제공하는 J2EE 서비스 지향 허브 아키텍처가 포함되어 있다.

요소들의 연결
이러한 제품군을 조합하고 활용하여 전체 데이터 통합 환경을 지원하는 방법은 여러 가지가 있다. 일부 예를 다음과 같이 간단히 설명한다.
DB2 Content Manager에서 관리되는 비구조적 및 반-구조적정보는 WebSphere II OmniFind를 사용하여 색인화하고 검색할 수 있다.
WebSphere Information Integrator는 DB2 Content Manager 정보에 대한 연합 형태의 뷰를 제공할 수 있다. 이 연합 형태의 뷰는 WebSphere Data Integration Suite가 비구조적 및 반-구조적 정보에 액세스하기 위해 사용할 수 있다.
조직 내의 여러 데이터관리자가 관리하는 구조적 및 반-구조적 데이터는 WebSphere Information Integrator를 사용하여 연합형태의 뷰 형태로 WebSphere Data Integration Suite에 표시할 수 있다.
WebSphere Information Integrator는 WebSphere MQ를 통해 데이터변경사항을 캡처하고 WebSphere Data Integration Suite로 배포하기 위해 사용할 수 있다.
WebSphere Data Integration Suite의 데이터 변환 라이브러리를 WebSphere Information Integrator에서 호출할 수 있다.
웹 서비스지원을 통해 본 문서에서 소개된 IBM 제품들이 제공하는 수많은 기능이 조직의서비스지향아키텍처(SOA)에 접목될 수 있다.

메타데이터 고려사항
복잡한 데이터 환경의 문제는 데이터의 통합뿐만 아니라 메타데이터의 관리 및 통합에도 존재한다. 많은 노력에도 불구하고, 이 문제를 완전히 해결한 조직이나 업체는 아직 없다. 오늘날 대부분의 접근방식은 시스템들 간에 데이터를 복제함으로써 메타데이터통합을 지원한다.

WebSphere Data Integration Suite의 Hawk 릴리스는 Suite 메타데이터를 관리하기 위한 단일 저장소를 제공한다. 메타데이터 교환 메커니즘으로 다른 제품 및 애플리케이션과 저장소메타데이터를 교환할 수 있다. 먼저 IBM이 WebSphere Information Integrator 및 Rational Data Architect와 메타데이터를 공유하기 위해 이 메커니즘이 사용될 것이다. IBM의 방향은 자사의 정보통합 제품 플랫폼을 위한 단일 메타데이터 관리 환경을 제공하는 것이다.

이제 대부분의 조직들은 데이터통합 프로젝트를 지원하기 위해 전사적 아키텍처를 개발하고 배치하는 방향으로 나아가고 있다. 이 아키텍처는 본 문서의 시작 부분에 있는 <그림 1>에 나와 있다. IBM DB2 Content Manager, WebSphere Information Integrator 및 WebSphere Data Integration Suite 제품 플랫폼들은 서로 결합하여 이 아키텍처의 주요 구성요소를 모두지원하며, 이를 통해 IBM은 전사를 대상으로 정보 통합 소프트웨어를 공급하는 선두 기업 중 하나로서 역량을 강화하고 있다.

여백
컴퓨터월드 추천기업 솔루션
인기기사 순위
IT Daily 추천기업 솔루션
(우)08503 서울특별시 금천구 가산디지털1로 181 (가산 W CENTER) 1713~1715호
TEL: 02-2039-6160  FAX: 02-2039-6163   사업자등록번호:106-86-40304
개인정보/청소년보호책임자:김선오  등록번호:서울 아 00418  등록일자:2007.08  발행인:김용석  편집인:김선오