BI 산업 솔루션 위한 통합 플랫폼

SAS의 데이터통합 솔루션은 엔터프라이즈 인텔리전스 플랫폼(EIP) 중의 하나로 SAS의 비즈니스 영역의 솔루션과 산업 솔루션 구현을 위한 기술적 기반이 된다.

SAS의 EIP 제품 구성
·데이터 통합 : 데이터 품질, ETL, 메타데이타 관리 + RTE(실시간)
·인텔리전스 스토리지 : 분석 전용의 데이터 저장 장소
·BI 툴 : OLAP, 리포팅 쿼리
·분석 : 데이터 마이닝, 통계 분석으로 구성되어 있다.

이 중 데이터통합 시장은 SAS가 강화하는 올해의 주력 사업 분야다. 특히 SAS의 데이터 통합은 단일 데이터 통합서버 제품 판매뿐만 아니라 궁극적인 산업 솔루션을 위한 통합 플랫폼으로도 제공하고 있어 경쟁업체들과의 차별을 두고 있다.

SAS 데이터통합 제품 배경
-1995, 1996년 이래 메인프레임의 데이터의 완벽한 컨버전 능력을 시장에서 검증받아 클라이언트 서버 기반의 Warehouse Administrator(WA)가 2003년 초까지 시장 점유율 1위를 유지하며 국내에서 영업활동을 펼쳤다.

-2004년 3월 Java기반의 Data Integration Server발표하면서 SAS의 패러다임에 변화가 왔다. 2003년 이후 저가 공세의 경쟁 벤더가 점유율을 높여왔으며, SAS는 신제품 출시를 위한 공백 기간이 있었으며, 신규 고객 확보와 시장 선점을 유지하기 위한 마케팅 전략을 꾸준히 펼치고 있다.

-현재 Data Integration 서버의 경우 3.2버전에서 그리드 컴퓨팅과 SOA, MOM(Message Oriented Middleware)등 통합기능을 강화시킨 DI 3.3을 조만간 출시할 예정이다.

데이터 통합 요구에 대한 구축사례
과거 GS홈쇼핑, 인터파크, 한화증권 사례를 들 수 있으며 풍산, 서울대 분당병원, 씨티은행, 롯데닷컴, LG전자, 기업은행, SK텔레콤 등의 사례 및 산업별 주요 구축사례로 포스코, 현대자동차, 금융쪽의 바젤II솔루션 구축과 관련하여 국민은행, 부산은행, 우리은행, 유통의 롯데닷컴, 현대홈쇼핑을 들 수 있다.

경쟁사와 대비되는 SAS 데이터 통합 서버의 차이점
-SAS의 데이터통합 서버는 단일 데이터 통합서버 제품 판매뿐만 아니라 BI의 산업 솔루션을 위한 통합 플랫폼이다.
-ETL/데이터 품질이 메타데이타로 통일이 됨 : 데이터 통합에 있어서 메타데이타 관리의 용이성이 매우 중요한 부분인데 SAS는 이 부분이 가장 유효하다 : 비즈니스오브젝트의 경우는 OLAP 벤더에서 시작하여 최근 데이터품질시장에 들어온 후발업체이다. IBM이나 인포메티카 역시 데이터품질 업체 합병을 통한 시장 진입의 단계에 있으므로 검증된 단계라고 보기 어렵다는 게 SAS의 시각이다
-대용량 핸들링이 가능한 검증된 유일한 제품 : 데이터 분석을 위해서는 데이터 처리능력이 있어야 한다, SAS의 Scalable Performance Data management 기술은 빠른 분석을 위한 대용량 데이터 처리기술로 검증되었다.

데이터통합 시장 전망
아직까지는 국내의 데이터 품질(Data quality)요구 수준은 데이터 클렌징 정도에 머물러 있으나 최근 많은 기업들이 진정한 데이터 품질에 대한 요구가 생기고 있다. 특히 오래 전에 DW를 구축한 업체들이 기존 DW를 보완하여 새로운 DW를 구축 하려는 업체들과 제2 금융권에서의 바젤 솔루션 및 제조업체의 CPM 솔루션 등 DW를 활용하는 BI 솔루션들의 수요가 많이 예상되며, 또한 공공부문 특성상 일반기업의 붐 업 이후 1~2년 뒤에 공공기관들의 수요가 뒤따른다는 점을 감안할 때, 데이터 통합시장은 앞으로도 꾸준한 200~300억 이상의 수요가 있을 것으로 본다.

데이터통합 분야 사업전략
업계에서 가장 먼저 BI 플랫폼에 단일 통합 메타데이터 리포지토리를 채택한 SAS EIP 제품을 바탕으로, 새로운 IT 패러다임에 적극적인 CIO나 IT Manager를 중심으로 지금까지의 EDW 플랫폼에 대한 문제점을 부각시켜, 분석영역에서 독보적인 장점과, 타 데이터 통합 벤더와 달리 BI영역의 대부분 솔루션을 보유한 점을 부각시켜 접근할 것이다.

SAS 데이터통합 제품군 소개
SAS Enterprise Data Integration Server
SAS 데이터 통합 솔루션은 기업의 전사적 데이터 통합을 위한 솔루션으로서 기업의 분산된 데이터를 추출하여 품질을 향상시키기 위한 유효성 검증 및 고급 분석용 파생 데이터를 만들기 위한 가공, 적재과정을 GUI를 통하여 손쉽게 구현할 수 있도록 지원하는 솔루션이다.

SAS 엔터프라이즈 데이터 통합 서버는 다양한 액세스 엔진과 멀티쓰레드 변환 엔진 그리고 통합 메타 데이터 관리 및 그래픽 인터페이스를 이용한 개발환경을 제공함으로써 데이터 통합을 위한 모든 기능을 제공한다. 사용하기 쉬운 메타데이터 관리 툴, 완벽한 타 RDBMS와 호환 지원, 광범위한 사전 정의된 변환기, RDBMS 및 ERP, EAI 시스템에 대하여 직접적인 액세스 엔진을 제공함으로써 데이터 통합 프로세스를 더욱 신속하고 효율적으로 개발할 수 있다. 또한 데이터 표준 및 맞춤형 데이터 정제 기능을 사용해 품질 및 일관성 문제를 해결하고 지속적인 데이터 관리 비용을 절감함으로써 총 소요비용을 줄여준다.

단일 플랫폼 접근 방식과 데이터 가공에 탁월한 변환 언어를 통해 멀티벤더 환경에서 효과적인 데이터 전달을 보장한다. 데이터가 원시 형태로 상주하고 있는 플랫폼 상에서 데이터를 추출, 변환 및 로드 할 수 있기 때문에 네트워크 트래픽, 데이터 복제 및 하드웨어 요구 사항을 최소화 할 수 있다.

핵심기능
1. 대용량 데이터 처리를 위한 멀티 쓰레드 엔진 및 로드 유틸리티
SAS9 엔진의 멀티 쓰레드 커널과 병렬 프로세싱 기능을 통하여 서버의 자원을 효율적으로 활용하고 최소한의 시간에 대용량의 데이터를 처리할 수 있는 구조로 되어있다. 또한, SAS의 'Bulk Load' 기능을 통해 RDBMS에 빠르게 적재할 수 있을 뿐만 아니라 RDBMS의 'Bulk Load Utility'를 활용하여 적재할 수 있는 기능을 제공한다.

2. CDC 기능을 통한 초기적재 변경적재
CDC(Changed data capture) 기능을 통하여 일일 변경분 데이터를 추출함은 물론이고 초기 적재 작업 시 적당량의 기간 식 데이터를 쪼개 적재할 수 있다. 따라서 초기적재용 ETL 프로그램 및 변경 적재용 프로그램을 만들 필요가 없다. CDC 기한은 Mi01~Mi99(분) H01~H99(시간) D01~HD99(일) W01~W99(주) M01~M99(월) Y01~Y99(년) 의 코드화된 기한을 가지고 있으며 각각의 Term이 실행시간을 기준으로 하여 상대적인 개념으로 작용된다.

3. 1:1, 1:N, N:N 매핑지원을 통한 다양한 비즈니스 로직 구현가능
Java 기반의 유저 인터페이스(UI)를 이용하여 모든 비즈니스 로직을 드래그 & 드롭, 포인트 & 클릭 방식으로 구현하였으며, 보다 복잡한 로직을 위하여 사용자 작성코드를 사용할 수 있도록 되어있다. 뿐만 아니라 소스 타깃간의 매핑 시 1:1, 1:N, N:N 매핑을 지원할 수 있도록 되어있다.

4. 1,000개 이상의 빌트-인 된 함수를 통한 고급 분석용 파생데이터 생성능력
SAS가 가지고 있는 다양한 통계함수를 통하여 ETL 가공단계에서 사용할 수 있도록 설계되어 있으므로 다양한 분석용 파생데이터를 생성할 수 있다.

5. 데이터 유효성 검사기를 통한 데이터 품질관리
데이터 유효성 검사 컴포넌트를 통해 특정 코드 조건에 대한 클렌징 작업, 중복데이터 처리 및 분실데이터(NullSpace) 처리에 대한 조절기능이 있으며 이와 같은 예외사항이 발생하였을 경우에는 담당자에게 경보를 통해 알려준다.

6. 메타데이터 통합기능 및 권한관리 제공
OMG의 CWM(Common Warehouse Metadata model) 방식을 따르는 단일 통합 메타데이터를 사용하고 SAS솔루션에 대한 모든 메타데이터를 통합 관리한다. 또한 CWM 방식을 따르는 타 툴에 대한 메타데이터를 가져올 수 있는 기능과 자체 메타데이터를 XML 형식으로 전환할 수 있는 기능을 제공한다. 그리고 전사차원의 권한관리 및 개발자의 그룹별 자원 권한관리를 할 수 있다.

7. 소스 타깃 영향도 분석
수많은 소스 테이블 및 타깃 테이블에 대하여 작성된 ETL 작업에 대하여 특정 소스테이블이나 타깃 테이블이 수정될 경우 영향도를 산정해 볼 수 있는 분석기능으로써 다양한 분석기능을 제공하며, 해당 ETL 업무에 쉽게 접근할 수 있도록 해준다.

8. LSF(Load Sharing Facility)스케줄러를 활용한 고급 스케줄링 기능
전문 스케줄러인 Platform사의 LSF 스케줄러를 SAS 데이터 통합 스튜디오(SAS Data Integration Studio)라는 제품과 통합시킨 것으로 전문스케줄러의 다양한 기능을 활용할 수 있다. 각종 종속관계(작업, 시간, 파일) 정의가 자유롭고 발생 가능한 대부분의 트리거를 제공함으로써 편리한 스케줄링을 지원한다. 뿐만 아니라 서버간의 클러스터링을 통해 로드 밸런싱 할 수 있고 동일 서버 내에서도 시스템 자원에 따라 작업 실행시간을 최적으로 조절할 수 있는 기능이 있다. 또한, 작업의 실행상황을 실시간으로 조회가 가능하며 작업 실패시 담당자에게 경보를 통해 알려주는 기능을 가지고 있다.

9. 메타 데이터 체크인/체크아웃 기능을 통한 변경관리(버전관리)
개발 완료 후 가동에 들어간 상태에서 가동계 메타와 개발계 메타 환경을 지원하는 기능으로써 가동계 메타에 영향을 미치지 않는 상태로 유지보수 작업을 할 수 있는 기능으로 메타데이터 리포지토리를 변경하여 관리할 수 있다.

10. 작업 소스코드를 통한 추출, 전송, 적재 튜닝기능 제공
ETL 툴로 개발완료 후 속도증대나 데이터 정합성을 위한 검증 작업을 할 경우 사용자 정의코드를 통하여 직접 튜닝을 할 수 있고, 데이터 통합 스튜디어에서 자동 생성된 ETL 소스코드를 수정할 수 있는 스크립트 형식으로 제공되기 때문에 특정부분을 튜닝할 수 있게 지원해준다.

도입효과
1. BI 영역의 기본 인프라
여러 곳에 산재 되어있는 데이터를 통합하는데 있어 서로 다른 데이터 형태의 인터페이스 문제를 해결할 수 있고, 기존 데이터에서 비즈니스 문제를 해결하기 위한 분석 작업시 필요한 수많은 데이터 가공작업에 대해 탁월한 가공능력을 제공하여 분석하기 편리한 형태의 가치있는 데이터를 제공받을 수 있다.



▲ Enterprise ETL Server 아키텍처



2. ETL 작업 시 개발 및 유지보수 공수 절감
BI 영역 프로젝트시 ETL 영역의 공수가 60~70%를 차지하는데 ETL 툴의 사용 편의성 및 수많은 기능들을 통하여 ETL 개발 및 유지보수 공수를 30~40% 줄일 수 있다

3. 데이터 품질의 데이터 정보, 데이터 인텔리전스화
기존 운영계에서 가지고 있는 정제되지 않은 데이터들에 대하여 ETL 툴의 클렌징 기능을 이용하여 품질을 보장받을 수 있고 SAS의 수많은 통계함수를 이용하여 분석용 파생데이터를 생성하여 분석을 용이하게 하고 이를 통하여 비즈니스 플랜을 해결 하는데 인텔리전스를 얻을 수 있다

4. BI영역의 모든 작업에 대한 자동화 및 모니터링이 가능
EDW를 운영하기 위하여 수많은 작업들이 서로 연관관계를 가지고 매일 배치 작업이 실행되어야 하는데 이 모든 작업들을 자동화 및 모니터링 할 수 있고 이상현상이 발생했을 때 즉각적인 경보 기능을 통하여 조치할 수 있으므로 안정적인 BI 영역을 운영할 수 있다



▲ Java 기반의 UI를 통해 드래그&드롭과 포인트&클릭 방식을 통해 비즈니스 로직을 쉽게 작성할 수 있도록 지원한다.





▲ 테이블 조인 후 결과치에 대해 필터링을 줄 수 있는 부분으로 시각적으로 표현이 되어 유지보수에 용이하다.





▲ 테이블 추출작업시 데이터의 유효성을 검사하는 기능으로 특정컬럼에 대해 표준 코드값과 비교해 오류데이터를 찾아내서 여러 가지 이벤트로 처리하도록 되어 있다. 뿐만 아니라 데이터값 내에 결측값(Null, Space) 처리방법이나 중복값이 발생했을 때 처리 프로세스를 정해 데이터 품질을 보장할 수 있는 기능이다.





▲ 프로젝트 완료 후, 실제 운영환경에서 새로운 요구사항에 대해 ETL 로직을 수정하고자 할 경우 운영계 메타에 직접적으로 수정을 가할 경우 배치 작업에 치명적인 영향을 미칠 수 있다. 따라서 가동중인 메타로부터 해당작업을 체크하여 독립적인 개발계 메타환경에서 수정작업 및 테스트를 한 후 가동계 메타에 적용하는 방식으로 운영중인 가동계 메타에 피해를 최소화하는 방안으로 유지보수 할 수 있도록 지원하는 기능으로 이러한 모든 절차에 대한 변경관리를 한다.





▲ SAS의 스케줄러인 LSF(Load Sharing Facility) 스케줄러는 복수 서버간의 클러스터링을 하여 서버간 로드 밸런싱은 물론 동일 서버 내에서도 여러 업무를 동시에 실행시킬 경우 자체 자원분석 알고리즘을 통하여 주어진 'Duration idle time' 내에서 최적의 시각에 작업을 실행시킬 수 있는 기능을 가지고 있다. 뿐만 아니라 실시간으로 서버의 스케줄링 현황을 7가지 색(파랑:성공, 빨강:실패, 녹색:진행중, 노랑:대기중,...)으로 표현하여 모니터링이 쉽게 되어 있으며, 작업 실패 시 담당자에게 경보를 제공해 주는 기능을 가지고 있다.




Enterprise ETL Server 아키텍처
Enterprise ETL Server는 N-Tier구조가 가능하도록 설계되어 있다. 메타데이터를 관장하는 OMS(Open Metadata Server)서버와 N개의 애플리케이션 서버를 구성할 수 있는 SAS Application Server, N개의 Server를 Clustering하여 스케줄링할 수 있는 LSF 스케줄러 서버, 이들을 Admin 권한으로 관리하는 SAS Management Console과 개발자가 사용하는 ETL Studio Client로 구성되어 있다.

▲ SAS Data Quality
SAS의 Text 마이닝 기법에서 사용되는 알고리즘과 DataFlux란 제품으로 구성된 SAS Data Quality는 데이터 Profiling, Matching, Standardization이란 프로세스를 통하여 데이터의 Quality를 높일 수 있는 제품이다.
간단한 주소 및 한글 문자 배열에 대하여, 유사한 데이터 편성을 찾아내어 가장 근접한 데이터 값으로 치환 시켜주는 기능뿐만 아니라, 수년간 데이터에 대한 논리적 오류를 찾아내어 데이터의 질을 높여 줄 수 있는 제품이다.

▲ SAS Open Metadata Server
SAS Metadata 프레임웍은 데이터 소스나 컨텐츠, 비즈니스 규칙과 접근 권한에 관한 정보 등을 포함하는 메타데이터를 전체 IVC(Intelligence Value Chain) 내에서 통합, 공유하고 중앙에서 관리하고 활용할 수 있게 해준다.

또한 단일 통합 메타데이터 리포지토리를 사용함으로써, 애플리케이션들 간의 상호 운영성(메타데이터 재사용)을 높여 총소유비용(TCO)을 줄이고 기업 정보의 버전이 하나로 통일되게 해준다.
따라서 기업이 메타데이터의 이점을 쉽고 일관되게 활용할 수 있어 소스, 타깃 데이터와 그 소스 및 포맷을 어떻게 사용하는지 그리고 그것이 시스템에 들어가서 어떤 변화를 겪는지에 대한 귀중한 비즈니스 룰 및 기술 정보에 대한 메타데이터들을 통합적으로 관리해준다.

▲ SAS Metadata Explorer
SAS OPEN Metadata Server의 리포지토리에 들어있는 메타데이터 정보를 웹 애플리케이션을 통해 탐색해 볼 수 있는 툴로서, 모든 메타데이터에 대한 생성 수정정보 및 테크니컬 메타데이터 및 메타데이터 간 상관분석을 가능하게 하는 'Visualizer'가 제공되고 있다.

데이터통합 구축 사례 / GS 홈쇼핑
BI 위한 인프라 확보, 개발공수 및 배치시간 단축
기존 자체 개발(Pro*C)한 DW를 가지고 있는 상태에서 DW의 확장과 경영정보시스템 구축 및 CRM 마트 구축을 위하여 프로젝트를 진행했다. SAP BW와 매출 실적 데이터와 Siebel시스템의 주문데이터를 추출하여 SAS 영역에서 데이터 정합성 및 가공을 통하여 전사차원에서 통일된 View를 제공하기 위한 DW를 구축했다. DW 구조는 ODS, DW, CRM 마트, DM 마트, EIS 마트를 구축했다. 모든 데이터의 가공 및 흐름은 SAS ETL 서버를 통하여 구축하였고 SAS의 LSF Scheduler로 작업 자동화 시켜 실시간 모니터링이 가능하도록 구현되어 있다.

고객사 요구사항
▲ 프로젝트 완료기간이 촉박한 상황에서 기존 Pro*C로 만들어진 프로그램까지 마이그레이션 하는 작업을 포함하여 3개월 이내에 DW/EIS 구축을 요구했다.
▲ SAP BW의 데이터를 추출하는 별도의 개발(ABAP4) 없이 직접 Access(Access to SAP BW)모듈을 통하여 추출하여 시벨 데이터와 가공 처리하여 전사차원의 데이터의 일관성 보장 요구
▲ 기존 DW의 배치 시간이 8시간에서 9시간정도 소요되어, DW 확장에 따라 더욱 배치작업의 수가 늘어나는 상황에서 배치 완료시간은 프로젝트 성공에 중요한 요인이 되었다. 새벽 1시에 시작해서 7시 이전에 완료하는 것은 요구했음.

기대효과
▲ BI를 위한 인프라 확보 : 기존의 운영계 시스템(SAP R/3, SAP BW, Siebel, Oracle, Siebel)에서 SAS ETL Server를 이용하여 DW 인프라를 구축함에 따라 향후 요구 될 수 있는 BI 애플리케이션에 대해 손쉽게 구축할 수 있다

▲ 개발 공수 단축 : SAP BW 데이터를 추출하는데 있어 별도의 ABAP4 프로그램을 하지 않고 SAS Access to SAP BW를 이용함에 따라 개발 공수를 단축하였고, Java기반의 UI를 통하여 Drag&Drop 방식과 Point&Click방식 사용자 정의코드 및 효율적인 공통모듈을 사용함으로써 개발기간을 In-house 대비 30%이상 단축할 수 있었다

▲ 배치 작업시간 단축 : 전문 스케줄러인 LSF 스케줄러를 활용하여 복잡한 배치 작업의 선 후행 관계를 세밀하게 정의할 수 있고 다양한 스케줄러의 트리거를 활용함으로써 최단시간의 배치시간을 구현함에 따라 작업의 수는 배 이상 늘어났음에도 불구하고 배치 시간은 요구 시간보다 30분 빠른 새벽 6시 30분에 완료할 수 있게 되었다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지