데이터스트림즈

"강력한 데이터 정렬 및 변형을 위한 핵심엔진으로 사용하는 ETL을 비롯한 종합 Batch 작업 도구"

그동안의 국내 ETL 툴 시장은 외산 솔루션이 선점한 상태였다. 이러한 현실에서 몇몇 기업들이 ETL 솔루션을 개발하여 시장에 나왔으나, 현실적으로는 실질적 성과를 이룩하지 못하였다. 이런 현실에서 ㈜데이터스트림즈(대표 이영상)가 미 IRI사의 데이터 정렬 툴인 CoSORT 판매 및 기술지원 경험을 바탕으로 대용량 데이터 처리를 위한 CoSORT 엔진을 채택한 ETL 툴인 TeraStream을 개발하여, 국내 최고의 데이터 통합 관리 전문 회사로 평가 받고 있다.

TeraStream의 개요

TeraStream은 CoSORT를 강력한 데이터 정렬(Sorting) 및 변형(Trans-formation)을 위한 핵심엔진으로 사용하는 ETL을 비롯한 종합Batch 작업 도구이다.

Unix/Windows/Linux환경에서 파일 및 DB 형태의 데이터를 변환/정제/검증/관리 등을 매우 빠르고 편리하게 요구 사항에 맞게 처리함으로써 ETL혹은 EAI를 통한 데이터의 통합을 원활히 하도록 설계된 신개념의 도구이다. 대부분의 Mainframe 작업환경에서는 Batch작업(파일시스템)과 On-Line(DB, iSAM)작업이 분리되어 낮은 Load Average를 유지하면서 빠른 Batch 응답을 얻을 수 있다.

TeraStream 특징 및 기대 효과

▶ Sort 엔진을 채택한 성능 향상

ETL 솔루션은 DB뿐만 아니라 Text File에 대한 처리 작업도 수행하여야 한다. 이때 Text File처리도 Sort, Join, Aggregation 등이 고속으로 이루어져야 하며, 이는 Text File에 대한 Sort 성능이 ETL의 성능을 죄우한다. 따라서 ETL 솔루션은 반드시 고속의 Sort 엔진을 탑재하여 최상의 성능을 달성할 수 있어야 한다.


▲ TeraStream을 이용한 ETL 흐름TeraStream을 흐름도





▶ 대용량 데이터 고속 추출

TeraStream은 자체 기술로 개발한 FACT라는 모듈을 통해 DBMS의 특성에 따라 테이블에 대한 대용량 데이터 고속추출이 가능하다.
다양한 SQL문을 통한 데이터 추출 및 DBMS의 Hint 옵션 사용, Partition Table에 대한 추출 등 SQL문에 대한 제약 사항 없이 추출이 가능하다.

▶ File을 이용한 데이터 공유

Job중심의 작업컨트롤 방식으로 File을 이용한 데이터 공유를 통한 데이터 접근성 강화로 Job처리를 Point To Point방식이 아닌 데이터 Hub를 이용한 처리가 가능하다.

▶ 병렬 처리를 통한 성능 향상

대용량 데이터 처리에 필요한 서버 분산 처리 및 Job분산처리를 통한 작업 수행을 통한 병렬 처리를 지원함으로써 성능 향상을 기대한다.


<이하 상세 내용은 컴퓨터월드 3월 호 참조>

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지