데이터 생명주기∙MPP 등 다변화된 차세대 DW 아키텍처 적용 추세

최근 데이터웨어하우스(DW) 업계의 관심사는 '차세대 DW'이다. 이미 DW시스템을 구축한 많은 기업들이 데이터의 폭발적인 증가와 느려지는 성능으로 DW시스템의 혁신이 절실해졌기 때문이다. DW의 배치성능을 개선해 빠른 분석결과를 도출, 의사결정에 필요한 시간을 줄이는 것이 DW 고도화의 핵심이다.

최근 이뤄지는 DW고도화는 ▲데이터 생명주기를 감안한 차세대 DW 아키텍처 구성, ▲데이터 분석 요구에 최적화된 플랫폼인 DW 어플라이언스 도입, ▲관리/속도문제 해결을 위한 MPP(초 병렬처리) 방식 채택 등이다.

DW, 이제 '데이터 활용' 측면 더욱 강조= 국내에 DW시장이 형성된 2000년대 초반까지만 하더라도 DW의 개념은 기업의 모든 데이터를 EDW(엔터프라이즈 DW)에 담아두고 이를 OLAP이나 리포팅 시스템을 통해 이용하는데 중점이 맞춰져 있었다. 그러나 이제는 DW 내에서 데이터의 생명주기를 시스템으로 나눠 관리하는 방식 등 활용측면이 더욱 강조되고 있다.

그 첫째가 데이터 생명주기다. 데이터 생명주기란 데이터를 최신, 근래, 과거 데이터로 나눠 최신 데이터에 최고 성능을 집중하고 과거 데이터는 아카이빙 등을 통해 낮은 성능의 시스템에 저장해 두는 것이다. 데이터 마이닝 등의 분석은 최신 데이터 위주로 진행해 자원 효율을 꾀하는 것이 차세대 DW의 아키텍처다.

지난해부터 화두가 됐던 어플라이언스도 이제 DW고도화의 대안으로 보편화됐다. 어플라이언스는 데이터베이스관리시스템(DBMS)과 스토리지, 서버를 일체형으로 통합한 전용DW장비다. 스토리지단에서 쿼리 프로세싱이 이뤄져 서버로의 데이터 이동을 최소화하고, 인텔리전스 쿼리기능을 통해 속도를 향상시켜 데이터 분석 요구에 최적화된 플랫폼으로 여겨진다.

최근 기업들은 대용량 데이터 관리, 속도 향상을 위한 방법으로 MPP(초 병렬처리) 형태의 DW 구축에 관심을 보이고 있다. MPP와 SMP(대칭형다중처리)는 데이터를 처리하는 방법에서 차이를 보이고 있다. 기존 SMP는 대용량의 데이터를 혼자 연산한다면, MPP는 범용 프로세서 여러 개를 고속 네트워크로 연결해 데이터를 나눠주고 연산시킨 다음 다시 모아서 결과를 확인하기 때문에 가용성과 확장성이 뛰어나다는 이점이 있다.

신승철 라이나생명 IT기획팀 과장은 "이제 전사DW, 집중화된 DW, DW 어플라이언스 등의 차이보다는 기존 DW의 한계를 대신할 수 있는 확장성∙유연성∙신속성에 최적화된 아키텍처를 반영하고 있느냐가 더욱 중요해지고 있다"고 말했다.

SNS 포함한 비정형 콘텐츠까지 실시간 분석 가능해야= 업계 전문가들은 이제까지 DW의 방식 변화가 ▲분석 데이터의 용량, ▲워크로드에 따른 제품 다변화, ▲리얼 데이터와 과거 데이터의 분리된 관리 등이었다면 향후 DW가 나아가야 할 방향은 ▲SNS(소셜네트워크서비스)를 포함한 비정형 콘텐츠 분석 기능 강화, ▲클라우드상에서 가상화와 정보 최적화 등을 통해 복잡한 범위의 데이터를 실시간 분석할 수 있는 기반을 마련하는 것이라고 설명했다.

차세대DW의 결합/복합적/비정형 분석은 기업 비즈니스, 글로벌 시장, 커뮤니티의 종합적인 분석 제공을 위해 정형 데이터 소스와 비정형 데이터 소스(SNS에서 생성된 텍스트, 웹 콘텐츠 등)를 통합하는 것을 말한다. 또 이를 모든 업무에 적용, 기업 분석 능력을 소셜미디어 사용자인 고객과의 소통에 적용하는 것이 차세대 DW에서 매우 중요시 되고 있다.

클라우드도 올해 DW 시장의 주요 핵심 키워드가 될 것으로 전문가들은 전망했다. 향후 기업의 전산환경 중 상당부분이 클라우드로 변화될 것으로 전망됨에 따라 클라우드와 연계된 DW서비스, 인프라가 마련돼야 한다고 전문가들은 전했다.

<보다 상세한 내용은 컴퓨터월드 3월호 참조>


저작권자 © 컴퓨터월드 무단전재 및 재배포 금지