이전건 한국 HP 컨설턴트 부장


▲ 이전건 한국 HP 컨설턴트 부장





정보의 세상이 급변하고 있다. 데이터는 넘쳐나고 기존의 분석 인프라로는 감당할 수 있는 수준이 아니다.
하지만 쏟아져 나오는 데이터에는 일단 분석되기만 하면 대단한 '가치'를 갖는 '정보'가 분명히 담겨 있다.
이 정보를 누가 먼저 찾아내느냐가 비즈니스 시장의 강자로 우뚝 설 수 있는 열쇠가 될 것이라는 것이 빅 데이터에 대한 관심의 시작이다. HP에서 2011년 인수한 버티카 솔루션은 이러한 빅 데이터 시대의 진정한 승자가 되기 위한 분석 역량을 제공하는 플랫폼으로서 고객으로 하여금 ▲ 보다 빠르게, ▲ 보다 많은 데이터를, ▲ 고도의 분석 기법을 통해 분석하여 경쟁 우위를 확보할 수 있게 해 준다.

2020년 35제타바이트로 데이터 44배 증가

진정한 빅 데이터의 시대이다. 디지털 유니버스에 따르면 전세계에서 발생하는 데이터는 2009년 기준 0.8 제타바이트(1 제타바이트 = 1조 기가바이트)에서 2020년 기준 35 제타바이트로 11년간 약 44배로 증가한다. 이를 정리하면 다음과 같다.

•2011년 기준 전세계 인터넷 사용자: 약 20억 명
•2010년 기준 전세계 RFID 발생 데이터: 약 300억 건
•2011년 기준 전세계 휴대전화 보급대수: 약 46억대
•2010년 기준 하루에 발생하는 트위터 /페이스북 데이터 : 각 7테라바이트 / 10테라바이트

이렇게 발생하는 데이터는 2012년 3월 현재 대부분 버려지고 있으며 극히 일부분만이 비즈니스 인텔리젼스/ 데이터웨어하우스 혹은 정보계라는 이름으로 분석되고 있다. 하지만 지금껏 버려지고 있던 데이터로부터 필요한 정보를 찾아 낸다면, 그리고 기존의 분석시스템과 연계되어 새로운 직관을 제공한다면, 이는 갈수록 치열해지는 현재의 비즈니스 환경에서 경쟁자들이 갖지 못하는 비교우위를 갖게 되는 것이다. 예를 들면, 신상품 출시에 맞춰 트위터/페이스북 데이터의 신상품에 대해 언급된 내용을 분석하고, 또한 그 상품에 대한 선호도를 연령대 별로 조사하여 기존 고객 데이터를 함께 활용하여 각종 캠페인 툴과의 연동을 통해 새로운 고객의 욕구를 찾아내어 비즈니스에 접목할 수 있다면 매출 증대 및 효율적인 고객관리에 한발 더 다가가는 것이 가능해 진다.

이러한 분석을 가능하게 하려면 다음과 같은 세 가지 요소가 모두 충족되어야 한다.

• (준) 실시간 분석
• 대량의 데이터 분석
• 고도의 분석 역량

이 세 가지 요소 중 두 가지를 충족하는 솔루션은 여럿 존재한다 분석역량과 대량의 데이터 처리 능력은 갖췄으나 실시간 분석에 한계를 갖는 하둡 시스템, 분석역량과 소량의 데이터 분석을 통한 실시간 능력은 갖췄지만 대량의 데이터 분석은 어려운 통계 패키지, 그리고 대량의 데이터를 실시간으로 분석하지만 보다 깊은 분석은 어려운 스트리밍 처리 등이 그것이다. 버티카 플랫폼은 이 같은 기존 시스템의 한계를 극복하고 진정한 빅 데이터 분석을 처리하기 위한 기반 기술을 채용하여 현존하는 분석 시스템 그 이상의 분석 환경을 제공해준다.

하이브리드 데이터 저장 아키텍처 제공

그렇다면 버티카 솔루션의 어떠한 기술 요소가 이와 같은 한계를 뛰어 넘는지를 살펴보자. 버티카의 기술적 특징을 요약하자면 다음과 같다.

• 자동화된 관리 도구
• 실시간 기반의 MPP 병렬처리
• 내재된 자동 HA 기능
• 컬럼 기반 아키텍처를 통한 I/O 최소화
• 90%에 이르는 고도의 압축 기능
• 최적화 된 Mixed workload 지원 기능
• 손쉬운 클러스터 관리
• 다양한 SQL 분석 기능
• 추가적인 사용자 정의 분석 기능
• 다양한 연동 기능

버티카의 여러 기술 요소 중 빅 데이터 처리의 필수요소만을 살펴보자.

먼저 실시간 데이터 처리 기술이다. 버티카는 대량의 데이터를 빠르게 적재하는 고속 데이터 적재 기능인 카피 유틸리티와 더불어 별도의 메모리 영역을 활용하여 트랜잭션 처리가 가능한 하이브리드 데이터 저장 아키텍처를 제공한다. 이 메모리 영역을 통해 실시간으로 분석되어야 하는 데이터를 빠르게 DB에 입력하여 분석 대상으로 즉각 삼는다. 아래 그림은 하이브리드 아키텍처를 도식화 한 그림이다. 이 영역을 통하여 버티카는 하둡이 갖지 못하는 실시간 데이터 처리 능력을 갖게된다.





두 번째 고도의 분석역량을 살펴보자. 버티카는 다른 DBMS가 제공하지 못하는 다양한 형태의 분석함수를 제공한다. 이를 통해 보다 빠르게 분석환경을 구현할 수 있으며 사용자가 필요에 따라 추가적인 분석함수(User Defined Function)를 작성하여 사용할 수 있다. 기본적으로 제공되는 분석 함수는 다음과 같다.

• Regular Expression
• Geospatial
• Time Series
• Pattern matching
• Event Series

이와 같은 분석 함수를 통해 20줄 이상의 어려운 SQL을 세 줄 이내로 손쉽게 또한 빠르게 구현하여 원하는 형태의 분석을 가능하게 한다.

또한 오픈 소스 통계 애플리케이션인 R, 혹은 상용 통계 패키지인 SAS등과의 손쉬운 연동 함수를 제공하여 외부 분석 환경과의 연계를 손쉽게 구현하였으며, 하둡 연동을 위한 connector 및 하둡 데이터를 External 테이블로 인식하여 직접 사용이 가능하게 하는 기능을 추가로 제공한다.

대량 데이터 처리 기법은 '4C'

마지막으로, 버티카의 대량의 데이터 처리 기법을 살펴보면, 크게 다음과 같은 네 가지의 'C'로 대변된다.

• 컬럼 스토리지(Column Storage) : 기록 단위의 데이터 처리가 아닌 컬럼 데이터 처리를 통해 필요한 컬럼만을 사용하여 분석 시 발생하는 I/O를 최소화하는 분석에 최적화된 아키텍처
• 클러스터링(Clustering) : 대용량의 데이터 처리를 위해 여러 대의 서버를 활용하여 분석 성능을 향상시키는 기법으로 시스템 증가에 따른 선형적인 성능 향상을 기대할 수 있어 향후 시스템 증설 시 안정적인 성능을 확보할 수 있다.
• 컴프레션(Compression) : 컬럼 기반의 데이터 압축 기법 외에 다양한 형태의 데이터 encoding 기법을 제공하여 약 90%의 데이터 압축이 가능하여 보다 적은 데이터를 처리함으로써 성능을 급격하게 증가시킨다.
• 컨티뉴스 퍼포먼스(Continuous Performance) : 시스템 간의 데이터 이중화를 통해 장애 발생시 별도의 Fail-over 없이 지속적인 서비스를 제공하며, 시스템 레벨의 이중화 구성의 복잡도를 최소화 한다.

결론적으로 현존하는 어떠한 DBMS와도 다른 고유의 아키텍처 및 기능을 통해 하둡/ 통계 패키지/ 스트리밍 등 다양한 분석 기법을 아우르는 빅 데이터 분석을 가능하게 하는 솔루션이 버티카 애널리틱 데이터베이스이라 할 수 있다.

버티카는 이후에도 HP의 전략적인 솔루션으로써 집중적인 투자를 통해 빠르게 성장하고 있으며, 시장의 요구사항을 빠르게 접목하여 보다 시장 친화적인 분석 플랫폼으로 거듭나고 있다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지