‘하둡과 인메모리’기술 빅데이터 분석의 해결사로 떠올라

대용량 분산처리는 하둡, 처리 속도는 인메모리로 해결

빅 데이터는 2015년까지 약 500% 성장할 것으로 전문가들은 전망하고 있다. 전 세계 데이터의 90%가 지난 2년 동안에 상성된 데이터라는 통계가 이를 증명한다. 지난 2년간 소셜 네트워크와 클라우드 컴퓨팅의 영향으로 데이터는 엄청난 속도로 증가했다. 시장 조사기관의 발표를 종합하면 매일 2,273,736,75테라바이트 용량의 데이터가 생성되고 있다. IT업체들은 엄청난 양의 데이터를 분석해야 하는 과제에 직면했다. 정형뿐만 아니라 비정형 데이터까지 수집해 빠른 시간 내에 분석을 해야 한다. 많은 업체들은 이러한 과제를 '인메모리'기술과 대용량 분산 처리 기술인 '하둡(Hadoop)'을 통해 해결하려고 한다. 업체들이 인메모리 기술과 하둡을 통해서 어떻게 대용량 데이터를 분석을 하는지 살펴봤다.

2012년 새해와 함께 IT시장에는'빅 데이터'강풍이 불었다. IT벤더들은 발 빠르게 빅 데이터 전략을 발표하면서 시장 변화에 대응하기 시작했다. 모든 전문가들이 올해 IT의 최대 이슈로 '빅 데이터'를 들었다. 이처럼 IT시장을 떠들석 하게 한 '빅 데이터'의 원동력은 기존에 하지 못했던 일을 가능하게 하는 데 있었다. 바로 '미래 예측'이 그것이다.

빅 데이터가 이슈가 되던 올 초반만 하더라도 빅 데이터란 무엇인가를 놓고 업체간 견해가 각기 달랐다. IBM은 빅 데이터에 대해 크기(Volume), 생성 속도(Velocity), 다양한 형태(Variety) 등 3V로 정의를 했으며, 이를 기초로 하여 몇 가지 특성을 들어 빅 데이터에 대해 정의하려 했다.

지금도 빅 데이터에 대한 정의가 명확한 것은 아니지만 어느 정도 정리되는 수순을 밟고 있다. 위키피디아는 "빅 데이터에 대해 통상적으로 사용되는 소프트웨어(SW) 툴로 허용 시간 안에 데이터를 포착, 관리, 프로세스를 할 수 있는 능력을 넘어서는 크기의 데이터 세트를 적용되는 용어를 지칭한다"고 밝히고 있다.

빅 데이터에 대한 정의가 어느정도 명확해지자 이제 업체들은 '빅 데이터'가 아닌 '빅 데이터 분석'에 초점을 맞추고 있다. 빅 데이터는 어떠한 방법으로든 처리가 가능하며, 빅 데이터의 최종 목적은 결국 분석이기 때문이다. 물론 빅 데이터 분석뿐만 아니라 분석된 자료를 통해 가치를 찾을 수 있는 '데이터 과학자(Data Scientist)'의 중요성도 강조되고 있다.

대용량 분산 처리 기술 하둡 껴안다

빅 데이터를 가능케 한 것은 '하둡(Hadoop)'이지만, 빅 데이터를 마케팅으로 활용한 것은 IT벤더들이다. 기존의 데이터웨어하우스(DW) 및 비즈니스 인텔리전스(BI) 전문 벤더들은 하나 같이 자사의 기술에 하둡을 적용했다는 점을 강조한다. 정형 분석은 물론 하둡으로 비정형까지 커버할 수 있으니 이것이 바로 진정한 빅 데이터 분석이라는 것이다.

하둡은 대용량 데이터를 처리할 수 있는 기술 중 하나다. 2004년 구글은 분산 컴퓨팅을 지원하기 위한 목적으로 맵리듀스(MapReduce) 프로그래밍 모델과 대용량 데이터 분산처리프레임워크, 대용량 데이터를 효과적으로 저장할 수 있는 구글 파일 시스템(GFS) 기술을 확보했으며, 이를 기반으로 야후에서 자바 기반의 아파치 하둡(Apache Hadoop)을 개발하고 하둡 분산 파일 시스템(HDFS) 등을 오픈소스화 했다.

이 기술은 주로 인터넷 관련 업체들이 도입해 사용했지만 빅 데이터 광풍 이후 IT업체들은 빅 데이터 전략을 내세우면서 자사 기술에 하둡을 적용했다. IBM, SAP, SAS, 마이크로소프트, 마이크로스트레지티, 오라클, 인포매티카, 테라데이타 등이 대표적인 업체들이다.

또한 아파치 하둡은 지난 1월 정식 버전을 출시했으며, 하둡을 기반으로 한 수많은 상용 서비스 업체들이 탄생했다. 클라우데라, 호튼웍스, MapR 등이 하둡 상용 버전을 제공하고 있다.

한편 테라데이타는 같지만 다른 길을 가고 있다. 테라데이타 역시 하둡을 자사의 솔루션에 적용했지만, '애스터 데이터'를 인수 후 데이터 분석 플랫폼 내의 맵리듀스 분석을 제공하고 있기 때문이다.

<이하 상세 내용은 컴퓨터월드 5월 호 참조>

고수연 기자 going@itdaily.kr

다른기사 보기

상단영역

본문영역

‘하둡과 인메모리’기술 빅데이터 분석의 해결사로 떠올라

대용량 분산처리는 하둡, 처리 속도는 인메모리로 해결

기사 댓글 0

비회원 로그인