대용량 분산처리는 하둡, 처리 속도는 인메모리로 해결
2012년 새해와 함께 IT시장에는'빅 데이터'강풍이 불었다. IT벤더들은 발 빠르게 빅 데이터 전략을 발표하면서 시장 변화에 대응하기 시작했다. 모든 전문가들이 올해 IT의 최대 이슈로 '빅 데이터'를 들었다. 이처럼 IT시장을 떠들석 하게 한 '빅 데이터'의 원동력은 기존에 하지 못했던 일을 가능하게 하는 데 있었다. 바로 '미래 예측'이 그것이다.
빅 데이터가 이슈가 되던 올 초반만 하더라도 빅 데이터란 무엇인가를 놓고 업체간 견해가 각기 달랐다. IBM은 빅 데이터에 대해 크기(Volume), 생성 속도(Velocity), 다양한 형태(Variety) 등 3V로 정의를 했으며, 이를 기초로 하여 몇 가지 특성을 들어 빅 데이터에 대해 정의하려 했다.
지금도 빅 데이터에 대한 정의가 명확한 것은 아니지만 어느 정도 정리되는 수순을 밟고 있다. 위키피디아는 "빅 데이터에 대해 통상적으로 사용되는 소프트웨어(SW) 툴로 허용 시간 안에 데이터를 포착, 관리, 프로세스를 할 수 있는 능력을 넘어서는 크기의 데이터 세트를 적용되는 용어를 지칭한다"고 밝히고 있다.
빅 데이터에 대한 정의가 어느정도 명확해지자 이제 업체들은 '빅 데이터'가 아닌 '빅 데이터 분석'에 초점을 맞추고 있다. 빅 데이터는 어떠한 방법으로든 처리가 가능하며, 빅 데이터의 최종 목적은 결국 분석이기 때문이다. 물론 빅 데이터 분석뿐만 아니라 분석된 자료를 통해 가치를 찾을 수 있는 '데이터 과학자(Data Scientist)'의 중요성도 강조되고 있다.
대용량 분산 처리 기술 하둡 껴안다
빅 데이터를 가능케 한 것은 '하둡(Hadoop)'이지만, 빅 데이터를 마케팅으로 활용한 것은 IT벤더들이다. 기존의 데이터웨어하우스(DW) 및 비즈니스 인텔리전스(BI) 전문 벤더들은 하나 같이 자사의 기술에 하둡을 적용했다는 점을 강조한다. 정형 분석은 물론 하둡으로 비정형까지 커버할 수 있으니 이것이 바로 진정한 빅 데이터 분석이라는 것이다.
하둡은 대용량 데이터를 처리할 수 있는 기술 중 하나다. 2004년 구글은 분산 컴퓨팅을 지원하기 위한 목적으로 맵리듀스(MapReduce) 프로그래밍 모델과 대용량 데이터 분산처리프레임워크, 대용량 데이터를 효과적으로 저장할 수 있는 구글 파일 시스템(GFS) 기술을 확보했으며, 이를 기반으로 야후에서 자바 기반의 아파치 하둡(Apache Hadoop)을 개발하고 하둡 분산 파일 시스템(HDFS) 등을 오픈소스화 했다.
이 기술은 주로 인터넷 관련 업체들이 도입해 사용했지만 빅 데이터 광풍 이후 IT업체들은 빅 데이터 전략을 내세우면서 자사 기술에 하둡을 적용했다. IBM, SAP, SAS, 마이크로소프트, 마이크로스트레지티, 오라클, 인포매티카, 테라데이타 등이 대표적인 업체들이다.
또한 아파치 하둡은 지난 1월 정식 버전을 출시했으며, 하둡을 기반으로 한 수많은 상용 서비스 업체들이 탄생했다. 클라우데라, 호튼웍스, MapR 등이 하둡 상용 버전을 제공하고 있다.
한편 테라데이타는 같지만 다른 길을 가고 있다. 테라데이타 역시 하둡을 자사의 솔루션에 적용했지만, '애스터 데이터'를 인수 후 데이터 분석 플랫폼 내의 맵리듀스 분석을 제공하고 있기 때문이다.
<이하 상세 내용은 컴퓨터월드 5월 호 참조>
고수연 기자
going@itdaily.kr