글로벌 하둡 배포판 벤더들의 국내 시장 공략 본격화

[컴퓨터월드] 하둡(Hadoop)은 빅데이터 시대를 불러온 실질적인 주역 중 하나로 꼽힌다. 분산병렬처리 기술의 발전과 보급에 있어 중추적인 역할을 맡아, 이전보다 대용량의, 다양한 데이터를 기존 방식보다 훨씬 비용효율적으로 처리할 수 있도록 해줬기 때문이다. 또한, 공유와 협력을 통해 지속적으로 발전하는 오픈소스 소프트웨어(SW)의 대표적인 성공사례로, 이후 IT분야의 방향과 흐름에도 적잖은 영향을 끼쳤다고 평가받는다.

어느덧 강산이 바뀐다는 세월이 흘러 하둡이라는 코끼리도 지난해 탄생 10주년을 맞았고, 이에 그 발전상과 함께 미래를 그려보는 다양한 자리들도 마련됐다. 이제 범용적인 엔터프라이즈 솔루션으로 자리매김한 하둡은 사물인터넷(IoT) 및 인공지능(AI)과 같은 새로운 IT트렌드 속에서도 그 기반이 되는 데이터 플랫폼으로서 위치를 더욱 공고히 하는 모양새다. 이를 주도하는 대표적인 글로벌 하둡 배포판(distribution) 벤더인 클라우데라(Cloudera), 호튼웍스(Hortonworks), 맵알(MapR) 세 곳의 전략을 엿본다.

 

3색의 하둡 배포판 벤더

일반적으로 하둡은 확장(scale-out) 가능하고 내결함성(fault-tolerant)을 지닌 ‘하둡파일시스템(HDFS)’과 이를 구현한 ‘맵리듀스(MapReduce)’ 프레임워크로 정의됐다. 오늘날의 하둡은 기존 정의된 커널 기능 외에 여러 데이터 저장소, 실행 엔진, 프로그래밍 및 데이터 접속 프레임워크와 같은 하둡 생태계 전반을 포함하는 의미로 확장됐다. 코끼리를 필두로 하나둘씩 모여 어느덧 동물원이 된 셈으로, 각 오픈소스 프로젝트를 통해 발전돼 플랫폼 내에서 다양한 역할을 수행하는 개별적인 컴포넌트들을 사용자가 용도에 맞춰 선택적으로 적용할 수 있는 아키텍처를 제공하고 있다.

▲ 빅데이터 전문가 양성 프로그램 ‘클라우데라 BASE 이니셔티브’ 국내 론칭을 위해 지난해 11월 방한한 더그 커팅(왼쪽 3번째)

하둡의 창시자인 더그 커팅(Doug Cutting)이 수석 아키텍트를 맡고 있는 클라우데라는 지난 2008년 설립된 이래 기업용 하둡 전문기업을 표방하고 있으며, 인텔로부터 대규모 투자를 받았고 오라클과 파트너십을 맺은 바 있다. 이 회사는 점차 세분화되고 있는 하둡 관련 시장에서 오픈소스만으로는 충족시키기 어려운 보안, 가버넌스, 인프라 관리 등 전문적인 기업용 솔루션으로서 필요한 기능을 개발함으로써 차별화를 꾀하고 있다. 하둡과 이를 구성하는 요소들이 시장의 니즈에 따라 변화되고 그 명칭까지 바뀌어 불리더라도, 그 본질은 빅데이터의 기반이 되는 플랫폼으로서 다양한 분야로 확산되고 있다는 것이 클라우데라 측의 시각이다.

호튼웍스는 지난 2011년 설립 이래 빠른 성장세를 보이면서 하둡 3대 공급사 중 유일하게 나스닥 상장을 이룬 곳이다. 하둡 2.0의 핵심요소 중 하나로 다양한 작업을 가능케 한 리소스 관리 엔진 ‘얀(YARN)’의 개발을 주도하고 있으며, 아파치 하둡 관련 커뮤니티 내 커미터(소스코드 입력 권한 보유한 원천개발자)와 PMC(프로젝트관리위원)를 가장 많이 보유한 기업으로 알려졌다. ‘100% 오픈소스 커넥티드 데이터 플랫폼’을 표방하며 서포트 스크립션 모델을 택하고 있고, 이에 따라 자사를 중심으로 한 오픈소스 생태계 구축에도 적극적으로 나서고 있다.

지난 2009년 설립된 맵알은 지난 2014년 한국지사를 세우면서 가장 먼저 국내 시장에 진출한 곳으로, ‘맵알파일시스템’과 ‘맵알DB’ 등으로 구성된 독자적인 하둡을 개발 및 제공하고 있다. 고유의 원천기술을 바탕으로 무공유(shared-nothing) 아키텍처를 통한 선형적인 확장성 및 No SPOF(No Single Point of Failure)를 위한 액티브-액티브 방식의 고가용성을 지원하는 것이 특징이다. 나아가 이 회사는 하둡 관련 영역에 국한되지 않고 엔터프라이즈 솔루션 전문기업으로 점차 비즈니스를 확장해나가고 있다.


하둡 10년, 생태계의 진화

▲ 하둡 생태계 (제공: 클라우데라)

하둡이 처음 공개됐을 때는 맵리듀스의 불편한 사용성과 기존 시스템들에 비해 느린 처리속도 및 데이터 보안성 등이 대표적인 문제점들로 지적됐다. 이에 따라 그동안 하둡 생태계의 발전은 이러한 부분들에 대한 개선과 보완 위주로 진행돼왔다고 볼 수 있다. 지난 2013년 등장한 ‘하둡 2.0’도 다양한 앱과 사용자들이 공용 클러스터에서 데이터셋을 공유할 수 있도록 지원하는 ‘얀’ 플랫폼을 통해 하둡 생태계를 본격적으로 발전시킴으로써 이러한 문제들의 해결에 접근했다.

특히, 지난 2013년 UC버클리의 AMP연구실에서 처음 개발된 인메모리 분석 프레임워크 ‘아파치 스파크(Spark)’의 등장은 지난 10년간 하둡 생태계에 일어난 가장 큰 변화로도 꼽힌다. 하둡 상에서 또는 단독형 클러스터로도 동작할 수 있는 ‘스파크’는 인메모리 기술 특유의 빠른 처리속도로 기존 맵리듀스 모델보다 개발 플랫폼으로 선호되고 있으며, 반복학습과 알고리즘 구현에 용이해 데이터 사이언스와 머신러닝(기계학습) 분야의 판도를 바꾸고 있다고도 평가받는다. 하둡 배포판 3대 공급사들 역시 모두 ‘스파크’를 차세대 엔진으로 주목하고 이에 대한 지원에 주력하고 있다.

나아가 최근 업계에서는 ▲빠른 인프라 구축과 유연한 확장성을 위한 클라우드에 최적화된 하둡 수요 증가 ▲실시간 운영과 빅데이터 분석을 통합한 컨버지드(converged) 방식의 부상 ▲IoT를 위한 엣지 프로세싱(edge processing)과 같은 분산처리 지원 등을 현재 트렌드로 짚는 한편, 지속적으로 화두가 돼온 보안과 데이터 거버넌스를 위해 기업용 하둡을 찾는 이들이 본격적으로 늘어날 것으로 바라보고 있다.

이제 ‘HDaaS(서비스형 하둡)’으로 진화한 ‘하둡 3.0’의 등장이 임박했다. 보다 많은 기업들이 핵심 기능의 기반을 하둡으로 이관하기 시작했고, 하둡 자체만으로는 비즈니스 목표가 명확하지 않았던 초기와는 달리 빅데이터, 클라우드, IoT 등의 확산에 따라 하둡의 활용 역시 보편화되고 있다. 지난 10년보다 앞으로의 10년 동안 더 많은 변화가 있을 것으로 전망된다.

 

클라우데라의 클라우드 시대

 
클라우데라는 창립 초기부터 클라우드 비즈니스를 목표로 한 기업으로, 기업명도 클라우드와 시대(era)를 조합해서 지은 것이다. 초기에는 투자 유치를 위해 온프레미스 하둡에 집중했지만, 현재는 원래 목표로 회귀해 클라우드 지원도 개발 로드맵에서 큰 비중을 차지하고 있다. 특히, 고객에게 클라우드 환경도 하이브리드로 가져갈 것을 추천하고 있는데, 개별 클라우드 서비스 벤더에 종속(lock-in)되지 않고 비용효율적으로 인프라를 선택하면서 기업용 하둡 배포판의 성능과 편의성을 최대한 활용하라는 게 이 회사가 보내는 메시지다.

▲ CDH(클라우데라 하둡 배포판) 구조

이를 위해 최근 클라우데라가 선보인 솔루션이 클라우드상 하둡 배치(deploy) 자동화 도구인 ‘클라우데라 디렉터(Director)’로, 아마존 웹 서비스(AWS), 구글 클라우드 플랫폼(GCP), 마이크로소프트(MS) 애저 등 주요 퍼블릭 클라우드 간 하둡 설치와 이전 및 관리를 용이하게 할 수 있도록 지원하는 도구다. 또한, 주요 클라우드 서비스 벤더들이 한국에 데이터센터를 설립하면서 올해부터 국내에서도 클라우드 하둡 수요가 본격적으로 증가할 것으로 내다보고 24시간 한국어 기술지원도 시작했다. 아울러, ‘한국형 클라우데라 패키징’을 위해 국내 파트너 생태계를 구축하는 것 역시 클라우데라코리아의 올해 주요 목표다.

▲ 강형준 클라우데라코리아 지사장

“오픈소스에 대한 인식 제고 필요”
 

오픈소스라면 공짜라는 인식이 많다. 물론 솔루션 활용과 코드열람 및 컨트리뷰션은 누구나 가능하나, 코드변경과 업데이트는 커미터 자격을 부여받은 개발자만 할 수 있다. 기업에서 하둡 및 에코시스템을 자체 구축해 제대로 활용하려면 이런 커미터를 보유, 관련 패키지 내 코드를 직접 변경·패치 가능한 조직이 요구된다고도 할 수 있다. 이는 비용 및 유지 측면에서 대부분의 기업에게 비효율적이기에 클라우데라와 같은 기업이 존재하는 것이다. 즉, 기업은 플랫폼의 유지보수에 중점을 둘 게 아니라 전문기업에 맡기고, 플랫폼을 활용해 어떠한 비즈니스 가치를 이끌어낼지에 집중하는 편이 더욱 발전적이라 본다. 올해 클라우데라코리아는 국내 클라우드 하둡 시장이 본격적으로 열릴 것으로 판단, 이에 집중할 계획이다.

 

빅데이터와 오픈에코시스템의 호튼웍스

 
오픈소스 생태계의 강점을 기업용 하둡에도 반영하고자 하는 호튼웍스는 고객의 실질적인 빅데이터 분석과 활용에 중점을 두고 있다. 아파치 스쿱으로 데이터를 수집하고, 아파치 하이브로 쿼리를 날리는 한편, 아파치 카프카로 실시간 보관한 뒤, 아파치 스톰으로 즉시 처리하는 등의 종합적인 데이터 처리·분석 과정을 오픈소스SW들로 제시하고 있고, IBM, MS, SAS 등 주요 글로벌 IT기업들과의 협력을 통해 다양한 관련 애플리케이션들도 지원하고 있다. 또 최근에는 실시간 분석에 초점을 맞춰 ‘아파치 나이파이(Nifi)’ 프로젝트의 설립자들이 세운 오나랴를 인수했다.

▲ HDP(호트웍스 하둡 배포판)와 나이파이

자바 기반 분산 실행 엔진 ‘나이파이’는 응답시간 최소화를 위해 하나의 프로세스에서 멀티스레드로 작동해 메모리를 공유, 일반 서버는 물론 메인프레임에도 설치·운영 가능하다. 위지윅(WYSWYG) 방식으로 웹 화면에서 간단히 프로그램을 작성·운영할 수 있고, 다양한 시스템 연결을 통해 DB(데이터베이스)부터 SNS까지 총 140가지 이상 구성요소와 주요 최신 SW들과의 연동을 지원한다. 외부 API(앱프로그래밍인터페이스)와 SDK(SW개발키트)를 제공해 원하는 기능을 만들어 추가할 수 있으며, 글자인식과 음성인식 등 다양한 기능들도 공개됐다. 최근에는 실행 파일의 크기를 수 메가바이트까지 줄인 버전인 ‘미니파이(MiniFi)’도 선보여 소형 임베디드 장비에도 설치 가능하도록 했다.

▲ 백지훈 호튼웍스코리아 지사장

“빅데이터도 교육받아야 할 수 있다”

기업에서 다양한 역할을 수행하는 데이터 사이언티스트들을 팀으로 꾸리면 빅데이터 비즈니스가 가능할 것으로 보기도 하지만, 국내에서는 이렇게 해서 성공하는 경우가 드문 것 같다. 아무래도 수직적인 문화가 이를 저해하는 요인이 아닐까. 결국 현업에서 빅데이터에 대해 교육받고 분석·활용에 나서야 한다. 빅데이터 처리에 하둡을 활용하려면 충분한 학습이 선행돼야 하는데, 기존 SW제품 거래와 같은 방식을 생각하고 접근하는 고객들도 종종 보게 된다. 먼저 비즈니스 니즈를 명확히 해줘야 우리도 솔루션을 제시할 수 있다. 그래서 올해 호튼웍스코리아는 재교육에 중점을 두는 한편, 국내 하둡 시장이 본격적으로 활성화될 것으로 보고 제조 및 금융 분야 공략에 주력할 것이다.

 

IoT 플랫폼으로 나아가는 맵알

 
맵알테크놀러지스는 하둡과 레가시 시스템의 공존과 통합에 초점을 맞춰, 하이브리드 시스템이 기업에 자연스럽게 정착하도록 지원하기 위해 ‘맵알 컨버지드 데이터 플랫폼’을 선보이고 있다. 또한 이 플랫폼은 IoT 시장을 겨냥한 제품이기도 한데, 대용량의 데이터가 시시각각으로 다량 발생하는 환경에서 맵알 고유의 아키텍처가 갖는 안정성과 신뢰성이 주효할 것이라는 전망에서다. 아울러 맵알은 하둡 진영의 오랜 숙제이자 IoT에 필수적인 실시간 처리를 위한 솔루션 개발에도 박차를 가하고 있다.

▲ 맵알 컨버지드 플랫폼과 맵알 스트림

이에 지난해 6월에는 ‘맵알 컨버지드 데이터 플랫폼’ 내에서 대용량 이벤트 스트리밍 처리 및 실시간 분석을 지원하는 ‘맵알 스트림 프로세싱 퀵 스타트 솔루션’을 출시한 바 있다. 기존 배치(batch) 환경의 한계를 넘기 위해 개발된 맵알 스트림은 ▲수천 곳에서 수백만 개 주제로 발생하는 수십억 개 메시지를 지속적·효율적으로 스트리밍 가능하고 ▲스트리밍, 트랜잭션, 애널리틱스를 통합해 클러스터 확장, 레이턴시와 데이터 중복을 축소하며 ▲순차 배치와 자동 페일오버를 통한 안전한 메시지 전송 및 모든 실시간 메시지 영구 보관을 지원한다. 기업들이 차세대 IoT 애플리케이션을 위한 파이프라인을 구축할 수 있도록 지원하는 게 이 회사의 전략이다.

▲ 김점배 맵알코리아 지사장

“국내 하둡 시장은 이제부터”

국내에서 비즈니스를 시작한지 4년이 흘렀고, 해마다 맵알코리아는 2배씩 성장해왔다. 그동안 시장 자체는 계속 성장해왔지만 실질적인 도입으로 이어진 경우가 많다고 할 수는 없었다. 그러나 이제 산업분야 전반에 걸쳐 니즈가 늘고 있고, 클라우드와 IoT 등 새로운 흐름이 이를 가속화하고 있다. 고객들도 하둡에 대해 상당부분 알고 있을 만큼 저변이 확대됐으며, 하둡으로 무엇을 할 수 있을지에 대해 스스로 먼저 고민하기 시작했다는 점에서 앞으로의 전망을 긍정적으로 보고 있다. 하둡 진영과 비 하둡 진영의 기술이 상호 융·복합되면서 발전이 더욱 빠르게 이뤄지고 있는 가운데, 맵알코리아 역시 국내 시장의 본격적인 개화를 맞아 지속 성장을 꾀하면서 한국 IT사회의 일원으로서도 소임을 다할 것이다.

 

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지