서동진 클라우데라코리아 세일즈엔지니어

[컴퓨터월드] 데이터의 중요성이 강조되고 기업이 다루어야하는 데이터의 규모가 증가하면서 빅데이터 분석을 위한 아파치 하둡(Apache Hadoop)의 중요성은 점점 커지고 있다. 하둡은 분산·병렬처리 방식에 기반해 보다 많은 데이터를 비용효율적으로 처리할 수 있어 빅데이터 분석을 비즈니스에 활용하려는 기업들에게는 필수적인 도구가 되고 있다. 또한 하둡 생태계의 중심이 되는 하둡 파일 시스템(Hadoop Distributed File System, HDFS)은 물론, 스파크(Spark)·임팔라(Impala)·하이브(Hive) 등 주요 컴포넌트들이 모두 오픈소스 소프트웨어(SW)로 구성돼 있어 10년이 지난 오늘날에도 수많은 개발자들의 협력을 통해 매우 빠르게 발전하고 있다.

하둡의 창시자 더그 커팅(Doug Cutting)이 수석 아키텍트를 맡고 있는 클라우데라는 대표적인 하둡 배포판 벤더로 손꼽힌다. 전 세계적으로 1,000개 이상의 고객사를 확보하고 있으며, 이 중 절반 이상이 연간 매출 10억 달러 이상의 대기업들이다. 또한 상위 10개 은행 및 금융서비스 기관 중 7곳, 상위 10개 의료기업 중 6곳, 상위 10개 기술기업 중 8곳이 클라우데라 하둡 배포판(CDH)을 자사의 빅데이터 분석에 활용하고 있다.

데이터 분석 수요 증가와 기업 인프라의 본격적인 클라우드화에 발맞춰 클라우데라 역시 시장 확대와 고객 확보를 위해 발빠르게 움직이고 있다. 서동진 클라우데라코리아 세일즈엔지니어를 만나 하둡 비즈니스 환경의 변화와 클라우데라의 2018년 목표에 대해 들어봤다.

▲ 서동진 클라우데라코리아 세일즈엔지니어

하둡 도입을 반기는 시장 변화
서동진 클라우데라코리아 차장은 먼저 “하둡을 이미 도입했거나 도입을 고려하는 기업들의 트렌드 변화가 새로운 기회를 만들고 있다”고 강조했다.

가장 먼저 언급된 것은 하둡 자체에 대한 인식 변화다. 국내외를 막론하고 하둡에 대한 개념적인 이해를 갖고 있는 기업은 많지 않다. 빅데이터 분석에 있어서 하둡의 가치를 간과하기도 하고, 기존에 사용하던 데이터 플랫폼으로 충분하다고 판단해 하둡 도입을 고려하지 않기도 한다. 국내에 하둡이 소개된 지 제법 오랜 시간이 지났는데도 여전히 하둡에 대해 막연하게만 알고 있는 경우가 다반사다.

그러나 지난해부터 하둡에 대한 인식 수준이 많이 개선되고 있다. 서 차장은 “사업 수주를 위해 포트폴리오를 준비해갔다가 하둡이 무엇인가에 대해 설명만 하다 한 시간이 지나가는 경우도 있었지만, 요즘은 최소한 하둡이 무엇인지에 대해서는 인식하고 있는 것 같다”고 밝혔다. 하둡에 대해 개념적으로 완전히 이해하지 못하더라도 그것이 무엇이고 왜 필요한지 정도는 알고 있으며, 내부적으로 구축을 위한 준비를 발 빠르게 해나가는 기업들도 늘어나고 있다. 선도적인 IT기술을 보유한 기업은 물론이거니와, 그렇지 않은 기업들도 하둡의 개념과 필요성에 대해서는 인지하고 있다는 설명이다.

서 차장은 “일반적으로 빅데이터 기반의 머신러닝·분석을 할 수 있다고 하면 기존의 데이터웨어하우스(DW) 솔루션들과의 경쟁관계라고 생각하기 쉽지만, 하둡은 DW의 대체제가 아니라 보완재”라고 말했다.

하둡은 본래 대용량 데이터 처리를 목적으로 시작됐으나, 지금은 다양한 에코시스템을 기반으로 차세대 데이터 플랫폼으로 자리잡아가고 있다. 또한 일시적인 프로젝트에 활용되던 수준을 벗어나 기업 내 엔터프라이즈급 플랫폼으로 도입돼 지속적으로 활용되고 있다. 분산병렬처리에 기반해 빅데이터의 안정적이고 비용효율적인 처리에 강한 하둡은 기존의 DW 솔루션들과는 서로 다른 영역에서 활용될 수 있으며, 이들은 각자 유리한 저장·분석 영역이 존재한다. 따라서 기업은 기존에 활용하던 데이터 플랫폼의 전면적인 개편 없이도 하둡을 추가적으로 도입해 활용할 수 있으며, 이 점을 이해하고 하둡으로 새로운 비즈니스 기회를 창출하려는 기업이 늘어나고 있다는 설명이다.


안정성 위한 하둡 배포판 도입 증가
하둡을 자체 구축하기보다 하둡 배포판 공급기업을 이용하려는 추세도 시장에 대한 낙관적인 전망을 가능케 한다. HDFS를 포함한 하둡 생태계는 모두 오픈소스 SW이며, 오픈소스는 태생적으로 공식사이트를 통해 제공되는 정보를 제외하고는 확실히 보장 가능한 정보가 적다. 특히 하둡과 같이 많은 개발자들이 참여해 빠르게 발전해나가는 SW는 일관된 성능과 기능을 기대하기 어렵다. 어느 정도 규모를 갖춘 대기업들 역시 빠른 발전속도를 따라가기 어렵고, 기업 측에서 실시간으로 버전 관리와 운영을 하는 것은 비용효율적이지도 않다. 따라서 기업은 오픈소스 SW를 도입하기 위해 일정 부분 리스크를 짊어져야 한다. 과거 하둡의 개념을 이해하고 구축·관리할 정도의 개발자가 부족하던 시절에는 기업에서 독자적인 하둡 환경을 갖추고 싶어도 현실적인 어려움에 부딪쳤다.

이에 따라 최근에는 기업들이 직접 하둡 플랫폼을 갖추기보다 클라우데라와 같은 하둡 배포판 공급 기업의 서비스를 이용하려는 추세가 일어나고 있다. 빅데이터 분석의 기본이 되는 인프라 확보는 하둡 배포판 벤더의 제품을 통해 구축하고, 기존에 빅데이터 플랫폼을 구축·관리하던 인력은 분석이나 알고리즘 연구와 같은 보다 중요한 업무에 집중한다는 것이다. 이를 통해 기업은 오픈소스 SW 버전 관리와 같은 번거로운 업무에서 해방될 수 있으며, 운용 중 문제가 발생한 경우에도 공급 기업으로부터 상용 SW처럼 즉각적인 지원을 받을 수 있다. 이미 적지 않은 기업이 자체 빅데이터 플랫폼 운영에서 패키지 형태로 제공되는 상용 하둡 배포판으로 전환하고 있다.

서 차장은 이에 대해 “하둡은 오픈소스 SW고, 오픈소스는 태생적으로 자잘한 문제 발생의 여지를 안고 있다. 안정적인 서비스 지원이 필요한 기업 비즈니스에서 작은 버그는 치명적인 피해로 이어질 수 있다”면서, “클라우데라는 불안정한 오픈소스 SW 하둡을 비즈니스에 활용할 수 있도록 철저한 버전 관리와 검증을 거쳐 패키징해 제공한다”고 강조했다.

실제로 HDFS를 포함한 하둡 컴포넌트들은 수개월에 한 번씩 새로운 기능과 버전 업데이트가 이뤄지며, 이들은 치명적인 결함이 발견되지 않는 이상 즉시 릴리즈된다. 그렇다보니 실제 운용 단계에서의 안정성은 충분히 검증되지 못하기 마련이이며, 상용 SW와 달리 우선 릴리즈 한 뒤 피드백을 받아 버그 픽스를 내놓는 경우가 흔하다. 따라서 하둡 배포판을 제공하는 기업들은 HDFS와 다양한 컴포넌트들을 엮어 하둡 배포판을 구성할 때 안정성 향상을 위한 무수한 테스트 과정을 거치게 된다.

클라우데라 하둡 배포판(CDH) 역시 패키지 구성의 가장 중요한 요소로 안정성을 꼽는다. CDH를 구성하는 하둡 컴포넌트들은 최신 버전을 빠르게 적용하기보다 가장 안정적이고 문제 발생의 여지가 적은 것들을 엮어내며, 특정 컴포넌트의 새로운 기능이 출시되더라도 충분한 시간을 들여 자체적인 검증과정을 거치게 된다. CDH로 패키징돼 제공하는 제품은 상용 SW수준의 안정성을 가져야 하며, 뒤늦게 치명적인 문제가 발견돼 고객사의 비즈니스에 지장을 줘서는 안된다는 설명이다.

아울러 HDFS와 기능별로 다양하게 구성된 하둡 컴포넌트 관리를 간소화하기 위해 클라우데라는 전용 관리도구 ‘클라우데라 매니저(Manager)’를 제공한다. 클라우데라 매니저는 하둡 환경에 대한 설치·설정·배포·모니터링·리포팅 등 운영 및 관리에 필요한 전반적인 기능을 통합해 제공한다. 이를 통해 클라우데라 측은 빠르게 발전하는 하둡 컴포넌트를 안정적으로 사용할 수 있는 방향성을 제시하며, 고객사는 비즈니스 요구에 따라 최적화된 하둡 환경을 편리하게 구성하고 관리할 수 있다.


CDH 6, 대규모 기능 개선 예고
클라우데라의 CDH는 올해 6버전으로의 업데이트를 앞두고 있다. 현재 공급중인 5.13버전에서 다음 넘버링으로 넘어가는 만큼 수많은 기능 개선과 변화가 있을 예정이다. 서 차장은 이에 대해 “CDH 6에서는 하둡의 핵심 컴포넌트는 물론, 스파크·임팔라·하이브 등 패키징된 모든 컴포넌트에 대한 메이저 버전 업데이트가 진행된다”며, “오픈소스 SW의 메이저 버전 업데이트는 기능 개선이나 버그 픽스만이 아닌 구조 자체가 바뀌는 큰 변화를 수반하므로, 차세대 CDH 6를 통해 확연히 향상된 사용자 경험을 제공할 수 있을 것”이라고 말했다.

차세대 CDH의 가장 큰 변화는 HDFS 3로의 업그레이드다. HDFS 3은 기존의 HDFS 2에 비해 같은 데이터를 저장할 때 필요한 저장 공간을 최대 50% 줄일 수 있어, 도입하려는 기업 입장에서는 상당한 비용 절감이 가능하다.

이러한 저장 공간 절약은 HDFS 3에 이레이저 코딩(Erasure Coding)을 새로이 적용한 결과다. 이레이저 코딩은 데이터를 안전하게 저장하면서도 스토리지 공간의 효율성을 향상시키기 위한 데이터 복제 방식으로, 이레이저 코드(Erasure Code)를 활용해 데이터를 인코딩해 저장하고 데이터 손실이 발생했을 경우 디코딩을 통해 원본 데이터를 복구하는 기법이다.

기존의 HDFS 2에서는 같은 데이터를 3개 블록에 복사(replica)하는 방식으로 데이터 손실을 방지했기 때문에, 최소한 원본 데이터의 3배에 달하는 저장 공간을 필요로 했다. 그러나 이레이저 코딩이 적용된 HDFS 3은 원본 데이터를 그대로 복사하는 것이 아니기에 약 1.4~1.5배 정도의 저장 공간만으로도 데이터 손실을 방지할 수 있다. 따라서 HDFS 3가 적용된 CDH 6은 기존에 비해 훨씬 효율적인 스토리지 구성이 가능하다.

▲ 클라우데라의 CDSW 아키텍처

또한 CDH 6에서는 데이터 사이언티스트들을 위한 셀프서비스 분석 플랫폼 CDSW(Cloudera Data Science Workbench)도 활용할 수 있다. 지난해 출시된 CDSW는 데이터 탐색·분석·모델링 및 시각화 등을 위한 도커(Docker) 기반의 데이터 사이언스 환경을 제공한다. 사용자는 HDFS에 저장된 데이터를 스파크·임팔라와 같은 하둡 컴포넌트로 손쉽게 활용할 수 있으며, 인가된 사용자만 접근 가능한 격리된 프로젝트 공간에서 코드 및 결과 공유가 가능한 협업 환경을 구성할 수 있다. 파이썬·R·스칼라 등 분석을 위한 다양한 언어를 통해 저장된 데이터를 즉시 활용 가능한 비즈니스 인사이트로 전환해 가치를 창출한다.

관리자 화면에서는 총 사용자·프로젝트 수와 같은 CDSW의 전체 운영 현황을 모니터링하고, 엔진 프로필 생성·인증(Authentication) 타입 설정·커스텀 도커 이미지 추가 등을 수행할 수 있다. 또한 여러 대의 CPU·GPU에 대한 클러스터링을 통해 전체 서버의 자원을 통합, 사용자가 생성하는 분석 프로젝트가 요구하는 용량을 자동화해 제공한다.


클라우드가 최대 화두…가시적 성과 확보 나선다
클라우데라는 클라우드에 최적화된 플랫폼을 제공함으로써 복잡한 데이터에서 명확하고 실행 가능한 인사이트를 추출할 수 있도록 지원한다. 클라우데라의 제품은 온프레미스·클라우드·하이브리드·멀티클라우드 등 환경을 가리지 않고 어디서나 실행할 수 있지만, 기업명에서 드러나는 것과 같이 최근에는 특히 클라우드 환경에 최적화된 성능과 사용자 경험을 제공하기 위해 노력하고 있다.

서 차장은 클라우드를 중시하는 방향성에 대해 “기업이 하둡 도입을 고려할 때, 수년 전까지는 보안 및 거버넌스가 중요시됐으나 최근에 가장 큰 화두가 되는 것은 클라우드”라고 설명하며, “올해에는 멀티클라우드와 같이 클라우드 환경에 대한 요구도 복잡하고 다양해질 것으로 보인다”고 덧붙였다.

일반적으로 클라우드의 최대 장점은 인프라 구축에 필요한 시간을 절약할 수 있다는 점과 운영 규모의 유연성으로 생각된다. 클라우데라는 이를 하둡 생태계에서도 적극적으로 살리기 위해 ▲신속하고 자동화된 하둡 환경 구축 및 활용 ▲유연한 클러스터 운영 ▲오브젝트 스토리지와 하둡 연동 등에 중점을 두고 있다. 클라우드 기반의 인프라를 적극 활용해 하둡의 데이터 플랫폼으로써의 입지를 제고하는 한편, 고객이 어떤 클라우드 플랫폼을 사용하든 최고의 사용자 경험을 제공하겠다는 방침이다.

이를 위해 클라우데라는 ‘클라우데라 디렉터(Director)’와 ‘클라우데라 알투스(Altus)’를 제공한다. 클라우데라 디렉터는 AWS·MS 애저·구글 클라우드 플랫폼(GCP) 등 퍼블릭 클라우드 환경에서 하둡 환경 구축을 자동화한다. 클라우드 환경은 비즈니스 상의 필요에 따라 자유롭게 서버를 켜고 끌 수 있다는 장점이 있지만, 새로이 서버를 켤 때마다 다시 하둡 컴포넌트들을 하나하나 설치해야한다면 매우 번거롭다.

클라우데라 디렉터는 이와 같은 불편을 해소한다. 클라우데라 디렉터 내에서 어떤 퍼블릭 클라우드를 사용할지, 어떤 인스턴스를 사용하고 각 인스턴스에 어떤 컴포넌트를 활용할 것인지 설정하면 30분 내에 즉시 사용 가능한 클라우드 상의 하둡 플랫폼이 생성된다.

▲ 클라우데라 알투스는 데이터 엔지니어링을 위한 임시 클러스터를 생성한다.

한편 PaaS로 제공되는 클라우데라 알투스는 AWS의 EMR(Elastic MapReduce)과 유사한 기능을 제공한다. 사용자의 요구에 AWS·MS 애저 상에서 특정한 컴포넌트를 잠시 동안 사용할 수 있는 클러스터를 생성한다. 가령 MS 애저 상에서 스파크를 사용해야 한다면, 클라우데라 알투스를 통해 스파크를 사용할 수 있는 임시 클러스터를 생성할 수 있다.

이 과정에는 별도의 SW·HW 설치나 클러스터 설정이 필요치 않으며, 사용자가 즉시 사용할 수 있는 완전한 매니지드 서비스 형태로 제공된다. 서 차장은 이에 대해 “클라우데라 알투스는 AWS와 MS 애저 상에서 ETL·머신러닝·데이터 프로세싱을 제공하는 PaaS 상품”이라며, “클라우데라는 향후 데이터 엔지니어링에서 분석·데이터사이언스 워크로드로 영역을 확장하고, 이를 다양한 퍼블릭 클라우드를 통해 제공할 계획”이라고 덧붙였다.

아울러 “머신러닝·AI·데이터 분석·클라우드 등이 올해의 화두로 떠오르는 만큼, 클라우데라 역시 CDH의 차세대 버전과 데이터 분석을 위한 CDSW, 클라우드 환경을 위한 디렉터·알투스 등 다양하고 향상된 기능을 제공하는 제품 공급에 힘쓰겠다”면서, “2018년에는 그동안 하둡 도입이 부진했던 제조 업계를 포함해, 전 산업군을 아울러 가시적인 성과를 만들어나갈 것”이라고 밝혔다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지