프레드 쿠프먼(Fred Koopmans) 클라우데라 제품관리 부문 VP

[컴퓨터월드] 클라우데라는 대표적인 글로벌 하둡(Hadoop) 배포판 벤더다. 클라우데라 엔터프라이즈(Cloudera Enterprise) 시리즈를 통해 전 세계 빅데이터 분석 환경을 리드해왔으며, 최근 호튼웍스를 인수하며 업계에서의 영향력을 보다 공고히 했다.

하지만 최근 클라우데라는 하둡 배포판 벤더라는 기존의 이미지에서 벗어나 새로운 도약을 준비하고 있다. 새롭게 출시된 클라우데라 데이터 플랫폼(Cloudera Data Platform, CDP)을 통해 엔터프라이즈 데이터 통합 플랫폼 전문 기업으로 변화하고 있는 것이다.

프레드 쿠프먼(Fred Koopmans) 클라우데라 제품관리 부문 VP를 만나 클라우데라의 변화와 산업계에 제시하는 새로운 데이터 전략에 대해 들어봤다.

▲ 프레드 쿠프먼 클라우데라 제품관리 부문 VP

변화하는 고객의 미션에 따라 진화하다
“전 세계 고객들이 클라우데라를 선택하는 것은 비용을 절감하면서 기존 벤더의 락인 없이 오픈 플랫폼을 구현할 수 있기 때문이다. 클라우데라는 기존의 몇 배에 달하는 데이터들을 보다 유연하고 민첩한 환경에서 활용할 수 있는 확장형 프레임워크를 제공한다.”

하둡은 분산병렬처리를 통해 안정적이고 비용효율적으로 대용량의 데이터를 분석할 수 있지만, 복잡하게 구성된 관련 생태계와 셀수 없을 정도로 많은 컴포넌트들로 인해 초기 도입이 쉽지 않다. 그렇기에 대규모 하둡 시스템을 구축하는 경우에는 배포판 하둡을 사용하는 것이 일반적이다. 클라우데라는 그동안 배포판 하둡 모델인 클라우데라 엔터프라이즈 시리즈를 통해 하둡 및 빅데이터 분석 업계를 이끌어왔다. 클라우데라 엔터프라이즈 시리즈는 철저한 버전 관리와 수많은 테스트를 통해 기업이 안정적인 하둡 환경을 마련할 수 있도록 돕는다.

하지만 최근 클라우데라는 CDP를 출시하며 통합 데이터 전문기업으로의 변화를 선언했다. 하둡 기반의 빅데이터 플랫폼 전문기업에서 벗어나, 고객의 전사적인 데이터 전략을 지원할 수 있는 핵심 데이터 플랫폼을 제공하겠다는 전략이다. 이에 대해 프레드 쿠프먼 클라우데라 제품관리 부문 VP는 “고객의 비즈니스 환경이 변화하고 그에 따라 고객의 미션도 변화하면서, 클라우데라의 미션 역시 함께 변화한 것”이라고 설명했다.

클라우데라가 빅데이터 분석 업계에서 노하우를 축적하는 동안 산업계의 데이터 관련 역량은 크게 성장했다. 가령 실제 기업들이 다루고 있는 데이터의 양이 획기적으로 늘어났다. 미국의 한 크레딧 카드 기업은 이전까지 약 6개월 간 발생한 트랜잭션 데이터를 저장 및 활용하고 있었지만, 최근에는 지난 10년간의 데이터를 분석하며 인사이트를 창출하고 있다. 이를 통해 그동안 찾아내지 못했던 문제점들을 발견하고, 큰 금융사기 사건으로 연결될 수 있는 위험요소들을 발견해 시정할 수 있었다. 데이터베이스 기술이 발전하면서 비용을 절감하면서도 확장성이 크게 늘어난 것이다.

이에 최근 고객들은 단순히 많고 큰 데이터들을 다루는 것뿐만이 아니라, 보다 보안이 확보되고 거버넌스에 대한 불만이 없는 상황에서 데이터를 활용하는 것을 요구하고 있다. 훨씬 높은 보안성이 유지되는 상황에서도 기존과 같이 수많은 데이터를 결합하고 대용량의 데이터를 빠르게 분석하기를 원하는 것이다.

새롭게 변화한 고객들의 요구를 받아들여, 클라우데라의 미션은 엔터프라이즈 데이터 매니지먼트 영역으로 옮겨갔다. 단순한 빅데이터 전문, 하둡 배포판 벤더에서 벗어나 고객의 모든 데이터를 안전하고 민첩하며 확장 가능한 환경에서 운영할 수 있도록 돕는 통합 데이터 전문기업으로 변화하고자 한 것이다. 또한 비슷한 시기에 같은 업계의 강력한 벤더 중 하나인 호튼웍스와의 합병을 통해 기술력이 크게 향상되면서, 새로운 미션을 수행할 수 있는 기반 또한 다지게 됐다.

다음은 프레드 쿠프먼 클라우데라 제품관리 부문 VP와의 인터뷰를 일문일답 형식으로 정리한 것이다.


Q. 클라우데라가 변화하는 이유는 무엇이며, 그것이 가능한 기반은 어떻게 갖추었는가?
A. 클라우데라가 처음 설립됐을 때 우리의 가장 첫 미션은 클라우드 서비스를 제공하자는 것이었다. 회사명인 클라우데라 역시 그런 목표로 지어진 이름이다. 하지만 회사가 처음 설립된 11년 전에는 클라우드 상에서 비즈니스 인프라를 운영하고자 하는 기업은 거의 없었다. 그래서 우리는 지난 10년간 온프레미스 환경에 최적화된 서비스를 지원해왔다. 지금은 모든 산업군에서 대부분의 고객들이 클라우드 기반의 인프라를 갖추고자 하고, 그에 따라 우리의 미션도 변화했다.

그동안 하둡 영역에서는 데이터 저장이나 분석과 관련된 역량이 과거에 비해 크게 증가했다. 하지만 고객은 여전히 충분하지 않다고 말하며 새로운 요구사항을 제시한다. 가령 고객들이 가장 원하는 기능은 사용하기 쉬워야 한다는 점이었다. 하둡은 강력하고 확장성도 뛰어나지만 사용하기 어렵다는 인식이 있기 때문이다. 그래서 우리는 하둡 기반의 데이터 플랫폼 위에 사용성을 높일 수 있는 새로운 사용자 레이어를 추가했다. 새로운 레이어를 통해 사용자들은 좀 더 쉽고 빠르게 자사의 데이터에 접근할 수 있게 됐다.

이처럼 고객이 미션을 달성하고 새로운 목표를 갖추게 됨에 따라 클라우데라의 미션도 진화해왔다. 최근 우리의 미션은 고객의 모든 데이터 전략을 지원하는 엔터프라이즈 통합 데이터 전문기업으로 옮겨갔다. 클라우데라가 강점을 가지고 있는 분야를 살리면서도 고객의 변화하는 요구에 대응하기 위해서다. 특히 최근에는 호튼웍스와 힘을 합치게 되면서, 양사가 서로 강점을 가진 부분을 서로 보완하면서 보다 향상된 기술 스택을 가지게 됐다.


Q. CDP를 통해 고객에게 제공하고자 하는 가치는 무엇인가?
A. 데이터가 중요해지는 환경에서는 비즈니스 부서의 사용자들이 각각 원하는 목표를 달성하기가 어려워졌다. 원하는 데이터에 접근하는 데에는 IT 부서의 도움이 필요하고 필요한 인사이트를 창출하는 데에도 많은 시간이 소요된다. 이렇게 되면 비즈니스 사용자는 손쉽게 원하는 데이터를 얻을 수 있는 포인트 솔루션을 찾게 된다. 이렇게 도입되는 솔루션들은 단기적으로 비즈니스 민첩성을 향상시켜줄 수는 있지만, 장기적으로는 비즈니스 프로세스를 복잡하게 만들고 기업의 안정성을 떨어트리는 결과를 야기한다.

CDP는 호튼웍스와 클라우데라의 역량을 결합해서 완성한 플랫폼으로, 기업 내 모든 사용자들에게 각각의 업무 요구에 맞는 환경을 지원할 수 있는 단일한 플랫폼이다. 비즈니스 사용자들이 원하는 편리한 환경을 지원하는 동시에 IT 부서의 강력한 관리 역량도 제공할 수 있다. CDP의 SDX(Shared Data eXperience)는 모든 사용자가 동일한 공유 데이터를 사용하면서도 개별화된 포인트 솔루션을 사용하는 것 같은 효과를 준다. 따라서 IT 조직은 공유 데이터를 관리해 전체 데이터 환경을 일관되게 통제할 수 있게 된다.

여기에는 기존에 클라우데라와 호튼웍스가 제공하던 다양한 서비스들이 결합돼 있다. 이전에는 CDSW(Cloudera Data Science Workbench)와 같은 서비스들이 각각 별개의 서비스로 제공됐고, 어떤 제품은 퍼블릭, 어떤 제품은 프라이빗 같은 형태로 나뉘어있었다. CDP는 이렇게 흩어져 있는 서비스들을 하나의 통합된 로드맵 상에 나열해보자는 발상에서 출시됐다. 그렇기에 우리는 여전히 데이터 과학자들이 사용할 수 있는 도구와 플랫폼에 집중하고 있지만, CDP를 통해 보다 종합적인 기술 로드맵을 그릴 수 있게 됐다.

▲ 클라우데라의 엔터프라이즈 통합 데이터 플랫폼 CDP 구성도

Q. 향후 계획하고 있는 CDP의 업데이트 로드맵이 있다면?
A. 가장 먼저 집중하고 있는 것은 현재 CDP의 아키텍처를 완성하는 것이다. 아키텍처를 완성한다는 말을 다르게 표현하면, 구글 클라우드 플랫폼(GCP)이나 마이크로소프트 애저(Azure)와 같은 클라우드 환경은 물론, 고객사가 원한다면 온프레미스 환경까지 완전하게 지원하겠다는 의미다.

또한 내년에는 서비스 레이어 단에 추가적인 서비스들을 완성하고, CDP가 고객이 원하는 데이터 전략의 중심에 놓일 수 있도록 다양한 API들을 추가해나갈 계획이다. 고객들은 클라우데라의 서비스 외에도 다양한 벤더의 제품 및 서비스들을 활용하기 때문에, 이들이 보다 잘 연결되고 함께 사용할 수 있도록 API를 마련해야 한다.

이외에도 에지(edge)와 AI 측면에서 추가적인 작업을 진행할 계획이다. 에지단에서는 더 많은 데이터 플랫폼들과 쉽게 연결될 수 있도록 관련 기술을 확보해야 하며, AI 측면에서는 고객들이 보다 쉽게 머신러닝 프로젝트를 진행할 수 있도록 서비스를 강화해나갈 예정이다.


Q. 데이터에 대한 접근성을 높이는 것은 상대적으로 보안성이 낮아지는 결과를 야기할 수 있다. 데이터의 접근성과 보안성의 균형은 어떻게 조율돼야 하는가?
A. 고객들로부터 받는 피드백을 살펴보면 이러한 질문들을 많이 받게 된다. 엔터프라이즈 데이터 관리를 성공하기 위해서는 데이터에 대한 접근성과 보안성에 대한 고민이 필요하다.

데이터에 대한 보안성을 유지하기 위해서는 사용자들이 기업의 보안 전략을 손쉽게 이해하고 비즈니스 프로세스에 적용할 수 있어야 한다. 만약 기업의 보안 전략이 어렵고 비즈니스와 동떨어져 있다면, 사용자들은 이러한 보안 체계를 우회할 수 있는 방법을 찾게 될 것이다. 이를 위해 기업은 보안에 대한 전문가를 갖추고 보안성을 높이면서도 데이터 활용도를 높일 수 있는 매뉴얼을 만들어야 한다.

CDP를 출시하면서 가장 중요하게 고려한 것 중 하나가 바로 이것이다. CDP는 보안 프로세스의 대부분을 자동화함으로써 비즈니스 사용자가 손쉽게 본인의 비즈니스 프로세스에 보안 매뉴얼을 적용할 수 있도록 돕는다.

가령 CDP에 탑재된 접근 거부(Access Deny) 기능은 한 직원이 생성한 데이터셋에 다른 사용자들이 접근하는 것을 자동으로 차단한다. 다른 사용자가 해당 데이터셋에 접근하기 위해서는 해당 데이터셋을 생성한 사용자에게 허가를 받아야 한다. 또한 모든 직원들에게 각자의 ID를 부여하고, 익명으로 사내 데이터나 서비스에 접근하는 것을 제한한다. 이외에도 CDP가 자동으로 고객의 데이터를 스캔 및 분석해서 최적의 보안 정책을 추천하는 기능도 탑재됐다. 가령 각 데이터의 중요성과 직원들의 권한을 분석해 어느 직원에게 어떤 데이터의 접근 권한을 제공할 것인지를 자동으로 추천할 수 있다.

이렇게 다양한 보안 측면에서의 혁신을 통해 고객들은 전사 데이터를 단일한 플랫폼에서 활용하면서도 안정감을 느낄 수 있다. 비즈니스 사용자는 필요한 데이터에 접근하기 위해 복잡한 보안 절차를 거치지 않아도 되고, IT 조직은 뛰어나고 치밀한 기능들을 통해 데이터를 안전하게 관리할 수 있다.

▲ “CDP는 보안 프로세스 대부분을 자동화함으로써
비즈니스 사용자가 손쉽게 본인의 프로세스에 보안 매뉴얼을 적용할 수 있도록 돕는다.”

Q. 데이터 주도적인 전략을 수립하려는 기업들에게 조언한다면?
A. 가장 먼저 추천하고 싶은 것은 데이터 전략과 인프라 전략을 분리하는 것이다. 그 이유는 인프라 전략은 정말 변동성이 심한 분야이기 때문이다. 어떤 고객사는 6개월 전에 클라우드를 배제한 100% 온프레미스 인프라를 마련하겠다고 선언했다가, 갑자기 새로운 임원이 클라우드 도입 전략을 추진하겠다고 나선 경우도 있다. 매 분기마다 인프라 전략이 바뀌는 경우도 있다.

기업의 인프라는 규제나 경쟁, 정책, 비용 등에 의해 지속적으로 변화한다. 이렇게 변동성이 많은 상황에 대처하기 위해 기업의 인프라 관리팀은 엄청난 노력을 투자해야 한다. 만약 인프라와 데이터 전략이 분리돼 있지 않다면 혼란이 더욱 가중될 수 있다. 특정 인프라 기업의 서비스를 받고 있다가 갑작스레 다른 기업으로 옮겨가야 한다면, 데이터 도구의 종속 등의 문제가 발목을 잡을 수 있기 때문이다.

두 번째는 기업의 본업이 SW 분야가 아닐지라도, 늘 SW에 대한 마인드를 염두에 두고 비즈니스를 추진해야 한다는 점이다. 전통적인 IT 환경에서는 차세대 프로젝트를 추진하고 매뉴얼 테스트를 거쳐 다음 프로젝트로 넘어가는 과정이 이뤄졌다. 하지만 이런 프로세스에서는 데이터를 다른 곳으로 옮기는 것도 어려웠고 플랫폼을 업그레이드하는 것도 쉽지 않았다. SW 개발 비즈니스는 지속적인 개발과 테스트, 적용이 자동화돼야 하며, 모든 기업들은 이를 숙지하고 있어야 한다.

마지막 조언은 현재와 다음 목표만이 아니라, 그걸 넘어선 더 장기적인 목표를 준비해야 한다는 것이다. 다음 목표에만 집중하고 의사결정을 내리면 그 이후의 확장성에서 제한을 받을 수 있다. 만약 다음에 DW를 도입하겠다고 결정하고 거기에만 집중하면, 그 이후 머신러닝 프로젝트나 IoT 인프라를 접목해야 한다는 것을 간과할 수 있기 때문이다. 훨씬 더 긴 로드맵과 전략이 있어야만 효율적인 IT 인프라를 구축하고 관리할 수 있다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지