[기획특집] ‘클라우드 기반 데이터 플랫폼’으로 쉽고 빠르게 데이터 분석

데이터 크기 및 종류에 상관없이 분석 가능…AI, ML 연동도 쉬워

[컴퓨터월드] 데이터 활용 없이 기업의 경쟁력 향상은 불가능하다. 이는 곧 기업의 성장은 상당부분 데이터 활용에 달려있다는 것을 의미한다. 기업들이 데이터 분석 환경을 갖추기 위해 IT자원에 투자를 아끼지 않는 것도 데이터 활용을 통한 경쟁력 향상을 위해서다.

최근 들어 기업 경쟁력과 직결되는 데이터 분석 플랫폼의 인프라가 바뀌고 있다. 그동안 직접 서버를 구매해 데이터 분석 환경을 구축하던 형태에서 벗어나 클라우드 인프라 상에서 데이터 분석할 수 있는 플랫폼을 구현하기 시작한 것이다. 이러한 수요에 대응하고자 클라우드 서비스 제공사(CSP)와 클라우데라와 같은 플랫폼 기업들은 클라우드 기반으로 데이터 플랫폼을 제공하거나, 각 서비스들을 모아 데이터 분석 프로세스를 만들어주는데 집중하고 있다. 이들 기업들의 솔루션과 전략에 대해 알아봤다.

데이터 관리 역량 부족 및 소비 패턴 변화 요인

클라우드 기반 데이터 플랫폼이 주목받고 있다. 클라우드 기반 데이터 플랫폼이 부상하고 있는 이유는 편리성 외에도 데이터 양과 종류가 늘어나면서 겪는 관리 역량 부족 문제를 해결할 수 있고, 정형화된 환경이 아닌 데이터 소비 패턴의 변화에 대응할 수 있으며, 실시간으로 데이터를 활용할 수 있기 때문이다.

먼저 클라우드 기반 데이터 플랫폼은 환경을 구성할 때 편의성이 높다. 그동안 데이터 플랫폼은 온프레미스 환경으로 구축해 사용됐다. 이 경우 매우 복잡한 절차를 거쳐야 했다. 비정형 데이터를 분석해야 할 경우 ‘하둡’, 검색 엔진으로는 ‘엘라스틱 서치’, DB는 ‘몽고DB’ 등 데이터 분석에 필요한 모든 환경들을 하나하나 직접 설치하고 구성해야 했다. 또 플랫폼을 만들 때 데이터양에 따른 사이즈도 고려해, 최소 수십TB(테라바이트)에서 수십PB(페타바이트)까지 디스크와 메모리 등 스토리지 환경도 구축해야 했다. 특히 컴퓨팅 노드 환경을 구성하는 난이도 높은 클러스터링 작업도 데이터 분석을 위해 필요했다.

온프레미스 환경으로 데이터 플랫폼을 구축할 경우 이러한 어려운 작업을 거쳐야 하는 것 외에도 많은 비용과 시간이 필요했다. 시스템 규모에 따라 차이가 있지만 평균 6개월에서 1년 정도가 소요된다.

그러나 클라우드 기반 데이터 플랫폼을 이용할 경우 복잡할뿐 아니라 많은 비용과 시간이 필요한 작업들을 콘솔에서 클릭만으로 쉽게 구성할 수 있다. 스토리지 환경과 DB 그리고 ETL(추출‧변환‧적재, Extract‧Transform‧Load) 등을 클릭만으로 선택해 서비스를 받을 수 있는 것이다. 수십 분 혹은 수 시간 안에 클라우드 콘솔을 통해 클라우드 기반 데이터 플랫폼 환경을 만들어낼 수 있다.

클라우드 데이터 플랫폼은 데이터 양과 종류에 상관없이 쉽게 관리할 수 있다. 최근 사물인터넷(IoT)나 에지단에서 수집되는 데이터의 양이 증가하고, 그 종류도 다양해지고 있다. 실제 기업들은 사진, 동영상, 텍스트, 음성 등 다양한 데이터를 구조화해 분석‧활용해야 하지만, 각종 규제와 보안 문제 등으로 쉽지 않은 상황이다.

클라우드를 이용할 경우 이런 문제를 상당부분 해결할 수 있다. 클라우드 기반에서 관리하고 분석‧활용할 경우 데이터를 클라우드 데이터 플랫폼 내 수집 장소로 전송하게 만들 수 있고 클라우드 데이터 분석 아키텍처를 설계해 저장소는 어디로, 데이터 마스킹(데이터 가리기)은 어떻게 할지 자동으로 지정할 수 있다. 데이터 양과 종류에 상관없이 효율적인 관리가 가능하다는 얘기다.

데이터 소비 패턴이 변화하고 있다는 점 역시 기업들로 하여금 클라우드 기반 데이터 플랫폼에 관심을 갖게 만들고 있다. 과거 데이터를 활용하는 사람은 대부분 데이터 과학자였다. 일반 부서에서는 활용하고자하는 데이터를 IT관련 부서에 요청해 받아보는 게 일반적이었다.

하지만 최근에는 마케팅, 영업, 디자인 등 다양한 부서의 직원들이 데이터를 직접 사용하려는 움직임을 보이고 있다. 데이터를 소비하는 주체가 다양해지기 시작한 것이다. 이에 따라 데이터에 쉽게 접근할 수 있는 도구가 필요해지기 시작했으며 여기에 가장 적합한 도구가 바로 클라우드 기반 데이터 플랫폼이다.

AWS의 경우 ‘AWS S3’라는 스토리지 서비스를 중심으로 쉽게 접근할 수 있는 빅데이터 도구들이 연결돼있다. 이 도구들을 이용할 경우 데이터를 쉽게 가져오거나 활용할 수 있다.

클라우드 기반 데이터 플랫폼은 실시간으로 데이터를 활용함으로써 빠른 의사결정을 가능하도록 해준다. ‘키네시스 데이터 스트리밍’, ‘클라우드 펍’, ‘애저 스트림 애널리틱스’ 등 CSP의 실시간 데이터 처리 서비스를 활용할 경우 직접 시스템을 구축해 사용하는 것보다 훨씬 더 빠른 의사결정이 가능하다.

4가지 분석 과정 거쳐…다양한 인프라 환경 연동

데이터 분석을 위해서는 크게 수집, 저장, 전처리, 분석 등 4가지 과정을 거친다. 먼저 데이터 수집 과정에서 중요한 것으로 비즈니스 목적에 맞게 데이터를 수집하는 것이다. 사실 데이터가 부족해서 분석을 하지 못하는 경우는 드물다. 문제는 수집된 데이터가 비즈니스에 적합하느냐의 여부다. 또한, 데이터 접근 측면에서 데이터를 수집하고 관리하기 어렵게 격리된 인프라에 저장하고 있는 경우가 많다.

이러한 점을 고려해 데이터를 생성하고 수집하는 전략을 수립해야 한다. 특히, 애플리케이션에서 생성되는 데이터와 로그, 기존 데이터의 전송 및 스트림 데이터를 수집할 수 있는 솔루션을 활용하는 것이 좋다. 수집된 데이터는 주로 관계형(Relational)DB 혹은 논리형(Logical)DB에 저장된다.

통상 수집된 데이터는 바로 분석에 들어가는 것이 아니다. 분석만을 위한 별도의 클라우드 저장소에 저장된다. 저장 단계에서의 핵심은 ‘데이터 ETL’이다. ‘데이터 ETL’은 쉽게 말하면 데이터 분석에 앞서 스토리지에 데이터를 분산 형태로 저장하기 위한 선제작업이라고 말할 수 있다. 수집 단계에서 쌓인 데이터는 관계형 데이터, XML, CSV, 파일, API, 웹 데이터 등 종류가 다양하다. 이 데이터들을 분석하기 쉽도록 정제하고, 검증하는 등 가공하는 것이다.

김병준 네이버클라우드 데이터 플랫폼 리더는 ‘데이터 ETL’에 대해 “ETL은 수집된 데이터를 일괄 처리, 정제, 검증, 집계, 작업 스케줄링 등 작업을 수행하고 이후 이렇게 가공된 데이터를 데이터 웨어하우스라고 하는 곳에 저장한다. 또 이를 직관적으로 볼 수 있도록 GUI로 만들거나 시각화 도구에 사용할 데이터를 분할하는 과정을 거친다”면서, “쉽게 설명하면 수집된 데이터를 분석에 사용할 수 있도록 1차 가공하는 과정이라 할 수 있다. 이 과정은 불필요한 데이터의 양을 줄여 비용을 절감하도록 해주기 때문에 데이터 분석 과정에서 중요하다”고 설명했다.

‘데이터 ETL’을 통해 1차 가공된 데이터는 분석을 위한 저장소에 저장된다. 이 과정에서의 핵심은 데이터를 시, 분, 초 단위로 나눠 분산형태로 저장해야 한다는 점이다. 이를 보통 ‘데이터 레이크’라고 한다. ‘데이터 레이크’는 직렬형태가 아닌 병렬형태로 클러스터를 배치해 데이터를 분석하기 때문에 속도가 빠르다. 이렇게 데이터 레이크가 구축되면 향후 실시간으로 수집되는 데이터를 ‘아파치 카프카’와 같은 서비스를 사용해 데이터를 실시간으로 저장할 수 있도록 지정할 수 있다.

AWS는 ‘AWS S3’를 데이터 레이크로 구성할 수 있는 서비스인 ‘AWS 레이크 포메이션’이라는 솔루션을 제공하고 있다. MS는 ‘애저 데이터 레이크’, GCP는 ‘아파치 스파크’ 및 하둡 기반의 데이터 레이크 서비스를 갖고 있다. ‘데이터 레이크’의 대표적인 예시로 ‘하둡 분산형 파일 시스템(HDFS)’을 들 수 있다. 이 ‘HDFS’는 AWS와 같은 글로벌 CSP부터 네이버클라우드와 같은 국내 CSP들까지 대부분 사용하고 있다.

이 후에는 본격적인 데이터 분석에 들어간다. 이때 데이터를 시험적으로 분석하는 ‘탐험적 분석’이 수행된다. 보통 데이터를 분석할 때 어떠한 효과가 나올 것인지 확실하게 알 수 없다. 단지 어느 정도의 결과 값이 나올 것인지 예측할 뿐이다. 때문에 모든 데이터를 분석을 하기보다는 ‘탐험적 분석’을 통해 일정량을 먼저 분석하고 검증이 완료되면, 그때 규모를 키워야 한다는 얘기다.

김남영 네이버클라우드 데이터 포레스트 상품개발 리더는 “과거 기업들은 온프레미스 환경으로 데이터 분석 플랫폼을 구축했다. 하지만 큰 예산을 들인 플랫폼이 기업 의사결정과 혁신에 별 도움이 되지 못한 경우가 많았다”면서, “이 경우 다른 목적으로 플랫폼의 방향을 전환하기도 어려웠다. 아예 데이터 플랫폼을 포기해야만 했다. 이런 이유로 클라우드에서도 한 번에 대규모로 구축하기보다 실험적으로 검증을 거치는 ‘탐험적 분석’을 해본 후 규모를 키워야 한다”고 강조했다.

이어 그는 “다른 CSP의 클라우드 데이터 분석 상품들 외에 오픈소스인 하둡의 경우, 클라우드 기반으로 플랫폼을 구축할 경우 손 쉽게 데이터 플랫폼을 구축하고, 빠르게 여러 테스트를 해 볼 수 있다. 달리 말하면 본격적인 활용 전 반드시 소규모의 검증이 필요하다는 것”이라고 덧붙였다.

최근에는 데이터 분석을 통해 나온 결과 값을 머신러닝 모델에 바로 적용할 수 있는 서비스들도 출시되고 있다. 클라우드 관리 서비스 제공사인 클루커스는 ‘클루커스 DAaaS(Data Analytics as a Service)’라는 데이터 플랫폼 서비스에 스파크비욘드의 예측, 분석 서비스를 함께 공급하고 있다.

온프레미스 환경이나 클라우드 데이터 플랫폼이나 분석 과정이나 결과에 대해서는 큰 차이는 없다. 그러나 클라우드가 AI와 머신러닝 등 신기술 접근성이 좋고, 보다 신속하게 비즈니스에 인사이트를 줄 수 있다. 또한 비용면에서도 차이는 있다.

이와 관련, 김기완 AWS 솔루션즈 아키텍트는 “과거에는 데이터를 분석하기 위해 30대의 서버로 10시간을 구동해야만 했다. 하지만 클라우드에서는 300대의 서버 자원을 활용해 1시간 만에 그 데이터를 분석할 수 있다”고 예를 들며, “클라우드라는 기술이 주는 비즈니스 가치를 온프레미스로는 따라갈 수 없다”고 설명했다.

온프레미스 환경에서 데이터 플랫폼은 프로젝트 단위로 진행될 정도로 많은 예산이 투입됐으며 구축 기간도 길었다. 장비 구매에 들어가는 예산과, SW설치에 투입되는 인력도 상당했다. 그러나 클라우드에서는 인력 투입없이 쉽게 단기간에 구축할 수 있다. 비용면에서도 훨씬 유리하다. 특히 기간 약정할인 프로그램, 특정 서비스 프로그램, 선납부 프로그램 등 수많은 할인 프로그램을 이용할 경우 적은 비용으로 서비스를 이용할 수 있다.

클라우드 데이터 플랫폼 제공사별 솔루션 특장점

고객 데이터 활용에 초점 맞춘 클라우드 데이터 플랫폼 제공

AWS는 국내‧외를 통틀어 가장 많을 클라우드 서비스를 제공하고 있다. 클라우드 인프라 위에서 구동할 수 있는 데이터 분석 서비스 역시 가장 많다. AWS는 고객 활용에 맞춰 가용할 수 있는 서비스를 조합해 클라우드 기반 데이터 플랫폼을 공급하고 있다.

AWS의 데이터 플랫폼 내 서비스로는 데이터 레이크를 구축하기 위한 ‘AWS 레이크 포메이션’과 데이터 웨어하우스 서비스 ‘아마존 레드시프트’, 온프레미스의 절반도 안 되는 비용으로 페타바이트 규모의 데이터를 분석할 수 있는 ‘스파크 온 아마존 EMR’, 데이터 마트와 데이터 레이크에서 손쉽게 데이터를 결합하고 이동 및 복제할 수 있는 ‘AWS 글루’, 이러한 데이터 플랫폼 내 인프라 기반이 되는 ‘아마존 EC2’ 등이 있다.

LG전자와 대한항공, 웅진씽크빅, 쿠팡 등이 이러한 서비스를 활용하고 있다. LG전자의 가전브랜드 ‘LG씽큐(ThinQ)’는 사물인터넷(IoT)에서 수집되는 데이터를 분석하기 위해 AWS의 클라우드 기반 데이터 플랫폼을 활용하고 있다. 처음 AWS는 LG씽큐의 디바이스에서 발생하는 데이터를 저장하는 방법에 대해 고민했다. 이와 관련, AWS의 한 솔루션즈 아키텍트는 “데이터 종류에 따라 DB를 다르게 구성했다. 데이터관리 시스템 ‘아마존 RDS’와 과거 사용되던 관계형DB, 키 값(Key-Value) 형태는 ‘다이나모 DB’, 네이티브 저장방식으로는 ‘아마존 S3’를 사용했다. 각각의 DB를 하나의 데이터 허브에 연결해 단일 접점을 구성했고, 여기에서 데이터를 추출할 수 있도록 데이터 플랫폼을 구성했다. 특히, 이 과정에서 LG씽큐는 용도에 맞게 DB에 데이터를 저장했고, 데이터 허브 역할을 하는 ‘데이터 레이크’를 구성했다”고 설명했다.

오픈소스 ‘아파치 스파크’, ‘아파치 하이브’, ‘아파치 H베이스’, ‘아파치 플링크’, ‘프레스토’ 등이 호스팅된 하둡 프레임워크인 ‘아마존 EMR’을 사용했고, ‘아마존 레드시프드’와 ‘아마존 글루’를 연계해 연결 접점인 ‘데이터 레이크’를 만들었다. 이렇게 데이터 플랫폼을 통해 데이터 분석이 완료된 데이터는 고객들의 스마트폰 애플리케이션으로 전달됐다.

김기완 AWS 솔루션즈 아키텍트는 “AWS의 미션은 지구상에서 가장 고객 중심적인 회사가 되는 것”이라며, “이러한 관점에서 고객들의 피드백을 듣고 있다. 피드백을 받아 서비스팀과 협력해 고객들의 요구가 반영된 서비스를 지속적으로 생산해 내고 있다. 이러한 서비스들을 결합시킨 플랫폼은 당연히 고객의 비즈니스 방향을 반영하고 있다고 할 수 있다. 특히 AWS는 데이터를 어떻게 분석할지보다 데이터로 인사이트를 꺼내는 방법과 이 인사이트를 비즈니스에 어떻게 반영할건지에 집중하고 있다”고 설명했다.

[인터뷰] “데이터 분석과 활용에 수많은 서비스 접목 가능”

Q. 클라우드에서 구현한 데이터 플랫폼의 강점은.
A. 여러 가지가 있지만 가장 특별한 장점이라면, 데이터 플랫폼의 각 단계에 대한 풀 매니지드 서비스가 가능하다는 점이다. HW인프라와 그 윗단의 SW(하둡 에코시스템) 등이 업데이트된다면 각각에 전부 반영해줘야 한다. 예를 들어, AWS에서는 하둡이면 하둡, DW면 ‘아마존 레드시프트’ 등 서비스가 업데이트되면 이를 고객에게 가이드로 제시해 손쉽게 반영할 수 있도록 안내하고 있다. 관리 측면에서 클라우드를 유연하게 활용한다면, 비용 절감으로도 이어지게 된다.

Q. 고객 사례를 소개해달라.
A. 대한항공과 웅진씽크빅, 쿠팡 등이 있다. 먼저 대한항공은 과거 오라클 기반의 데이터 웨어하우스를 통해 데이터 플랫폼을 구현했다. AWS 클라우드로 옮기기 위해 오라클 DB를 AWS의 ‘AWS EC2’ 위로 올렸고, ‘AWS S3’ 스토리지 서비스에 데이터를 카피, ‘AWS 글루’를 통해 데이터 카탈로그를 저장했다. 이를 토대로 ‘레드시프트’와 ‘S3’에서 데이터를 꺼내 분석하고 있다.

웅진씽크빅은 데이터를 만드는 WAS가 IDC에 있던 사례였다. IDC에 있는 데이터를 실시간으로 데이터 스트림 서비스인 ‘키네시스’를 통해 ‘AWS S3’로 복제했다. 이후 스파크를 활용해 분석했고 그 결과를 ‘오로라 DB’에 저장했다. 저장된 데이터를 사용할 때에는 ‘RDMS’로 조회해 사용하고 있다.

쿠팡은 발생하는 모든 데이터들이 ‘AWS S3’에 저장된 사례다. ‘AWS S3’에 저장된 데이터를 EMR 하둡 기반으로 분석했고, 엘라스틱 서치 엔진 등을 연동했다. 특히 쿠팡은 자체적으로 제작한 여러 데이터 애플리케이션을 통해 분석하고자 했다. 이를 위해 쿠팡에 적용할 수 있는 특별한 아키텍처를 설계했다. AWS는 하나의 정형적인 아키텍처를 제안하기보다 애플리케이션의 상황과 고객의 데이터 분석 니즈에 따라 유연하게 제안하고 있다.

Q. 멀티 클라우드 환경에 구축하려는 고객들이 최근 늘어나는데, 조언한다면.
A. 멀티 클라우드 환경에서 데이터 플랫폼을 구축하기 위해서는 비용과 기술력 측면을 고려해야 한다. 각각의 CSP 할인 프로그램이 조금은 다르겠지만, 보통 ‘티어 스토리지 구조’를 따른다. 서비스 사용량이 증가할수록 할인을 많이 해준다는 얘기다. AWS의 사용량이 늘면 그에 대한 많은 비용을 할인해주지만, 타 CSP로 사용량이 분산될 경우 비용 할인 폭이 줄어들게 된다. 이러한 점도 염두에 두면 좋을 것 같다.

다음으로는 클라우드 기술력을 확보해야만 한다는 점이다. CSP 별로 데이터 플랫폼과 관련된 기술이 다르다. 기업이 데이터와 관련된 기술력을 확보하고 있다면 크게 문제가 되진 않지만, 작은 규모의 기업의 경우 기술력을 확보하기 힘들다. 제한된 기술 인력들이 많은 기술 역량을 확보해야만 한다면 여기에서 업무 비효율이 발생하게 된다.

그렇다고, AWS의 데이터 플랫폼이 온프레미스 환경이나 타 CSP와 연계할 수 없다는 것은 아니다. 연동은 가능하다. 온프레미스의 경우 고객 IDC와 AWS 전용선 네트워크를 연계해 사용하고 있는 고객들도 있다. 타 CSP 역시 마찬가지다. VPN을 통해 네트워크 전용선을 연결하게 되면 클라우드 데이터 플랫폼에 타 CSP의 서비스를 연계해 사용할 수 있다.

엔드-투-엔드로 고객 맞춤형 플랫폼 제공

마이크로소프트(MS)는 넓게 퍼져있는 데이터센터를 기반으로 다양한 클라우드 서비스를 제공하고 있다. MS의 클라우드 서비스 ‘애저(Azure)’는 서비스형 인프라(IaaS), 서비스형 플랫폼(PaaS), 서비스형 소프트웨어(SaaS)까지 유형별로 다양한 서비스를 포함하고 있다.

MS는 클라우드 데이터 플랫폼이 엔드-투-엔드 데이터 분석 솔루션으로 이뤄졌다는 점을 강조하고 있다. MS가 제안하고 있는 데이터 플랫폼 서비스로는 가장 빠르게 인사이트를 얻을 수 있는 분석 서비스인 ‘애저 시냅스 애널리틱스(Azure Synapse Analytics)’, 빠르고 쉽게 협업이 가능한 완전 관리형 ‘아파치 스파크’ 기반 분석 플랫폼 ‘애저 데이터브릭스(Azure Databricks)’, 기업용 완전 관리형 클라우드 하둡 및 스파크 서비스 ‘HD인사이트(Insight)’, 데이터 이동 및 변환을 자동화하는 데이터 통합 서비스 ‘애저 데이터 팩토리(Azure Data Factory)‘, IoT 디바이스에서 실시간으로 데이터 스트림할 수 있는 ’애저 스트림 애널리틱스(Azure Stream Analytics)‘, 애저의 기본 데이터 레이크 서비스 ’애저 데이터 레이크(Azure Data Lake)‘ 등이 있다.

데이터 분석을 위한 4단계로 구분하면, 수집 단계에서는 ‘이벤트 허브’, ‘애저 데이터 팩토리’ 등이 적용되고, 저장 단계에서는 ‘애저 데이터 레이크’, ‘애저 시냅스 애널리틱스’ 등이 활용된다. 통합&분석 단계에서는 ‘애저 스트림 애널리틱스’, ‘애저 코그니티브 서비스’, ‘애저 머신러닝’, ‘애저 데이터브릭스’를 잉요할 수 있다. 활용과 시각화를 위한 서비스로는 ‘파워 BI’, ‘애저 코스모스 DB’ 등을 들 수 있다. MS는 이처럼 수십 가지의 서비스를 고객 비즈니스 현황, 환경 등을 고려한 후 컨설팅을 통해 제공한다.

아울러 MS는 최근 각광받고 있는 수많은 오픈소스 프로젝트를 ‘애저’ 위에서 실행할 수 있다는 점도 강조한다. 가령, SQL 서버나 리눅스 서버, 컨테이너화된 솔루션에 관리용 오픈소스 기반 플랫폼인 ‘아파치 카산드라’ 및 ‘몽고DB’, ‘인스턴스 전용 애저 코스모스 DB’ 등을 연결해 타 유형의 DB나 스토지리를 적용할 수도 있다.

이에 대해 MS 관계자는 “실제로 데이터 플랫폼을 구축하는 과정에서 MS 애저의 서비스만을 고집하지는 않는다. 고객이 애저에서 지원하는 오픈소스를 원할 경우 이를 플랫폼에 적용하고 있다”면서, “개발자의 작업 속도를 높이기 위한 개발 도구와 클라우드 호스팅 옵션, 데이터 과학자, 엔지니어, 분석가들이 생산성을 높일 수 있는 다양한 분석 및 머신 러닝 도구와 같은 서비스도 연계해 제공하고 있다”고 설명했다.

데이터 분석에 최적화…다양한 인프라 환경도 지원

구글 클라우드는 데이터 분석 플랫폼이 단일 CSP에 종속되지 않고 여러 클라우드 환경에서 활용될 수 있도록 하는데 집중하고 있다. 김정훈 구글 클라우드 코리아 데이터 애널리틱스 스페셜리스트는 “‘구글’이라는 포털에서 수집되는 수많은 데이터들을 분석할 수 있는 서비스들을 클라우드 서비스로 개발해 사용자들에게 제공하고 있다”며, “이는 그만큼 데이터 분석에 특화된 CSP가 구글 클라우드라는 증거”라고 설명했다.

구글 클라우드는 데이터 플랫폼을 수집, 프로세스, 저장, 분석, 활용 등 5단계로 나눠 해당 단계에 맞는 서비스들을 조합해 제공하고 있다. 수집 단계 서비스로는 스트리밍 분석 파이프라인의 이벤트 수집 및 전송을 위한 서비스인 ‘클라우드 펍섭(Cloud Pub/Sub)’이 있다. 이 서비스는 규모에 맞는 고가용성과 일관된 성능을 기반으로 내구성 있는 메시지 스토리지 및 실시간 메시지 전송을 제공해준다. 이는 OSS의 ‘아파치 카프카’와 같은 기능을 하는 서비스다.

프로세스 단계에 적용될 서비스로 ‘데이터플로우(DataFlow)’와 ‘데이터프록(Dataproc)’, ‘데이터프렙(Dataprep)’ 등 3가지가 있다. ‘데이터플로우’는 대규모 데이터 세트에서 데이터 처리 패턴을 개발하고, 간소화된 스트림 및 배치 데이터 처리를 수행하는 서비스다. ‘데이터프록’은 데이터 일괄 처리, 쿼리, 스트리밍, 머신러닝에 오픈소스 데이터 도구를 활용할 수 있는 관리형 ‘스파크’ 및 ‘하둡’ 서비스로, 자동화를 통해 신속하게 클러스터를 만들고 손쉽게 관리하며 불필요한 클러스터는 사용 중지해 비용을 절감할 수 있다는 장점이 있다.

‘데이터프렙’은 분석 및 머신러닝에 사용할 데이터를 시각적으로 탐색, 정리, 준비하는 지능형 클라우드 데이터 서비스다. 이 서비스는 서버리스 방식으로 구동되며, 규모에 상관없이 작동하기 때문에 별도로 배포하거나 관리해야 할 인프라가 없다. UI 입력마다 가장 이상적인 데이터 변환을 제안하고 예측하기 때문에, 코드를 작성하지 않아도 된다는 장점이 있다.

구글 클라우드는 저장 단계 서비스로 ‘클라우드 스토리지(Cloud Storage)’와 ‘빅쿼리(BigQuery)’를 내세우고 있다. ‘클라우드 스토리지’는 스토리지 서비스로 데이터 양에 상관없이 데이터를 저장할 수 있다. 다음은 ‘빅쿼리’다. ‘빅쿼리’는 구글 클라우드의 대표적인 서비스로 서버리스 기반의 멀티 클라우드 데이터 웨어하우스 서비스다. 표준 SQL을 사용해 타 CSP의 클라우드에서 데이터를 수집해 분석할 수 있다. 이로써 유연한 분석 환경을 구성해 데이터 분석가 또는 데이터 과학자에게게 원활한 데이터 분석 환경을 제공한다. 또 ‘빅쿼리 ML’ 기능을 활용하면 구조화 또는 반구조화된 데이터를 기반으로 하는 머신러닝 모델을 빠르게 빌드 및 운용할 수 있다.

마지막으로 활용 단계에서는 ‘버텍스 AI(Vertex AI)’와 ‘루커(Looker)’를 제안하고 있다. ‘버텍스 AI’는 머신러닝 모델을 개발할 수 있는 AI/ML 통합 플랫폼이다. ‘오토ML’ 및 커스텀 코드 학습으로 모델을 쉽게 학습하고 비교할 수 있으며, 중앙 모델 저장소에 별도로 저장된다. ‘루커’는 데이터가 어느 곳에 저장되더라도 기업의 최신 버전 데이터에 접근할 수 있게 지원하는 서비스다.

삼성전자는 음성 인식 플랫폼 ‘빅스비(Bixby)’에 구글 클라우드의 ‘빅쿼리’, ‘클라우드 스패너’, ‘데이터플로우’ 등 서비스를 적용해 수집되는 데이터를 분석하고 있다. 여기에 구글 클라우드의 ‘클라우드 TPU(Tensor Processing Unit)’을 결합해 빅스비 AI 모델의 음성인식 학습을 고도화했다. 그 결과 AI 모델 학습 속도가 18배 향상됐다. 이 외에 홈플러스도 구글 클라우드의 ‘클라우드 스토리지’와 ‘빅쿼리’를 도입해 고객 인사이트를 발굴해 비즈니스 운영 효율을 개선했다.

[인터뷰] “GCP의 데이터 플랫폼으로 확장성, 유연성, 경제성 향상”

Q. 구글 클라우드의 데이터 플랫폼의 특장점은.
A. 우리 데이터 분석 플랫폼의 강점은 확장이 쉽고, 유연하며 구조화된 데이터 저장과 처리, 분석 작업을 경제적으로 수행할 수 있다는 점이다. 기업들의 데이터는 기하급수적으로 늘어나고 있다. 이러한 상황에서 스토리지와 처리 리소스를 필요한 만큼 사용해야 하고, 데이터에서 인사이트를 만들어내야 한다. 유연성이 반드시 담보돼야 하는 상황이라는 얘기다. 구글 클라우드에서는 스토리지와 데이터 처리 소스를 무제한에 가깝게, 저렴하게 제공하고 있다. 이에 따라 비용이 늘어날 것으로 예상할 수 있지만, 절대 그렇지 않다. 오히려 유연한 환경에서 빅데이터 분석과 머신러닝 모델을 개발, 학습한다면 불필요하게 들어가는 비용을 줄일 수 있다.

Q. 데이터 플랫폼에 대한 고객들의 반응은.
A. 우리 고객들은 클라우드 기반 데이터 플랫폼에 만족하고 있다. 수만 개의 기업이 DB부터 비즈니스 의사결정을 위한 분석, 미래를 예측하고 자동화하는 AI 및 머신러닝에 이르기까지 데이터의 모든 역량을 활용하는 데이터 클라우드를 구축할 수 있도록 모든 단계를 철저하게 지원한다. 특히, 업체에 종속되지 않도록 오픈소스 도구, 트랜잭션, 프로세싱 및 분석용 엔진도 선택해 사용할 수 있도록 돕고 있다. 고객의 만족도를 알 수 있는 척도가 기업 고객의 수인데, 삼성전자, 홈플러스, 기아자동차 등 국내 수많은 기업들이 현재 구글 클라우드와 협업하고 있다.

Q. 클라우드 기반 데이터 플랫폼이 주는 가치는 무엇인지.
A. 클라우드 기반 데이터 플랫폼의 가치는 데이터를 활용할 수 있는 수많은 서비스를 적용할 수 있다는 점이다. 이를 통해 새로운 인사이트를 보다 다양한 시각에서 얻을 수 있다. 오늘날 기업들은 분석이 끝난 데이터를 쉽게 활용할 수 있도록 다양한 오픈소스를 활용하고 있다. 하지만 이 오픈소스들은 지속적으로 업데이트를 해야 하고, 검증해야 하는 등 번거로운 작업을 수행해야만 한다. 이를 클라우드 서비스로 손쉽게 빠르게, 다양한 오픈소스들을 적용할 수 있도록 지원할 수 있다. 이러한 점이 클라우드 데이터 플랫폼이 주는 가장 핵심적인 가치라고 생각한다.

‘데이터 포레스트’ 서비스로 데이터 플랫폼 구현 가능

네이버클라우드는 국내 CSP로 클라우드 기반 데이터 플랫폼에 주력하고 있다. 네이버클라우드가 내세우고 있는 서비스는 바로 ‘데이터 포레스트(Data Forest)’다. 이 서비스는 ‘아파치 하둡’ 기반의 데이터 통합 분석 플랫폼이다. 이 플랫폼을 통해 다양한 빅데이터 프레임워크를 사용할 수 있고, 데이터의 수집부터 저장과 처리, 분석, 활용, AI/ML까지 사용할 수 있다.

‘데이터 포레스트’는 데이터를 저장하고 분석하는 것들을 시각화할 수 있는 컴포넌트로 구성돼있다. 사용자는 필요한 컴포넌트만 골라 생성하고, 시각화해 사용하면 된다. 데이터 저장 에대한 컴포넌트는 ‘HDFS’, ‘H베이스’, ‘카프카’, ‘오픈TSDB’ 등 4가지가 있다. 분석 컴포넌트는 ‘스파크’, ‘하이브’, ‘프레스토’, ‘엘라스틱 서치’ 등이다. 데이터를 시각화하고 관리하는데 사용할 수 있는 컴포넌트는 ‘키바나’, ‘제플린’, ‘그라파나’ 등이다.

네이버클라우드는 ‘데이터 포레스트’의 특장점으로는 ‘통합 분석환경 제공’, ‘쉽고 빠른 환경 구성’, ‘확장성’, ‘보안’, ‘성능’ 등 5가지를 들고 있다. 먼저 통합 분석환경 제공 측면에서 ‘데이터 포레스트’는 얀(YARN) 애플리케이션 형태로 서비스를 실행하고, 사용자가 이를 조합해 빅데이터 분석 에코시스템을 구축할 수 있다. 사용자별 GPU 리소스도 할당받아 ‘텐서플로우’, ‘파이토치’ 등의 딥러닝 학습도 수행할 수 있다.

다음은 쉽고 빠르게 환경을 구성할 수 있다는 점이다. 컨테이너 기반 서버리스 환경으로 쉽고 빠르게 애플리케이션을 출시할 수 있는 환경을 마련할 수 있다. 또 필요한 하둡 에코시스템을 애플리케이션으로 생성해 분석환경을 구축할 수 있다. 확장성도 강점이다. ‘데이터 포레스트’는 컴퓨팅 환경을 사용자가 원하는 대로 컨테이너 확장 및 축소할 수 있으며, 초기 애플리케이션을 생성한 후 사용량이 증가할 때 ‘플렉스(Flex)’ 기능을 통해 컨테이너 수를 변경해 트래픽에 유연하게 대응할 수 있다.

보안성도 높다. ‘시큐어 하둡 클러스터(Secure Hadoop Cluster)’로 ‘커버로스(Keberos)’, ‘LDAP’ 인증을 이용한 접근제어가 가능하다. 성능 측면에서는 애플리케이션 기반의 컴퓨팅 노드와 물리서버의 로컬 디스크 기반으로 HDFS 저장소를 사용하기 때문에 네트워크 환경과 디스크 성능이 높다.

데이터 분석 프로세스에 나눈 네이버클라우드의 서비스 (출처: 네이버클라우드)

이 외에도 네이버클라우드는 5단계로 나눠 데이터 플랫폼을 구성할 수 있도록 서비스를 제시하고 있다. 데이터를 수집하기 위한 서비스로는 ‘데이터 포레스트’, ‘클라우드 데이터 스트리밍 서비스’, ‘클라우드 로그 애널리틱스’, ‘클라우드 IoT’, ‘심플 래빗 메시지 큐 서비스’ 등이 있다. 데이터 저장과 관련된 서비스는 ‘데이터 포레스트’, ‘오브젝트 스토리지’, ‘클라우드 DB 포 MySQL’, ‘클라우드 DB 포 레디스’, ‘클라우드 DB 포 MSSQL’, ‘클라우드 DB 포 몽고 DB’, ‘클라우드 하둡’, ‘클라우드 데이터 스트리밍 서비스’, ‘심플 래핏 메시지 큐 서비스’ 등이 있다.

데이터를 통합하고 분석하기 위한 서비스로는 ‘데이터 포레스트’, ‘클라우드 하둡’, ‘서치 엔진 서비스’, ‘클라우드 서치’, ‘클라우드 펑션’, ‘텐서플로우 서버’, ‘클로바’ 등이 있다. 마지막으로 데이터 활용 단계에서는 ‘데이터 포레스트’, ‘태블로’, ‘데이터 애널리틱스 서비스’ 등이 이용된다.

네이버클라우드가 제시한 데이터 플랫폼 5단계에는 ‘데이터 포레스트’가 모두 적용돼있다. 한 마디로 ‘데이터 포레스트’ 한 가지 서비스로 데이터 플랫폼을 구축할 수 있다는 의미다.

[인터뷰] “직접 사용한 후 개발한 서비스로 플랫폼 제작”

(좌측부터) 네이버클라우드 김병준 데이터플랫폼 리더, 김남영 데이터 포레스트 상품개발 리더, 최지훈 클라우드 전략계획 매니저

Q. 네이버클라우드의 데이터 플랫폼 특장점은.
A. 고객이 원하는 기능이나 서비스가 플랫폼에 녹아들어 있다는 점이다. 네이버클라우드에서 제공하는 플랫폼은 단순히 개발하고 판매하는 것이 아닌, 네이버에 먼저 적용해보고 검증될 때까지 사용해본 후 서비스로 공급한다. 우리는 태생이 포털 서비스 기업이다. 네이버라는 포털에는 블로그 탭과 카페 탭, 연동되는 밴드 애플리케이션 등이 존재한다. 거기에서 생산되는 데이터의 양은 상상을 초월한다. 이를 분석하고 포털이나 애플리케이션에 적용하기 위해 많은 노력을 했다.

고객의 입장에서 느낀 점들이 데이터 플랫폼에 고스란히 적용됐다는 점이 핵심이다. 실제로 네이버 포털과 연계된 모든 서비스에서 나오는 데이터가 C3라고 하는 하둡 클러스터에 저장돼있다. 현재 네이버 블로그, 카페 등 200~300여개의 서비스에서 매일 사용자들의 요구사항이 실시간으로 들어오고 있고 이를 최대한 반영하기 위해 노력하고 있다.

다른 SW업체들의 플랫폼도 그렇지만, 네이버클라우드에서 공급하는 서비스인 ‘데이터 포레스트’는 단 하나의 서비스로 플랫폼을 구축할 수 있다는 장점이 있다. 데이터를 단순히 쿼리를 날려 조회하든, 서비스 검색 엔진을 붙여 데이터를 찾든 모든 것이 하나의 플랫폼에서 이뤄질 수 있다는 얘기다.

Q. 향후 ‘데이터 포레스트’에 업데이트 될 내용은 무엇인지.
A. 새롭게 업데이트될 내용으로는 규제 산업 고객의 VPC 환경에서 개별 고객만의 특수한 환경을 만들 수 있는 기능을 추가할 예정이다. 보통 고객들의 경우 공용 풀에서 데이터 플랫폼을 구축했다. 하지만 금융과 공공에서는 공용 풀(Pool)에서, 타 데이터 플랫폼과 함께 구동돼서는 안 된다. 별도로 풀을 구성해야만 한다.

현재 별도의 풀을 분리하지 않고 사용하기 위해서는 규제 산업 고객의 IDC에 네이버 클라우드 플랫폼(NCP)과 연동할 수 있는 컨테이너 모양의 미니 IDC ‘뉴로 클라우드’를 설치해 사용할 수는 있다. 하지만 아직까지 ‘뉴로 클라우드’를 설치해 ‘데이터 포레스트’를 사용하고 있는 고객은 없다. 이를 3분기에 업데이트할 예정이다.

아울러, 내년에는 네이버 클로바의 기술이 녹아든 머신러닝 특화 플랫폼도 연동할 수 있도록 업데이트할 예정이다. 현재 베타버전으로 ‘데이터 포레스트’를 공급하고 있는데, 3분기에 본격적으로 ‘데이터 포레스트’가 출시될 예정이다.

Q. 솔루션에 대한 고객의 반응은 어떠한지.
A. 고객들은 ‘데이터 포레스트’에 만족하고 있다. 직접 의견을 들었던 G사의 경우 컨테이너 기반으로 데이터 플랫폼이 구성돼 빠르게 프로비저닝할 수 있었고, 쉽게 애플리케이션을 설치하고 생성할 수 있어서 좋은 평가를 들었다. D사에서는 빠르게 필요한 애플리케이션을 설치할 수 있었고, 설치할 때 자동으로 애플리케이션 간 설정을 할 수 있었다고 말했다. A대학교에서는 ‘데이터 포레스트’ 애플리케이션이나 AI 포레스트 워크스페이스를 생성할 때 간단하게 조작해 애플리케이션을 쉽게 생성할 수 있었기 때문에 편리했다는 반응이었다.

오픈 클라우드 데이터 플랫폼 ‘CDP’로 전 조직 의사결정 지원

클라우데라는 오픈소스 기반 대규모 데이터 분석 처리 SW인 ‘하둡’을 활용해 데이터 분석 방법을 제공한다. 에지부터 AI 등에서 수집되는 수많은 데이터를 인프라에 대한 제약 없이 분석할 수 있도록 지원하고 있다. 클라우데라는 ‘클라우데라 데이터 플랫폼(Cloudera Data Platform)’으로 데이터 플랫폼을 구축하고 있다. 데이터 분석에 필요한 클러스터 인프라와 SW를 AWS, MS, GCP에서 제공하고 있다.

조성현 클라우데라 솔루션 엔지니어링 매니저는 “‘CDP’는 구축, 관리, 사용이 용이한 통합 데이터 플랫폼”이라며, “IT 직원들이 요구하는 세분화된 보안과 거버넌스 정책을 통해 하이브리드와 멀티 클라우드 환경 전반에 걸쳐 쉽고 간편한 셀프 서비스 분석 기능을 제공한다”고 설명했다.

이어 그는 “CDP를 이용하는 방법은 매우 쉽다. 인프라를 준비할 필요도 없고, SW 설치와 설정 그리고 운영도 신경 쓸 것이 없다. 사용자가 할 일은 클라우데라 컨트롤 플레인에 접속해 원하는 워크로드를 실행하는 것뿐”이라며, “사용자는 워크로드의 특성을 고려해 가상머신(VM)이나 컨테이너에 배포할 수 있으며, ‘클라우데라 데이터 허브’에서 필요한 클러스터 템플릿을 선택할 수 있어 워크로드 실행 환경 구성도 빠르게 할 수 있다. 또한, 어디에 배포하건 오토스케일링 기능으로 클라우드 비용도 최적화할 수 있다”고 덧붙였다.

클라우데라의 ‘CDP’는 호튼웍스와 클라우데라 자체 기술을 결합해 데이터 플랫폼을 제공한다. 모든 클라우드 환경에서 비즈니스 서비스형 분석 기능을 제공한다. 실제로 AWS, MS 애저, 구글 클라우드 플랫폼 등 퍼블릭 클라우드와 유사한 환경을 토대로 오픈소스 데이터 관리 및 다양한 분석 기능을 제공하고 있다.

보안성도 높다. ‘CDP’는 ‘SDX(Shared Data Experience)’라는 서비스로 데이터들을 한 곳에 모았기 때문에 어떠한 클라우드 환경에서도 개인 정보보호 및 규정 준수, 사이버 보안 위협을 막을 수 있다. ‘CDP’는 100% 오픈소스로 구성돼 벤더 종속을 방지할 수 있다. 벤더 종속을 방지한다는 것은 데이터의 사일로화에서 벗어나 다양한 업무를 연결할 수 있고, 다양한 데이터들을 하나의 데이터 관리 플랫폼에서 관리하고 애플리케이션을 개발할 수 있다는 것이다.

‘CDP’의 핵심 서비스로는 ‘클라우데라 데이터 웨어하우스’와 ‘클라우데라 머신러닝’, ‘클라우데라 데이터 허브’ 등을 들 수 있다. ‘클라우데라 데이터 웨어하우스’는 구조화, 비정형 및 에지 소스 등에서 대규모 데이터를 수집하는 분석 서비스다. 대규모 데이터를 안전하게 수집할 수 있어, 비즈니스 분석가 팀이 데이터 웨어하우스를 빠르고 쉽게 구축할 수 있다. 특히, 온프레미스와 클라우드 간에 워크로드를 원활하게 이동해 하이브리드 및 멀티 클라우드 인프라 모델을 지원한다.

다음으로는 ‘클라우데라 머신러닝’ 서비스다. 이 서비스는 엔터프라이즈 데이터 과학자 팀이 협업 머신 러닝 작업 공간을 빠르고 쉽게 구축할 수 있다. ‘클라우데라 머신러닝’을 통해 기업은 몇 번의 클릭으로 팀을 위한 머신러닝 작업 환경 및 가상 머신러닝 환경을 구축할 수 있다. 또한, 엔드-투-엔드 머신러닝 워크플로우에 필요한 공유 데이터 및 도구에 셀프 서비스도 연동할 수 있다. ‘클라우데라 데이터 허브(CDH)’는 개발자가 엔터프라이즈 데이터를 안전하게 분석한 후 이를 다양하게 적용할 수 있도록 지원하는 분석 서비스다. 비즈니스 사례별로 애플리케이션을 빠르고 쉽게 구축할 수 있도록 지원한다.

클라우데라 ‘CDP’를 사용하는 고객으로 국내에선 LG유플러스, 삼성화재, KB국민은행 등이 있다. LG유플러스는 ‘CDP’를 통해 페타바이트에 이르는 방대한 데이터에서 인사이트를 도출하고, 고객층의 특징을 고려한 통신 서비스를 제공하고 있다. 삼성화재는 업무 효율성과 고객 만족도를 동시에 개선했다.

KB국민은행은 고객 경험을 이해하고 이를 활용해 최적의 금융 상품과 서비스를 제공하는 것이 미래 금융산업의 핵심 경쟁력이라는 판단을 갖고 CDP를 도입했다. 내‧외부 데이터, 기존·신규 데이터, 정형·비정형 데이터에 대한 데이터 수집, 정제, 분석, 활용 등에 대한 데이터 전략을 수립했다.

멀티‧하이브리드 클라우드 환경 고려한 데이터 플랫폼에 집중

클루커스는 클라우드 관리 서비스 기업(MSP)으로, MS 애저의 서비스를 컨설팅, 구축, 관리해주는 기업이다. 클루커스는 멀티 클라우드 환경을 염두에 두고 데이터 플랫폼을 구축하고 있다. 많은 기업들이 데이터 플랫폼을 구축하기 위해 수집, 저장, 통합, 분석 등의 각 단계에서 별도의 오픈소스를 활용하고 있다. 클루커스는 그러나 오픈소스를 별도로 사용하기보다 클라우드 기반의 플랫폼 형태로 제안하고 있다.

김신영 클루커스 데이터 애널리틱스 그룹 컨설턴트는 단일한 클라우드 데이터 플랫폼을 적용하는 것이 아닌 CSP 별로 강점을 갖는 데이터 분석 서비스를 연동해야 한다는 점을 강조한다. 김신영 컨설턴트는 “일반적인 웹서비스나 게임 등의 서비스는 클라우드에 한번 종속되면 다른 클라우드로 이관하는데 상당한 어려움이 따른다. 하지만 데이터 분석의 경우 서비스에 영향을 주지 않기 때문에 클라우드 이관에 크게 어려움이 없다”면서, “그럼에도 멀티 클라우드 환경을 고려한 데이터 플랫폼을 구성해야 하는 이유는 바로 CSP별로 특화 솔루션을 보유하고 있기 때문”이라고 설명했다.

특히, 클루커스는 전체 데이터 플랫폼을 구성하는 각 단계 중에서도 분석 앞단인 수집 단계와 저장 단계, 전처리 단계에 집중하고 있다. 이 각각의 단계에선 특정한 CSP에 종속되지 않도록 다양한 솔루션들과 오픈소스 연구 개발 등을 병행하며 플랫폼을 완성해나가고 있다. 이와 관련, 김신영 리더는 “물론 어느 한 클라우드 벤더의 리소스를 선택해 플랫폼에 적용하다보면 종속될 수 있다. 하지만 이 경우 다른 CSP 벤더에도 해당 리소스는 API 형태로 호출해서 적용할 수 있기 때문에 이 같은 점도 신경써야 한다”고 말했다.

이어 그는 “고객이 사용 중인 A클라우드에서는 지원하지 않지만 B클라우드에서 강력한 기능을 제공한다고 판단되면 B클라우드에서 제공하는 기능을 활용하기 위해 일부 데이터를 옮겨서 분석하는 것도 충분히 가능하다”면서, “고객이 원하는 기능과 상황에 따라 알맞은 클라우드를 선택해 멀티 클라우드 환경을 구성하는 것이 가장 이상적인 클라우드 활용 방안이다. 이를 돕기위해 클루커스에서는 클라우드 벤더별 다양한 분석 기능 및 AI 솔루션들을 다양한 데이터로 테스트하고 있고, 각각의 클라우드의 장단점을 수집하고 있다”고 설명했다.

클루커스는 클라우드 기반의 데이터 플랫폼을 구축해주는 ‘클루커스 DAaaS(Data Analytics as a Service)’라는 서비스를 제공하고 있다. 이 서비스는 클라우드 벤더사와 상관없이 데이터를 분석할 수 있는 환경을 제공하며, 데이터 수집, 저장, 처리, 분석, 인사이트까지 데이터 분석 플랫폼의 전 과정을 제공한다. 클루커스의 ‘DAaaS’로 사용할 수 있는 DB는 ‘카산드라’, ‘MySQL’, ‘포스트그레SQL’, ‘MS SQL 서버’, ‘오라클 DB’, ‘레디스’, ‘몽고DB’ 등이다. 현재 AWS와 MS, 구글 클라우드, 네이버클라우드 등의 데이터 분석 서비스를 고객의 환경에 맞게 제공하기 위해 업무협약을 맺은 상태다. 아울러, 데이터브릭스, 스파크비욘드 등과 같은 서드파티 솔루션과도 협력을 맺고 있다.

클루커스는 이 같은 클라우드 기반 데이터 플랫폼을 구축하기 위해 데이터 분석 그룹을 운영하고 있다. 클루커스의 데이터 분석 그룹은 데이터 엔지니어(DE) 그룹과 데이터 플랫폼(DP) 그룹, 데이터 사이언티스트(DS) 그룹으로 나눠졌다. 각각의 분야에 맞는 전문 컨설턴트를 보유하고 있다.

[인터뷰] “클라우드로 데이터 플랫폼 구축은 필수적”

Q. 클라우드 기반 데이터 플랫폼과 구축형 데이터 플랫폼의 핵심 차이는.
A. 크게 3가지다. 클라우드 기반 데이터 플랫폼은 ‘자동 확장’을 할 수 있다. 이 기능을 활용해 사용하지 않을 때 과금되지 않게 할 수 있고, 트래픽이 몰리거나 대규모 분석 작업을 할 때는 병렬로 여러 컴퓨팅 노드를 확장해 분산저장 후 분석할 수 있다. 그리고 ‘오토ML’ 기능을 통해 모델을 직접 코드로 개발하지 않고, GUI로 손쉽게 환경만 구성해 자동으로 모델을 개발하고 배포할 수도 있다. 마지막으로 NW 및 HW, SW 설치 등 환경 구성을 시스템 엔지니어 등을 거치지 않고 손쉽게 할 수 있다. 플랫폼이나 라이브러리에 대한 버전 관리를 자동으로 제공하기에 데이터 과학자, 분석가들의 업무 부담이 크게 줄어든다.

Q. 데이터 분석 결과 값에 대한 품질 차이는 없는지.
A. 클라우드와 온프레미스로 데이터 플랫폼을 구성, 분석한 결과 값의 품질차이는 대동소이하다. 활용하는 알고리즘이나 분석에 사용되는 도구는 비슷하기 때문이다. 다만, 확장성 부분이나 더 빠르게 분석하고 예측하는 측면에서는 클라우드 환경의 데이터 플랫폼이 압도적이라고 할 수 있다.

Q. 저장되는 데이터양에 따라 비용도 바뀌는지.
A. 데이터양이 늘어나면 비용도 증가한다. 하지만 이는 온프레미스에서도 마찬가지다. 그렇기 때문에 온프레미스 기반 데이터 플랫폼의 경우 데이터가 어느 정도 쌓이면 테이프를 활용해 데이터를 백업한다. 클라우드에도 테이프 백업과 유사하게 수동 혹은 자동 설정으로 ‘아카이브 스토리지’로 데이터를 보내거나, 저렴한 스토리지 서비스로 데이터를 보낼 수 있다.

비용을 절감할 수 있는 또 다른 방법으로는 전처리를 확실하게 하면 된다. 음성, 영상, 사진, 텍스트 등 수많은 종류의 데이터가 쌓일 경우 분석에 불필요한 데이터도 그 안에는 존재할 것이다. 전처리 작업을 통해 데이터 분석에 필요한 데이터만 남기게 되면, 데이터양도 줄고 비용도 절감된다.

Q. 멀티‧하이브리드 환경을 강조했는데, 실제로 그렇게 구축하려는 고객이 있는지.
A. 보험사와 멀티 클라우드 기반의 데이터 플랫폼을 구성하는 작업을 진행 중이다. 고객의 데이터 레이크는 온프레미스에 두고, 데이터 분석만 MS 애저 서비스를 활용하려는 경우다. 보험사에서 취급하는 데이터는 주로 보안에 민감한 데이터라서 네트워크 암호화, 마스킹 등이 돼야 한다. 데이터 분석을 위해 개인정보가 담긴 데이터를 써야하는 경우도 있다. 하지만 이는 식별할 수 없도록 사전에 데이터를 처리하고, 클라우드로 옮긴다.

현재 금융권에서 이 같은 하이브리드 환경으로 데이터 플랫폼을 구축하기 위해 고민하고 있다. 금융권의 경우 개인정보보호법과 관련된 규정이 많아서 데이터 활용이 원활하지 않다. 최근 어떤 곳은 클라우드 데이터 플랫폼을 쓰기 위해 온프레미스 환경을 구축한 경우도 있다. 또한 금융 및 공공 등 규제 산업군의 경우 법 테두리 안에서 데이터를 최대한 분석하고 활용하고 있다.

Q. 전문성이 꽤 필요할 것으로 보이는데, 관련 팀에 대해 소개해달라.
A. 클루커스는 데이터 애널리틱스 그룹을 보유하고 있다. DA그룹은 데이터 엔지니어 그룹(DE)과 데이터 플랫폼 그룹(DP), 데이터 사이언티스트 그룹(DS)으로 구성돼 있다. 먼저 DE 그룹의 경우 MSSQL, 오라클, MySQL과 같은 RDBMS부터 몽고DB, 카산드라와 같은 NoSQL 등 DB 솔루션을 제공하고 있다. DP 그룹의 경우 모든 클라우드 데이터 플랫폼의 아키텍처를 설계하고 구축하는 서비스를 제공한다. 클라우드 데이터 플랫폼에는 주로 MS의 데이터 팩토리, 이벤트 허브, ADLS, 시냅스, DW 등을 적용하고 있다.

마지막으로 DS 그룹의 경우 AI 기반으로 고객 맞춤형 데이터 분석 및 모델 개발, 시각화 등의 서비스를 제공하고 있다. 데이터 분석의 경우 스파크비욘드, 데이터브릭스, 애저ML, 시냅스 등의 서비스를 제공하며, 데이터 시각화 측면에서는 파워BI, 데이터브릭스 대시보드, 인사이트 리포트 등이 있다. 우리는 아키텍처 설계와 데이터 분석 결과를 시각화하기까지 데이터 플랫폼의 전 단계를 지원하고 있다.

Q. 고객들의 만족도는 어떠한지.
A. 우리는 고객들이 만족할 때까지 서비스를 지원하기 때문에 고객 만족도가 높다고 할 수 있다. 최근 한 사례로 데이터 엔지니어가 없던 고객이 있었다. 그때 우리는 솔루션을 제안하기보다 플랫폼을 제안했다. 플랫폼을 어떻게 배포하는지, 데이터는 어디에 저장하는지, 분석은 어떻게 하는지에 대해 알려줬다. 클라우드 데이터 플랫폼은 사실 반드시 수작업으로 해줘야 하는 부분이 있다. 하지만 이 고객은 엔지니어가 없었다. 이에 우리가 실제로 엔지니어처럼 작업을 수행해주기도 했었다.

박재현 기자 pajh0615z@itdaily.kr

다른기사 보기

상단영역

본문영역

[기획특집] ‘클라우드 기반 데이터 플랫폼’으로 쉽고 빠르게 데이터 분석

데이터 크기 및 종류에 상관없이 분석 가능…AI, ML 연동도 쉬워

기사 댓글 0

비회원 로그인