데이터 사이언스 및 기계학습 위한 빅데이터 분석 파이프라인 구축

▲ 모비젠 빅데이터 통합 분석 솔루션 ‘아이리스’

[컴퓨터월드] 데이터에 기반한 디지털 트랜스포메이션이 가속화됨에 따라 빅데이터를 활용하려는 기업들이 증가하고 있다. 그러나 데이터 통합은 여전히 간단하게 해결할 수 있는 분야가 아니다. 오히려 의미검색과 지식공유/거래, 그리고 기계학습에 의한 추론의 신뢰성이 높아짐에 따라 쉽고 고도화된 분석 작업에 대한 요구도 증가하고 있다. <편집자 주>


모비젠의 빅데이터 분석 솔루션 ‘아이리스(IRIS)’는 기업의 빅데이터 사용 환경에서 빅데이터의 수집부터 분석, 시각화까지의 프로세스를 일원화하고, 분석 파이프라인 프레임워크에 의한 시스템 엔지니어와 데이터 분석가 사이의 사일로를 제거해 분석과 실험에 집중할 수 있는 분석환경을 구축함으로써 조직의 데이터 활용성을 높여준다.

‘아이리스’는 정형, 비정형의 모든 데이터를 실시간으로 통합해, 비전문가를 위한 UI기반의 그래프 분석 시각화부터 데이터 과학자의 알고리즘 기반 분석 및 AI 개발 활동까지 지원이 가능하다.

데이터 수집부터 시각화까지의 전체 라이프사이클 관리는 플랫폼 수준의 인프라가 도입돼야 가능하다. 오픈소스 만으로 구축할 경우에는 복잡도가 높아지고 수많은 기술 스택이 필요하게 되며, 이로 인한 학습 등 러닝커브가 높아지게 되고 운영의 안정화를 기대하기 어렵다.

모비젠의 ‘아이리스’는 하루에 20TB(테라바이트) 이상의 데이터가 발생하고 PB(페타바이트) 수준의 데이터를 관리해야 하는 이동통신사의 빅데이터 통합 분석 플랫폼 구축 경험을 기반으로 하둡(Hadoop) 기반의 빅데이터 플랫폼 대비 기술 복잡성을 낮춰 안정성과 운영 효율성을 확보했다.


‘아이리스(IRIS)’ 플랫폼 구성

유연한 데이터 수집·변환·적재 ‘아이리스 ETL’

‘아이리스 ETL’은 클라우드 및 온프레미스 환경에서 다양한 형태의 데이터 소스를 여러 종류의 연계 방식을 통해 수집하고, 사용자가 요구하는 형태로 변환해 ‘아이리스(IRIS)’ 빅데이터 저장소에 적재한다. 분산 수집 구조로 설계돼, 고속의 데이터 처리가 가능하므로 배치(batch)뿐만 아니라 실시간성 데이터의 처리에도 적합하다.

이벤트 기반의 아키텍처인 ‘아이리스 ETL’은 ETL Job 프로세스 및 스케줄링 관리 기능을 제공해 사용자 편의성과 업무 효율성을 높였다. 또한 장애 시에도 프로세스 자동 복구를 통해 데이터 중복 및 유실 방지와 서비스 설정 정보 암호화를 통해 안정성과 보안성을 높인 것이 장점이다.

고성능 빅데이터 데이터베이스 ‘아이리스 DB’

‘아이리스 DB(아이리스 빅데이터 데이터베이스)’는 분산 병렬 처리 기반의 대량 데이터를 실시간으로 저장 처리가 가능한 구조의 빅데이터 저장소이다. 하둡과 유사한 마스터 노드-데이터 노드 구조이나, 실제 데이터의 처리에는 다수 데이터 노드의 자원을 활용하여 분산 처리함으로써 마스터 노드의 부하와 상관없이 고성능을 보장한다. RAM, SSD, HDD를 동시에 활용하는 하이브리드 형태로써 인메모리(In-Memory) 기반 데이터 처리가 가능한 구조다. 따라서 검색 질의에 대한 응답 속도가 매우 빠르다는 장점이 있다. 또한 데이터 분산 저장과 동시에 인덱싱을 함으로써 실시간성 검색을 지원한다.

▲ ‘아이리스(IRIS)’ 플랫폼 구성도

지능형 빅데이터 분석을 위한 솔루션 ‘아이리스 애널라이저’

아직까지 빅데이터 분석 분야에서의 현실은 현업 담당자 또는 데이터 분석가가 분석 과정에 직접 개입해 데이터 준비부터 모델링, 시각화 등 일련의 분석 단계를 거치며 결과를 도출해 내는 프로세스를 따르고 있다. IRIS 빅데이터 분석 플랫폼 ‘아이리스 애널라이저(IRIS Analyzer)’는 이러한 실제 분석 업무 환경에 최적화해 개발된 분석 프로세스를 적용하고 있다.


기술적 특장점

‘아이리스’는 메모리 기반의 데이터 실시간 처리, 대용량 데이터 분산 처리 등의 기술을 바탕으로, ▲실시간 데이터 분석 및 상관관계 분석 ▲빅데이터 검색 및 통계 ▲비정형 데이터의 배치 분석 등을 위한 최적의 환경을 제공하며, 다양한 알고리즘이 적용된 고급 분석 엔진이 탑재돼 이상 징후 탐지, 시계열 예측 등 기업의 비즈니스 요구에 신속히 대응할 수 있는 고급 분석 환경을 제공한다.

신뢰성 높은 데이터 통합

데이터 수집-적재(통합)의 목적은 데이터 레이크(Data Lake)를 만드는 것으로 끝나는 것이 아니라 분석가들이 데이터로부터 인사이트를 쉽고 빠르게 도출할 수 있는 기반 환경을 제공하는 것이다. ‘아이리스’는 데이터 처리의 유연한 확장과 신속한 장애복구 대응이 가능한 ETL 프레임워크를 기반으로 실시간 이벤트를 고속으로 처리해 데이터의 신뢰성을 높이고 전처리 작업의 효율화를 제공한다.

실시간 인덱싱

반도체, 플랜드 등 자동화 시설이나 5G 이동통신, 스마트 그리드, 스마트 시티와 같은 환경에서의 데이터는 초당 수백만 ~ 수천만 건 이상의 데이터가 발생하며, 이렇게 고속으로 발생되는 빅데이터를 적시에 분석하려면 실시간 색인생성은 필수적이다.

‘아이리스’는 실시간 인덱싱 엔진을 통해, 데이터가 디스크 저장소에 적재되기 전, 메모리 상(In-memory)에서 초대용량 데이터의 색인을 생성함으로써 실시간성을 보장한다.

분산 하이브리드 저장소

실시간 분석을 위한 인메모리 활용 기술은 상당 부분 일반화됐으나, 데이터의 증가에 따른 시스템 도입 비용은 여전히 부담이다.

일반적인 인메모리 분석 기술의 경우, 메모리 용량의 범위 내에서만 실시간 처리가 가능한 한계가 있으며, 분석 데이터의 연속적 관계성 보장에 취약하다. 그러나 ‘아이리스’는 RAM, SSD, HDD 및 CPU 자원의 최적화와 독자적으로 개발된 쿼리엔진을 사용함으로써 대용량-장기간 데이터에 대한 고속 OLAP을 위한 고성능 분석 환경을 구현했다.

▲ ‘아이리스’의 분산 하이브리드 구조

범용 빅데이터 분석 워크플로우 적용

빅데이터 분석가들의 일반적인 분석 업무 프로세스를 ‘아이리스(IRIS)’에 적용해, 분석가들이 쉽고 빠르게 빅데이터를 분석할 수 있는 환경을 제공한다.

▲ ‘아이리스’에 적용된 빅데이터 분석 워크플로우

원천데이터에 대한 직접 탐색 및 시각화 지원

‘아이리스’는 빅데이터 분석가들이 개발자의 도움 없이 쉽고 빠르게, 원천(Source, Raw) 데이터에 직접 접근해 데이터를 탐색하고 데이터 분포를 이해할 수 있는 환경을 제공한다. 또한 소스 데이터를 초고속으로 시각화할 수 있으며 분석 목적에 따라 다양한 시각화 차트를 제공함으로써, 쿼리 분석에서부터 시각화까지 전체 분석 과정에 대한 워크플로우를 관리한다.
<그림4> 빅데이터 탐색 및 고급 시각화 기능

머신러닝 기반의 이상 탐지

‘아이리스’는 사용자가 지정한 특정 데이터 영역에 대한 이상 탐지기능을 제공한다. ‘아이리스’의 머신러닝 기반 이상탐지 엔진을 이용해, 사용자는 선택한 데이터 영역에서 2~3번의 클릭만으로 비정상적인 케이스(case)를 파악할 있다.

▲ 이상탐지(Anomaly Detection)

사용자 정의 대시보드 및 보고서 생성

‘아이리스’는 사용자가 개발자의 도움 없이 사용자 정의 보고서를 생성해 대시보드를 구성할 수 있는 직관적인 GUI를 제공한다. 사용자는 캔버스 상에 다양한 표와 차트를 옮겨 놓고 관련 데이터를 매핑함으로써 보고서를 쉽고 빠르게 생성할 수 있다.

또한 공간 빅데이터 처리를 위한 공간 쿼리 엔진을 내장하고 있으며, GIS 엔진과 결합해 다층의 레이어에 다양한 데이터를 표현할 수 있는 기능을 제공한다.

▲ 사용자 정의 보고서 및 대시보드 기능

분석 데이터 모델링

분석가가 별도의 데이터 모델링을 위해 주피터(Jupyter), R스튜디오(R-Studio), 제플린(Zeppelin) 등 오픈소스 분석도구와의 인터페이스를 제공하며, 모델링한 중간 산출물은 노트북형태로 공유 가능하다. 특히 ‘아이리스’에서 탐색을 통해 샘플링된 데이터를 오픈소스 분석도구에서 세부적으로 분석할 수 있도록 ‘아이리스’와 오픈소스 분석도구 간에 자유로운 데이터 공유가 가능하다.

기계학습 알고리즘 연동

‘아이리스’에는 각종 기계학습을 적용할 수 있는 명령어 인터페이스를 제공하고 있으며, 몇몇 기계학습 알고리즘은 이상탐지(ade), 아웃라이어 탐지(anomalies) 등의 명령어 형태로 제공된다.


제품의 활용 분야

‘아이리스’는 빅데이터의 수집, 가공, 저장, 탐색, 분석 및 인공지능을 연결하는 토털 서비스를 제공한다. 따라서 빅데이터 시스템 구축은 물론, 빅데이터의 실시간 감시 및 탐색, 서비스 개선, 성과 분석, 비용 절감, 예측 등 기업이 데이터를 활용해 수행할 수 있는 다양한 업무 분야에 활용이 가능하다.

▲ ‘아이리스’ 활용 분야

‘아이리스’는 통신 사업자처럼 대량의 데이터를 실시간으로 탐색해야 서비스 사업자를 비롯, 보안 데이터를 처리하는 보안관련 기업, 다양한 네트워크 데이터를 처리하는 IT 기업, 공공 데이터를 처리하는 관공서 등 다양한 분야에서 활용되고 있다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지