성능 요구 충족하며 급성장, 새로운 솔루션도 속속 등장

[컴퓨터월드] 4차 산업혁명의 초입에서 IT는 기업의 생존을 위한 필수 역량이 됐다. 그러나 쏟아지는 데이터를 분석해 비즈니스 인사이트를 추출하는 BI(비즈니스 인텔리전스)는 물론, 일견 연관이 없어 보이는 방대한 데이터로부터 유의미한 결과를 도출해내는 빅데이터 분석, 그리고 머신러닝·딥러닝에 기반한 인공지능의 구현 등은 모두 점점 더 많은 컴퓨팅 파워를 요구하고 있다. 그동안 국가 수준의 과학 연구 과제에나 쓰이던 고성능 컴퓨팅(HPC) 기술이 다양한 분야의 기업들에게까지 확산되고 있는 이유다. 기업들을 적극적인 투자와 효율성 사이에서 고민하게 만들고 있는 오늘날, 더욱 효율적인 컴퓨팅이라는 과제를 해결하기 위해 도전하는 HPC 관련 기업들을 조명해봤다.


빅데이터·인공지능, HPC 인프라가 뒷받침

오늘날 우리는 본격적인 빅데이터 분석 및 인공지능(AI) 시대의 초입에 들어서있다. 사회 전 분야에서 IT가 보편화되면서 곳곳에서 생성되는 데이터가 폭발적으로 증가해 빅데이터 분석을 위한 환경이 마련되고, 방대한 데이터를 기반으로 머신러닝·딥러닝 기술과 AI의 구현이 서서히 꽃을 피우기 시작했다. 그리고 이러한 시대로의 진입은 방대한 데이터의 마련, 머신러닝 알고리즘의 고도화, 그리고 이를 뒷받침하는 하드웨어 기술의 발전까지 3가지 요소가 잘 어우러졌기에 가능했다.

특히 하드웨어 및 소프트웨어를 포함하는 IT인프라 측면에서, 빅데이터 분석이나 AI 구현을 원활히 하기 위해서는 일반적인 IT시스템보다 성능이 훨씬 뛰어난 시스템이 필요하다. 이에 최근에는 이러한 요구를 만족시키는 고성능 컴퓨팅(High Performance Computing, HPC) 인프라의 중요성이 높아지고 있다.

일반적으로 HPC는 다수의 컴퓨팅 자원을 묶어 크고 복잡한 문제나 고급 연산 문제를 처리하는 시스템으로 볼 수 있다. HPC는 이제 기존 사용 영역인 과학 연구뿐만 아니라, 제품 개발을 위한 모델링 및 시뮬레이션, AI 연구 및 구현을 비롯해 주식거래 및 금융 리스크 분석, 소비자 분석 등 비즈니스를 위한 빅데이터 영역에 이르기까지 다양한 분야에서 수요를 확대해나가고 있다.

한국HPE 관계자는 “민간 부문의 기업들은 HPC를 사용해 보다 빠른 인사이트와 인텔리전스를 확보, 경쟁에서 우선순위를 차지하기 위해 노력하고 있다”면서, “비즈니스, 정부 및 학계 사용자를 위한 HPC의 가치는 앞으로 머신러닝, 딥러닝 등 다양한 AI 기술들을 포함하는 빅데이터 분석을 위해 독특하고 파워풀한 리소스로 더욱 발전하게 될 것이다. 다양한 범주의 기업과 선도 조직들이 최고 성능 및 최고 용량의 HPC를 사용함으로써 경쟁자를 능가하고자 노력하는 것은 더 이상 놀라운 일이 아니다”라고 밝혔다.


급성장하는 국내외 HPC 시장

이러한 추세를 반영하듯 HPC는 최근 IT시장에서 급성장하고 있는 분야 중 하나로 꼽히고 있다. 특히 AI가 주목받으면서 머신러닝·딥러닝을 위한 HPC 솔루션이 가장 큰 성장을 보이고 있다.

인터섹트360리서치(Intersect360 Research)는 2016년부터 2020년까지 전 세계 HPC 시장이 연평균 5.2% 성장하면서 2020년 말까지 369억 달러 규모를 형성할 것이라고 예측했다. 기준 영역은 조금 다르지만 IDC 역시 글로벌 HPC 시장이 2015년 221억 달러에서 2019년에는 312억 달러 규모에 도달, 연평균 약 8%대의 성장을 보일 것으로 예상했다.

특히 하이페리온리서치는 지난해 발표한 보고서를 통해 ‘머신러닝·딥러닝 및 AI를 위한 HPC’ 관련 매출이 2015년 2억 4,600만 달러에서 2017년 약 5억 100만 달러로 성장했으며, 2021년에는 12억 6,000만 달러 수준에 달할 것으로 예상했다. 2016년부터 2021년까지의 연평균성장률(CAGR)은 29.5%에 달한다.

▲ 전체 글로벌 HPDA 서버 매출 및 HPC 기반 AI 서버 매출

한국HPE 측은 “인공지능 부문은 국내외를 막론하고 성장하고 있으며, 특히 2018년에는 국내 HPC 매출에서 차지하는 비율이 최소 30%, 최대 50%에 육박할 것으로 전망하고 있다”면서, “이외에도 렌더링 시스템 및 금융기관 등에서 HPC를 적극 도입하고 있으며, 이는 컴퓨팅 파워를 활용하는 수요가 기존 공공/교육/제조 중심에서 급속히 확대되고 있다는 뜻”이라고 말했다.

한국HPE는 국내 HPC 수요 확대에 적극적으로 대응하고 있다. 정석원 한국HPE 부장은 지난해 9월 새로운 HPC 솔루션을 국내에 정식으로 소개하는 자리에서 “현재 전 세계 기업들의 기술 투자액 가운데 머신러닝 관련 투자 비중이 가장 크다. 이러한 가운데 HPE는 전 세계뿐만 아니라 아시아태평양 및 일본(APJ) 시장에서도 연평균 10% 이상의 성장을 보이고 있다”면서, “국내 역시 머신러닝을 위한 HPC 솔루션이 한국HPE에서만 수백억 원의 매출을 만들었고, 연평균 30% 이상의 성장률을 기록할 정도”라고 말했다.

한편 AI뿐만 아니라, HPC를 기반으로 하는 고성능 데이터 분석(High Performance Data Analysis, HPDA) 서버와 관련한 매출도 큰 폭의 성장이 기대되고 있다. 하이페리온리서치는 전 세계 HPDA 서버 매출이 2015년 14억 5,500만 달러에서 2017년 23억 3,300만 달러로 성장할 것이며, 2021년에는 40억 4,000만 달러의 매출을 기록할 것이라고 전망했다. 2016년에서 2021년까지의 연평균성장률(CAGR)은 17%다.

▲ 전 세계 머신러닝·딥러닝 및 AI HPC 매출

[인터뷰]

▲ 김성재 시앤지원 상무
“HPC 및 HPDA 아키텍처·솔루션 확대 중”

김성재 시앤지원 상무


국내외 HPC 시장 현황은 어떠한가.

빅데이터 시장은 하루가 다르게 변화하고 있다. 2006년 더그 커팅(Doug Cutting)과 마이크 캐퍼렐라(Mike Cafarella)가 개발한 하둡(Hadoop)을 아파치(Apache) 재단에서 공개 소프트웨어로 전환한 후, 많은 개발자의 노력으로 성능 개선 및 기능들이 추가되고 있다.

일반적으로 빅데이터 분석을 한다고 하면, 하둡을 이용한 대용량 데이터 분석을 말한다. 그러나 현재 빅데이터 분석을 위해 다양한 시도가 이뤄지고 있으며, 여러 솔루션들이 개발되고 있다. 대표적으로 아파치 스파크(Apache Spark), 몽고DB(MongoDB), MPP(Massive Parallel Processing) 방식의 DB 등이 있다. 이러한 분석 툴들은 각자의 장점을 이용해 제조, 공공, 금융, 국방, 유통 등의 분야에서 다양한 빅데이터를 분석하는 데 사용되고 있다.

빅데이터의 분석은 다양한 데이터(정형/반정형, 비정형)들을 대량으로 수집해 빠르게 처리한 후 데이터들이 가지고 있는 가치를 발견하는 것이다. 하지만 현재에는 데이터에 대한 실시간 처리 및 분석이 요구되고 있으며, 이는 스파크 스트리밍(Spark Streaming)을 이용한 인메모리(In-Memory) 처리 기법을 한 예로 들 수 있다. 또한 머신러닝(ML), 딥러닝(DL), 인공지능(AI)를 이용한 분석 자동화 및 정확도(Accuracy) 향상을 목표로 하고 있다.

하둡이나 MPP 방식의 DB들은 저렴한 x86서버들을 기반으로 하고 있으며, 각 서버들 간의 데이터 통신을 위해 별도의 10G 네트워크를 구축하고 있다. 이러한 방식의 빅데이터 분석 플랫폼 구축은 초기에는 TCO(총소유비용)가 낮지만, 보다 많은 데이터를 저장하고 처리할수록 서버들의 확장과 솔루션의 라이선스 비용(노드 또는 코어 수로 책정)이 선형적으로 증가한다. 또한 서버들을 장착한 랙들이 많은 상면을 차지하며, 많은 전력 소모로 인해 TCO가 급격히 높아지는 상황이 발생하고 있다.


TCO 상승과 관련해 좀 더 자세히 설명해 달라.

시앤지원이 빅데이터 분석 플랫폼을 구축한 S그룹사의 경우를 예로 들 수 있다. S그룹사는 제조 공정에서 발생하는 각종 센서, 로그 데이터의 분석을 위해 시스템을 1랙(16노드, 10G 스위치, 하둡 라이선스)으로 구축했으며, 수율 분석을 통해 불량률을 낮춰 상당한 원가 절감 효과를 봤다.

그러나 현재 초기에 16노드로 구축한 것을 88노드(5.5랙)으로 확대해 운영 중이며, 이로 인한 고비용의 상용 하둡 라이선스와 전력 소모 및 많은 상면을 차지하는 문제점이 발생해 TCO가 높아지는 구조로 변하고 있다.

해외에서는 이러한 문제점을 해결하기 위해 HPDA(High Performance Data Analysis)라는 개념 및 아키텍처를 적용하기 시작하고 있다. HPDA는 HPC를 기반으로 하는 데이터 처리 분석 방법이다. HPC는 수십 년간 여러 과학 분야의 문제점을 해결하기 위해 잡(Job)들을 분산, 병렬 처리하는 기법을 제공하고 있다.

 
현재 하둡 및 하둡 생태계가 데이터의 분산 저장 및 처리는 가능하지만 잡의 병렬 처리에 적합한 아키텍처는 제공하지 못하고 있다. 또한 하둡의 HDFS는 3카피 복제 시간의 문제와 저장 공간의 70%를 초과하는 데이터를 저장할 경우 처리 속도의 저하 문제가 이슈가 되고 있다. 이러한 문제를 해결할 수 있는 방안으로 HPDA와 HPC 솔루션이 주목받고 있다.

HPC는 각 노드들의 모든 자원(CPU, 메모리, 디스크 등)을 공유하는 구조로 설계돼 있으며, 노드 간의 데이터 통신을 위해 인피니밴드 EDR(100G) 스위치를 사용하고 있다. HPC는 주로 과학 기술 연구에 사용됐으나, 점차 제조업, 물류, 유통, IT서비스 등 전 산업으로 확대 중이다.

특히 HPDA 및 HPC는 빅데이터 시대에서 중요한 데이터 생성 및 처리 속도를 해결하는 방법으로 제시되고 있다. 2년 전부터 해외 HPC 분야에서는 빅데이터 분석 시장을 HPC의 신규 시장으로 바라보고 있으며, HPC를 이용한 장비 및 솔루션의 수요가 급증할 것으로 예측하고 있다. HPC와 빅데이터의 만남을 통해 보다 많은 데이터를 신속히 처리하는 솔루션들도 속속 개발되고 있다.


병렬·분산 방식 효율성 문제, 아직은 어려운 HPC

오늘날 서버를 포함하는 컴퓨팅 하드웨어는 단일 기기의 성능을 높이는 스케일업(Scale-up) 방식으로는 한계에 도달했다는 평가를 받고 있다. 메인프레임과 같은 스케일업 방식의 컴퓨터는 사실상 새로운 하드웨어의 개발이 중단됐다고 볼 수 있으며, 병렬·분산처리 방식의 컴퓨터가 일반화됐다.

박운영 타이달스케일코리아 지사장은 “병렬 방식의 컴퓨터를 쓰기 위해서는 일반적인 소프트웨어가 아닌, 특별한 소프트웨어를 인프라에 맞춰 조정해 다시 코딩을 하거나, 큰 데이터를 잘 나눠 여러 개의 잡으로 나누고 합치는 것이 요구된다. 즉 일반적인 사용방식으로는 다루기가 쉽지 않고, 특히 비효율성은 더욱 커지고 있다”면서, “이미 일반연구소나 기업이 다루고 있는 업무, 연구, 분석들도 그 데이터의 크기가 대형화됐고, 분석의 복잡성 역시 단일 시스템 이상의 자원을 요구하고 있다”고 설명했다.

이어 박 지사장은 “물론 다양한 접근방식으로 문제를 해결하겠지만, 그 과정의 복잡도나 소요시간(time to answer)은 어쩔 수 없이 늘어나게 된다. 때문에 경쟁에 이기기 위한 시간을 확보하기에는 모자라다. 즉, 이제 점점 더 쉽게 사용할 수 있는 슈퍼컴퓨터급 HPC를 통해 기업에서 경쟁사 대비 더욱 신속하게 활용 가능한 답을 먼저 확보할 필요가 커지고 있다”고 말했다.

최근에는 가속기(Accelerator) 및 GPU를 포함하는 이기종 컴퓨팅이 발전하면서 소수의 시스템으로도 높은 컴퓨팅 성능을 확보할 수 있게 돼, 그동안 최고 성능의 HPC인 슈퍼컴퓨터의 활용이 필요했던 영역을 중심으로 HPC가 성장하고 있다. 그러나 동시에 HPC를 통해 도출된 결과에 대한 기대치 역시 높아지면서, 인프라의 신속한 도입 및 확장 또한 요구되고 있다.

이와 관련, 한국HPE 관계자는 “슈퍼컴퓨터와 같은 HPC 인프라 구축에는 아직 넘어야 할 산들이 많다. 제대로 최적화되지 못한 레거시 인프라, 유연하지 못하고 비효율적인 프로세스 및 리소스의 활용, 미래 기술 투자 계획 등이 HPC 마켓에서 고객이 마주하게 되는 과제들이다. 따라서 구축 용이성, 기술력 확보, 하이브리드 IT를 통한 클라우드 인프라 구축의 필요성이 그 어느 때보다 커지고 있다”고 설명했다.


새로운 HPC 솔루션 속속 등장

AI 및 빅데이터 분석 등과 관련한 수요가 커지면서 HPC 시장은 이제 자연스레 새로운 기술 발전을 요구하고 있다. 전 세계적으로 다양한 기업들이 HPC 영역에 도전, 새로운 솔루션들이 속속 등장하고 있는 것이다. 그리고 그 중 가능성이 있는 솔루션들은 국내에서도 업계 관계자들이 발 빠르게 움직이며 시장 선점을 위해 나서고 있다.

기존 델EMC나 HPE와 같은 기업들을 비롯해 국내 서버 업체들 역시 GPU 등 다수의 가속기를 장착한 HPC들을 선보이고는 있지만, 새롭게 등장한 솔루션들은 고유한 소프트웨어 및 하드웨어 기술을 바탕으로 일반적인 HPC 서버와 차별화를 가져가며 컴퓨팅 자원의 효율성을 높이고자 하고 있다.

빅데이터 전문업체 시앤지원은 지난해 9월 미국 실리콘밸리의 A3큐브(A3Cube)와 HPC 기술 기반 슈퍼컴퓨팅 어플라이언스에 대한 국내 총판 계약을 체결하고, 다양한 분야에 HPC 어플라이언스 및 각종 분석 솔루션을 공급할 예정이다. 특히 일반 과학 연산 처리 분야 HPC 시장보다는 빅데이터와 머신러닝·딥러닝 및 AI 분야에 최적화된 통합 솔루션 공급을 목표로 한다. 회사에 따르면 A3큐브의 HPC 어플라이언스는 기존대비 최대 42배 이상의 SQL 처리속도 향상이 가능하다.

또한 지난해 12월에는 타이달스케일(Tidalscale)이라는 미국 실리콘밸리 기업이 한국에 글로벌 첫 지사를 냈다. 타이달스케일은 소프트웨어 정의 서버(Software-Defined Server) 기술을 기반으로 HPC 및 빅데이터 분석 수요가 높은 국내 기업 및 공공기관 공략에 나설 계획이다. 이 회사의 핵심 기술은 다수 노드의 컴퓨팅 자원을 고유의 ‘하이퍼커널(Hyperkernel)’을 기반으로 단일 시스템처럼 통합해 사용하는 것으로 요약된다.

즉 기존 가상화(Virtualization) 기술이 서버 내의 컴퓨팅 자원을 가상 머신에 분배해 쓰는 개념이었다면, 타이달스케일의 ‘하이퍼커널’ 기술은 반대로 수많은 랙에 분산돼 있던 컴퓨팅 자원들을 하나로 통합하기 위한 역 하이퍼바이저(Inverse Hypervisor) 기술이라는 설명이다.

한편 HPC 부문에서 현재 1위 자리를 단단히 다지고 있는 HPE는 지난 2016년 SGI인수 발표와 함께 과학기술 및 교육용 슈퍼컴퓨터에서부터 AI까지를 포괄하는 최고 수준의 기술력을 확보하게 됐다.

특히 한국HPE는 지난해 HPE APJeC(중국을 제외한 아시아태평양 및 일본)에서 가장 높은 HPC 매출을 올리며 국내 HPC 시장 확대를 이끌고 있다. HPE는 지난해 고성능컴퓨팅 전용 서버 라인업인 ‘아폴로(Apollo)’ 시리즈 신제품을 비롯해 업계에서 가장 빠른 병렬 프로세싱 성능을 내세우는 ‘HPE SGI 8600’ 등을 선보였다.
 

 

■ 빅데이터·인공지능을 위한 업체별 HPC 제품 특징과 전략


01 A3큐브 – 국내 총판 시앤지원 | 빅데이터 분석에 적합한 HPC 어플라이언스

자체 개발한 시스템SW·파일시스템 기반 HPDA 플랫폼 제공

 
A3큐브와 국내 총판 계약을 체결, HPC 어플라이언스를 공급함과 동시에 지사 역할도 대행하고 있는 시앤지원은 2013년부터 지금까지 델EMC의 DCA(Data Computing Appliance) 기반 빅데이터 분석 플랫폼을 국내 S사의 30여개 업무 시스템에 적용, 구축, 운영하고 있는 빅데이터 전문 업체다. 5년간의 빅데이터 플랫폼 운영 노하우와 하둡(Hadoop) 및 그린플럼DB(GreenplumDB) 관련 전문기술을 축적하고 있다.

A3큐브는 자체 개발한 ‘포르티시모 파운데이션(Fortissimo Foundation)’ 시스템 소프트웨어를 기반으로, 디스크 I/O(입출력)의 병목 현상을 해결하는 ‘아니마 병렬파일시스템(ANIMA Parallel File System)’과 인피니밴드 스위치, NVMe 오버 패브릭(NVMe over Fabric)을 결합한 어플라이언스 하드웨어를 통해 노드간의 데이터 공유 및 전송 기능을 초고속으로 제공하는 HPDA 플랫폼을 제공한다.

A3큐브의 HPC 어플라이언스에 탑재된 포르티시모 파운데이션의 ‘울트라 캐싱’ 기능은 RDMA(Remote Direct Memory Access)을 이용해 노드 간의 메모리 공유 및 확장을 제공한다. 울트라 캐싱은 NVMe 드라이브를 활용한 구성도 가능하며, 파일 I/O(입출력)의 성능 개선을 위해 울트라 캐싱을 전문 스토리지에서 사용하는 라이트백 캐시(Write-Back Cache)로도 활용 가능하다.

A3큐브는 시앤지원이 국내 공급을 시작하는 ‘F-730 시리즈’를 비롯해 ‘그리포(Grifo)’, ‘키라-CS(KIRA-CS)’, ‘키라-EMTA(KIRA-EMTA)’ 등 HPC 기반의 슈퍼컴퓨팅 플랫폼을 어플라이언스로 제작·판매하고 있다.

▲ A3큐브 ‘포르티시모 파운데이션’의 구성 및 특징

김성재 시앤지원 상무는 “포르티시모 파운데이션의 아니마PFS는 HPC 시장에서 주로 사용되는 러스터(Lustre) 파일시스템보다 안정적이며 데이터의 병렬, 분산 처리에 최적화됐다. 러스터FS는 메타데이터를 관리하는 노드가 별도로 운영되며, 실질적인 데이터 저장은 다수의 오브젝트 스토리지 서버(Object Storage Server, OSS) 노드로 구성되는 구조다. 이러한 구조는 장애 포인트 증가와 대량의 데이터에 대한 전송 속도 저하를 유발한다”고 설명했다.

김 상무는 이어 “A3큐브는 이를 해결하기 위해 메타데이터 서버가 없는(No Metadata Server) 아키텍처를 구현했다. 즉 메타데이터 관리 서버 없이 파일의 위치 및 속성 정보 등을 각 서버에서 인덱싱 방식으로 생성, 관리하며 모든 서버가 인덱싱 정보를 공유한다. 아니마PFS는 각각의 노드에 내장된 SAS, SSD, NVMe 등 디스크들을 하나의 볼륨(미러 방식)으로 구성한 후, 각 노드에서 생성된 신규 볼륨을 마운트해 사용할 수 있도록 한 것이 동작 원리다. 동일한 볼륨을 각 노드에서 인식하기 때문에 어떤 노드에서나 파일의 읽기/쓰기 등을 할 수 있으며, 데이터를 공유할 수 있다”고 부연했다.

A3큐브의 제품은 마이SQL(MySQL), 포스트그레스큐엘(PostgresSQL), 그린플럼DB(GreenplumDB) 등과 같은 일반 RDBMS를 탑재해 운영하면 SQL 처리 속도를 최대 42배 향상시킬 수 있다. 또한 사용자가 원하는 빅데이터 및 기상 예측, 유체역학 분석 등 각종 HPC 애플리케이션을 운영하기 위해 보다 빠른 분석과 예측을 위한 x86서버, 인피니밴드, 메모리 루니 익스프레스 카드(Ronniee express card) 등의 하드웨어와 포르티시모 파운데이션 소프트웨어를 함께 제공해 고성능을 보장한다.


고유의 GPU 공유 기술로 연산 속도 극대화

A3큐브의 HPC 어플라이언스는 또한 노드 확장성을 위해 버터플라이 토폴로지(Butterfly Topology)를 적용한 맞춤형(customized) 인피니밴드 라우터 기법을 사용하며, 머신러닝·딥러닝 및 AI에 적합한 엔비디아 ‘P100’ 기반 GPU 공유(Sharing) 기술을 제공한다. 이는 GPU 도메인을 통해 각 노드에서 전체 GPU들을 병렬 처리할 수 있도록 함으로써 GPU 성능을 최대치로 활용할 수 있도록 하는 것이다.

A3큐브의 GPU 공유 기능은 rCUDA를 기반으로 한 엔터프라이즈 상용 솔루션으로, 세계적으로 A3Cube의 고유 기술이다. GPU 공유는 머신러닝·딥러닝, AI에 많이 활용되고 있는 엔비디아 ‘P100’ GPU을 탑재한 노드를 사용한다.

전통적인 GPU 클러스터 방식은 클러스터 내 다른 노드의 GPU를 사용하는 경우 GPU 연산 속도가 현저히 저하된다. 하지만 A3큐브의 GPU 공유 기능은 각각의 노드에 장착된 GPU를 공유할 수 있는 구조로써, 사용할 수 있는 GPU의 수량에 제한이 없고 GPU 활용을 극대화시키며, 연산 속도가 GPU 개수만큼 선형적으로 증가한다.

▲ A3큐브의 GPU 공유

또한 GPU 공유 기능을 이용, 클라우드 서비스 구축도 가능하다. 기존 퍼블릭 클라우드에서 제공하는 GPU 클라우드 서비스 대비 저렴하게 프라이빗 클라우드 환경에서 GPU 플랫폼을 구축하고 게스트OS에 GPU들을 할당해줄 수 있다.

김성재 시앤지원 상무는 “GPU는 고가의 부품으로써 ROI를 향상시키기 위해 보다 많은 사용자가 지속적으로 GPU 연산을 할 수 있는 구조를 제공해야 한다. A3큐브의 경우 GPU가 장착되지 않은 물리적 서버나 VM(게스트OS) 환경에서도 GPU 공유 클라이언트를 통해 공유된 GPU들을 자신의 자원처럼 바로 활용할 수 있다”면서, “이러한 HPC 기능을 내재한 A3큐브의 HPC 어플라이언스는 보다 빠른 데이터 연산과 처리를 추구하고 있으며, HPC의 각종 기능 및 솔루션을 통합된 패키지로 제공하려고 항상 노력하고 있다”고 밝혔다.

아래 그림은 하둡의 처리 속도를 측정하는 테라소트(TeraSort) 벤치마크 결과다. ‘Standard Hadoop implememtation’은 21노드로 구성된 하둡 클러스터이며, A3큐브는 8노드로 구성한 하둡 클러스터다. 결과적으로 A3큐브는 일반 x86서버를 이용한 하둡 클러스터보다 1/3 적은 자원으로 최대 40배 이상의 성능 향상을 할 수 있다.

▲ 일반 21노드와 A3큐브 8노드로 구성한 하둡 클러스터의 테라소트 벤치마크 결과 비교

김성재 시앤지원 상무는 “A3큐브는 HPC의 병렬, 분산 처리 기법을 통한 초고속 데이터 분석 플랫폼을 저렴한 비용으로 구축할 수 있는 모든 솔루션을 제공하고 있다. 또한 현재 분석 플랫폼의 문제점인 라이선스 비용, 상면, 전력 절감을 통해 ROI 향상에 기여한다”고 강조했다.


02 타이달스케일 | “가상화 이후 최대 혁신…IT 새 역사 쓴다”

 
‘하이퍼 커널’로 자원 통합…간편한 HPC 구축

타이달스케일은 현재 CTO를 맡고 있는 아이크 나시 박사(Dr. Ike Nassi)가 2013년 설립한 기업이다. 회사가 주창하는 ‘소프트웨어 정의 서버’ 개념은 다수 노드에 위치한 컴퓨팅 자원을 ‘하이퍼커널’ 기술로 한데 모아, 인메모리 컴퓨팅 및 HPC에 보다 적합한 하나의 자원 풀(pool)로 구성한다는 것이 첫 번째 핵심이다. 두 번째 핵심은 이렇게 모아진 전체 시스템 자원을 머신러닝에 기반해 유연하게 자동으로 분배해 쓸 수 있도록 한다는 것이다.

박운영 타이달스케일코리아 지사장은 “VM웨어 등 기존의 가상화가 하나의 하드웨어 위에서 만들어냈던 인프라 구조를 이제 전체 데이터센터에 확장할 수 있다고 생각하는 것이 가장 쉬운 비유”라면서, “과거 스케일업 시스템이 가졌던 프로세서 간 기계적/정적인 버스구조를 머신러닝 기반의 스마트 버스 형태로 바꿈으로서 가상의 대형서버를 생성하는 것이다. 하이퍼커널은 필요시에만 동작하는 구조로 대부분의 시간은 하드웨어 성능에 가깝게 수행돼 가상화 부하는 거의 0에 가깝다. 전체노드의 주 메모리를 마치 L4캐시처럼 사용해 게스트OS에서의 프로그래밍 구조에 변화가 없다”고 설명했다.

통합된 컴퓨팅 자원은 모든 사용자 및 애플리케이션에게 ‘응집된 전체(Cohesive Whole)’의 형태로 제공되며, 애플리케이션은 이를 하나의 시스템으로 인식한다. 따라서 OS상에 추가 라이브러리나 분산 프로그램으로의 코드 변경과 같은 별도의 조작 없이, 여러 대의 노드가 가진 모든 리소스를 최적으로 사용할 수 있는 환경을 제공한다.

▲ 기존 환경(왼쪽)과 타이달스케일(오른쪽)의 비교

이로써 타이달스케일은 대규모 분석, 메모리 집약적 컴퓨팅, 컴퓨팅 집약적 워크로드 및 모델링을 수행하는 데 있어 기업이 슈퍼컴퓨터급 시스템을 간편하게 구축할 수 있도록 지원한다. 특히, 몇 주에서 많게는 몇 개월씩 걸렸던 HPC 시스템 구축 과정을 단 몇 분으로 줄여, 온프레미스 및 클라우드 상에서 구성 및 부팅할 수 있다. 현재 오라클과 SAP 등의 기업이 타이달스케일의 기술을 기반으로 클라우드 서비스를 제공 중이다.

박운영 타이달스케일 지사장은 지난해 기자간담회 자리에서 “분산처리를 위한 시스템 구성을 고민할 필요가 없어졌다고 할 수 있다. 실제 금융사에서 빅데이터 분석을 위해 R을 사용하면서 분산코드를 짜면 2~4주가 걸리곤 했는데, 타이달스케일을 도입하면 이런 과정이 무의미해진다”고 설명했다.

병렬 컴퓨팅 구조의 시스템에 비해 효율도 더욱 뛰어나다. 박운영 지사장에 따르면 병렬 구조에서는 약 45% 이상의 성능 효율을 내기가 힘든 반면, 타이달스케일은 현재 1.2 버전에서 78% 정도의 효율을 보이고 있다. 최근 업그레이드된 2.0 버전에서는 효율이 더욱 높아졌다.

뿐만 아니라 하이퍼커널은 하드웨어와 게스트OS 사이에 위치하면서, 특허 받은 머신러닝 기술을 기반으로 CPU와 메모리 자원이 필요한 곳(VM)으로 이동하며, 동시에 이를 마이크로초 단위로 최적화한다. 즉 완전히 새롭게 설계된 인터커넥션(Interconnection) 네트워크를 통해 데이터들이 이동하면서 머신러닝으로 시스템 성능이 점점 더 빨라지고 진화하는 것이 특징이다.


하드웨어 비용 대폭 절감…다양한 HPC 영역 공략

분산 컴퓨팅 대비 높은 효율을 내는 타이달스케일의 솔루션을 적용하면 하드웨어 비용 절감도 가능하다. 박운영 지사장은 “기본적으로 타이달스케일은 소프트웨어만을 제공하는 기업이긴 하지만, 결과적으로 기존 수억~수십억 원대의 전용 시스템을 수백만~수천만 원대의 일반 시스템으로 대체하고 하드웨어 및 라이선스 비용을 아낄 수 있다”면서, “단적인 예로 400만 원대 시스템만으로 2억 원대 시스템 대비 77%, 국내 테스트 기준 86%의 성능을 낼 수 있다”고 설명했다.

타이달스케일은 이러한 효율성을 바탕으로 ▲BI를 위한 인메모리 데이터베이스 ▲연구소/기업 프라이빗클라우드 ▲CSP(Cloud Service Provider)에서 대외판매용 HPC 클라우드 구축 ▲금융권의 고객행위분석을 통한 상품개발 및 투자결정 ▲염기서열분석, 단층촬영데이터 분석을 통한 유전발굴 등 시뮬레이션, 모델링 ▲통신사 네트워크 최적화를 위해 자원 분배가 유연한 빅머신 제공 등을 주요 영역으로 보고 국내 시장 공략에 나서고 있다.

▲ 타이달스케일은 기존 분산·병렬 환경 대비 높은 투자 효율을 보여준다.

이밖에도 타이달스케일은 국내 CSP와도 손을 잡고, 국내 중소기업들도 보다 저렴하게 활용할 수 있는 클라우드 HPC 환경을 제공하는 데 힘쓸 계획이다. 그간 중소기업들은 값비싼 HPC 인프라를 도입할 자금이 없었던 것은 물론이고, 분산 처리 라이브러리 작업이 까다롭다는 점 역시 HPC 활용의 장벽으로 존재해왔다.

몇몇 클라우드 HPC 서비스가 있긴 했으나 금액이 기하급수적으로 늘어나는 등의 어려움도 있었다. 타이달스케일의 솔루션을 CSP에서 도입하면 이러한 장벽들을 상당부분 해소할 수 있을 거라는 게 박운영 지사장의 기대다.

박운영 타이달스케일코리아 지사장은 “현재 국내에 6개의 파트너사를 두는 것을 추진하고 있다. 이미 한국지사 오픈 전부터 개발자들이 많은 업체들을 중심으로 본사와 직접 커뮤니케이션하며 타이달스케일 솔루션 도입을 검토하고 있었다”면서, “지사 설립 이후 직접 고객사를 찾아가는 것보다 역으로 문의가 많이 들어올 정도로 관심이 많다. 현재 4월 초 첫 발주를 앞두고 있다”고 설명했다.

또한 “장기적으로는 기존의 가상화가 이루지 못했던 관리포인트의 현실적인 축소를 모든 IT에 이룩하고자 하는 비전을 갖고 있다. 지금까지의 가상화는 물리서버의 효율화로 하드웨어의 수는 줄였지만, 논리적 구조는 그대로 유지해 VM이나 OS의 수는 오히려 더 늘어나는 현상이 발생하고 있으며, 이에 관리는 더 복잡해지고 있다”면서, “지금까지 하나의 서비스를 여러 개의 모듈로 나눠 티어링을 하고 또 분산을 하는 등 가로·세로로 나눠 적게는 몇 개, 많게는 몇십 개의 OS와 애플리케이션이 하나의 서비스를 하고 있어 그 논리적 구조를 판단하기조차 어려운 부분이 있었으나, 이제 타이달스케일을 통해 하나의 실질적 업무서비스에 하나의 OS를 적용하는 것이 가능해져 관리의 대상과 수량이 감소하고 효율이 높아지게 된다”고 설명했다.


03 HPE | HPC 부문 최고 기술력과 탄탄한 입지 보유

 
국내·외 HPC 분야 적극 투자…라인업 완비

HPE는 인텔, 엔비디아 등 HPC 파트너와 함께 고성능 컴퓨팅 시장에 적극적으로 투자하고 있다. 인텔과는 지난 2015년 설립된 센터 오브 엑설런스(Center of Excellence, 이하 CoE)에서 HPC 및 빅데이터 분석 솔루션 개발을 지속하고 있으며, 엔비디아와는 2017년 5월 CoE를 설립해 ‘아폴로’ 시리즈 신제품 개발 및 딥러닝 인스티튜트(Deep Learning Institute, 이하 DLI) 설립 등의 협력을 하고 있다.

국내에서도 엔비디아와 DLI 교육 및 CoE 설립을 위한 준비를 시작할 예정이며, 이와 동시에 올해 새롭게 선보일 다수의 인공지능 특화 제품과 함께 국내 슈퍼컴퓨터 시장의 리더 입지를 더욱 굳힌다는 계획이다.

HPE는 HPC 전용 서버 라인업인 ‘아폴로’를 보유하고 있다. 먼저 페타급으로 확장 가능한 수냉식의 ‘HPE SGI 8600’을 시작으로, 고효율 고집적 공냉 HPC 시스템인 ‘아폴로 6000’, 인공지능 및 GPU시스템인 ‘아폴로 6500’ 및 ‘아폴로 SX40’, 소규모 HPC를 위한 ‘아폴로 2000’, 스토리지 서버 ‘아폴로 4000’ 등의 하드웨어 라인업을 갖췄다. 이밖에도 HPC 최적 솔루션인 ‘HPE 퍼포먼스 소프트웨어 스위트(HPE Performance Software Suite)가 함께 구성된다.

▲ HPE의 HPC 및 AI를 위한 포트폴리오

이 중 HPE가 SGI 인수 이후 처음으로 선보이는 공동 개발 시스템인 ‘HPE SGI 8600’은 수냉식 페타스케일(petascale) 시스템으로, SGI의 기존 ‘ICE XA’ 아키텍처에 기반한다. 업계에서 가장 빠른 병렬 프로세싱 성능을 내세우며, 통합 스위치 및 하이퍼큐브(hypercube) 기술을 사용해 추가 스위치 없이도 10,000개 이상의 노드로 확장 가능하다.

▲ 그림9. ‘HPE SGI 8600’

또한 ‘HPE 아폴로 6000 10세대’ 시스템은 공냉식 상업용 차세대 대형 HPC 플랫폼으로, 랙(rack)당 300테라플롭스(TFlops) 이상의 성능을 구현한다. 3개 랙이면 약 1페타플롭스(PFlops)의 시스템을 만들 수 있다. 랙 스케일(rack scale)의 고효율성과 탁월한 가격 대비 성능을 제공하도록 재설계됐으며, 보안 위협을 막기 위해 ‘실리콘 루트 오브 트러스트(silicon root of trust)’ 기술을 적용했다.

이 밖에 ‘아폴로’ 시리즈는 엔비디아 ‘NV링크(NVLink)’, 인텔 ‘제온 파이(Xeon Phi)’ 등 다양한 기술들을 지원하는 모델들이 준비돼있다.

▲ HPE ‘아폴로 6000 10세대’ 시스템

HPE는 전 세계적으로 다양한 HPC 활용 사례를 갖고 있다. 글로벌 화학 회사 바스프(BASF)는 ‘HPE 아폴로 6000 10세대’ 시스템을 최초로 도입한 기업으로, HPE와 공동으로 슈퍼컴퓨터를 개발해 연구소에서 활용하고 있다. 산업용 화학 연구를 위해 사용된 가장 큰 슈퍼컴퓨터인 이 시스템은 수개월씩 걸렸던 컴퓨터 시뮬레이션 및 모델링 시간을 며칠 내로 단축하고, 제품 출시에 소요되는 평균 기간 및 비용을 절감할 수 있도록 했다.

또한, ‘HPE SGI 8600’은 전 세계 슈퍼컴퓨터의 전력효율성 기준 성능 순위인 그린500(Green500)에서 1위를 차지한 도쿄 기술 연구소의 ‘츠바메(TSUBAME) 3.0’ 클러스터에 사용되고 있다. ‘츠바메 3.0’은 높아진 인텔 ‘스카이레이크(Skylake)’ 기반 CPU의 TDP(열설계전력)를 상당히 가벼운 수냉시스템 구성으로 극복한 것으로 알려지고 있다.


모듈형 인메모리컴퓨팅 서버 ‘슈퍼돔 플렉스’

한국HPE는 지난해 12월 모듈형 방식의 인메모리컴퓨팅 플랫폼 ‘HPE 슈퍼돔 플렉스(HPE Superdome Flex)’를 국내 출시하고, 점점 증가하는 기업의 실시간 데이터 분석 요구에 대응한다고 발표했다. ‘슈퍼돔 플렉스’는 4소켓 모듈을 기본으로 최대 32개 CPU, 즉 8개 모듈까지 확장 가능하다. 특히, 물리적으로 분리된 자원을 플렉스ASIC(Flex ASIC)을 통해 하나처럼 묶어 사용할 수 있는 것이 가장 큰 특징이다.

▲ HPE 모듈형 인메모리컴퓨팅 서버 ‘슈퍼돔 플렉스’

HPE ‘슈퍼돔 플렉스’는 인메모리컴퓨팅에 특화된 시스템으로, 지난해 8월 SGI 인수로 확보한 기술을 바탕으로 만들어졌다. 모듈형 설계에 기반해 점점 늘어나는 기업의 데이터 수요에 부합하며, 99.999%의 높은 단일 시스템 가용성을 갖춘 플랫폼으로서 중요한 워크로드를 안전하게 보호할 수 있도록 지원한다.

유충근 한국HPE 상무는 솔루션을 발표하면서 “현재 데이터 수집 후 의사분석까지의 시간이 매우 짧은, 실시간 분석이 갈수록 많이 요구되고 있다. 즉, 분석 속도를 어떻게 줄이느냐가 핵심”이라며, “HPE ‘슈퍼돔 플렉스’는 최대인 8개 모듈로 확장하면 총 896코어/1792스레드 및 384개 DIMM에서 최대 48TB의 메모리를 지원할 수 있어, 대량의 인메모리 분석이 가능하다. 또한 인텔 ‘제온 스케일러블 골드’ 프로세서부터 ‘플래티넘’에 이르기까지 기업 규모를 고려한 유연한 옵션 선택도 제공한다”고 설명했다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지