[시장동향] ‘AI옵스’, 클라우드 파편화 시대 운영 혁신 전략으로 부상
AI가 데이터 기반으로 스스로 판단하는 ‘동적 운영’으로 인프라 관리 시장 규모 2023년 117억 달러에서 2028년 324억 달러로 확대
[컴퓨터월드] AI옵스(AIOps)는 인공지능(AI)과 운영(Operation)을 합친 단어로, AI를 활용해 IT 인프라 운영을 자동화하고 최적화한다. 클라우드 기반 기업이 하이브리드·멀티 클라우드 환경으로 전환함에 따라 인프라의 복잡성이 커지면서 AI옵스 도입도 확대되고 있다. 글로벌 시장조사기관 마켓츠앤마켓츠(MarketsandMarkets)에 따르면 글로벌 AI옵스 시장 규모는 2023년 117억 달러에서 2028년 324억 달러로 고속 성장할 것으로 예상했다.
클라우드 인프라 ‘파편화’ 심화
AI 시대가 가속화되면서 유연한 IT 환경에 대한 요구가 높아지고 있다. 기업들은 이에 대응하고자 멀티‧하이브리드 클라우드를 도입하고 있는 데 그 과정에서 기존‧신규 인프라가 ‘파편화’되는 현상이 발생하고 있다.
파편화란 쉽게 말해 재산을 여러 개의 은행 계좌에 나눠 보관하는 것과 같다. 100만 원을 한 계좌에 모아두면 사용하는 데 매우 효율적이다. 그러나 10만 원씩 여러 은행 계좌로 나누면 각 계좌마다 2천 원, 3천 원씩 남는 자원이 발생하기도 하고, 각 계좌에 정확하게 얼마가 남아있는지 쉽게 파악하기도 어려워진다.
멀티‧하이브리드 클라우드를 도입할 경우 실제 실무자들이 여러 어려움을 겪는 것으로 나타났다. 오케스트로가 자체적으로 진행한 클라우드 운영 현황 실태조사에 따르면, 클라우드 환경이 복잡해지면서 실무자들이 겪는 가장 큰 문제를 묻는 질문에 응답자의 41%가 ‘장애 발생 시 늦은 감지 및 대응’을 꼽았다. 이어 ‘전체 자산 현황 파악의 어려움(32%)’, ‘조직별 자원 통제의 어려움(11%)’, ‘체계적이지 않은 자원운영 정책(9%)’, ‘반복적인 수동 작업(7%)’ 순으로 조사됐다.
파편화로 인해 보안 측면에서도 문제가 생길 수 있다. 방범을 위해 집에 있는 모든 문에 비밀번호가 있는 자물쇠를 달아야 하는 것처럼, 클라우드 서비스마다 인증과 연동 지점이 생겨 보안 취약점이 증가한다. 같은 비밀번호를 쓰면 편하지만 보안이 취약해지고, 지점마다 비밀번호를 다르게 적용하면 관리가 복잡해진다. 연동 지점이 많아지면서 장애 발생 위치를 추적하는 것도 어려워졌다. 단순 모니터링을 넘어 엔드투엔드 모니터링과 옵저버빌리티(Observability)의 중요성이 강조되는 이유이기도 하다.
운영 비용도 늘어날 수 있다. 멀티·하이브리드 환경에서는 클라우드 사업자마다, 온프레미스·프라이빗 등의 환경마다 기술이 다르기 때문에 각각 담당자가 필요한 실정이다. 설사 업무량이 많지 않아도 별도로 전문가를 채용하거나, 외주 업체를 고용하기 때문에 인건비가 늘어나며 운영 비용이 증가한다.
IT 인프라 ‘동적으로’ 운영·관리
AI옵스는 IT 인프라 운영의 자동화와 최적화를 위해 AI를 적극적으로 활용하는 접근법이다. 기존의 룰 기반 자동화와는 달리 AI가 데이터를 기반으로 스스로 판단하고 운영을 개선하는 것이 핵심이다.
전통적 IT 서비스 관리(ITSM) 수단 중 하나인 로보틱 프로세스 자동화(RPA)와 비교하면 차이가 뚜렷하다. RPA는 사람이 반복적으로 처리해야 하는 단순 업무를 로봇 소프트웨어로 자동화하는 것이다. RPA는 사람이 직접 정의해둔 ‘업무 절차’와 ‘로직’대로만 동작한다. 반면 AI옵스는 실시간 데이터(로그, 메트릭, 이벤트)를 통해 스스로 인프라 상태를 분석하고, 이상 상황을 탐지해 기존에 없던 방식의 해결책이나 자원 운영 방식을 동적으로 결정한다. 이처럼 동적인 자원 관리‧운영이 가능하다는 점이 기존 IT 인프라 자동화 솔루션과의 차별점이다.
또한 과거에는 개발자가 ITSM 환경에서 필요한 기능을 직접 개발해야 했으나, AI옵스 기반에서는 AI가 필요성을 분석하고 다른 AI에게 요청해 기능을 만들어 넣는 방식으로 발전하고 있다. 이 과정에서 AI에게 요청하면 필요한 코드를 생성해 주는 새로운 개발 방식인 ‘바이브코딩(Vibe Coding)’이 활용된다. 업계 관계자는 “현재 AI가 기준을 잡아주거나, 기능을 추가하는 데 사람이 개입하고 있지만, 점차 AI가 스스로 기능을 추가하고, 자동화 수준도 높아질 것으로 예상한다”고 말했다.
이러한 기술적 진화를 뒷받침해 줄 기반으로 A2A(Agent-to-Agent), MCP(Model Context Protocol)가 있다. A2A(Agent-to-Agent)는 여러 AI 에이전트가 서로 소통하며 역할을 분담하고 협업할 수 있도록 돕는다. 하나의 AI가 시스템에서 기능을 확장할 필요가 있다고 판단하면, 이를 담당할 수 있는 다른 AI에게 요청해 문제를 해결하도록 지원할 수 있다.
MCP는 AI 모델이 다양한 외부 서비스 및 데이터 소스와 상호작용을 하는 표준화된 개방형 프로토콜이다. 이를 통해 AI는 실시간 정보 조회, 외부 시스템 제어, 신규 툴 연결 등 기능을 신속하게 확장하고, 실행할 수 있다.
AI옵스는 단순한 툴이 아니라 데브옵스(DevOps)처럼 철학이자 툴 체인(여러 도구의 집합)으로도 볼 수 있다. 한 업계 관계자는 “AI옵스 솔루션에는 모니터링, 장애 탐지, 자동화된 대응 등 다양한 기능이 포함될 수 있다”며 “아직 시장이 형성되고 있는 단계로 각 기업마다 구현 범위와 방식이 다르지만, 장기적으로는 IT 운영 전반을 AI가 총괄하는 방향으로 진화할 것이다”라고 말했다.
“AI옵스 성공적 도입, 조직 문화부터 개편해야”
베스핀글로벌 AIOps본부 이준태 상무는 “AI옵스를 성공적으로 도입하려면 단순히 기술만 준비하는 것이 아니라 조직 문화 변화가 뒷받침돼야 한다”고 강조했다. 데브옵스가 개발자와 운영자가 협업하는 문화에서 출발했듯이, AI옵스 역시 IT 운영·개발·보안 부서가 협업하고 데이터를 원활하게 공유할 수 있는 열린 문화가 필요하다는 것이다.
이준태 상무는 “조직 내에서 AI옵스 도입으로 인한 자동화로 일자리가 줄어들 것이라는 부정적 반응이 나올 수 있다”며 “저부가가치 업무는 AI에 맡김으로써 실무진은 고부가가치 업무에 집중할 수 있다는 발상의 전환이 필요하다”고 설명했다. 이어 “AI 도입에는 경영진의 적극적인 지원도 필수적”이라고 말했다. 실제로 과거 클라우드가 처음 도입됐을 때 내부 저항이 컸지만, 경영 차원의 ‘트랜스포메이션’ 전략이 뒷받침되면서 빠르게 확산됐다는 것이다.
데이터 확보 역시 중요한 조건으로 꼽았다. 그는 “AI옵스는 ML옵스(MLOps)에서 출발했기 때문에 학습 데이터가 받쳐줘야 한다”며 “지금처럼 클라우드 환경이 파편화된 상태에서는 효과적인 학습이 어렵다. 운영 데이터를 모을 수 있는 데이터 플랫폼이 필요하다”고 지적했다.
또 다른 핵심은 보안과 투자 대비 효과(ROI)다. 그는 “운영 데이터를 다룰 때는 개인정보 가명화, 취약점 공격 방지 등 보안 대책이 반드시 마련돼야 한다”며 “ROI를 자세히 따져 어떤 업무를 AI로 자동화해야 효율이 나는지 선별하는 과정도 중요하다”고 덧붙였다.
AI옵스 업체별 솔루션 전략
데이터독, 옵저버빌리티를 넘어 AI옵스로
데이터독(Datadog)은 개발부터 운영까지 소프트웨어 라이프사이클 전 과정을 지원하는 SaaS 기반 옵저버빌리티 플랫폼을 내세워 AIOps 전략을 강화하고 있다. 데이터독의 ‘비츠 AI(Bits AI)’는 평소와 다른 이상 징후를 스스로 탐지하고, 해당 현상이 전체 시스템에 미치는 영향까지 자동으로 파악할 수 있다.
‘비츠 AI(Bits AI)’의 ‘SRE 에이전트(SRE Agent)’는 “결제 API가 응답하지 않습니다”와 같은 알림이 발생하면 자동으로 원인 파악에 나선다. 수집된 데이터를 기반으로 분석해, 장애 원인에 대한 가설을 수립한다. 이 중 말이 되지 않는 가설을 스스로 제거하고, 최종 결과를 선별해 사용자에게 전달한다. 실시간으로 발생하는 이슈에 대해 AI 챗봇과 대화하며 분석 및 지원을 받을 수 있다.
비츠 AI의 ‘Dev 에이전트(Dev Agent)’는 해결 방법과 개선 포인트 제시에 중점을 뒀다. 해당 이슈가 언제 시작됐고, 언제 마지막으로 확인됐는지 파악하며 원인 설명과 함께 문제가 발생하는 소스코드 라인까지 제공한다. 수정 방법 또한 실제 코드로 제시할 수 있으며, AI 챗봇을 활용해 코드와 관련해 궁금한 점도 바로 확인할 수 있다.
이처럼 데이터독의 AI옵스 기반 모니터링 프로세스를 살펴보면 먼저 AI를 통해 이상징후가 탐지될 경우, 담당자에게 자동으로 연락한다. AI 기반으로 자동 분석을 진행하는 단계에서는 협업을 위한 채널을 생성한다. 다음으로 챗봇을 통한 상황 공유 단계에서는 비츠 AI 챗봇이 분석을 돕는다. 마지막 단계에서는 복구 프로세스를 자동화하고, AI가 장애 보고서를 생성한다.
레드햇, RHEL·오픈시프트로 인프라 유연성 확보
레드햇(Red Hat)은 ‘AI를 위한 Ops’ 뿐 아니라 ‘Ops를 위한 AI’까지 지원하는 솔루션과 서비스를 제공한다. 이를 통해 고객사가 필요로 하는 인프라 조건과 비즈니스 목표에 맞춘 단계별 여정을 제시한다는 전략이다.
표준화된 운영체제인 ‘레드햇 엔터프라이즈 리눅스(RHEL)’과 멀티·하이브리드 클라우드를 위한 레드햇 ‘오픈시프트(OpenShift)’를 기반으로 기술 편차와 파편화된 인프라를 유연하게 연결할 수 있다. 레드햇은 이 과정에서 △어떠한 환경에서도 운영자·개발자에게 일관된 경험 제공 △엔터프라이즈급 유연성·안전성·보안성 확보 △AI 기반 도구로 사용자 지원 등을 목표로 한다.
이를 구체화하는 서비스가 ‘라이트스피드(LightSpeed)’ AI 어시스턴트와 ‘인사이트 어드바이저(Insight Advisor)’다. 운영자가 복잡한 인프라 환경에서도 적절한 조치 방법을 찾을 수 있도록 AI 기반 분석과 권고 서비스를 제공한다.
또한 레드햇은 ‘레드햇 앤서블 오토메이션 플랫폼(AAP)’을 통해 AI 기반의 자동화된 운영을 구현할 수 있다. AAP는 이벤트 기반 앤서블(Event-Driven Ansible) 기능을 제공한다. 이 기능은 운영 환경에서 발생하는 로그, 메트릭, 스트리밍 데이터 등 다양한 이벤트를 수신해 원인을 식별하고, 라이트스피드나 맞춤형 AI 모델을 통해 적절한 대응 방안을 도출한다.
이후 운영자는 권고된 조치 방안을 직접 실행하거나, AAP가 자동으로 실행하도록 승인할 수 있다. 자동 실행이 확정되면, AAP는 룰북(RuleBook)에 따라 플레이북이나 워크플로우를 수행하고 결과를 사용자에게 보고한다.
레드햇 측은 “AAP는 AI 모델과 어시스턴트를 결합해 기술 격차나 인프라 복잡성에 관계없이 자동화된 운영 환경을 제공한다”며 “기업이 AI옵스를 도입하는 과정에서 핵심 기반이 될 것”이라고 강조했다.
베스핀글로벌, ‘컨텍스트 프라이밍·컨텍스트 앵커링’ 적용
베스핀글로벌(Bespin Global)은 AI 기반 클라우드 관리 서비스 자동화 솔루션 ‘헬프나우 오토MSP(HelpNow AutoMSP)’를 내세우고 있다. 이 솔루션에는 베스핀글로벌이 특허를 등록 중인 ‘컨텍스트 프라이밍(Context Priming)’과 ‘컨텍스트 앵커링(Context Anchoring)’ 기술이 적용됐다.
컨텍스트 프라이밍은 AI 에이전트가 각각의 역할과 판단 기준을 명확히 갖도록 사전에 정의하는 기술이다. 고객의 다양한 요청에 대한 의도를 분석해 적합한 에이전트가 대응하게 한다. 이와 함께 AI가 더 정교하고 일관된 응답을 생성하도록 유도하는 역할도 한다. 예를 들어 신문 기사 검색 요청이 들어오면 AI가 신문 기사 데이터 범위 내에서만 검색하도록 맥락을 한정하는 것이다.
컨텍스트 앵커링은 복잡한 연속 작업을 처리할 때, AI가 초기에 설정된 맥락(작업 범위)에서 벗어나지 않도록 해 작업의 안정성과 정확성을 높일 수 있다. 또 복잡한 작업도 처리할 수 있다. 예시로 비행기 예약부터 숙소 예약까지 여러 단계를 순차적으로 처리하는 복합적인 요구사항도 안정적으로 해결할 수 있다.
베스핀글로벌에 따르면 헬프나우 오토MSP를 통해 한 건당 평균 4시간 걸리던 작업 시간이 2시간으로 50% 감소했으며, 도입 후 클라우드 운영 관리팀의 업무 생산성이 약 90% 정도 향상된 것으로 나타났다.
오케스트로, A2A로 강화되는 솔루션 협업
오케스트로(OKESTRO)의 AI옵스는 클라우드 인프라 성능 최적화와 선제적 장애 대응을 중점으로 지능형 클라우드 구축을 지원하는 솔루션이다. AI 기술을 활용해 데이터 기반 클라우드 인프라 운영 최적화를 위한 기능을 제공하고 있다. 데이터 파이프라인과 패턴별 군집화 등 고유 기술을 반영해 머신러닝(ML) 기반 클라우드 자원 데이터 학습으로 예측, 시스템 이상징후 탐지, 시스템 최적 배치를 위한 의사결정 등을 지원한다.
‘오케스트로 CMP(OKESTRO CMP)’는 다양한 퍼블릭 및 프라이빗 클라우드를 하나의 포털에서 통합 관리할 수 있도록 설계됐다. 오픈스택, VM웨어, 쿠버네티스 등 프라이빗 클라우드뿐만 아니라 아마존웹서비스(AWS), 네이버클라우드플랫폼(NCP)와 같은 퍼블릭 클라우드까지 연동돼 운영자는 여러 콘솔에 접속할 필요가 없다.
또한 오케스트로의 차세대 AI 솔루션인 ‘클라리넷(CLARINET)’을 통해 운영자들의 운영 노하우, CMP의 특화 기능들까지 검색증강생성(RAG)으로 참조할 수 있도록 파이프라인을 구성했다. 이를 통해 다양한 맥락을 고려한 인프라 운영안을 제시할 수 있다. 오케스트로는 전 제품군을 A2A로 연결해 솔루션 간의 협업을 강화할 계획이다.
신세계아이앤씨, ‘스파로스 데브엑스’로 업무 혁신
신세계아이앤씨(신세계I&C)는 최근 생성형 AI 기반 차세대 개발 플랫폼 ‘스파로스 데브엑스(Spharos DevX)’를 사내 IT 서비스에 적용했다.
스파로스 데브엑스에는 코딩 에이전트를 비롯한 AI 에이전트들이 하나의 플랫폼에 탑재된다. 세부적으로 살펴보면 시스템 분석부터 개발, 품질점검, 운영 단계까지 IT 서비스 업무 전 과정을 지원한다. 업무 단계별 최적화된 AI 에이전트를 활용해 개발 생산성을 극대화한다는 전략이다.
또한 표준화된 통신 프로토콜인 MCP 기술을 활용해 별도의 커스터마이징 없이 기업이 보유한 다양한 시스템을 빠르고 안전하게 연결할 수 있다. 신세계아이앤씨는 해당 플랫폼이 시스템 개발 프로젝트에 필요한 수백 페이지 분량의 문서 작성과 소스코드 생성, 테스트를 통한 오류 검증 등 다양한 방면에 활용될 수 있다고 강조했다.