가트너 에드 앤더슨 수석 VP 애널리스트

가트너 에드 앤더슨(Ed Anderson) 수석 VP 애널리스트
가트너 에드 앤더슨(Ed Anderson) 수석 VP 애널리스트

[컴퓨터월드] 기업은 이제 비즈니스 효율성뿐만 아니라 환경적 요인까지 고려해야 하는 상황에 놓여있다. 대중들에게 비치는 기업 이미지 관리 차원을 넘어서 각국 정부로부터의 압박을 받고 있기 때문이다. 유럽연합(EU)과 미국을 비롯한 여러 국가들은 2050년까지 넷제로(Net Zero)를 달성하겠다고 선언했고, 한국 정부 또한 ‘2050 탄소중립 시나리오’를 발표한 바 있다. 기업들은 이제 자의든 타의든 환경을 고려하지 않을 수 없게 됐다.

IT 업계 역시 여기에서 자유로울 수 없다. 특히 AI 기술에 대한 폭발적인 관심과 발전으로 인해, AI 기술과 솔루션을 제공하는 클라우드 공급업체와 협력해 AI 서비스를 개발하고 사용하는 기업이 증가하고 있음을 감안하면 더욱 그렇다. 클라우드 AI는 인공지능의 역량을 높인다는 장점이 있지만, 다른 한편으로는 생성형 AI의 수요 충족 과정에서 막대한 양의 에너지와 자원을 소모한다. 따라서 클라우드 공급업체 선정 시, AI 역량뿐만 아니라 지속가능성 이니셔티브 또한 최우선으로 고려해야 한다.

지속가능성에 대한 노력을 기울이는 공급업체와 파트너십을 체결하는 것은 당연하며 이는 시작 단계에 불과하다고 할 수 있다.

기업이 생성형 AI 애플리케이션을 배포할 때 클라우드 AI 플랫폼 사용으로 인한 환경적 영향을 완화할 수 있는 다양한 방법과 최적화에 관한 다음과 같은 9가지 기준을 참고해 파트너십을 체결해야 한다.


재생 에너지 사용

첫 번째는 재생 에너지 사용이다. 가능하다면 재생 에너지로 구동되는 클라우드 기반 생성형 AI 서비스를 사용해야 한다. ‘지속가능한 클라우드’를 내세우는 클라우드 공급업체는 클라우드 리전(Cloud Region)과 특정 클라우드 데이터센터의 재생 가능 에너지 통계를 제공한다. 다만 클라우드 데이터센터의 에너지원을 모호하게 표기해 겉으로만 지속가능성을 내세우는 ‘그린워싱’을 주의해야 한다.

일부 클라우드 공급업체는 재생 에너지 인증서를 통해 100% 재생 에너지 목표를 달성했다고 주장하나, 이러한 클라우드 데이터센터는 주 에너지 솔루션이 아닌, 재생 가능 에너지에 접근하는 보조 옵션으로 사용하는 것이 바람직하다.


에너지 소비 최소화

두 번째는 에너지 소비 최소화다. 에너지 워크로드 배치 및 작업 스케줄링을 통해 클라우드 AI 워크로드가 지속 가능하게 운영될 가능성이 높은 데이터센터에서 실행되도록 해야 한다. 또한 에너지를 효율적으로 사용하는 클라우드 데이터센터를 선택해야 하는데, 클라우드 서비스 전반과 특정 클라우드 데이터센터에 대한 전력 사용 효율(PUE) 등급을 확인해야 한다. PUE 등급은 1.0에 가까울수록 고효율을 의미하며, 대부분의 클라우드 데이터센터는 1.1에서 1.5 사이의 PUE 등급을 가지고 있다.


클라우드 리소스 소비 최적화

세 번째는 클라우드 리소스 소비 최적화다. 이를 통해 서비스 사용량 모니터링 및 보고, 무허가 또는 의도하지 않은 사용 제어, 클라우드 리소스 권한 설정, 필요에 따른 리소스 확장 및 축소를 통해 클라우드 최적화를 개선할 수 있다. 또한 대규모언어모델(LLM)에 대한 API 기반 액세스와 같은 생성형 AI(GenAI) 기술을 사용하는 것도 효과적인 최적화 조치다.

그러나 AI, 특히 생성형 AI의 향상된 접근성과 저렴한 비용으로 인해 기술 남용 문제가 발생할 수 있다는 것을 유의해야 한다. 이를 방지하기 위해 클라우드 리소스 최적화 과정에는 생성형 AI 기술의 신중하고 책임감 있는 사용을 관리하는 거버넌스 정책이 포함돼야 한다.


AI 최적화 하드웨어 사용

네 번째는 AI 최적화 하드웨어 사용이다. 클라우드 공급업체들은 AI 워크로드를 위해 에너지 최적화가 이루어진 특수 하드웨어를 점점 더 많이 사용하고 있는 추세다. 엔비디아(Nvidia)의 DGX 시스템, 아마존웹서비스(AWS)의 트레이니엄(Trainium)과 인퍼런시아(Inferentia) 프로세서, 구글(Google)의 텐서 처리 장치, 최근 발표된 마이크로소프트 애저 마이아(Microsoft Azure Maia) 칩셋 등이 그 예이다. 주요 클라우드 공급업체는 이러한 특수 목적 하드웨어를 AI 인스턴스(Instance) 유형으로 제공하며, 이를 통해 가격 및 성능 향상, 에너지 소비 감소 등 다양한 이점을 누릴 수 있다.


데이터 스토리지 및 관리 최적화

다섯 번째는 데이터 스토리지 및 관리 최적화다. 데이터 스토리지의 저렴하고 간편한 사용법으로 데이터의 확산과 복제가 광범위하게 이뤄지고 있다. 이 과정에서 불필요한 데이터 삭제는 지속가능성 향상에 도움을 주지만, 과도한 데이터 사용과 관리는 필요 이상의 에너지를 소비하게 만든다. 이에 대한 지속가능한 전략으로는 조직에 무가치한 데이터 제거와 다양한 형태의 데이터에 가장 적합한 효율적인 유형의 스토리지 기술을 채택하는 것이 있다. 또한 가능하다면 오프라인 스토리지를 사용해야 한다. 데이터 거버넌스 정책 구현, 데이터 저장 위치 최적화, 데이터 복제 최소화 등도 이 전략에 포함된다.


데이터 이동 최소화

여섯 번째는 데이터 이동 최소화다. 데이터센터 간 대량의 데이터 이동으로 인한 네트워크 사용량 증가는 에너지 소비 증가로 이어진다. 이를 최소화할 수 있는 가장 이상적인 방법은 AI에 활용되는 데이터를 모델링 프로세스와 애플리케이션에 함께 동일한 위치에 배치하는 것이다. 또한 클라우드 공급업체의 네트워킹 서비스를 포함한 크로스-클라우드 네트워킹 기능을 사용하면 데이터 이동을 최소화할 수 있다. 데이터를 네트워크 간에 전송을 해야 하는 경우에는 필요한 데이터만 전송하는 것이 가장 지속가능한 접근 방식이다.


지속가능한 애플리케이션 아키텍처 구축

일곱 번째는 지속가능한 애플리케이션 아키텍처 구축이다. 애플리케이션에 생성형 AI 기능이 통합되는 사례가 점점 더 증가할 것이다. 그러나 이러한 통합이 비효율성을 초래할 수 있다는 잠재적 위험을 간과하면 안 된다.

특히 애플리케이션 설계 시 AI 추론 활동이 AI 모델 학습보다 더 많은 에너지를 소모한다는 점에 유의해야 한다. AI 추론을 최적화하기 위해서는 더 작은 추론 모델을 사용해 메모리 사용량을 줄이고, 추론에 최적화된 하드웨어와 가속기를 활용하고, 분산 액세스 포인트를 사용해 애플리케이션 소비 지점에 AI 모델을 더 가까이 배치해야 한다.


에너지 효율적 프로세스 실행 시간

여덟 번째는 에너지 효율적 프로세스 실행 시간이다. 생성형 AI 프로세스는 에너지 집약적이기 때문에 청정 에너지원뿐만 아니라 전반적인 에너지 가용성도 고려해야 한다. 일부 리전은 이미 에너지 제약 조건을 지니고 있으며, 이러한 리전 및 데이터센터에 에너지 집약적인 작업을 추가하게 되면 시스템에 과부하가 발생할 수 있다.

클라우드 데이터센터는 사용량이 적은 시간대에 더 비용 효율적이고 친환경적인 에너지를 더 많이 이용할 수 있다. 이에 따라, 기업은 AI 워크로드 배치 전략을 수립해 다양한 위치에서 에너지 가용성을 적절히 활용해야 한다.


AI 모델 조정 최적화

마지막은 AI 모델 조정 최적화다. 현재 클라우드 공급업체들은 범용 생성형 AI 솔루션을 지원하기 위해 기초적인 LLM에 수십억 달러를 투자하고 있다. 일부 LLM은 처음부터 새롭게 구축해야 할 수도 있지만, 이러한 기초 LLM을 먼저 사용하는 게 여러 면에서 효과적일 수 있다. 기술적 접근법 중 미세 조정(Fine-tuning)은 기존 LLM의 정확도를 향상시키며, 프롬프트 엔지니어링(Prompt Engineering)과 같은 다른 기술들도 적은 에너지로 더 향상된 자원 활용을 가능하게 한다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지