[강좌] 경량 AI: 인공지능 모델 경량화의 기본 개념과 최근 연구사례 및 시사점

광운대학교 정보융합부 이상민 교수

2025-03-31 이상민

광운대학교 정보융합부 이상민 교수

제조/유통 플랫폼 혁명, ‘스마트팩토리와 온라인 풀필먼트의 통합 및 미래 전망’(2월호)

경량 AI: 인공지능 모델 경량화의 기본 개념과 최근 연구사례 및 시사점 (이번호)

[컴퓨터월드]

효과와 효율을 동시에 잡아야 하는 AI 경량화

최근 인공지능(AI) 분야는 학습 데이터의 양적 증가를 넘어 초거대 파라미터를 갖는 언어모델에 초점이 모이고 있다. 이러한 모델이 보여주는 놀라운 성능은 새로운 비즈니스 가능성을 크게 높여주는 한편, 학습과 운영에 필요한 연산 비용과 저장 공간도 급격히 증가시키고 있다.

특히 AI 기술의 개발과 운영에는 대규모 컴퓨팅 자원과 함께 막대한 전력 그리고 비용이 수반된다. 최근 구글, 마이크로소프트, 아마존은 AI 및 데이터센터 운영에 필요한 전력 수요 대응을 위해 원자력 발전 기업 인수에까지 나서고 있다.

한편, 중국의 딥시크(DeepSeek)는 최근 오픈소스 추론모델인 딥시크-R1을 공개하며 저비용·고효율의 경량 AI 시대를 예고해 글로벌 AI 시장에 적지 않은 파장을 일으키고 있다. 딥시크는 기존 대형 모델에 준하는 성능을 약 1/20 수준의 저렴한 비용으로 구현해 주목받았다. 이는 챗 GPT(ChatGPT)를 포함한 대형언어모델(Large Language Models, LLMs)이 집중한 언어 이해 및 응답 정확도, 생성품질 등의 ‘효과’ 중심의 평가에서 벗어나, 적은 자원으로 유사한 성능을 달성하는 ‘효율’이라는 새로운 패러다임을 제시한 셈이다.

AI 모델의 효과와 효율 측면에서 경량화 기술의 잠재력은 오래전부터 주목받아 왔다. 얀 르쿤(Yann LeCun)은 1989년 신경망 모델의 경량화와 관련된 두 편의 중요한 논문을 발표했다.

첫째, 이미지 처리에 특화된 CNN 아키텍처를 적용한 초기 사례인 ‘Backpropagation Applied to Handwritten Zip Code Recognition’ 논문에서는, 기존의 완전 연결 신경망(Fully Connected Neural Networks) 대비 학습 파라미터 수를 1/10 이상 줄이며 더 높은 정확도를 달성했다. 이는 국소연결성(Local Connectivity)과 가중치 공유(Weight Sharing)라는 기법을 통해 학습 효과와 연산 효율성을 동시에 달성했다.

둘째, 같은 해 발표한 ‘Optimal Brain Damage’ 논문에서는 일반화(generalization) 성능 향상을 위해 불필요한 학습 파라미터를 30%까지 제거하는 실험을 통해 모델 경량화 가능성을 보여줬다.

경량화 기술의 요구는 단지 학습 모델의 크기나 일반화 성능에만 국한되지 않는다. 실시간 추론 속도(inference speed) 핵심인 자율주행 차량과 같은 분야에서는 경량화가 곧 시스템 안정성과 직결된다. 챗봇이나 음성 비서 역시 빠른 응답을 통해 사용자 경험을 극대화하기 위해서는 경량화가 필수적이다. CCTV 등 실시간 영상 분석 분야에서도 위험 상황에 즉각 대응하기 위해 경량화 기술이 필요하다.

AI 모델이 구동되는 환경에서 하드웨어 제약은 경량화 기술이 요구되는 또 다른 중요한 이유다. 특히 모바일 및 엣지 디바이스(edge device)에서 AI 모델을 실행할 경우, 정확도와 성능 그리고 연산 효율성 간의 상충관계(tradeoff)는 경량화 설계의 핵심 과제이다. 이번 기고에서는 AI 모델 경량화의 정의와 주요 기법을 소개하고 대표적인 응용 사례들을 살펴본다.

AI 모델 경량화 개요

AI 모델 경량화는 학습 모델을 압축(compression)해 크기를 줄이고, 연산 효율을 높이는 기법을 통칭한다. 경량화의 주요 목표는 컴퓨터 자원 낭비를 방지하고 학습과 추론에 필요한 에너지 소비를 최소화하며 기존 모델과 유사한 성능을 유지하는 데 있다. 기존 학습 모델이 요구하는 높은 연산량과 메모리 사용을 줄이기 위해 다양한 압축 및 최적화 기법이 연구되고 있으며, 대표적인 경량화 기법은 <그림 1>과 같이 뉴럴 프루닝(Neural Pruning), 지식증류(Knowledge Distillation), 양자화(Quantization), 그리고 아키텍처 탐색(Neural Architecture Search)등으로 구분된다.

모델 경량화의 주요 기술 분류 체계

가지치기(Neural Pruning) 기법

첫째, 가지치기(Neural Pruning)는 모델의 크기와 추론속도를 높이기 위해, 모델의 일반화 성능에 도움이 되지 않는 불필요한 메모리나 연산량을 차지하고 있는 가중치(weight)를 제거하는 기법이다. 이 중 가중치 가지치기(weight pruning)는 개별 가중치 단위로 중요도가 낮은 값을 0으로 대체해 제거함으로써 모델의 희소성(Sparsity)을 높인다. CNN과 같은 아키텍처에서는 필터 가지치기(Filter Pruning)를 통해 네트워크의 폭(width)을 축소하는 기법을 사용한다. 특징 추출(feature extraction) 단위로 구조적 희소성을 추구하므로 모델 경량화에 따른 추론 속도를 개선할 수 있다.

최근에도 가지치기 기법을 활용해 모델의 복잡도를 줄이며 성능 저하를 유지하고 모델 내 계층적 모듈의 구조적 의미와 추론 결과에 대한 해석 가능성을 높이는데 중요한 역할을 하고 있다.

가지치기(Neural Pruning) 기법 예시

양자화(Quantization) 기술

둘째, 양자화(Quantization)는 AI 모델의 파라미터를 더 적은 비트(Bit) 수로 표현해 저장 공간을 효율화하고 연산 속도를 높이는 경량화 기법이다. 예시로 <그림 2>와 같이 32비트 부동소수점 연산을 8비트 또는 그 이하의 정수로 대체함으로써, 학습 및 추론 시 연산 자원과 에너지 소비를 줄일 수 있는 경량화 기법이다.

양자화는 케라스(Keras), 파이토치(PyTorch) 등 대다수 딥러닝 프레임워크에서 기본으로 지원되는 경량화 기법이다. 학습 이후 적용할 수 있는 기법(Post-training Quantization)이나 양자화 인식학습(Quantization-Aware Training)을 통해 훈련 시 8비트 정수 연산 환경을 근사하며 학습시킬 수 있는 방법이 존재한다.

기법적으로는 주로 32-bit floating point(FP32) 모델에서 16, 8, 4 비트 등 낮은 비트 값으로 줄이는 저비트 정밀도 양자화(Low-Bit Precision Quantization) 방법과 가중치와 활성화 값을 1-bit (0 또는 1)로 변환하는 극단적으로 배타적 부정 논리합 exclusive-NOR(XNOR) 연산을 활용하는 이진화(Binarization) 기법으로 나뉠 수 있다.

양자화(Qunatization)를 통한 모델 저장공간을 효율화 예시

지식증류(Knowledge Distillation) 기법

셋째, 지식증류(Knowledge Distillation)는 상대적으로 크고 성능이 높은 모델(Teacher Model)로부터 작은 모델(Student Model)을 학습시키는 경량화 방법이다. 일반적으로 ‘선생과 학생의 관계’로 소개하는데, 이는 큰 모델의 예측 분포 또는 중간 표현을 작은 모델이 모방해 성능을 유지하며 모델을 경량화 하는데 중점을 둔다.

<그림 4>는 학생 모델이 선생 모델의 예측 값과의 차이를 줄이고(Soft Prediction), 정답 값과의 차이를 줄이는 방식(Hard Prediction)으로 학습할 수 있다. <그림 4>의 하단에는 학생 모델 학습 시 활용하는 손실함수(loss function)를 나타내며, 녹색 term의 선생 모델의 예측 값과의 차이와 분홍색 term의 정답 값과의 차이를 줄이는 방식으로 학습한다.

지식증류(Knowledge Distillation) 기반 선생-학습 방식의 모델 경량화 흐름

지식증류 기법은 네 가지로 분류할 수 있다. 로짓(z) 기반 증류(Knowledge from Logits)는 선생 모델의 출력 확률 값을 학생 모델이 모방하는 방식으로, 정확한 예측 성능을 보이는 선생 모델의 판단 기준으로 학생 모델이 학습하도록 유도한다.

둘째, 중간 레이어 증류(Knowledge from Intermediate Layers) 방법은 선생 모델의 중간 레이어 출력을 학생 모델이 따라하도록 하며 특징 추출(Feature Extraction) 방식을 직접 모방해 더 높은 일반화 성능을 유도한다.

이외 오프라인/온라인 증류(Offline/Online Distillation) 기법은 각각 선생 모델을 고정한 상태에서 학생 모델만 학습하거나, 선생 모델과 학생 모델을 동시에 업데이트하며 상호작용을 통해 지식을 전달하는 방식이다.

아키텍처 탐색(Neural Architecture Search) 기법

넷째, 아키텍처 탐색(Neural Architecture Search, NAS)은 주어진 조건에서 데이터에 가장 최적의 신경망 구조를 자동으로 찾아내는 연구이다. 이를 통해 모델 개발 시간을 단축함과 동시에 모델의 성능 향상을 함께 꾀하며 최적 성능과 효율성을 동시 고려하는 경량화 기법이 될 수 있다.

이 중 탐색공간(Search Space)이란 다양한 기본 연산(Primitive Operation)을 포함시키며 모델의 목적에 부합하도록 효과적인 설계를 유도한다. 탐색 전략(Search Strategy)은 최적의 네트워크 구조를 찾는 방법론을 의미하며, 이는 강화학습, 유전자 알고리즘, 확률적 모델링 등이 있다.

평가전략(Evaluation Strategy)은 제안된 네트워크 구조의 성능을 평가하는 방법을 의미하며, 이 때 모델의 정확도, 연산 효율성(파라미터 수), 추론 속도 등 다양한 기준이 포함된다. 대표적인 아키텍처 탐색 기법으로 DARTS(Differentiable Architecture Search)가 있으며, 신경망 구조 탐색 과정을 미분 가능한 방식으로 수행해 연산 자원을 줄이고 효율적인 탐색 효율을 가능하게 한다.

AI 경량화의 현주소와 미래 전망

이미 많은 하이테크 기업들이 AI 모델 경량화 기술을 제품에 적용하고 있다. 대표적인 사례로 모바일 및 엣지 디바이스용 모델 압축을 들 수 있다.

스마트폰 및 IoT 기기처럼 연산 자원이 제한된 환경에서는 모델의 연산량과 전력 소비를 줄이기 위해 가지치기, 양자화, 증류 등의 기법이 활용된다.

예를 들어 드론은 제한된 배터리와 연산 자원으로 자율 비행과 객체 인식을 수행해야 하므로, 저전력 하드웨어에서 구동 가능한 경량 AI 모델이 필수적이다.

또한 구글이 제안한 모바일넷(MobileNet)은 대표적인 경량 신경망 모델로, 다양한 온디바이스 AI 응용에서 널리 사용되고 있다. 최근 바트(BART), 챗GPT(ChatGPT)와 같은 대형언어모델의 일부 기능을 온디바이스(on-device) 형태로 구현 사례가 늘고 있다. 이로 인해 모바일 칩셋에서도 실시간에 가까운 추론이 가능해졌으며, 오프라인 환경에서도 번역, 요약, 추천 등의 기능을 사용할 수 있다.

대표적으로 구글의 제미나이 나노(Gemini Nano) 도입, 애플의 얼굴 인식용 경량화 모델, 삼성 갤럭시의 온디바이스 LLM 탑재 등을 들 수 있다. 특히 올해 주요 화두로 떠오른 Physics AI를 위해 실시간성과 효율성을 갖춘 AI 모델 설계가 중요해지며, 경량화 기술에 대한 관심이 더욱 뜨거워질 것으로 예상된다.