룰 기반 시스템 및 머신러닝, 딥러닝, 트랜스포머 아키텍처, LLM 등으로 고도화

AI 발전 과정 별 특장점

[컴퓨터월드] 인공지능(AI)은 룰(Rule) 기반 시스템부터 머신러닝(Machine Learning), 딥러닝(Deep Learning) 등으로 혁신을 거듭해 왔다. 이 기술들은 업계에 충격을 줄 정도의 커다란 변혁이었지만, IT를 넘어 전 산업으로 확대되지는 못했다.

AI 패러다임이 본격적으로 변화한 기점은 ‘생성형 AI’가 등장하면서부터다. 2023년 말 챗GPT(ChatGPT)라는 텍스트에 특화된 거대언어모델(LLM)이 등장하면서 기존 AI의 성능과 패러다임은 ‘생성형’으로 변화했다. 최근에는 AI가 인간을 넘어설 정도로 발전할 것이라는 전망도 나오고 있다. AI가 걸어온 길을 되짚어보고, 현재 AI가 어디까지 왔는지 조명해 본다.


룰을 넘어선 ‘학습’의 등장

인공지능(AI)의 시초는 규칙(Rule)을 기반으로 하는 시스템이다. 1950~1960년대에 개발된 룰 기반 시스템은 명시적으로 정의된 규칙과 조건부 로직에 따라 작동했다. 대표적으로 MIT에서 개발한 챗봇인 ‘엘리자(ELIZA)’가 있다. 엘리자는 간단한 패턴을 매칭해 사용자가 입력한 값에 답했지만, 미리 정의된 규칙에 따라서만 동작했기 때문에 예상치 못한 질문을 던지면 대화가 이어지지 않았다.

이 같은 문제를 해결할 수 있는 핵심 기술로 머신러닝(Machine Learning)이 부상했다. 머신러닝은 데이터를 기반으로 시스템이 스스로 학습하고 성능을 개선하도록 한다. 머신러닝은 기존의 룰 기반 시스템과 달리, 명시적인 프로그래밍이 없어도 데이터를 분석해 패턴을 학습하고 이를 바탕으로 사용자가 제시하는 문제를 해결할 수 있도록 한다.

한국교통대학교 곽정환 교수는 “머신러닝의 핵심 기술로는 딥러닝(Deep Learning)이 꼽힌다. 딥러닝은 인간 두뇌의 신경망을 모방한 인공신경망(Artificial Neural Network)을 기반으로 데이터를 처리하고 학습하는 기술이다. 딥러닝의 구조는 입력층(Input Layer), 다수의 은닉층(Hidden Layer), 출력층(Output Layer)으로 구성된 계층적 구조를 통해 데이터를 처리하며 복잡한 문제를 해결한다. 이를 통해 이미지 분류, 음성 인식, 자연어 처리 등 다양한 응용 분야에서 뛰어난 성능을 발휘할 수 있다”고 설명했다.

 파라미터는 입력값(Input), 출력값(Output) 사이에 은닉층(Hidden)과 연결부(노드, Node)에서 가중치(Weight)를 부여해 원하는 결괏값을 생성하도록 만드는 역할을 한다.
파라미터는 입력값(Input), 출력값(Output) 사이에 은닉층(Hidden)과 연결부(노드, Node)에서 가중치(Weight)를 부여해 원하는 결괏값을 생성하도록 만드는 역할을 한다.

이 과정에서 역전파(Backpropagation) 알고리즘이 사용된다. 역전파는 모델의 출력값과 실제값 간의 차이를 계산해 가중치를 조정하고 예측 오류를 최소화하는 방식으로 학습 과정을 최적화한다. 가령 신경망이 고양이 이미지를 입력받아 ‘고양이’라는 출력을 예측한다고 가정해보자. 만약 모델이 ‘강아지’로 잘못 예측했다면, 손실 함수는 이 오차를 계산하고, 역전파 알고리즘은 이 정보를 기반으로 각 층의 가중치를 조정해 다음 학습 단계에서 더 정확한 예측을 할 수 있도록 한다. 이러한 구조 덕분에 딥러닝은 이미지 분류, 음성 인식, 자연어 처리 등 다양한 분야에 적용되고 있다.

딥러닝은 데이터로부터 유의미한 특징을 자동으로 추출할 수 있다는 점 때문에 크게 인기를 끌었다. 기존 머신러닝에서는 사람이 직접 데이터를 전처리하고 특징을 설계해야 했지만, 딥러닝은 이러한 과정을 자동화해 효율성을 높였다. 자율주행 차량에서는 딥러닝 모델이 도로 위 객체를 감지하고 이를 분류하며, 의료 분야에서는 암 진단과 같은 복잡한 작업에 높은 정확도를 보여주기도 했다.

물론 여느 기술과 마찬가지로 딥러닝 역시 한계는 있다. 무수히 많은 데이터와 컴퓨팅 자원이 필요하다는 점과 ‘블랙박스(BlackBox)’ 문제로 인해 모델의 작동 원리를 이해하기 어렵다는 점이 대표적이다.

SW 기술이 발전하면 그에 따라 컴퓨팅 자원의 필요량도 늘어난다는 점은 당연하기 때문에 크게 문제가 될 것은 없다. 하지만 모델의 작동 원리를 이해하기 어렵다는 것은 상황이 다르다. 모델이 왜 이 같은 결정을 내렸는지 설명하지 못하면 신뢰성과 투명성 문제를 야기할 수 있다. 이를 해결하기 위해 모델의 의사결정 과정을 시각화하거나 설명함으로써 신뢰성을 높이는 데 기여할 수 있는 설명 가능한 AI(XAI) 기술 연구도 적극 추진됐다.

최근 딥러닝은 최적의 행동 방식을 학습하는 기계 학습 방법인 ‘강화학습(Reinforcement Learning)’, 소규모 데이터 학습, 학습하는 방법을 학습하는 ‘메타 러닝(Meta Learning)’ 등 다양한 방법론이 개발되면서 AI의 유연성이 강화되고 있다.


자연어 처리의 혁신, ‘트랜스포머’

이처럼 딥러닝이 다양한 응용 분야에서 뛰어난 성능을 발휘하면서 사람들은 자연스럽게 컴퓨터가 프로그래밍 언어가 아닌 인간의 언어 즉, 자연어를 ‘입력값’으로 받아들일 수 있도록 하는 ‘자연어 처리(NLP)’에 주목하기 시작했다.

NLP 초기에는 순환신경망(RNN, Recurrent Neural Network)을 사용해 자연어를 처리했지만, 긴 문맥을 처리하는 작업에는 한계를 보였다. RNN은 데이터를 순차적으로 처리하며 이전 상태(처리 상황)를 기억하는 방식으로 작동했지만, 긴 문장을 처리하기 때문에 정보 손실이 발생했고 학습 속도가 느려졌다.

이를 극복하기 위해 구글은 2017년 트랜스포머(Transformer) 아키텍처를 제안했다. 트랜스포머는 병렬 처리를 통해 긴 문맥도 효율적으로 분석할 수 있다. 트랜스포머는 인코더(Encoder)-디코더(Decoder) 구조를 기반으로 한다. 인코더는 입력 데이터를 숫자로 표현·처리한 벡터 형태로 내부를 표현·생성하고, 디코더는 이를 바탕으로 출력 데이터를 생성한다.

예를 들어, 번역 작업에서 인코더는 영어 문장을 받아 임베딩 벡터로 변환하고, 디코더는 이를 바탕으로 해당 문장의 번역된 결과를 생성한다. 이 과정에서 인코더는 입력 문장의 의미를 추출하고 디코더는 이를 바탕으로 새로운 문장을 만드는 역할을 한다.

데이터스트림즈 관계자는 “이 과정에서 벡터는 단어를 숫자로 치환한다. 컴퓨터는 텍스트를 직접 이해할 수 없어 단어를 고차원 공간의 숫자 형태로 변환해 학습한다. 예를 들어 ‘cat’이라는 단어는 ‘0.2, 0.8, 0.1’과 같은 벡터로 표현될 수 있다. 이러한 벡터는 단어 간 의미적 관계를 반영하며, ‘cat’과 ‘dog’는 유사한 벡터값을 갖게 된다”고 부연했다.

이러한 트랜스포머의 핵심은 셀프 어텐션(Self-Attention) 메커니즘에 있다. 셀프 어텐션은 문장 내 단어 간 관계를 가중치로 표현해 문맥 정보를 효과적으로 학습한다. “The cat sat on the mat”라는 문장에서 ‘cat’과 ‘sat’은 밀접한 관계가 있다. 셀프 어텐션은 이러한 관계를 강조하며, 각 단어가 다른 단어와 얼마나 관련성이 있는지를 계산한다. 이 과정에서 ‘cat’과 ‘sat’은 높은 가중치를 가지며, ‘mat’와 같은 단어는 상대적으로 낮은 가중치를 갖게 된다.


문자로 소통하는 인간 수준 ‘LLM’…사고의 사슬 및 RAG 대두

이러한 특장점을 가진 트랜스포머는 지금의 생성형 AI의 근간인 대규모언어모델(LLM)의 탄생을 촉발했다.

오픈AI가 2020년 6월 11일 처음 공개한 ‘GPT(Generative Pre-trained Transformer)-3’와 2022년 11월 30일 본격적인 생성형 AI의 등장을 알린 ‘챗GPT(ChatGPT, GPT-3.5)’가 바로 이 트랜스포머 아키텍처를 기반으로 개발됐으며, 방대한 텍스트 데이터를 학습해 인간과 유사한 수준의 자연어 생성 능력을 갖출 수 있게 됐다. ‘GPT’라는 단어에서 ‘T’가 바로 트랜스포머 아키텍처를 의미하는 ‘Transformer’다.

이에 대해 한국오라클 장성우 전무는 “트랜스포머 아키텍처 기반의 LLM은 문자로 의사소통하는 인간과 매우 유사하다. 인간은 언어를 통해 생각을 표현하고 타인과 소통하는데, LLM 역시 방대한 텍스트 데이터를 학습해 언어적 사고와 소통 능력을 갖추고 있다”고 밝혔다. 트랜스포머 아키텍처는 이처럼 자연어 처리의 한계를 극복하며 대규모언어모델(LLM)의 등장을 촉발시켰다.

인간과 기계 간 의사소통의 패러다임을 열었다고 평가받는 LLM은 트랜스포머 아키텍처를 기반으로 방대한 텍스트 데이터를 학습해 자연어 생성 및 이해 능력을 갖춘 AI 기술이다. 시중에 공개된 대부분의 LLM은 수십억 개 이상의 파라미터를 갖고 있으며, 이를 통해 인간과 유사한 수준의 언어적 사고와 표현 능력을 보인다. 예를 들어 GPT-4와 같은 모델은 사용자 질문에 대한 답변을 생성하거나 창의적인 글을 작성하며, 심지어 복잡한 코딩 작업을 수행할 수도 있다.

LLM의 작동 원리는 방대한 양의 텍스트 데이터를 학습하는 것에서 출발한다. 데이터는 인터넷 문서, 책, 논문 등 네트워크로 연결되는 ‘모든 것’이라고 해도 과언이 아니다. 모델은 입력된 텍스트를 임베딩 벡터로 변환한 뒤 트랜스포머 아키텍처를 통해 단어 간 관계를 학습한다. 특히 단순히 텍스트를 처리하는 것을 넘어 새로운 내용을 생성하는 능력이 핵심이다.

이에 대해 한국교통대학교 곽정환 교수는 “LLM은 문장 내 단어 간 관계를 가중치로 표현해 문맥 정보를 효과적으로 학습하는 ‘셀프 어텐션 메커니즘’을 통해 문맥 정보를 학습하고 적합한 단어를 선택해 문맥을 이해하고 확률 기반 예측을 통해 새로운 아이디어와 정보를 생성한다. 그리고 대규모로 학습된 데이터 학습을 통해 언어의 구조와 패턴을 이해한다. 가령 LLM은 사용자가 ‘중력의 개념을 설명해’라고 입력했을 때 물리학적 정의와 관련된 내용을 자연스럽게 생성하며, 질문의 의도와 맥락에 맞춘 답변을 제공한다”며 LLM의 생성 능력을 소개했다. 이어 그는 “이는 인간이 언어를 통해 문맥을 파악하고 사고하며 표현하는 방식과 유사하다. 아이디어를 글로 표현하듯이, LLM도 학습된 데이터를 바탕으로 새로운 아이디어나 정보를 생성할 수 있다. 이러한 특성 때문에 LLM은 문자로 의사소통하는 인간과 유사하다”고 평가했다.

 환각을 대표하는세종대왕 맥북 던짐 사건 (출처: 온라인 커뮤니티)
환각을 대표하는세종대왕 맥북 던짐 사건 (출처: 온라인 커뮤니티)

그러나 LLM도 완벽한 것은 아니다. 모델이 ‘자신있게’ 잘못된 정보를 생성하는 현상을 의미하는 ‘환각(hallucination)’이라는 문제가 존재한다. 이는 주로 데이터 편향, 맥락 상실, 확률 기반 응답 생성 방식에서 기인한다. 예를 들어 한 사용자가 “세종대왕의 아버지는 누구인가?”라는 질문을 했을 때 GPT-4가 “태조 이성계”라고 답변했다면 이는 훈련 데이터나 모델의 추론 과정에서 발생한 환각 문제일 가능성이 크다.

최근에는 이러한 문제를 해결하기 위해 다양한 접근법이 제시되고 있다. 대표적인 접근법으로는 ‘사고의 사슬(Chain-of-Thought) 프롬프트 기법’과 ‘RAG’가 있다. 사고의 사슬 프롬프트 기법은 모델이 답변 과정을 단계별로 설명하도록 유도해 복잡한 문제를 체계적으로 해결하게 하는 입력 방식이다. 예를 들어 “모든 사과는 과일이고, 모든 과일은 음식이라면, 모든 사과는 음식이라고 할 수 있을까”라는 질문에 사고의 사슬 기법을 적용한다면 ‘사과는 과일’, ‘과일은 음식’, ‘사과는 곧 음식’이라는 식의 단계별 추론 과정을 제공해 신뢰도를 높일 수 있다.

또 다른 접근법으로는 검색증강생성(RAG)이 있다. RAG는 외부 DB와 연동해 현행 데이터를 검색하고 이를 응답 생성에 반영함으로써 환각 문제를 줄이는 데 중요한 역할을 한다. 이를 통해 LLM은 최신 정보와 도메인 지식을 반영해 더욱 신뢰할 수 있는 결과를 도출할 수 있다.


입력 방식의 혁신 ‘멀티모달 AI’

LLM이 텍스트로 의사소통하는 사람의 수준이었다면, 최근에는 시청각을 활용해 의사소통하는 사람의 수준에 도달하고 있다. 바로 입력 방식의 혁신인 ‘멀티모달 AI(MultiModal AI)’가 등장한 것이다.

멀티모달 AI는 텍스트, 이미지, 음성 등 다양한 형태의 데이터를 동시에 처리하고 통합적으로 분석할 수 있는 기술을 의미한다. 기존의 LLM의 단일모달(Unimodal) AI는 하나의 데이터 유형만 처리할 수 있었지만, 멀티모달 AI는 여러 종류의 데이터를 결합함으로써 더 풍부한 문맥과 의미를 이해할 수 있다. 사진을 분석하고 해당 사진에 대한 음성 설명을 이해한 뒤 이를 바탕으로 텍스트로 요약하는 작업을 수행할 수도 있다.

멀티모달 AI의 대표적인 모델인 오픈AI의 ‘GPT-4V(Vision)’은 사용자가 업로드한 이미지를 분석하고 해당 이미지에 대한 질문에 답변할 수 있다. 예를 들어 사용자가 “이 사진 속 물건은 무엇인가?”라고 묻는다면 GPT-4 비전은 이미지를 분석하고 “이것은 스마트폰입니다”라고 답변할 수 있다. 인간이 시각적 정보를 언어적 표현으로 변환하는 방식과 매우 유사하다.

멀티모달 AI가 주목받는 이유는 데이터가 점점 더 다양해지고 복잡해지고 있기 때문이다. 단순히 텍스트 데이터만이 아니라 이미지, 음성, 비디오 등 다양한 형태의 데이터를 활용하고자 하는 수요가 늘고 있다. 실제로 의료 분야에서는 환자의 의료 기록(텍스트), X-ray 이미지(이미지), 의사의 진단 녹음(음성)을 통합적으로 분석할 필요성이 높고, e커머스 분야에서는 제품 이미지와 설명(텍스트), 사용자 리뷰(텍스트), 제품 사용 동영상(비디오)을 함께 분석해 소비자 경험을 향상할 수 있다.

이 같은 멀티모달 AI가 가능한 핵심 기술로는 ‘크로스 모달 학습(Cross-modal Learning)’이 꼽힌다. 크로스 모달 학습은 서로 다른 데이터 유형 간의 관계를 학습하는 기술로, 텍스트와 이미지 또는 음성과 비디오처럼 서로 다른 모달리티 간의 상관관계를 이해하고 이를 바탕으로 새로운 작업을 수행할 수 있게 한다. 예를 들어 자율주행차는 카메라로 촬영한 영상(이미지)과 라이다(LiDAR) 센서로 얻은 거리 데이터(숫자 데이터)를 결합해 도로 상황을 정확히 파악할 수 있다. 이 과정에서 크로스 모달 학습은 서로 다른 데이터 유형 간의 상관관계를 학습해 차량이 안전하게 운행할 수 있도록 돕는다.

멀티모달 AI는 단순히 여러 데이터를 처리하는 것을 넘어 인간 사고와 유사한 방식으로 다양한 정보를 결합해 더 나은 의사결정을 지원하고 있다. 대표적으로 오픈AI의 GPT-4V(비전), 최소한의 입력으로 이미지 내 시각 요소를 분리하며 비디오 편집 및 의료 영상 분석에 활용되는 메타의 ‘SAM(Segment Anything Model)’ 등이 있다.


자율성 갖춘 ‘에이전트 AI’

멀티모달 AI가 인간 사고를 모방하며 발전하는 가운데, 최근에는 인간처럼 스스로 사고하고 행동할 수 있는 ‘자율성’이 강화된 신기술이 등장했다. 바로 ‘에이전트 AI’다. 에이전트 AI는 사용자의 목표를 이해하고 독립적으로 작업을 수행하며 결과를 도출하는 자율적인 시스템이다.

 가트너는 지난해 ‘2025년 10대 전략 기술 트렌드’ 중 하나로 ‘에이전트 AI’를 선정했다. (출처: 가트너)
가트너는 지난해 ‘2025년 10대 전략 기술 트렌드’ 중 하나로 ‘에이전트 AI’를 선정했다. (출처: 가트너)

에이전트 AI가 갖는 LLM 및 멀티모달 AI와의 핵심 차별점은 바로 LLM을 기반으로 자연어 처리 능력을 갖추고 여기에 더해 외부 도구(API)를 호출하거나 복잡한 작업을 자체 수행할 수 있는 능력이 있다는 점이다. 이러한 기술은 IT 현업에서 특히 주목받고 있으며, 비즈니스 프로세스 자동화, 고객 서비스 개선, IT 지원 등 다양한 분야에 접목되고 있다.

대표적인 오픈소스 도구로는 오픈AI가 공개한 오토GPT(AutoGPT)가 있다. 오토GPT는 사용자가 설정한 목표를 바탕으로 여러 하위 작업을 독립적으로 수행한다.

예를 들어 사용자가 “새로운 제품 출시 전략을 작성하라”는 명령을 내리면, 오토GPT는 먼저 시장 조사를 수행하고 경쟁사 분석 데이터를 수집한 뒤 이를 바탕으로 전략 문서를 작성한다. 이 과정에서 오토GPT는 LLM과 API 통합 기능을 활용해 복잡한 작업을 자동화한다. 또한 사용자가 반복적인 작업에 소요되는 시간을 줄이고 창의적인 업무에 집중할 수 있도록 돕는다. 오토GPT는 단순히 명령을 수행하는 것을 넘어 사용자와의 상호작용을 통해 학습하며, 점점 더 정교하고 개인화된 결과를 제공한다.

에이전트 AI를 도입한 한 기업의 관계자는 “에이전트 AI를 활용해 효율성을 향상했다. 반복적이고 시간이 많이 소요되는 작업을 자동화해 업무 효율성을 높였다. 비밀번호 재설정이나 SW 설치와 같은 일반적인 요청을 자동으로 처리할 수 있다. 이 외에도 비용 절감에도 효과가 있으며, 24시간 작동하기 때문에 시간과 장소에 구애받지 않고 서비스를 제공할 수 있다는 점도 큰 장점이다”라고 설명했다.

물론 에이전트 AI를 활용한다고 해서 인간 개입이 완전히 배제됐다는 의미는 아니다. 에이전트 AI는 반복적이고 데이터 중심적인 작업을 자동화함으로써 인간 개입을 최소화한다. 하지만 창의적이고 전략적인 의사결정에는 여전히 인간의 개입이 필요하다. 고객 상담 서비스에 적용된 AI 에이전트를 예로 들면, 자주묻는질문(FAQ)에 자동화된 응답을 제공하거나 NLP 처리를 기반으로 사람과 대화하는 것과 같이 의사소통할 수도 있다. 또 고객이 사진을 업로드 해 “문제가 있다”고 말하면 이미지를 분석하고 문제를 식별한 뒤 해결책을 제안할 수도 있다.

하지만 복잡한 문제해결이나 감정적 공감이 필요한 대화의 경우에는 인간 상담원의 개입은 필요할 수밖에 없다. 이처럼 에이전트 AI는 인간과 AI 간 역할 분담을 통해 효율성을 극대화하는 방향으로 발전하고 있다.

한 업계 관계자는 “에이전트 AI는 향후 더욱 발전할 것으로 예상된다. 복수의 글로벌 조사기관들에 따르면, 다중 에이전트 시스템(Multi-Agent Systems)을 통해 협업 능력이 강화될 것으로 기대되고 있다. 여러 에이전트가 협력해 대규모 프로젝트를 관리하거나 복잡한 산업 공정을 최적화하는 데 활용될 것으로 예상한다”고 설명했다.


“5~10년 후 AGI 시대될 것” 전망

지금까지 룰 기반의 AI부터 머신러닝과 딥러닝을 거쳐, LLM과 멀티모달 AI, 에이전트 AI 등에 대해 살펴봤다. 룰을 기반으로 프로그래밍 언어로 입력하는 형태에서 사람의 언어를 이해할 수 있는 자연어 처리, 그리고 이를 토대로 생성된 트랜스포머 기반 LLM, 시청각 능력을 갖춘 멀티모달 AI, 자율성이 강화된 에이전트 AI까지 결국 발전 방향은 ‘인간을 모방’하는 데 있다.

SW 및 AI 업계 대부분의 관계자는 현재 AI 발전 단계를 ‘에이전트 AI’에 속한다고 평가하고 있다. 한 관계자는 “AI 기술은 단순히 데이터를 분석하거나 특정 작업을 수행하는 수준을 넘어, 사용자의 목표를 이해하고 독립적으로 계획을 세워 여러 하위 작업을 수행하며 결과를 도출하는 자율적인 시스템으로 발전했다”면서 “현재 에이전트 AI는 글로벌 차원에서 IT를 넘어 법률, 농업, 금융 등 다양한 산업에서 실질적으로 적용되기 시작했다”고 주장했다.

 오픈AI 샘 올트먼 CEO(출처: 샘 올트먼 X)
오픈AI 샘 올트먼 CEO(출처: 샘 올트먼 X)

그렇다면 에이전트 AI의 다음은 무엇일까. 오픈AI의 샘 올트먼 CEO부터 테슬라의 일론 머스크 CEO 등 업계를 주도하는 사람들 모두 앞으로 5년, 늦어도 10년 이내 AI가 인간 수준에 도달하는 수준인 범용인공지능(AGI)이 출현할 것으로 전망하고 있다.

샘 올트먼 CEO는 “10년 내 AGI에 도달할 것으로 예상된다. 현재 기술적 진보가 빠르게 이뤄지고 있다”고 강조했고, 일론 머스크 CEO는 “2026년까지 AGI가 가능해 질 것”이라고 내다봤으며, 구글 딥마인드 허사비스 CEO는 “AGI는 5~10년 내 나올 것”으로 예상했다. 또한 앤트로픽의 다리오 아모데이 CEO도 “향후 2~3년 안에 인간보다 뛰어난 AI가 등장할 것”이라고 점쳤으며, 시스코의 지투 파텔 최고제품책임자 역시 “올해 AGI가 작동한다는 의미 있는 증거를 볼 것”이라고 전망했다.

AGI는 특정 작업에 국한되지 않고, 인간처럼 다양한 환경에서 문제를 해결하고 새로운 상황에 적응할 수 있는 범용지능을 의미한다. 현재의 AI를 좁은 인공지능(Narrow AI)으로 가정하면, AGI는 인간의 사고와 학습 과정을 모방하는 강력한 인공지능(Strong AI)이라고 할 수 있다.

AGI와 기존 AI 간의 차이점은 일반화된 학습 능력과 적응력에 있다. 현재의 AI는 특정 작업에 최적화된 좁은 지능을 가지고 있지만, AGI는 다양한 작업 간 지식을 전이 학습(Transfer Learning)을 통해 새로운 문제를 해결할 수 있다.

예를 들어 AGI 기반 자율주행차는 미리 프로그래밍된 경로와 센서를 기반으로 작동하는 것이 아니라, 주변 환경을 실시간으로 분석하고 예상치 못한 상황에서도 최적의 결정을 내릴 수 있다. 또한 AGI는 자기 개선(Self-Improvement) 능력을 통해 스스로 학습하고 성능을 지속적으로 향상할 수 있다.

AGI가 구현된다면 복잡한 문제해결과 창의적인 작업에 혁신적인 변화를 가져올 것으로 예상된다. 이와 관련해 국내 한 AI 기업 대표는 “과학 연구 분야에서 AGI가 방대한 데이터를 분석하고 새로운 가설을 제안하며 실험 설계를 자동화할 수 있다. 예를 들어 천문학에서 은하 형성 과정에 대한 새로운 이론을 제시하고, 암 연구와 관련해 유전자 데이터와 약물 반응 데이터를 결합해 맞춤형 치료법을 개발할 수 있다. 자연재해 상황에서도 AGI는 실시간 데이터를 분석해 최적의 대피 경로를 제안하거나 구조 활동을 조율할 수 있다”면서 “아마도 AGI가 현실화되면 헬스케어, 과학 분야에서 가장 먼저 사용될 것으로 보인다. 물론 AGI처럼 보이는 좁은 지능으로 먼저 나타날 가능성이 높다”고 내다봤다.

그러나 대다수의 전문가는 AGI가 현실화되기 위해선 여전히 많은 기술요소들이 요구되고 있고, 그 중에서도 멀티 에이전트 AI의 발전이 시급하다고 평가하고 있다. 한 관계자는 “AGI가 출현하기 위한 핵심 요건은 AI가 목표 달성을 위해 스스로 계획을 세우고, 다양한 상황에서 유연하게 대처할 수 있는 지능을 갖추는 것”이라면서 “여러 에이전트 AI 간 상호작용은 AGI 발전에 필수적이다. 단일 AI 시스템으로 현실 이해를 하는 데 한계가 있고, 여러 분야에 특화된 AI가 상호작용하는 방식으로 하나의 거대한 지능을 만들어 내는 과정이 있어야 AGI가 출현할 수 있다”고 설명했다.

국내·외 AI 관계자들 모두 AGI 다음 혁신으로 ‘초지능(ASI, Artificial Super Intelligent)’을 꼽고 있다. ASI는 인간의 지능을 모든 영역에서 초월하는 인공지능의 가설적 단계로, 현존하는 AI 기술의 최종 진화 형태다.

단순히 특정 작업에 특화된 ‘좁은 인공지능(ANI)’이나 인간 수준의 지능을 목표로 하는 AGI를 넘어 창의성, 문제해결 능력, 감정 이해 및 사회적 기술 등 모든 면에서 인간을 능가할 수 있는 능력을 갖추게 될 것으로 예상된다. 현재 ASI는 이론적인 개념이지만, AI 기술이 발전함에 따라 점차 현실이 될 가능성이 높아보인다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지