뛰어난 자연어처리 성능으로 인간-컴퓨터 모달리티 혁신 가속화

[컴퓨터월드] 바야흐로 챗GPT(ChatGPT)의 시대다. 일반 사용자와 기업들을 가리지 않고 IT와 관련된 모든 분야에서 챗GPT가 가장 큰 주목을 받고 있다. 과거 구글 딥마인드가 공개한 알파고(AlphaGO)가 인공지능(AI)의 가능성에 대한 인식을 완전히 바꾸어놓았던 것처럼, 챗GPT는 대화형 검색의 혁신을 통해 알파고와 같은 수준의 변화를 만들어나가고 있다.

챗GPT 메인 화면
챗GPT 메인 화면

글로벌 기업들의 ‘경계 경보’ 발령

지난해 12월 21일, 검색 서비스 시장의 최강자인 구글이 ‘코드 레드(code red)’를 발령했다. 코드 레드는 구글이 위험한 상황에 직면했다는 것을 의미한다. 구글 순다 피차이(Sundar Pichai) CEO는 자사의 주력 비즈니스 중 하나인 검색 시장에서 심각한 위협이 발생했다고 설명하며, 이러한 위협을 헤쳐 나가기 위해 전사적인 역량을 집중할 것이라고 선언했다. 구글이 전 세계 검색 시장의 80% 이상을 독점하고 있는 지배적인 사업자임에도 불구하고 ‘심각한 위협’을 느낄 정도의 사태가 발생했다는 것이다.

구글이 코드 레드를 발령하도록 만든 것은 최근 전 세계를 들썩거리게 만들고 있는 챗GPT다. 오픈AI가 지난해 11월 베타 버전을 공개한 챗GPT는 기존과 차별화된 검색 방법과 편리한 사용성, 뛰어난 성능 등을 바탕으로 폭발적인 인기를 끌었다. 구글은 챗GPT가 출시된 지 5일 만에 100만 명이 넘는 사용자를 모으는 것을 보면서 자사가 독점하고 있는 시장에 강력한 대항마가 등장했다는 것을 직감했다.

챗GPT 열풍에 자극을 받은 것은 비단 구글만이 아니다. 마이크로소프트는 지난 1월 오픈AI와 파트너십을 체결하고 100억 달러에 달하는 투자를 공식화하며 챗GPT에 지대한 관심을 가지고 있음을 표명했다. 그동안 구글에 밀려서 빛을 보지 못하고 있었던 빙(Bing)에 챗GPT를 결합해 검색 시장의 판도를 바꾸겠다는 목표다. 특히 2021년 이전의 데이터를 주로 학습한 베타 버전 챗GPT와 달리, 실제 서비스가 가능하도록 최신 데이터까지 학습했다.

메타는 독자 개발한 초거대 AI ‘라마(LLaMA)’를 공개했다. 라마는 챗GPT보다 적은 650억 개의 매개변수(parameter)를 학습했지만, 최소 70억 개에서 최대 650억 개까지 매개변수 학습량에 따라 서비스 모델을 구분해 제공하는 것이 특징이다. 필요에 따라 매개변수 학습량이 적은 모델을 선택해 빠르고 효율적인 서비스 이용이 가능하고, 매개변수가 적은 대신 학습 데이터의 양을 늘려 성능을 고도화했다. 메타가 공개한 성능평가 지표에 따르면, ‘학습 데이터에 포함되지 않은 상식추론’ 등 일부 테스트에서는 챗GPT보다 우수한 성능을 기록하기도 했다.

코드 레드를 선언했던 구글은 2년 전 공개했던 대규모 대화 모델 ‘람다(LaMDA)’를 기반으로 대화형 AI ‘바드(Bard)’를 선보였다. 과거 ‘알파고(AlphaGO)’를 개발해 일약 AI 붐을 일으켰던 구글의 계열사 딥마인드는 또다른 대화형 AI ‘스패로우(Sparrow)’를 공개했다. 하지만 구글은 바드를 야심차게 공개한 첫 시연회장에서 잘못된 답변을 내놓으며 체면을 구겼다. 이날 구글의 모회사인 알파벳의 주가는 7% 넘게 하락했다.

대규모 대화 모델 ‘람다’를 공개하는 구글 순다르 피차이 CEO
대규모 대화 모델 ‘람다’를 공개하는 구글 순다르 피차이 CEO

장문‧복문까지 이해하는 자연어처리 성능

GPT는 오픈AI에서 개발한 대형언어모델(LLM, Large Language Model)이다. 오픈AI는 지난 2018년 6월 처음으로 GPT를 발표했고, 채 1년이 지나지 않아 2019년 2월에는 더 많은 데이터와 매개변수를 학습시킨 GPT-2를 공개했다. 이어서 2020년에는 GPT-3가 공개됐으며, 챗GPT는 GPT-3를 더욱 발전시킨 GPT-3.5를 기반으로 한다.

GPT는 ‘Generative Pre-trained Transformer’의 약자다. ‘Generative’는 사용자의 질문에 대한 답변을 스스로 생성하는 모델임을, ‘Transformer’는 GPT가 신경망 모델 중 트랜스포머(Transformer) 아키텍처를 사용하고 있음을 의미한다. 그리고 ‘Pre-trained’는 GPT가 사전학습을 통해 수많은 매개변수를 갖추고 있음을 나타낸다. 학습한 매개변수의 숫자는 대형언어모델의 성능을 판가름하는 중요한 지표다. 실제로 GPT-2와 GPT-3의 성능 차이는 기술적인 변화보다 학습한 데이터와 매개변수의 숫자에서 발생했다. 학습한 매개변수의 숫자를 따지면 처음 공개된 GPT는 약 1억 개, GPT-2는 15억 개 정도이며, GPT-3는 무려 1,750억 개에 달한다.

풍부한 매개변수들을 통해 챗GPT는 뛰어난 자연어처리(NLP, Natural Language Processing) 성능을 갖출 수 있다. 자연어로 구성된 길고 복잡한 질문도 정확히 이해하고 사전 학습된 방대한 데이터를 바탕으로 답변을 제시할 수 있다. 기존 검색 서비스들은 사용자가 입력한 검색어를 바탕으로 관련 정보를 제공하는 웹사이트 링크를 제시하는 데에 그쳤지만, 챗GPT는 주어진 정보들을 수집하고 결합해서 독자적인 내용을 만들어 제공하는 것이 차별점이다. 수집한 정보를 이해하고 논리적인 추론을 바탕으로 재배치할 수 있는 성능을 갖추고 있기에 가능한 결과다.

챗GPT의 핵심인 트랜스포머 알고리즘 구조
챗GPT의 핵심인 트랜스포머 알고리즘 구조

다양한 정보를 결합해 독자적인 장문의 답변을 제시할 수 있는 챗GPT는 기존 검색 서비스들과는 상당히 다른 방법으로 사용되고 있다. 예를 들어 사용자가 A와 B의 공통점과 차이점에 대해 조사하고자 할 때, 기존의 검색 서비스로는 A와 B를 각각 검색해 수많은 보고서나 뉴스기사, 논문 등을 직접 확인해가며 정보를 모으고 이렇게 수집한 정보들을 비교해가며 공통점과 차이점을 추론해내야 한다. 반면 챗GPT에 “A와 B의 공통점과 차이점을 알려달라”고 질문하면 수많은 정보들을 AI가 취합해 이해하기 쉬운 형태로 재작성해 제공해준다. 검색에 드는 수고가 크게 줄어드는 것은 물론, 기존 검색 서비스에서는 불가능했던 수집한 정보 간의 결합과 추론까지 AI가 대체할 수 있다.

광범위한 정보 수집, 그리고 정보 간의 결합과 추론 등은 챗GPT가 이전까지의 챗봇 서비스들과 차별화되는 특징이다. 기존의 챗봇 서비스들은 제한적인 영역에서 서비스 품질과 편의성을 높이기 위해 사용되는 경우가 대부분이었다. 따라서 사용자의 의도를 정확히 이해하고 사전에 설계된 답변과 서비스들을 연결해주는 것이 중요했다. 개발 목적에 따라 학습하는 데이터도, 제공하는 답변과 서비스도 한정적이었다. 반면 챗GPT는 방대한 인프라와 데이터들을 바탕으로 범용적인 검색 서비스로 활용될 수 있을 만큼 광범위한 정보들을 제공한다.

다만 챗GPT가 일반적인 의미의 범용 AI(AGI, Artificial General Intelligence)에 속한다는 뜻은 아니다. 결국 질문에 대한 이해와 답변만이 가능한 대화형 AI에 속하기 때문이다. 챗GPT가 기존의 다른 챗봇들에 비하면 분야의 제한없이 데이터를 학습하고 답변을 제시할 수 있는 것은 맞지만, 그렇다고 해서 서비스 범위를 대화 이외의 영역까지 확대할 수 있다고 보기는 어렵다.


챗GPT, ‘검색의 모달리티’ 바꾼다

챗GPT로 인해 시작된 검색 서비스들의 혁신은 사용자 경험에 있어서도 많은 변화를 가지고 온다. 특히 유의미한 변화 중 하나는 사용자와 정보 사이에 놓여있는 채널, 모달리티(modality) 측면에서 일어날 것으로 보인다.

검색에 챗GPT를 이용하면 단 한 번의 질문으로 AI가 광범위한 정보를 수집하고 분석과 추론까지 제공하면서 사용자가 해야 할 일은 크게 줄어든다. 자연어처리가 가능한 대화형 인터페이스는 원하는 결과를 얻기 위해 검색어를 고민할 필요를 없애주고, AI가 정보를 모아서 정리까지 해주므로 검색 결과창의 링크를 하나하나 눌러가며 다양한 웹사이트를 돌아다녀야 하는 피로를 덜어준다. 컴퓨터에게 검색이라는 명령을 내리는 단계와 결과값을 돌려받는 단계 모두에서 AI의 역할이 늘어나고, 반대로 사용자가 개입해야 할 영역은 줄어든다.

결과적으로 사용자가 검색을 통해 정보를 얻는 과정에서 어려움을 겪지 않게 된다. 원하는 정보가 있어도 검색을 활용하기 어려웠던 이들에게 챗GPT가 제공하는 쉽고 편리한 인터페이스와 풍부한 검색 결과는 무척 매력적이다. 비록 지금 당장은 챗GPT가 디지털 기술에 익숙한 사용자들을 위주로 소비되고 있지만, 장기적으로는 디지털 소외계층에게 인터넷을 통한 정보 검색의 창구로써 유용한 옵션이 될 수 있을 것으로 예상된다.

검색 이외의 영역에서는 사용자와 컴퓨터 사이의 상호작용을 보다 정교하고 직관적으로 변화시킬 수 있다. 최근 몇 년 사이에 대화형 챗봇을 도입해 서비스 품질을 개선하는 사례가 늘어나고 있으며, 애플의 시리(Siri)나 삼성 빅스비(Bixby)와 같은 스마트폰 개인비서, 아마존 알렉사(Alexa)나 카카오 미니(Kakao mini)와 같은 AI 스피커 등을 중심으로 음성인식을 통한 디바이스 조작 또한 다양해지는 추세다. 이처럼 사용자들은 컴퓨터와의 대화 채널, 모달리티의 변화를 자연스럽게 받아들이고 있다.

하지만 이러한 기술이 상용화된 후 상당한 시간이 지났음에도 불구하고 여전히 대다수 서비스들은 이상적인 목표를 달성했다고 보기 어렵다. 여전히 사용자의 명령을 정확히 이해하고 수행하는 데에 어려움을 겪고 있기 때문이다. 실제로 앞서 예시로 들었던 스마트폰 개인비서나 AI 스피커들은 문장이 길어지거나 구조가 복잡해지면 명령을 이해하지 못하는 경우가 부지기수다. 사용자가 원하는 결과를 얻기 위해서는 AI가 이해할 수 있는 명령을 생각해서 말해줘야 한다. 이는 입력 방식이 다소 변화했을 뿐, 여전히 사용자가 명령 내용에 대해서 고민해야 한다는 점에서 한계를 드러낸다.

챗GPT는 다양한 정보를 모아 독자적인 장문의 답변을 제시할 수 있다.

이러한 점에서 챗GPT가 보여준 가능성은 무척 고무적이다. 챗GPT가 가진 가장 중요한 의미는 바로 뛰어난 자연어처리 성능이다. GPT의 근간을 이루고 있는 트랜스포머(Transformer) 알고리즘은 자연어처리 분야에서 가장 활발히 사용되고 있는 신경망 기술이다. 챗GPT는 현재 1,750여 개의 매개변수와 방대한 데이터들을 학습해 전에 없던 수준의 자연어처리 성능을 보여주고 있으며, 이를 바탕으로 이전에는 불가능했던 길고 복잡한 문장도 이해할 수 있음을 증명해보였다.

현재 오픈AI의 챗GPT는 텍스트 기반의 대화형 챗봇 형태로 제공되고 있지만, GPT가 가진 자연어처리 성능을 스마트폰 개인비서와 같이 변화한 모달리티들과 결합한다면 사용자의 디지털 경험은 크게 향상될 것으로 예상된다. 터치나 음성과 같은 새로운 입력 장치들과 길고 복잡한 음성 명령을 이해할 수 있는 GPT의 자연어처리 성능을 결합한다면 사용자가 컴퓨터와 대화하는 채널이 크게 향상될 수 있을 것이다.


독창성 결여된 콘텐츠

다만 챗GPT의 등장이 모든 점에서 긍정적인 영향만 가지고 올 수 있는 것은 아니다. 이미 챗GPT는 사용법에 있어서 많은 문제점과 한계들을 노출하고 있다. 실제로 많은 커뮤니티 사이트에서 챗GPT를 이용해 학교 과제나 자기소개서 등을 대리 작성하는 방법이 공유되고 있다. 인간의 섬세한 감성이 요구될 것으로 생각됐던 시나 소설, 노래 가사 등 예술의 영역에서도 챗GPT가 종횡무진 활약 중이다. 학계에서는 논문의 얼개를 짜거나 구체적인 내용 구성, 초록 작성 등에 챗GPT의 도움을 받는 것이 올바른가에 대해 많은 논의가 오가고 있으며, 이름있는 학회들에서는 챗GPT를 포함한 AI의 논문 대리작성을 금지한다고 선언하기도 했다. 챗GPT를 통한 대리작성이 빈번히 일어나다 보니 일각에서는 역으로 AI가 작성해준 콘텐츠를 잡아내는 AI 기술을 개발해 공개하기도 했다.

챗GPT와 같은 생성적(generative) AI는 잘 사용할 경우 사용자의 업무 효율을 크게 향상시킬 수 있다. 예를 들어 프로그래밍 분야에서는 챗GPT에게 코딩을 맡기는 것이 유행이다. 프로그래밍 지식이 없는 일반인들이 간단한 코딩을 맡기는 것은 물론, 전문 개발자들도 업무 능률을 높이기 위해 챗GPT의 도움을 받기도 한다. 이는 최근 상승세를 타고 있는 로우코드/노코드(low-code/no-code) 개발 방법론들이 내세우는 장점이기도 하다.

그렇다면 학교 과제나 연구 논문, 그리고 프로그래밍에는 어떤 차이가 있기에, 챗GPT를 통한 대리 작성에 온도차가 있는 것일까? 이 두 가지를 가르는 것은 독창성(originality)이다.

학교 과제를 작성할 때 인터넷 사이트에서 찾은 내용을 그대로 복사해 붙여넣으면, 그 내용이 아무리 정확하고 훌륭하더라도 낙제점을 피할 수 없을 것이다. 연구 논문에서 일부라도 그런 일을 했다가는 표절 시비에 휘말려 학계의 신임을 잃어버릴 수도 있다. 이는 과제나 논문이 전에 없던 독창성을 요구하는 것이기 때문이다. 이 경우 독창성은 논문을 구성하는 텍스트에서 나오는 것이 아니라, 해당 텍스트가 담고 있는 내용에서 나온다.

많은 학회들에서 AI를 이용한 논문 작성을 금지하는 것은, 독창성이 있어야 할 논문의 내용을 연구자가 아닌 AI에게 맡긴다는 이유에서다. 실제로 글로벌 최고 수준의 학회 중 하나인 ICML에서는 “(GPT와 같은) 대형언어모델(LLM)으로 생성된 텍스트를 금지한다”고 선언하면서도, “다만 텍스트를 편집하거나 다듬는 데에 LLM을 사용하는 것은 금지하지 않는다”고 덧붙였다. 이는 논문이 가져야 할 독창성이 어디에 있는지를 명확히 설명하는 대목이다.

프로그래밍에서 챗GPT를 이용한 코딩, 로우코드/노코드 기술을 통한 코딩 자동화가 금기시되지 않는 것은 독창성을 해치지 않기 때문이다. 코딩은 논문의 텍스트를 작성하는 과정이다. 프로그래밍에서 독창성이 필요한 것은 소프트웨어의 아이디어와 기능을 구현하는 방식이지, 그것을 구성하는 한 줄 한 줄의 코드들이 아니다. 그렇기 때문에 오래전부터 프로그래밍 분야에서는 잘 만들어져 있는 코드를 재활용하는 것이 나쁜 일로 여겨지지 않았고, 오픈소스와 같은 생태계가 만들어질 수 있었던 것이다.


검색의 완전한 대체는 불가능하다

챗GPT가 야기하는 독창성의 문제는 비단 논문이나 프로그래밍과 같은 전문적인 영역에서만 발생하는 것이 아니다. 구글이 ‘코드 레드’를 선언할 만큼, 챗GPT는 이미 디지털 기술에 익숙한 사용자들에게 있어 새로운 검색 채널로 인식되고 있기 때문이다.

기존의 검색 서비스들은 사용자가 입력한 검색어에 대해 관련 웹사이트 링크들을 찾아주는 것에 그쳤다. 반면 챗GPT는 해당 웹사이트들에 담긴 정보들을 취합하고 새롭게 엮어 독자적인 내용을 보여준다. 이것은 사용자의 검색 경험을 편리하게 만들어주는 장점이다. 하지만 한편으로는 사용자가 얻을 수 있는 정보를 제한하는 단점이기도 하다. 각 웹사이트에 있는 날 것 그대로의 정보들 대신 챗GPT가 선별한 정보들만을 제한적으로 얻을 수 있기 때문이다. 특히 AI의 근간에는 통계학이 자리하고 있으므로, AI인 챗GPT는 통계적으로 다수인 정보들을 중요하다고 판단하고 소수의 독창적인 의견들은 사장될 가능성이 높다.

사용자 입장에서 기존의 검색 서비스들은 검색 결과창에서 여러 웹사이트들을 들락날락거려야 하는 불편함이 있다. 이를 통해 얻은 정보를 바탕으로 직접 머리를 쓰고 아이디어를 내야 한다는 점이 귀찮기도 하다. 하지만 그렇다고 해서 쉽고 편리한 챗GPT가 기존의 검색 서비스들을 완전히 대체할 수 있다고 보기는 어렵다. 기존의 검색 서비스를 이용하면 10명의 사용자에게서 서로 다른 10가지 아이디어가 탄생할 수 있었겠지만, 챗GPT를 이용하면 선별된 정보들을 논리적으로 잘 짜맞춘 단 한 가지 아이디어가 남게 될 것이기 때문이다. 챗GPT의 급격한 성장세를 경계해야 하는 이유가 여기에 있다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지