가수·쇼호스트 등 활용분야 다양, 2030년 700조 원 시장 형성

[컴퓨터월드] 지난 2016년 미국 로봇공학 및 AI 개발 스타트업 브러드에서 선보인 버추얼 휴먼 ‘릴 미켈라(Lil Miquela)’는 인플루언서로 활약하며 주목을 받은 바 있다. 이후 언택트 환경이 지속되면서 AI 기술과 첨단 기술로 제작된 버추얼 휴먼이 뜨고 있다. 과거 버추얼 휴먼은 짧은 영상이나 이미지 속에서 볼 수 있었지만 현재 버추얼 휴먼은 고도화된 기술이 적용되면서 실재 사람과 흡사한 모습으로 영상 및 라이브 콘텐츠를 통해 사람들 앞에 나서고 있다. 다양한 분야에서 전문적인 활동을 펼쳐나가고 있는 버추얼 휴먼 제작업체들의 이야기를 들어봤다.

 

다양한 분야에서 활용 가능한 버추얼 휴먼

메티빌드 AI 싱어 ‘비비젠’ (출처: 컴퓨터월드 2021년 12월 호)
메티빌드 AI 싱어 ‘비비젠’ (출처: 컴퓨터월드 2021년 12월 호)

메타빌드는 가창음성합성 기술(MAI VOCAL)을 통해 AI싱어 ‘비비젠’을 선보였다. 다양한 보이스 특성으로 구분된 가창자 92명의 가창 음성을 획득해 가창자 발음의 시작과 지속 시간에 대응되는 가사와 미디(MIDI) 파일을 통해 라벨링 된 4,000곡을 수집 및 가공했다. 이를 바탕으로 인공지능 학습용 보컬 데이터를 구축했고 어쿠스틱 모델(Acoustic Model)과 보코더 모델(Vocoder Model)의 두 가지 학습 모델을 통해 자연스럽고 높은 품질의 가창 음성을 생성했다.

이스트소프트 버추얼 휴먼 '백하나' 프로필 사진 (출처: 이스트소프트)
이스트소프트 버추얼 휴먼 '백하나' 프로필 사진 (출처: 이스트소프트)

이스트소프트는 온라인 클래스 플랫폼 클래스101과 협업으로 인물 생성 기능 ‘AI 페르소나(Persona) 기술’로 상용화한 버추얼 휴먼 ‘백하나’를 탄생시켰다. ‘백하나’는 브랜딩, NFT 등을 강의하는 강사로 활동하고 있다. 클래스101에서 ‘백하나’를 기획했고, 이스트소프트는 AI 페르소나 기술을 적용해 기획 의도에 가장 부합하는 얼굴을 만들어 냈다.

크래프톤 버추얼 휴먼 ‘애나’ 앨범 티저 이미지 (출처: 크래프톤)
크래프톤 버추얼 휴먼 ‘애나’ 앨범 티저 이미지 (출처: 크래프톤)

지난 9월에는 국내외 온라인 음원 사이트를 통해 디지털 싱글을 발표한 가수가 주목을 받았다. 앨범의 티저 이미지를 보면 실제 사람을 촬영한 것처럼 보이지만 사진 속 여성은 실존 인물이 아니었다. 이 여성은 하이퍼 리얼리즘 모델링, 딥러닝 등 다양한 기술을 자체 연구개발해 제작된 크래프톤의 버추얼 휴먼 ‘애나’다. 사람처럼 자연스럽게 연기하고 노래할 수 있도록 고도화된 음성(Voice Synthesis) 합성 기술이 적용됐다.

자이언트스텝, 버추얼 휴먼 ‘이솔’ 이미지 (출처: 자이언트스텝)
자이언트스텝, 버추얼 휴먼 ‘이솔’ 이미지 (출처: 자이언트스텝)

자이언트스텝은 네이버와 공동으로 버추얼 휴먼 ‘이솔’을 개발했다. 리얼타임 엔진 기반으로 제작된 이솔은 현재 네이버 쇼핑라이브 쇼호스트로 활동하고 있다. 다른 일반 콘텐츠에 비해 4배 이상 조회수가 나오는 등 ‘이솔’을 통해 버추얼 휴먼을 활용한 실질적인 마케팅 솔루션이 될 수 있는 사례를 만들어가고자 한다.

JTBC ‘얼라이브’에서 고(故) 임윤택이 AI로 복원됐다. (출처: 티빙)
JTBC ‘얼라이브’에서 고(故) 임윤택이 AI로 복원됐다. (출처: 티빙)

디오비스튜디오는 페이스 제너레이션(Face Generation) 기술을 적용해 고(故) 임윤택의 얼굴을 복원, ‘얼라이브’라는 방송 프로그램을 통해 공개했다. 유가족과 방송사의 협조를 받아 관련 사진과 영상들을 수집하고, 딥러닝에 적합한 데이터를 분류해 정제한 데이터들을 기반으로 얼굴 모델링을 진행했다. 또한 고(故) 임윤택과 유사한 체형의 섀도액터를 섭외해 춤추고 노래하는 영상을 촬영하고, 딥러닝으로 생성한 얼굴 모델에 동일하게 적용하는 페이스 스왑(Face Swap) 기술로 합성하는 등 이목구비의 위치와 모양을 수정함으로써 완성도를 높였다.

딥브레인AI는 AI 기술을 통해 부모님을 버추얼 휴먼으로 구현했다.(출처 딥브레인AI)
딥브레인AI는 AI 기술을 통해 부모님을 버추얼 휴먼으로 구현했다.(출처 딥브레인AI)

딥브레인AI도 ‘리메모리’ 서비스를 선보였다. 리메모리 서비스는 소중한 사람의 모습을 가상으로 복원해 재회할 수 있도록 만남을 돕는 서비스다. 사전 촬영을 통해 얻은 시나리오와 개인정보 등을 AI 휴먼에 학습시켜 버추얼 휴먼과 대화할 때 원활한 소통이 가능하도록 했다. 단 한 번의 촬영으로 사람의 목소리, 톤, 말하는 습관 등 디테일하게 표현할 수 있다.

 

2030년 700조 원 시장 형성

이처럼 다양한 분야에서 버추얼 휴먼 개발/활용 사례가 증가함에 따라 버추얼 휴먼 시장 규모 또한 급성장하고 있다. 글로벌 시장조사업체 이머진리서치는 글로벌 버추얼 휴먼 시장이 2030년에 약 700조 원 규모를 형성할 것으로 전망했다.

일각에서는 시장이 이처럼 확대될 것이라는 점을 들어 국가 경쟁력 강화 차원에서 정부 지원이 필요하다고 입을 모으고 있다. 이스트소프트 변계풍 AI 사업본부장은 “시장이 크게 확대될 것이 확실시 되고, 국내 IT기술과 콘텐츠 제작 기술 상황 등을 감안할 때 경쟁우위를 점할 수 있다는 점을 들어 국가 경쟁력 강화차원에서 육성이 필요한 산업”이라고 말했다.

특히 버추얼 휴먼은 음악, 패션, 미용, 자동차 산업에 이르기까지 다양한 산업분야에 적용이 가능하기 때문에 시장 성장이상으로 그 파급 효과가 클 것으로 예상된다.

블룸버그 통신에 의하면 버추얼 인플루언서 시장이 실제 인플루언서 시장을 넘어섰다. 2021년 버추얼 인플루언서 시장은 약 14조 원 규모였으며 일반 인플루언서 시장은 13조 원이었던 것으로 나타났다.

디오비스튜디오 오제욱 대표는 “버추얼 휴먼 인플루언서와 일반 인플루언서 각각의 규모를 놓고 볼 때 리스크 없이 기업의 메시지를 전략적으로 전달할 수 있다는 점에서 버추얼 휴먼 인플루언서 시장이 휠씬 더 커질 것”으로 예상했다.

 

시간, 공간 등 제약으로부터 자유로워

현재 버추얼 휴먼은 주로 광고, 마케팅 등에 활용되면서 엔터테인먼트, 패션, 게임, 스포츠 등의 분야에서 사람을 대신하고 있다. 버추얼 휴먼의 장점은 시간과 공간 등 수많은 제약에서 벗어날 수 있다는 점이다.

메타빌드 고기훈 XR팀장과 딥브레인AI 한종호 사업개발그룹 본부장은 비용적인 측면에서 유리함을 언급했다. 일반 인플루언서 및 연예인의 경우 콘셉트 협의, 출연 섭외 및 장소 대관 비용 등 복합적인 단계가 있어 비용이 상상을 초월하지만 버추얼 휴먼은 그 단계가 대폭 축소돼 저렴한 비용에 상업적 활용이 가능하다고 설명했다.

특히 외모나 목소리 변경 제작 기술도 보다 높은 수준으로 올라가고 있어 사람과 매우 흡사하게 구현이 가능해지고 있기 때문에 버추얼 휴먼의 활용은 더욱 늘어날 것으로 보인다.

그동안 상업적인 면에서 고객 편의를 위한 다양한 방법이 동원되고 있었다. 과거 구매/시청 패턴에 맞춘 상품/서비스를 제안해 365일 24시간 자료를 찾아볼 수 있도록 하는 것을 예로 들 수 있다. 하지만 텍스트와 이미지 위주의 기존 정보제공 방식은 검색에 한계가 존재하고 감정 전달이 어렵다는 단점이 있다.

이스트소프트 변계풍 AI 사업본부장은 “상업적인 차원에서 버추얼 휴먼을 인터페이스로 사용하면 이러한 단점을 모두 극복할 수 있다”고 말했다. 기업들의 텍스트 정보를 고객이 좋아하는 셀럽 버추얼 휴먼과 연결해 놓을 경우, 고객은 편안하고 쉽게 이해할 수 있다는 것이다. 이는 결국 버추얼 휴먼의 활용이 사용자와 고객 모두에게 만족감을 주는 결과로 이어진다. 때문에 버추얼 휴먼은 고객응대분야 뿐만 아니라 무인 키오스크, 교육, 뉴스, 쇼핑, 시니어케어 등의 다양한 분야에서 활용될 수 있을 것이다.

버추얼 휴먼 시장을 다른 관점에서 보는 시각도 존재한다. 자이언트스텝 뉴오더팀 서원민 실장은 버추얼 휴먼이 사람을 대체하는 부분에 있어서, 아직은 초보적인 단계라고 말했다. 서원민 실장은 “버추얼 휴먼을 연예인이나 모델로 활용할 경우 스케줄 관리, 개인의 활동 범위를 뛰어넘는 다양한 콘텐츠 제작, 개인 활동에 따른 리스크 감소 등의 이점들이 존재하지만, 이런 장점만으로 기존의 실재 사람을 완벽하게 대체할 수 있다고 생각하지 않는다”며, “오히려 버추얼 휴먼의 장점은 실재 사람이 할 수 없는 분야에서 더 두드러질 수 있다. 따라서 앞으로의 버추얼 휴먼 관련 콘텐츠는 ‘얼마나 실제 사람과 더 비슷한지’를 넘어서서 ‘실재 사람이 할 수 없는 어떤 장점을 줄 수 있는지’에 더 초점을 맞춰져야 한다”고 조언했다.

 

AI·첨단기술 통해 제작

버추얼 휴먼은 크게 영상 특수효과(Visual Effects, 이하 VFX) 기술을 활용한 버추얼 휴먼과 인공지능 기술을 활용한 버추얼 휴먼으로 나눌 수 있다. VFX 기술을 활용한 버추얼 휴먼은 애니메이션과 같이 제작자가 움직임을 자유롭게 통제할 수 있으며, 생산비용이 매우 높아 고부가가치 콘텐츠 업계에서 주로 활용되고 있다.

인공지능을 활용한 버추얼 휴먼은 초기 AI 모델 생성까지는 상당한 비용이 필요하지만, 이후에는 텍스트나 목소리 녹음파일을 입력하면 비디오로 생성돼 비용이 합리적인 편이다. 특히 수준 높은 AI 기술을 활용한 버추얼휴먼은 극사실주의 얼굴 생성을 통해 진짜 사람과 구분이 거의 불가능한 수준에 이르렀다.

수준 높은 버추얼 휴먼을 제작하기 위해 사용되는 기술로는 △하이퍼 리얼리즘 모델링 △언리얼 엔진 △리깅(Rigging) △음성합성 기술(Text To Speech, 이하 TTS) 등이 있다.

하이퍼 리얼리즘 모델링은 실제 사람의 얼굴을 촬영한 이미지에 가상 얼굴을 합성하는 방식이다. 크래프톤 신석진 크리에이티브 본부장은 “친숙하고 현실적인 외형의 얼굴을 표현하기 위해 글로벌 젠지(Gen-Z, 1990년대 중반~2000년대 초반 출생) 세대에 영향력 있는 여러 사람의 얼굴을 데이터 분석했다. 실제 사람의 피부 질감, 모공, 솜털 등은 물론 행동할 때 몸짓의 사소하고 세세한 부분까지 데이터를 찾아 표현했다”고 말했다.

언리얼 엔진은 3D 게임 엔진으로 실시간 라이브 스트림 콘텐츠 제작이 가능한 툴이다. 별도의 렌더링 시간이 필요하지 않아 버추얼 휴먼의 빠른 구동이 가능하다. 또한 특정 소리나 감정을 표현할 때 표정을 데이터화해 얼굴 형태에서 변화가 일어나는 부위의 수치 등을 분석하기 위한 리깅 기술도 활용되고 있다.

딥브레인AI에서 버추얼 휴먼을 제작하고 있는 모습 (출처: 딥브레인AI)
딥브레인AI에서 버추얼 휴먼을 제작하고 있는 모습 (출처: 딥브레인AI)

TTS는 사람의 목소리·발음·톤·어조 등 발화를 딥러닝으로 학습해, 텍스트 입력 시 발화 음성을 생성하는 기술이다. 딥브레인AI 한종호 사업개발그룹 본부장은 “버추얼 휴먼을 만들기 전 실제 모델의 립싱크를 맞추기 위해 300문장의 스크립트를 읽도록 한다. 그 후 촬영된 영상 원본은 전처리(preprocessing) 과정을 통해 음성과 영상을 분리해 딥러닝으로 학습시킨 후 버추얼 휴먼을 제작한다”고 말했다. 모델에게 인풋된 음성 합성 문장을 한글 자모 단위로 쪼개 각 단위의 임베딩을 학습하고 인코더와 디코더로 구성된 신경망을 거쳐 음성 스펙트로그램을 학습하는 방식으로 진행된다.

 

고사양 하드웨어 필요

버추얼 휴먼 제작 시 필요한 딥러닝 학습은 엄청난 성능의 하드웨어를 필요로 한다. 높은 화질의 영상 데이터를 보관하기 위해서는 대용량의 DB가 필요하다. 그뿐만 아니라 피부 주름의 표현, 몸동작에 따른 시뮬레이션 등을 결합해야 하기 때문에 실시간 렌더링에 따른 하드웨어의 유지/관리가 무엇보다 중요하다. 버추얼 휴먼 제작 기업들이 고사양의 하드웨어 서버를 고객사별로 독립적으로 제공하는 등 자체 데이터센터에서 보안 및 인프라 전문 인력이 관리를 진행하고 있는 것도 이런 이유 때문이다.

또한 제작된 버추얼 휴먼의 실시간 렌더처리를 위해 클라우드 기반의 시스템을 구축해 필요시 언제든지 동적으로 확장할 수 있는 유연한 관리체계를 구성해 운영하고 있다.

 

AI·빅데이터로 고도화돼

버추얼 휴먼에서 흔히 제기됐던 문제는 비주얼과 음성 부분의 ‘불쾌한 골짜기 현상’이었다. 불쾌한 골짜기는 로봇이 사람의 모습과 흡사해질수록 인간이 로봇에 대해 느끼는 호감도는 증가하지만 인간과 어설프게 닮으면 오히려 불쾌한 감정과 거부감을 느끼는 현상이다.

불쾌한 골짜기 이론 개념도. 호감도는 인간과의 유사성이 100%에 가까워질수록, 즉 진짜 인간인지 가상 인간인지 구분하는 일이 의미가 없어지면 다시 올라간다.
불쾌한 골짜기 이론 개념도. 호감도는 인간과의 유사성이 100%에 가까워질수록, 즉 진짜 인간인지 가상 인간인지 구분하는 일이 의미가 없어지면 다시 올라간다.

하지만 기술력이 발달함에 따라 불쾌한 골짜기 현상은 얕아지고 있다. 이미 많은 기업들은 3D 합성, 딥페이크, 자연어 처리 등 다양한 IT 기술을 통해 육안 상 한계가 없을 정도로 자연스럽고 퀄리티 높은 버추얼 휴먼을 제작할 수 있는 기술적인 배경을 갖추고 있다.

버추얼 휴먼의 한계에 대해 이스트소프트 변계풍 AI 사업본부장은 “실제 사람이 아니기 때문에 쌍방향 소통을 진행하는 데 무리가 있다. 사람이 룰을 정해 기계를 학습시키는 룰베이스의 챗봇을 활용해 단순한 정보전달을 위한 사람과 의사소통을 가능하게 하는 기술을 개발하고 있다”고 말했다.

자이언트스텝 뉴오더팀 서원민 실장은 “버추얼 휴먼의 가장 큰 단점은 초기 투자비용이 만만치 않다는 점이다. 일부에서는 버추얼 휴먼 인플루언서를 통해 모델료와 제작비를 줄일 수 있다고 이야기하지만, 상황에 따라서는 비용이 더 들어갈 수 있다. 따라서 버추얼 휴먼을 어떻게 육성하고, 어떤 목적으로 활용할지에 대한 명확한 설정 없이는 만족스러운 결과를 얻기 어려운 경우가 많다. 실재하는 사람이 아니기 때문에 버추얼 휴먼에 맞는 적절한 활용방안이 뒷받침되어야만, 버추얼 휴먼이 갖고 있는 다양한 장점들을 보다 효과적으로 활용할 수 있다”고 조언했다.

메타빌드 고기훈 XR팀장은 버추얼 휴먼은 가상으로 존재하기 때문에 실재하는 물체에 대한 접촉이 불가능하다는 점을 강조했다. 물건을 만지거나 음식을 먹는 행위, 소위 먹방(먹는 방송)을 하는 버추얼 휴먼은 합성 기술이 고도화가 된다 해도 매우 까다로운 작업일 것이라는 게 고기훈 팀장의 설명이다.

고기훈 팀장은 “버추얼 휴먼 기술이 단순히 인간을 대체하는 것이 아닌 인간의 표현의 자유를 확장하는 데 있어야 된다고 생각한다”며, “억지로 버추얼 휴먼으로 대체하기 위해 어색한 결과물로 대중들에게 선보이는 일은 오히려 반감과 버추얼 휴먼에 대한 인식만 저하시키게 될 것이다. 버추얼은 말 그대로 가상이고 꼭 실재하는 모든 것을 대체할 필요는 없다. 가상 세계 속 버추얼 휴먼이라서 가능한 부분들은 충분히 가치가 있기 때문에 그 부분에 대한 집중도를 높여 기업들이 더 노력해서 발전시킨다면 활용분야는 무궁무진할 것”이라고 강조했다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지