인간 수준의 범용 AI 개발…“도전적인 과제로 산업 전반 견인할 것”

[컴퓨터월드] 튜링 테스트(Turing Test)를 통과할 수 있는, 인간과 구분이 불가능할 정도의 질의응답이 가능한 인공지능(AI) 개발은 많은 AI 개발자들의 숙원이다. 튜링 테스트의 개념은 1950년에 이미 제안됐지만, 이를 구현하는 것은 수많은 기술들이 집적된 오늘날에도 쉽지 않은 일이다.

VTT(Video Turing Test) 사업은 텍스트를 중심으로 이야기되던 기존의 튜링 테스트에서 한 걸음 더 나아가, 영상을 보고 내용을 이해 및 설명할 수 있는 AI를 개발하는 5년간의 국책 프로젝트다. 컴퓨터 비전 기술을 포함해 다양한 분야의 최신 기술들이 요구되는 만큼, 국내 최고 수준의 연구진들이 협력하더라도 성공을 장담할 수 없다. 하지만 프로젝트에 참여하고 있는 연구진들은 우리나라가 AI 분야의 퍼스트 무버(First mover)가 되기 위해 필요한 과제라고 입을 모은다.

내년으로 3차 년도를 맞이하면서 가장 바쁜 시기를 맞이하고 있는 VTT 사업의 현 주소를 알아봤다.

▲ VTT 사업의 비전과 목표

트렌디 하지 않은 AI…도약 위한 ‘스타’ 있어야
국내외 많은 기업들이 너나할 것 없이 자사 서비스에 AI를 더하고 있다. 스마트 스피커와 같은 대중성있는 제품에서부터 기업의 미래 예측 및 의사결정 지원과 같은 전문적인 분야까지, AI라는 소스가 첨가되지 않은 영역을 찾기 어려울 정도다.

하지만 모든 산업영역에서 AI의 중요성이 강조되고 다양한 서비스와 연결되고 있다고 해서 진정한 의미의 AI 시대가 다가오고 있는지에 대해서는 고민해볼 문제다. 업계 일각에서는 AI에 대한 막연한 기대를 가진 고객들을 붙잡거나 자사 서비스에 보다 트렌디(trendy)하고 고도화된 기능을 더한 것처럼 보이기 위해 AI라는 용어를 사용하고 있을 뿐이라고 지적한다. 심지어는 기업 내 결정권자들의 ‘우리도 AI 한 번 해봐라’는 무책임한 지시에 대응하기 위해, 혹은 투자자들의 입맛에 맞는 잘 만들어진 보고서를 꾸미기 위해 기존에 운영하던 서비스에 AI의 껍데기만 입혔을 뿐이라는 것이다.

조성배 연세대학교 컴퓨터공학과 교수는 지난 3월 본지와의 인터뷰에서 “고객과 시장이 AI를 원하고 있으니 전통적으로 해오던 것들에 AI라는 이름을 붙이고 있다”며, “AI를 마케팅 용어로 사용하는 것은 나쁘다고 할 수 없지만, 롱런할 수 있는 전략은 아니다. 막상 써보니 별로 달라진 게 없다면 오히려 장기적으로는 마이너스가 될 것”이라고 밝힌 바 있다. 혁신적인 기능이라고 도입됐지만 효과를 보지 못한다면 AI에 대한 기대를 망가트리고 대중의 관심에서 멀어질 수 있다는 지적이다.

업계와 대중의 관심에서 멀어진다면 그만큼 관련 시장에 대한 투자는 줄어들 수밖에 없다. 다가오는 4차 산업혁명 시대에는 AI 관련 기술력이 중요한 부분을 차지할 것이 분명하므로 이 같은 투자 감소는 달갑지 않다. 그렇다면 AI에 대한 관심을 제고하면서도 관련 기술이 단순한 마케팅 용어가 아니라 실제로 연구할 만한 가치가 있다는 것을 증명할 필요가 있다. 이를 위해서는 정부와 학계, 산업계의 의식있는 사람들이 지속적으로 AI의 중요성을 강조하는 것도 필요하지만, ‘알파고’와 같은 ‘스타’의 존재도 요구된다.

알파고는 수년 전 AI와 머신러닝이라는 개념을 전 세계의 최신 트렌드로 바꿔놓았다. SF의 영역이었던 AI를 대중들의 곁으로 가지고 온 것은 물론, 컴퓨터가 넘볼 수 없는 영역으로 여겨졌던 바둑을 정복하면서 강력한 성능과 잠재력을 증명해보였다. 오늘날 AI에 대한 대중들의 기대에 알파고의 영향이 남아있다는 것은 부정할 수 없다.


비디오 튜링 테스트, 사람 같은 이해 지능
‘비디오 튜링 테스트(Video Turing Test): 인간 수준의 비디오 이해지능 및 검증 기술 개발 사업(이하 VTT 사업)’은 지난해 과학기술정보통신부의 AI 국가전략프로젝트사업의 일환으로 시작됐다. 해당 사업의 목적은 인간 수준의 비디오 이해 지능 및 검증 기술을 개발하는 것으로, 쉽게 말해 영화나 드라마를 보고 사람만큼 내용을 이해할 수 있는 AI를 개발하겠다는 것이다. 이 AI는 영상의 줄거리와 내용을 완벽히 이해하며, 오히려 사람이라면 놓칠 수도 있는 사소한 요소들까지 빠짐없이 읽어낸다. 함께 영상을 보던 사람이 “여기서 쟤가 왜 저렇게 행동해?”라고 물어보면 해당 시점 이전에 있었던 사건들을 분석해 그 행동의 이유를 설명해주기도 한다.

VTT 사업에 참여하고 있는 인공지능연구원(AIRI)의 김성표 박사는 “VTT 사업의 최종 목표는 AI가 1시간 이상의 영화나 드라마를 보고 완벽히 이해한 다음, 사람이 질문했을 때 정확한 답을 내줄 수 있는 시스템”이라고 설명했다.

▲ SW 공개 및 커뮤니티 운영, 품질 관리 계획

만약 사람만큼, 혹은 사람보다 더욱 영상을 잘 이해하고 답변할 수 있는 AI가 등장한다면 이는 알파고 이상의 반향을 불러올 수 있을 것으로 기대된다. 알파고는 방대한 컴퓨팅 파워에 기반한 연산 성능과 학습된 기보를 바탕으로 바둑에 한정해 인간을 뛰어넘는 기술을 보여줬지만, 영상을 보고 이해하며 사람의 질문에도 답할 수 있다는 것은 훨씬 복잡하고 다양한 기술이 높은 수준으로 연결돼야만 가능한 일이기 때문이다.

영화의 한 장면에서 등장인물의 행동을 읽어낼 때에도 가장 적확한 표현을 찾기 위해서는 캐릭터가 처한 상황을 명확히 이해해야 한다. 가령 어떤 영화에서 한 남자가 소파에 앉아서 TV를 보던 남자가 피식 웃는 장면이 나왔다고 하자. 남자가 웃은 이유는 TV에서 재미있는 방송을 하고 있기 때문일 수도 있고, 그 전날 있었던 부끄러운 사건을 떠올렸기 때문일 수도 있다. 이러한 판단을 위해서는 전후 배경을 인식하고 상황판단을 내리는 동시에 영화 내에서 명징하게 드러나지 않았지만 관객이 이해할 수 있는 숨겨진 의도도 추론을 통해 인식할 수 있어야 한다. 만약 해당 장면을 본 AI가 “남자가 TV를 보며 웃고 있다”는 상황 설명 이상의 답변을 할 수 없다면, 이는 사람 수준의 이해 지능을 갖췄다고 보기 어렵다.

박운상 서강대학교 교수는 “사람은 ‘같이 밥 먹자’는 한 마디를 들어도 문장의 의미를 그대로 받아들이지 않는다. 그 말을 하는 사람의 표정과 몸짓, 목소리의 톤, 말을 꺼낸 상황, 상대의 성격과 나와의 관계 등을 복합적으로 고려해 상대의 의도를 추론한다”며, “단순히 영상 내에서 한 인물의 이동방향과 거리를 재는 것은 지금의 AI 기술 수준으로도 해결 가능하지만, 그 행동에 어떤 의미가 있는지를 파악하기 위해서는 사람 수준의 보이지 않는 요소까지 추론·예측·분석할 수 있는 높은 수준의 지능이 요구된다”고 설명했다.

 
 
“모든 산업계를 한 단계 발전시킬 기폭제가 될 것”
유창동 카이스트 교수

영상 분야에 한정했다고는 하지만 사람 수준의 질의응답이 가능한, 사람과 구분이 가지 않을 정도의 AI를 만드는 것. 만약 이것이 어려운 일이냐고 묻는다면 당연히 그렇다고 말할 수밖에 없다.

각 세부별로 하나씩 떼어놓고 봐도 쉬운 과제가 없다. 영상처리 부분에서 객체 검출이라는 하나의 아이템만 놓고 봐도 ‘완성했다’고 말할 수 있을 정도의 수준을 개발하려면 국내 자원만 가지고는 어려울 것이다. 영상처리 부분의 기술이 완성됐다고 하더라도 여기서 얻은 데이터를 바탕으로 앞뒤 사건을 추론하고 어떤 연관관계가 있는지 파악하며, 해당 사건이 벌어지고 있는 사회의 커먼센스를 학습해 해당 장면을 ‘이해’하는 것은 또 다른 문제다. 가령 등장인물이 해당 작품 내에서만 이해될 수 있는 역설이나 농담을 사용한다면 이를 AI가 어떻게 이해할 것인가?

하지만 그렇다고 해서 VTT 사업을 포기해야 하는 이유는 될 수 없다. 각 세부별로 사업을 진행해보니 생각보다 쉽게 풀리는 문제들도 있었다. 실제로 핵심적인 모듈을 개발하고 있는 몇몇 연구진들은 이미 프로토타입을 만들어내기도 했다. 이러한 과정 속에 만들어지는 요소기술들은 VTT 사업을 넘어 AI가 활용될 수 있는 모든 산업분야에서 활약할 수 있을 것이다. 가령 행동의 의도를 파악하거나 가까운 미래의 행위 예측 기술은 마련할 수 있을 것이며, 동작과 표정과 음성을 종합적으로 파악할 수 있는 기술의 완성도도 높아질 것이다. 이는 방범이나 보안과 관련된 실전적인 기술로도 사용될 수 있다.

앞서 언급한 영상처리 기술의 숙련도가 높아진다면, 언뜻 관계가 없어보이는 스마트 자동차 기술 역시 향상될 것이다. 예를 들어 첨단 운전자 보조 시스템(ADAS) 기술에 영상처리 기술을 접목한다면 어떨까? 카메라를 통해 주행 중 도로상황을 인식하고 관련 질의응답을 제공하며, 순간순간의 돌발상황을 인지하고 대처할 수 있는 시스템이 나올 수 있지 않겠는가? 방송 콘텐츠 검색에서도 자연어 문장으로 의도를 파악해 원하는 영상을 찾아내는 것이 가능해질 것이다.

지금 당장 구현하는 게 불가능해 보이는 기술들은 어느 한 순간에 하늘에서 떨어지는 것이 아니라, 그와 관련된 요소기술들이 충분히 갖춰지고 관련 기술자들의 역량이 충분히 향상됐을 때 등장한다. 그런 점에서 이번 VTT 사업은 AI를 활용할 수 있는 전 산업분야를 한 단계 발전시킬 수 있는 기폭제가 될 수 있을 것으로 본다.

제한된 인력만 가지고 몇 년 안에 완벽하게 사람과 같은 수준의 질의응답이 가능한 AI를 만들어내는 것은 어려울 것이다. 현실적으로 생각한다면 너무나도 야심찬 목표 설정이다. 하지만 이와 같은 도전적인 과제를 수행함으로 인해 우리가 얻을 수 있는 것 역시 적지 않을 것이다. 이번 VTT 사업의 비전은 우리나라가 글로벌 범용 AI(AGI) 기술을 선도하는 동시에 AI와 관련한 원천기술을 확보하고, 차세대 AI 관련 연구를 가속화해 신산업을 창출하는 데에 있다. 국내 최고 수준의 연구진들이 협력해 차세대 AI에 대한 청사진을 제시하고 AI에 대한 국민적 관심을 제고할 수 있다면, 우리가 가진 모든 역량과 상상력을 동원해 책임감을 가지고 최선을 다해볼 만한 가치가 있다.

또한 영상을 올바르게 인식하고 추론하는 것만큼이나 중요한 것은 세계지식(상식)의 구축이다. 세계지식은 해당 영상이 배경으로 삼는 세계관에 대한 이해를 말한다. 가령 등장인물이 빈 집에 들어가 물건을 훔쳐 달아났다면, 영상 내에서 설명되지 않더라도 그것이 나쁜 행동이라는 것을 AI가 이해할 수 있어야 한다. 다시 말해 AI가 영상의 내용을 온전히 이해하고 인간 수준의 추론을 하기 위해서는, 영상 내에서 정보를 습득하는 것뿐만 아니라 일반적으로 사람들이 공유하고 있는 가치관을 사전에 학습할 필요가 있다.

하지만 영화가 배경으로 하는 시대에 따라 통용되는 상식이 다르고, 같은 시대라고 하더라도 우리나라와 미국에서 통용되는 상식에는 어느 정도 차이가 나는 게 사실이다. 심지어 ‘해리포터’나 ‘스타워즈’ 같은 장르에 일반적인 상식을 적용하는 것은 어렵다. VTT 사업은 최종적으로 어떤 영상이든 보고 내용을 이해하며 질문에 답변할 수 있는 범용 AI에 가까운 모델을 목표로 하고 있지만, 연구개발 단계에서 이와 같은 수많은 세계지식을 모두 갖추기는 어렵다.

이에 따라 이번 VTT 사업에서는 1990년대 미국에서 제작된 시트콤 ‘프렌즈(Friends)’로 연구 범위를 한정하고 있다. 프렌즈는 국내외를 가리지 않고 높은 인지도를 자랑하는 작품이며, 방영된 지 오랜 시간이 지났고 팬 층이 두터워 에피소드 별로 많은 데이터가 축적돼있다. 또한 1990년대라는 가까운 시대의 미국을 배경으로 하며 등장인물들의 연령대도 제한돼 그들이 공유하는 세계지식을 구축하기 쉽다는 것도 장점이다.

AIRI의 김성표 박사는 이에 대해 “머신러닝·딥러닝과 관련된 연구과제에는 언제나 충분한 양의 데이터를 확보하는 것이 난관이다. 그런 점에서 프렌즈는 워낙 유명하고 오래돼서 팬들이 구축해놓은 데이터가 엄청나다”며, “특히 VTT 사업은 향후 전 세계 연구조직들이 참여하도록 함으로써 연구개발 속도를 가속화하려는 계획도 있기에, 우리나라 드라마보다는 전 세계적으로 유명한 작품을 선택한 것도 있다”고 설명했다. 

▲ VTT 사업은 5년에 걸쳐 단계적으로 추진된다.

자동화 도구 활용해 학습 데이터 확보
인간 수준의 AI 개발을 위해 복잡한 기술들의 총합이 요구되는 만큼 VTT 사업단은 각각의 전문성을 갖춘 3개 세부조직으로 나눠져 있다. 크게 나누면 ▲전체 총괄 및 시스템·플랫폼 구축 등을 담당하는 1세부 ▲데이터 학습 및 모델링을 위한 알고리즘 구축을 담당하는 2세부 ▲학습용 데이터 마련과 영상 인식 기술 연구를 담당하는 3세부 등이다. 업무 라이프사이클로 보자면 3세부에서 데이터를 생산해 2세부에 전달하고, 2세부에서 구축한 알고리즘으로 학습한 후 1세부가 서비스를 운영하는 방식이다.

먼저 3세부는 국내 SW·데이터 전문 기업인 코난테크놀로지가 총괄하며, 서강대학교와 AIRI 등이 협력하고 있다. 프렌즈 영상을 바탕으로 데이터 생산·수집·가공·정제를 맡아 다른 세부에서 활용할 수 있는 데이터셋을 구축하는 한편, 영상 내에서 움직이고 있는 객체들의 움직임을 인식할 수 있는 기술을 개발한다.

AI 학습을 위해서는 대량의 라벨링된 데이터가 필요하다. 단순히 많은 영상이 필요한 것이 아니라, 각 장면에서 누가 나왔고 어떤 행동을 하고 있는지에 대한 정확한 태그(tag)가 붙어있어야 한다. 이러한 태그가 정확하지 않다면 향후 학습 결과에 대한 신용도도 확보할 수 없다. 하지만 잘 라벨링된 데이터를 구하는 것은 쉽지 않고, 자체 제작한다고 해도 많은 시간과 비용이 필요한 작업이다.

VTT 사업에 참여하고 있는 한 연구원은 “이미지넷(ImageNet) 역시 초창기 데이터 확보는 ‘아마존 미케티컬 터크(Amazon Mechanical Turk)’와 같은 크라우드 소싱 방식을 이용했다. 하지만 이런 방식에는 적지 않은 비용이 필요할뿐더러, 프렌즈와 같은 작품은 저작권 이슈도 첨예하게 걸려있어서 크라우드 소싱 플랫폼에 업로드하는 것이 제한돼 이용이 어렵다”고 설명했다.

프렌즈가 전 세계적으로 유명한 작품이며 관련 데이터가 많다고는 하지만, 초 단위로 각 장면에 등장하는 객체들에 대한 태그를 붙여놓은 데이터는 VTT 사업단에서 자체적으로 생산할 수밖에 없다. 프렌즈 자체가 매우 많은 분량을 자랑하는 시트콤이기에 여기에 태그를 다는 것에만도 굉장히 많은 시간과 노력이 소모된다. 더군다나 인간 수준의 영상 이해를 위해서는 장소와 상황, 캐릭터의 얼굴인식과 감정상태, 다른 객체와의 상호작용 등 한 장면에 포함된 다양한 데이터를 모두 파악할 필요가 있다.

이에 대해 코난테크놀로지 측 관계자는 “아직 체계가 잡히지 않았던 초창기에는 사람이 직접 영상을 보며 태그를 달았지만, 지금은 최대한 사람의 개입을 최소화하면서 빠르게 태그를 달 수 있는 자동화 도구를 개발해 사용하고 있다”고 설명했다. 자동화 도구는 영상인식 기술을 통해 영상에 등장하는 객체를 인식하고, 사전에 학습된 데이터에 기반해 해당 인물이 누구이며 어떤 행동을 하고 있는지 파악해 각각에 적절한 태그를 붙이는 작업을 수행한다. 여기에 AIRI의 이미지 캡셔닝(Captioning) 기술을 접목해 해당 장면을 가장 잘 설명할 수 있는 자연어 문장을 반자동화된 방법으로 생성한다. 이 과정에서 사람의 개입은 객체 인식과 태깅이 제대로 됐는지 감수하는 등 최소한으로 이뤄진다.

▲ 3세부는 대량의 학습 가능한 데이터 확보를 위해 자동화 도구를 활용한다.

물론 이와 같은 데이터 생성 작업이 모두 자동화되는 것은 어렵다. 박운상 서강대 교수는 “객체와 움직임에 대한 태깅, 그 외에 1세부와 2세부가 추가적으로 요구하는 요소들에 대한 태깅을 수행하고 있다. 하지만 현실적으로 어려운 요구사항이 있는 것은 사실이다. 가령 손짓은 굉장히 중요한 대화 수단이기 때문에 등장인물들의 모든 손동작을 캡처하고 태깅해달라는 요구가 있었다. 최대한 수용하고는 있지만, 현실적인 어려움이 있다”고 밝혔다.

AIRI 김성표 박사는 장소(배경) 인식의 어려움에 대해 토로했다. 김성표 박사는 “일반적으로 이미지 분류나 객체 검출에 비해 장소 인식은 성능이 떨어지는 부분이 있다. 전 세계적으로 다른 연구들에 비해 성숙도가 낮은 것 같다. 특히 프렌즈라는 콘텐츠는 특색 있는 건물이나 관광지를 배경으로 하지 않기에 더욱 어렵다. 그냥 실내 어딘가, 아니면 카페 정도가 나온다. 영상 속에 빈번히 등장하는 중요한 장소들, 가령 누군가의 집 같은 경우는 직접 수작업으로 태깅해서 학습시키면 나아지긴 하겠지만, 상당한 공수가 드는 작업”이라고 말했다.

코난테크놀로지 측 관계자는 “태깅을 자동화할 수 있는 도구에 지속적으로 모듈을 추가하고 있다”고 밝혔다. 아직까지는 어려움이 많지만 자동화 도구 역시 개별 검출기들을 개발하는 3세부 구성원들의 도움에 힘입어 개선되고 있으므로 점점 더 다양한 종류의 데이터를 인식하게 될 수 있을 것이라는 설명이다.

 
“가파르게 성장해온 객체 검출 기술의 가능성”
박운상 서강대학교 교수

이미지 분류(Classification)는 이제 매우 높은 정확도를 구현할 수 있는 성능에 도달했다. 이에 반해 의미있는 객체를 찾아내고 위치를 정확히 특정하는 객체 검출(object detection) 기술은, 전 세계적인 관심사임에도 불구하고 상대적으로 완성도가 낮다. 지난해에는 200가지 객체에 대한 검출 성능이 73% 정도의 정확도를 보인 것으로 알고 있다. 남은 27%의 오류가 있기 때문에, 현재 우리 3세부에서도 자동 검출기로 추출한 데이터를 그대로 학습에 활용하기에는 무리가 있다. 그래서 수작업으로 점검 및 후보정하는 작업을 꼭 거치고 있다.

객체 검출이 이미지 분류보다 어려운 이유는 객관식과 주관식의 차이와도 유사하다. 이미지 분류가 사진을 보고 1,000개의 카테고리 중 어디에 속하는 지를 찾는 객관식 문제라면, 객체 검출은 사진 안에 있는 모든 객체들을 찾아내고 그들의 위치에 박스 표시를 남기는 주관식 문제다. 이미지 분류는 사진을 제대로 된 카테고리에 넣기만 하면 정답이지만, 객체 검출은 놓친 객체가 없는지 박스의 위치와 크기는 적절한지를 파악해 일정 이상 맞아떨어져야 정답으로 인정한다. 이처럼 상대적으로 복잡도가 높기에 이미지 분류에 비해 성능이 떨어진다.

그럼에도 불구하고 객체 검출은 지난 5년 동안 연간 10% 정도의 성능 향상을 이뤄왔다. 지난해에 73%의 정확도에 도달한 것은 전 세계적인 연구의 결과다. 특히 2013년에 딥러닝 기술이 처음 객체 검출에 적용됐을 때에는 이전보다 정확도가 약 20% 향상됐다. 딥러닝 이전에 사용하던 고전적인 영상처리 기술로는 많은 한계가 있었지만, 충분한 깊이를 갖춘 딥러닝 기술과 그것을 감당할 수 있는 HW 성능 향상이 뒷받침되자 객체 검출 기술은 수 년 간 빠르게 발전해왔다.

다만 2016년에 66%, 2017년에 73%를 기록하며 성능 향상 곡선이 완만해지고 있다는 주장도 있으므로 올해의 결과를 주시할 필요가 있겠다. 만약 80% 이상의 정확도를 보여준다면 재차 추진력을 받았다고 볼 수 있지만, 78% 이하에 머문다면 포화 상태에 이르렀다고 생각해야 한다.

국내 연구진들 모여 11가지 핵심기술 개발
VTT 사업 2세부는 유창동 카이스트 교수를 중심으로 약 70여 명의 전문가들이 투입돼 있다. 2세부는 3세부에서 생성한 데이터를 바탕으로 11가지 핵심기술들에 대한 실제 알고리즘을 구현한다. 비디오&오디오 인식 부문에서는 ▲장소 인식 ▲인물·객체 검출 ▲인물 의도 인식 ▲인물 감정 인식 ▲상황변화 인식 및 추적 ▲행동변화 인식 및 언어 표현 등의 기술을, 의미론적인 어휘 매핑 부문에서는 ▲상황의존적 이벤트 팩터 그래프 추론 ▲어휘부 선정 ▲대용량 문맥·문장 분석을, 세계지식체계 구축 부문에서는 ▲상식·지식 베이스 구축 ▲이벤트 인식 애매성 해소 및 관계 추론 등을 수행한다. 아울러 해외 대학 및 기업들과 연구개발을 위한 국제협력 역시 수행하고 있다.

1차 년도에 가장 중요시했던 것은 CLEVR(Compositional Language and Elementary Visual Reasoning)라는 데이터셋 기반의 시각적 이벤트 팩터 추론 기술 개발이었다. 이는 장소·인물·물체·감정·소리·행동 등을 별개의 요소로 인식하는 것이다. 장면이 시간 순서에 따라 연속적으로 제시되더라도 연관관계를 고려하지는 않으며, 각각의 객체들을 명징하게 인식하기 위한 기술이다.

2차 년도에는 VTT 데이터를 바탕으로 이벤트 팩터의 체계적인 그래프 자동학습 모델을 개발한다. 이제 한 장면 내에서 각각의 객체는 떨어져 있지 않으며, 물체와 사람, 사람과 사람 사이의 관계를 주어-동사-목적어 관계로 추론한다. 이에 더해 3차 년도에는 효율적인 그래프 탐색 및 추론 기술을 더하고 간단한 수준에 질의에 대한 답변이 될 수 있도록 할 계획이다.

▲ 2세부가 개발하는 이벤트 팩터를 고려한 상황 인식 예시

4차 년도부터는 난이도를 더해 세계지식을 연동한 복합적인 그래프 탐색 및 추론 기술을 개발한다. 이를 위해 주력 콘텐츠인 프렌즈에 한정해 뉴욕에 살고 있는 젊은 세대를 중심으로 세계지식을 학습할 예정이다. 또한 각 그래프들을 연결해 각 이벤트간의 관계성도 찾는다. 여러 장면에 걸쳐 영상에서 제시해주는 정보를 복합적으로 고려해 등장인물의 캐릭터를 구축하고, 사건에 따라 변화하는 모습들을 모두 이해하는 것이다. 가령 어떤 남자가 식당에서 요리를 하는 장면과 운동장에서 축구를 하는 장면이 순서대로 나온다면, “남자가 요리를 한다”와 “남자가 축구를 한다”라는 정보를 인식하는 데에서 그치는 것이 아니라 “그는 직업은 요리사이고, 주말에는 친구들과 취미로 축구를 한다”는 캐릭터를 구축할 수 있어야 한다.

끝으로 5차 년도에는 복합형 고수준 질의에 대한 시각적 추론 기술을 개발한다. 이 단계에서 AI는 자연어로 제시되는 질문의 의도를 온전히 이해할 수 있어야 하고 전후 사건들에 대한 정보까지 고려한 답변이 가능해야 한다. 만약 남자가 식당에서 요리를 하고 있는 장면에서 “식당에 축구공과 운동화가 있는 이유는 무엇입니까?”라는 질문이 제시된다면 “그의 취미가 축구이기 때문”이라고 답할 수 있어야 한다는 얘기다. 이는 각 장면에 대한 이해와 등장인물들에 대한 학습은 물론, 캐릭터의 전체상을 그리고 각 객체에 대한 의미를 부여할 수 있어야만 가능하다. 이는 세계지식에 기반해 영상 내에서 명징하게 드러나지 않는 요소들에 대해서도 추론할 수 있다는 것을 의미한다.

2세부를 총괄하는 유창동 카이스트 교수는 “VTT 사업의 목표는 비디오 내의 상황의존적 이벤트를 인식 및 이해하고 경험적 세계지식체계를 학습해 이벤트 간의 관계를 추론할 수 있으며, 질의응답이 가능한 AI를 개발하는 것이다. 쉽게 말해 지각과 상식을 갖추고 의사소통이 가능한 AI다. 2세부에서는 3세부와 긴밀하게 소통하며 필요한 데이터를 제공받고, 딥러닝을 기반으로 한 연구를 통해 VTT의 핵심이 되는 알고리즘을 개발한다”고 설명했다.

▲ SW 공개 및 커뮤니티 운영, 품질 관리 계획

기술 및 데이터 공유하며 연구 가속화
마지막으로 1세부는 장병탁 서울대학교 컴퓨터공학부 교수가 VTT 사업 전체 총괄 겸 1세부 책임자를 맡았다. 각 세부 간의 업무 조율과 VTT 사업 홍보, 시스템 운영을 위한 플랫폼 구축 등 전체 과정을 총괄하는 역할을 수행한다. 2세부에서 개발한 요소기술을 바탕으로 실제 질의응답이 가능한 서비스 운영 플랫폼을 구축하고, 예상 문제 집합을 정의해 전체적인 개발 방향을 조정한다.

각 세부들이 수행하고 있는 업무들을 하나로 연결해 전체 파이프라인을 구성하는 것도 1세부가 총괄한다. 이에 따라 올해 1세부의 주요 과업 중 하나는 성능에 관계없이 3세부가 생산한 프로토타입 데이터로 2세부가 출력물을 만들어내고, 1세부가 실제 QA 모델을 만드는 전체 흐름을 점검하는 것이었다. 이러한 프로토타입 파이프라인을 통해 3차 년도에 가능한 범위 내에서 질의응답을 수행함으로써 향후 사업 목표를 조정한다.

또한 1세부는 각 세부들에서 연구한 기술들을 오픈소스로 공개할 예정이다. 이는 이번 VTT 사업의 중요한 요소 중 하나로, 지난 1차 년도에 이미 10개 가량의 핵심기술들이 깃허브(Github)의 공개SW 채널을 통해 공개된 바 있다. 다만 아직은 각 기술을 개발한 연구진들이 개인 명의로 올리고 있는 상황이기에, 올해 안에 관련 기술들을 일목요연하게 확인할 수 있는 공동 페이지를 구축하겠다는 방침이다.

아울러 1세부는 3차 년도 및 5차 년도에 각각 개최될 VTT 행사 및 대회를 준비한다. 특히 내년 10월 27일부터 11월 3일까지 서울에서 개최되는 ‘국제 컴퓨터 비전 학회(International Conf. on Computer Vision, ICCV) 2019’를 목표로 워크샵을 준비 중이다. 3세부에서 프렌즈 전체 시즌에 대해 얕지만 넓은 데이터 집합을 만들면, 이를 학술적 차원에서 ICCV 2019에 참가하는 전 세계의 컴퓨터 비전 연구진들에게 공개해 시범대회를 개최함으로써 관심을 모으겠다는 전략이다. 각각의 연구진들은 VTT 사업팀이 제공하는 데이터 집합과 핵심기술들을 바탕으로 각각의 모델 및 알고리즘 개발을 수행하며 성능 경쟁을 벌이게 된다. 1세부 관계자는 내년 4월 이전에 시범대회 공모를 시작하며, 빠르면 내년 1월 중에 관련 데이터 문헌을 공개하겠다고 밝혔다.

▲ 내년 말 개최되는 ICCV 2019에서 VTT 시범대회가 개최될 예정이다.

딥러닝 위한 HW 인프라 마련돼야
한편 VTT 사업에 참여하고 있는 대다수의 연구진들은 고성능의 HW 인프라가 부족하다는 점에 대해 아쉬움을 토로했다. 연구소별로 일반적인 제품보다 성능이 좋은 서버를 구입해서 사용하고 있기는 하지만, 전문적인 딥러닝 모델 학습에 사용하기에는 성능이 부족하다는 설명이다. 한 관계자는 “높은 성능을 발휘할 수 있는 다수의 GPU와 대용량의 메모리가 필요하지만, 지금 갖추고 있는 HW 성능이 만족스럽지 못한 것은 사실”이라고 말했다.

이에 대한 대안으로는 GPU 지원이 가능한 대용량의 클라우드 컴퓨팅 서비스가 제시되고 있다. 하지만 이에 대해서도 부정적인 목소리가 높다. 비용 측면에서 효율적이지도, 관리가 편한 것도 아니라는 이유에서다. 서울대학교 장병탁 교수 연구실에 소속된 한 연구원은 “만약 우리가 구글이나 AWS의 서비스를 사용하게 되면 가변적인 트래픽에 대해 예산 계획을 잡기가 어렵다. 계획된 예산이 너무 많아도, 너무 적어도 문제다. 만약 해당 서비스를 오래 사용해왔고 필요한 트래픽을 계산할 수 있다면 가능하다고 생각하지만, 이번 VTT 과제에는 맞지 않다. 이에 따라 우리는 5차 년도까지의 연구와 이후의 서비스를 위해 높은 성능의 HW를 마련하고 있다”고 밝혔다.

또한 박운상 서강대학교 교수는 비용 측면에서의 어려움을 지적했다. 그는 “한 번은 연구를 위해 GPU를 지원하는 클라우드 서비스를 이용했는데, 5~6개월 이용하는 동안 1000만 원에 달하는 비용이 나갔다. 시간이 지나고 보니 해당 서비스보다 성능이 부족하더라도 차라리 직접 서버를 구입하는 게 낫지 않았을까 하는 생각이 들었다. 몇 달 연구하려고 1000만 원을 날리는 것은 연구자 입장에서는 아까운 부분”이라고 설명했다.

박운상 교수는 이를 정부 측의 합리적인 지원을 통해 해결해야 한다는 입장이다. 그는 “영상 분석 쪽은 대부분 딥러닝 기술을 활용하고 있기 때문에, 충분한 성능의 HW나 클라우드 서비스를 갖추고 있느냐가 연구자들의 성과에 직접적으로 영향을 미칠 수 있다. 그러니 이에 대해서는 국가적인 지원이 필요한 부분이라고 생각한다. 다만 정부에서 HW 인프라를 구입해준다거나 하는 직접적인 지원보다는, 국내 시장에서 GPU 지원이 가능한 클라우드 서비스 사업모델이 활성화될 수 있도록 지원하는 방법이 필요할 것”이라고 강조했다. 국내에서 딥러닝이 가능한 클라우드 컴퓨팅 서비스를 제공하는 기업들이 늘어나, 가격적으로 연구자들이 쉽게 접근할 수 있는 환경이 조성돼야 한다는 것이다.


국내 AI 산업 발전 위한 새로운 길 개척한다
VTT 사업을 기획 및 제안한 박재득 정보통신기술진흥센터(IITP) 인공지능사업단장은 “비디오를 이해할 수 있는 AI는 사람과 동일한 수준”이라고 말했다. 기존에 머신러닝·딥러닝을 활용한 많은 AI 기술들은 언어와 음성, 이미지 들을 따로따로 인식하고 분류했다. 과거의 튜링테스트 역시 대부분 언어와 관련된 영역을 중심으로 이루어졌다. 하지만 영상 한 편을 이해하기 위해서는 제대로 대화를 이해하고, 소리와 화면으로 구성된 장면을 인식하며, 획득한 정보들을 융합해 전체적인 스토리를 배열할 수 있어야 한다. 이처럼 동시다발적으로 주어지는 수많은 정보들을 이용해 상황을 분석하고 드러나지 않은 요소들까지 추론할 수 있는 AI는 사람과 다를 바가 없다는 것이다.

다만 새롭고 도전적인 과제이니만큼 빠르게 성과를 창출하기 위해 조급하게 진행해서는 안된다는 설명이다. 박재득 단장은 “예산과 사람을 필요 이상으로 투입하다고 해서 선형적인 성과 향상이 보일 거라고는 생각하지 않는다. VTT 사업이 나아가는 길은 지도가 없는 새로운 영역이다. 시행착오를 경험하고 돌다리를 두드려보면서, 핵심 기술들을 쌓고 국내 연구진들의 전체적인 역량을 향상시키는 시간이 필요하다”고 강조했다. 무작정 많은 시간과 노력을 들이기보다는 제대로 된 프로토타입을 만들어내는 데에 집중하고, 이를 통해 성공적인 계획을 세울 수 있게 됐을 때 연구 속도를 가속하기 위한 예산과 인력을 투입해야 한다는 것이다.

VTT 사업의 성과가 국내 AI 산업에 대한 관심을 제고하고, 시장 확대와 인재 양성을 견인할 마중물이 될 수 있기를 바란다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지