급성장하는 자동통번역 시장, 언어장벽 맞선 도전자들

[컴퓨터월드] 유사 이래 언어의 장벽은 바벨탑의 전설과 함께 이어져 내려오며 전 세계의 소통과 공영(共榮)에 내내 걸림돌로 작용해왔다. 통신과 교통의 발달에 따라 전 세계가 하나의 시장으로 거듭난 오늘날이지만, 언어의 차이에 구애받지 않는 자유로운 의사소통은 여전히 대다수의 사람들에게 요원한 일로 남아있다.

우리나라의 경우 영어교육에만 연간 10조 원이 쓰이는 것으로 추정되고 있으며, 기업의 글로벌 진출에도 제품 매뉴얼부터 영업 및 기술지원에 이르기까지 언어는 가장 큰 과제 중 하나로 다뤄지고 있다.

최근 IT기술의 급격한 발전에 따라 이러한 언어장벽에 대한 도전도 새로운 전기를 맞이하고 있다. 주요 글로벌 기업들도 자동통번역 분야의 미래를 높이 평가, 관련 기술 확보에 경쟁적으로 나서고 있다.

세상을 변화시키고 있는 SW(소프트웨어)는 언어장벽마저 조금씩 허물기 시작했고, 그 사이로 확대될 정보의 흐름과 교류 속에는 거대한 가능성이 잠재돼있기 때문이다. 새로운 전기를 맞이한 국내 통·번역SW 업계에 대해 살펴본다.

 

재조명받는 자동통번역 기술

자동통번역 SW기술인 기계번역(MT)은 사전적·문법적 정보를 바탕으로 하는 규칙기반(RBMT) 기술과, 통계적인 모델을 바탕으로 하는 통계기반(SMT) 기술의 두 가지로 크게 나눌 수 있다. 그동안의 자동통번역은 특히 자연어처리(NLP) 및 음성인식(SR) 관련 원천기술의 완성도 부족으로 인해 성능과 사용성의 양 측면에서 아쉬움을 남겨왔다.

그러나 빅데이터, IoT(사물인터넷), 기계학습(머신러닝) 등 새로운 IT기술 흐름은 성능 개선을 촉진, 최근 통번역SW 분야는 괄목할만한 성장세를 보이고 있다. 또 웨어러블 기기의 출현은 사용성 향상에 일조하고 있고, 가깝게는 해외직구 쇼핑 증가에 따른 번역 수요도 늘어나고 있다.

이에 따라 미국의 구글, MS(마이크로소프트), 뉘앙스, 일본의 NICT 등 글로벌 기업들을 중심으로 다국어 음성인식 및 자동통번역 기술 확보 경쟁도 점차 치열해지고 있다. 기계에 의한 번역은 비즈니스에 사용하기 힘들다는 통념을 뒤엎는 솔루션도 속속 등장하는 추세고, 사용자 참여형 글로벌 서비스나 실시간 정보교환에는 이미 여러 곳에서 자동통번역 기술이 적용되고 있다.

현재 전 세계 통번역 및 현지화 시장의 규모는 약 40조 원, 이 가운데 통번역 관련 SW시장의 규모는 5조 원에 이르는 것으로 추산되고 있다. 국내의 경우 통번역 및 현지화 시장의 규모는 500억 원 규모로 알려졌다. 당장은 투자 대비 직접적 수익이 충분치 못함에도 글로벌 기업들이 이 분야에 지속적으로 관심을 갖고 투자를 늘려가는 것은 그만큼 통번역SW기술의 파급력이 크기 때문으로 풀이된다.

이 가운데 일본은 2020년 도쿄올림픽을 ‘언어장벽 없는 올림픽’으로 개최하고자 자동통역 서비스를 대표 IT기술로 선정, 그간 한국에 상당부분 추월당했던 일본 IT기술의 부활을 꾀하려는 속내도 보이고 있다. 글로벌 IT시장에서 자동통번역 기술이 새롭게 재조명받기 시작한 것이다.

▲ 디스토피아적 미래를 그린 영화 '설국열차'서 자동동시통역기 사용 장면


통번역SW의 시작과 끝은 한국어

한국어는 다른 언어에 비해 생략, 축약, 도치 등이 심해서 자연어처리가 가장 까다로운 편에 속한다. 외국어·외래어뿐 아니라 여러 세대에서 만들어내는 각종 신조어까지 거의 모두 표현할 수 있는 한글의 우수성 또한 역설적으로 기술적인 난점을 부여한다. ETRI(한국전자통신연구원)를 비롯한 국내 연구진들은 오랫동안 이에 대해 연구해왔고, 충분치 못한 지원 속에서도 영한 번역의 경우 80% 이상의 번역률을 기록하는 성과를 거뒀다.

자연어 분석은 형태소분석, 구문분석, 의미분석, 화행분석 등의 기술로 나눌 수 있다. 한국어 관련 정확도는 각 요소기술별·적용분야별 차이가 있지만, 현재 일반적으로 형태소분석이 95% 수준, 구문분석이 의존관계 단위로 90% 수준의 정확도를 보인다.

그러나 이를 그대로 기계번역에 적용하면 각 분석모듈의 오류가 변환·생성모듈로 전파돼 치명적인 오류를 일으킬 수도 있다. 이에 대한 개선을 위해 딥러닝(Deep Learning) 등을 접목하는 시도가 진행되고 있으며, 그 성과물들도 조금씩 등장하고 있는 추세다.

아울러 자동통번역에 있어 관용적인 표현, 비속어, 신조어 등의 처리는 언어별로 그 체감 성능에 중요한 영향을 미친다. ETRI에서 개발한 자동번역 기술은 관용적인 표현은 번역 패턴으로 자연스러운 문장을 생성하고, 신조어, 비속어 등은 사전 또는 패턴에 등록해 처리한다. 신조어, 비속어는 지속적으로 생성되므로, 추가 등록 시 처리되는 점증적 데이터 처리 기반의 자동번역 방법이 채택되고 있다.

 

언어의 장벽을 허물기 위한 IT기술의 물결

현재 통번역SW에서의 자연어처리 및 음성인식 기술은 대화처리 기술과 결합, M2M(Machine to Machine) 및 M2H(Machine to Human)를 위한 IoT 대화형 음성언어 인터페이스와 언어이해 플랫폼으로 진화해나가고 있다.

최근 들어 대용량의 음성언어 빅데이터를 기반으로 음성인식 및 자동통번역의 성능을 향상시키려는 움직임이 활발해지고 있고, 자동통번역 관련 학계를 중심으로 SMT에 딥러닝을 접목하는 다양한 연구와 시도도 이뤄지고 있다.

자동통번역 기술은 단어와 문장을 인식해 다른 언어로 바꿔주는 것을 넘어, 그 대화가 이뤄지는 상황을 인식하고 이에 대해 대응하는 방향으로 나아가고 있다. 향후에는 간단한 의사소통을 넘어, 일상은 물론 비즈니스 영역까지 언어소통 문제가 해소될 수 있도록 발전될 전망이다.

이에, SW기술로 언어장벽 극복에 나서고 있는 자동통번역 관련 주요 기관·기업들과, 새로운 IT산업의 흐름과 함께하는 그들의 계획에 대해 살펴보기로 한다.


국산 자동통번역 기술의 대부 ‘ETRI’

▲ ETRI '지니톡' 모바일 앱 화면

자동통번역 기술은 국가경쟁력을 좌우하는 핵심기술로, 미국 및 유럽 등 선진국에서는 이미 1960년대부터 국가적인 관심을 갖고 원천기술 개발을 주도해왔다. 이에 따라 ETRI는 한국어 관련 기술을 외국에게 선점당하지 않겠다는 취지에서 1980년대부터 한/일 문서 자동번역을 시작으로 기술 개발을 시작했다.

RBMT는 크게 원시언어 형태소분석, 구문분석, 의미분석, 구조변환, 목적언어 생성 단계로 나뉜다. ETRI는 일본어의 경우 상용화 가능한 수준까지 쉽게 개발했지만, 어순이 다른 영어와 중국어의 경우 형태소분석, 구문분석, 의미분석에서 오류 발생이 잦아 어려움을 겪기도 했다. 이에 한국어뿐 아니라 영어에 대해서도 이 부분에 대한 요소기술 개발에 집중했다.

ETRI는 이를 기반으로 2003년 특허문서 자동번역 기술 개발에 착수해 2005년 한영 특허문서 자동번역 기술 개발 및 특허청 상용서비스까지 성공했고, 이를 통해 연간 10만 건이 넘는 한국 특허문서에 대한 번역비용 700억 원을 절감하는 효과를 거뒀다.

이 같은 성과는 영한 특허문서 자동번역 상용화, 2009년에는 한영/영한 과학기술논문 자동번역 서비스 등으로도 이어졌다. 중국어에 대한 기술 개발도 함께 진행, 한중/중한 문서 자동번역 기술을 국내 중소기업들에 이전한 바 있다.

ETRI는 2008년 음성 자동통역 기술의 중요성을 인식, ‘휴대형 한/영 자동통역 기술 개발’ 과제를 통해 자동통역 기술 개발을 본격적으로 시작했다. 이 결과물을 이용해 2012년 한/영 자동통번역 대국민 시범서비스를 실시했고, 2013년에는 한/일, 한/중까지 확장했다.

2013년부터는 시스트란인터내셔널(舊 CSLI)과 함께 삼성 갤럭시S4 등 프리미엄급 스마트폰에 ‘지니톡’ 한/영, 한/중 자동번역 기술을 공급했다. 220만 다운로드를 기록하면서 전 세계 20여개국에서 통역기로 활용돼온 ‘지니톡’은 지난달 시범서비스를 종료, 이달부터 유료화 서비스로 전환돼 시스트란에서 운영한다.

ETRI에서 개발한 기술은 국내 전문기업을 통해 다양한 분야에서 사업화가 진행되고 있다. 한/영, 한/중 자동통번역 기술의 경우 시스트란, 에버트란, 솔트룩스 등에 기술이전돼 특허문서 자동번역, 기업문서 자동번역, 기술논문 자동번역, 음성 자동통역 등에 사용되고 있다.

또 음성인식 기술은 파인디지털의 대화형 음성인식 차량 내비게이션, 엔씨소프트의 음성인식 영어학습 서비스 ‘호두잉글리시’, GnB의 스마트폰용 영어학습 서비스 ‘스마트잉글리시’ 등에 사용되고 있다. 최근에는 콜센터 녹취데이터 음성인식 기술을 관련 기업들에 기술이전을 통해 제공하고 있다.

김영길 ETRI 언어처리연구실장은 “ETRI는 언어 확장이 용이한 지식학습 기술, 딥러닝 기반의 음성인식 및 잡음처리 기술, 실시간 동시통역 기술 등 자연어처리 및 음성인식 관련 세계최고 수준의 원천기술을 확보, 국내 산업체에 공급해 기술경쟁력을 높여줌으로써 선진 글로벌 기업들과의 치열한 경쟁에서 이겨나갈 수 있도록 지원할 예정”이라고 밝혔다.


국산SW기업으로 거듭난 글로벌 대표주자 ‘시스트란’

▲ 시스트란과 일본 NTT도코모의 JV '미라이' 설립 협약식

시스트란은 냉전시대 미국 국방성의 러시아어 자동번역 수요에 따라 관련 기술을 기반으로 1968년 설립된 기업으로, 이후 합병을 통해 언어공학이 발달된 프랑스로 근간을 옮겨 자동통번역 분야에서 손꼽히는 기업으로 성장했다. 1997년 알타비스타를 통해 최초의 웹 번역 서비스를 제공하기도 했고, 구글과 MS도 각각 2008년과 2009년까지는 라이선스 계약을 통해 시스트란의 기술을 사용한 바 있다.

시스트란은 지난해 국내 자동통번역 전문기업 CSLi에 인수되면서 시스트란인터내셔널로 새롭게 출범, 135개 언어에 대한 자동통번역 솔루션을 제공하는 글로벌 기업이자 국산SW기업으로 거듭났다. 시만텍, 시스코, 오라클, 에어버스, 혼다, PSA 등을 고객사로 확보하고 있고, 대중적인 제품으로는 삼성 갤럭시S 및 갤럭시노트에 탑재된 ‘S번역기’를 들 수 있다.

지난해에는 NTT도코모와 자동통번역 관련 JV(조인트벤처)도 일본에 설립한 바 있으며, 최근에는 한컴(한글과컴퓨터)과 손잡고 JV 설립을 발표해 화제가 되기도 했다.

특히 시스트란은 기업용 종합 번역 솔루션 ‘엔터프라이즈서버8’을 지난해 11월 공개, 글로벌 B2B 시장 공략에 박차를 가하고 있다. 시스트란이 48년간 쌓아온 노하우를 바탕으로 개발됐으며, 총 128개 언어, 중간언어(pivot) 번역을 통할 경우 1,640개 언어쌍에 대한 기계번역을 RBMT와 SMT를 결합한 하이브리드 번역엔진(HMT)을 통해 제공한다.

시스트란의 ‘엔터프라이즈서버8’은 다양한 분야를 총 10개 카테고리로 나눠 전문적인 번역모델을 제공하며, 데이터 분석을 돕기 위한 언어분석모드도 지원한다. 또 클라우드 기반 트레이닝 서버 구성이 가능하고, 번역 API를 통해 사용자가 스스로 응용할 수 있는 시스템도 추가됐다.

시스트란은 지속적인 성장을 위해 인재 투자에도 적극 나서고 있다. 국내 언어공학의 기반부터 다지고자 부산외국어대학교와 손잡고 언어처리창의융합학부를 창설, 올해 첫 신입생을 받았다.

시스트란은 부산외대 언어처리창의융합학부에 입학한 학생들에게 학부 4년간 장학금을 지원할 계획으로, 이들이 원할 시 졸업 후 채용도 보장한다는 방침이다. 또한 이 학생들이 포항공대 지식·언어공학연구실(KLE)로 진학할 시에도 장학금을 제공할 예정이다.

최창남 시스트란인터내셔널 대표는 “시스트란의 특장점은 48년의 업력에서 우러나는 각 분야별 전문성으로, 이를 바탕으로 인천 아시안게임, 부산 ITU전권대회 등에서 통역지원도 수행해왔다”며, “기업에서 자사 번역 솔루션을 도입 시 온프레미스 방식의 구축도 지원, 일반적인 웹상의 번역서비스를 사용하는 것보다 정보보안 측면에서도 훨씬 안전하다”고 설명했다.

이어 최창남 대표는 “이번 한컴과의 합작사 설립은 시스트란 또한 한컴오피스를 통해 국내는 물론 글로벌 시장에서도 저변을 확대할 수 있는 좋은 기회”라면서, “현재 한국본사와 프랑스지사 및 미국지사를 중심으로 동북아와 유럽 및 미국 시장에서 활발하게 사업을 전개하고 있고, 향후 본격적인 동남아 시장 공략도 계획하고 있다. 자동통번역 시장의 미래는 밝다”고 덧붙였다.


한글과컴퓨터의 신성장동력 ‘한컴인터프리’

▲ '한컴인터프리' 설립 협정식. 최창남 시스트란 대표(왼쪽), 이홍구 한컴 대표(오른쪽)

한컴이 음성인식 기반 신사업 추진을 위해 시스트란인터내셔널과의 JV 설립을 지난 4월 발표, 이에 대해 관련업계의 이목이 집중되고 있다. 한컴의 오피스 기술력과 시스트란의 자동통번역 기술력이 결합된 합작투자사의 명칭은 ‘한컴인터프리(Hancom Interfree)’로 결정, 이달 설립된다.

신설법인은 음성인식 기반 자동통역, 다국어 문서번역, 외국어 교육사업 등을 중점적으로 추진할 방침이다. 동시통역사를 대체할 수 있는 수준의 자동통역기를 연내 출시하고, 가상현실(VR) 및 증강현실(AR)에서 자동통역기를 활용해 외국어를 학습할 수 있는 신개념 외국어 교육사업도 펼칠 계획이다. 더불어 다국어 문서번역기를 ‘한컴오피스’에 탑재, 클릭 한 번에 문서 포맷 그대로 130여개 언어에 대한 번역이 가능한 다국어 버전도 연내 선보일 예정이다.

한컴인터프리는 향후 IoT까지 사업영역을 확대할 전략으로, 한컴의 자회사인 MDS테크놀로지와 그룹 차원의 시너지를 창출해 웨어러블 형태의 다국어 음성인식 기반 자동통역기를 공동 개발할 계획이다. 또한 지난해 한컴과 ETRI가 체결한 MOU를 바탕으로 시스트란, ETRI와 함께 음성인식, 자동통번역 기술 공동 개발도 추진해나갈 예정이다.

신소우 한컴인터프리 대표는 “언어장벽을 허무는 것이 한컴인터프리뿐만 아니라 한컴그룹 전체의 비전이자 목표”라며, “내년에는 50억 원, 2017년에는 100억 원의 매출을 올릴 수 있을 것으로 기대하고 있다”고 말했다.


빅데이터 기술력 활용하는 ‘솔트룩스’

▲ 다국어 자연어처리 연구 위한 업무협약식. 이경일 솔트룩스 대표(왼쪽), 김인철 한국외대 총장(오른쪽)

지난 2000년 설립된 솔트룩스는 자연어처리 및 인공지능 분야 전문기술을 보유하고 있는 빅데이터 전문기업으로, 지난 2010년에는 대한민국 SW대상 대통령상도 수상한 바 있다. 자동통번역 서버 엔진을 주요 대기업과 글로벌 기업에게 제공하고 있는 솔트룩스는 자동통번역 수요의 증가로 기존 문서 관련 사업에 영향이 있을 것으로 예측, 자동통번역 솔루션 개발과 서비스 확대에 집중하고 있다.

솔트룩스의 자동번역 솔루션은 기업 포털과 연계되는 방식이다. 기업 정보 시스템에 설치, 다양한 정보를 원하는 언어로 번역해 얻을 수 있다. 번역작업의 생산성을 높이기 위해 기존 전문번역사가 맡던 초벌번역을 자동번역 솔루션이 수행해 대량의 문서 번역을 돕는다. 이때 고객사가 사용하는 단어와 문장을 미리 사전에 구축해 자동번역의 품질을 높이는 한편, 자동번역 후 전문 감수자의 교정도 거치게 된다.

특히 솔트룩스의 언어분석 엔진은 일반적인 RBMT가 아닌, 기계학습과 딥러닝에 의한 방식을 전면 채택한 것이 특징이다. 이러한 빅데이터 기반 기술로 경쟁사 대비 5배 이상의 속도와 보다 나은 품질의 언어 분석을 제공한다는 것이 이 회사가 밝히는 강점이다. 솔트룩스는 자동번역, 빅데이터, 기계학습 등 요소기술을 갖추고 여러 파트너들과 지속적으로 협력, 사용자에게 필요한 단위 솔루션과 서비스를 개발해 제공한다는 계획이다.

현재 솔트룩스는 글로벌 콘텐츠를 수집, 유통, 번역 가능한 모바일 앱도 개발해 시범서비스 중으로, 올해 말 정식 출시 예정이다. 또한, ‘다국어 커뮤니케이션 도구’라는 관점에서 다국적 앱 서비스에 자동통번역을 활용하는 서비스와 기술을 개발 중이다. 이러한 유틸리티 서비스화에 따른 자동번역기 사용고객의 증가를 예상, 대량의 문서를 신속하게 번역하기 위한 고객 맞춤형 솔루션·서비스도 준비 중이다.

신석환 솔트룩스 부사장은 “솔트룩스는 자체 보유중인 빅데이터가 20억 건 이상으로, 이에 기반 해 기계학습 및 딥러닝을 통한 자연어처리 및 자동통번역 엔진을 구현했다. 이로써 향후 시장의 판도를 바꿀 수 있는 중요한 분기점을 만들어낼 수 있으리라 기대하고 있다. 이러한 기술적 발전은 웨어러블 기기에서 더 큰 힘을 발휘할 것이며, IoT와 연계·발전될 것”이라고 강조했다.

아울러 신석환 부사장은 “솔트룩스는 사용자의 비즈니스와 생활에 적용되는 플랫폼을 구축하는데 중점을 두고 있다. 사용자가 자동통번역 기술로 인식하지 않고도 업무와 생활의 일부로 자동통번역 솔루션·서비스를 활용하게끔 만드는 것이 목표”라며, “커뮤니케이션과 정보 이해를 돕는 통번역SW의 활용은 우리가 생각하는 것보다 더 넓은 영역까지 확대될 것”이라고 덧붙였다.


10년간 투자의 결실 수확하는 ‘마이크로소프트’

▲ MS '스카이프 트랜스레이터' 사용 화면

MS 스카이프(Skype)는 전 세계 8억 명이 이용하고 있는 커뮤니케이션 플랫폼으로, 다양한 기기에서 인터넷 전화를 사용할 수 있다. 지난 2012년 MS 메신저와 통합돼 윈도우 8.1에서 기본 서비스로 제공되고 있으며, 텍스트는 물론 음성 및 영상을 주고받으며 물리적으로 떨어져있는 이들 간의 의사소통과 협업이 가능하도록 지원하고 있다.

MS는 스카이프의 기본 기능과 함께 언어를 실시간 통·번역해주는 ‘스카이프 트랜스레이터(Skype Translator)’를 지난해 공개, 지난달 프리뷰 버전을 선보였다. 언어에 관계없이 서로 소통할 수 있도록 돕는 ‘스카이프 트랜스레이터’는 ▲일대일 스카이프 영상·음성통화 통역 ▲통화 시 화면에 번역문 표시·저장 ▲40개 이상 언어에 대한 인스턴트 메시지 채팅 번역 등의 기능을 제공한다. 이 실시간 통역 기능은 현재 영어, 스페인어, 이탈리아어, 중국어(만다린)가 지원되며, 프리뷰 버전은 윈도우 앱 스토어에서 다운받아 설치할 수 있다.

MS는 10년 넘게 음성인식, 자동통번역, 기계학습 기술에 투자해왔으며, ‘스카이프 트랜스레이터’가 그 성과를 보여주는 최신 사례라고 밝혔다. 기계학습이 적용된 ‘스카이프 트랜스레이터’는 더 많은 이들이 더 자주 사용할수록, 훈련된 데이터 학습을 통해 다양한 주제, 뉘앙스, 억양, 발음 등을 더 잘 인식하고 더 정확한 통·번역 품질을 제공하게 된다.

보다 용이한 번역을 위해 인식된 문자를 변형시키기도 하는데, 이는 의성어나 반복어구 등 말더듬을 제거하고, 문자를 문장으로 나누며, 구두법과 대문자 변환 기능을 추가하는 과정을 포함한다.

이를 위한 데이터는 번역된 웹페이지, 캡션이 삽입된 영상, 기존에 번역되고 기록된 1:1 대화 등 다양한 곳에서부터 생성된다. ‘스카이프 트랜스레이터’에서 나눈 대화 내용은 서비스 품질 개선을 위해 녹음되며, 서비스 이용 시작 시 이 사실을 알려준다. MS는 보다 다양한 플랫폼에서 보다 많은 언어를 지원, 3억 명 이상의 사용자에게 각각의 개별 플랫폼을 통해 서로 커뮤니케이션 가능한 환경을 제공하는 것을 장기적인 목표로 삼고 있다.

한편, MS연구소가 수행하고 있는 다양한 산학협동 연구 중에는 향후 자동통번역 서비스를 보다 정교하게 만들어줄 수 있는 프로젝트들도 포함돼있다. 연세대 강홍구 교수 연구진은 2008년 음성·음악신호로부터의 사용자정보 추출에서 시작해 오디오·비디오인식정보를 통한 다중사용자 추정을 거쳐 신경망구조 기반 다중언어 TTS(문자-음성변환)시스템 구현에 이르는 연구 성과를 달성하고 있다.

또 포항공대 황승원 교수 연구진과는 데이터 인텔리전스와 웹 마이닝에 대해 연구하고 있다. 기존 검색방법에 지능을 더해 사용자에게 더 유의미한 검색결과를 제공하며, 인공지능을 부여하는 수준까지 발전시킬 예정이다. 이는 보다 정확하고 올바른 번역 도출에도 활용될 수 있다.

이 두 공동연구 모두 한국어 기반 음성 전달 및 데이터 인텔리전스에 초점을 맞추고 있으며, 앞으로도 MS연구소는 한국어 관련 자동통번역 기술 및 정확도를 높이기 위한 노력을 지속할 예정이다.


통계기반 통번역의 표준 ‘구글’

▲ 구글 번역 앱 '워드렌즈' 기능

구글 번역은 지난 2001년 영어와 8개 언어 간 기계번역을 지원하며 서비스를 시작했다. 지난 2003년부터 본격적으로 번역 서비스에 언어 추가 및 품질 개선에 나선 구글은 이를 위해 기계학습 방식을 적용키로 했다. 사전에 언어 규칙을 정의하지 않고, 통계 분석을 통해 반복 등장하는 주요 패턴을 습득하는 것이다.

이러한 SMT 방식은 자동적인 학습을 통한 확률적인 방법이므로 데이터가 쌓일수록 성능 향상이 이뤄지고, 다른 언어로의 확장도 비교적 용이하다. 구글의 컴퓨팅 인프라와 방대한 웹 데이터가 주효했던 셈이다.

일반적인 용도로 널리 쓰이게 된 구글 번역은 90개 언어 간 교차 번역을 지원하고 있으며, 크롬 브라우저의 웹페이지 번역과 유튜브 동영상 자막 등에도 적용돼있다. 매월 5억여 명 이상이 구글 번역을 사용, 매일 10억여 건 이상의 번역이 이뤄지고 있다.

지난 2013년부터 구글 번역 앱을 통해 음성인식 통번역 서비스를 제공해온 구글은 올해 초 언어감지 기능도 업데이트했다. 이 ‘두 언어 듣기’는 설정된 두 언어 중 어떤 언어인지 자동으로 감지해 실시간으로 번역해주는 서비스로, 구글 번역 앱의 음성모드에서 마이크 아이콘을 추가로 눌러 사용할 수 있다. 현재 영어와 프랑스어·독일어·이탈리어·포르투갈어·러시아어·스페인어에 대해서만 적용되며, 점차 지원하는 언어를 늘려나갈 예정이다.

아울러 ‘워드렌즈’ 기능도 업데이트, 구글 번역 앱의 카메라모드를 통해 36개 언어에 대한 변역을 제공한다. 카메라를 표지판이나 글자에 대면 활용할 수 있으며, 자동으로 화면에 번역된 글자가 겹쳐 나타나게 된다. ‘워드렌즈’ 기능은 인터넷이나 데이터 연결 없이도 사용 가능하다.


시나브로 준비 중인 국내 대표 포털 ‘네이버’

▲ 네이버 번역기 화면

네이버는 SMT 방식의 ‘NSMT’라는 자체 자동번역기를 개발, 일본어, 영어, 중국어, 스페인어, 인도네시아어, 태국어, 포르투갈어 등 모두 11개 언어쌍에 대한 기계번역 서비스를 제공하고 있다.

네이버의 각종 서비스에서 오가는 대규모 데이터의 학습과 사용자들로부터의 피드백을 통해 지속적인 개선이 이뤄지고 있으며, 이용자가 생산하는 지식인의 QA, 참여 번역, 웹문서 수집 등에서도 양질의 학습데이터를 추출하고 있다.

네이버 ‘NSMT’는 자연어처리 기술을 번역기의 전처리·후처리 모듈에 추가해 RBMT 방식도 접목한 하이브리드 방식을 채택한 것이 특징이다. 라인에도 번역봇을 적용해 진출 국가들을 중심으로 번역 서비스를 제공하고 있는데, 사내 양국 개발자 간 업무 관련 대화에도 활용될 만큼 높은 품질을 확보했다는 설명이다. 이 또한 한·일 양국에서 장기간 검색 서비스를 제공하며 축적해온 자연어처리 기술이 활용됐다.

향후 네이버는 영어, 중국어 등 어순이 다른 언어에 대한 번역 품질도 꾸준히 높여갈 계획이며, 딥러닝 등의 새로운 기술도 반영하고 있다. 라인 외에도 실제 서비스화 가능한 영역을 넓혀갈 예정이고, 최근에는 B2B에서도 번역이 필요한 여러 외부 업체들과 제휴를 논의 중이다.

이밖에도 네이버는 어학사전 내 단문 번역 서비스를 제공 중이고, 메일 서비스에도 번역 기능이 추가됐으며, 해외 한류 팬들을 위한 연예뉴스 번역 서비스도 실시하고 있다.

김준석 네이버 연구원은 “좋은 번역기를 만들기 위해서는 많은 학습용 빅데이터를 확보하고, 딥러닝 등 새로운 기술을 번역엔진에 반영해 품질을 높이는 노력을 계속하는 것이 중요하다”고 밝히는 한편, “이 못지않게 중요한 것은 ‘실제 서비스 통해 이용자들로부터 받은 수많은 피드백을 효율적으로 반영할 수 있는 프레임워크를 갖췄느냐’라고 본다. 언어가 생명체처럼 진화·변화하듯, 번역기도 새로운 것을 잘 받아들이고 잘못을 빨리 고칠 수 있어야 한다”고 덧붙였다.


글로벌 CXM 기업 ‘SDL’

▲ SDL이 지난해 주한영국대사관서 개최한 세미나

지난 1992년 영국에서 설립된 SDL은 B2B 번역 솔루션·서비스를 전문적으로 제공해온 글로벌 기업으로, 1,500개사 이상의 글로벌 기업고객, 400개 업체와의 파트너십, 38개국 70개 이상의 지사를 보유하고 있다. 지난해 포츈 100대 기업에 선정된 글로벌 브랜드 가운데 72개사가 SDL의 고객 및 파트너로, 지난해 한 해 동안 914억 개의 단어가 ‘SDL 언어 클라우드’를 통해 번역됐다.

지난 2004년부터 국내에서 번역 서비스를 제공해온 SDL코리아는 지난해부터 SW솔루션을 내놓으면서 국내 시장 공략을 본격화하고 있다. 전문번역가의 번역작업을 돕는 지원도구인 CAT(Computer Aided Translation) 툴 ‘트라도스 스튜디오(Trados Studio)’가 SDL의 제품 가운데 가장 널리 알려져 있지만, 이뿐만 아니라 기계번역을 통한 자동통번역부터 CX(고객경험) 분야까지 다양한 솔루션을 제공하고 있다.

‘SDL 고객경험 클라우드(CXC)’는 디지털 경험 솔루션, 지식센터 솔루션, 고객분석 솔루션 등을 제공해 CXM(고객경험관리)을 지원한다. 이를 통해 제공되는 ‘SDL 언어 플랫폼’은 ▲전 세계 20만 명 이상의 번역가들이 사용하는 ‘트라도스 스튜디오’ ▲중소규모 번역팀 내 협업을 위한 ‘스튜디오 그룹셰어’ ▲번역프로세스 전반을 관리하는 ‘월드서버’ ▲각 산업별로 특화된 실시간 자동번역 ‘비글로벌’ 등으로 구성됐다. 번역자산 축적·재활용, 용어DB 관리·적용, 번역프로세스 관리·모니터링, 자동번역 통한 실시간 커뮤니케이션, 보안 기능 등을 지원한다.

한편, SDL은 ‘SDL CXC’를 위한 자사의 차세대 자동번역 기술인 ‘XMT’를 지난달 공개했다. 실시간으로 번역역량을 개발·배치 가능한 확장형 인프라 기반 툴로, 모든 언어쌍에 획일적인 방법을 적용하는 기존 방식을 탈피해 언어쌍별 맞춤형 알고리즘을 택하는 것이 핵심이다.

‘XMT’는 ‘SDL 언어학습’을 비롯한 새로운 기능의 신속한 개발·배포를 지원하며, 개별 사용자의 언어취향을 학습하고 적용하는 기능도 포함됐다. 빅데이터 분석 및 인공지능을 활용, 일상 회화체와 소셜 언어에 대한 번역품질의 경우 기존 기술 대비 62% 개선됐다는 것이 SDL 측의 설명이다. 더불어 아시아 언어들에 대한 번역 정확성도 대폭 향상될 것으로 기대되고 있다.

‘XMT’는 자동번역 솔루션으로 구성된 SDL 제품군을 통해 사용 가능하며, 100개 이상의 언어쌍과 산업별로 특화된 다섯 개 엔진을 지원할 예정이다. 또 각 조직별 고유한 어휘 및 용어를 훈련시켜 맞춤형 솔루션을 만드는 것도 가능하다.

임광혁 SDL코리아 지사장은 “글로벌 시장에서 언어를 통한 고객경험은 매뉴얼이나 문서상의 문제를 떠나, 제품 곳곳에서 고객과 커뮤니케이션하는 핵심 경쟁력으로 자리 잡았다”며, “국내 시장에서 3년 내 SW라이선스 매출 50억 원, 언어 번역서비스 매출 150억 원을 달성할 것으로 기대한다”고 말했다.


중국시장 공략에 나서는 ‘에버트란’

▲ 지난달 중국 북경어언대학서 열린 '비주얼트란' 기증식

지난 2006년에 설립된 에버트란은 MS의 아시아 유일 번역기술 공식파트너인 국산SW기업이다. 기계번역 ‘오토트란 EK/KE’, CAT 툴 ‘비주얼트란 메이트’, 통역SW ‘애니토커스’ 등을 개발해 공급하고 있으며, 이를 기반으로 전문가 번역서비스 ‘번역은행’도 제공하고 있다. ETRI의 통번역 관련 국책과제에 공동연구로 참여하고 있고, 지난 2012년부터는 코트라 베이징IT지원센터에 지사를 두고 번역솔루션을 공급하고 있다.

에버트란은 번역지원SW ‘비주얼트란’을 중국의 주요 대학교에 기증해 사용자를 확보하면서 중국시장 공략에 나서고 있다. ‘비주얼트란’은 에버트란이 지난 2009년 공군의 F15-K 전투기 도입에 따른 대량의 운용 매뉴얼 번역 프로젝트를 수행한 노하우를 바탕으로 내놓은 제품으로, 전문용어의 통일성과 중복문구의 일관성을 유지시키기 위해 개발한 번역메모리가 적용됐다.

또한, 중국 및 미국 시장에 진출해 글로벌화가 진행 중인 ‘번역은행’은 ‘비주얼트란’을 이용해 번역한 뒤 그 언어자원(번역메모리)을 자산화해 의뢰자의 번역지식계좌에 구축, 이를 재활용해 지속적으로 번역품질을 높이고 번역비용을 절감할 수 있도록 해주는 서비스다. 에버트란은 전문번역가의 번역작업 효율성 제고에 주안점을 두고 있다.

이청호 에버트란 대표는 “기계번역 방식이 직접적인 치료제라면 CAT툴 등 번역지원도구는 경쟁력을 보조해주는 영양제라고 볼 수 있다”며, “자동통번역 기술은 가능성을 높여주고 시간을 절감시켜주는데 그 의의가 있다. 아직 고유명사 처리 등에 기술적 난점이 남아있으므로, 현재로서는 결국 전문가의 손을 거치게 돼있다”고 밝혔다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지