12.15
주요뉴스
뉴스홈 > 기획특집
[IT산업 20년 전] 음성인식 기술, CPU 성능 향상에 힘입어 시장 형성 본격화1998년- 증권거래소, 항공사 도입사례 증가…투자 대비 효과 높아

   
 
[컴퓨터월드] 1998년, 음성인식 기술이 주목받기 시작했다. 이전까지는 주변 잡음과 각 사람별 음성 뉘앙스를 처리하지 못한다는 점 때문에 필요성에도 불구하고 산업 분야에 적용되지 못했던 음성인식 기술이 증권거래소, 항공사 등 각 산업 분야에 사용되기 시작한 것이다.

2018년, 음성인식 기술은 이미 우리생활에 깊숙이 파고 들었다. 아마존 알렉사, 구글 어시스턴트, 애플 시리, 삼성 빅스비 등 다양한 음성인식 AI 비서 기능이 등장했으며, 이 기능들은 스마트폰에 탑재돼 보급되고 있다. 더불어 음성인식 AI 스피커를 사물인터넷(IoT)과 연동해 에어컨, TV 등 가전제품뿐만 아니라 자동차 등 다양한 기기를 목소리로 제어할 수 있는 시대가 도래했다.


1998년, 음성인식 시장 본격 형성

1998년 당시 음성인식(Speech Recognition)은 사람과 컴퓨터간의 상호작용을 단순화시켜주는 기술로 주목받았다. 개념상으론 훌륭한 기술이었지만, 이전까지는 각 사람 별 음성 뉘앙스나 시끄러운 작업 환경을 처리하지 못한다는 단점 때문에 시장에서 그다지 주목받지 못했다. 하지만 98년에 접어들면서 음성인식 기술을 빠른 속도로 발전했고, 음성인식 기술을 핵심 업무에 활용하려는 기업들이 크게 증가했다.

대표적인 예로 아메리카 에어라인은 98년 7월부터 고객들이 컴퓨터와 직접 대화할 수 있는 환경을 구축했다. 이와 비슷한 시기에 스위스아메리카증권사도 거래고객들이 음성인식 기술을 이용해 보통주와 옵션 주문을 거래할 수 있게 하는 시스템을 구축했다. 당시 IT 전문가들은 음성인식 기술을 적용한 사례가 빠르게 늘어날 것으로 예측했으며, 음성인식 기술이 향후 IT분야의 새로운 추세로 자리 잡을 것이라고 전망했다.

특히 살로먼스미스바니, 뉴욕증권거래소, 뉴욕상업거래소 및 시카고상업거래소 등이 각종 소음이 난무하는 거래장에서 음성인식 기술을 테스트한다는 계획을 세워 관련 전문가들의 관심을 집중시켰다. 거래장 같이 소음이 100dB을 넘는 장소에서 음성인식 기술이 효과를 제대로 발휘할지 업계의 관심이 쏠린 것이다. 전문가들은 이 테스트를 통해 음성인식 기술의 효용성과 장단점 등이 드러날 것으로 예상했다.

당시 살로먼스미스바니는 음보이스(UmeVoice)와 공동으로 음성인식기술을 뉴욕증권거래소 거래장에 구현할 계획을 갖고 있었다. 마이클 리치 살로먼스미스바니 보통주거래기술부서 과장은 “살로먼스미스바니의 최대 도전은 잡음과 정확성에 있다”고 전제하고, “음성인식 기술은 거래처리 시간을 기존 15초에서 5초로 단축시킴으로써 직원들의 작업경쟁력을 더욱 증진시킬 수 있을 것”이라고 기대했다. 당시 뉴욕증권거래소 관계자도 “음성인식기술은 지금까지의 업무 수행방식을 크게 바꿔 놓을 것”이라며 기대감을 나타냈다.


음성인식 시장, 2001년 80억 달러 규모 전망

98년 전세계 기업 전화 음성인식 장비 및 서비스 시장규모는 3억 1,700만 달러에 달할 것으로 예상됐다. 당시 음성인식전문 컨설팅기업인 TMA 어소시에이츠는 음성인식 시장이 2001년 80억 달러에 달할 것으로 전망했다. 당시 음성인식 기술에 막대한 자금을 투자했던 기업으로는 뉘앙스 커뮤니케이션, 러너트&하우스피 스피치 프로덕츠, 어플라이드 랭귀지 테크놀로지 등을 들 수 있었다.

뉘앙스 커뮤니케이션은 모토로라, 인텔, 골드만삭스, 어트랙터 엔베스트먼트 매니지먼트 등으로부터 1,500만 달러를 투자받았으며, 러너트&하우스피의 경우 마이크로소프트의 80% 지분참여를 통해 4,500만 달러를, 어플라이드 랭귀지 테크놀러지는 확보한 500만 달러 외에 인텔로부터 투자를 받을 예정이었다.

한편 음성인식 기술 개발에 참여하고 있는 기업들로는 드래곤 시스템즈, 피콤프 시스템즈, 필립스 스피치 프로세싱, 버벡스, 보이스 컨트로 시스템 등이 있었다. 당시 이 기업들은 엔터프라이즈 시스템은 단어에 그치는 것이 아니라 이어지는 대화의 95% 이상을 컴퓨터가 이해할 수 있는 언어로 정확하게 번역할 수 있어야 한다고 강조했다.

다만 모든 대화를 인식할 필요가 없다는 점 때문에 어휘가 한정적인 음성인식 시스템도 발표되고 있었다. 어휘가 한정적인 음성인식 시스템은 포트 당 200달러 선으로 저렴했으며, 수만 개 이상의 단어를 인식할 수 있는 시스템은 3천 달러 이상을 호가하기도 했다.

기업들이 음성지원 애플리케이션을 쉽게 개발할 수 있게 도와주는 소프트웨어 개발 킷을 출시하는 등 음성인식 기술은 더욱 활성화될 것으로 기대됐다.

   
▲ 98년 전세계 전화음성인식 장비 및 서비스 시장 예상 규모


음성인식 기술 발전 동력은 CPU의 발전

98년 이처럼 음성인식 기술이 발전할 수 있었던 것은 CPU의 발전 때문이었다. CPU의 가격하락과 성능 향상이 음성인식의 대중화를 앞당긴 것이다. 특히 복수 서버 및 복수 프로세서간에 이전보다 쉬워진 작업 분할이 음성인식 기술 발전의 동력이 됐다.

98년 이전까지만 해도 음성인식 애플리케이션을 구동하기 위해서는 메모리 병목현상을 쥐어짜야 가능했다. 시스템은 지속적인 대화를 인식하고 복수의 음성을 구별해야 할만큼의 성능을 지원하지 못했다. 수많은 어휘를 처리하지 못했으며 시끄러운 환경에서는 시스템 구현이 어려웠다. CPU가 발전하면서 복잡한 요소도 동시에 처리가 가능할 수 있게 된 것이다.

AT&T 벨 랩은 음성인식 기술이 지속적으로 발전함에 따라, 애플리케이션으로 항공기 예약과 같이 지역에 따라 고객들의 대화 행태가 다른 수직시장까지 분야를 확대할 수 있을 것으로 기대했다.


음성인식 적용기업, 생산성과 만족도 높아

당시 기업들은 음성인식 기술을 구현할 때 엄격한 테스트를 실시했다. 기술을 구현한 기업들은 생산성 증진을 통한 비용절감과 사용자 만족도가 매우 높게 나타난 것으로 조사됐다. 한 예로 97년 소포 추적 및 고객서비스 등의 분야에 음성인식 시스템을 구현한 美 포장화물 운송기업인 UPS와 시어즈, 뢰벡은 시스템 투자회수가 3개월도 못돼 이뤄지기 시작했다고 자평했다. 가트너는 50개 이상의 콜센터 에이전트를 운영하고 있는 기업들이 음성인식 기술을 사용할 경우 9~18개월 내 도입 효과를 거둘 수 있을 것이라고 전망했다.

아메리칸 에어라인은 예상된 투자회수 비용을 고객 서비스 향상에 사용했다. 뉘앙스의 소프트웨어를 토대로 개발됐던 아메리칸 에어라인의 음성인식 애플리케이션은 단골 탑승고객에게 향상된 서비스인 어드밴티지 플래티넘을 제공하는 방편이 됐다. 플래티넘 등급의 고객이 서비스 데스크에 전화하면 고객번호를 물어보고, 이를 토대로 고객의 프로파일을 검토하는 방식으로 서비스를 제공했다.

당시 존 사무엘 아메리칸 에어라인 마케팅 부장은 “직원들이 자동시스템보다 빨리 구할 수 없는 정보를 찾는데 시간을 낭비하게 하고 싶지 않았다”며, “직원들을 이런 작업에서 해방시켜 좀더 나은 서비스를 제공하는데 주력하게 할 것”이라고 말했다.

아메리칸 에어라인은 음성인식 애플리케이션을 더욱 발전시킨다는 계획을 수립했다. 당시 아메리칸 에어라인의 음성인식 애플리케이션은 사람마다 다른 대화방식을 이해할 수 있는 수준이었으며, 아메리칸 에어라인은 이를 통한 서비스를 자사 모든 고객에게까지 확대해 항공기나 기타 정보를 제공하는데 컴퓨터를 활용, 자동 응대할 수 있도록 한다는 계획이었다.

유나이티드 에어라인도 98년 말까지 아메리칸 에어라인과 비슷한 시스템을 구축한다는 방침이었다. 유나이티드 에어라인의 시스템은 어플라이드 랭귀지 테크놀로지에 의해 개발됐으며, 고객이 항공기 정보를 조회하는데 활용될 방침이었다. 97년 가을부터 유나이티드 에어라인은 9만여 명의 직원들이 어플라이드 랭귀지의 기술을 사용해 자체 여행예약을 할 수 있게 하는 음성 명령어를 사용했다.

아메리칸 익스프레스는 98년 7월부터 뉘앙스의 기술을 활용해 고객들이 탑승정보를 점검하고 항공기, 호텔, 자동차 예약 서비스를 이용할 수 있게 음성인식 기술을 제공했다.


금융업계도 음성인식 기술 채택

금융업계 또한 음성인식 기술을 빠르게 채택하고 있는 분야에 속했다. 대표적으로 E트레이드 그룹은 어플라이드 랭귀지 테크놀로지와 인터페이스의 기술을 이용한 음성인식 시스템을 통해 자사 고객들이 계좌를 관리하고 거래를 할 수 있도록 서비스를 제공했다. 찰스슈왑도 뉘앙스의 기술을 이용해 고객들이 주식 및 상호기금 할당 등을 점검할 수 있게 지원했다. 찰스슈왑은 금융중개기업 최초로 97년 가을 음성인식 기술을 사용했다.

스위스아메리칸증권은 피콤프의 보이스 호라이즌 대화인식 기술을 자체 거래사무실에 설치하는 좀더 발전된 단계의 계획을 추진했다. 이 시스템은 대화를 인식하고 전화를 통해 거래도 수행할 수 있도록 구축됐다. 당시에는 30개 정도의 거래사들이 이 시스템을 사용하고 있었고, 스위스아메리칸증권은 더 많은 거래사들이 음성인식 기술을 활용하도록 확대한다는 방침이었다. 피콤프는 당시 문제로 지적됐던 배경잡음을 해소하기 위한 알고리즘과 소프트웨어를 개발하고 있었다.

스위스아메리칸증권의 음성인식 시스템은 서버기반으로 개발됐으며, 버벡스의 음성인식 엔진을 사용했다. 이를 통해 거래자들이 음성으로 거래를 입력하면 그에 대한 구매증명이 컴퓨터에 나타나고, 이를 중개자에게 보내 구매행위를 진행하는 방식이었다. 이 기술은 전화를 통해 거래를 수행하는 사람들의 작업을 단순화시켰다는 호평을 받았다. 스위스아메리칸증권 관계자는 음성인식 시스템은 직원 비용에 대한 중개비용을 절약시켜주기 때문에 투자대비 효과가 즉시 나타났다고 설명했다.


음성인식에 대한 실질적 테스트 필요성 강조

한편으론 음성인식 기술의 실질적인 테스트는 美 주요증권거래장에서 시행돼야 한다는 지적이 이어졌다. 증권거래장과 같이 각종 잡음이 심하게 발생하는 상황에서 테스트가 진행돼야한다는 것이었다. 당시 음성인식 기술을 채택할 방안을 모색했던 시카고상업거래소는 7천 명 이상이 운집하는 대규모 거래장이었다. 시카고상업거래소는 발생소음의 종류가 달라질 수 있기 때문에 2개 거래장에 하드웨어 기반 음성인식 엔진을 장착해 테스트를 진행했다.

거래장과 같이 개방된 장소는 각종 함성과 비명이 난무했기 때문에 음성인식 기술 분야에서도 가장 어려운 환경으로 지적됐다. 이렇기에 당시 ‘음성인식이 거래장에서 진가를 발휘하면 모든 분야에 적용 가능하다’는 분석도 있었다.

시카고상업거래소는 증권거래소 일정구역에서는 소프트웨어 기반의 음성인식 엔진을, 거래장 내부 방음구역에서는 하드웨어 기반의 음성인식 엔진을 사용할 계획이었다. 뉴욕증권거래소도 15개 음성인식 기술업체 중 피콤프, GTE, SRI 등 3개 업체를 골라 프로토타입 시스템을 테스트했다. 뉴욕증권거래소는 98년 10월까지 음성인식 기술을 채택할 계획을 세우고 있었다. 뉴욕상업거래소의 거래장과 사무실에서도 음성인식 테스트가 진행됐다.

당시 업계는 음성인식 기술의 발전이 거래장에 국한되지 않을 것이라고 전망했다. 한 예로 제너럴매직과 월드파이어커뮤니케이션즈는 개별 에이전트 형식의 음성인식 기술을 제공하고 있는 점을 들었다. 개별 에이전트 형식은 컴퓨터 기반의 서비스로, e메일 메시지를 전화로 얽어주거나 간단한 메시지를 음성으로 알려주는 등의 서비스를 제공했다.


2018년, 대중화된 음성인식 기술

2018년 음성인식 기술은 대중화돼 일반 소비자도 손쉽게 이용할 수 있게 됐다. 2011년 ‘아이폰4S’에 적용된 ‘애플 시리(Siri)’를 시작으로 ‘구글 어시스턴트’, ‘삼성 빅스비’ 등 다양한 음성인식 AI가 스마트폰에 적용되고 있다. 또 ‘아마존 알렉사’를 필두로 국내에서도 SK텔레콤의 ‘누구(NUGU)’, KT의 ‘기가지니(GiGAGenie)’, 네이버의 ‘클로바(Clova)’, 카카오의 ‘카카오아이’ 등 AI스피커에 적용된 음성인식 엔진들이 등장했다. 이런 음성인식 엔진을 활용한 AI 스피커가 상용화되면서 음성인식 기술은 우리생활에 밀접하게 다가와 있다.

애플의 ‘시리’가 처음 등장했을 때 많은 주목을 받았다. ‘시리’는 iOS 5 이상의 운영체제에 통합돼 제공됐으며, 한국어 버전은 iOS 6부터 지원됐다. ‘시리’는 iOS에 내장된 알림, 날씨, 주식정보, 메시지 등과 연계, 음성으로 스마트폰을 사용할 수 있어 많은 관심을 받았다. 이후 삼성의 ‘빅스비’, 구글의 ‘어시스턴트’ 등 다양한 음성인식 서비스가 접목되고 있다.

음성인식 기술을 바탕으로 다양한 음성인식 서비스들이 본격적으로 일반 소비자에게 소개된 것은 ‘시리’가 출시된 2011년 전후였다. 물론 전문가들은 당시 음성인식 서비스는 서비스라기보다 다양한 응용서비스를 위한 음성 인터페이스 역할을 했다고 보는 게 정확하다고 얘기했다.

음성인식 기술은 스마트폰을 넘어 스피커에도 적용되기 시작했다. 2014년 11월 아마존이 자사 음성인식 AI 개인비서 ‘알렉사’가 적용된 스마트 스피커 ‘아마존 에코’를 선보이면서 음성인식 AI 스피커 시장은 본격적으로 개화되기 시작했다.

국내에서도 이런 흐름에 맞춰 SK텔레콤, KT 등 이동통신사와 네이버, 카카오 등 포털 기업도 음성인식 AI를 개발해 스마트 스피커를 출시했다. 특히 국내 스마트 스피커는 IPTV, 음악스트리밍 서비스 등과 결합해 빠른 속도로 상용화되고 있다.

   
▲ 네이버 ‘클로바 미니언즈 에디션’(출처: 네이버)


이통 3사, 스마트스피커 통해 스마트홈 시장 진출

특히 SK텔레콤, KT, LG유플러스 등 이동통신 3사는 스마트 스피커 제품으로 스마트홈 시장에 진출하고 있다. 음성기반 플랫폼을 통해 집안 사물인터넷(IoT) 기기를 컨트롤하는 스마트홈을 구현한다는 것이다. 이통 3사는 건설사, 인테리어사와 업무협약을 맺고 스마트홈 시장에 뛰어들고 있다.

SK텔레콤은 지난 3월 스마트홈의 범위를 넘어 ‘스마트리빙’ 시대로 나아가겠다고 발표했다. 부동산개발기업인 엠디엠플러스와 업무협약을 맺고, 엠디엠플러스가 분양하는 아파트, 오피스텔에 스마트홈 서비스를 공급하기로 협의했다. SK텔레콤은 엠디엠플러스에 적용하는 스마트홈 서비스에 주차관제, CCTV, 무인택배, 공동현관 등 주요기능을 통합 앱으로 제공함으로써 스마트홈을 넘어 스마트리빙으로 범위를 확장한다고 설명했다.

   
▲ SK텔레콤 스마트리빙 개념도(출처:SK텔레콤)

이외에도 SK텔레콤은 SK건설, HDC현대산업개발 등 40여개 개발사와 협업해 음성인식 AI 스피커 ‘누구’를 활용한 스마트홈 서비스를 제공하고 있다. 더불어 인테리어로 스마트홈을 대중화하겠다는 전략도 세웠다. 신축 주택뿐 아니라 기존 주택에도 간단한 인테리어 개조로 스마트홈 서비스를 공급해 사업의 저변을 확대하겠다는 것이다.

한편 SK텔레콤은 자사 내비게이션 앱 ‘T맵’에도 음성인식 AI를 적용했다. ‘T맵×누구’는 목적지 검색, 뉴스 브리핑 등의 기능뿐만 아니라 전화 및 문자 수·발신, 경유지 추가, 남은 주행시간 확인, 위치 공유 등의 다양한 기능을 음성인식으로 이용할 수 있다.

KT는 호텔을 중심으로 숙박시설 스마트홈 서비스 구축 사업을 진행하고 있다. 최근 KT와 KT에스테이트는 서울 중구 노보텔 앰배서더 서울 동대문 호텔&레지던스에서 AI 호텔 서비스를 선보였다.

노보텔 앰배서더 동대문에는 KT의 AI 기술을 집약한 ‘기가지니 호텔’이 적용됐다. 기가지니 호텔은 음성인식뿐 아니라 터치스크린까지 갖춰 객실에서 다양한 서비스를 이용할 수 있는 인포테인먼트 시스템이다. 음성과 터치로 24시간 언제나 조명 및 냉난방 제어, 객실 비품 신청, 호텔 시설정보 확인은 물론 TV 제어 및 음악감상도 가능하다.

KT 및 KT그룹사들은 기존 호텔의 안락함은 물론 혁신적인 ICT를 통해 이용자들에게 새로운 경험을 선사한다는 계획이다. 또한 AI 등 5G에 기반을 둔 서비스를 가장 먼저 체험할 수 있는 공간으로, 향후 5G 대중화를 선도한다는 목표를 수립했다.

현재 스마트홈 시장은 이통 3사 가운데 LG유플러스가 가장 앞서고 있다는 게 업계의 평가다. LG유플러스는 스마트홈 시장을 SKT, KT보다 선제적으로 공략해 성과를 내고 있다. 특히 수면습관을 도와주는 ‘IoT숙면알리미’, 네이버 ‘클로바’와 연동되는 IoT 선풍기 등을 출시하는 등 IoT 가전제품을 출시했으며, 지난 6월에는 환풍기, 비데 등을 통해 욕실 온·습도 관리, 청결 유지 등이 가능한 ‘스마트 욕실’ 서비스를 선보였다.


스마트홈 넘어, 자동차도 음성으로 제어

최근 SK텔레콤과 KT는 현대기아자동차와 협업을 통해 ‘홈투카(Home to Car)’ 서비스를 선보였다. ‘홈투카’ 서비스는 ‘SK텔레콤 누구(NUGU)’와 ‘KT 기가지니’의 음성인식 기능 및 인공지능(AI) 기술과, 현대기아차의 커넥티드카 기술이 접목된 서비스다. 집안에서 간단한 음성 명령으로 원격 온도 설정, 문잠금, 비상등·경적 켜기, 전기차 충전(전기차 모델 대상) 등 기본적인 차량기능을 제어할 수 있다.

   
▲ KT가 현대기아차와 협업해 ‘홈투카’ 서비스를 선보였다.(출처: KT)

‘홈투카’ 서비스는 현대자동차 커넥티드카 서비스 ‘블루링크’ 혹은 기아자동차 커넥티드카 서비스 ‘유보(UVO)’ 가입자면 이용 가능하다. KT의 경우 ‘KT 기가지니’ 앱과 ‘KT 기가 IoT 홈 매니저’ 앱을 설치하고 최초 1회 연동 과정을 거치야 하며, SK텔레콤은 ‘누구’를 통해 이용할 수 있다.

이렇듯 음성인식 기술은 스마트폰을 넘어 스마트홈으로, 스마트홈에서 커넥티드카까지 영역을 확장하고 있다. 98년 금융사 및 항공사를 중심으로 적용되기 시작했던 음성인식 기술이 일반소비자의 일상생활에까지 파고들고 있는 것이다.

하지만 아직 음성인식 기술의 갈 길은 멀다. 소비자들은 음성인식을 넘어 개인 맞춤형 서비스를 원한다. 예를 들어 집안의 스마트스피커가 가족 구성원을 구분해 맞춤형으로 서비스를 제공했으면 한다는 것이다. 스마트 스피커에 결제기능까지 추가되고 있는 상황에서 화자인증 기술도 주목받고 있다.

시장에서 음성인식률에 대한 불만도 아직은 존재하는 상황이다. 인식률이 음성인식 스피커 초기보다 많이 향상됐다고는 하지만, 사용자의 입장에서 아직도 불편함을 느낀다는 평이 많다. 여기에 화자인증 기술까지 지원하려면 음성인식률이 더욱 향상돼야 한다.

음성인식 기술이 우리 생활에 접목되면서 여러 가지 편리함을 주고 있다. TV 채널을 돌리는 사소한 일도 이제는 목소리로 가능해졌다. 음악을 일일이 검색할 필요 없이 이제는 스피커에 “OO의 노래 틀어줘”라고 말하면 음악이 재생된다.

화자인식 기술이 발전해 정확도를 높인다면, 스마트 스피커에서 개인 맞춤형 서비스를 제공할 수도 있고, 일일이 지문을 인식하거나, 공인인증서 로그인 등 추가 인증절차 없이 목소리만으로 결제가 가능해질 수 있다.

음성인식 기술은 아직도 발전 가능성이 높다. 스마트홈 서비스로 집안 가전기기를 컨트롤하는 것을 넘어 결제 등의 분야에서도 사용될 수 있다. 다만 인식률, 화자 구별 등 개선돼야 할 부분은 아직 남아있다. 그렇기에 앞으로의 변화가 더욱 기대된다.

여백
컴퓨터월드 추천기업 솔루션
인기기사 순위
IT Daily 추천기업 솔루션
(우)08503 서울특별시 금천구 가산디지털1로 181 (가산 W CENTER) 1713~1715호
TEL: 02-2039-6160  FAX: 02-2039-6163   사업자등록번호:106-86-40304
개인정보/청소년보호책임자:김선오  등록번호:서울 아 00418  등록일자:2007.08  발행인:김용석  편집인:김선오