제2의 인터페이스 혁명 ‘음성인식’

스마트폰이 갈수록 똑똑해지고 있다. 단말기에 대고 속삭이면 원하는 정보를 족집게처럼 찾아준다. 음성인식 기술을 사용한 모바일 음성 검색 서비스다. 1990년대 후반 영화배우 안성기가 “본부! 본부!”를 외치던 휴대전화 광고를 떠올리면 큰 오산이다.
말만 하면 검색 ‘척척’…응용 분야 ‘확산’
스마트폰의 확산과 클라우드 컴퓨팅 기술에 힘입어 음성인식의 정확도는 한 차원 업그레이드됐다. 말만 하면 내용을 받아 적어 e메일도 보내준다.

음성인식 분야는 정보기술(IT) 거인들이 차세대 패권을 겨루는 치열한 격전장이다. 국내에서는 핵심 기술을 개발한 한국전자통신연구원(ETRI)이 새로운 기회를 노리고 있다.

스마트폰을 구입하고 경험하는 가장 큰 변화는 웬만해서는 PC를 켤 일이 없어진다는 것이다. e메일에서 웹 검색까지 스마트폰 하나면 대부분 해결되기 때문이다. 유일한 고민은 스마트폰의 글자 입력 방식이 여간 까다롭지 않다는 점이다.

민감한 터치폰의 경우 오타와 수정을 수없이 반복하는 불편을 참아내야 한다. 이 때문에 e메일용으로 블랙베리를 따로 구매해 함께 들고 다니는 사람도 적지 않다. 영화에서처럼 내 말을 척척 알아듣는 휴대전화가 나온다면 얼마나 편리할까.

대전 유성구 가정로 ETRI 음성처리연구팀에 가면 여기에 대한 희망적인 답변을 들을 수 있다. 지난 6월 15일 연구원에서 만난 이윤근 팀장은 “ETRI는 꾸준한 연구·개발을 통해 이미 세계 최고 수준의 음성인식 기술을 확보했다”며 “상상을 뛰어넘는 서비스들이 조만간 속속 등장할 것”이라고 전망했다.

음성인식 기술의 원리와 개발 과정에 대한 긴 설명이 끝난 뒤 같은 팀의 박전규 책임연구원은 거창한 장치 대신 주머니에서 손바닥 만한 스마트폰을 꺼내 음성인식 기술이 얼마나 대단한 수준에 올라 있는지 직접 보여줬다.

다음, 국내 최초 모바일 음성 검색 선보여

다음커뮤니케이션이 ETRI의 핵심 기술을 이전받아 지난 6월 9일 국내 최초로 선보인 ‘모바일 음성 검색 서비스’에 접속한 후 박 연구원이 “소녀시대 제시카”라고 속삭이자 여성 그룹 소녀시대의 멤버인 제시카의 본명과 프로필, 발표 앨범 등이 주르륵 나왔다. 이번에는 “월드컵 북한 경기 일정”이라고 물었다.

잠시 후 남아공 월드컵에 출전한 북한팀의 예선 경기 일정과 주요 선수 등이 정확하게 검색 결과로 제시됐다. 검색 시간이 다소 지연되고 때로 엉뚱한 ‘사오정’ 답을 내놓기도 하지만 전체적으로 보면 충분히 높은 점수를 줄 만하다.

최근 세계 주요 IT 기업들은 음성인식 기술 확보에 사활을 걸고 있다. 지난 2007년 구글에 밀려 인터넷 검색 시장에서 고전해 온 마이크로소프트(MS)가 음성인식 기반 정보 제공 업체인 텔미네트웍스를 인수하며 먼저 포문을 열었다.

MS는 현재 자사의 ‘윈도 모바일’에 음성인식을 통해 웹 검색과 단문문자서비스(SMS), 전화 걸기, 그리고 각종 생활 정보 등을 제공하는 애플리케이션 ‘텔미’를 탑재하고 검색엔진 ‘빙’에서도 음성검색을 제공한다.

야후도 거액을 들여 지분을 확보한 벤처기업 블링고의 도움으로 2008년 음성 검색 서비스인 ‘원서치 2.0’을 내놓고 검색 시장에서의 대역전을 노리고 있다. 업계 절대 강자인 구글도 이에 뒤질세라 팔을 걷어붙이고 나섰다.

지난 2008년 영어 음성 검색 서비스를 처음 선보인 것을 시작으로 2009년 중국어와 일본어, 2010년 프랑스어·독일어·이탈리아어·스페인어 등으로 빠르게 대상 언어를 늘려 가고 있다.

구글은 지난 6월 16일 8번째로 한국어 음성 검색 서비스 출시를 발표하기도 했다. 아이폰과 아이패드로 무장한 애플도 최근 음성 검색 모바일 애플리케이션 개발 업체 ‘시리’를 전격 인수하며 이러한 흐름에 가세했다. 음성검색이 IT 업계의 새로운 격전장으로 떠오르고 있는 것이다.

이는 국내에서도 마찬가지다. ETRI와 손 잡고 상용화에 가장 먼저 성공한 다음이 일단 한발 앞서가고 있지만 상황이 그리 단순하지만은 않다. 간발의 차이로 ‘국내 최초’라는 타이틀을 놓친 구글은 음성 검색의 속도와 정확성으로 승부한다는 전략이다.

구글은 음성 검색 서비스를 난공불락인 한국 시장을 공략할 수 있는 ‘빅 카드’로 보고 있다. 국내 1위 인터넷 검색 업체인 네이버와 SK텔레콤도 각각 연내 음성 검색 서비스 론칭 계획을 일찌감치 발표해 놓고 있다. 음성 검색에서의 승패에 따라 IT 업계의 지형도는 또 한 번 요동칠 가능성이 높다.

흥미로운 것은 음성 검색의 기반이 되는 음성인식 기술로 눈길을 돌리면 전혀 다른 그림이 나타난다는 점이다. 앞서 언급한 대로 다음은 ETRI의 기술을 쓰고 있다. SK텔레콤은 미국의 음성인식 기술 업체인 뉘앙스커뮤니케이션즈의 엔진을 들여온 경우다.

반면 구글은 엄청난 투자를 통해 자체 기술을 확보하고 있다. 아직 뚜렷한 발표가 없는 네이버를 빼면 한국어 음성인식 기술을 놓고 ETRI와 외국 기업 2개가 겨루는 모양새다.
말만 하면 검색 ‘척척’…응용 분야 ‘확산’
과연 음성인식도 인터넷 검색이나 워드프로세스처럼 국내 업체가 아성을 구축할 수 있을까. 한국어는 한국 사람에게 훨씬 유리하다는 점을 생각하면 결과는 너무나 당연해 보인다.

하지만 업계의 현실을 들여다보면 사정은 정반대다. 현재 세계적으로 이 시장을 주도하고 있는 것은 SK텔레콤에 음성인식 엔진을 제공하기로 한 뉘앙스다.

이 회사는 지난해 음성인식 기술을 팔아 1조 원이 넘는 매출을 올렸다. 이 팀장은 “뉘앙스가 사실상 세계시장을 독점하고 있다”고 말했다.

뉘앙스는 전 세계 거의 모든 언어에 대한 음성인식 기술을 축적해 놓고 있다. 그나마 구글이 자체 기술 개발을 선언하면서 주목할 만한 경쟁자로 떠오르고 있는 정도다.

뉘앙스의 독점 체제는 2000년대 초반 1차 음성인식 기술 붐으로 거슬러 올라간다. 당시 ‘보이스 포털’이 세계적으로 큰 인기를 끌면서 음성인식 기업들이 우후죽순으로 생겨났다.

이 팀장은 “전화로 모든 정보를 조회하도록 하자는 아이디어에서 출발했다”며 “일종의 자동응답시스템(ARS) 서비스의 확장판 개념”이라고 말했다.

쉽게 말해 요즘 인터넷으로 볼 수 있는 각종 정보들을 몽땅 음성을 통해 전화로 제공하자는 것이다. 그러나 인터넷과 무선 단말기의 확산과 함께 ARS 시장이 쇠퇴하면서 보이스 포털도 된서리를 맞았다.

수많은 음성인식 업체들이 줄줄이 무너졌고 벤처 창업에 뛰어들었던 이 팀장도 2005년 ETRI로 둥지를 옮겼다. 미국의 경우도 마찬가지였다. 상당수 음성인식 벤처가 문을 닫았고 살아 남은 기업들은 인수·합병을 통해 대부분 뉘앙스로 통합됐다.

로열티로 매년 1000억 원 해외로

뉘앙스의 강력한 파워는 국내에서도 쉽게 확인된다. 유럽 등지로 수출되는 휴대전화에는 장애인을 배려해 음성인식 기능을 탑재하도록 의무화돼 있다. 현재 국내 휴대전화 제조사의 수출 제품에 들어가는 음성인식 기능는 대부분 뉘앙스의 기술을 사용하고 있다.

최성환 유화증권 애널리스트는 “매년 국내 제조사들이 뉘앙스에 로열티로 지급하는 비용이 1000억 원대에 달한다”고 분석했다. 이뿐만이 아니다. 현대·기아차가 북미 시장 수출용 차량에 들어가는 내비게이션의 음성인식 원천 기술도 뉘앙스가 제공하고 있다.

하지만 ETRI의 독자 기술 확보로 변화의 조짐이 조금씩 나타난다. 이 팀장은 “현대·기아차의 내수용 차량 내비게이션에는 ETRI 기술이 이미 들어가고 있다”며 “북미 수출용도 개발이 끝나 올 연말쯤 상용화가 시작될 예정”이라고 말했다.

하지만 휴대전화의 경우 문제가 훨씬 복잡하다. 제조사들은 수십 개 주요 언어를 묶어 휴대전화에 패키지로 집어 넣어 수출하기 때문이다. 한국어와 영어뿐만 아니라 주요국 언어를 모두 커버할 수 있어야만 대체를 시도해 볼 수 있는 것이다.

최근 음성인식의 르네상스를 이끌고 있는 주역은 단연 스마트폰이다. 권오욱 충북대 교수는 “스마트폰은 음성인식 기능이 제대로 활용될 수 있는 최적의 환경을 만들어 준다”고 말했다.

스마트폰을 들고 다니다 그때그때 필요한 정보를 검색하고 e메일을 보내는데 음성인식만큼 매력적인 유저 인터페이스가 없다는 것이다. 더구나 스마트폰은 데이터 전용 채널을 쓰기 때문에 훨씬 빠르고 정확하게 데이터를 주고받을 수 있는 장점도 갖고 있다.

최근 모바일 음성 검색의 정확성이 몰라보게 향상된 데는 클라우드 컴퓨팅(인터넷 기반 컴퓨팅 기술)의 등장도 한몫했다. 이를테면 스마트폰 안에 음성인식 시스템 전체가 내장돼 있는 것이 아니라 스마트폰은 음성 신호를 받아 무선 인터넷으로 이를 해당 서비스 업체 서버로 전송하는 역할만 수행한다. 이렇게 되면 보다 강력한 연산장치와 방대한 저장 공간을 활용할 수 있어 음성인식의 정확성은 훨씬 정교해진다.

ETRI가 음성인식에 이어 심혈을 기울이고 있는 분야는 자동 번역이다. 김영길 언어처리연구팀장은 “한국어-중국어, 한국어-일어 관련 번역 기술은 ETRI가 최고 수준”이라고 말했다.

100% 완벽하지는 않지만 실시간으로 정보 파악이 필요하거나 대량의 문서를 빠르게 봐야 하는 경우 특히 유용하다는 평가다.

ETRI가 개발한 자동 번역 모델은 이미 기술이전을 통해 2005년부터 상용화가 이뤄지고 있다. 엘엔아이소프트는 과학기술 논문 자동 번역 서비스를 운영하고 있고, 시리우스소프트는 특허청과 함께 특허 문서 자동 번역 서비스를 제공한다.

모두 정확한 번역보다 빠르게 방대한 분량의 자료를 훑어봐야 하는 분야라는 공통점을 갖고 있다. 김 팀장은 “중국어 자동 번역도 이제는 상용화가 가능한 수준에 올랐다”고 말했다. 실제로 중국어 홈페이지를 자동 번역해 본 결과 큰 어려움 없이 내용 파악이 가능했다.

음성인식과 자동 번역 기술에 음성 합성 기술까지 더해지면 자동 통역 시스템이 만들어진다. 머리 아프게 외국어 공부를 하지 않아도 외국인과 자유롭게 대화할 수 있는 꿈같은 일이 현실화되는 것이다.

------------------------------------------------------------------------------------
인터뷰이윤근 한국전자통신연구원 음성처리연구팀장

“스마트폰 보급이 새로운 르네상스 촉발”
말만 하면 검색 ‘척척’…응용 분야 ‘확산’
요즘 이윤근 한국전자통신연구원(ETRI) 음성처리연구팀장은 몸이 두 개라도 모자랄 정도다. 이날도 인터뷰가 끝나자마자 다음커뮤니케이션 개발팀과의 업무 협의를 위해 서둘러 제주 출장을 떠났다.

지난 6월 9일 론칭한 음성 검색 서비스의 보완점을 논의하기 위해서다. 최근 연구원이 개발한 음성인식 기술에 관심을 갖는 곳은 다음뿐이 아니다.

파인디지털도 기술이전을 통해 음성인식 내비게이션을 선보였고 파란닷컴을 운영하는 KTH는 ‘모바일 맛집 검색’에 이 기술을 활용하고 있다.

기술이전은 어떻게 이뤄지나.

음성인식 기술은 ETRI가 국책 사업으로 개발한 것이다. 첨단 기술을 개발해 국내 기업에 이전하는 것은 ETRI의 중요한 사명 중 하나다.

포털 업체는 다음이 처음이지만 다른 분야는 그동안 기술이전이 많이 이뤄져 왔다. 그중에는 상품화에 성공한 것도 있고 그렇지 못한 것도 있다. 기술이전료는 로열티 개념인데 굉장히 저렴한 수준이다.

해외 업체와 비교해 기술 수준은.

음성인식 엔진은 대부분 큰 차이가 없다. 한국어 인식에서는 ETRI가 가장 앞서 있다고 자부한다. 다음도 해외 업체를 포함해 다양한 음성인식 엔진을 충분히 비교 검토하고 나서 ETRI를 선택한 것이다. 영어 인식의 경우 아직은 미흡한 점이 있다.

핵심 기술은 같지만 다양한 상황에서 많은 사람의 영어 음성을 녹음한 데이터베이스를 구축해야 하는데, 이 부분이 과제다. 음성인식 엔진은 아무래도 ‘네이티브 스피커’들이 개발하는 게 유리하다.

최근 음성인식 기술에 획기적인 진보가 있었나.

음성인식의 기술 자체는 한순간에 도약할 수 있는 분야가 아니다. 조금씩 꾸준하게 발전한다. 물론 과거 10년을 돌아보면 엄청나게 발전한 것은 사실이다. 과거에는 단어만 인식했지만 지금은 문장까지 가능하다. 남녀노소 누가 말하든 화자에 관계없이 인식할 수 있다.

상당 부분 대량 연산과 저장이 가능하도록 하드웨어 성능이 획기적으로 개선됐기 때문이다. 최근 음성인식 기술에 새로운 활력을 불어넣은 것은 말할 것도 없이 스마트폰의 등장이다.

연구 과정에서의 어려움은.

가장 중요한 문제는 투자다. 미래 성장성이 크다는 것은 모두 알고 있지만 음성인식 시장은 아직 완전히 열리지 않았다. 이런 상황에서 10년 정도 정부가 계속 투자해 온 것이다. 이런 투자를 계속 끌고 가려면 핵심 기술 개발도 중요하지만 사업 실적도 따라줘야 한다.

대전= 장승규 기자 skjang@hankyung.com