현대증권에 ‘보이스탁’ 구축, 자연어 인식기술 뽐내 … 금융·항공부문 ARS 대중화 박차

“현대상선의 현재가를 알려주세요.” “현대증권 OOO주를 OOO원에 사 주세요.” “4월30일 현재가가 얼마죠?” “예수금 내역은요?”증권사 객장에서 고객이 담당직원에게 요구하고 있는 게 아니다. 벤처회사에 근무하는 개미투자자 이상제(30) 대리는 전화를 걸어 증권사 자동응답시스템(ARS)에 대고 이렇게 주문을 낸다. 그러면 신기하게도 이 시스템이 이대리가 말하는 족족 다 알아듣고 재빠르게 모든 처리를 해준다. 이대리는 요즘처럼 시장이 안 좋을수록 손실을 최소화하려면 더욱 순발력있게 확실한 주문을 내야 하기 때문에 전화로 주식거래를 한다.바쁜 시간을 쪼개도 증권사 객장을 방문할 틈이 없고 유무선 인터넷으로 하는 트레이딩도 더디거나 미덥지 않다면 이처럼 말로 하는 주식거래만큼 좋은 게 없다.현대증권이 현재 서비스중인 음성인식 증권 거래 시스템 ‘보이스탁(Voistock)’은 음성인식 솔루션개발전문 벤처기업 메텔(www.metel.net 대표 김의숙)이 구축해놓은 것. 메텔은 전화번호 ‘1588-9272’로 바로 연결할 수 있는 이 시스템을 지난 2월 현대증권에 50억원을 받고 납품했다.대화체 음성인식 기술을 증권 거래에 적용한 이 시스템을 이용하면 휴대폰이나 전화기에 대고 말만 하면 그대로 증권 거래를 할 수 있다. 따로 종목명을 외우거나 ARS 안내 멘트를 지루하게 들을 필요도 없다. 30초 안에 주문에서 거래까지 모두 마칠 수 있기 때문. 계좌번호(주민등록번호)와 비밀번호도 말로 불러주기만 하면 돼 운전중에도 핸즈프리 휴대폰을 통해 마음껏 서비스를 이용할 수 있다.미국 스피치웍스사와 공동 개발메텔은 그동안 증권 거래에 부분적으로 적용되던 자동음성인식(Automatic Speech Recognition) 기술을 한 차원 끌어 올려 증권 거래에 관련된 모든 분야로 확대하는데 성공한 것이다. 딱딱 끊어지는 단어 정도만을 인식했던 기존 기술의 한계를 넘어 자연스런 대화체 인식이 가능토록 했다. 또 10자리 이상의 연속 숫자음도 거의 완벽하게 알아듣는다.안내 멘트 사이 사이에 언제라도 중지 명령을 내릴 수 있어 필요한 멘트만 골라서 들으면 돼 훨씬 더 신속하게 거래할 수 있다. 동시에 1천명 이상이 사용할 수 있어 불통될 걱정도 별로 없다. 최대 10만 단어 이상을 인식할 수 있어 마치 상담원에게 직접 주문 상담을 하는 것과 다를 바 없다.메텔은 음성인식솔루션 전문기업인 미국 스피치웍스사(SpeechWorks)와 공동으로 이 보이스탁을 개발했다. 스피치웍스사가 제공한 음성인식 엔진 알고리즘을 기반으로 광운대 영남대와 연구진들이 함께 한국어를 알고리즘에 최적화하는 방법을 찾아낸 것. 데이터 수집과 언어 파형분석 디지털 부분을 연구를 위해 약 1년여 기간동안 10억원의 개발비를 쏟아부었다.메텔의 김영철 사업본부장은 “증권 거래시 기존의 ARS나 스마트폰, 단말기를 이용하는 경우 종목 코드를 사전에 알아야 하고 여러 번 자판을 누르는 등 번거로움이 많았다”며 “보이스탁은 이러한 불편을 말끔히 해소해준다”고 설명한다.음성인식과 인증 기능이 통합된 것이 화자인증, 즉 말하는 사람의 음성을 분석해 인증해주는 것이다. 이 화자 인증은 보안과 같은 특정 분야에 이용되는데 음성 인증 보안솔루션이 화자 인증을 이용한 대표적인 제품. 보안분야와 마찬가지로 금융거래에서도 화자의 말을 오인할 경우 고객에게 큰 피해를 미칠 수 있기 때문에 그만큼 오차를 최대로 줄여야 하는 어려움이 있다. 고도의 첨단 기술을 필요로 하기 때문에 상대적으로 기술력이 낮은 기업들은 진입하더라도 시장에서 살아남기 힘들다.물론 음성인식 기술에 대한 알고리즘이 공개돼 있긴 하지만 사업성이 보장되는 90% 이상의 인식률 수준을 맞춰내려면 그만큼 해당 언어에서 나올 수 있는 모든 샘플들을 데이터로 확보해야만 한다. 이 때문에 국내 음성 정보시장은 아직 초보 단계다. 그러나 올해를 기점으로 작년 대비 약 20배에 달하는 3천억원 규모의 관련 시장이 형성될 것으로 관련 업계는 내다보고 있다. 특히 음성인식 기술이 컴퓨터 전화 통합(CTI), 종합 메시징 시스템(UMS), 전자책, 지리정보시스템(GIS), 완구, 게임 등에 가공된 형태로 이어지면서 새로운 부가가치를 창출할 수 있어 초기에 시장을 선점하는 게 관건이다. 사업 영역 역시 다양해 음성게임 교육 딕테이션 반도체칩 보안솔루션 사이버 캐릭터 음성번역 음성 브라우저 음성게시판 음성정보서비스 음성포털 서비스 인터넷TV 장난감 전자사전 전자상거래 e북 휴대폰 홈 오토메이션 PDA UMS 서비스 등으로 빠르게 확산되고 있다.메텔은 증권거래에 이어 항공권, 철도권, 금융권의 ASR 분야에도 진출할 참이다. 그 동안 타업체들이 숫자음 인식에서 기술적 한계에 부닥쳐 중도하차해 왔지만 메텔의 자연어처리 음성인식 시스템을 활용하면 성공가능성은 매우 높다. 자연어 대화체 음성 인식 기술을 확보한 이상 전화로 서비스를 받을 고객이 있는 분야라면 어디든 적용될 수 있다.특히 국내에선 유무선 전화 인구와 인터넷 인프라가 풍부해 당장 음성정보기술을 실용화할 수 있는 환경이 무르익은 상태다. ‘빨리빨리’로 대표되는 한국인의 급한 성격을 감안할 때 음성인식 기술은 자주 통화중이고 수십 차례 버튼을 눌러야 하는 기존 콜센터의 단점을 극복할 수 있는 대안이 되기 때문이다.현재 메텔은 자체 음성인식 기술이 적용 될 수 있도록 금융이나 항공권 업계의 기업과 보이스포털 콜센터 등에 대한 시스템 구축을 협의중이다. 음성인식 시장은 컴퓨터에 익숙하지 않은 노인이나 어린아이까지도 쉽게 사용할 수 있어 수요는 무궁무진하다.메텔은 또 아직 걸음마 단계인 국내 음성 산업 발전을 위해 학술 단체와 함께 표준화된 공동 음성 DB를 구축하고 인식 기술 교류도 추진중이다.(02)474-3737인터뷰 - 이성권 연구소장“감성까지 읽는 음성인식 구현 목표”“‘메텔(Millennium Emotional Technology Leader)’이란 회사 이름처럼 인간의 감정까지도 배려하는 기술 개발이 목표입니다.” 이성권 메텔 연구소장은 말로 다 표현할 수 없는 감정이나 느낌까지도 인식 할 수 있는 감성 공학적인 연구도 머지않아 결과가 나타날 것으로 믿고 있다. 그러나 그때까진 음성이 어떤 다른 조작보다도 기계와 사람을 연결하는 가장 편리한 도구라고 주장한다.광운대학교 컴퓨터공학과에서 음성인식 연구로 석·박사 학위를 받은 이소장은 그 동안 자동 다이얼링 시스템 구축 프로젝트를 비롯해 자동차의 ‘주행중 음성 명령 인식’이란 프로젝트도 맡아 진행했었다. 여기서 쌓은 기술력이 올해초 ‘음성인식 주가 거래 시스템’을 개발하면서 국내 음성인식 분야에서 주목받게 됐다.IMF경제위기가 시작되던 98년부터 음성인식 솔루션 개발을 준비, 99년에 본격적으로 사업에 뛰어 들었다. 한국어 전화음성 DB 구축을 위해 지역별, 연령별, 유무선, 그리고 핸드폰 서비스 업체별로 수집하고 분석했다. 기수와 서수가 혼용된 숫자음이나 날짜 및 대화체 음성인식 등에서 자연스러우면서도 사람들이 불편하게 느끼지 않도록 될 수 있는 한 오차를 줄였다. 그 결과 연속 음성 인식이나 연속 숫자음 인식 그리고 끼여들기 기능 같은 취약한 부분을 해결할 수 있었다.“현재는 음성인식 기술이 많은 한계를 갖고 있는 게 사실입니다. 그러나 보다 풍부한 데이터베이스가 구축되고 정교한 인식기가 나오면 시장은 더욱 크게 활성화될 것입니다.”이소장은 미국 등 선진국에서 이미 보편화된 음성 인식 서비스 모델을 분석해 국내 음성산업의 발전을 앞당길 계획이다.“가전, 컴퓨터, 통신 등 기존 시스템 분야에 응용될 수 있는 보다 완벽한 음성및 감성인식 기술을 개발해내겠습니다.”인간과 기계가 ‘말로 통하는’ 신정보시대의 선구자를 자처한 이소장의 다짐이다.