인터뷰 - 마이크 슈스터 구글 음성인식총괄 연구원

“인간의 인식 능력 추월 머지않아”
구글이 음성 검색으로 또 한 번 한국 시장 공략에 나섰다. 지난 6월 16일 역삼동 구글코리아 본사에서 처음 공개한 이 회사의 한국어 음성 검색 서비스는 기대 이상의 성능을 선보였다.

‘월드컵 북한 경기 결과’, ‘80평방미터는 몇 평’과 같은 비교적 긴 문장을 말해도 원하는 결과를 2~3초 만에 정확하게 찾아내 보여줬다.

음식점을 물으면 지도를, 사진을 찾으면 이미지를 첫 번째 검색 결과로 제시하는 기능도 인상적이다.

마이크 슈스터 구글 음성인식총괄 연구원은 “긴 문장으로 100건 정도 직접 검색해 보면 다른 서비스와의 ‘퀄리티’ 차이를 느낄 수 있다”며 “음성 검색은 재미있고 색다른 경험을 줄 것”이라고 자신했다.

세계적인 음성 검색 전문 기업 뉘앙스커뮤니케이션즈 출신인 그를 만나 음성 검색 시장 동향에 대해 들었다.

영어·중국어·일본어 등에 이어 한국어가 8번째 서비스다. 개발 과정의 어려움은 없었나.

모든 언어가 기초 기술은 거의 동일하다. 다만 각각 독특한 특징이 있다. 영어는 글자만 보고 발음을 정확하게 예측하기 힘들다. 일본어는 띄어쓰기가 없기 때문에 단어가 어디에서 끝나는지 파악하기 어렵다. 같은 문자가 여러 발음을 가진 경우도 있다.

한국어는 낱말과 발음을 담은 매핑 사전이 없어 백지 상태에서 새로 시작했다. 다행히 한국어는 명확한 문자 체계를 갖추고 있어 시간이 오래 걸리지 않았다. 3개월 전 시스템이 막 개발됐을 때 집에서 테스트하기 위해 말한 첫 단어는 ‘독일 맥주’였다. 실제로 검색 결과가 정확하게 나와 놀라고 기뻤다.

구글이 확보하고 있는 한국어 음성 데이터는 어느 정도인가.

일반적으로 음성 데이터가 많을수록 음성인식의 정확도가 높아진다. 구글은 음성학 모델링에 100여 시간 분량의 한국어 녹취 데이터를 사용한다. 언어 모델을 위해서는 수년간 누적된 수백만 개의 검색 쿼리 데이터를 사용했다.

이러한 데이터들은 빠른 속도로 늘어나고 있다. 음성인식에는 데이터의 양뿐만 아니라 테크놀로지 자체도 굉장히 중요하다. 구글은 풍부한 경험을 가진 개발자들을 확보하고 있다.

다른 음성인식 업체들에 견줘 구글의 경쟁력은.

음성인식은 일종의 표준 기술이다. 뉘앙스나 IBM, 구글은 유사한 기술을 사용한다. 하지만 좀더 정확한 음성인식 검색 결과를 얻으려면 시스템 전체를 처음부터 끝까지 꿰뚫어 보는 능력이 중요하다.

그래야 어떤 파라미터가 중요한지 알 수 있다. 구글은 음성인식 기술을 스마트폰이라는 디바이스에서 제대로 구현하는 데 필요한 모두 것을 직접 컨트롤한다. 뉘앙스나 다른 업체에는 불가능한 일이다.

음성인식 기술의 최근 흐름은.

과거에는 대학이 기술 개발을 주도했다. 많은 곳이 독자적인 음성인식 기술을 갖고 있었다. 그러나 기술 자체가 복잡해지고 더 많은 인력과 컴퓨터, 데이터베이스가 필요해지면서 규모가 큰 기업들이 뛰어들었다. 이는 반도체 칩과 동일한 패턴이다. 과거에는 대학마다 반도체 칩을 개발했지만 이제는 인텔이나 AMD 같은 소수의 거대 기업만 이를 생산하지 않나?

음성인식 기술이 다른 서비스에도 적용되나.

미국에서는 음성인식 기술을 이용해 단문문자서비스(SMS)나 e메일을 보내는 서비스가 인기를 끌고 있다. 구글도 영어로는 이러한 딕테이션 기술을 확보하고 있다. 마이크로소프트도 마찬가지다.

구글의 강점은 안드로이드라는 독자적인 운영체제를 갖고 있어 단말기와의 통합이 유리하다는 점이다. 또한 G메일이나 구글독스 같은 서비스가 있어 음성인식 기술을 응용할 수 있는 분야가 굉장히 넓다.

음성인식 기술이 어디까지 발전할까.

테스트용 데이터들을 외부에 맡겨 사람이 일일이 음성파일을 듣고 그걸 문자로 옮기는 작업을 했다. 받아쓰기를 하는 분들도 자신이 가보지 못한 도시의 낯선 상점 이름은 한 번 들어서는 잘 알아듣기 힘들다.

그런데 음성인식 시스템은 그것까지 정확하게 인식한다. 아마도 미래에는 음성인식 기술이 평균적으로 인간보다 더 정확한 인식능력을 갖게 될 것이라고 본다.

장승규 기자 skjang@hankyung.com