[한국의 스타트업] “원천 기술만 있으면 할 수 있는 것 많죠”

이상호 다이알로이드 대표


언젠가는 내가 말만 하면 모든 스마트 기기가 아니, 전자 제품이 척척 움직이고 반응하는 그런 세상이 오지 않을까. 인식만 잘하고 그것을 변환하는 정보처리만 잘되면 가능할 테니…. 한 걸음 더 나아가 생각만으로 움직이는 그런 정보기술(IT) 세상도 언젠가는 가능하지 않을까.

막연하게 생각해도 앞으로의 생활뿐만 아니라 산업 전반에 큰 변화를 가져올 것 같은 이런 기술은 아직까지는 해외에서 주도하고 있다. 그것도 대부분 미국 회사들이다. 오랫동안 축적된 기술력과 서비스에 대한 이해도를 바탕으로 앞서 나가는 이런 외국 업체들과 맞짱을 뜰 만한 한국 기업을 찾기는 쉬운 일이 아니다.

다이알로이드는 이처럼 아주 드물지만 중요한 기술을 개발하는 회사다. 이 회사를 설립한 이상호 대표는 2010년 12월 NHN이 네이버 모바일 애플리케이션(응용 프로그래램, 이하 앱)에서 음성 검색 서비스를 출시했을 때 그 서비스를 만든 4명 중 한 명이었고 이들 중 가장 선임자였다.


‘재밌을 것 같아’ 시작한 음성 검색

이상호 대표는 국내에서 50여 명 안팎으로 추산되는 음성 검색 기술 관련 전문가다. 특이한 전공을 한 셈이다. 동국대 전산학과 89학번인 이 대표는 1993년 한국과학기술원(KAIST) 석사과정에 입학하면서 자연어 처리를 전공으로 했다. 그가 음성 검색과 관련된 분야를 전문적으로 하게 된 것은 1995년부터다.

박사과정에 들어가면서 그는 전공으로 음성 합성을 택했다. 졸업 후 LG전자에 들어간 그가 일한 곳은 음성인식팀이다. LG전자에는 이미 그때부터 음성 인식과 관련된 팀이 있었다고 한다. 공교롭게도 이런 과정을 거치면서 그는 검색의 필수인 자연어 처리, 음성 합성, 음성인식을 모두 터득하게 됐다.

이 대표가 음성 합성 분야에서 박사과정을 밟기로 한 것에는 아주 거창한 이유가 있는 것은 아닌 듯하다. “재밌을 것 같아서” 선택했다고 한다.

“벌써 20년 전부터 음성인식, 음성 검색에 대한 이론적인 틀이 나와 있었습니다. 다만 당시엔 기술적으로 처리할 만큼 중앙처리장치의 속도가 빠르지 못했고 관련 음성 데이터베이스(DB)도 충분하지 못했습니다. 음성 합성을 통해 기계가 사람이 말하는 것처럼 운율을 생성할 수 있다면 재미도 있고 쓰일 곳도 많을 것 같았습니다.”

하지만 그의 생각과 달리 음성인식을 상업화하는 모델은 쉽게 만들어지지 않았다. 결함도 많았다. 시장은 아직 멀어 보였다. 2004년 LG전자를 나온 이 대표는 한국산업기술대에서 교수로 일하기 시작했다. 그가 교수 생활을 하던 시절, 국내에서 NHN의 검색 포털 네이버가 다음을 제치고 1위에 올랐고 해외에서는 구글이 급성장하고 있었다. 이런 세상을 보면서 ‘아직 늦지 않았으니 검색 분야에 다시 도전해 볼까’하는 생각을 하던 차에 한 사람이 그를 찾아왔다. 장병규 네오위즈 창업자였다.

2005년 장병규 사장은 검색 기술 개발 업체 첫눈을 설립하면서 이 대표에게 함께하자고 말했다. 첫눈에 합류하면서 그의 인생은 다시 달라졌다. 검색 기술을 개발하는 일을 직접 하고 첫눈에 NHN에 팔리면서 그는 NHN에서 본격적으로 검색 업무를 맡게 됐기 때문이다. 하지만 머지않아 그의 전공 분야에서 기회가 다시 찾아왔다.

NHN에 있던 2010년 7월. 이준호 NHN 최고기술책임자(CTO)가 ‘음성 검색 기술을 새로 개발하라’는 지시를 내렸다. 이 대표를 비롯해 4명이 투입됐다. 4개월여의 기간 동안 씨름한 끝에 그해 말 네이버 음성 검색이 나왔다. 물론 네이버에서는 그전부터 음성 검색을 제공하고 있었지만 품질이 좋지 않다는 지적을 많이 받아 왔다. 하지만 이상호 대표팀이 만든 음성 검색에 대해선 외부의 평가뿐만 아니라 그도 자부심을 가질 정도로 훌륭했다.

“제가 석사 1학년 때인 1993년 IBM에서 인터넷 문서를 통계적 방식으로 돌려 번역하는 프레임(Frame)에 대한 논문이 나왔어요. 그런데 사실 처음에 그걸 봤을 때는 말이 안 된다고 생각했죠. 통계만으로 가능할까 싶었던 것이에요. 당시에 그만큼 DB가 많지 않았던 탓도 있었죠. 그런데 그 뒤 20년이 흐른 지금은 아직 완벽하진 않더라도 인터넷에서 쉽게 문서를 번역할 수 있거든요. 당시의 이론적인 틀이 그대로 구현된 셈이죠.”

그가 볼 때는 음성인식, 음성 합성, 음성 검색도 마찬가지다. 결국 결과물은 통계로 결정된다. 통계를 위해선 데이터가 필요하다. 20년 전에는 힘들었지만 이제는 조건이 다 갖춰졌다. 진짜 음성 검색을 해 볼만한 시기가 된 것이다.

“20년 전에는 리얼타임의 10배 원칙이 적용됐었죠. 즉 2초 동안 말하면 그것을 인식하는 데 20초가 걸렸죠. CPU 성능 때문이기도 하고 단말기의 문제도 있었죠. 그런데 속도가 점점 빨라지고 통계를 돌릴 만한 데이터가 축적되면서 거의 실시간에 가까운 음성 검색이 가능해진 것이에요. 단말기에서는 음성을 수집만 하고 실제 음성인식 및 합성은 서버에서 다 이뤄지면서 오늘날의 음성 검색 서비스가 완성된 겁니다.”

네이버에서 제대로 된 음성 검색 서비스를 만든 이 대표. 아이폰이 2011년에 시리를 출시하면서 음성인식과 관련된 서비스 시장이 본격적으로 문을 열었다. 그로서는 본격적으로 실력 발휘를 할 기회가 온 것이다. 하지만 얼마 안 돼 회사를 나왔다. 왜 그랬을까.

“NHN이 예전만큼 음성 검색에 관심을 갖지 않는 것 같다는 생각도 있었습니다. 하지만 그게 중요한 이유는 아니었어요. 더 중요한 이유는 따로 있었습니다.”



“내가 만든 기술을 모든 사람이 쓰는 걸 보고 싶었다”

‘내가 만든 기술이 사람들에게 널리 쓰이고 싶다는 것. 그것을 책임지고 해 보고 싶다는 것’이 이 대표가 NHN을 박차고 나와 창업하게 된 가장 중요한 이유였다. 물론 시리가 나오고 사람들이 이에 열광하는 것을 보며 “아 이제 시장이 열렸구나”라는 확신을 갖게 된 것도 중요했다.

다이알로이드(Dialoid)라는 회사 이름은 대화(Dialogue)와 로봇(Android)의 조합으로 만든 말이다. 말 그대로 대화를 하는 로봇이란 뜻이다. 스마트폰에서의 음성인식이나 검색 수준을 뛰어넘어 인간과 대화를 나누고 문맥을 파악하고 공감하는 그런 기술을 개발하겠다는 꿈이 서려 있다. 그래서 이 회사는 기술 개발에 올인한다. 구체적인 서비스를 직접 만들지는 않는다. “원천 기술을 확보하는 게 제일 급합니다.”

멤버는 이 대표를 비롯해 4명의 NHN 출신 개발자 등 총 5명으로 구성됐다. 9월에 1차적으로 기술을 개발해 완성하는 게 목표다. 이 기술은 API 형태로 공개된다. 이 기술을 이용해 다양한 서비스에 활용하는 것은 다른 업체들의 몫이다.

과거 PC 시대에는 명령어를 입력해야 했다. 명령어를 외워 입력하지 않으면 컴퓨터와 대화를 나눌 수 없었다. 대화를 나눌 수 없으면 아무것도 할 수 없다. 아이콘 방식으로 클릭하면 되는 그래픽 유저 인터페이스(GUI)가 나오면서 컴퓨터와의 대화는 좀 더 쉬워졌다. 터치형은 아이콘을 기반으로 하되 추가적인 부가물 없이 바로 쓸 수 있게 만들었다는 점에서 지금 대세가 된 방식이다. 시각과 촉각 다음으로는 인간의 대화에서 가장 중요하고 기본이 되는 음성 기반의 유저인터페이스가 이을 것으로 예상된다. 다이알로이드는 바로 이 대화형 인터페이스 기술을 개발하고 있는 한국의 아주 드문 벤처기업이다.

“최소한 한국어에 있어서만큼은 세계 어떤 회사가 만든 것보다 우수한 음성인식 기술을 만들어야죠. 원천 기술만 확보하면 할 수 있는 것은 많습니다. 다만 기본에 충실한 게 어려운 거죠. 인간을 유심히 탐구하면 답이 나옵니다. 결국 인간에 대해 깊이 탐구해 이를 컴퓨터에 가장 유사하게 시뮬레이션할 수 있느냐가 관건입니다.”


임원기 한국경제 경제부 기자 wonkis@hankyung.com
사진 김기남 기자 knk@hankyung.com
상단 바로가기