축적된 번역기술로 이룬 다국어 포털사이트 ‘월드맨’ 인기 … 5W2H 도입, 근접 사이트 찾기 ‘일사천리’

검색엔진 시장에 인공지능형 자연어 검색이 화제다. 검색어 창에 생각나는 대로 말하듯 입력한다는게 얼마나 편리한가. 자연어 검색 엔진에 익숙해진 사람들은 다른 검색엔진은 거들떠 보지도 않는다고 한다. 그와 더불어 자연어 검색엔진을 개발한 회사 인기도 급상승하고 있다.번역소프트웨어 업체로 잘 알려진 언어공학연구소에서 인공지능형 검색엔진을 개발해 화제다. 이 검색엔진은 언어공학연구소의 다국어 포털사이트인 ‘월드맨(www.worldman.com)’에서 서비스하는데 검색어 처리 기능에 5W 2H 방식을 도입했다. 이 방식은 입력된 문장을 언제(When) 어디서(Where) 누가(Who) 무엇을(What) 왜(Why) 얼마나(How much) 어떻게(How)라는 형태로 분석한다. 그리고 요구 조건에 가장 근접한 웹 사이트를 찾아줌으로써 검색 확률을 높여준다.예를 들어, ‘임진왜란이 일어난 연도는?’을 찾아보기로 하자. 기존의 자연어 검색 처리방식은 ‘임진왜란’ ‘연도’ ‘일어난’이라는 단어가 들어 있는 사이트는 모두 찾아내 필요없는 사이트도 검색해 준다. 즉 자연어 검색이지만 AND OR로 연결된 단위조합 형태인 것이다. 그러나 월드맨에서 지원하는 검색엔진은 문장의 단어를 5W 2H 형태로 연관시켜 핵심단어의 인덱스 파일을 만든다. 만들어진 인덱스 파일을 비교 검색해 ‘임진왜란’과 관련있는 연도가 기록된 웹사이트만을 선별해 찾아낸다. 따라서 이 방식을 채택한 자연어 검색은 국내에서 처음이며 검색엔진 수준을 한단계 높였다는 평을 받고 있다.월드맨의 장충엽대표는 “핵심단어를 인덱스 파일로 만들어 검색하게 되면 검색 속도도 빨라진다”면서 “입력된 단어라도 원하는 문장에서 필요치 않은 사이트는 제외하는 능력을 지녀야 진정한 자연어 검색엔진이라고 할 수 있다”고 설명한다.◆ 필요없는 사이트는 알아서 제외언어공학연구소가 자연어 처리 능력이 뛰어난 검색엔진을 개발하게 된 배경에는 번역소프트웨어 개발이라는 경험이 축적돼 있다. 장대표는 “그동안 다국어 번역 작업을 통해 축적된 한글 형태소 분석기와 전자사전 기술을 바탕으로 인공지능형 검색엔진을 개발하게 됐다”고 밝혔다. 언어공학연구소의 번역소프트웨어 개발은 문장의 형태소를 분석하고 유사 단어를 연관시켜 자연스런 번역을 이끌어내는 작업의 연속이다. 그 방식을 검색엔진 기능에 도입한 것이다.사실 영어 일본어 등 주어진 문장을 자연스럽게 우리말로 번역한다는 것은 모든 사람의 꿈이었다. 학창시절 영어 독해를 위해 두꺼운 사전을 옆에 끼고 힘들어 하던 기억들을 누구나 가지고 있기 때문이다. 그래서 번역 소프트웨어는 프로그램 개발자들에게는 오래된 과제중의 하나였다. 그러나 번역은 나라마다 문화가 다르고 환경에 따라 언어의 쓰임새가 수십가지로 달라져 소프트웨어가 스스로 상황을 판단한다는게 쉬운 일이 결코 아니다. 따라서 번역 소프트웨어 개발은 인공지능 문제와 뗄래야 뗄 수 없는 문제라는게 전문가들 의견이다. 지금도 사람의 능력을 지닌 완벽한 인공지능형 번역 소프트웨어 개발은 개발자들의 영원한 숙제로 남아 있다.지난 95년 8월에 설립된 언어공학연구소는 국어 영어 형태소 분석기와 영어 구문 분석기 1.0 버전을 개발하면서 본격적인 번역 소프트웨어 시장에 뛰어 들었다. 번역소프트웨어 ‘트래니(Trannie)’는 서울대 언어공학연구소와 공동으로 개발해 현재 ‘트래니2000’ 버전까지 개발돼 있다. 또 번역에 필수인 다국어 전자 사전 개발에 착수해 영한 일한 중한 등 사전 데이터베이스를 구축했다.전자사전 ‘사이버딕’은 5년여 데이터베이스 작업을 거쳐 구축된 단어가 영한 20만단어, 일한 12만단어, 중한 6만단어 등 총 2백20만단어가 수록돼 있다. 번역속도는 초당 8백자가 가능하며 일한번역의 경우 일반문서는 80% 비즈니스 문서는 95%의 번역률을 자랑한다.◆ B2B 확대로 전문분야 검색엔진도 인기또 언어공학연구소에서 심혈을 기울여 개발중인 부분이 전문분야 검색엔진 솔루션이다. 전기 전자 정보통신 화학 생명공학 의학 교육 무역 군사 등 30개 분야를 한국어 일본어 영어 중국어 대만어로 번역해 검색하게 된다. 특히 전문분야 검색엔진은 B2B 시장이 확대되면서 해당 분야 종사자들에게 더욱 인기가 높을 것으로 기대된다.최근들어 인터넷 벤처기업에 대한 기술력 보유 여부가 관심이다. 기술력없이 커뮤니티만으로 운영되는 인터넷 벤처기업들의 위기감은 시간이 지날수록 심각한 지경이다. 그런 가운데 번역기술을 비롯해 자연어 검색엔진 기술은 인터넷 벤처기업이 갖는 장점이 아닐 수 없다.인터넷시대는 전세계가 정보를 공유하는 시대다. 따라서 각 나라의 사이트를 편리하게 검색해야만 한다. 그런 차원에서 언어공학연구소가 지닌 번역소프트웨어와 검색엔진 기술은 그 쓰임새가 무한하다고 볼 수 있다.★ 인터뷰 / 장충엽 언어공학연구소 대표"인터넷시대 SW인프라 구축 한몫""지난해 11월 모 회사에서 검색엔진을 발표했습니다. 그것은 국내에서 자연어 처리 방식을 처음 도입한 검색엔진이었습니다. 그것을 접하는 순간 아차 싶었습니다. 자연어 처리 방식은 바로 저희 회사의 강점이었으니까요. 선수를 빼앗긴 셈이지요."번역소프트웨어 개발 과정이 곧 자연어 처리와 직결되므로 자연어 처리 실력은 언어공학연구소가 최고라고 자부해 왔는데 미처 그 부분을 생각지 못했다며 장대표는 당시 안타까웠던 심정을 토로한다.그 사건을 계기로 타 제품보다 기능이 뛰어난 제품 개발에 착수했다. 타 제품의 단점을 파악하고 자체 기술을 응용해 6개월여만에 새로운 자연어 처리 검색엔진을 개발하기에 이르렀다. 이미 수년동안 한글을 형태소 단위로 분석해 번역소프트웨어 개발에 주력해 온 터라 개발 속도는 일사천리로 진행됐다.장대표는 "1차 버전을 발표한 후 부족한 부분 보완에 주려가고 있다"며 "같은 이름과 같은 장소 인명을 구분할 수 있는 검색엔진 개발이 시급하다"고 강조한다."인터넷 시대 경쟁력은 인프라 구축이라고 합니다. 대개 인프라를 하드웨어적인 부분만 떠올리지요. 그러나 인터넷 검색에 필수요소인 검색엔진도 인터넷을 도와주는 인프라의 하나입니다." 장대표는 인터넷 시대에 소프트웨어 인프라 구축에 한몫을 하겠다는 포부를 밝힌다.