플리토 집단지성 AI 번역으로 바벨탑의 저주 넘는다 │ 매거진한경

[HELLO AI=이경전이 만난 AI 프런티어⑨ 이정수 플리토 대표]
- 이정수 플리토 대표 인터뷰…크라우드 소싱으로 언어 데이터 확보, 이용자 173개국 1000만 명

[한경비즈니스=정리=이현주 기자] 언어의 장벽에 도전하는 기업이 있다. 언어 데이터 기업, 플리토다. 플리토는 인공지능(AI) 번역, 음성 인식, 이미지 인식 등 언어 기반의 AI를 다룬다. 사람의 집단 지성과 AI를 결합한 번역 모델로 C2C(개인 대 개인)에서 B2C와 B2B까지 사로잡았다.

플리토(Flitto)는 언어 데이터 구축 플랫폼을 운영하는 언어 데이터 기업이다. ‘언어 장벽 없는 세상’ 실현을 목표로 2012년 집단지성 번역 서비스를 오픈한 뒤 전문 번역 및 AI 번역까지 서비스를 확장해 왔다.

플리토는 온라인과 모바일 플랫폼을 통해 전 세계 25개 언어 번역 서비스를 제공한다. 173개 국가에서 1000만 명 이상의 사용자가 해당 번역 서비스를 이용 중이다. 플리토는 2019년 7월 한국 최초로 ‘사업 모델 특례 상장’을 통해 코스닥시장에 신규 상장했다.

번역 플랫폼을 통해 확보한 언어 데이터를 기반으로 플리토는 다양한 사업 모델을 전개하고 있다. 언어 데이터를 다양한 기관과 기업에 판매하는 B2B 사업에서 성과가 두드러진다. 마이크로소프트·텐센트·NTT도코모·삼성·현대자동차 등에 데이터를 공급해 왔다.

이정수 플리토 대표는 “언어 데이터 분야에서 최고의 회사가 되는 것이 목표”라며 “플리토는 언어의 장벽을 무너뜨리는 핵심 기업으로, 언어의 장벽이 사라진 후의 엄청난 변화를 꿈꾸게 하는 가치를 제공한다”고 말했다.

이경전 교수(이하 이경전) : 자동 번역 시스템은 자체 개발했나요.

이정수 대표(이하 이정수) : 인공지능(AI) 알고리즘은 오픈 소스들을 이용해 커스터마이즈할 수 있습니다. 번역기를 만들 수 있느냐, 없느냐보다 학습된 데이터로 얼마나 정교할 결과를 낼 수 있는지가 더 중요합니다. 데이터가 많이 비싸기 때문에 대부분의 대기업에서 투자하고 있죠. 플리토는 데이터를 만드는 회사로 시작했어요. 사람에 비유하면 학습지를 만드는 회사에서 직접 아이를 낳아 가르치다 보니 좀 더 수월하게 언어 AI를 만드는 상황이 됐습니다.

이경전 : 자동화된 번역 시스템은 한영·영한 번역입니까.

이정수 : 다른 언어도 다 됩니다. 일대일로 매번 다른 알고리즘을 만들어야 하기 때문에 대부분의 AI 번역은 한영·영일 번역을 만들면 한·일을 만드는 식으로 조합을 넓혀 나가는 기술을 채택하고 있습니다. 우리도 마찬가지입니다.

이경전 : 구글 번역은 응용 프로그램 인터페이스(API)를 가져다 쓸 수 있잖아요.

이정수 : 구글 번역은 100만 자 이하의 조건에서 무료로 사용할 수 있습니다. 한국어에서 외국어로 바꿀 때는 구글 번역기를 쓰지 않고 영어에서 라틴어로 번역할 때는 구글 번역이 들어가기도 해요. 구글이 라틴어 쪽에서 강하다면 프랑스에서 탄생한 시스트란도 있고 독일에서 만든 API도 있죠. 모국어가 들어가면 정확도가 높아지는 경향이 있어 그런 것들을 테스트해 일부 섞어 운영하고 있습니다.

이경전 : 플리토의 장점은 우선 고객 접점을 만들고 유료화했다는 것입니다. 구글 번역은 B2B는 유료 모델이지만 활성화되지 않았고 번역에 사람이 개입하지 않아 완전성이 부족하죠. 그런데 플리토는 완전성이 있는 서비스를 제공하면서 유료화하고 번역 서비스를 제공하는 서플라이어까지 확보했습니다.

이정수 : AI가 사람의 일을 대체할 것이냐, 대체하지 못할 것이냐의 논의가 많이 되고 있는데 우리는 처음부터 그 논쟁이 무의미하다고 봤습니다. 결국 AI가 성장하기 위해서는 데이터가 필요한데 데이터는 사람이 만들 수밖에 없는 상황입니다. 사람이 만든 데이터를 AI에 학습시키면 그 AI 기술을 이용해 다시 사람이 더 쉽게 데이터를 만들고 이를 다시 학습시키는 선순환 구조가 돼야 합니다. 학교라는 제도가 없었을 때는 아이를 직접 집에서 가르치다가 수가 늘어나면서 한데 모아 교육하기 시작한 것처럼 처음엔 AI 번역기를 만드는 곳에서 자체적으로 데이터를 학습하다가 이제는 AI 개발 기업과 데이터 전문 기업이 나뉘는 상황입니다. 우리는 그 구조에서 데이터 판매로 매출을 일으킵니다. 또 사람을 통한 번역으로 수익을 창출하고 있습니다.

이경전 : 플리토는 수수료를 어떻게 받나요.

이정수 : 사람이 사람에게 요청하는 번역에는 수수료를 거의 받지 않습니다. 결제 업체를 쓰는데 들어가는 수수료와 부가세 정도만 포함됩니다. 그렇게 쌓인 데이터를 외부에 판매할 때 마진율을 높이는 방식입니다.

이경전 : 일부러 그렇게 설계했나요. 가격은 네고시에이션입니까, 바게닝 형태입니까.

이정수 : 수수료가 낮아야 요청하는 사람도 부담이 작고 번역하는 사람도 돈을 더 많이 받을 겁니다. 가격은 회사에서 추천하는 게 있고 개인들이 업다운시킬 수 있습니다. 회사에서 제안하는 적정선이 있는 거죠. 우리가 제안한 가격을 쓰면 우리 회사와 직접 일하는 것이거든요. 그에 있어 개런티하는 부분이 있습니다.

이경전 : 퀄리티 어슈어런스(품질 보증)이 되는 거네요.

이정수 : 우리는 플랫폼으로 연계해 주는 역할이기 때문에 요청자와 번역가 둘 사이의 분쟁이 일어났을 때 적극적으로 개입해 조정해 줍니다. 플랫폼 사업자에게 중요한 것은 제대로 요청하고 제대로 번역한다는 것을 ‘인증’해 주는 겁니다. 크라우드 소싱에서 중요한 것은 ‘신뢰’라고 보거든요. 잘못된 정보를 제공받았을 때 개인이 혼자 손해 보고 끝나면 안 되잖아요. 이를 위해 처음부터 돈을 지급하지 않고 모든 거래가 완료됐을 때 지불한다든지, 참여자들이 어느 정도 신뢰 있는 요청을 하는지 등을 확인하는 것도 회사의 역할입니다.

이경전 : 플리토를 단순히 번역 소비자와 제공자를 연결하는 플랫폼으로만 보기에는 그 이상이 있고 또 지금 상황이 급변하고 있는 것 같습니다.

이정수 : 우리가 2012년 창업했을 무렵에는 AI 번역기가 존재하지 않았습니다. 네이버 파파고가 2016년 9월 나왔고 구글 번역기에 AI가 적용된 게 2016년 10월입니다. 통계적 기법인 룰베이스에서 인공 신경망 번역(NMT)으로 바뀐 것이죠. 2012년만 하더라도 번역기는 품질이 너무 낮았습니다. 우리는 집단지성을 통하면 언어 데이터가 많이 모일 것이고 나중에는 이 데이터로 무언가를 할 수 있겠다는 생각을 가지고 있었어요. 그런데 2014년부터 AI 개발이 활발해지면서 길이 보이기 시작했습니다. 2015년 처음으로 한국전자통신연구원(ETRI)에서 만든 평창 동계올림픽 전용 통·번역기인 ‘지니톡’에 우리 데이터를 판매했습니다. 일본 최대 통신 업체 NTT도코모도 통·역기 개발을 위해 우리의 한국어·일어 데이터를 가져갔습니다. 2018년 이후로는 너도나도 AI 번역 시장과 음성 인식 시장에 뛰어들면서 데이터에 대한 니즈가 급증하게 됐습니다.

이경전 : 데이터는 한 번에 거래가 이뤄집니까, 구독형 모델을 갖고 있습니까.

이정수 : 지금까지 데이터를 계약한 회사 가운데 한 번만 거래한 곳은 거의 없습니다. 한 번 사면 계속 사게 됩니다. 우리가 보통 연간 계약을 해 필요로 하는 데이터를 계속 보내주고 연말에 정산하는 방식입니다.

이경전 : API 매출도 있습니까. 클라이언트는 예를 들면 누구인가요.

이정수 : API 매출은 올해 발생하기 시작했습니다. 시스템에 우리 자동 번역기가 들어가요. 예를 들면 SM엔터테인먼트에서도 우리 API를 사용하고 증권 회사들도 쓰고 있어요.

이경전 : 증권 회사에선 왜 번역이 필요하죠.

이정수 : 요즘 해외 투자를 많이 하잖아요. 해외 뉴스 번역은 신속하고 정확하게 합니다. 자동 번역기는 신속하지만 정확하지 않죠. 우리 API를 사용하면 처음 자동 번역은 API로 한 뒤 정확하지 않은 문장은 독자들이 집단지성 번역 요청을 할 수 있습니다. 그러면 더 나은 문장으로 바뀌고 수정된 번역을 보게 됩니다. 또 바뀐 데이터가 엔진에서 계속 학습을 통해 발전하는 구조입니다. 우리는 쉽게 보면 사람과 기계가 함께 일하는 겁니다. 의료 AI의 경우 라벨링이나 태깅(꼬리표를 다는 작업) 작업을 일반인들이 하기는 쉽지 않거든요. 그런데 언어 쪽은 누구나 참여할 수 있어요. 특히 음성 인식은 사투리로도 딕테이션이 가능합니다.

이경전 : 번역 요청을 하면 인터넷에 있는 불특정 다수에게 노출이 되나요.

이정수 : 플리토에 등록된 번역가 풀이 1300만 명 정도 됩니다. 그중 실제 번역에 참여하는 분들이 100만 명 정도 됩니다. 그 사람들에게 알람이 뜨게 됩니다.

이경전 : 노티 시스템도 효율적으로 만드셔야 될 것 같습니다.

이정수 : 맞습니다. 신뢰가 중요하기 때문에 어떤 분야 전문인지, 레벨이 어느 정도인지 등을 표기합니다. 집단지성 번역을 요청하면 3분 안에 여러 개의 답이 오는데, 번역가의 레벨이 초급·중급·고급·유창 등으로 나뉩니다. 레벨업 시스템도 있어 번역 결과를 동료 그룹 등에게 평가받아 레벨이 상향될 수도 있습니다. 하나의 요청에 4명이 답을 했다면 선택된 사람이 포인트를 가져가고 현금화할 수 있습니다. API에서는 시스템이 선택을 하고 개별 요청한 경우는 유저가 선택합니다.

이경전 : 비슷한 모델이 외국에 있습니까.

이정수 : 없습니다. 우리는 이렇게 구축한 데이터를 정제해 자동 번역 회사에 보냅니다. 우리 데이터를 쓰는 이유는 자동 번역기가 정확하지 않기 때문이죠. 번역 플랫폼을 통해 ‘원문-번역문’ 언어쌍 데이터를 수집하고 저작권을 확보하면 개당 500원~1000원 정도로 판매합니다. 번역에서 수수료를 거의 남기지 않아도 데이터 판매만으로 그 이상의 매출을 얻을 수 있습니다. 여기서 끝이 아니라 번역된 문장을 사람들에게 발화하게 합니다. 그 음성 데이터를 음성 인식기 개발 업체에 보내주면 음성 인식 기능을 향상할 수 있습니다. 현재 음성 인식기의 성능은 71% 정도에 불과합니다. 기계가 사람의 목소리를 알아듣는 인지율은 아직 낮은 수준이죠. 반면 사람은 100% 인지합니다.

이경전 : 디지털 뉴딜 사업에도 참여하나요.

이정수 : ‘데이터 댐’ 사업에 참여하고 있습니다. ‘전문 분야 한국어-영어 말뭉치 AI 데이터 구축’ 과제 주관사입니다. 말뭉치(corpus)를 만들기 위해 크라우드 소싱 방법을 활용하면 레벨에 따라 번역을 몇 차례 거치면서 정확도가 99%까지 나오고 있습니다. 일반적으로 크라우드 소싱이 데이터 정확도가 떨어질 것이라고 생각하지만 검수 체계를 잘 유지하면 정확도가 더 올라갑니다.

이경전 : 이미지 인식도 크라우드 소싱 방식으로 하나요.

이정수 : 이미지에서 글자를 추출해 디지털화하는 광학 문자 판독(OCR) 데이터도 수집하고 있습니다. 특히 식당을 운영하는 자영업자들은 간판이나 메뉴판의 글씨를 번역할 필요가 있는데 OCR이 제대로 인식했는지 사람들이 평가하게 됩니다. 그렇게 평가한 것을 다시 자동 번역기로 돌리고 다시 한 번 평가합니다. 제대로 인식했는지만 평가하면 되기 때문에 누구나 참여해 쉽게 돈을 벌 수 있습니다.

이경전 : 플리토 덕분에 돈을 버는 분들이 얼마나 됩니까.

이정수 : 월 기준으로 10만 명 정도입니다. 가장 많이 버는 사람은 월 2000만원 가까이 가져갑니다. 일반적으로는 하루 5만 포인트 정도가 상위권에 해당합니다.

이경전 : 가격 메커니즘이 잘 작동합니까. 예를 들어 참여자가 너무 많거나 반대로 번역가가 더 많거나 여러 변화가 있을 것 같습니다.

이정수 : 그 부분이 해결해야 할 숙제입니다. 요청이 너무 몰려올 때도 있고 번역가가 대기하는 경우도 있어요. 번역하는 분들은 자신의 일이 있기 때문에 번역이 잘 들어오지 않아도 크게 문제가 되지 않는데 요청에 해당하는 번역이 달리지 않는 경우는 신경을 써야 합니다. 그래서 이 경우는 시간에 따라 포인트를 더하는 방식을 쓰거나 시간대별로 포인트를 달리해 번역이 잘 안 되는 시간대에 2~3배 더 지급하는 식으로 유도하고 있습니다. 보통 실력자들이 번역을 많이 하는 편인데 특정 개수를 초과하면 50만원, 100만원을 더 지급하기도 합니다.

이경전 : 번역 요청에 대한 대응이 늦어지는 리스크를 프라이스나 인센티브로 해결하는 것이네요. 마찬가지로 기업에 데이터를 팔 때도 공급자가 늘어나면 가격 불안정성이 생길 텐데요.

이정수 : 빅데이터에 대한 정의를 우리는 ‘팔 수 있는 데이터’로 명명합니다. 아무리 데이터가 많아도 팔 수 없다면 데이터 가치가 없는 것이고 빅데이터 회사가 아니라고 생각합니다. 우리가 시작할 무렵 언어 쪽에선 빅데이터 회사가 없었습니다. 그런 상황에서 우리가 제대로 된 길을 간다면 대박이 날 테고 그렇지 않으면 쪽박이라고 생각했습니다. 어느 순간 큰 기업들이 데이터 수집을 직접 하지 않고 맡기기 시작했습니다. 데이터 수집·라벨링·검수 등에 인력이 필요하고 배보다 배꼽이 더 큰 상황이 되면서 외부 데이터 업체를 찾기 시작한 겁니다. 우리는 자연스럽게 데이터를 모아 판매하기 때문에 단가가 더 낮아지면서 데이터 판매가 가능해진 것 같습니다.

이경전 : 플리토의 자동 번역 수준도 꽤 올라가고 있나요.

이정수 : API는 번역 요청이라는 차별성이 있고 이를 통해 엔진 자체의 성능도 향상됩니다. 학습된 데이터는 플리토 엔진에도 적용하지 않고 그 기업에만 제공합니다. 데이터에 대한 저작권이 돈을 주고 산 기업에 있고 특화 데이터는 범용 데이터에 적용하기 어려운 이유도 있습니다.

이경전 : 플리토의 중·장기적 비전은 무엇입니까.

이정수 : 데이터를 많이 모을수록 재밌는 데이터가 많이 보입니다. 특이한 데이터를 어떻게 서비스로 발전시킬 수 있을지 혹은 그러한 업체에 데이터를 판매할 수 있을지 가능성을 보고 있습니다. 언어 데이터 기업으로서 가장 선진화된 회사를 만드는 게 하나의 꿈입니다. 데이터를 이용해 할 수 있는 게 무궁무진하기 때문에 ‘선택과 집중’을 잘하는 게 과제입니다.

이경전 : 너무 기회가 많아 선택과 집중을 하는 게 경영 현안이군요.

이정수 : 요즘 웹툰이나 웹소설에서도 번역을 시도하고 있습니다. 2018년 유튜브 자막 번역 서비스를 시작했는데 백종원의 요리비책, 강형욱의 보듬TV, CJ ENM 등 유명 유튜브 채널에 다국적 자막을 공급하고 있고 해당 번역물을 관리하는 PM이 지난해 3명에서 18명까지 늘어났습니다. 개그 소재로 만드는 ‘짤방(자투리 이미지 파일)’이 있는데 각 국가의 짤방을 섞어 번역 서비스를 하면 재밌는 웹사이트가 나올 것 같아요. 하고 싶은 게 너무 많은데 우선 데이터를 잘 모으면서 하나씩 시도해 보려고 합니다.

이경전 : 플리토라는 회사가 생기면서 일자리가 늘어난 셈 아닙니까.

이정수 : 우리 서비스에 참여해 수익을 올리는 번역가들의 인터뷰도 블로그에 꾸준히 올리고 있습니다. 경력 단절자나 다문화 가정에서 수익을 내는 경우도 있고 또 해외에 있는 바이링구얼(이중언어자)을 인터뷰하기도 했습니다. AI가 활성화되면 10년 뒤 없어질 직업으로 통·번역가가 꼽힙니다. 실제로는 자동 번역기가 등장하면서 사람과 사람 사이에서 언어에 대한 두려움을 없애 줬습니다. 번역기를 들고 아랍 지역에도 갈 수 있게 되고 그러면 문화에 가까워지고 또 정보의 영역에 들어갈 수 있게 됩니다. 지구가 점차 작아지면서 원서 번역에 대한 니즈도 계속 증가하고 있죠. 또 넷플릭스와 같은 온라인 동영상 서비스(OTT)가 활성화되고 유튜버들이 글로벌로 뻗어가면서 번역가가 해야 할 일은 기하급수적으로 늘어났습니다. 요즘은 스타트업에서도 처음부터 글로벌로 시작하는 곳이 많습니다. 번역 시장은 전반적으로 성장하고 있는 상황입니다.

이경전 : 확실히 최근 스타트업들은 글로벌 역량이 좋아진 것 같습니다. 그런 면에서 플리토도 기대가 됩니다.

이정수 : ‘바벨탑의 저주’인지는 모르겠지만 언어는 21세기에도 사람과 사람 사이에 가장 큰 허들로 작용하고 있습니다. 만약 언어의 장벽이 사라지면 교통이나 통신 등 인류의 역사상 다양한 빅뱅 가운데 가장 큰 혁명이 될 것이라고 생각합니다. 그 빅뱅에 우리가 숟가락 하나 얹을 수 있다면 뿌듯할 것 같습니다.”