테크놀로지 제 1294호 (2020년 09월 16일)

[AI 이야기] ‘영어에서 벵골어까지’...19개 언어 간 자동 번역, 어떻게 가능했나

기사입력 2020.09.15 오전 09:51

[AI·TECH] 카카오의 AI 이야기
- 번역 위해선 342개 모델 학습 필요…구글 방식 적용 모델 수 줄이고 영어를 매개 언어로 사용

카카오 i 번역 사이트

카카오 i 번역 사이트


[배재경 카카오엔터프라이즈 AI기술팀 컨텍스트파트장 카카오엔터프라이즈 기술블로그 Tech&(테크앤)]카카오엔터프라이즈의 5개 인공지능(AI) 엔진 중 하나인 번역 엔진은 기술과 카카오가 축적한 노하우로 ‘카카오 i 번역’ 서비스를 제공하고 있다. 2018년 오픈 당시 처음 6개 언어로 시작한 번역 서비스는 현재 총 19개(한국어·영어·일본어·중국어·베트남어·인도네시아어·프랑스어·독일어·스페인어·포르투갈어·러시아어·이탈리아어·네덜란드어·터키어·태국어·말레이시아어·아랍어·힌디어·벵골어)에 이르는 언어 간 번역을 지원한다.

학습해야 하는 모델 관점에서 본다면 지원 언어의 개수를 늘리고 모든 언어 쌍 간의 번역 기능을 제공하는 것은 결코 간단한 문제가 아니다. 예를 들어 ‘한국어-영어’라는 하나의 언어 쌍만 다룬다면 ·2개의 학습 모델이 필요하지만 여기에 중국어를 추가하면 총 3×2개(한영·한중·영한·영중·중영·중한)의 모델이 필요하다. 즉 n개의 언어라고 가정하면 총 n×(n-1)개의 학습 모델이 필요하게 되고 19개 언어를 지원하기 위해서는 총 342개의 모델을 학습해야 한다는 계산이 나온다. 
어떻게 342개나 되는 모델을 학습할 수 있을까. 카카오는 40여 개의 모델만으로 모든 19개 언어 쌍 간의 번역을 지원하도록 작업했는데 여기에 사용한 몇 가지 해결책은 다음과 같다. 

◆구글의 Zero-Shot Translation 방식 적용

첫 번, 여러 언어를 하나의 모델로 함께 학습시키는 방법인 ‘제로샷 번역(Zero-Shot Translation)’에서 해답을 찾았다. 이 방식은 구글에서 2016년 발표한 논문에 상세히 기재돼 있는데 요약하면 기존 모델과 동일하게 사용하되 어떤 언어로 번역할지 방향을 지시하는 메타 토큰을 하나 더 추가하는 방법이다. 논문에서는 ‘다대일(Many to One)’·‘일대다(One to Many)’·‘다대다(Many to Many)’ 등 세 가지 방식으로 모델을 학습시키고 그 성능을 비교했는데 그중 다대일 방식을 사용하면 성능이 약간 향상된 결과가 나타났다. 다양한 언어 사이에 존재하는 여러 공통된 번역 규칙이 서로 보완적으로 작용해 데이터 세트를 늘리는 것과 유사한 효과가 나타난 것이다. 따라서 다대일 방식은 주로 학습 데이터가 부족한 언어일 때 효과적이라는 결론에 도달할 수 있다.

반면 일대다 또는 다대다 방식을 사용하면 학습 성능이 향상됐다고 보기 어려웠다. 이것은 예측 확률과 관련이 있다. 

하지만 다대다 방식에도 한 가지 장점이 있었는데 입력된 문장에 여러 언어가 섞여 있어도 번역할 수 있다는 것이다. 예를 들어 중국어와 영어가 섞여 있는 문장을 한국어로 번역할 수 있는데 이는 기존의 단일 언어 쌍으로만 학습해서는 얻을 수 없는 결과다. 더 독특한 것은 학습 데이터가 전혀 없던 언어 쌍 간의 번역이 어느 정도 이뤄진다는 사실이다. 예를 들어 영어·한국어·영어·일본어에 해당하는 학습 데이터만을 사용해 다대다 방식으로 번역 모델을 학습시키면 일본어·한국어 학습 데이터가 없음에도 불구하고 해당 언어 간 번역이 가능하다. 논문 저자는 이를 진정한 의미의 ‘전이학습(transfer learning)’이라고 표현하고 있는데 이를 통해 카카오는 신경망 기계 번역인 NMT(Neural Machine Translation) 모델의 잠재력을 한 번 더 확인할 수 있었다.

결론적으로 카카오 AI 기술팀에서는 다대다 방식을 사용해 학습해야 하는 모델 수를 줄였다. 다만 작업의 편의성을 위해 다양한 언어 쌍을 적용하지 않았고 같은 언어 쌍에 해당하는 두 모델(예를 들어 힌디어→영어, 영어→힌디어)을 별도의 모델을 통하지 않고 한꺼번에 학습시키는 방법을 사용했다. 즉 ‘이대이(2 to 2) 방식’이라고 할 수 있는데 이 방법의 장점은 별도의 메타 토큰(번역 방향 지시 토큰)이 필요하지 않다는 것이다. 이대이 방식을 사용해 카카오는 처음 의도한 바와 같이 학습해야 할 전체 모델 수를 반으로 줄일 수 있었다. 

자료 : 카카오엔터프라이즈 기술블로그 Tech&(테크앤)

자료 : 카카오엔터프라이즈 기술블로그 Tech&(테크앤)


◆특정 언어와 제3 언어의 연결

학습해야 할 모델 수를 줄이기 위한 둘째 방법은 특정 언어를 매개로 제3 언어들을 연결하는 것이다. 예를 들어 힌디어·베트남어 사이의 번역은 어떻게 지원할 수 있을까. 안타깝지만 힌디어·베트남어의 직접적인 병렬 말뭉치(parallel corpus), 즉 원문과 대역문을 모아 놓은 언어 자료를 구하기가 매우 힘들다. 거의 없다고 보는 편이 나은 상황이다. 하지만 영어·베트남·영어·힌디어는 상대적으로 데이터가 풍부해 모델을 만들 수 있다. 즉 영어를 매개로 두 번 번역할 수밖에 없는데 힌디어에서 영어로, 다시 영어에서 베트남어로 가는 방식이다. 물론 이는 시간이 두 배로 걸리고 한 번 번역할 때 생긴 오류가 중첩돼 부적절한 결과가 나올 확률이 높아지는 문제도 있다.

따라서 한국어 또는 영어가 포함되지 않는 언어 쌍에 대한 번역은 영어를 매개로 간접적으로 번역하는 방식을 채택했다. 한국어가 포함된 번역은 간접적인 방식으로 처리해서는 만족할 만한 성능을 확보하기 힘들었기 때문에 한국어 기준 번역에서는 모든 언어 쌍 간의 모델을 직접 학습시켰다. 이 방식을 거치면 최종적으로 필요한 모델의 수는 40여 개로 줄어들게 된다. 고려해야 하는 모델의 수는 이렇게 줄였는데 그렇다면 영어 기준이거나 한국어 기준의 학습 데이터인 40여 종류의 병렬 말뭉치는 어떻게 확보했을까. 

사실 영어 기준 데이터는 공개된 데이터를 수집하는 방식으로도 제법 많이 확보할 수 있다. 하지만 한국어는 상황이 다르다. 한국어 기준의 데이터로는 한국어·영어의 병렬 말뭉치도 부족할 뿐만 아니라 그 외의 언어들은 더욱 구하기 어렵다. 이에 따라 여기에서도 영어를 최대한 활용했다. 전 세계적으로 영어가 가장 널리 쓰이고 있어 영어 기준의 언어 쌍에 대한 학습 데이터를 가장 많이 확보할 수 있고 결국 영어가 포함되는 언어 쌍 간의 번역 성능이 좋을 수밖에 없기 때문이다. 

우선 영어 기준의 데이터를 통해 영어 기준 번역 모델을 모두 학습시켰다. 그런 다음 카카오에서 자체적으로 보유하고 있는 한국어·영어의 병렬 말뭉치 속 영어 문장들을 영어 기준 번역 모델에 적용했는데 이를 통해 한국어와 제3 언어 간의 병렬 말뭉치를 확보할 수 있었다. 이후 일차적으로 확보한 병렬 말뭉치에서 여러 정제 작업을 진행하고 부적절한 문장 쌍을 최대한 제거한 후 최종 학습 데이터에 포함하는 과정을 거쳐 순수 병렬 말뭉치 규모의 한계를 많이 극복할 수 있었다.

각 언어별로 많은 이슈들이 있었지만 대체로 위와 같은 방식을 통해 학습 데이터를 구축하고 모델을 학습해 19개의 언어 쌍 간 번역을 가능하게 만들었다. 추가된 언어의 번역 성능 또한 대부분의 언어와 비교해도 우위에 있다고 평가됐다.

현재 기계 번역의 성능은 매우 높지만 문화가 다른 언어 사이의 번역에서는 여전히 한계를 보인다. 사람이 새로운 언어를 배우는 것과도 유사한데 한국 사람이 한국어와 가장 유사한 언어인 일본어를 비교적 쉽게 배우고 영국인이 서유럽 언어들은 쉽게 배우는 반면 한국 사람이 영어를 배우거나 서유럽인이 아시아의 언어를 배우는 것은 상대적으로 어려운 것과 같다. 일례로 흔히 한국 사람이 영어를 배우면서 어려움을 겪는 상황 중 하나는 ‘예, 아니오(yes, no)’로 대답해야 하는 경우다. 

기계 번역에서도 이런 문제가 학습에 영향을 미친다. 확률 모델을 따르는 인공 신경망은 ‘예스(Yes)’는 ‘예’로 ‘노(No)’는 ‘아니오’로 학습하게 된다. 하지만 정확하게 번역하기 위해서는 이전 문장의 질문을 참고해 그에 맞게 번역해야 한다. 모델이 이런 경우를 제대로 학습하기 위해서는 상당히 많은 규모의 부정 의문문과 그에 대응하는 답변이 학습 데이터에 포함돼야 하며 단순한 문장 단위의 학습을 넘어서는 실험이 이뤄져야 한다. 

기계 번역 서비스에서 단기간 내에 전문 번역가 수준의 번역이 이뤄지지는 않을 것이다. 이는 약한 인공지능(AI)의 제한된 기능을 뛰어넘어 더 발달된 AI인 AGI(Artificial General Intelligence)의 영역이기 때문이다. 미래 어느 순간에 기계 번역에서 발생하는 여러 문제가 완전히 해결된다면 그것은 곧 AGI 시대의 도래로 볼 수 있을 것이다. 카카오i 번역 서비스는 조만간 업데이트를 통해 품질을 더욱 고도화할 예정이다.

[본 기사는 한경비즈니스 제 1294호(2020.09.14 ~ 2020.09.20) 기사입니다.]


당사의 허락 없이 본 글과 사진의 무단 전재 및 재배포를 금합니다.

입력일시 : 2020-09-15 14:55