‘아버지가방에들어가신다’…시리는 이 문장을 어떻게 이해할까 [AI 따라잡기]
입력 2020-11-03 11:18:10
수정 2020-11-03 11:18:10
[AI 따라잡기]
사람마다 발음 다르고 끊어 읽기 따라 의미 달라져…인간과 대화하는 AI 개발의 난관들
[한경비즈니스 칼럼=진석용 LG경제연구원 연구위원] 아마존·구글·애플·마이크로소프트는 각기 상이한 사업 모델을 가졌지만 방대한 고객을 확보하고 있다는 공통점을 가지고 있다. 또한 고객 기반을 활용한 사업 확장을 위해 고객과 소통하는 인터페이스로 자연어 기반의 인공지능(AI)을 보유한 점도 공통적이다.
그래서인지 인간은 말로 소통할 수 있는 대상을 더 친근하게 여기고 때로는 인간과 유사한 대상으로 간주하기도 한다. 영화 ‘아이언맨’에서 주인공 토니 스타크는 AI 자비스(Jarvis)와 대화할 때 인간을 대하듯 하고 관람객도 그 모습을 크게 불편해 하지 않는 것도 마찬가지라고 볼 수 있다.
음성 인식·이해·생성·합성
자비스처럼 인간과 말로 소통하는 인조 대리인(artificial agents)은 최근 들어 급속도로 발전하고 있다. 인조 대리인의 외형은 아마존의 에코(Echo)와 같은 스마트 스피커에서부터 스마트폰·냉장고·TV 등 가전 또는 자동차가 될 수도 있다. 인조 대리인의 외형은 다양하지만 그 핵심은 아마존의 알렉사(Alexa), 구글의 어시스턴트(Assistant), 마이크로소프트의 코타나(Cotana), 애플의 시리(Siri) 등 인간과 대화할 수 있는 음성 기반의 AI다.
AI가 인간의 말로 대화하려면 음성 인식→자연어 이해→자연어 생성→음성 합성 등 4단계 과정을 거의 스스로 처리할 수 있어야 한다. 특히 음성 기반이든 문자 기반이든 간에 인간과 대화하는 AI라면 자연어 이해와 생성의 두 단계는 반드시 필요하다.
음성 인식
인간이 소리 내는 발음을 특정 단어로 바꾸는 과정이다. 연구자들에 따르면 소리와 문자 간의 관계는 생각보다 복잡하다. 예를 들어 ‘막다’, ‘맑다’와 같이 발음은 같지만 뜻이 다른 단어는 각각 구분해야 한다. 영어의 ‘C’처럼 표기는 같지만 ‘서컴스탠스(Circumstance)’, ‘캔(Can)’ 등 단어마다 발음이 다른 것도 구분해야 한다. ‘캔(Can)’의 ‘C’와 발음이 같은 ‘킬로미터(Kilometer)’의 K도 구분해야 한다. 동일한 문자 조합 ‘Ch’는 ‘크리스마스(Christmas)’, ‘치킨(Chicken)’에서 각각 ‘ㅋ’, ‘ㅊ’으로 다른 소리를 낸다. 또 발음을 끊는 위치에 따라서도 단어가 달라질 수 있다. ‘아버지가방에들어가신다’는 문장은 어디서 끊어 발음하느냐에 따라 ‘아버지가 방에 들어가신다’와 ‘아버지 가방에 들어가신다’로 다른 단어의 조합을 구성할 수 있다. 발음은 사람마다 다르다. ‘맑다’를 ‘말다’로 발음하는 사람의 발음은 ‘밥을 말다’의 ‘말다’와 혼동될 가능성이 높다. 대화 공간에서 발생하는 주변의 소음도 발음을 문자로 변환하는 데 어려움을 가중한다. 이런 발음의 가변성은 인식의 어려움을 가중시키는 요인이다.
기술 개발 초기에 많이 사용된 음성 인식 기술은 음파 분석 결과를 표준 발음 규칙이나 문법상의 패턴과 비교해 가능성이 가장 높은 단어로 추정하는 방식이다. 우리말에서 조사 ‘은, 는, 이’ 등의 앞에 명사이자 주어가 오는 경우가 많다는 점을 활용하거나 영어에서 ‘더(the)’, ‘오브(of)’ 등의 뒤에 명사가 오는 패턴을 활용하면 해당되는 경우의 수를 압축할 수 있다. 신경망 기반의 AI가 발달한 이후 각종 방송 프로그램과 학술 강의 등의 대규모 음성 데이터를 활용해 특정 발음이 어느 단어와 일치하는지 찾는 방법을 활용함으로써 음성 인식의 정확성을 향상시키고 있다.
자연어 이해
음성과 일치하는 단어의 의미를 결정하는 과정이다. 초기에 개발된 기술은 문법 등 논리적 규칙에 따라 상호 연결되는 단어들이 조합을 이루는 방법을 적용해 단어나 구절의 의미를 정하는 방식이었다. 한글을 예로 들면 주어·목적어·보어·서술어가 문장 구성의 기본 요소이고 ‘을’과 ‘를’ 등의 조사와 결합된 명사를 목적어나 보어로 인식하도록 하는 규칙을 적용한다는 것이다. 규칙 기반의 이해 방식은 한계가 컸다.
복수의 의미를 가진 단어가 많기 때문이다. ‘먹다’란 단어만 보더라도 음식에서부터 나이·점수·욕 등 관념적인 평가와 기준 등이 모두 먹는 대상이 될 수 있다. 점수를 따거나 잃는 상반된 경우도 모두 ‘먹다’로 표현된다. 여러 의미를 가질 수 있는 단어들이 모인 조합인 구절과 문장이라면 경우의 수는 더욱 많아진다. 5가지 의미를 가진 단어 두 개로 된 구절은 이론상 25가지의 의미를 가질 수 있다. 또한 문학 작품에 종종 등장하는 비논리적인 표현까지 의미를 특정할 수 있는 규칙을 만드는 것은 거의 불가능하다. 규칙을 적용하는 방식의 한계를 돌파한 계기는 딥러닝 기술의 등장이다.
최근 가장 우수한 성과를 거두는 접근법은 2013년 구글 연구팀이 발표한 기법으로 보인다. 수기로 쓴 16억 개의 문자 자료를 분석해 함께 묶여 다니는 확률이 높은 단어 조합을 파악하는 식으로 단어 간의 유사성을 규정한 후 그 유사성의 조합으로 구절에 속한 단어의 의미를 정하는 방법이다. 예를 들어 축구·야구·배구는 모두 공을 다루는 운동 종목이다. 그래서 공과 운동이란 두 개의 유사성으로 축구·야구·배구란 단어를 묶어 수학적으로 모델링한다는 것이다. 이런 수학적 접근은 각 언어의 단어마다 번호를 매길 필요가 없어 한글이든 영어든 모두 숫자열로 압축할 수 있게 한다. 그 결과 AI의 자연어 이해 수준은 훨씬 높아지고 있다.
자연어 생성
인간에게 답변하기 위해 필요한 의미를 가진 구절과 문장을 만드는 과정이다. 생성 과정에는 다양한 방법이 혼용되고 있다. 가장 간단한 방법은 사전에 만들어진 대본에 든 답변을 골라 제시하는 것이다. 아마존과 구글 등도 모두 이런 방식을 활용해 왔다. 하지만 다양한 예상 질문을 만들고 대화 상대방이나 상황별로 각 질문에 적합한 예상 답변을 일일이 예측해 데이터베이스로 만드는 데는 시간과 비용이 너무 많이 든다. 또 정해진 답만 할 수 있어 대화의 자유도도 낮아진다.
대본 방식보다 한 단계 발전한 기법은 AI가 자체 데이터베이스나 인터넷을 검색해 필요한 단어를 찾고 정해진 템플릿의 빈칸을 채우는 정보 추출(information retrieval) 방식이다. 정보 추출 방식에서 진일보한 방식은 문자로 된 대규모 데이터 세트로 딥러닝 기반의 AI를 학습시켜 각 구절을 구성하는 단어들 간의 속성을 파악하게 한 후 AI 스스로 단어를 결정하고 구절을 완성하도록 하는 방식이다. AI가 스스로 답변을 생성하는 기법은 의학적 진단처럼 AI가 정확한 답변을 해야 하는 상황보다 소설 창작 등 창의성이 중시되는 상황에서 더 유용하다고 볼 수 있다.
음성 합성
생성된 응답을 인간의 언어로 발음하는 과정이다. 개발 초기부터 지금까지 꾸준히 사용되는 기술은 단어·구절·문장 등 정해진 대본을 읽는 인간 성우의 발음을 녹음해 재생하는 방식이다. 녹음 방식은 가장 자연스러운 발음을 내지만 모든 대화를 만들고 녹음하는 것은 한계가 있다. 그래서 등장한 것이 문자를 인간이 알아들을 수 있는 음성으로 변환하는 음성 합성 기술이다.
음성 합성 기술은 단순한 음파 합성에서부터 음편 선택 합성(unit selection synthesis), 파라메트릭 합성(parametric synthesis) 등 컴퓨터를 이용한 음성 생성 기술까지 다양하다. 음편 선택 합성은 다양한 발음, 다양한 장단 고저 등의 음조, 다양한 강세 등을 읽는 인간 성우의 음성 데이터를 음성 조각으로 세분화한 다음 음향 엔지니어들이 각 단어에 맞는 음성으로 합성하는 방식이다. 음편 선택은 인간의 실제 음성 조각들을 합성하는 것이므로 자연스러운 음성을 만들기에 좋다. 그보다 간편한 음성 합성 기술인 파라메트릭 합성은 엔지니어가 소리의 통계적 모델을 만들어 데이터를 이용해 소리를 합성하는 기술인데, 기계적 음성이 나온다는 단점이 있다.
최근에는 인조 음성의 표현력을 높일 수 있도록 보다 자연스러운 음성을 만드는 방향으로도 발전하고 있다. 동일한 시점에 동일한 대상에게 말하는 대사 속에서도 음절과 내용에 따라 발음의 흐름·음조·크기 등을 다양하게 하거나 상황에 따라 큰소리 대신 속삭임 등으로 발음하도록 하는 것이다.
음성 기반의 AI 발전에는 딥러닝 기술이 큰 역할을 하고 있다. 하지만 딥러닝 기술이 단기간에 기존 기술을 대체할지 여부는 아직 판단하기 일러 보인다. 음성 기반의 AI가 사용되는 분야나 용도, 기술 개발비 등을 여러 요인을 감안하면 기존 기술도 여전히 유용하기 때문이다. 2016년 마이크로소프트의 트위터용 챗봇 테이(Tay)가 인종 차별적인 발언을 먼저 학습하는 바람에 출시 이틀 만에 서비스를 중단한 사고는 딥러닝 기반의 AI가 봉착할 수 있는 현실적 한계도 여실히 보여준 바 있다.
[본 기사는 한경비즈니스 제 1301호(2020.10.31 ~ 2020.11.06) 기사입니다.]