[Special] 개성 담은 AI 오디오 시장 ‘급성장’
마치 로봇을 연상시키는 딱딱한 인공지능(AI) 음성의 시대는 갔다. 고인의 목소리를 100%에 가깝게 재현하고, 자신만의 개성을 섞은 AI 목소리를 직접 제작한다. AI 오디오 시장은 빠르게 변화하고 있다.

#1. 직장인 김 모(32) 씨는 좋아하는 연예인의 목소리로 길 안내를 해주는 내비게이션 서비스를 애용 중이다. 그런데 안내 음성의 대부분을 연예인 본인이 직접 녹음하지 않았다는 사실을 최근에야 알게 됐다. 유명인의 목소리를 AI 딥러닝으로 학습한 가상음성이었던 것. 특유의 목소리 톤과 억양까지 비슷하게 구현한 덕에 크게 이상한 점을 눈치채지 못했다는 게 김 씨의 소감이다.

#2. 박 모(52) 씨는 머지않은 시일 내에 상용화될 예정인 AI 서비스를 애타게 기다리고 있다. 바로 고인의 생전 목소리로 대화를 나눌 수 있는 음성 AI 합성 기술이다. 박 씨는 이 서비스가 실제로 출시되면 10년 전 돌아가신 어머니에게 꼭 하고 싶었던 이야기를 전할 생각이다.
[Special] 개성 담은 AI 오디오 시장 ‘급성장’
오디오 시장이 AI와 만나 제2의 전성기를 맞았다. 과거에는 오디오와 AI의 결합을 떠올리면 AI 스피커 정도를 떠올렸다. 하지만 최근 몇 년 사이 AI 기반 오디오 시장의 잠재력이 부쩍 커졌다. 귀로 즐기는 오디오 콘텐츠가 인기를 끌고 있는 최근 트렌드는 AI 오디오 시장을 부추기는 요소다.

메타버스 세계관을 만들어 가는 데 AI 음성기술 보유 기업이 필수적이라는 의견도 적지 않게 거론된다. 한 업계 관계자는 “앞으로 메타버스 안에 굉장히 많은 캐릭터들이 존재하게 될 텐데, 그 캐릭터와 메타버스 세계관을 현실감 있게 표현하기 위해서는 소리와 싱크로율을 제대로 구현해내는 게 중요하다”며 “AI 오디오 기술은 앞으로 디지털 시대를 지탱하는 핵심 코드가 될 것”이라고 말했다.
[Special] 개성 담은 AI 오디오 시장 ‘급성장’
다양하게 변주되는 AI 음성 기술
AI 음성 분야에서 최근 가장 주목받고 있는 기술은 무엇보다도 음성 합성 기술이다. 고(故) 김현식과 김광석의 음성을 복원해 사후 발표된 노래를 실제로 부른 것처럼 연출한 콘텐츠가 화제에 오른 것이 대표적인 사례다. 음성 합성 기술을 보유한 국내 오디오 전문 AI 기업 수퍼톤의 작품으로, 고인의 생전 목소리를 학습해 오차율 ‘0’에 가깝게 재현한 것이 특징이다.

AI 합성 콘텐츠 기업 자이냅스도 사람의 음성을 원본과 비슷하게 복원하는 기술을 보유했다. 고인이 된 탓에 더 이상 목소리를 들을 수 없는 인물일지라도, 불과 몇 분짜리 녹음본만 확보되면 목소리 재현이 가능하다. 회사 측은 고인이 된 부모님의 음성으로 책을 읽어주거나, 음성 통화까지 할 수 있는 서비스를 선보일 계획이다.

이미 티맵이 제공하고 있는 내비게이션 서비스에는 자이냅스의 음성 합성 기술이 적용됐다. 과거에는 성우가 모든 문장을 일일이 녹음해야 했지만, 이 기술을 적용하면 몇 시간 분량의 녹음으로도 유명 연예인의 목소리를 자유롭게 변주할 수 있다.

사용자가 직접 AI 음성 합성 기술을 활용할 수 있는 길도 열렸다. 네이버는 사람처럼 자연스러운 음성을 제작할 수 있는 클로바더빙 서비스를 제공 중이다. 이 서비스는사용자가 텍스트를 입력하면 AI 음성으로 합성해 음원이나 영상으로 제작할 수 있는 편집 툴이다.

목소리에 기쁨, 슬픔과 같은 감정 옵션을 넣을 수 있고 속도까지 조절할 수 있어 섬세한 음성 연출이 가능하다. 제공하는 음성의 종류는 총 85가지. 아나운서 조수빈, 가수 심규선, 코미디언 이수지 등 다양한 분야의 유명인 목소리도 제공한다.
[Special] 개성 담은 AI 오디오 시장 ‘급성장’
클로바더빙은 여기서 한 발 더 나아가 사용자가 자신만의 개성을 담은 AI 보이스를 만들어 제공하는 ‘보이스 메이커’를 베타 오픈했다. 스마트폰 애플리케이션으로 자신의 음성을 실시간 녹음하면, 보이스 메이커가 소음과 잔향을 제거하고 음색을 균일화해준다. 이후 AI 모델로 목소리를 분석하고 학습한 뒤 개개인의 목소리 개성을 극대화한 AI 음성을 제작해주는 방식이다.

텍스트를 AI 음성으로 바꿔주는 것을 ‘TTS(Text To Speech)’라고 부른다면, 이와 반대로 음성을 문자로 변환해주는 기술은 ‘STT(Speech To Text)’라고 지칭한다. STT 또한 음성 AI 분야에서 빼놓을 수 없는 기술이다. 대표적으로 직장인과 학생들 사이에서 ‘필수템’으로 떠오르고 있는 네이버 클로바노트가 있다. 클로바노트는 AI 음성기록 서비스로, 녹음된 음성을 업로드하면 불과 몇 분 만에 텍스트로 변환해주는 앱이다. 강의록이나 회의록을 작성할 때 활용하기 쉽다는 사실이 알려지며 2021년 11월 기준 100만 명 이상의 다운로드 수를 기록했다.

전화 통화 내용을 텍스트로 바꿔주는 서비스도 나왔다. SK텔레콤은 커뮤니케이션 플랫폼 T전화 내에 ‘AI 통화녹음’ 서비스를 베타 적용했다. 이 서비스는 통화 시 녹음된 음성 파일을 문자로 전환해 이용자에게 제공해준다. 변환된 대화 내용은 문자메시지 대화창과 비슷한 디자인으로 구성해 발화자를 보다 손쉽게 파악할 수 있도록 만들었다.

AI 오디오 핵심은 리얼리즘…
정확할수록 부작용 위험 높아지는 ‘딜레마’


AI 음성 기술이 대중에게 스며들기 위해서는 ‘불쾌한 골짜기(uncanny valley)’를 최대한 느끼지 않도록 자연스럽게 연출하는 것이 핵심이다. 불쾌한 골짜기는 일본 로봇공학자 모리 마사히로가 언급한 개념으로, 인간을 어설프게 닮을수록 오히려 불쾌감이 늘어나는 심리를 일컫는다. AI 전문가들은 이와 비슷한 현상이 AI 오디오 콘텐츠에서 발생하지 않도록 보다 자연스러운 결과물을 만들어내는 데 심혈을 기울인다.

문제는 AI 음성이 자연스럽고 정확할수록 ‘원본’와 ‘페이크(fake)’를 구분하기 어렵다는 점이다. 이미 부작용은 국내에서도 발생했다. 최근 대선주자가 자신의 얼굴과 목소리를 그대로 구현한 AI를 선보였는데, 해당 후보의 ‘가짜 AI’가 소셜네트워크서비스(SNS)에 등장해 욕설을 하는 모습을 연출한 것이다. 이른바 ‘딥페이크(deep fake)’다.

앞서 미국 영화감독 조던 필은 버락 오바마 전 미국 대통령의 목소리를 재현한 콘텐츠를 공개하고 딥보이스(deep voice)의 위험성을 경고한 바 있다. 앞으로 AI 음성 서비스가 상용화될수록 이 기술을 활용한 보이스피싱 피해 사례도 적지 않을 것으로 보인다.

업계 관계자는 “AI로 목소리를 구현하는 기술은 빠르게 정교해지고 있지만, 해당 음성이 가짜 목소리라는 것을 가려낼 판별 기술은 미비한 게 사실”이라며 “AI 합성 기술로 인해 생길 수 있는 각종 부작용에 대해서도 대비해야 한다”고 지적했다.

글 정초원 기자