온라인동영상서비스(OTT), 스트리밍, 증강현실(AR)·가상현실(VR), 스마트폰, TV, 극장 등 소리가 있는 어디에서나 훌륭한 소리 경험을 제공하는 것. 메타버스를 최종 지향점으로 잡고 있는 가우디오랩은 언젠가 ‘소리’로 세계를 제패하는 길을 꿈꾼다.
[Special]전상배 가우디오랩 CSO “메타버스 시대, 소리로 세계 제패”
“몇 년만 지나면 AI라는 단어를 아무도 사용하지 않을 거예요. 그만큼 AI 기술이 너무나 당연해진다는 뜻이죠. ‘인터넷’이라는 개념이 너무 당연해서 굳이 언급하지 않는 것처럼요.”

가우디오랩의 인공지능(AI) 오디오 기술 연구를 책임지고 있는 전상배 CSO(Chief Science Officer)는 앞으로 오디오에 AI를 접목하는 것은 그리 특별한 일이 아닐 것이라고 내다봤다. 가까운 미래에는 오디오와 AI 기술의 공존이 지극히 자연스러운 일이 될 것이라는 이야기다. 앞으로 다가올 메타버스 시대, AI 오디오는 어떤 역할을 하게 될까. 전 CSO를 만나 이야기를 나눠봤다.

가우디오랩은 어떤 회사인가요.
가우디오랩은 메타버스를 위한 종합 오디오 회사입니다. 저희는 메타버스에서 소리가 굉장히 중요하다는 메시지로부터 시작했는데요. 마치 내가 ‘그곳’에 있는 듯한 착각은 소리가 없다면 잘 이뤄지지 않거든요. 영화감독 조지 루카스는 ‘소리는 경험의 절반’이라고 표현했죠. 또 벤처투자계의 큰손인 마크 앤드리슨도 오디오의 중요성을 강조했고요. 저희는 메타버스를 지향점으로 잡고, AI라는 도구까지도 세계 최고로 잘 활용해보자는 생각을 갖고 있습니다.

당초 가우디오랩은 VR 분야를 사업 타깃으로 잡았던 것으로 알고 있어요. 꽤 오래전부터 메타버스를 향해 달려온 것 같은데요.
과거에 ‘VR’로 불렸던 분야가 지금은 ‘메타버스’로 불리게 됐을 뿐이지, 사실은 같은 개념이라고 생각해요. 조금 더 리얼하고, 더 많은 인터랙션(상호 소통)이 가능한 미디어를 현재는 메타버스라고 정의하잖아요. 형태만 바뀐 셈이죠.

저희가 2016년에 메타버스의 꿈을 꾸기 시작하면서 가장 먼저 문을 두드린 곳이 미국 할리우드였어요. VR 오디오 시장에 빠르게 깃발을 꽂고 독점적 위치를 확보하자는 생각이었죠. 실제로 할리우드에서 드림웍스, 월트디즈니, 아마존 등과 만나 콘텐츠 제작과 기술 제휴에 대해 논의했습니다. 2017년까지도 VR 오디오 사업화를 활발하게 진행했는데, 이후 VR 시장이 급속도로 가라앉아 버렸어요. 당시 VR 콘텐츠 제작비는 일반 영화의 10배에 달했는데, 시청자는 10분의 1도 되지 않았거든요. 결국 상업적 측면이 가장 큰 원인이었던 것 같아요. 사실상 저희에게 냉혹기가 찾아온 거죠.

시장이 좋지 않은 상황에서 메타버스라는 지향점을 고수하기가 쉽지 않았을 것 같은데요.
세상이 메타버스로 향하고 있는 것만큼은 분명한데, 그 과정에서 업 앤 다운(up and down)이 좀 있었던 것 같아요. 그렇다고 미래만 바라볼 수는 없는 게, 저희는 어쨌든 기업이잖아요. 수익이 필요하죠. 2017년부터는 지금 시장에 필요하다고 판단되는 오디오 기술로 PMF(Product Market Fit)를 찾으며 때를 기다렸습니다. 미래 기술을 만들면서도, 그 기술을 현재의 시장에 잘 적용할 수 있는지 염두에 둔 거죠.

시장을 판단할 때도 향후 메타버스로 갈 수 있는 시장이라고 생각되면 뛰어들고, 그게 아니라면 OTT나 스트리밍 영역에서 사업화 기회가 있는 기술인지를 봤습니다. 꼭 메타버스에 필요한 기술만을 개발했다기보다는, 메타버스에 필수적이면서도 다른 OTT 산업에서 쓸 수 있는 기술을 발굴한 거죠. 이런 방식으로 4년을 보내면서, 미래만 보고 달리는 게 아니라 미래와 현재 사이에서 균형을 잡으며 살아남는 법에 대해 배웠다고 생각합니다.

그 과정 속에서 가우디오랩의 핵심 솔루션 중 하나인 AI 음원 분리 기술 ‘GSEP (Gaudio Source SEParation)’가 탄생했겠네요. 어떤 기술인가요.
우선 ‘음원 분리’는 여러 음원이 섞인 오디오 신호에서 개별 음원을 추출하는 과정을 말합니다. 영화에서 배우의 목소리만을 추출하거나 음악에서 특정 악기의 소리만을 추출하는 거죠. 메타버스에서 궁극의 리얼리즘을 표현하기 위해서는 깨끗한 음원을 추출할 필요가 있거든요. 마치 그 공간에 실제로 가 있는 듯한 환경, 즉 ‘빙 데어(being there: 마치 내가 그곳에 가 있는 듯한 착각)’와 ‘빙 히어(being here: 원격의 상대방이 마치 여기 와 있는 듯한 착각)’를 구현하는 게 중요합니다.

특히 사용자끼리 현실감 있는 커뮤니케이션을 하도록 만들기 위해서는 상대방의 주변 환경 소음을 지워주는 작업이 필요한데요. 예를 들어 제페토 월드에 접속한 사람들끼리 대화하는 상황을 생각해봅시다. 참여자 중 한 명의 음성에 엄마가 청소기를 돌리는 소리까지 함께 빨려 들어갈 수 있잖아요. 이렇게 되면 청소기 소리만 들릴 뿐 상대방이 무슨 말을 하는지 못 알아듣는 상황이 발생합니다. 이런 측면에서 GSEP 기술은 메타버스 시대 오디오 AI의 핵심이라고 할 수 있어요.

GSEP의 파생 기술 중 ‘AI 기반 가사 동기화 솔루션’이라고 불리는 ‘GTS(Gaudio Text Sync)’도 있다고 들었는데요.
오디오 AI 기술을 활용해 가사와 음원을 자동으로 동기화해주는 기술이라고 생각하면 됩니다. 2021년 4월에 국내 음원 스트리밍 플랫폼인 ‘벅스’의 ‘실시간 가사보기 서비스’에 적용돼 상용화에 성공했죠. 그동안은 ‘타임 코더’라 불리는 인력이 직접 투입돼 곡마다 일일이 가사와 음원의 시점을 맞춰야 했어요. 국내는 물론이고 전 세계적으로도 이 서비스를 상용화한 업체를 찾아보기 어렵습니다. 현재 GTS는 일반적 환경에서 5초에 1곡씩 싱크를 맞출 수 있는데요. 음원 스트리밍 서비스의 실시간 가사보기 서비스에 탑재됐고, 영화 등 영상 콘텐츠 자막 생성, 어학 학습 활용, 노래방 기능 등에 활용되고 있습니다.

다양한 기업과 협업하고 있는 것 같은데요. 현시점에서 가우디오랩이 가장 주력하고 있는 타깃 분야는 어디인가요.
사실 특정 산업군에 치중하겠다는 생각은 별로 갖고 있지 않아요. (가우디오랩의 파트너사인) 네이버를 예로 들자면, 기업 내에서도 굉장히 다양한 서비스를 제공하잖아요. 네이버 나우(NOW)는 공연 현장을 라이브 스트리밍으로 현실감 있게 전달하고, 네이버TV는 음량 평준화(loudness normalization) 기술을 적용하는 식이죠. 각각 독립된 분야로 볼 수도 있겠지만, 결국은 ‘좋은 소리 경험을 이뤄간다’는 면에서 하나의 문제를 푸는 거라고 생각하거든요. 고객사가 원하는 기술이 무엇인지 계속해서 파악해 가면서 우리의 내공을 높여 가는 방향을 생각하고 있습니다.
[Special]전상배 가우디오랩 CSO “메타버스 시대, 소리로 세계 제패”
2021년 11월에는 오디오 AI 기술로 ‘정보통신기획평가원(IITP) 우수과제·연구자 시상식 및 성과 교류회’에서 우수 연구자로 선정되신 것으로 알고 있습니다.
정말 감사드릴 일입니다. 소니, 메타(옛 페이스북) 등 세계적인 기업을 제치고 최고 수준의 기술을 달성했다는 게 수상 배경 중 하나였던 것 같아요. 이미 시장에서 성공적으로 상용화된 기술이라, 사업적으로도 의미 있는 결과물이라는 점을 잘 봐주신 것 같고요. 사실 저희가 오디오 기업이기는 했지만 AI 기술을 갖고 있지는 않았거든요. 그런데 정부의 AI 전문 기업 육성 프로그램을 거치면서, 2019년 1명이었던 사내 AI 인력이 지금은 10명이 됐어요. 회사와 구성원들이 점점 4차 산업혁명 시대에 맞는 AI 전문성을 갖추게 된 거죠.

오디오에 AI 기술을 접목하는 게 중요하다고 판단한 이유가 있을까요.
과거에 못 풀었던 문제를 AI 기술로 잘 풀 수 있다고 생각했어요. 하기 싫으면 안 해도 되는 분야가 아니라, 무조건 해야 하는 일이라고 판단했습니다. 지금은 AI가 굉장히 뜨거운 키워드잖아요. 그런데 몇 년만 지나면 AI라는 단어를 아무도 사용하지 않을 거예요. 그만큼 AI 기술이 너무나 당연해진다는 뜻이죠. ‘인터넷’이라는 개념이 너무 당연해서 굳이 언급하지 않는 것처럼요. 같은 맥락에서 지금 ‘AI 오디오’라고 지칭하는 기술은 앞으로 그냥 ‘오디오’ 기술이라고 불릴 것 같습니다.

꼭 메타버스가 아니더라도 최근 들어 오디오 기반 서비스가 주목받고 있는 것 같습니다. 배경을 짚어주신다면요.
사실 소리에만 의존하는 커뮤니케이션 방법은 예전부터 존재했죠. 라디오가 대표적이고, 최근에는 오디오북이나 음성 채팅으로 발전했다고 생각하거든요. 언젠가부터 커뮤니케이션을 생각하면 비디오를 이야기하게 됐는데, 생각보다 소리가 중요한 요소였습니다.

그럼 라디오를 즐겨 듣던 시대와는 무엇이 달라졌을까요. 과거보다 조금 더 토픽이 세분화되고 전문화가 이루어진 것 아닌가 싶어요. 오디오북은 내가 골라서 듣는 콘텐츠이고, 팟캐스트도 유사하잖아요. 기존에도 청각 미디어가 있었고, 그게 조금 더 세부적으로 발전해 나가는 단계가 아닌가 싶습니다. 또 줌(Zoom) 같은 비디오 플랫폼에서는 화면을 띄우는 순간 자신이 너무 많이 노출된다고 생각하는 것 같아요. 그런데 목소리만 들어가면 절반의 익명성이 보장되는 느낌이잖아요. 그런 인식이 조금은 영향을 주지 않았을까 하는 생각이 듭니다.

국내뿐만 아니라 해외 시장 공략도 중요할 것 같은데요. 어떤 전략으로 시도할 생각인가요.
저희가 2016년에 미국에 갔던 이유는 당시 할리우드 콘텐츠가 최고라고 생각했기 때문이었어요. 그런데 요즘 <오징어 게임>을 비롯해 한류가 전 세계적으로 굉장히 뜨겁고 힙한 느낌을 주잖아요. 지금이 저희에게는 둘도 없는 좋은 기회라고 생각합니다. 그들의 등에 올라타는 게 제일 좋은 방법이 아닐까 싶어요. 굳이 미국에 가서 도전할 게 아니라, 한국에서도 좋은 콘텐츠들이 많이 나올 거라고 생각하거든요. 영화나 드라마 같은 미디어 형태의 한류도 있겠지만, 저는 메타버스 분야도 한국이 제일 열심인 것 같다는 생각이 들거든요.

어떻게 보면 한국이 선발주자고 나머지는 후발주자라고 할 수 있어요. 후발주자인 글로벌 기업들이 한국 콘텐츠를 레퍼런스로 봤을 때 (가우디오랩의 기술을) 채택하기가 훨씬 더 쉬워진다고 생각해요. 단순히 기술이 좋다는 이야기만으로 설득하는 건 어려워요. 그런데 특정 콘텐츠를 보여주고 ‘거기에서 나오는 소리, 우리가 만든 거야’라고 하면 간단하거든요. 한류가 핵심 기술 그 자체인 것 같다는 생각이 듭니다.

최종 목표가 있다면.
과거에는 VR로 불렸고, 지금은 메타버스라고 부르는 미디어가 있죠. 최고의 리얼리즘을 전해주는 이 미디어가 생겨났을 때, 소리 분야에서는 가우디오랩을 가장 먼저 떠올리도록 하는 게 가장 큰 목표입니다. 이를 통해 결국 세계 정복을 이루고 싶습니다.

글 정초원 기자 | 사진 이승재 기자