“앞으로는 가상인간을 단순히 대중의 관심을 끌기 위한 마케팅용으로 쓰는 것이 아니라 진짜 필요에 의해 활용하게 될 겁니다.”
한 장의 사진과 30초의 음성 데이터만으로 영상 속 인물의 얼굴과 목소리를 실시간에 가깝게 만든다. 클레온이 갖고 있는 ‘딥휴먼’ 기술을 통해서다. 딥페이크가 사람의 얼굴을 합성하는 개념이라면, 딥휴먼은 얼굴과 목소리, 억양, 체형, 자세까지도 이용자가 원하는 방향으로 구현할 수 있어 활용도가 높다.
현재 클레온은 딥휴먼 기술을 활용해 디지털 휴먼 솔루션 ‘클론’, 자동 더빙 솔루션 ‘클링’을 상용화한 상태다. 특히 클론 솔루션은 500만 원 수준의 비용으로 짧으면 몇 분 내에 가상인간을 생성할 수 있어 기업들의 반응이 좋은 편이다.
클레온이 지향하는 방향은 무엇보다도 가상인간의 대중화다. 적은 비용으로 손쉽게 가상인간을 만들고, 화면 속 인간을 매개로 시간과 공간의 제약 없이 소통할 수 있는 세상을 꿈꾼다. 이른바 가상인간을 통한 ‘소통의 혁신’이다. 이미 가상 튜터, 도슨트, 역사 속 위인 등 디지털 휴먼을 통해 만들 수 있는 콘텐츠도 무궁무진해지고 있다.
진승혁 클레온 대표는 “가상인간이 ‘필요’가 없다면, 당연히 인기가 식을 것이라고 생각한다”며 “사람들이 가상인간의 필요성을 느끼고, 쉽게 접근할 수 있도록 만들어야 하는 것도 그 때문”이라고 말했다. 다음은 진 대표와의 일문일답. 현재 어떤 사업을 하고 있나요.
“구글이 검색의 혁신을 이뤘다면, 저희 클레온은 가상인간으로 소통의 혁신을 이루고자 하는 비전을 갖고 있습니다. 우리가 사는 세상에서는 구글 검색엔진을 통해 언제 어디서든 내가 원하는 정보를 쉽고 빠르게 검색할 수 있잖아요. 이렇게 검색을 하는 이유는 명확합니다. 모르는 것을 찾고, 정보를 취득하고, 그 정보로부터 인지 능력을 향상시키기 위해서죠. 저는 검색보다 더 좋은 방식이 바로 ‘소통’이라고 생각합니다. 우리가 대화를 나누면서 얻어낼 수 있는 양질의 데이터가 있다고 보거든요. 포털에서 정보를 찾는 것보다 더 좋은 방식이죠. 하지만 제대로 소통하기 위해서는 그만큼 시간이 필요하고, 상대방과 같은 공간에서 같은 언어를 사용하며 이야기해야 하죠. 저희는 디지털 휴먼을 매개로 언제 어디서든 원하는 대상과 쉽고 빠르게 소통할 수 있는 세상을 만드는 걸 목표로 하고 있어요.”
가상인간의 어떤 점에서 비즈니스 가능성을 발견한 건가요.
“가상인간에 관심을 갖게 된 첫 계기는 배우 수지를 한 명 더 만들고 싶다는 생각 때문이었어요.(웃음) 사실 이번 사업이 저의 네 번째 창업인데요. 그동안 아이템 피봇(pivot: 방향 전환)을 굉장히 많이 했는데, 아이템 자체보다는 ‘소통 혁신’이라는 저희의 비전을 만들기까지 많은 시행착오를 겪었던 것 같아요. 그 과정에서 사람들이 의식주 외에 어떤 부분에 돈을 쓰는가에 대한 고민을 많이 했습니다. 우리가 구글을 쓰는 이유는 좀 더 빠르게 검색하기 위해서잖아요. 가상인간에게서 가능성을 봤던 것도 이 부분이었어요. (딥휴먼 기술을 접목해) 정말 좋은 소통 솔루션을 만든다면 사람들이 쓰지 않을 이유가 없다는 생각을 했죠. 사실 가상인간 트렌드가 최근 주목받고 있지만, 그 트렌드에 맞춰서 가상인간을 만든 건 아니었어요. 저희가 원래 꿈꾸던 비전 안에서 가상인간이라는 트렌드가 잘 맞아떨어진 거라고 생각합니다.”
클레온의 가상인간 솔루션은 구체적으로 어떤 형태인가요.
“원하는 대상과 언제 어디서든 소통하고 싶어도 우리에게는 물리적·언어적 진입장벽이 있잖아요. 이런 진입장벽을 타파하기 위한 서비스를 만들고 있습니다. 특히 저희 기술은 사진 한 장과 음성 데이터 30초 만으로 나만의 디지털 휴먼을 만들 수 있어요. 궁극적으로 나 자신을 가상인간에 이식하는 방식을 추구해요. 단순히 인간의 외형뿐만 아니라 두뇌까지 소규모 데이터로 집약시키는 거죠. 이런 기술을 통해 ‘디지털 나(me)’, 혹은 ‘디지털 아인슈타인’ 등을 만들고자 하는 꿈을 꾸고 있습니다. 또 언어적 장벽을 허물기 위한 자동 더빙 솔루션도 갖고 있는데요. 인공지능(AI) 딥러닝 기반 시스템을 활용해 배우의 목소리와 표현력을 한국어, 일본어, 중국어, 영어, 스페인어 등 다른 언어로 번역하고 더빙할 수 있어요.”
딥휴먼 기술을 활용하면 비교적 적은 시간과 자본으로 가상인간을 만들 수 있다고 들었는데요. 타사와 차이점이 있다면.
“현재 대부분의 가상인간 회사들은 컴퓨터그래픽스(CG) 기술을 활용해 가상인간을 만들고 있습니다. 쉽게 생각하면 소품종·소량 생산이에요. 하나의 결과물을 만들기까지 수천 시간이 들죠. 그런데 제일 중요한 질문이 있어요. 가상인간이 인간에게 왜 필요하다고 생각하시나요. 아직 사람들은 가상인간이 왜 필요한지 정확히 모르고 있다고 봅니다. 저는 가상인간을 단순히 ‘신기하다’고 생각하는 데서 더 나아가, 이 기술이 ‘필요하다’고 느끼도록 만들고 싶어요. 일상생활에 가상인간이 자리 잡기 위해서는 결국 대중화가 이뤄져야 합니다. 합리적인 비용으로도 누구나 쉽게 쓸 수 있는 가상인간 기술이 공급되는 게 중요하다는 말이죠. 그 기술은 저희 회사만이 할 수 있다고 봅니다. 특히 ‘제로샷 러닝(zero-shot learning)’이 중요한데요. AI가 추가적인 데이터 학습을 하지 않아도 목소리, 얼굴, 체형 등 인간을 구성하는 여러 요소를 곧바로 만들어낼 수 있는 기술이에요. 이 기술이 결국은 가상인간 솔루션에서 힘이 될 것이라고 봅니다.” 가상인간은 어디까지 발전할까요. 예를 들어 감정과 지능을 나누는 수준까지도 가능할까요.
“제가 예전에 감명 깊게 읽은 책이 있습니다. 그 책에서 그런 이야기를 하더라고요. 결국 감정도 이성으로부터 만들어진 거라고요. 굉장히 공감됐어요. 감정이라는 게 결국은 우리가 사회적인 관계를 만들기 위한 하나의 좋은 수단이라고 생각하거든요. 저는 그런 취지에서 감정 또한 AI를 통해 만들어낼 수 있다고 봐요. 이런 부분이 무섭게 느껴질 수도 있는데, 저는 흥미로웠거든요. 영화 <그녀(her)>를 보면서 ‘내 편’이 돼주는 AI를 꿈꿨던 것 같아요. 그 영화에서는 AI의 목소리만 등장했는데요. 저희는 완전한 가상인간을 구현하는 것을 목표로 하고 있죠. 미래에는 로봇이 사람이 될 수 있는 시대가 오지 않을까 싶어요.”
과거에도 인기를 끌었다가 사라진 가상인간 사례가 있었는데요. 대중의 관심이 식을 가능성에 대해서는 어떻게 보시나요.
“가상인간이 ‘필요’없다면, 당연히 인기가 식을 거라고 생각해요. 사람들이 가상인간의 필요성을 느끼고, 쉽게 접근할 수 있도록 만들어야 한다는 것도 그 때문이에요. 사실 가상인간의 활용도가 굉장히 많아서, 이미 수만 가지의 유스 케이스(use case)가 나와 있어요. 앞으로는 가상인간을 단순히 대중의 관심을 끌기 위한 마케팅용으로 쓰는 것이 아니라, 진짜 필요에 의해 활용하게 될 겁니다. 스마트폰이 나오기 전에 휴대용 멀티미디어 플레이어(PMP)가 나왔던 걸 기억하실 거예요. 가상인간도 지금은 그런 단계라고 봅니다. 결국 개념은 똑같지만 좀 더 진보된 무언가로 발전하겠죠. 저희가 그걸 만들고 있다고 생각합니다.”
구체적으로 어떤 영역에 활용될 수 있을까요.
“다양한 영역이 있는데요. 호텔컨시어지를 디지털 휴먼으로 만드는 것도 가능하죠. 호텔에서 투숙객이 필요로 하는 모든 부대 서비스를 가상인간을 통해 주문하는 겁니다. 여기서 더 나아가 일본에서는 복합 쇼핑몰 키오스크에 가상인간을 접목한 시스템도 만들어졌고요. 또 최근에 저희가 싱가포르국립대(NUS)의 인터넷 강의를 제작 중인데요. 싱가포르는 영어, 중국어, 말레이어, 타밀어, 이렇게 총 네 가지 언어를 사용하거든요. 디지털 휴먼 기술과 더빙 솔루션을 활용해서 여러 언어로 들을 수 있는 인터넷 강의를 만들기로 했죠. 특히 교수님들이 연구 활동을 하는 동시에 직접 강의까지 소화하기 힘들어하는 경우가 있거든요. 이런 어려움을 고려해 가상인간으로 ‘디지털 교수님’을 만드는 작업도 하고 있습니다.”
실존하는 교수님의 모습을 그대로 본뜬 가상인간이 탄생할 수 있는 건가요.
“맞습니다. 최근에 삼성생명과 비슷한 작업을 했는데요. 보험설계사를 디지털 휴먼으로 만들어드린 거죠. 이번 추석 연휴 인사를 그 디지털 휴먼이 했는데, 반응이 좋았습니다. 굉장히 신기한 경험이었어요.”
가상인간으로 인한 윤리적 문제도 있는데요. 최근에도 딥페이크를 이용한 사이버 사기와 위장, 약자 혐오 발언 등이 문제가 됐습니다. 윤리적 이슈에 대한 고민을 어떻게 해결할 수 있을까요.
“기술은 항상 ‘양’과 ‘음’을 함께 갖고 있는 것 같아요. 원자력이 에너지원으로 사용되지만 한편에서는 핵폭탄이라는 무기로 쓰이고, 인터넷으로 인해 성범죄가 늘어났지만 반대로 좋은 점도 있었던 것처럼요. 물론 저희 클리온은 당연히 양의 영역을 지향하고 있어요. 음의 문제를 막기 위한 백신도 만들고 있습니다. 딥페이크 검출기를 만드는 작업이 중요한 것 같아요. 만약 딥페이크 기술로 유명인사의 음성을 복제했다면, 이 음성이 가짜인지 진짜인지 구분할 수 있어야 한다고 보거든요. 이미 기술은 완성한 상태고요. 앞으로 이 기술이 필요한 곳이 있다면 공급해야겠다고 생각 중입니다.”
해외 진출 방향도 궁금한데요. 가장 큰 시장이라고 할 수 있는 미국 시장은 어떻게 두드리고 있나요.
“이제 미국으로 본사를 옮기는 만큼, 미국 시장을 메인으로 생각하고 있어요. 우선 굵직굵직한 레퍼런스를 쌓는 데 집중하려고 합니다. 최근에는 인스타그램, 페이스북을 운영하는 미국 메타와 세 가지 방향으로 테스트를 진행 중인데요. 한 가지는 인스타그램 릴스 영상의 언어를 변환해주는 작업이 있고요. 또 ‘AI 에디터’라고 해서, 영상을 찍을 때 저희 AI 기술을 활용하는 방안도 이야기 중입니다. 아예 디지털 휴먼을 만들어서, 이용자가 글만 작성해도 가상인간 영상 콘텐츠를 바로 생성할 수 있는 방향도 테스트하고 있어요.”
앞으로 최종 목표가 궁금합니다.
“개인적으로는 기업의 이익만을 추구하기보다는 고객을 위한 좋은 서비스를 만들 수 있는 성숙한 회사가 되길 바라는 마음이 큽니다. 또 앞서 설명드린 ‘소통의 혁신’이라는 비전을 기반으로, 나스닥에 등재해 구글보다 큰 회사가 되는 게 장기적인 목표죠.”
글 정초원 기자 ccw@hankyung.com | 사진 이승재 기자
-
© 매거진한경, 무단전재 및 재배포 금지