[AI 따라잡기]
데이터 압축 전송에 AI 기술 활용…전체 픽셀 전송 않고 얼굴 특징 변화 전송 후 재구성 [한경비즈니스 칼럼=심용운 SKI 딥체인지연구원 수석연구원] 신종 코로나바이러스 감염증(코로나19) 사태가 장기화됨에 따라 사람들의 피로도와 불편함이 가중되고 있다. 전문가들에 따르면 코로나19가 종식되더라고 다시 예전의 일상으로 완전히 돌아가기는 어렵다는 것이 중론이다. 이러한 상황에서 우리가 선택할 수 있는 카드는 제한적일 수밖에 없다. 새로운 환경에 계속 맞춰 살아야 할 수밖에 없다는 것이다. 다시 말해 뉴 노멀에 적응해야 한다는 말이다.
코로나19로 인해 나타난 뉴 노멀 중의 하나는 현실에서의 일상이 온라인으로 전환되고 있다는 것이다. 특히 재택과 홈택이 보편화되면서 온라인에서 회의를 하거나 콘텐츠를 소비하는 일이 일상화되고 있다. 대면 회의는 영상 회의로 대체되고 있고 학교 수업도 온라인 수업으로 상당 부분 진행되고 있는 중이다.
그나마 다행인 것은 과거와 달리 온라인 관련 기술의 발전으로 갑작스러운 팬데믹(세계적 유행) 이후에도 사람들은 생각보다 큰 어려움 없이 일상생활을 이어 가고 있다는 것이다.
하지만 팬데믹이 장기화되고 이로 인해 온라인을 통한 영상 회의나 비디오 소비가 늘어남에 따라 좀 더 안정적이고 현장감 있는 비디오 환경에 대한 요구가 증가하고 있다. 특히 긴 로딩 시간, 지속적인 버퍼링, 화질 저화로 인해 영상 통화나 비디오 시청이 어렵거나 이용 중에 끊김 현상으로 인해 종종 이용 자체를 포기하게 되는 상황도 발생하기 때문이다.
물론 그동안 이러한 문제들을 해결하기 위해 솔루션이 없었던 것은 아니다. 하지만 코로나19로 인해 폭증하는 비디오 스트리밍 트래픽 수요를 감당하기는 역부족인 것이 현실이다. 이런 가운데 다행히 최근 클라우드 기반의 인공지능(AI)을 활용한 비디오 스트리밍 개선 기술이 개발됐다는 반가운 소식이 전해졌다.
AI 비디오 스트리밍 플랫폼 ‘맥신’
최근 보도에 따르면 AI 컴퓨팅 분야의 선도 기업인 엔비디아가 영상 통화 시 사용자 경험을 개선한 클라우드 네이티브 AI 비디오 스트리밍 플랫폼 맥신(Maxine)을 공개했다.
이번에 공개된 맥신의 주요 기능으로는 비디오 압축 및 초고해상도, 얼굴 정렬, 시선 보정, 가상 비서 기능 등 새로운 AI 기반의 비디오 스트리밍 경험을 제공하는 것들이 포함된다. 무엇보다 이번에 공개된 맥신의 가장 큰 특징은 고화질 영상과 끊김 없는 영상 통화가 가능하도록 비디오 스트리밍에 필요한 대역폭을 획기적으로 줄인 것이다. 엔비디아는 영상 통화 품질을 향상시키기 위해 엔비디아의 그래픽처리장치(GPU)를 사용해 클라우드에서 통화를 처리하고 AI 기술을 활용해 전송 화질을 대폭 압축, 전송한다. 엔비디아에 따르면 비디오에 대한 대역폭 소비를 H. 264 스트리밍 비디오 압축 표준 요구 사항의 10분의 1까지 줄일 수 있다고 한다.
또한 전체 픽셀 화면을 모두 스트리밍하는 대신 AI를 이용해 통화 중인 사람 얼굴의 주요 특징을 인식하고 이러한 특징의 변경 사항만 전송한 후 이를 기반으로 얼굴을 다시 재구성한다. 궁극적으로 이러한 기술을 통해 맥신은 사용자 단말에서 더 적은 데이터를 스트리밍하면서도 사용자에게 더욱 선명한 영상 회의 경험을 제공한다.
둘째, 맥신은 생성적 적대 신경망, 즉 GAN(Generative Adversarial Network)을 사용해 영상 통화 시 마치 현장에서 얼굴을 보며 대화하는 듯한 실감나는 화면을 제공하는 얼굴 정렬 기능을 제공한다. 또한 화상 회의 시 몰입감을 주기 위해 카메라의 방향이 사용자의 보는 각도와 맞지 않더라도 마치 상대방이 자신의 눈을 보고 말하듯 시선을 맞추도록 하는 시선 보정 기능도 제공한다.
물론 이러한 비디오 스트리밍에서 비디오 압축이나 실시간 전사(real-time transcription)가 완전히 새로운 기술은 아니다. 영상 통화 중에 사람들이 시선을 유지할 수 있게 하는 시선 조정도 마이크로소프트의 서피스 프로X와 애플의 페이스타임에도 있는 기능이다.
온라인 비디오 서비스 사업자인 넷플릭스도 다이내믹 옵티마이저(Dynamic Optimizer)라는 자체 AI 기반 알고리즘을 통해 실시간으로 프레임별로 비디오를 분석하고 고화질을 위해 각 장면을 선택적으로 압축하고 비디오 콘텐츠 유형을 구별할 수 있는 솔루션을 가지고 있다.
하지만 맥신은 엔비디아의 클라우드 컴퓨팅 기술력과 AI 연구·개발(R&D) 작업 역량 면에서 경쟁사를 압도하는 것으로 평가받고 있다.
셋째, 엔비디아의 자비스(Jarvis) SDK에 의해 구동되는 대화형 AI 기능을 이용해 음성 인식, 언어 이해, 음성 생성을 위한 최첨단 AI 언어 모델을 사용하는 가상 비서 기능을 통합했다. 이 가상 비서는 사람과 같은 음성으로 메모를 작성하고 작업 항목을 설정하고 질문에 응답할 수 있다.
이 밖에 영상 통화 이용자가 실시간으로 음성과 감정 톤에 따라 자동으로 구동되면서 사실적인 동작이 가능한 자신의 아바타를 선택할 수 있는 기능과 스피커가 화면에서 멀어지더라도 비디오 피드가 스피커를 따라가는 자동 프레임 선택 기능도 있다. 마지막으로 영상 통화 이용자의 모습을 다양하게 변형시킨 얼굴로 바꿀 수 있고 배경 소음을 제거하고 어두운 곳에서 더 잘 보이도록 하거나 배경 화면을 전환하는 기능도 갖췄다.
이러한 맥신에 대해 물론 긍정적인 시각만 있는 것은 아니다. 일부 전문가들은 맥신의 얼굴 보정 기술에 대해 악의적인 딥페이크 기술로 악용될 수 있다는 우려를 제기하고 있다. 맥신에 이용되는 생성적 적대 신경망(GAN)이 존재하지도 않는 거짓 인물이나 사물을 만들어 냄으로써 야기하는 부정적 사회 문제나 컴퓨터 비전 알고리즘 편향 문제가 발생할 수 있다는 것이다.
하지만 이러한 우려에도 불구하고 향후 온라인 비디오 스트리밍 비즈니스에 대한 서비스 질이나 사용자 체감 품질(QoE)에 대한 소비자들의 니즈는 계속 증가할 것이라는 점에서는 이의가 없어 보인다.
AI로 달라지는 라이브 스트리밍과 웹 캐스팅
코로나19 이후 라이브 스트리밍과 웹 캐스팅 시장은 전례 없는 성장을 구가하고 있다. 글로벌 네트워크 솔루션 업체인 시스코의 전망에 따르면 2021년까지 전체 인터넷 트래픽 중에서 비디오가 차지하는 비율이 82%가 될 것이라고 한다.
이런 상황에서 AI는 영상 회의, 웹 캐스팅, 라이브 스트리밍 애플리케이션(앱)에 큰 영향을 미칠 것으로 전망된다. 비디오 라이브 스트리밍에 AI가 필요한 이유는 AI는 스트리밍 데이터를 보다 효율적으로 인코딩하고 배포하고 구성할 수 있는 방법을 제공하기 때문이다.
AI를 사용하면 사용자 요구에 따라 추가적인 기능 확장이 가능하고 안정적인 고급 비디오 스트리밍 네트워킹 솔루션을 구축할 수 있다. 특히 AI와 심층 신경망 기반 비디오 스트리밍 개선은 사용자 체감 향상과 비디오 소비 진작에 새로운 혁신을 불러일으킬 것으로 기대된다.
AI는 또한 비디오 라이브 스트리밍 영역에서 발생하는 많은 문제들, 즉 불법 콘텐츠 유통이나 저작권 침해 방지에 이르기까지 비디오 스트리밍 산업 발전 단계에서 중요한 안전판 역할을 할 것으로 보인다. AI는 스트리밍 콘텐츠를 해석하고 자동으로 메타 데이터를 추출할 수 있기 때문에 유해한 콘텐츠를 보다 효과적으로 모니터링하고 개인 정보를 보호할 수 있기 때문이다.
이에 따라 글로벌 소셜 미디어, 인터넷 동영상 서비스(OTT), 디지털 플랫폼 기업들은 최고의 라이브 비디오 스트리밍 경험을 소비자들에게 제공하기 위해 이 시간에도 치열한 경쟁을 벌이고 있다. 글로벌 플랫폼 기업들은 향후 영상 통화나 비디오 스트리밍 서비스에 대한 이용자 경험을 높이고 클라우드 네이티브 아키텍처로 대규모의 AI를 구현해 비용을 절감하려는 노력을 기울일 것으로 전망된다.
[본 기사는 한경비즈니스 제 1304호(2020.11.23 ~ 2020.11.29) 기사입니다.]
© 매거진한경, 무단전재 및 재배포 금지