노래하는 모나리자 사진 한 장으로 립싱크 가능한 AI 나왔다 │ 매거진한경

VASA-1 기술이 적용된 모나리자/사진=@minchoi X 게시글 갈무리

최근 레오나르도 다 빈치의 모나리자 그림이 배우 앤 해서웨이의 ‘파파라치’ 랩에 맞춰 립싱크하는 영상이 SNS에서 화제가 됐다. 18일 X(구 트위터)에 게시된 해당 영상은 4일 만에 700만 조회수를 기록했다.

온라인상에서 뜨거운 반응을 얻은 이 영상은 마이크로소프트의 새로운 인공지능(AI) 모델인 ‘VASA-1’으로 제작됐다.

마이크로소프트가 19일 발표한 AI 신기술 VASA-1은 단일 인물 사진과 음성 파일만으로 ‘말하는 얼굴’을 생성한다. 만화 캐릭터나 사진, 그림을 실시간으로 노래하거나 말하게 만들 수 있으며, 얼굴 움직임을 사실적으로 구현해 낸다.

전면 이미지뿐만 아니라 좌우 방향의 모습으로도 적용이 가능하며, 사용자의 눈동자 방향, 머리의 거리, 심지어 감정까지 표현할 수 있는 능력을 갖췄다.

마이크로소프트는 모나리자의 랩 영상 이외에도, 실제 사진 속 인물이 일상적인 대화를 하는 등 AI 기술을 적용한 영상들을 연달아 공개했다.

하지만, 마이크로소프트는 VASA-1 기술을 바로 배포하지 않을 계획이다.

마이크로소프트 연구팀은 신기술의 위험성을 언급하면서 “해당 기술이 규정에 따라 책임감 있게 사용될 것이라는 확신이 들 때까지 온라인 데모나 제품을 출시할 계획이 없다”고 말했다.

또 “다른 생성 기술과 마찬가지로 사람을 사칭하는 데 오용될 가능성이 있다”면서 “우리는 실제 인물을 오해할 소지가 있거나 유해한 내용을 생성하는 행위에 반대하며, 우리의 첨단 위변조 탐지 기술을 적용하기 위해 노력하고 있다”고 밝혔다.

이들은 오용의 가능성 인식과 더불어 AI 기술의 긍정적인 요소도 함께 강조했다. “교육 형평성을 강화하고, 의사소통에 어려움이 있는 개인의 접근성 향상, 도움이 필요한 사람들에게 치료 지원을 제공하는 등의 이점은 우리 연구의 중요성을 강조한다”며 “’인간의 행복 증진’이라는 목표를 가지고 책임감 있게 AI를 개발하는 데 전념하고 있다”고 전했다.

한편, AI 기술이 발전하면서 전 세계에서 딥페이크(AI 기술을 이용해 기존 인물의 얼굴 등을 합성한 편집물) 악용 사례가 늘어나고 있다.

올해 초에는 미국 가수 테일러 스위프트와 셀레나 고메즈의 얼굴을 적용한 딥페이크 음란 동영상이 유포되었으며, 이탈리아 조르자 멜로니 총리의 얼굴을 합성한 딥페이크 포르노도 유통된 바 있다. 일론 머스트 테슬라 CEO는 자신의 코인 투자자 모집 딥페이크 영상에 “내가 아니다”라고 댓글을 다는 일도 있었다.

가디언에 따르면 지난해 1월~9월 사이에만 이용자 수 상위 40개 딥페이크 음란물 사이트에 무려 14만 3,733개의 딥페이크 음란물이 올라왔다. 이는 2022년 한 해 동안 게시된 전체 영상을 합친 것보다 많은 수치다.

김민주 기자 minjoo@hankyung.com

한경BUSINESS

노래하는 모나리자? 사진 한 장으로 립싱크 가능한 AI 나왔다

노래하는 모나리자? 사진 한 장으로 립싱크 가능한 AI 나왔다

"은행가려면 걸어서 못 가"…은행 점포 1년새 50곳 넘게 문 닫았다

영화 아틀라스 '태양광 전기차' 美 출시…LG엔솔 배터리 단독 공급

[속보]국힘34% VS 민주36%

“우리가 어떤 민족?” 한국 여권 파워 세계 3위

권성동 "전공의 현장복귀 장애물 제거하겠다"