[테크놀로지]
최소한의 비용과 시간으로 이익 극대화…‘가짜 영상’ 등 문제점 커질 수도
[한경비즈니스=정동훈 광운대 교수] 2016년 전 세계를 강타한 인공지능(AI) 컴퓨터 ‘알파고’를 시작으로 AI는 매우 보편적인 단어로 사용되고 있다.
최근에는 크게 유행하고 있는 ‘4차 산업혁명’이라는 용어 때문인지 어느 분야에서든지 AI를 얘기하지 않는 분야를 찾아보기 힘들다.
영상 분야도 AI 기술의 적용을 피할 수 없다. 영상 산업에서 AI 기술의 적용 분야는 제작 단계에서부터 시청자 분석까지 전 영역에 걸쳐 있다.
시청자 분석 데이터의 활용으로 유명한 넷플릭스의 사례로 이미 시청자 행동 데이터 분석의 중요성을 잘 알고 있다면 AI 기술의 중요성은 이미 두말할 나위가 없을 정도다.
◆영상 제작부터 후보정까지
하지만 AI는 단지 사용자 분석에만 머무르지 않는다. 먼저 영상 제작 단계를 살펴보자. 영상을 제작하기 위해서는 기획안이 있어야 한다.
영화를 제작하기 위해서는 시나리오가 필요하고 그에 따라 배우를 섭외해 촬영하며 편집 과정을 거친다. 편집 과정에서 다양한 후보정(post-production) 과정을 거치는데 이때 음악과 자막 작업도 함께 진행된다.
영상 제작 과정은 오랜 기간과 많은 비용을 필요로 한다. AI 기술이 영상 산업에서도 주류 기술로 활용될 것이라고 기대하는 이유는 바로 영상 산업이 갖고 있는 시간과 비용 면에서 비효율성을 극복할 수 있기 때문이다.
AI 기술이 시나리오 제작에 활용된 대표적 사례를 보자. 2016년 영화감독 오스카 샤프와 AI 학자인 로스 굿윈이 함께 만든 시나리오 전문 AI인 ‘벤저민(Benjamin)’이 그 주인공이다.
2016년 온라인으로만 개봉된 영화인 ‘선스프링(Sunspring)’은 9분짜리 공상과학 영화로 AI인 벤저민이 쓴 시나리오를 영화화한 것이다.
벤저민은 TV 시리즈인 ‘스타트렉(Star Trek)’이나 ‘엑스파일(X-File)’ 등 수십 편의 공상과학 시나리오를 학습하며 AI으로서 첫 시나리오를 완성했다.
(사진) 벤저민이 쓴 시나리오로 만든 영화 ‘선스프링’. /유튜브 화면 캡처
영화로 만들어질 정도의 시나리오가 가져야 할 기본 요소는 갖췄지만 그 속내를 들여다보면 영화로 만들어진 것이 무리였다는 생각이 들 정도로 이야기 전개가 안 되는 장면이 곳곳에서 보인다.
하지만 첫 작품이라는 의미가 컸기 때문일까. 이 작품은 영국 런던에서 개최하는 48시간 만에 공상과학 영화를 만들어야 하는 영화제(SCI-FI-LONDON 48hour Film Challenge)에서 10위 안에 드는 쾌거를 이뤘다. 유튜브 사이트에 영상이 무료로 올라와 있으니 제목으로 검색해 보면 금방 찾을 수 있다.
시나리오 작업은 이제 막 시작 단계이지만 후보정 작업은 이미 AI 기술이 상당 부분 진척된 분야다. 대표적인 예가 컴퓨터 그래픽(CG) 작업이다. 최근에는 AI 기술을 활용해 음성을 기반으로 CG를 제작한 영상이 소개돼 큰 반향을 일으켰다.
워싱턴대의 연구팀은 AI 기술을 통해 음성으로부터 입모양을 동기화하는 기술을 소개했다. 그들이 선보인 기술은 동영상을 통해 소개돼 일반인이 전율을 느낄 정도의 놀라움을 선사했다. 버락 오바마 미국 전 대통령의 특정 연설을 동기화해 다양한 오바마 전 대통령의 영상에서도 똑같은 입모양으로 연설하는 것이다.
가령 이런 식이다. A라는 영상에서 오바마 전 대통령이 B라는 내용의 말을 했는데 A가 아닌 어떤 오바마 전 대통령의 영상에서도 B라는 말을 아주 자연스럽게 입모습을 동기화해 보여준다(유튜브에서 ‘Synthesizing Obama’를 검색하면 된다). 이러한 기술의 활용 가능성은 영상 산업에서 무궁무진하게 이뤄질 수 있다.
(사진) 워싱턴대 연구팀이 선보인 AI 음성 기술을 버락 오바마 전 대통령의 연설에 적용한 이미지. /유튜브 화면 캡처
대표적으로 만화에서는 입모양을 자연스럽게 맞춰줘 시간과 비용을 절감할 수 있다. 실사 영상에서의 활용 사례는 무궁무진할 뿐만 아니라 그 효과 면에서도 강력하다.
예를 들어보자. 디지털 기술과 소셜 미디어의 발달로 발생한 사회적 문제 중 하나가 가짜 뉴
스(fake news)인데 영상 기술이 발달하면 이제 가짜 영상(fake video)이 활개 칠 수도 있다.
가령 유명인 A가 10년 전에 전혀 다른 상황에서 한 말을 이 기술로 편집한다면 바로 어제 엉뚱한 장소에서 얘기한 것으로 만들 수 있고 이것이 소셜 미디어로 확산된다면 그 영향력은 무시할 수 없을 정도로 클 것이다. 가짜 영상을 만들 수 있는 기술이 의도하지 않게 발생시킬 수 있는 부정적 사례다.
영상 편집의 대표 사례는 IBM의 AI 왓슨(Watson)을 들 수 있다. 왓슨은 2016년 9월 공포 영화 ‘모건(Morgan)’의 예고편을 만들었는데, 기존에 상영된 100여 편의 공포 영화 예고편을 학습한 결과였다.
배우의 표정, 화면 전환 효과, 속도·배경음악 등의 요소를 각각 데이터화한 뒤 그 요소들을 조합한 영상을 제작한 후 전문가인 사람의 평가를 받으면서 완성도가 더욱 높아졌다.
또 스포츠 하이라이트 제작 역시 이미 완성도 높은 결과를 제공한 적이 있다. 올해에는 세계적 테니스 대회인 유에스오픈의 하이라이트 영상을 편집하기도 했다.
다양한 통계 데이터를 활용하기도 하고 선수의 다이내믹한 움직임과 공이 선을 살짝 벗어나는 순간, 청중의 응원 모습까지 다양한 영상을 편집함과 동시에 이 영상을 대회 공식 애플리케이션과 페이스북에 자동으로 업로드하기도 했다. 영상 편집부터 유통까지 왓슨이 혼자 진행한 것이다.
영상 가운데 중요한 장면을 인식하고 특정 부분을 확대하는 등 시각 정보가 갖는 의미의 중요도를 이해한다는 점에서 해당 기술의 활용도는 매우 높다.
현재 영상 편집자가 생각하는 주요 장면의 모음인 하이라이트가 정말 시청자에게도 매력적으로 다가가는지는 순전히 편집자의 직관에 의존하고 있다.
하지만 AI 기술이 적용된다면 시청자가 좋아할 만한 장면을 데이터에 의거해 만들어 낼 수 있기 때문에 더 만족도 높은 영상을 제작할 수 있다.
◆평창 동계올림픽에서도 시연
AI를 이용한 자동 해설 방송과 시각장애인을 위한 정보 제공 방송도 개발에 박차를 가하고 있다. 일본 NHK방송은 2018년 평창 동계올림픽에서 생중계 시연하고 이어 2020년 도쿄 올림픽에서 모든 경기에 AI를 이용한 자동 해설 방송을 제공할 계획이다.
단순히 문자를 음성 데이터로 변환해 들을 수 있는 소리가 아니라 사람의 감정을 표현할 수 있는 코드를 통해 마치 인간이 실제로 해설하는 듯한 효과를 낼 수 있어 별도의 해설자 없이 경기를 설명할 수 있게 된다.
이와 같은 기술을 통해 해설자를 대체할 수 있을 뿐만 아니라 시각장애인은 기존 방식보다 더욱 풍부하면서도 실감나는 해설을 접할 수 있다.
음성과 관련된 기술은 이미 오래전부터 AI를 활용해 왔다. 구글은 ‘웨이브넷(WaveNet)’을 출시하며 인간의 음성을 생성하는 시스템을 소개했다.
반면 바이두는 ‘딥스피치(Deep Speech)’를 출시하며 인간의 음성을 문자로 변화시키는 시스템을 소개했다.
인간처럼 자연스러우면서도 감정이 담긴 소리를 내는 것은 쉽지 않지만 인간의 음성을 계속 학습하며 새로운 인간의 목소리를 만들어 내는 기술이 지속적으로 개발되고 있다.
이러한 기술이 어느 정도 궤도에 오르면 앞서 소개한 다양한 영상 AI 기술과 결부돼 영상 제작 편집 과정에서 전문가의 손길을 상당 부분 줄여줄 것이다.
이 밖에 기존 음악을 바탕으로 새로운 음악을 작곡하거나 소리가 제거된 영상에서 소리를 복원하는 기술, 유명 화가의 미술 작품을 따라 그리거나 두 개 이상의 그림을 합성해 만들어 내는 유사한 그림 등 영상 분야에 적용할 수 있는 청각과 시각 AI 기술이 지속적으로 소개될 것으로 보인다.
마지막으로 시청자가 시청한 영상 데이터를 분석한 후 시청자가 원하는 영상을 추천하는 서비스는 가장 빨리 상용화될 서비스다.
이미 AI를 활용한 시청자의 시청 행태 분석은 빅데이터 분석과 함께 기술 개발이 한창 진행 중이다.
콘텐츠를 사용하는 사용자 패턴을 인식함으로써 가장 좋아할 만한 영상을 찾아내는 것인데 풍부한 아카이브를 가지고 있는 환경에서 많이 알려지지 않은 영상을 소비할 수 있기 때문에 전형적인 롱테일(틈새 상품이 중요해지는 새로운 경제 패러다임) 법칙이 적용될 수 있는 분야다.
시청자가 원하는 영상을 그때그때 제공할 수만 있다면 시청 만족도를 높일 수 있을 뿐만 아니라 시청 빈도와 시간을 늘릴 수 있고 이는 자연스럽게 수익 창출로 이어질 수 있으므로 사업자로서도 가장 기대하는 기술이다.
이처럼 AI는 영상 제작에서부터 시청에 이르기까지 전 과정에 걸쳐 적용되고 있다. 영상 시장에서 AI 기술이 기대되는 이유는 영상 제작자와 유통업자 그리고 시청자 모두에게 이익이 되기 때문이다.
최소한의 비용과 시간으로 시청자가 원하는 작품을 만들 수 있다면 그리고 언제 어떤 환경에서 제공될 때 시청자 만족도가 높다는 것을 알 수만 있다면 사용자 경험은 극대화될 것이다. AI가 영상 산업의 주류 기술로 등장할 것이라고 예측되는 이유다.
벤저민이 쓴 시나리오로 만든 영화 ‘선스프링’.
최소한의 비용과 시간으로 이익 극대화…‘가짜 영상’ 등 문제점 커질 수도
[한경비즈니스=정동훈 광운대 교수] 2016년 전 세계를 강타한 인공지능(AI) 컴퓨터 ‘알파고’를 시작으로 AI는 매우 보편적인 단어로 사용되고 있다.
최근에는 크게 유행하고 있는 ‘4차 산업혁명’이라는 용어 때문인지 어느 분야에서든지 AI를 얘기하지 않는 분야를 찾아보기 힘들다.
영상 분야도 AI 기술의 적용을 피할 수 없다. 영상 산업에서 AI 기술의 적용 분야는 제작 단계에서부터 시청자 분석까지 전 영역에 걸쳐 있다.
시청자 분석 데이터의 활용으로 유명한 넷플릭스의 사례로 이미 시청자 행동 데이터 분석의 중요성을 잘 알고 있다면 AI 기술의 중요성은 이미 두말할 나위가 없을 정도다.
◆영상 제작부터 후보정까지
하지만 AI는 단지 사용자 분석에만 머무르지 않는다. 먼저 영상 제작 단계를 살펴보자. 영상을 제작하기 위해서는 기획안이 있어야 한다.
영화를 제작하기 위해서는 시나리오가 필요하고 그에 따라 배우를 섭외해 촬영하며 편집 과정을 거친다. 편집 과정에서 다양한 후보정(post-production) 과정을 거치는데 이때 음악과 자막 작업도 함께 진행된다.
영상 제작 과정은 오랜 기간과 많은 비용을 필요로 한다. AI 기술이 영상 산업에서도 주류 기술로 활용될 것이라고 기대하는 이유는 바로 영상 산업이 갖고 있는 시간과 비용 면에서 비효율성을 극복할 수 있기 때문이다.
AI 기술이 시나리오 제작에 활용된 대표적 사례를 보자. 2016년 영화감독 오스카 샤프와 AI 학자인 로스 굿윈이 함께 만든 시나리오 전문 AI인 ‘벤저민(Benjamin)’이 그 주인공이다.
2016년 온라인으로만 개봉된 영화인 ‘선스프링(Sunspring)’은 9분짜리 공상과학 영화로 AI인 벤저민이 쓴 시나리오를 영화화한 것이다.
벤저민은 TV 시리즈인 ‘스타트렉(Star Trek)’이나 ‘엑스파일(X-File)’ 등 수십 편의 공상과학 시나리오를 학습하며 AI으로서 첫 시나리오를 완성했다.
(사진) 벤저민이 쓴 시나리오로 만든 영화 ‘선스프링’. /유튜브 화면 캡처
영화로 만들어질 정도의 시나리오가 가져야 할 기본 요소는 갖췄지만 그 속내를 들여다보면 영화로 만들어진 것이 무리였다는 생각이 들 정도로 이야기 전개가 안 되는 장면이 곳곳에서 보인다.
하지만 첫 작품이라는 의미가 컸기 때문일까. 이 작품은 영국 런던에서 개최하는 48시간 만에 공상과학 영화를 만들어야 하는 영화제(SCI-FI-LONDON 48hour Film Challenge)에서 10위 안에 드는 쾌거를 이뤘다. 유튜브 사이트에 영상이 무료로 올라와 있으니 제목으로 검색해 보면 금방 찾을 수 있다.
시나리오 작업은 이제 막 시작 단계이지만 후보정 작업은 이미 AI 기술이 상당 부분 진척된 분야다. 대표적인 예가 컴퓨터 그래픽(CG) 작업이다. 최근에는 AI 기술을 활용해 음성을 기반으로 CG를 제작한 영상이 소개돼 큰 반향을 일으켰다.
워싱턴대의 연구팀은 AI 기술을 통해 음성으로부터 입모양을 동기화하는 기술을 소개했다. 그들이 선보인 기술은 동영상을 통해 소개돼 일반인이 전율을 느낄 정도의 놀라움을 선사했다. 버락 오바마 미국 전 대통령의 특정 연설을 동기화해 다양한 오바마 전 대통령의 영상에서도 똑같은 입모양으로 연설하는 것이다.
가령 이런 식이다. A라는 영상에서 오바마 전 대통령이 B라는 내용의 말을 했는데 A가 아닌 어떤 오바마 전 대통령의 영상에서도 B라는 말을 아주 자연스럽게 입모습을 동기화해 보여준다(유튜브에서 ‘Synthesizing Obama’를 검색하면 된다). 이러한 기술의 활용 가능성은 영상 산업에서 무궁무진하게 이뤄질 수 있다.
(사진) 워싱턴대 연구팀이 선보인 AI 음성 기술을 버락 오바마 전 대통령의 연설에 적용한 이미지. /유튜브 화면 캡처
대표적으로 만화에서는 입모양을 자연스럽게 맞춰줘 시간과 비용을 절감할 수 있다. 실사 영상에서의 활용 사례는 무궁무진할 뿐만 아니라 그 효과 면에서도 강력하다.
예를 들어보자. 디지털 기술과 소셜 미디어의 발달로 발생한 사회적 문제 중 하나가 가짜 뉴
스(fake news)인데 영상 기술이 발달하면 이제 가짜 영상(fake video)이 활개 칠 수도 있다.
가령 유명인 A가 10년 전에 전혀 다른 상황에서 한 말을 이 기술로 편집한다면 바로 어제 엉뚱한 장소에서 얘기한 것으로 만들 수 있고 이것이 소셜 미디어로 확산된다면 그 영향력은 무시할 수 없을 정도로 클 것이다. 가짜 영상을 만들 수 있는 기술이 의도하지 않게 발생시킬 수 있는 부정적 사례다.
영상 편집의 대표 사례는 IBM의 AI 왓슨(Watson)을 들 수 있다. 왓슨은 2016년 9월 공포 영화 ‘모건(Morgan)’의 예고편을 만들었는데, 기존에 상영된 100여 편의 공포 영화 예고편을 학습한 결과였다.
배우의 표정, 화면 전환 효과, 속도·배경음악 등의 요소를 각각 데이터화한 뒤 그 요소들을 조합한 영상을 제작한 후 전문가인 사람의 평가를 받으면서 완성도가 더욱 높아졌다.
또 스포츠 하이라이트 제작 역시 이미 완성도 높은 결과를 제공한 적이 있다. 올해에는 세계적 테니스 대회인 유에스오픈의 하이라이트 영상을 편집하기도 했다.
다양한 통계 데이터를 활용하기도 하고 선수의 다이내믹한 움직임과 공이 선을 살짝 벗어나는 순간, 청중의 응원 모습까지 다양한 영상을 편집함과 동시에 이 영상을 대회 공식 애플리케이션과 페이스북에 자동으로 업로드하기도 했다. 영상 편집부터 유통까지 왓슨이 혼자 진행한 것이다.
영상 가운데 중요한 장면을 인식하고 특정 부분을 확대하는 등 시각 정보가 갖는 의미의 중요도를 이해한다는 점에서 해당 기술의 활용도는 매우 높다.
현재 영상 편집자가 생각하는 주요 장면의 모음인 하이라이트가 정말 시청자에게도 매력적으로 다가가는지는 순전히 편집자의 직관에 의존하고 있다.
하지만 AI 기술이 적용된다면 시청자가 좋아할 만한 장면을 데이터에 의거해 만들어 낼 수 있기 때문에 더 만족도 높은 영상을 제작할 수 있다.
◆평창 동계올림픽에서도 시연
AI를 이용한 자동 해설 방송과 시각장애인을 위한 정보 제공 방송도 개발에 박차를 가하고 있다. 일본 NHK방송은 2018년 평창 동계올림픽에서 생중계 시연하고 이어 2020년 도쿄 올림픽에서 모든 경기에 AI를 이용한 자동 해설 방송을 제공할 계획이다.
단순히 문자를 음성 데이터로 변환해 들을 수 있는 소리가 아니라 사람의 감정을 표현할 수 있는 코드를 통해 마치 인간이 실제로 해설하는 듯한 효과를 낼 수 있어 별도의 해설자 없이 경기를 설명할 수 있게 된다.
이와 같은 기술을 통해 해설자를 대체할 수 있을 뿐만 아니라 시각장애인은 기존 방식보다 더욱 풍부하면서도 실감나는 해설을 접할 수 있다.
음성과 관련된 기술은 이미 오래전부터 AI를 활용해 왔다. 구글은 ‘웨이브넷(WaveNet)’을 출시하며 인간의 음성을 생성하는 시스템을 소개했다.
반면 바이두는 ‘딥스피치(Deep Speech)’를 출시하며 인간의 음성을 문자로 변화시키는 시스템을 소개했다.
인간처럼 자연스러우면서도 감정이 담긴 소리를 내는 것은 쉽지 않지만 인간의 음성을 계속 학습하며 새로운 인간의 목소리를 만들어 내는 기술이 지속적으로 개발되고 있다.
이러한 기술이 어느 정도 궤도에 오르면 앞서 소개한 다양한 영상 AI 기술과 결부돼 영상 제작 편집 과정에서 전문가의 손길을 상당 부분 줄여줄 것이다.
이 밖에 기존 음악을 바탕으로 새로운 음악을 작곡하거나 소리가 제거된 영상에서 소리를 복원하는 기술, 유명 화가의 미술 작품을 따라 그리거나 두 개 이상의 그림을 합성해 만들어 내는 유사한 그림 등 영상 분야에 적용할 수 있는 청각과 시각 AI 기술이 지속적으로 소개될 것으로 보인다.
마지막으로 시청자가 시청한 영상 데이터를 분석한 후 시청자가 원하는 영상을 추천하는 서비스는 가장 빨리 상용화될 서비스다.
이미 AI를 활용한 시청자의 시청 행태 분석은 빅데이터 분석과 함께 기술 개발이 한창 진행 중이다.
콘텐츠를 사용하는 사용자 패턴을 인식함으로써 가장 좋아할 만한 영상을 찾아내는 것인데 풍부한 아카이브를 가지고 있는 환경에서 많이 알려지지 않은 영상을 소비할 수 있기 때문에 전형적인 롱테일(틈새 상품이 중요해지는 새로운 경제 패러다임) 법칙이 적용될 수 있는 분야다.
시청자가 원하는 영상을 그때그때 제공할 수만 있다면 시청 만족도를 높일 수 있을 뿐만 아니라 시청 빈도와 시간을 늘릴 수 있고 이는 자연스럽게 수익 창출로 이어질 수 있으므로 사업자로서도 가장 기대하는 기술이다.
이처럼 AI는 영상 제작에서부터 시청에 이르기까지 전 과정에 걸쳐 적용되고 있다. 영상 시장에서 AI 기술이 기대되는 이유는 영상 제작자와 유통업자 그리고 시청자 모두에게 이익이 되기 때문이다.
최소한의 비용과 시간으로 시청자가 원하는 작품을 만들 수 있다면 그리고 언제 어떤 환경에서 제공될 때 시청자 만족도가 높다는 것을 알 수만 있다면 사용자 경험은 극대화될 것이다. AI가 영상 산업의 주류 기술로 등장할 것이라고 예측되는 이유다.
벤저민이 쓴 시나리오로 만든 영화 ‘선스프링’.