구글, 메타 AI 이미지 생성기 공개…윤리 문제는 풀어야 할 숙제

“AI 화가님, 귀여운 곰을 수채화로 그려 줘요”[테크트렌드]

#텍스트를 입력하면 인공지능(AI)이 알아서 디지털 이미지를 생성한다. 흐릿한 사진을 선명하게 만들거나 문장을 입력하기만 해도 사실적이고 예술적인 그림이나 사진을 만들어 낼 수 있다. 심지어 세상에 존재하지 않는 사람의 초상화나 물건도 창조해 낸다.

최근 구글과 메타 등 글로벌 정보기술(IT) 기업들이 AI를 이용해 텍스트를 이미지로 생성해 주는 AI 엔진 도구들을 공개하고 있다. AI 이미지 생성기는 말 그대로 텍스트와 간단한 스케치를 사용해 디지털 이미지를 생성할 수 있게 하는 AI 시스템이다.

물론 텍스트를 입력해 AI로 이미지를 생성해 준다는 것은 이미 낯선 기술이 아니다. 2014년 등장한 ‘생성적 적대 신경망’인 GAN(Generative Adversarial Networks)을 기반으로 2019년 공개된 엔비디아의 고갱(GauGan) 같은 생성 모델이 대표적이다. 2021년 1월에는 오픈 AI의 달리(DALL-E)가 출시되기도 했다. 한국에서도 올해 4월 카카오브레인의 ‘RQ-트랜스포머’나 LG AI 연구원의 초거대 멀티모달(Multi-modal) AI ‘엑사원(EXAONE)’이 텍스트로 이미지를 생성하는 모델이다.

AI 이미지 생성기의 초기 버전이라고 할 수 있는 GAN은 이미지를 생성하는 ‘생성자(generator)’와 해당 이미지의 진위를 판별하는 ‘판별자(discriminator)’라는 두 개의 인공 신경망이 경쟁하도록 해 그럴 듯한 유사 이미지를 만들어 내는 비지도 학습 기반의 이미지 생성기다.

이러한 새로운 이미지 생성 모델은 지도 학습의 한계를 벗어나 초현실적인 디지털 이미지를 만들어 낸다는 점에서 각광 받아 왔다. 하지만 이러한 장점에도 불구하고 적대적 훈련이나 훈련 절차 수행의 어려움 그리고 거짓 데이터에 대한 윤리적 문제점이 제기되기도 했다.

따라서 이에 대한 대안으로 최근에는 확산 모델(diffusion model)이나 자기 회귀 모델(autoregressive model)에 기반한 새로운 이미지 생성 AI가 부상하고 있다. 확산 모델 대표 주자, 구글의 ‘이매젠’2015년 제안된 확산 모델은 학습된 데이터와 유사한 데이터를 생성하는 데 사용되는 생성 모델이다. 무작위 노이즈 이미지에서 이미지를 생성하는 GAN과 달리 노이즈 이미지를 가져온 다음 노이즈를 점진적으로 제거한 후 역으로 깨끗한 이미지가 생성될 때까지 반복해 노이즈를 제거해 순수한 노이즈에서 데이터를 합성하는 방법이다.

대표적인 확산 모델은 미국의 AI 연구소인 오픈 AI가 개발한 ‘달리2(DALL-E 2)’가 있다. 오픈 AI는 이미 2021년 간단한 텍스트 설명을 기반으로 이미지를 생성할 수 있는 AI 모델로 ‘달리’를 공개한 바 있다. 최근 공개한 ‘달리2’는 기존 대비 4배 해상도로 더 현실감 있고 사실적인 이미지를 생성한다. ‘달리2’의 강점은 자연어 처리(NLP)와 이미지 인식 기술을 활용해 과거에 학습한 적이 없던 세상에 존재하지 않는 새로운 이미지도 생성해 낸다는 것이다.

최근 공개된 확산 모델은 구글의 ‘이매젠(Imagen)’을 들 수 있다. 구글은 지난 5월 자체 텍스트-이미지 모델인 ‘이매젠’을 내놓았다. ‘이매젠’을 이용해 간단한 문장을 입력하면 AI가 사실적인 그래픽 디자인으로 전환해 준다.

이것이 가능한 것은 AI 이미지 생성기가 이미지를 설명하는 데 사용되는 단어 간의 관계를 이해하기 때문이다. 특히 이미지에 대한 설명이 많아지면 이 AI 모델은 다양한 개념이나 속성 등을 연관시켜 더 정확한 이미지를 생성해 낸다. 예를 들어 ‘곰 사진’과 ‘곰 수채화’라는 상이한 텍스트를 넣으면 ‘곰 수채화’의 경우 ‘곰 사진’보다 좀 더 그림에 가까운 이미지를 생성하게 된다.

한편 최근 ‘달리2’의 경쟁자로 거론되는 미드저니(MideJourney)는 인간의 상상을 텍스트에서 예술 작품으로 바꿔 주는 AI 기반의 이미지 생성기다. 미드저니는 지난 7월 오픈 베타 버전으로 출시됐고 단 몇 줄의 문장을 입력하면 약 1분 후 멋진 예술적 이미지를 생성한다. 특이한 점은 이미지 생성을 위한 모든 명령은 채팅 애플리케이션(앱) ‘디스코드(Discord)’에서 수행된다는 것이다.

미드저니 베타 사용자는 약 25개의 무료 이미지를 얻을 수 있지만 이후 ‘달리2’와 같이 한 달에 10달러를 지불하고 약 200개의 이미지를 만들 수 있다.

이런 확산 모델에도 약점이 없는 것은 아니다. GAN에 비해 계산 리소스가 더 많이 필요하고 이미지에서 노이즈를 제거하는 단계가 많다 보니 노이즈 제거로 인해 속도가 느리다는 한계가 있다.자기 회귀 모델 대표 주자, 메타의 ‘메이크어신’자기 회귀 모델은 VAE(Variational Autoencoder)나 GAN같은 이미지 심층 생성 모델이다. 다만 기존 생성 모델처럼 학습하지 않은 새로운 데이터를 만들어 내는 것이 아니고 이전 데이터를 기반으로 예측해 만들어 내는 방식이다.

자기 회귀 모델로 대표적인 것은 최근 공개된 메타의 메이크어신(Make-A-Scene’)이다. 메타의 AI 연구소인 ‘메타 AI’는 7월 텍스트-이미지 생성 AI인 메이크어신을 공개했다. 메이크어신의 특징은 이미지를 생성하기 위해 텍스트 설명뿐만 아니라 사용자가 만든 스케치를 사용한다는 점이다. 즉, 최종 이미지가 생성되기 전에 스케치를 사용해 디지털 그림을 그리거나 동화책 삽화 등을 즉시 생성할 수 있다.

또 대부분의 AI 시스템이 텍스트의 한계로 인해 이미지가 어떻게 나올지 모른다는 한계가 있지만 메이크어신은 누구나 상상할 수 있는 것을 표현할 수 있다. 메타가 웹사이트에 제시한 자전거를 타는 얼룩말 그림의 경우 자전거나 얼룩말의 크기가 원래 의도와 다르게 나타날 수 있지만 메이크어신을 이용하면 이러한 문제가 해결된다.

이에 대해 메이크어신은 자사 블로그를 통해 사용자가 "다양한 요소·형태·배열·깊이·구성·구조를 사용해 보다 구체적으로 비전을 전달하기 위해 텍스트와 간단한 그림을 모두 사용할 수 있는 방법을 보여준다”고 설명했다. 다만 자기 회귀 모델은 일반적으로 합성 속도가 느리다는 단점이 있다.

한편 지난 6월 공개된 구글의 또 다른 이미지 AI 생성기인 ‘파티(PARTI : Pathways Autoregressive Text-to-Image)’는 사용자의 간단한 텍스트 프롬프터로부터 최대 200억 개의 매개 변수까지 확장할 수 있는 인코더·디코더를 통해 초현실적인 이미지를 생성하는 텍스트·이미지 AI 생성 모델이다.

확산 모델인 이매젠·달리2와 달리 파티는 자동 회귀 모델을 따른다. 즉, 이미지 모음을 퍼즐 조각과 유사한 일련의 코드 항목으로 변환시킨 후 주어진 텍스트 프롬프트가 이러한 코드 항목으로 번역돼 새 이미지가 생성된다. AI 기반 이미지 생성기의 사회적 부작용 최소화 노력 필요이미지를 생성하는 AI 기술은 실제로 상용화된 지는 몇 년 안 됐지만 최근 품질이 많이 개선되며 게임이나 디지털 아트, 미디어 영상 분야에서도 활용하는 사례가 늘어나고 있다. 특히 최근에는 단순히 텍스트에서 이미지를 생성하는 것뿐만 아니라 이미지를 텍스트로 설명하는 멀티모달 AI가 등장하면서 새로운 시장 창출의 기대가 높아지고 있는 상황이다.

하지만 일부에서는 텍스트·이미지 도구의 효용성에도 불구하고 이러한 AI를 이용한 이미지 생성기가 데이터 자체의 편향성으로 인해 윤리적 문제를 야기할 수 있다는 우려를 표시해 왔다. 실제로 이러한 도구에 사용되는 데이터가 종종 사회적 또는 문화적 편견과 사회적 소수자들에 대한 경멸적인 결과를 가져오기도 했다. 이미 가짜 이미지를 사용해 온라인에서 허위 정보가 유통되는 일도 종종 벌어지고 있다.

이에 따라 구글은 이매젠이나 파티를 AI 데이터의 편견 위험에 노출되지 않도록 일반인에게 공개하지 않고 있다. 특히 파티와 같은 모델은 사회적 편견을 포함하는 특정 유형의 데이터 세트로 훈련되기 때문에 최종 결과물의 편향성이 나타날 가능성이 높은 것으로 알려져 있다.

이런 맥락에서 AI가 창의적 표현을 발전시킬 수 있는 잠재력을 실현시키기 위해서는 시스템이 생성하는 콘텐츠를 인간이 제어할 수 있도록 해야 한다는 메타의 정책이나 유해한 콘텐츠에 대한 조정 기능을 사용하는 미드저니의 정책이 시사하는 바가 크다. 향후 AI와 인간이 협업하는 시대에서 AI가 초래하는 부작용을 최소화하고 신뢰할 수 있는 AI를 실현하기 위한 노력이 필요할 것으로 보인다.

심용운 SK경영경제연구소 수석연구원