시각·언어 정보 행동으로 바꾸는 VLA 모델 기반…자연어로 로봇 제어

스스로 학습하고 말귀 알아듣는 로봇 RT-2[테크트렌드]
지난해 등장한 챗GPT의 열풍에 따라 다양한 자연어 처리 작업을 수행하는 거대 언어 모델(LLM : Large Language Model)이 주목받고 있다. LLM은 대규모 데이터 세트에서 훈련된 지식을 기반으로 텍스트를 생성할 수 있는 인공지능(AI) 모델이고 챗GPT는 오픈AI가 개발한 대화형 작업에 특화된 LLM 모델의 하나다.

최근 LLM은 텍스트 생성을 넘어 자연어 처리와 이미지 인식이 결합된 소위 시각 언어 모델(VLM : Vision Language Model)로 발전하고 있다. VLM은 언어와 시각 인식 기능을 동시에 갖추고 텍스트·이미지·동영상을 동시에 처리할 수 있는 멀티모달 언어 모델(multi-modal language model)이다.

VLM으로는 구글의 플라밍고(Flamingo)가 있다. 플라밍고는 800억 개의 매개 변수를 가진 최신 VLM으로 글자·사진·영상을 모두 처리할 수 있다. 개별적으로 사전 훈련된 시각·언어 모델을 결합해 입력한 이미지·비디오에 대한 질문에 답하거나 짧은 동영상에 대한 설명을 작성할 수 있다.

컴퓨터 비전 기술에 기반해 시각적 정보를 언어 모델에 적용하면 다양한 분야에 활용될 수 있다. 대표적인 것이 구글의 LLM 모델 팜(PaLM)에 비전 모델과 로봇 제어를 접목해 지난 3월 공개한 범용 로봇 모델 팜-E(PaLM-E)다.

챗GPT의 3배가 넘는 5620억 개의 매개 변수를 지닌 가장 큰 규모의 VLM인 팜-E는 자사 LLM인 팜에 로봇 에이전트의 센서 데이터를 적용해 구현한다. 사전 학습 없이 실제 로봇 센서 데이터를 수집하고 이를 언어 모델에 제공해 일상생활 환경에서 다양한 물체를 파악하고 제어할 수 있다. 트랜스포머 기반 시각 언어 행동(VLA) 모델 부상팜-E가 한 단계 진화한 모델이 최근 공개됐다. 지난 7월 말 구글 로봇 사업부에서 비공개로 시연된 구글의 로보틱 트랜스포머 알티-2(RT-2 : Robotic Transformer 2)가 그것이다. 알티-2는 구글의 딥마인드가 개발한 트랜스포머 기반의 시각 언어 행동(VLA : Vision-Language-Action) 모델이다. 세계 최초로 웹과 로봇 데이터를 학습해 시각과 언어 패턴을 효과적으로 인식하고 이를 통해 얻은 지식을 자연어를 통해 로봇을 직접 제어할 수 있다.

물론 구글은 이미 지난해 13만 번의 시연을 훈련하고 97%의 성공률로 700개 이상의 작업 수행이 가능한 알티-1(RT-1)을 선보인 바 있다. 하지만 이번에 공개된 알티-2는 알티-1과는 몇 가지 점에서 차이가 난다.

기본적인 차이는 알티-1에서는 로봇이 작업을 수행하기 위해 일일이 행동 지침을 입력하는 등 사전 프로그래밍이 필요하다는 점이다. 알티-2는 소량의 로봇 데이터 세트에서 학습하고 이전에 학습받지 않은 새로운 작업도 스스로 추론해 수행한다. 이것이 가능한 것은 VLM이 이미 시각적 질문·응답, 이미지 캡션 또는 객체 인식과 같은 작업을 수행하기 위해 웹 규모의 데이터로 스스로 학습됐기 때문이다.

알티-2는 보통 현실 세계에서 작업을 수행하기 위해 물리적 세계의 모든 개체와 상황에 따른 엄청난 수의 데이터 포인트에 대한 훈련이 필요 없다. 예를 들어 과거에는 쓰레기를 버리도록 로봇을 훈련시킬 때 쓰레기를 식별하고 집어 던지도록 훈련시켰다. 하지만 알티-2는 이미 쓰레기가 무엇인지 직접적인 교육 없이도 쓰레기를 식별하고 어떻게 버리는지 행동으로 옮긴다.

최근 공개된 알티-2의 몇 가지 데모 영상을 보면 매우 흥미로운 모습을 볼 수 있다. 알티-2가 멸종된 동물을 집어 들라는 사용자의 메시지를 듣자 많은 물품 중에서 공룡 미니어처를 판별해 들어 올린다. 집 안에 어지럽게 흩어져 있는 옷가지들을 색깔별로 구별하거나 비슷한 것들로 분류해 서랍에 유형별로 넣을 수도 있다. 이미지·영상에서 개별 객체 구별하는 컴퓨터 비전 기술어떻게 이 로봇은 멸종 동물이라는 말에 그 많은 물건들 중 공룡을 구별해 낼 수 있을까.

멸종 동물이라는 추상적·시각적 정보를 언어 모델과 접목하기 위해서는 우선 컴퓨터가 각각의 이미지를 구별하고 인식할 수 있어야 한다. 즉 이미지 내에서 특정 객체를 분할할 수 있는 기술이 필요하다. 소위 이미지 분리(image segmentation) 기술이 그것인데, 이 기술은 이미지에서 영역을 식별하고 다른 클래스로 주석을 다는 것(labelling)을 말한다. 주로 이미지나 영상 데이터를 분류할 때 쓰이는 합성곱 신경망(CNN : Convolutional Neural Networks)이 주로 사용된다.

하지만 최근 CNN을 기반으로 한층 향상된 이미지 분리 기술이 나왔다. 기존의 이미지 분리가 이미지 전체에 대해 주석을 달았다면 이 새로운 이미지 분리 기술은 이미지 내에 각각의 개체에 대해 경계를 부여하고 분리된 각각의 이미지에 대한 개별 정보를 AI가 인식할 수 있게 알아서 처리한다.
대표적인 기술이 최근 메타 AI(Meta AI)에서 공개한 컴퓨터 비전 기술 샘(SAM : Segment Anything Model)이다. 샘은 텍스트 입력이나 이미지 클릭만으로 컴퓨터가 이미지나 영상에서 필요한 부분을 분리해 개체를 감지해 낸다. 과거에는 일일이 이미지를 사람이 분리했지만 샘은 이러한 작업을 자동화했다.

샘이 텍스트만으로 이미지를 분리할 수 있는 것은 VLM 덕분이다. 샘은 4가지 유형(점·박스·마스크·텍스트)의 사용자 입력을 받아 이를 하나의 언어 모델로 처리할 수 있고 이를 위해 이미지를 일반 텍스트 토큰으로 취급한다. 여기서 토큰은 언어를 처리하고 생성하는 데 사용되는 텍스트의 기본 단위로, 하나의 단어 또는 단락으로 보면 된다. 컴퓨터가 자연어를 이해하지 못하기 때문에 토큰으로 잘라 벡터, 즉 단어를 숫자로 전환한다.VLA 기반 지능화 로봇 어디에서 필요한가이처럼 최근 부상하는 LLA 모델은 어떻게 AI 기술이 로봇공학과 접목돼 새로운 혁신을 창출하는지 보여주는 사례다. 로봇이 주변 환경의 물체를 식별하고 사람의 감정을 이해하고 주변 환경의 위험을 감지해 행동으로 수행할 수 있게 된 것이다

특히 이번에 공개된 알티-2와 같은 VLA 모델은 향후 다양한 실제 활동을 수행하기 위해 정보를 추론하고 문제를 해결하고 해석할 수 있는 상황 인식 로봇으로 진화할 것으로 예상된다. 마치 픽사의 장편 애니메이션 청소 로봇 월-E처럼 정보를 행동으로 옮기는 생각하는 로봇인 것이다.

이러한 유형의 로봇은 의료나 자율 주행차 등 다양한 사업 분야에서 활용될 수 있지만 우리가 가장 체감할 수 있는 분야는 아마도 지능화된 가정용 로봇일 것이다.

예를 들어 지난 5월 개발된 LLM 기반 구글의 가정 청소용 개인화 로봇 타이디봇(TidyBot)은 음료수 캔을 재활용하고 쓰레기를 버리고 가방과 가구를 치우는 작업을 수행한다. 구글은 지능형 로봇을 만들기 위해 작년 8월 자사 LLM 팜을 기반으로 팜세이캔(PaLM-SayCan) 시스템을 개발한 바 있다. 아마존도 기존의 가정용 로봇인 아스트로(Astro)를 업그레이드한 새로운 LLM 기반의 가정용 로봇 개발 프로젝트 번햄(Burnham)을 추진 중이다.

지능형 로봇은 기존의 로봇이 갖고 있는 규칙 기반(rule based) 명령 수행을 넘어 가정 내 다양한 맥락과 사용자의 니즈를 파악하고 복잡한 말을 이해하고 집안일을 처리할 수 있다는 장점이 있다. 특히 집 안에 노약자나 병자가 있으면 집 안에서 벌어지는 위험을 미리 감지하고 대응한다는 차원에서 고령화 사회에 대비하는 매우 유용한 솔루션이 될 것으로 보인다.

심용운 SK경영경제연구소 수석연구원