매거진한경

# VLA

스스로 학습하고 말귀 알아듣는 로봇 RT-2[테크트렌드]

지난해 등장한 챗GPT의 열풍에 따라 다양한 자연어 처리 작업을 수행하는 거대 언어 모델(LLM : Large Language Model)이 주목받고 있다. LLM은 대규모 데이터 세트에서 훈련된 지식을 기반으로 텍스트를 생성할 수 있는 인공지능(AI) 모델이고 챗GPT는 오픈AI가 개발한 대화형 작업에 특화된 LLM 모델의 하나다. 최근 LLM은 텍스트 생성을 넘어 자연어 처리와 이미지 인식이 결합된 소위 시각 언어 모델(VLM : Vision Language Model)로 발전하고 있다. VLM은 언어와 시각 인식 기능을 동시에 갖추고 텍스트·이미지·동영상을 동시에 처리할 수 있는 멀티모달 언어 모델(multi-modal language model)이다. VLM으로는 구글의 플라밍고(Flamingo)가 있다. 플라밍고는 800억 개의 매개 변수를 가진 최신 VLM으로 글자·사진·영상을 모두 처리할 수 있다. 개별적으로 사전 훈련된 시각·언어 모델을 결합해 입력한 이미지·비디오에 대한 질문에 답하거나 짧은 동영상에 대한 설명을 작성할 수 있다. 컴퓨터 비전 기술에 기반해 시각적 정보를 언어 모델에 적용하면 다양한 분야에 활용될 수 있다. 대표적인 것이 구글의 LLM 모델 팜(PaLM)에 비전 모델과 로봇 제어를 접목해 지난 3월 공개한 범용 로봇 모델 팜-E(PaLM-E)다. 챗GPT의 3배가 넘는 5620억 개의 매개 변수를 지닌 가장 큰 규모의 VLM인 팜-E는 자사 LLM인 팜에 로봇 에이전트의 센서 데이터를 적용해 구현한다. 사전 학습 없이 실제 로봇 센서 데이터를 수집하고 이를 언어 모델에 제공해 일상생활 환경에서 다양한 물체를 파악하고 제어할 수 있다. 트랜스포머 기반 시각 언어 행동(VLA) 모델 부상팜-E가 한 단계 진화한 모델이 최근 공개됐다. 지난 7월 말 구글 로봇 사업부에서 비공개로 시연된 구글의 로

2023.08.19 06:00:01

테크트렌드 로봇 VLA

처음 이전 1 다음 맨끝

# VLA

스스로 학습하고 말귀 알아듣는 로봇 RT-2[테크트렌드]