로봇의 발전을 견인하고 있는 로봇용 AI[테크트렌드]
로봇의 두뇌가 한층 진화하고 있다. 전통적인 규칙 기반 자동화를 넘어 인간처럼 직관적으로 인식하고 판단할 수 있는 수준으로 발전하고 있다. 그래서 미래에는 많은 공간에서 로봇이 인간을 대신해서 작업 환경과 대상을 인식하고 작업 계획을 수립한 다음, 어떤 행동을 할지 일일이 결정하는 역할을 독자적으로 수행할 수 있을 것이다. 그 배경에는 진화하는 로봇용 AI가 자리 잡고 있다. 강화학습 모델을 거쳐 생성형 AI로 확장하는 로봇용 AI로봇용 AI는 로봇에 탑재되어 로봇의 임무 수행에 필요한 환경 및 사물을 인식하고, 작업 계획을 수립하며, 필요한 동작을 결정하는 기능을 수행하는 AI 모델을 뜻한다. 로봇용 AI는 현실의 물리적 세계와 상호작용을 한다는 점에서 피지컬 AI의 일환이다. 현실 세계와 직접 상호작용하는 물리적 실체인 로봇에 탑재되어 있다는 점에서는 임바디드 AI(Embodied AI)에 속한다 볼 수 있다.

로봇용 AI의 발전 경로는 적용되는 AI 알고리즘의 변화와 궤를 같이한다. 과거에는 사람이 정해준 규칙에 준해 판단하는 전문가형 AI 알고리즘이 주종이었고 2000년대 들어서는 데이터 학습 결과를 기반으로 삼는 머신러닝 방식의 AI 알고리즘이 확산되었다. 최근에는 사람의 말을 알아듣고 사물을 인식하는 데 탁월한 성과를 거두고 있는 생성형 AI 모델을 도입하려는 시도가 늘어나고 있다. 생성형 AI는 미처 예상치 못한 상황이나 극단적인 상황에 직면했을 때 융통성 있게 대응하는 데 우수한 성능을 지니고 있다. 그래서 종종 돌발 상황이 발생하는 현실 세계에서 사용되는 로봇용 AI로 삼기에 더 적합하다고 볼 수 있다.

이 점에 착안해 선도적인 로봇용 AI 개발 기업들은 휴머노이드 및 각종 서비스 로봇 시장의 성장에 앞서 유리한 지위를 선점하기 위해 생성형 AI 기반의 로봇용 AI 개발에 집중하고 있다. ‘인식에서 제어’로의 진화를 꾀하는 로봇용 AI기존 로봇용 AI의 주요 기능은 사물 인식이었다. 예를 들어 자율주행차나 운반작업용 AMR(Autonomous Mobile Robots) 등에 탑재된 SLAM(Simultaneous localization and mapping) 기술은 주행 경로를 인식하고 주행 중에 나타나는 사람, 차량 등 각종 장애물이나 신호등 등을 인식하는 기능에 초점을 둔다.

반면 근래에 등장한 생성형 AI 기반의 로봇용 AI는 사람의 구두 명령을 알아듣는 자연어 인식 기능과 함께 임무 수행에 필요한 동작을 스스로 계획하고 관리하는 제어 기능으로 맡은 역할을 확장하고 있다.

구글의 딥마인드는 범용적인 로봇용 AI 모델 개발을 목표로 한 Open X-Embodiment(OXE) 프로젝트를 추진하고 있다. OXE 프로젝트는 자연어 처리와 컴퓨터 비전 분야에서 대규모 모델(Large Model)이 보여준 성공을 로봇 학습에 적용하려는 시도로 KAIST, UC버클리, 스탠퍼드대 등 전 세계 33개 대학, 연구기관들이 참여하고 있다.

OXE 프로젝트는 로봇용 AI의 학습 방식에 새로운 전환점을 제시했다. 산업별 또는 용도별로 각각 따로 훈련시켜야 했던 기존의 로봇용 AI들과 달리 OXE 프로젝트는 다양한 로봇과 환경에서 효율적으로 적응할 수 있는 범용 AI의 개발을 목표로 한다. 그래서 로봇용 AI 학습에 적용되는 OXE 데이터 세트는 하나의 팔로 된 협동로봇에서부터 양팔 로봇, 사족보행 로봇 등 총 22가지 형태의 다양한 로봇의 작동에서 나타나는 527개 기술, 16만여 개의 작업, 100만 개 이상의 로봇 작동 궤적 등 다양한 데이터로 구성되어 있다. 가정용 물건에서 작업용 공구 등 다양한 사물을 다루는 데이터가 모두 포함돼 있어 실용적인 로봇 학습에 적합한 구조를 갖추고 있다.

OXE 프로젝트의 핵심은 RT-1, 2로 불리는 로봇용 AI 모델이다. RT-1은 동작 제어를 위해 설계된 트랜스포머 기반 AI 모델이고 RT-2는 사람의 구두 명령을 알아듣고 필요한 동작을 스스로 판단해서 수행하는 대규모 시각-언어(Vision-Language Action, VLA) 모델이다. 구글은 RT-1, 2를 다양한 로봇에 두루 적용할 수 있는 AI로 발전시키려면 현재 데이터 세트의 규모와 범위를 확대하는 등 여전히 해결해야 할 과제가 많다고 본다. 실제로 RT-1, 2는 대규모언어모델(LLM)이 보여준 만큼의 인상적인 성과를 달성하지 못하고 있다.

범용적인 로봇용 AI를 추구하는 구글과 대조적으로 2017년 오픈AI에서 분사한 스타트업 코배리언트(Covariant)는 물류업에 특화된 로봇용 AI를 개발하고 있다. 코배리언트의 RFM-1(Robotics Foundation Model 1)은 80억 개의 파라미터를 가진 멀티모달 AI 모델인데 문자, 이미지, 비디오, 로봇 동작, 물리적 측정값 등 다섯 가지 유형의 데이터로 학습한다.

코배리언트의 데이터 세트는 코배리언트의 AI를 탑재한 로봇들이 아마존 등 전 세계 물류 기업들의 창고에서 수년간 수집한 수천만 개의 동작 궤적, 이미지, 비디오, 관절 각도, 힘 측정값 등의 로봇의 동작과 관련된 제반 요소를 담은 현장 데이터들과 인터넷에서 수집한 방대한 데이터를 결합한 것이다. 코배리언트는 LLM 등 디지털 세계 전용 AI의 학습에 필요한 데이터는 인터넷에 많지만 물리적인 현실 세계와 로봇의 상호 작용을 보여주는 데이터는 존재하지 않는다고 보고 개발 초기부터 현장에서 수집한 데이터의 중요성을 강조했다.

중국의 휴머노이드 기업 아지봇(Agibot)은 휴머노이드 전용 AI인 GO-1을 개발하고 있다. VLA 방식인 GO-1은 구글처럼 로봇이 현실 세계의 복잡성을 다룰 수 있도록 제조업, 물류업에서 가정용에 이르는 다양한 분야로 확장 가능한 범용 로봇 지능이기도 하다.

아지봇은 GO-1에 Vision-Language-Latent-Action(ViLLA) 프레임워크를 도입하여 잠재 행동 토큰(Latent Action Token)을 예측하는 방식으로 개발함으로써 기존 VLA 모델 대비 혁신적인 성과를 거둘 수 있을 것으로 보고 있다. 구글, 코배리언트처럼 아지봇도 AI 학습에 필요한 데이터 세트인 아지봇 월드(AgiBot World)를 직접 구축하고 있다. 아지봇은 아지봇 월드를 다양한 데이터로 구성하기 위해 4000㎡의 공간에 3000여 종의 실제 물품을 배치하고 가정, 식당, 산업, 사무실, 슈퍼마켓 등 5개 핵심 작업 현장을 구현한 다음 100대 이상의 로봇을 투입해 현장 데이터를 수집하고, 사람이 직접 검증하는 방식인 인간 중심 검증(Human-in-the-Loop) 방식을 통해 데이터 품질을 보장했다고 한다.

그 결과 아지봇 월드에는 100만 개 이상의 동작 궤적과 217개의 특정 작업, 87개의 기술, 106개의 장면에 대한 데이터가 담겨 있고 작업 내용도 가사 관련 40%, 레스토랑 관련 20%, 각종 산업 관련 작업 20%, 사무실 업무 10%, 슈퍼마켓 관련 10%로 다양하다. 아지봇은 아지봇 월드가 구글의 OXE 데이터 세트보다 10배 이상 크고 아지봇 월드로 학습한 로봇이 OXE 데이터 세트로 훈련받은 로봇보다 평균 30% 높은 성능을 보였다고 주장한다. 그럼에도 불구하고 구글과 마찬가지로 아지봇도 로봇 학습용 데이터 세트의 규모가 여전히 제한적이라고 본다.

로봇용 AI 개발 기업들은 공통적으로 AI 알고리즘 못지않게 데이터 세트의 규모와 다양성을 중시하고 있다. 로봇이 현실 세계에서 이루어지는 다양한 작업을 수행할 수 있으려면 로봇 학습용 데이터 세트가 지금보다 훨씬 커야 하고 더욱 다양한 작업 내용을 담아야 할 것으로 보고 있다.

진석용 LG경영연구원 연구위원