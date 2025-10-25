차세대 로봇용 AI로 부상한 피지컬 AI

최근 대세는 VLA 모델

동작 결과를 예측하고 최적화하는 월드 모델

센서, AI, 기구부의 3대 요소 중에서 최근 로봇 성능 향상의 원동력이라면 단연 AI를 꼽을 수 있다. AI는 시각 정보, 사람의 언어 등을 바탕으로 사람이 원하는 작업을 파악해서 로봇이 적절한 동작을 하도록 만든다. 앞으로는 현실 세계의 각종 물리 현상을 이해해서 로봇이 환경, 용도에 최적화된 행동을 하도록 만드는 피지컬 AI가 등장할 전망이다.구글, 엔비디아 등 로봇용 AI 분야의 선도 기업들은 모두 피지컬 AI 개발에 집중하고 있다. 엔비디아 CEO 젠슨 황은 ‘CES 2025’에서 피지컬 AI가 AI 분야의 차기 프런티어라고 소개했다. 엔비디아는 피지컬 AI를 현실 세계의 다양하고 복합적인 행동을 인식, 이해 및 수행할 수 있는 자율 시스템으로 정의한다. 피지컬 AI가 적용되기에 가장 유용한 물리적 기반으로 로봇, 자율주행차, 스마트 공간 등으로 정의하고 물리적 세계에 대한 통찰을 생성, 실행할 수 있다는 점에서 생성형 피지컬 AI(Generative Physical AI)라고도 부른다. 구글의 딥마인드(DeepMind)는 피지컬 AI의 개념을 제시하지는 않지만 AI가 현실 세계에서 인간과 안전하고 유연하게 상호작용할 수 있도록 발전해야 한다는 관점에서 디지털 영역에 머무는 AI를 피지컬 AI로 전환해야 한다고 주장한다.현재 개발 중인 로봇용 피지컬 AI는 크게 세 가지 유형으로 나뉜다. 첫번째 유형은 사람의 문자, 언어에 대한 이해를 바탕으로 하는 비전-언어 모델(Vision-Language Model, 이하 VLM)이다. VLM은 이미지, 비디오 등 시각 정보와 문자, 언어를 결부시켜 이해할 수 있는 멀티모달 AI 모델인데 이미지를 보고 글이나 말로 설명하는 식으로 물리적 세계를 언어로 표현할 수 있지만 물리적 동작 제어는 하지 못한다.두 번째 유형은 VLM의 확장으로 볼 수 있는 비전-언어-행동 모델(Vision-Language-Action Model, 이하 VLA)이다. VLA 모델은 시각 정보, 언어, 문자 이해를 넘어 로봇이 물체를 잡거나 미는 등의 물리적 동작을 수행하도록 일련의 행동 명령을 내릴 수 있다. 세 번째 유형은 현실 세계에서 발생하는 물리적 상호작용에 대한 이해를 바탕으로 하는 월드 모델(World Model)이다. 월드 모델은 로봇이 특정 행동을 했을 때 그 결과가 어떻게 나올지 예측할 수 있어서 실제 환경에서의 로봇의 신뢰성과 작업 효율성을 크게 높일 수 있다.세 가지의 피지컬 AI 모델은 상호 보완적이면서도 순차적인 관계를 보인다. VLM은 언어와 시각의 융합을 통해 세계를 이해하고, VLA는 이해를 행동으로 전환하며, 월드 모델은 행동 결과의 사전 예측을 통해 최적의 행동을 구현한다.요즘 많은 로봇 기업들의 관심을 받는 피지컬 AI가 VLA 모델이다. 구글의 딥마인드는 제미나이(Gemini) 2.0을 기반으로 한 제미나이 로보틱스(Gemini Robotics) 모델을 개발하고 있다. 제미나이 로보틱스는 문자, 이미지, 비디오, 로봇의 동작 등을 이해해서 필요한 동작 시퀀스를 생성할 수 있는 멀티모달 시스템이다.구글의 RT-2(Robotic Transformer 2) 역시 비전-언어 모델의 강력한 일반화 능력을 로봇 제어에 적용한 VLA 모델이다. RT-2는 웹과 로보틱스 데이터를 학습해서 로봇 행동으로 직접 전환할 수 있으며 대규모 딥러닝 신경망 구조를 기반으로 다양한 입력을 받아 행동, 언어, 계획 등 다양한 출력을 생성하는 생성적 모델이다. RT-2는 단순히 현재 상황에 반응하는 것을 넘어 행동의 결과를 예측하고 최적의 행동 시퀀스를 계획할 수 있는 능력을 갖추고 있다.예를 들어 로봇이 물체를 집어 옮길 때 물체의 무게, 재질, 형태 등을 고려해 최적의 그립 방식과 이동경로를 계획할 수 있다. RT-2의 최대 특징은 학습 데이터에 없던 새로운 객체나 환경에서도 일반화된 추론과 행동을 할 수 있다는 점이다. 그래서 RT-2는 로봇이 특정 상황에서만 작동하는 것이 아니라 다양한 환경과 상황에 적응할 수 있는 범용성을 제공한다.휴머노이드 개발 기업 피겨AI(Figure AI)는 올해 2월 인식, 언어 이해, 제어 기능을 통합한 VLA인 헬릭스(Helix)를 공개했다. 헬릭스는 휴머노이드가 카메라로 수집한 시각 정보와 자연어 명령을 결합해서 다루는 법을 사전 학습하지 않은 물체도 실시간으로 조작할 수 있도록 한다.월드 모델은 AI가 물리적 세계의 동역학을 이해하고 사전 시뮬레이션으로 동작 결과를 예측하고 적절하게 수정해서 동작을 최적화할 수 있는 한 단계 진화한 AI 모델이다. 마치 사람이 행동하기 전에 머릿속으로 결과를 상상하고 계획을 세우는 것과 유사하다. 월드 모델은 중력, 마찰, 충돌 등 물리 법칙을 내재화해 로봇이 실제 세계의 물리적 제약에 맞게 동작하도록 설계된다. 물체의 변형, 운동, 물리적 상호작용 등 다양한 물리적 현상을 시뮬레이션하는 비전 시스템은 피지컬 AI가 작업 환경을 사전에 이해하고 작업 계획을 수립하는 기반을 제공한다.대중적으로 알려진 월드 모델로는 엔비디아의 코스모스 월드 기반 모델(Cosmos World Foundation Model, 이하 코스모스 WFM)을 들 수 있다. 코스모스 WFM은 대규모 비디오 데이터 세트로 다양한 시각적 경험을 학습한 범용 월드 모델을 구축하고 각각의 사용 환경에 맞춰 파인튜닝한 특화 모델을 구축하는 방식으로 설계됐다.가장 앞서 개발되기 시작한 월드 모델은 2017년 오픈AI 출신 개발자들이 설립한 코배리언트AI(Covariant AI)의 RFM-1(Robotics Foundation Model 1)이라 할 수 있다. RFM-1은 문자, 이미지, 비디오, 로봇의 행동, 센서 데이터 등 다양한 모달리티를 하나의 공통 토큰 공간에 매핑한 멀티모달 모델이다. 이미지와 문자 명령을 입력받아 로봇의 행동 시퀀스를 생성하거나 행동 시퀀스를 입력받아 결과 영상을 예측하는 등 다양한 조합이 가능하다. RFM-1의 최대 특징은 물리적 세계의 동역학을 예측하는 능력이다. 로봇이 특정 행동을 했을 때 물체가 어떻게 반응할지, 미래에 어떤 결과가 발생할지 시뮬레이션할 수 있어 코배리언트는 자사의 RFM을 물리적 월드 모델(physics world model)로 설명한 바 있다. RFM-1은 물류 작업 현장에서 수집한 실제 작업 데이터와 인터넷의 멀티모달 데이터를 결합해 설계됐다. 엔비디아의 코스모스와 달리 RFM은 실용성 확보에 초점을 두고 개발되고 있는 월드 모델이다. 물류 로봇이 인간처럼 작업을 배우고 실시간으로 행동을 결정할 수 있도록 설계돼 현장에 바로 적용 가능한 실용성에 초점을 둔다.월드 모델은 향후 더욱 정교하고 범용적인 형태로 발전할 것으로 전망된다. 현재의 월드 모델은 주로 물류, 제조, 자율주행 등 특정 도메인에 특화돼 있지만 향후에는 다양한 환경과 과제를 아우르는 범용 월드 모델이 등장할 것으로 예상된다. 또한 실시간 학습과 적응 능력이 강화돼 로봇이 새로운 환경에 배치되었을 때 빠르게 해당 환경의 물리적 특성을 학습하고 적응할 수 있게 될 것이다.