AMR 등 이동성을 갖춘 로봇에서는 자율주행 과정에서 로봇이 주변 사물과 충돌하지 않도록 장애물의 위치, 크기를 탐지하는 한정적 역할에 그치고 있다. 챗GPT 등 사람의 언어(문자)를 인식하는 생성형 AI의 등장 이후에는 사람이 보다 편리하게 로봇을 사용할 수 있도록 사용상 편의성을 향상시키기 위해 단순히 로봇에 자연어 AI를 탑재하는 실험이 실시되기도 했다.
2023년 3월 마이크로소프트는 챗GPT로 로봇을 조종하는 실험을 실시했고 구글은 사람의 구두 명령을 알아듣고 사용자의 선호도에 맞춰 세탁물 분류, 청소, 장난감 정리 등의 작업을 하는 타이디봇(Tidybot) 개발을 추진하기도 했다.
그 이면에서 일부 기업들은 한걸음 더 나아가 로봇 시장의 미래를 좌우할 로봇 전용 AI 모델의 개발을 추진하는 중이다. 오픈AI, 구글, 코배리언트 등 소수의 선도 AI 기업들이 개발하고 있는 로봇 전용 AI는 문자 데이터로 학습하는 LLM(Large Language Model)과 같은 대규모학습모델을 기반으로 하고 있다. 특정 종류의 데이터로 학습한 AI는 해당 데이터로 구현할 수 있는 분야의 추론 기능을 향상시킬 수 있기 때문이다.
오늘날 개발되고 있는 대규모학습모델 기반의 로봇 전용 AI는 사람의 언어와 각종 이미지, 로봇의 구동을 담당하는 모터, 기어 등 엑추에이터 부품의 움직임과 동작 속도 등으로 구성된 멀티모달 데이터로 학습한 AI 모델이다.
로봇 전용 멀티모달 AI는 로봇의 기능을 대폭 향상시켜 로봇의 적용 분야를 한층 확장하는 데 크게 기여할 것으로 기대받고 있다. 우선 LLM처럼 사용자의 명령을 주변 상황이나 맥락에 맞춰 파악할 수 있다. 비전 AI처럼 이미지 인식 기능을 통해 작업 대상 물체와 작업 환경을 인식할 수도 있다.
또한 대규모학습모델의 추론 기능을 바탕으로 사람의 명령과 이미지로 학습한 작업 내용을 작업 상황이나 사용자의 의도까지 반영해서 사용자가 원하는 작업을 정확하게 판단하는 데도 강점을 지닌다. 일부 로봇용 AI는 로봇의 각 부위가 필요한 만큼 정확하게 움직일 수 있도록 모터, 기어의 각속도 등 로봇의 관절각을 제어하는 역할도 수행할 수 있도록 개발되고 있다. 에지 케이스 극복자동차, 식품 가공, 물류, 유통 등 다양한 산업에서 자동화 요구가 꾸준히 커져 왔지만 로봇의 적용 영역은 오랫동안 제자리에 머물러 있었다. 기존 로봇은 범용성을 갖춘 기계가 아니라 특정 기능을 집중 수행해서 생산성을 대폭 높이는 단일 목적형 장비이기 때문이다. 그 이유는 로봇의 작업 방식을 결정하고 실행에 옮기는 인식, 제어 기술은 정해진 규칙대로 물체를 인식하고 동작하는 프로그래밍 방식에 기인한다.
사전에 작성된 프로그램 기반의 제어는 단일 작업에 한해서는 높은 생산성을 보이지만 투입 공정이나 작업 내용이 바뀔 때마다 일일이 수동으로 프로그램을 수정하는 데 드는 비용과 시간이 많이 들고, 작업 현장에서 미처 예상하지 못한 상황이 발생했을 때에는 로봇의 사용 자체가 거의 불가능해진다는 단점도 있어서 도리어 로봇의 확장성을 제약하는 요인으로도 작용해 왔다.
프로그래밍 방식의 제어와 달리 대규모학습모델 기반의 AI는 기존 로봇 제어 기술의 한계를 넘어설 수 있을 것으로 기대받는다. 대규모학습모델 기반의 AI는 일정한 수준으로 학습하고 나면 현장에서 수행해야 하는 작업이 바뀔 때마다 사람이 조작하지 않아도 스스로 동작을 신속하게 수정할 수 있기 때문이다. 특히 대규모학습모델 기반의 AI는 머신러닝 AI 모델로도 해결하기 어려운 한계 상황(코너 케이스)이나 특이 상황(에지 케이스)이 발생하더라도 융통성 있게 해결할 능력을 갖출 것으로 예상된다.
그 이유는 대규모학습모델의 특징이자 강점인 추론 기능에 있다. 추론 기능을 활용하면 미처 예상치 못한 극단적인 상황에 맞닥뜨려도 적합한 동작을 스스로 판단해서 수정하는 식으로 융통성 있게 대응할 수 있을 것이기 때문이다. 로봇 전용 AI 개발 기업들은 제반 작업 여건과 상황, 맥락을 감안해서 새로운 동작을 구상하고 판단하는 데 필수적인 추론 기능을 다각적으로 향상시키기 위해 멀티모달 데이터 확보에도 많은 노력을 기울이고 있다. 구동부 제어로의 확장을 꾀하는 AI대규모학습모델 기반의 로봇용 AI는 AI가 수행하는 역할의 범위에 따라 크게 2가지 유형으로 나눠볼 수 있다.
첫번째 유형은 VLM(Vision-Language Model) 모델이다. VLM 방식의 AI는 사용자가 간단한 말이나 문자로 지시하는 명령을 알아듣고 작업 대상 및 동작의 이미지를 인식해서 스스로 필요한 동작을 결정할 수 있다. 명령 인식도 단순히 단어 그대로만 인식하는 데 그치지 않고 사용자별로 상이한 고유의 요구 사항이나 평소 로봇 사용 습관, 작업 상황이나 작업 환경의 변화까지 고려해서 전반적인 맥락이나 사용자의 의도에 적합한 명령으로 해석한다. 로봇이 수행할 구체적인 동작 역시 AI가 해석한 사용자의 의도를 반영한 명령에 따라 결정된다.
VLM 방식의 AI를 채택한 경우 필요한 동작을 취하도록 로봇을 제어하는 역할은 제어 SW의 몫이 된다. VLM 개발의 대표 기업은 오픈AI이다. 오픈AI는 휴머노이드 개발 스타트업인 피규어AI 및 1X와 제휴해서 자사의 VLM 모델을 탑재한 각사의 휴머노이드 로봇을 BMW의 자동차 공장이나 아마존의 물류 창고에 시범 투입해서 현장 테스트를 진행하는 동시에 VLM 모델 학습용 데이터 수집을 병행하는 식으로 로봇 전용 AI 개발을 가속화하고 있다.
대규모학습모델 기반 로봇 전용 AI의 두 번째 유형은 VLA(Vision-Language-Action) 모델이다. VLA 모델은 VLM 모델과 일부 강점을 공유한다. VLA 모델은 VLM처럼 사용자의 구두 명령을 사용자별 특성이나 작업 상황에 맞춰 인식하고 작업 대상과 동작의 이미지를 학습해서 필요한 동작을 결정할 수 있다. VLA 모델의 최대 특징은 AI가 로봇의 구동부를 직접 제어하는 과정에도 개입한다는 점이다.
제어 SW의 고유 영역인 모터, 기어 등의 작동 제어까지 AI가 할 수 있다면 작업 환경의 변화에 대응해서 로봇이 스스로 필요한 동작을 결정하고 바꿀 수 있어서 로봇의 활용성이 획기적으로 향상될 수 있다. VLA 분야의 대표 기업으로는 RT(Robot Transformer)-1, 2를 개발 중인 구글과 RFM-1(Robot Foundation Model-1)을 개발하고 있는 로봇용 AI의 숨은 강자인 코배리언트를 들 수 있다. 스타트업인 코배리언트는 로봇의 동작 예측 기능을 차별적인 접근 방식으로 내세우고 있다.
코배리언트의 로봇 전용 AI인 RFM-1(Robot Foundation Model-1)은 로봇이 작동한 결과에 대한 동영상 토큰을 사전에 생성해서 로봇이 작동하는 매 순간마다 작업 대상 물체와 작업 환경이 어떻게 바뀌는지를 시뮬레이션하고 어떤 동작을 취해야 작업 목적을 효과적으로 달성할 수 있는지 결정한다. 코배리언트가 강조하는 동작 예측 기능은 로봇 동작의 정확도를 높이는 데 특히 우수한 것으로 평가받고 있다.
진석용 LG경영연구원 연구위원
© 매거진한경, 무단전재 및 재배포 금지