테크놀로지 제 1294호 (2020년 09월 16일)

[AI 따라잡기] “잃어버린 스마트폰 좀 찾아줘”…페이스북 AI 신기술의 미래

기사입력 2020.09.15 오전 09:58

[AI·TECH] 인공지능 따라잡기

-소리 통해 복잡한 환경 인식하고 기억…
-스마트 안경에 탑재될 미래형 인공지능체

[AI 따라잡기] “잃어버린 스마트폰 좀 찾아줘”…페이스북 AI 신기술의 미래

[심용운 SKI 딥체인지연구원 수석연구원] 우리는 아마 외출한 후 현관문이 제대로 닫혔는지, 집 안이나 사무실에서 휴대전화를 어디에 뒀는지 몰라 난처했던 경험이 있었을 것이다. 하지만 앞으로는 이러한 일은 과거 휴대전화가 없던 시절 약속 시간에 늦어 만나기로 했던 사람을 만나지 못했던 것처럼 아련한 추억의 얘깃거리가 될 것으로 보인다. 바로 인공지능체(embodied AI)를 탑재한 디지털 도우미(digital assistant)가 마치 개인 비서처럼 잃어버린 물건을 찾아 줄 것이기 때문이다.

이러한 공상과학 같은 이야기가 가능한 것은 인공지능체가 소리를 통해 주변 환경을 인식하고 심지어 인간이 볼 수 없는 공간 영역까지 추론해 원하는 물체를 찾을 수 있는 자율적인 능력을 가지기 때문이다. 

◆ 최초의 시청각 시뮬레이션 AI 플랫폼 

지난 8월 외신 보도에 따르면 페이스북의 인공지능(AI) 연구팀은 지도화(mapping)돼 있지 않은 복잡한 물리적 환경에서 나는 소리를 통해 물체를 탐색하고 이동할 수 있는 스마트 로봇을 개발했다고 한다. 
이 로봇에는 3차원 환경에서의 음향 시뮬레이션 기반 오디오 렌더링 툴인 ‘사운드스페이스(SoundSpaces)’와 사물과 공간을 입체적으로 기억하는 모듈인 ‘시맨틱맵넷(SemanticMapNet)’이 탑재돼 있다.

소위 인공지능체를 위한 최초의 시청각 시뮬레이션 플랫폼인 사운드스페이스는 간단히 말해 3차원 환경에서의 음향 내비게이션이다. 마치 우리가 티맵 같은 차량 내비게이션을 이용해 목적지를 찾아가는 것이라고 보면 된다. 

사운드스페이스는 현관문이 열리고 닫히는 소리, 화장실의 물 내리는 소리, 피아노 소리 등 실내 환경에서 발생하는 실제 소리들을 시뮬레이션한다. 이러한 소리들은 공간 구조나 위치 등에 따라 달라지기 때문에 특정 공간의 기하학적 세부 사항을 통합해 음향 기반 탐색 방법을 학습하게 한다.

페이스북은 이러한 시스템을 구축하기 위해 실내 음향 모델링을 위한 최첨단 알고리즘과 실내 기하학적 음향 반사 모델링을 위한 양방향 경로 추적 알고리즘을 함께 사용한다. 주요 표면의 음향 재료 특성(예를 들면 대리석 바닥이나 카펫)을 모델링해 벽을 통한 소리 전파와 같은 세밀한 음향 특성까지도 포착한다. 또한 인공지능체 연구를 위한 페이스북의 오픈 소스 시뮬레이션 플랫폼인 AI 해비타트(AI Habitat)와 함께 사용하도록 설계돼 있다. 

또 하나의 페이스북 공간 인식 기반 AI 솔루션인 시맨틱맵넷은 로봇이 실내 공간을 이해하고 탐색할 수 있도록 실내 공간의 픽셀 수준 지도를 생성하는 실내 지도화 도구다. 주변 환경을 인식해 사물과 공간을 입체적으로 기억하고 특정 사물이 픽셀 단위로 만든 지도상 어디에 있는지 추론할 수 있다. 즉 회의실에 의자가 몇 개인지, TV는 거실 어느 곳에 있는지 등 실내 공간에 대한 정보를 인식하고 찾을 수 있다.
 
이 2가지 기술 외에 페이스북은 특정 공간에서 직접 관찰하지 않는 부분까지도 예측할 수 있는 자율 로봇을 위한 탐색·매핑 모델을 최근 미국 대학과 공동 개발했다. ‘연속 환경에서의 시각·언어 탐색 (VLN-CE)’이라고 불리는 이 기술은 자연어로 지시한 명령을 듣고 3차원 환경을 탐색한다. 예를 들어 ‘지하 계단을 내려가 왼쪽으로 돌기’와 같은 명령을 수행하는 것이다. 이 또한 AI 에이전트(가상 로봇이나 자기중심적 개인 비서)가 실제 환경을 모방하는 상황에서 작동하도록 훈련시킬 수 있는 AI 해비타트에서 수행된다.

AI는 인간이 가지고 있는 인지·학습·추론 능력을 컴퓨터 알고리즘을 활용해 실현하는 기술이다. AI는 이미 이미지 분석, 즉 사람이나 사물의 얼굴을 인식하고 이름을 알려주는 수준으로까지 발전하고 있다. 즉 시각·청각·자연어 처리가 가능한 수준으로 사람이나 사물을 인식하고 인간과 어느 정도 유사한 수준의 언어를 이해하고 대화할 수 있다.

하지만 지금까지 물리적 환경에 대한 이해를 위한 수단으로 소리를 이용하는 시스템과 알고리즘은 거의 없었다. 그런 측면에서 이번 페이스북의 사운드스페이스와 시맨틱맵넷의 개발은 인공지능체 연구에서 주목할 만한 기술인 것은 틀림없다. 이러한 인공지능체 도구들은 AI가 물리적 공간의 경로를 탐색하고 그곳에서 무슨 일이 일어나고 있는지 등 3차원 공간에 대한 기억을 이미지뿐만 아니라 소리를 통해 좀 더 사실적이고 정확히 판별할 수 있기 때문이다.

페이스북의 AI 챗봇 블렌더 로고.

페이스북의 AI 챗봇 블렌더 로고.


◆챗봇 블렌더, 어조 변화까지 포착해 반응

그러면 센서를 통해 물리적 환경을 인식하고 인간과 교감하며 자율적으로 행동하는 인공지능체 기술을 가지고 페이스북이 그리는 가까운 미래의 모습은 무엇일까. 

이에 대한 단초는 페이스북이 향후 스마트폰을 대체할 차세대 정보 단말로 스마트 안경을 추진하고 있다는 데서 찾을 수 있을 것 같다. 그동안 페이스북은 인공지능체와 관련한 많은 연구를 진행해 왔다. 특히 페이스북은 열쇠를 어디에 두었는지부터 약을 이미 복용했는지와 같은 일상생활들을 기억하는 데 도움을 주는 AI 시스템을 연구하고 있다. 이런 일련의 연구는 결국 AI가 인간의 감각 능력 같은 좀 더 인간에 가까운 기능을 구현하도록 하는 것이다.

대표적인 것이 지난 5월 공개한 페이스북의 AI 챗봇 ‘블렌더(Blender)’다. 블렌더는 상대방의 질문에 대해 답변할 때 기존 챗봇보다 더 인간적인 느낌을 줄 수 있도록 설계돼 있다. 예를 들어 인간과 상호작용할 때 공감을 표시하거나 상대방이 농담에서 진지한 말로 전환할 때 어조(tone)를 조절하는 것들이 포함된다.

이처럼 AI 시스템을 인간처럼 일종의 기억하는 기계로 바꾸려면 인간의 눈과 귀의 역할을 하는 센서를 탑재한 증강현실(AR) 안경이 필요하다. 

스마트 안경과 관련해 페이스북은 이미 2019년 9월 라이브맵과 AR 스마트 안경 도면을 공개한 바 있다. 또한 최근에는 세계적 명품 안경과 선글라스 제조사인 레이밴의 자회사 룩소티카(Luxottica)와 제휴하기도 했다. 추측하건대 이번에 개발된 사운드스페이스나 시맨틱맵넷은 향후 로봇 이외에도 스마트 안경에 적용될 것으로 보인다. 

스마트 안경과 관련해 최근 CNN 보도에 따르면 마이크 슈뢰퍼 페이스북 최고기술책임자는 “비록 초기 단계지만 이 작업이 결국에는 ‘스마트 안경’처럼 열쇠를 어디에 두었는지부터 쿠키 반죽에 바닐라를 이미 넣었는지에 이르기까지 모든 것을 기억하는 데 도움을 줄 수 있기를 희망”한다고 말했다. 

이렇게 되면 이용자는 스마트 안경을 통해 주변 환경에 대한 정보를 인식하고 필요에 따라 사물에 대한 기억을 끄집어 낼 수 있을 것으로 보인다. 이는 마치 내비게이션을 장착하고 집 안을 돌아다니며 사물을 기억하고 심지어 잃어버린 무언가를 찾아주는 미래형 AI 비서와 같다. 

물론 현재 AI 음성 인식 비서인 애플의 시리, 아마존의 알렉사나 구글의 어시스턴트는 원하는 정보에 대한 질문이나 동기화된 가전제품에 대해 명령을 내릴 수는 있다. 하지만 이들 AI 비서는 우리가 무언가를 찾을 수 있게 도움을 주지는 못한다. 

단순히 보이거나 묻는 말에 정해진 정보만 알려주는 AI 스피커나 AR 안경보다 잃어버린 휴대전화를 찾아주는 AI 로봇이나 AI 안경이 더 매력적이게 보이는 이유다.
 
[본 기사는 한경비즈니스 제 1294호(2020.09.14 ~ 2020.09.20) 기사입니다.]


당사의 허락 없이 본 글과 사진의 무단 전재 및 재배포를 금합니다.

입력일시 : 2020-09-15 14:55