[테크놀로지]
-아마존·구글 등 시각 인터페이스까지 갖춘 스마트 스피커 경쟁적 출시
[한경비즈니스=진석용 LG경제연구원 책임연구원] 스마트 스피커는 구글·아마존뿐만 아니라 한국의 네이버·KT·SK 등 다수의 전자·통신·인터넷 서비스 기업들이 앞다퉈 상용화하고 있는 제품이다. 그런데 최근 들어 새로운 형태의 스마트 스피커들이 속속 등장하고 있다.
신형 스마트 스피커들은 동영상을 제공하는 디스플레이와 각종 이미지를 인식할 수 있는 카메라 등 시각 관련 인터페이스를 갖추고 있다는 점에서 사용자의 구두 명령을 알아듣고 대화할 수 있는 음식인식 기반의 인터페이스만 갖춘 기존 제품들과는 큰 차이를 보인다.
스마트 스피커의 기능이 청각(소리) 기반에서 시각 기반으로 확장되는 양상은 인간과 로봇의 소통 기술인 인간·로봇 상호작용(HRI : Human-robot interaction)의 발전 방향을 잘 보여준다.
◆청각에서 확장된 시각 인터페이스 ‘스마트 스피커’
아마존은 2017년 중반 스마트 스피커인 ‘에코 쇼(Echo Show)’를 출시하면서 스마트 스피커 분야의 새로운 이정표를 제시했다. 에코 쇼는 7인치 크기의 터치스크린을 갖추고 있어 각종 이미지나 동영상 등의 시각 정보를 제공, 스피커와 마이크만 달린 기존 에코보다 훨씬 다양한 서비스가 가능한 제품이다.
에코 쇼가 등장한 이후 시각 정보를 제공할 수 있는 화면을 갖춘 스마트 스피커들이 속속 등장하고 있다. 2018년 초에는 레노버가 8인치·10인치 화면을 갖추고 구글 어시스턴트를 탑재한 스마트 스피커를 출시했는가 하면 구글도 기존 제품인 ‘구글 홈’과 ‘구글 홈 미니’와 다르게 디스플레이를 장착한 스마트 디스플레이를 2018년 말 출시할 것이라고 발표했다.
새로운 스마트 스피커들은 사용자의 음성을 듣고 말로 대답하는 음성 기반의 인터페이스만 갖췄던 기존 스마트 스피커와 달리 시각이란 새로운 인터페이스로 무장하고 있다. 시각 인터페이스의 추가가 의미하는 바는 이미지 제공이란 엔터테인먼트적 요소가 추가됐다거나 단순히 사용자와 스마트 스피커 간의 소통 방식이 하나 더 늘어난 데 그치지 않는다.
보다 중요한 점은 음성 기반의 인터페이스와 시각 기반의 인터페이스를 유기적으로 활용함으로써 스마트 스피커가 사용자의 의도를 보다 정확하고 신속하게 간파하고 사용자의 목적을 보다 효율적으로 달성할 수 있다는 것이다.
이렇게 각종 인터페이스를 통해 사용자인 인간과 스마트 스피커를 포함한 로봇 간의 소통을 지원하는 기술을 통틀어 ‘HRI’라고 한다. 다시 말해 HRI는 로봇이 인간 사용자의 의도를 해석해 인간과 직접 협력하거나 인간의 의도에 적합한 반응을 수행하도록 하는 기술을 뜻한다.
HRI에는 청각·시각·촉각 등 각종 외부 신호와 정보를 인지하는 센서 기술들과 수집 정보 및 인간의 의도를 해석하고 적합한 반응을 내리도록 하는 인공지능(AI) 그리고 결정된 반응을 사용자에게 전달하는 기구부 관련 기술들의 유기적 결합을 통해 구성된다.
HRI는 인간과 인공 피조물 간의 소통을 돕는 기술이란 점에서 종종 인간과 컴퓨터·기계 간의 소통인 HCI(Human-computer Interaction)나 HMI(Human-machine Interaction)와 비교된다.
로봇뿐만 아니라 컴퓨터나 기계의 인터페이스를 설계하는 과정에서도 사용자인 인간의 인식(Perception)·판단(Cognition)·표현(expression) 등 인간의 행위적 특성을 고려한다는 점에서 HRI는 HCI나 HMI와 유사한 특성을 지닌다.
하지만 HRI는 상호 소통이 강조되는 양방향성이 강한 기술이라는 점에서는 일방향성 중심의 HCI나 HMI와 뚜렷한 차이를 보인다. 로봇은 사용 목적이나 용도 측면에서 컴퓨터나 일반 기계에 비해 훨씬 다양한 수준의 자율성을 갖춰야 하는 인공 피조물이기 때문이다.
이러한 HRI의 중요성은 갈수록 커지고 있다. HRI는 앞으로 더욱 늘어날 인간과 로봇 간 상호 협력의 기반이 된다. 인간이 처리하기 벅찰 정도로 넘치는 정보의 과부하 문제를 해결하는 과정에도 HRI는 중요한 역할을 수행하게 된다. 두 가지 역할의 수행을 통해 HRI는 로봇 확산의 교두보로도 작용할 수 있다.
◆서비스 로봇의 핵심 가치를 제공
HRI의 역할은 인간이 원하는 것을 얻고자 할 때 로봇을 보다 효과적으로 사용하도록 만드는 것이다. 이에 따라 HRI의 가치는 인간이 로봇을 사용하는 과정에서 자연스럽게 나타난다고 볼 수 있다.
특히 인간과 로봇 간의 소통이 중요한 분야일수록 HRI의 가치는 더욱 높아질 것이다. 예컨대 에코가 처음 등장했던 2014년 당시만 하더라도 스마트 스피커는 그저 아마존이 선보인 흥미로운 정보기술(IT) 제품 정도로 간주됐다.
하지만 오늘날 스마트 스피커의 확산은 일반 가정에 그치지 않고 있다. 스마트 스피커의 풍부한 활용 가능성을 내다본 통신 서비스와 은행·증권 등의 소매금융, 보안·관제, 헬스케어와 관련한 각종 모니터링 서비스 분야에서도 스마트 스피커를 도입하고 있다. 스마트 스피커의 확산이 빨라지는 분야들의 공통점은 모두 인간 사용자와의 대면 접촉이 필수적이란 점이다. 즉, 대면 접촉의 필요성과 HRI의 가치는 비례한다고 볼 수 있다.
이런 점을 감안하면 HRI는 서비스 로봇 사업에서 중요한 경쟁 기반이 될 가능성도 높아 보인다. 군사용이나 의료용 등 특수한 로봇을 제외한 일반 서비스 로봇에 주어진 임무는 대중과의 대면 접촉을 수반할 때가 많다. 일반 서비스 로봇의 소유자나 사용자 또는 로봇이 제공하는 서비스의 수혜자가 되는 일반 대중은 로봇에 대한 비전문가들이다.
이에 따라 인간을 직접 응대하는 서비스 로봇의 가치는 인간과 로봇 간에 주고받는 정보 교류를 원활하게 만드는 HRI의 수준에 좌우될 가능성이 높다. 결국 로봇을 보다 효과적이고 편리하게 사용할 수 있도록 만드는 HRI는 일반 서비스 로봇의 가치를 창출하는 핵심 요소 중 하나가 된다고 볼 수 있다.
일견 기구부 중심으로만 진행되는 것처럼 보이는 서비스 로봇 개발 경쟁의 이면에는 인간과 로봇을 연결해 주는 HRI 개발 경쟁의 가속화를 포함하고 있다고 볼 수 있다. HRI는 기구부 관련 기술들에 비해 기술적 장벽이 더 높을 가능성도 배제할 수 없다.
예를 들어 인간이 누군가와 쉽게 소통할 수 있으려면 상대방의 의사 표현 방식을 잘 알아야 한다. 상대방의 사회적·문화적 배경이나 생활환경에 대해 잘 알수록 상호 소통은 훨씬 원활해질 것이다.
인간과 로봇 간의 소통도 이러한 인간 간의 소통과 크게 다르지 않다. 로봇의 구매자이자 사용자인 동시에 로봇이 제공하는 서비스의 수혜자이기도 한 인간의 사회적·문화적 배경과 의사 표현에 내재된 맥락에 대한 이해가 동원될수록 보다 효과적인 HRI를 개발할 수 있다.
HRI 개발은 인간 스스로에 대한 연구인 심리학·사회학·교육학 등 각종 사회과학에서부터 언어학·인지과학·공학·인공지능과 로봇의 외형적 인상을 결정짓는 디자인에 이르는 다양한 학문과 지식이 필요한 전형적인 학제 간 연구·개발(R&D) 분야이기도 하다.
◆동작·감정 기반 HRI 순으로 발전할 전망
초기 HRI는 키보드를 사용하는 프로그램 방식에서 마우스와 터치스크린을 이용한 터치 방식으로 발전해 왔다. 2000년대 들어 관련 AI 기술이 발달한 덕분에 지금은 음성인식 방식도 스마트 스피커를 중심으로 점차 확산되고 있다.
음성인식 기반의 HRI가 아직 사용자의 의도를 파악하는 정확도나 사용상의 편의성 측면에서 다소 한정적이지만 사용 데이터가 축적될수록 점차 개선될 것으로 예상된다. 일부 서비스 로봇과 신형 스마트 스피커에 채택된 시각 기반의 HRI는 이제 보급되기 시작하는 상황이다.
얼굴 표정, 눈의 움직임, 몸동작을 해석해 사용자의 의도를 파악하고 매니퓰레이터(사람의 팔과 비슷한 기능을 가진 기계) 등 다양한 기구부의 움직임을 통해 사용자에게 필요한 동작을 취하기도 하는 시각적 HRI는 로봇 사용의 편의성을 획기적으로 개선하는 수단이 될 것으로 기대된다.
HRI는 시각 기반 방식을 거쳐 인간의 감정을 이해하고 감정에 호소하는 식의 반응을 보일 수도 있는 감성 기반 방식으로 발전할 것으로 예상된다. 감성 기반의 HRI가 제대로 구현되려면 AI가 인간의 의도를 파악하는 수준도 주어진 명령에 대한 단편적인 이해를 넘어 주변 상황까지 감안한 복합적 이해 단계로 발전해야 한다. 로봇이 보이는 반응 역시 단순한 반응을 넘어 창의적인 대안을 제시할 수 있는 수준으로 발전해야 한다.
진화한 미래 HRI의 모습은 일부 컴패니언 로봇(Companion robot, Social Robot)들을 통해 엿볼 수 있다. 그중에서 가장 다양한 HRI를 갖춘 로봇으로 소프트뱅크의 페퍼(Pepper)를 들 수 있다.
페퍼는 비록 완전하지 않지만 터치 방식과 음성·시각 기반의 HRI에 감성 기반의 HRI까지 두루 갖추고 있어 다양한 인터페이스를 갖춘 HRI가 어떻게 작동하는지 잘 보여준다. 포괄적인 의미에서 단순한 형태의 컴패니언 로봇으로 간주되기도 하는 스마트 스피커는 지금 HRI의 발전 과정에서 중요한 가교 역할을 수행하는 중이다.
[본 기사는 한경비즈니스 제 1193호(2018.10.08 ~ 2018.10.14) 기사입니다.]
-아마존·구글 등 시각 인터페이스까지 갖춘 스마트 스피커 경쟁적 출시
[한경비즈니스=진석용 LG경제연구원 책임연구원] 스마트 스피커는 구글·아마존뿐만 아니라 한국의 네이버·KT·SK 등 다수의 전자·통신·인터넷 서비스 기업들이 앞다퉈 상용화하고 있는 제품이다. 그런데 최근 들어 새로운 형태의 스마트 스피커들이 속속 등장하고 있다.
신형 스마트 스피커들은 동영상을 제공하는 디스플레이와 각종 이미지를 인식할 수 있는 카메라 등 시각 관련 인터페이스를 갖추고 있다는 점에서 사용자의 구두 명령을 알아듣고 대화할 수 있는 음식인식 기반의 인터페이스만 갖춘 기존 제품들과는 큰 차이를 보인다.
스마트 스피커의 기능이 청각(소리) 기반에서 시각 기반으로 확장되는 양상은 인간과 로봇의 소통 기술인 인간·로봇 상호작용(HRI : Human-robot interaction)의 발전 방향을 잘 보여준다.
◆청각에서 확장된 시각 인터페이스 ‘스마트 스피커’
아마존은 2017년 중반 스마트 스피커인 ‘에코 쇼(Echo Show)’를 출시하면서 스마트 스피커 분야의 새로운 이정표를 제시했다. 에코 쇼는 7인치 크기의 터치스크린을 갖추고 있어 각종 이미지나 동영상 등의 시각 정보를 제공, 스피커와 마이크만 달린 기존 에코보다 훨씬 다양한 서비스가 가능한 제품이다.
에코 쇼가 등장한 이후 시각 정보를 제공할 수 있는 화면을 갖춘 스마트 스피커들이 속속 등장하고 있다. 2018년 초에는 레노버가 8인치·10인치 화면을 갖추고 구글 어시스턴트를 탑재한 스마트 스피커를 출시했는가 하면 구글도 기존 제품인 ‘구글 홈’과 ‘구글 홈 미니’와 다르게 디스플레이를 장착한 스마트 디스플레이를 2018년 말 출시할 것이라고 발표했다.
새로운 스마트 스피커들은 사용자의 음성을 듣고 말로 대답하는 음성 기반의 인터페이스만 갖췄던 기존 스마트 스피커와 달리 시각이란 새로운 인터페이스로 무장하고 있다. 시각 인터페이스의 추가가 의미하는 바는 이미지 제공이란 엔터테인먼트적 요소가 추가됐다거나 단순히 사용자와 스마트 스피커 간의 소통 방식이 하나 더 늘어난 데 그치지 않는다.
보다 중요한 점은 음성 기반의 인터페이스와 시각 기반의 인터페이스를 유기적으로 활용함으로써 스마트 스피커가 사용자의 의도를 보다 정확하고 신속하게 간파하고 사용자의 목적을 보다 효율적으로 달성할 수 있다는 것이다.
이렇게 각종 인터페이스를 통해 사용자인 인간과 스마트 스피커를 포함한 로봇 간의 소통을 지원하는 기술을 통틀어 ‘HRI’라고 한다. 다시 말해 HRI는 로봇이 인간 사용자의 의도를 해석해 인간과 직접 협력하거나 인간의 의도에 적합한 반응을 수행하도록 하는 기술을 뜻한다.
HRI에는 청각·시각·촉각 등 각종 외부 신호와 정보를 인지하는 센서 기술들과 수집 정보 및 인간의 의도를 해석하고 적합한 반응을 내리도록 하는 인공지능(AI) 그리고 결정된 반응을 사용자에게 전달하는 기구부 관련 기술들의 유기적 결합을 통해 구성된다.
HRI는 인간과 인공 피조물 간의 소통을 돕는 기술이란 점에서 종종 인간과 컴퓨터·기계 간의 소통인 HCI(Human-computer Interaction)나 HMI(Human-machine Interaction)와 비교된다.
로봇뿐만 아니라 컴퓨터나 기계의 인터페이스를 설계하는 과정에서도 사용자인 인간의 인식(Perception)·판단(Cognition)·표현(expression) 등 인간의 행위적 특성을 고려한다는 점에서 HRI는 HCI나 HMI와 유사한 특성을 지닌다.
하지만 HRI는 상호 소통이 강조되는 양방향성이 강한 기술이라는 점에서는 일방향성 중심의 HCI나 HMI와 뚜렷한 차이를 보인다. 로봇은 사용 목적이나 용도 측면에서 컴퓨터나 일반 기계에 비해 훨씬 다양한 수준의 자율성을 갖춰야 하는 인공 피조물이기 때문이다.
이러한 HRI의 중요성은 갈수록 커지고 있다. HRI는 앞으로 더욱 늘어날 인간과 로봇 간 상호 협력의 기반이 된다. 인간이 처리하기 벅찰 정도로 넘치는 정보의 과부하 문제를 해결하는 과정에도 HRI는 중요한 역할을 수행하게 된다. 두 가지 역할의 수행을 통해 HRI는 로봇 확산의 교두보로도 작용할 수 있다.
◆서비스 로봇의 핵심 가치를 제공
HRI의 역할은 인간이 원하는 것을 얻고자 할 때 로봇을 보다 효과적으로 사용하도록 만드는 것이다. 이에 따라 HRI의 가치는 인간이 로봇을 사용하는 과정에서 자연스럽게 나타난다고 볼 수 있다.
특히 인간과 로봇 간의 소통이 중요한 분야일수록 HRI의 가치는 더욱 높아질 것이다. 예컨대 에코가 처음 등장했던 2014년 당시만 하더라도 스마트 스피커는 그저 아마존이 선보인 흥미로운 정보기술(IT) 제품 정도로 간주됐다.
하지만 오늘날 스마트 스피커의 확산은 일반 가정에 그치지 않고 있다. 스마트 스피커의 풍부한 활용 가능성을 내다본 통신 서비스와 은행·증권 등의 소매금융, 보안·관제, 헬스케어와 관련한 각종 모니터링 서비스 분야에서도 스마트 스피커를 도입하고 있다. 스마트 스피커의 확산이 빨라지는 분야들의 공통점은 모두 인간 사용자와의 대면 접촉이 필수적이란 점이다. 즉, 대면 접촉의 필요성과 HRI의 가치는 비례한다고 볼 수 있다.
이런 점을 감안하면 HRI는 서비스 로봇 사업에서 중요한 경쟁 기반이 될 가능성도 높아 보인다. 군사용이나 의료용 등 특수한 로봇을 제외한 일반 서비스 로봇에 주어진 임무는 대중과의 대면 접촉을 수반할 때가 많다. 일반 서비스 로봇의 소유자나 사용자 또는 로봇이 제공하는 서비스의 수혜자가 되는 일반 대중은 로봇에 대한 비전문가들이다.
이에 따라 인간을 직접 응대하는 서비스 로봇의 가치는 인간과 로봇 간에 주고받는 정보 교류를 원활하게 만드는 HRI의 수준에 좌우될 가능성이 높다. 결국 로봇을 보다 효과적이고 편리하게 사용할 수 있도록 만드는 HRI는 일반 서비스 로봇의 가치를 창출하는 핵심 요소 중 하나가 된다고 볼 수 있다.
일견 기구부 중심으로만 진행되는 것처럼 보이는 서비스 로봇 개발 경쟁의 이면에는 인간과 로봇을 연결해 주는 HRI 개발 경쟁의 가속화를 포함하고 있다고 볼 수 있다. HRI는 기구부 관련 기술들에 비해 기술적 장벽이 더 높을 가능성도 배제할 수 없다.
예를 들어 인간이 누군가와 쉽게 소통할 수 있으려면 상대방의 의사 표현 방식을 잘 알아야 한다. 상대방의 사회적·문화적 배경이나 생활환경에 대해 잘 알수록 상호 소통은 훨씬 원활해질 것이다.
인간과 로봇 간의 소통도 이러한 인간 간의 소통과 크게 다르지 않다. 로봇의 구매자이자 사용자인 동시에 로봇이 제공하는 서비스의 수혜자이기도 한 인간의 사회적·문화적 배경과 의사 표현에 내재된 맥락에 대한 이해가 동원될수록 보다 효과적인 HRI를 개발할 수 있다.
HRI 개발은 인간 스스로에 대한 연구인 심리학·사회학·교육학 등 각종 사회과학에서부터 언어학·인지과학·공학·인공지능과 로봇의 외형적 인상을 결정짓는 디자인에 이르는 다양한 학문과 지식이 필요한 전형적인 학제 간 연구·개발(R&D) 분야이기도 하다.
◆동작·감정 기반 HRI 순으로 발전할 전망
초기 HRI는 키보드를 사용하는 프로그램 방식에서 마우스와 터치스크린을 이용한 터치 방식으로 발전해 왔다. 2000년대 들어 관련 AI 기술이 발달한 덕분에 지금은 음성인식 방식도 스마트 스피커를 중심으로 점차 확산되고 있다.
음성인식 기반의 HRI가 아직 사용자의 의도를 파악하는 정확도나 사용상의 편의성 측면에서 다소 한정적이지만 사용 데이터가 축적될수록 점차 개선될 것으로 예상된다. 일부 서비스 로봇과 신형 스마트 스피커에 채택된 시각 기반의 HRI는 이제 보급되기 시작하는 상황이다.
얼굴 표정, 눈의 움직임, 몸동작을 해석해 사용자의 의도를 파악하고 매니퓰레이터(사람의 팔과 비슷한 기능을 가진 기계) 등 다양한 기구부의 움직임을 통해 사용자에게 필요한 동작을 취하기도 하는 시각적 HRI는 로봇 사용의 편의성을 획기적으로 개선하는 수단이 될 것으로 기대된다.
HRI는 시각 기반 방식을 거쳐 인간의 감정을 이해하고 감정에 호소하는 식의 반응을 보일 수도 있는 감성 기반 방식으로 발전할 것으로 예상된다. 감성 기반의 HRI가 제대로 구현되려면 AI가 인간의 의도를 파악하는 수준도 주어진 명령에 대한 단편적인 이해를 넘어 주변 상황까지 감안한 복합적 이해 단계로 발전해야 한다. 로봇이 보이는 반응 역시 단순한 반응을 넘어 창의적인 대안을 제시할 수 있는 수준으로 발전해야 한다.
진화한 미래 HRI의 모습은 일부 컴패니언 로봇(Companion robot, Social Robot)들을 통해 엿볼 수 있다. 그중에서 가장 다양한 HRI를 갖춘 로봇으로 소프트뱅크의 페퍼(Pepper)를 들 수 있다.
페퍼는 비록 완전하지 않지만 터치 방식과 음성·시각 기반의 HRI에 감성 기반의 HRI까지 두루 갖추고 있어 다양한 인터페이스를 갖춘 HRI가 어떻게 작동하는지 잘 보여준다. 포괄적인 의미에서 단순한 형태의 컴패니언 로봇으로 간주되기도 하는 스마트 스피커는 지금 HRI의 발전 과정에서 중요한 가교 역할을 수행하는 중이다.
[본 기사는 한경비즈니스 제 1193호(2018.10.08 ~ 2018.10.14) 기사입니다.]