지금 슬픈가요 감정 읽는 감성 컴퓨터 │ 매거진한경

'미세 표정' 식별해 인간 감정 파악
목소리·몸짓 데이터 활용 연구도

지난해 미국 샌디에이고에서는 미식축구 결승전인 슈퍼볼에 맞춰 특별한 행사가 열렸다. 표정을 읽는 기술을 가진 스타트업 회사 이모션트가 30여 명의 지원자를 바에 모아 음식과 음료를 즐기며 경기를 지켜보게 한 것이다.

이 행사 동안 2개의 모니터 뒷면에 부착된 카메라가 지원자들을 관찰했다. 영상에서 개개인의 얼굴을 인식해 놀라거나 흥미를 느끼거나 지루해 하는 등의 감정 변화를 파악하는 실험이 진행됐다.

이를 토대로 화면에 보이는 광고에 대한 사람들의 반응을 집중적으로 연구했다. 이렇게 얼굴에서 감정을 ‘읽는’ 방법으로 광고효과를 판단하려는 것이 이 실험의 목적이었다.

이렇게 사람의 표정·목소리·몸짓 등의 생리적 신호를 바탕으로 정보통신기술(ICT)을 이용해 내부적인 감정을 알아내려는 노력을 ‘감성 컴퓨팅(affective computing)’이라고 한다.

감성 컴퓨팅은 1995년 매사추세츠공과대(MIT)의 로잘린드 피카드 박사가 최초로 제안했고 데이터의 폭증, 컴퓨터 성능의 향상, 기계 학습의 발전 등에 힘입어 최근 5년간 폭발적으로 성장하고 있다. 다시 말하면 빅 데이터 시대에 그 의미가 재조명 받고 있다고 볼 수 있다.

감성 컴퓨팅의 활용 방안을 찾는 것은 어렵지 않다. 앞의 사례처럼 광고 분야에 적용할 수 있고 온라인 교육에서 학생들이 느끼는 감정에 따라 효율적으로 대응할 수도 있으며 표현력이 떨어지는 아이들이 느끼는 통증을 파악해 적절한 치료를 할 수도 있다.

생리적 신호로 많이 이용하는 것은 얼굴 표정이다. 얼마 전까지만 해도 방에 모여 있는 사람을 인식하는 것 자체도 쉽지 않았지만 기술 발전으로 어두운 환경에서 찍은 군중 사진에서 개개인의 얼굴은 물론이고 입술·눈·코 등의 모양을 파악하는 것까지도 가능해졌다.

그렇다면 사람들의 표정에서 어떻게 내적인 감정을 뽑아낼 수 있을까. 여기에는 오랜 기간 축적된 심리학 지식이 사용된다. 그 대표적 사례가 폴 에크만 박사의 이론이다.

에크만 박사는 미세 표정(micro expression)을 이용해 감정을 읽는 데 집중했다. 이는 사람들이 감정을 숨기는 과정에서 1초도 안 되는 짧은 시간에 나타난다. 이를 분석하면 분노·공포·슬픔·혐오·경멸·놀람·행복의 감정을 알아낼 수 있다.

미세 표정의 개념은 존재하고 있었지만 에크만 박사는 일반인도 훈련을 통해 이를 읽을 수 있다는 것을 확인했다. 이 기술은 다양하게 활용되고 있고 그 대표적 사례가 ‘속임수 간파(deception detection)’다.

빅 데이터와 머신 러닝 결합해

사실 에크만 박사가 대중에게 알려지게 된 계기는 인기리에 방영된 미국 TV 드라마 ‘라이 투 미’다. 여기에 소개된 내용은 에크만 박사의 이론을 기본으로 하고 있고 주인공 칼 라이트만 박사의 롤모델은 에크만 박사로 봐도 무방하다.

다른 사례는 영화 ‘인사이드 아웃’이다. 그는 1조원이 넘는 수입을 올린 이 영화에서 과학 자문 역할을 맡았다. 영화에 등장하는 버럭·까칠·기쁨·소심·슬픔의 캐릭터는 에크만 박사의 이론에 있는 감정들 중에서 선정됐다.

이모션트·에펙티바 등의 회사는 한마디로 에크만 박사의 방법론을 빅 데이터 기술을 이용해 구현했다고 할 수 있다.

즉 다양한 표정의 사진들을 대량 확보해 기계 학습을 통해 컴퓨터가 감정을 인식할 수 있도록 훈련한 것이다. 예를 들어 기쁨을 인식하기 위해 기쁨을 표현하는 10만 장의 사진으로 훈련하고 그다지 기뻐하지 않는 사진 100만 장으로 추가 훈련했다.

이모션트는 이러한 연구를 오랫동안 진행해 왔지만 빅 데이터 기술이 발전하고 나서야 그 효과가 나타나기 시작했다. 예를 들어 기존에는 정면을 응시할 때에만 표정을 읽을 수 있었지만 지금은 30도 정도의 각도에서도 사람의 감정을 파악할 수 있다.

이렇게 표정에서 감정을 읽는 기술은 교육에 활용될 수도 있다. 학생의 감정을 실시간으로 파악할 수 있다면 수업을 보다 효율적으로 진행할 수 있을 것이다.

미국 노터데임대의 시드니 디멜로 박사는 이를 위해 세 부분으로 구성된 시스템을 구축했다. 미소·눈썹·동공 등을 측정하고 이를 바탕으로 감정에 대한 판단을 내려 컴퓨터의 반응을 결정한다.

이러한 반응의 하나는 공감적인 반영(empathic mirroring)이다. 즉 컴퓨터 화면에 학생의 감정에 따른 반응을 표시한다. 예컨대 학생이 지루해하면 공감과 격려의 메시지가 나타나게 된다. 또한 학생이 문제를 푸는 과정에서 혼란스러워 하면 추가 설명을 보여주거나 새로운 힌트를 제공할 수도 있다.

표정에 이어 목소리로 감정을 파악하는 방법이 있다. 이스라엘의 비욘드 버발은 몇 개의 단어를 스마트폰에 말하게 하고 이를 이용해 감정 상태를 판단하는 애플리케이션(앱)을 개발했다.

이러한 노력은 STT(speech to text) 분석의 하나로 사용되는 단어, 목소리의 크기, 속도 등을 종합해 화자의 감정을 파악하려는 노력이다. 한 연구에서 성공률이 63%에 도달하는 등의 가능성을 보이기도 했지만 이를 실제에 활용하기에는 아직 미흡하다.

또 다른 가능성은 몸짓을 이용하는 것이다. 이 분야도 풍부한 심리학 지식이 축적돼 있다. 예를 들어 사람이 위협을 느끼면 동결(freeze)·도피(flight)·전투(fight) 등 세 가지의 무의식적인 반응을 보인다.

인텔의 ‘포켓아바타’는 카메라로 사용자의 얼굴 표정을 인식해 그와 비슷하게 생긴 아바타 캐릭터를 음성과 함께 전송할 수 있다.

면접관 표정 읽어 적절한 행동 코치

동결은 동작이 정지되는 것 외에도 다양한 표현이 존재한다. 예를 들어 얕은 숨을 쉬거나 손이나 발로 몸을 감싸거나 어깨를 올리면서 머리를 낮추는 행동도 동결을 표시한다. 바꿔 말하면 이러한 증상을 보이는 사람들은 위협의 감정을 느끼고 있다고 판단할 수 있다.

컴퓨터로 이러한 몸짓을 이해하는 기술은 아직 초보적인 단계이지만 기술이 발전해 구글 글라스에 탑재되면 안경을 통해 보이는 얼굴 위에 감정 상태가 동시에 표시되는 만화 같은 상황이 도래할 것이다.

또한 스탠퍼드대에서는 게임기 조종 장치에 센서를 부착해 사람의 감정을 파악하고 이에 맞춰 게임을 진행하는 연구도 추진되고 있다. 즉, 전기신호가 몸을 통해 전달되는 시간 및 강도를 측정해 우울·흥분·지루함 등의 감정을 파악할 수 있다.

이 밖에 컴퓨터 키보드를 누르는 주기 및 강도로 사용자 감정에 대한 데이터를 얻으려는 노력이 진행되고 있고 심지어 수면 뇌파를 이용한 연구도 추진되고 있다.

앞으로는 다양한 센서를 이용해 여러 가지 생리적 신호를 동시에 측정, 인간의 감정을 보다 정확하게 예측하는 방향으로 진화할 것으로 예상된다. 아직은 인간에 비해 미흡하지만 컴퓨터 기술의 발전에 힘입어 그 능력이 빠르게 개선될 것으로 보인다.

MIT에서 개발한 컴퓨터 코치 ‘매치(MACH, My Automated Conversation coacH)’를 살펴보자. 미국에서는 약 1500만 명이 다른 사람과의 사회적 접촉을 두려워하고 회피하는 사회공포증에 시달리고 있다.

예를 들어 아스퍼거 증후군의 환자들은 대중 앞에 나설 때 사람들과 눈을 마주치지 못하며 사회적 신호에 적절히 반응하지 못한다.

매치는 이러한 사람들을 돕기 위해 개발됐다. 즉 얼굴·음성·몸짓 등을 종합적으로 분석해 면접 등의 자리에서 적절한 행동에 대한 코치를 해 주려는 것이다. 예컨대 미소는 적절하게 지었는지, 눈맞춤은 유지했는지, 목소리의 강약은 적당했는지, 불필요한 허사는 얼마나 사용했는지 등을 관찰해 문제점을 지적한다.

사람이 아닌 기계가 인간관계에 대해 조언하는 것이 우습게 보일 수 있지만, 오히려 컴퓨터가 하는 말이기 때문에 불편한 이야기도 거부감 없이 받아들이는 아이러니가 있다.

지금 휴대전화의 성능이 20년 전 슈퍼컴퓨터와 대등하다는 것을 감안하면 2035년에는 사람들이 상대방의 감정 상태를 실시간으로 분석하는 장비를 들고 다니지 않을까.

이지수 한국과학기술정보연구원 책임연구원

시간 내서 보는 주간지 ‘한경비즈니스’ 구독신청 >>