[AI 이야기]


첫 리눅스 플랫폼으로 개발…외부 소음 줄여 인식률 높이기 위해 6개 마이크 채택
더 작고 똑똑한 스마트 스피커… ‘미니헥사’ 개발 이야기
[한경비즈니스 칼럼=카카오엔터프라이즈 글렌.P·최종환·김영수·고현우·김기명·이상조·박찬홍·신지현·진보필· 카카오 엔터프라이즈 기술블로그 테크앤.] 스마트 스피커(AI 스피커)는 구글·아마존·애플 등 글로벌 테크 기업뿐만 아니라 바이두·알리바바·샤오미 등 중국 거대 기업들도 지속적으로 투자하고 있는 상품이다. 한국만 보더라도 제조 업체인 삼성과 LG, 통신 회사인 SK텔레콤·KT·LG유플러스, 인터넷 플랫폼 기업인 네이버·카카오 모두 음성 인공지능(AI) 플랫폼과 함께 자사의 스마트 스피커를 출시하고 있다.


2019년 하반기부터 소비자들의 호기심 감소와 시장 수요 침체로 판매량이 크게 줄어들긴 했지만 여전히 테크 기업들은 스마트 스피커를 쉽게 포기하지 못하고 있다. 이는 터치 인터페이스를 넘어 대화형 인터페이스가 주는 가치와 비전이 확실하고 이를 위한 음성 인식, 자연어 처리, 음성 합성 등 인터페이스 기술과 딥러닝·빅데이터·클라우드 등 기반 기술의 발전에 스마트 스피커가 중요한 위치를 차지하고 있기 때문이다.


정확한 음성 인식 성능에 초점

2017년 11월 카카오의 첫 스마트 스피커 ‘카카오미니’가 출시됐고 2018년 9월 둘째 스마트 스피커 ‘카카오미니C’가 출시됐다. 카카오미니는 ‘새로움을 선사하기보다는 자연스럽게 일상에 녹아들게 하자’는 콘셉트로 카카오 i를 활용한 첫째 디바이스다. 서비스적인 측면으로 보면 대화형 인터페이스를 통한 새로운 음악 경험을 제공하는데 의미가 있었다. 카카오미니C는 보이스리모트와 포터블팩 액세서리를 통해 사용 편의성을 확장했다. 이는 새로운 음악 경험을 넘어 다양한 도메인 확장과 음성·시각·번역 엔진 등 커뮤니케이션을 위한 기술 확장의 발판이 됐다.


미니헥사는 기획 단계에서 초기 제품 콘셉트와 방향성에 대한 치열한 논의가 있었고 오랜 논의 끝에 기술 내재화, 음성 인식의 고도화를 목표로 한 레퍼런스 디바이스로 포지셔닝했다. 일반적으로 소비자가 느끼는 스마트 스피커에 대한 불만은 ①음성 명령이 잘 안 됨 ②자연스러운 대화가 곤란함 ③외부 소음을 음성으로 오인식 ④자신에게 맞는 정확한 정보·콘텐츠를 제공하지 못함 순서로 나타난다.


실제 ②와 ④는 시간이 필요한 기술이어서 당장 해결하기 어렵고 ①과 ③을 해결하기 위해 도전해 볼 가치가 있다고 판단했다. 이전 카카오미니도 한국 경쟁사 대비 근소한 차이지만 음성 인식이 뛰어나다는 평가가 있었고 향후 대화형 인터페이스를 기반으로 하는 서비스에서 첫 시작인 음성 인식 기술은 그 어떤 기술보다 중요한 핵심 기술이라고 생각했기 때문이다.


고민 끝에 다양한 시도를 해 볼 수 있는 6개의 마이크를 선택했고 해외 유수의 전처리 기술 업체를 리서치해 DSP 콘셉트의 기술을 채택했고 모든 퍼포먼스를 효율적으로 실행할 수 있는 하드웨어를 직접 설계했다. 또한 안드로이드 기반으로 운영되던 카카오미니에서 리눅스 기반으로 운영되는 플랫폼을 추가해 보다 다양한 서드 파티에 대응할 수 있는 시스템을 갖추게 됐다.


미니헥사는 콤팩트한 디자인으로 집 안 곳곳에서 활용도를 높이고 고도화된 음성 인식과 강화된 연결성을 제공하는 더 작고 똑똑한 스마트 스피커다. 제품 주요 콘셉트는 감각적인 인터랙션(sensibility), 속도와 안정성이 강화된 연결성(connectivity), 작은 외관으로 집 안 곳곳에서 조화롭게 융화(compatibility)되는 특징을 가지고 있다.


미니헥사는 카카오미니와 다르게 카카오가 직접 하드웨어를 개발한 첫 제품이다. 단순히 기술을 내재화하고 고도화하는 목표를 넘어 주요 하드웨어를 시스템온모듈(SoM) 형태로 만들어 서드 파티 업체와 협업, 판매도 검토하고 있다. 또한 코어 기술인 음성 인식을 고도화했고 리눅스 운영체제(OS)로 개발해 가볍고 서드 파티 업체로 확장하기 쉽도록 설계됐다.
더 작고 똑똑한 스마트 스피커… ‘미니헥사’ 개발 이야기
마이크 개수 늘려 노이즈 제거

미니헥사는 하드웨어 개발부터 소프트웨어 개발, 외부 부품사와 제조 협력사 등 다양한 사람들이 팀을 이뤄 개발이 진행됐다. 특히 미니헥사는 내부 기술로 하드웨어까지 설계한 첫 제품이다. 미니헥사는 이전 미니 시리즈(안드로이드 플랫폼)와 다르게 처음으로 리눅스 플랫폼으로 개발됐다.


미니헥사는 음성 인식 성능을 더욱 향상시키기 위해 기존 미니C에서 4개의 마이크를 사용하는 것에서 더 나아가 6개의 마이크를 사용하게 됐다. 마이크에는 인식이 필요한 음성 신호뿐만 아니라 주변의 노이즈까지 같이 입력돼 음성 인식에 방해를 준다. 따라서 음성 인식 성능을 향상시키기 위해서는 음성 신호를 키우거나 노이즈를 줄여야 되는데 이를 위해 여러 개의 마이크를 이용한 신호 처리 기술을 적용한다.
사용자가 음성 발화를 하면 음파가 마이크까지 전파된다. 이때 마이크가 여러 개이면 각각에 도착하는 시간이 조금씩 다르게 된다. 이렇게 다르게 도착한 신호에서 원하는 음성 신호가 같은 시간에 위치하도록 조정한 후 더하면 같은 음성 신호가 커지게 된다. 반면 원하는 음성 신호와 다른 곳에서 오는 노이즈는 서로 시간이 어긋나므로 더하면 별로 커지지 않거나 서로 상쇄돼 없어지기 때문에 음성 신호는 커지고 노이즈는 상대적으로 줄어드는 효과가 나타난다. 이때 음성 인식 성능이 향상되고 마이크 개수가 많을수록 마이크가 넓게 펼쳐져 있을수록 성능은 더 좋아진다.


는 미니헥사 정도 크기의 기기에 마이크를 장착했을 때 마이크 개수에 따라 특정 방향의 소리만 얼마나 잘 받아들일 수 있는지를 보여준다. 마이크 개수가 6개까지 증가하면서 원하는 방향인 0도 쪽에서 오는 소리만 잘 받아들이는 것을 확인할 수 있다. 마이크 수를 6개보다 더 늘리면 조금 더 성능을 향상시킬 수 있지만 미니헥사의 크기를 더 키우지 않고 마이크 수만 늘렸을 때의 성능 증가 폭이 그리 크지 않은데 비해 하드웨어에서 입력 개수와 대역폭의 증가와 프로세서가 처리해야 되는 데이터의 증가를 가져오게 되므로 6개를 최적으로 판단해 적용했다.
더 작고 똑똑한 스마트 스피커… ‘미니헥사’ 개발 이야기
더 작고 똑똑한 스마트 스피커… ‘미니헥사’ 개발 이야기
미니헥사 디자인의 핵심 철학은 ‘대화형 인터페이스에 최적화된 디자인’이었다. 카카오톡 송수신, 사용자 커스텀 퀵 버튼 등 개인화된 서비스에 걸맞게 사용자가 거실 공간이 아닌 방 또는 작업실이나 서재 등 개인화된 공간 어디나 거치하기 편리하도록 콤팩트한 사이즈로 디자인됐다.


미니헥사는 카카오미니의 디자인 아이덴티티를 계승함과 동시에 발전시켰다. 카카오가 만드는 스마트 스피커의 중요한 아이덴티티 중 하나는 마이크 배열과 폼팩터의 관계인데 카카오미니는 4개의 마이크 배열에서 도출된 최적의 사각 기둥 형태를 사용했다. 미니헥사 또한 6개의 마이크 어레이를 강조하기 위해 육각 기둥 형태의 폼팩터를 도출했는데 이는 AI 디바이스의 ‘귀’를 담당하는 마이크를 핵심적인 디자인 요소로 ‘더 강조하자’는 판단이었다.


이 밖에 교육·번역 등 다양한 카테고리의 서비스에서 지속적인 업데이트가 이뤄지고 있다. 최근에는 스마트 스피커의 진화 방향으로 사용자가 물어볼 때만 정보를 알려주는 것이 아니라 필요할 때 적시에 알려주는 똑똑한 라이프 어시스턴트가 되기 위해 준비 중이다. 또한 복수의 스마트 스피커 사용자 또는 스마트 스피커 외에 카카오 i가 탑재된 복수의 디바이스를 사용하는 환경을 고려해 멀티 디바이스를 통해 가능한 다양한 시나리오들도 계획 중이다.


스마트 스피커가 아직은 진정한 AI 스피커로서 소비자의 기대를 만족시키지 못하고 있지만 데이터의 축적, 보안과 프라이버시 문제 해결, 음성 AI 성능 향상, 복합적 인터랙션 기술이 더해져 킬러 서비스로 발전할 것으로 예상된다.

[본 기사는 한경비즈니스 제 1311호(2021.01.04 ~ 2021.01.10) 기사입니다.]