제4차 산업혁명의 열쇠 소리에 투자하는 기업들 │ 매거진한경

[big story][한경 머니 = 김수정 기자]터키 속담에 “미래는 산모와 같다. 무엇을 낳을지 누가 알겠는가”라는 말이 있다. 제4차 산업혁명 시대를 초입에 둔 지금 우리들의 마음이 이와 같을지 모르겠다. 누구도 정답을 알지 못하기 때문이다. 다만, 철저한 시장 분석과 기술 연구를 통해 미래를 추측해 나갈 뿐이다. 그렇다면 다가올 비즈니스 생태계에서 소리는 어떻게 활용되고 투자될 수 있을까.

제4차 산업혁명 시대를 대비해 소리에 투자하는 기업들이 늘어나고 있다. 그동안 기업들의 소리 투자가 주로 ‘더 나은 음질’에 초점이 맞춰졌다면 이제는 음성인식기술 등 소리를 활용한 기술 개발에 힘을 싣는 상황이다. 제4차 산업혁명 시대의 꽃이라 불리는 로봇 등 인공지능(AI) 기술이 실생활에 완벽하게 구현되기 위해서는 그에 상응하는 ‘음성인식기술’이 접목돼야 하기 때문이다.

음성인식기술
음성인식기술은 컴퓨터가 마이크와 같은 소리 센서를 통해 얻은 음향학적 신호(acoustic speech signal)를 단어나 문장으로 변환시키는 기술을 말한다. 음성인식기술은 일반적으로, 음향 신호를 추출한 후 잡음을 제거하는 작업을 하게 되며, 이후 음성 신호의 특징을 추출해 음성 모델 데이터베이스(DB)와 비교하는 방식으로 음성인식을 하게 된다.

음성인식기술 역시 센싱과 데이터 분석 기술이 결합돼 있기는 하지만, 측정하고 분석해야 하는 데이터가 음성 데이터 하나라는 점에서 보다 손쉽고 정확하게 사람의 의도를 파악할 방법으로 알려졌다. 비단, AI의 활용에 꼭 음성인식이 필요한 것은 아니지만 많은 정보통신기술(ICT) 기업들이 AI와 음성인식의 결합에 힘을 싣는 이유는 복잡한 기계어가 아닌 자연어를 활용한 음성인식 방식이 개인 소비자들이 AI를 손쉽게 활용할 수 있는 방법이기 때문이다.

현재까지의 음성인식기술은 약 100분의 1초 단위로 파형을 분석해 사람이 소리를 낼 때의 입 모양을 컴퓨터가 복원하고, 거기에 해당하는 단어를 찾는 방식이다. 따라서 사람의 감정이나 상태를 파악할 수 있는 목소리의 톤이 구별되지 않고, 처리 속도 역시 단어 나열 정도에 머물러 있다.

이에 소셜컨설팅그룹 SCG의 고영 대표는 “아직까지 음성인식기술이 기초적인 메시지 전달에 머물러 있지만 앞으로 어떻게 개발되느냐에 따라 엄청난 고부가가치가 기대되는 분야”라며 “가령, 음성인식기술을 통해 로봇이 사람의 목소리 톤을 해석(인지)할 수 있다면 업무 처리 능력이 더욱 빨라질 뿐만 아니라, 보다 정확한 의사소통이 가능하게 된다”고 설명했다.

음성인식기술을 바탕으로 한 다양한 음성인식 서비스들은 2000년대 후반에 본격적으로 소개되기 시작했다. 2011년에 출시된 애플의 음성 기반 개인비서 서비스인 ‘시리(Siri)’가 대표적이다. 시리는 아이폰 사용자의 음성 명령을 바탕으로 모바일 검색은 물론, 일정 관리, 전화 걸기, 메모, 음악 재생 등 다양한 생활 편의 서비스를 제공하는 개인비서 서비스다. 애플의 시리 출시 이후, 구글은 ‘구글 나우(Google Now)’, 마이크로소프트(MS)는 ‘코타나(Cortana)’와 같은 음성인식 기반의 개인비서 서비스를 출시했다.

최근 국제전자제품박람회(CES) 2017에서도 음성인식을 활용한 AI 제품들이 눈길을 끌었다. 아마존 알렉사, 구글 어디스턴트, MS 코타나 등 딥러닝이 가능한 AI 음성인식기술이 가전, 스마트폰, 자동차, 드론, 콘텐츠 등과 결합하고 있다. 상용화까지는 시간이 걸린다는 평가지만 지금의 속도라면 AI는 곧 우리 생활 깊숙이 자리 잡을 수 있다는 것이 업계의 중론이다. 이승우 IBK투자증권 연구원은 “제4차 산업혁명 시대에 AI와 관련한 음성인식기술은 기존의 산업 생태계를 바꿀 가장 큰 열쇠 중 하나”라며 “미래의 많은 정보가 음성인식 전달로 이뤄질 가능성이 높은 만큼 굉장히 전망이 밝은 분야다”라고 전했다.

국내 기업들 간 경쟁도 뜨겁다. 네이버와 카카오는 음성인식 개발에 투자를 늘리고, 관련 벤처기업 인수에도 적극적이다. 네이버는 음성 합성 엔진인 ‘엔보이스(nVoice)’를 텍스트 음성 변환 기술(Text to Speech, TTS)에 적용해 뉴스를 읽어주는 서비스를 제공하고 있다. 네이버의 AI 번역 애플리케이션 ‘파파고’와 네이버 지도에도 음성인식기술이 탑재돼 있다. 카카오도 꾸준히 음성인식기술 개발에 매진하고 있다.

카카오는 지난 2013년 음성인식기술 벤처기업 다이알로이드를 인수해 화제를 모았다. 2014년엔 입력된 목소리를 문자로 변환, 음성 검색 서비스를 가능케 하는 음성인식 엔진 ‘뉴톤’을 자체 개발했다. 카카오는 이 같은 음성인식기술을 현재 카카오맵, 카카오내비, 다음앱에 적용했고, 카카오지하철, 카카오버스 앱에도 활용할 예정이다.

삼성전자는 올해 출시할 전략 스마트폰에 음성인식 AI 서비스를 탑재할 예정이다. 이미 지난해 10월 5일 미국 AI 플랫폼 개발 기업 비브랩스(VIV Labs)를 인수하는 등 AI 기반 음성인식기술 영역에 공을 들이고 있다. 삼성전자는 곧 선보일 ‘갤럭시 S8’에 삼성 스마트폰 최초로 인공지능 가상비서인 빅스비(Bixby)도 탑재할 예정이다. 이 경우 갤럭시S8 카메라로 특정 사물이나 글씨를 촬영하면, 빅스비가 이를 스캔해 관련 정보를 확인하고 음성 명령으로 쇼핑이나 번역 등의 작업을 이어갈 수 있다.

소리를 오감으로 전하다
다가올 미래에는 음성인식기술만큼이나 음성을 전달하는 방식도 다양해질 전망이다. 소리는 기본적으로 진동이다. 진동은 어떤 물체가 정해진 공간에서 반복적으로 운동하는 것이며, 이러한 진동에 의한 에너지가 매질(파동이 전파될 때 필요한 물질)이나 공감을 통해 전파되는 것이 파동이다. 소리는 공기라는 매질을 통해 전달되는 에너지이자 파동이다.

기존에는 단순히 소리의 진동이 공기를 타고 귀로 전달되는 데 그쳤다면 앞으로는 인체를 통해 음성신호를 전달하는 기술 등 다양한 음성신호 전달 기술을 통해 삶의 질과 편의를 도모할 것으로 보인다. 더욱이 소리는 다른 에너지와 비교했을 때 인체에 무해하기 때문에 인체전도기술에 접목하기에도 무리가 없다.

그중 지난해 국내 스타트업 기업 ‘이놈들연구소’에서 개발한 스마트 시곗줄 ‘시그널(Sgnl)’은 소리가 인체전도기술과 결합됐을 때 창출할 수 있는 미래 소리 사업의 좋은 예로 손꼽히고 있다. 시그널은 음성 신호를 손가락 등 신체 부위를 통해 전달하는 세계 최초의 신개념 통화 사용자경험(UX)을 적용했다. 사용자는 손가락을 귀에 대어 상대방의 목소리를 들을 수 있고, 시곗줄에 장착된 마이크를 통해 음성을 전달하는 방식이다.

삼성 기어, 애플워치 등과 같은 스마트 시계뿐만 아니라 일반 시계에도 연결해 사용할 수 있는 것이 특징이다. 이 제품은 지난 CES 2016에서 ‘웨어러블 톱 10’으로 선정됐으며, 지난 10월에는 크라우드 펀딩을 통해 약 20억 원을 투자받는 등 국내외 투자자로부터 러브콜을 받는 등 음성 전달 기술을 향한 투자자들의 발걸음은 당분간 지속될 것으로 보인다.

최현철 이놈들연구소 대표는 “최근 부상하고 있는 웨어러블 디바이스(wearable device) 관점에서 음성인식기술을 생각해보면, 기존 제품들은 한정된 물리적 공간 때문에 인터페이스가 매우 제한적이었다”라며 “따라서 기기의 디스플레이도 작고, 좁은 화면으로 문자를 쓰거나 제어하는 데 불편함이 많았다. 이를 해결할 수 있는 가장 좋은 솔루션으로 제안되는 것이 바로 음성이다. 화면을 보고 쓸 필요 없이 단순히 음성으로써 명령을 전달하고, 결과를 음성으로 전달받음으로써 작은 인터페이스의 한계를 넘을 수 있다”고 말했다.

그는 또 “미래 음성(소리) 산업과 관련, 가장 우선 돼야 할 부분은 바로 자연어 처리 영역(natural language process)이라고 생각한다”며 “특히, 지금처럼 나날이 AI가 발전하고 있는 상황에서 자연어 처리 영역에 대한 발전이 신속히 이루어진다면 앞으로 챗봇(ChatBot) 같은 가정용 로봇의 보급과 더불어 시너지 효과를 낼 가능성이 높다”고 덧붙였다.

시그널 외에도 소리의 파동을 활용한 차별화된 기술을 바탕으로 헬스케어 기기 시장에서 주목받는 스타트업 기업도 있다. 바로, 에보소닉이다. 에보소닉이 지난해 출시한 음파 진동 전신 마사지기 ‘닥터스파올케어시스템’은 20헤르츠에서 20킬로헤르츠 가청주파수대 음파를 음향 진동으로 출력해, 음파가 피부 속까지 침투해 근막통증, 근골격계 질환 등 혈액순환과 퇴화세포 활성화를 촉진한다.

기존의 물리적 자극(모터진동, 초음파, 적외선)보다 안전하고 부작용이 없으며, 샤프트 및 가이드가 필요 없는 최적화된 새로운 기술 개발로 소형화는 물론 주파수 특성 또한 80~350헤르츠의 임피던스를 구현할 수 있는 독보적이고 차별화된 기술을 개발, 기구적 원천특허를 확보한 상태다.

기계, 이젠 소리가 경쟁력이다
비단, 기업들의 소리 투자가 융합기술 개발로 빠르게 이어지고 있지만, 소리의 품질을 제품경쟁력으로 내세우기도 한다. 특히, 제조업체들은 TV, 휴대전화는 물론, 노트북, 자동차, 침대까지도 최상의 음질을 경쟁적으로 소개하고 나섰다. 그중 가장 눈에 띄는 분야는 TV다. LG전자는 올해 새롭게 출시된 LG 울트라 올레드 TV와 관련, 소리 품질을 강조하고 나섰다.

미국 돌비사의 첨단 입체음향 시스템인 ‘돌비 애트모스(Dolby ATMOS)’가 지원되는 이 제품은 화면에 나오는 사물의 움직임이나 위치에 따라 소리가 사용자의 앞이나 뒤, 위에서 들리는 것처럼 만들어준다. 예를 들어 주인공의 머리 위로 비행기가 날아갈 때, 소리가 시청자의 머리 위쪽에서 들리도록 해줘 더욱 입체적이고 사실적인 공간감을 제공한다.

또한 새롭게 적용된 매직 사운드 튜닝 기능은 TV를 시청하는 공간에 맞춰 최적의 음질을 제공한다. TV 스피커를 통해 내보낸 신호음이 실내에 울려 퍼진 뒤, 매직 리모컨의 마이크로 들어오면 소리의 파동 등을 분석해 공간에 맞게 음질을 최적화하는 방식이다.

LG전자 관계자는 “TV를 시청할 때 사운드에 따라 체감하는 현실감 차이가 큰 것으로 나타난다고 한다”며 “여기에 최근 TV가 대형화되고, HDR, UHD 등 최신 고화질 기술이 확산되면서 자연스럽게 고화질에 걸맞은 웅장하고 세밀한 사운드가 주목받고 있어, 탁월한 화질만큼이나 수준 높은 음질로 시장을 공략할 예정이다”라고 전했다.

TV 소리 품질과 관련해 사운드바(긴 막대 형태의 신개념 음향기기로, 저음용 스피커인 우퍼나 초저음용 스피커인 서브우퍼 등을 하나의 기기에 가로로 길게 배치함으로써 기다란 막대 형태로 디자인된 새로운 개념의 음향기기)도 큰 주목을 받고 있다. 시장규모도 약 2조 원으로 추정되며 야마하, 보스 등 음향 전문 기업도 다수 진출해 있다. 시장조사업체 퓨처소스컨설팅에 따르면 사운드바를 포함한 홈오디오 시장 규모는 지난해 6760만 대에서 2018년 1억290만 대까지 증가할 것으로 전망된다.

TV 사운드바 점유율 1위 자리를 지키고 있는 삼성전자는 최근 공개한 ‘MS750’을 통해 사운드와 TV 매칭 방식을 개선했다. 특히 본체에 우퍼를 내장, 향상된 사운드를 청취할 수 있다. 서브우퍼가 없어 공간의 효율적인 활용도 가능하다.

자동차업계에선 이탈리아 스포츠카 업체 마세라티가 엔진 소리에 심혈을 기울이는 것으로 정평이 나 있다. 구동력과 디자인 등 자동차 본연의 가치에 차별화된 소리를 더해 제품 경쟁력으로 내건 셈이다. 이를 위해 마세라티는 본사에 ‘엔진 사운드 디자인 엔지니어’라는 독특한 직군을 두기도 했다. 튜닝 전문가와 피아니스트, 작곡가를 자문위원으로 초빙해 저회전부터 고회전 영역에 이르기까지 각 영역마다 듣기 좋은 엔진음을 작곡한다.

이 밖에도 침대 분야에서도 수면을 돕는 소리 기술을 융합하고 나섰다. 에몬스침대가 엠씨스퀘어와 함께 개발한 ‘브레인 케어 베드’가 대표적이다. 이 침대는 수면 시 발생하는 특정한 뇌파가 나오도록 돕는 침대로, 새소리 등 자연의 소리가 스피커를 통해 흘러나온다. 이어폰 단자가 있어 혼자만 들을 수도 있다. 안대를 하면 패턴화된 빛이 주기적으로 깜박여 숙면을 유도한다. 침대 머리맡에 있는 발광다이오드(LED) 조명은 수면 상태에 따라 3단계로 밝기 조절이 가능해 수면을 돕는다.

여행 시 써보자,
네이버 ‘파파고’

네이버의 음성인식 통역 앱 파파고는 음성인식(ASR), 문자인식(OCR), 필기인식(HWR) 등 인식 기능과 함께 자연어처리(NLP), 기계번역(MT)과 음성합성(TTS) 기술이 탑재돼 있다. 사용법은 간단하다. 사용자가 검색란에 한국어, 영어, 일본어, 중국어를 말하거나 쓰면 이를 4개 언어 중 하나로 통·번역해준다. 따라서 해외여행 시, 가이드 통역이 없어도 간단한 의사소통을 하는 데 어려움이 없다. 네이버는 현재 지원하고 있는 4개 국어 외에도 스페인어, 프랑스어, 인도네시아어, 태국어, 대만어, 베트남어 등 6개 언어 간의 번역 서비스도 올해 안에 확대할 계획이다.

시그널 작동 원리

시그널(Sgnl)은 음성 신호를 손가락 등 신체 부위를 통해 전달하는 세계 최초의 신개념 통화 사용자경험(UX)을 적용했다. 음성 신호가 제품에 장착된 체전도 유닛(Body Conduction Unit, BCU)을 통해 진동으로 1차 변환되고, 이 진동이 손끝을 타고 올라가 귀에 있는 공기를 울려 다시 소리를 만들어내는 원리를 활용한다. 사용자는 손끝으로 상대방의 목소리를 듣는 한편, 제품에 장착된 마이크를 통해 자신의 목소리를 전달하면 된다. 이를 가능하게 하는 핵심 기술은 소리를 인체를 통해 전파될 수 있는 진동으로 바꾸어주는 BCU와 음성 데이터 전송 과정에서 일어나는 신호 왜곡을 보정해주는 알고리즘이다. 이 두 기술은 현재 모두 특허 등록 및 국제 특허협력조약(PCT) 출원이 완료된 상태다.