KR20200047311A

KR20200047311A - 복수의 장치들이 있는 환경에서의 음성 인식 방법 및 장치

Info

Publication number: KR20200047311A
Application number: KR1020190110772A
Authority: KR
Inventors: 조근석; 노재영; 형지원; 장동한; 이재원
Original assignee: 삼성전자주식회사
Priority date: 2018-10-24
Filing date: 2019-09-06
Publication date: 2020-05-07
Also published as: EP3797414A4; CN112639965A; EP3797414A1

Abstract

본 개시는 딥러닝 등의 기계 학습 알고리즘을 활용하는 인공지능(AI) 시스템 및 그 응용에 관련된 것이다.
복수의 음성 인식 장치들이 있는 공간에서 음성 인식 장치가 음성 인식을 수행하는 방법은,입력 오디오 신호로부터 화자의 음성 신호를 추출하는 단계;음성 신호와 등록 화자의 음성 신호의 유사도를 나타내는 제1 화자 인식 스코어를 획득하는 단계; 및복수의 음성 인식 장치들 중에서 다른 음성 인식 장치에서 획득된 제2 화자 인식 스코어와 제1 화자 인식 스코어에 기초하여, 음성 신호에 대한 음성 인식 결과를 출력하는 단계를 포함할 수 있다.

Description

복수의 장치들이 있는 환경에서의 음성 인식 방법 및 장치 {Method And Apparatus For Speech Recognition In Multi-device Environment}

본 개시는 음성 인식 방법 및 장치에 관한 것으로서, 보다 상세하게는 복수의 음성 인식 장치들이 있는 환경에서 선택된 하나의 음성 인식 장치가 음성을 인식하고 출력하는 방법 및 장치에 관한 것이다.

다양한 기능을 복합적으로 수행하는 전자 장치들이 개발됨에 따라, 조작성을 향상시키기 위하여 음성 인식 기능이 탑재된 전자 장치들이 출시되고 있다. 음성 인식 기능은,별도의 버튼 조작 또는 터치 모듈의 접촉에 의하지 않고 사용자의 음성을 인식함으로써 장치를 손쉽게 제어할 수 있는 장점을 가진다.

이러한 음성 인식 기능에 의하면, 예를 들어 스마트폰과 같은 휴대용 단말기 및 TV, 냉장고 등과 같은 가전 제품에서 별도의 버튼을 누르는 조작 없이 통화 기능을 수행하거나 문자 메시지를 작성할 수 있으며, 길찾기, 인터넷 검색, 알람 설정 등 다양한 기능을 손쉽게 설정할 수 있다.

또한, 인공 지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 Rule 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 Rule 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.

인공지능 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.

기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.

인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다.

일 실시 예에 따르면, 복수의 음성 인식 장치들이 있는 공간에서 사용자로부터 가장 가까운 음성 인식 장치가 정확하게 선택됨으로써, 선택된 음성 인식 장치에 의해 사용자의 요구를 만족시키는 서비스를 제공하고자 한다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 일 실시 예는, 복수의 음성 인식 장치들이 있는 공간에서 음성 인식 장치가 음성 인식을 수행하는 방법에 있어서,입력 오디오 신호로부터 화자의 음성 신호를 추출하는 단계;상기 음성 신호와 등록 화자의 음성 신호의 유사도를 나타내는 제1 화자 인식 스코어를 획득하는 단계; 및상기 복수의 음성 인식 장치들 중에서 다른 음성 인식 장치에서 획득된 제2 화자 인식 스코어와 상기 제1 화자 인식 스코어에 기초하여, 상기 음성 신호에 대한 음성 인식 결과를 출력하는 단계를 포함하는, 음성 인식 방법을 제공할 수 있다.

본 개시의 일 실시 예는, 같은 공간에 위치하는 복수의 음성 인식 장치들 중 하나의 음성 인식 장치에 있어서,입력 오디오 신호를 수신하는 수신부;상기 입력 오디오 신호로부터 화자의 음성 신호를 추출하고, 상기 음성 신호와 등록 화자의 음성 신호의 유사도를 나타내는 제1 화자 인식 스코어를 획득하는, 프로세서; 및상기 음성 신호에 대한 음성 인식 결과를 출력하는 출력부를 포함하고,상기 프로세서는,상기 복수의 음성 인식 장치들 중에서 다른 음성 인식 장치에서 획득된 제2 화자 인식 스코어와 상기 제1 화자 인식 스코어에 기초하여, 상기 음성 신호에 대한 음성 인식 결과를 출력하도록 상기 출력부를 제어하는 것을 특징으로 하는, 음성 인식 장치를 제공할 수 있다.

본 개시의 일 실시 예는, 같은 공간에 위치한 복수의 음성 인식 장치들과 연결된 디바이스가 음성 인식을 수행하는 방법에 있어서,제1 음성 인식 장치에서 수신된 음성 신호와 등록 화자의 음성 신호의 유사도를 나타내는 제1 화자 인식 스코어를 획득하는 단계; 제2 음성 인식 장치에서 수신된 음성 신호와 상기 등록 화자의 음성 신호의 유사도를 나타내는 제2 화자 인식 스코어를 획득하는 단계;상기 제1 화자 인식 스코어 및 상기 제2 화자 인식 스코어에 기초하여, 상기 제1 음성 인식 장치 및 상기 제2 음성 인식 장치 중에서 상기 화자로부터 가까운 장치를 결정하는 단계; 및상기 화자로부터 가까운 장치가 상기 제1 음성 인식 장치로 결정되는 경우, 상기 제1 음성 인식 장치에게 상기 제1 음성 신호에 대한 음성 인식 결과를 출력하는 단계를 포함하는, 음성 인식 방법을 제공할 수 있다.

본 개시의 일 실시 예는, 같은 공간에 위치한 복수의 음성 인식 장치들과 연결된 디바이스에 있어서,제1 음성 인식 장치 및 제2 음성 인식 장치 각각으로부터 음성 신호를 수신하는, 통신부; 및상기 제1 음성 인식 장치로부터 수신된 음성 신호와 등록 화자의 음성 신호의 유사도를 나타내는 제1 화자 인식 스코어를 획득하고, 상기 제2 음성 인식 장치로부터 수신된 음성 신호와 상기 등록 화자의 음성 신호의 유사도를 나타내는 제2 화자 인식 스코어를 획득하고, 상기 제1 화자 인식 스코어 및 상기 제2 화자 인식 스코어에 기초하여, 상기 제1 음성 인식 장치 및 상기 제2 음성 인식 장치 중에서 상기 화자로부터 가까운 장치를 결정하는, 프로세서를 포함하고,상기 프로세서는, 상기 화자로부터 가까운 장치가 상기 제1 음성 인식 장치로 결정되는 경우, 상기 제1 음성 인식 장치에게 상기 제1 음성 신호에 대한 음성 인식 결과를 출력하도록 상기 통신부를 제어하는 것을 특징으로 하는, 디바이스를 제공할 수 있다.

본 개시의 일 실시 예는, 같은 공간에 위치한 복수의 음성 인식 장치들, 및 상기 복수의 음성 인식 장치들과 연결된 디바이스를 포함하는 음성 인식 시스템에 있어서,상기 복수의 음성 인식 장치들 중에서 제1 음성 인식 장치는, 화자의 발화에 대한 제1 음성 신호를 수신하고, 상기 제1 음성 신호를 상기 디바이스에게 송신하고,상기 복수의 음성 인식 장치들 중에서 제2 음성 인식 장치는, 상기 화자의 동일한 발화에 대한 제2 음성 신호를 수신하고, 상기 제2 음성 신호를 상기 디바이스에게 송신하고,상기 디바이스는,상기 제1 음성 신호와 등록 화자의 음성 신호의 유사도를 나타내는 제1 화자 인식 스코어를 획득하고, 상기 제2 음성 신호와 상기 등록 화자의 음성 신호의 유사도를 나타내는 제2 화자 인식 스코어를 획득하고, 상기 제1 화자 인식 스코어 및 상기 제2 화자 인식 스코어에 기초하여, 상기 제1 음성 인식 장치 및 상기 제2 음성 인식 장치 중에서 상기 화자로부터 가까운 장치를 결정하고, 상기 화자로부터 가까운 장치가 상기 제1 음성 인식 장치로 결정되는 경우, 상기 제1 음성 인식 장치에게 상기 제1 음성 신호에 대한 음성 인식 결과를 출력하는 것을 특징으로 하는, 음성 인식 시스템을 제공할 수 있다.

도 1은 종래에 복수의 음성 인식 장치들이 있는 공간에서 하나의 음성 인식 장치를 선택하고 음성 인식을 수행하는 방법의 흐름도이다.
도 2a, 2b 및 2c는 일 실시 예에 따른 음성 인식 시스템을 설명하기 위한 도면이다.
도 3a, 3b 및 3c는 일 실시 예에 따른 음성 인식 장치의 블록도의 예를 도시한다.
도 4는 일 실시 예에 따른 음성 인식 방법의 흐름도이다.
도 5는 일 실시 예에 따른 프로세서의 블록도의 예이다.
도 6 및 7은 일 실시 예에 따른 음성 인식 방법의 구체적인 흐름도이다.
도 8은 일 실시 예에 따른 음성 인식 장치가 음성 인식 결과를 출력하는 예를 도시한다.
도 9a 및 9b는 일 실시 예에 따른 음성 인식 장치가 음성 인식 결과를 출력하는 예를 도시한다.
도 10a 및 10b는 일 실시 예에 따른 음성 인식 장치가 음성 인식 결과를 출력하는 예를 도시한다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시 예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

본 명세서에서 다양한 곳에 등장하는 "일부 실시 예에서" 또는 "일 실시 예에서" 등의 어구는 반드시 모두 동일한 실시 예를 가리키는 것은 아니다.

일부 실시 예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들의 일부 또는 전부는, 특정 기능들을 실행하는 다양한 개수의 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 개시의 기능 블록들은하나 이상의 마이크로프로세서들에 의해 구현되거나, 소정의 기능을 위한 회로 구성들에 의해 구현될 수 있다. 또한, 예를 들어, 본 개시의 기능 블록들은 다양한 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능 블록들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 개시는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. “모듈” 및 “구성”등과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다.

또한, 도면에 도시된 구성 요소들 간의 연결 선 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것일 뿐이다. 실제 장치에서는 대체 가능하거나 추가된 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들에 의해 구성 요소들 간의 연결이 나타내어질 수 있다.

이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.

최근에 다양한 장치들에 음성 인식 기술이 탑재되면서, 다양한 장치들 중에서 사용자와 가장 근접한 장치를 정확하게 선택함으로써, 선택된 음성 인식 장치에 의해 음성 인식이 수행될 것이 요구될 수 있다. 종래의 음성 인식 장치들은, 수신되는 음성 신호의 SNR(Signal to Noise Ratio)에 기초하여 가장 근접한 장치를 선택하는 방법을 이용하였다.

도 1은 종래에 복수의 음성 인식 장치들을 포함하는 음성 인식 시스템이 하나의 음성 인식 장치를 선택하고 음성 인식을 수행하는 방법의 흐름도이다. 종래의 음성 인식 시스템은 실제 음성과 주변 환경의 노이즈의 비율을 나타내는 SNR에 기초하여 음성 인식 장치를 선택할 수 있다.

구체적으로, 종래의 음성 인식 시스템은 복수의 음성 인식 장치들로부터 음성 신호들을 수신할 수 있다(S110). 음성 인식 시스템은, 수신된 음성 신호들을 분석함으로써, 각 음성 신호의 SNR을 판단할 수 있다. 음성 인식 시스템은, 음성 신호와 노이즈를 포함하는 오디오 신호를 수신하고, 음성 신호와 노이즈의 에너지 비를 결정할 수 있다. 음성 인식 시스템은, 복수의 음성 인식 장치들 중에서 SNR이 가장 높은 음성 신호를 수신한 음성 인식 장치를 선택할 수 있다(S120). 즉, 음성 인식 시스템은, 수신되는 음성 신호의 세기가 가장 큰 음성 인식 장치를 선택할 수 있다. 음성 인식 시스템은 선택된 음성 인식 장치를 통해 음성 인식 결과를 출력할 수 있다(S130).

조용한 환경에서는 화자와 음성 인식 장치 간의 거리가 멀어짐에 따라 SNR이 낮아지는 특징이 있다. 그러므로 도 1에 도시된 종래의 음성 인식 방법에 따르면, 조용한 환경에 위치한 복수의 음성 인식 장치들 중에서 화자로부터 가장 가까운 장치를 비교적 정확하게 선택할 수 있다. 그러나, 노이즈가 있는 일반적인 환경에서는, SNR에 기초하여 화자와 가장 가까운 장치를 선택하는 종래의 방법은 그 성능이 현저하게 떨어지는 한계가 존재한다.

도 1에 도시된 음성 인식 방법을 수행하는 음성 인식 시스템의 문제점을 해결하기 위한 본 개시의 일 실시 예에 따르면, 화자 인식에 기초하여 음성 인식을 수행하는 음성 인식 시스템이 제공될 수 있다.

도 2a, 2b 및 2c는 일 실시 예에 따른 음성 인식 시스템을 설명하기 위한 도면이다.

도 2a에 도시된 바와 같이, 일 실시 예에 따른 음성 인식 시스템은 복수의 음성 인식 장치들(301a, 301b)을 포함할 수 있다.제1 음성 인식 장치(301a) 및 제2 음성 인식 장치(301b)를 총칭하여 음성 인식 장치(301)라고 할 수 있다.

예를 들어, 음성 인식 장치(301)는, TV, 냉장고, 세탁기 등의 가전 제품, 스마트폰, PC, 웨어러블 디바이스, PDA(personal digital assistant), 미디어 플레이어, 마이크로 서버, GPS(global positioning system) 장치, 전자책 단말기, 디지털방송용 단말기, 네비게이션, 키오스크, MP3 플레이어, 디지털 카메라 및 기타 모바일 또는 비모바일 컴퓨팅 장치일 수 있으나, 이에 제한되지 않는다.

일 실시 예에 따른 음성 인식 장치(301)는, 세션을 활성화 하고, 화자(10)가 발화한 음성 신호를 포함하는 오디오 신호를 입력 받고, 음성 신호에 대해서 음성 인식을 수행할 수 있다. 음성 인식 장치(301)는 음성 인식 결과를 출력할 수 있다.

도 2a에 도시된 바와 같이, 일 실시 예에 따른 제1 음성 인식 장치(301a) 와 제2 음성 인식 장치(301b)는 유선 또는 무선으로 연결되고, 데이터를 공유할 수 있다.

일 실시 예에 따른 제1 음성 인식 장치(301a) 와 제2 음성 인식 장치(301b) 각각은 수신된 음성 신호에 기초하여 화자 인식 스코어를 획득할 수 있다. 화자 인식 스코어는, 수신된 음성 신호와 미리 등록된 등록 화자의 음성 신호의 유사도를 나타낼 수 있다. 일 실시 예에 따른 제1 음성 인식 장치(301a) 와 제2 음성 인식 장치(301b)는, 각 음성 인식 장치에서 획득된 화자 인식 스코어를 공유할 수 있다.

화자와 음성 인식 장치 간의 거리가 멀어지면, 화자 인식 스코어가 낮게 측정되는 특징이 있다. 따라서, 복수의 음성 장치들이 있는 환경에서 등록 화자가 발화를 한 경우, 화자로부터 가까이 있는 음성 인식 장치에 의해 획득된 화자 인식 스코어가 멀리 있는 음성 인식 장치에 의해 획득된 화자 인식 스코어보다 높다. 화자 인식 스코어는, 음성 신호의 특징에 기초하여 획득되는 것이므로, 노이즈가 많은 환경에서도 앞서 언급한 특징이 존재한다. 즉, 노이즈가 많은 환경에서 등록 화자가 발화를 한 경우에도, 화자로부터 가까이 있는 음성 인식 장치에 의해 획득된 화자 인식 스코어가 멀리 있는 음성 인식 장치에 의해 획득된 화자 인식 스코어보다 높을 수 있다. 그러므로, 노이즈가 많은 실제 환경에서는, 일 실시 예에 따라 화자 인식 스코어에 기반하여 근접 장치를 선택하는 방법이, 종래에 SNR에 기반하여 근접 장치를 선택하는 방법에 비해 정확할 수 있다.

예를 들어, 제1 음성 인식 장치(301a)는, 제1 음성 인식 장치(301a)에서 획득된 제1 화자 인식 스코어와 제2 음성 인식 장치(301b)에서 획득된 제2 화자 인식 스코어에 기초하여, 화자(10)로부터 보다 근접한 음성 인식 장치를 판단할 수 있다. 제1 음성 인식 장치(301a)가 화자(10)로부터 가장 가까운 음성 인식 장치라고 판단되는 경우, 제1 음성 인식 장치(301a)는 음성 인식 결과를 출력할 수 있다.

또한, 도 2b에 도시된 바와 같이, 일 실시 예에 따른 음성 인식 시스템은 제1 음성 인식 장치(301a), 제2 음성 인식 장치(301b) 및 디바이스(303)를 포함할 수 있다.제1 음성 인식 장치(301a) 및 제2 음성 인식 장치(301b)와 디바이스(303)는 유선 또는 무선으로 연결 될 수 있다.

디바이스(303)는,복수의 음성 인식 장치들(301a, 301b)과 데이터, 자원 및 서비스를 공유하거나, 음성 인식 장치(301)의 제어, 파일 관리, 또는 네트워크 전체의 감시 등을 수행할 수 있다.예를 들어, 디바이스(300c)는, 모바일 또는 비모바일 컴퓨팅 장치이거나, 복수의 음성 인식 장치들(300)을 연결함으로써 홈 네트워크를 구성하는 디바이스이거나, 네트워크의 가장자리에서 데이터를 처리하는 엣지 디바이스이거나, 또는 작은 스케일의 클라우드 데이터 센터(small-scale cloud datacenter)를 나타내는 클라우드렛(cloudlet)일 수 있다.

음성 인식 장치(301)는, 화자(10)가 발화한 음성 신호를 포함하는 오디오 신호를 입력 받고, 입력된 오디오 신호를 디바이스(303)에게 송신 할 수 있다. 또는, 음성 인식 장치(301)는, 화자(10)가 발화한 음성 신호를 포함하는 오디오 신호를 입력 받고, 입력된 오디오 신호로부터 검출된 음성 신호를 디바이스(303)에게 송신 할 수 있다. 또는, 음성 인식 장치(301)는, 화자(10)가 발화한 음성 신호를 포함하는 오디오 신호를 입력 받고, 입력된 오디오 신호로부터 검출된 음성 신호의 특징 또는 화자 인식 스코어를 디바이스(303)에게 송신 할 수 있다.

디바이스(303)는, 음성 인식 장치(301)로부터 수신된 신호에 기초하여 화자 인식 스코어를 획득할 수 있다. 디바이스(303)는 미리 등록된 등록 화자의 음성 신호와 음성 인식 장치(301)로부터 수신된 음성 신호를 비교함으로써, 두 음성 신호의 유사도를 나타내는 화자 인식 스코어를 획득할 수 있다.

디바이스(303)는, 제1 음성 인식 장치(301a)에서 획득된 제1 화자 인식 스코어와 제2 음성 인식 장치(301b)에서 획득된 제2 화자 인식 스코어에 기초하여, 화자(10)로부터 보다 근접한 음성 인식 장치를 판단할 수 있다. 디바이스(303)는, 제1 음성 인식 장치(301a)가 화자(10)로부터 가장 가까운 음성 인식 장치라고 판단되는 경우, 음성 인식 결과를 제1 음성 인식 장치(301a)에게 전송하거나, 제1 음성 인식 장치(301a)가 음성 인식 결과를 출력하도록 음성 인식 장치(301a)를 제어할 수 있다.음성 인식 장치(301)는, 음성 인식 결과를 출력할 수 있다.

도 2b에 도시되지는 않았으나, 디바이스(303)는 외부 서버와 연결되어 음성 인식을 위한 정보들을 업데이트하거나, 화자(10)로부터 음성 인식 장치(301)까지의 거리에 따른 화자 인식 스코어의 변화에 대한 정보를 업데이트 할 수 있다. 또는, 디바이스(303)는 음성 신호를 외부 서버에 전송하고, 외부 서버에서 음성 인식이 수행된 결과를 외부 서버로부터 수신할 수 있다. 디바이스(303)는, 외부서버로부터 수신된 음성 인식 결과를 음성 인식 장치(301)에게 재전송할 수 있다.

또한, 도 2c에 도시된 바와 같이, 일 실시 예에 따른 음성 인식 시스템은 제1 음성 인식 장치(301a), 제2 음성 인식 장치(301b) 및 음성 인식 서버(305)를 포함할 수 있다. 음성 인식 장치(301) 와 음성 인식 서버(305)는 유선 또는 무선으로 연결 될 수 있다.

일 실시 예에 따른 음성 인식 서버(305)는, 음성 인식 장치(301)와 데이터를 공유할 수 있다. 일 실시 예에 따른 음성 인식 장치(301)는, 세션을 활성화 하고, 화자(10)가 발화한 음성 신호를 포함하는 오디오 신호를 입력 받을 수 있다. 음성 인식 장치(301)는 입력된 오디오 신호를 음성 인식 서버(305)에게 송신 할 수 있다. 또는, 음성 인식 장치(301)는, 입력된 오디오 신호로부터 검출된 음성 신호를 음성 인식 서버(305)에게 송신 할 수 있다. 또는, 음성 인식 장치(301)는, 입력된 오디오 신호로부터 검출된 음성 신호의 특징 또는 화자 인식 스코어를 음성 인식 서버(305)에게 송신 할 수 있다.

음성 인식 서버(305)는, 음성 인식 장치(301)로부터 수신된 신호에 기초하여 화자 인식 스코어를 획득할 수 있다. 음성 인식 서버(305)는 미리 등록된 등록 화자의 음성 신호와 음성 인식 장치(301)로부터 수신된 음성 신호를 비교함으로써, 두 음성 신호의 유사도를 나타내는 화자 인식 스코어를 획득할 수 있다.

음성 인식 서버(305)는, 제1 음성 인식 장치(301a)에서 획득된 제1 화자 인식 스코어와 제2 음성 인식 장치(301b)에서 획득된 제2 화자 인식 스코어에 기초하여, 화자(10)로부터 보다 근접한 음성 인식 장치를 판단할 수 있다. 음성 인식 서버(305)는, 제1 음성 인식 장치(301a)가 화자(10)로부터 가장 가까운 음성 인식 장치라고 판단되는 경우, 음성 인식 결과를 제1 음성 인식 장치(301a)에게 전송하거나, 제1 음성 인식 장치(301a)가 음성 인식 결과를 출력하도록 음성 인식 장치(301a)를 제어할 수 있다.

음성 인식 서버(305)는 음성 인식 장치(301)로부터 수신된 신호에 기초하여 음성 인식을 수행할 수 있다. 예를 들어, 음성 인식 서버(305)는, 음성 인식 장치(301)에서 입력된 오디오 신호로부터 검출된 음성 신호에 대해서 음성 인식을 수행할 수 있다. 음성 인식 서버(305)는, 음성 인식 장치(301)에게 음성 인식 결과를 송신할 수 있다. 음성 인식 장치(301)는, 음성 인식 결과를 출력할 수 있다.

도 2a, 2b 및 2c에 도시된 바와 같이, 일 실시 예에 따른 음성 인식 시스템은, 등록된 화자가 음성 명령을 전달하면, 복수의 음성 인식 장치들 각각이 음성 명령에 대한 화자 인식 스코어를 계산한다. 이 때, 화자와 음성 인식 장치 간의 거리에 따라 화자 인식 스코어가 상이하게 나오는데 이를 활용하여 화자와 가장 근접한 장치를 선택할 수 있다. 일 실시 예에 따른 음성 인식 시스템은, 선택된 음성 인식 장치에서 화자의 음성 명령을 인식하고 음성 인식 결과를 수행함으로써, 사용자의 요구 사항(니즈)을 충족시킬 수 있는 서비스를 제공할 수 있다.

또한, 일 실시 예에 따른 음성 인식 시스템은, 음성 인식 장치들의 위치에 대한 정보를 미리 파악하고 있을 수 있다. 음성 인식 시스템은, '음성 인식 장치들의 위치정보'와 '화자인식 스코어에 기초하여 추정된 화자와 음성 인식 장치 간의 거리' 중 적어도 하나를 이용하여, 화자/거리 정보에 대한 적응 학습을 수행할 수 있다. 화자/거리 정보는, 화자와 음성 인식 장치의 거리에 따른 화자 인식 스코어의 변화에 대해서 미리 저장된 정보를 포함할 수 있다. 예를 들어, 화자/거리 정보는, 도 4 및 도 5 를 참조하여 후술할 설명에서 기본 테이블 맵, 갱신된 테이블 맵, 또는 데이터 인식 모델을 포함할 수 있다.

또한, 일 실시 예에 따른 음성 인식 장치는, 임펄스(impulse) 신호를 송출함으로써, 음성 인식 장치의 외부 환경 정보를 수집하고, 이를 기반으로 등록 화자의 음성 신호와 관련하여 미리 저장된 등록 화자 모델 및/또는 화자/거리 정보에 대한 적응 학습을 수행할 수 있다.

또한, 일 실시 예에 따른 음성 인식 시스템은, 미리 저장된 화자/거리 정보를 활용함으로써, 사용자가 발화하면서 이동할 때, 화자의 위치가 변함에 따라 다른 음성 인식 장치에서 연속적으로 음성 인식을 수행할 수 있다.

도 2a, 2b 및 2c에 도시된 바와 같이, 일 실시 예에 따른 음성 인식 시스템은 복수의 음성 인식 장치들을 포함하고, 디바이스 및/또는 음성 인식 서버를 더 포함할 수 있다. 이하에서는, 설명의 편의를 위해 “음성 인식 장치”에서 수행되는 음성 인식 방법에 대해 서술하도록 하겠다. 다만, 이하에서 기술되는 음성 인식 장치의 동작의 일부 또는 전부는 음성 인식 장치를 연결하는 디바이스 및 음성 인식 서버에서도 수행될 수 있으며, 복수의 음성 인식 장치들에 의해 부분적으로 수행될 수 있다.

도 3a, 3b 및 3c는 일 실시 예에 따른 음성 인식 장치의 블록도이다.

도 3a에 도시된 바와 같이, 일 실시 예에 따른 음성 인식 장치(301)는, 수신부(310), 프로세서(320), 및 출력부(330)를 포함할 수 있다. 그러나, 도 3a에 도시된 구성 요소 모두보다 많은 구성 요소에 의해 음성 인식 장치(301)가 구현될 수도 있다. 예를 들어, 도 3b에 도시된 바와 같이, 일 실시 예에 따른 음성 인식 장치(301)는, 통신부(340) 및 메모리(350)를 더 포함할 수 있다.

또한, 도 3a, 3b 및 3c에서는 편의상 음성 인식 장치가 하나의 프로세서를 포함하는 것으로 도시하였으나, 실시 예는 이에 제한되지 않으며 음성 인식 장치는 복수의 프로세서들을 포함할 수 있다. 음성 인식 장치가 복수의 프로세서들을 포함하는 경우 이하에서 서술하는 프로세서의 동작은 복수의 프로세서들에 의해 나누어 수행될 수 있다.

수신부(310)는, 오디오 신호를 수신할 수 있다. 예를 들어, 수신부(310)는, 마이크로폰(Microphone)에 의해 외부의 소리를 전기적인 음향 데이터로 변환함으로써 오디오 신호를 직접 수신할 수 있다. 또는, 수신부(310)는, 외부 장치로부터 송신된 오디오 신호를 수신할 수 있다. 도 3a 및 3b에는, 수신부(310)가, 음성 인식 장치(301)의 내부에 포함되는 것으로 도시되었으나, 다른 일 실시 예에 따른 수신부(310)는 별도의 장치 내에 포함되고 음성 인식 장치(301)와는 유,무선으로 연결되는 형태로 구현될 수 있다.

수신부(310)는, 프로세서(320)의 제어에 기초하여, 오디오 신호를 입력 받기 위한 세션을 활성화 할 수 있다. 세션이란, 음성 인식 장치(301)가 오디오 신호를 입력 받는 동작을 시작해서 종료할 때까지의 시간을 가리킬 수 있다. 세션을 활성화한다는 의미는, 음성 인식 장치(300)가 오디오 신호를 입력 받는 동작을 시작한다는 의미일 수 있다. 수신부(310)는, 세션이 유지되는 동안 입력된 입력 오디오 신호를 프로세서(320)에게 전달할 수 있다.

또한, 수신부(310)는, 음성 인식 장치(301)를 제어하기 위한 사용자 입력을 수신할 수 있다. 수신부(310)는 사용자의 터치를 수신하는 터치 패널, 사용자의 푸시 조작을 수신하는 버튼, 사용자의 회전 조작을 수신하는 휠, 키보드(key board), 및 돔 스위치 (dome switch) 등을 포함하는 사용자 입력 디바이스를 포함할 수 있으나 이에 제한되지 않는다. 수신부(310)는, 사용자 입력을 직접 수신하지 않고, 별도의 사용자 입력 디바이스를 통해서 수신된 사용자 입력을 전달 받을 수 있다.

예를 들어, 수신부(310)는, 특정 화자를 등록된 화자로서 저장하기 위한 사용자 입력 및 세션을 활성화 하기 위한 사용자 입력을 수신할 수 있다.

프로세서(320)는, 수신부(310)에서 입력된 입력 오디오 신호로부터 음성 신호를 추출하고, 음성 신호에 대한 음성 인식을 수행할 수 있다. 일 실시 예에서, 프로세서(320)는 입력 오디오 신호로부터 음성 신호의 주파수 특성을 추출하고, 음향 모델과 언어 모델을 이용하여 음성 인식을 수행 할 수 있다. 주파수 특성은, 음향 입력의 주파수 스펙트럼을 분석하여 추출되는, 음향 입력의 주파수 성분들의 분포를 의미할 수 있다. 따라서, 도 3b에 도시된 바와 같이, 음성 인식 장치(301)는, 음향 모델과 언어 모델을 저장하는 메모리(350)를 더 포함할 수 있다.

일 실시 예에서, 프로세서(320)는, 음성 신호로부터 화자 인식 스코어를 획득할 수 있다. 화자 인식 스코어는, 수신된 음성 신호와 등록 화자의 음성 신호의 유사도를 나타낼 수 있다.

프로세서(320)는, 수신된 음성 신호로부터 획득된 화자 인식 스코어에 기초하여, 음성 신호의 화자가 등록된 화자인지 여부를 판단할 수 있다.프로세서(320)는, 판단 결과에 기초하여 세션을 유지할 지 여부를 결정할 수 있다.

예를 들어, 프로세서(320)는, 세션을 활성화 하면서, 세션이 미리 결정된 세션 유지 시간 동안 유지되고, 세션 유지 시간 이후에는 종료되도록 설정할 수 있다. 프로세서(320)는, 세션이 활성화 되어 있는 동안 수신된 입력 오디오 신호로부터 검출된 음성 신호의 화자가 등록된 화자인 경우, 세션이 미리 결정된 연장 시간 동안 활성화되고, 연장 시간 이후에는 종료되도록 다시 설정 할 수 있다.

프로세서(320)는, 화자 인식 스코어에 기초하여, 복수의 음성 인식 장치들 중에서 화자로부터 가장 가까운 음성 인식 장치를 판단할 수 있다. 프로세서(320)는, 음성 인식 장치(301)가 화자로부터 가장 가깝다고 판단되는 경우, 음성 인식 결과를 출력하도록 출력부(330)를 제어할 수 있다.

구체적으로, 일 실시 예에 따른 프로세서(320)는, 수신부(310)에서 수신된 음성 신호로부터 제1 화자 인식 스코어를 획득할 수 있다. 프로세서(320)는, 복수의 음성 인식 장치들 중에서 다른 음성 인식 장치에서 획득된 제2 화자 인식 스코어와 제1 화자 인식 스코어에 기초하여, 수신부(310)에서 수신된 음성 신호에 대한 음성 인식 결과를 출력하도록 출력부(330)를 제어할 수 있다.

일 실시 예에 따른 프로세서(320)는, 제1 화자 인식 스코어와 제2 화자 인식 스코어를 비교한 결과에 기초하여, 음성 인식 장치(301) 및 다른 음성 인식 장치 중에서 화자로부터 더 가까운 장치를 결정할 수 있다. 프로세서(320)는, 음성 인식 장치(301)가 화자로부터 더 가까운 장치로 결정되는 경우, 음성 인식 결과를 출력하도록 출력부(330)를 제어할 수 있다.

일 실시 예에 따른 프로세서(320)는, 음성 인식 장치(301)의 위치, 다른 음성 인식 장치의 위치 및 화자와 음성 인식 장치의 거리에 따른 화자 인식 스코어의 변화에 대해서 미리 저장된 정보를 더 고려하여, 음성 인식 장치(301) 및 다른 음성 인식 장치 중에서 화자로부터 더 가까운 장치를 결정할 수 있다.

일 실시 예에 따른 프로세서(320)는, 화자/거리 정보, 제1 화자 인식 스코어 및 제2 화자 인식 스코어를 고려하여, 음성 인식 장치(301) 및 다른 음성 인식 장치 중에서 화자로부터 더 가까운 장치를 결정할 수 있다. 화자/거리 정보는, 화자와 음성 인식 장치의 거리에 따른 화자 인식 스코어의 변화에 대해서 미리 저장된 정보일 수 있다. 이 때, 일 실시 예에 따른 프로세서(320)는, 제1 화자 인식 스코어가 임계값 이상인 경우, 화자로부터 가까운 장치를 결정한 결과에 기초하여, 화자/거리 정보를 갱신할 수 있다.

출력부(330)는, 음성 신호에 대해서 음성 인식이 수행된 결과를 출력 할 수 있다. 출력부(330)는, 음성 인식이 수행된 결과를 사용자에게 알리거나, 외부 디바이스(예를 들어, 스마트 폰, 가전 제품, 웨어러블 디바이스, 엣지 디바이스, 서버 등)에게 전송할 수 있다. 예를 들어, 출력부(330)는, 오디오 신호 또는 비디오 신호를 출력 할 수 있는 디스플레이를 포함할 수 있다.

또는, 출력부(330)는, 음성 인식이 수행된 결과에 대응하는 동작을 수행할 수 있다. 예를 들어, 음성 인식 장치(301)는, 음성 인식이 수행된 결과에 대응하는 음성 인식 장치(301)의 기능을 결정하고, 해당 기능을 수행하는 화면을 출력부(330)를 통해 출력할 수 있다. 또는, 음성 인식 장치(301)는, 음성 인식이 수행된 결과에 대응하는 키워드를 외부 서버로 전송하고, 전송된 키워드에 관련된 정보를 서버로부터 수신하여 출력부(330)를 통해 화면 상에 출력할 수 있다.

도 3b의 통신부(340)는 유선 통신 또는 무선 통신을 통해 외부 디바이스, 장치 또는 서버와 통신할 수 있다. 통신부(340)는, 외부 장치로부터 오디오 신호, 음성 신호, 음성 신호의 특징, 화자 인식 스코어 또는 음성 인식 수행 결과를 수신할 수 있다. 또는, 통신부(340)는, 외부 장치에게 오디오 신호, 음성 신호, 음성 신호의 특징, 화자 인식 스코어 또는 음성 인식 수행 결과를 수신할 수 있다. 일 실시 예에 따른 통신부(340)는, 근거리 통신 모듈, 유선 통신 모듈, 이동 통신 모듈, 방송 수신 모듈 등을 포함할 수 있다.

도 3b의 메모리(350)는, 음성 인식을 수행하기 위한 음향 모델, 언어 모델, 화자 인식을 수행하기 위한 등록된 화자의 음성 신호에 대한 등록 화자 모델, 음성 인식 히스토리, 화자와 음성 인식 장치 간의 거리와 화자 인식 스코어의 관계와 관련된 화자/거리 정보, 음성 인식 장치들의 위치 정보 등을 저장할 수 있다.

또한, 도 3c에 도시된 바와 같이, 일 실시 예에 따른 음성 인식 장치(301)는, 통신부(340) 및 프로세서(320)를 포함할 수 있다. 도 3c에 도시된 블록도는, 도 2b 및 2c에 도시된 디바이스(303) 및 음성 인식 서버(305)에도 적용될 수 있다. 도 3c의 통신부(340) 및 프로세서(320)는 도 3a 및 3b의 통신부(340) 및 프로세서(320)에 대응되므로 중복되는 설명은 생략한다.

일 실시 예에 따른 음성 인식 장치(301)는, 통신부(340)를 통해 제1 음성 인식 장치 및 제2 음성 인식 장치 각각으로부터 음성 신호를 수신할 수 있다.

음성 인식 장치(301)는, 제1 음성 인식 장치로부터 수신된 제1 음성 신호에 기초하여 제1 화자 인식 스코어를 획득할 수 있다. 제1 화자 인식 스코어는, 제1 음성 신호와 등록 화자의 음성 신호의 유사도를 나타낼 수 있다.음성 인식 장치(301)는, 제2 음성 인식 장치로부터 수신된 제2 음성 신호에 기초하여 제2 화자 인식 스코어를 획득할 수 있다. 제2 화자 인식 스코어는, 제2 음성 신호와 등록 화자의 음성 신호의 유사도를 나타낼 수 있다.

또는, 일 실시 예에 따른 음성 인식 장치(301)는, 통신부(340)를 통해 제1 음성 인식 장치 및 제2 음성 인식 장치 각각으로부터 화자 인식 스코어를 직접 획득할 수 있다.

음성 인식 장치(301)는, 제1 화자 인식 스코어 및 제2 화자 인식 스코어에 기초하여, 제1 음성 인식 장치 및 제2 음성 인식 장치 중에서 화자로부터 더 가까운 장치를 결정할 수 있다.

음성 인식 장치(301)는, 화자로부터 더 가까운 장치가 제1 음성 인식 장치로 결정되는 경우, 제1 음성 인식 장치에게 제1 음성 신호에 대한 음성 인식 결과를 출력하도록 통신부(340)를 제어할 수 있다.

이하에서는, 일 실시 예에 따른 음성 인식 장치(301)의 구체적인 동작 방법을 설명한다. 이하에서 서술하는 방법의 각 단계는, 상술한 음성 인식 장치(301)의 각 구성들에 의해 수행될 수 있다. 설명의 편의상 음성 인식 장치(301)가 동작의 주체인 경우만을 예로 들어 설명하였지만, 이하의 설명은 복수의 음성 인식 장치들을 연결하는 디바이스 또는 음성 인식 서버가 동작의 주체인 경우에도 적용될 수 있다.

도 4는 일 실시 예에 따른 음성 인식 방법의 흐름도이다.

S410에서 일 실시 예에 따른 음성 인식 장치(301)는, 입력 오디오 신호로부터 화자의 음성 신호를 추출할 수 있다. 음성 인식 장치(301)는, 다른 음성 인식 장치들과 같은 공간에 위치할 수 있다. 복수의 음성 인식 장치들이 같은 공간에 위치한다는 것은, 화자의 발화에 의해 발생한 음성 신호를 수신할 수 있는 범위 내에 복수의 음성 인식 장치들이 위치한다는 것을 의미할 수 있다.

S420에서 일 실시 예에 따른 음성 인식 장치(301)는, 음성 신호와 등록 화자의 음성 신호의 유사도를 나타내는 제1 화자 인식 스코어를 획득할 수 있다.

등록 화자는 음성 인식 장치(301)의 주 사용자일 수 있다. 예를 들어, 음성 인식 장치(301)가 스마트 폰인 경우, 스마트 폰의 소유자가 등록 화자일 수 있고, 음성 인식 장치(301)가 가전 제품인 경우, 가전 제품이 위치한 집에 살고 있는 가족 구성원들이 등록 화자들일 수 있다. 음성 인식 장치(301)는 사용자 입력에 기초하여 화자를 등록하거나, 디폴트 값으로서 소정 화자를 등록된 화자로서 저장할 수 있다. 음성 인식 장치(301)는, 한 명의 화자를 등록 화자로서 저장할 수 있으며, 복수의 화자들을 등록 화자들로서 저장할 수 있다.

일 실시 예에서, 음성 인식 장치(301)는, 특정 화자의 음성 특징을 등록 화자 정보로서 저장할 수 있다. 예를 들어, 음성 인식 장치(300)는, 세션이 활성화되기 이전에 미리, 특정 화자가 발화한 복수의 음성 신호들로부터 추출된 특징 벡터들로부터 등록 화자 정보를 추출하고 저장할 수 있다.

일 실시 예에서, 음성 인식 장치(301)는, 미리 저장된 등록 화자 정보와 새롭게 생성된 화자 정보 간의 유사도를 나타내는 화자 인식 스코어를 계산할 수 있다. 음성 인식 장치(301)는, 계산된 화자 인식 스코어와 소정 임계값을 비교한 결과에 기초하여, 음성 신호의 화자가 등록된 화자인지 여부를 판단할 수 있다.

음성 인식 장치(301)는, 등록 화자에 대한 음성 신호와 단계 S410에서 수신된 음성 신호의 유사도를 나타내는 후보 화자 인식 스코어를 획득할 수 있다. 등록 화자가 복수인 경우, 음성 인식 장치(301)는, 단계 S410에서 추출된 음성 신호와 복수의 등록 화자들 각각의 음성 신호의 유사도를 나타내는 복수의 후보 화자 인식 스코어들을 획득할 수 있다. 음성 인식 장치(301)는, 단계 S410에서 수신된 음성 신호의 특징과 모든 등록 화자들의 음성 신호들의 특징들을 비교함으로써, 복수의 등록 화자들에 대한 복수의 후보 화자 인식 스코어들을 획득할 수 있다.

음성 인식 장치(301)는, 복수의 후보 화자 인식 스코어들 중에서 가장 높은 값을 갖는 제1 후보 화자 인식 스코어에 대응하는 제1 등록 화자를 선택할 수 있다(화자 식별). 음성 인식 장치(301)는, 제1 후보 화자 인식 스코어가 임계값 이상일 경우, 제1 후보 화자 인식 스코어를 제1 화자 인식 스코어로서 결정할 수 있다. 음성 인식 장치(301)는, 제1 후보 화자 인식 스코어가 임계값 미만일 경우,단계 S410에서 수신된 음성 신호에 대한 음성 인식 결과를 출력하지 않고 절차를 종료할 수 있다. 음성 인식 장치(301)는, 등록 화자가 발화한 경우에만(즉, 화자 인식 스코어가 임계값 이상일 때에만) 음성 인식을 수행할 수 있다(화자 인증).

일 실시 예에 따른 음성 인식 장치(301)는, 화자 인식을 통해, 화자의 발화의 중간에 끼어들어온 다른 사람의 발화를 필터링할 수 있다.

또한, 일 실시 예에 따른 음성 인식 장치(301)는, 복수의 음성 인식 장치들 중에서 음성 인식 장치(301) 이외의 다른 음성 인식 장치에서 획득된 제2 화자 인식 스코어를 획득할 수 있다. 음성 인식 장치(301)는, 다른 음성 인식 장치, 음성 인식 장치들을 연결하는 디바이스, 서버, 및 외부 메모리 중 적어도 하나로부터 제2 화자 인식 스코어를 획득할 수 있다. 제2 화자 인식 스코어는, 단계 S410에서 추출된 음성 신호의 기초가 되는 화자의 발화와 동일한 발화에 대해서 획득된 화자 인식 스코어일 수 있다. 제2 화자 인식 스코어는, 동일한 발화에 대해서 다른 음성 인식 장치가 수신한 음성 신호와 등록 화자의 음성 신호의 유사도를 나타낼 수 있다.

S430에서 일 실시 예에 따른 음성 인식 장치(301)는, 제2 화자 인식 스코어와 제1 화자 인식 스코어에 기초하여, 음성 신호에 대한 음성 인식 결과를 출력할 수 있다.

음성 인식 장치(301)는, 제1 화자 인식 스코어와 제2 화자 인식 스코어를 비교한 결과에 기초하여, 음성 인식 장치 및 다른 음성 인식 장치 중에서 화자로부터 보다 가까운 장치를 결정할 수 있다. 음성 인식 장치(301)는, 음성 인식 장치(301)가 화자로부터 보다 가까운 장치로서 결정되는 경우, 단계 S410에서 수신된 음성 신호에 대한 음성 인식 결과를 출력할 수 있다.

예를 들어, 음성 인식 장치(301)는, 제1 화자 인식 스코어가 제2 화자 인식 스코어보다 큰 경우, 음성 인식 장치(301)가 다른 음성 인식 장치보다 화자에게 가깝다고 판단할 수 있다. 음성 인식 장치(301)는, 음성 인식 장치(301)가 화자에게 가장 가까운 장치라고 판단되는 경우, 단계 S410에서 수신된 음성 신호에 대한 음성 인식 결과를 출력할 수 있다.

이 때, 음성 인식 장치(301)는, 화자로부터 가장 가까운 장치를 결정함에 있어서, 화자 인식 스코어뿐만 아니라, 음성 인식 장치의 위치, 다른 음성 인식 장치의 위치 및 화자/거리 정보 중 적어도 하나를 더 고려할 수 있다. 화자/거리 정보는, 화자와 음성 인식 장치 간의 거리가 변함에 따라 음성 인식 장치가 획득하는 화자 인식 스코어의 변화에 대해서 미리 저장된 정보를 포함할 수 있다.

음성 인식 장치(301)는, 화자로부터 가장 가까운 장치를 결정함에 있어서, 제1 화자 인식 스코어, 제2 화자 인식 스코어, 및 화자/거리 정보 중 적어도 하나를 고려하여 화자와 음성 인식 장치(301) 간의 거리를 예측할 수 있다. 음성 인식 장치(301)는, 예측되는 거리에 기초하여, 음성 인식 장치(301) 및 다른 음성 인식 장치 중에서 화자로부터 가까운 장치를 결정할 수 있다. 음성 인식 장치(301)는, 예측되는 화자와 음성 인식 장치(301) 간의 거리 및 예측되는 화자와 다른 음성 인식 장치 간의 거리를 비교함으로써, 음성 인식 장치(301) 및 다른 음성 인식 장치 중에서 화자로부터 가까운 장치를 결정할 수 있다.

일 실시 예에 따른 음성 인식 시스템은, 레이블링 없는 화자의 발화를 통해 음성 인식 장치와 화자 간의 거리에 따른 화자 인식 스코어에 대한 기본 테이블 맵(Table Map)을 구성할 수 있다. 이 때, 거리에 따른 화자 인식 스코어의 분포가 화자에 따라 다를 수 있으므로, 실제 화자의 발화에 대한 화자 인식 스코어 및 예측된 거리에 기초하여 기본 테이블 맵을 업데이트할 수 있다.

예를 들어, 음성 인식 장치와 화자 간의 거리에 따른 화자 인식 스코어에 대한 기본 테이블 맵은 아래의 [표 1]과 같은 정보를 포함할 수 있다.

거리(m)	0.5	1	1.5	2	2.5	3
화자 인식 스코어	13.6268	11.3283	9.6495	7.9708	6.2920	4.6132

상기 [표 1]은 음성 인식 장치와 등록 화자 간의 거리에 기초하여 매칭되는 등록 화자의 발화에 대한 화자 인식 스코어의 예시이다. 일 실시예에 따른 음성 인식 장치(301)는, [표 1]에 기초하여, 테이블이 나타내는 거리 값들 간의 간격이 보다 촘촘해지도록 확장된 테이블을 만들 수 있다. 또한, 음성 인식 장치(301)는, 외부 환경에 대한 정보에 기초하여, 외부 환경에 따라 달라지는 화자 인식 스코어가 반영된 테이블 맵을 구성할 수 있다.

복수의 음성 인식 장치들이 존재하는 환경에서 각 음성 인식 장치의 위치 정보는 서로 공유될 수 있다. 각 음성 인식 장치는, 음성 인식 장치에게 입력된 발화를 기준으로 화자 인식 스코어를 구하고, 음성 인식 장치들의 위치, 화자 인식 스코어, 및 기본 테이블 맵에 기초하여 화자와 음성 인식 장치 간의 거리를 예측할 수 있다. 또한, 일 실시 예에 따른 음성 인식 시스템은, 화자 정보와 연결된 계정 등에 저장된 정보에 기초하여, 화자 별로 업데이트 된 테이블 맵을 추가적으로 업데이트할 수 있다.

일 실시 예에 따른 음성 인식 장치(301)는, 음성 인식 장치들의 위치 정보, 획득되는 화자 인식 스코어, 화자 인식 스코어에 기초하여 예측된 거리 및 외부 환경에 대한 정보 중 적어도 하나에 기초하여 화자/거리 정보에 대한 적응 학습을 수행할 수 있다.

일 예로서, 음성 인식 장치(301)는, 음성 인식 장치(301)의 외부로 임펄스 신호를 출력할 수 있다. 음성 인식 장치(301)는, 음성 인식 장치(301)를 포함하는 복수의 음성 인식 장치들이 위치한 공간을 향해 임펄스 신호를 출력할 수 있다. 음성 인식 장치(301)는, 임펄스 신호에 응답하여 수신되는 오디오 신호를 분석함으로써, 음성 인식 장치의 외부 환경에 대한 정보를 획득할 수 있다. 외부 환경에 대한 정보는, 수신되는 신호의 시간 지연, 노이즈 등을 포함할 수 있다. 음성 인식 장치(301)는, 외부 환경에 대한 정보에 기초하여, 등록 화자의 음성 신호와 관련하여 미리 저장된 화자 정보 또는 화자/거리 정보를 갱신할 수 있다.

일 실시예에 따른 음성 인식 장치(301)는, 임펄스 신호를 이용하여 음성 인식 장치가 사용되는 공간에 관한 정보를 파악할 수 있다. 예를 들어, 음성 인식 장치(301)로부터 송출된 임펄스 신호는 공간 내의 벽 또는 물체 등에 부딪친 후에 최종적으로 음성 인식 장치(301)에게 다시 수신될 수 있다. 따라서, 음성 인식 장치(301)는 임펄스 신호에 응답하여 수신된 오디오 신호를 분석함으로써, 공간 내에서 음향의 반향 특성 등을 파악할 수 있다.

일 실시예에 따른 음성 인식 장치(301)는, 임펄스 신호에 응답하여 수신된 오디오 신호에 기초하여, 화자 인식 단계에서 이용되는 임계값을 조절할 수 있다. 음성 인식 장치(301)는 조절된 임계값에 기초하여, 화자/거리 정보를 갱신할 수 있다. 예를 들어, 음성 인식 장치(301)는 조절된 임계값에 기초하여, 화자와 음성 인식 장치의 거리에 따른 화자 인식 스코어에 대한 테이블 값을 조절 할 수 있다. 음성 인식 장치(301)는, 외부 환경에 따라 화자 인식 스코어를 결정하는 기준 값을 변경할 수 있다.

다른 예로서, 음성 인식 장치(301)는, 제1 화자 인식 스코어가 임계값 이상인 경우, 제1 화자 인식 스코어 및 화자와 음성 인식 장치(301) 간의 예측되는 거리에 기초하여, 화자/거리 정보를 갱신할 수 있다.

일 실시 예에 따른 음성 인식 시스템은 딥러닝 등의 기계 학습 알고리즘을 활용하는 인공지능(AI) 시스템일 수 있다. 예를 들어, 일 실시 예에 따른 음성 인식 시스템은, 화자를 인식하고, 음성 인식을 수행하고, 화자로부터 가장 가까운 장치를 선택하는데 있어서 인공 지능을 이용할 수 있다.

본 개시에 따른 인공 지능과 관련된 기능은 프로세서와 메모리를 통해 동작된다. 프로세서는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공 지능 전용 프로세서일 수 있다. 하나 또는 복수의 프로세서는, 메모리에 저장된 기 정의된 동작 규칙 또는 인공 지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 또는, 하나 또는 복수의 프로세서가 인공 지능 전용 프로세서인 경우, 인공 지능 전용 프로세서는, 특정 인공 지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다.

기 정의된 동작 규칙 또는 인공 지능 모델은 학습을 통해 만들어 진 것을 특징으로 한다. 여기서, 학습을 통해 만들어 진다는 것은, 기본 인공 지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공 지능 모델이 만들어 짐을 의미한다. 이러한 학습은 본 개시에 따른 인공 지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버 및/또는 시스템을 통해 이루어 질 수도 있다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.

인공 지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공 지능 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 인공 지능 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 갱신될 수 있다. 인공 신경망은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.도 5는 일 실시 예에 따른 프로세서의 블록도이다.

도 5에 도시된 블록들의 일부 또는 전부는, 특정 기능을 실행하는 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 도 5에 도시된 블록들이 수행하는 기능들은, 하나 이상의 마이크로프로세서에 의해 구현되거나, 해당 기능을 위한 회로 구성들에 의해 구현될 수 있다. 도 5에 도시된 블록들의 일부 또는 전부는 프로세서(320)에서 실행되는 다양한 프로그래밍 언어 또는 스크립트 언어로 구성된 소프트웨어 모듈일 수 있다.

음성 전처리부(510)는, 세션이 활성화된 이후, 화자가 음성인식의 대상이 되는 발화를 입력하면, 입력된 오디오 신호로부터 발화에 대응하는 음성신호를 추출할 수 있다. 음성 전처리부(510)는, 추출된 음성 신호를 특징 추출부(520)로 전달할 수 있다.

특징 추출부(520)는 검출된 음성 신호로부터 화자 인식에 강인한 화자 인식용 특징 벡터를 추출하고, 음성 신호로부터 음성 인식에 강인한 음성 인식용 특징 벡터를 추출할 수 있다.

화자 인식부(530)는, 화자 인식용 특징 벡터, 음성 인식을 수행하는 음성 인식 디코더로부터 실시간으로 전달 받은 사후 정보, 일반적 배경 모델, 빅 데이터를 기반으로 훈련되어 얻어진 전체 변이성 변환 정보를 이용하여,음성 신호의 화자에 대한 정보를 생성하게 된다. 화자 인식부(530)는, 생성된 화자 정보와 미리 등록된 화자에 대한 정보(540)를 비교하고, 화자 정보와 등록된 화자 정보 간의 유사도를 나타내는 화자 인식 스코어를 계산할 수 있다. 일 실시 예에서, 등록된 화자의 음성 신호에 대한 정보(540)는, 미리 저장되어 있을 수 있다.

화자 인식부(530)는, 화자 인식 스코어와 소정 임계값을 비교함으로써, 검출된 음성 신호의 화자와 미리 등록된 화자가 동일한지 여부를 판단할 수 있다. 화자 인식부(530)는, 판단 결과를 디바이스 선택 계산부(550)에게 전달할 수 있다.

디바이스 선택 계산부(550)는, 복수의 음성 인식 장치들의 화자 인식 스코어들을 입력 받고, 화자 인식 스코어들에 기초하여 화자로부터 가장 가까운 음성 인식 장치를 선택할 수 있다. 예를 들어, 디바이스 선택 계산부(550)는, 화자 인식 스코어가 상대적으로 가장 큰 음성 인식 장치를 화자로부터 가장 가까운 음성 인식 장치로 선택할 수 있다.

디바이스 선택 계산부(550)는, 화자 인식 스코어뿐만 아니라, 화자/거리 정보(570)를 더 고려하여 화자로부터 가장 가까운 음성 인식 장치로 선택할 수 있다. 디바이스 선택 계산부(550)는, 화자로부터 가장 가까운 장치를 결정함에 있어서, 복수의 음성 인식 장치들에서 획득되는 화자 인식 스코어들 및 화자/거리 정보를 고려하여 각 음성 인식 장치와 화자 간의 거리를 예측할 수 있다. 디바이스 선택 계산부(550)는, 각 음성 인식 장치와 화자 간의 예측 거리에 기초하여, 화자로부터 가장 가까운 음성 인식 장치로 선택할 수 있다.

또한, 디바이스 선택 계산부(550)는, 각 음성 인식 장치와 화자 간의 예측 거리 및 화자 인식 스코어에 기초하여, 화자/거리 정보(570)를 갱신할 수 있다. 화자/거리 정보(570)는, 화자로부터 가장 가까운 장치를 판단하기 위해 이용되는 데이터 인식 모델을 포함할 수 있다.

예를 들어, 디바이스 선택 계산부(550)는, 화자로부터 가장 가까운 장치를 결정함에 있어서, 획득된 데이터를 입력 값으로 하여 데이터 인식 모델을 이용할 수 있다. 데이터 인식 모델은, 음성 인식 장치와 화자 간의 거리에 따른 화자 인식 스코어에 대한 기본 테이블 맵에 기초하여 미리 구축된 것일 수 있다. 또한, 디바이스 선택 계산부(550)는, 데이터 인식 모델에 의해 출력된 결과 값을 이용하여, 데이터 인식 모델을 학습 시키는데 이용할 수 있다.

일 예로서, 디바이스 선택 계산부(550)는, 데이터 인식 모델을 실제 화자의 발화에 기초하여 학습시킬 수 있다. 화자에 따라서 거리에 따른 화자 인식 스코어의 분포가 다를 수 있으므로, 실제 획득된 화자 인식 스코어 및 예측 거리에 기초하여 데이터 인식 모델을 학습시킬 수 있다.

다른 예로서, 디바이스 선택 계산부(550)는, 음성 인식 장치들의 위치 정보 및/또는 외부 환경에 대한 정보 중 적어도 하나에 기초하여, 데이터 인식 모델을 학습시킬 수 있다.

디바이스 선택 계산부(550)는, 각 음성 인식 장치로 입력되는 음성 신호를 기준으로 획득된 화자 인식 스코어를 데이터 인식 모델에 적용함으로써, 각 음성 인식 장치와 화자 간의 거리를 예측하고, 화자로부터 가장 가까운 장치를 판단할 수 있다.

음성 인식 결과 수행부(560)는, 음성 신호가 등록된 화자가 발화한 것이고, 음성 인식 장치(301)가 화자로부터 가장 가까운 음성 인식 장치라고 판단되는 경우, 음성 인식 결과를 출력할 수 있다. 음성 인식 결과 수행부(560)는, 음성 인식 디코더를 포함할 수 있다. 음성 인식 디코더는, 음성 인식용 특징 벡터를 이용하여, 음향 모델과 언어모델을 통해 음성 인식을 수행하고 음성 인식 결과를 생성할 수 있다. 음성 인식 디코더는, 음향 모델을 통해 추출된 사후 정보를 실시간으로 화자 인식부(530)에게 전달할 수 있다.

도 5를 참조하면, 화자 정보(540) 및 화자/거리 정보(570)는 프로세서(320) 내에 저장되는 것으로 도시되었으나, 일 실시 예는 이에 제한되지 않는다. 화자 정보(540), 화자/거리 정보(570), 음향 모델, 언어 모델, 음성 인식 결과 및 화자 인식 스코어 등은 음성 인식 장치(301)의 메모리(350)에 저장되거나, 외부 장치 또는 외부 서버에 저장될 수 있다.

도 6은 일 실시 예에 따라 복수의 음성 인식 장치들을 포함하는 음성 인식 시스템이 동작하는 방법의 흐름도이다. 도 6에서는, 제1 음성 인식 장치(301a) 및 제2 음성 인식 장치(301b)가 있는 공간에서, 화자가 제1 음성 인식 장치(301a)에 더 근접한 경우를 예로 들어 도시하였으나, 본 개시의 실시 예는 이에 제한되지 않는다. 일 실시 예에 따른 음성 인식 시스템은,도 6을 응용하여, 셋 이상의 음성 인식 장치들을 포함하고, 음성 인식 장치들 중에서 화자에게 가장 근접한 음성 인식 장치를 결정할 수 있다.

화자가 발화하면, 제1 음성 인식 장치(301a) 및 제2 음성 인식 장치(301b)는 해당 발화에 대한 음성 신호를 수신할 수 있다(S610, S601).제1 음성 인식 장치(301a)는, S610에서 수신된 제1 음성 신호와 등록 화자의 음성 신호 간의 유사한 정도를 나타내는 제1 화자 인식 스코어를 획득할 수 있다(S620).제2 음성 인식 장치(301b)는, S601에서 수신된 제2 음성 신호와 등록 화자의 음성 신호 간의 유사한 정도를 나타내는 제2 화자 인식 스코어를 획득할 수 있다(S602).

제1 음성 인식 장치(301a) 및 제2 음성 인식 장치(301b)는, 획득된 화자 인식 스코어를 공유할 수 있다(S630).

제1 음성 인식 장치(301a)는, 제1 화자 인식 스코어와 제2 화자 인식 스코어를 비교한 결과에 기초하여, 화자로부터 가장 가까운 장치를 결정할 수 있다(S640). 제1 음성 인식 장치(301a)는, 제1 음성 인식 장치(301a)가 화자로부터 가장 가까운 장치로 결정되는 경우, 제1 음성 신호에 대한 음성 인식 결과를 출력할 수 있다(S650).

도 7은 일 실시 예에 따라 복수의 음성 인식 장치들과 복수의 음성 인식 장치들을 연결하는 디바이스를 포함하는 음성 인식 시스템이 동작하는 방법의 흐름도이다. 도 7에서는, 제1 음성 인식 장치(301a) 및 제2 음성 인식 장치(301b)가 있는 공간에서, 화자가 제1 음성 인식 장치(301a)에 가장 근접한 경우를 예로 들어 도시하였으나, 본 개시의 실시 예는 이에 제한되지 않는다. 일 실시 예에 따른 음성 인식 시스템은 셋 이상의 음성 인식 장치들을 포함할 수 있다.

화자가 발화하면, 제1 음성 인식 장치(301a) 및 제2 음성 인식 장치(301b)는 해당 발화에 대한 음성 신호를 수신할 수 있다(S710, S720).제1 음성 인식 장치(301a)는, S710에서 수신된 제1 음성 신호를 디바이스(303)에게 전달할 수 있다.제2 음성 인식 장치(301b)는, S720에서 수신된 제2 음성 신호를 디바이스(303)에게 전달할 수 있다.

디바이스(303)는, 제1 음성 신호와 등록 화자의 음성 신호 간의 유사한 정도를 나타내는 제1 화자 인식 스코어 및 제2 음성 신호와 등록 화자의 음성 신호 간의 유사한 정도를 나타내는 제2 화자 인식 스코어를 획득할 수 있다(S730).

디바이스(303)는, 제1 화자 인식 스코어와 제2 화자 인식 스코어를 비교한 결과에 기초하여, 화자로부터 가장 가까운 장치를 결정할 수 있다(S740). 디바이스(303)는, 제1 음성 인식 장치(301a)가 화자로부터 가장 가까운 장치로 결정되는 경우, 제1 음성 장치(301a)에게 음성 인식 결과를 송신할 수 있다(S750). 제1 음성 인식 장치(301a)는, 음성 인식 결과를 출력할 수 있다(S760).

이하 도 9 내지 도 11b를 참조하여, 일 실시 예에 따른 음성 인식 장치(301)가 음성 인식 결과를 출력하는 예를 도시한다. 도 9 내지 도 10b는, 예로서 음성 인식 장치(301)가 음성 인식 기능을 탑재한 TV, 냉장고, 세탁기, 스마트 폰인 경우를 예로 들어 도시하고, 음성 인식 장치(301)가 화자가 발화한 질문 또는 요청을 인식하고 질문에 대응하는 답변을 출력하거나, 요청에 대응하는 동작을 수행하는 경우를 예로 들어 도시한다. 그러나, 일 실시 예는 도 9 내지 도 11b에 도시된 예에 한정되지 않는다.

또한, 도 9 내지 도 11b에 도시된 음성 인식 장치(301)는, 단독으로 음성을 인식하고 출력할 수 있다. 또는, 도 9 내지 도 11b에 도시된 음성 인식 장치(301)는, 외부 장치와 연결되고, 입력된 음성을 외부 장치에게 전달하고 음성 인식 결과를 외부 장치로부터 수신하고 출력할 수 있다. 도 9 내지 도 11b에는 화자(10)가 등록된 화자인 경우를 예로 들어 도시한다.

도 8은 일 실시 예에 따른 음성 인식 장치가 음성 인식 결과를 출력하는 예를 도시한다.

도 8에 도시된 바와 같이, 화자(10)가 "오늘 일기 예보를 알려 줄래?"라고 발화하면, 복수의 음성 인식 장치들(901, 902, 903) 각각은 화자 인식 스코어를 계산하고 서로 공유하면서 화자(10)로부터 가장 가까운 음성 인식 장치를 결정할 수 있다. 도 9의 경우, 음성 인식 장치(901)가 화자(10)로부터 가장 가깝게 위치하므로, 화자 인식 스코어가 가장 높거나, 화자 인식 스코어에 기초하여 예측된 화자와의 거리가 가장 짧은 것으로 판단될 수 있다. 음성 인식 장치(901)는, 화자 인식 스코어에 기초한 판단 결과에 따라 음성 인식 결과를 출력할 수 있다. 도 9에 도시된 바와 같이 음성 인식 장치(901)는, 화자의 요청을 인식하고, 화자의 요청에 대응하는 동작인 일기 예보가 나오는 채널에 대응하는 화면을 출력하는 동작을 수행 할 수 있다.

도 9a 및 9b는 화자가 발화를 하면서 이동하는 경우 음성 인식 시스템에서 음성 인식 결과가 출력되는 예를 도시한다.

도 9a에 도시된 바와 같이, 화자(10)는 발화의 시작 시점에 "냉장고에..."이라고 발화하면서 음성 인식 장치(901)에 가장 가깝게 위치할 수 있다. 그리고, 도 9b에 도시된 바와 같이, 화자(10)는 "뭐가 있을까?"라고 발화를 이어 가면서 음성 인식 장치(902)를 향해 이동할 수 있다.

복수의 음성 인식 장치들(901, 902, 903) 각각은 화자 인식 스코어를 계산하고 서로 공유하면서 화자(10)로부터 가장 가까운 음성 인식 장치를 결정할 수 있다. 도 9b의 경우, 발화의 종료 시점에 음성 인식 장치(902)가 화자(10)로부터 가장 가깝게 위치하므로, 음성 인식 장치(902)는, 화자의 질문을 인식하고,화자의 질문에 대응하는 답변인 "사과와 계란이 있습니다"를 출력할 수 있다.

도 9a 및 9b에 도시된 바와 같이, 화자가 발화를 하면서 이동하는 경우, 일 실시 예에 따른 음성 인식 시스템은 발화가 종료된 시점에 화자와 가장 가까운 음성 인식 장치를 통해 음성 인식 결과를 출력할 수 있다. 그러나 본 개시의 실시 예는 이에 제한되지 않으며, 발화의 시작 시점 또는 중간 시점에 화자와 가장 가까운 음성 인식 장치를 통해 음성 인식 결과를 출력할 수 있다.

도 10a 및 10b는 일 실시 예에 따른 음성 인식 장치가 음성 인식 결과를 출력하는 예를 도시한다.

도 10a에 도시된 바와 같이, 화자(10)가 "야구 보여줘"라고 발화하면, 복수의 음성 인식 장치들(1001, 1002, 1003) 각각은 화자 인식 스코어를 계산하고 서로 공유하면서 화자(10)로부터 가장 가까운 음성 인식 장치를 결정할 수 있다. 도 10a의 경우, 음성 인식 장치(1003)가 화자(10)로부터 가장 가깝게 위치하므로, 화자 인식 스코어가 가장 높거나, 화자 인식 스코어에 기초하여 예측된 화자와의 거리가 가장 짧은 것으로 판단될 수 있다. 음성 인식 장치(1003)는, 화자 인식 스코어에 기초한 판단 결과에 따라 음성 인식 결과를 출력할 수 있다. 도 10a에 도시된 바와 같이 음성 인식 장치(1003)는, 화자의 요청을 인식하고,화자의 요청에 대응하는 동작인 야구 중계 채널에 대응하는 화면을 출력하는 동작을 수행 할 수 있다.

그리고, 도 10b에 도시된 바와 같이, 화자(10)는 음성 인식 장치(1003)로부터 음성 인식 장치(1001)로 이동한 후에, "보여줘"라고 발화 할 수 있다. 복수의 음성 인식 장치들(1001, 1002, 1003) 각각은 화자 인식 스코어를 계산하고 서로 공유하면서 화자(10)로부터 가장 가까운 음성 인식 장치를 결정할 수 있다. 도 10b의 경우, 음성 인식 장치(1001)가 화자(10)로부터 가장 가깝게 위치하므로, 음성 인식 장치(1001)는, 화자의 요청을 인식하고, 화자의 요청에 대응하는 동작을 수행할 수 있다. 이 때, 복수의 음성 인식 장치들(1001, 1002, 1003)은 과거 동작 히스토리, 음성 인식 히스토리 등을 공유할 수 있다. 따라서, 음성 인식 장치(100)는, "보여줘"라는 화자의 발화와 함께, 음성 인식 장치(1003)에서 야구 중계 채널을 출력하였던 히스토리를 참고하여, 야구 중계 채널에 대응하는 화면을 출력할 수 있다.

따라서, 일 실시 예에 따른 음성 인식 시스템에 기초하면, 화자가 이동하면서 발화를 하는 경우에도 정확하게 근접한 장치를 선택할 수 있고, 따라서 사용자의 의도에 부합하는 음성 인식 수행 결과를 출력할 수 있다.

개시된 실시 예들은 컴퓨터로 읽을 수 있는 저장 매체(computer-readable storage media)에 저장된 명령어를 포함하는 S/W 프로그램으로 구현될 수 있다.

컴퓨터는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 개시된 실시 예에 따른 동작이 가능한 장치로서, 개시된 실시 예들에 따른 영상 전송 장치 및 영상 수신 장치를 포함할 수 있다.

컴퓨터로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적’은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.

또한, 개시된 실시 예들에 따른 전자 장치 또는 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다.

컴퓨터 프로그램 제품은 S/W 프로그램, S/W 프로그램이 저장된 컴퓨터로 읽을 수 있는 저장 매체를 포함할 수 있다. 예를 들어, 컴퓨터 프로그램 제품은 전자 장치의 제조사 또는 전자 마켓(예, 구글 플레이 스토어, 앱 스토어)을 통해 전자적으로 배포되는 S/W 프로그램 형태의 상품(예, 다운로더블 앱)을 포함할 수 있다. 전자적 배포를 위하여, S/W 프로그램의 적어도 일부는 저장 매체에 저장되거나, 임시적으로 생성될 수 있다. 이 경우, 저장 매체는 제조사의 서버, 전자 마켓의 서버, 또는 SW 프로그램을 임시적으로 저장하는 중계 서버의 저장매체가 될 수 있다.

컴퓨터 프로그램 제품은, 서버 및 단말(예로, 영상 전송 장치 또는 영상 수신 장치)로 구성되는 시스템에서, 서버의 저장매체 또는 단말의 저장매체를 포함할 수 있다. 또는, 서버 또는 단말과 통신 연결되는 제3 장치(예, 스마트폰)가 존재하는 경우, 컴퓨터 프로그램 제품은 제3 장치의 저장매체를 포함할 수 있다. 또는, 컴퓨터 프로그램 제품은 서버로부터 단말 또는 제3 장치로 전송되거나, 제3 장치로부터 단말로 전송되는 S/W 프로그램 자체를 포함할 수 있다.

이 경우, 서버, 단말 및 제3 장치 중 하나가 컴퓨터 프로그램 제품을 실행하여 개시된 실시 예들에 따른 방법을 수행할 수 있다. 또는, 서버, 단말 및 제3 장치 중 둘 이상이 컴퓨터 프로그램 제품을 실행하여 개시된 실시 예들에 따른 방법을 분산하여 실시할 수 있다.

예를 들면, 서버(예로, 클라우드 서버 또는 인공 지능 서버 등)가 서버에 저장된 컴퓨터 프로그램 제품을 실행하여, 서버와 통신 연결된 단말이 개시된 실시 예들에 따른 방법을 수행하도록 제어할 수 있다.

또 다른 예로, 제3 장치가 컴퓨터 프로그램 제품을 실행하여, 제3 장치와 통신 연결된 단말이 개시된 실시 예에 따른 방법을 수행하도록 제어할 수 있다. 구체적인 예로, 제3 장치는 영상 전송 장치 또는 영상 수신 장치를 원격 제어하여, 패킹 영상을 전송 하거나 수신하도록 제어할 수 있다.

제3 장치가 컴퓨터 프로그램 제품을 실행하는 경우, 제3 장치는 서버로부터 컴퓨터 프로그램 제품을 다운로드하고, 다운로드된 컴퓨터 프로그램 제품을 실행할 수 있다. 또는, 제3 장치는 프리로드된 상태로 제공된 컴퓨터 프로그램 제품을 실행하여 개시된 실시 예들에 따른 방법을 수행할 수도 있다.

Claims

복수의 음성 인식 장치들이 있는 공간에서 음성 인식 장치가 음성 인식을 수행하는 방법에 있어서,
입력 오디오 신호로부터 화자의 음성 신호를 추출하는 단계;
상기 음성 신호와 등록 화자의 음성 신호의 유사도를 나타내는 제1 화자 인식 스코어를 획득하는 단계; 및
상기 복수의 음성 인식 장치들 중에서 다른 음성 인식 장치에서 획득된 제2 화자 인식 스코어와 상기 제1 화자 인식 스코어에 기초하여, 상기 음성 신호에 대한 음성 인식 결과를 출력하는 단계를 포함하는, 음성 인식 방법.
제1 항에 있어서,
상기 제2 화자 인식 스코어를 획득하는 단계를 더 포함하고,
상기 제2 화자 인식 스코어는,
상기 화자의 발화에 대해서 상기 다른 음성 인식 장치가 수신한 음성 신호와 상기 등록 화자의 음성 신호의 유사도를 나타내는 것을 특징으로 하는, 음성 인식 방법.
제1 항에 있어서,
상기 제1 화자 인식 스코어와 상기 제2 화자 인식 스코어를 비교한 결과에 기초하여, 상기 음성 인식 장치 및 상기 다른 음성 인식 장치 중에서 상기 화자로부터 가까운 장치를 결정하는 단계를 더 포함하고,
상기 음성 인식 결과를 출력하는 단계는,
상기 화자로부터 가까운 장치가 상기 음성 인식 장치로 결정되는 경우, 상기 음성 신호에 대한 음성 인식 결과를 출력하는 단계를 포함하는 것을 특징으로 하는, 음성 인식 방법.
제1 항에 있어서,
상기 음성 인식 결과를 출력하는 단계는,
상기 제1 화자 인식 스코어가 상기 제2 화자 인식 스코어보다 큰 경우, 상기 음성 신호에 대한 음성 인식 결과를 출력하는 단계를 포함하는 것을 특징으로 하는, 음성 인식 방법.
제3 항에 있어서,
상기 화자로부터 가까운 장치를 결정하는 단계는,
상기 음성 인식 장치의 위치, 상기 다른 음성 인식 장치의 위치 및 화자와 음성 인식 장치의 거리에 따른 화자 인식 스코어의 변화에 대해서 미리 저장된 정보를 더 고려하여, 상기 화자로부터 가까운 장치를 결정하는 단계를 포함하는 것을 특징으로 하는, 음성 인식 방법.
제1 항에 있어서,
상기 음성 인식 장치의 외부로 임펄스 신호를 출력하는 단계;
상기 임펄스 신호에 응답하여 수신되는 오디오 신호를 분석함으로써, 상기 음성 인식 장치의 외부 환경에 대한 정보를 획득하는 단계; 및
상기 외부 환경에 대한 정보에 기초하여, 상기 등록 화자의 음성 신호와 관련하여 미리 저장된 정보를 갱신하는 단계를 더 포함하는 것을 특징으로 하는, 음성 인식 방법.
제3 항에 있어서,
상기 화자로부터 가까운 장치를 결정하는 단계는,
화자와 음성 인식 장치의 거리에 따른 화자 인식 스코어의 변화에 대해서 미리 저장된 화자/거리 정보, 상기 제1 화자 인식 스코어 및 상기 제2 화자 인식 스코어를 고려하여, 상기 화자로부터 가까운 장치를 결정하는 단계를 포함하고,
상기 제1 화자 인식 스코어가 임계값 이상인 경우, 상기 화자로부터 가까운 장치를 결정한 결과에 기초하여, 상기 화자/거리 정보를 갱신하는 단계를 더 포함하는 것을 특징으로 하는, 음성 인식 방법.
제3 항에 있어서,
상기 화자로부터 가까운 장치를 결정하는 단계는,
화자와 음성 인식 장치의 거리에 따른 화자 인식 스코어의 변화에 대해서 미리 저장된 화자/거리 정보, 상기 제1 화자 인식 스코어 및 상기 제2 화자 인식 스코어를 고려하여, 상기 화자로부터 상기 음성 인식 장치 간의 거리를 예측하는 단계; 및
상기 예측된 거리에 기초하여, 상기 음성 인식 장치 및 상기 다른 음성 인식 장치 중에서 상기 화자로부터 가까운 장치를 결정하는 단계를 포함하고,
상기 제1 화자 인식 스코어 및 상기 예측되는 거리에 기초하여, 상기 화자/거리 정보를 갱신하는 단계를 더 포함하는 것을 특징으로 하는, 음성 인식 방법.
제1 항에 있어서,
상기 제1 화자 인식 스코어를 획득하는 단계는,
상기 음성 신호와 복수의 등록 화자들 각각의 음성 신호의 유사도를 나타내는 복수의 후보 화자 인식 스코어들을 획득하는 단계;
상기 복수의 후보 화자 인식 스코어들 중에서 가장 높은 값을 갖는 제1 후보 화자 인식 스코어에 대응하는 제1 등록 화자를 선택하는 단계; 및
상기 제1 후보 화자 인식 스코어가 임계값 이상일 경우, 상기 제1 후보 화자 인식 스코어를 상기 제1 화자 인식 스코어로서 획득하는 단계를 포함하는, 음성 인식 방법.
같은 공간에 위치하는 복수의 음성 인식 장치들 중 하나의 음성 인식 장치에 있어서,
입력 오디오 신호를 수신하는 수신부;
상기 입력 오디오 신호로부터 화자의 음성 신호를 추출하고, 상기 음성 신호와 등록 화자의 음성 신호의 유사도를 나타내는 제1 화자 인식 스코어를 획득하는, 프로세서; 및
상기 음성 신호에 대한 음성 인식 결과를 출력하는 출력부를 포함하고,
상기 프로세서는,
상기 복수의 음성 인식 장치들 중에서 다른 음성 인식 장치에서 획득된 제2 화자 인식 스코어와 상기 제1 화자 인식 스코어에 기초하여, 상기 음성 신호에 대한 음성 인식 결과를 출력하도록 상기 출력부를 제어하는 것을 특징으로 하는, 음성 인식 장치.
제10 항에 있어서,
상기 프로세서는,
상기 제1 화자 인식 스코어와 상기 제2 화자 인식 스코어를 비교한 결과에 기초하여, 상기 음성 인식 장치 및 상기 다른 음성 인식 장치 중에서 상기 화자로부터 가까운 장치를 결정하고, 상기 화자로부터 가까운 장치가 상기 음성 인식 장치로 결정되는 경우, 상기 음성 신호에 대한 음성 인식 결과를 출력하는 것을 특징으로 하는, 음성 인식 장치.
제11 항에 있어서,
상기 프로세서는,
상기 음성 인식 장치의 위치, 상기 다른 음성 인식 장치의 위치 및 화자와 음성 인식 장치의 거리에 따른 화자 인식 스코어의 변화에 대해서 미리 저장된 정보를 더 고려하여, 상기 화자로부터 가까운 장치를 결정하는 것을 특징으로 하는, 음성 인식 장치.
제11 항에 있어서,
상기 프로세서는,
화자와 음성 인식 장치의 거리에 따른 화자 인식 스코어의 변화에 대해서 미리 저장된 화자/거리 정보, 상기 제1 화자 인식 스코어 및 상기 제2 화자 인식 스코어를 고려하여, 상기 화자로부터 가까운 장치를 결정하고,
상기 제1 화자 인식 스코어가 임계값 이상인 경우, 상기 화자로부터 가까운 장치를 결정한 결과에 기초하여, 상기 화자/거리 정보를 갱신하는 것을 특징으로 하는, 음성 인식 장치.
같은 공간에 위치한 복수의 음성 인식 장치들과 연결된 디바이스가 음성 인식을 수행하는 방법에 있어서,
제1 음성 인식 장치에서 수신된 음성 신호와 등록 화자의 음성 신호의 유사도를 나타내는 제1 화자 인식 스코어를 획득하는 단계;
제2 음성 인식 장치에서 수신된 음성 신호와 상기 등록 화자의 음성 신호의 유사도를 나타내는 제2 화자 인식 스코어를 획득하는 단계;
상기 제1 화자 인식 스코어 및 상기 제2 화자 인식 스코어에 기초하여, 상기 제1 음성 인식 장치 및 상기 제2 음성 인식 장치 중에서 상기 화자로부터 가까운 장치를 결정하는 단계; 및
상기 화자로부터 가까운 장치가 상기 제1 음성 인식 장치로 결정되는 경우, 상기 제1 음성 인식 장치에게 상기 제1 음성 신호에 대한 음성 인식 결과를 출력하는 단계를 포함하는, 음성 인식 방법.
제14 항에 있어서,
상기 화자로부터 가까운 장치를 결정하는 단계는,
상기 제1 음성 인식 장치의 위치, 상기 제2 음성 인식 장치의 위치, 및 화자와 음성 인식 장치의 거리에 따른 화자 인식 스코어의 변화에 대해서 미리 저장된 정보를 더 고려하여, 상기 화자로부터 가까운 장치를 결정하는 단계를 포함하는 것을 특징으로 하는, 음성 인식 방법.
제14 항에 있어서,
상기 화자로부터 가까운 장치를 결정하는 단계는,
화자와 음성 인식 장치의 거리에 따른 화자 인식 스코어의 변화에 대해서 미리 저장된 화자/거리 정보, 상기 제1 화자 인식 스코어 및 상기 제2 화자 인식 스코어를 고려하여, 상기 화자로부터 가까운 장치를 결정하는 단계를 포함하고,
상기 제1 화자 인식 스코어가 임계값 이상인 경우, 상기 화자로부터 상기 제1 음성 인식 장치 간의 예측된 거리 및 상기 제1 화자 인식 스코어에 기초하여, 상기 화자/거리 정보를 갱신하는 단계를 더 포함하는 것을 특징으로 하는, 음성 인식 방법.
같은 공간에 위치한 복수의 음성 인식 장치들과 연결된 디바이스에 있어서,
제1 음성 인식 장치 및 제2 음성 인식 장치 각각으로부터 음성 신호를 수신하는, 통신부; 및
상기 제1 음성 인식 장치로부터 수신된 음성 신호와 등록 화자의 음성 신호의 유사도를 나타내는 제1 화자 인식 스코어를 획득하고, 상기 제2 음성 인식 장치로부터 수신된 음성 신호와 상기 등록 화자의 음성 신호의 유사도를 나타내는 제2 화자 인식 스코어를 획득하고, 상기 제1 화자 인식 스코어 및 상기 제2 화자 인식 스코어에 기초하여, 상기 제1 음성 인식 장치 및 상기 제2 음성 인식 장치 중에서 상기 화자로부터 가까운 장치를 결정하는, 프로세서를 포함하고,
상기 프로세서는,
상기 화자로부터 가까운 장치가 상기 제1 음성 인식 장치로 결정되는 경우, 상기 제1 음성 인식 장치에게 상기 제1 음성 신호에 대한 음성 인식 결과를 출력하도록 상기 통신부를 제어하는 것을 특징으로 하는, 디바이스.
제17 항에 있어서,
상기 프로세서는,
상기 제1 음성 인식 장치의 위치, 상기 제2 음성 인식 장치의 위치, 및 화자와 음성 인식 장치의 거리에 따른 화자 인식 스코어의 변화에 대해서 미리 저장된 정보를 더 고려하여, 상기 화자로부터 가까운 장치를 결정하는 것을 특징으로 하는, 디바이스.
제17 항에 있어서,
상기 프로세서는,
화자와 음성 인식 장치의 거리에 따른 화자 인식 스코어의 변화에 대해서 미리 저장된 화자/거리 정보, 상기 제1 화자 인식 스코어 및 상기 제2 화자 인식 스코어를 고려하여, 상기 화자로부터 가까운 장치를 결정하고,
상기 제1 화자 인식 스코어가 임계값 이상인 경우, 상기 화자로부터 상기 제1 음성 인식 장치 간의 예측된 거리 및 상기 제1 화자 인식 스코어에 기초하여, 상기 화자/거리 정보를 갱신하는 단계를 더 포함하는 것을 특징으로 하는, 디바이스.
같은 공간에 위치한 복수의 음성 인식 장치들, 및 상기 복수의 음성 인식 장치들과 연결된 디바이스를 포함하는 음성 인식 시스템에 있어서,
상기 복수의 음성 인식 장치들 중에서 제1 음성 인식 장치는,
화자의 발화에 대한 제1 음성 신호를 수신하고, 상기 제1 음성 신호를 상기 디바이스에게 송신하고,
상기 복수의 음성 인식 장치들 중에서 제2 음성 인식 장치는,
상기 화자의 동일한 발화에 대한 제2 음성 신호를 수신하고, 상기 제2 음성 신호를 상기 디바이스에게 송신하고,
상기 디바이스는,
상기 제1 음성 신호와 등록 화자의 음성 신호의 유사도를 나타내는 제1 화자 인식 스코어를 획득하고, 상기 제2 음성 신호와 상기 등록 화자의 음성 신호의 유사도를 나타내는 제2 화자 인식 스코어를 획득하고, 상기 제1 화자 인식 스코어 및 상기 제2 화자 인식 스코어에 기초하여, 상기 제1 음성 인식 장치 및 상기 제2 음성 인식 장치 중에서 상기 화자로부터 가까운 장치를 결정하고, 상기 화자로부터 가까운 장치가 상기 제1 음성 인식 장치로 결정되는 경우, 상기 제1 음성 인식 장치에게 상기 제1 음성 신호에 대한 음성 인식 결과를 출력하는 것을 특징으로 하는, 음성 인식 시스템.
제1 항 또는 제14 항의 방법을 수행하도록 하는 프로그램이 저장된 하나 이상의 컴퓨터로 읽을 수 있는 기록매체를 포함하는 컴퓨터 프로그램 제품.