CN113488031B

CN113488031B - 确定电子设备的方法、装置、存储介质及电子装置

Info

Publication number: CN113488031B
Application number: CN202110742317.2A
Authority: CN
Inventors: 刘建国; 栾天祥; 赵培
Original assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Current assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2023-10-24
Anticipated expiration: 2041-06-30
Also published as: CN113488031A

Abstract

本发明公开了一种确定电子设备的方法、装置、存储介质及电子装置。其中，该方法包括：获取多个电子设备所采集的语音信号，每个电子设备包括至少一个麦克风阵列；基于每个电子设备所采集的语音信号，确定每个电子设备所采集的语音信号对应的混响能量占比，其中，混响能量占比表征电子设备所采集的语音信号中，混响能量分量与直达能量分量的关系；根据多个电子设备的混响能量占比，从多个电子设备中确定目标设备。本发明解决了现有技术中由于分布式唤醒方法通过去混响、降噪的方式来抑制环境影响对距离估计的影响造成分布式唤醒方法运算量大、性能差和实际应用价值小的技术问题。

Description

确定电子设备的方法、装置、存储介质及电子装置

技术领域

本发明涉及物联网领域，具体而言，涉及一种确定电子设备的方法、装置、存储介质及电子装置。

背景技术

分布式唤醒是针对目前多种AI语音设备同时部署在一个局部空间中，容易造成相同语音指令对多个设备同时操作的问题。特别是家居环境中，当语音唤醒AI语音设备时，如果多个语音设备同时响应，会造成“一呼百应”的现象，导致用户无法实现真实操作目的。

目前为解决多个AI语音设备同时唤醒问题，引入了分布式唤醒解决方案，常见的分布式唤醒解决方案是根据唤醒时计算各个设备获取语音信号的能量，根据能量大小进行比较，能量越大认为设备距离说话人越近，从而应该优先唤醒。这种方法在混响比较大的空间里无法准确工作，因为没有考虑混响对能量计算的影响，进而导致直接根据语音能量大小估计远近误差极大。目前在已知的分布式唤醒方案里面，在估算说话人距离时对混响影响的鲁棒处理仍然困难，因为传统方法往往通过去混响、降噪的方法来抑制环境影响对距离估计的影响，但是实际场景中，由于硬件设备计算资源受限，很难容忍进行大运算量的混响估计和降噪处理，同时要求这些处理对声源的距离估计不造成实际影响，这些要求极大地限制了去混响、降噪等分布式唤醒方法的实际应用价值。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种确定电子设备的方法、装置、存储介质及电子装置，以至少解决现有技术中由于分布式唤醒方法通过去混响、降噪的方式来抑制环境影响对距离估计的影响造成分布式唤醒方法运算量大、性能差和实际应用价值小的技术问题。

根据本发明实施例的一个方面，提供了一种确定电子设备的方法，上述方法包括：获取多个电子设备所采集的语音信号，每个电子设备包括至少一个麦克风阵列；基于每个电子设备所采集的语音信号，确定每个电子设备所采集的语音信号对应的混响能量占比，其中，混响能量占比表征电子设备所采集的语音信号中，混响能量分量与直达能量分量的关系；根据多个电子设备的混响能量占比，从多个电子设备中确定目标设备。

在一个示例性实施例中，根据多个电子设备的混响能量占比，从多个电子设备中确定目标设备，包括：确定多个电子设备中，混响能量占比最小的电子设备为目标设备。

在一个示例性实施例中，基于每个电子设备所采集的语音信号，确定每个电子设备所采集的语音信号对应的混响能量占比，包括：基于每个电子设备的麦克风所采集的语音信号，确定语音信号对应的频域信号；计算每个电子设备的频域信号在多个频点的直达能量分量和混响能量分量的估计向量，其中，估计向量用于表示直达能量分量和混响能量分量拼接后转置；基于估计向量获取多个预设频点上的多个直达能量分量和多个预设频点上的多个混响能量分量；确定多个混响能量分量之和与多个直达能量分量之和的比值为电子设备的混响能量占比。

在一个示例性实施例中，计算每个电子设备的频域信号在多个频点的直达能量分量和混响能量分量的估计向量，包括：确定每个电子设备的各麦克风阵列之间的互相关参数、各麦克风阵列之间的音频相关系数和噪声相关系数；根据互相关参数、各麦克风阵列之间的音频相关系数和噪声相关系数，确定估计向量。

在一个示例性实施例中，根据互相关参数、各麦克风阵列之间的音频相关系数和噪声相关系数，确定估计向量，包括：根据音频相关系数和噪声相关系数确定相关系数矩阵；获取预设的权重矩阵；根据互相关参数、权重矩阵和相关系数矩阵，确定估计向量。

在一个示例性实施例中，确定每个电子设备的各麦克风阵列之间的互相关参数，包括：对每个麦克风的频域信号在预设频点进行采样，得到预设频点在多个时刻对应的采样信号；基于每个麦克风对应的采样信号构成采样信号序列；基于每个麦克风对应的采样信号序列和采样信号序列的共轭构成每两个麦克风之间的互相关参数。

在一个示例性实施例中，上述方法还包括：检测语音信号对应的语音信息是否为预定的语音信息，其中，预定的语音信息为用于触发报警的语音信息；在确定语音信号对应的语音信息为预定的语音信息的情况下，发出报警信号。

在一个示例性实施例中，在根据多个电子设备的混响能量占比，从多个电子设备中确定目标设备之后，上述方法还包括：发送响应指令至目标设备，以使目标设备根据响应指令对语音信号做出响应。

根据本发明实施例的另一方面，还提供了一种确定电子设备的方法，确定电子设备的方法包括：获取多个麦克风所采集的语音信号；基于多个麦克风所采集的语音信号，确定语音信号对应的混响能量占比，其中，混响能量占比表征电子设备所采集的语音信号中，混响能量分量与直达能量分量的关系；将混响能量占比发送至服务端，其中，服务端接收多个电子设备发送的多个混响能量占比，并根据多个混响能量占比，从多个电子设备中确定出目标设备。

根据本发明实施例的另一方面，还提供了一种确定电子设备的装置，确定电子设备的装置包括：获取模块，用于获取多个电子设备所采集的语音信号，每个电子设备包括至少一个麦克风阵列；第一确定模块，用于基于每个电子设备所采集的语音信号，确定每个电子设备所采集的语音信号对应的混响能量占比，其中，混响能量占比表征电子设备所采集的语音信号中，混响能量分量与直达能量分量的关系；第二确定模块，用于根据多个电子设备的混响能量占比，从多个电子设备中确定目标设备。

根据本发明实施例的另一方面，还提供了一种确定电子设备的装置，确定电子设备的装置包括：获取模块，用于获取多个麦克风所采集的语音信号；确定模块，用于基于多个麦克风所采集的语音信号，确定语音信号对应的混响能量占比，其中，混响能量占比表征电子设备所采集的语音信号中，混响能量分量与直达能量分量的关系；发送模块，用于将混响能量占比发送至服务端，其中，服务端接收多个电子设备发送的多个混响能量占比，并根据多个混响能量占比，从多个电子设备中确定出目标设备。

根据本发明实施例的另一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述确定电子设备的方法。

根据本发明实施例的另一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的确定电子设备的方法。

在本发明实施例中，上述方法包括获取多个电子设备所采集的语音信号，每个电子设备包括至少一个麦克风阵列；基于每个电子设备所采集的语音信号，确定每个电子设备所采集的语音信号对应的混响能量占比，其中，混响能量占比表征电子设备所采集的语音信号中，混响能量分量与直达能量分量的关系；根据多个电子设备的混响能量占比，从多个电子设备中确定目标设备。上述方案在对室内的AI语音设备进行唤醒时，利用混响能量占比的算法极大地提高了分布式唤醒在混响条件下的准确性，同时，上述方法运算量小、不影响获取语音信号的距离的特性，同时对环境影响具有鲁棒性，解决了现有技术中由于分布式唤醒方法通过去混响、降噪的方式来抑制环境影响对距离估计的影响造成分布式唤醒方法运算量大、性能差和实际应用价值小的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种确定电子设备的方法的计算机终端的硬件结构框图；

图2是根据本申请实施例的一种确定电子设备的方法的流程图；

图3是根据本申请实施例的另一种确定电子设备的方法的流程图；

图4是根据本申请实施例的一种可选的确定电子设备的方法的流程图；

图5是根据本申请实施例的一种可选的语音信号的混响能量分量成分的示意图；

图6是根据本申请实施例的一种确定电子设备的装置的示意图；

图7是根据本申请实施例的另一种确定电子设备的装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例所提供的方法实施例可以在计算机终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图1是本发明实施例的一种数据请求的处理方法的计算机终端的硬件结构框图。如图1所示，计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，在一个示例性实施例中，上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述计算机终端的结构造成限定。例如，计算机终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示等同功能或比图1所示功能更多的不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的数据请求的处理方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种确定电子设备的方法，应用于上述计算机终端，图2是根据本发明实施例的一种确定电子设备的方法的流程图。本申请实施例设备的执行主体为一种中控设备，该中控设备可以为室内智能家居设备中的一种，也可以为智能语音终端设备。

如图2所示，该方法包括如下步骤：

S202，获取多个电子设备所采集的语音信号，每个电子设备包括至少一个麦克风阵列。

上述每个电子设备可以是具有麦克风阵列的终端设备、家居设备以及智能语音终端设备等，例如，具有麦克风阵列的手机、电脑、空气净化器、冰箱、电视、AI音箱、烤箱等。上述电子设备采用的麦克风阵列均可以具有多个麦克风，每个麦克风可以采集到上述语音信号，每个电子设备可以根据对应的语音信号做出相应的行为。例如，可以选择其中一个电子设备作为中控设备，便可通过控制一台电子设备实现对室内所有电子设备的控制。也可以将终端设备作为中控设备，通过终端设备对室内所有电子设备进行控制。

在一种可选的实施方式中，中控设备为上述所有电子设备中的一台，如电子设备A，上述语音信号为唤醒词。当用户通过电子设备A将每个电子设备通过唤醒词唤醒后，电子设备A可以获取每台电子设备的唤醒词长度(时间)对应的多通道数据，每个电子设备均采用麦克风阵列，比如电子设备B有4个麦克，就会有4通道数据，电子设备C有6个麦克，就会有6通道数据。当然，上述所有电子设备也可以通过一台终端设备作为中控设备进行控制，例如手机、PC机等，均可以获取每个电子设备的麦克风所采集的语音信号。

S204，基于每个电子设备所采集的语音信号，确定每个电子设备所采集的语音信号对应的混响能量占比，其中，混响能量占比表征电子设备所采集的语音信号中，混响能量分量与直达能量分量的关系。

上述语音信号可以具有混响能量分量和直达能量分量，上述混响能量分量为声源发出的语音信号携带的能量与其他物体接触后反射至上述设备的能量，直达能量分量为声源发出的直达声音(Direct sound)携带的能量，其中，直达声音可以直接反应声源距离上述电子设备的距离信息部分，而混响能量分量完全是由环境因素引起的，需要在距离信息估计时将两部分分离考虑，为更好的判断距离信息可以获取上述电子设备的混响能量占比。

在一种可选的实施方式中，中控设备为智能语音终端设备，上述声源为用户，上述电子设备为设置在室内墙角的电子设备A，智能语音终端设备接收到电子设备A的麦克风采集到的语音信号，通过语音信号获取设备A的混响能量占比，根据混响能量占比判断用户距离上述设备的距离信息。由于电子设备A设置在角落，用户发出的语音信号携带的能量会与电子设备A周围的墙壁发生接触并反射，导致混响能量分量受墙壁环境因素的影响而变大，使得电子设备A采集到的语音信号中混响能量占比较大。

S206，根据多个电子设备的混响能量占比，从多个电子设备中确定目标设备。

上述目标设备为用户通过中控设备控制实现相应功能的设备，该目标设备的混响能量占比与声源的距离和目标设备周围的环境相关。

在一种可选的实施方式中，上述中控设备为智能终端设备，上述目标设备为电子设备A，智能终端设备通过将室内所有电子设备的混响能量占比进行比对，以混响能量占比的大小为依据确定电子设备A为目标设备。

由上可知，本申请实施例中，上述方法包括获取多个电子设备所采集的语音信号，每个电子设备包括至少一个麦克风阵列；基于每个电子设备所采集的语音信号，确定每个电子设备所采集的语音信号对应的混响能量占比，其中，混响能量占比表征电子设备所采集的语音信号中，混响能量分量与直达能量分量的关系；根据多个电子设备的混响能量占比，从多个电子设备中确定目标设备。上述方案在对室内的AI语音设备进行唤醒时，利用混响能量占比的算法极大地提高了分布式唤醒在混响条件下的准确性，同时，上述方法运算量小、不影响获取语音信号的距离的特性，同时对环境影响具有鲁棒性，解决了现有技术中由于分布式唤醒方法通过去混响、降噪的方式来抑制环境影响对距离估计的影响造成分布式唤醒方法运算量大、性能差和实际应用价值小的技术问题。

上述混响能量占比由混响能量分量和直达能量分量决定，混响能量分量指的是用户发出的语音信号携带的能量与其他物体接触后反射至目标设备的能量，当混响能量分量过大时会对语音信号造成干扰，对用户通过中控设备确定目标设备造成影响。

在一种可选的实施方式中，中控设备基于每个电子设备的麦克风所采集的语音信号，对每个电子设备的语音信号携带的混响能量分量和直达能量分量进行计算，其中，室内的多个电子设备分别为电子设备A、电子设备B以及电子设备C。通过计算得知，电子设备A的混响能量占比为百分之二十五，电子设备B的混响能量占比为百分之二十，电子设备C的混响能量占比为百分之十，因此电子设备C为多个电子设备中的目标设备，电子设备C对上述语音信号发出响应，进而用户可以通过中控设备控制电子设备C做出相应的操作。

上述每个电子设备可以具有多个麦克风，每个麦克风对应一个通道数据。上述预设频点的语音信号为麦克风某一时间采集到的语音信号，根据每个电子设备的麦克风采集的语音信号，确定语音信号对应的频域信号，计算每个电子设备的频域信号在多个频点的直达能量分量和混响能量分量的估计向量，具体的，将麦克风采集语音信号的这段时间根据每个设备麦克风的数量划分为多个时间点，一个时间点为一个预设频点。基于上述多个预设频点获取每个预设频点的混响能量分量和直达能量分量，将获取的所有混响能量分量之和作为每个电子设备检测到的语音信号的混响能量分量，将获取的所有直达能量分量之和作为每个设备检测到的语音信号的直达能量分量，然后确定多个混响能量分量之和与多个直达能量分量之和的比值为设备的混响能量占比。

在一种可选的实施方式中，室内有多个电子设备，分别为电子设备A、电子设备B以及电子设备C。电子设备A有4个麦克风，预设有4个频点，其中，预设频点A1的混响能量分量为10，直达能量分量为75；预设频点A2的混响能量分量为8，直达能量分量为81；预设频点A3的混响能量分量为5，直达能量分量为90；预设频点A4的混响能量分量为17，直达能量分量为77。则设备A的混响能量分量之和为10+8+5+17＝40，直达能量分量之和为75+81+90+77＝323，电子设备A的混响能量占比为40/323≈12.4％。电子设备B有三个麦克风，预设有3个频点，其中，预设频点B1的混响能量分量为7，直达能量分量为65；预设频点B2的混响能量分量为3，直达能量分量为70；预设频点B3的混响能量分量为15，直达能量分量为44，。则电子设备B的混响能量分量之和为7+3+15＝25，直达能量分量之和为65+70+44＝179，电子设备B的混响能量占比为25/179≈14％。电子设备C有2个麦克风，预设有2个频点，其中，预设频点C1的混响能量分量为25，直达能量分量为77；预设频点C2的混响能量分量为22，直达能量分量为80。则电子设备C的混响能量分量之和为25+22＝47，直达能量分量之和为77+80＝157，电子设备C的混响能量占比为47/157≈29.9％。通过对上述电子设备A、电子设备B和电子设备C的混响能量占比进行比较后可以确定电子设备C为目标设备。

在另一种可选的实施方式中，上述估计向量用于表示直达能量分量和混响能量分量拼接后的转置，相应的，可以用公式表示为\hat{\theta}(f)，其中向量\theta(f)＝[P_D(f)，P_R(f)]^T，P_D(f)和P_R(f)分别代表直达能量分量和混响能量分量，直达能量分量之和为\sum_f{P_D(f)}，混响能量分量之和为\sum_f{P_R(f)}，因此混响能量占比为R_est＝10log₁₀(\sum_f{P_R(f)}/\sum_f{P_D(f)})，其中f代表某个频段。

上述每个电子设备的各麦克风阵列之间的互相关参数可以为d₁₁(f)，r₁₁(f)；d₁₂(f)，r₁₂(f)；…，d_MM(f)，r_MM(f)。上述同一电子设备每两个麦克风之间的音频相关系数为d_ij(f)，噪声相关系数为r_ij(f)，其中，i，j表示的同一电子设备中的第i麦克风和第j麦克风，音频相关系数d_ij(f)可以通过麦克风自身参数及空间关系计算得到，噪声相关系数为r_ij(f)受空间噪声场影响，也是较容易预先测定的。

上述每个预设频点上，同一电子设备中每个麦克风之间的相关系数矩阵为A(f)，通过计算每个麦克风之间的相关系数可以确定任意一个麦克风与其他同一设备麦克风之间的相关程度，其中，可以通过音频相关系数d_ij(f)和噪声相关系数为r_ij(f)确定相关系数矩阵；上述预设的权重矩阵为W，可以根据历史记录数据进行全局优化选取。

在一种可选的实施方式中，在根据互相关参数、权重矩阵和相关系数矩阵确定估计向量时，电子设备检测的语音信号的直达能量分量与混响能量分量的估计向量可以为\hat{\theta}(f)＝(A^HWA)^-1A^HWz。其中，(A^HWA)^-1表述的是相关系数矩阵的共轭矩阵、权重矩阵以及相关系数矩阵三者乘积的逆矩阵，A^HWz表述的是相关系数矩阵的共轭矩阵、权重矩阵以及互相关参数三者的乘积。

由上可知，上述每个电子设备的各麦克风阵列之间的互相关参数可以为d₁₁(f)，r₁₁(f)；d₁₂(f)，r₁₂(f)；…，d_MM(f)，r_MM(f)，基于上述每两个麦克风的互相关参数得到每个麦克风之间的相关系数矩阵为A(f)＝[d₁₁(f)，r₁₁(f)；d₁₂(f)，r₁₂(f)；…，d_MM(f)，r_MM(f)]，同时也可以得到每个麦克风之间的互相关参数为z＝[R₁₁(f)，…，R_MM(f)]^T。

需要说明的是，估计向量\hat{\theta}(f)＝(A^HWA)^-1A^HWz。可以用来表示每一个电子设备的直达能量分量P_D(f)的估计向量以及混响能量分量P_R(f)的估计向量。

在上述每个电子设备唤醒后，中控设备获取语音信息的长度(时间)对应的多通道数据，其中，每个电子设备均采用麦克风阵列，每个电子设备可以有多个麦克风，比如有4个麦克风，就会有4通道数据。并对上述语音信号进行快速傅里叶变换，将获取的频域信号构成的采样信号序列记为x(f，t)＝[X⁽¹⁾(f，t)，X⁽²⁾(f，t)，…，X^(M)(f，t)]^T，其中M为通道个数，f代表某个频段，t代表观测时间，t＝0，1，…，T-1。对于频点f统计每个麦克风对应的采样序列信号和采样序列信号的共轭构成的每个麦克风之间的互相关参数R(f)＝E[x(f，t)x^H(f，t)]，其中，该互相关参数表示的是采样信号序列与采样信号序列的共轭矩阵乘积的数学期望，由于x(f，t)为一个多维度的采样序列信号，因此可以得到每个麦克风之间的互相关参数。

上述语音信号用于触发设备的报警信号，在设备接收到语音信号后，设备启动报警任务，发出报警信号。其中上述语音信号可以通过使用深度学习模型学习人或其他动物在危险情况下报警声音的特征，进而提高报警信号的正确率，避免错误报警。

在一种可选的实施方式中，上述预定的语音信号可以为用户设置的“着火”“煤气开了”等紧急关键词，在用户发现家里着火之后，大喊“救火”，设备的麦克风在采集到“救火”的语音信号对应的语音信息后发出报警信号：报警并大音量呼喊“着火啦，着火啦”的声音，以引起周围住户的注意，使得周围住户及时逃离着火环境，保证人身安全。

在另一种可选的实施方式中，上述预定的语音信号可以为用户设置的“救命”等紧急关键词，当家里闯入歹徒，用户喊救命，设备的麦克风在采集到“救命”的语音信号对应的语音信号后发出报警信号：报警并大量走音呼叫的声音，以引起周围住户的关注，惊跑歹徒。同时在上述情况中，为了不激怒歹徒，可以将“救命”的语音信号设置为比较隐秘不易被人发觉报警的词语，以拖延时间，保证用户的安全。

在一个示例性实施例中，在根据多个电子设备的混响能量占比，从多个电子设备中确定目标设备之后，方法还包括：发送响应指令至目标设备，以使目标设备根据响应指令对语音信号做出响应。

上述目标设备对语音信号进行响应后，用户可以通过终端设备等发出响应指令控制目标设备进行相应的操作，使得目标设备可以根据响应指令对语音信号做出响应。

在一种可选的实施方式中，上述中控设备为终端设备，上述目标设备为电子设备A，终端设备通过将室内所有电子设备的混响能量占比进行比对，以混响能量占比的大小为依据确定电子设备A为目标设备之后，终端设备给电子设备A发送响应指令，例如播放音乐，电子设备A在接收到响应指令后开始播放音乐。

在本实施例中提供了一种确定电子设备的方法，应用于上述计算机终端，图3是根据本发明实施例的一种确定电子设备的方法的流程图。本申请实施例设备的执行主体为一种具有服务端的中控设备，该中控设备可以为室内智能家居设备中的一种，也可以为智能语音终端设备。

如图3所示，该方法包括如下步骤：

S302，获取多个麦克风所采集的语音信号。

上述多个麦克风是一个电子设备上的部分麦克风或所有麦克风，其中，每一个麦克风都可以采集到上述语音信号，电子设备可以根据多个麦克风采集到的语音信号做出相应的行为。

S304，基于多个麦克风所采集的语音信号，确定语音信号对应的混响能量占比，其中，混响能量占比表征电子设备所采集的语音信号中，混响能量分量与直达能量分量的关系。

S306，将混响能量占比发送至服务端，其中，服务端接收多个电子设备发送的多个混响能量占比，并根据多个混响能量占比，从多个电子设备中确定出目标设备。

在一种可选的实施方式中，上述目标设备为电子设备A，服务端接收到多个电子设备发送的多个混响能量占比，服务端通过将室内所有电子设备的混响能量占比进行比对，以混响能量占比的大小为依据确定电子设备A为目标设备。

图4是根据本发明实施例的一种可选的确定电子设备的方法的流程图，如图4所示，具体步骤如下：

S401，获取多个电子设备所采集的语音信号；

S402，根据采集到的语音信号确定语音信号对应的频域信号；

S403，确定每个电子设备的各麦克风阵列之间的互相关参数、各麦克风阵列之间的音频相关系数和噪声相关系数；

S404，根据音频相关系数和噪声相关系数确定相关系数矩阵；

S405，获取预设的权重矩阵；

S406，对每个麦克风的频域信号在预设频点进行采样，得到预设频点在多个时刻对应的采样信号；

S407，基于每个麦克风对应的采样信号构成采样信号序列；

S408，基于每个所麦克风对应的采样信号序列和采样信号序列的共轭构成每两个麦克风之间的互相关参数；

S409，根据互相关参数、权重矩阵和相关系数矩阵，确定估计向量；

S410，基于估计向量获取多个预设频点上的多个直达能量分量和多个预设频点上的多个混响能量分量；

S411，确定多个混响能量分量之和与多个直达能量分量之和的比值为电子设备的混响能量占比；

S412，确定每个电子设备所采集的语音信号对应的混响能量占比；

S413，确定多个电子设备中，混响能量占比最小的电子设备为目标设备；

S414，发送响应指令至目标设备，以使目标设备根据响应指令多语音信号做出响应。

结合图5所示，上述语音信号的混响能量分量成分中，直达声音对应图5中的Direct sound，早期发射声音对应图5中的Early reflection，混响声音对应图5中的reverberation，其中，直达声音为直接反应说话人(声源)与设备之间的距离信息部分，由于混响声音部分是由环境因素引起的，因此需要在距离估计时将直达声音和混响声音分离考虑，才能较鲁棒地估计出距离信息。

需要说明的是，图5中H(ω)表示的是目标设备接收到的频域信号，H_D(ω)表示的是直达声音对应的频域信号，H_R(ω)表示的是混响声音对应的频域信号。其中，在只有直达声音而没有其他的混响声音的情况下，H(ω＝H_D(ω)；在目标设备接收语音信号的过程中，由于环境因素的影响会产生混响声音，在此种情况下，H(ω)＝H_D(ω)+H_R(ω)。

图6是根据本发明实施例的一种确定电子设备的装置的示意图，上述确定电子设备的装置如图6所示，该装置包括：

获取模块61，用于获取多个电子设备所采集的语音信号，每个电子设备包括至少一个麦克风阵列；

第一确定模块62，用于基于每个电子设备所采集的语音信号，确定每个电子设备所采集的语音信号对应的混响能量占比，其中，混响能量占比表征电子设备所采集的语音信号中，混响能量分量与直达能量分量的关系；

第二确定模块63，用于根据多个电子设备的混响能量占比，从多个电子设备中确定目标设备。

在一个示例性实施例中，上述第二确定模块包括：第一确定子模块，用于确定多个电子设备中，混响能量占比最小的电子设备为目标设备。

在一个示例性实施例中，上述第一确定模块包括：

第二确定子模块，用于基于每个电子设备的麦克风所采集的语音信号，确定语音信号对应的频域信号；

计算模块，用于计算每个电子设备的频域信号在多个频点的直达能量分量和混响能量分量的估计向量，其中，估计向量用于表示直达能量分量和混响能量分量拼接后的转置。

第一获取子模块，用于基于估计向量获取多个预设频点上的多个直达能量分量和多个预设频点上的多个混响能量分量；

第三确定子模块，用于确定多个混响能量分量之和与多个直达能量分量之和的比值为电子设备的混响能量占比。

在一个示例性实施例中，计算模块包括：

第四确定子模块，用于确定每个电子设备的各麦克风阵列之间的互相关参数、各麦克风阵列之间的音频相关系数和噪声相关系数；

第五确定子模块，用于根据互相关参数、各麦克风阵列之间的音频相关系数和噪声相关系数，确定估计向量。

在一个示例性实施例中，第五确定子模块包括：

第六确定子模块，用于根据音频相关系数和噪声相关系数确定相关系数矩阵；

第二获取模块，用于获取预设的权重矩阵；

第七确定子模块，用于根据互相关参数、权重矩阵和相关系数矩阵，确定估计向量。

在一个示例性实施例中，确定每个电子设备的各麦克风阵列之间的互相关参数，包括：

采样模块，用于对每个麦克风的频域信号在预设频点进行采样，得到预设频点在多个时刻对应的采样信号；

第一构成模块，用于基于每个麦克风对应的采样信号构成采样信号序列；

第二构成模块，用于基于每个麦克风对应的采样信号序列和采样信号序列的共轭构成每两个麦克风之间的互相关参数。

在一个示例性实施例中，上述方法还包括：

检测模块，用于检测语音信号对应的语音信息是否为预定的语音信息，其中，预定的语音信息为用于触发报警的语音信息；

报警模块，用于在确定语音信号对应的语音信息为预定的语音信息的情况下，发出报警信号。

在一个示例性实施例中，在第二确定模块之后，上述方法还包括：

发送模块，用于发送响应指令至目标设备，以使目标设备根据响应指令对语音信号做出响应。

图7是根据本发明实施例的另一种确定电子设备的装置的示意图，上述确定电子设备的装置如图7所示，该装置包括：

获取模块71，用于获取多个麦克风所采集的语音信号；

确定模块72，用于基于多个麦克风所采集的语音信号，确定语音信号对应的混响能量占比，其中，混响能量占比表征电子设备所采集的语音信号中，混响能量分量与直达能量分量的关系；

发送模块73，用于将混响能量占比发送至服务端，其中，服务端接收多个电子设备发送的多个混响能量占比，并根据多个混响能量占比，从多个电子设备中确定出目标设备。

本发明的实施例还提供了一种存储介质，该存储介质包括存储的程序，其中，上述程序运行时执行上述任一项的方法。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的程序代码：

S1：获取多个电子设备所采集的语音信号，每个电子设备包括至少一个麦克风阵列；

S2：基于每个电子设备所采集的语音信号，确定每个电子设备所采集的语音信号对应的混响能量占比，其中，混响能量占比表征电子设备所采集的语音信号中，混响能量分量与直达能量分量的关系；

S3：根据多个电子设备的混响能量占比，从多个电子设备中确定目标设备。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种确定电子设备的方法，其特征在于，所述确定电子设备的方法包括：

获取多个电子设备所采集的语音信号，每个电子设备包括至少一个麦克风阵列；

基于每个电子设备所采集的语音信号，确定每个电子设备所采集的语音信号对应的混响能量占比，其中，所述混响能量占比表征电子设备所采集的语音信号中，混响能量分量与直达能量分量的关系；

根据所述多个电子设备的所述混响能量占比，从所述多个电子设备中确定目标设备；

其中，基于每个电子设备所采集的语音信号，确定每个电子设备所采集的语音信号对应的混响能量占比，包括：基于每个所述电子设备的麦克风所采集的语音信号，确定所述语音信号对应的频域信号；计算每个所述电子设备的所述频域信号在多个频点的直达能量分量和混响能量分量的估计向量，其中，所述估计向量用于表示所述直达能量分量和所述混响能量分量拼接后的转置；基于所述估计向量获取多个预设频点上的多个直达能量分量和所述多个预设频点上的多个混响能量分量；确定所述多个混响能量分量之和与所述多个直达能量分量之和的比值为所述电子设备的混响能量占比；

其中，计算每个所述电子设备的所述频域信号在多个频点的直达能量分量和混响能量分量的估计向量，包括：确定每个所述电子设备的各麦克风阵列之间的互相关参数、所述各麦克风阵列之间的音频相关系数和噪声相关系数；根据所述互相关参数、所述各麦克风阵列之间的音频相关系数和噪声相关系数，确定所述估计向量。

2.根据权利要求1所述的方法，其特征在于，根据所述多个电子设备的所述混响能量占比，从所述多个电子设备中确定目标设备，包括：

确定所述多个电子设备中，混响能量占比最小的电子设备为所述目标设备。

3.根据权利要求1所述的方法，其特征在于，根据所述互相关参数、所述各麦克风阵列之间的音频相关系数和噪声相关系数，确定所述估计向量，包括：

根据音频相关系数和噪声相关系数确定相关系数矩阵；

获取预设的权重矩阵；

根据所述互相关参数、所述权重矩阵和所述相关系数矩阵，确定所述估计向量。

4.根据权利要求1所述的方法，其特征在于，确定每个所述电子设备的各麦克风阵列之间的互相关参数，包括：

对每个所述麦克风的频域信号在所述预设频点进行采样，得到所述预设频点在多个时刻对应的采样信号；

基于每个所述麦克风对应的采样信号构成采样信号序列；

基于每个所述麦克风对应的采样信号序列和所述采样信号序列的共轭构成每两个麦克风之间的互相关参数。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

检测所述语音信号对应的语音信息是否为预定的语音信息，其中，所述预定的语音信息为用于触发报警的语音信息；

在确定所述语音信号对应的语音信息为预定的语音信息的情况下，发出报警信号。

6.根据权利要求1所述的方法，其特征在于，在根据所述多个电子设备的所述混响能量占比，从所述多个电子设备中确定目标设备之后，所述方法还包括：

发送响应指令至所述目标设备，以使所述目标设备根据所述响应指令对所述语音信号做出响应。

7.一种确定电子设备的方法，其特征在于，所述确定电子设备的方法包括：

获取多个麦克风所采集的语音信号；

基于多个麦克风所采集的所述语音信号，确定所述语音信号对应的混响能量占比，其中，所述混响能量占比表征电子设备所采集的语音信号中，混响能量分量与直达能量分量的关系；

将所述混响能量占比发送至服务端，其中，所述服务端接收多个电子设备发送的多个混响能量占比，并根据所述多个混响能量占比，从所述多个电子设备中确定出目标设备；

其中，基于多个麦克风所采集的所述语音信号，确定所述语音信号对应的混响能量占比，包括：基于多个麦克风所采集的所述语音信号，确定所述语音信号对应的频域信号；计算所述频域信号在多个频点的直达能量分量和混响能量分量的估计向量，其中，所述估计向量用于表示所述直达能量分量和所述混响能量分量拼接后的转置；基于所述估计向量获取多个预设频点上的多个直达能量分量和所述多个预设频点上的多个混响能量分量；确定所述多个混响能量分量之和与所述多个直达能量分量之和的比值为所述语音信号对应的混响能量占比；

其中，计算所述频域信号在多个频点的直达能量分量和混响能量分量的估计向量，包括：确定所述多个麦克风阵列之间的互相关参数、所述多个麦克风阵列之间的音频相关系数和噪声相关系数；根据所述互相关参数、所述多个麦克风阵列之间的音频相关系数和噪声相关系数，确定所述估计向量。

8.一种确定电子设备的装置，其特征在于，所述确定电子设备的装置包括：

获取模块，用于获取多个电子设备所采集的语音信号，每个电子设备包括至少一个麦克风阵列；

第一确定模块，用于基于每个电子设备所采集的语音信号，确定每个电子设备所采集的语音信号对应的混响能量占比，其中，所述混响能量占比表征电子设备所采集的语音信号中，混响能量分量与直达能量分量的关系；

第二确定模块，用于根据所述多个电子设备的所述混响能量占比，从所述多个电子设备中确定目标设备；

其中，所述第一确定模块包括：第二确定子模块，用于基于每个电子设备的麦克风所采集的语音信号，确定语音信号对应的频域信号；计算模块，用于计算每个电子设备的频域信号在多个频点的直达能量分量和混响能量分量的估计向量，其中，估计向量用于表示直达能量分量和混响能量分量拼接后的转置；第一获取子模块，用于基于估计向量获取多个预设频点上的多个直达能量分量和多个预设频点上的多个混响能量分量；第三确定子模块，用于确定多个混响能量分量之和与多个直达能量分量之和的比值为电子设备的混响能量占比；

其中，所述计算模块包括：第四确定子模块，用于确定每个电子设备的各麦克风阵列之间的互相关参数、各麦克风阵列之间的音频相关系数和噪声相关系数；第五确定子模块，用于根据互相关参数、各麦克风阵列之间的音频相关系数和噪声相关系数，确定估计向量。

9.一种确定电子设备的装置，其特征在于，所述确定电子设备的装置包括：

获取模块，用于获取多个麦克风所采集的语音信号；

确定模块，用于基于多个麦克风所采集的所述语音信号，确定所述语音信号对应的混响能量占比，其中，所述混响能量占比表征电子设备所采集的语音信号中，混响能量分量与直达能量分量的关系；

发送模块，用于将所述混响能量占比发送至服务端，其中，所述服务端接收多个电子设备发送的多个混响能量占比，并根据所述多个混响能量占比，从所述多个电子设备中确定出目标设备；

其中，所述装置，还用于基于多个麦克风所采集的所述语音信号，确定所述语音信号对应的频域信号；计算所述频域信号在多个频点的直达能量分量和混响能量分量的估计向量，其中，所述估计向量用于表示所述直达能量分量和所述混响能量分量拼接后的转置；基于所述估计向量获取多个预设频点上的多个直达能量分量和所述多个预设频点上的多个混响能量分量；确定所述多个混响能量分量之和与所述多个直达能量分量之和的比值为所述语音信号对应的混响能量占比；

其中，所述装置，还用于确定所述多个麦克风阵列之间的互相关参数、所述多个麦克风阵列之间的音频相关系数和噪声相关系数；根据所述互相关参数、所述多个麦克风阵列之间的音频相关系数和噪声相关系数，确定所述估计向量。

10.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至7任一项中所述的方法。

11.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。