CN115171703A

CN115171703A - 分布式语音唤醒方法和装置、存储介质及电子装置

Info

Publication number: CN115171703A
Application number: CN202210603410.XA
Authority: CN
Inventors: 邓邱伟; 郝斌; 王迪; 张丽
Original assignee: Qingdao Haier Technology Co Ltd; Qingdao Haier Intelligent Home Appliance Technology Co Ltd; Haier Smart Home Co Ltd
Current assignee: Qingdao Haier Technology Co Ltd; Qingdao Haier Intelligent Home Appliance Technology Co Ltd; Haier Smart Home Co Ltd
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2022-10-11
Anticipated expiration: 2042-05-30
Also published as: WO2023231552A1; CN115171703B

Abstract

本申请公开了分布式语音唤醒方法和装置、存储介质及电子装置，涉及智慧家庭技术领域，包括：确定第一组设备接收到第一唤醒音频的情况下，获取第一组设备中的每个设备第一唤醒音频生成的原始信号得到第一组原始信号，获取第一组设备中的每个设备对于第一唤醒音频的反馈信息得到第一组反馈信息，根据第一组反馈信息从第一组设备中确定唤醒了交互功能的设备得到第二组设备，在第一组原始信号中确定第二组设备生成的原始信号得到第二组原始信号；根据第二组设备中的设备的数量从预设的一组噪音消除方式中确定目标噪音消除方式；使用目标噪音消除方式对第二组原始信号进行噪音消除处理得到一组降噪信号，根据一组降噪信号在第二组设备中确定目标设备。

Description

分布式语音唤醒方法和装置、存储介质及电子装置

技术领域

本申请涉及智慧家庭技术领域，具体而言，涉及一种分布式语音唤醒方法和装置、存储介质及电子装置。

背景技术

相关技术中，随着人工智能技术的发展，越来越多的智能语音设备进入普通家庭。当场景中配置唤醒模块设备多了之后，用户说出唤醒词之后，电视、空调、冰箱等智能设备都同时说“我在”。用物联网技术将各个设备组网，通过智能感知算法，根据用户与音箱的距离和朝向等维度进行智能判断，在用户说出唤醒词之后，只有一台设备响应并与之交互，其他设备保持安静。安静场景下，可以利用信号的幅值/能量作为判别准则。由于声波的衰减，距离近的设备信号幅值大于远端设备。当出现较复杂的场景时，某台设备自播时，用户说出唤醒词，此时对于自播设备，回声属于自噪，而对于其他设备来说属于外噪，简单的以信号的幅值/能量作为判别准则将无法准确的确定出响应的一台设备。

针对相关技术中，在复杂场景下，无法准确且快速的从多个设备中确定出响应的设备等问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种分布式语音唤醒方法和装置、存储介质及电子装置，以至少解决相关技术中，在复杂场景下，无法准确且快速的从多个设备中确定出响应的设备等问题。

根据本申请实施例的一个实施例，提供了一种分布式语音唤醒方法，包括：在确定第一组设备接收到第一唤醒音频的情况下，获取第一组设备中的每个设备根据第一唤醒音频生成的原始信号，共得到第一组原始信号，以及获取第一组设备中的每个设备对于第一唤醒音频的反馈信息，共得到第一组反馈信息，其中，第一组设备为同一网络中的设备，反馈信息用于指示第一组设备中对应的设备是否响应于第一唤醒音频唤醒交互功能，所述原始信号为设备接收到的第一唤醒音频后转化出的音频信号；根据第一组反馈信息从第一组设备中确定唤醒了交互功能的设备，共得到第二组设备，并在第一组原始信号中确定第二组设备生成的原始信号，共得到第二组原始信号；根据第二组设备中的设备的数量，从预设的一组噪音消除方式中确定目标噪音消除方式；使用目标噪音消除方式对第二组原始信号进行噪音消除处理，得到一组降噪信号；根据一组降噪信号，在第二组设备中确定目标设备，并控制目标设备播放与第一唤醒音频对应的第二音频，以及控制第二组设备中除第二目标设备之外的设备静音。

在一个示例性实施例中，根据第二组设备中的设备的数量，从预设的一组噪音消除方式中确定目标噪音消除方式，包括：在第二组设备中的设备的数量大于或等于第一预设阈值的情况下，从一组噪音消除方式中确定第一噪音消除方式，其中，第一噪音消除方式用于通过预设的第一自适应滤波器从第二组原始信号中滤除自噪信号，以及通过第二自适应滤波器从第二组原始信号中滤除外噪信号，第二自适应滤波器是根据第二组设备之间的波束形成生成的滤波器；在第二组设备中的设备的数量小于第一预设阈值的情况下，从一组噪音消除方式中确定第二噪音消除方式，其中，第二噪音消除方式用于通过第一自适应滤波器从第二组原始信号中滤除自噪信号，以及从第二组原始信号中滤除第二组设备之间通过声源分离确定的外噪信号。

在一个示例性实施例中，在从一组噪音消除方式中确定第一噪音消除方式之后，上述方法还包括：统计经过第一噪音信号消除方式处理后的第二组设备对应的目标降噪信号的第一能量值；以及确定第一噪音信号消除方式滤除的第二组原始信号中外噪信号对应的第二能量值；在第一能量值与第二能量值的差值低于第二预设阈值的情况下，确定目标对象与第二组设备处于同一角度；在第一噪音信号消除方式处理后的目标第二组原始信号中添加预估信号，其中，预估信号为预设的用于平衡信号抵消的信号。

在一个示例性实施例中，在第二组设备中的设备的数量大于或等于第一预设阈值的情况下，从一组噪音消除方式中确定第一噪音消除方式之前，上述方法还包括：确定第二组设备中的每个设备在目标区域中的位置信息，共得到一组位置信息；通过一组位置信息确定第二组设备中每两个设备之间的相对位置；基于相对位置确定第二组设备中的每个设备对应的第二自适应滤波器。

在一个示例性实施例中，通过一组位置信息确定第二组设备中每两个设备之间的相对位置，包括:第二组设备中每个设备逐次进入校准模式，根据一组位置信息确定每个设备与其他设备之间的相对方向；基于相对方向做波束形成，得到第二组设备中每两个设备之间的第一预估外噪和第二预估外噪；在第一预估外噪和第二预估外噪相同的情况下，确定第二组设备中每两个设备之间的相对位置。

在一个示例性实施例中，在第二组设备中的设备的数量小于第一预设阈值的情况下，从一组噪音消除方式中确定第二噪音消除方式之前，上述方法还包括：将第二组原始信号通过目标算法分解为第一子信号和第二子信号；计算第一子信号对应的第三能量值，以及第二子信号对应的第四能量值；将第三能量值、第四能量值中趋近于目标能量值的子信号确定为第二组原始信号对应的回声信号，并基于回声信号确定第二组原始信号中待滤除的外噪信号。

在一个示例性实施例中，根据一组降噪信号，在第二组设备中确定目标设备，包括：在第二组设备中每一个设备均存在降噪信号的情况下，确定第二组设备中的每个设备对应的降噪信号的目标幅值，得到第二组设备对应的多个目标幅值；将多个目标幅值从大到小依次排列，选择目标幅值最大的设备为响应设备，并将响应设备作为从第二组设备中确定目标设备，以与发出第一唤醒音频的目标对象进行交互。

根据本申请实施例的另一个实施例，还提供了一种分布式语音唤醒装置，包括：获取模块，用于在确定第一组设备接收到第一唤醒音频的情况下，获取第一组设备中的每个设备根据第一唤醒音频生成的原始信号，共得到第一组原始信号，以及获取第一组设备中的每个设备对于第一唤醒音频的反馈信息，共得到第一组反馈信息，其中，第一组设备为同一网络中的设备，反馈信息用于指示第一组设备中对应的设备是否响应于第一唤醒音频唤醒交互功能，原始信号为设备接收到的第一唤醒音频后转化出的音频信号；第一确定模块，用于根据第一组反馈信息从第一组设备中确定唤醒了交互功能的设备，共得到第二组设备，并在第一组原始信号中确定第二组设备生成的原始信号，共得到第二组原始信号；第二确定模块，用于根据第二组设备中的设备的数量，从预设的一组噪音消除方式中确定目标噪音消除方式；处理模块，用于使用目标噪音消除方式对第二组原始信号进行噪音消除处理，得到一组降噪信号；控制模块，用于根据一组降噪信号，在第二组设备中确定目标设备，并控制目标设备播放与第一唤醒音频对应的第二音频，以及控制第二组设备中除第二目标设备之外的设备静音。

在一个示例性实施例中，上述第二确定模块，还用于在第二组设备中的设备的数量大于或等于第一预设阈值的情况下，从一组噪音消除方式中确定第一噪音消除方式，其中，第一噪音消除方式用于通过预设的第一自适应滤波器从第二组原始信号中滤除自噪信号，以及通过第二自适应滤波器从第二组原始信号中滤除外噪信号，第二自适应滤波器是根据第二组设备之间的波束形成生成的滤波器；在第二组设备中的设备的数量小于第一预设阈值的情况下，从一组噪音消除方式中确定第二噪音消除方式，其中，第二噪音消除方式用于通过第一自适应滤波器从第二组原始信号中滤除自噪信号，以及从第二组原始信号中滤除第二组设备之间通过声源分离确定的外噪信号。

在一个示例性实施例中，上述第二确定模块还包括：添加单元，用于统计经过第一噪音信号消除方式处理后的第二组设备对应的目标降噪信号的第一能量值；以及确定第一噪音信号消除方式滤除的第二组原始信号中外噪信号对应的第二能量值；在第一能量值与第二能量值的差值低于第二预设阈值的情况下，确定目标对象与第二组设备处于同一角度；在第一噪音信号消除方式处理后的目标第二组原始信号中添加预估信号，其中，预估信号为预设的用于平衡信号抵消的信号。

在一个示例性实施例中，上述第二确定模块，还用于确定第二组设备中的每个设备在目标区域中的位置信息，共得到一组位置信息；通过一组位置信息确定第二组设备中每两个设备之间的相对位置；基于相对位置确定第二组设备中的每个设备对应的第二自适应滤波器。

在一个示例性实施例中，上述第二确定模块，还用于第二组设备中每个设备逐次进入校准模式，根据一组位置信息确定每个设备与其他设备之间的相对方向；基于相对方向做波束形成，得到第二组设备中每两个设备之间的第一预估外噪和第二预估外噪；在第一预估外噪和第二预估外噪相同的情况下，确定第二组设备中每两个设备之间的相对位置。

在一个示例性实施例中，上述第二确定模块还包括：比较单元，用于将第二组原始信号通过目标算法分解为第一子信号和第二子信号；计算第一子信号对应的第三能量值，以及第二子信号对应的第四能量值；将第三能量值、第四能量值中趋近于目标能量值的子信号确定为第二组原始信号对应的回声信号，并基于回声信号确定第二组原始信号中待滤除的外噪信号。

在一个示例性实施例中，上述控制模块，还用于在第二组设备中每一个设备均存在降噪信号的情况下，确定第二组设备中的每个设备对应的降噪信号的目标幅值，得到第二组设备对应的多个目标幅值；将多个目标幅值从大到小依次排列，选择目标幅值最大的设备为响应设备，并将响应设备作为从第二组设备中确定目标设备，以与发出第一唤醒音频的目标对象进行交互。

根据本申请实施例的另一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述分布式语音唤醒方法。

根据本申请实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的分布式语音唤醒方法。

在本申请实施例中，在确定第一组设备接收到第一唤醒音频的情况下，获取第一组设备中的每个设备根据第一唤醒音频生成的原始信号，共得到第一组原始信号，以及获取第一组设备中的每个设备对于第一唤醒音频的反馈信息，共得到第一组反馈信息，其中，第一组设备为同一网络中的设备，反馈信息用于指示第一组设备中对应的设备是否响应于第一唤醒音频唤醒交互功能，所述原始信号为设备接收到的第一唤醒音频后转化出的音频信号；根据第一组反馈信息从第一组设备中确定唤醒了交互功能的设备，共得到第二组设备，并在第一组原始信号中确定第二组设备生成的原始信号，共得到第二组原始信号；根据第二组设备中的设备的数量，从预设的一组噪音消除方式中确定目标噪音消除方式；使用目标噪音消除方式对第二组原始信号进行噪音消除处理，得到一组降噪信号；根据一组降噪信号，在第二组设备中确定目标设备，并控制目标设备播放与第一唤醒音频对应的第二音频，以及控制第二组设备中除第二目标设备之外的设备静音，即在分布式处理场景下，确定目标区域内对应的多个设备中对目标对象发出的第一唤醒音频信号做出反馈的设备的原始信号，并对该原始信号进行噪音消除处理，得到对应的降噪信号，并通过降噪信号从多个存在反馈的目标设备中确定最终的目标设备；采用上述技术方案，解决了相关技术中，在复杂场景下，无法准确且快速的从多个设备中确定出响应的设备等问题，实现了能够在复杂场景下可以从存在响应的多个设备中确定出最终与目标对象进行交互的目标设备，并提升了后续以信号的幅值/能量作为判别准则的方案的有效性的技术效果。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例的一种分布式语音唤醒方法的硬件环境示意图；

图2是根据本申请实施例的一种分布式语音唤醒方法的流程图；

图3是根据本申请可选实施例的选用波束形成的计算流程图；

图4是根据本申请可选实施例的选用声源分离的计算流程图；

图5是根据本申请实施例的一种可选的分布式语音唤醒装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例的一个方面，提供了一种分布式语音唤醒方法。该分布式语音唤醒方法广泛应用于智慧家庭(Smart Home)、智能家居、智能家用设备生态、智慧住宅(Intelligence House)生态等全屋智能数字化控制应用场景。可选地，在本实施例中，上述分布式语音唤醒方法可以应用于如图1所示的由终端设备102、服务器104和摄像设备106所构成的硬件环境中。如图1所示，服务器104通过网络与终端设备102进行连接，可用于为终端或终端上安装的客户端提供服务(如应用服务等)，可在服务器上或独立于服务器设置数据库，用于为服务器104提供数据存储服务，可在服务器上或独立于服务器配置云计算和/或边缘计算服务，用于为服务器104提供数据运算服务。

上述网络可以包括但不限于以下至少之一：有线网络，无线网络。上述有线网络可以包括但不限于以下至少之一：广域网，城域网，局域网，上述无线网络可以包括但不限于以下至少之一：WIFI(Wireless Fidelity，无线保真)，蓝牙。终端设备102可以并不限定于为PC、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等。

在本实施例中提供了一种分布式语音唤醒方法，应用于上述摄像设备，图2是根据本申请实施例的一种可选的分布式语音唤醒方法的流程图，该流程包括如下步骤：

步骤S202，在确定第一组设备接收到第一唤醒音频的情况下，获取所述第一组设备中的每个设备根据所述第一唤醒音频生成的原始信号，共得到第一组原始信号，以及获取所述第一组设备中的每个设备对于所述第一唤醒音频的反馈信息，共得到第一组反馈信息，其中，所述第一组设备为同一网络中的设备，所述反馈信息用于指示所述第一组设备中对应的设备是否响应于所述第一唤醒音频唤醒交互功能，所述原始信号为设备接收到的第一唤醒音频后转化出的音频信号；

步骤S204，根据所述第一组反馈信息从所述第一组设备中确定唤醒了所述交互功能的设备，共得到第二组设备，并在所述第一组原始信号中确定所述第二组设备生成的原始信号，共得到第二组原始信号；

步骤S206，根据所述第二组设备中的设备的数量，从预设的一组噪音消除方式中确定目标噪音消除方式；

步骤S208，使用所述目标噪音消除方式对所述第二组原始信号进行噪音消除处理，得到一组降噪信号；

步骤S210，根据所述一组降噪信号，在所述第二组设备中确定目标设备，并控制所述目标设备播放与所述第一唤醒音频对应的第二音频，以及控制所述第二组设备中除第二目标设备之外的设备静音。

通过上述步骤，在确定第一组设备接收到第一唤醒音频的情况下，获取第一组设备中的每个设备根据第一唤醒音频生成的原始信号，共得到第一组原始信号，以及获取第一组设备中的每个设备对于第一唤醒音频的反馈信息，共得到第一组反馈信息，其中，第一组设备为同一网络中的设备，反馈信息用于指示第一组设备中对应的设备是否响应于第一唤醒音频唤醒交互功能，所述原始信号为设备接收到的第一唤醒音频后转化出的音频信号；根据第一组反馈信息从第一组设备中确定唤醒了交互功能的设备，共得到第二组设备，并在第一组原始信号中确定第二组设备生成的原始信号，共得到第二组原始信号；根据第二组设备中的设备的数量，从预设的一组噪音消除方式中确定目标噪音消除方式；使用目标噪音消除方式对第二组原始信号进行噪音消除处理，得到一组降噪信号；根据一组降噪信号，在第二组设备中确定目标设备，并控制目标设备播放与第一唤醒音频对应的第二音频，以及控制第二组设备中除第二目标设备之外的设备静音，即在分布式处理场景下，确定目标区域内对应的多个设备中对目标对象发出的第一唤醒音频信号做出反馈的设备的原始信号，并对该原始信号进行噪音消除处理，得到对应的降噪信号，并通过降噪信号从多个存在反馈的目标设备中确定最终的目标设备；采用上述技术方案，解决了相关技术中，在复杂场景下，无法准确且快速的从多个设备中确定出响应的设备等问题，实现了能够在复杂场景下可以从存在响应的多个设备中确定出最终与目标对象进行交互的目标设备，并提升了后续以信号的幅值/能量作为判别准则的方案的有效性的技术效果。

可选的，上述外噪信号指处于同一组网内的组内其他设备自播时，某设备接收到的噪声对应的信号。上述自噪信号是设备在运行时设备本身所产生噪音对应的信号。

需要说明的是，波束形成使用于多麦场景，可以是多麦的声源定位比较准确的情况，也可以是多麦的波束效果较好的情况，如主瓣宽度小。

可选的，如果用户(相当于本发明实施例中的目标对象)和设备A在同一角度时，此时估计的外噪会有唤醒词，导致信号抵消。此时，可用麦克风信号来计算统计能量。判断的方法，可选的，麦克风信号和估计外噪的信号分别接一个唤醒模块，当后者打分接近甚至大于前者时，可认为用户和设备A在同一角度。

波束形成；波束形成对多路信号合并处理，可以抑制非目标方向的干扰信号，增强目标方向的声音信号。本发明可选实施例建议在设备麦克风个数在4个及以上时，外噪消除方法使用波束形成方法。流程如下：步骤一：用户端校准。设备的相对位置变动时，设备A到B的传播路径也会发生变化。一旦位置改变，可打开自定义校准模块：开启后，设备A自动播放一段音乐或者其他，设备B计算A的相对位置。(注：声源位置计算可用music、gcc_phat、tdoa、aml等算法)。步骤二:信号降噪：首先，设备B以A方向做波束形成(如mvdr，或者gsc结构)，可以得到估计的外噪；然后，用自适应滤波技术(如NLMS)从麦克风信号中过滤出外噪。

为了更好的理解上述分布式语音唤醒方法的过程，以下再结合可选实施例对上述分布式语音唤醒方法的实现方法流程进行说明，但不用于限定本申请实施例的技术方案。

相关技术中，安静场景下，可以利用信号的幅值/能量作为判别准则。由于声波的衰减，距离近的设备信号幅值大于远端设备。但是，复杂场景下，原始信号幅值作为判别准则不再准确。虽然接收信号可以表示为y(t)＝w(t)+n(t)，即带噪信号等于唤醒词w和噪声的线性相加。但带噪信号幅值不等于二者幅值的线性相加，

所以简单的能量校准无法实现。

可选的，本发明可选实施例提出一种用于有自噪场景分布式判决的前端信号处理装置，协同多台设备的信息，对自噪设备信号进行回声消除等操作，外噪信号进行去噪，得到各自的干净信号，再根据幅值作为判别准则。可选的，前端信号处理装置中可以包括：回声消除模块、声源定位模块、波束形成模块、声源分离模块、去混响模块等。上述不同模块的应用如以下内容所述。

作为一种可选的实施方式，在自噪场景分布式判决的情况下，对处于同一组网下的多个语音设备(相当于上述实施例中的目标设备)，在利用信号的幅值/能量作为判别准则，确定出待响应的设备之前，对不同的语音设备进行交互过程中的产生信号中的自噪信号的消除以及对其他设备对该设备产生影响的夹杂在音频对应的原始信号中的外噪信号进行消除，得到不同的语音设备在交互过程中的干净信号，继而再根据幅值作为判别准则，确定出最终的响应交互的目标设备。

例如，假设用设备A表示自播设备，设备B表示接收外噪的设备。在进行对应的噪音信号处理时，分为以下情况：

自噪处理方式：对于设备中的原始信号中携带的自噪信号，通过自噪消除的方式进行，具体的，利用回声消除技术。可选的，通过Multi-delayblock frequencydomainadaptive filter的自适应滤波器对原始信号进行处理，滤除原始信号中携带的自噪信号。需要说明的是，如果原始信号中的自噪信号为非线性回声部分，则可用模型/非线性方法去除，对此，本发明可选实施例不作过多限定。

外噪处理方式：对于设备中的原始信号中携带的外噪信号，可选的，波束形成或者声源分离。使用不同的方法，计算流程有差异。具体如下：

方式一：波束形成；波束形成对多路信号合并处理，可以抑制非目标方向的干扰信号，增强目标方向的声音信号。本发明可选实施例建议在设备麦克风个数在4个及以上时，外噪消除方法使用波束形成方法。流程如下：

步骤一：用户端校准。设备的相对位置变动时，设备A到B的传播路径也会发生变化。一旦位置改变，可打开自定义校准模块：开启后，设备A自动播放一段音乐或者其他，设备B计算A的相对位置。(注：声源位置计算可用music、gcc_phat、tdoa、aml等算法)。

步骤二:信号降噪：首先，设备B以A方向做波束形成(如mvdr，或者gsc结构)，可以得到估计的外噪；然后，用自适应滤波技术(如NLMS)从麦克风信号中过滤出外噪。

图3是根据本申请可选实施例的选用波束形成的计算流程图；步骤如下：

步骤S402：进行设备A与设备B之间的声源估计；

步骤S404：确定设备A与设备B二者分别接收到的目标对象发出的音频对应的原始信号；

步骤S406：对原始信号执行回声消除(AEC)，得到设备A与设备B对应的去回声信号；

步骤S408：确定设备A中是否还具有回声，在确定的情况下，估计设备B产生的估计外噪对设备A中信号的影响，并使用自适应滤波技术(如NLMS)从设备A的去回声信号中过滤估计外噪。

步骤S410：确定设备A、设备B分别对应的不包含噪音的干净信号，确定设备A、设备B对应的信号幅值/能量进行比较，确定出信号幅值/能量较大的一方作为最终响应用户的设备。

方式二：声源分离；当设备麦克风个数较少时，波束形成效果较差，如主瓣较宽，拾音范围大，估计的外噪含有部分唤醒词，导致信号抵消。本发明可选实施例，建议在麦克风个数为2时，利用AUX-IVA方法进行声源分离。该方法设计复数矩阵求逆计算，2*2矩阵求逆有解析解，计算量较小。当麦克风个数较多时，如4*4，6*6，计算量很大，无法实时计算。此外，混响成分对声源分离影响较大，可用WPE算法先进行去混响操作。

可以理解的是，利用AUX-IVA方法会得到两路输出，一路为噪声，一路为干净信号，由于置换问题，无法得知具体哪一路是噪声或者干净信号。因此，需要对不同通道的信号进行处理后再次选择。

可选的，在进行通道选择时，可以将每一路信号接一个唤醒模块，唤醒打分高的一路输出为干净信号，但该方法计算量大。还可以计算两通道的能量E1，E2；设备A分别计算麦克风信号mic，去回声后信号aec，估计回声信号spk分别对应的能量。此方法需要自校准，例如，设备A自动播放一段音乐或者其他，设备B原始信号能量E_B只受A回声的影响，求得

使用时，步骤如下：(1)E_mic和E_spk接近，且E_aec较小时，可判断此时播放声音小，E1和E2选大者；(2)计算α_A→B*E_spk，E1和E2接近α_A→B*E_spk者可认为是分离的回声。

当有唤醒触发时，统计一定时间内的信号能量:

其中，下缀clean表示降噪后的信号，T表示统计时段，X表示stft之后的频域信号，fh为统计最大频带，fl为最低频带。设备A和B的E_clean大者优先响应。

当E_spk小于一定阈值时，可认为该设备没有播放。

图4是根据本申请可选实施例的选用声源分离的计算流程图；步骤如下：

步骤S502：进行设备A与设备B之间的回声路径校准；

步骤S504：确定设备A与设备B二者分别接收到的目标对象发出的音频对应的原始信号；

步骤S506：对原始信号执行回声消除，得到设备A与设备B对应的去回声信号；

步骤S508：确定设备A中是否还具有回声，在确定回声的情况下，进行声源分离，并基于上述能量确定方式进行通道选择，确定出对应的回声信号；

步骤S510：确定设备A、设备B分别对应的不包含噪音的干净信号，确定设备A、设备B对应的信号幅值/能量进行比较，确定出信号幅值/能量较大的一方作为最终响应用户的设备。

综上，本发明可选实施例协同多台设备的信息，针对不同的设备，制定不同的外噪去除方法；协同唤醒模块选择估计的干净信号；去外噪时，可通过自校准模块获得先验信息，来辅助后续的信号处理，提高基于能量判决的准确性。即对设备信号进行回声消除、外噪信号进行去噪等操作，得到各自的干净信号，再根据幅值作为判别准则。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例的方法。

图5是根据本申请实施例的一种可选的分布式语音唤醒装置的结构框图；如图5所示，包括：

获取模块62，用于在确定第一组设备接收到第一唤醒音频的情况下，获取所述第一组设备中的每个设备根据所述第一唤醒音频生成的原始信号，共得到第一组原始信号，以及获取所述第一组设备中的每个设备对于所述第一唤醒音频的反馈信息，共得到第一组反馈信息，其中，所述第一组设备为同一网络中的设备，所述反馈信息用于指示所述第一组设备中对应的设备是否响应于所述第一唤醒音频唤醒交互功能，所述原始信号为设备接收到的第一唤醒音频后转化出的音频信号；

第一确定模块64，用于根据所述第一组反馈信息从所述第一组设备中确定唤醒了所述交互功能的设备，共得到第二组设备，并在所述第一组原始信号中确定所述第二组设备生成的原始信号，共得到第二组原始信号；

第二确定模块66，用于根据所述第二组设备中的设备的数量，从预设的一组噪音消除方式中确定目标噪音消除方式；

处理模块68，用于使用所述目标噪音消除方式对所述第二组原始信号进行噪音消除处理，得到一组降噪信号；

控制模块70，用于根据所述一组降噪信号，在所述第二组设备中确定目标设备，并控制所述目标设备播放与所述第一唤醒音频对应的第二音频，以及控制所述第二组设备中除第二目标设备之外的设备静音。

通过上述装置，在确定第一组设备接收到第一唤醒音频的情况下，获取第一组设备中的每个设备根据第一唤醒音频生成的原始信号，共得到第一组原始信号，以及获取第一组设备中的每个设备对于第一唤醒音频的反馈信息，共得到第一组反馈信息，其中，第一组设备为同一网络中的设备，反馈信息用于指示第一组设备中对应的设备是否响应于第一唤醒音频唤醒交互功能，所述原始信号为设备接收到的第一唤醒音频后转化出的音频信号；根据第一组反馈信息从第一组设备中确定唤醒了交互功能的设备，共得到第二组设备，并在第一组原始信号中确定第二组设备生成的原始信号，共得到第二组原始信号；根据第二组设备中的设备的数量，从预设的一组噪音消除方式中确定目标噪音消除方式；使用目标噪音消除方式对第二组原始信号进行噪音消除处理，得到一组降噪信号；根据一组降噪信号，在第二组设备中确定目标设备，并控制目标设备播放与第一唤醒音频对应的第二音频，以及控制第二组设备中除第二目标设备之外的设备静音，即在分布式处理场景下，确定目标区域内对应的多个设备中对目标对象发出的第一唤醒音频信号做出反馈的设备的原始信号，并对该原始信号进行噪音消除处理，得到对应的降噪信号，并通过降噪信号从多个存在反馈的目标设备中确定最终的目标设备；采用上述技术方案，解决了相关技术中，在复杂场景下，无法准确且快速的从多个设备中确定出响应的设备等问题，实现了能够在复杂场景下可以从存在响应的多个设备中确定出最终与目标对象进行交互的目标设备，并提升了后续以信号的幅值/能量作为判别准则的方案的有效性的技术效果。

本申请的实施例还提供了一种存储介质，该存储介质包括存储的程序，其中，上述程序运行时执行上述任一项的方法。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的程序代码：

S1，在确定第一组设备接收到第一唤醒音频的情况下，获取所述第一组设备中的每个设备根据所述第一唤醒音频生成的原始信号，共得到第一组原始信号，以及获取所述第一组设备中的每个设备对于所述第一唤醒音频的反馈信息，共得到第一组反馈信息，其中，所述第一组设备为同一网络中的设备，所述反馈信息用于指示所述第一组设备中对应的设备是否响应于所述第一唤醒音频唤醒交互功能，所述原始信号为设备接收到的第一唤醒音频后转化出的音频信号；

S2，根据所述第一组反馈信息从所述第一组设备中确定唤醒了所述交互功能的设备，共得到第二组设备，并在所述第一组原始信号中确定所述第二组设备生成的原始信号，共得到第二组原始信号；

S3，根据所述第二组设备中的设备的数量，从预设的一组噪音消除方式中确定目标噪音消除方式；

S4，使用所述目标噪音消除方式对所述第二组原始信号进行噪音消除处理，得到一组降噪信号；

S5，根据所述一组降噪信号，在所述第二组设备中确定目标设备，并控制所述目标设备播放与所述第一唤醒音频对应的第二音频，以及控制所述第二组设备中除第二目标设备之外的设备静音。

本申请的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算***来实现，它们可以集中在单个的计算***上，或者分布在多个计算***所组成的网络上，可选地，它们可以用计算***可执行的程序代码来实现，从而，可以将它们存储在存储***中由计算***来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种分布式语音唤醒方法，其特征在于，包括：

在确定第一组设备接收到第一唤醒音频的情况下，获取所述第一组设备中的每个设备根据所述第一唤醒音频生成的原始信号，共得到第一组原始信号，以及获取所述第一组设备中的每个设备对于所述第一唤醒音频的反馈信息，共得到第一组反馈信息，其中，所述第一组设备为同一网络中的设备，所述反馈信息用于指示所述第一组设备中对应的设备是否响应于所述第一唤醒音频唤醒交互功能，所述原始信号为设备接收到的第一唤醒音频后转化出的音频信号；

根据所述第一组反馈信息从所述第一组设备中确定唤醒了所述交互功能的设备，共得到第二组设备，并在所述第一组原始信号中确定所述第二组设备生成的原始信号，共得到第二组原始信号；

根据所述第二组设备中的设备的数量，从预设的一组噪音消除方式中确定目标噪音消除方式；

使用所述目标噪音消除方式对所述第二组原始信号进行噪音消除处理，得到一组降噪信号；

根据所述一组降噪信号，在所述第二组设备中确定目标设备，并控制所述目标设备播放与所述第一唤醒音频对应的第二音频，以及控制所述第二组设备中除第二目标设备之外的设备静音。

2.根据权利要求1所述的方法，其特征在于，根据所述第二组设备中的设备的数量，从预设的一组噪音消除方式中确定目标噪音消除方式，包括：

在所述第二组设备中的设备的数量大于或等于第一预设阈值的情况下，从所述一组噪音消除方式中确定第一噪音消除方式，其中，所述第一噪音消除方式用于通过预设的第一自适应滤波器从所述第二组原始信号中滤除自噪信号，以及通过第二自适应滤波器从所述第二组原始信号中滤除外噪信号，所述第二自适应滤波器是根据所述第二组设备之间的波束形成生成的滤波器；

在所述第二组设备中的设备的数量小于所述第一预设阈值的情况下，从所述一组噪音消除方式中确定第二噪音消除方式，其中，所述第二噪音消除方式用于通过所述第一自适应滤波器从所述第二组原始信号中滤除自噪信号，以及从所述第二组原始信号中滤除所述第二组设备之间通过声源分离确定的外噪信号。

3.根据权利要求2所述的方法，其特征在于，在所述从所述一组噪音消除方式中确定第一噪音消除方式之后，所述方法还包括：

统计经过所述第一噪音信号消除方式处理后的所述第二组设备对应的目标降噪信号的第一能量值；以及确定所述第一噪音信号消除方式滤除的所述第二组原始信号中外噪信号对应的第二能量值；

在所述第一能量值与所述第二能量值的差值低于第二预设阈值的情况下，确定目标对象与第二组设备处于同一角度；

在所述第一噪音信号消除方式处理后的目标第二组原始信号中添加预估信号，其中，所述预估信号为预设的用于平衡信号抵消的信号。

4.根据权利要求2所述的方法，其特征在于，在所述第二组设备中的设备的数量大于或等于第一预设阈值的情况下，从所述一组噪音消除方式中确定第一噪音消除方式之前，所述方法还包括：

确定所述第二组设备中的每个设备在目标区域中的位置信息，共得到一组位置信息；

通过所述一组位置信息确定所述第二组设备中每两个设备之间的相对位置；

基于所述相对位置确定所述第二组设备中的每个设备对应的第二自适应滤波器。

5.根据权利要求4所述的方法，其特征在于，通过所述一组位置信息确定所述第二组设备中每两个设备之间的相对位置，包括:

所述第二组设备中每个设备逐次进入校准模式，根据所述一组位置信息确定每个设备与其他设备之间的相对方向；

基于所述相对方向做波束形成，得到所述第二组设备中每两个设备之间的第一预估外噪和第二预估外噪；

在所述第一预估外噪和所述第二预估外噪相同的情况下，确定所述第二组设备中每两个设备之间的相对位置。

6.根据权利要求2所述的方法，其特征在于，在所述第二组设备中的设备的数量小于所述第一预设阈值的情况下，从所述一组噪音消除方式中确定第二噪音消除方式之前，所述方法还包括：

将所述第二组原始信号通过目标算法分解为第一子信号和第二子信号；

计算所述第一子信号对应的第三能量值，以及所述第二子信号对应的第四能量值；

将所述第三能量值、所述第四能量值中趋近于目标能量值的子信号确定为所述第二组原始信号对应的回声信号，并基于所述回声信号确定所述第二组原始信号中待滤除的外噪信号。

7.根据权利要求1所述的方法，其特征在于，根据所述一组降噪信号，在所述第二组设备中确定目标设备，包括：

在所述第二组设备中每一个设备均存在降噪信号的情况下，确定所述第二组设备中的每个设备对应的降噪信号的目标幅值，得到所述第二组设备对应的多个目标幅值；

将所述多个目标幅值从大到小依次排列，选择目标幅值最大的设备为响应设备，并将所述响应设备作为从所述第二组设备中确定目标设备，以与发出所述第一唤醒音频的目标对象进行交互。

8.一种分布式语音唤醒装置，其特征在于，包括：

获取模块，用于在确定第一组设备接收到第一唤醒音频的情况下，获取所述第一组设备中的每个设备根据所述第一唤醒音频生成的原始信号，共得到第一组原始信号，以及获取所述第一组设备中的每个设备对于所述第一唤醒音频的反馈信息，共得到第一组反馈信息，其中，所述第一组设备为同一网络中的设备，所述反馈信息用于指示所述第一组设备中对应的设备是否响应于所述第一唤醒音频唤醒交互功能，所述原始信号为设备接收到的第一唤醒音频后转化出的音频信号；

第一确定模块，用于根据所述第一组反馈信息从所述第一组设备中确定唤醒了所述交互功能的设备，共得到第二组设备，并在所述第一组原始信号中确定所述第二组设备生成的原始信号，共得到第二组原始信号；

第二确定模块，用于根据所述第二组设备中的设备的数量，从预设的一组噪音消除方式中确定目标噪音消除方式；

处理模块，用于使用所述目标噪音消除方式对所述第二组原始信号进行噪音消除处理，得到一组降噪信号；

控制模块，用于根据所述一组降噪信号，在所述第二组设备中确定目标设备，并控制所述目标设备播放与所述第一唤醒音频对应的第二音频，以及控制所述第二组设备中除第二目标设备之外的设备静音。

9.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行权利要求1至7中任一项所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行权利要求1至7中任一项所述的方法。