CN110288997A

CN110288997A - 用于声学组网的设备唤醒方法及***

Info

Publication number: CN110288997A
Application number: CN201910660543.9A
Authority: CN
Inventors: 周强
Original assignee: AI Speech Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2019-07-22
Filing date: 2019-07-22
Publication date: 2019-09-27
Anticipated expiration: 2039-07-22
Also published as: CN110288997B

Abstract

本发明实施例提供一种用于声学组网的设备唤醒方法。该方法包括：确定各类型的智能语音设备的增益参数；监听声学组网下的各智能语音设备，当智能语音设备被唤醒指令激活时，获取智能语音设备录制的音频以及唤醒指令的置信度；根据增益参数对各自录制的音频能量分析增益校准，根据各待选智能语音设备与用户的距离，待选智能语音设备与用户的方向；至少将各待选智能语音设备与用户的距离、方向以及唤醒指令的置信度输入至预先训练的神经网络中进行信息融合分析，唤醒用于反馈用户的智能设备。本发明实施例还提供一种用于声学组网的设备唤醒***。本发明实施例降低声学组网内智能语音的配置需求，有效确定反馈的目标声学设备，提升用户的交互体验。

Description

用于声学组网的设备唤醒方法及***

技术领域

本发明涉及智能语音交互领域，尤其涉及一种用于声学组网的设备唤醒方法及***。

背景技术

随着智能语音的快速发展，出现了越来越多的带有语音交互功能的智能设备供用户使用，例如，智能音箱、智能电视、智能故事机，甚至于比较高级的智能台灯都可以使用语音交互。这些设备响应于用户唤醒指令的唤醒后，与用户进行交互。

用户在选购智能语音设备时，会有一些“品牌信仰”，或是为了与已有的智能语音设备配套，会考虑购买相同的品牌的智能语音设备。由于相同品牌的智能语音设备的唤醒指令基本相同，例如这些智能语音设备的唤醒指令都为“小C小C”。当用户在配有多种相同品牌的智能设备的环境中，发出唤醒指令“小C小C”时，周围的多个智能设备都会被误激活，为了避免这一情况，会使用声学组网将这些设备配置在同一个组网下，通过声学组网来确定用于反馈用户的智能电子设备。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

为了确定用于反馈用户的智能电子设备，需要确定用户距各电子设备的位置，通常会使用远场声源定位方法或者采用多个麦克风阵列，利用唤醒段信号的声音强度，并利用波束形成算法计算信号的方位，再通过三角测量原理计算出用户的声源位置。但这些定位方法需要组网内的智能语音设备具有超声***用来测量距离，声学组网内的智能语音设备由于类型各不相同，难以满足这种配置要求，并且鲁棒性较差，可能会调度不符合用户期望(距离用户较远，或方向不对应)的智能语音设备进行反馈，难以应用于真实语音设备组网***。

发明内容

为了至少解决现有技术中用于声学组网的设备要求比较高，鲁棒性较差，难以应用于真实语音设备组网***的问题。

第一方面，本发明实施例提供一种用于声学组网的设备唤醒方法，包括：

通过预设标准训练语音对同一声学组网协议下各不同类型的智能语音设备进行增益校准，确定各类型的智能语音设备的增益参数；

监听所述声学组网下的各智能语音设备，当至少一台智能语音设备被用户的唤醒指令激活时，获取各激活中待选的智能语音设备录制的音频以及各待选的智能语音设备识别所述唤醒指令的置信度；

根据各待选的智能语音设备的增益参数对各自录制的音频进行能量分析增益校准，至少根据对增益校准后的音频进行直达声和混响比分析确定各待选智能语音设备与所述用户的距离，对增益校准后的音频进行高低频一致性分析，确定所述待选智能语音设备与用户的方向；

至少将所述各待选智能语音设备与所述用户的距离、方向以及唤醒指令的置信度输入至预先训练的神经网络中进行信息融合分析，唤醒用于反馈用户的智能设备。

第二方面，本发明实施例提供一种用于声学组网的设备唤醒***，包括：

增益参数确定程序模块，用于通过预设标准训练语音对同一声学组网协议下各不同类型的智能语音设备进行增益校准，确定各类型的智能语音设备的增益参数；

置信度确定程序模块，用于监听所述声学组网下的各智能语音设备，当至少一台智能语音设备被用户的唤醒指令激活时，获取各激活中待选的智能语音设备录制的音频以及各待选的智能语音设备识别所述唤醒指令的置信度；

参数确定程序模块，用于根据各待选的智能语音设备的增益参数对各自录制的音频进行能量分析增益校准，至少根据对增益校准后的音频进行直达声和混响比分析确定各待选智能语音设备与所述用户的距离，对增益校准后的音频进行高低频一致性分析，确定所述待选智能语音设备与用户的方向；

唤醒程序模块，用于至少将所述各待选智能语音设备与所述用户的距离、方向以及唤醒指令的置信度输入至预先训练的神经网络中进行信息融合分析，唤醒用于反馈用户的智能设备。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于声学组网的设备唤醒方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的用于声学组网的设备唤醒方法的步骤。

本发明实施例的有益效果在于：根据在配网中的增益测量，确定不同设备的增益参数，缓解各智能语音设备所搭载的麦克风和声学结构的差异以及录制音频幅度存在的误差，降低声学组网内智能语音的配置需求。通过训练的神经网络融合分析，考虑多个维度，有效确定反馈的目标声学设备，提升用户的交互体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种用于声学组网的设备唤醒方法的流程图；

图2是本发明一实施例提供的一种用于声学组网的设备唤醒***的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种用于声学组网的设备唤醒方法的流程图，包括如下步骤：

S11：通过预设标准训练语音对同一声学组网协议下各不同类型的智能语音设备进行增益校准，确定各类型的智能语音设备的增益参数；

S12：监听所述声学组网下的各智能语音设备，当至少一台智能语音设备被用户的唤醒指令激活时，获取各激活中待选的智能语音设备录制的音频以及各待选的智能语音设备识别所述唤醒指令的置信度；

S13：根据各待选的智能语音设备的增益参数对各自录制的音频进行能量分析增益校准，至少根据对增益校准后的音频进行直达声和混响比分析确定各待选智能语音设备与所述用户的距离，对增益校准后的音频进行高低频一致性分析，确定所述待选智能语音设备与用户的方向；

S14：至少将所述各待选智能语音设备与所述用户的距离、方向以及唤醒指令的置信度输入至预先训练的神经网络中进行信息融合分析，唤醒用于反馈用户的智能设备。

在本实施方式中，组网技术就是网络组建技术，计算机网络的类型有很多，根据不同的组网技术有不同的分类依据，其中，声学网络就是专门由智能语音设备组建的专属网络。

在声学组网中的各智能语音设备反馈用户时，如果声学组网调度了距离用户较远、或者单单考虑距离，而不关心用户说话的朝向、或者一些其他因素，虽然调度的资源也可以通过智能语音设备反馈给用户，但是由于所调度的智能语音设备与用户距离远、方向背对、或是其他情况，都会在一定程度上影响用户的体验。

对于步骤S11，由于组网内各智能语音设备的类型各不相同，例如，智能音箱、智能电视、智能故事机、智能台灯，这些设备所搭载的麦克风和声学结构不一样，所以录进来的音频幅度也存在这一些差别，所以首先要对声学组网中的不同设备进行增益测量，将这些设备增益到音频幅度相对相同的情况。通过预设标准训练语音，例如录制一段标准人声语音，作为标准训练语音，对同一声学组网协议下各不同类型的智能语音设备进行增益校准，其中，声学组网一般是可以有同组网协议的设备群，例如同一个品牌的智能语音设备有着同组网协议，在建立组网的过程中，将若干同一品牌的智能语音设备，放在一起，通过增益校验模式，根据录制一段标准人声语音，进而通过所述标准人声语音，对每一个智能语音设备进行增益校准，得到各自的增益参数。

对于步骤S12，在步骤S11中声学组网组建后，实时监听在所述声学组网下的智能语音设备，当至少一台智能语音设备被用户的唤醒指令激活，例如，例如用户在配备有智能电视、智能音箱、智能故事机的卧室中，用户说了句“小C小C”，这时，这三个智能设备被用户的唤醒指令激活。此时，声学组网获取各激活中待选的智能语音设备(也就是智能电视、智能音箱、智能故事机)所录制的音频，由于这三个智能设备与用户的位置各不相同，在收录音频时，收录的效果会有一定差距，因此，对于唤醒指令置信度的确定也各有不同。

对于步骤S13，通过在步骤S11确定的各自智能语音设备的增益参数，对在步骤S12中获取的智能语音设备录制的音频进行各自的能量分析增益校准，以使得各智能语音设备录制的音频处于同样的基准。分别根据对增益校准后的音频进行直达声和混响比分析，确定出各智能语音设备相对于用户的距离，再对增益校准后的音频进行高低频一致性的分析，确定出各智能语音设备各自相对于用户的方向。

对于步骤S14，至少将各待选智能语音设备与所述用户的距离、方向以及唤醒指令的置信度输入到预先训练的神经网络中进行信息融合分析。其中，神经网络是通过包含已知的智能语音设备与所述用户的距离、方向、唤醒指令的置信度以及确定反馈的智能设备的训练数据预先训练而得。例如：智能电视{置信度85％，距离2m，方向：正向}、智能音箱{置信度83％，距离1.8m，方向：背向}、智能故事机{置信度80％，距离2.5m，方向：背向}。最后，神经网络分别输出0.5、0.3、0.2。则唤醒用户反馈用户的智能设备为智能电视。其中，所述信息融合分析至少包括：通过决策树和/或支持向量机和/或最大似然进行信息融合分析。

通过该实施方式可以看出，根据在配网中的增益测量，确定不同设备的增益参数，缓解各智能语音设备所搭载的麦克风和声学结构差异以及录制音频幅度存在的误差，降低声学组网内智能语音的配置需求。通过训练的神经网络融合分析，考虑多个维度，有效确定反馈的目标声学设备，提升用户的交互体验。

作为一种实施方式，在本实施例中，所述方法还包括：

确定各待选的智能语音设备各自录制音频的信噪比，用于反应各待选的智能语音设备所录制音频的清晰程度；

至少将各待选的智能语音设备录制音频的清晰程度、各待选智能语音设备与所述用户的距离、方向以及唤醒指令的置信度输入至预先训练的神经网络中进行信息融合分析，唤醒用于反馈用户的智能设备。

在本实施方式中，将各待选的智能语音设备所录制音频的清晰程度，也作为确定唤醒智能语音设备的一个维度，信噪比狭义来讲是指放大器的输出信号的功率与同时输出的噪声功率的比，常常用分贝数表示，设备的信噪比越高表明它产生的噪声越少。一般来说，信噪比越大，说明混在信号里的噪声越小，声音回放的音质量越高，否则相反。信噪比一般不应该低于70dB，高保真音箱的信噪比应达到110dB以上。

同样的，在训练神经网络时，训练数据中也要加入信噪比这一参数进行训练。

通过该实施方法可以看出，考虑更多的维度，更加有效确定反馈的目标声学设备，提高用户的体验。

作为一种实施方式，在本实施例中，所述方法还包括：

在所述同一声学组网协议下各不同类型的智能语音设备建立空间坐标系，分别向各智能语音设备发送发音指令；

基于所述各智能语音设备根据所述发音指令的发音，确定所述各智能语音设备在所述空间坐标系中的坐标，根据用户的唤醒指令的发音，确定用户在所述空间坐标系中的坐标；

至少将所述各待选智能语音设备与所述用户的坐标、方向以及唤醒指令的置信度输入至预先训练的神经网络中进行信息融合分析，唤醒用于反馈用户的智能设备。

在本实施方式中，为了反馈更加精确，在所述同一声学组网协议下各不同类型的智能语音设备建立空间坐标系，再通过各智能语音设备依次发声进行互相定位，进而确定出在所述空间坐标系中各智能语音设备的坐标。同样的，当用户发音时，再通过用户与各智能语音设备的距离，确定出用户在所述空间坐标系中的坐标。

同样的，在训练神经网络时，训练数据中也要加入坐标这一参数进行训练。

通过该实施方法可以看出，相较于距离，坐标对于空间的把握更加精确，更加有效确定反馈的目标声学设备，提高用户的体验。

如图2所示为本发明一实施例提供的一种用于声学组网的设备唤醒***的结构示意图，该***可执行上述任意实施例所述的用于声学组网的设备唤醒方法，并配置在终端中。

本实施例提供的一种用于声学组网的设备唤醒***包括：增益参数确定程序模块11，置信度确定程序模块12，参数确定程序模块13和唤醒程序模块14。

其中，增益参数确定程序模块11用于通过预设标准训练语音对同一声学组网协议下各不同类型的智能语音设备进行增益校准，确定各类型的智能语音设备的增益参数；置信度确定程序模块12用于监听所述声学组网下的各智能语音设备，当至少一台智能语音设备被用户的唤醒指令激活时，获取各激活中待选的智能语音设备录制的音频以及各待选的智能语音设备识别所述唤醒指令的置信度；参数确定程序模块13用于根据各待选的智能语音设备的增益参数对各自录制的音频进行能量分析增益校准，至少根据对增益校准后的音频进行直达声和混响比分析确定各待选智能语音设备与所述用户的距离，对增益校准后的音频进行高低频一致性分析，确定所述待选智能语音设备与用户的方向；唤醒程序模块14用于至少将所述各待选智能语音设备与所述用户的距离、方向以及唤醒指令的置信度输入至预先训练的神经网络中进行信息融合分析，唤醒用于反馈用户的智能设备。

进一步地，所述参数确定程序模块还用于：

所述唤醒程序模块还用于，至少将各待选的智能语音设备录制音频的清晰程度、各待选智能语音设备与所述用户的距离、方向以及唤醒指令的置信度输入至预先训练的神经网络中进行信息融合分析，唤醒用于反馈用户的智能设备。

进一步地，所述***还包括：

空间坐标建立程序模块，用于在所述同一声学组网协议下各不同类型的智能语音设备建立空间坐标系，分别向各智能语音设备发送发音指令；

坐标确定程序模块，用于基于所述各智能语音设备根据所述发音指令的发音，确定所述各智能语音设备在所述空间坐标系中的坐标，根据用户的唤醒指令的发音，确定用户在所述空间坐标系中的坐标；

所述唤醒程序模块还用于，至少将所述各待选智能语音设备与所述用户的坐标、方向以及唤醒指令的置信度输入至预先训练的神经网络中进行信息融合分析，唤醒用于反馈用户的智能设备。

进一步地，所述信息融合分析至少包括：通过决策树和/或支持向量机和/或最大似然进行信息融合分析，以唤醒用于反馈用户的智能设备。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于声学组网的设备唤醒方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的测试软件的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的用于声学组网的设备唤醒方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据测试软件的装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至测试软件的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于声学组网的设备唤醒方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有智能语音功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于声学组网的设备唤醒方法，包括：

2.根据权利要求1所述的方法，其中，所述方法还包括：

3.根据权利要求1所述的方法，其中，所述方法还包括：

4.根据权利要求1所述的方法，其中，所述信息融合分析至少包括：通过决策树和/或支持向量机和/或最大似然进行信息融合分析，以唤醒用于反馈用户的智能设备。

5.一种用于声学组网的设备唤醒***，包括：

6.根据权利要求5所述的***，其中，所述参数确定程序模块还用于：

7.根据权利要求5所述的***，其中，所述***还包括：

8.根据权利要求5所述的***，其中，所述信息融合分析至少包括：通过决策树和/或支持向量机和/或最大似然进行信息融合分析，以唤醒用于反馈用户的智能设备。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。