CN114038457A

CN114038457A - 用于语音唤醒的方法、电子设备、存储介质和程序

Info

Publication number: CN114038457A
Application number: CN202111301630.9A
Authority: CN
Inventors: 汤志远
Original assignee: Beijing Fangjianghu Technology Co Ltd
Current assignee: Seashell Housing Beijing Technology Co Ltd
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2022-02-11
Anticipated expiration: 2041-11-04
Also published as: CN114038457B

Abstract

本公开实施例公开了一种用于语音唤醒的方法、电子设备、存储介质和计算机程序，其中，方法包括：响应于待唤醒语音，将待唤醒语音输入预训练的目标特征提取模型，得到待唤醒语音的目标音素特征向量；确定目标音素特征向量分别与预设的各注册语音的音素特征向量之间的相似度，各注册语音包括多个语言类型的语音数据；响应于存在大于预设阈值的相似度，发送唤醒指令，唤醒指令用于唤醒目标设备。支持多种语言类型的语音唤醒操作，提高了语音唤醒的适用范围和灵活性。

Description

用于语音唤醒的方法、电子设备、存储介质和程序

技术领域

本公开涉及语音技术领域，尤其是一种用于语音唤醒的方法、电子设备、存储介质和计算机程序。

背景技术

随着语音技术的飞速发展，智能语音交互设备广泛应用于智能家居、银行、商场等场景中，其中语音唤醒环节是整个语音交互流程中的重要一环，语音唤醒的反应速度和准确度直接关系到语音交互的客户体验。

相关技术中，语音唤醒的方法包括基于语音识别的唤醒方法、端到端唤醒方法以及模板匹配方法。其中，基于语音识别的唤醒方法，首先通过语音识别将待唤醒语音片段转换为文本，再与预设的唤醒文本比对，若两者匹配则执行唤醒操作，反之，则不执行唤醒操作；对于端到端唤醒方法，需要预先针对特定的唤醒词训练分类器，该分类器直接对输入的语音进行识别以确定是否为唤醒词，不需要将语音转化为文本；对于模板匹配方法，需要借助声学模型将特定语言类型的待唤醒语音和注册语音转换为隐空间特征，再进行二者之间的相似度计算。

发明内容

本公开实施例提供一种用于语音唤醒的方法、电子设备、存储介质和计算机程序，以提高语音识别的适用范围和灵活性。

本公开实施例的一个方面，提供一种用于语音唤醒的方法，包括：响应于待唤醒语音，将待唤醒语音输入预训练的目标特征提取模型，得到待唤醒语音的目标音素特征向量；确定目标音素特征向量分别与预设的各注册语音的音素特征向量之间的相似度，各注册语音包括多个语言类型的语音数据；响应于存在大于预设阈值的相似度，发送唤醒指令，唤醒指令用于唤醒目标设备。

在一些实施例中，各注册语音的音素特征向量经由如下步骤得到：获取各注册语音；将各注册语音分别输入目标特征提取模型，得到各注册语音的音素特征向量。

在一些实施例中，将待唤醒语音输入预训练的目标特征提取模型包括：对待唤醒语音进行预处理，得到处理后的待唤醒语音，其中，预处理至少包括以下之一：关键词提取、降噪、回声消除、去混淆；将处理后的待唤醒语音输入目标特征提取模型。

在一些实施例中，目标特征提取模型经由如下步骤训练得到：获取多种语言类型的无标注语音数据；将无标注语音数据作为样本语音，输入预先构建的初始特征提取模型，采用自监督的方式训练初始特征提取模型，得到目标特征提取模型。

在一些实施例中，确定目标音素特征向量分别与预设的各注册语音的音素特征向量之间的相似度，包括：若目标音素特征向量与注册语音的音素特征向量的长度不同，则对目标音素特征向量与注册语音的音素特征向量进行平均化处理，得到长度相同的特征向量对；将特征向量对的余弦距离确定为目标音素特征向量与注册语音的音素特征向量的相似度；若目标音素特征向量与注册语音的音素特征向量的长度相同，则将目标音素特征向量与注册语音的音素特征向量的余弦距离确定为目标音素特征向量与注册语音的音素特征向量的相似度。

在一些实施例中，确定目标音素特征向量分别与预设的各注册语音的音素特征向量之间的相似度，包括：将目标音素特征向量与注册语音的音素特征向量拼接，得到拼接后的特征向量；将拼接后的特征向量输入预训练的目标神经网络，确定出目标音素特征向量与注册语音的音素特征向量的相似度；若所述相似度大于所述预设阈值，输出第一数值；若相似度小于或等于预设阈值，输出第二数值；以及，响应于存在大于预设阈值的相似度，发送唤醒指令，包括：响应于第一数值，发送唤醒指令。

在一些实施例中，目标神经网络经由如下步骤训练得到：获取包含有预设唤醒词的样本语音，每个唤醒词对应有多个不同发声对象产生的样本语音；基于样本语音，构建样本语音对；将属于同一个唤醒词的两个样本语音构成的样本语音对的样本标签确定为第一数值，将属于不同唤醒词的两个样本语音构成的样本语音对的样本标签确定为第二数值；将样本语音对输入预先构建的初始神经网络，将样本标签作为期望输出，训练初始神经网络，得到目标神经网络。

本公开的实施例的又一个方面，提供一种电子设备，包括：存储器，用于存储计算机程序；处理器，用于执行存储器中存储的计算机程序，且计算机程序被执行时，实现上述任一实施例中的用于语音唤醒的方法。

本公开的实施例的又一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现上述任一实施例中的用于语音唤醒的方法。

本实施例中的用于语音唤醒的方法，通过目标特征提取模型提取待唤醒语音的目标音素特征向量，然后分别确定目标音素特征向量与各种语言类型的注册语音的音素特征向量的相似度，当存在大于预设阈值的相似度时，发送唤醒指令以唤醒目标设备，支持多种语言类型的语音唤醒操作，提高了语音唤醒的适用范围和灵活性。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同描述一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1为本公开的用于语音唤醒的方法一个应用场景示意图；

图2为本公开的用于语音唤醒的方法的一个实施例的流程示意图；

图3为本公开的用于语音唤醒的方法的又一个实施例的流程示意图；

图4为本公开的用于语音唤醒的方法的一个实施例中训练目标神经网络的流程示意图；

图5为本公开的用于语音唤醒的装置的一个实施例的结构示意图；

图6为本公开电子设备一个应用实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机***、服务器等电子设备，其可与众多其它通用或专用计算***环境或配置一起操作。适于与终端设备、计算机***、服务器等电子设备一起使用的众所周知的终端设备、计算***、环境和/或配置的例子包括但不限于：个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***﹑大型计算机***和包括上述任何***的分布式云计算技术环境，等等。

终端设备、计算机***、服务器等电子设备可以在由计算机***执行的计算机***可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算***存储介质上。

本公开概述

在实现本公开的过程中，发明人发现，基于语音识别的唤醒方法严重依赖于语音识别模型，不同类型的语言需要不同的语音识别模型；端到端唤醒方法只能适用一个唤醒词，更新唤醒词则需要重新训练一个新的模型；模板匹配方法则局限于一种语言类型。

相关技术中的语音唤醒方法面对不同类型的语言的适用能力较差，灵活性较低。

示例性概述

音素(phone)是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个发音动作构成一个音素。每种语言都有其特有的音素组合方式，因而，音素可以适用于不同类型的语言。

下面结合图1对本公开的用于语音唤醒的方法进行示例性说明，图1示出了本公开的用于语音唤醒的方法的一个场景示意图，在图1所示的智能家居场景中，智能手机101可以通过网络与智能家电设备进行通信，以接收或发送指令。智能家电设备例如可以包括电视102、扫地机器人103。

本公开的用于语音唤醒的方法可以运行于智能手机101上，用户可以通过向智能手机101发送语音指令以实现唤醒操作。例如，用户可以向智能手机101发送语音“打开电视”，智能手机101接收到待唤醒语音104之后，可以将该待唤醒语音104输入目标特征提取模型105中，得到目标音素特征向量106；之后，智能手机101可以计算目标音素特征向量106分别与预先设置的多个注册语音的音素特征向量107之间的相似度108，注册语音可以包括多种语言类型，例如可以包括多个语种或地方方言，可以理解的是，注册语音可以包括多个目标设备的唤醒词，例如可以包括唤醒电视102的注册语音和唤醒扫地机器人103的注册语音；然后，智能手机101可以将相似度108与预设阈值109进行对比，若相似度108中存在大于预设阈值109的相似度数值，则向电视102发送唤醒指令，以唤醒电视102。从而完成了对目标设备(电视102)的语音唤醒操作。

在另一个应用场景中，本公开的用于语音唤醒的方法运行于其上的电子设备还可以对自身进行唤醒操作，例如图1中电视102可以作为执行主体，用户可以直接对电视102发送待唤醒语音，当电视102接收到待唤醒语音后，通过执行上述的相应步骤唤醒自身。

示例性方法

下面参考图2，图2示出了本公开的用于语音唤醒的方法的一个实施例的流程示意图，该流程包括：

步骤210、响应于待唤醒语音，将待唤醒语音输入预训练的目标特征提取模型，得到待唤醒语音的目标音素特征向量。

在本实施例中，目标特征提取模型表征语音数据与音素特征之间的对应关系，目标特征提取模型例如可以采用自编码器或wav2vec模型。目标音素特征向量表征待唤醒语音的音素特征。

在一个具体的示例中，执行主体可以是智能语音机器人，当用户向智能语音机器人发送待唤醒语音时，智能语音机器人可以将接收到的待唤醒语音输入目标特征提取模型中，由目标特征提取模型生成待唤醒语音的隐空间向量，该隐空间向量即为待唤醒语音的目标音素特征向量。

需要说明的是，本实施例中目标音素特征向量可以是单个向量，也可以是多个向量组成的向量组，例如，一个待唤醒语音包括多个语音帧时，每个语音帧对应一个向量，则该待唤醒语音的目标音素特征量为多个向量组成的向量组。

步骤220、确定目标音素特征向量分别与预设的各注册语音的音素特征向量之间的相似度。

其中，各注册语音包括多个语言类型的语音数据。

在本实施例中，注册语音表征预先注册的可以唤醒设备的参照语音数据。语言类型例如可以包括语种(例如英语、德语、日语)，还可以包括方言。以智能家居场景为例，执行主体(例如可以是智能语音机器人、智能手机或具备语音接收功能的智能网关)可以通过网络对多个设备执行唤醒操作，此时，每个设备均可以对应一组注册语音，每组注册语音均可以包括多个语言类型，可以理解的是，不同设备的注册语音中的唤醒关键词也存在区别。

在本实施例中，目标音素特征向量与注册语音的音素特征向量之间的相似度可以表征待唤醒语音与注册语音之间的相似程度。

继续结合图1所示的场景进行举例说明，智能手机101中可以预存有多个注册语音的音素特征向量，注册语音例如可以包括：以“电视”为唤醒词的多个语言类型的注册语音以及以“扫地机器人”为唤醒词的多个语言类型的注册语音。作为示例，语言类型可以包括普通话和英语，则智能手机101中预存有4个注册语音的音素特征向量，注册语音包括以“电视”为唤醒词的两种语言的注册语音和以“扫地机器人”为唤醒词的两种语言的注册语音。

智能手机101可以计算目标音素特征向量分别与4个注册语音的音素特征向量之间的相似度，得到4个相似度数值。可以理解的是，与待唤醒语音的语言类型和唤醒词均相同的注册语音的音素特征向量所对应的相似度数值最高。

需要说明的是，本实施例中的目标音素特征向量与注册语音的音素特征向量的长度为预设长度，目标特征提取模型可以对隐空间向量进行均值或池化对处理，以输出预设长度的音素特征向量。

步骤230、响应于存在大于预设阈值的相似度，发送唤醒指令，唤醒指令用于唤醒目标设备。

在本实施例中，目标设备表征待唤醒语音指向的待唤醒设备。目标设备可以是执行主体本身(例如智能家居设备)，也可以是执行主体之外的其他设备，本公开对此不做限定。

作为示例，执行主体可以首先从步骤220中得到的多个相似度中选取出数值最高的相似度，然后对比该相似度与预设阈值，若该相似度不大于预设阈值，则说明待唤醒语音与注册语音的匹配程度不满足缓刑条件，此时不执行唤醒操作，以免误唤醒；若相似度大于预设阈值，则说明书待唤醒语音与注册语音的匹配程度满足唤醒条件，执行主体可以向目标设备发送唤醒指令，以执行唤醒操作。

在一个具体的示例中，当目标设备为执行主体自身时，执行主体可以向自身的控制单元发送唤醒指令。

在另一个具体的示例中，当目标设备为执行主体之外的其他设备时，执行主体可以预存有注册语音与待唤醒设备的对应关系，执行主体可以将相似度数值最高的注册语音对应的待唤醒设备确定为目标设备，之后，执行主体可以将唤醒指令发送至目标设备。再例如，执行主体可以从待唤醒语音中识别出唤醒词(例如可以是设备名称)，然后将该唤醒词指向的设备确定为目标设备。

在图2所示的实施例的一些可选的实现方式中，各注册语音的音素特征向量经由如下步骤得到：获取各注册语音；将各注册语音分别输入目标特征提取模型，得到各注册语音的音素特征向量。

在本实现方式中，可以通过目标特征提取模型预先生成多个注册语音的音素特征向量，如此一来，待唤醒语音的目标音素特征向量和各注册语音的音素特征向量的生成策略是相同的，可以更突出两者在音素层面上的区别，而避免引入其他维度的差异，有助于提高相似度的准确度。

在图2所示的实施例的一些可选的实现方式中，将待唤醒语音输入预训练的目标特征提取模型包括：对待唤醒语音进行预处理，得到处理后的待唤醒语音，其中，预处理至少包括以下之一：关键词提取、降噪、回声消除、去混淆；将处理后的待唤醒语音输入目标特征提取模型。

作为示例，执行主体可以采用语音识别算法，从待唤醒语音中提取出关键词所在的语音片段，然后将该语音片段输入目标特征提取模型，关键词例如可以是设备名称。

需要说明的是，本实现方式中的多种预处理方式，可以根据实际需求择一执行或组合运用，本公开对此不做限定。

在本实现方式中，可以对待唤醒语音进行预处理，将待唤醒语音中的噪声数据过滤掉，再输入目标特征提取模型，可以避免将噪声数据引入后续的音素特征的提取步骤中，可以提高音素特征向量对待唤醒语音在音素层面的特征的刻画准确度。

进一步地，在获取注册语音的音素特征向量时，将注册语音输入目标特征提取模型之前，可以先对注册语音执行上述预处理步骤，以提高注册语音的音素特征向量的准确度。

在图2所示的实施例的一些可选的实现方式中，目标特征提取模型经由如下步骤训练得到：获取多种语言类型的无标注语音数据；将无标注语音数据作为样本语音，输入预先构建的初始特征提取模型，采用自监督的方式训练初始特征提取模型，得到目标特征提取模型。

在本实现方式中，无标注语音数据是指没有标注文本的语音数据。

这里对目标特征提取模型的训练过程进行示例性描述，例如可以采用自编码器作为目标特征提取模型。执行主体可以将样本语音输入预先构建的初始目标特征提取模型，初始目标特征提取模型可以按照时序将样本语音分为两个语音片段，并将在线语音片段作为输入，将在后语音片段作为标签。之后，初始目标特征提取模型基于在先语音片段预测出后续的语音片段，并根据预测出的语音片段与标签的差异确定损失函数值，之后根据损失函数值调整模型参数，直至损失函数收敛，即可得到目标特征提取模型。

在本实现方式中，基于无标注语音，采用自监督的方式训练初始特征提取模型，可以使初始特征提取模型在训练阶段专注于提取样本语音在音素层面的特征，并且，样本语音包含了不同语言类型的语音数据，使得初始特征提取模型可以学习到不同语言类型的语音数据的音素特征提取策略，如此得到的目标特征提取模型可以适用于不同语言类型的语音数据。

在图2所示的实施例的一些可选的实现方式中，确定目标音素特征向量分别与预设的各注册语音的音素特征向量之间的相似度，包括：若目标音素特征向量与注册语音的音素特征向量的长度不同，则对目标音素特征向量与注册语音的音素特征向量进行平均化处理，得到长度相同的特征向量对；将特征向量对的余弦距离确定为目标音素特征向量与注册语音的音素特征向量的相似度；若目标音素特征向量与注册语音的音素特征向量的长度相同，则将目标音素特征向量与注册语音的音素特征向量的余弦距离确定为目标音素特征向量与注册语音的音素特征向量的相似度。

在本实现方式中，可以将向量的余弦距离作为目标音素特征向量与注册语音的音素特征向量的相似度，可以简化相似度的运算过程。

接着参考图3，图3示出了本公开的用于语音唤醒的又一个实施例的流程示意图，该流程包括：

步骤310、响应于待唤醒语音，将待唤醒语音输入预训练的目标特征提取模型，得到待唤醒语音的目标音素特征向量。

此步骤与前述步骤210相对应，此处不再赘述。

步骤320、将目标音素特征向量与注册语音的音素特征向量拼接，得到拼接后的特征向量。

步骤330、将拼接后的特征向量输入预训练的目标神经网络，确定出目标音素特征向量与注册语音的音素特征向量的相似度。

在本实施例中，目标神经网络用于确定目标音素特征向量与注册语音的音素特征向量的相似度，目标神经网络例如可以是前向神经网络、循环神经网络、卷积神经网络。

作为示例，执行主体可以分别将目标音素特征向量与各注册语音的音素特征向量拼接，得到多个拼接后的特征向量，然后依次将多个拼接后的特征向量输入目标神经网络，得到目标音素特征向量与各注册语音的音素特征向量的相似度。

之后，目标神经网络对比相似度与预设阈值，若所述相似度大于所述预设阈值，则执行步骤340、步骤350；若相似度小于或等于预设阈值，则执行步骤360。

步骤340、输出第一数值。

步骤350、响应于第一数值，发送唤醒指令。

步骤360、输出第二数值。

在本实施例中，目标神经网络的输出结果可以表征相似度与预设阈值的对比结果。其中，第一数值表征目标音素特征向量与各注册语音的音素特征向量的相似度大于预设阈值，即待唤醒语音满足唤醒条件，此时可以发送唤醒指令。第二数值则表征目标音素特征向量与各注册语音的音素特征向量的相似度小于或等于预设阈值，即待唤醒语音不满足唤醒条件。

作为示例，目标神经网络的输出层可以采用Sigmod函数，并采用Relu函数作为激活函数，其中，Sigmod函数用于将目标音素特征向量与各注册语音的音素特征向量的相似度数值映射至[0,1]的数值区间，Relu函数则用于对比相似度与预设阈值，若相似度大于预设阈值，则目标神经网络输出“1”，反之输出“0”。其中，第一数值为“1”，第二数值为“0”。当执行主体确定目标神经网络输出的结果为“1”时，可以向目标设备发送唤醒指令。

从图3可以看出，图3所示的实施例体现了通过神经网络确定目标音素特征向量与各注册语音的音素特征向量的相似度、并输出相似度与预设阈值的对比结果的步骤，可以提高运算效率，从而提高语音唤醒的反应速度。

接着参考图4，图4示出了图3所示的实施例中目标神经网络的训练步骤示意图，如图4所示，该流程包括：

步骤410、获取包含有预设唤醒词的样本语音，并确定样本语音的样本音素特征向量。

其中，每个唤醒词对应有多个不同发声对象产生的样本语音。

作为示例，样本语音可以包括以“电视”和“空调”为唤醒词的语音数据，其中，以“电视”为唤醒词的语音数据中又可以包括多个不同发声对象产生的语音，例如可以是不同人的原声或通过技术合成的语音。执行主体可以将样本语音输入前述的目标特征提取模型，确定出样本语音的样本音素特征向量，以此得到的同一个唤醒词的多个样本语音的样本音素特征向量之间的相似度较高。

步骤420、基于样本语音，构建样本语音对，并将构成样本语音对的两个样本语音的样本音素特征向量拼接为样本语音对的特征向量。

在本实施例中，执行主体可以将样本语音两两组合成样本语音对，然后将两个样本语音的样本音素特征向量拼接为样本语音对的特征向量。

步骤430、将属于同一个唤醒词的两个样本语音构成的样本语音对的样本标签确定为第一数值，将属于不同唤醒词的两个样本语音构成的样本语音对的样本标签确定为第二数值。

步骤440、将样本语音对的特征向量输入预先构建的初始神经网络，将样本语音对的样本标签作为期望输出，训练初始神经网络，得到目标神经网络。

在本实施例中，将样本标签作为期望输出，通过损失函数指导目标神经网络的训练过程，使得目标神经网络可以为同一个唤醒词的两个样本语音的音素特征向量之间的相似度赋予较高数值，而为不同唤醒词的两个样本语音的音素特征向量之间的相似度赋予较低数值。以此，可以提高目标神经网络对于音素特征的差异的敏感程度，进而提高目标神经网络确定不同音素特征向量之间的相似度的准确度。

示例性装置

接着参考图5，图5示出了本公开的用于语音唤醒的装置的一个实施例的结构示意图，如图5所示，该装置包括：特征提取单元510，被配置成响应于待唤醒语音，将待唤醒语音输入预训练的目标特征提取模型，得到待唤醒语音的目标音素特征向量；特征对比单元520，被配置成确定目标音素特征向量分别与预设的各注册语音的音素特征向量之间的相似度，各注册语音包括多个语言类型的语音数据；指令发送单元530，被配置成响应于存在大于预设阈值的相似度，发送唤醒指令，唤醒指令用于唤醒目标设备。

在一些实施例中，该装置还包括注册单元，被配置成：获取各注册语音；将各注册语音分别输入目标特征提取模型，得到各注册语音的音素特征向量。

在一些实施例中，特征对比单元520进一步包括：预处理模块，被配置成对待唤醒语音进行预处理，得到处理后的待唤醒语音，其中，预处理至少包括以下之一：关键词提取、降噪、回声消除、去混淆；输入模块，被配置成将处理后的待唤醒语音输入目标特征提取模型。

在一些实施例中，该装置还包括第一模型训练单元，被配置成：获取多种语言类型的无标注语音数据；将无标注语音数据作为样本语音，输入预先构建的初始特征提取模型，采用自监督的方式训练初始特征提取模型，得到目标特征提取模型。

在一些实施例中，特征对比单元520被进一步配置成：若目标音素特征向量与注册语音的音素特征向量的长度不同，则对目标音素特征向量与注册语音的音素特征向量进行平均化处理，得到长度相同的特征向量对；将特征向量对的余弦距离确定为目标音素特征向量与注册语音的音素特征向量的相似度；若目标音素特征向量与注册语音的音素特征向量的长度相同，则将目标音素特征向量与注册语音的音素特征向量的余弦距离确定为目标音素特征向量与注册语音的音素特征向量的相似度。

在一些实施例中，特征对比单元520被进一步配置成：将目标音素特征向量与注册语音的音素特征向量拼接，得到拼接后的特征向量；将拼接后的特征向量输入预训练的目标神经网络，确定出目标音素特征向量与注册语音的音素特征向量的相似度；若所述相似度大于所述预设阈值，输出第一数值；若相似度小于或等于预设阈值，输出第二数值；以及，响应于存在大于预设阈值的相似度，发送唤醒指令，包括：响应于第一数值，发送唤醒指令。

在一些实施例中，该装置还包括第二模型训练单元，被配置成：获取包含有预设唤醒词的样本语音，并确定样本语音的样本音素特征向量，每个唤醒词对应有多个不同发声对象产生的样本语音；基于样本语音，构建样本语音对，并将构成样本语音对的两个样本语音的样本音素特征向量拼接为样本语音对的特征向量；将属于同一个唤醒词的两个样本语音构成的样本语音对的样本标签确定为第一数值，将属于不同唤醒词的两个样本语音构成的样本语音对的样本标签确定为第二数值；将样本语音对的特征向量输入预先构建的初始神经网络，将样本语音对的样本标签作为期望输出，训练初始神经网络，得到目标神经网络。

另外，本公开实施例还提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现本公开上述任一实施例所述的用于语音唤醒的方法。

图6为本公开电子设备一个应用实施例的结构示意图。下面，参考图6来描述根据本公开实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

如图6所示，电子设备包括一个或多个处理器和存储器。

处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。

存储器可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器可以运行所述程序指令，以实现上文所述的本公开的各个实施例的用于语音唤醒的方法以及/或者其他期望的功能。

在一个示例中，电子设备还可以包括：输入装置和输出装置，这些组件通过总线***和/或其他形式的连接机构(未示出)互连。

此外，该输入设备还可以包括例如键盘、鼠标等等。

该输出装置可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图6中仅示出了该电子设备中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备还可以包括任何其他适当的组件。

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述部分中描述的根据本公开各种实施例的用于语音唤醒的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述部分中描述的根据本公开各种实施例的用于语音唤醒的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于***实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种用于语音唤醒的方法，其特征在于，包括：

响应于待唤醒语音，将所述待唤醒语音输入预训练的目标特征提取模型，得到所述待唤醒语音的目标音素特征向量；

确定所述目标音素特征向量分别与预设的各注册语音的音素特征向量之间的相似度，所述各注册语音包括多个语言类型的语音数据；

响应于存在大于预设阈值的相似度，发送唤醒指令，所述唤醒指令用于唤醒目标设备。

2.根据权利要求1所述的方法，其特征在于，所述各注册语音的音素特征向量经由如下步骤得到：

获取所述各注册语音；

将所述各注册语音分别输入所述目标特征提取模型，得到所述各注册语音的音素特征向量。

3.根据权利要求1所述的方法，其特征在于，将所述待唤醒语音输入预训练的目标特征提取模型，包括：

对所述待唤醒语音进行预处理，得到处理后的待唤醒语音，其中，所述预处理至少包括以下之一：关键词提取、降噪、回声消除、去混淆；

将所述处理后的待唤醒语音输入所述目标特征提取模型。

4.根据权利要求1至3之一所述的方法，其特征在于，所述目标特征提取模型经由如下步骤训练得到：

获取多种语言类型的无标注语音数据；

将所述无标注语音数据作为样本语音，输入预先构建的初始特征提取模型，采用自监督的方式训练所述初始特征提取模型，得到所述目标特征提取模型。

5.根据权利要求1至4之一所述的方法，其特征在于，确定所述目标音素特征向量分别与预设的各注册语音的音素特征向量之间的相似度，包括：

若所述目标音素特征向量与所述注册语音的音素特征向量的长度不同，则对所述目标音素特征向量与所述注册语音的音素特征向量进行平均化处理，得到长度相同的特征向量对；将所述特征向量对的余弦距离确定为所述目标音素特征向量与所述注册语音的音素特征向量的相似度；

若所述目标音素特征向量与所述注册语音的音素特征向量的长度相同，则将所述目标音素特征向量与所述注册语音的音素特征向量的余弦距离确定为所述目标音素特征向量与所述注册语音的音素特征向量的相似度。

6.根据权利要求1至4之一所述的方法，其特征在于，确定所述目标音素特征向量分别与预设的各注册语音的音素特征向量之间的相似度，包括：

将所述目标音素特征向量与所述注册语音的音素特征向量拼接，得到拼接后的特征向量；

将所述拼接后的特征向量输入预训练的目标神经网络，确定出所述目标音素特征向量与所述注册语音的音素特征向量的相似度；若所述相似度大于所述预设阈值，输出第一数值；若所述相似度小于或等于所述预设阈值，输出第二数值；以及，

响应于存在大于预设阈值的相似度，发送唤醒指令，包括：

响应于第一数值，发送所述唤醒指令。

7.根据权利要求6所述的方法，其特征在于，所述目标神经网络经由如下步骤训练得到：

获取包含有预设唤醒词的样本语音，并确定所述样本语音的样本音素特征向量，每个所述唤醒词对应有多个不同发声对象产生的样本语音；

基于所述样本语音，构建样本语音对，并将构成所述样本语音对的两个样本语音的样本音素特征向量拼接为所述样本语音对的特征向量；

将属于同一个唤醒词的两个样本语音构成的样本语音对的样本标签确定为所述第一数值，将属于不同唤醒词的两个样本语音构成的样本语音对的样本标签确定为所述第二数值；

将所述样本语音对的特征向量输入预先构建的初始神经网络，将所述样本语音对的样本标签作为期望输出，训练所述初始神经网络，得到所述目标神经网络。

8.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述权利要求1-7任一所述的用于语音唤醒的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现上述权利要求1-7任一所述的用于语音唤醒的方法。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现上述权利要求1-7任一所述的方法。