CN112669818B

CN112669818B - 语音唤醒方法及装置、可读存储介质、电子设备

Info

Publication number: CN112669818B
Application number: CN202011453041.8A
Authority: CN
Inventors: 单长浩
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2022-12-02
Anticipated expiration: 2040-12-08
Also published as: CN112669818A

Abstract

公开了一种语音唤醒方法、装置、计算机可读存储介质及电子设备，该方法包括：通过第一特征提取网络确定语音数据对应的至少一个第一语音特征；通过第一唤醒模型确定所述至少一个第一语音特征各自对应的音素概率分布；通过第二唤醒模型确定至少一个第一语音特征对应的注意力特征；根据所述至少一个第一语音特征各自对应的音素概率分布和所述至少一个第一语音特征对应的注意力特征，确定唤醒判断结果。本公开的技术方案通过结合第一唤醒模型输出的音素概率序列和第二唤醒模型输出的注意力特征确定唤醒判断结果，从而提高唤醒判断结果的准确性，并且降低误唤醒率。

Description

语音唤醒方法及装置、可读存储介质、电子设备

技术领域

本公开涉及语音识别技术领域，且更具体地，涉及一种语音唤醒方法及装置、可读存储介质、电子设备。

背景技术

随着语音识别技术的发展，语音唤醒(指用户通过说出唤醒词来唤醒智能终端，使智能终端进入到等待语音指令的状态或使智能终端直接执行预定语音指令)功能越来越普及。

目前在实现语音唤醒时，主要通过训练基于注意力机制的语音唤醒***，利用训练得到的语音唤醒***实现语音唤醒功能。

但是，上述语音唤醒***中的注意力机制由于对其学习到的知识过度自信，导致语音唤醒***的性能相对较低，误唤醒率相对较高。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种语音唤醒方法、装置、计算机可读存储介质及电子设备，通过结合第一唤醒模型输出的音素概率序列和第二唤醒模型输出的注意力特征确定唤醒判断结果，从而提高唤醒判断结果的准确性，进而降低误唤醒率。

根据本公开的一个方面，提供了一种语音唤醒方法，包括：

通过第一特征提取网络确定语音数据对应的至少一个第一语音特征；

通过第一唤醒模型所述至少一个第一语音特征各自对应的音素概率分布；

通过第二唤醒模型确定所述至少一个第一语音特征对应的注意力特征；

根据所述至少一个第一语音特征各自对应的音素概率分布和所述至少一个第一语音特征对应的注意力特征，确定唤醒判断结果。

根据本公开的第二方面，提供了一种语音唤醒装置，包括：

特征提取模块，用于通过第一特征提取网络确定语音数据对应的至少一个第一语音特征；

第一处理模块，用于通过第一唤醒模型确定所述至少一个第一语音特征各自对应的音素概率分布；

第二处理模块，用于通过第二唤醒模型确定所述至少一个第一语音特征对应的注意力特征；

唤醒模块，用于根据所述至少一个第一语音特征各自对应的音素概率分布和所述至少一个第一语音特征对应的注意力特征，确定唤醒判断结果。

根据本公开的第三方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述的语音唤醒方法。

根据本公开的第四方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述的语音唤醒方法。

与现有技术相比，本公开提供的一种语音唤醒方法、装置、计算机可读存储介质及电子设备，至少包括以下有益效果：

本公开实施例通过综合考虑第一唤醒模型输出的音素概率分布和第二唤醒模型输出的注意力特征确定唤醒判断结果，从而提高唤醒判断结果的准确性，并且降低误唤醒率。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开一示例性实施例提供的语音唤醒方法的流程示意图。

图2是本公开一示例性实施例提供的语音唤醒方法中步骤103的流程示意图。

图3是本公开一示例性实施例提供的语音唤醒方法中步骤104的流程示意图。

图4是本公开一示例性实施例提供的语音唤醒方法中步骤1043的流程示意图。

图5是本公开一示例性实施例提供的语音唤醒装置的结构示意图一。

图6是本公开一示例性实施例提供的语音唤醒装置的结构示意图二。

图7是本公开一示例性实施例提供的语音唤醒装置的结构示意图二中唤醒单元5043的结构示意图。

图8是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

申请概述

语音唤醒指的是用户通过说出唤醒词来唤醒智能终端，使智能终端进入到等待语音指令的状态或使智能终端直接执行预定语音指令。随着语音识别技术的发展，语音唤醒功能越来越普及。目前的语音识别模型包括基于语音识别框架的唤醒模型、基于声学模型的唤醒模型以及基于注意力机制的唤醒模型，基于语音识别框架的唤醒模型或基于声学模型的唤醒模型的训练简单，计算量小但是模型性能较差；基于注意力机制的唤醒模型，该模型训练简单且计算量小，但是由于对其学习到的知识的过度自信导致对误唤醒处理性能较差，误唤醒率相对较高。

本公开实施例通过第一唤醒模型输出每个语音特征的音素概率分布，通过第二唤醒模型输出多个语音特征基于注意力概率分布的注意力特征，综合考虑音素概率分布和注意力概率分布，从而可更为准确的确定出唤醒判定结果，并且降低误唤醒率。

示例性方法

本实施例可应用在电子设备上，具体可以应用于智能设备、服务器或一般计算机上，其中，智能设备包括但不限于手机、音箱、汽车、机器人、穿戴设备、智能家电等具有语音唤醒功能的设备。

如图1所示，本公开一示例性实施例提供的语音唤醒方法至少包括如下步骤：

步骤101，通过第一特征提取网络确定语音数据对应的至少一个第一语音特征。

语音数据可以理解为对声音采集设备采集的原始语音数据经过预处理后的数据，从而去除原始语音数据中可能存在的无效、冗余的语音信号，进而提高后续对语音数据的处理效率。其中，预处理包括但不限于语音降噪、混响消除、语音增强、加窗分帧、特征提取(提取语音数据中的有效信息)等；声音采集设备指的是具有声音采集功能的设备，比如麦克风。一方面，电子设备可以通过其内部配置的声音采集设备获取语音数据，另一方面，可以利用外部设备获取原始语音数据或语音数据，并将其发送给电子设备，或者，可从与电子设备相连接的外部存储设备中获取原始语音数据或语音数据，其中，上述外部存储设备可包括软盘、移动硬盘、U盘等，此处不作限定。需要说明的是，对语音数据进行特征提取得到若干个第一语音特征，作为一种可能的情况，每个第一语音特征可以理解为帧语音特征，作为另一种可能的情况，每个第一语音特征基于对多帧语音数据进行特征提取获取，从而利用帧语音数据的上下文信息，在实际应用中，第一语音特征对应的开始时刻和结束时刻之间的时长通常位于20毫秒到30毫秒之间，即为帧语音特征。这里，语音数据本质为多维度向量。

第一语音特征可以理解为第一特征提取网络对语音数据进行特征提取后得到的多维度向量，该多维度向量用于表征第一语音特征，表征可以理解为是对第一语音特征的表现形式。示例地，第一语音特征可以是Fbank、MFCC和PCEN特征，Fbank、MFCC和PCEN特征的提取方法为现有技术，此处不做过多赘述。应当理解的，Fbank、MFCC和PCEN特征仅是示例，在实际应用中可结合实际需求确定第一语音特征，第一语音特征用于表征音素级别的信息。

第一特征提取模型可以理解为输入一多维度向量输出另一多维度向量的模型，实现对输入的多维度向量对应的信息的特征提取，本领域技术人员可以理解，本公开实施例并不意图对第一特征提取网络的内部结构进行任何限制，可以是循环神经网络、长短时记忆网络，也可以是其他神经网络模型。

具体地，将获取的语音数据输入至第一特征提取网络，从而对语音数据进行特征特征，得到若干个第一语音特征。

步骤102，通过第一唤醒模型确定所述至少一个第一语音特征各自对应的音素概率。

第一唤醒模型可以理解为输入为多个第一语音特征输出为每个第一语音特征各自对应的音素概率分布的模型，例如，可以是多层隐藏层的深度神经网络(DNN)，应当理解的，本公开实施例并不意图对第一唤醒模型的内部结构进行任何限制，任何能够以语音特征为输入，语音特征对应的音素概率分布为输出的模型皆适用本公开实施例。在一些可能的情况，第一唤醒模型并不具有特征提取的作用，仅仅是对多个第一语音特征进行计算，得到多个第一语音特征分别对应的音素概率分布。应当理解的，第一唤醒模型分别计算第一语音特征对应的音素概率分布。

作为一种可行的实现方式，在确定某一个语音特征对应的音素概率分布时，需要将该第一语音特征之前的若干个第一语音特征以及该第一语音特征之后的若干个第一语音特征输入到第一唤醒模型中，通过考虑第一语音特征对应的上下文，从而确保第一唤醒模型输出的第一语音特征对应的音素概率分布具有相对较高的参考价值。作为另一种可行的实现方式，在确定某一个语音特征对应的音素概率分布时，将该语音特征输入到第一唤醒模型中，第一唤醒模型输出该语音特征对应的音素概率分布。

针对每个第一语音特征，音素概率分布指示了该第一语音特征与预设数量个示例音素中每个示例音素的匹配概率值。其中，示例音素指的是当前可以穷举的所有音素，以汉语为例，汉语的示例音素可以为声母及韵母，示例音素的总数量一共是83个；匹配概率值指示了该第一语音特征与对应的示例元素相匹配的可能性。一方面，音素概率分布可以通过独立编码向量进行表征，通过独立编码向量来表示第一语音特征与所有示例音素之间的匹配关系，以示例音素的数量为n个为例，某第一语音特征与n个示例音素序列中的第三个示例音素匹配，则可得到该第一语音特征对应的独立编码向量为(0、0、1、0....0)，其中，1后面跟着n-3个0。另一方面，音素概率分布可以为某一第一语音特征与每一示例音素的匹配概率值，例如，以示例音素的数量为n个为例，对于某一第一语音特征，计算该第一语音特征与每一示例音素的匹配概率值，则可得到n个匹配概率值，n个匹配概率值拼接即可形成音素概率分布。需要说明的是，本公开实施例不对音素概率分布的表现方式作具体限定。

具体地，在获取了若干个第一语音特征后，将若干个第一语音特征输入至第一唤醒模型，第一唤醒模型进行语音识别，输出每个第一语音特征各自对应的音素概率分布。

步骤103，通过第二唤醒模型确定至少一个第一语音特征对应的注意力特征。

需要说明的是，当多个第一语音特征对应的语音时长满足预设阈值时，第二唤醒模型对多个第一语音特征进行处理，确定多个第一语音特征对应的注意力特征，换言之，将多个第一语音特征一起输入到第二唤醒模型中，得到注意力特征。其中，多个第一语音特征对应的语音时长满足预设阈值可以理解为多个第一语音特征对应的语音时长不小于预设阈值，从而确保多个第一语音特征能够包含唤醒词。本公开实施例未对预设阈值进行限定，具体需要结合实际情况确定，可选的，预设阈值可以在1秒到2秒之间进行选择，比如1.5秒。语音时长可以理解为多个第一语音特征对应的开始时刻和结束时刻之间的时长，这里，开始时刻是多个第一语音特征的最早的时刻，结束时刻是多个第一语音特征的最晚的时刻。举例来说，第一语音特征的数量为m，第i个第一语音特征的开始时刻为t_is，结束时刻为t_ie，从t_1s～t_ms中确定出m个第一语音特征的最早的时刻，从t_1e～t_me中确定出m个第一语音特征的最晚的时刻，假设m个第一语音特征的最早的时刻为t_1s，最晚的时刻为t_me，则m个第一语音特征对应的语音时长为t_1s和t_me之间的时差。

可选的，第一唤醒模型和第二唤醒模型输入的多个第一语音特征对应的语音时长相同，但是，第一唤醒模型输出的是某个语音特征对应的音素概率分布，第二唤醒模型输出的是多个语音特征对应的注意力特征。

第二唤醒模型可以理解为输入为多个第一语音特征输出为注意力特征的模型，第二唤醒模型是基于注意力机制的模型，应当理解的，本公开实施例并不意图对第二唤醒模型的内部结构进行任何限制，任何能够以多个语音特征为输入，多个语音特征对应的注意力特征为输出的模型皆适用本公开实施例，可选的，第二唤醒模型可以是基于注意力机制的编码-解码模型。

多个第一语音特征对应一个注意力特征，注意力特征指示了多个第一语音特征对于唤醒词的影响程度，是多个第一语音特征对应的整词或整句的表征向量。

具体地，当多个第一语音特征对应的语音时长满足预设阈值时，将多个第一语音特征输入至第二唤醒模型，得到多个第一语音特征对应的注意力特征。

可选的，第一特征提取网络和第一唤醒模型共同训练获得，从而使得第一特征提取网络能够获取帧级别的语音特征，第二唤醒模型根据第一特征提取网络中的网络结构和网络参数训练获得，从而在满足电子设备内存以及计算量的情况下确保第二唤醒模型的性能。

这里，第一特征提取网络和第一唤醒模型共同训练获得，可以理解为对预设模型进行训练，得到一个训练好的一个模型，将训练好的模型中的特征提取网络作为第一特征提取网络，第一唤醒模型为训练好的模型中以第一特征提取网络为输入，音素概率分布为输出的模型。第二唤醒模型根据第一特征提取网络中的网络结构和网络参数训练获得，可以理解为第一特征提取网络的输出作为模型输入，进行模型训练，将训练好的模型作为第二唤醒模型。

具体地，训练时，以所采集的样本语音数据作为输入，样本语音数据对应的目标音素概率分布作为监督数据，进行模型训练，从而得到第一特征提取网络和第一唤醒模型。之后，将样本语音数据输入至第一特征提取网络中，从而获取多帧样本语音特征，以包含唤醒词(正样本)或者不包含唤醒词(负样本)的多帧样本语音特征作为输入，唤醒词作为监督数据，进行模型训练，从而得到第二唤醒模型。这里，进行模型训练时采用模型可以是神经网络，可以包括已有的和未来开发的，可使用的已有神经网络模型的示例包括但不限于反向传播(BP)神经网络、径向基函数(RBF)神经网络、卷积神经网络(CNN)等。

需要说明的是，第一语音特征是用于确定音素概率分布的语音信息，是较为抽象的信息，很难通过有监督的方法训练出模型，因此，第一特征提取网络和第一唤醒模型是一起训练的。

步骤104，根据所述至少一个第一语音特征各自对应的音素概率分布和所述至少一个第一语音特征对应的注意力特征，确定唤醒判断结果。

具体地，对各个第一语音特征各自对应的音素概率分布进行解码，从而确定出多个第一语音特征包含唤醒词的概率，得到基于音素的唤醒概率。对注意力特征进行解码，确定出多个第一语音特征包含唤醒词的概率，得到基于注意力的唤醒概率，通过基于音素的唤醒概率和基于注意力的唤醒概率的比对，确定唤醒判断结果。唤醒判断结果综合考虑多个第一语音特征各自对应的音素概率分布以及多个第一语音特征对应的注意力特征，从而具有相对较高的准确性。唤醒判断结果用于确定是否进行唤醒。

该实施例提供的语音唤醒方法的有益效果至少在于：

该实施例通过综合考虑第一唤醒模型输出的音素概率分布和第二唤醒模型输出的注意力特征确定唤醒判断结果，同时，第一唤醒模型考虑音素级别信息，第二唤醒模型考虑词级别或句级别信息，使得模型具有多级别信息，从而提高唤醒判断结果的准确性，并且降低误唤醒率。同时，第一唤醒模型和第二唤醒模型共用第一特征提取网络，提取出共用的音素级别信息，降低了计算量以及模型参数量。

图2示出了如图1所示的实施例中将多个所述第一语音特征输入至第二唤醒模型，获取多个所述第一语音特征对应的注意力特征步骤的流程示意图。

如图2所示，在上述图1所示实施例的基础上，本公开一个示例性实施例中，步骤103所示通过第二唤醒模型确定所述至少一个第一语音特征对应的注意力特征步骤，具体可以包括如下步骤：

步骤1031，通过第二唤醒模型中的第二特征提取网络，获取所述至少一个第一语音特征各自对应的第二语音特征。

第二特征提取网络可以理解为输入一多维度向量输出另一多维度向量的模型，实现对输入的多维度向量对应的信息的特征提取，相当于编码器，本领域技术人员可以理解，本公开实施例并不意图对第二特征提取网络的内部结构进行任何限制，可以是循环神经网络、长短时记忆网络，也可以是其他神经网络模型。

需要说明的是，第一特征提取网络到第二特征提取网络实现了从帧级别的语音信息的提取到词级别或句级别的语音信息的提取，从而使得第二语音特征包含更多的语音信息。

具体地，将多个第一语音特征代入第二唤醒模型中的第二特征提取网络，获取多个第一语音特征分别对应的第二语音特征，第二语音特征为第一语音特征的表征向量，用于表示更多的语音信息，是更高维度的向量。在实际应用中，采用权值向量和第一语音特征相乘之后求和，得到第二语音特征，权值向量是通过模型训练得到的。

步骤1032，通过所述至少一个第一语音特征各自对应的第二语音特征和所述第二唤醒模型中的注意力机制网络，获取所述至少一个第一语音特征对应的注意力特征。

针对每个第二语音特征，注意力机制网络用于确定每个第二语音特征相对于唤醒词的注意力权重(即注意力概率分布)，并对每个第二语音特征及其对应的注意力权重进行加权求和，从而得到注意力特征。举例来说，x₁～x_t表示t个第一语音特征，h₁～h_t表示t个第一语音特征经过第二特征提取网络后的t个第二语音特征，a₁～a_t为t个第二语音特征通过注意力机制后分别获得的注意力权重(注意力概率分布)，则，注意力特征c_t为h₁×a₁+…+h_t×a_t。其中，注意力权重可通过如下公式确定：

a_t＝Softmax(QK^T)

其中，Q表示查询向量，K表示键向量，T表示转置，Softmax(·)表示将输入映射为0-1之间的实数的函数。这里，Q、K是h_t通过线性变换得到的，比如，第二语音特征乘以第一权值向量以得到对应的查询向量、第二语音特征乘以第二权值矩阵以得到对应的键向量，第一权值矩阵和第二权值矩阵是模型训练得到的。

该实施例通过第二唤醒***中的第二特征提取网络得到表征词级别或句级别信息的第二语音特征，根据第二唤醒模型中的注意力机制网络，确定出多个第二语音特征对应的基于注意力权重的注意力特征，从而得到对多个第二语音特征的关注度。第二唤醒模型能够从具有音素级别信息的多个第一语音特征中确定出具有词或句级别信息的注意力特征，增加了数据维度，确保后续基于注意力特征所得到的唤醒概率的准确性。

图3示出了如图1所示的实施例中根据所述至少一个第一语音特征各自对应的音素概率分布和所述至少一个第一语音特征对应的注意力特征，确定唤醒判断结果步骤的流程示意图。

如图3所示，在上述图1所示实施例的基础上，本公开一个示例性实施例中，步骤104所示根据所述至少一个第一语音特征各自对应的音素概率分布和所述至少一个第一语音特征对应的注意力特征，确定唤醒判断结果步骤，具体可以包括如下步骤：

步骤1041，根据所述至少一个第一语音特征各自对应的音素概率分布获取第一唤醒概率。

第一唤醒概率指示了唤醒的第一可能性。第一唤醒词概率为对于属于唤醒词的概率估计，范围一般在[0，1]之间。

具体地，基于多个第一语音特征的时序，通过多个第一语音特征分别对应的音素概率分布形成音素概率分布序列，之后，确定出该音素概率分布序列中的目标音素序列，基于该目标音素序列，确定第一唤醒概率。作为一种可能的情况，目标音素序列为唤醒词音素序列，目标音素序列的概率为第一唤醒概率。举例来说，唤醒词是小爱同学，则唤醒词音素序列(目标音素序列)为“x iao3 ai4 t ong2 x ue2”，其中，数字3、4、2分别表示汉语音节中的三声调、四声调和二声调，确定音素概率分布序列中存在唤醒词音素序列(目标音素序列)的概率，并将该概率确定为第一唤醒概率。作为另一种可能的情况，针对每个音素概率分布，确定音素概率分布中最大匹配概率值对应的示例音素，通过每个音素概率分布分别对应的示例音素组成目标音素序列。作为一种可行的实现方式，计算目标音素序列与唤醒词音素序列之间的相似度，并将该相似度确定为第一唤醒概率。作为另一种可行的实现方式，构建词级别的声学模型，其中，词级别的声学模型确定语音波形中每个词的概率，基于词级别的声学模型，得到目标音素序列对应的词序列，计算词序列与唤醒词序列之间的相似度，并将该相似度确定为第一唤醒概率，这里，需要将连续多个第一语音特征进行拼接，将拼接后的特征输入至词级声学模型中进行识别。

步骤1042，根据所述至少一个第一语音特征各自对应的注意力特征获取第二唤醒概率。

第二唤醒概率指示了唤醒的第二可能性。第二唤醒词概率为对于属于唤醒词的概率估计，范围一般在[0，1]之间。

具体地，将注意力特征与唤醒概率进行特征映射，得到基于注意力概率分布的第二唤醒概率。作为一个示例，确定注意力特征在多个唤醒词上的概率分布，将注意力特征在多个唤醒词上的最大概率确定为第二唤醒概率；作为另一个示例，采用decoder解码器确定第二唤醒概率，通过解码过程的中间信息、注意力特征以及历史解码结果，得到解码结果，即第二唤醒概率。

步骤1043，根据所述第一唤醒概率和所述第二唤醒概率，确定唤醒判断结果。

综合考虑第一唤醒概率和第二唤醒概率，确定唤醒判断结果。具体地，当第一唤醒概率满足第一预设条件以及第二唤醒概率满足第二预设条件时，确定唤醒判断结果为唤醒。其中，第一唤醒概率满足第一预设条件包括：第一唤醒概率大于第一预设值。第二唤醒概率满足第二预设条件包括：第二唤醒概率大于第二预设值。第一预设值及第二预设值的大小需要结合实际情况确定。

该实施例得到的唤醒判断结果综合考虑了音素概率分布确定的第一唤醒概率以及注意力特征确定出的第二唤醒概率，具有相对较高的准确性，可降低误唤醒率。

图4示出了如图3所示的实施例中根据所述第一唤醒概率和所述第二唤醒概率，确定唤醒判断结果步骤的流程示意图。

如图4所示，在上述图3所示实施例的基础上，本公开一个示例性实施例中，步骤1043所示根据所述第一唤醒概率和所述第二唤醒概率，确定唤醒判断结果步骤，具体可以包括如下步骤：

步骤10431，当所述第二唤醒概率满足第二预设条件时，判断所述第一唤醒概率是否满足第一预设条件。

第二唤醒概率确定出的唤醒判断结果的误唤醒率相对较高，第一唤醒概率确定出的唤醒判断结果的误唤醒率相对较低，因此，首先判断第二唤醒概率是否满足第二预设条件，如果否，则唤醒判断结果为不唤醒，如果是，则判断第一唤醒概率是否满足第一预设条件，从而降低误唤醒率。

步骤10432，当所述第一唤醒概率满足第一预设条件时，确定唤醒判断结果为唤醒。

当第一唤醒概率满足第一预设条件时，可确定唤醒判断结果为唤醒，该唤醒判断结果通过第一唤醒概率对第二唤醒概率确定的唤醒结果进行验证，从而确保了唤醒判断结果的准确性。

该实施例通过第一唤醒概率对第二唤醒概率确定的唤醒结果进行验证，从而确保了唤醒判断结果的准确性，可降低误唤醒率。

示例性装置

基于与本公开方法实施例相同的构思，本公开实施例还提供了语音唤醒装置。

图5示出了本公开一示例性实施例提供的语音唤醒装置的结构示意图一。

如图5所示，本公开一示例性实施例提供的语音唤醒装置，包括：

特征提取模块501，用于通过第一特征提取网络确定语音数据对应的至少一个第一语音特征；

第一处理模块502，用于通过第一唤醒模型确定所述至少一个第一语音特征各自对应的音素概率分布；

第二处理模块503，用于通过第二唤醒模型确定所述至少一个第一语音特征对应的注意力特征；

唤醒模块504，用于根据所述至少一个第一语音特征各自对应的音素概率分布和所述至少一个第一语音特征对应的注意力特征，确定唤醒判断结果。

如图6所示，在一个示例性实施例中，所述第二处理模块503包括：

特征提取单元5031，用于通过第二唤醒模型中的第二特征提取网络，获取所述至少一个第一语音特征各自对应的第二语音特征；

注意力单元5032，用于通过所述至少一个第一语音特征各自对应的第二语音特征以及所述第二唤醒模型中的注意力机制网络，获取所述至少一个第一语音特征对应的注意力特征。

如图6所示，在一个示例性实施例中，所述唤醒模块504包括：

第一概率确定单元5041，用于根据所述至少一个第一语音特征各自对应的音素概率分布获取第一唤醒概率；

第二概率确定单元5042，用于根据所述至少一个第一语音特征对应的注意力特征获取第二唤醒概率；

唤醒单元5043，用于根据所述第一唤醒概率和所述第二唤醒概率，确定唤醒判断结果。

如图7所示，在一个示例性实施例中，所述唤醒单元5043包括：

判断子单元50431，用于当所述第二唤醒概率满足第二预设条件时，判断所述第一唤醒概率是否满足第一预设条件；

唤醒子单元50432，用于当所述第一唤醒概率满足第一预设条件时，确定唤醒判断结果为唤醒。

示例性电子设备

图8图示了根据本公开实施例的电子设备的框图。

如图8所示，电子设备800包括一个或多个处理器801和存储器802。

处理器801可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备800中的其他组件以执行期望的功能。

存储器802可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括多个种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器801可以运行所述程序指令，以实现上文所述的本公开的多个实施例的语音唤醒方法以及/或者其他期望的功能。

在一个示例中，电子设备800还可以包括：输入装置803和输出装置804，这些组件通过总线***和/或其他形式的连接机构(未示出)互连。

当然，为了简化，图8中仅示出了该电子设备800中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备800还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开多个种实施例的语音唤醒方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开多个种实施例的语音唤醒方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的多个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本公开的装置、设备和方法中，多个部件或多个步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的多个种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种语音唤醒方法，包括：

通过第一唤醒模型确定所述至少一个第一语音特征各自对应的音素概率分布；

根据所述至少一个第一语音特征各自对应的音素概率分布和所述至少一个第一语音特征对应的注意力特征，确定唤醒判断结果；具体包括：

根据所述至少一个第一语音特征各自对应的音素概率分布获取第一唤醒概率；

根据所述至少一个第一语音特征对应的注意力特征获取第二唤醒概率；

当所述第二唤醒概率满足第二预设条件时，判断所述第一唤醒概率是否满足第一预设条件；

当所述第一唤醒概率满足第一预设条件时，确定唤醒判断结果为唤醒。

2.根据权利要求1所述的方法，其中，所述第一特征提取网络和所述第一唤醒模型共同训练获得；

所述第二唤醒模型基于所述第一特征提取网络中的网络结构和网络参数训练获得。

3.根据权利要求1所述的方法，其中，所述通过第二唤醒模型确定所述至少一个第一语音特征对应的注意力特征，包括：

通过第二唤醒模型中的第二特征提取网络，获取所述至少一个第一语音特征各自对应的第二语音特征；

通过所述至少一个第一语音特征各自对应的第二语音特征以及所述第二唤醒模型中的注意力机制网络，获取所述至少一个第一语音特征对应的注意力特征。

4.根据权利要求1所述的方法，其中，当所述至少一个第一语音特征对应的语音时长满足预设阈值时，所述第二唤醒模型对所述至少一个第一语音特征进行处理。

5.一种语音唤醒装置，包括：

第一处理模块，用于通过第一唤醒模型确定所述第一语音特征各自对应的音素概率分布；

唤醒模块，用于根据所述至少一个第一语音特征各自对应的音素概率分布和所述至少一个第一语音特征对应的注意力特征，确定唤醒判断结果；

所述唤醒模块包括：第一概率确定单元、第二概率确定单元和唤醒单元；

所述第二概率确定单元用于：所述第一概率确定单元用于：根据所述至少一个第一语音特征各自对应的音素概率分布获取第一唤醒概率；

所述唤醒单元用于：当所述第二唤醒概率满足第二预设条件时，判断所述第一唤醒概率是否满足第一预设条件；当所述第一唤醒概率满足第一预设条件时，确定唤醒判断结果为唤醒。

6.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-4任一所述的语音唤醒方法。

7.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-4任一所述的语音唤醒方法。