CN110992929A

CN110992929A - 一种基于神经网络的语音关键词检测方法、装置及***

Info

Publication number: CN110992929A
Application number: CN201911173619.1A
Authority: CN
Inventors: 许苏魁
Original assignee: Suning Cloud Computing Co Ltd
Current assignee: Suning Cloud Computing Co Ltd
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2020-04-10
Also published as: CA3162745A1; WO2021103712A1

Abstract

本发明提供了一种基于神经网络的语音关键词检测方法、装置及***，其中方法包括以下步骤：预接收待检测的语音，并提取所述语音的语音特征；将所述语音特征按帧输入预先训练好的目标语种的神经网络模型，输出所述每帧语音特征对应的基础音素；将预先设置的每一候选关键词映射为对应的基础音素；根据所述语音特征的基础音素和所述候选关键词的基础音素计算所述语音为所述每一候选关键词的得分；根据所述得分判断是否有关键词被激活。本发明节约***资源，减少模型重新训练所需要的时间和成本。

Description

一种基于神经网络的语音关键词检测方法、装置及***

技术领域

本发明属于计算机语音识别技术领域，具体来说，涉及基于神经网络的语音关键词检测方法、装置及***。

背景技术

针对语音关键词检测任务，传统的做法是引入语音识别的完整解码器，对输入待检测关键词的语音做一遍解码，生成多候选结果，通过某种方式保存，比如说Lattice结构；进一步再生成倒排索引，然后从此倒排索引里快速检索待检测语音是否包含指定的关键词。这种基于Lattice的关键词策略，由于多候选的情况都可以在Lattice里表示出来，一般具有很高的召回率。缺陷在于过于复杂，需要引入整个识别***，还要处理复杂的Lattice，生成倒排索引一般还会引入有限状态转换机(FST，Finite-State Transducer)相关的操作，一般很难掌握，部署的复杂度也很大。

在最新的基于神经网络的关键词检测框架下，一般会对每个关键词建立一个神经网络，每个神经网络通过每帧输出得分的累加来判断该关键词是否激活。而对每个关键词都建立一个神经网络来判断其是否激活，一是需要大量包含此关键词的语音来训练模型，数据的收集非常麻烦；二是当关键词增加或者修改时，又需要重新收集数据和重新训练模型，整个过程也很复杂。而且，这种模型一般虚警也很高，***很多时候会在不希望的情况下被误激活。

发明内容

针对现有技术过于复杂的缺陷，本发明提出一种基于神经网络的语音关键词检测方法、装置及***。本发明可以降低关键词检索***所需要的网络模型资源，另一方面，修改关键词时不需要重新训练模型，可以节约模型重新训练所需要的时间，并节约重新训练模型所需的成本。

本发明的一个方面在于公开一种基于神经网络的语音关键词检测方法，包括以下步骤：

接收待检测的语音，并提取所述语音的语音特征；

将所述语音特征按帧输入预先训练好的目标语种的神经网络模型，输出所述每帧语音特征对应的基础音素；

将预先设置的每一候选关键词映射为对应的基础音素；

根据所述语音特征的基础音素和所述候选关键词的基础音素计算所述语音为所述每一候选关键词的得分；

根据所述得分判断是否有关键词被激活。

优选的，所述输出所述每帧语音特征对应的基础音素包括：

按照N×M矩阵的方式输出所述每帧语音特征对应的基础音素；其中，N等于所述语音的帧数，M等于所述目标语种的基础音素的个数。

优选的，所述输出每帧语音特征对应的基础音素包括：

优选的，所述神经网络模型通过如下步骤获得：

获取训练用样本数据集，所述样本数据集包括样本语音以及与所述样本语音对应的样本基础音素标注结果；

提取所述样本语音的样本语音特征；

将所述样本语音特征作为输入，将所述样本语音对应的样本基础音素标注结果作为输出训练神经网络模型。

优选的，所述将所述语音特征按帧输入预先训练好的目标语种的神经网络模型，输出所述每帧语音特征对应的基础音素包括：

将所述语音特征按帧输入预先训练好的目标语种的GMM-HMM模型对所述语音特征做强制对齐，得到每帧语音特征对应的至少一个基础音素。

优选的，所述根据所述语音特征的基础音素和所述候选关键词的基础音素计算所述语音为所述每一候选关键词的得分包括：

根据所述语音特征的基础音素和所述候选关键词的基础音素，通过多种得分计算策略计算获得多个得分，对多个得分进行融合得到最终得分。

优选的，所述得分计算策略包括：动态规划、受限制约束的最长序列得分、在N×M矩阵空间里暴力穷举后的最优路径得分中的至少两个。

优选的，所述根据所述得分判断是否有关键词被激活包括：

按照得分从大到小的顺序，依次判断候选关键词得分与该候选关键词预先定义的得分阈值的关系，直至判断到有候选关键词的得分大于该候选关键词预先定义的得分阈值，将该候选关键词激活后停止判断。本发明的另一方面在于公开一种基于神经网络的语音关键词检测装置，所述装置包括：

语音特征提取单元，用于接收待检测的语音，并提取所述语音的语音特征；

基础音素预测单元，用于将所述语音特征按帧输入预先训练好的目标语种的神经网络模型，输出所述每帧语音特征对应的基础音素；

候选词映射单元，用于将每一候选关键词映射为对应的基础音素；

得分计算单元，用于根据所述语音特征的基础音素和所述候选关键词的基础音素计算所述语音为所述每一候选关键词的得分；

判断单元，用于根据所述得分判断是否有关键词被激活。

优选的，所述基础音素预测单元，用于按照N×M矩阵的方式输出所述每帧语音特征对应的基础音素；其中，N等于所述语音的帧数，M等于所述目标语种的基础音素的个数

本发明的另一方面在于公开一种计算机***，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行一种终端，包括存储器和处理器，处理器读取存储器中存储的计算机程序指令，从而使处理器执行如上所述的方法。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

1.对于不同关键词，不需要训练不同的神经网络模型；只要一个模型即可完成对所有关键词的检测。传统策略下，一个关键词就需要一个特定的神经网络模型，非常占用资源。

2.当修改关键词时，也不需要重新训练模型，仅需要修改对应的音素序列即可。传统策略下，关键词修改，模型肯定需要拿特定的语音重新训练。而本发明只要用包含目标语种所有音素的语音训练一次网络即可，大大降低了模型再次训练的成本，操作简单，部署方便。

本发明所述产品只需具有上述一种效果即可。

通过参照以下附图及对本发明的具体实施方式的详细描述，本发明的特征及优点将会变得清楚。

附图说明

图1是本发明的语音关键词检测方法的流程图；

图2是本发明实施例一方法的流程图；

图3是本发明实施例二装置结构图；

图4是本发明计算机***结构图。

具体实施方式

为了使本发明的技术方案更加清楚、明了，下面将结合附图作进一步详述，应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明采用基于神经网络的方式，解决语音关键词检测这一任务。特别地，本发明神经网络的建模单元不是完整的关键词或者是关键词中的一个个字，而是关键词所属语种的基本音素单元。比如说对于中文，本发明神经网络的输出节点是对汉语拼音的所有声母和韵母建模，通过声母和韵母的序列组合拼接出想要的关键词。

另外，由于本发明的神经网络比较小，对于同一语音通过多个神经网络得到的得分还可以进一步融合，从而进一步提升性能，使得分更好的反映关键词置信度，增强关键词检测***的召回率和降低虚警。

图1示出了本发明的语音关键词检测方法的流程图。如图1所示，本发明的语音关键词检测方法可分为两部分，一部分为训练神经网络模型，一部分为利用训练好的神经网络模型对语音关键词进行检测。

训练神经网络模型包括以下步骤。

步骤一：获取样本训练集，包括用于训练的样本语音和该语音的样本基础音素标注结果。针对目标语种的语音，搜集一定量有标注的语音，最好500小时以上的语音训练集。

步骤二：提取样本语音特征。

步骤三：训练神经网络模型。利用有基础音素标注结果的样本语音训练语音识别需要的GMM-HMM模型，以此模型对语音做强制对齐，得到提取特征后的语音每一帧属于目标语种哪个或哪些基础音素的信息(若每一帧属于多个基础音素，则多个基础音素的概率和为1)。实际操作中，可以通过一个已有的字典资源映射得到一句话对应的音素信息，但无法具体确定某一帧的音素信息，因此需要训练一个GMM-HMM模型，利用该模型可以进一步得到每一帧的音素信息。

神经网络的输出节点表示目标语种的基础音素，因此，神经网络的输出节点的个数可以简单等于目标语种基础音素数目之和。比如对于中文，就可以是所有声母加上韵母的个数之和；英文就是国际音标数目数之和。另外，可扩展的，对于带调语种，比如说中文，韵母可以带调，总计5种调(四声加上轻声)，那么总节点个数就是声母加上5倍的韵母个数。并且，还可以增加一些额外节点，吸收语音中不属于任何音素的部分，比如噪声、异常声音、咳嗽声音等。

本发明的神经网络模型不是针对完整的关键词或者是关键词中的一个个字，而是关键词所属语种的基本音素单元。比如说对于中文，本发明神经网络的输出节点是对汉语拼音的所有声母和韵母建模，通过声母和韵母的序列组合拼接出想要的关键词。

举例来说，比如关键词是“小伙小伙”，则其对应的声母加韵母序列组合即为“xiao3 huo3 xiao3 huo3”。一般语种的基本音素单元不超过100个，即使像中文这种带调语种，算上调型，一般总的建模单元也不会超过500个，这样使得神经网络模型不会过大，便于在嵌入式设备，比如手机、摄像头等设备中部署。上述申请网络可以采用简单的全连接前馈神经网络，也可采用较复杂的网络，如时延神经网络、卷积神经网络、递归神经网络等，这些都在本发明的保护范围内。

利用训练好的神经网络模型对语音关键词进行检测包括以下步骤：

步骤四：接收用户输入的待检测的语音信息，提取该语音的语音特征。

步骤五：将语音特征按帧输入上述步骤训练好的神经网络模型中，输出对应的音素。对于每一帧，神经网络都会得到一个网络输出节点个数大小的向量。假设语音共有N帧，网络输出节点是M个，那么就会得到一个N×M大小的音素分布矩阵。

对应不同的目标语种，N、M个数不同。

步骤六：计算每一候选关键词得分即计算上述N×M矩阵为每一候选关键词可能的得分。将每个候选关键词通过其发音词典映射成一个音素序列，由于每个音素都能对应到网络输出的一个节点，从而可以计算出该候选关键词的音素序列在N×M矩阵里的得分。这种得分方式包括但不限于动态规划、受限制约束的最长序列得分、或者是在N×M矩阵空间里暴力穷举后的最优路径得分。为方便讨论，将此过程可能用到的所有得分计算方法统一称为“得分计算策略”。

本发明可以训练多个用于得分计算的神经网络，对于一个候选关键词，在不同的得分计算神经网络中采用不同的“得分计算策略”获得多个得分，这些得分可以采用不同的方法融合，如加权平均等，以获得更好的得分表示。

需要注意的是，由于候选关键词一定可以映射为音素序列，因此任意候选关键词在步骤六里都一定可以计算出得分，而且神经网络也不需要被重新训练。另外，由于这里只考虑候选关键词的音素序列，因此发音相同但字不同的候选关键词是等价对待的。

步骤七：判断是否有候选关键词激活。在候选关键词候选集合中，挑选得分最大的候选关键词，如果该得分超过此候选关键词预先定义的门限，则该候选关键词激活；否则，考虑得分次大的候选关键词，其得分是否超过此候选关键词预先定义的门限。依次进行下去。只要有一个候选关键词被激活，则返回候选关键词被激活的控制信息，完成一句话的识别。若所有候选关键词得分均低于门限，则返回没有候选关键词被激活。整个流程结束。以一个手机上金融支付的app为例，在打开该app后，用户说出“打开收钱码”、“打开付钱码”，***根据用户的语音判断接收到特定的关键词，之后自动打开对应的二维码供用户使用。

因为本例是中文场景，因此首先收集一定量的中文语料，网上很容易找到500小时以上标注好的中文语料。利用开源工具，训练中文的GMM-HMM模型，用训练好的模型对这批中文语料做进一步的强制对齐，得到中文音素，也就是汉语拼音级别的标注，即每一帧的音素信息。

接下来，利用音素级的标注和语料，训练一个或者多个神经网络，可以取全连接的前馈神经网络和时延神经网络，网络输出节点即是音素总的个数。这样，神经网络就算训练完成了。将神经网络资源离线保存，和手机app打包在一起部署在手机上，在app被打开时加载进手机的内存。App中同时还存储有语音特征的提取策略、候选关键词集合如“打开收钱码”、“打开付钱码”等。

当用户说完一句话时，如“请打开我的收钱码”，手机麦克风采集到这句话的采样点，进行特征提取，送入内存里的神经网络，得到一个音素分布矩阵输出，再计算出该句话的音素分布矩阵与不同候选关键词的得分。对于多神经网络的输出，通过某种策略融合，如加权平均，得到更准确的得分。如根据计算得到用户所说的“请打开我的收钱码”与候选关键词“打开收钱码”的得分为90，与候选关键词“打开付钱码”的得分为40，且候选关键词的阈值均为80，那么按关键词得分从高到低，考察每个关键词得分是否超过此关键词预先设定的门限会发现候选关键词“打开收钱码”的得分超过阈值，则该关键词被激活，利用该激活的关键词执行后续操作即可。

具体来说，将应用支持的所有关键词写入一个文件，由***内存读取即可。当需要修改或增加关键词时，不需要重新收集语音或重新训练模型，只需要修改文件即可。而一般的关键词策略，都需要用修改后的关键词或新增的关键词语音重新训练模型，而本发明无需此操作，大大节约了成本和时间。

实施例一

对应上述描述，本申请实施例一公开一种基于神经网络的语音关键词检测方法，如图2所示，包括以下步骤：

S21、接收待检测的语音，并提取所述语音的语音特征。

S22、将所述语音特征按帧输入预先训练好的目标语种的神经网络模型，输出所述每帧语音特征对应的基础音素。

具体的该步骤包括：

将所述语音特征按帧输入预先训练好的目标语种的GMM-HMM模型对所述语音特征做强制对齐，得到每帧语音特征对应的至少一个基础音素，并按照N×M矩阵的方式输出所述每帧语音特征对应的基础音素；其中，N等于所述语音的帧数，M等于所述目标语种的基础音素的个数。

S23、将预先设置的每一候选关键词映射为对应的基础音素。该步骤可通过发音词典进行映射。

S24、根据所述语音特征的基础音素和所述候选关键词的基础音素计算所述语音为所述每一候选关键词的得分。

具体的，该步骤包括：

S25、根据所述得分判断是否有关键词被激活。

具体的，可按照得分从大到小的顺序，依次判断候选关键词得分与该候选关键词预先定义的得分阈值的关系，直至判断到有候选关键词的得分大于该候选关键词预先定义的得分阈值，将该候选关键词激活后停止判断。

其中，上述的神经网络模型可通过如下步骤获得：

提取所述样本语音的样本语音特征；

实施例二

对应上述方法，本申请实施例二还公开一种基于神经网络的语音关键词检测装置，如图3所示，所述装置包括：

语音特征提取单元31，用于接收待检测的语音，并提取所述语音的语音特征。

基础音素预测单元32，用于将所述语音特征按帧输入预先训练好的目标语种的神经网络模型，输出所述每帧语音特征对应的基础音素。

具体的该基础音素预测单元32用于：

候选词映射单元33，用于将每一候选关键词映射为对应的基础音素。具体可通过发音词典进行映射。

得分计算单元34，用于根据所述语音特征的基础音素和所述候选关键词的基础音素计算所述语音为所述每一候选关键词的得分。

具体的，该得分计算单元34用于根据所述语音特征的基础音素和所述候选关键词的基础音素，通过多种得分计算策略计算获得多个得分，对多个得分进行融合得到最终得分。

其中，所述得分计算策略包括：动态规划、受限制约束的最长序列得分、在N×M矩阵空间里暴力穷举后的最优路径得分中的至少两个。

判断单元35，用于根据所述得分判断是否有关键词被激活。

具体的，判断单元35用于按照得分从大到小的顺序，依次判断候选关键词得分与该候选关键词预先定义的得分阈值的关系，直至判断到有候选关键词的得分大于该候选关键词预先定义的得分阈值，将该候选关键词激活后停止判断

实施例三

对应上述方法，本发明实施例三公开一种计算机***，包括：

一个或多个处理器；以及

本申请实施例四提供一种计算机***，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行如下操作：

接收待检测的语音，并提取所述语音的语音特征；

将预先设置的每一候选关键词映射为对应的基础音素；

根据所述得分判断是否有关键词被激活。

优选的，所述输出所述每帧语音特征对应的基础音素包括：

优选的，所述神经网络模型通过如下步骤获得：

提取所述样本语音的样本语音特征；

优选的，所述根据所述得分判断是否有关键词被激活包括：

按照得分从大到小的顺序，依次判断候选关键词得分与该候选关键词预先定义的得分阈值的关系，直至判断到有候选关键词的得分大于该候选关键词预先定义的得分阈值，将该候选关键词激活后停止判断。

其中，图4示例性的展示出了计算机***的架构，具体可以包括处理器1510，视频显示适配器1511，磁盘驱动器1512，输入/输出接口1513，网络接口1514，以及存储器1520。上述处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，与存储器1520之间可以通过通信总线1530进行通信连接。

其中，处理器1510可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器1520可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1520可以存储用于控制计算机***1500运行的操作***1521，用于控制计算机***1500的低级别操作的基本输入输出***(BIOS)。另外，还可以存储网页浏览器1523，数据存储管理***1524，以及图标字体处理***1525等等。上述图标字体处理***1525就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器1520中，并由处理器1510来调用执行。

输入/输出接口1513用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口1514用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1530包括一通路，在设备的各个组件(例如处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，与存储器1520)之间传输信息。

另外，该计算机***1500还可以从虚拟资源对象领取条件信息数据库1541中获得具体领取条件的信息，以用于进行条件判断，等等。

需要说明的是，尽管上述设备仅示出了处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，存储器1520，总线1530等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，云服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***或***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的***及***实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本申请所提供的基于神经网络的语音关键词检测方法、装置及***，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。综上所述，本发明采用非常简单的方式实现同样的功能，本发明将传统的多个关键词需要多个神经网络模型，改变为多个关键词只需要1个神经网络模型，可以将神经网络的尺寸做的非常小，模型10M即可取得非常优异的性能，从而适合在嵌入式设备部署，占用非常低的资源完成功能。另外，关键词可以任意配置，不需要重新针对特定的关键词搜集数据并且重新训练模型；同时，修改关键词时不需要重新训练模型，减少了麻烦的搜集特定关键词语料的步骤，节约了模型重新训练所需要的时间。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种基于神经网络的语音关键词检测方法，其特征在于，包括以下步骤：

接收待检测的语音，并提取所述语音的语音特征；

将预先设置的每一候选关键词映射为对应的基础音素；

根据所述得分判断是否有关键词被激活。

2.如权利要求1所述的方法，其特征在于，所述输出所述每帧语音特征对应的基础音素包括：

3.如权利要求1所述的方法，其特征在于，所述神经网络模型通过如下步骤获得：

提取所述样本语音的样本语音特征；

4.如权利要求1所述的方法，其特征在于，所述将所述语音特征按帧输入预先训练好的目标语种的神经网络模型，输出所述每帧语音特征对应的基础音素包括：

5.如权利要求1所述的方法，其特征在于，所述根据所述语音特征的基础音素和所述候选关键词的基础音素计算所述语音为所述每一候选关键词的得分包括：

6.如权利要求5所述的方法，其特征在于，所述得分计算策略包括：动态规划、受限制约束的最长序列得分、在N×M矩阵空间里暴力穷举后的最优路径得分中的至少两个。

7.如权利要求1-6所述的方法，其特征在于，所述根据所述得分判断是否有关键词被激活包括：

8.一种基于神经网络的语音关键词检测装置，其特征在于，所述装置包括：

判断单元，用于根据所述得分判断是否有关键词被激活。

9.如权利要求8所述的装置，其特征在于，所述基础音素预测单元，用于按照N×M矩阵的方式输出所述每帧语音特征对应的基础音素；其中，N等于所述语音的帧数，M等于所述目标语种的基础音素的个数。

10.一种计算机***，其特征在于，包括：

一个或多个处理器；以及与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行如权利要求1-7所述的方法。