CN110827806A

CN110827806A - 一种语音关键词检测方法及***

Info

Publication number: CN110827806A
Application number: CN201910990230.XA
Authority: CN
Inventors: 吴志勇; 张坤
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2020-02-21
Anticipated expiration: 2039-10-17
Also published as: CN110827806B

Abstract

本发明提供一种语音关键词检测方法及***，方法包括：关键词语音实例和待检测语音由共享参数的长短时记忆网络转换成隐状态向量序列；使用可训练的度量矩阵计算两个所述隐状态向量序列之间的注意力矩阵；对注意力矩阵按行取最大值、按列取最大值分别得到关键词语音实例和待检测语音的注意力权重向量，再用注意力权重向量对对应的隐状态向量序列进行加权求和得到最终的定长向量；利用相似度度量计算检测分数，对所有的待检测语音根据所述检测分数进行排序，将检测分数较高的待检测语音作为结果输出。通过在语音编码的过程中使两个定长向量相互影响，有效保留相互关联的语义信息，同时注意力机制的引入消除了信息编码的位置偏见。

Description

一种语音关键词检测方法及***

技术领域

本发明涉及语音关键词检测技术领域，尤其涉及一种语音关键词检测方法及***。

背景技术

在大数据时代，互联网服务时刻产生大量的语音数据，如何从这些数据中检索需要的语料成为一个迫切需要解决的难题。基于实例查询的语音关键词检测技术只需要输入关键词的语音实例和待检测语音，不需要使用语音识别技术就可以直接输出检测结果。现有的基于实例查询的语音关键词检测***由两部分组成：语音编码和相似度度量。语音编码部分由长短时记忆网络组成，目的是将语音编码成定长向量。相似度度量一般使用余弦相似度。首先语音编码部分将输入的关键词语音实例和待检测语音编码成两个定长向量，然后使用相似度度量部分计算两个向量之间的相似度，最后根据相似度高低对语料库中所有的待检测语音进行排序，输出相似度较高的语音。整个检测***的关键在于设计语音编码部分使得编码器能够有效提取语音中的语义信息，同时去除说话人、环境噪声以及情感等与任务无关的信息。基于长短时记忆网络的语音编码器将语音的声学特征序列转换成隐状态向量序列，然后将最后时刻的隐状态向量作为语音的定长向量。这种语音编码方式会使定长向量保留更多靠后时间段的语义信息同时丢失许多靠前时间段的语义信息，这种现象我们称为信息编码的位置偏见。而且关键词的语音实例和待检测语音的编码过程是相互独立的，无法有效提取两者之间相互关联的语义信息。

现有的技术方案使用长短时记忆网络作为语音编码器，将语音的声学特征序列转换成隐状态向量序列，然后将最后时刻的隐状态向量作为语音的定长向量。最后计算两个定长向量之间的相似度，根据相似度高低对语料库中所有的待检测语音进行排序，输出相似度较高的语音。

现有方案中，存在以下缺点：

(1)基于长短时记忆网络的语音编码器会使定长向量保留更多靠后时间段的语义信息同时丢失许多靠前时间段的语义信息，这种现象我们成为信息编码的位置偏见。

(2)关键词的语音实例和待检测语音的编码过程是相互独立的，无法有效提取两者之间相互关联的语义信息。

发明内容

本发明为了解决现有的问题，提供一种语音关键词检测方法及***。

为了解决上述问题，本发明采用的技术方案如下所述：

一种语音关键词的检测方法，包括如下步骤：S1：关键词语音实例和待检测语音由共享参数的长短时记忆网络转换成隐状态向量序列；S2：使用可训练的度量矩阵计算两个所述隐状态向量序列之间的注意力矩阵；S3：对所述注意力矩阵按行取最大值、按列取最大值分别得到所述关键词语音实例和所述待检测语音的注意力权重向量，再用所述注意力权重向量对对应的所述隐状态向量序列进行加权求和得到最终的定长向量；S4：利用相似度度量计算检测分数，对所有的所述待检测语音根据所述检测分数进行排序，将检测分数较高的所述待检测语音作为结果输出。

优选地，在步骤S3之后还包括如下步骤：由所述定长向量通过解码重建所述关键词语音实例和所述待检测语音的语音序列，将重建的语音序列同原语音序列比较得到重建损失；将所述重建损失加入最终的训练损失，并通过反向传播算法训练模型在定长向量中保留语音序列的重建信息。

优选地，所述定长向量使用余弦相似度作为相似度度量的方式。

优选地，采用卷积神经网络、双向循环神经网络、时延神经网络计算所述关键词语音实例和所述待检测语音的隐状态向量序列。

优选地，采用前馈神经网络计算检测分数。

优选地，所述长短时记忆网络和所述度量矩阵是同时训练得到的。

优选地，所述训练的训练数据是语音识别数据集，所述语音识别数据集包含了语音数据和对应的文本标注数据；通过强制对齐切分出特定语义关键词的语音段，相同语义的语音段作为正样本对，不同语义的语音段作为负样本对。

优选地，所述训练的目标函数的设计使得相同语义的语音定长向量之间的距离更远，不同语义的语音定长向量之间的距离更近，所述距离指的是余弦距离；所述距离越近，检测分数越大；所述距离越远，检测分数越小。

本发明还提供一种语音关键词的检测***，其特征在于，采用如上任一所述的方法进行语音关键词的检测。

本发明再提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上任一所述方法的步骤。

本发明的有益效果为：提供一种语音关键词检测方法及***，通过在语音编码的过程中使两个定长向量相互影响，有效保留相互关联的语义信息，同时注意力机制的引入消除了信息编码的位置偏见。

附图说明

图1是本发明实施例中一种语音关键词的检测方法的示意图。

图2是本发明实施例中基于双向注意力机制的语音编码结构的示意图。

图3是本发明实施例中又一种语音关键词的检测方法的示意图。

图4是本发明实施例中一种语音关键词的检测***的示意图。

具体实施方式

为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明的是，当元件被称为“固定于”或“设置于”另一个元件，它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件，它可以是直接连接到另一个元件或间接连接至该另一个元件上。另外，连接既可以是用于固定作用也可以是用于电路连通作用。

需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。在本发明实施例的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

实施例1

如图1所示，本发明提供一种语音关键词的检测方法，包括如下步骤：

S1：关键词语音实例和待检测语音由共享参数的长短时记忆网络转换成隐状态向量序列；

S2：使用可训练的度量矩阵计算两个所述隐状态向量序列之间的注意力矩阵；

S3：对所述注意力矩阵按行取最大值、按列取最大值分别得到所述关键词语音实例和所述待检测语音的注意力权重向量，再用所述注意力权重向量对对应的所述隐状态向量序列进行加权求和得到最终的定长向量；

S4：利用相似度度量计算检测分数，对所有的所述待检测语音根据所述检测分数进行排序，将检测分数较高的所述待检测语音作为结果输出。

如图2所示，关键词语音实例和待检测语音由共享参数的长短时记忆网络转换成隐状态向量序列H^Q和H^S，然后使用一个可训练的度量矩阵U计算两个隐状态向量序列之间的注意力矩阵G。对注意力矩阵按行取最大值以及按列取最大值可以分别得到关键词语音实例和待检测语音的注意力权重向量σ^Q和σ^S，再用注意力权重向量对各自的隐状态向量序列进行加权求和得到最终的定长向量V_Q和V_S。可训练的度量矩阵U可以使两段语音输入的编码过程相互影响，从而更有效的提取相互关联的语义信息。使用注意力权重对隐状态向量序列加权求和能够消除信息提取的位置偏见，防止丢失较多位置靠前的语义信息。

由双向注意力机制提取的定长向量使用余弦相似度作为相似度度量的方式。由于关键词实例和待检测语音的编码过程完全对称且共享参数，所以提取的定长向量处于同一向量空间。可训练的度量矩阵可以从数据中学习到特定的映射，能够将不同域(例如不同语言的语音)的输入映射到可比较相似度的向量空间。以上特性可以极大提升提取的定长向量之间的可比较性。对于更复杂的数据分布，可以改进相似度度量为前馈神经网络。

每一组训练数据由一个正样本对和一个负样本对组成，正样本对指的是两段包含相同语义的语音，负样本对指的是两段包含不同语义的语音。数据来源是语音识别数据集，包含了语音数据和对应的文本标注数据。通过强制对齐切分出特定语义(关键词)的语音段，然后相同语义的语音段作为正样本对，不同语义的语音段作为负样本对。

目标函数的设计可以使得相同语义的语音定长向量之间的距离更远，不同语义的语音定长向量之间的距离更近，距离指的是余弦距离。经过这种监督学习过程学习到的长短时记忆网络和度量矩阵参数能够将相同语义的语音输入映射到较近距离的两个向量，将不同语义的语音输入映射到较远距离的两个向量。距离越近检测分数越大，距离越远检测分数越小，最终用检测分数对语料库中所有的待检测语音排序就可以实现检测效果。

长短时记忆网络RNNs和度量矩阵U是同时训练得到的。先由训练集训练得到RNNs和U的参数值，然后用训练好的参数值进行关键词检测。训练过程使用反向传播算法，度量矩阵中所有的值都是待定参数，先初始化然后根据反向传播算法回传的目标函数梯度进行更新，最终收敛。RNNs的训练同理。

如图3所示，在本发明的一种实施例中，在步骤S3之后、步骤S4之前还包括：

由所述定长向量通过解码重建所述关键词语音实例和所述待检测语音的语音序列，将重建的语音序列同原语音序列比较得到重建损失；将所述重建损失加入最终的训练损失，并通过反向传播算法训练模型在定长向量中保留语音序列的重建信息。

即在本发明中加入自编码器结构，使语音的定长向量保留语音的重建信息。

在本发明的另一种实施例中，还可以采用卷积神经网络、双向循环神经网络、时延神经网络计算所述关键词语音实例和所述待检测语音的隐状态向量序列；采用前馈神经网络计算检测分数。

以关键词“Apple”为例，测试环境为在包含10000个待检测语音段的语料库中检索50个包含关键词“Apple”的语音段。将语料库中10000个语音段按照检测分数从高到低排序，在检测分数排名前20的返回结果中，现有技术有2个是包含“Apple”的语音段，而本发明有7个是包含“Apple”的语音段，命中率提升了两倍。

如图4所示，本发明还提供一种语音关键词的检测***，采用本发明所述的方法进行语音关键词的检测。在检测***中，由用户输入关键词语音实例，从语料库中取出一段待检测语音，通过语音编码器得到各自的定长向量，再用相似度度量部分计算检测分数。对语料库中所有的待检测语音根据检测分数进行排序，将检测分数较高的语音作为结果输出。

本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一种计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

本发明技术方案带来的有益效果可以归纳为：

1)在语音编码的过程中使两个定长向量相互影响，有效保留相互关联的语义信息。对比只使用长短时记忆网络作为编码器的技术方案，本发明在英文语料中，总计200个关键词检测样例，检测分数排名前20的返回结果平均命中率均达到了30％以上的相对提升。

2)注意力机制的引入消除了信息编码的位置偏见，最终的定长向量由整个语音隐状态向量序列经注意力权重加权求和得出。对比只使用长短时记忆网络作为编码器的技术方案，本发明提取的语音段定长向量受音素后缀的影响较小，修改音素后缀带来的定长向量最小编辑距离变化降低了86％。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种语音关键词的检测方法，其特征在于，包括如下步骤：

2.如权利要求1所述的语音关键词的检测方法，其特征在于，在步骤S3之后还包括如下步骤：

3.如权利要求1所述的语音关键词的检测方法，其特征在于，所述定长向量使用余弦相似度作为相似度度量的方式。

4.如权利要求1所述的语音关键词的检测方法，其特征在于，采用卷积神经网络、双向循环神经网络、时延神经网络计算所述关键词语音实例和所述待检测语音的隐状态向量序列。

5.如权利要求1所述的语音关键词的检测方法，其特征在于，采用前馈神经网络计算检测分数。

6.如权利要求1所述的语音关键词的检测方法，其特征在于，所述长短时记忆网络和所述度量矩阵是同时训练得到的。

7.如权利要求6所述的语音关键词的检测方法，其特征在于，所述训练的训练数据是语音识别数据集，所述语音识别数据集包含了语音数据和对应的文本标注数据；通过强制对齐切分出特定语义关键词的语音段，相同语义的语音段作为正样本对，不同语义的语音段作为负样本对。

8.如权利要求6所述的语音关键词的检测方法，其特征在于，所述训练的目标函数的设计使得相同语义的语音定长向量之间的距离更远，不同语义的语音定长向量之间的距离更近，所述距离指的是余弦距离；所述距离越近，检测分数越大；所述距离越远，检测分数越小。

9.一种语音关键词的检测***，其特征在于，采用如权利要求1-8任一所述的方法进行语音关键词的检测。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-8任一所述方法的步骤。