CN114783417B

CN114783417B - 一种语音检测方法、装置、电子设备及存储介质

Info

Publication number: CN114783417B
Application number: CN202210472519.4A
Authority: CN
Inventors: 孟凡芹; 郑榕
Original assignee: Beijing Yuanjian Information Technology Co Ltd
Current assignee: Beijing Yuanjian Information Technology Co Ltd
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2023-03-24
Anticipated expiration: 2042-04-29
Also published as: CN114783417A

Abstract

本申请提供了一种语音检测方法、装置、电子设备及存储介质，语音检测方法包括：从目标语音信息中提取出语音特征信息；将目标语音信息输入到训练好的端到端模型中，得到目标语音信息对应的第一检测分数，以及将语音特征信息输入到训练好的非端到端模型中，得到目标语音信息对应的第二检测分数；根据第一检测分数和第二检测分数，确定目标语音信息对应的目标检测分数。本申请通过将端到端网络模型的第一检测分数与非端到端模型的第二检测分数相融合，使得对语音识别的检测能够结合两种不同模型的特征处理方式，便于更好的发挥每个模型在特征处理中的优势，弥补了单一网络模型在特征处理过程中的缺陷，从而提升了语音检测结果的准确率和稳定性。

Description

一种语音检测方法、装置、电子设备及存储介质

技术领域

本申请涉及语音识别技术领域，尤其是涉及一种语音检测方法、装置、电子设备及存储介质。

背景技术

目前，语音识别等领域都使用到语音活体检测技术，而语音活体检测技术作为人工智能领域的一个重要技术，被应用于互联网、通信以及智能家居等相关的各行各业，通常语音活体检测技术用于区分语音的来源是真人还是非真人，非真人的语音也就是假体语音的生成方式有很多，主要是包括：录音回放、语音合成、语音转换和拼接等。

由于不同的录音设备存在很多差异，语音合成和转换方法繁多，不同的生成方式对频谱的影响分布在不同频域，因此对活体语音的检测造成了很大的障碍。且现有技术中的语音识别，无法针对不同场景的语音特征进行充分提取，这样就会导致活体语音的检测结果的准确率较低，且稳定性较差。

发明内容

有鉴于此，本申请的目的在于提供一种语音检测方法、装置、电子设备及存储介质，本申请通过将端到端网络模型的第一检测分数与非端到端模型的第二检测分数相融合，使得对语音识别的检测能够结合两种不同模型的特征处理方式，便于更好的发挥每个模型在特征处理中的优势，弥补了单一网络模型在特征处理过程中的缺陷，从而提升了语音检测结果的准确率和稳定性。

本申请实施例提供了一种语音检测方法，所述语音检测方法包括：

获取待检测的目标语音信息；

从所述目标语音信息中提取出语音特征信息；

将所述目标语音信息输入到训练好的端到端模型中，得到所述目标语音信息对应的第一检测分数，以及将所述语音特征信息输入到训练好的非端到端模型中，得到所述目标语音信息对应的第二检测分数；

根据所述第一检测分数和所述第二检测分数，确定所述目标语音信息对应的目标检测分数；

基于所述目标检测分数，确定所述目标语音信息是否为活体语音信息。

进一步的，通过以下方式确定训练好的端到端模型：

获取样本语音信息；

将所述样本语音信息输入到初始端到端模型中的时域掩码层中进行时域掩码，确定出样本时域掩码语音信息；

将所述样本时域掩码语音信息输入到所述初始端到端模型中的嵌入式特征提层中进行频域掩码和特征提取，确定出第一样本特征；

将所述第一样本特征输入到所述初始端到端模型中的注意力机制层中，确定所述样本语音信息的第二样本特征；

将所述第二样本特征输入到所述初始端到端模型中的输出层中，确定所述样本语音信息对应的第一样本分数；

基于所述第一样本分数与融合损失函数，对所述初始端到端模型进行训练，得到训练好的端到端模型。

进一步的，通过以下方式确定训练好的非端到端模型：

获取样本语音信息；

将所述样本语音信息进行特征提取、时域掩码以及频域掩码，确定出第三样本特征；

将所述第三样本特征输入到所述初始非端到端模型中的注意力机制层中，确定所述样本语音信息的第四样本特征；

将所述第四样本特征输入到所述初始非端到端模型中的输出层中，确定所述样本语音信息对应的第二样本分数；

基于所述第二样本分数与融合损失函数，对所述初始非端到端模型进行训练，得到训练好的非端到端模型。

进一步的，所述融合损失函数是由加权交叉熵损失函数和混合正则化损失函数融合得到的。

进一步的，在所述获取待检测的目标语音信息之前，所述语音检测方法还包括：

获取待检测的初始语音信息；

将所述初始语音信息进行归一化处理，并将归一化处理后的所述初始语音信息确定为待检测的目标语音信息。

本申请实施例还提供了一种语音检测装置，所述语音检测装置包括：

第一获取模块，用于获取待检测的目标语音信息；

提取模块，用于从所述目标语音信息中提取出语音特征信息；

第一确定模块，用于将所述目标语音信息输入到训练好的端到端模型中，得到所述目标语音信息对应的第一检测分数，以及将所述语音特征信息输入到训练好的非端到端模型中，得到所述目标语音信息对应的第二检测分数；

第二确定模块，用于根据所述第一检测分数和所述第二检测分数，确定所述目标语音信息对应的目标检测分数；

第三确定模块，用于基于所述目标检测分数，确定所述目标语音信息是否为活体语音信息。

进一步的，所述第一确定模块，用于通过以下方式确定训练好的端到端模型：

获取样本语音信息；

进一步的，所述第一确定模块，用于通过以下方式确定训练好的非端到端模型：

获取样本语音信息；

本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的语音检测方法的步骤。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的语音检测方法的步骤。

本申请实施例提供的语音检测方法、装置、电子设备及存储介质，与现有技术相比，本申请提供的实施例通过将端到端网络模型的第一检测分数与非端到端模型的第二检测分数相融合，使得对语音识别的检测能够结合两种不同模型的特征处理方式，便于更好的发挥每个模型在特征处理中的优势，弥补了单一网络模型在特征处理过程中的缺陷，从而提升了语音检测结果的准确率和稳定性。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种语音检测方法的流程图之一；

图2示出了本申请实施例所提供的一种语音检测方法的流程图之二；

图3示出了本申请实施例所提供的一种语音检测装置的结构示意图；

图4示出了本申请实施例所提供的一种电子设备的结构示意图。

图标：

300-语音检测装置；310-第二获取模块；320-归一化处理模块；330-第一获取模块；340-提取模块；350-第一确定模块；360-第二确定模块；370-第三确定模块；400-电子设备；410-处理器；420-存储器；430-总线。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例，都属于本申请保护的范围。

首先，对本申请可适用的应用场景进行介绍。经研究发现，由于不同的录音设备存在很多差异，语音合成和转换方法繁多，不同的生成方式对频谱的影响分布在不同频域，因此对活体语音的检测造成了很大的障碍。且现有技术中的语音识别，无法针对不同场景的语音特征进行充分提取，这样就会导致活体语音的检测结果的准确率较低，且稳定性较差。

基于此，本申请实施例提供了一种语音检测方法、装置、电子设备及存储介质，通过将端到端网络模型的检测结果与非端到端模型的检测结果相融合，使得对语音识别的检测能够结合两种不同模型的特征处理方式，便于更好的发挥每个模型在特征处理中的优势，弥补了单一网络模型在特征处理过程中的缺陷，从而提升了语音检测结果的准确率和稳定性。

请参阅图1，图1为本申请实施例所提供的一种语音检测方法的流程图之一。如图1中所示，本申请实施例提供的语音检测方法，包括以下步骤：

S101、获取待检测的目标语音信息。

该步骤中，目标语音信息既可以是活体语音信息，也可以是假体语音信息，且假体语音信息的生成方式包括但不限制为：录音回放、语音合成、语音转换以及语音拼接。

S102、从所述目标语音信息中提取出语音特征信息。

该步骤中，针对目标语音信息中的活体语音和/或假体语音进行语音特征信息的提取，语音特征信息包括但不限制为声纹类型的特征信息和音频类型的特征信息，其中，语音特征信息可具体为：梅尔倒谱系数特征(Mel-frequencyCepstralCoefficient，MFCC)、线性倒谱系数(LinearFrequencyCepstralCoefficients，LFCC)以及恒定Q倒谱系数特征(ConstantQCepstralCoefficient，CQCC)等。

这样，目标语音信息为初始语音信息经由归一化处理后得到的，归一化处理是为了便于后续语音特征的提取，且对目标语音信息的归一化处理加快了后续的不同网络模型的训练速度。

这里，梅尔倒谱系数特征在声音处理领域中，是基于声音频率的非线性梅尔刻度(melscale)的对数能量频谱的线性变换，且梅尔频率倒谱特征就是组成梅尔频率倒谱的系数特征，它衍生自音讯片段的倒频谱(cepstrum)。

其中，倒谱是表征一帧语音数据特征的一个序列，该序列可以基音追踪以及语音识别。

S103、将所述目标语音信息输入到训练好的端到端模型中，得到所述目标语音信息对应的第一检测分数，以及将所述语音特征信息输入到训练好的非端到端模型中，得到所述目标语音信息对应的第二检测分数。

该步骤中，由于训练好的端到端模型保留了目标语音信息中的所有数据信息，且训练好的端到端模型能够避免目标语音信息细节特征的丢失，因此，将目标语音信息输入到训练好的端到端模型中，且在目标语音信息经由训练好的端到端模型内部的各个网络结构层后，输出得到一个目标语音信息对应的第一检测分数，这里，目标语音信息对应的第一检测分数用于表征该目标语音为活体语音的第一相似度分数；与此同时，将目标语音信息先进行特征提取、时域掩码以及频域掩码，再将处理后的目标语音信息输入到训练好的非端到端模型中，由于在将目标语音信息输入到训练好的非端到端模型之前，先对目标语音信息进行了特征提取、时域掩码以及频域掩码，使得在将处理后的目标语音信息输入到训练好的非端到端模型时，训练好的非端到端模型能够在目标语音特征提取的过程中，关注目标语音的整体特点，并且可以加速网络提取过程，且所述目标语音信息在经由训练好的非端到端模型内部各个网络结构层后，输出得到一个目标语音信息对应的第二检测分数，这里，目标语音信息对应的第二检测分数用于表征该目标语音为活体语音的第二相似度分数。

其中，训练好的端到端模型和训练好的非端到端模型的训练过程分别都是独立的。

进一步的，通过以下步骤确定训练好的端到端模型。

步骤1031、获取样本语音信息。

这里，获取大量的样本语音信息，其中，样本语音信息中既包括活体样本语音数据，又包括假体样本语音数据，且无论是活体样本语音数据还是假体样本语音数据都对应有各自的样本语音数据标签，且每个样本语音信息与自身对应的样本语音数据标签一起组成了一个样本对。

步骤1032、将所述样本语音信息输入到初始端到端模型中的时域掩码层中进行时域掩码，确定出样本时域掩码语音信息。

其中，初始端到端模型主要包括时域掩码层、嵌入式特征提取层、注意力机制层以及输出层。

这里，首先将样本语音信息输入到初始端到端模型中的时域掩码层中进行时域掩码，确定样本语音信息对应的样本时域掩码语音信息，将样本语音信息直接先进行时域掩码，在尽可能保留样本语音信息中的所有类型信息的同时，丰富了样本内容，避免了语音细节特征的丢失。

下面，以具体实施例来对初始端到端模型中样本语音信息的时域掩码进行表示：

假设样本语音信息的一个中间语音信息的特征状态X∈R^T×F，其中T和F表示样本语音信息在时域的帧数和样本语音信息的有效频率，本申请提供的实施例中的时域掩码层是对样本语音信息的t个连续的时间帧[t₀,t₀+t]进行掩码，其中t是从0到掩码参数范围t均匀分布的区域中选择的，且t′∈(0,T]，并且t₀从[0,T-t]中随机选择的。

步骤1033、将所述样本时域掩码语音信息输入到所述初始端到端模型中的嵌入式特征提取层中进行频域掩码和特征提取，确定出第一样本特征。

这里，嵌入式特征提取层中包括频域掩码层和特征提取模型，将由输出的掩码层样本时域掩码语音信息输入到所述初始端到端模型中的嵌入式特征提取层中同时进行频域掩码和特征提取，并在嵌入式特征提取层中输出第一样本特征。

其中，嵌入式特征提取层主要是由一组可以训练的线性滤波器组、一个一维卷积神经网络、一个加速训练模块(BatchNorm)以及激活函数组成。

这样，一维卷积神经网络的卷积核大小可以为128，激活函数包括但不限制于ReLu，加速训练模块(BatchNorm)为2维的。

上述中，假设样本时域掩码语音信息的一个中间语音信息的特征状态X∈R^T×F，频域掩码，其中T和F表示样本语音信息在时域的帧数和样本时域掩码语音信息的有效频率，频域掩码是将样本时域掩码语音信息中f个连续频率数据[f₀,f₀+f]进行掩码，其中，f是从0到掩码参数范围f′均匀分布的区域中选择的，f′∈(0,F]，并且f₀从[0,F-f]中选择。

这里，样本语音信息中被频域掩码掩盖掉的数据信息既可以用数值0代替，也可以用同类标签的其他样本语音信息的部分未被掩码的样本语音数据信息来替换，且这里的频域掩码主要是对线性滤波器组中的频率进行掩码。

该实施例中，采用时域掩码层和嵌入式特征提取层中的频域掩码技术可以丰富样本语音数据的内容，实现了在有限样本语音信息的集合范围内，提升训练好的端到端模型的检测准确率的效果。

步骤1034、将所述第一样本特征输入到所述初始端到端模型中的注意力机制层中，确定所述样本语音信息的第二样本特征。

这里，在将第一样本特征输入到初始端到端模型中的注意力机制层之前，需要先将第一样本特征输入到初始端到端模型中的编码层，完成对第一样本特征的降维度变形，在完成第一样本特征的降维度变形后，将处理后的第一样本特征输入初始端到端模型中的注意力机制层中深度学习第一样本特征之间的区别和联系，输出样本语音信息的第二样本特征。

其中，采用初始端到端模型中的注意力机制层为图注意力网络(GAT)层，图注意力网络层中每个节点可以根据邻节点的特征，为其分配不同的权值，另外引入注意力机制之后，只与相邻节点有关，即与共享边的节点有关，无需得到整张图的信息，也就是说，图注意力网络层可以处理任意大小输入的问题，并且关注最具有影响能力的第一样本特征，能有效的学习到活体样本语音和假体样本语音之间的区别，从而提升训练好的端到端模型的性能。

另外，初始端到端模型还可以包括编码层，编码层可以位于嵌入式特征提取层和注意力机制层之间，编码层主要用来对上一步的嵌入式特征提取层输出的特征进行降维度变形，为下一步送入的注意力机制层做准备。编码层具体是由四个一维卷积层、三个1维加速训练模块(BatchNorm)、三个最大池化层以及激活函数组成，且四个一维卷积层的卷积核大小分别为32、64、128、128；激活函数具体为Selu。

步骤1035、将所述第二样本特征输入到所述初始端到端模型中的输出层中，确定所述样本语音信息对应的第一样本分数。

这里，输出层主要由一个全连接层和一个Softmax层组成，将由注意力机制层输出的第二样本特征输入到初始端到端模型中的输出层中，确定所述样本语音信息中用于表征目标语音信息为活体语音相似度的第一样本分数。

步骤1036、基于所述第一样本分数与融合损失函数，对所述初始端到端模型进行训练，得到训练好的端到端模型。

这里，通过将样本语音信息通过初始端到端模型得到的第一样本分数与该样本语音信息对应的真实样本类型进行对比，并结合融合损失函数，对初始端到端模型进行训练，得到训练好的端到端模型。

这里，由于在对样本语音信息进行活体语音检测的端到端模型的训练时，活体语音的数量通常远少于假体语音的数量，因此，本申请提供的实施例使用加权交叉熵损失函数来计算损失，解决了活体语音数量过少带来的训练不准确和数据不平衡的问题，而混合正则化损失函数能够提高模型的训练过程中端到端模型的泛化能力。

下面具体的加权交叉熵损失函数为：

其中，样本语音信息集合为{x_i，y_i}，其中i∈[0,N-1]，N为样本语音信息数量，x_i为样本语音信息的数据，y_i为样本语音信息的标签，y_i∈{0,1}，其中z＝[z₀,z₁]，这里包含2个类别的分数，并且w_yi是训样本语音信息集合中样本语音信息标签y_i的反比。

这里的混合正则化损失函数为：

其中，{x_i，y_i}是样本语音信息集合中活体样本语音信息与样本假体语音信息组成的样本对，{x_j，y_j}样本对序列中随机选出的一组训练样本对，

是实际参与训练的一组混合训练样本对的样本语音数据和标签对，λ～Beat(α,α),α∈(0,∞)是一个超参数，其中，/>

用于表征/>

输入网络后输出的分数，CE(.,.)是标准交叉熵(CE)损失，相当于在加权交叉熵损失函数的公式中设置w₀＝w₁。

这里的融合损失函数为：

上述中，融合损失函数既考虑到训练样本语音信息中活体样本语音和假体样本语音的不平衡，又兼顾了端到端模型的泛化能力，进而提升了端到端模型的准确率。

进一步的，通过以下步骤确定训练好的非端到端模型。

步骤1037、获取样本语音信息。

获取大量的样本语音信息，其中，样本语音信息中既包括活体样本语音数据，又包括假体样本语音数据，且无论是活体样本语音数据还是假体样本语音数据都对应有各自的样本语音数据标签，且每个样本语音信息与自身对应的样本语音数据标签一起组成了一个样本对。

步骤1038、将所述样本语音信息进行特征提取、时域掩码以及频域掩码，确定出第三样本特征。

这里，初始非端到端模型包括特征提取层编码层、注意力机制层以及输出层。

其中，首先在将样本语音信息输入到初始非端到端模型之前，先对样本语音信息进行特征提取、时域掩码以及频域掩码，确定出第三样本特征，这样可以关注样本语音信息的整体特点，并且可以加速初始非端到端模型的训练速率。

上述中，时域掩码以及频域掩码的方式与初始端到端模型的掩码处理方式相同，这里不在赘述。

步骤1039、将所述第三样本特征输入到所述初始非端到端模型中的注意力机制层中，确定所述样本语音信息的第四样本特征。

这里，在将第三样本特征输入到初始非端到端模型中的注意力机制层之前，需要先将第三样本特征输入到初始非端到端模型中的编码层，完成对第三样本特征的降维度变形，在完成第三样本特征的降维度变形后，将处理后的第三样本特征输入初始非端到端模型中的注意力机制层中深度学习第三样本特征之间的区别和联系，输出样本语音信息的第四样本特征。

其中，采用初始非端到端模型中的注意力机制层为图注意力网络(GAT)层，图注意力网络层中每个节点可以根据相邻节点的特征，为其分配不同的权值，另外引入注意力机制之后，只与相邻节点有关，即与共享边的节点有关，无需得到整张图的信息，也就是说，图注意力网络层可以处理任意大小输入的问题，并且关注最具有影响能力的第三样本特征，能有效的学习到活体样本语音和假体样本语音之间的区别，从而提升训练好的非端到端模型的性能。

这样，初始非端到端模型中的编码层具体是由四个一维卷积层、三个1维加速训练模块(BatchNorm)、三个最大池化层以及激活函数组成，且四个一维卷积层的卷积核大小分别为32、64、128、128；激活函数具体为Selu。

步骤10310、将所述第四样本特征输入到所述初始非端到端模型中的输出层中，确定所述样本语音信息对应的第二样本分数。

这里，输出层主要由一个全连接层和一个Softmax层组成，将由注意力机制层输出的第四样本特征输入到初始非端到端模型中的输出层中，确定所述样本语音信息中用于表征目标语音信息为活体语音相似度的第二样本分数。

步骤10311、基于所述第二样本分数与融合损失函数，对所述初始非端到端模型进行训练，得到训练好的非端到端模型。

这里，通过将样本语音信息通过初始非端到端模型得到的第二样本分数与该样本语音信息对应的真实样本类型的相似度进行对比，并结合融合损失函数，对初始非端到端模型进行训练，得到训练好的非端到端模型。

S104、根据所述第一检测分数和所述第二检测分数，确定所述目标语音信息对应的目标检测分数。

该步骤中，将第一检测分数和所述第二检测分数进行分数融合，并将融合后的分数确定为目标语音信息对应的目标检测分数。

这里，分数融合包括但不限制为加权融合或分数相乘融合，本申请提供的实施例以加权融合的方式为例，具体的加权融合公式为：

其中，N表示本申请提供的语音检测方法中端到端模型的个数以及非端到端模型的个数，S_n表示每种模型分数，w_n表示每种模型分数的权重，这里，保持端到端模型的个数以及非端到端模型的个数一致，且端到端模型的个数以及非端到端模型的个数均为至少一个。

S105、基于所述目标检测分数，确定所述目标语音信息是否为活体语音信息。

该步骤中，基于目标检测分数，确定目标语音信息是否为活体语音信息的方式包括但不限制为通过预设经验阈值分数进行确定，具体为：

根据目标检测分数与预设经验阈值分数之间的大小关系，确定所述目标语音信息是否为活体语音，其中：

若目标检测分数大于或等于预设经验阈值分数，则确定所述目标语音信息为活体语音；若目标检测分数小于预设经验阈值分数，则确定所述目标语音信息为假体语音。

本申请实施例提供的语音检测方法，与现有技术中相比，本申请通过采用端到端网络模型和非端到端网络模型两种模型来进行活体语音的检测，通过使用端到端网络模型保留了原始语音的所有信息避免了语音细节特征的丢失，且通过采用非端到端网络模型，保证在语音特征提取过程中关注语音的整体特点，并加速网络训练，即本申请通过将端到端网络模型的第一检测分数与非端到端模型的第二检测分数相融合，使得对语音识别的检测能够结合两种不同模型的特征处理方式，便于更好的发挥每个模型在特征处理中的优势，弥补了单一网络模型在特征处理过程中的缺陷，从而提升了语音检测结果的准确率和稳定性。

请参阅图2，图2为本申请实施例提供的一种语音检测方法的流程图之二。如图2中所示，本申请实施例提供的语音检测方法，包括以下步骤：

S201、获取待检测的初始语音信息。

该步骤中，初始语音信息为直接获取到的未经处理的语音信息，其中，所述初始语音信息中既包括活体初始语音数据，又包括假体初始语音数据。

S202、将所述初始语音信息进行归一化处理，并将归一化处理后的所述初始语音信息确定为待检测的目标语音信息。

该步骤中，将读取到的初始语音信息进行归一化处理，这里，归一化处理的方式根据具体的数据需要进行自定义设置。

其中，本申请提供的实施例中的归一化方式具体为：

将采集初始语音信息中的每个采样点的16bit量化精度，并将每个采样点的采样值均除以2的(16-1)次方，使得每个采样点的语音数据都归一到[-1,1]范围，便于后续特征提取，并加快了网络模型的训练速度，进一步提升了后续模型训练的性能，解了现有技术中由于训练的样本语音数据量增而导致设备存储消耗过大和模型训练时间的问题。

S203、获取待检测的目标语音信息。

S204、从所述目标语音信息中提取出语音特征信息。

S205、将所述目标语音信息输入到训练好的端到端模型中，得到所述目标语音信息对应的第一检测分数，以及将所述语音特征信息输入到训练好的非端到端模型中，得到所述目标语音信息对应的第二检测分数。

S206、根据所述第一检测分数和所述第二检测分数，确定所述目标语音信息对应的目标检测分数。

S207、基于所述目标检测分数，确定所述目标语音信息是否为活体语音信息。

其中，S203至S207的描述可以参照S101至S105的描述，并且能达到相同的技术效果，对此不做赘述。

请参阅图3，图3为本申请实施例所提供的一种语音检测装置的结构示意图。如图3中所示，所述语音检测装置300包括：

第二获取模块310，用于获取待检测的初始语音信息。

归一化处理模块320，用于将所述初始语音信息进行归一化处理，并将归一化处理后的所述初始语音信息确定为待检测的目标语音信息。

第一获取模块330，用于获取待检测的目标语音信息。

提取模块340，用于从所述目标语音信息中提取出语音特征信息。

第一确定模块350，用于将所述目标语音信息输入到训练好的端到端模型中，得到所述目标语音信息对应的第一检测分数，以及将所述语音特征信息输入到训练好的非端到端模型中，得到所述目标语音信息对应的第二检测分数。

进一步的，所述第一确定模块350，用于通过以下方式确定训练好的端到端模型：

获取样本语音信息。

将所述样本语音信息输入到初始端到端模型中的时域掩码层中进行时域掩码，确定出样本时域掩码语音信息。

将所述样本时域掩码语音信息输入到所述初始端到端模型中的嵌入式特征提取层中进行频域掩码和特征提取，确定出第一样本特征。

将所述第一样本特征输入到所述初始端到端模型中的注意力机制层中，确定所述样本语音信息的第二样本特征。

将所述第二样本特征输入到所述初始端到端模型中的输出层中，确定所述样本语音信息对应的第一样本分数。

进一步的，所述第一确定模块350，用于通过以下方式确定训练好的非端到端模型：

获取样本语音信息。

将所述样本语音信息进行特征提取、时域掩码以及频域掩码，确定出第三样本特征。

将所述第三样本特征输入到所述初始非端到端模型中的注意力机制层中，确定所述样本语音信息的第四样本特征。

将所述第四样本特征输入到所述初始非端到端模型中的输出层中，确定所述样本语音信息对应的第二样本分数。

第二确定模块360，用于根据所述第一检测分数和所述第二检测分数，确定所述目标语音信息对应的目标检测分数。

第三确定模块370，用于基于所述目标检测分数，确定所述目标语音信息是否为活体语音信息。

本申请实施例提供的语音检测装置，与现有技术相比，本申请提供的实施例通过采用端到端网络模型和非端到端网络模型两种模型来进行活体语音的检测，通过使用端到端网络模型保留了原始语音的所有信息避免了语音细节特征的丢失，且通过采用非端到端网络模型，保证在语音特征提取过程中关注语音的整体特点，并加速网络训练，即本申请通过将端到端网络模型的第一检测分数与非端到端模型的第二检测分数相融合使得对语音识别的检测能够结合两种不同模型的特征处理方式，便于更好的发挥每个模型在特征处理中的优势，弥补了单一网络模型在特征处理过程中的缺陷，从而提升了语音检测结果的准确率和稳定性。

请参阅图4，图4为本申请实施例所提供的一种电子设备的结构示意图。如图4中所示，所述电子设备400包括处理器410、存储器420和总线430。

所述存储器420存储有所述处理器410可执行的机器可读指令，当电子设备400运行时，所述处理器410与所述存储器420之间通过总线430通信，所述机器可读指令被所述处理器410执行时，可以执行如上述图1以及图2所示方法实施例中的语音检测方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的语音检测方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(RandomAccessMemory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音检测方法，其特征在于，所述语音检测方法包括：

获取待检测的目标语音信息；

从所述目标语音信息中提取出语音特征信息；

基于所述目标检测分数，确定所述目标语音信息是否为活体语音信息；

通过以下方式确定训练好的端到端模型：

获取样本语音信息；

2.根据权利要求1所述的语音检测方法，其特征在于，通过以下方式确定训练好的非端到端模型：

获取样本语音信息；

将所述第三样本特征输入到初始非端到端模型中的注意力机制层中，确定所述样本语音信息的第四样本特征；

3.根据权利要求1或2所述的语音检测方法，其特征在于，所述融合损失函数是由加权交叉熵损失函数和混合正则化损失函数融合得到的。

4.根据权利要求1所述的语音检测方法，其特征在于，在所述获取待检测的目标语音信息之前，所述语音检测方法还包括：

获取待检测的初始语音信息；

5.一种语音检测装置，其特征在于，所述语音检测装置包括：

第一获取模块，用于获取待检测的目标语音信息；

第三确定模块，用于基于所述目标检测分数，确定所述目标语音信息是否为活体语音信息；

所述第一确定模块，用于通过以下方式确定训练好的端到端模型：

获取样本语音信息；

6.根据权利要求5所述的语音检测装置，其特征在于，所述第一确定模块，用于通过以下方式确定训练好的非端到端模型：

获取样本语音信息；

7.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器运行时执行如上述的权利要求1至4任一所述的语音检测方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如上述的权利要求1至4任一所述的语音检测方法的步骤。