CN113689863B

CN113689863B - 一种声纹特征提取方法、装置、设备及存储介质

Info

Publication number: CN113689863B
Application number: CN202111124456.5A
Authority: CN
Inventors: 吴丽贤; 布力; 宋才华; 林钰杰; 关兆雄; 杨峰; 杜家兵
Original assignee: Guangdong Power Grid Co Ltd; Foshan Power Supply Bureau of Guangdong Power Grid Corp
Current assignee: Guangdong Power Grid Co Ltd; Foshan Power Supply Bureau of Guangdong Power Grid Corp
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2024-01-16
Anticipated expiration: 2041-09-24
Also published as: CN113689863A

Abstract

本申请公开了一种声纹特征提取方法、装置、设备及存储介质，方法包括：获取声纹训练样本的样本静态特征，样本静态特征包括第一静态子特征、第二静态子特征和第三静态子特征；基于差分算法根据样本静态特征获取样本动态特征；根据样本静态特征和样本动态特征对初始差分神经网络进行动态特征提取训练，得到动态特征提取模型；将预置目标静态特征输入动态特征提取模型中进行动态特征提取，得到目标动态特征，目标动态特征维度小于样本动态特征维度。本申请能够解决现有的声纹动静态信息维度较大，产生了较多冗余数据，导致模型优化效率低，且易产生冗余参数技术问题。

Description

一种声纹特征提取方法、装置、设备及存储介质

技术领域

本申请涉及声纹识别技术领域，尤其涉及一种声纹特征提取方法、装置、设备及存储介质。

背景技术

声纹识别是生物识别技术的一种，也称为说话人识别，包括说话人辨认和说话人确认两种过程。声纹识别就是把声信号转换成电信号，再用计算机进行识别。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要辨认技术，而银行交易时则需要确认技术。

现有的声纹识别中会关注到声纹的动静态信息。通常一个信息是静态的，缺乏与其前后时刻对应的信息的协同效应；为了增强相邻时刻信息之间的协同效应，同时需要关注动态特征。然而现有获取的动静态信息维度较大，产生了较多的冗余信息，不利于优化模型的计算效率，且会导致模型产生冗余参数。

发明内容

本申请提供了一种声纹特征提取方法、装置、设备及存储介质，用于解决现有的声纹动静态信息维度较大，产生了较多冗余数据，导致声纹识别模型优化效率低，且易产生冗余参数技术问题。

有鉴于此，本申请第一方面提供了一种声纹特征提取方法，包括：

获取声纹训练样本的样本静态特征，所述样本静态特征包括第一静态子特征、第二静态子特征和第三静态子特征；

基于差分算法根据所述样本静态特征获取样本动态特征；

根据所述样本静态特征和所述样本动态特征对初始差分神经网络进行动态特征提取训练，得到动态特征提取模型；

将预置目标静态特征输入所述动态特征提取模型中进行动态特征提取，得到目标动态特征，所述目标动态特征维度小于所述样本动态特征维度。

优选地，所述基于差分算法根据所述样本静态特征获取样本动态特征，包括：

基于差分算法对所述第一静态子特征和所述第二静态子特征作一阶差分运算，得到一阶差分特征；

基于差分算法对所述第一静态子特征、所述第二静态子特征和所述第三静态子特征作二阶差分运算，得到二阶差分特征；

将所述第一静态子特征、所述一阶差分特征和所述二阶差分特征进行拼接，得到样本动态特征。

优选地，所述根据所述样本静态特征和所述样本动态特征对初始差分神经网络进行动态特征提取训练，得到动态特征提取模型，包括：

将所述样本静态特征输入初始差分神经网络中进行动态特征提取，得到预测动态特征；

根据所述预测动态特征和所述样本动态特征进行均方误差计算，得到度量值；

基于所述度量值对所述初始差分神经网络进行迭代训练，直至所述度量值达到预置训练阈值，得到动态特征提取模型。

优选地，所述将预置目标静态特征输入所述动态特征提取模型中进行动态特征提取，得到目标动态特征，之后还包括：

获取所述目标静态特征和所述目标动态特征对应的声纹标签；

根据所述目标动态特征和所述声纹标签对初始声纹识别模型进行声纹识别训练，得到目标声纹识别模型。

本申请第二方面提供了一种声纹特征提取装置，包括：

第一获取模块，用于获取声纹训练样本的样本静态特征，所述样本静态特征包括第一静态子特征、第二静态子特征和第三静态子特征；

第二获取模块，用于基于差分算法根据所述样本静态特征获取样本动态特征；

模型训练模块，用于根据所述样本静态特征和所述样本动态特征对初始差分神经网络进行动态特征提取训练，得到动态特征提取模型；

特征提取模块，用于将预置目标静态特征输入所述动态特征提取模型中进行动态特征提取，得到目标动态特征，所述目标动态特征维度小于所述样本动态特征维度。

优选地，所述第二获取模块，具体包括：

一阶计算子模块，用于基于差分算法对所述第一静态子特征和所述第二静态子特征作一阶差分运算，得到一阶差分特征；

二阶计算子模块，用于基于差分算法对所述第一静态子特征、所述第二静态子特征和所述第三静态子特征作二阶差分运算，得到二阶差分特征；

特征拼接子模块，用于将所述第一静态子特征、所述一阶差分特征和所述二阶差分特征进行拼接，得到样本动态特征。

优选地，所述模型训练模块，具体包括：

动态预测子模块，用于将所述样本静态特征输入初始差分神经网络中进行动态特征提取，得到预测动态特征；

误差计算子模块，用于根据所述预测动态特征和所述样本动态特征进行均方误差计算，得到度量值；

迭代优化子模块，用于基于所述度量值对所述初始差分神经网络进行迭代训练，直至所述度量值达到预置训练阈值，得到动态特征提取模型。

优选地，还包括：

第三获取模块，用于获取所述目标静态特征和所述目标动态特征对应的声纹标签；

声纹模型训练模块，用于根据所述目标动态特征和所述声纹标签对初始声纹识别模型进行声纹识别训练，得到目标声纹识别模型。

本申请第三方面提供了一种声纹特征提取设备，所述设备包括处理器以及存储器；

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面所述的声纹特征提取方法。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面所述的声纹特征提取方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请中，提供了一种声纹特征提取方法，包括：获取声纹训练样本的样本静态特征，样本静态特征包括第一静态子特征、第二静态子特征和第三静态子特征；基于差分算法根据样本静态特征获取样本动态特征；根据样本静态特征和样本动态特征对初始差分神经网络进行动态特征提取训练，得到动态特征提取模型；将预置目标静态特征输入动态特征提取模型中进行动态特征提取，得到目标动态特征，目标动态特征维度小于样本动态特征维度。

本申请提供的声纹特征提取方法中，基于样本静态特征获取对应的样本动态特征，但是这种方法得到的样本动态特征维度可能比较大，仅用作动态特征提取模型的训练中，训练好的动态特征提取模型能够压缩特征维度，确保减少动态特征的冗余度，进而保证后续的声纹识别模型的计算效率和参数紧凑性。本申请能够解决现有的声纹动静态信息维度较大，产生了较多冗余数据，导致声纹识别模型优化效率低，且易产生冗余参数技术问题。

附图说明

图1为本申请实施例提供的一种声纹特征提取方法的一个流程示意图；

图2为本申请实施例提供的一种声纹特征提取方法的另一个流程示意图；

图3为本申请实施例提供的一种声纹特征提取装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，请参阅图1，本申请提供的一种声纹特征提取方法的实施例一，包括：

步骤101、获取声纹训练样本的样本静态特征，样本静态特征包括第一静态子特征、第二静态子特征和第三静态子特征。

步骤102、基于差分算法根据样本静态特征获取样本动态特征。

步骤103、根据样本静态特征和样本动态特征对初始差分神经网络进行动态特征提取训练，得到动态特征提取模型。

步骤104、将预置目标静态特征输入动态特征提取模型中进行动态特征提取，得到目标动态特征，目标动态特征维度小于样本动态特征维度。

本申请实施例提供的声纹特征提取方法中，基于样本静态特征获取对应的样本动态特征，但是这种方法得到的样本动态特征维度可能比较大，仅用作动态特征提取模型的训练中，训练好的动态特征提取模型能够压缩特征维度，确保减少动态特征的冗余度，进而保证后续的声纹识别模型的计算效率和参数紧凑性。本申请实施例能够解决现有的声纹动静态信息维度较大，产生了较多冗余数据，导致声纹识别模型优化效率低，且易产生冗余参数技术问题。

以上为本申请提供的一种声纹特征提取方法的一个实施例，以下为本申请提供的一种声纹特征提取方法的另一个实施例。

为了便于理解，请参阅图2，本申请提供了一种声纹特征提取方法的实施例二，包括：

步骤201、获取声纹训练样本的样本静态特征，样本静态特征包括第一静态子特征、第二静态子特征和第三静态子特征。

获取样本音频信息，样本音频信息包括连续的多帧音频帧，例如，一端音频信息可以包括3帧音频帧。样本音频信息是电子设备本地采集的或者是本地存储的音频数据库中获取的，也可以是与电子设备连接的另一电子设备发送的，还可以是电子设备从服务器下载的。提取多帧音频帧中每一帧音频帧对应的静态特征，可以得到多个样本静态特征。样本静态特征可以为梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients，简称MFCC)、常数Q变换静态特征等，静态特征的维度可以为12维、13维等，在此不做限定。

样本音频信息在提取特征之前还需要进行预处理操作，例如预加重、分帧、加窗处理等；然后对预处理后的音频帧进行快速傅里叶变换，将音频帧从时域信号转换为频域信号；接着通过梅尔滤波器对音频帧进行滤波，实现对音频帧的平滑处理，以消除多个频域的音频帧的谐波，得到音频帧对应的梅尔频谱特征；最后对梅尔频谱特征取对数，即可得到样本静态特征。

步骤202、基于差分算法对第一静态子特征和第二静态子特征作一阶差分运算，得到一阶差分特征。

步骤203、基于差分算法对第一静态子特征、第二静态子特征和第三静态子特征作二阶差分运算，得到二阶差分特征。

步骤204、将第一静态子特征、一阶差分特征和二阶差分特征进行拼接，得到样本动态特征。

具体的计算过程分为一阶差分运算和二阶差分运算：

Y(k)＝X(k)-X(k-1)

Z(k)＝Y(k)-Y(k-1)＝X(k)-2X(k-1)+X(k-2)

其中，Y(k)为一阶差分特征，X(k)为第一静态子特征，X(k-1)为第二静态子特征，X(k-2)为第三静态子特征，Z(x)为二阶差分特征。

步骤205、将样本静态特征输入初始差分神经网络中进行动态特征提取，得到预测动态特征。

步骤206、根据预测动态特征和样本动态特征进行均方误差计算，得到度量值。

均方误差的计算过程为：

其中，Δω为均方误差，y_i为第i帧音频帧对应的预测动态特征，y_i'为第i帧音频帧对应的样本动态特征，n为样本动态特征的数量。

步骤207、基于度量值对初始差分神经网络进行迭代训练，直至度量值达到预置训练阈值，得到动态特征提取模型。

动态特征提取模型包括输入层、隐藏层和输出层，其中隐藏层能够对特征向量降维；且隐藏层的层数至少为1层，具体层数可以根据实际需要进行设定。将样本静态特征输入到初始差分神经网络的输入层，通过初始差分神经网络的输入层将样本静态特征传输至初始差分神经网络的隐藏层进行维度压缩；获得初始差分神经网络的隐藏层输出的维度压缩后的动态特征；将维度压缩后的动态特征输入至初始差分神经网络的输出层进行维度增大，获得维度增大后的动态特征作为预测动态特征。

预测动态特征与样本动态特征之间计算的均方误差能够反映动态特征提取模型的动态特征预测能力的好坏，因此，可以根据均方误差计算得到的度量值对模型进行优化迭代训练，以期望获取到最优的动态特征提取模型。具体的预置训练阈值可以根据具体情况设置，达到预置训练阈值则认为训练已经收敛。

如果样本静态特征中包括3帧音频帧对应的静态特征，且每个样本静态特征均是12维，那么相应的样本动态特征为12维。但是隐藏层可以根据调整神经元的数量确定目标动态特征的维数，使得目标动态特征的维度小于样本动态特征。

步骤208、将预置目标静态特征输入动态特征提取模型中进行动态特征提取，得到目标动态特征，目标动态特征维度小于样本动态特征维度。

目标静态特征的获取方式与样本静态特征的获取方式相同，在此不再赘述。由于动态特征提取模型的隐藏层输出的动态特征经过维度压缩，削减了维度冗余，以该目标动态特征作为声纹识别中待训练网络的输入参数，能够降低训练参数的冗余度。

步骤209、获取目标静态特征和目标动态特征对应的声纹标签。

步骤210、根据目标动态特征和声纹标签对初始声纹识别模型进行声纹识别训练，得到目标声纹识别模型。

声纹标签一般是指目标静态特征对应的音频帧所属人，也即音频标签，目标静态特征与目标动态特征相对应。声纹标签是采用标记工具对音频信息进行标记得到的。

根据目标动态特征构成的数据集对初始声纹识别模型进行训练，以建立输入训练参数和声纹标签之间的对应关系。获取校验参数和校验参数对应的声纹标签，将校验参数输入声纹模型，获得声纹模型输出的校验结果。当校验结果与校验参数对应的声纹标签匹配时，则说明声纹模型已训练完成，获得训练完成的声纹模型，该已训练的声纹模型可以对目标音频信息进行声纹识别，以确定发音者的身份。按照声纹结果对目标音频信息进行分类，将声纹结果相同的音频信息归为同一类，便于管理和调用音频信息。

可以理解的是，若是获取的声纹标签是语言种类，例如不同语种，那么声纹识别模型主要用于识别音频的语种；若是获取的声纹标签是不同人，那么声纹识别模型主要用于音频归属人的识别。具体的模型训练方式相同，在此不作赘述。

以上为本申请提供的一种声纹特征提取方法的一个实施例，以下为本申请提供的一种声纹特征提取装置的一个实施例。

为了便于理解，请参阅图3，本申请还提供了一种声纹特征提取装置的实施例，包括：

第一获取模块301，用于获取声纹训练样本的样本静态特征，样本静态特征包括第一静态子特征、第二静态子特征和第三静态子特征；

第二获取模块302，用于基于差分算法根据样本静态特征获取样本动态特征；

模型训练模块303，用于根据样本静态特征和样本动态特征对初始差分神经网络进行动态特征提取训练，得到动态特征提取模型；

特征提取模块304，用于将预置目标静态特征输入动态特征提取模型中进行动态特征提取，得到目标动态特征，目标动态特征维度小于样本动态特征维度。

进一步地，第二获取模块302，具体包括：

一阶计算子模块3021，用于基于差分算法对第一静态子特征和第二静态子特征作一阶差分运算，得到一阶差分特征；

二阶计算子模块3022，用于基于差分算法对第一静态子特征、第二静态子特征和第三静态子特征作二阶差分运算，得到二阶差分特征；

特征拼接子模块3023，用于将第一静态子特征、一阶差分特征和二阶差分特征进行拼接，得到样本动态特征。

进一步地，模型训练模块303，具体包括：

动态预测子模块3031，用于将样本静态特征输入初始差分神经网络中进行动态特征提取，得到预测动态特征；

误差计算子模块3032，用于根据预测动态特征和样本动态特征进行均方误差计算，得到度量值；

迭代优化子模块3033，用于基于度量值对初始差分神经网络进行迭代训练，直至度量值达到预置训练阈值，得到动态特征提取模型。

进一步地，还包括：

第三获取模块305，用于获取目标静态特征和目标动态特征对应的声纹标签；

声纹模型训练模块306，用于根据目标动态特征和声纹标签对初始声纹识别模型进行声纹识别训练，得到目标声纹识别模型。

为了便于理解，本申请还提供了一种声纹特征提取设备，设备包括处理器以及存储器；

存储器用于存储程序代码，并将程序代码传输给处理器；

处理器用于根据程序代码中的指令执行上述方法实施例中的声纹特征提取方法。

为了便于理解，本申请还提供了一种计算机可读存储介质，计算机可读存储介质用于存储程序代码，程序代码用于执行上述方法实施例中的声纹特征提取方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以通过一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：RandomAccess Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种声纹特征提取方法，其特征在于，包括：

基于差分算法根据所述样本静态特征获取样本动态特征，获取过程具体为：

将所述第一静态子特征、所述一阶差分特征和所述二阶差分特征进行拼接，得到样本动态特征；

根据所述样本静态特征和所述样本动态特征对初始差分神经网络进行动态特征提取训练，得到动态特征提取模型，提取训练过程具体为：

基于所述度量值对所述初始差分神经网络进行迭代训练，直至所述度量值达到预置训练阈值，得到动态特征提取模型；

将预置目标静态特征输入所述动态特征提取模型中进行动态特征提取，得到目标动态特征，所述目标动态特征维度小于所述样本动态特征维度，所述目标动态特征为所述动态特征提取模型中的隐藏层压缩维度后得到的特征向量。

2.根据权利要求1所述的声纹特征提取方法，其特征在于，所述将预置目标静态特征输入所述动态特征提取模型中进行动态特征提取，得到目标动态特征，之后还包括：

3.一种声纹特征提取装置，其特征在于，包括：

第二获取模块，用于基于差分算法根据所述样本静态特征获取样本动态特征，所述第二获取模块，具体包括：

特征拼接子模块，用于将所述第一静态子特征、所述一阶差分特征和所述二阶差分特征进行拼接，得到样本动态特征；

模型训练模块，用于根据所述样本静态特征和所述样本动态特征对初始差分神经网络进行动态特征提取训练，得到动态特征提取模型，所述模型训练模块，具体包括：

迭代优化子模块，用于基于所述度量值对所述初始差分神经网络进行迭代训练，直至所述度量值达到预置训练阈值，得到动态特征提取模型；

特征提取模块，用于将预置目标静态特征输入所述动态特征提取模型中进行动态特征提取，得到目标动态特征，所述目标动态特征维度小于所述样本动态特征维度，所述目标动态特征为所述动态特征提取模型中的隐藏层压缩维度后得到的特征向量。

4.根据权利要求3所述的声纹特征提取装置，其特征在于，还包括：

5.一种声纹特征提取设备，其特征在于，所述设备包括处理器以及存储器；

所述处理器用于根据所述程序代码中的指令执行权利要求1-2任一项所述的声纹特征提取方法。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-2任一项所述的声纹特征提取方法。