CN109256139A

CN109256139A - 一种基于Triplet-Loss的说话人识别方法

Info

Publication number: CN109256139A
Application number: CN201810835179.0A
Authority: CN
Inventors: 王艺航; 熊晓明; 刘祥; 李辉
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2018-07-26
Filing date: 2018-07-26
Publication date: 2019-01-22

Abstract

本发明涉及一种基于Triplet‑Loss的说话人识别方法，包括以下步骤：S1：获取语音信号，包括三组样本，分别为说话人的一组语音序列、同一说话人另一组的语音序列以及不同说话人的一组语音序列；S2：进行语音信号的预处理，去除语音采集过程中产生的信道噪声；S3：对去噪后的语音信号进行语音特征参数提取；S4：以LSTM神经网络为基础，构建RNN神经网络；S5：将提取到的90％的三组语音特征参数作为RNN神经网络的输入，用于训练RNN神经网络；S6：RNN神经网络训练好后，将其余的10％的三组语音特征参数作为RNN神经网络的输入进行说话人识别。本发明具有准确率高、识别效果好、可靠性高等优点。

Description

一种基于Triplet-Loss的说话人识别方法

技术领域

本发明涉及神经网络与深度学习的技术领域，尤其涉及到一种基于Triplet-Loss的说话人识别方法。

背景技术

随着信息安全问题日趋严重，造成的影响越来越大。“个人隐私保密”问题迫切需要解决。如何准确而安全的确定一个人的身份引起人们的思考。语音作为人机交互的一个关键接口，在身份认证上发挥着重要作用。声纹识别，即为说话人识别，声纹作为说话人独一无二的生物特征，正是克服传统认证方法的新手段。与其他方法相比，蕴含声纹特征的语音获取方便、自然，声纹提取可在不知不觉中完成，因此使用者的接受程度也高；获取语音的识别成本低廉，使用简单，一个麦克风即可，在使用通讯设备时更无需额外的录音设备；声纹认证适合远程身份确认，只需要一个麦克风或电话、手机就可以通过网路(通讯网络或互联网络)实现远程登录。

常见的声纹识别方法比如早期的基于信号处理的声纹识别方法，使用信号处理技术中一些技术方法计算出语音数据在信号学的参数，然后进行模板匹配、统计方差分析等，该方法对语音数据极为敏感，准确率很低，识别效果很不理想。

基于高斯混合模型的识别方法能取得较好的效果且简单灵活，但其对语音数据量要求很大，对信道环境噪声非常敏感，无法满足真实场景下的要求。

现有的基于深度学习神经网络的方法并未考虑语音信号的上下文相关的本质，提取到的特征并不能很好地代表说话人，并没有完全发挥深度学习的优势。

发明内容

本发明的目的在于克服现有技术的不足，提供一种准确率高、识别效果好、可靠性高的基于Triplet-Loss的说话人识别方法。

为实现上述目的，本发明所提供的技术方案为：

一种基于Triplet-Loss的说话人识别方法，包括以下步骤：

S1：获取语音信号，该语音信号包括三组样本，分别为说话人的一组语音序列Xa、同一说话人另一组的语音序列Xp以及不同说话人的一组语音序列Xn；

S2：进行语音信号的预处理，去除语音采集过程中产生的信道噪声；

S3：对去噪后的语音信号进行语音特征参数提取；

S4：以LSTM神经网络为基础，构建RNN神经网络；

S5：将步骤S3所提取到的90％的三组语音特征参数作为RNN神经网络的输入，用于训练RNN神经网络；

S6：RNN神经网络训练好后，将其余的10％的三组语音特征参数作为RNN神经网络的输入进行说话人识别。

进一步地，所述步骤S2采用谱相减法对语音信号进行去噪处理，具体步骤如下：

S2-1：对语音信号进行滤波处理；

S2-2：对滤波后语音信号进行预加重，将语音信号分帧，对信号帧加汉明窗；

S2-3：对加窗后的信号进行快速傅里叶变换，对各帧语音信号求功率谱，然后求平均噪声功率；

S2-4：利用VAD进行噪声估计监测寂静段，进而组合递归平滑，更新噪声谱；

S2-5：进行谱减运算，得出估计出的语音信号功率谱；

S2-6：***相位谱，计算出语音谱，再进行快速傅里叶反变换，得到还原的语音帧；

S2-7：根据各个语音帧组合为语音信号，将语音信号加重得到去噪后的信号。

进一步地，所述步骤S3对去噪后的语音信号进行声学特征参数提取的具体步骤如下：

S3-1：对去噪后的三组语音信号均进行预加重处理，然后将信号分帧，每一帧乘以汉明窗；

S3-2：对每帧信号进行快速傅里叶变换，得到在频谱上的能量分布；

S3-3：将功率谱通过一组梅尔尺度的三角形滤波器组，计算出每个滤波器组输出的对数能量；

S3-4：经过离散余弦变换得到输出的特征参数。

进一步地，所述步骤步骤S4以LSTM神经网络为基础，在LSTM神经网络特征输出层后添加归一化层以及Triplet-Loss损失函数层，构建RNN神经网络。

进一步地，所述Triplet-Loss损失函数层通过学习，让Xa和Xp特征表达之间的距离尽可能小，而Xa和Xn的特征表达之间的距离尽可能大，并且要让Xa与Xn之间的距离和Xa与Xp之间的距离之间有一个最小的间隔α；

对应的目标函数为：

其中，表示Xa和Xp之间的欧式距离度量；

表示的是Xa和Xn之间的欧式距离度量；

此处距离用欧式距离度量，+[]内的值大于零的时候，取该值为损失，小于零的时候，损失为零。

进一步地，所述步骤S6进行说话人识别的具体步骤如下：

S6-1：通过LSTM神经网络得到三组样本的特征表达f(Xa),f(Xp),f(Xn)；

S6-2：对得到的特征表达进行归一化处理；

S6-3：通过Triplet-Loss损失函数优化神经网络；

S6-4：比较Triplet-Loss损失函数的度量值和预设阈值，若度量值大于预设阈值，则说话人为同一人，否则说话人为不同人。

与现有技术相比，本方案原理和优点如下：

1.语音信号的预处理采用谱相减法，相对于其它方法，谱相减法引入的约束条件最少，物理意义最直接，运算量小，从而可以有效提高识别的准确性。

2.基于Triplet-Loss(三元组损失函数)来训练模型，通过类间损失与类内损失的联合约束来对模型进行反向传播的优化训练，使得同类样本在特征空间尽可能接近,而异类样本在特征空间尽可能远离，提高模型的辨识力，从而提高识别的可靠性和准确性。

附图说明

图1为本发明一种基于Triplet-Loss的说话人识别方法的流程图；

图2为本发明中谱相减法的流程图。

图3为本发明中语音特征参数提取的流程图。

具体实施方式

下面结合具体实施例对本发明作进一步说明：

参见附图1所示，本实施例所述的一种基于Triplet-Loss的说话人识别方法，包括以下步骤：

S2：进行语音信号的预处理；语音采集过程中会产生较多的信道噪声，因此会给识别任务带来较大的困难，因此首先采用谱相减法对输入语音数据进行去噪处理，即从带噪语音估值中减去噪声频谱估值，从而得到纯净语音的频谱。此处消除的是信道噪声，信道噪声是由录音设备所导致的噪声；去除信道噪音的同时，完全保存了与说话人有关的所有信息。

如图2所示，采用谱相减法对语音信号进行去噪处理，具体步骤如下：

S2-1：对语音信号进行滤波处理；

具体来说，在信号处理过程中，加窗处理是一个必经的过程，因为计算机只能处理有限长度的信号，因此原始信号X(t)要以T(采样时间)截断，即有限化，成为XT(t)后再进一步处理，这个过程就是加窗处理，实际的信号处理过程中，一般用矩形窗，但矩形窗在边缘处将信号突然截断，窗外时域信息全部消失，导致在频域增加了频率分量的现象，即频谱泄漏，考虑如何减少加窗时造成的泄漏误差，主要的措施是使用合理的加窗函数，汉明窗就是信号窗口的一种，其主要部分的形状像sin(x)在0到pi区间的形状，而其余部分都是0，这样的函数乘上其他任何一个函数f，f都只有一部分有非零值；

S2-4：利用VAD(Voice Activity Detection语音端点检测)进行噪声估计监测寂静段，进而组合递归平滑，更新噪声谱；

S2-5：进行谱减运算，得出估计出的语音信号功率谱；

S3：如图3所示，对去噪后的语音信号进行语音特征参数提取，具体步骤如下：

S3-1：对去噪后的三组语音信号均进行预加重处理，然后对三组语音信号信号分别按照帧长25ms，帧移10ms进行分帧，每一帧乘以汉明窗；

S3-4：经过离散余弦变换得到输出的语音特征参数。

S4：获取到语音特征参数后，以LSTM神经网络(长短时记忆神经网络)为基础，在LSTM神经网络特征输出层后添加归一化层以及Triplet-Loss损失函数层，构建RNN神经网络(循环神经网络)；

采用到的Triplet-Loss损失函数层通过学习，让Xa和Xp特征表达之间的距离尽可能小，而Xa和Xn的特征表达之间的距离尽可能大，并且要让Xa与Xn之间的距离和Xa与Xp之间的距离之间有一个最小的间隔α；

对应的目标函数为：

其中，表示Xa和Xp之间的欧式距离度量；

表示的是Xa和Xn之间的欧式距离度量；

S6：RNN神经网络训练好后，将其余的10％的三组语音特征参数作为RNN神经网络的输入进行说话人识别；识别的具体步骤如下：

S6-2：对得到的特征表达进行归一化处理；

S6-3：通过Triplet-Loss损失函数优化神经网络；

本实施例中语音信号的预处理采用谱相减法，相对于其它方法，谱相减法引入的约束条件最少，物理意义最直接，运算量小，从而可以有效提高识别的准确性。另外，本实施例基于Triplet-Loss(三元组损失函数)来训练模型，通过类间损失与类内损失的联合约束来对模型进行反向传播的优化训练，使得同类样本在特征空间尽可能接近,而异类样本在特征空间尽可能远离，提高模型的辨识力，从而提高识别的可靠性和准确性。

以上所述之实施例子只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于Triplet-Loss的说话人识别方法，其特征在于,包括以下步骤：

S3：对去噪后的语音信号进行语音特征参数提取；

S4：以LSTM神经网络为基础，构建RNN神经网络；

2.根据权利要求1所述的一种基于Triplet-Loss的说话人识别方法，其特征在于,所述步骤S2采用谱相减法对语音信号进行去噪处理，具体步骤如下：

S2-1：对语音信号进行滤波处理；

S2-5：进行谱减运算，得出估计出的语音信号功率谱；

3.根据权利要求1所述的一种基于Triplet-Loss的说话人识别方法，其特征在于,所述步骤S3对去噪后的语音信号进行声学特征参数提取的具体步骤如下：

S3-4：经过离散余弦变换得到输出的特征参数。

4.根据权利要求1所述的一种基于Triplet-Loss的说话人识别方法，其特征在于,所述步骤步骤S4以LSTM神经网络为基础，在LSTM神经网络特征输出层后添加归一化层以及Triplet-Loss损失函数层，构建RNN神经网络。

5.根据权利要求4所述的一种基于Triplet-Loss的说话人识别方法，其特征在于,所述Triplet-Loss损失函数层通过学习，让Xa和Xp特征表达之间的距离尽可能小，而Xa和Xn的特征表达之间的距离尽可能大，并且要让Xa与Xn之间的距离和Xa与Xp之间的距离之间有一个最小的间隔α；

对应的目标函数为：

其中，表示Xa和Xp之间的欧式距离度量；

表示的是Xa和Xn之间的欧式距离度量；

6.根据权利要求1所述的一种基于Triplet-Loss的说话人识别方法，其特征在于,所述步骤S6进行说话人识别的具体步骤如下：

S6-2：对得到的特征表达进行归一化处理；

S6-3：通过Triplet-Loss损失函数优化神经网络；