CN108648759A

CN108648759A - 一种文本无关的声纹识别方法

Info

Publication number: CN108648759A
Application number: CN201810457528.XA
Authority: CN
Inventors: 郭炜强; 平怡强; 张宇; 郑波
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-05-14
Filing date: 2018-05-14
Publication date: 2018-10-12

Abstract

本发明公开了一种文本无关的声纹识别方法，包括声纹识别模型训练、提取嵌入、决策评分三个阶段。模型训练阶段步骤：1)语音信号预处理；2)语音帧级操作；3)统计汇聚层汇总帧级输出；4)一维卷积操作；5)全连接层输出说话人分类。模型训练完成后，在全连接层第一层非线性化之前提取嵌入。最后使用余弦距离决策评分，决定接受或拒绝。本发明结合神经网络嵌入技术和卷积神经网络，使用一维卷积，并使用最大值汇聚层进行降维，增加卷积层数，从而进行深层特征提取，这样提升了模型的性能。使用余弦距离作为评分标准使得该过程更快，更简单。

Description

一种文本无关的声纹识别方法

技术领域

本发明涉及声纹识别的技术领域，尤其是指一种结合神经网络嵌入技术和卷积神经网络的文本无关的声纹识别方法。

背景技术

声纹是指人类语音中携带言语信息的声波频谱，它同指纹一样，具备独特的生物学特征，具有身份识别的作用，不仅具有特定性，而且具有相对的稳定性。声音信号是一维连续信号，将它进行离散化后，就可以得到我们现在常见的计算机可以处理的声音信号。

计算机可以处理的离散声音信号。声纹识别(也称说话人识别)技术也如同现在在智能手机上应用十分广泛的指纹识别技术一样，从说话人发出的语音信号中提取语音特征，并据此对说话人进行身份验证的生物识别技术。

声纹识别主流技术方案有基于i-vector的识别***。它在联合因子分析技术的基础上，提出说话人和会话差异可以通过一个单独的子空间进行表征。利用这个子空间，可以把从一个语音素材上获得的数字矢量，进一步转化为低维矢量，就是i-vector。

之后随着硬件设备性能提升，深度神经网络成功应用于声学建模，识别的能力也有了较大进步，也提出了合理的DNN和i-vector相结合的模型，在提取充分统计量的过程中，把原有的i-vector模型中的UBM替换为基于音素状态的DNN模型，从而获得每个帧对应每个类别的后验概率。

当前最新的技术有David Snyder等人提出的从时延神经网络网络中提取嵌入特征的声学识别模型，又称为x-vector。该模型用于计算变长语音的说话人嵌入(embedding)。其结构是一种端到端***。其步骤如下：

首先进行模型训练。对语音信号进行预处理，网络的前5层在帧级别上操作，统计汇聚层接收最后帧级层的输出作为输入，汇总一段语音所有帧输入并计算其均值和标准差。随后在语音段级别操作，连接全连接层并使用激活函数ReLU，最终全连接层Softmax输出N个说话人分类。

模型训练完成后，每段不定长的语音将直接映射到定长的说话人嵌入。随后成对的注册语音和测试语音使用基于PLDA的后端进行决策评分，做出最终决定接受或拒绝。。

当前的网络结构全部使用全连接层。我们知道网络层数越多其表达能力越强，但是通过梯度下降方法训练深度全连接神经网络很困难，因为全连接神经网络的梯度很难传递超过3层。因此，我们不可能得到一个很深的全连接神经网络，也就限制了它的能力。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种文本无关的声纹识别方法，使用卷积神经网络来改进该神经网络嵌入结构，对统计汇聚层输出的数据，尝试使用一维卷积操作，并使用最大值汇聚层进行降维，增加卷积层数，从而进行深层特征提取，这样提升了模型的性能，且使用余弦距离作为评分标准使得该过程更快，更简单。

为实现上述目的，本发明所提供的技术方案为：一种文本无关的声纹识别方法，包括以下步骤：

1)声纹识别模型训练

1.1)语音信号预处理；

1.2)语音帧级操作；

1.3)统计汇聚层汇总帧级输出；

1.4)一维卷积操作；

1.5)全连接层输出说话人分类；

2)提取嵌入：模型训练完成之后，将注册语音与测试语音输入声纹识别模型，提取嵌入；

3)决策评分：注册语音与测试语音的嵌入使用余弦距离计算其得分，做出最终决定接受或拒绝。

在步骤1.1)中，将语料库中每段语音以25ms分帧，并进行语音活动检测，从声音信号流里识别和消除长时间的静音期，生成20维梅尔频谱倒谱系数MFCC，附加一阶及二阶差分系数生成每帧共60维的MFCC特征向量作为输入。

在步骤1.2)中，模型训练网络结构的前5层在帧级别上操作，具有时延架构，假设t是当前的帧，在输入端，将{t-2，t-1，t，t+1，t+2}处的帧的梅尔频谱倒谱系数MFCC拼接在一起，接下来的两层分别拼接前一层在时间{t-2，t，t+2}和{t-3，t，t+3}处的输出，之后的两层也在帧级别进行操作，但没有任何附加的帧，总共该网络的帧级部分具有t-7到t+7共15帧。

在步骤1.3)中，统计汇聚层接收最后帧级层的输出作为输入，汇总一段语音所有帧输入并计算其均值，假设一段语音被分成总共T帧，统计汇聚层汇总来自帧级层第五层的所有T帧输出并计算其平均值，统计量为3200维向量，对于每个输入语音只计算一次，此过程在时间维度上聚合信息，以便后续层在整个语音上运行操作。

在步骤1.4)中，对统计汇聚层的输出，使用一维卷积进行处理，共5层卷积层，前两层卷积层使用256个大小为5的卷积核，步长为2，第三、四、五卷积层使用256个大小为3的核，步长为1，每个卷积层后接一个最大值汇聚层。

在步骤1.5)中，连接两个全连接层，两个全连接层的激活函数分别为ReLU和Softmax，最后一个全连接层的输出为N个说话人分类。

在步骤2)中，在模型训练完成之后，在全连接层第一层非线性化之前提取嵌入，即1024维向量输出。

在步骤3)中，注册语音与测试语音的嵌入使用余弦距离计算其得分，并与阈值进行比较，做出最终决定接受或拒绝，得分大于阈值则拒绝，小于阈值则接受，公式如下：

其中，w₁,w₂分别为注册语音和测试语音嵌入，score(w₁,w₂)表示余弦距离，<w₁,w₂>为注册语音嵌入和测试语音嵌入的点积，||w₁||,||w₂||分别为注册语音嵌入和测试语音嵌入的长度，θ为预设的阈值。

本发明与现有技术相比，具有如下优点与有益效果：

1、卷积网络中每个神经元不再和上一层的所有神经元相连，而只和一小部分神经元相连。这样就减少了很多参数。

2、一组连接可以共享同一个权重，而不是每个连接有一个不同的权重，这样又减少了很多参数。

3、使用最大值汇聚层来减少每层的样本维度，进一步减少参数数量，同时还可以提升模型的鲁棒性。

4、余弦距离作为说话人验证的决策评分使得该过程更快，更简单。

附图说明

图1为本发明方法的逻辑流程图。

图2为本发明的声纹识别模型训练流程图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

如图1所示，本实施例所提供的文本无关的声纹识别方法，分为三个阶段：声纹识别模型训练，提取嵌入，决策评分。

首先进行声纹识别模型的训练，选择合适的语料库，如使用AISHELL-ASR0009-OS1开源中文语音数据库，其中包含训练库与测试库。

如图2所示，声纹识别模型训练步骤如下：

1)语音信号预处理

将语料库中每段语音以25ms分帧，并进行语音活动检测，从声音信号流里识别和消除长时间的静音期，生成20维梅尔频谱倒谱系数MFCC，附加一阶及二阶差分系数，最终生成每帧共60维的MFCC特征向量作为输入。

2)语音帧级操作

该声纹模型网络结构的前5层在帧级别上操作，具有时延架构。假设t是当前的帧。在输入端，我们将{t-2，t-1，t，t+1，t+2}处的帧的MFCC拼接在一起。接下来的两层分别拼接前一层在时间{t-2，t，t+2}和{t-3，t，t+3}处的输出。之后的两层也在帧级别进行操作，但没有任何附加的帧。总共该网络的帧级部分具有t-7到t+7共15帧。

3)统计汇聚层汇总帧级输出

统计汇聚层接收最后帧级层的输出作为输入，汇总一段语音所有帧输入并计算其均值。假设一段语音被分成总共T帧，统计汇聚层汇总来自帧级层第五层的所有T帧输出并计算其平均值。统计量为3200维向量，对于每个输入语音只计算一次。此过程在时间维度上聚合信息，以便后续层在整个语音上运行操作。

4)一维卷积操作

对统计汇聚层的输出，使用一维卷积进行处理。前两层卷积层使用256个大小为5的卷积核，步长为2，第三、四、五卷积层使用256个大小为3的核，步长为1，每个卷积层后接一个最大值汇聚层。

5)全连接层输出说话人分类。

连接两个全连接层，两个全连接层的激活函数分别为ReLU和Softmax，最后一个全连接层的输出为N个说话人分类。

帧级别操作和统计汇聚层的网络结构如表1所示：

表1帧级别操作和统计汇聚层网络结构

层	每层所包含帧	总上下文帧数	输入→输出
				帧级第一层	[t-2,t+2]	5	300→1024
帧级第二层	{t-2,t,t+2}	9	3072→1024
				帧级第三层	{t-3,t,t+3}	15	3072→1024
帧级第四层	{t}	15	1024→1024
				帧级第五层	{t}	15	1024→3200
统计汇聚层	[0,T]	T	3200T→3200

卷积层与全连接层网络结构如表2所示：

表2卷积层与全连接层网络结构

对每段语音的MFCC进行上面2)～5)步操作，不断更新卷积核以及全连接层参数，完成对声纹识别模型的训练。

提取嵌入：模型训练完成后，使用语料库中的测试库语音进行测试，将注册语音与测试语音输入声纹识别模型，在识别模型全连接层第一层非线性化之前提取嵌入，即1024维向量输出。

决策评分：注册语音与测试语音的嵌入使用余弦距离计算其得分，并与阈值进行比较，做出最终决定接受或拒绝，得分大于阈值则拒绝，小于阈值则接受。公式如下：

其中w₁,w₂分别为注册语音嵌入和测试语音嵌入，score(w₁,w₂)表示余弦距离，<w₁,w₂>为注册语音嵌入和测试语音嵌入的点积，||w₁||,||w₂||分别为注册语音嵌入和测试语音嵌入的长度，θ为预设的阈值。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种文本无关的声纹识别方法，其特征在于，包括以下步骤：

1)声纹识别模型训练

1.1)语音信号预处理；

1.2)语音帧级操作；

1.3)统计汇聚层汇总帧级输出；

1.4)一维卷积操作；

1.5)全连接层输出说话人分类；

2.根据权利要求1所述的一种文本无关的声纹识别方法，其特征在于：在步骤1.1)中，将语料库中每段语音以25ms分帧，并进行语音活动检测，从声音信号流里识别和消除时间长度超过预设值的静音期，生成20维梅尔频谱倒谱系数MFCC，附加一阶及二阶差分系数生成每帧共60维的MFCC特征向量作为输入。

3.根据权利要求1所述的一种文本无关的声纹识别方法，其特征在于：在步骤1.2)中，模型训练网络结构的前5层在帧级别上操作，具有时延架构，假设t是当前的帧，在输入端，将{t-2，t-1，t，t+1，t+2}处的帧的梅尔频谱倒谱系数MFCC拼接在一起，接下来的两层分别拼接前一层在时间{t-2，t，t+2}和{t-3，t，t+3}处的输出，之后的两层也在帧级别进行操作，但没有任何附加的帧，总共该网络的帧级部分具有t-7到t+7共15帧。

4.根据权利要求1所述的一种文本无关的声纹识别方法，其特征在于：在步骤1.3)中，统计汇聚层接收最后帧级层的输出作为输入，汇总一段语音所有帧输入并计算其均值，假设一段语音被分成总共T帧，统计汇聚层汇总来自帧级层第五层的所有T帧输出并计算其平均值，统计量为3200维向量，对于每个输入语音只计算一次，此过程在时间维度上聚合信息，以便后续层在整个语音上运行操作。

5.根据权利要求1所述的一种文本无关的声纹识别方法，其特征在于：在步骤1.4)中，对统计汇聚层的输出，使用一维卷积进行处理，共5层卷积层，前两层卷积层使用256个大小为5的卷积核，步长为2，第三、四、五卷积层使用256个大小为3的核，步长为1，每个卷积层后接一个最大值汇聚层。

6.根据权利要求1所述的一种文本无关的声纹识别方法，其特征在于：在步骤1.5)中，连接两个全连接层，两个全连接层的激活函数分别为ReLU和Softmax，最后一个全连接层的输出为N个说话人分类。

7.根据权利要求1所述的一种文本无关的声纹识别方法，其特征在于：在步骤2)中，在模型训练完成之后，在全连接层第一层非线性化之前提取嵌入，即1024维向量输出。

8.根据权利要求1所述的一种文本无关的声纹识别方法，其特征在于：在步骤3)中，注册语音与测试语音的嵌入使用余弦距离计算其得分，并与阈值进行比较，做出最终决定接受或拒绝，得分大于阈值则拒绝，小于阈值则接受，公式如下：