CN112397074A

CN112397074A - 基于mfcc和向量元学习的声纹识别方法

Info

Publication number: CN112397074A
Application number: CN202011220705.6A
Authority: CN
Inventors: 林科; 满瑞
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2021-02-23

Abstract

本发明公开了一种基于MFCC和向量元学习的声纹识别方法，包括如下步骤：语音预处理；特征提取步骤；模型训练步骤；模式匹配步骤。这种方法，分类精细，识别准确率高。

Description

基于MFCC和向量元学习的声纹识别方法

技术领域

本发明涉及声纹识别领域，具体是一种基于MFCC和向量元学习的声纹识别方法。

背景技术

声纹识别，也称作说话人识别，是一种通过声音判别说话人身份的技术。从直觉上来说，声纹虽然不像人脸、指纹的个体差异那样直观可见，但由于每个人的声道、口腔和鼻腔也具有个体的差异性，因此反映到声音上也具有差异性。如果说将口腔看作声音的发射器，那作为接收器的人耳生来也具备辨别声音的能力。

MFCC：梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients)，将时域的语音变为频域，对频域的信号进行分段滤波，得出不同频率段的占比，所得到的占比系数组成的矩阵即梅尔倒频谱系数。

元学习：从网络结构角度讲，元学习由两种网络组成——meta-net和net，一方面net从meta-net中获取知识，另一方面meta-net观察net的表现改进自身。

原型网络：先把样本投影到一个空间，计算每个样本类别的中心，在分类的时候，把输入投影到新的特征空间，通过神经网络，把输入(比如图像)转化为一个新的特征向量，使得同一类的向量之间的距离比较接近，不同类的向量距离比较远。同时，计算每个类别的均值表示该类的原型prototype。通过对比目标到每个中心的距离，从而分析出目标的类别。

目前常用的声纹识别的主流方法有动态时间规整(DTW)、隐马尔科夫刚理论(HMM)、矢量量化(VQ)等。然而，这些方法都具有识别的准确率较低、需要进行大量的计算、缺乏动态的训练或者过度依赖原话者等缺点。

对于原型网络而言，其应用的范围不仅仅在单样本/小样本的学习过程中，同时还可以应用在零样本的学习方式。对于这种应用的思路是：尽管我们没有当前分类的数据样本，但是如果能够在更高的层次中生成分类的原型表示(元信息)。

发明内容

针对现有声纹识别主流算法的缺陷，本发明的目的是提供基于MFCC和向量元学习的声纹识别方法。这种方法，分类精细，识别准确率高。

基于MFCC和向量元学习的声纹识别方法，包括如下步骤：

语音预处理：录制语音信号，得到语音数据集，将语音数据集分为训练集和测试集，然后将语音数据集内的所有语音信号进行语音数据增强和语音预加重处理；

特征提取步骤：采用MFCC对语音预处理后的训练集中的语音信号进行特征提取，得到MFCC特征参数；

模型训练步骤：将训练集语音信号的MFCC特征参数输入原型网络中进行模型训练；

模式匹配步骤：从测试集待识别语音信号中提取MFCC特征参数，输入训练好的原型网络中计算，使用欧几里得距离作为距离度量，被识别语音所提取的特征量必须与训练得到的每个人的模型特征参数进行比较，找到相似度最近的那个作为辨认的结果。

所述语音预处理步骤包括：

语音数据增强子步骤：通过SEEED的语音采集板采集人们平时说话的语音信号，通过praat软件对采集的语音信号正向播放、倒向播放和随机删减部分片段，来对语音信号进行增强操作；

语音预加重：将语音信号通过一个高通滤波器，提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，同时消除发声过程中声带和嘴唇的效应，来补偿语音信号受到发音***所抑制的高频部分，突出高频的共振峰。

所述特征提取步骤包括：

预加重子步骤：将语音信号通过滤波器提升高频部分；

分帧子步骤：对预加重后的语音信号进行分帧；

汉明窗子步骤：将分帧后的语音信号的每帧乘以汉明窗；

快速傅里叶变换子步骤：对汉明窗后的每一帧语音信号进行快速傅里叶变换，得到能量谱；

三角带通滤波子步骤：将能量谱输入三角带通滤波器组，平滑化频谱，消除谐波的作用，突显原先语音的共振峰；

对数能量计算子步骤：计算每个三角带通滤波器输出的对数能量；

离散余弦变换子步骤：将计算得到的对数能量代入离散余弦变换，得到MFCC特征参数；

动态差分参数子步骤：通过MFCC的差分谱来表示语音信号的动态特性，得到多维MFCC特征参数。

所述预加重子步骤包括：

H(Z)＝1-μz^-1 (1)，

其中，μ的值介于0.9-1.0之间，Z为预加重之后的语音信号，z为预加重之前的语音信号。

所述分帧子步骤包括：

先将N个采样点集合成一个观测单位，称为帧，通常情况下N的值为256或512，涵盖的时间约为20～30ms，为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，通常M的值约为N的1/2或1/3，通常语音识别所采用语音信号的采样频率为8KHz或16KHz，以8KHz来说，若帧长度为256个采样点，则对应的时间长度是256/8000×1000＝32ms。

所述汉明窗子步骤包括：

将每一帧乘以汉明窗，以增加帧左端和右端的连续性，假设分帧后的信号为S(n),n＝0,1…,N-1,N为帧的大小，那么乘上汉明窗后

S′(n)＝S(n)×W(n)

其中，W(n)表示汉明窗，不同的a值会产生不同的汉明窗，一般情况下a取0.46；

所述三角带通滤波器组包括40个三角带通滤波器，所述离散余弦变换子步骤将计算得到的40个对数能量代入离散余弦变换，得到13阶MFCC。

所述模型训练步骤中，原型网络算法包括：

主要思想：把样本空间投影，即嵌入到一个低维空间，利用样本在低维空间的相似度做分类，然后在低维空间中找到每个分类的聚类中心，用距离函数测新的样本的分类；

假设当前的数据集为D，其内部的样本的表示形式为{(x₁,y₁),(x₂,y₂),...,(x_n,y_n)}，其中x表示向量表示，y表示分类标签，假设有K个分类，每个类N个样本，其中N可以分成N_s和N_Q(N＝N_s+N_Q)，对应的样本集合分别记为S_k支持集和Q_k查询集；

对于支持集内部的样本点，使用编码公式

来为每一个分类生成一个原型表示，这里的编码公式

可以是任意的一种信息抽取的方式，例如CNN，LSTM；

对于每一个分类，生成其原型表示为：

其中

表示提取出来的特征；

然后计算查询集与支持集的原型表示的距离情况；

最后计算当前样本属于每一个分类的概率p_w(y＝k∣x)，这里使用softmax的计算方式：

其中d()是距离函数，c是每个类的聚类中心，在知道每类样本的聚类中心后，就可以刻画样本x属于哪个类，用距离函数和softmax函数表示，x属于第k个分类的概率如公式(4)所示；

最终，求网络

的参数

用到的损失函数为

已知样本x对应的第k类目标函数如公式(5)所示，采用随机梯度下降法最小化目标函数，即能得到最优参数

所述模式匹配步骤，包括：

对于支持集中的每一个样本点生成一个编码表示，通过求和平均的方式来生成每一个分类的原型表示，同时，对于查询样本，也对其生成一个向量表示；

同时需要计算每一个查询点和每一个分类原型表示的距离情况，并计算softmax概率结果，生成对于各个分类的概率分布情况，概率最高的类别即为该测试数据的类别标签。

本技术方案方法，能识别出在训练过程中从未见过的新的类别，并且对于每个类别只需要很少的样例数据。原型网络将每个类别中的样例数据映射到一个空间当中，并且提取他们的“均值”来表示为该类的原型。使用欧几里得距离作为距离度量，训练使得本类别数据到本类原型表示的距离为最近，到其他类原型表示的距离较远。测试时，对测试数据到各个类别的原型数据的距离做softmax，来判断测试数据的类别标签。由于识别的主要过程是基于向量元学习的原型网络模型来实现，因此能够更好的分类，解决现有声纹识别方法识别准确率低的问题。

这种方法，分类精细，识别准确率高。

附图说明

图1是实施例的的整体流程示意图；

图2是实施例中声纹识别的部分实现流程图；

图3是实施例中训练架构图；

图4是实施例中原型网络的整体构架图；

图5是实施例中元学习技术的基本架构图；

图6是实施例中建模流程图。

具体实施方式

下面结合附图和实施例对本发明做进一步阐述，但不是对本发明的限定。

实施例：

对于说话人辨认来说，被识别语音所提取的特征量必须与训练得到的每个人的模型特征参数进行比较，找到相似度最近的那个作为辨认的结果。而对于说话人确认而言，只需要将输入语音特征参数与声明的说话人语音模板特征参数进行比较，通过相应的方法确定两个参量是否匹配，若匹配则确认，否则拒绝。

声波在每一段时间都有对应的波幅，为了将声波转换为数字，将以等距的方式将声波隔开，记录下声波在等距点的高度，称为波特率，一般人的发声频率是100Hz—10000Hz之间，而采样频率的选取通常由奈奎斯特采样定理确定，如图6所示，因此本例采用1.6KHz作为采样频率，本例采用ADMP401麦克风拾音器模块对语音信号进行采集，该放大器的增益达到67dB，输出的是AD信号，方便采集，在声纹识别中，由于语音信号的功率谱受到嘴唇和鼻子辐射的影响，会随着信号的频率增加而降低，所以为了使语音信号的频谱分布更加均匀，应该将信号高频部分的频谱进行提升处理，以降低语音信号的低频干扰，然后将得到的信号，送入基于python语言下的处理平台的模型下进行训练，如图3所示。

参照图1、图2，基于MFCC和向量元学习的声纹识别方法，包括如下步骤：

模式匹配步骤：从测试集待识别语音信号中提取MFCC特征参数，输入训练好的原型网络中计算，原型网络的整体架构如图4所示，使用欧几里得距离作为距离度量，被识别语音所提取的特征量必须与训练得到的每个人的模型特征参数进行比较，找到相似度最近的那个作为辨认的结果。

所述语音预处理步骤包括：

所述特征提取步骤包括：

预加重子步骤：将语音信号通过滤波器提升高频部分；

分帧子步骤：对预加重后的语音信号进行分帧；

汉明窗子步骤：将分帧后的语音信号的每帧乘以汉明窗；

快速傅里叶变换子步骤：对汉明窗后的每一帧语音信号进行快速傅里叶变换，得到能量谱；三角带通滤波子步骤：将能量谱输入三角带通滤波器组，平滑化频谱，消除谐波的作用，突显原先语音的共振峰；

所述预加重子步骤包括：

H(Z)＝1-μz^-1 (1)，

其中，μ的值介于0.9-1.0之间，Z为预加重之后的语音信号，z为预加重之前的语音信号。所述分帧子步骤包括：

所述汉明窗子步骤包括：

S′(n)＝S(n)×W(n)

所述模型训练步骤中，原型网络算法包括：

此时得到的MFCC是一个二维的数据，然后利用卷积神经网络的思想来提取MFCC的抽象信息，即声纹特征图，本例训练的网络架构为ResNet18，采用ResNet18的主要考虑是网络较为轻量，训练高效稳定；

本例在实际语音训练中，支持集一共有5个人，每个人一共5段语音，查询集仍然为该5人，每人15段语音，每个人的语音时长设定为5秒；

对于支持集内部的样本点，使用编码公式

来为每一个分类生成一个原型表示，这里的编码公式

可以是任意的一种信息抽取的方式，；

对于每一个分类，生成其原型表示为：

其中

表示提取出来的特征；

然后计算查询集与支持集的原型表示的距离情况；

最终，求网络

的参数

用到的损失函数为

传统的算法策略是采用双阈值法进行判断，当进入语音段时，短时能量和短时过零率曲线逐渐增大，直到进入无声段时又逐渐变小，但在语音段的开始和结尾的清音段，短时能量几乎为零而短时过零率却比较大，因此单纯的将短时能量作为判据进行端点检测时，易将语音信号的清音和尾音段截去，并不能完整的截取语音段，因此需要把短时过零率作为第二级判定，本例方法，需要对信号进行切片，分析时采用20ms切片，此时可以采用FFT变换的方法得到相应的波形，一旦有了这些单独的声波，将每一份频段所包含的能量相加，就能形成新的音频片段特征，针对声学模型的一般特性，提出了基于MFCC和MEL等等其他信号变换策略，MFCC是在Mel标度频率域提取出来的倒谱参数，Mel标度描述了人耳频率的非线性特性，它与频率的关系可用下式近似表示：

将上述获得的语音信号的MFCC特征参数输入向量元学习下的原型网络中进行模型训练，原型网络如图4所示，将每个类别中的样例数据映射到一个空间当中，并且提取他们的“均值”来表示为该类的原型，再使用欧几里得距离作为距离度量，训练使得本类别数据到本类原型表示的距离为最近，到其他类原型表示的距离较远；测试时，对测试数据到各个类别的原型数据的距离做softmax，来判断测试数据的类别标签，从而对声纹进行识别。

对于原型网络而言，其应用的范围不仅仅在单样本/小样本的学习过程中，同时还可以应用在零样本的学习方式中，对于这种应用的思路是：尽管没有当前分类的数据样本，但是如果能够在更高的层次中生成分类的原型表示，即元信息，如图5所示，通过这种元信息，也可以完成相应的计算，完成相应的分类任务；

所述模式匹配步骤，包括：

本例方法与其他传统声纹识别算法对比的结果如表1所示：

表1

结果如表1所示，本例方法达到了更高的识别率。