CN115457968B

CN115457968B - 基于混合分辨率深度可分卷积网络的声纹确认方法

Info

Publication number: CN115457968B
Application number: CN202211030964.1A
Authority: CN
Inventors: 孙泓宽; 李艳雄; 林一江
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-08-26
Filing date: 2022-08-26
Publication date: 2024-07-05
Anticipated expiration: 2042-08-26
Also published as: CN115457968A

Abstract

本发明公开了一种基于混合分辨率深度可分卷积网络的声纹确认方法，步骤如下：首先，从语音样本提取梅尔倒谱系数；接着，将提取出的梅尔倒谱系数输入混合分辨率深度可分卷积网络进行特征变换得到说话人表征矢量；然后，将得到的说话人表征矢量与注册声纹库中的相应说话人表征均值矢量一起输入后端判决模块进行相似度评分，实现声纹确认。本发明采用多个不同尺寸的卷积核对输入特征进行分组卷积操作，获取多种分辨率的说话人区分性信息，提高声纹确认性能。与采用基于单一分辨率卷积网络的传统方法相比，本发明方法不但减少了参数量、降低了计算复杂度，而且声纹确认的等错误率低。

Description

基于混合分辨率深度可分卷积网络的声纹确认方法

技术领域

本发明涉及语音信号处理技术领域，具体涉及一种基于混合分辨率深度可分卷积网络的声纹确认方法。

背景技术

声纹是对语音中所蕴含的、能有效表征和标识说话人身份的语音特征参数及基于这些特征参数所建立的语音模型的总称。声纹识别有着诸多优势，比如声纹语料收集自然、不受光线或隐私等特定场景的约束，人们的接受程度更高。声纹识别也有着许多应用场景，如利用声纹识别进行社会保险的领取，使得退休老年人可以在家完成，给老年人带来了极大的方便，同时也为社保机构免去诸多人力、物力、行政以及时间的成本；因此，该发明具有较强的实际意义。

传统单分辨率卷积神经网络虽然在声纹确认等任务上取得了一定的效果，但是一方面存在网络参数量大、计算复杂度高、表征说话人区分性信息不全面等问题，另一方面是较易出现过拟合的情况。而网络参数量和计算复杂度都是十分重要的指标，较小的网络可以高效地进行分布式训练。本发明构建的混合分辨率深度可分卷积网络在语音处理上选择梅尔倒谱系数，其对不影响内容的语音属性具有鲁棒性；在网络设计上使用了非均分的通道输入和不同分辨率的卷积核，从而显著减少了网络参数量并有效降低了计算复杂度；结合后端判决模块可以有效表征说话人区分性信息，得到更好的声纹确认效果。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，提供一种基于混合分辨率深度可分卷积网络的声纹确认方法，给人员的身份确认带来了方便，提高了识别的效率。

本发明的目的可以通过采取如下技术方案达到：

一种基于混合分辨率深度可分卷积网络的声纹确认方法，所述声纹确认方法包括下列步骤：

S1、将语音数据集分为训练集、注册集和测试集；

S2、从语音数据集的各语音样本中提取梅尔倒谱系数(Mel Frequency CepstralCoefficents，MFCC)，以下梅尔倒谱系数简称MFCC特征；

S3、设计混合分辨率深度可分卷积模块(Mixed-resolution DepthwiseSeparable Convolution Block,MrDSCB)，以下混合分辨率深度可分卷积模块简称MrDSCB，基于混合分辨率深度可分卷积模块构建混合分辨率深度可分卷积网络(Mixed-resolutionDepthwise Separable Convolution Network，MrDSCN)，以下混合分辨率深度可分卷积网络简称MrDSCN；

S4、将训练集的MFCC特征输入MrDSCN进行网络训练；将注册集的MFCC特征输入已训练MrDSCN得到说话人表征(Speaker Embedding)矢量，建立注册声纹库；

S5、设计后端判决模块，后端判决模块采用余弦距离进行相似度评分；

S6、利用测试语音样本进行声纹确认。

进一步地，所述步骤S2包括：

S2.1、预加重：利用预加重提高高频分量，即对高频分量进行补偿。对于n时刻语音的采样值x[n]，经过预加重处理后得到输出：x′[n]＝x[n]-α*x[n-1]，α为常数，α∈[0.9,1]；

S2.2、分帧：预加重后，将语音切分成固定长度的语音帧；其原因是因为信号中的频率会随时间变化，为了避免信号的频率轮廓随着时间的推移而丢失，需要对信号进行分帧处理，认为每一帧之内的信号是短时不变的；第r帧语音表示为x′_r(n)，其中1≤r≤R，0≤n≤N-1，R和N分别表示帧数和每帧语音的采样点数；

S2.3、加窗：利用加窗使帧两端平滑地衰减，降低后续傅里叶变换旁瓣的强度，从而得到更高质量的频谱；将分帧后的信号x′_r(n)与窗函数w(n)相乘得到分帧加窗后的信号s_r(n)，其中窗函数采用汉明窗，记为：

S2.4、提取MFCC特征。

进一步地，所述步骤S2.4过程如下：

S2.4.1、对每帧语音做离散傅立叶变换，将时域信号转换为频域信号；记第r帧语音的线性频谱为S_r(k)：

其中k表示第k个频点；

S2.4.2、构造由若干个三角带通滤波器组成的梅尔滤波器，第m个三角带通滤波器的传递函数记为H_m(k),0≤m≤M，其中M为三角带通滤波器个数，则：

其中f(m)表示第m个三角滤波器的中心频率，梅尔频率与频率的转换为：线性频谱S_r(k)经过梅尔滤波器滤波后得到梅尔频谱F_r(m)，即FBank特征，记为:

S2.4.3、对上述FBank特征进行离散余弦变换，得到每帧语音的MFCC特征，其中第r帧语音的MFCC特征记为：

其中M为三角滤波器的个数。

S2.4.4、对每帧语音信号重复步骤S2.4.1-S2.4.3，得到所有语音帧的MFCC特征。

进一步地，所述混合分辨率深度可分卷积网络包括卷积层、若干混合分辨率深度可分卷积模块、平均池化层、线性全连接层，其中，不同大小的深度可分卷积模块间使用线性残差连接，即前一个模块的输出再经过一层线性残差卷积层与后一个模块的输出相加；网络末端使用平均池化层来减少网络中的参数量，也可以有效控制过拟合；每个混合分辨率深度可分卷积模块由混合分辨率深度可分卷积层、ReLU层、最大池化层组成；所述线性全连接层作为网络输出层，用于输出说话人表征矢量；其中Relu层可以将非线性引入网络，使一部分神经元的输出为0，这样就会使网络稀疏，并且减少了参数间的相互依存关系，缓解了过拟合问题的发生。

进一步地，所述混合分辨率深度可分卷积模块在通道维度上对输入的特征进行非均匀分组，各组占比i∈[1,I-1]，其中I是分成的组数；按照分组分离通道，得到I组包含不同通道数的子块特征；相比均匀分组，非均匀分组可以使更多的特征通过更小的卷积核，增大感受野的同时减少了计算复杂度；

对于每一组子块特征使用不同尺寸的卷积核进行逐通道卷积操作，其中较小尺寸的卷积核对特征中的局部细节信息的获取效果好，而较大尺寸的卷积核能在更大视野内获取全局轮廓信息；为了减少网络的复杂度从而使其能够被部署在低计算资源的终端，本发明对包含较多通道数的子块特征使用较小尺寸的卷积核进行逐通道卷积操作，同时设定每一组子块特征卷积输出通道数与本子块特征包含的通道数一致，并对卷积结果的边缘补零填充，得到大小与原分组子块特征一致的输出子块特征；

将I组输出子块特征沿着通道维度进行拼接；将上述拼接得到的特征进行逐点卷积实现通道间参数共享，得到含有设定输出通道数的卷积层输出特征。

进一步地，所述混合分辨率深度可分卷积模块中输入特征图大小是C×H×W，其中C是输入特征通道数，H和W是输入特征图的高和宽；输出特征图大小是C′×H′×W′，其中C′是输出特征图通道数，H′和W′是输出特征图的高和宽；

每一个子块特征包含的通道数分别为：

选取I种不同尺寸的卷积核分别对I个子块特征进行逐通道卷积操作，1≤i≤I，设选取卷积核的尺寸分别为K₁,K₂,…,K_i,…,K_I，其中K_i为对应第i个子块特征的卷积核的尺寸，且K₁<K₂<…<K_i<…<K_I；设使用单一分辨率卷积核的常规卷积层使用尺寸为K₁的卷积核，则使用单一分辨率卷积核的常规卷积层参数量为C×K₁×K₁×C′，计算复杂度为C×K₁×K₁×C′×H′×W′；而在本发明的混合分辨率深度可分卷积层中，参数量和复杂度分别为和由此知，本发明设计的混合分辨率深度可分卷积层的参数量和计算复杂度均是常规卷积层的

即网络参数量与计算复杂度均得到了降低；

在相邻两个卷积层之间使用一个ReLU激活函数层，ReLU函数定义为：

R(v)＝max(0,a^Tv+b)

其中a为权值，v为激活向量，b为偏置；

本发明使用最大池化滤波器对特征图进行池化，主要目的是对特征图进行降采样，保留特征图中主要信息的同时减少网络参数量和计算复杂度。

进一步地，所述步骤S4过程如下：

S4.1、采用步骤S2提取训练集各语音样本的MFCC特征；

S4.2、将训练集中各语音样本的MFCC特征输入MrDSCN，得到各语音样本的说话人表征矢量；

S4.3、采用注册集中说话人的语音样本建立注册声纹库，设第i个说话人的语音样本集为O_i＝{O_i1,O_i2,…,O_ij,…,O_in}，其中O_ij表示说话人i的第j条语音样本，将O_i的MFCC特征输入MrDSCN得到n个说话人表征矢量，计算说话人i的n个说话人表征矢量的平均值，得到说话人i的说话人表征均值矢量，此说话人表征均值矢量唯一对应一个说话人；将全部说话人都进行上述操作，得到全部说话人的说话人表征均值矢量，组成说话人注册声纹库。

进一步地，所述步骤S5过程如下：

后端判决模块的输入为测试语音的说话人表征矢量与注册声纹库中相应说话人的说话人表征均值矢量；计算上述两者之间的余弦距离，并和设定的阈值进行比较，当计算得到的余弦距离大于阈值，则测试语音的说话人是注册声纹库中的相应说话人；当计算得到的余弦距离小于阈值，则测试语音的说话人不是注册声纹库中的相应说话人；进一步地，余弦距离d定义为：

其中V₁和V₂为两个说话人表征矢量，||·||表示矢量的L-2范数；使用两者之间的余弦距离进行判决计算简便，且效果较好。

进一步地，所述步骤S6过程如下：

S6.1、将测试集中的测试语音样本的MFCC特征输入训练好的MrDSCN，得到该测试语音样本的说话人表征矢量；

S6.2、将该测试语音样本的说话人表征矢量与注册声纹库中的相应说话人表征均值矢量一起输入后端判决模块得到上述两者的余弦距离，并根据余弦距离值与设定阈值的大小进行判决，实现说话人确认。

本发明相对于现有技术具有如下的优点及效果：

1、本发明方法采用多种分辨率的卷积核对多个子块特征进行卷积操作，与采用单一分辨率卷积核的传统卷积相比，大卷积核可以获取高分辨率模式信息，有利于获得较多的全局信息，小卷积核可以捕捉低分辨率信息以达到更好的模型准确率和效率，混合分辨率卷积核有利于适应不同分辨率的情况，能够提取出更全面的说话人区分性信息，从而获得更优的说话人声纹确认效果。

2、本发明方法在使用混合分辨率卷积核基础上将输入特征非均分地切分成多个子特征，通道数较少的子特征通过较大的卷积核，不仅可以增大感受野，而且与均分地切分相比，可以有效地减少网络参数量和计算量，使得网络更加轻量化，同时本发明方法的声纹确认性能也更好。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明公开的基于混合分辨率深度可分卷积网络的声纹确认方法的流程步骤图；

图2是本发明公开的基于混合分辨率深度可分卷积网络卷积层示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示为本发明的实施例的流程图，具体步骤如下：

S1、将退休人员的语音数据集按照6:3:1分为训练集，注册集和测试集；

S2、从语音数据集的各语音样本中提取MFCC特征；

S2.1、预加重：对于n时刻语音的采样值x[n]，经过预加重处理后得到输出：x′[n]＝x[n]-α*x[n-1]，α取0.97；

S2.2、分帧：预加重后，将语音切分成固定长度的语音帧，第r帧语音表示为x′_r(n)，其中1≤r≤R，0≤n≤N-1，R和N分别表示帧数和每帧语音的采样点数，其中R取128，N取512；

S2.3、加窗：将分帧后的信号x′_r(n)与窗函数w(n)相乘得到分帧加窗后的信号s_r(n)，窗函数采用汉明窗，记为：

S2.4、提取MFCC特征；

S2.4.1、对每帧语音做离散傅立叶变换，记第r帧语音的线性频谱为S_r(k)：0≤k≤N-1；

S2.4.2、构造由若干个三角带通滤波器组成的梅尔滤波器，第m个三角带通滤波器的传递函数记为H_m(k),0≤m≤M，其中M为三角带通滤波器个数，取M＝39，则：

其中M为三角滤波器的个数。

S3、设计混合分辨率深度可分卷积模块，基于混合分辨率深度可分卷积模块构建混合分辨率深度可分卷积网络；

S3.1、混合分辨率深度可分卷积网络包括由卷积层、若干混合分辨率深度可分卷积模块、平均池化层、线性全连接层，其中，不同大小的深度可分卷积模块间使用线性残差连接，即前一个模块的输出再经过一层线性残差卷积层与后一个模块的输出相加；每个混合分辨率深度可分卷积模块由混合分辨率深度可分卷积层、ReLU层、池化层组成；所述线性全连接层作为网络输出层，用于输出说话人表征矢量；

S3.2、模块内各层的具体设计；

S3.2.1、在通道维度上对输入的特征进行非均匀分组，各组通道数分别为输入通道数的得到三组包含不同通道数的子块特征；

S3.2.2、对于每一组子块特征使用不同尺寸的卷积核进行逐通道卷积操作，三种卷积核的尺寸分别是3×3、5×5、7×7，其中较小尺寸的卷积核对特征中的局部细节信息的获取效果好，而较大尺寸的卷积核能在更大视野内获取全局轮廓信息；为了减少网络的复杂度从而使其能够被部署在低计算资源的终端，本发明对包含较多通道数的子块特征使用较小尺寸的卷积核进行卷积操作，即对通道数为输入通道数的子块特征采用3×3卷积核、通道数为输入通道数的子块特征分别使用5×5卷积核和7×7卷积核；同时设定每一组子块特征卷积输出通道数与本子块特征包含的通道数一致，并对卷积结果的边缘补零填充，得到大小与原分组子块特征一致的输出子块特征；

S3.2.3、将三组输出子块特征沿着通道维度进行拼接；

S3.2.4、将上述拼接得到的特征进行逐点卷积实现通道间参数共享，得到含有设定输出通道数的卷积层输出特征；

S3.2.5、本发明方法使用36个卷积层，在每相邻两个卷积层之间使用一个ReLU激活函数层，ReLU函数定义为：

R(v)＝max(0,a^Tx+b)；

其中a为权值，取a＝(1,1,…,1)，v为激活向量，b为偏置，取b＝0；

S3.2.6、本发明使用3×3的最大池化滤波器以步长为2对特征图进行最大池化，主要目的是对特征图进行降采样，保留特征图中主要信息的同时减少网络参数量和计算复杂度。

S4、将训练集的MFCC特征输入MrDSCN进行网络训练，利用Adam优化器进行优化；将注册集的MFCC特征输入已训练MrDSCN得到说话人表征矢量，建立注册声纹库；

S4.1、采用步骤S2提取训练集各语音样本的MFCC特征；

S5、构建后端判决模块，后端判决模块采用余弦距离进行相似度评分，其步骤如下；

该模块的输入为测试语音的说话人表征矢量与注册声纹库中相应说话人的说话人表征均值矢量；计算上述两者之间的余弦距离，并和设定的阈值进行比较；假设阈值为0.5，则当计算得到的余弦距离大于0.5，则测试语音的说话人是注册声纹库中的相应说话人；当计算得到的余弦距离小于0.5，则判定为测试语音的说话人不是注册声纹库中的相应说话人；余弦距离其中V₁和V₂为两个说话人表征矢量，||·||表示矢量的L-2范数。

其中阈值的计算步骤如下：将训练集样本分为数量相等的正样本对与负样本对，其中正样本对的两个样本来自相同的说话人，负样本对的两个样本来自两个不同的说话人，正负样本对各有p对；将第i对正样本对的MFCC特征输入已训练的MrDSCN，得到该样本对中两个样本的说话人表征矢量V_i1和V_i2，计算V_i1和V_i2之间的余弦距离，记为d_i,i∈[1,p]；遍历全部正样本得到p个余弦距离，记为D＝(d₁,d₂,…,d_i,…,d_p)，设d_i对应的正样本对的数量记为y_i，则D对应的正样本对数量记为Y，其中Y＝(y₁,y₂,…,y_i,…,y_p)；当正样本对足够多时，以D为横坐标、Y为纵坐标作出正样本对的二维分布曲线；通过相同的方法，作出负样本对的二维分布曲线；取前述两条二维分布曲线峰值之间的交点为阈值点，并取阈值点的横坐标设定为后端判决模块的判决阈值。

S6、将测试集中的测试语音样本的MFCC特征输入训练好的MrDSCN，得到该测试语音样本的说话人表征矢量；将该测试语音样本的说话人表征矢量与注册声纹库中的相应说话人表征均值矢量一起输入后端判决模块得到上述两者的余弦距离，并根据余弦距离值与设定阈值的大小进行判决，实现说话人确认。

通过上述实施例，使用MrDSCN与如今主流的两个网络Resnet和Xception进行了对比，使用三个网络模型在同一数据集上训练至收敛。使用相同的测试集对三个网络进行性能测试，其结果如下：

表1.MrDSCN与Resnet、Xception比较表

网络模型	总参数量	总计算量(M Flops)	测试集准确率(ACC)
				ResNet	23,721,128	493.59	92％
Xception	9,719,568	274.4	94％
				MrDSCN	9,828,208	282.17	95％

其中提取的MFCC特征为(39，128)。由表可知，MrDSCN的总参数量与总计算量均少于ResNet，而与Xception非常接近；同时，在实施例1中，MrDSCN的准确率最高，在三者中表现最优。

实施例2

如图1所示为本发明的实施例的流程图，具体步骤如下：

S2、从语音数据集的各语音样本中提取MFCC特征；

S2.4、提取MFCC特征；

其中M为三角滤波器的个数。

S3.2、模块内各层的具体设计；

S3.2.1、在通道维度上对输入的特征进行非均匀分组，各组通道数分别为输入通道数的得到四组包含不同通道数的子块特征；

S3.2.2、对于每一组子块特征使用不同尺寸的卷积核进行逐通道卷积操作，四种卷积核的尺寸分别是3×3、5×5、7×7，9×9其中较小尺寸的卷积核对特征中的局部细节信息的获取效果好，而较大尺寸的卷积核能在更大视野内获取全局轮廓信息；为了减少网络的复杂度从而使其能够被部署在低计算资源的终端，本发明对包含较多通道数的子块特征使用较小尺寸的卷积核进行卷积操作，即对通道数为输入通道数的子块特征采用3×3卷积核、通道数为输入通道数的子块特征采用5×5卷积核、通道数为输入通道数的子块特征分别使用7×7卷积核和9×9卷积核；同时设定每一组子块特征卷积输出通道数与本子块特征包含的通道数一致，并对卷积结果的边缘补零填充，得到大小与原分组子块特征一致的输出子块特征；

S3.2.3、将四组输出子块特征沿着通道维度进行拼接；

R(v)＝max(0,a^Tx+b)；

S4.1、采用步骤S2提取训练集各语音样本的MFCC特征；

表2.MrDSCN与Resnet、Xception比较表

其中提取的MFCC特征为(39，128)。由表可知，MrDSCN的总参数量与总计算量均少于ResNet，而与Xception非常接近；同时，在实施例2中，MrDSCN的准确率最高，在三者中表现最优。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于混合分辨率深度可分卷积网络的声纹确认方法，其特征在于，所述声纹确认方法包括下列步骤：

S1、将语音数据集分为训练集、注册集和测试集；

S2、从语音数据集的各语音样本中提取梅尔倒谱系数，以下梅尔倒谱系数简称MFCC特征；

S3、设计混合分辨率深度可分卷积模块，以下混合分辨率深度可分卷积模块简称MrDSCB，基于混合分辨率深度可分卷积模块构建混合分辨率深度可分卷积网络，以下混合分辨率深度可分卷积网络简称MrDSCN；所述混合分辨率深度可分卷积网络包括卷积层、若干混合分辨率深度可分卷积模块、平均池化层、线性全连接层，其中，不同大小的深度可分卷积模块间使用线性残差连接，即前一个模块的输出再经过一层线性残差卷积层与后一个模块的输出相加；每个混合分辨率深度可分卷积模块由混合分辨率深度可分卷积层、ReLU层、池化层组成；线性全连接层作为网络输出层，用于输出说话人表征矢量；

所述混合分辨率深度可分卷积模块在通道维度上对输入的特征进行非均匀分组，各组占比其中I是分成的组数；按照分组分离通道，得到I组包含不同通道数的子块特征；

将I组输出子块特征沿着通道维度进行拼接，将拼接得到的特征进行逐点卷积实现通道间参数共享，得到含有设定输出通道数的卷积层输出特征；

所述混合分辨率深度可分卷积模块中输入特征图大小是C×H×W，其中C是输入特征通道数，H和W是输入特征图的高和宽；输出特征图大小是C′×H′×W′，其中C′是输出特征图通道数，H′和W′是输出特征图的高和宽；

每一个子块特征包含的通道数分别为：

选取I种不同尺寸的卷积核分别对I个子块特征进行逐通道卷积操作，1≤i≤I，设选取卷积核的尺寸分别为K₁，K₂，...，K_i，...，K_I，其中K_i为对应第i个子块特征的卷积核的尺寸，且K₁＜K₂＜…＜K_i＜…＜K_I；

R(v)＝max(0，a^Tv+b)

其中a为权值，v为激活向量，b为偏置；

S4、将训练集的MFCC特征输入MrDSCN进行网络训练；将注册集的MFCC特征输入已训练MrDSCN得到说话人表征矢量，建立注册声纹库；

S5、构建后端判决模块，后端判决模块采用余弦距离进行相似度评分；

S6、利用测试语音样本进行声纹确认。

2.根据权利要求1所述的基于混合分辨率深度可分卷积网络的声纹确认方法，其特征在于，所述步骤S2包括：

S2.1、预加重：对于n时刻语音的采样值x[n]，经过预加重处理后得到输出：x′[n]＝x[n]-α*x[n-1]，α为常数，α∈[0.9，1]；

S2.2、分帧：预加重后，将语音切分成固定长度的语音帧，第r帧语音表示为x′_r(n)，其中1≤r≤R，0≤n≤N-1，R和N分别表示帧数和每帧语音的采样点数；

S2.3、加窗：将分帧后的信号x′_r(n)与窗函数w(n)相乘得到分帧加窗后的信号s_r(n)，

S2.4、提取MFCC特征。

3.根据权利要求2所述的基于混合分辨率深度可分卷积网络的声纹确认方法，其特征在于，所述窗函数采用汉明窗，记为：

4.根据权利要求2所述的基于混合分辨率深度可分卷积网络的声纹确认方法，其特征在于，所述步骤S2.4过程如下：

S2.4.1、对每帧语音做离散傅立叶变换，记第r帧语音的线性频谱为S_r(k)：

其中k表示第k个频点；

S2.4.2、构造由若干个三角带通滤波器组成的梅尔滤波器，第m个三角带通滤波器的传递函数记为H_m(k)，0≤m≤M，其中M为三角带通滤波器个数，则：

其中f(m)表示第m个三角滤波器的中心频率，梅尔频率与频率的转换为：线性频谱S_r(k)经过梅尔滤波器滤波后得到梅尔频谱F_r(m)，即FBank特征，记为：

其中M为三角滤波器的个数；

5.根据权利要求1所述的基于混合分辨率深度可分卷积网络的声纹确认方法，其特征在于，所述步骤S4过程如下：

S4.1、采用步骤S2提取训练集各语音样本的MFCC特征；

S4.3、采用注册集中说话人的语音样本建立注册声纹库，设第i个说话人的语音样本集为O_i＝{O_i1，O_i2，...，O_ij，...，O_in}，其中O_ij表示说话人i的第j条语音样本，将O_i的MFCC特征输入MrDSCN得到n个说话人表征矢量，计算说话人i的n个说话人表征矢量的平均值，得到说话人i的说话人表征均值矢量，此说话人表征均值矢量唯一对应一个说话人；将全部说话人都进行上述操作，得到全部说话人的说话人表征均值矢量，组成说话人注册声纹库。

6.根据权利要求1所述的基于混合分辨率深度可分卷积网络的声纹确认方法，其特征在于，所述步骤S5过程如下：

后端判决模块的输入为测试语音的说话人表征矢量与注册声纹库中相应说话人的说话人表征均值矢量，计算两者之间的余弦距离，并和设定的阈值进行比较，当计算得到的余弦距离大于阈值，则测试语音的说话人是注册声纹库中的相应说话人；当计算得到的余弦距离小于阈值，则测试语音的说话人不是注册声纹库中的相应说话人；其中，余弦距离d定义为：

其中V₁和V₂为两个说话人表征矢量，||·||表示矢量的L-2范数。

7.根据权利要求6所述的基于混合分辨率深度可分卷积网络的声纹确认方法，其特征在于，所述步骤S6过程如下：