CN115457968B - 基于混合分辨率深度可分卷积网络的声纹确认方法 - Google Patents

基于混合分辨率深度可分卷积网络的声纹确认方法 Download PDF

Info

Publication number
CN115457968B
CN115457968B CN202211030964.1A CN202211030964A CN115457968B CN 115457968 B CN115457968 B CN 115457968B CN 202211030964 A CN202211030964 A CN 202211030964A CN 115457968 B CN115457968 B CN 115457968B
Authority
CN
China
Prior art keywords
speaker
voice
convolution
depth separable
resolution depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211030964.1A
Other languages
English (en)
Other versions
CN115457968A (zh
Inventor
孙泓宽
李艳雄
林一江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202211030964.1A priority Critical patent/CN115457968B/zh
Publication of CN115457968A publication Critical patent/CN115457968A/zh
Application granted granted Critical
Publication of CN115457968B publication Critical patent/CN115457968B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephonic Communication Services (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于混合分辨率深度可分卷积网络的声纹确认方法,步骤如下:首先,从语音样本提取梅尔倒谱系数;接着,将提取出的梅尔倒谱系数输入混合分辨率深度可分卷积网络进行特征变换得到说话人表征矢量;然后,将得到的说话人表征矢量与注册声纹库中的相应说话人表征均值矢量一起输入后端判决模块进行相似度评分,实现声纹确认。本发明采用多个不同尺寸的卷积核对输入特征进行分组卷积操作,获取多种分辨率的说话人区分性信息,提高声纹确认性能。与采用基于单一分辨率卷积网络的传统方法相比,本发明方法不但减少了参数量、降低了计算复杂度,而且声纹确认的等错误率低。

Description

基于混合分辨率深度可分卷积网络的声纹确认方法
技术领域
本发明涉及语音信号处理技术领域,具体涉及一种基于混合分辨率深度可分卷积网络的声纹确认方法。
背景技术
声纹是对语音中所蕴含的、能有效表征和标识说话人身份的语音特征参数及基于这些特征参数所建立的语音模型的总称。声纹识别有着诸多优势,比如声纹语料收集自然、不受光线或隐私等特定场景的约束,人们的接受程度更高。声纹识别也有着许多应用场景,如利用声纹识别进行社会保险的领取,使得退休老年人可以在家完成,给老年人带来了极大的方便,同时也为社保机构免去诸多人力、物力、行政以及时间的成本;因此,该发明具有较强的实际意义。
传统单分辨率卷积神经网络虽然在声纹确认等任务上取得了一定的效果,但是一方面存在网络参数量大、计算复杂度高、表征说话人区分性信息不全面等问题,另一方面是较易出现过拟合的情况。而网络参数量和计算复杂度都是十分重要的指标,较小的网络可以高效地进行分布式训练。本发明构建的混合分辨率深度可分卷积网络在语音处理上选择梅尔倒谱系数,其对不影响内容的语音属性具有鲁棒性;在网络设计上使用了非均分的通道输入和不同分辨率的卷积核,从而显著减少了网络参数量并有效降低了计算复杂度;结合后端判决模块可以有效表征说话人区分性信息,得到更好的声纹确认效果。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于混合分辨率深度可分卷积网络的声纹确认方法,给人员的身份确认带来了方便,提高了识别的效率。
本发明的目的可以通过采取如下技术方案达到:
一种基于混合分辨率深度可分卷积网络的声纹确认方法,所述声纹确认方法包括下列步骤:
S1、将语音数据集分为训练集、注册集和测试集;
S2、从语音数据集的各语音样本中提取梅尔倒谱系数(Mel Frequency CepstralCoefficents,MFCC),以下梅尔倒谱系数简称MFCC特征;
S3、设计混合分辨率深度可分卷积模块(Mixed-resolution DepthwiseSeparable Convolution Block,MrDSCB),以下混合分辨率深度可分卷积模块简称MrDSCB,基于混合分辨率深度可分卷积模块构建混合分辨率深度可分卷积网络(Mixed-resolutionDepthwise Separable Convolution Network,MrDSCN),以下混合分辨率深度可分卷积网络简称MrDSCN;
S4、将训练集的MFCC特征输入MrDSCN进行网络训练;将注册集的MFCC特征输入已训练MrDSCN得到说话人表征(Speaker Embedding)矢量,建立注册声纹库;
S5、设计后端判决模块,后端判决模块采用余弦距离进行相似度评分;
S6、利用测试语音样本进行声纹确认。
进一步地,所述步骤S2包括:
S2.1、预加重:利用预加重提高高频分量,即对高频分量进行补偿。对于n时刻语音的采样值x[n],经过预加重处理后得到输出:x′[n]=x[n]-α*x[n-1],α为常数,α∈[0.9,1];
S2.2、分帧:预加重后,将语音切分成固定长度的语音帧;其原因是因为信号中的频率会随时间变化,为了避免信号的频率轮廓随着时间的推移而丢失,需要对信号进行分帧处理,认为每一帧之内的信号是短时不变的;第r帧语音表示为x′r(n),其中1≤r≤R,0≤n≤N-1,R和N分别表示帧数和每帧语音的采样点数;
S2.3、加窗:利用加窗使帧两端平滑地衰减,降低后续傅里叶变换旁瓣的强度,从而得到更高质量的频谱;将分帧后的信号x′r(n)与窗函数w(n)相乘得到分帧加窗后的信号sr(n),其中窗函数采用汉明窗,记为:
S2.4、提取MFCC特征。
进一步地,所述步骤S2.4过程如下:
S2.4.1、对每帧语音做离散傅立叶变换,将时域信号转换为频域信号;记第r帧语音的线性频谱为Sr(k):
其中k表示第k个频点;
S2.4.2、构造由若干个三角带通滤波器组成的梅尔滤波器,第m个三角带通滤波器的传递函数记为Hm(k),0≤m≤M,其中M为三角带通滤波器个数,则:
其中f(m)表示第m个三角滤波器的中心频率,梅尔频率与频率的转换为:线性频谱Sr(k)经过梅尔滤波器滤波后得到梅尔频谱Fr(m),即FBank特征,记为:
S2.4.3、对上述FBank特征进行离散余弦变换,得到每帧语音的MFCC特征,其中第r帧语音的MFCC特征记为:
其中M为三角滤波器的个数。
S2.4.4、对每帧语音信号重复步骤S2.4.1-S2.4.3,得到所有语音帧的MFCC特征。
进一步地,所述混合分辨率深度可分卷积网络包括卷积层、若干混合分辨率深度可分卷积模块、平均池化层、线性全连接层,其中,不同大小的深度可分卷积模块间使用线性残差连接,即前一个模块的输出再经过一层线性残差卷积层与后一个模块的输出相加;网络末端使用平均池化层来减少网络中的参数量,也可以有效控制过拟合;每个混合分辨率深度可分卷积模块由混合分辨率深度可分卷积层、ReLU层、最大池化层组成;所述线性全连接层作为网络输出层,用于输出说话人表征矢量;其中Relu层可以将非线性引入网络,使一部分神经元的输出为0,这样就会使网络稀疏,并且减少了参数间的相互依存关系,缓解了过拟合问题的发生。
进一步地,所述混合分辨率深度可分卷积模块在通道维度上对输入的特征进行非均匀分组,各组占比i∈[1,I-1],其中I是分成的组数;按照分组分离通道,得到I组包含不同通道数的子块特征;相比均匀分组,非均匀分组可以使更多的特征通过更小的卷积核,增大感受野的同时减少了计算复杂度;
对于每一组子块特征使用不同尺寸的卷积核进行逐通道卷积操作,其中较小尺寸的卷积核对特征中的局部细节信息的获取效果好,而较大尺寸的卷积核能在更大视野内获取全局轮廓信息;为了减少网络的复杂度从而使其能够被部署在低计算资源的终端,本发明对包含较多通道数的子块特征使用较小尺寸的卷积核进行逐通道卷积操作,同时设定每一组子块特征卷积输出通道数与本子块特征包含的通道数一致,并对卷积结果的边缘补零填充,得到大小与原分组子块特征一致的输出子块特征;
将I组输出子块特征沿着通道维度进行拼接;将上述拼接得到的特征进行逐点卷积实现通道间参数共享,得到含有设定输出通道数的卷积层输出特征。
进一步地,所述混合分辨率深度可分卷积模块中输入特征图大小是C×H×W,其中C是输入特征通道数,H和W是输入特征图的高和宽;输出特征图大小是C′×H′×W′,其中C′是输出特征图通道数,H′和W′是输出特征图的高和宽;
每一个子块特征包含的通道数分别为:
选取I种不同尺寸的卷积核分别对I个子块特征进行逐通道卷积操作,1≤i≤I,设选取卷积核的尺寸分别为K1,K2,…,Ki,…,KI,其中Ki为对应第i个子块特征的卷积核的尺寸,且K1<K2<…<Ki<…<KI;设使用单一分辨率卷积核的常规卷积层使用尺寸为K1的卷积核,则使用单一分辨率卷积核的常规卷积层参数量为C×K1×K1×C′,计算复杂度为C×K1×K1×C′×H′×W′;而在本发明的混合分辨率深度可分卷积层中,参数量和复杂度分别为 由此知,本发明设计的混合分辨率深度可分卷积层的参数量和计算复杂度均是常规卷积层的
即网络参数量与计算复杂度均得到了降低;
在相邻两个卷积层之间使用一个ReLU激活函数层,ReLU函数定义为:
R(v)=max(0,aTv+b)
其中a为权值,v为激活向量,b为偏置;
本发明使用最大池化滤波器对特征图进行池化,主要目的是对特征图进行降采样,保留特征图中主要信息的同时减少网络参数量和计算复杂度。
进一步地,所述步骤S4过程如下:
S4.1、采用步骤S2提取训练集各语音样本的MFCC特征;
S4.2、将训练集中各语音样本的MFCC特征输入MrDSCN,得到各语音样本的说话人表征矢量;
S4.3、采用注册集中说话人的语音样本建立注册声纹库,设第i个说话人的语音样本集为Oi={Oi1,Oi2,…,Oij,…,Oin},其中Oij表示说话人i的第j条语音样本,将Oi的MFCC特征输入MrDSCN得到n个说话人表征矢量,计算说话人i的n个说话人表征矢量的平均值,得到说话人i的说话人表征均值矢量,此说话人表征均值矢量唯一对应一个说话人;将全部说话人都进行上述操作,得到全部说话人的说话人表征均值矢量,组成说话人注册声纹库。
进一步地,所述步骤S5过程如下:
后端判决模块的输入为测试语音的说话人表征矢量与注册声纹库中相应说话人的说话人表征均值矢量;计算上述两者之间的余弦距离,并和设定的阈值进行比较,当计算得到的余弦距离大于阈值,则测试语音的说话人是注册声纹库中的相应说话人;当计算得到的余弦距离小于阈值,则测试语音的说话人不是注册声纹库中的相应说话人;进一步地,余弦距离d定义为:
其中V1和V2为两个说话人表征矢量,||·||表示矢量的L-2范数;使用两者之间的余弦距离进行判决计算简便,且效果较好。
进一步地,所述步骤S6过程如下:
S6.1、将测试集中的测试语音样本的MFCC特征输入训练好的MrDSCN,得到该测试语音样本的说话人表征矢量;
S6.2、将该测试语音样本的说话人表征矢量与注册声纹库中的相应说话人表征均值矢量一起输入后端判决模块得到上述两者的余弦距离,并根据余弦距离值与设定阈值的大小进行判决,实现说话人确认。
本发明相对于现有技术具有如下的优点及效果:
1、本发明方法采用多种分辨率的卷积核对多个子块特征进行卷积操作,与采用单一分辨率卷积核的传统卷积相比,大卷积核可以获取高分辨率模式信息,有利于获得较多的全局信息,小卷积核可以捕捉低分辨率信息以达到更好的模型准确率和效率,混合分辨率卷积核有利于适应不同分辨率的情况,能够提取出更全面的说话人区分性信息,从而获得更优的说话人声纹确认效果。
2、本发明方法在使用混合分辨率卷积核基础上将输入特征非均分地切分成多个子特征,通道数较少的子特征通过较大的卷积核,不仅可以增大感受野,而且与均分地切分相比,可以有效地减少网络参数量和计算量,使得网络更加轻量化,同时本发明方法的声纹确认性能也更好。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明公开的基于混合分辨率深度可分卷积网络的声纹确认方法的流程步骤图;
图2是本发明公开的基于混合分辨率深度可分卷积网络卷积层示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示为本发明的实施例的流程图,具体步骤如下:
S1、将退休人员的语音数据集按照6:3:1分为训练集,注册集和测试集;
S2、从语音数据集的各语音样本中提取MFCC特征;
S2.1、预加重:对于n时刻语音的采样值x[n],经过预加重处理后得到输出:x′[n]=x[n]-α*x[n-1],α取0.97;
S2.2、分帧:预加重后,将语音切分成固定长度的语音帧,第r帧语音表示为x′r(n),其中1≤r≤R,0≤n≤N-1,R和N分别表示帧数和每帧语音的采样点数,其中R取128,N取512;
S2.3、加窗:将分帧后的信号x′r(n)与窗函数w(n)相乘得到分帧加窗后的信号sr(n),窗函数采用汉明窗,记为:
S2.4、提取MFCC特征;
S2.4.1、对每帧语音做离散傅立叶变换,记第r帧语音的线性频谱为Sr(k):0≤k≤N-1;
S2.4.2、构造由若干个三角带通滤波器组成的梅尔滤波器,第m个三角带通滤波器的传递函数记为Hm(k),0≤m≤M,其中M为三角带通滤波器个数,取M=39,则:
其中f(m)表示第m个三角滤波器的中心频率,梅尔频率与频率的转换为:线性频谱Sr(k)经过梅尔滤波器滤波后得到梅尔频谱Fr(m),即FBank特征,记为:
S2.4.3、对上述FBank特征进行离散余弦变换,得到每帧语音的MFCC特征,其中第r帧语音的MFCC特征记为:
其中M为三角滤波器的个数。
S2.4.4、对每帧语音信号重复步骤S2.4.1-S2.4.3,得到所有语音帧的MFCC特征。
S3、设计混合分辨率深度可分卷积模块,基于混合分辨率深度可分卷积模块构建混合分辨率深度可分卷积网络;
S3.1、混合分辨率深度可分卷积网络包括由卷积层、若干混合分辨率深度可分卷积模块、平均池化层、线性全连接层,其中,不同大小的深度可分卷积模块间使用线性残差连接,即前一个模块的输出再经过一层线性残差卷积层与后一个模块的输出相加;每个混合分辨率深度可分卷积模块由混合分辨率深度可分卷积层、ReLU层、池化层组成;所述线性全连接层作为网络输出层,用于输出说话人表征矢量;
S3.2、模块内各层的具体设计;
S3.2.1、在通道维度上对输入的特征进行非均匀分组,各组通道数分别为输入通道数的得到三组包含不同通道数的子块特征;
S3.2.2、对于每一组子块特征使用不同尺寸的卷积核进行逐通道卷积操作,三种卷积核的尺寸分别是3×3、5×5、7×7,其中较小尺寸的卷积核对特征中的局部细节信息的获取效果好,而较大尺寸的卷积核能在更大视野内获取全局轮廓信息;为了减少网络的复杂度从而使其能够被部署在低计算资源的终端,本发明对包含较多通道数的子块特征使用较小尺寸的卷积核进行卷积操作,即对通道数为输入通道数的子块特征采用3×3卷积核、通道数为输入通道数的子块特征分别使用5×5卷积核和7×7卷积核;同时设定每一组子块特征卷积输出通道数与本子块特征包含的通道数一致,并对卷积结果的边缘补零填充,得到大小与原分组子块特征一致的输出子块特征;
S3.2.3、将三组输出子块特征沿着通道维度进行拼接;
S3.2.4、将上述拼接得到的特征进行逐点卷积实现通道间参数共享,得到含有设定输出通道数的卷积层输出特征;
S3.2.5、本发明方法使用36个卷积层,在每相邻两个卷积层之间使用一个ReLU激活函数层,ReLU函数定义为:
R(v)=max(0,aTx+b);
其中a为权值,取a=(1,1,…,1),v为激活向量,b为偏置,取b=0;
S3.2.6、本发明使用3×3的最大池化滤波器以步长为2对特征图进行最大池化,主要目的是对特征图进行降采样,保留特征图中主要信息的同时减少网络参数量和计算复杂度。
S4、将训练集的MFCC特征输入MrDSCN进行网络训练,利用Adam优化器进行优化;将注册集的MFCC特征输入已训练MrDSCN得到说话人表征矢量,建立注册声纹库;
S4.1、采用步骤S2提取训练集各语音样本的MFCC特征;
S4.2、将训练集中各语音样本的MFCC特征输入MrDSCN,得到各语音样本的说话人表征矢量;
S5、构建后端判决模块,后端判决模块采用余弦距离进行相似度评分,其步骤如下;
该模块的输入为测试语音的说话人表征矢量与注册声纹库中相应说话人的说话人表征均值矢量;计算上述两者之间的余弦距离,并和设定的阈值进行比较;假设阈值为0.5,则当计算得到的余弦距离大于0.5,则测试语音的说话人是注册声纹库中的相应说话人;当计算得到的余弦距离小于0.5,则判定为测试语音的说话人不是注册声纹库中的相应说话人;余弦距离其中V1和V2为两个说话人表征矢量,||·||表示矢量的L-2范数。
其中阈值的计算步骤如下:将训练集样本分为数量相等的正样本对与负样本对,其中正样本对的两个样本来自相同的说话人,负样本对的两个样本来自两个不同的说话人,正负样本对各有p对;将第i对正样本对的MFCC特征输入已训练的MrDSCN,得到该样本对中两个样本的说话人表征矢量Vi1和Vi2,计算Vi1和Vi2之间的余弦距离,记为di,i∈[1,p];遍历全部正样本得到p个余弦距离,记为D=(d1,d2,…,di,…,dp),设di对应的正样本对的数量记为yi,则D对应的正样本对数量记为Y,其中Y=(y1,y2,…,yi,…,yp);当正样本对足够多时,以D为横坐标、Y为纵坐标作出正样本对的二维分布曲线;通过相同的方法,作出负样本对的二维分布曲线;取前述两条二维分布曲线峰值之间的交点为阈值点,并取阈值点的横坐标设定为后端判决模块的判决阈值。
S6、将测试集中的测试语音样本的MFCC特征输入训练好的MrDSCN,得到该测试语音样本的说话人表征矢量;将该测试语音样本的说话人表征矢量与注册声纹库中的相应说话人表征均值矢量一起输入后端判决模块得到上述两者的余弦距离,并根据余弦距离值与设定阈值的大小进行判决,实现说话人确认。
通过上述实施例,使用MrDSCN与如今主流的两个网络Resnet和Xception进行了对比,使用三个网络模型在同一数据集上训练至收敛。使用相同的测试集对三个网络进行性能测试,其结果如下:
表1.MrDSCN与Resnet、Xception比较表
网络模型 总参数量 总计算量(M Flops) 测试集准确率(ACC)
ResNet 23,721,128 493.59 92%
Xception 9,719,568 274.4 94%
MrDSCN 9,828,208 282.17 95%
其中提取的MFCC特征为(39,128)。由表可知,MrDSCN的总参数量与总计算量均少于ResNet,而与Xception非常接近;同时,在实施例1中,MrDSCN的准确率最高,在三者中表现最优。
实施例2
如图1所示为本发明的实施例的流程图,具体步骤如下:
S1、将退休人员的语音数据集按照6:3:1分为训练集,注册集和测试集;
S2、从语音数据集的各语音样本中提取MFCC特征;
S2.1、预加重:对于n时刻语音的采样值x[n],经过预加重处理后得到输出:x′[n]=x[n]-α*x[n-1],α取0.97;
S2.2、分帧:预加重后,将语音切分成固定长度的语音帧,第r帧语音表示为x′r(n),其中1≤r≤R,0≤n≤N-1,R和N分别表示帧数和每帧语音的采样点数,其中R取128,N取512;
S2.3、加窗:将分帧后的信号x′r(n)与窗函数w(n)相乘得到分帧加窗后的信号sr(n),窗函数采用汉明窗,记为:
S2.4、提取MFCC特征;
S2.4.1、对每帧语音做离散傅立叶变换,记第r帧语音的线性频谱为Sr(k):0≤k≤N-1;
S2.4.2、构造由若干个三角带通滤波器组成的梅尔滤波器,第m个三角带通滤波器的传递函数记为Hm(k),0≤m≤M,其中M为三角带通滤波器个数,取M=39,则:
其中f(m)表示第m个三角滤波器的中心频率,梅尔频率与频率的转换为:线性频谱Sr(k)经过梅尔滤波器滤波后得到梅尔频谱Fr(m),即FBank特征,记为:
S2.4.3、对上述FBank特征进行离散余弦变换,得到每帧语音的MFCC特征,其中第r帧语音的MFCC特征记为:
其中M为三角滤波器的个数。
S2.4.4、对每帧语音信号重复步骤S2.4.1-S2.4.3,得到所有语音帧的MFCC特征。
S3、设计混合分辨率深度可分卷积模块,基于混合分辨率深度可分卷积模块构建混合分辨率深度可分卷积网络;
S3.1、混合分辨率深度可分卷积网络包括由卷积层、若干混合分辨率深度可分卷积模块、平均池化层、线性全连接层,其中,不同大小的深度可分卷积模块间使用线性残差连接,即前一个模块的输出再经过一层线性残差卷积层与后一个模块的输出相加;每个混合分辨率深度可分卷积模块由混合分辨率深度可分卷积层、ReLU层、池化层组成;所述线性全连接层作为网络输出层,用于输出说话人表征矢量;
S3.2、模块内各层的具体设计;
S3.2.1、在通道维度上对输入的特征进行非均匀分组,各组通道数分别为输入通道数的得到四组包含不同通道数的子块特征;
S3.2.2、对于每一组子块特征使用不同尺寸的卷积核进行逐通道卷积操作,四种卷积核的尺寸分别是3×3、5×5、7×7,9×9其中较小尺寸的卷积核对特征中的局部细节信息的获取效果好,而较大尺寸的卷积核能在更大视野内获取全局轮廓信息;为了减少网络的复杂度从而使其能够被部署在低计算资源的终端,本发明对包含较多通道数的子块特征使用较小尺寸的卷积核进行卷积操作,即对通道数为输入通道数的子块特征采用3×3卷积核、通道数为输入通道数的子块特征采用5×5卷积核、通道数为输入通道数的子块特征分别使用7×7卷积核和9×9卷积核;同时设定每一组子块特征卷积输出通道数与本子块特征包含的通道数一致,并对卷积结果的边缘补零填充,得到大小与原分组子块特征一致的输出子块特征;
S3.2.3、将四组输出子块特征沿着通道维度进行拼接;
S3.2.4、将上述拼接得到的特征进行逐点卷积实现通道间参数共享,得到含有设定输出通道数的卷积层输出特征;
S3.2.5、本发明方法使用36个卷积层,在每相邻两个卷积层之间使用一个ReLU激活函数层,ReLU函数定义为:
R(v)=max(0,aTx+b);
其中a为权值,取a=(1,1,…,1),v为激活向量,b为偏置,取b=0;
S3.2.6、本发明使用3×3的最大池化滤波器以步长为2对特征图进行最大池化,主要目的是对特征图进行降采样,保留特征图中主要信息的同时减少网络参数量和计算复杂度。
S4、将训练集的MFCC特征输入MrDSCN进行网络训练,利用Adam优化器进行优化;将注册集的MFCC特征输入已训练MrDSCN得到说话人表征矢量,建立注册声纹库;
S4.1、采用步骤S2提取训练集各语音样本的MFCC特征;
S4.2、将训练集中各语音样本的MFCC特征输入MrDSCN,得到各语音样本的说话人表征矢量;
S5、构建后端判决模块,后端判决模块采用余弦距离进行相似度评分,其步骤如下;
该模块的输入为测试语音的说话人表征矢量与注册声纹库中相应说话人的说话人表征均值矢量;计算上述两者之间的余弦距离,并和设定的阈值进行比较;假设阈值为0.5,则当计算得到的余弦距离大于0.5,则测试语音的说话人是注册声纹库中的相应说话人;当计算得到的余弦距离小于0.5,则判定为测试语音的说话人不是注册声纹库中的相应说话人;余弦距离其中V1和V2为两个说话人表征矢量,||·||表示矢量的L-2范数。
其中阈值的计算步骤如下:将训练集样本分为数量相等的正样本对与负样本对,其中正样本对的两个样本来自相同的说话人,负样本对的两个样本来自两个不同的说话人,正负样本对各有p对;将第i对正样本对的MFCC特征输入已训练的MrDSCN,得到该样本对中两个样本的说话人表征矢量Vi1和Vi2,计算Vi1和Vi2之间的余弦距离,记为di,i∈[1,p];遍历全部正样本得到p个余弦距离,记为D=(d1,d2,…,di,…,dp),设di对应的正样本对的数量记为yi,则D对应的正样本对数量记为Y,其中Y=(y1,y2,…,yi,…,yp);当正样本对足够多时,以D为横坐标、Y为纵坐标作出正样本对的二维分布曲线;通过相同的方法,作出负样本对的二维分布曲线;取前述两条二维分布曲线峰值之间的交点为阈值点,并取阈值点的横坐标设定为后端判决模块的判决阈值。
S6、将测试集中的测试语音样本的MFCC特征输入训练好的MrDSCN,得到该测试语音样本的说话人表征矢量;将该测试语音样本的说话人表征矢量与注册声纹库中的相应说话人表征均值矢量一起输入后端判决模块得到上述两者的余弦距离,并根据余弦距离值与设定阈值的大小进行判决,实现说话人确认。
通过上述实施例,使用MrDSCN与如今主流的两个网络Resnet和Xception进行了对比,使用三个网络模型在同一数据集上训练至收敛。使用相同的测试集对三个网络进行性能测试,其结果如下:
表2.MrDSCN与Resnet、Xception比较表
其中提取的MFCC特征为(39,128)。由表可知,MrDSCN的总参数量与总计算量均少于ResNet,而与Xception非常接近;同时,在实施例2中,MrDSCN的准确率最高,在三者中表现最优。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (7)

1.一种基于混合分辨率深度可分卷积网络的声纹确认方法,其特征在于,所述声纹确认方法包括下列步骤:
S1、将语音数据集分为训练集、注册集和测试集;
S2、从语音数据集的各语音样本中提取梅尔倒谱系数,以下梅尔倒谱系数简称MFCC特征;
S3、设计混合分辨率深度可分卷积模块,以下混合分辨率深度可分卷积模块简称MrDSCB,基于混合分辨率深度可分卷积模块构建混合分辨率深度可分卷积网络,以下混合分辨率深度可分卷积网络简称MrDSCN;所述混合分辨率深度可分卷积网络包括卷积层、若干混合分辨率深度可分卷积模块、平均池化层、线性全连接层,其中,不同大小的深度可分卷积模块间使用线性残差连接,即前一个模块的输出再经过一层线性残差卷积层与后一个模块的输出相加;每个混合分辨率深度可分卷积模块由混合分辨率深度可分卷积层、ReLU层、池化层组成;线性全连接层作为网络输出层,用于输出说话人表征矢量;
所述混合分辨率深度可分卷积模块在通道维度上对输入的特征进行非均匀分组,各组占比其中I是分成的组数;按照分组分离通道,得到I组包含不同通道数的子块特征;
将I组输出子块特征沿着通道维度进行拼接,将拼接得到的特征进行逐点卷积实现通道间参数共享,得到含有设定输出通道数的卷积层输出特征;
所述混合分辨率深度可分卷积模块中输入特征图大小是C×H×W,其中C是输入特征通道数,H和W是输入特征图的高和宽;输出特征图大小是C′×H′×W′,其中C′是输出特征图通道数,H′和W′是输出特征图的高和宽;
每一个子块特征包含的通道数分别为:
选取I种不同尺寸的卷积核分别对I个子块特征进行逐通道卷积操作,1≤i≤I,设选取卷积核的尺寸分别为K1,K2,...,Ki,...,KI,其中Ki为对应第i个子块特征的卷积核的尺寸,且K1<K2<…<Ki<…<KI
在相邻两个卷积层之间使用一个ReLU激活函数层,ReLU函数定义为:
R(v)=max(0,aTv+b)
其中a为权值,v为激活向量,b为偏置;
S4、将训练集的MFCC特征输入MrDSCN进行网络训练;将注册集的MFCC特征输入已训练MrDSCN得到说话人表征矢量,建立注册声纹库;
S5、构建后端判决模块,后端判决模块采用余弦距离进行相似度评分;
S6、利用测试语音样本进行声纹确认。
2.根据权利要求1所述的基于混合分辨率深度可分卷积网络的声纹确认方法,其特征在于,所述步骤S2包括:
S2.1、预加重:对于n时刻语音的采样值x[n],经过预加重处理后得到输出:x′[n]=x[n]-α*x[n-1],α为常数,α∈[0.9,1];
S2.2、分帧:预加重后,将语音切分成固定长度的语音帧,第r帧语音表示为x′r(n),其中1≤r≤R,0≤n≤N-1,R和N分别表示帧数和每帧语音的采样点数;
S2.3、加窗:将分帧后的信号x′r(n)与窗函数w(n)相乘得到分帧加窗后的信号sr(n),
S2.4、提取MFCC特征。
3.根据权利要求2所述的基于混合分辨率深度可分卷积网络的声纹确认方法,其特征在于,所述窗函数采用汉明窗,记为:
4.根据权利要求2所述的基于混合分辨率深度可分卷积网络的声纹确认方法,其特征在于,所述步骤S2.4过程如下:
S2.4.1、对每帧语音做离散傅立叶变换,记第r帧语音的线性频谱为Sr(k):
其中k表示第k个频点;
S2.4.2、构造由若干个三角带通滤波器组成的梅尔滤波器,第m个三角带通滤波器的传递函数记为Hm(k),0≤m≤M,其中M为三角带通滤波器个数,则:
其中f(m)表示第m个三角滤波器的中心频率,梅尔频率与频率的转换为:线性频谱Sr(k)经过梅尔滤波器滤波后得到梅尔频谱Fr(m),即FBank特征,记为:
S2.4.3、对上述FBank特征进行离散余弦变换,得到每帧语音的MFCC特征,其中第r帧语音的MFCC特征记为:
其中M为三角滤波器的个数;
S2.4.4、对每帧语音信号重复步骤S2.4.1-S2.4.3,得到所有语音帧的MFCC特征。
5.根据权利要求1所述的基于混合分辨率深度可分卷积网络的声纹确认方法,其特征在于,所述步骤S4过程如下:
S4.1、采用步骤S2提取训练集各语音样本的MFCC特征;
S4.2、将训练集中各语音样本的MFCC特征输入MrDSCN,得到各语音样本的说话人表征矢量;
S4.3、采用注册集中说话人的语音样本建立注册声纹库,设第i个说话人的语音样本集为Oi={Oi1,Oi2,...,Oij,...,Oin},其中Oij表示说话人i的第j条语音样本,将Oi的MFCC特征输入MrDSCN得到n个说话人表征矢量,计算说话人i的n个说话人表征矢量的平均值,得到说话人i的说话人表征均值矢量,此说话人表征均值矢量唯一对应一个说话人;将全部说话人都进行上述操作,得到全部说话人的说话人表征均值矢量,组成说话人注册声纹库。
6.根据权利要求1所述的基于混合分辨率深度可分卷积网络的声纹确认方法,其特征在于,所述步骤S5过程如下:
后端判决模块的输入为测试语音的说话人表征矢量与注册声纹库中相应说话人的说话人表征均值矢量,计算两者之间的余弦距离,并和设定的阈值进行比较,当计算得到的余弦距离大于阈值,则测试语音的说话人是注册声纹库中的相应说话人;当计算得到的余弦距离小于阈值,则测试语音的说话人不是注册声纹库中的相应说话人;其中,余弦距离d定义为:
其中V1和V2为两个说话人表征矢量,||·||表示矢量的L-2范数。
7.根据权利要求6所述的基于混合分辨率深度可分卷积网络的声纹确认方法,其特征在于,所述步骤S6过程如下:
S6.1、将测试集中的测试语音样本的MFCC特征输入训练好的MrDSCN,得到该测试语音样本的说话人表征矢量;
S6.2、将该测试语音样本的说话人表征矢量与注册声纹库中的相应说话人表征均值矢量一起输入后端判决模块得到上述两者的余弦距离,并根据余弦距离值与设定阈值的大小进行判决,实现说话人确认。
CN202211030964.1A 2022-08-26 2022-08-26 基于混合分辨率深度可分卷积网络的声纹确认方法 Active CN115457968B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211030964.1A CN115457968B (zh) 2022-08-26 2022-08-26 基于混合分辨率深度可分卷积网络的声纹确认方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211030964.1A CN115457968B (zh) 2022-08-26 2022-08-26 基于混合分辨率深度可分卷积网络的声纹确认方法

Publications (2)

Publication Number Publication Date
CN115457968A CN115457968A (zh) 2022-12-09
CN115457968B true CN115457968B (zh) 2024-07-05

Family

ID=84301675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211030964.1A Active CN115457968B (zh) 2022-08-26 2022-08-26 基于混合分辨率深度可分卷积网络的声纹确认方法

Country Status (1)

Country Link
CN (1) CN115457968B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108648759A (zh) * 2018-05-14 2018-10-12 华南理工大学 一种文本无关的声纹识别方法
CN113643687A (zh) * 2021-07-08 2021-11-12 南京邮电大学 融合DSNet与EDSR网络的非平行多对多语音转换方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107610707B (zh) * 2016-12-15 2018-08-31 平安科技(深圳)有限公司 一种声纹识别方法及装置
CN113823292B (zh) * 2021-08-19 2023-07-21 华南理工大学 基于通道注意力深度可分卷积网络的小样本话者辨认方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108648759A (zh) * 2018-05-14 2018-10-12 华南理工大学 一种文本无关的声纹识别方法
CN113643687A (zh) * 2021-07-08 2021-11-12 南京邮电大学 融合DSNet与EDSR网络的非平行多对多语音转换方法

Also Published As

Publication number Publication date
CN115457968A (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
CN109036382B (zh) 一种基于kl散度的音频特征提取方法
CN111429938B (zh) 一种单通道语音分离方法、装置及电子设备
CN1121681C (zh) 语言处理
US7082394B2 (en) Noise-robust feature extraction using multi-layer principal component analysis
CN110390952B (zh) 基于双特征2-DenseNet并联的城市声音事件分类方法
CN113077795B (zh) 一种通道注意力传播与聚合下的声纹识别方法
CN105206270A (zh) 一种组合pca和rbm的孤立数字语音识别分类***及方法
CN111048097B (zh) 一种基于3d卷积的孪生网络声纹识别方法
CN113191178B (zh) 一种基于听觉感知特征深度学习的水声目标识别方法
CN111508524B (zh) 语音来源设备的识别方法和***
CN104538035A (zh) 一种基于Fisher超向量的说话人识别方法及***
CN112270931A (zh) 一种基于孪生卷积神经网络进行欺骗性语音检测的方法
CN115101076B (zh) 一种基于多尺度通道分离卷积特征提取的说话人聚类方法
CN115762533A (zh) 一种鸟鸣声分类识别方法及装置
CN115457980A (zh) 一种无参考语音的自动化语音质量评估方法及***
Zhang et al. Temporal Transformer Networks for Acoustic Scene Classification.
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
CN115457968B (zh) 基于混合分辨率深度可分卷积网络的声纹确认方法
CN113536067A (zh) 一种基于语义融合的跨模态信息检索方法
CN115472168B (zh) 耦合bgcc和pwpe特征的短时语音声纹识别方法、***及设备
CN116504253A (zh) 一种基于频率动态卷积模型的鸟类声音识别方法和***
CN115910034A (zh) 基于深度学习的语音语种识别方法及***
CN114997210A (zh) 一种基于深度学习的机器异响识别检测方法
CN117496980B (zh) 一种基于局部和全局跨通道融合的声纹识别方法
CN116030793B (zh) 方言识别***及其训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant