CN112397074A - 基于mfcc和向量元学习的声纹识别方法 - Google Patents

基于mfcc和向量元学习的声纹识别方法 Download PDF

Info

Publication number
CN112397074A
CN112397074A CN202011220705.6A CN202011220705A CN112397074A CN 112397074 A CN112397074 A CN 112397074A CN 202011220705 A CN202011220705 A CN 202011220705A CN 112397074 A CN112397074 A CN 112397074A
Authority
CN
China
Prior art keywords
voice
mfcc
sample
class
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011220705.6A
Other languages
English (en)
Inventor
林科
满瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202011220705.6A priority Critical patent/CN112397074A/zh
Publication of CN112397074A publication Critical patent/CN112397074A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于MFCC和向量元学习的声纹识别方法,包括如下步骤:语音预处理;特征提取步骤;模型训练步骤;模式匹配步骤。这种方法,分类精细,识别准确率高。

Description

基于MFCC和向量元学习的声纹识别方法
技术领域
本发明涉及声纹识别领域,具体是一种基于MFCC和向量元学习的声纹识别方法。
背景技术
声纹识别,也称作说话人识别,是一种通过声音判别说话人身份的技术。从直觉上来说,声纹虽然不像人脸、指纹的个体差异那样直观可见,但由于每个人的声道、口腔和鼻腔也具有个体的差异性,因此反映到声音上也具有差异性。如果说将口腔看作声音的发射器,那作为接收器的人耳生来也具备辨别声音的能力。
MFCC:梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients),将时域的语音变为频域,对频域的信号进行分段滤波,得出不同频率段的占比,所得到的占比系数组成的矩阵即梅尔倒频谱系数。
元学习:从网络结构角度讲,元学习由两种网络组成——meta-net和net,一方面net从meta-net中获取知识,另一方面meta-net观察net的表现改进自身。
原型网络:先把样本投影到一个空间,计算每个样本类别的中心,在分类的时候,把输入投影到新的特征空间,通过神经网络,把输入(比如图像)转化为一个新的特征向量,使得同一类的向量之间的距离比较接近,不同类的向量距离比较远。同时,计算每个类别的均值表示该类的原型prototype。通过对比目标到每个中心的距离,从而分析出目标的类别。
目前常用的声纹识别的主流方法有动态时间规整(DTW)、隐马尔科夫刚理论(HMM)、矢量量化(VQ)等。然而,这些方法都具有识别的准确率较低、需要进行大量的计算、缺乏动态的训练或者过度依赖原话者等缺点。
对于原型网络而言,其应用的范围不仅仅在单样本/小样本的学习过程中,同时还可以应用在零样本的学习方式。对于这种应用的思路是:尽管我们没有当前分类的数据样本,但是如果能够在更高的层次中生成分类的原型表示(元信息)。
发明内容
针对现有声纹识别主流算法的缺陷,本发明的目的是提供基于MFCC和向量元学习的声纹识别方法。这种方法,分类精细,识别准确率高。
基于MFCC和向量元学习的声纹识别方法,包括如下步骤:
语音预处理:录制语音信号,得到语音数据集,将语音数据集分为训练集和测试集,然后将语音数据集内的所有语音信号进行语音数据增强和语音预加重处理;
特征提取步骤:采用MFCC对语音预处理后的训练集中的语音信号进行特征提取,得到MFCC特征参数;
模型训练步骤:将训练集语音信号的MFCC特征参数输入原型网络中进行模型训练;
模式匹配步骤:从测试集待识别语音信号中提取MFCC特征参数,输入训练好的原型网络中计算,使用欧几里得距离作为距离度量,被识别语音所提取的特征量必须与训练得到的每个人的模型特征参数进行比较,找到相似度最近的那个作为辨认的结果。
所述语音预处理步骤包括:
语音数据增强子步骤:通过SEEED的语音采集板采集人们平时说话的语音信号,通过praat软件对采集的语音信号正向播放、倒向播放和随机删减部分片段,来对语音信号进行增强操作;
语音预加重:将语音信号通过一个高通滤波器,提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,同时消除发声过程中声带和嘴唇的效应,来补偿语音信号受到发音***所抑制的高频部分,突出高频的共振峰。
所述特征提取步骤包括:
预加重子步骤:将语音信号通过滤波器提升高频部分;
分帧子步骤:对预加重后的语音信号进行分帧;
汉明窗子步骤:将分帧后的语音信号的每帧乘以汉明窗;
快速傅里叶变换子步骤:对汉明窗后的每一帧语音信号进行快速傅里叶变换,得到能量谱;
三角带通滤波子步骤:将能量谱输入三角带通滤波器组,平滑化频谱,消除谐波的作用,突显原先语音的共振峰;
对数能量计算子步骤:计算每个三角带通滤波器输出的对数能量;
离散余弦变换子步骤:将计算得到的对数能量代入离散余弦变换,得到MFCC特征参数;
动态差分参数子步骤:通过MFCC的差分谱来表示语音信号的动态特性,得到多维MFCC特征参数。
所述预加重子步骤包括:
H(Z)=1-μz-1 (1),
其中,μ的值介于0.9-1.0之间,Z为预加重之后的语音信号,z为预加重之前的语音信号。
所述分帧子步骤包括:
先将N个采样点集合成一个观测单位,称为帧,通常情况下N的值为256或512,涵盖的时间约为20~30ms,为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,通常M的值约为N的1/2或1/3,通常语音识别所采用语音信号的采样频率为8KHz或16KHz,以8KHz来说,若帧长度为256个采样点,则对应的时间长度是256/8000×1000=32ms。
所述汉明窗子步骤包括:
将每一帧乘以汉明窗,以增加帧左端和右端的连续性,假设分帧后的信号为S(n),n=0,1…,N-1,N为帧的大小,那么乘上汉明窗后
S′(n)=S(n)×W(n)
Figure BDA0002761914900000031
其中,W(n)表示汉明窗,不同的a值会产生不同的汉明窗,一般情况下a取0.46;
所述三角带通滤波器组包括40个三角带通滤波器,所述离散余弦变换子步骤将计算得到的40个对数能量代入离散余弦变换,得到13阶MFCC。
所述模型训练步骤中,原型网络算法包括:
主要思想:把样本空间投影,即嵌入到一个低维空间,利用样本在低维空间的相似度做分类,然后在低维空间中找到每个分类的聚类中心,用距离函数测新的样本的分类;
假设当前的数据集为D,其内部的样本的表示形式为{(x1,y1),(x2,y2),...,(xn,yn)},其中x表示向量表示,y表示分类标签,假设有K个分类,每个类N个样本,其中N可以分成Ns和NQ(N=Ns+NQ),对应的样本集合分别记为Sk支持集和Qk查询集;
对于支持集内部的样本点,使用编码公式
Figure BDA0002761914900000034
来为每一个分类生成一个原型表示,这里的编码公式
Figure BDA0002761914900000035
可以是任意的一种信息抽取的方式,例如CNN,LSTM;
对于每一个分类,生成其原型表示为:
Figure BDA0002761914900000032
其中
Figure BDA0002761914900000036
表示提取出来的特征;
然后计算查询集与支持集的原型表示的距离情况;
最后计算当前样本属于每一个分类的概率pw(y=k∣x),这里使用softmax的计算方式:
Figure BDA0002761914900000033
其中d()是距离函数,c是每个类的聚类中心,在知道每类样本的聚类中心后,就可以刻画样本x属于哪个类,用距离函数和softmax函数表示,x属于第k个分类的概率如公式(4)所示;
最终,求网络
Figure BDA0002761914900000041
的参数
Figure BDA0002761914900000042
用到的损失函数为
Figure BDA0002761914900000043
Figure BDA0002761914900000044
已知样本x对应的第k类目标函数如公式(5)所示,采用随机梯度下降法最小化目标函数,即能得到最优参数
Figure BDA0002761914900000045
所述模式匹配步骤,包括:
对于支持集中的每一个样本点生成一个编码表示,通过求和平均的方式来生成每一个分类的原型表示,同时,对于查询样本,也对其生成一个向量表示;
同时需要计算每一个查询点和每一个分类原型表示的距离情况,并计算softmax概率结果,生成对于各个分类的概率分布情况,概率最高的类别即为该测试数据的类别标签。
本技术方案方法,能识别出在训练过程中从未见过的新的类别,并且对于每个类别只需要很少的样例数据。原型网络将每个类别中的样例数据映射到一个空间当中,并且提取他们的“均值”来表示为该类的原型。使用欧几里得距离作为距离度量,训练使得本类别数据到本类原型表示的距离为最近,到其他类原型表示的距离较远。测试时,对测试数据到各个类别的原型数据的距离做softmax,来判断测试数据的类别标签。由于识别的主要过程是基于向量元学习的原型网络模型来实现,因此能够更好的分类,解决现有声纹识别方法识别准确率低的问题。
这种方法,分类精细,识别准确率高。
附图说明
图1是实施例的的整体流程示意图;
图2是实施例中声纹识别的部分实现流程图;
图3是实施例中训练架构图;
图4是实施例中原型网络的整体构架图;
图5是实施例中元学习技术的基本架构图;
图6是实施例中建模流程图。
具体实施方式
下面结合附图和实施例对本发明做进一步阐述,但不是对本发明的限定。
实施例:
对于说话人辨认来说,被识别语音所提取的特征量必须与训练得到的每个人的模型特征参数进行比较,找到相似度最近的那个作为辨认的结果。而对于说话人确认而言,只需要将输入语音特征参数与声明的说话人语音模板特征参数进行比较,通过相应的方法确定两个参量是否匹配,若匹配则确认,否则拒绝。
声波在每一段时间都有对应的波幅,为了将声波转换为数字,将以等距的方式将声波隔开,记录下声波在等距点的高度,称为波特率,一般人的发声频率是100Hz—10000Hz之间,而采样频率的选取通常由奈奎斯特采样定理确定,如图6所示,因此本例采用1.6KHz作为采样频率,本例采用ADMP401麦克风拾音器模块对语音信号进行采集,该放大器的增益达到67dB,输出的是AD信号,方便采集,在声纹识别中,由于语音信号的功率谱受到嘴唇和鼻子辐射的影响,会随着信号的频率增加而降低,所以为了使语音信号的频谱分布更加均匀,应该将信号高频部分的频谱进行提升处理,以降低语音信号的低频干扰,然后将得到的信号,送入基于python语言下的处理平台的模型下进行训练,如图3所示。
参照图1、图2,基于MFCC和向量元学习的声纹识别方法,包括如下步骤:
语音预处理:录制语音信号,得到语音数据集,将语音数据集分为训练集和测试集,然后将语音数据集内的所有语音信号进行语音数据增强和语音预加重处理;
特征提取步骤:采用MFCC对语音预处理后的训练集中的语音信号进行特征提取,得到MFCC特征参数;
模型训练步骤:将训练集语音信号的MFCC特征参数输入原型网络中进行模型训练;
模式匹配步骤:从测试集待识别语音信号中提取MFCC特征参数,输入训练好的原型网络中计算,原型网络的整体架构如图4所示,使用欧几里得距离作为距离度量,被识别语音所提取的特征量必须与训练得到的每个人的模型特征参数进行比较,找到相似度最近的那个作为辨认的结果。
所述语音预处理步骤包括:
语音数据增强子步骤:通过SEEED的语音采集板采集人们平时说话的语音信号,通过praat软件对采集的语音信号正向播放、倒向播放和随机删减部分片段,来对语音信号进行增强操作;
语音预加重:将语音信号通过一个高通滤波器,提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,同时消除发声过程中声带和嘴唇的效应,来补偿语音信号受到发音***所抑制的高频部分,突出高频的共振峰。
所述特征提取步骤包括:
预加重子步骤:将语音信号通过滤波器提升高频部分;
分帧子步骤:对预加重后的语音信号进行分帧;
汉明窗子步骤:将分帧后的语音信号的每帧乘以汉明窗;
快速傅里叶变换子步骤:对汉明窗后的每一帧语音信号进行快速傅里叶变换,得到能量谱;三角带通滤波子步骤:将能量谱输入三角带通滤波器组,平滑化频谱,消除谐波的作用,突显原先语音的共振峰;
对数能量计算子步骤:计算每个三角带通滤波器输出的对数能量;
离散余弦变换子步骤:将计算得到的对数能量代入离散余弦变换,得到MFCC特征参数;
动态差分参数子步骤:通过MFCC的差分谱来表示语音信号的动态特性,得到多维MFCC特征参数。
所述预加重子步骤包括:
H(Z)=1-μz-1 (1),
其中,μ的值介于0.9-1.0之间,Z为预加重之后的语音信号,z为预加重之前的语音信号。所述分帧子步骤包括:
先将N个采样点集合成一个观测单位,称为帧,通常情况下N的值为256或512,涵盖的时间约为20~30ms,为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,通常M的值约为N的1/2或1/3,通常语音识别所采用语音信号的采样频率为8KHz或16KHz,以8KHz来说,若帧长度为256个采样点,则对应的时间长度是256/8000×1000=32ms。
所述汉明窗子步骤包括:
将每一帧乘以汉明窗,以增加帧左端和右端的连续性,假设分帧后的信号为S(n),n=0,1…,N-1,N为帧的大小,那么乘上汉明窗后
S′(n)=S(n)×W(n)
Figure BDA0002761914900000061
其中,W(n)表示汉明窗,不同的a值会产生不同的汉明窗,一般情况下a取0.46;
所述三角带通滤波器组包括40个三角带通滤波器,所述离散余弦变换子步骤将计算得到的40个对数能量代入离散余弦变换,得到13阶MFCC。
所述模型训练步骤中,原型网络算法包括:
主要思想:把样本空间投影,即嵌入到一个低维空间,利用样本在低维空间的相似度做分类,然后在低维空间中找到每个分类的聚类中心,用距离函数测新的样本的分类;
此时得到的MFCC是一个二维的数据,然后利用卷积神经网络的思想来提取MFCC的抽象信息,即声纹特征图,本例训练的网络架构为ResNet18,采用ResNet18的主要考虑是网络较为轻量,训练高效稳定;
假设当前的数据集为D,其内部的样本的表示形式为{(x1,y1),(x2,y2),...,(xn,yn)},其中x表示向量表示,y表示分类标签,假设有K个分类,每个类N个样本,其中N可以分成Ns和NQ(N=Ns+NQ),对应的样本集合分别记为Sk支持集和Qk查询集;
本例在实际语音训练中,支持集一共有5个人,每个人一共5段语音,查询集仍然为该5人,每人15段语音,每个人的语音时长设定为5秒;
对于支持集内部的样本点,使用编码公式
Figure BDA0002761914900000071
来为每一个分类生成一个原型表示,这里的编码公式
Figure BDA0002761914900000072
可以是任意的一种信息抽取的方式,;
对于每一个分类,生成其原型表示为:
Figure BDA0002761914900000073
其中
Figure BDA0002761914900000074
表示提取出来的特征;
然后计算查询集与支持集的原型表示的距离情况;
最后计算当前样本属于每一个分类的概率pw(y=k∣x),这里使用softmax的计算方式:
Figure BDA0002761914900000075
其中d()是距离函数,c是每个类的聚类中心,在知道每类样本的聚类中心后,就可以刻画样本x属于哪个类,用距离函数和softmax函数表示,x属于第k个分类的概率如公式(4)所示;
最终,求网络
Figure BDA0002761914900000076
的参数
Figure BDA0002761914900000077
用到的损失函数为
Figure BDA0002761914900000078
Figure BDA0002761914900000079
已知样本x对应的第k类目标函数如公式(5)所示,采用随机梯度下降法最小化目标函数,即能得到最优参数
Figure BDA00027619149000000710
传统的算法策略是采用双阈值法进行判断,当进入语音段时,短时能量和短时过零率曲线逐渐增大,直到进入无声段时又逐渐变小,但在语音段的开始和结尾的清音段,短时能量几乎为零而短时过零率却比较大,因此单纯的将短时能量作为判据进行端点检测时,易将语音信号的清音和尾音段截去,并不能完整的截取语音段,因此需要把短时过零率作为第二级判定,本例方法,需要对信号进行切片,分析时采用20ms切片,此时可以采用FFT变换的方法得到相应的波形,一旦有了这些单独的声波,将每一份频段所包含的能量相加,就能形成新的音频片段特征,针对声学模型的一般特性,提出了基于MFCC和MEL等等其他信号变换策略,MFCC是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性,它与频率的关系可用下式近似表示:
Figure BDA0002761914900000081
将上述获得的语音信号的MFCC特征参数输入向量元学习下的原型网络中进行模型训练,原型网络如图4所示,将每个类别中的样例数据映射到一个空间当中,并且提取他们的“均值”来表示为该类的原型,再使用欧几里得距离作为距离度量,训练使得本类别数据到本类原型表示的距离为最近,到其他类原型表示的距离较远;测试时,对测试数据到各个类别的原型数据的距离做softmax,来判断测试数据的类别标签,从而对声纹进行识别。
对于原型网络而言,其应用的范围不仅仅在单样本/小样本的学习过程中,同时还可以应用在零样本的学习方式中,对于这种应用的思路是:尽管没有当前分类的数据样本,但是如果能够在更高的层次中生成分类的原型表示,即元信息,如图5所示,通过这种元信息,也可以完成相应的计算,完成相应的分类任务;
所述模式匹配步骤,包括:
对于支持集中的每一个样本点生成一个编码表示,通过求和平均的方式来生成每一个分类的原型表示,同时,对于查询样本,也对其生成一个向量表示;
同时需要计算每一个查询点和每一个分类原型表示的距离情况,并计算softmax概率结果,生成对于各个分类的概率分布情况,概率最高的类别即为该测试数据的类别标签。
本例方法与其他传统声纹识别算法对比的结果如表1所示:
表1
Figure BDA0002761914900000082
结果如表1所示,本例方法达到了更高的识别率。

Claims (9)

1.基于MFCC和向量元学习的声纹识别方法,其特征在于,包括:
语音预处理:录制语音信号,得到语音数据集,将语音数据集分为训练集和测试集,然后将语音数据集内的所有语音信号进行语音数据增强和语音预加重处理;
特征提取步骤:采用MFCC对语音预处理后的训练集中的语音信号进行特征提取,得到MFCC特征参数;
模型训练步骤:将训练集语音信号的MFCC特征参数输入原型网络中进行模型训练;
模式匹配步骤:从测试集待识别语音信号中提取MFCC特征参数,输入训练好的原型网络中计算,使用欧几里得距离作为距离度量,被识别语音所提取的特征量必须与训练得到的每个人的模型特征参数进行比较,找到相似度最近的那个作为辨认的结果。
2.根据权利要求1所述的基于MFCC和向量元学习的声纹识别方法,其特征在于,所述语音预处理包括:
语音数据增强步骤:通过SEEED的语音采集板采集人们平时说话的语音信号,通过praat软件对采集的语音信号正向播放、倒向播放和随机删减部分片段,来对语音信号进行增强操作;
语音预加重:将语音信号通过一个高通滤波器,提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,同时消除发声过程中声带和嘴唇的效应,来补偿语音信号受到发音***所抑制的高频部分,突出高频的共振峰。
3.根据权利要求1所述的基于MFCC和向量元学习的声纹识别方法,其特征在于,所述特征提取步骤包括:
预加重子步骤:将语音信号通过滤波器提升高频部分;
分帧子步骤:对预加重后的语音信号进行分帧;
汉明窗子步骤:将分帧后的语音信号的每帧乘以汉明窗;
快速傅里叶变换子步骤:对汉明窗后的每一帧语音信号进行快速傅里叶变换,得到能量谱;
三角带通滤波子步骤:将能量谱输入三角带通滤波器组,平滑化频谱,消除谐波的作用,突显原先语音的共振峰;
对数能量计算子步骤:计算每个三角带通滤波器输出的对数能量;
离散余弦变换子步骤:将计算得到的对数能量代入离散余弦变换,得到MFCC特征参数;
动态差分参数子步骤:通过MFCC的差分谱来表示语音信号的动态特性,得到多维MFCC特征参数。
4.根据权利要求3所述的基于MFCC和向量元学习的声纹识别方法,其特征在于,所述预加重子步骤包括:
H(Z)=1-μz-1 (1),
其中,μ的值介于0.9-1.0之间,Z为预加重之后的语音信号,z为预加重之前的语音信号。
5.根据权利要求3所述的基于MFCC和向量元学习的声纹识别方法,其特征在于,所述分帧子步骤包括:
先将N个采样点集合成一个观测单位,称为帧,通常情况下N的值为256或512,涵盖的时间约为20~30ms,为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,通常M的值约为N的1/2或1/3,通常语音识别所采用语音信号的采样频率为8KHz或16KHz,以8KHz来说,若帧长度为256个采样点,则对应的时间长度是256/8000×1000=32ms。
6.根据权利要求3所述的基于MFCC和向量元学习的声纹识别方法,其特征在于,所述汉明窗子步骤包括:
将每一帧乘以汉明窗,以增加帧左端和右端的连续性,假设分帧后的信号为S(n),n=0,1…,N-1,N为帧的大小,那么乘上汉明窗后
S′(n)=S(n)×W(n)
Figure FDA0002761914890000021
其中,W(n)表示汉明窗,不同的a值会产生不同的汉明窗,一般情况下a取0.46。
7.根据权利要求3所述的基于MFCC和向量元学习的声纹识别方法,其特征在于,所述三角带通滤波器组包括40个三角带通滤波器,所述离散余弦变换子步骤将计算得到的40个对数能量代入离散余弦变换,得到13阶MFCC。
8.根据权利要求1所述的基于MFCC和向量元学习的声纹识别方法,其特征在于,所述模型训练步骤中,原型网络算法包括:
主要思想:把样本空间投影,即嵌入到一个低维空间,利用样本在低维空间的相似度做分类,然后在低维空间中找到每个分类的聚类中心,用距离函数测新的样本的分类;
假设当前的数据集为D,其内部的样本的表示形式为{(x1,y1),(x2,y2),...,(xn,yn)},其中x表示向量表示,y表示分类标签,假设有K个分类,每个类N个样本,其中N可以分成Ns和NQ(N=Ns+NQ),对应的样本集合分别记为Sk支持集和Qk查询集;
对于支持集内部的样本点,使用编码公式
Figure FDA0002761914890000023
来为每一个分类生成一个原型表示,这里的编码公式
Figure FDA0002761914890000022
可以是任意的一种信息抽取的方式,例如CNN,LSTM;
对于每一个分类,生成其原型表示为:
Figure FDA0002761914890000031
其中
Figure FDA0002761914890000038
表示提取出来的特征;
然后计算查询集与支持集的原型表示的距离情况;
最后计算当前样本属于每一个分类的概率pw(y=k∣x),这里使用softmax的计算方式:
Figure FDA0002761914890000032
其中d()是距离函数,c是每个类的聚类中心,在知道每类样本的聚类中心后,就可以刻画样本x属于哪个类,用距离函数和softmax函数表示,x属于第k个分类的概率如公式(4)所示;
最终,求网络
Figure FDA0002761914890000033
的参数
Figure FDA0002761914890000034
用到的损失函数为
Figure FDA0002761914890000035
Figure FDA0002761914890000036
已知样本x对应的第k类目标函数如公式(5)所示,采用随机梯度下降法最小化目标函数,即能得到最优参数
Figure FDA0002761914890000037
9.根据权利要求1所述的基于MFCC和向量元学习的声纹识别方法,其特征在于,所述模式匹配步骤,包括:
对于支持集中的每一个样本点生成一个编码表示,通过求和平均的方式来生成每一个分类的原型表示,同时,对于查询样本,也对其生成一个向量表示;
同时需要计算每一个查询点和每一个分类原型表示的距离情况,并计算softmax概率结果,生成对于各个分类的概率分布情况,概率最高的类别即为该测试数据的类别标签。
CN202011220705.6A 2020-11-05 2020-11-05 基于mfcc和向量元学习的声纹识别方法 Pending CN112397074A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011220705.6A CN112397074A (zh) 2020-11-05 2020-11-05 基于mfcc和向量元学习的声纹识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011220705.6A CN112397074A (zh) 2020-11-05 2020-11-05 基于mfcc和向量元学习的声纹识别方法

Publications (1)

Publication Number Publication Date
CN112397074A true CN112397074A (zh) 2021-02-23

Family

ID=74597377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011220705.6A Pending CN112397074A (zh) 2020-11-05 2020-11-05 基于mfcc和向量元学习的声纹识别方法

Country Status (1)

Country Link
CN (1) CN112397074A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011346A (zh) * 2021-03-19 2021-06-22 电子科技大学 一种基于度量学习的辐射源未知信号识别方法
CN113658582A (zh) * 2021-07-15 2021-11-16 中国科学院计算技术研究所 一种音视协同的唇语识别方法及***
CN114023312A (zh) * 2021-11-26 2022-02-08 杭州涿溪脑与智能研究所 基于元学习的语音声纹识别通用对抗扰动构建方法及***
CN116108372A (zh) * 2023-04-13 2023-05-12 中国人民解放军96901部队 一种小样本的次声事件分类识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及***
CN108847244A (zh) * 2018-08-22 2018-11-20 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于mfcc和改进bp神经网络的声纹识别方法及***
CN111785286A (zh) * 2020-05-22 2020-10-16 南京邮电大学 面向家居cnn分类与特征匹配联合的声纹识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及***
CN108847244A (zh) * 2018-08-22 2018-11-20 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于mfcc和改进bp神经网络的声纹识别方法及***
CN111785286A (zh) * 2020-05-22 2020-10-16 南京邮电大学 面向家居cnn分类与特征匹配联合的声纹识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ANAND PRASHANT: ""Few shot speaker recognition using deep neural networks"", 《IEEE》 *
JAKE SNELL: ""Prototypical networks for few-shot learning"", 《ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 30:ANNUAL CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS》 *
RUIRUI LI: ""Automatic speaker recognition with limited data"", 《WSDM》 *
隔壁的NLP小哥: ""原型网络"", 《HTTPS://BLOG.CSDN.NET/HEI653779919/ARTICLE/DETAILS/106595614》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011346A (zh) * 2021-03-19 2021-06-22 电子科技大学 一种基于度量学习的辐射源未知信号识别方法
CN113658582A (zh) * 2021-07-15 2021-11-16 中国科学院计算技术研究所 一种音视协同的唇语识别方法及***
CN113658582B (zh) * 2021-07-15 2024-05-07 中国科学院计算技术研究所 一种音视协同的唇语识别方法及***
CN114023312A (zh) * 2021-11-26 2022-02-08 杭州涿溪脑与智能研究所 基于元学习的语音声纹识别通用对抗扰动构建方法及***
CN114023312B (zh) * 2021-11-26 2022-08-23 杭州涿溪脑与智能研究所 基于元学习的语音声纹识别通用对抗扰动构建方法及***
CN116108372A (zh) * 2023-04-13 2023-05-12 中国人民解放军96901部队 一种小样本的次声事件分类识别方法

Similar Documents

Publication Publication Date Title
Agrawal et al. Novel TEO-based Gammatone features for environmental sound classification
CN106935248B (zh) 一种语音相似度检测方法及装置
Kumar et al. Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm
Cai et al. Sensor network for the monitoring of ecosystem: Bird species recognition
Muda et al. Voice recognition algorithms using mel frequency cepstral coefficient (MFCC) and dynamic time warping (DTW) techniques
US5913188A (en) Apparatus and method for determining articulatory-orperation speech parameters
CN112397074A (zh) 基于mfcc和向量元学习的声纹识别方法
US8036891B2 (en) Methods of identification using voice sound analysis
CN105825852A (zh) 一种英语口语朗读考试评分方法
CN110827857A (zh) 基于谱特征和elm的语音情感识别方法
CN111489763B (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN116052689A (zh) 一种声纹识别方法
CN112466276A (zh) 一种语音合成***训练方法、装置以及可读存储介质
Molla et al. On the effectiveness of MFCCs and their statistical distribution properties in speaker identification
Chamoli et al. Detection of emotion in analysis of speech using linear predictive coding techniques (LPC)
Sengupta et al. Optimization of cepstral features for robust lung sound classification
CN114842878A (zh) 一种基于神经网络的语音情感识别方法
CN112201226B (zh) 一种发声方式判别方法及***
Cai et al. The best input feature when using convolutional neural network for cough recognition
Kumar et al. Text dependent speaker identification in noisy environment
Estrebou et al. Voice recognition based on probabilistic SOM
Godino-Llorente et al. Automatic detection of voice impairments due to vocal misuse by means of gaussian mixture models
Mahesha et al. Vector Quantization and MFCC based classification of Dysfluencies in Stuttered Speech
Francese et al. Automatic creation of a Vowel Dataset for performing Prosody Analysis in ASD screening
Gayathri et al. Identification of voice pathology from temporal and cepstral features for vowel ‘a’low intonation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210223

RJ01 Rejection of invention patent application after publication