CN110047504B - 身份矢量x-vector线性变换下的说话人识别方法 - Google Patents

身份矢量x-vector线性变换下的说话人识别方法 Download PDF

Info

Publication number
CN110047504B
CN110047504B CN201910312097.2A CN201910312097A CN110047504B CN 110047504 B CN110047504 B CN 110047504B CN 201910312097 A CN201910312097 A CN 201910312097A CN 110047504 B CN110047504 B CN 110047504B
Authority
CN
China
Prior art keywords
vector
identity
speaker
model
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910312097.2A
Other languages
English (en)
Other versions
CN110047504A (zh
Inventor
徐珑婷
张光林
赵萍
张磊
季云云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Donghua University
Original Assignee
Donghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Donghua University filed Critical Donghua University
Priority to CN201910312097.2A priority Critical patent/CN110047504B/zh
Publication of CN110047504A publication Critical patent/CN110047504A/zh
Application granted granted Critical
Publication of CN110047504B publication Critical patent/CN110047504B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Complex Calculations (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及一种身份矢量x‑vector线性变换下的说话人识别方法,主要步骤是:对语音进行特征提取,并分别提取其身份矢量x‑vector和i‑vector;利用同一个说话人的x‑vector和i‑vector进行平行因子分析器训练;选取平行因子分析器中x‑vector对应的参数,在此参数基础上对身份矢量x‑vector进行线性变换得到xl‑vector;对新的身份矢量xl‑vector训练PLDA模型;将待测试语音进行特征提取以及x‑vector提取,将其输入到训练阶段得到的线性变换器得到新的身份矢量xl‑vector,最后将其输入到训练阶段得到的PLDA模型,从而得到最终结果。本发明在保证内存需求和计算速度和基线***相似的同时,提高了说话人识别的识别性能。

Description

身份矢量x-vector线性变换下的说话人识别方法
技术领域
本发明涉及本发明涉及生物识别中的说话人识别技术,更具体地说涉及一种身份矢量x-vector线性变换下的说话人识别技术。
背景技术
语音是人类进行沟通交流的最直接方便的方式,它以其特有的方便性、经济性、准确性等各方面的优势引起了各个研究机构的注意。语音信号处理的研究对促进人机交互、人工智能发展有着重大意义。为此,语音信号处理的相关领域,例如语音识别、语音编码、语音合成、说话人识别等方向受到越来越多的关注与理论研究。说话人识别,又称声纹识别,其研究目标是根据每个说话人的独特发音进行身份认证。每个说话人的语音都有着独特的个人特色,这是因为每个说话人天生的发声器官不同,同时受后天所在的环境因素影响而培养成的属于自己的一个独特的嗓音。正是由于这种差异性,使得将语音作为一种生物特性作为识别目标成为可能,说话人识别也逐渐形成了自己的一套比较完善的识别体系。
说话人识别***包括了预处理部分、特征提取部分、模型训练与匹配计算部分。说话人识别的关键技术包括特征参数提取算法,模型的选择和模型匹配算法,直接决定了识别***的性能。说话人模型分为生成模型与判别模型。生成模型是学习各个类别各自的特征,即多个模型,识别数据映射到每个模型中,进而确定识别数据属于哪一类;判别模型是学习分类面,该分类面可用来区分不同的数据分别属于哪一类。这两个模型以基于全局差异模型(TotalVariabilityModeling,TVM) 的身份矢量i-vector、基于延时神经网络(Time-delayDeepNeuralNetwork,TDNN) 的身份矢量x-vector为代表,是目前使用最广泛的两个矢量模型。
x-vector的后端部分和i-vector后端部分一般均采用概率线性判别分析 (probabilisticlineardiscriminantanalysis,PLDA)的后端评分方法。x-vector模型下的结果与i-vector的结果在长时语音下相当,在短时语音下结果更好。不同的论文研究了如何提高x-vector模型下的***性能,研究表明将i-vector和x-vector 的模型叠加或者PLDA得分融合可以提高***性能,然而该种方法设计到两种***,需要大量的内存需求,同时计算速度也会受到影响。随后,更多的研究通过数据扩充的方式来提高x-vector的鲁棒性,但是这种方法受识别环境影响。
发明内容
本发明的目的是提供一种考虑在线识别目标说话人的内存量和计算时间的说话人识别方法。
为了达到上述目的,本发明的技术方案是提供了一种基于身份矢量x-vector 线性变换下的说话人识别方法,其特征在于,包括如下步骤:
步骤1、提取说话人的训练语音的梅尔频率倒谱系数作为说话人的特征;
步骤2、利用步骤1获得的特征采用深度神经网络结构训练x-vector模型,建立身份矢量x-vector模型,从而获得身份矢量x-vector;
步骤3、利用步骤1获得的特征基于EM算法训练i-vector模型,建立身份矢量i-vector模型,从而获得身份矢量i-vector;
步骤4、认为同一个说话人的i-vector和x-vector投影到同一个矢量中,基于EM算法训练得到平行因子分析器的参数,从而完成平行因子分析器的训练;
步骤5、通过线性变换器,在平行因子分析器的参数中保留x-vector对应的参数,在线性变换器基础上,将身份矢量xl-vector用x-vector的线性变换表达出来,从而建立身份矢量xl-vector模型,获得身份矢量xl-vector;
步骤6、利用身份矢量xl-vector采用EM算法对PLDA的参数模型进行更新,完成对PLDA模型的训练;
步骤7、测试阶段的说话人识别
将注册语音已经对应的待识别语音进行特征提取后通过身份矢量x-vector 模型获得身份矢量x-vector,将身份矢量x-vector输入训练后的线性变换器得到新的身份矢量xl-vector,最后将身份矢量xl-vector输入到训练后的PLDA模型,从而得到说话人识别结果。
优选地,步骤4中,考虑到不同身份矢量可以映射到同一个矢量空间,采用平行因子分析的方法得到这个共同的矢量。
优选地,步骤4中,第l个说话人的身份矢量i-vector表示为φi(l,1),...,φi(l,k),身份矢量x-vector表示为φx(l,1),...,φx(l,k),其中,k表示该说话人的输入语音的数量,φi(l,k)表示第l个说话人的身份矢量的第k段语音的身份矢量i-vector,φx(l,k)表示第l个说话人的身份矢量的第k段语音的身份矢量x-vector,同一个说话人的身份矢量i-vector和身份矢量x-vector可以投影到同一个矢量中,因此可以表示为
Figure BDA0002031850330000031
其中,μi表示身份矢量i-vector 的平均向量;μx表示身份矢量x-vector的平均向量;Fi表示i-vector对应的投影矩阵;Fx表示x-vector对应的投影矩阵;h(l)表示第l个说话人的隐变量;εi(l,k) 表示第l个说话人的身份矢量的第k段语音的身份矢量i-vector在线性变换后的残余矢量,εi~N(0,∑i),∑i表示i-vector的协方差矩阵,N(0,∑i)表示εi满足矩阵为0,协方差为∑i的正态分布;εx(l,k)表示表示第l个说话人的身份矢量的第k段语音的身份矢量x-vector在线性变换后的残余矢量,εx~N(0,∑x),∑x表示残差εx的协方差矩阵,N(0,∑x)表示εx满足矩阵为0,协方差为∑x的正态分布;通过EM算法,得到平行因子分析器的参数θ={μi,Fi,∑i,μx,Fx,∑x}。
优选地,步骤6中,根据x-vector对应的参数θx={μx,Fx,∑x}上,将线性变换后的身份矢量xl-vector表示为
Figure BDA0002031850330000032
其中,
Figure BDA0002031850330000033
表示xl-vector 的后验协方差
Figure BDA0002031850330000034
将其进一步写成φxl=Aφx-b的形式,A、b 为线性参数,从而将身份矢量xl-vector表示成x-vector的线性变换方式。
本发明考虑到i-vector的生成模型的信息是对x-vector模型***有所帮助的,在训练阶段引入i-vector,得到适用于x-vector的线性变换矩阵,并提出一种 x-vector线性变换下的说话人识别方法。
本发明所述步骤4中,采用x-vector和i-vector训练平行因子分析器,这样这个分析器既包含了x-vector的信息,又包含了i-vector的信息,因此在此分析器基础上得到的x-vector的线性变换器较好地保留了i-vector的信息,从而使得新的身份矢量xl-vector具有i-vector信息,最终提高***的识别性能。
本发明步骤在1-6的训练阶段的步骤完成后,在步骤7的测试阶段不需要再进行i-vector身份矢量提取,同时平行因子分析器在训练阶段得到后,只需要保留x-vector的线性变换器,因此测试阶段的内存需求没有增大,同时线性变换对实际的运算几乎没有影响。
本发明方法在于说话人识别中采用一种对x-vector线性变换后的身份矢量进行身份识别。通过在测试过程中合理采用i-vector信息,达到提高识别性能的效果。具体来说就是在测试阶段,通过利用同一个说话人的x-vector和i-vector 进行平行因子分析器训练,选取平行因子分析器中x-vector对应的参数,在此参数基础上对身份矢量x-vector进行线性变换得到xl-vector;在测试阶段,将待测试语音进行特征提取以及x-vector提取,将其输入到训练阶段得到的线性变换器得到新的身份矢量xl-vector,最后将其输入到训练阶段得到的PLDA模型,从而得到最终结果。
由此可产生这样的有益效果:
(1)采用x-vector和i-vector训练平行因子分析器,这样这个分析器既包含了x-vector的信息,又包含了i-vector的信息,因此在此分析器基础上得到的 x-vector的线性变换器较好地保留了i-vector的信息,从而使得新的身份矢量 xl-vector具有i-vector信息,最终提高***的识别性能;
(2)测试阶段不需要再进行i-vector身份矢量提取,同时平行因子分析器在训练阶段得到后,只需要保留x-vector的线性变换器,因此测试阶段的内存需求没有增大,同时线性变换对实际的运算几乎没有影响。
附图说明
图1是本发明实施身份矢量x-vector线性变换下的说话人识别流程图;
图2是x-vector神经网络架构中帧数层的参数设置情况。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明实施例公开的一种身份矢量x-vector线性变换下的说话人识别技术的方法,如图1所示,包括以下步骤:
步骤1、特征提取——本发明采用梅尔频率倒谱系数(Mel Frequency CepstralCoefficients,MFCC)作为说话人的特征。梅尔频率尺度大体对应于实际频率的对数分布关系:Mel(f)=2595lg(1+f/700),式中,Mel(f)表示梅尔频率, f表示普通频率。按照下列操作方式可以得到MFCC特征:(1)预处理,包括预加重、分帧加窗、端点检测,设语音信号x(m)经预处理后为xi(m),i表示帧数; (2)快速傅里叶变换X(i,k)=FFT[xi(m)],X(i,k)表示频谱信号;(3)谱线能量计算E(i,k)=[X(i,k)]2;(4)计算梅尔滤波器能量
Figure BDA0002031850330000051
Figure BDA0002031850330000052
其中Hm(k)为梅尔滤波器函数,M表示滤波器的个数;(5)DCT变换以及求对数。
步骤2、身份矢量x-vector模型建立——x-vector模型训练基于深度神经网络结构。前5层是帧级别,TDNN总的输入是一段语音,每次TDNN取固定帧数,前五层的网络参数设定见图2。然后池化层把每个TDNN的输出矢量积累下来后,计算均值和标准差作为池化层的输出。池化层之后接着两层全向连接层最后加一个softmax层为输出。输出的神经元个数和我们训练集中说话人个数保持一致,神经网络的输出是一个后验概率。基于该神经网络通过多次迭代训练使用第六层输出作为x-vector模型。
步骤3、身份矢量i-vector模型建立——给定一个说话人s的语音序列为 O={o1,o2,...,oT},可以将第c个高斯分量在t时刻的语音序列表示成 oc,t=μc+Tcx+ε,oc,t表示第c个高斯分量在t时刻的语音序列,μc表示第c个高斯分量的均值,Tc表示第c个高斯分量的投影矩阵,x表示该说话人的隐变量,ε表示残差部分,选用EM算法训练i-vector模型。其中E步骤(求期望值)中,一阶统计量Fc和二阶统计量Sc的定义分别为:Fc=∑tγc(t)(oc,tc),Sc=∑tγc(t)(oc,tc)(oc,tc)T,γc(t)表示第t帧语音在第c个高斯分量占有率, x的后验均值表示为φ=L-1TT-1F,其中,L-1表示身份矢量i-vector的后验协方差,
Figure BDA0002031850330000061
Nc表示第c个高斯分量的零阶统计量,,I表示单位向量,T表示所有高斯分量Tc组成的矩阵,F表示一阶统计量,∑表示残差ε的协方差矩阵。M步骤(最大化)主要目的是优化矩阵T和矩阵∑,通过对
Figure BDA0002031850330000062
求导得到这两个矩阵的最优解,F(s)表示第s段语音的一阶统计量,x(s)表示第s段语音的的隐变量, N(s)表示第s段语音的零阶统计量。通过对E和M步骤依次迭代更新的过程建立i-vector模型。
步骤4、训练平行因子分析器——第l个说话人的身份矢量i-vector表示为φi(l,1),...,φi(l,k),身份矢量x-vector表示为φx(l,1),...,φx(l,k),其中,k表示该说话人的输入语音的数量,φi(l,k)表示第l个说话人的身份矢量的第k段语音的身份矢量i-vector,φx(l,k)表示第l个说话人的身份矢量的第k段语音的身份矢量 x-vector,同一个说话人的身份矢量i-vector和身份矢量x-vector可以投影到同一个矢量中,因此可以表示为
Figure BDA0002031850330000063
其中,μi表示身份矢量i-vector的平均向量;μx表示身份矢量x-vector的平均向量;Fi表示i-vector对应的投影矩阵;Fx表示x-vector对应的投影矩阵;h(l)表示第l个说话人的隐变量;εi(l,k)表示第l个说话人的身份矢量的第k段语音的身份矢量i-vector在线性变换后的残余矢量,εi~N(0,∑i),∑i表示i-vector的协方差矩阵,N(0,∑i)表示εi满足矩阵为0,协方差为∑i的正态分布;εx(l,k)表示表示第l个说话人的身份矢量的第k段语音的身份矢量x-vector在线性变换后的残余矢量,εx~N(0,∑x),∑x表示残差εx的协方差矩阵,N(0,∑x)表示εx满足矩阵为0,协方差为∑x的正态分布;通过EM算法,得到平行因子分析器的参数θ={μi,Fiix,Fxx}。
步骤5、线性变换器——在训练阶段得到的平行因子分析器包含了i-vector 和x-vector的参数,在实际在线操作中,只需要x-vector对应的参数θx={μx,Fx,∑x}。在此参数上得到线性变换后的身份矢量xl-vector模型。
步骤6、身份矢量xl-vector模型建立——在x-vector对应的参数θx={μx,Fx,∑x}上,将线性变换后的身份矢量xl-vector表示为
Figure DEST_PATH_FDA0002031850320000022
Figure BDA0002031850330000073
表示身份矢量x-vector的后验协方差
Figure BDA0002031850330000074
将其进一步写成φxl=Aφx-b的形式,A、b为线性参数,从而将身份矢量xl-vector表示成x-vector的线性变换方式。
步骤7、PLDA模型训练——假设训练数据语音由i个说话人的语音组成,其中每个说话人有j段自己不同的语音。那么,我们定义第i个说话人的第j条语音为xij。然后,根据因子分析定义xij的生成模型为:xij=μ+Fhi+Gwijij,μ表示均值矢量,F表示说话人信息矩阵,hi表示第i个说话人的隐变量,G表示信道信息矩阵,wij表示第i个说话人的第j条语音的在信道的隐变量,εij表示第 i个说话人的第j条语音的残差部分。采用EM算法对PLDA的参数模型进行更新。
步骤8、测试阶段的说话人识别——将注册语音已经对应的待识别语音进行特征提取以及x-vector提取,将其输入到训练阶段得到的线性变换器得到新的身份矢量xl-vector,最后将其输入到训练阶段得到的PLDA模型,从而得到最终结果。
下面对本发明方法进行仿真并分析。
在NIST SRE 2010测试集中,对线性变换后x-vector身份矢量下的说话人识别性能进行了仿真验证。该测试集包含9个场景(common condition,CC)的测试任务,包含采访(interview),麦克风(microphone)和电话信道(telephone) 的数据,其中电话信道还对于说话人风格上面引入了不同的音量,主要包括高音量(high vocal effort),平常音量(normal vocal effort)和低音量(low vocal effort)。本发明采用第5个场景(CC’5),即平常音量下基于不同电话信道的场景。测评标准采用等错误率(Equal Error Rate,EER)以及检测损失函数(Detection Cost Function,DCF)来衡量说话人识别***的性能。
在NIST SRE 2010的coreext-coreext、core-10sec、10sec-10sec三个任务测试集合上进行实验,其中,coreext和core指长时语音,10sec指短时语音。仿真中用到Switchboard2,Switchboard Cellular,以及NIST SRE 2004到2008 的语音数据作为训练数据。实验以x-vector和i-vector***作为基线模型。男女声UBM一起训练,x-vector模型采用声学特征为20维的MFCC特征,i-vector 模型采用同样的20维mfcc的静态特征参数及其一阶和二阶差分,即60维特征。对每一段语音段,分别得到600维i-vector矢量及512维x-vector矢量。在基线***中用LDA的方法将身份矢量降维到400维,接着训练一个说话人空间秩为200维,信道空间秩为0维,以及全方差矩阵的PLDA模型。本发明提出的 xl-vector在设计过程中已经考虑说话人变量类间距离最大、类内距离最小的因素,因此不采用LDA步骤。
表1是在coreext-coreext、core-10sec、10sec-10sec三个任务中,不同***在EER评价标准和DCF评价标准的对比,xl-vector的维数为512。其中i-vector 和x-vector是两个基线***,融合***为i-vector和x-vector的PLDA模型的得分进行相加得到的***。在coreext-coreext、core-10sec、10sec-10sec三个任务中,本发明提出的xl-vector在EER评价标准中均好于两个基线***,在DCF评价标准中10sec-10sec任务中相对x-vector***稍有降低,其他两个任务均好于两个基线***。xl-vector***相较于融合***在coreext-coreext任务上的EER 优势比较明显,xl-vector和x-vector所需的内存以及计算速度相似,然而融合***需要考虑x-vector和i-vector,因此运算时需要更多的内存,计算速度也变慢。综上,本发明的xl-vector相较于两个基线***和融合***都有着明显的优势。
Figure BDA0002031850330000091
表1
表2是在coreext-coreext、core-10sec、10sec-10sec三个任务中,新的身份矢量xl-vector在不同维度下EER评价标准和DCF评价标准的对比。可以发现在coreext-coreext任务中随着维数的增大,EER的性能越来越好,在维数为500 时,性能达到最优值,在维数为512时,基本保持最优值;DCF的性能基本维持不变。在core-10sec和10sec-10sec任务中随着维数的增大,EER的性能越来越差,在维数为200时,性能达到最优值;DCF的变换范围维持在10%以内。综上,在测试语句为长时语句时,维数越高性能越好,在测试语句为短时语句时,维数越低性能越好。
Figure BDA0002031850330000092
表2
由此可见,发明人提出的xl-vector模型通过x-vector和i-vector在训练阶段的平行因子分析器,得到一个对x-vector的线性变换算法,提高了说话人识别***的性能,并保持内存需求量和计算速度不受影响的优点。

Claims (2)

1.基于身份矢量x-vector线性变换下的说话人识别方法,其特征在于,包括如下步骤:
步骤1、提取说话人的训练语音的梅尔频率倒谱系数作为说话人的特征;
步骤2、利用步骤1获得的特征采用深度神经网络结构训练x-vector模型,建立身份矢量x-vector模型,从而获得身份矢量x-vector;
步骤3、利用步骤1获得的特征基于EM算法训练i-vector模型,建立身份矢量i-vector模型,从而获得身份矢量i-vector;
步骤4、认为同一个说话人的i-vector和x-vector投影到同一个矢量中,基于EM算法训练得到平行因子分析器的参数,从而完成平行因子分析器的训练;
考虑到不同身份矢量可以映射到同一个矢量空间,采用平行因子分析的方法得到这个共同的矢量;
第l个说话人的身份矢量i-vector表示为φi(l,1),…,φi(l,k),身份矢量x-vector表示为φx(l,1),…,φx(l,k),其中,k表示该说话人的输入语音的数量,φi(l,k)表示第l个说话人的身份矢量的第k段语音的身份矢量i-vector,φx(l,k)表示第l个说话人的身份矢量的第k段语音的身份矢量x-vector,同一个说话人的身份矢量i-vector和身份矢量x-vector可以投影到同一个矢量中,因此可以表示为
Figure FDA0003028087670000011
其中,μi表示身份矢量i-vector的平均向量;μx表示身份矢量x-vector的平均向量;Fi表示i-vector对应的投影矩阵;Fx表示x-vector对应的投影矩阵;h(l)表示第l个说话人的隐变量;εi(l,k)表示第l个说话人的身份矢量的第k段语音的身份矢量i-vector在线性变换后的残余矢量,εi~N(0,Σi),Σi表示i-vector的协方差矩阵,N(0,Σi)表示εi满足矩阵为0,协方差为Σi的正态分布;εx(l,k)表示表示第l个说话人的身份矢量的第k段语音的身份矢量x-vector在线性变换后的残余矢量,εx~N(0,Σx),Σx表示残差εx的协方差矩阵,N(0,Σx)表示εx满足矩阵为0,协方差为Σx的正态分布;通过EM算法,得到平行因子分析器的参数θ={μi,Fiix,Fxx};
步骤5、通过线性变换器,在平行因子分析器的参数中保留x-vector对应的参数,在线性变换器基础上,将身份矢量xl-vector用x-vector的线性变换表达出来,从而建立身份矢量xl-vector模型,获得身份矢量xl-vector;
步骤6、利用身份矢量xl-vector采用EM算法对PLDA的参数模型进行更新,完成对PLDA模型的训练;
步骤7、测试阶段的说话人识别
将注册语音已经对应的待识别语音进行特征提取后通过身份矢量x-vector模型获得身份矢量x-vector,将身份矢量x-vector输入训练后的线性变换器得到新的身份矢量xl-vector,最后将身份矢量xl-vector输入到训练后的PLDA模型,从而得到说话人识别结果。
2.根据权利要求1所述身份矢量x-vector线性变换下的说话人识别方法,其特征在于:步骤6中,根据x-vector对应的参数θx={μx,Fxx}上,将线性变换后的身份矢量xl-vector表示为
Figure FDA0003028087670000021
其中,
Figure FDA0003028087670000022
表示xl-vector的后验协方差
Figure FDA0003028087670000023
将其进一步写成φxl=Aφx-b的形式,A、b为线性参数,从而将身份矢量xl-vector表示成x-vector的线性变换方式。
CN201910312097.2A 2019-04-18 2019-04-18 身份矢量x-vector线性变换下的说话人识别方法 Active CN110047504B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910312097.2A CN110047504B (zh) 2019-04-18 2019-04-18 身份矢量x-vector线性变换下的说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910312097.2A CN110047504B (zh) 2019-04-18 2019-04-18 身份矢量x-vector线性变换下的说话人识别方法

Publications (2)

Publication Number Publication Date
CN110047504A CN110047504A (zh) 2019-07-23
CN110047504B true CN110047504B (zh) 2021-08-20

Family

ID=67277768

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910312097.2A Active CN110047504B (zh) 2019-04-18 2019-04-18 身份矢量x-vector线性变换下的说话人识别方法

Country Status (1)

Country Link
CN (1) CN110047504B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111081256A (zh) * 2019-12-31 2020-04-28 苏州思必驰信息科技有限公司 数字串声纹密码验证方法及***
CN111462759B (zh) * 2020-04-01 2024-02-13 科大讯飞股份有限公司 一种说话人标注方法、装置、设备及存储介质
CN112037800B (zh) * 2020-09-22 2024-07-12 平安科技(深圳)有限公司 声纹核身模型训练方法、装置、介质及电子设备
CN113689861B (zh) * 2021-08-10 2024-02-27 上海淇玥信息技术有限公司 一种单声道通话录音的智能分轨方法、装置和***
CN114974259B (zh) * 2021-12-23 2024-07-12 号百信息服务有限公司 一种声纹识别方法
CN115273863A (zh) * 2022-06-13 2022-11-01 广东职业技术学院 一种基于声音识别和人脸识别的复合网课考勤***及方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105139857A (zh) * 2015-09-02 2015-12-09 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种自动说话人识别中针对语音欺骗的对抗方法
CN105575394A (zh) * 2016-01-04 2016-05-11 北京时代瑞朗科技有限公司 基于全局变化空间及深度学习混合建模的声纹识别方法
US9685159B2 (en) * 2009-11-12 2017-06-20 Agnitio Sl Speaker recognition from telephone calls
US9792823B2 (en) * 2014-09-15 2017-10-17 Raytheon Bbn Technologies Corp. Multi-view learning in detection of psychological states
CN107274905A (zh) * 2016-04-08 2017-10-20 腾讯科技(深圳)有限公司 一种声纹识别方法及***
CN108922556A (zh) * 2018-07-16 2018-11-30 百度在线网络技术(北京)有限公司 声音处理方法、装置及设备
CN109346084A (zh) * 2018-09-19 2019-02-15 湖北工业大学 基于深度堆栈自编码网络的说话人识别方法
CN109599091A (zh) * 2019-01-14 2019-04-09 南京邮电大学 基于STARWGAN-GP和x向量的多对多说话人转换方法
CN109801634A (zh) * 2019-01-31 2019-05-24 北京声智科技有限公司 一种声纹特征的融合方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9685159B2 (en) * 2009-11-12 2017-06-20 Agnitio Sl Speaker recognition from telephone calls
US9792823B2 (en) * 2014-09-15 2017-10-17 Raytheon Bbn Technologies Corp. Multi-view learning in detection of psychological states
CN105139857A (zh) * 2015-09-02 2015-12-09 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种自动说话人识别中针对语音欺骗的对抗方法
CN105575394A (zh) * 2016-01-04 2016-05-11 北京时代瑞朗科技有限公司 基于全局变化空间及深度学习混合建模的声纹识别方法
CN107274905A (zh) * 2016-04-08 2017-10-20 腾讯科技(深圳)有限公司 一种声纹识别方法及***
CN108922556A (zh) * 2018-07-16 2018-11-30 百度在线网络技术(北京)有限公司 声音处理方法、装置及设备
CN109346084A (zh) * 2018-09-19 2019-02-15 湖北工业大学 基于深度堆栈自编码网络的说话人识别方法
CN109599091A (zh) * 2019-01-14 2019-04-09 南京邮电大学 基于STARWGAN-GP和x向量的多对多说话人转换方法
CN109801634A (zh) * 2019-01-31 2019-05-24 北京声智科技有限公司 一种声纹特征的融合方法及装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Front-end factor analysis for speaker verification;Dehak N, Kenny P J, Dehak R, et al;《IEEE Transactions on Audio, Speech, and Language Processing》;20100809;第19卷(第4期);全文 *
Generalizing I-vector estimation for rapid speaker recognition;Xu L, Lee K A, Li H, et al;《IEEE/ACM Transactions on Audio, Speech, and Language Processing》;20180115;全文 *
Generative x-vectors for text-independent speaker verification;Xu L, Das R K, Yılmaz E, et al;《2018 IEEE Spoken Language Technology Workshop (SLT)》;20190214;全文 *
Linear transformation on x-vector for text-independent speaker verification;Longting Xu,Bo Ren,Guanglin Zhang,Jichen Yang;《Electronics Letters》;20190725;第55卷(第15期);全文 *
Speaker adaptation of neural network acoustic models using i-vectors;Saon G, Soltau H, Nahamoo D, et al.;《2013 IEEE Workshop on Automatic Speech Recognition and Understanding》;20140109;全文 *
基于稀疏分解的说话人识别技术研究;徐珑婷;《中国博士学位论文全文数据库 信息科技辑》;20190115;全文 *

Also Published As

Publication number Publication date
CN110047504A (zh) 2019-07-23

Similar Documents

Publication Publication Date Title
CN110047504B (zh) 身份矢量x-vector线性变换下的说话人识别方法
Kabir et al. A survey of speaker recognition: Fundamental theories, recognition methods and opportunities
Chauhan et al. Speaker recognition using LPC, MFCC, ZCR features with ANN and SVM classifier for large input database
Markov et al. Robust speech recognition using generalized distillation framework.
CN110310647B (zh) 一种语音身份特征提取器、分类器训练方法及相关设备
CN105261367B (zh) 一种说话人识别方法
Hasan et al. Acoustic factor analysis for robust speaker verification
Ohi et al. Deep speaker recognition: Process, progress, and challenges
Poorjam et al. Multitask speaker profiling for estimating age, height, weight and smoking habits from spontaneous telephone speech signals
Nunes et al. Additive margin sincnet for speaker recognition
Pardede et al. Convolutional neural network and feature transformation for distant speech recognition
Bai et al. Speaker verification by partial AUC optimization with mahalanobis distance metric learning
KP ELM speaker identification for limited dataset using multitaper based MFCC and PNCC features with fusion score
Huang et al. Intel Far-Field Speaker Recognition System for VOiCES Challenge 2019.
Kheder et al. A unified joint model to deal with nuisance variabilities in the i-vector space
Ng et al. Teacher-student training for text-independent speaker recognition
Wang et al. Robust speaker identification of iot based on stacked sparse denoising auto-encoders
Chowdhury et al. Extracting sub-glottal and supra-glottal features from MFCC using convolutional neural networks for speaker identification in degraded audio signals
Lin et al. Mixture representation learning for deep speaker embedding
Kanagasundaram Speaker verification using I-vector features
Shah et al. Unsupervised Vocal Tract Length Warped Posterior Features for Non-Parallel Voice Conversion.
CN110148417B (zh) 基于总变化空间与分类器联合优化的说话人身份识别方法
Shahamiri et al. An investigation towards speaker identification using a single-sound-frame
Monteiro et al. On the performance of time-pooling strategies for end-to-end spoken language identification
Tan et al. Denoised senone i-vectors for robust speaker verification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant