CN106448681B - 一种超矢量的说话人辨认方法 - Google Patents

一种超矢量的说话人辨认方法 Download PDF

Info

Publication number
CN106448681B
CN106448681B CN201610817892.3A CN201610817892A CN106448681B CN 106448681 B CN106448681 B CN 106448681B CN 201610817892 A CN201610817892 A CN 201610817892A CN 106448681 B CN106448681 B CN 106448681B
Authority
CN
China
Prior art keywords
vector
super vector
speaker
gmm
recombination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610817892.3A
Other languages
English (en)
Other versions
CN106448681A (zh
Inventor
孙林慧
欧国振
薛海双
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201610817892.3A priority Critical patent/CN106448681B/zh
Publication of CN106448681A publication Critical patent/CN106448681A/zh
Application granted granted Critical
Publication of CN106448681B publication Critical patent/CN106448681B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种超矢量的说话人辨认方法,包括训练阶段和实测阶段。前者包括利用说话人语音信号的特征参数为每一个说话人训练一个GMM,从GMM提取超矢量,然后对该超矢量进行重组得到重组超矢量,再利用重组超矢量训练一个SVM模型。后者包括用相同的方法对测试语音提取测试的重组超矢量,然后利用训练阶段得到的SVM模型对测试的重组超矢量进行判别,从而判定测试语音所代表的说话人的身份。本发明利用原始超矢量的相邻均值矢量间的高相关性,实现了平滑数据的过渡,降低计算复杂度,对GMM组成超矢量的各个均值向量进行重新组合,使其更加契合SVM对数据处理的机制。通过选择适当的超矢量重组方式,有效提升***的识别性能,减少了运算时间。

Description

一种超矢量的说话人辨认方法
技术领域
本发明属于语音识别术领域,具体涉及一种重组超矢量的说话人辨认方法。
背景技术
语音是人类最方便直接的交流方式,语音信号中不仅包含了文本内容的信息,也包含了说话人的身份信息,这使得自动说话人成为可能。说话人识别是指从语音信号中判断出话者的身份信息,在司法、军事、经济等领域中得到了广泛的应用。说话人识别可分为说话人辨认和说话人确认两个类别,前者是多对一的问题,而后者则是一对一的问题。文本无关的说话人辨认***是指不用为测试语音指定特定的文本内容的说话人辨认***,与之相反的文本相关说话人辨认***需要为测试语音指定特定的文本内容。
在说话人识别中常用的概率统计模型为隐马尔科夫模型(Hidden Markov Model,HMM)和高斯混合模型(Gaussian mixture model,GMM),在基于GMM的识别任务中,一般首先选择适当混合数的GMM来刻画说话人的个性特征,然后提取每个说话人的超矢量,来代表说话人的身份信息。因为GMM能够有效擦除语音的文本信息,突显说话人的身份信息,所以更加适合于文本无关的识别任务。支持向量机(Support Vector Machine,SVM)是一种有效的说话人识别模型,SVM技术通过将特征向量进行非线性映射处理来提高模型的区分性能,但当要处理的数据量较大时,SVM***的分类性能明显下降,并且算法收敛慢。GMM-SVM***的提出很好的解决了SVM模型的缺点。首先,超矢量可以看成是GMM特征输入的提炼,更好的刻画说话人的身份信息;其次,提取超矢量可以看成是特征输入的一个降维过程,从而降低SVM***处理数据的复杂度,充分利用SVM处理小数据量时的优越性能。前期研究表明,GMM-SVM***在说话人识别领域取得了优越的成果。
但是原始的GMM-SVM***没有考虑到各个高斯分量的均值矢量之间的关联性,也没有充分利用SVM处理高维小数据的优越性能。原始GMM-SVM***所利用的超矢量是GMM的每个均值矢量依照次序连接起来构成的。这种超矢量的每个高斯分量之间的关联性没有充分利用,数据之间的过渡不够平滑,并且这种超矢量的均值矢量样本数量和维数分别与GMM混合数和GMM特征输入的维数有关。所以,在***的识别率方面,由于没有考虑到各高斯分量的均值矢量的关联性,数据过渡不够平滑,***识别率还有待提高;在***的计算复杂度方面,当GMM混合度较大的时候,也使得SVM输入的样本数目较大,对SVM的计算复杂度有较大的影响,从而使得SVM的计算复杂度过大。
发明内容
本发明所要解决的技术问题是为了克服现有技术的不足,提出一种重组超矢量的说话人辨认方法。所述方法与传统的GMM-SVM说话人辨认方法比较,在极大地改善计算复杂度的基础上,有效地提高了说话人的识别率。
本发明为解决上述技术问题,提出的技术方案为一种重组超矢量的说话人辨认方法,包括以下两个阶段:
训练阶段:包括利用说话人语音信号的特征参数为每一个说话人训练一个GMM,从GMM提取传统意义上的超矢量,然后对该超矢量进行重组得到重组超矢量,再利用重组超矢量训练一个SVM模型;
实测阶段:包括用相同的方法对测试语音提取测试的重组超矢量,然后利用训练阶段得到的SVM模型对测试的重组超矢量进行判别,从而判定测试语音所代表的说话人的身份。
上述训练阶段具体包含以下过程:
步骤A-1,特征参数提取,具体步骤如下:
步骤A-1a,进行语音信号的预处理,得到T帧信号;
步骤A-1b,提取语音特征参数,所提取的特征参数为梅尔频率倒谱系数和梅尔频率倒谱系数的一阶差分,一共D维,得到语音信号的特征参数X,X∈RT×D
步骤A-2,训练混合数为M的GMM,得到训练GMM的主要参数λ={ωiii},i=1,…,M,GMM关于X的计算公式为:
其中ωi,i=1,…,M是混合权重,M是混合数,并且而bi(X),i=1,…,M,是高斯概率密度函数子分布,具体步骤如下:
步骤A-2a,给定GMM混合数M;
步骤A-2b,初始化参数λ={ωiii},i=1,…,M;
步骤A-2c,在最大似然准则下,利用最大期望估计算法来估计GMM参数,得到λ={ωiii},i=1,…,M的迭代公式,具体迭代公式如下:
混合权重的迭代公式:
均值的迭代公式:
方差的迭代公式:
步骤A-2c,迭代终止,得到每个说话人的GMM;
步骤A-3,利用GMM中得到重组超矢量,具体过程如下:
步骤A-3a,提取传统的超矢量m,且m=(m1,m2,···,mM)T,其中mi,i=1,…,M是维数为D的向量;
步骤A-3b,在超矢量m内,自上而下选择一定数目q的均值矢量,首尾相连形成第一个均值矢量,可表示为:
m'1=(m1,m2,…,mq)
这个过程一直进行,直到遍历所有均值矢量,最后得到重组超矢量:
m'=(m'1,m'2,…,m'p)T
这个重组超矢量具有的新的均值矢量的个数为p,满足关系:
M=q×p
其中M是GMM混合数;
步骤A-4,训练得到SVM模型,具体过程如下:
步骤A-4a,训练数据的准备,假设有N个说话人,则由步骤A-1~步骤A4,得到N个说话人的重组超矢量,则SVM的训练数据集T={(m'1,y1),(m'2,y2),…,(m'N,yN)},其中m'i,i=1,2,…,N,是第i个说话人的重组超矢量,y={-1,+1},i=1,2,…,N;
步骤A-4b,选择恰当的核函数K(m',z)和恰当的惩罚参数C,构造并求解最优问题:
0≤αi≤C,i=1,2,…,N
求得最优解
步骤A-4c,选择α*的一个正分量来计算
步骤A-4d,构造决策函数
进一步,上述步骤A-1a中,所述预处理主要包括预加重、分帧加窗处理。
步骤A-1b,所述特征参数为梅尔频率倒谱系数和梅尔频率倒谱系数的一阶差分。
上述实测阶段具体包含对测试语音进行身份判决,具体过程如下:
步骤B-1,对测试语音重复步骤A-1~步骤A-3,得到测试语音的重组超矢量;
步骤B-2,将得到的测试语音的超矢量输入训练阶段得到的SVM模型当中,输出关于测试语音的说话人身份。
与现有技术相比,本发明的有益效果在于:
1,本发明可以更好地利用原始超矢量的相邻均值矢量间的高相关性,平滑数据的过渡,降低计算复杂度,对GMM组成超矢量的各个均值向量进行重新组合,使其更加契合SVM对数据处理的机制。
2,首先依据各相邻高斯分量间均值矢量的相关性,选择适当数量的高斯分量的均值矢量,然后把这些均值矢量首尾连接形成新的均值矢量,按这个方法依次遍历整个超矢量形成重组超矢量,随后将,得到的重组超矢量运用于SVM***的训练和识别。
3,本发明通过选择适当的超矢量重组方式,有效提升了***的识别性能,显著降低***的时间复杂度,减少了运算时间。
附图说明
图1是本发明整体的***框图。
图2是本发明的基于不同高斯关联数对识别率的影响曲线图。
图3是本发明的基于不同高斯关联数对***建模所需时间的影响曲线。
图4是本发明的基于不同高斯关联数对SVM支持向量个数的影响曲线。
具体实施方式
下面结合附图对本发明的具体实施方式做进一步的具体说明。
本发明的一种重组超矢量的GMM-SVM说话人辨认方法,实际应用中,在训练GMM的时候,对第一个均值矢量的初始化通常采用取各维度上数据的平均值的方法,随后按信号帧的方式进行迭代运算,故而得到的超矢量的各均值矢量样本之间存在相关性。在GMM混合数较大的情况下,更应该考虑这种相关性对***识别率的影响,并且SVM的计算复杂度和输入样本的数量有很大的关系,样本数量越大,SVM的计算复杂度越大。
本发明把***识别率和计算复杂度综合一起考虑,由这两点出发,根据原始超矢量的均值矢量间具有高关联性的特点,提出重组超矢量这一概念。主要思想是,根据GMM混合数,自上而下关联原始超矢量一定数量的均值矢量,使其首尾相连,组成一个新的均值矢量,依次遍历整个原始超矢量,最后将得到的新的均值矢量按照次序连接起来构成重组超矢量。当关联的均值矢量的数量1<q≤M,重组超矢量和传统的超矢量相比较,重组超矢量的均值矢量的维数得到增加,所携带的说话人的身份信息增多,并且均值矢量的样本数量得到减少,从而提高识别率,降低计算复杂度。
经测试,不同的重组方式,即不同的q,对***识别率的影响是不同的,测试语音和训练语音选择不同的重组方式,对识别率的影响是巨大的。SVM的识别率在很大的程度上依赖于核函数的选择,在相同的重组方式下,选择不同的核函数也有不同的识别率。而q越大,***的计算量越小,但是不能单一的追求小的计算量,因为当q过大时,可能导致***的识别率急剧的减少,应当综合考虑。
本发明的一种重组超矢量的说话人辨认方法,既实现了说话人识别率的提高,又实现了***计算复杂度的降低,减少计算量,减少了实际应用当中所占用的资源,增加实际当中的实用性。本发明的重组超矢量的GMM-SVM说话人辨认方法具体包括训练阶段和实测阶段,见框图1。
A,训练阶段,具体步骤如下:
步骤A-1,特征参数提取,具体过程如下:
首先经过语音信号的预处理,预处理的过程对***性能的提高有明显的作用,预处理主要包括预加重、分帧加窗等处理,得到T帧的语音信号;所提取的特征参数为MFCC和MFCC的一阶差分,MFCC是语音特征领域常用的特征参数,符合人耳的听觉特性。
步骤A-2,训练混合数为M的GMM,具体步骤如下:
GMM可以看作是状态数为1的隐马尔科夫模型,由M个高斯概率密度函数线性加权求和构成,理论上,只要混合数M足够大,GMM可以拟合任何形式的数据分布,因此当M足够大时,GMM可以很好的描述语音信号的特征分布。
对语音信号特征集X={X1,X2,…,XT},选择合适的混合数M,则GMM可以表示为:
其中ωi,i=1,2,…,M,是混合权重,满足而bi(X),i=1,2,…,M,是高斯概率密度函数子分布。可表示为:
其中μi是均值矢量,Σi是协方差矩阵。可看出,对GMM的训练实际上就是对参数λ={ωiii},i=1,…,M的估计过程。应用最大似然估计法对其进行估计,则对序列X={X1,X2,…,XT},GMM的似然度可以表示为
接下来采用EM算法进行估计。首先给定GMM参数处置λ,采用这算法估计出一个新的参数λ',使得新的模型P(X/λ')>P(X/λ),继续迭代直到模型收敛。
步骤A-3,利用GMM中得到重组超矢量,具体过程如下:
GMM可以很好地描述说话人的身份信息。而每个高斯分量的均值矢量按照次序连接起来就构成了超矢量,超矢量包含了绝大多数说话人的个性信息。若输入的特征参数的维数为D,每个高斯分量的均值矢量为m1,m2,…,mM。并且mi,i=1,…,M是维数为D的向量。即超矢量m可以表示为:
m=(m1,m2,…,mM)T
由于传统的超矢量没有考虑各均值矢量之间的相关性,数据间的过渡不够平滑,在GMM混合数较大的情况下,容易造成SVM计算复杂度较大的结果。故而继续对超矢量m进行重组。
根据GMM的混合数M,自上而下关联超矢量一定数量的均值矢量,使其首尾相连构成一个新的均值向量;按照这个方法依次重组,直到遍历所有的均值向量。所关联的高斯分量均值矢量的个数称之为高斯关联数。
一个混合数为M的GMM模型,即原始的超矢量有M个均值矢量,若选择高斯关联数的个数是q,并且1≤q≤M,则得到的第一个新的均值向量为:m'1=(m1,m2,…,mq),依次遍历整个超矢量,得到重组超矢量。重超矢量具有的新的均值向量个数为p,并且满足以下关系:
M=q×p
则重构超矢量m'为:
m'=(m'1,m'2,…,m'p)T
对任意的i∈[1,p],重组超矢量m'i的高斯关联数相等。当1<q≤M,重组超矢量与原始超矢量相比,每一个均值向量的维数增加了,但是均值向量的样本个数却减少了。
步骤A-4,训练得到SVM模型,具体过程如下:
SVM是基于超平面的一个二分类模型,通过最大化间隔边界到超平面的间隔实现数据的分类。假设线性可分的分类任务特征空间的训练数据集T={(m'1,y1),(m'2,y2),…,(m'N,yN)},,其中m'i,i=1,2,…,N,是第i个说话人的重组超矢量,yi∈{+1,-1},是分类标签。数据集由以下表示的超平面分开。
w·m+b=0
其中,w表示超平面的法向量,b表示截距。对重组超矢量数据集T选择合适的核函数K(m',z)和恰当的惩罚参数C,构造并求解最优问题
0≤αi≤C,i=1,2,…,N
其中,α是拉格朗日乘子,然后求得最优解选择α*的一个正分量计算
然后构造决策函数
到此,完成训SVM模型的训练。
B,实测阶段,具体步骤如下:
对测试语音重复步骤A-1~步骤A-3,得到测试语音的重组超矢量。然后将得到的测试语音的超矢量输入训练阶段得到的SVM模型当中,输出关于测试语音的说话人身份。
根据SVM的决策函数可以看出SVM的计算复杂度和输入的个数和训练样本的个数有很大的关系。本发明提出的重组超矢量中,当选择的高斯关联数1<q≤M,则重组超矢量的均值矢量样本数比原始的超矢量的均值矢量样本数少,计算复杂度得到减少。SVM的计算复杂度在和Ο(dll2)之间,其中NS是支持向量的个数,l是训练样本的个数,而dl是每个训练样本的维数。虽然重组超矢量的每个样本的维数增加了,但是样本的个数得到了减少,而样本维数对SVM计算复杂度的影响最高是线性的,但是样本个数有可能是平方的,因此使用重组超矢量作为SVM的输入可以有效减少SVM的计算复杂度。并且使用重组超矢量训练SVM的支持向量的个数也可以得到有效的减少,从而可以有效的降低***的计算复杂度。
实验中采用所在团队在消音室录制的语料,该数据库包含210个说话人的语音,每个人有180条语音,语音信号的采样频率为16kH。本实验采用10说话人,每人30条语句,其中训练语句20条,平均时长100s,测试语句10条,平均时长30s。在对语音进行分帧处理时,为了使数据的过渡更为平滑,帧长取256点,帧移取128点。每帧信号提取24维的MFCC参数和24维的一阶差分MFCC参数。如果不做特别声明,所采用的核函数均为径向基核函数。固定高斯混合数为128的前提下,可选的高斯关联数有2i,i∈[1,7]。训练样本和测试样本的重组超矢量可选择不同的高斯关联数,用q表示高斯关联数。不同的高斯关联数的组合方式对识别率的影响可由下表1表示。
表1
表1为部分的组合方式。由表1可看出,不同的组合方式对识别率具有巨大的影响,当训练样本的高斯关联数和测试样本的高斯关联数都一样时,***的识别率达到最高。当两者所选的高斯关联数不相等的时候,识别率急剧下降,因为当两者的高斯关联数不相等时,也即SVM输入数据的维数不相等,从而造成维数不匹配,引入大量的干扰噪声。值得一提的是,若训练样本高斯关联数为q1,测试样本高斯关联数为q2,当q1<q2时的***识别率要高于q1>q2时的***识别率。当q1<q2时,即训练样本维数小于测试样本维数,相反的,当q1>q2时,训练样本维数大于测试样本维数。样本维数的减少,意味着样本属性缺失,相比测试样本维数增多而言,测试样本维数的减少使得分类器更加难以识别。
当训练样本高斯关联数和测试样本的高斯关联数相等的前提下,选择不同的高斯关联数,***识别率的变化如图2所示。从图2可看出,当高斯关联数q为1的时候,即重组超矢量等于原始超矢量,这时***识别率最低,为89.06%。随着高斯关联数的递增至8,在这区间内***的识别率大体上为一个上升的趋势,当高斯关联数为16时,***的识别率达到最高,为97.75%。此后,随着高斯关联数的增加***识别率骤降,并很快趋于平稳。高斯混合数M不变的前提下,高斯关联数q和均值矢量数p互为反比的关系,所以随着高斯关联数的增加,均值矢量数减少,但是每一个均值矢量的样本维数增加。当高斯关联数增加到一定程度时,会产生样本维数冗余的现象,噪声干扰增大,识别率下降。可以看出将重组超矢量应用于***当中,均比应用原始超矢量的***的识别率高。根据所提供的数据可看出,本文提出的重构超矢量能够确切的提高***的识别率。
不同高斯关联数的重组方式对应的***建模时间也各不相同,其关系如图3所示,该图是固定训练样本和测试样本数的高斯关联数都一样的前提下,高斯关联数和***建模时间的关系图。从图中可看出,高斯关联数越大,***建模所需的时间越短。实际应用中应该综合考虑***识别率和建模时间两个因素来选择高斯关联数,高斯关联数越大,建模时间越短,但有可能会降低***的识别率,应折中选择。本次实验中当高斯关联数为16时,***识别率最高,此时***建模时间为248.65s;而在使用原始超矢量的***中,***识别率最低,建模所需时间最长,为1094.3s。使用本文提出的重构超矢量的***,在达到最大识别率的前提下,建模时间比原始***的建模时间缩短了4.4倍。
不同高斯关联数的重组超矢量具有的均值矢量样本个数不同,以此重组超矢量训练得到的SVM模型的支持向量的个数也不同,图4是支持向量个数和高斯关联数的关系图。
从图中可以看出,随着高斯关联数的增加,SVM模型的支持向量的个数呈下降的趋势。高斯关联数和重组超矢量的均值矢量的样本个数是反比的关系,高斯关联数增加,样本个数减少,即样本个数的减少,可以使得支持向量的个数减少,而SVM的计算复杂度在和Ο(dll2)之间,支持向量个数的减少,可以减少SVM的计算复杂度,本发明提出的重组超矢量可以减少***识别说话人身份所需的时间。

Claims (4)

1.一种重组超矢量的说话人辨认方法,其特征在于,包括以下两个阶段:
训练阶段:包括利用说话人语音信号的特征参数为每一个说话人训练一个GMM,从GMM提取传统意义上的超矢量,然后对该超矢量进行重组得到重组超矢量,再利用重组超矢量训练一个SVM模型,所述训练阶段具体包含以下过程:
步骤A-1,特征参数提取,具体步骤如下:
步骤A-1a,进行语音信号的预处理,得到T帧信号;
步骤A-1b,提取语音特征参数,所提取的特征参数为梅尔频率倒谱系数和梅尔频率倒谱系数的一阶差分,一共D维,得到语音信号的特征参数X,X∈RT×D
步骤A-2,训练混合数为M的GMM,得到训练GMM的主要参数λ={ωii,∑i},i=1,…,M,GMM关于X的计算公式为:
其中ωi,i=1,…,M是混合权重,μi是均值矢量,∑i是协方差矩阵,M是混合数,并且而bi(X),i=1,…,M,是高斯概率密度函数子分布,具体步骤如下:
步骤A-2a,给定GMM混合数M;
步骤A-2b,初始化参数λ={ωii,∑i},i=1,…,M;
步骤A-2c,在最大似然准则下,利用最大期望估计算法来估计GMM参数,得到λ={ωii,∑i},i=1,…,M的迭代公式,具体迭代公式如下:
混合权重的迭代公式:
均值的迭代公式:
方差的迭代公式:
步骤A-2c,迭代终止,得到每个说话人的GMM;
步骤A-3,利用GMM中得到重组超矢量,具体过程如下:
步骤A-3a,提取传统的超矢量m,且m=(m1,m2,…,mM)T,其中mM,i=1,…,M是维数为D的向量;
步骤A-3b,在超矢量m内,自上而下选择一定数目q的均值矢量,首尾相连形成第一个均值矢量,能表示为:
m'1=(m1,m2,…,mq)
这个过程一直进行,直到遍历所有均值矢量,最后得到重组超矢量:
m'=(m'1,m'2,…,m'p)T
这个重组超矢量具有的新的均值矢量的个数为p,满足关系:
M=q×p
其中M是GMM混合数;
步骤A-4,训练得到SVM模型,具体过程如下:
步骤A-4a,训练数据的准备,假设有N个说话人,则由步骤A-1~步骤A-4,得到N个说话人的重组超矢量,则SVM的训练数据集T={(m'1,y1),(m'2,y2),…,(m'N,yN)},其中m'i,i=1,2,…,N,是第i个说话人的重组超矢量,yi={-1,+1},i=1,2,…,N;
步骤A-4b,选择恰当的核函数K(m',z)和恰当的惩罚参数C,构造并求解最优问题:
0≤αi≤C,i=1,2,…,N
求得最优解
步骤A-4c,选择α*的一个正分量来计算
步骤A-4d,构造决策函数
实测阶段:包括用相同的方法对测试语音提取测试的重组超矢量,然后利用训练阶段得到的SVM模型对测试的重组超矢量进行判别,从而判定测试语音所代表的说话人的身份。
2.根据权利要求1所述的一种重组超矢量的说话人辨认方法,其特征在于步骤A-1a中,所述预处理主要包括预加重、分帧加窗处理。
3.根据权利要求1所述的一种重组超矢量的说话人辨认方法,其特征在于步骤A-1b,所述特征参数为梅尔频率倒谱系数和梅尔频率倒谱系数的一阶差分。
4.根据权利要求1所述的一种重组超矢量的说话人辨认方法,其特征在于所述实测阶段具体包含对测试语音进行身份判决,具体过程如下:
步骤B-1,对测试语音重复步骤A-1~步骤A-3,得到测试语音的重组超矢量;
步骤B-2,将得到的测试语音的超矢量输入训练阶段得到的SVM模型当中,输出关于测试语音的说话人身份。
CN201610817892.3A 2016-09-12 2016-09-12 一种超矢量的说话人辨认方法 Active CN106448681B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610817892.3A CN106448681B (zh) 2016-09-12 2016-09-12 一种超矢量的说话人辨认方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610817892.3A CN106448681B (zh) 2016-09-12 2016-09-12 一种超矢量的说话人辨认方法

Publications (2)

Publication Number Publication Date
CN106448681A CN106448681A (zh) 2017-02-22
CN106448681B true CN106448681B (zh) 2019-10-18

Family

ID=58169223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610817892.3A Active CN106448681B (zh) 2016-09-12 2016-09-12 一种超矢量的说话人辨认方法

Country Status (1)

Country Link
CN (1) CN106448681B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106898354B (zh) * 2017-03-03 2020-05-19 北京华控智加科技有限公司 基于dnn模型和支持向量机模型的说话人个数估计方法
CN107545898B (zh) * 2017-08-07 2020-07-14 清华大学 一种区分说话人语音的处理方法及装置
CN108694949B (zh) * 2018-03-27 2021-06-22 佛山市顺德区中山大学研究院 基于重排序超向量和残差网络的说话人识别方法及其装置
CN108831486B (zh) * 2018-05-25 2023-06-02 南京邮电大学 基于dnn与gmm模型的说话人识别方法
CN109285559B (zh) * 2018-09-14 2021-05-04 京东数字科技控股有限公司 角色转换点检测方法及装置、存储介质、电子设备
US11031017B2 (en) * 2019-01-08 2021-06-08 Google Llc Fully supervised speaker diarization
CN110782903A (zh) * 2019-10-23 2020-02-11 国家计算机网络与信息安全管理中心 一种说话人识别方法及可读存储介质
CN113779191B (zh) * 2021-07-23 2024-03-05 中国人民解放军61623部队 基于用户联合信息超矢量和联合信息模型的用户识别方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100570710C (zh) * 2005-12-13 2009-12-16 浙江大学 基于内嵌gmm核的支持向量机模型的说话人识别方法
CN101640043A (zh) * 2009-09-01 2010-02-03 清华大学 基于多坐标序列内核的说话人识别方法和***
CN103077720B (zh) * 2012-12-19 2015-02-11 中国科学院声学研究所 一种说话人识别方法及***
CN103345923B (zh) * 2013-07-26 2016-05-11 电子科技大学 一种基于稀疏表示的短语音说话人识别方法
CN104538036A (zh) * 2015-01-20 2015-04-22 浙江大学 一种基于语义细胞混合模型的说话人识别方法
CN105845143A (zh) * 2016-03-23 2016-08-10 广州势必可赢网络科技有限公司 基于支持向量机的说话人确认方法及其***

Also Published As

Publication number Publication date
CN106448681A (zh) 2017-02-22

Similar Documents

Publication Publication Date Title
CN106448681B (zh) 一种超矢量的说话人辨认方法
CN109377978B (zh) 非平行文本条件下基于i向量的多对多说话人转换方法
CN103345923B (zh) 一种基于稀疏表示的短语音说话人识别方法
CN109599091B (zh) 基于STARWGAN-GP和x向量的多对多说话人转换方法
US9355642B2 (en) Speaker recognition method through emotional model synthesis based on neighbors preserving principle
CN105096955B (zh) 一种基于模型生长聚类的说话人快速识别方法及***
CN105261367B (zh) 一种说话人识别方法
Rao et al. Boosting the performance of i-vector based speaker verification via utterance partitioning
CN109346084A (zh) 基于深度堆栈自编码网络的说话人识别方法
CN106297773A (zh) 一种神经网络声学模型训练方法
CN112053694A (zh) 一种基于cnn与gru网络融合的声纹识别方法
CN109378014A (zh) 一种基于卷积神经网络的移动设备源识别方法及***
Todkar et al. Speaker recognition techniques: A review
Chin et al. Speaker identification using discriminative features and sparse representation
CN112562725A (zh) 基于语谱图和胶囊网络的混合语音情感分类方法
CN110136746B (zh) 一种基于融合特征的加性噪声环境下手机来源识别方法
CN115101077A (zh) 一种声纹检测模型训练方法及声纹识别方法
Kanagasundaram Speaker verification using I-vector features
Büyük Sentence‐HMM state‐based i‐vector/PLDA modelling for improved performance in text dependent single utterance speaker verification
Wang et al. I-vector based speaker gender recognition
CN108694950B (zh) 一种基于深度混合模型的说话人确认方法
Herrera-Camacho et al. Design and testing of a corpus for forensic speaker recognition using MFCC, GMM and MLE
Zhou et al. Rapid discriminative acoustic model based on eigenspace mapping for fast speaker adaptation
CN108242239A (zh) 一种声纹识别方法
Zilca et al. Feature concatenation for speaker identification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant