CN107342077A - 一种基于因子分析的说话人分段聚类方法及*** - Google Patents
一种基于因子分析的说话人分段聚类方法及*** Download PDFInfo
- Publication number
- CN107342077A CN107342077A CN201710395341.7A CN201710395341A CN107342077A CN 107342077 A CN107342077 A CN 107342077A CN 201710395341 A CN201710395341 A CN 201710395341A CN 107342077 A CN107342077 A CN 107342077A
- Authority
- CN
- China
- Prior art keywords
- model
- factor
- total
- mrow
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000011218 segmentation Effects 0.000 title claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 26
- 239000000203 mixture Substances 0.000 claims abstract description 17
- 239000000284 extract Substances 0.000 claims abstract description 11
- 230000000750 progressive effect Effects 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 20
- 238000012360 testing method Methods 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 15
- 230000008859 change Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 10
- 238000000556 factor analysis Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 4
- 229940029329 intrinsic factor Drugs 0.000 claims description 3
- 230000001788 irregular Effects 0.000 claims 1
- 230000000452 restraining effect Effects 0.000 claims 1
- 230000003595 spectral effect Effects 0.000 claims 1
- 239000012634 fragment Substances 0.000 abstract description 5
- 230000009897 systematic effect Effects 0.000 abstract description 4
- 238000002474 experimental method Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 239000010977 jade Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013095 identification testing Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于因子分析的说话人分段聚类方法及***。该方法包括:1)提取训练语音的声学特征,训练高斯混合通用背景模型,进而训练总变化因子模型和高斯概率线性判别分析模型;2)对测试语音进行分段并提取语音片段的声学特征;3)依据高斯混合通用背景模型和总变化因子模型将提取的声学特征映射为总变化量因子,加载高斯概率线性判别分析模型,根据总变化量因子计算任意两语音片段之间的对数似然比得分;4)选择得分最高的两类进行合并,根据层次聚类的方法逐步迭代至收敛,最终输出说话人分段聚类结果。本发明将总变化因子的不确定性引入到高斯概率线性判别分析模型进行训练和打分,能够提升短时语音片段上的基于因子分析的***性能。
Description
技术领域
本发明涉及的领域包括说话人识别、语音识别以及语音信号处理,具体的说,本发明采用的是一种基于因子分析的说话人分段聚类方法及***。
背景技术
说话人分段聚类技术研究就是自动进行“何人何时说话”分类标注的一种技术,又叫说话人日志。其任务就是把连续的语音流分割成单一说话人的语音片段,然后对相同说话人的语音片段进行聚类,附上相对区别性的标记。
它实际上包含了两个过程:说话人分割,即检测说话人身份发生变化的点;说话人聚类,即将说话人身份相同的片段聚成一类。其中,说话人聚类是一个无监督的过程,因为没有音频文档中的说话人数目、说话人身份以及声学条件等先验知识。
目前主流的说话人分段聚类***,根据聚类方式的不同分为基于似然估计的***、基于说话人特性的***、基于距离模型的***。在基于说话人特性的***中基于因子分析的说话人分段聚类***是目前主流的分段***。
但是基于总变化因子分析的说话人分段聚类***,在切割之后的语音片段较短的情况下,提取的总变化因子包含的说话人信息少,且模型估计不准确,偏差较大。在此基础上直接进行打分会影响***的性能。
发明内容
本发明的目的是为了解决现有的基于因子分析***分段之后的语音片段较短,提取的总变化因子包含的说话人信息少,且不确定性大的问题,从而提出了一种基于因子分析的说话人分段聚类方法及***,将总变化因子的不确定性进行传递,引入到高斯概率线性判别分析模型进行训练和打分,从而提升短时语音片段上的基于因子分析的***性能。
为了实现上述目的,本发明提供了一种基于因子分析的说话人分段聚类方法,所述方法包含以下步骤:
1)提取训练语音的声学特征,训练高斯混合通用背景模型,进而训练总变化因子模型和高斯概率线性判别分析模型;
2)输入测试语音,对测试语音进行分段并提取语音片段的声学特征;
3)依据高斯混合通用背景模型、总变化因子模型将提取的声学特征映射为总变化量因子,并加载高斯概率线性判别分析模型,根据总变化量因子计算任意两语音片段之间的对数似然比得分;
4)选择得分最高的两类进行合并,根据层次聚类的方法逐步迭代至收敛,最终输出说话人分段聚类结果。
进一步地,上述方法中各步骤的具体实施过程如下:
1)训练背景模型:
A、根据不同测试集选择对应的训练语料,首先提取训练语音的声学特征,对声学特征进行建模,训练与说话人无关的高斯混合通用背景模型(GMM-UBM,Gaussian MixtureModel-Universal Background Model)。
B、根据训练好的GMM-UBM模型提取统计量,然后进行高维总变化因子分析,训练T模型,即总变化因子模型。总变化因子模型假设表示为:
Mj=m+Twj
wj~N(0,I)
其中,Mj表示第说话人第j句话的高斯超向量,m表示GMM-UBM模型的均值超向量,wj为第j句话的总变化因子,符合标准的高斯分布,T表示总变化矩阵。
C、根据GMM-UBM模型、T模型提取数据集的总变化因子,对总变化因子进行低维因子分析,训练高斯概率线性判别分析模型(Probabilistic Linear DiscriminantAnalysis,PLDA),模型假设如下:
u=m+Uy+e,E~N(0,Λ-1)
其中,u表示第i个说话人的第j句话的总变化因子,m是模型的均值,U是本征音矩阵,y是本征因子,服从标准的高斯分布,e是残差因子,E表示残差矢量,Λ表示高斯分布的方差。在该模型假设中,本征因子y可以用来表征一个说话人。
2)对测试语音进行静音、背景音乐检测,去掉非语音部分。
3)提取测试语音的声学特征,此处提取60维的梅尔频率倒谱系数特征,等分语音段落为N段。加载UBM背景模型,提取统计量,加载T模型,提取每一段语音的总变化因子以及对应的协方差矩阵。
4)假定N段语音为基类,采用层次聚类的方式,计算N类中任意两类的类间距离。
5)采用全后验高斯概率线性判别分析的打分方式,计算类间距离。本发明提出了采用i-vector不确定性传递的PLDA模型,即全后验概率PLDA模型(full posterior pldamodels,FP-PLDA)。模型假设如下:
其中,ui表示说话人的第i句话的总变化因子,表示第i句话对应的残差因子,Γi -1表示残差矩阵,该模型假设的形式与标准PLDA模型不同,ivector估计的不确定性通过Γi -1传递到PLDA模型中。
6)为了防止PLDA打分方式依赖于得分区间的现象,采用改进的层次聚类方式。首先选取N*N矩阵中得分最大的一项,将对应的两基类进行合并。接着在(N-1)*(N-1)的矩阵中找到得分最大的一项,将两基类进行合并,迭代直到所有的类合并为N/2类。
7)将N/2类作为基类,重复步骤6)逐步迭代,直到语音收敛到目标类,停止,输出带标注的聚类结果。
总之,本发明的第一方面,提供了一种基于因子分析的说话人分段聚类方法,包括:对输入的训练语音,提取训练语音的声学特征,根据全局背景模型将声学特征映射为高斯超向量。利用总变化因子模型空间模型将高维的高斯超向量再映射为低维总变化量因子。该空间不区分说话人空间和信道空间,而是将这两个空间合并起来形成一个总变化空间,因为强制分离这两个空间的话可能会因为分离的不正确而丢失重要的信息。对低维总变化因子分析需要进一步的建模,采用了高斯概率线性判别分析建模,该模型能够在去除信道影响的基础上,更好地学习说话人类内及类间的信息,从而达到更好的表征说话人的作用。
本发明的第二方面,提供了一种基于因子分析的说话人分段聚类***,包括:
前端处理模块,用于检测输入的语音数据中的彩铃、振玲、音乐、静音等非语音部分,只保留有效语音部分;
特征提取模块,用于提取每句测试语音的声学特征;
总变化量因子提取模块,用于提取包含说话人特性的总变化量因子以及表示不确定性的协方差矩阵。
高斯概率线性判别分析打分模块,用于对提取的总变化因子矢量进行打分判断;
层次聚类迭代模块,选择得分最高的两类进行合并,根据层次聚类的方法逐步迭代至收敛,最终输出说话人分段聚类结果。
总变化因子估计的可靠性受多种因素的影响,其中语音的时长会影响总变化因子估计的不确定性,即总变化因子后验分布协方差矩阵。而语音切割之后的语音片段时长可能只有几秒钟,不同于说话人识别测试集那样有足够的语音时长。此种短语音片段的情况会降低总变化因子估计的准确性,进而影响整个日志***的性能。传统的标准PLDA模型没有考虑每个总变化因子估计的不确定性,鉴于此,提出了采用总变化因子不确定性传递的PLDA模型,即全后验概率PLDA模型(FP-PLDA)。在该模型上进行打分,用于计算每个语音片段的总变化量因子的在模型上的得分。
本发明相对于现有的说话人分段聚类***具有以下有益效果:
1、传统的基于因子分析的说话人分段聚类***直接提取总变化因子,并进行因子分析建模打分。传统的标准PLDA模型没有考虑每个总变化因子估计的不确定性,本发明提取包含说话人特性的总变化量因子以及表示不确定性的协方差矩阵,并将不确定性传递到PLDA模型中,这样对于短时的语音片段,能够使总变化因子的估计更准确,更好的提取说话人信息。
2、传统的层次聚类方式都是从得分矩阵中选择得分最大项进行类间合并再迭代,迭代过程中语音段落时长分布不均匀,影响得分的准确性。本发明选取得分最大项的两类进行合并,再在剩下的类别中选择得分最大项,将对应的两类进行合并,直到所有的基类都两两合并。从而再每一次层次迭代的过程中保证语音时长的均匀,进而使得得分准确可靠。
附图说明
图1是根据本发明实施例的基于因子分析的说话人分段聚类方法的训练流程图;
图2是根据本发明实施例的基于因子分析的说话人分段聚类方法的识别流程图;
图3是根据本发明实施例的基于因子分析的说话人分段聚类***的模块组成图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
本发明的目的是提供一种基于因子分析的说话人分段聚类方法,本方法通过对语音片段提取总变化因子矢量,并将总变化因子矢量的不确定性传递至高斯概率线性判别分析模型中,并进行模型打分,采用一种改进的层次聚类方式迭代直到收敛至目标说话人个数。
图1是根据本实施例的基于因子分析的说话人分段聚类方法的训练流程图。该训练流程包括以下步骤:
1)根据不同测试集选择对应的训练语料,首先提取训练语音的声学特征,对声学特征进行建模,训练与说话人无关的高斯混合通用背景模型(GMM-UBM)。
2)根据训练好的GMM-UBM模型提取统计量,然后进行高维总变化因子分析,训练T模型(总变化因子模型)。
3)根据GMM-UBM模型、T模型提取数据集的总变化因子,对总变化因子进行低维因子分析,训练高斯概率线性判别分析模型(PLDA)。
图2是根据本发明实施例的基于因子分析的说话人分段聚类方法的识别流程图,其中左边为训练阶段,右边为识别流程。识别流程包括以下步骤:
1)对输入的测试语音进行语音分段;
2)加载混合高斯通用背景模型以及总变化因子模型提取语音片段的总变化因子;
3)加载高斯概率线性判别分析模型,采用对数似然比的打分规则,对总变化因子进行打分判断;
4)进行层次聚类,输出带类别标签的语音片段。
图3是根据本发明实施例的基于因子分析的说话人分段聚类***的模块组成图,由几个模块组成:
前端处理模块,用于处理输入语音数据,用于检测输入的语音数据中的彩铃、振玲、音乐、静音等非语音部分,只保留有效语音部分;
特征提取模块,用于提取每句测试语音的声学特征;
总变化量因子提取模块,用于提取包含说话人特性的总变化量因子以及表示不确定性的协方差矩阵;
高斯概率线性判别分析打分模块,用于对提取的总变化因子矢量进行打分判断;
层次聚类迭代模块,选择得分最高的两类进行合并,重复上述步骤直到收敛到目标人数。
至此,得到一个完整的基于因子分析的分段聚类***。
下面提供应用本发明方法的具体实例及实验验证数据。
A.说话人分段模块
输入语音经过端点检测之后便可获得纯净的有效语音,接下来便可对语音进行说话人变换点检测,将连续语音分割成语音片段。
因为说话人变换点检测的纯净程度会直接影响到后续的说话人聚类实验,因此这里采用基于贝叶斯信息准则BIC的自动分段方法,其定义如下:
其中,ni表示类别ci的样本数,d为模型复杂度相关系数。假定s1、s2为即将比较的相邻段落,那么它们之间的BIC差值为:
其中,n=n1+n2表示合并之后的语音帧数。
首先采用两个相邻的时长200帧(2s)的滑动窗口以0.1s的步长在语音上滑动。假定每个窗口内的语音服从单高斯分布。采用BIC准则计算两个相邻窗之间的模型距离,得到一组距离序列。在说话人变换点检测中每个说话人的变换点的最小时长1s。通过反复调整参数,最后方差均值取0.3,均值阈值取0.1。经过BIC距离跟阈值的比对,判定相邻窗口之间是否存在变换点,然后进行标注。最后根据标注信息将连续语音分割为小语音片段用于后期的聚类处理。
B.聚类模块
1)对比实验***
此处对基于因子分析的不同聚类***进行实验。基于因子分析的***都是基于i-vector因子的***,经过说话人变换点检测,语音被切割为小片段,对每一段语音提取总变化因子。在聚类过程中采用的不同打分方式。根据不同的类间距离的计算方式可以划分为以下三个对比***:
a)I-vector Cosine***:在提取总变换因子I-vector之后,采用余弦距离的打分方式找到与每一段距离最近的说话人。
b)Std-PLDA***:我们加载标准PLDA模型(Std-PLDA)来计算每两个簇的相似度,自下而上的方法迭代,每次迭代时选择簇间距离最小的进行合并,任为两个簇为同一类,更新簇群。循环迭代,直到只剩下两个簇时迭代停止。
c)FP-PLDA***:该***聚类过程与Std-PLDA***相同。不同的是,当我们提取i-vector向量时,我们同时保存精度矩阵并将它传递到后续的PLDA模型中。此外,我们采用FP-PLDA打分模型计算类间距离。
2)实验数据
本文提供了两个测试集:中文测试集和NIST08数据集。NIST08为说话人日志通用的标准的数据集,包含了2213条电话对话录音,每条语音只有两个说话人,平均时长五分钟(合计200小时)。中文测试数据来自银行和保险机构的客户服务电话对话语音,每段音频文件中只包含两个说话人。整个测试数据包括约30小时的500条电话对话,每个音频的持续时间为3分钟至5分钟。此外每条语音文件都提供了语音标注答案,便于我们计算日志***的错误率。
训练集也分为中文和NIST标准数据集。其中中文数据集称为SHIWANG数据集。该数据库包括2457小时的中文电话录音,它包含各个地区的方言。我们将数据库分成三组。包含7.6小时约2194个音频的第一组用于训练UBM模型。第二组包含1680小时约32092个音频,用于训练总变化空间模型。最后一组包含770小时约17636个音频,用于训练PLDA模型。在NIST数据集中,采用NIST SRE04、05、06的电话语音数据训练总变化空间模型。
3)参数设置
在基于因子分析的所有***中我们都选择经典的梅尔频谱倒谱系数(MFCC)来提取声学特征,使用20ms汉明窗口和10ms帧移来提取60维MFCC特征。提取400维的总变化因子,另在I-vecor/Cosine***中,总变换因子会经过PCA降维,降到200维。
在Std-PLDA和FP-PLDA***中,利用SHIWANG数据库和NIST数据库分别训练背景模型。用SHIWANG数据库训练具有256个高斯分量的UBM背景模型,在零和一阶Baum-Welch统计的基础上训练总变化空间矩阵,提取400维i-vector。同样的语料库用于训练PLDA模型和FP-PLDA模型。用sre04训练256个和1024个高斯分量的GMM模型,sre04、05、06训练的400维T模型以及PLDA模型。
4)实验结果
实验一如表1所示,测试集采用中文合路电话语音,背景模型选择实网数据训练的256个高斯的UBM背景模型、400维T模型、PLDA背景模型。
表1.实验一
实验结果表明在中文测试集下,基于余弦距离的打分基线***日志错误率DER达到11.05%,而Std-PLDA***相对降低了5.06%,我们提出的FP-PLDA***比基准***相对降低了34.47%。
实验二如表2所示,采用NIST 08作为测试集,sre04训练分别训练256和1024个高斯数GMM模型、sre04、05、06训练的400维T模型、PLDA模型。
表2.实验二
实验结果表明在NIST测试集下各***性能比中文测试集效果好,且在基于因子分析的聚类***中,高斯混合数越高,***性能越好。基于余弦距离的打分日志错误率DER达了5.13%(UNM=256)和5.09%(UBM=1024),而Std-PLDA***分别相对降低了4.67%和8.25%,我们提出的FP-PLDA***比基准***相对降低了18.12%和17.09%。
综合以上实验结果,本发明提出的FP-PLDA打分***在短时片段上性能较传统的标准的Std-PLDA打分方式更优,也较普遍应用的余弦距离打分方式性能有很大的提升。
在其它实施例中,本发明也可将FP-PLDA的打分方式同标准的Std-PLDA打分方式的任何得分进行融合。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。
Claims (10)
1.一种基于因子分析的说话人分段聚类方法,其步骤包括:
1)提取训练语音的声学特征,训练高斯混合通用背景模型,进而训练总变化因子模型和高斯概率线性判别分析模型;
2)输入测试语音,对测试语音进行分段并提取语音片段的声学特征;
3)依据高斯混合通用背景模型和总变化因子模型,将提取的声学特征映射为总变化量因子,并加载高斯概率线性判别分析模型,根据总变化量因子计算任意两语音片段之间的对数似然比得分;
4)选择得分最高的两类进行合并,根据层次聚类的方法逐步迭代至收敛,最终输出说话人分段聚类结果。
2.根据权利要求1所述的方法,其特征在于,步骤1)的模型训练过程包括:
A、根据不同测试集选择对应的训练语音,提取训练语音的声学特征,对声学特征进行建模,训练与说话人无关的高斯混合通用背景模型;
B、根据训练好的高斯混合通用背景模型提取统计量,然后进行高维总变化因子分析,训练总变化因子模型;
C、根据高斯混合通用背景模型、总变化因子模型提取数据集的总变化因子,对总变化因子进行低维因子分析,训练高斯概率线性判别分析模型。
3.根据权利要求2所述的方法,其特征在于,所述总变化因子模型表示为:
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>M</mi>
<mi>j</mi>
</msub>
<mo>=</mo>
<mi>m</mi>
<mo>+</mo>
<msub>
<mi>Tw</mi>
<mi>j</mi>
</msub>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>w</mi>
<mi>j</mi>
</msub>
<mo>~</mo>
<mi>N</mi>
<mrow>
<mo>(</mo>
<mn>0</mn>
<mo>,</mo>
<mi>I</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>,</mo>
</mrow>
其中,Mj表示第说话人第j句话的高斯超向量,m表示高斯混合通用背景模型模型的均值超向量,wj为第j句话的总变化因子,符合标准的高斯分布,T表示总变化矩阵。
4.根据权利要求2所述的方法,其特征在于,所述高斯概率线性判别分析模型表示为:
u=m+Uy+e,E~N(0,Λ-1),
其中,u表示第i个说话人的第j句话的总变化因子,m是模型的均值,U是本征音矩阵,y是本征因子,服从标准的高斯分布,e是残差因子,E表示参差矢量,Λ表示高斯分布的方差。
5.根据权利要求1所述的方法,其特征在于,步骤2)对测试语音加固定窗获取语音片段,根据贝叶斯信息准则模型计算相邻两语音片段的间距并合并,从而完成语音分段。
6.根据权利要求1所述的方法,其特征在于,步骤2)对测试语音进行静音、背景音乐检测,去掉非语音部分,然后提取测试语音的声学特征,提取的语音特征是60维的梅尔频率倒谱系数特征,等分语音段落为N段。
7.根据权利要求1所述的方法,其特征在于,步骤3)首先加载高斯混合通用背景模型,提取统计量,然后加载总变化因子模型,提取每一段语音的总变化因子以及对应的表示不确定性的协方差矩阵;然后将不确定性传递到高斯概率线性判别分析模型中,采用全后验高斯概率线性判别分析的打分方式计算类间距离。
8.根据权利要求7所述的方法,其特征在于,步骤3)采用的全后验高斯概率线性判别分析模型表示为:
<mrow>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mi>m</mi>
<mo>+</mo>
<mi>U</mi>
<mi>y</mi>
<mo>+</mo>
<mover>
<msub>
<mi>e</mi>
<mi>i</mi>
</msub>
<mo>&OverBar;</mo>
</mover>
<mo>,</mo>
<mover>
<msub>
<mi>e</mi>
<mi>i</mi>
</msub>
<mo>&OverBar;</mo>
</mover>
<mo>~</mo>
<mi>N</mi>
<mrow>
<mo>(</mo>
<mn>0</mn>
<mo>,</mo>
<msup>
<mi>&Lambda;</mi>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msup>
<mo>+</mo>
<msubsup>
<mi>&Gamma;</mi>
<mi>i</mi>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msubsup>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
其中,ui表示说话人的第i句话的总变化因子,表示第i句话对应的残差因子,表示残差矩阵。
9.根据权利要求7所述的方法,其特征在于,步骤4)采用改进的层次聚类方法,其包括:以N段语音为基类,首先选取N*N矩阵中得分最大的一项,将两基类进行合并;接着在(N-1)*(N-1)的矩阵中找到得分最大的一项,将两基类进行合并,迭代直到所有的类合并为N/2类;将N/2类作为基类,重复步骤上述步骤逐步迭代,直到语音收敛到目标类,停止,并输出带标注的聚类结果。
10.一种采用权利要求1所述方法的基于因子分析的说话人分段聚类***,其特征在于,包括:
前端处理模块,用于检测输入的语音数据中的非语音部分,只保留有效语音部分;
特征提取模块,用于提取每句测试语音的声学特征;
总变化量因子提取模块,用于提取包含说话人特性的总变化量因子以及表示不确定性的协方差矩阵;
高斯概率线性判别分析打分模块,用于对提取的总变化因子矢量进行打分判断;
层次聚类迭代模块,用于选择得分最高的两类进行合并,根据层次聚类的方法逐步迭代至收敛,最终输出说话人分段聚类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710395341.7A CN107342077A (zh) | 2017-05-27 | 2017-05-27 | 一种基于因子分析的说话人分段聚类方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710395341.7A CN107342077A (zh) | 2017-05-27 | 2017-05-27 | 一种基于因子分析的说话人分段聚类方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107342077A true CN107342077A (zh) | 2017-11-10 |
Family
ID=60220227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710395341.7A Pending CN107342077A (zh) | 2017-05-27 | 2017-05-27 | 一种基于因子分析的说话人分段聚类方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107342077A (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108305616A (zh) * | 2018-01-16 | 2018-07-20 | 国家计算机网络与信息安全管理中心 | 一种基于长短时特征提取的音频场景识别方法及装置 |
CN108460390A (zh) * | 2018-02-27 | 2018-08-28 | 北京中晟信达科技有限公司 | 一种基于特征学习的敏感图像识别方法 |
CN108922544A (zh) * | 2018-06-11 | 2018-11-30 | 平安科技(深圳)有限公司 | 通用向量训练方法、语音聚类方法、装置、设备及介质 |
CN109065028A (zh) * | 2018-06-11 | 2018-12-21 | 平安科技(深圳)有限公司 | 说话人聚类方法、装置、计算机设备及存储介质 |
CN109065059A (zh) * | 2018-09-26 | 2018-12-21 | 新巴特(安徽)智能科技有限公司 | 用音频特征主成分建立的语音群集来识别说话人的方法 |
CN109346084A (zh) * | 2018-09-19 | 2019-02-15 | 湖北工业大学 | 基于深度堆栈自编码网络的说话人识别方法 |
CN109360572A (zh) * | 2018-11-13 | 2019-02-19 | 平安科技(深圳)有限公司 | 通话分离方法、装置、计算机设备及存储介质 |
CN109461441A (zh) * | 2018-09-30 | 2019-03-12 | 汕头大学 | 一种自适应、无监督式的课堂教学活动智能感知方法 |
CN109616097A (zh) * | 2019-01-04 | 2019-04-12 | 平安科技(深圳)有限公司 | 语音数据处理方法、装置、设备及存储介质 |
CN109800299A (zh) * | 2019-02-01 | 2019-05-24 | 浙江核新同花顺网络信息股份有限公司 | 一种说话人聚类方法及相关装置 |
CN109859742A (zh) * | 2019-01-08 | 2019-06-07 | 国家计算机网络与信息安全管理中心 | 一种说话人分段聚类方法及装置 |
WO2019134247A1 (zh) * | 2018-01-03 | 2019-07-11 | 平安科技(深圳)有限公司 | 基于声纹识别模型的声纹注册方法、终端装置及存储介质 |
CN110047491A (zh) * | 2018-01-16 | 2019-07-23 | 中国科学院声学研究所 | 一种随机数字口令相关的说话人识别方法及装置 |
CN110060743A (zh) * | 2019-04-18 | 2019-07-26 | 河南爱怡家科技有限公司 | 一种基于细胞共振的数据库建立的方法 |
CN110148417A (zh) * | 2019-05-24 | 2019-08-20 | 哈尔滨工业大学 | 基于总变化空间与分类器联合优化的说话人身份识别方法 |
WO2019227672A1 (zh) * | 2018-05-28 | 2019-12-05 | 平安科技(深圳)有限公司 | 说话人分离模型训练方法、两说话人分离方法及相关设备 |
CN110910891A (zh) * | 2019-11-15 | 2020-03-24 | 复旦大学 | 基于长短时记忆神经网络的说话人分段标注方法及装置 |
CN111429935A (zh) * | 2020-02-28 | 2020-07-17 | 北京捷通华声科技股份有限公司 | 一种语音话者分离方法和装置 |
CN111462729A (zh) * | 2020-03-31 | 2020-07-28 | 因诺微科技(天津)有限公司 | 基于音素对数似然比和稀疏表征的快速语种识别方法 |
CN111554273A (zh) * | 2020-04-28 | 2020-08-18 | 华南理工大学 | 一种语音关键词识别中扩增语料的选取方法 |
CN111599344A (zh) * | 2020-03-31 | 2020-08-28 | 因诺微科技(天津)有限公司 | 一种基于拼接特征的语种识别方法 |
CN111599346A (zh) * | 2020-05-19 | 2020-08-28 | 科大讯飞股份有限公司 | 一种说话人聚类方法、装置、设备及存储介质 |
CN112750440A (zh) * | 2020-12-30 | 2021-05-04 | 北京捷通华声科技股份有限公司 | 一种信息处理方法及装置 |
CN115171654A (zh) * | 2022-06-24 | 2022-10-11 | 中国电子科技集团公司第二十九研究所 | 一种改进的基于总变化量因子的语种识别方法及*** |
CN115762473A (zh) * | 2022-09-27 | 2023-03-07 | 哈尔滨理工大学 | 基于概率有监督总变化空间学习的语种识别方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102543063A (zh) * | 2011-12-07 | 2012-07-04 | 华南理工大学 | 基于说话人分割与聚类的多说话人语速估计方法 |
CN102543080A (zh) * | 2010-12-24 | 2012-07-04 | 索尼公司 | 音频编辑***和音频编辑方法 |
CN103730114A (zh) * | 2013-12-31 | 2014-04-16 | 上海交通大学无锡研究院 | 一种基于联合因子分析模型的移动设备声纹识别方法 |
CN104021785A (zh) * | 2014-05-28 | 2014-09-03 | 华南理工大学 | 一种提取会议中最重要嘉宾语音的方法 |
CN104167208A (zh) * | 2014-08-08 | 2014-11-26 | 中国科学院深圳先进技术研究院 | 一种说话人识别方法和装置 |
CN105161093A (zh) * | 2015-10-14 | 2015-12-16 | 科大讯飞股份有限公司 | 一种判断说话人数目的方法及*** |
CN105261367A (zh) * | 2014-07-14 | 2016-01-20 | 中国科学院声学研究所 | 一种说话人识别方法 |
CN105469784A (zh) * | 2014-09-10 | 2016-04-06 | 中国科学院声学研究所 | 概率线性鉴别分析模型生成方法和说话人聚类方法及*** |
CN105845141A (zh) * | 2016-03-23 | 2016-08-10 | 广州势必可赢网络科技有限公司 | 基于信道鲁棒的说话人确认模型及说话人确认方法和装置 |
-
2017
- 2017-05-27 CN CN201710395341.7A patent/CN107342077A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102543080A (zh) * | 2010-12-24 | 2012-07-04 | 索尼公司 | 音频编辑***和音频编辑方法 |
CN102543063A (zh) * | 2011-12-07 | 2012-07-04 | 华南理工大学 | 基于说话人分割与聚类的多说话人语速估计方法 |
CN103730114A (zh) * | 2013-12-31 | 2014-04-16 | 上海交通大学无锡研究院 | 一种基于联合因子分析模型的移动设备声纹识别方法 |
CN104021785A (zh) * | 2014-05-28 | 2014-09-03 | 华南理工大学 | 一种提取会议中最重要嘉宾语音的方法 |
CN105261367A (zh) * | 2014-07-14 | 2016-01-20 | 中国科学院声学研究所 | 一种说话人识别方法 |
CN104167208A (zh) * | 2014-08-08 | 2014-11-26 | 中国科学院深圳先进技术研究院 | 一种说话人识别方法和装置 |
CN105469784A (zh) * | 2014-09-10 | 2016-04-06 | 中国科学院声学研究所 | 概率线性鉴别分析模型生成方法和说话人聚类方法及*** |
CN105161093A (zh) * | 2015-10-14 | 2015-12-16 | 科大讯飞股份有限公司 | 一种判断说话人数目的方法及*** |
CN105845141A (zh) * | 2016-03-23 | 2016-08-10 | 广州势必可赢网络科技有限公司 | 基于信道鲁棒的说话人确认模型及说话人确认方法和装置 |
Non-Patent Citations (2)
Title |
---|
CUMANI S.: ""Fast scoring of full posterior PLDA models"", 《IEEE/ACM TRANSACTIONS ON AUDIO,SPEECH ,AND LANGUAGE PROCESSING 》 * |
李锐: ""基于因子分析的说话人分离技术研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019134247A1 (zh) * | 2018-01-03 | 2019-07-11 | 平安科技(深圳)有限公司 | 基于声纹识别模型的声纹注册方法、终端装置及存储介质 |
CN108305616A (zh) * | 2018-01-16 | 2018-07-20 | 国家计算机网络与信息安全管理中心 | 一种基于长短时特征提取的音频场景识别方法及装置 |
CN110047491A (zh) * | 2018-01-16 | 2019-07-23 | 中国科学院声学研究所 | 一种随机数字口令相关的说话人识别方法及装置 |
CN108460390A (zh) * | 2018-02-27 | 2018-08-28 | 北京中晟信达科技有限公司 | 一种基于特征学习的敏感图像识别方法 |
US11158324B2 (en) | 2018-05-28 | 2021-10-26 | Ping An Technology (Shenzhen) Co., Ltd. | Speaker separation model training method, two-speaker separation method and computing device |
WO2019227672A1 (zh) * | 2018-05-28 | 2019-12-05 | 平安科技(深圳)有限公司 | 说话人分离模型训练方法、两说话人分离方法及相关设备 |
CN108922544A (zh) * | 2018-06-11 | 2018-11-30 | 平安科技(深圳)有限公司 | 通用向量训练方法、语音聚类方法、装置、设备及介质 |
CN109065028A (zh) * | 2018-06-11 | 2018-12-21 | 平安科技(深圳)有限公司 | 说话人聚类方法、装置、计算机设备及存储介质 |
CN109346084A (zh) * | 2018-09-19 | 2019-02-15 | 湖北工业大学 | 基于深度堆栈自编码网络的说话人识别方法 |
CN109065059A (zh) * | 2018-09-26 | 2018-12-21 | 新巴特(安徽)智能科技有限公司 | 用音频特征主成分建立的语音群集来识别说话人的方法 |
CN109461441A (zh) * | 2018-09-30 | 2019-03-12 | 汕头大学 | 一种自适应、无监督式的课堂教学活动智能感知方法 |
CN109461441B (zh) * | 2018-09-30 | 2021-05-11 | 汕头大学 | 一种自适应、无监督式的课堂教学活动智能感知方法 |
CN109360572B (zh) * | 2018-11-13 | 2022-03-11 | 平安科技(深圳)有限公司 | 通话分离方法、装置、计算机设备及存储介质 |
CN109360572A (zh) * | 2018-11-13 | 2019-02-19 | 平安科技(深圳)有限公司 | 通话分离方法、装置、计算机设备及存储介质 |
WO2020098083A1 (zh) * | 2018-11-13 | 2020-05-22 | 平安科技(深圳)有限公司 | 通话分离方法、装置、计算机设备及存储介质 |
CN109616097A (zh) * | 2019-01-04 | 2019-04-12 | 平安科技(深圳)有限公司 | 语音数据处理方法、装置、设备及存储介质 |
CN109616097B (zh) * | 2019-01-04 | 2024-05-10 | 平安科技(深圳)有限公司 | 语音数据处理方法、装置、设备及存储介质 |
CN109859742A (zh) * | 2019-01-08 | 2019-06-07 | 国家计算机网络与信息安全管理中心 | 一种说话人分段聚类方法及装置 |
CN109859742B (zh) * | 2019-01-08 | 2021-04-09 | 国家计算机网络与信息安全管理中心 | 一种说话人分段聚类方法及装置 |
CN109800299A (zh) * | 2019-02-01 | 2019-05-24 | 浙江核新同花顺网络信息股份有限公司 | 一种说话人聚类方法及相关装置 |
CN110060743A (zh) * | 2019-04-18 | 2019-07-26 | 河南爱怡家科技有限公司 | 一种基于细胞共振的数据库建立的方法 |
CN110148417B (zh) * | 2019-05-24 | 2021-03-23 | 哈尔滨工业大学 | 基于总变化空间与分类器联合优化的说话人身份识别方法 |
CN110148417A (zh) * | 2019-05-24 | 2019-08-20 | 哈尔滨工业大学 | 基于总变化空间与分类器联合优化的说话人身份识别方法 |
CN110910891A (zh) * | 2019-11-15 | 2020-03-24 | 复旦大学 | 基于长短时记忆神经网络的说话人分段标注方法及装置 |
CN110910891B (zh) * | 2019-11-15 | 2022-02-22 | 复旦大学 | 基于长短时记忆深度神经网络的说话人分段标注方法 |
CN111429935B (zh) * | 2020-02-28 | 2023-08-29 | 北京捷通华声科技股份有限公司 | 一种语音话者分离方法和装置 |
CN111429935A (zh) * | 2020-02-28 | 2020-07-17 | 北京捷通华声科技股份有限公司 | 一种语音话者分离方法和装置 |
CN111462729A (zh) * | 2020-03-31 | 2020-07-28 | 因诺微科技(天津)有限公司 | 基于音素对数似然比和稀疏表征的快速语种识别方法 |
CN111599344B (zh) * | 2020-03-31 | 2022-05-17 | 因诺微科技(天津)有限公司 | 一种基于拼接特征的语种识别方法 |
CN111462729B (zh) * | 2020-03-31 | 2022-05-17 | 因诺微科技(天津)有限公司 | 基于音素对数似然比和稀疏表征的快速语种识别方法 |
CN111599344A (zh) * | 2020-03-31 | 2020-08-28 | 因诺微科技(天津)有限公司 | 一种基于拼接特征的语种识别方法 |
CN111554273A (zh) * | 2020-04-28 | 2020-08-18 | 华南理工大学 | 一种语音关键词识别中扩增语料的选取方法 |
CN111554273B (zh) * | 2020-04-28 | 2023-02-10 | 华南理工大学 | 一种语音关键词识别中扩增语料的选取方法 |
CN111599346A (zh) * | 2020-05-19 | 2020-08-28 | 科大讯飞股份有限公司 | 一种说话人聚类方法、装置、设备及存储介质 |
CN111599346B (zh) * | 2020-05-19 | 2024-02-20 | 科大讯飞股份有限公司 | 一种说话人聚类方法、装置、设备及存储介质 |
CN112750440A (zh) * | 2020-12-30 | 2021-05-04 | 北京捷通华声科技股份有限公司 | 一种信息处理方法及装置 |
CN112750440B (zh) * | 2020-12-30 | 2023-12-29 | 北京捷通华声科技股份有限公司 | 一种信息处理方法及装置 |
CN115171654A (zh) * | 2022-06-24 | 2022-10-11 | 中国电子科技集团公司第二十九研究所 | 一种改进的基于总变化量因子的语种识别方法及*** |
CN115762473A (zh) * | 2022-09-27 | 2023-03-07 | 哈尔滨理工大学 | 基于概率有监督总变化空间学习的语种识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107342077A (zh) | 一种基于因子分析的说话人分段聚类方法及*** | |
US10593332B2 (en) | Diarization using textual and audio speaker labeling | |
US7725318B2 (en) | System and method for improving the accuracy of audio searching | |
Matejka et al. | Neural Network Bottleneck Features for Language Identification. | |
Sadjadi et al. | Speaker age estimation on conversational telephone speech using senone posterior based i-vectors | |
CN105280181B (zh) | 一种语种识别模型的训练方法及语种识别方法 | |
Levitan et al. | Combining Acoustic-Prosodic, Lexical, and Phonotactic Features for Automatic Deception Detection. | |
Ghaemmaghami et al. | Speaker attribution of australian broadcast news data | |
Mengistu | Automatic text independent amharic language speaker recognition in noisy environment using hybrid approaches of LPCC, MFCC and GFCC | |
Li et al. | Instructional video content analysis using audio information | |
Kostoulas et al. | Study on speaker-independent emotion recognition from speech on real-world data | |
Chen et al. | System and keyword dependent fusion for spoken term detection | |
Mukherjee et al. | Identification of top-3 spoken Indian languages: an ensemble learning-based approach | |
Castan et al. | Segmentation-by-classification system based on factor analysis | |
WO2014155652A1 (ja) | 話者検索システム、プログラム | |
Vlasenko et al. | Annotators' agreement and spontaneous emotion classification performance | |
Sreeraj et al. | Automatic dialect recognition using feature fusion | |
Das et al. | Analysis and Comparison of Features for Text-Independent Bengali Speaker Recognition. | |
Scheffer et al. | Speaker detection using acoustic event sequences. | |
McMurtry | Information Retrieval for Call Center Quality Assurance | |
Gereg et al. | Semi-automatic processing and annotation of meeting audio recordings | |
Kenai et al. | Impact of a Voice Trace for the Detection of Suspect in a Multi-Speakers Stream | |
Chen et al. | Full-posterior PLDA based speaker diarization of telephone conversations | |
Sangeetha et al. | CONVERTING RETRIEVED SPOKEN DOCUMENTS INTO TEXT USING AN AUTO ASSOCIATIVE NEURAL NETWORK | |
Lin | Decision combination in speech metadata extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171110 |
|
RJ01 | Rejection of invention patent application after publication |