CN106898354B - 基于dnn模型和支持向量机模型的说话人个数估计方法 - Google Patents
基于dnn模型和支持向量机模型的说话人个数估计方法 Download PDFInfo
- Publication number
- CN106898354B CN106898354B CN201710123753.5A CN201710123753A CN106898354B CN 106898354 B CN106898354 B CN 106898354B CN 201710123753 A CN201710123753 A CN 201710123753A CN 106898354 B CN106898354 B CN 106898354B
- Authority
- CN
- China
- Prior art keywords
- voice data
- speakers
- training
- model
- dnn model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012706 support-vector machine Methods 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 146
- 238000007781 pre-processing Methods 0.000 claims description 9
- 150000001875 compounds Chemical class 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 abstract description 5
- 238000004364 calculation method Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract description 2
- 230000011218 segmentation Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明提出基于DNN模型和支持向量机模型的说话人个数估计方法,属于语音信号处理和深度学习领域。模型训练阶段,首先获取N个说话人的训练语音数据,得到深度神经网络DNN模型;然后获取M个说话人的训练语音数据,每个说话人的梅尔倒谱特征对应DNN模型的N个输出概率,组成M个说话人的N维特征,建立M个支持向量机SVM模型;说话人个数估计阶段,将每条待测语音数据的梅尔倒谱特征输入DNN模型得到N维特征并依次输入M个SVM模型中评分,得分最高的SVM模型即为该条待测语音数据所对应的类别,类别总个数即为估计的说话人个数。该方法解决多说话人场景中说话人个数计算不准确的问题,提高语音数据中说话人个数估计的准确率。
Description
技术领域
本发明属于语音信号处理领域和深度学习领域,具体涉及一种基于DNN模型和支持向量机模型的说话人个数估计方法。
背景技术
随着语音信号处理技术和语音识别技术的快速发展,说话人标记的应用场景越来越复杂,从简单的如电话记录的两个说话人场景,到今天广泛应用的如会议记录的多个说话人场景。由于说话人标记的效果和说话人个数估计密切相关,提高说话人个数估计的准确率能够改进说话人标记***,提升标记的准确率。
说话人个数估计首先要对语音数据进行预处理,提取特征。最常用的特征是一种基于人耳听感知理论的梅尔倒谱特征,目前广泛应用于说话人识别、语种识别以及连续语音识别等。梅尔倒谱特征提取首先对语音数据进行预加重和分帧加窗,然后对分帧加窗后的数据进行快速傅里叶变换,得到对应的频谱,并通过梅尔频标三角窗滤波器进行滤波,最后进行离散余弦变换得到梅尔倒谱特征。
现有的说话人数个数估计方法大多采用凝聚层次聚类(AgglomerativeHierarchicalCluster,AHC)方法,该方法首先进行说话人变化点检测,对语音数据进行分割,以达到对说话人进行分割,再对分割后的各段语音数据基于贝叶斯信息准则进行聚类,最终确定说话人数目。现有技术中估计说话人个数的结果的准确性完全依赖于说话人分割和聚类的准确性,而说话人分割受到步长的影响,步长多是根据经验确定,所以难免出现设定的步长不合适的情况,从而影响说话人分割的准确性及后续聚类的准确性;此外,在聚类时贝叶斯距离受语音时长的影响,主要表现为一般情况下语音时长越长其贝叶斯距离越大,因而在对不同时长的语音进行说话人聚类时,难以用统一的阈值进行聚类停止条件的判断,使得说话人数目判断存在较大误差,最终影响说话人标记的效果。
支持向量机(Support Vector Machine,SVM)是一种二类分类模型,需要找到特征空间上的间隔最大的线性分类器,即支持向量机模型的学习策略便是间隔最大化。它的最终模型只由少数支持向量决定,计算复杂度取决于支持向量的个数,而不是所有的样本,有助于抓住关键样本、剔除大量冗余样本,从而使算法更具稳健性,增加或删除一些训练样本对最终模型的影响很小,并可以很好地避免维数灾难和局部极小值问题。由于这些优点,SVM模型在说话人识别领域中广泛应用。
深度神经网络(Deep Neural Network,DNN)是一种模拟人脑神经网络,以实现类人工智能的机器学习技术。近年来,基于深度神经网络DNN模型的说话人识别***受到越来越多的关注,相比于传统的高斯混合模型(Gaussian Mixture Model,GMM),DNN模型的描述能力更强,能够更好地模拟非常复杂的数据分布,充分逼近复杂的非线性关系,基于DNN模型的说话人识别***取得显著的性能提升。DNN模型包含输入层、隐含层和输出层。输入层对应语音数据的特征,输入层节点数根据特征的维数而定。输出层对应各个说话人的概率,输出层节点数根据总共需要识别的说话人的个数而定。隐含层层数和节点数根据应用需要及工程经验定义。DNN模型训练时,先进行非监督训练再进行监督训练。非监督训练时把每相邻的两层网络当成一个受限玻尔兹曼机,用CD-k算法逐层进行训练。进行监督训练时,使用非监督训练得到的DNN模型参数作为初值,再用后向传播算法对DNN模型参数进行精确调整。
发明内容
本发明的目的是为克服已有技术的不足之处,提供一种基于DNN模型和支持向量机模型的说话人个数估计方法。该方法解决多说话人场景中说话人个数计算不准确的问题,提高语音数据中说话人个数估计的准确率。
本发明提出的一种基于DNN模型和支持向量机模型的说话人个数估计方法,分为模型训练阶段和说话人个数估计阶段两个阶段,包括以下步骤:
1)模型训练阶段;模型训练阶段分为DNN模型训练阶段和支持向量机SVM模型训练阶段两个阶段;具体包括以下步骤:
1-1)DNN模型训练阶段:获取N个说话人的训练语音数据,提取每条训练语音数据的特征,设置DNN模型的层数和节点数,对DNN模型进行训练,得到DNN模型参数;具体步骤如下:
1-1-1)获取N个说话人的训练语音数据;对训练语音数据进行预处理,提取每条训练语音数据的梅尔倒谱特征及其一阶、二阶导数,总共60维;
1-1-2)设置DNN模型的层数和节点数;
DNN模型分为输入层、隐含层和输出层三个层次;其中,输入层对应步骤1-1-1)得到的每条训练语音数据的梅尔倒谱特征及其一阶、二阶导数,共60维,则输入层节点数设置为60个;输出层的节点数等于所需识别的说话人个数N,每个节点的输出分别对应每个说话人的概率;隐含层用于自动提取不同层次的特征,每层隐含层的节点数代表该层隐含层所提取的特征的维度;
1-1-3)对DNN模型进行训练,得到DNN模型参数;
根据步骤1-1-1)得到的N个说话人的训练语音数据的梅尔倒谱特征及一阶、二阶导数,对DNN模型进行训练,得到DNN模型参数;DNN模型参数包括相邻两层的连接权重和每个节点的偏置;
相邻两层的连接权重,表达式如式(1)所示:
每个节点的偏置,表达式如式(2)所示:
对DNN模型先进行非监督训练:把DNN模型中每相邻的两层组成一个受限玻尔兹曼机,利用对比散度CD算法对每个受限玻尔兹曼机分别进行训练;依次训练所有的受限玻尔兹曼机,得到DNN模型参数的初始值;再进行监督训练:使用非监督训练得到的DNN模型参数初始值,利用后向传播算法对DNN模型参数进行精确调整,得到DNN模型参数的最终值;
1-2)支持向量机SVM模型训练阶段:获取M个说话人的训练语音数据,提取M个说话人的训练语音数据的特征,输入到步骤1-1)得到的DNN模型中,产生M组说话人各自对应的N维特征,得到M个说话人的各自对应的SVM模型;具体步骤如下:
1-2-1)获取M个说话人的训练语音数据,对M个说话人的训练语音数据进行预处理,得到M个说话人的训练语音数据对应的梅尔倒谱特征及一阶、二阶导数,共60维;
1-2-2)将步骤1-2-1)得到的M个说话人的训练语音数据对应的60维梅尔倒谱特征分别输入到步骤1-1)得到的DNN模型中,每个说话人的训练语音数据的60维梅尔倒谱特征对应得到DNN模型的输出层输出的的该说话人的N个输出概率,将得到的每个说话人的N个输出概率组成该说话人的N维特征,共产生M组说话人各自对应的N维特征;
1-2-3)将M个说话人中第i个说话人的训练语音数据作为一类,i∈1~M,类别标签定为1;其余M-1个说话人作为另一类,类别标签定为-1,得到二分类SVM模型;根据步骤1-2-2)得到的M组说话人各自对应的N维特征及类别标签,对二分类SVM模型进行训练,得到第i个说话人的SVM模型;
1-2-4)重复步骤1-2-3),让i的取值分别从1到M,最终得到M个说话人的各自对应的SVM模型,共M个;
2)说话人个数估计阶段,具体包括以下步骤:
2-1)获取待测语音数据,对待测语音数据进行预处理,得到待测语音数据对应的梅尔倒谱特征及其一阶、二阶导数,共60维;
2-2)将步骤2-1)得到的每条待测语音数据的梅尔倒谱特征输入到步骤1-1)得到的DNN模型中,每条待测语音数据的60维梅尔倒谱特征对应得到DNN模型的输出层输出的该条待测语音数据的N个输出概率,将得到的每条待测语音数据的N个输出概率组成该条待测语音数据的N维特征;
2-3)将步骤2-2)得到的任意一条待测语音数据的N维特征依次输入到步骤1-2)得到的M个说话人各自对应的对应的SVM模型中,每个SVM模型对该条待测语音数据进行评分,根据每个SVM模型评分结果判断该条待测语音数据对应的说话人和SVM模型所对应的M个说话人的相近程度,得分最高的SVM模型即为该条待测语音数据所对应的类别,该SVM模型所对应的说话人即为该条待测语音数据的近似说话人;
2-4)重复步骤2-3),将所有待测语音数据的N维特征分别输入M个SVM模型中,对所有待测语音数据进行分类,得到的类别总个数Q即为估计得到的待测语音数据的说话人个数,Q≤M。
本发明的特点及有益效果在于:
本发明提出的一种基于DNN模型和支持向量机模型的说话人个数估计方法,与现有的凝聚层次聚类方法相比,该方法不需用到分割聚类算法,因而不用担心语音分割步长对说话人个数估计的影响,也不会因为聚类语音时长的不同而难以选择合适的阈值,更有稳健型;该方法充分结合了深度神经网络DNN模型和支持向量机模型两者的优点,能够计算出待测语音数据中总的说话人个数;该方法还可以对待测语音数据中的说话人个数进行在线估计;可以完成待测语音数据的说话人变换点检测。
附图说明
图1为本发明方法的流程框图。
图2为本发明实施列中DNN模型结构示意图。
具体实施方式
本发明提出的一种基于DNN模型和支持向量机模型的说话人个数估计方法,下面结合附图及具体实施例对本发明进一步详细说明如下。以下实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本发明提出的一种基于DNN模型和支持向量机模型的说话人个数估计方法,流程框图如图1所示,分为模型训练阶段和说话人个数估计阶段两个阶段,
包括以下步骤:
1)模型训练阶段;模型训练阶段分为DNN模型训练阶段和支持向量机SVM模型训练阶段两个阶段;具体包括以下步骤:
1-1)DNN模型训练阶段;获取N个说话人的训练语音数据,提取每条训练语音数据的特征,设置DNN模型的层数和节点数,对DNN模型进行训练,得到DNN模型参数;具体包括以下步骤:
1-1-1)获取N个说话人的的训练语音数据,N的取值范围为为300至600;所述训练语音数据来源于NIST SRE 2012,可以通过网络下载或购买得到;对训练语音数据进行预处理,提取每条训练语音数据的梅尔倒谱特征及其一阶、二阶导数,总共60维。
1-1-2)设置DNN模型的层数和节点数;
DNN模型分为输入层、隐含层和输出层三个层次;其中,输入层对应步骤1-1-1)得到的每条训练语音数据的梅尔倒谱特征及其一阶、二阶导数,共60维,则输入层节点数设置为60个;输出层的节点数等于所需识别的说话人个数N,每个节点的输出分别对应每个说话人的概率;隐含层用于自动提取不同层次的特征,每层隐含层的节点数代表该层隐含层所提取的特征的维度,中间位置的隐含层的节点数一般设置为100-300个,其余隐含层的节点数一般设置为500-1000个。
1-1-3)训练DNN模型参数;
根据步骤1-1-1)得到的N个说话人的训练语音数据的梅尔倒谱特征及一阶、二阶导数,对DNN模型进行训练,得到DNN模型参数;DNN模型参数包括相邻两层的连接权重和每个节点的偏置;
相邻两层的连接权重,表达式如式(1)所示:
每个节点的偏置,表达式如式(2)所示:
对DNN模型先进行非监督训练:把DNN模型中每相邻的两层组成一个受限玻尔兹曼机,利用对比散度(CD)算法对每个受限玻尔兹曼机分别进行训练;依次训练所有的受限玻尔兹曼机,得到DNN模型参数的初始值;再进行监督训练:使用非监督训练得到的DNN模型参数初始值,利用后向传播算法对DNN模型参数进行精确调整,得到DNN模型参数的最终值。
1-2)支持向量机SVM模型训练阶段:获取M个说话人的训练语音数据,提取M个说话人的训练语音数据的特征,输入到步骤1-1)得到的DNN模型中,产生M组说话人各自对应的N维特征,得到M个说话人的各自对应的SVM模型;具体包括以下步骤:
1-2-1)获取M个说话人(M一般取值为待测语音数据中最多可能存在的说话人个数)的训练语音数据,训练语音数据来源于NIST SRE 2012数据库,可以由网上下载或购买得到,所述M个说话人可以和步骤1-1)的DNN模型训练阶段所选取的N个说话人不同。对M个说话人的训练语音数据进行预处理,得到M个说话人的训练语音数据对应的梅尔倒谱特征及一阶、二阶导数,共60维。
1-2-2)将步骤1-2-1)得到的M个说话人的训练语音数据对应的60维梅尔倒谱特征分别输入到步骤1-1)得到的DNN模型中,每个说话人的训练语音数据的60维梅尔倒谱特征对应得到DNN模型的输出层输出的的该说话人的N个输出概率,将得到的每个说话人的N个输出概率组成该说话人的N维特征,共产生M组说话人各自对应的N维特征。
1-2-3)将M个说话人中第i个说话人的训练语音数据作为一类,i∈1~M,类别标签定为1;其余M-1个说话人作为另一类,类别标签定为-1,得到二分类SVM模型;根据步骤1-2-2)得到的M组说话人各自对应的N维特征及类别标签,对二分类SVM模型进行训练,得到第i个说话人的SVM模型;
1-2-4)重复步骤1-2-3),让i的取值分别从1到M,最终得到M个说话人的各自对应的SVM模型,共M个。
2)说话人个数估计阶段,具体包括以下步骤:
2-1)获取待测语音数据,待测语音数据的说话人可以和DNN模型训练阶段的N个说话人以及支持向量机SVM模型训练阶段的M个说话人都不相同。对待测语音数据进行预处理,得到待测语音数据对应的梅尔倒谱特征及其一阶、二阶导数,共60维;
2-2)将步骤2-1)得到的每条待测语音数据的梅尔倒谱特征输入到步骤1-1)得到的DNN模型中,每条待测语音数据的60维梅尔倒谱特征对应得到DNN模型的输出层输出的该条待测语音数据的N个输出概率,将得到的每条待测语音数据的N个输出概率组成该条待测语音数据的N维特征。
2-3)将步骤2-2)得到的任意一条待测语音数据的N维特征依次输入到步骤1-2)得到的M个说话人各自对应的对应的SVM模型中,每个SVM模型对该条待测语音数据进行评分,根据每个SVM模型评分结果判断该条待测语音数据对应的说话人和SVM模型所对应的M个说话人的相近程度,得分最高的SVM模型即为该条待测语音数据所对应的类别,该SVM模型所对应的说话人即为该条待测语音数据的近似说话人。
2-4)重复步骤2-3),将所有待测语音数据的N维特征分别输入M个SVM模型中,对所有待测语音数据进行分类,得到的类别总个数Q即为估计得到的待测语音数据的说话人个数,Q≤M。
本发明提出的一种基于DNN模型和支持向量机模型的说话人个数估计方法,下面结合一个具体实施例对本发明进一步说明如下。
本发明提出的一种基于DNN模型和支持向量机模型的说话人个数估计方法,分为模型训练阶段和说话人个数估计阶段两个阶段,其中,模型训练阶段分为DNN模型训练阶段和支持向量机SVM模型训练阶段两个阶段;包括以下步骤:
1)模型训练阶段:获取N个说话人的训练语音数据,提取每条训练语音数据的特征,设置DNN模型的层数和节点数,对DNN模型进行训练,得到DNN模型参数;具体包括以下步骤:
1-1)DNN模型训练阶段;具体包括以下步骤:
1-1-1)获取N个说话人的的训练语音数据,本实施例中N取值为400;所述训练语音数据来源于NIST SRE 2012,可以通过网络下载或购买得到;对训练语音数据进行预处理,提取每条训练语音数据的梅尔倒谱特征及其一阶、二阶导数,总共60维。
1-1-2)设置DNN模型的层数和节点数;
本实施例中DNN模型结构如图2所示,分为输入层、隐含层和输出层三个层次;本实施例中,DNN模型总共有5层,第1层为输入层,第2-4层为隐含层,共有3层隐含层,第5层为输出层。DNN模型的输入层对应语音数据的特征,本发明为步骤1-1-1)得到的每帧训练语音数据的梅尔倒谱特征及其一阶、二阶导数,共60维,则输入层节点数P1设置为60个;输出层的节点数P5等于所需识别的说话人个数,本实施例为400个,每个节点的输出分别对应每个说话人的概率;隐含层用于自动提取不同层次的特征,本实施例隐含层层数设置为3层,隐含层所提的特征从第2层的低级抽象逐渐向第4层的高级抽象过渡;每层隐含层的节点数代表该层隐含层所提取的特征的维度,本实施例中中间位置的隐含层(即第3层)的节点数设置为P3=100个(一般设置为100-300个),其余隐含层的节点数P2和P4分别设置为800个(一般设置为500-1000个)。
1-1-3)训练DNN模型参数;
根据步骤1-1-1)得到的400个人的训练语音数据的梅尔倒谱特征及一阶、二阶导数,对DNN模型进行训练,得到DNN模型参数;DNN模型参数包括相邻两层的连接权重和每个节点的偏置;
相邻两层的连接权重,表达式如式(1)所示:
每个节点的偏置,表达式如式(2)所示:
对DNN模型先进行非监督训练:把DNN模型中每相邻的两层组成一个受限玻尔兹曼机,本实施例中即图2中的第1层和第2层、第2层和第3层、……、第4层和第5层,当成一个受限玻尔兹曼机,共有4个受限玻尔兹曼机;用对比散度(CD)算法对每个受限玻尔兹曼机分别进行训练,即先训练第1层和第2层组成的受限玻尔兹曼机,得到DNN模型参数中的B1、B2、W12;接着训练第2层和第3层组成的受限玻尔兹曼机,得到DNN模型参数中的B3、W23;依次训练所有的受限玻尔兹曼机,得到DNN模型参数的初始值。再进行监督训练:使用非监督训练得到的DNN模型参数初始值,利用后向传播算法对DNN模型参数进行精确调整,得到DNN模型参数的最终值。
1-2)支持向量机SVM模型训练阶段:获取M个说话人的训练语音数据,提取M个说话人的训练语音数据的特征,输入到步骤1-1)得到的DNN模型中,产生M组说话人各自对应的N维特征,得到M个说话人的各自对应的SVM模型;具体包括以下步骤:
1-2-1)获取M个说话人(M一般取值为待测语音数据中最多可能存在的说话人个数)的训练语音数据,本实施例中M取值为5个,训练语音数据来源于NIST SRE 2012数据库,可以由网上下载或购买得到,这5个说话人可以和步骤1-1)的DNN模型训练阶段所选取的400个说话人不同。对M个说话人的训练语音数据进行预处理,得到M个说话人的训练语音数据对应的梅尔倒谱特征及一阶、二阶导数,共60维。
1-2-2)将步骤1-2-1)得到的M个说话人的训练语音数据对应的60维梅尔倒谱特征分别输入到步骤1-1)得到的DNN模型中,每个说话人的训练语音数据的60维梅尔倒谱特征对应得到DNN模型的输出层输出的的该说话人的400个输出概率,将得到的每个说话人的400个输出概率组成该说话人的400维特征,共产生5组说话人各自对应的400维特征。
1-2-3)将5个说话人中第i个说话人的训练语音数据作为一类,i∈1~5,类别标签定为1;其余4个说话人作为另一类,类别标签定为-1,得到二分类SVM模型;根据步骤1-2-2)得到的5组说话人各自对应的400维特征及类别标签,对二分类SVM模型进行训练,得到第i个说话人的SVM模型;
1-2-4)重复步骤1-2-3),让i的取值分别从1到5,最终得到5个说话人的各自对应的SVM模型,共5个。
2)说话人个数估计阶段,具体包括以下步骤:
2-1)获取待测语音数据,本实施例中待测语音数据来自录音得到的会议记录。该待测语音数据的说话人可以和DNN模型训练阶段的400个说话人以及支持向量机SVM模型训练阶段的5个说话人都不同。对待测语音数据进行预处理,得到待测语音数据对应的梅尔倒谱特征及其一阶、二阶导数,共60维;
2-2)将步骤2-1)得到的每条待测语音数据的梅尔倒谱特征输入到步骤1)得到的DNN模型中,每条待测语音数据的60维梅尔倒谱特征对应得到DNN模型的输出层输出的该条待测语音数据的400个输出概率,将得到的每条待测语音数据的400个输出概率组成该条待测语音数据的400维特征。
2-3)将步骤2-2)得到的任意一条待测语音数据的400维特征依次输入到步骤1-2)得到的5个说话人各自对应的对应的SVM模型中,每个SVM模型对该条待测语音数据进行评分,根据每个SVM模型评分结果判断该条待测语音数据对应的说话人和SVM模型所对应的5个说话人的相近程度,得分最高的SVM模型即为该条待测语音数据所对应的类别,该SVM模型所对应的说话人即为该条待测语音数据的近似说话人。
2-4)重复步骤2-3),将所有待测语音数据的400维特征分别输入5个SVM模型中,对所有待测语音数据进行分类,得到的类别总个数Q即为估计得到的待测语音数据的说话人个数,Q≤M,本实施例中类别总个数Q小于等于SVM模型个数5。
至此,完成说话人个数估计。
本发明关于说话人个数估计方法,是通过待测语音数据按帧进行输入,并识别该测试语音数据每条帧所对应的说话人,这使得该方法具有有效的实时性。基于该方法实时性的特点,能够对待测语音数据中的说话人个数进行在线估计;该方法是对待测语音数据按帧识别对应的说话人的类别,由此可以得出待测语音数据的每帧说话人类别,如果相邻的两帧对应的说话人不同,则该点即为说话人变换点,完成待测语音数据的说话人变换点检测。
值得注意的是,本实施例在以本发明技术方案为前提进行实施,但本发明的保护范围不仅限于该实施例。凡是在本发明的实质精神范围之内,对以上实施例所作的适当改变和变化,都落在本发明要求保护的范围之内。
Claims (1)
1.一种基于DNN模型和支持向量机模型的说话人个数估计方法,其特征在于,分为模型训练阶段和说话人个数估计阶段两个阶段,包括以下步骤:
1)模型训练阶段;模型训练阶段分为DNN模型训练阶段和支持向量机SVM模型训练阶段两个阶段;具体包括以下步骤:
1-1)DNN模型训练阶段:获取N个说话人的训练语音数据,提取每条训练语音数据的特征,设置DNN模型的层数和节点数,对DNN模型进行训练,得到DNN模型参数;具体步骤如下:
1-1-1)获取N个说话人的训练语音数据;对训练语音数据进行预处理,提取每条训练语音数据的梅尔倒谱特征及其一阶、二阶导数,总共60维;
1-1-2)设置DNN模型的层数和节点数;
DNN模型分为输入层、隐含层和输出层三个层次;其中,输入层对应步骤1-1-1)得到的每条训练语音数据的梅尔倒谱特征及其一阶、二阶导数,共60维,则输入层节点数设置为60个;输出层的节点数等于所需识别的说话人个数N,每个节点的输出分别对应每个说话人的概率;隐含层用于自动提取不同层次的特征,每层隐含层的节点数代表该层隐含层所提取的特征的维度;
1-1-3)对DNN模型进行训练,得到DNN模型参数;
根据步骤1-1-1)得到的N个说话人的训练语音数据的梅尔倒谱特征及一阶、二阶导数,对DNN模型进行训练,得到DNN模型参数;DNN模型参数包括相邻两层的连接权重和每个节点的偏置;
相邻两层的连接权重,表达式如式(1)所示:
每个节点的偏置,表达式如式(2)所示:
对DNN模型先进行非监督训练:把DNN模型中每相邻的两层组成一个受限玻尔兹曼机,利用对比散度CD算法对每个受限玻尔兹曼机分别进行训练;依次训练所有的受限玻尔兹曼机,得到DNN模型参数的初始值;再进行监督训练:使用非监督训练得到的DNN模型参数初始值,利用后向传播算法对DNN模型参数进行精确调整,得到DNN模型参数的最终值;
1-2)支持向量机SVM模型训练阶段:获取M个说话人的训练语音数据,提取M个说话人的训练语音数据的特征,输入到步骤1-1)得到的DNN模型中,产生M组说话人各自对应的N维特征,得到M个说话人的各自对应的SVM模型;具体步骤如下:
1-2-1)获取M个说话人的训练语音数据,对M个说话人的训练语音数据进行预处理,得到M个说话人的训练语音数据对应的梅尔倒谱特征及一阶、二阶导数,共60维;
1-2-2)将步骤1-2-1)得到的M个说话人的训练语音数据对应的60维梅尔倒谱特征分别输入到步骤1-1)得到的DNN模型中,每个说话人的训练语音数据的60维梅尔倒谱特征对应得到DNN模型的输出层输出的的该说话人的N个输出概率,将得到的每个说话人的N个输出概率组成该说话人的N维特征,共产生M组说话人各自对应的N维特征;
1-2-3)将M个说话人中第i个说话人的训练语音数据作为一类,i∈1~M,类别标签定为1;其余M-1个说话人作为另一类,类别标签定为-1,得到二分类SVM模型;根据步骤1-2-2)得到的M组说话人各自对应的N维特征及类别标签,对二分类SVM模型进行训练,得到第i个说话人的SVM模型;
1-2-4)重复步骤1-2-3),让i的取值分别从1到M,最终得到M个说话人的各自对应的SVM模型,共M个;
2)说话人个数估计阶段,具体包括以下步骤:
2-1)获取待测语音数据,对待测语音数据进行预处理,得到待测语音数据对应的梅尔倒谱特征及其一阶、二阶导数,共60维;
2-2)将步骤2-1)得到的每条待测语音数据的梅尔倒谱特征输入到步骤1-1)得到的DNN模型中,每条待测语音数据的60维梅尔倒谱特征对应得到DNN模型的输出层输出的该条待测语音数据的N个输出概率,将得到的每条待测语音数据的N个输出概率组成该条待测语音数据的N维特征;
2-3)将步骤2-2)得到的任意一条待测语音数据的N维特征依次输入到步骤1-2)得到的M个说话人各自对应的对应的SVM模型中,每个SVM模型对该条待测语音数据进行评分,根据每个SVM模型评分结果判断该条待测语音数据对应的说话人和SVM模型所对应的M个说话人的相近程度,得分最高的SVM模型即为该条待测语音数据所对应的类别,该SVM模型所对应的说话人即为该条待测语音数据的近似说话人;
2-4)重复步骤2-3),将所有待测语音数据的N维特征分别输入M个SVM模型中,对所有待测语音数据进行分类,得到的类别总个数Q即为估计得到的待测语音数据的说话人个数,Q≤M。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710123753.5A CN106898354B (zh) | 2017-03-03 | 2017-03-03 | 基于dnn模型和支持向量机模型的说话人个数估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710123753.5A CN106898354B (zh) | 2017-03-03 | 2017-03-03 | 基于dnn模型和支持向量机模型的说话人个数估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106898354A CN106898354A (zh) | 2017-06-27 |
CN106898354B true CN106898354B (zh) | 2020-05-19 |
Family
ID=59184653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710123753.5A Active CN106898354B (zh) | 2017-03-03 | 2017-03-03 | 基于dnn模型和支持向量机模型的说话人个数估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106898354B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108109615A (zh) * | 2017-12-21 | 2018-06-01 | 内蒙古工业大学 | 一种基于dnn的蒙古语声学模型的构造和使用方法 |
CN108766462B (zh) * | 2018-06-21 | 2021-06-08 | 浙江中点人工智能科技有限公司 | 一种基于梅尔频谱一阶导数的语音信号特征学习方法 |
CN108847245B (zh) * | 2018-08-06 | 2020-06-23 | 北京海天瑞声科技股份有限公司 | 语音检测方法和装置 |
CN109887511A (zh) * | 2019-04-24 | 2019-06-14 | 武汉水象电子科技有限公司 | 一种基于级联dnn的语音唤醒优化方法 |
CN110211595B (zh) * | 2019-06-28 | 2021-08-06 | 四川长虹电器股份有限公司 | 一种基于深度学习的说话人聚类*** |
CN113555032B (zh) * | 2020-12-22 | 2024-03-12 | 腾讯科技(深圳)有限公司 | 多说话人场景识别及网络训练方法、装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104616033A (zh) * | 2015-02-13 | 2015-05-13 | 重庆大学 | 基于深度学习和支持向量机的滚动轴承故障诊断方法 |
CN104751227A (zh) * | 2013-12-31 | 2015-07-01 | 安徽科大讯飞信息科技股份有限公司 | 深度神经网络的构建方法及*** |
CN106448681A (zh) * | 2016-09-12 | 2017-02-22 | 南京邮电大学 | 一种超矢量的说话人辨认方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013149123A1 (en) * | 2012-03-30 | 2013-10-03 | The Ohio State University | Monaural speech filter |
-
2017
- 2017-03-03 CN CN201710123753.5A patent/CN106898354B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104751227A (zh) * | 2013-12-31 | 2015-07-01 | 安徽科大讯飞信息科技股份有限公司 | 深度神经网络的构建方法及*** |
CN104616033A (zh) * | 2015-02-13 | 2015-05-13 | 重庆大学 | 基于深度学习和支持向量机的滚动轴承故障诊断方法 |
CN106448681A (zh) * | 2016-09-12 | 2017-02-22 | 南京邮电大学 | 一种超矢量的说话人辨认方法 |
Non-Patent Citations (3)
Title |
---|
《Speaker verification using kernel-based binary classifiers with binary operation derived features》;Hung-Shin Lee et al.;《2014 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP)》;20140714;第1660-1664页 * |
《Towards Scaling Up Classification-Based Speech Separation》;Yuxuan Wang et al.;《IEEE Transactions on Audio,Speech,and Language Processing》;20130731;第21卷(第7期);第1381-1390页 * |
《基于复合神经网络的语音识别研究》;张正丽;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160315(第03期);第18-56页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106898354A (zh) | 2017-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106898354B (zh) | 基于dnn模型和支持向量机模型的说话人个数估计方法 | |
CN106971713B (zh) | 基于密度峰值聚类和变分贝叶斯的说话人标记方法与*** | |
CN105632501B (zh) | 一种基于深度学习技术的自动口音分类方法及装置 | |
CN108305616A (zh) | 一种基于长短时特征提取的音频场景识别方法及装置 | |
Tong et al. | A comparative study of robustness of deep learning approaches for VAD | |
CN108694951B (zh) | 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法 | |
CN108281137A (zh) | 一种全音素框架下的通用语音唤醒识别方法及*** | |
CN109559736B (zh) | 一种基于对抗网络的电影演员自动配音方法 | |
CN109119072A (zh) | 基于dnn-hmm的民航陆空通话声学模型构建方法 | |
CN106710599A (zh) | 一种基于深度神经网络的特定声源检测方法与*** | |
CN110349597B (zh) | 一种语音检测方法及装置 | |
CN111583906B (zh) | 一种语音会话的角色识别方法、装置及终端 | |
CN105096955B (zh) | 一种基于模型生长聚类的说话人快速识别方法及*** | |
CN106898355B (zh) | 一种基于二次建模的说话人识别方法 | |
Jiang et al. | An Improved Speech Segmentation and Clustering Algorithm Based on SOM and K‐Means | |
CN111091809B (zh) | 一种深度特征融合的地域性口音识别方法及装置 | |
Poorjam et al. | Multitask speaker profiling for estimating age, height, weight and smoking habits from spontaneous telephone speech signals | |
CN111986699B (zh) | 基于全卷积网络的声音事件检测方法 | |
CN111341319A (zh) | 一种基于局部纹理特征的音频场景识别方法及*** | |
CN112712824A (zh) | 一种融合人群信息的语音情感识别方法和*** | |
CN108986798A (zh) | 语音数据的处理方法、装置及设备 | |
CN110931045A (zh) | 基于卷积神经网络的音频特征生成方法 | |
Sinha et al. | Acoustic-phonetic feature based dialect identification in Hindi Speech | |
CN108831486B (zh) | 基于dnn与gmm模型的说话人识别方法 | |
Liu et al. | Using bidirectional associative memories for joint spectral envelope modeling in voice conversion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20181204 Address after: 100085 Beijing Haidian District Shangdi Information Industry Base Pioneer Road 1 B Block 2 Floor 2030 Applicant after: Beijing Huacong Zhijia Technology Co., Ltd. Address before: 100084 Tsinghua Yuan, Haidian District, Beijing, No. 1 Applicant before: Tsinghua University |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |