CN106898355B - 一种基于二次建模的说话人识别方法 - Google Patents

一种基于二次建模的说话人识别方法 Download PDF

Info

Publication number
CN106898355B
CN106898355B CN201710031899.7A CN201710031899A CN106898355B CN 106898355 B CN106898355 B CN 106898355B CN 201710031899 A CN201710031899 A CN 201710031899A CN 106898355 B CN106898355 B CN 106898355B
Authority
CN
China
Prior art keywords
voice data
training
dnn model
speaker
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710031899.7A
Other languages
English (en)
Other versions
CN106898355A (zh
Inventor
何亮
陈仙红
徐灿
刘艺
田垚
刘加
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huacong Zhijia Technology Co., Ltd.
Original Assignee
Beijing Huacong Zhijia Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huacong Zhijia Technology Co Ltd filed Critical Beijing Huacong Zhijia Technology Co Ltd
Priority to CN201710031899.7A priority Critical patent/CN106898355B/zh
Publication of CN106898355A publication Critical patent/CN106898355A/zh
Application granted granted Critical
Publication of CN106898355B publication Critical patent/CN106898355B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于二次建模的说话人识别方法,属于声纹识别、模式识别与机器学习领域。该方法在模型训练阶段,获取待识别说话人的训练语音数据并预处理;根据训练语音数据训练得到第一个DNN模型;利用第一个DNN模型,对训练语音数据进行识别,提取易混语音数据;根据易混语音数据训练得到第二个DNN模型;在说话人识别阶段,获取待识别语音数据并预处理;利用第一个DNN模型对待识别语音数据进行识别,若识别概率大于设定阈值,则得到说话人识别结果;否则通过第二个DNN模型对待识别语音数据进行第二次识别,得到说话人识别结果。本发明通过建立两个DNN模型,同时考虑说话人宏观特征和微观特征,有效提高说话人识别的准确率。

Description

一种基于二次建模的说话人识别方法
技术领域
本发明属于声纹识别、模式识别与机器学习技术领域,特别地涉及一种基于二次建模的说话人识别方法。
背景技术
说话人识别是指根据包含在语音中的和说话人相关的信息来识别说话人身份,随着信息技术和通信技术的迅速发展,说话人识别技术越来越受到重视并在诸多领域得到广泛的应用。如身份鉴别,缉拿电话信道罪犯,法庭中根据电话录音做身份确认,电话语音跟踪,提供防盗门开启功能。互联网应用和通信领域,说话人识别技术可以应用于声音拨号、电话银行、电话购物、数据库访问、信息服务、语音e-mail、安全控制、计算机远程登录等领域。
说话人识别首先要对语音数据进行预处理,提取特征。最常用的特征是一种基于人耳听感知理论的梅尔倒谱特征,目前广泛应用于说话人识别、语种识别以及连续语音识别等。梅尔倒谱特征提取首先对语音数据进行预加重和分帧加窗,然后对分帧加窗后的数据进行快速傅里叶变换,得到对应的频谱,并通过梅尔频标三角窗滤波器进行滤波,最后进行离散余弦变换得到梅尔倒谱特征。
近年来,基于深度神经网络(DNN)的说话人识别模型受到越来越多的关注,相比于传统的高斯混合模型(GMM),DNN模型的描述能力更强,能够更好地模拟非常复杂的数据分布,基于DNN的***取得显著的性能提升。一个DNN模型包含输入层、隐含层和输出层三个层次:输入层对应语音数据的特征,输入层的节点数根据语音数据对应特征的维数而定;输出层对应各个说话人的概率,输出层的节点数根据总共需要识别的说话人的个数而定;隐含层层数和节点数根据应用需要及工程经验定义。DNN模型训练时,先进行非监督训练再进行监督训练。非监督训练时把每相邻的两层网络当成一个受限玻尔兹曼机,用对比散度(CD)算法逐层进行训练。进行监督训练时,使用非监督训练得到的DNN模型参数作为初始值,再用后向传播算法对DNN模型参数进行精确调整。目前为止,基于DNN模型的说话人识别的方法都只使用一个DNN模型,但一个DNN模型很难同时对说话人之间的宏观特征和微观特征进行建模。这导致使用一个DNN模型对说话人进行识别时,有些语音可以很容易区分,而有些语音却容易混淆。
发明内容
本发明的目的是为克服已有技术的不足之处,提出了一种基于二次建模的说话人识别方法。本发明通过建立两个DNN模型,同时考虑了说话人宏观特征和微观特征,可有效地提高说话人识别的准确率。
一种基于二次建模的说话人识别的方法,分为为模型训练阶段和说话人识别阶段两个阶段;在模型训练阶段,获取所有待识别说话人的训练语音数据并预处理;根据训练语音数据训练得到第一个DNN模型;利用第一个DNN模型,对训练语音数据进行识别,提取易混语音数据;根据易混语音数据训练得到第二个DNN模型;在说话人识别阶段,获取待识别语音数据并预处理;利用第一个DNN模型对待识别语音数据进行识别,若识别概率大于判定阈值,则识别结果中输出概率最大值所对应的说话人为该条待识别语音数据的说话人;否则通过第二个DNN模型对待识别语音数据进行第二次识别,识别结果中输出概率最大值所对应的说话人为该条待识别语音数据的说话人。该方法包括以下步骤:
1)模型训练阶段;具体包括以下步骤:
1-1)获取所有待识别说话人的训练语音数据,且每条训练语音数据所对应的说话人为已知;对获取的训练语音数据进行预处理,提取所有训练语音数据对应的梅尔倒谱特征,并计算梅尔倒谱特征的一阶、二阶导数,共60维;
1-2)建立第一个DNN模型并进行训练,具体包括以下步骤:
1-2-1)设置第一个DNN模型的层数和节点数;
第一个DNN模型分为输入层,隐含层和输出层三个层次;输入层对应训练语音数据的特征,输入层节点数为步骤1-1)得到的训练语音数据的梅尔倒谱特征及其一阶、二阶导数共60维,则输入层节点数设置为60个;输出层对应各个说话人的概率,输出层节点数为所有待识别说话人的个数,每个节点输出分别对应每个说话人的概率;隐含层用于自动提取不同层次的特征,每层隐含层的节点数代表该层隐含层提取的特征的维度;
1-2-2)对第一个DNN模型进行训练,得到第一个DNN模型参数;
根据所有待识别的说话人的训练语音数据的梅尔倒谱特征及其一阶、二阶导数,对第一个DNN模进行训练,模型参数包括相邻两层的连接权重和每个节点的偏置;先进行非监督训练再进行监督训练:非监督训练时,把第一个DNN模型中每相邻的两层,当成一个受限玻尔兹曼机,用对比散度算法依次训练所有的受限玻尔兹曼机,得到第一个DNN模型参数的初始值;进行监督训练时,使用非监督训练得到的第一个DNN模型参数的初始值,利用后向传播算法对第一个DNN模型参数进行精确调整,最后得到第一个DNN模型参数;
1-3)提取易混语音数据;
根据步骤1-2)训练得到的第一个DNN模型,对所有待识别的说话人的训练语音数据进行识别并设定阈值;如果一条训练语音数据的识别结果中该条训练语音数据对应的说话人的概率小于设定的阈值,则说明该条语音数据的识别结果区分性不好,将此条训练语音数据提取作为易混语音数据,用于第二个DNN模型的训练;若识别结果大于等于设定的阈值,则说明该条训练语音数据易于区分,不作为易混语音数据;
1-4)建立第二个DNN模型并进行训练,具体包括以下步骤:
1-4-1)设置第二个DNN模型的层数和节点数;
第二个DNN模型分为输入层,隐含层和输出层三个层次;输入层对应训练语音数据的特征,输入层节点数为步骤1-3)提取的易混语音数据的梅尔倒谱特征及其一阶、二阶导数共60维,则输入层节点数设置为60个;输出层对应各个说话人的概率,输出层节点数为易混语音数据中所包含的说话人个数,每个节点输出分别对应每个说话人的概率;隐含层用于自动提取不同层次的特征,每层隐含层的节点数代表该层隐含层提取的特征的维度;
1-4-2)对第二个DNN模型进行训练,得到第二个DNN模型参数;
根据步骤1-3)得到的易混语音数据的梅尔倒谱特征及其一阶、二阶导数,对第二个DNN模型进行训练,模型参数包括相邻两层的连接权重和每个节点的偏置;先进行非监督训练再进行监督训练:非监督训练时把第二个DNN模型中每相邻的两层当成一个受限玻尔兹曼机,用对比散度算法依次训练所有的受限玻尔兹曼机,得到第二个DNN模型参数的初始值;进行监督训练时,使用非监督训练得到的第二个DNN模型参数的初始值,利用后向传播算法对第二个DNN模型参数进行精确调整,最后得到第二个DNN模型参数;
2)说话人识别阶段;具体包括以下步骤:
2-1)获取所需识别的说话人中的某一个人的待识别语音数据,对待识别的语音数据进行预处理,提取待识别语音数据的梅尔倒谱特征及其一阶、二阶导数,共60维;
2-2)将步骤2-1)得到待识别语音数据的60维的特征输入到步骤1-2)得到的第一个DNN模型中进行识别,输出层输出待识别语音数据的识别结果,即该条语音数据分别对应训练语音数据中每个说话人的概率,输出层每个节点的输出分别对应一个说话人的概率;
2-3)设置判定阈值,判断步骤2-2)的识别结果中是否存在概率大于判定阈值的结果:若有,则第一个DNN模型识别结果中输出概率最大值所对应的说话人即为该条待识别语音数据的说话人,识别结束;若没有,则转入步骤2-4);
2-4)若步骤2-3)的识别结果中没有概率大于判定阈值的结果,则对该条待识别语音数据使用第二个DNN模型进行第二次识别;第二个DNN模型识别结果中输出概率最大值所对应的说话人即为该条待识别语音数据的说话人,识别结束。
本发明的特点及有益效果在于:
与现有技术相比,本发明的第一个DNN模型对说话人之间的宏观特征进行建模,第二个DNN模型对说话人之间的微观特征进行建模。本发明方法增加了对不同说话人易混语音数据的鉴别性,具有很好的***稳定性,同时考虑了宏观特征和微观特征,可以提高说话人识别的准确率。
附图说明
图1是本发明方法的流程图。
图2是本发明实施例中的第一个DNN模型结构图。
图3是本发明实施例中的第二个DNN模型结构图。
具体实施方式
本发明提出的一种基于二次建模的说话人识别方法,下面结合附图和具体实施例进一步详细说明如下。
本发明提出的一种基于二次建模的说话人识别方法,分为为模型训练阶段和说话人识别阶段两个阶段;在模型训练阶段,获取所有待识别说话人的训练语音数据并预处理;根据训练语音数据训练得到第一个DNN模型;利用第一个DNN模型,对训练语音数据进行识别,提取易混语音数据;根据易混语音数据训练得到第二个DNN模型;在说话人识别阶段,获取待识别语音数据并预处理;利用第一个DNN模型对待识别语音数据进行识别,若识别概率大于判定阈值,则识别结果中输出概率最大值所对应的说话人为该条待识别语音数据的说话人;否则通过第二个DNN模型对待识别语音数据进行第二次识别,识别结果中输出概率最大值所对应的说话人为该条待识别语音数据的说话人。该方法流程图如图1所示,包括以下步骤:
1)模型训练阶段;具体包括以下步骤:
1-1)获取所有待识别说话人的训练语音数据,且每条训练语音数据所对应的说话人为已知,获取方式可以为现场录音或电话录音;对获取的训练语音数据进行预处理,提取所有训练语音数据对应的梅尔倒谱特征,并计算梅尔倒谱特征的一阶、二阶导数,共60维;
1-2)建立第一个DNN模型并进行训练,具体包括以下步骤:
1-2-1)设置第一个DNN模型的层数和节点数;
第一个DNN模型分为输入层,隐含层和输出层三个层次;输入层对应训练语音数据的特征,输入层节点数为步骤1-1)得到的训练语音数据的梅尔倒谱特征及其一阶、二阶导数共60维,则输入层节点数设置为60个;输出层对应各个说话人的概率,输出层节点数为所有待识别说话人的个数,每个节点输出分别对应每个说话人的概率;隐含层主要用于自动提取不同层次的特征,隐含层的层数和节点数根据需要及经验设定,一般设置隐含层层数为3-5层;每层隐含层的节点数代表该层隐含层提取的特征的维度,中间位置的隐含层节点数一般设置为300-500个,其他隐含层节点数一般设置为1000-2000个;
1-2-2)对第一个DNN模型进行训练,得到第一个DNN模型参数;
根据所有待识别的说话人的训练语音数据的梅尔倒谱特征及其一阶、二阶导数,对第一个DNN模进行训练,模型参数包括相邻两层的连接权重和每个节点的偏置;先进行非监督训练再进行监督训练:非监督训练时把第一个DNN模型中每相邻的两层,当成一个受限玻尔兹曼机,用对比散度(CD)算法依次训练所有的受限玻尔兹曼机,得到第一个DNN模型参数的初始值;进行监督训练时,使用非监督训练得到的第一个DNN模型参数的初始值,利用后向传播算法对第一个DNN模型参数进行精确调整,最后得到第一个DNN模型参数;
1-3)提取易混语音数据;
根据步骤1-2)训练得到的第一个DNN模型,对所有待识别的说话人的训练语音数据进行识别并设定阈值,根据经验,阈值范围一般设为0.7-0.9;如果一条训练语音数据的识别结果中该条训练语音数据对应的说话人的概率小于设定的阈值,则说明该条语音数据的识别结果区分性不好,将此条训练语音数据提取作为易混语音数据,用于第二个DNN模型的训练;若识别结果大于等于设定的阈值,则说明该条训练语音数据易于区分,不作为易混语音数据;
1-4)建立第二个DNN模型并进行训练,具体包括以下步骤:
1-4-1)设置第二个DNN模型的层数和节点数;
第二个DNN模型分为输入层,隐含层和输出层三个层次;输入层对应训练语音数据的特征,输入层节点数为步骤1-3)提取的易混语音数据的梅尔倒谱特征及其一阶、二阶导数,共60维,则输入层节点数设置为60个;输出层对应各个说话人的概率,输出层节点数为易混语音数据中所包含的说话人个数,每个节点输出分别对应每个说话人的概率;隐含层一般设置层数为3-5层,中间位置的隐含层节点数一般设置为300-500个,其他隐含层节点数一般设置为1000-2000个;
1-4-2)对第二个DNN模型进行训练,得到第二个DNN模型参数;
根据步骤1-3)得到的易混语音数据的梅尔倒谱特征及其一阶、二阶导数,对第二个DNN模进行训练,模型参数包括相邻两层的连接权重和每个节点的偏置;先进行非监督训练再进行监督训练:非监督训练时把第二个DNN模型中每相邻的两层当成一个受限玻尔兹曼机,用对比散度(CD)算法依次训练所有的受限玻尔兹曼机,得到第二个DNN模型参数的初始值;进行监督训练时,使用非监督训练得到的第二个DNN模型参数的初始值,利用后向传播算法对第二个DNN模型参数进行精确调整,最后得到第二个DNN模型参数;
2)说话人识别阶段,具体包括以下步骤:
2-1)获取所需识别的说话人中的某一个人的待识别语音数据,对待识别的语音数据进行预处理,提取待识别语音数据的梅尔倒谱特征及其一阶、二阶导数,共60维;
2-2)将步骤2-1)得到待识别语音数据的60维的特征输入到步骤1-2)得到的第一个DNN模型中进行识别,输出层输出待识别语音数据的识别结果,即该条语音数据分别对应训练语音数据中每个说话人的概率,输出层每个节点的输出分别对应一个说话人的概率;
2-3)设置判定阈值,判断步骤2-2)的识别结果中是否存在概率大于判定阈值的结果:若有,则第一个DNN模型识别结果中输出概率最大值所对应的说话人即为该条待识别语音数据的说话人,识别结束;若没有,则转入步骤2-4);
2-4)若步骤2-3)的识别结果中没有概率大于判定阈值的结果,则对该条待识别语音数据使用第二个DNN模型进行第二次识别;第二个DNN模型识别结果中输出概率最大值所对应的说话人即为该条待识别语音数据的说话人,识别结束。
下面结合一个具体实施例对本发明方法进一步详细说明如下。值得说明的是,下文所描述的实施例仅仅是本发明的一个实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
该实施例中需要识别800个说话人,具体步骤如下:
1)模型训练阶段,具体包括以下步骤:
1-1)获取所需识别的800个说话人的训练语音数据,且每条训练语音数据所对应的说话人为已知的,获取方式为电话录音;对获取的训练语音数据(即电话录音)进行预处理,提取所有训练语音数据对应的梅尔倒谱特征,并计算梅尔倒谱特征的一阶、二阶导数,共60维;
1-2)建立第一个DNN模型并进行训练,具体包括以下步骤:
1-2-1)设置第一个DNN模型的层数和节点数;
第一个DNN模型结构如图2所示:第一个DNN模型总共有7层,第1层为输入层,第2-6层为隐含层(共5层隐含层),第7层为输出层。其中交叉线表示节点的连接关系,第一个DNN模型相邻两层的节点之间是全连接的,而每个层内的节点之间是无连接的。第一个DNN模型的输入层对应训练语音数据的特征,本实施例为步骤1-1)得到的训练语音数据的梅尔倒谱特征及其一阶、二阶导数,共60维,则输入层节点数设置为N1=60个;输出层对应各个说话人的概率,输出层的节点数等于所需识别的说话人个数,为N7=800个,每个节点输出分别对应每个说话人的概率;隐含层主要用于自动提取不同层次的特征,本实施例隐含层层数设置为5层(一般设置为3-5层),隐含层所提的特征从第2层的低级抽象逐渐向第6层的高级抽象过渡。每层隐含层的节点数代表该层隐含层提取的特征的维度,本实施例中中间位置的隐含层(即第4层)的节点数设置为N4=400个(一般设置为300-500个),其余隐含层的节点数N2、N3、N5和N6设置为1024个(一般设置为1000-2000个。
1-2-2)对第一个DNN模型进行训练,得到第一个DNN模型参数;
根据800个待识别的说话人的训练语音数据的梅尔倒谱特征及其一阶、二阶导数,对第一个DNN模进行训练,模型参数包括相邻两层的连接权重:
Figure BDA0001211947620000071
其中,Wi,i+1为Ni行Ni+1列的矩阵,其中
Figure BDA0001211947620000074
表示第一个DNN模型第i层中第m个节点和第i+1层中第n个节点的连接权重。
每个节点的偏置:
Figure BDA0001211947620000072
其中,
Figure BDA0001211947620000073
表示第一个DNN模型第j层中第k个节点的偏置。
先进行非监督训练再进行监督训练。非监督训练时把第一个DNN模型中每相邻的两层,即图2中的第1层和第2层、第2层和第3层、……、第6层和第7层,当成一个受限玻尔兹曼机,共有6个受限玻尔兹曼机。用对比散度(CD)算法逐个进行训练,即先训练第1层和第2层组成的受限玻尔兹曼机,得到第一个DNN模型参数中的B1、B2、W12;接着训练第2层和第3层组成的受限玻尔兹曼机,得到第一个DNN模型参数中的B3、W23;依次训练所有的受限玻尔兹曼机,得到第一个DNN模型参数的初始值;进行监督训练时,使用非监督训练得到的第一个DNN模型参数的初始值,利用后向传播算法对第一个DNN模型参数进行精确调整,最后得到第一个DNN模型参数。
1-3)提取易混语音数据;
根据步骤1-2)训练得到的第一个DNN模型,对800个说话人的所有训练语音数据进行识别。设定阈值为0.85(一般设置为0.7-0.9)。如果一条训练语音数据的识别结果中该条训练语音数据对应的说话人的概率小于设定的阈值,则说明该条训练语音数据识别结果区分性不好,将此条训练语音数据作为易混语音数据,用于第二个DNN模型的训练;若识别结果大于等于设定的阈值,则说明该条训练语音数据易于区分,不作为易混语音数据;
1-4)建立第二个DNN模型并进行训练,具体包括以下步骤:
1-4-1)设置第二个DNN模型的层数和节点数;
第二个DNN模型结构如图3所示:第二个DNN模型总共有5层,第1层为输入层,第2-4层为隐含层(共3层隐含层),第5层为输出层。其中交叉线表示节点的连接关系,第二个DNN模型相邻两层的节点之间是全连接的,而每个层内的节点之间是无连接的。第二个DNN模型的输入层对应语音数据的特征,本实施例为步骤1-3)提取的易混语音数据的梅尔倒谱特征及其一阶、二阶导数,共60维,则第二个DNN模型输入层节点个数设置为N1=60;输出层对应各个说话人的概率,输出层的节点数为易混语音数据中所包含的说话人个数,此实施例中也为800个;,由于训练数据对应的说话人是已知的,而易混语音数据又是从训练数据中提取出来的,所以我们可以知道每帧易混语音数据对应的说话人,从而可以计算易混语音数据中总的说话人个数。隐含层的层数设置为3层(一般设置为3-5层),中间位置的隐含层(即第3层)的节点个数设置为N3=300(一般设置为300-500个),其余隐含层的节点数N2,N4设置为1024个(一般设置为1000-2000)。
1-4-2)对第二个DNN模型进行训练,得到模型参数;
根据步骤1-3)得到的易混语音数据的梅尔倒谱特征及其一阶、二阶导数,对第二个DNN模进行训练。第二个DNN模型的参数包括相邻两层的连接权重Wi,i+1(i=1,…,4)和每个节点的偏置Bj(j=1,…,5)。先进行非监督训练再进行监督训练。非监督训练时把第二个DNN模型中每相邻的两层,即图3中的第1层和第2层、第2层和第3层、……、第4层和第5层,当成一个受限玻尔兹曼机,共4个受限玻尔兹曼机,用对比散度(CD)算法逐层进行训练,即先训练第1层和第2层组成的受限玻尔兹曼机,得到第二个DNN模型参数中的B1、B2、W12;接着训练第2层和第3层组成的受限玻尔兹曼机,得到第二个DNN模型参数中的B3、W23;依次训练所有的受限玻尔兹曼机,得到第二个DNN模型参数的初始值。进行监督训练时,使用非监督训练得到的第二个DNN模型参数的初始值,利用后向传播算法对第二个DNN模型参数进行精确调整,最后得到第二个DNN模型参数。
上述步骤为模型训练阶段,得到两个DNN模型后即可进行说话人识别;
2)说话人识别阶段,具体包括以下步骤:
2-1)获取所需识别的800个说话人中的某一个人的待识别语音数据,待识别语音数据也通过电话录音得到,但该语音数据对应的说话人未知,需要通过本发明提出的方法对说话人进行识别。待识别语音数据与训练语音数据是不同的语音。对待识别的语音数据进行预处理,提取待识别语音数据的梅尔倒谱特征及其一阶、二阶导数,共60维。
2-2)将步骤2-1)得到待识别语音数据的60维的特征输入到第一个DNN模型中进行识别,输出层输出待识别语音数据的识别结果,即该条语音数据分别对应这800个人的概率,输出层每个节点的输出分别对应每个说话人的概率,共800个。
2-3)设置判定阈值,判断识别结果中的800个概率是否有大于阈值0.85的结果:如果有,则将这个概率所对应的说话人判断为该条待识别语音数据的说话人,识别结束;否则转入步骤2-4);
2-4)如果步骤2-3)的识别结果中没有概率大于判定阈值0.85的,则对该条待识别的语音数据使用第二个DNN模型进行第二次识别;根据第二个DNN模型的识别结果,输出概率最大值所对应的说话人即判断为该条待测语音数据的说话人,识别结束。
本发明所述方法,本领域普通技术人员可以理解为,上述说话人识别的方法可以通过程序来完成的,所述的程序可以存储于一种计算机可读存储介质中。
以上所述的仅为本发明的一个具体实施例而已,显然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (1)

1.一种基于二次建模的说话人识别的方法,其特征在于,分为模型训练阶段和说话人识别阶段两个阶段;在模型训练阶段,获取所有待识别说话人的训练语音数据并预处理;根据训练语音数据训练得到第一个DNN模型;利用第一个DNN模型,对训练语音数据进行识别,提取易混语音数据;根据易混语音数据训练得到第二个DNN模型;在说话人识别阶段,获取待识别语音数据并预处理;利用第一个DNN模型对待识别语音数据进行识别,若识别概率大于判定阈值,则识别结果中输出概率最大值所对应的说话人为该条待识别语音数据的说话人;否则通过第二个DNN模型对待识别语音数据进行第二次识别,识别结果中输出概率最大值所对应的说话人为该条待识别语音数据的说话人;该方法包括以下步骤:
1)模型训练阶段;具体包括以下步骤:
1-1)获取所有待识别说话人的训练语音数据,且每条训练语音数据所对应的说话人为已知;对获取的训练语音数据进行预处理,提取所有训练语音数据对应的梅尔倒谱特征,并计算梅尔倒谱特征的一阶、二阶导数,共60维;
1-2)建立第一个DNN模型并进行训练,具体包括以下步骤:
1-2-1)设置第一个DNN模型的层数和节点数;
第一个DNN模型分为输入层,隐含层和输出层三个层次;输入层对应训练语音数据的特征,输入层节点数为步骤1-1)得到的训练语音数据的梅尔倒谱特征及其一阶、二阶导数共60维,则输入层节点数设置为60个;输出层对应各个说话人的概率,输出层节点数为所有待识别说话人的个数,每个节点输出分别对应每个说话人的概率;隐含层用于自动提取不同层次的特征,每层隐含层的节点数代表该层隐含层提取的特征的维度;
1-2-2)对第一个DNN模型进行训练,得到第一个DNN模型参数;
根据所有待识别的说话人的训练语音数据的梅尔倒谱特征及其一阶、二阶导数,对第一个DNN模进行训练,模型参数包括相邻两层的连接权重和每个节点的偏置;先进行非监督训练再进行监督训练:非监督训练时,把第一个DNN模型中每相邻的两层,当成一个受限玻尔兹曼机,用对比散度算法依次训练所有的受限玻尔兹曼机,得到第一个DNN模型参数的初始值;进行监督训练时,使用非监督训练得到的第一个DNN模型参数的初始值,利用后向传播算法对第一个DNN模型参数进行精确调整,最后得到第一个DNN模型参数;
1-3)提取易混语音数据;
根据步骤1-2)训练得到的第一个DNN模型,对所有待识别的说话人的训练语音数据进行识别并设定阈值;如果一条训练语音数据的识别结果中该条训练语音数据对应的说话人的概率小于设定的阈值,则说明该条语音数据的识别结果区分性不好,将此条训练语音数据提取作为易混语音数据,用于第二个DNN模型的训练;若识别结果大于等于设定的阈值,则说明该条训练语音数据易于区分,不作为易混语音数据;
1-4)建立第二个DNN模型并进行训练,具体包括以下步骤:
1-4-1)设置第二个DNN模型的层数和节点数;
第二个DNN模型分为输入层,隐含层和输出层三个层次;输入层对应训练语音数据的特征,输入层节点数为步骤1-3)提取的易混语音数据的梅尔倒谱特征及其一阶、二阶导数共60维,则输入层节点数设置为60个;输出层对应各个说话人的概率,输出层节点数为易混语音数据中所包含的说话人个数,每个节点输出分别对应每个说话人的概率;隐含层用于自动提取不同层次的特征,每层隐含层的节点数代表该层隐含层提取的特征的维度;
1-4-2)对第二个DNN模型进行训练,得到第二个DNN模型参数;
根据步骤1-3)得到的易混语音数据的梅尔倒谱特征及其一阶、二阶导数,对第二个DNN模型进行训练,模型参数包括相邻两层的连接权重和每个节点的偏置;先进行非监督训练再进行监督训练:非监督训练时把第二个DNN模型中每相邻的两层当成一个受限玻尔兹曼机,用对比散度算法依次训练所有的受限玻尔兹曼机,得到第二个DNN模型参数的初始值;进行监督训练时,使用非监督训练得到的第二个DNN模型参数的初始值,利用后向传播算法对第二个DNN模型参数进行精确调整,最后得到第二个DNN模型参数;
2)说话人识别阶段;具体包括以下步骤:
2-1)获取所需识别的说话人中的某一个人的待识别语音数据,对待识别的语音数据进行预处理,提取待识别语音数据的梅尔倒谱特征及其一阶、二阶导数,共60维;
2-2)将步骤2-1)得到待识别语音数据的60维的特征输入到步骤1-2)得到的第一个DNN模型中进行识别,输出层输出待识别语音数据的识别结果,即该条语音数据分别对应训练语音数据中每个说话人的概率,输出层每个节点的输出分别对应一个说话人的概率;
2-3)设置判定阈值,判断步骤2-2)的识别结果中是否存在概率大于判定阈值的结果:若有,则第一个DNN模型识别结果中输出概率最大值所对应的说话人即为该条待识别语音数据的说话人,识别结束;若没有,则转入步骤2-4);
2-4)若步骤2-3)的识别结果中没有概率大于判定阈值的结果,则对该条待识别语音数据使用第二个DNN模型进行第二次识别;第二个DNN模型识别结果中输出概率最大值所对应的说话人即为该条待识别语音数据的说话人,识别结束。
CN201710031899.7A 2017-01-17 2017-01-17 一种基于二次建模的说话人识别方法 Active CN106898355B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710031899.7A CN106898355B (zh) 2017-01-17 2017-01-17 一种基于二次建模的说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710031899.7A CN106898355B (zh) 2017-01-17 2017-01-17 一种基于二次建模的说话人识别方法

Publications (2)

Publication Number Publication Date
CN106898355A CN106898355A (zh) 2017-06-27
CN106898355B true CN106898355B (zh) 2020-04-14

Family

ID=59198262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710031899.7A Active CN106898355B (zh) 2017-01-17 2017-01-17 一种基于二次建模的说话人识别方法

Country Status (1)

Country Link
CN (1) CN106898355B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107274890B (zh) * 2017-07-04 2020-06-02 清华大学 声纹谱提取方法及装置
CN107274883B (zh) * 2017-07-04 2020-06-02 清华大学 语音信号重构方法及装置
CN107610709B (zh) * 2017-08-01 2021-03-19 百度在线网络技术(北京)有限公司 一种训练声纹识别模型的方法及***
CN108305615B (zh) * 2017-10-23 2020-06-16 腾讯科技(深圳)有限公司 一种对象识别方法及其设备、存储介质、终端
CN109887511A (zh) * 2019-04-24 2019-06-14 武汉水象电子科技有限公司 一种基于级联dnn的语音唤醒优化方法
CN111883175B (zh) * 2020-06-09 2022-06-07 河北悦舒诚信息科技有限公司 一种基于声纹库的油站服务质量提升方法
CN111724766B (zh) * 2020-06-29 2024-01-05 合肥讯飞数码科技有限公司 语种识别方法、相关设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1264887A (zh) * 2000-03-31 2000-08-30 清华大学 基于语音识别专用芯片的非特定人语音识别、语音提示方法
CN1588536A (zh) * 2004-09-29 2005-03-02 上海交通大学 语音识别中状态结构调整方法
CN101231848A (zh) * 2007-11-06 2008-07-30 安徽科大讯飞信息科技股份有限公司 一种基于支持向量机进行发音错误检测的方法
CN105761720A (zh) * 2016-04-19 2016-07-13 北京地平线机器人技术研发有限公司 一种基于语音属性分类的交互***及其方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9058806B2 (en) * 2012-09-10 2015-06-16 Cisco Technology, Inc. Speaker segmentation and recognition based on list of speakers

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1264887A (zh) * 2000-03-31 2000-08-30 清华大学 基于语音识别专用芯片的非特定人语音识别、语音提示方法
CN1588536A (zh) * 2004-09-29 2005-03-02 上海交通大学 语音识别中状态结构调整方法
CN101231848A (zh) * 2007-11-06 2008-07-30 安徽科大讯飞信息科技股份有限公司 一种基于支持向量机进行发音错误检测的方法
CN105761720A (zh) * 2016-04-19 2016-07-13 北京地平线机器人技术研发有限公司 一种基于语音属性分类的交互***及其方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于GMM-DNN的说话人确认方法;李敬阳等;《计算机应用与软件》;20161231;第33卷(第12期);第131-135页 *

Also Published As

Publication number Publication date
CN106898355A (zh) 2017-06-27

Similar Documents

Publication Publication Date Title
CN106898355B (zh) 一种基于二次建模的说话人识别方法
CN104732978B (zh) 基于联合深度学习的文本相关的说话人识别方法
CN107886957A (zh) 一种结合声纹识别的语音唤醒方法及装置
CN107464568B (zh) 基于三维卷积神经网络文本无关的说话人识别方法及***
CN102800316B (zh) 基于神经网络的声纹识别***的最优码本设计方法
CN111524527B (zh) 话者分离方法、装置、电子设备和存储介质
CN107731233A (zh) 一种基于rnn的声纹识别方法
CN111916111B (zh) 带情感的智能语音外呼方法及装置、服务器、存储介质
CN107886943A (zh) 一种声纹识别方法及装置
CN106448684A (zh) 基于深度置信网络特征矢量的信道鲁棒声纹识别***
CN108281137A (zh) 一种全音素框架下的通用语音唤醒识别方法及***
CN105938716A (zh) 一种基于多精度拟合的样本复制语音自动检测方法
CN107610707A (zh) 一种声纹识别方法及装置
CN108172218A (zh) 一种语音建模方法及装置
CN109785852A (zh) 一种增强说话人语音的方法及***
CN106898354B (zh) 基于dnn模型和支持向量机模型的说话人个数估计方法
CN110310647A (zh) 一种语音身份特征提取器、分类器训练方法及相关设备
CN108694951A (zh) 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法
CN109545228A (zh) 一种端到端说话人分割方法及***
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
CN105096955A (zh) 一种基于模型生长聚类的说话人快速识别方法及***
Shahnawazuddin et al. In-domain and out-of-domain data augmentation to improve children’s speaker verification system in limited data scenario
CN107993664B (zh) 一种基于竞争神经网络的鲁棒说话人识别方法
Maheswari et al. A hybrid model of neural network approach for speaker independent word recognition
CN103871417A (zh) 一种移动手机特定连续语音过滤方法及过滤装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20181128

Address after: 100085 Beijing Haidian District Shangdi Information Industry Base Pioneer Road 1 B Block 2 Floor 2030

Applicant after: Beijing Huacong Zhijia Technology Co., Ltd.

Address before: 100084 Tsinghua Yuan, Haidian District, Beijing, No. 1

Applicant before: Tsinghua University

GR01 Patent grant
GR01 Patent grant