CN106898355A

CN106898355A - 一种基于二次建模的说话人识别方法

Info

Publication number: CN106898355A
Application number: CN201710031899.7A
Authority: CN
Inventors: 何亮; 陈仙红; 徐灿; 刘艺; 田垚; 刘加
Original assignee: Tsinghua University
Current assignee: Beijing Huacong Zhijia Technology Co Ltd
Priority date: 2017-01-17
Filing date: 2017-01-17
Publication date: 2017-06-27
Anticipated expiration: 2037-01-17
Also published as: CN106898355B

Abstract

本发明提出一种基于二次建模的说话人识别方法，属于声纹识别、模式识别与机器学习领域。该方法在模型训练阶段，获取待识别说话人的训练语音数据并预处理；根据训练语音数据训练得到第一个DNN模型；利用第一个DNN模型，对训练语音数据进行识别，提取易混语音数据；根据易混语音数据训练得到第二个DNN模型；在说话人识别阶段，获取待识别语音数据并预处理；利用第一个DNN模型对待识别语音数据进行识别，若识别概率大于设定阈值，则得到说话人识别结果；否则通过第二个DNN模型对待识别语音数据进行第二次识别，得到说话人识别结果。本发明通过建立两个DNN模型，同时考虑说话人宏观特征和微观特征，有效提高说话人识别的准确率。

Description

一种基于二次建模的说话人识别方法

技术领域

本发明属于声纹识别、模式识别与机器学习技术领域，特别地涉及一种基于二次建模的说话人识别方法。

背景技术

说话人识别是指根据包含在语音中的和说话人相关的信息来识别说话人身份，随着信息技术和通信技术的迅速发展，说话人识别技术越来越受到重视并在诸多领域得到广泛的应用。如身份鉴别，缉拿电话信道罪犯，法庭中根据电话录音做身份确认，电话语音跟踪，提供防盗门开启功能。互联网应用和通信领域，说话人识别技术可以应用于声音拨号、电话银行、电话购物、数据库访问、信息服务、语音e-mail、安全控制、计算机远程登录等领域。

说话人识别首先要对语音数据进行预处理，提取特征。最常用的特征是一种基于人耳听感知理论的梅尔倒谱特征，目前广泛应用于说话人识别、语种识别以及连续语音识别等。梅尔倒谱特征提取首先对语音数据进行预加重和分帧加窗，然后对分帧加窗后的数据进行快速傅里叶变换，得到对应的频谱，并通过梅尔频标三角窗滤波器进行滤波，最后进行离散余弦变换得到梅尔倒谱特征。

近年来，基于深度神经网络(DNN)的说话人识别模型受到越来越多的关注，相比于传统的高斯混合模型(GMM)，DNN模型的描述能力更强，能够更好地模拟非常复杂的数据分布，基于DNN的***取得显著的性能提升。一个DNN模型包含输入层、隐含层和输出层三个层次：输入层对应语音数据的特征，输入层的节点数根据语音数据对应特征的维数而定；输出层对应各个说话人的概率，输出层的节点数根据总共需要识别的说话人的个数而定；隐含层层数和节点数根据应用需要及工程经验定义。DNN模型训练时，先进行非监督训练再进行监督训练。非监督训练时把每相邻的两层网络当成一个受限玻尔兹曼机，用对比散度(CD)算法逐层进行训练。进行监督训练时，使用非监督训练得到的DNN模型参数作为初始值，再用后向传播算法对DNN模型参数进行精确调整。目前为止，基于DNN模型的说话人识别的方法都只使用一个DNN模型，但一个DNN模型很难同时对说话人之间的宏观特征和微观特征进行建模。这导致使用一个DNN模型对说话人进行识别时，有些语音可以很容易区分，而有些语音却容易混淆。

发明内容

本发明的目的是为克服已有技术的不足之处，提出了一种基于二次建模的说话人识别方法。本发明通过建立两个DNN模型，同时考虑了说话人宏观特征和微观特征，可有效地提高说话人识别的准确率。

一种基于二次建模的说话人识别的方法，分为为模型训练阶段和说话人识别阶段两个阶段；在模型训练阶段，获取所有待识别说话人的训练语音数据并预处理；根据训练语音数据训练得到第一个DNN模型；利用第一个DNN模型，对训练语音数据进行识别，提取易混语音数据；根据易混语音数据训练得到第二个DNN模型；在说话人识别阶段，获取待识别语音数据并预处理；利用第一个DNN模型对待识别语音数据进行识别，若识别概率大于判定阈值，则识别结果中输出概率最大值所对应的说话人为该条待识别语音数据的说话人；否则通过第二个DNN模型对待识别语音数据进行第二次识别，识别结果中输出概率最大值所对应的说话人为该条待识别语音数据的说话人。该方法包括以下步骤：

1)模型训练阶段；具体包括以下步骤：

1-1)获取所有待识别说话人的训练语音数据，且每条训练语音数据所对应的说话人为已知；对获取的训练语音数据进行预处理，提取所有训练语音数据对应的梅尔倒谱特征，并计算梅尔倒谱特征的一阶、二阶导数，共60维；

1-2)建立第一个DNN模型并进行训练，具体包括以下步骤：

1-2-1)设置第一个DNN模型的层数和节点数；

第一个DNN模型分为输入层，隐含层和输出层三个层次；输入层对应训练语音数据的特征，输入层节点数为步骤1-1)得到的训练语音数据的梅尔倒谱特征及其一阶、二阶导数共60维，则输入层节点数设置为60个；输出层对应各个说话人的概率，输出层节点数为所有待识别说话人的个数，每个节点输出分别对应每个说话人的概率；隐含层用于自动提取不同层次的特征，每层隐含层的节点数代表该层隐含层提取的特征的维度；

1-2-2)对第一个DNN模型进行训练，得到第一个DNN模型参数；

根据所有待识别的说话人的训练语音数据的梅尔倒谱特征及其一阶、二阶导数，对第一个DNN模进行训练，模型参数包括相邻两层的连接权重和每个节点的偏置；先进行非监督训练再进行监督训练：非监督训练时，把第一个DNN模型中每相邻的两层，当成一个受限玻尔兹曼机，用对比散度算法依次训练所有的受限玻尔兹曼机，得到第一个DNN模型参数的初始值；进行监督训练时，使用非监督训练得到的第一个DNN模型参数的初始值，利用后向传播算法对第一个DNN模型参数进行精确调整，最后得到第一个DNN模型参数；

1-3)提取易混语音数据；

根据步骤1-2)训练得到的第一个DNN模型，对所有待识别的说话人的训练语音数据进行识别并设定阈值；如果一条训练语音数据的识别结果中该条训练语音数据对应的说话人的概率小于设定的阈值，则说明该条语音数据的识别结果区分性不好，将此条训练语音数据提取作为易混语音数据，用于第二个DNN模型的训练；若识别结果大于等于设定的阈值，则说明该条训练语音数据易于区分，不作为易混语音数据；

1-4)建立第二个DNN模型并进行训练，具体包括以下步骤：

1-4-1)设置第二个DNN模型的层数和节点数；

第二个DNN模型分为输入层，隐含层和输出层三个层次；输入层对应训练语音数据的特征，输入层节点数为步骤1-3)提取的易混语音数据的梅尔倒谱特征及其一阶、二阶导数共60维，则输入层节点数设置为60个；输出层对应各个说话人的概率，输出层节点数为易混语音数据中所包含的说话人个数，每个节点输出分别对应每个说话人的概率；隐含层用于自动提取不同层次的特征，每层隐含层的节点数代表该层隐含层提取的特征的维度；

1-4-2)对第二个DNN模型进行训练，得到第二个DNN模型参数；

根据步骤1-3)得到的易混语音数据的梅尔倒谱特征及其一阶、二阶导数，对第二个DNN模型进行训练，模型参数包括相邻两层的连接权重和每个节点的偏置；先进行非监督训练再进行监督训练：非监督训练时把第二个DNN模型中每相邻的两层当成一个受限玻尔兹曼机，用对比散度算法依次训练所有的受限玻尔兹曼机，得到第二个DNN模型参数的初始值；进行监督训练时，使用非监督训练得到的第二个DNN模型参数的初始值，利用后向传播算法对第二个DNN模型参数进行精确调整，最后得到第二个DNN模型参数；

2)说话人识别阶段；具体包括以下步骤：

2-1)获取所需识别的说话人中的某一个人的待识别语音数据，对待识别的语音数据进行预处理，提取待识别语音数据的梅尔倒谱特征及其一阶、二阶导数，共60维；

2-2)将步骤2-1)得到待识别语音数据的60维的特征输入到步骤1-2)得到的第一个DNN模型中进行识别，输出层输出待识别语音数据的识别结果，即该条语音数据分别对应训练语音数据中每个说话人的概率，输出层每个节点的输出分别对应一个说话人的概率；

2-3)设置判定阈值，判断步骤2-2)的识别结果中是否存在概率大于判定阈值的结果：若有，则第一个DNN模型识别结果中输出概率最大值所对应的说话人即为该条待识别语音数据的说话人，识别结束；若没有，则转入步骤2-4)；

2-4)若步骤2-3)的识别结果中没有概率大于判定阈值的结果，则对该条待识别语音数据使用第二个DNN模型进行第二次识别；第二个DNN模型识别结果中输出概率最大值所对应的说话人即为该条待识别语音数据的说话人，识别结束。

本发明的特点及有益效果在于：

与现有技术相比，本发明的第一个DNN模型对说话人之间的宏观特征进行建模，第二个DNN模型对说话人之间的微观特征进行建模。本发明方法增加了对不同说话人易混语音数据的鉴别性，具有很好的***稳定性，同时考虑了宏观特征和微观特征，可以提高说话人识别的准确率。

附图说明

图1是本发明方法的流程图。

图2是本发明实施例中的第一个DNN模型结构图。

图3是本发明实施例中的第二个DNN模型结构图。

具体实施方式

本发明提出的一种基于二次建模的说话人识别方法，下面结合附图和具体实施例进一步详细说明如下。

本发明提出的一种基于二次建模的说话人识别方法，分为为模型训练阶段和说话人识别阶段两个阶段；在模型训练阶段，获取所有待识别说话人的训练语音数据并预处理；根据训练语音数据训练得到第一个DNN模型；利用第一个DNN模型，对训练语音数据进行识别，提取易混语音数据；根据易混语音数据训练得到第二个DNN模型；在说话人识别阶段，获取待识别语音数据并预处理；利用第一个DNN模型对待识别语音数据进行识别，若识别概率大于判定阈值，则识别结果中输出概率最大值所对应的说话人为该条待识别语音数据的说话人；否则通过第二个DNN模型对待识别语音数据进行第二次识别，识别结果中输出概率最大值所对应的说话人为该条待识别语音数据的说话人。该方法流程图如图1所示，包括以下步骤：

1)模型训练阶段；具体包括以下步骤：

1-1)获取所有待识别说话人的训练语音数据，且每条训练语音数据所对应的说话人为已知，获取方式可以为现场录音或电话录音；对获取的训练语音数据进行预处理，提取所有训练语音数据对应的梅尔倒谱特征，并计算梅尔倒谱特征的一阶、二阶导数，共60维；

1-2)建立第一个DNN模型并进行训练，具体包括以下步骤：

1-2-1)设置第一个DNN模型的层数和节点数；

第一个DNN模型分为输入层，隐含层和输出层三个层次；输入层对应训练语音数据的特征，输入层节点数为步骤1-1)得到的训练语音数据的梅尔倒谱特征及其一阶、二阶导数共60维，则输入层节点数设置为60个；输出层对应各个说话人的概率，输出层节点数为所有待识别说话人的个数，每个节点输出分别对应每个说话人的概率；隐含层主要用于自动提取不同层次的特征，隐含层的层数和节点数根据需要及经验设定，一般设置隐含层层数为3-5层；每层隐含层的节点数代表该层隐含层提取的特征的维度，中间位置的隐含层节点数一般设置为300-500个，其他隐含层节点数一般设置为1000-2000个；

1-2-2)对第一个DNN模型进行训练，得到第一个DNN模型参数；

根据所有待识别的说话人的训练语音数据的梅尔倒谱特征及其一阶、二阶导数，对第一个DNN模进行训练，模型参数包括相邻两层的连接权重和每个节点的偏置；先进行非监督训练再进行监督训练：非监督训练时把第一个DNN模型中每相邻的两层，当成一个受限玻尔兹曼机，用对比散度(CD)算法依次训练所有的受限玻尔兹曼机，得到第一个DNN模型参数的初始值；进行监督训练时，使用非监督训练得到的第一个DNN模型参数的初始值，利用后向传播算法对第一个DNN模型参数进行精确调整，最后得到第一个DNN模型参数；

1-3)提取易混语音数据；

根据步骤1-2)训练得到的第一个DNN模型，对所有待识别的说话人的训练语音数据进行识别并设定阈值，根据经验，阈值范围一般设为0.7-0.9；如果一条训练语音数据的识别结果中该条训练语音数据对应的说话人的概率小于设定的阈值，则说明该条语音数据的识别结果区分性不好，将此条训练语音数据提取作为易混语音数据，用于第二个DNN模型的训练；若识别结果大于等于设定的阈值，则说明该条训练语音数据易于区分，不作为易混语音数据；

1-4)建立第二个DNN模型并进行训练，具体包括以下步骤：

1-4-1)设置第二个DNN模型的层数和节点数；

第二个DNN模型分为输入层，隐含层和输出层三个层次；输入层对应训练语音数据的特征，输入层节点数为步骤1-3)提取的易混语音数据的梅尔倒谱特征及其一阶、二阶导数，共60维，则输入层节点数设置为60个；输出层对应各个说话人的概率，输出层节点数为易混语音数据中所包含的说话人个数，每个节点输出分别对应每个说话人的概率；隐含层一般设置层数为3-5层，中间位置的隐含层节点数一般设置为300-500个，其他隐含层节点数一般设置为1000-2000个；

1-4-2)对第二个DNN模型进行训练，得到第二个DNN模型参数；

根据步骤1-3)得到的易混语音数据的梅尔倒谱特征及其一阶、二阶导数，对第二个DNN模进行训练，模型参数包括相邻两层的连接权重和每个节点的偏置；先进行非监督训练再进行监督训练：非监督训练时把第二个DNN模型中每相邻的两层当成一个受限玻尔兹曼机，用对比散度(CD)算法依次训练所有的受限玻尔兹曼机，得到第二个DNN模型参数的初始值；进行监督训练时，使用非监督训练得到的第二个DNN模型参数的初始值，利用后向传播算法对第二个DNN模型参数进行精确调整，最后得到第二个DNN模型参数；

2)说话人识别阶段，具体包括以下步骤：

下面结合一个具体实施例对本发明方法进一步详细说明如下。值得说明的是，下文所描述的实施例仅仅是本发明的一个实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

该实施例中需要识别800个说话人，具体步骤如下：

1)模型训练阶段，具体包括以下步骤：

1-1)获取所需识别的800个说话人的训练语音数据，且每条训练语音数据所对应的说话人为已知的，获取方式为电话录音；对获取的训练语音数据(即电话录音)进行预处理，提取所有训练语音数据对应的梅尔倒谱特征，并计算梅尔倒谱特征的一阶、二阶导数，共60维；

1-2)建立第一个DNN模型并进行训练，具体包括以下步骤：

1-2-1)设置第一个DNN模型的层数和节点数；

第一个DNN模型结构如图2所示：第一个DNN模型总共有7层，第1层为输入层，第2-6层为隐含层(共5层隐含层)，第7层为输出层。其中交叉线表示节点的连接关系，第一个DNN模型相邻两层的节点之间是全连接的，而每个层内的节点之间是无连接的。第一个DNN模型的输入层对应训练语音数据的特征，本实施例为步骤1-1)得到的训练语音数据的梅尔倒谱特征及其一阶、二阶导数，共60维，则输入层节点数设置为N₁＝60个；输出层对应各个说话人的概率，输出层的节点数等于所需识别的说话人个数，为N₇＝800个，每个节点输出分别对应每个说话人的概率；隐含层主要用于自动提取不同层次的特征，本实施例隐含层层数设置为5层(一般设置为3-5层)，隐含层所提的特征从第2层的低级抽象逐渐向第6层的高级抽象过渡。每层隐含层的节点数代表该层隐含层提取的特征的维度，本实施例中中间位置的隐含层(即第4层)的节点数设置为N₄＝400个(一般设置为300-500个)，其余隐含层的节点数N₂、N₃、N₅和N₆设置为1024个(一般设置为1000-2000个。

1-2-2)对第一个DNN模型进行训练，得到第一个DNN模型参数；

根据800个待识别的说话人的训练语音数据的梅尔倒谱特征及其一阶、二阶导数，对第一个DNN模进行训练，模型参数包括相邻两层的连接权重：

其中，W_i,i+1为N_i行N_i+1列的矩阵，其中表示第一个DNN模型第i层中第m个节点和第i+1层中第n个节点的连接权重。

每个节点的偏置：

其中，表示第一个DNN模型第j层中第k个节点的偏置。

先进行非监督训练再进行监督训练。非监督训练时把第一个DNN模型中每相邻的两层，即图2中的第1层和第2层、第2层和第3层、……、第6层和第7层，当成一个受限玻尔兹曼机，共有6个受限玻尔兹曼机。用对比散度(CD)算法逐个进行训练，即先训练第1层和第2层组成的受限玻尔兹曼机，得到第一个DNN模型参数中的B₁、B₂、W₁₂；接着训练第2层和第3层组成的受限玻尔兹曼机，得到第一个DNN模型参数中的B₃、W₂₃；依次训练所有的受限玻尔兹曼机，得到第一个DNN模型参数的初始值；进行监督训练时，使用非监督训练得到的第一个DNN模型参数的初始值，利用后向传播算法对第一个DNN模型参数进行精确调整，最后得到第一个DNN模型参数。

1-3)提取易混语音数据；

根据步骤1-2)训练得到的第一个DNN模型，对800个说话人的所有训练语音数据进行识别。设定阈值为0.85(一般设置为0.7-0.9)。如果一条训练语音数据的识别结果中该条训练语音数据对应的说话人的概率小于设定的阈值，则说明该条训练语音数据识别结果区分性不好，将此条训练语音数据作为易混语音数据，用于第二个DNN模型的训练；若识别结果大于等于设定的阈值，则说明该条训练语音数据易于区分，不作为易混语音数据；

1-4)建立第二个DNN模型并进行训练，具体包括以下步骤：

1-4-1)设置第二个DNN模型的层数和节点数；

第二个DNN模型结构如图3所示：第二个DNN模型总共有5层，第1层为输入层，第2-4层为隐含层(共3层隐含层)，第5层为输出层。其中交叉线表示节点的连接关系，第二个DNN模型相邻两层的节点之间是全连接的，而每个层内的节点之间是无连接的。第二个DNN模型的输入层对应语音数据的特征，本实施例为步骤1-3)提取的易混语音数据的梅尔倒谱特征及其一阶、二阶导数，共60维，则第二个DNN模型输入层节点个数设置为N₁＝60；输出层对应各个说话人的概率，输出层的节点数为易混语音数据中所包含的说话人个数，此实施例中也为800个；，由于训练数据对应的说话人是已知的，而易混语音数据又是从训练数据中提取出来的，所以我们可以知道每帧易混语音数据对应的说话人，从而可以计算易混语音数据中总的说话人个数。隐含层的层数设置为3层(一般设置为3-5层)，中间位置的隐含层(即第3层)的节点个数设置为N₃＝300(一般设置为300-500个)，其余隐含层的节点数N₂,N₄设置为1024个(一般设置为1000-2000)。

1-4-2)对第二个DNN模型进行训练，得到模型参数；

根据步骤1-3)得到的易混语音数据的梅尔倒谱特征及其一阶、二阶导数，对第二个DNN模进行训练。第二个DNN模型的参数包括相邻两层的连接权重W_i,i+1(i＝1,…,4)和每个节点的偏置B_j(j＝1,…,5)。先进行非监督训练再进行监督训练。非监督训练时把第二个DNN模型中每相邻的两层，即图3中的第1层和第2层、第2层和第3层、……、第4层和第5层，当成一个受限玻尔兹曼机，共4个受限玻尔兹曼机，用对比散度(CD)算法逐层进行训练，即先训练第1层和第2层组成的受限玻尔兹曼机，得到第二个DNN模型参数中的B₁、B₂、W₁₂；接着训练第2层和第3层组成的受限玻尔兹曼机，得到第二个DNN模型参数中的B₃、W₂₃；依次训练所有的受限玻尔兹曼机，得到第二个DNN模型参数的初始值。进行监督训练时，使用非监督训练得到的第二个DNN模型参数的初始值，利用后向传播算法对第二个DNN模型参数进行精确调整，最后得到第二个DNN模型参数。

上述步骤为模型训练阶段，得到两个DNN模型后即可进行说话人识别；

2)说话人识别阶段，具体包括以下步骤：

2-1)获取所需识别的800个说话人中的某一个人的待识别语音数据，待识别语音数据也通过电话录音得到，但该语音数据对应的说话人未知，需要通过本发明提出的方法对说话人进行识别。待识别语音数据与训练语音数据是不同的语音。对待识别的语音数据进行预处理，提取待识别语音数据的梅尔倒谱特征及其一阶、二阶导数，共60维。

2-2)将步骤2-1)得到待识别语音数据的60维的特征输入到第一个DNN模型中进行识别，输出层输出待识别语音数据的识别结果，即该条语音数据分别对应这800个人的概率，输出层每个节点的输出分别对应每个说话人的概率，共800个。

2-3)设置判定阈值，判断识别结果中的800个概率是否有大于阈值0.85的结果：如果有，则将这个概率所对应的说话人判断为该条待识别语音数据的说话人，识别结束；否则转入步骤2-4)；

2-4)如果步骤2-3)的识别结果中没有概率大于判定阈值0.85的，则对该条待识别的语音数据使用第二个DNN模型进行第二次识别；根据第二个DNN模型的识别结果，输出概率最大值所对应的说话人即判断为该条待测语音数据的说话人，识别结束。

本发明所述方法，本领域普通技术人员可以理解为，上述说话人识别的方法可以通过程序来完成的，所述的程序可以存储于一种计算机可读存储介质中。

以上所述的仅为本发明的一个具体实施例而已，显然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于二次建模的说话人识别的方法，其特征在于，分为模型训练阶段和说话人识别阶段两个阶段；在模型训练阶段，获取所有待识别说话人的训练语音数据并预处理；根据训练语音数据训练得到第一个DNN模型；利用第一个DNN模型，对训练语音数据进行识别，提取易混语音数据；根据易混语音数据训练得到第二个DNN模型；在说话人识别阶段，获取待识别语音数据并预处理；利用第一个DNN模型对待识别语音数据进行识别，若识别概率大于判定阈值，则识别结果中输出概率最大值所对应的说话人为该条待识别语音数据的说话人；否则通过第二个DNN模型对待识别语音数据进行第二次识别，识别结果中输出概率最大值所对应的说话人为该条待识别语音数据的说话人。

2.如权利要求1所述的方法，其特征在于，该方法包括以下步骤：

1)模型训练阶段；具体包括以下步骤：

1-2)建立第一个DNN模型并进行训练，具体包括以下步骤：

1-2-1)设置第一个DNN模型的层数和节点数；

1-2-2)对第一个DNN模型进行训练，得到第一个DNN模型参数；

1-3)提取易混语音数据；

1-4)建立第二个DNN模型并进行训练，具体包括以下步骤：

1-4-1)设置第二个DNN模型的层数和节点数；

1-4-2)对第二个DNN模型进行训练，得到第二个DNN模型参数；

2)说话人识别阶段；具体包括以下步骤：