CN106297807A

CN106297807A - 训练声纹识别***的方法和装置

Info

Publication number: CN106297807A
Application number: CN201610639606.9A
Authority: CN
Inventors: 李为; 钱柄桦; 金星明; 李科; 吴富章; 吴永坚; 黄飞跃
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2016-08-05
Filing date: 2016-08-05
Publication date: 2017-01-04
Anticipated expiration: 2036-08-05
Also published as: CN106297807B; EP3477639A1; US20190130920A1; WO2018024259A1; US10854207B2; EP3477639B1; EP3477639A4

Abstract

本发明公开了一种训练声纹识别***的方法和装置，属于声纹识别技术领域。该方法包括：确定出语音训练集合中每段语音的身份向量，将确定出的身份向量中同一用户的语音的身份向量划分为一个类别；建立用于计算与每一类别对应的第一数值的第一函数，第一数值为对应类别内利用规整矩阵规整后的第一身份向量与该对应类别内利用规整矩阵规整后的其他身份向量之间相似度的总和；确定出使各个类别的第一数值的总和最大化的规整矩阵；利用确定出的规整矩阵规整声纹识别***中获取的语音的身份向量。解决了相关技术中利用经过利用线性区分分析处理后的身份向量进行声纹识别准确率的提高程度低的问题，提高了声纹识别的准确率。

Description

训练声纹识别***的方法和装置

技术领域

本发明涉及声纹识别技术领域，特别涉及一种训练声纹识别***的方法和装置。

背景技术

声纹识别是生物识别技术的一种，通过对语音进行处理可生成用于指示该语音输入者身份信息的身份向量，可通过计算两段语音的身份向量之间的相似度来确定这两段语音的输入者是否为同一用户。

语音易受到信道易变性和环境易变性的干扰导致其身份向量畸变。相关技术中，假设同一用户的若干段语音在空间中的分布为多维高斯分布，利用线性区分分析(英文：linear discriminant analysis，LDA)对身份向量进行处理，补偿身份向量的畸变进而提高声纹识别的准确率。

然而，在实际实现时，同一用户的若干段语音在空间中的分布难以呈现理想的多维高斯分布，因此利用经过LDA处理后的身份向量进行声纹识别准确率的提高程度低。

发明内容

为了解决现有技术中利用经过LDA处理后的身份向量进行声纹识别准确率的提高程度低的问题，本发明实施例提供了一种训练声纹识别***的方法和装置。所述技术方案如下：

第一方面，提供了一种训练声纹识别***的方法，所述方法包括：计算机***确定出语音训练集合中每段语音的身份向量，将所述确定出的身份向量中同一用户的语音的身份向量划分为一个类别；所述计算机***建立用于计算与每一类别对应的第一数值的第一函数，所述第一数值为对应类别内利用规整矩阵规整后的第一身份向量与所述对应类别内利用所述规整矩阵规整后的其他身份向量之间相似度的总和，所述第一函数的随机变量为所述规整矩阵，所述规整矩阵被用于左乘身份向量来规整所述身份向量；所述计算机***确定出使各个类别的第一数值的总和最大化的规整矩阵；所述计算机***利用确定出的规整矩阵规整声纹识别***中获取的语音的身份向量。

由于计算机***确定出的规整矩阵使各个类别的第一数值的总和最大化，同一个用户的不同段的语音的身份向量在利用规整矩阵进行规整后相似度提高，解决了相关技术中利用经过LDA处理后的身份向量进行声纹识别准确率的提高程度低的问题，提高了声纹识别的准确率。

第二方面，提供了一种训练声纹识别***的装置，所述装置包括：分类模块，用于确定出语音训练集合中每段语音的身份向量，将所述确定出的身份向量中同一用户的语音的身份向量划分为一个类别；建立模块，用于建立用于计算与每一类别对应的第一数值的第一函数，所述第一数值为对应类别内利用规整矩阵规整后的第一身份向量与所述对应类别内利用所述规整矩阵规整后的其他身份向量之间相似度的总和，所述第一函数的随机变量为所述规整矩阵，所述规整矩阵被用于左乘身份向量来规整所述身份向量；确定模块，用于确定出使各个类别的第一数值的总和最大化的规整矩阵；规整模块，用于利用所述确定模块确定出的规整矩阵规整声纹识别***中获取的语音的身份向量。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例中提供的训练声纹识别***的方法流程图；

图2A是本发明另一个实施例中提供的训练声纹识别***的方法流程图；

图2B是本发明另一个实施例中提供的建立第一函数的流程图；

图2C是本发明另一个实施例中提供的确定出使各个类别的第一数值的总和最大化的规整矩阵的流程图；

图2D是本发明另一个实施例中提供的利用声纹识别***对语音的输入者的身份进行识别的流程图；

图2E是本发明另一个实施例中提供的声纹识别***的使用阶段示意图；

图3是本发明一个实施例中提供的训练声纹识别***的装置的框图；

图4是本发明一个实施例提供的声纹识别***的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

语音易受到信道易变性和环境易变性的干扰，导致声纹识别***为其生成的身份向量畸变，降低了声纹识别***的识别准确率。本发明实施例一和实施例二提供了训练声纹识别***的方法，为声纹识别***训练出规整矩阵。声纹识别***可利用训练出的规整矩阵对身份向量进行规整，来补偿身份向量的畸变。

实施例一

图1是本发明一个实施例中提供的训练声纹识别***的方法流程图，如图1所示，该训练声纹识别***的方法可以包括如下几个步骤：

步骤101，计算机***确定出语音训练集合中每段语音的身份向量，将确定出的身份向量中同一用户的语音的身份向量划分为一个类别。

步骤102，计算机***建立用于计算与每一类别对应的第一数值的第一函数，第一数值为对应类别内利用规整矩阵规整后的第一身份向量与该对应类别内利用规整矩阵规整后的其他身份向量之间相似度的总和，第一函数的随机变量为规整矩阵，规整矩阵被用于左乘身份向量来规整该身份向量。

步骤103，计算机***确定出使各个类别的第一数值的总和最大化的规整矩阵。

步骤104，计算机***在声纹识别***中利用确定出的规整矩阵规整每段语音的身份向量。

综上所述，本实施例中提供的训练声纹识别***的方法，通过将同一用户的语音的身份向量划分为一个类别，建立用于计算一个类别内规整后的第一身份向量与该类别内的规整后的其他身份向量之间相似度的总和的第一函数，第一函数的函数值为第一数值，确定出使各个类别的第一数值的总和最大化的规整矩阵，完成了声纹识别***的训练。由于确定出的规整矩阵使各个类别的第一数值的总和最大化，同一个用户的不同段的语音的身份向量在利用规整矩阵进行规整后相似度提高，解决了相关技术中利用经过LDA处理后的身份向量进行声纹识别准确率的提高程度低的问题，提高了声纹识别的准确率。

实施例二

图2A是本发明另一个实施例中提供的训练声纹识别***的方法流程图，如图2A所示，该训练声纹识别***的方法可以包括如下几个步骤：

步骤201，计算机***确定出语音训练集合中每段语音的身份向量，将确定出的身份向量中同一用户的语音的身份向量划分为一个类别。

一般来讲，对于一个用户，记录或收集该用户的至少两段语音，并将这些记录到或收集到的语音添加至语音训练集合中，该语音训练集合中至少包含两个用户的语音。

进一步的，计算机***对语音训练集合中的每段语音进行处理，生成用于指示该段语音输入者身份信息的身份向量，并将语音训练集合中同一个用户的语音的身份向量划分为一个类别。

计算机***从语音中提取特征，根据提取出的特征生成身份向量可通过多种方式实现，并且为本领域普通技术人员所能实现的，本实施对此不再赘述。

举例来讲，语音训练集合由m个用户的语音组成，这m个用户可以分别利用用户1、用户2…用户m-1以及用户m来表示。计算机***将用户1的各段语音所对应的身份向量划分至类别1，并利用C₁表示类别1内的身份向量的集合；计算机***将用户2的各段语音所对应的身份向量划分至类别2，并利用C₂表示类别2内的身份向量的集合；计算机***将用户m的各段语音所对应的身份向量划分至类别m，利用C_m表示类别m内的身份向量的集合，其他用户依次类推。

步骤202，计算机***建立用于计算与每一类别对应的第一数值的第一函数，第一数值为对应类别内利用规整矩阵规整后的第一身份向量与该对应类别内利用规整矩阵规整后的其他身份向量之间相似度的总和，该第一函数的随机变量为规整矩阵。

对于任一类别，计算机***需要为该类别建立用于计算该类别对应的第一数值的第一函数。举例来讲，对于类别1，需要建立用于计算类别1对应的第一数值的第一函数，类别1对应的第一数值为用户1内的第一身份向量与用户1内的其他身份向量之间的相似度的总和；再举例来讲，对于类别2，需要建立用于计算类别2对应的第一数值的第一函数，类别2对应的第一数值为用户2内的第一身份向量与用户2内的其他身份向量之间的相似度的总和，其他类别的对应的第一函数依次类推。

进一步的，计算机***在建立某一个类别对应的第一函数时，从该类别的身份向量中随机确定出一个身份向量作为第一身份向量，建立用于计算规整后的第一身份向量与该类别内规整后的其他身份向量之间的相似度总和的第一函数。

这里所讲的其他身份向量通常为该类别内与第一身份向量不相同的身份向量。

举例来讲，类别1内的身份向量包括w₁、w₂、…w₆，当计算机***从类别1内选择身份向量w₃作为第一身份向量时，这里所讲的其他身份向量包括身份向量w₁、身份向量w₂、身份向量w₄、身份向量w₅和身份向量w₆。

对应的，在建立类别1对应的第一函数时，在随机选择的结果为身份向量w₃的情况下，建立用于计算规整后的w₁与规整后的w₃之间相似度、规整后的w₂与规整后的w₃之间相似度、规整后的w₃与规整后的w₄之间相似度、规整后的w₃与规整后的w₅之间相似度以及规整后的w₃与规整后的w₆之间相似度的总和的第一函数。

图2B是本发明提供的建立第一函数的流程图。可选的，本步骤可以通过如图2B所示的几个子步骤实现。

步骤202a，对于任一类别，计算机***从该类别内的其他身份向量中确定出至少一个第二身份向量，利用该类别内规整后的第一身份向量减去该类别内规整后的第二身份向量得到第一向量差，将该第一向量差的模的平方的相反数确定为第一指数函数的指数。

计算机***利用规整矩阵对身份向量进行规整。具体的，计算机***利用规整矩阵左乘身份向量完成对该身份向量的规整。

利用矩阵A表示规整矩阵，利用C_m表示类别m内的身份向量的集合，利用w_i表示类别m内的第一身份向量，利用w_j表示类别m内的第二身份向量，则第一身份向量w_i∈C_m，第二身份向量w_j∈C_m，规整后的第一身份向量为Aw_i，规整后的第二身份向量为Aw_j，利用规整后的第一身份向量Aw_i减去规整后的第二身份向量Aw_j得到第一向量差为Aw_i-Aw_j，则第一指数函数为

举例来讲，将类别1的身份向量w₁确定为第二身份向量，则第二身份向量w₁对应的第一指数函数为再举例来讲，将用户内的身份向量w₂确定为第二身份向量，则第二身份向量w₂对应的第一指数函数为

步骤202b，上述确定出的身份向量中与第二身份向量不同的身份向量确定为第三身份向量，对于每个确定出的第三身份向量，计算机***利用该类别内规整后的第一身份向量减去该类别内规整后的第三身份向量得到第二向量差，将该第二向量差的模的平方的相反数确定为第二指数函数的指数。

这里所讲的第三身份向量是与第二身份向量不同的身份向量。举例来讲，语音训练集合中包含k段语音，则从中确定出k个语音向量。在类别1中的第一身份向量为w₃、类别1中的第二身份向量为w₂的情况下，将上述k个身份向量中与第二身份向量为w₂不同的身份向量确定为第三身份向量。

在利用w_k表示第三身份向量时，规整后的第三身份向量为Aw_k，第二向量差为Aw_i-Aw_k，第二指数函数为举例来讲，将用户2内的身份向量w₇确定为第三身份向量，则第三身份向量w₇对应的第二指数函数为再举例来讲，将将用户1内的身份向量w₄确定为第三身份向量，则第三身份向量w₄对应的第二指数函数为

步骤202c，计算机***将第一指数函数确定为该第二身份向量对应的第二函数的分子，利用各个上述确定出的第三身份向量所对应的第二指数函数相加得到第二函数的分母。

其中，第二函数是用于计算规整后的第一身份向量和规整后的第二身份向量的相似度的函数。计算机***可从该类别内与第一身份向量不同的身份向量中确定出多个第二身份向量，建立与每个第二身份向量相对应的第二函数，该第二身份向量对应的第二函数的分子为该第二身份向量对应的第一指数函数。

另外，第二函数的分母是利用确定出的每个第三身份向量对应的第二指数函数相加得到的，则第二函数可以表示为也就是说各个第二身份向量对应的第二函数的分母均可以表示为

举例来讲，当第二身份向量为w₁时，第二身份向量为w₁对应的第二函数为当第二身份向量为w₂时，第二身份向量为w₂对应的第二函数为当第二身份向量为w_j时，第二身份向量w_j对应的第二函数为其他第二身份向量依次类推。

当利用f₂(A)表示第二函数时，类别m的第二函数可以表示为其中，w_i表示类别m内的第一身份向量，w_j表示类别m内的第二身份向量，w_k表示第三身份向量，P_ij用于表示第一身份向量和第二身份向量的相似度。

步骤202d，计算机***将各个第二身份向量对应的第二函数相加得到第一函数。

利用f₁(A)表示第一函数，利用C_m表示类别m内的身份向量的集合，则类别m的第一函数可以表示为P_i用于表示类别m的第一函数。

其中，第一函数的第一数值越高，表明该类别内的身份向量在空间中的位置的聚集程度更高。

步骤203，计算机***利用各个类别对应的第一函数相加得到第三函数，确定出第三函数的导函数，将导函数的数值确定为第二数值。

利用f₃(A)表示第三函数，则本领域普通技术人员可利用第一函数推导出第三函数的导函数表示为其中w_ik＝w_i-w_k，w_ij＝w_i-w_j。

需要说明的一点是，利用第一函数的表达式推导出第三函数的导函数的表达式是本领域普通技术人员所能实现的，本实施例不再对利用第一函数推导出第三函数的导函数的推导过程进行赘述。

步骤204，计算机***初始化规整矩阵，利用初始化的规整矩阵计算第一数值的初始值以及第二数值的初始值。

一般来讲，规整矩阵为列矩阵，且规整矩阵的行数与身份向量的列数相同。

进一步的，利用计算机***初始化规整矩阵，计算机***从语音训练集合对应的身份向量确定出第1个子训练集合，利用第1个子训练集合中的身份向量和初始化的规整矩阵，计算第一数值的初始值以及第二数值的初始值。

举例来讲，将第1个子训练集合中的身份向量和初始化规整矩阵A₁带入第三函数，得到第三函数的第一数值的初始值f₃(A₁)，将初始化规整矩阵A₁带入第三函数的导函数，得到导函数的第二数值的初始值

步骤205，计算机***利用第二数值更新规整矩阵，利用更新后的规整矩阵迭代更新第一数值和第二数值，利用更新后的规整矩阵和更新后的第二数值进行下一次迭代，直到在预定个连续迭代更新的过程中，每次迭代得到的第一数值的变化数值均小于第一预定阈值时，将该过程中任意一次迭代更新所使用的规整矩阵确定为使各个类别的第一数值的总和最大化的规整矩阵。

可选的，计算机***利用上一次迭代更新过程中更新后的规整矩阵与上一次迭代更新过程中得到的更新后的第二数值相加得到更新后的规整矩阵。

可选的，计算机***将上一次迭代更新过程中得到的更新后的第二数值乘以预定系数的乘积，与上一次迭代更新过程中更新后的规整矩阵相加得到此次迭代更新后的规整矩阵。这里所讲的预定***通常为***开发人员设定的数值，用于控制规整矩阵的调整幅度。

图2C是本发明提供的确定出使各个类别的第一数值的总和最大化的规整矩阵的流程图可选的，本步骤可以通过如图2C所示的几个子步骤实现。

步骤205a，计算机***利用第n-2次更新得到的第二数值更新规整矩阵，得到第n-1次更新后的规整矩阵。

步骤205b，计算机***利用确定出的身份向量中第n个子训练集合和第n-1次更新后的规整矩阵，计算出第n-1次更新后的第一数值和第n-1次更新后的第二数值，n≥2。

其中，当n＝2是，n-2次更新是指计算机***的初始化。

举例来讲，在完成第一数值的初始化和第二数值的初始化后，利用第二数值的初始值与初始化的矩阵A₁相加得到第1次更新后的规整矩阵A₂。从语音训练集合对应的身份向量确定出第2个子训练集合，第2个子训练集合与第1个子训练集合内的身份向量不完全相同，利用第2个子训练集合内的身份向量和第1次更新后的规整矩阵A₂计算第一数值得到第1次更新后的第一数值f₃(A₂)，利用第2个子训练集合内的身份向量和第1次更新后的规整矩阵A₂计算第二数值得到第1次更新后的第二数值

再举例来讲，第n-2次更新得到的第二数值为与第n-2次更新后的A_n-1相加得到n-1次更新后的规整矩阵A_n。从语音训练集合对应的身份向量确定出第n个子训练集合，第n个子训练集合与前n-1个子训练集合中的任意一个集合的身份向量不完全相同。利用第n个子训练集合的身份向量和第n-1次更新后的规整矩阵A_n，计算出第n-1次更新后的第一数值f₃(A_n)和第n-1次更新后的第二数值

另外，在每次迭代更新的过程中，计算更新后的第一数值和更新前的第一数值的差值。当在预定个连续迭代更新的过程中，每次迭代得到的第一数值的变化数值均小于第一预定阈值时，认为在预定个连续迭代更新的过程中第一数值的总和(也即，第三函数的数值)达到最大化，此时可将该过程中任意一次迭代更新所使用的规整矩阵确定为使各个类别的第一数值的总和最大化的规整矩阵。

一般来讲，预定个的具体数值和第一预定阈值由***开发人员设定。在预定个连续迭代更新的过程中，在任意一次迭代过程中第一数值的变化数值大于第一预定阈值的情况下，利用最后一次迭代更新过程中的得到规整矩阵和第二数值进行下一次迭代更新。

步骤206，计算机***在声纹识别***中利用确定出的规整矩阵规整每段语音的身份向量。

通过步骤201至步骤205完成了声纹识别***的训练，确定出声纹识***在实际使用过程中用于规整身份向量的规整矩阵。在实际使用时，利用确定出的规整矩阵左乘每段语音的身份向量，完成该身份向量的规整。

需要说明的一点是，本实施例中在建立第一函数时采用了近邻成分分析(英文：neighborhood components analysis，NCA)算法，利用第一指数函数计算规整后的第一身份向量和规整后的第二身份向量之间的距离，利用第二指数函数计算规整后的第一身份向量和规整后的第三身份向量之间的距离，利用第二函数表征第一身份向量和第二身份向量之间的相似度，第一函数用于表征第一身份向量与该类别内的其他身份向量之间的相似度的总和。

实验数据表明，以等错概率(英文：equal error rate,EER)作为衡量指标，声纹识别***利用未被规整的身份向量进行识别，EER为5.48％；声纹识别***利用LDA对身份向量进行规整，EER可以降低到5.37％；声纹识别***利用近邻区分性分析(英文：neighborhood discriminant analysis，NDA)对身份向量进行规整，EER可以降低到5.19％；利用NCA确定出的规整矩阵对身份向量进行规整，EER可以降低到4.9％。

另外，在完成声纹识别***的训练后，可利用该声纹识别***对语音的输入者的身份进行识别，可通过如图2D所示的几个步骤实现。图2D是本发明提供的利用声纹识别***对语音的输入者的身份进行识别的流程图。

步骤207，计算机***获取在用户进行身份注册过程中记录的语音的初始身份向量，利用确定出的规整矩阵规整该初始身份向量。

图2E是本发明提供的声纹识别***的使用阶段示意图，如图2E所示，声纹识别***的使用分为身份注册阶段和身份验证阶段。

一般来讲，当用户首次使用该声纹识别***时，需要在该声纹识别***中进行身份注册。

在用户进行身份注册的过程中，声纹识别***处于身份注册阶段。声纹识别***获取用于进行身份注册的语音，对该语音进行处理生成该语音的身份向量，并将该语音的身份向量确定为该用户的初始身份向量。利用确定出的规整矩阵左乘该初始身份向量完成对该初始身份向量规整，存储规整后的初始身份向量完成身份注册。

步骤208，计算机***获取在进行身份验证过程中发送的待验证语音的身份向量，利用确定出的规整矩阵规整待验证语音的身份向量。

在用户进行身份验证的过程中，声纹识别***处于身份验证阶段。声纹识别***获取用于身份验证的待验证语音，确定出待验证语音的身份向量。利用声纹识别***的规整矩阵左乘该待验证语音的身份向量，完成待验证语音的身份向量的规整。

步骤209，当规整后的待验证语音的身份向量与规整后的初始身份向量的相似度大于第二预定阈值时，则判定待验证语音的输入者的身份与用户的身份相同。

一般来讲，第二预定阈值通常由***开发人员设定。另外，计算规整后的待验证语音的身份向量与规整后的初始身份向量的相似度为本领域普通技术人员所能实现的，本实施例不再赘述。

当规整后的待验证语音的身份向量与规整后的初始身份向量的相似度大于第二预定阈值时，判定待验证语音的输入者的身份与用户的身份相同。

当规整后的待验证语音的身份向量与规整后的初始身份向量的相似度小于第二预定阈值时，判定待验证语音的输入者的身份与用户的身份不相同。

在声纹识别***的实际使用过程中，通过判定规整后的待验证语音的身份向量与规整后的初始身份向量的相似度是否第二预定阈值，实现了对待验证语音的输入者的身份的验证。

图3是本发明一个实施例中提供的训练声纹识别***的装置的框图，如图3所示，该训练声纹识别***的装置包括：分类模块310、建立模块320、确定模块330和规整模块340。

分类模块310，用于确定出语音训练集合中每段语音的身份向量，将确定出的身份向量中同一用户的语音的身份向量划分为一个类别。

建立模块320，用于建立用于计算与每一类别对应的第一数值的第一函数，第一数值为对应类别内利用规整矩阵规整后的第一身份向量与该对应类别内利用规整矩阵规整后的其他身份向量之间相似度的总和，第一函数的随机变量为规整矩阵，规整矩阵被用于左乘身份向量来规整该身份向量。

确定模块330，用于确定出使各个类别的第一数值的总和最大化的规整矩阵。

规整模块340，用于利用确定模块330确定出的规整矩阵规整声纹识别***中获取的语音的身份向量。

在一种可选的实现方式中，建立模块320，包括：第一确定单元、第二确定单元、第三确定单元、第四确定单元和第五确定单元。

第一确定单元，用于对于任一类别，从该类别内其他身份向量中确定出至少一个第二身份向量，利用该类别内规整后的第一身份向量减去该类别内规整后的第二身份向量得到第一向量差，将第一向量差的模的平方的相反数确定为第一指数函数的指数。

第二确定单元，用于将第一确定单元确定出的第一指数函数确定为该第二身份向量对应的第二函数的分子，第二函数用于计算规整后的第一身份向量和规整后的第二身份向量的相似度的函数。

第三确定单元，用于将确定出的身份向量中与第二身份向量不同的身份向量确定为第三身份向量。

第四确定单元，用于对于第三确定单元确定出的每个第三身份向量，利用该类别内规整后的第一身份向量减去规整后的第三身份向量得到第二向量差，将第二向量差的模的平方的相反数确定为第二指数函数的指数。

第五确定单元，用于利用各个确定出的第三身份向量所对应的第二指数函数相加得到第二函数的分母，将各个第二身份向量对应的第二函数相加得到第一函数。

在一种可选的实现方式中，确定模块330，包括：第六确定单元、初始化单元和更新单元。

第六确定单元，用于利用各个类别对应的第一函数相加得到第三函数，确定出第三函数的导函数，将导函数的数值确定为第二数值。

初始化单元，用于初始化规整矩阵，利用初始化的规整矩阵计算第一数值的初始值以及第二数值的初始值。

更新单元，用于利用第二数值更新规整矩阵，利用更新后的规整矩阵迭代更新第一数值和第二数值，利用更新后的规整矩阵和更新后的第二数值进行下一次迭代，直到在预定个连续迭代更新的过程中，每次迭代得到的第一数值的变化数值均小于第一预定阈值时，将该过程中任意一次迭代更新所使用的规整矩阵确定为使各个类别的第一数值的总和最大化的规整矩阵。

在一种可选的实现方式中，初始化单元，还用于利用分类模块确定出的身份向量中第1个子训练集合和初始化的规整矩阵，计算第一数值的初始值以及第二数值的初始值。

在一种可选的实现方式中，更新单元，包括：第一更新子单元和第二更新子单元。

第一更新子单元，用于利用第n-2次更新得到的第二数值更新规整矩阵，得到第n-1次更新后的规整矩阵。

第二更新子单元，用于利用分类模块确定出的身份向量中第n个子训练集合和所述第n-1次更新后的规整矩阵，计算出第n-1次更新后的第一数值和第n-1次更新后的第二数值，n≥2。

在一种可选的实现方式中，该规整模块340，还包括：第一规整单元和第二规整单元。

第一规整单元，用于获取在用户进行身份注册过程中记录的语音的初始身份向量，利用确定模块确定出的规整矩阵规整初始身份向量。

第二规整单元，用于获取在进行身份验证过程中发送的待验证语音的身份向量，利用确定模块确定出的规整矩阵规整待验证语音的身份向量。

该训练声纹识别***的装置，还包括：

判定模块，用于当规整后的待验证语音的身份向量与规整后的初始身份向量的相似度大于第二预定阈值时，判定该待验证语音的输入者的身份与该用户的身份相同。

综上所述，本实施例中提供的训练声纹识别***的装置，通过将同一用户的语音的身份向量划分为一个类别，建立用于计算一个类别内规整后的第一身份向量与该类别内的规整后的其他身份向量之间相似度的总和的第一函数，第一函数的函数值为第一数值，确定出使各个类别的第一数值的总和最大化的规整矩阵，完成了声纹识别***的训练。由于确定出的规整矩阵使各个类别的第一数值的总和最大化，同一个用户的不同段的语音的身份向量在利用规整矩阵进行规整后相似度提高，解决了相关技术中利用经过LDA处理后的身份向量进行声纹识别准确率的提高程度低的问题，提高了声纹识别的准确率。

需要说明的是：上述实施例中提供的训练声纹识别***的装置在训练声纹识别***时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将电子设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的训练声纹识别***的装置与训练声纹识别***的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图4是本发明一个实施例提供的声纹识别***的结构示意图。具体来讲：

服务器400包括中央处理单元(英文：central processing unit，CPU)401、包括随机存取存储器(英文：random-access memory，RAM)402和只读存储器(英文：read-onlymemory，ROM)403的***存储器404，以及连接***存储器404和中央处理单元401的***总线405。服务器400还包括帮助计算机内的各个器件之间传输信息的基本输入/输出(英文：input/output，I/O)***406，和用于存储操作***413、应用程序414和其他程序模块415的大容量存储设备407。

基本输入/输出***406包括有用于显示信息的显示器408和用于用户输入信息的诸如鼠标、键盘之类的输入设备409。其中显示器408和输入设备409都通过连接到***总线405的输入输出控制器410连接到中央处理单元401。基本输入/输出***406还可以包括输入/输出控制器410以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入/输出控制器410还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备407通过连接到***总线405的大容量存储控制器(未示出)连接到中央处理单元401。大容量存储设备407及其相关联的计算机可读介质为服务器400提供非易失性存储。也就是说，大容量存储设备407可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括静态随机存取存储器(英文：static random access memory，SRAM)，电可擦除可编程只读存储器(英文：electrically erasable programmable read-only memory，EEPROM)，可擦除可编程只读存储器(英文：erasable programmable read only memory，EPROM)，可编程只读存储器(英文：programmable read only memory，PROM)、RAM、ROM、闪存或其他固态存储其技术，CD-ROM、数字通用光盘(英文：digital versatile disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的***存储器404和大容量存储设备407可以统称为存储器。

根据本发明的各种实施例，服务器400还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器400可以通过连接在***总线405上的网络接口单元411连接到网络412，或者说，也可以使用网络接口单元411来连接到其他类型的网络或远程计算机***(未示出)。

上述存储器还包括一个或者一个以上的程序，且经配置以由一个或者一个以上处理器执行述一个或者一个以上程序包含用于进行以下操作的指令：

确定出语音训练集合中每段语音的身份向量，将所述确定出的身份向量中同一用户的语音的身份向量划分为一个类别；

建立用于计算与每一类别对应的第一数值的第一函数，所述第一数值为对应类别内利用规整矩阵规整后的第一身份向量与所述对应类别内利用所述规整矩阵规整后的其他身份向量之间相似度的总和，所述第一函数的随机变量为所述规整矩阵，所述规整矩阵被用于左乘身份向量来规整所述身份向量；

确定出使各个类别的第一数值的总和最大化的规整矩阵；

利用确定出的规整矩阵规整声纹识别***中获取的语音的身份向量。

可选的，所述一个或多个程序还包含用于进行以下操作的指令：

对于任一类别，从所述类别内所述其他身份向量中确定出至少一个第二身份向量，利用所述类别内规整后的第一身份向量减去所述类别内规整后的第二身份向量得到第一向量差，将所述第一向量差的模的平方的相反数确定为第一指数函数的指数；

将所述第一指数函数确定为所述第二身份向量对应的第二函数的分子，所述第二函数用于计算所述规整后的第一身份向量和所述规整后的第二身份向量的相似度的函数；

将所述确定出的身份向量中与所述第二身份向量不同的身份向量确定为第三身份向量；

对于每个第三身份向量，利用所述类别内规整后的第一身份向量减去规整后的所述第三身份向量得到第二向量差，将所述第二向量差的模的平方的相反数确定为第二指数函数的指数；

利用各个所述确定出的第三身份向量所对应的第二指数函数相加得到所述第二函数的分母，将各个第二身份向量对应的第二函数相加得到所述第一函数。

利用各个类别对应的第一函数相加得到第三函数，确定出所述第三函数的导函数，将所述导函数的数值确定为第二数值；

初始化规整矩阵，利用所述初始化的规整矩阵计算所述第一数值的初始值以及第二数值的初始值；

利用第二数值更新所述规整矩阵，利用更新后的规整矩阵迭代更新所述第一数值和所述第二数值，利用更新后的规整矩阵和更新后的第二数值进行下一次迭代，直到在预定个连续迭代更新的过程中，每次迭代得到的第一数值的变化数值均小于第一预定阈值时，将所述过程中任意一次迭代更新所使用的规整矩阵确定为使各个类别的第一数值的总和最大化的规整矩阵。

利用所述确定出的身份向量中第1个子训练集合和所述初始化的规整矩阵，计算所述第一数值的初始值以及第二数值的初始值。

利用第n-2次更新得到的第二数值更新所述规整矩阵，得到第n-1次更新后的规整矩阵；

利用所述确定出的身份向量中第n个子训练集合和所述第n-1次更新后的规整矩阵，计算出第n-1次更新后的第一数值和第n-1次更新后的第二数值，n≥2。

获取在用户进行身份注册过程中记录的语音的初始身份向量，利用所述确定出的规整矩阵规整所述初始身份向量；

获取在进行身份验证过程中发送的待验证语音的身份向量，利用所述确定出的规整矩阵规整所述待验证语音的身份向量；

当规整后的所述待验证语音的身份向量与规整后的所述初始身份向量的相似度大于第二预定阈值时，判定所述待验证语音的输入者的身份与所述用户的身份相同。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器，上述指令可由移动终端的处理器执行以完成上述弹幕发布方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

术语“第一”、“第二”和“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或隐含所指示的技术特征的数量。由此，限定的“第一”、“第二”“第三”的特征可以明示或隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种训练声纹识别***的方法，其特征在于，所述方法包括：

计算机***确定出语音训练集合中每段语音的身份向量，将所述确定出的身份向量中同一用户的语音的身份向量划分为一个类别；

所述计算机***建立用于计算与每一类别对应的第一数值的第一函数，所述第一数值为对应类别内利用规整矩阵规整后的第一身份向量与所述对应类别内利用所述规整矩阵规整后的其他身份向量之间相似度的总和，所述第一函数的随机变量为所述规整矩阵，所述规整矩阵被用于左乘身份向量来规整所述身份向量；

所述计算机***确定出使各个类别的第一数值的总和最大化的规整矩阵；

所述计算机***利用确定出的规整矩阵规整声纹识别***中获取的语音的身份向量。

2.根据权利要求1所述的方法，其特征在于，所述计算机***建立用于计算与每一类别对应的第一数值的第一函数，包括：

对于任一类别，所述计算机***从所述类别内所述其他身份向量中确定出至少一个第二身份向量，利用所述类别内规整后的第一身份向量减去所述类别内规整后的第二身份向量得到第一向量差，将所述第一向量差的模的平方的相反数确定为第一指数函数的指数；

所述计算机***将所述第一指数函数确定为所述第二身份向量对应的第二函数的分子，所述第二函数用于计算所述规整后的第一身份向量和所述规整后的第二身份向量的相似度的函数；

所述计算机***将所述确定出的身份向量中与所述第二身份向量不同的身份向量确定为第三身份向量；

对于每个第三身份向量，所述计算机***利用所述类别内规整后的第一身份向量减去规整后的所述第三身份向量得到第二向量差，将所述第二向量差的模的平方的相反数确定为第二指数函数的指数；

所述计算机***利用各个所述确定出的第三身份向量所对应的第二指数函数相加得到所述第二函数的分母，将各个第二身份向量对应的第二函数相加得到所述第一函数。

3.根据权利要求1所述的方法，其特征在于，所述计算机***确定出使各个类别的第一数值的总和最大化的规整矩阵，包括：

所述计算机***利用各个类别对应的第一函数相加得到第三函数，确定出所述第三函数的导函数，将所述导函数的数值确定为第二数值；

所述计算机***初始化规整矩阵，利用所述初始化的规整矩阵计算所述第一数值的初始值以及第二数值的初始值；

所述计算机***利用第二数值更新所述规整矩阵，利用更新后的规整矩阵迭代更新所述第一数值和所述第二数值，利用更新后的规整矩阵和更新后的第二数值进行下一次迭代，直到在预定个连续迭代更新的过程中，每次迭代得到的第一数值的变化数值均小于第一预定阈值时，将所述过程中任意一次迭代更新所使用的规整矩阵确定为使各个类别的第一数值的总和最大化的规整矩阵。

4.根据权利要求3所述的方法，其特征在于，所述利用所述初始化的规整矩阵计算所述第一数值的初始值以及第二数值的初始值，包括：

所述计算机***利用所述确定出的身份向量中第1个子训练集合和所述初始化的规整矩阵，计算所述第一数值的初始值以及第二数值的初始值。

5.根据权利要求3所述的方法，其特征在于，所述计算机***利用第二数值更新所述规整矩阵，利用更新后的规整矩阵迭代更新所述第一数值和所述第二数值，包括：

所述计算机***利用第n-2次更新得到的第二数值更新所述规整矩阵，得到第n-1次更新后的规整矩阵；

所述计算机***利用所述确定出的身份向量中第n个子训练集合和所述第n-1次更新后的规整矩阵，计算出第n-1次更新后的第一数值和第n-1次更新后的第二数值，n≥2。

6.根据权利要求1至5所述的方法，其特征在于，所述计算机***利用确定出的规整矩阵规整声纹识别***中获取的语音的身份向量，包括：

所述计算机***获取在用户进行身份注册过程中记录的语音的初始身份向量，利用所述确定出的规整矩阵规整所述初始身份向量；

所述计算机***获取在进行身份验证过程中发送的待验证语音的身份向量，利用所述确定出的规整矩阵规整所述待验证语音的身份向量；

所述方法还包括：

当规整后的所述待验证语音的身份向量与规整后的所述初始身份向量的相似度大于第二预定阈值时，所述计算机***判定所述待验证语音的输入者的身份与所述用户的身份相同。

7.一种训练声纹识别***的装置，其特征在于，所述装置包括：

分类模块，用于确定出语音训练集合中每段语音的身份向量，将所述确定出的身份向量中同一用户的语音的身份向量划分为一个类别；

建立模块，用于建立用于计算与每一类别对应的第一数值的第一函数，所述第一数值为对应类别内利用规整矩阵规整后的第一身份向量与所述对应类别内利用所述规整矩阵规整后的其他身份向量之间相似度的总和，所述第一函数的随机变量为所述规整矩阵，所述规整矩阵被用于左乘身份向量来规整所述身份向量；

确定模块，用于确定出使各个类别的第一数值的总和最大化的规整矩阵；

规整模块，用于利用所述确定模块确定出的规整矩阵规整声纹识别***中获取的语音的身份向量。

8.根据权利要求7所述的装置，其特征在于，所述建立模块，包括：

第一确定单元，用于对于任一类别，从所述类别内所述其他身份向量中确定出至少一个第二身份向量，利用所述类别内规整后的第一身份向量减去所述类别内规整后的第二身份向量得到第一向量差，将所述第一向量差的模的平方的相反数确定为第一指数函数的指数；

第二确定单元，用于将所述第一确定单元确定出的第一指数函数确定为所述第二身份向量对应的第二函数的分子，所述第二函数用于计算所述规整后的第一身份向量和所述规整后的第二身份向量的相似度的函数；

第三确定单元，用于将所述确定出的身份向量中与所述第二身份向量不同的身份向量确定为第三身份向量；

第四确定单元，用于对于所述第三确定单元确定出的每个第三身份向量，利用所述类别内规整后的第一身份向量减去规整后的所述第三身份向量得到第二向量差，将所述第二向量差的模的平方的相反数确定为第二指数函数的指数；

第五确定单元，用于利用各个所述确定出的第三身份向量所对应的第二指数函数相加得到所述第二函数的分母，将各个第二身份向量对应的第二函数相加得到所述第一函数。

9.根据权利要求7所述的装置，其特征在于，所述确定模块，包括：

第六确定单元，用于利用各个类别对应的第一函数相加得到第三函数，确定出所述第三函数的导函数，将所述导函数的数值确定为第二数值；

初始化单元，用于初始化规整矩阵，利用所述初始化的规整矩阵计算所述第一数值的初始值以及第二数值的初始值；

更新单元，用于利用第二数值更新所述规整矩阵，利用更新后的规整矩阵迭代更新所述第一数值和所述第二数值，利用所述更新后的规整矩阵和更新后的第二数值进行下一次迭代，直到在预定个连续迭代更新的过程中，每次迭代得到的第一数值的变化数值均小于第一预定阈值时，将所述过程中任意一次迭代更新所使用的规整矩阵确定为使各个类别的第一数值的总和最大化的规整矩阵。

10.根据权利要求9所述的装置，其特征在于，所述初始化单元，还用于利用所述确定出的身份向量中第1个子训练集合和所述初始化的规整矩阵，计算所述第一数值的初始值以及第二数值的初始值。

11.根据权利要求9所述的装置，其特征在于，所述更新单元，包括：

第一更新子单元，用于利用第n-2次更新得到的第二数值更新所述规整矩阵，得到第n-1次更新后的规整矩阵；

第二更新子单元，用于利用所述分类模块确定出的身份向量中第n个子训练集合和所述第n-1次更新后的规整矩阵，计算出第n-1次更新后的第一数值和第n-1次更新后的第二数值，n≥2。

12.根据权利要求7至11所述的装置，其特征在于，所述规整模块，包括：

第一规整单元，用于获取在用户进行身份注册过程中记录的语音的初始身份向量，利用所述确定模块确定出的规整矩阵规整所述初始身份向量；

第二规整单元，用于获取在进行身份验证过程中发送的待验证语音的身份向量，利用所述确定模块确定出的规整矩阵规整所述待验证语音的身份向量；

所述装置还包括：

判定模块，用于当规整后的所述待验证语音的身份向量与规整后的所述初始身份向量的相似度大于第二预定阈值时，判定所述待验证语音的输入者的身份与所述用户的身份相同。