CN106057206B

CN106057206B - 声纹模型训练方法、声纹识别方法及装置

Info

Publication number: CN106057206B
Application number: CN201610388231.3A
Authority: CN
Inventors: 李为; 钱柄桦; 金星明; 李科; 吴富章; 吴永坚; 黄飞跃
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2016-06-01
Filing date: 2016-06-01
Publication date: 2019-05-03
Anticipated expiration: 2036-06-01
Also published as: CN106057206A

Abstract

本发明公开了一种声纹模型训练方法、声纹识别方法及装置，属于语音识别领域。所述方法包括：获取未知用户朗读第二字符串所产生的测试语音信号，第二字符串包括按序排列的若干字符；从测试语音信号中提取出各个字符所对应的声纹特征序列；根据目标用户的与n种基础字符分别对应的n个GMM，构建与第二字符串对应的HMM；计算声纹特征序列与HMM的相似度分数；当相似度分数大于预设阈值时，将未知用户识别目标用户。在本发明中，目标用户的与各个基础字符分别对应的GMM之间考虑了每种基础字符对应的音频内容在音素层面的差异性，且HMM模型还考虑了各个基础字符对应的音频内容在时域上的相关性，能够极大地提高识别准确率。

Description

声纹模型训练方法、声纹识别方法及装置

技术领域

本发明实施例涉及语音识别领域，特别涉及一种声纹模型训练方法、声纹识别方法及装置。

背景技术

声纹识别是一种利用声纹特征信息对未知用户进行身份确认的技术。声纹识别可用于门禁***、支付***等需要识别用户身份的场景。目前的声纹识别通常采用文本相关识别。

声纹识别通常包括两个过程：目标用户的注册过程和未知用户的身份识别过程。在目标用户的注册过程中，***会提供一个注册字符串供目标用户朗读，该注册字符串通常包括顺序排列的若干个数字和/或字母，***采集目标用户朗读时产生的注册语音信号，并根据注册语音信号训练得到目标用户的高斯混合模型(Gaussian Mixture Model，GMM)；在未知用户的身份识别过程中，将未知用户朗读一个识别字符串时的测试语音信号与目标用户的GMM进行相似度匹配，当相似度大于预设阈值时，将未知用户识别为目标用户。

在实现本发明实施例的过程中，发明人发现现有技术至少存在以下问题：在上述方法中，注册语音信号中与各个基础字符对应的音频内容存在相关性，该注册语音信号包含了丰富的信息用于表征未知用户的特征，但目标用户的GMM是一种文本无关的模型，无法利用注册语音信号中丰富的信息。

发明内容

有鉴于此，本发明实施例提供了一种声纹模型训练方法、声纹识别方法及装置。所述技术方案如下：

第一方面，提供了一种声纹模型训练方法，所述方法包括：

采集目标用户朗读第一字符串所产生的注册语音信号，所述第一字符串包括m个按序排列的字符，所述m个字符包括n种互不相同的基础字符，m和n均为正整数且m≥n；

从所述注册语音信号中提取出每个字符所对应的声纹特征；

以所述目标用户的各个所述字符所对应的所述声纹特征为第一样本数据，对预设的通用背景模型进行训练，得到所述目标用户的混合高斯模型；

以所述目标用户的与第i种基础字符所对应的声纹特征为第二样本数据，对所述目标用户的所述混合高斯模型进行训练，得到所述目标用户的与第i种基础字符所对应的所述混合高斯模型；

存储所述目标用户的与n种基础字符分别对应的n个混合高斯模型，所述n个混合高斯模型用于构建与第二字符串对应的隐马尔可夫模型。

第二方面，提供了一种声纹识别方法，所述方法包括：

获取未知用户朗读第二字符串所产生的测试语音信号，所述第二字符串包括k个按序排列的字符，所述k个字符包括n种互不相同的基础字符中的全部字符或部分字符，k和n均为正整数；

从所述测试语音信号中提取出各个字符所对应的声纹特征序列；

根据目标用户的与n种基础字符分别对应的n个混合高斯模型，构建与所述第二字符串对应的隐马尔科夫模型；

计算所述声纹特征序列与所述隐马尔科夫模型的相似度分数；

当所述相似度分数大于预设阈值时，将所述未知用户识别所述目标用户。

第三方面，提供了一种声纹模型训练装置，所述装置包括：

采集模块，用于采集目标用户朗读第一字符串所产生的注册语音信号，所述第一字符串包括m个按序排列的字符，所述m个字符包括n种互不相同的基础字符，m和n均为正整数且m≥n；

提取模块，用于从所述注册语音信号中提取出每个字符所对应的声纹特征；

第一训练模块，用于以所述目标用户的各个所述字符所对应的所述声纹特征为第一样本数据，对预设的通用背景模型进行训练，得到所述目标用户的混合高斯模型；

第二训练模块，用于以所述目标用户的与第i种基础字符所对应的声纹特征为第二样本数据，对所述目标用户的所述混合高斯模型进行训练，得到所述目标用户的与第i种基础字符所对应的所述混合高斯模型；

存储模块，用于存储所述目标用户的与n种基础字符分别对应的n个混合高斯模型，所述n个混合高斯模型用于构建与第二字符串对应的隐马尔可夫模型。

第四方面，提供了一种声纹识别装置，所述装置包括：

获取模块，用于获取未知用户朗读第二字符串所产生的测试语音信号，所述第二字符串包括k个按序排列的字符，所述k个字符包括n种互不相同的基础字符中的全部字符或部分字符，k和n均为正整数；

提取模块，用于从所述测试语音信号中提取出各个字符所对应的声纹特征序列；

构建模块，用于根据目标用户的与n种基础字符分别对应的n个混合高斯模型，构建与所述第二字符串对应的隐马尔科夫模型；

计算模块，用于计算所述声纹特征序列与所述隐马尔科夫模型的相似度分数；

识别模块，用于当所述相似度分数大于预设阈值时，将所述未知用户识别所述目标用户。

本发明实施例提供的声纹模型训练方法带来的有益效果是：

通过根据目标用户的各个字符所对应的声纹特征，将UBM训练得到目标用户的GMM，将目标用户的GMM训练得到目标用户的与n种基础字符分别对应的n个GMM，n个GMM用于构建与第二字符串对应的HMM；解决了目标用户的GMM是一个文本无关的模型，无法利用注册语音信号中丰富的信息的问题；达到了对于每个目标用户，训练得到与若干个基础字符分别对应的GMM，各个GMM之间考虑了每种基础字符对应的音频内容在音素层面的差异性，此外该若干个GMM还能够用于构建与识别字符串所对应的HMM模型，HMM模型还考虑了各个基础字符对应的音频内容在时域上的相关性，从而能够极大地增加目标用户的声纹模型在身份识别阶段的识别准确率；

本发明实施例提供的声纹识别方法带来的有益效果是：

通过将测试语音信号的声纹特征序列，与多个基础字符对应的GMM所构建的HMM计算相似度分数，从而对未知用户进行身份识别；解决了目标用户的GMM是一个文本无关的模型，无法利用注册语音信号中丰富的信息的问题；达到了对于每个目标用户，与各个基础字符分别对应的GMM之间考虑了每种基础字符对应的音频内容在音素层面的差异性，且HMM模型还考虑了各个基础字符对应的音频内容在时域上的相关性，从而能够极大地增加目标用户的声纹模型在身份识别阶段的识别准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的基于随机字符串的声纹识别方法的原理示意图；

图2是本发明一个实施例提供的声纹模型训练方法的流程图；

图3是图2所示声纹模型训练方法的原理示意图；

图4是本发明另一个实施例提供的声纹模型训练方法的流程图；

图5是图4所示声纹模型训练方法所涉及的语音信息标注过程的原理示意图；

图6是图4所示声纹模型训练方法所涉及的模型训练过程的原理示意图；

图7是本发明一个实施例提供的声纹识别方法的流程图；

图8是本发明另一个实施例提供的声纹识别方法的流程图；

图9是图8所示声纹识别方法所构建的HMM的模型示意图；

图10是本发明一个实施例提供的声纹模型训练装置的方框图；

图11是本发明另一个实施例提供的声纹识别装置的方框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种基于随机字符串的声纹识别方法及装置。该基于随机字符串的声纹识别方法及装置可应用于所有需要识别未知用户身份的场景中。用于生成随机字符串的基础字符可以是***数字、英文字母或其他语言字符等，每个基础字符通常是一个数字或一个字符，但不排除若干个数字或若干个字符的整体作为一个基础字符的可能性。为了简化描述，本发明实施例中以每个基础字符为一个***数字为例来举例说明。

基于随机字符串的声纹识别方法分为两个阶段，如图1所示：

第一，目标用户的注册阶段12；

在注册阶段，声纹识别装置随机生成一个注册字符串，并在显示界面中显示该数字字符串。目标用户朗读该注册字符串，声纹识别装置采集该目标用户在朗读时的注册语音信号，然后对注册语音信号进行声纹特征提取和声纹模型训练，得到目标用户的声纹模型。在每个目标用户的声纹模型中，包含若干个GMM(Gaussian Mixture Model，混合高斯模型)，每个GMM与一种数字对应。

比如，该注册字符串是数字字符串0185851，包含了四种数字“0”、“1”、“5”、“8”，则每个目标用户的声纹模型中，包含与数字“0”对应的GMM、与数字“1”对应的GMM、与数字“5”对应的GMM、与数字“8”对应的GMM。

第二，未知用户的身份识别阶段14。

在身份识别阶段，声纹识别装置再根据数字集合“0”、“1”、“5”和“8”随机生成一个识别字符串，并在显示界面中显示该识别字符串，未知用户朗读该识别字符串，声纹识别装置采集该未知用户在朗读时的测试语音信号，然后对测试语音信号进行声纹特征提取，采用各个目标用户对应的声纹模型构建与数字字符串对应的HMM(Hidden Markov Model，隐马尔科夫模型)，计算未知用户的声纹特征与各个HMM的相似度，将相似度最高且相似度高于阈值的一个HMM所对应的目标用户，作为未知用户的身份识别结果。

比如，再次随机生成的识别字符串为数字字符串85851510，则声纹识别装置根据每个目标用户的与数字“0”、“1”、“5”、“8”各自对应的GMM，构建与识别字符串“85851510”对应的HMM，计算未知用户的声纹特征与各个目标用户的HMM的相似度，在相似度最高且相似度高于阈值的HMM是目标用户B时，将目标用户B作为未知用户的身份识别结果。

下面采用不同的实施例对上述两个过程分别进行阐述。

图2示出了本发明一个实施例提供的声纹模型训练方法的方法流程图。该声纹模型训练方法可以应用于声纹识别***中。该声纹模型训练方法包括：

步骤201，采集目标用户朗读第一字符串所产生的注册语音信号，预定字符串包括m个按序排列的字符，m个字符包括n种互不相同的基础字符；

第一字符串是用于目标用户的注册阶段的字符串。可选地，该第一字符串是随机生成的字符串。m，n均为正整数，且m≥n。

比如，第一字符串是“12358948”，共8个字符，包括了7种互不相同的基础字符“1”、“2”、“3”、“4”、“5”、“8”、“9”。

步骤202，从注册语音信号中提取出每个字符所对应的声纹特征；

比如，从原始语音信号中提取出与字符“1”对应的语音片段、与字符“1”对应的语音片段、与字符“2”对应的语音片段、与字符“3”对应的语音片段、与字符“4”对应的语音片段、与字符“5”对应的语音片段、与字符“8”对应的语音片段、与字符“9”对应的语音片段。

然后，从每个字符对应的语音片段中提取与该字符对应的声纹特征。

步骤203，根据目标用户的各个字符所对应的声纹特征为第一样本数据，对预设的UBM进行训练，得到目标用户的GMM；

UBM(Universal Background Model，通用背景模型)是预先构建的全部由数字训练得到的通用模型。UBM具有身份无关且文本无关的特性。身份无关是指UBM不考虑用户身份差异，不对应某一个或某几个特定的用户；文本无关是指UBM不考虑数字(字符)差异，不对应某一个或某几个特定的数字，如图3中的UBM32所示。

可选地，采用最大后验概率算法(Maximum A Posteriori，MAP)根据目标用户的各个声纹特征，对UBM中的参数进行调整，从而自适应得到目标用户的GMM。

目标用户的GMM具有身份相关且文本无关的特征。身份相关是指该GMM对应特定的目标用户；文本无关是指该GMM不考虑数字(基础字符)差异，不对应某一个或某几个特定的数字，如图3中的目标用户的GMM34所示。

步骤204，以目标用户的与第i种基础字符所对应的声纹特征为第二样本数据，对目标用户的GMM进行训练，得到目标用户的与第i种基础字符所对应的GMM；

可选地，采用最大后验概率(Maximum A Posteriori，MAP)算法根据目标用户的与第i种字符所对应的声纹特征，对目标用户的GMM中的参数进行调整，从而自适应得到目标用户的与第i种基础字符所对应的GMM。与第i种基础字符所对应的GMM具有身份相关且文本相关的特征，身份相关是指该GMM对应特定的目标用户；文本相关是指该GMM对应特定的数字，如图3中的与各种基础字符分别对应的GMM36所示。

比如，根据目标用户A的与数字“8”所对应的声纹特征，对目标用户A的GMM中的参数进行调整，从而得到目标用户A的与数字“8”所对应的GMM。

重复执行步骤204，得到目标用户的与各个单个字符分别对应的n个GMM。

步骤205，存储目标用户的与n种单个字符分别对应的n个GMM，n个GMM用于构建与第二字符串对应的HMM。

存储目标用户的n个GMM至模型库，以便在后续未知用户的身份识别阶段中，使用目标用户的n个GMM构建与第二字符串对应的HMM。

综上所述，本实施例提供的声纹模型训练方法，通过根据目标用户的各个字符所对应的声纹特征，将UBM训练得到目标用户的GMM，将目标用户的GMM训练得到目标用户的与n种基础字符分别对应的n个GMM，n个GMM用于构建与第二字符串对应的HMM；解决了目标用户的GMM是一个文本无关的模型，无法利用注册语音信号中丰富的信息的问题；达到了对于每个目标用户，训练得到与若干个基础字符分别对应的GMM，各个GMM之间考虑了每种基础字符对应的音频内容在音素层面的差异性，此外该若干个GMM还能够用于构建与识别字符串所对应的HMM模型，HMM模型还考虑了各个基础字符对应的音频内容在时域上的相关性，从而能够极大地增加目标用户的声纹模型在身份识别阶段的识别准确率。

图4示出了本发明一个实施例提供的声纹模型训练方法的方法流程图。该声纹模型训练方法可以应用于声纹识别***中。本实施例以该声纹模型训练方法包括：

步骤401，随机生成第一字符串并进行显示。

可选地，声纹识别***中存储有基础字符集合。以基础字符是数字为例，基础字符集合包括：0、1、2、3、4、5、6、7、8、9。

可选地，声纹识别***以基础字符集合中的基础字符为元素，按照随机算法随机生成第一字符串。第一字符串包括m个按序排列的字符，m个字符包括n种互不相同的基础字符，m和n均为正整数且m≥n。也即，每个基础字符可在第一字符串中的不同字符位置出现多次。可选地，为了提高模型覆盖率，第一字符串可包括基础字符集合中的全部基础字符。

比如，第一字符串为1981753651240；又比如，第一字符串为01580518。

声纹识别***将第一字符串显示在显示屏上，供待注册的目标用户朗读。可选地，声纹识别***还在显示屏上显示辅助信息，示意性的辅助信息为“请在提示音后，朗读出下述数字串：01580518”。

可选地，除了随机生成方式之外，第一字符串还可以是预设的固定不变的字符串。

步骤402，采集目标用户朗读第一字符串所产生的注册语音信号。

声纹识别***通过麦克风采集目标用户朗读第一字符串所产生的注册语音信号。

步骤403，识别注册语音信号中的有效语音片段和无效语音片段。

由于目标用户在朗读各个字符时，相邻两个字符之间存在停顿时间，所以注册语音信号中即包括有效语音片段，又包括无效语音片段。无效语音片段可以是完全静音的片段，即静音段；也可以是包含噪音的片段，即噪音段。

声纹识别***需要识别出注册语音信号中的有效语音片段和无效语音片段。图5示意性的示出了该识别过程的原理示意图。声纹识别***通过语音识别引擎对注册语音信号50进行标注，两个相邻的有效语音片段(图中波形信号所在的语音片段)之间的区域为无效语音片段，不参与后续的计算过程。

可选地，对注册语音信号进行标注后，相应的语音标注信息按照(起始时刻、终止时刻、基础字符)的格式进行保存，例如图4的语音标注信息如表一所示：

表一

起始时刻	终止时刻	基础字符
			1.86	2.36	0
3.07	3.60	1
			……	……	……
10.11	10.55	8

其中，1.86是指第一个基础字符“0”在注册语音信号中的起始时刻，2.36是指第一个基础字符“0”在注册语音信号中的终止时刻；3.07是指第二个基础字符“1”在注册语音信号中的起始时刻，3.60是指第二个基础字符“1”在注册语音信号中的终止时刻；10.11是指最后一个基础字符“8”在注册语音信号中的起始时刻，10.55是指最后一个基础字符“8”在注册语音信号中的终止时刻。

步骤404，将注册语音信号中的第j个有效语音片段，提取为与第一字符串中的第j个字符所对应的语音片段。

声纹识别***将注册语音信号中的第一个有效语音片段，提取为与第一字符串中的第一个字符所对应的语音片段；将注册语音信号中的第二个有效语音片段，提取为与第一字符串中的第二个字符所对应的语音片段，以此类推，注册语音信号中的最后一个有效语音片段，提取为与第一字符串中的最后一个字符所对应的语音片段。

比如，结合图5，将注册语音信号中“1.86-2.36”所对应的语音片段提取为与第一个字符“0”对应的语音片段。

步骤405，提取与第j个字符所对应的语音片段的声纹特征。

每个语音片段相当于一个短时语音帧序列，声纹识别***提取与第j个字符所对应的语音片段中的MFCC(Mel Frequency Cepstrum Coefficient，梅尔倒谱系数)或PLP(Perceptual Linear Predict ive，感知线性预测系数)，作为与第j个字符所对应的语音片段的声纹特征。

需要说明的是，j为大于等于1且小于等于m个正整数。可选地，存在位于不同排序位置但实质相同的字符，比如在第一字符串“01580518”中，第一个字符和第五个字符均为基础字符“0”，此时可提取到与基础字符“0”对应的两个声纹特征。

若第一字符串中包括n种基础字符，则可得到与n种基础字符分别对应的声纹特征。

步骤406，以目标用户的各个基础字符所对应的声纹特征为第一样本数据，采用最大后验概率算法对预设的UBM中的参数进行调整，得到目标用户的GMM。

UBM是预先构建的全部由数字训练得到的通用背景模型。UBM具有身份无关且文本无关的特性。示意性的，采用人数大于1000人、时长超过20小时的语音样本，不考虑数字的差异，训练得到UBM。

UBM的数学表达式为：

其中，P(x)代表UBM的概率分布，C代表UBM中共有C个高斯模块，进行加和，ω_i代表第i个高斯模块的权重，μ_i代表第i个高斯模块的均值，N(x)代表高斯分布，x代表输入的样本，样本也即声纹特征。

在本步骤中，不考虑基础字符之间的特征差异，将目标用户的所有基础字符对应的所有声纹特征作为输入的第一样本数据，对UBM进行训练。在训练过程中，通过最大后验概率算法对UBM中的参数进行调整，从而得到目标用户的GMM。

步骤407，以目标用户的与第i种基础字符所对应的声纹特征为第二样本数据，采用最大后验概率算法对目标用户的GMM中的参数进行调整，得到目标用户的与第i种基础字符所对应的GMM。

在本步骤中，需要考虑基础字符之间的特征差异，只使用于第i种基础字符所对应的声纹特征作为输入的第二样本数据，对目标用户的GMM进行二次训练。在训练过程中，通过最大后验概率算法对目标用户的GMM中的参数进行调整，得到目标用户的与第i种基础字符所对应的GMM。

比如，根据目标用户的与数字“0”所对应的声纹特征作为输入样本，对目标用户的GMM进行二次训练，得到目标用户的与数字“0”所对应的声纹特征。

当存在n种基础字符对应的声纹特征时，执行步骤407后，声纹识别***检测i是否等于n，若i小于n，则令i＝i+1，再次执行步骤407。

对于每个目标用户，最终训练得到与n种基础字符分别对应的n个GMM，基础字符与GMM一一对应，

示意性的参考图6，第一字符串是01580518，最终训练得到目标用户的声纹模型中，包括与4个基础字符对应的GMM，分别是ID_0对应的GMM、ID_1对应的GMM、ID_5对应的GMM、ID_8对应的GMM。

步骤408，存储目标用户的与n种基础字符分别对应的n个GMM，n个GMM用于构建与第二字符串对应的HMM。

声纹识别模块存储目标用户的与n种基础字符分别对应的n个GMM。

第二字符串是身份识别过程中所使用的字符串。可选的，第二字符串是基于n种基础字符中的全部字符或部分字符所随机生成的字符串。每种基础字符可在第二字符串的不同顺序位置出现，且每种基础字符可在第二字符串的不同顺序位置出现多次。

图7示出了本发明一个实施例提供的声纹识别方法的流程图。该声纹识别方法可应用于声纹识别***中，该声纹识别***可以与图2或图4所提及的声纹识别***属于同一设备，也可以与图2或图4所提及的声纹识别***属于不同设备。该声纹识别方法包括：

步骤701，获取未知用户朗读第二字符串所产生的测试语音信号。

可选地，第二字符串包括k个按序排列的字符，k个字符包括n种互不相同的基础字符中的全部字符或部分字符，k和n均为正整数。

可选地，n种互不相同的基础字符是目标用户的注册过程所使用的n种基础字符。

可选地，第二字符串是随机生成的或固定不变的，第二字符串与第一字符串相同或不相同均可。比如，第二字符串是数字字符串“851185”。

步骤702，从注册语音信号中提取出各个字符所对应的声纹特征序列。

步骤703，根据目标用户的与n种基础字符分别对应的n个GMM，构建与第二字符串对应的HMM。

比如，目标用户的n个GMM包括与4个基础字符对应的GMM，分别是ID_0对应的GMM、ID_1对应的GMM、ID_5对应的GMM、ID_8对应的GMM。

由于第二字符串仅包括基础字符“1”“5”“8”，则利用ID_1对应的GMM、ID_5对应的GMM、ID_8对应的GMM，构建出与第二字符串“851185”对应的HMM。

步骤704，计算测试语音信号与隐马尔科夫模型的相似度分数。

步骤705，当相似度分数大于预设阈值时，将未知用户识别目标用户。

综上所述，本实施例提供的声纹识别方法，通过将测试语音信号的声纹特征序列，与多个基础字符对应的GMM所构建的HMM计算相似度分数，从而对未知用户进行身份识别；解决了目标用户的GMM是一个文本无关的模型，无法利用注册语音信号中丰富的信息的问题；达到了对于每个目标用户，与各个基础字符分别对应的GMM之间考虑了每种基础字符对应的音频内容在音素层面的差异性，且HMM模型还考虑了各个基础字符对应的音频内容在时域上的相关性，从而能够极大地增加目标用户的声纹模型在身份识别阶段的识别准确率。

图8示出了本发明一个实施例提供的声纹识别方法的流程图。该声纹识别方法可应用于声纹识别***中，该声纹识别***可以与图2或图4所提及的声纹识别***属于同一设备，也可以与图2或图4所提及的声纹识别***属于不同设备。该声纹识别方法包括：

步骤801，基于n种基础字符，随机生成第二字符串并进行显示。

可选地，声纹识别***中存储有基础字符集合。以基础字符是数字为例，基础字符集合可以包括：0、1、2、3、4、5、6、7、8、9。

可选地，声纹识别***以基础字符集合中的基础字符为元素，按照随机算法随机生成第二字符串。第二字符串包括k个按序排列的字符，k个字符包括n种互不相同的基础字符中的全部字符或部分字符，k和n均为正整数，通常k≥n。也即，一个基础字符可在第二字符串中的不同字符位置出现多次。比如，第二字符串为851185。

声纹识别***将第二字符串显示在显示屏上，供未知用户朗读。可选地，声纹识别***还在显示屏上显示辅助信息，示意性的辅助信息为“请在提示音后，朗读出下述数字串：851185”。

可选地，除了随机生成方式之外，第二字符串还可以是预设的固定不变的字符串。

步骤802，从测试语音信号中提取出各个字符所对应的声纹特征序列；

由于未知用户在朗读各个字符时，相邻两个字符之间存在停顿时间，所以测试语音信号中即包括有效语音片段，又包括无效语音片段。无效语音片段可以是静音段或噪音段。

声纹识别***识别出测试语音信号中的有效语音片段和无效语音片段，并对有效语音片段进行标注。该过程可以参考步骤403中的相关描述。

声纹识别***将测试语音信号中的第j个有效语音片段，提取为与第一字符串中的第j个字符所对应的语音片段，并提取与第j个字符所对应的语音片段的声纹特征。

每个语音片段相当于一个短时语音帧序列，声纹识别***提取与第j个字符所对应的语音片段中的MFCC或PLP，作为与第j个字符所对应的语音片段的声纹特征。由于测试语音信号中包括k个字符，所以声纹识别***能够提取到按序排列的k组声纹特征，每组声纹特征中包括数量不等的语音帧的MFCC或PLP，所有的声纹特征按照时间戳进行排序后，形成测试语音信号的声纹特征序列。

比如，对于第1个字符“8”，提取到时长1000毫秒的一组声纹特征，若每个语音帧的帧长为20毫秒左右，则该组声纹特征中存在大约50个声纹特征；对于第2个字符“5”，提取到时长1020毫秒的一组声纹特征，若每个语音帧的帧长为20毫秒左右，则该组声纹特征中存在大约51个声纹特征，诸如此类，不再一一赘述。

换句话说，在不同时刻顺序排列的50个声纹特征均对应于第1个字符“8”，在随后排列的51个声纹特征均对应于第2个字符“5”，诸如此类，不再一一赘述。

步骤803，获取第二字符串的第x个字符，从目标用户的与n种基础字符分别对应的n个GMM中，将与第x个字符对应的GMM，确定为隐马尔科夫模型的第x阶状态模型；

以第二字符串为“851185”为例，获取第二字符串的第1个字符“8”，从目标用户的与n种基础字符分别对应的n个GMM中，将与第1个字符“8”对应的GMM，确定为隐马尔科夫模型的第1阶状态模型；

获取第二字符串的第1个字符“8”，从目标用户的与n种基础字符分别对应的n个GMM中，将与第1个字符“8”对应的GMM，确定为隐马尔科夫模型的第1阶状态模型；

获取第二字符串的第2个字符“5”，从目标用户的与n种基础字符分别对应的n个GMM中，将与第2个字符“5”对应的GMM，确定为隐马尔科夫模型的第2阶状态模型；

获取第二字符串的第3个字符“1”，从目标用户的与n种基础字符分别对应的n个GMM中，将与第3个字符“1”对应的GMM，确定为隐马尔科夫模型的第3阶状态模型；

获取第二字符串的第4个字符“1”，从目标用户的与n种基础字符分别对应的n个GMM中，将与第4个字符“1”对应的GMM，确定为隐马尔科夫模型的第4阶状态模型；

获取第二字符串的第5个字符“8”，从目标用户的与n种基础字符分别对应的n个GMM中，将与第5个字符“8”对应的GMM，确定为隐马尔科夫模型的第5阶状态模型；

获取第二字符串的第6个字符“5”，从目标用户的与n种基础字符分别对应的n个GMM中，将与第6个字符“5”对应的GMM，确定为隐马尔科夫模型的第6阶状态模型。

由于第二字符串包括k个字符，所以步骤803会执行k次。

步骤804，将每一阶状态模型的自转概率和跳转概率设置为预设值，构建得到与第二字符串对应的隐马尔科夫模型。

每一阶HMM状态模型包括状态概率分布、自转概率和跳转概率。对于声纹特征序列中时刻t对应的声纹特征，第x阶状态模型的状态概率分布表示该声纹特征符合第x阶状态模型所对应的基础字符的概率，自转概率表示观测特征从时刻t对应的声纹特征转到时刻t+1对应的声纹特征时，从第x阶状态模型保持在第x阶状态模型的概率；跳转概率表示观测特征从时刻t对应的声纹特征转到时刻t+1对应的声纹特征时，从第x阶状态模型跳转至第x+1阶状态模型的概率。

可选地，将每一阶状态模型的自转概率和跳转概率均设置为0.5。

经过本步骤所生成的HMM模型，示意性的参考图9所示。

步骤805，将声纹特征序列输入HMM，采用维特比分配算法计算出最大似然概率，将最大似然概率确定为相似度分数。

由于在声纹特征序列中，每个字符通常对应顺序排列的连续多个声纹特征，声纹特征序列中的声纹特征数量大于HMM中的GMM模型数量，所以对于HMM中的每一阶状态模型，可能存在顺序排列的连续多个声纹特征与之对应。在将声纹特征序列输入HMM后，按照不同的GMM跳转路径，能够计算出该声纹特征序列对应的多个概率。维特比(Viterbi)分配算法能够计算出该声纹特征序列输入HMM后的最大似然概率，声纹识别算法将该最大似然概率确定为该声纹特征序列与HMM模型的相似度分数。

可选地，该相似度分数采用对数log进行表示。

需要说明的是，基于每个目标用户的n个GMM，都可构建与第二字符串所对应的HMM。所以目标用户为Z个时，与第二字符串所对应的HMM也为Z个，步骤805也会对应的执行Z次。但在一些场景下，仅需要确认未知用户是否为某一个特定的目标用户即可，此时，步骤805仅需要执行1次即可。

步骤806，当相似度分数大于预设阈值时，将未知用户识别目标用户。

将测试语音信号的声纹特征序列输入各个目标用户的HMM后，得到多个相似度分数。将每个相似度分数与预设阈值相比，若相似度分数大于预设阈值，则声纹识别***将未知用户的身份识别为目标用户。

反之，若相似度分数小于预设阈值，则声纹识别***确定未知用户与目标用户不匹配，声纹识别***可以让未知用户重新测试，或拒绝未知用户进行后续操作。

需要说明的是，声纹识别***可以由一个终端实现，也可以由终端和服务器组合实现。当由终端和服务器组合实现时，语音采集阶段和声纹特征提取阶段可由终端执行，而声纹模型的训练过程和/或声纹识别过程可由服务器执行。

在一些可能的实施例中，声纹模型的训练过程由第一声纹识别***执行，并将训练得到的目标用户的n个GMM保存在共享模型库，而声纹识别过程由第二声纹识别***执行，第二声纹识别***从共享模型库获取并使用目标用户的n个GMM，以生成第二字符串以及构建与第二字符串对应的HMM模型。

在一个具体的例子中，在1000人训练样本，29万次测试中(其中身份匹配的测试在1万次左右，不匹配测试约在28万次)，能够实现千分之一错误率下68.88％的召回率，等错概率(EER，Equal Error Rate)为4.52％，相较于传统的文本无关建模方法，性能提升超过30％以上。

图10示出了本发明一个实施例提供的声纹模型训练装置的结构方框图。该声纹模型训练装置可以通过专用硬件电路，或，软硬件的结合实现成为声纹识别***的全部或者一部分。所述装置包括：

采集模块1010，用于采集目标用户朗读第一字符串所产生的注册语音信号，所述第一字符串包括m个按序排列的字符，所述m个字符包括n种互不相同的基础字符，m和n均为正整数且m≥n；

提取模块1020，用于从所述注册语音信号中提取出每个字符所对应的声纹特征；

第一训练模块1030，用于以所述目标用户的各个所述字符所对应的所述声纹特征为第一样本数据，对预设的通用背景模型进行训练，得到所述目标用户的混合高斯模型；

第二训练模块1040，用于以所述目标用户的与第i种基础字符所对应的声纹特征为第二样本数据，对所述目标用户的所述混合高斯模型进行训练，得到所述目标用户的与第i种基础字符所对应的所述混合高斯模型；

存储模块1050，用于存储所述目标用户的与n种基础字符分别对应的n个混合高斯模型，所述n个混合高斯模型用于构建与第二字符串对应的隐马尔可夫模型。

在可选的实施例中，所述装置，还包括：

显示模块1060，用于随机生成所述第一字符串进行显示。

在可选的实施例中，所述提取模块1020，包括：

识别单元，用于识别所述注册语音信号中的有效语音片段和无效语音片段，所述无效语音片段包括静音段和/或噪音段；

片段提取单元，用于将所述注册语音信号中的第j个有效语音片段，提取为与所述第一字符串中的第j个字符所对应的语音片段；

特征提取单元，用于提取与所述第j个字符所对应的语音片段的声纹特征。

在可选的实施例中，所述特征提取单元，用于提取与所述第j个字符所对应的语音片段中的梅尔倒谱系数MFCC或感知线性预测系数PLP，作为与所述第j个字符所对应的语音片段的声纹特征。

在可选的实施例中，所述第一训练模块1030，具体用于以所述目标用户的各个所述基础字符所对应的所述声纹特征为第一样本数据，采用最大后验概率算法对预设的通用背景模型中的参数进行调整；将调整参数后的所述通用背景模型确定为所述目标用户的混合高斯模型。

在可选的实施例中，所述第二训练模块1040，具体用于以所述目标用户的与第i种基础字符所对应的声纹特征为第二样本数据，采用最大后验概率算法对所述目标用户的混合高斯模型中的参数进行调整；将调整参数后的所述目标用户的混合高斯模型，确定为所述目标用户的与第i种基础字符所对应的所述混合高斯模型。

需要说明的是，当声纹识别***由终端和服务器组合实现时，上述的采集模块1010、提取模块1020和显示模块1060可由终端中的专用硬件电路或软硬件的组合实现；上述第一训练模块1030、第二训练模块1040和存储模块1050可由服务器中的专用硬件电路或软硬件的组合实现。但本发明实施例对此不加以限定，比如，上述的提取模块1020也可以服务器中的专用硬件电路实现，或，软硬件的组合实现。

图11示出了本发明一个实施例提供的声纹识别装置的结构方框图。该声纹识别装置可以通过专用硬件电路，或，软硬件的结合实现成为声纹识别***的全部或者一部分。所述装置包括：

获取模块1110，用于获取未知用户朗读第二字符串所产生的测试语音信号，所述第二字符串包括k个按序排列的字符，所述k个字符包括n种互不相同的基础字符中的全部字符或部分字符，k和n均为正整数；

提取模块1120，用于从所述测试语音信号中提取出各个字符所对应的声纹特征序列；

构建模块1130，用于根据目标用户的与n种基础字符分别对应的n个混合高斯模型，构建与所述第二字符串对应的隐马尔科夫模型；

计算模块1140，用于计算所述声纹特征序列与所述隐马尔科夫模型的相似度分数；

识别模块1150，用于当所述相似度分数大于预设阈值时，将所述未知用户识别所述目标用户。

在可选的实施例中，所述装置，还包括：

显示模块1160，用于基于所述n种基础字符，随机生成所述第二字符串进行显示。

在可选的实施例中，所述构建模块1130，具体用于获取所述第二字符串的第x个字符，x为大于等于1且小于等于k的正整数；从所述目标用户的与n种基础字符分别对应的n个混合高斯模型中，将与所述第x个字符对应的所述混合高斯模型，确定为所述隐马尔科夫模型的第x阶状态模型；将每一阶状态模型的自转概率和跳转概率设置为预设值，构建得到与所述第二字符串对应的所述隐马尔科夫模型。

在可选的实施例中，所述计算模块1140，具体用于将所述声纹特征序列输入所述隐马尔科夫模型，采用维比特分配算法计算出最大似然概率，将所述最大似然概率确定为所述相似度分数。

需要说明的是，当声纹识别***由终端和服务器组合实现时，上述的获取模块1110、提取模块1120和显示模块1160可由终端中的专用硬件电路实现，或，软硬件的组合实现；上述构建模块1130、计算模块1140和识别模块1150可由服务器中的专用硬件电路或软硬件的组合实现。但本发明实施例对此不加以限定，比如，上述的提取模块1120也可以服务器中的专用硬件电路实现，或，软硬件的组合实现。

本发明实施例所述的软硬件的组合，通常是指处理器运行存储器中的一个或一个以上的程序指令，来实现上述方法实施例所提供的步骤或者上述装置实施例中的“模块或单元”。

需要说明的是：上述实施例提供的声纹模型训练装置在训练声纹模型时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的声纹模型训练装置与声纹模型训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述实施例提供的声纹识别装置在声纹识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的声纹识别装置与声纹识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种声纹模型训练方法，其特征在于，所述方法包括：

从所述注册语音信号中提取出每个字符所对应的声纹特征；

2.根据权利要求1所述的方法，其特征在于，所述采集目标用户朗读预定字符串所产生的语音信号之前，还包括：

随机生成所述第一字符串进行显示。

3.根据权利要求1所述的方法，其特征在于，所述从所述注册语音信号中提取出每个字符所对应的声纹特征，包括：

识别所述注册语音信号中的有效语音片段和无效语音片段，所述无效语音片段包括静音段和/或噪音段；

将所述注册语音信号中的第j个有效语音片段，提取为与所述第一字符串中的第j个字符所对应的语音片段；

提取与所述第j个字符所对应的语音片段的声纹特征。

4.根据权利要求3所述的方法，其特征在于，所述提取与第j个字符所对应的语音片段的声纹特征，包括：

提取与所述第j个字符所对应的语音片段中的梅尔倒谱系数MFCC或感知线性预测系数PLP，作为与所述第j个字符所对应的语音片段的声纹特征。

5.根据权利要求1至4任一所述的方法，其特征在于，所述以所述目标用户的各个所述基础字符所对应的所述声纹特征为第一样本数据，对预设的通用背景模型进行训练，得到所述目标用户的混合高斯模型，包括：

以所述目标用户的各个所述基础字符所对应的所述声纹特征为第一样本数据，采用最大后验概率算法对预设的通用背景模型中的参数进行调整；

将调整参数后的所述通用背景模型确定为所述目标用户的混合高斯模型。

6.根据权利要求1至4任一所述的方法，其特征在于，所述以所述目标用户的与第i种基础字符所对应的声纹特征为第二样本数据，对所述目标用户的所述混合高斯模型进行训练，得到所述目标用户的与第i种基础字符所对应的所述混合高斯模型，包括：

以所述目标用户的与第i种基础字符所对应的声纹特征为第二样本数据，采用最大后验概率算法对所述目标用户的混合高斯模型中的参数进行调整；

将调整参数后的所述目标用户的混合高斯模型，确定为所述目标用户的与第i种基础字符所对应的所述混合高斯模型。

7.一种声纹识别方法，其特征在于，所述方法包括：

根据目标用户的与n种基础字符分别对应的n个混合高斯模型，构建与所述第二字符串对应的隐马尔科夫模型；所述与n种基础字符分别对应的n个混合高斯模型是以所述目标用户的与第i种所述基础字符所对应的声纹特征为第二样本数据，对所述目标用户的所述混合高斯模型进行训练得到的模型；所述目标用户的所述混合高斯模型是以所述目标用户的各个所述字符所对应的所述声纹特征为第一样本数据，对预设的通用背景模型进行训练得到的模型；

8.根据权利要求7所述的方法，其特征在于，所述获取未知用户朗读第二字符串所产生的测试语音信号之前，还包括：

基于所述n种基础字符，随机生成所述第二字符串进行显示。

9.根据权利要求7所述的方法，其特征在于，所述根据目标用户的与n种基础字符分别对应的n个混合高斯模型，构建与所述第二字符串对应的隐马尔科夫模型，包括：

获取所述第二字符串的第x个字符，x为大于等于1且小于等于k的正整数；

从所述目标用户的与n种基础字符分别对应的n个混合高斯模型中，将与所述第x个字符对应的所述混合高斯模型，确定为所述隐马尔科夫模型的第x阶状态模型；

将每一阶状态模型的自转概率和跳转概率设置为预设值，构建得到与所述第二字符串对应的所述隐马尔科夫模型。

10.根据权利要求7所述的方法，其特征在于，所述计算所述声纹特征序列与所述隐马尔科夫模型的相似度分数，包括：

将所述声纹特征序列输入所述隐马尔科夫模型，采用维特比分配算法计算出最大似然概率，将所述最大似然概率确定为所述相似度分数。

11.一种声纹模型训练装置，其特征在于，所述装置包括：

12.根据权利要求11所述的装置，其特征在于，所述装置，还包括：

显示模块，用于随机生成所述第一字符串进行显示。

13.根据权利要求11所述的装置，其特征在于，所述提取模块，包括：

14.根据权利要求13所述的装置，其特征在于，所述特征提取单元，用于提取与所述第j个字符所对应的语音片段中的梅尔倒谱系数MFCC或感知线性预测系数PLP，作为与所述第j个字符所对应的语音片段的声纹特征。

15.根据权利要求11至14任一所述的装置，其特征在于，所述第一训练模块，具体用于以所述目标用户的各个所述基础字符所对应的所述声纹特征为第一样本数据，采用最大后验概率算法对预设的通用背景模型中的参数进行调整；将调整参数后的所述通用背景模型确定为所述目标用户的混合高斯模型。

16.根据权利要求11至14任一所述的装置，其特征在于，所述第二训练模块，具体用于以所述目标用户的与第i种基础字符所对应的声纹特征为第二样本数据，采用最大后验概率算法对所述目标用户的混合高斯模型中的参数进行调整；将调整参数后的所述目标用户的混合高斯模型，确定为所述目标用户的与第i种基础字符所对应的所述混合高斯模型。

17.一种声纹识别装置，其特征在于，所述装置包括：

构建模块，用于根据目标用户的与n种基础字符分别对应的n个混合高斯模型，构建与所述第二字符串对应的隐马尔科夫模型；所述与n种基础字符分别对应的n个混合高斯模型是以所述目标用户的与第i种所述基础字符所对应的声纹特征为第二样本数据，对所述目标用户的所述混合高斯模型进行训练得到的模型；所述目标用户的所述混合高斯模型是以所述目标用户的各个所述字符所对应的所述声纹特征为第一样本数据，对预设的通用背景模型进行训练得到的模型；

18.根据权利要求17所述的装置，其特征在于，所述装置，还包括：

显示模块，用于基于所述n种基础字符，随机生成所述第二字符串进行显示。

19.根据权利要求17所述的装置，其特征在于，所述构建模块，具体用于获取所述第二字符串的第x个字符，x为大于等于1且小于等于k的正整数；从所述目标用户的与n种基础字符分别对应的n个混合高斯模型中，将与所述第x个字符对应的所述混合高斯模型，确定为所述隐马尔科夫模型的第x阶状态模型；将每一阶状态模型的自转概率和跳转概率设置为预设值，构建得到与所述第二字符串对应的所述隐马尔科夫模型。

20.根据权利要求17所述的装置，其特征在于，所述计算模块，具体用于将所述声纹特征序列输入所述隐马尔科夫模型，采用维比特分配算法计算出最大似然概率，将所述最大似然概率确定为所述相似度分数。