CN102238190B

CN102238190B - 身份认证方法及***

Info

Publication number: CN102238190B
Application number: CN2011102180452A
Authority: CN
Inventors: 潘逸倩; 胡国平; 何婷婷; 魏思; 胡郁; 王智国; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2011-08-01
Filing date: 2011-08-01
Publication date: 2013-12-11
Anticipated expiration: 2031-08-01
Also published as: CN102238190A

Abstract

本发明公开了一种身份认证方法及***，该方法包括：在用户登录时，接收当前登录用户录入的连续语音信号；提取所述连续语音信号中的声纹特征序列；计算所述声纹特征序列与背景模型的似然度；计算所述声纹特征序列与所述当前登录用户的说话人模型的似然度；所述说话人模型是根据所述当前登录用户注册时录入的注册语音信号的重复次数及帧数构建的多混合高斯模型；根据所述声纹特征序列与说话人模型的似然度、以及所述声纹特征序列与背景模型的似然度，计算似然比；如果所述似然比大于设定的阈值，则确定所述当前登录用户为有效认证用户，否则确定所述当前登录用户为非认证用户。利用本发明，可以提高基于声纹密码进行身份认证的准确率。

Description

身份认证方法及***

技术领域

本发明涉及身份识别技术领域，特别涉及一种身份认证方法及***。

背景技术

声纹识别(Voiceprint Recognition，VPR)也称为说话人识别，有两类，即说话人辨认和说话人确认。前者用以判断某段语音是若干人中的哪一个所说的，是“多选一”问题；而后者用以确认某段语音是否是指定的某个人所说的，是“一对一判别”问题。不同的任务和应用会使用不同的声纹识别技术。

声纹认证是指根据采集到的语音信号确认说话人身份，属于“一对一”的判别问题。现今主流的声纹认证***采用了基于假设检验的框架，通过分别计算声纹信号相对于说话人模型以及背景模型的似然度并比较它们的似然比和预先根据经验设置的阈值大小来确认。显然背景模型和说话人模型的精确度将直接影响到声纹认证效果，在基于数据驱动的统计模型设定下训练数据量越大则模型效果越好。

声纹密码认证是一种文本相关的说话人身份认证方法。该方法要求用户语音输入确定密码文本，并据此确认说话人身份。在该应用中用户注册及身份认证均采用确定密码文本的语音输入，因而其声纹往往较为一致，相应的可取得相比于文本无关的说话人确认更好的认证效果。

现今声纹密码认证***最为主流的技术路线是GMM-UBM算法，即分别采用了混合高斯(Gaussian Mixture Model，GMM)模型模拟背景模型(Universal Background Model，UBM)及说话人模型。UBM模型用于描述说话人声纹的共性。由于各说话人声纹总有各自特异性，相应的基于多说话人训练数据的UBM模型需要复杂的模型结构以满足分布分散数据的拟合要求。目前UBM模型通常选择1024甚至更大高斯数的GMM模型。

说话人模型由***在用户注册时根据注册语音在线训练得到。由于注册用语音样本往往有限，直接据此训练复杂模型由于数据稀疏易导致模型不够精确等问题。为此，在现有技术中，通常是以背景模型为初始模型通过各种自适应方法根据少量说话人数据调整模型部分参数，如目前最为常用的基于最大后验概率(Maximum A Posterior，MAP)的自适应算法等，将用户声纹共性自适应为当前说话人个性。

在自适应更新算法下说话人的混合高斯模型和通用背景高斯模型的各高斯之间形成一对一的对应关系，因此，使得说话人模型参数过多，在注册数据量较少的声纹密码认证***中容易导致以下问题：

1.模型冗余：声纹密码认证***中说话人模型是由几遍注册语音密码重复的样本数据训练得到的。过少的样本数据导致自适应算法只能更新初始背景模型中部分高斯，而很多都保留了和背景模型类似的高斯分量。冗余模型参量的存在容易导致存储及运算压力的增大，进而影响解码的效率。

2.模型训练量较大：在自适应算法中，需要计算初始背景模型的1024甚至更大高斯数的每个高斯的样本统计量，并对其参数更新。

3.在自适应算法中，由于说话人模型的方差重估较为困难，因而往往直接采用背景模型的方差。由于背景模型是基于多说话人训练数据得到的模拟声纹共性的模型，其模型概率分布方差往往较大。而说话人模型的方差模拟的说话人特定声纹的特点，具有特异性。直接用背景模型方差不能很好地体现说话人模型特点，降低了不同说话人模型之间的区分性，从而影响识别准确率。

发明内容

本发明实施例提供一种身份认证方法和***，以提高基于声纹密码进行身份认证的准确率。

本发明实施例一方面提供一种身份认证方法，包括：

在用户登录时，接收当前登录用户录入的连续语音信号；

提取所述连续语音信号中的声纹特征序列，所述声纹特征序列包含一组声纹特征；

计算所述声纹特征序列与背景模型的似然度；

计算所述声纹特征序列与所述当前登录用户的说话人模型的似然度，所述说话人模型是根据所述当前登录用户注册时录入的注册语音信号的重复次数及帧数构建的多混合高斯模型；

根据所述声纹特征序列与说话人模型的似然度、以及所述声纹特征序列与背景模型的似然度，计算似然比；

如果所述似然比大于设定的阈值，则确定所述当前登录用户为有效认证用户，否则确定所述当前登录用户为非认证用户。

本发明实施例另一方面提供一种身份认证***，包括：

语音信号接收单元，用于在用户登录时，接收当前登录用户录入的连续语音信号；

提取单元，用于提取所述连续语音信号中的声纹特征序列，所述声纹特征序列包含一组声纹特征；

第一计算单元，用于计算所述声纹特征序列与背景模型的似然度；

第二计算单元，用于计算所述声纹特征序列与所述当前登录用户的说话人模型的似然度，所述说话人模型是根据所述当前登录用户注册时录入的注册语音信号的重复次数及帧数构建的多混合高斯模型；

第三计算单元，用于根据所述声纹特征序列与说话人模型的似然度、以及所述声纹特征序列与背景模型的似然度，计算似然比；

判断单元，用于在所述第三计算单元计算得到的似然比大于设定的阈值时，确定所述当前登录用户为有效认证用户，否则确定所述当前登录用户为非认证用户。

本发明实施例提供的身份认证方法和***，根据当前登录用户录入的连续语音信号中的声纹特征序列，分别计算声纹特征序列与当前登录用户的说话人模型及背景模型的似然度，然后计算似然比，根据得到的似然比确定当前登录用户是否为有效认证用户。由于在该方案中，所使用的说话人模型是根据当前登录用户注册时录入的语音信号构建的多混合高斯模型，从而可以模拟所述用户说出同一语音信号(即密码)存在的不同发音变化的特点，提高了基于声纹密码进行身份认证的准确率。

附图说明

为了更清楚地说明本发明实施的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例身份认证方法的流程图；

图2是本发明实施例中背景模型参数训练过程的一种流程图；

图3是传统的利用自适应算法构建说话人模型的流程图；

图4是本发明实施例中构建说话人模型的流程图；

图5是本发明实施例身份认证***的一种结构示意图；

图6是本发明实施例身份认证***的另一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，是本发明实施例身份认证方法的流程图，包括以下步骤：

步骤101，在用户登录时，接收当前登录用户录入的连续语音信号。

步骤102，提取所述连续语音信号中的声纹特征序列。

该声纹特征序列包含一组声纹特征，可以有效地区分不同的说话人，且对同一说话人的变化保持相对稳定。

所述声纹特征主要有：谱包络参数语音特征，基音轮廓、共振峰频率带宽特征，线性预测系数，倒谱系数等。考虑到上述声纹特征的可量化性、训练样本的数量和***性能的评价等问题，可以选用MFCC(Mel FrequencyCepstrum Coefficient，Mel频率倒谱系数)特征，对窗长25ms帧移10ms的每帧语音数据做短时分析得到MFCC参数及其一阶二阶差分，共计39维。这样，每句语音信号可以量化为一个39维声纹特征矢量序列X。

步骤103，计算所述声纹特征序列与背景模型的似然度。

帧数为T的声纹特征矢量序列X相应于背景模型(UBM)的似然度为：

p (X | UBM) = \frac{1}{T} Σ_{t = 1}^{T} Σ_{m = 1}^{M} c_{m} N (X_{t}; μ_{m}, Σ_{m}) - - - (1)

其中，c_m是第m个高斯的加权系数，满足μ_m以及∑_m分别是第m个高斯的均值和方差。其中N(.)满足正态分布，用于计算t时刻的声纹特征矢量X_t在单高斯分量上的似然度：

N (X_{t}; μ_{m}, Σ_{m}) = \frac{1}{\sqrt{{(2 π)}^{n} | Σ_{m} |}} e^{- \frac{1}{2} {(X_{t} - μ_{m})}^{'} {Σ_{m}}^{- 1} (X_{t} - μ_{m})} - - - (2)

步骤104，计算所述声纹特征序列与所述当前登录用户的说话人模型的似然度，所述说话人模型是根据所述当前登录用户注册时录入的注册语音信号的重复次数及帧数构建的多混合高斯模型。

由于说话人模型是根据所述当前登录用户注册时录入的语音信号构建的多混合高斯模型，因此，在该步骤中，计算所述声纹特征序列与所述当前登录用户的说话人模型的似然度时，需要分别计算所述声纹特征序列中各声纹特征与每个混合高斯模型的似然度；然后根据计算得到的所有似然度确定所述声纹特征与所述当前登录用户的说话人模型的似然度。具体可以有多种实现方式，比如：

1.先分别计算所述声纹特征序列与每个混合高斯模型的似然度，然后再根据计算结果确定所述声纹特征序列与所述当前登录用户的说话人模型的似然度。

在这种方式中，可以分别计算所述声纹特征序列中每个声纹特征与所述多混合高斯模型中每个混合高斯模型的似然度；选择所述声纹特征序列中一组声纹特征对应一个混合高斯模型计算得到的似然度总和的时间平均值作为所述声纹特征序列与该混合高斯模型的似然度。

而在得到所述声纹特征序列与每个混合高斯模型的似然度后，可以选择其中的一个最大值或均值作为所述声纹特征序列与所述当前登录用户的说话人模型的似然度。

2.先分别计算所述声纹特征序列中每个声纹特征相对于所述多混合高斯模型的似然度，然后再根据计算结果确定所述声纹特征序列与所述当前登录用户的说话人模型的似然度。

在这种方式中，可以分别计算所述声纹特征序列中每个声纹特征与所述多混合高斯模型中每个混合高斯模型的似然度；选择所述声纹特征序列中一个声纹特征对应所述多混合高斯模型中每个混合高斯模型计算得到的似然度中的最大值作为该声纹特征与所述多混合高斯模型的似然度；或者，选择所述声纹特征序列中一个声纹特征对应所述多混合高斯模型中每个混合高斯模型计算得到的所有似然度的平均值作为该声纹特征与所述多混合高斯模型的似然度。

而在得到所述声纹特征中每个声纹特征与多混合高斯模型的似然度后，选择声纹特征序列的所有声纹特征似然度的总和时间平均值作为所述声纹特征序列与所述当前登录用户的说话人模型的似然度。

当然，还可以有其他选择方式，比如对计算得到的所有似然度进行加权平均等，对此本发明实施例不做限定。

步骤105，根据所述声纹特征序列与说话人模型的似然度、以及所述声纹特征序列与背景模型的似然度，计算似然比。

似然比为：

p = \frac{p (X | U)}{p (X | UBM)} - - - (3)

其中，p(X|U)为所述声纹特征与说话人模型的似然度，p(X|UBM)为所述声纹特征与背景模型的似然度。

步骤106，判断所述似然比是否大于设定的阈值，如果是，则执行步骤107；否则，执行步骤108。

上述阈值可以由***预先设定，一般来说，该阈值越大，则***的灵敏度越高，要求用户在登录时尽可能按照注册时录入的语音信号(即密码)的发音，反之，则***的灵敏度较低，允许用户登录时录入的语音信号的发音与注册时的发音存在一定的变化。

步骤107，确定所述当前登录用户为有效认证用户。

步骤108，确定所述当前登录用户为非认证用户。

需要说明的是，为了提高***的鲁棒性，在上述步骤101和步骤102之前，还可以对所述连续语音信号进行降噪处理，比如，首先通过对语音信号的短时能量和短时过零率分析，将连续的语音信号分割成独立的语音片断和非语音片断。然后通过前端降噪处理减少信道噪音及背景噪音的干扰，提高语音信噪比，为后续***处理提供干净的信号。

用户声纹特征既有相对稳定性，又有变异性。一方面容易受到身体状况、年龄、情绪等的影响，另一方面容易受到外界环境噪音及语音采集信道的干扰，因此说话人模型需要能较好地区别同一说话人的不同声纹变化。在本发明实施例中，说话人模型是根据所述当前登录用户注册时录入的语音信号构建的多混合高斯模型，混合高斯模型数和每一个混合高斯模型的高斯数与用户注册时录入的语音信号的重复次数和该语音信号的帧数相关，从而可以利用多个混合高斯模型模拟用户对说出同一密码(即上述语音信号)存在的不同发音变化的特点，提高了基于声纹密码进行身份认证的准确率。

在本发明实施例中，背景模型用于描述说话人声纹的共性，该背景模型需要预先构建，具体可以采用现有技术中的一些方式，比如，采用1024或者更大高斯数的混合高斯模型模拟背景模型，其模型参数训练过程如图2所示。

步骤201，从多说话人训练语音信号中分别提取声纹特征，每个声纹特征作为一个特征矢量。

步骤202，利用聚类算法对上述特征矢量进行聚类，得到K个高斯的初始化均值，K是预先设置的混合高斯模型个数。

比如，可以采用传统的LBG(Linde，Buzo，Gray)聚类算法，通过训练矢量集和一定的迭代算法来逼近最优的再生码本。

步骤203，利用EM(Expectation Maximization)算法迭代更新上述均值、方差及各高斯对应的加权系数，得到背景模型。

具体的迭代更新过程与现有技术相同，在此不再详细描述。

当然，还可以采用其他方式构建背景模型，对此本发明实施例不做限定。

在本发明实施例中，需要区分用户是处于登录模式还是注册模式，如果是登录模式，则需要按照图1所示的流程对该用户进行基于声纹密码的身份认证，如果是注册模式，则需要接收所述用户录入的注册语音信号，并根据所述注册语音信号构建所述用户的说话人模型。

本发明实施例中说话人模型的构建过程与传统的说话人模型的构建过程是完全不同的，为了更好地说明这一点，下面首先对传统的说话人模型的构建过程做简单说明。

传统的说话人模型的构建过程是以背景模型为初始模型，通过自适应方法调整模型部分参数，如目前最为常用的基于最大后验概率的自适应算法等。自适应算法根据少量说话人数据将用户声纹共性自适应为当前说话人个性，其具体训练流程如图3所示，包括以下步骤：

步骤301，从用户录入的注册语音信号中提取声纹特征。

步骤302，利用所述声纹特征自适应更新背景模型混合高斯的均值μ_m。

具体地，新高斯均值μ_m计算为样本统计量和原始高斯均值的加权平均，即：

\hat{μ_{m}} = \frac{Σ_{t = 1}^{T} γ_{m} (x_{t}) x_{t} + τ μ_{m}}{Σ_{t = 1}^{T} γ_{m} (x_{t}) + τ} - - - (4)

其中，x_t表示第t帧声纹特征，γ_m(x_t)表示第t帧声纹特征落于第m个高斯的概率，τ是遗忘因子，用于平衡历史均值以及样本对新均值的更新力度。一般来说，τ值越大，则新均值主要受原始均值制约。而若τ值较小，则新均值主要由样本统计量决定，更多的体现了新样本分布的特点。

步骤303，复制背景模型方差作为所述用户的说话人模型方差。

步骤304，生成所述用户的说话人模型。

在本发明实施例中，需要在用户注册时，接收所述用户录入的注册语音信号，并根据所述注册语音信号构建所述用户的说话人模型。该说话人模型由多个混合高斯模型构成，以模拟说话人对说出同一密码存在的不同发音变化的特点，而且，说明人模型中每个混合高斯模型单独训练方差，以解决传统方法中直接复制背景模型方差导致方差过大，不符合实际应用的问题。

如图4所示，是本发明实施例中构建说话人模型的流程图，包括以下步骤：

步骤401，将用户录音入的注册语音信号保存为一离散能量序列。

假设用户注册输入同一密码内容N(比如N＝2、3等)次，则得到N个独立的离散能量序列。

步骤402，从得到的离散能量序列中提取声纹特征。

具体过程与前面的步骤102类似，在此不再详细描述。

步骤403，根据所述注册语音信号的重复次数及帧数确定所述用户的说话人模型的所有混合高斯模型。

在声纹密码应用中，用户输入统一的文本内容作为密码使用。比如，可以设定所述用户的说话人模型的混合高斯模型数等于所述注册语音信号的重复次数，并设定对应于每一个混合高斯模型的高斯数等于所述混合高斯模型对应的注册语音信号的帧数，具体可表示为：

p (O | M_{k}) = Σ_{m = 1}^{T (k)} c_{m}^{k} N (O; μ_{m}^{k}, Σ_{m}^{k}) - - - (5)

其中，T(k)是混合高斯模型M_k的高斯数，等同于模型对应的第k个语音样本的帧数。而

分别是混合高斯模型M_k的第m个高斯分量的加权系数、均值及方差。

当然，本发明实施例并不限定上述说话人模型的拓扑方式，其混合高斯模型数及每一个混合高斯模型的高斯数也可以不与所述语音信号的重复次数及帧数完全对应相等，也可以通过采用聚类算法选取混合高斯模型数小于所述注册语音信号的重复次数，同样，每一个混合高斯模型的高斯数也可以小于所述注册语音信号的帧数。

步骤404，根据提取的声纹特征估计所有混合高斯模型的高斯均值参数。

在本发明实施例中，根据单一训练样本确定其对应混合高斯模型的高斯均值参量。具体地，可以将混合高斯模型的每个高斯均值矢量设置为样本的特征矢量值，即

其中表示第k个混合模型的第m个高斯的均值，而

表示第k个语音信号的第m帧语音的声纹特征矢量。

步骤405，根据提取的声纹特征估计所有混合高斯模型的高斯方差参数。

可以假设说话人模型中每个混合高斯的多个高斯具有为全局统一的矩阵，以实现较少数据上的方差重估问题。在该假设下，

(即第k个混合高斯模型的所有高斯分量的协方差矩阵具有相同的矩阵数值)。具体地，对给定的样本声纹特征序列O_k，根据

即所有剩余样本声纹特征序列的统计信息，重估混合高斯模型M^k的方差，计算如下：

Σ^{k} = \frac{\underset{n &NotEqual; k}{Σ} Σ_{i = 1}^{T (n)} Σ_{m = 1}^{T (k)} (γ_{m}^{k} (O_{i}^{n}) (O_{i}^{n} - μ_{m}^{k}) {(O_{i}^{n} - μ_{m}^{k})}^{T})}{\underset{n &NotEqual; k}{Σ} Σ_{i = 1}^{T (n)} Σ_{m = 1}^{T (k)} γ_{m}^{k} (O_{i}^{n})} - - - (6)

其中，

表示第n句注册密码(即注册语音信号)的第i个语音帧(即样本)，

表示第k个混合高斯模型的第m个高斯均值，

表示样本

落在均值为

的高斯上的概率。

这样，对说话人模型的每一单独混合高斯M^k，都可以利用非O^k的样本数据得到对应的方差参量。若注册语音信号为N句，则得到N个不同的方差矩阵。

特别地，可以假设该方差矩阵为对角阵以进一步减少数据稀疏问题，即

另外还可以进一步考虑说话人模型的多个混合高斯模型的多个高斯的方差具有全局统一的对角阵，以更好地解决数据稀疏情况下的模型方差重估问题。在该假设下，

步骤406，估计所有混合高斯模型的高斯加权系数参数。

考虑到本实施例中混合高斯模型的高斯均值由样本矢量直接确定，因而在样本上每个高斯都是以1的概率存在的，即出现概率相同。为此本实施例中可以设置混合模型中每个高斯的加权系数均等，即：

c_{m}^{k} = c^{k} = \frac{1}{T (k)} - - - (7)

利用上述图4所示流程，可以根据注册语音的句数及句长设置说话人模型中的混合高斯模型的个数并确定模型的拓扑结构，通过对所有混合高斯模型的高斯均值、方差以及加权系数的合理设定，有效地解决了传统基于声纹密码认证的***中存在的数据稀疏的训练问题，提高了混合高斯模型之间的区分性，进而可以提高身份认证的准确率。而且，使用的混合高斯模型更小更有效，相对于现有技术，大大改善了运算速率及储存数据所需的内存压力。

相应地，本发明实施例还提供一种身份认证***，如图5所示，是本发明实施例身份认证***的一种结构示意图。

在该实施例中，所述***包括：

语音信号接收单元501，用于在用户登录时，接收当前登录用户录入的连续语音信号；

提取单元502，用于提取所述连续语音信号中的声纹特征序列；

第一计算单元503，用于计算所述声纹特征序列与背景模型的似然度；

第二计算单元504，用于计算所述声纹特征序列与所述当前登录用户的说话人模型的似然度，所述说话人模型是根据所述当前登录用户注册时录入的注册语音信号的重复次数及帧数构建的多混合高斯模型；

第三计算单元505，用于根据所述声纹特征序列与说话人模型的似然度、以及所述声纹特征序列与背景模型的似然度，计算似然比；

判断单元506，用于在所述第三计算单元505计算得到的似然比大于设定的阈值时，确定所述当前登录用户为有效认证用户，否则确定所述当前登录用户为非认证用户。

上述该声纹特征序列包含一组声纹特征，可以有效地区分不同的说话人，且对同一说话人的变化保持相对稳定。

比如，提取单元502可以提取的声纹特征主要有：谱包络参数语音特征，基音轮廓、共振峰频率带宽特征，线性预测系数，倒谱系数等。考虑到上述声纹特征的可量化性、训练样本的数量和***性能的评价等问题，可以选用MFCC(Mel Frequency Cepstrum Coefficient，Mel频率倒谱系数)特征，对窗长25ms帧移10ms的每帧语音数据做短时分析得到MFCC参数及其一阶二阶差分，共计39维。这样，每句语音信号可以量化为一个39维声纹特征序列X。

上述背景模型可以是***预先构建并在初始化时载入的，背景模型的具体构建过程本发明实施例不做限定。

上述说话人模型是根据所述当前登录用户注册时录入的语音信号构建的多混合高斯模型，相应地，在本发明实施例中，上述第二计算单元504可以有多种实现方式，比如：

在一种实现方式中，所述第二计算单元504包括：第一计算子单元和第一确定子单元。其中：

所述第一计算子单元，用于分别计算所述声纹特征序列与每个混合高斯模型的似然度；

所述第一确定子单元，用于根据所述第一计算子单元的计算结果确定所述声纹特征序列与所述当前登录用户的说话人模型的似然度。

上述第一计算子单元可以包括：第一计算模块和第一选择模块，其中：

所述第一计算模块，用于分别计算所述声纹特征序列中每个声纹特征与所述多混合高斯模型中每个混合高斯模型的似然度；

所述第一选择模块，用于选择所述声纹特征序列中一组声纹特征对应一个混合高斯模型计算得到的似然度总和的时间平均值作为所述声纹特征序列与该混合高斯模型的似然度。

相应地，上述第一确定子单元也可以有多种实现方式，比如，在第一计算子单元得到所述声纹特征序列与每个混合高斯模型的似然度后，第一确定子单元可以选择其中的一个最大值或均值作为所述声纹特征序列与所述当前登录用户的说话人模型的似然度。

在另一种实现方式中，所述第二计算单元504包括：第二计算子单元和第二确定子单元。其中：

所述第二计算子单元，用于分别计算所述声纹特征序列中每个声纹特征相对于所述多混合高斯模型的似然度；

所述第二选择子单元，用于根据所述第二计算子单元的计算结果确定所述声纹特征序列与所述当前登录用户的说话人模型的似然度。

上述第二计算子单元可以包括：第二计算模块和第二选择模块，其中：

所述第二计算模块，用于分别计算所述声纹特征序列中每个声纹特征与所述多混合高斯模型中每个混合高斯模型的似然度；

所述第二选择模块，用于选择所述声纹特征序列中一个声纹特征对应所述多混合高斯模型中每个混合高斯模型计算得到的似然度中的最大值作为该声纹特征与所述多混合高斯模型的似然度；或者选择所述声纹特征序列中一个声纹特征对应所述多混合高斯模型中每个混合高斯模型计算得到的所有似然度的平均值作为该声纹特征与所述多混合高斯模型的似然度。

相应地，上述第二确定子单元也可以有多种实现方式，比如，在第二计算子单元得到所述声纹特征序列中每个声纹特征相对于所述多混合高斯模型的似然度后，第二确定子单元可以选择所述声纹特征序列中每个声纹特征相对于所述多混合高斯模型的似然度的时间平均值为所述声纹特征序列与所述当前登录用户的说话人模型的似然度。

当然，第二计算单元504还可以采用其他方式实现，对此本发明实施例不做限定。

上述第一计算单元503、第二计算单元504和第三计算单元505的具体计算过程可参照前面本发明实施例身份认证方法中的描述，在此不再赘述。

在本发明实施例中，说话人模型是根据所述当前登录用户注册时录入的语音信号构建的多混合高斯模型，混合高斯模型数和每一个混合高斯模型的高斯数与用户注册时录入的语音信号的重复次数和该语音信号的帧数相关，从而可以利用多个混合高斯模型模拟用户对说出同一密码(即上述语音信号)存在的不同发音变化的特点，提高了基于声纹密码进行身份认证的准确率。

如图6所示，是本发明实施例身份认证***的另一种结构示意图。

与图5所示实施例不同的是，在该实施例中，所述语音信号接收单元501还用于在用户注册时，接收所述用户录入的注册语音信号。

另外，在该***中还进一步包括：模型构建单元601，用于根据所述注册语音信号构建所述用户的说话人模型，该模型构建单元601包括：

特征提取子单元611，用于从所述注册语音信号中提取声纹特征；

拓扑结构确定子单元612，用于根据所述注册语音信号的重复次数及帧数确定所述用户的说话人模型的所有混合高斯模型；

比如，可以设定所述用户的说话人模型的混合高斯模型数小于或等于所述注册语音信号的重复次数；设定对应于每一个混合高斯模型的高斯数小于或等于所述注册语音信号的帧数；

第一估计子单元613，用于利用特征提取子单元611提取的声纹特征估计所述拓扑结构确定子单元612确定的所有混合高斯模型的高斯均值参数；

第二估计子单元614，用于利用特征提取子单元611提取的声纹特征估计所述拓扑结构确定子单元612确定的所有混合高斯模型的高斯方差参数。

上述各估计子单元对混合高斯模型中的相应参数的估计方法可参照前面的描述，在此不再赘述。

本发明实施例的身份认证***，可以根据注册语音的句数及句长设置说话人模型中的混合高斯模型的个数并确定模型的拓扑结构，通过对所有混合高斯模型的高斯均值、方差以及加权系数的合理设定，有效地解决了传统基于声纹密码认证的***中存在的数据稀疏的训练问题，提高了混合高斯模型之间的区分性，进而可以提高身份认证的准确率。而且，使用的混合高斯模型更小更有效，相对于现有技术，大大改善了运算速率及储存数据所需的内存压力。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的***实施例仅仅是示意性的，其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外，还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上公开的仅为本发明的优选实施方式，但本发明并非局限于此，任何本领域的技术人员能思之的没有创造性的变化，以及在不脱离本发明原理前提下所作的若干改进和润饰，都应落在本发明的保护范围内。

Claims

1.一种身份认证方法，其特征在于，包括：

在用户登录时，接收当前登录用户录入的连续语音信号；

计算所述声纹特征序列与背景模型的似然度；

根据所述声纹特征序列与说话人模型的似然度p(X|U)、以及所述声纹特征序列与背景模型的似然度p(X|UBM)，计算似然比

2.如权利要求1所述的方法，其特征在于，所述计算所述声纹特征序列与所述当前登录用户的说话人模型的似然度包括：

分别计算所述声纹特征序列与每个混合高斯模型的似然度；

根据计算结果确定所述声纹特征序列与所述当前登录用户的说话人模型的似然度。

3.如权利要求2所述的方法，其特征在于，所述分别计算所述声纹特征序列与每个混合高斯模型的似然度包括：

分别计算所述声纹特征序列中每个声纹特征与所述多混合高斯模型中每个混合高斯模型的似然度；

选择所述声纹特征序列中一组声纹特征对应一个混合高斯模型计算得到的似然度总和的时间平均值作为所述声纹特征序列与该混合高斯模型的似然度。

4.如权利要求2所述的方法，其特征在于，所述根据计算结果确定所述声纹特征序列与所述当前登录用户的说话人模型的似然度包括：

选择所述声纹特征序列对应所有混合高斯模型计算得到的似然度的平均值作为所述声纹特征序列与所述当前登录用户的说话人模型的似然度；或者

选择所述声纹特征序列对应所有混合高斯模型计算得到的似然度的最大值作为所述声纹特征序列与所述当前登录用户的说话人模型的似然度。

5.如权利要求1所述的方法，其特征在于，所述计算所述声纹特征序列与所述当前登录用户的说话人模型的似然度包括：

分别计算所述声纹特征序列中每个声纹特征相对于所述多混合高斯模型的似然度；

6.如权利要求5所述的方法，其特征在于，所述分别计算所述声纹特征序列中每个声纹特征相对于所述多混合高斯模型的似然度包括：

选择所述声纹特征序列中一个声纹特征对应所述多混合高斯模型中每个混合高斯模型计算得到的似然度中的最大值作为该声纹特征与所述多混合高斯模型的似然度；或者，选择所述声纹特征序列中一个声纹特征对应所述多混合高斯模型中每个混合高斯模型计算得到的所有似然度的平均值作为该声纹特征与所述多混合高斯模型的似然度。

7.如权利要求5所述的方法，其特征在于，所述根据计算结果确定所述声纹特征序列与所述当前登录用户的说话人模型的似然度包括：

选择所述声纹特征序列中所有声纹特征对应多混合高斯模型计算得到的似然度的时间平均值作为所述声纹特征序列与所述当前登录用户的说话人模型的似然度。

8.如权利要求1至7任一项所述的方法，其特征在于，所述方法还包括：

在用户注册时，接收所述用户录入的注册语音信号；

根据所述注册语音信号构建所述用户的说话人模型；

所述根据所述注册语音信号构建所述用户的说话人模型的过程包括：

从所述注册语音信号中提取声纹特征；

根据所述注册语音信号的重复次数及帧数确定所述用户的说话人模型的所有混合高斯模型；

根据从所述注册语音信号中提取的声纹特征估计所述用户的说话人模型的所有混合高斯模型的高斯均值参数；

根据从所述注册语音信号中提取的声纹特征估计所述用户的说话人模型的所有混合高斯模型的高斯方差参数。

9.如权利要求8所述的方法，其特征在于，所述根据所述注册语音信号的重复次数及帧数确定所述用户的说话人模型的所有混合高斯模型包括：

设定所述用户的说话人模型的混合高斯模型数小于或等于所述注册语音信号的重复次数；

设定对应于每一个混合高斯模型的高斯数小于或等于所述混合高斯模型对应的注册语音信号的帧数。

10.一种身份认证***，其特征在于，包括：

第三计算单元，用于根据所述声纹特征序列与说话人模型的似然度p(X|U)、以及所述声纹特征序列与背景模型的似然度p(X|UBM)，计算似然比

p = \frac{p (X | U)}{p (X | UBM)};

11.如权利要求10所述的***，其特征在于，所述第二计算单元包括：

第一计算子单元，用于分别计算所述声纹特征序列与每个混合高斯模型的似然度；

第一确定子单元，用于根据所述第一计算子单元的计算结果确定所述声纹特征序列与所述当前登录用户的说话人模型的似然度。

12.如权利要求11所述的***，其特征在于，所述第一计算子单元包括：

第一计算模块，用于分别计算所述声纹特征序列中每个声纹特征与所述多混合高斯模型中每个混合高斯模型的似然度；

第一选择模块，用于选择所述声纹特征序列中一组声纹特征对应一个混合高斯模型计算得到的似然度总和的时间平均值作为所述声纹特征序列与该混合高斯模型的似然度。

13.如权利要求11所述的***，其特征在于，

所述第一确定子单元，具体用于选择所述声纹特征序列对应所有混合高斯模型计算得到的似然度的平均值作为所述声纹特征序列与所述当前登录用户的说话人模型的似然度；或者，选择所述声纹特征序列对应所有混合高斯模型计算得到的似然度的最大值作为所述声纹特征序列与所述当前登录用户的说话人模型的似然度。

14.如权利要求10所述的***，其特征在于，所述第二计算单元包括：

第二计算子单元，用于分别计算所述声纹特征序列中每个声纹特征相对于所述多混合高斯模型的似然度；

第二确定子单元，用于根据所述第二计算子单元的计算结果确定所述声纹特征序列与所述当前登录用户的说话人模型的似然度。

15.如权利要求14所述的***，其特征在于，所述第二计算子单元包括：

第二计算模块，用于分别计算所述声纹特征序列中每个声纹特征与所述多混合高斯模型中每个混合高斯模型的似然度；

第二选择模块，用于选择所述声纹特征序列中一个声纹特征对应所述多混合高斯模型中每个混合高斯模型计算得到的似然度中的最大值作为该声纹特征与所述多混合高斯模型的似然度；或者选择所述声纹特征序列中一个声纹特征对应所述多混合高斯模型中每个混合高斯模型计算得到的所有似然度的平均值作为该声纹特征与所述多混合高斯模型的似然度。

16.如权利要求14所述的***，其特征在于，

所述第二确定子单元，具体用于选择所述声纹特征序列中每个声纹特征相对于所述多混合高斯模型的似然度的时间平均值为所述声纹特征序列与所述当前登录用户的说话人模型的似然度。

17.如权利要求10至16任一项所述的***，其特征在于，

所述语音信号接收单元，还用于在用户注册时，接收所述用户录入的注册语音信号；

所述***还包括：模型构建单元，用于根据所述注册语音信号构建所述用户的说话人模型，所述模型构建单元包括：

特征提取子单元，用于从所述注册语音信号中提取声纹特征；

拓扑结构确定子单元，用于根据所述注册语音信号的重复次数及帧数确定所述用户的说话人模型的所有混合高斯模型；

第一估计子单元，用于利用所述特征提取子单元提取的声纹特征估计所述拓扑结构确定子单元确定的所有混合高斯模型的高斯均值参数；

第二估计子单元，用于利用所述特征提取子单元提取的声纹特征估计所述拓扑结构确定子单元确定的所有混合高斯模型的高斯方差参数。

18.如权利要求17所述的***，其特征在于，

所述拓扑结构确定子单元，具体用于设定所述用户的说话人模型的混合高斯模型数小于或等于所述注册语音信号的重复次数；设定对应于每一个混合高斯模型的高斯数小于或等于所述混合高斯模型对应的注册语音信号的帧数。