CN1808567A

CN1808567A - 验证真人在场状态的声纹认证设备和其认证方法

Info

Publication number: CN1808567A
Application number: CNA200610002669XA
Authority: CN
Inventors: 覃文华; 宋战江; 张玉霞
Original assignee: Individual
Current assignee: Individual
Priority date: 2006-01-26
Filing date: 2006-01-26
Publication date: 2006-07-26

Abstract

一种用于验证真人在场的声纹认证设备，包括：语音输入装置，用于接收用户输入的语音；声纹识别装置，用于将用户输入的认证语音与声纹模型进行对比认证，以便验证用户身份；在场验证装置，用于将用户输入的模仿语音与预制的提示音集合中随机选出的提示音进行对比认证，以便确定用户在场发音；以及判定装置，用于根据声纹识别装置和在场验证装置的认证结果，判断用户是否真实且在场。以及一种用于验证真人在场的声纹认证方法。从而在验证用户身份的同时验证真实的用户是否是在现场发音，有效地拒绝了利用录音或自动合成音的假冒者通过身份验证，提高了声纹认证的安全性。

Description

验证真人在场状态的声纹认证设备和其认证方法

技术领域

本发明涉及一种声纹认证设备和方法，尤其涉及一种验证真人在场状态的声纹认证设备和其认证方法。

背景技术

随着社会经济的进步和信息技术的发展，人们对信息安全和身份认证技术有了越来越多的需求和依赖性。传统的身份认证方法主要是基于密码的，它具有简单、快捷的优点，但却有着很明显的不足，例如，容易被忘记，并且容易被猜到或被窃取等，一旦发生这种情况，很可能会给用户带来巨大的麻烦或损失。

密码验证方式不足之处的根源在于它与持有人本身没有内在的联系，任何其它人如果得到并凭借该人的密码尝试进行认证时，***是很难分辨其身份的真伪的。近年来，基于生物特征的认证方法逐步引起了人们的重视，并且成为传统密码认证方式的很好的补充手段。生物特征认证方式包括指纹、声纹、虹膜、脸孔、掌纹等，其特点在于用于认证的特征基本上是惟一的，并且是与用户本人直接关联的，其他人很难假冒该用户自身的生物特征来登录***。

声纹识别技术是属于生物特征认证技术的一种，它是一项根据语音波形中反映说话人生理和行为特征的语音参数来自动识别说话人身份的技术，包括文本相关的(必须是特定的文本)和文本无关的(不限定用户说什么文本)方式。与其他生物特征识别技术相比，声纹识别具有简便、经济、可远程认证等优势，可广泛应用于安全验证和控制等方面，特别是基于电信网络的身份识别等应用领域。在电信类应用、互联网应用中，最自然、也最容易被用户所接受的生物特征莫过于语音，即用户用自己的声音来证明个人身份，也就是“闻声识人”，从而可以通过电话、移动终端等实现股票交易、银行转账、个人信息服务等需要确认身份的业务等。因此，声纹识别技术正日益成为人们日常生活和工作中重要且普及的安全验证方式之一。

但与其它一些基于生物特征的认证方式类似，声纹识别也有一些不足之处，例如难于判断一段语音是用户本人在现场提供的还是高保真的仿冒录音，等等。

发明内容

基于已有的声纹认证技术中存在的上述缺点，提出了一种用于验证真人在场状态的声纹认证设备，其中结合声纹认证技术，尤其是文本无关的声纹认证技术，和验证真人在场发音状态的技术来提高认证设备整体的安全性。以及还提出了一种验证真人在场状态的声纹认证方法。

根据本发明第一方面，一种用于验证真人在场状态的声纹认证设备，包括：语音输入装置，用于接收用户输入的语音；声纹识别装置，用于将用户输入的认证语音与声纹模型进行对比认证，以便验证用户身份；在场验证装置，用于将用户输入的模仿语音与预制的提示音集合中随机选出的提示音进行对比认证，以便确定用户在场发音；以及判定装置，用于根据声纹识别装置和在场验证装置的认证结果，判断用户是否真实且在场。

根据本发明第二方面，一种用于验证真人在场状态的声纹认证方法，包括：语音输入步骤，用于接收用户输入的语音；声纹识别步骤，用于将用户输入的认证语音与声纹模型进行对比认证，以便验证用户身份；在场验证步骤，用于将用户输入的模仿语音与预制的提示音集合中随机选出的提示音进行对比认证，以便确定用户在场发音；以及判定步骤，用于根据声纹识别步骤和在场验证步骤的认证结果，判断用户是否真实且在场。

由于本发明在验证用户身份的同时验证真实的用户是否是在现场发音，从而有效地拒绝了利用录音或自动合成音的假冒者通过身份验证，提高了声纹认证的安全性。另外，通过交互的认证过程确认发音人为意识清晰状态，便于将其认证用的语音作为未来不可否认的鉴定证据等。同时，较其他生物特征认证技术而言，本发明所需的认证信息(语音)录入设备价格低廉(仅需普通的麦克风或电话)，且设备普及率高。

附图说明

图1是根据本发明的声纹认证设备的示意图；

图2是文本无关的声纹识别装置的示意图；

图3是根据本发明的在场验证装置的示意图；

图4是根据本发明第一实施例的在场验证单元的示意图；

图5是根据本发明第二实施例的在场验证单元的示意图；

图6是根据本发明的声纹认证方法的流程图；

图7是根据本发明第一实施例的在场验证方法的流程图；

图8是根据本发明第二实施例的在场验证方法的流程图。

具体实施方式

通过以下结合本发明的附图的描述，本发明的上述和其他目的、特征和优点将变得显而易见。

语音作为人类最基础、最便捷的交流和交易方式，在用户使用认证***所产生的语音信息中，能够同时包涵用户身份信息和用户个人意愿信息。本发明在充分利用声纹认证技术，尤其是文本无关的声纹认证技术的优点的同时，结合可确认真人在场发音状态的方法，提高认证设备整体的安全性，并通过交互的认证过程来确认发音人为意识清晰状态。

图1是根据本发明的声纹认证设备的示意图。声纹认证设备1用于验证真实用户的在场状态，包括：用于接收用户输入的语音的语音输入装置10，例如，麦克风或电话；用于验证用户身份的声纹识别装置20；用于验证用户在场状态的在场验证装置30；以及根据声纹识别装置20和在场验证装置30的识别和验证结果综合判断真实用户是否进行在场认证，从而完成对待验证用户的声纹认证过程的判定装置40。此外，虽然未示出，但是在语音输入装置的前端，也可以加上基于密码等的其他认证装置，以使***能够更好地验证用户的身份。

图6是根据本发明的声纹认证方法的流程图。语音输入装置10在S60接收用户输入的认证语音并将其输入到声纹识别装置20。然后在S62，声纹识别装置20将接收到的认证语音与声纹模型进行对比认证，以便验证用户身份。在要进行在场验证时，在场验证装置30在S64播放预制的提示音集合中随机选出的提示音，用户模仿该提示音进行模仿发音。在S66，语音输入装置10接收用户输入的模仿发音并将其输入到在场验证装置30。之后，在场验证装置30在S68将接收到的模仿发音与所述播放的提示音进行对比认证，以便验证用户是否是在场发音。最后，在S602，判定装置40综合判断用户是否是真实的以及是在场发音。在声纹认证之前，也可以先进行基于密码等的其他认证，以使***能够更好地验证用户的身份。

声纹识别装置20的结构如图2所示。声纹识别装置20是文本无关的，即，不限定用户具体说什么文本。其目的在于确认用户在认证时提供的语音与该用户所申明的身份(即该身份所对应的预先训练好的声纹模型)是否一致。声纹识别装置20包括声纹特征提取单元201、声纹模型建立单元202、声纹模型库203和声纹模式匹配单元204。

通常，人类的语音是由声带振动产生并经过声道和口鼻等的调制而形成的连续振动波形，该波形被以一定的采样率进行数字化后才能进一步处理。***录制的原始语音中除了含有说话人自身发出的有意义的内容之外，还有停顿静音或背景噪音干扰等无意义的部分，因此在提取有效的声纹特征之前需要先判断各个语音段的有效性，并且抛掉无用的部分，只从有效语音段中提取声纹特征。

声纹特征提取单元201提取声纹特征所采用的方法举例如下：将有效语音采样点分为一组具有一定长度的小窗(即分帧)，相邻窗间有局部重叠。各帧内部首先施加海明(Hamming)窗函数，并预加重进行高频提升，然后做快速傅立叶变换(FFT)求出频谱。之后对频谱施加按Mel刻度(Mel-scale)规律排列的、含有若干个三角滤波器的滤波器组，将得到的各个滤波器的输出值进行离散余弦变换(DCT)，得到一组系数(例如取不包含静态能量的16维系数)，这就是美化倒谱系数(MFCC)矢量，然后把相邻帧的MFCC矢量逐维求差，并把得到的差矢量拼接到原MFCC矢量上，得到的参数作为后续使用的声纹特征序列。

每个人的声纹特征可以看作是在高维特征空间的一种概率分布，可以用多个正态分布(高斯分布)来拟合，这类集合称作高斯混合模型(GMM)，用公式表示如下：

p (\overset{&RightArrow;}{x} | λ) = Σ_{i = 1}^{M} w_{i} p_{i} (\overset{&RightArrow;}{x}) - - - (1)

p_{i} (\overset{&RightArrow;}{x}) = \frac{1}{{(2 π)}^{D / 2} {| Σ_{i} |}^{1 / 2}} \exp {- \frac{1}{2} {(\overset{&RightArrow;}{x} - μ_{i})}^{'} {(Σ_{i})}^{- 1} (\overset{&RightArrow;}{x} - μ_{i})} - - - (2)

其中，公式(1)中的 λ、M、w、p分别表示声纹特征矢量、声纹模型参数集、特征维数、权重、正态分布；公式(2)是标准的高维正态分布描述。后面的符号表示与此一致。

在建立模型之初，先搜集特定信道下的足够多的人的样本语音，以期近似描述所有人在平均意义上的声纹特征分布。例如，本发明具体实现中采集了至少男女各50人、每人不少于1分钟的样本语音。将这些语音提取声纹特征参数后，放在一起进行迭代聚类，得到若干个高斯混合(例如1024或2048个)，这就是通用背景模型(UBM)。

为建立供文本无关的声纹识别装置使用的声纹模型，声纹模型建立单元202需采集足够长的有效语音(例如，至少20秒的有效语音)。声纹模型建立单元202针对声纹特征提取单元201提取出的声纹特征，根据最大后验概率(MAP)的自适应算法，用它来修正UBM的一个拷贝，从而得到一个新的GMM，将它作为该用户的声纹模型，并存入一个声纹模型库203，以备后续的识别过程使用。

在进行声纹识别时，需要通过语音输入装置10采集用户足够长的有效语音(例如，至少8秒的有效语音)提供给声纹特征提取单元201，由声纹特征提取单元201从待识别的语音中提取出声纹特征并提供给声纹模式匹配单元204，然后由声纹模式匹配单元204逐帧地计算该帧特征与申明的声纹模型进行概率匹配的似然分，将这些帧的似然分累积并求平均作为总得分。

声纹模式匹配单元204计算某一帧声纹特征的似然分所采用的方法如下：首先将它与UBM中的各个高斯混合按公式(2)逐一地计算匹配概率，找出其中最大的几个高斯混合(例如4个)，然后把与UBM中这几个混合相对应的、在用户声纹模型库203中的高斯混合找到，按下述公式计算该帧特征匹配的似然分为：

Score = L (\overset{&RightArrow;}{x} | λ_{Speaker}) - L (\overset{&RightArrow;}{x} | λ_{UBM}) - - - (3)

这相当于用UBM来归一化声纹特征的概率匹配分数。其中L是Likelihood的缩写，它等于对应概率值的对数的20倍。对选出来的这些混合分别按公式(3)计算得分并求和，就得到了这一帧的似然分。

最后，声纹模式匹配单元204把匹配的总得分与***预设的阈值比较，如高于该阈值，则判定为接受，否则就判定为拒绝(拒识)。这样，就实现了开集方式的、文本无关的声纹识别功能，或者更加准确地说，是文本无关的声纹确认功能。从而声纹识别装置20的各个组件通过执行上述方法就完成对用户的声纹识别过程。虽然图2示出了声纹识别装置20包括声纹模型建立单元202，但显而易见的是，声纹识别装置20也可以使用已经建立好的声纹模型库203。

图3示出了根据本发明的在场验证装置30。所述在场验证装置30用于确认用户在认证时提供的语音确实是用户在场的发音而非预先录制的仿冒语音，其采用的核心思想在于引入具有一定随机性和特征的提示并要求用户模仿该提示发音，在场验证装置对此进行验证从而拒绝假冒授权用户的录音。

在场验证装置30包括：语料库301，用于生成提示音集合303(即，提示模板语音集合)的模板语音集生成单元302，相似度匹配单元304。语料库301中包括了海量的文本语料(例如是来自于报纸或网络的文章的文字内容的电子版)，模板语音集生成单元302从语料库301中筛选出满足预定条件的句子(例如，预定长度)作为提示文本，并将提示文本按照预定规则录制为提示音集合作为提示音集合303。在执行在场验证时，将提示音集合303中随机取出的提示音以及用户进行跟读而产生的模仿发音输入到相似度匹配单元304。相似度匹配单元304对提示音和用户通过语音输入装置10输入的模仿发音进行相似度匹配，以验证用户是否是在场发音。在本发明中，为了更加有效地防止以仿冒录音或合成声音等所造成的恶意入侵，提高在场校验的能力，所述提示音集合可以包涵语言符号(文字、数字、字母、符号)的发音、无规则无语义的声音、韵律声音等多种语音模式或它们的组合。

图4是根据本发明第一实施例的相似度匹配单元304的示意图。其中，第一关键特征点序列提取单元3041与提示音集合303连接，用于从提示音集合303的随机选出的提示音中提取第一关键特征点序列；第二关键特征点序列提取单元3042与语音输入装置10连接，用于从输入的用户模仿发音中提取第二关键特征点序列；以及匹配单元3043，将第一关键特征点序列和第二关键特征点序列进行匹配，并根据匹配结果判断出用户的发音是在场的还是录制的。

图7示出根据本发明第一实施例的在场验证方法。在S70和S72，对相似度匹配单元304接收的提示音集合303中的随机提示音，以及用户跟读它而产生的模仿发音，分别提取一组关键的特征点，这些特征点是和语音的韵律相关的特征，根据它们可以判别模仿发音是否从韵律、停顿、变化趋势等方面与随机的提示模板语音近似，从而确定用户是否在努力模仿***所期望的发音方式。

要提取的这些关键特征点参数主要包括以下三种：语音中停顿静音段的个数及其时长分布、关键特征点的趋势曲线以及元辅音属性分布序列。

(a)语音中停顿静音段的个数及其时长分布。

为了达到更好的去伪存真的效果，在预先设计的随机提示模板语音中，刻意地在某些词汇之间留出一定长度的停顿静音，因此用户的模仿发音中也必须存在基本相似的停顿静音段，才能允许通过***的校验。

首先根据各帧语音的短时能量和短时过零率等参数来判别该帧的属性，可以是S(Silence，静音)、U(Unvoiced，清音)、V(Voiced，浊音)之一，进行一定程度的平滑后，再在这些属性标记的基础上根据常用的静音检测算法分离出语音段和静音段。将其中夹杂的静音段的个数以及各个静音段的时间长度作为两组参数矢量保存起来供下步比对时使用，其形式为：

(Num_Sil)；(L₁，L₂，…，L_N) (4)

(b)关键特征点的趋势曲线。

提示模板语音和模仿语音中的抑扬顿挫的韵律特点可以用某些时域参数或频域参数来表征，例如帧能量的变化趋势曲线、基频的升降变化曲线、重音位置点等。在本实施例中，采用以帧能量和基频参数作为关键特征点的趋势曲线。

提取方法是，对每一帧语音信号s_w(n)，计算其短时帧能量如下：

E_{w} = Σ_{n = 0}^{N - 1} S_{w}^{2} (n) - - - (5)

计算其短时自相关函数如下：

R_{w} (l) = Σ_{n = 0}^{N - l - 1} s_{w} (n) s_{w} (n + l) - - - (6)

如果本帧语音是一个浊音性的周期信号，那么它的短时自相关函数将呈现明显的周期性，反之，由于清音的表象接近于随机噪声，它的短时自相关函数将不具有周期性且随着l的增大而迅速减小，因此利用该特性，可判别出本帧语音是清音还是浊音，并确定一个浊音的基频参数。由于噪音等一些因素的干扰，个别帧的基频参数估计不一定精确，为此可再施加一个简单的平滑后处理过程，同时把清音帧的基频参数设置为整体的平均值(也是出于平滑和便于计算的目的)。

这样，就得到了另两组参数，分别命名为帧能量包络曲线，以及基频变化曲线，统称为关键特征点的趋势曲线：

(E₁，E₂，…，E_N)；(P₁，P₂，…，P_N) (7)

(c)元辅音属性分布序列。

对于前面静音检测方法的结果，在每个有效的语音段内部，对它所包含的各个语音帧以相同的方法估计其U、V属性。由于每个汉语发音都是有规律的单音节结构，声母是辅音(Consonant)，具有清音的属性，韵母是元音(Vowel)或复合元音，具有浊音的属性，所以根据各帧的U、V属性，进行平滑后，即可分析出元音和辅音的边界。将分析出的各段元音、辅音的属性标记形成一组参数矢量：

(CV₁，CV₂，…，CV_M) (8)

每个有效语音段内都有这样一组参数矢量，称为元辅音属性分布序列。

然后，在S74，对分别从提示模板语音和用户模仿发音中提取的上述各类特征矢量，采用动态规划的方法或思路计算它们之间的欧式距离，从而作为度量二者相似度的依据。本发明中使用的具体算法为动态时间弯折(DTW)，其原理描述如下：

假设测试和参考模式(特征矢量)分别用T和R表示，为了比较它们的相似度，可以计算它们之间的失真距离D(T，R)，失真距离越小则相似度越高，它是由二者对应帧之间的失真距离累积得到的。把测试模式的各个帧号n＝1…N在一个二维直角坐标系中的横轴上标出，把参考模式的各个帧号m＝1…M在纵轴上标出，通过这些表示帧号的整数坐标画出一些纵横线即可形成一个网格，其中每一个交叉点(n，m)表示测试模式中某一帧与参考模式中某一帧的对接点，这就归结为寻找一条通过此网格中若干交叉点的路径，路径通过的交叉点就是这两个模式间计算失真距离的对应帧号，该失真距离定义为两个多维特征矢量之间的加权欧式距离(各维的权重是用数据驱动的方法统计获得的)。该算法相当于把要比对的两个模式进行适当的、动态的伸缩，从而得到一个衡量其失配程度的最小的失真距离总和，作为拟合比对的相似度分数。

对上述每一类型的两组对应的特征矢量，都可得到这样一个相似度分数，供下一步的综合判决过程使用。

通过对上述各组特征进行比对得到的若干个分数s_i，处于不同的数量级。在S76，采用线性组合的方式对它们进行综合，得到总体得分如下：

\tilde{s} = \frac{1}{N} Σ_{i = 1}^{N} w_{i} s_{i} - - - (9)

其中，w_i是各个分数的权重，是根据大量测试样本以数据驱动的方式进行统计得到的经验值。最后，在S78，根据总分数是否高于某个预设的阈值，给出接受或拒绝用户的判决结果。

图5示出了根据本发明第二实施例的相似度匹配单元304。相似度匹配单元304用于校验用户发音中的文字内容，包括：标注语音数据库3051，其存储有大量的、具有对应文字内容标注信息的语音数据；学***均，作为用户模仿发音内容的准确度得分。为了使分数更加稳定，可以为每个音素预先训练一个反模型，用各帧特征矢量与其强制对准的音素的反模型的匹配分数对上述得分做归一化，方便进行拒识。

显然，如果用户模仿语音(或是仿冒录音)的内容不对，或是与提示语音的发音方式有较大差异的话，上述强制对准的音素状态是不匹配的，特征与音素状态间的矢量距离会非常大，因此得分必然很低，从而得到被拒绝的结果；反之，如果用户现场模仿语音的内容与之一致，则强制对准的音素状态就会比较匹配，特征与音素状态间的距离较小，因此得分会比较高，从而得到被接受的结果。

这样，就通过对用户模仿随机提示的发音内容的校验，达到了确认其是否是在场发音状态的目标。

为了使现场发音比对的准确度和可信度更高，提示模板语音的内容需要满足预定条件，以确保提取出的关键特征点序列或音素内容足以表征现场发音者的个性特点。一种可行的实施方法是由模板语音集生成单元302执行：

(a)从海量的文本语料中，筛选出一批长度基本符合要求的句子。本实施例中，每个提示语音所包含的音节个数为8～12个，然后抛掉那些包含重复文字或重复发音(不考虑声调的因素)很多的语句，剩余的作为候选集合。

(b)编写一个迭代程序，按梯度下降法，对候选集合中的每个句子分别尝试保留或去除操作，计算剩余句子集合中所包含的元辅音对是否趋向于均衡，重复此过程，直至迭代过程收敛，或剩余的句子达到预定的数目。

(c)在根据挑选出来的提示文本录制提示语音集合的过程中，随机地***一些不规则的停顿，或变调的片断，以加大可能的仿冒录音者的闯入难度。

(d)在进行真人在场发音状态验证时，首先从提示语音集合中随机挑选第一个提示语句，之后随着验证过程的继续并且需要更多的提示语音时，每次都先随机抽取若干个语句，然后从中挑选一个所含音素内容与之前用过的各个提示语音所含音素的并集的重合度最低的语句使用。

根据上述准则，可保证在线验证时所用的提示模板语音更全面地体现用户的发音特点，从而使认证结果具有更高的稳定性和可信度。

由于本发明可以在验证用户身份的同时验证用户是否在现场，从而应用本发明通过电信网和互联网进行远程身份校验时，通过分析待认证的用户与***交互的过程中所形成的声音数据，就可以确认该远程用户是否就是其所宣称身份的人的过程，因而本发明尤其适用于基于电信网和互联网的需要远程身份确认的应用，例如呼叫中心等。

尽管使用本领域的通用术语，对本发明的优选实施例进行了描述，这种描述只是用于示例性的目的，应当理解的是，在不偏离本发明的精神或范围的前提下，可以进行改变和变化。

Claims

1.一种用于验证真人在场的声纹认证设备，包括：

语音输入装置，用于接收用户输入的语音；

声纹识别装置，用于将用户输入的认证语音与声纹模型进行对比认证，以便验证用户身份；

在场验证装置，用于将用户输入的模仿语音与预制的提示音集合中随机选出的提示音进行对比认证，以便确定用户在场发音；以及

判定装置，用于根据声纹识别装置和在场验证装置的认证结果，判断用户是否真实且在场。

2.如权利要求1所述的声纹认证设备，其中所述在场验证装置包括：

模板语音集生成单元，用于从语料库中选出满足预定条件的句子作为提示文本，并将提示文本按照预定规则录制为提示音集合；

相似度匹配单元，用于对随机选出的提示音和用户输入的模仿语音进行相似度匹配，以确认用户是否在场发音。

3.如权利要求2所述的声纹认证设备，其中所述模板语音集生成单元按照下列规则录制提示音集合：

在利用挑选出来的提示文本录制提示语音集合时随机地***具有预定规律的关键特征点，以及使该提示音集合所含的元辅音对分布均衡。

4.如权利要求2所述的声纹认证设备，其中所述相似度匹配单元包括：

第一关键特征点序列提取单元，用于从提示音中提取第一关键特征点序列；

第二关键特征点序列提取单元，用于从用户输入的模仿语音中提取第二关键特征点序列；以及

第一匹配单元，将第一关键特征点序列和第二关键特征点序列进行匹配以判断出用户是否在场发音。

5.如权利要求4所述的声纹认证设备，其中所述第一关键特征点序列和第二关键特征点序列是与语音中停顿静音段的个数及其时长分布、关键特征点的趋势曲线以及元辅音属性分布序列有关的参数。

6.如权利要求4或5所述的声纹认证设备，其中所述第一匹配单元，利用动态时间弯折方法来计算提取出的第一关键特征点序列和第二关键特征点序列之间的失真距离，根据失真距离求出相似度分数，并根据下式计算出相似度总分数，在相似度总分数高于预定阈值时，判断出用户在场发音：

\tilde{s} = \frac{1}{N} Σ_{i = 1}^{N} w_{i} s_{i},

其中是相似度总分数。

7.如权利要求1所述的声纹认证设备，其中所述在场验证装置包括：

对准单元，用于将提示音的文本内容扩展到它对应的音素序列，对模仿发音的各帧与预先训练好的声学模型进行最优匹配，以便获得每一帧与适当的音素状态间的对应关系；

匹配单元，用于将模仿发音的各帧的特征矢量与对应音素状态中的高斯混合进行对比，获得匹配似然分，并针对所有帧求出平均似然分，作为用户的模仿发音的准确度分数并判断出用户是否在场发音。

8.如权利要求7所述的声纹认证设备，其中所述在场验证装置还包括：学习单元，用于从标注语音数据库中学习一组上下文相关的、非特定人的基于隐马尔可夫模型的音素模型，作为声学模型。

9.如权利要求1所述的声纹认证设备，其中所述声纹识别装置是文本无关的，其包括：

声纹特征提取单元，用于从用户输入的语音中提取可表征其发音特点的声纹特征序列；

声纹模型建立单元，用于根据提取出的声纹特征序列建立表征用户本人发音特点的声纹模型库；

声纹模式匹配单元，用于从用户输入的认证语音中提取声纹特征序列并与声纹模型库中对应的声纹模型进行比对，从而验证所述用户的身份。

10.如权利要求1所述的声纹认证设备，其中还包括：

与语音输入装置连接的密码验证装置，用于预先通过密码验证用户的身份。

11.一种用于验证真人在场的声纹认证方法，包括：

语音输入步骤，用于接收用户输入的语音；

声纹识别步骤，用于将用户输入的认证语音与声纹模型进行对比认证，以便验证用户身份；

在场验证步骤，用于将用户输入的模仿语音与预制的提示音集合中随机选出的提示音进行对比认证，以便确定用户在场发音；以及

判定步骤，用于根据声纹识别步骤和在场验证步骤的认证结果，判断用户是否真实且在场。

12.如权利要求11所述的声纹认证方法，其中所述在场验证步骤包括：

模板语音集生成步骤，用于从语料库中选出满足预定条件的句子作为提示文本，并将提示文本按照预定规则录制为提示音集合；

相似度匹配步骤，用于对随机选出的提示音和用户输入的模仿语音进行相似度匹配，以确认用户是否在场发音。

13.如权利要求12所述的声纹认证方法，其中所述模板语音集生成步骤按照下列规则录制提示音集合：

14.如权利要求12所述的声纹认证方法，其中所述相似度匹配步骤包括：

第一关键特征点序列提取步骤，用于从提示音中提取第一关键特征点序列；

第二关键特征点序列提取步骤，用于从用户输入的模仿语音中提取第二关键特征点序列；以及

第一匹配步骤，将第一关键特征点序列和第二关键特征点序列进行匹配并判断出用户是否是在场发音。

15.如权利要求14所述的声纹认证方法，其中所述第一关键特征点序列和第二关键特征点序列是与语音中停顿静音段的个数及其时长分布、关键特征点的趋势曲线以及元辅音属性分布序列有关的参数。

16.如权利要求14或15所述的声纹认证方法，其中所述第一匹配步骤利用动态时间弯折方法来计算提取出的第一关键特征点序列和第二关键特征点序列之间的失真距离，根据失真距离求出相似度分数，以及根据下式计算出相似度总分数，在相似度总分数高于预定阈值时，判断出用户在场发音：

\tilde{s} = \frac{1}{N} Σ_{i = 1}^{N} w_{i} s_{i},

其中

是相似度总分数。

17.如权利要求11所述的声纹认证方法，其中所述在场验证步骤包括：

对准步骤，用于将提示音的文本内容扩展到它对应的音素序列，对模仿发音的各帧与预先训练好的声学模型进行最优匹配，以便获得每一帧与适当的音素状态间的对应关系；

匹配步骤，用于将模仿发音的各帧的特征矢量与对应音素状态中的高斯混合进行对比，获得匹配似然分，并针对所有帧求出平均似然分，作为用户的模仿发音的准确度分数。

18.如权利要求17所述的声纹认证方法，其中在场验证步骤还包括：

学习步骤，用于通过从标注语音数据库中学习一组上下文相关的、非

特定人的基于隐马尔可夫模型的音素模型作为声学模型；

19.如权利要求11所述的声纹认证方法，其中所述声纹识别是文本无关的，所述声纹识别步骤包括：

声纹特征提取步骤，用于从用户语音中提取可表征其发音特点的声纹特征序列；

声纹模型建立步骤，用于根据提取出的声纹特征序列建立表征用户本人发音特点的声纹模型库；

声纹模式匹配步骤，用于从用户输入的认证语音中提取声纹特征序列并与声纹模型库中对应的声纹模型进行比对，从而验证所述用户的身份。

20.如权利要求11所述的声纹认证方法，其中在语音输入步骤之前包括通过密码验证用户的身份的步骤。