CN109872721A

CN109872721A - 语音认证方法、信息处理设备以及存储介质

Info

Publication number: CN109872721A
Application number: CN201711268086.6A
Authority: CN
Inventors: 刘柳; 石自强; 刘汝杰
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-12-05
Filing date: 2017-12-05
Publication date: 2019-06-11

Abstract

本公开提供了语音认证方法、信息处理设备以及存储介质。该语音认证方法包括：随机生成由预定素材集中的元素构成的认证序列；提示被测用户以语音方式输入认证序列，得到待认证语音序列；从待认证语音序列中提取语音特征；以及将所提取的语音特征输入到判别模型，以判断被测用户是否为特定注册用户，其中，判别模型基于从注册模型库中选择的、分别与认证序列的各个元素相对应的多个注册语音模型，其中，注册模型库包括分别与预定素材集中的各个元素相对应的注册语音模型，每个元素的注册语音模型是基于从特定用户对该元素的相应语音输入中提取的语音特征而单独预先训练得到的。

Description

语音认证方法、信息处理设备以及存储介质

技术领域

本公开总体上涉及语音处理领域，具体而言，涉及基于文本相关的说话人确认的语音认证方法、能够实现该语音认证方法的信息处理设备和存储介质。

背景技术

说话人确认是一种通过语音来确认该语音的说话人身份是否为指定说话人的技术，也称为声纹确认。基于说话人确认的语音认证技术可以应用在信息安全、身份认证等场景，其在法院、医院、银行和军事机构等有很多重要应用。

目前，实现说话人确认的方式包括文本无关的说话人确认以及文本相关的说话人确认。传统的文本无关的说话人确认需要一段超过30秒时长的语音来保证准确度，因而存在算法复杂以及处理时间长等问题。相较之下，文本相关的说话人确认同时确认语音的说话人身份以及语音的内容是否为指定内容，具有更快的处理速度，因而越来越受到广泛关注。

因此，文本相关的说话人确认具有重要的应用价值。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

鉴于对现有的文本相关的说话人确认技术进行改进的需求，本发明的目的之一是提供一种语音认证方法以及能够实现该语音认证方法的信息处理设备和存储介质，其能够进行文本相关的用户身份确认。

根据本公开的一个方面，提供了一种语音认证方法，其包括：随机生成由预定素材集中的元素构成的认证序列；提示被测用户以语音方式输入认证序列，得到待认证语音序列；从待认证语音序列中提取语音特征；以及将所提取的语音特征输入到判别模型，以判断被测用户是否为特定注册用户，其中，判别模型基于从注册模型库中选择的、分别与认证序列的各个元素相对应的多个注册语音模型，其中，注册模型库包括分别与预定素材集中的各个元素相对应的注册语音模型，每个元素的注册语音模型是基于从特定用户对该元素的相应语音输入中提取的语音特征而单独预先训练得到的。

根据本公开的另一方面，提供了一种语音认证设备，其包括：认证序列生成单元，用于随机生成由预定素材集中的元素构成的认证序列；认证序列语音输入单元，用于提示被测用户以语音方式输入认证序列，得到待认证语音序列；语音特征提取单元，用于从待认证语音序列中提取语音特征；以及语音特征输入及判别单元，用于将所提取的语音特征输入到判别模型，以判断被测用户是否为特定注册用户。在语音特征输入及判别单元中使用的判别模型基于从注册模型库中选择的、分别与认证序列的各个元素相对应的多个注册语音模型，其中，注册模型库包括分别与预定素材集中的各个元素相对应的注册语音模型，每个元素的注册语音模型是基于从特定用户对该元素的相应语音输入中提取的语音特征而单独预先训练得到的。

依据本公开的再一方面，还提供了一种信息处理设备，其包括处理器，所述处理器被配置为：随机生成由预定素材集中的元素构成的认证序列；提示被测用户以语音方式输入认证序列，得到待认证语音序列；从待认证语音序列中提取语音特征；以及将所提取的语音特征输入到判别模型，以判断被测用户是否为特定注册用户，其中，判别模型基于从注册模型库中选择的、分别与认证序列的各个元素相对应的多个注册语音模型，其中，注册模型库包括分别与预定素材集中的各个元素相对应的注册语音模型，每个元素的注册语音模型是基于从特定用户对该元素的相应语音输入中提取的语音特征而单独预先训练得到的。

依据本公开的其它方面，还提供了一种使得计算机实现如上所述的语音认证方法的程序。

依据本公开的又一方面，还提供了相应的存储介质，其存储有机器可读取的指令代码，所述指令代码在由机器读取并执行时，能够使得机器执行上述语音认证方法。所述指令代码包括指令代码部分，用于进行下述操作：随机生成由预定素材集中的元素构成的认证序列；提示被测用户以语音方式输入认证序列，得到待认证语音序列；从待认证语音序列中提取语音特征；以及将所提取的语音特征输入到判别模型，以判断被测用户是否为特定注册用户，其中，判别模型基于从注册模型库中选择的、分别与认证序列的各个元素相对应的多个注册语音模型，其中，注册模型库包括分别与预定素材集中的各个元素相对应的注册语音模型，每个元素的注册语音模型是基于从特定用户对该元素的相应语音输入中提取的语音特征而单独预先训练得到的。

上述根据本公开实施例的各个方面，至少能够获得以下益处：利用本公开所提供的语音认证方法、语音认证设备、信息处理设备以及存储介质，能够进行文本相关的用户身份认证，并且避免了先前认证时的语音输入被录音用于当前认证而导致用户被恶意冒充的安全隐患。

通过以下结合附图对本公开的最佳实施例的详细说明，本公开的这些以及其他优点将更加明显。

附图说明

本公开可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中：

图1是示意性地示出根据本公开实施例的语音认证方法的示例流程的流程图。

图2示出了用于获得在语音认证方法中所采用的判别模型所基于的每个元素的注册语音模型的一个示例处理

图3是示意性地示出根据本公开实施例的语音认证方法中的语音特征提取步骤的一个示例处理的流程图。

图4是示意性地示出根据本公开实施例的语音认证方法中的语音特征输入及判别步骤的一个示例处理的流程图。

图5是用于说明应用根据本公开实施例的语音认证方法的一个示例处理的示意图。

图6是用于说明应用根据本公开实施例的语音认证方法的示例处理中所采用的以HMM连接的合成模型的示意图。

图7A和图7B是用于说明应用根据本公开实施例的语音认证方法的示例处理中所采用的合成模型中的初始状态向量和状态转移矩阵的示意图。

图8是用于说明应用根据本公开实施例的语音认证方法的一个示例处理的示意图。

图9是示意性地示出根据本公开实施例的语音认证设备的示例结构的示意性框图。

图10是示出了可用来实现根据本公开实施例的信息处理方法和设备的一种可能的硬件配置的结构简图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与***及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

根据本公开的一个方面，提供了一种语音认证方法。图1是示意性地示出根据本公开实施例的语音认证方法100的示例流程的流程图。

如图1所示，语音认证方法100可以包括：认证序列生成步骤S101，随机生成由预定素材集中的元素构成的认证序列；认证序列语音输入步骤S103，提示被测用户以语音方式输入认证序列，得到待认证语音序列；语音特征提取步骤S105，从待认证语音序列中提取语音特征；以及语音特征输入及判别步骤S107，将所提取的语音特征输入到判别模型，以判断被测用户是否为特定注册用户。在步骤S107中使用的判别模型基于从注册模型库中选择的、分别与认证序列的各个元素相对应的多个注册语音模型，其中，注册模型库包括分别与预定素材集中的各个元素相对应的注册语音模型，每个元素的注册语音模型是基于从特定用户对该元素的相应语音输入中提取的语音特征而单独预先训练得到的。

利用本实施例的语音认证方法，用户在每次进行认证时输入的语音序列是随机生成的，从而杜绝了使用固定内容进行认证可能导致的使用上一次认证的录音冒充的安全隐患，具有更高的安全性。

作为示例，本实施例的语音认证方法中所使用的语音特征可以包括梅尔频率倒谱系数(MFCC)。在语音特征提取步骤的处理中，在提取MFCC之前，可以对待认证语音序列的语音信号进行诸如分帧、加窗、去静音和噪音等语音处理领域中的常规预处理。之后，可以将时序的语音数据变换到频域，使所得到的频谱经由梅尔(Mel)滤波器处理得到梅尔刻度，并经由对梅尔刻度取对数和离散傅里叶反变换等处理而变换到倒频谱域，从而可以得到作为倒频谱的幅度(也可称为谱系数)的MFCC。MFCC比一般的对数倒频谱中的线性间隔的频带更近似人类的听觉***，因而可以更好表征语音信号的特征。

尽管以上以MFCC作为语音特征的示例，但本领域技术人员可以理解，可以使用任意适当的能够表征说话人的语音特性的其他语音特征，例如LPCC(线性预测倒谱系数)等，在此不再赘述。

作为示例，用于生成认证序列的预定素材集的元素可以包括数字、字母、和/或单词。例如，预定素材集可包括0到9的数字、26个字母或其中的若干字母、10到20个预定单词、或者上述各项的组合。

作为示例，在认证序列生成步骤中，可以根据给定概率分布如均匀分布、泊松分布等，基于作为预定素材集的包括0到9的数字来随机生成数字串，作为认证序列。

在一个优选实施例中，认证序列生成步骤中所生成的认证序列的长度可以在预定素材集中的元素的数目的三分之一与二分之一之间。以预定素材集包括0到9的10个数字为例，认证序列的长度例如可以是5。

在本优选实施例中，仅使用预定素材集中的一部分元素来生成认证序列，因而后续经由用户语音输入得到的待认证语音序列也仅包括对预定素材集中的一部分元素的较短语音输入(例如不到一秒或只有几秒)。相较于传统的文本相关说话人确认技术所需的30秒语音长度，这样的较短语音输入有利于加快此后的语音特征提取处理以及判别处理的速度。并且，由于在语音特征输入及判别步骤中使用的判别模型是基于分别与认证序列的各个元素相对应的多个注册语音模型、即在该步骤中进行了与认证序列的每个元素有关的文本相关的说话人确认，因而可以安全地确认语音的说话人身份。

作为示例，每个元素的注册语音模型可以是特定用户对于该元素的高斯混合模型，其可以是利用从特定用户对该元素的相应语音输入中提取的语音特征对作为通用背景模型(UBM)的高斯混合模型(GMM)进行自适应训练而得到的。GMM是语音信号处理中常用的统计模型，其用多个多元高斯概率密度分布函数的加权组合来逼近所要表征的概率分布，其中每个多元高斯概率密度函数分量可以由其权重、均值和协方差矩阵来描述。训练GMM模型的过程就是经由训练确定上述参数的过程。以下将参照图2描述获得每个元素的基于GMM的注册语音模型的一个示例处理。

图2示出了用于获得在语音认证方法中所采用的判别模型所基于的每个元素的注册语音模型的一个示例处理。如图2所示，该示例处理200包括UBM模型训练步骤S201、各元素语音获取步骤S203、各元素语音特征提取步骤S205、以及各元素GMM模型适应步骤S205。以下将对上述步骤中的处理进行更详细的描述。

首先，在步骤S201中，可以使用大量不同说话人不同内容的语音数据，从中提取语音特征(例如MFCC特征)，并训练作为通用背景模型(UBM)的高斯混合模型(GMM)(即确定该GMM中每个多元高斯概率密度函数分量的权重、均值和协方差矩阵等参数)，该UBM即表征了人类语音的一般特性。这些说话人可以不包括需要进行注册的用户，语音数据的内容也与预定素材集完全无关。可以利用各种现有技术方式来获得作为UBM的GMM，这里不再赘述。

在步骤S201中获得UBM之后，可以在步骤S203中获取用户对预定素材集中的各个元素的语音输入。

在步骤S203的处理中，作为一个示例，可以生成包含素材集中的所有元素的素材元素序列。例如，以预定素材集包括0到9的十个数字为例，则可以素材元素序列可以是0到9这十个数字的顺序序列，或是包括这十个数字的一个随机序列。提示用户读这个素材元素序列，以得到注册语音序列，并存储到数据库中。为了提高处理精度，可以使用户重复语音输入该序列若干次，例如三次。之后，可以使用自动语音识别***(ASR)，确认注册语音序列的内容和素材元素序列的内容一致，同时对齐每个元素在注册语音序列中的位置。根据对齐信息将注册语音序列进行语音切分，以得到用户对每个元素的相应语音输入。替选地，在步骤S203的处理中，也可以使得用户每次单独对素材集中的一个元素进行语音输入，从而分别得到用户对每个元素的相应语音输入。

接下来，在步骤S205的处理中，针对每个元素，从用户对该元素的相应语音输入中提取诸如MFCC的语音特征。

然后，在步骤S207中，对于每个元素，可以利用所提取的语音特征对UBM进行自适应训练，例如基于最大似然准则调整作为UBM的GMM的参数(例如调整GMM中的多元高斯概率密度函数分量的均值)，使得在调整后的GMM模型与用户的该元素的语音特征之间达到最佳的匹配程度，从而得到用户的对该元素的GMM，作为该元素的注册语音模型。本领域技术人员可以理解，可以采用各种方式来实现基于UBM自适应获得针对个体用户的特定语音的GMM，这里不再赘述。

基于例如通过上述示例处理获得的针对每个元素的注册语音模型，可以得到注册模型库。相应地，在语音特征输入及判别步骤中，可以将所提取的语音特征输入到基于从注册模型库中选择的、分别与认证序列的各个元素相对应的多个注册语音模型的判别模型，以判断被测用户是否为特定注册用户。

在一个实施例中，语音认证方法中所使用的判别模型可以包括多个注册语音模型。

在语音认证方法所利用的判别模型包括多个注册语音模型的情况下，可以在语音特征提取步骤和语音特征输入及判别步骤中进行相应的优选处理，以下将参照图3和图4的示例处理进行相应描述。

图3是示意性地示出根据本公开实施例的语音认证方法中的语音特征提取步骤的一个示例处理的流程图。优选地，在图3所示的示例处理中，语音特征提取步骤可以包括：语音序列划分步骤S1051，将待认证语音序列划分为分别与认证序列的各个元素相对应的多个待认证语音元素；以及语音特征分别提取步骤S1053，分别从每个待认证语音元素提取语音特征。

作为示例，语音序列划分步骤S1051中可以利用自动语音识别(ASR)技术来切分各个元素的语音。利用图3所示的优选示例，在判别模型包括多个注册语音模型的情况下，可以从待认证语音序列中提取分别与每个元素、进而与每个注册语音模型相对应的诸如MFCC的语音特征。

在以上述方式获得了分别对应于每个注册语音模型的语音特征之后，可以在语音特征输入及判别步骤中进行例如图4所示的处理。

图4是示意性地示出根据本公开实施例的语音认证方法中的语音特征输入及判别步骤的一个示例处理的流程图。优选地，在图4所示的示例处理中，语音特征输入及判别步骤可以包括：语音特征分别输入步骤S1071，将从每个待认证语音元素提取的语音特征分别输入到对应的注册语音模型中，以得到每个待认证语音元素的相似度得分；以及判别步骤S1073，基于所得到的所有相似度得分，判断被测用户是否为特定用户。

作为示例，当每个元素的注册语音模型为基于GMM的注册语音模型时，其在被输入从相应的待认证语音元素提取的语音特征时，输出的是输入语音特征属于该模型所表征的注册语音元素的相应语音特征的概率、即与输入语音特征对应的待认证语音元素属于该模型所表征的注册语音元素的概率，以作为相应的相似度得分。

相应地，在判别步骤S1073中，可以将所得到的所有相似度得分之和(例如各个GMM模型的累加概率)与预设阈值进行比较，并在相似度得分之和大于阈值的情况下判断语音的内容及说话人信息确认成功，即判别被测用户为特定用户；反之，则给出否定判别。该预设阈值可以在预先训练每个注册语音模型时，根据训练数据的相似度得分情况而设置，在此不再展开说明。

在以上参照图3和图4所描述的示例流程中，由于对待认证语音序列的语音元素进行了有效的切分、并使切分后的语音元素分别经由相应的注册语音模型处理，从而可以得到精确度较高的判别结果。

参照图5，可以更好地理解以上参照图1至图4描述的语音认证方法及其各个步骤中进行的处理。图5是用于说明应用根据本公开实施例的语音认证方法的一个示例处理的示意图。如图5所示，对于用户经提示后基于长度为5的认证序列所输入的待认证语音序列501，首先利用ASR切分序列中的各个元素的语音得到待认证语音元素5011～5015，然后提取每个待认证语音元素的诸如MFCC的语音特征5021～5025，并分别基于对应元素的注册语音模型5031～5035而得到相应的相似度得分，以最终基于所得到的所有相似度得分(例如所有相似度得分之和)，判断被测用户是否为特定用户。

以上以MFCC作为语音特征的示例描述了根据本公开实施例的语音认证方法。然而，如以上提及的，根据本公开实施例的语音认证方法所采用的语音特征不限于MFCC特征，而是可以包括任意适当的其他特征，诸如LPCC特征等。

更进一步地，在一个优选实施例中，语音认证方法所采用的语音特征可以同时包括多个特征。相应地，本优选实施例的语音认证方法中所使用的预先得到的每个元素的注册语音模型可以包括分别与多个特征关联的多个注册语音模型。在本优选实施例的语音认证方法中，例如在如图3所示的语音特征分别提取步骤S1053中，可以分别从每个待认证语音元素提取多个特征；例如在如图4所示的语音特征分别输入步骤S1071中，可以将从该待认证语音元素中提取的多个特征分别输入到对应的多个注册语音模型中，以得到该待认证语音元素的多个相似度得分。这样，例如在如图4所示的判别步骤S1073中，可以基于所有元素的所有相似度得分进行判别，从而综合利用了不同语音特征，以实现对说话人的更好的表征和判别。

在一个示例中，可以将此前描述的MFCC作为语音认证方法中所使用的语音特征中的第一特征，并将基于MFCC的GMM作为本示例中预先得到的每个元素的第一注册语音模型，相应地得到待认证语音序列中的每个待认证语音元素的第一相似度得分。

此外，可以将I向量(I-vector)作为本示例中所使用的语音特征中的第二特征。I向量是通过将语音数据投影到说话人子空间而得到的包含了说话人信息的特征；与MFCC相比，其更侧重于表征说话人身份。相应地，本示例中预先得到的每个元素的第二注册语音模型可以是简单地基于注册用户对该元素的语音输入中所提取的I向量的计算器，其例如计算该I向量与被测用户对该元素的语音输入中所提取的I向量之间的欧式距离的倒数，作为该模型输出的第二相似度得分。

作为示例，可以基于所有元素的第一相似度得分和第二相似度得分的加权和与预设阈值的比较而判别被测用户是否为特定用户。由于附加地使用了更侧重于表征说话人身份的I向量作为第二特征，可以更好地改进语音认证方法的精度。

以上参照图1至图5描述了在所利用的判别模型包括多个单独的注册语音模型的实施例中，语音处理方法中所进行的相应处理的示例。

在另一个实施例中，语音认证方法中所利用的判别模型可以包括一个合成模型，即，利用状态转移模型将多个注册语音模型按认证序列中元素的顺序进行连接而得到的合成模型。

在本实施例的语音认证方法中，使用以状态转移模型将多个注册语音模型(例如此前参照图2描述的GMM)进行拼接而得到的单个合成模型，可以直接获得整体相似度得分，因而处理速度较快。具体地，在本实施例中，不涉及此前参照图3至图5描述的实施例中将待认证语音序列划分为与认证序列中的每个元素相对应的处理，而是直接从待认证语音序列提取语音特征并将所提取的语音特征直接输入到合成模型，并经由合成模型的处理而得到整体相似度得分，以基于该相似度得分判断被测用户是否为特定用户。

注意，在本实施例中，尽管所利用的判别模型与此前参照图3至图5所描述的实施例中使用的判别模型不同，但该判别模型所基于的每个元素的注册语音模型可以与此前实施例中描述的每个元素的注册语音模型完全一致，因此不再重复说明。此外，此前参照图3至图5描述的实施例中所使用的语音特征也可以类似地应用于本实施例中，区别可以仅在于此前参照图3至图5所描述的是将待认证语音序列划分为与每个元素对应的部分之后提取语音特征，而本实施例中不涉及上述的划分步骤。

可以采用各种状态转移模型来基于注册语音模型获得本实施例中所使用的合成模型，例如HMM(隐马尔可夫模型)、有限状态机等。HMM模型是一种马尔可夫链，其包含了初始状态向量、状态转移矩阵等描述状态转移过程的结构。

以下将参照图6以及图7A、图7B来描述利用基于HMM得到的合成模型进行被测用户的判别的一个示例处理；基于该描述，本领域技术人员可以利用基于任意其他状态转移模型得到的合成模型进行判别处理。

在本示例处理中，将以每个注册语音模型是此前参照图2描述的基于GMM的模型、预定素材库包括0到9这十个数字、认证序列为57839为例进行描述。本领域技术人员可以理解，注册语音模型、预定素材库和认证序列的设置当然不限于此，在此不再展开说明。

图6是用于说明应用根据本公开实施例的语音认证方法的示例处理中所采用的以HMM连接的合成模型的示意图。如图6所示，在以HMM连接的该合成模型中，依次包括认证序列中的“5”、“7”、“8”、“3”、“9”等5个可能状态。如图6所示，除了认证序列的最后一个元素“9”的状态不会转移到其他状态以外，基于HMM的该合成模型中的每一个状态i都可以根据相应的转移概率β_ii或β_ij而保持当前状态或转移到下一状态(即认证序列“57839”中的下一个数字)(i为认证序列“57839”中的任一数字，j为认证序列“57839”中除了最后一个数字9以外的任一数字)，该转移概率β_ii或β_ij通过将当前数据的语音特征(诸如MFCC特征)输入到与目标状态(即，当前状态i或下一状态j)对应的注册语音模型而计算概率而获得。这些转移概率共同构成合成模型所使用的转移概率矩阵，以下将参照图7A和图7B进行详细描述。

图7A和图7B是用于说明应用根据本公开实施例的语音认证方法的示例处理中所采用的合成模型中的初始状态向量和状态转移矩阵的示意图，其中图7A示出了合成模型中使用的初始状态向量，图7B示出了所使用的状态转移矩阵。

图7A中以表格形式示出了初始状态向量，该表格的第一行表示分别与预定素材库中的各个元素0至9对应的状态，第二行表示每个元素的初始概率。如图7A所示，在初始状态向量中，将与认证序列“57839”的首个数字“5”对应的概率设置为1，其余概率均设置为0(即，默认第一帧的初始数据必然对应于首个数字5)。

图7B示出了本示例中所采用的状态转移矩阵。除了作为认证序列的最后一个元素的数字“9”为当前状态的情况(此时认为数据只能以转移概率β₉₉＝1保持当前状态)以外，认为每一帧的数据要么以相应的转移概率β_ii保持其当前状态i、即认证序列中的当前数字i，要么以相应的转移概率β_ij转移为认证序列中的下一数字j。如参照图5进行的描述中已说明的，这些转移概率通过将每一帧数据的语音特征输入分别到与当前数字i对应的注册语音模型和与认证序列中的下一数字j对应的注册语音模型来获得。除了上述转移概率以外，状态转移矩阵中的其余元素都设置为0。

利用例如图7A和图7B所示的初始状态向量和状态转移矩阵，可以计算得到音频的每一帧属于特定数字的概率。依次计算直到最后一帧，并在全部计算结束后通过搜索找到一个最大的概率的路径，该路径上每一帧对应到特定数字的概率累加的结果最大，这个概率即为待认证语音序列与认证序列“53879”的最终的相似度得分。

以下将更详细地描述如图6至图7B所示的合成模型进行判别处理的示例。

首先，由于图7A的初始状态向量默认第一帧输入必然是首个数字“5”，因此，从第二帧的音频数据开始处理。对于从第二帧音频数据中提取的音频特征，可以在当前数字“5”和认证序列中的下一个数字“7”的语音注册模型上分别计算得到该帧属于相应数字的概率，因而获得当前数字“5”分别转移到新的当前数字“5”和“7”(后续称为第一当前数字和第二当前数字)的转移概率β₅₅和β₅₇。

在对第三帧进行处理时，在上一帧的处理中获得的转移概率β₅₅和β₅₇分别作为该帧中两个可能的当前数字5和7的初始概率β₅₅和β₅₇。从第三帧开始，可能对应到的当前数字有多种，每一种都具有各自的初始概率，并且需要分别针对每个可能的当前数字来计算对应该当前数字的下一个数字的概率。

例如，在对第三帧进行处理时，可能存在第一当前数字“5”以转移概率β₅₅保持自身状态、第一当前数字“5”以转移概率β₅₇转移到认证序列中的下一数字“7”以及第二当前数字“7”以转移概率β₇₇保持自身状态、第二当前数字“7”以转移概率β₇₈转移到认证序列中的下一数字“8”等四种可能的状态转移方式。因此，在第二帧计算所获得的当前数字为“5”的初始概率β₅₅的情况下，分别基于数字“5”的注册语音模型和数字“7”的注册语音模型计算第三帧的上述转移概率β₅₅和β₅₇，并且在第二帧计算所获得的当前数字为“7”的初始概率β₅₇的情况下，分别基于数字“7”的注册语音模型和数字“8”的注册语音模型计算第三帧的上述转移概率β₇₇和β₇₈，这样得到的四个转移概率可以作为下一帧的处理中的初始概率。

以此类推，迭代到处理完待认证语音序列的音频数据的所有帧，通过搜索找到一个最大的概率的路径，该路径上每一帧对应到特定数字的概率累加的结果最大，这个概率即为待认证语音序列与认证序列“53879”的最终的整体相似度得分。例如基于该相似度得分与预设阈值的比较，可以判别被测用户是否为特定用户。

参照图8，可以更好地理解本实施例中的语音认证方法的处理。图8是用于说明应用根据本公开实施例的语音认证方法的一个示例处理的示意图。如图8所示，在本示例处理中，对于用户根据认证序列而输入的待认证语音序列801，提取诸如MFCC的语音特征802，并输入到合成模型803中，使合成模型803输出整体相似度得分，例如以基于该得分是否大于预设阈值来判别被测用户是否为特定用户。

以上参照图1至图8描述了根据本公开的实施例的语音认证方法。利用该语音认证方法，用户在每次进行认证时输入的语音序列是随机生成的，从而杜绝了使用固定内容进行认证可能导致的使用上一次认证的录音冒充的安全隐患，具有更高的安全性。

根据根本公开的另一方面，提供了一种语音认证设备。图9是示意性地示出根据本公开实施例的语音认证设备的示例结构的示意性框图。

如图9所示，语音认证设备900可以包括：认证序列生成单元901，用于随机生成由预定素材集中的元素构成的认证序列；认证序列语音输入单元902，用于提示被测用户以语音方式输入认证序列，得到待认证语音序列；语音特征提取单元903，用于从待认证语音序列中提取语音特征；以及语音特征输入及判别单元904，用于将所提取的语音特征输入到判别模型，以判断被测用户是否为特定注册用户。在单元904中使用的判别模型基于从注册模型库中选择的、分别与认证序列的各个元素相对应的多个注册语音模型，其中，注册模型库包括分别与预定素材集中的各个元素相对应的注册语音模型，每个元素的注册语音模型是基于从特定用户对该元素的相应语音输入中提取的语音特征而单独预先训练得到的。

上述语音认证设备及其各个单元例如可以进行以上参照图1至图8描述的语音认证方法及其各个步骤的操作和/或处理并实现类似的效果，在此不再进行重复说明。

根据根本公开的又一方面，提供了一种信息处理设备。该信息处理设备可以实现根据本公开实施例的语音认证方法，其可以包括处理器，该处理器被配置为：随机生成由预定素材集中的元素构成的认证序列；提示被测用户以语音方式输入认证序列，得到待认证语音序列；从待认证语音序列中提取语音特征；以及将所提取的语音特征输入到判别模型，以判断被测用户是否为特定注册用户，其中，判别模型基于从注册模型库中选择的、分别与认证序列的各个元素相对应的多个注册语音模型，其中，注册模型库包括分别与预定素材集中的各个元素相对应的注册语音模型，每个元素的注册语音模型是基于从特定用户对该元素的相应语音输入中提取的语音特征而单独预先训练得到的。

信息处理设备的处理器例如可以被配置为进行以上参照图1至图8描述的语音认证方法及其各个步骤的操作和/或处理并实现类似的效果，在此不再进行重复说明。

作为示例，用于生成认证序列的预定素材集中的元素可以包括数字、字母、和/或单词。

在一个优选实施例中，认证序列的长度可以在预定素材集中的元素的数目的三分之一与二分之一之间。

在一个实施例中，判别模型可以包括多个注册语音模型。

优选地，处理器可以被配置为利用下述操作提取语音特征：将待认证语音序列划分为分别与认证序列的各个元素相对应的多个待认证语音元素；以及分别从每个待认证语音元素提取语音特征。

此外，优选地，处理器可以被配置为利用下述操作将所提取的语音特征输入到判别模型：将从每个待认证语音元素提取的语音特征分别输入到对应的注册语音模型中，以得到每个待认证语音元素的相似度得分；以及基于所得到的所有相似度得分，判断被测用户是否为特定用户。

可选地，语音特征可以包括多个特征，每个元素的注册语音模型可以包括分别与多个特征关联的多个注册语音模型。在这种情况下，处理器可以被进一步配置为：分别从每个待认证语音元素提取多个特征，并将从该待认证语音元素中提取的多个特征分别输入到对应的多个注册语音模型中，以得到该待认证语音元素的多个相似度得分。

在另一个实施例中，判别模型可以包括：利用状态转移模型将所述多个注册语音模型按认证序列中元素的顺序进行连接而得到的合成模型。

图10是示出了可用来实现根据本公开实施例的信息处理设备和方法的一种可能的硬件配置1000的结构简图。

在图10中，中央处理单元(CPU)1001根据只读存储器(ROM)1002中存储的程序或从存储部分1008加载到随机存取存储器(RAM)1003的程序执行各种处理。在RAM 1003中，还根据需要存储当CPU 1001执行各种处理等等时所需的数据。CPU 1001、ROM 1002和RAM 1003经由总线1004彼此连接。输入/输出接口1005也连接到总线1004。

下述部件也连接到输入/输出接口1005：输入部分1006(包括键盘、鼠标等等)、输出部分1007(包括显示器，例如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分1008(包括硬盘等)、通信部分1009(包括网络接口卡例如LAN卡、调制解调器等)。通信部分1009经由网络例如因特网执行通信处理。根据需要，驱动器1010也可连接到输入/输出接口1005。可拆卸介质1011例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器1010上，使得从中读出的计算机程序可根据需要被安装到存储部分1008中。

此外，本公开还提出了一种存储有机器可读取的指令代码的程序产品。上述指令代码由机器读取并执行时，可执行上述根据本公开实施例的语音认证方法。相应地，用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本公开的公开中。

即，本公开还提出了一种存储介质，其存储有机器可读取的指令代码，所述指令代码在由机器读取并执行时，能够使得机器执行上述根据本公开实施例的语音认证方法。所述指令代码包括指令代码部分，用于进行下述操作：随机生成由预定素材集中的元素构成的认证序列；提示被测用户以语音方式输入认证序列，得到待认证语音序列；从待认证语音序列中提取语音特征；以及将所提取的语音特征输入到判别模型，以判断被测用户是否为特定注册用户，其中，判别模型基于从注册模型库中选择的、分别与认证序列的各个元素相对应的多个注册语音模型，其中，注册模型库包括分别与预定素材集中的各个元素相对应的注册语音模型，每个元素的注册语音模型是基于从特定用户对该元素的相应语音输入中提取的语音特征而单独预先训练得到的。

上述存储介质例如可以包括但不限于磁盘、光盘、磁光盘、半导体存储器等。

在上面对本公开具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

此外，本公开的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行，也可以按照其他的时间顺序、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本公开的技术范围构成限制。

此外，显然，根据本公开的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。

而且，本公开的目的也可以通过下述方式实现：将存储有上述可执行程序代码的存储介质直接或者间接地提供给***或设备，并且该***或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。

此时，只要该***或者设备具有执行程序的功能，则本公开的实施方式不局限于程序，并且该程序也可以是任意的形式，例如，目标程序、解释器执行的程序或者提供给操作***的脚本程序等。

上述这些机器可读存储介质包括但不限于：各种存储器和存储单元，半导体设备，磁盘单元例如光、磁和磁光盘，以及其它适于存储信息的介质等。

另外，客户信息处理终端通过连接到因特网上的相应网站，并且将依据本公开的计算机程序代码下载和安装到信息处理终端中然后执行该程序，也可以实现本公开的各实施例。

综上，根据本公开实施例，本公开提供了如下方案，但不限于此：

方案1.一种语音认证方法，包括：

随机生成由预定素材集中的元素构成的认证序列；

提示被测用户以语音方式输入认证序列，得到待认证语音序列；

从待认证语音序列中提取语音特征；以及

将所提取的语音特征输入到判别模型，以判断被测用户是否为特定注册用户，

其中，判别模型基于从注册模型库中选择的、分别与认证序列的各个元素相对应的多个注册语音模型，其中，注册模型库包括分别与预定素材集中的各个元素相对应的注册语音模型，每个元素的注册语音模型是基于从特定用户对该元素的相应语音输入中提取的语音特征而单独预先训练得到的。

方案2.如方案1所述的方法，其中，预定素材集中的元素包括数字、字母、和/或单词。

方案3.如方案1所述的方法，其中，认证序列的长度在预定素材集中的元素的数目的三分之一与二分之一之间。

方案4.如方案1所述的方法，其中，判别模型包括所述多个注册语音模型。

方案5.如方案4所述的方法，其中，提取语音特征包括：

将待认证语音序列划分为分别与认证序列的各个元素相对应的多个待认证语音元素；以及

分别从每个待认证语音元素提取语音特征。

方案6.如方案5所述的方法，其中，将所提取的语音特征输入到判别模型包括：

将从每个待认证语音元素提取的语音特征分别输入到对应的注册语音模型中，以得到每个待认证语音元素的相似度得分；以及

基于所得到的所有相似度得分，判断被测用户是否为特定用户。

方案7.如方案6所述的方法，其中，语音特征包括多个特征，每个元素的注册语音模型包括分别与多个特征关联的多个注册语音模型，并且分别从每个待认证语音元素提取多个特征，并将从该待认证语音元素中提取的多个特征分别输入到对应的多个注册语音模型中，以得到该待认证语音元素的多个相似度得分。

方案8.如方案1所述的方法，其中，判别模型包括：利用状态转移模型将所述多个注册语音模型按认证序列中元素的顺序进行连接而得到的合成模型。

方案9.如方案1所述的方法，其中，语音特征包括梅尔频率倒谱特征。

方案10、一种信息处理设备，所述设备包括:

处理器，所述处理器被配置为：

随机生成由预定素材集中的元素构成的认证序列；

从待认证语音序列中提取语音特征；以及

方案11.如方案10所述的设备，其中，预定素材集中的元素包括数字、字母、和/或单词。

方案12.如方案10所述的设备，其中，认证序列的长度在预定素材集中的元素的数目的三分之一与二分之一之间。

方案13.如方案10所述的设备，其中，判别模型包括所述多个注册语音模型。

方案14.如方案13所述的设备，其中，处理器被配置为利用下述操作提取语音特征：

分别从每个待认证语音元素提取语音特征。

方案15.如方案14所述的设备，其中，处理器被配置为利用下述操作将所提取的语音特征输入到判别模型：

方案16.如方案15所述的设备，其中，语音特征包括多个特征，每个元素的注册语音模型包括分别与多个特征关联的多个注册语音模型，并且处理器被进一步配置为：分别从每个待认证语音元素提取多个特征，并将从该待认证语音元素中提取的多个特征分别输入到对应的多个注册语音模型中，以得到该待认证语音元素的多个相似度得分。

方案17.如方案10所述的设备，其中，判别模型包括：利用状态转移模型将所述多个注册语音模型按认证序列中元素的顺序进行连接而得到的合成模型。

方案18.如方案10所述的设备，其中，语音特征包括梅尔频率倒谱特征。

方案19、一种存储介质，其存储有机器可读取的指令代码，所述指令代码在由机器读取并执行时，能够使得机器执行一种语音认证方法，所述指令代码包括：

指令代码部分，用于进行下述操作：

随机生成由预定素材集中的元素构成的认证序列；

从待认证语音序列中提取语音特征；以及

最后，还需要说明的是，在本公开中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备可能不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

尽管上面已经通过本公开的具体实施例的描述对本公开进行了披露，但是，应该理解，本领域技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开所要求保护的范围内。

Claims

1.一种信息处理设备，包括：

处理器，被配置为：

随机生成由预定素材集中的元素构成的认证序列；

从待认证语音序列中提取语音特征；以及

2.如权利要求1所述的信息处理设备，其中，预定素材集中的元素包括数字、字母、和/或单词。

3.如权利要求1所述的信息处理设备，其中，认证序列的长度在预定素材集中的元素的数目的三分之一与二分之一之间。

4.如权利要求1所述的信息处理设备，其中，判别模型包括所述多个注册语音模型。

5.如权利要求4所述的信息处理设备，其中，处理器被配置为利用下述操作提取语音特征：

分别从每个待认证语音元素提取语音特征。

6.如权利要求5所述的信息处理设备，其中，处理器被配置为利用下述操作将所提取的语音特征输入到判别模型：

7.如权利要求6所述的信息处理设备，其中，语音特征包括多个特征，每个元素的注册语音模型包括分别与多个特征关联的多个注册语音模型，并且处理器进一步被配置为：分别从每个待认证语音元素提取多个特征，并将从该待认证语音元素中提取的多个特征分别输入到对应的多个注册语音模型中，以得到该待认证语音元素的多个相似度得分。

8.如权利要求1所述的信息处理设备，其中，判别模型包括：利用状态转移模型将所述多个注册语音模型按认证序列中元素的顺序进行连接而得到的合成模型。

9.一种语音认证方法，包括:

随机生成由预定素材集中的元素构成的认证序列；

从待认证语音序列中提取语音特征；以及

10.一种存储介质，其存储有机器可读取的指令代码，所述指令代码在由机器读取并执行时，能够使得机器执行一种语音认证方法，所述指令代码包括：

指令代码部分，用于进行下述操作：

随机生成由预定素材集中的元素构成的认证序列；

从待认证语音序列中提取语音特征；以及