CN103310788B

CN103310788B - 一种语音信息识别方法及***

Info

Publication number: CN103310788B
Application number: CN201310195575.9A
Authority: CN
Inventors: 李轶杰
Original assignee: Beijing Yunzhisheng Information Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2013-05-23
Filing date: 2013-05-23
Publication date: 2016-03-16
Anticipated expiration: 2033-05-23
Also published as: CN103310788A

Abstract

本申请提供了一种语音信息识别方法及***，识别方法包括：从与个性化信息对应的样本语音数据中提取样本语音特征参数，用样本语音特征参数训练高斯混合模型，得到个性化模型，从待识别语音数据中提取待识别语音特征参数，将待识别语音特征参数与个性化模型匹配，基于待识别语音特征参数与个性化模型的匹配情况确定个性化信息。本申请可从待识别语音数据中识别出说话人性别、年龄等个性化信息，识别出的个性化信息为语音助手、语音对话等后续操作留下了更大的可操作空间，另外，本申请还可识别出文本信息，个性化信息的识别与文本信息的识别共用一套语音特征参数，个性化信息的识别与文本信息的识别相比计算量小，因此对文本信息的识别速度影响小。

Description

一种语音信息识别方法及***

技术领域

本发明涉及信息识别技术领域，尤其涉及一种语音信息识别方法及***。

背景技术

随着电子技术的发展，电子设备升级换代使其具备越来越多的功能，其中，语音控制功能备受关注，各种语音助手类应用随着出现，语音助手类应用使得用户可以通过电子设备阅读短信、介绍餐厅、询问天气等。

实现语音助手类应用中的关键为语音识别***，语音识别***识别语音的过程即为将用户的语音信息转换为文字信息的过程。然而，发明人在实现本发明创造的过程中发现：现有技术中的语音识别***只能完成语音到文字的简单转换，即从用户的语音中识别出的信息较少。

发明内容

有鉴于此，本发明提供了一种语音信息识别方法及***，用以解决现有技术中的语音识别***只能完成语音到文字的简单转换，即从用户的语音中识别出的信息较少的问题，其技术方案如下：

一种语音信息识别方法，包括：

从与个性化信息对应的样本语音数据中提取样本语音特征参数；

用所述样本语音特征参数训练高斯混合模型，得到个性化模型；

从所述待识别语音数据中提取待识别语音特征参数；

将所述待识别语音特征参数与所述个性化模型进行匹配；

基于所述语音特征参数与所述个性化模型的匹配情况确定个性化信息。

可选的，上述语音信息识别方法还包括：：

通过所述语音特征参数确定与所述待识别语音数据对应的文本信息。

其中，所述个性化信息为说话人的性别；

从与个性化信息对应的样本语音数据中提取样本语音特征参数的过程包括：从男性的样本语音数据中提取出语音特征参数，得到男性的语音特征参数；从女性的样本语音数据中提取语音特征参数，得到女性的语音特征参数；

用所述样本语音特征参数训练高斯混合模型，得到个性化模型的过程包括：用所述男性的语音特征参数训练高斯混合模型，得到男性的高斯混合模型，用所述女性的语音特征参数训练高斯混合模型，得到女性的高斯混合模型。

优选地，将所述待识别语音特征参数与所述个性化模型进行匹配的过程包括：计算所述待识别语音特征参数与所述男性的高斯混合模型参数的对数似然度，得到第一对数似然度；计算所述待识别语音特征参数与所述女性的高斯混合模型参数的对数似然度，得到第二对数似然度；

基于所述语音特征参数与所述个性化模型的匹配情况确定个性化信息的过程包括：当所述第一对数似然度大于所述第二对数似然度时，确定所述说话人的性别为男性，当所述第一对数似然度小于所述第二对数似然度，确定所述说话人的性别为女性。

其中，所述个性化信息为：说话人所属的年龄段；

从与个性化信息对应的样本语音数据中提取样本语音特征参数的过程包括：从与各个年龄段对应的样本语音数据中提取语音特征参数，得到各个年龄段的语音特征参数；

用所述样本语音特征参数训练高斯混合模型，得到个性化模型的过程包括：用所述各个年龄段的语音特征参数训练高斯混合模型，得到各个年龄段的高斯混合模型。

优选地，将所述待识别语音特征参数与所述个性化模型进行匹配的过程包括：分别计算所述待识别语音特征参数与所述各个年龄段的高斯混合模型参数的对数似然度，得到与各个年龄段对应的对数似然度；

基于所述语音特征参数与所述个性化模型的匹配情况确定个性化信息的过程包括：从所述与各个年龄段对应的对数似然度中确定最大的对数似然度，将与最大的对数似然度对应的年龄段确定为说话人所属的年龄段。

其中，所述个性化信息为语言类型；

所述方法还包括：从所有样本语音数据中提取样本语音特征参数，用该样本语音特征参数训练高斯混合模型，得到通用高斯混合模型；

从与个性化信息对应的样本语音数据中提取样本语音特征参数的过程包括：从与各个省对应的样本语音数据中提取语音特征参数，得到各个省的语音特征参数；

用所述样本语音特征参数训练高斯混合模型，得到个性化模型的过程包括：用所述各个省的语音特征参数训练高斯混合模型，得到各个省的高斯混合模型。

优选地，将所述待识别语音特征参数与所述个性化模型进行匹配的过程包括：分别计算所述待识别语音特征参数与所述各个省的高斯混合模型参数的对数似然度，得到与各个省对应的对数似然度；

基于所述语音特征参数与所述个性化模型的匹配情况确定个性化信息的过程包括：

计算所述待识别语音特征参数与通用高斯模型参数的对数似然度，得到第三似然对数；

从所述与各个省对应的对数似然度中确定最大的对数似然度；

判断所述最大的对数似然度与第三似然对数的差值是否大于第一预设值，如果是，则确定所述语言类型为方言，且确定方言为与所述最大的对数似然度对应的省份的方言，否则，确定所述语言类型为普通话。

其中，所述个性化信息为：说话人的身份；

从与个性化信息对应的样本语音数据中提取样本语音特征参数的过程包括：从说话人的历史语音数据中提取说话人自身的语音特征参数；

用所述样本语音特征参数训练高斯混合模型，得到个性化模型的过程包括：用所述说话人自身的语音特征参数训练高斯混合模型，得到说话人自身的高斯混合模型。

优选地，将所述待识别语音特征参数与所述个性化模型进行匹配的过程包括：计算所述待识别语音特征参数与所述说话人自身的高斯混合模型参数的对数似然度，得到第四对数似然度；

基于所述语音特征参数与所述个性化模型的匹配情况确定个性化信息的过程包括：计算所述待识别语音特征参数与通用高斯混合模型参数的对数似然度，得到第五对数似然度；

判断所述第四对数似然度与所述第五对数似然度的差值是否大于第二预设值，如果是，则确定说话人为本人，否则，确定说话人为他人。

一种语音信息识别***，包括：特征提取模块和个性化分析模块；

所述特征提取模块，用于从与个性化信息对应的样本语音数据中提取样本语音特征参数，从待识别语音数据中提取待识别语音特征参数；

所述个性化分析模块，用于用所述样本语音特征参数训练高斯混合模型，得到个性化模型，将所述待识别语音特征参数与所述个性化模型进行匹配，基于所述语音特征参数与所述个性化模型的匹配情况确定个性化信息。

上述语音信息识别***还包括：文本识别模块；

所述文本识别模块，用于通过所述语音特征参数确定与所述语音数据对应的文本信息。

上述技术方案具有如下有益效果：

本发明提供的语音信息识别方法及***，从与个性化信息对应的样本语音数据中提取样本语音特征参数，用样本语音特征参数训练高斯混合模型，得到个性化模型，从待识别语音数据中提取待识别语音特征参数，将待识别语音特征参数与个性化模型进行匹配，基于语音特征参数与个性化模型的匹配情况确定个性化信息。本发明提供的语音信息识别方法及***，可从待识别语音数据中识别出说话人的性别、说话人的年龄等个性化信息，识别出的个性化信息为语音助手、语音对话等后续操作留下了更大的可操作空间，另外，本发明提供的语音信息识别方法及***还可从待识别语音数据中识别出本文信息，并且个性化信息的识别与文本信息的识别共用一套语音特征参数，个性化信息的识别与文本信息的识别相比计算量小，因此对文本信息的识别速度影响小。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语音信息识别方法的流程示意图；

图2为本发明实施例提供的当个性化信息为说话人性别时语音信息识别方法流程示意图；

图3为本发明实施例提供的语音特征参数提取方法的流程示意图；

图4为本发明实施例提供的当个性化信息为说话人所属年龄段时语音信息识别方法的流程示意图；

图5为本发明实施例提供的当个性化信息为语言类型时语音信息识别方法的流程示意图；

图6为本发明实施例提供的当个性化信息为说话人身份时语音信息识别方法的流程示意图；

图7为本发明实施例提供的语音信息识别***的结构示意图；

图8为本发明实施例提供的信息识别***的一具体结构示意图；

图9为本发明实施例提供的信息识别***的另一结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种语音信息识别方法，图1示出了该方法的流程示意图，该方法可以包括：

S11：从与个性化信息对应的样本语音数据中提取样本语音特征参数。

S12：用样本语音特征参数训练高斯混合模型，得到个性化模型。

S13：从待识别语音数据中提取待识别语音特征参数。

S14：将待识别语音特征参数与个性化模型进行匹配。

S15：基于语音特征参数与个性化模型的匹配情况确定个性化信息。

其中，个性化信息可以包括：说话人的性别、说话人所属的年龄段、语言类型、和/或说话人的身份。其中，说话人的身份为说话人是本人还是他人。

本发明实施例提供的语音信息识别方法，可从待识别语音数据中识别出说话人性别、年龄等个性化信息，识别出的个性化信息可与通过现有技术中的语音识别方式识别出的文本信息相结合，为语音助手、语音对话等应用留下了更大的可操作空间。

下面分别以个性化信息为说话人的性别、说话人所属的年龄段、语言类型和说话人身份为例，对本发明实施例提供的语音信息识别方法进行详细说明。需要说明的是，本发明实施例提供的语音信息识别方法可从待识别语音数据中同时识别出说话人的性别、说话人所属的年龄段、语言类型、和说话人的身份，本实施例仅仅是为了对个性化信息的识别进行清楚详细说明，才将各个信息的识别过程分开说明。

请参见图2，图2为当个性化信息为说话人的性别时，本发明实施例提供的语音信息识别方法的流程示意图，该方法可以包括：

步骤S101：从男性的样本语音数据中提取语音特征参数，得到男性的语音特征参数，从女性的样本语音数据中提取语音特征参数，得到女性的语音特征参数。

在本实施例中，可预先通过语音采集设备采集大量的样本语音数据存储于样本库中，在进行语音识别时，从样本库中获取男性的样本语音数据和女性的样本语音数据。

本实施例中的语音特征参数可以采用识别性能较好且能充分模拟人耳听觉感知特性的Mel频率倒谱系数MFCC。

图3示出了从语音数据中提取MFCC的一流程示意图，从语音数据中提取MFCC的过程可以包括：

步骤S1011：将待识别语音数据进行预处理操作。其中，预处理操作可以包括：分帧、加窗和预加重。

由于语音信号的时变特性决定对其进行处理必须在一小段语音上进行，因此，需要对语音信号进行分帧、加窗，另外，由于语音信号的平均功率谱受到生门激励和口鼻辐射的影响，高频端大约在8000Hz以上按6dB/倍程跌落，因此，要进行预加重以提升语音信号的高频部分，使信号的频谱变得平坦。

步骤S1012：将预处理后的语音信号进行短时傅里叶变换得到频谱，语音信号的傅里叶变换公式为：

X (k) = Σ_{n = 0}^{N - 1} x (n) e^{- j 2 πk / N}, 0 \leq k \leq N - 1 - - - (1)

其中，x(n)为预处理后的语音信号，X(k)为频谱。

步骤S1013：计算频谱的平方，即能量谱，然后通过Mel滤波器H_q(k)对语音信号的频谱进行平滑，消除谐波，凸显原语音的共振峰。其中Mel滤波器是一组三角带通滤波器，Mel滤波器H_q(k)可以表示为：

H_{q} (k) = \{\begin{matrix} 0 & k < f (q - 1) \\ \frac{k - f (q - 1)}{f (q) - f (q - 1)} & f (q - 1) \leq k < f (q) \\ \frac{f (q + 1) - k}{f (q + 1) - f (q)} & f (q) \leq k \leq f (q + 1) \\ 0 & k > f (q + 1) \end{matrix} - - - (2)

其中，f(q)中q=1，2，---Q，Q是三角带通滤波器的个数。

步骤S1014：对滤波器组的输出取对数：压缩语音频谱的动态范围；将频域中噪声的乘性成分转换为加性成分，得到对数Mel频谱S(q)：

S (q) = \ln {Σ_{k = 0}^{N - 1} {| X (k) |}^{2} H_{q} (k)} - - - (3)

步骤S1015：进行离散余弦变换DCT，将对数Mel频谱S(q)变换到时域，得到Mel频谱倒谱系数MFCC，第n个系数C(n)的计算如下式：

C (n) = \sqrt{\frac{2}{Q}} Σ_{q = 0}^{Q - 1} S (q) \cos {\frac{πn (q + 0.5)}{Q}}, 0 \leq n < L - - - (4)

其中，L是MFCC阶数，Q为Mel滤波器个数。

步骤S102：用男性的语音特征参数训练高斯混合模型，得到男性的高斯混合模型，用女性的语音特征参数训练高斯混合模型，得到女性的高斯混合模型。

其中，可以利用提取的语音特征参数通过LBG算法生成对应的高斯混合模型。

本实施例提供的语音信息识别方法之所以采用高斯混合模型，是因为：高斯混合模型是说话人识别领域中应用最成功的模型，其主要用于与文本无关的说话人识别，它直接对语音中说话人个性特征的统计分布进行拟合，高斯混合模型并不关注语音的时序过程，只描述语音特征参数的静态分布，由于不同说话人语音特征的静态分布不同，因此，通过比较不同说话人的高斯混合模型即可区分不同说话人。将高斯混合模型作为与文本无关的说话人识别模型主要基于两点原因：

其一，一个说话人的声学特征参数在特征空间的分布由他(她)在发不同音时的特征矢量的分布组成，对于与文本无关的说话人识别，可以认为高斯混合模型的各个高斯成分模拟了同一个说话人不同的未知音素的声学特征，每个高斯成分描述了不同的音素分布；其二，统计理论表明，用多个高斯概率密度函数的线性组合可以逼近任意分布，因此，高斯混合模型可以对任意的语音特征分布进行精确的描述。

步骤S103：从待识别语音数据中提取待识别语音特征参数。

从待识别语音数据中提取待识别语音特征参数的过程与上述提供的特征提取的方式相同，在此不作赘述。

步骤S104：计算待识别语音特征参数与男性的高斯混合模型参数的对数似然度，得到第一对数似然度，计算待识别语音特征参数与女性的高斯混合模型参数的对数似然度，得到第二对数似然度。

步骤S105：判断第一对数似然度是否大于第二对数似然度，当第一对数似然度大于第二对数似然度时，表明待识别语音特征参数与男性的高斯混合模型参数的相似度更高，确定说话人的性别为男性，当第一对数似然度小于第二对数似然度，确定说话人的性别为女性。

本发明实施例提供的语音信息识别方法，使用男性的语音数据训练高斯混合模型得到男性的高斯混合模型，使用女性的语音数据训练高斯混合模型得到女性的高斯混合模型，将从待识别语音数据中提取的待识别语音特征参数分别与男性的高斯混合模型和女性的高斯混合模型匹配，从而基于与模型的匹配情况确定说话人的性别是男性还是女性。本申请提供的语音信息识别方法实现了从待识别语音数据中识别出说话人性别。

请参见图4，图4为当个性化信息为说话人所属的年龄段时，本发明实施例提供的语音信息识别方法的流程示意图，该方法可以包括：

步骤S201：从与各个年龄段对应的样本语音数据中提取出语音特征参数，得到各个年龄段的语音特征参数。

本实施例中提取语音特征参数的过程可参见步骤S1011-S1015，在此不作赘述。

在本实施例中，可以设置五个年龄段，分别为：童年(0～6岁)、少年(7～17岁)、青年(18～40岁)、中年(41～65岁)和老年(66岁以后)，即，从0～6岁用户的语音数据中提取语音特征参数，得到童年的语音特征参数，从7～17岁用户的语音数据中提取语音特征参数，得到少年的语音特征参数，从18～40岁用户的语音数据中提取语音特征参数，得到青年的语音特征参数，从41～65岁用户的语音数据中提取语音特征参数，得到中年的语音特征参数，从66岁以后的语音数据中提取语音特征参数，得到老年的语音特征参数，这样便提取出了各个年龄段的语音特征参数。

步骤S202：用各个年龄段的语音特征参数训练高斯混合模型，得到各个年龄段的高斯混合模型。

本实施例可得到童年的高斯混合模型、少年的高斯混合模型、青年的高斯混合模型、中年的高斯混合模型和老年的高斯混合模型。

步骤S203：从待识别语音数据中提取待识别语音特征参数。

步骤S204：分别计算待识别语音特征参数与各个年龄段的高斯混合模型参数的对数似然度，得到与各个年龄段对应的对数似然度。

其中，与各个年龄段对应的对数似然度反映了说话人的年龄向对应年龄段的趋近程度，对数似然度越大，表明说话人的年龄越趋近于对应的年龄段。

步骤S205：从与各个年龄段对应的对数似然度中确定最大的对数似然度，将与最大的对数似然度对应的年龄段确定为说话人所属的年龄段。

本发明实施例提供的语音信息识别方法，分别用各个年龄段的语音数据训练高斯混合模型得到各个年龄段的高斯混合模型，将从待识别语音数据中提取的待识别语音特征参数分别与各个年龄段的高斯混合模型匹配，从而基于匹配情况确定说话人所属的年龄段。本申请提供的语音信息识别方法实现了从待识别语音数据中识别出说话人所属的年龄段。

请参见图5，图5为当个性化信息为语言类型时，本发明实施例提供的语音信息识别方法的流程示意图，该方法可以包括：

步骤S301：从与各个省对应的样本语音数据中提取语音特征参数，得到各个省的语音特征参数。

步骤S302：用与各个省对应的语音特征参数训练高斯混合模型，得到各个省的高斯混合模型。

步骤S303：从所有的样本语音数据中提取语音特征参数。

步骤S304：用从所有的样本语音数据中提取出的语音特征参数训练高斯混合模型，得到通用高斯混合模型。

步骤S305：从待识别语音数据中提取待识别语音特征参数。

步骤S306：分别计算待识别语音特征参数与各个省的高斯混合模型参数的对数似然度，得到与各个省对应的对数似然度。

步骤S307：计算待识别语音特征参数与通用高斯模型参数的对数似然度，得到第三似然对数。

步骤S308：从与各个省对应的对数似然度中确定最大的对数似然度。

步骤S309-S311：判断最大的对数似然度与第三似然对数的差值是否大于第一预设值，如果是，则确定语言类型为方言，且确定方言为与最大的对数似然度对应的省份的方言，否则，确定语言类型为普通话。

本发明实施例提供的语音信息识别方法，分别用各个省的语音数据训练高斯混合模型得到各个省的高斯混合模型，并用所有的样本语音数据训练高斯混合模型得到通用高斯混合模型，将从待识别语音数据中提取的待识别语音特征参数分别与各个省的高斯混合模型匹配，并将待识别语音特征参数与通用高斯混合模型匹配，基于与各个模型的匹配情况确定说话人的语言类型。本实施例提供的语音信息识别方法实现了从待识别语音数据中识别出说话人的语言类型。

请参见图6，图6为当个性化信息为说话人的身份时，本发明实施例提供的语音信息识别方法的流程示意图，该方法可以包括：

步骤S401：从说话人的历史语音数据中提取语音特征参数，得到说话人自身的语音特征参数。

在本实施例中，样本库中的样本语音数据中包括了待识别语音数据的历史语音数据。

另外，本实施例中提取语音特征参数的过程可参见步骤S1011-S1015，在此不作赘述。

步骤S402：用说话人自身的语音特征参数训练高斯混合模型，得到说话人自身的高斯混合模型。

步骤S403：从所有的样本语音数据中提取语音特征参数。

步骤S404：用从所有的样本语音数据中提取出的语音特征参数训练高斯混合模型，得到通用高斯混合模型。

步骤S405：从待识别语音数据中提取待识别语音特征参数。

步骤S406：计算待识别语音特征参数与说话人自身的高斯混合模型参数的对数似然度，得到第四对数似然度。

步骤S407：计算待识别语音特征参数与通用高斯混合模型参数的对数似然度，得到第五对数似然度。

步骤S408-S410：判断第四对数似然度与第五对数似然度的差值是否大于第二预设值，如果是，则确定说话人为本人，否则，确定说话人为他人。

本发明实施例提供的语音信息识别方法，用说话人的历史语音数据训练高斯混合模型得到说话人自身的高斯混合模型，并用所有的样本语音数据训练高斯混合模型得到通用高斯混合模型，将从待识别语音数据中提取的待识别语音特征参数分别与说话人自身的高斯混合模型和通用高斯混合模型匹配，基于与各个模型的匹配情况确定说话人的身份，即说话人是本人还是他人。本实施例提供的语音信息识别方法实现了从待识别语音数据中识别出说话人的身份。

在本发明的另一实施例中，语音信息识别方法还可以包括：当从待识别语音数据中提取出待识别语音特征参数后，通过待识别语音特征参数确定与待识别语音数据对应的文本信息，该过程即为将语音数据识别成文字的过程。

本实施例中个性化信息的识别与文本信息的识别共用一套语音特征参数，基于该语音特征参数，从待识别语音中既可识别出文本信息，又可识别出说话人的性别、说话人的年龄等个性化信息。

本发明实施例提供的语音信息识别方法，既可从待识别语音数据中识别出说话人的性别、说话人的年龄等个性化信息，又可从待识别语音数据中识别出文本信息，识别出的个性化信息可与文本信息相结合，为后续操作留下了更大的可操作空间。另外，本实施例提供的个性化信息的识别与文本信息的识别共用一套语音特征参数，个性化信息识别相对文本信息的识别计算量小，因此对文本信息的识别影响小。

本发明实施例还提供了一种语音信息识别***，图7示出了该***的结构示意图，该***可以包括：特征提取模块11和个性化分析模块12。其中：

特征提取模块11，用于从与个性化信息对应的样本语音数据中提取样本语音特征参数，从待识别语音数据中提取待识别语音特征参数。

个性化分析模块12，用于用样本语音特征参数训练高斯混合模型，得到个性化模型，将待识别语音特征参数与个性化模型进行匹配，基于语音特征参数与个性化模型的匹配情况确定个性化信息。

进一步的，特征提取模块11可以包括：

第一特征提取模块，用于从男性的样本语音数据中提取语音特征参数，得到男性的语音特征参数，从女性的样本语音数据中提取语音特征参数，得到女性的语音特征参数。

第二特征提取模块，用于从与各个年龄段对应的样本语音数据中提取出语音特征参数，得到与各个年龄段对应的语音特征参数。

第三特征提取模块，用于从与各个省对应的样本语音数据中提取语音特征参数，得到各个省的语音特征参数。

第四特征提取模块，用于从说话人的历史语音数据中提取说话人的语音特征参数。

第五特征提取模块，用于从所有的样本语音数据中提取语音特征参数。

第六特征提取模块，用于从待识别语音数据中提取待识别语音特征参数。

进一步的，如图8所示，个性化分析模块12可以包括：性别分析模块121、年龄分析模块122、语言分析模块123和身份分析模块124。其中：

性别分析模块121，用于用男性的语音特征参数训练高斯混合模型，得到男性的高斯混合模型，用女性的语音特征参数训练高斯混合模型，得到女性的高斯混合模型，计算待识别语音特征参数与男性的高斯混合模型参数的对数似然度，得到第一对数似然度，计算待识别语音特征参数与女性的高斯混合模型参数的对数似然度，得到第二对数似然度，当第一对数似然度大于第二对数似然度时，确定说话人的性别为男性，当第一对数似然度小于第二对数似然度，确定说话人的性别为女性。

年龄分析模块122，用于用与各个年龄段对应的语音特征参数训练高斯混合模型，得到各个年龄段的高斯混合模型，分别计算待识别语音特征参数与各个年龄段的高斯混合模型参数的对数似然度，得到与各个年龄段对应的对数似然度，从与各个年龄段对应的对数似然度中确定最大的对数似然度，将与最大的对数似然度对应的年龄段确定为说话人所属的年龄段。

语言分析模块123，用于用与各个省对应的语音特征参数训练高斯混合模型，得到各个省的高斯混合模型，用从所有的样本语音数据中提取出的语音特征参数训练高斯混合模型，得到通用高斯混合模型，分别计算待识别语音特征参数与各个省的高斯混合模型参数的对数似然度，得到与各个省对应的对数似然度，计算待识别语音特征参数与通用高斯模型参数的对数似然度，得到第三似然对数，从与各个省对应的对数似然度中确定最大的对数似然度，当最大的对数似然度与第三似然对数的差值大于第一预设值时，确定语言类型为方言，且确定方言为与最大的对数似然度对应的省份的方言，否则，确定语言类型为普通话。

身份分析模块124，用于用说话人的语音特征参数训练高斯混合模型，得到说话人自身的高斯混合模型，用从所有的样本语音数据中提取出的语音特征参数训练高斯混合模型，得到通用高斯混合模型，计算待识别语音特征参数与说话人自身的高斯混合模型参数的对数似然度，得到第四对数似然度，计算待识别语音特征参数与通用高斯混合模型参数的对数似然度，得到第五对数似然度，当第四对数似然度与第五对数似然度的差值大于第二预设值时，确定说话人为本人，否则，确定说话人为他人。

本发明实施例提供的语音信息识别***，可从待识别语音数据中识别出说话人性别、年龄等个性化信息，识别出的个性化信息可与通过现有技术中的语音识别方式识别出的文本信息相结合，为语音助手、语音对话等应用留下了更大的可操作空间。

在本发明的其它实施例中，如图9所示，语音信息识别***除了包括特征提取模块11和个性化分析模块12外，还可以包括文本识别模块13。

文本识别模块13，用于通过待识别语音特征参数确定与待识别语音数据对应的文本信息。

本实施例中的文本识别模块13和个性化分析模块12共用一套语音特征参数，基于该语音特征参数，从待识别语音中既可识别出文本信息，又可识别出说话人的性别、说话人的年龄等个性化信息。

实际应用中，文本识别模块13将待识别语音数据识别成文本信息的速度性能至关重要，一般采用实时率(RTF，RealTimeFactor)指标表明文本信息的识别速度。

在文本信息识别的过程中，待识别语音数据是一段一段进行发送的，文本识别模块13每收到一段语音数据，则立即进行运算处理，当运算处理时间小于语音实际长度时，除去语音数据传输时间，用户在说完语音就可以得到识别结果，基本达到实时，若运算处理大于语音实际长度，则用户需要等待，等待时间越长，用户体验就越差。

在文本识别模块13中时间开销极为紧张的情况下，采取共享语音特征参数的方式，在文本识别模块13对语音数据进行文字信息识别的同时，个性化分析模块计算MFCC与个性化模型的匹配度即对数似然度，相比计算量较大的文字信息识别，个性化信息识别只需要1%左右的时间(与个性化模型个数和大小相关）。

本发明实施例提供的语音信息识别***，既可从待识别语音数据中识别出说话人的性别、说话人的年龄等个性化信息，又可从待识别语音数据中识别出文本信息，识别出的个性化信息可与文本信息相结合，为后续操作留下了更大的可操作空间。另外，本实施例提供的个性化信息的识别与文本信息的识别共用一套语音特征参数，个性化信息识别相对文本信息的识别计算量小，因此对文本信息的识别影响小。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的***实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明可用于众多通用或专用的计算***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音信息识别方法，其特征在于，包括：

从待识别语音数据中提取待识别语音特征参数；

将所述待识别语音特征参数与所述个性化模型进行匹配；

基于所述语音特征参数与所述个性化模型的匹配情况确定个性化信息；

其中，所述个性化信息包括：说话人的性别、说话人所属的年龄段、语言类型、和/或说话人的身份，其中，所述说话人的身份为说话人是本人还是他人；

其中，还包括：

通过所述语音特征参数确定与所述待识别语音数据对应的文本信息；

其中，所述个性化信息为：说话人所属的年龄段；

用所述样本语音特征参数训练高斯混合模型，得到个性化模型的过程包括：用所述各个年龄段的语音特征参数训练高斯混合模型，得到各个年龄段的高斯混合模型；

其中，将所述待识别语音特征参数与所述个性化模型进行匹配的过程包括：分别计算所述待识别语音特征参数与所述各个年龄段的高斯混合模型参数的对数似然度，得到与各个年龄段对应的对数似然度；

2.根据权利要求1所述的方法，其特征在于，所述个性化信息为说话人的性别；

3.根据权利要求2所述的方法，其特征在于，将所述待识别语音特征参数与所述个性化模型进行匹配的过程包括：计算所述待识别语音特征参数与所述男性的高斯混合模型参数的对数似然度，得到第一对数似然度；计算所述待识别语音特征参数与所述女性的高斯混合模型参数的对数似然度，得到第二对数似然度；

4.根据权利要求1所述的方法，其特征在于，所述个性化信息为语言类型；

5.根据权利要求4所述的方法，其特征在于，将所述待识别语音特征参数与所述个性化模型进行匹配的过程包括：分别计算所述待识别语音特征参数与所述各个省的高斯混合模型参数的对数似然度，得到与各个省对应的对数似然度；

6.根据权利要求1所述的方法，其特征在于，所述个性化信息为：说话人的身份；

7.根据权利要求6所述的方法，其特征在于，将所述待识别语音特征参数与所述个性化模型进行匹配的过程包括：计算所述待识别语音特征参数与所述说话人自身的高斯混合模型参数的对数似然度，得到第四对数似然度；

8.一种语音信息识别***，其特征在于，应用如权利要求1所述语音信息识别方法，所述语音信息识别***具体包括：特征提取模块和个性化分析模块；

所述个性化分析模块，用于用所述样本语音特征参数训练高斯混合模型，得到个性化模型，将所述待识别语音特征参数与所述个性化模型进行匹配，基于所述语音特征参数与所述个性化模型的匹配情况确定个性化信息；

其中，还包括：文本识别模块；