CN103680495B

CN103680495B - 语音识别模型训练方法和装置及语音识别终端

Info

Publication number: CN103680495B
Application number: CN201210364061.7A
Authority: CN
Inventors: 郭勐; 杨蕾; 张俭; 于蓉蓉
Original assignee: China Mobile Communications Group Co Ltd
Current assignee: China Mobile Communications Group Co Ltd
Priority date: 2012-09-26
Filing date: 2012-09-26
Publication date: 2017-05-03
Anticipated expiration: 2032-09-26
Also published as: CN103680495A

Abstract

本申请公开了一种语音识别模型训练方法和装置及终端。根据本申请，语音识别模型训练方法可包括：通过采集用户朗读样本的语音而获取用户语音样本；对采集的用户语音样本进行特征提取；以及根据提取的特征，创建语音识别模型。通过本申请的方法和装置，能够根据用户特点更新语音识别模型库，从而提高语音识别成功率，改善用户体验。

Description

语音识别模型训练方法和装置及语音识别终端

技术领域

本申请涉及语音识别模型训练方法和装置及语音识别终端。

背景技术

在现有语音识别方法中，可根据已有的声学模型进行语音识别，例如，一种方法是利用语音字典来进行语音识别的方法。该方案提供了一种语音字典形成方法，包括整理日常生活中常会组合在一起使用的文字，将所述文字的标准读音通过音节代码存储。该方案同时公开了将语音字典里的语音代码和输入语音形成的代码进行比较，实现语音识别。

由于上述方法不能针对特定用户使用习惯来进行语音识别，因此特别是当用户有自己的发音特点时候，识别率可能会显著下降。

发明内容

为了解决上述现有语音识别方法中识别率不高的问题，本申请提出了一种语音识别模型训练方法和装置及终端。

根据本申请的一个方面，提出了一种语音识别模型训练方法，包括：通过采集用户朗读样本的语音而获取用户语音样本；对采集的用户语音样本进行特征提取；以及根据提取的特征，创建语音识别模型。

根据本申请的另一个方面，提出了一种语音识别模型训练装置，包括：样本接收模块，接收终端上传的用户语音样本；特征提取模块，对用户语音样本进行特征提取；以及模型训练模块，根据提取的特征对语音识别模型进行训练更新。

根据本申请的又一个方面，提出了一种语音识别终端，包括：样本存储模块，存储供用户朗读的样本；样本采集模块，通过采集用户朗读样本的语音而获取用户语音样本；以及记录模块，记录用户语音识别的成功率。

通过本申请的方法和装置，能够根据用户特点更新语音识别模型库，从而提高语音识别成功率，改善用户体验。

附图说明

图1是根据本申请一个实施方案的语音识别模型训练方法的流程图；以及

图2是根据本申请一个实施方案的语音识别模型训练装置的框图；以及

图3是根据本申请一个实施方案的语音识别终端的框图。

具体实施方式

下面参照附图，对本申请的实施方案进行详细说明。

如图1所示，根据一个实施方案的语音识别模型训练方法可如下执行。首先在步骤S1002，终端可通过采集用户朗读样本的语音而获取用户语音样本。根据一个实施例，供用户朗读的样本可以是静态样本，例如汉语拼音表、英语字母表、数字表、易混淆词表等。根据另一个实施例，供用户朗读的样本还可以是动态样本，例如包含用户被错误识别的语音内容，如易混淆发音的音节、出错发音等。然后在步骤S1004，由服务器对采集的用户语音样本进行特征提取，之后在步骤S1006，根据提取的特征，创建语音识别模型。可以理解，可在例如用户注册业务首次打开终端客户端时进行上述创建模型的过程。

根据一个实施方案，在进行语音识别过程中，当用户语音识别率低于预定阈值时，可对语音识别模型进行更新操作。作为一个具体实施例，可将预定阈值设定为0.75。

具体地，在进行更新操作时，可通过采集用户朗读动态样本的语音而获取用户语音样本，然后，可对采集的用户语音样本进行特征提取，并根据提取的特征，对语音识别模型进行更新。

根据一个实施例，对采集的用户语音样本提取的特征可包括特定音节的发音、用户连读习惯或者语音频谱等。

根据一个实施例，对采集的用户语音样本进行特征提取的步骤可包括：对用户语音样本进行FFT变换，对变换的结果进行带通滤波，之后进行DCT变换，计算结果进行差分，并对差分计算用户语音特征；以及为每个用户语音特征分配ID。

根据一个实施例，用户语音特征可包括过零率、基音周期和/或线性预测倒谱系数等。

根据一个具体实施例，对采集的用户语音样本进行特征提取的步骤可如下执行：

对用户语音样本分帧。帧与帧一般可部分重替，比如对采样率为16kHz的语音信号，帧陡可取25msec，帧移可取l0msec；

对用户语音样本进行滤波，其中滤波器的Z传递函数为H(z)＝1-Kz^-1，K是0到1之间的数值，z是频率；

对每帧信号进行滤波，其中滤波器为W(n)＝0.54+0.46cos[2πn/(N—1)]，N为每帧信号的长度，0≤n≤N-1；

对经滤波的每帧信号进行快速傅里叶变换；

对经快速傅里叶变换后的信号进行不同频率段的滤波，其中滤波器为G(f)＝a*log₁₀(1+f/b)，其中f为频率，a和b为预先确定的参数，例如，a可取值2560，b可取值700；

对经不同频率段的滤波的信号进行离线余弦变换；

对离线余弦变换的结果进行差分计算。

根据一个具体实施方案，对语音识别模型进行更新的步骤可以是对语音识别模型库进行聚类操作。

根据一个实施例，语音识别模型库可包括多个模型，每个模型可包括参数集合和特征集合等，还可包括ID。对语音识别模型库进行聚类操作可如下执行：

当新产生一个模型时，依次选择模型库中的所有模型，执行以下步骤：

(1)模型库中现有模型的参数集合与新产生模型的参数集合相减所得的差值取平方值，并对2个模型的参数集合中各个参数的差值的平方值进行累加，得到2个模型的参数之差的平方和，以及

(2)将2个模型的参数之差的平方和进行开方，并除以参数集合的元素数目，得到2个模型的参数的差值；

比较模型的差值，如果小于预定参数Thmm，则将新模型的参数集合乘以Thmm之后，除以(1+Thmm)，再与模型库中的模型的参数集合累加，否则，将新模型写入模型库。

接下来参照图2，描述根据本申请一个实施方案的语音识别模型训练装置。

如图2所示，语音识别模型训练装置可包括样本接收模块202、特征提取模块204和模型训练模块206。样本接收模块202可接收终端上传的用户语音样本。特征提取模块204可对接收的用户语音样本进行特征提取。模型训练模块206可根据提取的特征对语音识别模型进行训练更新。

具体地，特征提取模块206可进一步包括计算模块和分配模块。计算模块可对用户语音样本进行FFT变换，对变换的结果进行带通滤波，之后进行DCT变换，计算结果进行差分，并对差分计算用户语音特征。分配模块可为每个用户语音特征分配ID。

根据一个具体实施例，计算模块可包括：对用户语音样本分帧的单元；对用户语音样本进行滤波的单元，其中滤波器的Z传递函数为H(z)＝1-Kz^-1，K是0到1之间的数值，z是频率；对每帧信号进行滤波的单元，其中滤波器为W(n)＝0.54+0.46cos[2πn/(N—1)]，N为每帧信号的长度，0≤n≤N-1；对经滤波的每帧信号进行快速傅里叶变换的单元；对经快速傅里叶变换后的信号进行不同频率段的滤波的单元，其中滤波器为G(f)＝a*log₁₀(1+f/b)，其中f为频率，a和b为预先确定的参数；对经不同频率段的滤波的信号进行离线余弦变换的单元；以及对离线余弦变换的结果进行差分计算的单元。

根据一个实施例，模型训练模块通过对语音识别模型库进行聚类操作来进行训练更新。

根据一个实施例，语音识别模型库包括多个模型，每个模型包括参数集合和特征集合，聚类操作可如下执行：

接下来参照图3，描述根据本申请一个实施方案的语音识别终端。如图3所示，语音识别终端可包括：样本存储模块302、样本采集模块304和记录模块306。样本存储模块302可存储供用户朗读的样本，样本采集模块304可通过采集用户朗读样本的语音而获取用户语音样本，记录模块306可记录用户语音识别的成功率。

根据一个实施例，样本存储模块存储的样本可包括静态样本和动态样本。

根据一个实施例，语音识别终端可包括更新启动模块，当记录模块记录的成功率低于预定阈值时，将样本采集模块采集的用户朗读动态样本的语音而获取用户语音样本发送给服务器，进行语音识别模型库更新。

以上参照附图对本申请的示例性的实施方案进行了描述。本领域技术人员应该理解，上述实施方案仅仅是为了说明的目的而所举的示例，而不是用来进行限制。凡在本申请的教导和权利要求保护范围下所作的任何修改、等同替换等，均应包含在本申请要求保护的范围内。

Claims

1.语音识别模型训练方法，包括：

通过采集用户朗读样本的语音而获取用户语音样本；

对采集的用户语音样本进行特征提取；

根据提取的特征，创建语音识别模型；

在进行语音识别过程中，当用户语音识别率低于预定阈值时，通过以下步骤进行语音识别模型更新：

通过采集用户朗读动态样本的语音而获取用户语音样本，其中，所述动态样本包含所述用户被错误识别的语音内容；

对采集的用户语音样本进行特征提取；以及

根据提取的特征，对语音识别模型库进行聚类操作，所述语音识别模型库包括多个模型，每个模型包括参数集合和特征集合，所述聚类操作包括：

2.如权利要求1所述的方法，其中，对采集的用户语音样本提取的特征包括：特定音节的发音、用户连读习惯或者语音频谱。

3.如权利要求1所述的方法，其中，对采集的用户语音样本进行特征提取的步骤包括：

对用户语音样本进行FFT变换，对变换的结果进行带通滤波，之后进行DCT变换，计算结果进行差分，并对差分计算用户语音特征；

为每个用户语音特征分配ID。

4.如权利要求3所述的方法，其中，所述用户语音特征包括过零率、基音周期和/或线性预测倒谱系数。

5.如权利要求3所述的方法，其中，对采集的用户语音样本进行特征提取的步骤包括：

对用户语音样本分帧；

对经滤波的每帧信号进行快速傅里叶变换；

对经快速傅里叶变换后的信号进行不同频率段的滤波，其中滤波器为G(f)＝a*log₁₀(1+f/b)，其中f为频率，a和b为预先确定的参数；

对经不同频率段的滤波的信号进行离线余弦变换；以及

对离线余弦变换的结果进行差分计算。

6.语音识别模型训练装置，包括：

样本接收模块，接收终端上传的用户语音样本；

特征提取模块，对用户语音样本进行特征提取；以及

模型训练模块，根据提取的特征对语音识别模型进行训练更新，其中，在进行语音识别过程中，当用户语音识别率低于预定阈值时，通过以下步骤进行语音识别模型更新：

对采集的用户语音样本进行特征提取；以及

7.如权利要求6所述的装置，其中，所述特征提取模块进一步包括：

计算模块，对用户语音样本进行FFT变换，对变换的结果进行带通滤波，之后进行DCT变换，计算结果进行差分，并对差分计算用户语音特征；以及

分配模块，为每个用户语音特征分配ID。

8.如权利要求7所述的装置，其中，所述计算模块包括：

对用户语音样本分帧的单元；

对用户语音样本进行滤波的单元，其中滤波器的Z传递函数为H(z)＝1-Kz^-1，K是0到1之间的数值，z是频率；

对每帧信号进行滤波的单元，其中滤波器为W(n)＝0.54+0.46cos[2πn/(N—1)]，N为每帧信号的长度，0≤n≤N-1；

对经滤波的每帧信号进行快速傅里叶变换的单元；

对经快速傅里叶变换后的信号进行不同频率段的滤波的单元，其中滤波器为G(f)＝a*log₁₀(1+f/b)，其中f为频率，a和b为预先确定的参数；

对经不同频率段的滤波的信号进行离线余弦变换的单元；以及

对离线余弦变换的结果进行差分计算的单元。

9.语音识别终端，包括：

样本存储模块，存储供用户朗读的样本，其中，所述样本包括静态样本和动态样本，其中，动态样本包含用户被错误识别的语音内容；

样本采集模块，通过采集用户朗读所述样本的语音而获取用户语音样本；

记录模块，记录用户语音识别的成功率；以及

更新启动模块，当记录模块记录的成功率低于预定阈值时，将样本采集模块采集的用户朗读动态样本的语音而获取用户语音样本发送给服务器，以供所述服务器对采集的用户语音样本进行特征提取；以及根据提取的特征，对语音识别模型库进行聚类操作，所述语音识别模型库包括多个模型，每个模型包括参数集合和特征集合，所述聚类操作包括：