CN103680495B - 语音识别模型训练方法和装置及语音识别终端 - Google Patents

语音识别模型训练方法和装置及语音识别终端 Download PDF

Info

Publication number
CN103680495B
CN103680495B CN201210364061.7A CN201210364061A CN103680495B CN 103680495 B CN103680495 B CN 103680495B CN 201210364061 A CN201210364061 A CN 201210364061A CN 103680495 B CN103680495 B CN 103680495B
Authority
CN
China
Prior art keywords
sample
model
user
carried out
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210364061.7A
Other languages
English (en)
Other versions
CN103680495A (zh
Inventor
郭勐
杨蕾
张俭
于蓉蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201210364061.7A priority Critical patent/CN103680495B/zh
Publication of CN103680495A publication Critical patent/CN103680495A/zh
Application granted granted Critical
Publication of CN103680495B publication Critical patent/CN103680495B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请公开了一种语音识别模型训练方法和装置及终端。根据本申请,语音识别模型训练方法可包括:通过采集用户朗读样本的语音而获取用户语音样本;对采集的用户语音样本进行特征提取;以及根据提取的特征,创建语音识别模型。通过本申请的方法和装置,能够根据用户特点更新语音识别模型库,从而提高语音识别成功率,改善用户体验。

Description

语音识别模型训练方法和装置及语音识别终端
技术领域
本申请涉及语音识别模型训练方法和装置及语音识别终端。
背景技术
在现有语音识别方法中,可根据已有的声学模型进行语音识别,例如,一种方法是利用语音字典来进行语音识别的方法。该方案提供了一种语音字典形成方法,包括整理日常生活中常会组合在一起使用的文字,将所述文字的标准读音通过音节代码存储。该方案同时公开了将语音字典里的语音代码和输入语音形成的代码进行比较,实现语音识别。
由于上述方法不能针对特定用户使用习惯来进行语音识别,因此特别是当用户有自己的发音特点时候,识别率可能会显著下降。
发明内容
为了解决上述现有语音识别方法中识别率不高的问题,本申请提出了一种语音识别模型训练方法和装置及终端。
根据本申请的一个方面,提出了一种语音识别模型训练方法,包括:通过采集用户朗读样本的语音而获取用户语音样本;对采集的用户语音样本进行特征提取;以及根据提取的特征,创建语音识别模型。
根据本申请的另一个方面,提出了一种语音识别模型训练装置,包括:样本接收模块,接收终端上传的用户语音样本;特征提取模块,对用户语音样本进行特征提取;以及模型训练模块,根据提取的特征对语音识别模型进行训练更新。
根据本申请的又一个方面,提出了一种语音识别终端,包括:样本存储模块,存储供用户朗读的样本;样本采集模块,通过采集用户朗读样本的语音而获取用户语音样本;以及记录模块,记录用户语音识别的成功率。
通过本申请的方法和装置,能够根据用户特点更新语音识别模型库,从而提高语音识别成功率,改善用户体验。
附图说明
图1是根据本申请一个实施方案的语音识别模型训练方法的流程图;以及
图2是根据本申请一个实施方案的语音识别模型训练装置的框图;以及
图3是根据本申请一个实施方案的语音识别终端的框图。
具体实施方式
下面参照附图,对本申请的实施方案进行详细说明。
如图1所示,根据一个实施方案的语音识别模型训练方法可如下执行。首先在步骤S1002,终端可通过采集用户朗读样本的语音而获取用户语音样本。根据一个实施例,供用户朗读的样本可以是静态样本,例如汉语拼音表、英语字母表、数字表、易混淆词表等。根据另一个实施例,供用户朗读的样本还可以是动态样本,例如包含用户被错误识别的语音内容,如易混淆发音的音节、出错发音等。然后在步骤S1004,由服务器对采集的用户语音样本进行特征提取,之后在步骤S1006,根据提取的特征,创建语音识别模型。可以理解,可在例如用户注册业务首次打开终端客户端时进行上述创建模型的过程。
根据一个实施方案,在进行语音识别过程中,当用户语音识别率低于预定阈值时,可对语音识别模型进行更新操作。作为一个具体实施例,可将预定阈值设定为0.75。
具体地,在进行更新操作时,可通过采集用户朗读动态样本的语音而获取用户语音样本,然后,可对采集的用户语音样本进行特征提取,并根据提取的特征,对语音识别模型进行更新。
根据一个实施例,对采集的用户语音样本提取的特征可包括特定音节的发音、用户连读习惯或者语音频谱等。
根据一个实施例,对采集的用户语音样本进行特征提取的步骤可包括:对用户语音样本进行FFT变换,对变换的结果进行带通滤波,之后进行DCT变换,计算结果进行差分,并对差分计算用户语音特征;以及为每个用户语音特征分配ID。
根据一个实施例,用户语音特征可包括过零率、基音周期和/或线性预测倒谱系数等。
根据一个具体实施例,对采集的用户语音样本进行特征提取的步骤可如下执行:
对用户语音样本分帧。帧与帧一般可部分重替,比如对采样率为16kHz的语音信号,帧陡可取25msec,帧移可取l0msec;
对用户语音样本进行滤波,其中滤波器的Z传递函数为H(z)=1-Kz-1,K是0到1之间的数值,z是频率;
对每帧信号进行滤波,其中滤波器为W(n)=0.54+0.46cos[2πn/(N—1)],N为每帧信号的长度,0≤n≤N-1;
对经滤波的每帧信号进行快速傅里叶变换;
对经快速傅里叶变换后的信号进行不同频率段的滤波,其中滤波器为G(f)=a*log10(1+f/b),其中f为频率,a和b为预先确定的参数,例如,a可取值2560,b可取值700;
对经不同频率段的滤波的信号进行离线余弦变换;
对离线余弦变换的结果进行差分计算。
根据一个具体实施方案,对语音识别模型进行更新的步骤可以是对语音识别模型库进行聚类操作。
根据一个实施例,语音识别模型库可包括多个模型,每个模型可包括参数集合和特征集合等,还可包括ID。对语音识别模型库进行聚类操作可如下执行:
当新产生一个模型时,依次选择模型库中的所有模型,执行以下步骤:
(1)模型库中现有模型的参数集合与新产生模型的参数集合相减所得的差值取平方值,并对2个模型的参数集合中各个参数的差值的平方值进行累加,得到2个模型的参数之差的平方和,以及
(2)将2个模型的参数之差的平方和进行开方,并除以参数集合的元素数目,得到2个模型的参数的差值;
比较模型的差值,如果小于预定参数Thmm,则将新模型的参数集合乘以Thmm之后,除以(1+Thmm),再与模型库中的模型的参数集合累加,否则,将新模型写入模型库。
接下来参照图2,描述根据本申请一个实施方案的语音识别模型训练装置。
如图2所示,语音识别模型训练装置可包括样本接收模块202、特征提取模块204和模型训练模块206。样本接收模块202可接收终端上传的用户语音样本。特征提取模块204可对接收的用户语音样本进行特征提取。模型训练模块206可根据提取的特征对语音识别模型进行训练更新。
具体地,特征提取模块206可进一步包括计算模块和分配模块。计算模块可对用户语音样本进行FFT变换,对变换的结果进行带通滤波,之后进行DCT变换,计算结果进行差分,并对差分计算用户语音特征。分配模块可为每个用户语音特征分配ID。
根据一个具体实施例,计算模块可包括:对用户语音样本分帧的单元;对用户语音样本进行滤波的单元,其中滤波器的Z传递函数为H(z)=1-Kz-1,K是0到1之间的数值,z是频率;对每帧信号进行滤波的单元,其中滤波器为W(n)=0.54+0.46cos[2πn/(N—1)],N为每帧信号的长度,0≤n≤N-1;对经滤波的每帧信号进行快速傅里叶变换的单元;对经快速傅里叶变换后的信号进行不同频率段的滤波的单元,其中滤波器为G(f)=a*log10(1+f/b),其中f为频率,a和b为预先确定的参数;对经不同频率段的滤波的信号进行离线余弦变换的单元;以及对离线余弦变换的结果进行差分计算的单元。
根据一个实施例,模型训练模块通过对语音识别模型库进行聚类操作来进行训练更新。
根据一个实施例,语音识别模型库包括多个模型,每个模型包括参数集合和特征集合,聚类操作可如下执行:
当新产生一个模型时,依次选择模型库中的所有模型,执行以下步骤:
(1)模型库中现有模型的参数集合与新产生模型的参数集合相减所得的差值取平方值,并对2个模型的参数集合中各个参数的差值的平方值进行累加,得到2个模型的参数之差的平方和,以及
(2)将2个模型的参数之差的平方和进行开方,并除以参数集合的元素数目,得到2个模型的参数的差值;
比较模型的差值,如果小于预定参数Thmm,则将新模型的参数集合乘以Thmm之后,除以(1+Thmm),再与模型库中的模型的参数集合累加,否则,将新模型写入模型库。
接下来参照图3,描述根据本申请一个实施方案的语音识别终端。如图3所示,语音识别终端可包括:样本存储模块302、样本采集模块304和记录模块306。样本存储模块302可存储供用户朗读的样本,样本采集模块304可通过采集用户朗读样本的语音而获取用户语音样本,记录模块306可记录用户语音识别的成功率。
根据一个实施例,样本存储模块存储的样本可包括静态样本和动态样本。
根据一个实施例,语音识别终端可包括更新启动模块,当记录模块记录的成功率低于预定阈值时,将样本采集模块采集的用户朗读动态样本的语音而获取用户语音样本发送给服务器,进行语音识别模型库更新。
以上参照附图对本申请的示例性的实施方案进行了描述。本领域技术人员应该理解,上述实施方案仅仅是为了说明的目的而所举的示例,而不是用来进行限制。凡在本申请的教导和权利要求保护范围下所作的任何修改、等同替换等,均应包含在本申请要求保护的范围内。

Claims (9)

1.语音识别模型训练方法,包括:
通过采集用户朗读样本的语音而获取用户语音样本;
对采集的用户语音样本进行特征提取;
根据提取的特征,创建语音识别模型;
在进行语音识别过程中,当用户语音识别率低于预定阈值时,通过以下步骤进行语音识别模型更新:
通过采集用户朗读动态样本的语音而获取用户语音样本,其中,所述动态样本包含所述用户被错误识别的语音内容;
对采集的用户语音样本进行特征提取;以及
根据提取的特征,对语音识别模型库进行聚类操作,所述语音识别模型库包括多个模型,每个模型包括参数集合和特征集合,所述聚类操作包括:
当新产生一个模型时,依次选择模型库中的所有模型,执行以下步骤:
(1)模型库中现有模型的参数集合与新产生模型的参数集合相减所得的差值取平方值,并对2个模型的参数集合中各个参数的差值的平方值进行累加,得到2个模型的参数之差的平方和,以及
(2)将2个模型的参数之差的平方和进行开方,并除以参数集合的元素数目,得到2个模型的参数的差值;
比较模型的差值,如果小于预定参数Thmm,则将新模型的参数集合乘以Thmm之后,除以(1+Thmm),再与模型库中的模型的参数集合累加,否则,将新模型写入模型库。
2.如权利要求1所述的方法,其中,对采集的用户语音样本提取的特征包括:特定音节的发音、用户连读习惯或者语音频谱。
3.如权利要求1所述的方法,其中,对采集的用户语音样本进行特征提取的步骤包括:
对用户语音样本进行FFT变换,对变换的结果进行带通滤波,之后进行DCT变换,计算结果进行差分,并对差分计算用户语音特征;
为每个用户语音特征分配ID。
4.如权利要求3所述的方法,其中,所述用户语音特征包括过零率、基音周期和/或线性预测倒谱系数。
5.如权利要求3所述的方法,其中,对采集的用户语音样本进行特征提取的步骤包括:
对用户语音样本分帧;
对用户语音样本进行滤波,其中滤波器的Z传递函数为H(z)=1-Kz-1,K是0到1之间的数值,z是频率;
对每帧信号进行滤波,其中滤波器为W(n)=0.54+0.46cos[2πn/(N—1)],N为每帧信号的长度,0≤n≤N-1;
对经滤波的每帧信号进行快速傅里叶变换;
对经快速傅里叶变换后的信号进行不同频率段的滤波,其中滤波器为G(f)=a*log10(1+f/b),其中f为频率,a和b为预先确定的参数;
对经不同频率段的滤波的信号进行离线余弦变换;以及
对离线余弦变换的结果进行差分计算。
6.语音识别模型训练装置,包括:
样本接收模块,接收终端上传的用户语音样本;
特征提取模块,对用户语音样本进行特征提取;以及
模型训练模块,根据提取的特征对语音识别模型进行训练更新,其中,在进行语音识别过程中,当用户语音识别率低于预定阈值时,通过以下步骤进行语音识别模型更新:
通过采集用户朗读动态样本的语音而获取用户语音样本,其中,所述动态样本包含所述用户被错误识别的语音内容;
对采集的用户语音样本进行特征提取;以及
根据提取的特征,对语音识别模型库进行聚类操作,所述语音识别模型库包括多个模型,每个模型包括参数集合和特征集合,所述聚类操作包括:
当新产生一个模型时,依次选择模型库中的所有模型,执行以下步骤:
(1)模型库中现有模型的参数集合与新产生模型的参数集合相减所得的差值取平方值,并对2个模型的参数集合中各个参数的差值的平方值进行累加,得到2个模型的参数之差的平方和,以及
(2)将2个模型的参数之差的平方和进行开方,并除以参数集合的元素数目,得到2个模型的参数的差值;
比较模型的差值,如果小于预定参数Thmm,则将新模型的参数集合乘以Thmm之后,除以(1+Thmm),再与模型库中的模型的参数集合累加,否则,将新模型写入模型库。
7.如权利要求6所述的装置,其中,所述特征提取模块进一步包括:
计算模块,对用户语音样本进行FFT变换,对变换的结果进行带通滤波,之后进行DCT变换,计算结果进行差分,并对差分计算用户语音特征;以及
分配模块,为每个用户语音特征分配ID。
8.如权利要求7所述的装置,其中,所述计算模块包括:
对用户语音样本分帧的单元;
对用户语音样本进行滤波的单元,其中滤波器的Z传递函数为H(z)=1-Kz-1,K是0到1之间的数值,z是频率;
对每帧信号进行滤波的单元,其中滤波器为W(n)=0.54+0.46cos[2πn/(N—1)],N为每帧信号的长度,0≤n≤N-1;
对经滤波的每帧信号进行快速傅里叶变换的单元;
对经快速傅里叶变换后的信号进行不同频率段的滤波的单元,其中滤波器为G(f)=a*log10(1+f/b),其中f为频率,a和b为预先确定的参数;
对经不同频率段的滤波的信号进行离线余弦变换的单元;以及
对离线余弦变换的结果进行差分计算的单元。
9.语音识别终端,包括:
样本存储模块,存储供用户朗读的样本,其中,所述样本包括静态样本和动态样本,其中,动态样本包含用户被错误识别的语音内容;
样本采集模块,通过采集用户朗读所述样本的语音而获取用户语音样本;
记录模块,记录用户语音识别的成功率;以及
更新启动模块,当记录模块记录的成功率低于预定阈值时,将样本采集模块采集的用户朗读动态样本的语音而获取用户语音样本发送给服务器,以供所述服务器对采集的用户语音样本进行特征提取;以及根据提取的特征,对语音识别模型库进行聚类操作,所述语音识别模型库包括多个模型,每个模型包括参数集合和特征集合,所述聚类操作包括:
当新产生一个模型时,依次选择模型库中的所有模型,执行以下步骤:
(1)模型库中现有模型的参数集合与新产生模型的参数集合相减所得的差值取平方值,并对2个模型的参数集合中各个参数的差值的平方值进行累加,得到2个模型的参数之差的平方和,以及
(2)将2个模型的参数之差的平方和进行开方,并除以参数集合的元素数目,得到2个模型的参数的差值;
比较模型的差值,如果小于预定参数Thmm,则将新模型的参数集合乘以Thmm之后,除以(1+Thmm),再与模型库中的模型的参数集合累加,否则,将新模型写入模型库。
CN201210364061.7A 2012-09-26 2012-09-26 语音识别模型训练方法和装置及语音识别终端 Active CN103680495B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210364061.7A CN103680495B (zh) 2012-09-26 2012-09-26 语音识别模型训练方法和装置及语音识别终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210364061.7A CN103680495B (zh) 2012-09-26 2012-09-26 语音识别模型训练方法和装置及语音识别终端

Publications (2)

Publication Number Publication Date
CN103680495A CN103680495A (zh) 2014-03-26
CN103680495B true CN103680495B (zh) 2017-05-03

Family

ID=50317849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210364061.7A Active CN103680495B (zh) 2012-09-26 2012-09-26 语音识别模型训练方法和装置及语音识别终端

Country Status (1)

Country Link
CN (1) CN103680495B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105006228A (zh) * 2015-06-05 2015-10-28 普天智能照明研究院有限公司 一种语音识别方法
US20160379630A1 (en) * 2015-06-25 2016-12-29 Intel Corporation Speech recognition services
CN105336325A (zh) * 2015-09-25 2016-02-17 百度在线网络技术(北京)有限公司 语音信号识别处理方法及装置
CN106920546B (zh) * 2015-12-23 2020-03-20 小米科技有限责任公司 智能识别语音的方法及装置
CN105938716B (zh) * 2016-03-30 2019-05-28 浙江大学 一种基于多精度拟合的样本复制语音自动检测方法
CN106503617A (zh) * 2016-09-21 2017-03-15 北京小米移动软件有限公司 模型训练方法及装置
CN106571135B (zh) * 2016-10-27 2020-06-09 苏州大学 一种耳语音特征提取方法及***
CN110310623B (zh) * 2017-09-20 2021-12-28 Oppo广东移动通信有限公司 样本生成方法、模型训练方法、装置、介质及电子设备
CN109754784B (zh) 2017-11-02 2021-01-29 华为技术有限公司 训练滤波模型的方法和语音识别的方法
US10580414B2 (en) * 2018-05-07 2020-03-03 Microsoft Technology Licensing, Llc Speaker recognition/location using neural network
CN108766437B (zh) * 2018-05-31 2020-06-23 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN110858479B (zh) * 2018-08-08 2022-04-22 Oppo广东移动通信有限公司 语音识别模型更新方法、装置、存储介质及电子设备
CN109119071A (zh) * 2018-09-26 2019-01-01 珠海格力电器股份有限公司 一种语音识别模型的训练方法及装置
US20220005462A1 (en) * 2018-11-05 2022-01-06 Systran International Method and device for generating optimal language model using big data
CN111276138B (zh) * 2018-12-05 2023-07-18 北京嘀嘀无限科技发展有限公司 一种语音唤醒***中处理语音信号的方法及装置
CN111370001B (zh) * 2018-12-26 2023-10-10 Tcl科技集团股份有限公司 一种发音的纠正方法、智能终端及存储介质
CN110277089B (zh) * 2019-07-09 2021-05-25 广东美的制冷设备有限公司 离线语音识别模型的更新方法、家用电器和服务器
CN110827826B (zh) * 2019-11-22 2022-05-31 维沃移动通信有限公司 语音转换文字方法、电子设备
CN113053364A (zh) * 2019-12-27 2021-06-29 北京搜狗科技发展有限公司 一种语音识别方法、装置和用于语音识别的装置
CN111243576B (zh) * 2020-01-16 2022-06-03 腾讯科技(深圳)有限公司 语音识别以及模型训练方法、装置、设备和存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2409560B (en) * 2003-12-23 2007-07-25 Ibm Interactive speech recognition model
WO2006109515A1 (ja) * 2005-03-31 2006-10-19 Pioneer Corporation 操作者認識装置、操作者認識方法、および、操作者認識プログラム
US7756708B2 (en) * 2006-04-03 2010-07-13 Google Inc. Automatic language model update
US9129599B2 (en) * 2007-10-18 2015-09-08 Nuance Communications, Inc. Automated tuning of speech recognition parameters
CN101226743A (zh) * 2007-12-05 2008-07-23 浙江大学 基于中性和情感声纹模型转换的说话人识别方法
CN101261832B (zh) * 2008-04-21 2011-05-25 北京航空航天大学 汉语语音情感信息的提取及建模方法
JP5042194B2 (ja) * 2008-10-27 2012-10-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 話者テンプレートを更新する装置及び方法
CN101419800B (zh) * 2008-11-25 2011-12-14 浙江大学 基于频谱平移的情感说话人识别方法

Also Published As

Publication number Publication date
CN103680495A (zh) 2014-03-26

Similar Documents

Publication Publication Date Title
CN103680495B (zh) 语音识别模型训练方法和装置及语音识别终端
CN105374356B (zh) 语音识别方法、语音评分方法、语音识别***及语音评分***
US9564127B2 (en) Speech recognition method and system based on user personalized information
CN109767778B (zh) 一种融合Bi-LSTM和WaveNet的语音转换方法
CN108231062B (zh) 一种语音翻译方法及装置
CN105224581B (zh) 在播放音乐时呈现图片的方法和装置
CN104468959A (zh) 移动终端通话过程中显示图像的方法、装置及移动终端
CN103632668B (zh) 一种基于中文语音信息训练英文语音模型的方法与设备
CN102411932B (zh) 结合声门激励和声道调制信息的汉语语音情感提取及建模方法
CN102655003B (zh) 基于声道调制信号mfcc的汉语语音情感点识别方法
CN106782503A (zh) 基于发音过程中生理信息的自动语音识别方法
CN111613224A (zh) 一种个性化语音合成方法及装置
CN102521402B (zh) 文本过滤***及方法
CN114927122A (zh) 一种情感语音的合成方法及合成装置
CN109686365B (zh) 一种语音识别方法和语音识别***
CN111402922A (zh) 基于小样本的音频信号分类方法、装置、设备及存储介质
CN114863905A (zh) 语音类别获取方法、装置、电子设备和存储介质
CN107958666A (zh) 用于口音不变语音识别的方法
CN106228984A (zh) 语音识别信息获取方法
CN110570838A (zh) 语音流处理方法和装置
Zhipeng et al. Voiceprint recognition based on BP Neural Network and CNN
CN114786059A (zh) 视频生成方法、视频生成装置、电子设备、存储介质
Zhu et al. Analysis of hybrid feature research based on extraction LPCC and MFCC
CN114420099A (zh) 一种多声源融合场景的人声检测方法及装置
CN113486208A (zh) 一种基于人工智能的语音搜索设备及其搜索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant