CN102306493A

CN102306493A - 终端机、语音辨识***及其语音辨识方法

Info

Publication number: CN102306493A
Application number: CN201110237569A
Authority: CN
Inventors: 游银泉; 黄英雄
Original assignee: Hongfujin Precision Industry Shenzhen Co Ltd; Hon Hai Precision Industry Co Ltd
Current assignee: Hongfujin Precision Industry Shenzhen Co Ltd; Hon Hai Precision Industry Co Ltd
Priority date: 2011-08-18
Filing date: 2011-08-18
Publication date: 2012-01-04

Abstract

本发明涉及一种终端机、一种语音辨识***及其语音辨识方法。每当终端机验证一用户语音成功后，该信息服务器接收处理该验证成功的用户语音及得到该验证成功的用户语音的源目标参数值，该源目标参数值作为终端机下一次验证用户语音的参考，从而终端机在验证语音时是以上一次验证成功的语音作为参考来判断当前用户是否为合法用户，而不需要比对语音内容，不需要记忆密码，因一用户两次挨着的验证语音的辨识度是最接近的，故还避免了因为用户处于感冒或声音嘶哑等状态发出的语音辨识失误的情况发生。

Description

终端机、语音辨识***及其语音辨识方法

技术领域

本发明涉及语音辨识技术，更具体的，涉及一种终端机、一种语音辨识***及其语音辨识方法。

背景技术

目前，人们是输入自己设定的密码来保全私人数据，但密码可能过于冗长或是由多种编码(大写英文、小写英文，数字)组成，随着时间的推移，使用者有可能会忘记当初设定的密码，如此常常会使得使用者遭受到因为忘记密码而造成密码输入错误的困扰。并且，在用户感冒或声音嘶哑等状态下时，现有的语音辨识***很难识别出，给用户带来了很大不便。

发明内容

一种语音辨识***，该***包括一信息服务器及至少一终端机，该信息服务器及至少一终端机共同完成对一输入语音的验证，当该语音辨识***验证一用户语音成功时，进行参数化处理得到该验证成功语音的一第一参数值、一第三参数值及一源目标参数值；该语音辨识***包括一语音获取模块、一特征获取模块、一统计概率模块、一目标获取模块及一比较模块；该语音获取模块用于响应用户的操作获取用户当前输入的语音；该特征获取模块用于从用户输入的语音中获取梅尔倒谱特征MFCC；该统计概率模块用于将该获取的MFCC及该第一参数值通过波氏算法进行运算，得到一第四参数值；该目标获取模块用于将该第四参数值与该第三参数值通过特征参数提取算法进行运算，得到一语音目标参数值；及该比较模块用于将该语音目标参数值与该源目标参数值进行比较，当该语音目标参数值与该源目标参数值的相似度大于或等于一预设值时，确定该用户当前语音验证成功，及当该语音目标参数值与该源目标参数值的相似度小于该预设值时，确定该用户当前语音验证失败。

一种终端机，该终端机与一信息服务器进行通信，该终端机包括一语音输入单元、一处理单元及一存储单元，该语音输入单元用于接收用户的输入语音，当该终端机验证一用户语音成功时，该信息服务器对该语音进行参数化处理得到该验证成功语音的一第一参数值、一第三参数值及一源目标参数值，该终端机存储该验证成功语音的该第一参数值、该第三参数值及该源目标参数值于存储单元中；该处理单元包括一语音获取模块、一特征获取模块、一统计概率模块、一目标获取模块及一比较模块；该语音获取模块用于从该语音输入单元中获取用户当前输入的语音；该特征获取模块用于从该获取的用户语音中获取语音的梅尔倒谱特征MFCC；该统计概率模块用于将该获取的MFCC及该存储单元中的第一参数值通过波氏算法进行运算，得到一第四参数值；该目标获取模块用于将该第四参数值与该第三参数值通过特征参数提取算法进行运算，并得到一语音目标参数值；及该比较模块用于将该目标获取模块得到的语音目标参数值与该存储单元中存储的源目标参数值进行比较，并在该目标获取模块得到的语音目标参数值与该存储单元中存储的源目标参数值的相似度大于或等于一预设值时，确定该用户当前语音验证成功。

一种语音辨识方法，该方法应用于一语音辨识***，该方法包括步骤：当该语音辨识***验证一用户语音成功时，进行参数化处理得到该验证成功语音的一第一参数值、一第三参数值及一源目标参数值；响应用户的操作获取用户当前输入的语音；从该获取的用户语音中获取梅尔倒谱特征MFCC；将该获取的MFCC及第一参数值通过波氏算法进行运算，得到一第四参数值；将该第四参数值与该第三参数值通过特征参数提取算法进行运算，得到一语音目标参数值；及比较该得到的语音目标参数值与该源目标参数值的相似度，当该相似度大于或等于一预设值时，确定该用户当前语音验证成功，当该相似度小于一预定值时，确定该用户当前语音验证失败。

本发明涉及的语音辨识***和方法，每当终端机验证一用户语音成功后，该信息服务器接收处理该验证成功的用户语音及得到该验证成功的用户语音的源目标参数值，该源目标参数值作为终端机下一次验证用户语音的参考，从而终端机在验证语音时是以上一次验证成功的语音作为参考来判断当前用户是否为合法用户，而不需要比对语音内容，不需要记忆密码，因一用户两次挨着的验证语音的辨识度是最接近的，故还避免了因为用户处于感冒或声音嘶哑等状态发出的语音辨识失误的情况发生。

附图说明

图1是本发明一实施方式语音辨识***的结构示意图。

图2是本发明图1的控制单元的结构示意图。

图3是本发明图1的处理单元的结构示意图。

图4是本发明图1的信息服务器与终端机的硬件结构示意图。

图5及图6是本发明图1的语音辨识***语音辨识的方法流程图。

主要元件符号说明

语音辨识***	1
		信息服务器	10
终端机	20
		控制单元	11
语音接收模块	111
		特征获取模块	112
模型建立模块	113
		统计概率模块	114
矩阵参数模块	115
		目标获取模块	116
传送模块	117
		语音输入单元	23
处理单元	24
		存储单元	25
提示模块	241
		语音获取模块	242
传送模块	243
		接收模块	244
特征获取模块	245
		统计概率模块	246
目标获取模块	247
		比较模块	248

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

请参考图1-4，为本发明一实施方式中的语音辨识***1的结构示意图。该语音辨识***1包括一信息服务器10和至少一终端机20。该信息服务器10和该至少一终端机20通过有线或无线的方式进行通信。该信息服务器10及至少一终端机20共同完成对一输入语音的验证。该至少一终端机20用于把当前接收的用户语音与上次验证成功的语音进行比较来完成当前语音的验证，当该接收的当前语音验证成功后，发送该语音到信息服务器10。该信息服务器10用于接收终端机20的语音，对用户语音进行参数化处理，得到该用户语音对应的参数值，及传送该语音对应的参数值到终端机20参考来完成下一次用户语音的验证。

在本发明的一实施方式中，该信息服务器10包括一控制单元11。该控制单元11包括一语音接收模块111、一特征获取模块112、一模型建立模块113、一统计概率模块114、一矩阵参数模块115、一目标获取模块116及一传送模块117。

该语音接收模块111用于接收从至少一终端机20传来的用户语音。该特征获取模块112用于从该接收的语音中获取该语音的MFCC(Mel Frequency Cepstrum Coefficient，梅尔倒谱特征)。

该模型建立模块113用于获取该特征获取模块112获取的MFCC，将该特征获取模块112获取的MFCC与该模型建立模块中预设的随机参数值通过最大期望算法(Expectation-maximization algorithm)进行运算，得到一运算后的参数值，将该运算后的参数值最大化，并判断该最大化参数值是否为一收敛值。当该最大化参数值不为一收敛值时，该模型建立模块113继续将该最大化参数值与该获取的MFCC特征值通过最大期望算法进行运算直至当前得出的最大化参数值为一收敛值后，得出该作为第一参数值的最大化参数值。其中，该假设的随机参数可为初始权重值(Initial Weights)、初始平均值(Initial Means)及初始变异值(Initial Variances)。该输出参数值可为权重值(Weights)、平均值(Means)及变异值(Variances)。收敛值是指得到的后一参数值减去前一参数值后与后一参数值的比值小于某一特定值，其中，该特定值由用户规定。参数最大化是当后一参数值相对前一参数值收敛后，该参数值即为参数最大化。

该统计概率模块114用于获取该特征获取模块122获取的MFCC及该模型建立模块113输出的第一参数值，并将该MFCC特征值及该模型建立模块113输出的第一参数值通过波氏算法(Baum-Welchalgorithm)进行运算，得到一第二参数值。其中该第二参数值为一阶以及二阶的Baum-Welch算法统计值(First And Second Order Baum WelchStatistics Of All Utterances Set)以及最大事后概率(PosterioriProbability)。

该矩阵参数模块115用于获取该模型建立模块113输出的第一参数值及该统计概率模块114输出的第二参数值，并将该模型建立模块113输出的第一参数值及该统计概率模块114输出的第二参数值通过总变异矩阵算法(Total Variability Matrix)进行运算，得出一参数值，并将该参数值最大化，判断该最大化的参数值是否为一收敛值。当该最大化参数值不为一收敛值时，该矩阵参数模块115继续将该最大化参数值与从该统计概率模块114中获取的第二参数值通过总变异矩阵算法进行运算直至该最大化参数值为收敛值后，得出一作为第三参数值的收敛的最大化参数值。其中，该第三参数值可为矩阵参数(T)、平均值(Means)及残余共变异矩阵值(residual covariance Matrices)。

该目标获取模块116用于获取该统计概率模块114得出的第二参数值及该矩阵参数模块115得出的第三参数值，并将该第二参数值及该第三参数值通过特征参数提取算法(Factors Extraction)进行运算，得出一源目标参数值。

该传送模块117用于获取该模型建立模块113得出的第一参数值、该矩阵参数模块115得出的第三参数值以及该目标获取模块116得出的源目标参数值，并将该用户语音对应的该些参数值传送至各终端机20。

因此，一旦信息服务器10接收到来自终端机20的用户语音，信息服务器10就处理该用户语音得出该用户语音对应的第一参数值、第三参数值及源目标参数值，及传送该用户语音对应的各个参数值到终端机20。

该每个终端机20包括一语音输入单元23、一处理单元24及一存储单元25。该语音输入单元23用于接收用户的语音输入。在本实施方式中，该语音输入单元23为一麦克风。

该处理单元24包括一提示模块241、一语音获取模块242、一传送模块243、一接收模块244、一特征获取模块245、一统计概率模块246、一目标获取模块247及一比较模块248。该提示模块241用于响应用户的操作提示用户输入语音。该语音获取模块242用于获取用户通过语音输入单元23输入的语音。

该接收模块244用于接收该信息服务器10传送的每一语音对应的该第一参数值、该第三参数值及该源目标参数值，并将所述接收的该第一参数值、该第三参数值及该源目标参数值存储至该存储单元25中及删除上一次接收存储的各参数值。

因此，每当终端机20接收到信息服务器10传送的一语音对应的各参数值时，说明该终端机20对该语音的验证是成功的，存储该语音对应的各参数值于存储单元25中及删除上一次接收存储的各参数值。例如，该终端机20第n次验证一用户语音时，假设该终端机20在第(n-1)次验证该用户语音是成功的，则该存储单元25中存储该信息服务器10传送的该用户的第(n-1)次语音对应的参数值。在本实施方式中，该存储单元25中可存储有多人语音的参数值。

该特征获取模块245用于从语音获取模块242获取的用户语音中获取MFCC，并得到一语音的MFCC。该统计概率模块246用于获取该特征获取模块245获取的MFCC，并从该存储单元25中获取第一参数值，将该获取的MFCC及第一参数值通过波氏算法(Baum-Welchalgorithm)进行运算，得到一第四参数值，如一介以及二介的Baum-Welch算法统计值(First And Second Order Baum Welch StatisticsOf All Utterances Set)以及最大事后概率(Posteriori Probability)。

该目标获取模块247用于获取该统计概率模块246得到的第四参数值，并从该存储单元25中获取第三参数值，将该获取的第四参数值与第三参数值进行运算，得到一语音目标参数值。该比较模块248用于根据公式

Score (w_{t \arg et}, w_{test}) = \frac{{(w_{t \arg et})}^{t} (w_{test})}{| | w_{t \arg et} | | | | w_{test} | |} = {({w_{t \arg et}}^{,})}^{t} ({w_{test}}^{,})

来计算用户输入的语音的语音目标参数值与该存储单元25中存储的源目标参数值的相似度。其中w_target为该存储单元25中存储的源目标参数值，w_test为该至少一终端机20运算得到的语音目标参数值。当相似度大于或等于一预设值时，该比较模块248确定该用户语音验证成功。当相似度小于该预设值时，该比较模块248确定该用户语音验证失败。

当比较模块248确定该用户语音验证成功时，该传送模块243用于把语音获取模块242获取的用户语音传送给信息服务器10处理，该信息服务器10执行前述的操作，得到该验证成功的用户语音的第一参数值、第三参数值及源目标参数值。该信息服务器10把该用户语音的各参数值传送到终端机20存储，因此，终端机20的存储单元25中存储的各参数值是关于用户最近一次验证成功的语音。当该终端机20下一次语音验证时，通过与最近一次验证成功的语音进行比较来判断下一次语音的合法性。

当用户首次使用该终端机20验证时，终端机20的传送模块243把语音获取模块242获取的用户首次语音传送给信息服务器10处理，该信息服务器10执行前述的操作，得到首次语音的第一参数值、第三参数值及源目标参数值到终端机20存储。

在本发明的一第二实施方式中，信息服务器10对接收的用户语音进行参数化处理及得到该用户语音对应的参数值可由终端机20来完成。在本发明的一第三实施方式中，该至少一终端机20把当前接收的用户语音与上次验证成功的语音进行比较来完成当前语音的验证可由信息服务器10来完成，及该信息服务器10把验证结果发送到相应的终端机20。

因此，每当终端机20验证一用户语音成功后，该信息服务器10接收处理该验证成功的用户语音及得到该验证成功的用户语音的源目标参数值，该源目标参数值作为终端机20下一次验证用户语音的参考，从而终端机20在验证语音时是以上一次验证成功的语音作为参考来判断当前用户是否为合法用户，而不需要比对语音内容，不需要记忆密码，因一用户两次挨着的验证语音的辨识度是最接近的，故还避免了因为用户处于感冒或声音嘶哑等状态发出的语音辨识失误的情况发生。

请参考图5及图6，为图1的语音辨识***语音辨识的方法流程图。

在步骤S501中，该提示模块241响应用户的操作提示用户输入语音。在步骤S502中，该语音获取模块242获取用户输入的语音。在步骤S503中，该特征获取模块245从用户输入的语音中获取MFCC。

在步骤S504中，该统计概率模块246获取该特征获取模块245获取的MFCC，并从该存储单元25中获取该第一参数值，将该获取的MFCC特征值及该第一参数值通过波氏算法(Baum-Welch algorithm)进行运算，并得到一第四参数值。

在步骤S505中，该目标获取模块247获取统计概率模块237得到的第四参数值，并从该存储单元25中获取该第三参数值，并将该统计概率模块246得到的第四参数值和该第三参数值通过特征参数提取算法(Factors Extraction)进行计算，得到一语音目标参数。

在步骤S506中，该终端机20的比较模块248用于根据公式

Score (w_{t \arg et}, w_{test}) = \frac{{(w_{t \arg et})}^{t} (w_{test})}{| | w_{t \arg et} | | | | w_{test} | |} = {({w_{t \arg et}}^{,})}^{t} ({w_{test}}^{,})

来计算用户输入语音的语音目标参数值与该存储在存储单元25中的源目标参数值的相似度，并当相似度大于或等于该预设值时，确定该语音验证成功。其中，w_target为该存储单元中存储的源目标参数值，w_test为至少一终端机运算得到的语音目标参数值。当相似度小于该预设值时，该语音验证失败，该流程结束。

当该语音验证成功时，在步骤S601中，该信息服务器10的语音接收模块111接收终端机20通过语音输入单元23输入的用户语音。在步骤S602中，该特征获取模块112从该接收到的用户语音中获取MFCC。

在步骤S603中，该模型建立模块113获取该特征获取模块112获取的MFCC，并将该MFCC与该模型建立模块113中预设的随机参数值通过最大期望算法(Expectation-maximization algorithm)进行运算，从而得到一参数值，将该参数值最大化，并判断该最大化的参数值是否为一收敛值。当该参数值不为一收敛值时，将该参数值重复与该特征获取模块获取的MFCC特征值做计算直至该参数值为一收敛值，得到一第一参数值。

在步骤S604中，该统计概率模块114获取该MFCC特征值及该模型建立模块113得到的第一参数值，并将该MFCC特征值及该模型建立模块113得到的第一参数值通过波氏算法(Baum-Welch algorithm)进行运算，从而得到一第二参数值，其中，该第二参数值可为一介以及二介的Baum-Welch算法统计值(First And Second Order Baum WelchStatistics Of All Utterances Set)以及最大事后概率(PosterioriProbability)。

在步骤S605中，该矩阵参数模块115获取该模型建立模块113得到的第一参数值及该统计概率模块114得到的第二参数值，并将该模型建立模块113得到的第一参数值及该统计概率模块114得到的第二参数值通过总变异矩阵算法(Total Variability Matrix)进行运算，得出一参数值，将参数值最大化，并判断该最大化参数值是否收敛。当该最大化参数值不收敛时，将该最大化参数值重新与该获取的统计概率模块得到的参数值进行计算，直至参数值收敛，得到一第三参数值。

在步骤S606中，该目标获取模块116获取该统计概率模块114得到的第二参数值及该矩阵参数模块115得到的第三参数值，并将该统计概率模块114得到的第二参数值与该矩阵参数模块115得到的第三参数值通过特征参数提取算法(Factors Extraction)进行运算，得到一源目标参数值。

在步骤S607中，该传送模块117用于将该模型建立模块113得到的第一参数值、矩阵参数模块115得到的第三参数值以及目标获取模块116得到的源目标参数值传送至各终端机20。

在步骤S608中，该终端机20存储所述各参数值于存储单元25中及删除存储单元25中上一次接收存储的各参数值，从而该终端机20在下次验证用户语音时，参考所述存储于存储单元25中最新的各参数值。

本技术领域的普通技术人员应当认识到，以上的实施方式仅是用来说明本发明，而并非用作为对本发明的限定，只要在本发明的实质精神范围之内，对以上实施例所作的适当改变和变化都落在本发明要求保护的范围之内。

Claims

1.一种语音辨识***，该***包括一信息服务器及至少一终端机，该信息服务器及至少一终端机共同完成对一输入语音的验证，其特征在于：

当该语音辨识***验证一用户语音成功时，进行参数化处理得到该验证成功语音的一第一参数值、一第三参数值及一源目标参数值；

该语音辨识***包括一语音获取模块、一特征获取模块、一统计概率模块、一目标获取模块及一比较模块；

该语音获取模块用于响应用户的操作获取用户当前输入的语音；

该特征获取模块用于从用户输入的语音中获取梅尔倒谱特征MFCC；

该统计概率模块用于将该获取的MFCC及该第一参数值通过波氏算法进行运算，得到一第四参数值；

该目标获取模块用于将该第四参数值与该第三参数值通过特征参数提取算法进行运算，得到一语音目标参数值；及

该比较模块用于将该语音目标参数值与该源目标参数值进行比较，当该语音目标参数值与该源目标参数值的相似度大于或等于一预设值时，确定该用户当前语音验证成功，及当该语音目标参数值与该源目标参数值的相似度小于该预设值时，确定该用户当前语音验证失败。

2.如权利要求1所述的语音辨识***，其特征在于：该信息服务器包括一控制单元，该控制单元包括一语音接收模块、一特征获取模块、一模型建立模块、一统计概率模块、一矩阵参数模块、一目标获取模块及一传送模块；

该控制单元的语音接收模块接收该至少一终端机传送的验证成功的用户语音；

该控制单元的特征获取模块用于从该接收的用户语音中获取用户语音的梅尔倒谱特征MFCC；

该控制单元的模型建立模块用于将语音的MFCC与一预设的随机参数值通过最大期望算法进行运算，得出一参数值，将该参数值最大化，并在该最大化参数值为一收敛值时，得到该第一参数值；

该控制单元的统计概率模块用于将该MFCC特征值及该第一参数值通过波氏算法进行运算，并得到一第二参数值；

该控制单元的矩阵参数模块用于将该第一参数值及该第二参数值通过总变异矩阵算法进行运算，得出一参数值，将该参数值最大化，并在该最大化参数值收敛时，得到该第三参数值；

该控制单元的目标获取模块用于将该第二参数值及该第三参数值通过特征参数提取算法进行运算，得到一源目标参数值；及

该控制单元的传送模块用于将第一参数值，第三参数值及该源目标参数值传送至该至少一终端机。

3.如权利要求2所述的语音辨识***，其特征在于：该模型建立模块还用于在该参数值不为一收敛值时，将该参数值继续与该语音的MFCC进行运算。

4.如权利要求2所述的语音辨识***，其特征在于：该矩阵参数模块还用于在该参数值不为一收敛值时，将该参数值继续与统计概率模块得到的第二参数值进行运算。

5.一种终端机，该终端机与一信息服务器进行通信，该终端机包括一语音输入单元、一处理单元及一存储单元，该语音输入单元用于接收用户的输入语音，其特征在于：

当该终端机验证一用户语音成功时，该信息服务器对该语音进行参数化处理得到该验证成功语音的一第一参数值、一第三参数值及一源目标参数值，该终端机存储该验证成功语音的该第一参数值、该第三参数值及该源目标参数值于存储单元中；

该处理单元包括一语音获取模块、一特征获取模块、一统计概率模块、一目标获取模块及一比较模块；

该语音获取模块用于从该语音输入单元中获取用户当前输入的语音；

该特征获取模块用于从该获取的用户语音中获取语音的梅尔倒谱特征MFCC；

该统计概率模块用于将该获取的MFCC及该存储单元中的第一参数值通过波氏算法进行运算，得到一第四参数值；

该目标获取模块用于将该第四参数值与该第三参数值通过特征参数提取算法进行运算，并得到一语音目标参数值；及

该比较模块用于将该目标获取模块得到的语音目标参数值与该存储单元中存储的源目标参数值进行比较，并在该目标获取模块得到的语音目标参数值与该存储单元中存储的源目标参数值的相似度大于或等于一预设值时，确定该用户当前语音验证成功。

6.一种语音辨识方法，该方法应用于一语音辨识***，其特征在于，该方法包括步骤：

响应用户的操作获取用户当前输入的语音；

从该获取的用户语音中获取梅尔倒谱特征MFCC；

将该获取的MFCC及第一参数值通过波氏算法进行运算，得到一第四参数值；

将该第四参数值与该第三参数值通过特征参数提取算法进行运算，得到一语音目标参数值；及

比较该得到的语音目标参数值与该源目标参数值的相似度，当该相似度大于或等于一预设值时，确定该用户当前语音验证成功，当该相似度小于一预定值时，确定该用户当前语音验证失败。

7.如权利要求6所述的语音辨识方法，其特征在于，该方法还包括：

获取验证成功的用户语音；

从该用户语音中获取用户语音的MFCC；

将该语音的MFCC与预设的随机参数值通过最大期望算法进行运算，得出一参数值，将运算的参数值最大化，并当该参数值为一收敛值时，得出该第一参数值；

将该MFCC特征值及第一参数值通过波氏算法进行运算，得到一第二参数值；

将该第一参数值及该第二参数值通过总变异矩阵算法进行运算，得出一参数值，将参数值最大化，并在该最大化参数值收敛时，输出该第三参数值；及

将该第二参数值及该第三参数值通过特征参数提取算法进行计算，得出一源目标参数值。