CN1949364B - 语音识别的前级检测***与方法 - Google Patents

语音识别的前级检测***与方法 Download PDF

Info

Publication number
CN1949364B
CN1949364B CN200510108575A CN200510108575A CN1949364B CN 1949364 B CN1949364 B CN 1949364B CN 200510108575 A CN200510108575 A CN 200510108575A CN 200510108575 A CN200510108575 A CN 200510108575A CN 1949364 B CN1949364 B CN 1949364B
Authority
CN
China
Prior art keywords
input signal
signal
speech recognition
voice
environmental parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200510108575A
Other languages
English (en)
Other versions
CN1949364A (zh
Inventor
张森嘉
廖元甫
林政贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial Technology Research Institute ITRI
Original Assignee
Industrial Technology Research Institute ITRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial Technology Research Institute ITRI filed Critical Industrial Technology Research Institute ITRI
Priority to CN200510108575A priority Critical patent/CN1949364B/zh
Publication of CN1949364A publication Critical patent/CN1949364A/zh
Application granted granted Critical
Publication of CN1949364B publication Critical patent/CN1949364B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明涉及一种语音识别的前级检测***与方法,设计在识别装置进行语音识别的前级中,***包括:环境参数求取器,对输入信号求取出代表输入信号所在环境状况或输入信号质量的至少一种环境参数,其包括***处理输入信号的可靠度;信号是否可识别判别器,在训练语言材料的环境参数经由事先训练后,根据环境参数判别输入信号是否进入语音识别;及策略响应处理器,若判别结果为不进入则做出多种不同策略响应;可靠度是基于输入信号的频谱参数几率分布和***模型的频谱参数几率分布产生的,若判别结果为进入则判别器传送输入信号至识别装置。***在噪声环境干扰下能准确判别输入信号是否可成功识别,提升***的识别成功率。

Description

语音识别的前级检测***与方法
技术领域
本发明涉及语音识别(speech recognition),特别涉及一种语音识别的前级检测***与方法。
背景技术
语音识别***在现实环境的应用中,时常因为一些使用者本身的因素:例如说话的腔调、速度,或者是背景环境的影响:如背景噪声或信道效应等,造成语音输入信号超出***识别能力范围。先前许多强健性语音识别研究,针对上述问题已经对提出许多不同的技术来改进***识别器,但是改善幅度始终有限。
美国专利6,272,461的文献“Method For Implementing a SpeechVerification System For Use In a Noisy Environment”中,公开了一种用于吵杂环境的语音鉴别***与方法。此专利文献中,***的前级设置了一个语音鉴别器(speech verifier)。如图1所示,此语音鉴别器100包括噪音控制器(noisesuppressor)110、音高检测器(pitch detector)120、和信心决定器(confidencedeterminer)130。其目的是去除一些噪声,并且求取音高,接着利用音高的值转换为一个随着时间改变的信心值(confidence index),用来决定某个时间点的输入信号是否为语音,这项信心值再传送给识别器去辅助识别。
此美国专利文献6,272,461着重的部分是检测语音是否发生去帮助识别器识别,***不管目前的输入信号是否已超出可接受范围,让所有输入信号进行识别。
再观察目前语音识别或对话***,并无任何使用者环境或使用者本身状况的感知能力,这意味着在更加严格的使用环境或条件下,***只能盲目地执行识别并输出答案,如果遇到超出***能力的服务要求,通常使用者只能得到错误的答案,无形中***浪费了许多不必要的***资源去处理诸如此类不易成功的语音服务。
以自动电话总机为例,假如使用者站在人声鼎沸的地铁或是吵杂的大马路上查询电话分机号码,噪声的影响造成输入信号的信号-噪声比(signal-to-noise ratio,SNR)过低而超出原先***可以接受的范围,***在无法察觉的情况下继续进行识别,最后输出的是错误的分机号码,使用者只好转而要求人工服务来达到转接的目的。这样不但浪费了***的识别资源,也无法达到节省人工服务的目的。
倘若***能在识别前得知输入信号是否识别成功,对于可成功识别的信号便直接进入识别器识别。而针对无法识别成功的信号去做出一些响应和对策,则可增加识别成功的机会。
发明内容
本发明为解决上述公知技术的语音识别***并无环境感知能力的缺点,其主要目的是提供一种语音识别的前级检测***与方法。
相较于公知技术,本发明拥有下列的特点:(a)本发明着重设计于***识别的前级中,只花费少许***资源来测量输入信号是否识别成功,而非检测出输入信号里语音及非语音部分,并直接将此信息提供给识别器以提高识别率.(b)对于可成功识别的信号便直接进入识别器识别,而针对无法识别成功的信号则做出一些响应和对策.(c)减少不必要的识别资源的浪费,并提高***识别成功的机率.
本发明的语音识别的前级检测***设计在语音识别或对话装置的前级中,主要包含环境参数求取器(environment parameter generator)、信号是否可识别判别器(signal recognition verifier)和策略响应处理器。
此***的操作流程如下。首先,参数求取器对输入信号求取出一些环境参数,来代表此输入信号所在的环境状况或信号的质量。之后,信号是否可识别判别器经由事先训练后,根据该输入信号的环境参数,判别此输入信号是否可识别成功。当判别可识别成功时,便将此输入信号传送至一般的识别装置。当判别无法识别成功时,便触发策略响应处理器。策略响应处理器根据输入信号的环境参数来响应使用者目前的环境状况或信号质量,并且提出对策,使识别成功机率提高。
在本发明的实施例中,参数求取器选择输入信号的信号-噪声比、输入信号为语音的机率,以及***处理输入信号的可靠度来当作环境参数。而策略响应处理器提出的多种不同的对策为引导使用者改善方法,包括如信号-噪声比过低时,请使用者提高音量或更换较为安静的环境;或者可靠度值太小时,则提示使用者提高说话的清晰度等。接着提示使用者重新输入信号或者为其转接客服中心。
根据本发明的一种语音识别的前级检测***,设计在识别装置进行语音识别的前级中,该语音识别的前级检测***包含有:
环境参数求取器,对输入信号求取出至少一种环境参数,其中该环境参数代表该输入信号所在的环境状况或该输入信号的质量,且所述至少一种环境参数包括***处理该输入信号的可靠度;
信号是否可识别判别器,以训练语言材料的环境参数经由事先训练后,根据该环境参数,判别该输入信号是否进入语音识别;以及
策略响应处理器,若判别结果为不进入语音识别,则做出多种不同的策略响应;
其中,所述可靠度是基于所述输入信号的频谱参数的机率分布和***模型的频谱参数的机率分布产生的,且若判别结果为进入语音识别,则该信号是否可识别判别器传送该输入信号至该识别装置。
根据本发明的检测输入语音信号可识别度的***,其中该环境参数还包括该输入信号的信号-噪声比的值和该输入信号为语音的机率,或者还包括该输入信号的信号-噪声比的值,或者还包括该输入信号为语音的机率。
根据本发明的检测输入语音信号可识别度的***,其中该环境参数求取器包括信号-噪声比估算器、输入信号为语音的机率估算器和***处理输入信号的可靠度估算器,以分别求取出该输入信号的信号-噪声比的值、该输入信号为语音的机率和该***处理该输入信号的可靠度。
根据本发明的检测输入语音信号可识别度的***,其中多种不同的策略响应为依照所述至少一种环境参数告知使用者目前环境或信号质量状况,并提供使用者相对应的解决方法。
根据本发明的检测输入语音信号可识别度的***,其中该输入信号所在的环境或信号的质量状况包含输入信号的信号-噪声比的值、该输入信号为语音的机率和***处理该输入信号的可靠度.
根据本发明的检测输入语音信号可识别度的***,其中该提供使用者相对应的解决方法包含根据该输入信号所在的环境或信号质量状况,提供相对应的改善方式。
根据本发明的检测输入语音信号可识别度的***,其中该改善方式包含请使用者提高音量、更换较为安静的环境、提高说话的清晰度和放弃识别。
根据本发明的检测输入语音信号可识别度的***,其中当该信号-噪声比低于一个门限值时,则提示使用者提高音量或者更换较为安静的环境,并且重新输入信号。
根据本发明的检测输入语音信号可识别度的***,其中当该***处理该输入信号的可靠度值小于一个门限值时,则提示使用者提高说话的清晰度,并且重新输入信号。
根据本发明的检测输入语音信号可识别度的***,其中该放弃识别代表该信号不传送至该识别装置或者转至一具有人工服务之处。
根据本发明的一种语音识别的前级检测方法,设计在识别装置进行语音识别的前级中,该语音识别的前级检测方法包含下列步骤:
(a)对输入信号求取出至少一种环境参数,该环境参数代表该输入信号所在的环境状况或信号的质量,且所述至少一种环境参数包括***处理该输入信号的可靠度;
(b)在训练语言材料的环境参数经由事先训练后,根据该输入信号的该环境参数,来判别该输入信号是否进入语音识别;以及
(c)若判别结果为不进入语音识别,则触发策略响应处理器,做出多种不同的策略响应;以及
(d)若判别结果为进入语音识别,则传送该输入信号至该识别装置;
其中所述可靠度是基于所述输入信号的频谱参数的机率分布和***模型的频谱参数的机率分布产生的。
根据本发明的检测输入语音信号可识别度的方法,其中该步骤(a)中至少一种环境参数还包括该输入信号的信号-噪声比的值和该输入信号为语音的机率,或者还包括该输入信号的信号-噪声比的值,或者还包括该输入信号为语音的机率。
根据本发明的检测输入语音信号可识别度的方法,其中至少一种环境参数利用语音活动检测方式和特征参数遗失补偿方式来求取。
根据本发明的检测输入语音信号可识别度的方法,其中该输入信号的信号-噪声比的值的求取包括下列步骤:
利用语音活动检测方式对输入信号的频谱特征参数检测出语音部分及非语音部分;
利用特征参数遗失补偿方式将该语音部分消除噪声而得到干净语音信号;以及
依据该非语音部分与该干净语音信号,计算出该输入信号的该信号-噪声比的值。
根据本发明的检测输入语音信号可识别度的方法,其中该输入信号为语音的机率的求取包括下列步骤:
利用特征参数遗失补偿方式,估计干净语音信号的频谱参数在时间t与频带d时,该输入信号的信号-噪声比的值大于0的机率,其中该干净语音信号是先利用一语音活动检测方式检测出语音部分,再从该语音部分消除噪音而得到的;
利用特征参数遗失补偿方式,估计该干净语音信号频谱在该时间t测量属于语音的机率R(t);以及
计算出该R(t)在该输入信号的时间长度的平均值,作为该输入信号为语音的机率。
根据本发明的检测输入语音信号可识别度的方法,其中该***处理该输入信号的可靠度的求取包括下列步骤:
在频谱上测量该输入信号与已知***模型分布的差异度;以及
将该差异度经由一个S型公式转换为0到1的可靠度参数。
根据本发明的检测输入语音信号可识别度的方法,其中该步骤(b)中该训练语言材料的环境参数的训练法则利用样本分类方法中的多阶感知力方式。
根据本发明的检测输入语音信号可识别度的方法,其中该步骤(c)中该策略响应为依照所述至少一种环境参数告知使用者目前环境或信号质量状况,并提供使用者相对应的解决方法。
根据本发明的检测输入语音信号可识别度的方法,其中该输入信号所在的环境或信号的质量状况包含输入信号的信号-噪声比的值、该输入信号为语音的机率和***处理该输入信号的可靠度。
根据本发明的检测输入语音信号可识别度的方法,其中该提供使用者相对应的解决方法包含根据该输入信号所在的环境或信号质量状况提供相对应的改善方式。
根据本发明的检测输入语音信号可识别度的方法,其中的该改善方式包含请使用者提高音量、更换较为安静的环境、提高说话的清晰度和放弃识别。
根据本发明的检测输入语音信号可识别度的方法,其中当该信号-噪声比低于一个门限值时,则提示使用者提高音量或者更换较为安静的环境,并且重新输入信号。
根据本发明的检测输入语音信号可识别度的方法,其中当该***处理该输入信号的可靠度值小于一个门限值时,则提示使用者提高说话的清晰度,并且重新输入信号。
根据本发明的检测输入语音信号可识别度的方法,其中该放弃识别代表该信号不传送至该识别装置或者转至一具有人工服务之处。
配合下列附图、实施例的详细说明及权利要求书,将上述及本发明的其它目的与优点详述于后。
附图说明
图1为一种传统的用于吵杂环境的语音鉴别***与方法;
图2为本发明的检测输入语音信号可识别度的***的一个方框示意图;
图3为环境参数求取器的一个方框示意图;
图4为信号是否可识别判别器的一个方框示意图;
图5为策略响应处理器的策略响应的一个范例;
图6为仿真噪声环境并产生六组测试集合的测试信号的识别率的实验结果;
图7为加入本发明后,无法识别成功和可识别成功的误差率的输出结果。
其中,附图标记说明如下:
100语音鉴别器        120音高检测器              110噪音控制器
130信心决定器        200检测输入语音信号可识别度的***
210环境参数求取器    220信号是否可识别判别器    225识别装置
230策略响应处理器    310a信号-噪声比估算器
310b信号为语音的机率估算器310c***处理输入信号的可靠度估算器
Y输入信号
SNRy输入信号y的信号-噪声比的值
Py输入信号y为语音的机率
Ry***处理输入信号y的可靠度
501响应使用者无法成功识别输入信号,并依照估算出的环境参数告知使用者目前环境及信号质量状况
502提示使用者重新输入信号或者为其转至一具有人工服务之处
具体实施方式
如前所述,本发明的检测输入语音信号可识别度的***着重设计语音识别或对话装置的前级。图2是本发明的检测输入语音信号可识别度的***的一个方框示意图。如图2所示,此***200主要包含环境参数求取器210、信号是否可识别判别器220和策略响应处理器230。参考此图2,现说明此***的各元件的功能及此***的操作流程如下。
首先,参数求取器210对输入信号求取出至少一个环境参数。此环境参数代表此输入信号所在的环境状况或信号的质量。不失一般性,本发明的实施例中,选择输入信号的信号-噪声比、输入信号为语音的机率,以及***处理输入信号的可靠度来当作环境参数。而这些环境参数的求取可利用如语音活动检测(voice activity detection,VAD)方式和特征参数遗失补偿(missingfeature imputation,MFI)方式,先得到干净语音信号后,再依此估算出。这些环境参数的估算将再一一详细说明。
之后,信号是否可识别判别器220在训练语言材料的环境参数经由事先训练后,根据该输入信号的环境参数,判别此输入信号是否可识别成功。当判别可识别成功时,便将此输入信号传送至一般的识别装置225。当判别无法识别成功时,便触发策略响应处理器230,做出多种不同的策略响应,使识别成功机率提高。
图3是环境参数求取器的一个方框示意图。如图3所示,此环境参数求取器包括信号-噪声比估算器310a、信号为语音的机率估算器310b和***处理输入信号的可靠度估算器310c。参考此图3,现一一详细说明各估算器估算各相对应的环境参数的方式如下。
信号-噪声比估算
由于在实际环境的应用上,背景噪声的影响程度通常直接反应到语音***的识别率,因此本发明选择输入信号的信号-噪声比当作第一个环境参数。
首先,信号-噪声比估算器310a利用语音活动检测方式对输入信号y的频谱特征参数检测出语音部分x及非语音部分(噪声)un。之后,语音部分x利用特征参数遗失补偿方式,消除噪声而得到干净语音信号再依据噪声un与干净信号计算出此输入信号y的信号-噪声比的值SNRy。通常输入信号的信号-噪声比越高,则输入信号被识别成功的机率也越大。此输入信号y的信号-噪声比的值SNRy可以下列式子来表示。
SNR ( t ) = 1 D · Σ d = 0 D - 1 x ^ ( t , d ) 1 D · Σ d = 0 D - 1 u n ( d ) , t = 0 ~ T - 1 ,
SNRy=max(SNR(t))
其中,SNR(t)为在t时间对输入信号y所估计出的信号-噪声比,输入信号的总时间长度为T。D为输入信号频谱总共的频带个数。
Figure G2005101085756D00084
代表利用特征参数遗失补偿方式在时间t及频带d所估计出的干净语音频谱特征参数。un(d)为利用特征参数遗失补偿方式在频带d所估计出的噪声频谱特征参数的平均值。SNRy为此输入信号的信号-噪声比的值。
信号为语音的机率估算
除了输入信号的信号-噪声比,本发明将输入信号y为语音的机率Py,当作第二个环境参数。测量出属于语音的机率越大,则代表此输入信号越容易被识别成功。
首先,信号为语音的机率估算器310b利用特征参数遗失补偿方式估计干净信号频谱参数x在时间t与频带d时,输入信号的信号-噪声比的值大于0的机率。
P ( SNR ( t , d ) > 0 ) = ∫ - ∞ x ( t , d ) / 2 1 2 π | σ ^ n ( d ) | e - ( ( ω - μ ^ n ( d ) ) 2 2 σ ^ n 2 ( d ) ) dω ,
其中,分别为利用特征参数遗失补偿方式估计的噪声频谱分布的平均值与变异数,ω为噪声值。
之后,利用特征参数遗失补偿方式估计干净信号频谱在时间t测量属于语音的机率。
R ( t ) = 1 D · Σ d = 0 D - 1 P ( SNR ( t , d ) > 0 ) , t = 0 ~ T - 1 ,
其中,D为信号频谱的频带数,T为输入信号的时间长度。
最后,输入信号y为语音的机率计算方式如下:
P y = 1 / T Σ t = 0 T - 1 R ( t ) .
***处理输入信号的可靠度估算
本发明测量***处理输入信号的可靠度Ry,来当作第三个环境参数。当可靠度的值越大时,则代表输入信号越容易被识别成功。
首先,***处理输入信号的可靠度估算器310c在频谱上测量输入信号y与已知***模型分布x的差异度(divergence)D(y||x),其公式如下:
D ( y | | x ) = ∫ [ p ( y ) - p ( x ) ] log ( p ( y ) p ( x ) ) dx ,
其中,p(y)代表信号y的频谱参数机率分布,p(x)为***模型的频谱参数机率分布。差异度D(y||x)越大,输入信号识别成功的机率越小。
之后,将此差异度D(y||x)经由一个S型公式(sigmoid function)转换为0到1的可靠度参数Ry。
R y = 1 1 + exp ( - α ( D + β ) ) ,
其中,α与β分别为放大与偏移的微调参数。
估算出此三个环境参数SNRy、Py和Ry后,信号是否可识别判别器220在训练语言材料的环境参数经由事先训练后,接收输入信号的三个环境参数SNRy、Py和Ry,分析并将输出结果分为可识别成功与无法识别成功两类,如图4的信号是否可识别判别器的方框示意图所示。训练语言材料的环境参数的训练法则的例子如样本分类(pattern classification)方法中的多阶感知力(multi-layer perceptron,MLP)方式。
如前所述,当信号是否可识别判别器220判别输入信号无法成功识别后,便会触发策略响应处理器230,做出策略响应。策略响应有多种方式,图5所示为策略响应处理器的策略响应的一个范例。此范例中,先响应使用者无法成功识别输入信号,并依照估算出的环境参数告知使用者目前环境及信号质量状况,如标号501所示,引导使用者改善目前环境及信号质量。如:信号-噪声比过低时,如低于一门限值时,请使用者提高音量或更换较为安静的环境。或者***处理输入信号的可靠度值太小时,如小于一门限值时,则提示使用者提高说话的清晰度等。接着提示使用者重新输入信号或者为其转至人工服务,如标号502所示。
在一个实验里,以936笔录制的干净语言材料,分别加入五种不同的信号-噪声比(0~20db)的人声噪声(babble noise),仿真噪声环境并产生六组测试集合共5616个测试信号。在噪声的干扰下,算出六组集合的识别率,如图6所示。在干净的环境下,识别率为94.2%。加入不同的人声噪声后,六组集合的测试信号的平均识别率下降为64.8%。
由此可见,***识别率会随着信号-噪声比值下降而急速降低,而影响了整体识别率。加入本发明的检测输入语音信号可识别度的方法后,对每个测试信号求出环境参数后,送入信号是否可识别判别器,将判别无法识别成功的输入信号排除,而判别可识别成功的输入信号则直接进入***识别。图7为无法识别成功和可识别成功的误差率的输出结果。
图7中,A为识别装置无法识别成功的语句数。B为加入本发明的方法后,对于A的误判(判别为可识别成功)句数。C为识别装置可以识别成功的语句数。D为加入本发明的方法后,对于C的误判(判别为无法识别成功)句数。而识别装置的平均识别率为,进入识别装置且识别正确的总语句数与应进入识别装置的总语句数的比值。也就是(C-D)/(C-D+B)=(3640-807)/(3640-807+453)=86.2%。
由此可见,在语音识别或对话***的前级中,加入本发明所提出的方法,则在噪声环境的干扰下,确实能准确地判别信号是否可成功识别,并接收识别成功机率较高的输入信号,将识别装置的效能从原先64.8%提升至86.2%。甚且,排除了识别成功机率较低的输入信号,减少它所带来的影响。
综上所述,本发明提供一种检测输入语音信号可识别度的***与方法.本发明是设计在语音识别或对话***的前级中,检测使用者环境质量状况并且判别输入语音信号可否被***识别成功.在本发明中,测量输入信号的信号噪声比、输入信号为语音的机率,和***处理输入信号的可靠度等参数,来代表输入信号的质量状况.并根据上述参数训练出判别器,判别输入信号可否识别成功.若判别可识别成功,便将信号传送至一般的识别装置.若判别无法识别成功,便触发处理器来告知使用者目前环境状况,并提示使用者改善输入信号的质量.
然而以上所述仅为本发明的实施例而已,不能依此限定本发明实施的范围。即凡是在本发明权利要求书的范围所作的均等变化与修改,皆应仍属本发明权利要求书涵盖的范围内。

Claims (24)

1.一种语音识别的前级检测***,设计在识别装置进行语音识别的前级中,该语音识别的前级检测***包含有:
环境参数求取器,对输入信号求取出至少一种环境参数,其中该环境参数代表该输入信号所在的环境状况或该输入信号的质量,且所述至少一种环境参数包括***处理该输入信号的可靠度;
信号是否可识别判别器,在训练语言材料的环境参数经由事先训练后,根据所述至少一种环境参数,判别该输入信号是否进入语音识别;以及
策略响应处理器,若判别结果为不进入语音识别,则做出多种不同的策略响应;
其中,所述可靠度是基于所述输入信号的频谱参数的机率分布和***模型的频谱参数的机率分布产生的,且若判别结果为进入语音识别,则该信号是否可识别判别器传送输入信号至该识别装置。
2.如权利要求1所述的语音识别的前级检测***,其中所述至少一种环境参数还包括该输入信号的信号-噪声比的值和该输入信号为语音的机率,或者还包括该输入信号的信号-噪声比的值,或者还包括该输入信号为语音的机率。
3.如权利要求2所述的语音识别的前级检测***,其中该环境参数求取器包括信号-噪声比估算器、输入信号为语音的机率估算器和***处理输入信号的可靠度估算器,以分别求取出该输入信号的信号-噪声比的值、该输入信号为语音的机率和该***处理该输入信号的可靠度。
4.如权利要求1所述的语音识别的前级检测***,其中所述多种不同的策略响应为依照所述至少一种环境参数告知使用者目前环境或信号质量状况,并提供使用者相对应的解决方法。
5.如权利要求4所述的语音识别的前级检测***,其中该输入信号所在的环境或信号的质量状况包含输入信号的信号-噪声比的值、该输入信号为语音的机率和***处理该输入信号的可靠度。
6.如权利要求4所述的语音识别的前级检测***,其中该提供使用者相对应的解决方法包含根据该输入信号所在的环境或信号质量状况,提供相对应的改善方式。
7.如权利要求6所述的语音识别的前级检测***,其中该改善方式包含请使用者提高音量、更换较为安静的环境、提高说话的清晰度和放弃识别。
8.如权利要求5所述的语音识别的前级检测***,其中当该信号-噪声比低于一个门限值时,则提示使用者提高音量或者更换较为安静的环境,并且重新输入信号。
9.如权利要求7所述的语音识别的前级检测***,其中当该***处理该输入信号的可靠度值小于一个门限值时,则提示使用者提高说话的清晰度,并且重新输入信号。
10.如权利要求7所述的语音识别的前级检测***,其中该放弃识别代表该信号不传送至该识别装置或者转至一具有人工服务之处。
11.一种语音识别的前级检测方法,设计在识别装置进行语音识别的前级中,该语音识别的前级检测方法包含下列步骤:
(a)对输入信号求取出至少一种环境参数,该环境参数代表该输入信号所在的环境状况或信号的质量,且所述至少一种环境参数包括***处理该输入信号的可靠度;
(b)在训练语言材料的环境参数经由事先训练后,根据该输入信号的所述至少一种环境参数,来判别该输入信号是否进入语音识别;以及
(c)若判别结果为不进入语音识别,则触发策略响应处理器,做出多种不同的策略响应;以及
(d)若判别结果为进入语音识别,则传送该输入信号至该识别装置;
其中所述可靠度是基于所述输入信号的频谱参数的机率分布和***模型的频谱参数的机率分布产生的。
12.如权利要求11所述的语音识别的前级检测方法,其中该步骤(a)中所述至少一种环境参数还包括该输入信号的信号-噪声比的值和该输入信号为语音的机率,或者还包括该输入信号的信号-噪声比的值,或者还包括该输入信号为语音的机率。
13.如权利要求11所述的语音识别的前级检测方法,其中所述至少一种环境参数利用语音活动检测方式和特征参数遗失补偿方式来求取。
14.如权利要求12所述的语音识别的前级检测方法,其中该输入信号的信号-噪声比的值的求取包括下列步骤:
利用语音活动检测方式对输入信号的频谱特征参数检测出语音部分及非语音部分;
利用特征参数遗失补偿方式将该语音部分消除噪声而得到干净语音信号;以及
依据该非语音部分与该干净语音信号,计算出该输入信号的该信号-噪声比的值。
15.如权利要求12所述的语音识别的前级检测方法,其中该输入信号为语音的机率的求取包括下列步骤:
利用特征参数遗失补偿方式,估计干净语音信号的频谱参数在时间t与频带d时,该输入信号的信号-噪声比的值大于0的机率,其中该干净语音信号是先利用一语音活动检测方式检测出语音部分,再从该语音部分消除噪音而得到的;
利用特征参数遗失补偿方式,估计该干净语音信号频谱在该时间t量测属于语音的机率R(t);以及
计算出该R(t)在该输入信号的时间长度的平均值,作为该输入信号为语音的机率。
16.如权利要求11所述的语音识别的前级检测方法,其中该***处理该输入信号的可靠度的求取包括下列步骤:
在频谱上测量该输入信号与已知***模型分布的差异度;以及
将该差异度经由一个S型公式转换为0到1的可靠度参数。
17.如权利要求11所述的语音识别的前级检测方法,其中该步骤(b)中该训练语言材料的环境参数的训练法则利用一样本分类方法中的多阶感知力方式。
18.如权利要求11所述的语音识别的前级检测方法,其中该步骤(c)中该策略响应为依照所述至少一种环境参数告知使用者目前环境或信号质量状况,并提供使用者相对应的解决方法。
19.如权利要求18项所述的语音识别的前级检测方法,其中该输入信号所在的环境或信号的质量状况包含输入信号的信号-噪声比的值、该输入信号为语音的机率和***处理该输入信号的可靠度。
20.如权利要求18所述的语音识别的前级检测方法,其中该提供使用者相对应的解决方法包含根据该输入信号所在的环境或信号质量状况提供相对应的改善方式。
21.如权利要求20所述的语音识别的前级检测方法,其中该改善方式包含请使用者提高音量、更换较为安静的环境、提高说话的清晰度和放弃识别.
22.如权利要求19所述的语音识别的前级检测方法,其中当该信号-噪声比低于一个门限值时,则提示使用者提高音量或者更换较为安静的环境,并且重新输入信号。
23.如权利要求19所述的语音识别的前级检测方法,其中当该***处理该输入信号的可靠度值小于一个门限值时,则提示使用者提高说话的清晰度,并且重新输入信号。
24.如权利要求21所述的语音识别的前级检测方法,其中该放弃识别代表该信号不传送至该识别装置或者转至一具有人工服务之处。
CN200510108575A 2005-10-12 2005-10-12 语音识别的前级检测***与方法 Expired - Fee Related CN1949364B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200510108575A CN1949364B (zh) 2005-10-12 2005-10-12 语音识别的前级检测***与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200510108575A CN1949364B (zh) 2005-10-12 2005-10-12 语音识别的前级检测***与方法

Publications (2)

Publication Number Publication Date
CN1949364A CN1949364A (zh) 2007-04-18
CN1949364B true CN1949364B (zh) 2010-05-05

Family

ID=38018855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200510108575A Expired - Fee Related CN1949364B (zh) 2005-10-12 2005-10-12 语音识别的前级检测***与方法

Country Status (1)

Country Link
CN (1) CN1949364B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693722A (zh) * 2012-05-23 2012-09-26 Tcl集团股份有限公司 一种语音识别的方法、装置及数字电视
CN103578470B (zh) * 2012-08-09 2019-10-18 科大讯飞股份有限公司 一种电话录音数据的处理方法及***
CN104345649B (zh) * 2013-08-09 2017-08-04 晨星半导体股份有限公司 应用于声控装置的控制器与相关方法
CN104637495B (zh) * 2013-11-08 2019-03-26 宏达国际电子股份有限公司 电子装置以及音频信号处理方法
CN103594088A (zh) * 2013-11-11 2014-02-19 联想(北京)有限公司 一种信息处理方法和电子设备
CN105718019B (zh) * 2014-12-01 2020-04-24 联想(北京)有限公司 一种信息处理方法及电子设备
CN104766462A (zh) * 2014-12-29 2015-07-08 深圳市欧润特科技有限公司 一种声波遥控***以及声波遥控方法
CN107221341A (zh) * 2017-06-06 2017-09-29 北京云知声信息技术有限公司 一种语音测试方法及装置
CN108281140A (zh) * 2017-12-29 2018-07-13 潍坊歌尔电子有限公司 智能设备噪声消除性能的测试方法和***
CN108986796A (zh) * 2018-06-21 2018-12-11 广东小天才科技有限公司 一种语音搜索方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0788090A2 (en) * 1996-02-02 1997-08-06 International Business Machines Corporation Transcription of speech data with segments from acoustically dissimilar environments
US6266633B1 (en) * 1998-12-22 2001-07-24 Itt Manufacturing Enterprises Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus
US20030046070A1 (en) * 2001-08-28 2003-03-06 Vergin Julien Rivarol Speech detection system and method
US20030061037A1 (en) * 2001-09-27 2003-03-27 Droppo James G. Method and apparatus for identifying noise environments from noisy signals
CN1521729A (zh) * 2003-01-21 2004-08-18 使用隐轨迹和隐马尔可夫模型进行语音识别的方法
US20050080627A1 (en) * 2002-07-02 2005-04-14 Ubicall Communications En Abrege "Ubicall" S.A. Speech recognition device
WO2005069278A1 (de) * 2004-01-13 2005-07-28 Siemens Aktiengesellschaft Verfahren und vorrichtung zur bearbeitung eines sprachsignals für die robuste spracherkennung

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0788090A2 (en) * 1996-02-02 1997-08-06 International Business Machines Corporation Transcription of speech data with segments from acoustically dissimilar environments
US6266633B1 (en) * 1998-12-22 2001-07-24 Itt Manufacturing Enterprises Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus
US20030046070A1 (en) * 2001-08-28 2003-03-06 Vergin Julien Rivarol Speech detection system and method
US20030061037A1 (en) * 2001-09-27 2003-03-27 Droppo James G. Method and apparatus for identifying noise environments from noisy signals
US20050080627A1 (en) * 2002-07-02 2005-04-14 Ubicall Communications En Abrege "Ubicall" S.A. Speech recognition device
CN1521729A (zh) * 2003-01-21 2004-08-18 使用隐轨迹和隐马尔可夫模型进行语音识别的方法
WO2005069278A1 (de) * 2004-01-13 2005-07-28 Siemens Aktiengesellschaft Verfahren und vorrichtung zur bearbeitung eines sprachsignals für die robuste spracherkennung

Also Published As

Publication number Publication date
CN1949364A (zh) 2007-04-18

Similar Documents

Publication Publication Date Title
CN1949364B (zh) 语音识别的前级检测***与方法
CN109767769B (zh) 一种语音识别方法、装置、存储介质及空调
US20060053009A1 (en) Distributed speech recognition system and method
CN102163427B (zh) 一种基于环境模型的音频异常事件检测方法
CN102270451B (zh) 说话人识别方法及***
US7933771B2 (en) System and method for detecting the recognizability of input speech signals
EP1210711B1 (en) Sound source classification
CN100476949C (zh) 不利环境中的多信道语音检测
CN104916289A (zh) 行车噪声环境下快速声学事件的检测方法
JPH02238495A (ja) 時系列信号認識装置
CN103065629A (zh) 一种仿人机器人的语音识别***
CN101452701B (zh) 基于反模型的置信度估计方法及装置
CN113823293B (zh) 一种基于语音增强的说话人识别方法及***
CN111081223B (zh) 一种语音识别方法、装置、设备和存储介质
CN106203437B (zh) 个体驾驶行为特征识别方法和装置
CN101587186A (zh) 一种雷达脉内调制信号的特征提取方法
CN112394324A (zh) 一种基于麦克风阵列的远距离声源定位的方法及***
Kida et al. Voice activity detection based on optimally weighted combination of multiple features.
Neelima et al. Mimicry voice detection using convolutional neural networks
CN113077812A (zh) 语音信号生成模型训练方法、回声消除方法和装置及设备
KR100429896B1 (ko) 잡음 환경에서의 음성신호 검출방법 및 그 장치
JP2002538514A (ja) 周波数スペクトラムにおける確率論的信頼度を用いた音声検出方法
CN113744725B (zh) 一种语音端点检测模型的训练方法及语音降噪方法
CN116092519A (zh) 车辆故障检测方法及***
CN101226741B (zh) 一种活动语音端点的侦测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100505

Termination date: 20201012