CN1950882A - 语音识别***中的语音结束检测 - Google Patents

语音识别***中的语音结束检测 Download PDF

Info

Publication number
CN1950882A
CN1950882A CNA2005800146093A CN200580014609A CN1950882A CN 1950882 A CN1950882 A CN 1950882A CN A2005800146093 A CNA2005800146093 A CN A2005800146093A CN 200580014609 A CN200580014609 A CN 200580014609A CN 1950882 A CN1950882 A CN 1950882A
Authority
CN
China
Prior art keywords
speech recognition
score
recognition device
value
token
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005800146093A
Other languages
English (en)
Other versions
CN1950882B (zh
Inventor
T·拉赫蒂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Inc
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of CN1950882A publication Critical patent/CN1950882A/zh
Application granted granted Critical
Publication of CN1950882B publication Critical patent/CN1950882B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及语音识别***,特别涉及在该***中配置语音结束检测。该***的语音识别器被配置为,确定从所接收的语音数据确定的识别结果是否稳定。该语音识别器被配置为,处理与所接收的语音数据帧相关的最佳状态得分和最佳令牌得分的值,用于语音结束检测。此外,该语音识别器被配置为,如果所述识别结果稳定,则在所述处理的基础上确定是否检测到语音结束。

Description

语音识别***中的语音结束检测
技术领域
本发明涉及语音识别***,并且特别涉及在语音识别***中的语音结束(end of utterance)检测。
背景技术
近年来已经开发了不同的语音识别应用,例如,用于汽车用户接口和移动终端(例如移动电话、PDA设备和便携电脑)。对于移动终端的已知应用包括通过对着移动终端的麦克风大声说出他/她的名字,以及根据与最对应于来自用户的语音输入的模型相关联的姓名/号码,来发起对所述号码的呼叫,从而给特定的人打电话。然而,目前依赖于说话者的方法一般要求对语音识别***进行训练以识别每个字的发音。不依赖于说话者的语音识别改善了语音控制用户接口的可用性,这是因为可以省略所述训练阶段。在不依赖于说话者的字识别中,可以预先存储字的发音,这样通过预定义的发音(例如音素序列)可以识别用户所说的字。大多数的语音识别***使用维特比(Viterbi)搜索算法,该算法通过隐马尔科夫模型(HMMs)网络建立搜索,并对于每一帧或时间步长维持在该网络中的每一阶段处的最可能路径得分。
语音结束(EOU)检测是与语音识别相关的一个重要方面。EOU检测的目标是最可靠、最快地检测讲话的结尾。当完成了EOU检测时,语音识别器就能停止解码,并且用户得到识别的结果。通过工作良好的EOU检测,也可以提高识别速率,这是因为语音之后的噪声部分被忽略了。
为EOU检测已经开发了各种不同的技术。例如,EOU检测可以基于检测到的能量的级别、检测到的过零值,或检测到的熵。然而,这些方法总是被证明对于处理能力有限的受限设备(如移动电话)来说太过复杂。如果在移动设备中使用语音识别,那么收集用于EOU检测的信息的很自然的位置是语音识别器的解码器部分。对于每个时间标(帧)的识别结果可以随着识别过程的进行而前移。当预定数目的帧产生了(基本上)相同的识别结果时,可以检测到EOU并且可以停止解码。这种EOU检测方法是由Takeda K.、Kuroiwa S.、Naito M.和Yamamoto S.于1995年5月在马德里的ESCA.EuroSpeech 1995上发表的文章“语音激励电话扩展***中的从上到下的语音检测和N-Best语义搜索”中提出的。
这种方法在这里是指“识别结果的稳定性检验”。然而,在某些情况下,这种方法会失效:如果在接收到语音数据前有足够长的静音部分,那么该算法将发送EOU检测信号。因此,可能甚至在用户说话之前就错误地检测到语音结束。过早的EOU检测可能是由姓名/字之间的延时导致的,或者甚至是由于当使用了基于稳定性检验的EOU检测时在某些情况下的说话过程中的延时导致的。在嘈杂的环境中,有可能出现这样的情况,即这种EOU检测算法根本检测不到EOU。
发明内容
目前提供了一种用于EOU检测的增强的方法和装置。本发明的不同方面包括语音识别***、方法、电子设备,和计算机程序产品,其特征由独立权利要求公开的内容陈述。本发明的一些实施例在从属权利要求中公开了。
根据本发明的一个方面,数据处理设备的语音识别器被配置为,确定从接收到的语音数据确定的识别结果是否稳定。进一步地,所述语音识别器被配置为,处理与所接收的语音数据帧相关联的最佳状态得分和最佳令牌得分(best token score)的值,用于语音结束检测。如果所述识别结果是稳定的,则所述语音识别器被配置为,基于所述最佳状态得分和最佳令牌得分的处理,来确定是否检测到语音结束。所述最佳状态得分通常指,在用于语音识别的状态模型的许多状态中,具有最大概率的状态的得分。所述最佳令牌得分通常指,在用于语音识别的许多令牌中的令牌的最大概率。可以为包含语音信息的每一帧更新这些得分。
用这种方式来配置语音结束检测的优点是,可以减少甚至避免与语音数据接收前的静音时段、语音段之间的时延、说话期间的EOU检测,以及遗漏的(例如,噪声导致的)EOU检测。该发明还提供了一种用于EOU检测的在计算上很经济的方法,因为可能使用预先计算的状态和令牌得分。因此,该发明非常适用于小型便携设备,例如移动电话和PDA设备。
根据本发明的实施例,通过累加预定数目的帧的最佳状态得分值,得到最佳状态得分总值。如果所述识别结果稳定,那么将最佳状态得分总值与预定的门限总值相比较。如果所述最佳状态得分总值不超过所述门限总值,则语音结束检测被确定。该实施例至少可以减少上述的错误,特别有助于防止有关语音数据接收前的静音时段的错误,以及有关在说话期间的EOU检测的错误。
根据本发明的实施例,反复确定最佳令牌得分值,并且基于至少两个最佳令牌得分值,计算最佳令牌得分值的斜率。将所述斜率与预定的门限斜率值相比,如果所述斜率不超过所述门限斜率值,则语音结束检测被确定。该实施例至少可以减少与语音数据接收前的静音时段相关的错误,以及与字间的长时间停顿相关的错误。该实施例实质上有助于(且比上一个实施例更有效)防止与说话期间的EOU检测相关的错误,这是因为最佳令牌得分斜率很能容忍噪声。
附图说明
下面将通过参考附图的优选实施例详细描述本发明,其中,
图1示出了一个数据处理设备,其中,可以实现根据本发明的语音识别***;
图2示出了根据本发明的某些方面的方法的流程图;
图3a、3b和3c是示出了根据本发明的一个方面的某些实施例的流程图;
图4a和4b是示出了根据本发明的一个方面的某些实施例的流程图;
图5示出了根据本发明的一个方面的实施例的流程图;
图6示出了本发明的实施例的流程图。
具体实施方式
图1示出了根据本发明实施例的数据处理设备(TE)的简化结构。所述数据处理设备(TE)可以是,例如,移动电话、PDA设备或其它类型便携电子设备,或者其部分或辅助模型块。在某些其它的实施例中,所述数据处理设备(TE)可能是膝上/台式电脑,或者其它***的集成部分,例如,车辆信息控制***部分。所述数据处理单元(TE)包括I/O装置(I/O)、中央处理单元(CPU)以及存储器(MEM)。所述存储器(MEM)包括只读存储器ROM部分和可重写部分,例如随机接入存储器RAM和FlASH存储器。用于和不同的外部实体,如CD-ROM、其它设备以及用户,进行通信的信息,通过所述I/O装置(I/O)被向/从中央处理单元(CPU)传送。如果该数据处理设备实现为移动台,则其典型地包括无线电收发机Tx/Rx,该无线电收发机与无线网络进行通信,典型地通过天线与无线电收发机基站进行通信。用户接口(UI)设备典型地包括显示器、键盘、麦克风和扩音器。所述数据处理设备(TE)可能还包括连接装置MMC,例如标准格式时隙,用于可以提供在数据处理设备上运行的多种应用的各种硬件模块。
所述数据处理设备(TE)包含语音识别器(SR),其可以由在中央处理单元(CPU)中执行的软件实现。SR实现了与语音识别器单元相关联的典型功能,实质上,SR找出了语音序列和预定的符号序列模型之间的映射。以下假设,所述语音识别器SR可能被设置有具有如下所述特征中的至少某些的语音结束检测装置。语音结束检测器也有可能是作为单独的实体而实现的。
因此,与语音结束检测相关的且在以下将更详细地描述的本发明的功能,可以在数据处理设备(TE)中通过计算机程序实现,当在中央处理单元(CPU)上执行所述计算机程序时,所述计算机程序使得所述数据处理设备实现本发明的过程。所述计算机程序的功能可以被分为几个相互通信的独立程序部分。在一个实施例中,促成创造性功能的计算机程序代码部分是语音识别器SR软件部分。所述计算机程序可以被存储在任何存储装置中,例如,硬盘上或者PC机的CD-ROM盘上,可以从所述存储装置上将其下载到移动台MS的存储器MEM中。也可以利用例如TCP/IP协议栈,通过网络下载所述计算机程序。
还有可能使用硬盘解决方案或者软件和硬件解决方案相结合来实现所述创造性的方法。因此,上述计算机程序产品的每一个可以至少部分地作为硬件解决方案(例如ASIC或者FPGA电路)在硬件模型中实现,所述硬件模型包括用于连接该模型与电子设备的连接装置,和用于执行上述程序代码任务的各种装置,所述装置作为硬件和/或软件而被实现。
在一个实施例中,通过利用HMM(隐马尔科夫)模型在SR中配置语音识别。Viterbi搜索算法可以被用来寻找到目标字的匹配。该算法是动态算法,其通过隐马尔科夫模型网络建立搜索,并且维持对于每一帧或时间步长的、在该网络中的每一状态的最可能路径得分。这个搜索过程是时间同步的:在前进到下一帧之前,其完全地处理当前帧的所有状态。在每一帧,对于所有当前路径的路径得分都是基于和控制声学与语言模型的比较而计算的。当已经处理了所有语音数据后,具有最高得分的路径是最佳的假设。可以利用某些剪枝技术来减少Viterbi搜索空间并且提高搜索速度。典型地,在搜索中在每一帧处设定门限,由此只有得分比所述门限高的路径才被延展到下一帧。所有其它的路径都被删除。最普遍使用的剪枝技术是束剪枝,其中仅前移那些得分落在特定范围内的路径。关于基于HMM的语音识别的更多细节,可以参考隐马尔科夫模型工具包(HTK),其可以在HTK主页http://htk.eng.cam.ac.uk/上获得。
图2中示出了增强的多语言自动语音识别***的实施例,其适用于例如上所述的数据处理设备TE。
在图2示出的方法中,语音识别器SR被配置为,为了语音结束检测,计算201与所接收的语音数据帧相关联的最佳状态得分和最佳令牌得分的值。关于所述状态得分计算的更多细节,可参考合并在此以作为参考的HTK的章节1.2和1.3。更特别地,下面的公式(HTK中的1.8)确定如何计算状态得分。HTK使得每个在时间t的观测向量都可以***为许多(S个)独立的数据流(ost)。于是,用于计算输出分布bj(ot)的公式为:
b j o t = Π s = 1 S [ Σ m = 1 Ms c jsm N ( o st ; μ jsm , Σ jsm ) ] γ s - - - ( 1 )
其中MS是流s中的混合分量的数目,Cjsm是第m’个分量的权值,N(.;μ,∑)是具有平均向量μ和协方差矩阵∑的多元高斯函数,即:
N ( o ; μ , Σ ) = 1 ( 2 π ) n | Σ | e - 1 2 ( o - μ ) ′ Σ - 1 ( o - μ ) - - - ( 2 )
其中n是o的维度。指数γs是流权值。为了确定最佳状态得分,维持了关于状态得分的信息。得出最高状态得分的状态得分被确定为最佳状态得分。应注意,没有必要严格遵循上面给出的公式,还可以用其它方法计算状态得分。例如,公式(1)中超过s的乘积在计算中可以被忽略。
令牌传递(token passing)被用来在状态间传递得分信息。HMM的每一状态(在时间帧t)持有包括关于局部对数概率信息的令牌。令牌代表观测序列(直到时间t)与上述模型之间的局部匹配。令牌传递算法在每一时间帧传播并更新令牌,并且将最佳令牌(在时间t-1具有最高概率)传递到下一个状态(在时间t)。在每一时间帧,通过相应的转移概率和发射概率,累计令牌的对数概率。于是,通过检查所有可能的令牌并选择具有最佳得分的令牌,而得到所述最佳令牌得分。当每个令牌通过搜索树(网络)传递时,其保留其路径的历史纪录。关于令牌传递和令牌得分的更多细节,参考剑桥大学工程部的Young、Russell和Thornton于1989年7月31日发表的“令牌传递:一种用于连贯语音识别***的简单概念模型”,其合并在此作为参考。
语音识别器SR还被配置为,确定202、203从接收的语音数据确定的识别结果是否稳定。如果识别结果不稳定,语音处理可能会继续205,而且在下一帧中,还可能再次进入步骤201。在步骤202中可以利用传统的稳定性检查技术。如果所述识别结果稳定,那么所述语音识别器被配置为,基于对最佳状态得分和最佳令牌得分的处理,确定204是否已检测到语音结束。如果对最佳状态得分和最佳令牌得分的处理也指示着语音的结束,则所述语音识别器SR被配置为确定语音结束检测,并结束语音处理。否则将继续进行语音处理,并且可能在下一语音帧返回步骤201。通过利用最佳状态得分和最佳令牌得分以及合适的门限值,可以至少减少与仅使用稳定性检验的EOU检测相关的错误。在步骤204,可以利用为了语音识别而计算的值。只有当所述识别结果稳定时,才可能完成某些或所有为了EOU检测而进行的对最佳状态得分和/或最佳令牌得分的处理,否则可以考虑进新的帧,对所述得分不断处理。一些更细节的实施例在下面示出。
在图3中示出了与最佳状态得分相关的实施例。语音识别器SR被配置为,通过累加预定数目的帧的最佳状态得分值,来计算301最佳状态得分总值。可以不断地对每个帧进行所述计算。
语音识别器SR被配置为,比较302、303最佳状态得分总值与预定门限总值。在一个实施例中,响应识别结果是稳定的(这在图3a中没有示出),而进入该步骤。该语音识别器SR被配置为,如果所述最佳状态得分总值不超过门限总值,则确定304语音结束检测。
图3b示出了与图3a中的方法相关的另一实施例。在步骤310中,语音识别器SR被配置为对最佳得分总值进行归一化。该归一化可能通过检测到的静音模型数目来实现。该步骤310可能在步骤301后被执行。在步骤311中,语音识别器SR被配置为,比较被归一化的最佳状态得分总值与预定门限总值。因而,步骤311可以代替在图3a的实施例中的步骤302。
图3c示出了与图3a中的方法相关的另一实施例,可能还包含了图3b的特征。语音识别器SR被进一步配置为,比较320超过所述门限总值的(可能被归一化的)最佳状态得分总值的数目与预定的最小数目值,该最小数目值定义了所需的超过所述门限总值的最佳状态得分总值的最小数目。例如,如果检测到“是”,则在步骤303后、步骤304之前可能进入步骤320。在步骤321(其可能代替步骤304)中,语音识别器被配置为,如果超过所述门限总值的最佳状态得分总值的数目等于或大于预定的最小数目值,则确定语音结束检测。该实施例还能避免过早的语音结束检测。
下面示出了用于计算归一化的最终#BSS的值的算法。
初始化
#BSS=BSS缓存器大小(FIFO)
BSS=0;
BSS_buf[#BSS]=0;
#SIL=#BSS//缓存器中的获得的静音模型的数目
For each T{
  取BSS
  更新BSS_buf
  更新#SIL
  IF(#SIL<SIL_LIMIT){
        BSS_sum=∑i BSS_buf[i]
        BSS_sum=BSS_sum/(#BSS-#SIL)
  }
  ELSE
        BSS_sum=0;
  }
在上面的典型算法中,基于BSS缓存器的大小而实现归一化。
图4a示出了利用最佳令牌得分以进行语音结束检测的实施例。在步骤401中,语音识别器SR被配置为确定对于当前帧(在时间T)的最佳令牌得分值。该语音识别器SR被配置为,基于至少两个最佳令牌得分值,来计算402最佳令牌得分值的斜率。在计算中使用的最佳令牌得分值的数目可以改变;实验表明使用少于10个最终的最佳令牌得分值就足够了。该语音识别器SR在步骤403中被配置为比较所述斜率与预定的门限斜率值。基于该比较403、404,如果所述斜率不超过所述门限斜率值,则语音识别器SR可以确定405语音结束检测。否则将继续进行语音处理406,且同样可能继续进行步骤401。
图4b示出了与图4a中的方法相关的另一实施例,在步骤410中,该语音识别器SR被进一步配置为,比较超过所述门限斜率值的斜率的数目与预定的超过所述门限斜率值的斜率的最小数目。如果检测到“是”,则可能在步骤404后、步骤405之前进入步骤410。在步骤411(其可能代替步骤405)中,该语音识别器SR被配置为,如果超过所述门限斜率值的最佳状态得分总值的数目等于或大于预定的最小数目,则确定语音结束检测。
在另一实施例中,该语音识别器SR被配置为,仅当接收了预定数目的帧后才开始计算斜率。与最佳令牌得分相关的上述特性中的某些或全部,可以对每一帧重复,或者只对某些帧重复。
下面示出了配置斜率计算的算法:
初始化
#BTS=BTS缓存器大小(FIFO)
For每一T{
  取BTS
  更新BTS_buf
  利用所述数据计算斜率
  {(xi,yi)},where i=1,2,...,#BTS,xi=i
  and yi=BTS[i-1].
  }
上述算法中用于计算斜率的公式是:
slope = nΣ x i y i - ( Σ x i ) / ( Σ y i ) nΣ x i 2 - ( Σ x i ) 2 - - - ( 3 )
根据图5示出的实施例,该语音识别器SR被配置为,确定501至少一个字间令牌的最佳令牌得分以及至少一个出口令牌的最佳令牌得分。在步骤502中,该语音识别器SR被配置为比较这些最佳令牌得分。该语音识别器SR被配置为,仅当所述出口令牌的最佳令牌得分值高于所述字间令牌的最佳令牌得分值时,确定503语音结束检测。该实施例可以作为补充,例如在进入步骤404前执行。通过使用该实施例,该语音识别器SR可以被配置为,仅当所述出口令牌提供最佳总得分时,检测语音结束。该实施例还能减少甚至避免有关语音字间停顿的问题。此外,在语音处理开始之后等待一段预定时间再允许EOU检测,或者仅当接收了预定数目的帧后才开始计算,都是可行的。
如图6所示,根据一个实施例,该语音识别器SR被配置为检验601识别结果是否不合格。步骤601可能是在所使用的其它与语音结束相关的检查特征之前或之后被发起。该语音识别器SR可能被配置为,仅当识别结果没有不合格时才确定602语音结束检测。例如,尽管所使用的其它EOU检验可以确定EOU检测,但基于该检验,该语音识别器SR被配置为不确定EOU检测。在另一个实施例中,基于该实施例中当前帧的结果(不合格),该语音识别器SR不继续进行所使用的其它EOU检测,而是继续进行语音处理。该实施例使得有可能避免由开始说话前的时延导致的错误,即避免说话前的EOU检测。
根据一个实施例,语音识别器SR被配置为从语音处理开始,等待预定时间段之后再确定语音结束检测。这样实现,使得语音识别器SR不执行上述与语音结束检测相关的特征中的一些或全部,或者使得该语音识别器SR将不会做出对语音结束检测的肯定判决,直到该时间段结束。该实施例能够避免说话前的EOU检测以及在语音处理初期的不可靠结果导致的错误。例如,令牌在其提供合理的得分前应该前移一段时间。如已提到过的,还有可能将从语音处理初期开始接收到确定数目的帧作为开始的判别准则。
根据另一个实施例,该语音识别器SR被配置为,当接收到最大数目的、产生基本上相同的识别结果的帧时,确定语音结束检测。该实施例可以与上述任何特征结合使用。通过将最大数目合理地设高,该实施例使得即使没有满足某些检测语音结束的判别准则,例如,由某些未预料到的阻止EOU检测的情况所导致的,也有可能在足够长的“静音”时间段后结束语音处理。
有必要注意到,通过合并上述特征的至少大多数,可以很好地避免与基于稳定性检验的语音结束检测相关的问题。因此在该发明中,上述特征可以通过多种方式合并,从而引起了在确定检测到语音结束之前肯定会遇到的多种情况。所述特征对依赖于说话者的和不依赖于说话者的语音识别都适用。对于不同的使用情况,以及在这些各种情况中测试语话末端机能,可以最优化所述门限值。
有关这些方法的实验已经表明,可以通过合并这些方法来大大避免错误的EOU检测的数量,特别是在嘈杂的环境中。此外,在实际的结束点到检测到语音结束之间的时延比没有使用所述方法的EOU检测的要小。
对于本领域技术人员来说显而易见,随着技术的进步,该发明的概念可以通过各种方法来实现。该发明及其实施例不限于上面描述的例子,而可以在权利要求的范围内变化。

Claims (31)

1.一种语音识别***,其包括具有语音结束检测的语音识别器,其中,所述语音识别器被配置为确定从所接收的语音数据确定的识别结果是否稳定,
所述语音识别器被配置为,处理与所接收的语音数据帧相关联的最佳状态得分和最佳令牌得分,用于语音结束检测,以及
所述语音识别器被配置为,如果所述识别结果稳定,则在所述处理的基础上确定是否检测到语音结束。
2.根据权利要求1的语音识别***,其中,所述语音识别器被配置为,通过累加预定数目的帧的最佳状态得分值,来计算最佳状态得分总值,
响应所述识别结果为稳定,所述语音识别器被配置为比较所述最佳状态得分总值和预定的门限总值,以及
所述语音识别器被配置为,当所述最佳状态得分总值不超过所述门限总值时确定语音结束检测。
3.根据权利要求2的语音识别***,其中,所述语音识别器被配置为通过所检测的静音模型的数目来归一化所述最佳得分总值,以及
所述语音识别器被配置为,比较所述被归一化的最佳状态得分总值和所述预定的门限总值。
4.根据权利要求2的语音识别***,其中,所述语音识别器被进一步配置为,比较超过所述门限总值的最佳状态得分总值的数目与预定的最小数目值,所述最小数目值定义了所需的超过所述门限总值的最佳状态得分总值的最小数目,以及
所述语音识别器被配置为,如果超过所述门限总值的最佳状态得分总值的数目等于或大于所述预定的最小数目的值,则确定语音结束检测。
5.根据权利要求1的语音识别***,其中,所述语音识别器被配置为在确定语音结束检测之前等待预定的时间段。
6.根据权利要求1的语音识别***,其中,所述语音识别器被配置为反复确定所述最佳令牌得分值,
所述语音识别器被配置为,基于至少两个最佳令牌得分值,来计算所述最佳令牌得分值的斜率,
所述语音识别器被配置为,比较所述斜率与预定的门限斜率值,以及
所述语音识别器被配置为,当所述斜率不超过所述门限斜率值时,确定语音结束检测。
7.根据权利要求6的语音识别***,其中,对每一帧计算所述斜率。
8.根据权利要求6的语音识别***,其中,所述语音识别器被进一步配置为,比较超过所述门限斜率值的斜率数目与预定的超过门限斜率值的斜率的最小数目,以及
所述语音识别器被配置为,如果所述超过门限斜率总值的最佳状态得分总值的数目等于或大于所述预定的最小数目,则确定语音结束检测。
9.根据权利要求6的语音识别***,其中,所述语音识别器被配置为,仅当接收了预定数目的帧后才开始计算斜率。
10.根据权利要求1的语音识别***,其中,所述语音识别器被配置为,确定至少一个字间令牌的最佳令牌得分以及至少一个出口令牌的最佳令牌得分,以及
所述语音识别器被配置为,仅当所述出口令牌的最佳令牌得分值高于所述字间令牌的最佳令牌得分值时,才确定语音结束检测。
11.根据权利要求1的语音识别***,其中,所述语音识别器被配置为,仅当所述识别结果没有不合格时,才确定语音结束检测。
12.根据权利要求1的语音识别***,其中,所述语音识别器被配置为,当接收到最大数目的产生基本上相同的识别结果的帧后,确定语音结束检测。
13.一种用于在语音识别***中配置语音结束检测的方法,所述方法包括:
处理与所接收的语音数据帧相关的最佳状态得分和最佳令牌得分,用于语音结束检测,
确定从所接收的语音数据确定的识别结果是否稳定,以及
如果所述识别结果稳定,则在所述处理的基础上确定是否检测到语音结束。
14.根据权利要求13的方法,其中,通过累加预定数目的帧的最佳状态得分值,来计算最佳状态得分总值,
响应所述识别结果为稳定,比较所述最佳状态得分总值与预定的门限总值,以及
如果所述最佳状态得分总值不超过所述门限总值,则确定所述语音结束检测。
15.根据权利要求13的方法,其中,反复确定最佳令牌得分的值,
基于至少两个最佳令牌得分值来计算所述最佳令牌得分值的斜率,
比较所述斜率与预定的门限斜率值,以及
如果所述斜率不超过门限斜率值,则确定所述语音结束检测。
16.根据权利要求13的方法,其中,至少一个字间令牌的最佳令牌得分以及至少一个出口令牌的最佳令牌得分被确定,以及
仅当所述出口令牌的最佳令牌得分值高于所述字间令牌的最佳令牌得分值时,才确定所述语音结束检测。
17.根据权利要求13的方法,其中,仅当所述识别结果没有不合格时,才确定所述语音结束检测。
18.一种包括语音识别器的电子设备,其中,所述语音识别器被配置为确定由所接收的语音数据确定的识别结果是否稳定,
所述语音识别器被配置为,处理与所接收的语音数据帧相关联的最佳状态得分和最佳令牌得分的值,用于语音结束检测,以及
所述语音识别器被配置为,如果所述识别结果稳定,则在所述处理的基础上确定是否检测到语音结束。
19.根据权利要求18的电子设备,其中,所述语音识别器被配置为,通过累加预定数目的帧的最佳状态得分值来计算最佳状态得分总值,
响应识别结果为稳定,所述语音识别器被配置为,比较所述最佳状态得分总值和预定的门限总值,以及
所述语音识别器被配置为,当所述最佳状态得分总值不超过所述门限总值时,确定语音结束检测。
20.根据权利要求19的电子设备,其中,所述语音识别器被配置为通过所检测的静音模型的数目来归一化所述最佳得分总值,以及
所述语音识别器被配置为,比较被归一化的最佳状态得分总值和所述预定的门限总值。
21.根据权利要求19的电子设备,其中,所述语音识别器被进一步配置为,比较超过所述门限总值的最佳状态得分总值的数目与预定的最小数目值,所述最小数目值定义了所需的超过所述门限总值的最佳状态得分总值的最小数目,以及
所述语音识别器被配置为,如果超过所述门限总值的最佳状态得分总值的数目大于或等于所述预定的最小数目值,则确定语音结束检测。
22.根据权利要求18的电子设备,其中,所述语音识别器被配置为在确定语音结束检测之前等待预定的时间段。
23.根据权利要求18的电子设备,其中,所述语音识别器被配置为反复确定最佳令牌得分的值,
所述语音识别器被配置为,基于至少两个最佳令牌得分值来计算所述最佳令牌得分值的斜率,
所述语音识别器被配置为,比较所述斜率与预定的门限斜率值,以及
所述语音识别器被配置为,当所述斜率不超过所述门限斜率值时,确定语音结束检测。
24.根据权利要求23的电子设备,其中,为每个帧计算该斜率。
25.根据权利要求23的电子设备,其中,所述语音识别器被进一步配置为,比较超过所述门限斜率值的斜率数目与预定的超过所述门限斜率值的斜率的最小数目,以及
所述语音识别器被配置为,如果所述超过所述门限斜率总值的最佳状态得分总值的数目大于或等于所述预定的最小数目,则确定语音结束检测。
26.根据权利要求23的电子设备,其中,所述语音识别器被配置为仅当接收了预定数目的帧后才开始计算斜率。
27.根据权利要求18的电子设备,其中,所述语音识别器被配置为,确定至少一个字间令牌的最佳令牌得分以及至少一个出口令牌的最佳令牌得分,以及
所述语音识别器被配置为,仅当所述出口令牌的最佳令牌得分值高于所述字间令牌的最佳令牌得分值时,确定语音结束检测。
28.根据权利要求18的电子设备,其中,所述语音识别器被配置为,仅当所述识别结果没有不合格时,才确定语音结束的检测。
29.根据权利要求18的电子设备,其中,所述语音识别器被配置为,当接收到最大数目的产生基本上相同的识别结果的帧时,确定语音结束检测。
30.根据权利要求18的电子设备,其中,所述电子设备是移动电话或个人数字助理设备。
31.一种可被下载到数据处理设备的存储器中的计算机程序产品,用于在包括语音识别器的设备中配置语音结束检测,所述电脑程序产品包括:
用于处理用于语音结束检测的且与接收到的语音数据帧相关的最佳状态得分和最佳令牌得分的值的程序代码,
用于确定从所接收的语音数据确定的识别结果是否稳定的程序代码,以及
用于如果所述识别结果稳定,则在所述处理的基础上确定是否检测到语音结束的程序代码。
CN2005800146093A 2004-05-12 2005-05-10 语音识别***中的语音结束检测 Expired - Fee Related CN1950882B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/844,211 US9117460B2 (en) 2004-05-12 2004-05-12 Detection of end of utterance in speech recognition system
US10/844,211 2004-05-12
PCT/FI2005/000212 WO2005109400A1 (en) 2004-05-12 2005-05-10 Detection of end of utterance in speech recognition system

Publications (2)

Publication Number Publication Date
CN1950882A true CN1950882A (zh) 2007-04-18
CN1950882B CN1950882B (zh) 2010-06-16

Family

ID=35310477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005800146093A Expired - Fee Related CN1950882B (zh) 2004-05-12 2005-05-10 语音识别***中的语音结束检测

Country Status (5)

Country Link
US (1) US9117460B2 (zh)
EP (1) EP1747553A4 (zh)
KR (1) KR100854044B1 (zh)
CN (1) CN1950882B (zh)
WO (1) WO2005109400A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106373561A (zh) * 2015-07-24 2017-02-01 三星电子株式会社 声学得分计算和语音识别的设备和方法
CN106710606A (zh) * 2016-12-29 2017-05-24 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及装置
CN110875033A (zh) * 2018-09-04 2020-03-10 蔚来汽车有限公司 用于确定语音结束点的方法、装置和计算机存储介质
CN112825248A (zh) * 2019-11-19 2021-05-21 阿里巴巴集团控股有限公司 语音处理方法、模型训练方法、界面显示方法及设备
CN113763960A (zh) * 2021-11-09 2021-12-07 深圳市友杰智新科技有限公司 模型输出的后处理方法、装置和计算机设备
US11705125B2 (en) 2021-03-26 2023-07-18 International Business Machines Corporation Dynamic voice input detection for conversation assistants

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7409332B2 (en) * 2004-07-14 2008-08-05 Microsoft Corporation Method and apparatus for initializing iterative training of translation probabilities
US8065146B2 (en) * 2006-07-12 2011-11-22 Microsoft Corporation Detecting an answering machine using speech recognition
US20090198490A1 (en) * 2008-02-06 2009-08-06 International Business Machines Corporation Response time when using a dual factor end of utterance determination technique
KR20130101943A (ko) 2012-03-06 2013-09-16 삼성전자주식회사 음원 끝점 검출 장치 및 그 방법
KR101990037B1 (ko) * 2012-11-13 2019-06-18 엘지전자 주식회사 이동 단말기 및 그것의 제어 방법
US9390708B1 (en) * 2013-05-28 2016-07-12 Amazon Technologies, Inc. Low latency and memory efficient keywork spotting
US9607613B2 (en) 2014-04-23 2017-03-28 Google Inc. Speech endpointing based on word comparisons
KR102267405B1 (ko) * 2014-11-21 2021-06-22 삼성전자주식회사 음성 인식 장치 및 음성 인식 장치의 제어 방법
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
CN105427870B (zh) * 2015-12-23 2019-08-30 北京奇虎科技有限公司 一种针对停顿的语音识别方法和装置
US10283150B2 (en) 2017-08-02 2019-05-07 Western Digital Technologies, Inc. Suspension adjacent-conductors differential-signal-coupling attenuation structures
US11682416B2 (en) 2018-08-03 2023-06-20 International Business Machines Corporation Voice interactions in noisy environments
WO2020036195A1 (ja) * 2018-08-15 2020-02-20 日本電信電話株式会社 話し終わり判定装置、話し終わり判定方法およびプログラム
US11648951B2 (en) 2018-10-29 2023-05-16 Motional Ad Llc Systems and methods for controlling actuators based on load characteristics and passenger comfort
RU2761940C1 (ru) * 2018-12-18 2021-12-14 Общество С Ограниченной Ответственностью "Яндекс" Способы и электронные устройства для идентификации пользовательского высказывания по цифровому аудиосигналу
DE102020111250A1 (de) 2019-04-25 2020-10-29 Aptiv Technologies Limited Grafische benutzerschnittstelle zur anzeige des verhaltens autonomer fahrzeuge
US11472291B2 (en) 2019-04-25 2022-10-18 Motional Ad Llc Graphical user interface for display of autonomous vehicle behaviors
US11615239B2 (en) * 2020-03-31 2023-03-28 Adobe Inc. Accuracy of natural language input classification utilizing response delay

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4821325A (en) * 1984-11-08 1989-04-11 American Telephone And Telegraph Company, At&T Bell Laboratories Endpoint detector
EP0691022B1 (en) * 1993-03-25 1999-12-01 BRITISH TELECOMMUNICATIONS public limited company Speech recognition with pause detection
CN1058097C (zh) * 1993-03-31 2000-11-01 英国电讯有限公司 连续语音识别
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer
JP3004883B2 (ja) 1994-10-18 2000-01-31 ケイディディ株式会社 終話検出方法及び装置並びに連続音声認識方法及び装置
CN1150515C (zh) * 1995-03-07 2004-05-19 英国电讯公司 语音识别方法和装置
US5884259A (en) * 1997-02-12 1999-03-16 International Business Machines Corporation Method and apparatus for a time-synchronous tree-based search strategy
US5956675A (en) 1997-07-31 1999-09-21 Lucent Technologies Inc. Method and apparatus for word counting in continuous speech recognition useful for reliable barge-in and early end of speech detection
US6076056A (en) * 1997-09-19 2000-06-13 Microsoft Corporation Speech recognition system for recognizing continuous and isolated speech
US6374219B1 (en) * 1997-09-19 2002-04-16 Microsoft Corporation System for using silence in speech recognition
WO2001020597A1 (en) * 1999-09-15 2001-03-22 Conexant Systems, Inc. Automatic speech recognition to control integrated communication devices
US6405168B1 (en) * 1999-09-30 2002-06-11 Conexant Systems, Inc. Speaker dependent speech recognition training using simplified hidden markov modeling and robust end-point detection
US6873953B1 (en) 2000-05-22 2005-03-29 Nuance Communications Prosody based endpoint detection
GB2370401A (en) * 2000-12-19 2002-06-26 Nokia Mobile Phones Ltd Speech recognition
ES2268112T3 (es) * 2001-11-14 2007-03-16 Matsushita Electric Industrial Co., Ltd. Codificacion y descodificacion de audio.
US7050975B2 (en) * 2002-07-23 2006-05-23 Microsoft Corporation Method of speech recognition using time-dependent interpolation and hidden dynamic value classes
US20040254790A1 (en) * 2003-06-13 2004-12-16 International Business Machines Corporation Method, system and recording medium for automatic speech recognition using a confidence measure driven scalable two-pass recognition strategy for large list grammars
JP4433704B2 (ja) 2003-06-27 2010-03-17 日産自動車株式会社 音声認識装置および音声認識用プログラム
US20050049873A1 (en) * 2003-08-28 2005-03-03 Itamar Bartur Dynamic ranges for viterbi calculations
GB2409750B (en) * 2004-01-05 2006-03-15 Toshiba Res Europ Ltd Speech recognition system and technique

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106373561A (zh) * 2015-07-24 2017-02-01 三星电子株式会社 声学得分计算和语音识别的设备和方法
CN106710606A (zh) * 2016-12-29 2017-05-24 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及装置
CN106710606B (zh) * 2016-12-29 2019-11-08 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及装置
CN110875033A (zh) * 2018-09-04 2020-03-10 蔚来汽车有限公司 用于确定语音结束点的方法、装置和计算机存储介质
CN112825248A (zh) * 2019-11-19 2021-05-21 阿里巴巴集团控股有限公司 语音处理方法、模型训练方法、界面显示方法及设备
US11705125B2 (en) 2021-03-26 2023-07-18 International Business Machines Corporation Dynamic voice input detection for conversation assistants
CN113763960A (zh) * 2021-11-09 2021-12-07 深圳市友杰智新科技有限公司 模型输出的后处理方法、装置和计算机设备

Also Published As

Publication number Publication date
US20050256711A1 (en) 2005-11-17
WO2005109400A1 (en) 2005-11-17
KR20070009688A (ko) 2007-01-18
EP1747553A4 (en) 2007-11-07
KR100854044B1 (ko) 2008-08-26
CN1950882B (zh) 2010-06-16
EP1747553A1 (en) 2007-01-31
US9117460B2 (en) 2015-08-25

Similar Documents

Publication Publication Date Title
CN1950882A (zh) 语音识别***中的语音结束检测
US11636846B2 (en) Speech endpointing based on word comparisons
CN110268469B (zh) 服务器侧热词
JP7336537B2 (ja) 組み合わせで行うエンドポイント決定と自動音声認識
CN1202512C (zh) 用于识别连续和分立语音的语音识别***
CN107810529B (zh) 语言模型语音端点确定
CN103971685B (zh) 语音命令识别方法和***
CN105190746B (zh) 用于检测目标关键词的方法和设备
JP5072206B2 (ja) 音声分類および音声認識のための隠れ条件付確率場モデル
US7254529B2 (en) Method and apparatus for distribution-based language model adaptation
US20080189106A1 (en) Multi-Stage Speech Recognition System
CN105118501B (zh) 语音识别的方法及***
US20030061037A1 (en) Method and apparatus for identifying noise environments from noisy signals
EP1199708A2 (en) Noise robust pattern recognition
CN1655235A (zh) 基于话音特征自动标识电话呼叫者
WO2001022400A1 (en) Iterative speech recognition from multiple feature vectors
CN106548775B (zh) 一种语音识别方法和***
US10854192B1 (en) Domain specific endpointing
US8862468B2 (en) Leveraging back-off grammars for authoring context-free grammars
CN1831939A (zh) 语音识别方法和语音识别装置
CN1300049A (zh) 汉语普通话话音识别的方法和设备
WO2023124500A1 (zh) 语音识别方法、装置、设备以及存储介质
CN111768789A (zh) 电子设备及其语音发出者身份确定方法、装置和介质
CN1588535A (zh) 嵌入式语音识别***的自动语音识别处理方法
KR102069693B1 (ko) 자연어 대화체 음성을 인식하는 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: NOKIA 2011 PATENT ASSETS TRUSTS CORPORATION

Free format text: FORMER OWNER: NOKIA OY

Effective date: 20120203

C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee

Owner name: 2011 INTELLECTUAL PROPERTY ASSETS TRUST CORPORATIO

Free format text: FORMER NAME: NOKIA 2011 PATENT ASSETS TRUSTS CORPORATION

CP01 Change in the name or title of a patent holder

Address after: Delaware

Patentee after: 2011 Intellectual Property Asset Trust

Address before: Delaware

Patentee before: NOKIA 2011 patent trust

TR01 Transfer of patent right

Effective date of registration: 20120203

Address after: Delaware

Patentee after: NOKIA 2011 patent trust

Address before: Espoo, Finland

Patentee before: NOKIA Corp.

ASS Succession or assignment of patent right

Owner name: CORE WIRELESS LICENSING S.A.R.L.

Free format text: FORMER OWNER: 2011 INTELLECTUAL PROPERTY ASSET TRUST CORPORATION

Effective date: 20120425

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20120425

Address after: Luxemburg Luxemburg

Patentee after: NOKIA Inc.

Address before: Delaware

Patentee before: 2011 Intellectual Property Asset Trust

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100616

Termination date: 20160510