CN101636784B

CN101636784B - 语音识别***及语音识别方法

Info

Publication number: CN101636784B
Application number: CN2007800522508A
Authority: CN
Inventors: 鹫尾信之; 原田将治
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-03-20
Filing date: 2007-03-20
Publication date: 2011-12-28
Anticipated expiration: 2027-03-20
Also published as: CN101636784A; WO2008114448A1; JPWO2008114448A1; US20100004932A1; JP4836290B2; US7991614B2

Abstract

语音识别***(1)具有：特征量计算部(2)；声音级别计算部(6)，其计算各帧的输入声音级别；对照部(7)，其将各帧的特征量与声学模型和语言模型进行对照，并输出识别单词串；始点判断部(31)，其根据基准值来确定语音区间的始点帧；终点判断部(32)，其根据基准值来确定语音区间的终点帧；以及基准值更新部(4)，其根据输入声音级别的变动来更新基准值。始点判断部(31)在每次基准值被更新时更新始点帧，对照部(7)在终点帧之前开始对照，并在每次接收到始点帧的通知时修改对照结果。语音识别***(1)能够进行基于适当语音区间的语音识别，并能够抑制响应时间延迟。

Description

语音识别***及语音识别方法

技术领域

本发明涉及输入包含用户话语的声音信号来进行语音识别处理，并输出话语中包含的识别单词串的语音识别处理、语音识别程序及语音识别方法。

背景技术

以往，大多数语音识别***都具有根据输入的语音数据来判断语音区间(话语区间)在时间轴上位于何处的功能。这种语音识别***针对被判定为语音区间的区间的帧来计算特征量，并将该特征量与声学模型和语言模型进行对照而输出识别结果。为了判断语音区间存在于何处，例如语音识别***可以在输入语音的功率持续一定时间(一定帧数)高于基准值(＝背景噪声级别+α(阈值))的情况下，判定为语音区间开始。并且，语音识别***可以在输入语音的功率持续一定时间低于基准值的情况下，判定为语音区间结束。

在上述语音区间判断方法中，有时在背景噪声级别超过阈值α而变动时，会将噪声区间错误地判定为语音区间而导致错误识别。因此，提出了根据输入语音的最大能量来动态地判断语音区间始端的语音区间始端检测装置(例如参照专利文献1)。该始端检测装置在从检测到语音区间的始端到检测到终端的过程中，将所输入的语音数据存储在缓存中，在所输入的语音数据中检测到语音能量的最大值和极大值的时刻，重新设定新的阈值，并根据该阈值来重新判断新的始端。之后，在检测到终端时，输出始端与终端之间的语音数据。

但是，在上述始端判断装置中，构成为只有确定了语音区间的终端才能开始对照处理等，因此存在响应时间延长的问题。

专利文献1：日本特许第2625682号公报

发明内容

因此，本发明的目的在于，提供能够进行基于适当语音区间的语音识别，同时能够抑制响应时间延迟的语音识别***、语音识别程序及语音识别方法。

本发明的语音识别***具有：特征量计算部，其将输入的声音信号转换成每个帧的特征量；声音级别计算部，其计算由各帧的所述声音信号的功率或振幅表示的输入声音级别；对照部，其接受特征量计算部计算出的各帧的特征量，与预先存储的声学模型和语言模型进行对照，并根据相应对照结果来确定要输出的识别单词串，所述声学模型是对语音容易成为什么样的特征量进行建模而得的数据，所述语言模型是关于识别单词的数据；始点判断部，其通过将所述声音级别计算部计算出的所述输入声音级别与基准值进行比较，来确定作为语音区间始点的始点帧并通知给所述对照部；终点判断部，其通过将所述声音级别计算部计算出的所述输入声音级别与基准值进行比较，来确定作为语音区间终点的终点帧并通知给所述对照部；以及基准值更新部，其根据所述始点帧以后的输入声音级别的变动来更新所述基准值，所述始点判断部在所述基准值更新部更新了基准值时，使用该更新后的基准值来更新始点帧并通知给所述对照部，所述对照部在接受了特征量计算部计算出的各帧的特征量而开始对照后，在从所述终点判断部接收到终点帧的通知之前，从所述始点判断部接收到始点帧的通知的情况下，根据所通知的始点帧来修正所述对照结果。

根据上述结构，基准值更新部根据始点帧以后的输入声音级别的变动来更新基准值，始点判断部根据更新后的基准值来更新始点帧。由此，根据输入声音信号中包含的语音的输入声音级别来更新始点帧。因此，能够自动更正例如由不稳定噪声、输入声音级别的偏差等引起的语音区间始点的错误判断。此外，终点判断部也根据输入声音级别来确定终点帧。像这样由始点判断部更新的始点帧和由终点判断部确定的终点帧被通知给对照部。对照部在开始对照处理后，在接收到终点帧的通知之前更新了始点帧时，根据该始点帧来修正对照结果。即，对照部可构成为不等待终点帧而进行对照处理。因此，抑制了响应时间的延迟。此外，对照部根据更新后的始点帧来修正对照结果，因此能够输出基于更正了始点判断错误的适当语音区间的识别结果。此外，即使更新了始点帧，对照部也不会从开始重新进行对照处理，而是修正对照结果，因此能够利用已经进行了对照处理的对照结果而不会浪费。结果，改善了响应时间。进而，能够进行基于适当语音区间的语音识别，并抑制响应时间延迟。

另外，输入声音级别可以由各帧的声音信号的功率或其对数值表示，或者由各帧的声音信号的振幅或其对数值表示。

在本发明的语音识别***中，可以采用这种方式：所述对照部只根据从所述始点判断部通知的所述始点帧到所述终点判断部通知的所述终点帧的语音区间中包含的帧的特征量的对照结果，来确定所述识别单词串。

由此，对照部可以根据除去了由始点判断部和终点判断部判定为不是语音区间的区间的对照结果后的结果，来确定识别单词串。结果，减轻了噪声可能性较高的帧的对照结果对识别结果的影响。

在本发明的语音识别***中，可以采用这种方式：所述对照部通过对各帧的特征量的对照结果进行加权来修正所述对照结果，所述对照部以如下方式进行加权：使得未包含在从所述始点判断部通知的所述始点帧到所述终点判断部通知的所述终点帧的语音区间中的帧的特征量的对照结果的权重小于从所述始点帧到所述终点帧的语音区间内的帧的特征量的对照结果的权重。

由此，对照部将被判定为语音区间外的帧的特征量的对照结果权重估计得比语音区间内的对照结果权重小，来确定识别单词串。因此，对照部能够减轻由始点判断部和终点判断部判定为不是语音区间的区间的对照结果的影响度，来确定识别单词串。结果，减轻了噪声可能性较高的帧的对照结果对识别结果造成的影响。即，减轻了语音区间判断结果中的微小错误对识别结果造成较大影响的情况，进而使识别结果稳定。

在本发明的语音识别***中，可以采用这种方式：所述对照部根据未处于从所述始点判断部通知的所述始点帧到所述终点判断部通知的所述终点帧的区间的帧中包含的单词，来确定所述输出的识别单词串。

由此，对照部能够从待输出的识别单词串中，除去被判定为语音区间外的帧所涉及的单词。结果，减轻了噪声可能性较高的帧的对照结果对识别结果造成的影响。

在本发明的语音识别***中，可以采用这种方式：所述基准值更新部计算所述始点帧以后的帧的最大输入声音级别，并根据该最大输入声音级别来更新所述基准值。

基准值更新部可以通过根据始点帧以后的帧的最大输入声音级别来更新基准值，来使基准值反映语音区间的输入声音级别。

在本发明的语音识别***中，可以采用这种方式：所述基准值更新部随着时间的经过而阶段性地降低所述基准值。

通常，在人说话时，在话语结尾处话语音量有减小的趋势。基准值更新部通过随着时间的经过而使基准值阶段性地下降，能够对应于该话语结尾处话语音量减小的趋势而更新基准值。终点判断部根据如此更新的基准值来判断终点帧，由此能够根据人说话的趋势来判断适当的终点帧。

在本发明的语音识别***中，可以采用这种方式：所述基准值更新部随着时间的经过使计算的所述最大输入声音级别阶段性地下降。

基准值是根据最大声音级别来更新的，因此对应于在话语结尾处话语音量减小的趋势来更新基准值。此外，例如能够防止由于以下情况等的不规律因素导致最大声音级别上升，之后无法设定适当的基准值的情形，所述情况包括：说话者突然情绪激动而输入声音级别一时急剧上升，或者掺入了突发的大音量噪声。

本发明的语音识别程序使计算机执行以下处理：特征量计算处理，将输入的声音信号转换成每个帧的特征量；声音级别计算处理，计算由各帧的所述声音信号的功率或振幅表示的输入声音级别；对照处理，接受由特征量计算处理计算的各帧的特征量，与预先存储的声学模型和语言模型进行对照，并根据相应对照结果来输出识别单词串，所述声学模型是对语音容易成为什么样的特征量进行建模而得的数据，所述语言模型是关于识别单词的数据；始点判断处理，通过对所述声音级别计算处理计算出的所述输入声音级别与基准值进行比较，来确定作为语音区间始点的始点帧；终点判断处理，通过对所述声音级别计算处理计算出的所述输入声音级别与基准值进行比较，来确定作为语音区间终点的终点帧；以及基准值更新处理，根据所述始点帧以后的输入声音级别的变动来更新所述基准值，该语音识别程序的特征在于，在所述始点判断处理中，当由所述基准值更新处理更新了基准值时，使用该更新后的基准值来更新始点帧，在所述对照处理中，在接受了由特征量计算处理计算的各帧的特征量而开始对照后，在由所述终点判断处理确定终点帧之前，由所述始点判断处理更新了始点帧的情况下，根据更新后的始点帧来修正所述对照结果。

本发明的语音识别方法包括以下步骤：特征量计算步骤，将输入的声音信号转换成每个帧的特征量；声音级别计算步骤，计算由各帧的所述声音信号的功率或振幅表示的输入声音级别；对照步骤，接受在特征量计算步骤中计算的各帧的特征量，与预先存储的声学模型和语言模型进行对照，并根据相应对照结果来输出识别单词串，所述声学模型是对语音容易成为什么样的特征量进行建模而得的数据，所述语言模型是关于识别单词的数据；始点判断步骤，通过将所述声音级别计算步骤中计算出的所述输入声音级别与基准值进行比较，来确定作为语音区间始点的始点帧；终点判断步骤，通过将所述声音级别计算步骤中计算出的所述输入声音级别与基准值进行比较，来确定作为语音区间终点的终点帧；以及基准值更新步骤，根据所述始点帧以后的输入声音级别的变动来更新所述基准值，该语音识别方法的特征在于，在所述始点判断步骤中，当在所述基准值更新步骤中更新了基准值时，使用该更新后的基准值来更新始点帧，在所述对照步骤中，接受了在特征量计算步骤中计算的各帧的特征量而开始对照后，在所述终点判断步骤中确定终点帧之前，在所述始点判断步骤中更新了始点帧的情况下，根据更新后的始点帧来修正所述对照结果。

此外，本发明的存储介质是存储有本发明的语音识别程序的计算机可读存储介质。

根据本发明，可提供能够进行基于适当语音区间的语音识别、并抑制响应时间延迟的语音识别***、语音识别程序及语音识别方法。

附图说明

图1是表示语音识别***的结构的功能框图。

图2是表示输入声音信号的输入声音级别、基准值等的随时间变化的曲线图。

图3是示出语音区间判断部的处理流程的流程图。

图4是示出对照部的处理流程的流程图。

具体实施方式

(语音识别***的结构)

图1是表示本实施方式的语音识别***的结构的功能框图。图1所示的语音识别***1根据包含用户语音的输入声音信号，进行识别单词串的语音识别处理，并将识别出的单词串作为识别结果输出。语音识别***1例如用作为从语音对话应用程序等上位程序接受用户语音、并将识别结果返回上位程序的语音识别引擎。

语音识别***1具有：特征量计算部2、语音区间判断部3、基准值更新部4、声音级别缓存5、声音级别计算部6、对照部7、声学模型存储部8和语言模型存储部9。

语音识别***例如通过在个人计算机或组装在电子设备中的计算机等任意计算机上安装程序来实现。即，通过计算机的CPU根据实现这些功能的程序进行工作来实现特征量计算部2、语音区间判断部3、基准值更新部4、声音级别计算部6和对照部7。因此，用于使计算机实现特征量计算部2、语音区间判断部3、基准值更新部4、声音级别计算部6和对照部7的功能的程序或存储了该程序的存储介质也是本发明的一个实施方式。此外，声音级别缓存5、声学模型存储部8和语言模型存储部9通过计算机的内置存储装置或可由该计算机进行访问的存储装置来实现。

特征量计算部2将输入声音信号转换成每个帧的特征量。对于特征量，大多使用MFCC、LPC倒谱或功率、它们的一次或二次回归系数、以及通过主成分分析或判别分析对它们的值进行维数压缩而得到的产物等的多维矢量，不过这里没有特别的限定。所计算的特征量与各帧固有的信息(帧固有信息)一起存储在内部存储器(未图示)中。其中，帧固有信息例如是表示各帧为从开头起的第几个帧的帧编号，或者是表示各帧的开始时刻、结束时刻等的数据。

对照部7接受由特征量计算部2计算出的各帧的特征量，将其与声学模型存储部8的声学模型和语言模型存储部9的语言模型进行对照，根据相应的对照结果来确定识别单词列，并将其作为识别结果输出。声学模型是对语音容易成为什么样的特征量进行建模而得的数据，语言模型是关于识别单词的数据。例如在语言模型中包含语法、识别词汇信息等。

具体而言，对照部7例如进行如下的对照处理。首先，对照部7通过将各帧的特征量与声学模型进行比较，来针对语音区间中包含的每个帧计算音素分数。另外，在该情况下，声学模型例如是对哪个音素容易成什么样的特征量的信息进行建模而得的，当前的主流是音素HMM(Hidden Markov Model：隐马尔可夫模型)。声学模型预先存储在声学模型存储部8中。

进而，对照部7以计算出的音素分数为基础，根据存储在语言模型存储部9中的语法和识别词汇信息来假定多个单词串(语句)候选，并计算各单词串候选的分数(似然度)。对照部7将计算出的分数最高的单词串候选作为识别结果输出。

这里，作为存储在语言模型存储部9中的语法的例子，可以列举出上下文无关语法(CFG：Context Free Grammar)、有限状态语法(FSG：Finite State Grammar)、以及单词链的概率模型(N-gram)等。本发明所采用的语法没有特别限定，假设在以下例子中使用FSG。此外，作为识别词汇信息，例如包括识别单词的ID、读音(如何发音)或与读音等价的音素串，还可以包括其它任意信息。

这样，作为对照部7将各帧的特征量与声学模型和语言模型进行对照的对照结果的例子，可以列举表示声学模型与特征量的一致度的音素分数、以及根据音素分数和语言模型计算出的各单词串候选的分数等，不过对照结果不限于上述例子。例如，对照结果可以是通过事后概率进行校正后的音素分数或单词分数，在对照结果中也可以包含持续时间长度、单词***惩罚(penalty)、单词的共现概率、基于单词事后概率的可信度等任意要素。另外，有时还将音素分数称为似然度。

声音级别计算部6根据输入声音信号，依次计算每个帧的语音功率(帧功率)，作为输入声音级别。声音级别计算部6例如可以计算各帧的声音信号的平方和或平方和的平均值，将其对数化后得到的值设为各帧的帧功率。另外，声音级别计算部6也可以计算各帧的振幅或振幅的平均值作为输入声音级别，来取代上述帧功率。此外，输入声音级别可以是在时域中计算出的值，也可以是通过FFT等在频谱域中计算出的值。即，输入声音级别只要是表示声音大小级别的值即可，其计算方法不限于上述例子。

由声音级别计算部6计算出的各帧的帧功率与各帧固有信息一起存储在声音级别缓存5中。另外，在本实施方式中，采用了帧功率与特征量分别独立存储的方式，但也可以采用帧功率与特征量结合起来进行存储的方式。

语音区间判断部3包括始点判断部31和终点判断部32。始点判断部31通过将由声音级别计算部6计算并被存储在声音级别缓存5中的各帧的输入声音级别与基准值进行比较，来确定作为语音区间始点的始点帧，通知给上述对照部。终点判断部32通过将存储在声音级别缓存5中的各帧的输入声音级别与基准值进行比较，来确定作为语音区间终点的终点帧，通知给上述对照部。

始点判断部31例如按照时间顺序依次读出存储在声音级别缓存5中的各帧的输入声音级别(这里，作为一例为帧功率)，与基准值进行比较。始点判断部31例如可以在帧功率超过基准值的帧持续了规定时间的情况下，将帧功率超过基准值时刻的帧判定为始点帧。同样，终点判断部32例如可以在帧功率低于基准值的帧持续了规定时间的情况下，将帧功率低于基准值时刻的帧判定为终点帧。可以将这样判断出的始点帧与终点帧之间的区间判定为语音区间。

基准值更新部4根据始点帧以后的帧的输入声音级别的变动来更新基准值。例如，基准值更新部4可以根据输入声音级别的变动，来计算可推定为是语音而不是噪声的声音级别(推定话语级别)，并根据该推定话语级别来更新基准值。具体而言，基准值更新部4在始点帧以后的帧中，检测帧功率最大的帧，并将该最大帧功率设为推定话语级别。然后，基准值更新部4可以将从该检测出的最大帧功率(推定话语级别)减去固定值β后得到的值设为新的基准值候选，当该基准值候选超过当前的基准值时，更新基准值。

基准值更新部4在更新了基准值的情况下，将更新后的基准值通知给始点判断部31和终点判断部32。始点判断部31使用更新后的基准值来更新始点帧。始点判断部31例如可以从输入声音信号的输入开始时的开头帧起，按照每个帧依次对输入声音级别与更新后的基准值进行比较，由此来重新设定始点帧。或者，始点判断部31也可以通过如下方式来确定始点帧，即：从基准值被更新的时刻的帧起，依次向前追溯，将输入声音级别不低于基准值的范围设为语音区间。另外，终点判断部32也使用更新后的基准值来确定终点帧。

始点判断部31向对照部7通知所确定或更新的始点帧。终点判断部32也向对照部7通知所确定的终点帧。

对照部7在从终点判断部32接收到终点帧的通知前，例如在最初被通知了始点帧时，从特征量计算部2接受特征量而开始对照处理。接着，之后又从始点判断部31接收到始点帧的通知时，根据所通知的始点帧来修正对照结果。然后，根据来自终点判断部32的终点帧的通知而结束对照。在针对终点帧以后的帧的特征量也进行了对照处理的情况下，例如丢弃终点帧以后的上述对照结果等来修正对照结果。

下面列举了对照部7根据更新后的始点帧来修正对照结果的例子。作为第1例，由于更新而使始点帧在时间上往后的情况下，针对更新后的始点帧以前的帧(即，语音区间之外的帧)，对照部7可以将其当作未进行过对照处理来进行处理。即，对照部7可以从对照结果中除去始点帧以前的对照结果，来确定识别单词串。此外，作为第2例，对照部7可以从识别候选中除去作为识别单词串候选的单词中的、与始点帧以前的帧相关的单词。作为第3例，对照部7可以与其它帧相比而减轻与始点帧以前的帧相关的音素分数、单词或单词串的分数的权重。

另外，对照部7例如可以追加如下处理来试图改善识别结果。通常，人们在说话开始时和结束时的发声与其它时候的发声相比，会不清楚且功率也较低。为了与此对应，对照部7可以通过对在始点帧与终点帧之间的区间(语音区间)前后追加了若干帧的区间进行对照处理，来避免将功率较低的话语开始时、结束时的话语误认为是语音区间之外而切除的情况。

此外，对照部7还可以在语音区间中追加始点帧与终点帧之间的区间(语音区间)的前后一定数量的帧，并对所追加的帧中的一部分进行对照处理。具体而言，对照部7对语音区间追加语音区间前后的一定数量的帧，并对所追加的帧中的一部分设定间除标志。此时，对照部7例如可以随着远离原来的语音区间而提高设定间除标志的帧的比例。对照部7不对设定了间除标志的帧进行对照处理。由此，进行反映了话语类似度/噪声类似度的对照。即，能够减轻由噪声类似度高的帧产生的恶劣影响。另外，这种语音区间两端的帧追加和间除标志的设定也可以由语音区间判断部3来进行。

以上，对语音识别***1的结构进行了说明，不过本发明不限于上述结构。例如还可以是这样的结构：语音区间判断部3除了向对照部7还向特征量计算部2通知语音区间的始点和终点，特征量计算部2只针对所通知的语音区间计算特征量而传给对照部7。由此，能够减轻特征量计算部2的负担。此外，在图1所示的例子中，声学模型存储部8和语言模型存储部9设置在语音识别***1内，但也可以设置在语音识别***1之外。

(语音识别***的动作例)

接下来，针对语音识别***1的动作例，还参照图2来进行说明。图2是表示输入声音信号的输入声音级别、基准值等的随时间变化的曲线图。在图2所示的曲线图中，纵轴表示声音级别，横轴表示时刻t。用粗线描绘的函数S(t)表示输入声音级别的时间转变，用粗虚线描绘的函数A(t)表示基准值的时间转变，用点划线描绘的函数B(t)表示推定话语级别的时间转变，用细虚线描绘的函数C(t)表示推定背景噪声级别的时间转变。

这里，作为一例，由函数S(t)表示的输入声音级别的时间转变是由声音级别计算部6计算出的各帧的帧功率来表示的。因此，虽然在图2中S(t)用连续函数来描绘，但实际上是每个帧的离散值的集合。即，在图2中，时刻t不是连续值而是与各帧对应的离散值。此外，由B(t)表示的推定话语级别是从时刻T0到时刻t之间的帧功率的最大值。该B(t)可以由基准值更新部4参照存储在声音级别缓存5中的各帧的帧功率来计算。

在图2所示的例子中，在时刻T0，开始进行输入声音信号的输入。从时刻T0到时刻T1，输入声音级别S(t)＜基准值A(t)。在时刻T1，输入声音级别S(t)超过基准值A(t)。之后的一段时间，S(t)＞A(t)。当S(t)＞A(t)持续了规定时间(这里设为γ)时，始点判断部31将成为S(t)＞A(t)的时刻T1判定为语音区间的始点。即，始点判断部31将时刻T1的帧设为始点帧。这里，γ是用于避免对短时间噪声的错误反应的等待时间，γ的值例如可以根据最短单词长度来确定。

在时刻T1～时刻T2，基准值A(t)是对推定背景噪声级别C(t)加上固定值α后得到的值(即，A(t)＝C(t)+α)。这里，推定背景噪声级别C(t)例如可以是基准值更新部4根据输入声音级别S(t)来计算出的，或者也可以是预先存储的值。

在本实施方式中，作为一例，推定背景噪声级别是根据非语音区间的输入声音级别来计算出的。作为该计算例，可以使用最近N个帧的平均值(移动平均)，也可以按照下式使用IIR滤波器来计算。

C(t)＝p*S(t)+(1-p)*S(t-1)(0＜p＜1)

从时刻T2的稍微之前起，输入声音级别S(t)开始急剧上升，B(t)也开始随之增加。并且在时刻T2，从推定话语级别B(t)减去固定值β后得到的值[B(t)-B]变得大于C(t)+α。在该情况下，基准值更新部4进行更新为基准值A(t)＝B(t)-β的处理。即，在推定话语级别B(t)增加并且[B(t)-β]＞[C(t)+α]的情况下，基准值更新部4进行更新为A(t)＝B(t)-β的处理。由此，基准值更新部4能够将基准值A(t)更新为与话语级别对应的适当的值。另外，在如时刻T2～时刻T4的情况下，基准值更新部4无需每当推定话语级别B(t)增加就对基准值A(t)进行更新，例如可以每隔一定时间地对基准值A(t)进行更新。

随着基准值更新部4对基准值A(t)进行更新，始点判断部31执行对语音区间的始点帧进行更新的处理。例如在时刻T4，始点判断部31以下述方式来更新始点。始点判断部31从时刻T0开始按照时间顺序，针对每个帧来比较输入声音级别S(t)和基准值A(T4)。可以在S(t)＞A(T4)的帧持续了规定时间(γ)的情况下，将S(t)超过A(T4)的时刻(即，时刻T3)的帧设为始点帧。此外，始点判断部31也可以从时刻T4开始按时间顺序进行追溯，按照每个帧来比较S(t)和A(T4)以确定始点帧。这样，语音区间的始点帧从时刻T1的帧更新为时刻T3的帧。在时刻T4以后推定话语级别B(t)未被更新，因此直至时刻T5基准值A(t)都保持恒定。

例如，在图2的时刻T1～时刻T3的区间中，由于回声这样的语音噪声而导致输入声音级别一时上升的情况下，时刻T1～时刻T3的区间实际上是噪声区间。在该情况下，虽然最初始点判断部31错误地将时刻T1判定为语音区间的始点，不过之后，随着在时刻T4基准值A(t)的更新，可以将错误判断的始点时刻(时刻T1)修正成正确的始点时刻(时刻T3)。

在时刻T5，输入声音级别S(T5)低于基准值A(T5)，之后S(t)＜A(t)。这样，在成为S(t)＜A(t)而该状态持续了规定时间(例如γ′)的情况下(＝时刻T6)，终点判断部32将时刻T5设为语音区间的终点。即，将时刻T5的帧判定为终点帧。这里，γ′是用于避免因促音或单词间停顿等说话中一时的无声而错误检测为话语终端的等待时间。像这样，终点判断部32对时刻t的输入声音级别S(t)与该时刻t的基准值A(t)进行比较来判断终点，因此能够以根据推定话语级别B(t)而适当更新后的基准值A(t)为基础来判断终点。结果，例如避免了错误地将话语结束后的噪声区间判定为语音区间的情况。

另外，基准值更新部4将语音区间终点的时刻T6以后的基准值A(t)设为基于推定背景噪声级别C(t)的值(即，A(t)＝C(t)+α)。由此，针对下次话语检测的基准值的初始值成为基于背景噪声级别的值。另外，基准值更新部4可以不在语音区间结束后清除到此为止的基准值，不是最大地符合推定背景噪声级别，而是继续使用最大输入声音级别A(t)＝B(t)-β来检测下一个语音区间的始点。此外，在图2所示的例子中，最大输入声音级别B(t)在语音区间结束后保持不变来检测下一个语音区间的始点，但是，例如也可以在每次语音区间结束时返回初始值。

(对照部7的动作例)

接下来，说明产生如图2所示的输入声音级别的变动时对照部7的动作例。在图2所示的例子中，从时刻T1开始经过γ后，从始点判断部31向对照部7通知时刻T1的帧作为始点帧。然后，在时刻T4后的始点更新处理之后，向对照部7通知时刻T3的帧作为始点帧。然后，在时刻T6后，向对照部7通知时刻T6的帧作为终点帧。

对照部7在被通知了时刻T1的帧作为始点帧时，开始对照处理。如上所述，对照部7例如将时刻T1以后的各帧的特征量与声学模型进行比较，按照每个帧来计算音素分数。根据该音素分数，参照语言模型来生成多个单词串候选，并计算各单词串候选的分数。

然后，在被通知了时刻T3的帧作为始点帧时，对照处理已经进行到时刻T3以后的帧的情况下(T4与T3之间的间隔越大越容易发生)，对照部7以时刻T3以后的帧的对照结果优先于时刻T3之前的帧的对照结果的方式，来修正对照结果。

这里说明几个修正对照结果的处理的具体例。首先，第1例是对照部7丢弃时刻T3之前的帧的对照结果的处理。例如，对照部7将时刻T3之前的帧的音素分数替换成规定的最差值(最低值)，重新计算利用该音素分数求出的单词分数。此时，对照部7可通过进行识别候选的筛选，来使单词分数不反映最差值的音素分数。由此，可以忽略时刻T3之前的帧的对照处理，针对时刻T3以后的帧进行对照处理。

第2例是对照部7从单词串候选中除去各单词串候选所包含的单词中的、与时刻T3之前的帧相关的单词的处理。例如，在某个单词仅由时刻T3之前的帧构成的情况下，对照部7可以将该单词从单词串候选中除去，在构成单词的帧的一定比例以上为时刻T3之前的帧的情况下，对照部7可以将该单词除去。另外，在使用N-gram作为语言模型的情况下，当除去单词候选时单词排列发生变化，因此该情况下对照部还重新计算语言分数。

第3例是对照部7对每个帧的音素分数乘以权重系数，使时刻T3以后的帧与时刻T3之前的帧的权重系数不同的处理。作为一例，说明由从t0帧到tn帧的帧构成的单词串候选W的分数Sc(W，t0，tn)如下式1所示的情况。另外，在下式1中，Sc(W[i])表示与单词串候选W中的第i个帧对应的音素分数。

[式1]

Sc (W, t 0, tn) = Σ_{i = t 0}^{tn} Sc (W [i])

这里，可以使用表示话语类似度/噪声类似度的权重系数weight[i](0≤weight[i]≤1)，通过下式2来计算单词串候选W的分数Sc(W，t0，tn)。

[式2]

Sc (W, t 0, tn) = Σ_{i = t 0}^{tn} {Sc (W [i]) \times weight [i]}

对照部7针对所有单词串候选使用上式2来计算分数，由此针对各单词串候选得到反映了每个帧的话语类似度/噪声类似度的分数。即，通过weight[i]来调整每个帧的分数。例如，对照部7针对比时刻T3以后的帧靠前的帧，将weight[i]设定成低于时刻T3的帧来进行计算。由此，能够降低语音区间之外的、被判定为噪声的可能性较高的帧对分数的影响度。

作为一例，在时刻T3的帧为第i＝t_T3个帧的情况下，对照部7可以进行这样的设定，即：当t0≤i＜t_T3-10时，weight[i]＝0；当t_T3-10≤i＜t_T3时，weight[i]＝0.7、当t_T3≤i＜tn时，weight[i]＝1。

此外，对照部7例如针对时刻T3前后一定数量的帧，设定成weight[i]随着从噪声区间侧向语音区间侧的移动而阶段性地增加。由此，针对难以区分是噪声区间还是语音区间的模糊区间，得到反映了模糊话语类似度/噪声类似度的分数。此外，可以通过将时刻T3前后一定数量的帧中的、至少一部分的帧的weight[i]设为0，来对这些帧进行间除。

第4例是对照部7对每个帧的音素分数附加惩罚值的处理，可以通过下式3来计算单词串候选W的分数Sc(W，t0，tn)。

[式3]

Sc (W, t 0, tn) = Σ_{i = t 0}^{tn} {Sc (W [i]) + penalty [i]}

这里，penalty[i]的正负取决于分数的取法。例如，在使用对数似然度作为音素分数的情况下，通常分数为负值，并且在负方向上值越大越是差的值，因此在时刻T3的帧为第i＝t_T3个帧的情况下，对照部7可以进行这样的设定，即：当t0≤i＜t_T3-10时，penalty[i]＝-∞(或者为规定的最低值)；当t_T3-10≤i＜t_T3时，penalty[i]＝-3；当t_T3≤i＜tn时，penalty[i]＝0。相反，在对分数使用了欧几里得距离这样的0以上的值的情况下，在施加惩罚值的区间中设为penalty[i]＞0即可。

以上说明了对照部7修正对照结果的处理的例子，但不限与此。另外，在时刻T3的帧被通知为始点帧时，如果对照处理尚未前进到时刻T3的帧，则对照部7可以丢弃到此为止的对照结果，从时刻T3的帧起重新开始对照处理。

在对照部7被通知了时刻T5的帧作为终点帧时，如果对照处理进行到时刻T5的帧以后的情况下，结束对照处理而修正对照结果。在对照处理尚未进行到时刻T5的帧以后的情况下，对照部7进行对照处理直到时刻T5的帧为止，然后结束。此时，对照部7也可以针对时刻T5以后的一定数量的帧进行对照处理。而且，例如，对照部7也可以同样地对语音区间终点附近的帧赋予如上所述的基于weight[i]的权重。

这样，对照部7根据语音区间的终点帧的通知而结束了对照处理后，输出各单词串候选的分数中分数最高的单词串候选作为识别结果。由此，针对根据输入声音级别进行了适当修正后的语音区间而得到识别结果。此外，在上述动作例中，对照部7在确定终点帧之前开始对照处理，在始点帧更新以及终点帧确定的时机修正对照结果。因此，与等到终点帧判断之后才开始对照处理的情况相比，能够缩短等待时间。

(推定话语级别B(t)的变形例)

在图2所示的例子中，由B(t)表示的推定话语级别是通过基准值更新部4计算帧功率的最大值来确定的。此外，下面列举基准值更新部4可计算的推定话语级别的例子。

(A)对输入声音信号实施了HPF、BPF、LPF、噪声消除、谱减(spectrum subtraction)和回声消除中的至少一个处理后求出的各帧功率的最大值

(B)各帧功率包络线的最大值

(C)对输入声音信号实施了HPF、BPF、LPF、噪声消除、谱减(spectrum subtraction)和回声消除中的至少一个处理后求出的各帧功率包络线最大值

基准值更新部4可以通过将上述(A)设为推定话语级别进行计算，来针对除去了噪声等无用成分的信号求出帧功率。此外，可以通过将上述(B)设为推定话语级别，来抑制由与话语重叠的不稳定噪声的影响导致的推定话语级别的急剧变化。

另外，上述(B)的包络线例如可以使用IIR滤波器来求取。下面说明基准值更新部4使用IIR滤波器来计算各帧功率包络线的最大值作为推定话语级别的例子。这里，将第i个帧的推定话语级别设为A[i]，将第i个帧的输入声音级别(帧功率)设为S[i]对于第i个帧，在S[i]≥A[i-1]的情况下，基准值更新部4设A[i]＝S[i]。即，如果输入声音级别大于等于到前一个帧为止的推定话语级别，即为最大值，则利用该值来更新推定话语级别。另一方面，在S[i]＜A[i-1]的情况下，基准值更新部4设A[i]＝k×S[i]+(1-k)×A[i-1]。这里，系数k为0＜k＜1。上式是一次IIR滤波器的表达式的一例。当系数k的值接近于0时，可减少对突发噪声的错误反应。

另外，在S[i]≥A[i-1]的情况下，也可以设A[i]＝k′×S[i]+(1-k′)×A[i-1]。当产生突发性噪声时，输入声音级别急剧上升，因此可以通过施加基于k′的平滑化处理来抑制错误反应。

(推定话语级别B(t)和基准值A(t)的其它变形例)

此外，基准值更新部4可以从始点判断部31判定的始点帧开始经过规定时间后，随着时间的经过而阶段性地降低推定话语级别。基准值更新部4也随之阶段性地降低基准值。由此，基准值与在话语结尾处语音功率降低的情况对应地降低。具体地讲，对于第i个帧，在S[i]≥A[i-1]的情况下(即，输入声音级别为最大值的情况)，基准值更新部4设A[i]＝S[i]，利用最大值进行更新。另一方面，在S[i]＜A[i-1]的情况下，基准值更新部4设A[i]＝m×S[i-1]。m是规定的系数。S[i]的值根据帧功率测量方法(原点取法)，存在S[i]≥0(0为最小值)的情况和S[i]≤0(0为最大值)的情况。在S[i]≥0的情况下设m＜1，在S[i]≤0的情况下设m＞1，由此推定话语级别A[i]随时间衰减。

另外，使推定话语级别阶段性地降低的方法不限于上述方法。例如，基准值更新部4可以从始点帧经过规定量的帧后，才开始使推定话语级别阶梯性降低的处理。此外，基准值更新部4也可以不使推定话语级别阶梯性降低，而是使基准值阶梯性降低。

此外，在根据推定话语级别确定的基准值低于根据推定背景噪声级别确定的基准值的情况下，即，如果B(t)-β＜C(t)+α，则可以停止使该推定话语级别降低的处理。

以上，对推定话语级别和基准值的求取方法的变形例进行了描述，但变形例不限于上述例子。例如，基准值更新部4可以使用振幅取代帧功率来同样地计算。

(语音区间判断部3的处理)

图3是示出用于实现参照上述图2所示的动作的语音区间判断部3的处理流程的流程图。在图3中，首先，语音区间判断部3将帧编号i初始化为“0”(Op10)。在本实施方式中，帧编号是表示各帧是从开头起第几个帧的编号。

初始化后，语音区间判断部3对i加1(Op11)，始点判断部31针对第i个帧判断是否出现了语音区间的始点(Op12)。始点判断部31例如可以根据从第(i-L)个帧到第i个帧的所有帧的输入声音级别是否都超过基准值来进行上述判断。这里，L为预定的常数。另外，从第(i-L)个到第i个帧的输入声音级别存储在声音级别缓存5中。

如果判定为未出现语音区间的始点(Op12中的“否”)，则对i加1(Op11)并重复判断处理(Op12)。当判定为出现了语音区间的始点时(Op12中的“是”)，始点判断部31向对照部7通知从第(i-L)个帧到第i个帧中的一个作为始点帧(Op13)。例如，始点判断部31可以将输入声音级别超过基准值的最初的帧(i-L)设为始点帧，将帧编号(i-L)通知给对照部7。

被通知了始点帧时，语音区间判断部3对帧编号i加1(Op14)，判断是否更新了基准值(Op15)。如上所述，基准值更新部4针对每个帧根据输入声音级别来计算基准值，因此每当帧编号增加1时，语音区间判断部3都要向基准值更新部4询问基准值以确认基准值有无更新。

在更新了基准值的情况下(Op15中的“是”)，始点判断部3根据更新后的基准值再次进行始点判断(Op16)，结果，如果更新了始点，则将更新后的始点帧通知给对照部7(Op17)。

在Op15中判定为基准值未更新(“否”)的情况下，终点判断部32判断是否出现了语音区间的终点(Op18)。终点判断部32例如可以通过从第(i-M)个帧到第i个帧的所有帧的输入声音级别是否都低于基准值来进行上述判断。这里，M为预定的常数。

在Op18中判定为未出现终点(“否”)的情况下，重复Op14～Op17的处理。由此，在检测到终点之前，根据基准值的变化来更新始点。

在判定为出现了终点时(Op18中的“是”)，将终点帧通知给对照部7。终点判断部32向对照部7通知从第(i-M)个帧到第i个帧中的一个作为终点帧(Op19)。例如，终点判断部32可以将输入声音级别低于基准值的最初的帧(i-M)设为终点帧，将帧编号(i-M)通知给对照部7。由此，向对照部7通知始点帧和终点帧。即，语音区间判断部3检测始点和终点，将该始点与终端之间的区间设为语音区间而通知给对照部7。

重复以上Op11～Op19的处理，直到语音识别***1判定为处理结束(Op20中的“是”)。例如，在没有输入声音信号的输入的情况下，判定为处理结束。

(对照部7的处理)

图4是示出用于实现参照上述图2所示的动作的对照部7的处理流程的流程图。在图4中，对照部7待机直到从始点判断部31接收到始点帧的通知(Op21)。当接收到始点帧的通知时，对照部7将帧编号i设为始点帧编号(Op22)。之后，对照部7进行考虑了帧编号i的帧的对照处理(Op23)，并对帧编号i加1(Op24)。如上所述，对照处理是将各帧的特征量与声学模型和语言模型进行对照的处理。

对照处理开始后，从始点判断部31接收到始点帧的通知的情况下(Op25中的“是”)，对照部7对到此为止的对照结果进行修正(Op26)。该修正处理的细节如上所述。对照部7重复Op23的对照处理和Op24～Op26的处理，直到接收到终点帧的通知(Op27中的“是”)。

从终点判断部32接收到终点帧j的通知的情况下(Op27中的“是”)，不进行第j个帧以后的对照处理，使用到此为止的对照结果来生成并输出识别结果(Op28)。由此，针对从始点帧到终点帧的帧进行对照处理。此外，在对照处理的过程中更新了始点帧的情况下，根据更新后的始点帧来修正对照处理的结果。

重复以上Op21～Op28的处理，直到语音识别***1判定为处理结束(Op29中的“是”)。例如在没有输入声音信号的输入的情况下等，判定为处理结束。

另外，图4所示的对照部7的处理只是一例而不限于此。例如，对照部7在Op22中设i＝始点帧编号，但这里也可以设i＝始点帧编号-常数N。由此，从始点帧往前N个帧的帧起，开始对照处理。此时，对照部7可以对始点帧之前的N个帧的处理结果(例如分数)乘以加权系数来降低权重。同样，对照部7也可以在收到终点帧的通知后，进行对照处理直至从终点帧往后规定数量的M个之后的帧。

此外，在图4所示的处理中，对照部7只对从始点帧到终点帧的帧进行对照处理，但是也可以与始点帧和终点帧无关而对所有的帧进行对照处理，根据被通知的始点帧和终点帧来修正其对照结果。例如，对照部7可以利用字定位技术等，不判断语音区间而计算输入声音信号中包含的单词串候选及其分数。对照部7可以根据被通知的始点帧和终点帧来修正通过这种方式计算出的单词串候选及其分数。该情况下的修正也可以按照与上述对照结果修正相同的方式来进行。

另外，在上述实施方式中，示出了由计算机来实施语音识别***1的例子，但是用于使计算机实现语音识别***1的功能的程序或存储该程序的存储介质也是本发明的一种实施方式。此外，语音识别***1还可以称为语音识别装置。

产业上的可利用性

本发明可用作能够进行基于适当语音区间的语音识别并抑制响应时间延迟的语音识别***。

Claims

1.一种语音识别***，该语音识别***具有：

特征量计算部，其将输入的声音信号转换成每个帧的特征量；

声音级别计算部，其计算由各帧的所述声音信号的功率或其对数值表示的输入声音级别、或者由各帧的所述声音信号的振幅或其对数值表示的输入声音级别；

对照部，其接受特征量计算部计算出的各帧的特征量，与预先存储的声学模型和语言模型进行对照，并根据相应对照结果来确定要输出的识别单词串，所述声学模型是对音素的特征量的信息进行建模而得的数据，所述语言模型是关于识别单词的数据；

始点判断部，其通过将所述声音级别计算部计算出的所述输入声音级别与基准值进行比较，来确定作为语音区间始点的始点帧并通知给所述对照部；

终点判断部，其通过将所述声音级别计算部计算出的所述输入声音级别与基准值进行比较，来确定作为语音区间终点的终点帧并通知给所述对照部；以及

基准值更新部，其根据所述始点帧以后的输入声音级别的变动来更新所述基准值，

所述始点判断部在所述基准值更新部更新了基准值时，使用该更新后的基准值来更新始点帧并通知给所述对照部，

所述对照部在接受了特征量计算部计算出的各帧的特征量而开始对照后，在从所述终点判断部接收到终点帧的通知之前，从所述始点判断部接收到始点帧的通知的情况下，根据所通知的始点帧来修正所述对照结果。

2.根据权利要求1所述的语音识别***，其特征在于，

所述对照部只根据从所述始点判断部通知的所述始点帧到所述终点判断部通知的所述终点帧的语音区间中包含的帧的特征量的对照结果，来确定所述识别单词串。

3.根据权利要求1所述的语音识别***，其特征在于，

所述对照部通过对各帧的特征量的对照结果进行加权来修正所述对照结果，

所述对照部以如下方式进行加权：使得未包含在从所述始点判断部通知的所述始点帧到所述终点判断部通知的所述终点帧的语音区间中的帧的特征量的对照结果的权重小于从所述始点帧到所述终点帧的语音区间内的帧的特征量的对照结果的权重。

4.根据权利要求1所述的语音识别***，其特征在于，

所述对照部除去未处于从所述始点判断部通知的所述始点帧到所述终点判断部通知的所述终点帧的区间中的帧所包含的单词，来确定所述要输出的识别单词串。

5.根据权利要求1所述的语音识别***，其特征在于，

所述基准值更新部计算所述始点帧以后的帧的最大输入声音级别，并根据该最大输入声音级别来更新所述基准值。

6.根据权利要求1所述的语音识别***，其特征在于，

所述基准值更新部随着时间的经过而阶段性地降低所述基准值。

7.根据权利要求5所述的语音识别***，其特征在于，

所述基准值更新部随着时间的经过而阶段性地降低计算出的所述最大输入声音级别。

8.一种语音识别方法，该语音识别方法包括以下步骤：

特征量计算步骤，将输入的声音信号转换成每个帧的特征量；

声音级别计算步骤，计算由各帧的所述声音信号的功率或振幅表示的输入声音级别；

对照步骤，接受在特征量计算步骤中计算出的各帧的特征量，与预先存储的声学模型和语言模型进行对照，并根据相应对照结果来输出识别单词串，所述声学模型是对音素的特征量的信息进行建模而得的数据，所述语言模型是关于识别单词的数据；

始点判断步骤，通过将所述声音级别计算步骤中计算出的所述输入声音级别与基准值进行比较，来确定作为语音区间始点的始点帧；

终点判断步骤，通过将所述声音级别计算步骤中计算出的所述输入声音级别与基准值进行比较，来确定作为语音区间终点的终点帧；以及

基准值更新步骤，根据所述始点帧以后的输入声音级别的变动来更新所述基准值，

该语音识别方法的特征在于，

在所述始点判断步骤中，当在所述基准值更新步骤中更新了基准值时，使用该更新后的基准值来更新始点帧，

在所述对照步骤中，接受了特征量计算步骤中计算出的各帧的特征量而开始对照后，在所述终点判断步骤中确定终点帧之前，在所述始点判断步骤中更新了始点帧的情况下，根据更新后的始点帧来修正所述对照结果。