CN106373561B

CN106373561B - 声学得分计算和语音识别的设备和方法

Info

Publication number: CN106373561B
Application number: CN201610584600.6A
Authority: CN
Inventors: 宋仁哲; 崔荣相
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2015-07-24
Filing date: 2016-07-22
Publication date: 2021-11-30
Anticipated expiration: 2036-07-22
Also published as: JP6837298B2; US20170025119A1; EP3121810B1; US10714077B2; CN106373561A; KR102413692B1; EP3121810A1; KR20170011905A; JP2017027044A

Abstract

提供一种声学得分计算和语音识别的设备和方法。提供一种用于计算声学得分的设备、计算声学得分的方法、用于语音识别的设备、语音识别方法以及包括其的电子装置。用于计算声学得分的设备包括：预处理器，被配置为顺序地将音频帧提取到窗口中；以及得分计算器，被配置为利用基于深度神经网络(DNN)的声学模型来计算窗口的声学得分。

Description

声学得分计算和语音识别的设备和方法

本申请要求于2015年7月24日提交到韩国知识产权局的韩国专利申请第10-2015-0105358号的优先权，其完整公开通过出于所有目的引用被合并于此。

技术领域

以下描述涉及语音识别技术，并且涉及一种用于执行使用深度神经网络的递增式语音识别(incremental speech recognition)的方法和设备。

背景技术

语音识别引擎通常包括解码器、声学模型和语言模型。解码器使用声学模型和语言模型来执行输入音频信号的解码。例如，响应于接收到输入音频信号，语音识别引擎可使用声学模型来计算输入音频信号的各个帧的发音概率，语言模型可提供关于特定词或句子的使用频率的信息。解码器基于声学模型和语言模型所提供的信息来计算并输出输入音频信号与词或句子的相似度，以便将输入音频信号转换为序列或词。高斯混合模型常常用作声学模型；然而，基于深度神经网络(DNN)的声学模型近来已被引入并且已展现出显著提高语音识别性能的潜能。例如，双向递归深度神经网络(BRDNN)适合于对随时间改变的数据(诸如语音)进行建模。

然而，BRDNN通过考虑双向信息(即，关于先前帧和后续帧的信息)来计算音频信号的各个帧的发音概率。因此，当BRDNN用于语音识别时，提供整个语音作为输入音频信号。因此，BRDNN不适合于在用户发表语音的同时递增地输出语音识别结果的递增式解码。

发明内容

提供此发明内容以按照简化的形式介绍在下面的具体实施方式中进一步描述的概念选择。此发明内容并非意在识别要求保护的主题的关键特征或必要特征，也非意在用于帮助确定要求保护的主题的范围。

在一个一般方面，一种用于计算声学得分的设备包括：预处理器，被配置为顺序地将音频帧提取到窗口中；以及得分计算器，被配置为利用基于深度神经网络(DNN)的声学模型来计算窗口的声学得分。

DNN可以是双向递归深度神经网络(BRDNN)。

设备的所述一般方面还可包括填充增加器，其被配置为将填充帧增加到窗口的两侧。

被增加到窗口的填充帧可与和所述窗口相邻的窗口的一个或更多个帧重叠。

响应于计算窗口的声学得分，所述设备可利用统计方法基于相邻窗口的填充帧的先前计算的声学得分来重新计算窗口的重叠的帧的声学得分。

所述统计方法可包括计算算术平均和几何平均中的至少一个。

窗口的大小或者填充帧的大小可基于语音识别应用领域以及随所述设备一起应用的装置的计算性能能力中的一个或更多个来确定。

在另一一般方面，一种计算声学得分的方法涉及：顺序地将音频帧提取到窗口中；以及利用基于深度神经网络(DNN)的声学模型来计算窗口的声学得分。

DNN可以是双向递归深度神经网络(BRDNN)。

方法的所述一般方面还可涉及将填充帧增加到窗口的两侧。

方法的所述一般方面还可涉及利用统计方法基于相邻窗口的填充帧的先前计算的声学得分来重新计算窗口的重叠的帧的声学得分。

统计方法可涉及算术平均和几何平均中的至少一个。

窗口的大小或者填充帧的大小可基于语音识别应用领域以及执行所述方法的装置的计算性能能力中的一个或更多个来确定。

在另一一般方面，一种语音识别设备包括：预处理器，被配置为在帧被连续地输入的同时将音频信号的帧提取到窗口中；声学模型应用器，被配置为利用基于深度神经网络(DNN)的声学模型输出窗口的声学得分；以及解码器，被配置为基于所输出的窗口的声学得分来输出直至当前窗口获得的递增式识别结果。

设备的所述一般方面还可包括被配置为利用语言模型来输出词/句子得分的语言模型应用器，其中，解码器进一步基于所输出的词/句子得分来输出直至当前窗口获得的递增式识别结果。

响应于满足预定标准，解码器可输出直至当前窗口获得的递增式识别结果作为音频信号的最终识别结果。

DNN可以是双向递归深度神经网络(BRDNN)。

语言模型可基于n元语法或神经网络。

声学模型应用器可将填充帧增加到窗口的两侧，并且可计算增加了填充帧的窗口的各个帧的声学得分，其中，可通过考虑与所述窗口相邻的窗口的填充帧的先前计算的声学得分来计算所述窗口的声学得分。

在另一一般方面，一种语音识别方法涉及：在帧被连续地输入的同时在窗口中提取待识别的音频信号的帧；利用基于深度神经网络(DNN)的声学模型输出窗口的声学得分；以及基于所输出的窗口的声学得分来输出直至当前窗口获得的递增式识别结果。

方法的所述一般方面还可涉及利用语言模型来输出词/句子得分，其中，输出递增式识别结果的步骤可涉及进一步基于所输出的词/句子得分来输出直至当前窗口获得的递增式识别结果。

方法的所述一般方面还可涉及：确定是否满足预定标准；以及响应于确定满足所述预定标准，输出直至当前窗口获得的递增式识别结果作为音频信号的最终识别结果。

方法的所述一般方面还可涉及在窗口的两侧增加填充帧，其中，输出声学得分的步骤可涉及通过考虑与所述窗口相邻的窗口的填充帧的先前计算的声学得分来计算增加了填充帧的所述窗口的各个帧的声学得分。

在另一一般方面，一种电子装置可包括：语音输入装置，被配置为从用户接收音频信号；语音识别器，被配置为通过在音频信号被输入的同时利用基于深度神经网络(DNN)的声学模型输出在窗口中的输入音频信号的帧的声学得分并且通过递增地将所输出的窗口的声学得分解码来识别用户的音频信号；以及处理器，被配置为基于识别结果执行预定操作。

所述操作可包括以语音或文本格式输出识别结果、将识别结果翻译成另一语言以及处理用于控制电子装置的命令中的至少一个。

在另一一般方面，一种用于计算声学得分的设备包括：一个或更多个处理器，被配置为将音频帧顺序地提取到窗口中；将填充帧增加到窗口的一侧或更多侧；以及利用基于深度神经网络(DNN)的声学模型来计算窗口的声学得分。

设备的所述一般方面还可包括获得输入音频信号的换能器，处理器从输入的音频信号提取音频帧。

处理器可被配置为递增地将窗口的声学得分解码。

在另一一般方面，一种语音识别方法涉及：利用一个或更多个处理器将音频信号的帧提取到窗口中；利用与相邻窗口的一个或更多个帧对应的填充帧来填充窗口；以及计算窗口的声学得分以递增地识别音频信号。

计算声学得分的步骤可涉及将窗口输入至基于深度神经网络(DNN)的声学模型中。

基于DNN的声学模型可包括处理器和非暂时性存储器。

方法的所述一般方面还可涉及使用换能器来获得音频信号。

其它特征和方面将从下面的具体实施方式、附图和权利要求而显而易见。

附图说明

图1是示出用于计算声学得分的设备的示例的框图。

图2是示出用于计算声学得分的设备的另一示例的框图。

图3是说明基于双向递归深度神经网络(BRDNN)的声学模型的操作的示图。

图4和图5是说明基于BRDNN的声学模型的示例的操作的示图。

图6是示出计算声学得分的方法的示例的流程图。

图7是示出计算声学得分的方法的示例的流程图。

图8是示出语音识别设备的示例的框图。

图9是示出语音识别方法的示例的流程图。

图10是示出语音识别技术所应用于的电子装置的示例的框图。

图11是示出由图10所示的电子装置执行的语音识别操作的示例的流程图。

贯穿附图和具体实施方式，相同的标号指代相同的元件。附图可能不按比例，为了清晰、说明和方便起见，附图中的元件的相对尺寸、比例和描绘可能被夸大。

具体实施方式

提供以下具体实施方式以帮助读者全面理解本文中所描述的方法、设备和/或***。然而，对于本领域技术人员而言，本文中所描述的方法、设备和/或***的各种改变、修改和等同物将是显而易见的。本文所描述的操作的顺序仅为示例，并不限于本文所阐述的那些，而是可如对本领域普通技术人员而言将显而易见的那样改变，除非操作必须按照特定顺序发生。另外，为了清晰和简明，本领域普通技术人员熟知的功能和构造的描述可省略。

本文所描述的特征可按照不同的形式实施，而不应解释为限于本文所描述的示例。相反，提供本文所描述的示例以使得本公开将彻底和完整，并且将本公开的完整范围传达给本领域普通技术人员。

以下，将参照附图描述用于计算声学得分的设备和方法、用于语音识别的设备和方法以及电子装置的各种示例。

图1是示出用于计算声学得分的设备的示例的框图。

参照图1，用于计算声学得分的设备100包括预处理器110和得分计算器120。预处理器110和得分计算器120可利用一个或更多个电路、处理器、存储器或其组合来实现。

预处理器110将待识别的音频信号转换为音频帧，并且将音频帧提取到窗口中。在一个示例中，预处理器110通过将音频帧划分成连续的窗口来顺序地提取音频帧，以使得音频帧可彼此不重叠。预处理过程可涉及从音频信号提取特定特性并且将音频信号转换为音频帧。音频帧可包括一个或更多个音素(是在语言中有意义的最小声音单位)。

例如，假设待识别的音频信号的音频帧的数量为N，窗口的预定大小为K，则预处理器110等待直至第一帧至第k帧被输入。在第k帧被输入之后，预处理器110将第一帧至第k帧输出到第一窗口(W1)中。随后，预处理器110将第k+1帧至第2k帧输出到第二窗口(W2)中，并且继续以k个帧为单位提取窗口，直至最终帧被输入。

窗口的大小可基于语音识别的应用领域、所应用的装置的计算性能能力等来确定，但是不限于此，可考虑其它各种标准。窗口的数量可被确定为小于整个音频信号中存在的帧的数量。

例如，如果语音识别用于翻译成另一语言，则可能更重要的是准确地(而不是快速地)提供语音识别的结果。因此，窗口的大小可被设定为相对较大，从而增加准确度。

在另一示例中，如果语音识别用于处理给予电子装置(诸如电视机)的口头命令，则与这样的电子装置有关的命令的数量有限。因此，可能更重要的是快速地处理命令，使得窗口的大小可被设定为相对较小，从而增加语音识别的速度。

另外，窗口的大小可通过考虑语音识别技术所应用于的装置的计算性能能力来确定。所述装置可以是(但不限于)电视机、导航装置、车载电子装置、智能电话、平板PC、智能手表、台式计算机、膝上型计算机等。

窗口的大小可根据各种标准来预定，或者预处理器110可在语音识别的过程中通过收集由用户确定的标准、计算性能能力等来动态地确定或调节窗口的大小。

得分计算器120可使用深度神经网络(DNN)声学模型来计算各个窗口的声学得分。DNN声学模型可以是BRDNN。声学得分可包括音素、发音、语素、音节或词的概率或状态信息。然而，声学得分不限于此，可包括词法上可划分的所有可能的语言单位的概率或状态信息。以下，为了说明方便，将使用声学得分中的发音得分(即，发音的概率)作为示例。

每当通过预处理器110提取窗口时，得分计算器120将包括在所提取的窗口中的帧输入至声学模型，并且计算包括在所提取的窗口中的各个帧的发音得分。这样，得分计算器120计算由预处理器110提取的各个窗口的发音得分。根据示例，发音得分可包括发音(例如，A、E、I、O和U)的概率或者特定帧的特定信息。

在此示例中，通过将各个窗口的音频帧输入至声学模型中(而非将整个音频帧输入至声学模型中)来计算发音概率，使得语音识别设备可在用户输入语音的同时递增地将用户的语音解码，从而实时地返回语音识别的结果。

图2是示出用于计算声学得分的设备的另一示例的框图。

参照图2，用于计算声学得分的设备200包括预处理器210、得分计算器220和填充增加器230。预处理器210、得分计算器220和填充增加器230可利用一个或更多个电路、处理器、存储器或其组合来实现。预处理器210和填充增加器230根据功能来划分；在示例中，预处理器210可完整地或部分地执行填充增加器230的功能。预处理器210和得分计算器220与图1所示的用于计算声学得分的设备100的预处理器210和得分计算器220相同。因此，为了简明，将省略对预处理器210和得分计算器220的重复描述。

在此示例中，预处理器210将待识别的音频信号转换为音频帧，并且通过划分音频信号来顺序地将音频帧提取到连续的窗口中，以使得音频帧可彼此不重叠。窗口的大小可基于语音识别的应用领域、所应用的装置的计算性能能力等来确定，但是不限于此；窗口的大小可通过考虑其它各种标准来确定。音频信号中的窗口的数量可被设定为小于音频信号中的帧的数量。窗口可包括多个帧。

在语音识别用于诸如翻译的应用中的示例中，语音识别的准确度较重要。因此，窗口的大小可被设定为相对较大。在语音识别用于处理有限数量的命令的嵌入式环境中的另一示例中，语音识别的速度更重要。因此，窗口的大小可可被设定为相对较小。

预处理器210可基于窗口的预定大小从音频信号提取窗口，或者可通过基于上述标准动态地确定窗口的大小来提取窗口。

在此示例中，在通过预处理器210提取窗口之后，填充增加器230在所提取的窗口的两侧增加填充帧。

在基于BRDNN的一般声学模型中，在计算特定帧的发音概率时考虑双向帧信息。在窗口被分别处理的示例中，包括在特定窗口中的帧中靠近左端和右端的帧的发音得分可能由于靠近帧的左端和右端的信息不足而不准确。

因此，填充增加器220可增加与当前窗口相邻的先前窗口和后续窗口的一些帧作为当前窗口的填充帧。所增加的填充帧用于在计算包括在当前窗口中的帧的发音概率时提供附加信息。在此示例中，填充大小(即，要增加到当前窗口的填充帧的数量)可根据诸如语音识别的应用领域、所应用的装置的计算性能能力等的各种标准来确定。

例如，如果窗口大小(k)为4，左填充大小(LP)为2，并且右填充大小(RP)为2，则两个帧被增加到所提取的当前窗口的四个帧的两侧，使得总共八个帧可以是要被输入到得分计算器220的窗口单位。然而，在当前窗口为第一窗口(W1)的情况下，增加到其左侧的填充帧的数量为0，在当前窗口为最后的窗口的情况下，增加到其右侧的填充帧的数量可为从0至2。

即，响应于预处理器210提取帧1至4作为第一窗口(W1)，填充增加器230将随后输入的帧5和6增加到第一窗口(W1)的右侧。在此示例中，预处理器220提取帧5至8作为第二窗口(W2)，并且填充增加器230将包括在第一窗口(W1)中并与第二窗口(W2)相邻的帧3和4增加到第二窗口(W2)的左侧，并且将随后输入的帧9和10增加到第二窗口(W2)的右侧。预处理器210和填充增加器230重复这一过程直至最后音频帧被输入。

得分计算器220可利用深度神经网络(DNN)声学模型来计算窗口的发音得分。在此示例中，DNN声学模型可以是双向递归深度神经网络(BRDNN)声学模型。

另外，在预处理器210提取窗口并且填充增加器230将填充帧增加到提取的窗口之后，得分计算器220将增加了填充帧的当前窗口输入到声学模型中，以计算包括在窗口中的各个帧和填充帧的发音得分。

在一个示例中，在利用声学模型计算包括在当前窗口中的各个帧和填充帧的发音得分之后，得分计算器220确定包括在当前窗口中的一些帧和相邻窗口的填充帧是否彼此重叠。响应于确定存在重叠的帧，得分计算器220可基于相邻窗口的重叠的填充帧的先前计算的发音得分来重新计算当前窗口的一些帧的发音得分。

例如，假设当前窗口的一些帧(F)的具体发音得分为a，相邻窗口的填充帧(F)的具体发音得分为b，则得分计算器220可通过利用下式1获得算术平均来计算当前窗口的帧(F)的最终得分s(f)。

[式1]

s(f)＝(a+b)/2

在另一示例中，得分计算器220可通过利用下式2获得几何平均来计算当前窗口的一些帧(F)的最终得分s(f)。

[式2]

s(f)＝(a*b)^(1/2)

在另一示例中，得分计算器220可通过对a和b应用不同的加权值并且通过利用下式3或4获得算术平均或几何平均来计算当前窗口的一些帧(F)的最终得分s(f)。

[式3]

s(f)＝(1-α)*α+α*b

[式4]

s(f)＝a^(1-α)*b^α

如上所述，通过将针对两个连续的窗口计算两次的发音得分组合来计算最终得分，使得可更准确地计算得分。上面的式1至4仅是示例，其它统计方法也可用于计算重叠的帧的得分。

图3是说明基于双向递归深度神经网络(BRDNN)的一般声学模型的操作的示图。图4和图5是说明基于BRDNN的声学模型的示例的示图。

参照图3，在基于BRDNN的声学模型中，整个音频信号被一次输入至声学模型，从整个音频信号提取的所有音频帧被输入至声学模型的输入节点。然后，BRDNN声学模型输出所有音频帧的发音(例如：A、E、I、O、U)的概率。

参照图4和图5所示的BRDNN声学模型的示例，用于计算声学得分的设备200在音频信号流被输入的同时将各个窗口的音频帧输入至BRDNN声学模型的输入节点中，BRDNN声学模型在音频信号流被输入至设备200的同时将各个窗口的发音概率顺序地输出。

在图4和图5所示的示例中，假设窗口大小对应于4个帧，填充大小对应于2个帧，音频帧按照帧1、2、3、4、…、18被顺序地接收的时间顺序从左至右输入。

参照图4，在音频信号被输入的同时，预处理器210等待直至与窗口大小对应的四个音频帧被输入。在接收到帧1至4之后，预处理器210提取第一窗口(W1)。在此示例中，在帧5和6被输入之后，填充增加器230将帧5和6作为填充帧增加到第一窗口(W1)的右侧。

响应于填充帧被增加到第一窗口(W1)，得分计算器220将第一窗口(W1)的各个帧(即，帧1至6)输入至声学模型中，并且输出发音概率。

随后，响应于帧5至8被输入，预处理器210提取第二窗口(W2)。在此示例中，当提取第二窗口(W2)时，填充增加器230将包括在第一窗口(W1)中的帧3和4作为填充帧增加到第二窗口(W2)的左侧，然后将随后输入的帧9和10作为填充帧增加到第二窗口(W2)的右侧。

类似地，响应于填充帧被增加到第二窗口(W2)，得分计算器220将第二窗口(W2)的各个帧(即，帧3至10)输入至声学模型中，并且输出关于第二窗口(W2)的发音概率。

预处理器210、填充增加器230和得分计算器220在音频信号被连续地输入的同时通过重复上述过程来计算各个窗口的发音得分。

图5示出通过将第二窗口(W2)和第三窗口(W3)顺序地输入至声学模型中来计算发音得分的方法的示例。在此示例中，诸如BRDNN声学模型的声学模型在计算包括在第二窗口(W2)中的帧的得分时使用左填充帧和右填充帧(LP2和RP2)，在计算包括在第三窗口(W3)中的帧的得分时使用左填充帧和右填充帧(LP3和RP3)。

如上所述，第三窗口(W3)的某些帧与第二窗口(W2)的右填充帧(RP2)重叠。在此示例中，得分计算器220利用上述统计方法来重新计算第二窗口(W2)的右填充帧(RP2)的发音得分和包括在第三窗口(W3)中的帧的发音得分，计算的结果可被输出作为包括在第三窗口(W3)中的重叠的帧的最终发音得分。

图6是示出计算声学得分的方法的示例的流程图。

图6所示的示例可由图1所示的用于计算声学得分的设备100执行，其可如上所述解释，将省略其详细描述。

首先，用于计算声学得分的设备100将待识别的音频信号转换为音频帧，并且在310中按照顺序方式提取窗口中的音频帧，使得音频帧可彼此不重叠。窗口大小可根据包括语音识别的应用领域、所应用的装置的计算性能能力等的各种标准来确定。另选地，窗口大小可被预定，或者在语音识别的过程中动态地确定或调节。

然后，用于计算声学得分的设备100可在320中利用DNN声学模型来计算窗口的发音得分，其中DNN声学模型可以是BRDNN声学模型。

每当窗口被提取时，用于计算声学得分的设备100可将所提取的窗口顺序地输入至声学模型中以计算各个窗口的发音得分。

随后，用于计算声学得分的设备100可在330中输出在320中计算的各个窗口的发音得分，以使得语音识别设备可执行递增式语音识别(incremental speechrecognition)。

然后，当在340中存在剩余等待输入的附加音频帧时，310中的提取窗口的操作以及后续操作被重复。在音频帧的输入完成且在340中没有附加音频帧剩下等待输入之后，得分的计算结束。

图7是示出计算声学得分的方法的另一示例的流程图。

图7所示的计算声学得分的方法可由用于计算声学得分的设备200执行。上面参照图2至图5描述了设备200以及由设备200执行的操作。因此，为了简明，将省略其重复的描述。

用于计算声学得分的设备200将待识别的音频信号转换为音频帧，并且在410中通过将音频帧划分为连续的窗口来将音频帧提取到窗口中，以使得音频帧彼此不重叠。窗口大小可根据包括语音识别的应用领域、所应用的装置的计算性能能力等的各种标准来确定，并且窗口的大小可被确定为小于整个音频信号的帧的数量。

然后，在窗口被提取之后，在420中将填充帧增加到所提取的当前窗口的两侧。在此示例中，与当前窗口相邻的先前窗口和后续窗口的一些帧可被增加作为当前窗口的填充帧。所增加的填充帧可用于在计算包括在当前窗口中的帧的发音概率时提供附加信息。填充大小可根据包括语音识别的应用领域、所应用的装置的计算性能能力等的各种标准来确定。

接下来，在430中利用DNN声学模型计算顺序地提取的窗口的各个帧的发音得分。在此示例中，DNN声学模型可以是BRDNN声学模型。

在利用声学模型计算当前窗口的各个帧和填充帧的发音得分之后，可在440中确定当前窗口中的一些帧是否与相邻窗口的填充帧重叠。

然后，在440中做出关于是否存在重叠的帧的确定。响应于确定存在重叠的帧，可在450中基于相邻窗口的重叠的填充帧的先前计算的发音得分重新计算当前窗口的一些帧的发音得分。

如上所述，可通过获得两个窗口的重叠的帧的发音得分的算术平均或几何平均来计算最终得分。另外，如果期望的话，可通过将不同的加权值应用于所计算的重叠的帧的发音得分并通过获得算术平均或几何平均来计算最终得分。

随后，可在460中输出所计算的提取的当前窗口的发音得分，以使得语音识别设备可在可继续提供音频信号流的同时执行递增式语音识别。

然后，如果在470中继续输入音频信号，仍有音频帧留下等待处理，则重复410中的提取音频帧的窗口的操作。如果没有音频帧待处理，则计算声学得分的处理完成。

图8是示出语音识别设备的另一示例的框图。

语音识别设备500可根据图1和图2所示的用于计算声学得分的设备100和设备200中的任一个来配置。语音识别设备500可包括硬件和软件组件二者。

参照图8，语音识别设备500包括预处理器510、声学模型应用器520、语言模型应用器530和解码器540。

响应于在待识别的音频信号的帧被连续地输入的同时接收到与窗口大小对应的一组帧，预处理器510提取窗口。

声学模型应用器520将预处理器510所提取的窗口输入至DNN声学模型(诸如BRDNN模型)中以计算窗口的各个帧的发音得分。

根据一个示例，预处理器510可在所提取的窗口的两侧增加填充帧，声学模型应用器520可将增加了填充帧的窗口,输入至DNN声学模型中，以计算窗口的各个帧和填充帧的发音得分，其中DNN声学模型可以是BRDNN声学模型。

随着填充帧被增加到窗口，当前窗口的一些帧可与相邻窗口(例如，恰好在当前窗口之前提取的窗口)的右填充帧重叠。在此示例中，声学模型应用器520可利用统计方法基于先前窗口的右填充帧的发音得分来重新计算当前窗口的重叠的帧的发音得分。

语言模型应用器530可利用语言模型输出关于词或句子上的信息的得分(诸如关于词或句子的实际使用频率的得分)，其中语言模型可以基于n元语法(n-gram)或神经网络。

解码器540可利用各种解码方法将各个窗口的发音得分输出和语言模型应用器530的输出结果递增地解码，并且可输出当前窗口的递增式识别结果。

例如，响应于在音频帧被输入的同时第一窗口的发音得分被输出，通过考虑第一窗口的发音得分以及语言模型的词或句子得分来输出第一窗口的识别结果。然后，响应于第二窗口的发音得分被输出，通过考虑第二窗口的发音得分和语言模型的词或句子得分来输出第二窗口的识别结果。这样，在针对新的窗口输出发音得分之后，可通过递增式解码来输出识别结果。

解码器540检查用于输出最终识别结果的预定标准，如果满足所述预定标准，则解码器540可输出直至当前窗口获得的递增式识别结果，作为待识别的整个音频信号的最终识别结果。在此示例中，所述预定标准可以是窗口的数量或者识别结果的阈值。然而，以上标准仅是示例，标准不限于此。

例如，如果窗口的数量被确定为相对小的数量(例如，2个)以使得可快速地提供识别结果，则解码器540可输出直至第二窗口获得的递增式识别结果作为最终识别结果。

另外，在对直至第二窗口获得的发音得分和语言模型的词/句子得分进行解码时，如果使用特定词/句子的概率大于预定阈值(例如，70％)，则解码器540可输出直至第二窗口获得的识别结果作为最终识别结果。

在此示例中，可利用声学模型基于BRDNN准确地执行语音识别，并且可在整个语音被输入之前针对语音的片段递增地获得最终识别结果。

图9是示出语音识别方法的示例的流程图。

图9所示的语音识别方法可由图8所示的语音识别设备500执行。

首先，在610中，在待识别的音频信号的帧被连续地输入的同时，语音识别设备500提取窗口中的输入音频信号的帧。

然后，在620中，语音识别设备500可将窗口输入至DNN声学模型(诸如BRDNN声学模型)中以计算并输出窗口的各个帧的发音得分。

在一个实施方式中，语音识别设备500可在窗口的两侧增加填充帧并且可将增加了填充帧的窗口输入至DNN声学模型中，以计算各个帧和填充帧的发音得分。随着填充帧被增加到窗口，当前窗口的一些帧可与相邻窗口的填充帧重叠。在此示例中，可利用统计方法基于恰好在当前窗口之前的窗口的填充帧的先前计算的发音得分来重新计算当前窗口的重叠的帧的发音得分。

随后，语音识别设备500可在630中利用语言模型来输出词/句子得分，其中语言模型可以基于n元语法或神经网络。

然后，语音识别设备500可在640中利用各种解码方法将各个窗口的发音得分和语言模型应用器530的输出结果递增地解码，以输出直至当前窗口获得的递增式识别结果。

接下来，语音识别设备500在650中检查预定标准。如果满足所述预定标准，则语音识别设备500可在660中输出直至当前窗口获得的递增式识别结果，作为整个音频信号的最终识别结果，其中，所述预定标准可以是窗口的数量或者识别结果的阈值，但是不限于此。

在650中检查所述标准时，如果不满足所述预定标准，则执行610中的提取音频帧的后续窗口的操作。

根据词示例，电子装置700可以是(但不限于)电视机、导航装置、车载电子装置、智能电话、平板PC、智能手表、台式计算机、膝上型计算机等。

参照图10，电子装置700包括语音输入装置710、语音识别器720和处理器730。语音识别器720可以是图8所示的语音识别设备500并且以硬件或软件的形式制造。在此示例中，语音识别器720可如上在上述实施方式中所述地解释，使得其重复的描述将被省略。

在此示例中，语音输入装置710接收音频信号。例如，语音输入装置710可通过电子装置700的换能器或麦克风等来接收用户的语音。参照图10，用户的音频信号可与要被翻译成另一语言的句子或者用于控制电视机、驾驶车辆等的命令有关。

语音接收器720执行预处理过程，其中用户所输入的模拟音频信号被转换为数字信号，并且该信号被划分成多个音频帧。另外，音频帧被划分成窗口以被输入至声学模型。语音识别器720还可将填充帧增加到窗口的两侧，并且可将增加了填充帧的窗口的所有帧输入到声学模型中以计算各个帧的发音得分。当填充帧被增加到窗口时，窗口所增加的填充帧可与相邻窗口的一些帧重叠。在这种情况下，可利用各种统计方法重新计算重叠的帧的发音得分。另外，语音识别器720可利用语言模型来输出词/句子得分。

语音识别器720可递增地将各个窗口的声学模型和语言模型的输出结果解码，并且可输出直至当前窗口获得的递增式识别结果。如果满足预定标准，则语音识别器720可将直至当前窗口获得的识别结果输出作为整个音频信号的最终识别结果。

处理器730可以是控制电子设备700的功能的电子设备700的处理器。处理器730可使电子设备700开始响应于语音识别器720所输出的最终识别结果执行操作。例如，处理器730可通过扬声器等以语音(voice)输出用户输入的语音的识别结果，或者可在显示器上以文本的格式提供识别结果。另外，处理器730可执行操作以处理关于电子设备700的命令(例如，电源打开/关闭、音量控制等)。

另外，在最终识别结果被翻译成另一语言的应用中，处理器730可将以文本格式输出的最终识别结果翻译成另一语言，并且可将所翻译的结果以语音或文本格式输出。然而，处理器730不限于此，处理器730可用于各种其它应用中。

首先，电子装置700在810中接收通过麦克风等输入的用户的音频信号。

然后，电子装置700在820中通过在窗口中提取用户的音频信号的帧，使用声学模型计算各个窗口的发音得分并且递增地将针对各个窗口顺序地输出的发音得分解码来识别音频信号。在此示例中，可通过利用语言模型计算词/句子得分并且通过考虑所计算的词/句子得分来执行解码。

电子装置700可将填充帧增加到窗口的两侧，并且可将窗口输入到声学模型中。随着填充帧被增加到窗口，窗口所增加的填充帧可与相邻窗口的一些帧重叠。在此示例中，可利用各种统计方法基于与窗口的帧重叠的相邻窗口的填充帧的发音得分来重新计算重叠的帧的发音得分。结果，可更准确地计算发音得分。

在一个实施方式中，电子装置700检查是否满足标准，其中，所述标准可根据电子装置700的计算性能能力或者语音识别的应用领域(例如，翻译或者命令的处理)来预定。如果满足所述预定标准，则电子装置700可输出直至当前窗口获得的识别结果作为全部音频信号的识别结果。

然后，在一个示例中，电子装置700在830中响应于输出的最终识别结果执行操作。例如，电子装置700可通过扬声器等以语音输出用户所输入的语音的识别结果，或者可在显示器上以文本格式提供识别结果。另外，电子装置700可执行操作以处理关于电子设备700的命令(例如，电源打开/关闭、音量控制等)。在最终识别结果被翻译成另一语言的应用中，电子装置700可将以文本格式输出的最终识别结果翻译成另一语言，并且可将所翻译的结果以语音或文本格式输出。

图1、图2、图8、图10所示的执行本文中关于图3至图7、图9和图11描述的操作的设备、单元、模块、装置、预处理器、得分计算器、填充增加器、声学模型应用器、语言模型应用器、解码器、语音输入装置、语音识别器、处理器和其它组件通过硬件组件来实现。硬件组件的示例包括控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、触发器、触发器、积分器、换能器、麦克风以及本领域普通技术人员已知的任何其它电子组件。在一个示例中，硬件组件通过计算硬件(例如，通过一个或更多个处理器或计算机)来实现。处理器或计算机通过诸如逻辑门阵列、控制器和算术逻辑单元的一个或更多个处理元件、数字信号处理器、微计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或者本领域普通技术人员已知的能够以定义的方式响应并执行指令以实现期望的结果的任何其它装置或装置的组合来实现。在一个示例中，处理器或计算机包括或者连接至存储有由处理器或计算机执行的指令或软件的一个或更多个存储器。通过处理器或计算机实现的硬件组件执行指令或软件(诸如操作***(OS)以及在OS上运行的一个或更多个软件应用)以执行本文中关于图3至图7以及图9至图11描述的操作。硬件组件还响应于指令或软件的执行访问、操纵、处理、创建和存储数据。为了简单，在本文所描述的示例的描述中可使用单数术语“处理器”或“计算机”，但是在其它示例中，使用多个处理器或计算机，或者处理器或计算机包括多个处理元件、或者多种类型的处理元件、或者这二者。在一个示例中，硬件组件包括多个处理器，在另一示例中，硬件组件包括处理器和控制器。硬件组件具有任一个或更多个不同的处理配置，其示例包括单处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理以及多指令多数据(MIMD)多处理。

图6、图7以及图9至图11所示的执行本文中关于图3至图5描述的操作的方法通过如上所述执行指令或软件以执行本文所述的操作的计算硬件(例如，通过一个或更多个处理器或计算机)来执行。

控制处理器或计算机以实现硬件组件并且执行如上所述的方法的指令或软件作为计算机程序、代码段、指令或其任何组合被编写，以用于单独地或共同地指示或配置处理器或计算机作为机器或专用计算机操作以执行由硬件组件执行的操作以及如上所述的方法。在一个示例中，指令或软件包括直接由处理器或计算机执行的机器代码(诸如通过编译器生成的机器代码)。在另一示例中，指令或软件包括由处理器或计算机利用解释器执行的高级代码。本领域的普通程序员可基于附图所示的框图和流程图以及说明书中的对应描述容易地编写指令或软件，其公开了用于执行由硬件组件执行的操作以及如上所述的方法的算法。

控制处理器或计算机以实现硬件组件并执行如上所述的方法的指令或软件以及任何关联的数据、数据文件和数据结构被记录、存储或固定在一个或更多个非暂时性计算机可读存储介质中或上。非暂时性计算机可读存储介质的示例包括只读存储器(ROM)、随机存取存储器(RAM)、闪存、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RWs,DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘、以及本领域普通技术人员已知的能够以非暂时性方式存储指令或软件以及任何关联的数据、数据文件和数据结构并且将指令或软件以及任何关联的数据、数据文件和数据结构提供给处理器或计算机以使得处理器或计算机可执行指令的任何装置。在一个示例中，指令或软件以及任何关联的数据、数据文件和数据结构被分布于联网的计算机***上，以使得指令和软件以及任何关联的数据、数据文件和数据结构由处理器或计算机以分布式方式存储、访问和执行。

尽管本公开包括特定示例，对于本领域普通技术人员而言将明显的是，在不脱离权利要求及其等同物的精神和范围的情况下，可在这些示例中进行各种形式和细节上的改变。本文所描述的示例将仅从描述的意义上考虑，而非为了限制。各个示例中的特征或方面的描述将被认为适用于其它示例中的类似特征或方面。如果所描述的技术按照不同的顺序执行，和/或如果所描述的***、架构、装置或电路中的组件以不同的方式组合和/或通过其它组件或其等同物替代或补充，则可能实现适当的结果。因此，本公开的范围不由具体实施方式限定，而是由权利要求及其等同物限定，权利要求及其等同物的范围内的所有变化将被解释为包括在本公开中。

Claims

1.一种用于计算声学得分的设备，该设备包括：

预处理器，被配置为顺序地将音频帧提取到窗口中；

得分计算器，被配置为利用基于深度神经网络(DNN)的声学模型来计算窗口的声学得分；以及

填充增加器，被配置为将填充帧增加到窗口的两侧，

其中，被增加到窗口的填充帧与和窗口相邻的相邻窗口的一个或更多个帧重叠，

其中，得分计算器还被配置为：响应于确定窗口中的帧和相邻窗口的填充帧之间存在重叠的帧，基于相邻窗口的重叠的填充帧的先前计算的声学得分来重新计算窗口的重叠的帧的声学得分。

2.根据权利要求1所述的设备，其中，DNN是双向递归深度神经网络(BRDNN)。

3.根据权利要求1所述的设备，其中，利用统计方法来重新计算窗口的重叠的帧的声学得分。

4.根据权利要求3所述的设备，其中，所述统计方法包括计算算术平均和几何平均中的至少一个。

5.根据权利要求1所述的设备，其中，窗口的大小或者填充帧的大小基于语音识别应用领域以及随所述设备一起应用的装置的计算性能能力中的一个或更多个来确定。

6.一种计算声学得分的方法，该方法包括：

顺序地将音频帧提取到窗口中；

利用基于深度神经网络(DNN)的声学模型来计算窗口的声学得分；以及

将填充帧增加到窗口的两侧，

其中，所述方法还包括：响应于确定窗口中的帧和相邻窗口的填充帧之间存在重叠的帧，基于相邻窗口的重叠的填充帧的先前计算的声学得分来重新计算窗口的重叠的帧的声学得分。

7.根据权利要求6所述的方法，其中，DNN是双向递归深度神经网络(BRDNN)。

8.根据权利要求6所述的方法，其中，利用统计方法来重新计算窗口的重叠的帧的声学得分。

9.根据权利要求8所述的方法，其中，统计方法包括算术平均和几何平均中的至少一个。

10.根据权利要求6所述的方法，其中，窗口的大小或者填充帧的大小基于语音识别应用领域以及执行所述方法的装置的计算性能能力中的一个或更多个来确定。

11.一种语音识别设备，包括：

预处理器，被配置为在帧被连续地输入时将音频信号的帧提取到窗口中；

声学模型应用器，被配置为利用基于深度神经网络(DNN)的声学模型输出窗口的声学得分；以及

解码器，被配置为基于所输出的窗口的声学得分来输出直至当前窗口获得的递增式识别结果，

其中，声学模型应用器将填充帧增加到窗口的两侧，

其中，声学模型应用器还被配置为：响应于确定窗口中的帧和相邻窗口的填充帧之间存在重叠的帧，基于相邻窗口的重叠的填充帧的先前计算的声学得分来重新计算窗口的重叠的帧的声学得分。

12.根据权利要求11所述的语音识别设备，还包括语言模型应用器，该语言模型应用器被配置为利用语言模型来输出词/句子得分，

其中，解码器进一步基于所输出的词/句子得分来输出直至当前窗口获得的递增式识别结果。

13.根据权利要求11所述的语音识别设备，其中，响应于满足预定标准，解码器输出直至当前窗口获得的递增式识别结果作为音频信号的最终识别结果。

14.根据权利要求11所述的语音识别设备，其中，DNN是双向递归深度神经网络(BRDNN)。

15.根据权利要求12所述的语音识别设备，其中，语言模型基于n元语法或神经网络。

16.一种语音识别方法，包括：

在帧被连续地输入时在窗口中提取待识别的音频信号的帧；

利用基于深度神经网络(DNN)的声学模型输出窗口的声学得分；以及

基于所输出的窗口的声学得分来输出直至当前窗口获得的递增式识别结果，

其中，所述语音识别方法还包括：将填充帧增加到窗口的两侧，

其中，输出声学得分的步骤包括：响应于确定窗口中的帧和相邻窗口的填充帧之间存在重叠的帧，基于相邻窗口的重叠的填充帧的先前计算的声学得分来重新计算窗口的重叠的帧的声学得分。

17.根据权利要求16所述的语音识别方法，还包括利用语言模型来输出词/句子得分，

其中，输出递增式识别结果的步骤包括进一步基于所输出的词/句子得分来输出直至当前窗口获得的递增式识别结果。

18.根据权利要求16所述的语音识别方法，还包括：

确定是否满足预定标准；以及

响应于确定满足所述预定标准，输出直至当前窗口获得的递增式识别结果作为音频信号的最终识别结果。

19.一种电子装置，包括：

语音输入装置，被配置为从用户接收音频信号；

语音识别器，被配置为通过在音频信号被输入时利用基于深度神经网络(DNN)的声学模型输出窗口中的输入音频信号的帧的声学得分并且通过递增地将所输出的窗口的声学得分解码，来识别用户的音频信号；以及

处理器，被配置为基于识别结果执行预定操作，

其中，语音识别器将填充帧增加到窗口的两侧，

其中，语音识别器还被配置为：响应于确定窗口中的帧和相邻窗口的填充帧存在重叠的帧，基于相邻窗口的重叠的填充帧的先前计算的声学得分来重新计算窗口的重叠的帧的声学得分。

20.根据权利要求19所述的电子装置，其中，所述操作包括以语音或文本格式输出识别结果、将识别结果翻译成另一语言以及处理用于控制电子装置的命令中的至少一个。