CN106653003A

CN106653003A - 语音识别方法及装置

Info

Publication number: CN106653003A
Application number: CN201611214799.XA
Authority: CN
Inventors: 江巍
Original assignee: Beijing Yunzhisheng Information Technology Co Ltd
Current assignee: Beijing Yunzhisheng Information Technology Co Ltd
Priority date: 2016-12-26
Filing date: 2016-12-26
Publication date: 2017-05-10

Abstract

本发明是关于一种语音识别方法及装置，其中，方法包括：接收用户输入的带噪声语音信息；将带噪声语音信息按照发音划分成至少一个单音子，计算得到每个单音子对应的第一后验概率；根据当前环境噪声和每个单音子对应的第一后验概率对带噪声语音信息进行降噪处理，得到降噪处理后的语音信息，以及语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比；根据第一后验概率和正常语音与环境噪音之间的能量比，对降噪处理后的语音信息进行识别，得到每个三音子对应的第二后验概率；根据第二后验概率确定目标识别结果，并对目标识别结果进行解码处理，得到对应的文字信息。通过该技术方案，可以避免损伤正常语音，从而提高语音识别的准确性。

Description

语音识别方法及装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别方法及装置。

背景技术

目前的远场语音识别***，在对语音信息进行识别之前，至进行一次降噪处理，即根据环境噪声对接收到的带噪语音进行降噪，然后对降噪后的语音进行内容识别，但是，在降噪的同时，有可能损伤正常语音，导致后续识别不准确。

发明内容

本发明实施例提供一种语音识别方法及装置，用以实现提高语音识别的准确性，从而提升用户的使用体验。

根据本发明实施例的第一方面，提供一种语音识别方法，包括：

接收用户输入的带噪声语音信息；

将所述带噪声语音信息按照发音划分成至少一个单音子，并计算得到每个单音子对应的第一后验概率；单音子是指如M、EI3、D、I2等，中文语音识别常使用的单音子为138个左右。

获取当前环境噪声，并根据所述当前环境噪声和所述每个单音子对应的第一后验概率对所述带噪声语音信息进行降噪处理，得到降噪处理后的语音信息，以及所述语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比；常用的语音频带数通常为40个。

根据所述第一后验概率和所述正常语音与环境噪音之间的能量比，对所述降噪处理后的语音信息进行识别，得到每个三音子对应的第二后验概率；其中，三音子如：SIL-M-EI3、EI3-D-I4等。

根据所述第二后验概率确定目标识别结果，并对所述目标识别结果进行解码处理，得到对应的文字信息。

在该实施例中，首先计算带噪声语音信息中每个单音子对应的第一后验概率，进而根据第一后验概率和当前环境噪声对带噪声语音信息进行降噪处理，得到降噪处理后的语音信息，再根据语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比，对降噪后的语音信息进行识别，得到每个三音子对应的第二后验概率，这样，根据语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比对降噪后的语音信息进行识别可以避免损伤正常语音，从而提高语音识别的准确性。

在一个实施例中，所述对所述目标识别结果进行解码处理，得到对应的文字信息，包括：

通过隐马尔可夫模型和Viterbi解码算法对所述目标识别结果进行解码处理得到对应的文字信息。

在该实施例中，通过隐马尔可夫模型和Viterbi解码算法对所述目标识别结果进行解码处理得到对应的文字信息，这样，可以进一步提高语音信息识别的准确性。

在一个实施例中，所述将所述带噪声语音信息按照发音划分成至少一个单音子，并计算得到每个单音子对应的第一后验概率，包括：

将所述带噪声语音信息按照发音划分成至少一个单音子，并通过第一深度神经网络模型计算得到所述每个单音子对应的第一后验概率，其中，所述第一后验概率的计算公式为：

p(s_i|x_t)，

其中，i＝1-138，x_t表示t时刻观测到带噪声语音信息的语音特征，s_i表示第i个单音子，p(s_i|x_t)表示t时刻根据观测到的所述语音特征得到的第i个单音子的第一后验概率。

在一个实施例中，根据以下计算公式计算得到语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比：

p(r_j，s_i|x_t)＝p(s_i|x_t)p(r_j|s_i，x_t)

其中，i＝1～138，j＝1～40，其中，r_j表示所述音频频谱中第j个频带中正常语音与环境噪音之间的能量比，x_t表示t时刻观测到带噪声语音信息的语音特征，s_i表示第i个单音子，p(s_i|x_t)表示t时刻根据观测到的所述语音特征得到的第i个单音子的第一后验概率，p(r_j，s_i|x_t)表示时刻t根据观测到的所述语音特征和第i个单音子的第一后验概率得到的第j个频带中正常语音与环境噪音之间的能量比。

在一个实施例中，根据以下计算公式计算得到每个三音子对应的第二后验概率：

p(c_k,r_j,s_i|x_t)＝p(s_i|x_t)p(r_j|s_i，x_t)p(c_k|r_j，s_i，x_t)

i＝1～138，j＝1～40，k＝1～3513，其中，c_k表示第k个三音子，r_j表示所述音频频谱中第j个频带中正常语音与环境噪音之间的能量比，x_t表示t时刻观测到带噪声语音信息的语音特征，s_i表示第i个单音子，p(s_i|x_t)表示t时刻根据观测到的所述语音特征得到的第i个单音子的第一后验概率，p(r_j,s_i|x_t)表示时刻t根据观测到的所述语音特征和第i个单音子的第一后验概率得到的第j个频带中正常语音与环境噪音之间的能量比，p(c_k,r_j,s_i|x_t)表示根据t时刻观测到的语音特征、第一后验概率、各个频带中正常语音与环境噪音之间的能量比得到的第k个三音子的第二后验概率。

根据本发明实施例的第二方面，提供一种语音识别装置，包括：

接收模块，用于接收用户输入的带噪声语音信息；

第一识别模块，用于将所述带噪声语音信息按照发音划分成至少一个单音子，并计算得到每个单音子对应的第一后验概率；

降噪模块，用于获取当前环境噪声，并根据所述当前环境噪声和所述每个单音子对应的第一后验概率对所述带噪声语音信息进行降噪处理，得到降噪处理后的语音信息，以及所述语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比；

第二识别模块，用于根据所述第一后验概率和所述正常语音与环境噪音之间的能量比，对所述降噪处理后的语音信息进行识别，得到每个三音子对应的第二后验概率；

处理模块，用于根据所述第二后验概率确定目标识别结果，并对所述目标识别结果进行解码处理，得到对应的文字信息。

在一个实施例中，所述处理模块用于：

在一个实施例中，所述第一识别模块用于：

p(s_i|x_t)，

p(r_j，s_i|x_t)＝p(s_i|x_t)p(r_j|s_i,x_t)

其中，i＝1～138，j＝1～40，其中，r_j表示所述音频频谱中第j个频带中正常语音与环境噪音之间的能量比，x_t表示t时刻观测到带噪声语音信息的语音特征，s_i表示第i个单音子，p(s_i|x_t)表示t时刻根据观测到的所述语音特征得到的第i个单音子的第一后验概率，p(r_j,s_i|x_t)表示时刻t根据观测到的所述语音特征和第i个单音子的第一后验概率得到的第j个频带中正常语音与环境噪音之间的能量比。

p(c_k,r_j,s_i|x_t)＝p(s_i|x_t)p(r_j|s_i,x_t)p(c_k|r_j,s_i,x_t)

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种语音识别方法的流程图。

图2是根据一示例性实施例示出的另一种语音识别方法的流程图。

图3是根据一示例性实施例示出的一种语音识别装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种语音识别方法的流程图。该语音识别方法应用于终端设备中，该终端设备可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等任一具有语音控制功能的设备。如图1所示，该方法包括步骤S101-S105：

在步骤S101中，接收用户输入的带噪声语音信息；

在步骤S102中，将带噪声语音信息按照发音划分成至少一个单音子，并计算得到每个单音子对应的第一后验概率；音素是指如M、EI3、D、I4等，中文语音识别常使用的音素为138个左右。

在一个实施例中，将带噪声语音信息按照发音划分成至少一个单音子，并计算得到每个单音子对应的第一后验概率，包括：

将带噪声语音信息按照发音划分成至少一个单音子，并通过第一深度神经网络模型计算得到每个单音子对应的第一后验概率，其中，第一后验概率的计算公式为：

p(s_i|x_t)，

其中，i＝1-138，x_t表示t时刻观测到带噪声语音信息的语音特征，s_i表示第i个单音子，p(s_i|x_t)表示t时刻根据观测到的语音特征得到的第i个单音子的第一后验概率。

在步骤S103中，获取当前环境噪声，并根据当前环境噪声和每个单音子对应的第一后验概率对带噪声语音信息进行降噪处理，得到降噪处理后的语音信息，以及语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比；常用的语音频带数通常为40个。

p(r_j,s_i|x_t)＝p(s_i|x_t)p(r_j|s_i,x_t)

其中，i＝1～138，j＝1～40，其中，r_j表示音频频谱中第j个频带中正常语音与环境噪音之间的能量比，x_t表示t时刻观测到带噪声语音信息的语音特征，s_i表示第i个单音子，p(s_i|x_t)表示t时刻根据观测到的语音特征得到的第i个单音子的第一后验概率，p(r_j，s_i|x_t)表示时刻t根据观测到的语音特征和第i个单音子的第一后验概率得到的第j个频带中正常语音与环境噪音之间的能量比。

在步骤S104中，根据第一后验概率和正常语音与环境噪音之间的能量比，对降噪处理后的语音信息进行识别，得到每个三音子对应的第二后验概率；其中，三音子如：SIL-M-EI3、EI3-D-I2等。

在一个实施例中，根据以下计算公式计算得到每每个三音子对应的第二后验概率：

p(c_k,r_j,s_i|x_t)＝p(s_i|x_t)p(r_j|s_i,x_t)p(c_k|r_j，s_i，x_t)

i＝1～138，j＝1～40，k＝1～3513，其中，c_k表示第k个三音子，r_j表示音频频谱中第j个频带中正常语音与环境噪音之间的能量比，x_t表示t时刻观测到带噪声语音信息的语音特征，s_i表示第i个单音子，p(s_i|x_t)表示t时刻根据观测到的语音特征得到的第i个单音子的第一后验概率，p(r_j，s_i|x_t)表示时刻t根据观测到的语音特征和第i个单音子的第一后验概率得到的第j个频带中正常语音与环境噪音之间的能量比，p(c_k,r_j,s_i|x_t)表示根据t时刻观测到的语音特征、第一后验概率、各个频带中正常语音与环境噪音之间的能量比得到的第二后验概率。

在步骤S105中，根据第二后验概率确定目标识别结果，并对目标识别结果进行解码处理，得到对应的文字信息。

在该实施例中，首先计算带噪声语音信息中每个单音子对应的第一后验概率，进而根据第一后验概率和当前环境噪声对带噪声语音信息进行降噪处理，得到降噪处理后的语音信息，再根据降噪处理后的语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比，对降噪后的语音信息进行识别，得到每个三音子对应的第二后验概率，这样，根据语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比对降噪后的语音信息进行识别可以避免损伤正常语音，从而提高语音识别的准确性。

如图2所示，在一个实施例中，上述步骤S105包括步骤S201：

在步骤S201中，通过隐马尔可夫模型对目标识别结果进行解码处理得到对应的文字信息。

下述为本发明装置实施例，可以用于执行本发明方法实施例。

图3是根据一示例性实施例示出的一种语音识别装置的框图，该装置可以通过软件、硬件或者两者的结合实现成为终端设备的部分或者全部。如图3所示，该语音识别装置包括：

接收模块31，用于接收用户输入的带噪声语音信息；

第一识别模块32，用于将所述带噪声语音信息按照发音划分成至少一个单音子，并计算得到每个单音子对应的第一后验概率；

在一个实施例中，所述第一识别模块32用于：

p(s_i|x_t)，

降噪模块33，用于获取当前环境噪声，并根据所述当前环境噪声和所述每个单音子对应的第一后验概率对所述带噪声语音信息进行降噪处理，得到降噪处理后的语音信息，以及所述语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比；

p(r_j，s_i|x_t)＝p(s_i|x_t)p(r_j|s_i，x_t)

第二识别模块34，用于根据所述第一后验概率和所述正常语音与环境噪音之间的能量比，对所述降噪处理后的语音信息进行识别，得到每每个三音子对应的第二后验概率；

p(c_k,r_j,s_i|x_t)＝p(s_i|x_t)p(r_j|s_i，x_t)p(c_k|r_j,s_i，x_t)

i＝1～138，j＝1～40，k＝1～3513，其中，c_k表示第k个三音子，r_j表示所述音频频谱中第j个频带中正常语音与环境噪音之间的能量比，x_t表示t时刻观测到带噪声语音信息的语音特征，s_i表示第i个单音子，p(s_i|x_t)表示t时刻根据观测到的所述语音特征得到的第i个单音子的第一后验概率，p(r_j，s_i|x_t)表示时刻t根据观测到的所述语音特征和第i个单音子的第一后验概率得到的第j个频带中正常语音与环境噪音之间的能量比，p(c_k,r_j,s_i|x_t)表示根据t时刻观测到的语音特征、第一后验概率、各个频带中正常语音与环境噪音之间的能量比得到的第k个三音子的第二后验概率。

处理模块35，用于根据所述第二后验概率确定目标识别结果，并对所述目标识别结果进行解码处理，得到对应的文字信息。

在该实施例中，首先计算带噪声语音信息中每个单音子对应的第一后验概率，进而根据第一后验概率和当前环境噪声对带噪声语音信息进行降噪处理，得到降噪处理后的语音信息，再根据降噪处理后的语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比，对降噪后的语音信息进行识别，得到的第二后验概率，这样，根据语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比对降噪后的语音信息进行识别可以避免损伤正常语音，从而提高语音识别的准确性。

在一个实施例中，所述处理模块35用于：

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音识别方法，其特征在于，包括：

接收用户输入的带噪声语音信息；

将所述带噪声语音信息按照发音划分成至少一个单音子，并计算得到每个单音子对应的第一后验概率；

获取当前环境噪声，并根据所述当前环境噪声和所述每个单音子对应的第一后验概率对所述带噪声语音信息进行降噪处理，得到降噪处理后的语音信息，以及所述语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比；

根据所述第一后验概率和所述正常语音与环境噪音之间的能量比，对所述降噪处理后的语音信息进行识别，得到每个三音子对应的第二后验概率；

2.根据权利要求1所述的方法，其特征在于，所述对所述目标识别结果进行解码处理，得到对应的文字信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述带噪声语音信息按照发音划分成至少一个单音子，并计算得到每个单音子对应的第一后验概率，包括：

p(s_i|x_t)，

4.根据权利要求1所述的方法，其特征在于，根据以下计算公式计算得到语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比：

p(r_j,s_i|x_t)＝p(s_i|x_t)p(r_j|s_i,x_t)

5.根据权利要求1所述的方法，其特征在于，根据以下计算公式计算得到每个三音子对应的第二后验概率：

p(c_k,r_j,s_i|x_t)＝p(s_i|x_t)p(r_j|s_i,x_t)p(c_k|r_j,s_i,x_t)

6.一种语音识别装置，其特征在于，包括：

接收模块，用于接收用户输入的带噪声语音信息；

7.根据权利要求6所述的装置，其特征在于，所述处理模块用于：

8.根据权利要求6所述的装置，其特征在于，所述第一识别模块用于：

p(s_i|x_t)，

9.根据权利要求6所述的装置，其特征在于，根据以下计算公式计算得到语音信息在对应的音频频谱的各个频带中正常语音与环境噪音之间的能量比：

p(r_j,s_i|x_t)＝p(s_i|x_t)p(r_j|s_i,x_t)

10.根据权利要求6所述的装置，其特征在于，根据以下计算公式计算得到每个三音子对应的第二后验概率：

p(c_k，r_j，s_i|x_t)＝p(s_i|x_t)p(r_j|s_i,x_t)p(c_k|r_j，s_i，x_t)

i＝1～138，j＝1～40，k＝1～3513，其中，c_k表示第k个三音子，r_j表示所述音频频谱中第j个频带中正常语音与环境噪音之间的能量比，x_t表示t时刻观测到带噪声语音信息的语音特征，s_i表示第i个单音子，p(s_i|x_t)表示t时刻根据观测到的所述语音特征得到的第i个单音子的第一后验概率，p(r_j,s_i|x_t)表示时刻t根据观测到的所述语音特征和第i个单音子的第一后验概率得到的第j个频带中正常语音与环境噪音之间的能量比，p(c_k，r_j,s_i|x_t)表示根据t时刻观测到的语音特征、第一后验概率、各个频带中正常语音与环境噪音之间的能量比得到的第k个三音子的第二后验概率。