CN111951796A

CN111951796A - 语音识别方法及装置、电子设备、存储介质

Info

Publication number: CN111951796A
Application number: CN202010838352.XA
Authority: CN
Inventors: 单亚慧; 李�杰
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2020-11-17
Anticipated expiration: 2040-08-19
Also published as: CN111951796B

Abstract

本公开关于一种语音识别方法及装置、电子设备、存储介质，所述语音识别方法，包括：获取原始语音信号；对所述原始语音信号进行降噪，得到增强语音信号；分别提取所述原始语音信号的语音特征，得到第一语音特征，以及提取所述增强语音信号的语音特征，得到第二语音特征；利用预先训练好的声学模型对所述第一语音特征以及所述第二语音特征进行共同处理，得到组合后的状态序列；对所述组合后的状态序列进行解码，得到语音识别结果。通过对原始的语音信号和降噪后的语音信号共同处理，从而提高了语音识别的准确性。

Description

语音识别方法及装置、电子设备、存储介质

技术领域

本公开涉及语音识别技术领域，尤其涉及一种语音识别方法及装置、电子设备、存储介质。

背景技术

随着人工智能的不断发展，越来越多的智能设备以及领域都开始应用语音识别技术进行人机交互等。

在相关技术中，为了实现更具鲁棒性的语音识别，通常就是在语音识别前，先将语音进行降噪后，再将去除噪音后的语音送入识别***中进行识别。或者是，通过优化识别***中的声学模型，来提高语音识别***对包含噪音的语音的识别效果。

这两种方法虽然都能在一定程度上提升了对含噪音的语音的识别效果，但是第一种方法中，经过语音降噪***进行降噪的会引起失真的问题，所以对纯净语音和信噪比高的语音的识别效果反倒变差，而单纯优化声学模型的方法对于低信噪比的语音的识别效果的提升非常有限。所以，现在的语音识别方法无法做到对信噪比高的语音和信噪比较低都具有较好的识别效果。

发明内容

本公开公开提供一种语音识别方法及装置、电子设备、存储介质，以至少解决相关技术中无法同时准确识别信噪比高的语音和信噪比低的语音信号的问题。本公开公开的技术方案如下：

根据本公开实施例的第一方面，提供一种语音识别方法，包括：

获取原始语音信号；

对所述原始语音信号进行降噪，得到增强语音信号；

分别提取所述原始语音信号的语音特征，得到第一语音特征，以及提取所述增强语音信号的语音特征，得到第二语音特征；

利用预先训练好的声学模型对所述第一语音特征以及所述第二语音特征进行共同处理，得到组合后的状态序列；

对所述组合后的状态序列进行解码，得到语音识别结果。

可选地，在上述的语音识别方法中，所述利用预先训练好的声学模型对所述第一语音特征以及所述第二语音特征进行共同处理，得到组合后的状态序列之前，还包括：

将所述第一语音特征以及所述第二语音特征进行拼接得到拼接语音特征；

其中，利用预先训练好的所述声学模型对所述第一语音特征以及所述第二语音特征进行共同处理，得到组合后的状态序列，包括：

利用所述声学模型对所述拼接语音特征进行处理，得到所述拼接语音特征对应的组合后的状态序列。

可选地，在上述的语音识别方法中，所述声学模型包括公共网络以及两个子网络，所述利用预先训练好的所述声学模型对所述第一语音特征以及所述第二语音特征进行共同处理，得到组合后的状态序列，包括：

利用预先训练好的所述声学模型的一个子网络中对所述第一语音特征进行计算，以及利用所述声学模型的另一个子网络对所述第二语音特征进行计算，得到优化后的所述第一语音特征以及优化后的所述第二语音特征；

利用预先训练好的所述声学模型的公共网络对优化后的所述第一语音特征以及优化后的所述第二语音特征进行共同计算，得到组合后的状态序列。

可选地，在上述的语音识别方法中，所述声学模型的训练方法，包括：

分别对所述声学模型的两个子网络进行逐层训练；其中，所述声学模型的一个子网络的训练样本为原始语音信号的语音特征，所述声学模型的另一个子网络的训练样本为降噪后的增强语音信号的语音特征；

将训练好的所述声学模型的两个子网络输出作为所述公共网络的输入，对所述公共网络进行逐层训练。

根据本公开实施例的第二方面，提供一种语音识别装置，包括：

获取单元，被配置为执行获取原始语音信号；

降噪单元，被配置为执行对所述原始语音信号进行降噪，得到增强语音信号；

特征提取单元，被配置为执行分别提取所述原始语音信号的语音特征，得到第一语音特征，以及提取所述增强语音信号的语音特征，得到第二语音特征；

特征处理单元，被配置为执行利用预先训练好的所述声学模型对所述第一语音特征以及所述第二语音特征进行共同处理，得到组合后的状态序列；

解码单元，被配置为执行对所述组合后的状态序列进行解码，得到语音识别结果。

可选地，在上述的语音识别装置中，所述语音识别装置还包括：

拼接单元，被配置为执行将所述第一语音特征以及所述第二语音特征进行拼接得到拼接语音特征；

其中，所述特征处理单元，包括：

第一特征处理单元，被配置为执行利用所述声学模型对所述拼接语音特征进行处理，得到所述拼接语音特征对应的组合后的状态序列。

可选地，在上述的语音识别装置中，所述声学模型包括公共网络以及两个子网络，所述特征处理单元，包括：

第二特征处理单元，被配置为利用预先训练好的所述声学模型的一个子网络中对所述第一语音特征进行计算，以及利用所述声学模型的另一个子网络对所述第二语音特征进行计算，得到优化后的所述第一语音特征以及优化后的所述第二语音特征，以及利用预先训练好的所述声学模型的公共网络对优化后的所述第一语音特征以及优化后的所述第二语音特征进行共同计算，得到组合后的状态序列。

子网络训练单元，被配置为执行分别对所述声学模型的两个子网络进行逐层训练；其中，所述声学模型的一个子网络的训练样本为原始语音信号的语音特征，所述声学模型的另一个子网络的训练样本为降噪后的增强语音信号的语音特征；

公共网络训练单元，被配置为执行将训练好的所述声学模型的两个子网络输出作为所述公共网络的输入，对所述公共网络进行逐层训练。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如上述任一项所述的语音识别方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上述任一项所述的语音识别方法。

根据本公开实施例的第五方面，提供了一种计算机程序产品，当该计算机程序产品被执行时，其用于执行上述任一项所述的语音识别方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过在获取原始语音信号后，将原始语音信号进行降噪，得到增强语音信号，然后分别提取原始语音信号以及增强语音信号的语音特征，得到原始语音信号对应的语音特征以及增强语音信号对应的语音特征，并利用预先训练好的声学模型对原始语音信号对应的语音特征以及增强语音信号对应的语音特征进行共同处理，得到组合后的状态序列，最后对绑定后的状态序列进行解码，得到语音识别结果。由于，声学模型是对降噪后的增强语音信号和保留噪音的原始语音信号进行共同处理，所以可以避免降噪后引起的失真导致的识别不准确的问题，并且预先训练好的声学模型已经过优化，所以无论对于高信噪比高的语音还是信噪比较低都能进行准确的识别。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种语音识别方法的流程图；

图2是根据一示例性实施例示出的一种语音识别方法在语音识别***实现的过程的示意图；

图3是根据一示例性实施例示出的另一种语音识别方法的流程图；

图4是根据一示例性实施例示出的一种声学模型的框图；

图5是根据一示例性实施例示出的一种声学模型的训练方法的流程图；

图6是根据一示例性实施例示出的一种语音识别装置的框图；

图7是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种语音识别方法的流程图，如图1所示，语音识别方法包括以下步骤。

在步骤S101中，获取原始语音信号。

其中，原始语音信号指的未经过降噪处理的音频信号。具体可以是通过麦克风录制得到，且未经过处理的音频信号，也可以是预先录制的未经过降噪处理，但经过简单的预处理的音频信号，例如已经被切除首尾端的静音信号，或者已经经过格式转换，但未进行降噪处理的音频信号。因此，获取原始语音信号可以是当前通过麦克风进行采集，也可以是从硬盘或内存中获取预先存储的原始语音信号。

在步骤S102中，对原始语音信号进行降噪，得到增强语音信号。

需要说明的是，由于后续步骤还需要应用到原始语音信号，因此需要在保留有原始语音信号的情况下，对原始语音信号进行降噪，得到增强语音信号。具体可以是，先复制一份原始语音信号，然后再对其中一份原始语音信号进行降噪处理，从而在得到增强语音信号的同时，还保留有原始语音信号。

由于，通常采集语音信号的环境都不是理想环境，所以所获得原始语音信号通常都会存在一定的噪音，而原始语音信号的信噪比越小，即原始语音信号中所需识别的语音信号与噪音的比值越小，对于语音识别的影响越大，所以需要通过对原始语音信号进行降噪，得到增强语音信号，降低噪音对识别结果的影响。但是进行降噪又会引起失真的问题，所以本公开实施例同时采用未经降噪的原始语音信号和进行降噪后得到的增强语音信号进行语音识别。

具体的，可以通过降噪模型对原始语音信号进行降噪。可选地，降噪模型可以是基于自适应滤波器实现降噪，当然也可以是基于谱减法或者维纳滤波法等降噪算法实现语音降噪。

在步骤S103中，分别提取所述原始语音信号的语音特征，得到第一语音特征，以及提取所述增强语音信号的语音特征，得到第二语音特征。

需要说明的是，在对原始语音信号或者对增强语音信号进行特征提取前，都需要将语音信号进行分帧，即将一个较长的语音信号分割为多帧相对较短的语音信号，通常帧长取为20毫秒～50毫秒。具体为了避免进行分帧后，帧与帧连接处的信号被弱化，从而导致连接处的信息丢失，所以进行分帧时，相邻的两帧语音信号需要存在重叠部分。具体的，在前一帧语音信号的起始时间点上移动预设时间长度的位置上，划分预设帧长的下一帧语音信号，即相邻的两帧语音信号之间的相差预设时间长度。其中，移动的预设时间长度(帧移)小于每帧语音信号的帧长，通常设置为10毫秒。

具体的，提取原始语音信号的语音特征，为提取原始语音信号的每一帧的语音特征，得到原始语音信号的每帧的语音特征。同理，提取增强语音信号的语音特征，具体为提取增强语音信号的每一帧的语音特征，得到增强语音信号的每帧的语音特征。可选地，所提取的语音特征可以是梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)。具体的，对分帧后的语音信号进行加窗，然后对语音信号在窗中对应的数据进行快速傅里叶变换，得到相应的频谱。将所得到的频谱通过梅尔(Mel)滤波器组进行处理，得到梅尔(Mel)频谱，最后对梅尔(Mel)频谱进行倒谱分析，得到语音信号对应的梅尔频率倒谱系数。当然，提取梅尔频率倒谱系数只是其中一种可选的方式，也可以是提取其他类型的特征，例如FBank特征参数、感知线性预测(Perceptual Linear Predict ive，plp)特征参数等。但是，由于需要对原始语音信号的语音特征和增强语音信号的语音特征进行共同处理，所以对原始语音信号和增强语音信号需要提取相同类型的语音特征。

在步骤S104中，利用预先训练好的声学模型对第一语音特征以及第二语音特征进行共同处理，得到组合后的状态序列。

需要说明的是，本公开实施例中利用声学模型将第一语音特征以及第二语音特征视为一个整体进行共同处理，而不是分别依次处理第一语音特征和第二语音特征。所以，对该声学模型进行训练时，同样通过多个原始语音信号的第一语音特征以及该原始语音信号降噪后的增强语音信号对应的第二语音特征所组成的组合，对声学模型进行训练。通过不断调整声学模型的参数，直至最后能输出和训练样本的已知状态序列相一致的组合后的状态序列，即声学模型输出第一语音特征以及第二语音特征共同对应的状态序列。

具体的，声学模型对语音特征的处理过程，即通过运算确定出每帧语音信号对应的语音特征所对应的状态序列。其中，状态序列指的多个状态所组成的具有先后顺序的序列，其中在语音识别中的状态可以理解为比音素更细致的语音单位。更具体的，单词的发音是由音素构成，例如对于英语，一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集，而对于汉语一般直接用全部声母和韵母作为音素集，而状态指的就是比音素更小一级的语音表示形式，即音素由状态构成，通常将一个音素划分为3个状态。

还需要说明的是，基于单音素构建的实现语音识别，会存在建模单元数目少以及音素发音受其所在上下文的影响，所以现今一般都是基于三音素建模，即考虑一个音素的前一个音素和后一个音素的影响进行建模，而将三个音素对应的状态进行绑定所得到的就是组合后的状态序列。

可选地，为了能让声学模型对第一语音特征以及第二语音特征进行共同处理，所以本公开另一实施例中，在执行步骤S104前，还包括：将第一语音特征以及第二语音特征进行拼接得到拼接语音特征。

具体的，可以是将第二语音特征拼接在第一语音特征的后端，从而得到一个更高维度的拼接语音特征。例如第一语音特征具有1024维，相应的第二语音特征也具有1024维，则拼接后得到的拼接语音特征为2048维。在得到拼接语音特征后，再将拼接语音特征输入预先训练好的声学模型中，从而利用声学模型对拼接语音特征进行处理。由于输入的是一个第一语音特征和第二语音特征拼接的整体的语音特征，所以可以有效地保证了对第一语音特征和第二语音特征进行共同处理，而不是分别进行处理。此时，步骤S104的具体实施方式为：利用声学模型对所述拼接语音特征进行处理，得到拼接语音特征对应的组合后的状态序列。

在步骤S105中，对组合后的状态序列进行解码，得到语音识别结果。

解码的过程具体为：根据音素与状态的对应关系，确定出状态所对应的音素，然后利用预先设置好的字典中音素与字的对应关系，查找到音素所对应的字。由于，多音字的存在，一个音素可能对应多个字，并且所得到的字都相对独立，并形成完整的词句，所以需要进一步利用预先基于语言学相关理论训练好的语言模型，计算得到该状态序列对应的最大概率的词组序列，作为识别结果。所以，语言模型的作用可以简单理解为消解多音字的问题，并在声学模型给出发音序列之后，从候选的文字序列中找出概率最大的字符串序列。可选地，可以采用维特比算法解码实现对组合后的状态序列进行解码。

所以，本公开提供的语音识别方法，在实际的语音识别***中实现的过程，如图2所示，先获取原始语音信号，然后通过降噪模型对原始语音信号进行降噪处理，得到增强语音信号，分别将增强语音信号和原始语音信号输入特征处理模型中进行特征处理，从而输出原始语音信号对应的第一语音信号以及增强语音信号对应的第二语音信号，然后将第一语音信号和第二语音信号共同输入声学模型中进行处理，从而得到第一语音信号和第二语音信号共同对应的状态序列，最后基于语音模型对状态序列进行解码搜索，即对状态序列解码，从而输出最终的识别结果。

本公开实施例提供的语音识别方法，通过在获取原始语音信号后，将原始语音信号进行降噪，得到增强语音信号，然后分别提取原始语音信号以及增强语音信号的语音特征，得到原始语音信号对应的语音特征以及增强语音信号对应的语音特征，并利用预先训练好的声学模型对原始语音信号对应的语音特征以及增强语音信号对应的语音特征进行共同处理，得到组合后的状态序列，最后对组合后的状态序列进行解码，得到语音识别结果。由于，是利用声学模型是对降噪后的增强语音信号和保留噪音的原始语音信号进行共同处理，所以可以避免降噪后引起的失真导致的识别不准确的问题，并且预先训练好的声学模型已经过优化，所以无论对于高信噪比高的语音还是信噪比较低都能进行准确的识别。

图3是根据一示例性实施例示出的另一种语音识别方法的流程图，如图3所示，语音识别方法包括以下步骤。

在步骤S301中，获取原始语音信号。

需要说明的是，步骤S301的具体实现方式可相应地参考上述方法实施例中的步骤S101，此处不再赘述。

在步骤S302中，对原始语音信号进行降噪，得到增强语音信号。

需要说明的是，步骤S302的具体实现方式可相应地参考上述方法实施例中的步骤S102，此处不再赘述。

在步骤S303中，分别提取所述原始语音信号的语音特征，得到第一语音特征，以及提取所述增强语音信号的语音特征，得到第二语音特征。

需要说明的是，步骤S303的具体实现方式可相应地参考上述方法实施例中的步骤S103，此处不再赘述。

在步骤S304中，利用预先训练好的声学模型的一个子网络中对第一语音特征进行计算，以及利用声学模型的另一个子网络对第二语音特征进行计算，得到优化后的第一语音特征以及优化后的所述第二语音特征。

需要说明的是，本公开实施例中，对第一语音特征以及第二语音特征进行处理的声学模型由两个子网络和一个公共网络构成。具体参见图4，该声学模型包括子网络401、子网络402以及公共网络403。其中，两个子网络用于分别对第一语音特征和第二语音特征进行优化处理，从而使得第一语音特征和第二语音特征更好的体现带噪音的原始语音信号和增强后的增强语音信号的特征，进而可以使得声学模型所输出的状态序列更准确，最终所得到的识别结果也更准确。其中，子网络可以是一成或者多层深度神经网络模型，例如可以是时延神经网络(TDNN)或者卷积神经网络(CNN)等深度神经网络模型。公共网络则可以是长短期记忆网络(LSTM)，或者Blstm网络等其他可用于实现声学模型的网络。

可选地，由于第一语音特征指代原始语音信号对应的语音特征，第二语音特征指代增强语音信号对应的语音特征，所以第一语音特征与第二语音特征是存在区别的，因此子网络401和子网络402可以是两个不相同的子网络。两个子网络分别针对第一语音特征和第二语音特征的特性进行构建和训练，从而可以达到更佳地优化效果。此时，需要将第一语音特征和第二语音特征分别输入对应的子网络中进行计算，不能随意进行输入，从而得到优化后的第一语音特征以及优化后的所述第二语音特征。

当然，两个子网络可以是完全一致的，此时存在两个子网络可以同时第一语音特征和第二语音特征进行处理，避免需要依次对第一语音特征和第二语音特征进行优化处理后，才能利用公共网络进行后续。此时，可以将第一语音特征和第二语音特征分别随机选择一个子网络输入，以利用子网络对语音特征进行计算，得到优化后的第一语音特征以及优化后的所述第二语音特征。从而通过两个子网络分别对第一语音特征和第二语音特征进行处理，避免互相干扰，使得第一语音特征和第二语音特征得到最佳的优化。

具体的，图5是根据一示例性实施例示出的一种该声学模型的训练方法的流程图，如图5所示，包括以下步骤。

在步骤S501中，分别对所述声学模型的两个子网络进行逐层训练，声学模型的一个子网络的训练样本为原始语音信号的语音特征，声学模型的另一个子网络的训练样本为降噪后的增强语音信号的语音特征。

具体的，本公开采用联合学习的方式对两个子网络进行共同训练。在联合训练过程中，其中一个子网络将未进行降噪的原始语音信号的语音特征作为训练样本进行序列，以能在后续对输入的原始语音信号的语音特征进行优化，另一个子网络则以降噪后的增强语音信号的语音特征作为训练样本，以在后续使用过程中对输入的增强语音信号的语音特征进行优化。

可选地，可以采用逐层贪婪训练算法对声学模型的两个子网络进行逐层训练。具体的，逐层贪婪训练算法的主要思路是每次只训练网络中的一层，即我们首先训练一个只含一个隐藏层的网络，当这层网络训练结束之后才开始训练一个有两个隐藏层的网络，以此类推训练完所有层。在每一步中，我们把已经训练好的前k-1层固定，然后增加第k层，即将已经训练好的前k-1的输出作为第k输入，每一层的训练可以是有监督的，但更通常使用无监督方，例如通过自动编码器进行训练。这些各层单独训练所得到的权重被用来初始化最终的网络的权重，然后对整个网络进行微调，即把所有层放在一起，优化有标签训练集上的训练误差。

在本公开实施例中，声学模型包含了两个子网络，因此通过联合训练能有效地将两个子网络相结合，形成一个整体性的声学模型，有效考虑了两个子网络的影响。并且针对复杂的神经网络模型，采用逐层贪婪训练算法进行逐层训练，可以更加的便捷及准确。

在步骤S502中，将训练好的声学模型的两个子网络输出作为公共网络的输入，对公共网络进行逐层训练。

可选地，同样可以采用采用逐层贪婪训练算法对公共网络进行逐层训练。具体在训练完两个子网络后，需要进一步训练公共网络，此时将两个子网络和公共网络视为一个整体网络，则两个子网络可视为训练好的前k-1层，而公共网络的第一层为k层，然后同样采用逐层贪婪训练算法对公共网络的进行逐层训练，即将训练好的声学模型的两个子网络输出作为公共网络的输入，得到优化好的声学模型。其中，训练过程中两个子网络的输入同样是未降噪的原始语音信号的语音特征以及已降噪的增强语音信号的语音特征。在得到优化完声学模式之后，还需把优化后的网络参数作为整个声学模型的初始值，并对整个声学模型进行微调，直到收敛。具体的，基于将相应的训练样本的声学特征分别输入两个子网络后，所得到公共网络输出的误差，进行误差反向传播，确定声学模型中各层的误差，并基于反向传播损失函数对整个声学模型的各个参数进行微调，直至反向传播损失函数收敛，从而得到完全训练好的声学模型。

在步骤S305中，利用预先训练好的声学模型的公共网络对优化后的第一语音特征以及优化后的第二语音特征进行共同计算，得到组合后的状态序列。

具体的，将声学模型的两个子网络输出的优化后的第一语音特征以及优化后的第二语音特征作为一个整体共同输入声学模型的公共网络进行共同计算，得到组合后的状态序列。

需要说明的是，步骤S305的具体实现方式可相应地参考上述方法实施例中的步骤S104，此处不再赘述。

在步骤S306中，对组合后的状态序列进行解码，得到语音识别结果。

需要说明的是，步骤S306的具体实现方式可相应地参考上述方法实施例中的步骤S105，此处不再赘述。

本公开实施例提供的语音识别方法，通过在获取原始语音信号后，将原始语音信号进行降噪，得到增强语音信号，然后分别提取原始语音信号以及增强语音信号的语音特征，得到原始语音信号对应的语音特征以及增强语音信号对应的语音特征，并利用预先训练好的声学模型的两个子网络先对原始语音信号对应的语音特征以及增强语音信号对应的语音特征进行优化，从而使得语音特征更好的体现相应的语音信号的特征，从而可以提高识别结果的准确性，然后再通过声学模型的公共网络对优化后的原始语音信号对应的语音特征以及增强语音信号对应的语音特征进行共同处理，得到组合后的状态序列，最后对组合后的状态序列进行解码，得到语音识别结果。由于，是利用声学模型是对降噪后的增强语音信号和保留噪音的原始语音信号进行共同处理，所以可以避免降噪后引起的失真导致的识别不准确的问题，并且预先训练好的声学模型已经过优化，所以无论对于高信噪比高的语音还是信噪比较低都能进行准确的识别。

图6是根据一示例性实施例示出的一种语音识别装置。参照图6，该装置包括：获取单元601、降噪单元602、特征提取单元603、特征处理单元604、解码单元605。

获取单元601，被配置为执行获取原始语音信号。

降噪单元602，被配置为执行对原始语音信号进行降噪，得到增强语音信号。

特征提取单元603，被配置为执行分别提取所述原始语音信号的语音特征，得到第一语音特征，以及提取所述增强语音信号的语音特征，得到第二语音特征。

特征处理单元604，被配置为执行利用预先训练好的声学模型对第一语音特征以及第二语音特征进行共同处理，得到组合后的状态序列。

解码单元605，被配置为执行对组合后的状态序列进行解码，得到语音识别结果。

可选地，在另一实施例提供的语音识别装置中，该语音识别装置还包括：拼接单元。

拼接单元，被配置为执行将第一语音特征以及第二语音特征进行拼接得到拼接语音特征。

其中，该语音识别装置中的特征处理单元，具体为：第一特征处理单元，被配置为执行利用声学模型对拼接语音特征进行处理，得到拼接语音特征对应的组合后的状态序列。

可选地，在另一实施例中，声学模型包括公共网络以及两个子网络，该实施例所提供的语音识别装置的特征处理单元，具体包括：第二特征处理单元，被配置为利用预先训练好的声学模型的一个子网络中对第一语音特征进行计算，以及利用声学模型的另一个子网络对第二语音特征进行计算，得到优化后的第一语音特征以及优化后的第二语音特征，以及利用预先训练好的声学模型的公共网络对优化后的第一语音特征以及优化后的第二语音特征进行共同计算，得到组合后的状态序列。

可选地，在另一实施例提供的语音识别装置中，该语音识别装置还包括：子网络训练单元。

子网络训练单元，被配置为执行分别对声学模型的两个子网络进行逐层训练。

其中，声学模型的一个子网络的训练样本为原始语音信号的语音特征，声学模型的另一个子网络的训练样本为降噪后的增强语音信号的语音特征。

公共网络训练单元，被配置为执行将训练好的声学模型的两个子网络输出作为公共网络的输入，对公共网络进行逐层训练。

需要说明的是，上述实施例中示出的语音识别装置中的各个单元的具体工作过程可相应地参考上述方法实施例中的相应步骤的具体实施过程，此处不再赘述。

本公开实施例提供的语音识别装置，通过在获取单元获取原始语音信号后，将原始语音信号通过降噪单元进行降噪，得到增强语音信号，然后分别通过特征提取单元提取原始语音信号以及增强语音信号的语音特征，得到原始语音信号对应的语音特征以及增强语音信号对应的语音特征，并由特征处理单元利用预先训练好的声学模型对原始语音信号对应的语音特征以及增强语音信号对应的语音特征进行共同处理，得到组合后的状态序列，最后对组合后的状态序列进行解码，得到语音识别结果。由于，声学模型是对降噪后的增强语音信号和保留噪音的原始语音信号进行共同处理，所以可以避免降噪后引起的失真导致的识别不准确的问题，并且预先训练好的声学模型已经过优化，所以无论对于高信噪比高的语音还是信噪比较低都能进行准确的识别。

图7是根据一示例性实施例示出的一种电子设备的结构图。参见图7，该电子设备包括：处理器701以及用于存储处理器可执行指令的存储器702。

其中，处理器701被配置为执行指令，以实现如上述任一实施例中语音识别方法。

本公开另一实施例提供了一种存储介质，当存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上述任一实施例中语音识别方法。

可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本公开另一实施例提供了一种计算机程序产品，当该计算机程序产品被执行时，其用于执行上述任一项实施例所提供的语音识别方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音识别方法，其特征在于，包括：

获取原始语音信号；

对所述原始语音信号进行降噪，得到增强语音信号；

对所述绑定后的状态序列进行解码，得到语音识别结果。

2.根据权利要求1所述的语音识别方法，其特征在于，所述利用预先训练好的声学模型对所述第一语音特征以及所述第二语音特征进行共同处理，得到组合后的状态序列之前，还包括：

3.根据权利要求1所述的语音识别方法，其特征在于，所述声学模型包括公共网络以及两个子网络，所述利用预先训练好的所述声学模型对所述第一语音特征以及所述第二语音特征进行共同处理，得到组合后的状态序列，包括：

4.根据权利要求3所述的语音识别方法，其特征在于，所述声学模型的训练方法，包括：

5.一种语音识别装置，其特征在于，包括：

获取单元，被配置为执行获取原始语音信号；

6.根据权利要求5所述的语音识别装置，其特征在于，所述语音识别装置还包括：

其中，所述特征处理单元，包括：

7.根据权利要求5所述的语音识别装置，其特征在于，所述声学模型包括公共网络以及两个子网络，所述特征处理单元，包括：

8.根据权利要求7所述的语音识别装置，其特征在于，所述语音识别装置还包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至4中任一项所述的语音识别方法。

10.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至4中任一项所述的语音识别方法。