CN110503952A

CN110503952A - 一种语音处理方法、装置和电子设备

Info

Publication number: CN110503952A
Application number: CN201910689832.1A
Authority: CN
Inventors: 朱紫薇; 唐文琦; 刘忠亮; 解传栋
Original assignee: Beijing Sogou Technology Development Co Ltd; Sogou Hangzhou Intelligent Technology Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2019-07-29
Filing date: 2019-07-29
Publication date: 2019-11-26
Anticipated expiration: 2039-07-29
Also published as: CN110503952B

Abstract

本发明实施例提供了一种语音处理方法、装置和电子设备，其中，所述方法包括：获取待识别语音数据的第一特征信息；采用识别模型对所述第一特征信息进行处理，确定对应的指令分类信息，所述识别模型依据从各段语音训练数据分别截取的多段数据进行训练；依据所述指令分类信息，确定所述待识别语音数据对应的指令类别；所述识别模型能够学习到较多的发音模式，从而能够减少将非语音指令识别成语音指令的概率，降低语音指令的误识别率。

Description

一种语音处理方法、装置和电子设备

技术领域

本发明涉及数据处理技术领域，特别是涉及一种语音处理方法、装置和电子设备。

背景技术

随着人工智能技术和语音识别技术的发展，语音控制逐渐被应用在越来越多的智能设备上，如语音控制智能家电(如空调、电视)的开关、语音导航等等。

通常，智能设备在静默状态下时，可以采集语音数据，然后对该段语音数据进行识别；当识别出该段语音数据对应的语音指令时，智能设备可以被唤醒，然后执行该语音执行对应的操作。现有技术中，通常会采用各种模型进行语音指令的识别，如深度学习模型、神经网络模型等等；但是这些模型的误识别率比较高，容易将非语音指令识别成语音指令，造成智能设备的误唤醒。

发明内容

本发明实施例提供一种语音处理方法，以降低语音指令的误识别率。

相应的，本发明实施例还提供了一种语音处理装置和一种电子设备，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种语音处理方法，具体包括：获取待识别语音数据的第一特征信息；采用识别模型对所述第一特征信息进行处理，确定对应的指令分类信息，所述识别模型依据从各段语音训练数据分别截取的多段数据进行训练；依据所述指令分类信息，确定所述待识别语音数据对应的指令类别。

可选地，所述识别模型包括编码器、注意力模块和全连接网络；所述采用识别模型对所述第一特征信息进行处理，确定对应的指令分类信息，包括：所述编码器对所述第一特征信息进行特征转换，输出第二特征信息；所述注意力模块从所述第二特征信息中截取第三特征信息；以及对所述第三特征信息进行加权处理，输出第四特征信息；所述全连接网络依据所述第四特征信息进行语音指令分类，输出对应的指令分类信息。

可选地，所述注意力模块从所述第二特征信息中截取第三特征信息，包括：所述注意力模块采用第一滑窗对所述第二特征信息进行截取，得到第三特征信息。

可选地，所述指令类别包括预设指令类别和其他类别，所述其他类别是除预设指令类别之外的类别，所述第一滑窗包括第一子滑窗和第二子滑窗，所述第一子滑窗的窗长大于第二子滑窗的窗长；所述注意力模块采用第一滑窗对所述第二特征信息进行截取，包括：所述注意力模块采用第一子滑窗对所述第二特征信息进行截取；若依据所述第一子滑窗截取的第二特征信息确定的指令类别是预设指令类别，则执行所述预设指令类别对应的指令；若依据所述第一子滑窗截取的所述第二特征信息确定的指令类别是其他类别，则采用所述第二子滑窗对所述第二特征信息进行截取。

可选地，所述第三特征信息为M*N的矩阵，所述M，N为正整数；所述对所述第三特征信息进行加权处理，输出第四特征信息，包括：将第三特征信息的M行对应列的数值分别进行加权计算，得到所述第四特征信息，所述第四特征信息为N维向量。

可选地，所述指令分类信息包括多个类别标识和各类别标识对应的概率，所述类别标识包括预设指令类别标识和其他类别标识；所述依据所述指令分类信息，确定所述待识别语音数据对应的指令类别，包括：确定概率最大的类别标识；若概率最大的类别标识是预设指令类别标识且最大概率大于预设概率阈值，则确定所述待识别语音数据对应的指令类别为所述概率最大的类别标识对应的预设指令类别；若概率最大的类别标识是其他类别标识，或，概率最大的类别标识是预设指令类别标识且最大概率小于所述预设概率阈值，则确定所述待识别语音数据对应的指令类别为其他类别。

可选地，所述的方法包括：执行所述待识别语音数据的预设指令类别对应的操作。

可选地，所述的方法包括训练所述识别模型的步骤：收集多段语音训练数据，确定各段语音训练数据对应的第一特征训练信息；依据多个所述第一特征训练信息，确定多组第一训练信息；采用所述多组第一训练信息对所述识别模型进行训练。

可选地，所述依据多个所述第一特征训练信息，确定多组第一训练信息，包括：针对一个第一特征训练信息，依据对应语音训练数据中指令部分的帧长确定第二滑窗的窗长；采用所述第二滑窗在所述第一特征训练信息上按照第二设定步长滑动，得到对应的第二特征训练信息；依据多段所述第二特征训练信息，生成多组所述第一训练信息。

可选地，所述多组语音训练数据包括多组正样例语音训练数据和多组负样例语音训练数据，所述第一特征训练信息包括正样例特征训练信息和负样例特征训练信息，所述正样例特征训练信息与所述正样例语音训练数据对应，所述负样例特征训练信息与所述负样例语音训练数据；所述依据多段所述第二特征训练信息，生成多组所述第一训练信息，包括：依据所述正样例特征训练信息对应的第二特征训练信息和所述负样例特征训练信息对应的第二特征训练信息，确定所述正样例训练信息和所述负样例训练信息；针对一个所述正样例训练信息，确定与所述正样例训练信息帧长相同的P个负样例训练信息，P为正整数；将所述正样例训练信息的参考类别标识设置为预设指令参考类别标识，以及将所述P个负样例训练信息的参考类别标识分别设置为其他参考类别标识；将所述正样例训练信息、所述正样例训练信息对应的参考类别标识、所述P个负样例训练信息和所述P个负样例训练信息对应的参考类别标识，确定为一组第一训练信息。

可选地，所述依据所述正样例特征训练信息对应的第二特征训练信息和所述负样例特征训练信息对应的第二特征训练信息，确定所述正样例训练信息和所述负样例训练信息，包括：针对一段所述正样例特征训练信息，确定对应正样例语音训练数据中指令部分对应的帧位置信息；依据所述帧位置信息，将包含指令部分的第二特征训练信息确定为所述正样例训练信息；将其他第二特征训练信息确定为负样例训练信息，所述其他第二特征训练信息包括负样例特征训练信息对应的第二特征训练信息，和，除包含指令部分的第二特征训练信息外的其他正样例特征训练信息对应的第二特征训练信息。

可选地，所述识别模型包括编码器、注意力模块和全连接网络；所述采用所述多组第一训练信息对所述识别模型进行训练，包括：分别采用各组第一训练信息对所述识别模型进行训练：针对一组第一训练信息，所述编码器对所述组第一训练信息进行特征转换，输出第二训练信息；所述注意力模块对所述第二训练信息进行加权处理，输出第三训练信息；所述全连接网络依据所述第三训练信息进行语音指令分类，输出对应的指令分类信息；依据所述组第一训练信息中参考类别标识和所述输出的指令分类信息，对所述识别模型的权值进行调整。

本发明实施例还公开了一种语音处理装置，具体包括：数据获取模块，用于获取待识别语音数据的第一特征信息；分类模块，用于采用识别模型对所述第一特征信息进行处理，确定对应的指令分类信息，所述识别模型依据从各段语音训练数据分别截取的多段数据进行训练；类别确定模块，用于依据所述指令分类信息，确定所述待识别语音数据对应的指令类别。

可选地，所述识别模型包括编码器、注意力模块和全连接网络；所述分类模块包括：特征转换子模块，用于所述编码器对所述第一特征信息进行特征转换，输出第二特征信息；特征信息截取子模块，用于所述注意力模块从所述第二特征信息中截取第三特征信息；加权处理子模块，用于对所述第三特征信息进行加权处理，输出第四特征信息；语音指令分类子模块，用于所述全连接网络依据所述第四特征信息进行语音指令分类，输出对应的指令分类信息。

可选地，所述特征信息截取子模块，用于所述注意力模块采用第一滑窗对所述第二特征信息进行截取，得到第三特征信息。

可选地，所述指令类别包括预设指令类别和其他类别，所述其他类别是除预设指令类别之外的类别，所述第一滑窗包括第一子滑窗和第二子滑窗，所述第一子滑窗的窗长大于第二子滑窗的窗长；所述特征信息截取子模块，用于所述注意力模块采用第一子滑窗对所述第二特征信息进行截取；若依据所述第一子滑窗截取的第二特征信息确定的指令类别是预设指令类别，则执行所述预设指令类别对应的指令；若依据所述第一子滑窗截取的所述第二特征信息确定的指令类别是其他类别，则采用所述第二子滑窗对所述第二特征信息进行截取。

可选地，所述第三特征信息为M*N的矩阵，所述M，N为正整数；所述加权处理子模块，用于将第三特征信息的M行对应列的数值分别进行加权计算，得到所述第四特征信息，所述第四特征信息为N维向量。

可选地，所述指令分类信息包括多个类别标识和各类别标识对应的概率，所述类别标识包括预设指令类别标识和其他类别标识；所述类别确定模块，用于确定概率最大的类别标识；若概率最大的类别标识是预设指令类别标识且最大概率大于预设概率阈值，则确定所述待识别语音数据对应的指令类别为所述概率最大的类别标识对应的预设指令类别；若概率最大的类别标识是其他类别标识，或，概率最大的类别标识是预设指令类别标识且最大概率小于所述预设概率阈值，则确定所述待识别语音数据对应的指令类别为其他类别。

可选地，所述的装置包括，指令执行模块，用于执行所述待识别语音数据的预设指令类别对应的操作。

可选地，所述的装置包括：数据收集模块，用于收集多段语音训练数据，确定各段语音训练数据对应的第一特征训练信息；信息确定模块，用于依据多个所述第一特征训练信息，确定多组第一训练信息；模型训练模块，用于采用所述多组第一训练信息对所述识别模型进行训练。

可选地，所述信息确定模块包括：窗长确定子模块，用于针对一个第一特征训练信息，依据对应语音训练数据中指令部分的帧长确定第二滑窗的窗长；特征信息确定子模块，用于采用所述第二滑窗在所述第一特征训练信息上按照第二设定步长滑动，得到对应的第二特征训练信息；信息生成子模块，用于依据多段所述第二特征训练信息，生成多组所述第一训练信息。

可选地，所述多组语音训练数据包括多组正样例语音训练数据和多组负样例语音训练数据，所述第一特征训练信息包括正样例特征训练信息和负样例特征训练信息，所述正样例特征训练信息与所述正样例语音训练数据对应，所述负样例特征训练信息与所述负样例语音训练数据；所述信息生成子模块，包括：第一训练信息确定单元，用于依据所述正样例特征训练信息对应的第二特征训练信息和所述负样例特征训练信息对应的第二特征训练信息，确定所述正样例训练信息和所述负样例训练信息；第二训练信息确定单元，用于针对一个所述正样例训练信息，确定与所述正样例训练信息帧长相同的P个负样例训练信息，P为正整数；标识设置单元，用于将所述正样例训练信息的参考类别标识设置为预设指令参考类别标识，以及将所述P个负样例训练信息的参考类别标识分别设置为其他参考类别标识；第三训练信息确定单元，用于将所述正样例训练信息、所述正样例训练信息对应的参考类别标识、所述P个负样例训练信息和所述P个负样例训练信息对应的参考类别标识，确定为一组第一训练信息。

可选地，所述第一训练信息确定单元，用于针对一段所述正样例特征训练信息，确定对应正样例语音训练数据中指令部分对应的帧位置信息；依据所述帧位置信息，将包含指令部分的第二特征训练信息确定为所述正样例训练信息；将其他第二特征训练信息确定为负样例训练信息，所述其他第二特征训练信息包括负样例特征训练信息对应的第二特征训练信息，和，除包含指令部分的第二特征训练信息外的其他正样例特征训练信息对应的第二特征训练信息。

可选地，所述识别模型包括编码器、注意力模块和全连接网络；所述模型训练模块，用于分别采用各组第一训练信息对所述识别模型进行训练：针对一组第一训练信息，所述编码器对所述组第一训练信息进行特征转换，输出第二训练信息；所述注意力模块对所述第二训练信息进行加权处理，输出第三训练信息；所述全连接网络依据所述第三训练信息进行语音指令分类，输出对应的指令分类信息；依据所述组第一训练信息中参考类别标识和所述输出的指令分类信息，对所述识别模型的权值进行调整。

本发明实施例还公开了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如本发明实施例任一所述的语音处理方法。

本发明实施例还公开了一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取待识别语音数据的第一特征信息；采用识别模型对所述第一特征信息进行处理，确定对应的指令分类信息，所述识别模型依据从各段语音训练数据分别截取的多段数据进行训练；依据所述指令分类信息，确定所述待识别语音数据对应的指令类别。

可选地，所述电子设备包含用于进行以下操作的指令：执行所述待识别语音数据的预设指令类别对应的操作。

可选地，所述电子设备包含用于进行以下训练所述识别模型的指令：收集多段语音训练数据，确定各段语音训练数据对应的第一特征训练信息；依据多个所述第一特征训练信息，确定多组第一训练信息；采用所述多组第一训练信息对所述识别模型进行训练。

本发明实施例包括以下优点：

本发明实施例中，可以获取待识别语音数据的第一特征信息，然后采用识别模型对所述第一特征信息进行处理，确定对应的指令分类信息，再依据所述指令分类信息，确定所述待识别语音数据对应的指令类别；其中，所述识别模型可以是依据从各段语音训练数据分别截取的多段数据进行训练的，因此该识别模型能够学习到较多的发音模式，从而能够减少将非语音指令识别成语音指令的概率，降低语音指令的误识别率。

附图说明

图1是本发明的一种语音处理方法实施例的步骤流程图；

图2是本发明的一种识别模型的训练方法实施例的步骤流程图；

图3是本发明的一种语音处理方法可选实施例的步骤流程图；

图4是本发明的一种语音处理装置实施例的结构框图；

图5是本发明的一种语音处理装置可选实施例的结构框图；

图6根据一示例性实施例示出的一种用于语音处理的电子设备的结构框图；

图7是本发明根据另一示例性实施例示出的一种用于语音处理的电子设备的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例的核心构思之一是，采用依据从各段语音训练数据中分别截取的多段数据进行训练的识别模型，对待识别语音数据进行识别，确定对应的指令类别；由于采用从各段语音训练数据中分别截取的多段数据进行训练后，能够学习到较多的发音模式，进而能够减少将非语音指令识别成语音指令的概率，降低了语音指令的误识别率。

参照图1，示出了本发明的一种语音处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤102、获取待识别语音数据的第一特征信息。

本发明实施例中，智能设备可以采集语音数据，然后针对采集的语音数据进行指令识别，进而在确定语音数据对应的指令后，执行对应的操作；如智能设备为智能空调，则可以执行降低/升高温度、切换模式等，又如智能设备为智能电视，则可以执行调高/降低音量等。其中，可以将需要进行指令识别的语音数据称为待识别语音数据，然后对所述待识别语音数据进行特征提取，得到对应的第一特征信息，以依据所述第一特征信息对待识别语音数据进行指令识别；其中，一帧待识别语音数据可以对应一帧第一特征信息，一帧第一特征信息可以包括多个维度，本发明实施例对此不作限制。

步骤104、采用识别模型对所述第一特征信息进行处理，确定对应的指令分类信息，所述识别模型依据从各段语音训练数据分别截取的多段数据进行训练。

步骤106、依据所述指令分类信息，确定所述待识别语音数据对应的指令类别。

本发明实施例中，可以预先训练识别模型，其中，在训练过程中，可以从每一段语音训练数据中截取多段语音训练数据，然后依据各段语音训练数据对应的特征信息对该识别模型进行训练。进而使得识别模型能够学习到较多的发音模式，降低识别模型语音指令的误识别率。具体的训练过程在后续进行说明。进而后续可以将所述第一特征信息输入至训练后的识别模型，该识别模型对所述第一特征信息进行处理后，输出对应的指令分类信息。其中，所述指令分类信息可以包括各指令类别对应的概率，所述指令类别可以包括预设指令类别和其他类别，所述预设指令类别包含的信息可以包括用于唤醒智能设备执行对应操作的预设指令。不同智能设备对应的预设指令可以不同，例如智能空调的预设指令可以包括“升高温度”、“降低温度”、“打开空调”和“关闭空调”；智能电视的预设指令可以包括“调大音量”、“降低音量”、“打开电视”和“关闭电视”等等。所述其他类别可以包括除预设指令类别之外的类别，所述其他类别包含的信息可以包括无法唤醒智能执行对应操作的所有信息(可以包括指令和非指令)。因此可以依据各指令类别对应的概率，确定待识别语音数据对应的指令类别，例如可以将概率最大的指令类别，确定为待识别语音数据的指令类别。进而在确定待识别语音数据对应的指令类别是预设指令类别后，可以执行该预设指令类别对应的操作，当然在确定待识别语音数据对应的指令类别是其他类别后，可以继续获取下一段待识别语音数据，然后对下一段待识别语音数据进行指令识别。

综上，本发明实施例中，可以获取待识别语音数据的第一特征信息，然后采用识别模型对所述第一特征信息进行处理，确定对应的指令分类信息，再依据所述指令分类信息，确定所述待识别语音数据对应的指令类别；其中，所述识别模型可以是依据从各段语音训练数据分别截取的多段数据进行训练的，因此该识别模型能够学习到较多的发音模式，从而能够减少将非语音指令识别成语音指令的概率，降低语音指令的误识别率。

本发明的另一个实施例中，所述待识别语音数据可以包括指令部分和其他部分，所述指令部分可以是指文本对应的语音部分，所述其他部分可以是指待识别语音数据中除指令部分之外的部分；所述识别模型可以是基于注意力机制的模型，进而能够对第一特征信息中不同帧的信息赋予不同的权重，从而使得关注的待识别语音数据中指令部分更为突出。本发明的一个示例中，所述基于注意力机制的模型可以包括编码器、注意力模块和分类网络，三者依次连接；当然所述基于注意力机制的模型也可以划分为其他数量的多个部分，具体可以按照需求设置，本发明实施例对此不作限制。以下对识别模型的训练过程进行详细说明，具体如下：

参照图2，示出了本发明的一种识别模型的训练方法实施例的步骤流程图，具体可以包括如下步骤：

步骤202、收集多段语音训练数据，确定各段语音训练数据对应的第一特征训练信息。

本发明实施例中，可以收集多段语音训练数据，其中，所述多段语音训练数据可以包括多段预设指令类别对应的语音训练数据，也可以包括其他类别对应的语音训练数据。其中，不同的预设指令可以属于同一个预设指令类别，例如预设指令1“调高温度”和预设指令2“把温度调高”，可以属于调高温度类别；因此可以收集同一预设指令类别的不同预设指令对应的语音训练数据，以使得训练后的识别模型对不同表达方式的同一预设指令均可以识别，通用性高。

然后针对每一段语音训练数据，均可以进行特征提取，得到对应的第一特征训练信息；其中，一段语音训练数据中的每一帧，均可以对应一帧第一特征训练信息，一帧第一特征训练信息的可以对应N个维度，N为正整数，可以按照需求设置如122维，本发明实施例对此不作限制；例如一段语音训练数据为180帧，则对应的第一特征训练信息可以为180*122的矩阵。

步骤204、依据多个所述第一特征训练信息，确定多组第一训练信息。

本发明实施例中，为了使得识别模型能学习到多种发音模式，可以针对每一个第一特征训练信息，从该第一特征训练信息中截取出多段第二特征训练信息，然后依据多段第二特征训练信息，生成多组第一训练信息，再采用多组第一训练信息对识别模型进行训练；其中，所述依据多个所述第一特征训练信息，确定多组第一训练信息，可以通过如下子步骤实现：

子步骤22、针对一个第一特征训练信息，依据对应语音训练数据中指令部分的帧长确定第二滑窗的窗长。

本发明实施例中，针对每一个第一特征训练信息，可以采用第二滑窗在该第一特征训练信息上滑动，截取多段第二特征训练信息；因此可以预先确定各个第一特征训练信息对应的第二滑窗的窗长，具体如下：

本发明实施例中，每段语音训练数据可以包括指令部分和其他部分，不同语音训练数据中，指令部分包含的文本数量可能不同；因此为了降低误识别率，对指令部分包含相同文本数量的语音训练数据，可以采用相同窗长的第二滑窗在这些语音训练数据的第一特征训练信息进行滑动，截取对应的第二特征训练信息。以下为了便于描述如何确定第二滑窗的窗长，可以先确定各段语音训练数据中指令部分对应的文本数量，然后将指令部分包含相同文本数量的语音训练数据，称为一组语音训练数据；然后针对每组语音训练数据可以进行如下处理：对这组语音训练数据中的各段语音训练数据进行预对齐处理，确定各段语音训练数据的指令部分对应的帧长度；然后依据各段语音训练数据中指令部分对应的帧长度，确定这组语音训练数据的指令部分对应的平均帧长。然后再依据每个文本对应的常规帧长范围如20帧～30帧，确定这组语音训练数据的指令部分对应的常规帧长范围；再依据这组语音训练数据的指令部分对应的帧长平均值和常规帧长范围，确定这组语音训练数据的对应的窗长(即这组语音训练数据对应第一特征训练信息的窗长)；其中，这组语音训练数据的对应的窗长，可以大于这组语音训练数据的指令部分的帧长平均值。例如语音训练数据为5500段，其中，指令部分包含2个文本的语音训练数据1000段，指令部分包含3个文本的语音训练数据1500段，指令部分包含4个文本数量的语音训练数据为1000段，指令部分包含5个文本的语音训练数据2000段；则可以将指令部分包含2个文本的1000段语音训练数据作为一组语音训练数据(如第一组)，将指令部分包含3个文本的1500段语音训练数据作为另一组语音训练数据(如第二组)将指令部分包含4个文本的1000段语音训练数据作为又一组语音训练数据(如第三组)，将指令部分包含5个文本的2000段语音训练数据作为再一组语音训练数据(如第四组)。以下以第一组语音训练数据为例，说明确定这组语音训练数据对应窗长的过程：可以对这1000段语音训练数据进行预对齐处理，确定这1000段语音训练数据中各段语音训练数据中指令部分的帧长度；然后依据这1000段语音训练数据中指令部分对应的帧长度，确定第一组语音训练数据的指令部分对应的平均帧长如L1；以此类推，可以确定第二组语音训练数据的指令部分对应的平均帧长如L2，确定第三组语音训练数据的指令部分对应的平均帧长如L3，确定第四组语音训练数据的指令部分对应的平均帧长如L4。若一个文本对应的常规帧长范围为20帧～30帧，则第一组语音训练数据的指令部分对应的常规帧长范围为40～60帧，第二组语音训练数据的指令部分对应的常规帧长范围为60～90帧，第三组语音训练数据的指令部分对应的常规帧长范围为80～120帧，第四组语音训练数据的指令部分对应的常规帧长范围为100～150帧。然后依据每组语音训练数据的指令部分对应的帧长平均值和常规帧长范围，确定该组语音训练数据对应的窗长，例如第一组语音训练数据的指令部分对应的常规帧长范围为40～60帧，L1＝50帧，则可以确定第一组语音训练数据对应的窗长为60帧；第二组语音训练数据的指令部分对应的常规帧长范围为60～90帧，L2＝70帧，则可以确定第二组语音训练数据对应的窗长为90帧；第三组语音训练数据的指令部分对应的常规帧长范围为80～120帧，L3＝100帧，则可以确定第三组语音训练数据对应的窗长为120帧；第四组语音训练数据的指令部分对应的常规帧长范围为100～150帧，L4＝140帧，则可以确定第四组语音训练数据对应的窗长为150帧。

子步骤24、采用所述第二滑窗在所述第一特征训练信息上按照第二设定步长滑动，得到对应的第二特征训练信息。

然后针对每个第一特征训练信息，可以采用对应窗长的第二滑窗在该第一特征训练信息上按照第二设定步长滑动，从该第一特征训练信息上截取多段第二特征信息；其中，所述第二设定步长可以按照需求设置如5帧，本发明实施例对此不作限制。

子步骤26、依据多段所述第二特征训练信息，生成多组第一训练信息。

本发明实施例中，所述指令部分包括可以包括预设指令类别对应信息(即预设指令)的语音部分，也可以包括其他类别对应信息的语音部分。进而通过采用预设指令的语音训练数据和其他类别对应信息的语音训练数据对识别模型进行训练，使得识别模型能够输出指令分类信息。其中，可以将包含预设指令对应的语音部分和其他部分的语音训练数据，称为正样例语音训练数据，将包含其他类别对应信息的语音部分和其他部分的语音训练数据，称为负样例语音训练数据；其中，所述负样例语音训练数据可以是智能设备回收的语音数据。以及可以将正样例语音训练数据对应的第一特征训练信息称为正样例特征训练信息，将负样例语音训练数据对应的第一特征训练信息称为负样例特征训练信息；上述子步骤26可以参照如下子步骤42-48实现：

子步骤42、依据正样例特征训练信息对应的第二特征训练信息和负样例特征训练信息对应的第二特征训练信息，确定正样例训练信息和负样例训练信息。

本发明实施例中，从正样例特征训练信息截取的第二特征训练信息中，可能有些第二特征训练信息只包含其他部分，有些第二特征训练信息包含其他部分和指令部分，有些第二特征训练信息只包含指令部分；对于只包含其他部分，和，只包含小比例指令部分和大比例其他部分的第二特征信息，是无法包含比较完整的预设指令的；因此可以将这部分的第二特征信息作为负样例训练信息。而对与只包含指令部分，和，包含大比例指令部分和小比例其他部分的第二特征训练信息，可能包含比较完整的预设指令的；因此可以从这些第二特征训练信息选取正样例训练信息，将其他未选取的作为负样例训练信息。以及可以将所有负样例特征训练信息截取的信息第二特征训练信息。其中，子步骤42可以参照如下子步骤62-66实现：

子步骤62、针对一段正样例特征训练信息，确定对应正样例语音训练数据中指令部分对应的帧位置信息。

子步骤64、依据所述帧位置信息，将包含指令部分的第二特征训练信息确定为正样例训练信息。

子步骤66、将其他第二特征训练信息确定为负样例训练信息，所述其他第二特征训练信息包括负样例特征训练信息对应的第二特征训练信息，和，除包含指令部分的第二特征训练信息外的其他正样例特征训练信息对应的第二特征训练信息。

本发明实施例中，在对语音训练数据进行预对齐处理的过程中，还可以确定指令部分对应的帧位置信息，所述帧位置信息可以包括指令部分起始帧的位置和结束帧的位置。然后在对每个正样例特征训练信息进行滑窗时，可以根据该帧位置信息、第二滑窗的窗长和第二设定步长，确定包含指令部分的第二特征训练信息，并将该第二特征训练信息确定为正样例训练信息。其中，所述包含指令部分的第二特征训练信息可以是指：第二特征训练信息中的指令部分与正样例特征训练信息中指令部分的比值大于预设比例，所述预设比例可以按照需求设置如90％；例如，正样例特征训练信息中指令部分为60帧，对应截取的某一第二特征训练信息中指令部分是58帧，因此将该第二特征训练信息确定为正样例训练信息。然后可以将负样例特征训练信息对应的第二特征训练信息，和，除包含指令部分的第二特征训练信息外的其他正样例特征训练信息对应的第二特征训练信息，均确定为负样例训练信息。

例如，若正样例语音训练数据的长度为a帧，指令部分的帧位置信息为(m,n)，即起始位置为第m帧，结束位置为第n帧(m<n<＝a，m、n、a均为正整数)；若第二滑窗的窗长为l，第二设定步长为5帧，则当指令部分的帧长度和第二滑窗的窗长的大小不同，对应确定正样例训练数据的方式不同。一种情况是n-m<l，在这种情况下对整段正样例特征训练信息从0开始不断以窗长l，窗移动第二设定步长取窗；若存在窗(即第二特征训练信息)的起始位置小于第m+5帧，取的窗的结束位置大于第n-5帧，则为将段窗确定为正样例训练信息，将其他窗确定为负样例训练信息；若不存在这样的窗，则该段正样例特征训练信息不存在正样例训练信息。又一种情况是n-m>l，此时可以直接截取第m帧到第n帧中间一段l长的语音作为正样例训练信息，然后可以对整段正样例特征训练信息从0开始不断以窗长l，窗移动第二设定步长取窗，将滑窗得到的所有窗中除去上述得到的正样例训练信息的窗之外的窗，作为负样例训练信息。再一种情况是n-m>2*l，此时可以对整段正样例特征训练信息从0开始不断以窗长l，窗移动第二设定步长取窗，将滑窗得到的所有的窗作为负样例训练信息，不从截取的第二特征训练信息选取正样例训练信息。

子步骤44、针对一个正样例训练信息，确定与所述正样例训练信息帧长相同的P个负样例训练信息。

子步骤46、将所述正样例训练信息的参考类别标识设置为预设指令参考类别标识，以及将所述P个负样例训练信息的参考类别标识分别设置为其他参考类别标识。

子步骤48、将所述正样例训练信息、所述正样例训练信息对应的参考标识、所述P个负样例训练信息和所述P个负样例训练信息对应的参考标识，确定为一组第一训练信息。

然后可以将一个正样例训练信息和多个负样例训练信息作为一组第一训练信息，对识别模型进行训练，提高模型训练的效率；其中，可以针对一个正样例训练信息，确定与所述正样例训练信息帧长相同的P个负样例训练信息，所述P是正整数，具体可以按照需求设置如按照正样例训练信息和负样例训练信息的比例(如1:20～1:40)确定。再将所述正样例训练信息的参考类别标识设置为预设指令参考类别标识，以及将所述多个负样例训练信息的参考类别标识分别设置为其他参考类别标识；所述预设指令参考类别标识可以用于标识预设指令参考类别，所述其他参考类别标识可以用于标识其他参考类别，本发明实施例对此不作限制。然后将所述正样例训练信息、所述正样例训练信息对应的参考类别标识、所述P个负样例训练信息和所述多个负样例训练信息对应的参考类别标识，确定为一组第一训练信息。

步骤206、采用所述多组第一训练信息对所述识别模型进行训练。

本发明实施例中，每次可以采用一组第一训练信息，对所述识别模型进行训练，以下采用一组第一训练信息训练所述识别模型为例进行说明，可以参照如下子步骤82-84：

子步骤82、针对一组第一训练信息，所述编码器对所述组第一训练信息进行特征转换，输出第二训练信息。

本发明实施例中，识别模型的训练可以包括正向训练和反向训练，其中，正向训练：将一组第一训练信息输入至编码器中，由编码器对所述第一组训练信息进行特征转换，得到第二训练信息，并将所述第二训练信息输出至注意力模块。例如第一训练信息为X*Y*Z的矩阵，其中，X为这组第一训练信息中正样例训练信息和负样例训练信息的总和，Y为每段正样例训练信息或负样例训练信息对应的帧数，Z为每帧正样例训练信息或负样例训练信息对应的维度；将第一训练信息输入至编码器后，编码器可以输出第二训练信息如X*Y*Z的矩阵至注意力模块。

子步骤84、所述注意力模块对所述第二训练信息进行加权处理，输出第三训练信息。

然后注意力模块对所述第二训练信息进行加权处理，得到第三训练信息，并将所述第三训练信息输出至全连接网络，其中，所述加权处理可以是针对一个正样例训练信息或负样例训练信息，将该训练信息不同帧对应的维度的数值乘以对应的权重后相加；例如第二训练信息为X*Y*Z的矩阵，X＝a，Y＝b，Z＝c，即第二训练信息包括a个训练信息(包括正样例训练信息和负样例训练信息)，一个训练信息包括b帧，每一帧有c个维度，则每一个正样例训练信息或负样例训练信息(即每一个维度的X)均为b*c的矩阵：

然后对第二训练信息一个维度的X进行加权计算，可以是将第一列的各个元素进行加权计算如:D11*H1+D21*H2+...+Db1*Hb＝G1，其中，H1为第一帧对应的权重，H2为第二帧对应的权重，…，依次类推，Hb为第b帧对应的权重，同一帧中不同维度的权重相同；再将第二列的各个元素进行加权计算如：D12*H1+D22*H2+...+Db2*Hb＝G2；以此类推，将第c列的各个元素进行加权计算：D1c*H1+D2c*H2+...+Dbc*Hb＝Gc；进而可以得到一个正样例训练信息或负样例训练信息对应的第三训练信息[G1,G2,...,Gc]，为1*c的矩阵。在对第二训练信息中a个训练信息的各个维度进行加权计算后，可以得到第三训练信息为a*c的矩阵。

子步骤86、所述全连接网络依据所述第三训练信息进行语音指令分类，输出对应的指令分类信息。

然后全连接信息可以依据所述第三训练信息进行语音指令分类，确定对应的指令分类信息，其中，所述指令分类信息可以包括类别标识和类别标识对应的概率，所述类别标识可以包括预设指令类别标识和其他类别标识，所述预设指令类别标识用于表示预设指令类别，所述其他类别标识用于其他类别。

子步骤88、依据所述组第一训练信息中参考类别标识和所述输出的指令分类信息，对所述识别模型的权值进行调整。

然后依据该组第一训练信息中正样例训练信息对应的预设指令参考类别标识，与输出的指令分类信息中该正样例训练信息的类别标识和各类别标识对应的概率，以及依据该组第一训练信息中负样例训练信息对应的其他参考类别标识，与输出的指令分类信息中该负样例训练信息的类别标识和各类别标识对应的概率，对所述识别模型的权值进行调整，例如采用adam算法作为反向训练算法，对识别模型的权值进行调整；直至输出的指令分类信息中，与正样例训练信息对应预设指令参考类别标识相同的预设指令类别标识对应概率最大且趋近于1，以及与负样例训练信息对应其他参考类别标识相同的其他类别标识对应概率趋近于0为止。

本发明的一个示例中，所述编码器可以是深度神经网络(Deep Neural Networks，DNN)、卷积神经网络(Convolutional Neural Networks，CNN)、以及CNN-LSTM-DNN，(其中，LSTM(Long Short-Term Memory，长短期记忆网络))，GRU网络(Gated Recurrent Unity，门控单元)等网络结构；所述注意力模块和分类网络均可以是全连接网络；本发明对此均不作限制。

本发明实施例中，可以收集多段语音训练数据，确定各段语音训练数据对应的第一特征训练信息，依据多个所述第一特征训练信息，确定多组第一训练信息，采用所述多组第一训练信息对所述识别模型进行训练；其中，可以针对每一个第一特征训练信息，采用第二滑窗在所述第一特征训练信息上按照第二设定步长滑动，得到对应的第二特征训练信息，然后依据多段所述第二特征训练信息，生成多组第一训练信息；进而识别网络可以学习到较多的发音模式，从而在使用该识别网络确定待识别语音数据的指令中，可以降低误识别率。

参照图3，示出了本发明的一种语音处理方法可选实施例的步骤流程图，具体可以包括如下步骤：

步骤302、获取待识别语音数据的第一特征信息。

本发明实施例中，智能设备在获取待识别语音数据后，可以对待识别语音数据进行指令识别，确定对应的指令类别。其中，智能设备可以实时的对待识别语音数据进行指令识别，例如智能设备可以在每获取1帧待识别语音数据后，可以对这1帧待识别语音数据进行特征提取，得到这一帧待识别语音数据对应的第一特征信息，然后将这1帧第一特征信息输入至识别模型；也可以在获取多帧待识别语音数据后，提取多帧待识别语音数据对应的第一特征信息，然后将多帧第一特征信息输入至识别模型中，本发明实施例对此不作限制。

所述识别模型在接收到第一特征信息后，可以对第一特征信息进行处理，然后输出对应的语音指令信息；其中，可以参考步骤304-步骤310：

步骤304、所述编码器对所述第一特征信息进行特征转换，输出第二特征信息。

本发明实施例中，识别模型中的编码器可以对接收到的每一帧第一特征信息进行特征转换，得到各帧第一特征信息对应的第二特征信息；其中，一帧第一特征信息和对应的第二特征信息均可以是N维的向量，所述N是正整数。

步骤306、所述注意力模块从所述第二特征信息中截取第三特征信息。

本发明实施例中，智能设备在采集待识别语音数据的过程中，可以不断的将每一帧待识别语音数据的第一特征信息输入至编码器，进而编码器可以不断的输出第二特征信息；注意力模块可以在编码器输出的第二特征信息中，截取出设定帧数的特征信息(后续可以称为第三特征信息)，再对设定帧数的第三特征信息进行处理，所述设定帧数可以按照需求设置，本发明实施例对此不作限制。

本发明实施例中，注意力模块可以采用第一滑窗对第二特征信息进行截取，得到第三特征信息；其中，所述第一滑窗的窗长可以是上述设定帧数。本发明实施例中，为了可以对包含不同数量文本的预设指令进行识别，可以采用多种不同窗长的滑窗在第二特征信息上滑动进行截取，得到对应的第三特征信息；其中，可以先采用窗长大的滑窗在第二特征信息上滑动进行截取，得到对应的第三特征信息，再采用窗长小的滑窗在第二特征信息上滑动进行截取，得到对应的第三特征信息。本发明实施例中，注意力模块在第二特征信息上进行滑动的滑窗数量，以及各个滑窗的大小可以按照需求设置，本发明实施例对此不作限制；其中，注意力模块采用不同窗长的滑窗对第二特征信息上进行截取，得到第三特征信息的过程在后续进行说明。其中，所述第三特征信息可以包括M帧第二特征信息，可以是M*N的矩阵，所述M是第一滑窗的窗长，M是正整数。当然，所述注意力模块也可以采用其他的方式从所述第二特征信息中截取第三特征信息，本发明实施例对此不作限制。

步骤308、所述注意力模块对所述第三特征信息进行加权处理，输出第四特征信息。

所述注意力模块在截取到第三特征信息后，可以对所述第三特征信息进行加权处理，得到对应的第四特征信息；其中，将第三特征信息的M行对应列的数值分别进行加权计算，得到第四特征信息，所述第四特征信息为N维向量。本步骤中注意力模块加权处理的过程，与上述识别模型训练过程中子步骤84类似，在此不再赘述。

然后可以将得到的第四特征信息输出至全连接网络，由全连接网络对该第四特征信息进行处理，可参照步骤310：

步骤310、所述全连接网络依据所述第四特征信息进行语音指令分类，输出对应的指令分类信息。

本发明实施例中，所述全连接网络可以依据第四特征信息，进行语音指令分类，输出对应的指令分类信息；其中，所述指令分类信息包括多个类别标识和各类别标识对应的概率，所述类别标识包括预设指令类别标识和其他类别标识，所述预设指令类别标识可以为多个，所述其他类别标识可以为一个，也可以为多个。进而后续可以按照各类别标识和对应的概率，确定对应待识别语音数据的指令类别。

步骤312、确定概率最大的类别标识。

步骤314、若概率最大的类别标识是预设指令类别标识且最大概率大于预设概率阈值，则确定所述待识别语音数据对应的指令类别为所述概率最大的类别标识对应的预设指令类别。

步骤316、若概率最大的类别标识是其他类别标识，或，概率最大的类别标识是预设指令类别标识且最大概率小于预设概率阈值，则确定所述待识别语音数据对应的指令类别为其他类别。

本发明实施例中，可以确定概率最大的类别标识，并判断最大概率是否大于预设概率阈值；若最大概率大于预设概率阈值且概率最大的类标识是预设指令类别标识，可以确定对应的待识别语音数据的指令是预设指令，此时可以确定所述待识别语音数据对应的指令类别为所述概率最大的指令标识对应的预设指令类别。若概率最大的类别标识是其他类别标识，或者，概率最大的类别标识是预设指令类别标识且最大概率小于预设概率阈值，可以确定对应的待识别语音数据不存在对应的预设指令，此时可以确定所述待识别语音数据对应的指令为其他类别。

步骤318、执行所述待识别语音数据的预设指令类别对应的操作。

在确定待识别语音数据对应的指令类别是预设指令类别后，智能设备可以被唤醒执行所述预设指令类别对应的操作，如智能设备是智能热水器，确定的指令类别启动热水器类别，则启动热水器进行加热。在确定待识别语音数据对应的指令类别是其他类别后，可以对下一段待识别语音数据进行指令识别，确定下一段待识别语音数据对应的指令类别。

以下对注意力模块采用第一子滑窗对所述第二特征信息进行截取的过程进行说明。

本发明的一个示例中，可以采用两种窗长不同的滑窗(第一子滑窗和第二子滑窗)在第二特征信息上进行截取，得到第三特征信息，即所述第一滑窗可以包括第一子滑窗和第二子滑窗；其中，一个子滑窗的窗长大于另一个子滑窗的窗长，以下以所述第一子滑窗的窗长大于第二子滑窗的窗长为例进行说明，可以包括如下子步骤：

子步骤S2、所述注意力模块采用第一子滑窗对所述第二特征信息进行截取。

子步骤S4、若依据第一子滑窗截取的第二特征信息确定的指令类别是预设指令类别，则执行所述预设指令类别对应的指令。

子步骤S6、若依据第一子滑窗截取的第二特征信息确定的指令类别是其他类别，则采用第二子滑窗对所述第二特征信息进行截取。

本发明一个示例中，子步骤S2～S6可以参照如下方式实现：

注意力模块可以先采用第一子滑窗对第二特征信息进行截取，得到对应的第三特征信息，然后可以执行上述步骤308-312；若确定对应帧的待识别语音数据的指令类别是预设指令类别，则可以执行所述预设指令类别对应的指令，以及可以从当前时刻对应的帧开始，执行所述采用第一子滑窗对第二特征信息进行截取，得到对应的第三特征信息的步骤。若确定对应帧的待识别语音数据的指令类别是其他类别，则可以采用第二子滑窗从上一次直接采用第一子滑窗截取位置的起始帧，开始对所述第二特征信息进行截取。

例如，第一子滑窗的窗长为180帧，第二子滑窗的窗长为100帧，注意力模块可以直接采用第一子滑窗对第二特征信息进行截取，得到对应的第三特征信息如截取第二特征信息的第1～180帧；若确定1～180帧对应的待识别语音数据对应的指令类别是预设指令类别，则可以执行所述预设指令类别对应的指令，以及可以从当前时刻对应的帧开始，执行所述采用第一子滑窗对第二特征信息进行截取，得到对应的第三特征信息的步骤，即将当前时刻对应的帧确定为第1帧。若确定1～180帧对应的待识别语音数据对应的指令类别是其他类别，则采用第二子滑窗从上一次直接采用第一子滑窗截取位置的起始帧，开始对所述第二特征信息进行截取，如截取第二特征信息第1～100帧。

本发明的一个示例中，在采用第二子滑窗在上一次采用第一子滑窗截取位置的起始帧，开始对第二特征信息进行截取后，得到对应的第三特征信息，依旧可以执行步骤上述步骤308-312；若确定对应帧的待识别语音数据的指令类别是预设指令类别，则可以执行所述预设指令类别对应的指令，以及可以从当前时刻对应的帧开始，执行所述采用第一子滑窗对第二特征信息进行截取，得到对应的第三特征信息的步骤。若确定对应帧的待识别语音数据的指令类别是其他类别，则可以采用第一子滑窗从上一次采用第一子滑窗截取位置的起始帧，滑动第一设定步长后对所述第二特征信息进行截取；其中，所述第一设定步长可以按照需求设置如5帧。

例如，基于上述示例，若确定1～100帧的待识别语音数据对应的指令类别为预设指令类别，则可以执行所述预设指令类别对应的指令，以及可以从当前时刻对应的帧开始，执行所述采用第一子滑窗对第二特征信息进行截取，得到对应的第三特征信息的步骤，即将当前时刻对应的帧确定为第1帧。若确定1～100帧的待识别语音数据对应的指令类别为其他类别，则可以采用第一子滑窗从上一次采用第一子滑窗截取位置的起始帧，滑动第一设定步长后对所述第二特征信息进行截取，如第一设定步长为5帧，则可以截取第二特征信息的第6帧～185帧。

本发明的一个示例中，在采用第一子滑窗从上一次采用第一子滑窗截取位置的起始帧，滑动第一设定步长后对所述第二特征信息进行截取后，可以执行步骤上述步骤308-312；若确定对应帧的待识别语音数据的指令类别是预设指令类别，则可以执行所述预设指令类别对应的指令，以及可以从当前时刻对应的帧开始，执行所述采用第一子滑窗对第二特征信息进行截取，得到对应的第三特征信息的步骤。若确定对应帧的待识别语音数据的指令类别是其他类别，则可以采用第二子滑窗从上一次采用第二子滑窗截取位置的起始帧，滑动第二设定步长后对所述第二特征信息进行截取；其中，所述第一设定步长可以按照需求设置如5帧。

例如，基于上述示例，若确定6～185帧的待识别语音数据对应的指令类别为预设指令类别，则执行所述预设指令类别对应的指令，以及可以从当前时刻对应的帧开始，执行所述采用第一子滑窗对第二特征信息进行截取，得到对应的第三特征信息的步骤，即可以将当前时刻对应的帧确定为第1帧。若确定6～185帧的待识别语音数据对应的指令类别为其他类别，则可以采用第二子滑窗从上一次采用第二子滑窗截取位置的起始帧，滑动第二设定步长后对所述第二特征信息进行截取，如第二设定步长为5帧，则可以截取第二特征信息的第6帧～105帧。

本发明的一个示例中，在采用第二子滑窗从上一次采用第二子滑窗截取位置的起始帧，滑动第二设定步长后对所述第二特征信息进行截取后，可以执行步骤上述步骤308-312；若确定对应帧的待识别语音数据的指令类别是预设指令类别，则可以执行所述预设指令类别对应的指令，以及可以从当前时刻对应的帧开始，执行所述采用第一子滑窗对第二特征信息进行截取，得到对应的第三特征信息的步骤，即可以将当前时刻对应的帧确定为第1帧。若确定对应帧的待识别语音数据的指令类别是其他类别，则可以采用第一子滑窗再次滑动第一设定步长后对所述第二特征信息进行截取。

例如，基于上述示例，若确定6～105帧的待识别语音数据对应的指令类别为预设指令类别，则可以执行所述预设指令类别对应的指令，以及可以从当前时刻对应的帧开始，执行所述直接采用第一子滑窗对第二特征信息进行截取，得到对应的第三特征信息的步骤，即可以将当前时刻对应的帧确定为第1帧。若确定6～105帧的待识别语音数据对应的指令类别为其他类别，则可以采用第一子滑窗再次滑动第一设定步长后对所述第二特征信息进行截取，如第一设定步长为5帧，则可以截取第二特征信息的第11帧～190帧。

本发明的一个示例中，在采用第一子滑窗再次滑动第一设定步长后对所述第二特征信息进行截取后，以执行步骤上述步骤308-312；若确定对应帧的待识别语音数据的指令类别是预设指令类别，则可以执行所述预设指令类别对应的指令，以及可以从当前时刻对应的帧开始，执行所述采用第一子滑窗对第二特征信息进行截取，得到对应的第三特征信息的步骤，即可以将当前时刻对应的帧确定为第1帧。若确定对应帧的待识别语音数据的指令类别是其他类别可以采用第二子滑窗再次滑动第二设定步长后对所述第二特征信息进行截取，如第二设定步长为5帧，则可以截取第二特征信息的第11帧～110帧。

以此类推，实现采用第一滑窗对所述第二特征信息进行截取，得到对应的第三特征信息。

综上，本发明实施例中，可以获取待识别语音数据的第一特征信息，然后采用识别模型对所述第一特征信息进行处理，确定对应的指令分类信息，再依据所述指令分类信息，确定所述待识别语音数据对应的指令类别；其中，所述识别模型可以是依据从各段语音训练数据分别截取的多段数据进行训练的，因此该识别模型能够学习到较多的发音模式，从而能够减少将非语音指令识别成语音指令的概率，降低语音指令识别的误识别率。

其次，本发明实施例中，所述识别模型包括编码器、注意力模块和全连接网络，所述采用识别模型对所述第一特征信息进行处理，确定对应的指令分类信息，包括：所述编码器对所述第一特征信息进行特征转换，输出第二特征信息；所述注意力模块从所述第二特征信息中截取第三特征信息；以及对所述第三特征信息进行加权处理，输出第四特征信息；所述全连接网络依据所述第四特征信息进行语音指令分类，输出对应的指令分类信息；进而采用注意力机制对待识别语音数据中不同帧的信息赋予不同的权重，从而使关注的待识别语音数据中指令部分更为突出，进一步降低了误识别率。

进一步，本发明实施例中，所述注意力模块采用第一滑窗对所述第二特征信息进行截取的过程中，可以先采用第一子滑窗对所述第二特征信息进行截取，若依据第一子滑窗截取的第二特征信息确定的指令类别是预设指令类别，则执行所述预设指令类别对应的指令；若依据第一子滑窗截取的第二特征信息确定的指令类别是其他类别，则采用第二子滑窗对所述第二特征信息进行截取；其中，所述第一子滑窗的窗长大于第二子滑窗的窗长，进而能够对不同文本数量的指令进行识别，便于用户灵活的设置语音指令，不仅提高模型的通用性，还提高了用户体验。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图4，示出了本发明的一种语音处理装置实施例的结构框图，具体可以包括如下模块：

数据获取模块402，用于获取待识别语音数据的第一特征信息；

分类模块404，用于采用识别模型对所述第一特征信息进行处理，确定对应的指令分类信息，所述识别模型依据从各段语音训练数据分别截取的多段数据进行训练；

类别确定模块406，用于依据所述指令分类信息，确定所述待识别语音数据对应的指令类别。

参照图5，示出了本发明的一种语音处理装置可选实施例的结构框图。

本发明一个可选的实施例中，所述识别模型包括编码器、注意力模块和全连接网络；

所述分类模块404包括：特征转换子模块4042，用于所述编码器对所述第一特征信息进行特征转换，输出第二特征信息；特征信息截取子模块4044，用于所述注意力模块从所述第二特征信息中截取第三特征信息；加权处理子模块4046，用于对所述第三特征信息进行加权处理，输出第四特征信息；语音指令分类子模块4048，用于所述全连接网络依据所述第四特征信息进行语音指令分类，输出对应的指令分类信息。

本发明一个可选的实施例中，所述特征信息截取子模块4044，用于所述注意力模块采用第一滑窗对所述第二特征信息进行截取，得到第三特征信息。

本发明一个可选的实施例中，所述指令类别包括预设指令类别和其他类别，所述其他类别是除预设指令类别之外的类别，所述第一滑窗包括第一子滑窗和第二子滑窗，所述第一子滑窗的窗长大于第二子滑窗的窗长；

所述特征信息截取子模块4044，用于所述注意力模块采用第一子滑窗对所述第二特征信息进行截取；若依据所述第一子滑窗截取的第二特征信息确定的指令类别是预设指令类别，则执行所述预设指令类别对应的指令；若依据所述第一子滑窗截取的所述第二特征信息确定的指令类别是其他类别，则采用所述第二子滑窗对所述第二特征信息进行截取。

本发明一个可选的实施例中，所述第三特征信息为M*N的矩阵，所述M，N为正整数；

所述加权处理子模块4046，用于将第三特征信息的M行对应列的数值分别进行加权计算，得到所述第四特征信息，所述第四特征信息为N维向量。

本发明一个可选的实施例中，所述指令分类信息包括多个类别标识和各类别标识对应的概率，所述类别标识包括预设指令类别标识和其他类别标识；

所述类别确定模块406，用于确定概率最大的类别标识；若概率最大的类别标识是预设指令类别标识且最大概率大于预设概率阈值，则确定所述待识别语音数据对应的指令类别为所述概率最大的类别标识对应的预设指令类别；若概率最大的类别标识是其他类别标识，或，概率最大的类别标识是预设指令类别标识且最大概率小于所述预设概率阈值，则确定所述待识别语音数据对应的指令类别为其他类别。

本发明一个可选的实施例中，所述的装置包括：

指令执行模块408，用于执行所述待识别语音数据的预设指令类别对应的操作。

本发明一个可选的实施例中，所述的装置包括：

数据收集模块410，用于收集多段语音训练数据，确定各段语音训练数据对应的第一特征训练信息；

信息确定模块412，用于依据多个所述第一特征训练信息，确定多组第一训练信息；

模型训练模块414，用于采用所述多组第一训练信息对所述识别模型进行训练。

本发明一个可选的实施例中，所述信息确定模块412包括：

窗长确定子模块4122，用于针对一个第一特征训练信息，依据对应语音训练数据中指令部分的帧长确定第二滑窗的窗长；

特征信息确定子模块4124，用于采用所述第二滑窗在所述第一特征训练信息上按照第二设定步长滑动，得到对应的第二特征训练信息；

信息生成子模块4126，用于依据多段所述第二特征训练信息，生成多组所述第一训练信息。

本发明一个可选的实施例中，所述多组语音训练数据包括多组正样例语音训练数据和多组负样例语音训练数据，所述第一特征训练信息包括正样例特征训练信息和负样例特征训练信息，所述正样例特征训练信息与所述正样例语音训练数据对应，所述负样例特征训练信息与所述负样例语音训练数据；

所述信息生成子模块4126，包括：

第一训练信息确定单元41262，用于依据所述正样例特征训练信息对应的第二特征训练信息和所述负样例特征训练信息对应的第二特征训练信息，确定所述正样例训练信息和所述负样例训练信息；

第二训练信息确定单元41264，用于针对一个所述正样例训练信息，确定与所述正样例训练信息帧长相同的P个负样例训练信息，P为正整数；

标识设置单元41266，用于将所述正样例训练信息的参考类别标识设置为预设指令参考类别标识，以及将所述P个负样例训练信息的参考类别标识分别设置为其他参考类别标识；

第三训练信息确定单元41268，用于将所述正样例训练信息、所述正样例训练信息对应的参考类别标识、所述P个负样例训练信息和所述P个负样例训练信息对应的参考类别标识，确定为一组第一训练信息。

本发明一个可选的实施例中，所述第一训练信息确定单元41262，用于针对一段所述正样例特征训练信息，确定对应正样例语音训练数据中指令部分对应的帧位置信息；依据所述帧位置信息，将包含指令部分的第二特征训练信息确定为所述正样例训练信息；将其他第二特征训练信息确定为负样例训练信息，所述其他第二特征训练信息包括负样例特征训练信息对应的第二特征训练信息，和，除包含指令部分的第二特征训练信息外的其他正样例特征训练信息对应的第二特征训练信息。

所述模型训练模块414，用于分别采用各组第一训练信息对所述识别模型进行训练：针对一组第一训练信息，所述编码器对所述组第一训练信息进行特征转换，输出第二训练信息；所述注意力模块对所述第二训练信息进行加权处理，输出第三训练信息；所述全连接网络依据所述第三训练信息进行语音指令分类，输出对应的指令分类信息；依据所述组第一训练信息中参考类别标识和所述输出的指令分类信息，对所述识别模型的权值进行调整。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图6是根据一示例性实施例示出的一种用于语音处理的电子设备600的结构框图。例如，电子设备600可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图6，电子设备600可以包括以下一个或多个组件：处理组件602，存储器604，电力组件606，多媒体组件608，音频组件610，输入/输出(I/O)的接口612，传感器组件614，以及通信组件616。

处理组件602通常控制电子设备600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件602可以包括一个或多个处理器620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理部件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。

存储器604被配置为存储各种类型的数据以支持在设备600的操作。这些数据的示例包括用于在电子设备600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件606为电子设备600的各种组件提供电力。电力组件606可以包括电源管理***，一个或多个电源，及其他与为电子设备600生成、管理和分配电力相关联的组件。

多媒体组件608包括在所述电子设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当电子设备600处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如，音频组件610包括一个麦克风(MIC)，当电子设备600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。

I/O接口612为处理组件602和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为电子设备600提供各个方面的状态评估。例如，传感器组件614可以检测到设备600的打开/关闭状态，组件的相对定位，例如所述组件为电子设备600的显示器和小键盘，传感器组件614还可以检测电子设备600或电子设备600一个组件的位置改变，用户与电子设备600接触的存在或不存在，电子设备600方位或加速/减速和电子设备600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件616被配置为便于电子设备600和其他设备之间有线或无线方式的通信。电子设备600可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件614经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件614还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由电子设备600的处理器620执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种语音处理方法，所述方法包括：获取待识别语音数据的第一特征信息；采用识别模型对所述第一特征信息进行处理，确定对应的指令分类信息，所述识别模型依据从各段语音训练数据分别截取的多段数据进行训练；依据所述指令分类信息，确定所述待识别语音数据对应的指令类别。

可选地，所述识别模型包括编码器、注意力模块和全连接网络；

所述采用识别模型对所述第一特征信息进行处理，确定对应的指令分类信息，包括：所述编码器对所述第一特征信息进行特征转换，输出第二特征信息；所述注意力模块从所述第二特征信息中截取第三特征信息；以及对所述第三特征信息进行加权处理，输出第四特征信息；所述全连接网络依据所述第四特征信息进行语音指令分类，输出对应的指令分类信息。

可选地，所述指令类别包括预设指令类别和其他类别，所述其他类别是除预设指令类别之外的类别，所述第一滑窗包括第一子滑窗和第二子滑窗，所述第一子滑窗的窗长大于第二子滑窗的窗长；

所述注意力模块采用第一滑窗对所述第二特征信息进行截取，包括：所述注意力模块采用第一子滑窗对所述第二特征信息进行截取；若依据所述第一子滑窗截取的第二特征信息确定的指令类别是预设指令类别，则执行所述预设指令类别对应的指令；若依据所述第一子滑窗截取的所述第二特征信息确定的指令类别是其他类别，则采用所述第二子滑窗对所述第二特征信息进行截取。

可选地，所述第三特征信息为M*N的矩阵，所述M，N为正整数；

所述对所述第三特征信息进行加权处理，输出第四特征信息，包括：将第三特征信息的M行对应列的数值分别进行加权计算，得到所述第四特征信息，所述第四特征信息为N维向量。

可选地，所述指令分类信息包括多个类别标识和各类别标识对应的概率，所述类别标识包括预设指令类别标识和其他类别标识；

所述依据所述指令分类信息，确定所述待识别语音数据对应的指令类别，包括：确定概率最大的类别标识；若概率最大的类别标识是预设指令类别标识且最大概率大于预设概率阈值，则确定所述待识别语音数据对应的指令类别为所述概率最大的类别标识对应的预设指令类别；若概率最大的类别标识是其他类别标识，或，概率最大的类别标识是预设指令类别标识且最大概率小于所述预设概率阈值，则确定所述待识别语音数据对应的指令类别为其他类别。

可选地，所述多组语音训练数据包括多组正样例语音训练数据和多组负样例语音训练数据，所述第一特征训练信息包括正样例特征训练信息和负样例特征训练信息，所述正样例特征训练信息与所述正样例语音训练数据对应，所述负样例特征训练信息与所述负样例语音训练数据；

所述依据多段所述第二特征训练信息，生成多组所述第一训练信息，包括：依据所述正样例特征训练信息对应的第二特征训练信息和所述负样例特征训练信息对应的第二特征训练信息，确定所述正样例训练信息和所述负样例训练信息；针对一个所述正样例训练信息，确定与所述正样例训练信息帧长相同的P个负样例训练信息，P为正整数；将所述正样例训练信息的参考类别标识设置为预设指令参考类别标识，以及将所述P个负样例训练信息的参考类别标识分别设置为其他参考类别标识；将所述正样例训练信息、所述正样例训练信息对应的参考类别标识、所述P个负样例训练信息和所述P个负样例训练信息对应的参考类别标识，确定为一组第一训练信息。

所述采用所述多组第一训练信息对所述识别模型进行训练，包括：分别采用各组第一训练信息对所述识别模型进行训练：针对一组第一训练信息，所述编码器对所述组第一训练信息进行特征转换，输出第二训练信息；所述注意力模块对所述第二训练信息进行加权处理，输出第三训练信息；所述全连接网络依据所述第三训练信息进行语音指令分类，输出对应的指令分类信息；依据所述组第一训练信息中参考类别标识和所述输出的指令分类信息，对所述识别模型的权值进行调整。

图7是本发明根据另一示例性实施例示出的一种用于语音处理的电子设备700的结构示意图。该电子设备700可以是服务器，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processing units，CPU)722(例如，一个或一个以上处理器)和存储器732，一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器722可以设置为与存储介质730通信，在服务器上执行存储介质730中的一系列指令操作。

服务器还可以包括一个或一个以上电源726，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口758，一个或一个以上键盘756，和/或，一个或一个以上操作***741，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取待识别语音数据的第一特征信息；采用识别模型对所述第一特征信息进行处理，确定对应的指令分类信息，所述识别模型依据从各段语音训练数据分别截取的多段数据进行训练；依据所述指令分类信息，确定所述待识别语音数据对应的指令类别。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种语音处理方法、一种语音处理装置和一种电子设备，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音处理方法，其特征在于，包括：

获取待识别语音数据的第一特征信息；

采用识别模型对所述第一特征信息进行处理，确定对应的指令分类信息，所述识别模型依据从各段语音训练数据分别截取的多段数据进行训练；

依据所述指令分类信息，确定所述待识别语音数据对应的指令类别。

2.根据权利要求1所述的方法，其特征在于，所述识别模型包括编码器、注意力模块和全连接网络；

所述采用识别模型对所述第一特征信息进行处理，确定对应的指令分类信息，包括：

所述编码器对所述第一特征信息进行特征转换，输出第二特征信息；

所述注意力模块从所述第二特征信息中截取第三特征信息；以及对所述第三特征信息进行加权处理，输出第四特征信息；

所述全连接网络依据所述第四特征信息进行语音指令分类，输出对应的指令分类信息。

3.根据权利要求2所述的方法，其特征在于，所述注意力模块从所述第二特征信息中截取第三特征信息，包括：

所述注意力模块采用第一滑窗对所述第二特征信息进行截取，得到第三特征信息。

4.根据权利要求3所述的方法，其特征在于，所述指令类别包括预设指令类别和其他类别，所述其他类别是除预设指令类别之外的类别，所述第一滑窗包括第一子滑窗和第二子滑窗，所述第一子滑窗的窗长大于第二子滑窗的窗长；

所述注意力模块采用第一滑窗对所述第二特征信息进行截取，包括：

所述注意力模块采用第一子滑窗对所述第二特征信息进行截取；

若依据所述第一子滑窗截取的第二特征信息确定的指令类别是预设指令类别，则执行所述预设指令类别对应的指令；

若依据所述第一子滑窗截取的所述第二特征信息确定的指令类别是其他类别，则采用所述第二子滑窗对所述第二特征信息进行截取。

5.根据权利要求2所述的方法，其特征在于，所述第三特征信息为M*N的矩阵，所述M，N为正整数；

所述对所述第三特征信息进行加权处理，输出第四特征信息，包括：

将第三特征信息的M行对应列的数值分别进行加权计算，得到所述第四特征信息，所述第四特征信息为N维向量。

6.根据权利要求1所述的方法，其特征在于，所述指令分类信息包括多个类别标识和各类别标识对应的概率，所述类别标识包括预设指令类别标识和其他类别标识；

所述依据所述指令分类信息，确定所述待识别语音数据对应的指令类别，包括：

确定概率最大的类别标识；

若概率最大的类别标识是预设指令类别标识且最大概率大于预设概率阈值，则确定所述待识别语音数据对应的指令类别为所述概率最大的类别标识对应的预设指令类别；

若概率最大的类别标识是其他类别标识，或，概率最大的类别标识是预设指令类别标识且最大概率小于所述预设概率阈值，则确定所述待识别语音数据对应的指令类别为其他类别。

7.根据权利要求6所述的方法，其特征在于，所述的方法包括：

执行所述待识别语音数据的预设指令类别对应的操作。

8.一种语音处理装置，其特征在于，包括：

数据获取模块，用于获取待识别语音数据的第一特征信息；

分类模块，用于采用识别模型对所述第一特征信息进行处理，确定对应的指令分类信息，所述识别模型依据从各段语音训练数据分别截取的多段数据进行训练；

类别确定模块，用于依据所述指令分类信息，确定所述待识别语音数据对应的指令类别。

9.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如方法权利要求1-7任一所述的语音处理方法。

10.一种电子设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取待识别语音数据的第一特征信息；