CN109785845B

CN109785845B - 语音处理方法、装置及设备

Info

Publication number: CN109785845B
Application number: CN201910082469.7A
Authority: CN
Inventors: 周仁泉; 何晓楠; 鞠强; 张刚; 温宗亮
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2021-08-03
Anticipated expiration: 2039-01-28
Also published as: CN109785845A; US11200899B2; US20200243085A1

Abstract

本发明实施例提供一种语音处理方法、装置及设备，该方法包括：终端设备获取第一语音信息；所述终端设备获取所述第一语音信息对应的响应信息，并根据所述响应信息的类型执行所述响应信息对应的操作，所述响应信息的类型为语音类型、文本类型、图像类型、视频类型、程序操作类型中的至少一种。提高了语音处理的灵活性。

Description

语音处理方法、装置及设备

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种语音处理方法、装置及设备。

背景技术

目前，很多终端设备(例如手机、平板电脑等)中设置有智能语音服务，终端设备可以通过智能语音服务接收用户输入的语音信息，并根据语音信息执行响应操作。

在实际应用过程中，终端设备根据语音信息执行的响应操作可以包括：对用户输入的语音信息进行应答、根据用户输入的语音信息拨打电话、发送信息等。在现有技术中，在终端设备中的智能语音服务被唤醒之后，终端设备可以监听用户输入的语音信息，在检测到语音信息之后，终端设备可以获取语音信息对应的响应信息，并执行响应信息对应的操作。在终端设备获取响应信息以及执行响应信息对应的操作的过程中，终端设备无法检测用户输入的语音信息，导致语音处理的灵活性差。

发明内容

本发明实施例提供一种语音处理方法、装置及设备，提高了语音处理的灵活性。

第一方面，本发明实施例提供一种语音处理方法，包括：

终端设备获取第一语音信息；

所述终端设备获取所述第一语音信息对应的响应信息，并根据所述响应信息的类型执行所述响应信息对应的操作，所述响应信息的类型为语音类型、文本类型、图像类型、视频类型、程序操作类型中的至少一种。

在一种可能的实施方式中，所述终端设备获取第一语音信息，包括：

所述终端设备通过第一执行对象获取第一语音信息；

所述终端设备获取所述第一语音信息对应的响应信息，并根据所述响应信息的类型执行所述响应信息对应的操作，包括：

所述终端设备通过第二执行对象获取所述第一语音信息对应的响应信息，并通过所述第二执行对象根据所述响应信息的类型执行所述响应信息对应的操作，所述第一执行对象和所述第二执行对象并行执行。

在一种可能的实施方式中，所述第一执行对象为第一线程，所述第二执行对象为第二线程。

在一种可能的实施方式中，所述第一执行对象为第一硬件处理部件，所述第二执行对象为第二硬件处理部件。

在一种可能的实施方式中，所述终端设备通过第二执行对象获取所述第一语音信息对应的响应信息，包括：

所述终端设备向服务器发送请求信息，所述请求信息包括语音表征信息，所述语音表征信息为根据所述第一语音信息确定的；

所述终端设备接收所述服务器发送的所述响应信息。

在一种可能的实施方式中，所述语音表征信息包括所述第一语音信息；

相应的，所述响应信息为所述服务器根据所述第一语音信息确定得到的。

在一种可能的实施方式中，所述终端设备向服务器发送请求信息之前，还包括：

所述终端设备获取所述第一语音信息的文本信息和音频特性；

相应的，所述语音表征信息包括所述文本信息和所述音频特性；所述响应信息为所述服务器根据所述文本信息和所述音频特性确定得到的。

在一种可能的实施方式中，所述音频特性包括所述第一语音信息的声纹、音量、长度、声波振幅、声波频率中的至少一种。

所述终端设备通过所述第二执行对象判断所述第一语音信息是否为真实的用户语句；

在所述终端设备确定所述第一语音信息为真实的用户语句时，所述终端设备通过所述第二执行对象生成所述响应信息。

在一种可能的实施方式中，所述终端设备通过所述第二执行对象判断所述第一语音信息是否为真实的用户语句，包括：

所述终端设备通过所述第二执行对象获取所述第一语音信息的特征信息，所述特征信息包括如下信息中的至少一种：所述第一语音信息的音频特性、所述第一语音信息的文本特性、所述第一语音信息的文本信息、所述第一语音信息的上下文信息、所述用户的交互行为特性，所述交互行为特性用于指示所述用户在所述终端设备中输入语音信息的行为特征；

所述终端设备根据所述第一语音信息的特征信息，获取所述第一语音信息为真实的用户语句的概率；

所述终端设备根据所述概率，判断所述第一语音信息是否为真实的用户语句。

在一种可能的实施方式中，所述终端设备通过所述第二执行对象根据所述响应信息的类型执行所述响应信息对应的操作，包括：

在所述响应信息的类型为语音类型时，所述终端设备播放所述语音类型的响应信息；

在所述响应信息的类型为文本类型或图像类型时，所述终端设备显示所述文本类型或所述图像类型的响应信息；

在所述响应信息的类型为视频类型时，所述终端设备播放所述视频类型的响应信息；

在所述响应信息的类型为程序操作类型时，所述终端设备执行所述响应信息对应的程序操作。

第二方面，本发明实施例提供一种语音处理装置，包括第一获取模块、第二获取模块和执行模块，其中，

所述第一获取模块用于，获取第一语音信息；

所述第二获取模块用于，获取所述第一语音信息对应的响应信息；

所述执行模块用于，根据所述响应信息的类型执行所述响应信息对应的操作，所述响应信息的类型为语音类型、文本类型、图像类型、视频类型、程序操作类型中的至少一种。

在一种可能的实施方式中，所述第一获取模块具体用于，通过第一执行对象获取第一语音信息；

所述第二获取模块具体用于，通过第二执行对象获取所述第一语音信息对应的响应信息，所述第一执行对象和所述第二执行对象并行执行；

所述执行模块具体用于，通过所述第二执行对象根据所述响应信息的类型执行所述响应信息对应的操作。

在一种可能的实施方式中，所述装置还包括发送模块和接收模块，其中，

所述发送模块用于，向服务器发送请求信息，所述请求信息包括语音表征信息，所述语音表征信息为根据所述第一语音信息确定的；

所述接收模块用于，接收所述服务器发送的所述响应信息。

在一种可能的实施方式中，所述装置还包括第三获取模块，其中，

所述第三获取模块用于，在所述终端设备向服务器发送请求信息之前，获取所述第一语音信息的文本信息和音频特性；

在一种可能的实施方式中，所述第二获取模块具体用于：

通过所述第二执行对象判断所述第一语音信息是否为真实的用户语句；

确定所述第一语音信息为真实的用户语句时，通过所述第二执行对象生成所述响应信息。

在一种可能的实施方式中，所述第二获取模块具体用于：

通过所述第二执行对象获取所述第一语音信息的特征信息，所述特征信息包括如下信息中的至少一种：所述第一语音信息的音频特性、所述第一语音信息的文本特性、所述第一语音信息的文本信息、所述第一语音信息的上下文信息、所述用户的交互行为特性，所述交互行为特性用于指示所述用户在所述终端设备中输入语音信息的行为特征；

根据所述第一语音信息的特征信息，获取所述第一语音信息为真实的用户语句的概率；

根据所述概率，判断所述第一语音信息是否为真实的用户语句。

在一种可能的实施方式中，所述执行模块具体用于：

在所述响应信息的类型为语音类型时，播放所述语音类型的响应信息；

在所述响应信息的类型为文本类型或图像类型时，显示所述文本类型或所述图像类型的响应信息；

在所述响应信息的类型为程序操作类型时，执行所述响应信息对应的程序操作。

第三方面，本发明实施例提供一种语音处理装置，包括：处理器，所述处理器与存储器耦合；

所述存储器用于，存储计算机程序；

所述处理器用于，执行所述存储器中存储的计算机程序，以使得所述终端设备执行上述第一方面任一项所述的方法。

第四方面，本发明实施例提供一种可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面任一项所述的语音处理方法。

本发明实施例提供的语音处理方法、装置及设备，终端设备获取第一语音信息，获取第一语音信息对应的响应信息，以及根据响应信息的类型执行响应信息对应的操作。在上述过程中，终端设备可以并行执行“获取第一语音信息”和“获取第一语音信息对应的响应信息以及根据响应信息的类型执行响应信息对应的操作”，这样，在终端设备获取响应信息以及执行响应信息对应的操作的过程中，终端设备依然可以通过第一执行对象监听语音信息，使得终端设备在响应一个语音信息的过程中，用户还可以输出新的语音信息，提高了语音处理的灵活性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1A为本发明实施例提供的一种语音处理方法的架构图；

图1B为本发明实施例提供的另一种语音处理方法的架构图；

图2为本发明实施例提供的语音处理方法的流程示意图；

图3A为本发明实施例提供的一种语音处理过程示意图；

图3B为本发明实施例提供的另一种语音处理过程示意图；

图4为本发明实施例提供的另一种语音处理方法的流程示意图；

图5为本发明实施例提供的语音处理过程示意图；

图6为本发明实施例提供的再一种语音处理方法的流程示意图；

图7为本发明实施例提供的又一种语音处理方法的流程示意图；

图8为本发明实施例提供的一种语音处理装置的结构示意图；

图9为本发明实施例提供的另一种语音处理装置的结构示意图；

图10为本发明实施例提供的语音处理装置的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1A为本发明实施例提供的一种语音处理方法的架构图。请参见图1A，终端设备中包括智能语音服务。智能语音服务为全双工模式，即，在智能语音服务工作的过程中，可以通过第一执行对象监听语音信息，第一执行对象可以将监听到的语音信息发送给第二执行对象。第二执行对象可以根据语音信息确定响应信息，并执行响应信息对应的响应操作。在上述过程中，第一执行对象和第二执行对象可以并行执行，这样，在第二执行对象确定响应信息以及执行响应操作的过程中，终端设备依然可以通过第一执行对象监听语音信息，使得终端设备在响应一个语音信息的过程中，用户还可以输出新的语音信息，提高了语音处理的灵活性。

图1B为本发明实施例提供的另一种语音处理方法的架构图。请参见图1B，终端设备中包括智能语音服务。在智能语音服务工作的过程中，可以通过第一执行对象监听语音信息，第一执行对象可以将监听到的语音信息发送给第二执行对象。第二执行对象可以确定语音信息对应的语音表征信息，并将语音表征信息发送给服务器，由服务器根据语音表征信息确定响应信息，第二执行对象还可以接收服务器发送的响应信息，并根据响应信息执行响应操作。在上述过程中，第一执行对象和第二执行对象可以并行执行，这样，在服务器确定响应信息的过程中、以及第二执行对象确定执行响应操作的过程中，终端设备依然可以通过第一执行对象监听语音信息，使得终端设备在响应一个语音信息的过程中，用户还可以输出新的语音信息，提高了语音处理的灵活性。

需要说明的是，图1A和图1B只是以示例的形式示意两种架构，并非对架构进行的限定，在实际应用过程中，可以根据实际需要设置语音处理的架构。

下面，通过具体实施例对本申请所示的技术方案进行详细说明。需要说明的是，下面几个具体实施例可以相互结合，对于相同或相似的内容，在不同的实施例中不再进行重复说明。

图2为本发明实施例提供的语音处理方法的流程示意图。请参见图2，该方法可以包括：

S201、终端设备获取第一语音信息。

本发明实施例所涉及的终端设备中具有智能语音服务，即，终端设备设备可以接收用户输入的语音信息，并对语音信息进行响应。

可选的，终端设备可以为手机、平板电脑等设备。

可选的，终端设备中设置有至少一个麦克风，在终端设备中的智能语音服务运行的过程中，麦克风可以检测语音信息。

在实际应用过程中，智能语音服务包括休眠状态和唤醒状态，用户可以在终端设备中输入预设指令以改变智能语音服务的状态。

例如，用户可以对终端设备中的预设按键进行长按操作，以实现将终端设备中的智能语音服务从休眠状态转换为唤醒状态。

例如，用户可以说第一预设语音(例如，“小度小度”、“嗨，小度”等)，以实现将终端设备中的智能语音服务从休眠状态转换为唤醒状态。用户还可以说第二预设语音(例如，“走吧小度”、“好了小度”等)，以实现将终端设备中的智能语音服务从唤醒状态转换为休眠状态。

可选的，终端设备可以通过第一执行对象获取第一语音信息。

可选的，第一执行对象可以为第一线程或者第一硬件处理部件。

例如，第一硬件处理部件可以为芯片、处理器等。

可选的，在终端设备中的智能语音服务处于唤醒状态时，麦克风可以实时检测语音信息，以从麦克风获取第一语音信息。

在实际应用过程中，第一语音信息可以为与终端设备进行交互的用户的语音信息，也可能为环境噪声，例如，环境造成可以包括其它用户的语音信息、或者其它设备的语音信息等。

S202、终端设备获取第一语音信息对应的响应信息。

可选的，终端设备可以通过第二执行对象获取第一语音信息对应的响应信息。

可选的，第二执行对象可以为第二线程或者第二硬件处理部件。

例如，第二硬件处理部件可以为芯片、处理器等。

例如，当第一执行对象为第一线程时，则第二执行对象为第二线程。当第一执行对象为第一硬件处理部件时，第二执行对象为第二硬件处理部件。

可选的，可以由终端设备通过生成第一语音信息对应的响应信息。

可选的，终端设备还可以向服务器发送第一语音信息对应的语音表征信息，由服务器根据语音表征信息确定响应信息，并向第二终端设备发送该响应信息。

需要说明的是，在图4-图7所示的实施例中，对确定响应信息的过程进行详细说明，此处不再进行赘述。

S203、终端设备根据响应信息的类型执行响应信息对应的操作。

可选的，终端设备可以通过第二执行对象根据响应信息的类型执行响应信息对应的操作。

可选的，当响应信息的类型不同时，执行响应信息对应的操作的过程也不同，可以包括至少如下四种可能的情况：

一种可能的情况：响应信息的类型为语音类型。

在该种可能的情况下，终端设备可以播放语音类型的响应信息。例如，终端设备通过语音播放装置播放语音类型的响应信息。

例如，第一语音信息为“今天星期几”，则确定得到的响应信息可以为语音类型的“今天星期五”。相应的，终端设备可以播放该语音类型的响应信息，即，终端设备播放语音“今天星期五”。

另一种可能的情况，响应信息的类型为文本类型或图像类型。

在该种可能的情况下，终端设备显示文本类型或图像类型的响应信息。

例如，假设第一语音信息为“显示刘德华的照片”，则确定得到的响应信息为刘德华的图像。相应的，终端设备可以显示该响应信息，即，终端设备显示刘德华的图像。

又一种可能的情况，响应信息的类型为视频类型。

在该种可能的情况下，终端设备播放视频类型的响应信息。其中，终端设备播放视频类型的响应信息包括显示视频中的图像以及通过语音播放装置播放视频中的语音。

例如，假设第一语音信息为“播放视频西游记”，则确定得到的响应信息为视频西游记。相应的，终端设备可以显示视频西游记中的图像以及播放视频西游记中的声音。

再一种可能的情况，响应信息的类型为程序操作类型。

在该种可能的情况下，终端设备执行响应信息对应的程序操作。

可选的，程序操作可以包括：拨打电话、发送短信、打开应用程序、删除应用程序等。

例如，假设第一语音信息为“给小明打电话”，则确定得到的响应信息为“执行给小明打电话的操作的步骤”。相应的，终端设备可以根据该响应信息，按照通讯录中的小明的电话号码拨打电话。

本发明实施例提供的语音处理方法，终端设备获取第一语音信息，获取第一语音信息对应的响应信息，以及根据响应信息的类型执行响应信息对应的操作。在上述过程中，终端设备可以并行执行“获取第一语音信息”和“获取第一语音信息对应的响应信息以及根据响应信息的类型执行响应信息对应的操作”，这样，在终端设备获取响应信息以及执行响应信息对应的操作的过程中，终端设备依然可以通过第一执行对象监听语音信息，使得终端设备在响应一个语音信息的过程中，用户还可以输出新的语音信息，提高了语音处理的灵活性。

下面，结合图3A-图3B，通过具体示例，对图2实施例所示的方法进行详细说明。

图3A为本发明实施例提供的一种语音处理过程示意图。图3B为本发明实施例提供的另一种语音处理过程示意图。其中，图3A所示的语音处理过程示意图为采用现有语音处理方法的处理过程示意图，图3B为采用本申请的语音处理方法的处理过程示意图。请参见图3A和图3B，步骤A表示唤醒终端设备中的智能语音服务，步骤B表示终端设备接收语音信息，步骤C表示终端设备获取响应信息，步骤D表示终端设备执行响应操作。

请参见图3A，在唤醒终端设备中的智能语音服务之后，步骤B、步骤C和步骤D需要依次执行，即，针对一个步骤B，只有当该步骤B对应的步骤C和步骤D执行完成之后，才能执行下一个周期中的步骤B。换句话说，在执行步骤C和步骤D的过程中，无法执行步骤B。

请参见图3B，在唤醒终端设备中的智能语音服务之后，可以通过第一执行对象执行步骤B，通过第二执行对象执行步骤C和步骤D，由于第一执行对象和第二执行对象可以并行执行，因此，在一个周期中，步骤B、步骤C和步骤D顺序执行，在不同周期中，步骤B可以和步骤C或者步骤D并行执行。例如，在图3B中，在第一个周期中的步骤D的执行过程中，可以执行第二个周期的步骤B，在第二个周期中的步骤D的执行过程中，可以执行第三个周期的步骤B。

在上述过程中，在终端设备获取响应信息以及执行响应信息对应的操作的过程中，终端设备依然可以通过第一执行对象监听语音信息，使得终端设备在响应一个语音信息的过程中，用户还可以输出新的语音信息，提高了语音处理的灵活性。

在上述任意一个实施例的基础上，下面，结合图4-图8，对语音处理过程进行进一步详细说明。

图4为本发明实施例提供的另一种语音处理方法的流程示意图。请参见图4，该方法可以包括：

S401、终端设备通过第一执行对象获取第一语音信息。

需要说明的是，S401的执行过程可以参见S201的执行过程，此处不再进行赘述。

S402、终端设备向服务器发送请求信息，请求信息包括第一语音信息。

其中，请求信息用于请求第一语音信息对应的响应信息。

可选的，终端设备可以通过第一执行对象或者第二执行对象向服务器发送请求信息。当然，终端设备还可以通过第三线程向服务器发送请求信息。

S403、服务器根据第一语音信息，确定响应信息。

可选的，服务器可以获取第一语音信息的特征信息，根据第一语音信息的特征信息，获取第一语音信息为真实的用户语句的概率，并根据概率，判断第一语音信息是否为真实的用户语句，在确定第一语音信息为真实的用户语句时，再根据第一语音信息确定响应信息，在确定第一语音信息不是真实的用户语句时，确定响应信息为空，即，终端设备根据该响应信息不执行任何动作。

可选的，特征信息可以包括如下信息中的至少一种：第一语音信息的音频特性、第一语音信息的文本特性、第一语音信息的文本信息、第一语音信息的上下文信息、用户的交互行为特性，交互行为特性用于指示用户在终端设备中输入语音信息的行为特征。

可选的，若第一语音信息为真实的用户语句的概率大于第一阈值，则确定第一语音信息为真实的用户语句。例如，第一阈值可以为0.85等，在实际应用过程中，可以根据实际需要设置该第一阈值，本发明实施例对此不作具体限定。

下面，结合图5，对判断第一语音信息是否为真实的用户语句的过程进行详细说明。

图5为本发明实施例提供的语音处理过程示意图。请参见图5，可以通过语音处理引擎对第一语音信息进行语音活动检测(Voice Activity Detection，VAD)对第一语音信息进行语音边界检测、自动回声消除(Automatic Echo Cancellation，AEC)等处理，得到第一语音信息的音频特性，音频特性可以包括第一语音信息的声纹、音量、长度、声波振幅、声波频率中的至少一种。

可以通过语义处理引擎对第一语音信息进行处理，以得到第一语音信息的文本信息以及文本信息的文本特性，例如，文本特性可以包括文本的长度、文本的语法结构等。

可以通过上下文处理引擎对第一语音信息进行处理，得到第一语音信息的上下文信息和用户的交互行为特征。例如，用户的交互行为特征可以包括在终端设备中的智能语音服务被唤醒的时长、本次被唤醒后采集到的语音信息个数、用户的喜好等。

例如，用户与终端设备进行的对话可以如下所示：

用户：小度小度，今天几号？

终端设备：今天是2018年12月1日。

用户：今天天气怎样？

终端设备：今天天气晴朗，温度较低。

其它用户：走啊[噪音]

终端设备：[不做回复，继续监听语音信息]

用户：明天天气呢？

终端设备：明天天气晴朗。

电视噪声：天天天天

终端设备：[不做回复，继续监听语音信息]

用户：退下吧。

终端设备：好的。

请参见上述对话，在用户说“小度小度”之后，终端设备中的智能语音服务被唤醒。在终端设备检测到用户说的“今天几号”之后，终端设备回复“今天是2018年12月1日”。在终端设备检测到用户说的“今天天气怎样”之后，终端设备回复“今天天气晴朗，温度较低”。在终端设备检测到“走啊”之后，终端设备确定该语音信息不是真实的用户语句，则终端设备不做回复，并继续监听语音信息。在终端设备检测到用户说的“明天天气呢”之后，终端设备回复“明天天气晴朗”。在终端设备检测到“天天天天”之后，终端设备确定该语音信息不是真实的用户语句，则终端设备不做回复，并继续监听语音信息。在终端设备检测到“退下吧”，则终端设备回复“好的”，并将智能语音服务设置为休眠状态，并不再继续监听语音信息。

S404、服务器向终端设备发送响应信息。

可选的，终端设备可以通过第二执行对象接收服务器发送的响应信息。

S405、终端设备通过第二执行对象执行响应信息。

需要说明的是，S405的执行过程可以参见S203的执行过程，此处不再进行赘述。

在图4所示的实施例中，终端设备通过第一执行对象获取第一语音信息，并由服务器对第一语音信息进行处理以得到第一语音信息的响应信息，终端设备通过第二执行对象接收服务器发送的响应信息，以及通过第二执行对象执行响应信息对应的操作。在上述过程中，第一执行对象和第二执行对象可以并行执行，这样，在终端设备获取响应信息以及执行响应信息对应的操作的过程中，终端设备依然可以通过第一执行对象监听语音信息，使得终端设备在响应一个语音信息的过程中，用户还可以输出新的语音信息，提高了语音处理的灵活性。

图6为本发明实施例提供的再一种语音处理方法的流程示意图。请参见图6，该方法可以包括：

S601、终端设备通过第一执行对象获取第一语音信息。

需要说明的是，S601的执行过程可以参见S201的执行过程，此处不再进行赘述。

S602、终端设备通过第二执行对象获取第一语音信息的文本信息和音频特性。

可选的，终端设备获取文本信息和音频特性的过程可以参见S402中服务器获取文本信息和音频特性的过程，此处不再进行赘述。

S603、终端设备向服务器发送请求信息，请求信息包括文本信息和音频特性。

S604、服务器根据文本信息和音频特性，确定响应信息。

可选的，服务器可以根据文本信息获取文本特征。服务器还可以获取上下文信息和用户的交互行为特征。

服务器可以根据文本信息、音频特性、文本特征、上下文信息或用户的交互行为特征中的至少一种判断第一语音信息是否为真实的用户语句，在确定第一语音信息为真实的用户语句时，再根据第一语音信息确定响应信息，在确定第一语音信息不是真实的用户语句时，确定响应信息为空，即，终端设备根据该响应信息不执行任何动作。

S605、服务器向终端设备发送响应信息。

S606、终端设备通过第二执行对象执行响应信息。

需要说明的是，S606的执行过程可以参见S203的执行过程，此处不再进行赘述。

在图6所示的实施例中，终端设备通过第一执行对象获取第一语音信息，终端设备还通过第二执行对象获取第一语音信息的文本信息和音频特性，并由服务器根据文本信息和音频特性确定第一语音信息的响应信息，终端设备通过第二执行对象接收服务器发送的响应信息，以及通过第二执行对象执行响应信息对应的操作。在上述过程中，第一执行对象和第二执行对象可以并行执行，这样，在终端设备获取响应信息以及执行响应信息对应的操作的过程中，终端设备依然可以通过第一执行对象监听语音信息，使得终端设备在响应一个语音信息的过程中，用户还可以输出新的语音信息，提高了语音处理的灵活性。

图7为本发明实施例提供的又一种语音处理方法的流程示意图。请参见图7，该方法可以包括：

S701、终端设备通过第一执行对象获取第一语音信息。

需要说明的是，S701的执行过程可以参见S201的执行过程，此处不再进行赘述。

S702、终端设备通过第二执行对象获取第一语音信息的特征信息。

需要说明的是，S702的执行过程可以参见S403中服务器获取第一语音信息的特征信息的过程，此处不再进行赘述。

S703、终端设备通过第二执行对象根据第一语音信息的特征信息确定响应信息。

可选的，终端设备可以根据第一语音信息的特征信息，获取第一语音信息为真实的用户语句的概率，并根据概率，判断第一语音信息是否为真实的用户语句，在确定第一语音信息为真实的用户语句时，再根据第一语音信息确定响应信息，在确定第一语音信息不是真实的用户语句时，确定响应信息为空，即，终端设备根据该响应信息不执行任何动作。

S704、终端设备通过第二执行对象执行响应信息。

需要说明的是，S704的执行过程可以参见S203的执行过程，此处不再进行赘述。

在图7所示的实施例中，终端设备通过第一执行对象获取第一语音信息，并通过第二执行对象获取响应信息，以及通过第二执行对象执行响应信息对应的操作。在上述过程中，第一执行对象和第二执行对象可以并行执行，这样，在终端设备获取响应信息以及执行响应信息对应的操作的过程中，终端设备依然可以通过第一执行对象监听语音信息，使得终端设备在响应一个语音信息的过程中，用户还可以输出新的语音信息，提高了语音处理的灵活性。

图8为本发明实施例提供的一种语音处理装置的结构示意图。请参见图8，该语音处理装置10可以包括第一获取模块11、第二获取模块12和执行模块13，其中，

所述第一获取模块11用于，获取第一语音信息；

所述第二获取模块12用于，通获取所述第一语音信息对应的响应信息；

所述执行模块13用于，根据所述响应信息的类型执行所述响应信息对应的操作，所述响应信息的类型为语音类型、文本类型、图像类型、视频类型、程序操作类型中的至少一种。

本发明实施例提供的语音处理装置可以执行上述方法实施例所示的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。

在一种可能的实施方式中，所述第一获取模块11具体用于，通过第一执行对象获取第一语音信息；

所述第二获取模块12具体用于，通过第二执行对象获取所述第一语音信息对应的响应信息，所述第一执行对象和所述第二执行对象并行执行；

所述执行模块13具体用于，通过所述第二执行对象根据所述响应信息的类型执行所述响应信息对应的操作。

图9为本发明实施例提供的另一种语音处理装置的结构示意图。在图8所示实施例的基础上，请参见图9，所述语音处理装置10还包括发送模块14和接收模块15，其中，

所述发送模块14用于，向服务器发送请求信息，所述请求信息包括语音表征信息，所述语音表征信息为根据所述第一语音信息确定的；

所述接收模块15用于，接收所述服务器发送的所述响应信息。

在一种可能的实施方式中，所述装置还包括第三获取模块16，其中，

所述第三获取模块16用于，在所述终端设备向服务器发送请求信息之前，获取所述第一语音信息的文本信息和音频特性；

在一种可能的实施方式中，所述第二获取模块12具体用于：

在一种可能的实施方式中，所述执行模块13具体用于：

图10为本发明实施例提供的语音处理装置的硬件结构示意图，如图10所示，该语音处理装置20包括：至少一个处理器21和存储器22。可选地，该语音处理装置20还包括通信部件23。其中，处理器21、存储器22以及通信部件23通过总线24连接。

在具体实现过程中，至少一个处理器21执行所述存储器22存储的计算机执行指令，使得至少一个处理器21执行如上的语音处理方法。

处理器21的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述图10所示的实施例中，应理解，处理器可以是中央处理单元(英文：CentralProcessing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：DigitalSignal Processor，简称：DSP)、专用集成电路(英文：Application Specific IntegratedCircuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上所述的语音处理方法。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音处理方法，其特征在于，包括：

终端设备通过第一执行对象获取第一语音信息；

所述终端设备通过第二执行对象获取所述第一语音信息对应的响应信息，并通过所述第二执行对象根据所述响应信息的类型执行所述响应信息对应的操作，所述响应信息的类型为语音类型、文本类型、图像类型、视频类型、程序操作类型中的至少一种，所述第一执行对象和所述第二执行对象并行执行；

所述终端设备通过第二执行对象获取所述第一语音信息对应的响应信息，包括：

所述终端设备通过所述第二执行对象判断所述第一语音信息是否为真实的用户语句；在所述终端设备确定所述第一语音信息为真实的用户语句时，所述终端设备通过所述第二执行对象生成所述响应信息；或者，

所述终端设备通过第二执行对象向服务器发送请求信息，所述请求信息包括语音表征信息，所述语音表征信息为根据所述第一语音信息确定的；

所述终端设备通过第二执行对象接收所述服务器在确定所述第一语音信息为真实的用户语句后发送的所述响应信息。

2.根据权利要求1所述的方法，其特征在于，所述第一执行对象为第一线程，所述第二执行对象为第二线程。

3.根据权利要求1所述的方法，其特征在于，所述第一执行对象为第一硬件处理部件，所述第二执行对象为第二硬件处理部件。

4.根据权利要求1所述的方法，其特征在于，所述语音表征信息包括所述第一语音信息；

5.根据权利要求1或4所述的方法，其特征在于，所述终端设备通过第二执行对象向服务器发送请求信息之前，还包括：

所述终端设备通过第二执行对象获取所述第一语音信息的文本信息和音频特性；

6.根据权利要求1所述的方法，其特征在于，所述音频特性包括所述第一语音信息的声纹、音量、长度、声波振幅、声波频率中的至少一种。

7.根据权利要求1所述的方法，其特征在于，所述终端设备通过所述第二执行对象判断所述第一语音信息是否为真实的用户语句，包括：

8.根据权利要求1-3任一项所述的方法，其特征在于，所述终端设备通过所述第二执行对象根据所述响应信息的类型执行所述响应信息对应的操作，包括：

9.一种语音处理装置，其特征在于，包括第一获取模块、第二获取模块、发送模块、接收模块和执行模块，其中，

所述第一获取模块用于，通过第一执行对象获取第一语音信息；

所述第二获取模块用于，通过第二执行对象获取所述第一语音信息对应的响应信息，所述第一执行对象和所述第二执行对象并行执行；

所述执行模块用于，通过所述第二执行对象根据所述响应信息的类型执行所述响应信息对应的操作，所述响应信息的类型为语音类型、文本类型、图像类型、视频类型、程序操作类型中的至少一种；

所述第二获取模块具体用于：

确定所述第一语音信息为真实的用户语句时，通过所述第二执行对象生成所述响应信息；

所述发送模块用于，通过第二执行对象向服务器发送请求信息，所述请求信息包括语音表征信息，所述语音表征信息为根据所述第一语音信息确定的；

所述接收模块用于，通过第二执行对象接收所述服务器在确定所述第一语音信息为真实的用户语句后发送的所述响应信息。

10.根据权利要求9所述的装置，其特征在于，所述第一执行对象为第一线程，所述第二执行对象为第二线程。

11.根据权利要求9所述的装置，其特征在于，所述第一执行对象为第一硬件处理部件，所述第二执行对象为第二硬件处理部件。

所述接收模块用于，接收所述服务器发送的所述响应信息。

12.根据权利要求9所述的装置，其特征在于，所述语音表征信息包括所述第一语音信息；

13.根据权利要求9或12所述的装置，其特征在于，所述装置还包括第三获取模块，其中，

14.根据权利要求13所述的装置，其特征在于，所述音频特性包括所述第一语音信息的声纹、音量、长度、声波振幅、声波频率中的至少一种。

15.根据权利要求9所述的装置，其特征在于，所述第二获取模块具体用于：

16.根据权利要求9-11任一项所述的装置，其特征在于，所述执行模块具体用于：

17.一种语音处理装置，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至8任一项所述的语音处理方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至8任一项所述的语音处理方法。