CN111583956B

CN111583956B - 语音处理方法和装置

Info

Publication number: CN111583956B
Application number: CN202010365024.2A
Authority: CN
Inventors: 徐培来
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2024-03-26
Anticipated expiration: 2040-04-30
Also published as: CN111583956A

Abstract

本申请公开了一种语音处理方法和装置，该方法包括：获取语音流；对语音流进行语音特征识别；在识别出语音流中包含多个用户的语音特征的情况下，基于语音流中的不同用户的语音特征，从语音流中确定出不同用户对应的语音信息，得到多个语音信息；确定多个语音信息中满足第一条件的语音信息为目标语音信息；响应目标语音信息。本申请的方案减少了由于语音流中语音信息复杂而导致无法准确响应语音指令的情况。

Description

语音处理方法和装置

技术领域

本申请涉及自然语言处理技术领域，更具体地说，涉及一种语音处理方法和装置。

背景技术

随着技术的不断发展，用户通过语音控制电子设备已经十分普遍。如，安装有语音助手等语音处理软件的智能音箱，可以检测用户输入的语音，并确定该语音所指示的指令并执行。

但是现有的语音助手在环境音复杂的场景下(如接收用户指令的同时还有其他人在说话)，很容易发生响应失败的问题。

发明内容

为实现上述目的，本申请提供了一种语音处理方法和装置。

其中，一种语音处理方法，包括：

获取语音流；

对所述语音流进行语音特征识别；

在识别出所述语音流中包含多个用户的语音特征的情况下，基于所述语音流中的不同用户的语音特征，从所述语音流中确定出不同用户对应的语音信息，得到多个语音信息；

确定所述多个语音信息中满足第一条件的语音信息为目标语音信息；

响应所述目标语音信息。

优选的，所述确定所述多个语音信息中满足第一条件的语音信息为目标语音信息，包括：

确定所述多个语音信息中包含有可执行的语音指令的语音信息为目标语音信息。

确定所述多个语音信息中用于向语音识别设备输入语音指令的语音信息为目标语音信息。

优选的，所述确定所述多个语音信息中用于向语音识别设备输入语音指令的语音信息为目标语音信息，包括：

对所述多个语音信息中每个语音信息进行语义识别；根据所述语音信息的语义识别结果，确定所述语音信息是否为用于向语音识别设备输入的语音指令；确定所述多个语音信息中用于向语音识别设备输入语音指令的语音信息为目标语音信息；

和/或，确定所述多个语音信息中包含有唤醒词的语音信息为目标语音信息；

和/或，基于对所述多个语音信息的语义识别，确定所述多个语音信息之间的语义关联关系；基于所述多个语音信息之间的语义关联关系，确定所述语音信息与所述多个语音信息中的其他语音信息之间是否存在语句问答关系，并将与其他语音信息之间不存在语句问答关系的语音信息确定为目标语音信息；

和/或，确定所述语音信息所归属的用户是否关联有用户信息库；如所述语音信息所归属的用户关联有用户信息库，结合所述语音信息的语义识别结果和所述用户信息库，从所述多个语音信息中确定用于向语音识别设备输入语音指令的目标语音信息。

优选的，所述响应所述目标语音信息，包括：

在确定出所述目标语音信息包含有可执行的语音指令的情况下，响应所述目标语音信息对应的语音指令。

优选的，所述确定所述多个语音信息中包含有可执行的语音指令的语音信息为目标语音信息，包括：

识别所述多个语音信息中每个语音信息的语义；

根据所述语音信息的语义，确定语音指令库中与所述语音信息存在相关性的至少一个语音指令以及所述语音信息与每个所述语音指令的相关程度；

在所述语音指令库中存在与所述语音信息的相关程度超过设定阈值的至少一个语音指令的情况下，将所述超过设定阈值的至少一个语音指令确定为所述语音信息关联的目标语音指令；

确定所述多个语音信息中关联有目标语音指令的语音信息为目标语音信息。

优选的，所述对所述语音流进行语音特征识别，包括：

对所述语音流进行声纹识别；

所述在识别出所述语音流中包含多个用户的语音特征的情况下，基于所述语音流中的不同用户的语音特征，从所述语音流中确定出不同用户对应的语音信息，包括：

在识别出所述语音流中包含多个用户的声纹特征的情况下，基于所述语音流中的不同用户的声纹特征，从所述语音流中确定出不同用户对应的语音信息。

优选的，所述获取语音流，包括：

响应于接收到的包含唤醒词的语音信号，获取语音流；

所述确定所述多个语音信息中满足第一条件的语音信息为目标语音信息，包括：

将所述多个语音信息中，语音特征与所述语音信号的语音特征相同的语音信息确定为目标语音信息。

优选的，所述在识别出所述语音流中包含多个用户的语音特征的情况下，基于所述语音流中的不同用户的语音特征，从所述语音流中确定出不同用户对应的语音信息，包括：

在识别出所述语音流中包含多个用户的语音特征的情况下，根据语音流中不同用户的语音特征以及所述语音流中不同用户的语音特征对应的起始时刻点和结束时刻点，从所述语音流中确定出对应的语音信息。

其中，一种语音处理装置，包括：

语音流获取单元，用于获取语音流；

特征识别单元，用于对所述语音流进行语音特征识别；

语音提取单元，用于在识别出所述语音流中包含多个用户的语音特征的情况下，基于所述语音流中的不同用户的语音特征，从所述语音流中确定出不同用户对应的语音信息，得到多个语音信息；

目标确定单元，用于确定所述多个语音信息中满足第一条件的语音信息为目标语音信息；

语音响应单元，用于响应所述目标语音信息。

通过以上方案可知，本申请会对获取到的语音流进行语音特征识别，由于不同用户的语音特征不同，因此，在识别出语音流中包含多个用户的语音特征的情况下，可以基于语音流中不同用户的语音特征，确定出该语音流中不同用户的语音信息。在此基础上，通过响应该多个用户对应的多个语音信息中满足条件的目标语音信息，从而实现了对语音流中满足条件的语音信息进行响应，减少了由于语音流中语音信息复杂而导致无法响应或者无法准确响应语音指令的情况。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的语音处理方法所适用的一种场景架构示意图；

图2为本申请实施例提供的语音识别设备的一种组成结构示意图；

图3为本申请实施例提供的语音处理方法的一种实现流程示意图；

图4为本申请实施例提供的语音处理方法的又一种实现流程示意图；

图5为本申请实施例提供的语音处理方法的再一种实现流程示意图；

图6为本申请实施例提供的语音处理方法的再一种实现流程示意图；

图7为本申请实施例提供的语音处理方法在一种应用场景中的实现流程示意图；

图8为本申请实施例提供的语音处理装置的一种组成结构示意图。

说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的部分，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示的以外的顺序实施。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

本申请的语音处理方法适用于任意需要对输入的语音流进行语音识别的电子设备，通过本申请的语音处理方法可以对在存在多个用户等复杂环境下输入的语音流进行处理，以识别和响应语音流中的语音信息。

为了更好的理解本申请实施例，先对本申请实施例所适用的场景进行简单介绍。

如图1所示，其示出了本申请的方案所适用的一种场景的架构示意图。

在图1所示的场景架构包括：语音识别设备101和至少一个用户102。

其中，语音识别设备可以为具有语音识别功能的终端设备。

该语音识别设备101可以接收用户102输入的语音信号，识别语音信号中的语音指令，并响应该语音指令。如，语音识别设备可以接收用户输入的语音信号，并通过语音信号进行语义分析和/或意图识别等处理，得到语音信号所指示的语音指令，并执行语音指令对应的操作。

作为一种可选方式，该场景架构中还可以包括服务器103，该服务器103与语音识别设备101之间可以建立有通信连接。

其中，在语音识别设备101进行语音识别的过程中，如果涉及到一些较为复杂的语音识别，则语音识别设备可以将待识别的语音信号发送给服务器，并获得服务器返回的语音识别结果。如，语音识别信息可以将待识别的语音信号发送给服务器，并指示服务器对语音信号进行语义识别，然后获得服务器反馈的语义识别结果等。

当然，通过服务器辅助语音识别设备进行语义识别进行是一种方式，在实际应用中可以根据需要设置服务器或者不设置服务器，对此不加限制。

在本申请中，该语音识别设备的具体形式可以有多种可能，如语音识别设备可以为手机或者个人计算机设备等电子设备，还可以为智能音响等主要用于实现人机语音交互的电子设备。

如图2所示，其示出了本申请的语音处理方法所适用的语音识别设备的一种组成结构示意图。

本实施例的语音识别设备200可以包括：处理器201、音频传感器202和存储器203。

其中，处理器201、音频传感器202和存储器203可以通过通信总线204相连。

可选的，该语音识别设备还可以包括输入单元205和显示器206等等。其中，输入单元可以包括键盘、鼠标和触摸屏等中的一种或者几种。

其中，音频传感器202可以接收包含语音信号的语音流。

在本申请中，存储器203可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本申请实施例描述的存储器203旨在包括任意适合类型的存储器。

本申请实施例中的存储器203能够存储数据以支持语音识别设备200的操作。这些数据的示例包括：用于在语音识别设备200上操作的任何计算机程序，如操作***和应用程序。其中，操作***包含各种***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

作为本申请实施例提供的方法采用软件实施的示例，本申请实施例所提供的方法可以直接体现为由处理器201执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器203，处理器201读取存储器203中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器201以及连接到通信总线204的其他组件)完成本申请实施例提供的方法。

作为示例，处理器201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器或者其他可编程逻辑器件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

当然，图2所示的语音识别设备结构并不构成对本申请实施例中语音识别设备的限定，在实际应用中语音识别设备可以包括比图2所示的更多或更少的部件，或者组合某些部件。

下面结合以上内容，对本申请的语音处理方法进行介绍。

如图3所示，其示出了本申请实施例提供的语音处理方法一个实施例的流程示意图，本实施例的方法可以应用于前面提到的具有语音处理能力的语音识别设备。本实施例的方法可以包括：

S301，获取语音流。

其中，语音流是指包含语音信号的音频流。所述语音流的获取可通过语音识别设备上的收音装置获取。

S302，对该语音流进行语音特征识别。

其中，语音特征是指语音信号所具有的特征。如，语音特征可以包括语音信号的声纹特征、音调、音色、频率和频谱等特征中的一种或者多种。

相应的，识别语音流的语音特征可以是识别语音流中包含的声音特征、声纹特征、音调、音色和/或频率等等。

S303，在识别出该语音流中包含多个用户的语音特征的情况下，基于该语音流中的不同用户的语音特征，从该语音流中确定出不同用户对应的语音信息，得到多个语音信息。

可以理解的是，如果语音流中包含多个用户的语音信号，电子设备很难准确识别出语音流中所指示的语音指令，很容易出现无法影响用户输入的语音指令或者指令响应错误的情况。而本申请在对语音流进行语音特征识别的基础上，可以基于语音流中不同用户的语音特征，分别确定出每个用户对应的语音信息，以便后续可以对每个语音信息进行分析与识别。

如，在一个示例中，在对语音流进行声纹特征识别的情况下，如果识别出该语音流中包含多个用户的声纹特征，则基于该语音流中不同用户的声纹特征，从该语音流中确定出不同用户对应的语音信息。

其中，从语音流中确定不同用户的语音信息可以有多种可能的实现方式，下面以几种情况为例说明：

在一种可能的情况中，如果语音流中具有不同语音特征的语音信号之间不存在重叠，那么可以按照语音流中不同用户的语音特征，将语音流划分为不同用户对应的语音段。

举例说明，在用户A、用户B和用户C依次输入语音信号的情况下，电子设备获取到的语音流实际上是由用户A输入的语音段、用户B输入的语音段以及用户C输入的语音段顺序组成。在此基础上，通过对语音流中语音特征识别确定出存在三个不同用户的语音特征之后，可以基于这三个语音用户的语音特征，将语音流划分为对应用户A的语音特征的语音段、对应用户B的语音特征的语音段和对应用户C的语音特征的语音段。

在又一种可能的情况中，可以按照语音流中不同用户的语音特征，从语音流中提取出不同用户的语音信息。其中，每个用户可以对应至少一个语音信息。

如，语音流中具有同一用户的语音特征的语音信号并不连续，则可以分别提取该用户的每段语音信号，得到每个用户的语音特征对应的多段语音信息；或者是，在提取出该用户的各段语音信号之后，将该用户的各段语音信号拼接为一个语音信息。

又如，在语音流中存在不同用户的语音信号之间存在重叠的情况下，为了能够获得同一用户输入的完整的语音信息，还可能会基于不同用户的语音特征，从语音流中分别分离出与各用户的语音特征对应的语音信息。

在实际应用中，还可以将以上两种方式结合来实现从语音流中确定不同用户的语音信息。当然，以上仅仅是以两种情况为例说明，对于基于语音流中不同用户的语音特征从语音流中确定出不同用户的语音信息的其他实现方式也同样适用于本申请，在此不加限制。

可以理解的是，在语音流由多个用户的语音信息组成的情况下，语音流中各个用户的语音特征对应的语音信息也会对应有相应的起始时刻点和结束时刻点。

如，假设语音流是由用户A输入的一段语音信号和用户B两个用户输入的一段语音信号组成，那么从该语音流中确定出的语音特征会包含用户A输入的语音特征和用户B输入的语音特征。其中，语音流中用户A的语音特征的起始时刻点就是用户A输入语音信号的起始时刻点，而用户A的语音特征的结束时刻点就是用户A输入的语音信号的结束时刻点。

在该种情况下，还可以根据语音流中不同用户的语音特征以及该语音流中不同用户的语音特征对应的起始时刻点和结束时刻点，从语音流中确定出对应的语音信息。如，结合不同用户的语音特征及相应的起始时刻点和结束点，从语音流中提取或者分离出各个用户的语音信息等。

需要说明的是，在本申请中，在获取到的语音流包含多个用户的语音特征的情况下，某个用户的语音特征的起始时刻点和结束时刻点并不是该语音流的语音起点(BeginOfthe Speech，BOS)和语音终点。在语音流中包含有多个用户的语音信号的情况下，该语音流的起始时刻为语音流的语音起点，而语音流的尾端才是语音流的语音终点。如，在获取语音流的过程中，将检测到语音输入的起始时刻确定语音起点，只有在确认不存在语音输入的情况下，才确定到达该语音流的语音终点，从而使得多个用户都完成语音输入的时刻确定为语音终点对应的时刻。

S304，确定该多个语音信息中满足第一条件的语音信息为目标语音信息。

其中，第一条件为电子设备确定语音信息属于需要响应的语音信息的条件。相应的，满足第一条件的语音信息为语音流中需要被响应的语音信息。

其中，该第一条件可以有多种可能，下面以几种情况说明：

在一种可能的实现方式中，满足第一条件的语音信息可以为包含有可执行的语音指令的语音信息。其中，可执行的语音指令是指属于语音识别设备可响应的语音指令。例如，可执行的语音指令为属于预置的指令集中的语音指令，或者是，具有设定指令特征的语音指令等等。

其中，确定语音信息是否包含可执行的语音指令可以结合语义识别和/或意图识别等来确定。如，可以通过对语音信息进行语义识别，根据语义识别结果分析该语音信息中是否包含语音指令，如果语音信息中包含语音指令且语音信息中包含的语音指令为可执行的语音指令，则将该语音信息确定为待响应的目标语音信息。

当然，还可以有其他确定语音信息中是否包含可执行的语音指令的方式，后续还会以另一种方式进行详细介绍，但是对于其他能够确定语音信息是否包含可执行的语音指令的方式也同样适用。

在又一种可能的实现方式中，满足第一条件的语音信息可以为用于向语音识别设备输入语音指令的语音信息。也就是说，只有语音信息中包含语音指令且该语音信息的目的是向语音识别设备输入语音指令的情况下，语音信息才满足第一条件。

其中，识别语音信息是否为用于向语音识别设备输入语音指令的方式可以有多种。如，可以通过确定语音信息中是否包含语音识别设备对应的唤醒词，或者是，结合对语音信息的语音识别来分析语音信息的目的是否为向语音识别设备输入语音指令等，后续会以几种情况为例进行详细介绍。

在又一种可能的实现方式中，语音识别设备可以响应于接收到的包含唤醒词的语音信号，获取语音流，在该种情况下，满足第一条件的语音信息为语音特征与包含唤醒词的该语音信号的语音特征相同的语音信息。

可以理解的是，在用户希望向语音识别设备输入语音指令时，用户可以先向语音识别设备输入包含唤醒词的语音信号。在此基础上，语音识别设备可以将输入唤醒词的用户确定为需要向语音识别设备输入语音指令的用户，因此，需要从语音流的多个语音信息中确定出属于该用户输入的语音信息，而该用户输入的语音信息自然是与包含唤醒词的语音信号具有相同语音特征的语音信息。相应的，只有语音流中与包含唤醒词的该语音信号具有相同语音特征的语音信息才会被确定为需要响应的目标语音信息。

举例说明，假设用户A希望向语音识别设备输入语音指令，在此基础上，用户A可以通过语音向语音识别设备输入唤醒词，而语音识别设备响应于该唤醒词可以接收语音流。如果语音识别设备接收到的语音流中包含有用户A、用户B和用户C的语音，在语音识别设备从语音流中确定出这三个用户的语音信息之后，将这三个用户的语音信息的语音特征与唤醒词的语音的语音特征进行比对，可知用户A的语音信息与输入唤醒词的语音具有相同的语音特征，因此，可以将用户A的语音信息确定为目标语音信息。

以上是第一条件的三种情况为例说明，在实际应用中第一条件还可以有其他可能，对此不加限制。

S305，响应该目标语音信息。

其中，响应该目标语音信息是将该目标语音信息作为语音流中需要确定输入指令的语音信息，并执行相应的处理。

如，在一个示例中，响应该目标语音信息可以是确定该目标语音信息是否包含语音指令；在该目标语音信息包含有至少一个语音指令的情况下，响应该目标语音信息所指示的至少一个语音指令。

在又一个示例中，在确定出该目标语音信息包含有可执行的语音指令的情况下，可以响应该目标语音信息对应的语音指令。如，在步骤S304中已经确定出目标语音信息包含可执行的语音指令的情况下，该步骤S305中可以直接响应确定出的该可执行的语音指令。又如，在步骤S304中确定出目标语音信息为用于向语音识别设备输入语音指令的语音信息的情况下，可以确定该目标语音信息包含的语音指令是否为可执行指令，如果是可执行指令，则执行该可执行指令。

由以上内容可知，本申请会对获取到的语音流进行语音特征识别，由于不同用户的语音特征不同，因此，在识别出语音流中包含多个用户的语音特征的情况下，可以基于语音流中不同用户的语音特征，确定出该语音流中不同用户的语音信息。在此基础上，通过响应该多个用户对应的多个语音信息中满足条件的目标语音信息，从而实现了对语音流中满足条件的语音信息进行响应，减少了由于语音流中语音信息复杂而导致无法准确响应语音指令的情况。

为了便于理解本申请的方案，下面结合满足第一条件的语音信息的不同情况进行介绍。

首先，以满足第一条件的语音信息为包含有可执行的语音指令的语音信息这一情况为例说明。如，参见图4，其示出了本申请一种语音处理方法又一个实施例的流程示意图，图4是确定包含可执行指令的语音指令为语音信息的一种实现方式，本实施例的方法可以包括：

S401，获取语音流。

S402，对该语音流进行语音特征识别。

S403，在识别出该语音流中包含多个用户的语音特征的情况下，基于该语音流中的不同用户的语音特征，从该语音流中确定出不同用户对应的语音信息，得到多个语音信息。

S404，识别该多个语音信息中每个语音信息的语义。

其中，语音信息的语义的方式可以有多种，本申请对此不加限制。

在一个示例中，可以将语音信息转换为文本，在识别语音信息的文本所表达的语义。其中，识别语音信息的文本所表达的语义可以结合预先训练出的语义模型识别；或者是，通过对语音信息的文本进行分词，结合各个分词的语义再确定语音信息的文本的语义等，具体方式不加限制。

在又一个示例中，也可以不将语音信息转换为文本，而直接对语音信息进行语义识别。

需要说明的是，识别语音信息的语义可以是由语音识别设备自身完成；也可以通过与服务器交互来完成，如，语音识别设备将语音信息发送给服务器，并获取服务器返回的语义识别结果，以完成语义识别。

S405，根据该语音信息的语义，确定语音指令库中与该语音信息存在相关性的至少一个语音指令以及该语音信息与每个该语音指令的相关程度。

其中，语音指令库中可以存储有语音识别设备可执行的多个语音指令。

其中，针对每个语音信息，语音指令库中与该语音信息存在相关性的语音指令是与该语音信息所表达的语义存在相关性的语音指令。

在一个示例中，可以结合语音指令库中各个语音指令的语义以及该语音信息的语义，从语音指令库中确定与该语音信息的语义相似度符合要求的至少一个语音指令。

在一个示例中，可以根据语音信息的语义确定出用户意图。如，确定语音信息的语义所表达的用户意图；又如，在对语音信息的语义识别为意图识别的情况下，识别出的语音信息的语义就是用户意图，则可以直接将语音细信息的语义确定为用户意图。在此基础上，可以确定语音指令库中能够表达该用户意图的至少一个语音指令。如，根据语音信息对应的用户意图，可以从语音指令库中查询与该用户意图匹配度符合要求的至少一个用户指令。

可以理解的是，从语音指令库中确定出的该至少一个语音指令虽然都与该语音信息具有相关性，但是相关程度却不同。

例如，结合语音信息的语义确定出用户意图之后，语音指令库中存在与该用户意图有关联的三个语义指令，分别为语音指令1、语音指令2和语音指令3，其中，语音指令1与语音信息所表达的用户意图的相关程度为60％，而语音指令与该用户意图的相关程度为90％，而语音指令与该用户意图的相关程度为85％。

S406，在该语音指令库中存在与该语音信息的相关程度超过设定阈值的至少一个语音指令的情况下，将该超过设定阈值的至少一个语音指令确定为该语音信息关联的目标语音指令。

可以理解的是，语音信息与语音指令库中某条语音指令的相关程度越高，则说明该语音指令越能准确反映出用户期望执行的指令，也说明该语音信息是属于用户希望指示出可执行的语音指令的语音信息的可能性越大。基于此可知，如果语音指令与该语音信息的相关程度较低，则说明该语音指令不属于该语音信息所归属的用户实际期望执行的指令。

相应的，针对每个语音信息，本申请仅将与语音信息超过设定阈值的语音指令确定为语音信息关联的目标语音指令，以排除一些与语音信息相关性较低的语音指令。

其中，该设定阈值可以根据实际需要设定，如，该设定阈值可以为百分之八十。

可以理解的是，本实施例是以将与语音信息的相关程度超过设定阈值的语音指令确定为该语音信息关联的目标语音指令为例，但是在实际应用中，还可以是针对每个语音信息，按照语音指令与该语音信息的相关程度从高到低的顺序，将排位靠前的设定数量(如1或者其他自然数)个语音指令确定为该语音信息相关的目标语音指令。还可以是，针对每个语音信息，按照语音指令与该语音信息的相关程度从高到低的顺序，将属于排位靠前的设定数量个且相关程度大于设定阈值的语音指令确定为目标语音指令。

当然，结合语音指令与语音信息的相关程度，还可以其他确定与语音信息关联的目标语音指令的方式，在此不再赘述。

S407，确定该多个语音信息中关联有目标语音指令的语音信息为目标语音信息。

可以理解的是，如果语音指令库中不存在与该语音信息的关联程度超过设定阈值(或者符合前面提到的其他要求)的语音指令，则说明该语音信息属于输入可执行语音指令的语音信息的可能性较低，因此，该语音信息属于语音流中包含的干扰语音信息的可能性较大。在该种情况下，通过将关联有目标语音指令的语音信息确定为需要响应的语音信息，则有助于排除语音流中属于干扰信息的语音信息。

举例说明，假设语音流中包含了用户A和用户B的语音信息，如果在用户A输入包含语音指令的语音信号的过程中，处于用户A周围的用户B也发出声音，则语音流中采集到的用户B的语音信号则属于干扰语音。在该种情况下，语音识别设备在通过语音特征分析出属于用户A的语音信息和属于用户B的语音信息之后，可以分析语音指令库中是否存在分别与用户A和用户B的语音信息关联的语音指令。

由于用户B的语音信息属于误输入的干扰语音，那么语音指令库中不存在与该用户B的语音信息关联的语音指令的可能性较大。而且，即使存在与该用户B的语音信息关联的语音指令，那么语音指令与该用户B的语音信息的关联程度也会很低，因此，如果语音指令库中不存在与用户B的语音信息关联程度大于设定阈值的目标语音指令，则不需要将该用户B的语音信息确定为需要响应的目标语音信息。

S408，响应该目标语音信息。

如，由于本实施例已确定出目标语音信息关联的目标语音指令，则语音识别设备可以响应该目标语音信息关联的目标语音指令。

可见，本实施例通过对语音流中多个用户的语音信息进行语义识别，可以结合各语音信息的语义以及语音指令库的语音指令，分析语音指令库中是否存在与语音信息的相关程度大于设定阈值的目标语音指令。如果语音指令库中不存在与语音信息相关程度大于设定阈值的目标语音指令，则说明语音信息不属于需要输入语音指令的语音信息，即语音信息属于语音流中的干扰信息的可能性较大，从而可以有利于排除语音流中的干扰语音信息，进而使得语音识别设备可以准确响应非干扰语音信息。

下面以满足第一条件的语音信息为用于向语音识别设备输入语音指令的语音信息的情况进行介绍。

在一个示例中，可以先对语音流中该多个语音信息中每个语音信息进行语义识别。然后，针对每个语音信息，基于该语音信息的语义识别结果，确定该语音信息是否为用于向语音识别设备输入的语音指令，并将多个语音信息中用于向语音识别设备输入语音指令的语音信息确定为目标语音信息。

如，对语音信息的语义识别可以是利用自然语言识别等技术确定语音信息所表达的语义信息和/或用户意图等，因此，通过语音信息的语义识别结果可以表征出该语音信息是否为向语音识别设备输入语音指令的语音信息。

又如，还可以通过预先训练的机器模型等对语音信息进行语义识别和语义识别结果的分类，通过分类结果可以反映语音信息是否为向语音识别设备输入语音指令的语音信息。如果通过机器模型输出的语义识别结果的分类结果表征该语音信息属于向语音识别设备输入语音指令的语音信息，则将该语音信息确定为目标语音信息。

在又一个示例中，确定多个语音信息中用于向语音识别设备输入语音指令的语音信息可以为：确定多个语音信息中包含有唤醒词的语音信息为目标语音信息。

如，可以转换出语音信息的文本，通过对该文本进行关键词检测，确定该语音信息的文本中是否包含该唤醒词，如果语音信息的文本中包含唤醒词，则说明语音信息中包含唤醒词。当然，对于其他识别语音信息是否包含唤醒词的方式也同样适用，在此不再赘述。

可以理解的是，为了使得语音识别设备可以识别出用户输入的语音信号为向语音识别设备输入的语音信号，用户可以输入包含唤醒词的语音信号，因此，如果识别出用户的语音信息中包含有唤醒词，则可以确认该用户的语音信息为用于向语音识别设备输入语音指令的语音信息。

在又一个示例中，确定用于向语音识别设备输入语音指令的语音信息可以是基于语音流中该多个语音信息之间的语义关联关系，将与其他语音信息之间不存在语句问答关系的语音信息确定为目标语音信息。

为了便于理解，可以参见图5所示，其示出了一种语音处理方法又一个实施例的流程示意图，本实施例的方法可以包括：

S501，获取语音流。

S502，对该语音流进行语音特征识别。

S503，在识别出该语音流中包含多个用户的语音特征的情况下，基于该语音流中的不同用户的语音特征，从该语音流中确定出不同用户对应的语音信息，得到多个语音信息。

以上步骤S501到S503可以参见前面实施例的相关介绍，在此不再赘述。

S504，基于对该多个语音信息的语义识别，确定该多个语音信息之间的语义关联关系。

其中，该多个语音信息之间的语义关联关系是指该多个用户的语音信息的语义之间存在的关联关系。

如，在识别出多个语音信息的语义之后，可以结合多个语音信息之间的语义，确定该多个语音信息的语义之间是否存在关联，如果存在关联，还可以确定关联类型以及关联程度等。

当然，在实际应用中，还可以结合多个语音信息在语音流之间的相互位置关系，以及各个语音信息的语义来综合分析两个或者多个语音信息之间的关联关系。

举例说明，假设语音流中存在语音信息1、语音信息2和语音信息3，而识别出这三个语音信息的语义分别为“打开音乐播放器”、“今天天气好”、“天气好适合去公园”，那么结合这三个语音信息的语义可知，语音信息1的语义与语音信息2和语音信息3的语义之间没有任何关系，而语音信息2和语音信息3之间存在语义存在关联，且结合这两个语音信息的语义以及顺序关系可分析出语音信息3为针对语音信息2的回复语音信息，语音信息2与语音信息3之间存在语义关联。

S505，针对每个语音信息，基于该多个语音信息之间的语义关联关系，确定该语音信息与该多个语音信息中的其他语音信息之间是否存在语句问答关系。

其中，语句问答关系也可以称为语句交流关系，两个或者多个语音信息之间存在语句问答关系表征这两个或者多个语音信息为两个或者多个用户之间相互沟通或者交流所产生的语音信息。

可以理解的是，如果两个或者多个用户之间处于聊天或者交流状态，那么这些用户的语音信息之间必然在语义上存在关联，且符合语义上的关联关系符合语句问答关系。如，语义之间符合语句问答关系的任意两个语音信息中必然有至少一个语音信息是针对另外至少一个语音信息的回复语音。例如，步骤S504的例子中，语音信息3为针对语音信息2的回复语音，这两个语音信息之间便存在语句问答关系。

其中，依据具有语句问答关系的语音信息之间在语义关联关系上的特征，可以分析多个语音信息之间是否存在语句问答关系。

如，在一个示例中，本申请可以结合两个语音信息之间的语句问答关系所对应的语义关联关系，可以分析任意两个语音信息之间是否存在语句问答关系。

在又一个示例中，还可以通过训练出的机器模型来确定至少两个语音信息的语义之间是否存在语句问答关系。如，预先获取多份语音样本集，每份语音样本集可以包括至少两个语音样本，且该至少两个语音样本之间存在语句问答关系。在此基础上，可以基于该多个语音样本集训练机器模型(如，神经网络模型等)，以训练出能够识别至少两个语音样本(或者说语音信息)是否存在语句问答关系的机器模型。其中，本申请对于该机器模型的训练过程不加限制。

S506，将该多个语音信息中与其他语音信息之间不存在语句问答关系的语音信息确定为目标语音信息。

可以理解的是，对于多个语音信息中任意一个语音信息而言，如果该语音信息与该多个语音信息中的其他语音信息之间存在语句问答关系，则说明该语音信息为在该语音信息归属的用户与其他用户进行聊天或者交流等所发出的，不属于用于向语音识别设备输入语音指令的语音信息。

由上段分析可知，语音识别设备无需处理与其他语音信息之间存在语句问答关系的语音信息。相应的，对于与其他语音信息之间不存在语句问答关系的语音信息，语音识别设备需要将这些语音设备确定为需要响应的目标语音信息，以便继续处理目标语音信息。

S507，响应于该目标语音信息。

该步骤S507可以参见图1实施例的相关介绍，在此不再赘述。

由以上可知，本申请在从语音流中确定出多个用户的语音信息之后，会结合该多个语音信息的语义，从多个语音信息中确定出与其他语音信息之间不存在语句问答关系的语音信息。由于只有多个用户在聊天或者交流的过程中，不同用户的语音信息的语音之间才会存在语句问答关系，因此，本申请过将与其他语音信息之间不存在语句问答关系的语音信息确定为需要响应的目标语音信息，可以有效排除语音流中不属于用于向语音识别设备输入语音指令的干扰语音信息，从而有利于更为准确的实现语音信息的响应。

在又一个示例中，确定语音信息是否为用于向语音识别设备输入语音指令的语音信息可以是结合对语音信息的语义识别结果和语音信息所归属的用户信息库综合确定，如结合图6详细说明。如图6，其示出了本申请一种语音处理方法又一个实施例的流程示意图，本实施例的方法可以包括：

S601，获取语音流。

S602，对该语音流进行语音特征识别。

S603，在识别出该语音流中包含多个用户的语音特征的情况下，基于该语音流中的不同用户的语音特征，从该语音流中确定出不同用户对应的语音信息，得到多个语音信息。

以上步骤S601到S603可以参见前面实施例的相关介绍，在此不再赘述。

S604，对语音信息进行语义识别，得到语音信息的语义识别结果。

对语义信息的语义识别可以参见前面实施例中语义识别的相关介绍，在此不再赘述。

S605，确定该语音信息所归属的用户是否关联有用户信息库。

其中，用户关联的用户信息库中可以存储有该用户关联的用户信息。

如，用户信息库中可以用户的属性信息、历史行为信息以及用户设定的唤醒词等等信息中的一种或者多种。其中，用户的属性信息可以为用户的年龄、学历和职业等信息。用户的历史行为信息可以为用户历史输入的语音信号、语音指令以及在语音识别设备上进行的设置操作等等。

在一个示例中，可以基于语音信息所归属的用户对应的语音特征，确定该语音信息所归属的用户是否属于该语音识别设备中存储的用户集中的用户。在该语音信息所归属的用户属于语音识别设备存储的用户集中的用户，则确定是否存在与该用户关联的用户信息库。

其中，该用户集可以包括至少一个用户的信息，该至少一个用户可以具有操作语音识别设备的操作权限的用户，和/或，历史上对该语音识别设备输入过语音指令的用户。

其中，在该用户集中可以存储各个用户的语音特征，因此，如果该用户集中包含该语音信息所归属的用户的语音特征，则该语音信息所归属的用户属于该用户集。当然，该用户集中还可以存储用户的标识信息等。

相应的，在确定出语音信息所归属的用户属于语音识别设备中存储的用户集中的用户之后，可以根据该用户的语音特征或者用户集中该用户的标识信息等，查询是否存在该用户关联的用户信息库。

S606，针对每个语音信息，如语音信息所归属的用户关联有用户信息库，结合语音信息的语义识别结果和用户信息库，确定该语音信息是否为用于向语音识别设备输入语音指令的语音信息。

可以理解的是，由于用户信息库中存储用户的属性信息、历史行为记录以及设置的关键词等信息中的一种或者多种，因此，在获得语音信息的语义识别基础的基础上，该用户信息库可以辅助分析该语音信息是否为向语音识别设备输入语音指令的语音信息。

如，可以分别从语义识别结果和用户信息库这两个维度分析该语音信息为向语音识别设备输入语音指令的可能性，然后结合这两个维度分析出的可能性，确定语音信息是否为向语音识别设备输入语音指令的语音信息。

又如，可以基于语音信息的语义识别结果所表征的语义信息，查询用户信息库中是否存在与该语音信息相关的用户信息。如用户信息库中存在与该语义信息相关的用户信息，可以根据该用户信息与该语义信息分析语音信息是否为向语音识别设备发送语音指令。

举例说明，假设用户信息库中存储有用户历史上输入过语音指令“向用户M发送报表”。如果语音信息的语义识别结果为“通知用户M上报报表”，在该种情况下，结合用户信息库中存储的“向用户M发送报表”可知，该条语音信息为向语音识别设备输入的语音指令，该语音指令指示智能识别设备执行通知用户M“上报报表”的操作。

需要说明的是，在本实施例中，如果语音信息所归属的用户未关联有用户信息库，那么可以认为该语音信息不属于用于向语音识别设备输入语音指令的语音信息。在该种情况下，可以是仅仅在确定出语音信息归属的用户关联有用户信息库的情况下，才对该语音信息进行语义识别，即S603可以在确定出语音信息归属的用户关联有用户信息库的情况下才执行。

当然，对于语音信息所归属的用户未关联有用户信息库的情况下，也可以仅仅基于语音信息的语义识别结果分析该语音信息是否为用于向语音识别设备输入语音指令的语音信息，或者通过前面提到的其他方式来确定语音信息是否为用于向语音识别设备输入语音指令的语音信息，在此不再赘述。

S607，确定该多个语音信息中用于向语音识别设备输入语音指令的语音信息确定为目标语音信息。

S608，响应该目标语音信息。

该步骤S608可以参见前面实施例的相关介绍，在此不再赘述。

以上以确定语音信息是否为用于向语音识别设备输入的语音信息的几种情况为例说明，在实际应用中，还可以有其他可能；也可以是将以上几种情况结合起来综合确定语音信息是否为用于向语音识别设备输入的语音信息，在此不加限制。

为了便于理解本申请的方案，以对语音流的语音特征识别为对语音流进行声纹特征识别为例，并结合确定目标语音信息的一种情况进行介绍。如，参见图7，其示出了本申请一种语音处理方法又一个实施例的流程示意图，本实施例的方法可以包括：

S701，获取语音流。

S702，对该语音流进行声纹识别。

S703，在识别出该语音流中包含多种声纹特征的情况下，基于该语音流中的不同声纹特征，从该语音流中确定出不同声纹特征对应的语音信息，得到多个语音信息。

其中，由于不同用户的声纹特征不同，因此，每种声纹特征对应一个用户，相应的，不同声纹特征对应的语音信息实际上就是不同用户对应的语音信息。

S704，识别该多个语音信息中每个语音信息的用户意图。

S705，根据该语音信息的用户意图，确定语音指令库中与该语音信息的用户意图存在相关性的至少一个语音指令以及该语音信息的用户意图与每个该语音指令的相关程度。

S706，在该语音指令库中存在与该语音信息的用户意图的相关程度超过设定阈值的至少一个语音指令的情况下，将该超过设定阈值的至少一个语音指令确定为该语音信息关联的目标语音指令。

S707，确定该多个语音信息中关联有目标语音指令的语音信息为目标语音信息。

为了便于理解，本实施例中步骤S704到S707是以确定目标语音信息的一种情况为例说明。

S708，响应目标语音信息关联的目标语音指令。

如，目标语音信息只有一个的情况下，则可以响应与该目标语音信息的用户意图关联程度最高的目标语音指令。如果目标语音信息有多个，可以分别执行每个目标语音信息的用户意图各自关联程度最高的目标语音指令；也可以是按照目标语音信息的用户意图与目标语音指令的相关程度，选取用户意图与对应的目标语音指令的相关程度最高的目标语音信息，并响应该目标语音信息关联的目标语音指令。

又一方面，对应本申请的一种语音处理方法，本申请还提供了一种语音处理装置。如图8所示，其示出了本申请一种语音处理装置的一种组成结构示意图，该装置可以包括：

语音流获取单元801，用于获取语音流；

特征识别单元802，用于对所述语音流进行语音特征识别；

语音提取单元803，用于在识别出所述语音流中包含多个用户的语音特征的情况下，基于所述语音流中的不同用户的语音特征，从所述语音流中确定出不同用户对应的语音信息，得到多个语音信息；

目标确定单元804，用于确定所述多个语音信息中满足第一条件的语音信息为目标语音信息；

语音响应单元805，用于响应所述目标语音信息。

可选的，该语音响应单元具体为，用于在确定出所述目标语音信息包含有可执行的语音指令的情况下，响应所述目标语音信息对应的语音指令。

可选的，该语音识别单元具体为，用于在识别出所述语音流中包含多个用户的语音特征的情况下，根据语音流中不同用户的语音特征以及所述语音流中不同用户的语音特征对应的起始时刻点和结束时刻点，从所述语音流中确定出对应的语音信息。

作为一种可选方式，该语音识别单元包括：

声纹识别子单元，用于对所述语音流进行声纹识别；

所述语音提取单元，包括：

语音提取子单元，用于在识别出所述语音流中包含多个用户的声纹特征的情况下，基于所述语音流中的不同用户的声纹特征，从所述语音流中确定出不同用户对应的语音信息。

在一种可能的情况中，该目标确定单元，包括：

第一目标确定单元，用于确定所述多个语音信息中包含有可执行的语音指令的语音信息为目标语音信息。

作为一种可选方式，该第一目标确定单元，包括：

语音识别子单元，用于识别所述多个语音信息中每个语音信息的语义；

相关性确定子单元，用于根据所述语音信息的语义，确定语音指令库中与所述语音信息存在相关性的至少一个语音指令以及所述语音信息与每个所述语音指令的相关程度；

指令确定子单元，用于在所述语音指令库中存在与所述语音信息的相关程度超过设定阈值的至少一个语音指令的情况下，将所述超过设定阈值的至少一个语音指令确定为所述语音信息关联的目标语音指令；

第一目标确定子单元，用于确定所述多个语音信息中关联有目标语音指令的语音信息为目标语音信息。

在又一种可能的情况中，该目标确定单元，包括：

第二目标确定单元，用于确定所述多个语音信息中用于向语音识别设备输入语音指令的语音信息为目标语音信息。

可选的，该第二目标确定单元，包括：

第一分析确定子单元，用于对所述多个语音信息中每个语音信息进行语义识别；根据所述语音信息的语义识别结果，确定所述语音信息是否为用于向语音识别设备输入的语音指令；确定所述多个语音信息中用于向语音识别设备输入语音指令的语音信息为目标语音信息；

和/或，第二分析确定子单元，用于确定所述多个语音信息中包含有唤醒词的语音信息为目标语音信息；

和/或，第三分析确定子单元，用于基于对所述多个语音信息的语义识别，确定所述多个语音信息之间的语义关联关系；基于所述多个语音信息之间的语义关联关系，确定所述语音信息与所述多个语音信息中的其他语音信息之间是否存在语句问答关系，并将与其他语音信息之间不存在语句问答关系的语音信息确定为目标语音信息；

和/或，第四分析确定子单元，用于确定所述语音信息所归属的用户是否关联有用户信息库；如所述语音信息所归属的用户关联有用户信息库，结合所述语音信息的语义识别结果和所述用户信息库，从所述多个语音信息中确定用于向语音识别设备输入语音指令的目标语音信息。

在一种可能的实现方式中，语音流获取单元，具体为，用于响应于接收到的包含唤醒词的语音信号，获取语音流；

相应的，该目标确定单元，包括：

第三目标确定单元，用于将所述多个语音信息中，语音特征与所述语音信号的语音特征相同的语音信息确定为目标语音信息。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音处理方法，包括：

获取语音流；

对所述语音流进行语音特征识别；

响应所述目标语音信息；

其中，所述确定所述多个语音信息中满足第一条件的语音信息为目标语音信息，包括：

确定所述多个语音信息中用于向语音识别设备输入语音指令的语音信息为目标语音信息；

其中，所述确定所述多个语音信息中用于向语音识别设备输入语音指令的语音信息为目标语音信息，包括：

确定所述语音信息所归属的用户是否关联有用户信息库；如所述语音信息所归属的用户关联有用户信息库，结合所述语音信息的语义识别结果和所述用户信息库，从所述多个语音信息中确定用于向语音识别设备输入语音指令的目标语音信息；

其中，所述结合所述语音信息的语义识别结果和所述用户信息库，从所述多个语音信息中确定用于向语音识别设备输入语音指令的目标语音信息，包括：基于所述语音信息的语义识别结果所表征的语义信息，查询所述用户信息库中存储的用户历史上输入过的语音信息中是否存在与所述语义信息相关的语音信息，将与所述用户信息库中存储的用户历史上输入过的语音信息相关的语音信息，确定为目标语音信息。

2.根据权利要求1所述的方法，所述确定所述多个语音信息中满足第一条件的语音信息为目标语音信息，还包括：

3.根据权利要求1所述的方法，所述响应所述目标语音信息，包括：

4.根据权利要求2所述的方法，所述确定所述多个语音信息中包含有可执行的语音指令的语音信息为目标语音信息，包括：

识别所述多个语音信息中每个语音信息的语义；

5.根据权利要求1所述的方法，所述对所述语音流进行语音特征识别，包括：

对所述语音流进行声纹识别；

6.根据权利要求1所述的方法，所述获取语音流，包括：

响应于接收到的包含唤醒词的语音信号，获取语音流；

7.根据权利要求1所述的方法，所述在识别出所述语音流中包含多个用户的语音特征的情况下，基于所述语音流中的不同用户的语音特征，从所述语音流中确定出不同用户对应的语音信息，包括：

8.一种语音处理装置，包括：

语音流获取单元，用于获取语音流；

特征识别单元，用于对所述语音流进行语音特征识别；

语音响应单元，用于响应所述目标语音信息；

其中，所述确定所述多个语音信息中满足第一条件的语音信息为目标语音信息，包括：确定所述多个语音信息中用于向语音识别设备输入语音指令的语音信息为目标语音信息；

其中，所述确定所述多个语音信息中用于向语音识别设备输入语音指令的语音信息为目标语音信息，包括：确定所述语音信息所归属的用户是否关联有用户信息库；如所述语音信息所归属的用户关联有用户信息库，结合所述语音信息的语义识别结果和所述用户信息库，从所述多个语音信息中确定用于向语音识别设备输入语音指令的目标语音信息；