CN108509619B

CN108509619B - 一种语音交互方法及设备

Info

Publication number: CN108509619B
Application number: CN201810301962.9A
Authority: CN
Inventors: 李锐; 陈志刚; 刘权; 王智国
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2021-05-04
Anticipated expiration: 2038-04-04
Also published as: CN108509619A

Abstract

本申请公开了一种语音交互方法及设备，可以分析待辨别语音与历史交互数据之间的关联关系，其中，历史交互数据包括待辨别语音之前的一条用户语音指令以及对该用户语音指令的响应结果，然后，可以根据二者之间的关联关系判断待辨别语音是否为指令型语音，当判断出待辨别语音为非指令型的干扰语音时，便可以不对其进行指令响应，从而避免了一次错误的人机交互，进而提升了用户体验。

Description

一种语音交互方法及设备

技术领域

本申请涉及语音技术领域，尤其涉及一种语音交互方法及设备。

背景技术

随着计算机和人工智能技术的进步，人机交互技术也在不断发展，尤其是具有人机交互功能的智能家居、机器人等智能设备将具有广阔的发展前景。

以机器人为例，目前的人机交互流程一般可包括以下步骤：

首先，通过固定的命令词唤醒机器人；然后，机器人利用声学上的语音端点检测技术(Voice Activity Detection，简称VAD)，从连续的语音流中检测出有效的语音段，即检测出有效语音的起始点以及结束点，当检测到结束点时，将该有效语音的识别结果作为指令送入语义理解引擎；最后，机器人根据语义理解引擎的处理结果，对该指令做出响应。

可见，目前的人机交互指令是通过VAD技术从用户语音中获得的，然而在实际场景下，由于VAD技术只能去除非人声干扰，无法去除用户旁边的非指令的人声干扰，如果将这样的人声干扰作为“指令”送入语义理解引擎，将会导致了一次错误的人机交互，从而影响了用户体验。

发明内容

本申请实施例的主要目的在于提供一种语音交互方法及设备，能够判断出用户语音是否为指令型语音。

本申请实施例提供了一种语音交互方法，包括：

将当前获取的用户语音作为待辨别语音；

根据所述待辨别语音与历史交互数据之间的关联关系，判断所述待辨别语音是否为指令型语音，其中，所述历史交互数据包括第一历史指令以及对所述第一历史指令的响应结果，所述第一历史指令为所述待辨别语音之前的一条用户语音指令；

若所述待辨别语音为指令型语音，则对所述待辨别语音进行响应；

若所述待辨别语音为非指令型语音，则不对所述待辨别语音进行响应。

可选的，所述根据所述待辨别语音与历史交互数据之间的关联关系，判断所述待辨别语音是否为指令型语音，包括：

根据第一关联关系和第二关联关系，判断所述待辨别语音是否为指令型语音，其中，所述第一关联关系为所述待辨别语音与所述响应结果在语义上的关联关系，所述第二关联关系为所述待辨别语音与所述第一历史指令在声纹特征上的关联关系。

可选的，所述方法还包括：

收集属于当前对话领域的各组人机交互数据，其中，部分或全部的人机交互数据中包括指令型的用户样本语音以及非指令型的用户样本语音；

利用所述各组人机交互数据构建语义理解模型语音指令辨别模型；

则，所述根据第一关联关系和第二关联关系，判断所述待辨别语音是否为指令型语音，包括：

利用所述语义理解模型语音指令辨别模型，确定所述第一关联关系和所述第二关联关系，并根据第一关联关系和第二关联关系，判断所述待辨别语音是否为指令型语音。

可选的，所述方法还包括：

将所述用户样本语音的识别文本作为待标注文本；

将所述待标注文本对目标语义槽的正确填充结果进行标注，并将所述待标注文本对所述目标语义槽的历史填充结果的正确操作类型进行标注，其中的历史填充结果为第二历史指令的识别文本对所述目标语义槽的正确填充结果，所述第二历史指令为所述用户样本语音之前的一条用户样本语音，所述目标语义槽包括当前对话领域的各个预定义语义槽；

则，所述利用所述各组人机交互数据构建语义理解模型语音指令辨别模型，包括：

逐条获取所述人机交互数据中的用户样本语音，并将当前获取的用户样本语音的识别文本作为训练样本文本；

利用当前的语义理解模型语音指令辨别模型，预测所述训练样本文本对所述目标语义槽的第一正确填充结果，并预测所述训练样本文本对所述目标语义槽的历史填充结果的第一正确操作类型；

确定所述第一正确填充结果与对应标注结果之间的第一差别，并确定所述第一正确操作类型与对应标注结果之间的第二差别；

根据所述第一差别与所述第二差别，调整所述语义理解模型语音指令辨别模型的模型参数；

判断是否满足训练结束条件；若是，则结束训练；若否，则将下一条用户样本语音的识别文本作为所述训练样本文本，继续执行所述利用当前的语义理解模型语音指令辨别模型进行预测的步骤。

可选的，所述根据第一关联关系和第二关联关系，判断所述待辨别语音是否为指令型语音，包括：

将所述待辨别语音的识别文本作为待辨别文本；

根据所述第一关联关系和所述第二关联关系，预测所述待辨别文本对所述目标语义槽的第二正确填充结果，并预测所述待辨别文本对所述目标语义槽的历史填充结果的第二正确操作类型，其中的历史填充结果为所述第一历史指令的识别文本对当前对话领域的语义槽的填充结果；

判断所述第二正确操作类型对应的语义槽填充结果与所述第二正确填充结果是否相同；若是，则确定所述待辨别语音为指令型语音；若否，则确定所述待辨别语音为非指令型语音。

本申请实施例还提供了一种语音交互设备，包括：

语音获取单元，用于将当前获取的用户语音作为待辨别语音；

语音辨别单元，用于根据所述待辨别语音与历史交互数据之间的关联关系，判断所述待辨别语音是否为指令型语音，其中，所述历史交互数据包括第一历史指令以及对所述第一历史指令的响应结果，所述第一历史指令为所述待辨别语音之前的一条用户语音指令；

语音处理单元，用于若所述待辨别语音为指令型语音，则对所述待辨别语音进行响应；若所述待辨别语音为非指令型语音，则不对所述待辨别语音进行响应。

可选的，所述语音辨别单元，具体用于根据第一关联关系和第二关联关系，判断所述待辨别语音是否为指令型语音，其中，所述第一关联关系为所述待辨别语音与所述响应结果在语义上的关联关系，所述第二关联关系为所述待辨别语音与所述第一历史指令在声纹特征上的关联关系。

可选的，所述设备还包括：

样本收集单元，用于收集属于当前对话领域的各组人机交互数据，其中，部分或全部的人机交互数据中包括指令型的用户样本语音以及非指令型的用户样本语音；

模型训练单元，用于利用所述各组人机交互数据构建语音指令辨别模型；

则，所述语音辨别单元包括：

关系确定子单元，用于利用所述语音指令辨别模型，确定所述第一关联关系和所述第二关联关系；

语音辨别子单元，用于根据第一关联关系和第二关联关系，判断所述待辨别语音是否为指令型语音。

可选的，所述设备还包括：

文本标注单元，用于将所述用户样本语音的识别文本作为待标注文本；将所述待标注文本对目标语义槽的正确填充结果进行标注，并将所述待标注文本对所述目标语义槽的历史填充结果的正确操作类型进行标注，其中的历史填充结果为第二历史指令的识别文本对所述目标语义槽的正确填充结果，所述第二历史指令为所述用户样本语音之前的一条用户样本语音，所述目标语义槽包括当前对话领域的各个预定义语义槽；

则，所述模型训练单元包括：

样本获取子单元，用于逐条获取所述人机交互数据中的用户样本语音，并将当前获取的用户样本语音的识别文本作为训练样本文本；

信息预测子单元，用于利用当前的语音指令辨别模型，预测所述训练样本文本对所述目标语义槽的第一正确填充结果，并预测所述训练样本文本对所述目标语义槽的历史填充结果的第一正确操作类型；

差别确定子单元，用于确定所述第一正确填充结果与对应标注结果之间的第一差别，并确定所述第一正确操作类型与对应标注结果之间的第二差别；

参数调整子单元，用于根据所述第一差别与所述第二差别，调整所述语音指令辨别模型的模型参数；

条件判断子单元，用于判断是否满足训练结束条件；若是，则结束训练；若否，则将下一条用户样本语音的识别文本作为所述训练样本文本，继续调用所述信息预测子单元来利用当前的语音指令辨别模型进行预测。

可选的，所述语音辨别子单元包括：

文本获取子单元，用于将所述待辨别语音的识别文本作为待辨别文本；

结果预测子单元，用于根据所述第一关联关系和所述第二关联关系，预测所述待辨别文本对所述目标语义槽的第二正确填充结果，并预测所述待辨别文本对所述目标语义槽的历史填充结果的第二正确操作类型，其中的历史填充结果为所述第一历史指令的识别文本对当前对话领域的语义槽的填充结果；

填充判断子单元，用于判断所述第二正确操作类型对应的语义槽填充结果与所述第二正确填充结果是否相同；若是，则确定所述待辨别语音为指令型语音；若否，则确定所述待辨别语音为非指令型语音。

本申请实施例还提供了一种语音交互设备，包括：处理器、存储器、***总线；

所述处理器以及所述存储器通过所述***总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行如上述语音交互方法的任一实现方式。

本申请实施例还提供了一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如上述语音交互方法的任一实现方式。

本实施例提供的语音交互方法及设备，可以分析待辨别语音与历史交互数据之间的关联关系，其中，历史交互数据包括待辨别语音之前的一条用户语音指令以及对该用户语音指令的响应结果，然后，可以根据二者之间的关联关系判断待辨别语音是否为指令型语音，当判断出待辨别语音为非指令型的干扰语音时，便可以不对其进行指令响应，从而避免了一次错误的人机交互，进而提升了用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的人机交互数据示意图；

图2为本申请实施例提供的语音交互方法的流程示意图之一；

图3为本申请实施例提供的语音交互方法的流程示意图之二；

图4为本申请实施例提供的语音指令辨别模型的构建方法的流程示意图之一；

图5为本申请实施例提供的语音指令辨别模型的构建方法的流程示意图之二；

图6为本申请实施例提供的语音指令辨别模型的结构示意图；

图7为本申请实施例提供的对待辨别语音的辨别方法的流程示意图；

图8为本申请实施例提供的一种语音交互设备的组成示意图；

图9为本申请实施例提供的一种语音交互设备的硬件结构示意图。

具体实施方式

现有的人机交互方法，一般通过语音识别技术，将用户的一条语音指令转换成文本指令后送入语义理解引擎进行语义理解，以根据语义理解引擎的理解结果给出相应的响应结果。

例如，参见图1所示的人机对话内容包括：

用户：给我来一首好听的歌；

设备：好的，为您播放张学友的吻别；

用户：不要张学友的，我要迈克学摇滚英文版的；

设备：为您播放英文版吻别；

用户：刘德华的；

设备：没有为您找到刘德华的吻别，为你播放忘情水。

在以上一组人机对话中，语义理解引擎在其中一轮交互过程中收到的文本指令为“刘德华的”，该文本指令对应的语音，实际上是用户旁边一个人说的非指令的干扰语音。但是，现有人机交互方法使用的VAD技术无法去除非指令的人声干扰，因此，会将“刘德华”作为歌手名以触发音乐查询业务，从而导致了一次错误的人机交互，进而影响了用户体验。

为克服上述缺陷，本申请实施例提供了一种语音交互方法及设备，对于当前接收的用户语音，能够判断出该用户语音是否为指令型语音。本申请实施例提供的语音交互方法，可以由具有人机交互功能的智能设备执行，比如该智能设备可以是具有人机交互功能的智能家居、机器人等。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

第一实施例

参见图2，为本实施例提供的一种语音交互方法的流程示意图，该语音交互方法包括以下步骤：

S201：将当前获取的用户语音作为待辨别语音。

在智能设备的人机交互功能被启动后，智能设备会实时接收并识别用户语音。为便于区分，本实施例将当前获取的用户语音定义为待辨别语音。

例如，如图1所示，如果当前获取的用户语音为“不要张学友的，我要迈克学摇滚英文版的”，则该条语音即为待辨别语音；如果当前获取的用户语音为“刘德华的”，则该条语音即为待辨别语音。

S202：根据所述待辨别语音与历史交互数据之间的关联关系，判断所述待辨别语音是否为指令型语音。

需要说明的是，所述指令型语音是指属于用户指令的语音，当智能设备接收到这类用户语音时，应对其进行指令响应；反之，对于非指令型的用户语音或其它环境声音，即为干扰语音。

在本实施例中，所述历史交互数据包括第一历史指令以及对第一历史指令的响应结果。需要说明的是，本实施例将待辨别语音之前的一条用户语音指令定义为第一历史指令，由于第一历史指令为指令型语音而非干扰语音，所以，智能设备已经对其进行了指令响应，从而具有响应结果，该响应结果可以理解为对第一历史指令的执行结果。例如，如图1所示，假设待辨别语音为“刘德华的”，那么，将待辨别语音之前所执行的一条指令型语音作为第一历史指令，即，第一历史指令为“不要张学友的，我要迈克学摇滚英文版的”，而对第一历史指令的响应结果即为“为您播放英文版吻别”

在本实施例中，可以对待辨别语音以及历史交互数据进行联合分析，以确定待辨别语音与历史交互数据之间的关联关系，以便根据二者之间的关联性，判断待辨别语音是指令型语音还是非指令型的干扰语音。

S203：若所述待辨别语音为指令型语音，则对所述待辨别语音进行响应；若所述待辨别语音为非指令型语音，则不对所述待辨别语音进行响应。

当判断得出当前待辨别语音为指令型语音时，便将当前待辨别语音作为语音指令进行响应，接下来，当需要进行下一轮的语音指令辨别时，即当获取到下一条待辨别语音时，将当前待辨别语音作为第一历史指令，并将对当前待辨别语音的响应结果作为对第一历史指令的响应结果，用以判断下一条待辨别语音是指令型语音还是干扰语音；反之，当判断得出待辨别语音为非指令型的干扰语音时，便不对其进行指令响应。

综上，本实施例提供的语音交互方法，可以分析待辨别语音与历史交互数据之间的关联关系，其中，历史交互数据包括待辨别语音之前的一条用户语音指令以及对该用户语音指令的响应结果，然后，可以根据二者之间的关联关系判断待辨别语音是否为指令型语音，当判断出待辨别语音为非指令型的干扰语音时，便可以不对其进行指令响应，从而避免了一次错误的人机交互，进而提升了用户体验。

第二实施例

本实施例将通过下面S302来说明上述第一实施例中S202的具体实施方式。

参见图3，为本实施例提供的一种语音交互方法的流程示意图，该语音交互方法包括以下步骤：

S301：将当前获取的用户语音作为待辨别语音。

需要说明的是，本步骤S301与上述第一实施例中的S201相同，相关之处请参见第一实施例，此处不再赘述。

S302：根据第一关联关系和第二关联关系，判断所述待辨别语音是否为指令型语音。

其中，所述第一关联关系为待辨别语音与历史响应结果(该历史响应结果是第一实施例中提及的对第一历史指令的响应结果)在语义上的关联关系。具体实现时，可以通过语音识别得到待辨别语音的识别文本，比如图1所示的“刘德华的”；并获取上述历史响应结果对应的文本内容，比如图1所示的“为您播放英文版吻别”；然后，在语义上分析二者之间的关联关系，比如分析二者是否属于同一对话领域，比如是否均为点歌语音。

其中，所述第二关联关系为待辨别语音与第一历史指令在声纹特征上的关联关系。具体实现时，可以分别提取待辨别语音和第一历史指令的声纹特征，比如Ivector特征，具体提取方法与现有技术相同，此处不再赘述；然后，将待辨别语音与第一历史指令的声纹特征进行比较，以确定待辨别语音与第一历史指令是否属于同一发音人。

在本实施例中，将第一关联关系和第二关联关系进行联合分析，以判断待辨别语音是否为指令型语音。

具体地，一种情况中，当待辨别语音与第一历史指令属于同一发音人时，如果待辨别语音与第一历史指令在语义上相关性较大，则待辨别语音很可能是针对之前对话内容的指令型语音，反之，如果待辨别语音与第一历史指令在语义上相关性不大，则待辨别语音很可能是针对新对话内容的指令型语音。

另一种情况中，当待辨别语音与第一历史指令不属于同一发音人时，如果待辨别语音与第一历史指令在语义上相关性较大，则待辨别语音很可能是其它用户针对之前对话内容的指令型语音、也可能是干扰语音，反之，如果待辨别语音与第一历史指令在语义上相关性不大，则待辨别语音很可能是其它用户针对新对话内容的指令型语音、也可能是干扰语音。

S303：若所述待辨别语音为指令型语音，则对所述待辨别语音进行响应；若所述待辨别语音为非指令型语音，则不对所述待辨别语音进行响应。

需要说明的是，本步骤S303与上述第一实施例中的S203相同，相关之处请参见第一实施例，此处不再赘述。

综上，本实施例提供的语音交互方法，可以分析待辨别语音与对第一历史指令的响应结果在语义上的关联关系，以及分析待辨别语音与第一历史指令在声纹特征上的关联关系，然后，联合分析这两种关联关系来判断待辨别语音是否为指令型语音，当判断出待辨别语音为非指令型的干扰语音时，便可以不对其进行指令响应，从而避免了一次错误的人机交互，进而提升了用户体验。

第三实施例

本实施例将对上述第二实施例中S302的具体实施方式进行介绍。

在本实施例中，可以预先构建一语音指令辨别模型，以便利用该语音指令辨别模型来判断待辨别语音是否为指令型语音。

参见图4所示的语音指令辨别模型的构建方法的流程示意图，该构建方法包括以下步骤：

S401：收集属于当前对话领域的各组人机交互数据，其中，部分或全部的人机交互数据中包括指令型的用户样本语音以及非指令型的用户样本语音。

在人机交互场景中，对于一组人机对话(通常包括一轮或多轮对话)，通常是针对某一具体话题进行交互，因此，在本实施例中，可以预先根据对话主题进行领域划分，得到不同的对话领域，比如，这些对话领域可以是音乐业务领域、订票业务领域等。

在本实施例中，将所述待辨别语音之前的对话内容所属的对话领域，称为当前对话领域。为了对所述待辨别语音是否为指令型语音进行判断，需要预先收集当前对话领域的多组人机交互数据，利用这些数据训练语音指令辨别模型。

可以理解的是，对于收集的大量人机交互数据，每组人机交互数据包括一轮或多轮交互数据。其中，一些人机交互数据中可以不包括与当前交互对话无关的用户样本语音，即不包括干扰语音，而一些人机交互数据中应包括与当前交互对话无关的用户样本语音，即包含干扰语音，有些干扰语音应是与当前对话领域相关的干扰语音，另一些干扰语音应是与当前对话领域不相关的干扰语音，通过带有干扰语音的人机交互数据训练语音指令辨别模型，可以增强语音指令辨别模型的拒识能力。

S402：利用所述各组人机交互数据构建语音指令辨别模型。

在本实施例中，需要构建一个初始的语音指令辨别模型，利用该语音指令辨别模型对收集的人机交互数据进行学习，即，学习何种对话场景下的何种用户语音属于指令型语音、以及学习何种对话场景下的何种用户语音属于非指令型的干扰语音，通过多轮学习结果不断的调整语音指令辨别模型的模型参数，从而训练得到一个最终的语音指令辨别模型。

基于此，在本实施例的一种实施方式中，第二实施例中的步骤S302具体可以包括：利用所述语音指令辨别模型，确定所述第一关联关系和所述第二关联关系，并根据第一关联关系和第二关联关系，判断所述待辨别语音是否为指令型语音。在本实施方式中，可以将待辨别语音以及历史交互数据输入至训练得到的语音指令辨别模型中，语音指令辨别模型可以根据自己的最终学习结果，通过对待辨别语音与历史交互数据进行特征提取，以确定第一关联关系和第二关联关系，然后，根据第一关联关系和第二关联关系输出辨别参数，利用该辨别参数便可以判断待辨别语音在当前对话场景下是指令型语音还是干扰语音。

综上，本实施例提供的语音交互方法，可以预先构建一语音指令辨别模型，这样，当需要判断待辨别语音是否为指令型语音时，可以基于语音指令辨别模型对大量人机对话样本的学习结果，来分析待辨别语音与对第一历史指令的响应结果在语义上的关联关系、以及分析待辨别语音与第一历史指令在声纹特征上的关联关系，然后，联合分析这两种关联关系来判断待辨别语音是否为指令型语音，当判断出待辨别语音为非指令型的干扰语音时，便可以不对其进行指令响应，从而避免了一次错误的人机交互，进而提升了用户体验。

第四实施例

本实施例将介绍上述第三实施例中S402的具体实施方式，即介绍一种具体的语音指令辨别模型构建方法，以及，对基于该具体构建方法如何判断待辨别语音是否为指令型语音进行介绍。

在进行模型训练之前，需要预先进行文本标注，如图5所示，具体包括步骤S501和S502：

S501：将所述用户样本语音的识别文本作为待标注文本。

对于收集的各组人机交互数据，对于每组人机交互数据中的每一用户样本语音，通过语音识别技术得到该用户样本语音的识别文本。

本实施例将每一识别文本分别作为待标注文本。

S502：将所述待标注文本对目标语义槽的正确填充结果进行标注，并将所述待标注文本对目标语义槽的历史填充结果的正确操作类型进行标注。

上述步骤S401中提到需要预先划分多个对话领域，因此，可以为每一对话领域定义不同的语义槽，以使每一对话领域对应一个或多个预定义语义槽。例如，可以为音乐业务领域定义“歌曲名”、“歌手名”、“歌曲来源”、“歌曲版本”、“合唱歌手”、“乐队”、“歌手性别”等不同的语义槽。

在本实施例中，将当前对话领域的各个语义槽称为目标语义槽。

为便于区分，相对于每一用户样本语音来讲，本实施例将该语音之前同一组交互数据中的一条用户样本语音定义为第二历史指令，而本步骤S502中的历史填充结果即为第二历史指令的识别文本对目标语义槽的正确填充结果。

在使用语义槽时，涉及两方面的使用：

第一方面，使用待标注文本(即用户样本语音的识别文本)对目标语义槽进行填充。例如，假设待标注文本为“我想听张学友的吻别”，则被填充的语义槽分别为“歌手名”和“歌曲名”，其中，“歌手名”的填充内容为“张学友”，“歌曲名”的填充内容为“吻别”。另外，可以对语义槽是否被填充进行标注，本实施例不对标注方式进行限定，例如，当语义槽被填充时，可以使用1进行标注，当语义槽没有被填充时，可以使用0进行标注。

第二方面，使用待标注文本对目标语义槽的历史填充结果进行操作，操作类型包括“增加”、“删除”、“替换”、“保持”四种操作，其中，“增加”、“删除”、“替换”需要对相应语义槽进行操作，“保持”不需要对相应语义槽进行操作，具体地，“增加”是指在没有任何填充内容的语义槽中添加内容，“删除”是指删除语义槽中的已有填充内容，“替换”是指将语义槽中的已有填充内容替换为其它内容，“保持”是指保持语义槽中的已有填充内容。另外，可以对语义槽的***作类型进行标注，本实施例不对标注方式进行限定，例如，当语义槽的操作类型为“增加”时，可以使用1进行标注；当语义槽的操作类型为“删除”时，可以使用2进行标注；当语义槽的操作类型为“替换”时，可以使用3进行标注；当语义槽的操作类型为“保持”时，可以使用4进行标注。

为便于理解本步骤S502，下面结合下面3个例子进行说明。

例1，以下为一组人机交互数据的文本数据，在该组人机交互数据中不包括干扰语音：

用户：给我来一首张学友的吻别；

设备：好的，为你播放张学友的吻别；

用户：换成刘德华的忘情水；

设备：好的，为你播放刘德华的忘情水；

用户：还是来一首英文版的吻别吧。

接下来对该组人机交互数据的文本数据进行如下操作。

首先，确定该组人机交互数据所属的对话业务领域，比如确定其为音乐业务领域；然后，对于该组人机交互数据中的每一用户语音数据的识别文本(后续简称为待标注文本)，需要确定待标注文本对音乐业务领域的语义槽填充结果和语义槽操作类型，并对其进行标注，如下表1所示。

表1

在对语义槽操作类型进行标注时，对于每一待标注文本，简称文本A，如果文本A是该组人机交互数据的第一条用户语音，则当文本A对相关语义槽进行填充后，该填充结果对这些相关语义槽的操作类型是“增加”。例如，如表1所示，当文本A为“给我来一首张学友的吻别”，文本A对歌手名语义槽和歌曲名语义槽的操作均为“增加”。

如果文本A不是该组人机交互数据的第一条用户语音，则在文本A对语义槽进行填充之前，有的语义槽已经有填充内容、有的语义槽没有填充内容，那么，当文本A对相关语义槽进行填充之后，确定此填充结果对相关语义槽(包括之前有填充内容的语义槽以及没有填充内容的语义槽)的操作类型。例如，如表1所示，当文本A为“换成刘德华的忘情水”，由于歌手名语义槽的填充内容由“张学友”变成了“刘德华”，因此对歌手名语义槽的操作类型为“替换”，同样地，由于歌曲名语义槽的填充内容由“吻别”变成了“忘情水”，因此对歌曲名语义槽的操作类型为“替换”。

例2，以下为一组人机交互数据的文本数据，在该组人机交互数据中包括与音乐业务领域相关的干扰语音。

用户：给我来一首张学友的吻别；

设备：好的，为你播放张学友的吻别；

用户：换成周杰伦的青花瓷吧；

设备：好的，为你播放周杰伦的青花瓷；

干扰：刘德华的。

在上述人机交互数据中，用户语音数据“刘德华的”为干扰语音。

对于该组人机交互数据中的每一待标注文本，需要确定待标注文本对音乐业务领域的语义槽填充结果和语义槽操作类型，并对其进行标注，如表2所示。

表2

如表2所示，在标注语义槽填充结果时，干扰语音中的“刘德华”填充了歌手名语义槽；在标注语义槽操作类型时，如果用户语音“刘德华的”不是干扰语音，其作为待标注文本对歌手名的正确操作类型应为“替换”，但由于“刘德华的”是干扰语音，其作为待标注文本对歌手名的正确操作类型应为“保持”，而不是“替换”。

例3，以下为一组人机交互数据的文本数据，在该组人机交互数据中包括与音乐业务领域不相关的干扰语音。

用户：给我来一首张学友的吻别；

设备：好的，为你播放张学友的吻别；

用户：换成周杰伦的青花瓷吧；

设备：好的，为你播放周杰伦的青花瓷；

干扰：今天有***。

在上述人机交互数据中，用户语音数据“今天有***”为干扰语音。

对于该组人机交互数据中的每一待标注文本，需要确定待标注文本对音乐业务领域的语义槽填充结果和语义槽操作类型，并对其进行标注，如表3所示。

表3

如表3所示，在标注语义槽填充结果时，干扰语音中的“***”可能会填充歌曲名语义槽；在标注语义槽操作类型时，如果用户语音“今天有***”不是干扰语音，其作为待标注文本对歌曲名的正确操作类型应为“替换”，但由于“今天有***”是干扰语音，其作为待标注文本对歌曲名的正确操作类型应为“保持”，而不是“替换”。

如图5所示，基于上述标注结果，S402即“利用各组人机交互数据构建语音指令辨别模型”具体可以包括：

S503：逐条获取所述人机交互数据中的用户样本语音，并将当前获取的用户样本语音的识别文本作为训练样本文本。

可以将各组人机交互数据进行排序，按照顺序遍历每一组人机交互数据，并在遍历当前组人机交互数据时，按照交互顺序逐条遍历其中的每一用户样本语音。本实施例将当前遍历到的用户样本语音的识别文本称为训练样本文本，并执行后续步骤。

S504：利用当前的语音指令辨别模型，预测训练样本文本对目标语义槽的第一正确填充结果，并预测训练样本文本对目标语义槽的历史填充结果的第一正确操作类型。

如图6所示，为本实施例提供的语音指令辨别模型的结构示意图，该语音指令辨别模型具体包括两个子模型，分别为语义槽填充识别模型和语义槽操作识别模型。

其中，语义槽填充识别模型用于预测当前轮训练样本文本对目标语义槽的填充结果，本实施例不限定语义槽填充识别模型的网络结构，其网络结构可以是基于神经网络的分类模型结构，比如基于双向长短时记忆(Bidirectional Long Short-Term Memory，简称BiLSTM)的网络结构，具体可以包括输入层、双向长短时记忆编码层LSTM、全连接层以及输出层；

其中，语义槽操作识别模型用于预测当前轮训练样本文本对目标语义槽的操作类型，本实施例不限定语义槽操作识别模型的网络结构，其网络结构可以是基于卷积神经网络(Convolutional Neural Network，简称CNN)的分类模型结构，比如基于卷积神经网络的网络结构，具体可以包含输入层、卷积编码层CNN、全连接层以及输出层。

在进行模型训练时，首先将当前轮训练样本文本按字进行向量化，得到当前轮训练样本文本中每个字的字向量W1、W2、W3、W4、……Wn。本实施例不限定向量化的方法，比如word2vec方法。

然后，将这些向量特征W1、W2、W3、W4、……Wn输入到语义槽填充识别模型的输入层，这些输入特征经双向长短时记忆编码层LSTM进行双向编码后，得到表征当前轮训练样本文本的上下文关系的编码特征A。同时，获取当前轮用户样本语音的声纹特征sperker，并获取上一轮的历史状态信息state，该历史状态信息包括上一轮用户样本语音的声纹特征、以及上一轮训练样本文本对目标语义槽的操作类型。

再然后，将获取的声纹特征sperker、历史状态信息state以及双向长短时记忆编码层LSTM输出的编码特征A，输入到语义槽操作识别模型的输入层；这些输入特征经卷积编码层CNN进行双向编码后，得到表征当前轮训练样本文本与上一轮训练样本文本之间的语义关联关系的编码特征B、以及表征当前轮用户样本语音的声纹特征与上一轮用户样本语音的声纹特征之间的关联关系的编码特征S。

将编码特征A和编码特征B输入到语义槽填充识别模型的全连接层，以便该全连接层对当前轮训练样本文本中每个字对目标语义槽的填充结果进行判定，使得语义槽填充识别模型的输出层输出当前轮训练样本文本对目标语义槽的填充结果。例如，假设当前轮训练样本文本为“我要听刘德华的忘情水”，该全连接层输出的判定结果为“OOOBaIaEa0BsIsEs”，其中，B代表一个实体字的起始，O代表非实体字，I代表实体中间字，E代表实体字的最后一个字，a表示歌手名，s表示歌曲名，那么，“BaIaEa”表示实体“刘德华”是一个歌手，因此歌手名语义槽被填充，“BsIsEs”表示实体“忘情水”是歌曲名，因此歌曲名语义槽被填充。

将编码特征B和编码特征S输入到语义槽操作识别模型的全连接层，以便该全连接层对当前轮训练样本文本对语义槽的操作结果进行判定，使得语义槽操作识别模型的输出层输出当前轮训练样本文本对目标语义槽的操作类型，如上所述，该操作类型分别为增加、删除、替换、保持。例如，关于“歌手名”语义槽，当上一轮对话中该语义槽的填充结果为空时，如果当前轮训练样本文本为“张学友的”，经模型预测后会在“歌手名”语义槽上产生一个“增加”操作；当上一轮对话中“歌手名”语义槽内有填充内容时，如果当前轮训练样本文本为“换成张学友的吧”，经模型预测后会在“歌手名”语义槽上产生一个“替换”操作。

本实施例将预测得到的正确填充结果称为第一正确填充结果，将预测得到的正确操作类型称为第一正确操作类型。

S505：确定所述第一正确填充结果与对应标注结果之间的第一差别，并确定所述第一正确操作类型与对应标注结果之间的第二差别；根据所述第一差别与所述第二差别，调整所述语音指令辨别模型的模型参数。

由于在进行模型训练前，已经将每轮交互数据中待标注文本对目标语义槽的填充结果和操作类型进行了正确标注，因此，当利用语义槽填充识别模型预测当前轮训练样本文本对语义槽的填充结果、以及利用语义槽操作识别模型预测当前轮训练样本文本对语义槽的操作类型后，可以根据标注的填充结果与预测的填充结果之间的差别对语义槽填充识别模型的模型参数进行调整，并根据标注的操作类型与预测的操作类型之间的差别对语义槽操作识别模型的模型参数进行调整。

S506：判断是否满足训练结束条件；若是，则结束训练；若否，则将下一条用户样本语音的识别文本作为所述训练样本文本，继续执行S504。

当利用当前轮训练样本文本进行模型参数调整后，如果满足训练结束条件后，比如所述第一差别与所述第二差别均小于对应的预设差别阈值、或训练轮数达到预设次数后，则结束训练，从而得到包括语义槽填充识别模型和语义槽填充识别模型的语音指令辨别模型，否则，继续下一轮训练。

如图7所示，基于训练得到的语音指令辨别模型，上述第三实施例中的“根据第一关联关系和第二关联关系，判断待辨别语音是否为指令型语音”，具体可以包括以下步骤：

S701：将所述待辨别语音的识别文本作为待辨别文本。

S702：根据第一关联关系和第二关联关系，预测待辨别文本对目标语义槽的第二正确填充结果，并预测待辨别文本对目标语义槽的历史填充结果的第二正确操作类型，其中的历史填充结果为第一历史指令的识别文本对当前对话领域的语义槽的填充结果。

在本实施例中，获取模型输入参数，该模型输入参数包括：待辨别语音对应的待辨别文本和声纹特征、以及历史状态信息state-A，其中，该历史状态信息state-A包括第一历史指令对应的识别文本和声纹特征、以及第一历史指令的识别文本作为待辨别文本时对当前对话领域的语义槽的填充结果。

然后，将该模型输入参数输入至训练得到的语音指令辨别模型中，语音指令辨别模型便可以按照上述训练过程进行预测，即，将上述的当前轮训练样本文本替换为待辨别文本，将上述的当前轮用户样本语音的声纹特征sperker替换为待辨别语音的声纹特征，将上述的历史状态信息state替换为历史状态信息state-A。最终预测出待辨别文本对目标语义槽的正确填充结果，并预测待辨别文本对目标语义槽的历史填充结果的正确操作类型。

为了与训练阶段的预测结果进行区分，本实施例将本步骤预测得到的正确填充结果称为第二正确填充结果，将本本步骤预测得到的正确操作类型称为第二正确操作类型。

需要说明的是，对于首轮用户交互时，历史状态信息state-A可以为空。

S703：判断所述第二正确操作类型对应的语义槽填充结果与所述第二正确填充结果是否相同；若是，则确定所述待辨别语音为指令型语音；若否，则确定所述待辨别语音为非指令型语音。

例如，假设首轮交互时输入的用户语音数据为“我想听张学友的吻别”，将该用户语音数据作为待辨别语音时，利用语音指令辨别模型对填充结果和操作类型进行预测时，预测结果如下：

语义槽填充的预测结果为：歌手名语义槽被“张学友”填充，歌曲名语义槽被“吻别”填充；操作类型的预测结果为：歌手名语义槽的操作类型为“增加”，歌曲名语义槽的操作类型为“增加”。

可见，由于该预测操作类型对应的语义槽填充结果与预测语义槽填充结果相同，则认为“我想听张学友的吻别”为指令型语音，因此，智能设备可以对其进行响应，比如，向用户反馈“正在为您播放张学友的吻别”的语音提示，并在提示结束后播放歌曲“吻别”。

又例如，假设非首轮交互时输入的用户语音数据为“刘德华的”，将该用户语音数据作为待辨别语音时，利用语音指令辨别模型对填充结果和操作类型进行预测时，预测结果如下：

语义槽填充的预测结果为：歌手名语义槽被“刘德华”填充；操作类型的预测结果为：歌手名语义槽的操作类型为“保持”。

可见，由于该预测操作类型对应的语义槽填充结果与预测语义槽填充结果不同，则认为“刘德华”为非指令型的干扰语音，因此，智能设备可以不对其进行响应。

综上，本实施例提供的语音交互方法，可以利用训练得到的语音指令辨别模型，预测待辨别文本对目标语义槽的填充结果以及对目标语义槽的操作类型，如果这两个预测结果使得目标语义槽的内容相同，则认为待辨别语音为指令型语音，否则认为待辨别语音为干扰语音。当采用这种方式判断出待辨别语音为非指令型的干扰语音时，便可以不对其进行指令响应，从而避免了一次错误的人机交互，进而提升了用户体验。

第五实施例

参见图8，为本实施例提供的一种语音交互设备的组成示意图，该语音交互设备800包括：

语音获取单元801，用于将当前获取的用户语音作为待辨别语音；

语音辨别单元802，用于根据所述待辨别语音与历史交互数据之间的关联关系，判断所述待辨别语音是否为指令型语音，其中，所述历史交互数据包括第一历史指令以及对所述第一历史指令的响应结果，所述第一历史指令为所述待辨别语音之前的一条用户语音指令；

语音处理单元803，用于若所述待辨别语音为指令型语音，则对所述待辨别语音进行响应；若所述待辨别语音为非指令型语音，则不对所述待辨别语音进行响应。

在本实施例的一种实现方式中，所述语音辨别单元802，具体用于根据第一关联关系和第二关联关系，判断所述待辨别语音是否为指令型语音，其中，所述第一关联关系为所述待辨别语音与所述响应结果在语义上的关联关系，所述第二关联关系为所述待辨别语音与所述第一历史指令在声纹特征上的关联关系。

在本实施例的一种实现方式中，所述设备800还包括：

则，所述语音辨别单元802包括：

在本实施例的一种实现方式中，所述设备800还包括：

则，所述模型训练单元包括：

在本实施例的一种实现方式中，所述语音辨别子单元包括：

第六实施例

参见图9，为本实施例提供的一种语音交互设备的硬件结构示意图，所述语音交互设备900包括存储器901和接收器902，以及分别与所述存储器901和所述接收器902连接的处理器903，所述存储器901用于存储一组程序指令，所述处理器903用于调用所述存储器901存储的程序指令执行如下操作：

将当前获取的用户语音作为待辨别语音；

在本实施例的一种实现方式中，所述处理器903还用于调用所述存储器901存储的程序指令执行如下操作：

将所述用户样本语音的识别文本作为待标注文本；

将所述待辨别语音的识别文本作为待辨别文本；

在一些实施方式中，所述处理器903可以为中央处理器(Central ProcessingUnit，CPU)，所述存储器901可以为随机存取存储器(Random Access Memory，RAM)类型的内部存储器，所述接收器902可以包含普通物理接口，所述物理接口可以为以太(Ethernet)接口或异步传输模式(Asynchronous Transfer Mode，ATM)接口。所述处理器903、接收器902和存储器901可以集成为一个或多个独立的电路或硬件，如：专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)。

进一步地，本实施例还提供了一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述语音交互方法中的任意一种实现方式。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的设备而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音交互方法，其特征在于，包括：

将当前获取的用户语音作为待辨别语音；

若所述待辨别语音为非指令型语音，则不对所述待辨别语音进行响应；

所述指令型语音是指属于用户指令的语音；所述非指令型语音是指用户旁边的非指令的人声干扰；

其中，所述根据所述待辨别语音与历史交互数据之间的关联关系，判断所述待辨别语音是否为指令型语音，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

利用所述各组人机交互数据构建语音指令辨别模型；

利用所述语音指令辨别模型，确定所述第一关联关系和所述第二关联关系，并根据第一关联关系和第二关联关系，判断所述待辨别语音是否为指令型语音。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

将所述用户样本语音的识别文本作为待标注文本；

则，所述利用所述各组人机交互数据构建语音指令辨别模型，包括：

利用当前的语音指令辨别模型，预测所述训练样本文本对所述目标语义槽的第一正确填充结果，并预测所述训练样本文本对所述目标语义槽的历史填充结果的第一正确操作类型；

根据所述第一差别与所述第二差别，调整所述语音指令辨别模型的模型参数；

判断是否满足训练结束条件；若是，则结束训练；若否，则将下一条用户样本语音的识别文本作为所述训练样本文本，继续执行所述利用当前的语音指令辨别模型进行预测的步骤。

4.根据权利要求3所述的方法，其特征在于，所述根据第一关联关系和第二关联关系，判断所述待辨别语音是否为指令型语音，包括：

将所述待辨别语音的识别文本作为待辨别文本；

5.一种语音交互设备，其特征在于，包括：

语音处理单元，用于若所述待辨别语音为指令型语音，则对所述待辨别语音进行响应；若所述待辨别语音为非指令型语音，则不对所述待辨别语音进行响应；所述指令型语音是指属于用户指令的语音；所述非指令型语音是指用户旁边的非指令的人声干扰；

其中，所述语音辨别单元，具体用于根据第一关联关系和第二关联关系，判断所述待辨别语音是否为指令型语音，其中，所述第一关联关系为所述待辨别语音与所述响应结果在语义上的关联关系，所述第二关联关系为所述待辨别语音与所述第一历史指令在声纹特征上的关联关系。

6.根据权利要求5所述的设备，其特征在于，所述设备还包括：

则，所述语音辨别单元包括：

7.根据权利要求6所述的设备，其特征在于，所述设备还包括：

则，所述模型训练单元包括：

8.根据权利要求7所述的设备，其特征在于，所述语音辨别子单元包括：

9.一种语音交互设备，其特征在于，包括：处理器、存储器、***总线；

所述处理器以及所述存储器通过所述***总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行如权利要求1-4任一项所述的方法。

10.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-4任意一项所述的方法。