CN112767916A

CN112767916A - 智能语音设备的语音交互方法、装置、设备、介质及产品

Info

Publication number: CN112767916A
Application number: CN202110164588.4A
Authority: CN
Inventors: 熊志伟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-05-07
Anticipated expiration: 2041-02-05
Also published as: CN112767916B

Abstract

本公开公开了一种智能语音设备的语音交互方法、装置、设备、介质及产品，涉及计算机技术领域，尤其涉及人工智能以及语音交互技术领域。具体实现方案为：获取指向当前触发的目标语音应用程序的目标语音，并预测目标语音应用程序对目标语音的响应满意度；如果确定响应满意度不满足预设的门限条件，则根据目标语音的语音特征和/或场景特征，生成与目标语音对应的至少一项响应结果；在各响应结果中确定目标响应结果，并根据目标响应结果进行用户反馈。本公开的方案解决了针对触发目标语音应用程序的目标语音，智能语音设备响应结果单一及智能化程度较低的问题，提出了一种新的语音交互方式，提高了语音交互效率，提升了智能语音设备的智能化程度。

Description

智能语音设备的语音交互方法、装置、设备、介质及产品

技术领域

本公开涉及计算机技术领域，尤其涉及但不限于应用在人工智能以及语音交互技术领域，具体涉及一种智能语音设备的语音交互方法、装置、设备、介质及产品。

背景技术

随着诸如智能音箱、手机语音助手或者车载语音***等智能语音设备的不断发展，给人们的生活带来了巨大的便利。通过智能语音设备，人们可以查询天气、听音乐、听广播、查询信息或者购物等。

如何提升智能语音设备的语音交互能力是业内关注得重点问题。

发明内容

本公开提供了一种智能语音设备的语音交互方法、装置、设备、介质及产品。

根据本公开的一方面，提供了智能语音设备的语音交互方法，包括：

获取指向当前触发的目标语音应用程序的目标语音，并预测所述目标语音应用程序对所述目标语音的响应满意度；

如果确定所述响应满意度不满足预设的门限条件，则根据所述目标语音的语音特征和/或场景特征，生成与所述目标语音对应的至少一项响应结果；

在各所述响应结果中确定目标响应结果，并根据所述目标响应结果进行用户反馈。

根据本公开的另一方面，提供了一种智能语音设备的语音交互装置，包括：

响应满意度预测模块，用于获取指向当前触发的目标语音应用程序的目标语音，并预测所述目标语音应用程序对所述目标语音的响应满意度；

响应结果生成模块，用于如果确定所述响应满意度不满足预设的门限条件，则根据所述目标语音的语音特征和/或场景特征，生成与所述目标语音对应的至少一项响应结果；

目标响应结果确定模块，用于在各所述响应结果中确定目标响应结果，并根据所述目标响应结果进行用户反馈。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开中任一实施例所述的智能语音设备的语音交互方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据本公开中任一实施例所述的智能语音设备的语音交互方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据本公开中任一实施例所述的智能语音设备的语音交互方法。

根据本公开的技术方案提出了智能语音设备的一种新的语音交互方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的一种智能语音设备的语音交互方法的示意图；

图2是根据本公开实施例的另一种智能语音设备的语音交互方法的示意图；

图3是根据本公开实施例的又一种智能语音设备的语音交互方法的示意图；

图4是根据本公开实施例的再一种智能语音设备的语音交互方法的示意图；

图5是根据本公开实施例的一种智能语音设备的语音交互装置的结构示意图；

图6是用来实现本公开实施例的智能语音设备的语音交互方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在具体介绍本公开实施例之前，需要说明的是，智能语音设备中可以装载有诸如天气或者音乐等***应用程序，也可以装载有第三方语音应用程序。通常情况下，***应用程序可以满足用户的需求，可以与用户进行高效率的语音交互。但是，对于第三方语音应用程序，由于第三方开发者收集的样本较少，导致第三方语音应用程序对用户语音的响应结果较差，因此，如何提升第三方语音应用程序的性能，从而提升智能语音设备的智能化程度是业内关注的重点问题。

图1是根据本公开实施例的一种智能语音设备的语音交互方法的示意图，本实施例可适用于对智能语音设备的语音交互方式进行优化的情况，该方法可以通过智能语音设备的语音交互装置执行，该装置可以通过软件和/或硬件的方式实现，并集成在电子设备中；本实施例中涉及到的电子设备可以为智能音箱、计算机、智能手机、智能手表或者平板电脑等。具体的，参考图1，该方法具体包括如下：

S110、获取指向当前触发的目标语音应用程序的目标语音，并预测目标语音应用程序对目标语音的响应满意度。

在本实施例中，智能语音设备可以为智能音箱、智能电子设备中嵌入的语音对话***或者车载语音***等，本实施例中对其不加以限定。

其中，目标语音应用程序可以为智能语音设备中安装的第三方应用程序；示例性的，目标语音应用程序可以为智能语音设备中安装的教学类应用程序、查询类应用程序或者咨询类应用程序等，本实施例中对其不加以限定。

可以理解的是，指向当前触发目标语音应用程序的目标语音具体是指在智能语音设备中的目标语音应用程序处于触发状态时，该智能语音设备所接收的任意语音信息。

例如，开始做饭、今天天气怎么样或者去商场等语音数据，本实施例中对其不加以限定。

需要说明的是，智能语音设备可以装载***语音应用程序(例如，天气应用或者音乐播放应用等)以及第三方语音应用程序。从现有实现来看，在当前没有任一第三方语音应用程序处于触发状态时，每当智能语音设备接收到用户输入语音，可以将获取各个***语音应用程序对该用户输入语音的响应结果以及相应的响应得分，哪个***语音应用程序的得分最高，就将哪个***语音应用程序的响应结果进行用户反馈。但是，一旦用户通过设定语音指令调起(触发)某一个第三方语音应用程序后，智能语音设备再接收到的用户输入语音就会仅由该第三方语音应用程序进行响应。

在一个具体的例子中，智能语音设备在接收到用户输入的“打开应用程序A”时，可以相应触发内部安装的第三方应用程序A，并由该第三方应用程序A对用户输入语音进行响应输出。

在本实施例的一个可选实现方式中，当接收到指向目标语音应用程序的目标语音时，可以在将目标语音发送至目标语音应用程序之前，对目标语音应用程序对目标语音的响应满意度进行预测。

其中，目标语音应用程序对目标语音的响应满意度可以为满意或者不满意；还可以为0-1之间的任一数值或者0-100之间的任一数值，本实施例中对其不加以限定。示例性的，对目标语音应用程序对目标语音的响应满意度的预测结果可以为满意；也可以为0.98；还可以为98等。

在本实施例的一个可选实现方式中，在获取到指向当前触发的目标语音应用程序的目标语音之后，可以将获取到的目标语音输入至响应满意度预测模型中，从而输出目标语音应用程序对目标语音的响应满意度预测结果。

在本实施例的另一个可选实现方式中，在获取到指向当前触发的目标语音应用程序的目标语音之后，还可以将获取到的目标语音的特征向量与预先收集的各语音的特征向量进行比对，从而确定目标语音应用程序对目标语音的响应满意度预测结果。示例性的，若目标语音的特征向量与预先收集的一个参考语音的特征向量相同，则可以将目标应用程序对参考语音的响应满意度作为目标语音应用程序对目标语音的响应满意度预测结果。

S120、如果确定响应满意度不满足预设的门限条件，则根据目标语音的语音特征和/或场景特征，生成与目标语音对应的至少一项响应结果。

其中，门限条件可以为满意，也可以为阈值条件(例如，可以为0.6，0.8或者60等数值，本实施例中对其不加以限定)，本实施例中对其不加以限定。示例性的，若门限条件为满意，对目标语音应用程序对目标语音的响应满意度的预测结果为不满意，则可以确定预测的响应满意度不满足预设的门限条件；若门限条件为0.8，对目标语音应用程序对目标语音的响应满意度的预测结果为0.7，则可以确定预测的响应满意度不满足预设的门限条件。

在本实施例的一个可选实现方式中，在预测到目标语音应用程序对目标语音的响应满意度之后，可以将响应满意度与预设的门限条件进行比对，如果确定响应满意度不满足预设的门限条件，则可以根据获取的目标语音的语音特征、场景特征，或者语音特征以及场景特征生成与目标语音对应的至少一项响应结果。

其中，目标语音的语音特征可以为与目标语音对应的语义理解结果；目标语音的场景特征可以为闲聊场景或者指令场景，例如，若用户与智能语音设备聊天，则目标语音的场景特征为闲聊场景；若用户向智能语音设备发送指令，则目标语音的场景特征为指令场景；其中，查询指令或者打开其他物联网设备(例如，电灯或者电视机等设备)的指令，本实施例中对其不加以限定。

在本实施例的一个例子中，若获取到的目标语音为“播放音乐”，且当前触发的目标语音应用程序为游戏类应用程序，通过预测游戏类应用程序对“播放音乐”的响应满意度为不满意，即响应满意度不满足预设的门限阈值，则可以根据“播放音乐”的语义理解结果，生成响应结果“我猜，您的意思是听音乐是吗？”；还可以同时根据“播放音乐”的语义理解结果以及“播放音乐”的场景特征“指令场景”，生成响应结果。

需要说明的是，本实施例中生成的响应结果并不是唯一的，可以同时生成多个响应结果，例如，在上述例子中生成的响应结果还可以为：刚才我没听清，请再说一遍好吗，或者不能理解哦，您可以换个问题试试等。

S130、在各响应结果中确定目标响应结果，并根据目标响应结果进行用户反馈。

在本实施例的一个可选实现方式中，在生成与目标语音对应的多个响应结果之后，可以对各响应结果进行排序，以筛选出目标响应结果，并将目标响应结果反馈给用户。

在本实施例的一个例子中，可以对生成的多个响应进行优先级或者得分排序，将优先级最高的或者得分最高的响应结果确定为目标响应结果，并进一步的将目标响应结果反馈至用户，以等待接收用户发出的下一语音数据。

在本实施例的另一个可选实现方式中，在目标响应结果不满足条件时，也可以直接将目标响应结果反馈至目标语音应用程序，以通过目标语音应用程序对目标语音进行响应。

本实施例的方案，通过获取指向当前触发的目标语音应用程序的目标语音，并预测目标语音应用程序对目标语音的响应满意度，无需将目标语音发送至目标语音应用程序，即可对响应满意度进行预测；如果确定响应满意度不满足预设的门限条件，则根据目标语音的语音特征和/或场景特征，生成与目标语音对应的至少一项响应结果，可以丰富响应结果，提升用户与智能语音设备的交互体验；在各响应结果中确定目标响应结果，并根据目标响应结果进行用户反馈，解决了针对触发目标语音应用程序的目标语音，智能语音设备响应结果单一以及智能化程度较低的问题，提出了一种新的语音交互方式，提高了语音交互效率，提升了智能语音设备的智能化程度。

图2是根据本公开实施例的另一种智能语音设备的语音交互方法的示意图，本实施例是对上述技术方案的进一步细化，本实施例中的技术方案可以与上述一个或者多个实施例中的各个可选方案结合。如图2所示，智能语音设备的语音交互方法包括如下：

S210、获取指向当前触发的目标语音应用程序的目标语音。

S220、将目标语音的文本识别结果，以及目标语音应用程序的应用标识输入至预先训练的在线响应满意度预测模型中；获取在线响应满意度预测模型输出的响应满意度。

其中，目标语音的文本识别结果即为目标语言的语义理解结果，可选的，在获取到指向当前触发的目标语音应用程序的目标语音之后，可以将目标语音输入至自然语言处理模块，从而得到目标语音的文本识别结果。

进一步的，可以将目标语音的文本识别结果和目标语音应用程序的应用标识输入至预先训练的在线响应满意度预测模型中，从而得到在线响应满意度模型输出的响应满意度。

其中，每个目标语音应用程序的应用标识是唯一的，即在智能语音设备中，每个第三方应用程序都有唯一的标识信息，例如，智能语音设备中包含三个第三方应用程序，那么这三个第三方应用程序的应用标识分别可以为001、002以及003。

在本实施例的一个可选实现方式中，在将目标语音的文本识别结果，以及目标语音应用程序的应用标识输入至预先训练的在线响应满意度预测模型之前，还可以获取多个待标注样本数据，待标注样本数据包括：用户输入文本、用户输入文本的上下文信息和应用标识；分别将各待标注样本数据输入至预先训练的离线响应满意度预测模型中；获取离线响应满意度预测模型输出的响应满意度；根据用户输入文本、应用标识和响应满意度，构造多个训练样本；使用各训练样本对预设的机器学习模型进行训练，得到在线响应满意度预测模型。

可选的，在将目标语音的文本识别结果，以及目标语音应用程序的应用标识输入至预先训练的在线响应满意度预测模型之前，还可以训练得到在线响应满意预测模型；可选的，训练得到在线响应满意预测模型可以包括：获取多个待标注的用户输入文本、与每个输入文本对应的上下文信息，以及智能语音设备中所有目标语音应用程序的应用标识。

进一步的，可以将获取到的多个待标注的用户输入文本、与每个输入文本对应的上下文信息，以及智能语音设备中所有目标语音应用程序的应用标识，输入至预先训练的离线响应满意度预测模型中，得到离线响应满意度预测模型输出的响应度。

进一步的，根据用户输入文本、应用标识和离线响应满意度预测模型输出的响应满意度，构造多个训练样本；示例性的，可以将一条用户输入文本、应用标识和响应满意度组成一条训练样本。

进一步的，可以使用构造的各训练样本，对预设的机器学习模型进行训练，从而得到在线响应度满意预测模型。其中。预设的机器学习模型可以为Transformer模型或者其他自然语言处理模型，本实施例中对其不加以限定。

这样设置的好处在于，可以根据多个待标注的用户输入文本、与每个输入文本对应的上下文信息，以及智能语音设备中所有目标语音应用程序的应用标识，训练得到在线响应度满意预测模型，可以准确地对目标语音应用程序对目标语音的响应满意度进行预测，提升了算法的执行效率。

S230、如果确定响应满意度不满足预设的门限条件，则根据目标语音的语音特征和/或场景特征，生成与目标语音对应的至少一项响应结果。

S240、如果确定响应满意度满足预设的门限条件，则将目标语音的文本识别结果提供给目标语音应用程序；将目标语音应用程序提供的响应结果进行用户反馈。

在本实施例的另一个可选实现方式中，在预测到目标语音应用程序对目标语音的响应满意度之后，可以将响应满意度与预设的门限条件进行比对，如果确定响应满意度满足预设的门限条件，则可以直接将目标语音的文本标识结果提供给目标语音应用程序，并将目标语音应用程序提供的响应结果反馈给用户。

在本实施例的一个例子中，若获取到的目标语音为“播放音乐”，且当前触发的目标语音应用程序为音乐播放类应用程序，通过预测音乐播放类应用程序对“播放音乐”的响应满意度为满意，即响应满意度满足预设的门限阈值，则可以将“播放音乐”的文本标识结果直接提供给音乐播放类应用程序，并将音乐播放类应用程序提供的响应结果反馈给用户。

这样设置的好处在于，当确定响应满意度满足预设的门限条件，则可以直接将目标语音提供给目标语音应用程序，通过目标语音应用程序提供响应结果，可以进一步提高用户与智能语音设备的语音交互效率。

S250、在各响应结果中确定目标响应结果，并根据目标响应结果进行用户反馈。

本实施例的方案，通过将目标语音的文本识别结果，以及目标语音应用程序的应用标识输入至预先训练的在线响应度满意预测模型中，获取在线满意度预测模型输出的响应满意度，可以快速地对目标语音应用程序对目标语音的响应满意度进行预测，进一步提高了语音交互效率，为提升智能语音设备的智能化程度提供了依据。

图3是根据本公开实施例的又一种智能语音设备的语音交互方法的示意图，本实施例是对上述技术方案的进一步细化，本实施例中的技术方案可以与上述一个或者多个实施例中的各个可选方案结合。如图3所示，智能语音设备的语音交互方法包括如下：

S310、获取指向当前触发的目标语音应用程序的目标语音，并预测目标语音应用程序对目标语音的响应满意度。

S320、如果确定响应满意度不满足预设的门限条件，则根据目标语音的语音特征和/或场景特征，生成与目标语音对应的至少一项响应结果。

可选的，根据目标语音的语音特征和/或场景特征，生成与目标语音对应的至少一项响应结果，可以包括如下操作，下述操作可以独立实施，也可以结合实施；可以按照设定顺序串行实施，也可以并行实施。即实施顺序和组合方式不限。具体操作如下：

S321、获取与目标语音匹配的语音置信度；如果语音置信度不满足预设的门限条件，则生成请求用户重新输入的响应结果。

其中，与目标语音匹配的语音置信度可以为目标语音的清晰度，其可以为0-1之间的任一数值，本实施例中对其不加以限定。需要说明的是，语音置信度越大，表明目标语音的清晰程度越高，目标语音应用程序可以理解目标语音的概率也越大。在本实施例中，预设的门限阈值可以为0.6、0.7或者0.8等数值，本实施例中对其不加以限定。

需要说明的是，在本实施例中可以通过自然语言处理模型确定目标语音的清晰度(语音置信度)，即在获取到目标语音之后，可以将目标语音输入至自然语言处理模型中，通过自然语言处理模型对目标语音进行理解，从而确定目标语音的置信度。其中，自然语言处理模型为一个语音处理模块，本实施例中在此不对其进行赘述，其并不是对本实施例的限定。

在本实施例的一个可选实现方式中，根据目标语音的语音特征和/或场景特征，生成与目标语音对应的至少一项响应结果，可以包括：获取与目标语音匹配的语音置信度，以确定目标语音是否清晰；当语音置信度不满足预设的门限条件时，即在确定目标语音不清晰的情况下，可以生成请求用户重新输入的响应结果；其中，请求用户重新输入的响应结果可以为“刚才我没有听清，请再说一遍好吗？”

这样设置的好处在于，当目标语音的语音置信度不满足预设条件时，可以直接生成请求用户重新输入的响应结果，可以防止由于目标语音不清晰，而导致响应结果错误的情况，提升了语音交互的准确度以及效率。

S322、检测是否存在与目标语音匹配的目标变更候选结果；若是，则生成请求用户确认目标变更候选结果的响应结果。

其中，目标变更候选结果为与目标语音相关的语音文本；例如，目标语音为我要做菜，与我要做菜匹配的目标变更候选结果可以为开始做菜或者开始炒菜等，本实施例中对其不加以限定。

在本实施例的一个可选实现方式中，在预测得到目标语音应用程序对目标语音的响应满意度之后，如果响应满意度不满足预设条件，还可以继续检测是否存在与目标语音匹配的目标变更后续结果

需要说明的是，本实施例中可以通过变更模块生成与目标语音匹配的变更候选结果；示例性的，可以将目标语音输入至变更模块，从而得到与目标语音匹配的变更候选结果。其中，变更模块为一个语音处理模块，本实施例中在此不对其进行赘述，其并不是对本实施例的限定。

在本实施例的一个可选实现方式中，如果检测到与目标语音匹配的目标变更候选结果，则可以生成请求用户确认目标变更候选结果的响应结果。示例性的，若目标语音为我要做菜，检测到与我要做菜匹配的目标变更候选结果为开始做菜，则可以生成响应结果“您想说的是，开始做菜吗”。

这样设置的好处在于，可以检测变更候选结果，并生成请求用户确认的变更候选结果的响应结果，为准确地确定用户的意图提供依据，提升了语音交互的准确度以及效率。

S323、获取各关联语音应用程序对目标语音的响应结果得分；如果确定存在响应结果得分满足预设的门限条件的目标关联语音应用程序，则根据与目标语音匹配的历史交互记录，确定当前的交互状态；如果确定当前未处于强交互状态，则生成调起目标关联语音应用程序的响应结果；如果确定当前处于强交互状态，则生成请求用户确定调起目标关联语音应用程序的响应结果。

其中，关联语音应用程序可以为智能语音设备中装置的***应用程序，例如，装载的天气查询应用程序、音乐播放程序或者翻译程序等，本实施例中对其不加以限定。需要说明的是，在本实施例中关联语音程序是智能语音设备出厂后即装载在的应用程序，目标语音应用程序可以为用户安装的第三方应用程序。通常情况下，关联语音应用程序的语音理解能力可以高于目标语音应用程序。

在本实施例的一个可选实现方式中，在预测得到目标语音应用程序对目标语音的响应满意度之后，如果响应满意度不满足预设条件，可以获取智能语音设备中的各关联语音应用程序对目标语音的响应结果得分，如果确定存在响应结果得分满足预设的门限条件的目标关联语音应用程序，则可以根据与目标语音匹配的历史交互记录，确定当前的交互状态；其中，当前的交互状态可以为强交互状态也可以为非强交互状态，本实施例中对其不加以限定。

其中，强交互状态可以为用户在设定时间内(例如，30秒或者1分钟等)与目标语音应用程序的交互次数为多次(例如，2次、3次或者5次等)，则可以确定当前处于强交互状态。

进一步的，如果确定当前处于强交互状态，则可以生成请求用户确定调起目标关联语音应用程序的响应结果；如果确定当前未处于强交互状态，则可以生成调起目标关联应用程序的响应结果。

需要说明的是，如果用户已与目标语音应用程序进行多轮语音交互，直接将对话跳出转至目标关联应用程序，会给用户带来不良的对话体验；本实施例中，当确定用户已与目标语音应用程序进行多轮语音交互时，可以生成请求用户确定调起目标关联语音应用程序的响应结果，可以根据用户的选择是否将对话转至目标关联语音应用程序，可以增强智能语音设备的智能化程度，提升用户对智能设备的满意度。

S324、获取与目标语音匹配的场景类型；生成与场景类型匹配的请求用户转换问题的响应结果。

其中，场景类型可以包括：指令类或者闲聊类，本实施例中对其不加以限定。

在本实施例的一个可选实现方式中，在预测得到目标语音应用程序对目标语音的响应满意度之后，如果响应满意度不满足预设条件，可以进一步的获取与目标语音匹配的场景类型，并生成与场景类型匹配的请求用户转换问题的响应结果。

示例性的，如果目标语音的场景类型为指令类，则可以生成“当前目标语音应用程序还不支持这个指令，麻烦换个指令试试”；如果目标语音的场景类型为闲聊类，则可以生成“当前目标语音应用程序还不支持聊天哦，麻烦换个问题问问我”等。

这样设置的好处在于，可以生成一个兜底响应结果，进一步的增强智能语音设备的智能化程度，提升用户对智能设备的满意度。

S330、在各响应结果中确定目标响应结果，并根据目标响应结果进行用户反馈。

本实施例的方案，在确定响应满意度不满足预设的门限条件下，可以根据目标语音的语音特征和/或场景特征，生成与目标语音对应的多项响应结果，可以从不同程度上对目标语音进行响应，可以增强智能语音设备的智能化程度，提升用户对智能设备的满意度。

图4是根据本公开实施例的再一种智能语音设备的语音交互方法的示意图，本实施例是对上述技术方案的进一步细化，本实施例中的技术方案可以与上述一个或者多个实施例中的各个可选方案结合。如图4所示，智能语音设备的语音交互方法包括如下：

S410、获取指向当前触发的目标语音应用程序的目标语音，并预测目标语音应用程序对目标语音的响应满意度。

S420、如果确定响应满意度不满足预设的门限条件，则根据目标语音的语音特征和/或场景特征，生成与目标语音对应的至少一项响应结果。

S430、如果生成的响应结果的数量为多个，则按照预设的优先级顺序，对各响应结果进行排序；根据排序结果，获取目标响应结果。

在本实施例的一个可选实现方式中，在生成与目标语音对应的多项响应结果之后，可以进一步的按照预设的优先级顺序，对各响应结果进行排序，从而得到目标响应结果。其中，预设的优先级顺序不是固定不变的，可以根据不同的场景设置不同的优先级顺序。

在本实施例中的一个例子中，预设的优先级顺序可以为请求用户重新输入的响应结果、请求用户确认目标变更候选结果的响应结果、生成调起目标关联语音应用程序的响应结果以及请求用户转换问题的响应结果。

在本实施例中的另一个例子中，预设的优先级顺序可以为请求用户重新输入的响应结果、请求用户确认目标变更候选结果的响应结果、生成请求用户确定调起目标关联语音应用程序的响应结果以及请求用户转换问题的响应结果。

这样设置的好处在于，可以确定优先级最高的即用户满意度最高的响应结果，可以为增强智能语音设备的智能化程度，以及提升用户对智能设备的满意度提供依据。

S440、确定连续反馈目标响应结果的次数是否达到设定阈值；若是，则将目标语音的文本识别结果提供给目标语音应用程序，并将目标语音应用程序提供的响应结果进行用户反馈。

其中，设定阈值可以为3次、4次或者5次等数值，本实施例中对其不加以限定。

在本实施例的一个可选实现方式中，如果确定反馈目标响应结果的次数已达到设定阈值(例如，3次)，即已连续3次反馈目标响应结果，则可以将目标语音的文本识别结果提供给目标语音应用程序，以通过目标语音应用程序对目标语音进行响应，并将目标语音应用程序的响应结果反馈给用户。

示例性的，若针对目标语音已连续5次反馈“对不起，请再说一遍”的目标响应结果，为了防止进入死循环给用户带来不好的对话体验，则此时，可以将目标语音的文本识别结果提供给目标语音应用程序，通过目标语音应用程序对目标语音进行响应。

本实施例的方案，在确定连续反馈目标响应结果的次数达到设定阈值时，可以将目标语音的文本识别结果提供给目标语音应用程序，并将目标语音应用程序提供的响应结果进行用户反馈，可以避免计算机程序产品进入死循环，给用户带来较差的对话体验的问题，进一步提升了智能语音设备的智能化程度。

为了使本领域技术人员更好地理解本公开涉及到的停车位导航方法，下面采用一个具体的例子对本公开进行说明，其主要包括如下三个阶段：

第一阶段、响应满意度评估。

在线满意度预估，本公开将其建模为回归问题：给定目标语音，预测响应满意度，其中，满意度越小则不满足的可能性越大。

在本实施例中，从特征、模型、样本层面做细致阐述。

1、特征。

在本实施例的一个可选实现方式中，选取了目标应用程序的应用标识以及语音数据的文本识别结果两个特征。

2、模型。

在本实施例的一个可选实现方式中，可以采用Transformer模型。

3、样本。

在本实施例中，通过获取多个待标注样本数据，待标注样本数据包括：用户输入文本、用户输入文本的上下文信息和应用标识；分别将各待标注样本数据输入至预先训练的离线响应满意度预测模型中；获取离线响应满意度预测模型输出的响应满意度；根据用户输入文本、应用标识和响应满意度，构造多个训练样本。

第二阶段、生成响应结果。

在本实施例的一个可选实现方式中，可以生成多种不同的响应结果，各响应结果的生成条件、适用场景以及呈现效果均不相同。

示例性的，针对响应结果“speak again”：

生成条件：语音置信度低于阈值(这里的语音置信度衡量的是目标语音的清晰度)；

适用场景：自然语言处理问题，包括误识别或者误截断；

呈现效果：智能语音设备播放话术“刚才我没听清，请再说一遍好吗？”。

示例性的，针对响应结果“check”：

生成条件：目标语音变换模块有传递候选(目标语音变换模块是上游模块，作用在于对目标语音进行改写、纠错等，该模块如果有高置信的候选，会直接对目标语音进行变换，如果只有低置信的候选，则不会进行目标语音变换，但是会将候选往下游传递)；

适用场景：目标语音应用程序理解能力有限的“泛化”场景，如学习类语音应用程序可理解“开始做菜”，但无法理解“我要做菜”；

呈现效果：用户说“我要做菜”，智能语音设备播放话术“你想说的是‘开始做菜’吗？你也可以对我再说一遍”，此时如果用户说“是的”，则***会直接将“开始做菜”下发给学习类语音应用程序，以使用户得到满意的结果。

示例性的，针对响应结果“强中断”：

生成条件：关联语音应用程序中有较好的结果；

适用场景：跳出，目标语音应用程序满足能力有限、没有资源或功能不支持；

呈现效果：用户在学习类语音应用程序说“播放音乐”，***会直接调起关联语音应用程序“音乐”，并为用户播放音乐。

示例性的，针对响应结果“询问中断”：

生成条件：关联语音应用程序中有较好的结果，且当前处于强交互状态(如用户上文短时间内完成多轮交互)；

适用场景：和强中断一致，只不过这里的生成增加了“强交互”的限制，强交互状态下，如果是误触发(即当前目标语音应用程序实际可以满足当前目标语音，模型预测错误)，对用户的用户体验伤害较大，因此采用询问中断来削弱这种伤害，作为一种容错机制；

呈现效果：用户在学习类语音应用程序说“播放音乐”，智能语音设备播放话术“我猜，你的意思是听音乐是吗？”，此时如果用户说“是的”，则***会调起关联语音应用程序“音乐”，并为用户播放音乐。

示例性的，针对响应结果“转换语音”：

生成条件：这是一个兜底响应，只要有响应满意度信号，该响应结果都会被生成；

使用场景：指令类、闲聊类等其它技能无法满足的目标语音；

呈现效果：不同类别的目标语音播放的话术不同，在本实施例中目标语音的类别(场景特征)可以通过上游模块解析出来的意图来判别；若是指令类目标语音，则话术为“当前技能还不支持这个指令，麻烦换个指令试试”；若是闲聊类目标语音，则话术为“当前技能不支持聊天喔，请换个问题问问我；若是其它目标语音，则话术为“不能理解哦，你可以换个问题试试”等。

第三阶段、反馈。

在本实施例中，对于生成的多个响应结果，可以根据设定的优先级顺序，对各响应结果进行排序，从而得到目标响应结果。其中，预设的优先级顺序不是固定不变的，可以根据不同的场景设置不同的优先级顺序。

本实施例的方案，针对现有技术中第三方开发者的技术水平及可获取的有限数据，绝大多数目标语音应用程序的理解与满足能力远远低于关联语音应用程序的现状，本案可以不再局限与由目标语音应用程序响应用户语音，而是针对用户语音的不同状态，选择一种最合适的方式与用户进行交互，减少了语音交互次数，提高了语音交互效率，提高了用户对智能语音设备的满意度。

图5是根据本公开实施例的一种智能语音设备的语音交互装置的结构示意图，该装置可以执行本公开任一实施例中涉及到的智能语音设备的语音交互方法；参考图5，智能语音设备的语音交互装置500，包括：响应满意度预测模块510、响应结果生成模块520以及目标响应结果确定模块530。

响应满意度预测模块510，用于获取指向当前触发的目标语音应用程序的目标语音，并预测所述目标语音应用程序对所述目标语音的响应满意度；

响应结果生成模块520，用于如果确定所述响应满意度不满足预设的门限条件，则根据所述目标语音的语音特征和/或场景特征，生成与所述目标语音对应的至少一项响应结果；

目标响应结果确定模块530，用于在各所述响应结果中确定目标响应结果，并根据所述目标响应结果进行用户反馈。

本实施例的方案，通过响应满意度预测模块获取指向当前触发的目标语音应用程序的目标语音，并预测所述目标语音应用程序对所述目标语音的响应满意度；通过响应结果生成模块根据所述目标语音的语音特征和/或场景特征，生成与所述目标语音对应的至少一项响应结果；通过目标响应结果确定模块在各所述响应结果中确定目标响应结果，并根据所述目标响应结果进行用户反馈，解决了针对触发目标语音应用程序的目标语音，智能语音设备响应结果单一以及智能化程度较低的问题，提出了一种新的语音交互方式，提高了语音交互效率，提升了智能语音设备的智能化程度。

在本实施例的一个可选实现方式中，所述响应满意度预测模块510，具体用于

将所述目标语音的文本识别结果，以及所述目标语音应用程序的应用标识输入至预先训练的在线响应满意度预测模型中；

获取所述在线响应满意度预测模型输出的所述响应满意度。

在本实施例的一个可选实现方式中，所述智能语音设备的语音交互装置500，还包括：

在线响应满意度预测模型确定模块，用于获取多个待标注样本数据，所述待标注样本数据包括：用户输入文本、用户输入文本的上下文信息和应用标识；

分别将各所述待标注样本数据输入至预先训练的离线响应满意度预测模型中；

获取所述离线响应满意度预测模型输出的响应满意度；

根据所述用户输入文本、应用标识和响应满意度，构造多个训练样本；

使用各所述训练样本对预设的机器学习模型进行训练，得到所述在线响应满意度预测模型。

文本识别结果提供模块，用于如果确定所述响应满意度满足预设的门限条件，则将所述目标语音的文本识别结果提供给目标语音应用程序；

将所述目标语音应用程序提供的响应结果进行用户反馈。

在本实施例的一个可选实现方式中，所述响应结果生成模块520，包括：第一响应结果生成子模块，用于

获取与所述目标语音匹配的语音置信度；

如果所述语音置信度不满足预设的门限条件，则生成请求用户重新输入的响应结果。

在本实施例的一个可选实现方式中，所述响应结果生成模块520，包括：第二响应结果生成子模块，用于

检测是否存在与所述目标语音匹配的目标变更候选结果；

若是，则生成请求用户确认所述目标变更候选结果的响应结果。

在本实施例的一个可选实现方式中，所述响应结果生成模块520，包括：第三响应结果生成子模块，用于

获取各关联语音应用程序对所述目标语音的响应结果得分；

如果确定存在响应结果得分满足预设的门限条件的目标关联语音应用程序，则根据与所述目标语音匹配的历史交互记录，确定当前的交互状态；

如果确定当前未处于强交互状态，则生成调起所述目标关联语音应用程序的响应结果；

如果确定当前处于强交互状态，则生成请求用户确定调起所述目标关联语音应用程序的响应结果。

在本实施例的一个可选实现方式中，所述响应结果生成模块520，包括：第四响应结果生成子模块，用于

获取与所述目标语音匹配的场景类型，所述场景类型包括：指令类或者闲聊类；

生成与所述场景类型匹配的请求用户转换问题的响应结果。

在本实施例的一个可选实现方式中，所述目标响应结果确定模块530，包括：目标响应结果确定子模块，用于

如果生成的响应结果的数量为多个，则按照预设的优先级顺序，对各所述响应结果进行排序；

根据排序结果，获取目标响应结果。

在本实施例的一个可选实现方式中，所述目标响应结果确定模块530，包括：反馈子模块，用于

确定连续反馈所述目标响应结果的次数是否达到设定阈值；

若是，则将所述目标语音的文本识别结果提供给目标语音应用程序，并将所述目标语音应用程序提供的响应结果进行用户反馈。

上述智能语音设备的语音交互装置可执行本公开任意实施例所提供的智能语音设备的语音交互方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本公开任意实施例提供的智能语音设备的语音交互方法。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602的计算机程序或者从存储单元606加载到随机访问存储器(RAM)603的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元606，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如智能语音设备的语音交互方法。例如，在一些实施例中，智能语音设备的语音交互方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元606。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的智能语音设备的语音交互方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行智能语音设备的语音交互方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种智能语音设备的语音交互方法，包括：

2.根据权利要求1所述的方法，其中，所述预测所述目标语音应用程序对所述目标语音的响应满意度，包括：

获取所述在线响应满意度预测模型输出的所述响应满意度。

3.根据权利要求2所述的方法，其中，在将所述目标语音的文本识别结果，以及所述目标语音应用程序的应用标识输入至预先训练的在线响应满意度预测模型之前，还包括：

获取多个待标注样本数据，所述待标注样本数据包括：用户输入文本、用户输入文本的上下文信息和应用标识；

获取所述离线响应满意度预测模型输出的响应满意度；

4.根据权利要求1所述的方法，其中，在预测所述目标语音应用程序对所述目标语音的响应满意度之后，还包括：

如果确定所述响应满意度满足预设的门限条件，则将所述目标语音的文本识别结果提供给目标语音应用程序；

将所述目标语音应用程序提供的响应结果进行用户反馈。

5.根据权利要求1所述的方法，其中，所述根据所述目标语音的语音特征和/或场景特征，生成与所述目标语音对应的至少一项响应结果，包括：

获取与所述目标语音匹配的语音置信度；

6.根据权利要求1所述的方法，其中，所述根据所述目标语音的语音特征和/或场景特征，生成与所述目标语音对应的至少一项响应结果，包括：

检测是否存在与所述目标语音匹配的目标变更候选结果；

7.根据权利要求1所述的方法，其中，所述根据所述目标语音的语音特征和/或场景特征，生成与所述目标语音对应的至少一项响应结果，包括：

获取各关联语音应用程序对所述目标语音的响应结果得分；

8.根据权利要求1所述的方法，其中，所述根据所述目标语音的语音特征和/或场景特征，生成与所述目标语音对应的至少一项响应结果，包括：

生成与所述场景类型匹配的请求用户转换问题的响应结果。

9.根据权利要求1所述的方法，其中，所述在各所述响应结果中确定目标响应结果，包括：

根据排序结果，获取目标响应结果。

10.根据权利要求1所述的方法，其中，根据所述目标响应结果进行用户反馈，包括：

确定连续反馈所述目标响应结果的次数是否达到设定阈值；

11.一种智能语音设备的语音交互装置，包括：

12.根据权利要求11所述的装置，其中，所述响应满意度预测模块，具体用于

获取所述在线响应满意度预测模型输出的所述响应满意度。

13.根据权利要求12所述的装置，其中，所述智能语音设备的语音交互装置，还包括：

获取所述离线响应满意度预测模型输出的响应满意度；

14.根据权利要求11所述的装置，其中，所述智能语音设备的语音交互装置，还包括：

将所述目标语音应用程序提供的响应结果进行用户反馈。

15.根据权利要求11所述的装置，其中，所述响应结果生成模块，包括：第一响应结果生成子模块，用于

获取与所述目标语音匹配的语音置信度；

16.根据权利要求11所述的装置，其中，所述响应结果生成模块，包括：第二响应结果生成子模块，用于

检测是否存在与所述目标语音匹配的目标变更候选结果；

17.根据权利要求11所述的装置，其中，所述响应结果生成模块，包括：第三响应结果生成子模块，用于

获取各关联语音应用程序对所述目标语音的响应结果得分；

18.根据权利要求11所述的装置，其中，所述响应结果生成模块，包括：第四响应结果生成子模块，用于

生成与所述场景类型匹配的请求用户转换问题的响应结果。

19.根据权利要求11所述的装置，其中，所述目标响应结果确定模块，包括：目标响应结果确定子模块，用于

根据排序结果，获取目标响应结果。

20.根据权利要求11所述的装置，其中，所述目标响应结果确定模块，包括：反馈子模块，用于

确定连续反馈所述目标响应结果的次数是否达到设定阈值；

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的智能语音设备的语音交互方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的智能语音设备的语音交互方法。

23.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-10中任一项所述的智能语音设备的语音交互方法。