CN113539261A

CN113539261A - 人机语音交互方法、装置、计算机设备和存储介质

Info

Publication number: CN113539261A
Application number: CN202110737501.8A
Authority: CN
Inventors: 杜京钢; 张文瑜
Original assignee: Volkswagen Mobvoi Beijing Information Technology Co Ltd
Current assignee: Volkswagen Mobvoi Beijing Information Technology Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-10-22

Abstract

本申请涉及一种人机语音交互方法、装置、计算机设备和存储介质。所述方法包括：接收来自用户的对话语音；识别出对话语音对应的语音文本，对语音文本进行语义分析，并基于语义分析的结果识别出用户的交互需求类型；在交互需求类型为任务相关型时，通过任务树模型确定出用于应答语音文本的回复文本；在交互需求类型为任务无关型时，通过概率模型确定出用于应答语音文本的回复文本；根据确定出的回复文本进行语音应答。采用本方法能够针对不同的聊天需求采用不同的回复策略以给出不同的个性化回复。

Description

人机语音交互方法、装置、计算机设备和存储介质

技术领域

本申请涉及人机交互技术领域，特别是涉及一种人机语音交互方法、装置、计算机设备和存储介质。

背景技术

随着智能化生活的概念日益深入人心，人机之间的语音交互技术也得以飞速发展，被广泛应用在语音对话机器人、语音助手、语音互动工具等领域。然而，目前的人机语音交互方法一般是先通过自然语言处理技术来识别用户对话的语义，再根据识别出的语义结果进行简单的对话答复，对话模式单一，无法满足每个用户的个性化需求。

发明内容

基于此，有必要针对上述技术问题，提供一种能够针对不同的聊天需求给出不同的个性化回复的人机语音交互方法、装置、计算机设备和存储介质，能够充分满足用户的对话需求。

本发明第一方面提供一种人机语音交互方法，方法包括：

接收来自用户的对话语音；

识别出对话语音对应的语音文本，对语音文本进行语义分析，并基于语义分析的结果识别出用户的交互需求类型；

在交互需求类型为任务相关型时，通过任务树模型确定出用于应答语音文本的回复文本；

在交互需求类型为任务无关型时，通过概率模型确定出用于应答语音文本的回复文本；

根据确定出的回复文本进行语音应答。

在其中一个实施例中，所述方法还包括：对对话语音进行声纹识别，并基于声纹识别的结果确定出用户的属性信息，属性信息为年龄区间和/或性别；

根据确定出的回复文本进行语音应答，包括：

确定用户的属性信息对应的播报音质类型；

根据播报音质类型和确定出的回复文本生成应答语音，播放应答语音。

在其中一个实施例中，基于语义分析的结果识别出用户的交互需求类型，包括：

判断语义分析的结果是否与多个预设任务情景中的任一个预设任务情景相关；

在语义分析的结果与任一预设任务情景相关时，确定交互需求类型为任务相关型；

在语义分析的结果与任一预设任务情景无关时，确定交互需求类型为任务无关型。

在其中一个实施例中，通过概率模型确定出用于应答语音文本的回复文本，包括：

获取预设语料库中的多条语料文本，该多条语料文本为预设语料库中的全部或部分语料文本；

通过概率模型计算出每条语料文本对应的回复概率；

将对应的回复概率最高的语料文本作为用于应答语音文本的回复文本。

在其中一个实施例中，该概率模型为贝叶斯网络概率模型，通过概率模型计算出任一条语料文本对应的回复概率的步骤，包括：

识别出用户在说出对话语音时的情绪类型，通过第一先验概率映射关系确定出与情绪类型对应的先验概率，并将其作为贝叶斯网络概率模型的第一概率；

判断该任一条语料文本是否包含高频词汇，通过第二先验概率映射关系确定出与判断结果对应的先验概率，并将其作为贝叶斯网络概率模型的第二概率；

识别出该任一条语料文本所属的话题类型，判断话题类型是否属于偏好话题，通过第三先验概率映射关系确定出与判断结果对应的先验概率，并将其作为贝叶斯网络概率模型的第三概率；

获取该任一条语料文本对应的语料风格类型，通过第四先验概率映射关系确定出与语料风格类型和情绪类型对应的先验概率，并将其作为贝叶斯网络概率模型的第四概率；

根据第一概率、第二概率、第三概率和第四概率中的至少两项概率计算出该任一条语料文本对应的回复概率。

在其中一个实施例中，识别出用户在说出对话语音时的情绪类型，包括：

获取摄像头采集到的用户在说出对话语音时的表情图像，对表情图像进行情绪识别，根据情绪识别的结果确定出用户在说出对话语音时的情绪类型；

和/或，对对话语音进行情绪识别，根据情绪识别的结果确定出用户在说出对话语音时的情绪类型。

在其中一个实施例中，在通过第四先验概率映射关系确定出与语料风格类型和情绪类型对应的先验概率之前，方法还包括：

获取与该用户在本次会话中的交互对话次数；

根据交互对话次数和情绪类型判断是否需要对当前的第四先验概率映射关系进行概率值更新；

在确定需要更新时，对当前的第四先验概率映射关系进行概率值更新；

在其中一个实施例中，在判断话题类型是否属于偏好话题之前，方法还包括：

根据交互对话次数和情绪类型判断是否需要对当前的偏好话题进行更新；

在确定需要更新时，对当前的偏好话题进行更新。

本发明第二方面提供了一种人机语音交互装置，装置包括：

对话语音接收模块，用于接收来自用户的对话语音；

需求类型确认模块，用于识别出对话语音对应的语音文本，对语音文本进行语义分析，并基于语义分析的结果识别出用户的交互需求类型；

任务树回复模块，用于在交互需求类型为任务相关型时，通过任务树模型确定出用于应答语音文本的回复文本；

概率模型回复模块，用于在交互需求类型为任务无关型时，通过概率模型确定出用于应答语音文本的回复文本；

语音应答模块，用于根据确定出的回复文本进行语音应答。

本发明第三方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一方法的实施例的步骤。

本发明第四方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法的实施例的步骤。

在上述实施例中所提供的人机语音交互方法先接收来自用户的对话语音；识别出对话语音对应的语音文本，对语音文本进行语义分析，并基于语义分析的结果识别出用户的交互需求类型；在交互需求类型为任务相关型时，通过任务树模型确定出用于应答语音文本的回复文本；在交互需求类型为任务无关型时，通过概率模型确定出用于应答语音文本的回复文本；根据确定出的回复文本进行语音应答。

其中，本实施例的技术方案利用语义分析技术识别出用户的交互需求类型，将用户的交互需求类型划分为任务相关型和任务无关型两类，根据不同的交互需求类型采用不同的方式确定用于应答语音文本的回复文本，其中，在用户的交互需求类型为任务相关型时，即面对解决问题为目的的聊天，可以通过任务树模型简洁高效地确定出具有针对性的回复文本；在用户的交互需求类型为任务无关型时，即对于以情感陪伴为目的发起的聊天，通过概率模型确定出最优的回复文本，该最优的回复文本兼具对话延展性和发散性，更贴合交互场景，可以加强对话情绪使聊天更容易进行。综上，本实施例可以针对不同的聊天需求通过不同的算法模型，给出不同的个性化回复，实现了满足不同对话需求的多模态聊天。

附图说明

图1为一个实施例中人机语音交互方法的应用环境图；

图2为一个实施例中人机语音交互方法的流程示意图；

图3为一个实施例中任务树对话流的一种示例图；

图4为一个实施例中贝叶斯网络概率模型的一种实现流程图；

图5为一个实施例中一种贝叶斯网络的示例图；

图6为一个实施例中贝叶斯网络概率模型的参数优化示例的流程图；

图7为另一个实施例中人机语音交互方法的流程示意图；

图8为一个实施例中人机语音交互装置的结构框图；

图9为另一个实施方式中人机语音交互装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

实施例一

本申请提供的人机语音交互方法，可以应用于如图1所示的应用环境中。其中，用户102可以通过语音与控制器104进行交互。其中，控制器104可以但不限于是车载控制器(车机)、智能音箱、各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。

本实施例所提供的一种人机语音交互方法包括如图2所示的步骤，以该方法应用于图1中的控制器为例进行说明，包括以下步骤：

步骤202，接收来自用户的对话语音。

其中，来自用户的对话语音为用户发出的对话语音。

具体地，控制器可以通过音频采集装置(例如拾音器)接收用户发出的对话语音。

步骤204，识别出对话语音对应的语音文本，对语音文本进行语义分析，并基于语义分析的结果识别出用户的交互需求类型。

其中，语义分析的结果可以为上述对话语音对应的语音文本所包含的需求内容，该需求内容指用户发起对话语音想要达到的目的，如订餐、导航、纯聊天等；用户的交互需求类型则为上述需求内容所属的类型。

具体地，控制器通过语音识别技术识别用户发出的对话语音，得到该对话语音对应的语音文本，如“打开车窗”、“绿巨人和钢铁侠谁更厉害？”等，利用自然语言处理技术对该语音文本进行语义分析，得到该语音文本所包含的需求内容，即对话语音的需求内容，通过该需求内容可以确定该用户的交互需求类型。

在一种实施方式中，步骤204中的所述基于语义分析的结果识别出用户的交互需求类型，具体包括以下步骤：

判断语义分析的结果是否与多个预设任务情景中的任一个预设任务情景相关。在语义分析的结果与任一预设任务情景相关时，确定交互需求类型为任务相关型；在语义分析的结果与任一预设任务情景无关时，确定交互需求类型为任务无关型。

其中，预设任务情景可为与某些特定任务(例如开车窗、导航等)相关的情景，交互需求类型可包括任务相关型和任务无关型。

具体地，控制器可以利用自然语言处理技术对需求内容进行分析，判断该需求内容是否与任一个预设任务情景相关，当需求内容与任一预设任务情景相关时，确定交互需求类型为任务相关型，此时，需求内容中包含需要控制器去执行的特定任务，即用户发起的语音对话的目的是完成某项特定任务，比如餐厅类、导航类、地图类或音乐类等任务，控制器将这类含有实际任务的需求内容的判定为任务相关型。

当需求内容与任一预设任务情景无关时，确定交互需求类型为任务无关型，此时，用户发起语音对话没有特定目的，可认为该语音对话属于纯聊天式对话，其出发点仅仅是需要被满足陪伴的需求，并不需要控制器去执行相应的任务，比如“奥特曼厉害还是绿巨人厉害，他们愿意和什么样的小朋友做朋友”这种与预设任务情景无关的对话内容。

步骤206，在交互需求类型为任务相关型时，通过任务树模型确定出用于应答语音文本的回复文本。

其中，任务树模型用于确定用户的交互需求所对应的预设场景，并根据该预设场景对应的任务树对话流来确定出回复文本。已知在交互需求类型为任务相关型时，用户的需求内容中包含需要控制器去执行的特定功能任务，而任务树模型可以提供任一预设场景所包含的各个功能任务之间的逻辑关系，例如：任务树模型可以包括多个预设情景分别对应的任务树对话流，该任务树对话流中包含了预设任务情景中可能发生的全部对话分支。

具体地，当判断某条对话语音的需求内容为任务相关型时，可知该对话语音的需求内容与一预设任务情景相关，控制器采用该预设任务情景对应的任务树对话流来决定后续的聊天走向，例如以图3所示的订餐服务的任务树对话流作为聊天决策的一个示例，可见订餐服务下方分为菜系介绍、订餐、餐厅介绍三个大的分支，菜系介绍包括下方的菜系选项，餐厅介绍包括下方的餐厅选项，而订餐分支则向下包括菜系选项、时间、人数与餐厅选项等。

本步骤中采用任务树模型进行语音应答，由于任务树对话流中具有清晰的对话脉络，可以简洁高效地进行人机语音交互，从而精确地解决用户提出的问题，以便快速结束对话。

纯聊天式对话的特点和面向任务的对话有明显的区别，对于面向任务的对话，需要高效执行，尽快完成任务，从而结束对话；而纯聊天式对话通常是出于被陪伴的需求，即需要使对话更发散，更具延展性，让对话可以继续进行下去，从而满足需要被陪伴的需求。因此，对于纯聊天式对话，需要采用与任务树模型不同的方式来进行语音交互，如步骤208所示。

步骤208，在交互需求类型为任务无关型时，通过概率模型确定出用于应答语音文本的回复文本。

其中，概率模型用于计算语料文本对应的回复概率，一般选取回复概率最大的语料文本作为用于应答语音文本的回复文本。常用的概率模型包括马尔科夫模型、条件随机场和贝叶斯网络概率模型等。贝叶斯网络概率模型是一种概率图型模型，一个贝叶斯网络是一个有向无环图(Directed Acyclic Graph，DAG)，由代表变量的节点及连接这些节点的有向边构成，有向边由父节点指向其子节点，用于代表节点之间的相互关系，用条件概率进行表达关系强度，没有父节点的用先验概率进行信息表达。

具体地，上述贝叶斯网络概率模型中的贝叶斯网络可以为预先设置好的有向无环图，该有向无环图中的各节点所代表的变量、有向边代表的随机变量之间的相互关系和条件概率以及各节点对应的先验概率均已预设完毕。

在一种实施方式中，控制器执行步骤208时，具体执行以下步骤：

获取预设语料库中的多条语料文本，多条语料文本为预设语料库中的全部或部分语料文本。

通过概率模型计算出每条语料文本对应的回复概率。

其中，如图4所示，以贝叶斯网络概率模型的一种实现流程为例，详细说明步骤208中通过贝叶斯网络概率模型计算出每条语料文本对应的回复概率的具体流程。

在纯聊天式的对话过程中，对需求内容的评估可能涉及到很多因素，例如用户在发出对话语音时刻的情绪、预设语料库、用户的话题偏好和常用的高频词汇等，这些因素都会对回复文本的选取产生影响。在本示例的贝叶斯网络中，节点expression代表表情变量，也即代表用户的情绪变量；节点topic preference代表话题偏好，节点dialogueknowledge base代表从预设语料库中获取的多条语料文本,即一个候选语料集合，节点high-frequency vocabulary代表高频词汇，final response代表最终确认的回复文本。

其中，节点topic preference所代表的话题偏好变量可以通过对在人机对话过程中的聊天领域进行统计得到，比如某一用户常常查询调用餐厅功能查询湘味菜馆，则可知道美食是该用户的偏好话题；同样的，对于节点high-frequency vocabulary所代表的高频词汇变量可以通过对聊天过程中常用词汇的统计而获得，比如发音人经常查询肯德基，那肯德基就是一个高频词汇。

具体地，对于话题偏好和高频词汇的选取，由于不同用户进行语音交互的频次存在差异，用某一个数字来选取话题偏好和高频词汇可能选取的不够准确，可以根据预设时间段内历史语音交互记录中的话题和词汇出现频率所占的比例排行来选取话题偏好和高频词汇，以得到更为准确的话题偏好和高频词汇。例如选取3个月内，词频统计的前10％和常聊话题的前10％定义为高频词汇和偏好话题，具体的时间和百分比数值可根据实际需要进行调整。

对于如图4所示的贝叶斯网络，可以在表情变量中区分三个变量因素E0、E1和E2，E0、E1和E2分别代表欢喜、悲伤和平静的表情(或称为情绪，可以理解地，图中情绪的类型和数量仅作为示例，其可以基于实际场景需求进行灵活调整)，E0、E1和E2的先验概率均为a，因为在某一对话场景下，发音人的面部表情可以随机是欢喜、悲伤或平静中的任意一种，所以其先验概率取值相等不存在差异。

话题偏好中P0代表某一回复文本不在话题偏好范围内的概率为m，P1代表该回复文本在话题偏好范围内的概率为m·n；同理，高频词汇中H1代表某一回复文本中存在高频词汇的概率为g，H0代表该回复文本中不存在高频词汇的概率为g·n，由于在话题偏好范围内的回复文本优先于不在话题偏好范围内回复文本，有高频词汇的回复文本优先于没有高频词汇的回复文本，故在概率取值上，P1大于P0，H1大于H0。

在节点dialogue knowledge base中將语料分为D1、D2、D3三种类型。其中，D1代表情绪加强型对话语料，常应用于欢喜情绪的对话场景下，D2代表情绪引导型对话语料，用于忧伤情绪的对话场景下，有利于疏导发音人情绪，D3代表科普问答类对话语料，适用于任何场景，对情绪调整没有正向作用也没有负向作用。因为不同情绪对于不同风格语料的需求度不同，比如在发音人不高兴的情绪状态下，优先推送情绪引导型语料会得到不错的对话体验，因此对于不同类型的语料设置的概率大小也不同，示例性地，abc、erg、dgt的概率取值区间可设置为【0.5，0.7】；bc、rg、gt的概率取值区间可设置为【0.2，0.3】；c、g、t的概率取值区间可设置为【0，0.1】，具体数值还可以根据概率计算结果判断是否进行参数优化，此外，图4中的任意概率的取值均不为0。

而因为用户的话题偏好、高频词汇与候选语料集合是相互独立的，所以节点topicreference、节点high-frequency vocabalary与节点dialogue knowledge base之间没有概率依赖关系，不存在有向线连接。需要申明的是，上述贝叶斯模型仅为一种示例，具体应用时可以在以上4个变量的基础上增加或者减少变量。

进一步具体地，如图4所示的贝叶斯网络的一种实施方式中，通过贝叶斯网络概率模型计算出任一条语料文本对应的回复概率的步骤，可以包括以下步骤：

识别出用户在说出对话语音时的情绪类型，通过第一先验概率映射关系确定出与情绪类型对应的先验概率，并将其作为贝叶斯网络概率模型的第一概率。

其中，第一先验概率映射关系包括各种情绪类型以及每种情绪类型对应的先验概率，该第一先验概率映射关系相当于图4中节点expression对应的先验概率映射表，E0、E1和E2的先验概率均为a。

具体地，可以通过以下情绪识别方法来识别出用户在说出对话语音时的情绪类型：一种方法是获取摄像头采集到的用户在说出对话语音时的表情图像，该表情图像为包含用户的较为清晰的脸部的图像，对该表情图像进行情绪识别，根据情绪识别的结果确定出用户在说出对话语音时的情绪类型，该方法利用了图像识别技术，优点是可以更准确地识别出用户情绪；另一种方法是对来自用户的对话语音进行情绪识别，根据情绪识别的结果确定出用户在说出对话语音时的情绪类型，可以无需设置摄像头来采集用户表情图像，直接利用对话语音进行识别，适用范围更加广泛；又一种方法是，在确定摄像头采集到的用户在说出对话语音时的表情图像没有达到预定的清晰度要求时(表明通过该表情图像无法准确识别出用户的情绪类型)，则采用上述第二方法来识别出用户在说出对话语音时的情绪类型；再一种方法是，综合采用图像识别和语音识别以实现对用户的情绪识别，即一方面获取摄像头采集到的所述用户在说出所述对话语音时的表情图像，对所述表情图像进行情绪识别，另一方面对所述对话语音进行情绪识别，再综合图像识别和语音识别分别得到的情绪识别结果确定出所述用户在说出所述对话语音时的情绪类型。

判断该任一条语料文本是否包含高频词汇，通过第二先验概率映射关系确定出与判断结果对应的先验概率，并将其作为贝叶斯网络概率模型的第二概率。

识别出该任一条语料文本所属的话题类型，判断话题类型是否属于偏好话题，通过第三先验概率映射关系确定出与判断结果对应的先验概率，并将其作为贝叶斯网络概率模型的第三概率。

获取该任一条语料文本对应的语料风格类型，通过第四先验概率映射关系确定出与语料风格类型和情绪类型对应的先验概率，并将其作为贝叶斯网络概率模型的第四概率。

其中，第二先验概率映射关系包括回复文本不在话题偏好范围内的情况、回复文本在话题偏好范围内的情况以及上述两种情况分别对应的概率，该第二先验概率映射关系相当于图4中节点topic preference对应的先验概率关系表；第三先验概率映射关系包括回复文本中不存在高频词汇的情况、回复文本中存在高频词汇的情况以及上述两种情况分别对应的概率，该第三先验概率映射关系相当于图4中节点high-frequency vocabulary对应的先验概率关系表；同理，第四先验概率映射关系相当于图4中节点dialogue knowledgebase对应的条件概率关系表，包括与不同语料风格类型和不同情绪类型对应的多个条件概率。

根据第一概率、第二概率、第三概率和第四概率中的至少两项概率计算出该任一条语料文本对应的回复概率，例如：

在一种具体实施方式中，任一条语料文本对应的回复概率即P(X)的计算公式还可以如下：

P(X)＝P(E,D)＝P(E)P(D|E)

其中，P(E)为第一概率，P(D|E)为第四概率。取图4中各节点对应的先验概率映射表中的概率值带入上述公式即可计算出每条语料文本对应的回复概率，选取回复概率最大的语料文本为最优的回复文本。

上述实施方式可以确定出具备更符合用户情感状态的语料风格的回复文本。在具体实施过程中，还可以采用第一概率、第二概率、第三概率和第四概率中的任意两项或三项概率来计算语料文本对应的回复概率，从而得到更适当的回复文本。

在另一种具体实施方式中，任一条语料文本对应的回复概率即P(X)的计算公式如下：

P(X)＝P(E,D,H,T)＝P(E)P(D|E)P(T)P(H)

其中，P(E)为第一概率，P(H)为第二概率，P(T)为第三概率，P(D|E)为第四概率。取图4中各节点对应的先验概率映射表中的概率值带入上述公式即可计算出每条语料文本对应的回复概率，选取回复概率最大的语料文本为最优的回复文本。如果经过计算后，回复概率最大的语料文本的数量不止一个，则随机选取其中一个语料文本为回复文本。

上述实施方式所采用的贝叶斯网络概率模型，可以确定出更贴合用户语音交互场景和用户的情感状态的回复文本，从而满足聊天式交互的延展性和不确定性。

以下通过一个具体示例对通过贝叶斯网络概率模型计算出语料文本对应的回复概率的过程进行说明。

如图5所示，以用户情绪类型为悲伤时发出的提问是“我什么时候可以见到蜘蛛侠”为例，控制器通过步骤204识别出用户的交互需求类型为任务无关型，通过贝叶斯网络来确定回复文本的概率。

其中，回复R1不在偏好话题内，其中也不存在高频词汇，所以对应的P(T)＝1，P(H)＝1，P(D|E)＝0.2，计算得到P(R1)＝0.3*1*1*0.2＝0.06。

回复R2中有高频词奥特曼，同时属于动漫相关话题，所以P(T)＝1.1，P(H)＝1.2，P(D|E)＝0.7，计算得到P(R2)＝0.3*1.1*1.2*0.7＝0.2772。

回复R3不在偏好话题内，其中也不存在高频词汇，所以对应的P(T)＝1，P(H)＝1，P(D|E)＝0.1，计算得到P(R3)＝0.3*1*1*0.1＝0.03。

对比得到的P(R1)、P(R2)和P(R3)，P(R2)最大，故通过贝叶斯网络进行概率计算得出，在用户情绪类型为悲伤时，回复R2“当你变成勇敢的小奥特曼时，你们就可以见面啦”是最佳回复。

综上所述，在步骤208中，利用贝叶斯网络概率模型通过对多个变量因素的概率计算，可以给出用于应答语音文本的最优的回复文本。

本实施例中的人机语音交互方法还可以包括贝叶斯网络的优化调参，比如可根据用户收到回复后的情绪类型和/或交互对话次数作为贝叶斯网络概率模型效果的判断标准，然后通过调节偏好话题和/或第四先验概率映射关系(图4中E与D的条件概率关系表)来获取更优化的贝叶斯网络概率模型，以便得到最优的回复文本。

在一种实施方式中，在通过第四先验概率映射关系确定出与语料风格类型和情绪类型对应的先验概率之前，该方法还包括：

获取与用户在本次会话中的交互对话次数。

根据交互对话次数和情绪类型判断是否需要对当前的第四先验概率映射关系进行概率值更新。

在确定需要更新时，对当前的第四先验概率映射关系进行概率值更新。

其中，控制器在接收到用户的对话语音时，可以记录会话的交互次数，其中，控制器接收到用户的对话语音并进行语音应答后，即可记为1次交互对话，比如，以下对话可以记为一次交互对话。

用户：“我什么时候可以见到蜘蛛侠”；

控制器：“当你变成勇敢的小奥特曼时，你们就可以见面啦”

此外，控制器在语音应答之后，如果在预设时长内没有接收到用户的对话语音，那么判定本次会话结束，可以理解地，假如在预设时长外接收到用户的对话语音时，此时则记为新的会话。

示例性地，在判断是否需要对当前的第四先验概率映射关系进行概率值更新时，控制器可以获取当前语音交互过程中与用户的交互对话次数，在该交互对话次数超过预设交互对话次数阈值时，判断不需要对当前的第四先验概率映射关系进行概率值更新；在该交互对话次数不超过预设交互对话次数阈值时，识别出该用户在接收到每次语音应答后(也即控制器进行语音应答后)的反馈情绪类型，若各次反馈情绪类型中悲伤占比不超过预设比例时，判断不需要对当前的第四先验概率映射关系进行概率值更新；若各次反馈情绪类型中悲伤占比超过预设比例时，判断需要对当前的第四先验概率映射关系进行概率值更新，即需要对当前的贝叶斯网络概率模型进行参数优化。上述对第四先验概率映射关系进行概率值更新的步骤为对当前的贝叶斯网络概率模型进行参数优化的一种可选方式。

其中，识别出该用户在接收到每次语音应答后的反馈情绪类型，可以采用与上述识别出用户在说出对话语音时的情绪类型相同的识别方法，在此不再赘述。

在另一种实施方式中，在判断话题类型是否属于偏好话题之前，该方法还包括：

根据交互对话次数和情绪类型判断是否需要对当前的偏好话题进行更新；在确定需要更新时，对当前的偏好话题进行更新。

在本实施方式中，控制器可以获取当前语音交互过程中与用户的交互对话次数，在该交互对话次数超过预设交互对话次数阈值时，判断不需要对当前的偏好话题进行更新；在该交互对话次数不超过预设交互对话次数阈值时，识别出该用户在接收到每次语音应答后(也即控制器进行语音应答后)的反馈情绪类型，若各次反馈情绪类型中悲伤占比不超过预设比例时，判断不需要对当前的偏好话题进行更新；若各次反馈情绪类型中悲伤占比超过预设比例时，判断需要对当前的偏好话题进行更新，即需要对当前的偏好话题进行更新。上述对偏好话题进行更新的步骤为对当前的贝叶斯网络概率模型进行参数优化的另一种可选方式。

在上述两种实施方式中，实现了对于贝叶斯网络概率模型的参数优化，具体体现为：对当前的第四先验概率映射关系进行概率值更新，以及对当前的偏好话题进行更新，具体应用时，可以持续对贝叶斯网络概率模型进行参数优化，直至符合无需进行优化的条件。

如图6所示的一种贝叶斯网络概率模型的参数优化示例中，包括以下步骤：

步骤302，获取与用户在本次会话中的交互对话次数。

步骤304，判断该交互对话次数是否超过预设交互对话次数阈值。

步骤306，若是，不对当前的贝叶斯网络概率模型进行参数调整。

步骤308，若否，识别出该用户在接收到每次语音应答后的反馈情绪类型。

步骤310，判断各次反馈情绪类型中悲伤占比是否超过预设比例。

步骤312，若否，不对当前的贝叶斯网络概率模型进行参数调整。

步骤314，若是，对当前的贝叶斯网络概率模型进行参数调整，得到参数调整后的贝叶斯网络概率模型。

步骤316，返回步骤302以验证参数调整的效果。

在本示例中，可以将预设交互对话次数阈值设为5，通过图片识别技术来识别每次控制器进行语音应答后用户的面部表情，得到用户在接收到每次语音应答后的反馈情绪类型，循环上述步骤直至符合无需进行参数调整的条件。

步骤210，根据确定出的回复文本进行语音应答。

具体地，对以上通过步骤206或步骤208确定出的回复文本进行语音转换，播放语音转换后得到的应答语音。

在上述实施例中提供了一种人机语音交互方法，该方法先接收来自用户的对话语音；识别出对话语音对应的语音文本，对语音文本进行语义分析，并基于语义分析的结果识别出用户的交互需求类型；在交互需求类型为任务相关型时，通过任务树模型确定出用于应答语音文本的回复文本；在交互需求类型为任务无关型时，通过贝叶斯网络概率模型确定出用于应答语音文本的回复文本；根据确定出的回复文本进行语音应答。

其中，本实施例的技术方案利用语义分析技术识别出用户的交互需求类型，将用户的交互需求类型划分为任务相关型和任务无关型两类，根据不同的交互需求类型采用不同的方式确定用于应答语音文本的回复文本，其中，在用户的交互需求类型为任务相关型时，即面对解决问题为目的的聊天，可以通过任务树模型简洁高效地确定出具有针对性的回复文本；在用户的交互需求类型为任务无关型时，即对于以情感陪伴为目的发起的聊天，通过贝叶斯网络概率模型确定出最优的回复文本，该最优的回复文本兼具对话延展性和发散性，更贴合交互场景，可以加强对话情绪使聊天更容易进行。综上，本实施例可以针对不同的聊天需求通过不同的算法模型，给出不同的个性化回复，实现了满足不同对话需求的多模态聊天。

在现有的人机语音对话中，机器一方通常是采用单一的播报音质进行对话，不会依据对话用户的不同而切换不同的播报音质，播报音质单一，难以满足用户不同的交互需求。针对上述情况，本发明在实施例一的基础上进一步提供了实施例二。

实施例二

上述实施例中的人机语音交互方法，如图7所示，包括以下步骤：

步骤202，接收来自用户的对话语音。

步骤203，对上述对话语音进行声纹识别，并基于声纹识别的结果确定出用户的属性信息，属性信息为年龄区间和/或性别。

步骤211，确定用户的属性信息对应的播报音质类型。

步骤212，根据播报音质类型和确定出的回复文本生成应答语音，播放应答语音。

其中，步骤203中的用户属性信息可以为年龄区间和/或性别，可以通过声纹识别确定出人机语音交互中的用户的年龄区间，例如，可以按十岁为界点划分两个年龄区间，或者按需要划分更多的年龄区间，再根据不同的年龄区间选择不同的播报音质作为应答语音的音质。

在上述实施例中，上述方法通过声纹识别技术确定用户的属性信息，对于不同的用户可以针对性地给出不同播报音质的应答语音，例如可以针对不同的年龄段选择性切换不同年龄段喜欢的播报音质，实现了应答音质的切换，使得人机对话体验更加智能化；同时利用语义分析技术识别出用户的交互需求类型，将用户的交互需求类型划分为任务相关型和任务无关型两类，根据不同的交互需求类型采用不同的方式确定用于应答语音文本的回复文本，其中，在用户的交互需求类型为任务相关型时，通过任务树模型高效直接地确定出具有针对性的回复文本；在用户的交互需求类型为任务无关型时，通过概率模型确定出具有对话延展性和发散性的回复文本。综上所述，本实施例提供的人机语音交互方法可以针对不同的交互需求类型给出不同风格的语音回复，该语音回复还根据用户属性的不同可以具备不同音质，从而实现了人机交互的多模态化，能够充分满足人机交互中不同用户群体的多样的语音交互需求。

应该理解的是，虽然图2-7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-7中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

实施例三

在本实施例中，提供了一种人机语音交互装置，如图8所示，该装置包括：

对话语音接收模块100，用于接收来自用户的对话语音。

需求类型确认模块200，用于识别出对话语音对应的语音文本，对语音文本进行语义分析，并基于语义分析的结果识别出用户的交互需求类型。

任务树回复模块300，用于在交互需求类型为任务相关型时，通过任务树模型确定出用于应答语音文本的回复文本。

概率模型回复模块400，用于在交互需求类型为任务无关型时，通过概率模型确定出用于应答语音文本的回复文本。

语音应答模块500，用于根据确定出的回复文本进行语音应答。

在一种实施方式中，如图9所示，该装置还包括：

属性信息确定模块600，用于对上述对话语音进行声纹识别，并基于声纹识别的结果确定出用户的属性信息，属性信息为年龄区间和/或性别。

其中，语音应答模块包括：

播报音质类型确定单元，用于确定用户的属性信息对应的播报音质类型。

应答语音播放单元，用于根据播报音质类型和确定出的回复文本生成应答语音，播放应答语音。

在一种实施方式中，需求类型确认模块，具体用于判断语义分析的结果是否与多个预设任务情景中的任一个预设任务情景相关。在语义分析的结果与任一预设任务情景相关时，确定交互需求类型为任务相关型。在语义分析的结果与任一预设任务情景无关时，确定交互需求类型为任务无关型。

在一种实施方式中，概率模型回复模块包括：

语料文本获取单元，用于获取预设语料库中的多条语料文本，多条语料文本为预设语料库中的全部或部分语料文本。

概率模型计算单元，用于通过概率模型计算出每条语料文本对应的回复概率。

回复文本确认单元，用于将对应的回复概率最高的语料文本作为用于应答语音文本的回复文本。

在一种实施方式中，概率模型计算单元采用贝叶斯网络概率模型，具体用于识别出用户在说出对话语音时的情绪类型，通过第一先验概率映射关系确定出与情绪类型对应的先验概率，并将其作为贝叶斯网络概率模型的第一概率。判断该任一条语料文本是否包含高频词汇，通过第二先验概率映射关系确定出与判断结果对应的先验概率，并将其作为贝叶斯网络概率模型的第二概率。识别出该任一条语料文本所属的话题类型，判断话题类型是否属于偏好话题，通过第三先验概率映射关系确定出与判断结果对应的先验概率，并将其作为贝叶斯网络概率模型的第三概率。获取该任一条语料文本对应的语料风格类型，通过第四先验概率映射关系确定出与语料风格类型和情绪类型对应的先验概率，并将其作为贝叶斯网络概率模型的第四概率。根据第一概率、第二概率、第三概率和第四概率中的至少两项概率计算出该任一条语料文本对应的回复概率。

在一种实施方式中，贝叶斯网络计算单元更具体地用于获取摄像头采集到的用户在说出对话语音时的表情图像，对表情图像进行情绪识别，根据情绪识别的结果确定出用户在说出对话语音时的情绪类型；和/或，对对话语音进行情绪识别，根据情绪识别的结果确定出用户在说出对话语音时的情绪类型。

在一种实施方式中，该装置还包括：更新模块，用于获取与该用户在本次会话中的交互对话次数；根据交互对话次数和情绪类型判断是否需要对当前的第四先验概率映射关系进行概率值更新；在确定需要更新时，对当前的第四先验概率映射关系进行概率值更新。

在一种实施方式中，该更新模块还用于根据交互对话次数和情绪类型判断是否需要对当前的偏好话题进行更新；在确定需要更新时，对当前的偏好话题进行更新。

关于人机语音交互装置的具体限定可以参见上文中对于人机语音交互方法的限定，在此不再赘述。上述人机语音交互装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

实施例四

在本实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图7所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。

其中，处理器执行计算机程序时实现如上述实施例一中所介绍的一种人机语音交互方法的步骤。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板、麦克风、摄像头或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

实施例五

在本实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上述实施例一中所介绍的一种人机语音交互方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种人机语音交互方法，所述方法包括：

接收来自用户的对话语音；

识别出所述对话语音对应的语音文本，对所述语音文本进行语义分析，并基于语义分析的结果识别出所述用户的交互需求类型；

在所述交互需求类型为任务相关型时，通过任务树模型确定出用于应答所述语音文本的回复文本；

在所述交互需求类型为任务无关型时，通过概率模型确定出用于应答所述语音文本的回复文本；

根据确定出的回复文本进行语音应答。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述对话语音进行声纹识别，并基于声纹识别的结果确定出所述用户的属性信息，所述属性信息为年龄区间和/或性别；

所述根据确定出的回复文本进行语音应答，包括：

确定所述用户的属性信息对应的播报音质类型；

根据所述播报音质类型和确定出的回复文本生成应答语音，播放所述应答语音。

3.根据权利要求1或2所述的方法，其特征在于，所述通过概率模型确定出用于应答所述语音文本的回复文本，包括：

获取预设语料库中的多条语料文本，所述多条语料文本为所述预设语料库中的全部或部分语料文本；

通过概率模型计算出每条所述语料文本对应的回复概率；

将对应的回复概率最高的语料文本作为用于应答所述语音文本的回复文本。

4.根据权利要求3所述的方法，其特征在于，所述概率模型为贝叶斯网络概率模型，通过概率模型计算出任一条所述语料文本对应的回复概率的步骤，包括：

识别出所述用户在说出所述对话语音时的情绪类型，通过第一先验概率映射关系确定出与所述情绪类型对应的先验概率，并将其作为贝叶斯网络概率模型的第一概率；

识别出该任一条语料文本所属的话题类型，判断所述话题类型是否属于偏好话题，通过第三先验概率映射关系确定出与判断结果对应的先验概率，并将其作为贝叶斯网络概率模型的第三概率；

获取该任一条语料文本对应的语料风格类型，通过第四先验概率映射关系确定出与所述语料风格类型和所述情绪类型对应的先验概率，并将其作为贝叶斯网络概率模型的第四概率；

根据所述第一概率、所述第二概率、所述第三概率和所述第四概率中的至少两项概率计算出该任一条所述语料文本对应的回复概率。

5.根据权利要求4所述的方法，其特征在于，所述识别出所述用户在说出所述对话语音时的情绪类型，包括：

获取摄像头采集到的所述用户在说出所述对话语音时的表情图像，对所述表情图像进行情绪识别，根据情绪识别的结果确定出所述用户在说出所述对话语音时的情绪类型；

和/或，对所述对话语音进行情绪识别，根据情绪识别的结果确定出所述用户在说出所述对话语音时的情绪类型。

6.根据权利要求5所述的方法，其特征在于，在所述通过第四先验概率映射关系确定出与所述语料风格类型和所述情绪类型对应的先验概率之前，所述方法还包括：

获取与所述用户在本次会话中的交互对话次数；

根据所述交互对话次数和所述情绪类型判断是否需要对当前的第四先验概率映射关系进行概率值更新；

7.根据权利要求5所述的方法，其特征在于，在判断所述话题类型是否属于偏好话题之前，所述方法还包括：根据所述交互对话次数和所述情绪类型判断是否需要对当前的偏好话题进行更新；在确定需要更新时，对当前的偏好话题进行更新。

8.一种人机语音交互装置，其特征在于，所述装置包括：

对话语音接收模块，用于接收来自用户的对话语音；

需求类型确认模块，用于识别出所述对话语音对应的语音文本，对所述语音文本进行语义分析，并基于语义分析的结果识别出所述用户的交互需求类型；

任务树回复模块，用于在所述交互需求类型为任务相关型时，通过任务树模型确定出用于应答所述语音文本的回复文本；

概率模型回复模块，用于在所述交互需求类型为任务无关型时，通过概率模型确定出用于应答所述语音文本的回复文本；

语音应答模块，用于根据确定出的回复文本进行语音应答。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。