CN107369443A

CN107369443A - 基于人工智能的对话管理方法及装置

Info

Publication number: CN107369443A
Application number: CN201710518293.6A
Authority: CN
Inventors: 高原; 李大任; 戴岱; 佘俏俏
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-06-29
Filing date: 2017-06-29
Publication date: 2017-11-21
Anticipated expiration: 2037-06-29
Also published as: US20190005948A1; US10453448B2; CN107369443B

Abstract

本发明提出一种基于人工智能的对话管理方法及装置，其中，方法包括：根据当前对话状态特征、候选***行为特征以及对候选***行为的环境反馈信息并基于决策模型从至少一个候选***行为中确定最佳***行为；由于当前对话状态特征对应的当前对话状态包括了自然语音理解结果的不确定性结果，根据当前对话状态获取的至少一个候选***行为自然包括对不确定性结果的***行为，这样，决策模型就能够对自然语音理解结果的不确定性结果进行决策，相比现有技术中利用确定性结果进行决策的方式，本发明能够解决现有技术中无法理解具有不确定性或用户表述具有歧义的场景的技术问题，从而能够更加正确的理解用户的需求，提升用户体验。

Description

基于人工智能的对话管理方法及装置

技术领域

本发明涉及智能人机交互技术领域，尤其涉及一种基于人工智能的对话管理方法及装置。

背景技术

人工智能(Artificial Intelligence，AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家***等。

口语对话***(Spoken Dialogue System)是一种试图读懂用户的口语语言，并尝试做出有效应答的智能人机交互***，其被广泛运用到在信息(如天气、航班、火车)查询、景点旅游、票务预订等领域。

口语对话***主要由自动语音识别(Automatic Speech Recognition，ASR)装置、自然语音理解装置(Natural Language Understanding，NLU)装置、对话管理(DialougeManagement，DM)装置、自然语音生成(Natural Language Generation，GLU)装置、语音合成(Text To Speech，TTS)装置组成。

由于自然语言理解(NLU)装置受限于目前的机器理解能力的局限，或是用户在一轮查询中对自身需求的表述不够清晰，造成了自然语言理解(NLU)装置对于用户需求的理解在一定程度上存在不确定性。这样，自然语言理解(NLU)装置将输出多个理解结果，多个理解结果即包括确定性的理解结果，也包括不确定性的理解结果。

现有技术中，对话管理(DM)装置使用预定的规则从多个理解结果中选取一个确定性的理解结果并进行多轮的对话状态更新，丢弃其余的理解结果，并在***行为触发、行为决策模块中使用静态规则来配置具体的动作触发。

然而，现有技术中从自然语言理解(NLU)装置选取一个确定性的理解结果进行对话状态更新的方式，存在无法解决理解具有不确定性或用户表述具有歧义的场景的技术问题。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于人工智能的对话管理方法。该方法能够对自然语音理解结果的不确定性结果进行决策，解决了现有技术中无法理解具有不确定性或用户表述具有歧义的场景的技术问题。

本发明的第二个目的在于提出一种基于人工智能的对话管理装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种计算机程序产品。

本发明的第五个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了一种基于人工智能的对话管理方法，包括：

接收当前对话信息，并确定所述当前对话信息的用户意图、所述用户意图下的搜索纬度分布信息以及当前单轮槽位分布信息；根据所述当前对话信息的当前单轮槽位分布信息和历史对话信息的历史多轮槽位分布信息生成当前多轮槽位分布信息；根据所述当前对话信息的用户意图、所述搜索纬度分布信息、所述当前多轮槽位分布信息生成当前对话状态并对所述当前对话状态进行特征提取以提取当前对话状态特征；根据当前对话状态与预先配置的规则确定至少一个候选***行为并对所述至少一个候选***行为进行特征提取以提取候选***行为特征；将所述当前对话状态特征、所述候选***行为特征以及对所述候选***行为的环境反馈信息输入到决策模型中，所述决策模型用于从所述至少一个候选***行为中确定最佳***行为。

本发明实施例的基于人工智能的对话管理方法，根据当前对话状态特征、候选***行为特征以及对候选***行为的环境反馈信息并基于决策模型从至少一个候选***行为中确定最佳***行为；由于当前对话状态特征对应的当前对话状态包括了自然语音理解结果的不确定性结果，根据当前对话状态获取的至少一个候选***行为自然包括对不确定性结果的***行为，这样，决策模型就能够对自然语音理解结果的不确定性结果进行决策，相比现有技术中利用确定性结果进行决策的方式，本实施例中能够解决理解具有不确定性或用户表述具有歧义的场景的技术问题，从而能够更加正确的理解用户的需求，提升用户体验。

为达上述目的，本发明第二方面实施例提出了一种基于人工智能的对话管理方法装置，包括：

接收模块，用于接收当前对话信息，并确定所述当前对话信息的用户意图、所述用户意图下的搜索纬度分布信息以及当前单轮槽位分布信息；

生成模块，用于根据所述当前对话信息的当前单轮槽位分布信息和历史对话信息的历史多轮槽位分布信息生成当前多轮槽位分布信息；

对话状态生成模块，用于根据所述当前对话信息的用户意图、所述搜索纬度分布信息、所述当前多轮槽位分布信息生成当前对话状态并对所述当前对话状态进行特征提取以提取当前对话状态特征；

动作触发模块，用于根据当前对话状态与预先配置的规则确定至少一个候选***行为并对所述至少一个候选***行为进行特征提取以提取候选***行为特征；

决策模块，用于将所述当前对话状态特征、所述候选***行为特征以及对所述候选***行为的环境反馈信息输入到决策模型中，所述决策模型用于从所述至少一个候选***行为中确定最佳***行为。

本发明实施例的基于人工智能的对话管理装置，根据当前对话状态特征、候选***行为特征以及对候选***行为的环境反馈信息并基于决策模型从至少一个候选***行为中确定最佳***行为；由于当前对话状态特征对应的当前对话状态包括了自然语音理解结果的不确定性结果，根据当前对话状态获取的至少一个候选***行为自然包括对不确定性结果的***行为，这样，决策模型就能够对自然语音理解结果的不确定性结果进行决策，相比现有技术中利用确定性结果进行决策的方式，本实施例中能够解决理解具有不确定性或用户表述具有歧义的场景的技术问题，从而能够更加正确的理解用户的需求，提升用户体验。

为达上述目的，本发明第三方面实施例提出了一种计算机设备，包括：存储器和处理器其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如本发明实施例第一方面所述的基于人工智能的对话管理方法。

为达上述目的，本发明第四方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行如第一方面实施例所述的基于人工智能的对话管理方法。

为达上述目的，本发明第五方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，当计算机程序被处理器执行时实现如第一方面实施例所述的基于人工智能的对话管理方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明实施例一提出的基于人工智能的对话管理方法的流程示意图；

图2是本发明实施例二提出的基于人工智能的对话管理方法的流程示意图；

图3是本发明发明实施例三提出的基于人工智能的对话管理方法的流程示意图；

图4是本发明实施例四提出的基于人工智能的对话管理装置的结构示意图；

图5是本发明实施例五提出的基于人工智能的对话管理装置的结构示意图；

图6是本发明实施例五提出的基于人工智能的对话管理装置中接收模块的结构示意图。

图7是本发明实施例五提出的基于人工智能的对话管理装置中生成模块的结构示意图。

图8是本发明实施例示例性的口语对话***的结构示意图。

图9是本发明实施例示例性的口语对话***涉及到部分的数学模型

图10示出了适于用来实现本发明实施方式的示例性计算机设备的框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于人工智能的对话管理方法及装置。

图1是本发明实施例一提出的基于人工智能的对话管理方法的流程示意图。如图1所示，本实施例提出的基于人工智能的的对话管理方法，包括：

S101、接收当前对话信息，并确定所述当前对话信息的用户意图、所述用户意图下的搜索纬度分布信息以及当前单轮槽位分布信息。

具体地，当前对话信息可以是用户的当前语音输入经自动语音识别、自然语音理解等一系列操作后形成的机器能够理解的结构化表示。举例来说，ASR装置对用户的当前语音输入进行语音识别；NLU装置对语音识别结果进行自然语音理解并向DB装置输出当前语音输入的结构化表示。

举例来说，用户的当前语音输入为“北京明天天气”，NLU装置借助语义分析、句法分析、语法分析等自然语音理解处理技术能够确定用户意图为“天气查询”，以及如表1所示的该用户意图下的搜索纬度分布信息。

需要说明的是，表1所示的该用户意图下的搜索纬度分布信息会根据细化的用户意图进行调整。举例来说，用户与口语对话***进行了两轮对话，针对首轮对话，用户的语音输入为“北京明天天气”；针对第二轮对话，用户的下一轮语音输入为“北京明天下雨”。两轮对话的用户意图尽管都是“天气查询”，但第二轮对话是细化的用户意图，如此一来，首轮对话对应的搜索纬度分布信息中的SYS_WEATHER的概率值较大，如SYS_WEATHER的概率值为0.81；第二轮对话对应的搜索纬度分布信息中的SYS_RAIN的概率值较大，如SYS_RAIN的概率值为0.8。

表1

搜索纬度	概率
		SYS_WEATHER	0.81
SYS_CLOUDY	0.02
		SYS_RAIN	0.01
SYS_SNOW	0.03
		SYS_SUNNY	0.02
SYS_WIND	0.08
		SYS_TEMP	0.01
SYS_LOW_TEMP	0.01
		SYS_HIGH_TEMP	0.01
SYS_AQI	0
		SYS_CLOTHES	0
SYS_WASH_CAR	0
		SYS_TRIP	0
SYS_INFLUENZA	0
		SYS_EXERCISE	0
SYS_ULTRAVIOLET	0
		SYS_FOG	0

具体地，本实施例中的当前单轮槽位分布信息通过整合当前对话信息中的全部的当前对话关键字填入语义槽中各个槽位的情况而获得，相比现有技术中选取语义槽中概率值高的对话关键字进行对话状态的更新，本实施例的当前单轮槽位分布信息覆盖了全部的当前对话关键字，能够更加正确的理解用户的需求，提升用户体验。

为获取当前单轮槽位分布信息，需先确定当前对话关键字填入语义槽中各个槽位的情况，具体的实现方式为：

首先，确定所述当前对话信息的N个当前对话关键字，N为自然数。举例来说，NLU装置对用户的语音输入进行分词处理，分出的词组对应一个对话关键字，举例来说，“北京明天天气”进行分词处理，并确定“北京”“明天”“天气”三个词组。接着，对分出的词组进行筛选操作，以获取与语义槽相关的对话关键字，如“北京”、“明天”两个对话关键字。

其次，获取所述用户意图对应的语义槽，所述语义槽包括M个槽位，M为自然数。具体地，口语对话***中预先配置了各个用户意图对应的语义槽，当用户的语音输入输入到NLU装置中时，口语对话***自动生成用户意图对应的语义槽。需要说明的是，在确定出的N个当前对话关键字时，就能够获取到N个语义槽，每个语义槽都是相互独立的语义槽。举例来说，“天气查询”对应的语义槽包括两个槽位：location槽位、time槽位。将“北京”填入至语义槽中形成如表2所示的“北京”的语义槽。将“明天”填充至语义槽形成如表3所示的“明天”的语义槽。

表2

槽位	槽位值	概率
			location	北京	0.96
time	北京	0.04

表3

槽位	槽位值	概率
			location	明天	0.07
time	明天	0.93

再次，分别确定每一所述当前对话关键字填入每个所述槽位的概率值，以及分别确定每一所述当前对话关键字未填入每个所述槽位的概率值。当获取到各个对话关键字的语义槽后，能够简单快速地获取每一当前对话关键字填入和未填入每个槽位的概率值，参见表2，对“北京”这一对话关键字来说，其填入到location槽位中的概率值为0.96，其未填入到location槽位中的概率值为(1-0.96)即0.04；其填入到time槽位中的概率值为0.04，其未填入到time槽位中的概率值为(1-0.04)即0.96。

参见表2，对“北京”这一对话关键字来说，其即有填入到location槽位中的可能性，也有填入至time槽位的可能性，尽管相比“北京”填入至time槽位的可能性很低，但一旦“北京”填入至time槽位的事件发生，“北京”填入至time槽位中就是确定性事件。

因此，本实施例的当前单轮槽位分布信息覆盖了当前对话的全部对话关键字及全部对话关键字填入各个槽位的情形，对话关键字以及对话关键字填入各个槽位的情形体现的是全部的自然语言理解结果，包括确定性的自然语言理解结果，也不包括不确定性的自然语言理解结果，因此，当后续利用当前单轮槽位分布信息进行对话状态更新并进行相应的***行为触发时，口语对话***能够解决理解具有不确定性或用户表述具有歧义的场景的技术问题，能够更加正确的理解用户的需求，提升用户体验。

S102、根据所述当前对话信息的当前单轮槽位分布信息和历史对话信息的历史多轮槽位分布信息生成当前多轮槽位分布信息。

具体地，与当前单轮槽位分布信息中包括了自然语音理解结果的不确定性结果一致，历史多轮槽位分布信息中包括了自然语音理解结果的不确定性结果，生成的当前多轮槽位分布信息同样包括自然语音理解结果的不确定性结果。后续决策模型利用当前多轮槽位分布信息生成的当前对话状态的状态特征对不确定性结果进行决策，相比现有技术中利用确定性结果进行决策的方式，本实施例解决理解具有不确定性或用户表述具有歧义的场景的技术问题。

S103、根据所述当前对话信息的用户意图、所述搜索纬度分布信息、所述当前多轮槽位分布信息生成当前对话状态并对所述当前对话状态进行特征提取以获取当前对话状态特征。

具体地，提取所述当前对话信息的用户意图对应的第一状态特征、所述搜索纬度分布信息对应的第二状态特征、所述当前多轮槽位分布信息对应的第三状态特征；根据所述第一状态特征、所述第二状态特征、所述第三状态特征生成当前对话状态特征，本实施例对对话状态特征进行特征提取的实现方式不做具体限定。

S104、根据当前对话状态与预先配置的规则确定至少一个候选***行为并对所述至少一个候选***行为进行特征提取以获取候选***行为特征。

具体地，在口语对话***中存储了大量的***行为，如推荐动作、澄清动作、信息满足等***行为。同时，口语对话***还定义了预先配置规则，在当前对话状态符合预先配置规则的要求时，对话管理***从大量的***行为中确定至少一个候选***行为。本实施例对候选***行为进行特征提取的实现方式不做具体限定，提取的候选***行为特征后续将输入到决策模型中。

S105、将所述当前对话状态特征、所述候选***行为特征以及对所述候选***行为的环境反馈信息输入到决策模型中，所述决策模型用于从所述至少一个候选***行为中确定最佳***行为。

具体地，决策模型可以通过学习训练的方式得到。优先地，强化学习(Reinforcement Learning)模型是根据所述当前对话状态特征、所述候选***行为特征以及对所述候选***行为的环境反馈信息，并通过在线增量学习训练得到的强化学习模型。强化学习模型旨在通过在无外界“老师”参与的情况下，智能***自身不断地与环境交互、试错，形成环境反馈信息即反馈评价信号，然后根据反馈评价信号调整动作，得到最优的策略以适应环境。因此，口语对话***能够通过与用户的不断对话、获取用户的反馈，进行自我学习和调整，完成增量式的在线学习，这种动态的学习方式比使用规则配置的静态方式要更加灵活，规则是通过不断与用户交互获取反馈学习得到的，进而使口语对话***具备泛化能力和良好的通用性。

作为一种可能的实现方式，口语对话***针对用户的环境反馈信息设计有交互接口，如在对话管理***的交互界面上设计有展示卡片，该展示卡片作为口语对话***接收用户的环境反馈信息的交互接口。举例来说，用户对于展示卡片的点击行为作为正反馈，若本轮交互用户没有卡片点击行为作为负反馈。当口语对话***接收到正反馈，口语对话***判断所选的***行为是最佳***行为；反之，口语对话***继续从至少一个候选***行为选出下一个***行为，直到接收到正反馈的环境反馈信息。

需要说明的是，在得到最佳***行为之后，口语对话***对最佳***行为执行自然语言生成操作以形成反馈给用户的交互语言。具体地，对最佳***行为执行自然语言生成操作可以借助GLU装置和TTS装置，但并以此为限。举例来说，GLU装置将最佳***行为转化成用户能够理解的自然语言，TTS装置将GLU装置输出的自然语言转化成语音播报给用户。

图2是本发明实施例二提出的基于人工智能的对话管理方法的流程示意图。本实施例主要是对图1所示的基于人工智能的对话管理方法中的确定当前单轮槽位分布信息进行详细说明，当用户意图对应的语义槽包括M个槽位时，则需要分别确定每个槽位的当前单轮槽位分布信息，利用每个槽位的当前单轮槽位分布信息生成当前单轮槽位分布信息。本实施例以确定第j个槽位的当前单轮槽位分布信息为例进行示例性说明，j为大于等于1且小于等于M的自然数。

如图2所示，本实施例提出的基于人工智能的对话管理方法，包括：

S201、根据N个所述当前对话关键字确定当前单轮填入信息的项数以及每项当前单轮填入信息所包括的当前对话关键字的个数。

具体地，各个对话关键字填入某一槽位形成的多个事件属于相互独立的事件。举例来说，确定的两个当前对话关键字为“北京”、“明天”，本实施例中的第j个槽位指的是location槽位，“北京”填入location槽位的事件，“明天”填入location槽位的事件，是两个相互独立的事件。根据概率统计学中对对相互独立事件同时发生的概率规定，填入location槽位的事件共有2²即4个事件，分别为：“北京”、“明天”都未填入location槽位的事件，“北京”填入location槽位但“明天”未填入location槽位的事件，“北京”未填入location槽位但“明天”填入location槽位的事件，“北京”、“明天”都填入location槽位的事件。因此，本实施例可以根据N个所述当前对话关键字可以简单快速地确定2^N项当前单轮填入信息，每项当前单轮填入信息对应一个第j个槽位的事件。

S202、根据每一项所述当前单轮填入信息所包括的当前对话关键字的个数确定每一项所述当前单轮填入信息对应的概率值，形成每个槽位的当前单轮槽位分布信息。

具体地，根据步骤S202中的陈述，各个对话关键字填入某一槽位形成的多个事件属于相互独立的事件，根据概率统计学中对对相互独立事件同时发生的概率规定，可以简单方便地确定各个事件发生的概率。

在一种可能的实现方式中，步骤S202的具体的实现方式为：

在确定每一所述当前单轮填入信息包括n个所述当前对话关键字时，获取n个所述当前对话关键字填入第j个槽位的概率值的第一乘积值，以及获取每一所述当前单轮填入信息未包括的N-n个所述当前对话关键字未填入第j个槽位的概率值的第二乘积值；

根据所述第一乘积值和所述第二乘积值确定每一所述当前单轮填入信息对应的概率值。

需要说明的是，n为大于等于0且小于等于N的自然数。当n为0时，第一乘积值的默认值为1；当n为N，第二乘积值的默认值为1。

举例来说，确定的N个当前对话关键字为x₁、x₂，x₂对话关键字填入第j个槽位的概率值为P(x₁)，x₁对话关键字未填入第j个槽位的概率值为x₂对话关键字填入第j个槽位的概率值为P(x₂),x₂对话关键字未填入第j个槽位的概率值为

表4所示是第j个槽位的当前单轮槽位分布信息，如表4所示，第j个槽位的当前单轮槽位分布信息共有2^N项当前单轮填入信息，表4中的“空”对应的当前单轮填入信息表示x₁、x₂都未填入j个槽位，该项当前单轮填入信息的概率值为此时，第一乘积值为1，第二乘积值为表4中的“x₁”对应的当前单轮填入信息表示x₁填入j个槽位，但x₂未填入j个槽位，则该项当前单轮填入信息的概率值为此时，第一乘积值为P(x₁)，第二乘积值为表4中的“x₂”对应的当前单轮填入信息表示x₁未填入j个槽位，但x₂填入j个槽位，则该项当前单轮填入信息的概率值为此时第一乘积值为P(x₂)，第二乘积值为表4中的“x₁*x₂”，则该项当前单轮填入信息的概率值为P(x₁)*P(x₂)，此时第一乘积值为P(x₁)*P(x₂)，第二乘积值为1。

表4

本实施例提供的基于人工智能的对话管理方法，其中，先根据N个所述当前对话关键字确定当前单轮填入信息的项数，再根据每一项所述当前单轮填入信息所包括的当前对话关键字的个数确定每一项所述当前单轮填入信息对应的概率值，进而获取到当前单轮槽位分布信息。也就是说，当前单轮槽位分布信息覆盖了当前对话的全部对话关键字及全部对话关键字填入各个槽位的情形，对话关键字以及对话关键字填入各个槽位的情形体现的是全部的自然语音理解结果，包括确定性的自然语音理解结果，也不包括不确定性的自然语音理解结果，因此，当后续利用当前单轮槽位分布信息进行对话状态更新并进行相应的***行为触发时，口语对话***能够解决现有技术中无法理解具有不确定性或用户表述具有歧义的场景的技术问题。

图3是本发明实施例三提出的基于人工智能的对话管理方法的流程示意图。本实施例主要是对图1所示的基于人工智能的对话管理方法中的根据所述当前对话信息的当前单轮槽位分布信息和历史对话信息的历史多轮槽位分布信息生成当前多轮槽位分布信息进行详细说明。

如图3所示，本实施例提出的基于人工智能的对话管理方法，包括：

S301、确定历史多轮槽位分布信息中是否包括所述当前对话信息的N个当前对话关键字，若确定结果为是，执行步骤S302，若确定结果为否，执行步骤S303。

具体地，历史多轮槽位分布信息包括Q轮历史单轮槽位分布信息，Q为自然数。本实施例中S301的具体的实现方式为：分别确定每轮历史单轮槽位分布信息中是否包括所述当前对话信息的N个当前对话关键字。举例来说，对Q轮中每一轮历史单轮槽位分布信息进行分析，确定每一轮历史单轮槽位分布信息是否包括所述当前对话信息的N个当前对话关键字,N个当前对话关键字代表当前对话信息的全部的当前对话关键字。当Q轮中存在一轮历史单轮槽位分布信息包括所述当前对话信息的包括当前对话信息的部分的当前对话关键字(即小于N个当前对话关键字)时，这时需要更新该轮历史单轮槽位分布信息，剩下的(Q-1)历史单轮槽位分布信息由于包括所述当前对话信息的全部的当前对话关键字(即N个当前对话关键字)故不需要进行更新。

S302、将当前单轮槽位分布信息和历史多轮槽位分布信息合并形成当前多轮槽位分布信息。

S303、更新所述历史多轮槽位分布信息，执行S304。

具体地，经过S301，确定第q轮历史单轮槽位分布信息中未包括所述当前对话信息的N个当前对话关键字，这时就需更新第q轮历史单轮槽位分布信息以更新所述历史多轮槽位分布信息，q为大于等于1且小于等于Q的自然数。

在一种可能的实现方式中，更新第q轮历史单轮槽位分布信息的具体实现方式为：

首先，确定第q轮历史单轮槽位分布信息未包括所述当前对话关键字的个数。

其次，在确定第q轮历史单轮槽位分布信息的第f个历史单轮填入信息未包括i个所述当前对话关键字时，

将i个所述当前对话关键字未填入第j个槽位的概率值的第三乘积值与第q轮的第f项历史单轮填入信息的概率值相乘得到的第四乘积值作为更新后的第f项所述历史单轮填入信息对应的概率值以更新第q轮历史单轮槽位分布信息，其中，第q个所述历史单轮槽位分布信息包括F项历史单轮填入信息，f为大于等于1且小于等于F的自然数，i为大于等于1且小于等于N的自然数。

S304、将当前单轮槽位分布信息和更新的历史多轮槽位分布信息合并形成当前多轮槽位分布信息。

举例来说，用户与口语对话***进行了两轮对话，在进行第二轮对话时，第一轮则为历史对话，由于只进行了两轮对话，历史多轮槽位分布信息即指第一轮的单轮槽位分布信息。

第一轮对话的共有2个对话关键字为x₁、x₂，第一轮的单轮槽位分布信息参见表4。

第二轮对话的共有2个对话关键字为y₁、y₂，第二轮的单轮槽位分布信息参见表5，参见图2所示的方法确定第二轮的单轮槽位分布信息。具体地，表5中的“空”对应的当前单轮填入信息表示y₁、y₂都未填入j个槽位，该项当前单轮填入信息的概率值为表5中的“y₁”对应的当前单轮填入信息表示y₁填入j个槽位，但y₂未填入j个槽位，则该项当前单轮填入信息的概率值为表4中的“y₂”对应的当前单轮填入信息表示y₁未填入j个槽位，但y₂填入j个槽位，则该项当前单轮填入信息的概率值为表4中的“y₁*y₂”，则该项当前单轮填入信息的概率值为P(y₁)*P(y₂)。

表5

根据以上陈述可知，经过第二轮对话后，当前的多轮槽位分布信息视情况而定。一种示例的情形为：当第一轮对话的2个对话关键字为x₁、x₂和第二轮对话的2个对话关键字为y₁、y₂相同时，第一轮的单轮槽位分布信息和第二轮的单轮槽位分布信息进行合并形成当前多轮槽位分布信息，这种情形合并形成的当前多轮槽位分布信息参见表5，即覆盖式合并。另一种示例的情形为：当第一轮对话的2个对话关键字为x₁、x₂和第二轮对话的2个对话关键字为y₁、y₂都不相同时，更新第一轮的单轮槽位分布信息，将更新的第一轮的单轮槽位分布信息和第二轮的单轮槽位分布信息进行合并形成当前多轮槽位分布信息，参见表6。当然，当前多轮槽位分布信息还有其他的形式，在此不再举例。

表6

本实施例提供的基于人工智能的对话管理方法，根据所述当前对话信息的当前单轮槽位分布信息和历史对话信息的历史多轮槽位分布信息生成当前多轮槽位分布信息。与当前单轮槽位分布信息中包括了自然语音理解结果的不确定性结果一致，历史多轮槽位分布信息中与包括了自然语音理解结果的不确定性结果，生成的当前多轮槽位分布信息同样包括自然语音理解结果的不确定性结果。当后续决策模型利用当前多轮槽位分布信息生成的当前对话状态的状态特征进行对不确定性结果进行决策，相比现有技术中利用确定性结果进行决策的方式，本实施例能够解决现有技术中无法理解具有不确定性或用户表述具有歧义的场景的技术问题。

图4是本发明实施例四提出的基于人工智能的对话管理装置的结构示意图。参见图4，本身实施例提出的基于人工智能的对话管理装置包括：

接收模块11，用于接收当前对话信息，并确定所述当前对话信息的用户意图、所述用户意图下的搜索纬度分布信息以及当前单轮槽位分布信息；

生成模块12，用于根据所述当前对话信息的当前单轮槽位分布信息和历史对话信息的历史多轮槽位分布信息生成当前多轮槽位分布信息；

对话状态生成模块13，用于根据所述当前对话信息的用户意图、所述搜索纬度分布信息、所述当前多轮槽位分布信息生成当前对话状态并对所述当前对话状态进行特征提取以提取当前对话状态特征；

动作触发模块14，用于根据当前对话状态与预先配置的规则确定至少一个候选***行为并对所述至少一个候选***行为进行特征提取以提取候选***行为特征；

决策模块15，用于将所述当前对话状态特征、所述候选***行为特征以及对所述候选***行为的环境反馈信息输入到决策模型中，所述决策模型用于从所述至少一个候选***行为中确定最佳***行为。

本发明实施例的基于人工智能的对话管理装置，决策模块中的决策模型根据当前对话状态特征、候选***行为特征以及对候选***行为的环境反馈信息并基于决策模型从至少一个候选***行为中确定最佳***行为；由于当前对话状态特征对应的当前对话状态包括了自然语音理解结果的不确定性结果，根据当前对话状态获取的至少一个候选***行为自然包括对不确定性结果的***行为，这样，决策模型就能够对自然语音理解结果的不确定性结果进行决策，相比现有技术中利用确定性结果进行决策的方式，本发明能够解决理解具有不确定性或用户表述具有歧义的场景的技术问题，从而能够更加正确的理解用户的需求，提升用户体验。

图5是本发明实施例五提出的基于人工智能的对话管理装置的结构示意图。图6是本发明实施例五提出的基于人工智能的对话管理装置中接收模块的结构示意图。图7是本发明实施例五提出的基于人工智能的对话管理装置中生成模块的结构示意图。参见图5至图7，本身实施例提出的基于人工智能的对话管理装置包括：

接收模块11，用于接收当前对话信息，并确定所述当前对话信息的用户意图、所述用户意图下的搜索纬度分布信息以及当前单轮槽位分布信息。

进一步地，所述接收模块11包括第一确定模块111，在确定当前单轮槽位分布信息之前，所述第一确定模块111，具体用于：

确定所述当前对话信息的N个当前对话关键字，N为自然数；

获取所述用户意图对应的语义槽，所述语义槽包括M个槽位，M为自然数；

分别确定每一所述当前对话关键字填入每个所述槽位的概率值，以及分别确定每一所述当前对话关键字未填入每个所述槽位的概率值。

进一步地，所述接收模块11包括第二确定模块112，所述第二确定模块112包括第一子模块1、第二子模块2、第三子模块3；

针对每个槽位：

第一子模块1，用于根据N个所述当前对话关键字确定当前单轮填入信息的项数以及每项当前单轮填入信息所包括的当前对话关键字的个数；

第二子模块2，用于根据每一项所述当前单轮填入信息所包括的当前对话关键字的个数确定每一项所述当前单轮填入信息对应的概率值，形成每个槽位的当前单轮槽位分布信息。

进一步地，所述第二子模块2，具体用于：

在确定每一所述当前单轮填入信息包括n个所述当前对话关键字时，获取n个所述当前对话关键字填入第j个槽位的概率值的第一乘积值，以及获取每一所述当前单轮填入信息未包括的N-n个所述当前对话关键字未填入第j个槽位的概率值的第二乘积值，n为大于等于0且小于等于N的自然数；j为大于等于1且小于等于M的自然数；根据所述第一乘积值和所述第二乘积值确定每一所述当前单轮填入信息对应的概率值。

第三子模块3，用于利用每个槽位的当前单轮槽位分布信息生成当前单轮槽位分布信息。

生成模块12，用于根据所述当前对话信息的当前单轮槽位分布信息和历史对话信息的历史多轮槽位分布信息生成当前多轮槽位分布信息。

进一步地，所述生成模块12包括第三确定模块121、第一执行模块122、第二执行模块123、第三执行模块124；

所述第三确定模块121，用于确定历史多轮槽位分布信息中是否包括所述当前对话信息的N个当前对话关键字，若确定结果为是，触发第一执行模块122，若确定结果为否，触发第二执行模块123。

进一步地，历史多轮槽位分布信息包括Q轮历史单轮槽位分布信息，Q为自然数；所述第三确定模块121，具体用于：分别确定每轮历史单轮槽位分布信息中是否包括所述当前对话信息的N个当前对话关键字；

所述第一执行模块122，用于将当前单轮槽位分布信息和历史多轮槽位分布信息合并形成当前多轮槽位分布信息；

所述第二执行模块123，用于更新所述历史多轮槽位分布信息；

进一步地，所述第二执行模块123，具体用于：

在确定第q轮历史单轮槽位分布信息中未包括所述当前对话信息的N个当前对话关键字时，更新第q轮历史单轮槽位分布信息以更新所述历史多轮槽位分布信息，q为大于等于1且小于等于Q的自然数。

进一步地，所述第二执行模块123，具体用于，在确定第q轮历史单轮槽位分布信息的第f个历史单轮填入信息未包括i个所述当前对话关键字时，将i个所述当前对话关键字未填入第j个槽位的概率值的第三乘积值与第q轮的第f项历史单轮填入信息的概率值相乘得到的第四乘积值作为更新后的第f项所述历史单轮填入信息对应的概率值以更新第q轮历史单轮槽位分布信息，其中，第q个所述历史单轮槽位分布信息包括F项历史单轮填入信息，f为大于等于1且小于等于F的自然数，i为大于等于1且小于等于N的自然数。

所述第三执行模块124，用于将当前单轮槽位分布信息和更新的历史多轮槽位分布信息合并形成当前多轮槽位分布信息。

对话状态生成模块13，用于根据所述当前对话信息的用户意图、所述搜索纬度分布信息、所述当前多轮槽位分布信息生成当前对话状态并对所述当前对话状态进行特征提取以提取当前对话状态特征。

进一步地，所述对话状态生成模块13包括对话状态生成子模块131，所述对话状态生成子模块131具体用于：

提取所述当前对话信息的用户意图对应的第一状态特征、所述搜索纬度分布信息对应的第二状态特征、所述当前多轮槽位分布信息对应的第三状态特征；

根据所述第一状态特征、所述第二状态特征和所述第三状态特征生成当前对话状态特征。

进一步地，所述决策模型为强化学习模型；

所述强化学习模型是根据所述当前对话状态特征、所述候选***行为特征以及对所述候选***行为的环境反馈信息，并通过在线增量学习训练得到的强化学习模型。

图8是本发明实施例示例性的口语对话***的的结构示意图。图9是本发明实施例示例性的口语对话***涉及到部分的数学模型。参见图8至图9，口语对话***主要有：

自然语言理解(NLU)装置：负责理解用户的自然语言，将用户输入的自然语言需求转换为机器可以理解的结构化表示。参见图8至图9，NLU装置将自然语言理解结果o_t输入给DST模块。

对话状态更新(Dlalogue State Tracking,DST)模块：负责更新用户的对话状态信息，即将NLU的理解结果更新对话状态信息。参见图8至图9，DST模块中涉及的数学模型为：其中，公式中的s_t表示当前状态取值，b_t(s_t)表示当前对话状态，P(o_t|s_t,a_t-1)表示当状态取值为s_t时，上次***动作为a_t-1，出现o_t的概率值；η表示经验系数，在0至1中取值；P(s_t|s_t-1,a_t-1)表示当状态取值为s_t-1时，上次***动作为a_t-1，出现s_t的概率值；b_t-1(s_t-1)表示上次对话状态；故表示多个历史对话状态与对应的概率值的乘积。也就是说，DST模块通过上述数学模型并结合对话历史状态生成当前对话状态。

***行为触发(Action Trigger)模块：根据更新后的用户状态进行判断，挑选出一系列后续可能的候选***行为，构成候选***行为列表；参见图8至图9，采用LSTD强化学习模型获取候选***行为列表。

行为决策(Policy)模块：对Action Trigger模块触发的候选***行为进行排序选择一个最佳***行为，并对后续的用户行为进行预测。需要说明的是，行为决策(Policy)模块选用基于LSTD的强化学习(Reinforcement Learning)模型对候选***行为的排序进行建模。强化学习，是近年来机器学习和智能控制领域的研究热点之一。强化学习旨在通过在无外界“老师”参与的情况下，智能***(Agent)自身不断地与环境交互、试错，根据反馈评价信号调整动作，得到最优的策略以适应环境。相比有监督学习，增强学习的过程包含几个要素：适应性，即Agent不断利用环境中的反馈信息来改善其性能；反应性，即Agent可以从经验中直接获取状态动作规则；增量特性，增强学习是一种增量式学习，可以在线使用。举例来说，参见图9，LSTD强化学习模型在学习阶段：利用上次***动作对应的动作值函数Q(b_t-1，a_t-1)和经LSTD强化学习得到的增量值Δ来获取当前***动作对应的动作值函数Q′(b_t-1，a_t-1)；在预测阶段预测最佳***动作的动作值函数需要说明的是，LSTD强化学习得到的增量值采用的数学模型为：Δ＝α×{r_t-1+γ×max_a′Q(b_t，a′)-Q(b_t-1，a_t-1)}，其中，α为学习率，在0至1中取值；r_t-1为奖赏值，与用户反馈数据相关；γ表示折扣因子，在0至1中取值；max_a′Q(b_t，a′)为未来最优Q值估计，对应最佳***行为；Q(b_t-1，a_t-1)为上次***动作对应的动作值函数。

参见图9，将预测最佳***动作的动作值函数输入到策略模型中，策略模型根据输出最佳***行为a_t＝Soft max_a(Q(b_t，a),τ)，需要说明的是，策略模型具体采用了回归(Softmax)模型，Softmax模型的实现方式参见现有技术，在此不再详述。

最佳行为执行(Action Execution)模块：执行Policy模块选出的最佳行为。

自然语言生成(NLG)装置：根据Action Execution的执行结果进行自然语言生成，生成最终展现给用户的自然语言结果。

需要说明的是，对话状态更新(Dlalogue State Tracking,DST)模块、***行为触发(Action Trigger)模块、行为决策(Policy)模块、最佳行为执行(Action Execution)模块组成对话管理装置。其中，对话状态更新(Dlalogue State Tracking,DST)模块集成了图4、图5中的接收模块11、生成模块12、对话状态生成模块13的功能；***行为触发(ActionTrigger)模块集成了图4、图5中的动作触发模块14；行为决策(Policy)模块集成了图4、图5中的动作触发模块15的功能。

图8所示的口语对话***具有的优势如下：

1)在候选***行为排序和下轮用户行为预测中采用了强化学习技术，能够做到交互策略的数据驱动，优点如下：

a)***能够通过与用户的不断对话、获取用户的反馈，进行自我学习和调整，完成增量式的在线学习。

b)这种动态的学习方式比使用规则配置的静态方式要更加灵活。规则是通过不断与用户交互获取反馈学习得到的。

c)强化学习的方案是一种通用的、可以推广的方案。不同领域的垂类可以使用相同的强化学习方案。

2)通过DST模块对统计的对话状态进行维护，能够将理解的不确定性的结果以分布的形式保存在用户的多轮对话状态中，并在policy模块使用数据驱动的强化学习模型对这种不确定性进行决策，相比以往的确定性状态表示更加能够刻画和处理这种不确定性。

图10示出了适于用来实现本发明实施方式的示例性计算机设备20的框图。图10显示的计算机设备20仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图10所示，计算机设备20以通用计算设备的形式表现。计算机设备20的组件可以包括但不限于：一个或者多个处理器或者处理单元21，***存储器22，连接不同***组件(包括***存储器22和处理单元21)的总线23。

总线23表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及***组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备20典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机设备20访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

***存储器22可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***34可以用于读写不可移动的、非易失性磁介质(图10未显示，通常称为“硬盘驱动器”)。尽管图10中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线23相连。存储器22可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器22中，这样的程序模块42包括——但不限于——操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备20也可以与一个或多个外部设备50(例如键盘、指向设备、显示器60等)通信，还可与一个或者多个使得用户能与该计算机设备20交互的设备通信，和/或与使得该计算机设备20能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口24进行。并且，计算机设备20还可以通过网络适配器25与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器25通过总线23与计算机设备20的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备20使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

处理单元21通过运行存储在***存储器22中的程序，从而执行各种功能应用以及数据处理，例如实现图1-图3所示的基于人工智能的对话管理方法。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory；以下简称：ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory；以下简称：EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络包括局域网(Local AreaNetwork；以下简称：LAN)或广域网(Wide Area Network；以下简称：WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

为了实现上述实施例，本发明还提出一种计算机程序产品，当计算机程序产品中的指令由处理器执行时，执行如前述实施例所述的基于人工智能的对话管理方法。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，当该计算机程序被处理器执行时能够实现如前述实施例所述的基于人工智能的对话管理方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于人工智能的对话管理方法，其特征在于，包括：

接收当前对话信息，并确定所述当前对话信息的用户意图、所述用户意图下的搜索纬度分布信息以及当前单轮槽位分布信息；

根据所述当前对话信息的当前单轮槽位分布信息和历史对话信息的历史多轮槽位分布信息生成当前多轮槽位分布信息；

根据所述当前对话信息的用户意图、所述搜索纬度分布信息、所述当前多轮槽位分布信息生成当前对话状态并对所述当前对话状态进行特征提取以提取当前对话状态特征；

根据当前对话状态与预先配置的规则确定至少一个候选***行为并对所述至少一个候选***行为进行特征提取以提取候选***行为特征；

将所述当前对话状态特征、所述候选***行为特征以及对所述候选***行为的环境反馈信息输入到决策模型中，所述决策模型用于从所述至少一个候选***行为中确定最佳***行为。

2.根据权利要求1所述的方法，其特征在于，所述在确定当前单轮槽位分布信息之前，包括：

确定所述当前对话信息的N个当前对话关键字，N为自然数；

3.根据权利要求2所述的方法，其特征在于，所述确定当前单轮槽位分布信息，包括：

针对每个槽位：

根据N个所述当前对话关键字确定当前单轮填入信息的项数以及每项当前单轮填入信息所包括的当前对话关键字的个数；

根据每一项所述当前单轮填入信息所包括的当前对话关键字的个数确定每一项所述当前单轮填入信息对应的概率值，形成每个槽位的当前单轮槽位分布信息；

利用每个槽位的当前单轮槽位分布信息生成当前单轮槽位分布信息。

4.根据权利要求3所述的方法，所述根据每一项所述当前单轮填入信息所包括的当前对话关键字的个数确定每一项所述当前单轮填入信息对应的概率值，包括：

在确定每一所述当前单轮填入信息包括n个所述当前对话关键字时，获取n个所述当前对话关键字填入第j个槽位的概率值的第一乘积值，以及获取每一所述当前单轮填入信息未包括的N-n个所述当前对话关键字未填入第j个槽位的概率值的第二乘积值，n为大于等于0且小于等于N的自然数；j为大于等于1且小于等于M的自然数；

5.根据权利要求4所述的方法，其特征在于，所述根据所述当前对话信息的当前单轮槽位分布信息和历史对话信息的历史多轮槽位分布信息生成当前多轮槽位分布信息，包括：

确定历史多轮槽位分布信息中是否包括所述当前对话信息的N个当前对话关键字；

若确定结果为是，将当前单轮槽位分布信息和历史多轮槽位分布信息合并形成当前多轮槽位分布信息；

若确定结果为否，更新所述历史多轮槽位分布信息；

将当前单轮槽位分布信息和更新的历史多轮槽位分布信息合并形成当前多轮槽位分布信息。

6.根据权利要求5所述的方法，其特征在于，历史多轮槽位分布信息包括Q轮历史单轮槽位分布信息，Q为自然数；

所述确定历史多轮槽位分布信息中是否包括所述当前对话信息的N个当前对话关键字，包括：

分别确定每轮历史单轮槽位分布信息中是否包括所述当前对话信息的N个当前对话关键字；

所述若确定结果为否，更新所述历史多轮槽位分布信息，包括：

7.根据权利要求6所述的方法，其特征在于，在确定第q轮历史单轮槽位分布信息的第f个历史单轮填入信息未包括i个所述当前对话关键字时，所述更新第q轮历史单轮槽位分布信息，包括：

8.根据权利要求1至7任一项所述的方法，其特征在于，所述对所述当前对话状态进行特征提取以生成当前对话状态特征，包括：

9.根据权利要求8所述的方法，其特征在于，所述决策模型为强化学习模型；

10.一种基于人工智能的对话管理装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，所述接收模块包括第一确定模块，在确定当前单轮槽位分布信息之前，所述第一确定模块，具体用于：

确定所述当前对话信息的N个当前对话关键字，N为自然数；

12.根据权利要求11所述的装置，其特征在于，所述接收模块包括第二确定模块，所述第二确定模块包括第一子模块、第二子模块、第三子模块，针对每个槽位：

第一子模块，用于根据N个所述当前对话关键字确定当前单轮填入信息的项数以及每项当前单轮填入信息所包括的当前对话关键字的个数；

第二子模块，用于根据每一项所述当前单轮填入信息所包括的当前对话关键字的个数确定每一项所述当前单轮填入信息对应的概率值，形成每个槽位的当前单轮槽位分布信息；

第三子模块，用于利用每个槽位的当前单轮槽位分布信息生成当前单轮槽位分布信息。

13.根据权利要求12所述的装置，所述第二子模块，具体用于：

14.根据权利要求13所述的装置，其特征在于，所述生成模块包括第三确定模块、第一执行模块、第二执行模块、第三执行模块；

所述第三确定模块，用于确定历史多轮槽位分布信息中是否包括所述当前对话信息的N个当前对话关键字，若确定结果为是，触发第一执行模块，若确定结果为否，触发第二执行模块；

所述第一执行模块，用于将当前单轮槽位分布信息和历史多轮槽位分布信息合并形成当前多轮槽位分布信息；

所述第二执行模块，用于更新所述历史多轮槽位分布信息；

所述第三执行模块，用于将当前单轮槽位分布信息和更新的历史多轮槽位分布信息合并形成当前多轮槽位分布信息。

15.根据权利要求14所述的装置，其特征在于，历史多轮槽位分布信息包括Q轮历史单轮槽位分布信息，Q为自然数；

所述第三确定模块，具体用于：

所述第二执行模块，具体用于：

16.根据权利要求15所述的装置，其特征在于，所述第二执行模块，具体用于，在确定第q轮历史单轮槽位分布信息的第f个历史单轮填入信息未包括i个所述当前对话关键字时，将i个所述当前对话关键字未填入第j个槽位的概率值的第三乘积值与第q轮的第f项历史单轮填入信息的概率值相乘得到的第四乘积值作为更新后的第f项所述历史单轮填入信息对应的概率值以更新第q轮历史单轮槽位分布信息，其中，第q个所述历史单轮槽位分布信息包括F项历史单轮填入信息，f为大于等于1且小于等于F的自然数，i为大于等于1且小于等于N的自然数。

17.根据权利要求10至16任一项所述的装置，其特征在于，所述对话状态生成模块包括对话状态生成子模块，所述对话状态生成子模块具体用于：

18.根据权利要求17所述的装置，其特征在于，所述决策模型为强化学习模型；

19.一种计算机设备，其特征在于，包括：处理器和存储器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1-9中任一所述的基于人工智能的对话管理方法。

20.一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行如权利要求1-9中任一项所述的基于人工智能的对话管理方法。

21.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-9中任一项所述的基于人工智能的对话管理方法。