CN108268616B

CN108268616B - 融合规则信息的可控制性对话管理扩展方法

Info

Publication number: CN108268616B
Application number: CN201810009140.3A
Authority: CN
Inventors: 王唯康; 张家俊; 李志飞; 宗成庆
Original assignee: Institute of Automation of Chinese Academy of Science; Mobvoi Information Technology Co Ltd
Current assignee: Institute of Automation of Chinese Academy of Science; Mobvoi Information Technology Co Ltd
Priority date: 2018-01-04
Filing date: 2018-01-04
Publication date: 2020-09-01
Anticipated expiration: 2038-01-04
Also published as: CN108268616A

Abstract

本发明属于人机对话技术领域，具体涉及一种融合规则信息的可控制性对话管理扩展方法，旨在解决数据驱动的对话***通过重新构建交互环境的方式进行扩展时成本高、效率低下的问题，本方法包括：S1，基于交互数据，确定需要扩充的新用户意图，并对原语言理解模块进行扩展；S2，基于新用户意图，构建该新用户意图对应的新对话规则；S3，基于交互数据、原对话管理模块的对话策略、新对话规则，构建新对话管理模块映射空间所需满足的约束；S4，基于S3中得到的新对话管理模块映射空间所需满足的约束，对原对话管理模块进行扩展，生成新对话管理模块。本发明可以对数据驱动的对话***根据用户反馈进行快速扩展、高效迭代。

Description

融合规则信息的可控制性对话管理扩展方法

技术领域

本发明属于人机对话技术领域，具体涉及一种融合规则信息的可控制性对话管理扩展方法。

背景技术

任务型对话***是在某一特定领域(餐馆，酒店或机票领域)，通过自然语言交互的形式，辅助用户完成任务的人机交互***。一般而言，任务型对话***需要具有如下四个基本功能：语言理解、对话状态跟踪、对话策略和对话生成。其中，对话状态跟踪和对话策略模块一起被称为对话管理模块，是整个***的核心部分。

由于任务型对话***能够以更加友好的方式帮助消费者达成目标。因此，人们投入了大量的精力去研究如何设计用户体验更好的对话***。在目前商用的***中，对话管理模块普遍采用基于规则的方式实现。开发者需手工编撰对话管理策略，定义出在不同对话上下文下，***应该执行哪一个动作。这种方法虽然简单直观易于控制，但需要大量的人力和专业知识。最近几年，人们发现通过强化学习的方法可以利用用户提供的反馈信号自动地构建鲁棒的对话管理模块。这种方法避免了设计大量的规则。因此，这种基于数据驱动的设计模式受到了工业界的广泛关注。

然而在设计商用***时，开发者可以定义出所有合理的***行为用于完成某一特定任务。***能够处理的用户意图则需要在***上线后，根据用户的需求不断地进行扩展。所以在商业开发中，为了使***对之前没有考虑到的用户意图做出合理的反应，开发者需要对整个***进行迭代式地扩展。

虽然基于强化学习的方法在构建任务型对话***上具有极大的优势，但由于数据驱动的对话管理模块是一个黑盒子，如果要对原有的对话管理模块进行扩展只能重新设计交互环境进行再训练。而交互环境的构建十分昂贵。因此，如何花费最少的成本，对已有的基于强化学习的对话管理模块进行高效地扩展，同时保留住数据驱动方法的潜在优势是一个非常值得研究的课题。

发明内容

为了解决现有技术中的上述问题，即为了解决对数据驱动的对话***进行扩展时成本高、效率低下的问题，本发明提出了一种融合规则信息的可控制性对话管理扩展方法，包括以下步骤：

步骤S1，基于交互数据D，确定需要扩充的新用户意图，并对原语言理解模块进行扩展；

步骤S2，基于步骤S1所选择的新用户意图，构建该新用户意图对应的新对话规则；

步骤S3，基于步骤S1的交互数据、原对话管理模块的对话策略、步骤S2中得到的新对话规则，构建新对话管理模块映射空间所需满足的约束L；

步骤S4，基于步骤S3中得到的新对话管理模块映射空间所需满足的约束L，对原对话管理模块进行扩展，生成新对话管理模块。

进一步地，所述“新对话管理模块映射空间所需满足的约束L”，具体为：

L＝λ₁L_D+λ₂L_D,θ+λ₃L_D,R

其中，L_D为新对话管理模块的行为与原对话管理模块的行为一致性约束；L_D,θ为新对话管理模块的行为策略与原对话管理模块的行为策略一致性约束；L_D,R为新对话管理模块的行为策略与定义的新对话规则符合性约束；λ₁、λ₂、λ₃为预设的权值参数。

进一步地，

其中，θ^new为新对话管理模块的模型参数；θ为原对话管理模块的模型参数；d为交互数据D中的对话样本；t为对话样本d的轮数；|A_s|为***行为的个数；h_t为第t轮对话的对话上下文；a_k为新对话管理模块在当前对话上下文h_t下的行为；a_t为原始***在当前对话历史h_t下的行为，π(·)为原对话管理模块；L是用于处理新用户意图而定义的对话规则的个数；h_l为第l条规则中声明的对话上下文条件，a_l为规则上下文条件h_l满足时***应该执行动作。

进一步地，所述“对原语言理解模块进行扩展”，其方法为：

在原语言理解模块的基础上，基于需要扩充的新用户意图，添加新用户意图的标注数据，重新训练语言理解模块。

进一步地，所述“对原对话管理模块进行扩展”，其方法为：

在原对话管理模型的对话状态表示中添加额外的字段表示新用户意图；

设置所述新用户意图对应的对话规则；

设置新对话管理模块映射空间所需满足的约束。

进一步地，所述新对话管理模块和原对话管理模块，均为基于数据驱动的对话管理模块。

进一步地，通过构造两种用户仿真环境Sim1和Sim2，对所述新对话管理模块进行训练和测试；其中Sim1用于训练原始对话管理模块，Sim2用于模拟具有未知因素的线上环境。

还包括用户满意度计算方法：

其中，Satis.为用户满意度，d为交互数据D中的对话样本，t为对话样本d的轮数，L是定义的对话规则个数，h_t为第t轮对话的对话上下文，h_l为第l条规则中声明的对话上下文条件，a_t为原始***在当前对话历史h_t下的行为，a_l为规则上下文h_l满足时***应该执行动作，1{}代表指示函数，如果指示函数等号两边的变量相等则指示函数指为1否则为0。

本发明的积极效果：

在商业***的设计过程当中，不可避免地要根据用户的需求与反馈对原***进行扩展。而限制强化学习方法在商业开发中大规模应用的一个原因即，基于强化学习的对话管理模块是个黑盒子，对原有***进行扩展需要重新构建新的交互环境。但是交互环境的构建非常昂贵，如果通过重新构建交互环境的方式对***进行扩展则有成本高效率低下的问题。本发明通过利用商业开发中所产生的资源，以及几条简单的对话规则，实现了对原有对话管理模块的可控制性扩展。实验表明，基于本发明所提出的方法可以达到和重新构建交互环境几乎相同的效果。通过本发明，开发者可以在保留数据驱动方法潜在优势的前提下，对数据驱动的对话***根据用户反馈进行快速扩展、高效迭代。

附图说明

图1是本发明一种实施例的融合规则信息的可控制性对话管理扩展方法流程示意图；

图2是通过重新设计交互环境实现扩展的示意图；

图3是通过本发明实施例实现扩展的示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明的基本思想是利用***开发过程中所产生的可用资源以及简单的对话规则，实现对话管理模块的可控制性扩展，同时节省商业***迭代所需的成本、缩短了开发周期。图1是本发明一种实施例的融合规则信息的可控制性对话管理扩展方法流程示意图；开发者如果发现某些用户意图在最开始的***设计中没有考虑到，并希望新***能够处理这些用户意图，也可以采用图2中的方法。但是图2要求开发者构建新的交互环境与新对话管理模块进行交互，基于新的模型结构训练新的对话管理模块，这在实际的商业开发中代价昂贵、效率低下。图3则是本发明所提出方法的示意图，其核心思想是基于原对话管理模块、以及设定的对话逻辑规则经知识蒸馏(Knowledge Distillation)后扩展形成新对话管理模块。表3则证明了我们方法的有效性。总体而言，本发明中扩展基于深度强化学习的对话管理模块分为三个主要步骤：(1)获取原***和真实用户的交互数据；(2)设计新对话管理模块所需满足的映射空间约束关系；(3)基于(2)中设计的约束关系实现对话管理模块的功能扩展。

本发明一种实施例的融合规则信息的可控制性对话管理扩展方法，如图1所示，包括以下步骤：

下面结合具体的扩展场景对本发明技术方案进行进一步说明。

假设我们的任务型对话***是在餐馆领域帮助用户获取餐馆信息。用户可以采用“餐馆名”、“地区”、“价位”和“特色菜品”等约束属性(inform slots)检索符合要求的餐馆。同时，除约束属性以外，用户还可以询问“评分”、“评论数”、“具体地址”和“电话号码”等餐馆属性(request slots)。在***设计初期，开发者定义的***行为包括：“告知用户某个餐馆的某个属性值”(inform)、“推荐某个满足约束条件的餐馆”(recommend)、“向用户确认某个约束”(confirm)和“向用户询问某个约束条件”(request)等。开发者定义的用户意图包括“打招呼”(hello)、“提供某个检索约束”(inform)、“否定某个检索约束”(deny)、“赞同”(affirm)、“反对”(negate)、“询问某个属性”(request)、“询问其它备选项”(reqalts)和“无法识别”(null)。表1给出了具体的例子，其中“N/A”表示不支持，“System”为任务型对话***，“User”为用户。

表1.对话动作的具体实例

	System	User
			inform	这家店在中关村。	我希望在中关村就餐。
recommend	“辣当家”是一家不错的店。	N/A
			confirm	您想吃川菜吗？	N/A
request	您想在哪就餐？	这家店在哪？
			hello	N/A	您好。
deny	N/A	我不想吃川菜。
			affirm	N/A	是的。
negate	N/A	不是的。
			reqalts	N/A	还有别的店吗？
null	N/A	“任意无法识别的结果”

本实施例的任务型对话***采用基于强化学习的对话管理模块(强化学习为数据驱动的一种)，当任务型对话***开发完成后，需要在原有用户意图的集合下，训练原对话管理模块，可以采用雇请真实用户或采用用户仿真器进行强化学习的训练，具体方法为：在每一轮对话的训练中，给定用户了一个交互任务，例如“找一家中关村附近的川菜店，并且询问这家店的电话号码。”如果***能够完成用户的任务，则对其给一个正反馈，比如“+20”。为了鼓励***在更短的轮数内完成用户的任务，我们用一个较小的负反馈惩罚对话轮数的增加，比如“-1”。

***上线后，经过一段时间的运行，通过分析***和用户的交互的记录，开发者可以发现某些用户的意图不在训练阶段的考虑范围之内，因此开发者需要进行原对话管理模块的扩展，使得新***能够对那些没有考虑到的用户意图做出合理的反应。下面结合本发明的步骤、以及上述扩展场景按步骤展开说明。

步骤S1，基于交互数据D，确定需要扩充的新用户意图，并对原语言理解模块进行扩展。

交互数据D可以为原任务型对话***中用户的交互的记录。

从上述扩展场景的交互实例中，分析潜在的用户需求，如下展示了一个真实的交互实例：

U：我想找一家中关村附近的饭店。

S：“辣当家”是中关村附近一家不错的饭店。

U：这家店的特色是川菜吗？

S：“辣当家”是中关村附近一家不错的饭店。

U：我是想问这家店是不是川菜店！

S：“辣当家”是中关村附近一家不错的饭店。

U：这家店的特色菜是什么？

S：“辣当家”的特色是川菜。

U：告诉我电话。

S：“辣当家”的电话是189XXXXXXXX。

U：谢谢。

S：不客气。

通过对数据的分析可以发现，用户可能希望确认***推荐的餐馆是否满足某个约束(确认餐馆是否位于某个地区)，而在***设计初期这个用户意图并没有被考虑到。因此，新的***需要能够处理类似于“用户确认某个约束条件”(confirm)的意图。

确定了确定需要扩充的新用户意图后，需要根据该新用户意图对原语言理解模块进行扩展。用原语言理解模块的扩展较为简单，只需在原语言理解模块的基础上，基于需要扩充的新用户意图，添加新用户意图的标注数据，并重新训练即可。该方法比较成熟，且较多文献都有记载，此处不再赘述。

步骤S2，基于步骤S1所选择的新用户意图，构建该新用户意图对应的新对话规则。

步骤S3，基于步骤S1的交互数据、原对话管理模块的对话策略、步骤S2中得到的新对话规则，构建新对话管理模块映射空间所需满足的约束L，如公式(1)所示。

L＝λ₁L_D+λ₂L_D,θ+λ₃L_D,R (1)

其中，λ₁、λ₂、λ₃为预设的权值参数，在本例中分别取1、1和3。

L_D为新对话管理模块的行为与原对话管理模块的行为一致性约束，如公式(2)所示；

该公式中，1{}代表指示函数，如果指示函数括号里等号两边的变量相等则指示函数指为1，否则为0。

L_D,θ为新对话管理模块的行为策略与原对话管理模块的行为策略一致性约束，如公式(3)所示；

L_D,R为新对话管理模块的行为策略与定义的新对话规则符合性约束，如公式(4)所示；

其中，θ^new为新对话管理模块的模型参数；θ为原对话管理模块的模型参数；d为交互数据D中的对话样本；t为对话样本d的轮数；|A_s|为***行为的个数，新对话管理模块相对于原对话管理模块中的***行为没有发生改变，改变的只是新对话管理模块能够支持更多的用户行为；h_t为第t轮对话的对话上下文；a_k为新对话管理模块在当前对话上下文h_t下的行为；a_t为原始***在当前对话历史h_t下的行为，π(·)为原对话管理模块；L是用于处理新用户意图而定义的对话规则的个数；h_l为第l条规则中声明的对话上下文条件，a_l为规则上下文条件h_l满足时***应该执行动作。新对话规则

步骤S4，基于步骤S3中得到的新对话管理模块映射空间所需满足的约束L，对原对话管理模块进行扩展，生成新对话管理模块。包括：在原对话管理模型的对话状态表示中添加额外的字段表示新用户意图；设置新对话管理模块映射空间所需满足的约束。

本实施例中，如果用户“确认某个属性的值”(confirm)，那么较为合理的***行为是“告知这个属性的值”(inform)。形式化表示即：

If user confirm(Slot＝value)

Then system inform(Slot＝Value)

其中Slot表示用户希望确认的那个属性，value则代表用户确认的值，而且是那个属性真实的值。那么在上面的对话实例中，当用户询问“这家店的特色是川菜吗？”，slot为餐厅类型，value为川菜。***则需要回答“‘辣当家’的特色是川菜。”，可见Value也为川菜。由于本例中存在4个可用于检索餐馆的条件(餐馆名，地区，价位和特色菜品)，所以这样的规则一共存在4个。

步骤S5，基于新对话管理模块映射空间所需满足的约束，对所述新对话管理模块进行训练。

为了对训练好的具有新对话管理模块的新任务型对话***进行效果评判，可以在欠考虑的用户意图下，***采取合理的***行为的比率来衡量用户满意度，具体采用公式(5)进行：

Satis.为用户满意度，Satis.的值越高表示***的用户体验度越好。该公式中，1{}代表指示函数，如果指示函数括号里等号两边的变量相等则指示函数指为1，否则为0。

为了模拟真实的训练环境，本发明构造了两种用户仿真环境：Sim1和Sim2。Sim1的行为包括“hello”、“inform”、“deny”、“negate”、“affirm”、“reqalts”、“request”和“null”。除了Sim1能够执行的用户行为之外，Sim2还可以利用“confirm”来询问当前***所推荐的实体是否满足某个约束。Sim1的作用是训练原始对话管理模块，Sim2的作用是模拟具有未知因素的线上环境。值得注意的是，Sim2代表的***上线后真实的用户模型，是无法被提前预知的。因此用Sim2训练的***能够在Sim2的测试环境下达到最优的效果，并作为我们模型的上界。

用Sim1训练的对话***(原***)没有考虑过用户“confirm”的意图。因此，原***上线和Sim2交互后，开发者会发现，虽然对话的成功率很高，但是在未考虑的用户意图下，***的回复十分不合理。我们仿真了不存在环境噪声和存在环境噪声下的情况，具体结果如表2所示，其中D1代表无环境噪声的交互数据，D2代表语言理解模块存在0.1的错误概率下的交互数据。

表2.仿真原始***上线后的情况

	规模	对话成功率	平均轮数	平均奖励	用户满意度
						D1	1600	0.958	12.3	4.49	0.153
D2	1600	0.964	13.6	4.00	0.151

采用本发明提出的方法，不需要重新构造额外的仿真环境训练新对话管理模块。实验的结果如表3所示。其中D3和D4是本发明提出方法的测试结果，D5和D6是通过重新设计交互环境训练***而来的。从表3中可以看出，本发明的方法在没有重新设计交互训练环境的前提下，便可以达到与其相当的性能。这充分证明了本发明的有效性。

表3.本发明提出的方法下，新***的性能测试结果

	规模	对话成功率	平均轮数	平均奖励	满意度
						D3	3200	0.968	11.4	5.26	1
D4	3200	0.960	13.1	4.19	0.86
						D5	3200	0.971	11.2	5.28	1
D6	3200	0.958	12.9	4.21	0.87

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种融合规则信息的可控制性对话管理扩展方法，其特征在于，包括以下步骤：

步骤S4，基于步骤S3中得到的新对话管理模块映射空间所需满足的约束L，对原对话管理模块进行扩展，生成新对话管理模块；

所述“新对话管理模块映射空间所需满足的约束L”，具体为：

L＝λ₁L_D+λ₂L_D,θ+λ₃L_D,R

其中，L_D为新对话管理模块的行为与原对话管理模块的行为一致性约束；L_D,θ为新对话管理模块的行为策略与原对话管理模块的行为策略一致性约束；L_D,R为新对话管理模块的行为策略与定义的新对话规则符合性约束；λ₁、λ₂、λ₃为预设的权值参数；

其中，θ^new为新对话管理模块的模型参数；θ为原对话管理模块的模型参数；d为交互数据D中的对话样本；t为对话样本d的轮数；|A_s|为***行为的个数对话规则中行为的个数；h_t为第t轮对话的对话上下文；a_k为新对话管理模块在当前对话上下文h_t下的行为；a_t为原始***在当前对话历史h_t下的行为，π(·)为原对话管理模块；L是用于处理新用户意图而定义的对话规则的个数；h_l为第l条规则中声明的对话上下文条件；a_l为规则上下文条件h_l满足时***应该执行动作。

2.根据权利要求1所述的融合规则信息的可控制性对话管理扩展方法，其特征在于，所述“对原语言理解模块进行扩展”，其方法为：

在原语言理解模块的基础上，基于需要扩充的新用户意图，添加新用户意图的标注数据，并重新训练语言理解模块。

3.根据权利要求1所述的融合规则信息的可控制性对话管理扩展方法，其特征在于，所述“对原对话管理模块进行扩展”，其方法为：

设置所述新用户意图对应的对话规则；

设置新对话管理模块映射空间所需满足的约束。

4.根据权利要求1-3任一项所述的融合规则信息的可控制性对话管理扩展方法，其特征在于，所述新对话管理模块和原对话管理模块，均为基于数据驱动的对话管理模块。

5.根据权利要求1-3任一项所述的融合规则信息的可控制性对话管理扩展方法，其特征在于，通过构造两种用户仿真环境Sim1和Sim2，对所述新对话管理模块进行训练和测试；其中Sim1用于训练原始对话管理模块，Sim2用于模拟具有未知因素的线上环境。

6.根据权利要求1-3任一项所述的融合规则信息的可控制性对话管理扩展方法，其特征在于，还包括用户满意度计算方法：