CN106663129A

CN106663129A - 一种基于状态机上下文敏感多轮对话管理***及方法

Info

Publication number: CN106663129A
Application number: CN201680001739.1A
Authority: CN
Inventors: 王昊奋; 邱楠; 杨新宇
Original assignee: Shenzhen Green Bristlegrass Intelligence Science And Technology Ltd
Current assignee: Shenzhen Green Bristlegrass Intelligence Science And Technology Ltd
Priority date: 2016-06-29
Filing date: 2016-06-29
Publication date: 2017-05-10
Also published as: WO2018000278A1; US20180004729A1

Abstract

本发明公开一种基于状态机上下文敏感多轮对话管理***，包括输入模块，用于接收用户的多模态输入信息；意图识别引擎模块，用于识别多模态输入信息中的意图信息；意图模块，将识别的多个意图信息与后端多个意图子模块一一对应；状态机模块，包含多个状态机，用于管理对话管理***中的相关上下文，并为输出结果提供支持；解析指令引擎模块，包括多个解析指令引擎子模块，分别用于解析对应的意图信息并获取解析后的多个意图信息；以及输出模块，根据意图识别模块和解析引擎模块解析的结果获取策略信息，并将策略信息输送给状态机模块。通过本发明的对话管理***提高了人机交互的成功概率，可以保证人机的交谈有效、友好的进行。

Description

一种基于状态机上下文敏感多轮对话管理***及方法

技术领域

本发明涉及对话管理***，尤其涉及一种基于状态机上下文敏感多轮对话管理***及方法。

背景技术

多轮交互，是输入对话***的最重要组成部分，而它也不仅仅适用于输入对话***，而是适用于所有对话管理模式的场景。现有的对话管理方法主要有：多采用基于规则的方法进行构建,如填槽法、有限自动机方法等,这类以规则为主导的人机对话模型在商业上获得了成功的应用。

基于统计模型的对话管理技术有：如贝叶斯网络、图模型、基于对话的增强学习技术、部分可观测的马尔科夫决策过程(POMDP)等，使得计算机能够灵活地处理人机对话过程中用户的输入错误。相对于传统的基于规则的对话模型，基于统计模型的对话管理技术在对话过程中给予了用户较大的自由度。然而也由于这样的自由度，使得统计方法的计算复杂度较高。尽管一些加速技术的提出在一定程度上降低了时间复杂度，但由于多模态对话管理过程要综合考虑来自输入信息、表情、姿态等多种信号的融合，因此完全基于统计模型的人机对话***依然较难用于实际的人机交互。

另一种方法是采用填槽法实现对话管理，填槽法是把对话过程看作对槽的填充过程，通过不断交互，直至对话目标实现。因为槽相应于数据库中表的条目，所以这种方法也称填表法(Form Filling)，而表的条目也对应语义框架中的格。填槽法所实现的对话过程比较机械，人机交互的自然度较低，但实现复杂度较低，易于开发成熟的商业实用***。

还有一种方法是有限状态机模型的实现，通常采用事件驱动、事件表驱动和面向对象的方法。其中事件驱动是指根据***当前状态以及所发生的事件判断出执行哪一个状态转换函数，运用条件分支技术实现***状态的自动变化。事件表驱动法是在事件驱动的基础上，可以创建一个事件驱动表，表中包括***当前状态、触发事件、下一个状态以及状态转移函数。这样***可以根据当前状态与触发事件从事件驱动表中检索出相应的状态转移函数与下一个状态，从而执行状态函数，进行状态转换。面向对象的设计方法是指状态图中的每个状态都具有自己的属性以及在接受一定触发事件的时候可以进行一定的操作(状态转移函数)，所以每个状态都可以是一个类，状态属性可以用类的成员变量表示，状态转移函数可以由类的成员函数实现。

这种建立有限状态机模型的实现方法是把对话过程看成是自动机的状态转移过程，主要工作是设计自动机的状态和状态转移条件。这种方法虽然思路新颖，但用户模型的不确定性很大，所描述的自动机转移条件过于复杂，状态定义也不甚明晰。

因此，寻找一种保证计算机与人的交谈可以有效的进行的方法显得很有必要。由于对话管理模块是对话***中一个非常重要的组成部分，对话管理的核心内容，就是通过一定的策略控制，指导人机交互顺利进行。它的任务是根据语言理解的结果、对话的上下文知识和历史信息综合分析，确定用户的意图，并根据需要查询后台数据库，组织适当的应答语句，便可以保证计算机与人的交谈可以有效、友好地继续下去，直到用户的目的得以实现。

本发明通过间接或直接的言语行为，新的对话轮次的发起，对话澄清和纠正，上下文历史记录和语用信息等因素获得相互理解。尤其是在实时输入对话***中，当输入信息识别错误或者用户提供的信息不完整时，对话管理模块可以对用户进行引导,人机交互得以顺利进行。

发明内容

本发明公开一种基于状态机上下文敏感多轮对话管理***，其特征于，输入模块，用于接收用户的多模态输入信息；意图识别引擎模块，用于识别多模态输入信息中的意图信息；意图模块，将识别的多个意图信息与后端多个意图子模块一一对应；状态机模块，其中包含多个状态机，用于管理对话管理***中的相关上下文，并为输出结果提供支持；解析指令引擎模块，其中包括多个解析指令引擎子模块，分别用于解析对应的意图信息并获取解析后的多个意图信息；以及输出模块，根据意图识别模块和解析引擎模块解析的结果获取策略信息，并将策略信息输送给状态机模块。

优选的，状态机模块中包含第一状态机和第二状态机。

优选的，第一状态机用于补全意图识别引擎模块的上下文并提供至意图识别引擎模块重新识别未知意图信息。

优选的，第二状态机用于补全意图模块的上下文后提供给解析指令引擎模块重新解析意图信息。

优选的，第二状态机的数量与意图信息的数量相对应。

优选的，所述第一状态机还用于管理第二状态机。

优选的，第一状态机还用于接收输出模块提供的策略信息，并提供上下文信息为输出结果提供支持。

一种基于状态机上下文敏感多轮对话管理方法，其特征在于，输入模块接收多模态输入信息；意图识别引擎模块识别多模态输入信息中的意图信息；意图模块将识别的多个意图信息与后端多个意图子模块一一对应；状态机模块管理用于管理对话管理***中的相关上下文，并为输出结果提供支持；解析指令引擎模块解析意图信息；以及输出模块根据意图识别模块和解析引擎模块解析的结果获取策略信息，并将策略信息输送给状态机模块。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的实施例基于状态机上下文敏感多轮对话管理***模块图；

图2是本发明的实施例基于状态机上下文敏感多轮对话管理***方法流程图；

图3是本发明的实施例基于状态机上下文敏感多轮对话管理***方法中输入为语音信息识别的一个的流程图。

具体实施例

下面结合附图和具体实施例对本发明的技术方案作进一步更详细的描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

首先利用状态机模型构建***对话流程，再将填槽法结果作为***状态转移的条件。状态机的一次状态转移对应对话过程中的一个基本对话单元，即有用户提问和机器回答构成的语句块；一个状态进入行为对应基本对话单元中的一个用户提问；一个状态机事件对应一个机器的回答；一个状态转移行为对应一次用户命令参数的解析(自然语言处理模块获取命令和参数、与参数验证模块交互获得参数验证结果)。

另外采用多个技能包并行，各个模块处理过程都是异步进行的，因此***中维护多个有限状态机，每个有限状态机通过特殊的标识符相互区别。而维护这多个有限状态机，也是由一个状态机来管理。

由于对话管理模块和一个或多个技能包处理交互，技能包处理包含了其所需的领域知识和处理逻辑，将用户的信息需求以特定的形式查询知识库，获取所需的信息。若发现查询信息有缺失，就基于填槽法等补全。若还是填不全，就采用交互模式，交互模式分为问答式和选项式两种模式。

图1是本发明的实施例基于状态机上下文敏感多轮对话管理***100模块图。如图1所示，对话管理***100中包括有：输入模块101、意图识别引擎模块102、状态机模块103、意图模块104、解析引擎指令模块105以及输出模块106。其中，输入模块101用于接收输入信息并识别输入信息含义；这里的输入信息可以是多模态输入，包括但不限于，视频、人脸、表情、场景、声纹、指纹、虹膜瞳孔、光感、等信息。接收到输入信息后会将识别的输入信息输入至意图识别引擎模块102，该意图识别引擎模块102，用于识别输入信息中的意图信息，如果意图识别引擎模块102可以识别出输入信息所包含的意图信息，则将所识别的多个意图信息发送至意图模块104进行下一步的处理。反之，如果意图识别引擎模块102不能识别出输入信息所包含的意图信息，则将输入信息发送至状态机模块103，状态机模块103中包含多个状态机，分别用于管理对话管理***中的上下文信息，比如用于管理意图识别引擎模块的相关上下文；以及意图模块的相关上下文等；其中的第一状态机还用于管理第二状态机(下文会详述第一状态机与第二状态机的功能)；另外，第一状态机还为最后的输出提供支持。

在一个实施例中，第一状态机接收未能识别出意图的输入信息并根据该输入信息补全上下文，并将补全有上下文的输入信息再次发送给意图识别引擎模块102重新识别，直至识别出输入信息中意图信息为止。

进一步地，意图模块104接收到识别出的多个意图信息后，将所有包含的意图信息与多个意图子模块进行对应，在一个实施例中，识别出的意图信息包含有多种不同的意图含义。然后将不同的意图信息发送给解析指令引擎模块105进行解析，其中每一个意图信息对应一个解析指令引擎模块105中的一个解析指令引擎子模块。如果解析成功，则将解析后的意图信息发送至输出模块106，反之则将未能解析成功的意图信息发送至状态机模块103，状态机模块103会补全上下文，未能解析成功的意图信息结合状态机补全的上下文发送给解析指令引擎模块105重新解析直至解析成功。输出模块106，用于根据解析后的多个意图信息输出策略信息。其中输出信息中包含了上述对话信息，并且输出模块106会将输出信息传输至状态机模块103，状态机模块103根据上下文信息结合对话信息反馈至输出模块106，以备输出结果。

在一个实施例中，意图识别后有多个意图；这时会走多个意图子模块，并经过相应的解析指令引擎子模块处理；各个解析指令引擎子模块处理后的结果是独立的；而这里的输出模块会将多个独立的结果，综合起来(采取打分策略或者其他的)，输出一个结果。这里的结果，并不一定是结果，只是表示下一步的策略或者下一步处理，即策略信息，更具体地说指导下一步是继续往下走，还是反问用户等；输出的信息等要计入状态机模块，状态机模块会对最后的输出结果提供支持。

在一个实施例中，状态机模块为输出提供支持，即其中的第一状态机，比如对于最后的输出结果，是通过各个模块(图1中的状态机模块内包含的多个状态机，图1未示出)反馈的自评分数A及结果，意图识别引擎模块提供给各个意图子模块的权重B，还有上几轮对话涉及的意图子模块(距离当前对话距离越近，权重分值越大)权重C；基于经验，或者模型人为添加的权重D；综合ABCD四种权重或分数，计数各个模块(各意图子模块)的综合分数，并排序；若排序靠前的分数(第一名、第二名、第三名...)比较接近，则采取策略1，若排序靠前的第一名与第二名差距比较大，则采取策略2。策略1，可以但不限于，比如：第一名是故事模块，第二名是音乐模块；反馈至用户，用户是想听故事，还是听音乐。策略2，可以但不限于，比如：第一名的综合分数远远大于第二名；则直接将第一名对应模块的结果输出。上下文仅作为状态机模块提供输出支持的一个例子，并不能作为对本发明的限制。

如图2所示为根据本发明的实施例基于状态机上下文敏感多轮对话管理***的方法流程图200。图2将结合图1来描述。

步骤S201：用户输入指令后，先进行输入信息识别。

步骤S202：将输入信息输入至意图识别引擎模块进行意图识别，如果意图识别引擎模块根据所获取的输入信息识别出命令的意图，则执行步骤S203：即将输入信息输入到第一状态机(这里的第一状态机属于状态机模块内的一个状态机，下文类同)，然后执行步骤S204：状态机模块补全上下文的信息后，重新输入至意图识别引擎模块进行意图识别。直至意图识别引擎模块识别出意图信息后，执行步骤S205：即将所识别出来的意图信息对应到相应的意图子模块，这里所识别的意图可能包含多个意图信息。接下来执行步骤S206：将对应至相应的意图子模块的多个意图信息发送至解析指令引擎模块，并对多个意图信息进行解析。其中每一个意图信息会发送至每一个解析指令引擎子模块中进行解析，如果解析指令引擎子模块对对应的意图信息解析成功，则执行步骤S209，即综合所有解析成功的意图信息，获取策略信息，然后将策略信息返回至状态机模块。反之，执行步骤S207：即未解析成功的每一个意图信息发送至状态机模块(状态机模块的第二状态机)；然后执行步骤S208：状态机模块补全上下文信息后，重新输入至解析指令引擎模块进行重新解析，直至所有意图信息全部解析成功。

进一步地，步骤S210，状态机模块(即状态机模块中的第一状态机)接受策略信息，并记录本轮对话信息。步骤S211，状态机补全上下文，并提供上下文信息至输出模块进行下一步处理。在一个实施例中，第一状态机会根据策略信息为输出提供支持。

在一个实施例中，上下文所说的输入信息可以是语音信息、文本信息、图像信息等等，但不局限于此。比如上文信息为：今天天气怎么样？而问题是：明天呢？从字面上看明天呢？无法确定其具体含义，此时通过上文补全信息，可以生成生成完整语句为：“明天天气呢？”。又比如：现有的信息为播放《西游记》第三集，而下文中问题是“播放下一集”。通过分析，首先我们知道有一首歌名叫《下一集》；其次，我们知道播放一个故事连续剧时，播放下一集，会切换到下一集。所以，我们可以先制定规则：当当前状态不是故事点播，说‘播放下一集’，就是指播放歌曲《下一集》；当当前状态是故事点播时，说‘播放下一集’，就是指播放下一集故事。

具体应用就是，由输入模块将‘播放下一集’传给意图识别引擎，意图识别引擎处理后，传给‘音乐点播’模块和‘故事点播’模块；音乐点播模块解析出‘播放歌曲《下一集》’；故事点播模块会去查自己的状态机，比如查到当前状态是播放《西游记》第三集，所以，故事模块会解析出‘播放《西游记》第四集’；它们都信心十足地(自评分数)把解析结果传给输出模块。输出模块发现它们自评分数都一样时，就会去查总状态机。

状态机会根据之前的对话，给出不同的权重分数。因为之前是故事点播(西游记，第三集)，所以给故事点播模块的分值会比音乐点播模块的分值更高。

输出模块，根据总状态机给的权重，接受故事点播模块的输出作为自己的输出—如播放《西游记》第四集。

上面所描述的实施例仅作为参考上文和/或下文时的不同实施例，不能作为对本发明的限制，实则在基于状态机上下文敏感多轮，对话管理***，可以仅基于上文，或下文，或者同时基于上下文来处理，最终输出一个更为准确的输出结果。

图3所示为根据本发明的实施例基于状态机上下文敏感多轮对话管理***方法的输入为语音信息识别的一个流程图。且该实施例主要是描述通过补全上文信息来获得输出信息。图3是对图2流程图的补充说明，图3将结合图1、图2来描述，为避免累赘，执行功能相同的模块将不在赘述。如图3所示，意图模块1.....意图模块N对应于图1中意图模块104，可以理解为是意图模块104中的N个意图子模块，用于分别识别用户的每一个意图信息，具体的一个意图信息对应一个意图子模块。同理图中的解析指令引擎1......解析指令引擎对应于图1中的解析指令引擎模块105，可以理解为是解析指令引擎模块105中的n个解析指令引擎子模块，分别用于解析每一个意图信息，一个意图信息对应一个解析指令引擎。图3中的状态机a.....状态机n，对应于图1中的在状态机模块103，其中状态机a(即第一状态机)管理的是意图识别引擎模块102相关的状态(上下文),而状态机b、c、d...(即第二状态机)分别管理的是相关意图模块1.....意图模块N的相关状态(上下文)。

在一个实施例中，输入模块可以由状态机组成，用于输入识别纠错(或者说去歧义)。比如：“用什么来chongji”，根据获取的输入信息，这里的输入信息为语音信息，可能有多种理解，比如：充饥或是冲击。此时，状态机模块可以结合上下文，交互的状态场景等，得到合理的去歧义结果。比如，上下文说的是与“食物”、“疲劳”相关的，就可以理解成充饥。

需要注意的是，不管输入信息、意图、指令成功识别、解析与否，都要走状态机流程；成功的时候是为了将成功解析的送给状态机管理；不成功的时候，是为了从状态机获取上下文信息补全数据。

用状态机管理意图识别引擎模块也是一样。当用户输入“调大一点”，这个时候，我们不知道，用户是想控制家电，还是控制音量等不同模块。我们就可以通过状态机获取上下文，若上下文说的是家电相关的，我们就可以认为是传递给家电模块；或者说，给家电模块的可能性更大。而对于解析指令引擎模块的处理也是一样的处理方法。

以上所揭露的仅为本发明实施例中的较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于状态机上下文敏感多轮对话管理***，其特征在于，其中包括：

输入模块，用于接收用户的多模态输入信息；

意图识别引擎模块，用于识别多模态输入信息中的意图信息；

意图模块，将识别的多个意图信息与后端多个意图子模块一一对应；

状态机模块，其中包含多个状态机，用于管理对话管理***中的相关上下文，并为输出结果提供支持；

解析指令引擎模块，其中包括多个解析指令引擎子模块，分别用于解析对应的意图信息并获取解析后的多个意图信息；以及

输出模块，根据意图识别模块和解析引擎模块解析的结果获取策略信息，并将策略信息输送给状态机模块。

2.根据权利要求1所述的基于状态机上下文敏感多轮对话管理***，其特征在于，状态机模块中包含第一状态机和第二状态机。

3.根据权利要求2所述的基于状态机上下文敏感多轮对话管理***，其特征在于，其中第一状态机用于补全意图识别引擎模块的上下文并提供至意图识别引擎模块重新识别未知意图信息。

4.根据权利要求2所述的基于状态机上下文敏感多轮对话管理***，其特征在于，其中第二状态机用于补全意图模块的上下文后提供给解析指令引擎模块重新解析意图信息。

5.根据权利要求4所述的基于状态机上下文敏感多轮对话管理***，其特征在于，所述第二状态机的数量与意图信息的数量相对应。

6.根据权利要求2所述的基于状态机上下文敏感多轮对话管理***，其特征在于，所述第一状态机还用于管理第二状态机。

7.根据权利要求2所述的基于状态机上下文敏感多轮对话管理***，其特征在于，所述第一状态机还用于接收输出模块提供的策略信息，并提供上下文信息为输出结果提供支持。

8.一种基于状态机上下文敏感多轮对话管理方法，其特征在于，其中包括：

输入模块接收多模态输入信息；

意图识别引擎模块识别多模态输入信息中的意图信息；

意图模块将识别的多个意图信息与后端多个意图子模块一一对应；

状态机模块管理用于管理对话管理***中的相关上下文，并为输出结果提供支持；

解析指令引擎模块解析意图信息；以及

输出模块根据意图识别模块和解析引擎模块解析的结果获取策略信息，并将策略信息输送给状态机模块。

9.根据权利要求8所述的基于状态机上下文敏感多轮对话管理方法，其特征在于，状态机模块中包含第一状态机和第二状态机。

10.根据权利要求9所述的基于状态机上下文敏感多轮对话管理方法，其特征在于，其中第一状态机用于补全意图识别引擎模块的上下文并提供至意图识别引擎模块重新识别未知意图信息。

11.根据权利要求9所述的基于状态机上下文敏感多轮对话管理方法，其特征在于，第二状态机用于补全意图模块的上下文后提供给解析指令引擎模块重新解析意图信息。

12.根据权利要求11所述的基于状态机上下文敏感多轮对话管理方法，其特征在于，所述第二状态机的数量与意图信息的数量相对应。

13.根据权利要求9所述的基于状态机上下文敏感多轮对话管理方法其特征在于，所述第一状态机还用于接收输出模块提供的策略信息，并提供上下文为输出结果提供输出支持。