CN104951433A

CN104951433A - 基于上下文进行意图识别的方法和***

Info

Publication number: CN104951433A
Application number: CN201510351843.0A
Authority: CN
Inventors: 刘佳; 俞晓光
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2015-06-24
Filing date: 2015-06-24
Publication date: 2015-09-30
Anticipated expiration: 2035-06-24
Also published as: CN104951433B

Abstract

本发明公开了一种基于上下文进行意图识别的方法和***。所述方法包括：基于用户历史咨询日志，对包括在所述用户历史咨询日志中的用户提出的问题进行人工标注；对每一个问题执行特征提取，以生成训练语料；根据监督学习算法，对所生成的训练语料进行模型训练，以获得训练模型；以及基于所获得的训练模型，对当前的问题进行预估并获得预估后的用户意图识别结果。

Description

基于上下文进行意图识别的方法和***

技术领域

本发明涉及人工智能领域，特别涉及基于上下文进行意图识别的方法和***。

背景技术

意图识别是识别一种行为的意图。例如，在问答对话中，提问者每句话都带有一定的意图，应答方根据对方的意图进行回答。

相关问题在搜索引擎、聊天机器人等场景下有广泛的应用。尤其在聊天机器人中，意图识别是整个***的核心模块。在回答用户的问题时，就是通过分析用户意图，在了解用户想问什么之后给出相应的答案。

现有技术中进行意图识别的方法主要是获取一批数据，然后对每条数据的意图进行人工标注，从而得到训练数据。通过训练数据结合特定的算法训练出模型，并使用所得到的模型对新的语料进行意图识别。然而，当前意图识别大多是基于单句对话的，但是人的对话都是在一定的上下文中进行的，同一句话在不同的上下文中可能表述的意思完全不一样。如果仅仅使用单句进行意图识别完全违背了自然语言的形式，很多意图是无法区分出来的。

例如，在京东客服日常咨询的问题中有售后运费(退货产生的费用)和售前运费(商家寄给客户商品产生的费用)两种。如果用户询问“运费谁出”，仅仅根据这句话无法区分用户是咨询售前运费还是售后运费。当将这句话放到上下文场景中时就很容易区分：如果用户先咨询“我要退货”，再问“运费谁出”，很明显是售后运费；如果先咨询“现在下单什么时候到”，再问“运费谁出”，则是售前运费。

由此，可以看到仅仅根据单句的信息进行意图识别存在一些缺陷。一方面，在对训练语料进行人工标注时无法区分很多问题中用户的真实意图，导致不同人标注的结果不一样，从而影响训练数据质量。另一方面，训练出来的模型对同样的话预测的意图永远是一致的，不会根据不同的上下文变化，从而导致预测错误。

因此，需要一种能够基于上下文进行意图识别的方法和***。

发明内容

根据本发明的一个实施例，提供了一种基于上下文进行意图识别的方法，包括：基于用户历史咨询日志，对包括在所述用户历史咨询日志中的用户提出的问题进行人工标注；对每一个问题执行特征提取，以生成训练语料；根据监督学习算法，对所生成的训练语料进行模型训练，以获得训练模型；以及基于所获得的训练模型，对当前的问题进行预估并获得预估后的用户意图识别结果。

优选地，对包括在所述用户历史咨询日志中的用户提出的问题进行人工标注进一步包括：按照会话对所获取的用户历史咨询日志进行划分，并逐句对所述用户历史咨询日志进行人工标注。

优选地，对所生成的训练语料进行模型训练进一步包括：对每一个问题添加上文意图分类信息；提取每一个问题的位置信息；以及将每一个问题转化为特征向量作为所述训练语料。

优选地，对所生成的训练语料进行模型训练进一步包括：对特征提取后的所有数据进行分词，并根据增益来获取增益最大的预定数目个分词作为特征词典；基于所述特征词典，将每个训练数据转化为训练向量；以及将所述训练向量作为所述监督学习算法的输入，执行所述监督学习算法以获得训练模型。

优选地，对当前的问题进行预估进一步包括：获取当前问题和用户信息；根据用户ID获取用户的历史信息，得到本句问题在会话中的位置信息以及上文意图分类信息；对所述当前问题执行特征提取以获得特征向量；以及基于训练模型，输入所述特征向量以获得对当前的问题的预估结果。

根据本发明的另一个实施例，提供了一种基于上下文进行意图识别的***，包括：人工标注模块，所述人工标注模块被配置成基于用户历史咨询日志，对包括在所述用户历史咨询日志中的用户提出的问题进行人工标注；特征提取模块，所述特征提取模块被配置成对每一个问题执行特征提取，以生成训练语料；模型训练模块，所述模型训练模块被配置成根据监督学习算法，对所生成的训练语料进行模型训练，以获得训练模型；以及线上预估模块，所述线上预估模块被配置成基于所获得的训练模型，对当前的问题进行预估并获得预估后的用户意图识别结果。

优选地，所述人工标注模块进一步被配置成按照会话对所获取的用户历史咨询日志进行划分，并逐句对所述用户历史咨询日志进行人工标注。

优选地，所述特征提取模块进一步被配置成：对每一个问题添加上文意图分类信息；提取每一个问题的位置信息；以及将每一个问题转化为特征向量作为所述训练语料。

优选地，所述模型训练模块进一步被配置成：对特征提取后的所有数据进行分词，并根据增益来获取增益最大的预定数目个分词作为特征词典；基于所述特征词典，将每个训练数据转化为训练向量；以及将所述训练向量作为所述监督学习算法的输入，执行所述监督学习算法以获得训练模型。

优选地，所述线上预估模块进一步被配置成：获取当前问题和用户信息；根据用户ID获取用户的历史信息，得到本句问题在会话中的位置信息以及上文意图分类信息；对所述当前问题执行特征提取以获得特征向量；以及基于训练模型，输入所述特征向量以获得对当前的问题的预估结果。

根据本公开和附图的下面的详细描述，对本领域的普通技术人员来说其它的目的、特征、以及优点将是显而易见的。

附图说明

附图图示了本发明的实施例，并与说明书一起用于解释本发明的原理。在附图中：

图1图示了根据本发明实施例的基于上下文进行意图识别的***的示意图。

图2图示了根据本发明实施例的人工标注模块的处理流程图。

图3图示了根据本发明实施例的特征提取模块的处理流程图。

图4图示了根据本发明实施例的模型训练模块的处理流程图。

图5图示了根据本发明实施例的线上预估模块的处理流程图。

具体实施方式

根据本发明的实施例公开了一种基于上下文进行意图识别的方法和***。在以下描述中，为了说明的目的，阐述了多个具体细节以提供对本发明的实施例的全面理解。然而，对于本领域技术人员显而易见的是，本发明的实施例可以在没有这些具体细节的情况下实现。

如在此所使用的术语“机器学习”是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。常见的机器学习方法可以分为监督学习、半监督学习和无监督学习。

如在此所使用的术语“监督学习”指的是从给定的训练数据集中学习出一个函数，当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出，也可以说是特征和目标。训练集中的目标是人工标注的。

如在此所使用的术语“词袋”是一种文本表示方法。例如假定存在以下一个词典：{"John":1,"likes":2,"to":3,"watch":4,"movies":5,"also":6,"football":7,"games":8,"Mary":9,"too":10}，并且存在一个文本：“John likes to watch movies.Mary likes too.”。在这种情况下，1根据以上词典，可以将该文本转换成如下向量：[1,1,1,1,1,0,0,0,1,1]，其中“1”表示词典中的词出现过，“0”表示没有出现。

图1图示了根据本发明实施例的基于上下文进行意图识别的***100的示意图。如图1所示，基于上下文进行意图识别的***100包括人工标注模块101、特征提取模块103、模型训练模块105和线上预估模块107。根据本发明的实施例，人工标注模块101、特征提取模块103和模型训练模块105属于线下模块，用来生成特征词典、模型。线上预估模块107属于线上模块，通过所生成的特征词典、模型对实时问题进行分类评估。下面以京东客服回答用户咨询问题为场景对每个模块进行说明。

人工标注模块

京东客服回答的问题可以分为不同的业务点，用户的每个问题可以对应到这些业务点。这里直接将这些业务点看作用户意图，常见的业务点例如有：退货、换货、配送、运费等。

图2图示了根据本发明实施例的人工标注模块101的处理流程图。如图2所示，人工标注模块101首先获取用户历史咨询日志，并对所获取的用户历史咨询日志按照会话进行划分，然后逐句地对包括在所述用户历史咨询日志中的用户提出的问题进行人工标注。

在本发明的实施例中，一个会话是由同一个对话场景中的连续的问题组成。例如，会话划分方法可以如下：将所获取的用户历史咨询日志按照用户咨询时间进行排序，如果咨询的用户或回答问题的客服不同，则将连续的问题划分到不同的会话中。而且，如果用户和客服一致，但相邻两句话的时间间隔大于预定时间(例如，半小时)，则也将该对话划分为不同的会话。

在用户历史咨询日志按会话划分完成之后，将数据交由人工对每句话进行标注。这样，人工标注过程不再仅根据单句，而是根据这句话在整个会话中的意图进行标注，更准确地说，是根据这句话的上下文进行标注。因为在实际对话时，我们只能获取或知道用户之前所说的话，而无法获取他接下来会说什么。表1示出了在示例场景1的情况下会话标注完成后的效果。

问题	标注结果
		你好	闲聊
我之前买的衣服小了，可以退货吗	退货条件
		运费谁出	售后运费
可以寄邮政吗	退货方式
		收货地址是什么	返回地址
好的，谢谢	闲聊

表1 场景1情况下的标注效果

可以看出，如果使用单句标注的方案，“运费谁出”是无法区分出用户咨询的是售前还是售后运费。同样，“可以寄邮政吗”也无法区分出是发货方式还是退货方式。然而，例如以上的这两句话放在整个会话中看是没有任何歧义的。

特征提取模块

图3图示了根据本发明实施例的特征提取模块103的处理流程图。如图3所示，特征提取模块103被配置成对每一个问题执行特征提取，以生成训练语料。具体地，特征提取模块103首先针对每句话或每个问题添加上文意图分类信息，提取每句话或每个问题的位置信息，并将每一个问题转化为特征向量作为所述训练语料。

在所有数据标注完成之后，每句话需要加入上下文信息，最终使用“词袋”方式将每句话转化为一个向量作为模型训练的输入。在此，所加入的上下文信息有两种：一种是上文的意图(即，上文的标注结果)，这里只取最近一条非“闲聊”的标注结果；另一种是本句话在整个会话中的位置信息，即，本句话是整个会话中的第几句。

上文意图信息的添加规则是：距离当前问题最近，且标注结果不是闲聊问题的标注结果。这里需要说明的是，用户在咨询过程中会加入很多闲聊话语，或者说意图不明显的话语，并且这些话语将那些意图明显的语句分隔开来。因此，如果仅仅看上一句的分类结果，则很可能上文的标注结果是一致的。例如，表2和表3所示的场景2和场景3情况下的标注效果。

问题	标注结果
		你好	闲聊
我之前买的衣服小了，可以退货吗	退货条件
		太好了	闲聊
运费谁出	售后运费

表2 场景2情况下的标注效果

问题	标注结果
		你好	闲聊
现在下单什么时候到	配送周期
		好吧	闲聊
运费谁出	售前运费

表3 场景3情况下的标注效果

如场景2和场景3所示，“运费谁出”的上一句都是闲聊，没有明显意图。如果只根据上一句话来看无法区分当前句的含义。进一步，这里参照的上文也不能太多，用户最开始说的话和当前句较远时，意图很可能已经不一样了，这种情况下没有参考价值。因此，根据本发明的技术方案，选择在当前话语之前的若干话语作为参考，例如可以选择最近三句话作为参考。如果最近三句话都是闲聊，则上文结果为空。

问题位置信息是特征提取的重要部分。例如，一个会话刚开始往往是“你好”、“在吗”之类的语气词。同样的话语由于出现在会话中的位置不同会造成不同的标注结果。例如，如果“不行”这句话出现在会话的最开始，则由于没有上文信息而会将这句话标注为“闲聊”。如果这句话出现在后面，则由于已经进入特定场景，所以这句话会带有一定的意图，而不会被标注为“闲聊”。这与上文信息是互相辅助的。

以场景2中的“运费谁出”为例，经过特征提取模块103处理之后变为“4退货条件运费谁出”，其中，“4”为位置信息，“退货条件”为上文意图分类信息，“运费谁出”为用户的问题。

此外，用户的问题中可包含大量数据。为了区分用户输入的数字内容，将这里的位置信息变为“index”+位置，上文意图分类信息也转化为“cate”+分类id(每个分类对应一个唯一的数字id)。

这里，不使用上文意图分类信息明文。原因如下：例如有一个分类为“退换货保修返修政策”，如果用户的第一句话被划分为该分类，接着用户的下一句话是“好”。由于第二句只有一个字，所以如果加入上文意图信息的明文信息，则变为“退换货保修返修政策好”。在这种情况下，第二句话中的“好”的信息完全被上文意图信息所掩盖，导致这句话应该是闲聊，但肯定会预测为“退换货保修返修政策”。然而，如果将上文意图分类信息替换为诸如“cate1”的标识，则不会出现这种情况。

因此，特征提取模块103最终将场景2中原始的“运费谁出”变为“index4cate2运费谁出”。特征提取模块103最后将处理后的问题进行分词，然后转化为特征向量作为最终的训练语料。例如可以通过上文所述的“词袋”的方式转化为特征向量。本领域技术人员可以理解，可以采用本领域已知的任何其他方式来转化为特征向量。

模型训练模块

图4图示了根据本发明实施例的模型训练模块105的处理流程图。如图4所示，模型训练模块105被配置成根据监督学习算法，对所生成的训练语料进行模型训练，以获得训练模型。

首先，模型训练模块105对由特征提取模块103处理后的所有数据进行分词，并根据增益来获取增益最大的预定数目个分词作为特征词典，例如前20000个分词作为特征词典。本领域技术人员理解，可以选择采用其他数目的分词，即，特征词典的大小是可自由调整的。

然后，模型训练模块105对每条样本进行分词，根据所生成的特征词典以及上文提到的“词袋”方法，将每条训练数据转化为训练向量。所述训练向量例如是用0、1表示的训练向量。

接着，模型训练模块105将所述训练向量作为监督学习算法的输入，从而得到最终的训练模型。如本领域技术人员已知的，可以采用任何合适的监督学习算法。例如，在一个实施例中，采用逻辑回归LR(Logistic Regression)算法。

线上预估模块

图5图示了根据本发明实施例的线上预估模块107的处理流程图。在线上预估处理中，线上预估模块107对当前问题和用户信息进行特征提取以生成特征向量，并使用由模型训练模块105训练好的模型对输入的特征向量进行预估，并输出最终的意图预测结果。其中，特征提取与上文参照特征提取模块103所描述的方法一致。

如图5所示，首先，线上预估模块107获取当前问题和用户信息，然后根据用户ID获取该用户的历史信息，得到本句问题在会话中的位置信息以及上文意图分类信息。然后，线上预估模块107对所述当前问题执行特征提取。具体地，线上预估模块107基于获得的位置信息和上文意图分类信息对当前问题进行处理以得到最终的训练语料，并根据模型训练模块105的训练方法将用户问题转化为特征向量。然后，线上预估模块107基于模型训练模块105训练好的模型，输入所述特征向量并获得预估的最终结果。最后，线上预估模块107记录本次咨询信息。

根据本发明的技术方案，用户在标注数据过程中，由于能够参考上文信息，所以能够更明显地看出用户的意图，使标注效率更高、标注中歧义更少、标注数据的质量更高，从而使最终预测结果更准确。

与传统方法相比较，根据本发明的技术方案使用上下文信息进行意图识别，准确率有较大提升。而且，同样的问题在不同的上下文场景中能够预估出不同的意图，更符合自然语言的应用场景，从而能够解决传统方法无法解决的问题。

上述实施例仅是本发明的优选实施例，并不用于限制本发明。对本领域技术人员显而易见的是，在不脱离本发明精神和范围的情况下，可以对本发明的实施例进行各种修改和改变。因此，本发明意在涵盖落入如权利要求所限定的本发明的范围之内的所有的修改或变型。

Claims

1.一种基于上下文进行意图识别的方法，包括：

基于用户历史咨询日志，对包括在所述用户历史咨询日志中的用户提出的问题进行人工标注；

对每一个问题执行特征提取，以生成训练语料；

根据监督学习算法，对所生成的训练语料进行模型训练，以获得训练模型；以及

基于所获得的训练模型，对当前的问题进行预估并获得预估后的用户意图识别结果。

2.根据权利要求1所述的方法，其中，对包括在所述用户历史咨询日志中的用户提出的问题进行人工标注进一步包括：按照会话对所获取的用户历史咨询日志进行划分，并逐句对所述用户历史咨询日志进行人工标注。

3.根据权利要求1所述的方法，其中，对所生成的训练语料进行模型训练进一步包括：

对每一个问题添加上文意图分类信息；

提取每一个问题的位置信息；以及

将每一个问题转化为特征向量作为所述训练语料。

4.根据权利要求1或3所述的方法，其中，对所生成的训练语料进行模型训练进一步包括：

对特征提取后的所有数据进行分词，并根据增益来获取增益最大的预定数目个分词作为特征词典；

基于所述特征词典，将每个训练数据转化为训练向量；以及

将所述训练向量作为所述监督学习算法的输入，执行所述监督学习算法以获得训练模型。

5.根据权利要求1或3所述的方法，其中，对当前的问题进行预估进一步包括：

获取当前问题和用户信息；

根据用户ID获取用户的历史信息，得到本句问题在会话中的位置信息以及上文意图分类信息；

对所述当前问题执行特征提取以获得特征向量；以及

基于训练模型，输入所述特征向量以获得对当前的问题的预估结果。

6.一种基于上下文进行意图识别的***，包括：

人工标注模块，所述人工标注模块被配置成基于用户历史咨询日志，对包括在所述用户历史咨询日志中的用户提出的问题进行人工标注；

特征提取模块，所述特征提取模块被配置成对每一个问题执行特征提取，以生成训练语料；

模型训练模块，所述模型训练模块被配置成根据监督学习算法，对所生成的训练语料进行模型训练，以获得训练模型；以及

线上预估模块，所述线上预估模块被配置成基于所获得的训练模型，对当前的问题进行预估并获得预估后的用户意图识别结果。

7.根据权利要求6所述的***，其中，所述人工标注模块进一步被配置成按照会话对所获取的用户历史咨询日志进行划分，并逐句对所述用户历史咨询日志进行人工标注。

8.根据权利要求6所述的***，其中，所述特征提取模块进一步被配置成：