CN110955767A

CN110955767A - 一种机器人对话***中生成意图候选集列表集合的算法及装置

Info

Publication number: CN110955767A
Application number: CN201911224472.4A
Authority: CN
Inventors: 谭明; 张建辉; 袁亚洲; 刁玉贤
Original assignee: China Pacific Insurance Group Co Ltd CPIC
Current assignee: China Pacific Insurance Group Co Ltd CPIC
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2020-04-03

Abstract

本发明公开了一种机器人对话***中生成意图候选集列表集合的算法，用于基于用户输入信息生成与所述机器人对话***对应的意图候选集列表集合，包括如下步骤：a.对所述用户输入信息进行单字分词处理，并生成字维度序列；b.对所述用户输入信息进行语句分词处理，并生成词维度序列；c.将所述字维度序列以及所述词维度序列合并为混合维度序列；d.对所述混合维度序列进行分组处理，并至少分为高词频组HF、低词频组LF；e.基于所述高词频组HF、所述低词频组LF在意图库中进行检索，并确定检索匹配结果；f.将检索匹配结果作为所述意图候选集列表集合。本发明使用方便，意图识别能力强大，具有极高的商业价值。

Description

一种机器人对话***中生成意图候选集列表集合的算法及装置

技术领域

本发明属于计算机应用领域，特别涉及一种机器人对话***中生成意图候选集列表集合的算法及装置。

背景技术

对话机器人本质上是通过机器学习和人工智能等技术让机器理解人的语言。它包含了诸多学科方法的融合使用，是人工智能领域的一个技术集中演练营。对于FAQ咨询来说，模块的输出对应知识库里的一个知识点。解决问答就像解决一个大型分类问题，机器人要将用户的需求对应到知识库里的某一个答案。知识库里的知识点数量少则几百个，多则上万个。而根据知识库大小不同，适用的模型结构也会有所不同。例如，银行类客户通常有多个复杂的业务线，知识库规模也是数以万计，直接对几万个知识点进行分类是难以取得高准确率的，因此，机器人会采用分层处理的方法，先判定问题与哪一个大领域相关，再进行详细的知识点分类。

资料查询类对话需要从客户的输入里判定两件事：意图和实体。比如「A公司的市盈率是多少？」这个问句里，就包含了意图「市盈率」和实体「A公司」。成功获得这两个信息后，机器人会去一个结构化的数据库里做查询。得到答案后，按照一个预定义的格式化模板填充后返回给客户。资料查询的一个难点是，用户在连续发问时，不会每次都重复自己的意图和实体，比如用户会在询问「A公司的市盈率是多少？」之后，追问说，「那B公司的呢？」或者「那市净率呢？」。这时，***就需要通过上下文管理，对意图和实体这些要素进行继承或切换。用户的提问到来之后，首先进行判断：用户在这一句中是否提供了某一要素？如果没有，则尝试从前文追溯继承；如果有，再判断用户是否进行了意图(实体)转移，如果是，则需要进行对应更新。

另一个难点是，用户可能不会直接说出实体全称，无法进行精准的、基于规则的匹配。因此，机器人需要结合特定用户的历史记录和用户群体的统计信息，通过学习的方法计算词与词之间转移的概率，然后进行模糊匹配。任务型对话是当下比较流行的一种交互形式，机器人试图以对话的形式来执行订机票、查账单、买理财等任务。任务型和资料查询类对话有相似之处：它们同样要从用户处获得两类信息：意图和「元素」。区别在于，确定意图后，任务型机器人需要主导对话：它要理清进行特定任务所必要的元素有哪些，并以对话的形式确保用户提供了所有元素。以订机票举例，用户说「帮我订明天北京到上海的机票」，那么机器人在明确了任务是「订机票」之后，就要理清，用户已经提供的元素有时间、出发地、到达地，尚未提供的元素有舱位偏好、时间偏好、特定机场偏好等。只有获得了全部所需元素，机器人才能「执行任务」。

最后一类是闲聊，与陪护机器人的闲聊功能不同，穿插在查询、咨询问答或任务交互之间的闲聊，需要结合上下文一起识别。有时，一句话单独看是闲聊的意图，但结合上下文一起看则属于查询、咨询问答或任务交互的一部分。这种场景下的闲聊不仅要识别准，而且要保证上下文对话的流畅性，也非常有挑战。

大型多轮对话***语料可能是千万级，涉及到的意图类别也可能是十万甚至百万级，如何快速定位并确定意图识意图识别算法的核心是目前亟待解决的技术问题。

目前在现有的技术中，并没有一种能够解决上述技术问题的技术方案，具体地，缺少一种机器人对话***中生成意图候选集列表集合的算法及装置。

发明内容

针对现有技术存在的技术缺陷，本发明的目的是提供一种机器人对话***中生成意图候选集列表集合的算法，用于基于用户输入信息生成与所述机器人对话***对应的意图候选集列表集合，包括如下步骤：

a.对所述用户输入信息进行单字分词处理，并生成字维度序列；

b.对所述用户输入信息进行语句分词处理，并生成词维度序列；

c.将所述字维度序列以及所述词维度序列合并为混合维度序列；

d.对所述混合维度序列进行分组处理，并至少分为高词频组HF、低词频组LF；

e.基于所述高词频组HF、所述低词频组LF在意图库中进行检索，并确定检索匹配结果；

f.将检索匹配结果作为所述意图候选集列表集合。

优选地，所述步骤e包括如下步骤：

e1.按照如下公式在意图库中进行检索：AND(HF)AND OR(LF)，并将检索结果作为第一候选意图，其中，AND(HF)表示所述HF组中每个分词都要被匹配，OR(LF)表示所述LF组中至少一个分词被匹配；

e2.设定候选集大小阈值S_min，若匹配到的候选集＜S_min,则替换检索条件为OR(HF)OR OR(LF)，即高词频组HF、低词频组LF中任意一个分词与意图库中分词被匹配，则被匹配的意图分词就被召回作为第二候选意图；

e3.将所述第一候选意图以及第二候选意图的意图集按照TF-IDF算法进行评分，按评分从高到低排序，将前S_min个意图所形成的意图集作为最终候选意图集。

优选地，所述意图库为一索引库，所述索引为倒序排列，按照如下步骤获得所述倒序排列：

-对所述每个意图进行单字分词处理，统计所述单字分词的文档频率和/或反文档频率；

-对所述每个意图进行语句分词处理，统计所述语句分词的文档频率和/或反文档频率；

-基于所述频率统计确定所述倒序排列。

优选地，所述语句分词采用如下步骤中的任一个完成：

-通用汉语分词；

-单字分词：或者

-专业词库全粒度分词。

根据本发明的另一个方面，提供了一种机器人对话***中生成意图候选集列表集合的装置，包括：

第一生成装置：对所述用户输入信息进行单字分词处理，并生成字维度序列；

第二生成装置：对所述用户输入信息进行语句分词处理，并生成词维度序列；

第一处理装置：将所述字维度序列以及所述词维度序列合并为混合维度序列；

第二处理装置：对所述混合维度序列进行分组处理，并至少分为高词频组HF、低词频组LF；

第一确定装置：基于所述高词频组HF、所述低词频组LF在意图库中进行检索，并确定检索匹配结果。

第三处理装置：将检索匹配结果作为所述意图候选集列表集合。

优选地，所述第一确定装置包括：

第四处理装置：按照如下公式在意图库中进行检索：AND(HF)ANDOR(LF)，并将检索结果作为第一候选意图，其中，AND(HF)表示所述HF组中每个分词都要被匹配，OR(LF)表示所述LF组中至少一个分词被匹配；

第五处理装置：设定候选集大小阈值S_min，若匹配到的候选集＜S_min,则替换检索条件为OR(HF)OR OR(LF)，即高词频组HF、低词频组LF中任意一个分词与意图库中分词被匹配，则被匹配的意图分词就被召回作为第二候选意图；

第六处理装置：将所述第一候选意图以及第二候选意图的意图集按照TF-IDF算法进行评分，按评分从高到低排序，将前S_min个意图所形成的意图集作为最终候选意图集。

本发明公开了一种机器人对话***中生成意图候选集列表集合的算法及装置，本发明通过对所述用户输入信息进行单字分词处理，并生成字维度序列；对所述用户输入信息进行语句分词处理，并生成词维度序列；将所述字维度序列以及所述词维度序列合并为混合维度序列；对所述混合维度序列进行分组处理，并至少分为高词频组HF、低词频组LF；基于所述高词频组HF、所述低词频组LF在意图库中进行检索，并确定检索匹配结果；将检索匹配结果作为所述意图候选集列表集合。本发明使用方便，意图识别能力强大，具有极高的商业价值。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出了本发明的具体实施方式的，一种机器人对话***中生成意图候选集列表集合的算法的具体流程示意图；

图2示出了本发明的第一实施例的，基于所述高词频组HF、所述低词频组LF在意图库中进行检索，并确定检索匹配结果的具体流程示意图；以及

图3示出了本发明的另一具体实施方式的，一种机器人对话***中生成意图候选集列表集合的装置的模块连接示意图。

具体实施方式

为了更好的使本发明的技术方案清晰的表示出来，下面结合附图对本发明作进一步说明。

图1示出了本发明的具体实施方式的，一种机器人对话***中生成意图候选集列表集合的算法的具体流程示意图，本领域技术人员理解，本发明公开了一种机器人对话***中生成意图候选集列表集合的算法，用于基于用户输入信息生成与所述机器人对话***对应的意图候选集列表集合，即根据用户所输入的信息确定机器人对话***中所有与所述输入信息相匹配的一个或多个意图，进一步地，所述输入信息可以为文字信息、语音信息、视频信息等等，若为语音或视频信息，优选地需要对所述音频或视频中的聊天内容进行文字提取，具体地，还包括如下步骤：

首先，进入步骤S101，对所述用户输入信息进行单字分词处理，并生成字维度序列，在这样的实施例中，是对所有输入的信息进行单个汉字的分隔处理，例如所述用户输入信息为“我要买保险”，则根据所述单字分词规则，将所述用户输入信息分隔为“我”、“要”、“买”、“保”、“险”这五个单字，并将这些单字依次生成各自的字维度序列，根据单字生成字维度序列属于目前现有的技术，在此不予赘述。

然后，进入步骤S102，对所述用户输入信息进行语句分词处理，并生成词维度序列，在这样的实施例中，是对所有输入的信息进行语句的分隔处理，例如所述用户输入信息为“我要买保险”，则根据所述语句分词规则，将所述用户输入信息分隔为“我”、“要”、“买”、“保险”这四个字词，并将这些字词依次生成各自的词维度序列，在此不予赘述。本领域技术人员理解，所述步骤S101以及所述步骤S102可以为并列步骤，即同时进行，即同时执行步骤S101以及步骤S102，而在其他的实施例中，也可以分步骤进行，即先执行步骤S101，然后执行步骤S102，或者先执行步骤S102，再执行步骤S101，这些都不影响本发明的技术方案。

再然后，进入步骤S103，将所述字维度序列以及所述词维度序列合并为混合维度序列，在这样的实施例中，可以由并列执行的步骤S101以及步骤S102所确定的字维度序列以及所述词维度序列进行合并，同时也可以由先后执行的步骤S101以及步骤S102所确定的字维度序列以及所述词维度序列进行合并。在这样的实施例中，事先对所有意图建立倒排索引，每个意图在索引时同时按单字分词和按通用汉语分词算法进行分词，并统计每个字/词的文档频率和反文档频率将用户问题同时按单字分词和按通用汉语分词算法进行分词，即生成字维度的序列和词维度的序列，并将两个序列合并。

紧接着，进入步骤S104，对所述混合维度序列进行分组处理，并至少分为高词频组HF、低词频组LF，进一步地，所谓词频即为所述字词所出现的频率，在本发明所记载的实施例中，可以设定一阈值，低于所述阈值的词频为低词频，高于所述阈值的词频为高词频，更进一步地，分为高词频组HF、低词频组LF，而在其他的实施例中，还可以将其分为高词频组，中词频组以及低词频组，在这样的实施例中，则优选地可以设置两个阈值，这都不影响本发明的技术方案，在此不予赘述。

在执行完步骤S104后，执行步骤S105，基于所述高词频组HF、所述低词频组LF在意图库中进行检索，并确定检索匹配结果，最后，进行步骤S106，本领域技术人员理解，本步骤将检索匹配结果作为所述意图候选集列表集合，进一步地，对步骤S103中合并后序列按词频进行分组，词频高的放到一组HF，词频低的放到另一组LF，将这两组序列按照建立的索引库中进行检索：AND(HF)AND OR(LF),即HF组中的词在意图中必须全部匹配，HF组中的词只要有一个匹配就可，这样可以得到一个意图候选集列表集合，本发明将在后述的具体实施方式中作进一步的描述，在此不予赘述。

进一步地，所述意图库为一索引库，所述索引为倒序排列，按照对所述每个意图进行单字分词处理，统计所述单字分词的文档频率和/或反文档频率获得所述倒序排列，而在其他的实施例中，还可以对所述每个意图进行语句分词处理，统计所述语句分词的文档频率和/或反文档频率获得所述倒序排列，也可以基于所述频率统计确定所述倒序排列获得所述倒序排列，这些都不影响本发明的具体实施方式，在此不予赘述。

进一步地，所述语句分词采用通用汉语分词完成，还可以采用单字分词，这些可以参考上述实施例中相应描述，进一步地，还可以采用专业词库全粒度分词，所述专业词库为相关专业性的词库，例如，构建金融行业专业词库，如保险、推荐、重疾险、意外险、终身寿险、寿险、终身等，进一步地，在分词时优先进行保险专业词库分词，并按照最全粒度分词，比如：我想买保险——>我/想/买/保险；推荐一款终身寿险---->推荐/一款/终身/寿险/终身寿险，而相较于通用分词仅会分成“推荐/一款/终身/寿险”，而本实施例会将专业词库中所有词都分出来，提高后续匹配召回率，再例如，有没有适合40岁男人的重疾险---->有没有/适合/40/岁/男人/的/重疾险，通用分词方法可能会因为没有“重疾险”这个专业词典，而只能分成“有没有/适合/40/岁/男人/的/重/疾/险”。

图2示出了本发明的第一实施例的，基于所述高词频组HF、所述低词频组LF在意图库中进行检索，并确定检索匹配结果的具体流程示意图，具体地，包括如下步骤：

首先，进入步骤S1051，按照如下公式在意图库中进行检索：AND(HF)AND OR(LF)，并将检索结果作为第一候选意图，其中，AND(HF)表示所述HF组中每个分词都要被匹配，OR(LF)表示所述LF组中至少一个分词被匹配，即在高频词组中的所述输入信息中的分词都要被匹配，而在低频词组中的所述输入信息中的分词至少有一个被匹配。

然后，进入步骤S1052，设定候选集大小阈值S_min，若匹配到的候选集＜S_min,则替换检索条件为OR(HF)OR OR(LF)，即高词频组HF、低词频组LF中任意一个分词与意图库中分词被匹配，则被匹配的意图分词就被召回作为第二候选意图，在这样的实施例中，设定所述阈值S_min的目的是为了更好的、最大限度的提高召回率，即当匹配到的候选集大于S_min,则仍使用步骤S1051中的第一候选意图，但若匹配到的候选集＜S_min,则意味着候选集中的候选意图不够，则需要更大限度的匹配出更多的候选意图，即替换检索条件为OR(HF)OR OR(LF)，即高词频组HF、低词频组LF中任意一个分词与意图库中分词被匹配，则被匹配的意图分词就被召回作为第二候选意图。

最后，进入步骤S1053，将所述第一候选意图以及第二候选意图的意图集按照TF-IDF算法进行评分，按评分从高到低排序，将前S_min个意图所形成的意图集作为最终候选意图集，本领域技术人员理解，若在步骤S1052中，当匹配到的候选集大于S_min,则仍使用步骤S1051中的第一候选意图，且将所述第一候选意图按照TF-IDF算法进行评分，按评分从高到低排序，将前S_min个意图所形成的意图集作为最终候选意图集，若匹配到的候选集＜S_min,则将所述第一候选意图以及第二候选意图的意图集的集合按照TF-IDF算法进行评分，按评分从高到低排序，将前S_min个意图所形成的意图集作为最终候选意图集，TF-IDF(termfrequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术，此为目前现有的技术，在此不予赘述。

图3示出了本发明的另一具体实施方式的，一种机器人对话***中生成意图候选集列表集合的装置的模块连接示意图，根据本发明的另一个方面，提供了一种机器人对话***中生成意图候选集列表集合的装置，包括第一生成装置：对所述用户输入信息进行单字分词处理，并生成字维度序列，所述第一生成装置的工作原理可以参考前述步骤S101，在此不予赘述。

所述装置还包括第二生成装置：对所述用户输入信息进行语句分词处理，并生成词维度序列，所述第二生成装置的工作原理可以参考前述步骤S102，在此不予赘述。

所述装置还包括第一处理装置：将所述字维度序列以及所述词维度序列合并为混合维度序列，所述第一处理装置的工作原理可以参考前述步骤S103，在此不予赘述。

所述装置还包括第二处理装置：对所述混合维度序列进行分组处理，并至少分为高词频组HF、低词频组LF，所述第二处理装置的工作原理可以参考前述步骤S104，在此不予赘述。

所述装置还包括第一确定装置：基于所述高词频组HF、所述低词频组LF在意图库中进行检索，并确定检索匹配结果，所述第一确定装置的工作原理可以参考前述步骤S105，在此不予赘述。

所述装置还包括第三处理装置：将检索匹配结果作为所述意图候选集列表集合，所述第三处理装置的工作原理可以参考前述步骤S106，在此不予赘述。

进一步地，所述第一确定装置包括第四处理装置：按照如下公式在意图库中进行检索：AND(HF)AND OR(LF)，并将检索结果作为第一候选意图，其中，AND(HF)表示所述HF组中每个分词都要被匹配，OR(LF)表示所述LF组中至少一个分词被匹配，所述第四处理装置的工作原理可以参考前述步骤S1051，在此不予赘述。

进一步地，所述第一确定装置还包括第五处理装置：设定候选集大小阈值S_min，若匹配到的候选集＜S_min,则替换检索条件为OR(HF)OROR(LF)，即高词频组HF、低词频组LF中任意一个分词与意图库中分词被匹配，则被匹配的意图分词就被召回作为第二候选意图，所述第五处理装置的工作原理可以参考前述步骤S1052，在此不予赘述。

进一步地，所述第一确定装置还包括第六处理装置：将所述第一候选意图以及第二候选意图的意图集按照TF-IDF算法进行评分，按评分从高到低排序，将前S_min个意图所形成的意图集作为最终候选意图集，所述第六处理装置的工作原理可以参考前述步骤S1053，在此不予赘述。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种机器人对话***中生成意图候选集列表集合的算法，用于基于用户输入信息生成与所述机器人对话***对应的意图候选集列表集合，其特征在于，包括如下步骤：

f.将检索匹配结果作为所述意图候选集列表集合。

2.根据权利要求1所述的算法，其特征在于，所述步骤e包括如下步骤：

e1.按照如下公式在意图库中进行检索：AND(HF)AND OR(LF)，并将检索结果作为第一候选意图，其中，AND(HF)表示所述HF组中每个分词都要被匹配，0R(LF)表示所述LF组中至少一个分词被匹配；

e2.设定候选集大小阈值S_min，若匹配到的候选集＜S_min，则替换检索条件为OR(HF)OROR(LF)，即高词频组HF、低词频组LF中任意一个分词与意图库中分词被匹配，则被匹配的意图分词就被召回作为第二候选意图；

3.根据权利要求1所述的算法，其特征在于，所述意图库为一索引库，所述索引为倒序排列，按照如下步骤获得所述倒序排列：

-基于所述频率统计确定所述倒序排列。

4.根据权利要求1或2所述的算法，其特征在于，所述语句分词采用如下步骤中的任一个完成：

-通用汉语分词；

-单字分词：或者

-专业词库全粒度分词。

5.一种机器人对话***中生成意图候选集列表集合的装置，其采用权利要求1至4中任一项所述的算法，其特征在于，包括：

第一生成装置(1)：对所述用户输入信息进行单字分词处理，并生成字维度序列；

第二生成装置(2)：对所述用户输入信息进行语句分词处理，并生成词维度序列；

第一处理装置(3)：将所述字维度序列以及所述词维度序列合并为混合维度序列；

第二处理装置(4)：对所述混合维度序列进行分组处理，并至少分为高词频组HF、低词频组LF；

第一确定装置(5)：基于所述高词频组HF、所述低词频组LF在意图库中进行检索，并确定检索匹配结果；

第三处理装置(6)：将检索匹配结果作为所述意图候选集列表集合。

6.根据权利要求5所述的装置，其特征在于，所述第一确定装置包括：

第四处理装置(51)：按照如下公式在意图库中进行检索：AND(HF)AND OR(LF)，并将检索结果作为第一候选意图，其中，AND(HF)表示所述HF组中每个分词都要被匹配，OR(LF)表示所述LF组中至少一个分词被匹配；

第五处理装置(52)：设定候选集大小阈值S_min，若匹配到的候选集＜S_min，则替换检索条件为OR(HF)OR OR(LF)，即高词频组HF、低词频组LF中任意一个分词与意图库中分词被匹配，则被匹配的意图分词就被召回作为第二候选意图；

第六处理装置(53)：将所述第一候选意图以及第二候选意图的意图集按照TF-IDF算法进行评分，按评分从高到低排序，将前S_min个意图所形成的意图集作为最终候选意图集。