CN116956068A

CN116956068A - 基于规则引擎的意图识别方法、装置、电子设备及介质

Info

Publication number: CN116956068A
Application number: CN202310931861.0A
Authority: CN
Inventors: 田晓姣
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2023-07-26
Filing date: 2023-07-26
Publication date: 2023-10-27

Abstract

本申请实施例提供了基于规则引擎的意图识别方法、装置、电子设备及介质，属于金融科技技术领域。该方法包括：对于规则引擎中每个匹配模板，对匹配模板进行优先级设置，得到与匹配模板对应的优先值；根据优先值对多个匹配模板进行优先级排序，得到优先级序列；获取用户的语料信息，并将语料信息输入规则引擎进行语料匹配；当语料信息与规则引擎中的至少两个匹配模板匹配，根据优先级序列对与语料信息对应的匹配模板进行筛选，确定目标匹配模板；将语料信息输入目标匹配模板进行意图识别，输出与语料信息对应的目标信息。本申请实施例能够在用户同时命中多个意图的情况下提高意图识别的准确性。

Description

基于规则引擎的意图识别方法、装置、电子设备及介质

技术领域

本申请涉及金融科技技术领域，尤其涉及一种基于规则引擎的意图识别方法、装置、电子设备及介质。

背景技术

意图识别是人工智能在分类识别领域最重要的分支之一，广泛应用于智能对话机器人、智能客户分析运营等多个业务领域。例如，保险场景下的产品推广、客户服务、营销活动推广、投资和交易意见、客户交流等等。现有业内或产品的意图识别一般都是通过多种类型的AI模型组合工作来合作完成的，传统方式整个过程的实现首先需要技术人员根据业务和算法的要求从生产环境捞取大量的客户和机器人对话的录音。然后是人工数据标注，即专业的数据标注人员通过逐一听取通话录音的方式，识别出客户说话的语音内容和情绪去和各个分类意图进行匹配标注。例如，标注客户想要了解的养老保险、汽车保险或者育儿保险等等，最后，为保证规则引擎的识别效果，对于每一种意图分类都需要积累一定数量的生产客户话术实例。

然而，传统方法不仅需要耗费大量时间和人力资源来完成提取、标注和统计数据的工作，工作效率低且不能百分之百保证对意图识别效果提升的作用，并且在用户意图了解多个理财产品或者投资产品的过程中，不能准确的判断出用户的多个意图，从而导致意图识别结果不准确，效率低下。

发明内容

本申请实施例的主要目的在于提出一种基于规则引擎的意图识别方法、装置、电子设备及介质，能够在用户同时命中多个意图的情况下提高意图识别的准确性。

为实现上述目的，本申请实施例的第一方面提出了一种基于规则引擎的意图识别方法，所述规则引擎包括多个匹配模板，所述方法包括：

对于所述规则引擎中每个所述匹配模板，对所述匹配模板进行优先级设置，得到与所述匹配模板对应的优先值，其中，任意两个所述匹配模板中的语料不完全相同；

根据所述优先值对多个所述匹配模板进行优先级排序，得到优先级序列；

获取用户的语料信息，并将所述语料信息输入所述规则引擎进行语料匹配；

当所述语料信息与所述规则引擎中的至少两个所述匹配模板匹配，根据所述优先级序列对与所述语料信息对应的所述匹配模板进行筛选，确定目标匹配模板；

将所述语料信息输入所述目标匹配模板进行意图识别，输出与所述语料信息对应的目标信息。

在一些实施例，在所述将所述语料信息输入所述规则引擎进行语料匹配之后，还包括：

当所述语料信息与所有所述匹配模板不匹配，将所述语料信息输入预设的召回模型进行意图识别，得到意图召回信息；

对所述意图召回信息与所述语料信息进行相似度计算，得到第一相似度分值；

当确定所述第一相似度分值大于等于预设的第一阈值，选择与所述第一相似度分值对应的意图召回信息作为第一意图信息。

在一些实施例，在所述对所述意图召回信息与所述语料信息进行相似度计算，得到第一相似度分值之后，还包括：

当确定所述第一相似度分值小于所述第一阈值，将所述语料信息输入预设的兜底模型进行意图识别，得到多个意图兜底信息；

将所有所述意图兜底信息与所述语料信息进行相似度计算，得到第二相似度分值；

当所述第二相似度分值大于等于预设的第二阈值，对与所述第二相似度分值对应的多个意图兜底信息进行降序排序，得到降序序列；

根据所述降序序列确定与所述语料信息对应的第二意图信息。

在一些实施例，在所述将所有所述意图兜底信息与所述语料信息进行相似度计算，得到第二相似度分值之后，还包括：

当所述第二相似度分值小于所述第二阈值，生成识别错误信息。

在一些实施例，所述目标匹配模板包括预配置的语料匹配模板、人工模板、日志自动提取模板以及语料自动提取模板；所述将所述语料信息输入所述目标匹配模板进行意图识别，输出与所述语料信息对应的目标信息，包括：

在所述目标匹配模板为所述语料匹配模板的情况下，将所述语料信息与所述语料匹配模板中预标注的训练语料进行匹配，选择与所述语料信息对应的训练语料作为目标信息；

在所述目标匹配模板为所述人工模板的情况下，将所述语料信息与所述人工模板中预定义的特定语料进行匹配，选择与所述语料信息对应的特定语料作为目标信息；

在所述目标匹配模板为所述日志自动提取模板的情况下，将所述语料信息输入预设的反向意图识别模型进行相似度计算，输出与所述语料信息对应的目标信息；

在所述目标匹配模板为所述语料自动提取模板的情况下，将所述语料信息输入所述语料自动提取模板进行语料提取，得到提取信息，并将所述提取信息与预设的模板语料进行匹配，选择与所述语料信息对应的模板语料作为目标信息。

在一些实施例，所述将所述语料信息输入预设的反向意图识别模型进行相似度计算，输出与所述语料信息对应的目标信息，包括：

将所述语料信息输入所述反向意图识别模型，以使所述反向意图识别模型对所述语料信息进行日志挖掘，得到日志挖掘语料；

计算所述日志挖掘语料与预设的日志语料集合的相似度，得到第三相似度分值；

当所述第三相似度分值大于等于第三阈值，根据所述日志挖掘语料生成多个目标日志语料；

对所有所述目标日志语料进行词频统计，得到所述目标信息。

在一些实施例，所述对所有所述目标日志语料进行词频统计，得到所述目标信息，包括：

对所有所述目标日志语料进行分词处理，得到多个日志关键词；

对多个所述日志关键词进行词频概率计算，得到与所述日志关键词对应的出现概率；

对多个所述出现概率进行降序排序，得到日志序列；

根据预设的提取规则对所述日志序列进行日志筛选，得到所述目标信息。

为实现上述目的，本申请实施例的第二方面提出了一种基于规则引擎的意图识别装置，所述规则引擎包括多个匹配模板，所述装置包括：

优先级设置模块，用于对于所述规则引擎中每个所述匹配模板，对所述匹配模板进行优先级设置，得到与所述匹配模板对应的优先值，其中，任意两个所述匹配模板中的语料不完全相同；

优先级排序模块，用于根据所述优先值对多个所述匹配模板进行优先级排序，得到优先级序列；

语料匹配模块，用于获取用户的语料信息，并将所述语料信息输入所述规则引擎进行语料匹配；

模板筛选模块，用于当所述语料信息与所述规则引擎中的至少两个所述匹配模板匹配，根据所述优先级序列对与所述语料信息对应的所述匹配模板进行筛选，确定目标匹配模板；

意图识别模块，用于将所述语料信息输入所述目标匹配模板进行意图识别，输出与所述语料信息对应的目标信息。

为实现上述目的，本申请实施例的第三方面提出了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的基于规则引擎的意图识别方法。

为实现上述目的，本申请实施例的第四方面提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的基于规则引擎的意图识别方法。

本申请提出的基于规则引擎的意图识别方法、装置、电子设备及存储介质,首先，对规则引擎中的所有匹配模板进行优先级设置，得到每个匹配模板的优先级序列，再获取用户的语料信息，将语料信息输入规则引擎进行模板匹配，确定与语料信息对应的匹配模板，实现对语料信息的初步匹配，在语料信息与规则引擎中的至少两个匹配模板匹配的情况下，根据优先级序列对与语料信息对应的匹配模板进行筛选，输出优先级最高的目标匹配模板，从而能够在用户同时命中多个意图的情况下提高意图识别的准确性，最后，将语料信息输入目标匹配模板进行意图识别，输出与语料信息对应的目标信息，从而提高意图识别的效率以及准确率。

附图说明

图1是本申请实施例提供的基于规则引擎的意图识别方法的流程图；

图2是本申请实施例提供的基于规则引擎的意图识别方法的另一流程图；

图3是本申请实施例提供的基于规则引擎的意图识别方法的另一流程图；

图4是本申请实施例提供的基于规则引擎的意图识别方法的另一流程图；

图5是图1中的步骤S105的流程图；

图6是图5中的步骤S504的流程图；

图7是本申请实施例提供的基于规则引擎的意图识别装置的结构示意图；

图8是本申请实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

首先，对本申请中涉及的若干名词进行解析：

自然语言处理(Natural Language Processing，NLP)：NLP用计算机来处理、理解以及运用人类语言(如中文、英文等)，NLP属于人工智能的一个分支，是计算机科学与语言学的交叉学科，又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息意图识别、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域，它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。

倒排索引召回模型(Elastic Search Recall，ES)：ES召回模型利用倒排索引技术来处理大规模文本数据，倒排索引召回模型通过建立文档和词语之间的关系来快速检索相关文档，它的作用是在大规模文本数据中进行高效的信息检索和召回。在搜索引擎、推荐***、问答***等应用中广泛使用。

多源语义召回模型(Multi-Source Semantic Retrieval Model)：这里所谓的多源语义召回，是指融合多个场景信息，比如引入图像的多模语义召回，引入只是图谱的图语义召回等。这些场景信息相当于为模型提供辅助信息，在一些query输入比较短语义不明确的场景中(比如搜索领域的sug)辅助信息尤为重要，因为能够提供更丰富的输入表达。比如，在电商领域，对图片进行映射表达为向量；在地图领域，对用户的地理位置进行表达作用用户的输入；在美食领域，对用户的搜索历史构建只是图谱，作为用户的输入，能够达到千人千面的召回效果。

增强的顺序推理模型(Enhanced Sequential Inference Model，ESIM)：ESIM模型是一种基于深度学习的自然语言处理模型，主要用于文本匹配任务。它通过利用LSTM(LongShort-Term Memory，长短期记忆网络)神经网络学习文本语义信息，并使用注意力机制对文本进行对齐，最终输出文本间的匹配得分。

作为一个通用的文本匹配模型，ESIM模型可以应用于多种自然语言处理任务，如文本分类、句子相似度计算、问答***等。

基于此，本申请实施例提供了一种基于规则引擎的意图识别方法和装置、电子设备及存储介质，能够在用户同时命中多个意图的情况下提高意图识别的准确性。

本申请实施例提供的基于规则引擎的意图识别方法和装置、电子设备及存储介质，具体通过如下实施例进行说明，首先描述本申请实施例中的基于规则引擎的意图识别方法。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、线上会客***的模块管理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的基于规则引擎的意图识别方法，涉及数据处理技术领域。本申请实施例提供的基于规则引擎的意图识别方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式***，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现基于规则引擎的意图识别方法的应用等，但并不局限于以上形式。

本申请可用于众多通用或专用的计算机***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

需要说明的是，在本申请的各个具体实施方式中，当涉及到需要根据用户信息、用户行为数据，用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时，都会先获得用户的许可或者同意，而且，对这些数据的收集、使用和处理等，都会遵守相关国家和地区的相关法律法规和标准。此外，当本申请实施例需要获取用户的敏感个人信息时，会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意，在明确获得用户的单独许可或者单独同意之后，再获取用于使本申请实施例能够正常运行的必要的用户相关数据。

然而，传统方法不仅需要耗费大量时间和人力资源来完成提取、标注和统计数据的工作，例如，传统方式整个过程的实现首先需要技术人员根据业务和算法的要求从生产环境捞取大量的客户和机器人对话的录音。此处的“要求”，即过滤条件，如通话轮次(注：机器人连续地说/问一段话和客户的应答，这样的“一问一答”就构成了一轮对话)、客户应答时长、通话结束节点等。此步骤一般需要3人，包括业务1人、算法1人、数据/后台开发1人。

然后是人工数据标注，即专业的数据标注人员通过逐一听取通话录音的方式，识别出客户说话的语音内容和情绪去和各个分类意图进行匹配标注。例如，客户想要养老保险、汽车保险等等，此步骤对于一个熟练的数据标注人员来说，工作量约为50通录音/人日。

最后，为保证规则引擎的识别效果，对于每一种意图分类都需要积累一定数量的生产客户话术实例，一般至少需要2000条/意图分类。当然，客户话术实例数量越多，覆盖的客户话术的表达方式就越广，规则引擎能够命中的客户应答占比就会越高。

然而，现实的情况却是生产环境中80％以上的客户应答都集中在不到20％的主要意图上，导致其它80％的意图分类可能由于客户话术实例数据严重不足而评估得到的意图识别准确率表现很差。从以上分析不难发现，传统方法不仅需要耗费大量时间和人力资源来完成提取、标注和统计数据的工作，工作效率低且不能百分之百保证对意图识别效果提升的作用，并且在用户意图了解多个理财产品或者投资产品的过程中，不能准确的判断出用户的多个意图，从而导致意图识别结果不准确，效率低下。

为了解决上述问题，本实施例提供了基于规则引擎的意图识别方法、装置、电子设备及存储介质,首先，对规则引擎中的所有匹配模板进行优先级设置，得到每个匹配模板的优先级序列，再获取用户的语料信息，将语料信息输入规则引擎进行模板匹配，确定与语料信息对应的匹配模板，实现对语料信息的初步匹配，在语料信息与规则引擎中的至少两个匹配模板匹配的情况下，根据优先级序列对与语料信息对应的匹配模板进行筛选，输出优先级最高的目标匹配模板，从而能够在用户同时命中多个意图的情况下提高意图识别的准确性，最后，将语料信息输入目标匹配模板进行意图识别，输出与语料信息对应的目标信息，从而提高意图识别的效率以及准确率。

下面结合附图进行具体说明。

图1是本申请实施例提供的基于规则引擎的意图识别方法的一个可选的流程图，图1中的方法可以包括但不限于包括步骤S101至步骤S105。

需要说明的是，规则引擎包括多个匹配模板。

步骤S101，对于规则引擎中每个匹配模板，对匹配模板进行优先级设置，得到与匹配模板对应的优先值；

需要说明的是，任意两个匹配模板中的语料不完全相同。

在一些实施例的步骤S101中，规则引擎包括多个匹配模板，并且任意两个匹配模板中的至少一部分语料来源不同，因此每个匹配模板中都携带有各自的关键字，首先，本实施例对规则引擎中的每个匹配模板进行优先级设置，得到与每个匹配模板对应的优先值，其中，每个匹配模板的优先值均不相同。

可以理解的是，不同的匹配模板中的关键字有多个，并且每个匹配模板中至少有一个关键字唯一，例如，A模板的关键字为养老保险、保险讲座、理财培训；B模板的关键字为汽车保险、市场分析；C模板的关键字为理财培训、工资计算；D模板的关键字为退休金、社保、公积金等等，本实施例不做具体限制。

步骤S102，根据优先值对多个匹配模板进行优先级排序，得到优先级序列；

在一些实施例的步骤S102中，根据步骤S101得到的多个优先值对匹配模板进行优先级排序，例如，递增排序或者递减排序，得到优先级序列，从而便于后续在命中多个意图的情况下，对匹配模板进行选择。

步骤S103，获取用户的语料信息，并将语料信息输入规则引擎进行语料匹配；

在一些实施例的步骤S103中，获取用户的语料信息，其中，用户的语料信息携带有用户的意图关键字，并且规则引擎中的每个匹配模板均设置有模板关键字，将语料信息输入规则引擎，使得规则引擎对语料信息中的意图关键字进行提取，之后将意图关键字与规则引擎中的所有模板关键字进行匹配，从而完成对语料信息的语料匹配，准确判断语料信息的语料类别，提高对语料信息预测的准确性。

需要说明的是，利用规则引擎进行语料匹配的原理是根据正则表达式的规则配置各种常见的客户话术模板，例如，“如何选择养老保险？”、“理财产品的金融风险？”，从而通过正则查找函数以匹配到对应的意图分类上，即，规则引擎的匹配模板上。因此，该方式的意图识别准确率可以达到100％。

步骤S104，当语料信息与规则引擎中的至少两个匹配模板匹配，根据优先级序列对与语料信息对应的匹配模板进行筛选，确定目标匹配模板；

在一些实施例的步骤S104中，当语料信息与规则引擎中的至少两个匹配模板匹配，则说明语料信息命中多个规则引擎中的匹配模板，根据优先级序列对与语料信息对应的匹配模板进行筛选，选择优先值最大的匹配模板作为目标匹配模板，输出与最高优先值对应的意图分类，能够在用户同时命中多个意图的情况下提高意图识别的准确性，从而实现规则引擎的自主优化。

步骤S105，将语料信息输入目标匹配模板进行意图识别，输出与语料信息对应的目标信息。

在一些实施例的步骤S105中，将语料信息输入确定好的目标匹配模板，使得目标匹配模板对语料信息进行自动过滤和解析，输出与语料信息对应的目标信息，从而提高意图识别效果。

请参阅图2，图2是本申请实施例提供的基于规则引擎的意图识别方法的另一个可选的流程图，图2中的方法可以包括但不限于包括步骤S201至步骤S203。

步骤S201，当语料信息与所有匹配模板不匹配，将语料信息输入预设的召回模型进行意图识别，得到意图召回信息；

在一些实施例的步骤S201中，当语料信息与所有匹配模板不匹配，则说明语料信息没有命中任何一个匹配模板，需要将语料信息输入预设的召回模型进行意图识别，得到意图召回信息，从而实现对语料信息的多重判断，提高待遇语料信息匹配的准确性。

需要说明的是，预设的召回模型可以为倒排索引召回(Elastic Search Recall，ES)模型、多源语义召回模型等等，本实施例不做具体限制。

步骤S202，对意图召回信息与语料信息进行相似度计算，得到第一相似度分值；

在一些实施例的步骤S202中，对意图召回信息与语料信息进行相似度计算，得到多个相似度分值，对多个相似度分值进行排序，选取其中相似度分值最大的分值作为第一相似度分值，以提高对语料信息识别的准确性。

需要说明的是，在对语料信息进行相似度计算的过程中，通过采用TF-IDF加权算法来计算查询语句的相似度，具体过程如下：

第一步，对于语料信息中的每个词，计算它在意图召回信息中的词频(TermFrequency，TF)，即该词在语料信息中出现的次数；

第二步，计算逆文档频率(Inverse Document Frequency，IDF)，表示该词在整个文档集合中的重要性。IDF越大，表示该词越重要。IDF的计算公式为log(N/n)，其中N为文档总数，n为包含该词的文档数；

第三步，将TF和IDF相乘，得到该词的TF-IDF值；

第四步，对于整个语料信息，将各个词的TF-IDF值加权求和，得到语料信息的向量表示；

第五步，计算语料信息向量与每个意图召回信息的余弦相似度，得到相似度排名。

步骤S203，当确定第一相似度分值大于等于预设的第一阈值，选择与第一相似度分值对应的意图召回信息作为第一意图信息。

在一些实施例的步骤S203中，当确定第一相似度分值大于等于预设的第一阈值，则说明语料信息命中了召回模型中的意图，可以直接选择与第一相似度分值对应的意图召回信息作为第一意图信息，从而提高意图识别的效率。

请参阅图3，图3是本申请实施例提供的基于规则引擎的意图识别方法的另一个可选的流程图，图3中的方法可以包括但不限于包括步骤S301至步骤S304。

步骤S301，当确定第一相似度分值小于第一阈值，将语料信息输入预设的兜底模型进行意图识别，得到多个意图兜底信息；

在一些实施例的步骤S301中，当确定第一相似度分值小于第一阈值，则说明语料信息没有命中召回模型中的意图，需要将语料信息输入兜底模型进行意图识别，得到多个意图兜底信息，其中，本实施例中的兜底模型为fastText兜底模型，用于在ES召回模型无法找到相应文档时，使用fastText模型进行兜底处理，以尽可能返回与语料信息相关的文档。

步骤S302，将所有意图兜底信息与语料信息进行相似度计算，得到第二相似度分值；

在一些实施例的步骤S302中，将所有意图兜底信息与语料信息进行相似度计算，得到多个相似度分值，对多个相似度分值进行排序，选取其中相似度分值最大的分值作为第二相似度分值，以提高对语料信息识别的准确性。

需要说明的是，由于fastText兜底模型通常不适用于长文本匹配，在意图兜底信息与语料信息进行相似度计算的过程中，需要先将语料信息进行语义分割，再进行后续的相似度计算，其中，相似度计算的过程中步骤S202中的实施例一致，本实施例对此不再赘述。

步骤S303，当第二相似度分值大于等于预设的第二阈值，对与第二相似度分值对应的多个意图兜底信息进行降序排序，得到降序序列；

在一些实施例的步骤S303中，当第二相似度分值大于等于预设的第二阈值，则说明语料信息命中了兜底模型中的意图，还需要对与第二相似度分值对应的多个意图兜底信息进行降序排序，得到降序序列，从而能够反映意图兜底信息识别的情况，从整体提高对语料信息识别的准确性。

步骤S304，根据降序序列确定与语料信息对应的第二意图信息。

在一些实施例的步骤S304中，选取降序序列中序列头部的第二相似度分值，将该第二相似度分值对应的意图兜底信息作为与语料信息对应的第二意图信息，通过将意图兜底信息与语料信息进行相似度计算、对第二相似度分值进行排序等操作流程，实现对语料信息的精准识别，从整体提高对语料信息识别的准确性。

请参阅图4，图4是本申请实施例提供的基于规则引擎的意图识别方法的另一个可选的流程图，图4中的方法可以包括但不限于包括步骤S401。

步骤S401，当第二相似度分值小于第二阈值，生成识别错误信息。

在一些实施例的步骤S401中，当第二相似度分值小于第二阈值，说明语料信息没有命中兜底模型中的意图，则直接向用户返回生成的识别错误信息，以便于用户后续的操作。

需要说明的是，识别错误信息可以为错误页面、错误文本等等，本实施例不做具体限制。

需要说明的是，NLP意图识别准确率＝规则引擎识别准确率*其命中占比+ES召回模型识别准确率*其命中占比+fasttext兜底模型识别准确率*其命中占比+无法识别情况即0％*其命中占比，其中，各分支的命中占比之和为100％，如果规则引擎命中占比提升，意味着其它分支的占比就会有所下降。也就是说，100％准确识别的命中占比会增加，其余部分即ES召回+fasttext兜底+无法识别情况的命中占比会减少，本实施例在规则引擎中配置多个匹配模板，从而提高了规则引擎识别准确率在公式中的占比，保证了整个NLP模块的意图识别准确率的提升效果。

在一些实施例中，目标匹配模板包括预配置的语料匹配模板、人工模板、日志自动提取模板以及语料自动提取模板，其中，语料匹配模板为严格配置的完全正则匹配模板，包括预标注的训练语料，预标注的训练语料可以来源于人工数据标注的模型训练集语料；

人工模板来源于手动挖掘生产日志，包括预定义的特定语料，其中，预定义的特定语料来自于业务人员和技术人员编制的特定语料，例如，养老保险、汽车保险、公积金等等；

日志自动提取模板来源于定时脚本自动挖掘生产日志，包括反向意识识别模型，通过反向意图识别模型来计算日志挖掘语料和已有语料的相似度；

语料自动提取模板来源于定时脚本自动挖掘生产语料，包括预设的模板语料，其中，模板语料来自于从外网开放的公共语料爬取而来，本实施例不做具体限制。

需要说明的是，本实施例对四个模板的优先级序列可以根据使用者的需要自行设置，例如，输出优先级从高到低依次为语料匹配模板、人工模板、日志自动提取模板以及语料自动提取模板；或者输出优先级从高到低依次为语料匹配模板、日志自动提取模板、人工模板以及语料自动提取模板，具体的优先级序列本实施例不做具体限制。

在一些实施例中，将语料信息输入目标匹配模板进行意图识别，输出与语料信息对应的目标信息，包括：

在目标匹配模板为语料匹配模板的情况下，直接将语料信息与语料匹配模板中预标注的训练语料进行匹配，选择与语料信息对应的训练语料作为目标信息，此时语料信息与预标注的训练语料完全匹配。

在目标匹配模板为人工模板的情况下，将语料信息与人工模板中预定义的特定语料进行匹配，选择与语料信息对应的特定语料作为目标信息；

在目标匹配模板为日志自动提取模板的情况下，将语料信息输入预设的反向意图识别模型进行相似度计算，计算日志挖掘语料和已有语料的相似度，输出与语料信息对应的目标信息；

在目标匹配模板为语料自动提取模板的情况下，将语料信息输入语料自动提取模板进行语料提取，得到提取信息，并将提取信息与预设的模板语料进行匹配，选择与语料信息对应的模板语料作为目标信息。

在一些实施例中，通过上述方法实现对语料信息的匹配，提高语料信息的匹配精度，从而提高对语料信息的识别效率，避免出现语料信息无法匹配的情况，并且利用大数据智能分析和机器学习技术实现生产数据(客户话术预料)的自动过滤、解析、分类和模板提取扩展等，建立规则引擎模板自我学习和成长的生态圈，极大地节省了时间和人力成本。

请参阅图5，在一些实施例中，步骤S105还可以包括但不限于包括步骤S501至步骤S504：

步骤S501，将语料信息输入反向意图识别模型，以使反向意图识别模型对语料信息进行日志挖掘，得到日志挖掘语料；

步骤S502，计算日志挖掘语料与预设的日志语料集合的相似度，得到第三相似度分值；

步骤S503，当第三相似度分值大于等于第三阈值，根据日志挖掘语料生成多个目标日志语料；

步骤S504，对所有目标日志语料进行词频统计，得到目标信息。

在一些实施例的步骤S501至步骤S504中，将语料信息输入反向意图识别模型，以使反向意图识别模型对语料信息进行日志挖掘，得到语料信息中的日志挖掘语料，之后计算日志挖掘语料与预设的日志语料集合的相似度，得到第三相似度分值，当第三相似度分值大于等于第三阈值，则直接根据日志挖掘语料生成多个目标日志语料，最后，对所有目标日志语料进行词频统计，得到与语料信息对应的目标信息，实现对语料信息的日志提取，提高对语料识别的准确性。

需要说明的是，在计算日志挖掘语料和日志语料集合相似度的过程中，通过使用ESIM可以计算出日志挖掘语料和日志语料集合中任一语料的相似度，其中，第三阈值是判断日志挖掘语料和日志语料集合相近程度的底线标准，如果ESIM模型计算得出的第三相似度分值大于等于第三阈值，即可加入到日志语料集合，因此，本实施例在第三相似度分值大于等于第三阈值的情况下，将日志挖掘语料添加至日志语料集合，从而实现对日志语料集合的更新，进一步实现对日志自动提取模板的更新。

请参阅图6，在一些实施例中，步骤S504还可以包括但不限于包括步骤S601至步骤S604：

步骤S601，对所有目标日志语料进行分词处理，得到多个日志关键词；

步骤S602，对多个日志关键词进行词频概率计算，得到与日志关键词对应的出现概率；

步骤S603，对多个出现概率进行降序排序，得到日志序列；

步骤S604，根据预设的提取规则对日志序列进行日志筛选，得到目标信息。

在一些实施例的步骤S601至步骤S604中，在对所有目标日志语料进行词频统计的过程中，首先对所有目标日志语料进行分词处理，将目标日志语料按照主、谓、宾的结构进行拆解，得到多个日志关键词，再对多个日志关键词进行词频概率计算，计算各个类型下不同的关键词的出现次数，并基于出现次数统计计算不同关键词的出现概率，最后，对多个出现概率进行降序排序，得到日志序列，根据预设的提取规则对日志序列进行日志筛选，得到目标信息，极大地节省了时间和人力成本。

需要说明的是，语料自动提取模板对语料的提取过程与步骤S501-步骤S504、步骤S601至步骤S604相同，本实施例在此不再赘述。

请参阅图7，本申请实施例还提供一种基于规则引擎的意图识别装置，装置包括：

优先级设置模块701，用于对于规则引擎中每个所述匹配模板，对匹配模板进行优先级设置，得到与匹配模板对应的优先值，其中，任意两个匹配模板中的语料不完全相同；

优先级排序模块702，用于根据优先值对多个匹配模板进行优先级排序，得到优先级序列；

语料匹配模块703，用于获取用户的语料信息，并将语料信息输入规则引擎进行语料匹配；

模板筛选模块704，用于当语料信息与规则引擎中的至少两个匹配模板匹配，根据优先级序列对与语料信息对应的匹配模板进行筛选，确定目标匹配模板；

意图识别模块705，用于将语料信息输入目标匹配模板进行意图识别，输出与语料信息对应的目标信息。

该基于规则引擎的意图识别装置的具体实施方式与上述基于规则引擎的意图识别方法的具体实施例基本相同，在此不再赘述。

本申请实施例还提供了一种电子设备，电子设备包括：存储器、处理器、存储在存储器上并可在处理器上运行的程序以及用于实现处理器和存储器之间的连接通信的数据总线，程序被处理器执行时实现上述基于规则引擎的意图识别方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。

请参阅图8，图8示意了另一实施例的电子设备的硬件结构，电子设备包括：

处理器901，可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application SpecificIntegrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案；

存储器902，可以采用只读存储器(Read Only Memory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory，RAM)等形式实现。存储器902可以存储操作***和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器902中，并由处理器901来调用执行本申请实施例的基于规则引擎的意图识别方法；

输入/输出接口903，用于实现信息输入及输出；

通信接口904，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

总线905，在设备的各个组件(例如处理器901、存储器902、输入/输出接口903和通信接口904)之间传输信息；

其中处理器901、存储器902、输入/输出接口903和通信接口904通过总线905实现彼此之间在设备内部的通信连接。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述基于规则引擎的意图识别方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例提供的基于规则引擎的意图识别方法、装置、电子设备及存储介质，首先，对规则引擎中的所有匹配模板进行优先级设置，得到每个匹配模板的优先级序列，再获取用户的语料信息，将语料信息输入规则引擎进行模板匹配，确定与语料信息对应的匹配模板，实现对语料信息的初步匹配，在语料信息与规则引擎中的至少两个匹配模板匹配的情况下，根据优先级序列对与语料信息对应的匹配模板进行筛选，输出优先级最高的目标匹配模板，从而能够在用户同时命中多个意图的情况下提高意图识别的准确性，最后，将语料信息输入目标匹配模板进行意图识别，输出与语料信息对应的目标信息，从而提高意图识别的效率以及准确率。

本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图1-6中示出的技术方案并不构成对本申请实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、***、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本申请实施例的优选实施例，并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本申请实施例的权利范围之内。

Claims

1.一种基于规则引擎的意图识别方法，其特征在于，所述规则引擎包括多个匹配模板，所述方法包括：

2.根据权利要求1所述的基于规则引擎的意图识别方法，其特征在于，在所述将所述语料信息输入所述规则引擎进行语料匹配之后，还包括：

3.根据权利要求2所述的基于规则引擎的意图识别方法，其特征在于，在所述对所述意图召回信息与所述语料信息进行相似度计算，得到第一相似度分值之后，还包括：

4.根据权利要求3所述的基于规则引擎的意图识别方法，其特征在于，在所述将所有所述意图兜底信息与所述语料信息进行相似度计算，得到第二相似度分值之后，还包括：

5.根据权利要求1所述的基于规则引擎的意图识别方法，其特征在于，所述目标匹配模板包括预配置的语料匹配模板、人工模板、日志自动提取模板以及语料自动提取模板；所述将所述语料信息输入所述目标匹配模板进行意图识别，输出与所述语料信息对应的目标信息，包括：

6.根据权利要求5所述的基于规则引擎的意图识别方法，其特征在于，所述将所述语料信息输入预设的反向意图识别模型进行相似度计算，输出与所述语料信息对应的目标信息，包括：

7.根据权利要求6所述的基于规则引擎的意图识别方法，其特征在于，所述对所有所述目标日志语料进行词频统计，得到所述目标信息，包括：

对多个所述出现概率进行降序排序，得到日志序列；

8.一种基于规则引擎的意图识别装置，其特征在于，所述规则引擎包括多个匹配模板，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的基于规则引擎的意图识别方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的基于规则引擎的意图识别方法。