CN113239688B

CN113239688B - 一种条件实体提取方法

Info

Publication number: CN113239688B
Application number: CN202110562087.1A
Authority: CN
Inventors: 王丙栋; 游世学; 朱江平
Original assignee: Beijing Zhongke Huilian Technology Co ltd
Current assignee: Beijing Zhongke Huilian Technology Co ltd
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2022-04-08
Anticipated expiration: 2041-05-24
Also published as: CN113239688A

Abstract

本发明提供了一种条件实体提取方法，接收待提取实体的文本及其人机交互上下文语境信息，从接收到的文本中提取实体词，并标注实体类型，对提取到的实体词，根据其所在的文本判断语境约束条件，识别实体用途，对实体用途未确定的实体词，根据其人机交互上下文语境信息判断语境约束条件，识别实体用途，封装实体词及其实体类型及实体用途，得到条件实体。本发明提供的条件实体提取方法，能够提取条件实体，从而得到实体类型和实体用途信息，能够显著提高自然语言理解词槽填充、智能填单表单项填充的准确率，尤其适用于需要同时提取多个相同实体类型不同实体用途的实体词的应用场景。

Description

一种条件实体提取方法

技术领域

本发明涉及文本提取技术领域，特别是涉及一种条件实体提取方法。

背景技术

计算机自然语言处理中的实体提取技术广泛应用于人机对话、智能填单、信息抽取等***中。目前的实体提取技术，包括深度学习模型序列标注方法、词库匹配方法、正则表达式规则匹配方法，主要用于从给定文本中找出实体词及出现位置，并标注实体类型，而欠缺识别实体用途的能力。例如在人机对话订票场景中，在某一轮用户回复的是“北京”，现有的实体提取技术很容易找出实体词“北京”，并确定实体类型是“城市”，至于“北京”是“出发城市”还是“目的城市”，缺少有效的技术手段来进行识别。因此，设计一种条件实体提取方法是十分有必要的。

发明内容

本发明的目的是提供一种条件实体提取方法，能够提取条件实体，从而得到实体类型和实体用途信息，能够显著提高自然语言理解词槽填充、智能填单表单项填充的准确率，尤其适用于需要同时提取多个相同实体类型不同实体用途的实体词的应用场景。

为实现上述目的，本发明提供了如下方案：

一种条件实体提取方法，应用于条件实体提取***，所述***包括条件实体提取模块及条件实体管理配置模块，所述条件实体提取模块用于提取实体词、标注实体类型及判定实体用途，所述条件实体管理配置模块，用于实现实体类型的维护管理、实体类型的实体用途的维护管理及实体用途的判定规则的配置；

所述方法包括如下步骤：

步骤1：接收待提取实体的文本及其人机交互上下文语境信息；

步骤2：从步骤1接收到的文本中提取实体词，并标注实体类型；

步骤3：对步骤2中提取到的实体词，根据其所在的文本判断语境约束条件，识别实体用途；

步骤4：对实体用途未确定的实体词，根据其人机交互上下文语境信息判断语境约束条件，识别实体用途；

步骤5：封装实体词及其实体类型及实体用途，得到条件实体。

可选的，步骤1中，接收待提取实体的文本及其人机交互上下文语境信息，具体为：

根据用户的输入信息，生成待提取实体的文本及其人机交互上下文语境信息，其中，将优先级别高的***所需实体词排在前面，在后续的人机交互过程中，循环接收用户的输入信息，实时更新待提取实体的文本及其人机交互上下文语境信息，并调整***所需实体词的优先级，将优先级别高的***所需实体词排在前面。

可选的，步骤2中，从步骤1接收到的文本中提取实体词，并标注实体类型，具体为：

通过深度学习模型序列标注方法、词库匹配方法及规则匹配方法从接收到的文本中提取实体词，并标注实体类型。

可选的，步骤3中，对步骤2中提取到的实体词，根据其所在的文本判断语境约束条件，识别实体用途，具体包括如下步骤：

S301：获取步骤2中提取得到的实体词及其实体类型、位置和所在的文本；

S302：根据实体类型获取实体词的候选实体用途，并获取候选实体用途的判定规则；

S303：判断实体词在所在文本中是否满足候选实体用途的判定规则，若满足规则，则设置实体词的实体用途为当前候选实体用途。

可选的，步骤4中，对实体用途未确定的实体词，根据其上下文语境信息判断语境约束条件，识别实体用途，具体包括如下步骤：

S401：获取步骤3中未能确定实体用途的实体词及其实体类型、位置和人机交互上下文语境信息；

S402：从人机交互上下文语境信息中获取***当前所需实体词的实体类型和实体用途；

S403：判断未能确定实体用途的实体词的实体类型是否存在于***当前所需实体词的实体类型中，若存在，则设置实体词的实体用途为***当前所需实体词的实体类型对应的第一个实体用途。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明提供的条件实体提取方法，与现有的实体提取方法相比，能够得到实体类型及实体用途信息，能够显著提高自然语言理解词槽填充、智能填单表单项填充的准确率，尤其适用于需要同时提取多个相同实体类型不同实体用途的实体词的应用场景；该方法应用于一种条件实体提取***，该***包括条件实体提取模块及条件实体管理配置模块，所述条件实体提取模块用于提取实体词、标注实体类型、通过判定规则及人机交互上下文语境信息判定实体用途，所述条件实体管理配置模块用于实现实体类型的维护管理、实体类型的实体用途的维护管理及实体用途的判定规则的配置；该方法在提取实体词并确定实体类型之外，从实体词所在的语境中，判断语境约束条件，识别实体用途，其中，通过对判定规则对提取得到的实体词进行判定，识别实体用途，通过人机交互上下文语境信息对使用判定规则不能识别实体用途的实体词进行判定，识别实体用途，最后将封装实体词及其实体类型和实体用途，得到条件实体，该条件实体同时具备实体类型和实体用途信息，能够显著提高自然语言理解词槽填充、智能填单表单项填充的准确率，尤其适用于需要同时提取多个相同实体类型不同实体用途的实体词的应用场景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例条件实体提取方法流程示意图；

图2为利用判定规则识别实体用途的方法流程示意图；

图3为利用人机交互上下文语境信息识别实体用途的方法流程示意图；

图4为以订票为例的条件实体提取示意图；

图5为条件实体提取***结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1-5所示，本发明实施例提供的条件实体提取方法，应用于条件实体提取***，如图5所示，所述***包括条件实体提取模块及条件实体管理配置模块，所述条件实体提取模块用于提取实体词、标注实体类型及通过判定规则及人机交互上下文语境信息判定实体用途，所述条件实体管理配置模块，用于实现实体类型的维护管理、实体类型的实体用途的维护管理及实体用途的判定规则的配置，能够为条件实体提取模块提供实体类型、实体类型与实体用途的关系及实体用途的判定规则；

如图1所示，所述方法包括如下步骤：

其中，步骤1中，接收待提取实体的文本及其人机交互上下文语境信息，具体为：

步骤2中，从步骤1接收到的文本中提取实体词，并标注实体类型，具体为：

步骤3中，对步骤2中提取到的实体词，根据其所在的文本判断语境约束条件，识别实体用途，如图2所示，具体包括如下步骤：

步骤4中，对实体用途未确定的实体词，根据其上下文语境信息判断语境约束条件，识别实体用途，如图3所示，具体包括如下步骤：

如图4所示，以订票为实施例，说明上述方法，用户输入“我要订票”之后，***识别订票意图，生成当前上下文语境信息，包括所需的实体类型为“城市”及实体用途为“目的城市”的实体、实体类型为“城市”及实体用途为“出发城市”的实体、实体类型为“时间”及实体用途为“出发时间”的实体，其中优先级高的***所需实体词排在前面，在后续的人机交互过程中，循环接收用户输入并更新上下文语境信息，调整***所需实体词的优先级；

通过深度学习模型序列标注方法、词库匹配方法、规则匹配方法提取并标注实体词，当用户输入“我从北京出发”后，***提取实体类型“城市”的实体词“北京”，当用户输入“上海”后，***提取实体类型“城市”的实体词“上海”，当用户输入“明天”后，***提取实体类型“时间”的实体词“明天”；

对于提取到的实体词及其实体类型，根据实体类型获取实体词的候选实体用途，并获取候选实体用途的判定规则，然后判断实体词在所在文本中是否满足候选实体用途的判定规则，如果满足，则设置实体词的实体用途为当前候选实体用途，***接收用户输入“我从北京出发”提取到实体类型“城市”的实体词“北京”后，根据实体用途“出发城市”的规则“从(@城市)(出发|走)”，替换规则中的实体类型表达式“@城市”为“北京”得到正则表达式“从(北京)(出发|走)”，命中用户输入文本中的片段“从北京出发”，识别“北京”的实体用途为“出发城市”；

对于提取到的实体用途未确定的实体词，从人机交互上下文语境信息中获取***当前所需实体词的实体类型和实体用途，判断实体词的实体类型是否存在于***当前所需的实体类型中，如果存在于，则设置实体词的实体用途为所需实体类型对应的第一个实体用途，***接收用户输入“上海”提取到实体类型“城市”的实体词“上海”后，从上下文语境信息中，获取***当前所需实体词的实体类型“城市”以及对应的第一个实体用途“目的城市”，设置“上海”的实体用途为“目的城市”；

封装实体词及其实体类型和实体用途信息，得到条件实体，经过多轮人机交互之后，***从用户输入的“我从北京出发”、“上海”、“明天”文本中，提取到条件实体“北京”及其实体类型“城市”和实体用途“出发城市”、条件实体“上海”及其实体类型“城市”和实体用途“目的城市”、条件实体“明天”及其实体类型“时间”和实体用途“出发时间”。

本发明提供的条件实体提取方法，与现有的实体提取方法相比，能够得到实体类型及实体用途信息，能够显著提高自然语言理解词槽填充、智能填单表单项填充的准确率，尤其适用于需要同时提取多个相同实体类型不同实体用途的实体词的应用场景；该方法应用于一种条件实体提取***，该***包括条件实体提取模块及条件实体管理配置模块，所述条件实体提取模块用于提取实体词、标注实体类型、通过判定规则及人机交互上下文语境信息判定实体用途，所述条件实体管理配置模块用于实现实体类型的维护管理、实体类型的实体用途的维护管理及实体用途的判定规则的配置；该方法在提取实体词并确定实体类型之外，从实体词所在的语境中，判断语境约束条件，识别实体用途，其中，通过对判定规则对提取得到的实体词进行判定，识别实体用途，通过人机交互上下文语境信息对使用判定规则不能识别实体用途的实体词进行判定，识别实体用途，最后将封装实体词及其实体类型和实体用途，得到条件实体，该条件实体同时具备实体类型和实体用途信息，能够显著提高自然语言理解词槽填充、智能填单表单项填充的准确率，尤其适用于需要同时提取多个相同实体类型不同实体用途的实体词的应用场景。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种条件实体提取方法，其特征在于，应用于条件实体提取***，所述***包括条件实体提取模块及条件实体管理配置模块，所述条件实体提取模块用于提取实体词、标注实体类型及判定实体用途，所述条件实体管理配置模块，用于实现实体类型的维护管理、实体类型的实体用途的维护管理及实体用途的判定规则的配置；

所述方法包括如下步骤：

步骤4：对实体用途未确定的实体词，根据其人机交互上下文语境信息判断语境约束条件，识别实体用途，具体包括如下步骤：

S403：判断未能确定实体用途的实体词的实体类型是否存在于***当前所需实体词的实体类型中，若存在于，则设置实体词的实体用途为***当前所需实体词的实体类型对应的第一个实体用途，其中，第一个实体用途指***当前所需实体词的实体用途；

2.根据权利要求1所述的条件实体提取方法，其特征在于，步骤1中，接收待提取实体的文本及其人机交互上下文语境信息，具体为：

根据用户的输入信息，生成待提取实体的文本及其人机交互上下文语境信息，其中，将优先级别高的***所需实体排在前面，在后续的人机交互过程中，循环接收用户的输入信息，实时更新待提取实体的文本及其人机交互上下文语境信息，并调整***所需的优先级，将优先级别高的***所需实体排在前面。

3.根据权利要求1所述的条件实体提取方法，其特征在于，步骤2中，从步骤1接收到的文本中提取实体词，并标注实体类型，具体为：

4.根据权利要求3所述的条件实体提取方法，其特征在于，步骤3中，对步骤2中提取到的实体词，根据其所在的文本判断语境约束条件，识别实体用途，具体包括如下步骤：