WO2021051872A1

WO2021051872A1 - 实体识别方法、装置、设备及计算机可读存储介质

Info

Publication number: WO2021051872A1
Application number: PCT/CN2020/093481
Authority: WO
Inventors: 杨坤; 许开河; 王少军
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-09-18
Filing date: 2020-05-29
Publication date: 2021-03-25
Also published as: CN110750991A; CN110750991B

Abstract

一种实体识别方法、实体识别装置、设备和计算机可读存储介质，该方法包括：获取待识别语句，并将所述待识别语句分别输入至预设的实体识别模型和预设的匹配识别模型（S10）；获取所述实体识别模型基于所述待识别语句生成的第一实体识别结果，以及所述匹配识别模型基于所述待识别语句生成的第二实体识别结果（S20）；根据所述第一实体识别结果和所述第二实体识别结果，确定所述待识别语句的目标实体识别结果（S30）。该方法避免了实体识别模型的识别结果存在不准确、匹配识别模型的识别结果存在不完整的问题，提高了实体识别的准确率。

Description

实体识别方法、装置、设备及计算机可读存储介质

本申请要求于2019年9月18日提交中国专利局，专利名称为“实体识别方法、装置、设备及计算机可读存储介质”，申请号为201910880672.9的发明专利的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种实体识别方法、装置、设备及计算机可读存储介质。

背景技术

在自然语言处理领域，实体识别是一个重要的研究方向。实体识别，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等；例如，从文本中识别出人名、地名、城市名或者汽车名等命名实体。目前实体识别有两个方向，一个是通过正则匹配识别，另一个是借助模型来进行实体识别。

其中，正则匹配识别，是基于规则预先编写实体库，当需要识别的语言时，将待识别语句与实体库对比，从待识别语句中，识别出与实体库中的实体相同的目标实体。但，由于语言表达方式有多种，实体库无法穷举所有的实体。故，采用正则匹配识别无法完整识别出所有的实体，即正则匹配识别可能无法识别出待识别语句中所包含的实体。

发明人意识到，模型实体识别，是基于由训练语料训练得到的实体识别模型，当需要识别的语言时，将待识别语句输入实体识别模型中，由实体识别模型识别并输出待识别语句中所包含的目标实体。但受限于训练语料的质量和模型的识别能力，实体识别模型会存在实体识别错误、不准确的问题。

技术问题

本申请的主要目的在于提供一种实体识别方法、装置、设备及计算机可读存储介质，旨在解决采用现有实体识别技术进行实体识别，实体识别结果不准确的技术问题。

技术解决方案

为实现上述目的，本申请提供一种实体识别方法，所述实体识别方法包括以下步骤：

获取待识别语句，并将所述待识别语句分别输入至预设的实体识别模型和预设的匹配识别模型；

获取所述实体识别模型基于所述待识别语句生成的第一实体识别结果，以及所述匹配识别模型基于所述待识别语句生成的第二实体识别结果；

根据所述第一实体识别结果和所述第二实体识别结果，确定所述待识别语句的目标实体识别结果。

此外，为实现上述目的，本申请还提供一种实体识别装置，所述实体识别装置包括：

语句获取模块，用于获取待识别语句，并将所述待识别语句分别输入至预设的实体识别模型和预设的匹配识别模型；

结果获取模块，用于获取所述实体识别模型基于所述待识别语句生成的第一实体识别结果，以及所述匹配识别模型基于所述待识别语句生成的第二实体识别结果；

实体确定模块，用于根据所述第一实体识别结果和所述第二实体识别结果，确定所述待识别语句的目标实体识别结果。

此外，为实现上述目的，本申请还提供一种实体识别设备，所述实体识别设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机可读指令，其中所述计算机可读指令被所述处理器执行时，实现以下步骤：

此外，为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，其中所述计算机可读指令被处理器执行时，实现以下步骤：

有益效果

本申请避免了实体识别模型的识别结果存在不准确、匹配识别模型的识别结果存在不完整的问题，提高了实体识别的准确率。

附图说明

图1为本申请实体识别方法第一实施例的流程示意图；

图2为本申请实体识别方法第二实施例的流程示意图；

图3为本申请实体识别方法第四实施例的流程示意图；

图4为本申请实体识别装置第一实施例的功能模块示意图；

图5是本申请实施例方案涉及的实体识别设备的硬件结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

本发明的实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供一种实体识别方法，参照图1，图1为本申请实体识别方法第一实施例的流程示意图。

本申请实施例提供了实体识别方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实体识别方法应用于实体识别设备、服务器或者终端中，终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理（Personal Digital Assistant，PDA）等移动终端，以及诸如数字TV、台式计算机等固定终端。在实体识别方法的各个实施例中，为了便于描述，以实体识别设备为执行主体进行阐述各个实施例，其中，实体识别设备包括预设的实体识别模型和预设的匹配识别模型。在本申请实体识别方法第一实施例中，实体识别方法包括：

步骤S10，获取待识别语句，并将所述待识别语句分别输入至预设的实体识别模型和预设的匹配识别模型；

通过正则匹配的方式能保证实体识别的准确率，但是由于正则匹配只能在满足相关规则的情况下才能成功匹配，为了不漏识别，只能通过编写大量的规则，但由于语言的表达方式太多，所以使得识别有局限性，没有语义理解的能力，会存在漏识别的问题。基于模型来对实体进行识别能对漏识别的问题进行改善，但是受限于训练语料的质量和模型的识别能力，会存在一些识别出来的实体是错误的问题。

为了解决现有的实体识别技术存在实体识别错误、不全面以及不准确的问题，本申请实施例通过将正则匹配识别与模型实体识别进行融合，综合正则匹配识别得出的实体结果与模型实体识别得出的实体结果，确定最终的实体识别结果。

具体地，当检测到待识别语句时，获取待识别语句，并将待识别语句分别输入至预设的实体识别模型以及预设的匹配识别模型。

其中，待识别语句，是指需要进行实体识别，以得出目标命名实体的文本。

实体识别模型，是指用于获取待识别语句，并对待识别语句进行识别，分析待识别语句中所包含的各个实体，得出待识别语句中需要识别的实体类型的命名实体，以作为待识别语句的实体识别结果的模型。在对待识别语句进行实体识别之前，采用待训练的语料数据，对待训练模型进行训练，直至待训练模型收敛，以生成预设的实体识别模型。

匹配识别模型，是指用于获取待识别语句，并从待识别语句中查找出与基于规则预先编写的实体库中的实体相同的各个实体并输出，得出待识别语句中需要识别的实体类型的命名实体，以作为待识别语句的实体识别结果的模型。

步骤S20，获取所述实体识别模型基于所述待识别语句生成的第一实体识别结果，以及所述匹配识别模型基于所述待识别语句生成的第二实体识别结果；

具体地，实体识别模型在获取到待识别语句后，首先确定待识别语句待识别的实体类型，如需要识别出人名、城市名或地名类型的实体。然后，根据待识别语句待识别的实体类型，对待识别语句进行识别，分析待识别语句中所包含的：类型为待识别的实体类型的各个实体，以作为实体识别模型基于待识别语句生成的第一实体识别结果。

匹配识别模型在获取到待识别语句后，将待识别语句与基于规则预先编写的实体库进行对比，从待识别语句中查找出的：与所述实体库中的实体相同的各个实体，以作为匹配识别模型基于待识别语句生成的第二实体识别结果。

其中，第一实体识别结果，是指实体识别模型对待识别语句进行识别，分析得出的待识别语句中所包含的：类型为待识别的实体类型的各个实体。

第二实体识别结果，是指匹配识别模型将待识别语句与基于规则预先编写的实体库进行对比，从待识别语句中查找出的：与所述实体库中的实体相同的各个实体。

步骤S30，根据所述第一实体识别结果和所述第二实体识别结果，确定所述待识别语句的目标实体识别结果。

具体地，一种实施方式为，首先，获取待识别语句待识别的实体类型；然后，分别检测第一实体识别结果中的每个实体是否均符合待识别的实体类型的实体规则，例如，人名类型的实体为姓氏加上名称，姓氏一般为1至2个字，名称一般为1至2字。

若第一实体识别结果中的每个实体均符合待识别的实体类型的实体规则，则将第一实体识别结果中的各个实体添加至预设的实体列表模板中并输出，从而得到待识别语句的目标实体识别结果。

若第一实体识别结果中的有一个或以上实体不符合待识别的实体类型的实体规则，则将第二实体识别结果中的各个实体添加至预设的实体列表模板中，并从第一实体识别结果中获取与第二实体识别结果非交集部分所包含的实体添加至预设的实体列表模板中；然后，输出预设的实体列表模板中的各个实体，以作为待识别语句的目标实体识别结果。

一种实施方式为，首先，检测第二实体识别结果是否包含或等于第一实体识别结果。

若检测到第二实体识别结果不包含且不等于第一实体识别结果，则从第一实体识别结果中获取符合待识别的实体类型的实体规则的实体，添加至预设的实体列表模板中（具体地，从第一实体识别结果中，获取与第二实体识别结果非交集部分所包含的实体；并检测所获取的实体是否符合待识别的实体类型的实体规则；若符合实体规则，则将所获取的实体添加至预设的实体列表模板中）。将第二实体识别结果中的各个实体，添加至预设的实体列表模板中。最后，将预设的实体列表模板中的各个实体输出，得到待识别语句的目标实体识别结果。

若检测到第二实体识别结果包含或等于第一实体识别结果，则将第二实体识别结果中的各个实体，添加至预设的实体列表模板中。并将预设的实体列表模板中的各个实体输出，得到待识别语句的目标实体识别结果。

其中，目标实体识别结果，是指实体识别设备根据待识别语句待识别的实体类型，分别采用匹配识别模型和实体识别模型对待识别语句进行识别后，将匹配识别模型对待识别语句的识别结果和实体识别模型对待识别语句的识别结果进行融合，得出的待识别语句中所包含的实体。

进一步地，所述获取所述实体识别模型基于所述待识别语句生成的第一实体识别结果的步骤之前还包括：

获取待训练语料数据；

依据所述待训练语料数据，对待训练模型进行训练，直至待训练模型收敛，以生成预设的实体识别模型。

在采用预设的实体识别模型对待识别语句进行实体识别，检测待识别语句中所包含的实体之前，需要对待训练模型进行训练，以生成预设的实体识别模型。首先，采集用于训练待训练模型的待训练语料数据，例如，采集多个文本或者多个语句作为待训练语料数据。

然后将待训练语料数据输入至待训练模型进行训练，直至待训练模型收敛，以生成预设的实体识别模型。至此，预设的实体识别模型，具有根据待识别语句待识别的实体类型，对待识别语句进行识别，分析待识别语句中所包含的：类型为待识别的实体类型的各个实体。

其中，待训练语料数据，是指用于训练待训练模型的语句、文本或文档等数据。

在本实施例中，通过将待识别语句分别输入至预设的实体识别模型和预设的匹配识别模型，并获取实体识别模型基于待识别语句生成的第一实体识别结果，以及匹配识别模型基于待识别语句生成的第二实体识别结果。最后，将第一实体识别结果和第二实体识别结果进行融合，作为待识别语句最终的目标实体识别结果。在采用匹配识别模型准确识别实体的同时，增加实体识别模型对待识别语句进行识别，以便进一步识别出可能为目标的实体，而匹配识别模型无法识别的实体。避免了实体识别模型的识别结果存在不准确、匹配识别模型的识别结果存在不完整的问题，提高了实体识别的准确率。

进一步地，参照图2，图2为本申请实体识别方法第二实施例的流程示意图。基于上述第一实施例，提出本申请实体识别方法第二实施例，步骤S30包括：

步骤S31，检测所述第二实体识别结果是否包含或等于所述第一实体识别结果；

具体地，将第一实体识别结果中所包括的实体分别与第二实体识别结果中所包括的实体进行对比，检测第一实体识别结果中的每一个实体是否在第二实体识别结果中均存在与之相同的实体。如果检测到第一实体识别结果中有一个或以上的实体在第二实体识别结果中不存在与之相同的实体，则确定第二实体识别结果不包含且不等于第一实体识别结果。

如果检测到第一实体识别结果中每一个实体在第二实体识别结果中均存在与之相同的实体，则进一步检测第二实体识别结果中的每一个实体是否在第一实体识别结果中均存在与之相同的实体，且是否第二实体识别结果中的实体数量等于第一实体识别结果中的实体数量。

如果检测到第二实体识别结果中的每一个实体在第一实体识别结果中均存在与之相同的实体，且第二实体识别结果中的实体数量等于第一实体识别结果中的实体数量，则确定第二实体识别结果等于第一实体识别结果。如果检测到第二实体识别结果中有一个或以上的实体在第一实体识别结果中不存在与之相同的实体，且第二实体识别结果中的实体数量大于第一实体识别结果中的实体数量，则确定第二实体识别结果包含第一实体识别结果。

为了方便理解，以一具体实施例进行说明。例如，第一实体识别结果包括的实体为：李明、张三、李四、赵小红，若第二实体识别结果包括的实体为：李明、张三，则第二实体识别结果不包含且不等于第一实体识别结果；若第二实体识别结果包括的实体为：李明、张三、李四、赵小红、孙小杰，则第二实体识别结果包含第一实体识别结果；若第二实体识别结果包括的实体为：李明、张三、李四、赵小红，则第二实体识别结果等于第一实体识别结果。

步骤S32，若检测到所述第二实体识别结果不包含且不等于所述第一实体识别结果，则从所述第一实体识别结果中获取符合预设的实体规则的实体，添加至预设的实体列表模板中；

具体地，如果检测到第二实体识别结果不包含且不等于第一实体识别结果，从第一实体识别结果中，获取与第二实体识别结果非交集部分所包含的第一实体。然后，获取并依据待识别的实体类型预设的实体规则，检测第一实体是否符合预设的实体规则。

如果第一实体符合预设的实体规则，则将第一实体添加至预设的实体列表模板中。如果第一实体不符合预设的实体规则，则将不符合预设的实体规则的第一实体视为实体识别模型识别的错误，并将不符合预设的实体规则的实体舍弃。

为了方便理解，接以上步骤S31的例子继续说明。在第二实体识别结果不包含且不等于第一实体识别结果的情况下，其中，第一实体识别结果中，与第二实体识别结果非交集部分所包含的第一实体为“李四”和“赵小红”。并且“李四”不符合预设的实体规则、“赵小红”符合预设的实体规则，则将“赵小红”添加至预设的实体列表模板中、将“李四”视为实体识别模型识别的错误并舍弃。

步骤S33，将所述第二实体识别结果中的各个实体，添加至所述实体列表模板中；

为了方便理解，接以上步骤S32的例子继续说明。将第一实体识别结果中，与第二实体识别结果非交集部分所包含的第一实体中，符合预设的实体规则的第一实体添加至预设的实体列表模板中，以作为待识别语句的目标实体识别结果的各个实体。并将第二实体识别结果中的各个实体“李明”、”张三”添加至预设的实体列表模板中，以作为待识别语句的目标实体识别结果的各个实体。

步骤S34，将所述实体列表模板中的各个实体输出，得到所述待识别语句的目标实体识别结果。

最终，将所有添加至预设的实体列表模板中的各个实体输出，所有输出的实体即符合待识别语句待识别的实体类型的目标实体，至此，得到待识别语句的目标实体识别结果。

如果检测到第二实体识别结果包含或等于第一实体识别结果，由于第二实体识别结果包含或等于了第一实体识别结果，且第二实体识别结果为经过匹配识别模型对待识别语句进行实体识别得出的实体，而匹配识别模型识别结果正确率较高，故可将第二实体识别结果中的各个实体直接添加至预设实体列表模板中，以作为待识别语句的目标实体识别结果的各个实体。并将预设的实体列表模板中的各个实体输出，得到待识别语句的目标实体识别结果（即将第二实体识别结果作为待识别语句的目标实体识别结果）。

在本实施例中，针对实体识别模型的识别结果识别较全面但存在不准确实体，而匹配识别模型的识别结果准确但存在识别不全面的问题，通过检测第二实体识别结果是否包含或等于第一实体识别结果，并在检测到第二实体识别结果不包含且不等于第一实体识别结果时，从第一实体识别结果中获取符合预设的实体规则的实体，添加至预设的实体列表模板中；将第二实体识别结果中的各个实体，添加至预设的实体列表模板中，并将添加至预设的实体列表模板中的各个实体作为待识别语句的目标实体。从而避免了实体识别模型的识别结果存在不准确、匹配识别模型的识别结果存在不完整的问题，提高了实体识别的准确率。

进一步地，基于上述第二实施例，提出本申请实体识别方法第三实施例，

所述从所述第一实体识别结果中获取符合预设的实体规则的实体，添加至预设的实体列表模板中步骤包括：

步骤A1，从所述第一实体识别结果中，获取与所述第二实体识别结果非交集部分所包含的第一实体；

具体地，检测第一实体识别结果与第二实体识别结果的交集部分所包含的各个实体，并从第一实体识别结果所包含的各个实体中减去与第二实体识别结果的交集部分所包含的各个实体，以作为第一实体识别结果中，与第二实体识别结果非交集部分所包含的第一实体，并获取第二实体识别结果非交集部分所包含的第一实体。

其中，第一实体，是指第一实体识别结果中，与第二实体识别结果非交集部分所包含的实体。

步骤A2，检测所述第一实体是否符合预设的实体规则；

每种实体类型都有对应的实体规则，在待识别语句待识别的实体类型确定后，可依据待识别语句待识别的实体类型，确定第一实体是否符合预设的实体规则。具体地，获取并依据待识别语句待识别的实体类型，确定第一实体是否符合待识别语句待识别的实体类型对应的实体规则。

例如，人名类型的实体为姓氏加上名称，姓氏一般为1至2个字，名称一般为1至2字，则检测第一实体是否符合“姓氏加上名称、姓氏1或2个字、名称为1或2个字”。

其中，预设的实体规则，是指与待识别语句待识别的实体类型对应的实体规则。

步骤A3，若所述第一实体符合预设的实体规则，则将所述第一实体添加至预设的实体列表模板中。

如果第一实体符合预设的实体规则，即第一实体符合待识别语句待识别的实体类型对应的实体规则，则将符合预设的实体规则的第一实体添加至预设的实体列表模板中，以作为待识别语句的目标实体。如果第一实体不符合预设的实体规则，则将不符合预设的实体规则的第一实体视为实体识别模型识别的错误，并将不符合预设的实体规则的实体舍弃。

在本实施例中，通过检测第一实体识别结果中，与第二实体识别结果非交集部分所包含的实体，是否符合预设的实体规则，并将符合预设的实体规则的实体添加至预设的实体列表中，将不符合预设的实体规则的实体视为实体识别模型识别的错误进行舍弃；从而使得添加至预设的实体列表中的实体符合预设的实体规则，避免了实体识别模型存在实体识别错误的问题。

进一步地，参照图3，图3为本申请实体识别方法第四实施例的流程示意图。基于上述第二实施例，提出本申请实体识别方法第四实施例，步骤S31之后还包括：

步骤S35，若检测到所述第二实体识别结果包含或等于所述第一实体识别结果，则将所述第二实体识别结果中的各个实体，添加至所述实体列表模板中；

如果检测到第二实体识别结果包含或等于第一实体识别结果，由于第二实体识别结果包含或等于了第一实体识别结果（即第一实体识别结果中的每个实体，在第二实体识别结果中均存在与之相同的实体），且第二实体识别结果为经过匹配识别模型对待识别语句进行实体识别得出的实体，而匹配识别模型识别结果正确率较高，故可将第二实体识别结果中的各个实体直接添加至预设实体列表模板中，以作为待识别语句的目标实体识别结果的各个实体。

如果检测到第二实体识别结果不包含且不等于第一实体识别结果，从第一实体识别结果中获取符合预设的实体规则的实体，添加至预设的实体列表模板中，以作为待识别语句的目标实体识别结果的各个实体。

步骤S36，将所述实体列表模板中的各个实体输出，得到所述待识别语句的目标实体识别结果。

将预设的实体列表模板中的各个实体输出，得到待识别语句的目标实体识别结果（即将第二实体识别结果作为待识别语句的目标实体识别结果）。

在本实施例中，针对实体识别模型的识别结果识别较全面但存在不准确实体，而匹配识别模型的识别结果准确但存在识别不全面的问题，通过检测第二实体识别结果是否包含或等于第一实体识别结果，并在检测到第二实体识别结果包含或等于第一实体识别结果时，将第二实体识别结果中的各个实体，添加至预设的实体列表模板中以作为待识别语句的目标实体。从而避免了实体识别模型的识别结果存在不准确、匹配识别模型的识别结果存在不完整的问题，提高了实体识别的准确率。

进一步地，基于上述第一实施例，提出本申请实体识别方法第五实施例，所述获取所述实体识别模型基于所述待识别语句生成的第一实体识别结果的步骤包括：

步骤B1，获取所述待识别语句待识别的实体类型；

其中，待识别的实体类型，是指需要对待识别语句进行识别的实体的类型。如，人名类型的实体、城市名类型的实体、国家名类型的实体，若待识别的实体类型为人名，则从待识别语句中识别出人名类型的实体。

具体地，根据对待识别语句的识别需求，确定待识别语句待识别的实体类型。

步骤B2，获取所述实体识别模型对所述待识别语句进行识别得出的符合所述实体类型的各个第二实体；

第二实体，是指实体识别模型获取待识别语句，并对待识别语句进行识别，分析得出的待识别语句中所包含的：类型为待识别的实体类型的各个实体。

具体地，实体识别模型获取待识别语句，并对待识别语句进行识别，分析得出的待识别语句中所包含的：类型为待识别的实体类型的各个第二实体。

例如，待识别语句待识别的实体类型为城市名，待识别语句中包括：人名类型实体“张三”和“李四”、城市名类型实体“北京”和“上海”，则实体识别模型获取待识别语句，并对待识别语句进行识别，分析得出的待识别语句中所包含的：类型为城市名的实体“北京”和“上海”，作为第二实体。

步骤B3，将所述第二实体作为所述第一实体识别结果。

最后，将所有的第二实体作为第一实体识别结果，以供后续依据第一实体识别结果确定待识别语句的目标实体识别结果。

在本实施例中，通过获取实体识别模型对待识别语句进行识别，得出的符合待识别语句待识别的实体类型的各个第二实体，并将第二实体作为第一实体识别结果；从而保证第一实体识别结果的得出，为后续依据第一实体识别结果确定待识别语句的目标实体识别结果提供了准确的数据依据。

进一步地，基于上述第一实施例，提出本申请实体识别方法第五实施例，所述获取所述匹配识别模型基于所述待识别语句生成的第二实体识别结果的步骤包括：

步骤C1，获取预先编写的实体库，其中，所述实体库包括多个实体；

为了保证匹配识别模型在获取待识别语句进行实体识别时，可以直接将待识别语句与实体库的实体进行对比，以识别出待识别语句中所包含的实体，在采用匹配识别模型对待识别语句进行实体识别前，建立实体库。其中，建立的实体库是基于规则预先编写的，其中包含了多个实体；实体库中实体通过穷举的方式进行编写。作为一种更优的实施方式，在预先编写实体库时，将实体识别模型易识别错误的命名实体，编写到实体库中，作为实体库的实体，以进一步提高对实体识别的准确率。

在需要对待识别语句进行实体识别时，获取预先编写的实体库，以供匹配识别模型将待识别与实体库的实体进行对比，从待识别语句中查找出与实体库中的实体相同的各个实体。进一步地，在对待识别语句进行实体识别时，依据待识别语句待识别的实体类型，获取预先编写的：与待识别语句待识别的实体类型对应的实体库；例如，若待识别语句待识别的实体类型为人名类型实体，则获取预先编写的实体类型为人名的实体库；若待识别语句待识别的实体类型为车名类型实体，则获取预先编写的实体类型为车名的实体库。

步骤C2，获取所述匹配识别模型从所述待识别语句中查找出与所述实体库中的实体相同的各个第三实体；

第三实体，是指匹配识别模型获取待识别语句，并将待识别语句与实体库的实体进行对比，从待识别语句中查找出的与实体库中的实体相同的各个实体。

具体地，匹配识别模型获取待识别语句，并将待识别语句与实体库的实体进行对比，从待识别语句中查找出的与实体库中的实体相同的各个第三实体。

例如，待识别语句中包括的实体有：“张三”、“李四”、“北京”和“上海”，而在将待识别语句与实体库的实体进行对比后，发现预先编写的实体库中存在“张三”和“李四”的实体、不存在“北京”和“上海”的实体，则将“张三”和“李四”作为第三实体。

步骤C3，将所述第三实体作为所述第二实体识别结果。

最后，将所有的第三实体作为第二实体识别结果，以供后续依据第二实体识别结果确定待识别语句的目标实体识别结果。

在本实施例中，通过获取匹配识别模型将待识别语句与实体库的实体进行对比，得出的待识别语句中与实体库中的实体相同的各个第三实体，并将第三实体作为第二实体识别结果；从而保证第二实体识别结果的得出，为后续依据第二实体识别结果确定待识别语句的目标实体识别结果提供了准确的数据依据。

此外，本申请还提供一种实体识别装置。

参照图4，图4为本申请实体识别装置第一实施例的功能模块示意图。

本实施例中，所述实体识别装置包括：

语句获取模块10，用于获取待识别语句，并将所述待识别语句分别输入至预设的实体识别模型和预设的匹配识别模型；

结果获取模块20，用于获取所述实体识别模型基于所述待识别语句生成的第一实体识别结果，以及所述匹配识别模型基于所述待识别语句生成的第二实体识别结果；

实体确定模块30，用于根据所述第一实体识别结果和所述第二实体识别结果，确定所述待识别语句的目标实体识别结果。

进一步的，所述实体确定模块30还包括：

检测单元，用于检测所述第二实体识别结果是否包含或等于所述第一实体识别结果；

第一添加单元，用于若检测到所述第二实体识别结果不包含且不等于所述第一实体识别结果，则从所述第一实体识别结果中获取符合预设的实体规则的实体，添加至预设的实体列表模板中；

第二添加单元，用于将所述第二实体识别结果中的各个实体，添加至所述实体列表模板中；

第一实体输出单元，用于将所述实体列表模板中的各个实体输出，得到所述待识别语句的目标实体识别结果。

进一步的，所述第一添加单元还包括：

获取子单元，用于从所述第一实体识别结果中，获取与所述第二实体识别结果非交集部分所包含的第一实体；

检测子单元，用于检测所述第一实体是否符合预设的实体规则；

添加子单元，用于若所述第一实体符合预设的实体规则，则将所述第一实体添加至预设的实体列表模板中。

进一步的，所述实体确定模块30还包括：

第三添加单元，用于若检测到所述第二实体识别结果包含或等于所述第一实体识别结果，则将所述第二实体识别结果中的各个实体，添加至所述实体列表模板中；

第二实体输出单元，用于将所述实体列表模板中的各个实体输出，得到所述待识别语句的目标实体识别结果。

进一步的，所述结果获取模块还包括：

第一获取单元，用于获取所述待识别语句待识别的实体类型；

第二获取单元，用于获取所述实体识别模型对所述待识别语句进行识别得出的符合所述实体类型的各个第二实体；

第一识别结果确定单元，用于将所述第二实体作为所述第一实体识别结果。

进一步的，所述结果获取模块还包括：

第三获取单元，用于获取预先编写的实体库，其中，所述实体库包括多个实体；

第四获取单元，用于获取所述匹配识别模型从所述待识别语句中查找出与所述实体库中的实体相同的各个第三实体；

第二识别结果确定单元，用于将所述第三实体作为所述第二实体识别结果。

进一步的，所述实体识别装置还包括：

训练数据获取模块，用于获取待训练语料数据；

模型训练模块，用于依据所述待训练语料数据，对待训练模型进行训练，直至待训练模型收敛，以生成预设的实体识别模型。

其中，实体识别装置中的各个实施例与上述实体识别方法的各实施例基本相同，在此不再详细赘述。

此外，本申请还提供一种实体识别设备。如图5所示，图5是本申请实施例方案涉及的实体识别设备的硬件运行环境的结构示意图。

需要说明的是，图5即可为实体识别设备的硬件运行环境的结构示意图。本申请实施例实体识别设备可以是PC，便携计算机等终端设备。

如图5所示，实体识别设备可以包括处理器1001（例如CPU），通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信；用户接口1003可以包括显示屏（Display）、输入单元比如键盘（Keyboard）；网络接口1004可选的可以包括标准的有线接口、无线接口（如WI-FI接口）；存储器1005可以是高速RAM存储器，也可以是稳定的存储器（non-volatile memory），例如磁盘存储器，存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，该实体识别设备还可以包括摄像头、RF（Radio Frequency，射频）电路，传感器、音频电路、WiFi模块等等。

本领域技术人员可以理解，图5中示出的实体识别设备的硬件结构并不构成对实体识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

继续参照图5，图5中作为一种计算机可读存储介质的存储器1005可以包括操作***、网络通信模块以及计算机可读指令。

在图5中，网络通信模块主要用于连接数据库，与数据库进行数据通信；而处理器1001可以调用存储器1005中存储的计算机可读指令，并执行以下步骤：

本申请实体识别设备具体实施方式与上述实体识别方法各实施例基本相同，在此不再赘述。

此外，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质可以是非易失性，也可以是易失性，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现以下步骤：

本申请计算机可读存储介质具体实施方式与上述实体识别方法各实施例基本相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种实体识别方法，所述实体识别方法包括以下步骤：

获取待识别语句，并将所述待识别语句分别输入至预设的实体识别模型和预设的匹配识别模型；

获取所述实体识别模型基于所述待识别语句生成的第一实体识别结果，以及所述匹配识别模型基于所述待识别语句生成的第二实体识别结果；

根据所述第一实体识别结果和所述第二实体识别结果，确定所述待识别语句的目标实体识别结果。
如权利要求1所述的实体识别方法，所述根据所述第一实体识别结果和所述第二实体识别结果，确定所述待识别语句的目标实体识别结果的步骤包括：

检测所述第二实体识别结果是否包含或等于所述第一实体识别结果；

若检测到所述第二实体识别结果不包含且不等于所述第一实体识别结果，则从所述第一实体识别结果中获取符合预设的实体规则的实体，添加至预设的实体列表模板中；

将所述第二实体识别结果中的各个实体，添加至所述实体列表模板中；

将所述实体列表模板中的各个实体输出，得到所述待识别语句的目标实体识别结果。
如权利要求2所述的实体识别方法，所述从所述第一实体识别结果中获取符合预设的实体规则的实体，添加至预设的实体列表模板中的步骤包括：

从所述第一实体识别结果中，获取与所述第二实体识别结果非交集部分所包含的第一实体；

检测所述第一实体是否符合预设的实体规则；

若所述第一实体符合预设的实体规则，则将所述第一实体添加至预设的实体列表模板中。
如权利要求2所述的实体识别方法，所述检测所述第二实体识别结果是否包含或等于第一实体识别结果的步骤之后还包括：

若检测到所述第二实体识别结果包含或等于所述第一实体识别结果，则将所述第二实体识别结果中的各个实体，添加至所述实体列表模板中；

将所述实体列表模板中的各个实体输出，得到所述待识别语句的目标实体识别结果。
如权利要求1所述的实体识别方法，所述获取所述实体识别模型基于所述待识别语句生成的第一实体识别结果的步骤包括：

获取所述待识别语句待识别的实体类型；

获取所述实体识别模型对所述待识别语句进行识别得出的符合所述实体类型的各个第二实体；

将所述第二实体作为所述第一实体识别结果。
如权利要求1所述的实体识别方法，所述获取所述匹配识别模型基于所述待识别语句生成的第二实体识别结果的步骤包括：

获取预先编写的实体库，其中，所述实体库包括多个实体；

获取所述匹配识别模型从所述待识别语句中查找出与所述实体库中的实体相同的各个第三实体；

将所述第三实体作为所述第二实体识别结果。
如权利要求1所述的实体识别方法，所述获取所述实体识别模型基于所述待识别语句生成的第一实体识别结果的步骤之前还包括：

获取待训练语料数据；

依据所述待训练语料数据，对待训练模型进行训练，直至待训练模型收敛，以生成预设的实体识别模型。
一种实体识别装置，所述实体识别装置包括：

语句获取模块，用于获取待识别语句，并将所述待识别语句分别输入至预设的实体识别模型和预设的匹配识别模型；

结果获取模块，用于获取所述实体识别模型基于所述待识别语句生成的第一实体识别结果，以及所述匹配识别模型基于所述待识别语句生成的第二实体识别结果；

实体确定模块，用于根据所述第一实体识别结果和所述第二实体识别结果，确定所述待识别语句的目标实体识别结果。
一种实体识别设备，所述实体识别设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机可读指令，其中所述计算机可读指令被所述处理器执行时实现以下步骤：

获取待识别语句，并将所述待识别语句分别输入至预设的实体识别模型和预设的匹配识别模型；

获取所述实体识别模型基于所述待识别语句生成的第一实体识别结果，以及所述匹配识别模型基于所述待识别语句生成的第二实体识别结果；

根据所述第一实体识别结果和所述第二实体识别结果，确定所述待识别语句的目标实体识别结果。
如权利要求9所述的实体识别设备，所述计算机可读指令被所述处理器执行时还实现以下步骤：

检测所述第二实体识别结果是否包含或等于所述第一实体识别结果；

若检测到所述第二实体识别结果不包含且不等于所述第一实体识别结果，则从所述第一实体识别结果中获取符合预设的实体规则的实体，添加至预设的实体列表模板中；

将所述第二实体识别结果中的各个实体，添加至所述实体列表模板中；

将所述实体列表模板中的各个实体输出，得到所述待识别语句的目标实体识别结果。
如权利要求10所述的实体识别设备，所述计算机可读指令被所述处理器执行时还实现以下步骤：

从所述第一实体识别结果中，获取与所述第二实体识别结果非交集部分所包含的第一实体；

检测所述第一实体是否符合预设的实体规则；

若所述第一实体符合预设的实体规则，则将所述第一实体添加至预设的实体列表模板中。
如权利要求10所述的实体识别设备，所述计算机可读指令被所述处理器执行时还实现以下步骤：

若检测到所述第二实体识别结果包含或等于所述第一实体识别结果，则将所述第二实体识别结果中的各个实体，添加至所述实体列表模板中；

将所述实体列表模板中的各个实体输出，得到所述待识别语句的目标实体识别结果。
如权利要求9所述的实体识别设备，所述计算机可读指令被所述处理器执行时还实现以下步骤：

获取所述待识别语句待识别的实体类型；

获取所述实体识别模型对所述待识别语句进行识别得出的符合所述实体类型的各个第二实体；

将所述第二实体作为所述第一实体识别结果。
如权利要求9所述的实体识别设备，所述计算机可读指令被所述处理器执行时还实现以下步骤：

获取预先编写的实体库，其中，所述实体库包括多个实体；

获取所述匹配识别模型从所述待识别语句中查找出与所述实体库中的实体相同的各个第三实体；

将所述第三实体作为所述第二实体识别结果。
如权利要求9所述的实体识别设备，所述计算机可读指令被所述处理器执行时还实现以下步骤：

获取待训练语料数据；

依据所述待训练语料数据，对待训练模型进行训练，直至待训练模型收敛，以生成预设的实体识别模型。
一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，其中所述计算机可读指令可被处理器执行，以使所述处理器执行如下步骤：

获取待识别语句，并将所述待识别语句分别输入至预设的实体识别模型和预设的匹配识别模型；

获取所述实体识别模型基于所述待识别语句生成的第一实体识别结果，以及所述匹配识别模型基于所述待识别语句生成的第二实体识别结果；

根据所述第一实体识别结果和所述第二实体识别结果，确定所述待识别语句的目标实体识别结果。
如权利要求16所述的计算机可读存储介质，所述计算机可读指令被所述处理器执行时还实现以下步骤：

检测所述第二实体识别结果是否包含或等于所述第一实体识别结果；

若检测到所述第二实体识别结果不包含且不等于所述第一实体识别结果，则从所述第一实体识别结果中获取符合预设的实体规则的实体，添加至预设的实体列表模板中；

将所述第二实体识别结果中的各个实体，添加至所述实体列表模板中；

将所述实体列表模板中的各个实体输出，得到所述待识别语句的目标实体识别结果。
如权利要求17所述的计算机可读存储介质，所述计算机可读指令被所述处理器执行时还实现以下步骤：

从所述第一实体识别结果中，获取与所述第二实体识别结果非交集部分所包含的第一实体；

检测所述第一实体是否符合预设的实体规则；

若所述第一实体符合预设的实体规则，则将所述第一实体添加至预设的实体列表模板中。
如权利要求17所述的计算机可读存储介质，所述计算机可读指令被所述处理器执行时还实现以下步骤：

若检测到所述第二实体识别结果包含或等于所述第一实体识别结果，则将所述第二实体识别结果中的各个实体，添加至所述实体列表模板中；

将所述实体列表模板中的各个实体输出，得到所述待识别语句的目标实体识别结果。
如权利要求16所述的计算机可读存储介质，所述计算机可读指令被所述处理器执行时还实现以下步骤：

获取所述待识别语句待识别的实体类型；

获取所述实体识别模型对所述待识别语句进行识别得出的符合所述实体类型的各个第二实体；

将所述第二实体作为所述第一实体识别结果。