CN114118087A

CN114118087A - 实体确定方法、装置、电子设备及存储介质

Info

Publication number: CN114118087A
Application number: CN202111210438.9A
Authority: CN
Inventors: 樊乘源
Original assignee: Guang Dong Ming Chuang Software Technology Corp ltd
Current assignee: Guang Dong Ming Chuang Software Technology Corp ltd
Priority date: 2021-10-18
Filing date: 2021-10-18
Publication date: 2022-03-01

Abstract

本申请实施例公开了一种实体确定方法、装置、电子设备及存储介质。所述方法包括：获取与文本对应的实体识别结果；根据所述实体识别结果，获取至少一个候选实体以及各所述候选实体对应的统计参数，所述统计参数用于表征对应的候选实体被关注的程度；根据所述统计参数，对所述至少一个候选实体进行筛选，得到筛选后的候选实体；根据所述筛选后的候选实体，确定与所述文本对应的目标实体。通过上述方法，可以根据文本的实体识别结果，召回与实体识别结果对应的候选实体，然后可以根据统计参数对与实体识别结果对应的候选实体进行筛选，缩小了候选实体的筛选范围，进而可以加快从筛选后的候选实体中确定与文本对应的目标实体的速度。

Description

实体确定方法、装置、电子设备及存储介质

技术领域

本申请属于语音技术领域，具体涉及一种实体确定方法、装置、电子设备及存储介质。

背景技术

相关技术中，实体链接一般是先对输入文本中存在的实体指称进行识别，并且得到实体库中与之相关的所有候选实体；之后再从所有候选实体中确定出与该实体指称的语义最接近的目标实体，进而实现文本中的实体指称与实体库中的目标实体的链接。然而，相关的实体确定方法，确定目标实体的速度还有待提升。

发明内容

鉴于上述问题，本申请提出了一种实体确定方法、装置、电子设备以及存储介质，以实现改善上述问题。

第一方面，本申请实施例提供了一种实体确定方法，所述方法包括：获取与文本对应的实体识别结果；根据所述实体识别结果，获取至少一个候选实体以及各所述候选实体对应的统计参数，所述统计参数用于表征对应的候选实体被关注的程度；根据所述统计参数，对所述至少一个候选实体进行筛选，得到筛选后的候选实体；根据所述筛选后的候选实体，确定与所述文本对应的目标实体。

第二方面，本申请实施例提供了一种实体确定装置，所述装置包括：结果获取单元，用于获取与文本对应的实体识别结果；第一确定单元，用于根据所述实体识别结果，获取至少一个候选实体以及各所述候选实体对应的统计参数，所述统计参数用于表征对应的候选实体被关注的程度；筛选单元，用于根据所述统计参数，对所述至少一个候选实体进行筛选，得到筛选后的候选实体；第二确定单元，用于根据所述筛选后的候选实体，确定与所述文本对应的目标实体。

第三方面，本申请实施例提供了一种电子设备，包括一个或多个处理器以及存储器；一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码运行时执行上述的方法。

第五方面，本申请实施例提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现上述方法的步骤。

本申请实施例提供了一种实体确定方法、装置、电子设备及存储介质。首先获取与文本对应的实体识别结果，然后根据实体识别结果，获取至少一个候选实体以及各候选实体对应的统计参数，所述统计参数用于表征对应的候选实体被关注的程度，再根据统计参数，对至少一个候选实体进行筛选，得到筛选后的候选实体，最后根据筛选后的候选实体，确定与文本对应的目标实体。通过上述方法，可以根据文本的实体识别结果，召回与实体识别结果对应的候选实体，然后可以根据统计参数对与实体识别结果对应的候选实体进行筛选，得到筛选后的候选实体，缩小了候选实体的筛选范围，进而可以加快从筛选后的候选实体中确定与文本对应的目标实体的速度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提出的一种实体确定方法的应用场景示意图；

图2示出了本申请一实施例提出的一种实体确定方法的应用场景示意图；

图3示出了本申请一实施例提出的一种实体确定方法的流程图；

图4示出了本申请另一实施例提出的一种实体确定方法的流程图；

图5示出了本申请再一实施例提出的一种实体确定方法的流程图；

图6示出了本申请实施例提出的一种实体消歧模型的结构示意图；

图7示出了本申请又一实施例提出的一种实体确定方法的流程图；

图8示出了本申请实施例提出的一种实体识别分类联合模型的结构示意图；

图9示出了图7中步骤S410的流程图；

图10示出了本申请又一实施例提出的一种实体确定方法的流程图。

图11示出了本申请实施例提出的一种实体确定装置的结构框图；

图12示出了本申请实时中的用于执行根据本申请实施例的实体确定方法的电子设备的结构框图；

图13示出了本申请实时中的用于保存或者携带实现根据本申请实施例的实体确定方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着网络数据以指数级别增长，网络已经成为最大的数据仓库之一，且大量的数据在网络上以自然语言的形式呈现。但是自然语言本身具有高度的歧义性，尤其是对于一些出现频率较高的实体，它们可能对应多个名称，而每个名称又可能对应多个同名实体。另一方面，类似像DBpedia，YAGO这样的实体知识库也在通过信息抽取等技术的发展而不断进行丰富和构建。因此，如果能够将网络数据与知识库连接起来，就可以对网络上的自然语言进行标注，这对我们理解网络数据的语义信息将提供很大的便利，而实现这一步的关键便是实体链接(entity linking)技术。

实体链接(entity linking)就是将一段文本中的某些字符串映射到知识库中对应的实体上。比如对于文本“郑雯出任复旦大学新闻学院副院长”，就应当将字符串“郑雯”、“复旦大学”、“复旦大学新闻学院”分别映射到对应的实体上。在很多时候，存在同名异实体或者同实体异名的现象，因此这个映射过程需要进行消歧，比如对于文本“我正在读《西游记》”，其中的“《西游记》”应指的是“《西游记》(图书)”这一实体，而不是“《西游记》系列电视剧”这一实体。当前的实体链接一般已经确定出了与文本相关的实体的范围(一般称作mention)，需要做的工作主要是实体(称作entity)的消歧。

经发明人研究发现，在相关的实体确定方法中，当用户输入文本时，会识别出文本中的相关实体，然后从知识库中召回所有与相关实体对应的候选实体，然后在进行实体消歧时，通常会根据实体消歧模型输出的对应的消歧分数，对候选实体进行排序。但是由于知识库中存在大量同名实体，例如，神雕侠侣会召回20部电影、小说，因此，在进行候选实体召回时，可能会召回大量同名的候选实体，进而在进行实体消歧时，实体消歧模型可能需要预测大量的数据样本，造成确定目标实体的速度还有待提升。

因此，发明人提出了本申请中的实体确定方法、装置、电子设备及存储介质。首先获取与文本对应的实体识别结果，然后根据实体识别结果，获取至少一个候选实体以及各候选实体对应的统计参数，所述统计参数用于表征对应的候选实体被关注的程度，再根据统计参数，对至少一个候选实体进行筛选，得到筛选后的候选实体，最后根据筛选后的候选实体，确定与文本对应的目标实体。通过上述方法，可以根据文本的实体识别结果，召回与实体识别结果对应的候选实体，然后可以根据统计参数对与实体识别结果对应的候选实体进行筛选，得到筛选后的候选实体，缩小了候选实体的筛选范围，进而可以加快从筛选后的候选实体中确定与文本对应的目标实体的速度。

在对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及一种应用环境进行介绍。

参见图1，图1是本申请实施例提供的实体确定***的一个可选的架构示意图；如图1所示，为实体确定***10，在实体确定***10中，电子设备400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。另外，该实体确定***100中还可以包括数据库500，通过数据库500向服务器200提供数据服务，以支持服务器200进行实体确定。可以理解的，数据库也可以由服务器200提供。

其中，数据库500中可以存储有不同实体对应的各个义项对应的实体信息，所述实体信息可以包括实体名、实体义项、实体类别、实体义项的频次占比以及实体类别的频次占比。其中，义项为字典、词典中同一个字条或词条下按其意义分列的项目。

电子设备400，用于获取与文本对应的实体识别结果，然后基于实体识别结果向服务器200发送数据获取请求，进而服务器200可从数据库500中获取到与实体识别结果对应的候选实体，以及候选实体对应的实体信息。

服务器200，用于当从数据库500获取到与实体识别结果对应的候选实体以及候选实体对应的实体信息后，可以根据候选实体的实体信息中的实体义项的频次占比以及实体类别的频次占比对候选实体进行筛选，进而可以得到与文本对应的目标实体。当服务器200得到与文本数据对应的目标实体后，可以将目标实体发送给电子设备400进行显示。

在一些实施方式中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

电子设备400可以为智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、可穿戴设备、智能机器人、车载终端等，但并不局限于此。

可选的，如图2所示，在一些实施例中，实体确定***10也可以只包括电子设备400和数据库500，进而电子设备400可以直接从数据库500中获取与实体识别结果对应的候选实体以及候选实体对应的实体信息，进而根据候选实体对应的实体信息从候选实体中确定与文本对应的目标实体，并对目标实体进行显示。

在本申请实施例中，所述实体确定***10可以为知识问答***、信息检索***等，实体确定***也可以为可以应用上述实体确定方法的***，在此不做具体限定。

下面将结合附图具体描述本申请的各实施例。

请参阅图3，本申请实施例提供的一种实体确定方法，应用于电子设备，所述方法包括：

步骤S110：获取与文本对应的实体识别结果。

在本申请实施例中，实体识别结果表征与文本对应的实体的属性。其中，实体：从数据处理角度来看，现实世界中客观存在的事物均可称之为实体，换一种表达方式，实体可以是现实世界中任何可区分、可辨识的事物。例如，实体可以指代人，如教师、学生等，实体也可以指代物，如书、仓库等。此外，实体除了可以指代能够触及的客观对象外，还可以指代抽象的事物，如演出、足球赛等，对此不进行具体限定。

其中，与文本对应的实体可以理解为文本中的关键词，那么实体识别结果就可以理解为文本中的关键词对应的属性，在此，关键词即指代文本中最常用、或经常被问及、或最受关注的词语；关键词对应的属性：用来描述关键词，与一个关键词有关的信息均可以构成该关键词的属性。

在本申请实施例中，所述文本可以为用户输入的文本数据。可选的，在问答***中，文本可以为用户输入的一个提问或者为用户输入的语音对应的文本内容；在信息检索***中，文本可以为用户输入的一个词或者短语，当然，文本也可以为其他用户输入的内容，文本的具体内容在此不做具体限定。

作为一种方式，可以从与电子设备连接的装置或服务器中获取与文本对应的实体识别结果，其中，装置或服务器具有关键词识别功能。示例性的，当用户通过电子设备上设置的搜索引擎输入文本后，可以将该文本发送给与电子设备连接的装置或服务器进行实体识别。当与电子设备连接的装置或服务器识别出与文本对应的实体识别结果后，将实体识别结果发送给电子设备。

当然，电子设备在将文本发送给与电子设备连接的装置或服务器后，也可以周期性的自动向装置或服务器发送数据获取请求，进而，在装置或服务器得到实体识别结果后，电子设备可以自动从装置或服务器获取与文本对应的实体识别结果。

作为另一种方式，电子设备自身具有关键词识别功能，当电子设备检测到用户输入的文本后，可以自动识别出文本中的关键词，以及关键词对应的属性。

步骤S120：根据所述实体识别结果，获取至少一个候选实体以及各所述候选实体对应的统计参数，所述统计参数用于表征对应的候选实体被关注的程度。

在本申请实施例中，为了可以更加快速的从候选实体确定与文本对应的目标实体，可以根据实体识别结果对候选实体进行筛选。

作为一种方式，可以根据上述获取到的与文本对应的实体识别结果，从预先建立的义项库中确定候选实体以及候选实体对应的统计参数。

其中，所述义项库为离线使用未优化的实体链接模型，链接海量语料库中的实体，得到实体对应的属性，进而基于实体以及实体对应的属性建立的数据库。其中，语料库指经科学取样和加工的大规模电子文本库，其中存放的是在语言的实际使用中真实出现过的语言材料。在本申请实施例中，可以通过多个文件来存储不同的属性。

该义项库可以包括每一个实体对应的多个义项，以及每一个义项中该实体对应的属性，其中，属性可以包括实体名、实体义项(每一个义项对应的实体对应一个实体义项)、实体类型以及对应的统计参数。其中，义项为字典、词典中同一个字条或词条下按其意义分列的项目。示例性的，对于实体“封面”，在词典中有3个义项：义项①线装书指书皮里面印着书名和刻书者的名称等的一页。义项②新式装订的书刊指最外面的一层，用厚纸、布、皮等做成。义项③特指新式装订的书刊名称等的第一面，也叫封一。

可选的，根据所述实体识别结果，获取至少一个候选实体以及各所述候选实体对应的统计参数可以理解为根据与文本对应的实体识别结果从义项库中召回可能的实体。

当根据文本对应的实体识别结果从义项库中召回可能的实体作为候选实体的同时获取候选实体各自对应的统计参数。

步骤S130：根据所述统计参数，对所述至少一个候选实体进行筛选，得到筛选后的候选实体。

步骤S140：根据所述筛选后的候选实体，确定与所述文本对应的目标实体。

在本申请实施例中，所述目标实体可以理解为文本与义项库链接的实体。当获取到候选实体以及候选实体对应的统计参数后，可以根据预设规则对候选实体进行筛选，得到筛选后的候选实体，然后再从筛选后的候选实体中确定与文本对应的目标实体。

作为其中一种方式，可以根据统计参数对候选实体进行筛选，将筛选后的候选实体以及待识文本输入到模型中，根据模型的输出来确定与文本对应的目标实体。在此，模型可以为实体消歧模型、分类模型或者其他语言识别模型。

作为其中另一种方式，也可以根据统计参数对候选实体进行筛选后剩余的候选实体的个数来确定与文本对应的目标实体。具体的，若通过统计参数对候选实体进行筛选后，只剩下一个候选实体，那么该候选实体就是与文本对应的目标实体。当确定了目标实体后，目标实体可以作为最终的结果反馈给电子设备，进而电子设备可以在对应的显示界面上显示该目标实体对应的信息。

当然，目标实体也可以作为中间结果，当目标实体作为中间结果反馈给电子设备时，电子设备可以基于该目标实体进行后续的操作，比如，可以基于该目标实体找到与文本对应的更丰富的信息，也可以基于目标实体进行下一步的搜索等。

本申请提供的一种实体确定方法，首先获取与文本对应的实体识别结果，然后基于实体识别结果，确定候选实体以及候选实体对应的统计参数，所述统计参数表征对应的候选实体被关注的程度，再根据统计参数，对至少一个候选实体进行筛选，得到筛选后的候选实体，最后根据筛选后的候选实体，确定与文本对应的目标实体。通过上述方法，可以根据文本的实体识别结果，召回与实体识别结果对应的候选实体，然后可以根据统计参数对与实体识别结果对应的候选实体进行筛选，得到筛选后的候选实体，缩小了候选实体的筛选范围，进而可以加快从筛选后的候选实体中确定与文本对应的目标实体的速度。

请参阅图4，本申请实施例提供的一种实体确定方法，所述方法包括：

步骤S210：获取与文本对应的实体识别结果，所述实体识别结果包括实体名。

在本申请实施例中，获取的实体识别结果可以包括实体的实体名，该实体名表征实体是什么。

作为一种方式，若所述实体识别结果包括的实体名为多个，基于多个实体名，确定与所述多个实体名各自对应的候选实体作为所述多个实体名各自的第一参考候选实体。

当获取的实体识别结果中包括多个实体名时，需要从义项库中获取与每一个实体名对应的候选实体。也就是说，当实体识别结果中包括多个实体名时，也就是需要通过同样的方式确定实体识别结果中包括的多个实体名各自对应的目标实体。

步骤S220：根据所述实体名，获取至少一个与所述实体名对应的候选实体作为第一参考候选实体，以及获取各所述第一参考候选实体对应的实体义项的频次占比。

作为一种方式，根据实体名，从义项库中获取至少一个与实体名对应的候选实体作为第一参考候选实体。

其中，义项库的表现形式可以如下表1和表2所示：

表1

实体名	实体义项编号	实体义项的频次占比
			神雕侠侣	5598	0.5
神雕侠侣	63411	0.3
			神雕侠侣	3451	0.2

表2

实体名	实体类别	实体类别的频次占比
			神雕侠侣	电影	0.4
神雕侠侣	电视剧	0.4
			神雕侠侣	小说	0.3

表1和表2中的实体义项的频次占比＝实体名对应的单个实体义项的出现次数/实体名出现总次数，例如，神雕侠侣对应的实体义项编号为5598的实体义项的频次占比＝神雕侠侣对应的实体义项编号为5598的实体义项的出现次数/神雕侠侣总共出现的次数；实体类别的频次占比＝实体名对应的单个实体类别的出现次数/实体名出现总次数，例如，神雕侠侣对应的电影类别的频次占比＝神雕侠侣对应的电影类别的出现次数/神雕侠侣总共出现的次数。这里的出现的次数指的是使用未优化的实体链接模型进行实体链接时，对应实体出现的次数。每使用未优化的实体链接模型进行一次实体链接，可以统计一次从义项库中召回的多个可能的实体各自对应的义项，以及每一个实体对应的类别；当通过未优化的实体链接模型进行预设次数的实体链接时，可以统计到在预设次数内，每一个实体义项对应的频次占比，以及每一个实体类别的频次占比。

进而，可以根据实体识别结果包括的实体名从义项库中查找具有相同实体名的实体，将查找到的具有相同实体名的实体作为候选实体进行召回。例如，如表1和表2所示，若实体识别结果包括的实体名为“神雕侠侣”，那么可以根据实体识别结果包括的“神雕侠侣”从义项库中查找具有相同实体名的实体，就可以召回6个参考候选实体，同时可以从义项库中获取到这6个参考候选实体各自对应的频次占比。

步骤S230：根据所述实体对应的实体义项的频次占比，对所述第一参考候选实体进行筛选，获取实体义项的频次占比大于第一占比阈值的第一参考候选实体作为第一候选实体，并将所述第一候选实体作为筛选后的候选实体。

在本申请实施例中，所述第一占比阈值为预先设置的用于从第一参考候选实体中筛选第一候选实体的最小值。作为一种实施方式，为了筛选掉第一参考候选实体中不被关注的实体，可以将第一占比阈值设置得很小，比如，可以将第一占比阈值设置为0.01，也就是说需要将第一参考候选实体中，对应的实体义项的频次占比小于0.01和等于0.01的候选实体给筛选掉。即只保留第一参考候选实体中，对应的实体义项的频次占比大于0.01的候选实体。虽然第一占比阈值设置较低，但实测可以过滤掉约60％的实体。

步骤S240：根据所述筛选后的候选实体，确定与所述文本对应的目标实体。

当通过上述方法确定了第一候选实体为筛选后的候选实体后，从第一候选实体中选择与文本最匹配的目标实体。

作为一种方式，若所述第一候选实体包括一个候选实体，则确定所述第一候选实体为与所述文本对应的目标实体。

如果通过第一占比阈值对第一参考候选实体进行筛选后，剩余的候选实体只有一个，那么就将该候选实体作为与文本对应的目标实体。也就是说，将文本链接到该实体上。

本申请提供的一种实体确定方法，首先获取与文本对应的实体识别结果，然后根据实体识别结果所包括的实体名，确定与实体名对应的候选实体作为第一参考候选实体，同时获取第一参考实体对应的实体义项的频次占比，并对第一参考候选实体进行筛选，获取实体义项的频次占比大于第一占比阈值的第一参考候选实体作为第一候选实体，并将第一候选实体作为筛选后的候选实体，最后从筛选后的候选实体中确定与文本对应的目标实体。通过上述方法，将实体义项的频次占比作为筛选条件，筛选掉与实体识别结果对应的候选实体中不满足占比阈值的候选实体，减少了候选实体的数量，进而可以从数量更少的候选实体确定与文本对应的目标实体，加快了确定与文本对应的目标实体的速度。

请参阅图5，本申请实施例提供的一种实体确定方法，所述方法包括：

步骤S310：获取与文本对应的实体识别结果，所述实体识别结果包括实体名和实体类别。

在相关的实体消歧方法中，当用户输入文本时，会识别出文本中的相关实体，然后从知识库中召回所有与相关实体对应的候选实体，然后在进行实体消歧时，通常会根据实体消歧模型输出的各个候选实体对应的消歧分数，对相关候选实体进行排序，并根据排序确定出最终的目标实体。但是由于知识库中存在大量同名实体，例如，神雕侠侣会召回20部电影、小说，因此，在进行候选实体召回时，可能会召回大量同名的候选实体，进而在进行实体消歧时，实体消歧模型可能需要预测大量的数据样本，造成确定目标实体的速度较慢。因此，需要减少输入到实体消歧模型中的数据样本，以减少实体消歧模型进行实体消歧时的计算量，从而可以提高确定与文本对应的目标实体的速度。

因此，可以通过实体名、实体类别、以及实体义项的频次占比、实体类别的频次占比对输入到消歧模型中的样本数据进行筛选。

在本申请实施例中，获取的实体识别结果包括实体的实体名和实体对应的实体类别。其中，可以为通过分类模型识别出文本对应的实体类别。当然，文本对应的实体的实体类别也可以为实时输入的。当实体类别为实时输入的时，这里的实体类别可以是由用户根据类别划分规则确定的。

步骤S320：根据所述实体名，获取至少一个与所述实体名对应的候选实体作为第一参考候选实体，以及获取各所述第一参考候选实体对应的实体义项的频次占比。

步骤S330：根据所述实体对应的实体义项的频次占比，对所述第一参考候选实体进行筛选，获取实体义项的频次占比大于第一占比阈值的第一参考候选实体作为第一候选实体。

步骤S340：若所述第一候选实体包括至少两个候选实体，则根据所述实体类别，从所述第一候选实体中确定与所述实体类别对应的候选实体作为第二参考候选实体。

在本申请实施例中，如果通过第一占比阈值对第一参考候选实体进行筛选后，剩余的候选实体还包括多个，那么可以根据实体识别结果所包括的实体分类对第一候选实体再进行筛选。将第一候选实体中对应的实体类别与实体识别结果所包括的实体类别相同的候选实体确定为第二参考候选实体。例如，“神雕侠侣的小说是谁写的”中实体“神雕侠侣”类型为小说，那么就只保留第一候选实体中实体分类为小说的候选实体作为第二参考候选实体。

步骤S350：获取实体类别的频次占比大于第二占比阈值的第二参考候选实体作为第二候选实体，并将所述第二候选实体作为筛选后的候选实体。

在本申请实施例中，所述第二占比阈值为预先设置的筛选第二参考候选实体的实体类别的频次占比的最小值。作为一种实施方式，为了筛选掉第二参考候选实体中不被关注的实体，可以将第二占比阈值也设置得很小，比如，可以将第二占比阈值设置为0.01，也就是说需要将第二参考候选实体中，对应的实体类别的频次占比小于0.01和等于0.01的候选实体给筛选掉。即只保留第二参考候选实体中，对应的实体类别的频次占比大于0.01的候选实体。虽然第二占比阈值设置较低，但实测使可以过滤掉约15％的实体。

在本申请实施例中，第一占比阈值和第二占比阈值是人为设置的，第一占比阈值和第二占比阈值可以设置为相同的值，也可以设置为不同的值，具体的，可以实际应用需求进行设置，比如，若想要使得筛选掉的候选实体的个数较多，那么就可以将第一占比阈值和第二占比阈值设置的较大，如果想要使得筛选掉的候选实体的个数较少，那么就可以将第一占比阈值和第二占比阈值设置得较小。

步骤S360：若所述第二候选实体包括至少两个候选实体，则根据所述第二候选实体和所述文本，获取所述第二候选实体各自对应的消歧分数。

在本申请实施例中，由于经过多次筛选，剩下的候选实体还包括多个，因此，可以通过实体消歧模型，从第二候选实体中确定与文本对应的目标实体。

作为一种方式，若所述第二候选实体包括至少两个候选实体，将所述第二候选实体以及所述文本输入到消歧模型中，获取所述消歧模型输出的各所述第二候选实体对应的消歧分数。

在本申请实施例中，所述实体消歧模型为基于BERT(Bidirectional EncoderRepresentations from Transformer)模型建立的。实体消歧模型的结构如图6所示，实体消歧模型包括可以包括BERT模型以及多个连接层，其中，BERT模型是一个多层的Transformer，整体是一个自编码语言模型(Autoencoder LM)，并且其设计了两个任务来预训练该BERT模型。

其中，第一个任务是采用MaskLM的方式来训练BERT模型，通俗地说就是在输入一句话的时候，随机地选一些要预测的词，然后用一个特殊的符号[MASK]来代替它们，之后让BERT模型根据所给的标签去学习这些地方该填的词。

第二个任务在双向语言模型的基础上额外增加了一个句子级别的连续性预测任务，即预测输入BERT模型的两段文本是否为连续的文本，引入这个任务可以更好地让模型学到连续的文本片段之间的关系。

通过上述两个任务的训练后的BERT模型可以同时提取词在句子中的关系特征，并且能在多个不同层次提取关系特征，进而更全面反映句子语义。

作为一种方式，在实际应用时，在将第二候选实体以及文本输入到实体消歧模型之前，可以将第二候选实体中对应的每一个候选实体都与文本进行拼接，组成多个单独的样本数据，然后将组成的多个样本数据分别输入到实体消歧模型中。

在将每一个样本输入到实体消歧模型中后，实体消歧模型可以将每一个样本中的每个字/词(或者称为token)都转换成对应的原始字/词向量并将该向量作为BERT模型的输入向量，该向量既可以随机初始化，也可以利用Word2Vector等算法进行预训练以作为初始值。对于实体消歧模型来说，输入的每一个样本都是一个token句子，其中[CLS]表示句子的开始，[SEP]表示句子的结束。

进而，实体消歧模型可以利用Transformer在[CLS]位置对应的输出C，通过softmax层输出第二候选实体各自对应的消歧分数。

示例性的，如图6所示，输入实体消歧模型的文本为“古天乐出演的神雕侠侣共有多少集！神雕侠侣-九五神雕侠侣，类型：作品；《神雕侠侣》是香港电视广播有限...”。当将上述文本输入到实体消歧模型中时，会在该文本的开始位置添加[CLS]，在该文本的结束位置添加[SEP]，也就是在“古”之前添加[CLS]，在“集”之后以及文本的最后各添加一个[SEP]。并将上述文本对应的每一个字/词转换为token，如图6中的Tok1、Tok2、...、TokN。

实体消歧模型可以将Tok1、Tok2、...、TokN转换为对应的向量E₁、E₂、...、E_N作为BERT模型的输入向量。其中，BERT模型的输入向量是由字向量、文本向量和位置向量组成的。

进而，实体消歧模型可以通过softmax输出上述文本对应的消歧分数。

通过上述方法，由于经过了多次筛选，减少了进入实体消歧模型的样本数量，进而节省了计算资源，通过多次筛选可以减少越75％的计算量。

步骤S370：根据所述消歧分数，从所述第二候选实体中确定与所述文本对应的目标实体。

作为一种方式，将所述第二候选实体中对应的消歧分数最高的候选实体，确定为与所述文本对应的目标实体。

在本申请实施例中，当获取到第二候选实体各自对应的消歧分数后，根据每一个候选实体对应的消歧分数对第二候选实体进行排序，将消歧分数最高的候选实体确定为与文本对应的目标实体。其中，消歧分数最高可以理解该候选实体与文本最匹配。

本申请提供的一种实体确定方法，首先获取与文本对应的实体识别结果，然后根据实体识别结果所包括的实体名，确定与实体名对应的候选实体作为第一参考候选实体，同时获取第一参考候选实体对应的实体义项的频次占比，再获取实体义项的频次占比大于第一占比阈值的第一参考候选实体作为第一候选实体。若第一候选实体包括至少两个候选实体，从第一候选实体中确定与实体识别结果所包括的实体类别对应的候选实体作为第二参考候选实体，然后再获取实体类别的频次占比大于第二占比阈值的第二参考候选实体作为第二候选实体，若第二候选实体包括至少两个候选实体，基于第二候选实体和文本，获取第二候选实体各自对应的消歧分数，最后基于消歧分数，从第二候选实体中确定文本对应的目标实体。通过上述方法，根据实体义项的频次占比和实体类别的频次占比进行候选实体筛选，减少了需要计算消歧分数的候选实体的计算量。另外，将实体类别识别增加到实体识别的过程中，在计算量基本不变的情况下，增加了实体筛选的效率。

请参阅图7，本申请实施例提供的一种实体确定方法，所述方法包括：

步骤S410：将所述文本输入到实体识别分类联合模型中，获取所述实体识别分类联合模型输出的与所述文本对应的实体识别结果。

相关技术中，知识问答中的实体识别，只需要识别出实体，并不需要识别出实体的类别，但是这会导致最后输入到实体消歧模型中的样本数量过多，使得实体消歧模型需要预测大量的样本，影响知识问答***的在线服务性能。

为了克服上述问题，在本申请实施例中，在实体识别过程中，增加了实体分类任务，可以通过实体识别分类联合模型同时进行实体的识别和分类，相比于前述只对实体进行识别，只需要增加很少的计算量就可以实现实体的识别及分类。进而，再通过多次筛选候选实体，可以使得最后输入到实体消歧模型中的样本数量大量减少，实体消歧模型只需要对少量的样本进行预测，提高了知识问答***的在线服务性能。

在本申请实施例中，所述实体识别分类联合模型可以是基于BERT模型建立的。如图8所示，实体识别分类联合模型可以包括BERT层和多个全连接层，全连接层包括用于进行实体识别的全连接层和用于进行实体分类的全连接层。该实体识别分类联合模型可以基于输入的文本，同时输出文本对应的实体名和实体类型。

作为一种方式，如图9所示，步骤S410的步骤具体可以包括：

步骤S411：将所述文本输入到实体识别分类联合模型中，通过所述实体识别分类联合模型获取所述文本对应的实体的特征向量。

在本申请实施例中，在将文本输入到实体识别分类联合模型中时，可以通过BERT层得到文本中的实体对应的特征向量以及文本中的字/词对应的特征向量。这里的特征向量包括实体的开始位置的特征向量和实体的结束位置的特征向量。

步骤S412：获取所述实体识别分类联合模型基于所述实体的特征向量输出的与所述文本对应的实体识别结果。

在本申请实施例中，当通过BERT层得到文本中的实体的开始位置的特征向量和实体的结束位置的特征向量后，可以通过实体识别分类联合模型中用于进行实体分类的全连接层，获取实体的开始位置的特征向量和实体的结束位置的特征向量，进而可以对实体进行实体分类，同时，通过实体识别分类联合模型中用于进行实体识别的全连接层，获取文本中的字/词对应的特征向量，进而可以进行实体识别。

通过上述方法，实体识别分类联合模型可以同时输出与文本对应的实体名和实体分类。

步骤S420：根据所述实体名，获取至少一个与所述实体名对应的候选实体作为第一参考候选实体，以及确定各所述第一参考候选实体对应的实体义项的频次占比。

步骤S430：根据所述实体对应的实体义项的频次占比，对所述第一参考候选实体进行筛选，获取实体义项的频次占比大于第一占比阈值的第一参考候选实体作为第一候选实体。

步骤S440：若所述第一候选实体包括至少两个候选实体，则根据所述实体类别，从所述第一候选实体确定与所述实体类别对应的候选实体作为第二参考候选实体。

步骤S450：获取实体类别的频次占比大于第二占比阈值的第二参考候选实体作为第二候选实体，并将所述第二候选实体作为筛选后的候选实体。

步骤S460：若所述第二候选实体包括一个候选实体，则将所述第二候选实体确定为与所述文本对应的目标实体。

在本申请实施例中，如果经过第一占比阈值和第二占比阈值对候选实体进行筛选后，如果剩下的候选实体只有一个，那么就确定该候选实体为与文本对应的目标实体。

本申请提供的一种实体确定方法，首先将文本输入到实体识别分类联合模型中，获取实体识别分类联合模型输出的与文本对应的实体识别结果，确定与实体识别结果所包括的实体名对应的候选实体作为第一参考候选实体，同时确定第一参考候选实体对应的实体义项的频次占比，然后获取实体义项的频次占比大于第一占比阈值的第一参考候选实体作为第一候选实体。若第一候选实体包括至少两个候选实体，从第一候选实体中确定与实体识别结果所包括的实体类别对应的候选实体作为第二参考候选实体，然后再获取实体类别的频次占比大于第二占比阈值的第二参考候选实体作为第二候选实体，若第二候选实体包括一个候选实体，确定该第二候选实体为与文本对应的目标实体。通过上述方法，根据实体义项的频次占比和实体类别的频次占比进行候选实体筛选，加快了确定与文本对应的目标实体的速度。

请参阅图7，本申请实施例提供的一种实体确定方法，所述方法可以包括：

步骤S510：通过实体识别分类联合模型对输入的文本进行识别，获取与所述文本对应的实体名和实体类别。

在知识问答***中，文本可以为用户输入的语音数据对应的文本内容，或者用户输入的提问或者搜索内容。当获取到输入的文本时，通过实体识别分类联合模型对输入的文本进行实体识别和实体分类，得到文本对应的实体名和实体类别。

步骤S520：根据所述文本对应的实体名，从义项库中获取至少一个与实体名对应的候选实体作为第一参考候选实体，以及获取各所述第一参考候选实体对应的实体义项的频次占比和实体类别的频次占比。

步骤S530：根据所述实体对应的实体义项的频次占比，对所述第一参考候选实体进行筛选，获取实体义项的频次占比大于第一占比阈值的第一参考候选实体作为第一候选实体。

步骤S540：确定所述第一候选实体中是否只包括一个候选实体，若是，执行步骤S541，若否，执行步骤S550。

步骤S541：确定所述第一候选实体为所述文本对应的目标实体。

步骤S550：根据所述实体类别，从所述第一候选实体中确定与所述实体类别对应的候选实体作为第二参考候选实体。

步骤S560：获取实体类别的频次占比大于第二占比阈值的第二参考候选实体作为第二候选实体，并将所述第二候选实体作为筛选后的候选实体。

步骤S570：确定所述第二候选实体中是否只包括一个候选实体，若是，执行步骤S571，若否，执行步骤S580。

步骤S571：确定所述第二候选实体为所述文本对应的目标实体。

步骤S580：将所述第二候选实体以及所述文本输入到消歧模型中，获取所述消歧模型输出的各所述第二候选实体对应的消歧分数。

步骤S590：将所述第二候选实体中对应的消歧分数最高的候选实体，确定为与所述文本对应的目标实体。

通过上述方法，可以根据文本的实体识别结果，从义项库中召回了与文本的实体识别结果对应的候选实体，然后可以根据统计参数再将与实体结果对应的候选实体中不符合条件的候选实体筛选掉，减少了候选实体的数量，从而使得输入到消歧模型中的候选实体的数量大量减少，进而减少了消歧模型进行实体消歧时的计算量，加快了从候选实体中确定与文本对应的目标实体的速度。

请参阅图11，本申请实施例提供的一种实体确定装置500，所述装置500包括：

结果获取单元510，用于获取与文本对应的实体识别结果。

作为一种方式，所述结果获取单元510用于将所述文本输入到实体识别分类联合模型中，获取所述实体识别分类联合模型输出的与所述文本对应的实体识别结果。

可选的，所述结果获取单元510具体用于将所述文本输入到实体识别分类联合模型中，通过所述实体识别分类联合模型获取所述文本对应的实体的特征向量；获取所述实体识别分类联合模型基于所述实体的特征向量输出的与所述文本对应的实体识别结果。

第一确定单元520，用于根据所述实体识别结果，获取至少一个候选实体以及各所述候选实体对应的统计参数，所述统计参数用于表征对应的候选实体被关注的程度。

作为一种方式，所述第一确定单元520用于根据所述实体名，获取至少一个与所述实体名对应的候选实体作为第一参考候选实体；以及获取各所述第一参考候选实体对应的实体义项的频次占比。

筛选单元530，用于根据所述统计参数，对所述至少一个候选实体进行筛选，得到筛选后的候选实体。

作为一种方式，所述筛选单元530还用于根据所述实体对应的实体义项的频次占比，对所述第一参考候选实体进行筛选，获取实体义项的频次占比大于第一占比阈值的第一参考候选实体作为第一候选实体，并将所述第一候选实体作为筛选后的候选实体。

第二确定单元540，用于根据所述筛选后的候选实体，确定与所述文本对应的目标实体。

作为一种方式，所述第二确定单元540还用于若所述第一候选实体包括至少两个候选实体，则根据所述实体类别，从所述第一候选实体中确定与所述实体类别对应的候选实体作为第二参考候选实体；获取实体类别的频次占比大于第二占比阈值的第二参考候选实体作为第二候选实体，并将所述第二候选实体作为筛选后的候选实体；若所述第二候选实体包括一个候选实体，则将所述第二候选实体确定为与所述文本对应的目标实体。

作为另一种方式，所述第二确定单元540还用于若所述第二候选实体包括至少两个候选实体，则根据所述第二候选实体和所述文本，获取所述第二候选实体各自对应的消歧分数；根据所述消歧分数，从所述第二候选实体中确定与所述文本对应的目标实体。

再者，所述第二确定单元540还用于将所述第二候选实体中对应的消歧分数最高的候选实体，确定为与所述文本对应的目标实体。

所述第二确定单元540还用于若所述第二候选实体包括至少两个候选实体，将所述第二候选实体以及所述文本输入到消歧模型中，获取所述消歧模型输出的所述第二候选实体各自对应的消歧分数。

需要说明的是，本申请中装置实施例与前述方法实施例是相互对应的，装置实施例中具体的原理可以参见前述方法实施例中的内容，此处不再赘述。

下面将结合图12对本申请提供的一种电子设备进行说明。

请参阅图12，基于上述的实体确定方法、装置，本申请实施例还提供的另一种可以执行前述实体确定方法的电子设备800。电子设备800包括相互耦合的一个或多个(图中仅示出一个)处理器802、存储器804以及网络模块806。其中，该存储器804中存储有可以执行前述实施例中内容的程序，而处理器802可以执行该存储器804中存储的程序。

其中，处理器802可以包括一个或者多个处理核。处理器802利用各种接口和线路连接整个电子设备800内的各个部分，通过运行或执行存储在存储器804内的指令、程序、代码集或指令集，以及调用存储在存储器804内的数据，执行电子设备800的各种功能和处理数据。可选地，处理器802可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器802可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器802中，单独通过一块通信芯片进行实现。

存储器804可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器804可用于存储指令、程序、代码、代码集或指令集。存储器804可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备800在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

所述网络模块806用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯，例如和音频播放设备进行通讯。所述网络模块806可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。所述网络模块806可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。例如，网络模块806可以与基站进行信息交互。

请参考图13，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质900中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质900可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质900包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质900具有执行上述方法中的任何方法步骤的程序代码910的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码910可以例如以适当形式进行压缩。

本申请提供的一种实体确定方法、装置、电子设备以及存储介质，首先获取与文本对应的实体识别结果，然后基于实体识别结果，确定候选实体以及候选实体对应的统计参数，所述统计参数表征对应的候选实体被关注的程度，再根据统计参数，对至少一个候选实体进行筛选，得到筛选后的候选实体，最后根据筛选后的候选实体，确定与文本对应的目标实体。通过上述方法，可以根据文本的实体识别结果，召回与实体识别结果对应的候选实体，然后可以根据统计参数对与实体识别结果对应的候选实体进行筛选，得到筛选后的候选实体，缩小了候选实体的筛选范围，进而可以加快从筛选后的候选实体中确定与文本对应的目标实体的速度。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种实体确定方法，其特征在于，所述方法包括：

获取与文本对应的实体识别结果；

根据所述实体识别结果，获取至少一个候选实体以及各所述候选实体对应的统计参数，所述统计参数用于表征对应的候选实体被关注的程度；

根据所述统计参数，对所述至少一个候选实体进行筛选，得到筛选后的候选实体；

根据所述筛选后的候选实体，确定与所述文本对应的目标实体。

2.根据权利要求1所述的方法，其特征在于，所述实体识别结果包括实体名，所述统计参数包括实体对应的实体义项的频次占比；所述根据所述实体识别结果，获取至少一个候选实体以及各所述候选实体对应的统计参数，包括：

根据所述实体名，获取至少一个与所述实体名对应的候选实体作为第一参考候选实体；以及获取各所述第一参考候选实体对应的实体义项的频次占比；

所述根据所述统计参数，对所述至少一个候选实体进行筛选，得到筛选后的候选实体，包括：

根据所述实体对应的实体义项的频次占比，对所述第一参考候选实体进行筛选，获取实体义项的频次占比大于第一占比阈值的第一参考候选实体作为第一候选实体，并将所述第一候选实体作为筛选后的候选实体。

3.根据权利要求2所述的方法，其特征在于，所述识别结果还包括实体类别，所述统计参数还包括实体对应的实体类别的频次占比，所述根据所述筛选后的候选实体，确定与所述文本对应的目标实体，包括：

若所述第一候选实体包括至少两个候选实体，则根据所述实体类别，从所述第一候选实体中确定与所述实体类别对应的候选实体作为第二参考候选实体；

获取实体类别的频次占比大于第二占比阈值的第二参考候选实体作为第二候选实体，并将所述第二候选实体作为筛选后的候选实体；

若所述第二候选实体包括一个候选实体，则将所述第二候选实体确定为与所述文本对应的目标实体。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

若所述第二候选实体包括至少两个候选实体，则根据所述第二候选实体和所述文本，获取各所述第二候选实体对应的消歧分数；

根据所述消歧分数，从所述第二候选实体中确定与所述文本对应的目标实体。

5.根据权利要求4所述的方法，其特征在于，所述根据所述消歧分数，从所述第二候选实体中确定与所述识别文本对应的目标实体，包括：

将所述第二候选实体中对应的消歧分数最高的候选实体，确定为与所述文本对应的目标实体。

6.根据权利要求4所述的方法，其特征在于，所述若所述第二候选实体包括至少两个候选实体，则根据所述第二候选实体和所述文本，获取各所述第二候选实体对应的消歧分数，包括：

若所述第二候选实体包括至少两个候选实体，则将所述第二候选实体以及所述文本输入到消歧模型中，获取所述消歧模型输出的各所述第二候选实体对应的消歧分数。

7.根据权利要求2所述的方法，其特征在于，所述根据所述筛选后的候选实体，确定与所述文本对应的目标实体还包括：

若所述第一候选实体包括一个候选实体，则将所述第一候选实体确定为与所述文本对应的目标实体。

8.根据权利要求2-7任一所述的方法，其特征在于，所述获取与所述文本对应的实体识别结果，包括：

将所述文本输入到实体识别分类联合模型中，获取所述实体识别分类联合模型输出的与所述文本对应的实体识别结果。

9.根据权利要求8所述的方法，其特征在于，所述将所述文本输入到实体识别分类联合模型中，获取所述实体识别分类联合模型输出的与所述文本对应的实体识别结果，包括：

将所述文本输入到实体识别分类联合模型中，通过所述实体识别分类联合模型获取所述文本对应的实体的特征向量；

获取所述实体识别分类联合模型基于所述实体的特征向量输出的与所述文本对应的实体识别结果。

10.一种实体确定装置，其特征在于，所述装置包括：

结果获取单元，用于获取与文本对应的实体识别结果；

第一确定单元，用于根据所述实体识别结果，获取至少一个候选实体以及各所述候选实体对应的统计参数，所述统计参数用于表征对应的候选实体被关注的程度；

筛选单元，用于根据所述统计参数，对所述至少一个候选实体进行筛选，得到筛选后的候选实体；

第二确定单元，用于根据所述筛选后的候选实体，确定与所述文本对应的目标实体。

11.一种电子设备，其特征在于，包括一个或多个处理器；一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行权利要求1-9任一所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码被处理器运行时执行权利要求1-9任一所述的方法。

13.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-9任一所述的方法的步骤。