CN104573130B

CN104573130B - 基于群体计算的实体解析方法及装置

Info

Publication number: CN104573130B
Application number: CN201510076586.4A
Authority: CN
Inventors: 刘旭东; 孙海龙; 郭莉莎; 张日崇
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2015-02-12
Filing date: 2015-02-12
Publication date: 2017-11-03
Anticipated expiration: 2035-02-12
Also published as: CN104573130A

Abstract

本发明实施例提供一种基于群体计算的实体解析方法及装置，该方法包括：先对数据库中的初始记录进行分层聚类得到至少两个聚类子集；当检测到所述数据库中增加了新记录时，从所述至少两个聚类子集中得到与所述新记录最相关的至少两个相关聚类子集，并确定与所述至少两个相关聚类子集分别对应的候选记录对；通过众包用户标注方式判断是否至少一个所述候选记录对代表同一实体；若确定第一候选记录对代表同一实体，则将所述新记录添加到第一记录所属的第一聚类子集中；若确定所有所述候选记录对都不代表同一实体，则为所述新记录建立一个新聚类子集，并为所述新聚类子集创建标签集；从而可对静态和动态数据集进行实体解析，提升了解析效率。

Description

基于群体计算的实体解析方法及装置

技术领域

本发明实施例涉及计算机技术，尤其涉及一种基于群体计算的实体解析方法及装置。

背景技术

数据库是按照数据结构来组织、存储和管理数据的仓库；随着信息技术和市场的发展，数据管理不再仅仅是存储和管理数据，而转变成用户所需要的各种数据管理的方式。在数据库管理过程中提出了实体解析，其中，实体解析的目的是识别出数据库中代表同一实体的不同记录。随着大数据时代的到来，越来越多的数据在被进一步地分析处理前需要被匹配或整合，因此，对于高质量的实体解析的需求正在迅速增长。

现有的实体解析方法主要针对静态数据源(即假设数据源是静态不变的)，且每次实体解析过程都是对整个数据源进行解析。但在实际应用中，每段时间数据库中都会有新的数据增加、删除或修改，即大部分数据源都是动态变化的，如社交网站上用户提交的信息、电子商务网站上的商品信息、软件工程领域中的Bug资源库等；若采用现有的实体解析方法，数据库中每次有新增数据时都需要对整个数据源进行实体解析，花费较大，即解析效率较低。

发明内容

本发明实施例提供一种基于群体计算的实体解析方法及装置，可对静态和动态数据集进行实体解析，在较少花销下实现较高的查全率和查准率，从而提升了解析效率。

第一方面，本发明实施例提供一种基于群体计算的实体解析方法，包括：

基于众包的分层聚类方法对数据库中的初始记录进行分层聚类，得到至少两个聚类子集；

当检测到所述数据库中增加了新记录时，获取所述新记录的特征信息；

根据所述至少两个聚类子集的子集信息及所述新记录的特征信息从所述至少两个聚类子集中得到与所述新记录最相关的至少两个相关聚类子集；其中，所述至少两个聚类子集的子集信息包括：所述聚类子集的标签集信息及索引信息；

根据所述新记录与所述至少两个相关聚类子集中每个记录的相似度大小关系确定与所述至少两个相关聚类子集分别对应的候选记录对；

通过众包用户标注方式判断是否至少一个所述候选记录对代表同一实体；若确定第一候选记录对代表同一实体，则将所述新记录添加到第一记录所属的第一聚类子集中，并更新所述第一聚类子集的标签集；若确定所有所述候选记录对都不代表同一实体，则为所述新记录建立一个新聚类子集，并为所述新聚类子集创建标签集；其中，所述第一记录与所述新记录形成所述第一候选记录对。

可选地，所述基于众包的分层聚类方法对数据库中的初始记录进行分层聚类，得到至少两个聚类子集，包括：

根据每对所述初始记录之间代表同一实体的概率大小将代表同一实体的概率大于上限概率阈值的初始记录对聚为一类，形成相应的初级聚类子集，并为每个所述初级聚类子集创建标签集及索引；其中，每对所述初始记录形成所述初始记录对；

通过众包用户标注方式依次将所述初级聚类子集分层地进行合并，直至合并后的各个聚类子集之间的最小距离大于下限阈值，最终得到至少两个聚类子集。

可选地，所述根据每对所述初始记录之间代表同一实体的概率大小将代表同一实体的概率大于上限概率阈值的初始记录对聚为一类，形成相应的初级聚类子集，包括：

获取所述初始记录对代表同一实体的概率；

将代表同一实体的概率大于上限概率阈值的所述初始记录对聚为一类，形成相应的初级聚类子集。

可选地，所述通过众包用户标注方式依次将所述初级聚类子集分层地进行合并，直至合并后的各个聚类子集之间的最小距离大于下限阈值，最终得到至少两个聚类子集，包括：

步骤A、计算所述初级聚类子集中每对初级聚类子集之间的距离，选择所述距离最小的一对初级聚类子集作为两个候选合并子集；

步骤B、判断所述两个候选合并子集之间的距离是否小于下限阈值；若所述两个候选合并子集之间的距离小于所述下限阈值，则分别从所述两个候选合并子集中选择第二记录形成第二候选记录对，将所述第二候选记录对以及所述两个候选合并子集的标签集发送给众包平台，以使所述众包平台判断所述第二候选记录对是否代表同一实体以及是否对所述标签集中的标签点赞；其中，所述第二候选记录对为所述两个候选合并子集中代表同一实体的概率最大的记录对；

步骤C、接收所述众包平台返回的第一判断结果，并根据所述第一判断结果确定是否将所述两个候选合并子集合并以及根据所述众包平台对所述标签集中标签的点赞次数对所述标签集中的标签进行排序和/或过滤；若根据所述第一判断结果确定所述两个候选合并子集代表同一实体，则将所述两个候选合并子集合并为一个聚类子集，更新所述聚类子集的标签集及索引，并将合并得到的所述聚类子集作为初级聚类子集；若根据所述第一判断结果确定所述两个候选合并子集不代表同一实体，则将所述两个候选合并子集之间的距离设为1；

返回继续执行所述步骤A-步骤C，直至所述两个候选合并子集之间的距离大于所述下限阈值，则将至少两个所述初级聚类子集作为得到的所述至少两个聚类子集。

可选地，所述获取所述初始记录对代表同一实体的概率，包括：

根据所述初始记录对的相应属性之间的相似性计算所述初始记录对的相似度；

基于机器学习模型计算所述初始记录对代表同一实体的概率。

可选地，所述计算所述初级聚类子集中每对初级聚类子集之间的距离，包括：

分别从所述每对初级聚类子集中选择代表同一实体的概率最大的记录对(r_i，r_j)，其中，r_i∈C_i，r_j∈C_j，C_i为所述每对初级聚类子集中的一个初级聚类子集，C_j为所述每对初级聚类子集中的另一个初级聚类子集；

根据公式得到所述每对初级聚类子集之间的距离；其中，maxSimi为所述记录对(r_i，r_j)代表同一实体的概率，cosinSimi为所述每对初级聚类子集的余弦相似度。

可选地，所述根据所述至少两个聚类子集的子集信息及所述新记录的特征信息从所述至少两个聚类子集中得到与所述新记录最相关的至少两个相关聚类子集，包括：

根据所述基于众包的分层聚类方法对数据库中的初始记录进行分层聚类得到的所述至少两个聚类子集的标签集信息及索引信息建立倒排索引；

根据所述倒排索引及所述新记录的特征信息进行检索，从所述至少两个聚类子集中得到与所述新记录最相关的所述至少两个相关聚类子集。

可选地，所述根据所述新记录与所述至少两个相关聚类子集中每个记录的相似度大小关系确定与所述至少两个相关聚类子集分别对应的候选记录对，包括：

分别计算所述新记录与所述至少两个相关聚类子集中每个记录的相似度；

分别从每个所述相关聚类子集中选择一个与所述新记录的相似度最大的记录，并分别与所述新记录形成对应所述相关聚类子集的候选记录对；其中，所述相关聚类子集的个数等于所述候选记录对的个数。

可选地，所述通过众包用户标注方式判断是否至少一个所述候选记录对代表同一实体；若确定第一候选记录对代表同一实体，则将所述新记录添加到第一记录所属的第一聚类子集中，并更新所述第一聚类子集的标签集；若确定所有所述候选相似对都不代表同一实体，则为所述新记录建立一个新聚类子集，并为所述新聚类子集创建标签集，包括：

将所有所述候选记录对发送给众包平台，以使所述众包平台判断所述候选记录对是否代表同一实体；

接收所述众包平台返回的第二判断结果，并根据所述第二判断结果确定是否至少一个所述候选记录对代表同一实体；若根据所述第二判断结果确定第一候选记录对代表同一实体，则将所述新记录添加到第一记录所属的第一聚类子集中，并更新所述第一聚类子集的标签集；若根据所述第二判断结果确定所有所述候选记录对都不代表同一实体，则为所述新记录建立一个新聚类子集，并为所述新聚类子集创建标签集。

第二方面，本发明实施例提供一种基于群体计算的实体解析装置，包括：

分层聚类模块，用于基于众包的分层聚类方法对数据库中的初始记录进行分层聚类，得到至少两个聚类子集；

检测模块，用于当检测到所述数据库中增加了新记录时，获取所述新记录的特征信息；

第一确定模块，用于根据所述至少两个聚类子集的子集信息及所述新记录的特征信息从所述至少两个聚类子集中得到与所述新记录最相关的至少两个相关聚类子集；其中，所述至少两个聚类子集的子集信息包括：所述聚类子集的标签集信息及索引信息；

第二确定模块，用于根据所述新记录与所述至少两个相关聚类子集中每个记录的相似度大小关系确定与所述至少两个相关聚类子集分别对应的候选记录对；

划分模块，用于通过众包用户标注方式判断是否至少一个所述候选记录对代表同一实体；若确定第一候选记录对代表同一实体，则将所述新记录添加到第一记录所属的第一聚类子集中，并更新所述第一聚类子集的标签集；若确定所有所述候选记录对都不代表同一实体，则为所述新记录建立一个新聚类子集，并为所述新聚类子集创建标签集；其中，所述第一记录与所述新记录形成所述第一候选记录对。

本发明中，基于众包的分层聚类方法对数据库中的初始记录进行分层聚类，得到至少两个聚类子集；进一步地，当检测到所述数据库中增加了新记录时，获取所述新记录的特征信息；进一步地，根据所述至少两个聚类子集的子集信息及所述新记录的特征信息从所述至少两个聚类子集中得到与所述新记录最相关的至少两个相关聚类子集，其中，所述至少两个聚类子集的子集信息包括：所述聚类子集的标签集信息及索引信息；进一步地，根据所述新记录与所述至少两个相关聚类子集中每个记录的相似度大小关系确定与所述至少两个相关聚类子集分别对应的候选记录对；进一步地，通过众包用户标注方式判断是否至少一个所述候选记录对代表同一实体；若确定第一候选记录对代表同一实体，则将所述新记录添加到第一记录所属的第一聚类子集中，并更新所述第一聚类子集的标签集；若确定所有所述候选记录对都不代表同一实体，则为所述新记录建立一个新聚类子集，并为所述新聚类子集创建标签集；其中，所述第一记录与所述新记录形成所述第一候选记录对；即可对静态和动态数据集进行实体解析，在较少花销下实现较高的查全率和查准率，从而提升了解析效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于群体计算的实体解析方法实施例一的流程示意图；

图2为本发明基于群体计算的实体解析方法实施例二的流程示意图；

图3为本发明基于群体计算的实体解析方法实施例三的流程示意图；

图4为本发明基于群体计算的实体解析装置实施例一的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于在某些场景下，代表同一实体的不同记录通常并不相同；实体解析的主要任务就是识别出数据库中代表同一实体的不同记录，在清洗或者整合来自多个数据源的数据时尤其重要。例如邮箱列表可能包含很多条实际上指的是同一个物理地址的记录，但由于包含一些不同的拼写或者缺失部分信息等，每条记录之间一定会存在一些差别。例如，一个公司可能会拥有多个不同的用于存放用户资料信息的数据库(每个数据库属于一个子部门)，一般情况下，公司希望能够通过整合这些用户信息获得每个用户更加完整的资料；由于在每个不同的数据库中，每个用户信息可能以不同的形式出现，即不存在一个统一的识别符，因此，在多个数据库之间识别匹配的用户信息并不容易。

机器学习是近20多年兴起的一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法，即机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。机器学习算法大致可以分为监督学习、半监督学习、无监督学习和增强学习四大类；1)监督学习是指从给定的训练数据集中学习出一个函数，当新的数据到来时，可以根据这个函数预测结果；其中，监督学习的训练数据集要求是包括输入和输出(即特征和目标)，训练数据集中的目标是由人标注的；常见的监督学习算法包括回归分析和统计分类；2)无监督学习与监督学习相比，训练数据集没有人为标注的结果，常见的无监督学习算法有聚类；3)半监督学习介于监督学习与无监督学习之间；4)增强学习通过观察来学习，即每个动作都会对环境有所影响，学习对象根据观察到的周围环境的反馈来做出判断。

随着大数据时代的到来，对于高质量的实体解析的需求正在迅速增长，传统的实体解析方案是基于机器学***台进行实体解析，虽然人工标注的准确率比机器判断高，但是却会在时间和金钱上带来更大的花费。

目前基于群体计算的实体解析方法都只适用于静态的数据库，即每次都是对整个数据库进行解析，其中，群体计算的思想就是将众包与机器学习或者人工智能与云计算相结合，通过融合计算机处理的高效性和人群智慧的准确性来解决问题。但在实际应用中数据库都是动态的，比如Facebook中地标数据集、软件工程中的Bug资源库，即每段时间数据库中都会有新的数据增加，需要和数据库中已有的数据进行解析。因此，传统的仅适用于静态数据源的实体解析方法已经不能满足动态数据源的需求。

本发明通过融合计算机处理的高效性和人群智慧的准确性对数据进行解析，提出一种基于群体计算且能对静态和动态数据集进行实体解析的方案，该方案能在较少的花销下，实现较高的查全率和查准率。

图1为本发明基于群体计算的实体解析方法实施例一的流程示意图，如图1所示，本实施例的方法可以包括：

S101、基于众包的分层聚类方法对数据库中的初始记录进行分层聚类，得到至少两个聚类子集。

由于在实际应用的数据源中，大部分的记录之间都不是重复的；如果将所有的记录对都交给众包平台判断，在经济和时间上都不可行，因此，可以基于机器学习得到的记录对的重复概率，通过设定上下限概率阀值过滤掉极大概率或者极小概率代表同一实体的记录对，即认为概率大于上限概率阀值的记录对则代表同一实体，概率小于下限概率阀值的记录对则不代表同一实体。

本发明实施例中，通过分层聚类算法将代表同一实体的记录都聚到同一个子类中(即不同的子类中的记录对则代表不同实体)；分层聚类是指由不同层次的分割聚类组成，层次之间的分割具有嵌套的关系。具体地，通过采用自底向上的策略进行聚类，首先通过过滤步骤后得到初级聚类子集，然后根据每对初级聚类子集之间的距离并通过众包用户标注方式按照一定的次序迭代地将所述初级聚类子集分层地合并为较大的聚类子集，直至合并后的各个聚类子集之间的最小距离大于下限阈值即每对聚类子集所包含的记录之间代表同一实体的概率都小于所述下限概率阀值(其中，两个聚类子集之间的距离越小，则表示所述两个聚类子集之间的记录对代表同一实体的概率越大或者所述两个聚类子集之间重复的概率越大；两个聚类子集之间的距离越大，则表示所述两个聚类子集之间的记录对代表同一实体的概率越小或者所述两个聚类子集之间重复的概率越小)；其中，合并后的各个聚类子集之间的最小距离大于下限阈值，则代表各个聚类子集之间的记录对代表同一实体的概率小于所述下限概率阀值，也即各个聚类子集并不代表同一实体，因此，聚类算法停止。可选地，所述通过过滤步骤后得到初级聚类子集包括：根据所述上限概率阀值对数据库中的初始记录进行初步聚类，如将代表同一实体的概率大于所述上限概率阀值的初始记录对聚到一类中形成相应的初级聚类子集；其中，每个所述初级聚类子集中的记录都代表同一实体，不同所述初级聚类子集之间的记录则不代表同一实体。

可选的，步骤101包括：

本发明实施例中，可选地，首先通过获取所述初始记录对代表同一实体的概率；其次，将代表同一实体的概率大于上限概率阈值的所述初始记录对聚为一类，形成相应的初级聚类子集；进一步地为了后续进行动态数据的查询，为每个所述初级聚类子集创建标签集及索引，可选地，通过机器或者人工标注为每个所述初级聚类子集创建标签集，可选地，通过对所述初级聚类子集中每个记录的属性值进行分词、去停用词、取词干处理，然后选择在记录之间重复出现并且在整个数据集中逆向文件频率(inverse document frequency，简称IDF)值较大的词(即关键词)添加到所述初级聚类子集的标签集中(其中，IDF值是一个词语普遍重要性的度量，某一特定词语的IDF值等于：总文件数目除以包含该词语之文件的数目得到商值，再对所述商值取对数得到的数值)；并根据所述初级聚类子集的标签集信息为每个所述初级聚类子集创建索引，其中，所述索引信息包括所述初级聚类子集中记录的关键词；进一步地，通过众包用户标注方式依次将所述初级聚类子集分层地进行合并，直至合并后的各个聚类子集之间的最小距离大于下限阈值，则代表各个聚类子集之间的记录对代表同一实体的概率小于所述下限概率阀值，也即各个聚类子集并不代表同一实体，因此，聚类算法停止，最终得到至少两个聚类子集。

本发明实施例中，每个所述初始记录对(所述初始记录对包括两个初始记录)的相似度可以用一个特征向量表示，所述特征向量的每一维表示两个所述初始记录之间某个属性的相似性，假设用n个计算相似度的函数来度量m个属性，则所述特征向量的维度是n*m维，即可根据所述初始记录对的相应属性之间的相似性计算所述初始记录对的相似度。进一步地，基于机器学习模型的实体解析可以看作为分类问题，例如正表示两个记录代表的是同一实体，否则表示所述两个实体代表不同实体，即一般分类器的输入是代表一对记录之间相似度的特征向量，输出是两类问题的分类结果，但是本申请需要得到的一对记录代表同一实体的概率，因此，本发明实施例中提出基于机器学习模型计算所述初始记录对代表同一实体的概率，可选地，通过训练集来训练分类器，其中，所述训练集包含分别表示重复记录(即代表同一实体的记录)和非重复记录(即代表不同实体的记录)的特征向量，训练出的分类器即可表示每个所述初始记录对代表同一实体的概率。

可选地，所述上限概率阈值及所述下限概率阀值可根据设定目标的查全率和查准率来确定；若所述上限概率阀值设置得太低，会降低查准率；若所述下限概率阀值太高，会降低查全率；若所述上限概率阀值太高或者所述下限概率阀值太低，会影响过滤效率。

S102、当检测到所述数据库中增加了新记录时，获取所述新记录的特征信息。

本发明实施例中，当检测到所述数据库中增加了新记录R时，获取所述新记录的特征信息，可选地，对所述新记录的属性值进行分词、去停用词、取词干，并根据词频-逆向文件频率(term frequency–inverse document frequency，简称TF-IDF)值提取关键词(即特征信息)，以便根据所述新记录的特征信息及所述数据库中已存在的所述聚类子集的子集信息，对所述新记录进行合理地分类，如若确定所述新记录与某个所述聚类子集中的记录都代表同一实体，则将所述新记录合并入所述聚类子集，或者若确定所述新记录与任一所述聚类子集中的记录都不代表同一实体，则将为所述新记录建立一个新聚类子集。

S103、根据所述至少两个聚类子集的子集信息及所述新记录的特征信息从所述至少两个聚类子集中得到与所述新记录最相关的至少两个相关聚类子集。

本发明实施例中，根据所述至少两个聚类子集的子集信息及所述新记录的特征信息通过信息检索方式从所述至少两个聚类子集中得到与所述新记录最相关的至少两个相关聚类子集；可选地，所述至少两个聚类子集的子集信息包括：所述聚类子集的标签集信息及索引信息。

可选地，步骤S103包括：

本发明实施例中，根据所述基于众包的分层聚类方法对数据库中的初始记录进行分层聚类得到的所述至少两个聚类子集的标签集信息及索引信息建立倒排索引，可选地，根据每个所述聚类子集的标签集信息及索引信息将每个所述聚类子集的标签集中的所有标签作为键，每个所述聚类子集的存储地址作为值，即所述倒排索引中的每一项都包括一个属性值和具有该属性值对应记录的存储地址(由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引)；进一步地，根据所述倒排索引及所述新记录的特征信息通过信息检索方式进行检索，从所述至少两个聚类子集中得到与所述新记录最相关的所述至少两个相关聚类子集，即与所述新记录最可能代表同一实体的至少两个相关聚类子集。

S104、根据所述新记录与所述至少两个相关聚类子集中每个记录的相似度大小关系确定与所述至少两个相关聚类子集分别对应的候选记录对。

本发明实施例中，根据所述新记录R与所述至少两个相关聚类子集中每个记录的相似度大小关系，分别从每个所述相关聚类子集中选择一个与所述新记录的相似度最大的记录R’，从而确定与所述至少两个相关聚类子集分别对应的候选记录对(R，R’)。

可选地，所述步骤S104包括：

本发明实施例中，分别计算所述新记录R与所述至少两个相关聚类子集中每个记录的相似度，进一步地，分别从每个所述相关聚类子集中选择一个与所述新记录R的相似度最大的记录R’，并分别与所述新记录R形成对应所述相关聚类子集的候选记录对(R，R’)；其中，所述相关聚类子集的个数等于所述候选记录对的个数，如若步骤S103中得到与所述新记录R最相关的五个相关聚类子集，则步骤S104中确定与所述五个相关聚类子集分别对应的五个候选记录对。可选地，可以通过文本相似度算法计算所述新记录R与所述至少两个相关聚类子集中每个记录的相似度。

S105、通过众包用户标注方式判断是否至少一个所述候选记录对代表同一实体；若确定第一候选记录对代表同一实体，则将所述新记录添加到第一记录所属的第一聚类子集中，并更新所述第一聚类子集的标签集；若确定所有所述候选记录对都不代表同一实体，则为所述新记录建立一个新聚类子集，并为所述新聚类子集创建标签集；其中，所述第一记录与所述新记录形成所述第一候选记录对。

本发明实施例中，在根据所述新记录与所述至少两个相关聚类子集中每个记录的相似度大小关系确定与所述至少两个相关聚类子集分别对应的候选记录对后，将所述候选记录对(R，R’)发送给众包平台，通过众包用户标注方式判断是否至少一个所述候选记录对(R，R’)代表同一实体；若确定第一候选记录对(R，R1’)代表同一实体，则将所述新记录R添加到第一记录R1’所属的第一聚类子集中(其中，所述第一聚类子集为所述至少两个相关聚类子集中的一个聚类子集)，并更新所述第一聚类子集的标签集；若确定所有所述候选相似对(R，R’)都不代表同一实体，则为所述新记录R建立一个新聚类子集，并为所述新聚类子集创建标签集，可选地，通过提取所述新记录的关键词创建所述新聚类子集的标签集；其中，所述第一候选记录对(R，R1’)为所有所述候选记录对(R，R’)中某一个候选记录对。

可选地，步骤S105包括：

本发明实施例中，将步骤S104中确定的所有所述候选记录对(R，R’)发送给众包平台，以使所述众包平台判断所述候选记录对(R，R’)是否代表同一实体，如所述众包平台通过对每个所述候选记录对(R，R’)进行标注的形式指示所述候选记录对(R，R’)是否代表同一实体；进一步地，接收所述众包平台返回的第二判断结果(如所述众包平台对每个所述候选记录对标注的是否代表同一实体的结果)，并根据所述第二判断结果确定是否至少一个所述候选记录对代表同一实体，由于所述众包平台会包括多个众包用户即多个众包用户会对每个所述候选记录对标注是否代表同一实体，也即所述第二判断结果为多个众包用户对每个所述候选记录对标注的是否代表同一实体的结果，可选地，采用投票算法进行众包结果汇聚即选择票数过半的答案作为结果，若多半以上众包用户对某个所述候选记录对标注为代表同一实体，则确定所述候选记录对代表同一实体，若个别或者少于一半的众包用户对某个所述候选记录对标注为代表不同实体，则确定所述候选记录对不代表同一实体；若根据所述第二判断结果确定第一候选记录对代表同一实体，则将所述新记录添加到第一记录所属的第一聚类子集中，并更新所述第一聚类子集的标签集；若根据所述第二判断结果确定所有所述候选记录对都不代表同一实体，则为所述新记录建立一个新聚类子集，并为所述新聚类子集创建标签集。

本发明实施例中，基于众包的分层聚类方法对数据库中的初始记录进行分层聚类，得到至少两个聚类子集；进一步地，当检测到所述数据库中增加了新记录时，获取所述新记录的特征信息；进一步地，根据所述至少两个聚类子集的子集信息及所述新记录的特征信息从所述至少两个聚类子集中得到与所述新记录最相关的至少两个相关聚类子集，其中，所述至少两个聚类子集的子集信息包括：所述聚类子集的标签集信息及索引信息；进一步地，根据所述新记录与所述至少两个相关聚类子集中每个记录的相似度大小关系确定与所述至少两个相关聚类子集分别对应的候选记录对；进一步地，通过众包用户标注方式判断是否至少一个所述候选记录对代表同一实体；若确定第一候选记录对代表同一实体，则将所述新记录添加到第一记录所属的第一聚类子集中，并更新所述第一聚类子集的标签集；若确定所有所述候选记录对都不代表同一实体，则为所述新记录建立一个新聚类子集，并为所述新聚类子集创建标签集；其中，所述第一记录与所述新记录形成所述第一候选记录对；即可对静态和动态数据集进行实体解析，在较少花销下实现较高的查全率和查准率，从而提升了解析效率。

本发明实施例中，在步骤A中计算所述初级聚类子集中每对初级聚类子集之间的距离，选择所述距离最小的一对初级聚类子集作为两个候选合并子集；其中，距离最小的一对初级聚类子集代表所述初级聚类子集之间的记录对代表同一实体的概率最大。可选地，所述计算所述初级聚类子集中每对初级聚类子集之间的距离，包括：分别从所述每对初级聚类子集中选择代表同一实体的概率最大的记录对(r_i，r_j)，其中，r_i∈C_i，r_j∈C_j，C_i为所述每对初级聚类子集中的一个初级聚类子集，C_j为所述每对初级聚类子集中的另一个初级聚类子集；进一步地，根据公式得到所述每对初级聚类子集之间的距离；其中，maxSimi为所述记录对(r_i，r_j)代表同一实体的概率，cosinSimi为所述每对初级聚类子集的余弦相似度。可选地，还可采用其它方式计算所述初级聚类子集中每对初级聚类子集之间的距离，此处不再赘述。

进一步地，在步骤B中通过判断所述两个候选合并子集之间的距离是否小于下限阈值(即判断所述两个候选合并子集的记录对代表同一实体的概率是否大于所述下限概率阈值)；若所述两个候选合并子集之间的距离小于所述下限阈值(即代表所述两个候选合并子集之间的记录对代表同一实体的概率大于所述下限概率阈值)，则分别从所述两个候选合并子集中选择第二记录形成第二候选记录对，将所述第二候选记录对以及所述两个候选合并子集的标签集发送给众包平台，以使所述众包平台判断所述第二候选记录对是否代表同一实体以及是否对所述标签集中的标签点赞，如所述众包平台通过对所述第二候选记录对进行标注的形式指示所述第二候选记录对是否代表同一实体；其中，所述第二候选记录对为所述两个候选合并子集中代表同一实体的概率最大的记录对，如所述两个候选合并子集中选择代表同一实体的概率最大的记录对(r₁，r₂)(即所述第二候选记录对)，所述两个候选合并子集分别为C₁及C₂，r₁为C₁中的第二记录，r₂为C₂中的第二记录。

进一步地，在步骤C中接收所述众包平台返回的第一判断结果(如所述众包平台对所述第二候选记录对标注的是否代表同一实体的结果以及对所述两个候选合并子集的标签集中标签的点赞次数结果)，并根据所述第一判断结果确定是否将所述两个候选合并子集合并以及根据所述众包平台对所述标签集中标签的点赞次数对所述标签集中的标签进行排序和/或过滤，由于所述众包平台会包括多个众包用户即多个众包用户会对所述第二候选记录对标注是否代表同一实体，也即所述第二判断结果为多个众包用户对所述第二候选记录对标注的是否代表同一实体的结果以及对所述两个候选合并子集的标签集中标签的点赞次数结果，可选地，可采用投票算法进行众包结果汇聚即选择票数过半的答案作为结果，若多半以上众包用户对所述第二候选记录对标注为代表同一实体，则确定所述第二候选记录对代表同一实体，若个别或者少于一半的众包用户对所述第二候选记录对标注为代表不同实体，则确定所述第二候选记录对不代表同一实体；若根据所述第一判断结果确定所述两个候选合并子集代表同一实体，则将所述两个候选合并子集合并为一个聚类子集，更新所述聚类子集的标签集及索引，并将合并得到的所述聚类子集作为初级聚类子集；若根据所述第一判断结果确定所述两个候选合并子集不代表同一实体，则将所述两个候选合并子集之间的距离设为1；进一步地，返回继续执行所述步骤A-步骤C，直至所述两个候选合并子集之间的距离大于所述下限阈值，即代表所述两个候选合并子集之间的记录对代表同一实体的概率小于所述下限概率阀值，同时由于将距离最小的一对初级聚类子集作为候选合并子集，若所述两个候选合并子集之间的聚类大于所述下限阈值，则其他初级聚类子集之间的距离必然也大于所述所述下限阈值，即各个所述初始聚类子集并不代表同一实体，因此，聚类算法停止，将此时的至少两个所述初级聚类子集作为得到的所述至少两个聚类子集，从而实现了按照一定的次序迭代地将所述初级聚类子集分层地合并为较大的聚类子集。

图2为本发明基于群体计算的实体解析方法实施例二的流程示意图，在上述实施例的基础上，对所述基于众包的分层聚类方法对数据库中的初始记录进行分层聚类得到至少两个聚类子集的步骤进行详细说明，如图2所示，本实施例的方法可以包括：

S201、获取所述初始记录对代表同一实体的概率，并执行步骤S202；

S202、将代表同一实体的概率大于上限概率阈值的所述初始记录对聚为一类，形成相应的初级聚类子集，并为每个所述初级聚类子集创建标签集及索引，执行步骤S203；

S203、计算所述初级聚类子集中每对初级聚类子集之间的距离，选择所述距离最小的一对初级聚类子集作为两个候选合并子集，并执行步骤S204；

S204、判断所述两个候选合并子集之间的距离是否小于下限阈值；若是，则执行步骤S205；若否(即所述两个候选合并子集之间的距离大于所述下限阈值)，则执行步骤S206；

S205、分别从所述两个候选合并子集中选择第二记录形成第二候选记录对，将所述第二候选记录对以及所述两个候选合并子集的标签集发送给众包平台，以使所述众包平台判断所述第二候选记录对是否代表同一实体以及是否对所述标签集中的标签点赞；进一步地，执行步骤S207；其中，所述第二候选记录对为所述两个候选合并子集中代表同一实体的概率最大的记录对；

S206、则聚类终止，将至少两个所述初级聚类子集作为得到的所述至少两个聚类子集；

S207、接收所述众包平台返回的第一判断结果，并根据所述第一判断结果确定是否将所述两个候选合并子集合并以及根据所述众包平台对所述标签集中标签的点赞次数对所述标签集中的标签进行排序和/或过滤；若根据所述第一判断结果确定所述两个候选合并子集代表同一实体，则执行步骤S208；若根据所述第一判断结果确定所述两个候选合并子集不代表同一实体，则执行步骤S209；

S208、将所述两个候选合并子集合并为一个聚类子集，更新所述聚类子集的标签集及索引，将合并得到的所述聚类子集作为初级聚类子集，并返回继续执行步骤S203；

S209、将所述两个候选合并子集之间的距离设为1，并返回继续执行步骤S203。

图3为本发明基于群体计算的实体解析方法实施例三的流程示意图，在上述实施例的基础上，如图3所示，本实施例的方法可以包括：

S301、当检测到所述数据库中增加了新记录时，获取所述新记录的特征信息；

S302、所述根据所述至少两个聚类子集的子集信息及所述新记录的特征信息从所述至少两个聚类子集中得到与所述新记录最相关的至少两个相关聚类子集；

S303、确定与所述至少两个相关聚类子集分别对应的候选记录对，并将所有所述候选记录对发送给众包平台，以使所述众包平台判断所述候选记录对是否代表同一实体；

S304、接收所述众包平台返回的第二判断结果，并根据所述第二判断结果确定是否至少一个所述候选记录对代表同一实体；若根据所述第二判断结果确定第一候选记录对代表同一实体，则执行步骤S305；若根据所述第二判断结果确定所有所述候选记录对都不代表同一实体，则执行步骤S306；

S305、将所述新记录添加到第一记录所属的第一聚类子集中，并更新所述第一聚类子集的标签集；

S306、为所述新记录建立一个新聚类子集，并为所述新聚类子集创建标签集。

本发明实施例中，在步骤S302中所述至少两个聚类子集即为当检测到所述数据库中增加了新记录时，所述数据库中已有的聚类子集。

图4为本发明基于群体计算的实体解析装置实施例一的结构示意图，如图4所示，本实施例提供的基于群体计算的实体解析装置40可以包括：分层聚类模块401、检测模块402、第一确定模块403、第二确定模块404及划分模块405。

其中，分层聚类模块401用于基于众包的分层聚类方法对数据库中的初始记录进行分层聚类，得到至少两个聚类子集；

检测模块402用于当检测到所述数据库中增加了新记录时，获取所述新记录的特征信息；

第一确定模块403用于根据所述至少两个聚类子集的子集信息及所述新记录的特征信息从所述至少两个聚类子集中得到与所述新记录最相关的至少两个相关聚类子集；其中，所述至少两个聚类子集的子集信息包括：所述聚类子集的标签集信息及索引信息；

第二确定模块404用于根据所述新记录与所述至少两个相关聚类子集中每个记录的相似度大小关系确定与所述至少两个相关聚类子集分别对应的候选记录对；

划分模块405用于通过众包用户标注方式判断是否至少一个所述候选记录对代表同一实体；若确定第一候选记录对代表同一实体，则将所述新记录添加到第一记录所属的第一聚类子集中，并更新所述第一聚类子集的标签集；若确定所有所述候选记录对都不代表同一实体，则为所述新记录建立一个新聚类子集，并为所述新聚类子集创建标签集；其中，所述第一记录与所述新记录形成所述第一候选记录对。

可选地，所述分层聚类模块包括：

初级聚类单元，用于根据每对所述初始记录之间代表同一实体的概率大小将代表同一实体的概率大于上限概率阈值的初始记录对聚为一类，形成相应的初级聚类子集，并为每个所述初级聚类子集创建标签集及索引；其中，每对所述初始记录形成所述初始记录对；

分层聚类单元，用于通过众包用户标注方式依次将所述初级聚类子集分层地进行合并，直至合并后的各个聚类子集之间的最小距离大于下限阈值，最终得到至少两个聚类子集。

可选地，所述初级聚类单元具体用于：

获取所述初始记录对代表同一实体的概率；

可选地，所述分层聚类单元具体用于：

可选地，所述初级聚类单元还具体用于：

可选地，所述分层聚类单元还具体用于：

可选地，所述第一确定模块具体用于：

可选地，所述第二确定模块具体用于：

可选地，所述划分模块具体用于：

本实施例的基于群体计算的实体解析装置，可以用于执行本发明上述基于群体计算的实体解析方法任意实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于群体计算的实体解析方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于众包的分层聚类方法对数据库中的初始记录进行分层聚类，得到至少两个聚类子集，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据每对所述初始记录之间代表同一实体的概率大小将代表同一实体的概率大于上限概率阈值的初始记录对聚为一类，形成相应的初级聚类子集，包括：

获取所述初始记录对代表同一实体的概率；

4.根据权利要求2所述的方法，其特征在于，所述通过众包用户标注方式依次将所述初级聚类子集分层地进行合并，直至合并后的各个聚类子集之间的最小距离大于下限阈值，最终得到至少两个聚类子集，包括：

步骤B、判断所述两个候选合并子集之间的距离是否小于下限阈值；若所述两个候选合并子集之间的距离小于所述下限阈值，则分别从所述两个候选合并子集中选择第二记录形成第二候选记录对，将所述第二候选记录对以及所述两个候选合并子集的标签集发送给众包平台，以使所述众包平台判断所述第二候选记录对是否代表同一实体以及是否对所述标签集中的标签点赞，判断所述第二候选记录对是否代表同一实体的结果为第一判断结果；其中，所述第二候选记录对为所述两个候选合并子集中代表同一实体的概率最大的记录对；

5.根据权利要求3所述的方法，其特征在于，所述获取所述初始记录对代表同一实体的概率，包括：

6.根据权利要求4所述的方法，其特征在于，所述计算所述初级聚类子集中每对初级聚类子集之间的距离，包括：

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述根据所述至少两个聚类子集的子集信息及所述新记录的特征信息从所述至少两个聚类子集中得到与所述新记录最相关的至少两个相关聚类子集，包括：

8.根据权利要求1-6中任一项所述的方法，其特征在于，所述根据所述新记录与所述至少两个相关聚类子集中每个记录的相似度大小关系确定与所述至少两个相关聚类子集分别对应的候选记录对，包括：

9.根据权利要求1-6中任一项所述的方法，其特征在于，所述通过众包用户标注方式判断是否至少一个所述候选记录对代表同一实体；若确定第一候选记录对代表同一实体，则将所述新记录添加到第一记录所属的第一聚类子集中，并更新所述第一聚类子集的标签集；若确定所有所述候选相似对都不代表同一实体，则为所述新记录建立一个新聚类子集，并为所述新聚类子集创建标签集，包括：

将所有所述候选记录对发送给众包平台，以使所述众包平台判断所述候选记录对是否代表同一实体，判断所述候选记录对是否代表同一实体的结果为第二判断结果；

10.一种基于群体计算的实体解析装置，其特征在于，包括：