CN110704620B - 一种基于知识图谱的识别相同实体的方法及装置 - Google Patents
一种基于知识图谱的识别相同实体的方法及装置 Download PDFInfo
- Publication number
- CN110704620B CN110704620B CN201910909999.4A CN201910909999A CN110704620B CN 110704620 B CN110704620 B CN 110704620B CN 201910909999 A CN201910909999 A CN 201910909999A CN 110704620 B CN110704620 B CN 110704620B
- Authority
- CN
- China
- Prior art keywords
- attribute
- candidate
- pair
- chart
- reference data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种基于知识图谱的识别相同实体的方法及装置,针对现有技术中由于实体对齐失败,导致无法高质量链接多个现有知识库的问题,该方法包括:基于待对齐的数据图表的数据类型,获取相应的参考数据图表,并确定候选属性对集合,从候选属性对集合中将符合第二预设条件的候选属性对作为目标属性对,根据目标属性对在所述候选属性对集合中的占比,确定所述待对齐的数据图表与参考数据图表对应相同实体。本申请中,确定候选属性对集合后,从候选属性对集合中将符合第二预设条件的候选属性对作为目标属性对,从而提高识别效率及准确率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种基于知识图谱的识别相同实体的方法及装置。
背景技术
知识图谱,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。
实体,指的是具有可区别性且独立存在的某种事物。如某一个人、某一个城市、某一种植物等、某一种商品等等。如图1的“中国”、“美国”、“日本”等。实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。
由于不同的数据集中对同一个实体的名称的表述可能不同,因此需要进行实体对齐,即,在不同数据集中找出同一个实体的描述记录,实体对齐的主要目的是对不同数据源中的实体信息进行整合,形成更加全面的实体信息。
现有技术下,提供了两种实体对齐方案。
第一种解决方案为:计算两个实体的属性的相似度,基于计算出的相似度值,与阈值进行比较,如果相似度值高于阈值,则直接判定两个实体为同一实体,然后,将两个实体的相关记录进行整合。
然而,采用第一种解决方案时,可能因为偶然出现的数据错误,导致实体对齐失败,此外,仅根据阈值进行判断具有一定的片面性,无法获知对实体影响最大的属性。
第二种解决方案为:根据两个实体的属性的一致性将属性序列变为向量,然后利用分类算法判断两个实体是否为同一实体。
分类算法可采用逻辑回归算法,逻辑回归算法也被称为广义线性回归模型,它与线性回归模型的形式基本相同,假设预测值为y,属性值所赋予的实数分别表示为xi,各属性的权重分别表示为ωi,则有
y=ω0x0+ω1x1+…+ωnxn=WTX
如图2所示,当计算出的g(y)大于预定的阈值时,则判定两个实体为同一实体,然后,将两个实体的相关记录进行整合。
然而,采用第二种解决方案时,首先,需要大量的训练数据,其次,需要一次性将全部实体属性都考虑进去,某些情况下,由于某些属性的缺失,会导致g(y)值的变化范围较大,因此出现较大的判断错误,从而导致实体对齐失败。
由此可见,需要设计一种新的方案,以克服上述缺陷。
发明内容
本申请提供了一种基于知识图谱的识别相同实体的方法及装置,用以解决现有技术中由于实体对齐失败,导致无法高质量链接多个现有知识库,并从顶层创建一个大规模的统一的知识库的问题。
本申请实施例提供的技术方案如下:
一种基于知识图谱的识别相同实体的方法,包括:
基于待对齐的数据图表的数据类型,获取相应的参考数据图表,并基于所述参考数据图表,确定候选属性对集合,所述侯选属性对是针对所述参考数据图表包含的符合第一预设条件的属性进行两两组合训练获得的,所述第一预设条件表征属性在不同类型的数据图表中的属性值的关联关系;
从所述候选属性对集合中将符合第二预设条件的候选属性对作为目标属性对,其中,所述第二预设条件表征候选属性对中第一属性和第二属性之间的属性值关联关系;
确定获得的目标属性对在所述候选属性对集合中的占比,达到预设的对齐指标门限时,确定所述待对齐的数据图表与参考数据图表对应相同实体。
可选的,在基于待对齐的数据图表的数据类型,获取相应的参考数据图表,并基于所述参考数据图表,确定候选属性对集合之前,进一步包括:
获取不同类型的两种样本数据图表,基于所述两种样本数据图表中各个属性的属性名称,计算同一属性分别在所述两种样本数据图表中的属性值的相似度;
筛选出符合第一预设条件的属性,并将所述两种样本数据图表结合,作为参考数据图表,所述第一预设条件为:属性值的相似度达到预设的相似度门限;
将筛选出的各个属性进行两两组合,得到属性对集合;
计算所述属性对集合中,每一个属性对对应的置信度,所述置信度表征所述属性对中,第一属性出现时第二属性同时出现的概率和第二属性出现时第一属性同时出现的概率中的最小值;
在所述属性对集合中,筛选出置信度达到预设的置信度门限的属性对,作为候选属性对。
可选的,基于待对齐的数据图表的数据类型,获取相应的参考数据图表之后,基于所述参考数据图表,确定候选属性对集合之前,进一步包括:
基于所述参考数据图表中的属性名称,对所述待对齐的数据图表中各个属性的属性名称进行标准化处理。
可选的,基于待对齐的数据图表的数据类型,获取相应的参考数据图表之后,基于所述参考数据图表,确定候选属性对集合之前,进一步包括:
基于所述参考数据图表,确定所述待对齐的数据图表中未记录有决定性属性,所述决定性属性表征所述待对齐的数据图表与参考数据图表对应相同实体。
可选的,从所述候选属性对集合中将符合第二预设条件的候选属性对作为目标属性对时,具体包括:
分别针对所述侯选属性对集合中的每一个候选属性对,执行以下操作,将符合第二预设条件的候选属性对作为目标属性对:
分别计算一个侯选属性对中第一属性的属性值分布指标和属性分布指标,以及第二属性的属性值分布指标和属性分布指标;其中,所述属性值分布指标表征所述待对齐的数据图表中一属性的属性值不重复取值数目在属性值总数目中的占比,所述属性分布指标表征所述待对齐的数据图表中一属性的属性值总数目在属性出现总数目中的占比;
确定所述第一属性和第二属性的属性值分布指标差值达到属性值分布指标门限值,且所述第一属性和第二属性的属性分布指标差值达到属性分布指标门限值时,判定所述侯选属性对符合第二预设条件。
一种基于知识图谱的识别相同实体的装置,包括:
第一处理单元,用于基于待对齐的数据图表的数据类型,获取相应的参考数据图表,并基于所述参考数据图表,确定候选属性对集合,所述侯选属性对是针对所述参考数据图表包含的符合第一预设条件的属性进行两两组合训练获得的,所述第一预设条件表征属性在不同类型的数据图表中的属性值的关联关系;
第二处理单元,用于从所述候选属性对集合中将符合第二预设条件的候选属性对作为目标属性对,其中,所述第二预设条件表征候选属性对中第一属性和第二属性之间的属性值关联关系;
第三处理单元,用于确定获得的目标属性对在所述候选属性对集合中的占比,达到预设的对齐指标门限时,确定所述待对齐的数据图表与参考数据图表对应相同实体。
可选的,在基于待对齐的数据图表的数据类型,获取相应的参考数据图表,并基于所述参考数据图表,确定候选属性对集合之前,所述第一处理单元进一步用于:
获取不同类型的两种样本数据图表,基于所述两种样本数据图表中各个属性的属性名称,计算同一属性分别在所述两种样本数据图表中的属性值的相似度;
筛选出符合第一预设条件的属性,并将所述两种样本数据图表结合,作为参考数据图表,所述第一预设条件为:属性值的相似度达到预设的相似度门限;
将筛选出的各个属性进行两两组合,得到属性对集合;
计算所述属性对集合中,每一个属性对对应的置信度,所述置信度表征所述属性对中,第一属性出现时第二属性同时出现的概率和第二属性出现时第一属性同时出现的概率中的最小值;
在所述属性对集合中,筛选出置信度达到预设的置信度门限的属性对,作为候选属性对。
可选的,基于待对齐的数据图表的数据类型,获取相应的参考数据图表之后,基于所述参考数据图表,确定候选属性对集合之前,所述第一处理单元进一步用于:
基于所述参考数据图表中的属性名称,对所述待对齐的数据图表中各个属性的属性名称进行标准化处理。
可选的,基于待对齐的数据图表的数据类型,获取相应的参考数据图表之后,基于所述参考数据图表,确定候选属性对集合之前,所述第一处理单元进一步用于:
基于所述参考数据图表,确定所述待对齐的数据图表中未记录有决定性属性,所述决定性属性表征所述待对齐的数据图表与参考数据图表对应相同实体。
可选的,从所述候选属性对集合中将符合第二预设条件的候选属性对作为目标属性对时,所述第二处理单元具体用于:
分别针对所述侯选属性对集合中的每一个候选属性对,执行以下操作,将符合第二预设条件的候选属性对作为目标属性对:
分别计算一个侯选属性对中第一属性的属性值分布指标和属性分布指标,以及第二属性的属性值分布指标和属性分布指标;其中,所述属性值分布指标表征所述待对齐的数据图表中一属性的属性值不重复取值数目在属性值总数目中的占比,所述属性分布指标表征所述待对齐的数据图表中一属性的属性值总数目在属性出现总数目中的占比;
确定所述第一属性和第二属性的属性值分布指标差值达到属性值分布指标门限值,且所述第一属性和第二属性的属性分布指标差值达到属性分布指标门限值时,判定所述侯选属性对符合第二预设条件。
一种基于知识图谱的识别相同实体的装置,包括:
存储器,用于存储可执行指令;
处理器,用于读取并执行所述存储器中存储的可执行指令,以实现如上述任一项所述的基于知识图谱的识别相同实体的方法。
一种存储介质,当所述存储介质中的指令由处理器执行时,使得所述处理器能够执行如上述任一项所述的基于知识图谱的识别相同实体的方法。
本申请实施例中,基于待对齐的数据图表的数据类型,获取相应的参考数据图表,并确定候选属性对集合,从候选属性对集合中将符合第二预设条件的候选属性对作为目标属性对,确定目标属性对在所述候选属性对集合中的占比达到预设的对齐指标门限时,确定所述待对齐的数据图表与参考数据图表对应相同实体。这样,确定候选属性对后,每次仅需要考虑候选属性对中的属性,不需要一次性考虑全部属性,减少了识别相同实体花费的时间,提高了识别效率,同时,避免了由于某些属性的缺失导致的识别失败;进一步,将符合第二预设条件的候选属性对作为目标属性对,这样,不仅可以提高识别实体的准确率,而且获知对实体影响最大的属性;进一步,通过计算目标属性对在候选属性对集合中的占比,并与预设的对齐指标门限进行比较,可以快速识别相同实体,同时,提高了识别的效率及准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术中知识图谱示例图;
图2为现有技术中逻辑回归算法的结构图;
图3为本申请实施例中确定候选属性对的流程示意图;
图4为本申请实施例中识别相同实体的流程示意图;
图5为本申请实施例提供的一种基于知识图谱的识别相同实体的装置的结构示意图;
图6为本申请实施例提供的一种基于知识图谱的识别相同实体的装置的结构示意图。
具体实施方式
针对现有技术中存在的由于实体对齐失败,导致无法高质量链接多个现有知识库的问题,本申请实施例中,为实现实体对齐提供一种解决方案。
需要说明的是,本申请实施例中,实体对齐包括同类型数据图表与不同类型数据图表的实体对齐。同类型数据图表,即表示同一关系的不同数据图表,例如,由不同公安局提供的表示人车关系的两张数据图表即为同类型数据图表;不同类型数据图表,即表示不同关系的数据图表,例如,由公安局提供的人车关系图表,以及由同一公安局提供的单位信息图表即为不同类型数据图表。
为了使本领域普通人员更好地理解本申请的技术方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
需要说明的是,在实际应用中,针对不同场景,分别将同一实体对应的两种不同类型的数据图表相结合,以实现针对相关场景的候选属性对的训练,本申请实施例中,为了便于描述,仅以公安场景为例,而使用的两种类型的数据图表分别为单位信息图表和人车关系图表,如表1和表2所示。
表1
(单位信息图表)
姓名 | 性别 | 出生日期 | 单位名称 | 身份证号 | 联系电话 |
person_name | gender | birthdate | unite_name | personID | phone_number |
表2
(人车关系图表)
车牌号 | 车辆品牌 | 车主姓名 | 车主证件类型 | 车主证件号码 | 联系电话 |
car_number | car_brand | name | certificate_type | ID_number | telephone |
参阅图3所示,本申请实施例中,确定候选属性对的详细训练流程如下。
需要说明的是,在训练过程中,采用同一实体的单位信息图表和人车关系图表进行训练。
步骤S301:获取不同类型的两种样本数据图表,基于参考样本数据图表中的属性名称,对所述两种样本数据图表中各个属性的属性名称进行标准化处理。
例如,在单位信息图表和人车关系图表中,表征姓名的属性名称、表征身份证号的属性名称和表征联系电话的属性名称是不同的,以表征姓名的属性名称为例,在单位信息图表中,表征姓名的属性名称是person_name,而在人车关系图表中,表征姓名的属性名称是name,因此,需要选定参考样本数据图表,参考样本数据图表可以是专门设置的参考图表,也可以是两种样本数据图表之一,然后,根据参考样本数据图表,对两种样本数据图表中各个属性的属性名称进行标准化处理,如,选定单位信息图表作为参考样本数据图表,此时,基于单位信息图表中的表征姓名的属性名称person_name,将人车关系图表中表征姓名的属性名称标准化为person_name,标准化后的人车关系图表如表3所示。
表3
(标准化后的人车关系图表)
车牌号 | 车辆品牌 | 车主姓名 | 车主证件类型 | 车主证件号码 | 联系电话 |
car_number | car_brand | person_name | certificate_type | personID | phone_number |
为了便于描述,使用的两种类型的数据图表分别为单位信息图表和标准化后的人车关系图表。
步骤S302:基于所述两种样本数据图表中各个属性的属性名称,计算同一属性分别在所述两种样本数据图表中的属性值的相似度。
例如,以单位信息图表和人车关系图表中表征姓名的属性为例,经标准化后,单位信息图表和人车关系图表中表征姓名的属性名称都为person_name,计算表征姓名的属性在单位信息图表中的属性值,和在人车关系图表中的属性值的相似度,如,person_name在单位信息图表中的属性值和person_name在人车关系图表中的属性值的相似度可能为1,即人车关系图表和单位信息图表中表征姓名的属性的属性值完全一致,又如,person_name在单位信息图表中的属性值和person_name在人车关系图表中的属性值的相似度可能为0.85,即人车关系图表和单位信息图表中表征姓名的属性的属性值大致相同,但存在些许差异。
步骤S303:筛选出属性值的相似度达到预设的相似度门限的属性。
具体的,在本申请实施例中,将预设的相似度门限作为第一预设条件,第一预设条件表征属性在不同类型的数据图表中的属性值的关联关系,对于不同属性,预设的相似度门限不同。对于如身份证号、手机号等属性,需要属性值完全一致才可以视为同一属性,即预设的相似度门限为1;对于地址等字符数较长且可能有些许不同的属性,需要制定合适的相似度门限,如,预设的相似度门限为0.85。
例如,假设,经计算,personID(记录有身份证号码)在单位信息图表中的属性值,和personID在人车关系图表中的属性值的相似度为1,即表示,表征身份证号的属性的相似度达到预设的相似度门限,因此,可以判定人车关系图表中的personID和单位信息图表中的personID是同一属性。
又例如,假设,经计算,phone_number(记录有联系电话)在单位信息图表中的属性值,和phone_number在人车关系图表中的属性值的相似度为0.7,即表示,表征联系电话的属性的相似度没有达到预设的相似度门限,因此,可以判定人车关系图表中的phone_number,和单位信息图表中的phone_number不是同一属性。
步骤S304:基于筛选出的相似度达到预设的相似度门限的属性,将所述两种样本数据图表结合,作为参考数据图表。
例如,假设,筛选出的相似度达到预设的相似度门限的属性有personID,那么基于属性personID,将单位信息图表和人车关系图表结合,作为参考数据图表。
步骤S305:判断所述参考数据图表中是否存在决定性属性,若是,则执行步骤S306,否则,执行步骤S307。
需要说明的是,决定性属性,即为能够直接判断参考数据图表对应的两种样本数据图表中,两个实体是否为同一实体的属性。例如,在判断人是否为同一实体时,表征身份证号的属性可以是决定性属性。
具体的,筛选出属性值的相似度达到1的属性作为决定性属性。
例如,假设,经计算,personID在单位信息图表中的属性值,和personID在人车关系图表中的属性值的相似度为1,即表示,表征身份证号的属性的相似度达到预设的相似度门限,因此,可以确定两种样本数据图表中存在决定性属性,即表征身份证号的属性为决定性属性。
步骤S306:记录所述决定性属性,并执行步骤S307。
例如,在单位信息图表和人车关系图表中,确定personID为决定性属性后,记录决定性属性personID,并继续确定候选属性对。
步骤S307:将筛选出的各个属性进行两两组合,得到属性对集合。
例如,在单位信息图表和人车关系图表中,相似度达到预设的相似度门限的属性有person_name、personID和phone_number,将person_name、personID和phone_number进行两两组合,得到属性对集合,即,person_name和personID,person_name和phone_number,personID和phone_number。
步骤S308:在所述属性对集合中,筛选出置信度达到预设的置信度门限的属性对,作为候选属性对。
需要说明的是,在数据的可信度足够的情况下,例如,筛选出的各个属性中,至少存在两个属性在所有记录中均是同时出现的,也可以不计算置信度。
具体的,计算所述属性对集合中每一个属性对包含的两个属性的组合方式的置信度时,可以采用以下公式:
Conf(pi,pj)=min{Conf(pi→pj),Conf(pj→pi)}
其中,Conf(pi→pj)=Pr(pj|pi)=Support(pi∪pj)/Support(pi),pi和pj分别为属性对中的两个属性,Support(pi∪pj)为pi和pj同时出现的概率,Support(pi)为pi出现的概率。
例如,以属性对person_name和personID为例,假设,在参考数据图表中,共有10条记录,其中,有5条记录存储有person_name的属性值,有6条记录存储有personID的属性值,有4条记录同时存储有person_name和personID的属性值,此时,Conf(person_name→personID)为4/5,Conf(personID→person_name)为4/6,显然,Conf(personID→person_name)小于Conf(person_name→personID),因此,属性对person_name和personID的置信度为4/6,即0.67。
进一步的,可以将置信度达到预设的置信度门限的属性对确定为候选属性对。
例如,属性对person_name和personID的置信度为0.8,预设的置信度门限为0.75,此时,属性对person_name和personID的置信度达到预设的置信度门限,可以将属性对person_name和personID确定为候选属性对。
基于上述实施例,可以得到决定性属性或候选属性对,然后,基于决定性候选属性或候选属性对,识别待对齐的数据图表与参考数据图表中的实体是否为同一实体。
参阅图4所示,本申请实施例中,识别相同实体的详细流程如下。
步骤S401:获取待对齐的数据图表,将所述数据图表中各个属性的属性名称进行标准化处理。
具体的,获取待对齐的数据图表,根据所述数据图表的图表类型,基于相应类型的参考数据图表中的属性名称,将所述数据图表中各个属性的属性名称进行标准化处理,其中,参考数据图表是对应所述图表类型预先训练获得的,如果待对齐的数据图表本身就是标准化的,也可以不执行步骤S401。
例如,假设待对齐的数据图表的图表类型为人车关系图表,其中,参考数据图表为单位信息图表,那么,基于参考数据图表中的属性名称,将人车关系图表中的ID_number、telephone标准化为personID、phone_number。
步骤S402:判断所述待对齐的数据图表中是否记录有决定性属性,若是,则执行步骤S403,否则,执行步骤S404。
步骤S403:基于所述决定性属性,确定所述待对齐的数据图表与所述参考数据图表对应相同实体。
例如,待对齐的数据图表的图表类型为人车关系图表,假设,存在决定性属性personID(记录有身份证号码),那么,基于personID,可以直接识别待对齐的数据图表与参考数据图表各自对应的实体是否为同一实体。
步骤S404:根据所述数据图表的图表类型,确定对应所述图表类型预先训练获得的参考数据图表,并基于所述参考数据图表确定侯选属性对,所述候选属性对为判定待对齐的数据图表与参考数据图表中的实体是否为同一实体的属性集合。
例如,假设待对齐的数据图表的图表类型为人车关系图表,那么,可以确定对应的场景是公安场景,在公安场景对应的训练结果中,参考数据图表为单位信息图表和人车关系图表,参考数据图表的候选属性对包括:person_name和personID,person_name和phone_number,personID和phone_number。
步骤S405:从候选属性对集合中将符合第二预设条件的候选属性对作为目标属性对,其中,所述第二预设条件表征候选属性对中第一属性和第二属性之间的属性值关联关系。
具体的,在执行步骤S405时,可以分别针对每一个候选属性对,执行以下操作,将符合第二预设条件的候选属性对作为目标属性对:
计算所述一个侯选属性对中第一属性的属性值分布指标和属性分布指标;其中,所述属性值分布指标表征待对齐的数据图表中一属性的不重复的属性值不重复取值数目在属性值总数目中的占比,属性分布指标表征待对齐的数据图表中某一属性的属性值总数目在属性出现总数目中的占比;
计算所述一个侯选属性对中第二属性的属性值分布指标和属性分布指标;
计算第一属性和第二属性之间的属性值分布指标差值,以及第一属性和第二属性之间的属性分布指标差值;
确定所述属性值分布指标差值达到属性值分布指标门限值,且所述属性分布指标差值达到属性分布指标门限值时,判定所述一个侯选属性对符合第二预设条件。
具体的,以一个侯选属性对person_name和personID为例,以下将侯选属性对person_name和personID中的person_name作为第一属性,将personID作为第二属性性,以person_name为例,person_name的属性值分布指标是指待对齐的数据图表中person_name的属性值不重复取值数目在属性值总数目中的占比,记为平均数(Average,AV),person_name的属性分布指标是指待对齐的数据图表中person_name的属性值总数目在属性出现总数目中的占比,记为平均基数(Average Cardinality,AC)。
相应的,在计算属性person_name的属性值分布指标时,可以采用以下公式:AV(person_name)=person_name的属性值不重复取值数目/person_name的属性值总数目。
以及,在计算属性person_name的属性分布指标时,可以采用以下公式:AC(person_name)=person_name的的属性值总数目/person_name的属性出现总数目。
进一步地,假设,在待对齐的数据图表中,对应person_name记录有30种不重复的属性值,而对应person_name记录有共80个属性值(包括重复的属性值),以及person_name这一属性名称共出现了100次(假设20次记录中属性值为缺省状态)。
那么,person_name的属性值不重复取值数目为30,person_name的属性值总数目为80,person_name的属性出现总数目为100,因此,person_name的属性值分布指标AV(person_name)为30/80,即0.375,而person_name的属性分布指标AC(person_name)为80/100,即0.8。
同时,对应personID记录有1种不重复的属性值,而对应personID记录有共100个属性值(包括重复的属性值),以及personID这一属性名称共出现了100次。
那么,personID的属性值不重复取值数目为1,personID的属性值总数目为100,personID的属性出现总数目为100,因此,personID的属性值分布指标AV(personID)为1/100,即0.01,而personID的属性分布指标AC(personID)为100/100,即1。
然后,计算person_name和personID之间的属性值分布指标差值,即,AV(person_name)和AV(personID)的差值为0.374,同时,计算person_name和personID之间的属性分布指标差值,即,AC(person_name)的AC(personID)的差值为0.2。
接着,假设,属性值分布指标门限值为0.5,属性分布指标门限值0.3,经上述计算,此时,属性值分布指标差值达到属性值分布指标门限值,且属性分布指标差值达到属性分布指标门限值,判定候选属性对person_name和personID符合第二预设条件,将候选属性对person_name和personID作为目标属性对。
步骤S406:基于所述侯选属性对的数目,以及所述目标属性对的数目,确定对齐指标,所述对齐指标表征所述目标属性对在所述侯选属性对中的占比。
例如,候选属性对包括:person_name和personID,person_name和phone_number,personID和phone_number,
假设经过上述流程,筛选出的目标属性对包括:person_name和personID,personID和phone_number,那么,侯选属性对的数目为3,目标属性对的数目为2,此时,对齐指标为符合筛选条件的侯选属性对的数目除以侯选属性对的数目,即对齐指标为2/3,即0.66。
步骤S407:判断所述对齐指标是否达到对齐指标门限,若是,则执行步骤S408,否则,执行步骤S409。
例如,假设将对齐指标门限设为0.5,则由于计算出的对齐指标为0.66,那么,此时对齐指标达到对齐指标门限,即,目标属性对:person_name和personID、personID和phone_number的对齐指标达到对齐指标门限,因此,待对齐的数据图表与参考数据图表中的实体为相同实体。
又例如,假设将对齐指标门限值设置为0.9,则由于计算出的对齐指标为0.66,那么,此时对齐指标未达到对齐指标门限,即,目标属性对:person_name和personID、personID和phone_number的对齐指标未达到对齐指标门限,因此,待对齐的数据图表与参考数据图表中的实体不是相同实体。
步骤S408:基于所述目标属性对,确定所述待对齐的数据图表与所述参考数据图表对应相同实体。
例如,假设目标属性对:person_name和personID、personID和phone_number的对齐指标达到对齐指标门限,那么基于person_name和personID、personID和phone_number,确定待对齐的数据图表与参考数据图表相互对应的实体为相同实体。
步骤S409:确定所述待对齐的数据图表与所述参考数据图表对应不同实体。
例如,假设目标属性对:person_name和personID、personID和phone_number的对齐指标未达到对齐指标门限,此时,确定待对齐的数据图表与参考数据图表相互对应的实体不是相同实体。
基于同一发明构思,本申请实施例中,提供一种基于知识图谱的识别相同实体的装置,如图5所示,至少包括第一处理单元501、第二处理单元502和第三处理单元503,其中,
第一处理单元501,用于基于待对齐的数据图表的数据类型,获取相应的参考数据图表,并基于所述参考数据图表,确定候选属性对集合,所述侯选属性对是针对所述参考数据图表包含的符合第一预设条件的属性进行两两组合训练获得的,所述第一预设条件表征属性在不同类型的数据图表中的属性值的关联关系;
第二处理单元502,用于从所述候选属性对集合中将符合第二预设条件的候选属性对作为目标属性对,其中,所述第二预设条件表征候选属性对中第一属性和第二属性之间的属性值关联关系;
第三处理单元503,用于确定获得的目标属性对在所述候选属性对集合中的占比,达到预设的对齐指标门限时,确定所述待对齐的数据图表与参考数据图表对应相同实体。
可选的,在基于待对齐的数据图表的数据类型,获取相应的参考数据图表,并基于所述参考数据图表,确定候选属性对集合之前,所述第一处理单元501进一步用于:
获取不同类型的两种样本数据图表,基于所述两种样本数据图表中各个属性的属性名称,计算同一属性分别在所述两种样本数据图表中的属性值的相似度;
筛选出符合第一预设条件的属性,并将所述两种样本数据图表结合,作为参考数据图表,所述第一预设条件为:属性值的相似度达到预设的相似度门限;
将筛选出的各个属性进行两两组合,得到属性对集合;
计算所述属性对集合中,每一个属性对对应的置信度,所述置信度表征所述属性对,第一属性出现时第二属性同时出现的概率和第二属性出现时第一属性同时出现的概率中的最小值;
在所述属性对集合中,筛选出置信度达到预设的置信度门限的属性对,作为候选属性对。
可选的,基于待对齐的数据图表的数据类型,获取相应的参考数据图表之后,基于所述参考数据图表,确定候选属性对集合之前,所述第一处理单元501进一步用于:
基于所述参考数据图表中的属性名称,对所述待对齐的数据图表中各个属性的属性名称进行标准化处理。
可选的,基于待对齐的数据图表的数据类型,获取相应的参考数据图表之后,基于所述参考数据图表,确定候选属性对集合之前,所述第一处理单元501进一步用于:
基于所述参考数据图表,确定所述待对齐的数据图表中未记录有决定性属性,所述决定性属性表征所述待对齐的数据图表与参考数据图表对应相同实体。
可选的,从所述候选属性对集合中将符合第二预设条件的候选属性对作为目标属性对时,所述第二处理单元502具体用于:
分别针对所述侯选属性对集合中的每一个候选属性对,执行以下操作,将符合第二预设条件的候选属性对作为目标属性对:
分别计算一个侯选属性对中第一属性的属性值分布指标和属性分布指标,以及第二属性的属性值分布指标和属性分布指标;其中,所述属性值分布指标表征所述待对齐的数据图表中一属性的属性值不重复取值数目在属性值总数目中的占比,所述属性分布指标表征所述待对齐的数据图表中一属性的属性值总数目在属性出现总数目中的占比;
确定所述第一属性和第二属性的属性值分布指标差值达到属性值分布指标门限值,且所述第一属性和第二属性的属性分布指标差值达到属性分布指标门限值时,判定所述侯选属性对符合第二预设条件。
基于同一发明构思,本申请实施例中,提供一种基于知识图谱的识别相同实体的装置,如图6所示,该实体装置可包括:处理器601、存储器602、收发机603以及总线接口604;
所述处理器601,用于读取所述存储器602中的计算机指令,执行上述基于知识图谱的识别相同实体的的装置所执行的任意一种方法。
处理器601负责管理总线架构和通常的处理,存储器602可以存储处理器601在执行操作时所使用的数据。收发机603用于在处理器601的控制下接收和发送数据。
总线架构可以包括任意数量的互联的总线和桥,具体由处理器601代表的一个或多个处理器和存储器602代表的存储器的各种电路链接在一起。总线架构还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。处理器601负责管理总线架构和通常的处理,存储器602可以存储处理器601在执行操作时所使用的数据。
基于同一发明构思,本申请实施例提供了一种存储介质,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使所述计算机执行上述实施例中基于知识图谱的识别相同实体的装置所执行的方法。
本申请实施例中,基于待对齐的数据图表的数据类型,获取相应的参考数据图表,并基于所述参考数据图表,确定候选属性对集合,从候选属性对集合中将符合第二预设条件的候选属性对作为目标属性对,确定获得的目标属性对在所述候选属性对集合中的占比,达到预设的对齐指标门限时,确定所述待对齐的数据图表与参考数据图表对应相同实体。
这样,至少具有以下有益效果:首先,通过对参考数据图表包含的符合第一预设条件的属性进行两两组合训练,得到候选属性对,这样,每次仅需要考虑候选属性对中的属性,不需要一次性考虑全部属性,减少了识别相同实体花费的时间,提高了识别效率,同时,避免了由于某些属性的缺失导致的识别失败;进一步,将符合第二预设条件的候选属性对作为目标属性对,这样,不仅可以提高识别实体的准确率,而且能够全面了解对实体影响最大的属性;进一步,通过计算目标属性对在候选属性对集合中的占比,并与预设的对齐指标门限进行比较,能够快速识别相同实体,同时,提高识别的效率及准确率。
对于***/装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者一个操作与另一个实体或者另一个操作区分开来,而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种基于知识图谱的识别相同实体的方法,其特征在于,包括:
基于待对齐的数据图表的数据类型,获取相应的参考数据图表,并基于所述参考数据图表,确定候选属性对集合,所述侯选属性对是针对所述参考数据图表包含的符合第一预设条件的属性进行两两组合训练获得的,所述第一预设条件表征属性在不同类型的数据图表中的属性值的关联关系;
从所述候选属性对集合中将符合第二预设条件的候选属性对作为目标属性对,其中,所述第二预设条件表征候选属性对中第一属性和第二属性之间的属性值关联关系;
确定获得的目标属性对在所述候选属性对集合中的占比,达到预设的对齐指标门限时,确定所述待对齐的数据图表与参考数据图表对应相同实体。
2.如权利要求1所述的方法,其特征在于,在基于待对齐的数据图表的数据类型,获取相应的参考数据图表,并基于所述参考数据图表,确定候选属性对集合之前,进一步包括:
获取不同类型的两种样本数据图表,基于所述两种样本数据图表中各个属性的属性名称,计算同一属性分别在所述两种样本数据图表中的属性值的相似度;
筛选出符合第一预设条件的属性,并将所述两种样本数据图表结合,作为参考数据图表,所述第一预设条件为:属性值的相似度达到预设的相似度门限;
将筛选出的各个属性进行两两组合,得到属性对集合;
计算所述属性对集合中,每一个属性对对应的置信度,所述置信度表征所述属性对中,第一属性出现时第二属性同时出现的概率和第二属性出现时第一属性同时出现的概率中的最小值;
在所述属性对集合中,筛选出置信度达到预设的置信度门限的属性对,作为候选属性对。
3.如权利要求1所述的方法,其特征在于,基于待对齐的数据图表的数据类型,获取相应的参考数据图表之后,基于所述参考数据图表,确定候选属性对集合之前,进一步包括:
基于所述参考数据图表中的属性名称,对所述待对齐的数据图表中各个属性的属性名称进行标准化处理。
4.如权利要求1所述的方法,其特征在于,基于待对齐的数据图表的数据类型,获取相应的参考数据图表之后,基于所述参考数据图表,确定候选属性对集合之前,进一步包括:
基于所述参考数据图表,确定所述待对齐的数据图表中未记录有决定性属性,所述决定性属性表征所述待对齐的数据图表与参考数据图表对应相同实体。
5.如权利要求1-4任一项所述的方法,其特征在于,从所述候选属性对集合中将符合第二预设条件的候选属性对作为目标属性对时,具体包括:
分别针对所述侯选属性对集合中的每一个候选属性对,执行以下操作,将符合第二预设条件的候选属性对作为目标属性对:
分别计算一个侯选属性对中第一属性的属性值分布指标和属性分布指标,以及第二属性的属性值分布指标和属性分布指标;其中,所述属性值分布指标表征所述待对齐的数据图表中一属性的属性值不重复取值数目在属性值总数目中的占比,所述属性分布指标表征所述待对齐的数据图表中一属性的属性值总数目在属性出现总数目中的占比;
确定所述第一属性和第二属性的属性值分布指标差值达到属性值分布指标门限值,且所述第一属性和第二属性的属性分布指标差值达到属性分布指标门限值时,判定所述侯选属性对符合第二预设条件。
6.一种基于知识图谱的识别相同实体的装置,其特征在于,包括:
第一处理单元,用于基于待对齐的数据图表的数据类型,获取相应的参考数据图表,并基于所述参考数据图表,确定候选属性对集合,所述侯选属性对是针对所述参考数据图表包含的符合第一预设条件的属性进行两两组合训练获得的,所述第一预设条件表征属性在不同类型的数据图表中的属性值的关联关系;
第二处理单元,用于从所述候选属性对集合中将符合第二预设条件的候选属性对作为目标属性对,其中,所述第二预设条件表征候选属性对中第一属性和第二属性之间的属性值关联关系;
第三处理单元,用于确定获得的目标属性对在所述候选属性对集合中的占比,达到预设的对齐指标门限时,确定所述待对齐的数据图表与参考数据图表对应相同实体。
7.如权利要求6所述的装置,其特征在于,在基于待对齐的数据图表的数据类型,获取相应的参考数据图表,并基于所述参考数据图表,确定候选属性对集合之前,所述第一处理单元进一步用于:
获取不同类型的两种样本数据图表,基于所述两种样本数据图表中各个属性的属性名称,计算同一属性分别在所述两种样本数据图表中的属性值的相似度;
筛选出符合第一预设条件的属性,并将所述两种样本数据图表结合,作为参考数据图表,所述第一预设条件为:属性值的相似度达到预设的相似度门限;
将筛选出的各个属性进行两两组合,得到属性对集合;
计算所述属性对集合中,每一个属性对对应的置信度,所述置信度表征所述属性对中,第一属性出现时第二属性同时出现的概率和第二属性出现时第一属性同时出现的概率中的最小值;
在所述属性对集合中,筛选出置信度达到预设的置信度门限的属性对,作为候选属性对。
8.如权利要求7所述的装置,其特征在于,基于待对齐的数据图表的数据类型,获取相应的参考数据图表之后,基于所述参考数据图表,确定候选属性对集合之前,所述第一处理单元进一步用于:
基于所述参考数据图表中的属性名称,对所述待对齐的数据图表中各个属性的属性名称进行标准化处理。
9.如权利要求8所述的装置,其特征在于,基于待对齐的数据图表的数据类型,获取相应的参考数据图表之后,基于所述参考数据图表,确定候选属性对集合之前,所述第一处理单元进一步用于:
基于所述参考数据图表,确定所述待对齐的数据图表中未记录有决定性属性,所述决定性属性表征所述待对齐的数据图表与参考数据图表对应相同实体。
10.如权利要求6-9任一项所述的装置,其特征在于,从所述候选属性对集合中将符合第二预设条件的候选属性对作为目标属性对时,所述第二处理单元具体用于:
分别针对所述侯选属性对集合中的每一个候选属性对,执行以下操作,将符合第二预设条件的候选属性对作为目标属性对:
分别计算一个侯选属性对中第一属性的属性值分布指标和属性分布指标,以及第二属性的属性值分布指标和属性分布指标;其中,所述属性值分布指标表征所述待对齐的数据图表中一属性的属性值不重复取值数目在属性值总数目中的占比,所述属性分布指标表征所述待对齐的数据图表中一属性的属性值总数目在属性出现总数目中的占比;
确定所述第一属性和第二属性的属性值分布指标差值达到属性值分布指标门限值,且所述第一属性和第二属性的属性分布指标差值达到属性分布指标门限值时,判定所述侯选属性对符合第二预设条件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910909999.4A CN110704620B (zh) | 2019-09-25 | 2019-09-25 | 一种基于知识图谱的识别相同实体的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910909999.4A CN110704620B (zh) | 2019-09-25 | 2019-09-25 | 一种基于知识图谱的识别相同实体的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110704620A CN110704620A (zh) | 2020-01-17 |
CN110704620B true CN110704620B (zh) | 2022-06-10 |
Family
ID=69196320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910909999.4A Active CN110704620B (zh) | 2019-09-25 | 2019-09-25 | 一种基于知识图谱的识别相同实体的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110704620B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111489105B (zh) * | 2020-05-06 | 2021-05-25 | 支付宝(杭州)信息技术有限公司 | 一种企业风险识别方法、装置及设备 |
CN112487787A (zh) * | 2020-08-21 | 2021-03-12 | ***股份有限公司 | 一种基于知识图谱确定目标信息的方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107665252A (zh) * | 2017-09-27 | 2018-02-06 | 深圳证券信息有限公司 | 一种创建知识图谱的方法及装置 |
CN108304493A (zh) * | 2018-01-10 | 2018-07-20 | 深圳市腾讯计算机***有限公司 | 一种基于知识图谱的上位词挖掘方法及装置 |
CN109960810A (zh) * | 2019-03-28 | 2019-07-02 | 科大讯飞(苏州)科技有限公司 | 一种实体对齐方法及装置 |
CN110188198A (zh) * | 2019-05-13 | 2019-08-30 | 北京一览群智数据科技有限责任公司 | 一种基于知识图谱的反欺诈方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017072010A1 (en) * | 2015-10-28 | 2017-05-04 | Koninklijke Philips N.V. | Medical data pattern discovery |
-
2019
- 2019-09-25 CN CN201910909999.4A patent/CN110704620B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107665252A (zh) * | 2017-09-27 | 2018-02-06 | 深圳证券信息有限公司 | 一种创建知识图谱的方法及装置 |
CN108304493A (zh) * | 2018-01-10 | 2018-07-20 | 深圳市腾讯计算机***有限公司 | 一种基于知识图谱的上位词挖掘方法及装置 |
CN109960810A (zh) * | 2019-03-28 | 2019-07-02 | 科大讯飞(苏州)科技有限公司 | 一种实体对齐方法及装置 |
CN110188198A (zh) * | 2019-05-13 | 2019-08-30 | 北京一览群智数据科技有限责任公司 | 一种基于知识图谱的反欺诈方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110704620A (zh) | 2020-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162516B (zh) | 一种基于海量数据处理的数据治理的方法及*** | |
CN109919781A (zh) | 团伙欺诈案件识别方法、电子装置及计算机可读存储介质 | |
CN110704620B (zh) | 一种基于知识图谱的识别相同实体的方法及装置 | |
CN110019542B (zh) | 企业关系的生成、生成组织成员数据库及识别同名成员 | |
CN111124917A (zh) | 公共测试用例的管控方法、装置、设备及存储介质 | |
CN112699142A (zh) | 冷热数据处理方法、装置、电子设备及存储介质 | |
CN107944866B (zh) | 交易记录排重方法及计算机可读存储介质 | |
CN117151726A (zh) | 故障的修复方法、修复装置、电子设备以及存储介质 | |
CN116414815A (zh) | 数据质量检测方法、装置、计算机设备和存储介质 | |
CN116166849A (zh) | 一种数据管理方法、装置、设备及存储介质 | |
CN114840531A (zh) | 基于血缘关系的数据模型重构方法、装置、设备及介质 | |
CN113850669A (zh) | 用户分群方法、装置、计算机设备及计算机可读存储介质 | |
CN111784246A (zh) | 物流路径的估测方法 | |
CN110765100A (zh) | 标签的生成方法、装置、计算机可读存储介质及服务器 | |
CN113157671A (zh) | 一种数据监控方法及装置 | |
CN111190986B (zh) | 一种地图数据对比方法和装置 | |
CN114399319A (zh) | 基于预测模型的虚假企业识别方法、装置、设备和介质 | |
CN113934729A (zh) | 一种基于知识图谱的数据管理方法、相关设备及介质 | |
CN114138913A (zh) | 一种数据库的建模方法、装置、设备及计算机存储介质 | |
CN106775854B (zh) | 一种生成配置文件的方法和装置 | |
CN108932305A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN117851608B (zh) | 案件图谱生成方法、装置、设备和介质 | |
CN115292297B (zh) | 一种构建数据仓库数据质量监测规则的方法和*** | |
CN111784248B (zh) | 物流溯源方法 | |
CN113538147B (zh) | 股权详情数据生成方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |