CN111475657B - 一种显示设备、显示***及实体对齐方法 - Google Patents
一种显示设备、显示***及实体对齐方法 Download PDFInfo
- Publication number
- CN111475657B CN111475657B CN202010239293.4A CN202010239293A CN111475657B CN 111475657 B CN111475657 B CN 111475657B CN 202010239293 A CN202010239293 A CN 202010239293A CN 111475657 B CN111475657 B CN 111475657B
- Authority
- CN
- China
- Prior art keywords
- entity
- similarity
- representative
- attributes
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种显示设备、显示***及实体对齐方法,显示设备包括处理器。处理器获取原始知识图谱中每种实体类别的第一实体的多个代表性属性。将作用相同的多种代表性属性统一为第一代表性属性,方便数据统一管理。待***数据中所有实体组成新知识图谱。在新知识图谱中查询第一代表性属性的每个代表性属性的属性值对应的第二实体,便于第二实体与第一实体对齐,提高实体对齐的准确性。在实体对齐时,计算两个实体的所有属性,得到相似度向量,进而得到总相似度。当总相似度满足预设条件时,两个实体是同一实体。利用所有属性的相似度向量判断两个实体是否为同一实体时,减少了由于数据空缺导致部分属性缺失造成的实体对齐准确性低。
Description
技术领域
本申请涉及知识图谱领域的知识融合技术,尤其涉及一种显示设备、显示***及实体对齐方法。
背景技术
公安知识图谱是一种有效、可行的智慧警务建设支撑技术。它将公安海量多源异构数据转化为"人、事、地"等公安领域实体,定义并挖掘各实体间的各种关系,以便迅速的调取警察所需的数据,提高警察的工作效率。公安知识图谱的构建过程中,需要将所有的数据进行实体对齐,使得实体对齐后的所有数据,对应显示于每个实体的对应位置处,便于人员快速查询到所需信息。
现有的实体对齐方法:首先,比较两个实体的所有属性,得到两个实体的总属性相似度。当两个实体的某一属性的属性值不同时,两个实体的属性相似度为1,当两个实体的某一属性的属性值相同时,两个实体的属性相似度为0,将两个实体的所有属性的属性相似度加和,得到两个实体的总属性相似度。其次,根据总属性相似度与相似度阈值的关系,判断两个实体是否是同一实体。当总属性相似度大于相似度阈值时,两个实体是同一实体,当总属性相似度小于相似度阈值时,两个实体是不同实体。
公安知识图谱的构建过程中,由于工作人员的失误,公安知识图谱中的数据被统计错误。利用现有的实体对齐方法,当两个实体的总属性相似度位于相似度阈值附近时,由于两个实体中任意一个实体的某个属性出现统计错误,可能会导致原本为同一实体的两个实体误认为是两个不同实体,或者原本为不同实体的两个实体误认为是同一实体,造成实体对齐的准确性低。
发明内容
本申请提供了一种显示设备、显示***及实体对齐方法,提高了实体对齐的准确性。
一种显示设备,包括:
处理器,被配置为:
获取原始知识图谱中每种实体类别的第一实体的多个代表性属性,并将作用相同的多种代表性属性统一表示为第一代表性属性,其中,第一代表性属性包括所有代表性属性,每个代表性属性对应唯一作用,第一实体包括原始知识图谱中所有实体;
查询新知识图谱中所述第一代表性属性的每个代表性属性的属性值对应的第二实体,其中,新知识图谱为待***数据中所有实体组成的知识图谱,第二实体包括待***数据中所有实体;
计算第一实体与第二实体的所有属性,得到相似度向量;
根据相似度向量计算得到总相似度;
当总相似度满足预设条件时,则合并第一实体和第二实体。
一种显示***,显示***包括:
服务器,被配置为:
获取原始知识图谱中每种实体类别的第一实体的多个代表性属性,并将作用相同的多种代表性属性统一表示为第一代表性属性,其中,第一代表性属性包括所有代表性属性,每个代表性属性对应唯一作用,第一实体包括原始知识图谱中所有实体;
查询新知识图谱中所述第一代表性属性的每个代表性属性的属性值对应的第二实体,其中,新知识图谱为待***数据中所有实体组成的知识图谱,第二实体包括待***数据中所有实体;
计算第一实体和第二实体的所有属性,得到相似度向量;
根据相似度向量计算得到总相似度;
当总相似度满足预设条件时,则合并第一实体和第二实体;
显示设备,与服务器通信连接,用于显示服务器发送的数据信息。
一种实体对齐方法,方法包括:
获取原始知识图谱中每种实体类别的第一实体的多个代表性属性,并将作用相同的多种代表性属性统一表示为第一代表性属性,其中,第一代表性属性包括所有代表性属性,每个代表性属性对应唯一作用,第一实体包括原始知识图谱中所有实体;
查询新知识图谱中第一代表性属性的每个代表性属性的属性值对应的第二实体,其中,新知识图谱为待***数据中所有实体组成的知识图谱,第二实体包括待***数据中所有实体;
计算第一实体与第二实体的所有属性,得到相似度向量;
根据相似度向量计算得到总相似度;
若总相似度满足预设条件时,则合并第一实体和第二实体。
有益效果;本申请提供了一种显示设备、显示***及实体对齐方法,显示设备包括处理器。处理器获取原始知识图谱中每种实体类别的第一实体的多个代表性属性,代表性属性可以区别两个实体是否为同一实体。将作用相同的多种代表性属性统一为第一代表性属性,方便数据的统一管理。将待***数据中所有实体组成新公安知识图谱。在新知识图谱中查询第一代表性属性的每个代表性属性的属性值对应的第二实体,便于第二实体与第一实体对齐,提高实体对齐的准确性。在实体对齐时,可以比较第一实体和第二实体具有相同属性名的所有属性,得到相似度向量。根据相似度向量计算得到总相似度。当总相似度满足预设条件时,两个实体是同一实体。当利用所有属性的相似度向量判断两个实体是否为同一实体时,减少了由于数据空缺导致部分属性缺失造成的实体对齐准确性低。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种实体对齐方法的流程示意图;
图2为本申请实施例提供的一种实体对齐方法的一部分流程示意图;
图3为本申请实施例提供的一种实体对齐方法的另一部分流程示意图;
图4为本申请实施例提供的一种实体对齐方法的另一部分流程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请实施例提供了一种显示设备,该显示设备包括处理器。该处理器内的数据处理过程是一种实体对齐方法。本申请的实体对齐方法以公安知识图谱为例展开。图1为本申请实施例提供的一种实体对齐方法的流程示意图,如图1所示,该处理器根据这种实体对齐方法被配置为:
S10:获取原始公安知识图谱中每种实体类别的第一实体的多个代表性属性,并将作用相同的多种代表性属性统一表示为第一代表性属性,其中,第一代表性属性包括所有代表性属性,每个代表性属性对应唯一作用,第一实体包括原公安知识图谱中所有实体。
图2为本申请实施例提供的一种实体对齐方法的一部分流程示意图,如图2所示,本申请实施例中,获取原始公安知识图谱中每种实体类别的第一实体的多个代表性属性的过程包括:
S101:根据实体类别,将原始数据分类,得到原始公安知识图谱。
在所有工作之前,需要构建原始公安知识图谱。由于公安知识图谱的构建是根据实体类别来进行的,常见的实体类别比如:人、车、单位等,因此将可得到的数据按照根据实体类别分类,得到原始公安知识图谱。
S102:分析原始公安知识图谱中的所有实体,获取每种实体类别的第一实体的多个代表性属性。
由于上述步骤已经得到了原始公安知识图谱和实体类别,需要得到每种实体类别的代表性属性。对于每种实体类别而言,其属性很多,每种属性的重要性不一致。例如,以人来说,人的属性包括姓名、身份正好、性别、年龄、家庭地址、电话等等很多属性。由于人的身份证号是唯一的,身份证号不同则代表实体不同。因此,身份证号的重要性位于第一位。人的姓名作为人的称呼名称,对于人来说也是很重要的。但是对于实体对齐而言,姓名的重要性远低于身份证号。因为不同的人可能叫同一个名字,但不可能是同一个身份证号。因此,姓名的重要性位于第二位。人的性别、年龄等属性的重要性又低于姓名。因为同一姓名或同一年龄的人的数量远远大于同一姓名的数量。因此,这些属性不能作为判断相似的重要标准,只能作为辅助判断。
根据上述分析可知,得到实体类别的代表性属性是实体对齐的前提。因此,分析原始公安知识图谱中的所有实体,得到每种实体类别的第一实体的多个代表性属性,第一实体包括原始公安知识图谱中的所有实体。
假如每种实体类别的代表性属性唯一。如果该实体类别中的第一实体的代表性属性缺失,那么很难判断第一实体是否与该实体类别的某个实体相似。例如,车这种实体类别的代表性属性为车牌号,若某个实体并没有车牌号这一属性,即使其他属性都相同,如车牌颜色、车身颜色、车型等属性,也不能判断两者是否为同一实体。
假如每种实体类别的代表性属性不唯一,即包括多个代表性属性。如果该实体类别中的第一实体的某个代表性属性缺失,那么我们可以根据其他代表性属性判断第一实体是否与该实体类别的某个实体相似。例如,人这种实体类别的代表性属性包括身份证号、姓名和电话等属性,如果某个实体没有身份证号而有姓名属性,也可根据其他辅助属性判断两者是否为同一实体。
通过上述步骤102已经得到了原始公安知识图谱中第一实体的多个代表性属性。由于在原始公安知识图谱中,同一种代表性属性的表达方式存在千差万别,容易出现混乱。因此需要在原始公安知识图谱中将这种作用相同的多种代表性属性统一表示为第一代表性属性。第一代表性属性包括所有代表性属性,每个代表性属性对应唯一作用。例如:身份证号、车主证件号码、车主身份证号、监护人身份证号码、监护人证件号码等多种代表性属性的作用都是证明身份,均可以代表身份证号这一代表性属性。因此,可将上述几种作用下相同的多种代表性属性统一为一种代表性属性,得到第一代表性属性身份证号。
S20:查询新公安知识图谱中第一代表性属性的每个代表性属性的属性值对应的第二实体,其中,新公安知识图谱为待***数据中所有实体组成的知识图谱,第二实体包括待***数据中所有实体。
图3为本申请实施例提供的一种实体对齐方法的另一部分流程示意图,如图3所示,本申请实施例中,查询新公安知识图谱中第一代表性属性的每个代表性属性的属性值对应的第二实体的过程包括:
S201:提取待***数据中第一代表性属性的每个代表性属性对应的属性值。
公安知识图谱的构建不可能是一蹴而就的,当有待***数据时,可能会出现于原始公安知识图谱中的原有数据为同一实体的问题。因此,在将待***数据***原公安知识图谱之前,提取待***数据中第一代表性属性对应的属性值。
例如,表1为待***数据的数据样例。如表1所示,第一代表性属性包括姓名、身份证号以及车辆号,其中姓名和身份证号属于人这个实体类别,车牌号属于车这个实体类别。姓名对应的属性值为张三和李四,身份证号对应的属性值为111111111111111111以及111111111111111112,车辆号对应的属性值为A11111和鲁A11112。
表1.待***数据的数据样例
姓名 | 性别 | 年龄 | 国籍 | 民族 | 证件类型 | 身份证号 | 车牌号 | 车牌颜色 |
张三 | 男 | 25 | 中国 | 汉族 | 身份证 | 111111111111111111 | 鲁A11111 | 蓝 |
李四 | 男 | 50 | 中国 | 汉族 | 身份证 | 111111111111111112 | 鲁A22222 | 蓝 |
S202:将待***数据中所有实体组成新公安知识图谱。
S203:在新公安知识图谱中,查找每种属性值对应的第二实体。
通过步骤203已经在新公安知识图谱中查找每种属性值对应的第二实体,需要将第二实体与第一实体进行实体对齐。
S30:计算第一实体与第二实体的所有属性,得到相似度向量。
图4为本申请实施例提供的一种实体对齐方法的另一部分流程示意图,如图4所示,本申请实施例中,计算第一实体与第二实体的所有属性,得到相似度向量的过程包括:
S301:计算第一实体和第二实体的所有属性,得到第一实体和第二实体都有且不为空的所有属性,所有属性包括第一代表性属性。
在实体进行融合时,因为查询到实体的属性空缺情况比较严重,因此需要对实体进行两两结合分别进行融合。在得到两个实体后,要对实体进行相似度判断,而判断的前提是有相同的属性,因此首先要计算第一实体和第二实体的所有属性,得到第一实体和第二实体都有且不为空的所有属性,所有属性包括第一代表性属性。例如,表2为两两结合得到的第一实体和第二实体。如表2所示,第一实体和第二实体中,所有的属性都有,但是第二实体的“民族”属性为空,比较这个属性将没有任何意义。因此得到的属性分别为性别、年龄、国籍以及家庭住址,而姓名作为查询项,不再考虑范围内。
表2.两两结合得到的第一实体和第二实体
姓名 | 性别 | 年龄 | 国籍 | 民族 | 家庭住址 |
张三 | 男 | 25 | 中国 | 汉族 | 山东省青岛市1单元1号 |
张三 | 男 | 25 | 中国 | 山东省青岛市1单元 |
S302:计算第一实体和第二实体都有且不为空的所有属性的相似度,其中,一个属性对应一个相似度。
上述步骤得到了第一实体和第二实体都有且不为空的所有属性,之后需要计算每一种属性相似度。这里计算属性相似度采用python自带的计算字符串相似度的方法。具体的:对于性别、年龄、国籍等属性,其字符串较短且属性值非常固定,因此需要完全一致即相似度为1,才可视为属性相似。对于家庭住址这种属性值较长且并不固定的属性,设定一个阈值,当相似度高于相似度阈值时视为相似。
每个实体的每个相似度对应一个相似度。计算得到每个实体的每个相似度的相似度,可方便得到每个实体的相似度向量。
S303:组合多个相似度,得到一个相似度向量。
将多个相似度组合,构成一个初步相似度向量。
将多个相似度组合,构成一个初步相似度向量[相似度1、相似度2、相似度3、相似度4]。
例如,性别、年龄、国籍以及家庭地址相似度分别为1、1、1、0.8,那么初步相似度向量为[1、1、1、0.8]。性别、年龄、国籍以及家庭住址相似度分为0.95、1、1、0.8,那么初步相似度[0.95、1、1、0.8]。
初步相似度向量经归一化处理,得到相似度向量。
设定相似度阈值。
当初步相似度向量中某个相似度等于1才能视两个实体为同一实体时,则该相似度阈值为1。
例如,由于性别、年龄、国籍等都属于相似度等于1才能视两个实体为同一实体,因此,可设定性别、年龄、国籍的相似度阈值为1。由于家庭住址不需要相似度等于1才能视两个实体为同一实体,则可设定家庭住址的相似度阈值为0.7或0.9。
判断初步相似度向量中某个相似度是否小于相似度阈值。
若初步相似度向量中某个相似度小于相似度阈值时,则小于相似度阈值的相似度为0。
若初步相似度向量中某个相似度大于等于相似度阈值时,则大于等于相似度阈值的相似度为1。
将所有的相似度组合,得到相似度向量。
例如,当设定家庭住址的相似度阈值为0.7时,判断初步相似度向量中家庭地址相似度0.8是否小于相似度阈值0.7。由于初步相似度向量中家庭住址相似度0.8大于相似度阈值0.7,则家庭住址相似度为1。由于初步相似度向量中性别的相似度阈值为1,初步相似度向量中性别相似度0.95小于相似度阈值1,则性别相似度为0,即相似度向量为[0、1、1、1],。
当设定家庭住址的相似度阈值为0.9时,判断初步相似度向量中家庭地址相似度0.8是否小于相似度阈值0.9。由于初步相似度向量中家庭住址相似度0.8大于相似度阈值0.9,则家庭住址相似度为0。由于初步相似度向量中性别的相似度阈值为1,初步相似度向量中性别相似度0.95小于相似度阈值1,则性别相似度为0,即相似度向量为[0、1、1、0],。
S40:根据相似度向量计算得到总相似度。
总相似度满足以下公式:
S=sum(a)/length(a) (公式1);
其中,S为总相似度;sum(a)为相似度向量中每个元素之和;length(a)为相似度向量的长度。
S50:判断总相似度是否满足预设条件。
预设条件包括总相似度大于预设值。
S60:若总相似度满足预设条件时,则合并第一实体和第二实体。
S70:若总相似度不满足预设条件时,则通过显示窗口显示判断界面,判断界面用于用户判断第一实体和第二实体是否为同一实体。
本申请提供了一种显示设备,显示设备包括处理器。处理器获取原始公安知识图谱中每种实体类别的第一实体的多个代表性属性,代表性属性可以区别两个实体是否为同一实体。将作用相同的多种代表性属性统一为第一代表性属性,方便数据的统一管理。将待***数据中所有实体组成新公安知识图谱。在新公安知识图谱中查询第一代表性属性的每个代表性属性的属性值对应的第二实体,便于第二实体与第一实体对齐,提高实体对齐的准确性。在实体对齐时,可以比较第一实体和第二实体具有相同属性名的所有属性,得到相似度向量。根据相似度向量计算得到总相似度。当总相似度满足预设条件时,两个实体是同一实体。当利用所有属性的相似度向量判断两个实体是否为同一实体时,减少了由于数据空缺导致部分属性缺失造成的实体对齐准确性低。
本申请除了提供了一种显示设备外,还提供了一种显示***,显示***包括服务器和显示设备,服务器与显示设备通信连接。显示设备用于显示服务器发送的数据信息。
处理器被配置为:
获取原始公安知识图谱中每种实体类别的第一实体的多个代表性属性,并将作用相同的多种代表性属性统一表示为第一代表性属性,其中,第一代表性属性包括所有代表性属性,每个代表性属性对应唯一作用,第一实体包括原始公安知识图谱中所有实体。
查询新公安知识图谱中所述第一代表性属性的每个代表性属性的属性值对应的第二实体,其中,新公安知识图谱为待***数据中所有实体组成的知识图谱,第二实体包括待***数据中所有实体。
计算所述第一实体和所述第二实体的所有属性,得到相似度向量。
根据相似度向量计算得到总相似度。
当总相似度满足预设条件时,则合并第一实体和第二实体。
本申请除了提供了一种显示设备、显示***外,还提供了一种实体对齐方法,方法包括:
获取原始公安知识图谱中每种实体类别的第一实体的多个代表性属性,并将作用相同的多种代表性属性统一表示为第一代表性属性,其中,第一代表性属性包括所有代表性属性,每个代表性属性对应唯一作用,第一实体包括原始公安知识图谱中所有实体。
查询新公安知识图谱中第一代表性属性的每个代表性属性的属性值对应的第二实体,其中,新公安知识图谱为待***数据中所有实体组成的知识图谱,第二实体包括待***数据中所有实体。
计算第一实体与第二实体的所有属性,得到相似度向量。
根据相似度向量计算得到总相似度。
若总相似度满足预设条件时,则合并第一实体和第二实体。
由于以上实施方式均是在其他方式之上引用结合进行说明,不同实施例之间均具有相同的部分,本说明书中各个实施例之间相同、相似的部分互相参见即可。在此不再详细阐述。
需要说明的是,在本说明书中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或暗示这些实体或操作之间存在任何这种实际的关系或顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的电路结构、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种电路结构、物品或者设备所固有的要素。在没有更多限制的情况下,有语句“包括一个……”限定的要素,并不排除在包括所述要素的电路结构、物品或者设备中还存在另外的相同要素。
本领域技术人员在考虑说明书及实践这里申请的公开后,将容易想到本申请的其他实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求的内容指出。
以上所述的本申请实施方式并不构成对本申请保护范围的限定。
Claims (15)
1.一种实体对齐方法,其特征在于,所述方法包括:
获取原始知识图谱中每种实体类别的第一实体的多个代表性属性,并将作用相同的多种代表性属性统一表示为第一代表性属性,其中,第一代表性属性包括所有代表性属性,每个代表性属性对应唯一作用,第一实体包括原始知识图谱中所有实体;
查询新知识图谱中所述第一代表性属性的每个代表性属性的属性值对应的第二实体,其中,新知识图谱为待***数据中所有实体组成的知识图谱,第二实体包括待***数据中所有实体;
如果所述实体类别中的第一实体的某个代表性属性缺失,计算第一实体和第二实体的所有属性,得到第一实体和第二实体都有且不为空的所有属性,所有属性包括第一代表性属性;
计算第一实体和第二实体都有且不为空的所有属性的相似度,其中,一个属性对应一个相似度;
组合多个相似度,得到相似度向量;
计算总相似度,其中相似度向量中每个元素之和与相似度向量的长度的比值为总相似度;
若总相似度满足预设条件时,则合并第一实体和第二实体。
2.根据权利要求1所述的实体对齐方法,其特征在于,所述方法还包括:
若总相似度不满足预设条件时,则通过显示窗口显示判断界面,所述判断界面用于用户判断第一实体和第二实体是否为同一实体。
3.根据权利要求1所述的实体对齐方法,其特征在于,获取原始知识图谱中每种实体类别的第一实体的多个代表性属性,包括:
根据实体类别,将原始数据分类,得到原始知识图谱;
分析所述原始知识图谱中的所有实体,获取每种实体类别的第一实体的多个代表性属性。
4.根据权利要求1所述的实体对齐方法,其特征在于,查询新知识图谱中所述代表性属性的每个代表性属性的属性值对应的第二实体,包括:
提取所述待***数据中第一代表性属性的每个代表性属性对应的属性值;
将待***数据中所有实体组成新知识图谱;
在所述新知识图谱中,查找每种所述属性值对应的第二实体。
5.根据权利要求1所述的实体对齐方法,其特征在于,所述预设条件包括总相似度大于预设值。
6.根据权利要求5所述的实体对齐方法,其特征在于,所述总相似度满足以下公式:
S=sum(a)length(a) (公式1);
其中,S为总相似度;sum(a)为所述相似度向量中每个元素之和;length(a)为所述相似度向量的长度。
7.根据权利要求1所述的实体对齐方法,其特征在于,组合多个所述相似度,得到一个相似度向量,包括:
将多个所述相似度组合,构成一个初步相似度向量;
设定相似度阈值;
若所述初步相似度向量中某个相似度小于相似度阈值时,则小于相似度阈值的所述相似度为0;
若所述初步相似度向量中某个相似度大于等于相似度阈值时,则大于等于相似度阈值的所述相似度为1;
将所有的相似度组合,得到相似度向量。
8.一种显示设备,其特征在于,包括:
处理器,被配置为:
获取原始知识图谱中每种实体类别的第一实体的多个代表性属性,并将作用相同的多种代表性属性统一表示为第一代表性属性,其中,第一代表性属性包括所有代表性属性,每个代表性属性对应唯一作用,第一实体包括原始知识图谱中所有实体;
查询新知识图谱中所述第一代表性属性的每个代表性属性的属性值对应的第二实体,其中,新知识图谱为待***数据中所有实体组成的知识图谱,第二实体包括待***数据中所有实体;
如果所述实体类别中的第一实体的某个代表性属性缺失,计算第一实体和第二实体的所有属性,得到第一实体和第二实体都有且不为空的所有属性,所有属性包括第一代表性属性;
计算第一实体和第二实体都有且不为空的所有属性的相似度,其中,一个属性对应一个相似度;
组合多个相似度,得到相似度向量;
计算总相似度,其中相似度向量中每个元素之和与相似度向量的长度的比值为总相似度;
若总相似度满足预设条件时,则合并第一实体和第二实体。
9.根据权利要求8所述的显示设备,其特征在于,所述处理器还被配置为:
若总相似度不满足预设条件时,则通过显示窗口显示判断界面,所述判断界面用于用户判断第一实体和第二实体是否为同一实体。
10.根据权利要求8所述的显示设备,其特征在于,获取原始知识图谱中每种实体类别的第一实体的多个代表性属性,包括:
根据实体类别,将原始数据分类,得到原始知识图谱;
分析所述原始知识图谱中的所有实体,获取每种实体类别的第一实体的多个代表性属性。
11.根据权利要求8所述的显示设备,其特征在于,查询新知识图谱中所述代表性属性的每个代表性属性的属性值对应的第二实体,包括:
提取所述待***数据中第一代表性属性的每个代表性属性对应的属性值;
将待***数据中所有实体组成新知识图谱;
在所述新知识图谱中,查找每种所述属性值对应的第二实体。
12.根据权利要求8所述的显示设备,其特征在于,所述预设条件包括总相似度大于预设值。
13.根据权利要求12所述的显示设备,其特征在于,所述总相似度满足以下公式:
S=sum(a)length(a) (公式1);
其中,S为总相似度;sum(a)为所述相似度向量中每个元素之和;length(a)为所述相似度向量的长度。
14.根据权利要求8所述的显示设备,其特征在于,组合多个所述相似度,得到一个相似度向量,包括:
将多个所述相似度组合,构成一个初步相似度向量;
设定相似度阈值;
若所述初步相似度向量中某个相似度小于相似度阈值时,则小于相似度阈值的所述相似度为0;
若所述初步相似度向量中某个相似度大于等于相似度阈值时,则大于等于相似度阈值的所述相似度为1;
将所有的相似度组合,得到相似度向量。
15.一种显示***,其特征在于,所述显示***包括:
服务器,被配置为:
获取原始知识图谱中每种实体类别的第一实体的多个代表性属性,并将作用相同的多种代表性属性统一表示为第一代表性属性,其中,第一代表性属性包括所有代表性属性,每个代表性属性对应唯一作用,第一实体包括原始知识图谱中所有实体;
查询新知识图谱中所述第一代表性属性的每个代表性属性的属性值对应的第二实体,其中,新知识图谱为待***数据中所有实体组成的知识图谱,第二实体包括待***数据中所有实体;
如果所述实体类别中的第一实体的某个代表性属性缺失,计算第一实体和第二实体的所有属性,得到第一实体和第二实体都有且不为空的所有属性,所有属性包括第一代表性属性;
计算第一实体和第二实体都有且不为空的所有属性的相似度,其中,一个属性对应一个相似度;
组合多个相似度,得到相似度向量;
计算总相似度,其中相似度向量中每个元素之和与相似度向量的长度的比值为总相似度;
当总相似度满足预设条件时,则合并第一实体和第二实体;
显示设备,与所述服务器通信连接,用于显示所述服务器发送的数据信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010239293.4A CN111475657B (zh) | 2020-03-30 | 2020-03-30 | 一种显示设备、显示***及实体对齐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010239293.4A CN111475657B (zh) | 2020-03-30 | 2020-03-30 | 一种显示设备、显示***及实体对齐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111475657A CN111475657A (zh) | 2020-07-31 |
CN111475657B true CN111475657B (zh) | 2023-10-03 |
Family
ID=71750312
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010239293.4A Active CN111475657B (zh) | 2020-03-30 | 2020-03-30 | 一种显示设备、显示***及实体对齐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111475657B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114676267A (zh) * | 2022-04-01 | 2022-06-28 | 北京明略软件***有限公司 | 用于实体对齐的方法及装置、电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268581A (zh) * | 2017-07-14 | 2018-07-10 | 广东神马搜索科技有限公司 | 知识图谱的构建方法及装置 |
CN109960810A (zh) * | 2019-03-28 | 2019-07-02 | 科大讯飞(苏州)科技有限公司 | 一种实体对齐方法及装置 |
CN110457486A (zh) * | 2019-07-05 | 2019-11-15 | 中国人民解放军战略支援部队信息工程大学 | 基于知识图谱的人物实体对齐方法及装置 |
CN110795572A (zh) * | 2019-10-29 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 一种实体对齐方法、装置、设备及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180078801A1 (en) * | 2016-09-16 | 2018-03-22 | Paul Perkovich | Fire-suppression system and method |
-
2020
- 2020-03-30 CN CN202010239293.4A patent/CN111475657B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268581A (zh) * | 2017-07-14 | 2018-07-10 | 广东神马搜索科技有限公司 | 知识图谱的构建方法及装置 |
CN109960810A (zh) * | 2019-03-28 | 2019-07-02 | 科大讯飞(苏州)科技有限公司 | 一种实体对齐方法及装置 |
CN110457486A (zh) * | 2019-07-05 | 2019-11-15 | 中国人民解放军战略支援部队信息工程大学 | 基于知识图谱的人物实体对齐方法及装置 |
CN110795572A (zh) * | 2019-10-29 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 一种实体对齐方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111475657A (zh) | 2020-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111915366B (zh) | 一种用户画像构建方法、装置、计算机设备及存储介质 | |
CN109635029B (zh) | 基于标签指标体系的数据处理方法、装置、设备及介质 | |
WO2019041522A1 (zh) | 电子装置、保险推荐方法、及计算机可读存储介质 | |
CN107767153B (zh) | 一种数据处理方法及装置 | |
CN110648172B (zh) | 一种融合多种移动设备的身份识别方法和*** | |
WO2021003803A1 (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN112256682B (zh) | 一种多维异构数据的数据质量检测方法及装置 | |
CN112069425A (zh) | 日志管理方法、装置、电子设备及可读存储介质 | |
CN111475657B (zh) | 一种显示设备、显示***及实体对齐方法 | |
CN110796014A (zh) | 垃圾投放习惯分析方法、***、装置及存储介质 | |
CN112561636A (zh) | 一种推荐方法、装置、终端设备及介质 | |
CN116933316A (zh) | 智能终端应用敏感行为与隐私政策一致性分析方法及装置 | |
CN109727056B (zh) | 金融机构推荐方法、设备、存储介质及装置 | |
CN106156046B (zh) | 一种信息化管理方法、装置、***及分析设备 | |
CN114817518B (zh) | 基于大数据档案识别的证照办理方法、***及介质 | |
CN112581337B (zh) | 一种判断实有人口是否漏登的方法及终端 | |
CN115935231A (zh) | 一种数据分类方法、装置、设备及存储介质 | |
CN114429355A (zh) | 异常注册事件的识别特征生成方法、装置、介质及设备 | |
CN114090076A (zh) | 应用程序的合规性判别方法和装置 | |
CN111191291A (zh) | 一种基于攻击概率的数据库属性敏感度量化方法 | |
CN110633430A (zh) | 事件发现方法、装置、设备和计算机可读存储介质 | |
CN111967225B (zh) | 指标编码方法、装置及可读存储介质 | |
CN111582754B (zh) | 风险排查方法、装置、设备及计算机可读存储介质 | |
CN115964413A (zh) | 一种数据处理方法、装置、电子设备及计算机可读介质 | |
CN115640369A (zh) | 一种应用星形数据模型的办件信息库数据存储方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |