CN111506671B

CN111506671B - 处理实体对象的属性的方法、装置、设备及存储介质

Info

Publication number: CN111506671B
Application number: CN202010194196.8A
Authority: CN
Inventors: 周洪杰; 李健; 武卫东
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2021-02-12
Anticipated expiration: 2040-03-17
Also published as: CN111506671A

Abstract

本申请提供了一种处理实体对象的属性的方法、装置、设备及存储介质，涉及数据处理技术领域。旨在通过数据库中实体对象的属性关系，快速地确定查找内容。将未被具有同一类别标签的所有实体对象共享的属性作为差异属性；将除所述差异属性外的其他属性逐个作为目标属性；逐个确定所述目标属性下的实际属性内容的条件概率；所述条件概率是所述实际属性内容对应的实体对象同时享有所述差异属性的概率；根据所述条件概率，确定所述目标属性与所述差异属性的相关性程度；将所述其他属性中相关性程度最大的目标属性，确定为最大相关属性。

Description

处理实体对象的属性的方法、装置、设备及存储介质

技术领域

本申请涉及数据处理技术领域，特别是涉及一种处理实体对象的属性的方法、装置、设备及存储介质。

背景技术

随着互联网技术的广泛应用，数据库中存储有大量的数据信息。例如酒店信息***的数据库存储有大量的用户的信息，包括客户的名字、国籍、身份证件、入住酒店的时间、用餐信息、消费记录等；图书馆信息***的数据库存储有大量的图书信息，包括图书类别、图书新旧程度、图书名称，借阅记录、借阅人姓名等；运动赛事信息***的数据库记录有运动员信息，包括运动员姓名、参赛项目、性别、身高、体重、国籍、获奖经历、户口等信息。

现有技术下，仅能从数据库中查找符合用户输入的查询条件的数据，对于不能直接根据输入的查询条件查找的数据，需要人工分析具体的原因，经过调研或计算，设定其他查询条件在数据库重新查找数据，耗费大量的人力物力。例如，拟确定一名运动员来自哪里，在运动赛事信息***的数据库中查找一名运动员的“户口”，但是没有查找到，需要人工分析该运动员是外籍的运动员，所以才没有户口，因此需要重新在运动赛事信息***的数据库中查找该运动员的“国籍”，得到“葡萄牙”，以此确定运动员来自葡萄牙，上述过程需要两次设定查询条件，并且还需要人工分析，耗费大量时间和***的计算内存。

发明内容

本申请实施例提供一种处理实体对象的属性的方法、装置、设备及存储介质，旨在通过数据库中实体对象的属性关系，快速地确定查找内容。

本申请实施例第一方面提供一种处理实体对象的属性的方法，包括：

将未被具有同一类别标签的所有实体对象共享的属性作为差异属性；

将除所述差异属性外的其他属性逐个作为目标属性；

逐个确定所述目标属性下的实际属性内容的条件概率；所述条件概率是所述实际属性内容对应的实体对象同时享有所述差异属性的概率；

根据所述条件概率，确定所述目标属性与所述差异属性的相关性程度；

将所述其他属性中相关性程度最大的目标属性，确定为最大相关属。

可选地，所述方法还包括：

将所述其他属性中相关性程度最大的目标属性的相关性程度，与预设阈值比较；

将所述其他属性中相关性程度最大的目标属性，确定为最大相关属性，包括：

在所述其他属性中相关性程度最大的目标属性的相关性程度，大于所述预设阈值的情况下，将在所述其他属性中选择相关性程度最大的所述目标属性，确定为最大相关属性。

可选地，在将所述其他属性中相关性程度最大的目标属性，确定为最大相关属性之后，所述方法还包括：

统计所述最大相关属性下的所有的实际属性内容对应的所述条件概率；

将所述条件概率最大的实际属性内容确定为影响具有同一类别标签的所有实体对象共享所述差异属性的差异要素。

可选地，确定所述目标属性下的实际属性内容的条件概率，包括：

在遍历所述目标属性下的实际属性内容的过程中，以当前遍历到的实际属性内容作为目标属性内容；

将拥有与所述目标属性内容相同的实际属性内容对应的所有实体对象，确定为第一实体对象，并确定所述第一实体对象的数量；

将所述第一实体对象中同时享有所述差异属性的实体对象的数量确定为第二数量；

将所述第二数量和所述第一实体对象的数量的比值，确定为所述目标属性的条件概率。

可选地，在逐个确定所述目标属性下的实际属性内容的条件概率之前，所述方法还包括：

将所述目标属性下相同的实际属性内容作为同类实际属性内容；

以所述目标属性下同类实际属性内容的数量作为所述目标属性的分类数量；

根据所述分类数量，得到所述目标属性下的所有实际属性内容的平均条件概率；

根据所述条件概率，确定所述目标属性与所述差异属性的相关性程度，包括：

根据所述目标属性下每个实际属性内容的条件概率与所述平均条件概率的差异程度，确定所述目标属性与所述差异属性的相关性程度。

可选地，根据所述目标属性下不同的实际属性内容的条件概率与所述平均条件概率的差异程度，确定所述目标属性与所述差异属性的相关性程度，包括：

获得所述目标属性下每个实际属性内容的条件概率与所述平均条件概率的差异值；

对所述每个实际属性内容的条件概率与所述平均条件概率的差异值进行累加；

以累加后的所述差异值与所述分类数量的比值作为所述目标属性的相关性程度。

本申请实施例第二方面提供一种处理实体对象的属性的装置，所述装置包括：

差异属性确地模块，用于将未被具有同一类别标签的所有实体对象共享的属性作为差异属性；

目标属性确定模块，用于将除所述差异属性外的其他属性逐个作为目标属性；

条件概率确定模块，用于逐个确定所述目标属性下的实际属性内容的条件概率；所述条件概率是所述实际属性内容对应的实体对象同时享有所述差异属性的概率；

相关性程度确定模块，用于根据所述条件概率，确定所述目标属性与所述差异属性的相关性程度；

最大相关属性确定模块，用于将所述其他属性中相关性程度最大的目标属性，确定为最大相关属性。

可选地，所述装置还包括：

比较模块，用于将所述其他属性中相关性程度最大的目标属性的相关程度，与预设阈值比较；

所述最大相关属性确定模块包括：

大相关属性确定子模块，用于在所述其他属性中相关性程度最大的目标属性的相关程度，大于所述预设阈值的情况下，将在所述其他属性中选择相关性程度最大的所述目标属性，确定为最大相关属性。

可选地，所述装置还包括：

统计模块，用于统计所述最大相关属性下的所有的实际属性内容对应的所述条件概率；

差异要素确定模块，用于将所述条件概率最大的实际属性内容确定为影响具有同一类别标签的所有实体对象共享所述差异属性的差异要素。

可选地，所述条件概率确定模块包括：

遍历子模块，用于在遍历所述目标属性下的实际属性内容的过程中，以当前遍历到的实际属性内容作为目标属性内容；

第一数量子模块，用于将拥有与所述目标属性内容相同的实际属性内容对应的所有实体对象，确定为第一实体对象，并确定所述第一实体对象的数量；

第二数量子模块，用于将所述第一实体对象中同时享有所述差异属性的实体对象的数量确定为第二数量；

条件概率确定子模块，用于将所述第二数量和所述第一实体对象的数量的比值，确定为所述目标属性的条件概率。

可选地，所述装置还包括：

属性同类模块，用于将所述目标属性下相同的实际属性内容作为同类实际属性内容；

分类数据确定模块，用于以所述目标属性下同类实际属性内容的数量作为所述目标属性的分类数量；

平均条件概率确定模块，用于根据所述分类数量，得到所述目标属性下的所有实际属性内容的平均条件概率；

所述相关性程度确定模块包括：

差异程度判断子模块，用于根据所述目标属性下每个实际属性内容的条件概率与所述平均条件概率的差异程度，确定所述目标属性与所述差异属性的相关性程度。

可选地，所述差异程度判断子模块包括：

差异值计算子单元，用于获得所述目标属性下每个实际属性内容的条件概率与所述平均条件概率的差异值；

累加子单元，用于对所述每个实际属性内容的条件概率与所述平均条件概率的差异值进行累加；

相关性程度判断子单元，用于以累加后的所述差异值与所述分类数量的比值作为所述目标属性的相关性程度。

本申请实施例第三方面提供一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如本申请第一方面所述的方法中的步骤。

本申请实施例第四方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现本申请第一方面所述的方法的步骤。

本申请实施例提供处理实体对象属性的方法，从大量数据中挖掘实体对象的属性间的关系，得到影响实体对象存在差异属性的最大相关属性。具体根据可以用其他属性的目标属性内容描述的实体对象，也享有差异属性的条件概率，得到实体对象的目标属性内容与差异属性是否能够描述实体对象的关联程度，再根据其他属性下所有实际属性内容的条件概率，确定其他属性与差异属性的关联程度，条件概率客观评价了差异属性与其他属性之间的关系，再以关联程度最大的其他属性作为最大相关属性，再在最大相关属性中确定影响差异属性存在的差异要素，以使利用最大相关属性和差异要素和补充数据库的知识图谱，使数据库的数据更加完善。

本申请实施例得到差异属性与最大相关属性的关系后，应用到具体的场景，使计算***更加智能，例如酒店信息管理***可以根据数据库存储的知识图谱中，实体对象客户的差异属性身份证与国籍之间具有的关系，以及实体对象客户的差异属性护照与国籍之间的关系，在客人是外籍人士时，酒店信息管理***可以在没有人工分析的情况下，得到需要出示护照办理入住的信息。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的处理实体对象的属性的方法所涉及的实施环境示意图；

图2是本申请实施例提供的处理实体对象的属性的方法的步骤流程图；

图3是本申请实施例提出的确定差异要素的方法步骤流程图；

图4是本申请实施例提出的处理实体对象的属性装置结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1是本申请实施例提供的处理实体对象的属性的方法所涉及的实施环境示意图，如图1所示，该实施环境可以包括：数据服务器101和数据库102。

数据服务器101可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。数据库102存储有大量数据，包括但不限于实体对象、属性、和属性的实际属性内容形成的知识图谱。

数据服务器101和数据库102之间可以通过有线网络或无线网络建立连接，用户可以使用服务器101中对数据库102中的数据进行处理。用户可以输入待数据的查询条件，在数据服务器101根据用户输入的查询条件。输出相应结果，在数据服务器101查找不到具体的数据值时，数据服务器101对数据库102存储的数据进行分析，将未被具有同一类别标签的所有实体对象共享的属性作为差异属性，再将除差异属性外的其他属性逐个作为目标属性；再逐个确定目标属性下的实际属性内容的条件概率；条件概率是实际属性内容对应的实体对象同时享有差异属性标签的概率；再根据条件概率，确定目标属性与差异属性的相关性程度；最后将其他属性中相关性程度最大的目标属性，确定为最大相关属性，将最大相关属性相关的内容作为数据服务器101的分析结果。

数据量足够大时，大量的实体对象，实体对象的属性、每一个属性对应的实际属性内容，实体对象的标签组成知识图谱的集合。本申请实施例利用数据处理器101获取数据库的知识图谱，对实体对象的属性进行分析和处理，挖掘实体对象的属性之间的关联，使数据处理器101可以根据挖掘出的属性之间的关联，在无法直接查找出户输入的查询条件对应的数据时，输出符合用户输入的查询条件的其他内容。

图2是本申请实施例提供的处理实体对象的属性的方法的步骤流程图，应用于数据服务网器，如图2所述，该方法可以包括：

步骤S201：将未被具有同一类别标签的所有实体对象共享的属性作为差异属性；

实体对象代表某一确定的概念，可以是人、物、事件等等任意概念。在了解实际实体的情况下，该实体是信息是确定的。例如在银行信息***中，账户、基金等实体的信息是确定的；在图书馆信息***中，图书、用户等实体信息也是确定的。

属性代表实体对象拥有的某一信息要素。不同的实体对象可以有不同属性，也可以有相同的属性。例如银行信息***中以账户为实体对象存储信息时，账户的户主、开设时间、存款信息等可以用于描述账户的信息要素都可以作为账户的属性；图书馆信息***中以图书作为实体对象时，图书的出版时间、借阅次数、借阅状态等可以用于描述图书的信息要素都可以作为图书的属性。

标签指的是一类实体对象的某一个共同点。这个共同点一般可以被当做这类实体的一个标签。同一类别标签指的是一类实体对象的共同点，例如在运动赛事信息***中，运动员可以作为一类实体对象的标签。

差异属性指的是具有同一类别标签的实体随想中有时存在，有时不存在的属性。即并非同一类别标签的所有实体对象都在差异属性下享有具体属性内容(描述属性的具体数值)。

例如，银行信息***中，以客户为实体对象时，可以描述客户的信息要素有购买基金、存款、转账记录等；但不是每个客户都购买了基金，因此基金是实体对象客户的差异要素。

数据库的知识图谱中存储的数据一般以三元组的形式进行存储，即“实体对象”-“属性”-“实际属性内容”的数据形式。数据库所在的客户信息***的不同，知识图谱中的实体对象也不同，一般以客户信息***的关注对象作为实体对象。例如在运动赛事信息***的数据库中，实体对象是运动员，属性是实体对象所具有的信息要素，运动员的属性包括身高、国籍、学历、户口、体重等信息；实际属性内容是属性对应的具体数值，身高-226cm、国籍-中国、学历-高中、户口-上海、体重-80kg。

对于每一个实体对象，都有不同的信息要素，同一类的实体对象具有相同信息要素的概率较大，在同一类的实体对象中，有的信息要素不是所有的实体对象都具有的，具体体现在数据库知识图谱存储的三元组中，表现为存在某一属性或者某些属性的条目下，无法查找到所有实体对象对应的具体数值。

例如运动赛事信息***中，对于户口的属性，姚明对应有具有的实际属性内容-上海，奥尼尔与大帝并没有对应户口属性的实际属性内容。那么，户口属性没有被运动员标签下的所有实体对象(姚明、奥尼尔与大帝)共享，户口属性即为差异属性。

步骤S202：将除所述差异属性外的其他属性逐个作为目标属性；

影响差异属性的因素很多，数据服务器101将实体对象的其他属性作为可能影响差异属性存在的因素，遍历其他属性，并将当前遍历到的其他属性作为差异属性。

其他属性是实体对象具有的多个属性的部分属性，其他属性是同一类别标签的所有实体对象都具有的属性。

例如运动赛事信息***中，除了户口属性，还有身高属性、国籍属性、学历属性、户口属性、体重属性等。数据服务器101将上述属性中每个实体对象(运动员)都享有的属性，依次分别作为分析差异属性存在原因的目标属性。若以上属性都被所有的实体对象享有，则数据服务器101将上述所有属性依次作为目标属性，分析目标属性与差异属性的关系。因此目标属性指的是，数据服务器101当前分析的实体对象的任一其他属性。

步骤S203：逐个确定所述目标属性下的实际属性内容的条件概率；所述条件概率是所述实际属性内容对应的实体对象同时享有所述差异属性的概率；

实际属性内容是属性描述实体对象的具体数值。例如身高属性的实际属性内容可以是：160cm、1.5m、181cm等具体的长度单位。

将目标属性的实际属性内容A作为事件A，实际属性内容A对应的实体对象甲享有差异属性作为事件B，条件概率指的是，在事件A发生的条件下，事件B发生的概率。数据服务器101以上述方法确定条件概率，分析了目标属性的实际属性内容与差异属性的客观的关联性，即客观情况下，事件A-目标属性的实际属性内容的存在是否会影响事件B-实际属性内容对应的实体对象享有差异属性的发生。

例如，在以学历属性作为目标属性，下学历属性下，不同的实体对象姚明、奥尼尔、大帝的实际属性内容假设是高中、初中、高中，分别计算高中对应的实体对象享有差异属性的条件概率，差异属性是户口，和初中对应的实体对象享有差异属性的条件概率，可以客观评价运动员经过高中学习，和运动员具有户口同时发生的概率，以挖掘到实体对象的学历属性是高中，与否与实体对象的户口的相关程度。

数据处理器101处理实体对象的属性，从挖掘数据关系出发，以条件概率对实体对象的属性间的关联度进行深度的分析，根据关联度确定影响实体对象不享有某种属性的其他属性，换言之，确定与差异属性有关联的其他属性；即确定造成实体对象不具有某种信息要素的现象，是具体受实体对象其本身的哪个信息要素影响。

而条件概率正是目标属性与其他属性的实际属性内容关联程度的客观分析结果。

例如在运动员实体对象的学历属性下，实际属性内容是高中的条件概率指的是，将指运动员的学历是高中看作事件A，运动员有户口看作事件B时，事件A发生的情况下，事件B发生的概率。

具体根据以下步骤确定目标属性下的实际属性内容的条件概率：

步骤S203-1：在遍历所述目标属性下的实际属性内容的过程中，以当前遍历到的实际属性内容作为目标属性内容；

目标属性内容是当前分析的目标属性的实际属性内容。以遍历学历属性为例，在当前分析的实际属性内容是高中时，以高中作为目标属性内容。而以国籍属性为例，在当前分析的实际属性内容是中国时，以中国作为目标属性内容。

步骤S203-2：将拥有与所述目标属性内容相同的实际属性内容对应的所有实体对象，确定为第一实体对象，并确定所述第一实体对象的数量；

第一实体对象是在目标属性具有相同的目标属性内容的实体对象的数量。例如在目标属性内容是高中时，对应的实体对象有姚明和大帝，得到第一实体对象的数量是2。在目标属性内容是中国时，对应的实体对象有姚明，得到第一实体对象的数量是1。

步骤S203-3：将所述第一实体对象中同时享有所述差异属性的实体对象的数量确定为第二数量；

第二数量是第一实体对象中在差异属性也具有实际属性内容的实体对象的数量。例如，在目标属性内容是高中时，第一实体对象姚明和大帝中只有姚明在户口属性下有具体的数值，享有户口属性，因此第一实体对象姚明和大帝中，同时享有差异属性户口的实体对象是姚明，数量是1。

步骤S203-4：将所述第二数量和所述第一实体对象的数量，确定为所述目标属性的条件概率。

那么目标属性内容是高中时，的条件概率是1/2。

以上述分析方法，再对学历属性下的初中的实际属性内容计算条件概率。

步骤S204：根据所述条件概率，确定所述目标属性与所述差异属性的相关性程度；

相关性程度指的是目标属性影响实体对象是否享有差异属性的大小。相关性程度大的其他属性，影响差异属性存在的程度就较大，相关性程度小的其他属性，影响差异属性存在的程度就较小。例如图书管理***中，对于图书实体对象的当前借阅人属性，图书借阅状态属性对当前借阅人属性的影响较大，“当前借阅人”和“借阅状态”两个属性的相关性程度就较高，图书出版日期属性对当前借阅人属性的影响较小，“当前借阅人”和“出版日期”的相关性程度就较低。

具体以通过以下步骤确定目标属性与差异属性的相关性程度。

步骤S301：将所述目标属性下相同的实际属性内容作为同类实际属性内容；

同类实际属性内容指的是相同的实际属性内容的集合。以在运动赛事信息***中，目标属性是学历时进行说明，学历目标属性下，分别有高中和初中两类实际属性内容，高中实际属性内容对应部分学生实体对象，初中实际属性内容对应部分学生实体对象，高中为一种同类实际属性内容，初中一种为同类实际属性内容。

步骤S302：以所述目标属性下同类实际属性内容的数量作为所述目标属性的分类数量；

分类数量指的是目标属性下的实际属性内容对应的具体数值的数量。换言之，将相同的实际属性内容划分为一类集合，在目标属性下，所有实际属性内容可以划分的集合的数量为分类数量。以学历目标属性为例，同类实际属性内容的数目是2，分别是高中和初中，分类数量也是2。

步骤S303：根据所述分类数量，得到所述目标属性下的所有实际属性内容的平均条件概率；

将目标属性下每个实际属性内容的条件概率相加后，对分类数量求平均数，得到平均条件概率。

前述示例得到在目标属性是学历时，实际属性内容高中的条件概率是1/2。基于相同的分析方法，数据服务器101得到实际属性内容初中的条件概率是0。将实际属性内容高中的条件概率1/2与实际属性内容初中的条件概率0相加，并对分类数量(初中和高中2个分类数量)求取平均值，得到平均条件概率1/4。

步骤S204-1：根据所述目标属性下每个实际属性内容的条件概率与所述平均条件概率的差异程度，确定所述目标属性与所述差异属性的相关性程度。

差异程度指的是具体的实际属性内容的条件概率与平均条件概率的差值。以目标属性是学历为例，实际属性内容高中的条件概率是1/2，平均条件概率是1/4，得到平均条件概率的差异程度是3/4。可以理解的是，差异程度用于形容目标属性下，各实际属性内容的条件概率的分布情况，差异程度大时，各实际属性内容的条件概率分布呈两极化趋势，即各实际属性内容对于实体对象是否享有差异属性有巨大的影响；差异程度小时，各实际属性内容的条件概率分布呈集中趋势，即各实际属性内容对于实体对象是否享有差异属性可能有影响，可能没有影响。

根据上述实施例可知，目标属性中各实际属性内容的条件概率指的是当前实际属性内容与差异属性存在的客观联系，可以理解的是，目标属性下有实际属性内容，每个实际属性内容的条件概率可能相差不大，可能相差巨大，再将各实际属性内容的条件概率与平均条件概率比较之后，可以得到各实际属性内容的条件概率之间的差异的大小，若差异较小，各实际属性内容的条件概率是可能受自然条件的影响，若差异较大，呈明显的两极分化，那么实际属性内容的条件概率受实际属性内容本身的影响较大，换言之，实际属性内容本身影响了自身对应的实体对象是否享有差异属性。

本申请另一种实施例还提供了一种具体确定相关性程度的方法。

步骤S204-2：获得所述目标属性下每个实际属性内容的条件概率与所述平均条件概率的差异值；

步骤S204-3：对所述每个实际属性内容的条件概率与所述平均条件概率的差异值进行累加；

步骤S204-4：以累差异值加后的所述与所述分类数量的比值作为所述目标属性的相关性程度。

差异值是差异程度的数值表示。

以上述示例继续说明，初中的条件概率是0。高中的条件概率1/2，初中的条件概率与平均条件概率的差异值是1/4，高中的条件概率与平均条件概率的差异值是1/4。

步骤S204-2至步骤S204-4可以通过以下公式具体说明：

其中μ指的是目标属性的平均条件概率；X指的是目标属性下实际属性内容的条件概率；N指的是目标属性的分类数量。σ²指的是目标属性与差异属性的相关性程度。

根据上述实施例中步骤S203-1至步骤S203-4详细说明了实际属性内容的条件概率X的计算方法，为进一步明确相关性程度的意义，具体展示条件概率的计算公式：

X＝(在具有与目标属性内容相同的实际属性内容对应的实体对象中享有差异属性的实体对象数量|具有与目标属性内容相同的实际属性内容对应的实体对象数量)

即：X＝(第二数量|第一实体对象的数量)

步骤S205：将所述其他属性中相关性程度最大的目标属性，确定为最大相关属性。

最大相关属性指的是，对于具体的差异属性是否存在，有该差异属性对应的实体下的另一属性对差异属性影响最大，将对差异属性影响最大的属性确定为差异属性的最大相关属性。例如，在图书馆信息管理***中，图书作为实体对象，对于当前借阅人这一差异属性，图书的另一属性图书借阅状态，对图书是否在当前借阅人属性下具有具体的数值的影响最大。当《小王子》的借阅状态是在借时，《小王子》这本书一定有具体的当前借阅人的属性，当《小王子》的借阅状态是整理中或者上架时，一定没有具体的当前借阅人的属性，因此图书借阅状态是当前借阅人的最大相关属性。

数据服务器101分析得到的最大相关属性是对部分实体对象在差异属性下没有实际属性内容影响最大的属性。在用户输入的查询条件没有找到具体信息时，数据服务器101还可以输出最大相关属性，以回答用户的输入。例如用户输入的查询条件是奥尼尔的户口时，数据服务器101未查找到具体奥尼尔的户口的具体数值，进一步依据影响运动员是否具有户口属性的最大相关属性是国籍，进而数据服务器101在国籍属性下查找奥尼尔的国籍，并将奥尼尔的国籍美国输出。在用户得到“美国”的输出时，立即得知奥尼尔不是中国人所有没有户口属性。

为进一步清楚本申请实施例处理实体对象的属性的方法，以运动赛事信息***的数据库存储的数据为例进行详细说明。

假设运动赛事信息***的数据库存储的实体对象为人，选取标签是运动员的实体对象，和实体对象的属性以及属性下的实际属性内容组成的三元组作为数据服务器101的分析样本。

上表代表运动赛事信息***的数据中的知识图谱，表中180cm为实体对象丙和甲的身高属性的实际属性内容；小学为实体对象丁的学历属性的实际属性内容。

数据服务器101在上表中查询空白内容，确定户口和毕业大学为差异属性。对于户口属性，在所有实体对象中乙未享有户口属性，乙和丁未享有毕业大学属性。可以理解的是，对于任意的属性，存在拟用该属性描述实体对象时，无法查询到用于描述的具体数值，即确定该属性为差异属性。

分别处理户口属性和毕业大学属性，挖掘户口属性或毕业大学属性与其他属性的关联。数据服务器101逐一对身高属性、学历属性、国籍属性进行分析。

将国籍属性作为目标属性，以X＝(第二数量|第一实体对象的数量)计算国籍下每一个实际属性内容的条件概率。

X_日本＝(国籍是日本的实体对象享有户口属性的数目＝0|国籍是日本的实体对象数目＝1)＝0/1＝0

X_中国(国籍是中国的实体对象享有户口属性的数目＝3|国籍是中国的实体对象数目＝3)＝3/3＝1，得到国籍属性的条件概率分布[1，0]；

国籍属性下的同类实际属性内容具体是中国、日本，因此国籍属性的分类数量N＝2，得到国籍属性的平均条件概率μ_国籍＝1/2。

数据服务器101得到平均条件概率μ_国籍后，根据下式得到国籍属性的相关性程度σ² _国籍＝0.25。

依据相同的数据规律，得到学历属性的相关性程度σ² _学历＝0.056，学历属性的条件概率分布[1,0.5，1]，身高属性的相关性程度σ² _身高＝0.222，身高属性的条件概率分布[1,0，1]。

根据上述分析可知，在身高，国籍，学历三个属性中，方差最高的属性为“国籍”，进而数据服务器101将国籍属性确定为差异属性户口属性的最大相关属性。

国籍属性的实际属性内容中，中国的条件概率最大，换言之，国籍属性为中国的实体对象，享有户口属性，能以户口描述的概率最大，在样本数量足够大的情况下，具有中国国籍的实体对象有户口的共性能够客观体现，影响实体对象是否具有户口属性的最大影响因素是中国国籍，因此将国籍作为户口属性的最大相关属性，将中国作为差异要素。

根据处理户口属性相同的分析方法，得到将毕业大学差异属性时，其他属性的相关性程度：

身高属性的条件概率分布[1/2,1，0],相关性程度σ2_身高＝0.167，国籍属性的条件概率分布，相关性程度σ2_国籍＝[1/3,1]，学历属性的条件概率分布[0,1,0],相关性程度σ2_学历＝0.1222。得到影响毕业大学差异属性的最大相关属性是学历，学历属性中大学的条件概率最大，是差异要素。

本申请实施例以条件概率客观评价差异属性与其他属性的所有实际属性内容的关系，得到其他属性下实际属性内容与差异属性的关联程度，综合目标属性下所有实际属性内容与差异属性的关联程度，得到目标属性的详关性程度，将其他属性终中相关性最高程度的目标属性作为最大相关属性。

在本申请的另一种实施例中，提出一种确定差异要素的方法：

参考图3，图3是本申请实施例提出的确定差异要素的方法步骤流程图。

步骤S401：统计所述最大相关属性下的所有的实际属性内容对应的所述条件概率；

步骤S402：将所述条件概率最大的实际属性内容确定为影响具有同一类别标签的所有实体对象共享所述差异属性的差异要素。

差异要素是影响差异属性是否存在，并且能够使差异属性存在的实际属性内容。以上述图书馆信息***为例，示例当《小王子》的借阅状态是在借时，《小王子》这本书一定有具体的当前借阅人的属性，当《小王子》的借阅状态是上架时，一定没有具体的当前借阅人的属性，其中图书上架是能够使差异属性当前借阅人有具体数值的要素，进而“上架”是图书实体对象的差异要素。

以本申请实施例的方法提到处理实体对象的属性的方法，具体根据差异属性确定影响差异属性存在的最大相关属性后，使数据库的知识图谱不仅具有实体对象、属性、实际属性内容，还具有属性之间的关联后，可以应用到各领域的实际工作中。实体对象的自然属性一般都够以实际属性内容描述所有的实体对象，实体对象的后天属性(例如社会类属性、应用类属性、工业类)较大可能存在不能描述所有实体对象的情况，可能成为差异属性，在一一处理实体对象的差异属性，得到影响差异属性的最大相关属性后，进一步地找到各属性之间的关系。以本申请前述示例进行说明，国籍属性作为户口属性的最大相关属性，那么户口属性就与国籍属性存在关系。

在酒店信息***中，数据库存储了大量菜品、客户、旅游团的相关数据信息。在客户办理入住时，采集装置录入客户的姓名等信息，酒店信息***的数据服务器101在数据库中调取以客户作为实体对象的知识图谱，知识图谱中的实体对象具有语言、国籍、户口、身份证、护照等属性，数据服务器识别客户姓名是法语，确定该客户国籍不为中国，在知识图谱中，国籍与户口具有关系，与身份证、护照也具有关系，国籍作为影响实体对象是否享有护照属性，在数据服务器101确定该客户的国籍为法国后，分析得到该客户办理入住应该出示的是护照而非身份证。以本申请实施例处理实体对象的属性后得到的知识图谱后，极大地释放了人工劳动力，节省了时间。

在本申请另一种实施例中，还设置了最大相关属性的确定条件，根据数据统计或人工调研得到相互具有关系的属性间的相关性程度的阈值，作为预设阈值。

预设阈值是实际两个属性具有联系时，一个属性对影响另一个属性是否是差异属性时，该两个属性的相关性程度。

只有目标属性的相关性程度最大，并且大于预设阈值时，才将目标属性作为影响差异属性存在的最大相关属性。实相关的属性之间的相关性程度作为预设阈值作为标准，增强了本申请实施例确定的影响差异属性的最大相关属性的可信度。

基于同一发明构思，本申请实施例提供一种处理实体对象的属性的装置。参考图4，图4是本申请实施例提出的处理实体对象的属性装置结构示意图。

所述装置包括：

差异属性确定模块501，用于将未被具有同一类别标签的所有实体对象共享的属性作为差异属性；

目标属性确定模块502，用于将除所述差异属性外的其他属性逐个作为目标属性；

条件概率确定模块503，用于逐个确定所述目标属性下的实际属性内容的条件概率；所述条件概率是所述实际属性内容对应的实体对象同时享有所述差异属性的概率；

相关性程度确定模块504，用于根据所述条件概率，确定所述目标属性与所述差异属性的相关性程度；

最大相关属性确定模块505，用于将所述其他属性中相关性程度最大的目标属性，确定为最大相关属性。

可选地，所述装置还包括：

所述最大相关属性确定模块包括：

可选地，所述装置还包括：

可选地，所述条件概率确定模块包括：

可选地，所述装置还包括：

所述相关性程度确定模块包括：

可选地，所述差异程度判断子模块包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

基于同一发明构思，本申请另一实施例提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的处理实体对象的属性的方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的处理实体对象的属性的方法中的步骤。

本说明书中的各个实施例均采用递进或说明的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种处理实体对象的属性的方法、装置、设备及存储介质，进行了详细介绍，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种处理实体对象的属性的方法，其特征在于，包括：

将除所述差异属性外的其他属性逐个作为目标属性；

将所述其他属性中相关性程度最大的目标属性，确定为最大相关属性；

在逐个确定所述目标属性下的实际属性内容的条件概率之前，所述方法还包括：

其中，根据所述条件概率，确定所述目标属性与所述差异属性的相关性程度，包括：

2.根据权利要求1所述的方法，其特征在于，在将所述其他属性中相关性程度最大的目标属性，确定为最大相关属性之前，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，在将所述其他属性中相关性程度最大的目标属性，确定为最大相关属性之后，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，确定所述目标属性下的实际属性内容的条件概率，包括：

将所述第二数量和所述第一实体对象的数量，确定为所述目标属性的条件概率。

5.根据权利要求1所述的方法，其特征在于，根据所述目标属性下不同的实际属性内容的条件概率与所述平均条件概率的差异程度，确定所述目标属性与所述差异属性的相关性程度，包括：

6.一种处理实体对象的属性的装置，其特征在于，包括：

最大相关属性确定模块，用于将所述其他属性中相关性程度最大的目标属性，确定为最大相关属性；

所述装置还包括：

所述相关性程度确定模块包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

所述最大相关属性确定模块包括：

8.一种可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5任一所述的方法中的步骤。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行时实现如权利要求1-5任一所述的方法的步骤。