CN106599227B

CN106599227B - 用于获取基于属性值的对象之间的相似度的方法与装置

Info

Publication number: CN106599227B
Application number: CN201611177626.5A
Authority: CN
Inventors: 束博; 孙小亮
Original assignee: Beijing Tianguang Huitong Science & Technology Co ltd
Current assignee: Beijing Tianguang Huitong Science & Technology Co ltd
Priority date: 2016-12-19
Filing date: 2016-12-19
Publication date: 2020-04-17
Anticipated expiration: 2036-12-19
Also published as: CN106599227A

Abstract

本公开提供一种用于获取基于属性值的对象之间的相似度的方法与装置。方法包括：分别获取第一对象和第二对象的属性值集合的simhash值；根据所述simhash值分别获取所述第一对象的各属性与所述第二对象的各属性之间的相关度；根据所述simhash值分别获取所述第一对象的各属性与所述第二对象的各属性之间关系的权重；根据所述相关度与所述权重获取所述第一对象和所述第二对象之间的相似度。本公开提供的方法可以用于计算不同来源的异构数据所描述的对象之间的相似度。

Description

用于获取基于属性值的对象之间的相似度的方法与装置

技术领域

本公开涉及机器学习技术领域，具体而言，涉及一种用于获取基于属性值分布的异构数据对象之间的相似度的方法与装置。

背景技术

在机器学习领域，对象相似度作为一个重要课题，被广泛应用在链接预测、欺诈检测、协同过滤、近邻查询等众多实际问题中。

现有的判断对象之间相似度的方法往往受到对象的属性结构的限制，只能判断属性类型相同或者相近的对象之间的相似度。

因此，需要一种能判断属性类型不完全相同的用于获取异构对象间相似度的方法。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种用于获取基于属性值的异构对象之间的相似度的方法与装置，用于至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或多个问题。

根据本公开实施例的第一方面，提供一种用于获取基于属性值的对象之间的相似度的方法，包括：

分别获取第一对象和第二对象的属性值集合的simhash值；

根据所述simhash值分别获取所述第一对象的各属性与所述第二对象的各属性之间的相关度；

根据所述simhash值分别获取所述第一对象的各属性与所述第二对象的各属性之间关系的权重；

根据所述相关度与所述权重获取所述第一对象和所述第二对象之间的相似度。

在本公开的一种示例性实施例中，根据所述simhash值分别获取所述第一对象的各属性与所述第二对象的各属性之间的相关度包括：

根据所述simhash值分别获取所述第一对象和所述第二对象的各属性值的出现概率；

根据所述出现概率获取第一属性和第二属性的属性值分布散度，所述第一属性和所述第二属性分别属于所述第一对象和所述第二对象；

根据所述属性值分布散度获取所述第一属性和所述第二属性的相关度。

在本公开的一种示例性实施例中，根据所述simhash值分别获取所述第一对象的各属性与所述第二对象的各属性之间关系的权重包括：

获取各属性值在所述第一属性与所述第二属性的合集中的属性值出现概率，所述各属性值包括所述第一属性的属性值与所述第二属性的属性值；

根据所述属性值出现概率获取所述第一属性和所述第二属性的属性值合集的熵。

在本公开的一种示例性实施例中，获取所述属性值出现概率的方程包括：

其中，N_X表示所述第一对象所属的第一对象类型X包括的第一对象数量，N_Y表示所述第二对象所属的第二对象类型Y包括的第二对象数量，n_i表示所述第一属性与所述第二属性的所述属性值合集中第i个属性值在所述第一属性与所述第二属性中的总出现次数，A表示所述第一属性，B表示所述第二属性，

表示所述第i个属性值在所述第一属性与所述第二属性的所述属性值合集中的出现概率。

在本公开的一种示例性实施例中，所述获取所述第一属性和所述第二属性的属性值合集的熵

包括通过以下方程获取：

其中，N_AB表示所述第一属性与所述第二属性的属性值合集中的属性值数量。

在本公开的一种示例性实施例中，根据所述相关度与所述权重获取所述第一对象和所述第二对象之间的相似度包括：

获取所述第一对象的第一属性的属性值和所述第二对象的第二属性的属性值之间的相似度；

判断所述第一对象与所述第二对象是否完全相同；

当所述第一对象与所述第二对象不完全相同时，获取所述第一对象与所述第二对象之间的相似度。

在本公开的一种示例性实施例中，所述获取所述第一对象的第一属性的属性值和所述第二对象的第二属性的属性值之间的相似度

包括通过以下方程获取：

其中，

表示对所述第一对象的所述第一属性A的属性值

求simhash值，所述第一对象属于对象类型X；

表示对所述第二对象的所述第二属性B的属性值

求simhash值，所述第二对象属于对象类型Y；

表示对

和

的simhash值求海明距离，所述海明距离为两个长整数的二进制表示的对应位置的不同字符的个数。

在本公开的一种示例性实施例中，所述获取所述第一对象与所述第二对象之间的相似度sim(x，y)包括通过以下方程获取：

其中，x表示所述第一对象，y表示所述第二对象，n表示所述第一对象的属性类型数量，m表示所述第二对象的属性类型数量，cor(X_i，Y_j)表示所述第一对象的第i个属性与所述第二对象的第j个属性之间的相似度。

根据本公开的第二方面，提供一种用于获取对象相似度的装置，包括：

形式变换单元，用于分别获取第一对象和第二对象的属性值集合的simhash值；

相关度获取单元，用于根据所述simhash值分别获取所述第一对象的各属性与所述第二对象的各属性之间的相关度；

权重获取单元，用于根据所述simhash值分别获取所述第一对象的各属性与所述第二对象的各属性之间关系的权重；

相似度获取单元，用于根据所述相关度与所述权重获取所述第一对象和所述第二对象之间的相似度。

在本公开的一种示例性实施例中，所述相似度获取单元获取所述所述第一对象和所述第二对象之间的相似度包括通过以下方程获取：

本公开提供的方法通过将数据对象的属性值转变为对应的simhash值，并根据simhash值逐对计算分别属于两个对象的两个属性之间的相关度、属性之间的相似度以及属性之间关系的权重，实现了快速判断数据对象的相似度。本方法不仅可以计算数据结构相同的对象之间的相似度，还可以计算不同来源的异构数据所描述的对象之间的相似度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本公开示例性实施例中一种用于获取基于属性值的对象之间的相似度的方法的流程图。

图2示意性示出本公开示例性实施例中一种用于获取基于属性值的对象之间的相似度的装置的方框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

下面结合附图对本公开示例实施方式进行详细说明。

图1是本公开示例性实施例中一种用于获取基于属性值的对象之间的相似度的方法的流程图。

参考图1，方法100可以包括：

步骤102，分别获取第一对象和第二对象的属性值集合的simhash值。

步骤104，根据所述simhash值分别获取所述第一对象的各属性与所述第二对象的各属性之间的相关度。

步骤106，根据所述simhash值分别获取所述第一对象的各属性与所述第二对象的各属性之间关系的权重。

步骤108，根据所述相关度与所述权重获取所述第一对象和所述第二对象之间的相似度。

下面对方法100的各步骤进行详细说明。

在步骤102中，分别获取第一对象和第二对象的属性值集合的simhash值。

计算第一对象和第二对象的各属性的simhash值的具体步骤可以为：

步骤A1：将对象的所有属性值转换为文本格式。

步骤A2：用词向量的形式表示属性值。

通过对属性值转换得到的文本进行词元化(lemmatization)和分词处理，可以得到若干个词，将该属性用这些词组成的词向量表示。例如，对象x的属性a取值为v，经过词元化和分词处理后，得到n个词t₁，t₂，...，t_n，那么v可表示为词向量<t₁,t₂,...,t_n>^T。

步骤A3：将上述词转换成64位长整数，并用该长整数表示该词。选择一个哈希函数f，将词t转换成64位长整数型的哈希值h，即：

h＝f(t)(1)

那么使用(1)可以将对象x的属性a的取值v的词向量表示<t₁,t₂,...t_n>^T转换成哈希值表示：<h₁,h₂,...h_n>^T，其中：

h_i＝f(t_i),i∈[1,n]

步骤A4：计算每个哈希值的权重。

设属性值集合中的对象数量为n，哈希值h在m个对象中出现过，则哈希值h的权重w_h的计算方法如(2)：

w_h＝n/m(2)

步骤A5：计算属性值的simhash值。

具体为：

1、设属性值v的哈希值向量为<h₁,h₂,...h_n>^T，哈希值对应的权重向量为<w₁,w₂,...w_n>^T。首先将h₁,h₂,...h_n转成n个长度为64的整数数组a₁,a₂,...a_n，然后使数组中的每个元素的值等于其对应的哈希值的相应位的值。即：

a_j[j]＝(h_j&&(1＜＜j))＞＞j i∈[1，n]，j∈[0，63] (3)

2、修改每个数组中的每个元素值。如果元素值为1，则将其修改为对应的哈希值的权重；如果元素值为0，则将其修改为其对应的哈希值的权重的负值。即：

3、对于属性值v创建另一个64位的整数数组s，其每个元素等于所有数组a的相应位置的元素的加和，即：

4、修改整数数组s中每个元素的值，方法为：如果s[j]大于0，将s[j]修改为1，否则修改为0，即：

s[j]＝1 if s[j]＞0

s[j]＝0 if s[j]≤0 (6)

5、计算属性v的simhash值simhash_v，方法如(7)：

经过步骤A1至步骤A5的操作，可以完成计算属性的simhash值。通过获取各属性的simhash值，可以将各属性的属性值数字化，以便于进一步计算。

在步骤104中，根据所述simhash值分别获取所述第一对象的各属性与所述第二对象的各属性之间的相关度。

根据simhash值分别获取第一对象的各属性与第二对象的各属性之间的相关度的具体步骤可以包括：

步骤B1：根据simhash值分别获取第一对象和第二对象的各属性值的出现概率。

设对象类型X包含N_X个对象，X的属性类型A出现了N_A个不相同的属性值(因为每个属性值对应一个simhash值，也即出现了N_A个不相同的simhash值)，第i个属性值v_Ai的simhash值simhash_Ai在对象类型X的属性类型A中出现了n_i次，那么属性值v_Ai在对象类型X的属性类型A中的出现概率p_Ai的计算方法如下：

p_Aj＝n_j/N_X (8)

步骤B2：根据出现概率获取第一属性和第二属性的属性值分布散度，第一属性和第二属性分别属于第一对象和第二对象。

设对象类型X的属性类型A和对象类型Y的属性类型B中出现所有simhash值的集合为

中包含的对象数量为

属性值x_i在对象类型X的属性类型A和对象类型Y的属性类型B中的出现概率分别是

和

那么对象类型X的属性类型A和对象类型Y的属性类型B的分布的散度

的计算方法如下：

其中abs是对括号内的算式取绝对值。

步骤B3：根据属性值分布散度获取第一属性和第二属性的相关度。

对象类型X的属性类型A和对象类型Y的属性类型B的相关度cor(X_A，Y_B)的计算方法如(10)：

cor(X_A，Y_B)＝1-divergence(X_A，Y_B) (10)

经过步骤B1至B3的操作，可以完成计算两个属性之间的相关度。通过计算两个属性之间的相关度，可以判断两个属性是否为相同的属性。

在步骤106中，根据所述simhash值分别获取所述第一对象的各属性与所述第二对象的各属性之间关系的权重。

根据simhash值分别获取第一对象的各属性与第二对象的各属性之间关系的权重的具体步骤可以包括：

步骤C1：获取各属性值在第一属性与第二属性的合集中的属性值出现概率，各属性值包括第一属性的属性值与第二属性的属性值。

设对象类型X包含N_X个对象，对象类型Y包含N_Y个对象，X的属性类型A和对象类型Y的属性类型B中出现了N_AB个不相同的属性值，(因为每个属性值对应一个simhash值，也即出现了N_AB个不相同的simhash值)，第i个属性值v_ABi的simhash值simhash_ABi在X的属性类型A和对象类型Y的属性类型B中共出现了n_i次，那么属性值v_ABi在对象类型X的属性类型A以及对象类型Y的属性类型B中的出现概率p_ABi的计算方法如下：

其中，N_X表示第一对象所属的第一对象类型X包括的第一对象数量，N_Y表示第二对象所属的第二对象类型Y包括的第二对象数量，n_i表示第一属性与第二属性的属性值合集中第i个属性值在第一属性与第二属性中的总出现次数，A表示第一属性，B表示第二属性，

表示第i个属性值在第一属性与第二属性的属性值合集中的出现概率。

步骤C2：根据属性值出现概率获取第一属性和第二属性的属性值合集的熵。

对象类型X的属性类型A和对象类型Y的属性类型B的合集的熵

的计算方法为：

其中，N_AB表示第一属性与第二属性的属性值合集中的属性值数量。

经过步骤C1至C2的操作，可以完成计算两个属性之间关系的权重。通过获取两个属性之间的权重，可以判断两个属性之间的相似度是否重要。例如，当第一属性和第二属性均为性别时，则两个属性的合集的熵会比当第一属性和第二属性均为姓名时低，即在前者的情况下，分别属于第一对象与第二对象的第一属性与第二属性即使相同，也不能有效衡量两个对象的相似度，因此，在判断两个对象的相似度时性别相同的权重比姓名相同的权重小。

在步骤108中，根据相关度与权重获取第一对象和第二对象之间的相似度。

根据相关度与权重获取第一对象和第二对象之间的相似度具体可以包括：

步骤D1：获取第一对象的第一属性的属性值和第二对象的第二属性的属性值之间的相似度。

设对象x属于对象类型X，其属性类型A的属性值为

对象y属于对象类型Y，其属性类型B的属性值为

对象x的属性

和对象y的属性

的相似度

的计算方法如(13)：

其中，

表示对所述第一对象的所述第一属性A的属性值

求simhash值，所述第一对象属于对象类型X；

表示对所述第二对象的所述第二属性B的属性值

求simhash值，所述第二对象属于对象类型Y；

表示对

和

的simhash值求海明距离，所述海明距离为两个长整数的二进制表示的对应位置的不同字符的个数。式(13)表示如果两个属性的simhash值的海明距离大于3时其相似度

为0，否则为1。

步骤D2：判断第一对象与第二对象是否完全相同。

设对象x属于对象类型X，对象类型X有n个属性类型，对象y属于对象类型Y，对象类型Y有m个属性类型，x的属性的向量表示为<x₁,...x_n>^T，y的属性的向量表示为<y₁,...y_m>^T，x和y的相似度sim(x，y)的计算方法如下：

对x创建一个长度为n的长整型数组A，对y创建一个长度为m的长整型数组B，将x和y的属性的向量表示转换为simhash值的向量表示，即将x表示为<simhash(x₁),...simhash(x_n)>^T，y的属性的向量表示转换为simhash值的向量表示，即将y表示为<simhash(y₁),...simhash(y_m)>^T，将simhash(x₁),...simhash(x_n)按从小到大排序为simhash(x’₁),...simhash(x’_n)，然后顺序写入数组A中，即A[i]＝simhash(x’_i)，其中i∈[0,n-1]，将simhash(y₁),...simhash(y_m)按从小到大排序为simhash(y’₁),...simhash(y’_m)，然后顺序写入数组B中，即B[i]＝simhash(y’_i)，其中i∈[0,n-1]，比较A和B是否完全相同(即n等于m且A[i]等于B[i]，其中i∈[0,max(n-1,m-1)]，max(n-1,m-1)指n-1,m-1中较大的数)，如果完全相同则x和y的相似度sim(x，y)为1。

步骤D3：当第一对象与第二对象不完全相同时，获取第一对象与第二对象之间的相似度。

所述获取所述第一对象与所述第二对象之间的相似度sim(x，y)包括通过以下方程获取：

经过步骤D1至D3的操作，可以完成计算两个对象之间的相似度的操作。

下面通过具体实施例来对上述方法100进行详细说明。

设某数据库的2个表中分别有如下数据，其中表1中所包含数据的对象类型为“人物1”，表2中所包含数据的对象类型为“人物2”：

表1：

姓名	毕业学校	手机	单位地址
				张三	北京大学	13912345678	北京海淀区颐和园路
李四	南开大学	13512345678	北京海淀区双清路

表2：

姓名	性别	地址
			张三	男	北京海淀区颐和园路
王五	女	北京海淀区颐和园路

步骤A、计算属性的simhash值。

步骤A1：将上述表中的所有属性转换为文本格式。

步骤A2：用词向量的形式表示属性值。

上述表中的属性所转换成的词向量形式为：

步骤A3：将词转换成64位长整数，用该长整数表示该词。

选择一个哈希函数f，将词t转换成64位长整数型的哈希值h，即：

h＝f(t) (1)

那么使用(1)可以将对象x的属性a的取值v的词向量表示<t1,t2,...tn>^T转换成哈希值表示：<h1,h2,...hn>^T，其中：

h_i＝f(t_i) i∈[1，n]

上述各词使用哈希函数转换成的长整数分别为：

词	哈希值
		张三	1081989810476510606
李四	1081989810476577778
		王五	1081989810476672782
北京	1081989810476415258
		大学	1081989810476466628
南开	1081989810476421422
		13912345678	-8319728325564692778
13512345678	-8319731737128842542
		海淀区	-3351804022643473620
颐和园路	6774539740632176899
		双清路	-3351804022649771183
男	34902897112150514
		女	34902897112143406

步骤A4：计算每个哈希值的权重。

上述2个表中共有4个对象，哈希值出现的次数m及其权值如下表所示：

步骤A5：计算属性值的simhash值。

1、将每个属性值转成若干个长度为64的整数数组，数组中的每个元素的值等于其对应的哈希值的相应位的值，例如，属性值“张三”表示为1个长度为64的整数数组如下：

[0,1,1,1,0,0,0,1,1,0,1,1,0,1,1,0,1,1,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,0,0,0,1,1,0,1,1,0,1,1,0,1,1,0,1,0,0,0,0,0,0,0,0,0,0,0,0]

属性值“北京海淀区双清路”表示为3个长度为64的整数数组如下：

[0,1,0,1,1,0,0,0,1,0,0,1,1,1,1,1,1,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,1,0,0,0,1,0,0,1,1,1,1,1,1,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0],

[0,0,1,1,0,1,0,0,1,1,0,0,0,0,1,0,0,0,1,1,1,0,0,1,1,0,0,0,0,0,0,0,0,0,1,1,0,1,0,0,1,1,0,0,0,0,1,0,0,0,1,1,1,0,0,1,1,0,0,0,0,0,0,0],

[1,0,0,0,1,0,1,0,1,1,0,1,0,1,0,0,0,0,1,1,1,1,0,0,1,0,0,0,0,0,0,0,1,0,0,0,1,0,1,0,1,1,0,1,0,1,0,0,0,0,1,1,1,1,0,0,1,0,0,0,0,0,0,0]

2、修改每个数组中的每个元素值。如果为1，将其修改为对应的哈希值的权重；如果为0，将其修改为对应的哈希值的权重的负值。例如，词“张三”的哈希值的权值w_h为2，因此其整数数组里的值修改为：

[-2,2,2,2,-2,-2,-2,2,2,-2,2,2,-2,2,2,-2,2,2,-2,2,-2,-2,-2,-2,-2,-2,-2,-2,-2,-2,-2,-2,-2,2,2,2,-2,-2,-2,2,2,-2,2,2,-2,2,2,-2,2,2,-2,2,-2,-2,-2,-2,-2,-2,-2,-2,-2,-2,-2,-2]

词“北京”、“海淀区”、“双清路”的哈希值的权值分别是1、1、4，因此其整数数组里的值修改为：

[-1,1,-1,1,1,-1,-1,-1,1,-1,-1,1,1,1,1,1,1,-1,-1,1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,1,-1,1,1,-1,-1,-1,1,-1,-1,1,1,1,1,1,1,-1,-1,1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1],

[-1,-1,1,1,-1,1,-1,-1,1,1,-1,-1,-1,-1,1,-1,-1,-1,1,1,1,-1,-1,1,1,-1,-1,-1,-1,-1,-1,-1,-1,-1,1,1,-1,1,-1,-1,1,1,-1,-1,-1,-1,1,-1,-1,-1,1,1,1,-1,-1,1,1,-1,-1,-1,-1,-1,-1,-1],

[4,-4,-4,-4,4,-4,4,-4,4,4,-4,4,-4,4,-4,-4,-4,-4,4,4,4,4,-4,-4,4,-4,-4,-4,-4,-4,-4,-4,4,-4,-4,-4,4,-4,4,-4,4,4,-4,4,-4,4,-4,-4,-4,-4,4,4,4,4,-4,-4,4,-4,-4,-4,-4,-4,-4,-4]

例如属性值“张三”的整数数组s为：

而属性值“北京海淀区双清路”的整数数组s为：

[2,-4,-4,-2,4,-4,2,-6,6,4,-6,4,-4,4,-2,-4,-4,-6,4,6,4,2,-6,-4,4,-6,-6,-6,-6,-6,-6,-6,2,-4,-4,-2,4,-4,2,-6,6,4,-6,4,-4,4,-2,-4,-4,-6,4,6,4,2,-6,-4,4,-6,-6,-6,-6,-6,-6,-6]

4、修改整数数组s中每个元素的值，方法为：如果s[j]大于0，s[j]修改为1，否则修改为0。即：

s[j]＝1 if s[j]≤0

s[j]＝0 if s[j]≤0 (6)

例如，属性值“张三”的整数数组s修改为：

而属性值“北京海淀区双清路”的整数数组s修改为：

5、计算属性v的simhash值simhashv，方法如(7)：

例如，属性值“张三”的simhash值为1497884，而属性值“北京海淀区双清路”的simhash值为41440930。

各属性的simhash值如下表所示：

属性值	simhash值
		张三	1497884
李四	1632228
		王五	1822236
北京大学	1409928
		南开大学	1319516
13912345678	3723234732
		13512345678	1003001252
北京海淀区颐和园路	35369492
		北京海淀区双清路	41440930
男	58340
		女	44124

步骤B、计算两个属性之间的相关度；

具体为：

步骤B1：计算某个属性中的某个属性值的出现概率。

设对象类型X包含N_X个对象，(因为每个属性值对应一个simhash值，也即出现了N_A个不相同的simhash值)，第i个属性值v_Ai的simhash值simhash_Ai在对象类型X的属性类型A中出现了n_i次，那么属性值v_Ai在对象类型X的属性类型A中的出现概率p_Ai的计算方法如下：

P_Ai＝n_i/N_X (8)

例如：

对象类型人物1包含2个对象，人物1的属性类型“姓名”出现了2个不相同的属性值，第1个属性值“张三”在人物1的属性类型“姓名”中出现了1次，那么属性值“张三”在对象类型“人物1”的属性类型“姓名”中出现的概率：

步骤B2：计算两个属性的分布的散度，方法如下：

中包含的对象数量为

和

那么对象类型X的属性类型A和对象类型Y的属性类型B的分布的散度divergence(X_A，Y_B)的计算方法如下：

其中abs是对括号中的算式取绝对值。

例如：对象类型“人物1”的属性类型“姓名”和对象类型“人物2”的属性类型“姓名”中出现所有simhash值的集合是：{1497884,1632228,1822236}，它们在在对象类型“人物1”的属性类型“姓名”和对象类型“人物2”的属性类型“姓名”中的出现概率如下表：

那么对象类型“人物1”的属性类型“姓名”和对象类型“人物2”的属性类型“姓名”的分布的散度为：

步骤B3：计算两个属性的相关度。

cor(X_A，Y_B)＝1-divergence(X_A，Y_B) (10)

例如：对象类型“人物1”的属性类型“姓名”和对象类型“人物2”的属性类型“姓名”的相关度：

cor(X_A，Y_B)＝1-0.5＝0.5

经过步骤B1至B3的操作，完成计算两个属性之间的相关度的操作。

步骤C：计算两个属性之间关系的权重；

具体为：

步骤C1，获取各属性值在第一属性与第二属性的合集中的属性值出现概率，各属性值包括第一属性的属性值与第二属性的属性值。

例如：对象类型“人物1”包含2个对象，对象类型“人物2”包含2个对象，“人物1”的属性类型“姓名”和“人物2”的属性类型“姓名”出现了3个不相同的属性值，第1个属性值“张三”的simhash值

在“人物1”的属性类型“姓名”和“人物2”的属性类型“姓名”中共出现了2次，那么属性值“张三”在对象类型“人物1”的属性类型“姓名”中出现的概率：

属性值“张三”在对象类型“人物1”的属性类型“姓名”以及对象类型“人物2”的属性类型“姓名”中出现的概率为：

步骤C2，根据属性值出现概率获取第一属性和第二属性的属性值合集的熵。

“人物1”的属性类型“姓名”和“人物2”的属性类型“姓名”的合集的熵

经过步骤C，完成计算两个属性之间关系的权重的操作。

步骤D：计算两个对象之间的相似度；

具体为：

步骤D1：计算两个对象的两个属性值之间的相似度，设对象x属于对象类型X，其属性类型A的属性值为v_xA，对象y属于对象类型Y，其属性类型B的属性值为v_yB，对象x的属性v_xA和对象y的属性v_yB的相似度

的计算方法如(13)：

其中

表示对

根据步骤A5求simhash值，

表示对

求海明距离。

例如：“北京大学”和“南开大学”的simhash值分别为1409928和1319516，其海明距离为8，因此其相似度为0。

步骤D2：判断第一对象与第二对象是否完全相同。

例如：

对象类型“人物1”包含4个属性类型，对象“张三”有4个属性类型，对象类型“人物2”包含3个属性类型，其属性类型数量不相等，因此需要根据(14)来计算其相似度。

对象类型“人物1”中的对象“张三”和对象类型“人物2”中的对象“张三”的相似度为：

sim(x，y)＝0.5*1.03*1+0.5*0.561*1＝0.28

经过步骤D1至D2的操作，完成计算两个对象之间的相似度的操作。

对应于上述方法实施例，本公开还提供一种用于获取对象相似度的装置，可以用于执行上述方法实施例。

参考图2，装置200可以包括形式变换单元202、相关度获取单元204、权重获取单元206以及相似度获取单元208。

形式变换单元202可以用于分别获取第一对象和第二对象的属性值集合的simhash值；

相关度获取单元204可以用于根据所述simhash值分别获取所述第一对象的各属性与所述第二对象的各属性之间的相关度；

权重获取单元206可以用于根据所述simhash值分别获取所述第一对象的各属性与所述第二对象的各属性之间关系的权重；

相似度获取单元208可以用于根据所述相关度与所述权重获取所述第一对象和所述第二对象之间的相似度。

在本公开的一种示例性实施例中，所述相似度获取单元获取所述所述

第一对象和所述第二对象之间的相似度包括通过以下方程获取：

由于装置200的各功能已在其对应的方法实施例中予以详细说明，本公开于此不再赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。