CN112163101B

CN112163101B - 一种面向空间知识图谱的地理实体匹配与融合方法

Info

Publication number: CN112163101B
Application number: CN202011194857.3A
Authority: CN
Inventors: 乐鹏; 上官博屹; 龚健雅; 姜良存; 张明达; 胡磊
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2024-01-26
Anticipated expiration: 2040-10-30
Also published as: CN112163101A

Abstract

本发明提出了一种面向空间知识图谱的地理实体匹配与融合方法。本发明构建地理实体对象数据集，将空间邻近的地理实体对作为待匹配地理实体对集合，提取名称字面、名称语音、名称词袋、几何、类别相似度获得相似度特征集合；人工标记一定数量的样本，以其与对应的相似度特征为输入、标签值为输出，训练地理实体匹配深度学习网络模型，预测每个待匹配地理实体对并过滤得到匹配地理实体对集合；最后合并获得匹配地理实体集合，制定策略对属性冲突进行消解从而获得融合结果并发布为空间知识图谱。本发明提高了地理实体的匹配精度，避免了人为干扰因素，构建了高精度的地理实体匹配与融合模型，增强了地理实体库的可用性和数据可追溯性。

Description

一种面向空间知识图谱的地理实体匹配与融合方法

技术领域

本发明属于地理信息***领域，尤其涉及一种面向空间知识图谱的地理实体匹配与融合方法。

背景技术

地理实体是智能地理信息智能服务的基础，融合多源地理实体数据，构建空间知识图谱，可以为各类地理信息服务提供更加丰富完整的地理位置信息。然而，表达同一地理实体的不同来源的地理实体数据在数据结构、地名表达、几何坐标和分类体系等方面存在着差异，从而导致在地理实体融合后会产生歧义。多源地理实体融合需要对这些潜在的差异进行消除并对高维相似特征进行提取，找到匹配的地理实体对象进行属性消歧。现有的地理实体匹配方法大多结合使用多维特征进行计算，涵盖了地理实体对象的空间属性及非空间属性，大致可分为基于空间几何位置特征的匹配与基于非空间属性特征的匹配。随着地理实体对象属性的不断丰富，仅选取单一的属性值作为匹配特征难以实现高精度的匹配效果，将空间位置相似度特征与非空间属性相似度特征结合使用，能够进一步提高相似地名对象匹配的准确性。在得到相应的相似度特征后，需要对所有特征进行加权计算进行最终的匹配判断，而如何对权重进行合理分配是其中的重要问题，目前的方法普遍基于专家经验进行权重分配。但是，人为分配权重具有很大的主观因素，容易出现权重分配不当的情况，从而导致匹配精度的下降。因此，在地理实体数据匹配和融合过程中，需要研究如何有效地提取相似度特征，基于机器学习方法对这些相似度特征进行融合，提高地理实体数据的匹配精度和融合效果。

发明内容

因而为解决上述问题，本发明提供了一种面向空间知识图谱的地理实体匹配与融合方法，从融合多源地理实体数据构建空间知识图谱出发，针对多源地理实体之间存在的差异与相似特征，实现基于深度学习的多源地理实体匹配与融合方法。

本发明的技术方案为一种面向空间知识图谱的地理实体匹配与融合方法，包括以下步骤：

步骤1，构建数据结构、空间坐标系均相同的地理实体对象数据集；

步骤2，根据步骤1中所述数据供应商的类别体系中不同层级的类别的集合中所有类别进行遍历，基于人工标注的方法寻找不同数据供应商中匹配相似的类型；

步骤3，根据不同地理实体供应商提供的地理实体数据构建地理实体数据集，在地理实体数据集中筛选出空间直线距离小于空间距离阈值的地理实体，以构建待匹配地理实体对集合，根据待匹配地理实体对集合分别提取名称字面相似度、名称语音相似度、名称词袋相似度、几何相似度、类别相似度，进一步构建待匹配地理实体对相似度特征集合；

步骤4，从待匹配地理实体对集合中随机选取一定数量的待匹配地理实体对，人工基于经验逐一对比判断每一个随机选择的待匹配地理实体对中两个实体的名称是否近似、空间位置是否邻近、类别是否相同，如果都是，则认为该待匹配地理实体对相似，属于匹配关系，将其划分为正样本，否则划分为负样本，并进行标签标注，获取地理实体匹配样本集合；

步骤5，构建地理实体匹配深度学习网络模型，以地理实体匹配样本集合作为输入数据，将待匹配地理实体对相似度特征集合中获取的对应的待匹配地理实体对匹配样本的相似度特征作为输入数据，地理实体匹配样本集合的样本的标签值为输出进行优化训练，构建训练后地理实体匹配深度学习网络模型；

步骤6，将待匹配的地理实体对集合中的所有待匹配地理实体对，依次通过训练后地理实体匹配深度学习网络模型进行预测得到每个待匹配地理实体对的预测结果，进一步根据每个待匹配地理实体对的预测结果进行过滤筛选得到匹配地理实体对集合；

步骤7，将匹配地理实体对集合中包含相同地理实体的地理实体对进行合并，获得匹配地理实体集合；

步骤8，根据匹配地理实体集集合中所有匹配地理实体集中的地理实体之间的各个属性判断是否相同，进一步获取得到各个匹配地理实体集中存在的属性冲突；

步骤9，根据各个匹配地理实体集中存在的属性冲突，人工制定冲突解决策略对属性冲突进行消解，从而融合匹配地理实体集获得匹配地理实体集融合实体集合；

作为优选，步骤1中所述地理实体对象数据集定义为：

GeoEntityCollection_n＝{GeoEntity_n,1,GeoEntity_n,2,...,GeoEntity_n,Mn}，n∈{1,2,…,N}

其中，GeoEntityCollection_n表示第n个供应商的地理实体对象数据集，N为数据供应商的数量，M_n为第n个数据供应商中地理实体对象的数量；

第n个数据供应商中第m个地理实体对象为：

GeoEntity_n,m＝{GE_n,m.name、GE_n,m.geom、GE_n,m.type、GE_n,m.tags}

n∈{1,2,…,N}，m∈{1,2,…,M_n}

其中，N为数据供应商的数量，M_n为第n个数据供应商中地理实体对象的数量，GE_n,m.name表示第n个数据供应商中第m个地理实体对象的名称，GE_n,m.geom表示第n个数据供应商中第m个地理实体对象的空间坐标，GE_n,m.type表示第n个数据供应商中第m个地理实体对象的类别，GE_n,m.tags表示第n个数据供应商中第m个地理实体对象的标签；

所述GE_n,m.name为文本字符串类型，用于描述地理实体名称的文本字符串；

所述GE_n,m.geom为地理坐标系GeoCS_n中的坐标，具体定义为：

GE_n,m.geom＝{GE_n,m.geom.x，GE_n,m.geom.y}

n∈{1,2,…,N}，m∈{1,2,…,M_n}

其中，GeoCS_n为第n个数据供应商中地理实体对象的地理空间坐标系，N为数据供应商的数量，M_n为第n个数据供应商中地理实体对象的数量，GE_n,m.geom.x表示第n个数据供应商中第m个地理实体对象在地理空间坐标系中的横轴坐标，GE_n,m.geom.y表示第n个数据供应商中第m个地理实体对象在地理空间坐标系中的纵轴坐标，均为浮点数类型；

GE_n,m.geom通过空间数据投影坐标转换算法，将GE_n,m.geom从GeoCS_n转换为统一地理坐标系UGeoCS下；

GE_n,m.geomT＝GeoTransform(GE_n,m.geom,GeoCS_n,UGeoCS)

其中，GE_n,m.geomT为转换后的地理坐标，GeoTransform将原地理坐标根据原坐标系和目标坐标系进行坐标转换；

所述GE_n,m.type为第n个数据供应商的类别体系中不同层级的类别的集合，具体定义为：

GE_n,m.type＝{type_n,l,tl}

l∈{1,2,…,L_n}，tl∈{1,2,…,T_n,l}

其中，L_n为第n个数据供应商的类别体系中类别层级的数量，T_n,l为第n个数据供应商的类别体系中第l层级的类别数量，type_n,l,tl为第n个数据供应商的类别体系的第l层级的第tl个类型；

所述第n个数据供应商的类别体系由多个类别层级组成，具体定义为：

TypeClass_n＝{TypeLevel_n,1,TypeLevel_n,2,…,TypeLevel_n,l}

l∈{1,2,…,L_n}

其中，TypeLevel_n,l代表第n个数据供应商的类别体系的第l层类别的集合，L_n为第n个数据供应商的类别体系中类别层级的数量；

TypeLevel_n,l有多个类型组成，具体定义为：

TypeLevel_n,l＝{type_n,l,1,type_n,l,2,…,type_n,l,t}

l∈{1,2,…,L_n}，t∈{1,2,…,T_n,l}

其中，type_n,l,t代表第n个数据供应商的类别体系的第l层类别的第t个类型，L_n为第n个数据供应商的类别体系中类别层级的个数，T_n,l为第n个数据供应商的类别体系中第l层级的类别数量；

所述GE_n,m.tags为标签名、标签值的键值对集合，具体定义为：

GE_n,m.tags＝{<tag₁,value₁>,<tag₂,value₂>,…,<tag_k,value_k>}

k∈{1,2,…,K_n,m}

其中，<tag_k,value_k>代表第k个键值对，K_n,m为第n个数据供应商中第m个地理实体对象的键值对的数量；

若GE_n,m.name、GE_n,m.geom、GE_n,m.type、GE_n,m.tags中有任意一个值为空值，则去除GeoEntity_n,m；

若数据供应商n中有两个地理实体对象GE_n,m1与GE_n,m2，m1≠m2，m1,m2∈{1,2,…,M_n}四个属性都相同，则只选择保留一个对象；

作为优选，步骤2所述基于人工标注的方法寻找不同数据供应商中匹配相似的类型为：

对type_n,l,t进行遍历，

n∈{1,2,…,N}，l∈{1,2,…,L_n}，t∈{1,2,…,T_n,l}，基于人工标注的方法寻找和匹配相似的类型type_n1,l1,t1与type_n2,l2,t2并建立一对一的匹配关系，表示为：

type_n1,l1,t1 sameAs type_n2,l2,t2

n1≠n2，n1,n2∈{1,2,…,N}

l1∈{1,2,…,L_n1}，l2∈{1,2,…,L_n2}

t1∈{1,2,…,T_n1,l1}，t2∈{1,2,…,T_n2,l2}

作为优选，步骤3所述筛选出空间距离小于阈值的地理实体为：

GeoDis(GE_n1,m1.geomT,GE_n2,m2.geomT)<d

n1≠n2，n1∈{1,2,…,N}，n2∈{1,2,…,N}

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}

步骤3所述待匹配地理实体对集合为：

PreMatchC＝{<GeoEntity_n1,m1,GeoEntity_n2,m2>}

其中，N表示地理实体供应商的数量，M_n1表示第n1个地理实体供应商中地理实体的数量，M_n2表示第n2个地理实体供应商中地理实体的数量，GE_n1,m1.geomT表示第n1个地理实体供应商即GeoEntityCollection_n1的第m1个实体的经纬度坐标，GE_n2,m2.geomT表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个实体的经纬度坐标，GeoDis表示根据GE_n1,m1.geomT、GE_n2,m2.geomT求通过欧式距离计算得两个地理实体间的空间直线距离，d为设定的空间距离阈值，GeoEntity_n1,m1表示第n1个地理实体供应商即GeoEntityCollection_n1的第m1个实体，GeoEntity_n2,m2表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个实体，<GeoEntity_n1,m1,GeoEntity_n2,m2>表示由GeoEntity_n1,m1与GeoEntity_n2,m2组成的二元组，即待匹配地理实体对；

步骤3所述提取名称字面相似度为：

Sim_string(n1,n2,m1,m2)为待匹配地理实体对<GeoEntity_n1,m1,GeoEntity_n2,m2>基于编辑距离计算得到的名称字面相似度，表示为：

Sim_string(n1,n2,m1,m2)＝1-TextDis(GE_n1,m1.name,GE_n2,m2.name)/Max(Len(GE_n1,m1.name),Len

(GE_n2，m2.name))

其中，GE_n1,m1.name表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个实体的名称，GE_n2,m2.name表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个实体的名称，TextDis表示根据GE_n1,m1.name、GE_n2,m2.name基于编辑距离算法求两个文本的编辑距离，Len通过统计文本中字符的个数计算文本长度，Max通过比较数值大小求两个数值的最大值；

步骤3所述提取名称语音相似度为：

Sim_phonetics(n1,n2,m1,m2)为待匹配地理实体对<GeoEntity_n1,m1,GeoEntity_n2,m2>基于字符拼音计算得到的名称语音相似度，计算公式表示为：

Sim_phonetics(n1,n2,m1,m2)＝1-TextDis(Phon(GE_n1,m1.name),Phon(GE_n2, _m2.name))/Max(Len(P

hon(GE_n1,m1.name)),Len(Phon(GE_n1,m1.name)))

其中，GE_n1,m1.name表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个实体的名称，GE_n2,m2.name表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个实体的名称，Phon表示根据GE_n1,m1.name基于字典将中文文本转为中文拼音文本，TextDis基于编辑距离算法求两个Phon结果的编辑距离，Len通过统计Phon结果中字符的个数计算文本长度，Max通过比较数值大小求两个数值的最大值；

步骤3所述提取名称词袋相似度为：

Sim_bow(n1,n2,m1,m2)为待匹配地理实体对<GeoEntity_n1,m1,GeoEntity_n2,m2>基于词袋模型的名称词袋相似度，计算公式表示为：

Sim_bow(n1,n2,m1,m2)＝Common(Bow(GE_n1,m1.name),Bow(GE_n2,m2.name))/Min(Size(Bow(GE_n1,m

₁.name)),Size(Bow(GE_n2,m2.name)))

其中，GE_n1,m1.name表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个实体的名称，GE_n2,m2.name表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个实体的名称，Bow根据GE_n1,m1.name基于文本分词算法获得文本中词的集合，Common通过对比统计获得两个词的集合Bow中相同的词的个数，Size通过统计获得词的集合Bow中词的个数，Min通过比较数值大小求两个Size结果数值的最小值；

步骤3所述提取几何相似度为：

Sim_geometry(n1,n2,m1,m2)为待匹配地理实体对<GeoEntity_n1,m1,GeoEntity_n2,m2>基于空间距离的几何相似度，计算公式表示为：

Sim_geometry(n1,n2,m1,m2)＝1-GeoDis(GE_n1,m1.geomT,GE_n2,m2.geomT)/d

其中，GE_n1,m1.geomT表示第n1个地理实体供应商即GeoEntityCollection_n1的第m1个实体的经纬度坐标，GE_n2,m2.geomT表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个实体的经纬度坐标，GeoDis表示根据GE_n1,m1.geomT、GE_n2,m2.geomT求通过欧式距离计算得两个地理实体间的空间直线距离，d为设定的空间距离阈值常量；

步骤3所述提取类别相似度为：

Sim_type(n1,n2,m1,m2)为待匹配地理实体对<GeoEntity_n1,m1,GeoEntity_n2,m2>基于类型匹配结果的类别相似度，计算公式表示为：

Sim_type(n1,n2,m1,m2)＝(SameLevels(GE_n1,m1.type,GE_n2,m2.type)/Min(L_n1,L_n2))²

其中，GE_n1,m1.type表示第n1个地理实体供应商即GeoEntityCollection_n1的第m1个实体的类别，GE_n2,m2.type表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个实体的类别，SameLevels根据GE_n1,m1.type和GE_n2,m2.type通过逐层对比求两个类别的类型匹配的最大层数，L_n1为GeoEntityCollection_n1的类别体系中类别层级的个数，L_n2为GeoEntityCollection_n2的类别体系中类别层级的个数，Min通过比较数值大小求两个类别层数L_n1、L_n2的最小值；

步骤3所述构建待匹配地理实体对相似度特征集合为：

PreMatchSimC＝{PreMatchSim_n1,n2,m1,m2}

n1≠n2，n1∈{1,2,…,N}，n2∈{1,2,…,N}

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}

其中，PreMatchSimC表示待匹配地理实体对相似度特征集合，PreMatchSim_n1,n2,m1,m2为待匹配地理实体对即<GeoEntity_n1,m1,GeoEntity_n2,m2>的相似度特征，表示为：

PreMatchSim _n1,n2,m1,m2＝{Sim_string(n1,n2,m1,m2),Sim_phonetics(n1,n2,m1,m2),

Sim_bow(n1,n2,m1,m2),Sim_geometry(n1,n2,m1,m2),Sim_type(n1,n2,m1,m2)}

n1≠n2，n1∈{1,2,…,N}，n2∈{1,2,…,N}

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}

作为优选，步骤4所述地理实体匹配样本集合表示为：

MatchSampleC＝{MatchPSampleC,MatchNSampleC}

其中，MatchPSampleC为正样本集合，MatchNSampleC为负样本集合，表示为：

MatchPSampleC＝{MatchPSample₁,MatchPSample₂,…,MatchPSample_sp}

sp∈{1,2,…,SP}

MatchNSampleC＝{MatchNSample₁,MatchNSample₂,…,MatchNSample_sn}

sn∈{1,2,…,SN}

其中，SP为正样本个数，SN为负样本个数，MatchPSample为待匹配地理实体对标注后的待匹配地理实体对正匹配样本，MatchNSample为待匹配地理实体对标注后的待匹配地理实体对负匹配样本，表示为：

MatchPSample∈{<<GeoEntity_n1,m1,GeoEntity_n2,m2>,Label_n1,n2,m1,m2>}，

Label_n1,n2,m1,m2＝1，

n1≠n2，n1∈{1,2,…,N}，n2∈{1,2,…,N}

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}

MatchNSample∈{<<GeoEntity_n1,m1,GeoEntity_n2,m2>,Label_n1,n2,m1,m2>},

Label_n1,n2,m1,m2＝0，

n1≠n2，n1∈{1,2,…,N}，n2∈{1,2,…,N}

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}

其中，<<GeoEntity_n1,m1,GeoEntity_n2,m2>,Label_n1,n2,m1,m2>表示待匹配地理实体对样本，Label_n1,n2,m1,m2为样本标签；当Label_n1,n2,m1,m2的值为1时待匹配地理实体对<GeoEntity_n1,m1,GeoEntity_n2,m2>正负样本，当Label_n1,n2,m1,m2的值为0时待匹配地理实体对<GeoEntity_n1,m1,GeoEntity_n2,m2>为负样本。

作为优选，步骤5所述构建深度地理实体匹配深度学习网络模型为：

所述深度地理实体匹配深度学习网络模型由第一个网络模型、第二个网络模型串联构成；

所述第一个网络模型由输入层、2个隐藏层、输出层依次串联级联构成；

所述输入层由数量为K1＝3个输入节点并联构成，依次为每个待匹配地理实体对样本<GeoEntity_n1,m1,GeoEntity_n2,m2>(n1≠n2，n1∈{1,2,…,N}，n2∈{1,2,…,N}，m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2})的字面相似度Sim_string(n1,n2,m1,m2)、语音相似度Sim_phonetics(n1,n2,m1,m2)、词袋相似度Sim_bow(n1,n2,m1,m2),；

所述隐藏层1由L11＝32个节点并联构成，表示为：

HiddenLayer_1,1＝{node_1,1,i},

node_1,1,i＝Sim_string(n1,n2,m1,m2)*w_1,1,1,i+Sim_phonetics(n1,n2,m1,m2)*w_1,1,2,i+

Sim_bow(n1,n2,m1,m2)*w_1,1,3,i+K_1,1,i，

i∈{1,2,…,32}

其中，HiddenLayer_1,1表示第一个网络模型的第一个隐藏层，node_1,1,i为第一个网络模型的第一个隐藏层的第i个节点的值，w_1,1,1,i为第一个网络模型的输入层的第一个节点到第一个隐藏层第i个节点的权重，K_1,1,i,为第一个网络模型的输入层节点到第一个隐藏层第i个节点的偏置值，i取值范围为1到32；

所述隐藏层2由L12＝32个节点并联构成，表示为：

HiddenLayer_1,2＝{node_1,2,i}，

node_1,2,i＝node_1,1,1*w_1,2,1,i+node_1,1,2*w_1,2,2,i+…+node_1,1,j*w_1,2,j,i+…+node_1,1,32*w_1,2,32,i+K_1,2,i，

i，j∈{1,2,…,32}

其中，HiddenLayer_1,2表示第一个网络模型的第二个隐藏层，node_1,2,i为第一个网络模型的第二个隐藏层的第i个节点的值，w_1,2,j,i为第一个网络模型的第一个隐藏层的第j个节点到第二个隐藏层第i个节点的权重，K_1,2,i,为第一个网络模型的第一个隐藏层节点到第二个隐藏层第i个节点的偏置值，i和j取值范围为1到32；

所述输出层选用ReLU函数作为激活函数最终输出提取出的名称相似度Sim_name(n1,n2,m1,m2)，表示为：

Sim_name(n1,n2,m1,m2)＝Max(0,node_1,2,1*w_1,3,1,1+node_1,2,2*w_1,3,2,1+…+node_1,2,i*w_1,3,i,1+…

+node_1,2,32*w_1,3,32,1)+K_1,3,1)，

i∈{1,2,…,32}

其中，node_1,2,i为第一个网络模型的第二个隐藏层的第i个节点的值，w_1,3,i,1为第一个网络模型的第二个隐藏层的第i个节点到输出层的权重，K_1,3,1,为第一个网络模型的第二个隐藏层节点到输出层节点的偏置值，i的取值范围为1到32，Max函数获取输入两个值中的较大值；

所述第一个网络模型的损失函数表示为：

OFunc₁＝∑(Sim_name(n1,n2,m1,m2)-Label_n1,n2,m1,m2)²

n1≠n2，n1∈{1,2,…,N}，n2∈{1,2,…,N}

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}

其中，Label_n1,n2,m1,m2为地理实体匹配样本集合的样本<GeoEntity_n1,m1,GeoEntity_n2,m2>的标签值；

第二个网络模型由输入层、2个隐藏层、输出层依次串联级联构成；

所述输入层由数量为K2＝3个输入节点并联构成，依次为每个待匹配地理实体对<GeoEntity_n1,m1,GeoEntity_n2,m2>(n1≠n2，n1∈{1,2,…,N}，n2∈{1,2,…,N}，m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2})的模型1输出Sim_name(n1,n2,m1,m2)、几何相似度Sim_geometry(n1,n2,m1,m2)和类别相似度Sim_type(n1,n2,m1,m2)；

所述隐藏层1由L21＝32个节点并联构成，表示为：

HiddenLayer_2,1＝{node_2,1,i},

node_2,1,i＝Sim_name(n1,n2,m1,m2)*w_2,1,1,i+Sim_geometry(n1,n2,m1,m2)*w_1,1,2,i+

Sim_type(n1,n2,m1,m2)*w_1,1,3,i+K_2,1,i，

i∈{1,2,…,32}

其中，HiddenLayer_2,1表示第二个网络模型的第一个隐藏层，node_2,1,i为第二个网络模型的第一个隐藏层的第i个节点的值，w_2,1,1,i为第二个网络模型的输入层的第一个节点到第一个隐藏层第i个节点的权重，K_2,1,i,为第二个网络模型的输入层节点到第一个隐藏层第i个节点的偏置值，i取值范围为1到32；

所述隐藏层2由L22＝32个节点并联构成，表示为：

HiddenLayer_2,2＝{node_2,2,i}，

node_2,2,i＝node_2,1,1*w_2,2,1,i+node_2,1,2*w_2,2,2,i+…+node_2,1,j*w_2,2,j,i+…+node_2,1,32*w_2,2,32,i+K_2,2,i，

i，j∈{1,2,…,32}

其中，HiddenLayer_2,2表示第二个网络模型的第二个隐藏层，node_2,2,i为第二个网络模型的第二个隐藏层的第i个节点的值，w_2,2,j,i为第二个网络模型的第一个隐藏层的第j个节点到第二个隐藏层第i个节点的权重，K_2,2,i,为第二个网络模型的第一个隐藏层节点到第二个隐藏层第i个节点的偏置值，i和j取值范围为1到32；

所述输出层选用Sigmoid函数作为激活函数将输出结果映射到0,1之间，表示为；

Output(n1,n2,m1,m2)＝1/(1+e^{-OutputTmp(n1,n2,m1,m2)})，

OutputTmp(n1,n2,m1,m2)＝node_2,2,1*w_2,3,1,1+node_2,2,2*w_2,3,2,1+…+node_2,2,i*w_2,3,i,1+…

+node_2,2,32*w_2,3,32,1)+K_2,3,1，

i∈{1,2,…,32}

其中，Output(n1,n2,m1,m2)表示地理实体匹配样本集合的样本<GeoEntity_n1,m1,GeoEntity_n2,m2>作为输入的输出层的输出值，node_2,2,i为第二个网络模型的第二个隐藏层的第i个节点的值，w_2,3,i,1为第二个网络模型的第二个隐藏层的第i个节点到输出层的权重，K_2,3,1,为第一个网络模型的第二个隐藏层节点到输出层节点的偏置值，i的取值范围为1到32；

所述第二个网络模型的损失函数模型表示为：

OFunc₂＝∑(Output(n1,n2,m1,m2)-Label_n1,n2,m1,m2)²

n1≠n2，n1∈{1,2,…,N}，n2∈{1,2,…,N}

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}

所述深度地理实体匹配深度学习网络模型的总体损失函数为：

CFunc＝OFunc₁+OFunc₂＝

∑(Sim_name(n1,n2,m1,m2)-Label_n1,n2,m1,m2)²+∑(Output(n1,n2,m1,m2)-Label_n1,n2,m1,m2)²

n1≠n2，n1∈{1,2,…,N}，n2∈{1,2,…,N}

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}

其中，Label_n1,n2,m1,m2为地理实体匹配样本集合的样本<GeoEntity_n1,m1,GeoEntity_n2,m2>的标签值，Sim_name(n1,n2,m1,m2)表示地理实体匹配样本集合的样本<GeoEntity_n1,m1,GeoEntity_n2,m2>作为输入的模型1的输出层的输出值，Output(n1,n2,m1,m2)表示地理实体匹配样本集合的样本<GeoEntity_n1,m1,GeoEntity_n2,m2>作为输入的模型2的输出层的输出值；

所述深度地理实体匹配深度学习网络模型的总体寻优函数为：

OFunc＝Mimimize(CFunc)

函数Minimize表示寻优函数的目标是获取输入公式的最小值，使用梯度下降法进行求解；

步骤5所述构建训练后地理实体匹配深度学习网络模型为：

node_1,1,i＝Sim_string(n1,n2,m1,m2)*w^* _1,1,1,i+Sim_phonetics(n1,n2,m1,m2)*w^* _1,1,2,i+

Sim_bow(n1,n2,m1,m2)*w^* _1,1,3,i+K^* _1,1,i，

node_1,2,i＝node_1,1,1*w^* _1,2,1,i+node_1,1,2*w^* _1,2,2,i+…+node_1,1,j*w^* _1,2,j,i+…+node_1,1,32*w^* _1,2,32,i+K^* _1,2,i，

Sim_name(n1,n2,m1,m2)＝Max(0,node_1,2,1*w^* _1,3,1,1+node_1,2,2*w^* _1,3,2,1+…+node_1,2,i*w^* _1,3,i,1+…

+node_1,2,32*w^* _1,3,32,1)+K^* _1,3,1)，

node_2,1,i＝Sim_name(n1,n2,m1,m2)*w^* _2,1,1,i+Sim_geometry(n1,n2,m1,m2)*w^* _1,1,2,i+

Sim_type(n1,n2,m1,m2)*w^* _1,1,3,i+K^* _2,1,i，

node_2,2,i＝node_2,1,1*w^* _2,2,1,i+node_2,1,2*w^* _2,2,2,i+…+node_2,1,j*w^* _2,2,j,i+…+node_2,1,32*w^* _2,2,32,i+K^* _2,2,i,

Output(n1,n2,m1,m2)＝1/(1+e^{-OutputTmp(n1,n2,m1,m2)})，

OutputTmp(n1,n2,m1,m2)＝node_2,2,1*w^* _2,3,1,1+node_2,2,2*w^* _2,3,2,1+…+node_2,2,i*w^* _2,3,i,1+…

+node_2,2,32*w^* _2,3,32,1)+K^* _2,3,1，

i，j∈{1,2,…,32}，

n1≠n2，n1∈{1,2,…,N}，n2∈{1,2,…,N}，

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}

其中，Sim_string(n1,n2,m1,m2)为每个待匹配地理实体对样本<GeoEntity_n1,m1,GeoEntity_n2,m2>的字面相似度；Sim_phonetics(n1,n2,m1,m2)为每个待匹配地理实体对样本<GeoEntity_n1,m1,GeoEntity_n2,m2>的语音相似度；Sim_bow(n1,n2,m1,m2)为每个待匹配地理实体对样本<GeoEntity_n1,m1,GeoEntity_n2,m2>的词袋相似度；Sim_name(n1,n2,m1,m2)表示地理实体匹配样本集合的样本<GeoEntity_n1,m1,GeoEntity_n2,m2>作为输入的模型1的输出层的输出值；Output(n1,n2,m1,m2)表示地理实体匹配样本集合的样本<GeoEntity_n1,m1,GeoEntity_n2,m2>作为输入的模型2的输出层的输出值，也是总体模型最终的输出值；node表示隐藏层节点，3个下标分别表示模型序号、隐藏层序号、节点序号；w^*表示优化训练后的权重参数，4个下标分别表示模型序号、前一网络层序号、当前网络层序号、节点序号；K^*表示优化训练后的每层节点的偏置值，3个下标分别表示模型序号、网络层序号、节点序号；

作为优选，步骤6所述进一步根据每个待匹配地理实体对的预测结果进行过滤筛选得到匹配地理实体对集合为：

每个待匹配地理实体对的预测结果为Output(n1,n2,m1,m2)；

将Output(n1,n2,m1,m2)>α＝0.5的匹配地理实体对集合，表示为：

MatchC＝<GeoEntity_n1,m1,GeoEntity_n2,m2>

Output(n1,n2,m1,m2)>α＝0.5，

n1≠n2，n1∈{1,2,…,N}，n2∈{1,2,…,N}，

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}

其中，N表示地理实体供应商的数量，M_n1表示第n1个地理实体供应商中地理实体的数量，M_n2表示第n2个地理实体供应商中地理实体的数量，GeoEntity_n1,m1表示第n1个地理实体供应商即GeoEntityCollection_n1的第m1个实体，GeoEntity_n2,m2表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个实体，<GeoEntity_n1,m1,GeoEntity_n2,m2>表示由GeoEntity_n1,m1与GeoEntity_n2,m2组成的二元组，即待匹配地理实体对，Output(n1,n2,m1,m2)表示地理实体匹配样本集合的样本<GeoEntity_n1,m1,GeoEntity_n2,m2>作为输入的训练后地理实体匹配深度学习网络模型的输出值；

作为优选，步骤7所述匹配地理实体集合为：

CMatchC＝{CMatch_c}，c＝1,2,…,C

CMatch_c＝{GeoEntity_n1,m1,GeoEntity_n2,m2,，。。。,GeoEntity_nNc,mNc}，

Nc<＝N，n1≠n2≠nNc，

n1∈{1,2,…,N}，n2∈{1,2,…,N}，nNc∈{1,2,…,N}，

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}，mNc∈{1,2,…,M_nNc}

其中，C表示匹配地理实体集个数，CMatch_c表示第c个匹配地理实体集由若干个两两匹配的来自不同地理实体供应商的地理实体组成，Nc表示第c个匹配地理实体集中地理实体的个数，N表示地理实体供应商的数量，M_n1表示第n1个地理实体供应商中地理实体的数量，M_n2表示第n2个地理实体供应商中地理实体的数量，M_nNc表示第nNc个地理实体供应商中地理实体的数量，GeoEntity_n1,m1表示第n1个地理实体供应商即GeoEntityCollection_n1的第m1个实体，GeoEntity_n2,m2表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个实体，GeoEntity_nNc,mNc表示第nNc个地理实体供应商即GeoEntityCollection_Nnc的第mNc个实体；

作为优选，步骤8所述进一步获取得到各个匹配地理实体集中存在的属性冲突为：

Cx_c＝{Cx_c.name,Cx_c.geom,Cx_c.type,Cx_c.tags}，

Nc<＝N，n1≠n2≠nNc，

n1∈{1,2,…,N}，n2∈{1,2,…,N}，nNc∈{1,2,…,N}，

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}，mNc∈{1,2,…,M_nNc}

其中，Cx_c表示第c个匹配地理实体集CMatch_c中存在的属性冲突；Nc表示第c个匹配地理实体集中地理实体的个数，N表示地理实体供应商的数量，M_n1表示第n1个地理实体供应商中地理实体的数量，M_n2表示第n2个地理实体供应商中地理实体的数量，M_nNc表示第nNc个地理实体供应商中地理实体的数量；GE_n1,m1.name表示第n1个地理实体供应商即GeoEntityCollection_n1的第m1个地理实体的名称，GE_n2,m2.name表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个地理实体的名称，GE_nNc,mNc.name表示第nNc个地理实体供应商即GeoEntityCollection_nNc的第mNc个地理实体的名称；GE_n1,m1.geomT表示第n1个地理实体供应商即GeoEntityCollection_n1的第m1个地理实体的经纬度坐标，GE_n2,m2.geomT表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个地理实体的经纬度坐标，GE_nNc,mNc.geomT表示第nNc个地理实体供应商即GeoEntityCollection_nNc的第mNc个地理实体的经纬度坐标；GE_n1,m1.type表示第n1个地理实体供应商即GeoEntityCollection_n1的第m1个地理实体的类别，GE_n2,m2.type表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个地理实体的类别，GE_nNc,mNc.type表示第nNc个地理实体供应商即GeoEntityCollection_nNc的第mNc个地理实体的类别；GE_n1,m1.tags表示第n1个地理实体供应商即GeoEntityCollection_n1的第m1个地理实体的标签，GE_n2,m2.tags表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个地理实体的标签，GE_nNc,mNc.tags表示第nNc个地理实体供应商即GeoEntityCollection_nNc的第mNc个地理实体的标签；Cx_c.name表示第c个匹配地理实体集CMatch_c中的名称属性冲突，当其包含的所有地理实体的名称属性都相同时值为0表示无名称属性冲突，否则值为1表示存在名称属性冲突；Cx_c.geom表示第c个匹配地理实体集CMatch_c中的几何属性冲突，当其包含的所有地理实体的几何属性都相同时值为0表示无几何属性冲突，否则值为1表示存在几何属性冲突；Cx_c.type表示第c个匹配地理实体集CMatch_c中的类别属性冲突，当其包含的所有地理实体的类别都相同时值为0表示无类别属性冲突，否则值为1表示存在类别属性冲突；Cx_c.tags表示第c个匹配地理实体集CMatch_c中的标签属性冲突，当其包含的所有地理实体的标签都相同时值为0表示无标签属性冲突，否则值为1表示存在标签属性冲突；

作为优选，步骤9所述融合匹配地理实体集获得匹配地理实体集融合实体集合为：

FusionEntityC＝{FusionEntity_c}，c＝1,2,…,C

FusionEntity_c＝{FusionEntity_c.name,FusionEntity_c.geom,FusionEntity_c.type,

FusionEntity_c.tags}

其中，FusionEntityC表示匹配地理实体集融合实体集合，C表示匹配地理实体集融合实体的个数，与匹配地理实体集个数相同；FusionEntity_c表示第c个匹配地理实体集融合实体，FusionEntity_c.name表示c个匹配地理实体集融合实体的名称，FusionEntity_c.geom表示c个匹配地理实体集融合实体的经纬度坐标，FusionEntity_c.type表示c个匹配地理实体集融合实体的类别，FusionEntity_c.tag表示c个匹配地理实体集融合实体的融合标签；

所述匹配地理实体集融合实体的名称，当匹配地理实体集存在名称属性冲突时采用“接受所有冲突的值”的策略来获取，否则取匹配地理实体集中所有地理实体的相同的名称，表示为：

FusionEntity_c.name＝{GE_n1,m1.name,GE_n2,m2.name,…,GE_nNc,mNc.name}，Cx_c.name＝1

FusionEntity_c.name＝GE_n1,m1.name＝GE_n2,m2.name＝…＝GE_nNc,mNc.name，Cx_c.name＝0

c＝1,2,…,C，

Nc<＝N，n1≠n2≠nNc，

n1∈{1,2,…,N}，n2∈{1,2,…,N}，nNc∈{1,2,…,N}，

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}，mNc∈{1,2,…,M_nNc}

其中，FusionEntity_c.name表示c个匹配地理实体集融合实体的名称，C表示匹配地理实体集融合实体的个数，Nc表示第c个匹配地理实体集中地理实体的个数，N表示地理实体供应商的数量，M_n1表示第n1个地理实体供应商中地理实体的数量，M_n2表示第n2个地理实体供应商中地理实体的数量，M_nNc表示第nNc个地理实体供应商中地理实体的数量；GE_n1,m1.name表示第n1个地理实体供应商即GeoEntityCollection_n1的第m1个地理实体的名称，GE_n2,m2.name表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个地理实体的名称，GE_nNc,mNc.name表示第nNc个地理实体供应商即GeoEntityCollection_nNc的第mNc个地理实体的名称；Cx_c.name表示第c个匹配地理实体集CMatch_c中的名称属性冲突；

所述匹配地理实体集融合实体的经纬度坐标，当匹配地理实体集存在几何属性冲突时采用“在冲突值中选取平均值”的策略来获取，否则取匹配地理实体集中所有地理实体的相同的经纬度坐标，表示为：

FusionEntity_c.geom＝Avg(GE_n1,m1.geomT,GE_n2,m2.geomT,…,GE_nNc,mNc.geomT)，Cx_c.geom＝1

FusionEntity_c.geom＝GE_n1,m1.geomT＝GE_n2,m2.geomT＝…＝GE_nNc,mNc.geomT，Cx_c.geom＝0

c＝1,2,…,C，

Nc<＝N，n1≠n2≠nNc，

n1∈{1,2,…,N}，n2∈{1,2,…,N}，nNc∈{1,2,…,N}，

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}，mNc∈{1,2,…,M_nNc}

其中，FusionEntity_c.geom表示c个匹配地理实体集融合实体的经纬度坐标，C表示匹配地理实体集融合实体的个数，Nc表示第c个匹配地理实体集中地理实体的个数，N表示地理实体供应商的数量，M_n1表示第n1个地理实体供应商中地理实体的数量，M_n2表示第n2个地理实体供应商中地理实体的数量，M_nNc表示第nNc个地理实体供应商中地理实体的数量；GE_n1,m1.geomT表示第n1个地理实体供应商即GeoEntityCollection_n1的第m1个地理实体的经纬度坐标，GE_n2,m2.geomT表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个地理实体的经纬度坐标，GE_nNc,mNc.geomT表示第nNc个地理实体供应商即GeoEntityCollection_nNc的第mNc个地理实体的经纬度坐标；Cx_c.geom表示第c个匹配地理实体集CMatch_c中的几何属性冲突；函数Avg通过输入多个地理实体的经纬度坐标求它们的平均经纬度坐标；

所述匹配地理实体集融合实体的类别，当匹配地理实体集存在类别属性冲突时采用“选择在冲突值中出现频率最高的值”的策略来获取，否则取匹配地理实体集中所有地理实体的相同的类别，表示为：

FusionEntity_c.type＝MostFrequency(GE_n1,m1.type,GE_n2,m2.type,…,GE_nNc, _mNc.type)，

Cx_c.type＝1

FusionEntity_c.type＝GE_n1,m1.type＝GE_n2,m2.type＝…＝GE_nNc,mNc.type，Cx_c.type＝0

c＝1,2,…,C，

Nc<＝N，n1≠n2≠nNc，

n1∈{1,2,…,N}，n2∈{1,2,…,N}，nNc∈{1,2,…,N}，

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}，mNc∈{1,2,…,M_nNc}

其中，FusionEntity_c.type表示c个匹配地理实体集融合实体的类别，C表示匹配地理实体集融合实体的个数，Nc表示第c个匹配地理实体集中地理实体的个数，N表示地理实体供应商的数量，M_n1表示第n1个地理实体供应商中地理实体的数量，M_n2表示第n2个地理实体供应商中地理实体的数量，M_nNc表示第nNc个地理实体供应商中地理实体的数量；GE_n1,m1.type表示第n1个地理实体供应商即GeoEntityCollection_n1的第m1个地理实体的类别，GE_n2,m2.type表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个地理实体的类别，GE_nNc,mNc.type表示第nNc个地理实体供应商即GeoEntityCollection_nNc的第mNc个地理实体的类别；Cx_c.type表示第c个匹配地理实体集CMatch_c中的类别属性冲突；函数MostFrequency通过输入多个地理实体的类别获取出现频率最高的类别

所述匹配地理实体集融合实体的标签，当匹配地理实体集存在标签属性冲突时采用“接受所有冲突的值”的策略来获取，否则取匹配地理实体集中所有地理实体的相同的标签，表示为：

FusionEntity_c.tags＝{GE_n1,m1.tags,GE_n2,m2.tags,…,GE_nNc,mNc.tags}，Cx_c.tags＝1

FusionEntity_c.tags＝GE_n1,m1.tags＝GE_n2,m2.tags＝…＝GE_nNc,mNc.tags，Cx_c.tags＝0

c＝1,2,…,C，

Nc<＝N，n1≠n2≠nNc，

n1∈{1,2,…,N}，n2∈{1,2,…,N}，nNc∈{1,2,…,N}，

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}，mNc∈{1,2,…,M_nNc}

其中，FusionEntity_c.tags表示c个匹配地理实体集融合实体的标签，C表示匹配地理实体集融合实体的个数，Nc表示第c个匹配地理实体集中地理实体的个数，N表示地理实体供应商的数量，M_n1表示第n1个地理实体供应商中地理实体的数量，M_n2表示第n2个地理实体供应商中地理实体的数量，M_nNc表示第nNc个地理实体供应商中地理实体的数量；GE_n1,m1.tags表示第n1个地理实体供应商即GeoEntityCollection_n1的第m1个地理实体的标签，GE_n2,m2.tags表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个地理实体的标签，GE_nNc,mNc.tags表示第nNc个地理实体供应商即GeoEntityCollection_nNc的第mNc个地理实体的标签；Cx_c.tags表示第c个匹配地理实体集CMatch_c中的标签属性冲突；

本发明的优点是：

兼顾了空间实体的空间与非空间属性，综合考虑了实体名称、几何位置和类别结构等特征对相似度进提取，提高了地理实体的匹配精度；

引入了基于深度学习技术的神经网络模型对相似度特征进行抽取、组合与训练，避免了人为干扰因素，构建了高精度的地理实体匹配与融合模型；

使用知识图谱对地理实体匹配和融合结果进行表达，并引入了空间溯源模型，增强了地理实体库的可用性和数据可追溯性。

附图说明

图1：是本发明实施例的总体实现架构图。

图2：是本发明实施例的类别融合示意图。

图3：是本发明实施例的地理实体匹配神经网络模型结构图。

图4：是本发明实施例的空间知识图谱本体模型结构图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合实例对本发明作进一步详细描述，应当理解，此处所描述的实施案例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供了一种面向空间知识图谱的地理实体匹配与融合方法，从融合多源地理实体数据构建空间知识图谱出发，针对多源地理实体之间存在的差异与相似特征，实现基于深度学习的多源地理实体匹配与融合方法。

实施例总体实现架构参见附图1。首先，对地理实体数据的分类体系进行比较和合并，使用人工语义映射的方法在多个地理实体分类体系中寻找具有相似语义特征的类别进行融合；在这基础上兼顾地理实体的空间与非空间属性，综合考虑实体名称、几何位置和类别结构等特征对相似度进提取，并引入深度学习技术对相似度特征进行组合与训练，获取匹配的地理实体；最后制定出相应的冲突解决策略对匹配的地理实体进行属性消歧，从而融合多源地理实体数据构建空间位置知识图谱。主要过程包括以下步骤：

步骤1中所述地理实体对象数据集定义为：

GeoEntityCollection_n＝{GeoEntity_n,1,GeoEntity_n,2,...,GeoEntity_n,Mn}，n∈{1,2,…,

N}

其中，GeoEntityCollection_n表示第n个供应商的地理实体对象数据集，使用的数据供应商可以包括众源地理数据供应商OpenStreetMap、基于位置的服务数据供应商百度地图、全球地名服务数据供应商GeoNames等，N为数据供应商的数量，M_n为第n个数据供应商中地理实体对象的数量；

第n个数据供应商中第m个地理实体对象为：

GeoEntity_n,m＝{GE_n,m.name、GE_n,m.geom、GE_n,m.type、GE_n,m.tags}

n∈{1,2,…,N}，m∈{1,2,…,M_n}

所述GE_n,m.name为文本字符串类型，用于描述地理实体名称的文本字符串，如“武汉大学”；

所述GE_n,m.geom为地理坐标系GeoCS_n中的坐标，具体定义为：

GE_n,m.geom＝{GE_n,m.geom.x，GE_n,m.geom.y}

n∈{1,2,…,N}，m∈{1,2,…,M_n}

其中，GeoCS_n为第n个数据供应商中地理实体对象的地理空间坐标系，如百度地图的bd09坐标系，N为数据供应商的数量，M_n为第n个数据供应商中地理实体对象的数量，GE_n,m.geom.x表示第n个数据供应商中第m个地理实体对象在地理空间坐标系中的横轴坐标，GE_n,m.geom.y表示第n个数据供应商中第m个地理实体对象在地理空间坐标系中的纵轴坐标，均为浮点数类型；

GE_n,m.geom通过空间数据投影坐标转换算法，将GE_n,m.geom从GeoCS_n转换为统一地理坐标系UGeoCS下,如WGS84坐标系；

GE_n,m.geomT＝GeoTransform(GE_n,m.geom,GeoCS_n,UGeoCS)

GE_n,m.type＝{type_n,l,tl}

l∈{1,2,…,L_n}，tl∈{1,2,…,T_n,l}

TypeClass_n＝{TypeLevel_n,1,TypeLevel_n,2,…,TypeLevel_n,l}

l∈{1,2,…,L_n}

TypeLevel_n,l有多个类型组成，具体定义为：

TypeLevel_n,l＝{type_n,l,1,type_n,l,2,…,type_n,l,t}

l∈{1,2,…,L_n}，t∈{1,2,…,T_n,l}

GE_n,m.tags＝{<tag₁,value₁>,<tag₂,value₂>,…,<tag_k,value_k>}

k∈{1,2,…,K_n,m}

步骤2所述基于人工标注的方法寻找不同数据供应商中匹配相似的类型为：

对type_n,l,t进行遍历，

type_n1,l1,t1 sameAs type_n2,l2,t2

n1≠n2，n1,n2∈{1,2,…,N}

l1∈{1,2,…,L_n1}，l2∈{1,2,…,L_n2}

t1∈{1,2,…,T_n1,l1}，t2∈{1,2,…,T_n2,l2}

如数据供应商1的第2层类别的第1个类型type_1,2,1为“餐馆”，数据供应商2的第2层类别的第2个类型type_2,2,2为“饭店”，它们的语义相同，则建立匹配关系type_1,2,1sameAstype_2,2,2，并使用文件进行记录；如图2所示，基于语义理解，可以发现百度地图的地理实体类别“生活服务:售票处”与OpenStreetMap地理实体的类别“shop:ticket”相似，因此可以创建两种类别之间的语义映射；

步骤3所述筛选出空间距离小于阈值的地理实体为：

GeoDis(GE_n1,m1.geomT,GE_n2,m2.geomT)<d

n1≠n2，n1∈{1,2,…,N}，n2∈{1,2,…,N}

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}

步骤3所述待匹配地理实体对集合为：

PreMatchC＝{<GeoEntity_n1,m1,GeoEntity_n2,m2>}

步骤3所述提取名称字面相似度为：

(GE_n2，m2.name))

其中，GE_n1,m1.name表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个实体的名称，GE_n2,m2.name表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个实体的名称，TextDis表示根据GE_n1,m1.name、GE_n2,m2.name基于编辑距离算法求两个文本的编辑距离，Len通过统计文本中字符的个数计算文本长度，Max通过比较数值大小求两个数值的最大值；如“珞瑜路”与“珞喻路”的编辑距离为1，最大文本长度为3，因此可以得到字面相似度为1-1/3＝0.67；

步骤3所述提取名称语音相似度为：

hon(GE_n1,m1.name)),Len(Phon(GE_n1,m1.name)))

其中，GE_n1,m1.name表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个实体的名称，GE_n2,m2.name表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个实体的名称，Phon表示根据GE_n1,m1.name基于字典将中文文本转为中文拼音文本，TextDis基于编辑距离算法求两个Phon结果的编辑距离，Len通过统计Phon结果中字符的个数计算文本长度，Max通过比较数值大小求两个数值的最大值；如，如“珞瑜路”与“珞喻路”对应的拼音编码均为“luo yu lu”，编辑距离为0，因此可以得到语音相似度为1.0；

步骤3所述提取名称词袋相似度为：

₁.name)),Size(Bow(GE_n2,m2.name)))

其中，GE_n1,m1.name表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个实体的名称，GE_n2,m2.name表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个实体的名称，Bow根据GE_n1,m1.name基于文本分词算法获得文本中词的集合，Common通过对比统计获得两个词的集合Bow中相同的词的个数，Size通过统计获得词的集合Bow中词的个数，Min通过比较数值大小求两个Size结果数值的最小值；如“珞瑜路”对应的词袋为[“珞”,“瑜”,“路”]，“珞喻路”对应的词袋为[“珞”,“喻”,“路”]，其相同词个数为2，最小词袋容量为3，因此可以得到词袋相似度为2/3＝0.67；

步骤3所述提取几何相似度为：

Sim_geometry(n1,n2,m1,m2)＝1-GeoDis(GE_n1,m1.geomT,GE_n2,m2.geomT)/d

其中，GE_n1,m1.geomT表示第n1个地理实体供应商即GeoEntityCollection_n1的第m1个实体的经纬度坐标，GE_n2,m2.geomT表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个实体的经纬度坐标，GeoDis表示根据GE_n1,m1.geomT、GE_n2,m2.geomT求通过欧式距离计算得两个地理实体间的空间直线距离，d为设定的空间距离阈值常量；如d设为1000米，两个地理实体的经纬度坐标分别为(0,0)与(0.001,0)，它们的欧式距离为0.001度约111米，因此可以得到几何相似度为1-111/100＝0.889；

步骤3所述提取类别相似度为：

其中，GE_n1,m1.type表示第n1个地理实体供应商即GeoEntityCollection_n1的第m1个实体的类别，GE_n2,m2.type表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个实体的类别，SameLevels根据GE_n1,m1.type和GE_n2,m2.type通过逐层对比求两个类别的类型匹配的最大层数，L_n1为GeoEntityCollection_n1的类别体系中类别层级的个数，L_n2为GeoEntityCollection_n2的类别体系中类别层级的个数，Min通过比较数值大小求两个类别层数L_n1、L_n2的最小值；如两个地理实体的类别分别为“生活服务：售票处”和“生活服务：公共厕所”，它们所属的地理实体供应商的类别体系都是2个层级，只有第一个层级的类型相同，因此可以得到类别相似度为(1/2)²＝0.25；

步骤3所述构建待匹配地理实体对相似度特征集合为：

PreMatchSimC＝{PreMatchSim_n1,n2,m1,m2}

n1≠n2，n1∈{1,2,…,N}，n2∈{1,2,…,N}

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}

PreMatchSim _n1,n2,m1,m2＝{Sim_string(n1,n2,m1,m2),Sim_phonetics(n1,n2,m1,m2),

Sim_bow(n1,n2,m1,m2),Sim_geometry(n1,n2,m1,m2),Sim_type(n1,n2,m1,m2)}

n1≠n2，n1∈{1,2,…,N}，n2∈{1,2,…,N}

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}

步骤4所述地理实体匹配样本集合表示为：

MatchSampleC＝{MatchPSampleC,MatchNSampleC}

MatchPSampleC＝{MatchPSample₁,MatchPSample₂,…,MatchPSample_sp}

sp∈{1,2,…,SP}

MatchNSampleC＝{MatchNSample₁,MatchNSample₂,…,MatchNSample_sn}

sn∈{1,2,…,SN}

MatchPSample∈{<<GeoEntity_n1,m1,GeoEntity_n2,m2>,Label_n1,n2,m1,m2>}，

Label_n1,n2,m1,m2＝1，

n1≠n2，n1∈{1,2,…,N}，n2∈{1,2,…,N}

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}

MatchNSample∈{<<GeoEntity_n1,m1,GeoEntity_n2,m2>,Label_n1,n2,m1,m2>},

Label_n1,n2,m1,m2＝0，

n1≠n2，n1∈{1,2,…,N}，n2∈{1,2,…,N}

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}

步骤5所述构建深度地理实体匹配深度学习网络模型为：

所述深度地理实体匹配深度学习网络模型由第一个网络模型、第二个网络模型串联构成，如图3所示；

所述隐藏层1由L11＝32个节点并联构成，表示为：

HiddenLayer_1,1＝{node_1,1,i},

Sim_bow(n1,n2,m1,m2)*w_1,1,3,i+K_1,1,i，

i∈{1,2,…,32}

所述隐藏层2由L12＝32个节点并联构成，表示为：

HiddenLayer_1,2＝{node_1,2,i}，

i，j∈{1,2,…,32}

+node_1,2,32*w_1,3,32,1)+K_1,3,1)，

i∈{1,2,…,32}

所述第一个网络模型的损失函数表示为：

OFunc₁＝∑(Sim_name(n1,n2,m1,m2)-Label_n1,n2,m1,m2)²

n1≠n2，n1∈{1,2,…,N}，n2∈{1,2,…,N}

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}

所述隐藏层1由L21＝32个节点并联构成，表示为：

HiddenLayer_2,1＝{node_2,1,i},

Sim_type(n1,n2,m1,m2)*w_1,1,3,i+K_2,1,i，

i∈{1,2,…,32}

所述隐藏层2由L22＝32个节点并联构成，表示为：

HiddenLayer_2,2＝{node_2,2,i}，

i，j∈{1,2,…,32}

Output(n1,n2,m1,m2)＝1/(1+e^{-OutputTmp(n1,n2,m1,m2)})，

+node_2,2,32*w_2,3,32,1)+K_2,3,1，

i∈{1,2,…,32}

所述第二个网络模型的损失函数模型表示为：

OFunc₂＝∑(Output(n1,n2,m1,m2)-Label_n1,n2,m1,m2)²

n1≠n2，n1∈{1,2,…,N}，n2∈{1,2,…,N}

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}

CFunc＝OFunc₁+OFunc₂＝

n1≠n2，n1∈{1,2,…,N}，n2∈{1,2,…,N}

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}

OFunc＝Mimimize(CFunc)

步骤5所述构建训练后地理实体匹配深度学习网络模型为：

Sim_bow(n1,n2,m1,m2)*w^* _1,1,3,i+K^* _1,1,i，

+node_1,2,32*w^* _1,3,32,1)+K^* _1,3,1)，

Sim_type(n1,n2,m1,m2)*w^* _1,1,3,i+K^* _2,1,i，

Output(n1,n2,m1,m2)＝1/(1+e^{-OutputTmp(n1,n2,m1,m2)})，

+node_2,2,32*w^* _2,3,32,1)+K^* _2,3,1，

i，j∈{1,2,…,32}，

n1≠n2，n1∈{1,2,…,N}，n2∈{1,2,…,N}，

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}

步骤6所述进一步根据每个待匹配地理实体对的预测结果进行过滤筛选得到匹配地理实体对集合为：

每个待匹配地理实体对的预测结果为Output(n1,n2,m1,m2)；

将Output(n1,n2,m1,m2)>α＝0.5的匹配地理实体对集合，表示为：

MatchC＝<GeoEntity_n1,m1,GeoEntity_n2,m2>

Output(n1,n2,m1,m2)>α＝0.5，

n1≠n2，n1∈{1,2,…,N}，n2∈{1,2,…,N}，

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}

步骤7所述匹配地理实体集合为：

CMatchC＝{CMatch_c}，c＝1,2,…,C

CMatch_c＝{GeoEntity_n1,m1,GeoEntity_n2,m2,，。。。,GeoEntity_nNc,mNc}，

Nc<＝N，n1≠n2≠nNc，

n1∈{1,2,…,N}，n2∈{1,2,…,N}，nNc∈{1,2,…,N}，

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}，mNc∈{1,2,…,M_nNc}

步骤8所述进一步获取得到各个匹配地理实体集中存在的属性冲突为：

Cx_c＝{Cx_c.name,Cx_c.geom,Cx_c.type,Cx_c.tags}，

Nc<＝N，n1≠n2≠nNc，

n1∈{1,2,…,N}，n2∈{1,2,…,N}，nNc∈{1,2,…,N}，

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}，mNc∈{1,2,…,M_nNc}

步骤9所述融合匹配地理实体集获得匹配地理实体集融合实体集合为：

FusionEntityC＝{FusionEntity_c}，c＝1,2,…,C

FusionEntity_c＝{FusionEntity_c.name,FusionEntity_c.geom,FusionEntity_c.type,

FusionEntity_c.tags}

其中，FusionEntityC表示匹配地理实体集融合实体集合，C表示匹配地理实体集融合实体的个数，与匹配地理实体集个数相同；FusionEntity_c表示第c个匹配地理实体集融合实体，FusionEntity_c.name表示第c个匹配地理实体集融合实体的名称，FusionEntity_c.geom表示第c个匹配地理实体集融合实体的经纬度坐标，FusionEntity_c.type表示第c个匹配地理实体集融合实体的类别，FusionEntity_c.tag表示第c个匹配地理实体集融合实体的标签；

c＝1,2,…,C，

Nc<＝N，n1≠n2≠nNc，

n1∈{1,2,…,N}，n2∈{1,2,…,N}，nNc∈{1,2,…,N}，

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}，mNc∈{1,2,…,M_nNc}

c＝1,2,…,C，

Nc<＝N，n1≠n2≠nNc，

n1∈{1,2,…,N}，n2∈{1,2,…,N}，nNc∈{1,2,…,N}，

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}，mNc∈{1,2,…,M_nNc}

Cx_c.type＝1

c＝1,2,…,C，

Nc<＝N，n1≠n2≠nNc，

n1∈{1,2,…,N}，n2∈{1,2,…,N}，nNc∈{1,2,…,N}，

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}，mNc∈{1,2,…,M_nNc}

c＝1,2,…,C，

Nc<＝N，n1≠n2≠nNc，

n1∈{1,2,…,N}，n2∈{1,2,…,N}，nNc∈{1,2,…,N}，

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}，mNc∈{1,2,…,M_nNc}

步骤10，基于本体建模语言OWL(Web Ontology Language)进行空间知识图谱本体建模，模型可如图4所示，将匹配地理实体集融合实体集合、生成该结果的地理实体匹配与融合过程表示为RDF(Resource Description Framework)格式的数据文件作为空间知识图谱进行发布。

应当理解的是，本申请书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本申请专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本申请权利要求所保护的范围情况下，还可以做出替换或变形，均落入本申请的保护范围之内，本申请的请求保护范围应以所附权利要求为准。

Claims

1.一种面向空间知识图谱的地理实体匹配与融合方法，其特征在于，包括以下步骤：

步骤2，步骤1中数据的供应商的类别体系中不同层级的类别的集合中所有类别进行遍历，基于人工标注的方法寻找不同数据供应商中匹配相似的类型；

步骤9，根据各个匹配地理实体集中存在的属性冲突，人工制定冲突解决策略对属性冲突进行消解，从而融合匹配地理实体集获得匹配地理实体集融合实体集合。

2.根据权利要求1所述的面向空间知识图谱的地理实体匹配与融合方法，其特征在于：

步骤1中所述地理实体对象数据集定义为：

第n个数据供应商中第m个地理实体对象为：

GeoEntity_n,m＝{GE_n,m.name、GE_n,m.geom、GE_n,m.type、GE_n,m.tags}

n∈{1,2,…,N}，m∈{1,2,…,M_n}

所述GE_n,m.geom为地理坐标系GeoCS_n中的坐标，具体定义为：

GE_n,m.geom＝{GE_n,m.geom.x，GE_n,m.geom.y}

n∈{1,2,…,N}，m∈{1,2,…,M_n}

GE_n,m.geomT＝GeoTransform(GE_n,m.geom,GeoCS_n,UGeoCS)

GE_n,m.type＝{type_n,l,tl}

l∈{1,2,…,L_n}，tl∈{1,2,…,T_n,l}

TypeClass_n＝{TypeLevel_n,1,TypeLevel_n,2,…,TypeLevel_n,l}

l∈{1,2,…,L_n}

TypeLevel_n,l有多个类型组成，具体定义为：

TypeLevel_n,l＝{type_n,l,1,type_n,l,2,…,type_n,l,t}

l∈{1,2,…,L_n}，t∈{1,2,…,T_n,l}

GE_n,m.tags＝{<tag₁,value₁>,<tag₂,value₂>,…,<tag_k,value_k>}

k∈{1,2,…,K_n,m}

若数据供应商n中有两个地理实体对象GE_n,m1与GE_n,m2，m1≠m2，m1,m2∈{1,2,…,M_n}四个属性都相同，则只选择保留一个对象。

3.根据权利要求1所述的面向空间知识图谱的地理实体匹配与融合方法，其特征在于：

对type_n,l,t进行遍历，

type_n1,l1,t1 sameAs type_n2,l2,t2

n1≠n2，n1,n2∈{1,2,…,N}

l1∈{1,2,…,L_n1}，l2∈{1,2,…,L_n2}

t1∈{1,2,…,T_n1,l1}，t2∈{1,2,…,T_n2,l2}。

4.根据权利要求1所述的面向空间知识图谱的地理实体匹配与融合方法，其特征在于：

步骤3所述筛选出空间直线距离小于空间距离阈值的地理实体为：

GeoDis(GE_n1,m1.geomT,GE_n2,m2.geomT)<d

n1≠n2，n1∈{1,2,…,N}，n2∈{1,2,…,N}

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}

步骤3所述待匹配地理实体对集合为：

PreMatchC＝{<GeoEntity_n1,m1,GeoEntity_n2,m2>}

步骤3所述提取名称字面相似度为：

Sim_string(n1,n2,m1,m2)＝1-TextDis(GE_n1,m1.name,GE_n2,m2.name)/Max(Len(GE_n1, _m1.name),Len(GE_n2，m2.name))

步骤3所述提取名称语音相似度为：

Sim_phonetics(n1,n2,m1,m2)＝1-TextDis(Phon(GE_n1,m1.name),Phon(GE_n2,m2.name))/Max(Len(Phon(GE_n1,m1.name)),Len(Phon(GE_n1,m1.name)))

步骤3所述提取名称词袋相似度为：

Sim_bow(n1,n2,m1,m2)＝Common(Bow(GE_n1,m1.name),Bow(GE_n2,m2.name))/Min(Size(Bow(GE_n1,m1.name)),Size(Bow(GE_n2,m2.name)))

步骤3所述提取几何相似度为：

Sim_geometry(n1,n2,m1,m2)＝1-GeoDis(GE_n1,m1.geomT,GE_n2,m2.geomT)/d

步骤3所述提取类别相似度为：

步骤3所述构建待匹配地理实体对相似度特征集合为：

PreMatchSimC＝{PreMatchSim_n1,n2,m1,m2}

n1≠n2，n1∈{1,2,…,N}，n2∈{1,2,…,N}

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}

PreMatchSim _n1,n2,m1,m2＝{Sim_string(n1,n2,m1,m2),Sim_phonetics(n1,n2,m1,m2),

Sim_bow(n1,n2,m1,m2),Sim_geometry(n1,n2,m1,m2),Sim_type(n1,n2,m1,m2)}

n1≠n2，n1∈{1,2,…,N}，n2∈{1,2,…,N}

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}。

5.根据权利要求1所述的面向空间知识图谱的地理实体匹配与融合方法，其特征在于：

步骤4所述地理实体匹配样本集合表示为：

MatchSampleC＝{MatchPSampleC,MatchNSampleC}

MatchPSampleC＝{MatchPSample₁,MatchPSample₂,…,MatchPSample_sp}

sp∈{1,2,…,SP}

MatchNSampleC＝{MatchNSample₁,MatchNSample₂,…,MatchNSample_sn}

sn∈{1,2,…,SN}

MatchPSample∈{<<GeoEntity_n1,m1,GeoEntity_n2,m2>,Label_n1,n2,m1,m2>}，

Label_n1,n2,m1,m2＝1，

n1≠n2，n1∈{1,2,…,N}，n2∈{1,2,…,N}

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}

MatchNSample∈{<<GeoEntity_n1,m1,GeoEntity_n2,m2>,Label_n1,n2,m1,m2>},

Label_n1,n2,m1,m2＝0，

n1≠n2，n1∈{1,2,…,N}，n2∈{1,2,…,N}

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}

6.根据权利要求1所述的面向空间知识图谱的地理实体匹配与融合方法，其特征在于：

步骤5所述构建地理实体匹配深度学习网络模型为：

所述地理实体匹配深度学习网络模型由第一个网络模型、第二个网络模型串联构成；

所述隐藏层1由L11＝32个节点并联构成，表示为：

HiddenLayer_1,1＝{node_1,1,i},

Sim_bow(n1,n2,m1,m2)*w_1,1,3,i+K_1,1,i，

i∈{1,2,…,32}

所述隐藏层2由L12＝32个节点并联构成，表示为：

HiddenLayer_1,2＝{node_1,2,i}，

node_1,2,i＝node_1,1,1*w_1,2,1,i+node_1,1,2*w_1,2,2,i+…+node_1,1,j*w_1,2,j,i+…+node_1,1,32*w_1,2,32,i+K_1,2,i，i，j∈{1,2,…,32}

Sim_name(n1,n2,m1,m2)＝Max(0,node_1,2,1*w_1,3,1,1+node_1,2,2*w_1,3,2,1+…+node_1,2,i*w_1,3,i,1+…+node_1,2,32*w_1,3,32,1)+K_1,3,1)，

i∈{1,2,…,32}

所述第一个网络模型的损失函数表示为：

OFunc₁＝∑(Sim_name(n1,n2,m1,m2)-Label_n1,n2,m1,m2)²

n1≠n2，n1∈{1,2,…,N}，n2∈{1,2,…,N}

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}

所述隐藏层1由L21＝32个节点并联构成，表示为：

HiddenLayer_2,1＝{node_2,1,i},

node_2,1,i＝Sim_name(n1,n2,m1,m2)*w_2,1,1,i+Sim_geometry(n1,n2,m1,m2)*w_1,1,2,i+Sim_type(n1,n2,m1,m2)*w_1,1,3,i+K_2,1,i，

i∈{1,2,…,32}

所述隐藏层2由L22＝32个节点并联构成，表示为：

HiddenLayer_2,2＝{node_2,2,i}，

i，j∈{1,2,…,32}

Output(n1,n2,m1,m2)＝1/(1+e^{-OutputTmp(n1,n2,m1,m2)})，

OutputTmp(n1,n2,m1,m2)＝node_2,2,1*w_2,3,1,1+node_2,2,2*w_2,3,2,1+…+node_2,2,i*w_2,3,i,1+…+node_2,2,32*w_2,3,32,1)+K_2,3,1，

i∈{1,2,…,32}

所述第二个网络模型的损失函数模型表示为：

OFunc₂＝∑(Output(n1,n2,m1,m2)-Label_n1,n2,m1,m2)²

n1≠n2，n1∈{1,2,…,N}，n2∈{1,2,…,N}

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}

CFunc＝OFunc₁+OFunc₂＝

n1≠n2，n1∈{1,2,…,N}，n2∈{1,2,…,N}

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}

OFunc＝Mimimize(CFunc)

步骤5所述构建训练后地理实体匹配深度学习网络模型为：

Sim_bow(n1,n2,m1,m2)*w^* _1,1,3,i+K^* _1,1,i，

Sim_name(n1,n2,m1,m2)＝Max(0,node_1,2,1*w^* _1,3,1,1+node_1,2,2*w^* _1,3,2,1+…+node_1,2,i*w^* _1,3,i,1+…+node_1,2,32*w^* _1,3,32,1)+K^* _1,3,1)，

node_2,1,i＝Sim_name(n1,n2,m1,m2)*w^* _2,1,1,i+Sim_geometry(n1,n2,m1,m2)*w^* _1,1,2,i+Sim_type(n1,n2,m1,m2)*w^* _1,1,3,i+K^* _2,1,i，

Output(n1,n2,m1,m2)＝1/(1+e^{-OutputTmp(n1,n2,m1,m2)})，

OutputTmp(n1,n2,m1,m2)＝node_2,2,1*w^* _2,3,1,1+node_2,2,2*w^* _2,3,2,1+…+node_2,2,i*w^* _2,3,i,1+…+node_2,2,32*w^* _2,3,32,1)+K^* _2,3,1，

i，j∈{1,2,…,32}，

n1≠n2，n1∈{1,2,…,N}，n2∈{1,2,…,N}，

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}

其中，Sim_string(n1,n2,m1,m2)为每个待匹配地理实体对样本<GeoEntity_n1,m1,GeoEntity_n2,m2>的字面相似度；Sim_phonetics(n1,n2,m1,m2)为每个待匹配地理实体对样本<GeoEntity_n1,m1,GeoEntity_n2,m2>的语音相似度；Sim_bow(n1,n2,m1,m2)为每个待匹配地理实体对样本<GeoEntity_n1,m1,GeoEntity_n2,m2>的词袋相似度；Sim_name(n1,n2,m1,m2)表示地理实体匹配样本集合的样本<GeoEntity_n1,m1,GeoEntity_n2,m2>作为输入的模型1的输出层的输出值；Output(n1,n2,m1,m2)表示地理实体匹配样本集合的样本<GeoEntity_n1,m1,GeoEntity_n2,m2>作为输入的模型2的输出层的输出值，也是总体模型最终的输出值；node表示隐藏层节点，3个下标分别表示模型序号、隐藏层序号、节点序号；w^*表示优化训练后的权重参数，4个下标分别表示模型序号、前一网络层序号、当前网络层序号、节点序号；K^*表示优化训练后的每层节点的偏置值，3个下标分别表示模型序号、网络层序号、节点序号。

7.根据权利要求1所述的面向空间知识图谱的地理实体匹配与融合方法，其特征在于：

每个待匹配地理实体对的预测结果为Output(n1,n2,m1,m2)；

将Output(n1,n2,m1,m2)>α＝0.5的匹配地理实体对集合，表示为：

MatchC＝<GeoEntity_n1,m1,GeoEntity_n2,m2>

Output(n1,n2,m1,m2)>α＝0.5，

n1≠n2，n1∈{1,2,…,N}，n2∈{1,2,…,N}，

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}

其中，N表示地理实体供应商的数量，M_n1表示第n1个地理实体供应商中地理实体的数量，M_n2表示第n2个地理实体供应商中地理实体的数量，GeoEntity_n1,m1表示第n1个地理实体供应商即GeoEntityCollection_n1的第m1个实体，GeoEntity_n2,m2表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个实体，<GeoEntity_n1,m1,GeoEntity_n2,m2>表示由GeoEntity_n1,m1与GeoEntity_n2,m2组成的二元组，即待匹配地理实体对，Output(n1,n2,m1,m2)表示地理实体匹配样本集合的样本<GeoEntity_n1,m1,GeoEntity_n2,m2>作为输入的训练后地理实体匹配深度学习网络模型的输出值。

8.根据权利要求1所述的面向空间知识图谱的地理实体匹配与融合方法，其特征在于：

步骤7所述匹配地理实体集合为：

CMatchC＝{CMatch_c}，c＝1,2,…,C

CMatch_c＝{GeoEntity_n1,m1,GeoEntity_n2,m2,…,GeoEntity_nNc,mNc}，

Nc<＝N，n1≠n2≠nNc，

n1∈{1,2,…,N}，n2∈{1,2,…,N}，nNc∈{1,2,…,N}，

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}，mNc∈{1,2,…,M_nNc}

其中，C表示匹配地理实体集个数，CMatch_c表示第c个匹配地理实体集由若干个两两匹配的来自不同地理实体供应商的地理实体组成，Nc表示第c个匹配地理实体集中地理实体的个数，N表示地理实体供应商的数量，M_n1表示第n1个地理实体供应商中地理实体的数量，M_n2表示第n2个地理实体供应商中地理实体的数量，M_nNc表示第nNc个地理实体供应商中地理实体的数量，GeoEntity_n1,m1表示第n1个地理实体供应商即GeoEntityCollection_n1的第m1个实体，GeoEntity_n2,m2表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个实体，GeoEntity_nNc,mNc表示第nNc个地理实体供应商即GeoEntityCollection_Nnc的第mNc个实体。

9.根据权利要求1所述的面向空间知识图谱的地理实体匹配与融合方法，其特征在于：

Cx_c＝{Cx_c.name,Cx_c.geom,Cx_c.type,Cx_c.tags}，

Nc<＝N，n1≠n2≠nNc，

n1∈{1,2,…,N}，n2∈{1,2,…,N}，nNc∈{1,2,…,N}，

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}，mNc∈{1,2,…,M_nNc}

其中，Cx_c表示第c个匹配地理实体集CMatch_c中存在的属性冲突；Nc表示第c个匹配地理实体集中地理实体的个数，N表示地理实体供应商的数量，M_n1表示第n1个地理实体供应商中地理实体的数量，M_n2表示第n2个地理实体供应商中地理实体的数量，M_nNc表示第nNc个地理实体供应商中地理实体的数量；GE_n1,m1.name表示第n1个地理实体供应商即GeoEntityCollection_n1的第m1个地理实体的名称，GE_n2,m2.name表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个地理实体的名称，GE_nNc,mNc.name表示第nNc个地理实体供应商即GeoEntityCollection_nNc的第mNc个地理实体的名称；GE_n1,m1.geomT表示第n1个地理实体供应商即GeoEntityCollection_n1的第m1个地理实体的经纬度坐标，GE_n2,m2.geomT表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个地理实体的经纬度坐标，GE_nNc,mNc.geomT表示第nNc个地理实体供应商即GeoEntityCollection_nNc的第mNc个地理实体的经纬度坐标；GE_n1,m1.type表示第n1个地理实体供应商即GeoEntityCollection_n1的第m1个地理实体的类别，GE_n2,m2.type表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个地理实体的类别，GE_nNc,mNc.type表示第nNc个地理实体供应商即GeoEntityCollection_nNc的第mNc个地理实体的类别；GE_n1,m1.tags表示第n1个地理实体供应商即GeoEntityCollection_n1的第m1个地理实体的标签，GE_n2,m2.tags表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个地理实体的标签，GE_nNc,mNc.tags表示第nNc个地理实体供应商即GeoEntityCollection_nNc的第mNc个地理实体的标签；Cx_c.name表示第c个匹配地理实体集CMatch_c中的名称属性冲突，当其包含的所有地理实体的名称属性都相同时值为0表示无名称属性冲突，否则值为1表示存在名称属性冲突；Cx_c.geom表示第c个匹配地理实体集CMatch_c中的几何属性冲突，当其包含的所有地理实体的几何属性都相同时值为0表示无几何属性冲突，否则值为1表示存在几何属性冲突；Cx_c.type表示第c个匹配地理实体集CMatch_c中的类别属性冲突，当其包含的所有地理实体的类别都相同时值为0表示无类别属性冲突，否则值为1表示存在类别属性冲突；Cx_c.tags表示第c个匹配地理实体集CMatch_c中的标签属性冲突，当其包含的所有地理实体的标签都相同时值为0表示无标签属性冲突，否则值为1表示存在标签属性冲突。

10.根据权利要求1所述的面向空间知识图谱的地理实体匹配与融合方法，其特征在于：

FusionEntityC＝{FusionEntity_c}，c＝1,2,…,C

FusionEntity_c＝{FusionEntity_c.name,FusionEntity_c.geom,FusionEntity_c.type,FusionEntity_c.tags}

c＝1,2,…,C，

Nc<＝N，n1≠n2≠nNc，

n1∈{1,2,…,N}，n2∈{1,2,…,N}，nNc∈{1,2,…,N}，

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}，mNc∈{1,2,…,M_nNc}

其中，FusionEntity_c.name表示c个匹配地理实体集融合实体的名称，C表示匹配地理实体集融合实体的个数，Nc表示第c个匹配地理实体集中地理实体的个数，N表示地理实体供应商的数量，M_n1表示第n1个地理实体供应商中地理实体的数量，M_n2表示第n2个地理实体供应商中地理实体的数量，M_nNc表示第nNc个地理实体供应商中地理实体的数量；GE_n1,m1.name表示第n1个地理实体供应商即GeoEntityCollection_n1的第m1个地理实体的名称，GE_n2, _m2.name表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个地理实体的名称，GE_nNc,mNc.name表示第nNc个地理实体供应商即GeoEntityCollection_nNc的第mNc个地理实体的名称；Cx_c.name表示第c个匹配地理实体集CMatch_c中的名称属性冲突；

c＝1,2,…,C，

Nc<＝N，n1≠n2≠nNc，

n1∈{1,2,…,N}，n2∈{1,2,…,N}，nNc∈{1,2,…,N}，

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}，mNc∈{1,2,…,M_nNc}

FusionEntity_c.type＝MostFrequency(GE_n1,m1.type,GE_n2,m2.type,…,GE_nNc,mNc.type)，

Cx_c.type＝1

c＝1,2,…,C，

Nc<＝N，n1≠n2≠nNc，

n1∈{1,2,…,N}，n2∈{1,2,…,N}，nNc∈{1,2,…,N}，

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}，mNc∈{1,2,…,M_nNc}

其中，FusionEntity_c.type表示c个匹配地理实体集融合实体的类别，C表示匹配地理实体集融合实体的个数，Nc表示第c个匹配地理实体集中地理实体的个数，N表示地理实体供应商的数量，M_n1表示第n1个地理实体供应商中地理实体的数量，M_n2表示第n2个地理实体供应商中地理实体的数量，M_nNc表示第nNc个地理实体供应商中地理实体的数量；GE_n1,m1.type表示第n1个地理实体供应商即GeoEntityCollection_n1的第m1个地理实体的类别，GE_n2, _m2.type表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个地理实体的类别，GE_nNc,mNc.type表示第nNc个地理实体供应商即GeoEntityCollection_nNc的第mNc个地理实体的类别；Cx_c.type表示第c个匹配地理实体集CMatch_c中的类别属性冲突；函数MostFrequency通过输入多个地理实体的类别获取出现频率最高的类别

c＝1,2,…,C，

Nc<＝N，n1≠n2≠nNc，

n1∈{1,2,…,N}，n2∈{1,2,…,N}，nNc∈{1,2,…,N}，

m1∈{1,2,…,M_n1}，m2∈{1,2,…,M_n2}，mNc∈{1,2,…,M_nNc}

其中，FusionEntity_c.tags表示c个匹配地理实体集融合实体的标签，C表示匹配地理实体集融合实体的个数，Nc表示第c个匹配地理实体集中地理实体的个数，N表示地理实体供应商的数量，M_n1表示第n1个地理实体供应商中地理实体的数量，M_n2表示第n2个地理实体供应商中地理实体的数量，M_nNc表示第nNc个地理实体供应商中地理实体的数量；GE_n1,m1.tags表示第n1个地理实体供应商即GeoEntityCollection_n1的第m1个地理实体的标签，GE_n2, _m2.tags表示第n2个地理实体供应商即GeoEntityCollection_n2的第m2个地理实体的标签，GE_nNc,mNc.tags表示第nNc个地理实体供应商即GeoEntityCollection_nNc的第mNc个地理实体的标签；Cx_c.tags表示第c个匹配地理实体集CMatch_c中的标签属性冲突。