CN111325235A

CN111325235A - 面向多语种的通用地名语义相似度计算方法及其应用

Info

Publication number: CN111325235A
Application number: CN202010058317.6A
Authority: CN
Inventors: 张雪英; 薛理; 叶鹏; 赵文强; 吴恪涵
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2020-01-19
Filing date: 2020-01-19
Publication date: 2020-06-23
Anticipated expiration: 2040-01-19
Also published as: WO2021142968A1; CN111325235B; AU2020101024A4

Abstract

本发明公开了一种面向多语种的通用地名语义相似度计算方法及其应用。通过分析多种语种地名的构词特点、隶属关系和空间位置等语义特征，发现地名的类别、字符串和空间位置特征容易获取且能够有效地区分地名。由此，本发明根据这三种地名语义特征，分别构建地名类别相似度模型、地名字符串相似度模型和地名空间邻近度模型。然后，综合考虑地名类别相似度、字符串相似度和空间邻近度，提出一种面向多语种的通用地名语义相似度计算方法。相比于只考虑地名字符串或空间几何特征的地名相似度计算方法，本发明提供的方法能够显著提高地名相似度计算的准确性，可以更好地满足大数据环境下多语种地名的查询、匹配和共享服务等应用需求。

Description

面向多语种的通用地名语义相似度计算方法及其应用

技术领域

本发明属于地理信息科学领域，涉及一种面向多语种的通用地名语义相似度计算方法及其在多语种数据库地名查询中的应用。

背景技术

地名是人类对地理环境具有特定位置、范围及形态特征的地理对象和地理现象所共同约定的语言符号。语义是数据(符号)所代表的概念的含义，以及这些含义之间的关系。随着计算机技术的发展与移动互联网的普及，不同国家、机构或者企业已经建立了各种类型的地名信息库，且大部分地名信息库包含地名类别，经纬度等信息。然而，这些地名信息库在覆盖范围、数据形式、语种类型、数据内容等方面存在较大的差异。因此如何快速、准确的计算不同地名信息库中的地名相似度，已成为地名研究中的重要课题。

目前地名相似度计算方法主要分为三类。①一类是基于地名字符串的，即通过比较地名的字符串来计算地名相似度，如Smart等将规则模型与隐马尔可夫模型相结合，可以有效解决地名拼写、格式、字符集等不一致问题；占斌斌等利用基于地名建立的通名词典和结构规则库判定地名类型，然后通过字符串相似度匹配得到最佳的地名数据匹配结果，并在德州市实验区得到了较好的验证结果；叶鹏等在顾及中文字符多级特征的基础上，基于中文地名词典构建了地名单字索引，利用字符过滤与相似度排序等机制实现中文地名的高效匹配。②第二类是基于地理要素的，即利用地名的空间位置、面积和形状等几何信息计算地名的相似度。如Egenhofer和Clementini提出了度量多重表达中空间几何数据结构不一致性及拓扑关系不一致性的标准，能够较为理想的判断空间几何数据的一致性；Van等利用K中心点聚类和朴素贝叶斯分类法能够对带有地理标签的照片进行地名一致性处理。③第三类是基于地名语义的相似度计算方法。如陈佳丽多重表达的空间数据在空间关系、语义和几何方面可能存在不一致性,因此必须对这些不一致性进行评价和修正，把本体引入地理信息建模中，结合语义一致性，以基于对象匹配的方法实现数据匹配。

上述学者在地名相似度计算方面，取得了不错的成果。但是依然存在某些问题：①编辑距离算法等算法通过分析地名单一特征计算地名相似度，如地名字符串或地名几何特征，并没有考虑地名的其它特征，导致在某些特殊情况下地名相似度的准确度并不理想，尤其是地名重名，地名空间位置接近等特殊情况。②部分算法是针对特定语言提出的算法，对于其它语言并不适用。因此，如何在地名数据来源广，数据结构复杂，语义差异大等的情况下，实现地名相似度计算，是本领域技术人员需要研究和解决的难题。

发明内容

发明目的：有鉴于此，本发明提供了一种面向多语种的通用地名语义相似度计算方法，目的在于解决现有地名相似度计算方法准确率不高，通用性弱的问题。

技术方案：为实现上述发明目的，本发明采用如下技术方案：

面向多语种的通用地名语义相似度计算方法，包括如下步骤：

根据语种编码区间确定地名语种，并根据文献信息将地名进行归一化为罗马化地名；

从地名信息库中获取两个地名的类别属性信息，根据地名分类体系及地名类别相似度模型计算地名类别相似度；

根据地名字符串相似度模型计算罗马化后地名的字符串相似度；

从地名信息库中获取两个地名的经纬度，根据地名空间邻近度模型计算地名的空间邻近度；

根据地名类别相似度、字符串相似度和空间邻近度确定地名相似度；

作为优选，根据地名分类体系及地名类别相似度模型计算地名类别相似度包括：

如果两地名类别位于分类体系的同一子类下的类别，则计算共同父类到根节点的距离之和最近的共同父类地名类别到两地名类别的距离，然后利用同类别相似度模型计算属性相似度；如果两地名类别位于不同子类下的类别，则计算两地名类别所在子类的相关度后利用非同类别相似度模型计算类别相似度。

作为优选，同一子类下的类别相似度模型表示为：

其中，S_c(i,j)表示地名i和j的地名类别相似度，l表示地名i和j的类别的最近的共同父类到根节点的距离，d_i表示地名i和j的类别的最近的共同父类到i的类别的距离，d_j表示地名i和j的类别的最近的共同父类到j的类别的距离，α(i,j)表示最近的共同父类到i和j的类别的距离之和

作为优选，不同子类下的类别相似度模型表示为：

其中，S_c(i,j)表示地名i和j的地名类别相似度，β’表示i和j的类别所在子类的相关度，d’_i表示i和j的类别的最近的共同父类到i的类别的距离，d’_j表示i和j的类别的最近的共同父类到j的类别的距离；α’(i,j)表示最近的共同父类到i和j的类别的距离之和。

作为优选，地名字符串相似度模型表示为：

其中，A(i,j)表示地名i和j的地名字符串相似度，d[i,j]代表地名i和j的编辑距离，ML代表地名i和j字符串长度的最大值，Len代表最小匹配长度，L(i)代表地名i字符串的长度，L(j)代表地名j字符串的长度，a和b表示权重。

作为优选，采用地名空间邻近度模型计算空间邻近度。地名空间邻近度模型表示为：

其中，S_E(i,j)代表地名i和j的地名的空间邻近度，lon_i，lon_j，lat_i和lat_j分别为地名i和j的经纬度。

作为优选，地名语义相似度的计算模型为：

F(i,j)＝A(i,j)S_E(i,j)S_C(i,j)

其中，F(i,j)表示地名i和j的地名语义相似度。

所述的地名语义相似度计算方法在多语种地名数据查询中的应用，主要包括如下步骤：

通过地名信息库提取所有地名的字符串、类别和经纬度属性，根据语种编码区间确定地名语种和进行地名归一化处理，并依据地名语种的不同特征分为表音型和表意型索引方法，其中表音型文字以字母相似度为基准，结合字母总数、字母部首数、单词总数和单词首字母编码语言特征，基于多维特征统计向量的索引组织方式进行表音型地名索引构建；表意型文字以字符局部相似度为基准，结合地名的相同字符、字符数量、字符位置语言特征，基于单个字的地名索引组织方式进行表意型地名索引构建；

确定待查询的地名的字符串、类别和经纬度属性，并进行归一化处理；

根据待查询地名所确定的字符串、类别和经纬度属性依次对索引中的所有进行筛选，其中依据确定的地名字符串，使用地名字符串相似度模型进行计算，计算结果高于设定阈值时符合筛选条件，否则就过滤该条地名，若字符串为空则直接符合筛选条件；依据确定的地名类别，使用类别相似度模型进行计算，计算结果高于设定阈值时符合筛选条件，否则就过滤该条地名，若类别为空则直接符合筛选条件；依据确定的地名经纬度，使用地名空间邻近度模型进行计算，计算结果高于设定阈值时符合筛选条件，否则就过滤该条地名，若经纬度为空则直接符合筛选条件；

依次将待查询地名与所有候选地名采用根据所述的面向多语种的通用地名语义相似度计算方法进行计算；

将计算结果进行倒序排列，排序越靠前的地名与待查询地名越相似。

有益效果：本发明根据地名的构词特点、地名类别和位置特征，分别构建了地名类别相似度模型、地名字符串相似度模型和地名空间邻近度模型，并根据这三种模型，提出一种通用地名语义相似度计算方法。本发明的有益效果在于改进编辑距离算法，从而能够同时顾及通名和专名的影响。引入地名类别特征，根据地名类别分类体系构建地名类别相似度模型。同时考虑地名的空间特征，构建地名空间邻近度模型；最后，综合考虑地名字符串、位置和类别特征，提出一种通用地名语义相似度计算方法。因此，相对于针对单一特征的地名相似度计算方法，具有更高的准确率和普适性。

附图说明

图1为本发明实施例的方法流程图。

图2为本发明实施例中地名类别结构示意图。

具体实施方式

下面结合具体实施方式对本发明进行详细说明。

如图1所示，本发明实施例公开的一种面向多语种的通用地名语义相似度计算方法，主要包括如下步骤：

步骤1：根据地名编码区间识别地名i和j的语种，并根据文献信息归一化地名i和j为罗马化地名。

由于数据获取手段和人为因素等影响，不同语种的数据在数据格式和编码等方面差异较大，因此需要对地名进行预处理，以便于在地名信息库中找到相应的地名类别等信息。

本步骤中，地名编码区间是指每个语种所对应的不同的编码区间，即每个语种的Unicode十六进制编码区间是惟一的，因此能够根据地名编码区间确定地名语种。

罗马化地名是指每个国家官方最新出版的地名录、地名词典和地方志等资料中含有地名相对应的罗马地名。

步骤2：从地名信息库中获得地名i和j的类别，根据地名类别相似度模型，计算地名i和j的类别相似度。

本步骤中，地名类别相似度是指在同一分类体系中，两个地名数据所属类别的相关程度。地名数据类别是指数据按专题要素进行分类，分类体系可以使用层次化的树状结构来描述类与类之间的逻辑关系。地名类别按照地名分类体系，分类对照表如表1所示。

表1 GeoNames、GNS要素类别对照表

GNIS数据源直接提供类别的全称，可参照上述分类标准，总结各大类所包含的地名要素类别，设计GNIS类别与标准分类映射表，如表2所示。通过表中映射关系，添加GNIS要素类别代码属性，表3为部分地名分类代码表。

表2 GNIS类别与标准分类映射表

表3部分地名分类代码表

通过分析发现，地名属性中类别相似度能够反映同一分类体系中两个数据所属类别的相关程度。因此，计算类与类的相关性需要处理分类树中父子节点、兄弟节点等不同类型的关系。为了便于理解以大类P部分类别为例，做树状图，如图2所示。地名类别相似度算法函数由S_C(i,j)表示，当地名i和j在同一子类下的类别时S_C(i,j)的计算如下所示(例如，如图2所示，当地名i和j分别属于PPA1和PPA3类别，则PPA1和PPA3都属于同一子类PPA)：

式中，l表示i和j的类别的最近的共同父类到根节点的距离(边的数量)；d_i表示i和j的类别的最近的共同父类到i的类别的距离(边的数量)，d_j表示i和j的类别的最近的共同父类到j的类别的距离(边的数量)；α(i,j)表示最近的共同父类到i和j的类别的距离之和。

当i和j在不同一子类下的类别时S_C(i,j)的计算如下所示：

式中β’表示i和j的类别所在子类的相关度，取值在[0,1]，可根据实际应用由领域专家给出，d’_i表示i和j的类别的最近的共同父类到i的类别的距离(边的数量)，d’_j表示i和j的类别的最近的共同父类到j的类别的距离(边的数量)；α’(i,j)表示最近的共同父类到i和j的类别的距离之和。

步骤3：根据地名字符串相似度模型，计算罗马化地名i和j的名称相似度。

编辑距离又称Levenshtein距离，是一种用于衡量两个序列相似度的距离度量函数。在自然语言处理中，编辑距离是用来计算从原字符串转换到目标字符串所需要进行的***、删除和替换操作的最少次数。设S_i＝s₁s₂…s_i和T_j＝t₁t₂…t_j代表两个字符串，距离d[i,j]是S_j字符串编辑到T_j字符串所用的最小操作数，d[i,j]表明地名i，j的编辑距离，能够有效反映地名间的字符相似程度，公式如下所示：

编辑距离是一种用于衡量两个序列相似度的距离度量函数，常用来计算地名字符串的相似度，然而该算法无法有效减少通名的影响，因此对该算法进行了改进，改进后的模型如下所示：

式中d[i,j]代表地名i，j的编辑距离，ML代表地名i，j字符串长度的最大值，Len代表最小匹配长度(Len≥1)，L(i)代表i字符串的长度，L(j)代表j字符串的长度，a和b表示权重，分别为0.6和0.4。改进后的模型与现有模型名称相似度计算结果比较如表4所示。

表4地名字符串相似度计算结果比较

从上表可以看出，Gwaun Creek和Gunye Creek为不同地名，然而编辑距离算法计算相似度高达0.636；Wilipini和Willipinee是相同地名，贪婪字符串匹配算法的相似度结果为0.555，Gbonga和Gbondoi为不同地名，计算结果却为0.615；可以明显发现本发明改进的算法计算的相似度与实际更加吻合。

步骤4：从地名信息库中获得地名i和j的经纬度，根据地名空间邻近度模型，计算地名的空间邻近度。

地名作为基础的地理要素，它可以是一个点要素(比如一个小村庄的地名)、线要素(比如一条公路的地名)、也可以是一个面要素(比如一个行政区的地名)，因此，地名数据的几何相似性包含了点要素位置相似性的度量、线要素相似性的度量以及面要素几何相似性的度量，而本发明所研究的全球地名数据均为点要素地名。

对于点要素地名位置的度量通常采用计算距离的方式，基本的思路是分别从两个点要素地名中提取出一组特征向量，在一定的距离空间中对这两组向量的距离进行计算。距离越小，则表明两个地名越相似；反之，距离越大，表明两个地名存在较大的差异。经常用欧式距离来代表两点之间的距离。

欧氏距离(Euclidean Distance)，是欧几里得空间中两点之间的普通直线距离，衡量多维空间中各个点之间的绝对距离。其中，若地名之间的欧式距离越大，则所描述地名相似度越低。设i，j表示两个地名，其经纬度分别记为lon_i，lon_j，lat_i和lat_j。两个地名之间的欧式空间距离记为dis_i-j。

设地名空间邻近度函数为S_E(i,j)，则本发明针对地名数据空间特征设计的空间距离相似度模型如下所示。

其中，S_E(i,j)表示两个地名的空间范围相似程度，若两者一致，则取值为1；若两者空间距离越远，则空间范围一致性程度越趋近于0。

步骤5：根据地名语义相似度模型，计算地名语义相似度。

地名语义相似度模型如下：

F(i,j)＝A(i,j)S_E(i,j)S_C(i,j)

其中，F(i,j)表示地名语义相似度，A(i,j)，S_E(i,j)和S_c(i,j)三个变量分别表示归一化至[0，1]值域范围内的地名字符串相似度与地名空间邻近度和地名类别相似度。

以洪都拉斯、毛里求斯、利比里亚、蒙古、津巴布韦等5个国家各个数据源地名共计约16.7万条地名数据作为实验数据，其中具有一致性可以匹配共计约4.77万条，采用本发明提出的面向多语种的通用地名语义相似度计算方法进行实验，结果如表5所示。

表5实验结果评价指标统计

实验结果表明，面向多语种的通用地名语义相似度计算方法对地名进行匹配不仅在准确率上保持在98％以上，而且能够达到97％以上的实际地名数据匹配。

本发明实施例公开的地名语义相似度计算方法在多语种地名数据查询中的应用，主要包括如下步骤：

步骤一：通过地名信息库提取所有地名的字符串、类别和经纬度等属性，根据语种编码区间确定地名语种和进行地名归一化处理，并依据地名语种的不同特征分为表音型和表意型索引方法，其中表音型文字以字母相似度为基准，结合字母总数、字母部首数、单词总数和单词首字母编码等语言特征，基于多维特征统计向量的索引组织方式进行表音型地名索引构建；表意型文字以字符局部相似度为基准，结合地名的相同字符、字符数量、字符位置等语言特征，基于单个字的地名索引组织方式进行表意型地名索引构建。

步骤二：确定待查询的地名的字符串、类别和经纬度等全部或部分属性，并进行归一化处理。

步骤三：根据待查询地名所确定的字符串、类别和经纬度等属性依次对索引中的所有进行筛选，其中依据确定的地名字符串，使用地名字符串相似度模型进行计算，计算结果高于设定阈值时符合筛选条件，否则就过滤该条地名，若字符串为空则直接符合筛选条件；依据确定的地名类别，使用类别相似度模型进行计算，计算结果高于设定阈值时符合筛选条件，否则就过滤该条地名，若类别为空则直接符合筛选条件；依据确定的地名经纬度，使用地名空间邻近度模型进行计算，计算结果高于设定阈值时符合筛选条件，否则就过滤该条地名，若经纬度为空则直接符合筛选条件。

步骤四：依次将待查询地名与所有候选地名采用面向多语种的通用地名语义相似度计算方法进行计算。

步骤五：将计算结果进行倒序排列，排序越靠前的地名与待查询地名越相似。