CN111325235A - 面向多语种的通用地名语义相似度计算方法及其应用 - Google Patents
面向多语种的通用地名语义相似度计算方法及其应用 Download PDFInfo
- Publication number
- CN111325235A CN111325235A CN202010058317.6A CN202010058317A CN111325235A CN 111325235 A CN111325235 A CN 111325235A CN 202010058317 A CN202010058317 A CN 202010058317A CN 111325235 A CN111325235 A CN 111325235A
- Authority
- CN
- China
- Prior art keywords
- place name
- place
- similarity
- name
- names
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000010276 construction Methods 0.000 claims abstract description 7
- 238000012216 screening Methods 0.000 claims description 21
- 238000010606 normalization Methods 0.000 claims description 6
- 230000008520 organization Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 5
- 238000005259 measurement Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- OXXJZDJLYSMGIQ-ZRDIBKRKSA-N 8-[2-[(e)-3-hydroxypent-1-enyl]-5-oxocyclopent-3-en-1-yl]octanoic acid Chemical compound CCC(O)\C=C\C1C=CC(=O)C1CCCCCCCC(O)=O OXXJZDJLYSMGIQ-ZRDIBKRKSA-N 0.000 description 2
- 101100397117 Arabidopsis thaliana PPA3 gene Proteins 0.000 description 2
- 101001057699 Homo sapiens Inorganic pyrophosphatase Proteins 0.000 description 2
- 102100027050 Inorganic pyrophosphatase Human genes 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Remote Sensing (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种面向多语种的通用地名语义相似度计算方法及其应用。通过分析多种语种地名的构词特点、隶属关系和空间位置等语义特征,发现地名的类别、字符串和空间位置特征容易获取且能够有效地区分地名。由此,本发明根据这三种地名语义特征,分别构建地名类别相似度模型、地名字符串相似度模型和地名空间邻近度模型。然后,综合考虑地名类别相似度、字符串相似度和空间邻近度,提出一种面向多语种的通用地名语义相似度计算方法。相比于只考虑地名字符串或空间几何特征的地名相似度计算方法,本发明提供的方法能够显著提高地名相似度计算的准确性,可以更好地满足大数据环境下多语种地名的查询、匹配和共享服务等应用需求。
Description
技术领域
本发明属于地理信息科学领域,涉及一种面向多语种的通用地名语义相似度计算方法及其在多语种数据库地名查询中的应用。
背景技术
地名是人类对地理环境具有特定位置、范围及形态特征的地理对象和地理现象所共同约定的语言符号。语义是数据(符号)所代表的概念的含义,以及这些含义之间的关系。随着计算机技术的发展与移动互联网的普及,不同国家、机构或者企业已经建立了各种类型的地名信息库,且大部分地名信息库包含地名类别,经纬度等信息。然而,这些地名信息库在覆盖范围、数据形式、语种类型、数据内容等方面存在较大的差异。因此如何快速、准确的计算不同地名信息库中的地名相似度,已成为地名研究中的重要课题。
目前地名相似度计算方法主要分为三类。①一类是基于地名字符串的,即通过比较地名的字符串来计算地名相似度,如Smart等将规则模型与隐马尔可夫模型相结合,可以有效解决地名拼写、格式、字符集等不一致问题;占斌斌等利用基于地名建立的通名词典和结构规则库判定地名类型,然后通过字符串相似度匹配得到最佳的地名数据匹配结果,并在德州市实验区得到了较好的验证结果;叶鹏等在顾及中文字符多级特征的基础上,基于中文地名词典构建了地名单字索引,利用字符过滤与相似度排序等机制实现中文地名的高效匹配。②第二类是基于地理要素的,即利用地名的空间位置、面积和形状等几何信息计算地名的相似度。如Egenhofer和Clementini提出了度量多重表达中空间几何数据结构不一致性及拓扑关系不一致性的标准,能够较为理想的判断空间几何数据的一致性;Van等利用K中心点聚类和朴素贝叶斯分类法能够对带有地理标签的照片进行地名一致性处理。③第三类是基于地名语义的相似度计算方法。如陈佳丽多重表达的空间数据在空间关系、语义和几何方面可能存在不一致性,因此必须对这些不一致性进行评价和修正,把本体引入地理信息建模中,结合语义一致性,以基于对象匹配的方法实现数据匹配。
上述学者在地名相似度计算方面,取得了不错的成果。但是依然存在某些问题:①编辑距离算法等算法通过分析地名单一特征计算地名相似度,如地名字符串或地名几何特征,并没有考虑地名的其它特征,导致在某些特殊情况下地名相似度的准确度并不理想,尤其是地名重名,地名空间位置接近等特殊情况。②部分算法是针对特定语言提出的算法,对于其它语言并不适用。因此,如何在地名数据来源广,数据结构复杂,语义差异大等的情况下,实现地名相似度计算,是本领域技术人员需要研究和解决的难题。
发明内容
发明目的:有鉴于此,本发明提供了一种面向多语种的通用地名语义相似度计算方法,目的在于解决现有地名相似度计算方法准确率不高,通用性弱的问题。
技术方案:为实现上述发明目的,本发明采用如下技术方案:
面向多语种的通用地名语义相似度计算方法,包括如下步骤:
根据语种编码区间确定地名语种,并根据文献信息将地名进行归一化为罗马化地名;
从地名信息库中获取两个地名的类别属性信息,根据地名分类体系及地名类别相似度模型计算地名类别相似度;
根据地名字符串相似度模型计算罗马化后地名的字符串相似度;
从地名信息库中获取两个地名的经纬度,根据地名空间邻近度模型计算地名的空间邻近度;
根据地名类别相似度、字符串相似度和空间邻近度确定地名相似度;
作为优选,根据地名分类体系及地名类别相似度模型计算地名类别相似度包括:
如果两地名类别位于分类体系的同一子类下的类别,则计算共同父类到根节点的距离之和最近的共同父类地名类别到两地名类别的距离,然后利用同类别相似度模型计算属性相似度;如果两地名类别位于不同子类下的类别,则计算两地名类别所在子类的相关度后利用非同类别相似度模型计算类别相似度。
作为优选,同一子类下的类别相似度模型表示为:
其中,Sc(i,j)表示地名i和j的地名类别相似度,l表示地名i和j的类别的最近的共同父类到根节点的距离,di表示地名i和j的类别的最近的共同父类到i的类别的距离,dj表示地名i和j的类别的最近的共同父类到j的类别的距离,α(i,j)表示最近的共同父类到i和j的类别的距离之和
作为优选,不同子类下的类别相似度模型表示为:
其中,Sc(i,j)表示地名i和j的地名类别相似度,β’表示i和j的类别所在子类的相关度,d’i表示i和j的类别的最近的共同父类到i的类别的距离,d’j表示i和j的类别的最近的共同父类到j的类别的距离;α’(i,j)表示最近的共同父类到i和j的类别的距离之和。
作为优选,地名字符串相似度模型表示为:
其中,A(i,j)表示地名i和j的地名字符串相似度,d[i,j]代表地名i和j的编辑距离,ML代表地名i和j字符串长度的最大值,Len代表最小匹配长度,L(i)代表地名i字符串的长度,L(j)代表地名j字符串的长度,a和b表示权重。
作为优选,采用地名空间邻近度模型计算空间邻近度。地名空间邻近度模型表示为:
其中,SE(i,j)代表地名i和j的地名的空间邻近度,loni,lonj,lati和latj分别为地名i和j的经纬度。
作为优选,地名语义相似度的计算模型为:
F(i,j)=A(i,j)SE(i,j)SC(i,j)
其中,F(i,j)表示地名i和j的地名语义相似度。
所述的地名语义相似度计算方法在多语种地名数据查询中的应用,主要包括如下步骤:
通过地名信息库提取所有地名的字符串、类别和经纬度属性,根据语种编码区间确定地名语种和进行地名归一化处理,并依据地名语种的不同特征分为表音型和表意型索引方法,其中表音型文字以字母相似度为基准,结合字母总数、字母部首数、单词总数和单词首字母编码语言特征,基于多维特征统计向量的索引组织方式进行表音型地名索引构建;表意型文字以字符局部相似度为基准,结合地名的相同字符、字符数量、字符位置语言特征,基于单个字的地名索引组织方式进行表意型地名索引构建;
确定待查询的地名的字符串、类别和经纬度属性,并进行归一化处理;
根据待查询地名所确定的字符串、类别和经纬度属性依次对索引中的所有进行筛选,其中依据确定的地名字符串,使用地名字符串相似度模型进行计算,计算结果高于设定阈值时符合筛选条件,否则就过滤该条地名,若字符串为空则直接符合筛选条件;依据确定的地名类别,使用类别相似度模型进行计算,计算结果高于设定阈值时符合筛选条件,否则就过滤该条地名,若类别为空则直接符合筛选条件;依据确定的地名经纬度,使用地名空间邻近度模型进行计算,计算结果高于设定阈值时符合筛选条件,否则就过滤该条地名,若经纬度为空则直接符合筛选条件;
依次将待查询地名与所有候选地名采用根据所述的面向多语种的通用地名语义相似度计算方法进行计算;
将计算结果进行倒序排列,排序越靠前的地名与待查询地名越相似。
有益效果:本发明根据地名的构词特点、地名类别和位置特征,分别构建了地名类别相似度模型、地名字符串相似度模型和地名空间邻近度模型,并根据这三种模型,提出一种通用地名语义相似度计算方法。本发明的有益效果在于改进编辑距离算法,从而能够同时顾及通名和专名的影响。引入地名类别特征,根据地名类别分类体系构建地名类别相似度模型。同时考虑地名的空间特征,构建地名空间邻近度模型;最后,综合考虑地名字符串、位置和类别特征,提出一种通用地名语义相似度计算方法。因此,相对于针对单一特征的地名相似度计算方法,具有更高的准确率和普适性。
附图说明
图1为本发明实施例的方法流程图。
图2为本发明实施例中地名类别结构示意图。
具体实施方式
下面结合具体实施方式对本发明进行详细说明。
如图1所示,本发明实施例公开的一种面向多语种的通用地名语义相似度计算方法,主要包括如下步骤:
步骤1:根据地名编码区间识别地名i和j的语种,并根据文献信息归一化地名i和j为罗马化地名。
由于数据获取手段和人为因素等影响,不同语种的数据在数据格式和编码等方面差异较大,因此需要对地名进行预处理,以便于在地名信息库中找到相应的地名类别等信息。
本步骤中,地名编码区间是指每个语种所对应的不同的编码区间,即每个语种的Unicode十六进制编码区间是惟一的,因此能够根据地名编码区间确定地名语种。
罗马化地名是指每个国家官方最新出版的地名录、地名词典和地方志等资料中含有地名相对应的罗马地名。
步骤2:从地名信息库中获得地名i和j的类别,根据地名类别相似度模型,计算地名i和j的类别相似度。
本步骤中,地名类别相似度是指在同一分类体系中,两个地名数据所属类别的相关程度。地名数据类别是指数据按专题要素进行分类,分类体系可以使用层次化的树状结构来描述类与类之间的逻辑关系。地名类别按照地名分类体系,分类对照表如表1所示。
表1 GeoNames、GNS要素类别对照表
GNIS数据源直接提供类别的全称,可参照上述分类标准,总结各大类所包含的地名要素类别,设计GNIS类别与标准分类映射表,如表2所示。通过表中映射关系,添加GNIS要素类别代码属性,表3为部分地名分类代码表。
表2 GNIS类别与标准分类映射表
表3部分地名分类代码表
通过分析发现,地名属性中类别相似度能够反映同一分类体系中两个数据所属类别的相关程度。因此,计算类与类的相关性需要处理分类树中父子节点、兄弟节点等不同类型的关系。为了便于理解以大类P部分类别为例,做树状图,如图2所示。地名类别相似度算法函数由SC(i,j)表示,当地名i和j在同一子类下的类别时SC(i,j)的计算如下所示(例如,如图2所示,当地名i和j分别属于PPA1和PPA3类别,则PPA1和PPA3都属于同一子类PPA):
式中,l表示i和j的类别的最近的共同父类到根节点的距离(边的数量);di表示i和j的类别的最近的共同父类到i的类别的距离(边的数量),dj表示i和j的类别的最近的共同父类到j的类别的距离(边的数量);α(i,j)表示最近的共同父类到i和j的类别的距离之和。
当i和j在不同一子类下的类别时SC(i,j)的计算如下所示:
式中β’表示i和j的类别所在子类的相关度,取值在[0,1],可根据实际应用由领域专家给出,d’i表示i和j的类别的最近的共同父类到i的类别的距离(边的数量),d’j表示i和j的类别的最近的共同父类到j的类别的距离(边的数量);α’(i,j)表示最近的共同父类到i和j的类别的距离之和。
步骤3:根据地名字符串相似度模型,计算罗马化地名i和j的名称相似度。
编辑距离又称Levenshtein距离,是一种用于衡量两个序列相似度的距离度量函数。在自然语言处理中,编辑距离是用来计算从原字符串转换到目标字符串所需要进行的***、删除和替换操作的最少次数。设Si=s1s2…si和Tj=t1t2…tj代表两个字符串,距离d[i,j]是Sj字符串编辑到Tj字符串所用的最小操作数,d[i,j]表明地名i,j的编辑距离,能够有效反映地名间的字符相似程度,公式如下所示:
编辑距离是一种用于衡量两个序列相似度的距离度量函数,常用来计算地名字符串的相似度,然而该算法无法有效减少通名的影响,因此对该算法进行了改进,改进后的模型如下所示:
式中d[i,j]代表地名i,j的编辑距离,ML代表地名i,j字符串长度的最大值,Len代表最小匹配长度(Len≥1),L(i)代表i字符串的长度,L(j)代表j字符串的长度,a和b表示权重,分别为0.6和0.4。改进后的模型与现有模型名称相似度计算结果比较如表4所示。
表4地名字符串相似度计算结果比较
从上表可以看出,Gwaun Creek和Gunye Creek为不同地名,然而编辑距离算法计算相似度高达0.636;Wilipini和Willipinee是相同地名,贪婪字符串匹配算法的相似度结果为0.555,Gbonga和Gbondoi为不同地名,计算结果却为0.615;可以明显发现本发明改进的算法计算的相似度与实际更加吻合。
步骤4:从地名信息库中获得地名i和j的经纬度,根据地名空间邻近度模型,计算地名的空间邻近度。
地名作为基础的地理要素,它可以是一个点要素(比如一个小村庄的地名)、线要素(比如一条公路的地名)、也可以是一个面要素(比如一个行政区的地名),因此,地名数据的几何相似性包含了点要素位置相似性的度量、线要素相似性的度量以及面要素几何相似性的度量,而本发明所研究的全球地名数据均为点要素地名。
对于点要素地名位置的度量通常采用计算距离的方式,基本的思路是分别从两个点要素地名中提取出一组特征向量,在一定的距离空间中对这两组向量的距离进行计算。距离越小,则表明两个地名越相似;反之,距离越大,表明两个地名存在较大的差异。经常用欧式距离来代表两点之间的距离。
欧氏距离(Euclidean Distance),是欧几里得空间中两点之间的普通直线距离,衡量多维空间中各个点之间的绝对距离。其中,若地名之间的欧式距离越大,则所描述地名相似度越低。设i,j表示两个地名,其经纬度分别记为loni,lonj,lati和latj。两个地名之间的欧式空间距离记为disi-j。
设地名空间邻近度函数为SE(i,j),则本发明针对地名数据空间特征设计的空间距离相似度模型如下所示。
其中,SE(i,j)表示两个地名的空间范围相似程度,若两者一致,则取值为1;若两者空间距离越远,则空间范围一致性程度越趋近于0。
步骤5:根据地名语义相似度模型,计算地名语义相似度。
地名语义相似度模型如下:
F(i,j)=A(i,j)SE(i,j)SC(i,j)
其中,F(i,j)表示地名语义相似度,A(i,j),SE(i,j)和Sc(i,j)三个变量分别表示归一化至[0,1]值域范围内的地名字符串相似度与地名空间邻近度和地名类别相似度。
以洪都拉斯、毛里求斯、利比里亚、蒙古、津巴布韦等5个国家各个数据源地名共计约16.7万条地名数据作为实验数据,其中具有一致性可以匹配共计约4.77万条,采用本发明提出的面向多语种的通用地名语义相似度计算方法进行实验,结果如表5所示。
表5实验结果评价指标统计
实验结果表明,面向多语种的通用地名语义相似度计算方法对地名进行匹配不仅在准确率上保持在98%以上,而且能够达到97%以上的实际地名数据匹配。
本发明实施例公开的地名语义相似度计算方法在多语种地名数据查询中的应用,主要包括如下步骤:
步骤一:通过地名信息库提取所有地名的字符串、类别和经纬度等属性,根据语种编码区间确定地名语种和进行地名归一化处理,并依据地名语种的不同特征分为表音型和表意型索引方法,其中表音型文字以字母相似度为基准,结合字母总数、字母部首数、单词总数和单词首字母编码等语言特征,基于多维特征统计向量的索引组织方式进行表音型地名索引构建;表意型文字以字符局部相似度为基准,结合地名的相同字符、字符数量、字符位置等语言特征,基于单个字的地名索引组织方式进行表意型地名索引构建。
步骤二:确定待查询的地名的字符串、类别和经纬度等全部或部分属性,并进行归一化处理。
步骤三:根据待查询地名所确定的字符串、类别和经纬度等属性依次对索引中的所有进行筛选,其中依据确定的地名字符串,使用地名字符串相似度模型进行计算,计算结果高于设定阈值时符合筛选条件,否则就过滤该条地名,若字符串为空则直接符合筛选条件;依据确定的地名类别,使用类别相似度模型进行计算,计算结果高于设定阈值时符合筛选条件,否则就过滤该条地名,若类别为空则直接符合筛选条件;依据确定的地名经纬度,使用地名空间邻近度模型进行计算,计算结果高于设定阈值时符合筛选条件,否则就过滤该条地名,若经纬度为空则直接符合筛选条件。
步骤四:依次将待查询地名与所有候选地名采用面向多语种的通用地名语义相似度计算方法进行计算。
步骤五:将计算结果进行倒序排列,排序越靠前的地名与待查询地名越相似。
Claims (8)
1.一种面向多语种的通用地名语义相似度计算方法,其特征在于,包括如下步骤:
根据语种编码区间确定地名语种,并根据文献信息将地名进行归一化为罗马化地名;
从地名信息库中获取两个地名的类别属性信息,根据地名分类体系及地名类别相似度模型计算地名类别相似度;
根据地名字符串相似度模型计算罗马化后地名的字符串相似度;
从地名信息库中获取两个地名的经纬度,然后根据地名空间邻近度模型计算空间邻近度;
根据地名的类别相似度、字符串相似度和空间邻近度确定地名语义相似度。
2.根据权利要求1所述的地名语义相似度计算方法,其特征在于,根据地名分类体系及地名类别相似度模型计算地名类别相似度包括:
如果两地名所属类别位于地名分类体系的同一子类下的类别,则计算共同父类到根节点的距离之和以及最近的共同父类地名类别到两地名类别的距离,然后利用同类别相似模型计算类别相似度;如果两地名所属类别位于不同子类下的类别,则计算两地名类别所在子类的相关度后利用非同类别相似度模型计算类别相似度。
7.根据权利要求1所述的地名语义相似度计算方法,其特征在于,地名语义相似度的计算模型为:
F(i,j)=A(i,j)SE(i,j)SC(i,j)
其中,Sc(i,j)表示地名i和j的地名类别相似度,A(i,j)表示地名i和j的地名字符串相似度,SE(i,j)表示地名i和j的地名空间邻近度,F(i,j)表示地名i和j的地名语义相似度。
8.地名语义相似度计算方法在多语种地名数据查询中的应用,其特征在于,包括如下步骤:
通过地名信息库提取所有地名的字符串、类别和经纬度属性,根据语种编码区间确定地名语种和进行地名归一化处理,并依据地名语种的不同特征分为表音型和表意型索引方法,其中表音型文字以字母相似度为基准,结合字母总数、字母部首数、单词总数和单词首字母编码语言特征,基于多维特征统计向量的索引组织方式进行表音型地名索引构建;表意型文字以字符局部相似度为基准,结合地名的相同字符、字符数量、字符位置语言特征,基于单个字的地名索引组织方式进行表意型地名索引构建;
确定待查询的地名的字符串、类别和经纬度属性,并进行归一化处理;
根据待查询地名所确定的字符串、类别和经纬度属性依次对索引中的所有进行筛选,其中依据确定的地名字符串,使用地名字符串相似度模型进行计算,计算结果高于设定阈值时符合筛选条件,否则就过滤该条地名,若字符串为空则直接符合筛选条件;依据确定的地名类别,使用类别相似度模型进行计算,计算结果高于设定阈值时符合筛选条件,否则就过滤该条地名,若类别为空则直接符合筛选条件;依据确定的地名经纬度,使用地名空间邻近度模型进行计算,计算结果高于设定阈值时符合筛选条件,否则就过滤该条地名,若经纬度为空则直接符合筛选条件;
依次将待查询地名与所有候选地名采用根据权利要求1-7任一项所述的面向多语种的通用地名语义相似度计算方法进行计算;
将计算结果进行倒序排列,排序越靠前的地名与待查询地名越相似。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010058317.6A CN111325235B (zh) | 2020-01-19 | 2020-01-19 | 面向多语种的通用地名语义相似度计算方法及其应用 |
AU2020101024A AU2020101024A4 (en) | 2020-01-19 | 2020-04-21 | Multi-language oriented general method for calculating place name semanteme similarity and use thereof |
PCT/CN2020/085814 WO2021142968A1 (zh) | 2020-01-19 | 2020-04-21 | 面向多语种的通用地名语义相似度计算方法及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010058317.6A CN111325235B (zh) | 2020-01-19 | 2020-01-19 | 面向多语种的通用地名语义相似度计算方法及其应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111325235A true CN111325235A (zh) | 2020-06-23 |
CN111325235B CN111325235B (zh) | 2023-04-25 |
Family
ID=71170946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010058317.6A Active CN111325235B (zh) | 2020-01-19 | 2020-01-19 | 面向多语种的通用地名语义相似度计算方法及其应用 |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN111325235B (zh) |
AU (1) | AU2020101024A4 (zh) |
WO (1) | WO2021142968A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114880996A (zh) * | 2022-03-01 | 2022-08-09 | 中国人民解放军92728部队 | 基于分段加权相似度匹配算法的机构名称归一化方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076734B (zh) * | 2021-04-15 | 2023-01-20 | 云南电网有限责任公司电力科学研究院 | 一种项目文本的相似度检测方法及装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080319990A1 (en) * | 2007-06-18 | 2008-12-25 | Geographic Services, Inc. | Geographic feature name search system |
CN103605752A (zh) * | 2013-11-21 | 2014-02-26 | 武大吉奥信息技术有限公司 | 一种基于语义识别的地址匹配方法 |
CN103890792A (zh) * | 2011-10-20 | 2014-06-25 | 德国邮政股份公司 | 位置信息的比较 |
CN107239442A (zh) * | 2017-05-09 | 2017-10-10 | 北京京东金融科技控股有限公司 | 一种计算地址相似度的方法和装置 |
CN107861947A (zh) * | 2017-11-07 | 2018-03-30 | 昆明理工大学 | 一种基于跨语言资源的柬语命名实体识别的方法 |
CN108171529A (zh) * | 2017-12-04 | 2018-06-15 | 昆明理工大学 | 一种地址相似度评估方法 |
CN108572960A (zh) * | 2017-03-08 | 2018-09-25 | 富士通株式会社 | 地名消岐方法和地名消岐装置 |
CN108804398A (zh) * | 2017-05-03 | 2018-11-13 | 阿里巴巴集团控股有限公司 | 地址文本的相似度计算方法及装置 |
CN110276021A (zh) * | 2019-04-29 | 2019-09-24 | 小轮(上海)网络科技有限公司 | 基于语义相似度的地名匹配方法及装置 |
CN110598791A (zh) * | 2019-09-12 | 2019-12-20 | 深圳前海微众银行股份有限公司 | 地址相似度评价方法、装置、设备及介质 |
-
2020
- 2020-01-19 CN CN202010058317.6A patent/CN111325235B/zh active Active
- 2020-04-21 AU AU2020101024A patent/AU2020101024A4/en not_active Ceased
- 2020-04-21 WO PCT/CN2020/085814 patent/WO2021142968A1/zh active Application Filing
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080319990A1 (en) * | 2007-06-18 | 2008-12-25 | Geographic Services, Inc. | Geographic feature name search system |
CN103890792A (zh) * | 2011-10-20 | 2014-06-25 | 德国邮政股份公司 | 位置信息的比较 |
CN103605752A (zh) * | 2013-11-21 | 2014-02-26 | 武大吉奥信息技术有限公司 | 一种基于语义识别的地址匹配方法 |
CN108572960A (zh) * | 2017-03-08 | 2018-09-25 | 富士通株式会社 | 地名消岐方法和地名消岐装置 |
CN108804398A (zh) * | 2017-05-03 | 2018-11-13 | 阿里巴巴集团控股有限公司 | 地址文本的相似度计算方法及装置 |
CN107239442A (zh) * | 2017-05-09 | 2017-10-10 | 北京京东金融科技控股有限公司 | 一种计算地址相似度的方法和装置 |
CN107861947A (zh) * | 2017-11-07 | 2018-03-30 | 昆明理工大学 | 一种基于跨语言资源的柬语命名实体识别的方法 |
CN108171529A (zh) * | 2017-12-04 | 2018-06-15 | 昆明理工大学 | 一种地址相似度评估方法 |
CN110276021A (zh) * | 2019-04-29 | 2019-09-24 | 小轮(上海)网络科技有限公司 | 基于语义相似度的地名匹配方法及装置 |
CN110598791A (zh) * | 2019-09-12 | 2019-12-20 | 深圳前海微众银行股份有限公司 | 地址相似度评价方法、装置、设备及介质 |
Non-Patent Citations (2)
Title |
---|
占斌斌等: "归类识别地名匹配算法", 《北京测绘》 * |
谭永滨等: "语义支持的地理要素属性相似性计算模型", 《遥感信息》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114880996A (zh) * | 2022-03-01 | 2022-08-09 | 中国人民解放军92728部队 | 基于分段加权相似度匹配算法的机构名称归一化方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2021142968A1 (zh) | 2021-07-22 |
CN111325235B (zh) | 2023-04-25 |
AU2020101024A4 (en) | 2020-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111680173A (zh) | 统一检索跨媒体信息的cmr模型 | |
CN101542475B (zh) | 用于对具有象形表意内容的数据进行搜索和匹配的***和方法 | |
CN111104794A (zh) | 一种基于主题词的文本相似度匹配方法 | |
Matci et al. | Address standardization using the natural language process for improving geocoding results | |
CN107590128B (zh) | 一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法 | |
CN111353030A (zh) | 基于旅游领域知识图谱的知识问答检索方法及装置 | |
JP2005526317A (ja) | ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム | |
MX2008013657A (es) | Anotacion a traves de busqueda. | |
CN109933797A (zh) | 基于Jieba分词及地址词库的地理编码方法和*** | |
JP5057474B2 (ja) | オブジェクト間の競合指標計算方法およびシステム | |
Fu et al. | Automatic record linkage of individuals and households in historical census data | |
Christen et al. | A probabilistic geocoding system based on a national address file | |
CN111680506A (zh) | 数据库表的外键映射方法、装置、电子设备和存储介质 | |
CN111325235A (zh) | 面向多语种的通用地名语义相似度计算方法及其应用 | |
Mokhtari et al. | Tagging address queries in maps search | |
US20020132258A1 (en) | Knowledge database and method for constructing knowledge database | |
CN116629258B (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及*** | |
Chang et al. | Enhancing POI search on maps via online address extraction and associated information segmentation | |
Sallaberry et al. | A semantic approach for geospatial information extraction from unstructured documents | |
Christen et al. | A probabilistic geocoding system utilising a parcel based address file | |
Neiling et al. | The object identification framework | |
CN114168751A (zh) | 一种基于医学知识概念图的医学文本标签识别方法及*** | |
CN113535883A (zh) | 商业场所实体链接方法、***、电子设备及存储介质 | |
CN118096452B (zh) | 一种案件辅助审判方法、装置、终端设备及介质 | |
Yin et al. | Rapid Extraction of Research Areas from Scientific and Technological Literature. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |