CN112905728A

CN112905728A - 一种面向多源地名数据的高效融合与检索***及方法

Info

Publication number: CN112905728A
Application number: CN202110218142.5A
Authority: CN
Inventors: 朱利鲁; 胡岩峰; 高瞻; 苏晓露
Original assignee: Suzhou Research Institute Institute Of Electronics Chinese Academy Of Sciences
Current assignee: Suzhou Research Institute Institute Of Electronics Chinese Academy Of Sciences
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2021-06-04

Abstract

本发明提出了一种多源地名数据源高效融合与检索***，多源地名数据处理模块用于分析开源地名数据的内部结构提取共性字段，定义满足业务需求的标准化地名数据结构，并基于定义的标准化地名数据结构，对不同来源的地名数据进行地名数据的解析、筛选和到标准化地名数据结构的转换；定义地名数据的重复性检验规则，对标准化后的地名数据进行判重，检查转换后的地名数据是否在地名数据库中已存在，若存在则进行地名数据更新，否则将转换后的地名数据加入地名数据库中；全球地名数据搜索模块用于建立名称索引和空间位置索引，基于分词索引的地名名称进行地名查询，基于地理范围或者地理点和半径进行定位查询。本发明能够实现地名数据的高效查询。

Description

一种面向多源地名数据的高效融合与检索***及方法

技术领域

本发明涉及计算机信息技术领域，具体涉及一种面向多源地名数据的高效融合与检索***。

背景技术

地名是一种非常重要的空间信息。作为国家自然资源、社会管理与地理空间信息的重要组成部分，内政外交、经济社会、生产生活等各个领域的现代管理和服务活动，都需要地名信息的支持和服务。但我国的全球地名数据库建设并不是很完善，如官方中国国家地名信息库只提供国内地名数据，一些国内地图服务商如高德、百度地图，其数据也只是针对中国及一些周边国家和地区，涉及国外的行政地名数据主要是一些大城市的数据。随着城市建设的智慧化和智能化的不断深入，地名数据作为最基本的地理空间数据之一，在位置查询、路径规划等服务中得到了广泛的应用。地名数据库的完整性与准确性，对这些服务的质量具有非常重要的意义。

地名数据具有数据量庞大、数据更新频繁的特点，全球涉及200多个国家，上亿条地名数据，以采集的方式构建全球地名数据，具有生产成本高、生产过程复杂、周期长等一系列问题。通过互联网获取开源的地名数据,可以有效减少地名数据采集存在的上述问题。单一来源的地名数据可能存在数据不完整、数据精确度不高、或者地名数据存在争议等诸多问题，具有一定的局限性，不能很好的满足业务需求，因此，需要将不同来源的地名数据结合使用。然而，这些不同来源的地名数据结构互异，且评价标准不一，往往导致数据质量参差不齐，存在冗余数据和错误数据等问题。地名名称查询和位置查询是地名数据最基本的使用方法。地名名称查询时，当查询名称过长时无法精确匹配数据，查询名称过短时常无法有效地使用地名索引，搜索效率极低。位置查询时，为提高空间索引来提升搜索效率。例如主流数据库，如SQL Server、MySQL、PostgreSQL数据库等，都已加入了对空间数据的支持，可以使用空间运算查询符合查询条件的数据，也引入了R树、KD树、四叉树等空间索引。虽然上述空间索引都很有效，但是当维度急剧提升时，地名数据量过多时空间索引的效率也会急剧下降。除此之外，GeoHash算法将二维数据转化为一维使用普通B树索引来实现空间检索，虽然有局部保序性，但是它也有突变性，有可能出现顺序的突变，在查询此部分地名数据效率低下。因此需要定义更有效的地名名称索引和空间索引，提高地名数据的查询效率。

综上，需要提供快速、有效的多源地名数据融合和索引方法，解决多源地名数据融合及高效检索过程中存在的诸多问题，实现从快速融合到高效检索的全流程的地名数据应用方案。

发明内容

本发明的目的在于提出一种面向多源地名数据的高效融合与检索***及方法。

实现本发明目的的技术解决方案为：一种多源地名数据源高效融合与检索***，其特征在于，包括多源地名数据处理模块和全球地名数据搜索模块，其中：

多源地名数据处理模块用于分析开源地名数据的内部结构提取共性字段，定义满足业务需求的标准化地名数据结构，并基于定义的标准化地名数据结构，对不同来源的地名数据进行地名数据的解析、筛选和到标准化地名数据结构的转换；以及定义地名数据的重复性检验规则，对标准化后的地名数据进行判重，检查转换后的地名数据是否在地名数据库中已存在，若存在则进行地名数据更新，否则将转换后的地名数据加入地名数据库中；

全球地名数据搜索模块用于建立名称索引和空间位置索引，基于分词索引的地名名称进行地名查询，以及基于地理范围或者地理点和半径进行定位查询。

进一步的，所述多源地名数据处理模块包括地名数据接入模块和地名数据标准化融合模块，其中：

地名数据接入模块用于读取、解析开源地名数据，支持读取OSM地名数据的pbf、xml格式，GeoName地名数据的TXT格式，生成对应的数据格式类对象；

地名数据标准化融合模块包括地名数据标准化模块和地名数据融合模块，其中，地名数据标准化模块用于根据业务的需求定义标准化的地名数据结构，并将开源地名数据转化为标准化地名数据结构，即建立开源地名数据的字段与标准化的地名格式字段的映射关系，将开源地名数据中的一个字段或多字段组合后转换为标准化的地名数据，对于标准化地名数据中未涵盖的冗余字段予以舍弃；地名数据融合模块用于对标准化后的地名数据进行数据的重复性检验和融合，地名数据重复性检验是定义地名数据重复性检验规则，利用地名名称相似程度和/或地理位置相似程度判断两条地名数据是否为相同数据，当相似程度超过某一阈值时，则认为数据为同一个地名数据；地名数据融合是使用不同来源的地名数据中有效的地名字段，更新地名库中已有的地名数据，或***新增的地名数据，在进行地名数据融合时，对于存在多个历史版本的地名数据，始终保持最新数据被设置为有效状态，供后续检索和使用。

进一步的，所述全球地名数据搜索模块包括索引生成模块和地名搜索模块，其中：

地名索引生成模块用于建立名称索引和空间位置索引，其中名称索引建立过程中，引入分词方法提取地名名称关键字，作为地名数据的名称索引；空间位置索引建立过程中，先将全球范围划分为不同空间分辨率尺度的网格，然后使用Hilbert空间填充曲线对网格进行填充，将大小不一的网格映射为填充曲线上的一个点并进行编码，得到网格块ID，最后根据地名数据的地理位置，找到与其相匹配的网格块ID，作为地名数据的空间索引；

地名搜索模块包括地名查询模块和定位查询模块，其中名称查询模块用于将地名名称作为查询条件的地名基本查询，以及将地名名称与地理位置、国家编码、行政等级、地理属性、地理类别组合作为查询条件的地名高级查询，定位查询模块用于将地理位置作为查询条件的定位基本查询，以及将地理位置与地名名称、国家编码、行政等级、地理属性、地理类别组合作为查询条件的定位高级查询。

更进一步的，地名库的地名数据存储方式采用结合关系型数据库与文本搜索引擎的级联式存储方式，地名查询分为地名基本查询与地名高级查询，地名基本查询时通过文本搜索引擎提供的分词索引，结合关系型数据库自身的索引结构，进行相似字符串的匹配，实现地名数据的基本查询；地名高级查询则在地名基本查询的基础上结合其他组合查询条件对地名基本查询的结果进行筛选，实现地名数据的地名高级查询；定位查询也分为定位基本查询与定位高级查询，定位基本查询将位置查询条件转换为Hilbert空间填充曲线的块ID集合，再根据ID集合筛选出符合条件的地名数据，得到地名数据结果集；定位高级查询则是在定位基本查询的基础上结合其他组合查询条件对定位基本查询的结果进行筛选，实现地名数据的定位高级查询。

一种多源地名数据源高效融合与检索方法，基于所述的***进行多源地名数据源高效融合与检索。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，基于所述的***进行多源地名数据源高效融合与检索。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，基于所述的***进行多源地名数据源高效融合与检索。

本发明与现有技术相比，其显著优点为：1)提供了多源地名数据融合方案，对多种开源地名数据分析其内部数据结构，提取共性字段；动态配置地名数据抽取转换接口；对地名数据的重复性进行判别；不同来源数据间互相印证进行数据质量评价，可以实现全球地名数据库的快速构建与在线更新。2)提供了地名数据的高效索引方案，通过建立地名名称索引和空间位置索引，解决地名名称模糊匹配与空间位置运算时存在的运算过程复杂、检索效率低下和结果不完整等问题，可以实现地名数据的高效查询。

附图说明

图1是面向多源地名数据的高效融合与检索方法的整体结构图。

图2是面向多源地名数据的高效融合与检索方法的整体流程图。

图3是地名数据标准化处理过程的示意图。

图4是地名数据融合处理过程的示意图。

图5是地名空间索引使用过程的示意图。

图6是地名搜索过程的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本发明提出一种面向多源地名数据的高效融合与检索***及其方法，基于统一地名数据结构实现对海量、多源地名数据的快速融合，通过建立地名名称索引和位置索引，提供高效的地名数据检索方式，最终实现地名数据的充分利用。

面向多源地名数据的高效融合与检索***包括多源地名数据处理模块和全球地名搜索模块，整体结构如图1所示，处理流程如图2所示，其中：

所述多源地名数据处理模块，基于多个开源地名数据，根据业务的需求定义标准化的地名数据结构，建立开源地名数据的字段与标准化的地名格式字段的映射关系，融合多个开源数据并生成标准化地名数据。所述多源地名数据处理模块包括数据接入模块和数据标准化融合模块两部分，数据标准化实施流程如图3所示，数据融合实施流程如图4所示。

(1)地名数据接入模块

用于读取、解析开源地名数据，支持读取OSM地名数据的pbf、xml格式，GeoName地名数据的TXT格式，生成对应的数据格式类对象，作为地名数据标准化模块的输入。其中如读取OSM地名数据的pbf格式，可引入osm4j轻量级Java框架用于处理OSM数据。

(2)地名数据标准化融合模块

地名数据标准化融合模块包括地名数据标准化模块和地名数据融合模块。其中地名数据标准化融合模块用于数据标准化，将地名数据接入模块中输出的开源地名数据作为输入，转化为标准的地名数据结构，即建立开源地名数据的字段与标准化的地名格式字段的映射关系。标准化过程包括对开源地名数据中具有直接映射关系的字段进行提取，例如：地名经纬度信息、地名名称、人口、海拔、唯一标识、地名曾用名等；对于某些不重要的同类型字段进行合并，例如：OSM数据中有关地名名称属性name_el、name_de等多国语言地名无需保存为单个字段，可以将这些字段合并存储在alternatenames字段中；对某些可以过滤、拆分的地名数据进行拆分处理，获取有用的信息，例如：将GeoNames数据源中的“alternatenames”字段过滤，获取存在的中文名称，存储在标准格式中的“name_cn”字段；对于GeoNames数据源与OSM数据源标准不一致的字段按照一定的规则处理，例如：数据的行政等级设定，将GeoName的“admin1”、“admin2”、“admin3”、“admin4”转换为符合OSM等级划分，分别转换为“admin_level”字段，值分别对应4、5、6、8。对于开源地名数据源中不存在的字段可以通过一定方式生成，如OSM数据源中不存在“country”国家代码字段，可以根据Nominatim提供的全球国家网格的数据生成；添加一些标识数据来源的字段、中文地名字段。

地名数据融合模块用于多源地名数据融合，提供数据的重复性检验和融合功能。地名数据重复性检验，定义地名数据重复性检验规则进行数据的重复性检验，例如根据地名名称相似程度和地理位置相似程度判断两条地名数据是否为相同数据，当两条地名数据在名称和地理位置上的相似程度均超过某一阈值时，则认为数据为同一个地名数据。名称相似程度根据现有编辑距离算法计算地名名称字符串之间的相似度。地理位置相似程度则根据地名数据空间距离是否小于某一阈值进行判断。获取待***地名数据以及地名数据库中已存在地名数据，当判断两个地名数据为同一地名数据时进行地名数据融合，即选取地名数据最后修改时间距当前时间最近的数据为基础数据，遍历基础地名数据字段，如果字段内容为空，则获取另一条地名数据相同的字段内容，判断获取的字段内容是否为空，如果不为空将此内容更新到基础地名数据的相同字段，如果同样为空则跳过。当判断两个地名数据不是同一地名数据时，直接将待***地名数据直接***到数据库中。

所述全球地名搜索模块，用于对海量全球地名数据进行高效搜索。包括索引生成模块、地名搜索模块、定位搜索模块三个部分，索引生成模块实施流程如图5所示，地名搜索模块、定位搜索模块基于底层的各种索引实施流程如图6所示。

(1)索引生成模块

用于名称索引和空间位置索引的建立。其中名称索引的建立，即引入分词方法提取地名名称关键词，以进行快速查询。分词方法先实现字符过滤，剔除html代码、特殊符号等等；再对语句进行分词；接着对词进行语气词、停用词过滤，或者转小写等等。将最终获取的分词结果作为地名查询关键字进行查询。空间位置索引的建立，即将空间点坐标投影转换为平面坐标，最后将坐标轴点与希尔伯特曲线相互转换，可以给每个点计算其在这条曲线上的位置。这样就从高维度多个坐标变成了曲线上的单一位置坐标。由于投影的原因，所以导致投影之后的面积依旧有大小差别，此差别与投影划分等级相关，根据业务需求选取合适的投影划分等级。最后根据地名数据的经纬度信息由上述转换过程将空间点坐标转换为与Hilbert相关的值CellId，然后根据生成的64位的CellId进行数据查询，以此提高空间搜索效率。

本发明引入分词方法建立名称索引，在进行地名查询时，可以根据地名名称关键词进行快速查询，解决使用数据库自身的索引在模糊匹配方面的效率低下、检索结果不全等问题。建立空间位置索引，在进行位置查询时，可以通过匹配不同位数的空间索引，实现查询不同地理范围的地名数据，提高检索效率，并避免常用GeoHash编码涉及的查询边界问题。

(2)地名搜索模块

用于名称搜索，首先判断是基本查询还是高级查询，基本查询会忽略除地名以外的查询过滤参数进行数据查询，高级查询则会将解析获得的地名名称与地理位置、地理范围、地理属性、地理类别、地理行政等级其他组合查询条件结合，然后结合关系型数据库自身的pg_trgm扩展模块，此模块提供用于根据Tuples匹配确定字母数字文本的相似性的函数和运算符，以及支持快速搜索相似字符串的索引运算符类，支持相似字符串的快速匹配，从而实现结合其他组合查询条件的地名数据高级检索功能。

(3)定位搜索模块

用于位置搜索，首先使用索引生成模块中提供的空间位置索引构建方法，根据中心点位置以及查询半径、矩形区域、多边形区域生成所有特定level的CellId，直接查询确定区域内所有特定level的CellId值，缩减空间范围搜索时检索范围，提高检索效率。

本发明还提出一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，基于所述的***进行多源地名数据源高效融合与检索。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种多源地名数据源高效融合与检索***，其特征在于，包括多源地名数据处理模块和全球地名数据搜索模块，其中：

2.根据权利要求1所述的多源地名数据源高效融合与检索***，其特征在于，所述多源地名数据处理模块包括地名数据接入模块和地名数据标准化融合模块，其中：

3.根据权利要求2所述的多源地名数据源高效融合与检索***，其特征在于，所述地名数据标准化模块将地名数据接入模块中输出的开源地名数据作为输入，转化为标准的地名数据结构，标准化过程包括提取开源地名数据中具有直接映射关系的字段，合并不重要的同类型字段，拆分能够过滤、拆分的地名数据，一致化开源数据源中标准不一致的字段，生成开源地名数据源中不存在的字段，以及添加标识数据来源的字段和中文地名字段。

4.根据权利要求1所述的多源地名数据源高效融合与检索***，其特征在于，所述全球地名数据搜索模块包括索引生成模块和地名搜索模块，其中：

5.根据权利要求4所述的多源地名数据源高效融合与检索***，其特征在于，地名库的地名数据存储方式采用结合关系型数据库与文本搜索引擎的级联式存储方式，地名查询分为地名基本查询与地名高级查询，地名基本查询时通过文本搜索引擎提供的分词索引，结合关系型数据库自身的索引结构，进行相似字符串的匹配，实现地名数据的基本查询；地名高级查询则在地名基本查询的基础上结合其他组合查询条件对地名基本查询的结果进行筛选，实现地名数据的地名高级查询；定位查询也分为定位基本查询与定位高级查询，定位基本查询将位置查询条件转换为Hilbert空间填充曲线的块ID集合，再根据ID集合筛选出符合条件的地名数据，得到地名数据结果集；定位高级查询则是在定位基本查询的基础上结合其他组合查询条件对定位基本查询的结果进行筛选，实现地名数据的定位高级查询。

6.一种多源地名数据源高效融合与检索方法，其特征在于，基于权利要求1-5任一项所述的***进行多源地名数据源高效融合与检索。

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，基于权利要求1-5任一项所述的***进行多源地名数据源高效融合与检索。

8.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，基于权利要求1-5任一项所述的***进行多源地名数据源高效融合与检索。