CN112988715A - 一种基于开源方式的全球网络地名数据库的构建方法 - Google Patents
一种基于开源方式的全球网络地名数据库的构建方法 Download PDFInfo
- Publication number
- CN112988715A CN112988715A CN202110395237.4A CN202110395237A CN112988715A CN 112988715 A CN112988715 A CN 112988715A CN 202110395237 A CN202110395237 A CN 202110395237A CN 112988715 A CN112988715 A CN 112988715A
- Authority
- CN
- China
- Prior art keywords
- data
- place name
- source
- name
- place
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于开源方式的全球网络地名数据库的构建方法,具体包括以下步骤:S1收集至少一种数据源;S2对所述数据源进行数据分析;S3将数据源中的多区域原始数据进行数据合并拼接处理,形成统一的数据集合;S4对多种数据源进行模型一致化处理;S5对多种数据源进行预处理;S6通过数据匹配规则对所述数据源中的数据建立单源地名与对应多个地理实体的唯一性对照关联;S7将步骤S6匹配好的多源地名数据进行融合处理,形成融合后的地名名称数据并生成地名表;S8针对融合后的同一地名名称数据的实体多条地名属性的情况,根据设定的地名选取原则从生成的地名表中选取地名名称作为实体名称,以解决地名名称继承和统一问题。
Description
技术领域
本发明涉及地名数据库的构建的技术领域,具体涉及一种基于开源方式的全球网络地名数据库的构建方法。
背景技术
地名信息作为最基础的地理信息,既是国家安全和发展的战略资源,又是群众生产生活必不可少的基础资源;地名数据是国家基础信息的重要主体和国家信息化建设的战略支撑。世界各国皆把地名信息化建设提高到国家信息化基础工程的战略地位,积极发挥其在经济发展、社会管理、军事外交、公众服务中的支撑作用。
地名是最常用的公共基础信息之一,是现代社会进行各种联系的基本工具和纽带。随着经济的发展和社会的进步,地区间、国际间的政治交往、经济贸易、社会交流越来越离不开地名,地名的信息化建设越加依赖,此外,信息时代的来临,世界各国各地区之间的交流越来越频繁,地名信息的传播速度不断加快,对地名信息化提出了更高的要求。地名是指地理实体的专有名称,是大数据时代重要的空间信息,其蕴涵在各种结构化和非结构化的数据中,是多源数据的泛在属性,不仅具有定位功能,还起到沟通各类信息资源的“桥梁”作用,有利于实现多源信息整合、交换和共享。以往地名数据库建立的传统手段包括依据大比例尺地形图进行地名数据的整理、依据传统测绘手段和全国地名录进行地名数据的整合。
地名数据生产与建库是一项公益性、基础性工作。开展地名数据生产和建库,对于维护国家主权和领土完整、巩固国防建设,维护经济社会协调发展,促进社会交流交往,方便人民群众生产生活,提高政府管理水平和公共服务能力具有重要意义。
近年来,继美国地名信息化建设之后,许多国家纷纷开始提出本国家的空间数据基础设施计划NSDI(National Spatial Data Infrastructure),比较典型的有美国地名信息***(GNIS)、亚历山大数字图书馆地名数据库(ADL)、澳大利亚地名数据库(GOA)等,我国的NSDI计划比较晚,但也取得了可喜的成就,目前已经建成了1:100万,1:25万,1:5万地名数据库,构建了我国基础地名数据框架。许多省市也完成了万以上大型地名数据库的建设工作。地名数据库在政府社会管理、经济贸易、文化交流方面发挥着越来越大的作用。
但是,国家地名信息化建设的主要内容是覆盖本国区域的地名数据。对于周边国家、国际地区的地名数据无法获取。
目前国内全球地名数据库的建立尚属空白;建立国内全球地名数据库,特别是基于开源方式进行获取,可以提高数据库的现势性和准确性,极大降低人力成本,提高定位速度,推动我国地名数据应用发展。
北京东方泰坦科技股份有限公司提出了一种与传统技术相结合的全球地名数据整合与代码编制方法,其主要技术路线为数据源信息收集,搜集服务器存储的基础图层数据和地名数据,数据分类组织,数据转换,对全球地名数据进行筛选,设计地名层级数据表文件,根据层级数据表文件中的关键属性字段信息,进行必要信息的补充和修订,整合地名数据信息。
但传统地名数据搜集方式不仅耗时而且浪费极大的人力物力。而随着社会的发展城镇化的加速,新旧地名几何位置和属性信息变化迅速,传统地名库更新方式无法保证地名库的现势性,无法满足大众对于地名数据库的需求。
利用网络地名数据源能快速、实时的进行地名数据库的整合和更新,不仅克服了传统地名库建立和维护存在的周期长、耗费大的问题,而且能够保证地名数据的现势性。本发明的目的在于克服传统地名数据生产方式的缺陷,利用网络数据源达到快速建立内容完备、逻辑一致、现势性强、质量可靠的地名数据集和依据此进行更新维护地名数据集。能够满足普通用户对地名的迫切需求。
目前我国还没有建立一个覆盖全球的地名数据库,境外地名信息获取较为困难,在一定程度上制约了我国利益向境外拓展。依靠传统手段建立全球地名数据库,周期长、成本高、效率低、数据现势性低。随着地理数据服务的发展,出现了一些在格式、尺度、范围、内容、现势性等方面存在差异性的免费地名数据。在此背景下,本发明提出一种基于开源网络地名资源整合建立全球地名数据库的方法,以满足当前境外制图作业需要和在线地图显示需求。
但是由于数据提供商对世界的认知和地理数据模型理解的不同,导致了网络地名数据存在语义体系不协调、格式不统一、尺度不一致、内容丰富度不同等特点,需要通过空间数据处理实现数据的逻辑一致性、尺度一致性,继而集合各个数据的优势生产质量更好的数据。建立全球地名数据库,筛选和分析已有基于网络开源数据获取地名数据形成原始地名数据集,进行预处理后,相互进行匹配、融合、选取、审校,经入库后形成全球网络地名数据库。
因此,有必要开发一种基于开源方式的全球网络地名数据库的构建方法,利用网络数据源和地名数据源进行地名数据库建立和更新维护的过程中,形成一套面向更新的网络地名数据整合的技术方法和技术流程,为地名数据库的建立和更新提供一种新思路,为网络数据源和数据的应用提供一种参考。
发明内容
本发明要解决的技术问题是提供一种基于开源方式的全球网络地名数据库的构建方法,利用网络数据源和地名数据源进行地名数据库建立和更新维护的过程中,形成的全球地名数据库,可以实现对地名数据产品的便捷、一站式管理和维护需求。根据不同的应用需求,按需提取服务化数据产品,面向用户提供地名应用和服务。
为了解决上述技术问题,本发明采用的技术方案是:该基于开源方式的全球网络地名数据库的构建方法,具体包括以下步骤:
S1数据获取:收集至少一种数据源;
S2数据分析:对所述数据源进行数据分析;
S3数据集成:将所述数据源中的多区域原始数据进行数据合并拼接处理,形成统一的数据集合;
S4模型转换:对多种所述数据源的数据进行模型一致化处理;
S5数据预处理:对多种所述数据源的数据分别进行预处理,实现规范化;
S6数据匹配:通过数据匹配规则对所述数据源中的数据建立单源地名与对应多个地理实体的唯一性对照关联;
S7数据融合:将所述步骤S6匹配好的多源地名数据进行融合处理,形成融合后的地名名称数据并生成地名表;
S8数据选取:针对融合后的同一地名名称数据的实体多条地名属性的情况,根据设定的地名选取原则从所述步骤S8生成的地名表中选取地名名称作为实体名称,以解决地名名称继承和统一问题。
采用上述技术方案,形成的全球地名数据库,可以实现对地名数据产品的便捷、一站式管理和维护需求。根据不同的应用需求,按需提取服务化数据产品,面向用户提供地名应用和服务。其中抽取地名原始资料中未翻译的外文地名提供给开源自动翻译平台;如果需翻译的外文地名已经存在,则继承已有地名成果,如果不存在,则进行翻译。
本发明的进一步改进在于,该基于开源方式的全球网络地名数据库的构建方法还包括步骤S9数据审校:对地名数据进行质量检查,分为过程审校和成果验收。审校验收是对地名数据的质量检查,如是否存在重复地名,不同地物之间名称相关性是否正确等,主要分为过程审校和成果验收;所述过程审核包括数据预处理环节的审校、数据融合环节的审校和数据选取环节的审校;所述成果验收为提供便捷的人机交互方式审校人员对地名修复成果数据进行查询验收,包括多窗口展示、数据标记和数据修改。其中过程审校作为地名质量控制的关键一环,始终贯穿整个过程,从数据转换到实体数据匹配和修复,每一个阶段都需要进行阶段成果审校;成果验收阶段需要提供便捷的人机交互方式审校人员对地名修复成果数据进行查询验收。
作为本发明的优选技术方案,所述数据源包括GNS数据、GeoNames数据和OSM数据,通过地名库网站API下载GNS数据、OSM数据和GeoNames数据并进行整理。目前很多厂商和正式机构都提供地理数据服务,如美国国家地理情报局、ArcGIS、MapGIS、Google、OpenStreetMap等。其中影响较大的地名数据提供商为GNS、GeoNames和OSM。GNS数据来源于美国国家地理情报局(NGA)和地名委员会(BGN);GeoNames数据来源于国家(美国)测绘机构、国家统计署、国家***,还有美国陆军;而OSM数据来源于全球正式测绘机构、普通大众等。本发明中选取为GNS数据、GeoNames数据和OSM数据作为开源地名数据源;数据的获取主要是Http Request通过地名库网站API下载GNS、OSM、GeoNames数据并进行整理。
作为本发明的优选技术方案,所述步骤S2数据分析包括从存储格式、语种、分类标准、空间基准、几何精度、数据完整性和地名专名与空间位置数据对所述数据源进行分析。对网络地名数据进行分析是地名规范化处理中的一个重要步骤。网络地名数据由于来源复杂,数据创建的目的和用途各不相同,同时受数据获取手段及生产条件的影响,数据在存储格式、语种、数据基础和几何精度等方面都存在较大差异,主要通过对地名数据元数据、几何精度、属性结构等内容进行分析比较,判断其不一致情况。
作为本发明的优选技术方案,所述步骤S3中的数据集成中的所述OSM数据中的原始数据是以国家为单位的文件包形式数据,在进行集成时需要实现以国界为边线的数据拼接处理,其内容包括地名实体数据的去重、补充过渡,临边数据几何精度、属性结构内容的拼接处理。数据集成是数据整合的基础,为数据整合提供源空间数据,因此数据集成是数据整合的首要环节。数据集成是将数据源中的多区域原始数据进行数据合并拼接处理,形成统一的数据集合;对于OSM原始数据是以国家为单位的文件包形式数据,进行集成时需要实现以国界为边线的数据拼接处理,内容包括地名实体数据的去重及补充过渡,处理时需重点关注临边数据几何精度、属性结构内容等的拼接处理,并结合地理实际,实现多区域数据的无缝拼接。
作为本发明的优选技术方案,所述步骤S4中模型转换具体步骤为:
S41格式转换:对收集到的GNS数据、GeoNames数据和OSM数据先进行格式和空间基准的统一,将GNS数据、GeoNames数据和OSM数据转换为统一的矢量格式;
S42统一空间基准:包括地名数据的投影方式统一和坐标***一,从而实现多种数据源的叠加套合处理;
S43编码映射:采用已有地名成果数据的编码和类型与该基于开源方式的全球网络地名数据库的构建方法中的地名类型进行一一对应映射;
S44增加唯一要素标识:为每个地名要素按照一定的规则生成一个字符串,即添加一个唯一标识码;
S45元数据信息生成:添加唯一标识码后,实现地名成果数据的整编,生成元数据信息,所述元数据信息包括标识信息、参照系信息、范围与精度信息和提供单位/来源信息;其中所述标识信息包括标识符和名称;所述参照系信息时间基准、平面参照系、投影方式和高程基准;所述范围与精度信息包括时间、空间和空间精度;所述提供单位/来源信息:包括单位和部门。模型转换是完成收集到的地名数据的转换过程,是对收集到的地名数据的一种数据清洗方式。主要的流程是对收集到的GNS数据、GeoNames数据和OSM数据,进行格式和空间基准的统一,进行编码模型转换,生成元数据信息,添加唯一标识码,实现成果数据在该发明中的整编。
作为本发明的优选技术方案,所述步骤S5中数据预处理具体步骤为:
S51字段选择:因不同地名库含有不同的字段属性,按照字典的要求和需求,筛选字段属性;
S52字段融合:将步骤S51中筛选出的若干字段中相关性强融合成一个字段;
S53剔除冗余:根据目标矢量地名库比例尺的要求设置距离阈值,并将小于距离阈值的重复地名要素剔除,保留现时性最好的地名要素;
S54地名名称规范化:将地名名称统一为设定的格式;
S55地名分类:将多来源的地名成果数据进行分类处理。
作为本发明的优选技术方案,所述步骤S6中的匹配原则包括同名点状要素地名采取距离匹配原则、同名线状要素采取缓冲分析匹配原则和同名面状要素采取叠置分析匹配原则,所述步骤S6对预处理后的数据进行数据匹配的具体步骤为:对数据源中的数据建立单源地名的要素的属性数据进行修改,增加一个地名实体标识码,对同一地名实体的所有组成要素均赋值统一要素标识码,使得同一地名实体逻辑上成为一个整体,从而实现地名对照实体的唯一性匹配,并对匹配后的地名数据在其属性字段添加唯一地名标识。
作为本发明的优选技术方案,所述步骤S7数据融合的具体步骤为:首先通过地名名称信息、类型信息和空间位置信息,设定地名融合规则,判断多来源地名名称信息是否指示同一实体的地名,将表述同一实体的地名进行关联处理,采用相同的关联融合标识对不同来源的数据源中的同一实体的地名进行标识,从而实现对该地理实体对应的地名进行融合处理,形成融合的地名数据;其中融合规则包括:名称一致规则、位置一致规则和类型一致规则。
作为本发明的优选技术方案,所述步骤S3在数据集成后还包括数据译写,具体为:抽取地名原始资料中未翻译的外文地名提供给开源自动翻译平台,若需翻译的外文地名已经存在,则继承已有地名成果,如果不存在,则进行翻译。
与现有技术相比,本发明具有的有益效果为:该基于开源方式的全球网络地名数据库的构建方法提出了一种利用开源数据建立全球地名数据库的方法,填补了我国全球地名数据库的空白;总结了建立全球地名数据库的流程,对流程中每个细分步骤进行了描述;建立了地名数据匹配和融合规则;建立了全球地名分类和编码规则。
附图说明
图1是本发明基于开源方式的全球网络地名数据库的构建方法的流程示意图;
图2是本发明基于开源方式的全球网络地名数据库的构建方法的OSM全球数据示例图;
图3是本发明基于开源方式的全球网络地名数据库的构建方法的OSM开源数据的图层的示意图;
图4是本发明基于开源方式的全球网络地名数据库的构建方法的OSM数据预处理的示意图二;
图5是本发明基于开源方式的全球网络地名数据库的构建方法的地名数据模型转换处理流程图。
具体实施方式
下面将结合本发明的实施例图中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。
实施例:如图1所示,该基于开源方式的全球网络地名数据库的构建方法,具体包括以下步骤:
S1数据获取:收集至少一种数据源;所述数据源包括GNS数据、GeoNames数据和OSM数据,通过地名库网站API下载GNS数据、OSM数据和GeoNames数据并进行整理。目前很多厂商和正式机构都提供地理数据服务,如美国国家地理情报局、ArcGIS、MapGIS、Google、OpenStreetMap等。其中影响较大的地名数据提供商为GNS、GeoNames和OSM。GNS数据来源于美国国家地理情报局(NGA)和地名委员会(BGN);GeoNames数据来源于国家(美国)测绘机构、国家统计署、国家***,还有美国陆军;而OSM数据来源于全球正式测绘机构、普通大众等。本发明中选取为GNS数据、GeoNames数据和OSM数据作为开源地名数据源;数据的获取主要是Http Request通过地名库网站API下载GNS、OSM、GeoNames数据并进行整理;
其中OSM数据的下载是从众包OSM官网中下载OSM全球数据;其中数据示例如图2所示;OSM数据预处理,预处理的过程为:字段选择-字段融合-剔除冗余-地名名称规范化-地名分类;将OSM数据转换并提取需要的图层,如图3所示和图4所示;
S2数据分析:对所述数据源进行数据分析;
所述步骤S2数据分析包括从存储格式、语种、分类标准、空间基准、几何精度、数据完整性和地名专名与空间位置数据对所述数据源进行分析。对网络地名数据进行分析是地名规范化处理中的一个重要步骤;网络地名数据由于来源复杂,数据创建的目的和用途各不相同,同时受数据获取手段及生产条件的影响,数据在存储格式、语种、数据基础和几何精度等方面都存在较大差异,主要通过对地名数据元数据、几何精度、属性结构等内容进行分析比较,判断其不一致情况;主要包含以下几个方面:
1)格式差异
数据格式差异主要包括存储方式差异和编码格式差异两个方面;目前,全球没有统一的数据格式规范,因此数据在存储方式和编码格式上会有不同;如表1所示;
表1 数据格式差异
地名数据源 | 存储方式 | 编码格式 |
GNS | TXT文本 | UIF-8 |
GeoNames | TXT文本 | UIF-8 |
OSM | DBF、XML文件 | Unicode |
2)语种差异
每个国家或地区的文化不同,语种、语法规则不同,信息录入者一般会使用本国或地区的语言进行地名编辑和记录,从而导致不同来源地名数据语种存在差异;如表2所示:
表2 地名语种差异
地名数据源 | 存储方式 |
GNS | 英语 |
GeoNames | 多语种 |
OSM | 多语种 |
3)分类标准差异
全球地名实体分类分级没有统一的标准和规范,同类地名实体对象的属性表达也没有统一,从而导致数据分类分级情况不一致;如表3所示,其中“A”类包含地名类型主要为county、state、region等,“P”类包含地名类型为city、town、village等;
表3 分类差异
地名数据源 | 分类差异 |
GNS | 区域地名归为A、P类 |
GeoNames | 区域地名归为A、P类 |
OSM | 区域地名按行政归类,且为类型全称 |
4)精度和数据基础差异
数据生产人员不同、设备不同、数据参考***不一致,造成了数据精度和数据空间基础方面存在差异;如表4所示:
表4 数据精度与数学基础差异
地名数据源 | 精度 | 数学基础 |
GNS | (十进制)E-6 | WGS84 |
GeoNames | (十进制)E-6 | WGS84 |
OSM | (十进制)XML格式E-7 | WGS84 |
5)数据完整性差异
不以营利为目的的开源生产项目缺少数据完整性等质量监管手段,在数据建设过程中许多次要或获取困难的字段信息可能被忽略,导致数据不完整;如表5所示;
表5 数据完整性差异
地名数据源 | 字段数量(个) | 记录项<1000的字段数 |
GNS | 36 | 11 |
GeoNames | 19 | 2 |
OSM | 6 | 1 |
6)地名专名与空间位置数据不一致
数据的开源性体现在人人都是参与者,人人都可以编辑并提交数据。因此可能存在相同区域的数据被多次编辑提交,导致数据存在专名和空间位置不一致现象。例如同一地名实体对应多个(相同、相似、不同)地名;相同地名对应不同地名实体等情况;
S3数据集成:将所述数据源中的多区域原始数据进行数据合并拼接处理,形成统一的数据集合;
所述步骤S3中的数据集成中的所述OSM数据中的原始数据是以国家为单位的文件包形式数据,在进行集成时需要实现以国界为边线的数据拼接处理,其内容包括地名实体数据的去重、补充过渡,临边数据几何精度、属性结构内容的拼接处理。数据集成是数据整合的基础,为数据整合提供源空间数据,因此数据集成是数据整合的首要环节。数据集成是将数据源中的多区域原始数据进行数据合并拼接处理,形成统一的数据集合;对于OSM原始数据是以国家为单位的文件包形式数据,进行集成时需要实现以国界为边线的数据拼接处理,内容包括地名实体数据的去重及补充过渡,处理时需重点关注临边数据几何精度、属性结构内容等的拼接处理,并结合地理实际,实现多区域数据的无缝拼接;
所述步骤S3在数据集成后还包括数据译写,具体为:抽取地名原始资料中未翻译的外文地名提供给开源自动翻译平台,若需翻译的外文地名已经存在,则继承已有地名成果,如果不存在,则进行翻译;
S4模型转换:对多种所述数据源的数据进行模型一致化处理;模型转换是完成收集到的地名数据的转换过程,是对收集到的地名数据的一种数据清洗方式;主要的流程是对收集到的GNS数据、GeoNames数据和OSM数据,进行格式和空间基准的统一,进行编码模型转换,生成元数据信息,添加唯一标识码,实现成果数据在该发明中的整编;
如图5所示,所述步骤S4中模型转换具体步骤为:
S41格式转换:对收集到的GNS数据、GeoNames数据和OSM数据先进行格式和空间基准的统一,将GNS数据、GeoNames数据和OSM数据转换为统一的矢量格式(shapefile);GDAL(Geospatial Data Abstraction Library)库是一个开源的库,利用GDAL能很方便的读取、创建和操作shapefile文件;因此对不同文件格式的地名库利用相关的数据访问API和GDAL构建相应的格式转换模型,对于文本文件,利用shapefile读取并解析每条记录,提取其中的经纬度坐标信息和属性信息通过GDAL矢量库转换成shapefile文件;对于xml文件,利用xmlreader读取并解析源地名库,提取坐标和属性信息通过矢量库生成相应的shapefile文件;
S42统一空间基准:包括地名数据的投影方式统一和坐标***一,从而实现多种数据源的叠加套合处理;统一空间基准主要是实现空间参考系的同一,包括地名数据的投影方式统一和坐标***一,从而实现不同来源地名数据的匹配融合等处理。本发明采用CGCS2000坐标系(2000国家大地坐标系)作为统一空间参考系,以保证各数据数学基础是一致的,从而实现多源数据的叠加套合处理;
S43编码映射:采用已有地名成果数据的编码和类型与该基于开源方式的全球网络地名数据库的构建方法中的地名类型进行一一对应映射;编码映射是解决已有地名数据或者地理要素编码体系与全球框架数据采用的分类编码标准统一问题,是多源地名进行归并处理判别的基础;主要的流程是采用已有地名成果数据的编码与类型与本发明定义的地名类型进行一一对应映射;
S44增加唯一要素标识:为每个地名要素按照一定的规则生成一个字符串,即添加一个唯一标识码;为每个地名要素按照一定的规则生成一个字符串,即添加一个唯一的标识码;根据数据属性、根据数据多个属性或者根据数字编码,根据UUID指定唯一地名要素编码;
S45元数据信息生成:添加唯一标识码后,实现地名成果数据的整编,生成元数据信息,所述元数据信息包括标识信息、参照系信息、范围与精度信息和提供单位/来源信息;其中所述标识信息包括标识符和名称;所述参照系信息时间基准、平面参照系、投影方式和高程基准;所述范围与精度信息包括时间、空间和空间精度;所述提供单位/来源信息:包括单位和部门;
S5数据预处理:对多种所述数据源的数据分别进行预处理,实现规范化;
所述步骤S5中数据预处理具体步骤为:
S51字段选择:因不同地名库含有不同的字段属性,按照字典的要求和需求,筛选字段属性;如GeoNames地名库中含Geonameid,Name,Assiname等字段,而Geonameid字段是该条地名记录位于GeoNames地名库的唯一ID号;Name字段为本地语言地名,如果地名位于中国则Names字段记录的地名的汉语形式,如果位于泰国则记录的地名是泰语形式;Assciname是地名的英语形式;那么我们进行字段选择的时候可以保留Name,Assciname字段,而不需要Geonameid字段;
S52字段融合:将步骤S51中筛选出的若干字段中相关性强融合成一个字段;字段融合是指将相关性强的字段融合成一个字段的过程;如GeoNames地名库中含有Featureclass和Featurecode字段,其中Featureclass字段是地名要素的一级分类代码,而Featurecode是地名要素二级分类代码,以上分类代码属于美国地名要素分类标准,在应用中需要转化到我国地名要素分类标准,因此,将Featureclass和Featurecode字段进行融合成FCODE字段,便于分类转化的处理;
S53剔除冗余:根据目标矢量地名库比例尺的要求设置距离阈值,并将小于距离阈值的重复地名要素剔除,保留现时性最好的地名要素;各地名库所记录地名信息的侧重点和详细程度不同,GNS和GeoNames地名库侧重于搜集范围广的行政区划、居民地及其附属设施、水文、土地利用、植被等地名要素,而OSM侧重于搜集城市内部的重要居民地及附属设施、社区、村庄等;
S54地名名称规范化:将地名名称统一为设定的格式;地名名称是由专名、通名及连接字符组成的,地名规范化处理即是将地名名称统一为设定的格式;例如,分隔符统一、字符编码统一、通名统一等;
S55地名分类:将多来源的地名成果数据进行分类处理;按照设定的分类标准划分不同的类别后,便于地名的归一化处理和不同数据源之间的归并处理;
S6数据匹配:通过数据匹配规则对所述数据源中的数据建立单源地名与对应多个地理实体的唯一性对照关联;根据数据特点设定数据匹配规则,采用地名预处理软件中的单源地名规范化处理模块对地名数据进行处理;
所述步骤S6中的匹配原则包括同名点状要素地名采取距离匹配原则、同名线状要素采取缓冲分析匹配原则和同名面状要素采取叠置分析匹配原则,所述步骤S6对预处理后的数据进行数据匹配的具体步骤为:对数据源中的数据建立单源地名的要素的属性数据进行修改,增加一个地名实体标识码,对同一地名实体的所有组成要素均赋值统一要素标识码,使得同一地名实体逻辑上成为一个整体,从而实现地名对照实体的唯一性匹配,并对匹配后的地名数据在其属性字段添加唯一地名标识;
S7数据融合:将所述步骤S6匹配好的多源地名数据进行融合处理,形成融合后的地名名称数据并生成地名表;
所述步骤S7数据融合的具体步骤为:首先通过地名名称信息、类型信息和空间位置信息,设定地名融合规则,判断多来源地名名称信息是否指示同一实体的地名,将表述同一实体的地名进行关联处理,采用相同的关联融合标识对不同来源的数据源中的同一实体的地名进行标识,从而实现对该地理实体对应的地名进行融合处理,形成融合的地名数据;其中融合规则包括:名称一致规则、位置一致规则和类型一致规则;
S8数据选取:针对融合后的同一地名名称数据的实体多条地名属性的情况,根据设定的地名选取原则从所述步骤S8生成的地名表中选取地名名称作为实体名称,以解决地名名称继承和统一问题;
融合后的数据不仅具有新的属性结构,同时继承了数据集中各自的属性内容,因此需设定地名选取原则,对地名逆行选取,以解决地名名称继承和统一问题;基于多源地名数据融合生成的地名表,从中选择一个恰当的名称,解决一地多名、一名多地、一名多写的问题;地名选取的基本原则如下:
1)优先选取现势性较新的名称,此处的现势性指的是地名现势性,而非地名资料的现势性;
2)选取国内发行的权威资料作为地名选取的指导性资料,以准确表明我国的政治立场;
3)境外地名的中文选取遵循“约定俗成”规则,即对有些从历史上沿用下来的已被人们所熟悉并广为使用的译名,只要没有原则上或者政治上的错误,即使翻译的不够准确,或者与现行的翻译标准不相符合,都应予以沿用;
4)地名中文与外文需要一一对应;
5)对于高等级政区名称、重要城市名称、冲突地区名称或者一些具有特殊意义的地名等,以国家***对外公布的名称为准;
S9数据审校:对地名数据进行质量检查,分为过程审校和成果验收;所述过程审核包括数据预处理环节的审校、数据融合环节的审校和数据选取环节的审校;所述成果验收为提供便捷的人机交互方式审校人员对地名修复成果数据进行查询验收,包括多窗口展示、数据标记和数据修改。审校验收是对地名数据的质量检查,如是否存在地名与地理实体挂接错误,是否存在重复地名,不同地物之间名称相关性是否正确等,其中过程审校作为地名质量控制的关键一环,始终贯穿整个过程,从数据转换到实体数据匹配和修复,每一个阶段都需要进行阶段成果审校;成果验收阶段需要提供便捷的人机交互方式审校人员对地名修复成果数据进行查询验收,包括多窗口展示,数据标记,数据修改等。
以上所述仅为本发明的较佳实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于开源方式的全球网络地名数据库的构建方法,其特征在于,具体包括以下步骤:
S1数据获取:收集至少一种数据源;
S2数据分析:对所述数据源进行数据分析;
S3数据集成:将所述数据源中的多区域原始数据进行数据合并拼接处理,形成统一的数据集合;
S4模型转换:对多种所述数据源的数据进行模型一致化处理;
S5数据预处理:对多种所述数据源的数据分别进行预处理,实现规范化;
S6数据匹配:通过数据匹配规则对所述数据源中的数据建立单源地名与对应多个地理实体的唯一性对照关联;
S7数据融合:将所述步骤S6匹配好的多源地名数据进行融合处理,形成融合后的地名名称数据并生成地名表;
S8数据选取:针对融合后的同一地名名称数据的实体多条地名属性的情况,根据设定的地名选取原则从所述步骤S8生成的地名表中选取地名名称作为实体名称,以解决地名名称继承和统一问题。
2.根据权利要求1所述的基于开源方式的全球网络地名数据库的构建方法,其特征在于,该基于开源方式的全球网络地名数据库的构建方法还包括步骤S9数据审校:对地名数据进行质量检查,分为过程审校和成果验收;所述过程审核包括数据预处理环节的审校、数据融合环节的审校和数据选取环节的审校;所述成果验收为提供便捷的人机交互方式审校人员对地名修复成果数据进行查询验收,包括多窗口展示、数据标记和数据修改。
3.根据权利要求2所述的基于开源方式的全球网络地名数据库的构建方法,其特征在于,所述数据源包括GNS数据、GeoNames数据和OSM数据,通过地名库网站API下载GNS数据、OSM数据和GeoNames数据并进行整理。
4.根据权利要求2所述的基于开源方式的全球网络地名数据库的构建方法,其特征在于,所述步骤S2数据分析包括从存储格式、语种、分类标准、空间基准、几何精度、数据完整性和地名专名与空间位置数据对所述数据源进行分析。
5.根据权利要求3所述的基于开源方式的全球网络地名数据库的构建方法,其特征在于,所述步骤S3中的数据集成中的所述OSM数据中的原始数据是以国家为单位的文件包形式数据,在进行集成时需要实现以国界为边线的数据拼接处理,其内容包括地名实体数据的去重、补充过渡,临边数据几何精度、属性结构内容的拼接处理。
6.根据权利要求5所述的基于开源方式的全球网络地名数据库的构建方法,其特征在于,所述步骤S4中模型转换具体步骤为:
S41格式转换:对收集到的GNS数据、GeoNames数据和OSM数据先进行格式和空间基准的统一,将GNS数据、GeoNames数据和OSM数据转换为统一的矢量格式;
S42统一空间基准:包括地名数据的投影方式统一和坐标***一,从而实现多种数据源的叠加套合处理;
S43编码映射:采用已有地名成果数据的编码和类型与该基于开源方式的全球网络地名数据库的构建方法中的地名类型进行一一对应映射;
S44增加唯一要素标识:为每个地名要素按照一定的规则生成一个字符串,即添加一个唯一标识码;
S45元数据信息生成:添加唯一标识码后,实现地名成果数据的整编,生成元数据信息,所述元数据信息包括标识信息、参照系信息、范围与精度信息和提供单位/来源信息;其中所述标识信息包括标识符和名称;所述参照系信息时间基准、平面参照系、投影方式和高程基准;所述范围与精度信息包括时间、空间和空间精度;所述提供单位/来源信息:包括单位和部门。
7.根据权利要求6所述的基于开源方式的全球网络地名数据库的构建方法,其特征在于,所述步骤S5中数据预处理具体步骤为:
S51字段选择:因不同地名库含有不同的字段属性,按照字典的要求和需求,筛选字段属性;
S52字段融合:将步骤S51中筛选出的若干字段中相关性强融合成一个字段;
S53剔除冗余:根据目标矢量地名库比例尺的要求设置距离阈值,并将小于距离阈值的重复地名要素剔除,保留现时性最好的地名要素;
S54地名名称规范化:将地名名称统一为设定的格式;
S55地名分类:将多来源的地名成果数据进行分类处理。
8.根据权利要求7所述的基于开源方式的全球网络地名数据库的构建方法,其特征在于,所述步骤S6中的匹配原则包括同名点状要素地名采取距离匹配原则、同名线状要素采取缓冲分析匹配原则和同名面状要素采取叠置分析匹配原则,所述步骤S6对预处理后的数据进行数据匹配的具体步骤为:对数据源中的数据建立单源地名的要素的属性数据进行修改,增加一个地名实体标识码,对同一地名实体的所有组成要素均赋值统一要素标识码,使得同一地名实体逻辑上成为一个整体,从而实现地名对照实体的唯一性匹配,并对匹配后的地名数据在其属性字段添加唯一地名标识。
9.根据权利要求8所述的基于开源方式的全球网络地名数据库的构建方法,其特征在于,所述步骤S7数据融合的具体步骤为:首先通过地名名称信息、类型信息和空间位置信息,设定地名融合规则,判断多来源地名名称信息是否指示同一实体的地名,将表述同一实体的地名进行关联处理,采用相同的关联融合标识对不同来源的数据源中的同一实体的地名进行标识,从而实现对该地理实体对应的地名进行融合处理,形成融合的地名数据;其中融合规则包括:名称一致规则、位置一致规则和类型一致规则。
10.根据权利要求8所述的基于开源方式的全球网络地名数据库的构建方法,其特征在于,所述步骤S3在数据集成后还包括数据译写,具体为:抽取地名原始资料中未翻译的外文地名提供给开源自动翻译平台,若需翻译的外文地名已经存在,则继承已有地名成果,如果不存在,则进行翻译。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110395237.4A CN112988715B (zh) | 2021-04-13 | 2021-04-13 | 一种基于开源方式的全球网络地名数据库的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110395237.4A CN112988715B (zh) | 2021-04-13 | 2021-04-13 | 一种基于开源方式的全球网络地名数据库的构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112988715A true CN112988715A (zh) | 2021-06-18 |
CN112988715B CN112988715B (zh) | 2021-08-13 |
Family
ID=76338260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110395237.4A Active CN112988715B (zh) | 2021-04-13 | 2021-04-13 | 一种基于开源方式的全球网络地名数据库的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112988715B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113434623A (zh) * | 2021-06-30 | 2021-09-24 | 广东省城乡规划设计研究院有限责任公司 | 一种基于多源异构空间规划数据的融合方法 |
CN116127047A (zh) * | 2023-04-04 | 2023-05-16 | 北京大学深圳研究生院 | 企业信息库的建立方法与装置 |
CN116719898A (zh) * | 2023-08-10 | 2023-09-08 | 山东省国土测绘院 | 基于多源异构数据的地理实体生成方法及*** |
CN117592462A (zh) * | 2024-01-18 | 2024-02-23 | 航天宏图信息技术股份有限公司 | 基于地物群的开源地名数据的相关性处理方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107526786A (zh) * | 2017-08-01 | 2017-12-29 | 江苏速度信息科技股份有限公司 | 基于多源数据的地名地址数据整合的方法和*** |
US20190384762A1 (en) * | 2017-02-10 | 2019-12-19 | Count Technologies Ltd. | Computer-implemented method of querying a dataset |
CN112395998A (zh) * | 2020-11-19 | 2021-02-23 | 南京大学 | 一种全球开放数据库中机场空间位置的验证方法 |
-
2021
- 2021-04-13 CN CN202110395237.4A patent/CN112988715B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190384762A1 (en) * | 2017-02-10 | 2019-12-19 | Count Technologies Ltd. | Computer-implemented method of querying a dataset |
CN107526786A (zh) * | 2017-08-01 | 2017-12-29 | 江苏速度信息科技股份有限公司 | 基于多源数据的地名地址数据整合的方法和*** |
CN112395998A (zh) * | 2020-11-19 | 2021-02-23 | 南京大学 | 一种全球开放数据库中机场空间位置的验证方法 |
Non-Patent Citations (1)
Title |
---|
王银花: "多源地名地址和兴趣点数据整合方法研究", 《地理空间信息》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113434623A (zh) * | 2021-06-30 | 2021-09-24 | 广东省城乡规划设计研究院有限责任公司 | 一种基于多源异构空间规划数据的融合方法 |
CN113434623B (zh) * | 2021-06-30 | 2022-02-15 | 广东省城乡规划设计研究院有限责任公司 | 一种基于多源异构空间规划数据的融合方法 |
CN116127047A (zh) * | 2023-04-04 | 2023-05-16 | 北京大学深圳研究生院 | 企业信息库的建立方法与装置 |
CN116127047B (zh) * | 2023-04-04 | 2023-08-01 | 北京大学深圳研究生院 | 企业信息库的建立方法与装置 |
CN116719898A (zh) * | 2023-08-10 | 2023-09-08 | 山东省国土测绘院 | 基于多源异构数据的地理实体生成方法及*** |
CN116719898B (zh) * | 2023-08-10 | 2024-05-31 | 山东省国土测绘院 | 基于多源异构数据的地理实体生成方法及*** |
CN117592462A (zh) * | 2024-01-18 | 2024-02-23 | 航天宏图信息技术股份有限公司 | 基于地物群的开源地名数据的相关性处理方法及装置 |
CN117592462B (zh) * | 2024-01-18 | 2024-04-16 | 航天宏图信息技术股份有限公司 | 基于地物群的开源地名数据的相关性处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112988715B (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112988715B (zh) | 一种基于开源方式的全球网络地名数据库的构建方法 | |
JP5856618B2 (ja) | 地理空間データベース統合方法、およびデバイス | |
CN113434623B (zh) | 一种基于多源异构空间规划数据的融合方法 | |
CN101350012B (zh) | 一种地址匹配的方法和*** | |
CN112347222B (zh) | 一种基于知识库推理的将非标准地址转换为标准地址的方法及*** | |
Davis et al. | Assessing the certainty of locations produced by an address geocoding system | |
CN107526786A (zh) | 基于多源数据的地名地址数据整合的方法和*** | |
CN103514235B (zh) | 一种增量码库的建立方法和装置 | |
CN114692236B (zh) | 一种面向大数据的国土空间规划底图底数处理方法 | |
CN116680648B (zh) | 一种数字孪生城市的业务融合数据生成方法及*** | |
CN113656493A (zh) | 一种构建数字孪生城市多库融合的方法及*** | |
Moradi et al. | Exploring five indicators for the quality of OpenStreetMap road networks: A case study of Québec, Canada | |
Teo et al. | A novel systematic approach of constructing protests repertoires from social media: comparing the roles of organizational and non-organizational actors in social movement | |
CN114595302A (zh) | 空间要素的多层级空间关系构建方法、装置、介质及设备 | |
Sarretta et al. | Towards the integration of authoritative and OpenStreetMap geospatial datasets in support of the European strategy for data | |
CN109917456B (zh) | 地震信息快速提取方法和*** | |
Ding et al. | Integrating 3D city data through knowledge graphs | |
Elias et al. | The quality of OpenStreetMap in a large metropolis in northeast Brazil: Preliminary assessment of geospatial data for road axes | |
Silva et al. | Authoritative cartography in Brazil and collaborative mapping platforms: challenges and proposals for data integration | |
de Armas García et al. | Deployment of a National Geocoding Service: Cuban Experience. | |
KR100588740B1 (ko) | 지번도를 이용한 지리정보체계 데이터베이스 구축 방법 | |
Maieron et al. | Open Data Integration in 3D CityGML-based Models Generation. | |
Keinan et al. | Maintenance and Update National Topographic Data Base in High Freqency Using Modern Procedures and Techniques | |
CN115587109A (zh) | 一种地理数据信息的搜索方法及装置 | |
Moussi et al. | Methodology of Updating Touristic Map Using Open Source and Open Spatial Data (OSOD). A Case Study of Ben Arous City, Tunisia. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: 210042 8 Blocks 699-22 Xuanwu Avenue, Xuanwu District, Nanjing City, Jiangsu Province Patentee after: Speed Technology Co.,Ltd. Address before: 210042 8 Blocks 699-22 Xuanwu Avenue, Xuanwu District, Nanjing City, Jiangsu Province Patentee before: SPEED TIME AND SPACE INFORMATION TECHNOLOGY Co.,Ltd. |