CN113961662A - 一种基于多源数据的地名地址数据融合方法 - Google Patents

一种基于多源数据的地名地址数据融合方法 Download PDF

Info

Publication number
CN113961662A
CN113961662A CN202111288159.4A CN202111288159A CN113961662A CN 113961662 A CN113961662 A CN 113961662A CN 202111288159 A CN202111288159 A CN 202111288159A CN 113961662 A CN113961662 A CN 113961662A
Authority
CN
China
Prior art keywords
data
place name
standard
entities
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111288159.4A
Other languages
English (en)
Inventor
马正
黄勇
闾海荣
肖让
路喜
杨智博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Tuzhi Information Technology Co ltd
Original Assignee
Guizhou Tuzhi Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Tuzhi Information Technology Co ltd filed Critical Guizhou Tuzhi Information Technology Co ltd
Priority to CN202111288159.4A priority Critical patent/CN113961662A/zh
Publication of CN113961662A publication Critical patent/CN113961662A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/909Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Software Systems (AREA)
  • Remote Sensing (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于多源数据的地名地址数据融合方法,包括收集数据、编码、构建标准库、数据融合;通过建立标准的数据融合流程,能够融合多部门数据,建立统一标准的地名地址,解决社会治理要素分散在不同的部门所导致的格式多样性的问题,实现海量地址数据的高效管理,大大减少人工参与的过程,节省了数据融合时间。

Description

一种基于多源数据的地名地址数据融合方法
技术领域
本发明涉及地理信息技术领域,尤其是一种基于多源数据的地名地址数据融合方法。
背景技术
随着各级政府业务的开展,各部门累积了海量的业务数据。在推动政府数据开放共享的过程中,各部门由于业务侧重不同,业务数据结构不同,标准不一,产生的业务数据只能在本部门内进行分析和利用,产生了“信息孤岛”。随着数字城市的发展,建设位置准确、覆盖面广的地名地址标准数据库,是开展其他地名信息服务的基础和前提,如地名语音查询、地名网站建设、电子地图开发、智能交通信息***、应急联动***等;能实现政府部门间、不同行业间信息资源共享联动,发挥社会治理数据潜在的价值,提升社会治理水平。
地名地址现状分析:(1)数据来源广泛:地名地址数据涉及到多个职能部门,如国土、民政、房产、行政、燃气、工商、统计、质检、地税等;(2)标准不统一,格式多样;各职能部门工作侧重不同,地名地址数据标准规范格式也多样,具体表现在文件的命名、字段的设置及地址描述的不规范性和多样性。如:国土部门地名地址数据来源于地形图DWG格式,工商部门数据来源于登记数据EXCEL格式;(3) 空间数据缺乏:收集的各职能部门的地名地址数据中,只有民政局、行政部门和***的门牌、地名数据属于GIS空间数据,其它部门的地名地址数据都是非空间数据,只有单纯的地址描述信息,需要进行空间化;(4)兼容性差,无法实现数据共享:由于没有统一的地名地址库建库技术标准和规范,不同数据库之间的兼容性很差,无法实现数据资源的共享。因此,开发能够融合民政、房产、行政、国土等多部门的地名地址数据的技术迫切需要。
目前,也有少量关于地名地址数据融合技术的研究。
申请号为CN201911307558.3的专利公开了一种基于地理空间画像挖掘的多源城市时空标准地址融合方法,利用ETL技术对地址相关数据进行抽取、清洗、转换等处理,过滤不完整、错误、重复的数据,融合为粒度一致、格式统一的城市时空标准地址数据。
申请号为CN201710645011.9的专利公开了一种基于多源数据的地名地址数据整合的方法,通过将其他格式的数据转换为shape格式数据,提取地理要素特征,编码转换数据、提取数据特征、整合要素之间的拓扑关系,构造面要素和格网,并给各个要素匹配和赋予属性信息,统一坐标实现数据的整合。该专利所述数据融合步骤包括:格式转换、数据分类、编码、提取点线面地物特征骨架、整合拓扑关系、赋予属性及坐标变换,整体上是把其他格式的数据转换成标准格式的数据,这种标准格式数据具有类别、属性、拓扑关系和编码。这是一种整合数据的步骤,其作用是把数据统一为标准格式,并不是将多源、异构数据进行关联的数据融合。后者是保留异构数据各自的结构和属性值,共同关联到唯一空间位置或标准地址,而并不是去除或改变异构数据原有的属性值。因此,该专利技术不能实现多源、异构数据进行关联的数据融合。
上述专利技术公开的地名地址数据同和方法大多需要去除原数据的一些属性和信息,统一为标准格式数据。这种方法降低了数据的适用性,如来源于民政、行政、住建的多源异构数据统一为标准格式、某些相近语义的字段将会被整合为标准字段,导致反映特定应用场景性质的语义丢失;由于同一地名在不同部门叫法不同等,这样就不便于该场景下的数据使用,甚至出现错误。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提供了一种基于多源数据的地名地址数据融合方法,能够融合民政、行政、房产、国土等多部门的地名地址数据,建立统一标准的地名地址数据;具体是通过以下技术方案实现的:
一种基于多源数据的地名地址数据融合方法,包括以下步骤:
(1)收集数据:基于核采***网格员核查与采集地名地址,地名信息包括但不限于兴趣点,地址信息包括行政区划、街路巷;
(2)编码:确定编码规范,基于行政区划编码精细管理到户室;
(3)构建标准库:将完成编码的标准地名地址数据入库,形成标准库。
(4)数据融合:构建多源数据的关联关系,主要包括人口、房屋、事件、不动产登记及其他民政数据与地图数据的关联融合。
优选地,所述步骤(1)中的数据收集主要包括:基础地理类数据、业务应用类数据;其中基础地理类数据主要包括:电子地图、卫星影像、行政区划等数据。业务应用类数据主要包括:现状建筑物、实有房屋、行政标准地址、POI、城市管理网格等。
优选地,所述步骤(2)中的编码包括:依据地名分类与类别代码编制规则、警用地理信息系列规定,制定地名编码规范,定义标准地址的结构组成如下:省+市+县区+乡镇社区服务中心+居村委会+自然村组+街路巷+小区组团编号+小区名称+组团名称+建筑物编号+建筑物名+单元+层+户室。
优选地,所述步骤(3)中的构建标准库的步骤包括:
(3.1)基础网格划分、编码:划分基础网格,并为每一个基础网格赋予唯一的编码;
(3.2)建筑物精准落图:进行楼栋构面,并参考清洗完后的地址数据对楼栋面名称赋值,并基于空间坐标实现建筑物数据的精准落图;
(3.3)编码数据入库:将以上已编码的地名数据入库,生成编码库。
优选地,所述步骤(4)中的数据融合包括:人口、房屋、事件、不动产登记及其他民政数据与地图数据的关联融合,采用构建知识图谱进行数据关联融合。
优选地,所述采用构建知识图谱进行数据关联融合,具体步骤包括:
(4.1)构建实体:将网格编码及标准地址的各级结构名称作为实体,使用python库py2neo中的Node函数构建实体;
(4.2)构建关系:使用python库py2neo中的create_relationship 函数构建实体间关系;
(4.3)添加属性:将原始数据中其他字段作为实体属性,进行关联;
(4.4)构建知识图谱:将前述的实体、实体间关系、实体属性分别用函数create_graphNodes、create_graphRels、graph.create 构建知识图谱;
(4.5)可视化:采用Neo4j图数据库可视化知识图谱。
本发明的有益效果在于:
1.本发明提供了一种建立标准的数据融合流程,解决目前社会治理要素分散在不同的部门,格式多样性的问题。
2.本发明采用知识图谱技术进行数据融合,减少了人工匹配融合的工作量;并且利用Neo4j图数据库展示,可视化效果强。同时不需要专门编写人工匹配模块代码,同时更清晰直观地展示实体间的关系、实体属性等,可以处理复杂多样的关联分析,同时支持知识推理、快速查询和实时计算。
3.数据存储模式由表格存储重构为图存储,基于形成的知识图谱,提高了开发问答***、搜索、推荐、预测等下游应用的便利性。
附图说明
图1为地名地址数据来源图。
图2为本发明的基于多源数据的地名地址数据融合方法的流程图。
图3是本发明的基于多源数据的地名地址数据融合方法中的关联融合流程图。
具体实施方式
为了加深对本发明的理解,下面将结合附图和实施例对本发明做进一步详细描述,该实施例仅用于解释本发明,并不对本发明的保护范围构成限定。
实施例1
一种基于多源数据的地名地址数据融合的方法,包括以下步骤:
(1)收集数据:收集存量地址、行政部门数据、住建数据共8322 条数据,包含约60+字段属性;
(2)编码:依据相关标准文件编制标准地名地址组成、编码及地名命名规范,并依据规范编码数据;
(3)构建标准库:将完成编码的标准地名地址数据入库,形成标准库。
(4)数据融合:构建知识图谱进行数据关联融合。
进一步地,所述步骤(1)中的数据收集主要包括:基础地理类、业务应用类;其中基础地理类数据包括:电子地图、卫星影像、行政区划等数据,业务应用类数据包括:现状建筑物、实有房屋、行政标准地址、POI、城市管理网格等。
进一步地,所述步骤(2)中的编码包括:依据标准地址相关规范,制定地名编码规范,定义标准地址的结构组成如下:省+市+县区+乡镇社区服务中心+居村委会+自然村组+街路巷+小区组团编号+小区名称+组团名称+建筑物编号+建筑物名+单元+层+户室。
进一步地所述步骤(2),采用的标准地址相关规范包括: GB/T2260-2007《中华人民共和国行政区划代码》;GB/T10114-2003 《县级以下行政区划代码编制规则》;GB/T18521-2001《地名分类与类别代码编制规则》;CH/Z 9002-2007《数字城市地理空间信息公共平台地名地址分类、描述及编码规则》;GA/T 1219-2015《地(住) 址基础信息数据项》;GA/T XXX-201X《警用地理信息标准地址模型 (送审稿)》。
进一步地,所述步骤(3)中的构建标准库的步骤包括:
(3.1)基础网格划分、编码:将城乡社区、行政村及其他特定空间区域划分为可以无缝聚合的网格单元,作为基层社会治理的管理单元,并为每一个基础网格赋予唯一的编码;
(3.2)建筑物精准落图:进行楼栋构面并参考清洗完后的地址数据对楼栋面名称赋值,并基于空间坐标实现建筑物数据的精准落图;
(3.3)编码数据入库:将步骤(2)中已编码的地名数据入库,生成编码库;
进一步地,所述步骤(4)中的数据融合包括:人口、房屋、事件、不动产登记及其他民政数据与地图数据的关联融合;采用构建知识图谱进行数据关联融合。
进一步,所述采用构建知识图谱进行数据关联融合,具体步骤包括:
(4.1)构建实体:将网格编码及标准地址的各级结构名称作为实体,使用python库py2neo中的Node函数构建实体;
(4.2)构建关系:使用python库py2neo中的create_relationship 函数构建实体间关系;
(4.3)添加属性:将人口、房屋、事件、不动产登记及其他民政数据作为实体属性,进行关联;
(4.4)构建知识图谱:将前述的实体、关系、属性分别用函数 create_graphNodes、create_graphRels、graph.create构建知识图谱;
(4.5)可视化:基于Neo4j可视化知识图谱,完成数据的关联融合。
在此有必要指出的是,以上实施例仅限于对本发明的技术方案做进一步的阐述和理解,不能理解为对本发明的技术方案做进一步的限定,本领域技术人员作出的非突出实质性特征和显著进步的发明创造,仍然属于本发明的保护范畴。

Claims (9)

1.一种基于多源数据的地名地址数据融合方法,其特征在于,包括以下步骤:
(1)收集数据:收集多来源的地名地址;
(2)编码:确定编码规范,基于行政区划编码精细管理到户室;
(3)构建标准库:将完成编码的标准地名地址数据入库,形成标准库;
(4)数据融合:构建多源数据的关联关系。
2.根据权利要求1所述的基于多源数据的地名地址数据融合方法,其特征在于,所述步骤(1)中的数据收集包括:基础地理类数据、业务应用类数据。
3.根据权利要求1所述的基于多源数据的地名地址数据融合方法,其特征在于,所述步骤(2)中的编码包括:依据标准地址相关规范,制定地名编码规范,定义标准地址的结构。
4.根据权利要求1所述的基于多源数据的地名地址数据融合方法,其特征在于,所述步骤(3)中的构建标准库的步骤包括:
(3.1)基础网格划分、编码:划分基础网格,并为每一个基础网格赋予唯一的编码;
(3.2)建筑物精准落图:进行楼栋构面,并参考清洗完后的地址数据对楼栋面名称赋值,并基于空间坐标实现建筑物数据的精准落图;
(3.3)编码数据入库:将以上已编码的地名数据入库,生成编码库。
5.根据权利要求1所述的基于多源数据的地名地址数据融合的方法,其特征在于,所述步骤(4)中的数据融合包括:人口、房屋、事件、不动产登记及其他民政数据与地图数据的关联融合;采用构建知识图谱进行数据关联融合。
6.根据权利要求5所述的基于多源数据的地名地址数据融合的方法,其特征在于,所述采用构建知识图谱进行数据关联融合,具体步骤包括:
(4.1)构建实体:将网格编码及标准地址的各级结构名称作为实体,构建实体;
(4.2)构建关系:建实体间关系;
(4.3)添加属性:将原始数据中其他字段作为实体属性,进行关联;
(4.4)构建知识图谱:采用前述的实体、实体间关系、实体属性构建知识图谱;
(4.5)可视化:采用Neo4j图数据库可视化知识图谱。
7.根据权利要求6所述的基于多源数据的地名地址数据融合方法,其特征在于,所述步骤(4.1),使用python库py2neo中的Node函数构建实体。
8.根据权利要求6所述的基于多源数据的地名地址数据融合方法,其特征在于,所述步骤(4.2),使用python库py2neo中的create_relationship函数构建实体关系。
9.根据权利要求6所述的基于多源数据的地名地址数据融合方法,其特征在于,所述步骤(4.4),实体、实体间关系、实体属性分别用函数create_graphNodes、create_graphRels、graph.create构建知识图谱。
CN202111288159.4A 2021-11-02 2021-11-02 一种基于多源数据的地名地址数据融合方法 Pending CN113961662A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111288159.4A CN113961662A (zh) 2021-11-02 2021-11-02 一种基于多源数据的地名地址数据融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111288159.4A CN113961662A (zh) 2021-11-02 2021-11-02 一种基于多源数据的地名地址数据融合方法

Publications (1)

Publication Number Publication Date
CN113961662A true CN113961662A (zh) 2022-01-21

Family

ID=79468910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111288159.4A Pending CN113961662A (zh) 2021-11-02 2021-11-02 一种基于多源数据的地名地址数据融合方法

Country Status (1)

Country Link
CN (1) CN113961662A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116205584A (zh) * 2022-11-21 2023-06-02 中国民航科学技术研究院 一种基于统一时空编码的民航事件关联方法
CN116680648A (zh) * 2023-03-24 2023-09-01 中乾思创(北京)科技有限公司 一种数字孪生城市的业务融合数据生成方法及***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116205584A (zh) * 2022-11-21 2023-06-02 中国民航科学技术研究院 一种基于统一时空编码的民航事件关联方法
CN116205584B (zh) * 2022-11-21 2023-08-22 中国民航科学技术研究院 一种基于统一时空编码的民航事件关联方法
CN116680648A (zh) * 2023-03-24 2023-09-01 中乾思创(北京)科技有限公司 一种数字孪生城市的业务融合数据生成方法及***
CN116680648B (zh) * 2023-03-24 2024-01-16 中乾思创(北京)科技有限公司 一种数字孪生城市的业务融合数据生成方法及***

Similar Documents

Publication Publication Date Title
CN107092680B (zh) 一种基于地理网格的政务信息资源整合方法
WO2022012285A1 (zh) 一种多源融合的多平台能源信息管理***
CN102595323B (zh) 基于手机定位数据的居民出行特征参数的获取方法
CN107526786A (zh) 基于多源数据的地名地址数据整合的方法和***
CN102750363B (zh) 一种城市地理信息数据仓库的构建方法
Cheng et al. Urban land administration and planning in China: Opportunities and constraints of spatial data models
CN113961662A (zh) 一种基于多源数据的地名地址数据融合方法
Zheng et al. Exploring both home-based and work-based jobs-housing balance by distance decay effect
Lv et al. Polycentric urban development and its determinants in China: A geospatial big data perspective
CN112988715B (zh) 一种基于开源方式的全球网络地名数据库的构建方法
CN111125285B (zh) 一种基于物种空间分布关系的动物地理区划方法
CN110929984A (zh) 一种城市标准网格信息化管理方法及***
CN112508332B (zh) 一种顾及多维特征的渐进式乡村聚落整治分区方法
CN111104449A (zh) 基于地理空间画像挖掘的多源城市时空标准地址融合方法
Yang et al. Urban digital twin applications as a virtual platform of smart city
CN111813819B (zh) 一种基于时空大数据的地名地址在线匹配方法
CN116522272A (zh) 一种基于城市信息单元的多源时空数据透明融合方法
CN114692236A (zh) 一种面向大数据的国土空间规划底图底数处理方法
CN114661744B (zh) 一种基于深度学习的地形数据库更新方法及***
CN113626408B (zh) 一种城市信息数据库构建方法及一张图显示方法
CN117435823A (zh) 基于网格编码的时空数据服务方法及工业互联网平台
CN111382165A (zh) 一种移动国土管理***
CN114282847A (zh) 一种房屋全生命周期地名地址体系及其建设方法
CN114896255A (zh) 一种基于时空网格的块数据生成与展示方法及装置
CN110515961B (zh) 一种基于时空大数据的基础地理信息更新需求评价方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination