CN107526786A - 基于多源数据的地名地址数据整合的方法和*** - Google Patents
基于多源数据的地名地址数据整合的方法和*** Download PDFInfo
- Publication number
- CN107526786A CN107526786A CN201710645011.9A CN201710645011A CN107526786A CN 107526786 A CN107526786 A CN 107526786A CN 201710645011 A CN201710645011 A CN 201710645011A CN 107526786 A CN107526786 A CN 107526786A
- Authority
- CN
- China
- Prior art keywords
- data
- place name
- address date
- source
- name address
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 43
- 238000012795 verification Methods 0.000 claims abstract description 34
- 238000013499 data model Methods 0.000 claims abstract description 31
- 230000004927 fusion Effects 0.000 claims abstract description 30
- 230000010354 integration Effects 0.000 claims abstract description 15
- 238000013461 design Methods 0.000 claims abstract description 9
- 230000008520 organization Effects 0.000 claims abstract description 4
- 238000007726 management method Methods 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 7
- 241001269238 Data Species 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000012550 audit Methods 0.000 claims description 2
- 238000000547 structure data Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 4
- 238000004140 cleaning Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000567 combustion gas Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000002844 melting Methods 0.000 description 1
- 230000008018 melting Effects 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000009418 renovation Methods 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Remote Sensing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于多源数据的地名地址数据整合***,包括以下步骤:(1)收集数据,选取数据模型以及组织结构设计:将不同来源的地名、地址以及兴趣点数据结构、属性字段、空间参考整合为一套数据,选取数据模型,设计组织结构;(2)数据预处理:将多源的地名地址数据格式进行标准化处理,统一为可以处理的格式;(3)重复数据查询、剔除:对多源的地名地址数据进行重复点查询;(4)数据融合:对多源数据进行匹配和整合;(5)数据审核:利用GIS软件对已经融合的数据进行批量审核,采用自动审核和人工审核结合的方式;若审核合格存储至数据库,构建数据成果,若审核不合格,则返回数据融合步骤重新进行数据融合,直至审核合格。
Description
技术领域
本发明涉及地理信息服务技术领域,尤其涉及一种基于多源数据的地名地址数据整合***和方法。
背景技术
随着公共安全、应急联动、智能交通、城市管理、环境整治、防震减灾等城市管理工作对空间信息基础设施的保障能力不断提出新的要求,建设统一、权威、现势的地名地址数据库,不仅能大幅提升基础空间数据的开发利用水平,而且对政府部门间、不同行业间的其他信息资源共享服务应用具有重要的参考和借鉴价值,有助于开创基础空间数据库共享、服务和应用的新模式。特别是在地理信息公共服务平台建设推动下,通过网络实现地名地址信息的查询、浏览、定购应用需求愈加强烈,丰富、现势的地名地址库将为政府和公众提供满足自身需求的查询、定位、统计以及专题信息空间匹配等应用服务,为各类空间信息共享交换提供基础,发挥地理信息框架数据在数字城市和智慧城市建设中的枢纽作用。
地名地址现状分析:1)数据来源广泛:地名地址数据涉及到多个职能部门,如国土、民政、房产、公安、燃气、工商、统计、质检、地税等。因此从数据资源来源的角度来分析,其来源部门众多,如图1所示;2)标准不统一,格式多样;各职能部门由于自身工作重点不同,产生的地名地址数据格式也多样,建设过程中缺乏统一的规范指导,造成目前已有的各类地址数据不具备较高的规范性。具体表现在文件的命名、字段的设置及地址描述的不规范性和多样性。如:国土部门地名地址数据来源于地形图DWG格式,工商部门数据来源于登记数据EXCEL格式;3)空间数据缺乏:收集的各职能部门的地名地址数据中,只有民政局、公安局和***的门牌、地名数据属于GIS空间数据,其它部门的地名地址数据都是非空间数据,只有单纯的地址描述信息,需要对其进行坐标赋予;4)兼容性差,无法实现数据共享;由于没有统一的地名地址库建库技术标准和规范,不同数据库之间的兼容性很差,无法实现数据资源的共享,限制了城市地址地名信息管理***的应用和共享。
因此,有必要开发一种能够整合民政、房产、公安、国土等多部门的地名地址数据,建立统一标准的地名地址数据,实现海量地址数据的高效管理的基于多源数据的地名地址数据整合的方法。
发明内容
本发明要解决的技术问题是,提供一种能够整合民政、房产、公安、国土等多部门的地名地址数据,建立统一标准的地名地址数据,实现海量地址数据的高效管理的基于多源数据的地名地址数据整合的方法。
为了解决上述技术问题,本发明采用的技术方案是:一种基于多源数据的地名地址数据整合的方法,包括以下步骤:
(1)收集数据,选取数据模型以及组织结构设计:将不同来源的地名、地址以及兴趣点数据结构、属性字段、空间参考整合为一套数据,选取数据模型,设计组织结构;
(2)数据预处理:将多源的地名地址数据格式进行标准化处理,统一为可以处理的格式;
(3)重复数据查询、剔除:对多源的地名地址数据进行重复点查询,将查询到的重复点剔除;
(4)数据融合:对多源数据进行清洗、匹配和整合;
(5)数据审核:利用GIS软件对已经融合的数据进行批量审核,采用自动审核和人工审核结合的方式;若审核合格存储至数据库,构建数据成果,若审核不合格,则返回数据融合步骤重新进行数据融合,直至审核合格。
采用上述技术方案,通过用户将多源地名地址数据录入***软件,由***软件对多源数据经过数据预处理、重点数据剔除、数据融合、数据审核等流程,形成标准的统一的规范数据,建立标准的地名地址数据。其中,不同来源的地名、地址以及兴趣点数据结构、属性字段、空间参考都不一致,要将其整合为一套数据,必须具有合理的数据模型以及相同的组织结构,以实现数据的统一管理。本文参考相关地理实体的模型定义,将数据模型分为基本属性和扩展属性;基本属性是共有字段,而扩展属性按照不同实体类型设置不同的属性内容,以数据表的格式存储,二者通过唯一的图元码进行标识和链接。该数据模型既满足统一管理要求,又能够保留不同数据的特有属性;1)基本属性:根据数据的使用要求,设定其基本属性,包括要素名称、地址、类型码、经度、纬度、分类代码、图元标识码等;2)扩展属性:地名、地址和兴趣点都有各种特征属性,无法用统一的数据结构进行描述,扩展属性项可以按照各种数据类型进行自由扩展,保证数据信息的完整性和可扩展性;地名库数据中按照类别添加各种扩展属性项,在实际作业过程中根据需要再定,如路名点需要扩展的属性可以包括道路编号、道路等级、道路宽度等,水系点扩展属性中可以包括水系等级、所属流域等专业属性。地址库数据相对属性较单一,可以根据实际需要进行适当扩展;兴趣点涉及的数量多,类别复杂,每种类别的特有信息丰富,因此兴趣点的扩展属性可按照不同的三级分类类别特征进行扩展,但一般都要包含联系电话、网址、邮编、数据采集时间、采集单位、采集人等信息;此外,重复点的查询主要有2种方法;方法一是结合空间位置,将不同来源数据根据名称字段进行连接,找出名称相同的点,将其导出后参考资料进行筛选。该方法的不足是只能找出名称完全一致的点,很多名称不同的重复点无法查找出来,所以需要对数据进行模糊查询。方法二是利用FME软件,构建数据模糊查询模块,将某一要素与其一定距离范围内的所有要素进行一一匹配,取匹配度最高的要素,并将其匹配度值和匹配上要素的名称写在其属性里面。其中,匹配的距离可以根据实际情况进行设置,对于地名、公园、工业园区、住宅小区等指代范围比较大的点,匹配距离可以设置稍微大点,如500m~1000m左右;而对于一般的POI类型,匹配距离可以设置在50m~100m范围之间。结合匹配度和匹配名称,可以快速判读要素之间是否为相同要素,再根据影像等参考资料和数据源本身现势性、精度、属性完整性、正确性等因素,选择属性信息全、位置精度高、现势性相对较好的点,从而剔除重复点。本方法通过模糊匹配进行数据查重,同时能够将名称完全一致的重复点查出来,具有较高的实用性和正确性。
本发明进一步改进在于,所述步骤(4)中的数据融合的步骤包括:
1)数据预处理:将其他格式的数据转换为shape格式数据,待用;
2)地理要素特征提取:依照《地籍管理信息***图形数据标准》按特征进行数据分类,再对无特征编码数据,人工进行判读,进行数据分类;
3)数据编码转换:依照《地籍管理信息***图形数据标准》和《基础地理信息要素分类编码》对应关系进行编码转换;
4)数据编辑:分别提取带符号特征数据、线状、面状地物的特征骨架线以及点状地物的特征点;
5)拓扑编辑:整合要素之间的拓扑关系,构造面要素和格网;
6)属性匹配和赋值:给各个要素匹配和赋予属性信息;
7)坐标转换:对于坐标不为WGS84的矢量数据进行坐标转换。
本发明进一步改进在于,所述步骤(3)中的重复点的查询主要有2种方法:方法一是结合空间位置,将不同来源数据根据名称字段进行连接,找出名称相同的点,将其导出后参翻考资料进行筛选;方法二是利用FME软件,构建数据模糊查询模块,将要素与其在匹配距离的范围内的所有要素进行一一匹配,取匹配度最高的要素,并将其匹配度值和匹配上要素的名称写在其属性里面;
本发明进一步改进在于,所述步骤(1)中的数据模型根据地理实体的模型定义,分为基本属性和扩展属性。
本发明进一步改进在于,所述基本属性包括要素名称、地址、类型码、经度、纬度、分类代码和图元标识码;根据数据的使用要求,设定数据的基本属性。
本发明进一步改进在于,所述步骤(3)中的重复点的查询的方法二中的所述匹配距离可以根据实际情况进行设置,对于地名、公园、工业园区、住宅小区这类指代范围比较大的点,匹配距离可以设置大点;而对于POI类型,匹配距离可以设置在50m~100m范围之间。
本发明进一步改进在于,所述步骤(1)中的收集数据的地名地址数据来源包括多部门的地名地址数据、兴趣点数据和第三方数据,其中多部门包括***、公安局、质监局、地税局、民政局、住建局、工商局、房管局和国土局。多部门还可以包括其它会用到地名地址的部门。
本发明进一步改进在于,所述步骤(3)中的参考资料包括各种分辨率影像图、文档资料、1:1万与1:5万的数字线划地图(DLG)和图册与网络资料。
本发明进一步改进在于,所述步骤5)中的拓扑编辑具体包括线特征和面特征。
本发明还要解决的技术问题是,提供一种基于多源数据的地名地址数据整合的***。
为了解决上述技术问题,本发明所采用的技术方案是:该基于多源数据的地名地址数据整合***,其特征在于,该基于多源数据的地名地址数据整合***包括数据预处理模块、数据清洗模块、数据融合模块、数据审核模块和数据模型模块;所述数据预处理模块、数据审核模块、数据融合模块、数据清洗模块和数据模型模块均与所述控制模块电性连接且呈双向数据传输;所述数据模型模块用于建立标准化的地名地址数据模型;所述数据预处理模块用于将多源的地名地址数据格式进行标准化处理,统一为可以处理的格式;所述数据清洗模块用于对多源的地名地址数据进行重复点查询并将重复点剔除;所述数据融合模块用于对多源数据进行匹配和整合;所述数据审核模块用于利用GIS软件对已经融合的数据进行批量审核,采用自动审核和人工审核结合的方式。多源数据地名地址数据***的软件采用JAVA语言开发,其中数据模型模块负责建立标准化的地名地址数据模型;数据预处理模块负责将不同格式的地名地址数据进行统一转换,数据清洗模块负责按照设定的数据模型对已经预处理的数据进行重复点数据剔除;数据融合模块是将清洗后的数据按照一定的逻辑结构进行数据整合;数据审核模块负责对融合后的数据进行质量检查工作。
与现有技术相比,本发明的有益效果是:
1)建立的标准的数据整合流程,解决目前数据种类繁多,格式多样性的问题;
2)提供一套标准化的数据整合流程和技术方案,大大减少了人工参与的过程,节省了数据整合时间;
3)采用异构数据融合技术,为后期数据的更新维护提供了快捷、高效的技术解决方案,解决了地名地址快速更新的难题。
附图说明
下面结合附图进一步描述本发明的技术方案:
图1是本发明的基于多源数据的地名地址数据整合的方法的数据来源图;
图2是本发明的基于多源数据的地名地址数据整合的方法的流程图;
图3是本发明的基于多源数据的地名地址数据整合的方法中的数据融合的流程图;
图4是本发明的基于多源数据的地名地址数据整合的***的硬件结构框图。
具体实施方式
为了加深对本发明的理解,下面将结合附图和实施例对本发明做进一步详细描述,该实施例仅用于解释本发明,并不对本发明的保护范围构成限定。
实施例:该基于多源数据的地名地址数据整合的方法,包括以下步骤:
(1)收集数据,选取数据模型以及组织结构设计:将不同来源的地名、地址以及兴趣点数据结构、属性字段、空间参考整合为一套数据,选取数据模型,设计组织结构;
(2)数据预处理:将多源的地名地址数据格式进行标准化处理,统一为可以处理的格式;
(3)重复数据查询、剔除:对多源的地名地址数据进行重复点查询,重复点的查询主要有2种方法:方法一是结合空间位置,将不同来源数据根据名称字段进行连接,找出名称相同的点,将其导出后参考资料进行筛选;方法二是利用FME软件,构建数据模糊查询模块,将要素与其在匹配距离的范围内的所有要素进行一一匹配,取匹配度最高的要素,并将其匹配度值和匹配上要素的名称写在其属性里面;将查询到的重复点剔除;
(4)数据融合:对多源数据进行清洗、匹配和整合;
(5)数据审核:利用GIS软件对已经融合的数据进行批量审核,采用自动审核和人工审核结合的方式;若审核合格存储至数据库,构建数据成果,若审核不合格,则返回数据融合步骤重新进行数据融合,直至审核合格;
所述步骤(4)中的数据融合的步骤包括:
1)数据预处理:将其他格式的数据转换为shape格式数据,待用;
2)地理要素特征提取:依照《地籍管理信息***图形数据标准》按特征进行数据分类,再对无特征编码数据,人工进行判读,进行数据分类;
3)数据编码转换:依照《地籍管理信息***图形数据标准》和《基础地理信息要素分类编码》对应关系进行编码转换;
4)数据编辑:分别提取带符号特征数据、线状、面状地物的特征骨架线以及点状地物的特征点;
5)拓扑编辑:整合要素之间的拓扑关系,构造面要素和格网;
6)属性匹配和赋值:给各个要素匹配和赋予属性信息;
7)坐标转换:对于坐标不为WGS84的矢量数据进行坐标转换;
所述步骤(1)中的数据模型根据地理实体的模型定义,分为基本属性和扩展属性;所述基本属性包括要素名称、地址、类型码、经度、纬度、分类代码和图元标识码;根据数据的使用要求,设定数据的基本属性;所述步骤(3)中的重复点的查询的方法二中的所述匹配距离可以根据实际情况进行设置,对于地名、公园、工业园区、住宅小区这类指代范围比较大的点,匹配距离可以设置大点;而对于POI类型,匹配距离可以设置在50m~100m范围之间;所述步骤(1)中的收集数据的地名地址数据来源包括多部门的地名地址数据、兴趣点数据和第三方数据,其中多部门包括***、公安局、质监局、地税局、民政局、住建局、工商局、房管局和国土局;所述步骤(3)中的参考资料包括各种分辨率影像图、文档资料、1:1万与1:5万的数字线划地图(DLG)和图册与网络资料;所述步骤5)中的拓扑编辑具体包括线特征和面特征。
采用上述技术方案,通过用户将多源地名地址数据录入***软件,由***软件对多源数据经过数据预处理、重点数据剔除、数据融合、数据审核等流程,形成标准的统一的规范数据,建立标准的地名地址数据。其中,不同来源的地名、地址以及兴趣点数据结构、属性字段、空间参考都不一致,要将其整合为一套数据,必须具有合理的数据模型以及相同的组织结构,以实现数据的统一管理。本文参考相关地理实体的模型定义,将数据模型分为基本属性和扩展属性;基本属性是共有字段,而扩展属性按照不同实体类型设置不同的属性内容,以数据表的格式存储,二者通过唯一的图元码进行标识和链接。该数据模型既满足统一管理要求,又能够保留不同数据的特有属性;1)基本属性:根据数据的使用要求,设定其基本属性,包括要素名称、地址、类型码、经度、纬度、分类代码、图元标识码等;2)扩展属性:地名、地址和兴趣点都有各种特征属性,无法用统一的数据结构进行描述,扩展属性项可以按照各种数据类型进行自由扩展,保证数据信息的完整性和可扩展性;地名库数据中按照类别添加各种扩展属性项,在实际作业过程中根据需要再定,如路名点需要扩展的属性可以包括道路编号、道路等级、道路宽度等,水系点扩展属性中可以包括水系等级、所属流域等专业属性。地址库数据相对属性较单一,可以根据实际需要进行适当扩展;兴趣点涉及的数量多,类别复杂,每种类别的特有信息丰富,因此兴趣点的扩展属性可按照不同的三级分类类别特征进行扩展,但一般都要包含联系电话、网址、邮编、数据采集时间、采集单位、采集人等信息;此外,重复点的查询主要有2种方法;方法一是结合空间位置,将不同来源数据根据名称字段进行连接,找出名称相同的点,将其导出后参考资料进行筛选。该方法的不足是只能找出名称完全一致的点,很多名称不同的重复点无法查找出来,所以需要对数据进行模糊查询。方法二是利用FME软件,构建数据模糊查询模块,将某一要素与其一定距离范围内的所有要素进行一一匹配,取匹配度最高的要素,并将其匹配度值和匹配上要素的名称写在其属性里面。其中,匹配的距离可以根据实际情况进行设置,对于地名、公园、工业园区、住宅小区等指代范围比较大的点,匹配距离可以设置稍微大点,如500m~1000m左右;而对于一般的POI类型,匹配距离可以设置在50m~100m范围之间。结合匹配度和匹配名称,可以快速判读要素之间是否为相同要素,再根据影像等参考资料和数据源本身现势性、精度、属性完整性、正确性等因素,选择属性信息全、位置精度高、现势性相对较好的点,从而剔除重复点。本方法通过模糊匹配进行数据查重,同时能够将名称完全一致的重复点查出来,具有较高的实用性和正确性。
该基于多源数据的地名地址数据整合***,其特征在于,该基于多源数据的地名地址数据整合***包括数据预处理模块、数据清洗模块、数据融合模块、数据审核模块和数据模型模块;所述数据预处理模块、数据审核模块、数据融合模块、数据清洗模块和数据模型模块均与所述控制模块电性连接且呈双向数据传输;所述数据模型模块用于建立标准化的地名地址数据模型;所述数据预处理模块用于将多源的地名地址数据格式进行标准化处理,统一为可以处理的格式;所述数据清洗模块用于对多源的地名地址数据进行重复点查询并将重复点剔除;所述数据融合模块用于对多源数据进行匹配和整合;所述数据审核模块用于利用GIS软件对已经融合的数据进行批量审核,采用自动审核和人工审核结合的方式。多源数据地名地址数据***的软件采用JAVA语言开发,其中数据模型模块负责建立标准化的地名地址数据模型;数据预处理模块负责将不同格式的地名地址数据进行统一转换,数据清洗模块负责按照设定的数据模型对已经预处理的数据进行重复点数据剔除;数据融合模块是将清洗后的数据按照一定的逻辑结构进行数据整合;数据审核模块负责对融合后的数据进行质量检查工作。
对于本领域的普通技术人员而言,具体实施例只是对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围之内。
Claims (10)
1.一种基于多源数据的地名地址数据整合的方法,其特征在于,包括以下步骤:
(1)收集数据,选取数据模型以及组织结构设计:将不同来源的地名、地址以及兴趣点数据结构、属性字段、空间参考整合为一套数据,选取数据模型,设计组织结构;
(2)数据预处理:将多源的地名地址数据格式进行标准化处理,统一为可以处理的格式;
(3)重复数据查询、剔除:对多源的地名地址数据进行重复点查询,将查询到的重复点剔除;
(4)数据融合:对多源数据进行匹配和整合;
(5)数据审核:利用GIS软件对已经融合的数据进行批量审核,采用自动审核和人工审核结合的方式;若审核合格存储至数据库,构建数据成果,若审核不合格,则返回数据融合步骤重新进行数据融合,直至审核合格。
2.根据权利要求1所述的基于多源数据的地名地址数据整合的方法,其特征在于,所述步骤(4)中的数据融合的步骤包括:
1)数据预处理:将其他格式的数据转换为shape格式数据,待用;
2)地理要素特征提取:依照《地籍管理信息***图形数据标准》按特征进行数据分类,再对无特征编码数据,人工进行判读,进行数据分类;
3)数据编码转换:依照《地籍管理信息***图形数据标准》和《基础地理信息要素分类编码》对应关系进行编码转换;
4)数据编辑:分别提取带符号特征数据、线状、面状地物的特征骨架线以及点状地物的特征点;
5)拓扑编辑:整合要素之间的拓扑关系,构造面要素和格网;
6)属性匹配和赋值:给各个要素匹配和赋予属性信息;
7)坐标转换:对于坐标不为WGS84的矢量数据进行坐标转换。
3.根据权利要求2所述的基于多源数据的地名地址数据整合的方法,其特征在于,所述步骤(1)中的数据模型根据地理实体的模型定义,分为基本属性和扩展属性。
4.根据权利要求3所述的基于多源数据的地名地址数据整合的方法,其特征在于,所述步骤(3)重复点的查询有2种方法:方法一是结合空间位置,将不同来源数据根据名称字段进行连接,找出名称相同的点,将其导出后参考资料进行筛选;方法二是利用FME软件,构建数据模糊查询模块,将要素与其在匹配距离的范围内的所有要素进行一一匹配,取匹配度最高的要素,并将其匹配度值和匹配上要素的名称写在其属性里面。
5.根据权利要求4所述的基于多源数据的地名地址数据整合的方法,其特征在于,所述步骤(3)中的重复点的查询的方法二中的所述匹配距离可以根据实际情况进行设置,对于地名、公园、工业园区、住宅小区这类指代范围比较大的点,匹配距离可以设置大点;而对于POI类型,匹配距离可以设置在50m~100m范围之间。
6.根据权利要求4所述的基于多源数据的地名地址数据整合的方法,其特征在于,所述步骤(1)中的收集数据的地名地址数据来源包括多部门的地名地址数据、兴趣点数据和第三方数据,其中多部门包括***、公安局、质监局、地税局、民政局、住建局、工商局、房管局和国土局。
7.根据权利要求4所述的基于多源数据的地名地址数据整合的方法,其特征在于,所述步骤(1)中的数据模型根据地理实体的模型定义,分为基本属性和扩展属性。
8.根据权利要求4所述的基于多源数据的地名地址数据整合的方法,其特征在于,所述步骤5)中的拓扑编辑具体包括线特征和面特征。
9.根据权利要求4所述的基于多源数据的地名地址数据整合的方法,其特征在于,所述步骤(3)中的参考资料包括各种分辨率影像图、文档资料、1:1万与1:5万的数字线划地图(DLG)和图册与网络资料。
10.一种基于多源数据的地名地址数据整合***,其特征在于,该基于多源数据的地名地址数据整合***包括数据预处理模块、数据清洗模块、数据融合模块、数据审核模块和数据模型模块;所述数据预处理模块、数据审核模块、数据融合模块、数据清洗模块和数据模型模块均与所述控制模块电性连接且呈双向数据传输;所述数据模型模块用于建立标准化的地名地址数据模型;所述数据预处理模块用于将多源的地名地址数据格式进行标准化处理,统一为可以处理的格式;所述数据清洗模块用于对多源的地名地址数据进行重复点查询并将重复点剔除;所述数据融合模块用于对多源数据进行匹配和整合;所述数据审核模块用于利用GIS软件对已经融合的数据进行批量审核,采用自动审核和人工审核结合的方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710645011.9A CN107526786A (zh) | 2017-08-01 | 2017-08-01 | 基于多源数据的地名地址数据整合的方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710645011.9A CN107526786A (zh) | 2017-08-01 | 2017-08-01 | 基于多源数据的地名地址数据整合的方法和*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107526786A true CN107526786A (zh) | 2017-12-29 |
Family
ID=60680550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710645011.9A Pending CN107526786A (zh) | 2017-08-01 | 2017-08-01 | 基于多源数据的地名地址数据整合的方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107526786A (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399192A (zh) * | 2018-01-25 | 2018-08-14 | 链家网(北京)科技有限公司 | 一种小区信息匹配方法及装置 |
CN108573039A (zh) * | 2018-04-04 | 2018-09-25 | 烟台海颐软件股份有限公司 | 一种基于多源时空数据组配的目标辨识方法与*** |
CN109308294A (zh) * | 2018-09-13 | 2019-02-05 | 浙江省国土勘测规划有限公司 | 兴趣点录入***及方法 |
CN110222139A (zh) * | 2019-06-14 | 2019-09-10 | 北京百度网讯科技有限公司 | 道路实体数据去重方法、装置、计算设备和介质 |
CN111090630A (zh) * | 2019-12-16 | 2020-05-01 | 中科宇图科技股份有限公司 | 基于多源空间点数据的数据融合处理方法 |
CN111104449A (zh) * | 2019-12-18 | 2020-05-05 | 福州市勘测院 | 基于地理空间画像挖掘的多源城市时空标准地址融合方法 |
CN111143297A (zh) * | 2019-12-19 | 2020-05-12 | 上海三稻智能科技有限公司 | 多格式混合数据的分类、拼接***及方法 |
CN111445309A (zh) * | 2020-03-26 | 2020-07-24 | 四川旅游学院 | 基于社会网络的旅游服务推荐方法 |
CN111459941A (zh) * | 2020-04-03 | 2020-07-28 | 福州市勘测院 | 基于地理编码索引和多源数据比对的历史宗地落宗方法 |
CN111488409A (zh) * | 2019-01-25 | 2020-08-04 | 阿里巴巴集团控股有限公司 | 一种城市地址库构建方法、检索方法及装置 |
CN111680082A (zh) * | 2020-04-30 | 2020-09-18 | 四川弘智远大科技有限公司 | 基于数据整合的政府财政数据采集***及数据采集方法 |
CN111723172A (zh) * | 2020-06-10 | 2020-09-29 | 广东世纪高通科技有限公司 | 一种数据融合方法及装置 |
WO2020220810A1 (zh) * | 2019-04-30 | 2020-11-05 | 京东城市(南京)科技有限公司 | 数据融合的方法和装置 |
CN112115221A (zh) * | 2020-09-08 | 2020-12-22 | 浙江嘉兴数字城市实验室有限公司 | 一种块数据多因子匹配融合方法 |
CN112182091A (zh) * | 2020-12-03 | 2021-01-05 | 光大科技有限公司 | 多源数据整合方法、***、存储介质和电子装置 |
CN112417214A (zh) * | 2020-11-02 | 2021-02-26 | 中关村科学城城市大脑股份有限公司 | 一种用于城市大脑场景的多源异构数据的融合方法及*** |
CN112905728A (zh) * | 2021-02-26 | 2021-06-04 | 中国科学院电子学研究所苏州研究院 | 一种面向多源地名数据的高效融合与检索***及方法 |
CN112988715A (zh) * | 2021-04-13 | 2021-06-18 | 速度时空信息科技股份有限公司 | 一种基于开源方式的全球网络地名数据库的构建方法 |
CN113127759A (zh) * | 2021-04-16 | 2021-07-16 | 深圳集智数字科技有限公司 | 兴趣点处理方法、装置、计算设备及计算机可读存储介质 |
CN113254127A (zh) * | 2021-05-13 | 2021-08-13 | 中国电力工程顾问集团西南电力设计院有限公司 | 一种输电线路工程测量软件中大数据量图元的处理方法 |
CN113434623A (zh) * | 2021-06-30 | 2021-09-24 | 广东省城乡规划设计研究院有限责任公司 | 一种基于多源异构空间规划数据的融合方法 |
CN113626408A (zh) * | 2021-08-05 | 2021-11-09 | 广州城市信息研究所有限公司 | 一种城市信息数据库构建方法及一张图显示方法 |
CN113656493A (zh) * | 2021-07-23 | 2021-11-16 | 贵州图智信息技术有限公司 | 一种构建数字孪生城市多库融合的方法及*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8996523B1 (en) * | 2011-05-24 | 2015-03-31 | Google Inc. | Forming quality street addresses from multiple providers |
CN105740257A (zh) * | 2014-12-09 | 2016-07-06 | 朗新科技股份有限公司 | 标准地名地址库建立方法及*** |
CN106850788A (zh) * | 2017-01-22 | 2017-06-13 | 中国科学院电子学研究所苏州研究院 | 面向多源异构地理信息资源的集成框架及集成方法 |
-
2017
- 2017-08-01 CN CN201710645011.9A patent/CN107526786A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8996523B1 (en) * | 2011-05-24 | 2015-03-31 | Google Inc. | Forming quality street addresses from multiple providers |
CN105740257A (zh) * | 2014-12-09 | 2016-07-06 | 朗新科技股份有限公司 | 标准地名地址库建立方法及*** |
CN106850788A (zh) * | 2017-01-22 | 2017-06-13 | 中国科学院电子学研究所苏州研究院 | 面向多源异构地理信息资源的集成框架及集成方法 |
Non-Patent Citations (1)
Title |
---|
王银花: "多源地名地址和兴趣点数据整合方法研究", 《地理空间信息》 * |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399192B (zh) * | 2018-01-25 | 2020-07-24 | 贝壳找房(北京)科技有限公司 | 一种小区信息匹配方法及装置 |
CN108399192A (zh) * | 2018-01-25 | 2018-08-14 | 链家网(北京)科技有限公司 | 一种小区信息匹配方法及装置 |
CN108573039A (zh) * | 2018-04-04 | 2018-09-25 | 烟台海颐软件股份有限公司 | 一种基于多源时空数据组配的目标辨识方法与*** |
CN109308294A (zh) * | 2018-09-13 | 2019-02-05 | 浙江省国土勘测规划有限公司 | 兴趣点录入***及方法 |
CN111488409A (zh) * | 2019-01-25 | 2020-08-04 | 阿里巴巴集团控股有限公司 | 一种城市地址库构建方法、检索方法及装置 |
WO2020220810A1 (zh) * | 2019-04-30 | 2020-11-05 | 京东城市(南京)科技有限公司 | 数据融合的方法和装置 |
CN110222139A (zh) * | 2019-06-14 | 2019-09-10 | 北京百度网讯科技有限公司 | 道路实体数据去重方法、装置、计算设备和介质 |
CN110222139B (zh) * | 2019-06-14 | 2021-07-09 | 北京百度网讯科技有限公司 | 道路实体数据去重方法、装置、计算设备和介质 |
CN111090630A (zh) * | 2019-12-16 | 2020-05-01 | 中科宇图科技股份有限公司 | 基于多源空间点数据的数据融合处理方法 |
CN111104449A (zh) * | 2019-12-18 | 2020-05-05 | 福州市勘测院 | 基于地理空间画像挖掘的多源城市时空标准地址融合方法 |
CN111143297A (zh) * | 2019-12-19 | 2020-05-12 | 上海三稻智能科技有限公司 | 多格式混合数据的分类、拼接***及方法 |
CN111143297B (zh) * | 2019-12-19 | 2023-05-19 | 上海三稻智能科技有限公司 | 多格式混合数据的分类、拼接***及方法 |
CN111445309A (zh) * | 2020-03-26 | 2020-07-24 | 四川旅游学院 | 基于社会网络的旅游服务推荐方法 |
CN111445309B (zh) * | 2020-03-26 | 2023-05-30 | 四川旅游学院 | 基于社会网络的旅游服务推荐方法 |
CN111459941A (zh) * | 2020-04-03 | 2020-07-28 | 福州市勘测院 | 基于地理编码索引和多源数据比对的历史宗地落宗方法 |
CN111680082A (zh) * | 2020-04-30 | 2020-09-18 | 四川弘智远大科技有限公司 | 基于数据整合的政府财政数据采集***及数据采集方法 |
CN111680082B (zh) * | 2020-04-30 | 2023-08-18 | 四川弘智远大科技有限公司 | 基于数据整合的政府财政数据采集***及数据采集方法 |
CN111723172A (zh) * | 2020-06-10 | 2020-09-29 | 广东世纪高通科技有限公司 | 一种数据融合方法及装置 |
CN112115221A (zh) * | 2020-09-08 | 2020-12-22 | 浙江嘉兴数字城市实验室有限公司 | 一种块数据多因子匹配融合方法 |
CN112417214A (zh) * | 2020-11-02 | 2021-02-26 | 中关村科学城城市大脑股份有限公司 | 一种用于城市大脑场景的多源异构数据的融合方法及*** |
CN112182091A (zh) * | 2020-12-03 | 2021-01-05 | 光大科技有限公司 | 多源数据整合方法、***、存储介质和电子装置 |
CN112905728A (zh) * | 2021-02-26 | 2021-06-04 | 中国科学院电子学研究所苏州研究院 | 一种面向多源地名数据的高效融合与检索***及方法 |
CN112988715A (zh) * | 2021-04-13 | 2021-06-18 | 速度时空信息科技股份有限公司 | 一种基于开源方式的全球网络地名数据库的构建方法 |
CN112988715B (zh) * | 2021-04-13 | 2021-08-13 | 速度时空信息科技股份有限公司 | 一种基于开源方式的全球网络地名数据库的构建方法 |
CN113127759A (zh) * | 2021-04-16 | 2021-07-16 | 深圳集智数字科技有限公司 | 兴趣点处理方法、装置、计算设备及计算机可读存储介质 |
CN113254127A (zh) * | 2021-05-13 | 2021-08-13 | 中国电力工程顾问集团西南电力设计院有限公司 | 一种输电线路工程测量软件中大数据量图元的处理方法 |
CN113434623A (zh) * | 2021-06-30 | 2021-09-24 | 广东省城乡规划设计研究院有限责任公司 | 一种基于多源异构空间规划数据的融合方法 |
CN113434623B (zh) * | 2021-06-30 | 2022-02-15 | 广东省城乡规划设计研究院有限责任公司 | 一种基于多源异构空间规划数据的融合方法 |
CN113656493A (zh) * | 2021-07-23 | 2021-11-16 | 贵州图智信息技术有限公司 | 一种构建数字孪生城市多库融合的方法及*** |
CN113626408A (zh) * | 2021-08-05 | 2021-11-09 | 广州城市信息研究所有限公司 | 一种城市信息数据库构建方法及一张图显示方法 |
CN113626408B (zh) * | 2021-08-05 | 2022-04-12 | 广州城市信息研究所有限公司 | 一种城市信息数据库构建方法及一张图显示方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107526786A (zh) | 基于多源数据的地名地址数据整合的方法和*** | |
CN101350012B (zh) | 一种地址匹配的方法和*** | |
JP5856618B2 (ja) | 地理空間データベース統合方法、およびデバイス | |
CN112347222B (zh) | 一种基于知识库推理的将非标准地址转换为标准地址的方法及*** | |
CN109102193A (zh) | 地理设计生态红线划定与管理***及数据库、评价模型 | |
CN111221867B (zh) | 一种保护性建筑信息管理*** | |
CN114692236B (zh) | 一种面向大数据的国土空间规划底图底数处理方法 | |
CN109508363A (zh) | 基于gis的水利大数据服务平台及其工作方法 | |
CN112988715B (zh) | 一种基于开源方式的全球网络地名数据库的构建方法 | |
CN111813819B (zh) | 一种基于时空大数据的地名地址在线匹配方法 | |
CN116341967A (zh) | 基于gis模型的公园绿地方案评价与优化方法、装置、设备及存储介质 | |
CN112365391A (zh) | 一种基于“国土调查”数据的用地多样性计量方法 | |
CN111104449A (zh) | 基于地理空间画像挖掘的多源城市时空标准地址融合方法 | |
CN114661744B (zh) | 一种基于深度学习的地形数据库更新方法及*** | |
CN113961662A (zh) | 一种基于多源数据的地名地址数据融合方法 | |
CN113672788A (zh) | 一种基于多源数据和权重系数法的城市建筑功能分类方法 | |
Olszewski et al. | Methodology of creating the new generation of official topographic maps in Poland | |
CN109977190B (zh) | 面向大规模矢量地图数据的面积查询处理方法及装置 | |
Droj | GIS and remote sensing in environmental management | |
Nod et al. | Methods for measuring the spatial mobility of tourists using a network theory approach | |
CN114003678A (zh) | 数据分布方法、基于该数据分布方法的危废品管理方法和道路应急事件管理方法 | |
Bond et al. | The role of geographic information systems in survey analysis | |
Al-garni | Urban photogrammetric data base for multi-purpose cadastral-based information systems: the Riyadh city case | |
Lai et al. | Computing Places and Human Activity in Data-absent Informal Urban Settlements | |
Tran et al. | Exploiting WebGis technology to build an environmental database to support the environmental management of Ho Chi Minh city |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 210042 8 Blocks 699-22 Xuanwu Avenue, Xuanwu District, Nanjing City, Jiangsu Province Applicant after: Speed Space-time Information Technology Co., Ltd. Address before: 210000 8 -22, 699 Xuanwu Road, Xuanwu District, Nanjing, Jiangsu. Applicant before: Jiangsu speed information Polytron Technologies Inc |
|
CB02 | Change of applicant information | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171229 |
|
RJ01 | Rejection of invention patent application after publication |