CN108710625A

CN108710625A - 一种专题知识自动挖掘***及方法

Info

Publication number: CN108710625A
Application number: CN201810222910.2A
Authority: CN
Inventors: 刘强; 刘沛文; 黄耀森; 陈晨
Original assignee: CHENGDU RESEARCH INSTITUTE OF UESTC
Current assignee: CHENGDU RESEARCH INSTITUTE OF UESTC
Priority date: 2018-03-16
Filing date: 2018-03-16
Publication date: 2018-10-26
Anticipated expiration: 2038-03-16
Also published as: CN108710625B

Abstract

本发明属于大数据处理技术领域，公开了一种专题知识自动挖掘***及方法，***包括：物联网接口模块，语义查询模块，数据挖掘模块，地图聚合及可视化模块；方法包括：首先数据收集与建库，将基于web泛在网获取的数据、监测传感器的数据、各类专题资料收集整理存入专题数据库；然后进行专题知识挖掘，通过本体构建、语义查询、深度信息挖掘形成专题知识，将文件传入FTP文件服务器；将从FTP文件服务器中获取的专题知识与地理底图进行地理关联，形成制图数据；进行图面版式设计、专题图表设计、图面整饰；最后输出专题图。本发明借助大数据下的机器学习算法，将通过高效且准确的方法来对庞大的国土资源信息进行处理与分析。

Description

一种专题知识自动挖掘***及方法

技术领域

本发明属于大数据处理技术领域，尤其涉及一种专题知识自动挖掘***及方法。

背景技术

近年来，大数据技术在全球发展迅猛，掀起了巨大的研究热潮，引起全球业界、学术界和各国政府的高度关注。随着计算机和信息技术的迅猛发展和普及应用，行业应用数据呈***性增长。动辄达到数百TB甚至数PB规模的行业大数据已经远远超出了传统计算技术和信息系统的处理能力。与此同时，大数据往往隐含着很多在小数据量时不具备的深度知识和价值，大数据智能化分析挖掘将为行业带来巨大的商业价值，实现多种高附加值的增值服务，从而提升行业生产管理决策水平和经济效益。

空间分析是地理学研究中研究的比较早的一个部分，经过了时代与历史的演变，换句话说地理学来源于空间分析。在早些年代，受到生存以及发展需要的驱使，人们必须要学会对周围地理事物之间的空间关系进行了解分析，所以各种各样的空间分析在使用着。地图渐渐的成为了地理学中的第二语言，从此，人们就开始有意无意的用到着很多种类的空间分析，包括在地图当中去测量各种地理物体之间的距离、方位以及面积，甚至会利用地图来做各种各样的战术研究以及战略策略等。在最近几年的发展当中，空间分析的涉及到的主要技术得到了很大的变化，地理信息***技术和遥感技术营造了强大的空间数据分析环境，很多新的用来解决空间问题的分析模型以及处理方法都陆续的被挖掘出来了。一直在增加的海量的空间数据驱使着空间分析过程的改变，因此，基于数据层面的探索性的空间分析技术、空间可视化技术、空间数据挖掘技术以及基于人工智能的空间分析技术等面对大量的数据的空间数据分析方法非常受到关注，而且在最近的几年中也得到了深入的发展，这些分析方法面对大规模的空间分析中的不确定性以及不精确性问题有着较高的容错能力。随着时代的发展，GIS空间分析的应用领域也越来越广，其中，杨金提出了GIS空间分析在森林防火中的应用研究，成功的解决了森林火灾中遇到的重大问题，唐咸艳提出了GIS空间分析方法在疾病空间域模型分布中的应用，利用它疾病分布空间的预测，朱海燕提出了GIS空间分析在热带气旋研究中的作用，将热带气旋与GIS空间分析进行了结合，李慧琼提出了GIS空间分析在改善教育资源空间配置中的应用研究，成功的优化了资源的空间配置，华萍提出了地质三维建模与空间分析研究，将空间分析技术成功的应用在了三维分析上，祁向前研究了GIS空间分析在超市选址中的应用，以此解决了超市选址中的重要问题，吴建华等研究了在电子海图中利用GIS空间分析方法来自动判别航线的偏航极限范围内是否有危险的点、线、面，为航线设计提供决策支持，并航路进行实时监视，韩勇等研究了基于GIS空间分析的城市地下管线数据库的结构，并且构建了几种空间分析的模型，柯新利从数字城市概念的基本知识点出发，分析了数字城市和城市地理信息***之间的关系，刘伟等提出了将GIS空间分析技术应用到矿产资源的环境影响评价中，并取得了相关的研究成果，陈优良等对GIS的线状缓冲区算法进行了研究，实现了线状目标的GIS缓冲区分析，李湘吉提出了对 GIS空间数据理论与空间分析方法的研究，设计以及实现了几种地理信息***的空间分析算法等等。

现有技术方法主要是对静态空间数据进行分析处理与制作专题地图，而智慧城市及其应用是建立在物联网的基础上。通过物联网及传感器，可以收集、储存和分享城市信息。然而，由于这些数据的多源、异构、实时(准实时)特征，传统的空间分析处理软件***难以处理并获取实时专题知识，生成专题地图，无法适应智慧城市、物联网、大数据时代的信息化、知识化需要

综上所述，现有技术存在的问题是：传统空间统计分析方法无法接收实时传感器数据并同步进行知识挖掘与分析处理。解决难度在于实时数据接收，分析处理，专题知识挖掘，专题地图生成的实时、同步、一体化与自动化。

发明内容

针对现有技术存在的问题，本发明提供了一种专题知识自动挖掘软件***。

本发明是这样实现的，一种专题知识自动挖掘***，首先提供Web泛在网、实时传感器数据，专题数据收集等方式获取多源、异构、实时空间数据及信息，然后同步进行数据预处理，在此基础上，利用语义技术、机器学习模型进行专题知识挖掘与分析，最后，实时(或准实时) 专题地图自动化制作及其可视化。整个处理过程高度自动化、实时化。所述专题知识自动挖掘***包括：

物联网接口模块，用于数据的获取于存储、检索、导出、展示；

语义查询模块，与物联网接口模块连接，用于通过本体文件构建本体模型并按类进行语义检索查询；

数据挖掘模块，与物联网接口模块连接，用于对专题数据库中的数据进行分析挖掘，得到专题知识；将数据分析结果导入到Excel表格中；

地图聚合及可视化模块，与数据挖掘模块连接，用于利用得到的专题知识进行专题地图制作和展示。

进一步，所述物联网接口模块包括：

数据获取与存储模块，用于获取与存储数据；通过向数据提供网站发送请求以获得互联网数据并进行解析存储；还通过GPRS无线传输接收监测设备发送的实时数据；

数据的检索模块，与数据获取与存储模块连接，用于对数据获取时间检索或对各项指标的数值范围进行查找；

数据的导出模块，与数据获取与存储模块连接，用于将数据导出为Excel表格，并输送到到本地中；

数据展示模块，与数据获取与存储模块连接，用于通过在输入框或者列表中选择指标种类和数值范围，使数据库中的数据按顺序显示在界面中。

进一步，所述语义查询模块首先要从本地文件中选择本体文件，然后生成本体模型，生成本体模型后，选择检索词类别和检索词，显示语义查询结果；

所述语义查询模块包括：本体构建模块和本体查询模块；所述本体构建模块根据需求确定的本体构建对象构建本体模型；本体查询模块对构建好的本体模型进行语义查询。

进一步，数据挖掘模块，包括：FP-tree关联分析模块和随机森林分类模块；所述FP-tree关联分析模块用于反向挖掘出与专题知识关联度较高的指标；

在频繁项集挖掘中存储关于频繁模式的压缩信息，所述FP-tree关联分析模块由一个根节点和作为其孩子的项前缀子树集合而成；项前缀子树的每个节点由三个域组成：节点名称、节点计数、节点链；其中节点计数表示到达该节点的路径上的事务个数，节点链指向树中具有同一名称的下一个节点；

随机森林分类模块用于选取这些指标的数据采用随机森林方法训练模型以完成随机森林分类；所述随机森林分类模块为一个包含多个无剪枝分类回归树的组合分类器；所述组合分类器通过引入独立同分布的随机变量，利用训练集数据和随机变量生成决策树，最后利用集成学习的思想将所有决策树组合而成。

进一步，所述地图聚合及可视化模块通过利用颜色渲染、图案填充、直方或饼状图形式将某种主题内容属性数据在地图上表现出来；利用专题地图的可视化效果，直观向用户展现相应的成果；

所述地图聚合及可视化模块通过引入最新的地图制图及GIS技术，建立专题地图制作的新型地图制图；首先获取地理底图和专题知识数据，然后设计图面版式，详细设计专题图表，进行图面冲突处理，最后输出地图。

进一步，所述数据获取与存储模块，包括网络API模块和GPRS无线传输模块；所述网络API模块负责通过向数据提供网站发送请求以获得互联网数据并进行解析存储；通过网络API获取气象监测数据；客户端发送请求到服务端，服务端调用API获取数据，然后发送JSON数据到客户端，客户端解析接收到的JSON数据然后存储到本地的MySQL数据库中；

所述GPRS无线传输模块则负责通过GPRS无线传输接收监测设备发送的实时数据；在数据获取中，PC端首先监听端口，监听到连接请求后，向设备发送指令，然后接收设备发送的数据并解析；PC端监听固定端口，在接受请求后分别通过输入和输出流来对设备发送指令以及接受设备返回的数据；将解析后的数据同样保存到MySQL数据库中，支持专题知识数据库的建立。

本发明的另一目的在于提供一种专题知识自动挖掘方法包括：

首先数据收集与建库，将基于web泛在网获取的数据、监测传感器的数据、各类专题资料收集整理存入专题数据库；

然后进行专题知识挖掘，通过本体构建、语义查询、深度信息挖掘形成专题知识，将文件传入FTP文件服务器；将从FTP文件服务器中获取的专题知识与地理底图进行地理关联，形成制图数据；

进行图面版式设计、专题图表设计、图面整饰；最后输出专题图。

进一步，所述专题知识自动挖掘方法具体包括：

1)基于网络的数据获取：

通过API从互联网获取数据；

数据检索和展示；根据查询条件查询并展示数据库中的数据；

导出数据：将数据库内的设备监测数据通过Excel表导出；

2)进行本体构建和语义查询：

本体构建：生成本体模型，用于对本体进行语义描述；通过生成本体模型构建本体；

语义查询：生成本体模型后，在列表中选择检索词类别和检索词，通过检索显示语义查询结果；

3)进行关联分析：包括：

生成关联数据集，首先从本地文件中选择原始数据集，然后通过生成关联数据集功能对原始数据集进行处理，将原始数据集处理成进行关联分析的关联数据集；原始数据集为表格格式，生成的关联数据集为txt格式；

关联分析：生成关联分析数据集成功后，选择生成好的关联分析数据集，设置频繁度阈值，通过关联分析显示相关性分析结果，输入选择参数，生成接下来进行随机分类的数据集；

4)进行随机森林分类：包括：

完成分类：首先将分类数据集传入Linux***分布式文件管理***指定文件路径/user/hadoop/2014AQI/test/下，填写虚拟机IP地址、数据集指标个数、决策树参数个数和森林决策树棵数，然后完成分类；

分类结果导出：将分类结果导出，在分类结果和原始数据集两栏分别选取该结果和原始数据集，将分类结果导入原始数据集表中；

5)进行专题图生成：包括：

获取专题地图的数据源：

利用空气监测与采集设备实时采集数据源；

进行专题地图编制：通过引入最新的地图制图及GIS技术，建立专题地图制作的新型地图制图；首先在专题图中添加当前需要编辑的专题页面，然后依据制图模板进行符号化、图面编辑、图廓整饰、板式设计，专题图设计，完成后进行地图冲突检查，完成专题地图制作。

进一步，随机森林分类具体包括：

第一步，采用自举法从原始数据集中随机抽取K个不同样本数据集，作为各决策树的子训练集，个样本容量和原始数据集相同，每次未被抽样的数据组成袋外数据；

第二步，对每个样本数据集分别建立分类回归树，生成K棵决策树，在生成过程中，对于决策树的每个节点，原始数据变量集随机采样得到变量子集，根据Gini指标最小准则从子集中选取最有变量进行节点***、分枝；

第三步，每棵分类回归树从上至下递归分枝生长，直到达到设定的叶节点最小尺寸nodesize，决策树停止生长，所有决策树组合成随机森林；第四步，将测试数据输入随机森林模型，利用K棵决策树分别预测，取各决策树预测结果的平均值为回归值。

本发明的优点及积极效果为：本***借助大数据下的机器学习算法，将通过高效且准确的方法来对多源、异构、实时的国土资源信息进行处理与分析；本***以实现数据库里面的本体构建与查询，利用机器学习算法挖掘出有价值的专题知识，制作相关专题知识专题图为目的，在结合基于泛在网及物联网接口获取数据的基础上，制定数据库入库规范，利用GIS技术和深度挖掘技术开发专题知识自动挖掘软件***。*** 支持获取基于web的泛在网数据及GPRS无线传输数据，能实现对数据进行入库管理及数据的查询操作；支持利用FTP服务器提供文件下载的功能；支持本体的构建及查询；支持知识库里构建专题知识关联分析及利用随机森林分类模型对专题知识进行分类，最后将挖掘的信息制作相关专题知识专题图。

1.支持多源、异构、实时空间数据的实时专题知识挖掘，以及专题地图制作。

2.为智慧城市等基于物联网、大数据的应用提供良好解决方案。

附图说明

图1是本发明实施例提供的专题知识自动挖掘软件***功能结构示意图。

图中：1、物联网接口模块；2、语义查询模块；3、数据挖掘模块；4、地图聚合及可视化模块。

图2是本发明实施例提供的专题知识自动挖掘***框架。

图3是本发明实施例提供的专题知识自动挖掘***流程图。

图4是本发明实施例提供的API获取监测数据过程图。

图5是本发明实施例提供的GPRS获取数据流程图。

图6是本发明实施例提供的随机森林计算流程图。

图7是本发明实施例提供的实时数据获取模块。

图8是本发明实施例提供的专题图编制流程图。

图9是本发明实施例提供的生成折线结果图。

图10是本发明实施例提供的城市管理数据库在智慧城市中的作用。

图11是本发明实施例提供的面向智慧城市的地理信息数据库***建设框架。

图12是本发明实施例提供的面向智慧城市的地理信息数据库***建设框架。

图13是本发明实施例提供的空间基础数据概念模型。

图14是本发明实施例提供的城市数据概念模型。

图15是本发明实施例提供的***管理数据概念模型。

图16是本发明实施例提供的数据库总体逻辑设计。

图17是本发明实施例提供的读取第一个条目之后构建的FP-tree图。

图18是本发明实施例提供的读取前三个条目之后构建的FP-tree图。

图19是本发明实施例提供的以e节点结尾所提取的路径图。

图20是本发明实施例提供的新建立的FP-tree成为e的条件FP-tree图。

具体实施方式

为能进一步了解本发明的发明内容、特点及功效，兹例举以下实施例，并配合附图详细说明如下。

下面结合附图对本发明的结构作详细的描述。

如图1所示，该专题知识自动挖掘软件***包括：物联网接口模块1、语义查询模块2、数据挖掘模块3、地图聚合及可视化模块4。

物联网接口模块1，该模块主要完成了数据的获取与存储、数据的按条件检索、数据的导出、展示等主要功能。物联网接口模块1主要功能是进行数据收集，为挖掘***提供数据支撑。

数据获取与存储：本模块获取与存储数据具体分为网络API部分和GPRS无线传输部分。网络API部分负责通过向数据提供网站发送请求以获得互联网数据并进行解析存储。通过网络API获取气象监测数据的流程图如4所示。在图4中，客户端发送请求到服务端，服务端调用 API功能获取数据，然后发送JSON数据到客户端，客户端解析接收到的JSON数据然后存储到本地的MySQL数据库中。GPRS无线传输部分则负责通过GPRS无线传输接收监测设备发送的实时数据。在数据获取流程中，PC端首先监听端口，监听到连接请求后，向设备发送指令，然后接收设备发送的数据并解析，流程图如5所示。PC端监听固定端口，在接受请求后分别通过输入和输出流来对设备发送指令以及接受设备返回的数据。将解析后的数据同样保存到MySQL数据库中，以便支持专题知识数据库的建立。

数据的检索：可以按数据获取时间检索或各项指标的数值范围进行查找。

数据的导出：数据可以导出为Excel表格到本地中。

按查找条件展示数据：通过在输入框或者列表中选择指标种类和数值范围，使数据库中的数据按顺序显示在界面中。

语义查询模块2，语义查询模块支持***通过本体文件构建本体模型并按类进行语义检索查询。要进行语义查询，首先要从本地文件中选择本体文件，然后点击“生成本体模型”按钮生成本体模型，生成本体模型成功后，选择检索词类别和检索词，点击检索即可显示语义查询结果。语义查询模块具体分为本体构建和本体查询部分。本体构建部分负责为根据需求确定的本体构建对象构建本体模型。本体查询部分则负责对构建好的本体模型进行语义查询。

数据挖掘模块3，数据挖掘模块主要功能是对专题数据库中的数据进行分析挖掘，得到专题知识。***完成数据挖掘操作后，将数据分析结果导入到Excel表格中。数据挖掘模块具体分为FP-tree关联分析部分和随机森林分类部分。FP-tree关联分析部分负责反向挖掘出与专题知识关联度较高的指标。随机森林分类部分则负责选取这些指标的数据采用随机森林方法训练模型以完成随机森林分类。

FP-tree关联分析：关联规则发现就是从大量的数据中挖掘出有价值的、描述数据项之间相互联系的有关知识。随着收集和存储在数据库汇总的数据规模越来越大，人们对从这些数据中挖掘相应的关联知识越来越感兴趣。FP-tree是频繁模式树(frequentpatterntree)的简称，其主要作用是在频繁项集挖掘中存储关于频繁模式的压缩信息。它由一个根节点和作为其孩子的项前缀子树集合而成。项前缀子树的每个节点由三个域组成：节点名称、节点计数、节点链。其中节点计数表示到达该节点的路径上的事务个数，节点链指向树中具有同一名称的下一个节点。

随机森林分类：随机森林是一个包含多个无剪枝分类回归树的组合分类器。该组合分类器通过引入独立同分布的随机变量，利用训练集数据和随机变量生成决策树，最后利用集成学习的思想将所有决策树组合而成的。算法回归预测结果取各决策树预测值得均值。随机森林是一种有效的分类器方法，能有效缓解过渡拟合，这主要是由于随机森林在构建每棵决策树时引入袋装法和特征子空间法两大随机策略，使随机森林集成了各决策树的分类回归结果，抵消了部分随机误差，对异常值和噪声具有很好的容忍度。

地图聚合及可视化模块4，地图聚合及可视化模块主要利用得到的专题知识进行专题地图制作和展示。专题地图着重表示一种或数种自然要素或社会经济现象的地图。通过利用颜色渲染、图案填充、直方或饼状图形式将某种主题内容属性数据在地图上表现出来。利用专题地图的可视化效果，可以直观向用户展现相应的成果。在传统专题地图制图工艺流程的基础上，通过引入最新的地图制图及GIS技术，建立专题地图制作的新型地图制图工艺流程，重点解决专题图制图面临的“自动化”、“智能化”问题。具体流程分五步，首先获取地理底图和专题知识数据，然后设计图面版式，详细设计专题图表，进行图面冲突处理，最后输出地图。

所述开发环境为：

①操作***：软件环境为Windows 7、Windows 8或Windows10，软件要具备较好的可移植性，兼容32位和64位***。

②开发平台：ArcEngine 10.1组件包、TerraExplore 6.5组件包、.NetFramework4.0、Visual Studio 2010编译环境、C#4.0编译语言环境、MySQL数据库、eclipse编译环境、jena、Protégé

③硬件环境：不低于2GHz单核CPU或1.5GHz多核CPU、不低于4GB可用内存空间、不低于100GB可用磁盘空间、具备集成或独立网卡，且接入可连接运管和工作空间的局域网、不低于512mb显存的独立显卡。

所述运行环境为：

②运行平台：ArcEngineRuntime 10.1、Mysql、java、Mahout、.Net Framework4.0。

③硬件环境：不低于2GHz单核CPU或1.5GHz多核CPU、不低于4GB可用内存空间、不低于1TB可用磁盘空间。

本发明的物联网接口模块1主要为挖掘***提供数据支撑，语义查询模块2支持***通过本体文件构建本体模型并按类进行检索查询，数据挖掘模块3对专题数据库中的数据进行分析挖掘，得到专题知识。地图聚合及可视化模块4主要利用得到的专题知识进行地图制作和展示。

本发明实施例提供的专题知识自动挖掘方法包括以下步骤：

首先数据收集与建库，将基于web泛在网获取的数据、监测传感器的数据、各类专题资料收集整理存入专题数据库。

然后进行专题知识挖掘，通过本体构建、语义查询、深度信息挖掘形成专题知识，将文件传入FTP文件服务器；将从FTP文件服务器中获取的专题知识与地理底图进行地理关联，形成制图数据，设计图面版式、设计专题图表、图面整饰。

最后输出专题图。

下面结合数据下的GIS空间分析对本发明作进一步描述。

一、大数据下的GIS空间分析

1、平台搭建

课题所用集群由实验室三台主机搭建而成，集群主机配置如下表所示：

编号	机型	处理器	内存	硬盘	操作***
						1	ThinkStationP500	Intel至强E5-1600v3	16GB	1TB	CentOS-6.5
2	ThinkStationP500	Intel至强E5-1600v3	16GB	1TB	CentOS-6.5
						3	PrecisionT5810	Intel至强E5-1600v3	8GB	500GB	CentOS-6.5

2、数据预处理

本发明提出了几种基于MapReduce架构的对栅格地图数据处理的算法思想，并在实际集群中编程实现。方法涵盖了坡度、缓冲区、欧式分配、插值、核密度等常用的栅格地图处理以及对栅格数据的统计计算。为了直观观察数据内容和方便编程实现，在进行运算之前统一用ArcGIS 将栅格数据TIFF文件转换成文本文件格式；

该文件内容依次表示图像列数、图像行数、图像位置坐标、图像分辨率、缺省值，这些数据在进行MapReduce分布计算时需要传入该JOB 的配置文件Configuration中作为全局参数使用。之后是图像每个像素位置的值，根据图像的不同值所代表的意义也不同。

转换完成之后还需在图像矩阵每行的头部***其行编号以便数据经拆分后能还原。将预处理之后的图像文件直接放入Hadoop的分布式文件***HDFS中。

3、算法实现

不同算法在MapReduce架构下对图像的拆分与组合的方式也不尽相同，但其中也有规律可循，本节将把实现过程相近的算法进行分类，按大类进行讲解。

(1)坡度类

该类算法需要找出每个像元周围矩形范围内的多个像元的值，利用这些值来对目标像元求解输出结果，主要应用有求解坡度、坡向等。

假设现有部分高程图像的矩阵：

现欲求A33处的坡度值，需要获取矩形方框内九个像元的值，假设图像分辨率为g，则坡度公式为：

f_y＝[A₂₂-A₄₂+2(A₂₃-A₄₃)+A₂₄-A₄₄]/(8g)

f_x＝[A₂₂-A₂₄+2(A₃₂-A₃₄)+A₄₂-A₄₄]/(8g)

当Map过程遍历到A23时输出K-V对：

{<1 3><3 A22 A23 A24>}

{<2 3><2 A22 A23 A24>}

{<3 3><1 A22 A23 A24>}

当Map过程遍历到A33时输出K-V对：

{<2 3><3 A32 A33 A34>}

{<3 3><2 A32 A33 A34>}

{<4 3><1 A32 A33 A34>}

当Map过程遍历到A43时输出K-V对：

{<3 3><3 A42 A43 A44>}

{<4 3><2 A42 A43 A44>}

{<5 3><1 A42 A43 A44>}

当Reduce过程遍历到A33时，输入的K-V对：

{<3 3><1 A22 A23 A24>

<2 A32 A33 A34>

<3 A42 A43 A44>}

随后在每个像元Reduce过程中便可利用公式求出其坡度。将成都市都江堰地区90M分辨率DEM图像(TIF文件约214MB，与处理后的文本文件约637MB)分别用AroGIS以及MapReduce两种方法求解坡度之后截取部分结果图像作对比，对比如下：

经验证MapReduce结果中偏差在10％以内的点占总像素点的88.63％还有一定提升空间，该误差可能是由于AroGIS内部封装的坡度算法采用的公式相较于普通坡度计算公式有所改进。从图像观察可知，两幅图像均能较清楚地反映出当地坡度变化情况。两种方法各运行五次，串行情况下AroGIS处理该幅图像平均用时约144秒，MapReduce框架处理该幅图像平均用时约116秒，随着文件体谅的增大以及MapReduce集群主机数增多，并行计算在处理时间上的优势会更加明显。

(2)欧式距离类

该算法适用于已知部分散点(源像元)的值，成图中的每个像元需要根据它们与所有源像元位置关系来求值的问题。如欧氏距离、欧式分配 (泰森多边形)、反距离插值等。

假设现有栅格图像部分像素矩阵：

现已知<1，2>、<3，1>两个源像元，Map过程遍历矩阵找出所有源像元并放入每一行：

Reduce过程中遍历每一行的每一个像素，分别求出他们与每个源像元的几何距离，取最小距离作为结果写入输出：

在12000*12000的栅格图像上手动选取26个点作为源像元，预处理的图像大小约620MB，分别用ArcGIS以及MapReduce两种方法求解坡度之后截取部分结果图像作对比，对比如下：

经验证MapReduce结果中偏差在5％以内的点占总像素点的98.64％，由于距离公式相对而言比较简单不会有太大差别，所以计算结果误差较小。从图像观察可知，两幅图像均能较清楚地反映出每个像素点与源像元的距离。两种方法各运行五次，串行情况下ArcGIS处理该幅图像平均用时约143秒，MapReduce框架处理该幅图像平均用时约108秒，随着文件体谅的增大以及MapReduce集群主机数增多，并行计算在处理时间上的优势会更加明显。

(3)核密度类

该算法适用于已知部分散点(源像元)的值，成图中只有源像元周围一定距离内的像元需要求值的问题。

当目标点x位于n个源像元分析范围内时，核密度公式为

设某图像矩阵有AB两个源像元，半径占像元个数rcell＝r/cellsize＝1，如下表所示：

Map过程中将每个源像元的行列号以及取值放入半径范围内的行中，没有被影响的行置空：

Reduce过程中被置空的行所有像元输出空值，其他行中若像元在源像元影响范围内求其核密度，否则输出空值：

在12000*12000的栅格图像上手动选取75个点作为源像元，为每个像元赋一个200～20000不等的初始值，设每个点影响半径达500个像元，预处理后的图像大小约620MB，分别用ArcGIS以及MapReduce两种方法求解坡度之后截取部分结果图像作对比，对比如下：

设每个点影响半径达1000个像元时结果对比。

经验证实验一结果中偏差在5％以内的点占总像素点的95.84％，实验二结果中偏差在5％以内的点占总像素点的96.56％误差较小。从图像观察可知，两幅图像均能较清楚地反映出图幅范围内点影响度情况。每个实验两种方法各运行五次，实验一串行情况下ArcGIS处理该幅图像平均用时约136秒，MapReduce框架处理该幅图像平均用时约192秒，实验二串行情况下ArcGIS处理该幅图像平均用时约140秒，MapReduce 框架处理该幅图像平均用时约214秒。该试验中ArcGIS明显比MapReduce处理时间短是因为对于核密度计算ArcGIS只能基于矢量点图层开展，在绘图过程相较于基于栅格图像开展的MapReduce省去了第一次遍历矩阵的过程更加简洁，因此前者效率更高。

下面结合关键算法模型设计对本发明作进一步描述。

二、关键算法模型设计

1.本体语义模型

本体是共享概念模型的明确的形式化规范说明。这个定义的说明体现了本体的含义：概念模型通过抽象出客观世界中一些现象的相关概念而得到的模型，其表示的含义独立于具体的环境状态。明确所使用的概念及使用这些概念的约束都有明确的定义；形式化本体是计算机可读的；共享本体中体现的是共同认可的知识，反映的是相关领域中公认的概念集，它所针对的是团体而不是个体。

本体的目标是捕获相关领域的知识，提供对该领域知识的共同理解，确定该领域内共同认可的词汇，并从不同层次的形式化模式给出这些词汇和词汇相互关系的明确定义。

由于构建本体常常是面向某个特定的学科领域，所涵盖的范围大、本体内部属性关系错综复杂，所以更需要一个好的方法来规范本体的构建过程，力求使构建者在整个过程中保持一致性。然而目前还没有一套统一的方法可以达到上述目标，常用的本体构建方法有如下几种：骨架法、METHONTOLOGY法、SENSUS法、IDEF5法、七步法等。

(1)本体构建的步骤

本***采用的七步法构建本体，斯坦福大学医学院开发的七步法主要用于领域本体的构建，步骤是先确定本体的专业领域和范畴；考查复用现有本体的可能性；列出本体中的重要术语；定义类和类的等级体系(完善等级体系可行的方法有：自顶向下法，自低向上法和综合法)；定义类的属性；定义属性的分面；创建实例。

(2)本体的查询

Jena是一款由HP实验室开发的JAVAAPI,用来支持语义网的有关应用。支持OWL、DAML+OIL以及RDFS等描述语言，支持Oracle、SQLServer、 MySQL等数据库访问，拥有ARQ查询引擎，支持SPARQL或RDQL查询语言。

Jena主要有以下几种功能：以三元组的形式读写RDF文件。RDF是W3C描述资源的一项标准，使用Jena可以快速读取RDF文档内容、创建RDF模型、写入内容以及查询；提供了用于处理基于RDF模型的本体API，支持对RDFS、DAML+OIL和OWL语言描述的本体进行操作。通过推理子***的结合，二者可以从特定本体中提取相关信息；支持本体的文件和关系数据库两种存储方式；提供查询引擎，其中SPARQL是一种基于RDF的查询语言，提供查询程序需要的描述，将作为查询条件的三元组与本体模型中的三元组进行匹配，以绑定集合的形式返回结果；其推理机制提供技术构建推理规则，在创建本体模型是将推理机与模型进行并联以实现基于规则的推理。本体查询是根据使用者的特定条件从本体当中进行查找以获取符合需求的本体类、属性、实例以及与之相关的信息的重要手段。

对于层次清晰关系明确的本体，在进行检索时根据用户的需求可将查询进行分解，在本题中查询完毕之后返回结果，使用户与信息***沟通效率得到提高。在检索过程中，本体为用户提供多个检索入口。由于本体内部元素是以三元组类型存储，所以基于本体的查询的结果会反映出更多、更全面的本体数据库中与之相关的信息。

2.FP-Tree关联分析

关联规则发现就是从大量的数据中挖掘出有价值的、描述数据项之间相互联系的有关知识。随着收集和存储在数据库汇总的数据规模越来越大，人们对人们对从这些数据中挖掘相应的关联知识越来越感兴趣兴趣。

FP-tree构造算法的步骤：

(1)扫描事务库D，获得D中所包含的全部频繁项集1F，及它们各自的支持度。对1F中的频繁项按其支持度降序排序得到L。

(2)创建FP-tree的根结点T，以“null”标记。再次扫描事务库。对于D中每个事务，将其中的频繁项选出并按L中的次序排序。设排序后的频繁项表为[p|P]，其中p是第一个频繁项，而P是剩余的频繁项。调用insert_tree([p|P],T)。insert_tree([p|P],T)过程执行情况如下：如果T有子女N使N.item_name＝p.item_name，则N的计数增加1；否则创建一个新结点N，将其计数设置为1，链接到它的父结点T，并且通过node_link将其链接到具有相同item_name的结点。如果P非空，递归地调用insert_tree(P，N)。FP-tree是一个高度压缩的结构，它存储了用于挖掘频繁项集的全部信息。FP-tree所占用的内存空间与树的深度和宽度成比例，树的深度一般是单个事务中所含项目数量的最大值；树的宽度是平均每层所含项目的数量。由于在事务处理中通常会存在着大量的共享频繁项，所以树的大小通常比原数据库小很多。频繁项集中的项以支持度降序排列，支持度越高的项与FP-tree的根距离越近，因此有更多的机会共享结点，这进一步保证了FP-tree的高度压缩。

为了更直观地理解FP-tree，下面讲解一个简单的实例。下表1显示了一个数据集，它包含10个事务和5个项。(可以把一条事务都直观理解为一个高AQI地区对应的一些高指标监测项目，我们利用算法来发掘其中支持度以及关联度比较高的项目)。

表1 FP-tree数据集

ID	项
		1	{a,b}
2	{b,c,d}
		3	{a,c,d,e}
4	{a,d,e}
		5	{a,b,c}
6	{a,b,c,d}
		7	{a}
8	{a,b,c}
		9	{a,b,d}
10	{b,c,e}

读取第一个条目之后构建的FP-tree如下表：

读取前三个条目之后构建的FP-tree如图17：

读取全部十个条目构建的FP-tree如图18：

通常，FP树的大小比未压缩的数据小，因为原始数据的事务常常共享一些共同项，在最好的情况下，所有的事务都具有相同的项集，FP 树只包含一条节点路径，当每个事务都具有唯一项集时，导致最坏情况发生，由于事务不包含任何共同项，FP树的大小实际上与原数据的大小一样，然而，由于需要附加的空间为每个项存放节点间的指针和技术，FP树的存储需求增大。

这棵FP-tree构建完成之后其HeadLink表如下：

表2 HeadLink实例

ID	频数	指针
			a	8	指向第一个a
b	7	指向第一个b
			c	6	指向第一个c
d	5	执行第一个d
			e	3	指向第一个e

利用FP-tree作为从频繁项集到数据集的过渡桥梁，可以看作是基于FP-tree的频繁项集挖掘的反向过程。

步骤大体如下：首先，找到一个满足给定频繁项集合支持数约束的FP-tree；然后，通过该FP-tree生成一个满足给定约束的、仅有频繁项构成的临时数据库TempD；最后，在该临时数据库TempD的基础上，通过在最小支持数阀值得限制下，撒入非频繁项生成一系列满足约束的目标数据库。

反向挖掘算法中FP-tree作为频繁项集与数据集的过渡桥梁，可以看作是基于FP-tree的频繁项集挖掘的反向过程。FP-tree作为一种非常紧凑的数据结构，存储了事务数据库与频繁项集挖掘相关的全部信息，可以看成是原始数据库和对应的频繁项集的中间产物，使得从给定的频繁项集到数据库的转换过程变得平滑、自然且容易。在构建PF-tree之后通过该FP-tree生成一个满足给定约束的、仅由频繁项生成一系列满足约束的目标数据库。

在构建好FP-tree之后，算法首先查找以e结尾的频繁项集，接下来是b,c,d，最后是a，由于每一个事务都映射到FP树中的一条路径，通过仅考察包含特定节点(例如e)的路径，就可以发现以e结尾的频繁项集，使用与节点e相关联的指针，可以快速访问这些路径，下表显示了以e节点结尾所提取的路径如图19：

通过以上路径发现以e结尾的频繁项集之后，将这些集合每一条中的e都去除，得到一个新的集合成为e的前缀路径集。上图中e的前缀路径集为{{a,c,d},{a,d},{b,c}}，前缀路径中b只出现了一次没有达到频繁条件的要求故舍去，此时{{a,c,d},{a,d},{c}}称为e的频繁模式基，由它新建立的FP-tree成为e的条件FP-tree，如图20：

接着以递归的方式向上求解{e,d}、{e,c}、{e,d,c}、{e,d,a}、{e,d,c,a}直到不能再构建出条件FP-tree。同样的方法求解d、 c、b、a所有项目结尾的数据集，统计每次满足频繁条件的频繁模式基即可找出频繁项集。

3.随机森林分类模型

随机森林分类模型，主要运用于对专题知识进行分类管理。随机森林算法是机器学习领域中的一种集成学习方法，它通过集成多个决策树的分类效果来组成一个整体意义上的分类器。随机森林算法相比其他分类算法而言有诸多优势，分类效果上的优势体现在分类准确度高、泛化误差小而且有能力处理高维数据，训练过程的优势体现在算法学习过程快速而且易于并行化。基于这两大优势，随机森林算法得到了广泛的应用，已经成为处理分类问题优先选择的算法之一。

随机森林计算流程图见图6。第一步，采用自举法从原始数据集中随机抽取K个不同样本数据集，作为各决策树的子训练集，个样本容量和原始数据集相同，每次未被抽样的数据组成袋外数据；第二步，对每个样本数据集分别建立分类回归树，生成K棵决策树，在生成过程中，对于决策树的每个节点，原始数据变量集随机采样得到变量子集，根据Gini指标最小准则从子集中选取最有变量进行节点***、分枝；第三步，每棵分类回归树从上至下递归分枝生长，直到达到设定的叶节点最小尺寸nodesize，决策树停止生长，所有决策树组合成随机森林；第四步，将测试数据输入随机森林模型，利用K棵决策树分别预测，取各决策树预测结果的平均值为回归值，即预测值

在随机森林算法中，决策树的棵数决定分类精度，决策树的棵数过少会直接影响分类精度；过多则容易导致过拟合同样也会影响分类精度。通过建立不同的决策森林，对它们产生的结果进行验证。由于随机森林算法在构建时有一定随机性，所以即便是同样的参数在每次构建新的随机森林后的精度验证结果都会围绕其真实结果水平向上或向下产生一定偏差。

下面结合***详细功能设计对本发明作进一步描述。

三、***详细功能设计

基于以上成果，开发专题地图知识自动挖掘***，可实现城市管理专题地图知识及信息的自动生成，为智慧城市管理决策提供泛在的智慧信息服务。

本发明采用C/S架构，利用Arcengine进行二次开发，Geodatabase地理数据库模型。***形成4个主要的功能模块。

专题知识自动挖掘***按流程分为五步，首先数据收集与建库，将基于web泛在网获取的数据、监测传感器的数据、各类专题资料收集整理存入专题数据库；然后进行专题知识挖掘，通过本体构建、语义查询、深度信息挖掘形成专题知识，将文件传入FTP文件服务器；将从FTP 文件服务器中获取的专题知识与地理底图进行地理关联，形成制图数据，设计图面版式、设计专题图表、图面整饬，最后输出专题图。其流程图如图3所示。

1.基于网络的数据获取

(1)通过API从互联网获取数据

在网络数据界面点击获取数据，***会自动开始从网络上获取空气质量数据并存储到数据库中。相似地，在GPRS数据界面点击获取数据， ***会自动向设备发送指令，并开始监控相应端口获取传输来的数据。

(2)数据检索和展示

通过查询数据功能，可以根据查询条件查询并展示数据库中的数据。通过填写起止时间来显示某个时段内获取的数据，当起止时间为空时， ***将显示数据库中的所有数据。用户可以选择各项指标字段，根据字段值的范围来查询想要展示的数据库数据：

(3)导出数据

当需要将数据库内的设备监测数据导出时，点击界面上的“导出Excel表”，选择导出路径后，点击“打开”即可将数据库内的监测数据导出Excel表格到指定路径中。

2.本体构建和语义查询

(1)本体构建

本体构建是***进行语义查询最基础的一步，也就是生成本体模型。本体模型标准格式为OWL格式，OWL(Web Ontology Language)是 W3C开发的一种网络本体语言，用于对本体进行语义描述。一方面保持了对DAML+0IL/RDFS的兼容性，另一方面保证了更加强大的语义表达能力，同时还保证描述逻辑(DL，Description Logic)的可判定推理从本地文件中选择本体文件，然后通过生成本体模型功能构建本体。

(2)语义查询

生成本体模型成功后，在列表中选择检索词类别和检索词，通过检索功能即可显示语义查询结果。

3.关联分析

(1)生成关联数据集

要进行相关性分析，首先要从本地文件中选择原始数据集，然后通过生成关联数据集功能对原始数据集进行处理，将原始数据集处理成可以进行关联分析的关联数据集。此处原始数据集为表格格式，生成的关联数据集为txt格式。生成关联数据集成功后。

(2)关联分析

生成关联分析数据集成功后，选择生成好的关联分析数据集，设置频繁度阈值，通过关联分析功能即可显示相关性分析结果，输入选择参数，点击“生成分类数据集”按钮可以生成接下来进行随机分类的数据集。

4.随机森林分类

(1)完成分类

要进行随机森林分类，首先将分类数据集传入Linux***分布式文件管理***指定文件路径/user/hadoop/2014AQI/test/下(需要使用虚拟机)，填写虚拟机IP地址、数据集指标个数、决策树参数个数和森林决策树棵数，然后依次使用“生成描述”、“构建森林”或“开始分类”功能完成分类。

(2)分类结果导出

将分类结果part-m-00000导出至windows***，在分类结果和原始数据集两栏分别选取该结果和原始数据集，点击“导入分类结果”按钮将分类结果导入原始数据集表中。

5.专题图生成

(1)专题地图的数据源

专题地图包含基础底图和专题内容。基础底图是专题内容的定位依据，并提供说明专题遍历与周围地理环境之间的关系。而专题内容是由地图的主题所决定，通常，基础底图是以同比例尺的普通地理图和影像地图作为基本资料来编制的，专题内容使用的资料有多种来源。

利用地理国情普查数据中DLG、DEM等数据，将DLG中的行政区划数据作为普通底图数据。

实时发布空气质量数据，本发明利用两种方式采集实时空气质量数据；一种是在四川省选取若干监测点，利用空气监测与采集设备，实时采集空气质量指标数据；另外一种方式是利用互联网技术，从网络(“如和风天气”等准实时数据提供方)上获取全省各市空气质量等现势数据。这些数据来源于各监测点实时监测设备，并经过适当加工处理。技术路线如图7所示。

历史空气质量数据：利用网络爬虫技术，在相关有参考价值的网络上获取四川省各个区域的历史数据。

基于采集到的数据本身的特征，具有多样性，结构复杂。一般来讲，数据资料大致有三种模式：结构化、非结构化和半结构化。结构化数据多以二维表的形式存在，如关系型数据库、excel表格，本次收集的2015年历史空气质量数据；非结构化数据多以无固定规律的文本文档形式出现，如统计年鉴等；而半结构化数据基于两者之间，典型地，以HTML网页格式存在于互联网(也包括网页背后的XML和JSON等格式)。

(3)专题地图编制

在传统专题地图制图工艺流程的基础上，通过引入最新的地图制图及GIS技术，建立专题地图制作的新型地图制图工艺流程，重点解决专题图制图面临的“自动化”、“智能化”问题。具体设计流程如图8所示，首先打开专题图工程，添加当前需要编辑的专题页面，然后依据制图模板进行符号化、图面编辑、图廓整饰、板式设计，专题图设计等，完成后检查人员进行地图冲突检查，图面有问题的话人工交互修改，直至没有错误，完成专题地图制作。

下面结合专题图集编制的具体工作流程对本发明作进一步描述。

专题图集编制的具体工作流程大致分为以下几个模块进行：

1、页面设计

①页面创建

输入页面标题，选择页面类型。页面创建完后可以设置为当前页。

②页面管理

主要完成对页面页码的调整，页面的信息的修改，页面的删除。

2、版式设计

①地图边框设计

选择边框要素，设置花边尺寸，背景颜色，线条颜色等参数，***自动设置地图花边边框。

②地图页面设计

选择页面整饰要素，设置高度宽度等参数，***自动设置相应的页面要素。

选择相应的整饰要素，点击地图，***将在指定位置生成页面要素。

3、数据编辑

①数据选择工具；用于选择要素。

②编辑器选择工具：编辑状态下选择要素。

③旋转：旋转要素。

④线反向：使线要素起点与终点对换。

⑤合并：合并相邻面要素。

⑥面分割：将一个面要素分割为两个或多个。要先选中待分割要素。

⑦修线：改变线要素目前的弯曲状况等。只能选择一个要素。

⑧创建要素。

4、数据标准化

①等差分级标准化

等差分级标准化中有两种分级模型，根据需要，可自行选取合适的模型对数据分级。

②等比分级标准化

等比分级标准化中有两种分级模型，根据需要，可自行选取合适的模型对数据分级。

③统计分级标准化

统计分级标准化中根据统计值的标准差进行分类。

5、专题设计

①专题图渲染。

在至少4种颜色的基础上，生成的图层相邻区域颜色不相同。

②专题条形图。

(1)数据准备。

(2)专题条形图生成。

③专题柱状图。

三维数量柱状图。

(1)数据准备：全省各市产业活动单位数。

(2)数量柱状图属性设置。

若与图层不关联，则不设置关联属性。此例子关联了图层。

二维数量柱状图

(1)数据准备。

(2)数量柱状图属性设置。

若与图层不关联，则不设置关联属性。此例子关联了图层。

④专题饼状图。

(1)数据准备。

(2)三维环状饼图属性设置。

三维饼状图及三圆饼图的生产与三维环状饼图一致。注意，若饼图与图层关联，要设置其关联属性。

⑤专题折线图。

(1)数据准备。

(2)折线图属性设置。

⑥专题图表设计。

⑦专题图编辑。

(1)专题图表编辑：设置图表Size及符号属性。

(2)专题图表移动：移动图表到合适的位置。

6、符号冲突处理

①通用工具。

(1)要素边化简。

(2)水路冲突探测：探测河流域道路间的距离，并标注出相隔太近的河流域道路。

7、注记

①添加注记：设置注记的文本内容、字体、字体大小等属性。

注记添加成功，若要更改注记的属性，选中待更改属性的注记，打开属性表，即可更改，如图中蓝色小圈内。

8、输出成图

在出版视图下将已经排版好的专题图输出为打印版成图。

利用挖掘知识进行分类的结果制图。等级1代表年均AQI为0～25，等级2代表年均AQI为25～50，等级3代表年均AQI为50～75，等级4 代表年均AQI为75～100，可以看出城市空气质量与人口、生产总值等指标都有关系，但主要影响各城市空气质量的还是风向。

历史统计专题图是利用四川省各县2016年5-10月，统计各县拥有优、良、轻度污染、中度污染、重度污染及严重污染的天数，用户可以清晰明了的看出四川哪些区域的在5-10月这段时间期间的空气质量的状况。如阿坝州的空气质量最好，几乎全部是优。可以看出越城市化的地方，经济发达地区，人口聚集越多，空气质量的状况越不好。

根据历史统计专题图的发布，可以具体对某些地区进行空气质量分析，找出相应的污染源，给政府机关提出建设性的建议。

下面结合数据库建设对本发明作进一步描述

四、数据库建设

1.建设技术路线

本发明从支撑智慧城市数据挖掘的角度提供建库方案，统一管理智慧城市数据，主要的数据包括空间基本数据(如水系数据、行政区域数据、交通线数据)、城市数据(如人口数据、人口收入数据、空气质量数据等)，并合理的搭建数据库平台，让各类数据能够为数据挖掘服务。

面向智慧城市的地理信息数据库需要把它放在整个智慧城市建设框架中，分析地理信息数据库的位置、作用以及与其他部分的关系，地理信息数据库在支撑和构建城市管理应用的场景如图10。

在图中可以看到地理信息***内部核心是各类数据库集合，包括城市基础库、应用专题库、共享交换库、个性化服务产品库以及资源目录与元数据库等。数据库作为城市管理的各类数据集中管理中心，它发挥了以下作用：(1)作为智慧城市地理信息资源的元数据管理中心；(2) 构建智慧城市统一的地理信息资源检索中心；(3)支撑城市管理信息化基础设施建设。

面向智慧城市管理的物联网数据接入、海量数据集中存：、多源数据统一管理、异构***数据交换共享、个性化产品制作等能力要求，数据仓库的建设需要在大型商业数据仓库技术基础上，以政策标准保障体系为基础，应用成熟数据库理论和方法，结合体系架构，突破多项关键技术，引入最新数据库、存等技术，最终构建地理信息数据库***。面向智慧城市的地理信息数据库***建设框架如图11所示。

数据库总体框架以标准规范体系和安全保障体系为基础和支撑，采用多层体系架构，分为源数据层、数据导入层、数据存储层、数据管理层、数据挖掘层、数据服务层和用户层。标准规范体系：是面向城市管理的地理信息仓库建设与运营最重要、最基础的工作之一，旨在有目标、有计划、有步骤地规范和标准化地理信息仓库建设的建设与运营。

安全保障体系：建立地理信息仓库安全保障体系的目的是保护地理信息仓库的信息安全，保障数据在生产、加工、传输和存储等生命周期各个阶段安全。源数据层：由于城市地理信息资源丰富，涉及部门众多，具有多源、异构、海量等特点。数据导入层：在确定数据仓库信息需求以后，需要进行数据建模，确定从数据源到数据仓库的数据抽取、清理和转换过程，分析、划分维数以及确定数据仓库的物理数据模型及存储结构。

(2)数据存储层：数据存储层是数据仓库的核心，分为元数据和实体数据两大部分，是数据仓库对外提供服务的主体。

(3)数据挖掘层：是数据仓库面向主题对外提供服务的窗口，利用数据挖掘技术，通过标准产品加工、统计分析、应用定制等方式，实现个性化产品制作。(数据服务层：向用户提供包括目录服务、地图服务、数据访问服务和集成展示服务等多种服务应用。

(4)数据管理层：数据管理层提供支撑数据仓库的定义、管理、服务、运行维护的所有管理工具。由以上可以分析总结，在智慧城市的建设中，地理信息资源情况纷繁复杂，核心需要解决的就是海量地理信息资源从集中存：、多源数据统一管、异构***数据交换共享到个性化产品制作完整能力构建，因此需从以下四类关键技术开展分析与设计，以解决地理信息数据仓库***建设的核心问题，支撑***研发与实现。

2.数据库设计与实现

(1)需求分析

为实现智慧城市数据库数据管理与应用，在建成的空间数据库基础上需要构建智慧城市数据库。数据库***应满足空间数据集成管理、数据库更新维护、***安全管理、成果应用服务等几个方面的应用需求。数据库***最基本的需求是各种成果数据集成管理与显示，为此需要在数据库基础上开发对智慧空间数据和非空间数据的资源管理、集成显示与查询检索等方面功能，具体应包括以下几个方面：

(1)成果数据一体化管理：要求智慧城市成果数据以及收集整理

的专题数据、城市统计结果数据等的一体化存储和管理。

(2)数据可视化：实现各类成果数据的符号化与二维叠加显示以

及基于地形与高分辨率遥感影像的三维地形显示、二三维联动等功能。

(3)综合查询检索功能：需要基于数据库的综合查询检索功能，包括空间位置与属性信息互查、长度和面积量测、统计单元查询、遥感解译样本查询、空气质量、地表覆盖及交通要素查询、缓冲区查询、元数据查询等多种方式的查询索功能。

(2)数据更新与维护

为方便数据库更新维护，***需具备数据入库检查、数据预处理、

数据入库、数据交换、路网和水网构建、历史数据管理维护等方面的功能。

数据入库检查：对数据入库或更新的数据进行必要的入库前检查，内容包括待入库数据的文件与结构一致性、拓扑一致性、逻辑一致性、空间参考及矢量数据接边的正确性，确保数据能够顺利入库和更新。

数据预处理：对入库检查后的成果数据在入库前进行对象化预处理，包括成果数据整理、投影转换、属性结构调整、对象要素合并、对象实体编码、数据派生提取、水系与道路网络数据处理等方面的功能。

数据入库：对完成对象化预处理的地理国情数据或收集整理的专题数据进行入库或对库中数据进行更新。

数据交换：除实现数据库更新和对外分发服务的数据输入输出外，还需具备省级数据库和国家级数据库之间的数据交换功能，省级数据库中数据导出后能导入到国家级数据库中，对省级区域或部分区域进行数据更新。

路网和水网构建：按照道路网络与水系网络数据模型，在数据库环境下构建道路网络和水系网络。

历史数据管理：为实现历史数据管理，***需具备对地理国情普查数据库历史信息的有效管理，建立空间信息和属性信息的历史演变关系，提供历史回溯或多个时点地理国情的功能。其具体的管理功能应包括：数据更新时库中的当前数据转为历史数据、数据查询检索、删除维护、版本数据提取、导出数据等方面的功能。

(3)数据库总体设计

智慧城市数据库***总体上由基础设施、数据库、数据库管理和应用服务***、数据库建设技术规范等四部分构成如图12所示。

基础设施：是支撑整个数据库管理和应用服务***运转的软硬件和网络环境，主要包含计算资源、存储资源、网络资源以及安全设备等的 IT基础设施资源。可采用虚拟化技术，对基础设施资源进行虚拟化管理，实现云基础设施平台。

数据库：是整个数据库***的数据资源，提供数据的存储和管理能力，分普查成果、统计分析成果、专题数据三大类、七个子库。地理国情普查数据库的七个子库分别是地形地貌、遥感影像、遥感影像解译样本、地表覆盖、地理国情要素、专题数据、地理国情统计分析成果等数据子库。

数据库管理和应用服务***：基于基础设施和数据统一访问接口，设计开发数据更新维护、***安全管理方面的功能组件以及二三维可视化、查询检索、统计分析、成果发布等服务接口，在此基础上面向桌面端、WEB端不同的应用模式来构建数据库管理与应用服务***。

数据库建设技术规范：规定数据库的数据内容，数据库设计要求、技术流程、运行环境和***安全设计要求、省级数据建库成果汇交等要求，确保省级数据库和国家级数据库统一。

(4)数据库概念设计

(1)空间基础数据(如图13)主要由交通线、境界线、水系线组成，它描述了一个区域内基本地貌组成，需要在道路要素及交通附属设施基础上构建道路网络，在水系要素及水工设施基础上构建水系网络。其中道路设施和水系主要是由具有方向性的弧段组成，弧段都具有方向性，每一个弧段代表相邻两个点之间的连线。结点起到对边的连接作用，引导从一条弧段到另一条弧段的移动。境界线是由弯弯曲曲、弧段组成，每个封闭的弧段代表一个行政区域。

交通线实质是网状结构，它由网络边、网络结点、障碍限制点三类要素构成。其中网络边由公路、铁路等各路段组成，道路路段具有方向，可单向或双向通行，其中公路又分为高速公路、国道、省道、县道等，城市道路可分地铁(轻轨)及其它城市道路。网络结点由高速公路出入口、道路交叉口、断头路终点、地铁(轻轨)车站等组成，主要起着路段和路段的连通作用，高速公路在与其它道路相交时只有高速公路出入口的地方才能与其它道路连通，在平面交叉路口处路段与路段间连通关系分为直行、左转和右转。障碍限制点对交通某些方面有限制因素，包括公路桥、隧道等。

水系网络由水系弧段和水系结点、障碍点等组成。水系弧段包括河渠中心线结构线以及为贯通水系而采集的河渠遇水库、坑塘和湖泊等的结构线等，水系弧段具有流向，水系结点为水系交汇点和河流源头、河流终点(入海口)，其中交汇点起到对边的连接和流向作用。相对于水系来说，水坝和水闸等水工附属设施可以人为对水流产生分流或阻隔，影响水流量、流向和船舶通行的作用，因此水系网络还包括水系上面的一些障碍限制点。其中对水流有影响水坝有滚水坝和拦水坝，水闸包括进水闸、退水闸、节制闸、挡潮闸、船闸、渠首闸。

(2)城市数据(如图14)主要由行政边界线、空气质量数据、社会统计数据组成，它是城市的一个代表性指标行政边界线是区分行政管辖范围的界线，这是一个四川省各县城的行政区分界线，用它可以进行分区统计自己辖区内的一些数据，比如水系密度、人口密度图等。

社会统计数据与地理单元紧密相关，指标本身不能算是一个实体对象，把指标所描述的区域当做一个实体，各项指标作为组成部分进行支撑。所以它需要行政边界数据作支撑。

空气质量数据反映一个城市的空气污染程度，空气污染是一个复杂的现象，在特定时间和地点空气污染物浓度受到许多因素影响。来自固定和流动污染源的人为污染物排放大小是影响空气质量的最主要因素之一，其中包括车辆、船舶、飞机的尾气、工业污染、居民生活和取暖、垃圾焚烧等。城市的发展密度、地形地貌和气象等也是影响空气质量的重要因素。

(3)***管理数据概念模型

数据库***管理数据包括数据库***管理所需的各类数据，包括用户数据、权限数据、日志数据、数据字典、地理国情概况等。概念模型实体对象包括用户、功能权限、功能、数据权限、数据目录、***日志、数据字典等。此外，由于空间地理基础数据相当于1：5万或1：1万比例尺级别的地理数据，为方便***管理和满足***数据分级显示的需要，在空间地理基础数据和现有1：100万基础地理数据的基础上整合处理形成地理国情概况数据作为小比例尺显示数据。***管理数据概念模型如图15所示。

(5)数据库逻辑设计

地理国情普查数据库基于GeoDatabase模型进行逻辑设计，使用SDO_GEOMETRY类型字段存储GIS的空间数据，所有数据统一在2000国家大地坐标系、以度为单位地理坐标下建库。全国地情国情数据库名称为GNCDB，省级数据库名称由GNCDB+2位省级行政区名称字母缩写代码组成，省级行政区名称字母缩写代码依据GB/T 2260确定。

数据库中数据分矢量数据集、表格数据、文档数据等几种形式进行存储和管理。其中矢量数据集包括道路网络、水系网络、地理单元元数据、专题数据、统计分析成果数据等数据集，普通表格数据包括社会经济统计数据、网络关系、表、其它表格数据等。数据库总体逻辑结构如图16所示。

所有矢量要素层数据范围均以整个建库范围(国家建库为全国，省级建库为本省、自治区、直辖市)逻辑上无缝拼接。由于统计分析主要按县级行政区为单元进行计算，为了提高数据的访问性能和统计分析效率，建库时对于数据量大的图层，以县级行政区为基本单元进行分区处理，即在数据库中，数据量较大的图层逻辑上仍是作为一个数据层进行存储和管理，在县级行政区划内，属性完全相同的相邻要素对象须在物理上做合并处理，但在不同行政区间相邻的相同对象要素只在逻辑上接边，物理上断开。其中矢量数据的道路网络、水系网络、社会经济统计数据、网络转向表等表格数据的设计在全国数据库和省级数据库中都须遵照执行，其余数据在省级数据库中为可选择执行。

数据库逻辑设计需要在原数据上增加以下几个方面内容：

实体数据对象化编码：为方便普查数据对象化查询与统计分析，对各矢量要素层各要素添加要素唯一标识符(OBJECT字段)，对道路要素、水域要素等实体进行对象化处理，添加对象化编码(实体名称字段)、为了详细区分它们的行政直辖范围添加县市(ID)属性字段。

道路和水系网络：在道路和水域、构筑物等普查成果数据基础上，按照道路和水系网络数据模型构建道路和水系网络。铁路数据和水域数据在构网后形成铁路网和水系网数据。公路网数据由公路、城市道路、乡村道路合并形成。

(1)交通线要素逻辑设计

为了简便设计，在数据库中只保留交通线层：

表3交通线层表

字段名称	数据类型	长度	可否为空	备注
					OBJECTID	Object ID
Shape	Gemetry		Yes
					分类代码	Long		Yes
分类名称	String	60	Yes
					实体名称	String	60	Yes
道路编码	String	10	Yes
					主区	String	10	Yes
副区	String	10	Yes
					Shape_Length	Double		yes
县(市区)	String		Yes
					县(市区)ID	String		yes
Shape Type	String		yes	属性值是line

(2)境界线逻辑设计

境界线也就是行政区划线数据分国家级行政区、省级行政区和特别行政区、地级行政区、县级行政区、乡镇行政区、各级行政区界线、行政村、城市中心城区、其他特殊行政管理区等数据层。这里只使用县级行政区界线。

表4境界线层表

字段名称	数据类型	长度	可否为空	备注
					OBJECID	ObjectID
SHAPE	Geometry		yes
					分类代码	Long		Yes
分类名称	String	60	Yes
					主区	String	10	Yes
副区	String	10	Yes
					SHAPE_Length	Double		Yes
县(市区)	String		Yes
					县(市区)ID	String		Yes
Shape Type	String		yes	属性值是line

(3)水系线逻辑设计

水系线层由OBJECTID、SHAPE、分类代码、分类名称、主区、副区、

SHAPE_Length、县(市区)、县(市区)ID、Shape Type字段组成，水系线逻辑设计如下表5：

表5水系线层表

(4)社会统计数据

社会统计数据通常以表格的形式存储起来，通过字段记录了地区

生产总值、地区第二产业生产总量、地区年末户籍总人口、地区固定电话用户、地区全社会固定资产投资额等数据对应的地理单元内的空间数据，它是以县级为单位进行统计的数据表，社会统计数据的主要逻辑设计如下表6所示：

表6社会统计数据层表

表7关联数据

以上所述仅是对本发明的较佳实施例而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所做的任何简单修改，等同变化与修饰，均属于本发明技术方案的范围内。

Claims

1.一种专题知识自动挖掘***，其特征在于，所述专题知识自动挖掘***包括：

2.如权利要求1所述的专题知识自动挖掘***，其特征在于，所述物联网接口模块包括：

3.如权利要求1所述的专题知识自动挖掘***，其特征在于，所述语义查询模块首先要从本地文件中选择本体文件，然后生成本体模型，生成本体模型后，选择检索词类别和检索词，显示语义查询结果；

4.如权利要求1所述的专题知识自动挖掘***，其特征在于，数据挖掘模块，包括：FP-tree关联分析模块和随机森林分类模块；所述FP-tree关联分析模块用于反向挖掘出与专题知识关联度较高的指标；

5.如权利要求1所述的专题知识自动挖掘***，其特征在于，所述地图聚合及可视化模块通过利用颜色渲染、图案填充、直方或饼状图形式将某种主题内容属性数据在地图上表现出来；利用专题地图的可视化效果，直观向用户展现相应的成果；

6.如权利要求2所述的专题知识自动挖掘***，其特征在于，所述数据获取与存储模块，包括网络API模块和GPRS无线传输模块；所述网络API模块负责通过向数据提供网站发送请求以获得互联网数据并进行解析存储；通过网络API获取气象监测数据；客户端发送请求到服务端，服务端调用API获取数据，然后发送JSON数据到客户端，客户端解析接收到的JSON数据然后存储到本地的MySQL数据库中；

7.一种如权利要求1所述专题知识自动挖掘***的专题知识自动挖掘方法，其特征在于，所述专题知识自动挖掘方法包括：

8.如权利要求7所述的专题知识自动挖掘方法，其特征在于，所述专题知识自动挖掘方法具体包括：

1)基于网络的数据获取：

通过API从互联网获取数据；

导出数据：将数据库内的设备监测数据通过Excel表导出；

2)进行本体构建和语义查询：

3)进行关联分析：包括：

4)进行随机森林分类：包括：

5)进行专题图生成：包括：

获取专题地图的数据源：

利用空气监测与采集设备实时采集数据源；

9.如权利要求8所述的专题知识自动挖掘方法，其特征在于，随机森林分类具体包括：