CN103235974A

CN103235974A - 一种提高海量空间数据处理效率的方法

Info

Publication number: CN103235974A
Application number: CN2013101480868A
Authority: CN
Inventors: 李连发; 王阳; 赵斯思; 王劲峰; 梁金能
Original assignee: Institute of Geographic Sciences and Natural Resources of CAS
Current assignee: Institute of Geographic Sciences and Natural Resources of CAS
Priority date: 2013-04-25
Filing date: 2013-04-25
Publication date: 2013-08-07
Anticipated expiration: 2033-04-25
Also published as: CN103235974B

Abstract

一种提高海量空间数据处理效率的方法，步骤为：公共算子提取、公共算子并行策略设计、公共算子并行实现、公共算子调用、公共算子组合等步骤。本发明通过将空间数据处理中的基础与通用部分提取出来作为公共算子，基于MPI进行并行化，在数据规模上可以处理百万样本、上百个属性的海量空间数据，而现有空间数据处理方法是无法运算的，同时可以高效正确地进行处理，任务提交、参数设定采用网页进行交互，所有计算都集中在服务端高效执行完成，客户端压力小且操作简单。

Description

一种提高海量空间数据处理效率的方法

技术领域

本发明涉及一种基于公共算子与高性能计算的提高海量空间数据处理效率的方法，通过提供一个可以稳定高效地运行在服务器上的空间数据处理并行计算框架，从而提高空间数据处理效率，同时研究如何将空间数据处理方法应用至多个领域。

背景技术

随着航天遥感技术、传感器技术和Internet的快速发展，获取时空数据的速度和规模的不断增长（从GB到PB），同时数据在实例数量、属性数量和分类数量等方面都出现激增，高维大数据集随之出现。由于空间数据处理算法复杂度大、空间信息的复杂性，大数据集的空间数据处理会花费大量时间。同时在公共卫生与健康、灾害预警、人口空间化等众多领域，都有众多非专业人员需要用到空间数据处理中的复杂模型，现有模型基本都无法根据需求定制，从而导致无法广泛推广。

在空间数据处理操作方面，国外的Arc/Info、MGE等著名的GIS基础软件平台，都有着完善高效的工具库。但每个工具之间的组合与协同工作只能在较粗粒度上进行，不能实现工具内部细粒度算法级别的单独使用以及组合。为此可以将空间统计中基础部分以及共同部分提取出来，作为公共算子。通过使用公共算子可以解决空间数据处理代码重复编写、各个算法交互困难以及根据应用定制空间数据处理模型等难题。

现代科学技术的进步极大的促进了计算科学的发展，新一代的计算机无论计算能力和计算速度都比早期的计算机优越许多。在实践中，由于受到物理元器件极限速度和技术水平的限制，单个的处理器远远不能满足现代许多领域中具有挑战性的大规模计算课题对计算资源的需求，所以除了增强处理器本身的计算能力外，并行处理是一种提高计算能力的有效手段。

在多核心处理器如火如荼发展的时候，软件业却远远没有来得及为此作准备。如何在新兴的多核集群平台上方便快捷地开发各种空间数据处理应用，以提供更加高效的在线服务；另外更重要的是如何为上层程序开发人员隔离下层多核平台，使得开发出的空间数据处理并行算法能够很方便地被用户所使用，将成为一个严峻的挑战。

总体而言，现有的空间数据操作模型、算法及理论与方法研究不够深入，所取得的研究成果没有及时地实现以进行进一步的应用。高性能计算环境，尤其是多核计算环境等的迅速发展，为空间数据处理提供了更广阔的发展空间。因此，设计一个基于公共算子的空间数据处理并行计算框架，将是隔离下层高性能平台和上层应用开发，并将其应用到更为广泛行业的最佳解决方案。

发明内容

本发明的技术解决问题：克服现有技术的不足，提出一种提高海量空间数据处理效率的方法，通过将空间数据处理中的基础与通用部分提取出来作为公共算子，基于MPI进行并行化，在数据规模上可以处理百万样本、上百个属性的海量空间数据，而现有空间数据处理软件是无法运算的，同时可以高效正确地进行处理，任务提交、参数设定采用网页进行交互，所有计算都集中在服务端高效执行完成，客户端压力小且操作简单。

本发明技术解决方案：一种提高海量空间数据处理效率的方法，包括以下步骤：

（1）公共算子提取

（1.1）将空间数据处理方法按输入输出、实现思路、功能用途不同分为预处理、空间特征探索、空间信息计算和结果推断四个部分，每个部分包含多个空间处理模型，单个模型可以完成一个完整的空间数据处理功能，例如：分类、插值等；

（1.2）研究（1.1）中每个部分所包含的空间处理模型，依据功能完整性与不可分割性原则，将空间处理模型分拆为多个独立模块，每个模块都作为一个公共算子，其处理结果作为后续流程上其他公共算子的输入数据、输入条件，或直接为最终结果；

（1.3）对提取到的公共算子集进行筛选，去除重复，得到需要进行并行化加速处理的公共算子集；

至此已将所有空间数据处理方法中的公共算子提取出来，继而需要对公共算子进行并行化处理实现加速。

（2）公共算子并行策略设计

（2.1）将步骤（1.3）中得到的每个公共算子划分为更细致的计算单元，单个计算单元只进行一次最简单的完整计算操作，求期望和对数；计算单元之间为顺序串行，内部实现为并行；

（2.2）逐个判断计算单元的类型，制定数据分块分发策略,若计算单元全部为本地计算Local或邻域计算Focal，栅格数据按行进行分块，矢量数据需考虑空间拓扑关系，按照单一节点数据完整性的原则进行分块；如果包含全局计算Global，所有节点运算都需要数据，因此不进行分块，而将数据发送所有节点，发送采用广播策略。进行广播时的基本单元为进程，一个进程就是一个计算与通信单元，通常为CPU中的一个核心。每个进程得到数据之后加入广播者，向本节点的剩余进程与其它节点的所有进程发送；

（2.3）数据分块策略设计完成后，需要进行计算单元的并行策略设计。计算单元分为全局参数计算以及单样本值循环计算。首先，进行全局参数计算的并行策略设计，并行策略有区域分解、功能分解。由于全局参数计算通常可表达为一个数学公式，可对该公式进行分解，将需要进行处理的空间数据分配给多个进程。

（2.4）然后，进行单样本值循环计算的并行策略设计，由于每一次的计算只依赖各样本值与全局参数，与其他样本计算无关，可采用数据并行策略，将样本平均分配至各个进程。

至此，所有公共算子的并行策略已经设计完成，进而可以依据制定的并行策略，采用特定编程语言以及并行接口实现公共算子。

（3）公共算子并行实现

（3.1）根据步骤（2）中提到的数据分块分发策略与计算单元的并行策略，基于MPI即Message Passing Interface，基于消息传递接口的并行库，设计四种并行原语，包括分发Map、规约Reduce、广播Broadcast、交叉运算Multiplex，从而实现对MPI函数库的扩展，提高公共算子在大数据条件下尤其是海量空间数据的传输效率；

（3.2）依据步骤（3.1）中的四种并行原语以及MPI函数，采用高级语言C++编写代码，将公共算子进行并行化处理，得到高效运行的并行公共算子集；

（3.3）将步骤（3.2）实现的公共算子在单节点与多节点集群上分别进行并行效率测试，统计IO、通信代价，不断改进，直至得到满足要求的可执行并行公共算子。

至此，所有的公共算子已经并行实现，每个公共算子都会编译成一个可以高效运行在高性能计算平台上的独立可执行文件。

（4）公共算子调用

（4.1）将步骤（3.3）中得到的公共算子的可执行文件部署到高性能集群上，并编写守护进程。集群上的守护进程是随***启动并在后台运行的服务，用来进行参数解析、任务执行、结果反馈。

（4.2）守护进程启动后，用户即可在客户端浏览器通过网页提交公共算子计算所需参数，由Web服务器将参数写入数据库中；

（4.3）守护进程从数据库中读取公共算子计算参数并解译得到包含多个Key-Value键值对的哈希表，Key表示参数名称，Value表示参数值，将哈希表中的所有键值对拼接处理后得到需要进行空间数据处理任务的指令表达；

（4.4）守护进程运行（4.3）中得到的任务指令，同时将运行输出信息与日志写入数据库中，运算所得结果写入磁盘；

（4.5）Web服务器从磁盘以及数据库提取输出信息与日志，组织后将运行输出、日志、计算结果构建为网页反馈给用户。用户获得运算结果以及输出信息后，整个公共算子调用过程也就结束；

当进行简单空间数据处理时，即只进行单个公共算子的使用，整个流程至此已经结束，此时用户已可以通过网页将公共算子参数提交，并获得运算结果、输出信息以及日志。

（5）公共算子组合

如果需要进行复杂空间数据处理或者完成特定领域的空间数据处理要求，则直接跳过步骤（4），执行步骤（5）。

（5.1）将步骤（3）中得到的公共算子的可执行文件部署到高性能集群上，并编写守护进程。

（5.2）研究要进行的复杂空间数据处理或特定领域空间数据处理的逻辑结构，得到所需公共算子及各个公共算子之间的逻辑结构关系，包括公共算子执行先后关系、依赖关系以及公共算子输入输出之间的关系；

（5.3）根据步骤（5.2）得到的逻辑结构关系，在可视化复杂模型编辑器中，将公共算子通过带方向的连接线组合，得到可视化模型；

（5.4）复杂模型编辑器将所得可视化模型转换为带有顺序的指令集合，同时将指令集合提交到数据库中；

（5.5）守护进程从数据库读取指令集合进行解译，确定依赖关系后逐步运行，并将日志写入数据库；

（5.6）等待步骤（5.5）中所有指令顺序依次运行完成后，守护进程将空间处理所得结果写入磁盘，由Web服务器反馈给用户；若运行失败，根据日志进行回滚，并将错误信息反馈给用户，至此提高海量空间数据处理的方法已经构建完成。

所述步骤（2.3）中所述区域分解并行策略实施步骤为：将偏微分方程中非重叠的区域进行分解，由此将离散化后的方程化为一些独立的简单方程求解问题和一个与每个简单方程都关联的全局问题；所述功能分解并行策略实施步骤：用Newton迭代法求解线性方程组时，将解函数值与求导数值两个独立的过程可交由不同的计算机负责。

本发明与现有技术相比的优点在于：

（1）通过使用权利要求并行策略设计与并行实现中提出的技术，本发明能够充分利用高性能集群计算优势，大大提高海量空间数据的处理效率，充分利用计算硬件带来的性能优势。本发明也解决了将空间数据引入高性能计算时存在的如何根据空间关系进行矢量数据分块、多节点进程间数据通信等问题。

（2）使用公共算子构建空间数据处理并行计算框架，并行粒度小，可定制性强，使用复杂模型编辑器可以根据最终应用自由组合，从而将空间数据处理中的模型应用在多个行业领域。

（3）正如权利要求中步骤3公共算子调用所描述，本发明最终结果通过Web向用户免费提供服务，非专业用户不需要关心实现细节，只提供***必要输入即可。服务端部署在高性能Linux集群上，将复杂的空间数据处理变得更加易用。同时也为专业用户提供了更多的参数控制，使得计算结果更加精确。

附图说明

图1为空间数据处理公共算子框架；

图2为本发明方法实现流程图；

图3为空间变异函数拟合并行策略设计；

图4为高精度曲面建模并行策略设计；

图5为MSN并行策略设计；

图6为多单元三明治抽样并行策略设计；

图7为四种并行原语；

图8为高性能贝叶斯分类器实现步骤及离散化流程；

图9为高性能贝叶斯分类器结构学习与参数学习实现步骤；

图10为高性能贝叶斯分类器并行效率。

具体实施方式

如图1、2所示，本发明主要包括以下几个步骤：

公共算子提取

空间数据处理在资源组织上一般都比较单一，都是基于某一类数据的计算。而在算法上，基于某一类属性或图形的计算时，其计算相对简单；而在做统计推断计算时，复杂性会较高。总之，当所涉及的资源的来源越多时，空间数据处理就越复杂，其实现的过程就需要多方面的综合协同。

本发明通过将空间数据处理方法按用途分为预处理、空间特征探索、空间信息计算、结果推断四个部分，每个部分包含多个空间处理模型；确定每个部分中包含模型的特征，提取其中基础与通用的部分作为公共算子，确保每个公共算子是一个独立模块，其处理结果可作为其他公共算子的输入数据、条件，或直接为最终结果；再对得到的公共算子集进行筛选，去除重复、不可并行的公共算子。

数据预处理是对现有空间数据进行粗加工，为后续模型提供其所需格式数据，提取处理的公共算子包括分布转换、正则化、离散化等。空间特征探索是对空间分布、相关性进行尝试性计算，得到空间数据整体与局部的聚类特征，可提取的公共算子包括Moran’I、Getis G、空间扫描统计等。空间信息计算目的是得到面域的总体特征参数以及通过空间插值将离散样本值变成连续面域，提取的公共算子包括半变异函数、分块矩阵转换、矩阵特征值求解等。结果推断是由已知样本信息训练模型后推断未知样本值，提取的公共算子包括极大似然估计、EM、朴素贝叶斯等。

公共算子并行策略设计

将上一步中得到的公共算子划分为更细致的计算单元，每个计算单元只进行一次最简单的完整计算操作，求期望、对数等。计算单元之间为顺序串行，内部实现为并行。逐个判断计算单元的类型，制定数据分块分发策略。若计算单元全部为本地计算Local或邻域计算Focal，栅格数据按行进行分块，矢量数据需考虑空间拓扑关系，按照单一节点数据完整性的原则进行分块；如果包含全局计算Global，所有节点运算都需要数据，因此不进行分块，而将数据发送所所有节点，发送采用广播策略，每个进程得到数据之后加入广播者，向其它进程发送。

数据分块策略设计完成后，需要进行计算单元的并行策略设计。计算单元分为全局参数计算以及单样本值循环计算。首先，进行全局参数计算的并行策略设计，一般是对计算公式本身进行分解，将计算内容分配给多个进程。并行策略有区域分解、功能分解。区域分解并行策略实施步骤：将偏微分方程中非重叠的区域进行分解，由此将离散化后的方程化为一些独立的小规模问题和一个与每个小问题都关联的全局问题。功能分解并行策略实施步骤：用Newton迭代法求解线性方程组时，将解函数值与求导数值两个独立的过程可交由不同的计算机负责。然后，进行单样本值循环计算的并行策略设计，由于每一次的计算只依赖各样本值与全局参数，与其他样本计算无关，可采用数据并行策略，将样本平均分配至各个进程。

每个公共算子的详细并行策略设计如下：

（1）数据预处理

正则化及分布转换采用了数据分块与异步并行相结合的策略，可处理多变量数据，用户可进行多维度选择的正则化及函数转换；离散化的目标是将数值类型的数据采用优化的算法离散化，便于在分类学习中取得最优的效果。离散化并行策略主要采用同步并行算法以及流水线技术。在计算候选断点时，按照数据并行，各个进程分别计算断点，再汇总至跟进程。在筛选断点时，各个进程分别计算断点重要性，并得到每个进程重要性最大的点，进行reduce操作得到重要性最大的断点，根据一致性要求判断是否继续循环。

（2）空间相关性探索

空间变异函数拟合，采用不同函数拟合，再采用R2选择最优的拟合参数。并行策略设计如图3所示，总体层面上采用异步并行，而下一级则可采用区域分解方法计算不同方向的变异性。将采用同步并行的设计策略，选择最优的模型，提高求解效率。由主进程根据n个子进程结果选择R2最大即精度最高的变异函数模型。

（3）空间插值

（一）克里格插值，由于插值的批量性，因此可以将每个点的插值运算分配给一个MPI进程，以获得非常好的并行性和性能增益。当计算资源远远大于需要插值点数量时，考虑对内含的The K-th nearest neighbor运算和求解线性方程组运算进行并行优化。插值的两个步骤：（a）找到距离目标点最近的N个点；（b）使用某种插值方法计算结果。对于Kriging插值，两个步骤演变为：The nearest K-th neighbor与求解线性方程组。

公共算子1：最近邻算法，具体实现方法：（a）原始算法：brute-force（暴力法）；（b）串行的优化算法：基于空间划分及索引树的算法，典型算法如ANN；（c）并行算法：分治法（对每部分数据计算结果合并）。

公共算子2：求解线形方程组使用成熟的并行线性代数库，如Linpack或Intel Kernal Math Library；若求解的方程组阶数不高，采用区域分解、功能分解策略实现，将每个线性方程组放在单机上运行，以降低通信成本。区域分解并行策略实施步骤：将偏微分方程中非重叠的区域进行分解，由此将离散化后的方程化为一些独立的小规模问题和一个与每个小问题都关联的全局问题。功能分解并行策略实施步骤：用Newton迭代法求解线性方程组时，将解函数值与求导数值两个独立的过程可交由不同的计算机负责。

（二）高精度曲面

高精度曲面建模，并行策略设计如图4所示，根本问题是求解约束最小二乘的问题，通过迭代，获得数值曲面快速高效进行温度插值。并行策略总体采用对称模式，上层采用区域分解策略。通过将最终问题分解，转化为空间变异自动拟合、块三角变换方程求解、最小二乘法求解三个部分，三个公共算子内部的并行策略都采用区域分解。

（4）面域总体参数估计

（a）MSN即异质表面均值的无偏最优估计，可以提高研究区面域均值估计精度。

并行策略设计如图5所示，总体上采用主从模式，最上层采用区域分解的并行化策略。主要转化为空间变异自动拟合、高斯方程无偏最优求解两个公共算子的并行，并行策略均为区域分解。

（b）多单元三明治抽样

并行策略设计如图6所示，总体上采用主从模式，将所求问题转化为空间变异自动拟合、相似性系数的计算、高斯方程无偏最优求解三个基本公共算子，公共算子内部并行策略均为区域分解。

Sandwich空间抽样模型，将由分层的相似性计算及无偏最优估计的高斯方程合成。

（5）空间分类

空间DAG分类推断，该模型基于贝叶斯网络，融入了空间因子。包括网络结构的学习、网络参数的学习、网络推理三个步骤，每个步骤采用不同的并行策略。

网络结构的学习，一般包括两个方面模型选择与模型优化，模型选择决定了评判不同模型优劣的准则，如打分算法（包括K2、BIC、AIC等），而模型优化是将最优模型寻找出来，如爬山算法。打分函数单次操作时间不长，但是需要反复调用，因此不需要对打分函数内部实现并行。爬山算法是一种元启发局部搜索算法，包括三种局部算子（增加边、删除边、反转边）。具体实现是在你给定的初始结构选择能改善贝叶斯网络的得分的算子，不断迭代。每次都需要寻找能够最大提高贝叶斯网络得分的局部算子，可以将每次运算分配至多个线程进行计算，再采用Reduce操作得到最优局部算子，执行完成局部算子之后，重新计算可执行的局部算子操作集合，重新分配任务计算，不断重复，直至网络得分不再提高。

网络参数的学习是在给定拓扑结构的前提下，确定各节点的条件概率分布。本发明中现使用的参数学习方法是EM。具体实现分为E-M两步，E步主要采用数据并行分隔的策略，每次的计算都是只依赖单一样本，所有计算完成后进行通信得到最终结果即可。在M步利用BN的条件独立性和E步的期望充分统计因子,利用完整数据集下的似然函数可分解性,并行计算各个局部似然函数。

网络的推理，采用数据分块并行策略。每次的推理操作都只需要当前样本影响因子数据与带条件概率的贝叶斯网络，便可对决策因子进行分类。因此，并行策略设计也仅仅针对数据，对数据进行分块即可。

（6）时空模式识别

时空扫描统计，热点/聚集区域探测并行化方案：

（一）选择候选聚集区：a.将全部格网点分为n个互不相交的子集，分配给n个并行进程；b.分别计算得到子集内没有重复的候选聚集区域集合；c.对于每两个子集合，进行重复候选聚集区域的剔除。

（二）基于真实观察数据，找到最大可能的聚集区域：a.将真实观察病例值分配到n个并行进程中；b.分别针对其包括的候选聚集区域，计算似然比值；c.找到使似然比值最大化的那个最大可能聚集区域。

（三）Monte Carlo模拟，计算最大化似然比，并行地在若干个并行进程中独立运算，最后得到N个最大化的似然比值，分别存储在各个并行进程中。（4）计算最大可能聚集区域的统计显著性p值：a.在每一个并行进程中，分别进行最大化似然并值的排序；b.将两两进程的排序结果进行合并，直到最后合并为一个包含全部N个似然比值的排序后序列。

公共算子并行实现

根据已经设计的并行策略，将每个公共算子进行并行。在分布式网络计算机***中,采用消息传递方法实现进程间的通讯。当前流行的基于消息传递的并行编程环境是MPI（Message Passing Interface）和PVM（Parallel Virtual Machine），其中消息传递接口MPI以其移植性好、功能强大、高效等优点而成为目前最重要的并行编程工具。

根据步骤2中提到的三种运算，基于MPI设计四种并行原语（Map、Reduce、Broadcast、Multiplex）。如图7所示，具体是通过对MPI的函数进行扩展，提高其在进行大数据尤其是空间数据时的传输效率。与普通的Map-Reduce相比，并行粒度更细、多状态（Multiple Stages）、且它们的通信机制不同。

（a）Map操作基于MPI_Scatter、MPI_Send、MPI_Recv实现，用于将原始数据、中间数据分发到当前通信域的所有进程。栅格数据对应整型或浮点型，属于MPI默认支持类型，直接发送；矢量数据需序列化为二进制串，再以Char类型发送。

（b）Reduce操作基于MPI_Reduce实现，将各个进程计算的结果汇总至根进程。

（c）Broadcast操作基于MPI_Bcast实现，将单一进程的结构广播至所有进程。

（d）Multiplex操作基于MPI_Gatherall、MPI_Bcast、MPI_Send、MPI_Recv实现，将所有进程的读取的数据或计算结果广播给所有进程。

下面以Moran’s I为例，说明公共算子并行实施的具体步骤。

在本文中需要对样本所有影响因子变量逐个计算局部Moran’s I值，每次计算分为三个阶段（求期望

求

Figure 2013101480868100002DEST_PATH_IMAGE002

求

Figure 2013101480868100002DEST_PATH_IMAGE003

三阶段之间串行执行，三阶段内部并行执行。样本数据分块后，前两个阶段都只需块内运算后汇总至主进程，再广播到所有进程。最后一个阶段不仅包含块内运算，还需进行块间运算，将块内块间值求和。块间运算需要发送大量数据，采用进程间互相发送数据的方式，避免每个进程都过多等待。

Moran’s I并行计算的具体步骤如下：

（1）进程0分块读取栅格图像信息，并轮流发给其他进程；

（2）所有进程计算接收到的块，并计算块中观测值的总和；

（3）通过Reduce计算所有观测值的总和并计算平均值，同时将平均值广播到所有进程；

（4）所有进程计算本进程内数据块

Figure 2013101480868100002DEST_PATH_IMAGE004

与

Figure 2013101480868100002DEST_PATH_IMAGE005

（5）每个进程都广播自己收到的块到其他进程。每个进程在收到块后，将其与自己在步骤1中接收到的块进行交叉运算（Multiplex），分别计算出

Figure 2013101480868100002DEST_PATH_IMAGE006

（6）通过Reduce获得各个进程

Figure 2013101480868100002DEST_PATH_IMAGE007

和与

Figure 2013101480868100002DEST_PATH_IMAGE008

和，并得到最终的Moran’s I值；

（7）将Moran’s I值写入样本属性中。

公共算子调用

每个公共算子在步骤3中实现之后都会编译为一个可单独执行的文件，可由守护进程（守护进程是一个在Linux***下的服务，用以进行运算任务调度、执行，同时将计算结果与日志写入服务器数据库）进行不同参数的调用。具体操作步骤如下：

（a）用户在客户端浏览器通过网页提交需要进行公共算子计算的参数，Web服务器将参数写入服务器数据库中；

（b）守护进程从服务器数据库中读取参数，对各部分参数进行拼接处理得到需要执行的任务；

（c）守护进程将任务提交，运行指令，并通过管道技术截取程序运行输出信息与日志，将其写入服务器数据库中，运算所得结果写入服务器磁盘；

（d）Web服务器从服务器磁盘以及数据库提取输出信息与日志，组织后将运行输出、日志、计算结果构建为网页反馈给用户；

专业用户也可在客户端安装ssh，然后以命令行的方式进行调用。命令行调用时可供选择的参数会更多一些，以下是数据预处理与空间DAG分类推断的调用命令即详细参数说明。

（1）数据预处理

mpirun-np2GeoPreprocessing-a2-co0-k0-p gps_people_s.csv-c0,1,2-o re_dis.csv

参数解释：

-a0表示log算法，1表示normal算法，2表示离散化算法

-p表示输入文件路径

-o表示输入文件路径

-c表示需要计算的列，从0开始；栅格数据则表示波段

-co表示是否输出离散话完成后的分类信息，0表示不输出，1表示输出，默认为0

-k表示是否使用k-mean聚类对断点进行筛选，0表示不使用，1表示使用，默认为0

-C表示离散化算法中决策属性所在的列

（2）空间DAG分类推断

mpirun-np2ParBayes–a StrLeaning_HC-p re_dis.csv-cn2-dn6-c0,1,2,3,4

-a表示进行结构学习或者参数学习的算法

-p表示输入文件路径

-c表示需要计算的列，从0开始

-cn表示普通节点的节点大小，即取值类别，默认为2

-dn表示决策节点的节点大小，默认为6

公共算子组合

每个公共算子一般只负责特定功能与算法的实现，例如离散化公共算子、变异函数公共算子，要实现复杂的功能或者针对特定领域定制一些功能，必须将多个公共算子按一定结构组合为复杂模型。每个公共算子都有各自算法参数与接口，基于公共算子的空间数据处理并行框架通过提供一个可视化的复杂模型编辑器，来辅助用户将各个业务的逻辑结构通过可视化模型表达出来，进而由并行框架将其转化为在服务器可以执行的命令运行。并行框架调用公共算子时不仅内部可以并行，不存在依赖的公共算子之间也可以并行，进而提高整个复杂模型的运行效率。

具体实现步骤如下：

（a）研究业务的逻辑结构，得到所需公共算子及各个公共算子之间的逻辑结构关系；

（b）根据5.1得到的逻辑结构，在可视化复杂模型编辑器中，将公共算子通过带方向的连接线组合，得到可视化模型；

（c）模型编辑完成后，由复杂模型编辑器将所得可视化模型转换为带有顺序的指令集合，同时将指令集合提交到服务器数据库中；

（d）守护进程从服务器数据库读取指令集合进行解译，确定依赖关系后逐步运行，并将日志写入服务器数据库中；

（e）等待5.4中所有指令顺序依次运行完成后，守护进程将空间处理所得结果写入服务器，由Web服务器反馈给用户；若运行失败，根据日志进行回滚，并将错误信息反馈给用户。

下面以高性能贝叶斯分类器为例说明本发明实施的具体步骤：

（1）数据说明（示例数据可从http://159.226.110.219/网站下载）

测试案例：通过已知样本（轨迹数据）的信息，研究影响因子变量（如移动速度、人的活动度等）与类别变量（人的活动状态）之间的关系，进而对目标变量未知的样本进行分类推断。

影响因子变量：移动速度、人的活动度、前后10分钟内的最大速度、10分钟中前后的距离差、GPS的测量参数等17个特征变量。

类别变量：人的活动状态，包括屋里、屋外、屋外工作中或者是在车里。

数据量：已知类别变量的12万行矢量数据。采用90%的数据进行学习，并推断剩余10%样本的类别变量，与真实值进行比较得到推断准确率。

（2）测试环境

利用上述数据，在集群环境上对本文实现的并行贝叶斯分类器进行了测试。集群为四个节点，每个节点两颗Intel(R)Quad Core E5520Xeon(R)CPU，共计八个核心，拥有16G独立内存、200G磁盘，节点之间连接带宽都为千兆以太网。

（3）实施步骤

如图8所示，整个实施过程主要分为数据预处理（离散化），贝叶斯网络结构学习，贝叶斯网络参数学习，贝叶斯网络分类推断。

离散化是将连续性变量变成离散的（分类），离散化后的变量抗干扰性强。由于贝叶斯网络学习时需要离散化的数据，而通常获得的样本属性大多都是连续的（例如：人的活动度、GPS的各项参数等），因此首先要对数据进行离散化。本发明所使用算法是基于断点重要性来计算。

空间DAG分类推断，主要使用的是贝叶斯网络。如图9所示，网络结构的学习，采用爬山算法，得到在局部与总体都是最优的贝叶斯网络；网络参数的学习，采用EM（极大似然算法）得到带有先验概率的贝叶斯网络；网络的推理，采用Naive Bayes（朴素贝叶斯）。

具体调用方式包括以下三种方法：

（一）每个公共算子在模型编辑器中都作为一个对象，输入输出以及参数与对象之间的关系可以通过带有方向的连接线表达。

（二）登陆网站http://159.226.110.219/，注册用户后，在导航栏选择添加内容->数据预处理_离散化，输入计算所需参数（数据过大时可以通过ftp上传，然后输入文件处选择File attach即可）。同理根据图7中的步骤依次进行其他操作，得到最终结果。

（三）ssh中输入命令直接运行

mpirun-np4GeoPreprocessing-a2-co0-k0-p gps_people_s.shp-c0-17-o re_dis.csv

mpirun-np4ParBayes–a StrLeaning_HC-p re_dis.shp-c0-17–o re.str

mpirun-np4ParBayes–a ParLeaning_EM-p re_dis.shp–s re.str-c0-17–o re.bys

mpirun-np4ParBayes–a Inferring_Naive-p data_infer.shp–b re.bys-c0-17

（4）计算结果

并行效率是用来表示并行计算算法加速情况的指标，n核心并行效率计算公式为

Figure 2013101480868100002DEST_PATH_IMAGE009

其中，t_n表示n个核心执行算法所用时间，t₁表示单核心执行时间。

贝叶斯分类器平均并行效率为0.84，各步骤并行效率如图8所示，可以大大提高海量空间数据的分类推断效率。对最终分类结果进行十倍交叉验证时，推断准确率（pd值）为0.85。图10中ABCD四条曲线依次表示离散化、爬山算法、EM算法、朴素贝叶斯算法四个公共算子的并行效率。由于进程间通信以及算法存在不可并行化部分，并行效率随着进程数增加会下降。曲线斜率，即下降快慢则是由通信次数、通信量、算法本身可并行部分所占比例三个因素决定的。总体上看，并行贝叶斯分类器并行效率较高，在进行海量空间数据分类预测时对效率的提升非常明显，同时也证明了本发明对于提高海量空间数据处理效率是有效的。

对于离散化的并行，32个核心时并行效率仍可达到0.8（图10中A曲线），这主要是由于离散化时候选断点选取、断点重要性计算、断点筛选大部分运算都可在本地进行，通信开销非常小。

采用BIC打分算法与爬山优化算法的贝叶斯网络结构学***均并行效率为0.77（图10中B曲线）。随着迭代次数增加，并行效率同比会下降，原因在每次迭代都会随机生成DAG，此步骤无法进行并行，且每一次进行局部算子运算时都需要进行通信，获取得分最高的局部算子，并广播得分值、操作类型、参与节点。

贝叶斯网络参数学***均并行效率为0.80（图10中C曲线）。E步骤中每个样本的期望充分统计因子的计算彼此独立，具有很好的数据并行性。而M步骤也可通过分解似然函数，进行少量通信并行。但M步使用进程个数最多只能等于变量个数，在变量较少时M步的并行度不高。由于整个计算M步耗费时间很少，所以并行效率较。

推断分类采用朴素贝叶斯，平均并行效率为0.82（图10中D曲线）。每个样本的分类相互独立，且只依赖于已知的带条件概率的贝叶斯网络，进行数据分块并行后，完全不需要通信，各进程分别将运算结果写入磁盘或数据库，因此并行效率很好。

本发明未详细阐述部分属于本领域公知技术。

以上所述，仅为本发明部分具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种提高海量空间数据处理效率的方法，其特征在于包括以下步骤：

（1）公共算子提取

（1.1）将空间数据处理方法按输入输出、实现思路、功能用途不同分为预处理、空间特征探索、空间信息计算和结果推断四个部分，每个部分包含多个空间处理模型，单个模型能够完成一个完整的空间数据处理功能；

（1.2）研究（1.1）中每个部分所包含的空间处理模型，依据功能完整性与不可分割性原则，将空间处理模型分拆为多个独立模块，每个模块都作为一个公共算子，其处理结果作为后续流程上其他公共算子的输入数据、输入条件或直接为最终结果；

至此已将所有空间数据处理方法中的公共算子提取出来，继而需要对公共算子进行并行化处理实现加速；

（2）公共算子并行策略设计

（2.2）逐个判断计算单元的类型，制定数据分块分发策略,若计算单元全部为本地计算Local或邻域计算Focal，栅格数据按行进行分块，矢量数据需考虑空间拓扑关系，按照单一节点数据完整性的原则进行分块；如果包含全局计算Global，所有节点运算都需要数据，因此不进行分块，而将数据发送所有节点，发送采用广播策略，进行广播时的基本单元为进程，一个进程就是一个计算与通信单元，通常为CPU中的一个核心，每个进程得到数据之后加入广播者，向本节点的剩余进程与其它节点的所有进程发送；

（2.3）数据分块策略设计完成后，需要进行计算单元的并行策略设计。计算单元分为全局参数计算以及单样本值循环计算。首先，进行全局参数计算的并行策略设计，并行策略有区域分解、功能分解，由于全局参数计算表达为一个数学公式，对该公式进行分解，将需要进行处理的空间数据分配给多个进程；

（2.4）进行单样本值循环计算的并行策略设计，由于每一次的计算只依赖各样本值与全局参数，与其他样本计算无关，可采用数据并行策略，将样本平均分配至各个进程；

至此，所有公共算子的并行策略已经设计完成，依据制定的并行策略，采用特定编程语言以及并行接口实现公共算子；

（3）公共算子并行实现

（3.3）将步骤（3.2）实现的公共算子在单节点与多节点集群上分别进行并行效率测试，统计IO、通信代价，不断改进，直至得到满足要求的可执行并行公共算子；

至此，所有的公共算子已经并行实现，每个公共算子都会编译成一个高效运行在高性能计算平台上的独立可执行文件；

（4）公共算子调用

（4.1）将步骤（3.3）中得到的公共算子的可执行文件部署到高性能集群上，并编写守护进程，集群上的守护进程是随***启动并在后台运行的服务，用来进行参数解析、任务执行、结果反馈；

（4.2）守护进程启动后，用户即在客户端浏览器通过网页提交公共算子计算所需参数，由Web服务器将参数写入数据库中；

（4.5）Web服务器从磁盘以及数据库提取输出信息与日志，组织后将运行输出、日志、计算结果构建为网页反馈给用户，用户获得运算结果以及输出信息后，整个公共算子调用过程也就结束；

当进行简单空间数据处理时，即只进行单个公共算子的使用，整个流程至此已经结束，此时用户已可以通过网页将公共算子参数提交，并获得运算结果、输出信息以及日志；

（5）公共算子组合

如果需要进行复杂空间数据处理或者完成特定领域的空间数据处理要求，则直接跳过步骤（4），执行步骤（5）；

（5.1）将步骤（3）中得到的公共算子的可执行文件部署到高性能集群上，并编写守护进程；

2.根据权利要求1所述的提高海量空间数据处理效率的方法，其特征在于：所述步骤（2.3）中所述区域分解并行策略实施步骤为：将偏微分方程中非重叠的区域进行分解，由此将离散化后的方程化为一些独立的简单方程求解问题和一个与每个简单方程都关联的全局问题；所述功能分解并行策略实施步骤：用Newton迭代法求解线性方程组时，将解函数值与求导数值两个独立的过程可交由不同的计算机负责。