CN115495499A

CN115495499A - 一种基于污染场地同介质多批次海量数据的整合统计方法

Info

Publication number: CN115495499A
Application number: CN202211169793.0A
Authority: CN
Inventors: 李旭伟; 邓绍坡; 孔令雅; 豆叶枝; 谢文逸; 刘国强; 王梦杰
Original assignee: Nanjing Institute of Environmental Sciences MEE
Current assignee: Nanjing Institute of Environmental Sciences MEE
Priority date: 2022-09-22
Filing date: 2022-09-22
Publication date: 2022-12-20
Anticipated expiration: 2042-09-22
Also published as: CN115495499B; JP7360000B1; JP2024046580A

Abstract

本发明提供了一种基于污染场地同介质多批次海量数据的整合统计方法，属于污染场地数据处理技术领域。整合统计方法包括以下步骤：S1、获取污染场地数据；S2、特征指标识别及更新；S3、数据归纳整合与数据统计分析；S4、输出整合统计后的污染场地数据。本发明解决了传统的场地环境数据获取、合并、清洗和挖掘方法难以满足海量数据处理要求的问题，具有大大加快数据处理速度、节约时间和经济成本的优点。

Description

一种基于污染场地同介质多批次海量数据的整合统计方法

技术领域

本发明涉及污染场地数据处理技术领域，具体是涉及一种基于污染场地同介质多批次海量数据的整合统计方法。

背景技术

近年来，随着城市化进程和产业调整转移的加快，大量的工业企业被关闭或搬迁，遗留下了众多的污染场地。目前，已经有大量的场地进入调查、修复、管控和长期监测的阶段，所有阶段均以采样点位作为数据获取的源头，揭示污染空间分布、时空演***势、不同环境介质的污染特征等。尤其是随着我国对于污染地块管理的加强，修复、管控和长期监测等阶段需长时间序列采集多批次数据，从不同角度分析场地采样点数据分布、变化趋势，判断污染成因和影响因素，揭示同介质污染指标的局部变异、空间离散特性以及局部受点源污染影响的特征。

而随着空间信息技术的发展，趋势分析理论被广泛应用于污染场地领域中，相应的对于污染场地海量数据的挖掘分析需求也大幅增加，传统的场地环境数据获取、合并、清洗和挖掘方法难以满足海量数据的处理要求。

本发明完善了我国传统统计分析污染场地信息的模式，极大节约了污染场地信息获取的成本，保障了信息的全面性；并提升了污染场地相关数据的整合效率和承担单位的分析工作能力，节约了时间和经济成本。

发明内容

本发明解决的技术问题是：传统的场地环境数据获取、合并、清洗和挖掘方法难以满足海量数据的处理要求。

为解决上述问题，本发明的技术方案如下：

一种基于污染场地同介质多批次海量数据的整合统计方法，包括以下步骤：

S1、获取海量的污染场地数据

将污染场地数据分为特征指标、与特征指标对应的指标数据，将污染场地数据进行重分布后，再将表现为数字形式的字符串类型的指标数据转化为数据类型，最后按照特征指标与指标数据的对应方式存储污染场地数据；

S2、特征指标识别及更新

确定整合统计后输出的特征指标，并通过输出的特征指标对存储污染场地数据中特征指标进行识别及更新；

S3、污染场地数据的归纳整合与统计分析

通过检索栏选择定位条件，根据定位条件对污染场地数据归纳整合，再通过将stream流形式的污染场地数据作为math函数的输入参数，完成对归纳整合后的污染场地数据的批量统计分析，得到整合统计后的污染场地数据；

S4、输出整合统计后的污染场地数据。

上述方法中，重分布包括：行转列、行合并、列合并。

进一步地，多批次海量数据的数据量级为百万级。

进一步地，特征指标包括检测指标、检出限、单位。

进一步地，步骤S1中，污染场地数据的格式为excel，所述步骤S5中，整合统计后的污染场地数据的格式为excel。

进一步地，步骤S1还包括：

下载污染场地数据输入模板，再将污染场地数据写入污染场地数据输入模板，通过文件输出流读取excel格式的污染场地数据并进行格式判定，在满足格式要求后，将所有数据存入hssfWorkbook，等待进一步处理。

进一步地，步骤S1还包括：

新建两个数据存储list，其中一个数据存储list用于存储数据结构为areaList的数据，另一个数据存储list用于存储数据结构为fullList的数据，其中，数据结构为list的数据对应excel中每个sheet的特征指标，数据结构为areaList/fullList的数据对应每个excel中每个sheet的全部指标数据，再创建用于存放sheet基础数据的sheetList，sheet基础数据为sheet名称、sheet首行和首列内的数据，

污染场地数据存储的操作过程为：

通过双层循环遍历excel格式的污染场地数据，按照excel中sheet的顺序，对每个sheet的每行数据进行读取，将每个sheet中特征指标名称进行去空去重操作后存入areaList中，将每个sheet中全部指标数据存入fullList中。

更进一步地，定位条件包括：检索栏选择的限定条件、污染场地数据输入模板内置的特征指标位置。

优选地，步骤S3中，通过将stream流形式的污染场地数据作为math函数的输入参数，包括以下内容：

math函数中平均值的计算公式：list.stream().mapToDouble(BigDecimal::doubleValue).average().getAsDouble()，平均值的计算公式将输入参数设定为是一组数据集合list，并运用steam流的maptoDouble的方法，将数据进行map映射，然后调取average求平均值的接口直接进行计算，最后通过getAsDouble的方式直接将结果转换成double类型，

math函数中最大值和最小值的计算公式：list.stream().reduce(list.get(0),BigDecimal::max)，最大值和最小值的计算公式运用stream流式计算，调用reduce方法取到一组数的最大值和最小值，

math函数中方差和标准差的计算方式：采用先计算和，再计算平均值的方式，最后求取方差和标准差。

上述数据处理函数与传统的math函数求最大值、最小值、平均值的方法相比，传统的math函数不仅代码不优美，效率也很低，且仅能处理少量数据；而上述函数结合了stream流计算进行处理，支持多数据同时处理求解，正确率经过检测达到100％，极大的提高的计算速度，适应了海量数据处理，效率也是传统的math函数的4倍以上。同时代码简洁、后期功能拓展更方便。

优选地，步骤S3中，批量统计分析包括：判断字符串是否为数值、求平均值、求最大值和最小值、求方差和求标准差。

一种数据处理设备，执行一种基于污染场地同介质多批次海量数据的整合统计方法，包括：

用于提供污染场地数据输入模板的模板下载模块，所述模板下载模块提供的输入模板格式为excel，

用于导入污染场地数据的导入模块，所述导入模块的数据输入格式为excel，

用于确定整合统计后的输出特征指标的特征指标管理模块，

用于根据所述特征指标管理模块确定的输出特征指标，对所述数据存储模块处理后的特征指标进行识别及更新的数据整理模块，

用于在污染场地数据导入后，按照特征指标与指标数据的对应方式存储污染场地数据的数据存储模块，所述数据存储模块新建两个数据存储list，其中一个数据存储list用于存储数据结构为areaList的数据，另一个数据存储list用于存储数据结构为fullList的数据，

其中，数据结构为list的数据对应excel中每个sheet的特征指标，数据结构为areaList/fullList的数据对应每个excel中每个sheet的全部指标数据，

用于展示所述数据整理模块处理特征指标识别及更新后所有污染场地数据的数据展示模块，所述数据展示模块还提供用于选择定位条件的检索栏，

用于根据所述定位条件完成污染场地数据归纳整合、批量统计分析的数据计算模块，所述数据计算模块将stream流形式的污染场地数据作为math函数的输入参数，优化了math函数中平均值、最大值、最小值、方差、标准差的计算方式，

用于导出处理后的污染场地数据的导出模块，所述导出模块的数据输出格式为excel。

现有的污染场地数据的数据采集过程通常是运用传统人工excel手动处理或者通过使用python语言编写程序进行处理，若使用人工excel手动处理数据则需要2-3天时间，效率低下；若使用python语言处理，则需要预先安装python环境的软件，具有python环境依赖性；上述数据处理设备实现了数据轻量化处理，用户免安装，适用于任何***环境的技术效果，操作简单快捷。

数据处理设备通过Jframe作为架构技术独立开发得到。上述数据处理设备并未使用现有的java框架，而是通过Jframe进行独立开发，实现了用户免安装，具有适用于任何***环境的技术效果。

本发明的有益效果是：

(1)本发明提供的整合统计方法单次处理的海量数据为百万级别，单次对海量数据的处理时间为5秒以内，与本领域污染场地数据人工excel手动处理需要2至3天的时间及人力成本相比，极大提升了处理速度，为整个污染场地数据整理及处理的项目节约了大量人力、财力和时间；

(2)本发明提供的数据处理设备通过Jframe作为架构技术独立开发得到，结合java的stream流计算优化了Math函数，完成批量数据的多维度计算，通过实现了数据轻量化处理，用户免安装，适用于任何***环境的技术效果，操作简单快捷。

(3)本发明通过结构化数据的理念，结合超过人工处理量百倍、甚至千万倍数据量的采集数据进行整体化、统一化和批量化的转换模式。将分散的数据按照格式需求进行整合，可大大缩减前期数据处理的时间成本，用于下一步作图表分析污染表征和趋势的基础结构，以此摸清污染物的空间和时间分布趋势，判别和揭示场地中污染物的整体变化趋势和污染成因分析。

附图说明

图1是实施例1一种基于污染场地同介质多批次海量数据的整合统计方法流程图；

图2是实施例2一种数据处理设备框架图；

其中，101-模板下载模块、102-导入模块、103-特征指标管理模块、104-数据整理模块、105-数据存储模块、106-数据展示模块、107-数据计算模块、108-导出模块。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种。

实施例1

本实施例为一种基于污染场地同介质多批次海量数据的整合统计方法，海量数据的量级为百万级别，如图1所示，包括以下步骤：

S1、获取海量的污染场地数据

下载污染场地数据输入模板，再将污染场地数据写入污染场地数据输入模板，污染场地数据的格式为excel，通过文件输出流读取excel格式的污染场地数据并进行格式判定，在满足格式要求后，将所有数据存入hssfWorkbook，等待进一步处理，

将污染场地数据分为特征指标、与特征指标对应的指标数据，将污染场地数据进行重分布后，再将表现为数字形式的字符串类型的指标数据转化为数据类型，最后按照特征指标与指标数据的对应方式存储污染场地数据，

污染场地数据存储的操作过程为：

通过双层循环遍历excel格式的污染场地数据，按照excel中sheet的顺序，对每个sheet的每行数据进行读取，将每个sheet中特征指标名称进行去空去重操作后存入areaList中，将每个sheet中全部指标数据存入fullList中，

特征指标包括：检测指标、检出限、单位，

指标数据包括：丙酮、2-丙醇、乙酸乙烯酯、2-丁酮、乙酸乙酯、4-甲基-2-戊酮、2-己酮、二硫化碳、苯、甲苯、乙苯、对间二甲苯、苯乙烯、邻二甲苯、异丙苯、间乙基甲苯、1,3,5-三甲基苯、邻乙基甲苯、1,2,4-三甲基苯、12,3-三甲基苯、间二乙基苯、氯二氟甲烷；

S2、特征指标识别及更新

S3、污染场地数据的归纳整合与统计分析

通过检索栏选择定位条件，根据定位条件对污染场地数据归纳整合，定位条件包括：检索栏选择的限定条件、污染场地数据输入模板内置的特征指标位置，再通过将stream流形式的污染场地数据作为math函数的输入参数，完成对归纳整合后的污染场地数据的批量统计分析，批量统计分析包括：求平均值、求最大值和最小值、求方差和求标准差，得到整合统计后的污染场地数据，其中，通过将stream流形式的污染场地数据作为math函数的输入参数包括以下内容：

其中，list.stream()表示将集合装为流，mapToDouble()表示将数据进行map映射，average()表示求平均值，

其中，list.stream()表示将集合装为流，reduce()表示排序函数，

math函数中方差和标准差的计算方式：采用先计算和，再计算平均值的方式，最后求取方差和标准差；

S4、输出整合统计后的污染场地数据，包括以下内容：

创建一个用于导出步骤S4得到分析后的数据的新文件workbook，循环依次取入参titles，list，sheetNameList和areaList，Titles对应的导出文件的标题，list是存放的fullList数据，sheetNameList是存放的sheet名称列表，用来进行快速筛查，areaList是指标名称集合，

运用遍历的方式，将分析后的数据写入workbook，循环创建sheet，再在每个sheet里循环创建数据行row，加入检出限和单位，然后依次写入对应数据，所有sheet写入完成后，调用file工具类，设置导出参数，关闭数据流，进行excel文件导出，提示用户处理结果。

实施例2

本实施例为一种数据处理设备，用于执行实施例1一种基于污染场地同介质多批次海量数据的整合统计方法，如图2所示，包括：

用于提供污染场地数据输入模板的模板下载模块101，所述模板下载模块101提供的输入模板格式为excel，

用于导入污染场地数据的导入模块102，所述导入模块102的数据输入格式为excel，

用于确定整合统计后的输出特征指标的特征指标管理模块103，

用于根据所述特征指标管理模块103确定的输出特征指标，对所述数据存储模块处理后的特征指标进行识别及更新的数据整理模块104，

用于在污染场地数据导入后，按照特征指标与指标数据的对应方式存储污染场地数据的数据存储模块105，所述数据存储模块105新建两个数据存储list，其中一个数据存储list用于存储数据结构为areaList的数据，另一个数据存储list用于存储数据结构为fullList的数据，

用于展示所述数据整理模块104处理特征指标识别及更新后所有污染场地数据的数据展示模块106，所述数据展示模块106还提供用于选择定位条件的检索栏，

用于根据所述定位条件完成污染场地数据归纳整合、批量统计分析的数据计算模块107，所述数据计算模块107将stream流形式的污染场地数据作为math函数的输入参数，优化了math函数中平均值、最大值、最小值、方差、标准差的计算方式，

用于导出处理后的污染场地数据的导出模块108，所述导出模块108的数据输出格式为excel。

Claims

1.一种基于污染场地同介质多批次海量数据的整合统计方法，其特征在于，包括以下步骤：

S1、获取海量的污染场地数据

S2、特征指标识别及更新

S3、污染场地数据的归纳整合与统计分析

S4、输出整合统计后的污染场地数据。

2.如权利要求1所述的一种基于污染场地同介质多批次海量数据的整合统计方法，其特征在于，所述步骤S1中，污染场地数据的格式为excel，所述步骤S5中，整合统计后的污染场地数据的格式为excel。

3.如权利要求1所述的一种基于污染场地同介质多批次海量数据的整合统计方法，其特征在于，所述特征指标包括检测指标、检出限、单位。

4.如权利要求1所述的一种基于污染场地同介质多批次海量数据的整合统计方法，其特征在于，所述步骤S1还包括：

5.如权利要求4所述的一种基于污染场地同介质多批次海量数据的整合统计方法，其特征在于，所述步骤S1还包括：

污染场地数据存储的操作过程为：

6.如权利要求1所述的一种基于污染场地同介质多批次海量数据的整合统计方法，其特征在于，所述步骤S3中，定位条件包括：检索栏选择的限定条件、污染场地数据输入模板内置的特征指标位置。

7.如权利要求1所述的一种基于污染场地同介质多批次海量数据的整合统计方法，其特征在于，所述步骤S3中，通过将stream流形式的污染场地数据作为math函数的输入参数，包括以下内容：

8.如权利要求1所述的一种基于污染场地同介质多批次海量数据的整合统计方法，其特征在于，所述步骤S3中，批量统计分析包括：求平均值、求最大值和最小值、求方差和求标准差。

9.一种数据处理设备，用于执行如权利要求1-8所述的一种基于污染场地同介质多批次海量数据的整合统计方法，其特征在于，包括：

用于提供污染场地数据输入模板的模板下载模块(101)，所述模板下载模块(101)提供的输入模板格式为excel，

用于导入污染场地数据的导入模块(102)，所述导入模块(102)的数据输入格式为excel，

用于确定整合统计后的输出特征指标的特征指标管理模块(103)，

用于根据所述特征指标管理模块(103)确定的输出特征指标，对所述数据存储模块处理后的特征指标进行识别及更新的数据整理模块(104)，

用于在污染场地数据导入后，按照特征指标与指标数据的对应方式存储污染场地数据的数据存储模块(105)，所述数据存储模块(105)新建两个数据存储list，其中一个数据存储list用于存储数据结构为areaList的数据，另一个数据存储list用于存储数据结构为fullList的数据，

用于展示所述数据整理模块(104)处理特征指标识别及更新后所有污染场地数据的数据展示模块(106)，所述数据展示模块(106)还提供用于选择定位条件的检索栏，

用于根据所述定位条件完成污染场地数据归纳整合、批量统计分析的数据计算模块(107)，所述数据计算模块(107)将stream流形式的污染场地数据作为math函数的输入参数，优化了math函数中平均值、最大值、最小值、方差、标准差的计算方式，

用于导出处理后的污染场地数据的导出模块(108)，所述导出模块(108)的数据输出格式为excel。