CN114625725A - 一种空气监测数据的可视化方法、***、设备及介质 - Google Patents
一种空气监测数据的可视化方法、***、设备及介质 Download PDFInfo
- Publication number
- CN114625725A CN114625725A CN202110839670.2A CN202110839670A CN114625725A CN 114625725 A CN114625725 A CN 114625725A CN 202110839670 A CN202110839670 A CN 202110839670A CN 114625725 A CN114625725 A CN 114625725A
- Authority
- CN
- China
- Prior art keywords
- data
- air quality
- air
- report
- quality evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 62
- 238000007794 visualization technique Methods 0.000 title claims abstract description 13
- 238000013441 quality evaluation Methods 0.000 claims abstract description 57
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000004140 cleaning Methods 0.000 claims abstract description 35
- 238000004458 analytical method Methods 0.000 claims abstract description 31
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 26
- 238000007405 data analysis Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 16
- 230000008859 change Effects 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 5
- 238000012806 monitoring device Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 2
- 238000012800 visualization Methods 0.000 abstract description 18
- 230000007613 environmental effect Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000007418 data mining Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000013079 data visualisation Methods 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- CBENFWSGALASAD-UHFFFAOYSA-N Ozone Chemical compound [O-][O+]=O CBENFWSGALASAD-UHFFFAOYSA-N 0.000 description 2
- 208000025174 PANDAS Diseases 0.000 description 2
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 2
- 240000004718 Panda Species 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 2
- RAHZWNYVWXNFOC-UHFFFAOYSA-N Sulphur dioxide Chemical compound O=S=O RAHZWNYVWXNFOC-UHFFFAOYSA-N 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 239000013618 particulate matter Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- MGWGWNFMUOTEHG-UHFFFAOYSA-N 4-(3,5-dimethylphenyl)-1,3-thiazol-2-amine Chemical compound CC1=CC(C)=CC(C=2N=C(N)SC=2)=C1 MGWGWNFMUOTEHG-UHFFFAOYSA-N 0.000 description 1
- UGFAIRIUMAVXCW-UHFFFAOYSA-N Carbon monoxide Chemical compound [O+]#[C-] UGFAIRIUMAVXCW-UHFFFAOYSA-N 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229910002091 carbon monoxide Inorganic materials 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005429 filling process Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- JCXJVPUVTGWSNB-UHFFFAOYSA-N nitrogen dioxide Inorganic materials O=[N]=O JCXJVPUVTGWSNB-UHFFFAOYSA-N 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
- G06F16/287—Visualization; Browsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明公开了一种空气监测数据的可视化方法、***、设备及介质,其中空气监测数据的可视化方法包括:采集空气质量数据;对采集的空气质量数据进行数据清洗;利用空气质量监测算法进行分析与建模,获得空气质量评价模型;将清洗后的数据代入空气质量评价模型中,输出空气质量评价结果;对数据进行分析组合并存储于数据集市;输出并展示报表数据。本发明能够快速进行空气质量数据采集,快速提供针对空气监测数据的决策支持、报表分析、报表结果等数据,实现秒级采集数据,秒级提供报表,通过拖拽方式可进行任意数据探索和查询,满足用户个性化、临时性的报表统计需求,响应未预先定义的问题,辅助用户快速构建标准化报告。
Description
技术领域
本发明涉及空气监测与可视化技术领域,尤其涉及一种空气监测数据的可视化方法、***、设备及介质。
背景技术
随着环境保护政策的持续升级,环保部门以及各类化工行业、高污染产业的环境监测工作也面临着较大的挑战,特别是空气质量更是直接影响人们的生活。如今环境监测的发展十分迅速,同样随着监测数据管理模式的飞速变化,监测数据报表设计如果跟不上业务发展需要,就会造成严重的脱节,报表设计太慢是现在普遍存在的问题;同时监测数据量庞杂,加上之前进行了多年的环境监测建设,积累了大量的冗杂数据,对于环保部门和部分企业来说,最重要的就是分辨这些数据,并合理的利用这些数据;且对往期的环境数据进行分析,了解环境现在的状况并预测将来环境的变化趋势也是一个难点。在空气监测逐渐网格化的时代,如何能通过对大量数据的处理、分析,并对空气监测数据进行快速的分析过去、监测现在和预测未来,是环保部门以及各类化工行业、高污染产业亟需解决的问题。
中国专利文献(申请号:201911071160.4)公开了一种基于大数据的数据智能分析可视化方法,依据划分成的多个独立功能模块,灵活的选择不同产品所需的模块与组件,来分析过去、监控现在和预测未来,并连接各类不同的监控设备,支持对各种监测数据存储平台的连接和访问,对数据进行合并、搜索、可视化和分析,提供一站式存储与管理服务。
但是,现有技术中,并没有特别针对空气监测数据的可视化技术,因此,有必要发明一种空气监测数据的可视化方法,以快速对空气监测数据进行分析处理及可视化报表输出。
发明内容
针对现有技术的不足,本发明提供一种空气监测数据的可视化方法、***、设备及介质,能够快速进行数据采集,快速提供决策支持、报表分析、报表结果等数据,实现秒级采集数据,秒级提供报表。
第一方面,本发明提供了一种空气监测数据的可视化方法,包括以下步骤:
步骤S1,采集空气质量数据;
步骤S2,对所述步骤S1中采集的空气质量数据进行数据清洗;
步骤S3,利用空气质量监测算法进行分析与建模,获得空气质量评价模型;
步骤S4,将经所述步骤S2清洗后的数据代入所述步骤S3的空气质量评价模型中,输出空气质量评价结果;
步骤S5,根据业务规则对所述步骤S2清洗后的数据以及与该数据对应的空气质量评价结果进行分析组合,并将分析组合后的数据存储于数据集市中;
步骤S6,在用户访问时,根据用户输入的访问请求从所述步骤S5的数据集市中提取相应的报表数据,输出并展示报表数据。
进一步地,所述步骤S1中,利用网格化设置的空气监测设备采集空气质量数据,并将所述空气质量数据上传给云平台。
进一步地,所述步骤S1还包括利用云平台的API接口对采集的空气质量数据进行封装。
进一步地,所述步骤S1中,空气质量数据的采样时间间隔采用自适应数据采集算法进行调整,具体调整过程为:
若空气质量数据的数据变化平滑度大于设定阈值,则增大采样时间间隔,否则减小采样时间间隔。
进一步地,所述步骤S2中,数据清洗包括对脏数据进行清洗,所述脏数据包括空值数据、不一致数据、噪声数据中的一种或多种。
进一步地,所述步骤S3中,利用半集均方差公式构建空气质量评价模型,并利用历史空气质量数据对所述空气质量评价模型进行验证。
进一步地,所述步骤S5中,分析组合的具体实现过程为:
根据业务规则确定不同的主题域;
根据不同的主题域对所述步骤S2清洗后的数据进行维度分析;
将同维度的数据以及与该数据对应的空气质量评价结果进行组合;
将不同组合的数据存储于数据集市中,形成报表数据。
进一步地,所述步骤S6中,输出并展示报表数据的具体实现过程为:将报表数据依次经过数据关联、参数控制以及报表设计处理后以图表或自定义报表的形式进行直观展示。
第二方面,本发明还提供了一种空气监测数据的可视化***,包括:
采集模块:用于采集空气质量数据;
数据清洗模块:用于对采集模块采集的空气质量数据进行数据清洗;
模型构建模块:用于利用空气质量监测算法进行分析与建模,获得空气质量评价模型;
数据分析模块:用于将经数据清洗模块清洗后的数据代入所述空气质量评价模型中,输出空气质量评价结果;
数据集市模块:用于根据业务规则对清洗后的数据以及与该数据对应的空气质量评价结果进行分析组合,并将分析组合后的数据存储于数据集市中;
报表数据输出模块:用于在用户访问时,根据用户输入的访问请求从所述数据集市模块中提取相应的报表数据,输出并展示报表数据。
第三方面,本发明还提供了一种设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如第一方面所述的空气监测数据的可视化方法。
第四方面,本发明还提供了一种介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如第一方面所述的空气监测数据的可视化方法。
本发明的有益效果是:
本发明所提供的一种空气监测数据的可视化方法、***、设备及介质,能够快速进行空气质量数据采集,快速提供针对空气监测数据的决策支持、报表分析、报表结果等数据,实现秒级采集数据,秒级提供报表,通过拖拽方式可进行任意数据探索和查询,满足用户个性化、临时性的报表统计需求,响应未预先定义的问题;提供智能布局的报告模式,让报表制作界面变得更加易用,实现组件的智能***和动态调整,辅助用户快速构建标准化报告。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一个实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明空气监测数据的可视化方法的流程图;
图2为本发明方法中空气质量数据采集的功能图;
图3为本发明方法中不同脏数据的清洗流程图;
图4为本发明方法中采用空气质量评价模型进行数据分析的流程图;
图5为本发明方法中数据集市的流程图;
图6为本发明方法中报表数据展示的流程图。
具体实施方式
下面结合本发明实施例中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
如图1所示,本发明提供的一种空气监测数据的可视化方法,包括以下步骤:
步骤S1,数据采集:采集空气质量数据。
空气质量数据是通过设备数据库中网格化设置的空气监测设备来进行采集的,采集到的空气质量数据上传给云平台。数据在上传到云平台后,通过云平台的API接口对采集的数据进行封装。API接口采用Python/Java语言开发,通过API接口封装上传到云平台的数据,并实现大数据可视化平台的技术接口,将空气监测设备采集的数据有效接入到云平台的数据总线(DATABUS)层,打通了云平台与空气监测设备间的数据通道,让设备数据能够实时进入后续的空气质量评价模型中。
如图2所示,空气监测设备的数据采集功能包括采集参数的设置、协议网关的配置以及数据传输,输入项为数据源,输出项为HDFS(分布式文件***),能实现实时进行数据采集,数据端到端的响应速度达秒级。数据源包括空气质量数据、监测设备的位置信息、监测设备的设备信息。
在进行空气质量数据采集时,采样时间间隔采用自适应数据采集算法进行调整,具体调整过程为:若空气质量数据的数据变化平滑度大于设定阈值,则增大采样时间间隔,否则减小采样时间间隔。本实施例中,设定阈值的设置可以参考《环境空气质量指数(AQI)技术规定》HJ633-2012。
自适应数据采集算法根据需采集的数据的性能指标变化规律,动态地调整采样时间间隔,当数据变化比较平缓时增大采样时间间隔;当数据变化比较剧烈时减小采样时间间隔。自适应数据采集算法包括两个步骤:1、判断数据变化的剧烈程度,即数据变化平滑度;2、增减采样时间间隔。在判断数据变化平滑度时,对当前一段时间内采集的数据的变化(或数据的波动大小)进行量化评估;根据其波动大小对应的量化值确定数据变化平滑度。
步骤S2,数据清洗:对步骤S1中采集的空气质量数据进行数据清洗。
对采集的空气质量数据进行清洗和校验,能够保证进入到后续空气质量评价模型中的数据符合标准。
数据清洗主要是对脏数据进行清洗,如图3所示,脏数据包括空值数据、不一致数据和噪声数据。根据空气质量评价模型对数据的要求进行数据清洗和校验。
S21,空值数据的清洗过程为:
步骤S211,先删除包含空值的记录;
步骤S212,再采用自动补全法对空值进行自动填充,具体填充过程为:通过统计学原理,根据数据集中记录的取值分布情况对空值进行自动填充,可以用平均值、最大值、最小值等来填充空值。
S22,不一致数据的清洗过程为:利用多种变换函数、格式化函数和汇总分解函数对不一致数据进行清洗。
S23,噪声数据的清洗方法包括四种:
第一种,分箱法:将存储数据的值分布到各个箱中,用箱中的数据值来局部平滑存储数据的值,箱中的数据值包括平均值、箱中值和箱边界值。
第二种,回归法:采用回归函数来平滑数据。
第三种,服务器检查和人工检查相结合法:将被清洗噪声数据与已知正常值进行比较,如果差异大于某个阈值,则将对应的噪声数据输出到一个表中,人工审核后识别出噪声数据。
第四种,聚类法:将类似的值组成群或聚类集合,落在群或聚类集合之外的值被视为孤立点,该孤立点为垃圾数据或为能提供信息的重要数据;若为垃圾数据则进行清除。
在数据挖掘领域,数据质量直接决定了挖掘分析结果的质量,而现实中的原始数据往往多包含有缺失数据、噪声数据、离群点等脏数据,如若直接送入空气质量评价模型进行分析评价,会造成分析结果严重偏差甚至完全失效,因此需要在对数据分析前进行必要的清洗。数据清洗利用Python语言开发,利用开源库Numpy以及Pandas高效实现对空值数据清洗、不一致数据清洗以及噪声数据清洗等功能,针对具体问题可构成Pipeline,同时支持并发处理,使任务高效,便捷地得到高质量的分析数据。
步骤S3,模型构建:利用空气质量监测算法进行分析与建模,获得空气质量评价模型。
本实施例中,利用半集均方差公式构建空气质量评价模型,并利用历史空气质量数据对所述空气质量评价模型进行验证。
半集均方差公式既通过算术均值考虑了每项分指数对空气质量的影响,也通过半集均方差对分指数中的大值给与较大的权重,因此,空气质量评价模型是按各数据(或参数)对大气环境影响程度的不同,综合给出的大气环境质量状况的数量描述。
步骤S4,数据分析:将经步骤S2清洗后的数据代入步骤S3的空气质量评价模型中,输出空气质量评价结果。
空气质量数据包括二氧化硫浓度、一氧化碳浓度、二氧化氮浓度、臭氧1h均值、臭氧8h均值、一颗粒物、细颗粒物1h均值和24h均值等等。数据分析过程为:将这些空气质量数据输入到空气质量评价模型中,在空气质量评价模型中,先计算每个空气质量数据对应的空气质量分指数,再采用层次分析加权法确定每个空气质量分指数所占权重,通过对空气质量分指数之间两两重要程度进行分析和判断,构成判断矩阵A,然后通过半集均方差公式进行半集均方差计算,得到空气质量评价结果的标准值(即空气质量指数的标准值),如图4所示。
步骤S5,数据集市:根据业务规则对步骤S2清洗后的数据以及与该数据对应的空气质量评价结果进行分析组合,并将分析组合后的数据存储于数据集市中。
分析组合的具体实现过程为:根据业务规则确定不同的主题域;根据不同的主题域对步骤S2清洗后的数据进行维度分析;将同维度的数据以及与该数据对应的空气质量评价结果进行组合;将不同组合的数据存储于数据集市中,形成报表数据,如图5所示。
将清洗后的数据先进行维度细分,再根据数据集市特点采用多种算法进行计算组合从而生成报表数据。其中,算法包括库内计算算法和内存计算算法,库内计算算法是通过库找寻出最优化的计算方案,继而把所有开销超过阀值的计算都移动到数据存储的地方直接计算;内存计算算法是按需内存计算,采用冷热数据交替算法,加载常用的数据至内存中,再次降低企业硬件成本。
数据集市是特定的某个主题域、部门或者特殊用户需求的数据集合,这些数据需要针对用户的快速访问和报表展示进行优化,优化的方式包括对数据进行轻量级汇总,在数据结构的基础上创建索引。数据集市的分析组合包括对数据集市的需求进行拆分,按照不同的业务规则进行组织,将与业务主题相关的实体组织成主题域,并且对各类指标进行维度分析,从而形成数据集市组合说明书;组合说明书的内容包括详细的业务主题、业务主题域和各项指标及其分析维度。
步骤S6,在用户访问时,根据用户输入的访问请求从步骤S5的数据集市中提取相应的报表数据,输出并展示报表数据。
如图6所示,报表数据展示是将报表数据依次经过数据关联、参数控制和报表设计处理后以图表或自定义报表的形式进行直观展现,将空气质量评价模型产生的结果数据通过自定义报表、图表等方式,直观动态的展现。
报表设计后通过表单调度、报表管理实现即席查询后进行报表打印。
本发明提供的一种空气监测数据的可视化***,包括:
采集模块:用于采集空气质量数据。
空气质量数据是通过设备数据库中网格化设置的空气监测设备来进行采集的,采集到的空气质量数据上传给云平台。数据在上传到云平台后,通过云平台的API接口对采集的数据进行封装。API接口采用Python/Java语言开发,通过API接口封装上传到云平台的数据,并实现大数据可视化平台的技术接口,将空气监测设备采集的数据有效接入到云平台的数据总线(DATABUS)层,打通了云平台与空气监测设备间的数据通道,让设备数据能够实时进入后续的空气质量评价模型中。
如图2所示,空气监测设备的数据采集功能包括采集参数的设置、协议网关的配置以及数据传输,输入项为数据源,输出项为HDFS(分布式文件***),能实现实时进行数据采集,数据端到端的响应速度达秒级。数据源包括空气质量数据、监测设备的位置信息、监测设备的设备信息。
数据清洗模块:用于对采集模块采集的空气质量数据进行数据清洗。
对采集的空气质量数据进行清洗和校验,能够保证进入到后续空气质量评价模型中的数据符合标准。
数据清洗主要是对脏数据进行清洗,如图3所示,脏数据包括空值数据、不一致数据和噪声数据。根据空气质量评价模型对数据的要求进行数据清洗和校验。
在数据挖掘领域,数据质量直接决定了挖掘分析结果的质量,而现实中的原始数据往往多包含有缺失数据、噪声数据、离群点等脏数据,如若直接送入空气质量评价模型进行分析评价,会造成分析结果严重偏差甚至完全失效,因此需要在对数据分析前进行必要的清洗。数据清洗利用Python语言开发,利用开源库Numpy以及Pandas高效实现对空值数据清洗、不一致数据清洗以及噪声数据清洗等功能,针对具体问题可构成Pipeline,同时支持并发处理,使任务高效,便捷地得到高质量的分析数据。
模型构建模块:用于利用空气质量监测算法进行分析与建模,获得空气质量评价模型。
利用半集均方差公式构建空气质量评价模型,并利用历史空气质量数据对所述空气质量评价模型进行验证。
半集均方差公式既通过算术均值考虑了每项分指数对空气质量的影响,也通过半集均方差对分指数中的大值给与较大的权重,因此,空气质量评价模型是按各数据(或参数)对大气环境影响程度的不同,综合给出的大气环境质量状况的数量描述。
数据分析模块:用于将经数据清洗模块清洗后的数据代入所述空气质量评价模型中,输出空气质量评价结果,如图4所示。
数据集市模块:用于根据业务规则对清洗后的数据以及与该数据对应的空气质量评价结果进行分析组合,并将分析组合后的数据存储于数据集市中。
分析组合的具体实现过程为:根据业务规则确定不同的主题域;根据不同的主题域对清洗后的数据进行维度分析;将同维度的数据以及与该数据对应的空气质量评价结果进行组合;将不同组合的数据存储于数据集市中,形成报表数据,如图5所示。
将清洗后的数据先进行维度细分,再根据数据集市特点采用多种算法进行计算组合从而生成报表数据。其中,算法包括库内计算算法和内存计算算法,库内计算算法是通过库找寻出最优化的计算方案,继而把所有开销超过阀值的计算都移动到数据存储的地方直接计算;内存计算算法是按需内存计算,采用冷热数据交替算法,加载常用的数据至内存中,再次降低企业硬件成本。
数据集市是特定的某个主题域、部门或者特殊用户需求的数据集合,这些数据需要针对用户的快速访问和报表展示进行优化,优化的方式包括对数据进行轻量级汇总,在数据结构的基础上创建索引。数据集市的分析组合包括对数据集市的需求进行拆分,按照不同的业务规则进行组织,将与业务主题相关的实体组织成主题域,并且对各类指标进行维度分析,从而形成数据集市组合说明书;组合说明书的内容包括详细的业务主题、业务主题域和各项指标及其分析维度。
报表数据输出模块:用于在用户访问时,根据用户输入的访问请求从所述数据集市模块中提取相应的报表数据,输出并展示报表数据。
本发明所提供的一种空气监测数据的可视化方法及***,利用大数据分析及可视化技术,在云平台上部署可视化***;可视化***包括数据采集、数据清洗、模型构建、数据分析、数据集市、数据输出;从网格化设置的空气监测设备采集的数据中提取出有用的数据并进行清理,以保证数据的正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程,合并到一个空气监测数据库里,从而得到空气监测数据的一个全局视图,在此基础上,利用合适的查询和分析工具、数据挖掘工具、OLAP工具等,对其进行分析和处理(这时信息变为辅助决策的知识),最后将知识呈现给管理者,为管理者的决策过程提供支持。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种空气监测数据的可视化方法,其特征在于,包括以下步骤:
步骤S1,采集空气质量数据;
步骤S2,对所述步骤S1中采集的空气质量数据进行数据清洗;
步骤S3,利用空气质量监测算法进行分析与建模,获得空气质量评价模型;
步骤S4,将经所述步骤S2清洗后的数据代入所述步骤S3的空气质量评价模型中,输出空气质量评价结果;
步骤S5,根据业务规则对所述步骤S2清洗后的数据以及与该数据对应的空气质量评价结果进行分析组合,并将分析组合后的数据存储于数据集市中;
步骤S6,在用户访问时,根据用户输入的访问请求从所述步骤S5的数据集市中提取相应的报表数据,输出并展示报表数据。
2.如权利要求1所述的空气监测数据的可视化方法,其特征在于,所述步骤S1中,利用网格化设置的空气监测设备采集空气质量数据,并将所述空气质量数据上传给云平台。
3.如权利要求1所述的空气监测数据的可视化方法,其特征在于,所述步骤S1中,空气质量数据的采样时间间隔采用自适应数据采集算法进行调整,具体调整过程为:
若空气质量数据的数据变化平滑度大于设定阈值,则增大采样时间间隔,否则减小采样时间间隔。
4.如权利要求1所述的空气监测数据的可视化方法,其特征在于,所述步骤S2中,数据清洗包括对脏数据进行清洗,所述脏数据包括空值数据、不一致数据、噪声数据中的一种或多种。
5.如权利要求1所述的空气监测数据的可视化方法,其特征在于,所述步骤S3中,利用半集均方差公式构建空气质量评价模型,并利用历史空气质量数据对所述空气质量评价模型进行验证。
6.如权利要求1~5中任一项所述的空气监测数据的可视化方法,其特征在于,所述步骤S5中,分析组合的具体实现过程为:
根据业务规则确定不同的主题域;
根据不同的主题域对所述步骤S2清洗后的数据进行维度分析;
将同维度的数据以及与该数据对应的空气质量评价结果进行组合;
将不同组合的数据存储于数据集市中,形成报表数据。
7.如权利要求1所述的空气监测数据的可视化方法,其特征在于,所述步骤S6中,输出并展示报表数据的具体实现过程为:将报表数据依次经过数据关联、参数控制以及报表设计处理后以图表或自定义报表的形式进行直观展示。
8.一种空气监测数据的可视化***,其特征在于,包括:
采集模块:用于采集空气质量数据;
数据清洗模块:用于对采集模块采集的空气质量数据进行数据清洗;
模型构建模块:用于利用空气质量监测算法进行分析与建模,获得空气质量评价模型;
数据分析模块:用于将经数据清洗模块清洗后的数据代入所述空气质量评价模型中,输出空气质量评价结果;
数据集市模块:用于根据业务规则对清洗后的数据以及与该数据对应的空气质量评价结果进行分析组合,并将分析组合后的数据存储于数据集市中;
报表数据输出模块:用于在用户访问时,根据用户输入的访问请求从所述数据集市模块中提取相应的报表数据,输出并展示报表数据。
9.一种设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~7中任一项所述的空气监测数据的可视化方法。
10.一种介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~7中任一项所述的空气监测数据的可视化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110839670.2A CN114625725A (zh) | 2021-07-23 | 2021-07-23 | 一种空气监测数据的可视化方法、***、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110839670.2A CN114625725A (zh) | 2021-07-23 | 2021-07-23 | 一种空气监测数据的可视化方法、***、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114625725A true CN114625725A (zh) | 2022-06-14 |
Family
ID=81897127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110839670.2A Pending CN114625725A (zh) | 2021-07-23 | 2021-07-23 | 一种空气监测数据的可视化方法、***、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114625725A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116069774A (zh) * | 2023-04-03 | 2023-05-05 | 北京全路通信信号研究设计院集团有限公司 | 基于无线超时智能分析的数据清洗方法、装置及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107063355A (zh) * | 2017-05-12 | 2017-08-18 | 华南理工大学 | 一种基于多传感器信息融合的空气质量检测***及其检测方法 |
CN109884253A (zh) * | 2019-03-18 | 2019-06-14 | 北京英视睿达科技有限公司 | 确定大气质量指数的方法及装置 |
CN109946418A (zh) * | 2017-12-21 | 2019-06-28 | 北京航天泰坦科技股份有限公司 | 一种空气质量监测与评价方法及*** |
CN110161183A (zh) * | 2019-05-30 | 2019-08-23 | 广东柯内特环境科技有限公司 | 一种空气质量监测方法 |
CN112085241A (zh) * | 2019-06-12 | 2020-12-15 | 江苏汇环环保科技有限公司 | 一种基于机器学***台 |
-
2021
- 2021-07-23 CN CN202110839670.2A patent/CN114625725A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107063355A (zh) * | 2017-05-12 | 2017-08-18 | 华南理工大学 | 一种基于多传感器信息融合的空气质量检测***及其检测方法 |
CN109946418A (zh) * | 2017-12-21 | 2019-06-28 | 北京航天泰坦科技股份有限公司 | 一种空气质量监测与评价方法及*** |
CN109884253A (zh) * | 2019-03-18 | 2019-06-14 | 北京英视睿达科技有限公司 | 确定大气质量指数的方法及装置 |
CN110161183A (zh) * | 2019-05-30 | 2019-08-23 | 广东柯内特环境科技有限公司 | 一种空气质量监测方法 |
CN112085241A (zh) * | 2019-06-12 | 2020-12-15 | 江苏汇环环保科技有限公司 | 一种基于机器学***台 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116069774A (zh) * | 2023-04-03 | 2023-05-05 | 北京全路通信信号研究设计院集团有限公司 | 基于无线超时智能分析的数据清洗方法、装置及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Souza et al. | Provenance data in the machine learning lifecycle in computational science and engineering | |
CN111930518A (zh) | 面向知识图谱表示学习的分布式框架构建方法 | |
CN117876016B (zh) | 一种分布式市场数据采集管理*** | |
CN117194919A (zh) | 一种生产数据分析*** | |
CN110543996A (zh) | 一种职位薪资评估方法、装置、服务器和存储介质 | |
CN115809302A (zh) | 元数据处理方法、装置、设备及存储介质 | |
CN116244367A (zh) | 一种基于多模型的自定义算法的可视化大数据分析平台 | |
Herodotou et al. | Automatic performance tuning for distributed data stream processing systems | |
CN114625725A (zh) | 一种空气监测数据的可视化方法、***、设备及介质 | |
CN112364011B (zh) | 一种线上数据模型管理装置、方法及其*** | |
CN115439015B (zh) | 基于数据中台的局域电网数据管理方法、装置及设备 | |
Poornima et al. | Prediction of water consumption using machine learning algorithm | |
CN116225848A (zh) | 日志监测方法、装置、设备和介质 | |
Punn et al. | Testing big data application | |
US20220043668A1 (en) | System and methods for implementing a computer process automation tool | |
Karami et al. | Maintaining accurate web usage models using updates from activity diagrams | |
JP6201053B2 (ja) | 素性データ管理システム、および素性データ管理方法 | |
KR102053595B1 (ko) | 토픽 간 m&a 활성도 생성에 기반한 유망아이템 식별 방법 | |
Katragadda et al. | VAStream: A visual analytics system for fast data streams | |
Ma | Enterprise financial early warning based on improved particle swarm optimization algorithm and data mining | |
Wang et al. | A data quality improvement method based on the greedy algorithm | |
Sun | Management Research of Big Data Technology in Financial Decision-Making of Enterprise Cloud Accounting | |
Bobulski et al. | Design of the BLINDS system for processing and analysis of Big Data-a pre-processing data analysis module | |
Thiyagarajan | Platfora Method for High Data Delivery in Large Datasets | |
Kozlovskis et al. | Application of machine learning algorithms to predict hotel occupancy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220614 |
|
RJ01 | Rejection of invention patent application after publication |