CN111488325A

CN111488325A - 基于Hadoop架构的气象大数据汇聚方法

Info

Publication number: CN111488325A
Application number: CN202010305811.8A
Authority: CN
Inventors: 张强; 陈东辉; 刘一鸣; 韩瑞; 罗岚心; 高静; 石岩; 赵煜飞; 刘雨佳; 冯爱霞; 战云健; 姜筱玮; 王妍; 梁中军; 兰平; 范邵华; 李默予
Original assignee: National Meteorological Information Center
Current assignee: National Meteorological Information Center
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2020-08-04

Abstract

本发明公开了一种基于Hadoop架构的气象大数据汇聚方法，技术方案可概括为：首先搭建并部署多源异构气象大数据资源汇聚环境，然后获取气象分析的需求信息，根据需求信息通过可视化界面Web端配置资源汇聚信息创建资源汇聚任务，并配置资源汇聚任务基础信息，设计气象数据的清洗算法；设计资源汇聚的入口调用方法，根据资源汇聚任务进行资源汇聚参数配置，调用气象多源异构数据接口从不同类型的数据源中获取原始气象数据，利用设计的清洗算法对接入的原始气象数据进行数据清洗，最后将清洗后的气象数据存储到目标数据库，完成资源汇聚。通过本方案可获取不同数据源中的气象数据并对其进行数据清洗，完成数据的资源汇聚，为气象数据分析提供数据支持。

Description

基于Hadoop架构的气象大数据汇聚方法

技术领域

本发明涉及大数据处理技术领域，具体涉及基于Hadoop架构的气象大数据汇聚方法。

背景技术

气候资料指的是用常规气象仪器和专业气象器材所观测到各种原始资料的集合以及加工、整理、整编所形成的各种资料。但随着现代气候的发展,气候研究内容不断扩大和深化,气候资料概念和内涵得以进一步的延伸,泛指整个气候***的有关原始资料的集合和加工产品。天气资料是为天气分析和预报服务的一种实时性很强的气象资料。天气资料和气候资料主要区别是:天气资料随着时间的推移转化为气候资料;气候资料的内容比天气资料要广泛得多;气候资料是长时间序列的资料,而天气资料是短时间内的资料。国家气象信息中心每天接收来自国内外主要台站的观测资料,这些资料日积月累,随时间的推移而成为气候资料。国内一部分台站每月将观测记录报表和数字化资料寄送或传输到国家气象信息中心,这些资料或报表成为气候资料重要的部分。此外,气候资料还包括通过各种渠道收集到的其他学科如水文、地学等资料。目前随着物联网技术的高速发展，各种终端、基础采集设备的数量和种类不断增加，每时每刻都会产生大量数据，这些数据种类繁多，分为结构化数据和非结构化数据。如何从不同的数据源获取众多的气象数据并对气象数据进行数据清洗成为亟待解决的问题。

发明内容

本发明目的在于为现有的气象数据分析***提供数据支持。本发明的目的是通过以下技术方案来实现的：

基于Hadoop架构的气象大数据汇聚方法，包括如下步骤：

S1，搭建并部署多源异构气象大数据资源汇聚环境；

S2，获取气象分析的需求信息，根据需求信息通过可视化界面Web端配置资源汇聚信息创建资源汇聚任务，并配置资源汇聚任务基础信息；

S3，设计气象数据的清洗算法；

S4，设计资源汇聚的入口调用方法，根据资源汇聚任务进行资源汇聚参数配置；

S5，从气象多源异构数据接口获取原始气象数据，根据设计的清洗算法开始对接入的原始气象数据进行数据清洗；

S6，将清洗后的气象数据存储到目标数据库，完成资源汇聚。

其中，所述的步骤S1资源汇聚环境搭建部署过程中包括数据汇聚实时消息***Kafka集群的搭建、Hadoop分布式文件存储***HDFS数据存储环境的搭建、搭建资源汇聚任务在Linux***中运行环境。

其中，所述Kafka集群的搭建过程中包括搭建4个缓存代理节点和2个消息生成者节点。

其中，所述的Hadoop分布式文件存储***HDFS数据存储环境的搭建过程中包括搭建2个NameNode节点和4个DataNode节点。

其中，所述的步骤S4中的资源汇聚参数配置包括数据源类型配置、数据源地址配置、目的数据库字段映射关系配置、初步数据清洗算法配置、大数据量的分页及循环设置。

其中，所述的步骤S3中的数据清洗方法采用脚本方式编写，通过Java技术调用清洗算法脚本。

其中，所述的资源汇聚任务基础信息包括录入任务名、执行时间和执行频次。

其中，所述的数据源包括关系型数据库和结构化及文本数据。

本发明的有益效果：本发明提出的一种基于Hadoop架构的气象大数据汇聚方法，可以从不同的数据源中获取原始的气象资料，包括结构化数据和非结构化数据，并对获取的原始气象资料进行数据清洗，并将清洗过后的气象数据存储到数据库，完成对气象大数据的资源汇聚。本发明的方法为气象分析提供数据支持，可提高气象分析中的资源汇聚效率。

附图说明

图1是本发明的方法流程图。

图2是本发明的气象大数据清洗流程图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

本实施例中，如图1所示，基于Hadoop架构的气象大数据汇聚方法如下：

S1，搭建并部署多源异构气象大数据资源汇聚环境；

S3，设计气象数据的清洗算法；

如图2所示，气象大数据的清洗过程包括：预处理阶段，将数据导入处理工具，查看待清洗数据的描述信息；缺失值清洗，计算数据字段中的缺失比例和字段重要性，去除或者补全有缺失的数据；格式内容清洗，去除或者修改人工收集的数据中存在的格式和内容错误；逻辑错误清洗，通过逻辑推理去除数据中的逻辑错误，防止分析结果出现偏差；非需求数据清洗，删除数据中对业务不重要的字段；关联性验证，在对多个来。源的数据整合过程中进行关联性验证，确保在分析过程中不出现数据互相矛盾的问题。

具体的，在预处理阶段中，主要完成两件事：一是将数据导入处理工具。通常来说，建议使用数据库，单机跑数搭建MySQL环境即可。如果数据量大（千万级以上），可以使用文本文件存储+Python操作的方式。二是查看数据。这里包含两个部分：一是查看元数据，包括字段解释、数据来源、代码表等等一切描述数据的信息；二是抽取一部分数据，使用人工查看方式，对数据本身有一个直观的了解，并且初步发现一些问题，为之后的处理做准备。

缺失值清洗过程中，分四个步骤进行：一、确定缺失值的范围，对数据的每个字段都计算其缺失值比例，然后按照缺失比例和字段重要性分别制定数据缺失处理策略；二、去除不需要的字段，直接删除掉数据中不需要的字段，清洗的同时对数据进行备份，或者在小规模数据上进行试验，成功后再处理全量数据；三、填充缺失内容，通过缺失填充方法对数据中的缺失内容进行填充，保证数据的完整性；四、重新取数，如果数据中某些指标非常重要而缺失率又高，需要同相关技术人员了解，是否有其它渠道可以取到该数据，重新对该数据进行读取。其中，第一步中按照缺失比例和字段重要性分别制定处理策略包含以下四种情况：第一种情况，缺失率高，重要性高，所采取的策略为：1、阐释从其它渠道取数补全；2、使用其它字段通过计算获取；3、去除字段，并在结果中标明。第二种情况，重要性高，缺失率低，所采取的策略为：1、通过计算进行填充；2、通过经验或业务知识估计。第三种情况，缺失率高，重要性低，所采取的策略为：去除该字段。第四种情况，重要性低，缺失率低，所采取的的策略为：不做处理或进行简单填充。

格式内容清洗的过程中包含以下三个步骤：第一步，统一格式，对多源数据整合中出现的时间、日期、数值、全半角等显示格式不一致问题进行处理，将数据整理为统一格式；第二步，去除不需要的字符，针对某些数据的内容可能存在只包括一部分字符、文本头尾和中间出现空格、文件名中存在特殊符号、英文标识中出现汉字等问题，采用半自动检验半人工方式进行查找，并去除不需要的字符；第三步，匹配字段内容，针对数据字段中内容不匹配的问题进行详细识别，根据问题的类型采取对应的处理方式。格式内容问题是比较细节的问题，例如跨表关联或VLOOKUP失败、统计值不全（数字里掺个字母当然求和时结果有问题）、模型输出失败或效果不好（数据对错列）。因此，本实施例中的格式内容清洗步骤可以有效解决收集的数据中出现的这些问题，尤其是在处理的数据是人工收集而来的。

逻辑清洗过程中，通过逻辑推理发现数据中存在的一些逻辑错误问题，防止分析结果走偏。本实施例中的逻辑清洗步骤主要包含以下三个子步骤：1、去重；2、去除不合理值；修正矛盾内容。本实施例中的逻辑错误除了以上列举的情况，还有包含很多未列举的基础逻辑错误处理情况，通过使用工具和方法，尽量减少问题出现的可能性，使分析过程更为高效。

非需求数据清洗过程中，实际清洗操作过程中可能会出现以下问题：1、误删实际对业务很重要的字段；2、无法判断字段重要性，不知是否删除该字段；3、误操作删错字段。针对操作过程可能出现的问题，所述非需求数据清洗的步骤主要采取两种措施：一、针对第一个和第二个问题，数据量不大，没有达到不删除字段就无法处理的程度，那么该字段不删除；二、针对第三个问题，先进行备份再对数据字段进行非需求数据清洗。

关联性验证，由于气象大数据有很多数据来源，所以有必要进行关联性验证，确保在分析过程中不出现数据互相矛盾的问题。验证过程如下：首先根据获取验证内容和预先制定的验证规则生成验证任务和与所述验证任务对应的配置文件；当需要执行验证任务时，执行所述验证任务对应的配置文件，快速完成对数据的关联性验证。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于Hadoop架构的气象大数据汇聚方法，其特征在于，包括以下步骤：

S1，搭建并部署多源异构气象大数据资源汇聚环境；

S3，设计气象数据清洗算法；

S5，调用气象多源异构数据接口从不同类型的数据源中获取原始气象数据，根据设计的清洗算法开始对接入的原始气象数据进行数据清洗；

2.根据权利要求1所述的基于Hadoop架构的气象大数据汇聚方法，其特征在于，所述的步骤S1资源汇聚环境搭建部署过程中包括数据汇聚实时消息***Kafka集群的搭建、Hadoop分布式文件存储***HDFS数据存储环境的搭建、搭建资源汇聚任务在Linux***中运行环境。

3.根据权利要求2所述的基于Hadoop架构的气象大数据汇聚方法，其特征在于，所述Kafka集群的搭建过程中包括搭建4个缓存代理节点和2个消息生成者节点。

4.根据权利要求2所述的基于Hadoop架构的气象大数据汇聚方法，其特征在于，所述的Hadoop分布式文件存储***HDFS数据存储环境的搭建过程中包括搭建2个NameNode节点和4个DataNode节点。

5.根据权利要求1所述的基于Hadoop架构的气象大数据汇聚方法，其特征在于，所述的步骤S4中的资源汇聚参数配置包括数据源类型配置、数据源地址配置、目的数据库字段映射关系配置、初步数据清洗算法配置、大数据量的分页及循环设置。

6.根据权利要求1所述的基于Hadoop架构的气象大数据汇聚方法，其特征在于，所述的步骤S3中的数据清洗方法采用脚本方式编写，通过Java技术调用清洗算法脚本。

7.根据权利要求1所述的基于Hadoop架构的气象大数据汇聚方法，其特征在于，所述的资源汇聚任务基础信息包括录入任务名、执行时间和执行频次。

8.根据权利要求1所述的基于Hadoop架构的气象大数据汇聚方法，其特征在于，所述的数据源包括关系型数据库和结构化及文本数据。