CN111488325A - 基于Hadoop架构的气象大数据汇聚方法 - Google Patents

基于Hadoop架构的气象大数据汇聚方法 Download PDF

Info

Publication number
CN111488325A
CN111488325A CN202010305811.8A CN202010305811A CN111488325A CN 111488325 A CN111488325 A CN 111488325A CN 202010305811 A CN202010305811 A CN 202010305811A CN 111488325 A CN111488325 A CN 111488325A
Authority
CN
China
Prior art keywords
data
meteorological
resource
task
resource convergence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010305811.8A
Other languages
English (en)
Inventor
张强
陈东辉
刘一鸣
韩瑞
罗岚心
高静
石岩
赵煜飞
刘雨佳
冯爱霞
战云健
姜筱玮
王妍
梁中军
兰平
范邵华
李默予
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Meteorological Information Center
Original Assignee
National Meteorological Information Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Meteorological Information Center filed Critical National Meteorological Information Center
Priority to CN202010305811.8A priority Critical patent/CN111488325A/zh
Publication of CN111488325A publication Critical patent/CN111488325A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于Hadoop架构的气象大数据汇聚方法,技术方案可概括为:首先搭建并部署多源异构气象大数据资源汇聚环境,然后获取气象分析的需求信息,根据需求信息通过可视化界面Web端配置资源汇聚信息创建资源汇聚任务,并配置资源汇聚任务基础信息,设计气象数据的清洗算法;设计资源汇聚的入口调用方法,根据资源汇聚任务进行资源汇聚参数配置,调用气象多源异构数据接口从不同类型的数据源中获取原始气象数据,利用设计的清洗算法对接入的原始气象数据进行数据清洗,最后将清洗后的气象数据存储到目标数据库,完成资源汇聚。通过本方案可获取不同数据源中的气象数据并对其进行数据清洗,完成数据的资源汇聚,为气象数据分析提供数据支持。

Description

基于Hadoop架构的气象大数据汇聚方法
技术领域
本发明涉及大数据处理技术领域,具体涉及基于Hadoop架构的气象大数据汇聚方法。
背景技术
气候资料指的是用常规气象仪器和专业气象器材所观测到各种原始资料的集合以及加工、整理、整编所形成的各种资料。但随着现代气候的发展,气候研究内容不断扩大和深化,气候资料概念和内涵得以进一步的延伸,泛指整个气候***的有关原始资料的集合和加工产品。天气资料是为天气分析和预报服务的一种实时性很强的气象资料。天气资料和气候资料主要区别是:天气资料随着时间的推移转化为气候资料;气候资料的内容比天气资料要广泛得多;气候资料是长时间序列的资料,而天气资料是短时间内的资料。国家气象信息中心每天接收来自国内外主要台站的观测资料,这些资料日积月累,随时间的推移而成为气候资料。国内一部分台站每月将观测记录报表和数字化资料寄送或传输到国家气象信息中心,这些资料或报表成为气候资料重要的部分。此外,气候资料还包括通过各种渠道收集到的其他学科如水文、地学等资料。目前随着物联网技术的高速发展,各种终端、基础采集设备的数量和种类不断增加,每时每刻都会产生大量数据,这些数据种类繁多,分为结构化数据和非结构化数据。如何从不同的数据源获取众多的气象数据并对气象数据进行数据清洗成为亟待解决的问题。
发明内容
本发明目的在于为现有的气象数据分析***提供数据支持。本发明的目的是通过以下技术方案来实现的:
基于Hadoop架构的气象大数据汇聚方法,包括如下步骤:
S1,搭建并部署多源异构气象大数据资源汇聚环境;
S2,获取气象分析的需求信息,根据需求信息通过可视化界面Web端配置资源汇聚信息创建资源汇聚任务,并配置资源汇聚任务基础信息;
S3,设计气象数据的清洗算法;
S4,设计资源汇聚的入口调用方法,根据资源汇聚任务进行资源汇聚参数配置;
S5,从气象多源异构数据接口获取原始气象数据,根据设计的清洗算法开始对接入的原始气象数据进行数据清洗;
S6,将清洗后的气象数据存储到目标数据库,完成资源汇聚。
其中,所述的步骤S1资源汇聚环境搭建部署过程中包括数据汇聚实时消息***Kafka集群的搭建、Hadoop分布式文件存储***HDFS数据存储环境的搭建、搭建资源汇聚任务在Linux***中运行环境。
其中,所述Kafka集群的搭建过程中包括搭建4个缓存代理节点和2个消息生成者节点。
其中,所述的Hadoop分布式文件存储***HDFS数据存储环境的搭建过程中包括搭建2个NameNode节点和4个DataNode节点。
其中,所述的步骤S4中的资源汇聚参数配置包括数据源类型配置、数据源地址配置、目的数据库字段映射关系配置、初步数据清洗算法配置、大数据量的分页及循环设置。
其中,所述的步骤S3中的数据清洗方法采用脚本方式编写,通过Java技术调用清洗算法脚本。
其中,所述的资源汇聚任务基础信息包括录入任务名、执行时间和执行频次。
其中,所述的数据源包括关系型数据库和结构化及文本数据。
本发明的有益效果:本发明提出的一种基于Hadoop架构的气象大数据汇聚方法,可以从不同的数据源中获取原始的气象资料,包括结构化数据和非结构化数据,并对获取的原始气象资料进行数据清洗,并将清洗过后的气象数据存储到数据库,完成对气象大数据的资源汇聚。本发明的方法为气象分析提供数据支持,可提高气象分析中的资源汇聚效率。
附图说明
图1是本发明的方法流程图。
图2是本发明的气象大数据清洗流程图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。
本实施例中,如图1所示,基于Hadoop架构的气象大数据汇聚方法如下:
S1,搭建并部署多源异构气象大数据资源汇聚环境;
S2,获取气象分析的需求信息,根据需求信息通过可视化界面Web端配置资源汇聚信息创建资源汇聚任务,并配置资源汇聚任务基础信息;
S3,设计气象数据的清洗算法;
S4,设计资源汇聚的入口调用方法,根据资源汇聚任务进行资源汇聚参数配置;
S5,从气象多源异构数据接口获取原始气象数据,根据设计的清洗算法开始对接入的原始气象数据进行数据清洗;
S6,将清洗后的气象数据存储到目标数据库,完成资源汇聚。
其中,所述的步骤S1资源汇聚环境搭建部署过程中包括数据汇聚实时消息***Kafka集群的搭建、Hadoop分布式文件存储***HDFS数据存储环境的搭建、搭建资源汇聚任务在Linux***中运行环境。
其中,所述Kafka集群的搭建过程中包括搭建4个缓存代理节点和2个消息生成者节点。
其中,所述的Hadoop分布式文件存储***HDFS数据存储环境的搭建过程中包括搭建2个NameNode节点和4个DataNode节点。
其中,所述的步骤S4中的资源汇聚参数配置包括数据源类型配置、数据源地址配置、目的数据库字段映射关系配置、初步数据清洗算法配置、大数据量的分页及循环设置。
其中,所述的步骤S3中的数据清洗方法采用脚本方式编写,通过Java技术调用清洗算法脚本。
其中,所述的资源汇聚任务基础信息包括录入任务名、执行时间和执行频次。
其中,所述的数据源包括关系型数据库和结构化及文本数据。
如图2所示,气象大数据的清洗过程包括:预处理阶段,将数据导入处理工具,查看待清洗数据的描述信息;缺失值清洗,计算数据字段中的缺失比例和字段重要性,去除或者补全有缺失的数据;格式内容清洗,去除或者修改人工收集的数据中存在的格式和内容错误;逻辑错误清洗,通过逻辑推理去除数据中的逻辑错误,防止分析结果出现偏差;非需求数据清洗,删除数据中对业务不重要的字段;关联性验证,在对多个来。源的数据整合过程中进行关联性验证,确保在分析过程中不出现数据互相矛盾的问题。
具体的,在预处理阶段中,主要完成两件事:一是将数据导入处理工具。通常来说,建议使用数据库,单机跑数搭建MySQL环境即可。如果数据量大(千万级以上),可以使用文本文件存储+Python操作的方式。二是查看数据。这里包含两个部分:一是查看元数据,包括字段解释、数据来源、代码表等等一切描述数据的信息;二是抽取一部分数据,使用人工查看方式,对数据本身有一个直观的了解,并且初步发现一些问题,为之后的处理做准备。
缺失值清洗过程中,分四个步骤进行:一、确定缺失值的范围,对数据的每个字段都计算其缺失值比例,然后按照缺失比例和字段重要性分别制定数据缺失处理策略;二、去除不需要的字段,直接删除掉数据中不需要的字段,清洗的同时对数据进行备份,或者在小规模数据上进行试验,成功后再处理全量数据;三、填充缺失内容,通过缺失填充方法对数据中的缺失内容进行填充,保证数据的完整性;四、重新取数,如果数据中某些指标非常重要而缺失率又高,需要同相关技术人员了解,是否有其它渠道可以取到该数据,重新对该数据进行读取。其中,第一步中按照缺失比例和字段重要性分别制定处理策略包含以下四种情况:第一种情况,缺失率高,重要性高,所采取的策略为:1、阐释从其它渠道取数补全;2、使用其它字段通过计算获取;3、去除字段,并在结果中标明。第二种情况,重要性高,缺失率低,所采取的策略为:1、通过计算进行填充;2、通过经验或业务知识估计。第三种情况,缺失率高,重要性低,所采取的策略为:去除该字段。第四种情况,重要性低,缺失率低,所采取的的策略为:不做处理或进行简单填充。
格式内容清洗的过程中包含以下三个步骤:第一步,统一格式,对多源数据整合中出现的时间、日期、数值、全半角等显示格式不一致问题进行处理,将数据整理为统一格式;第二步,去除不需要的字符,针对某些数据的内容可能存在只包括一部分字符、文本头尾和中间出现空格、文件名中存在特殊符号、英文标识中出现汉字等问题,采用半自动检验半人工方式进行查找,并去除不需要的字符;第三步,匹配字段内容,针对数据字段中内容不匹配的问题进行详细识别,根据问题的类型采取对应的处理方式。格式内容问题是比较细节的问题,例如跨表关联或VLOOKUP失败、统计值不全(数字里掺个字母当然求和时结果有问题)、模型输出失败或效果不好(数据对错列)。因此,本实施例中的格式内容清洗步骤可以有效解决收集的数据中出现的这些问题,尤其是在处理的数据是人工收集而来的。
逻辑清洗过程中,通过逻辑推理发现数据中存在的一些逻辑错误问题,防止分析结果走偏。本实施例中的逻辑清洗步骤主要包含以下三个子步骤:1、去重;2、去除不合理值;修正矛盾内容。本实施例中的逻辑错误除了以上列举的情况,还有包含很多未列举的基础逻辑错误处理情况,通过使用工具和方法,尽量减少问题出现的可能性,使分析过程更为高效。
非需求数据清洗过程中,实际清洗操作过程中可能会出现以下问题:1、误删实际对业务很重要的字段;2、无法判断字段重要性,不知是否删除该字段;3、误操作删错字段。针对操作过程可能出现的问题,所述非需求数据清洗的步骤主要采取两种措施:一、针对第一个和第二个问题,数据量不大,没有达到不删除字段就无法处理的程度,那么该字段不删除;二、针对第三个问题,先进行备份再对数据字段进行非需求数据清洗。
关联性验证,由于气象大数据有很多数据来源,所以有必要进行关联性验证,确保在分析过程中不出现数据互相矛盾的问题。验证过程如下:首先根据获取验证内容和预先制定的验证规则生成验证任务和与所述验证任务对应的配置文件;当需要执行验证任务时,执行所述验证任务对应的配置文件,快速完成对数据的关联性验证。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (8)

1.基于Hadoop架构的气象大数据汇聚方法,其特征在于,包括以下步骤:
S1,搭建并部署多源异构气象大数据资源汇聚环境;
S2,获取气象分析的需求信息,根据需求信息通过可视化界面Web端配置资源汇聚信息创建资源汇聚任务,并配置资源汇聚任务基础信息;
S3,设计气象数据清洗算法;
S4,设计资源汇聚的入口调用方法,根据资源汇聚任务进行资源汇聚参数配置;
S5,调用气象多源异构数据接口从不同类型的数据源中获取原始气象数据,根据设计的清洗算法开始对接入的原始气象数据进行数据清洗;
S6,将清洗后的气象数据存储到目标数据库,完成资源汇聚。
2.根据权利要求1所述的基于Hadoop架构的气象大数据汇聚方法,其特征在于,所述的步骤S1资源汇聚环境搭建部署过程中包括数据汇聚实时消息***Kafka集群的搭建、Hadoop分布式文件存储***HDFS数据存储环境的搭建、搭建资源汇聚任务在Linux***中运行环境。
3.根据权利要求2所述的基于Hadoop架构的气象大数据汇聚方法,其特征在于,所述Kafka集群的搭建过程中包括搭建4个缓存代理节点和2个消息生成者节点。
4.根据权利要求2所述的基于Hadoop架构的气象大数据汇聚方法,其特征在于,所述的Hadoop分布式文件存储***HDFS数据存储环境的搭建过程中包括搭建2个NameNode节点和4个DataNode节点。
5.根据权利要求1所述的基于Hadoop架构的气象大数据汇聚方法,其特征在于,所述的步骤S4中的资源汇聚参数配置包括数据源类型配置、数据源地址配置、目的数据库字段映射关系配置、初步数据清洗算法配置、大数据量的分页及循环设置。
6.根据权利要求1所述的基于Hadoop架构的气象大数据汇聚方法,其特征在于,所述的步骤S3中的数据清洗方法采用脚本方式编写,通过Java技术调用清洗算法脚本。
7.根据权利要求1所述的基于Hadoop架构的气象大数据汇聚方法,其特征在于,所述的资源汇聚任务基础信息包括录入任务名、执行时间和执行频次。
8.根据权利要求1所述的基于Hadoop架构的气象大数据汇聚方法,其特征在于,所述的数据源包括关系型数据库和结构化及文本数据。
CN202010305811.8A 2020-04-17 2020-04-17 基于Hadoop架构的气象大数据汇聚方法 Pending CN111488325A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010305811.8A CN111488325A (zh) 2020-04-17 2020-04-17 基于Hadoop架构的气象大数据汇聚方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010305811.8A CN111488325A (zh) 2020-04-17 2020-04-17 基于Hadoop架构的气象大数据汇聚方法

Publications (1)

Publication Number Publication Date
CN111488325A true CN111488325A (zh) 2020-08-04

Family

ID=71795570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010305811.8A Pending CN111488325A (zh) 2020-04-17 2020-04-17 基于Hadoop架构的气象大数据汇聚方法

Country Status (1)

Country Link
CN (1) CN111488325A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949717A (zh) * 2020-08-14 2020-11-17 上海交通大学 一种面向跨域信息***的实时按需数据汇聚方法及***
CN112732696A (zh) * 2021-01-21 2021-04-30 中科三清科技有限公司 应用于大气环境监测的数据清洗方法、装置、存储介质
CN113010505A (zh) * 2021-03-11 2021-06-22 江苏省生态环境监控中心(江苏省环境信息中心) 一种水环境大数据清洗方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002140684A (ja) * 2000-10-31 2002-05-17 Nippon Telegr & Teleph Corp <Ntt> 気象翻訳・予測方法及び気象翻訳・予測プログラムを格納した記憶媒体
US20170261645A1 (en) * 2016-03-10 2017-09-14 The Climate Corporation Long-range temperature forecasting
CN107798059A (zh) * 2017-09-08 2018-03-13 中国电力科学研究院 一种nco气象数据结构化存储方法和装置
CN109063964A (zh) * 2018-07-02 2018-12-21 浙江百先得服饰有限公司 一种平台数据处理***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002140684A (ja) * 2000-10-31 2002-05-17 Nippon Telegr & Teleph Corp <Ntt> 気象翻訳・予測方法及び気象翻訳・予測プログラムを格納した記憶媒体
US20170261645A1 (en) * 2016-03-10 2017-09-14 The Climate Corporation Long-range temperature forecasting
CN107798059A (zh) * 2017-09-08 2018-03-13 中国电力科学研究院 一种nco气象数据结构化存储方法和装置
CN109063964A (zh) * 2018-07-02 2018-12-21 浙江百先得服饰有限公司 一种平台数据处理***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘骥超等: "云计算环境下气象大数据的应用研究", 《计算机技术与发展》 *
朱亮等: "基于分布式的农业气象大数据平台设计与实现", 《湖北农业科学》 *
邱超等: "基于大数据技术的水情云数据中心设计与研究", 《浙江大学学报(理学版)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949717A (zh) * 2020-08-14 2020-11-17 上海交通大学 一种面向跨域信息***的实时按需数据汇聚方法及***
CN111949717B (zh) * 2020-08-14 2024-02-06 上海交通大学 一种面向跨域信息***的实时按需数据汇聚方法及***
CN112732696A (zh) * 2021-01-21 2021-04-30 中科三清科技有限公司 应用于大气环境监测的数据清洗方法、装置、存储介质
CN113010505A (zh) * 2021-03-11 2021-06-22 江苏省生态环境监控中心(江苏省环境信息中心) 一种水环境大数据清洗方法

Similar Documents

Publication Publication Date Title
CN107491561B (zh) 一种基于本体的城市交通异构数据集成***及方法
CN111488325A (zh) 基于Hadoop架构的气象大数据汇聚方法
CN102982097B (zh) 用于基于知识的数据质量解决方案的域
CN109446221B (zh) 一种基于语义分析的交互式数据探查方法
CN112612908A (zh) 自然资源知识图谱构建方法、装置、服务器及可读存储器
CN111967761A (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN111309868B (zh) 一种知识图谱构建、检索方法及装置
CN113094512B (zh) 一种工业生产制造中故障分析***及方法
CN109325062A (zh) 一种基于分布式计算的数据依赖挖掘方法及***
CN113434625A (zh) 专利检索式的代码化方法、设备和存储介质
Schorlemmer et al. Institutionalising ontology-based semantic integration
CN113254725A (zh) 一种面向图数据库的数据管理与检索增强的方法
CN112905728A (zh) 一种面向多源地名数据的高效融合与检索***及方法
CN117151659A (zh) 一种基于大语言模型的生态修复工程全生命周期追溯方法
CN106933844B (zh) 面向大规模rdf数据的可达性查询索引的构建方法
CN116303641B (zh) 一种支持多数据源可视化配置的实验室报告管理方法
CN116881512A (zh) 一种跨***元数据血缘自动解析方法
CN115827885A (zh) 一种运维知识图谱的构建方法、装置及电子设备
JP2012027743A (ja) 階層構造の解析・出力方法、および、その情報処理装置、プログラム。
CN116126918A (zh) 数据生成方法、信息筛选方法、设备以及介质
CN113377771A (zh) 一种数据探索方法、***、设备及存储介质
CN112486998A (zh) 一种基于bpmn的微服务工作流程导入方法
CN115242612B (zh) 一种故障诊断方法和装置
CN111382170A (zh) 一种语句自动转换方法和装置
CN111782657B (zh) 数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200804