CN106504169A - 一种基于流处理的内涝数据处理***及其处理方法 - Google Patents

一种基于流处理的内涝数据处理***及其处理方法 Download PDF

Info

Publication number
CN106504169A
CN106504169A CN201611026709.4A CN201611026709A CN106504169A CN 106504169 A CN106504169 A CN 106504169A CN 201611026709 A CN201611026709 A CN 201611026709A CN 106504169 A CN106504169 A CN 106504169A
Authority
CN
China
Prior art keywords
modules
result
waterlogging
flume
stream process
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611026709.4A
Other languages
English (en)
Inventor
史鑫明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SUZHOU AEROSPACE SYSTEM ENGINEERING Co Ltd
Original Assignee
SUZHOU AEROSPACE SYSTEM ENGINEERING Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SUZHOU AEROSPACE SYSTEM ENGINEERING Co Ltd filed Critical SUZHOU AEROSPACE SYSTEM ENGINEERING Co Ltd
Priority to CN201611026709.4A priority Critical patent/CN106504169A/zh
Publication of CN106504169A publication Critical patent/CN106504169A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于流处理的内涝数据处理***,其包括内涝模型计算模块、Flume模块、Kafka模块、SparkStreaming模块和应用***。采用SparkStreaming流处理框架来提高读取和处理效率,以时间戳间隔将计算结果提交给流处理框架,在流处理框架中进行Shp文件的解析,并对同一个结点的结果,跟上一个时间的结果进行比较,输出每个结点相对上一次结果,水深值不一样的三角网格进行输出。进而满足实际的需求。提高我们的处理和展示的效率。

Description

一种基于流处理的内涝数据处理***及其处理方法
技术领域
本发明属于大数据流处理的应用领域,具体而言涉及一种处理内涝数据的***和方法。
背景技术
随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐、用户行为分析等。
Spark Streaming是建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的高速执行引擎,用户可以结合流式、批处理和交互试查询应用, Spark是一个类似于MapReduce的分布式计算框架,其核心是弹性分布式数据集,提供了比MapReduce更丰富的模型,可以在快速在内存中对数据集进行多次迭代,以支持复杂的数据挖掘算法和图形计算算法。Spark Streaming是一种构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力。
Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的***,支持在***中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
Flume主要由3个重要的组件购成:
Source:完成对日志数据的收集,分成transtion 和 event 打入到channel之中。
Channel:主要提供一个队列的功能,对source提供中的数据进行简单的缓存。
Sink:取出Channel中的数据,进行相应的存储文件***,数据库,或者提交到远程服务器。
对现有程序改动最小的使用方式是使用是直接读取程序原来记录的日志文件,基本可以实现无缝接入,不需要对现有程序进行任何改动。
Flume逻辑上分三层架构:agent,collector和storage。
①agent
用于采集数据,agent是flume中产生数据流的地方,同时,agent会将产生的数据流传输到collector。
②collector
collector的作用是将多个agent的数据汇总后,加载到storage中。
③storage
storage是存储***,可以是一个普通file,也可以是HDFS,HIVE,HBase等。
目前,由于由于地理信息的特性,内涝模型的实时预测未能采用分布式计算来提高自身的计算效率。因此对于大面积内涝模型的计算,采用多个结点进行不同区域的计算然后将各个结点的处理结果进行处理。但是对于模型预测面积越来越大的时候,需要处理的数据也越来越多,单个工作站或者配置更高的服务器越来越难满足这种变化的需求。
发明内容
为克服现有技术中的不足,本发明的目的在于提供一种基于流处理的内涝数据处理***以提高结果的展示效果的效率及实时性。
为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
一种基于流处理的内涝数据处理***,其包括内涝模型计算模块、Flume模块、Kafka模块、SparkStreaming模块和应用***;所述内涝模型计算模块将产生大量的内涝预测技术结果数据,然后以Shp格式存储为Shp文件(Shp文件由ESRI开发,一个ESRI的Shp文件包括一个主文件,一个索引文件,和一个dBASE表,其中主文件的后缀就是.shp),所述Flume模块通过其Agent收集所述Shp文件,然后汇总到所述Flume模块的collector,所述Flume模块的Sink将日志输送到所述Kafka模块完成数据的生产流程,所述SparkStreaming模块追踪消费这个数据的偏移量或者offset进行消费,所述SparkStreaming模块中编写有解析所述Shp文件的程序,所述程序解析所述Shp文件后返回每次变化的结果,再传输给所述Kafka模块,再由所述应用***和所述Kafka***建立通信,监听特定的消息队列,获取变化的结果,完成GIS信息的展示。
本发明的另一个发明目的为提供一种基于流处理的内涝数据处理方法,其包括以下步骤:
1)通过内涝模型计算模块对结点进行不同区域的计算;
2)通过Flume模块将这些多个结点的预测计算结果进行收集处理;
3)通过SparkStreaming模块对收集的结果进行处理,以时间戳间隔将计算结果提交给流处理框架,在流处理框架中进行Shp文件的解析;
4)通过Kafka模块对同一个结点的结果,跟上一个时间的结果进行比较;
5)通过应用***输出每个结点相对上一次结果,水深值不一样的三角网格进行输出。
本发明的有益效果是:
与现有技术相比,本发明的***及其方法将内涝模型的计算结果用于流计算框架,提高内涝预警的展示的速度。能使管理者更快的采取防范措施,减少损失。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的***框架示意图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
参见图1所示,一种基于流处理的内涝数据处理***,其包括内涝模型计算模块1、Flume模块2、Kafka模块3、SparkStreaming模块4和应用***5;所述内涝模型计算模块1将产生大量的内涝预测技术结果数据,然后以Shp格式存储为Shp文件,所述Flume模块2通过其Agent收集所述Shp文件,然后汇总到所述Flume模块2的collector,所述Flume模块2的Sink将日志输送到所述Kafka模块3完成数据的生产流程,所述SparkStreaming模块4追踪消费这个数据的偏移量或者offset进行消费,所述SparkStreaming模块4中编写有解析所述Shp文件的程序,所述程序解析所述Shp文件后返回每次变化的结果,再传输给所述Kafka模块3,再由所述应用***5和所述Kafka***3建立通信,监听特定的消息队列,获取变化的结果,完成GIS信息的展示。
本实施例的内涝数据处理***的处理方法如下:
1)通过内涝模型计算模块1对结点进行不同区域的计算;
2)通过Flume模块2将这些多个结点的预测计算结果进行收集处理;
3)通过SparkStreaming模块4对收集的结果进行处理,以时间戳间隔将计算结果提交给流处理框架,在流处理框架中进行Shp文件的解析;
4)通过Kafka模块3对同一个结点的结果,跟上一个时间的结果进行比较;
5)通过应用***5输出每个结点相对上一次结果,水深值不一样的三角网格进行输出。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于流处理的内涝数据处理***,其特征在于:包括内涝模型计算模块(1)、Flume模块(2)、Kafka模块(3)、SparkStreaming模块(4)和应用***(5);
所述内涝模型计算模块(1)将产生大量的内涝预测技术结果数据,然后以Shp格式存储为Shp文件,所述Flume模块(2)通过其Agent收集所述Shp文件,然后汇总到所述Flume模块(2)的collector,所述Flume模块(2)的Sink将日志输送到所述Kafka模块(3)完成数据的生产流程,所述SparkStreaming模块(4)追踪消费这个数据的偏移量或者offset进行消费,所述SparkStreaming模块(4)中编写有解析所述Shp文件的程序,所述程序解析所述Shp文件后返回每次变化的结果,再传输给所述Kafka模块(3),再由所述应用***(5)和所述Kafka***(3)建立通信,监听特定的消息队列,获取变化的结果,完成GIS信息的展示。
2.一种基于流处理的内涝数据处理方法,其特征在于,包括以下处理方法:
1)通过内涝模型计算模块(1)对结点进行不同区域的计算;
2)通过Flume模块(2)将这些多个结点的预测计算结果进行收集处理;
3)通过SparkStreaming模块(4)对收集的结果进行处理,以时间戳间隔将计算结果提交给流处理框架,在流处理框架中进行Shp文件的解析;
4)通过Kafka模块(3)对同一个结点的结果,跟上一个时间的结果进行比较;
5)通过应用***(5)输出每个结点相对上一次结果,水深值不一样的三角网格进行输出。
CN201611026709.4A 2016-11-22 2016-11-22 一种基于流处理的内涝数据处理***及其处理方法 Pending CN106504169A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611026709.4A CN106504169A (zh) 2016-11-22 2016-11-22 一种基于流处理的内涝数据处理***及其处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611026709.4A CN106504169A (zh) 2016-11-22 2016-11-22 一种基于流处理的内涝数据处理***及其处理方法

Publications (1)

Publication Number Publication Date
CN106504169A true CN106504169A (zh) 2017-03-15

Family

ID=58328051

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611026709.4A Pending CN106504169A (zh) 2016-11-22 2016-11-22 一种基于流处理的内涝数据处理***及其处理方法

Country Status (1)

Country Link
CN (1) CN106504169A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107317838A (zh) * 2017-05-24 2017-11-03 重庆邮电大学 一种基于流式数据处理架构的天文元数据归档方法及***
CN110377653A (zh) * 2019-07-15 2019-10-25 武汉中地数码科技有限公司 一种实时大数据计算与存储方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060095202A1 (en) * 2004-11-01 2006-05-04 Hitachi, Ltd. Method of delivering difference map data
CN101727261A (zh) * 2008-10-17 2010-06-09 华硕电脑股份有限公司 页面操作方法与电子装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060095202A1 (en) * 2004-11-01 2006-05-04 Hitachi, Ltd. Method of delivering difference map data
CN101727261A (zh) * 2008-10-17 2010-06-09 华硕电脑股份有限公司 页面操作方法与电子装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈任飞等: "基于Flume/Kafka/Spark的分布式日志流处理***的设计与实现", 《中国科技论文在线》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107317838A (zh) * 2017-05-24 2017-11-03 重庆邮电大学 一种基于流式数据处理架构的天文元数据归档方法及***
CN107317838B (zh) * 2017-05-24 2020-11-17 重庆邮电大学 一种基于流式数据处理架构的天文元数据归档方法及***
CN110377653A (zh) * 2019-07-15 2019-10-25 武汉中地数码科技有限公司 一种实时大数据计算与存储方法及***

Similar Documents

Publication Publication Date Title
Yang IoT stream processing and analytics in the fog
CN106709035B (zh) 一种电力多维全景数据的预处理***
CN103297503B (zh) 基于分层次信息提取服务器的移动终端群智感知***
CN102902752B (zh) 一种日志监控方法及***
Wang et al. A deep learning based energy-efficient computational offloading method in Internet of vehicles
CN105512297A (zh) 一种基于分布式流式计算的空间数据处理方法与***
CN109710731A (zh) 一种基于Flink的数据流多向处理***
CN109831478A (zh) 基于规则及模型的分布式实时处理智能决策***及方法
Yan et al. Big data driven wireless communications: A human-in-the-loop pushing technique for 5G systems
Du Energy analysis of Internet of things data mining algorithm for smart green communication networks
CN111198918B (zh) 基于大数据平台的数据处理***及链路优化方法
CN103916478B (zh) 基于分布式***的流式构建数据方的方法和装置
CN106504169A (zh) 一种基于流处理的内涝数据处理***及其处理方法
CN110995652B (zh) 一种基于深度迁移学***台未知威胁检测方法
CN106682225A (zh) 一种大数据的汇集存储方法与***
CN107995278B (zh) 一种基于城域级物联网感知数据的场景智能分析***与方法
CN106990913B (zh) 一种大规模流式集合数据的分布式处理方法
CN104778355A (zh) 基于广域分布交通***的异常轨迹检测方法
Zhang et al. A locally distributed mobile computing framework for DNN based android applications
CN111049898A (zh) 一种实现计算集群资源跨域架构的方法及***
CN115391429A (zh) 基于大数据云计算的时序数据处理方法及装置
CN111813833B (zh) 一种实时二度通联关系数据挖掘的方法
Liu et al. Distributed and real-time query framework for processing participatory sensing data streams
CN113360576A (zh) 一种基于Flink Streaming的电网海量数据实时处理方法及装置
CN106936640A (zh) 一种基于Kafka和Zabbix的日志分析监控***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Shi Xinming

Inventor after: Li Yujie

Inventor after: Liu Jia

Inventor after: Chen Kun

Inventor after: Liu Changxin

Inventor after: Yang Fang

Inventor before: Shi Xinming

CB03 Change of inventor or designer information
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170315

WD01 Invention patent application deemed withdrawn after publication