CN108681489A

CN108681489A - 一种超算环境下的海量数据实时采集与处理方法

Info

Publication number: CN108681489A
Application number: CN201810514917.1A
Authority: CN
Inventors: 伍卫国; 张祥俊
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2018-05-25
Filing date: 2018-05-25
Publication date: 2018-10-19

Abstract

本发明公开了一种超算环境下的海量数据实时采集与处理方法，首先通过flume软件的source端将超算集群数据生成的数据源端的消息源进行收集，然后通过flume软件将收集到的消息源汇集到Kafka软件中，消息源以Kafka软件为缓冲进行存储，通过Spark软件从Kafka软件中提取需要处理的消息源进行数据处理，从而实现超算环境下的海量数据实时采集与处理，从而实现超算环境下的海量数据实时采集与处理，使用kafka来作为中间的缓冲作用，提高了数据可靠性，基于kafka的分布式消息订阅***可以有多个消息生产者和多个消费者的方式，这样保证了***消息的高可用性，结合docker容器化技术和负载均衡技术完成容器编排和管理，能够应用于真实的分布式数据收集、实时处理并可扩充的超大集群环境。

Description

一种超算环境下的海量数据实时采集与处理方法

技术领域

本发明涉及了在超级计算中心环境下的海量数据采集和处理软件架构，尤其涉及到一种高并发、高可用、数据安全性和完备性要求下的的海量数据实时采集和处理框架。应用了流式处理数据处理技术、分布式消息订阅技术、分布式存储技术构建了一个从海量数据采集到处理的平台。

背景技术

随着我国创新驱动战略的实施和工业转型升级及两化深度融合的不断推进，工业产品研发得到了前所未有的重视。中国科技部提出：依托国家高性能计算环境，结合互联网和云计算等技术，聚合工业开发社区所需的高性能计算、存储、应用软件、可视化、数据等资源培育形成基于国家高性能计算和服务环境的工业社区产品创新的生态环境。

超算环境下的复杂计算作业产生数据量巨大，应用程序对数据采集的完备性和处理实时性的要求越来越高。然而对于十分庞大的计算节点构建的超算环境下常见的数据采集工具已经无法满足数据采集和处理的可靠性要求，数据生成的速度过快会产生数据丢失现象，而且存储元数据的节点宕机后会对整个***的安全性造成影响。

发明内容

本发明的目的在于提供一种超算环境下的海量数据实时采集与处理方法，以克服现有技术的不足。

为达到上述目的，本发明采用如下技术方案：

一种超算环境下的海量数据实时采集与处理方法，包括以下步骤：

首先通过flume软件的source端将超算集群数据生成的数据源端的消息源进行收集，然后通过flume软件将收集到的消息源汇集到Kafka软件中，消息源以Kafka软件为缓冲进行存储，最后通过Spark软件从Kafka软件中提取需要处理的消息源进行数据处理，从而实现超算环境下的海量数据实时采集与处理。

进一步的，使用开分布式的海量日志采集、聚合和传输的***flume作为数据源端的采集工具，通过Flume对数据进行简单处理，并写到各种数据接受方。

进一步的，数据源端包括console、RPC、text、tail、spooldir及syslog，数据源端支持TCP和UDP 2种模式。

进一步的，Kafka软件采用分布式消息订阅***，即有多个消息生产者和多个消费者，kafka软件将接收到的消息源存入到kafka软件的磁盘数据结构的持久化中去供后端能处理端的消息来处理。

进一步的，Spark软件通过SparkStream来消费Kafka的分布式消息，通过流式处理方式，计算需要做的分析处理业务。

进一步的，Spark软件将结果通过数据可视化工具ichart展示出来，可视化工具ichart请求层的web应用程序采用docker容器编排的方式部署，使用 dockerswarm作为容器编排工具、结合ansible作为集群的自动化运维工具。

进一步的，超算集群的每个节点即超算节点都有多个进程部署在每个分布式节点上，分部署存储的基底是以HDFS基地之上的多个节点构成的集群，超算节点在运行作业时产生的大批量数据会出处在log日志里面，最终flume 软件将log日志里面的信息放入Kafka软件缓存上面。

进一步的，超算节点采用三个节点来存储元数据，使用基于zookeeper 来保证多活，每一个作业运行节点作为消息的生产者，每个节点启动时设置一个守护进程，通过命令开启每个节点的kafka服务；每一个流式计算节点作为消息的消费者，每个消息经过每一个flume软件分支汇集到kafka软件集中式缓存起来，其后，spark软件从kafka软件汇聚起来的池子里面拿走消息进行计算，且每个环节都是一个分布式高可用的结构。

与现有技术相比，本发明具有以下有益的技术效果：

本发明一种超算环境下的海量数据实时采集与处理方法，首先通过 flume软件的source端将超算集群数据生成的数据源端的消息源进行收集，然后通过flume软件将收集到的消息源汇集到Kafka软件中，消息源以Kafka 软件为缓冲进行存储，最后通过Spark软件从Kafka软件中提取需要处理的消息源进行数据处理，从而实现超算环境下的海量数据实时采集与处理，从而实现超算环境下的海量数据实时采集与处理，使用kafka来作为中间的缓冲作用，提高了数据可靠性，基于kafka的分布式消息订阅***可以有多个消息生产者和多个消费者的方式，这样保证了***消息的高可用性，结合 docker容器化技术和负载均衡技术完成容器编排和管理，本发明能够应用于真实的分布式数据收集、实时处理并可扩充的超大集群环境。

进一步的，请求层的web应用程序采用docker容器编排的方式部署，使用dockerswarm作为容器编排工具、结合ansible作为集群的自动化运维工具。这样讲容器作为底层服务端口部署的方式，既可以保证隔离性又可以将我们业务微服务化。

进一步的，采用三个节点来存储元数据，使用基于zookeeper来保证多活，每一个作业运行节点作为消息的生产者，每个节点启动时设置一个守护进程来通过命令开启每个节点的kafka服务，每一个流式计算节点作为消息的消费者，这样的消息就像水流一样先从超算节点流出，经过每一个flume 分支汇集到kafka集中式缓存起来，其后，spark从这儿消息的汇聚起来的池子里面拿走消息进行计算，这样整个中心环节就连贯起来了，且每个环节都是一个分布式高可用的结构，则有效保证了计算的可靠性和并发性。

进一步的，使用dockerswarm作为容器编排工具、结合ansible作为集群的自动化运维工具，这样讲容器作为底层服务端口部署的方式，既可以保证隔离性又可以将我们业务微服务化。

附图说明

图1是本发明数据处理流程图。

图2是容器编排示意图过程。

图3是数据处理框架。

图4是整体的流程图。

具体实施方式

下面结合附图对本发明做进一步详细描述：

如图1所示，一种超算环境下的海量数据实时采集与处理方法，包括超算集群数据生成、数据采集、数据接入、流式计算、数据流出；

首先通过flume软件的source端将超算集群数据生成的数据源端的消息源进行收集，即完成数据采集，然后通过flume软件将收集到的消息源汇集到Kafka软件中，flume软件通过flume软件的sink端进行数据传输，完成数据接入，消息源以Kafka软件为缓冲进行存储，最后通过Spark软件从 Kafka软件中提取需要处理的消息源进行数据处理，即可完成流式计算和数据流出，从而实现超算环境下的海量数据实时采集与处理。

sink端为KafkaSink具体的配置如下：

Flume配置如下：

使用开分布式的海量日志采集、聚合和传输的***flume软件作为数据源端的采集工具，通过Flume软件对数据进行简单处理，并写到各种数据接受方(可定制)，例如设置flume的source端使用spooldir方式来实时将web 生成的日志作为消息源；

数据源端包括console(控制台)、RPC(Thrift-RPC)、text(文件)、tail (UNIXtail)、spooldir、syslog(syslog日志***)，数据源端支持TCP和UDP 2种模式，exec(命令执行)数据源上收集数据的能力。

超算集群的每个节点即超算节点都有多个进程部署在每个分布式节点上，分部署存储的基底是以HDFS基地之上的多个节点构成的集群。

超算节点在运行作业时产生的大批量数据会出处在log日志里面，最终 flume将这些日志放入Kafka上面缓存上面，kafka的配置如下：

超算节点采用三个节点来存储元数据，使用基于zookeeper来保证多活，每一个作业运行节点作为消息的生产者，每个节点启动时设置一个守护进程，通过命令：bin/kafka-server-start.sh config/server.properties来开启每个节点的kafka服务；每一个流式计算节点(spark)作为消息的消费者，这样的消息就像水流一样先从超算节点流出，经过每一个flume分支汇集到 kafka集中式缓存起来，其后，spark从kafka汇聚起来的池子里面拿走消息进行计算，且每个环节都是一个分布式高可用的结构，则有效保证了计算的可靠性和并发性。

图2是容器的管理工作，对数据管理应用程序的容器编排，通过swarm 集群对容器进行编排和管理工作，详细就是第一层表示整个容器里面的管理节点，按照职责分为两类节点：worker和manager；manage类的节点负责管理工作，这类容器里面部署的是nginx服务，用来接收一个用请求，将具体的请求转发给任务负载比较轻的节点，起到了负载均衡的作用，通过命令： docker swarm init--advertise-addr master将这台点初始化一个管理节点后会生成一条指令：docker swarm join--token SWMTKN-1-0uff08ibqcralikygine7kuxk8rn6vnwif05qrrka4a0rh8aq0-asps0h notmuskou4lyndhfyxumaster:2377,中间的字符可能会不同，通过这条指令可以做到将其他节点加入一个管理节点到容器集群，而worker类的节点主要是承载实际的数据管理人应用软件的部署任务，在每个实际的worker节点部署tomcat容器，再在内部部署web项目，提供每个节点相同的服务供其调用；这样通过docker swarm对我们的管理软件提供了容器化管理，既可以将每一项服务微服务化，更细更专注于某一更加细化的功能完成，又可以保证高度的可用性，即就是当一个容器内的服务down掉后，会里面映射到其他的 worker容器，而这样的开销比实际的一个单纯服务器切换的开销要小很多，是一种很巧妙的方式，这也是目前微服务成为主流的原因之一。

图3是整个数据处理的框架图，可以形象的描述了整个数据流的从产生到最终被处理的生命周期，由图可知，超算节点的作用将用户提交的作业运行情况通过struts2拦截下来的信息写到日志，flume将其管道的source 端使用spooldir方式来实时将web生成的日志作为消息源。sink端为 KafkaSink，将接受的消息发送给kafka。Kafka的produce进程，每一个京城通过zookeeper来保持元数据的一致性。其后spark节点将kafka中接受到的数据发送给每个计算节点，其中包括日志中的Ip、端口、访问目录、时间等扥过来了解用户的行为做到一个实时的展示和监控，其次还有一些比较复杂的数据分析和展示工作，这种计算密集、对时间要求苛刻的应用场景适合了spark的天生特点。

最后，图4是一个流程图，数据处理整个流程主要包括数据清理模块和数据分析展示模块，数据收集模块包括清理功能，定时的将数据在用户规定的一段时间里将其日志目录下的数据信息删除，如果此时没有数据生成则处于等待状态，kafka将数据在sparkString规定的5ms内的时间窗口内将数据拿去处理，如果没有数据那么将继续监控。由于每个节点的手机和处理是分布式的，我们不需要关心资源的问题。

实施例：

首先应用程序被外部的访问者发来请求通过manager节点的nginx代理的转发映射到具体的具体容器应用中，flume进程将log目录中的日志信息 (包括：IP,Date,addr,port,核数，内存，运行时间等等)发送给kafka,hou spark读取kafka中的消息，进行统计，意见只对一样的累加它的访问次数，左右将结果通过数据可视化工具ichart展示出来。当没有数据时，则处于等待状态。

考虑到数据端的生成速度过快，spark的处理速度因逻辑计算的复杂程度不同，这两端的速度不同步的时候会出现数据丢失的问题，此处通过采用 kafka作为中间的缓冲作用，此处kafka的作用和cache在计算机的外设和cpu 之间的缓存作用一样，起到了很好的缓存作用，使用了kafka的作用也提高了数据可靠性，Kafka软件采用分布式消息订阅***，即有多个消息生产者和多个消费者，这样保证了***消息的高可用性，kafka用来接收flume的sink 端发来的数据，将其存入到它的磁盘数据结构的持久化中去供后端能处理端的消息来处理，Spark软件通过SparkStream来消费Kafka的分布式消息，通过流式处理方式，计算需要做的分析处理业务。

Spark软件将结果通过数据可视化工具ichart展示出来，可视化工具ichart 请求层的web应用程序采用docker容器编排的方式部署，使用dockerswarm 作为容器编排工具、结合ansible作为集群的自动化运维工具，这样讲容器作为底层服务端口部署的方式，既可以保证隔离性又可以将我们业务微服务化；最后使用nginx做为代理服务器做端口映射和负载均衡，使用EChat作为数据可视化层展示***实时的展示给用户。

本发明通过建立一整完整的从数据展示层到数据采集和处理层的超算环境下的大数据高可用、高并发实时处理框架，结合docker容器化技术和负载均衡技术完成容器编排和管理。此***能够应用于真实的分布式数据收集、实时处理并可扩充的超大集群环境。

Claims

1.一种超算环境下的海量数据实时采集与处理方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种超算环境下的海量数据实时采集与处理方法，其特征在于，使用开分布式的海量日志采集、聚合和传输的***flume作为数据源端的采集工具，通过Flume对数据进行简单处理，并写到各种数据接受方。

3.根据权利要求1所述的一种超算环境下的海量数据实时采集与处理方法，其特征在于，数据源端包括console、RPC、text、tail、spooldir及syslog，数据源端支持TCP和UDP 2种模式。

4.根据权利要求1所述的一种超算环境下的海量数据实时采集与处理方法，其特征在于，Kafka软件采用分布式消息订阅***，即有多个消息生产者和多个消费者，kafka软件将接收到的消息源存入到kafka软件的磁盘数据结构的持久化中去供后端能处理端的消息来处理。

5.根据权利要求4所述的一种超算环境下的海量数据实时采集与处理方法，其特征在于，Spark软件通过SparkStream来消费Kafka的分布式消息，通过流式处理方式，计算需要做的分析处理业务。

6.根据权利要求1所述的一种超算环境下的海量数据实时采集与处理方法，其特征在于，Spark软件将结果通过数据可视化工具ichart展示出来，可视化工具ichart请求层的web应用程序采用docker容器编排的方式部署，使用dockerswarm作为容器编排工具、结合ansible作为集群的自动化运维工具。

7.根据权利要求1所述的一种超算环境下的海量数据实时采集与处理方法，其特征在于，超算集群的每个节点即超算节点都有多个进程部署在每个分布式节点上，分部署存储的基底是以HDFS基地之上的多个节点构成的集群，超算节点在运行作业时产生的大批量数据会出处在log日志里面，最终flume软件将log日志里面的信息放入Kafka软件缓存上面。

8.根据权利要求7所述的一种超算环境下的海量数据实时采集与处理方法，其特征在于，超算节点采用三个节点来存储元数据，使用基于zookeeper来保证多活，每一个作业运行节点作为消息的生产者，每个节点启动时设置一个守护进程，通过命令开启每个节点的kafka服务；每一个流式计算节点作为消息的消费者，每个消息经过每一个flume软件分支汇集到kafka软件集中式缓存起来，其后，spark软件从kafka软件汇聚起来的池子里面拿走消息进行计算，且每个环节都是一个分布式高可用的结构。