CN108681489A - 一种超算环境下的海量数据实时采集与处理方法 - Google Patents

一种超算环境下的海量数据实时采集与处理方法 Download PDF

Info

Publication number
CN108681489A
CN108681489A CN201810514917.1A CN201810514917A CN108681489A CN 108681489 A CN108681489 A CN 108681489A CN 201810514917 A CN201810514917 A CN 201810514917A CN 108681489 A CN108681489 A CN 108681489A
Authority
CN
China
Prior art keywords
softwares
kafka
message
data
super
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810514917.1A
Other languages
English (en)
Inventor
伍卫国
张祥俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201810514917.1A priority Critical patent/CN108681489A/zh
Publication of CN108681489A publication Critical patent/CN108681489A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种超算环境下的海量数据实时采集与处理方法,首先通过flume软件的source端将超算集群数据生成的数据源端的消息源进行收集,然后通过flume软件将收集到的消息源汇集到Kafka软件中,消息源以Kafka软件为缓冲进行存储,通过Spark软件从Kafka软件中提取需要处理的消息源进行数据处理,从而实现超算环境下的海量数据实时采集与处理,从而实现超算环境下的海量数据实时采集与处理,使用kafka来作为中间的缓冲作用,提高了数据可靠性,基于kafka的分布式消息订阅***可以有多个消息生产者和多个消费者的方式,这样保证了***消息的高可用性,结合docker容器化技术和负载均衡技术完成容器编排和管理,能够应用于真实的分布式数据收集、实时处理并可扩充的超大集群环境。

Description

一种超算环境下的海量数据实时采集与处理方法
技术领域
本发明涉及了在超级计算中心环境下的海量数据采集和处理软件架构,尤其涉及到一种高并发、高可用、数据安全性和完备性要求下的的海量数据实时采集和处理框架。应用了流式处理数据处理技术、分布式消息订阅技术、分布式存储技术构建了一个从海量数据采集到处理的平台。
背景技术
随着我国创新驱动战略的实施和工业转型升级及两化深度融合的不断推进,工业产品研发得到了前所未有的重视。中国科技部提出:依托国家高性能计算环境,结合互联网和云计算等技术,聚合工业开发社区所需的高性能计算、存储、应用软件、可视化、数据等资源培育形成基于国家高性能计算和服务环境的工业社区产品创新的生态环境。
超算环境下的复杂计算作业产生数据量巨大,应用程序对数据采集的完备性和处理实时性的要求越来越高。然而对于十分庞大的计算节点构建的超算环境下常见的数据采集工具已经无法满足数据采集和处理的可靠性要求,数据生成的速度过快会产生数据丢失现象,而且存储元数据的节点宕机后会对整个***的安全性造成影响。
发明内容
本发明的目的在于提供一种超算环境下的海量数据实时采集与处理方法,以克服现有技术的不足。
为达到上述目的,本发明采用如下技术方案:
一种超算环境下的海量数据实时采集与处理方法,包括以下步骤:
首先通过flume软件的source端将超算集群数据生成的数据源端的消息源进行收集,然后通过flume软件将收集到的消息源汇集到Kafka软件中,消息源以Kafka软件为缓冲进行存储,最后通过Spark软件从Kafka软件中提取需要处理的消息源进行数据处理,从而实现超算环境下的海量数据实时采集与处理。
进一步的,使用开分布式的海量日志采集、聚合和传输的***flume作为数据源端的采集工具,通过Flume对数据进行简单处理,并写到各种数据接受方。
进一步的,数据源端包括console、RPC、text、tail、spooldir及syslog,数据源端支持TCP和UDP 2种模式。
进一步的,Kafka软件采用分布式消息订阅***,即有多个消息生产者和多个消费者,kafka软件将接收到的消息源存入到kafka软件的磁盘数据结构的持久化中去供后端能处理端的消息来处理。
进一步的,Spark软件通过SparkStream来消费Kafka的分布式消息,通过流式处理方式,计算需要做的分析处理业务。
进一步的,Spark软件将结果通过数据可视化工具ichart展示出来,可视化工具ichart请求层的web应用程序采用docker容器编排的方式部署,使用 dockerswarm作为容器编排工具、结合ansible作为集群的自动化运维工具。
进一步的,超算集群的每个节点即超算节点都有多个进程部署在每个分布式节点上,分部署存储的基底是以HDFS基地之上的多个节点构成的集群,超算节点在运行作业时产生的大批量数据会出处在log日志里面,最终flume 软件将log日志里面的信息放入Kafka软件缓存上面。
进一步的,超算节点采用三个节点来存储元数据,使用基于zookeeper 来保证多活,每一个作业运行节点作为消息的生产者,每个节点启动时设置一个守护进程,通过命令开启每个节点的kafka服务;每一个流式计算节点作为消息的消费者,每个消息经过每一个flume软件分支汇集到kafka软件集中式缓存起来,其后,spark软件从kafka软件汇聚起来的池子里面拿走消息进行计算,且每个环节都是一个分布式高可用的结构。
与现有技术相比,本发明具有以下有益的技术效果:
本发明一种超算环境下的海量数据实时采集与处理方法,首先通过 flume软件的source端将超算集群数据生成的数据源端的消息源进行收集,然后通过flume软件将收集到的消息源汇集到Kafka软件中,消息源以Kafka 软件为缓冲进行存储,最后通过Spark软件从Kafka软件中提取需要处理的消息源进行数据处理,从而实现超算环境下的海量数据实时采集与处理,从而实现超算环境下的海量数据实时采集与处理,使用kafka来作为中间的缓冲作用,提高了数据可靠性,基于kafka的分布式消息订阅***可以有多个消息生产者和多个消费者的方式,这样保证了***消息的高可用性,结合 docker容器化技术和负载均衡技术完成容器编排和管理,本发明能够应用于真实的分布式数据收集、实时处理并可扩充的超大集群环境。
进一步的,请求层的web应用程序采用docker容器编排的方式部署,使用dockerswarm作为容器编排工具、结合ansible作为集群的自动化运维工具。这样讲容器作为底层服务端口部署的方式,既可以保证隔离性又可以将我们业务微服务化。
进一步的,采用三个节点来存储元数据,使用基于zookeeper来保证多活,每一个作业运行节点作为消息的生产者,每个节点启动时设置一个守护进程来通过命令开启每个节点的kafka服务,每一个流式计算节点作为消息的消费者,这样的消息就像水流一样先从超算节点流出,经过每一个flume 分支汇集到kafka集中式缓存起来,其后,spark从这儿消息的汇聚起来的池子里面拿走消息进行计算,这样整个中心环节就连贯起来了,且每个环节都是一个分布式高可用的结构,则有效保证了计算的可靠性和并发性。
进一步的,使用dockerswarm作为容器编排工具、结合ansible作为集群的自动化运维工具,这样讲容器作为底层服务端口部署的方式,既可以保证隔离性又可以将我们业务微服务化。
附图说明
图1是本发明数据处理流程图。
图2是容器编排示意图过程。
图3是数据处理框架。
图4是整体的流程图。
具体实施方式
下面结合附图对本发明做进一步详细描述:
如图1所示,一种超算环境下的海量数据实时采集与处理方法,包括超算集群数据生成、数据采集、数据接入、流式计算、数据流出;
首先通过flume软件的source端将超算集群数据生成的数据源端的消息源进行收集,即完成数据采集,然后通过flume软件将收集到的消息源汇集到Kafka软件中,flume软件通过flume软件的sink端进行数据传输,完成数据接入,消息源以Kafka软件为缓冲进行存储,最后通过Spark软件从 Kafka软件中提取需要处理的消息源进行数据处理,即可完成流式计算和数据流出,从而实现超算环境下的海量数据实时采集与处理。
sink端为KafkaSink具体的配置如下:
Flume配置如下:
使用开分布式的海量日志采集、聚合和传输的***flume软件作为数据源端的采集工具,通过Flume软件对数据进行简单处理,并写到各种数据接受方(可定制),例如设置flume的source端使用spooldir方式来实时将web 生成的日志作为消息源;
数据源端包括console(控制台)、RPC(Thrift-RPC)、text(文件)、tail (UNIXtail)、spooldir、syslog(syslog日志***),数据源端支持TCP和UDP 2种模式,exec(命令执行)数据源上收集数据的能力。
超算集群的每个节点即超算节点都有多个进程部署在每个分布式节点上,分部署存储的基底是以HDFS基地之上的多个节点构成的集群。
超算节点在运行作业时产生的大批量数据会出处在log日志里面,最终 flume将这些日志放入Kafka上面缓存上面,kafka的配置如下:
超算节点采用三个节点来存储元数据,使用基于zookeeper来保证多活,每一个作业运行节点作为消息的生产者,每个节点启动时设置一个守护进程,通过命令:bin/kafka-server-start.sh config/server.properties来开启每个节点的kafka服务;每一个流式计算节点(spark)作为消息的消费者,这样的消息就像水流一样先从超算节点流出,经过每一个flume分支汇集到 kafka集中式缓存起来,其后,spark从kafka汇聚起来的池子里面拿走消息进行计算,且每个环节都是一个分布式高可用的结构,则有效保证了计算的可靠性和并发性。
图2是容器的管理工作,对数据管理应用程序的容器编排,通过swarm 集群对容器进行编排和管理工作,详细就是第一层表示整个容器里面的管理节点,按照职责分为两类节点:worker和manager;manage类的节点负责管理工作,这类容器里面部署的是nginx服务,用来接收一个用请求,将具体的请求转发给任务负载比较轻的节点,起到了负载均衡的作用,通过命令: docker swarm init--advertise-addr master将这台点初始化一个管理节点后会生成一条指令:docker swarm join--token SWMTKN-1-0uff08ibqcralikygine7kuxk8rn6vnwif05qrrka4a0rh8aq0-asps0h notmuskou4lyndhfyxumaster:2377,中间的字符可能会不同,通过这条指令可以做到将其他节点加入一个管理节点到容器集群,而worker类的节点主要是承载实际的数据管理人应用软件的部署任务,在每个实际的worker节点部署tomcat容器,再在内部部署web项目,提供每个节点相同的服务供其调用;这样通过docker swarm对我们的管理软件提供了容器化管理,既可以将每一项服务微服务化,更细更专注于某一更加细化的功能完成,又可以保证高度的可用性,即就是当一个容器内的服务down掉后,会里面映射到其他的 worker容器,而这样的开销比实际的一个单纯服务器切换的开销要小很多,是一种很巧妙的方式,这也是目前微服务成为主流的原因之一。
图3是整个数据处理的框架图,可以形象的描述了整个数据流的从产生到最终被处理的生命周期,由图可知,超算节点的作用将用户提交的作业运行情况通过struts2拦截下来的信息写到日志,flume将其管道的source 端使用spooldir方式来实时将web生成的日志作为消息源。sink端为 KafkaSink,将接受的消息发送给kafka。Kafka的produce进程,每一个京城通过zookeeper来保持元数据的一致性。其后spark节点将kafka中接受到的数据发送给每个计算节点,其中包括日志中的Ip、端口、访问目录、时间等扥过来了解用户的行为做到一个实时的展示和监控,其次还有一些比较复杂的数据分析和展示工作,这种计算密集、对时间要求苛刻的应用场景适合了spark的天生特点。
最后,图4是一个流程图,数据处理整个流程主要包括数据清理模块和数据分析展示模块,数据收集模块包括清理功能,定时的将数据在用户规定的一段时间里将其日志目录下的数据信息删除,如果此时没有数据生成则处于等待状态,kafka将数据在sparkString规定的5ms内的时间窗口内将数据拿去处理,如果没有数据那么将继续监控。由于每个节点的手机和处理是分布式的,我们不需要关心资源的问题。
实施例:
首先应用程序被外部的访问者发来请求通过manager节点的nginx代理的转发映射到具体的具体容器应用中,flume进程将log目录中的日志信息 (包括:IP,Date,addr,port,核数,内存,运行时间等等)发送给kafka,hou spark读取kafka中的消息,进行统计,意见只对一样的累加它的访问次数,左右将结果通过数据可视化工具ichart展示出来。当没有数据时,则处于等待状态。
考虑到数据端的生成速度过快,spark的处理速度因逻辑计算的复杂程度不同,这两端的速度不同步的时候会出现数据丢失的问题,此处通过采用 kafka作为中间的缓冲作用,此处kafka的作用和cache在计算机的外设和cpu 之间的缓存作用一样,起到了很好的缓存作用,使用了kafka的作用也提高了数据可靠性,Kafka软件采用分布式消息订阅***,即有多个消息生产者和多个消费者,这样保证了***消息的高可用性,kafka用来接收flume的sink 端发来的数据,将其存入到它的磁盘数据结构的持久化中去供后端能处理端的消息来处理,Spark软件通过SparkStream来消费Kafka的分布式消息,通过流式处理方式,计算需要做的分析处理业务。
Spark软件将结果通过数据可视化工具ichart展示出来,可视化工具ichart 请求层的web应用程序采用docker容器编排的方式部署,使用dockerswarm 作为容器编排工具、结合ansible作为集群的自动化运维工具,这样讲容器作为底层服务端口部署的方式,既可以保证隔离性又可以将我们业务微服务化;最后使用nginx做为代理服务器做端口映射和负载均衡,使用EChat作为数据可视化层展示***实时的展示给用户。
本发明通过建立一整完整的从数据展示层到数据采集和处理层的超算环境下的大数据高可用、高并发实时处理框架,结合docker容器化技术和负载均衡技术完成容器编排和管理。此***能够应用于真实的分布式数据收集、实时处理并可扩充的超大集群环境。

Claims (8)

1.一种超算环境下的海量数据实时采集与处理方法,其特征在于,包括以下步骤:
首先通过flume软件的source端将超算集群数据生成的数据源端的消息源进行收集,然后通过flume软件将收集到的消息源汇集到Kafka软件中,消息源以Kafka软件为缓冲进行存储,最后通过Spark软件从Kafka软件中提取需要处理的消息源进行数据处理,从而实现超算环境下的海量数据实时采集与处理。
2.根据权利要求1所述的一种超算环境下的海量数据实时采集与处理方法,其特征在于,使用开分布式的海量日志采集、聚合和传输的***flume作为数据源端的采集工具,通过Flume对数据进行简单处理,并写到各种数据接受方。
3.根据权利要求1所述的一种超算环境下的海量数据实时采集与处理方法,其特征在于,数据源端包括console、RPC、text、tail、spooldir及syslog,数据源端支持TCP和UDP 2种模式。
4.根据权利要求1所述的一种超算环境下的海量数据实时采集与处理方法,其特征在于,Kafka软件采用分布式消息订阅***,即有多个消息生产者和多个消费者,kafka软件将接收到的消息源存入到kafka软件的磁盘数据结构的持久化中去供后端能处理端的消息来处理。
5.根据权利要求4所述的一种超算环境下的海量数据实时采集与处理方法,其特征在于,Spark软件通过SparkStream来消费Kafka的分布式消息,通过流式处理方式,计算需要做的分析处理业务。
6.根据权利要求1所述的一种超算环境下的海量数据实时采集与处理方法,其特征在于,Spark软件将结果通过数据可视化工具ichart展示出来,可视化工具ichart请求层的web应用程序采用docker容器编排的方式部署,使用dockerswarm作为容器编排工具、结合ansible作为集群的自动化运维工具。
7.根据权利要求1所述的一种超算环境下的海量数据实时采集与处理方法,其特征在于,超算集群的每个节点即超算节点都有多个进程部署在每个分布式节点上,分部署存储的基底是以HDFS基地之上的多个节点构成的集群,超算节点在运行作业时产生的大批量数据会出处在log日志里面,最终flume软件将log日志里面的信息放入Kafka软件缓存上面。
8.根据权利要求7所述的一种超算环境下的海量数据实时采集与处理方法,其特征在于,超算节点采用三个节点来存储元数据,使用基于zookeeper来保证多活,每一个作业运行节点作为消息的生产者,每个节点启动时设置一个守护进程,通过命令开启每个节点的kafka服务;每一个流式计算节点作为消息的消费者,每个消息经过每一个flume软件分支汇集到kafka软件集中式缓存起来,其后,spark软件从kafka软件汇聚起来的池子里面拿走消息进行计算,且每个环节都是一个分布式高可用的结构。
CN201810514917.1A 2018-05-25 2018-05-25 一种超算环境下的海量数据实时采集与处理方法 Pending CN108681489A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810514917.1A CN108681489A (zh) 2018-05-25 2018-05-25 一种超算环境下的海量数据实时采集与处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810514917.1A CN108681489A (zh) 2018-05-25 2018-05-25 一种超算环境下的海量数据实时采集与处理方法

Publications (1)

Publication Number Publication Date
CN108681489A true CN108681489A (zh) 2018-10-19

Family

ID=63808190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810514917.1A Pending CN108681489A (zh) 2018-05-25 2018-05-25 一种超算环境下的海量数据实时采集与处理方法

Country Status (1)

Country Link
CN (1) CN108681489A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109634757A (zh) * 2018-12-10 2019-04-16 南京云创大数据科技股份有限公司 一种地震行业大数据处理的数据采集方法
CN110308998A (zh) * 2019-07-11 2019-10-08 中通服创立信息科技有限责任公司 一种海量数据的采样方法及装置
CN110532060A (zh) * 2019-08-10 2019-12-03 佳都新太科技股份有限公司 一种混合网络环境数据采集方法及***
CN110569317A (zh) * 2019-09-12 2019-12-13 北京明略软件***有限公司 数据源的元数据采集方法及装置
CN111077870A (zh) * 2020-01-06 2020-04-28 浙江中烟工业有限责任公司 一种基于流计算的opc数据实时采集监控智能***及方法
CN111314874A (zh) * 2020-02-21 2020-06-19 南京工业职业技术学院 面向物联网应用的高并发海量数据采集方法
CN111797150A (zh) * 2020-05-25 2020-10-20 武汉烽火众智数字技术有限责任公司 一种高并发数据对接转发的方法及***
CN111815324A (zh) * 2020-06-28 2020-10-23 北京金山云网络技术有限公司 一种账单处理方法、装置及***
CN113055483A (zh) * 2021-03-19 2021-06-29 中国工商银行股份有限公司 消息中间件数据处理方法、装置及***
CN113254445A (zh) * 2021-05-26 2021-08-13 平安普惠企业管理有限公司 实时数据存储方法、装置、计算机设备及存储介质
CN113360464A (zh) * 2021-06-10 2021-09-07 山东云缦智能科技有限公司 基于Nginx实现OSS的缓存同步方法
CN114664384A (zh) * 2022-03-22 2022-06-24 山东省计算中心(国家超级计算济南中心) 一种基于超算互联网的生物信息分析***及方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893628A (zh) * 2016-05-17 2016-08-24 中国农业银行股份有限公司 一种数据实时收集***及方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893628A (zh) * 2016-05-17 2016-08-24 中国农业银行股份有限公司 一种数据实时收集***及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈任飞 等: "基于 Flume/Kafka/Spark 的分布式日志流处理***的设计与实现", 《HTTPS://WENKU.BAIDU.COM/VIEW/5D366EDC5727A5E9846A6158.HTM》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109634757A (zh) * 2018-12-10 2019-04-16 南京云创大数据科技股份有限公司 一种地震行业大数据处理的数据采集方法
CN109634757B (zh) * 2018-12-10 2022-10-11 南京云创大数据科技股份有限公司 一种地震行业大数据处理的数据采集方法
CN110308998A (zh) * 2019-07-11 2019-10-08 中通服创立信息科技有限责任公司 一种海量数据的采样方法及装置
CN110308998B (zh) * 2019-07-11 2021-09-07 中通服创立信息科技有限责任公司 一种海量数据的采样方法及装置
CN110532060A (zh) * 2019-08-10 2019-12-03 佳都新太科技股份有限公司 一种混合网络环境数据采集方法及***
CN110532060B (zh) * 2019-08-10 2022-05-03 佳都科技集团股份有限公司 一种混合网络环境数据采集方法及***
CN110569317A (zh) * 2019-09-12 2019-12-13 北京明略软件***有限公司 数据源的元数据采集方法及装置
CN111077870A (zh) * 2020-01-06 2020-04-28 浙江中烟工业有限责任公司 一种基于流计算的opc数据实时采集监控智能***及方法
CN111314874B (zh) * 2020-02-21 2021-08-03 南京工业职业技术大学 面向物联网应用的高并发海量数据采集方法
CN111314874A (zh) * 2020-02-21 2020-06-19 南京工业职业技术学院 面向物联网应用的高并发海量数据采集方法
CN111797150B (zh) * 2020-05-25 2023-03-31 武汉烽火众智数字技术有限责任公司 一种高并发数据对接转发的方法及***
CN111797150A (zh) * 2020-05-25 2020-10-20 武汉烽火众智数字技术有限责任公司 一种高并发数据对接转发的方法及***
CN111815324A (zh) * 2020-06-28 2020-10-23 北京金山云网络技术有限公司 一种账单处理方法、装置及***
CN113055483A (zh) * 2021-03-19 2021-06-29 中国工商银行股份有限公司 消息中间件数据处理方法、装置及***
CN113254445A (zh) * 2021-05-26 2021-08-13 平安普惠企业管理有限公司 实时数据存储方法、装置、计算机设备及存储介质
CN113254445B (zh) * 2021-05-26 2024-01-05 禾量科技(上海)有限公司 实时数据存储方法、装置、计算机设备及存储介质
CN113360464A (zh) * 2021-06-10 2021-09-07 山东云缦智能科技有限公司 基于Nginx实现OSS的缓存同步方法
CN114664384A (zh) * 2022-03-22 2022-06-24 山东省计算中心(国家超级计算济南中心) 一种基于超算互联网的生物信息分析***及方法

Similar Documents

Publication Publication Date Title
CN108681489A (zh) 一种超算环境下的海量数据实时采集与处理方法
Muniswamaiah et al. Big data in cloud computing review and opportunities
Tian et al. Latency critical big data computing in finance
WO2017071134A1 (zh) 分布式跟踪***
Varghese et al. Container-based cloud virtual machine benchmarking
CN109726004A (zh) 一种数据处理方法及装置
Pääkkönen Feasibility analysis of AsterixDB and Spark streaming with Cassandra for stream-based processing
Enes et al. BDWatchdog: Real-time monitoring and profiling of Big Data applications and frameworks
Xu et al. Making real time data analytics available as a service
Kharb et al. A contingent exploration on big data tools
Bansal et al. Big data streaming with spark
Kryvenchuk et al. Analysis of the architecture of distributed systems for the reduction of loading high-load networks
CN206149327U (zh) 一种信息云管理平台及企业信息***
Burchard et al. A scalable system for bundling online social network mining research
Atrushi et al. Distributed Graph Processing in Cloud Computing: A Review of Large-Scale Graph Analytics
KR20150089693A (ko) 빅 데이터 플랫폼 기반 데이터 저장 시스템 확장 장치 및 방법
Liu et al. A fine-grained performance bottleneck analysis method for HDFS
Vargas-Solar et al. JITA4DS: disaggregated execution of data science pipelines between the edge and the data centre
Patil et al. Real-Time Clickstream Data Processing and Visualization Using Apache Tools
Pandey et al. Hadoop multi node cluster resource analysis
Sun et al. Survey on streaming data computing system
Pérez et al. An agent architecture for managing data resources in a grid environment
Ye et al. Research of Benchmarking and Selection for TSDB
Zhu et al. Web-based atmospheric nucleation data management and visualization
Mishra et al. The role of grid technologies: a next level combat with big data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181019