CN107391719A - 一种云环境中分布式流数据处理方法及*** - Google Patents

一种云环境中分布式流数据处理方法及*** Download PDF

Info

Publication number
CN107391719A
CN107391719A CN201710638294.4A CN201710638294A CN107391719A CN 107391719 A CN107391719 A CN 107391719A CN 201710638294 A CN201710638294 A CN 201710638294A CN 107391719 A CN107391719 A CN 107391719A
Authority
CN
China
Prior art keywords
data
distributed
stream
module
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710638294.4A
Other languages
English (en)
Inventor
李鹏
李亮德
徐鹤
王汝传
陈芳州
宋金全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201710638294.4A priority Critical patent/CN107391719A/zh
Publication of CN107391719A publication Critical patent/CN107391719A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种云环境中分布式流数据处理方法及***,针对物联网时代数据量并发量大、流动快等特点,本发明用流式计算引擎Spark Streaming取代了传统的Lambda架构的MapReduce批处理计算,并通过实例化多个输入流实现对多表数据的流计算,将计算结果保存在分布式文件***HDFS中,通过分布式查询***Impala实现高效查询。

Description

一种云环境中分布式流数据处理方法及***
技术领域
针对物联网时代数据量并发量大、流动快等特点,本发明设计了一种云环境中分布式流数据处理方法,用流式计算引擎Spark Streaming取代了传统的Lambda架构的的MapReduce批处理计算,并通过实例化多个输入流实现对多表数据的流计算,将计算结果保存在分布式文件***HDFS中,通过分布式查询***Impala实现高效查询。本发明属于基于云计算平台下的大数据处理领域。
背景技术
物联网技术飞速发展,对大数据处理技术提出了提出更严格的要求。物联网时代的大数据处理***主要应对以下几个方面的挑战:
(1)需要处理的数据量更大、生成频率更快:与互联网相比,物联网的一大特征就是具有海量的节点,接入物联网的节点包含设备、物品、监测传感器、人和服务器等,在数据的数量、规模都不能和互联网时代同日而语;另一方面,由于物联网时代的传感器节点多数处于全天候工作状态,源源不断地产生数据。因此物联网生成数据的频率要远远高于互联网。
(2)对数据处理、传输速率要求更高:一方面,为了应对物联网数据海量性的要求,数据中心网必将汇聚更多的数据,对数据传输速率提出了更高的要求;另一方面,由于物联网直接连接现实物理世界,在诸如自动驾驶、智能监控等很多情况下,需要实时计算产生的数据,以及实时控制相应的传感节点和设备,因此必须提高数据传输和处理的速率。
(3)物联网时代数据更多样化:物联网的应用领域非常广泛,从智能物流、自动驾驶、智慧城市、自动监测、智慧农业、智能医疗、视频监控等,无一不是物联网技术的应用。因此,在物联网的不同应用领域,需要处理不同结构、不同格式、不同速率的数据,还需要处理图片、视频等非结构化数据,因此大数据处理***要能够处理物联网产生的多种多样数据。
为满足低时延、高容错、易扩展等大数据处理***关键特性,传统的大数据处理***基于Lambda架构设计。Lambda结合了实时计算和全量计算两种架构,在结构可以分为三模块,即:1.实时处理模块(Real-Time Layer):主要负责流式数据的计算。2.批处理模块(Batch Layer):主要针对批处理数据完成周期性的全量计算。3.服务模块(ServingLayer):主要负责给上模块应用提供访问接口,进行存储、查询等任务。Lambda的整体架构图如图1所示。
但是Lambda架构的缺点是需要维护流处理以及批处理两套代码,所有的算法都实现两次,一次是为批处理***,另一次是为实时***,还要求查询得到的是两个***结果的合并,导致开发以及维护的难度加大。
发明内容
本发明的目的是提出一种云环境中分布式流数据处理方法,以提高流处理并行度、加快查询速度以及实现了对全量计算的优化。较之其他的大数据处理框架,该方法能更好地解决物联网时代多节点、分布式数据的实时处理与全量计算、快速查询等问题。
为了实现上述技术目的,本发明采用如下技术方案:
一种云环境中分布式流数据处理方法,所述方法应用于分布式数据处理***,所述分布式数据处理***包括分布式消息队列模块、流处理模块、批处理模块以及服务模块四个模块,所述方法包括以下几个步骤:
步骤1、物联网数据经过收集和聚合后进入分布式消息队列,分布式消息队列模块一方面将流式数据交给流处理模块进行处理,另一方面根据批处理周期将批处理数据保存下来;
步骤2、流处理模块完成对增量数据流的流式处理,并创建多个输入数据流完成对多表数据的并行处理,实时更新流式数据的处理结果;
步骤3、当批处理模块发起全量计算需求的时候,首先实例化一个流处理模块实例,根据批处理周期读取存储在分布式消息队列模块中的批处理数据,计算结果存储在分布式文件***中;
步骤4、利用SQL语义的查询***完成存储在分布式文件***上的运算结果的查询。
步骤1中所述物联网数据包括温度数据、湿度数据以及经纬度数据。
步骤1中,物联网数据根据哈希等分区算法的计算结果,将消息发布到指定话题中分区里面,分布式队列集群接收到消息后,一方面将流式数据交予消费者的流处理模块处理,另一方面根据保留数据配置时长,将消息持久化到磁盘中,交予批处理模块进行全量计算。
步骤2中,流处理***通过直接连接方式与分布式消息队列集群建立连接,通过创建直接数据流,新建直接的分布式队列离散数据流实例化对象,从分布式队列中拉取数据,并将数据流创建为离散数据流数据抽象,流处理模块创建输入流数据接收器对象,该接收器对象接受从分布式消息队列拉取得到的数据,存入内存中进行处理;流处理模块按照批处理时间将得到的数据划分为间隔时间很短离散数据集,对于每一个离散数据流,遍历数据流里面每一个弹性分布式数据集,判断每一个弹性分布式数据集是否为空,对于非空的数据集,通过隐式变换完成数据转换、以及异常数据的筛选,最后将结果转化为结构化数据抽象,将得到的既定的结构化数据格式数据写入到分布式文件***中存储;
流处理模块处创建多个输入数据流实例分别处理不同表结构的数据,不同表结构的数据通过相应的输入数据流,将多个输入数据流聚合在一起,运行处理流程之后转化为数据结构确定的结构数据,从而对聚合之后的数据进行计算以及异常数据筛选。
步骤3中,当需要***进行全量计算时,启动流处理作业的第二个实例对步骤1中分布式消息队列持久化到磁盘的批处理数据进行全量计算,之后直接把结果数据写入到分布式文件***的新数据记录表中。
流处理模块获取数据以及计算的步骤与步骤2中相同。
步骤4中,利用SQL语义的查询***完成存储在分布式文件***上的运算结果的查询具体包括:客户端向查询***提交SQL查询命令,查询***前端将SQL语句通过单节点计划生成、并行化和分段转化为执行计划,主要包含两个阶段,第一阶段对SQL语句进行解析、分析、优化,第二阶段生成分布式执行计划,在分发执行计划后,查询***使用拉式获取数据的方式获取结果,把结果数据组成按执行树流式传递汇集,返回给客户端。
一种云环境中分布式流数据处理***,包括以下四个模块:分布式消息队列模块:分布在不同位置、各个节点的传感器数据进入分布式消息队列,分布式消息队列将数据划分为多个分区存储,供后阶段的流处理和全量计算使用;
流处理模块:流处理模块处理的是最近的增量数据流,完成流式数据的实时计算以及异常数据的筛选,将实时处理结果输出到分布式文件***临时存储中;
批处理模块:批处理模块完成周期性全量计算,当需要全量计算时,批处理模块重新发起一个流计算实例,读取一定批处理周期的数据,计算结果同样储存到分布式文件***中;
服务模块:服务模块用于完成流处理模块和批处理模块数据的整合存储,并通过SQL语义的查询***为用户提供查询接口。
所述分布式消息队列模块采用Kafka。
所述流处理模块中采用Spark Streaming引擎。
本发明云环境中分布式流数据处理方法的有益效果是:
与传统的流式计算与全量计算共存的***相比,本发明只需要实现一份流式计算代码,降低了开发维护成本;再者,本发明采用多个数据流的流失数据处理来实现多表数据处理,实现了对不同数据结构、不同数据源的数据的分析、处理、存储;另外,本发明对存储在分布式文件***内的数据采用Impala数据库进行快速,实现高效的数据查询管理。
下面对本发明方法的有益效果做详细的说明:
成本低、可维护性好:传统的Lambda架构需要在维护流处理代码之余,还需要维护一套功能相似的批处理代码。通过实例化流处理实例Spark Streaming取代原来批处理代码可以大大降低维护成本,然而Spark Streaming具有扩展性好、容错性好等优点,可以通过加大Input Stream并发量的方法对海量批处理数据加以处理。因此,本发明针对批处理***进行优化,通过实例化全新的Spark Streaming实例来解决数据全量计算的问题,以取代原来的Lambda的批处理***。
使用Kafka消息队列实现数据的存储,以及提供给多个订阅者使用,当需要进行重新计算时,启动流处理作业的第二个实例对之前获得的数据进行处理,运算结果存储到HDFS中。
本发明采用了全新Kappa架构,只需要维护实时流处理上一套Spark Streaming***,且数据保存在Kafka中,避免批数据保存到HDFS等***中,降低了成本和维护程度。
并发度高:本发明通过在Worker节点上对每个输入DStream一个Receiver并运行,以接收一个数据流。本发明通过创建多个输入DStream被配置从数据源接收不同分区的多表数据,每一个Input Stream接收处理一个表结构数据。
查询效率、实时性高:本发明的服务模块采用Impala查询***取代了Hive查询***,传统的Hive查询将HDFS结构化的数据映射为一张数据表,将SQL语句并行化,转化为MapReduce任务进行,因为Hive查询***将查询任务分解为MapReduce任务进行处理,而Impala采用分布式查询引擎,在HDFS、HBase中直接采用JOIN、SELECT等SQL语句查询数据,为应用提供了交互式实时的SQL查询,大大降低了查询时延。
附图说明
图1是Lambda架构图,
图2是Kappa架构图,
图3是整体架构图,
图4是Spark的Executor和Driver与Kafka集群连接图,
图5是Spark Streaming算法流程图,
图6是多表数据处理流程图。
具体实施方式
本发明的设计方案强调提高对多节点、分布式数据的流处理、存储、查询三大过程的优化,以及对通过流处理实现对全量计算的优化。针对传统的Lambda架构的流处理阶段,本发明通过SparkStreaming应用程序中创建多个Input Dstream并行接收来自不同数据节点的数据;针对全量计算阶段,本发明通过创建新的SparkStreaming任务来代替传统的MapReduce批处理计算。
一、体系结构
本发明的体系架构可以划分为以下四个模块:
1.分布式消息队列模块:分布在不同位置、各个节点的传感器数据进入分布式消息队列,分布式消息队列将数据划分为多个分区存储,供后阶段的流处理和全量计算使用;
2.流处理模块(Speed Layer):流处理模块使用Spark Streaming引擎,处理的是最近的增量数据流,完成流式数据的实时计算以及异常数据的筛选,将实时处理结果输出到HDFS临时存储中;
3.批处理模块:批处理模块完成周期性全量计算,当需要全量计算时,批处理模块重新发起一个Spark Streaming流计算实例,读取一定批处理周期的数据,计算结果同样储存到HDFS中;
4.服务模块:服务模块主要完成流处理模块和批处理模块数据的整合存储,并通过Impala查询***为用户提供查询接口。整个体系结构如图3所示。
二、方法流程
下面以具体实施例对本发明技术方案作进一步详细说明。
本发明分为以下几个步骤处理分布式数据:
①分布在各个位置的物联网数据(温度、湿度、经纬度)数据经过收集和聚合后进入Kafka分布式消息队列,Kafka一方面将流式数据交给Spark Streaming进行处理,另一方面根据批处理周期将批处理数据保存下来;
②Spark Streaming完成对增量数据流的流式处理,并创建多个Input Dstream完成对多表数据的并行处理,实时更新流式数据的处理结果;
③当批处理模块发起全量计算需求的时候,首先实例化一个Spark Streaming实例,根据批处理周期读取存储在Kafka的批处理数据,计算结果存储在HDFS中;
④利用Impala查询***完成存储在HDFS上的运算结果的查询。
考虑到物联网数据并发量大、速率高、吞吐量大等特点,本发明的消息队列采用高吞吐量的Kafka。Kafka主要由几个部分构成:
1.消息生产者(Producers);
2.信息消费者(Consumers);
3.缓存代理(Broker);
4.话题(Topic):一个Topic可以理解为一类消息,每个Topic被分为多个分区(Partition),每个分区在存储模块表现为可追加的log文件,每个分部到分区上的消息都被追加到log文件尾部,用偏移(offset)唯一标示每一个消息,偏移表示该消息在文件中的位置,是一个long型数据。本发明的Kafka集群采用分布式文件***Zookeeper进行高可用、快读、分布式的协调服务。
物联网数据根据hash, round-robin等分区算法的计算结果,将消息发布到
指定话题(topic)中分区里面。Kafka集群接收到消息后,一方面将流式数据交予消费者的Spark Streaming引擎处理,一方面根据保留数据配置时长,将消息持久化到磁盘中,交予批处理模块的Spark Streaming进行全量计算。
增量数据流处理
本发明的实时处理模块和批处理模块的流式数据处理引擎采用Spark Streaming,Spark是一个与Hadoop的MapReduce计算框架类似的,快速、通用的大规模数据处理引擎。与Hadoop的MapReduce相比,Spark具有基于内存计算、可伸缩等诸多优点,核心是弹性分布式数据集RDD。Spark Streaming是在Spark上构建的实时计算框架,具有高吞吐、容错、支持实时数据流等特点,核心是高级抽象连续数据流Dstream。Spark Streaming的核心思想是在一系列较小时间间隔内,将计算划分为批次确定、状态无关的批次任务,每批次的任务对应的数据集并行地利用算子进行Map、Reduce操作。
Spark Streaming通过直接连接方式与Kafka集群建立连接,Spark的Driver和Executor与Kafka的连接图如图4所示。
在接收到实时数据流之后,Spark Streaming将按照批处理间隔batch size将流计算任务分解为多段数据,每一段数据都转换成一系列短小的批处理作业,每一段数据都被转化为Spark中的RDD(Resilient Distributed Dataset),对于非空的RDD,可以通过隐式变换的方式,调用toDF()函数将其转化为SQL单例对象,调用map和filter算子实现格式转换,最后将处理结果写入到HDFS中。Spark Streaming接收数据处理的主要算法流程如图5所示。
多表数据处理
在物联网时代,流式数据处理***要处理的是多节点、分布式的流式数据,
温度、湿度等传感器的数据结构不尽相同。考虑到本发明要处理的数据量非常大、数据流速度非常快,因此在Spark Streaming处创建多个输入数据流实例分别处理不同表结构的数据。不同表结构的数据通过相应的输入数据流,将多个输入数据流根据某些字段,如ID、时间等聚合在一起,运行步骤3的处理流程之后转化为数据结构确定的DataFrame结构数据,从而对聚合之后的数据进行计算以及异常数据筛选。
流处理实现全量计算
根据全量计算的周期,设置Kafka集群的数据保留时间。当需要***进行全量计算时,启动Spark Streaming流处理作业的第二个实例对Kafka持久化到磁盘的批处理数据进行全量计算,之后直接把结果数据写入到HDFS的新数据记录表中。
Impala分布式数据查询
客户端向Impala提交SQL查询命令,Impala前端将SQL语句通过单节点计划生成、并行化和分段转化为执行计划。主要包含两个阶段,第一阶段对SQL进行解析、分析、优化,第二阶段生成分布式执行计划,确定是否要添加exchange节点,选择join策略,最后以exchange对计划分段,段是Impala的基本运行单元。
Impala生成的执行计划表现为一棵完整的执行计划树,可以更自然地分发执行计划到各个节点上的Impala执行查询,在分发执行计划后,Impala使用拉式获取数据的方式获取结果,把结果数据组成按执行树流式传递汇集,避免把中间结果写入磁盘的步骤,从而减小磁盘读取数据的开销。
本发明一种云环境中分布式流数据处理方法主要实施流程如下:
步骤1:物联网数据根据hash, round-robin等分区算法的计算结果,将消息发布到指定话题(topic)中分区里面。Kafka集群接收到消息后,一方面将流式数据交予消费者的Spark Streaming引擎处理,一方面根据保留数据配置时长,将消息持久化到磁盘中,交予批处理模块的Spark Streaming进行全量计算。
步骤2:Spark通过直接连接方式与Kafka集群建立连接,只在driver端接收数据,通过调用KafkaUtils的createDirectStream方法,新建Direct KafkaInputDstream实例化对象,从Kafka中拉取数据,并将数据流创建为Dstream数据抽象,一个Dstream可以看做一个RDDs的序列。
步骤3:Spark Streaming创建Input Dstream接收器对象,该接收器对象接受来自步骤2中从Kafka拉取得到的数据,存入Spark内存中进行处理。Spark Streaming按照批处理时间将得到的数据划分为数据集Dstream。对于每一个Dstream,通过调用foreachRDD()方法访问该Dstream的每一个RDD,调用isEmpty()方法判断每一个RDD是否为空,对于非空的RDD,通过RDD的sparkContext获取其sparkContext实例化对象,将此sparkContext对象作为一个参数新建一个SQLContext对象,从而得到该RDD的SQLContext单例对象,从而导入该单例对象的implicits._,实现隐式变换。调用Spark Streaming集成的map、filter算子完成rdd的数据转换、以及异常数据的筛选,对生成的rdd调用toDF()方法将rdd转化为DataFrame数据抽象,将得到的DataFrame格式数据写入到HDFS中存储。
步骤4: Spark Streaming处创建多个输入数据流实例分别处理不同表结构的数据。不同表结构的数据通过相应的输入数据流,将多个输入数据流根据某些字段,如ID、时间等聚合在一起,运行步骤3的处理流程之后转化为数据结构确定的DataFrame结构数据,从而对聚合之后的数据进行计算以及异常数据筛选。
步骤6:当需要***进行全量计算时,启动Spark Streaming流处理作业的第二个实例对步骤1中Kafka持久化到磁盘的批处理数据进行全量计算,Spark Streaming获取数据以及计算的步骤与步骤2、步骤3中相同,之后直接把结果数据写入到HDFS的新数据记录表中。
步骤7: 客户端向Impala提交SQL查询命令,Impala前端将SQL语句通过单节点计划生成、并行化和分段转化为执行计划。主要包含两个阶段,第一阶段对SQL进行解析、分析、优化,第二阶段生成分布式执行计划,确定是否要添加exchange节点,选择join策略,最后以exchange对计划分段。在分发执行计划后,Impala使用拉式获取数据的方式获取结果,把结果数据组成按执行树流式传递汇集,返回给客户端。

Claims (10)

1.一种云环境中分布式流数据处理方法,所述方法应用于分布式数据处理***,所述分布式数据处理***包括分布式消息队列模块、流处理模块、批处理模块以及服务模块四个模块,其特征在于,所述方法包括以下几个步骤:
步骤1、物联网数据经过收集和聚合后进入分布式消息队列,分布式消息队列模块一方面将流式数据交给流处理模块进行处理,另一方面根据批处理周期将批处理数据保存下来;
步骤2、流处理模块完成对增量数据流的流式处理,并创建多个输入数据流完成对多表数据的并行处理,实时更新流式数据的处理结果;
步骤3、当批处理模块发起全量计算需求的时候,首先实例化一个流处理模块实例,根据批处理周期读取存储在分布式消息队列模块中的批处理数据,计算结果存储在分布式文件***中;
步骤4、利用SQL语义的查询***完成存储在分布式文件***上的运算结果的查询。
2.根据权利要求1所述的云环境中分布式流数据处理方法,其特征在于,步骤1中所述物联网数据包括温度数据、湿度数据以及经纬度数据。
3.根据权利要求1所述的云环境中分布式流数据处理方法,其特征在于,
步骤1中,物联网数据根据哈希等分区算法的计算结果,将消息发布到指定话题中分区里面,分布式队列集群接收到消息后,一方面将流式数据交予消费者的流处理模块处理,另一方面根据保留数据配置时长,将消息持久化到磁盘中,交予批处理模块进行全量计算。
4.根据权利要求1所述的云环境中分布式流数据处理方法,其特征在于,
步骤2中,流处理***通过直接连接方式与分布式消息队列集群建立连接,通过创建直接数据流,新建直接的分布式队列离散数据流实例化对象,从分布式队列中拉取数据,并将数据流创建为离散数据流数据抽象,流处理模块创建输入流数据接收器对象,该接收器对象接受从分布式消息队列拉取得到的数据,存入内存中进行处理;流处理模块按照批处理时间将得到的数据划分为间隔时间很短离散数据集,对于每一个离散数据流,遍历数据流里面每一个弹性分布式数据集,判断每一个弹性分布式数据集是否为空,对于非空的数据集,通过隐式变换完成数据转换、以及异常数据的筛选,最后将结果转化为结构化数据抽象,将得到的既定的结构化数据格式数据写入到分布式文件***中存储;
流处理模块处创建多个输入数据流实例分别处理不同表结构的数据,不同表结构的数据通过相应的输入数据流,将多个输入数据流聚合在一起,运行处理流程之后转化为数据结构确定的结构数据,从而对聚合之后的数据进行计算以及异常数据筛选。
5.根据权利要求4所述的云环境中分布式流数据处理方法,其特征在于,步骤3中,当需要***进行全量计算时,启动流处理作业的第二个实例对步骤1中分布式消息队列持久化到磁盘的批处理数据进行全量计算,之后直接把结果数据写入到分布式文件***的新数据记录表中。
6.根据权利要求5所述的云环境中分布式流数据处理方法,其特征在于,流处理模块获取数据以及计算的步骤与步骤2中相同。
7.根据权利要求1所述的云环境中分布式流数据处理方法,其特征在于,
步骤4中,利用SQL语义的查询***完成存储在分布式文件***上的运算结果的查询具体包括:客户端向查询***提交SQL查询命令,查询***前端将SQL语句通过单节点计划生成、并行化和分段转化为执行计划,主要包含两个阶段,第一阶段对SQL语句进行解析、分析、优化,第二阶段生成分布式执行计划,在分发执行计划后,查询***使用拉式获取数据的方式获取结果,把结果数据组成按执行树流式传递汇集,返回给客户端。
8.一种云环境中分布式流数据处理***,其特征在于,包括以下四个模块:分布式消息队列模块:分布在不同位置、各个节点的传感器数据进入分布式消息队列,分布式消息队列将数据划分为多个分区存储,供后阶段的流处理和全量计算使用;
流处理模块:流处理模块处理的是最近的增量数据流,完成流式数据的实时计算以及异常数据的筛选,将实时处理结果输出到分布式文件***临时存储中;
批处理模块:批处理模块完成周期性全量计算,当需要全量计算时,批处理模块重新发起一个流计算实例,读取一定批处理周期的数据,计算结果同样储存到分布式文件***中;
服务模块:服务模块用于完成流处理模块和批处理模块数据的整合存储,并通过SQL语义的查询***为用户提供查询接口。
9.根据权利要求8所述的云环境中分布式流数据处理***,其特征在于,所述分布式消息队列模块采用Kafka。
10.根据权利要求8所述的云环境中分布式流数据处理***,其特征在于,所述流处理模块中采用Spark Streaming引擎。
CN201710638294.4A 2017-07-31 2017-07-31 一种云环境中分布式流数据处理方法及*** Pending CN107391719A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710638294.4A CN107391719A (zh) 2017-07-31 2017-07-31 一种云环境中分布式流数据处理方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710638294.4A CN107391719A (zh) 2017-07-31 2017-07-31 一种云环境中分布式流数据处理方法及***

Publications (1)

Publication Number Publication Date
CN107391719A true CN107391719A (zh) 2017-11-24

Family

ID=60341396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710638294.4A Pending CN107391719A (zh) 2017-07-31 2017-07-31 一种云环境中分布式流数据处理方法及***

Country Status (1)

Country Link
CN (1) CN107391719A (zh)

Cited By (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228356A (zh) * 2017-12-29 2018-06-29 华中科技大学 一种流数据的分布式动态处理方法
CN108256045A (zh) * 2018-01-12 2018-07-06 福建星瑞格软件有限公司 实时流数据的结构化解析、流计算的方法及计算机设备
CN108563428A (zh) * 2018-03-27 2018-09-21 五八有限公司 一种大数据架构处理数据的方法、装置、设备及存储介质
CN108595664A (zh) * 2018-04-28 2018-09-28 尚谷科技(天津)有限公司 一种hadoop环境下的农业数据监控方法
CN108595156A (zh) * 2018-04-26 2018-09-28 宁波银行股份有限公司 一种基于Impala组件的批处理方法及***
CN108802282A (zh) * 2018-06-05 2018-11-13 中国联合网络通信集团有限公司 有害气体浓度预测的方法、装置、设备及可读存储介质
CN108804781A (zh) * 2018-05-25 2018-11-13 武汉大学 流计算与传感网集成的地理过程近实时模拟方法
CN108984279A (zh) * 2018-07-02 2018-12-11 山东汇贸电子口岸有限公司 一种面向物联网传统sql开发人员的流式计算方法
CN109032530A (zh) * 2018-08-21 2018-12-18 成都华为技术有限公司 一种数据流处理方法及设备
CN109063017A (zh) * 2018-07-12 2018-12-21 广州市闲愉凡生信息科技有限公司 一种云计算平台的数据持久化分布方法
CN109471892A (zh) * 2018-10-12 2019-03-15 苏州创旅天下信息技术有限公司 数据库集群数据处理方法及装置、存储介质和终端
CN109522341A (zh) * 2018-11-27 2019-03-26 北京京东金融科技控股有限公司 实现基于sql的流式数据处理引擎的方法、装置、设备
CN109618308A (zh) * 2018-12-28 2019-04-12 济南浪潮高新科技投资发展有限公司 一种基于Spark Streaming处理物联网数据的方法
CN109739852A (zh) * 2018-12-19 2019-05-10 宁波中数云创信息技术有限公司 一种数据实用流化分散整合方法
CN109766325A (zh) * 2019-01-09 2019-05-17 吴思齐 一种面向流数据的分布式文件***及流数据写入方法
EP3502914A1 (en) * 2017-12-20 2019-06-26 Acer Cloud Technology (US), Inc. Systems and methods for fast and effective grouping of stream of information into cloud storage files
CN109981710A (zh) * 2017-12-28 2019-07-05 中移物联网有限公司 一种面向物联网流计算的负载均衡和容错方法
CN110083660A (zh) * 2019-04-29 2019-08-02 重庆天蓬网络有限公司 一种同步数据的方法、装置、介质和电子设备
CN110083520A (zh) * 2018-01-25 2019-08-02 迈普通信技术股份有限公司 数据获取方法及装置
CN110109923A (zh) * 2019-04-04 2019-08-09 北京市天元网络技术股份有限公司 时序数据的存储方法、分析方法及装置
CN110288093A (zh) * 2019-06-06 2019-09-27 博彦科技股份有限公司 数据处理方法、装置、存储介质及处理器
CN110347116A (zh) * 2019-07-17 2019-10-18 重庆大学 一种基于运行数据流的机床状态监测***与监测方法
CN110442635A (zh) * 2019-08-22 2019-11-12 深圳市元征科技股份有限公司 一种数据处理方法、装置、设备及存储介质
CN110471896A (zh) * 2019-06-21 2019-11-19 深圳中琛源科技股份有限公司 一种数据处理方法、***及服务器
CN110555038A (zh) * 2018-03-28 2019-12-10 阿里巴巴集团控股有限公司 一种数据处理***、方法及装置
CN110647518A (zh) * 2019-11-28 2020-01-03 成都四方伟业软件股份有限公司 一种数据源融合计算方法、组件及装置
CN110659292A (zh) * 2019-09-21 2020-01-07 北京海致星图科技有限公司 一种基于Spark和Ignite的分布式实时图构建和查询的方法及***
CN110909024A (zh) * 2018-09-14 2020-03-24 阿里巴巴集团控股有限公司 数据处理方法、装置、计算设备及流计算***
CN110955645A (zh) * 2019-10-10 2020-04-03 望海康信(北京)科技股份公司 大数据集成处理方法及***
CN110971917A (zh) * 2018-09-28 2020-04-07 广州虎牙信息科技有限公司 基于Lambda框架的直播数据处理方法、***、服务器及装置
CN111046118A (zh) * 2019-11-09 2020-04-21 武汉中海庭数据技术有限公司 一种基于消息队列的车端数据的实时处理方法及***
CN111147664A (zh) * 2019-12-18 2020-05-12 广东南方海岸科技服务有限公司 移动终端大数据处理方法、装置、大数据架构及存储介质
CN111190949A (zh) * 2018-11-15 2020-05-22 杭州海康威视数字技术股份有限公司 数据存储及处理方法、装置、设备、介质
CN111209364A (zh) * 2019-12-31 2020-05-29 武汉中海庭数据技术有限公司 一种基于众包地图更新的海量数据接入处理方法及***
CN111241176A (zh) * 2019-12-30 2020-06-05 天津浪淘科技股份有限公司 一种数据治理管理***
CN111241051A (zh) * 2020-01-07 2020-06-05 深圳迅策科技有限公司 批量数据处理方法、装置、终端设备及存储介质
CN111262915A (zh) * 2020-01-10 2020-06-09 北京东方金信科技有限公司 一种跨Kafka集群的数据转换***和方法
CN111291047A (zh) * 2020-01-16 2020-06-16 北京明略软件***有限公司 一种时空数据存储方法、装置、存储介质及电子设备
CN111355689A (zh) * 2018-12-21 2020-06-30 中兴通讯股份有限公司 一种流数据处理方法及装置
CN111399851A (zh) * 2020-06-06 2020-07-10 四川新网银行股份有限公司 基于分布式***的批处理执行方法
CN111611221A (zh) * 2019-02-26 2020-09-01 北京京东尚科信息技术有限公司 混合计算***、数据处理方法及装置
CN111680048A (zh) * 2020-08-14 2020-09-18 支付宝(杭州)信息技术有限公司 聚合任务处理方法、装置、服务器及介质
CN111884883A (zh) * 2020-07-29 2020-11-03 北京宏达隆和科技有限公司 一种用于业务接口的快速审计处理方法
CN112100147A (zh) * 2020-07-27 2020-12-18 杭州玳数科技有限公司 基于Flink实现Binlog到HIVE的实时采集方法和***
CN112134909A (zh) * 2019-06-24 2020-12-25 同方威视科技江苏有限公司 时序数据处理方法、装置、***、服务器及可读存储介质
CN112199334A (zh) * 2020-10-23 2021-01-08 东北大学 基于消息队列的数据流处理检查点文件存储的方法及装置
CN112256734A (zh) * 2020-10-20 2021-01-22 中国农业银行股份有限公司 一种大数据处理方法、装置、***、设备和存储介质
CN112883049A (zh) * 2019-11-29 2021-06-01 北京中关村科金技术有限公司 一种数据实时计算方法、装置和存储介质
CN112995263A (zh) * 2019-12-18 2021-06-18 ***通信集团陕西有限公司 网优流数据处理***
CN113944923A (zh) * 2021-10-18 2022-01-18 西安热工研究院有限公司 基于Spark Streaming实时检测锅炉壁温超限报警的方法
CN115062028A (zh) * 2022-07-27 2022-09-16 中建电子商务有限责任公司 一种OLTP领域多表join查询的方法
CN115202765A (zh) * 2022-06-14 2022-10-18 浙江智臾科技有限公司 流数据处理方法和流数据处理***
CN117689451A (zh) * 2024-01-31 2024-03-12 浙江大学 一种基于Flink的流式向量搜索方法及装置、***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468735A (zh) * 2015-11-23 2016-04-06 武汉虹旭信息技术有限责任公司 基于移动互联网海量信息的流式预处理***及其方法
CN105677752A (zh) * 2015-12-30 2016-06-15 深圳先进技术研究院 一种流式计算和批处理计算相结合处理***及方法
CN106528865A (zh) * 2016-12-02 2017-03-22 航天科工智慧产业发展有限公司 一种快速精准的交通大数据清洗方法
CN106778033A (zh) * 2017-01-10 2017-05-31 南京邮电大学 一种基于Spark平台的Spark Streaming异常温度数据报警方法
CN106873945A (zh) * 2016-12-29 2017-06-20 中山大学 基于批处理和流式处理的数据处理架构及数据处理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468735A (zh) * 2015-11-23 2016-04-06 武汉虹旭信息技术有限责任公司 基于移动互联网海量信息的流式预处理***及其方法
CN105677752A (zh) * 2015-12-30 2016-06-15 深圳先进技术研究院 一种流式计算和批处理计算相结合处理***及方法
CN106528865A (zh) * 2016-12-02 2017-03-22 航天科工智慧产业发展有限公司 一种快速精准的交通大数据清洗方法
CN106873945A (zh) * 2016-12-29 2017-06-20 中山大学 基于批处理和流式处理的数据处理架构及数据处理方法
CN106778033A (zh) * 2017-01-10 2017-05-31 南京邮电大学 一种基于Spark平台的Spark Streaming异常温度数据报警方法

Cited By (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3502914A1 (en) * 2017-12-20 2019-06-26 Acer Cloud Technology (US), Inc. Systems and methods for fast and effective grouping of stream of information into cloud storage files
TWI690189B (zh) * 2017-12-20 2020-04-01 美商宏碁雲端技術公司 支援基於數據類型將數據流分組並儲存至雲端儲存文件中的系統和電腦可執行方法
US11200258B2 (en) 2017-12-20 2021-12-14 Acer Cloud Technology (Us), Inc. Systems and methods for fast and effective grouping of stream of information into cloud storage files
CN109981710B (zh) * 2017-12-28 2021-10-29 中移物联网有限公司 一种面向物联网流计算的负载均衡和容错方法
CN109981710A (zh) * 2017-12-28 2019-07-05 中移物联网有限公司 一种面向物联网流计算的负载均衡和容错方法
CN108228356B (zh) * 2017-12-29 2021-01-15 华中科技大学 一种流数据的分布式动态处理方法
CN108228356A (zh) * 2017-12-29 2018-06-29 华中科技大学 一种流数据的分布式动态处理方法
CN108256045A (zh) * 2018-01-12 2018-07-06 福建星瑞格软件有限公司 实时流数据的结构化解析、流计算的方法及计算机设备
CN110083520A (zh) * 2018-01-25 2019-08-02 迈普通信技术股份有限公司 数据获取方法及装置
CN110083520B (zh) * 2018-01-25 2022-09-13 迈普通信技术股份有限公司 数据获取方法及装置
CN108563428A (zh) * 2018-03-27 2018-09-21 五八有限公司 一种大数据架构处理数据的方法、装置、设备及存储介质
CN110555038A (zh) * 2018-03-28 2019-12-10 阿里巴巴集团控股有限公司 一种数据处理***、方法及装置
CN108595156A (zh) * 2018-04-26 2018-09-28 宁波银行股份有限公司 一种基于Impala组件的批处理方法及***
CN108595664A (zh) * 2018-04-28 2018-09-28 尚谷科技(天津)有限公司 一种hadoop环境下的农业数据监控方法
CN108595664B (zh) * 2018-04-28 2022-05-31 上海左岸芯慧电子科技有限公司 一种hadoop环境下的农业数据监控方法
CN108804781A (zh) * 2018-05-25 2018-11-13 武汉大学 流计算与传感网集成的地理过程近实时模拟方法
CN108802282A (zh) * 2018-06-05 2018-11-13 中国联合网络通信集团有限公司 有害气体浓度预测的方法、装置、设备及可读存储介质
CN108984279A (zh) * 2018-07-02 2018-12-11 山东汇贸电子口岸有限公司 一种面向物联网传统sql开发人员的流式计算方法
CN109063017A (zh) * 2018-07-12 2018-12-21 广州市闲愉凡生信息科技有限公司 一种云计算平台的数据持久化分布方法
CN109032530A (zh) * 2018-08-21 2018-12-18 成都华为技术有限公司 一种数据流处理方法及设备
CN110909024A (zh) * 2018-09-14 2020-03-24 阿里巴巴集团控股有限公司 数据处理方法、装置、计算设备及流计算***
CN110971917B (zh) * 2018-09-28 2021-10-22 广州虎牙信息科技有限公司 基于Lambda框架的直播数据处理方法、***、服务器及装置
CN110971917A (zh) * 2018-09-28 2020-04-07 广州虎牙信息科技有限公司 基于Lambda框架的直播数据处理方法、***、服务器及装置
CN109471892A (zh) * 2018-10-12 2019-03-15 苏州创旅天下信息技术有限公司 数据库集群数据处理方法及装置、存储介质和终端
CN109471892B (zh) * 2018-10-12 2021-01-15 苏州创旅天下信息技术有限公司 数据库集群数据处理方法及装置、存储介质和终端
CN111190949B (zh) * 2018-11-15 2023-09-26 杭州海康威视数字技术股份有限公司 数据存储及处理方法、装置、设备、介质
CN111190949A (zh) * 2018-11-15 2020-05-22 杭州海康威视数字技术股份有限公司 数据存储及处理方法、装置、设备、介质
CN109522341A (zh) * 2018-11-27 2019-03-26 北京京东金融科技控股有限公司 实现基于sql的流式数据处理引擎的方法、装置、设备
CN109522341B (zh) * 2018-11-27 2020-12-22 京东数字科技控股有限公司 实现基于sql的流式数据处理引擎的方法、装置、设备
CN109739852A (zh) * 2018-12-19 2019-05-10 宁波中数云创信息技术有限公司 一种数据实用流化分散整合方法
CN109739852B (zh) * 2018-12-19 2023-02-17 宁波中数云创信息技术有限公司 一种数据实用流化分散整合方法
CN111355689A (zh) * 2018-12-21 2020-06-30 中兴通讯股份有限公司 一种流数据处理方法及装置
CN111355689B (zh) * 2018-12-21 2022-04-22 金篆信科有限责任公司 一种流数据处理方法及装置
CN109618308A (zh) * 2018-12-28 2019-04-12 济南浪潮高新科技投资发展有限公司 一种基于Spark Streaming处理物联网数据的方法
CN109766325A (zh) * 2019-01-09 2019-05-17 吴思齐 一种面向流数据的分布式文件***及流数据写入方法
CN109766325B (zh) * 2019-01-09 2019-09-17 吴思齐 一种面向流数据的分布式文件***及流数据写入方法
CN111611221A (zh) * 2019-02-26 2020-09-01 北京京东尚科信息技术有限公司 混合计算***、数据处理方法及装置
CN110109923A (zh) * 2019-04-04 2019-08-09 北京市天元网络技术股份有限公司 时序数据的存储方法、分析方法及装置
CN110109923B (zh) * 2019-04-04 2021-07-06 北京市天元网络技术股份有限公司 时序数据的存储方法、分析方法及装置
CN110083660A (zh) * 2019-04-29 2019-08-02 重庆天蓬网络有限公司 一种同步数据的方法、装置、介质和电子设备
CN110288093A (zh) * 2019-06-06 2019-09-27 博彦科技股份有限公司 数据处理方法、装置、存储介质及处理器
CN110471896B (zh) * 2019-06-21 2023-11-28 陕西融华电子科技有限公司 一种数据处理方法、***及服务器
CN110471896A (zh) * 2019-06-21 2019-11-19 深圳中琛源科技股份有限公司 一种数据处理方法、***及服务器
CN112134909A (zh) * 2019-06-24 2020-12-25 同方威视科技江苏有限公司 时序数据处理方法、装置、***、服务器及可读存储介质
CN112134909B (zh) * 2019-06-24 2022-04-19 同方威视科技江苏有限公司 时序数据处理方法、装置、***、服务器及可读存储介质
CN110347116A (zh) * 2019-07-17 2019-10-18 重庆大学 一种基于运行数据流的机床状态监测***与监测方法
CN110442635A (zh) * 2019-08-22 2019-11-12 深圳市元征科技股份有限公司 一种数据处理方法、装置、设备及存储介质
CN110659292A (zh) * 2019-09-21 2020-01-07 北京海致星图科技有限公司 一种基于Spark和Ignite的分布式实时图构建和查询的方法及***
CN110955645B (zh) * 2019-10-10 2022-10-11 望海康信(北京)科技股份公司 大数据集成处理方法及***
CN110955645A (zh) * 2019-10-10 2020-04-03 望海康信(北京)科技股份公司 大数据集成处理方法及***
CN111046118A (zh) * 2019-11-09 2020-04-21 武汉中海庭数据技术有限公司 一种基于消息队列的车端数据的实时处理方法及***
CN110647518A (zh) * 2019-11-28 2020-01-03 成都四方伟业软件股份有限公司 一种数据源融合计算方法、组件及装置
CN110647518B (zh) * 2019-11-28 2020-04-28 成都四方伟业软件股份有限公司 一种数据源融合计算方法、组件及装置
CN112883049A (zh) * 2019-11-29 2021-06-01 北京中关村科金技术有限公司 一种数据实时计算方法、装置和存储介质
CN112995263A (zh) * 2019-12-18 2021-06-18 ***通信集团陕西有限公司 网优流数据处理***
CN111147664A (zh) * 2019-12-18 2020-05-12 广东南方海岸科技服务有限公司 移动终端大数据处理方法、装置、大数据架构及存储介质
CN111147664B (zh) * 2019-12-18 2021-11-12 广东南方海岸科技服务有限公司 移动终端大数据处理方法、装置及存储介质
CN111241176A (zh) * 2019-12-30 2020-06-05 天津浪淘科技股份有限公司 一种数据治理管理***
CN111209364A (zh) * 2019-12-31 2020-05-29 武汉中海庭数据技术有限公司 一种基于众包地图更新的海量数据接入处理方法及***
CN111241051A (zh) * 2020-01-07 2020-06-05 深圳迅策科技有限公司 批量数据处理方法、装置、终端设备及存储介质
CN111241051B (zh) * 2020-01-07 2023-09-12 深圳迅策科技有限公司 批量数据处理方法、装置、终端设备及存储介质
CN111262915A (zh) * 2020-01-10 2020-06-09 北京东方金信科技有限公司 一种跨Kafka集群的数据转换***和方法
CN111262915B (zh) * 2020-01-10 2020-09-22 北京东方金信科技有限公司 一种跨Kafka集群的数据转换***和方法
CN111291047A (zh) * 2020-01-16 2020-06-16 北京明略软件***有限公司 一种时空数据存储方法、装置、存储介质及电子设备
CN111399851A (zh) * 2020-06-06 2020-07-10 四川新网银行股份有限公司 基于分布式***的批处理执行方法
CN112100147A (zh) * 2020-07-27 2020-12-18 杭州玳数科技有限公司 基于Flink实现Binlog到HIVE的实时采集方法和***
CN112100147B (zh) * 2020-07-27 2024-06-07 杭州玳数科技有限公司 基于Flink实现Binlog到HIVE的实时采集方法和***
CN111884883A (zh) * 2020-07-29 2020-11-03 北京宏达隆和科技有限公司 一种用于业务接口的快速审计处理方法
CN111680048B (zh) * 2020-08-14 2021-06-29 支付宝(杭州)信息技术有限公司 聚合任务处理方法、装置、服务器及介质
CN111680048A (zh) * 2020-08-14 2020-09-18 支付宝(杭州)信息技术有限公司 聚合任务处理方法、装置、服务器及介质
CN112256734A (zh) * 2020-10-20 2021-01-22 中国农业银行股份有限公司 一种大数据处理方法、装置、***、设备和存储介质
CN112199334B (zh) * 2020-10-23 2023-12-05 东北大学 基于消息队列的数据流处理检查点文件存储的方法及装置
CN112199334A (zh) * 2020-10-23 2021-01-08 东北大学 基于消息队列的数据流处理检查点文件存储的方法及装置
CN113944923A (zh) * 2021-10-18 2022-01-18 西安热工研究院有限公司 基于Spark Streaming实时检测锅炉壁温超限报警的方法
CN115202765A (zh) * 2022-06-14 2022-10-18 浙江智臾科技有限公司 流数据处理方法和流数据处理***
CN115202765B (zh) * 2022-06-14 2023-03-28 浙江智臾科技有限公司 流数据处理方法和流数据处理***
CN115062028B (zh) * 2022-07-27 2023-01-06 中建电子商务有限责任公司 一种OLTP领域多表join查询的方法
CN115062028A (zh) * 2022-07-27 2022-09-16 中建电子商务有限责任公司 一种OLTP领域多表join查询的方法
CN117689451A (zh) * 2024-01-31 2024-03-12 浙江大学 一种基于Flink的流式向量搜索方法及装置、***
CN117689451B (zh) * 2024-01-31 2024-04-26 浙江大学 一种基于Flink的流式向量搜索方法及装置、***

Similar Documents

Publication Publication Date Title
CN107391719A (zh) 一种云环境中分布式流数据处理方法及***
Mishne et al. Fast data in the era of big data: Twitter's real-time related query suggestion architecture
CN103631870B (zh) 一种用于大规模分布式数据处理的***及其方法
CN106778033B (zh) 一种基于Spark平台的Spark Streaming异常温度数据报警方法
CN106790718A (zh) 服务调用链路分析方法及***
CN105045856B (zh) 一种基于Hadoop的大数据遥感卫星数据处理***
Wang et al. LDPA: A local data processing architecture in ambient assisted living communications
Ding et al. Enabling smart transportation systems: A parallel spatio-temporal database approach
CN109189589A (zh) 一种分布式大数据计算引擎及架构方法
CN105677752A (zh) 一种流式计算和批处理计算相结合处理***及方法
CN109840253A (zh) 企业级大数据平台架构
CN107038162A (zh) 基于数据库日志的实时数据查询方法和***
CN109710731A (zh) 一种基于Flink的数据流多向处理***
CN109063017A (zh) 一种云计算平台的数据持久化分布方法
CN108469988A (zh) 一种基于异构Hadoop集群的任务调度方法
CN107704545A (zh) 基于Storm与Kafka消息通信的铁路配电网海量信息流处理方法
CN106708917B (zh) 一种数据处理方法、装置以及olap***
CN103049556A (zh) 一种海量医疗数据的快速统计查询方法
CN106951552A (zh) 一种基于Hadoop的用户行为数据处理方法
CN107247799A (zh) 兼容多种大数据存储的数据处理方法、***及其建模方法
US20150363467A1 (en) Performing an index operation in a mapreduce environment
CN108108466A (zh) 一种分布式***日志查询分析方法及装置
Samwel et al. F1 query: Declarative querying at scale
CN102479217A (zh) 一种分布式数据仓库中实现计算均衡的方法及装置
CN107046510A (zh) 一种适用于分布式计算***的节点及其组成的***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171124

RJ01 Rejection of invention patent application after publication