CN109726004A - 一种数据处理方法及装置 - Google Patents

一种数据处理方法及装置 Download PDF

Info

Publication number
CN109726004A
CN109726004A CN201711024565.3A CN201711024565A CN109726004A CN 109726004 A CN109726004 A CN 109726004A CN 201711024565 A CN201711024565 A CN 201711024565A CN 109726004 A CN109726004 A CN 109726004A
Authority
CN
China
Prior art keywords
data
computational frame
source data
processing
computational
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711024565.3A
Other languages
English (en)
Other versions
CN109726004B (zh
Inventor
徐硕
姜康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Suzhou Software Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201711024565.3A priority Critical patent/CN109726004B/zh
Publication of CN109726004A publication Critical patent/CN109726004A/zh
Application granted granted Critical
Publication of CN109726004B publication Critical patent/CN109726004B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及大数据技术领域,尤其涉及一种数据处理方法及装置,用以解决现有技术中数据接入平台使用成本较高的问题;本申请实施例提供的数据处理方法包括:接收数据处理请求,所述数据处理请求中携带有源数据的地址信息和对所述源数据需执行的处理任务;根据所述源数据的地址信息获取源数据;根据所述源数据的属性信息和所述数据接入平台中各计算框架的负载状况,确定用于执行所述处理任务的计算框架;将所述处理任务提交给所述计算框架,由所述计算框架对所述源数据进行处理,这样,用户只需将需要数据接入平台处理的任务写入接入请求中,就可以对数据接入平台进行命令发布,降低了使用数据接入平台的难度,降低了数据接入平台的使用成本。

Description

一种数据处理方法及装置
技术领域
本申请涉及大数据技术领域,尤其涉及一种数据处理方法及装置。
背景技术
目前,数据接入平台作为大数据平台重要的数据入口,其主要用于实现数据源接入和数据缓存预处理,其中,数据源接入主要包括对在线消息、离线文件、Binlog等日志文件进行数据采集;数据缓存预处理主要包括数据源格式的适配、数据的加密传输、消息缓存和订阅分发。
现有技术中,用户必须借助Flume-NG、Logstach或者Scribe等分布式部署方式来实现数据接入,这样,每一用户都需要自行进行技术选型,对不同的采集任务或预处理任务需要采用不同的技术方案,并且需要自己完成软件的底层实现,因此,开发过程比较繁琐、复杂,导致数据接入平台的使用成本也比较高。
可见,现有技术中用户在使用数据接入平台时存在着开发过程繁琐、复杂,导致数据接入平台的使用成本比较高的问题。
发明内容
本申请实施例提供一种数据处理方法及装置,用以解决现有技术中用户在使用数据接入平台时存在着开发过程繁琐、复杂,导致数据接入平台的使用成本比较高的问题。
本申请实施例提供的一种数据处理方法,应用于包含多个计算框架的数据接入平台,包括:
数据接入平台接收数据处理请求,所述数据处理请求中携带有源数据的地址信息和对所述源数据需执行的处理任务;
根据所述源数据的地址信息获取源数据;
根据所述源数据的属性信息和所述数据接入平台中各计算框架的负载状况,确定用于执行所述处理任务的计算框架,所述源数据的属性信息至少包含数据来源、时延大小、数据总量和数据质量;
将所述处理任务提交给所述计算框架,由所述计算框架对所述源数据进行处理。
本申请实施例提供的一种数据处理装置,位于包含多个计算框架的数据接入平台中,包括:
接收模块,用于接收数据处理请求,所述数据处理请求中携带有源数据的地址信息和对所述源数据需执行的处理任务;
获取模块,用于根据所述源数据的地址信息获取源数据;
计算框架选取模块,用于根据所述源数据的属性信息和所述数据接入平台中各计算框架的负载状况,确定用于执行所述处理任务的计算框架,所述源数据的属性信息至少包含数据来源、时延大小、数据总量和数据质量;
提交模块,用于将所述处理任务提交给所述计算框架,由所述计算框架对所述源数据进行处理。
本申请实施例提供的一种电子设备,包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述电子设备执行上述数据处理方法的步骤。
本申请实施例提供的一种计算机可读存储介质,包括程序代码,当所述程序代码在电子设备上运行时,使所述电子设备执行上述数据处理方法的步骤。
本申请实施例中,数据接入平台接收数据处理请求,数据处理请求中携带有源数据的地址信息和对源数据需执行的处理任务,之后根据源数据的地址信息获取源数据,进而根据源数据的属性信息和数据接入平台中各计算框架的负载状况,确定用于执行处理任务的计算框架,并将处理任务提交给该计算框架,由该计算框架对源数据进行处理,这样,用户只需将源数据的地址信息和对源数据进行操作的处理任务写入数据处理请求中,就可以对数据接入平台进行命令发布,而不必再关注于使用数据接入平台时繁琐的底层技术实现,降低了使用数据接入平台的难度,降低了数据接入平台的使用成本。
附图说明
图1为本申请实施例提供的数据处理方法流程图;
图2为本申请实施例提供的数据处理装置结构图;
图3为本申请实施例提供的用于实现数据处理方法的电子设备的硬件结构示意图。
具体实施方式
本申请实施例旨在屏蔽用户使用数据接入平台时对底层采集计算框架的软件实现,而对用户提供数据定义、数据采集和数据消费接口,简化现有技术中用户需要完成的分布式部署和配置工作,实现了数据接入平台对外的统一管理,并且可以提供一部分通用化的预处理能力(数据抽取、数据脱敏、数据合并等),不必用户再进行底层开发,进而降低用户使用数据接入平台的难度。
下面结合说明书附图对本申请实施例作进一步详细描述。
实施例一
如图1所示,为本申请实施例提供的数据处理方法流程图,应用于包含多个计算框架的数据接入平台,包括以下步骤:
S101:数据接入平台接收数据处理请求,所述数据处理请求中携带有源数据的地址信息和对源数据需执行的处理任务。
其中,数据处理请求为XML格式的请求,解析XML文件可以获取数据处理请求中携带的源数据的地址信息和对源数据需执行的处理任务,这里,需要数据接入平台执行的处理任务如数据采集、加密传输、订阅分发等。
S102:根据源数据的地址信息获取源数据。
S103:根据源数据的属性信息和数据接入平台中各计算框架的负载状况,确定用于执行所述处理任务的计算框架。
可选地,源数据的属性信息至少包含数据来源、时延大小、数据总量和数据质量,其中,数据来源如文件传输协议(File Transfer Protocol,FTP)、Hadoop分布式文件***(Hadoop Distributed File System,HDFS)、Kafka、串行数据传输协议(Serial DataTransport Protocol,SDTP)等;时延大小是指数据在传输过程中需等待的时间;数据总量是指需要计算框架处理的数据量大小;数据质量是指单次允许执行的数据条数,若单次允许执行的数据条数较少,如1条,则确定数据质量高,若单次允许执行的数据条数较多,如1000条,则确定数据质量低。
在具体实施过程中,在获取源数据以后,可以根据源数据的属性信息确定对源数据的处理方式,其中,对源数据的处理方式包括批处理方式和实时处理方式,进而根据对源数据的处理方式和数据接入平台中各计算框架的负载状况,确定用于执行所述处理任务的计算框架。
具体地,若数据来源为FTP或者HDFS,则可以用批处理方式处理源数据,若数据来源为Kafka或者SDTP,则可以用实时处理方式处理源数据。若确定数据的时延较大,如大于10s,则可以用批处理方式处理源数据,否则,可以用实时处理方式处理源数据。若确定数据总量较大,如数据大于1GB,则可以用批处理方式处理源数据,否则,可以用实时处理方式处理源数据。若确定数据质量高,则可以用实时处理方式处理源数据,否则,可以用批处理方式处理源数据。
并且,在不冲突的情况下,上述确定源数据处理方式的方法可以结合使用,在此对具体的结合方式不做限定。
进一步地,若确定以实时处理方式处理源数据,则确定数据接入平台中以实时流处理方式处理数据流的计算框架,从这些计算框架中选择负载低于第一阈值的计算框架作为执行所述处理任务的计算框架;若确定以批处理方式处理源数据,则确定数据接入平台中以批处理方式处理数据流的计算框架,从这些计算框架中选择负载低于第二阈值的计算框架作为执行所述处理任务的计算框架。
S104:将所述处理任务提交给确定的计算框架,由该计算框架对源数据进行处理。
可选地,数据处理请求中还包含有目的地址,计算框架在对源数据进行处理以后,可以将产生的数据存放在目的地址。
此外,用户还可以自定义计算框架和引入自己部署的计算框架,比如,可以在access接口中添加engine标签可以定义计算框架的类型。
上述过程中,根据源数据的属性信息和数据接入平台中各计算框架的负载状况,确定用于执行所述处理任务的计算框架之前,可以确定数据接入平台中不存在用户自定义的计算框架,若确定数据接入平台中存在用户自定义的计算框架,则在确定执行所述处理任务的计算框架时,可以添加deploy标签来引入用户自己部署的计算框架,而不再选用数据接入平台中的计算框架。
本申请实施例中,数据接入平台接收数据处理请求,数据处理请求中携带有源数据的地址信息和对源数据需执行的处理任务,之后根据源数据的地址信息获取源数据,进而根据源数据的属性信息和数据接入平台中各计算框架的负载状况,确定用于执行处理任务的计算框架,并将处理任务提交给该计算框架,由该计算框架对源数据进行处理,这样,用户只需将源数据的地址信息和对源数据进行操作的处理任务写入数据处理请求中,就可以对数据接入平台进行命令发布,而不必再关注于使用数据接入平台时繁琐的底层技术实现,降低了使用数据接入平台的难度,降低了数据接入平台的使用成本。
实施例二
本申请实施例中的数据接入平台包含多个计算框架,如MR、Spark、Storm等,其提供了一种基于网络web服务的实时数据接入通用化解决方案,主要包括数据接入、数据预处理和数据储存三大功能,其中,数据接入主要提供离线文件(FTP/HDFS)、在线消息(HTTP/Kafka/SDTP)和日志文件(MySQL Binlog/Syslog/log4j/logback)等数据源数据的加密接入;数据预处理主要提供数据源定义(字段分隔符、字段描述、数据源描述、字段类型)、数据源字段脱敏、数据源的订阅分发和数据校验;数据储存主要提供基于Kafka/MetaQ等主流消息队列机制的数据存储,并且可以提供封装完善的对外接口以供用户使用。
在具体实施过程中,数据接入平台主要包括三个对外接口:access接口、definition接口和consume接口,利用这些接口对外提供统一的配置模板,用户可以通过简单对象访问协议(Simple Object Access Protocol,SOAP)请求实现这些接口,进而利用这些接口来对数据接入平台发布命令。
具体地,access接口主要提供数据源的来源、数据源的目标存储位置、数据预处理的逻辑过程以及和数据源定义绑定,access接口的XML格式如下:
其中,Source标签定义了数据的来源,其中,Type标签用于标识数据来源的类型,如FTP/HDFS/Kafka/HTTP/SDTP,param标签用于标识其它相关属性,例如FTP的其它相关属性包括Server、Port、UserName、Passwd、FilePath、isGZ等;Sink标签定义了数据处理完成之后的缓存地址,其中,Type主要包括Kafka/Redis/Elasticsearch/FTP/HDFS等;Interceptor标签标识数据预处理的逻辑过程,其中,Type主要包括字段合并(concat)、正则抽取(regularExtractor)、字段抽取(indexExtractor)、基于md5/Base64/SHA256等类型的字段脱敏(desensitization)等;dataSource标签用于数据接入流程和数据源的定义实现绑定,对于name不存在的数据源平台可以提示用户首先定义数据源格式,再进行数据接入。
definition接口主要定义数据源的格式以及相关字段信息,definition接口的XML格式如下:
其中,最外层标签为dataSource,用于数据接入流程和数据源的定义实现绑定,其中,name为唯一索引,用于确定唯一数据源标识,fieldDelimiter标签用于定义字段分隔符,length标签用于定义字段个数,description标签用于定义数据源描述,fields标签用于罗列所有的字段,主要包括字段名称(name标签)、字段索引位(index标签)、字段描述(description标签)和字段类型(type标签)等。
consume接口主要提供用户对该数据源数据的消费,consume接口的XML格式如下:
其中,name标签为数据源的名称,batch为一次可以获取的数据条数,batchDurtition为获取数据的最大时间。
本申请实施例中的数据接入平台支持多种计算框架,既包括实时计算框架又包括批处理计算框架,其中,实时计算框架如Storm、Spark Streaming;批处理计算框架如MR、Spark。
在具体实施过程中,数据接入平台对Rest层提交的XML请求,可以先解析XML文件获得源数据的地址信息和对源数据需执行的处理任务,之后根据源数据的地址信息获取源数据,进而根据源数据的属性信息,如数据来源、时延大小、数据总量和数据质量等,确定对源数据的处理方式,进而根据对源数据的处理方式确定用于执行所述处理任务的计算框架。
比如,FTP或者HDFS等离线数据会交由MR/Spark等进行批处理,而Kafka或者SDTP等任务会选择例如Storm/Spark Streaming等实时计算框架来处理。
在具体实施过程中,还可以实时获取数据接入平台中各计算框架的负载情况,在为所述处理任务选择计算框架时,还可以结合考虑各计算框架的负载情况,从而实现各计算框架的负载均衡,使数据接入平台的性能得到最大程度的优化。
进一步地,计算框架对源数据处理完以后,还可以将生成的数据存放在目的地址中,目的地址也是解析XML文件得到的。
可选地,数据接入平台还可以提供用户自定义选择计算框架和引入自己部署的计算框架,比如,在access接口中添加engine标签可以定义计算框架的类型,在为子任务选择处理计算框架时,若确定在access接口中添加有deploy标签,则引入用户自己部署的服务,否则,使用数据接入平台提供的计算框架。
在具体实施过程中,对数据接入平台中的每个计算框架节点,采用agent方式实现该节点上的提交任务和计算框架负载情况的监控,比如,在Strom集群的nimbus节点,flink集群的JobManager节点、spark客户端节点上都部署agent,从而实现对各节点上任务的提交和计算资源的监控。
此外,数据接入平台还可以提供on Docker解决方案,方便使用者一键部署,并且集成nginx负载均衡机制、Storm on docker、Flink on docker和Spark on docker等解决方案。
本申请实施例提供的数据接入平台,可以智能化选择计算框架来实现数据接入能力和预处理的能力,对使用者提交的数据源接入任务,通过SmartRouter模块来选择其计算框架,同时用户也可以自定义选择计算框架和引入自己部署的计算框架,并且集成onDocker解决方案,该方案相比人工的分布式部署方式,可以简化使用者部署相关服务的繁琐、减少配置的复杂度。此外,数据接入平台不再采用数据汇聚的统一化处理,而是将数据预处理划分成最小的子任务分散到各个计算框架节点上,这样通用化的数据预处理方案可以分散单个计算框架节点的压力,最大限度地提高数据接入平台的工作效率。
实施例三
基于同一发明构思,本申请实施例中还提供了一种与数据处理方法对应的数据处理装置,由于该装置解决问题的原理与本申请实施例数据处理方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
如图2所示,为本申请实施例提供的数据处理装置结构图,该装置位于包含多个计算框架的数据接入平台中,包括:
接收模块201,用于接收数据处理请求,所述数据处理请求中携带有源数据的地址信息和对所述源数据需执行的处理任务;
获取模块202,用于根据所述源数据的地址信息获取源数据;
计算框架选取模块203,用于根据所述源数据的属性信息和所述数据接入平台中各计算框架的负载状况,确定用于执行所述处理任务的计算框架,所述源数据的属性信息至少包含数据来源、时延大小、数据总量和数据质量;
提交模块204,用于将所述处理任务提交给所述计算框架,由所述计算框架对所述源数据进行处理。
可选地,所述计算框架选取模块203具体用于:
根据所述源数据的属性信息确定对所述源数据的处理方式,其中,对所述源数据的处理方式包括批处理方式和实时处理方式;
根据对所述源数据的处理方式和所述数据接入平台中各计算框架的负载状况,确定用于执行所述处理任务的计算框架。
可选地,所述计算框架选取模块203具体用于:
若确定以实时处理方式处理所述源数据,则确定所述数据接入平台中以实时流处理方式处理数据流的计算框架,从所述计算框架中选择负载低于第一阈值的计算框架作为执行所述处理任务的计算框架;
若确定以批处理方式处理所述源数据,则确定所述数据接入平台中以批处理方式处理数据流的计算框架,从所述计算框架中选择负载低于第二阈值的计算框架作为执行所述处理任务的计算框架。
可选地,所述装置还包括,确定模块205:
所述确定模块205,用于根据所述源数据的属性信息和所述数据接入平台中各计算框架的负载状况,确定用于执行所述处理任务的计算框架之前,确定不存在用户自定义的计算框架。
可选地,所述提交模块204还用于:
若确定存在用户自定义的计算框架,则将所述处理任务提交给所述用户自定义的计算框架,由所述用户自定义的计算框架对所述源数据进行处理。
实施例四
如图3所示,为本申请实施例提供的用于实现数据处理的电子设备的硬件结构示意图,包括至少一个处理单元301、以及至少一个存储单元302,其中,存储单元存储有程序代码,当程序代码被所述处理单元执行时,使得电子设备执行上述数据处理方法的步骤。
实施例五
本申请实施例提供的一种计算机可读存储介质,包括程序代码,当所述程序代码在电子设备上运行时,使电子设备执行上述数据处理方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (12)

1.一种数据处理方法,应用于包含多个计算框架的数据接入平台,其特征在于,包括:
数据接入平台接收数据处理请求,所述数据处理请求中携带有源数据的地址信息和对所述源数据需执行的处理任务;
根据所述源数据的地址信息获取源数据;
根据所述源数据的属性信息和所述数据接入平台中各计算框架的负载状况,确定用于执行所述处理任务的计算框架,所述源数据的属性信息至少包含数据来源、时延大小、数据总量和数据质量;
将所述处理任务提交给所述计算框架,由所述计算框架对所述源数据进行处理。
2.如权利要求1所述的方法,其特征在于,根据所述源数据的属性信息和所述数据接入平台中各计算框架的负载状况,确定用于执行所述处理任务的计算框架,包括:
根据所述源数据的属性信息确定对所述源数据的处理方式,其中,对所述源数据的处理方式包括批处理方式和实时处理方式;
根据对所述源数据的处理方式和所述数据接入平台中各计算框架的负载状况,确定用于执行所述处理任务的计算框架。
3.如权利要求2所述的方法,其特征在于,根据对所述源数据的处理方式和所述数据接入平台中各计算框架的负载状况,确定用于执行所述处理任务的计算框架,包括:
若确定以实时处理方式处理所述源数据,则确定所述数据接入平台中以实时流处理方式处理数据流的计算框架,从所述计算框架中选择负载低于第一阈值的计算框架作为执行所述处理任务的计算框架;
若确定以批处理方式处理所述源数据,则确定所述数据接入平台中以批处理方式处理数据流的计算框架,从所述计算框架中选择负载低于第二阈值的计算框架作为执行所述处理任务的计算框架。
4.如权利要求1所述的方法,其特征在于,根据所述源数据的属性信息和所述数据接入平台中各计算框架的负载状况,确定用于执行所述处理任务的计算框架之前,还包括:
确定不存在用户自定义的计算框架。
5.如权利要求4所述的方法,其特征在于,还包括:
若确定存在用户自定义的计算框架,则将所述处理任务提交给所述用户自定义的计算框架,由所述用户自定义的计算框架对所述源数据进行处理。
6.一种数据处理装置,位于包含多个计算框架的数据接入平台中,其特征在于,包括:
接收模块,用于接收数据处理请求,所述数据处理请求中携带有源数据的地址信息和对所述源数据需执行的处理任务;
获取模块,用于根据所述源数据的地址信息获取源数据;
计算框架选取模块,用于根据所述源数据的属性信息和所述数据接入平台中各计算框架的负载状况,确定用于执行所述处理任务的计算框架,所述源数据的属性信息至少包含数据来源、时延大小、数据总量和数据质量;
提交模块,用于将所述处理任务提交给所述计算框架,由所述计算框架对所述源数据进行处理。
7.如权利要求6所述的装置,其特征在于,所述计算框架选取模块具体用于:
根据所述源数据的属性信息确定对所述源数据的处理方式,其中,对所述源数据的处理方式包括批处理方式和实时处理方式;
根据对所述源数据的处理方式和所述数据接入平台中各计算框架的负载状况,确定用于执行所述处理任务的计算框架。
8.如权利要求7所述的装置,其特征在于,所述计算框架选取模块具体用于:
若确定以实时处理方式处理所述源数据,则确定所述数据接入平台中以实时流处理方式处理数据流的计算框架,从所述计算框架中选择负载低于第一阈值的计算框架作为执行所述处理任务的计算框架;
若确定以批处理方式处理所述源数据,则确定所述数据接入平台中以批处理方式处理数据流的计算框架,从所述计算框架中选择负载低于第二阈值的计算框架作为执行所述处理任务的计算框架。
9.如权利要求6所述的装置,其特征在于,还包括,确定模块:
所述确定模块,用于根据所述源数据的属性信息和所述数据接入平台中各计算框架的负载状况,确定用于执行所述处理任务的计算框架之前,确定不存在用户自定义的计算框架。
10.如权利要求9所述的装置,其特征在于,所述提交模块还用于:
若确定存在用户自定义的计算框架,则将所述处理任务提交给所述用户自定义的计算框架,由所述用户自定义的计算框架对所述源数据进行处理。
11.一种电子设备,其特征在于,包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述电子设备执行权利要求1~5任一所述方法的步骤。
12.一种计算机可读存储介质,其特征在于,包括程序代码,当所述程序代码在电子设备上运行时,使所述电子设备执行权利要求1~5任一所述方法的步骤。
CN201711024565.3A 2017-10-27 2017-10-27 一种数据处理方法及装置 Active CN109726004B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711024565.3A CN109726004B (zh) 2017-10-27 2017-10-27 一种数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711024565.3A CN109726004B (zh) 2017-10-27 2017-10-27 一种数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN109726004A true CN109726004A (zh) 2019-05-07
CN109726004B CN109726004B (zh) 2021-12-03

Family

ID=66292118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711024565.3A Active CN109726004B (zh) 2017-10-27 2017-10-27 一种数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN109726004B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110336986A (zh) * 2019-08-08 2019-10-15 杭州阿启视科技有限公司 视频大数据云平台流媒体服务方法
CN111241180A (zh) * 2020-01-13 2020-06-05 中国建设银行股份有限公司 一种信息处理的方法、装置、设备及存储介质
CN112307114A (zh) * 2019-07-31 2021-02-02 北京中关村科金技术有限公司 一种数据交换方法、装置以及存储介质
CN113434908A (zh) * 2021-08-30 2021-09-24 四川新网银行股份有限公司 一种基于Logback日志组件的数据脱敏方法
CN113890876A (zh) * 2021-01-27 2022-01-04 贺鑫 一种基于微服务框架的综采工作面数据中台的节点管控方法
CN114579656A (zh) * 2022-05-07 2022-06-03 中建电子商务有限责任公司 一种对Mysql Binlog数据进行处理的方法
CN118170737A (zh) * 2024-05-11 2024-06-11 中移(苏州)软件技术有限公司 数据处理方法、装置及相关设备

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102143198A (zh) * 2010-09-30 2011-08-03 华为技术有限公司 消息传送方法、装置和***
CN103530189A (zh) * 2013-09-29 2014-01-22 中国科学院信息工程研究所 一种面向流式数据的自动伸缩及迁移的方法及装置
CN103812949A (zh) * 2014-03-06 2014-05-21 中国科学院信息工程研究所 一种面向实时云平台的任务调度与资源分配方法及***
CN104461740A (zh) * 2014-12-12 2015-03-25 国家电网公司 一种跨域集群计算资源聚合和分配的方法
US20150271075A1 (en) * 2014-03-20 2015-09-24 Microsoft Corporation Switch-based Load Balancer
US9264482B2 (en) * 2013-08-28 2016-02-16 Electronics & Telecommunications Research Institute Batching-based content routing method and apparatus for performing batching-based content routing method
CN105453068A (zh) * 2013-07-31 2016-03-30 慧与发展有限责任合伙企业 使用分布式缓存的数据流处理
CN105574082A (zh) * 2015-12-08 2016-05-11 曙光信息产业(北京)有限公司 基于Storm的流处理方法及***
CN105786600A (zh) * 2016-02-02 2016-07-20 北京京东尚科信息技术有限公司 任务调度方法和装置
CN105991459A (zh) * 2015-02-15 2016-10-05 上海帝联信息科技股份有限公司 Cdn节点回源路由分配方法、装置和***
CN106021484A (zh) * 2016-05-18 2016-10-12 中国电子科技集团公司第三十二研究所 基于内存计算的可定制多模式大数据处理***
US20160306674A1 (en) * 2015-04-17 2016-10-20 Microsoft Technology Licensing, Llc Handling Tenant Requests in a System that Uses Acceleration Components
CN106921684A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 一种请求信息的处理方法和服务器
CN107085579A (zh) * 2016-02-16 2017-08-22 ***通信集团福建有限公司 一种数据采集分发方法及装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102143198A (zh) * 2010-09-30 2011-08-03 华为技术有限公司 消息传送方法、装置和***
CN105453068A (zh) * 2013-07-31 2016-03-30 慧与发展有限责任合伙企业 使用分布式缓存的数据流处理
US9264482B2 (en) * 2013-08-28 2016-02-16 Electronics & Telecommunications Research Institute Batching-based content routing method and apparatus for performing batching-based content routing method
CN103530189A (zh) * 2013-09-29 2014-01-22 中国科学院信息工程研究所 一种面向流式数据的自动伸缩及迁移的方法及装置
CN103812949A (zh) * 2014-03-06 2014-05-21 中国科学院信息工程研究所 一种面向实时云平台的任务调度与资源分配方法及***
US20150271075A1 (en) * 2014-03-20 2015-09-24 Microsoft Corporation Switch-based Load Balancer
CN104461740A (zh) * 2014-12-12 2015-03-25 国家电网公司 一种跨域集群计算资源聚合和分配的方法
CN105991459A (zh) * 2015-02-15 2016-10-05 上海帝联信息科技股份有限公司 Cdn节点回源路由分配方法、装置和***
US20160306674A1 (en) * 2015-04-17 2016-10-20 Microsoft Technology Licensing, Llc Handling Tenant Requests in a System that Uses Acceleration Components
CN105574082A (zh) * 2015-12-08 2016-05-11 曙光信息产业(北京)有限公司 基于Storm的流处理方法及***
CN106921684A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 一种请求信息的处理方法和服务器
CN105786600A (zh) * 2016-02-02 2016-07-20 北京京东尚科信息技术有限公司 任务调度方法和装置
CN107085579A (zh) * 2016-02-16 2017-08-22 ***通信集团福建有限公司 一种数据采集分发方法及装置
CN106021484A (zh) * 2016-05-18 2016-10-12 中国电子科技集团公司第三十二研究所 基于内存计算的可定制多模式大数据处理***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
IBOWEN: ""5种必知的大数据处理框架技术"", 《HTTPS://WWW.CNBLOGS.COM/OC-BOWEN/P/6109009.HTML》 *
丁滟: ""开放式海量数据处理服务的计算完整性研究"", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307114A (zh) * 2019-07-31 2021-02-02 北京中关村科金技术有限公司 一种数据交换方法、装置以及存储介质
CN110336986A (zh) * 2019-08-08 2019-10-15 杭州阿启视科技有限公司 视频大数据云平台流媒体服务方法
CN111241180A (zh) * 2020-01-13 2020-06-05 中国建设银行股份有限公司 一种信息处理的方法、装置、设备及存储介质
CN113890876A (zh) * 2021-01-27 2022-01-04 贺鑫 一种基于微服务框架的综采工作面数据中台的节点管控方法
CN113434908A (zh) * 2021-08-30 2021-09-24 四川新网银行股份有限公司 一种基于Logback日志组件的数据脱敏方法
CN114579656A (zh) * 2022-05-07 2022-06-03 中建电子商务有限责任公司 一种对Mysql Binlog数据进行处理的方法
CN114579656B (zh) * 2022-05-07 2022-07-22 中建电子商务有限责任公司 一种对Mysql Binlog数据进行处理的方法
CN118170737A (zh) * 2024-05-11 2024-06-11 中移(苏州)软件技术有限公司 数据处理方法、装置及相关设备

Also Published As

Publication number Publication date
CN109726004B (zh) 2021-12-03

Similar Documents

Publication Publication Date Title
CN109643312B (zh) 托管查询服务
US11341131B2 (en) Query scheduling based on a query-resource allocation and resource availability
CN109726004A (zh) 一种数据处理方法及装置
US11442935B2 (en) Determining a record generation estimate of a processing task
US11599541B2 (en) Determining records generated by a processing task of a query
US11321321B2 (en) Record expansion and reduction based on a processing task in a data intake and query system
US20200364223A1 (en) Search time estimate in a data intake and query system
US20190258637A1 (en) Partitioning and reducing records at ingest of a worker node
US8909769B2 (en) Determining optimal component location in a networked computing environment
CN104601664B (zh) 一种云计算平台资源管理与虚拟机调度的控制***
WO2017167200A1 (en) Task scheduling and resource provisioning system and method
US9992269B1 (en) Distributed complex event processing
US9459897B2 (en) System and method for providing data analysis service in cloud environment
WO2013034798A1 (en) Method and apparatus for providing criticality based data backup
WO2013030436A1 (en) Method and apparatus for information clustering based on predictive social graphs
CN103677983B (zh) 应用的调度方法及装置
US11861386B1 (en) Application gateways in an on-demand network code execution system
Li et al. Improving the performance of distributed mxnet with rdma
Saravanakumar et al. An Efficient On-Demand Virtual Machine Migration in Cloud Using Common Deployment Model.
Huang et al. HCloud: A trusted JointCloud serverless platform for IoT systems with blockchain
US8627039B2 (en) Effective memory clustering to minimize page fault and optimize memory utilization
US11790103B2 (en) Adaptive data loss prevention
Gropengießer et al. Database backend as a service: automatic generation, deployment, and management of database backends for mobile applications
Peng et al. Research on cloud computing resources provisioning based on reinforcement learning
Somasundaram et al. An architectural framework to solve the interoperability issue between private clouds using semantic technology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant