CN108234566A - 一种集群的数据处理方法及装置 - Google Patents

一种集群的数据处理方法及装置 Download PDF

Info

Publication number
CN108234566A
CN108234566A CN201611193097.8A CN201611193097A CN108234566A CN 108234566 A CN108234566 A CN 108234566A CN 201611193097 A CN201611193097 A CN 201611193097A CN 108234566 A CN108234566 A CN 108234566A
Authority
CN
China
Prior art keywords
data
cluster
copied
task
attribute information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611193097.8A
Other languages
English (en)
Other versions
CN108234566B (zh
Inventor
李静
李炉阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201611193097.8A priority Critical patent/CN108234566B/zh
Publication of CN108234566A publication Critical patent/CN108234566A/zh
Application granted granted Critical
Publication of CN108234566B publication Critical patent/CN108234566B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/563Data redirection of data network streams

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本文公开了一种集群的数据处理方法及装置;上述集群的数据处理方法,包括:获取第一预定时长内多个集群上运行的任务的属性信息;根据获取的任务的属性信息,确定待复制数据以及需要复制待复制数据的目标集群,以便将待复制数据复制到目标集群。

Description

一种集群的数据处理方法及装置
技术领域
本发明涉及网络通信领域,尤其涉及一种集群的数据处理方法及装置。
背景技术
随着大数据时代的到来,数据业务蓬勃发展,存储规模和计算规模以井喷模式快速增长。但是,分布式***的集群所在的单机房物理机器容量都是有限制的,单机房物理机器的数量不可能无限增长,因此,出现了跨地域多机房多集群的格局。然而,多机房多集群之间互相通信、互相读取数据需要耗费巨大的网络带宽。
目前,在跨地域多机房场景下,当网络带宽遇到瓶颈时,网络运维人员一般会进行限流操作,或者是硬性增加网络带宽。然而,当进行限流操作时会导致集群的计算任务延迟,从而影响用户体验。另外,硬性增加网络带宽会导致增加成本。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本申请实施例提供一种集群的数据处理方法及装置,能够减少任务延迟,优化集群的网络流量。
本申请实施例提供一种集群的数据处理方法,包括:
获取第一预定时长内多个集群上运行的任务的属性信息;
根据获取的任务的属性信息,确定待复制数据以及需要复制所述待复制数据的目标集群,以便将所述待复制数据复制到所述目标集群。
其中,所述根据获取的任务的属性信息,确定待复制数据以及需要复制所述待复制数据的目标集群之后,所述数据处理方法还可以包括:
生成复制列表,所述复制列表用于记录所述待复制数据的位置信息、需要复制所述待复制数据的目标集群;
将所述复制列表写入元数据库,以便相关集群获取所述复制列表。
其中,所述数据处理方法还可以包括:
指示目标集群根据所述复制列表,复制所述待复制数据。
其中,所述获取第一预定时长内多个集群上运行的任务的属性信息,可以包括:周期性获取第一预定时长内多个集群上运行的任务的属性信息。
其中,每个任务的属性信息至少包括:运行所述任务的集群、所述任务所读取的数据所在的集群。
其中,所述根据获取的任务的属性信息,确定待复制数据以及需要复制所述待复制数据的目标集群,可以包括:
根据获取的任务的属性信息,从任务跨集群读取的数据中,筛选出符合预定条件的数据作为待复制数据。
其中,所述筛选出符合预定条件的数据作为待复制数据,可以包括:
筛选出第一参数值满足第一条件且第二参数值满足第二条件的数据作为待复制数据;
其中,针对每个任务跨集群读取的数据,所述第一参数值为在第二预定时长内运行所述任务的集群读取所述数据的次数;所述第二参数值为在第一预定时长内所述第一参数值满足第一条件的总次数或连续次数;所述第二预定时长小于所述第一预定时长;所述第一条件包括:所述第一参数值大于或等于第一阈值;所述第二条件包括:所述第二参数值大于或等于第二阈值。
本申请实施例还提供一种集群的数据处理装置,包括:
获取单元,用于获取第一预定时长内多个集群上运行的任务的属性信息;
处理单元,用于根据获取的任务的属性信息,确定待复制数据以及需要复制所述待复制数据的目标集群,以便将所述待复制数据复制到所述目标集群。
其中,所述处理单元,还可以用于在根据获取的任务的属性信息,确定待复制数据以及需要复制所述待复制数据的目标集群之后,生成复制列表,将所述复制列表写入元数据库,以便相关集群获取所述复制列表;其中,所述复制列表用于记录所述待复制数据的位置信息、需要复制所述待复制数据的目标集群。
其中,所述数据处理装置还可以包括:指示单元,用于指示目标集群根据所述复制列表,复制所述待复制数据。
其中,所述获取单元,可以用于周期性获取第一预定时长内多个集群上运行的任务的属性信息。
其中,每个任务的属性信息至少可以包括:运行所述任务的集群、所述任务所读取的数据所在的集群。
其中,所述处理单元,可以用于通过以下方式根据获取的任务的属性信息,确定待复制数据以及需要复制所述待复制数据的目标集群:
根据获取的任务的属性信息,从任务跨集群读取的数据中,筛选出符合预定条件的数据作为待复制数据。
其中,所述处理单元,可以用于通过以下方式筛选出符合预定条件的数据作为待复制数据:
筛选出第一参数值满足第一条件且第二参数值满足第二条件的数据作为待复制数据;
其中,针对每个任务跨集群读取的数据,所述第一参数值为在第二预定时长内运行所述任务的集群读取所述数据的次数;所述第二参数值为在第一预定时长内所述第一参数值满足第一条件的总次数或连续次数,所述第二预定时长小于所述第一预定时长;所述第一条件包括:所述第一参数值大于或等于第一阈值;所述第二条件包括:所述第二参数值大于或等于第二阈值。
本申请实施例还提供一种集群的数据处理装置,包括:存储器与处理器;
其中,存储器用于存储用于进行集群数据处理的程序;该用于进行集群数据处理的程序在被处理器读取执行时,执行以下操作:
获取第一预定时长内多个集群上运行的任务的属性信息;
根据获取的任务的属性信息,确定待复制数据以及需要复制所述待复制数据的目标集群,以便将所述待复制数据复制到所述目标集群。
本申请实施例还提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现上述的集群的数据处理方法。
在本申请实施例中,获取第一预定时长内多个集群上运行的任务的属性信息;根据获取的任务的属性信息,确定待复制数据以及需要复制待复制数据的目标集群,以便将待复制数据复制到目标集群。如此,通过数据复制,可以提升目标集群上运行的任务对待复制数据的访问速度;特别地,在实现跨集群数据复制后,可以减少任务执行过程中需要跨集群读取的数据量,从而优化集群的网络流量,减少任务延迟,提高用户体验,并降低成本。
当然,实施本申请的任一产品不一定需要同时达到以上所有优点。
在阅读并理解了附图和详细描述后,可以明白其他方面。
附图说明
图1为跨地域部署的集群的示意图;
图2为本申请实施例提供的集群的数据处理方法的流程图;
图3为应用本申请实施例提供的集群的数据处理方法的***架构的可选示意图;
图4为本申请实施例的示例流程图;
图5为本申请实施例中集群间的交互示意图;
图6为本申请实施例提供的集群的数据处理装置的示意图。
具体实施方式
以下结合附图对本申请实施例进行详细说明,应当理解,以下所说明的实施例仅用于说明和解释本申请,并不用于限定本申请。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
需要说明的是,如果不冲突,本申请实施例以及实施例中的各个特征可以相互结合,均在本申请的保护范围之内。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
一些实施方式中,执行集群的数据处理方法的计算设备可包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存(memory)。
内存可能包括计算机可读介质中的非永久性存储器、随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。内存可能包括模块1,模块2,……,模块N(N为大于2的整数)。
计算机可读介质包括永久性和非永久性、可移动和非可移动存储介质。存储介质可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM),快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
方法实施例
本实施例提供一种集群的数据处理方法。在本申请中,集群指位于同一机房内的一组设备集合。在对外交互时,一个集群可以看成是一个独立的设备。基于多个相互通信的集群可以搭建分布式***,比如多个相互通信的集群可以组建一个云计算***,一个分布式***在对外提供服务时也可以看成是一个独立的设备。
多个相互通信的集群可以跨地域部署,比如,部署在不同城市的机房。如图1所示,在城市A部署有集群C1,在城市B部署有集群C2,在城市C部署有集群C3,在城市D部署有集群C4。即,不同的集群部署在不同的城市。然而,本申请对此并不限定。在其他实现方式中,多个相互通信的集群也可以部署在同一城市的不同地点的机房。
如图1所示,这些集群之间互相通信、互相读取数据会产生网络流量。比如,集群C2上同一时间有多个任务都需要从集群C1读取同一份数据,极端情况下,集群C1和C2之间会产生流量洪峰。针对这个问题,可以将集群C2上运行的任务需要读取的数据事先从数据本身所在的源集群(比如,集群C1)复制过来,一次复制可以供集群C2上运行的任务进行多次读取。但是,如果不加限制地将所有数据都在每个集群复制一份,无疑会造成存储资源的极度冗余浪费,因此,本实施例提供一种集群的数据处理方法,用于确定将哪些数据分别复制到哪些集群,从而既不过度冗余存储资源,又降低网络流量。
如图2所示,本实施例提供的集群的数据处理方法,包括以下步骤:
步骤201:获取第一预定时长内多个集群上运行的任务的属性信息;
步骤202:根据获取的任务的属性信息,确定待复制数据以及需要复制待复制数据的目标集群,以便将待复制数据复制到目标集群。
其中,每个任务的属性信息可以至少包括:运行这个任务的集群、这个任务所读取的数据所在的集群。
比如,任务可以采用任务标识Dx记录,数据以数据表形式为例,可以用表标识Tx记录,集群可以采用集群标识Cx记录。以任务D1为例,属性信息可以包括:运行任务D1的集群为C1、任务D1所读取的数据表为T1、数据表T1所在的集群为C2。
其中,集群上运行的任务会读取相关数据(例如,从其他集群或本集群读取数据)进行处理,以得到输出数据,这个输出数据后续可以提供给本集群或其他集群上运行的其他任务使用。每个集群可以记录本集群上运行的每个任务的属性信息,例如存储在本集群的数据库中。
其中,集群记录的一个任务的属性信息可以形成一个记录行,集群可以记录本集群上运行的所有任务的属性信息,得到多个记录行,例如表1所示:
表1
应用本实施例的数据处理方法的一种***架构可以如图3所示,包括:多个集群(比如,集群C1、C2、C3以及C4)。其中,多个集群之间可以相互通信,相互读取数据。本实施例提供的数据处理方法可以应用于其中一个集群。如图3中,以集群C1作为控制集群,集群C2、C3以及C4作为计算集群,则集群C1可以用于执行本实施例提供的数据处理方法。然而,本申请对此并不限定。
以集群C1作为控制集群为例,集群C1在获取第一预定时长内多个集群上运行的任务的属性信息之后,可以根据获取的任务的属性信息,确定每个目标集群(可以包括集群C1至集群C4)需要复制的待复制数据,并向目标集群通知待复制数据的位置信息,如此,目标集群可以向存储待复制数据的源集群请求复制待复制数据,源集群在确认请求之后,将待复制数据发送给目标集群。或者,集群C1在确定每个目标集群需要复制的待复制数据之后,通知存储待复制数据的源集群将待复制数据发送给对应的目标集群。然而,本申请对此并不限定。
如图3所示,以集群C1需要复制的待复制数据为集群C2上的数据表T1为例,在集群C1完成对数据表T1的复制之后,集群C1上运行的任务需要读取数据表T1时,可以先判断本集群是否存储有数据表T1,若存在可以直接从本集群(比如,本集群的存储设备)读取数据表T1,无需再从集群C2读取数据表T1,从而降低集群间的网络流量。
需要说明的是,图3中仅以一个数据表T1为例进行绘示,然而,本申请对此并不限定。在实际应用中,集群C1从集群C2复制的数据表可以为多个,以实现一次数据复制供集群C2上运行的任务进行多次读取,从而降低集群间的网络流量。
一些实现方式中,在步骤202之后,本实施例提供的数据处理方法还可以包括:
生成复制列表,其中,复制列表用于记录待复制数据的位置信息、需要复制待复制数据的目标集群;
将复制列表写入元数据库,以便相关集群获取复制列表。
其中,元数据库用于存放元数据(Meta Date),元数据又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,可以为数据说明其元素或属性(名称、大小、数据类型等),或其结构(长度、字段、数据列),或其相关数据(位于何处、如何联系、拥有者)。
其中,以待复制数据为数据表的形式为例,复制列表可以包括待复制的数据表的表标识、待复制的数据表所在的源集群的集群标识、需要复制数据表的目标集群的集群标识。复制列表中包括的数据表所在的源集群可以相同或不同,目标集群也可以相同或不同。比如,复制列表可以如表2所示:
表2
数据表 源集群 目标集群
T1 C2 C1
T2 C1 C2
…… …… ……
本实现方式中,通过将复制列表写入元数据库,便于相关集群获取复制列表,进而相关集群可以根据复制列表确定自身需要复制的待复制数据,或者,确定需要复制给其他集群的数据。然而,本申请对此并不限定。一些实现方式中,还可以在生成复制列表之后,将复制列表同步给相关集群。
一些实现方式中,本实施例提供的数据处理方法还可以包括:
指示目标集群根据复制列表,复制待复制数据。
在本实现方式中,以控制集群执行本实施例的数据处理方法为例,在控制集群生成复制列表之后,可以通知相关集群进行待复制数据的复制。然而,本申请对此并不限定。在其他实现方式中,无需控制集群进行通知指示;相关集群在同步得到复制列表,或者,从元数据库读取到复制列表时,自动根据复制列表进行待复制数据的复制。
一些实现方式中,步骤201可以包括:周期性获取第一预定时长内多个集群上运行的任务的属性信息。换言之,本实施例提供的数据处理方法可以周期性执行。比如,可以设置在每天的固定时刻执行步骤201和步骤202,从而实现对集群所需复制的数据进行周期性更新。其中,当本实施例的数据处理方法周期性执行时,在每个周期生成复制列表写入元数据库时,可以用本周期生成的复制列表替换前一周期生成的复制列表,以减少复制列表占用的存储空间。
一些实现方式中,步骤202可以包括:
根据获取的任务的属性信息,从任务跨集群读取的数据中,筛选出符合预定条件的数据作为待复制数据。
一些实现方式中,筛选出符合预定条件的数据作为待复制数据,可以包括:筛选出第一参数值满足第一条件且第二参数值满足第二条件的数据作为待复制数据;
其中,针对每个任务跨集群读取的数据,第一参数值为在第二预定时长内运行此任务的集群读取这个数据的次数;第二参数值为在第一预定时长内第一参数值满足第一条件的总次数或连续次数;第二预定时长小于第一预定时长;第一条件包括:第一参数值大于或等于第一阈值,第二条件包括:第二参数值大于或等于第二阈值。
其中,针对一个任务跨集群读取的数据,第二预定时长内运行这个任务的集群读取这个数据的次数可以包括:第二预定时长内在这个集群上运行的全部任务读取这个数据的次数。比如,针对任务D1(任务D1在集群C1上运行)跨集群读取的数据表T1,第一参数值可以为第二预定时长内集群C1上运行的全部任务(比如,包括任务D1、D2、D3等)读取数据表T1的总次数。
其中,在一个集群上运行的任务读取存储在本集群上的数据可以认为不消耗带宽流量。因此,本实现方式中,可以先从获取的任务的属性信息中筛选出跨集群读取数据的任务,然后,根据筛选出的任务需要跨集群读取的数据,进行待复制数据的筛选。
一些实现方式中,第一预定时长可以大于或等于多个第二预定时长之和。比如,第一预定时长为15天,第二预定时长为1天,第二参数值可以为在15天内一个集群有10天每天运行的任务跨集群读取同一份数据的次数大于第一阈值,此时,第二参数值为10次;或者,第二参数值可以为在15天内一个集群连续有8天每天运行的任务跨集群读取同一份数据的次数大于第一阈值,此时,第二参数值为8次。然而,本申请对于第一预定时长和第二预定时长的单位并不限定。在其他实现方式中,第一预定时长和第二预定时长的单位也可以采用小时。
其中,第一阈值和第二阈值可以是预设的次数,或者可以采用机器学习算法通过对历史信息的学习来确定。
一些实现方式中,第一条件可以包括:第一参数值大于或等于第一预定值且小于或等于第二预定值,第二条件可以包括:第二参数值大于或等于第三预定值且小于或等于第四预定值。即,通过第一条件可以筛选出满足一定范围的第一参数值,通过第二条件可以筛选出满足一定范围的第二参数值。其中,第一预定值、第二预定值、第三预定值以及第四预定值可以是根据需要预设的次数,或者采用机器学习算法通过对历史信息的学习来确定。
需要说明的是,在执行步骤202时,可以先针对一个集群涉及的需要跨集群读取的数据,计算第一参数值和第二参数值,再判断第一参数值是否满足第一条件、第二参数值是否满足第二条件,之后再处理另一个集群涉及的需要跨集群读取的数据,进而确定所有集群的待复制数据;或者,也可以先针对所有集群涉及的需要跨集群读取的数据,计算第一参数值,判断第一参数值是否满足第一条件,筛选出第一参数值满足第一条件的所有数据后,再针对这些筛选出的数据计算第二参数值,判断第二参数值是否满足第二条件,从第一参数值满足第一条件的数据中筛选出第二参数值满足第二条件的数据,以确定所有集群的待复制数据。
一些实现方式中,可以根据第一预定时长内多个集群上运行的任务的属性信息,确定第一预定时长内,每个任务对每份数据的读取次数、任务所读取数据所在的集群、运行任务的集群,并将这些信息记录在复制列表中;在根据复制列表进行数据复制时,才从复制列表中筛选出满足预定条件的数据作为待复制数据,并确定待复制数据的源集群和目标集群。其中,进行数据筛选的过程可以参照上一实现方式中步骤202的实现过程,故于此不再赘述。
一些实现方式中,本实施例的多个集群属于ODPS(Open Data ProcessingService,开放数据处理服务)集群,元数据库可以为OTS(Open Table Service,开放结构化数据服务)元数据库。其中,ODPS为一种分布式计算框架***,类似于Hadoop;OTS为一种数据存储容器,或者说是数据库。
下面参见图4,对本实施例的集群的数据处理方法进行举例说明。
以ODPS集群为例,数据采用数据表的形式进行记录,ODPS集群记录其上运行的每个任务的属性信息,例如可以包括:任务本身运行所在的集群的标识、任务读取的数据表的表标识、数据表本身所在的集群的标识、以及数据表的最后修改时间。
如图4所示,本实施例的数据处理方法可以包括以下步骤:
步骤401:根据ODPS集群在最近N天(如前述的第一预定时长,例如N为15天)内运行的每个任务的属性信息,筛选出需要跨集群读取数据表的任务,过滤掉在本集群上读取数据表的任务,并确定跨集群读取的数据表;由于读本集群上的数据表可以认为不消耗带宽流量,因此,筛选过程即为确定消耗带宽流量的任务。
步骤402:针对为每个集群确定的每个数据表,计算M天(如前述的第二预定时长,M小于N,例如,M为1天)内这个集群(比如,集群C1)上运行的全部任务读取同一张数据表的次数(即前述的第一参数值);
步骤403:筛选出次数大于第一阈值的数据表,比如通过筛选可以确定集群C1对数据表T1的读取次数大于第一阈值;
步骤404:统计最近N天内这个集群上每天运行的任务的属性信息,确定这个集群上运行的任务在N天内对数据表的跨集群读取情况;
步骤405:如果这个集群上运行的全部任务连续X(X小于或等于N)天每天对同一张数据表的读取总次数都大于第一阈值,且X大于或等于第二阈值,则确定这张数据表需要被复制到这个集群上,即将这张数据表所在的集群信息以及需要复制这张数据表的集群信息写入复制列表。
比如,如图5所示,集群C2上运行的任务在一天(第二预定时长)内有5次(第一参数值)以上读取集群C1上的数据表t1,以第一参数值(5次)大于或等于第一阈值(例如为3次)为例,那么数据表t1应该被考虑复制到集群C2上。然后,统计最近15天(第一预定时长)的数据,如果集群C2上运行的任务有10天(第二参数值)以上每天都有5次以上读取数据表t1,以第二参数值大于或等于第二阈值(例如,小于或等于10)为例,此时,确定数据表t1需要被复制到集群C2上。例如,复制列表中可以写入:待复制数据表t1、源集群C1、目标集群C2。在根据复制列表进行数据复制之后,集群C2上运行的任务需要读取数据表t1时,可以先判断集群C2上是否存在数据表t1,由于数据表t1已复制到集群C2,因此,集群C2上运行的任务可以直接读取数据表t1,无需跨集群读取数据,从而降低跨集群网络流量。
同样地,针对每个集群都可以周期性进行上述计算过程,并将确定的需要复制的数据表写入复制列表,以便后续根据复制列表进行数据复制过程。
综上所述,本实施例根据集群上运行的任务的属性信息,确定需要将哪些数据分别复制到哪些集群,从而实现不过度冗余存储资源,同时达到降低网络流量的目的。相较于相关技术,本实施例不会导致任务延迟,不会影响用户体验,而且不会增加带宽成本。
装置实施例
本实施例提供一种集群的数据处理装置,如图6所示,包括:获取单元601和处理单元602;其中,获取单元601,用于获取第一预定时长内多个集群上运行的任务的属性信息;处理单元602,用于根据获取的任务的属性信息,确定待复制数据以及需要复制待复制数据的目标集群,以便将待复制数据复制到目标集群。
其中,每个任务的属性信息至少可以包括:运行这个任务的集群、这个任务所读取的数据所在的集群。
本实施例中,获取单元601是上述装置中负责信息获取的部分,可以是软件、硬件或两者的结合。
本实施例中,处理单元602是上述装置中负责数据处理的部分,可以是软件、硬件或两者的结合。
一些实现方式中,处理单元602,还可以用于在根据获取的任务的属性信息,确定待复制数据以及需要复制待复制数据的目标集群之后,生成复制列表,将复制列表写入元数据库,以便相关集群获取复制列表;其中,复制列表用于记录待复制数据的位置信息、需要复制待复制数据的目标集群。
一些实现方式中,本实施例的数据处理装置还可以包括:指示单元,用于指示目标集群根据复制列表,复制待复制数据。
一些实现方式中,获取单元601,可以用于周期性获取第一预定时长内多个集群上运行的任务的属性信息。
一些实现方式中,处理单元602,可以用于通过以下方式根据获取的任务的属性信息,确定待复制数据以及需要复制待复制数据的目标集群:
根据获取的任务的属性信息,从任务跨集群读取的数据中,筛选出符合预定条件的数据作为待复制数据。
一些实现方式中,处理单元602可以用于通过以下方式筛选出符合预定条件的数据作为待复制数据:
筛选出第一参数值满足第一条件且第二参数值满足第二条件的数据作为待复制数据;
其中,针对每个任务跨集群读取的数据,第一参数值为在第二预定时长内运行这个任务的集群读取这个数据的次数;第二参数值为在第一预定时长内第一参数值满足第一条件的总次数或连续次数;第二预定时长小于第一预定时长;第一条件包括:第一参数值大于或等于第一阈值;第二条件包括:第二参数值大于或等于第二阈值。
一些实现方式中,本实施例的多个集群属于ODPS集群。
关于本实施例的数据处理装置中各个单元所执行的操作的其它细节可以参见实施例一,故于此不再赘述。
此外,本申请实施例还提供一种集群的数据处理装置,包括:存储器与处理器;其中,存储器用于存储用于进行集群数据处理的程序;该用于进行集群数据处理的程序在被处理器读取执行时,执行以下操作:
获取第一预定时长内多个集群上运行的任务的属性信息;
根据获取的任务的属性信息,确定待复制数据以及需要复制待复制数据的目标集群,以便将待复制数据复制到目标集群。
其中,每个任务的属性信息至少可以包括:运行这个任务的集群、这个任务所读取的数据所在的集群。
一些实现方式中,在根据获取的任务的属性信息,确定待复制数据以及需要复制待复制数据的目标集群之后,生成复制列表,将复制列表写入元数据库,以便相关集群获取复制列表;其中,复制列表用于记录待复制数据的位置信息、需要复制待复制数据的目标集群。
一些实现方式中,在生成复制列表之后,指示目标集群根据复制列表,复制待复制数据。
一些实现方式中,周期性获取第一预定时长内多个集群上运行的任务的属性信息。
一些实现方式中,通过以下方式根据获取的任务的属性信息,确定待复制数据以及需要复制待复制数据的目标集群:
根据获取的任务的属性信息,从任务跨集群读取的数据中,筛选出符合预定条件的数据作为待复制数据。
一些实现方式中,可以通过以下方式筛选出符合预定条件的数据作为待复制数据:筛选出第一参数值满足第一条件且第二参数值满足第二条件的数据作为待复制数据;
其中,针对任务跨集群读取的每个数据,第一参数值为在第二预定时长内运行这个任务的集群读取这个数据的次数;第二参数值为在第一预定时长内第一参数值满足第一条件的总次数或连续次数;第二预定时长小于第一预定时长;第一条件包括:第一参数值大于或等于第一阈值;第二条件包括:第二参数值大于或等于第二阈值。
一些实现方式中,多个集群属于ODPS集群。
本实施例中,用于进行集群数据处理的程序在被处理器读取执行时,所执行的操作对应于实施例一中的步骤201和步骤202;该程序所执行的操作的其它细节可参见实施例一,故于此不再赘述。
此外,本申请实施例还提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现上述集群的数据处理方法。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器)完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,例如通过集成电路来实现其相应功能,也可以采用软件功能模块的形式实现,例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本申请不限制于任何特定形式的硬件和软件的结合。
以上显示和描述了本申请的基本原理和主要特征和本申请的优点。本申请不受上述实施例的限制,上述实施例和说明书中描述的只是说明本申请的原理,在不脱离本申请精神和范围的前提下,本申请还会有各种变化和改进,这些变化和改进都落入要求保护的本申请范围内。

Claims (11)

1.一种集群的数据处理方法,其特征在于,包括:
获取第一预定时长内多个集群上运行的任务的属性信息;
根据获取的任务的属性信息,确定待复制数据以及需要复制所述待复制数据的目标集群,以便将所述待复制数据复制到所述目标集群。
2.根据权利要求1所述的集群的数据处理方法,其特征在于,所述根据获取的任务的属性信息,确定待复制数据以及需要复制所述待复制数据的目标集群之后,所述数据处理方法还包括:
生成复制列表,所述复制列表用于记录所述待复制数据的位置信息、需要复制所述待复制数据的目标集群;
将所述复制列表写入元数据库,以便相关集群获取所述复制列表。
3.根据权利要求2所述的集群的数据处理方法,其特征在于,所述数据处理方法还包括:指示目标集群根据所述复制列表,复制所述待复制数据。
4.根据权利要求1所述的集群的数据处理方法,其特征在于,所述获取第一预定时长内多个集群上运行的任务的属性信息,包括:周期性获取第一预定时长内多个集群上运行的任务的属性信息。
5.根据权利要求1所述的集群的数据处理方法,其特征在于,每个任务的属性信息至少包括:运行所述任务的集群、所述任务所读取的数据所在的集群。
6.根据权利要求1所述的集群的数据处理方法,其特征在于,所述根据获取的任务的属性信息,确定待复制数据以及需要复制所述待复制数据的目标集群,包括:
根据获取的任务的属性信息,从任务跨集群读取的数据中,筛选出符合预定条件的数据作为待复制数据。
7.根据权利要求6所述的集群的数据处理方法,其特征在于,所述筛选出符合预定条件的数据作为待复制数据,包括:
筛选出第一参数值满足第一条件且第二参数值满足第二条件的数据作为待复制数据;
其中,针对每个任务跨集群读取的数据,所述第一参数值为在第二预定时长内运行所述任务的集群读取所述数据的次数;所述第二参数值为在第一预定时长内所述第一参数值满足第一条件的总次数或连续次数;所述第二预定时长小于所述第一预定时长;所述第一条件包括:所述第一参数值大于或等于第一阈值;所述第二条件包括:所述第二参数值大于或等于第二阈值。
8.一种集群的数据处理装置,其特征在于,包括:
获取单元,用于获取第一预定时长内多个集群上运行的任务的属性信息;
处理单元,用于根据获取的任务的属性信息,确定待复制数据以及需要复制所述待复制数据的目标集群,以便将所述待复制数据复制到所述目标集群。
9.根据权利要求8所述的集群的数据处理装置,其特征在于,所述处理单元,还用于在根据获取的任务的属性信息,确定待复制数据以及需要复制所述待复制数据的目标集群之后,生成复制列表,将所述复制列表写入元数据库,以便相关集群获取所述复制列表;其中,所述复制列表用于记录所述待复制数据的位置信息、需要复制所述待复制数据的目标集群。
10.根据权利要求8所述的集群的数据处理装置,其特征在于,所述处理单元,用于通过以下方式根据获取的任务的属性信息,确定待复制数据以及需要复制所述待复制数据的目标集群:
根据获取的任务的属性信息,从任务跨集群读取的数据中,筛选出符合预定条件的数据作为待复制数据。
11.一种集群的数据处理装置,其特征在于,包括:存储器与处理器;
其中,存储器用于存储用于进行集群数据处理的程序;该用于进行集群数据处理的程序在被处理器读取执行时,执行以下操作:
获取第一预定时长内多个集群上运行的任务的属性信息;
根据获取的任务的属性信息,确定待复制数据以及需要复制所述待复制数据的目标集群,以便将所述待复制数据复制到所述目标集群。
CN201611193097.8A 2016-12-21 2016-12-21 一种集群的数据处理方法及装置 Active CN108234566B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611193097.8A CN108234566B (zh) 2016-12-21 2016-12-21 一种集群的数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611193097.8A CN108234566B (zh) 2016-12-21 2016-12-21 一种集群的数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN108234566A true CN108234566A (zh) 2018-06-29
CN108234566B CN108234566B (zh) 2021-04-23

Family

ID=62655862

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611193097.8A Active CN108234566B (zh) 2016-12-21 2016-12-21 一种集群的数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN108234566B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110290166A (zh) * 2019-05-05 2019-09-27 平安科技(深圳)有限公司 跨集群数据交互方法、***、装置及可读存储介质
CN111258985A (zh) * 2020-01-17 2020-06-09 中国工商银行股份有限公司 数据集群迁移方法及装置
CN111586097A (zh) * 2020-04-01 2020-08-25 车智互联(北京)科技有限公司 一种网络请求处理方法、计算设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092891A (zh) * 2011-11-08 2013-05-08 ***通信集团四川有限公司 分布式文件存储***及其实现方法
CN103718166A (zh) * 2011-08-02 2014-04-09 索尼公司 信息处理设备、信息处理方法和计算机程序产品
CN103744734A (zh) * 2013-12-24 2014-04-23 中国科学院深圳先进技术研究院 一种任务作业处理方法、装置及***
US20140237184A1 (en) * 2005-04-29 2014-08-21 Netapp, Inc. System and method for multi-tiered meta-data caching and distribution in a clustered computer environment
CN104239493A (zh) * 2014-09-09 2014-12-24 北京京东尚科信息技术有限公司 跨集群数据迁移方法和***
CN106034160A (zh) * 2015-03-19 2016-10-19 阿里巴巴集团控股有限公司 分布式计算***和方法
CN106170010A (zh) * 2016-05-23 2016-11-30 北京畅游天下网络技术有限公司 一种跨服务器集群的数据处理方法及装置
CN106209963A (zh) * 2016-05-27 2016-12-07 北京畅游天下网络技术有限公司 一种mmorpg游戏中的实现对象传送的方法、服务器和集群

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140237184A1 (en) * 2005-04-29 2014-08-21 Netapp, Inc. System and method for multi-tiered meta-data caching and distribution in a clustered computer environment
CN103718166A (zh) * 2011-08-02 2014-04-09 索尼公司 信息处理设备、信息处理方法和计算机程序产品
CN103092891A (zh) * 2011-11-08 2013-05-08 ***通信集团四川有限公司 分布式文件存储***及其实现方法
CN103744734A (zh) * 2013-12-24 2014-04-23 中国科学院深圳先进技术研究院 一种任务作业处理方法、装置及***
CN104239493A (zh) * 2014-09-09 2014-12-24 北京京东尚科信息技术有限公司 跨集群数据迁移方法和***
CN106034160A (zh) * 2015-03-19 2016-10-19 阿里巴巴集团控股有限公司 分布式计算***和方法
CN106170010A (zh) * 2016-05-23 2016-11-30 北京畅游天下网络技术有限公司 一种跨服务器集群的数据处理方法及装置
CN106209963A (zh) * 2016-05-27 2016-12-07 北京畅游天下网络技术有限公司 一种mmorpg游戏中的实现对象传送的方法、服务器和集群

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王巍: "《一种基于SQL语句分发请求的复制算法》", 《电子技术应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110290166A (zh) * 2019-05-05 2019-09-27 平安科技(深圳)有限公司 跨集群数据交互方法、***、装置及可读存储介质
CN110290166B (zh) * 2019-05-05 2023-04-18 平安科技(深圳)有限公司 跨集群数据交互方法、***、装置及可读存储介质
CN111258985A (zh) * 2020-01-17 2020-06-09 中国工商银行股份有限公司 数据集群迁移方法及装置
CN111586097A (zh) * 2020-04-01 2020-08-25 车智互联(北京)科技有限公司 一种网络请求处理方法、计算设备及存储介质

Also Published As

Publication number Publication date
CN108234566B (zh) 2021-04-23

Similar Documents

Publication Publication Date Title
CN106453492B (zh) 基于模糊模式识别的Docker容器云平台下的容器调度方法
CN109495318B (zh) 一种移动通信网络流量预测方法、装置及可读存储介质
CN103873498B (zh) 云平台资源自适应预警方法与***
CN104869140B (zh) 多集群***和控制多集群***的数据存储的方法
CN105608203A (zh) 一种基于Hadoop平台的物联网日志处理方法和装置
CN103605585B (zh) 一种基于数据发现的智能备份方法
CN107729219B (zh) 基于超融合存储***的资源监控方法、装置及终端
CN104615606A (zh) 一种Hadoop分布式文件***及其管理方法
CN105706086A (zh) 用于获取、存储和消费大规模数据流的管理服务
CN105700948A (zh) 一种用于在集群中调度计算任务的方法与设备
CN110019255A (zh) 数据查询方法、装置、服务器及存储介质
CN108234566A (zh) 一种集群的数据处理方法及装置
CN106161525A (zh) 一种多集群管理方法与设备
CN111343037B (zh) 云平台负载按应用的流量监控方法、装置、计算机设备
CN103631967B (zh) 一种带自增量标识字段的数据表的处理方法及装置
CN109521943A (zh) 云数据库实例的分配方法及相关产品
CN109510852A (zh) 灰度发布的方法及装置
CN110457182A (zh) 一种负载均衡集群实例运行指标监控***
CN108985067A (zh) 基于自动化回溯的内容处理方法和装置
CN106570005A (zh) 清理数据库的方法和装置
CN111010424A (zh) 一种基于区块链的网络投票方法及设备、介质
CN109426439A (zh) 对分布式存储***进行扩容的方法及装置
CN110019083A (zh) 分布式文件***的存储方法、装置、电子设备及存储介质
CN114036410A (zh) 数据存储、查询方法、设备、***、程序及介质
US9639538B2 (en) Embedding archived data in a data source

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant