CN113296913A - 基于单集群的数据处理方法、装置、设备及存储介质 - Google Patents

基于单集群的数据处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113296913A
CN113296913A CN202110575939.0A CN202110575939A CN113296913A CN 113296913 A CN113296913 A CN 113296913A CN 202110575939 A CN202110575939 A CN 202110575939A CN 113296913 A CN113296913 A CN 113296913A
Authority
CN
China
Prior art keywords
target
data processing
cluster
task
scheduling system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110575939.0A
Other languages
English (en)
Inventor
吴辰侣
刘明鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weikun Shanghai Technology Service Co Ltd
Original Assignee
Weikun Shanghai Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weikun Shanghai Technology Service Co Ltd filed Critical Weikun Shanghai Technology Service Co Ltd
Priority to CN202110575939.0A priority Critical patent/CN113296913A/zh
Publication of CN113296913A publication Critical patent/CN113296913A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种基于单集群的数据处理方法、装置、设备及存储介质,该方法包括:获取至少两个数据处理任务,并基于各数据处理任务确定用于调度各数据处理任务的调度***,其中,所述至少两个数据处理任务中包括至少两种任务类型的数据处理任务,一种任务类型的数据处理任务对应一个调度***。当接收到至少两个数据处理任务中的目标数据处理任务的处理请求时,根据目标数据处理任务的任务类型确定用于调度目标数据处理任务的目标调度***。基于目标调度***将目标数据处理任务调度至目标集群的目标集群资源中,以通过目标集群资源执行目标数据处理任务。采用本申请,可以降低大数据集群的开发与维护成本、操作简单、适用性高。

Description

基于单集群的数据处理方法、装置、设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种基于单集群的数据处理方法、装置、设备及存储介质。
背景技术
随着数据库技术的发展和应用,数据库存储的数据量从兆字节过渡到现在的千兆兆字节,同时用户的查询需求也越来越复杂,而且要对多张表中千万条记录的数据进行数据分析和信息综合,即联机分析处理(Online Analytical Processing,OLAP),它是数据仓库***最主要的应用。而ETL(即Extract Transform Load)大数据任务,即数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)则是构建数据仓库重要的一环。在将ETL大数据任务发布至大数据集群时,如果现有的ETL任务存在漏洞则会对线上数据造成很大影响。
本申请的发明人在研究和实践的过程中发现,在现有技术中为了不破坏ETL大数据任务中的原有数据,通常会准备一套与生产配置一样的预发集群,以在预发集群上进行相关的算法调试优化。但是在一般的调试优化算法时,企业只有一套大数据生产集群资源(包括计算资源以及存储资源),而重新配置一套大数据集群资源的成本以及运维成本非常昂贵,且操作复杂。
发明内容
本申请实施例提供一种基于单集群的数据处理方法、装置、设备及存储介质,可以降低大数据集群的开发与维护成本、操作简单、适用性高。
本申请实施例第一方面提供了一种基于单集群的数据处理方法,包括:
获取至少两个数据处理任务,并基于各数据处理任务确定用于调度上述各数据处理任务的调度***,其中,上述至少两个数据处理任务中包括至少两种任务类型的数据处理任务,一种任务类型的数据处理任务对应一个调度***,一个调度***关联目标集群中的一种集群资源,上述集群资源用于执行数据处理任务;
当接收到上述至少两个数据处理任务中的目标数据处理任务的处理请求时,基于所述处理请求确定所述目标数据处理任务的任务类型,并根据上述目标数据处理任务的任务类型确定用于调度上述目标数据处理任务的目标调度***;
基于上述目标调度***将上述目标数据处理任务调度至上述目标集群的目标集群资源中,以通过上述目标集群资源执行上述目标数据处理任务;
通过上述目标集群资源将执行上述目标数据处理任务得到的响应数据存储至目标数据库。
结合第一方面,在一种可能的实施方式中,上述获取至少两个数据处理任务之前,上述方法还包括:
从目标集群中确定出至少两种集群资源,并建立上述至少两种集群资源中各集群资源与至少两个调度***的关联,其中,一种集群资源关联一个调度***。
结合第一方面,在一种可能的实施方式中,上述建立上述至少两种集群资源中各集群资源与至少两种调度***的关联包括:
基于至少两个调度***中各调度***的调度***标识,将上述各调度***的调度***标识与上述目标集群中的各集群资源进行关联以建立各集群资源与各调度***的关联;
其中,一个调度***的调度***标识与上述目标集群中的一种集群资源关联。
结合第一方面,在一种可能的实施方式中,上述处理请求中携带上述目标数据处理任务的目标任务标识;上述基于所述处理请求确定所述目标数据处理任务的任务类型包括:
基于上述处理请求中携带的上述目标任务标识确定上述目标数据处理任务的任务类型,其中,上述目标数据处理任务的任务类型包括调试、工作或者测试中的一种。
结合第一方面,在一种可能的实施方式中,上述基于上述目标调度***将上述目标数据处理任务调度至上述目标集群的目标集群资源中,包括:
基于上述目标调度***的调度***标识确定上述目标集群中目标集群资源对应的资源参数;
将上述目标集群资源对应的资源参数配置到上述目标调度***中,以基于上述目标调度***将上述目标数据处理任务调度至上述目标集群的目标集群资源中。
结合第一方面,在一种可能的实施方式中,上述基于上述目标调度***的调度***标识确定上述目标集群中目标集群资源对应的资源参数,包括:
基于上述目标调度***的调度***标识确定上述目标调度***关联的目标集群中的目标集群资源,并基于上述目标集群中的目标集群资源确定上述目标集群资源对应的资源参数;
其中,上述目标集群资源包括存储资源和/或计算资源。
第二方面,本申请提供了一种数据处理装置,上述装置包括:
获取模块,用于获取至少两个数据处理任务,并基于各数据处理任务确定用于调度上述各数据处理任务的调度***,其中,上述至少两个数据处理任务中包括至少两种任务类型的数据处理任务,一种任务类型的数据处理任务对应一个调度***,一个调度***关联目标集群中的一种集群资源,上述集群资源用于执行数据处理任务;
第一确定模块,用于当接收到上述至少两个数据处理任务中的目标数据处理任务的处理请求时,基于所述处理请求确定所述目标数据处理任务的任务类型,并根据上述目标数据处理任务的任务类型确定用于调度上述目标数据处理任务的目标调度***;
第一调度模块,用于基于上述目标调度***将上述目标数据处理任务调度至上述目标集群的目标集群资源中,以通过上述目标集群资源执行上述目标数据处理任务;
第一存储模块,用于通过上述目标集群资源将执行上述目标数据处理任务得到的响应数据存储至目标数据库。
结合第二方面,在一种可能的实施方式中,上述装置还包括:
第二确定模块,用于从目标集群中确定出至少两种集群资源,并建立上述至少两种集群资源中各集群资源与至少两个调度***的关联,其中,一种集群资源关联一个调度***。
结合第二方面,在一种可能的实施方式中,上述装置还包括:
关联模块,用于基于至少两个调度***中各调度***的调度***标识,将上述各调度***的调度***标识与上述目标集群中的各集群资源进行关联以建立各集群资源与各调度***的关联;
其中,一个调度***的调度***标识与上述目标集群中的一种集群资源关联。
结合第二方面,在一种可能的实施方式中,上述处理请求中携带上述目标数据处理任务的目标任务标识;上述装置还包括:
第三确定模块,用于基于上述处理请求中携带的目标任务标识确定上述目标数据处理任务的任务类型,其中,上述目标数据处理任务的任务类型包括调试、工作或者测试中的一种。
结合第二方面,在一种可能的实施方式中,上述装置还包括:
第四确定模块,用于基于上述目标调度***的调度***标识确定上述目标集群中目标集群资源对应的资源参数;
上述第一调度模块,还用于:
将上述目标集群资源对应的资源参数配置到上述目标调度***中,以基于上述目标调度***将上述目标数据处理任务调度至上述目标集群的目标集群资源中。
结合第二方面,在一种可能的实施方式中,上述第四确定模块还用于:
基于上述目标调度***的调度***标识确定上述目标调度***关联的目标集群中的目标集群资源,并基于上述目标集群中的目标集群资源确定上述目标集群资源对应的资源参数;
其中,上述目标集群资源包括存储资源和/或计算资源。
第三方面,本申请提供了一种计算机设备,包括:处理器、存储器以及网络接口;
上述存储器用于存储程序代码,上述处理器用于调用上述程序代码,以执行本申请中上述第一方面以及第一方面中任一种可能的实施方式所执行的方法。
第四方面,本申请提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被处理器执行时,执行本申请中上述第一方面以及第一方面中任一种可能的实施方式所执行的方法。
在本申请中,通过获取至少两个数据处理任务,并基于各数据处理任务确定用于调度所述各数据处理任务的调度***,其中,上述至少两个数据处理任务中包括至少两种任务类型的数据处理任务,一个调度***关联目标集群中的一种集群资源。当接收到上述至少两个数据处理任务中的目标数据处理任务的处理请求时,根据上述目标数据处理任务的任务类型确定用于调度上述目标数据处理任务的目标调度***。并基于上述目标调度***将上述目标数据处理任务调度至上述目标集群的目标集群资源中,以通过上述目标集群资源执行上述目标数据处理任务。最后通过上述目标集群资源将执行上述目标数据处理任务得到的响应数据存储至目标数据库。采用本方案,可以在一个大数据集群中划分出集群资源,以针对不同的数据处理任务使用对应的目标调度***将目标数据处理任务调度至目标集群资源中进行任务执行,从而实现一份代码在单个大数据集群中对不同的数据处理任务(调试、工作或者测试等)进行任务执行,降低了大数据集群的开发与维护成本、操作简单、适用性高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的网络架构示意图;
图2是本申请实施例提供的基于单集群的数据处理方法的场景示意图;
图3是本申请实施例提供的基于单集群的数据处理方法的流程示意图;
图4是本申请实施例提供的基于单集群的数据处理方法的另一流程示意图;
图5是本申请实施例提供的基于单集群的数据处理方法装置的一结构示意图;
图6是本申请提供的基于单集群的数据处理方法装置的另一结构示意图;
图7是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的基于单集群的数据处理方法属于计算机技术领域下属的云技术(Cloud Technology,CT)。云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现大数据的计算、储存、处理和共享的一种托管技术。可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络***的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台***进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的***后盾支撑,只能通过云计算来实现。
其中,大数据(Big Data,BD)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件***、分布式数据库、云计算平台、互联网和可扩展的存储***。数据库(Database,DB),简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。
图1是本申请实施例提供的一种网络架构图。如图1所示,该网络架构可以包括业务服务器1000以及后台服务器集群,其中,上述后台服务器集群可以包括多个后台服务器,如图1所示,具体可以包括后台服务器100a、后台服务器100b、后台服务器100c、…、后台服务器100n。如图1所示,后台服务器100a、后台服务器100b、后台服务器100c、…、后台服务器100n可以分别与上述业务服务器1000进行网络连接,以便于每个后台服务器可以通过该网络连接与业务服务器1000进行数据交互,以便于上述每个后台服务器1000可以接收到来自于业务服务器的业务数据。
如图1所示的业务服务器1000可以与多个用户终端相对应,可以用于存储对应的用户终端的业务数据。每个用户终端均可以集成安装有目标应用,当该目标应用运行于各用户终端中时,则每个用户终端对应的业务服务器可以对应用中的业务数据进行存储,并与上述图1所示的后台服务器(后台服务器100a、后台服务器100b、后台服务器100c、…、后台服务器100n)之间进行数据交互。可选的,该目标应用可以包括具有展示文字、图像以及视频等数据信息功能的应用。例如,该目标应用可以为库存管理应用,可以用于用户上传初始的库存数据,将上述库存数据进行数据处理后,从目标数据库中获取处理后的库存数据并进行后续操作。或者该目标应用也可以为用户画像管理应用,可以用于管理人员上传用户画像的初始数据,将上述用户画像的初始数据进行数据处理后,从目标数据库中获取带有用户标签的用户画像数据并进行后续的营销策划。本申请中的业务服务器1000可以收集到这些应用上传的图像或文字等业务数据,并将上述业务数据通过网络连接传给各后台服务器进行数据处理。可选的,这里的后台服务器可以为在上述图1所对应的后头服务器集群中所选取的任意一个后台服务器,比如,该后台服务器可以为上述后台服务器100a,则后台服务器100a可以至少两个数据处理任务,并基于各数据处理任务确定用于调度上述各数据处理任务的调度***。其中,上述至少两个数据处理任务中包括至少两种任务类型的数据处理任务,一种任务类型的数据处理任务对应一个调度***,一个调度***关联目标集群中的一种集群资源。上述目标集群可以为搭建在上述后台服务器集群中的大数据集群,其中,上述后台服务器集群可以包括多个后台服务器,如图1所示,具体可以包括后台服务器100a、后台服务器100b、后台服务器100c、…、后台服务器100n。当后台服务器100a接收到上述至少两个数据处理任务中的目标数据处理任务的处理请求时,根据上述目标数据处理任务的任务类型确定用于调度上述目标数据处理任务的目标调度***。基于上述目标调度***将上述目标数据处理任务调度至上述目标集群的目标集群资源中,以通过上述目标集群资源执行上述目标数据处理任务。其中,这里的集群资源可以包括用于执行调试任务的集群资源、执行工作任务的集群资源以及执行测试任务的集群资源等,其中上述执行调试任务的集群资源、执行工作任务的集群资源以及执行测试任务的集群资源中分别又可以包括计算资源以及存储资源等。最后通过上述目标集群资源将执行上述目标数据处理任务得到的响应数据存储至目标数据库,随后用户可以在用户终端通过目标数据库获取中处理后的数据,并基于处理后的数据进行后续的操作。
可以理解的是,本申请实施例所提供的方法可以由计算机设备执行,计算机设备包括但不限于终端或服务器,本申请实施例中的业务服务器1000以及后台服务器100a、后台服务器100b、后台服务器100c、…、后台服务器100n均可以为计算机设备,此处不限定。上述业务服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。上述终端可以包括:智能手机、平板电脑、笔记本电脑、桌上型电脑、台式计算机、智能手表等智能终端,但并不局限于此。其中,用户终端以及业务服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
请参见图2,图2是本申请实施例提供的一种基于单集群的数据处理方法的场景示意图。如图2所示,用户A在使用用户终端中的目标应用(如用户画像管理应用)时,后台服务器100a获取到至少两个数据处理任务(如用户画像数据清洗调试任务以及用户画像数据清洗工作任务),其中上述至少两个数据处理任务中包括至少两种任务类型(如用户画像数据清洗的调试任务、用户画像数据清洗的工作任务、用户画像数据抽取的调试任务、用户画像数据回流的工作任务以及用户画像数据清洗的测试任务)并基于各数据处理任务确定用于调度上述各数据处理任务的调度***(如调试任务调度***以及工作任务调度***),其中,一种任务类型的数据处理任务对应一个调度***,一个调度***关联目标集群中的一种集群资源。这里的集群资源可以包括用于执行调试任务的集群资源、执行工作任务的集群资源以及执行测试任务的集群资源等,其中上述执行调试任务的集群资源、执行工作任务的集群资源以及执行测试任务的集群资源中分别又可以包括计算资源以及存储资源等。当用户A通过用户终端10b发起了数据处理任务请求时,后台服务器100a根据上述目标数据处理任务(如用户画像数据清洗工作任务)的任务类型确定用于调度上述目标数据处理任务的目标调度***(如工作任务调度***),并基于上述目标调度***将上述目标数据处理任务调度至上述目标集群的目标集群资源(如执行工作任务的集群资源)中,以通过上述目标集群资源执行上述目标数据处理任务。随后后台服务器100a通过目标集群资源将执行上述目标数据处理任务得到的响应数据存储至目标数据库20。则用户终端10b可以从目标数据库20中查看到执行上述目标数据处理任务后的响应数据(如清洗后的用户画像数据)。
进一步地,为便于理解,请参见图3,图3是本申请实施例提供的基于单集群的数据处理方法的流程示意图。该方法可以由业务服务器(例如,上述图1所示的业务服务器1000)执行,也可以由后台服务器和业务服务器(如上述图1或图2所对应实施例中的业务服务器1000和后台服务器100a)共同执行。为便于理解,本实施例以该方法由上述业务服务器执行为例进行说明。其中,该数据处理方法至少可以包括以下步骤S101-步骤S104:
S101,获取至少两个数据处理任务,并基于各数据处理任务确定用于调度各数据处理任务的调度***。
在一些可行的实施方式中获取至少两个数据处理任务,并基于各数据处理任务确定用于调度各数据处理任务的调度***,可以理解,上述至少两个数据处理任务中包括至少两种任务类型的数据处理任务,一种任务类型的数据处理任务对应一个调度***,一个调度***关联目标集群中的一种集群资源,一个调度***关联的集群资源用于执行一种任务类型的数据处理任务。在本申请可选的实施例中,针对不同任务类型的数据处理任务分别搭建一套对应的调度***,这里的调度***指能够周期性或者一次性将数据处理任务提交到目标集群资源中进行任务执行的***。一个调度***关联目标集群中的一种集群资源,意味着一种数据处理任务由对应的目标调度***调度至目标集群资源中进行任务执行。可选的,这里的调度***可以为Azkabna开源调度***,也可以为Ooize开源调度***等,其中,Ooize开源调度***相比于Azkaban开源调度***来说是一个重量级的任务调度***,其功能更加全面但配置使用也会更复杂,因此若在不使用某些功能的前提下,轻量级开源调度***Azkaban可以是更适合的候选对象。在本申请可选的实施例中,当获取的上述数据处理任务的类型为工作任务以及调试任务时,上述执行工作任务的目标集群资源可以称作为绿环境,上述执行调试任务的目标集群资源可以称作为蓝环境。当上述工作任务以及调试任务在目标集群中同时执行时,这时的任务执行方式又可以称作为蓝绿部署(BlueGreen Deployment,BGD),即一种可以保证目标集群不间断为数据使用方提供服务的线上部署方式,当一个数据处理任务(例如用户画像数据清洗任务)需要在蓝环境中进行任务调试时,绿环境也会同时对工作类型的数据处理任务(例如用户画像数据清洗的工作任务)进行任务执行。在本申请可选的实施例中,可以使用Hadoop大数据集群作为上述数据处理任务的目标集群,此外,上述获取至少两个数据处理任务之前,可以从上述目标集群中确定出至少两种集群资源,并建立上述至少两种集群资源中各集群资源与至少两个调度***的关联,其中,一种集群资源关联一个调度***。可选的,这里的集群资源可以包括用于执行调试任务的集群资源、执行工作任务的集群资源以及执行测试任务的集群资源等,其中上述执行调试任务的集群资源、执行工作任务的集群资源以及执行测试任务的集群资源中分别又可以包括计算资源以及存储资源等。其中,这里的存储资源可以包括Hadoop大数据集群中的Hadoop分布式文件***(Hadoop Distributed File System,HDFS),可以理解,这里的HDFS文件指适合运行在通用硬件上的分布式文件***,可以将文件分布式的存储在不同的服务器中;这里的计算资源包括可以一次性同时执行同一类型的多个数据处理任务的队列(其功能主要是按照指令序列逐条执行数据处理任务中的任务内容,以及存储待处理的数据处理任务的相关数据)、在上述队列中进行任务执行时需要的中央处理器(CentralProcessing Unit,CPU)以及上述队列占用的内存等资源,若在执行数据处理任务时当前执行的数据处理任务的数量超过对每个队列分配的最大CPU核数(即同时处理的数据处理任务的数量),则上述数据处理任务需要进行排队执行。
S102,当接收到至少两个数据处理任务中的目标数据处理任务的处理请求时,根据目标数据处理任务的任务类型确定用于调度目标数据处理任务的目标调度***。
在一些可行的实施方式中,当接收到至少两个数据处理任务中的目标数据处理任务的处理请求时,根据目标数据处理任务的任务类型确定用于调度目标数据处理任务的目标调度***。可选的,这里的两种任务类型的数据处理任务可以为调试任务、工作任务、测试任务等任务类型。因此可以理解,这里获取的至少两种任务类型的至少两个数据处理任务可以为一个调试任务一个工作任务、一个调试任务一个测试任务以及两个工作任务一个测试任务等。上述基于各数据处理任务确定用于调度各数据处理任务的调度***,可以为基于上述各数据处理任务的任务类型确定用于调度各数据处理任务的调度***。例如若目标数据处理任务的任务类型为调试任务,则将调试任务对应的调试任务调度***确定为上述目标数据处理任务的调度***。
S103,基于目标调度***将目标数据处理任务调度至目标集群的目标集群资源中,以通过目标集群资源执行目标数据处理任务。
在一些可行的实施方式中,基于目标调度***将目标数据处理任务调度至目标集群的目标集群资源中,以通过目标集群资源执行目标数据处理任务。在本申请可选的实施例中,在为上述不同任务类型的数据处理任务搭建至少两个调度***时,通过上述至少两个调度***中各调度***的调度***标识,将上述各调度***的调度***标识与上述目标集群中的各集群资源进行关联,其中,这里的调度***标识用于标记各调度***关联的目标集群中的各集群资源,一个调度***的调度***标识与上述目标集群中的一种集群进行关联。在本申请可选的实施例中,在针对不同类型的数据处理任务搭建对应的调度***时,可以将调度***的相关信息(例如调度***标识)与大数据集群中的目标集群资源通过参数形式进行关联(例如在代码部署中dev.dev_mr可以代表队列资源参数、ADS_BLUE可以代表HDFS文件资源参数等),以供后续在接收到目标数据处理任务请求时,可以根据目标调度***的调度***标识确定上述目标集群中的目标集群资源,并利用上述目标集群资源对上述目标数据处理任务进行任务执行。可选的,若上述目标数据处理任务为工作任务,则工作任务调度***通过配置用于执行工作任务的目标集群资源的资源参数以将上述工作任务调度至目标集群中工作任务对应的目标集群资源(如用于存储工作任务相关数据的HDFS文件以及用于执行工作任务的队列)中,并在目标集群资源如用于存储工作任务相关数据的HDFS文件以及用于执行工作任务的队列)中执行上述目标数据处理任务。
S104,通过目标集群资源将执行目标数据处理任务得到的响应数据存储至目标数据库。
在一些可行的实施方式中,通过目标集群资源将执行目标数据处理任务得到的响应数据存储至目标数据库。在本申请可选的实施例中,上述数据处理任务可以包括不同类型的数据回流任务(如用户画像数据回流的工作任务),通过执行上述回流任务将通过目标集群资源执行的目标数据处理任务得到的响应数据存储至目标数据库(如MYSQL数据库等)。在上述目标数据处理任务执行结束后,通过目标集群资源中的队列资源将执行目标数据处理任务得到的响应数据存储至目标集群资源中的目标数据库,以供后续数据使用方可以从对应的目标数据库中获取执行目标数据处理任务后的响应数据。可以理解,上述目标集群资源中的目标数据库可以包括调试任务对应的目标数据库、工作任务对应的目标数据库以及测试任务对应的目标数据库,不同的数据使用方可以从不同的目标数据库中获取对应的响应数据。可选的,若上述数据使用方仅仅是报表分析等应用场景,则数据使用方(比用报表)可以直接使用不同队列资源中执行目标数据处理任务后的响应数据,不需要将响应数据返回至目标数据库,具体可根据实际场景确定,在此不作限制。若上述数据使用方为联机事务处理进程(Online Transaction Processing,OLTP),则可以将执行目标数据处理任务后的响应数据存储至对应的目标数据库,以供线上的联机事务处理进程查询。这是因为在Hadoop大数据集群中相关数据是存储在HDFS文件中的Hive表格中的,其不适合用于OLTP***查询,因此需要将执行数据处理任务后的响应数据存储至对应的目标数据库中。这里的Hive表格是基于大数据集群Hadoop的一个数据仓库工具,其可以将结构化的数据文件映射为一张数据库表,并提供存储、查询和分析存储等功能。
在本申请中,通过获取至少两个数据处理任务,并基于各数据处理任务确定用于调度上述各数据处理任务的调度***,其中,上述至少两个数据处理任务中包括至少两种任务类型的数据处理任务,一种任务类型的数据处理任务对应一个调度***,一个调度***关联目标集群中的一种集群资源,一个调度***关联的集群资源用于执行一种任务类型的数据处理任务。当接收到上述至少两个数据处理任务中的目标数据处理任务的处理请求时,根据上述目标数据处理任务的任务类型确定用于调度上述目标数据处理任务的目标调度***。并基于上述目标调度***将上述目标数据处理任务调度至上述目标集群的目标集群资源中,以通过上述目标集群资源执行上述目标数据处理任务。最后通过上述目标集群资源将执行上述目标数据处理任务得到的响应数据存储至目标数据库。采用本方案,可以在一个大数据集群中划分出集群资源,以针对不同的数据处理任务使用对应的目标调度***将目标数据处理任务调度至目标集群资源中进行任务执行,从而实现一份代码在单个大数据集群中对不同的数据处理任务(调试、工作或者测试等)进行任务执行,降低了大数据集群的开发与维护成本、操作简单、适用性高。
在一些可行的实施方式中,请一并参见图4,图4是本申请实施例提供的基于单集群的数据处理方法的另一流程示意图。该方法可以由业务服务器(例如,上述图1所示的业务服务器1000)执行,也可以由后台服务器和业务服务器(如上述图1或图2所对应实施例中的业务服务器1000和后台服务器100a)共同执行。为便于理解,本实施例以该方法由上述业务服务器执行为例进行说明。其中,该数据处理方法至少可以包括以下步骤S201-步骤S205:
S201,从目标集群中确定出至少两种集群资源,并建立至少两种集群资源中各集群资源与至少两个调度***的关联。
在一些可行的实施方式中,从目标集群中确定出至少两种集群资源,并建立至少两种集群资源中各集群资源与至少两个调度***的关联,其中,一种集群资源关联一个调度***,一种集群资源用于执行一种数据处理任务。例如可以从目标集群中确定出第一目标集群资源用于执行数据处理任务中的工作任务、第二目标集群资源用于执行数据处理任务中的调试任务等,上述第一目标集群资源可以包括用于存储工作任务相关数据的HDFS文件以及用于执行工作任务的队列,上述第二目标集群资源可以包括用于存储调试任务相关数据的HDFS文件以及用于执行调试任务的队列。可选的,在实际分配目标集群中的集群资源时,可以对数据处理任务中的工作任务分配更多的集群资源,以及更高的任务优先级以保证工作任务的正常运行,这是因为在大多数情况下工作任务的数量会更多,对数据的准确率来说影响更大。此外,在建立上述至少两种集群资源中各集群资源与至少两个调度***的关联时,可以基于至少两个调度***中各调度***的调度***标识,将上述各调度***的调度***标识与上述目标集群中的各集群资源进行关联,其中,一个调度***的调度***标识与上述目标集群中的一种集群资源关联。在本申请可选的实施例中,在针对不同类型的数据处理任务搭建对应的调度***时,可以将调度***的相关信息(例如调度***标识)与大数据集群中的目标集群资源通过参数形式进行关联(例如在代码部署中dev.dev_mr可以代表队列资源参数、ADS_BLUE可以代表HDFS文件资源参数等),以供后续在接收到目标数据处理任务请求时,可以根据目标调度***的调度***标识确定上述目标集群中的目标集群资源,并利用上述目标集群资源对上述目标数据处理任务进行任务执行。
S202,获取至少两个数据处理任务,并基于各数据处理任务确定用于调度所述各数据处理任务的调度***。
其中,该步骤S202的具体实施方式可参见上述图3所对应实施例中对步骤S101的描述,这里将不再赘述。
S203,当接收到至少两个数据处理任务中的目标数据处理任务的处理请求时,根据目标数据处理任务的任务类型确定用于调度目标数据处理任务的目标调度***。
在一些可行的实施方式中,上述目标数据处理任务的处理请求中还可以携带上述目标数据处理任务的任务标识,因此当接收到至少两个数据处理任务中的目标数据处理任务的处理请求时,可以基于上述目标数据处理任务的处理请求中携带的目标任务标识确定上述目标数据处理任务的任务类型,其中,上述目标数据处理任务的任务类型包括调试、工作或者测试中的一种。根据上述目标数据处理任务的任务类型确定用于调度上述目标数据处理任务的目标调度***。例如若目标数据处理任务的任务类型为调试任务,则将调试任务对应的调试任务调度***确定为上述目标数据处理任务的调度***。
S204,基于目标调度***将目标数据处理任务调度至目标集群的目标集群资源中,以通过目标集群资源执行目标数据处理任务。
在一些可行的实施方式中,可以基于上述目标调度***的调度***标识确定上述目标调度***关联的目标集群中的目标集群资源,并基于上述目标集群中的目标集群资源确定上述目标集群资源对应的资源参数,此外,可以将上述目标集群资源对应的资源参数配置到上述目标调度***中,以基于上述目标调度***将上述目标数据处理任务调度至上述目标集群的目标集群资源中。在本申请可选的实施例中,可以针对不同类型的数据处理任务搭建对应的调度***,并将调度***的相关信息(例如调度***标识)与大数据集群中的目标集群资源通过参数形式进行关联,当接收到目标数据处理任务请求后,可以基于目标数据处理任务请求中携带的目标任务标识中的定义信息确定出目标调度***以及目标调度***的调度***标识,然后可以基于目标调度***的调度***标识确定出与之关联的目标集群的目标集群资源的资源参数。例如,当获取的上述数据处理任务的类型为工作任务以及调试任务时,上述执行工作任务的目标集群资源可以称作为绿环境,上述执行调试任务的目标集群资源可以称作为蓝环境。此时若上述目标任务标识的定义信息为“insertover write table${ADS_DB}.TEST select user_id,sum(amout)amt from${DWD_DB}.TEST group by user_id”,其中,“TEST”代表了上述目标数据处理任务为调试任务,因此可以确定出对应的目标调度***为调试任务对应的调度***以及对应的调度***标识。然后可以根据“${ADS_DB}”查询上述测试任务对应的调度***的调度***标识关联的目标集群的目标集群资源的资源参数,其中,“$”符号则代表了需要将括弧中的内容配置为其关联的资源参数的标志,如果“${ADS_DB}”关联的资源参数为“ADS_BLUE”,这里的“ADS_BLUE”表示为目标集群中的蓝环境,因此则将上述定义信息替换为“insert over write tableADS_BLUE.TEST select user_id,sum(amout)amt from ADS_BLUE.TEST group by user_id”,以通过目标集群资源(如蓝环境)对目标数据处理任务(如调试任务)进行任务执行。
S205,通过目标集群资源将执行目标数据处理任务得到的响应数据存储至目标数据库。
其中,该步骤S205的具体实施方式可参见上述图3所对应实施例中对步骤S104的描述,这里将不再赘述。
在本申请中,通过从目标集群中确定出至少两种集群资源,并建立至少两种集群资源中各集群资源与至少两个调度***的关联。此外,在建立上述至少两种集群资源中各集群资源与至少两个调度***的关联时,可以基于至少两个调度***中各调度***的调度***标识,将上述各调度***的调度***标识与上述目标集群中的各集群资源进行关联,其中,一个调度***的调度***标识与上述目标集群中的一种集群资源关联。当接收到至少两个数据处理任务中的目标数据处理任务的处理请求时,基于上述目标数据处理任务的处理请求中携带的目标任务标识确实上述目标数据处理任务的任务类型,以根据上述目标数据处理任务的任务类型确定用于调度上述目标数据处理任务的目标调度***。然后基于上述目标调度***的调度***标识确定上述目标调度***关联的目标集群中的目标集群资源,并基于上述目标集群中的目标集群资源确定上述目标集群资源对应的资源参数,此外,可以将上述目标集群资源对应的资源参数配置到上述目标调度***中,以基于上述目标调度***将上述目标数据处理任务调度至上述目标集群的目标集群资源中对目标数据处理任务进行任务执行。采用本方案,可以在一个大数据集群中划分出集群资源,以针对不同的数据处理任务使用对应的目标调度***将目标数据处理任务调度至目标集群资源中进行任务执行,从而实现一份代码在单个大数据集群中对不同的数据处理任务(调试、工作或者测试等)进行任务执行,降低了大数据集群的开发与维护成本、操作简单、适用性高。
进一步地,请参见图5,图5是本申请提供的一种基于单集群的数据处理装置的一结构示意图。该数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如,该数据处理装置为一个应用软件;该装置可以用于执行本申请提供的方法中的相应步骤。如图5所示,该数据处理装置包括:获取模块10、第一确定模块20、第一调度模块30、第一存储模块40。
获取模块10,用于获取至少两个数据处理任务,并基于各数据处理任务确定用于调度所述各数据处理任务的调度***,其中,上述至少两个数据处理任务中包括至少两种任务类型的数据处理任务,一种任务类型的数据处理任务对应一个调度***,一个调度***关联目标集群中的一种集群资源,上述集群资源用于执行数据处理任务;
第一确定模块20,用于当接收到上述至少两个数据处理任务中的目标数据处理任务的处理请求时,基于上述处理请求确定上述目标数据处理任务的任务类型,并根据上述目标数据处理任务的任务类型确定用于调度上述目标数据处理任务的目标调度***;
第一调度模块30,用于基于上述目标调度***将上述目标数据处理任务调度至上述目标集群的目标集群资源中,以通过上述目标集群资源执行上述目标数据处理任务;
第一存储模块40,用于通过上述目标集群资源将执行上述目标数据处理任务得到的响应数据存储至目标数据库。
在一种可能的实施方式中,请参见图6,上述装置还包括:
第二确定模块50,用于从目标集群中确定出至少两种集群资源,并建立上述至少两种集群资源中各集群资源与至少两个调度***的关联,其中,一种集群资源关联一个调度***。
在一种可能的实施方式中,请参见图6,上述装置还包括:
关联模块60,用于基于至少两个调度***中各调度***的调度***标识,将上述各调度***的调度***标识与上述目标集群中的各集群资源进行关联以建立各集群资源与各调度***的关联;
其中,一个调度***的调度***标识与上述目标集群中的一种集群资源关联。
在一种可能的实施方式中,上述处理请求中携带上述目标数据处理任务的目标任务标识;上述装置还包括:
第三确定模块70,用于基于上述处理请求中携带的目标任务标识确定上述目标数据处理任务的任务类型,其中,上述目标数据处理任务的任务类型包括调试、工作或者测试中的一种。
在一种可能的实施方式中,上述装置还包括:
第四确定模块80,用于基于上述目标调度***的调度***标识确定上述目标集群中目标集群资源对应的资源参数;
上述第一调度模块30,还用于:
将上述目标集群资源对应的资源参数配置到上述目标调度***中,以基于上述目标调度***将上述目标数据处理任务调度至上述目标集群的目标集群资源中。
在一种可能的实施方式中,上述第四确定模块80还用于:
基于上述目标调度***的调度***标识确定上述目标调度***关联的目标集群中的目标集群资源,并基于上述目标集群中的目标集群资源确定上述目标集群资源对应的资源参数;
其中,上述目标集群资源包括存储资源和/或计算资源。
其中,该获取模块10、第一确定模块20、第一调度模块30、第一存储模块40的具体实现方式可以参见上述图3所对应实施例中对步骤S101-步骤S104的描述,这里将不再继续进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
进一步的,请参见图7,图7是本申请实施例提供的一种计算机设备的结构示意图。如图7所示,上述图5所对应实施例中的装置可以应用于上述计算机设备2000,该计算机设备2000可以包括:至少一个处理器2001,例如CPU,至少一个网络接口2003,存储器2004,至少一个通信总线2002。其中,通信总线2002用于实现这些组件之间的连接通信。其中网络接口2003可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器2004可以是高速随机存储记忆体(random access memory,RAM)存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器2004可选地还可以是至少一个位于远离前述处理器2001的存储装置。如图7所示,作为一种计算机存储介质的存储器2004中可以包括操作***、网络通信模块以及设备控制应用程序。
应当理解,本申请实施例中所描述的计算机设备2000可执行前文图3和/或图4所对应实施例的描述,也可执行前文图5和/或图6所对应实施例中对上述数据处理装置的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请还提供了一种计算机可读存储介质,且该计算机可读存储介质中存储有前文提及的一种基于单集群的数据处理装置所执行的计算机程序,且该计算机程序包括程序指令,当该处理器执行该程序指令时,能够执行前文图3和/或图4所对应实施例中对该一种基于单集群的数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述计算机可读存储介质可以是前述任一实施例提供的一种基于单集群的数据处理装置或者上述设备的内部存储单元,例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备,例如该电子设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。上述计算机可读存储介质还可以包括磁碟、光盘、只读存储记忆体(read-only memory,ROM)或随机存储记忆体等。进一步地,该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其它程序和数量。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本发明的权利要求书和说明书及附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (10)

1.一种基于单集群的数据处理方法,其特征在于,所述方法包括:
获取至少两个数据处理任务,并基于各数据处理任务确定用于调度所述各数据处理任务的调度***,其中,所述至少两个数据处理任务中包括至少两种任务类型的数据处理任务,一种任务类型的数据处理任务对应一个调度***,一个调度***关联目标集群中的一种集群资源,所述集群资源用于执行数据处理任务;
当接收到所述至少两个数据处理任务中的目标数据处理任务的处理请求时,基于所述处理请求确定所述目标数据处理任务的任务类型,并根据所述目标数据处理任务的任务类型确定用于调度所述目标数据处理任务的目标调度***;
基于所述目标调度***将所述目标数据处理任务调度至所述目标集群的目标集群资源中,以通过所述目标集群资源执行所述目标数据处理任务;
通过所述目标集群资源将执行所述目标数据处理任务得到的响应数据存储至目标数据库。
2.根据权利要求1所述的方法,其特征在于,所述获取至少两个数据处理任务之前,所述方法还包括:
从目标集群中确定出至少两种集群资源,并建立所述至少两种集群资源中各集群资源与至少两个调度***的关联,其中,一种集群资源关联一个调度***。
3.根据权利要求2所述的方法,其特征在于,所述建立所述至少两种集群资源中各集群资源与至少两种调度***的关联包括:
基于至少两个调度***中各调度***的调度***标识,将所述各调度***的调度***标识与所述目标集群中的各集群资源进行关联以建立各集群资源与各调度***的关联;
其中,一个调度***的调度***标识与所述目标集群中的一种集群资源关联。
4.根据权利要求3所述的方法,其特征在于,所述处理请求中携带所述目标数据处理任务的目标任务标识;所述基于所述处理请求确定所述目标数据处理任务的任务类型包括:
基于所述处理请求中携带的所述目标任务标识确定所述目标数据处理任务的任务类型,其中,所述目标数据处理任务的任务类型包括调试、工作或者测试中的一种。
5.根据权利要求4所述的方法,其特征在于,所述基于所述目标调度***将所述目标数据处理任务调度至所述目标集群的目标集群资源中,包括:
基于所述目标调度***的调度***标识确定所述目标集群中目标集群资源对应的资源参数;
将所述目标集群资源对应的资源参数配置到所述目标调度***中,以基于所述目标调度***将所述目标数据处理任务调度至所述目标集群的目标集群资源中。
6.根据权利要求5所述的方法,其特征在于,所述基于所述目标调度***的调度***标识确定所述目标集群中目标集群资源对应的资源参数,包括:
基于所述目标调度***的调度***标识确定所述目标调度***关联的目标集群中的目标集群资源,并基于所述目标集群中的目标集群资源确定所述目标集群资源对应的资源参数;
其中,所述目标集群资源包括存储资源和/或计算资源。
7.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取至少两个数据处理任务,并基于各数据处理任务确定用于调度所述各数据处理任务的调度***,其中,所述至少两个数据处理任务中包括至少两种任务类型的数据处理任务,一种任务类型的数据处理任务对应一个调度***,一个调度***关联目标集群中的一种集群资源,所述集群资源用于执行数据处理任务;
第一确定模块,用于当接收到所述至少两个数据处理任务中的目标数据处理任务的处理请求时,根据所述目标数据处理任务的任务类型确定用于调度所述目标数据处理任务的目标调度***;
第一调度模块,用于基于所述目标调度***将所述目标数据处理任务调度至所述目标集群的目标集群资源中,以通过所述目标集群资源执行所述目标数据处理任务;
第一存储模块,用于通过所述目标集群资源将执行所述目标数据处理任务得到的响应数据存储至目标数据库。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二确定模块,用于从目标集群中确定出至少两种集群资源,并建立所述至少两种集群资源中各集群资源与至少两个调度***的关联,其中,一种集群资源关联一个调度***。
9.一种计算机设备,其特征在于,包括:处理器、存储器以及网络接口;
所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,执行权利要求1-6任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,执行权利要求1-6任一项所述的方法。
CN202110575939.0A 2021-05-25 2021-05-25 基于单集群的数据处理方法、装置、设备及存储介质 Pending CN113296913A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110575939.0A CN113296913A (zh) 2021-05-25 2021-05-25 基于单集群的数据处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110575939.0A CN113296913A (zh) 2021-05-25 2021-05-25 基于单集群的数据处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113296913A true CN113296913A (zh) 2021-08-24

Family

ID=77324978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110575939.0A Pending CN113296913A (zh) 2021-05-25 2021-05-25 基于单集群的数据处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113296913A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114036142A (zh) * 2021-11-08 2022-02-11 浙江网商银行股份有限公司 数据处理方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140006534A1 (en) * 2012-06-27 2014-01-02 Nilesh K. Jain Method, system, and device for dynamic energy efficient job scheduling in a cloud computing environment
US20160098292A1 (en) * 2014-10-03 2016-04-07 Microsoft Corporation Job scheduling using expected server performance information
WO2017162075A1 (zh) * 2016-03-25 2017-09-28 阿里巴巴集团控股有限公司 任务调度方法和装置
CN109471727A (zh) * 2018-10-29 2019-03-15 北京金山云网络技术有限公司 一种任务处理方法、装置及***
CN111190718A (zh) * 2020-01-07 2020-05-22 第四范式(北京)技术有限公司 实现任务调度的方法、装置及***
CN111625337A (zh) * 2020-05-28 2020-09-04 浪潮电子信息产业股份有限公司 一种任务调度方法、装置、电子设备和可读存储介质
CN112328378A (zh) * 2020-11-05 2021-02-05 南京星环智能科技有限公司 任务调度方法、计算机设备及存储介质
CN112486648A (zh) * 2020-11-30 2021-03-12 北京百度网讯科技有限公司 任务调度方法、装置、***、电子设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140006534A1 (en) * 2012-06-27 2014-01-02 Nilesh K. Jain Method, system, and device for dynamic energy efficient job scheduling in a cloud computing environment
US20160098292A1 (en) * 2014-10-03 2016-04-07 Microsoft Corporation Job scheduling using expected server performance information
WO2017162075A1 (zh) * 2016-03-25 2017-09-28 阿里巴巴集团控股有限公司 任务调度方法和装置
CN109471727A (zh) * 2018-10-29 2019-03-15 北京金山云网络技术有限公司 一种任务处理方法、装置及***
CN111190718A (zh) * 2020-01-07 2020-05-22 第四范式(北京)技术有限公司 实现任务调度的方法、装置及***
CN111625337A (zh) * 2020-05-28 2020-09-04 浪潮电子信息产业股份有限公司 一种任务调度方法、装置、电子设备和可读存储介质
CN112328378A (zh) * 2020-11-05 2021-02-05 南京星环智能科技有限公司 任务调度方法、计算机设备及存储介质
CN112486648A (zh) * 2020-11-30 2021-03-12 北京百度网讯科技有限公司 任务调度方法、装置、***、电子设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ARUNA ,M: "An improved load balanced metaheurstic scheduling in cloud", 《THE JOURNAL OF NETWORKS SOFTWARE TOOLS AND APPLICATIONS》 *
张风荣: "基于蚁群算法的Hadoop调度算法研究", 《电脑与信息技术》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114036142A (zh) * 2021-11-08 2022-02-11 浙江网商银行股份有限公司 数据处理方法及装置

Similar Documents

Publication Publication Date Title
US10333861B2 (en) Modular cloud computing system
US9535754B1 (en) Dynamic provisioning of computing resources
CN105045607A (zh) 一种实现多种大数据计算框架统一接口的方法
CN105447088A (zh) 一种基于志愿者计算的多租户专业云爬虫
CN110287009A (zh) 一种工作节点选择方法、装置、存储介质及服务器
CN112668880A (zh) 配网网格的工单调度方法、装置、计算机设备和存储介质
CN113391901A (zh) Rpa机器人的管理方法、装置、设备及存储介质
CN114356712B (zh) 数据处理方法、装置、设备、可读存储介质及程序产品
CN115392501A (zh) 数据采集方法、装置、电子设备及存储介质
CN110162386B (zh) 一种任务下发方法及装置
CN112148458A (zh) 任务调度方法、装置
CN112199200B (zh) 资源调度方法、装置、计算机设备和存储介质
CN113296913A (zh) 基于单集群的数据处理方法、装置、设备及存储介质
CN113626163A (zh) 一种轻量级分布式增量自调度方法、***、设备和介质
US20090112704A1 (en) Management tool for efficient allocation of skills and resources
CN117271122A (zh) 基于cpu和gpu分离的任务处理方法、装置、设备及存储介质
CN116151631A (zh) 一种业务决策处理***、一种业务决策处理方法和装置
CN110659125A (zh) 一种分析任务执行方法、装置、***及电子设备
CN114201508A (zh) 数据处理方法、数据处理装置、电子设备和存储介质
CN111782834A (zh) 图像检索的方法、装置、设备及计算机可读存储介质
US20110251867A1 (en) Method and system for integrated operations and service support
CN115361285B (zh) 实现离在线业务混合部署的方法、装置、设备及介质
CN111741097B (zh) 一种租户独占节点的方法、计算机设备及存储介质
CN117806797A (zh) 任务的统一调度方法、装置、电子设备及存储介质
CN117389582A (zh) 容器应用的更新方法、装置及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210824

WD01 Invention patent application deemed withdrawn after publication