CN105975600A - 大数据处理中的任务优化方法和装置 - Google Patents

大数据处理中的任务优化方法和装置 Download PDF

Info

Publication number
CN105975600A
CN105975600A CN201610308355.6A CN201610308355A CN105975600A CN 105975600 A CN105975600 A CN 105975600A CN 201610308355 A CN201610308355 A CN 201610308355A CN 105975600 A CN105975600 A CN 105975600A
Authority
CN
China
Prior art keywords
task
data
intermediate data
process method
business
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610308355.6A
Other languages
English (en)
Inventor
刘宏斌
国铁龙
向滔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LeTV Holding Beijing Co Ltd
LeTV Information Technology Beijing Co Ltd
Original Assignee
LeTV Holding Beijing Co Ltd
LeTV Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LeTV Holding Beijing Co Ltd, LeTV Information Technology Beijing Co Ltd filed Critical LeTV Holding Beijing Co Ltd
Priority to CN201610308355.6A priority Critical patent/CN105975600A/zh
Publication of CN105975600A publication Critical patent/CN105975600A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5017Task decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种大数据处理中的任务优化方法和装置,包括:分析多个任务的数据处理逻辑;根据所述多个任务的数据处理逻辑确定多个任务之间的数据关系;对所述数据关系进行分析,确定是否将所述多个任务合并为一个任务或者将所述多个任务中的一个任务拆分成多个任务。减少了数据仓库中需要执行的计算任务数量,节约了计算资源,有助于提高数据仓库的处理效率。

Description

大数据处理中的任务优化方法和装置
技术领域
本发明属于计算机领域,具体地说,涉及一种大数据处理中的任务优化方法和装置。
背景技术
随着互联网的快速发展,很多互联网公司都已积累了TB量级的数据。数据仓库每天都在接收来自不同生态的数据,例如来自手机、智能电视、视频网站的用户数据记录等,做为大数据资源的一部分。
数据从数据仓库的入口机进入数据仓库以及在数据仓库内部进行分层,都需要进行数据处理,每次数据处理过程都是多个任务的集合,每个任务都具有内在的处理逻辑,例如任务1是将A表中的部分字段的数据读取再写入到B表。有时,当很多数据工程师都需要某些数据时,不同的数据工程师利用现有数据获取到所需要数据方法路径可能就会不同,此时就会出现很多重复的任务,或者虽然并不重复,但目的是相同的任务。有时,有些任务对表的某些字段的更新处理较慢,导致后续可利用其他字段进行处理的任务也需要等待该表更新完成而无法继续向下处理,导致任务处理的时间变慢。
这些问题都是由于对任务的内在处理逻辑分析不到位而造成的,导致了很多计算资源的浪费,影响数据仓库的处理速度。
发明内容
有鉴于此,本发明实施例提供了一种大数据处理中的任务优化方法和装置,用以解决现有技术中由于对任务的内在处理逻辑分析不到位而导致浪费计算资源的技术问题。
为了解决上述技术问题,本发明公开了一种大数据处理中的任务优化方法,包括:分析多个任务的数据处理逻辑;根据多个任务的数据处理逻辑确定多个任务之间的数据关系;对数据关系进行分析,确定是否将多个任务合并为一个任务或者将多个任务中的一个任务拆分成多个任务。
为了解决上述技术问题,本发明还公开了一种大数据处理中的任务优化装置,包括:分析模块,用于分析多个任务的数据处理逻辑;确定模块,用于根据所述多个任务的数据处理逻辑确定多个任务之间的数据关系;处理模块,用于对所述数据关系进行分析,确定是否将所述多个任务合并为一个任务或者将所述多个任务中的一个任务拆分成多个任务。
与现有技术相比,本发明实施例提供的大数据处理中的任务优化方法和装置,通过对数据仓库中多个任务的数据处理逻辑进行分析,得到任务之间的数据关系,根据该数据关系确定是否对任务进行合并或者拆分,提高数据仓库的任务执行效率,有助于对数据仓库计算资源的合理利用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种大数据处理中的任务优化方法的流程图;
图2是本发明实施例提供的一种大数据处理中的任务优化方法的流程图;
图3是本发明实施例提供的一种大数据处理中的任务优化方法的流程图;
图4是本发明实施例提供的一种大数据处理中的任务优化装置的框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中,针对数据仓库中的计算任务进行分析,分析每个任务的数据处理逻辑,通过数据处理逻辑来找到各个任务之间的逻辑关系以及数据依赖关系,对各个任务之间产生的中间数据以及任务的执行情况进行分析,找到可以对现有任务进行优化的点,对现有任务进行适当的合并和拆分,从而节省数据仓库的计算资源并提高任务的执行效率。下面分别对本发明实施例提供的多种任务优化方法分别进行说明。
图1是本发明实施例提供的一种大数据处理中的任务优化方法,适用服务器,该方法包括以下步骤。
S10,分析多个任务的数据处理逻辑。
数据处理逻辑包括处理对象和计算方法。处理对象包括源数据、目标数据等,例如任务T01是从表A读取三个字段的数据并写入表B。计算方法是指利用源数据生成目标数据的方法,如果是直接从表A读取数据并写入表B则不存在计算方法,而如果对从表A读取的数据进行计算之后将结果写入表B,在该任务存在表A与表B之间的计算方法。
S11,根据多个任务的数据处理逻辑确定多个任务之间的数据关系。
数据关系包括任务之间的中间数据以及数据依赖关系。例如,任务T01从表A读取三个字段的数据并写入表B,任务T02对表B中的数据进行筛选,筛选出满足预设条件的数据并写入表C,那么,表B就被视为任务T01和任务T02的中间数据。
数据依赖关系是指在后执行的任务需要依赖由在前执行的任务输出的数据。任务T01从表A读取第一字段和第二字段的数据并直接写入表B,从表A读取第三字段和第四字段的数据,对第三字段和第四字段的数据进行预测分析,将预测结果写入表B;任务T02从表B读取第一字段和第二字段的数据进行筛选,将筛选结果写入表C;任务T03从表B读取预测结果,对预测结果进行评估,将评估结果写入表D。那么,任务T02和任务T03就依赖于任务T01的输出数据,任务T02和任务T03分别与任务T01具有数据依赖关系。
S12,对数据关系进行分析,确定是否将多个任务合并为一个任务或者将多个任务中的一个任务拆分成多个任务。
分析是否存在不会被使用的中间数据或者多个任务中在先执行的任务是否会影响在后执行的任务的执行效率。如果存在不会被使用的中间数据,则可以将多个任务进行合并,从而减少执行任务的数量,节省数据仓库的计算资源。如果在先执行的任务影响在后执行的任务的执行效率,则将该在先执行的任务按照数据依赖关系拆分成多个任务,将拆分后的多个任务中的一个任务的输出数据做为该在后执行的的任务的输入数据,使该在后执行的任务能够更快的获得其所依赖的数据从而完成执行,提高该在后执行的任务的执行效率。
下面首先对数据仓库中将多个任务进行合并的情形进行说明。图2是本发明实施例提供的一种大数据处理中的任务优化方法,适用服务器,该方法包括以下步骤。
S20,分析多个任务的数据处理逻辑。
数据处理逻辑包括处理对象和计算方法。处理对象包括源数据、目标数据等,例如任务T01是从表A读取三个字段的数据并写入表B。计算方法是指利用源数据生成目标数据的方法,如果是直接从表A读取数据并写入表B则不存在计算方法,而如果对从表A读取的数据进行计算之后将结果写入表B,在该任务存在表A与表B之间的计算方法。
S21,根据多个任务的数据处理逻辑确定多个任务之间产生的中间数据。
从多个任务的数据处理逻辑中,找出多个任务的之间的逻辑关系。例如,任务T01从表A读取三个字段的数据并写入表B,任务T02对表B中的三个字段的数据进行筛选,筛选出满足预设条件的数据并写入表C,任务T03读取表C的数据并添加到表D中。可以看出任务T01至T03是按照彼此之间的逻辑关系依次进行的。找到多个任务之间的逻辑关系后,就可以确定各个任务之间都产生了哪些中间数据,上例中的表B和表C即可以被确定为中间数据。
不同的数据工程师对得到目标数据而设置的计算方式会有所不同,有时还会根据其所负责的业务的实际需求来得到一些中间数据供进行其他计算使用。因此,需要进一步判断这些中间数据会被使用,也就是判断这些中间数据是否有必要进行保存。
S22,分析中间数据的使用状态以确定中间数据是否需要继续被保存。
使用状态包括该中间数据是否会被用于其它计算,以及该中间数据本身是否是其他任务链的最终结果。因此,对于中间数据是否需要保存的判定,可以通过多种方式进行。
在一个实施例中,该步骤S22可进一步被实施为以下步骤。
S220,根据业务需求分析中间数据是否在业务中被使用。
业务需求包括该数据是否用于其它业务数据的计算以及该中间数据在业务中是否也是需要利用的最终结果。例如,中间数据B记录了上海的各门店在2016年1月至3月的智能电视销量,如果业务中还需要进一步筛选出销量排名前五位的门店,则代表该中间数据B还会被使用;或者,该中间数据B本身就是一个统计上海市在2016年1月至3月的智能电视销量的任务链的最终结果,则代表该中间数据也需要被使用。
S221,当中间数据在业务中不被使用时,确定中间数据不需要继续被保存。
实现了根据预设的业务逻辑中对数据的实际需求来判定任务链的中间数据是否需要被保存。
在另一实施例中,该步骤S22还可以进一步被实施为以下步骤。
S222,统计中间数据的未被使用的累积时长,当累积时长达到预设门限时,标记中间数据为不被使用的数据。
对于被判定为任务链中的中间数据,会统计该中间数据未被使用的累积时长,例如,只要没有出现针对中间数据B的读取操作,就说明该中间数据B没有被使用,当中间数据B被读取时,累积时长将被清零并重新开始计时,如果在预设时长(例如12小时)都没有针对中间数据B的读取操作,则标记该中间数据B为不被使用的数据。
为了降低发生误判的概率,还会进一步对该中间数据被标记为不被使用的数据的次数进行统计。如果在接下来的预设时长该数据仍然没有被使用,则再一次标记该中间数据为不会被使用的数据。
S223,当中间数据被标记为不被使用的数据的次数大于或等于预设门限时,确定中间数据不需要继续被保存。
例如,中间数据B已连续10次被标记为不被使用的数据,则可以认为该数据不需要被继续保存。
这种不会被使用的中间数据的出现往往都是由于不同的数据工程师通过不同的方式获取目标数据时而人为配置的,随意性会比较强又不会被其他其他数据工程师所利用。
S23,当中间数据不需要被保存时,根据数据处理逻辑将多个任务合并为一个任务。
如上例中,如果表B被判定为不需要保存的中间数据,则根据数据处理逻辑将任务T01和T02合并为T12,合并后的任务T12的处理对象就是表A和表C,计算方法也相应合并为从表A中读取三个字段的数据并根据预设条件进行筛选,将筛选结果写入表B。如果表C被判定为不需要保存的中间数据,则根据数据处理逻辑将任务T02和T03合并为T23,合并后的任务T23的处理对象就是表B和表D,计算方法也相应合并为对表B中三个字段数据进行筛选并将筛选结果添加至表D。如果表B和表C都被判定为不需要保存的中间数据,则根据数据处理逻辑将任务T01、T02和T03合并为T13,合并后的任务T13的处理对象就是表A和表D,计算方法也相应合并为从表A中读取三个字段的数据并按照预设条件进行筛选,将筛选结果添加到表D。
也就是说,如果两个任务之间存在不会被使用的中间数据,则可以这两个任务合并一个任务,如果连续出现多个不会被使用的中间数据,则可以将多个任务合并为一个任务,从而减少了数据仓库中需要执行的计算任务数量,节约了计算资源,有助于提高数据仓库的处理效率。
在一个实施例中,上述大数据处理中的任务优化方法可进一步包括以下步骤。
S24,根据数据处理逻辑判断是否同时存在多个能够产生相同中间数据的任务。
S25,当同时存在多个能够产生相同中间数据的任务时,将多个能够产生相同中间数据的任务合并为一个任务。
该多个能够产生相同中间数据的任务来自于不同数据工程师的配置。例如,大家都已知存在表A,甲需要提取表A中三个字段的数据并写入表B,对表B的数据进行预测分析,输出分析结果至表C;而乙需要提取表A中相同的三个字段的数据并写入表B,对表B的数据进行筛选并将结果输出到表D。可见此时存在两个从表A读取三个字段数据并写入表B的任务,那么将这两个任务合并为一个,甲乙配置的其他后续任务共同利用该合并后的任务的输出结果。
对同时产生相同中间数据的多个任务进行合并,可以进一步减少计算任务的数量,节约计算资源。
下面对数据仓库中将一个任务拆分为多个任务的情形做进一步说明,对本发明实施例还提供了一种大数据处理中的任务优化方法,适用于服务器,如图3所示,该方法包括以下步骤。
S30,分析多个任务的数据处理逻辑。
S31,根据多个任务的数据处理逻辑确定多个任务之间的数据依赖关系。
数据依赖关系是指在后执行的任务需要依赖由在前执行的任务输出的数据。
例如,任务T01从表A读取第一字段和第二字段的数据并直接写入表B,从表A读取第三字段和第四字段的数据,对第三字段和第四字段的数据进行预测分析,将预测结果写入表B;任务T02从表B读取第一字段和第二字段的数据进行筛选,将筛选结果写入表C;任务T03从表B读取预测结果,对预测结果进行评估,将评估结果写入表D。可以看出,任务T02依赖于T01中的第一字段和第二字段的数据,任务T03依赖于T01中的预测结果数据。
S32,根据数据依赖关系,判断在多个任务中先执行的任务是否影响到后执行的任务的执行效率。
在上例中,任务T02和任务T03的执行需要等待任务T01执行完成,而由于预测分析的过程会相对较慢,因此即使第一字段和第二字段的数据已经被写入表B,任务T02也不能开始执行,需要等待预测结果被写入表B,任务T01执行完毕后再开始执行任务T02,而任务T02对表B的预测结果不存在依赖关系,可见,此时在先执行的任务T01影响到了在后任务T02的执行效率,拖延了任务T02开始执行的时间。
这种情况的出现通常是由于数据工程师在任务配置时考虑不太周全而导致的。
S33,当判断先执行的任务影响到后执行的任务的执行效率时,根据数据依赖关系将先执行的任务拆分为多个任务,以使后执行的任务能够更早的获得所依赖的数据并开始执行。
在上例中,将任务T01进行拆分,拆分为任务T011和任务T012,任务T011从表A读取第一字段和第二字段的数据并写入表B,任务T012从表A读取第三字段和第四字段的数据并进行预测分析,将预测结果写入表B。任务T011的执行会相对更快,T011执行完成后,任务T02就可以开始执行,而不必等待任务T012执行完成,从而提高了在后执行的任务T02的执行效率。
本发明实施例中,当发现在前任务的执行过程对在后任务的执行效率带来不好的影响时,根据数据依赖关系对在前任务进行拆分,目的是让拆分后的任务能够让在后任务更快的获得其所依赖的数据,从而使该在后任务能够比拆分之前更快的开始执行,提高总体的执行效率。
下面是本发明的装置实施例,用于执行本发明的上述方法实施例。
图4是本发明实施例提供的一种大数据处理中的任务优化装置,包括:
分析模块40,用于分析多个任务的数据处理逻辑;确定模块41,用于根据所述多个任务的数据处理逻辑确定多个任务之间的数据关系;处理模块42,用于对所述数据关系进行分析,确定是否将所述多个任务合并为一个任务或者将所述多个任务中的一个任务拆分成多个任务。
在一个实施例中,该确定模块41进一步包括:第一确定子模块,用于根据多个任务的数据处理逻辑确定多个任务之间产生的中间数据;
该处理模块42进一步包括:分析子模块,用于分析中间数据的使用状态以确定中间数据是否需要继续被保存;第一合并子模块,用于当中间数据不需要被保存时,根据数据处理逻辑将多个任务合并为一个任务。
在一个实施例中,该分析子模块进一步包括:分析单元,根据业务需求分析中间数据是否在业务中被使用;第一确定单元,当中间数据在业务中不被使用时,确定中间数据不需要继续被保存。
在一个实施例中,该分析子模块进一步包括:标记单元,统计中间数据的未被使用的累积时长,当累积时长达到预设门限时,标记中间数据为不被使用的数据;第二确定单元,当中间数据被标记为不被使用的数据的次数大于或等于预设门限时,确定中间数据不需要继续被保存。
在一个实施例中,该处理模块42还包括:第一判断子模块,用于根据数据处理逻辑判断是否同时存在多个能够产生相同中间数据的任务;第二合并子模块,用于当同时存在多个能够产生相同中间数据的任务时,将多个能够产生相同中间数据的任务合并为一个任务。
在一个实施例中,该确定模块41进一步包括:第二确定子模块,用于根据多个任务的数据处理逻辑确定多个任务之间的数据依赖关系;
所述处理模块42包括:第二判断子模块,用于根据所述数据依赖关系,判断在多个任务中先执行的任务是否影响到后执行的任务的执行效率;拆分子模块,用于当判断先执行的任务影响到后执行的任务的执行效率时,根据数据依赖关系将先执行的任务拆分为多个任务,并将拆分出的多个任务中的一个任务的输出数据作为后执行的任务的输入数据。
此外,本发明实施例中可以通过硬件处理器(hardware processor)来实现上述各个功能模块。
本发明实施例还提供了一种服务器,该服务器包括:包括处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为:分析多个任务的数据处理逻辑;根据多个任务的数据处理逻辑确定多个任务之间的数据关系;对所述数据关系进行分析,确定是否将多个任务合并为一个任务或者将多个任务中的一个任务拆分成多个任务。
在一个实施例中,所述根据多个任务的数据处理逻辑确定多个任务之间的数据关系包括:根据多个任务的数据处理逻辑确定多个任务之间产生的中间数据;
所述对所述数据关系进行分析,确定是否将多个任务合并为一个任务包括:分析中间数据的使用状态以确定中间数据是否需要继续被保存;当中间数据不需要被保存时,根据数据处理逻辑将多个任务合并为一个任务。
在一个实施例中,所述分析中间数据的使用状态以确定中间数据是否需要继续被保存包括:根据业务需求分析中间数据是否在业务中被使用;当中间数据在业务中不被使用时,确定中间数据不需要继续被保存。
在一个实施例中,所述分析中间数据的使用状态以确定中间数据是否需要继续被保存包括:统计中间数据的未被使用的累积时长,当累积时长达到预设门限时,标记中间数据为不被使用的数据;当中间数据被标记为不被使用的数据的次数大于或等于预设门限时,确定中间数据不需要继续被保存。
在一个实施例中,所述对数据关系进行分析,确定是否将多个任务合并为一个任务还包括:根据数据处理逻辑判断是否同时存在多个能够产生相同中间数据的任务;当同时存在多个能够产生相同中间数据的任务时,将多个能够产生相同中间数据的任务合并为一个任务。
在一个实施例中,所述根据多个任务的数据处理逻辑确定多个任务之间的数据关系包括:根据多个任务的数据处理逻辑确定多个任务之间的数据依赖关系;
所述对数据关系进行分析,确定是否将多个任务中的一个任务拆分成多个任务包括:根据数据依赖关系,判断在多个任务中先执行的任务是否影响到后执行的任务的执行效率;当判断先执行的任务影响到后执行的任务的执行效率时,根据数据依赖关系将先执行的任务拆分为多个任务,并将拆分出的多个任务中的一个任务的输出数据作为后执行的任务的输入数据。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (12)

1.一种大数据处理中的任务优化方法,其特征在于,包括:
分析多个任务的数据处理逻辑;
根据所述多个任务的数据处理逻辑确定多个任务之间的数据关系;
对所述数据关系进行分析,确定是否将所述多个任务合并为一个任务或者将所述多个任务中的一个任务拆分成多个任务。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多个任务的数据处理逻辑确定多个任务之间的数据关系包括:
根据所述多个任务的数据处理逻辑确定多个任务之间产生的中间数据;
所述对所述数据关系进行分析,确定是否将所述多个任务合并为一个任务包括:
分析所述中间数据的使用状态以确定所述中间数据是否需要继续被保存;
当所述中间数据不需要被保存时,根据所述数据处理逻辑将所述多个任务合并为一个任务。
3.根据权利要求2所述的方法,其特征在于,所述分析所述中间数据的使用状态以确定所述中间数据是否需要继续被保存包括:
根据业务需求分析所述中间数据是否在业务中被使用;
当所述中间数据在业务中不被使用时,确定所述中间数据不需要继续被保存。
4.根据权利要求2所述的方法,其特征在于,所述分析所述中间数据的使用状态以确定所述中间数据是否需要继续被保存包括:
统计所述中间数据的未被使用的累积时长,当所述累积时长达到预设门限时,标记所述中间数据为不被使用的数据;
当所述中间数据被标记为不被使用的数据的次数大于或等于预设门限时,确定所述中间数据不需要继续被保存。
5.根据权利要求2所述的方法,其特征在于,所述对所述数据关系进行分析,确定是否将所述多个任务合并为一个任务还包括:
根据数据处理逻辑判断是否同时存在多个能够产生相同中间数据的任务;
当同时存在多个能够产生相同中间数据的任务时,将所述多个能够产生相同中间数据的任务合并为一个任务。
6.根据权利要求1所述的方法,其特征在于,所述根据所述多个任务的数据处理逻辑确定多个任务之间的数据关系包括:
根据所述多个任务的数据处理逻辑确定多个任务之间的数据依赖关系;
所述对所述数据关系进行分析,确定是否将所述多个任务中的一个任务拆分成多个任务包括:
根据所述数据依赖关系,判断在所述多个任务中先执行的任务是否影响到后执行的任务的执行效率;
当判断先执行的任务影响到后执行的任务的执行效率时,根据所述数据依赖关系将所述先执行的任务拆分为多个任务,并将所述拆分出的多个任务中的一个任务的输出数据作为所述后执行的任务的输入数据。
7.一种大数据处理中的任务优化装置,其特征在于,包括:
分析模块,用于分析多个任务的数据处理逻辑;
确定模块,用于根据所述多个任务的数据处理逻辑确定多个任务之间的数据关系;
处理模块,用于对所述数据关系进行分析,确定是否将所述多个任务合并为一个任务或者将所述多个任务中的一个任务拆分成多个任务。
8.根据权利要求7所述的装置,其特征在于,所述确定模块包括:
第一确定子模块,用于根据所述多个任务的数据处理逻辑确定多个任务之间产生的中间数据;
所述处理模块包括:
分析子模块,用于分析所述中间数据的使用状态以确定所述中间数据是否需要继续被保存;
第一合并子模块,用于当所述中间数据不需要被保存时,根据所述数据处理逻辑将所述多个任务合并为一个任务。
9.根据权利要求8所述的装置,其特征在于,所述分析子模块包括:
分析单元,根据业务需求分析所述中间数据是否在业务中被使用;
第一确定单元,当所述中间数据在业务中不被使用时,确定所述中间数据不需要继续被保存。
10.根据权利要求8所述的装置,其特征在于,所述分析子模块包括:
标记单元,统计所述中间数据的未被使用的累积时长,当所述累积时长达到预设门限时,标记所述中间数据为不被使用的数据;
第二确定单元,当所述中间数据被标记为不被使用的数据的次数大于或等于预设门限时,确定所述中间数据不需要继续被保存。
11.根据权利要求8所述的装置,其特征在于,所述处理模块还包括:
第一判断子模块,用于根据数据处理逻辑判断是否同时存在多个能够产生相同中间数据的任务;
第二合并子模块,用于当同时存在多个能够产生相同中间数据的任务时,将所述多个能够产生相同中间数据的任务合并为一个任务。
12.根据权利要求8所述的装置,其特征在于,所述确定模块包括:
第二确定子模块,用于根据所述多个任务的数据处理逻辑确定多个任务之间的数据依赖关系;
所述处理模块包括:
第二判断子模块,用于根据所述数据依赖关系,判断在所述多个任务中先执行的任务是否影响到后执行的任务的执行效率;
拆分子模块,用于当判断先执行的任务影响到后执行的任务的执行效率时,根据所述数据依赖关系将所述先执行的任务拆分为多个任务,并将所述拆分出的多个任务中的一个任务的输出数据作为所述后执行的任务的输入数据。
CN201610308355.6A 2016-05-11 2016-05-11 大数据处理中的任务优化方法和装置 Pending CN105975600A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610308355.6A CN105975600A (zh) 2016-05-11 2016-05-11 大数据处理中的任务优化方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610308355.6A CN105975600A (zh) 2016-05-11 2016-05-11 大数据处理中的任务优化方法和装置

Publications (1)

Publication Number Publication Date
CN105975600A true CN105975600A (zh) 2016-09-28

Family

ID=56992907

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610308355.6A Pending CN105975600A (zh) 2016-05-11 2016-05-11 大数据处理中的任务优化方法和装置

Country Status (1)

Country Link
CN (1) CN105975600A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628675A (zh) * 2018-05-14 2018-10-09 五八有限公司 一种数据处理方法、装置、设备及计算机可读存储介质
CN109992416A (zh) * 2019-03-20 2019-07-09 跬云(上海)信息科技有限公司 基于预计算olap模型的多租户服务方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102456031A (zh) * 2010-10-26 2012-05-16 腾讯科技(深圳)有限公司 一种MapReduce***和处理数据流的方法
CN102932416A (zh) * 2012-09-26 2013-02-13 东软集团股份有限公司 一种信息流任务的中间数据存储方法、处理方法及装置
CN103793530A (zh) * 2014-02-26 2014-05-14 北京京东尚科信息技术有限公司 一种定期清理业务数据的方法、装置和***
CN104391748A (zh) * 2014-11-21 2015-03-04 浪潮电子信息产业股份有限公司 一种mapreduce计算过程优化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102456031A (zh) * 2010-10-26 2012-05-16 腾讯科技(深圳)有限公司 一种MapReduce***和处理数据流的方法
CN102932416A (zh) * 2012-09-26 2013-02-13 东软集团股份有限公司 一种信息流任务的中间数据存储方法、处理方法及装置
CN103793530A (zh) * 2014-02-26 2014-05-14 北京京东尚科信息技术有限公司 一种定期清理业务数据的方法、装置和***
CN104391748A (zh) * 2014-11-21 2015-03-04 浪潮电子信息产业股份有限公司 一种mapreduce计算过程优化方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628675A (zh) * 2018-05-14 2018-10-09 五八有限公司 一种数据处理方法、装置、设备及计算机可读存储介质
CN109992416A (zh) * 2019-03-20 2019-07-09 跬云(上海)信息科技有限公司 基于预计算olap模型的多租户服务方法及装置

Similar Documents

Publication Publication Date Title
CN112181758B (zh) 一种基于网络拓扑及实时告警的故障根因定位方法
CN109271970A (zh) 人脸检测模型训练方法及装置
US11580560B2 (en) Identity resolution for fraud ring detection
US8811750B2 (en) Apparatus and method for extracting edge in image
CN106384219A (zh) 仓储分仓辅助分析方法及装置
CN105678323A (zh) 基于图的分析用户的方法和***
CN111931809A (zh) 数据的处理方法、装置、存储介质及电子设备
CN111815432A (zh) 金融服务风险预测方法及装置
CN112532643B (zh) 基于深度学习的流量异常检测方法、***、终端及介质
CN107748898A (zh) 文件分类方法、装置、计算设备及计算机存储介质
TW201732655A (zh) 目標特徵資料的挖掘方法和其裝置
CN105975600A (zh) 大数据处理中的任务优化方法和装置
CN113434685A (zh) 一种资讯分类处理的方法及***
CN113543117B (zh) 携号转网用户的预测方法、装置及计算设备
WO2020239910A3 (en) An intelligent computer aided decision support system
Pourbafrani et al. Remaining time prediction for processes with inter-case dynamics
CN109977848A (zh) 色情检测模型的训练方法及装置、计算机设备及可读介质
CN105975577A (zh) 大数据处理中的数据优化方法和装置
CN113641906A (zh) 基于资金交易关系数据实现相似目标人员识别处理的***、方法、装置、处理器及其介质
KR20200137107A (ko) 기계 학습 기반의 시계열 데이터 분석 장치 및 방법
CN107766865A (zh) 池化方法、物体检测方法、装置、***及计算机可读介质
CN106372236A (zh) 评论数据的处理方法和装置
CN105468726B (zh) 基于本地计算和分布式计算的数据计算方法及***
CN109726670B (zh) 一种从视频中提取目标检测样本集的方法
CN109033210A (zh) 一种挖掘地图兴趣点poi的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160928