CN108509440A - 一种数据处理方法及装置 - Google Patents
一种数据处理方法及装置 Download PDFInfo
- Publication number
- CN108509440A CN108509440A CN201710103390.9A CN201710103390A CN108509440A CN 108509440 A CN108509440 A CN 108509440A CN 201710103390 A CN201710103390 A CN 201710103390A CN 108509440 A CN108509440 A CN 108509440A
- Authority
- CN
- China
- Prior art keywords
- node
- data source
- calculating
- dependence
- destination node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本发明实施例公开了一种数据处理方法,用于直观的展示出各计算作业之间的关系,使得用户能够快速找出异常的计算作业。本发明实施例方法包括:获取数据源及所述数据源对应的输出结果;确定数据源及所述输出结果之间的依赖关系,所述依赖关系包含从所述数据源中各数据源到所述输出结果之间的计算作业关系;根据所述依赖关系生成依赖关系图,所述依赖关系图包含所述各数据源所对应的数据源节点、计算作业节点及节点连接符,所述节点连接符用于从第一节点指向第二节点,所述第一节点为数据源节点或计算作业节点,所述第二节点为计算作业节点,所述第二节点对应的计算作业依赖于所述第一节点对应的数据源或计算作业结果。
Description
技术领域
本发明涉及计算机应用领域,尤其涉及一种数据处理方法及装置。
背景技术
大数据指的是无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着各类型企业的发展,社会大数据离线计算的要求也越来越高。
计算机设备在对大数据进行精细分析时,需要使用多分海量数据,通过多个计算作业,才能得到最终的分析结果。现有技术一般通过文本方式将分析过程中应用到的多个计算作业进行展示。
可是离线大数据的分析过程比较繁琐,计算作业链条通常是非常庞大的,一旦计算链条中某个节点出现异常,依据现有技术用户想要定位异常计算作业,就只能通过文本一个一个计算作业去排查问题,这需要耗费用户大量的时间。
发明内容
本发明实施例提供了一种数据处理方法及装置,用于直观的展示出各计算作业之间的关系,使得用户能够快速找出异常的计算作业。
有鉴于此,本发明实施例第一方面提供了一种数据处理方法,包括:
获取数据源及所述数据源对应的输出结果;
确定数据源及所述输出结果之间的依赖关系,所述依赖关系包含从所述数据源中各数据源到所述输出结果之间的计算作业关系;
根据所述依赖关系生成依赖关系图,所述依赖关系图包含所述各数据源所对应的数据源节点、计算作业节点及节点连接符,所述节点连接符用于从第一节点指向第二节点,所述第一节点为数据源节点或计算作业节点,所述第二节点为计算作业节点,所述第二节点对应的计算作业依赖于所述第一节点对应的数据源或计算作业结果。
本发明实施例第二方面提供了一种数据处理装置,包括:
获取模块,用于获取数据源及所述数据源对应的输出结果;
第一确定模块,用于确定数据源及所述输出结果之间的依赖关系,所述依赖关系包含从所述数据源中各数据源到所述输出结果之间的计算作业关系;
生成模块,用于根据所述依赖关系生成依赖关系图,所述依赖关系图包含所述各数据源所对应的数据源节点、计算作业节点及节点连接符,所述节点连接符用于从第一节点指向第二节点,所述第一节点为数据源节点或计算作业节点,所述第二节点为计算作业节点,所述第二节点对应的计算作业依赖于所述第一节点对应的数据源或计算作业结果。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例可以通过数据源及对应输出结果识别其间的依赖关系,利用识别出来的依赖关系生成依赖关系图,该依赖关系图包含数据源节点,计算作业节点及节点连接符,其中,节点连接符用于从第一节点指向第二节点,第一节点为数据源节点或计算作业节点,第二节点为计算作业节点,第二节点对应的计算作业依赖于第一节点对应的数据源或计算作业结果。也就是说本发明实施例通过图形展示计算作业以及各计算作业之间的关系,能够直观的展示出各计算作业之间的关系,从而当某个节点出现异常时,用户依据该依赖关系图便可以快速找出该异常计算作业。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例。
图1是本发明实施例中数据处理***的一个实施例示意图;
图2是本发明实施例中数据处理方法的一个实施例流程图;
图3是本发明实施例中数据处理方法的一个实施例流程图;
图4是本发明实施例中数据处理方法的一个实施例流程图;
图5是本发明实施例中数据处理方法中依赖关系图的一个实施例示意图;
图6是本发明实施例中数据处理方法中节点信息的一个实施例示意图;
图7是本发明实施例中数据处理装置的一个实施例示意图;
图8是本发明实施例中数据处理装置的另一实施例示意图;
图9是本发明实施例中数据处理装置的另一实施例示意图;
图10是本发明实施例中数据处理装置的另一实施例示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供了一种数据处理方法及装置,用于直观的展示出各计算作业之间的关系,使得用户能够快速找出异常的计算作业。
为了便于理解本发明实施例,下面对本发明实施例所适用的场景进行简单介绍,参见图1,其示出了本发明实施例提供的一种数据处理方法及装置所适用的一种***组成结构示意图。
如图1所示,该***可以包括由至少一台服务器101组成的服务***,以及多台终端102。其中,服务***中的服务器101中可以存储用于数据源及该数据源对应的输出结果,并将生成的依赖关系图传输给终端102。终端102可以用于向服务器上传用于生成依赖关系图的数据及输出结果,展现服务器返回的依赖关系图。应理解,终端102不限于图1所示的个人计算机(PC,Personal Computer),还可以是手机、平板电脑等其他能够获取并展示依赖关系图的设备。
如,用户终端上输入目标数据源,并针对目标数据源设定计算任务,终端根据设定的计算任务生成目标数据源对应的输出结果,终端将目标数据源及输出结果上传至服务器,服务器根据本发明实施例中的数据处理方法生成依赖关系图,并向该终端返回该依赖关系图,终端再向用户展示该依赖关系图。
应理解,本发明实施例中的数据处理方法除了适用于上述场景,还可以适用于其他场景,具体此处不作限定。为了便于理解本发明实施例,下面对本发明实施例中的一些关键词进行介绍:
数据源:本发明实施例中数据源指的是数据库中存储的未经处理的原始数据。
输出结果:本发明实施例中的输出结果指的在对大数据进行精细分析时,对原始数据进行多个计算作业后,输出的结果。
计算作业:本发明实施例中计算作业指的是在对大数据进行精细分析时,从原始数据到得到输出结果的过程中,所使用算法,分析方法,计算方法等处理步骤。
依赖关系:在大数据精细分析时,计算步骤通常是非常复杂的,需要使用多份海量数据,通过多个计算作业,才能得到最终的分析结果,这些数据与计算作业形成了本发明实施例中的依赖关系,只有当依赖链上层的数据或作业完成之后才能进行下一个计算作业。
排队耗时:对于计算作业所在任意一条的依赖链,从数据源开始到启动该计算作业所需要的时间即为该计算作业在该依赖链中的排队耗时。
执行耗时:执行该计算作业所用的时间。
启动时间:启动该计算作业的时间。
历史操作次数:当前时间之前***执行该计算作业的次数。
下面先介绍本发明实施例中的数据处理方法,请参阅图2,本发明实施例中数据处理方法的一个实施例包括:
201、获取数据源及数据源对应的输出结果;
数据处理装置获取数据源及该数据源对应的输出结果,具体地,该数据源可以是数据处理装置在运行游戏,金融管理,数据分析等应用程序的过程中生成的,可以是数据处理装置从其他装置获取的,还可以是数据处理装置通过其他方式得到并存储在数据库中的,具体此处不作限定。
202、确定数据源及输出结果之间的依赖关系;
获取数据源及数据源对应的输出结果后,数据处理装置根据各数据源及对应的输出结果自动识别出其间的依赖关系,该依赖关系包含从各数据源到对应的输出结果之间的计算作业关系。
203、根据依赖关系生成依赖关系图。
确定依赖关系后,根据该依赖关系生成依赖关系图,具体地,该依赖关系图包含各数据源对应的数据源节点,计算作业节点及节点连接符,该节点连接符用于从第一节点指向第二节点,第一节点为数据源节点或计算作业节点,第二节点为计算作业节点,第二节点对应的计算作业依赖于第一节点对应的数据源或计算作业结果。
本发明实施例可以通过数据源及对应输出结果识别其间的依赖关系,利用识别出来的依赖关系生成依赖关系图,该依赖关系图包含数据源节点,计算作业节点及节点连接符,其中,节点连接符用于从第一节点指向第二节点,第一节点为数据源节点或计算作业节点,第二节点为计算作业节点,第二节点对应的计算作业依赖于第一节点对应的数据源或计算作业结果。也就是说本发明实施例通过图形展示计算作业以及各计算作业之间的关系,能够直观的展示出各计算作业之间的关系,从而当某个节点出现异常时,用户依据该依赖关系图便可以快速找出该异常计算作业。
应理解,基于上述图2对应的实施例,生成出依赖关系图之后,可以向用户展示该依赖关系图,并根据用户的操作执行响应的任务,具体地,下面对其中几种操作方式进行详细说明。
一、查询操作。
请参阅图3,本发明实施例中数据处理方法的另一实施例包括:
301、获取数据源及数据源对应的输出结果;
数据处理装置获取数据源及该数据源对应的输出结果,具体地,该数据源可以是数据处理装置在运行游戏,金融管理,数据分析等应用程序的过程中生成的,可以是数据处理装置从其他装置获取的,还可以是数据处理装置通过其他方式得到并存储在数据库中的,具体此处不作限定。
具体地,数据处理装置可以通过如下方式获取数据源及对应的输出结果:确定用户选择的目标计算作业,获取与该目标计算作业具有关联关系的数据源及输出结果。需要说明的是,具有关联关系的数据源指的是从该数据源到该数据源对应的输出结果的过程包含有该目标计算作业的数据源,具有关联关系的输出结果指的是从该输出结果对应的数据源到该输出结果的过程包含有该目标计算作业的输出结果。
应理解,数据处理装置也可以自动获取数据库中与当前时间相隔预置时间的所有数据源及这些数据源对应的输出结果,数据处理装置还可以自动获取数据库中预置数量的数据源及这些数据源对应的输出结果,数据处理装置还可以通过其他方式获取数据源及输出结果,具体此处不作限定。
302、确定数据源及输出结果之间的依赖关系;
获取数据源及数据源对应的输出结果后,数据处理装置根据各数据源及对应的输出结果自动识别出其间的依赖关系,该依赖关系包含从各数据源到对应的输出结果之间的计算作业关系。
303、根据依赖关系生成依赖关系图;
确定依赖关系后,根据该依赖关系生成依赖关系图,具体地,该依赖关系图包含各数据源对应的数据源节点,计算作业节点及节点连接符,该节点连接符用于从第一节点指向第二节点,第一节点为数据源节点或计算作业节点,第二节点为计算作业节点,第二节点对应的计算作业依赖于第一节点对应的数据源或计算作业结果。
应理解,该依赖关系图还可以包含状态标识,该状态标识用于标识依赖关系图中的计算作业节点对应的状态或数据源节点对应的状态,这些状态可以是操作成功,操作延迟,操作失败,操作未启动或其他,具体此处不作限定。
还应理解,数据处理装置可以将获取到的数据源进行分组,具体可以将从同一装置获取的数据源分为一组,或将具有相同权限的用户所上传的数据源分为一组,或通过其他方式将数据源进行分组,具体此处不作限定。相应地,依赖关系图还可以包含数据标识,该数据标识用于标识属于同一组的数据源。
304、接收用户对该依赖关系图中目标节点的查询指令;
数据处理装置生成出依赖关系图后,向用户展示该依赖关系图,用户选择该依赖关系图中的目标节点,并针对该目标节点发送查询指令,数据处理装置接收用户发送的查询指令。
应理解,目标节点可以包含一个或多个节点,这一个或多个节点可以是数据源节点,也可以是计算作业节点,具体此处不作限定。
305、确定目标节点对应的节点信息;
接收到查询指令后,数据处理装置确定该目标节点对应的节点信息,具体地,当目标节点为计算作业节点时,节点信息可以包括:目标节点对应计算作业的名称,目标节点对应的计算作业的创建时间,目标节点对应的计算作业的历史操作次数,目标节点对应的计算作业的排队耗时,目标节点对应的计算作业的执行耗时,目标节点对应的启动时间,目标节点对应的计算作业的历史排队耗时,目标节点对应的计算作业的历史执行耗时,目标节点对应的计算作业的历史启动时间或其他信息;当目标节点为数据源节点时,节点信息可以包括:目标节点对应的数据源,目标节点对应的数据源的创建时间或其他信息。
应理解,本发明实施例中历史排队耗时具体可以是最近的一次执行该计算作业的排队耗时,可以是最近几次执行该计算作业的平均排队耗时,可以是历史上每次执行该计算作业的平均排队耗时,还可以是该计算作业对应的其他历史排队耗时,具体此处不作限定。本发明实施例中历史启动时间具体可以是最近一次启动该计算作业的时间,可以是最近几次启动该计算作业的时间,还可以是其他历史上启动该计算作业的时间,具体此处不作限定。本发明实施例中的历史执行耗时具体可以是最近一次执行该计算作业所耗费的时间,可以是最近几次执行该计算作业所耗费的平均时间,可以是历史上每次执行该计算作业所耗费的平均时间,还可以是其他历史上执行该计算作业所耗费的时间,具体此处不作限定。
具体地,数据处理装置可以通过如下方式确定目标节点对应的节点信息:数据处理装置根据查询指令的类型确定目标节点对应的节点信息,比如说,用户发送的查询指令为名称查询指令,则数据处理装置确定的节点信息为计算作业的名称,用户发送的查询指令为启动时间查询指令,则数据处理装置确定的节点信息为计算作业的启动时间,此处不再一一列举。
数据处理装置还可以通过如下方式确定目标节点对应的节点信息:数据处理装置根据用户目标节点所包含的数量确定目标节点对应的节点信息,比如说,目标节点包含一个计算作业节点时,数据处理装置确定的节点信息为该目标节点对应的计算作业的名称,创建时间及计算作业的历史操作次数;用户选择的目标节点包含多个计算作业节点时,数据处理装置确定的节点信息为该目标节点对应的计算作业的排队耗时,执行耗时,历史排队耗时及历史执行耗时。
数据处理装置还可以通过其他方式确定目标节点对应的节点信息,具体此处不作限定。
306、向用户返回该节点信息。
数据处理装置确定目标节点对应的节点信息后,向用户返回该节点信息,具体地可以通过文本的方式展示该节点信息,也可以通过图表的方式展示该节点信息,还可以通过其他方式展示该节点信息,具体此处不作限定。
本发明实施例可以通过数据源及对应输出结果识别其间的依赖关系,利用识别出来的依赖关系生成依赖关系图,该依赖关系图包含数据源节点,计算作业节点及节点连接符,其中,节点连接符用于从第一节点指向第二节点,第一节点为数据源节点或计算作业节点,第二节点为计算作业节点,第二节点对应的计算作业依赖于第一节点对应的数据源或计算作业结果。也就是说本发明实施例通过图形展示计算作业以及各计算作业之间的关系,能够直观的展示出各计算作业之间的关系,从而当某个节点出现异常时,用户依据该依赖关系图便可以快速找出该异常计算作业。
其次,本发明实施例中的依赖关系图还可以包括状态信息,则用户直接通过该依赖关系图就可以了解各计算作业的状态,即数据处理装置可以自动识别出异常的计算作业,不需要用户针对每个计算作业进行分析,节省用户的操作时间,进一步提升识别速度。
再次,本发明实施例可以根据用户的查询指令向用户返回目标节点的节点信息,便于用户对各计算作业及数据源进行管理。
二、重运行操作。
请参阅图4,本发明实施例中数据处理方法的另一实施例包括:
401、获取数据源及数据源对应的输出结果;
数据处理装置获取数据源及该数据源对应的输出结果,具体地,该数据源可以是数据处理装置在运行游戏,金融管理,数据分析等应用程序的过程中生成的,可以是数据处理装置从其他装置获取的,还可以是数据处理装置通过其他方式得到并存储在数据库中的,具体此处不作限定。
具体地,数据处理装置可以通过如下方式获取数据源及对应的输出结果:确定用户选择的目标计算作业,获取与该目标计算作业具有关联关系的数据源及输出结果。需要说明的是,具有关联关系的数据源指的是从该数据源到该数据源对应的输出结果的过程包含有该目标计算作业的数据源,具有关联关系的输出结果指的是从该输出结果对应的数据源到该输出结果的过程包含有该目标计算作业的输出结果。
应理解,数据处理装置也可以自动获取数据库中与当前时间相隔预置时间的所有数据源及这些数据源对应的输出结果,数据处理装置还可以自动获取数据库中预置数量的数据源及这些数据源对应的输出结果,数据处理装置还可以通过其他方式获取数据源及输出结果,具体此处不作限定。
402、确定数据源及输出结果之间的依赖关系;
获取数据源及数据源对应的输出结果后,数据处理装置根据各数据源及对应的输出结果自动识别出其间的依赖关系,该依赖关系包含从各数据源到对应的输出结果之间的计算作业关系。
403、根据依赖关系生成依赖关系图;
确定依赖关系后,根据该依赖关系生成依赖关系图,具体地,该依赖关系图包含各数据源对应的数据源节点,计算作业节点及节点连接符,该节点连接符用于从第一节点指向第二节点,第一节点为数据源节点或计算作业节点,第二节点为计算作业节点,第二节点对应的计算作业依赖于第一节点对应的数据源或计算作业结果。
应理解,该依赖关系图还可以包含状态标识,该状态标识用于标识依赖关系图中的计算作业节点或数据源节点对应的状态,该状态可以是操作成功,操作延迟,操作失败,操作未启动或其他,具体此处不作限定。
还应理解,数据处理装置可以将获取到的数据源进行分组,具体可以将从同一装置获取的数据源分为一组,或将具有相同权限的用户所上传的数据源分为一组,或通过其他方式将数据源进行分组,具体此处不作限定。相应地,依赖关系图还可以包含数据标识,该数据标识用于标识属于同一组的数据源。
404、接收用户对该依赖关系图中目标计算作业节点的重运行指令;
数据处理装置生成出依赖关系图后,向用户展示该依赖关系图,用户选择该依赖关系图中的目标计算作业节点,并针对该目标节点发送重运行指令,数据处理装置接收用户发送的重运行指令。
应理解,目标计算作业节点可以包含一个或多个计算作业节点,具体此处不作限定。
具体地,对于包含有状态标识的依赖关系图,用户可以选择状态为操作失败,操作延迟或操作未启动的计算作业对应的计算作业节点,也可以选择其他状态的计算作业节点,具体此处不作限定。对于未包含有状态标识的依赖关系图,用户可以选择需要进行优化或分析的计算作业对应的计算作业节点,也可以选择其他计算作业节点,具体此处不作限定。
405、根据该重运行指令再次执行该目标计算作业节点对应的计算作业;
数据处理装置接收到重运行指令后,根据该重运行指令再次执行该目标计算作业节点对应的计算作业。具体地,数据处理装置再次执行时,可以基于最新的数据源执行该计算作业,也可以基于用于生成该依赖关系图的数据源执行该计算作业,具体此处不作限定。
406、向用户返回再次执行的结果。
数据处理装置将执行该目标计算作业节点对应的计算作业所得到的结果向用户返回,具体地,该结果可以只是一个状态指示,即指示用户操作成功,操作延迟,操作失败,操作未启动或其他状态。该结果也可以是一个计算结果,即执行该计算作业后得到的数据。该结果还可以是其他信息,具体此处不作限定。
本发明实施例可以通过数据源及对应输出结果识别其间的依赖关系,利用识别出来的依赖关系生成依赖关系图,该依赖关系图包含数据源节点,计算作业节点及节点连接符,其中,节点连接符用于从第一节点指向第二节点,第一节点为数据源节点或计算作业节点,第二节点为计算作业节点,第二节点对应的计算作业依赖于第一节点对应的数据源或计算作业结果。也就是说本发明实施例通过图形展示计算作业以及各计算作业之间的关系,能够直观的展示出各计算作业之间的关系,从而当某个节点出现异常时,用户依据该依赖关系图便可以快速找出该异常计算作业。
其次,本发明实施例可以根据用户的重运行指令再次执行计算作业,使得用户可以通过重运行的结果,对异常的计算作业作进一步的分析,便于用户对各计算作业的优化。
为了便于理解,下面以一应用场景介绍本发明实施例中的数据处理方法:
用户U1通过电脑P1将数据B、C和D上传到服务器中,服务器将B、C和D存储在数据库中。用户U2通过电脑P2将数据E上传到服务器中,服务器将E存储在数据库中。服务器根据预先设定的计算任务,完成如下计算:数据B通过计算作业A得到输出结果J;数据C通过计算作业F后,再通过计算作业A得到输出结果K;数据D先通过计算作业G,再通过计算作业I最后通过计算作业A得到输出结果L;数据E先通过计算作业H,再通过计算作业I,最后通过计算作业A得到输出结果M。用户U1通过电脑P1登录服务器,选择计算作业A(目标计算作业),并发送生成依赖关系图的指令,服务器根据该指令确定计算作业A,并获取与该目标计算作业具有关联关系的数据源B、C、D和E(数据源)以及输出结果J,K,L和M,根据获取的数据源以及输出结果识别出期间的依赖关系,具体地:从数据B到输出结果J需要完成计算作业A;从数据C到输出结果K需要先完成计算作业F,再完成计算作业A;从数据D到输出结果L需要先完成计算作业G,再完成计算作业I,再完成计算作业A;从数据E到输出结果M,需要先完成计算作业H,再完成计算作业I,再完成计算作业A。根据上述依赖关系,生成如图5所示的依赖关系图,其中,B,C,D和E为数据源节点,A,F,G,H和I为计算作业节点,计算作业F和计算作业G操作成功,计算作业A,F,H和I在操作过程中有延迟。图中的有向线段为节点连接符,从B到A为该依赖关系图中一条完整的依赖链,从C到F再到A为该依赖关系图中一条完整的依赖链,从D到F到I再到A为该依赖关系图中一条完整的依赖链,从E到H到I再到A为该依赖关系图中一条完整的依赖链。
服务器生成如图5所述的依赖关系图后,通过电脑P1向用户U1展示该依赖关系图,用户U1选择该依赖关系图中的计算作业节点A和计算作业F,并点击功能按钮“分析”,电脑P1服务器发送针对于计算作业节点A和计算作业节点F(目标节点)的分析指令,服务器接收该分析指令,确定计算作业节点A和计算作业节点F分别对应的启动时间,最近一次的启动时间,排队耗时,历史平均排队耗时,执行耗时及历史平均排队耗时(目标节点对应的节点信息),服务器根据这些信息生成如图6所示折线图,并向用户返回该折线图。
上面介绍了本发明实施例中的数据处理方法,下面介绍本发明实施例中的数据处理装置,请参阅图7,本发明实施例中数据处理装置的一个实施例包括:
获取模块701,用于获取数据源及数据源对应的输出结果;
第一确定模块702,用于确定数据源及输出结果之间的依赖关系,依赖关系包含从数据源中各数据源到输出结果之间的计算作业关系;
生成模块703,用于根据依赖关系生成依赖关系图,依赖关系图包含各数据源所对应的数据源节点,计算作业节点及节点连接符,节点连接符用于从第一节点指向第二节点,第一节点为数据源节点或计算作业节点,第二节点为计算作业节点,第二节点对应的计算作业依赖于第一节点对应的数据源或计算作业结果。
本发明实施例可以通过数据源及对应输出结果识别其间的依赖关系,利用识别出来的依赖关系生成依赖关系图,该依赖关系图包含数据源节点,计算作业节点及节点连接符,其中,节点连接符用于从第一节点指向第二节点,第一节点为数据源节点或计算作业节点,第二节点为计算作业节点,第二节点对应的计算作业依赖于第一节点对应的数据源或计算作业结果。也就是说本发明实施例通过图形展示计算作业以及各计算作业之间的关系,能够直观的展示出各计算作业之间的关系,从而当某个节点出现异常时,用户依据该依赖关系图便可以快速找出该异常计算作业。
基于上述图7对应的实施例,请参阅图8,在本发明实施例提供的数据处理装置的另一实施例中,该数据处理装置还包括:
第一接收模块704,用于接收用户对依赖关系图中目标节点的查询指令;
第二确定模块705,用于确定目标节点对应的节点信息;
第一发送模块706,用于向用户返回节点信息。
应理解,本发明实施例中,当目标节点为计算作业节点时,节点信息可以包括:目标节点对应计算作业的名称,目标节点对应的计算作业的创建时间,目标节点对应的计算作业的历史操作次数,目标节点对应的计算作业的排队耗时,目标节点对应的计算作业的执行耗时,目标节点对应的启动时间,目标节点对应的计算作业的历史排队耗时,目标节点对应的计算作业的历史执行耗时,目标节点对应的计算作业的历史启动时间或其他信息;当目标节点为数据源节点时,节点信息可以包括:目标节点对应的数据源,目标节点对应的数据源的创建时间或其他信息。
本发明实施例中的依赖关系图还可以包括状态信息,则用户直接通过该依赖关系图就可以了解各计算作业的状态,即数据处理装置可以自动识别出异常的计算作业,不需要用户针对每个计算作业进行分析,节省用户的操作时间,进一步提升识别速度。
本发明实施例可以根据用户的查询指令向用户返回目标节点的节点信息,便于用户对各计算作业及数据源进行管理。
基于上述图7或图8对应的实施例,请参阅图9,在本发明实施例提供的数据处理装置的另一实施例中,该数据处理装置还包括:
第二接收模块707,用于接收用户对依赖关系图中目标计算作业节点的重运行指令;
执行模块708,用于根据重运行指令再次执行目标计算作业节点对应的计算作业;
第二发送模块709,用于向用户返回再次执行的结果。
本发明实施例可以根据用户的重运行指令再次执行计算作业,使得用户可以通过重运行的结果,对异常的计算作业作进一步的分析,便于用户对各计算作业的优化。
基于上述图7至图9对应实施例中的任意一个实施例,在本发明实施例提供的数据处理装置的另一实施例中,获取模块可以包括:
确定单元,用于确定用户选择的目标计算作业;
获取单元,用于获取与目标计算作业具有关联关系的数据源以及输出结果。
本发明实施例提供了一种获取模块获取数据源及输出结果的具体方式,提高了方案的可实现性。
应理解,基于上述图7至图9对应实施例中的任意一个实施例,在本发明实施例提供的数据处理装置的另一些实施例中,依赖关系图可以包含状态标识,该状态标识用于标识依赖关系图中的计算作业节点或数据源节点对应的状态,该状态可以是操作成功,操作延迟,操作失败,操作未启动或其他,具体此处不作限定。
应理解,基于上述图7至图9对应实施例中的任意一个实施例,在本发明实施例提供的数据处理装置的另一些实施例中,数据处理装置可以将获取到的数据源进行分组,具体可以将从同一装置获取的数据源分为一组,或将具有相同权限的用户所上传的数据源分为一组,或通过其他方式将数据源进行分组,具体此处不作限定。相应地,依赖关系图还可以包含数据标识,该数据标识用于标识属于同一组的数据源。
上面从功能模块的角度介绍了本发明实施例中的数据处理装置,下面从功能硬件的角度介绍本发明实施例中的数据处理装置,请参阅图10,图10是本发明实施例中数据处理装置80的结构示意图。数据处理装置80可包括输入设备810、输出设备820、处理器830和存储器840。本发明实施例中的输出设备可以是显示设备。
存储器840可以包括只读存储器和随机存取存储器,并向处理器830提供指令和数据。存储器840的一部分还可以包括非易失性随机存取存储器(Non-Volatile RandomAccess Memory,NVRAM)。
存储器840存储了如下的元素,可执行模块或者数据结构,或者它们的子集,或者它们的扩展集:
操作指令:包括各种操作指令,用于实现各种操作。
操作***:包括各种***程序,用于实现各种基础业务以及处理基于硬件的任务。
本发明实施例中处理器830用于:
获取数据源及所述数据源对应的输出结果;
确定数据源及所述输出结果之间的依赖关系,所述依赖关系包含从所述数据源中各数据源到所述输出结果之间的计算作业关系;
根据所述依赖关系生成依赖关系图,所述依赖关系图包含所述各数据源所对应的数据源节点、计算作业节点及节点连接符,所述节点连接符用于从第一节点指向第二节点,所述第一节点为数据源节点或计算作业节点,所述第二节点为计算作业节点,所述第二节点对应的计算作业依赖于所述第一节点对应的数据源或计算作业结果。
处理器830控制数据处理装置80的操作,处理器830还可以称为中央处理单元(Central Processing Unit,CPU)。存储器840可以包括只读存储器和随机存取存储器,并向处理器830提供指令和数据。存储器840的一部分还可以包括NVRAM。具体的应用中,数据处理装置80的各个组件通过总线***850耦合在一起,其中总线***850除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线***850。
上述本发明实施例揭示的方法可以应用于处理器830中,或者由处理器830实现。处理器830可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器830中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器830可以是通用处理器、数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器840,处理器830读取存储器840中的信息,结合其硬件完成上述方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (14)
1.一种数据处理方法,其特征在于,包括:
获取数据源及所述数据源对应的输出结果;
确定数据源及所述输出结果之间的依赖关系,所述依赖关系包含从所述数据源中各数据源到所述输出结果之间的计算作业关系;
根据所述依赖关系生成依赖关系图,所述依赖关系图包含所述各数据源所对应的数据源节点、计算作业节点及节点连接符,所述节点连接符用于从第一节点指向第二节点,所述第一节点为数据源节点或计算作业节点,所述第二节点为计算作业节点,所述第二节点对应的计算作业依赖于所述第一节点对应的数据源或计算作业结果。
2.根据权利要求1所述的方法,其特在于,所述根据所述依赖关系生成依赖关系图之后包括:
接收用户对所述依赖关系图中目标节点的查询指令;
确定所述目标节点对应的节点信息;
向所述用户返回所述节点信息。
3.根据权利要求2所述的方法,其特征在于,当所述目标节点为计算作业节点时,所述节点信息包括:所述目标节点对应的计算作业的名称,所述目标节点对应的计算作业的创建时间,所述目标节点对应的计算作业的历史操作次数,所述目标节点对应的计算作业的启动时间,所述目标节点对应的计算作业的排队耗时,所述目标节点对应的计算作业的执行耗时,所述目标节点对应的计算作业的历史启动时间,所述目标节点对应的计算作业的历史排队耗时或所述目标节点对应的计算作业的历史执行耗时。
4.根据权利要求2所述的方法,其特征在于,当所述目标节点为数据源节点时,所述节点信息包括:所述目标节点对应的数据源,所述目标节点对应的数据源的创建时间。
5.根据权利要求1所述的方法,其特征在于,所述根据所述依赖关系生成依赖关系图之后包括:
接收用户对所述依赖关系图中目标计算作业节点的重运行指令;
根据所述重运行指令再次执行所述目标计算作业节点对应的计算作业;
向所述用户返回所述再次执行的结果。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述获取数据源及所述数据源对应的输出结果包括:
确定用户选择的目标计算作业;
获取与所述目标计算作业具有关联关系的数据源以及输出结果。
7.根据权利要求1至5中任一项所述的方法,其特征在于,所述依赖关系图还包含状态标识,所述状态标识用于标识所述依赖关系图中的计算作业节点或数据源节点对应的状态,所述状态包括:操作成功,操作延迟,操作失败或操作未启动。
8.一种数据处理装置,其特征在于,包括:
获取模块,用于获取数据源及所述数据源对应的输出结果;
第一确定模块,用于确定数据源及所述输出结果之间的依赖关系,所述依赖关系包含从所述数据源中各数据源到所述输出结果之间的计算作业关系;
生成模块,用于根据所述依赖关系生成依赖关系图,所述依赖关系图包含所述各数据源所对应的数据源节点、计算作业节点及节点连接符,所述节点连接符用于从第一节点指向第二节点,所述第一节点为数据源节点或计算作业节点,所述第二节点为计算作业节点,所述第二节点对应的计算作业依赖于所述第一节点对应的数据源或计算作业结果。
9.根据权利要求8所述的装置,其特在于,所述装置还包括:
第一接收模块,用于接收用户对所述依赖关系图中目标节点的查询指令;
第二确定模块,用于确定所述目标节点对应的节点信息;
第一发送模块,用于向所述用户返回所述节点信息。
10.根据权利要求9所述的装置,其特征在于,当所述目标节点为计算作业节点时,所述节点信息包括:所述目标节点对应的计算作业的名称,所述目标节点对应的计算作业的创建时间,所述目标节点对应的计算作业的历史操作次数,所述目标节点对应的计算作业的启动时间,所述目标节点对应的计算作业的排队耗时,所述目标节点对应的计算作业的执行耗时,所述目标节点对应的计算作业的历史启动时间,所述目标节点对应的计算作业的历史排队耗时或所述目标节点对应的计算作业的历史执行耗时。
11.根据权利要求9所述的装置,其特征在于,当所述目标节点为数据源节点时,所述节点信息包括:所述目标节点对应的数据源,所述目标节点对应的数据源的创建时间。
12.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第二接收模块,用于接收用户对所述依赖关系图中目标计算作业节点的重运行指令;
执行模块,用于根据所述重运行指令再次执行所述目标计算作业节点对应的计算作业;
第二发送模块,用于向所述用户返回所述再次执行的结果。
13.根据权利要求8至12中任一项所述的装置,其特征在于,所述获取模块包括:
确定单元,用于确定用户选择的目标计算作业;
获取单元,用于获取与所述目标计算作业具有关联关系的数据源以及输出结果。
14.根据权利要求8至12中任一项所述的装置,其特征在于,所述依赖关系图还包含状态标识,所述状态标识用于标识所述依赖关系图中的计算作业节点或数据源节点对应的状态,所述状态包括:操作成功,操作延迟,操作失败或操作未启动。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710103390.9A CN108509440A (zh) | 2017-02-24 | 2017-02-24 | 一种数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710103390.9A CN108509440A (zh) | 2017-02-24 | 2017-02-24 | 一种数据处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108509440A true CN108509440A (zh) | 2018-09-07 |
Family
ID=63372949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710103390.9A Pending CN108509440A (zh) | 2017-02-24 | 2017-02-24 | 一种数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108509440A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109598407A (zh) * | 2018-10-26 | 2019-04-09 | 阿里巴巴集团控股有限公司 | 一种业务流程的执行方法及装置 |
CN109800278A (zh) * | 2018-12-29 | 2019-05-24 | 亚信科技(南京)有限公司 | 数据资产图谱使用方法、装置、计算机设备和存储介质 |
CN110032554A (zh) * | 2019-04-10 | 2019-07-19 | 北京字节跳动网络技术有限公司 | 数据仓库表的管理方法、装置、存储介质及电子设备 |
CN113569184A (zh) * | 2021-07-16 | 2021-10-29 | 众安在线财产保险股份有限公司 | 可配置的数据计算方法、装置、设备及计算机可读介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101147187A (zh) * | 2005-04-19 | 2008-03-19 | 国际商业机器公司 | 用于管理分布式异质数据源之间的复杂关系的***和方法 |
CN102239458A (zh) * | 2008-12-02 | 2011-11-09 | 起元技术有限责任公司 | 可视化数据元素之间的关系 |
CN106293928A (zh) * | 2015-06-05 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 一种全局任务节点依赖关系可视化方法、装置和*** |
-
2017
- 2017-02-24 CN CN201710103390.9A patent/CN108509440A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101147187A (zh) * | 2005-04-19 | 2008-03-19 | 国际商业机器公司 | 用于管理分布式异质数据源之间的复杂关系的***和方法 |
CN102239458A (zh) * | 2008-12-02 | 2011-11-09 | 起元技术有限责任公司 | 可视化数据元素之间的关系 |
CN106293928A (zh) * | 2015-06-05 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 一种全局任务节点依赖关系可视化方法、装置和*** |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109598407A (zh) * | 2018-10-26 | 2019-04-09 | 阿里巴巴集团控股有限公司 | 一种业务流程的执行方法及装置 |
CN109598407B (zh) * | 2018-10-26 | 2024-04-05 | 创新先进技术有限公司 | 一种业务流程的执行方法及装置 |
CN109800278A (zh) * | 2018-12-29 | 2019-05-24 | 亚信科技(南京)有限公司 | 数据资产图谱使用方法、装置、计算机设备和存储介质 |
CN110032554A (zh) * | 2019-04-10 | 2019-07-19 | 北京字节跳动网络技术有限公司 | 数据仓库表的管理方法、装置、存储介质及电子设备 |
CN113569184A (zh) * | 2021-07-16 | 2021-10-29 | 众安在线财产保险股份有限公司 | 可配置的数据计算方法、装置、设备及计算机可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108595157B (zh) | 区块链数据的处理方法、装置、设备和存储介质 | |
CN108509440A (zh) | 一种数据处理方法及装置 | |
US9471470B2 (en) | Automatically recommending test suite from historical data based on randomized evolutionary techniques | |
EP3468095A1 (en) | Transaction selection device for selecting blockchain transactions | |
CN109544293A (zh) | 交易限额处理方法及装置 | |
CN108198076A (zh) | 一种金融投资方法、装置、终端设备和存储介质 | |
US8683027B2 (en) | Utilization of uncertainty dependency relationships between items in a data stream | |
EP3018581B1 (en) | Data staging management system | |
CN106648839A (zh) | 数据处理的方法和装置 | |
CN106095511A (zh) | 一种服务器升级方法和装置 | |
CN109657240A (zh) | 确定故障类型的方法、装置、设备和介质 | |
US8539496B1 (en) | Method and apparatus for configuring network systems implementing diverse platforms to perform business tasks | |
CN115357897A (zh) | 一种开源软件识别方法及装置 | |
CN112181964A (zh) | 一种业务通知去重方法、装置、服务器及储存介质 | |
CN108876339B (zh) | 基于通证的电子宠物交易方法及装置 | |
CN116860344A (zh) | 一种流程管理方法、***、设备及介质 | |
CN111861100A (zh) | 一种基于流程评分的工单处理方法及装置 | |
CN116521945A (zh) | 用于区块链加密货币交易溯源的资金关联图构建方法及控制*** | |
CN113139102B (zh) | 数据处理方法、装置、非易失性存储介质及处理器 | |
CN114860608A (zh) | 基于场景构建的***自动化测试方法、装置、设备及介质 | |
CN111130921B (zh) | 核心网网元的性能指标处理方法及装置 | |
US20220046339A1 (en) | Data collection device, data collection method, and program | |
CN109871331A (zh) | 软件功能试错决策分析方法和装置 | |
CN110493058A (zh) | 网络拓扑结构的构建方法及装置、存储介质、终端 | |
CN109246125A (zh) | 一种主机安全状况评估*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180907 |
|
RJ01 | Rejection of invention patent application after publication |