发明内容
本发明的目的在于提供一种基于人工智能的大数据清洗任务处理方法及云计算***。
第一方面,本发明实施例提供一种基于人工智能的大数据清洗任务处理方法,包括:
基于第一大数据清洗任务在初始响应时间内的任务接收请求量,获得第一大数据清洗任务的第一活跃系数;
基于第一活跃系数,获得第一大数据清洗任务对应的第一可分配云计算资源,其中,第一可分配云计算资源为候选云计算资源群组中允许的为第一大数据清洗任务分配的第一候选云计算资源分组中的可分配云计算资源,第一活跃系数对第一可分配云计算资源的数量存在正反馈调节;
基于第一任务分配列表中的云计算资源优先级在第一候选云计算资源分组中匹配高适配候选云计算资源,其中,第一任务分配列表包括基于云计算资源优先级形成的第一候选云计算资源分组,云计算资源优先级是基于第一大数据清洗任务对应的云计算资源画像计算的,高适配候选云计算资源的大数据清洗工作量小于预置最大工作量阈值;
在第一候选云计算资源分组中匹配到高适配候选云计算资源时,向第一管理服务器发送高适配候选云计算资源的云计算资源标识;
在第一管理服务器基于云计算资源标识向高适配候选云计算资源发送第一分配请求时,在第一管理服务器上获取大数据清洗策略生成指示;
基于大数据清洗策略生成指示,获得出适配于第一大数据清洗任务的大数据清洗策略。
在一种可能的实施方式中,基于第一任务分配列表中的云计算资源优先级在第一候选云计算资源分组中匹配高适配候选云计算资源,包括:
对第一大数据清洗任务和当前匹配轮询次数标识执行第一匹配策略,得到当前云计算资源画像;
在候选云计算资源群组中匹配当前云计算资源画像的云计算资源;
在匹配到当前云计算资源画像的云计算资源、且当前云计算资源画像的云计算资源的大数据清洗工作量小于预置最大工作量阈值时,将当前云计算资源画像的云计算资源确定为高适配候选云计算资源;
在匹配到当前云计算资源画像的云计算资源、且当前云计算资源画像的云计算资源的大数据清洗工作量为预置最大工作量阈值时,将当前匹配轮询次数标识增加标识增加字符;
重复执行上述对第一大数据清洗任务和当前匹配轮询次数标识执行第一匹配策略,得到当前云计算资源画像的步骤至在所述候选云计算资源群组中匹配云计算资源画像为所述当前云计算资源画像的云计算资源的步骤,直到匹配到高适配候选云计算资源,其中,当前匹配轮询次数标识的初始匹配轮询次数标识为第一匹配轮询次数标识,候选云计算资源群组中的每个云计算资源被设置有与第一匹配策略对应的不同云计算资源画像。
在一种可能的实施方式中,对第一大数据清洗任务和当前匹配轮询次数标识执行第一匹配策略,得到当前云计算资源画像,包括:
对第一大数据清洗任务与当前匹配轮询次数标识的和执行第一匹配策略,得到当前云计算资源画像;或者
将第一大数据清洗任务和当前匹配轮询次数标识进行整合,得到第一整合任务轮询信息;
对第一整合任务轮询信息执行第一匹配策略,得到当前云计算资源画像。
在一种可能的实施方式中,方法还包括:
在候选云计算资源群组中匹配当前云计算资源画像的云计算资源;
在匹配到当前云计算资源画像的云计算资源时,将当前云计算资源画像的云计算资源设置为第一任务分配列表中的预设顺位序号云计算资源;
在预设顺位序号未完全匹配第一可分配云计算资源时,将预设顺位序号延后一位,并将当前匹配轮询次数标识增加标识增加字符;
重复执行上述步骤,直到预设顺位序号完全匹配第一可分配云计算资源,其中,当前匹配轮询次数标识的初始匹配轮询次数标识为第一匹配轮询次数标识,预设顺位序号的初始匹配轮询次数标识为1。
在一种可能的实施方式中,方法还包括:
在第一匹配策略的策略指示包括第一预设数量个不同的云计算资源画像、候选云计算资源群组包括第一预设数量个云计算资源时,为第一预设数量个云计算资源中的每个云计算资源设置第一预设数量个不同的云计算资源画像中的一个云计算资源画像,其中,第一预设数量个不同的云计算资源画像与第一预设数量个云计算资源具有一一对应关系。
在一种可能的实施方式中,方法还包括:
在第一匹配策略的策略指示包括第一预设数量个不同的云计算资源画像、候选云计算资源群组包括第二预设数量个云计算资源、且第一预设数量小于第二预设数量时,将第二预设数量个云计算资源中的部分云计算资源优化成一个同类型云计算资源,共得到第一预设数量个云计算资源,为第一预设数量个云计算资源中的每个云计算资源设置第一预设数量个不同的云计算资源画像中的一个云计算资源画像,其中,第一预设数量个不同的云计算资源画像与第一预设数量个云计算资源具有一一对应关系第一预设数量个云计算资源包括一个或多个同类型云计算资源;或者
在第一匹配策略的策略指示包括第一预设数量个不同的云计算资源画像、候选云计算资源群组包括第二预设数量个云计算资源、且第一预设数量大于第二预设数量时,将第二预设数量个云计算资源中的部分云计算资源复制成多个重复类型云计算资源,共得到第一预设数量个云计算资源,为第一预设数量个云计算资源中的每个云计算资源设置第一预设数量个不同的云计算资源画像中的一个云计算资源画像,其中,第一预设数量个不同的云计算资源画像与第一预设数量个云计算资源具有一一对应关系第一预设数量个云计算资源包括多个重复类型云计算资源。
在一种可能的实施方式中,方法还包括:
在候选云计算资源群组中确定第二候选云计算资源分组,其中,第二候选云计算资源分组中的每个云计算资源在延迟响应时间结束时大数据清洗工作量大于预置参考工作量阈值;
将第二候选云计算资源分组中的云计算资源形成第二任务分配列表;
获取第二管理服务器发送的待处理的第二大数据清洗任务;
基于第二大数据清洗任务在超时响应时间内的任务接收请求量,获得第二大数据清洗任务对应的第二可分配云计算资源,其中,第二可分配云计算资源为候选云计算资源群组中允许的为第二大数据清洗任务分配的第三候选云计算资源分组中的可分配云计算资源;
基于第三任务分配列表的顺序在第三候选云计算资源分组中匹配中适配候选云计算资源,其中,第三候选云计算资源分组中的云计算资源基于与第二大数据清洗任务对应的云计算资源画像形成第三任务分配列表,中适配候选云计算资源的大数据清洗工作量小于预置最大工作量阈值;
在第三候选云计算资源分组中匹配不到中适配候选云计算资源时,基于第二任务分配列表的顺序在第二候选云计算资源分组中匹配低适配候选云计算资源,其中,低适配候选云计算资源的大数据清洗工作量小于预置最大工作量阈值。
在一种可能的实施方式中,基于大数据清洗策略生成指示,获得出适配于第一大数据清洗任务的大数据清洗策略,包括:
响应于第一大数据清洗任务触发的大数据清洗策略生成指示,基于各个过往大数据清洗任务的过往大数据清洗策略选择结果,从过往大数据清洗策略数据库中选取被至少一个过往大数据清洗任务选择的过往大数据清洗策略;
基于选取的各个过往大数据清洗策略对应的大数据清洗策略生成耗时,对各个过往大数据清洗策略进行排序;
选取排序序号为预设序号的过往大数据清洗策略,作为候选大数据清洗策略;
获取第一大数据清洗任务的任务属性,大数据清洗策略生成指示相关的云计算资源属性,以及各个候选大数据清洗策略对应的路径节点属性,其中,路径节点属性至少包括:基于大数据清洗任务发起时间与大数据清洗关联子任务的消耗时间中的至少一种确定的,用于表征大数据清洗任务路径生成耗时的时间影响因素;
分别将各个候选大数据清洗策略对应的路径节点属性,任务属性以及云计算资源属性,输入预置的大数据清洗策略选择模型;基于大数据清洗策略选择模型,将各个候选大数据清洗策略的路径节点属性以及任务属性进行属性融合,获得融合属性;
分别对各个候选大数据清洗策略的路径节点属性,任务属性,云计算资源属性以及融合属性,进行主特征提取,获得各个候选大数据清洗策略对应的第一置信度,以及进行辅助特征提取,获得各个候选大数据清洗策略对应的第二置信度;
将各个候选大数据清洗策略对应的第一置信度与相应的第二置信度,进行叠加,获得各个候选大数据清洗策略对应的大数据清洗策略置信度;
基于各个候选大数据清洗策略各自对应的大数据清洗策略置信度,获得各个候选大数据清洗策略针对第一大数据清洗任务的路径优先级;
其中,大数据清洗策略选择模型是基于包含不同范例大数据清洗任务关联的范例大数据清洗策略的范例清洗特征数据集训练得到的,范例清洗特征数据集中的范例大数据清洗策略至少包括:大数据清洗策略生成耗时在预置时间范围内的范例大数据清洗策略,各个范例大数据清洗策略标注有用于表征范例大数据清洗策略矩阵应的大数据清洗策略生成耗时的时长以及范例大数据清洗策略是否被选择的路径代价值;
基于路径优先级,获得出适配于第一大数据清洗任务的大数据清洗策略。
在一种可能的实施方式中,任意一个大数据清洗策略的大数据清洗策略生成耗时通过以下方式获得,任意一个大数据清洗策略为候选大数据清洗策略或过往大数据清洗策略:
将任意一个大数据清洗策略的大数据清洗策略生成时间与大数据清洗策略规划时间之间的时长,作为任意一个大数据清洗策略的大数据清洗策略生成耗时,大数据清洗策略规划时间表示第一大数据清洗任务触发大数据清洗策略生成指示的时间;或者,
将大数据清洗关联子任务的消耗时间与大数据清洗策略规划时间之间的时长,作为任意一个大数据清洗策略的大数据清洗策略生成耗时,大数据清洗策略规划时间表示第一大数据清洗任务触发大数据清洗策略生成指示的时间。
在一种可能的实施方式中,大数据清洗策略选择模型是通过下列方式训练得到的:
获取范例清洗特征数据集,基于范例清洗特征数据集中的范例大数据清洗策略矩阵,对初始的大数据清洗策略选择模型执行反向传播训练,并在达到预设训练终止条件时,输出达到预设训练终止条件的大数据清洗策略选择模型;其中,在一次反向传播训练过程中执行以下操作:
从范例清洗特征数据集中选取范例大数据清洗策略矩阵,并将选取的范例大数据清洗策略矩阵输入大数据清洗策略选择模型,获取基于大数据清洗策略选择模型获得的,范例大数据清洗策略矩阵中的第一范例大数据清洗策略矩阵应的第一待定置信度,以及范例大数据清洗策略矩阵中的第二范例大数据清洗策略矩阵应的第二待定置信度,其中,第一范例大数据清洗策略和第二范例大数据清洗策略与同一范例大数据清洗任务相关,且第一范例大数据清洗策略的路径代价值大于第二范例大数据清洗策略的路径代价值;
基于第一范例大数据清洗策略与第二范例大数据清洗策略的路径代价值的协方差,获得对应的范例矩阵权重,其中,协方差的绝对值与范例矩阵权重为正反馈关系;
基于第一待定置信度与第二待定置信度的协方差,获得对应的待定训练代价值;
基于范例矩阵权重以及待定训练代价值的乘积,获得大数据清洗策略选择模型的训练代价函数,并基于大数据清洗策略选择模型的训练代价函数对大数据清洗策略选择模型的模型参量进行优化,其中,大数据清洗策略选择模型的训练代价函数与乘积为正反馈关系。
相比现有技术,本发明提供的有益效果包括:采用本发明实施例提供的一种基于人工智能的大数据清洗任务处理方法,通过基于第一大数据清洗任务在初始响应时间内的任务接收请求量,获得第一大数据清洗任务的第一活跃系数;然后基于第一活跃系数,基于第一任务分配列表中的云计算资源优先级在第一候选云计算资源分组中匹配高适配候选云计算资源,并向第一管理服务器发送高适配候选云计算资源的云计算资源标识;然后在第一管理服务器上获取大数据清洗策略生成指示,并基于大数据清洗策略生成指示,获得出适配于第一大数据清洗任务的大数据清洗策略,如此设计,利用了大数据清洗任务的活跃系数确定出第一候选云计算资源分组,进而从中匹配出高适配候选云计算资源,并为该高适配候选云计算资源生成较为适配的大数据清洗策略,优化了云计算资源的匹配方案的同时提高了云计算资源的大数据清洗效率。
具体实施方式
下面介绍本发明一种实施例提供的基于人工智能的大数据清洗任务处理***10的架构,该基于人工智能的大数据清洗任务处理***10可以包括云计算***100以及与云计算***100通信连接的管理服务器200。其中,基于人工智能的大数据清洗任务处理***10中的云计算***100和管理服务器200可以通过配合执行以下方法实施例所描述的基于人工智能的大数据清洗任务处理方法,具体云计算***100和管理服务器200的执行步骤部分可以参照以下方法实施例的详细描述。
本实施例提供的基于人工智能的大数据清洗任务处理方法可以由云计算***100执行,下面结合图1对该基于人工智能的大数据清洗任务处理方法进行详细介绍。
Process101,基于第一大数据清洗任务在初始响应时间内的任务接收请求量,获得第一大数据清洗任务的第一活跃系数。
Process102基于第一活跃系数,获得第一大数据清洗任务对应的第一可分配云计算资源。
其中,第一可分配云计算资源为候选云计算资源群组中允许的为第一大数据清洗任务分配的第一候选云计算资源分组中的可分配云计算资源,第一活跃系数对第一可分配云计算资源的数量存在正反馈调节。
Process103,基于第一任务分配列表中的云计算资源优先级在第一候选云计算资源分组中匹配高适配候选云计算资源。
其中,第一任务分配列表包括基于云计算资源优先级形成的第一候选云计算资源分组,云计算资源优先级是基于第一大数据清洗任务对应的云计算资源画像计算的,高适配候选云计算资源的大数据清洗工作量小于预置最大工作量阈值。
Process104,在第一候选云计算资源分组中匹配到高适配候选云计算资源时,向第一管理服务器发送高适配候选云计算资源的云计算资源标识。
Process105,在第一管理服务器基于云计算资源标识向高适配候选云计算资源发送第一分配请求时,在第一管理服务器上获取大数据清洗策略生成指示。
Process106,基于大数据清洗策略生成指示,获得出适配于第一大数据清洗任务的大数据清洗策略。
针对一些可能的设计思路而言,云计算***100还可以与管理服务器通信连接,通过在大量云计算资源中选取出候选云计算资源,将候选云计算资源的云计算资源标识返回至管理服务器,云计算资源标识包括但不限于云计算资源在网络上的终端id,以及用于后续流程的相关参数。
针对一些可能的设计思路而言,在本实施例中可以包括活跃系数统计模块,任务分配列表获取模块和可分配裕量分配模块。其中,活跃系数统计模块用于确定大数据清洗任务的访问活跃系数M,具体地可以将在预设时长内大数据清洗任务的任务接收请求量作为该大数据清洗任务的访问活跃系数。任务分配列表获取模块可以基于访问活跃系数获取大数据清洗任务对应的任务分配列表。可分配裕量分配模块可以获取任务分配列表中拥有分配裕量的云计算资源,将拥有分配裕量的云计算资源标识发送至管理服务器,以与管理服务器进行信息交互,为管理服务器分配云计算资源资源。本实施例中,输入是用户访问的大数据清洗任务与云计算资源id,经过活跃系数统计模块获取访问活跃系数,通过大数据清洗任务,云计算资源id与访问活跃系数获取对应任务分配列表,通过可分配裕量分配模块获取有可分配裕量的云计算资源,最终选取某个云计算资源的信息进行返回。以此做到云计算资源的大数据清洗能力不浪费的技术效果。
针对一些可能的设计思路而言,基于第一任务分配列表中的云计算资源优先级在第一候选云计算资源分组中匹配高适配候选云计算资源,包括:重复执行以下步骤,直到匹配到高适配候选云计算资源,或者,遍历完第一候选云计算资源分组,其中,当前匹配轮询次数标识的初始匹配轮询次数标识为第一匹配轮询次数标识,候选云计算资源群组中的每个云计算资源被设置有与第一匹配策略对应的不同云计算资源画像:对第一大数据清洗任务和当前匹配轮询次数标识执行第一匹配策略,得到当前云计算资源画像;在候选云计算资源群组中匹配当前云计算资源画像的云计算资源;在匹配到当前云计算资源画像的云计算资源、且当前云计算资源画像的云计算资源的大数据清洗工作量小于预置最大工作量阈值时,将当前云计算资源画像的云计算资源确定为高适配候选云计算资源;在匹配到当前云计算资源画像的云计算资源、且当前云计算资源画像的云计算资源的大数据清洗工作量为预置最大工作量阈值时,将当前匹配轮询次数标识增加标识增加字符。
针对一些可能的设计思路而言,通过活跃系数统计获取到访问活跃系数之后,则可通过云计算资源id查询身份库获取符合分配质量的云计算资源集合。在本实施例中,可以通过计算大数据清洗任务与X的云计算资源画像标识相应的云计算资源。其中X的值可以是匹配轮询次数标识,可以是从1开始的整数,例如X=1、2等。大数据清洗任务的活跃系数M和任务分配列表的长度有关,两者可以相等。云计算资源A上的可分配裕量可以用于多个大数据清洗任务,每个大数据清洗任务对应的任务分配列表不同,但任务分配列表上的云计算资源来自同一个云计算资源集合中的部分云计算资源。
针对一些可能的设计思路而言,每个大数据清洗任务对应的任务分配列表不同,对每一个大数据清洗任务可获取此大数据清洗任务独有的任务分配列表,假设大数据清洗任务1可得到A->C->B->F->D->E的任务分配列表,对大数据清洗任务2可获得C->B->D->E->A->F的任务分配列表。每个任务分配列表中所包括的云计算资源均配置有分配裕量,云计算资源每被分配一次,可分配裕量减少一次。通过此任务分配列表依次查询可分配裕量,即可将请求尽可能收敛在头部云计算资源中。
针对一些可能的设计思路而言,以第一候选云计算资源分组中包括云计算资源A、B、C、D、E、F,任务分配列表A->C->B->F->D->E为例进行说明。假设当前匹配轮询次数标识X=1,对第一大数据清洗任务和X执行匹配策略,得到当前云计算资源画像A’(大数据清洗任务+1)。在任务分配列表A->C->B->F->D->E中确定云计算资源A的云计算资源画像为当前云计算资源画像A’(大数据清洗任务+1)后,查询云计算资源A的剩余可分配次数,若云计算资源A的剩余可分配次数小于预置最大工作量阈值,则以云计算资源A为候选云计算资源,将云计算资源A的云计算资源标识发送给管理服务器。若云计算资源A的大数据清洗工作量为预置最大工作量阈值,说明云计算资源A无法被分配。将X=1增加标识增加字符,假设标识增加字符为1,X值变更为X=2,继续对第一大数据清洗任务和X=2执行匹配策略,得到当前云计算资源画像B’,在任务分配列表A->C->B->F->D->E中确定云计算资源B的云计算资源画像为当前云计算资源画像B’后,查询云计算资源B的剩余可分配次数,若云计算资源B的剩余可分配次数小于预置最大工作量阈值,则以云计算资源B为候选云计算资源。重复执行上述步骤直到在任务分配列表中找到候选云计算资源,或者遍历完任务分配列表。在本实施例中,通过在与大数据清洗任务对应的任务分配列表中匹配大数据清洗工作量小于预置最大工作量阈值的云计算资源作为候选云计算资源,可以提高云计算资源分配的效率,提升云计算资源的大数据清洗效率。
针对一些可能的设计思路而言,对第一大数据清洗任务和当前匹配轮询次数标识执行第一匹配策略,得到当前云计算资源画像,包括:对第一大数据清洗任务与当前匹配轮询次数标识的和执行第一匹配策略,得到当前云计算资源画像;或者将第一大数据清洗任务和当前匹配轮询次数标识进行整合,得到第一整合任务轮询信息;对第一整合任务轮询信息执行第一匹配策略,得到当前云计算资源画像。
针对一些可能的设计思路而言,可以对大数据清洗任务与匹配轮询次数标识X的和执行匹配策略。
针对一些可能的设计思路而言,方法还包括:重复执行以下步骤,直到预设顺位序号完全匹配第一可分配云计算资源,其中,当前匹配轮询次数标识的初始匹配轮询次数标识为第一匹配轮询次数标识,预设顺位序号的初始匹配轮询次数标识为1,对第一大数据清洗任务和当前匹配轮询次数标识执行第一匹配策略,得到当前云计算资源画像;在候选云计算资源群组中匹配当前云计算资源画像的云计算资源;在匹配到当前云计算资源画像的云计算资源时,将当前云计算资源画像的云计算资源设置为第一任务分配列表中的预设顺位序号云计算资源;在预设顺位序号未完全匹配第一可分配云计算资源时,将预设顺位序号延后一位,并将当前匹配轮询次数标识增加标识增加字符。
针对一些可能的设计思路而言,可以基于候选云计算资源群组中每个云计算资源与匹配轮询次数标识X的云计算资源画像大小确定候选云计算资源群组中每个云计算资源在任务分配列表中的位置,进而可以确定出任务分配列表中每个云计算资源的排列顺序。在本实施例中,匹配轮询次数标识X是可以变化的,可以将匹配轮询次数标识X设置一个初始匹配轮询次数标识,每确定出一个云计算资源在任务分配列表中的位置,将X的值增加标识增加字符,标识增加字符的大小可以基于实际情况而定,在此不作限定,例如可以是1、2、10、100等,直到确定出任务分配列表中所有的云计算资源。
针对一些可能的设计思路而言,以候选云计算资源群组中包括云计算资源A、B、C、D、E、F为例,当前匹配轮询次数标识为X=1为例进行说明。对大数据清洗任务和1执行匹配策略,得到当前云计算资源画像A’(大数据清洗任务+1)。假设候选云计算资源群组中云计算资源A对应的云计算资源画像与当前云计算资源画像A’(大数据清洗任务+1)相等,则确定云计算资源A为第一任务分配列表中的第一个云计算资源。假设标识增加字符为1,将X增加标识增加字符后得到X=2,对大数据清洗任务和2执行匹配策略,得到当前云计算资源画像C’,假设候选云计算资源群组中云计算资源C对应的云计算资源画像与当前云计算资源画像C’相等,则确定云计算资源C为第一任务分配列表中的第二个云计算资源。以此类推,直到遍历完候选云计算资源群组中的所有云计算资源,可以基于大数据清洗任务与X的云计算资源画像确定候选云计算资源群组中的云计算资源在任务分配列表中的排列顺序,以此得到任务分配列表A->C->B->F->D->E。在本实施例中,通过云计算资源画像确定与大数据清洗任务对应的任务分配列表中云计算资源的排列顺序,可以基于云计算资源画像的大小顺序在于大数据清洗任务对应的候选云计算资源群组中确定出候选云计算资源,可以提高候选云计算资源的匹配效率。
针对一些可能的设计思路而言,方法还包括:在第一匹配策略的策略指示包括第一预设数量个不同的云计算资源画像、候选云计算资源群组包括第一预设数量个云计算资源时,为第一预设数量个云计算资源中的每个云计算资源设置第一预设数量个不同的云计算资源画像中的一个云计算资源画像,其中,第一预设数量个不同的云计算资源画像与第一预设数量个云计算资源具有一一对应关系。
针对一些可能的设计思路而言,一个真实云计算资源可以对应于任务分配列表中的一个同类型云计算资源,为每个真实云计算资源分配一个云计算资源画像。在本实施例中,对于不同大数据清洗预估效率的云计算资源,可基于大数据清洗预估效率进行划分为多个同类型云计算资源,每个云计算资源作为任务分配列表中的一个云计算资源,示例性的,ABCDEF均为同类型云计算资源,选中同类型云计算资源A后可查询得到真实云计算资源AR,这样就保证了可基于不同大数据清洗预估效率对云计算资源进行权重划分,且保证大数据清洗资源使用均等。
针对一些可能的设计思路而言,方法还包括:在第一匹配策略的策略指示包括第一预设数量个不同的云计算资源画像、候选云计算资源群组包括第二预设数量个云计算资源、且第一预设数量小于第二预设数量时,将第二预设数量个云计算资源中的部分云计算资源优化成一个同类型云计算资源,共得到第一预设数量个云计算资源,为第一预设数量个云计算资源中的每个云计算资源设置第一预设数量个不同的云计算资源画像中的一个云计算资源画像,其中,第一预设数量个不同的云计算资源画像与第一预设数量个云计算资源具有一一对应关系第一预设数量个云计算资源包括一个或多个同类型云计算资源;或者在第一匹配策略的策略指示包括第一预设数量个不同的云计算资源画像、候选云计算资源群组包括第二预设数量个云计算资源、且第一预设数量大于第二预设数量时,将第二预设数量个云计算资源中的部分云计算资源复制成多个重复类型云计算资源,共得到第一预设数量个云计算资源,为第一预设数量个云计算资源中的每个云计算资源设置第一预设数量个不同的云计算资源画像中的一个云计算资源画像,其中,第一预设数量个不同的云计算资源画像与第一预设数量个云计算资源具有一一对应关系第一预设数量个云计算资源包括多个重复类型云计算资源。
针对一些可能的设计思路而言,对于一批分配云计算资源AR1/AR2/AR3,可能拥有重复类型云计算资源,则这些云计算资源在分配上可抽象为一个大的分配云计算资源AF,以这个云计算资源作为真实云计算资源参与分配,分配得到AF云计算资源后再基于可分配裕量细分到具体单个分配云计算资源AR1/AR2/AR3上,这样保证了不改变分配逻辑时提高了云计算资源的大数据清洗效率的利用率与降低了回源成本。在本实施例中,可以将多个真实云计算资源优化成一个同类型云计算资源,为该同类型云计算资源分配一个云计算资源画像,也就是说,可以将多个真实云计算资源优化成一个可分配的同类型云计算资源。例如,真实云计算资源A、B、C可以是A、B、C三个云计算***100云计算资源,可以将A、B、C三个云计算***100云计算资源优化成一个同类型云计算资源D,为同类型云计算资源D分配一个云计算资源画像。在本实施例中,也可以将一个真实云计算资源复制成多个云计算资源作为重复类型云计算资源,为复制出的每个重复类型云计算资源分配一个云计算资源画像。例如,可以将真实云计算资源云计算***100A复制成重复类型云计算资源A1、A2、A3,分别为每个重复类型云计算资源分配云计算资源画像。本实施例中,可以将大数据清洗工作量较少的多个真实云计算资源优化成一个同类型云计算资源,也可以大数据清洗工作量较多的一个真实云计算资源复制成多个重复类型云计算资源。通过将多个云计算资源优化为一个云计算资源,或者将一个云计算资源复制为多个重复类型云计算资源。可以平衡云计算资源的云计算资源的大数据清洗效率分配,防止由于云计算资源分配的不平衡导致的云计算资源的大数据清洗效率利用率低的问题,进而可以达到提高云计算资源手大数据清洗效率分配利用率的技术效果。
针对一些可能的设计思路而言,对于前述Process101-102,针对一些可能的设计思路而言,任务分配列表中包括的可分配云计算资源可以基于大数据清洗任务访问活跃系数得到,大数据清洗任务的访问活跃系数越高,大数据清洗任务对应的任务分配列表中包括的可分配云计算资源越多。在本实施例中,大数据清洗任务访问活跃系数可以基于在一定时长内大数据清洗任务的任务接收请求量而定,例如,在5分钟内,大数据清洗任务的任务接收请求量为5次,大数据清洗任务对应的任务分配列表中包括的可分配云计算资源可以是5个,也可以是5的倍数,大数据清洗任务对应的任务分配列表中包括的可分配云计算资源与该大数据清洗任务的访问活跃系数之间为正反馈调节关系。
针对一些可能的设计思路而言,基于第一大数据清洗任务在初始响应时间内的任务接收请求量,获得第一大数据清洗任务的第一活跃系数,包括:将第一活跃系数M设置为:M=J*(2*T-S)/T;其中,J为第一大数据清洗任务在初始响应时间内的任务接收请求量,T为预设的单任务处理时限的时长,S为当前时间节点与上一个结束的单任务处理时限的开始时间节点的间隔,初始响应时间为S。
针对一些可能的设计思路而言,任务接收请求量可以反映大数据清洗任务的访问活跃系数,通过活跃系数统计模块统计大数据清洗任务的任务接收请求量。活跃系数统计模块可以使用多重清理单元作用为每一个大数据清洗任务可以返回这个大数据清洗任务的活跃系数M,该活跃系数可以是大数据清洗任务的任务接收请求量。
在本发明实施例中,由于记录所有大数据清洗任务的访问时间带来的缓存压力剧增,无法基于大数据清洗任务访问的时间进行淘汰,本实施例中引入了一个活跃系数统计模块清理机制:在内存中同时维护两个清理单元,第一清理单元,第二清理单元,每次***对两个清理单元均进行***,查询仅查询第一清理单元,在时间间隔T后执行清理,删除第一清理单元,将第二清理单元替换第一清理单元,重新初始化一个第二清理单元。这样保证了第一清理单元的统计数据始终为[T,2*T]时间长度的任务接收请求量。
由于在清理执行之后,会出现统计数据均值出现跳变,这会导致活跃系数统计不准确,为了解决这个问题引入新的活跃系数统计计算公式:假设当前距离上一次清理的时间为S,第一清理单元查询大数据清洗任务任务接收请求量结果为J(如果当前在第3个周期上,J=第2个周期+第3个周期的部分)则计算返回结果M公式为:M=J*(2*T-S)/T。
对于任意取值范围为(0,T)范围内的S有M均值数学期望不变,即活跃系数统计均值期望不变。这样就保证了当执行清理和清理单元替换时,对返回M的结果不造成影响。活跃系数统计模块即为输入大数据清洗任务返回此大数据清洗任务的活跃系数M。每访问一次算一个M。基于M确定第一任务分配列表中包括的云计算资源数,第一任务分配列表中包括的云计算资源构成的集合为第一候选云计算资源分组,M可以等于第一任务分配列表中包括的云计算资源数。
针对一些可能的设计思路而言,基于第一活跃系数,获得第一大数据清洗任务对应的第一可分配云计算资源,包括:将第一可分配云计算资源设置为等于第一活跃系数;或者将第一可分配云计算资源设置为等于第一活跃系数与预设分配因子的乘积,其中,预设分配因子为大于1的自然数。
针对一些可能的设计思路而言,大数据清洗任务对应的任务分配列表中包括的可分配云计算资源与大数据清洗任务的访问活跃系数存在正反馈关系,大数据清洗任务的访问越高云计算资源数越多。可以将预定时长内大数据清洗任务任务接收请求量作为任务分配列表中云计算资源的数量,也可以将预定时长内大数据清洗任务任务接收请求量的倍数,作为任务分配列表汇总云计算资源的数量。
针对一些可能的设计思路而言,方法还包括:在候选云计算资源群组中确定第二候选云计算资源分组,其中,第二候选云计算资源分组中的每个云计算资源在延迟响应时间结束时大数据清洗工作量大于预置参考工作量阈值;将第二候选云计算资源分组中的云计算资源形成第二任务分配列表;获取第二管理服务器发送的待处理的第二大数据清洗任务;基于第二大数据清洗任务在超时响应时间内的任务接收请求量,获得第二大数据清洗任务对应的第二可分配云计算资源,其中,第二可分配云计算资源为候选云计算资源群组中允许的为第二大数据清洗任务分配的第三候选云计算资源分组中的可分配云计算资源;基于第三任务分配列表的顺序在第三候选云计算资源分组中匹配中适配候选云计算资源,其中,第三候选云计算资源分组中的云计算资源基于与第二大数据清洗任务对应的云计算资源画像形成第三任务分配列表,中适配候选云计算资源的大数据清洗工作量小于预置最大工作量阈值;在第三候选云计算资源分组中匹配不到中适配候选云计算资源时,基于第二任务分配列表的顺序在第二候选云计算资源分组中匹配低适配候选云计算资源,其中,低适配候选云计算资源的大数据清洗工作量小于预置最大工作量阈值。
针对一些可能的设计思路而言,可以选取出大数据清洗工作量大于预置参考工作量阈值的云计算资源作为第二候选云计算资源分组中的云计算资源,预置参考工作量阈值可以基于实际情况而定,例如10次、20次、50次等,将剩余次数较多的云计算资源单独作为一个云计算资源集合,并形成第二任务分配列表。当获取到管理服务器发送的待处理的大数据清洗任务情况下,若在与待处理的大数据清洗任务对应的第三任务分配列表中匹配不到候选云计算资源,则在第二任务分配列表中匹配候选云计算资源。
针对一些可能的设计思路而言,将被调用次数较少(大数据清洗工作量较多)的云计算资源作为一个云计算资源集合,当获取到待处理的大数据清洗任务时,若在待处理的大数据清洗任务对应的任务分配列表中匹配不到候选云计算资源,在大数据清洗工作量较多的云计算资源集合中匹配候选云计算资源,可以避免云计算资源调用不平衡导致的云计算资源的大数据清洗效率利用率低的问题。在实施例中,假设云计算资源A、B、C、D、E、F、G、H的大数据清洗工作量分别为0、1、2、3、4、5、6、7,预置参考工作量阈值为3,则确定大数据清洗工作量大于3的云计算资源E、F、G、H为被分配次数较少的云计算资源,将云计算资源E、F、G、H第二候选云计算资源分组,将E、F、G、H组成的任务分配列表作为第二任务分配列表。当获取到管理服务器发送的待处理的第二大数据清洗任务时,获得与第二大数据清洗任务对应的第三任务分配列表,若第三任务分配列表中的云计算资源的大数据清洗工作量均为0,则在第三任务分配列表匹配不到候选云计算资源。此种情况下,可以在E、F、G、H组成第二任务分配列表中匹配候选云计算资源。
针对一些可能的设计思路而言,可以将大数据清洗工作量较多的云计算资源作为低利用率云计算资源。假设在ABCDEF云计算资源中,若BDF为低利用率云计算资源,则对于这批低利用率云计算资源单独进行一次任务分配列表生成,对于大数据清洗任务可得低利用率任务分配列表B->F->D。同样,低利用率任务分配列表对于低利用率云计算资源也是均衡和一致的。在本实施例中,由于可分配的云计算资源是海量的,存在有些云计算资源被反复调用,有些云计算资源很少被调用,以此呈现的云计算资源调用不平衡,云计算资源的大数据清洗效率利用率低的问题。
针对一些可能的设计思路而言,方法还包括:在当前分配周期结束时,为候选云计算资源群组中的每个云计算资源的大数据清洗工作量设置对应的分配裕量,其中,候选云计算资源群组中的不同云计算资源对应的分配裕量均相同,或者,候选云计算资源群组中的至少2个云计算资源对应的分配裕量不同,候选云计算资源群组中的每个云计算资源被设置为在下一个分配周期上为不同的大数据清洗任务进行分配。
针对一些可能的设计思路而言,在分配周期内云计算资源可被分配,在云计算资源的分配周期之外可以为云计算资源分配分配裕量,分配裕量用于表示云计算资源可被分配的次数。不同云计算资源分配的分配裕量可以是相同的,例如,云计算资源A、云计算资源B、云计算资源C的分配裕量均配置为10次。也可以将不同的云计算资源分配不同的分配裕量,例如,云计算资源A、云计算资源B、云计算资源C的分配裕量分别配置为2、4、6、8次。一个云计算资源可以被不同的大数据清洗任务进行分配,云计算资源每被分配一次,剩余的分配次数减少一次,直到大数据清洗工作量为0,云计算资源无法被分配。
针对一些可能的设计思路而言,在向第一管理服务器发送高适配候选云计算资源的云计算资源标识之后,方法包括:在第一管理服务器基于云计算资源标识向高适配候选云计算资源发送第一分配请求时,在第一管理服务器上获取高适配候选云计算资源发送的与第一大数据清洗任务对应的云计算资源的大数据清洗效率。
针对一些可能的设计思路而言,在管理服务器获取到候选云计算资源的云计算资源标识后,用户可以通过向候选云计算资源发送分配请求获取到相关云计算资源的大数据清洗效率,相关云计算资源的大数据清洗效率可以是大数据清洗任务对应的网页。例如,用户可以通过管理服务器发送“大数据清洗任务a”的大数据清洗任务,云计算***100确定出与该大数据清洗任务对应的候选云计算资源为云计算资源A,将云计算资源A的云计算资源标识发送至管理服务器,云计算资源标识可以是云计算资源的标识或者地址等。用户可以通过管理服务器向该云计算资源发送分配请求,云计算资源A向管理服务器返回“大数据清洗任务a”对应的接收任务成功信息,并同步自身位置数据和自身状态数据。
针对一些可能的设计思路而言,对于整体可分配裕量分配,可依据最优先分配任务分配列表本身顺序,这样保证了可分配裕量的分配永远是最先使用最优的云计算资源。其次分配重复类型云计算资源的可分配裕量,因为重复类型云计算资源可看做同一云计算资源不同表现形式。最后使用低利用率任务分配列表,低利用率任务分配列表即是将当前可分配裕量无法满足的请求分配到当前云计算资源的大数据清洗效率利用率低的云计算资源上,同时保证了云计算资源的大数据清洗效率利用率和流量回源率。
对于任意云计算资源,可以赋予该云计算资源一个可分配裕量属性,此属性决定了每一个分配周期允许分配多少次请求。由于分配到单个云计算资源上的大数据清洗任务趋向于收拢,故在小时间范围内可认为对于一个云计算资源,分配到此云计算资源上的请求带来的云计算资源的大数据清洗效率平均使用量的变化不会过于剧烈,这样就可以通过分配次数的可分配裕量控制即可较好的控制单云计算资源任务均衡,这样就做到了云计算资源的大数据清洗效率不浪费。
对于云计算资源可分配裕量,设置有快速恢复模式与维持分配模式两种状态其中,对于快速恢复模式,出现于新云计算资源加入,暂停分配云计算资源恢复使用等情况下,会基于大数据清洗预估效率进行估算,设置一个较大的可分配裕量变化步长,并可基于配置决定云计算资源预期利用完完整云计算资源的大数据清洗效率的时间进行步长的个性化调整。对于维持分配模式,出现于云计算资源平稳运行时的状态,此时会基于此前多个分配周期的云计算资源的大数据清洗效率利用状况,对超出预期云计算资源的大数据清洗效率利用时可分配裕量进行微降,对于不及云计算资源的大数据清洗效率利用预期时可分配裕量进行微增。这样保证了在维持分配模式下,可分配裕量值始终维持在既不超过云计算资源的大数据清洗效率限制,又充分利用的值上。由以上机制保证云计算资源的大数据清洗效率利用率维持在预期水平,同时设置异常兜底预期,对于云计算资源的大数据清洗效率利用与可分配裕量增减出现大幅度波动的云计算资源进行发现与剔除,这样就在保证云计算资源的大数据清洗效率利用率时充分保证了访问质量。
为了能够清楚的描述本发明实施例提供的方案,前述步骤Process106可以通过以下方式实现。
Process201,响应于第一大数据清洗任务触发的大数据清洗策略生成指示,基于过往大数据清洗策略对应的大数据清洗策略生成耗时,从过往大数据清洗策略数据库中选取至少一个候选大数据清洗策略;
Process202,获取第一大数据清洗任务的任务属性,大数据清洗策略生成指示相关的云计算资源属性,以及各个候选大数据清洗策略对应的路径节点属性,其中,路径节点属性至少包括:基于大数据清洗任务发起时间与大数据清洗关联子任务的消耗时间中的至少一种确定的,用于表征大数据清洗任务路径生成耗时的时间影响因素;
其中,第一大数据清洗任务指外卖、闪送等需要云计算资源的大数据清洗的任务,任务属性包括任务的基础属性和累计的云计算资源行为,常用的任务基础属性包括任务类型、任务时间、任务节点等。云计算资源属性则是基于第一大数据清洗任务触发的大数据清洗策略生成指示确定的,可以包括大数据清洗策略生成指示的需求的云计算资源的相关属性。
基于此,本发明实施例中的路径节点属性还进一步包括表征大数据清洗任务路径生成耗时的时间影响因素。
一种可选的实施方式中,可以通过如下方式中的任意一种方式,获得某一候选大数据清洗策略或是过往大数据清洗策略的大数据清洗策略生成耗时,下述统称任意一个大数据清洗策略:
方式一、基于任意一个大数据清洗策略的大数据清洗策略生成时间,获得任意一个大数据清洗策略的大数据清洗策略生成耗时。
该方式下,则表示将该大数据清洗策略的大数据清洗策略生成时间到大数据清洗策略规划时间之间的时长,作为该候选大数据清洗策略的大数据清洗策略生成耗时。
在本发明实施例中,大数据清洗策略规划时间表示第一大数据清洗任务触发大数据清洗策略生成指示的时间。
比如,候选大数据清洗策略A为一随机大数据清洗策略,该随机大数据清洗策略的大数据清洗策略生成时间为t1,大数据清洗策略规划时间为t2,则候选大数据清洗策略A的大数据清洗策略生成耗时Ta=t2-t1。
方式二、基于大数据清洗关联子任务的消耗时间,获得任意一个大数据清洗策略的大数据清洗策略生成耗时。
其中,候选大数据清洗策略大数据清洗关联子任务可以指一随机大数据清洗策略所涉及的子任务。该方式下,则表示将该大数据清洗关联子任务的发生时间到大数据清洗策略规划时间之间的时长,作为该候选大数据清洗策略的大数据清洗策略生成耗时。
比如,候选大数据清洗策略B也为一随机大数据清洗策略,该随机大数据清洗策略的大数据清洗策略生成时间为t1,该随机大数据清洗策略所涉及的大数据清洗关联子任务的发生时间为t3,大数据清洗策略规划时间为t2,则候选大数据清洗策略A的大数据清洗策略生成耗时Tb=t2-t3。
另外,范例大数据清洗策略的大数据清洗策略生成耗时也可基于上述方式一与方式二中的任意一种计算得到,在此不做重复限定。
在本发明实施例中,基于大数据清洗策略的大数据清洗策略生成耗时,可确定大数据清洗策略的时效性。若大数据清洗策略的大数据清洗策略生成耗时在预置时间范围内,即可将该大数据清洗策略作为高效率大数据清洗策略。基于上述实施方式,可以有效保证本发明实施例中的大数据清洗任务的时效性,能够有效推荐给云计算资源具有高效率性的大数据清洗策略,提高云计算资源和顾客体验,进而提高推荐大数据清洗策略的选择率,以实现快速进行大数据清洗的目的。
Process201,基于任务属性,云计算资源属性以及包括时间影响因素的路径节点属性,分别针对各个候选大数据清洗策略进行主特征提取和辅助特征提取,基于主辅融合特征确定各个候选大数据清洗策略各自对应的大数据清洗策略置信度;
其中,大数据清洗策略置信度可以表示云计算资源选择该候选大数据清洗策略的概率。
在本发明实施例中,该步骤可基于人工智能来实现,例如可以通过本发明中的大数据清洗策略选择模型来获取各个候选大数据清洗策略各自对应的大数据清洗策略置信度。
需要说明的是,该大数据清洗策略选择模型是基于包含不同范例大数据清洗任务关联的范例大数据清洗策略的范例清洗特征数据集训练得到的,相应地范例清洗特征数据集中的范例大数据清洗策略至少包括:大数据清洗策略生成耗时在预置时间范围内的范例大数据清洗策略(即高效率范例大数据清洗策略),各个范例大数据清洗策略标注有一个路径代价值,该路径代价值用于表征:该范例大数据清洗策略矩阵应的大数据清洗策略生成耗时的时长以及范例大数据清洗策略是否被选择。
可选的,具体可以通过下列方式确定各个范例大数据清洗策略的路径代价值:
首先,基于各个范例大数据清洗策略矩阵应的大数据清洗策略生成耗时,以及各个范例大数据清洗策略是否被范例大数据清洗任务选择,将各个范例大数据清洗策略进行分类;进而,基于划分得到的各个范例大数据清洗策略的类别,获得各个范例大数据清洗策略矩阵应的路径代价值。
在本发明实施例中,具体是将各个范例大数据清洗策略分为了以下三种类别:
第一,将对应的大数据清洗策略生成耗时在预置时间范围,且被选择的范例大数据清洗策略作为优选范例大数据清洗策略,也可称作高效率选择范例大数据清洗策略。
例如,以预置时间范围为10s为例,对于发表时间在10s内的范例大数据清洗策略,所涉及事件的时间发生在10s内的范例大数据清洗策略,若这些范例大数据清洗策略曾被某一云计算资源选择,即可划分为高效率选择范例大数据清洗策略。
第二,将对应的大数据清洗策略生成耗时不在预置时间范围,且被选择的范例大数据清洗策略作为一般范例大数据清洗策略,也可称作普通选择范例大数据清洗策略。
例如,对于发表时间在10s外的范例大数据清洗策略,所涉及事件的时间发生在10s外的范例大数据清洗策略,若这些范例大数据清洗策略曾被某一云计算资源选择,即可划分为普通选择范例大数据清洗策略。
第三,将未被选择的范例大数据清洗策略作为备选范例大数据清洗策略,也可称作未选择范例大数据清洗策略。
即,将除上述两种类型外的范例,作为未选择范例大数据清洗策略。
其中,优选范例大数据清洗策略的路径代价值大于一般范例大数据清洗策略的路径代价值,一般范例大数据清洗策略的路径代价值大于备选范例大数据清洗策略的路径代价值。
需要说明的是,本发明适用于不同的高效率的定义方式,除了上述所列举的高效率定义方式之外,也可以是其它预置时间范围,或者是其它定义方式等,在此不做具体限定。
在一种实施例中前述Process203,包括以下步骤:
Process301,分别将各个候选大数据清洗策略对应的路径节点属性,任务属性以及云计算资源属性,输入预置的大数据清洗策略选择模型;
Process302,基于大数据清洗策略选择模型对各个候选大数据清洗策略进行推荐排序,获取各个候选大数据清洗策略对应的大数据清洗策略置信度;
具体地,步骤Process302又可划分为以下几个子步骤:
Process3021,基于大数据清洗策略选择模型,将各个候选大数据清洗策略的路径节点属性以及任务属性进行属性融合,获得融合属性;
其中,本发明实施例中的融合属性也可称作人工融合属性,是以原始的任务属性和路径节点属性作为输入。
Process3022,分别对各个候选大数据清洗策略的路径节点属性,任务属性,云计算资源属性以及融合属性,进行主特征提取,获得各个候选大数据清洗策略对应的第一置信度,以及进行辅助特征提取,获得各个候选大数据清洗策略对应的第二置信度;
其中,第一置信度主要是以基于主神经网络部分获得的得分,第二置信度则是指基于辅助神经网络部分获得的得分。应当理解的是,辅助特征用于对主特征进行辅助训练,是由主特征的相关辅助数据提取出的特征,能够进一步保证训练得到的模型的精确度。
Process3023,将各个候选大数据清洗策略对应的第一置信度与相应的第二置信度,进行叠加,获得各个候选大数据清洗策略对应的大数据清洗策略置信度。
S304,基于各个候选大数据清洗策略各自对应的大数据清洗策略置信度,获得各个候选大数据清洗策略针对第一大数据清洗任务的路径优先级。
一般情况下,候选大数据清洗策略对应的大数据清洗策略置信度越高,该候选大数据清洗策略针对第一大数据清洗任务的路径优先级也就更靠前,即优先向第一大数据清洗任务推荐该候选大数据清洗策略。
在上述申请实施方式中,结合用于表征大数据清洗任务路径生成耗时的时间影响因素,来对过往大数据清洗策略进行召回,对各个候选大数据清洗策略进行大数据清洗策略置信度的预估,可以保证基于大数据清洗策略生成耗时分析得到的高效率大数据清洗策略,具有较高的大数据清洗策略置信度,在此基础上,再基于各个候选大数据清洗策略对应的大数据清洗策略置信度进行路径优先级排序时,可以有效保证高效率大数据清洗策略对应的时效性。与相关技术相比,本发明中的预估方式,不会出现产生加权的数值会与大数据清洗策略选择模型耦合的情况,也无需对高效率性范例进行加权,本发明实施例可以在不改变模型结构和计算复杂度的情况下,有效提高路径确定***的时效性。
过往大数据清洗策略选择结果序号标记一种可选的实施方式为,通过如下方式获得具有高效率性的候选大数据清洗策略:
基于各个过往大数据清洗任务的过往大数据清洗策略选择结果,从过往大数据清洗策略数据库中选取被至少一个过往大数据清洗任务选择的过往大数据清洗策略;基于选取的各个过往大数据清洗策略对应的大数据清洗策略生成耗时,对各个过往大数据清洗策略进行排序;选取排序序号为预设序号的过往大数据清洗策略,作为召回阶段所召回的具有高效率性的候选大数据清洗策略。
其中,过往大数据清洗任务是指通过大数据统计获取到的在进行大数据清洗任务时的一些云计算资源账号相关数据,过往大数据清洗策略数据库则是指大数据清洗策略池。在基于过往大数据清洗任务的过往大数据清洗策略选择结果,进行第一次筛选时,具体是指,基于云计算资源过往大数据清洗策略选择结果所累计的过往大数据清洗策略的标签来召回。在画像中记录云计算资源选择过往大数据清洗策略的标签的次数,次数越大表明云计算资源对这个标签的兴趣越强,召回时会选取一部分拥有画像中标签的过往大数据清洗策略内。进而,基于选取的各个过往大数据清洗策略对应的大数据清洗策略生成耗时从小到大的顺序进行排序,选择一定数量排序靠前的过往大数据清洗策略作为候选大数据清洗策略。进而,即可基于本发明实施例中的大数据清洗策略选择模型,对各个候选大数据清洗策略进行排序。
需要说明的是,本发明实施例中的召回阶段并非是仅仅召回该部分具有高效率性的候选大数据清洗策略,而是除了采用相关技术中的方式召回的候选大数据清洗策略外,又基于上述方式额外召回了一部分具有高效率性的候选大数据清洗策略。
在上述实施方式中,通过考虑时效性的画像召回,可以有效保证大数据清洗策略选择模型的输入包含高效率的候选大数据清洗策略,另外还基于高效率的范例大数据清洗策略矩阵大数据清洗策略选择模型进行训练,以避免大数据清洗策略选择模型不能识别高效率的物品,难以产生效果。
在本发明实施例中,可以分为初始排序操作和优化排序操作,初始排序操作是指将较多数量的候选大数据清洗策略进行预处理,获得出相对参考依据更强的小范围数量的候选大数据清洗策略;优化排序操作则是指从小范围数量的候选大数据清洗策略中,获得出参考性最高的几条候选大数据清洗策略,最终展示给云计算资源。
可选的,大数据清洗策略选择模型是通过下列方式训练得到的:
首先,获取范例清洗特征数据集,进而,基于范例清洗特征数据集中的范例大数据清洗策略矩阵,对初始的大数据清洗策略选择模型执行反向传播训练,并在达到预设训练终止条件时,输出达到预设训练终止条件的大数据清洗策略选择模型。
在本发明实施例中,以云计算***100为执行主体为例,在一次反向传播训练过程中执行以下操作:
Process401,云计算***100从范例清洗特征数据集中选取范例大数据清洗策略矩阵,并将选取的范例大数据清洗策略矩阵输入大数据清洗策略选择模型,获取基于大数据清洗策略选择模型获得的,范例大数据清洗策略矩阵中的第一范例大数据清洗策略矩阵应的第一待定置信度,以及范例大数据清洗策略矩阵中的第二范例大数据清洗策略矩阵应的第二待定置信度;
其中,第一范例大数据清洗策略和第二范例大数据清洗策略与同一范例大数据清洗任务相关,且第一范例大数据清洗策略的路径代价值大于第二范例大数据清洗策略的路径代价值。第一待定置信度和第二待定置信度同上述所列举的,候选大数据清洗策略对应的大数据清洗策略置信度的含义相同,这里称作“待定置信度”主要是为了区分模型训练阶段和线上预测阶段。在模型训练阶段,即可称作待定置信度,该待定置信度也是基于主特征神经网络和辅助特征神经网络的结果,进行叠加所得到的,而“第一待定置信度”和“第二待定置信度”则是针对范例大数据清洗策略矩阵中不同的范例而言。
具体地,本发明实施例中的范例大数据清洗策略矩阵是针对同一大数据清洗任务而言的两个训练范例,且这两个训练范例中范例大数据清洗策略矩阵应的路径代价值不同。
Process402,云计算***100基于第一待定置信度,第二待定置信度,第一范例大数据清洗策略的路径代价值与第二范例大数据清洗策略的路径代价值,构建大数据清洗策略选择模型的训练代价函数,并基于大数据清洗策略选择模型的训练代价函数对大数据清洗策略选择模型的模型参量进行优化。
可选的,步骤Process402又可划分为以下几个子步骤:
Process4021,云计算***100基于第一范例大数据清洗策略与第二范例大数据清洗策略的路径代价值的协方差,获得对应的范例矩阵权重;
需要说明的是,本发明实施例中的范例矩阵权重是与范例大数据清洗策略路径代价值的协方差相关联的,并非是预设设置的模型超参数,也不会与排序模型耦合,因而更换模型结构或者预估分数的分布发生变化时,都不会产生较大影响。
Process4022,云计算***100基于第一待定置信度与第二待定置信度的协方差,获得对应的待定训练代价值;
Process4023,云计算***100基于范例矩阵权重以及待定训练代价值的乘积,获得大数据清洗策略选择模型的训练代价函数,其中,大数据清洗策略选择模型的训练代价函数与乘积为正反馈关系。
图2示出了本发明实施例提供的用于实现上述的基于人工智能的大数据清洗任务处理***的云计算***100的硬件结构意图,如图2所示,云计算***100可包括处理器110、机器可读存储介质120、总线130以及通信单元140。
处理器110可以基于存储在机器可读存储介质120中的程序而执行各种适当的动作和处理,例如前述实施例所描述的基于人工智能的大数据清洗任务处理方法所相关的程序指令。处理器110、机器可读存储介质120以及通信单元140通过总线130进行信号传输。
特别地,基于本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信单元140从网络上被下载和安装,在该计算机程序被处理器110执行时,执行本发明实施例的方法中限定的上述功能。
本发明又一实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述任一实施例所述的基于人工智能的大数据清洗任务处理方法。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。