发明内容
第一方面,本申请提供一种用于大数据清洗的人工智能处理方法,应用于大数据清洗***,所述大数据清洗***与多个AI云计算训练节点通信连接,所述方法包括:
获取针对大数据清洗任务所关联的业务指标预测训练事件的可信预测误差跟踪数据进行干扰特征数据挖掘获得的当前干扰特征数据,其中,所述干扰特征数据包括类别干扰特征变量、属性值干扰特征变量、数据关系干扰特征变量中的至少一种;
对所述当前干扰特征数据进行干扰采集关系网络分析,输出多个干扰采集关系网络,所述干扰采集关系网络被配置于反映多个干扰采集元素之间的干扰采集关系;
结合多个所述干扰采集关系网络进行噪声特征分析所述大数据清洗任务当前所关联的业务指标预测训练事件的噪声特征路径,并结合所述噪声特征路径对所述大数据清洗任务进行任务路径优化;
所述结合多个所述干扰采集关系网络进行噪声特征分析所述大数据清洗任务当前所关联的业务指标预测训练事件的噪声特征路径,通过以下步骤实现:
结合符合模型上线要求的噪声路径分析模型对多个所述干扰采集关系网络进行噪声特征路径提取,输出所述大数据清洗任务当前所关联的业务指标预测训练事件的噪声特征路径;
其中,所述噪声路径分析模型的具体模型开发步骤包括:
将响应噪声学习指示进行噪声学习数据提取的多个干扰采集关系模板数据拆分成至少两个干扰采集关系模板数据集,将其中至少一个干扰采集关系模板数据集作为参考干扰采集关系模板数据集,各所述干扰采集关系模板数据包括至少两种干扰采集字段描述,所述干扰采集关系模板数据包括表征该干扰采集关系模板数据对应的目标噪声特征路径的可信噪声特征路径信息;
对于所述参考干扰采集关系模板数据集中的各干扰采集关系模板数据,获取该干扰采集关系模板数据的可信噪声特征路径信息,并获得该可信噪声特征路径信息与多个预设可信噪声特征路径信息中的各预设可信噪声特征路径信息的重合率,输出重合率低于指定重合率的至少一个目标可信噪声特征路径信息;
将所述干扰采集关系模板数据的可信噪声特征路径信息变更为任意一个所述目标可信噪声特征路径信息,当所述参考干扰采集关系模板数据集中的各干扰采集关系模板数据的可信噪声特征路径信息变更完成后,将该参考干扰采集关系模板数据集作为负干扰采集关系模板数据集,将其它干扰采集关系模板数据集作为正干扰采集关系模板数据集,输出目标噪声训练数据集;
结合所述目标噪声训练数据集对预设的第一噪声训练神经网络进行模型配置权重开发,输出所述噪声路径分析模型。
第二方面,本申请实施例还提供一种用于大数据清洗的人工智能处理***,所述用于大数据清洗的人工智能处理***包括大数据清洗***以及与所述大数据清洗***通信连接的多个AI云计算训练节点;
所述大数据清洗***,用于:
获取针对大数据清洗任务所关联的业务指标预测训练事件的可信预测误差跟踪数据进行干扰特征数据挖掘获得的当前干扰特征数据,其中,所述干扰特征数据包括类别干扰特征变量、属性值干扰特征变量、数据关系干扰特征变量中的至少一种;
对所述当前干扰特征数据进行干扰采集关系网络分析,输出多个干扰采集关系网络,所述干扰采集关系网络被配置于反映多个干扰采集元素之间的干扰采集关系;
结合多个所述干扰采集关系网络进行噪声特征分析所述大数据清洗任务当前所关联的业务指标预测训练事件的噪声特征路径,并结合所述噪声特征路径对所述大数据清洗任务进行任务路径优化;
所述结合多个所述干扰采集关系网络进行噪声特征分析所述大数据清洗任务当前所关联的业务指标预测训练事件的噪声特征路径,通过以下步骤实现:
结合符合模型上线要求的噪声路径分析模型对多个所述干扰采集关系网络进行噪声特征路径提取,输出所述大数据清洗任务当前所关联的业务指标预测训练事件的噪声特征路径;
其中,所述噪声路径分析模型的具体模型开发步骤包括:
将响应噪声学习指示进行噪声学习数据提取的多个干扰采集关系模板数据拆分成至少两个干扰采集关系模板数据集,将其中至少一个干扰采集关系模板数据集作为参考干扰采集关系模板数据集,各所述干扰采集关系模板数据包括至少两种干扰采集字段描述,所述干扰采集关系模板数据包括表征该干扰采集关系模板数据对应的目标噪声特征路径的可信噪声特征路径信息;
对于所述参考干扰采集关系模板数据集中的各干扰采集关系模板数据,获取该干扰采集关系模板数据的可信噪声特征路径信息,并获得该可信噪声特征路径信息与多个预设可信噪声特征路径信息中的各预设可信噪声特征路径信息的重合率,输出重合率低于指定重合率的至少一个目标可信噪声特征路径信息;
将所述干扰采集关系模板数据的可信噪声特征路径信息变更为任意一个所述目标可信噪声特征路径信息,当所述参考干扰采集关系模板数据集中的各干扰采集关系模板数据的可信噪声特征路径信息变更完成后,将该参考干扰采集关系模板数据集作为负干扰采集关系模板数据集,将其它干扰采集关系模板数据集作为正干扰采集关系模板数据集,输出目标噪声训练数据集;
结合所述目标噪声训练数据集对预设的第一噪声训练神经网络进行模型配置权重开发,输出所述噪声路径分析模型。
采用上述任一方面的技术方案,通过对大数据清洗任务所关联的业务指标预测训练事件进行干扰特征数据挖掘获得的当前干扰特征数据进行干扰采集关系网络分析,输出多个干扰采集关系网络,结合多个所述干扰采集关系网络进行噪声特征分析所述大数据清洗任务当前所关联的业务指标预测训练事件的噪声特征路径,并结合所述噪声特征路径对所述大数据清洗任务进行任务路径优化,这样基于干扰采集关系网络可以反映干扰采集元素关系的特性进行噪声特征分析,由此提高噪声特征分析的全面性,进而提高大数据清洗的精准度。
具体实施方式
下面介绍本发明一种实施例提供的用于大数据清洗的人工智能处理***10的架构,该用于大数据清洗的人工智能处理***10可以包括大数据清洗***100以及与大数据清洗***100通信连接的AI云计算训练节点200。其中,用于大数据清洗的人工智能处理***10中的大数据清洗***100和AI云计算训练节点200可以通过配合执行以下方法实施例所描述的用于大数据清洗的人工智能处理方法,具体大数据清洗***100和AI云计算训练节点200的执行步骤部分可以参照以下方法实施例的详细描述。
本实施例提供的用于大数据清洗的人工智能处理方法可以由大数据清洗***100执行,下面结合图1对该用于大数据清洗的人工智能处理方法进行详细介绍。
Process110,获取针对大数据清洗任务所关联的业务指标预测训练事件进行干扰特征数据挖掘获得的当前干扰特征数据,其中,所述干扰特征数据包括类别干扰特征变量、属性值干扰特征变量、数据关系干扰特征变量、异常下载干扰特征变量中的至少一种。
Process120,对所述当前干扰特征数据进行干扰采集关系网络分析,输出多个干扰采集关系网络。
针对一些可能实施方式而言,所述干扰采集关系网络被配置于反映多个干扰采集元素之间的干扰采集关系(如存在噪声干扰的多个噪声数据对象之间的数据关联关系),多个干扰采集关系网络可以是所述类别干扰特征变量、属性值干扰特征变量、数据关系干扰特征变量中的其中至少两种干扰特征变量分别对应的干扰采集关系网络的组合。
Process130,结合多个所述干扰采集关系网络进行噪声特征分析所述大数据清洗任务当前所关联的业务指标预测训练事件的噪声特征路径,并结合所述噪声特征路径对所述大数据清洗任务进行任务路径优化。例如,可以将所述噪声特征路径记录到所述大数据清洗任务的清洗进程中,在后续的大数据清洗进程中清洗与所述噪声特征路径中各个噪声特征点所关联的特征数据。
由此,可以基于任务路径优化后的所述大数据清洗任务对所述业务指标预测训练事件所对应的第一大数据采集数据实时进行大数据清洗操作,获得对应的第二大数据采集数据,基于所述业务指标预测训练事件所指示的训练数据规则从所述第二大数据采集数据中提取对应的业务指标预测训练数据,从而提高后续的业务指标预测训练效果。
由此,本申请实施例通过对大数据清洗任务所关联的业务指标预测训练事件进行干扰特征数据挖掘获得的当前干扰特征数据进行干扰采集关系网络分析,输出多个干扰采集关系网络,结合多个所述干扰采集关系网络进行噪声特征分析所述大数据清洗任务当前所关联的业务指标预测训练事件的噪声特征路径,并结合所述噪声特征路径对所述大数据清洗任务进行任务路径优化,这样基于干扰采集关系网络可以反映干扰采集元素关系的特性进行噪声特征分析,由此提高噪声特征分析的全面性,进而提高大数据清洗的精准度。
针对一些可能实施方式而言,为了实现对所述噪声特征路径的精确分析,本实施例可以结合AI实现所述噪声特征路径的挖掘。由此,在上述Process130,结合多个所述干扰采集关系网络进行噪声特征分析所述大数据清洗任务当前所关联的业务指标预测训练事件的噪声特征路径,可以结合符合模型上线要求的噪声路径分析模型对多个所述干扰采集关系网络进行噪声特征路径提取,输出所述大数据清洗任务当前所关联的业务指标预测训练事件的噪声特征路径。
其中,所述噪声路径分析模型通过以下Process131-Process134进行模型部署开发。
Process131,将响应噪声学习指示进行噪声学习数据提取的多个干扰采集关系模板数据拆分成至少两个干扰采集关系模板数据集,将其中至少一个干扰采集关系模板数据集作为参考干扰采集关系模板数据集。
各所述干扰采集关系模板数据可以包括至少两种干扰采集字段描述,所述干扰采集关系模板数据包括表征该干扰采集关系模板数据对应的目标噪声特征路径的可信噪声特征路径信息。此外,不同的可信噪声特征路径信息之间具有相应的重合率。
Process132,对于所述参考干扰采集关系模板数据集中的各干扰采集关系模板数据,获取该干扰采集关系模板数据的可信噪声特征路径信息,并获得该可信噪声特征路径信息与多个预设可信噪声特征路径信息中的各预设可信噪声特征路径信息的重合率,输出重合率低于指定重合率的至少一个目标可信噪声特征路径信息。
针对一些可能实施方式而言,多个所述预设可信噪声特征路径信息可以是预先为各可能的噪声特征路径而设定的可信噪声特征路径信息,用于对相应的噪声特征路径进行AI学习流程中的标签标定。
Process133,将所述干扰采集关系模板数据的可信噪声特征路径信息变更为任意一个所述目标可信噪声特征路径信息,当所述参考干扰采集关系模板数据集中的各参考干扰采集关系模板数据的可信噪声特征路径信息变更完成后,将该参考干扰采集关系模板数据集作为负干扰采集关系模板数据集,将其它干扰采集关系模板数据集作为正干扰采集关系模板数据集,输出目标噪声训练数据集。
Process144,结合所述目标噪声训练数据集对预设的第一噪声训练神经网络进行模型配置权重开发,输出所述噪声路径分析模型。
针对一些可能实施方式而言,对于Process144,结合所述目标噪声训练数据集对预设的第一噪声训练神经网络进行模型配置权重开发的每次模型配置权重开发阶段,参见下述步骤进行执行。
Process1441,逐个调取正干扰采集关系模板数据集,将所述正干扰采集关系模板数据集中的各干扰采集关系模板数据传递到所述第一噪声训练神经网络进行噪声特征路径分析。
Process1442,结合对于所述正干扰采集关系模板数据集中的各干扰采集关系模板数据的噪声特征路径分析数据与该干扰采集关系模板数据对应的可信噪声特征路径信息的第一特征区别信息,输出针对该正干扰采集关系模板数据集的第一训练评价系数。
针对一些可能实施方式而言,可以将针对各个干扰采集关系模板数据的噪声特征路径分析数据与各相应的干扰采集关系模板数据对应的可信噪声特征路径信息的多个第一特征区别信息的特征区别平均值计算得到所述第一训练评价系数(loss值)。其中,所述第一特征区别平均值与所述第一训练评价系数正相关。例如,所述特征区别平均值越大,则所述第一训练评价系数越大。
Process1443,逐个调取负干扰采集关系模板数据集,将所述负干扰采集关系模板数据集中的各干扰采集关系模板数据传递到所述第一噪声训练神经网络进行噪声特征路径分析。
Process1444,结合对于所述负干扰采集关系模板数据集中的各干扰采集关系模板数据的噪声特征路径分析数据与该干扰采集关系模板数据对应的可信噪声特征路径信息的第二特征区别信息,输出针对该负干扰采集关系模板数据集的第二训练评价系数;
针对一些可能实施方式而言,可以将针对各个干扰采集关系模板数据的噪声特征路径分析数据与各相应的干扰采集关系模板数据对应的可信噪声特征路径信息的各个第二特征区别信息的特征区别平均值计算得到所述第二训练评价系数。其中,所述第二特征区别平均值与所述第二训练评价系数正相关。例如,所述第二特征区别平均值越大,则所述第一训练评价系数越大。
Process1445,结合所述第一训练评价系数以及所述第二训练评价系数对所述第一噪声训练神经网络进行模型配置权重开发。
Process1446,分析当前模型配置权重开发阶段是否符合模型上线部署规则,当符合模型上线部署规则时,将当前模型配置权重开发后的所述第一噪声训练神经网络作为所述噪声路径分析模型;若不符合模型上线部署规则,则跳转至下一模型配置权重开发阶段。
其中,所述模型上线部署规则可以是所述第一训练评价系数以及所述第二训练评价系数分别超过设定训练评价系数。
针对一些可能实施方式而言,也可以结合AI策略实现所述干扰采集关系网络的生成。在上述Process120中,对所述当前干扰特征数据进行干扰采集关系网络分析,输出多个干扰采集关系网络,可以是:结合干扰采集关系决策模型对所述当前干扰特征数据进行干扰采集关系网络分析,输出多个所述干扰采集关系网络。
针对一些可能实施方式而言,所述方法还包括对预设的第二噪声训练神经网络进行模型配置权重开发而获得所述干扰采集关系决策模型的步骤,参见下述步骤进行执行。
(1)获取多个所述模板干扰特征数据集,结合多个所述模板干扰特征数据集,输出多个所述待调度干扰特征库。
针对一些可能实施方式而言,多个所述待调度干扰特征库中的每种待调度干扰特征库可以包括一种相关的干扰采集关系网络对应的第一模板干扰特征数据、第二模板干扰特征数据和第三模板干扰特征数据。各种所述待调度干扰特征库中的第一模板干扰特征数据、第二模板干扰特征数据和第三模板干扰特征数据形成的待调度干扰特征库是结合多个所述模板干扰特征数据集确定的。多个所述模板干扰特征数据集中的每种模板干扰特征数据集包括一种干扰采集关系网络对应的第一成员干扰特征数据和第二成员干扰特征数据。其中,所述第一模板干扰特征数据和所述第二模板干扰特征数据分别携带不同的可信干扰采集关系网络,所述第三模板干扰特征数据为未携带可信干扰采集关系网络的模板干扰特征数据。
针对一些可能实施方式而言,所述结合多个所述模板干扰特征数据集,输出多个所述待调度干扰特征库,参见下述步骤进行执行。
(11)将多个所述模板干扰特征数据集中的目标干扰识别标签的第一成员干扰特征数据,确定为目标干扰识别标签的第一模板干扰特征数据。
(12)从多个所述模板干扰特征数据集的第二成员干扰特征数据中,输出目标干扰识别标签的第三模板干扰特征数据。
针对一些可能实施方式而言,可以从多个所述第二成员干扰特征数据中,将目标干扰识别标签的第二成员干扰特征数据以外的其它第二成员干扰特征数据确定为所述目标干扰识别标签的第三模板干扰特征数据。
又针对一些可能实施方式而言,可以结合目标干扰识别标签的干扰采集关系网络在多个所述模板干扰特征数据集中的影响权重系数,从多个所述第二成员干扰特征数据中,输出所述目标干扰识别标签的第三模板干扰特征数据。其中,所述影响权重系数反映所述目标干扰识别标签的干扰采集关系网络在多个所述的模板干扰特征数据集中的重要性。影响权重系数越大则表面该目标干扰识别标签的干扰采集关系网络对于噪声特征路径的重要性较大。
其中,响应于多个所述干扰采集关系网络中的目标干扰识别标签的干扰采集关系网络在多个所述模板干扰特征数据集中的影响权重系数超过预设影响权重系数,可以将所述第二成员干扰特征数据中所述目标干扰识别标签的第二成员干扰特征数据以外的其它第二成员干扰特征数据,确定为所述目标干扰识别标签的第三模板干扰特征数据。响应于所述目标干扰识别标签的干扰采集关系网络在多个所述模板干扰特征数据集中的影响权重系数不超过所述预设影响权重系数,则可以将所述目标干扰识别标签的干扰采集关系网络对应的第二成员干扰特征数据确定为所述目标干扰识别标签的第三模板干扰特征数据,其它的第二成员干扰特征数据确定为所述第二模板干扰特征数据。
(13)从多个所述模板干扰特征数据集中,将所述目标干扰识别标签的第一模板干扰特征数据和所述目标干扰识别标签的第三模板干扰特征数据之外的其它干扰特征数据,确定为目标干扰识别标签的第二模板干扰特征数据。
(14)将所述目标干扰识别标签的第一模板干扰特征数据、所述目标干扰识别标签的第二模板干扰特征数据和所述目标干扰识别标签的第三模板干扰特征数据汇聚确定为所述目标干扰识别标签的待调度干扰特征库,从而确定多个所述待调度干扰特征库。
(2)结合多个所述待调度干扰特征库,对所述预设的第二噪声训练神经网络进行模型配置权重开发,以实现所述初始干扰采集关系决策模型的模型配置权重开发,输出所述干扰采集关系决策模型。
针对一些可能实施方式而言,可以针对各目标干扰识别标签对应的待调度干扰特征库,可以分别将该目标干扰识别标签对应的待调度干扰特征库对应的第一模板干扰特征数据、第二模板干扰特征数据对所述第二噪声训练神经网络进行有监督训练,然后再结合所述第三模板干扰特征数据对通过所述第一模板干扰特征数据、第二模板干扰特征数据进行有监督训练后的第二噪声训练神经网络进行无监督训练,如此反复,直到结合各目标干扰识别标签的参考特征待调度干扰特征库对所述第二噪声训练神经网络完成训练后,输出所述干扰采集关系决策模型。
针对一些可能实施方式而言,所述干扰采集关系决策模型可以包括字段描述层和多个干扰采集关系网络分析层。其中,所述字段描述层用于对所述当前干扰特征数据进行字段描述,输出所述当前干扰特征数据中包括的至少两种干扰采集字段描述。多个所述干扰采集关系网络分析层中的各种干扰采集关系网络分析层用于结合所述字段描述层得到的至少两种干扰采集字段描述进行干扰采集关系网络分析,从而确定多个干扰采集关系网络。
针对一些可能实施方式而言,上述(2)中,结合多个所述待调度干扰特征库,对所述预设的第二噪声训练神经网络进行模型配置权重开发,以实现所述初始干扰采集关系决策模型的模型配置权重开发,输出所述干扰采集关系决策模型,可以参见下述实施例。
(21)将多个所述待调度干扰特征库中的模板干扰特征数据拆分成多组模板干扰特征数据。
(22)结合多个所述待调度干扰特征库中的s组模板干扰特征数据,在当前模型配置进程中,对所述第二噪声训练神经网络执行s次模型配置权重开发,输出s次模型配置权重开发确定的多个Loss值中的各种Loss值和当前模型配置进程中模型配置权重开发后的第二噪声训练神经网络。其中,多个所述Loss值分别与多个所述干扰采集关系网络分析层一一对应。
针对一些可能实施方式而言,可以在当前模型配置进程中,结合所述s次模型配置权重开发中而获得第d-1次模型配置权重开发阶段确定的第二噪声训练神经网络中的字段描述层,获取多个所述模板干扰特征数据集中s组模板干扰特征数据中的第d组模板干扰特征数据的干扰采集关系网络,输出第d干扰采集关系网络,d不超过s;
然后,结合所述第d-1次模型配置权重开发阶段确定的第二噪声训练神经网络中的各种干扰采集关系网络分析层,并结合所述s组模板干扰特征数据中与所述第d组模板干扰特征数据对应的第d组模板干扰特征数据,输出所述第d干扰采集关系网络的各种Loss值,输出第d次模型配置权重开发对应的Loss值;
其次,结合所述第d次模型配置权重开发对应的Loss值,对所述第d-1次模型配置权重开发阶段确定的第二噪声训练神经网络进行网络配置开发,输出第d次网络配置开发后的第二噪声训练神经网络;
最后,迭代遍历以上阶段,输出s次模型配置权重开发确定的多个Loss值中的各种Loss值和当前模型配置进程中模型配置权重开发后的第二噪声训练神经网络,确定为所述干扰采集关系决策模型;
其中,所述模型部署规则包括:
所述当前模型配置进程中的目标Loss值低于设定Loss值;或者
所述模型配置权重开发的迭代次数超过指定阈值。
(23)结合所述s次模型配置权重开发确定的多个Loss值中的各种Loss值,输出当前模型配置进程中的目标Loss值。
(24)结合所述当前模型配置进程中的目标Loss值以及模型配置权重开发的次数分析是否符合模型部署规则,当符合模型部署规则时,将所述当前模型配置进程中模型配置权重开发后的第二噪声训练神经网络作为所述干扰采集关系决策模型。其中,当不符合模型部署规则时,执行下一次模型配置权重开发阶段,输出下一次模型配置权重开发阶段中的目标Loss值和下一次模型配置权重开发阶段中模型配置权重开发后的第二噪声训练神经网络。
一些实施例中,大数据清洗***100可包括处理器110、机器可读存储介质120、总线130以及通信单元140。
处理器110可以依据存储在机器可读存储介质120中的程序而执行各种适当的动作和处理,例如前述实施例所描述的用于大数据清洗的人工智能处理方法所相关的程序指令。处理器110、机器可读存储介质120以及通信单元140通过总线130进行信号传输。
特别地,依据本发明的实施例,上文示例性流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信单元140从网络上被下载和安装,在该计算机程序被处理器110执行时,执行本发明实施例的方法中限定的上述功能。
本发明又一实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述任一实施例所述的用于大数据清洗的人工智能处理方法。
本发明又一实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上述任一实施例所述的用于大数据清洗的人工智能处理方法。
应该理解的是,虽然本发明实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本发明实施例的一些实施场景中,各流程图中的实施步骤可以依据需求以其它的顺序执行。此外,各流程图中的部分或全部步骤依据实际的实施场景,可以包括若干子步骤或者若干阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的各个子步骤或者阶段也可以各自在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以依据需求灵活配置,本发明实施例对此不限制。
以上所述仅是本发明部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明的方案技术构思的前提下,依据依据本发明技术思想的其它类似实施手段,同样属于本发明实施例的保护范畴。