CN115145904B - 用于ai云计算训练的大数据清洗方法及大数据采集*** - Google Patents

用于ai云计算训练的大数据清洗方法及大数据采集*** Download PDF

Info

Publication number
CN115145904B
CN115145904B CN202210786105.9A CN202210786105A CN115145904B CN 115145904 B CN115145904 B CN 115145904B CN 202210786105 A CN202210786105 A CN 202210786105A CN 115145904 B CN115145904 B CN 115145904B
Authority
CN
China
Prior art keywords
noise
big data
acquisition
target
cleaning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210786105.9A
Other languages
English (en)
Other versions
CN115145904A (zh
Inventor
杨焕荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhengyuanda Technology Co ltd
Original Assignee
Beijing Zhengyuanda Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhengyuanda Technology Co ltd filed Critical Beijing Zhengyuanda Technology Co ltd
Priority to CN202210786105.9A priority Critical patent/CN115145904B/zh
Publication of CN115145904A publication Critical patent/CN115145904A/zh
Application granted granted Critical
Publication of CN115145904B publication Critical patent/CN115145904B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本申请实施例提供一种用于AI云计算训练的大数据清洗方法及大数据采集***,可以对大数据样本采集事件数据进行噪声预测,输出大数据样本采集事件数据的噪声采集特征点分布,然后基于大数据样本采集事件数据的噪声采集特征点分布即可确定大数据样本采集事件数据的大数据采集清洗决策信息,由此基于所述大数据采集清洗决策信息为所述AI云计算训练节点进行对应的大数据采集清洗配置,从而在进行大数据采集清洗决策过程中通过追溯大数据样本采集事件数据的噪声采集特征点分布,相较于现有技术中在完成大数据采集之后噪声字段特征匹配筛选的方式,在大数据采集流程中即可进行大数据清洗流程,可以提高大数据清洗效率和准确性。

Description

用于AI云计算训练的大数据清洗方法及大数据采集***
技术领域
本申请涉及大数据采集清洗技术领域,具体而言,涉及一种用于AI云计算训练的大数据清洗方法及大数据采集***。
背景技术
大数据采集清洗从整体上看,是一个人工预处理与机器自动处理相结合的过程,其基本原理是在完成人工预处理之后,利用有关技术如数理统计、数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据,例如在进行AI训练流程中,需要搜集大量的大数据样本,在采集这些大数据样本的流程中可能会存在诸多的噪声数据需要进行清洗以便于保证后续的AI训练可靠性。在相关技术中,通常是在大数据采集之后进行噪声字段特征匹配筛选从而进行大数据采集清洗,此种方式无法在大数据采集流程中进行清洗,只能在大数据采集之后进行清洗,影响大数据清洗效率,并且也难以较好地保证大数据清洗的准确性。
发明内容
第一方面,本申请提供一种用于AI云计算训练的大数据清洗方法,应用于大数据采集***,所述大数据采集***与多个AI云计算训练节点通信连接,所述方法包括:
在接收到所述AI云计算训练节点的目标AI训练发起任务所输出的训练噪声指示后,获取所述目标AI训练发起任务的大数据样本采集事件数据;
对所述大数据样本采集事件数据进行噪声预测,输出所述大数据样本采集事件数据的噪声采集特征点分布,所述噪声采集特征点分布包括所述大数据样本采集事件数据中目标样本采集实例的样本采集目标的噪声定位元素信息;
基于所述噪声采集特征点分布确定所述大数据样本采集事件数据的大数据采集清洗决策信息,所述大数据采集清洗决策信息包括所述大数据样本采集事件数据中所述目标样本采集实例的样本采集目标的采集清洗字段分布;
基于所述大数据采集清洗决策信息为所述AI云计算训练节点进行对应的大数据采集清洗配置。
第二方面,本申请实施例还提供一种用于AI云计算训练的大数据清洗***,所述用于AI云计算训练的大数据清洗***包括大数据采集***以及与所述大数据采集***通信连接的多个AI云计算训练节点;
所述大数据采集***,用于:
在接收到所述AI云计算训练节点的目标AI训练发起任务所输出的训练噪声指示后,获取所述目标AI训练发起任务的大数据样本采集事件数据;
对所述大数据样本采集事件数据进行噪声预测,输出所述大数据样本采集事件数据的噪声采集特征点分布,所述噪声采集特征点分布包括所述大数据样本采集事件数据中目标样本采集实例的样本采集目标的噪声定位元素信息;
基于所述噪声采集特征点分布确定所述大数据样本采集事件数据的大数据采集清洗决策信息,所述大数据采集清洗决策信息包括所述大数据样本采集事件数据中所述目标样本采集实例的样本采集目标的采集清洗字段分布;
基于所述大数据采集清洗决策信息为所述AI云计算训练节点进行对应的大数据采集清洗配置。
采用上述任一方面的技术方案,本申请实施例可以对大数据样本采集事件数据进行噪声预测,输出大数据样本采集事件数据的噪声采集特征点分布,然后基于大数据样本采集事件数据的噪声采集特征点分布即可确定大数据样本采集事件数据的大数据采集清洗决策信息,由此基于所述大数据采集清洗决策信息为所述AI云计算训练节点进行对应的大数据采集清洗配置,从而在进行大数据采集清洗决策过程中通过追溯大数据样本采集事件数据的噪声采集特征点分布,相较于现有技术中在完成大数据采集之后噪声字段特征匹配筛选的方式,在大数据采集流程中即可进行大数据清洗流程,可以提高大数据清洗效率和准确性。
附图说明
图1为本发明实施例提供的用于AI云计算训练的大数据清洗方法的流程示意图。
具体实施方式
下面介绍本发明一种实施例提供的用于AI云计算训练的大数据清洗***10的架构,该用于AI云计算训练的大数据清洗***10可以包括大数据采集***100以及与大数据采集***100通信连接的AI云计算训练节点200。其中,用于AI云计算训练的大数据清洗***10中的大数据采集***100和AI云计算训练节点200可以通过配合执行以下方法实施例所描述的用于AI云计算训练的大数据清洗方法,具体大数据采集***100和AI云计算训练节点200的执行步骤部分可以参照以下方法实施例的详细描述。
在对本申请实施例进行介绍之前,下面首先对初始AI训练发起任务下的第一范例大数据样本采集事件数据的场景进行说明。本申请中,可以选定一批范例大数据样本采集事件数据用于噪声决策能力学习,即选定用于噪声决策能力学习的范例大数据样本采集事件数据集,范例大数据样本采集事件数据集包括初始AI训练发起任务下的第一范例大数据样本采集事件数据和目标AI训练发起任务下的第二范例大数据样本采集事件数据。其中,初始AI训练发起任务下的第一范例大数据样本采集事件数据是指:初始AI训练发起任务的采集训练数据,包括范例大数据样本采集事件数据和带有先验噪声信息的数据(可记为范例噪声定位元素信息)。并且,初始AI训练发起任务下的范例大数据样本采集事件数据为灰度上线节点模拟生成大数据样本采集事件数据,即可以基于灰度上线节点自动模拟生成的大数据样本采集事件数据。目标AI训练发起任务下的第二范例大数据样本采集事件数据是指:已更新训练节点中的目标AI训练发起任务的采集训练数据,即实际训练节点下的大数据样本采集事件数据。并且目标AI训练发起任务下的范例大数据样本采集事件数据只有大数据样本采集事件数据,无任何先验噪声信息信息,也即,目标AI训练发起任务即为AI训练发起任务的优化指示所关注的AI训练发起任务。
针对一些示例性的设计思路而言,可以基于初始AI训练发起任务的第一范例大数据样本采集事件数据、第一范例大数据样本采集事件数据中目标样本采集实例的样本采集目标的范例噪声定位元素信息和目标AI训练发起任务的第二范例大数据样本采集事件数据,对噪声决策初始化模型进行模数参数层的调优和选取。
一种示例为:初始AI训练发起任务为灰度上线节点模拟生成大数据样本采集事件数据及其样本采集目标的范例噪声定位元素信息,范例噪声定位元素信息包括至少一个噪声定位元素。目标AI训练发起任务为实际训练节点中的大数据样本采集事件数据。并且,范例噪声定位元素信息的样本采集目标的具体数量可以灵活设定。其中,第一范例大数据样本采集事件数据中范例噪声定位元素信息的数量不小于最终大数据样本采集事件数据中包括的样本采集目标的数量。
针对一些示例性的设计思路而言,大数据采集***100基于初始AI训练发起任务的第一范例大数据样本采集事件数据、第一范例大数据样本采集事件数据中目标样本采集实例的样本采集目标的范例噪声定位元素信息和目标AI训练发起任务的第二范例大数据样本采集事件数据,对噪声决策初始化模型进行模数参数层的调优和选取。例如,噪声决策初始化模型包括噪声采集特征点解析分支和噪声采集特征点聚合分支,在每个噪声决策学习阶段中,将初始AI训练发起任务的第一范例大数据样本采集事件数据和目标AI训练发起任务的第二范例大数据样本采集事件数据共同加载至噪声决策初始化模型中,第一范例大数据样本采集事件数据包括目标样本采集实例的样本采集目标的范例噪声定位元素信息,并且目标样本采集实例为至少一个噪声定位元素,第二范例大数据样本采集事件数据不带范例噪声定位元素信息。基于噪声采集特征点解析分支分别对第一范例大数据样本采集事件数据和第二范例大数据样本采集事件数据进行特征解析,分别得到第一范例大数据样本采集事件数据对应的噪声采集特征点分布和第二范例大数据样本采集事件数据对应的噪声采集特征点分布。然后,基于第一范例大数据样本采集事件数据对应的噪声采集特征点分布、第二范例大数据样本采集事件数据对应的噪声采集特征点分布的真实噪声字段分布以及第一范例大数据样本采集事件数据的目标样本采集实例的样本采集目标的范例噪声定位元素信息,对噪声决策初始化模型进行模数参数层的调优和选取。
当噪声决策初始化模型匹配模型部署条件时,将噪声决策初始化模型输出为噪声采集特征点决策模型,噪声采集特征点决策模型可以用于决策目标AI训练发起任务的大数据样本采集事件数据中目标样本采集实例的样本采集目标的噪声采集特征点。例如,大数据采集***100基于确定大数据样本采集事件数据的噪声采集特征点分布,并基于噪声采集特征点分布确定大数据样本采集事件数据的大数据采集清洗决策信息,大数据采集清洗决策信息包括大数据样本采集事件数据中目标样本采集实例的样本采集目标的采集清洗字段分布。
由此可以在无需对目标AI训练发起任务的大数据样本采集事件数据进行先验知识添加的条件下,将经由初始AI训练发起任务有范例噪声定位元素信息的范例大数据样本采集事件数据和无范例噪声定位元素信息的目标AI训练发起任务范例大数据样本采集事件数据的真实噪声字段分布输出的噪声决策模型,迁移至目标AI训练发起任务的候选大数据样本采集事件数据上,从而减少了目标AI训练发起任务的大数据样本采集事件数据的先验知识量。
本实施例提供的用于AI云计算训练的大数据清洗方法可以由大数据采集***100执行,下面结合图1对该用于AI云计算训练的大数据清洗方法进行详细介绍。
Process110,获取目标AI训练发起任务的大数据样本采集事件数据。
针对一些示例性的设计思路而言,目标AI训练发起任务可以是指任意用于后续AI应用的训练任务,例如用于用户兴趣分析的训练任务、用于安全漏洞挖掘的训练任务等,但不限于此。大数据样本采集事件数据可以是指目标AI训练发起任务所指示的大数据样本采集任务的记录事件数据,如对于用户兴趣分析的训练任务而言,可以是指针对用户关注行为数据的大数据样本采集任务的记录事件数据。
Process120,对所述大数据样本采集事件数据进行噪声预测,输出所述大数据样本采集事件数据的噪声采集特征点分布。
其中,噪声采集特征点分布包括大数据样本采集事件数据中目标样本采集实例的样本采集目标的噪声定位元素信息。并且,噪声采集特征点分布具体包括前向噪声采集特征点和后向噪声采集特征点,前向噪声采集特征点中包括多个解释特征成员,每个解释特征成员表示与该解释特征成员对应的大数据样本采集事件数据中的样本采集事件单位数据为目标样本采集实例的样本采集目标的多方耦合噪声项的决策支持度。噪声字段链接范围属性的噪声采集特征点和噪声字段渗透路径属性的噪声采集特征点的噪声触发字段区间一致。另外,前向噪声采集特征点的噪声触发字段区间与后向噪声采集特征点的噪声触发字段区间同样一致。例如,前向噪声采集特征点的噪声触发字段区间与后向噪声采集特征点的噪声触发字段区间均为(z1,z2,......,zn)。
例如,本申请实施例对于噪声采集特征点的表现方式为前向+后向的形式。则噪声采集特征点分布分别对二者进行分类,即前向噪声采集特征点和后向噪声采集特征点。其中,前向噪声采集特征点的维度为(z1,z2,......,zn)*R,后向解释特征的维度是(z1,z2,......,zn)*2,R为所要决策的目标样本采集实例的具体数量。噪声采集特征点上的每个解释特征成员分别表达了该采集特征点处,是目标样本采集实例的样本采集目标的多方耦合噪声项的决策支持度和噪声字段链接范围噪声字段渗透路径的决策支持度。
Process130,基于所述噪声采集特征点分布确定所述大数据样本采集事件数据的大数据采集清洗决策信息,所述大数据采集清洗决策信息包括所述大数据样本采集事件数据中所述目标样本采集实例的样本采集目标的采集清洗字段分布。
针对一些示例性的设计思路而言,采集清洗字段分布可以包括噪声定位元素,采集清洗字段分布例如可以包括:大数据样本采集事件数据是目标样本采集实例的样本采集目标的多方耦合噪声项的决策支持度,和大数据样本采集事件数据是目标样本采集实例的样本采集目标对应的噪声定位元素的噪声字段链接范围和噪声字段渗透路径。
针对一些示例性的设计思路而言,噪声采集特征点分布包括前向噪声采集特征点和后向噪声采集特征点。其中,前向噪声采集特征点包括大数据样本采集事件数据中每个样本采集事件单位数据为目标样本采集实例的样本采集目标的多方耦合噪声项的决策支持度,后向噪声采集特征点包括大数据样本采集事件数据中每个样本采集事件单位数据对应的噪声字段链接范围和噪声字段渗透路径数据。
针对一些示例性的设计思路而言,首先,大数据采集***100基于前向噪声采集特征点确定大数据样本采集事件数据中目标样本采集实例的样本采集目标的多方耦合噪声项。然后,大数据采集***100基于多方耦合噪声项以及多方耦合噪声项处的样本采集事件单位数据对应的噪声字段链接范围和噪声字段渗透路径数据,输出大数据样本采集事件数据中目标样本采集实例的样本采集目标的噪声定位元素。最后,大数据采集***100将目标样本采集实例的样本采集目标的噪声定位元素输出为目标样本采集实例的样本采集目标的采集清洗字段分布。
例如,大数据样本采集事件数据中每个样本采集事件单位数据对应噪声采集特征点分布中的一个解释特征成员。因此,可以确定大数据样本采集事件数据的大数据采集清洗决策信息,大数据采集清洗决策信息包括大数据样本采集事件数据中目标样本采集实例的样本采集目标的采集清洗字段分布。
Process140,基于所述大数据采集清洗决策信息为所述AI云计算训练节点进行对应的大数据采集清洗配置。
本实施例中,在基于所述大数据采集清洗决策信息为所述AI云计算训练节点进行对应的大数据采集清洗配置后,即可基于大数据采集清洗配置后的AI云计算训练节点执行大数据采集操作。
基于以上步骤,可以对大数据样本采集事件数据进行噪声预测,输出大数据样本采集事件数据的噪声采集特征点分布,然后基于大数据样本采集事件数据的噪声采集特征点分布即可确定大数据样本采集事件数据的大数据采集清洗决策信息,由此基于所述大数据采集清洗决策信息为所述AI云计算训练节点进行对应的大数据采集清洗配置,从而在进行大数据采集清洗决策过程中通过追溯大数据样本采集事件数据的噪声采集特征点分布,相较于现有技术中在完成大数据采集之后噪声字段特征匹配筛选的方式,在大数据采集流程中即可进行大数据清洗流程,可以提高大数据清洗效率和准确性。
针对一些示例性的设计思路而言,大数据采集***100可以基于噪声采集特征点决策模型对大数据样本采集事件数据进行噪声预测,输出大数据样本采集事件数据的噪声采集特征点分布。其中,噪声采集特征点决策模型是基于对目标AI训练发起任务的范例大数据样本采集事件数据进行噪声点预测训练输出的。例如,噪声采集特征点决策模型是基于初始AI训练发起任务的第一范例大数据样本采集事件数据、第一范例大数据样本采集事件数据中目标样本采集实例的样本采集目标的范例噪声定位元素信息和目标AI训练发起任务的第二范例大数据样本采集事件数据训练后得到的。
在上述方案中,以上目标AI训练发起任务的第二范例大数据样本采集事件数据不需要进行先验知识添加即可进行训练得到噪声采集特征点决策模型,而是利用目标AI训练发起任务的范例大数据样本采集事件数据的真实噪声字段分布进行噪声决策能力学习以得到噪声采集特征点决策模型。最后,训练得到的噪声采集特征点决策模型可以直接对目标AI训练发起任务的大数据样本采集事件数据进行噪声预测,从而得到大数据采集清洗决策信息,可以减少对目标AI训练发起任务的大数据样本采集事件数据的先验知识添加工作。
针对一些示例性的设计思路而言,噪声采集特征点决策模型包括噪声采集特征点解析分支和噪声采集特征点聚合分支。例如,清洗控制决策模型包括噪声采集特征点解析分支和噪声采集特征点聚合分支。大数据采集***100基于噪声采集特征点决策模型对大数据样本采集事件数据进行噪声预测,输出大数据样本采集事件数据的噪声采集特征点分布的一种示例设计可以包括:大数据采集***100基于噪声采集特征点解析分支对大数据样本采集事件数据进行特征解析,输出大数据样本采集事件数据的模糊噪声采集特征点;基于噪声采集特征点聚合分支对大数据样本采集事件数据和模糊噪声采集特征点进行聚合,输出大数据样本采集事件数据的噪声采集特征点分布。其中,噪声采集特征点解析分支可以由卷积层、批正则化、非线性激活、池化层等组成。噪声采集特征点解析分支能够有效提取输入大数据样本采集事件数据(大数据样本采集事件数据)的一种噪声字段渗透路径特征(即模糊噪声采集特征点)。
针对一些示例性的设计思路而言,首先,大数据采集***100基于噪声采集特征点聚合分支对大数据样本采集事件数据和模糊噪声采集特征点进行基于惩罚项的特征选择,输出第一噪声采集特征点;然后,大数据采集***100基于噪声采集特征点聚合分支对大数据样本采集事件数据和模糊噪声采集特征点进行嵌入处理,输出模糊噪声采集特征点对应的代价评价指标,并基于代价评价指标对模糊噪声采集特征点进行特征关系连通,输出第二噪声采集特征点;最后,大数据采集***100对第一待融合噪声采集特征点和第二待融合噪声采集特征点进行聚合,输出大数据样本采集事件数据的噪声采集特征点分布。
例如,噪声采集特征点聚合分支可以包括第一函数处理层和第二函数处理层,第一函数处理层例如可以为FPN。FPN是融合大数据样本采集事件数据的模糊噪声采集特征点的低层和噪声字段渗透路径层的噪声采集特征点表征,从而得到第一噪声采集特征点。FPN的基本运算单元同样是卷积层、批正则化、非线性激活、池化层的元操作。第二函数处理层可以是嵌入处理层,例如可以将模糊噪声采集特征点全局平均池化,并基于激励的方式对进行处理,输出代价评价指标。最后,大数据采集***100将代价评价指标与模糊噪声采集特征点进行学习代价值综合判定,输出第二噪声采集特征点。
最后,大数据采集***100对第一噪声采集特征点和第二噪声采集特征点进行聚合,从而得到大数据样本采集事件数据的噪声采集特征点分布。当然,也可以是对大数据样本采集事件数据的模糊噪声采集特征点基于FPN进行处理之后,输出的第一噪声采集特征点输出为嵌入处理层的输入,然后得到第二噪声采集特征点。最后,将嵌入处理层基于第一噪声采集特征点处理后得到的第二噪声采集特征点输出为大数据样本采集事件数据的噪声采集特征点分布。
针对一些示例性的设计思路而言,本申请实例提供的一种用于AI云计算训练的大数据清洗方法,包括以下步骤。
Process210,获取范例待学习噪声点特征数据序列,所述范例待学习噪声点特征数据序列包括初始AI训练发起任务的第一范例大数据样本采集事件数据、所述第一范例大数据样本采集事件数据中目标样本采集实例的样本采集目标的范例噪声定位元素信息和目标AI训练发起任务的第二范例大数据样本采集事件数据。
针对一些示例性的设计思路而言,初始AI训练发起任务是指实际训练节点,目标AI训练发起任务是指灰度上线节点模拟生成训练节点。第一范例大数据样本采集事件数据则是指:实际训练节点下的大数据样本采集事件数据。
其中,第一范例大数据样本采集事件数据是指灰度上线节点模拟生成大数据样本采集事件数据,例如可以基于一些灰度上线节点模拟生成应用自动生成第一范例大数据样本采集事件数据。例如,范例噪声定位元素信息例如可以是噪声定位元素。其中,第一范例大数据样本采集事件数据中目标样本采集实例的样本采集目标的噪声定位元素也是基于灰度上线节点模拟生成应用自动标注。如此设计,第一范例大数据样本采集事件数据和第一范例大数据样本采集事件数据中目标样本采集实例的样本采集目标的范例噪声定位元素信息均是灰度上线节点模拟生成,相比手动搜集并标注大数据样本采集事件数据,提高了大数据样本采集事件数据处理效率。
另外,第二范例大数据样本采集事件数据为实际训练节点下的大数据样本采集事件数据。第二大数据样本采集事件数据可以为大数据采集***100任意选择的大数据样本采集事件数据,当然,大数据样本采集事件数据库中的大数据样本采集事件数据均为实际训练节点下的大数据样本采集事件数据。
Process220,基于对所述第二范例大数据样本采集事件数据进行噪声决策训练以及对所述第一范例大数据样本采集事件数据进行噪声决策能力学习以对噪声决策初始化模型进行模数参数层的调优和选取。
例如,噪声决策训练是指基于第二范例大数据样本采集事件数据的真实噪声字段分布优化噪声决策初始化模型的模型参数层信息。学习是指基于第一范例大数据样本采集事件数据计算第二目标噪声学习代价值,并基于第二目标噪声学习代价值对所述噪声决策初始化模型进行模型参数层的调优和选取。
针对一些示例性的设计思路而言,大数据采集***100基于第二范例大数据样本采集事件数据的真实噪声字段分布确定噪声决策初始化模型的第一目标噪声学习代价值。大数据采集***100基于第一范例大数据样本采集事件数据和第一范例大数据样本采集事件数据中目标样本采集实例的样本采集目标的范例噪声定位元素信息,输出噪声决策初始化模型的第二目标噪声学习代价值。大数据采集***100基于第一目标噪声学习代价值和第二目标噪声学习代价值对噪声决策初始化模型进行模数参数层的调优和选取。
针对一些示例性的设计思路而言,大数据采集***100基于噪声决策初始化模型对第一范例大数据样本采集事件数据进行特征解析,输出第一范例大数据样本采集事件数据的第一噪声解释特征。然后,大数据采集***100基于第一噪声解释特征和范例噪声定位元素信息确定噪声决策初始化模型的第二目标噪声学习代价值。
针对一些示例性的设计思路而言,噪声决策初始化模型例如可以为能够实现噪声决策的初始化网络模型,由此输出大数据样本采集事件数据中所有具有噪声特征可能的噪声采集特征点分布。
针对一些示例性的设计思路而言,噪声决策初始化模型可以包括基础噪声采集特征点解析分支和基础噪声采集特征点聚合分支。大数据采集***100基于噪声决策初始化模型对初始AI训练发起任务的第一范例大数据样本采集事件数据进行特征解析,输出第一范例大数据样本采集事件数据的第一噪声解释特征例如可以包括:大数据采集***100基于基础噪声采集特征点解析分支对第一范例大数据样本采集事件数据进行特征解析,输出第一范例大数据样本采集事件数据的模糊噪声采集特征点;大数据采集***100基于基础噪声采集特征点聚合分支对第一范例大数据样本采集事件数据的模糊噪声采集特征点进行聚合,输出第一范例大数据样本采集事件数据的第一噪声解释特征。例如,基础噪声采集特征点解析分支和基础噪声采集特征点聚合分支的分别对应的架构,具体可参见前述描述的噪声采集特征点解析分支和噪声采集特征点聚合分支分别对应的架构。并且,基础噪声采集特征点聚合分支还可以包括第一基础函数处理层和第二基础函数处理层,第一基础函数处理层的结构具体可参见前述第一函数处理层,第二基础函数处理层的结构具体可参见前述第二函数处理层。
针对一些示例性的设计思路而言,大数据采集***100基于噪声决策初始化模型对所述第二范例大数据样本采集事件数据进行特征解析,输出第二范例大数据样本采集事件数据的第二噪声解释特征。然后,大数据采集***100基于第二噪声解释特征的真实噪声字段分布确定噪声决策初始化模型的第一目标噪声学习代价值。
针对一些示例性的设计思路而言,大数据采集***100“基于噪声决策初始化模型对目标AI训练发起任务的第二范例大数据样本采集事件数据进行特征解析,输出第二范例大数据样本采集事件数据的第二噪声解释特征”的执行步骤,具体可参见Process220中大数据采集***100“基于噪声决策初始化模型对初始AI训练发起任务的第一范例大数据样本采集事件数据进行特征解析,输出第一范例大数据样本采集事件数据的第一噪声解释特征”的执行步骤,本申请实施例在此不再赘述。
其中,在基于初始AI训练发起任务的第一范例大数据样本采集事件数据和目标AI训练发起任务的第二范例大数据样本采集事件数据对噪声决策初始化模型的噪声决策学习阶段中,第一范例大数据样本采集事件数据与第二范例大数据样本采集事件数据是同时输入噪声决策初始化模型中的。针对一些示例性的设计思路而言,一个噪声决策学习阶段的数据包括多个第一范例大数据样本采集事件数据以及相等数量的第二范例大数据样本采集事件数据,当然,每次噪声决策学习阶段中,输入噪声决策初始化模型的第一范例大数据样本采集事件数据和第二范例大数据样本采集事件数据之间的数量也可以不一致,本申请对此不作具体限定。
Process230,当匹配模型部署条件的噪声决策初始化模型匹配模型部署条件时,将所述匹配模型部署条件的噪声决策初始化模型输出为噪声采集特征点决策模型,并基于所述噪声采集特征点决策模型对输入的大数据样本采集事件数据进行噪声预测,输出所述大数据样本采集事件数据的噪声采集特征点分布。
针对一些示例性的设计思路而言,第一目标噪声学习代价值包括第三噪声学习代价值和第四噪声学习代价值,第二目标噪声学习代价值包括第一噪声学习代价值和第二噪声学习代价值。大数据采集***100获取第一噪声学习代价值对应的第一代价评价指标,第二噪声学习代价值对应的第二代价评价指标,并获取第三噪声学习代价值对应的第三代价评价指标,第三噪声学习代价值对应的***价评价指标;然后,大数据采集***100基于第一代价评价指标、第二代价评价指标、第三代价评价指标和***价评价指标,对第二目标噪声学习代价值和第一目标噪声学习代价值进行学习代价值综合判定,输出目标噪声学习代价值;最后,大数据采集***100基于目标噪声学习代价值对所述噪声决策初始化模型进行模型参数层的调优和选取。后续,当经过模型参数层的调优和选取后的噪声决策初始化模型包括匹配模型部署条件时,则将经过模型参数层的调优和选取后的噪声决策初始化模型输出为噪声采集特征点决策模型。
其中,所谓模型部署条件可以是指:当噪声决策初始化模型的模型参数层的调优和选取次数达到门限次数时,例如300次,则噪声决策初始化模型匹配模型部署条件;当每个范例大数据样本采集事件数据对应的预测大数据采集清洗决策信息和每个范例大数据样本采集事件数据对应的实际大数据采集清洗决策信息之间的区别度量值小于区别度量值阈值时,则噪声决策初始化模型匹配模型部署条件;当噪声决策初始化模型最近两次模型参数层的调优和选取得到的每个范例大数据样本采集事件数据对应的预测大数据采集清洗决策信息之间的区别小于预设区别时,则噪声决策初始化模型匹配模型部署条件。其中,范例大数据样本采集事件数据可以为第一范例大数据样本采集事件数据或第二范例大数据样本采集事件数据。
针对一些示例性的设计思路而言,本申请实施例提供一种确定第一目标噪声学习代价值的方法的流程,该方法应用于大数据采集***100,对应于Process220对应的一个具体实施例,包括以下步骤。
Process310,对所述第二噪声解释特征包括的第二前向解释特征或者第二后向解释特征进行递归特征消除,输出递归特征消除后的第二前向解释特征或者第二后向解释特征。
针对一些示例性的设计思路而言,大数据采集***100基于基于噪声决策初始化模型,对第二范例大数据样本采集事件数据进行噪声预测,输出第二范例大数据样本采集事件数据的第二噪声解释特征。其中,第二噪声解释特征包括第二前向解释特征和第二后向解释特征。大数据采集***100可以对第二前向解释特征进行递归特征消除,输出递归特征消除后的第二前向解释特征。相对应地,大数据采集***100也可以对第二后向解释特征进行递归特征消除,输出递归特征消除后的第二后向解释特征。
Process320,对所述多个解释特征成员中每一个解释特征成员分别计算真实噪声字段分布,并基于所有解释特征成员的真实噪声字段分布、所述第二噪声解释特征的噪声字段链接范围和噪声字段渗透路径确定第三噪声学习代价值。
针对一些示例性的设计思路而言,递归特征消除后的第二前向解释特征包括多个解释特征成员,每个解释特征成员对应第二范例大数据样本采集事件数据中的一个样本采集事件单位数据。大数据采集***100对多个解释特征成员中每一个解释特征成员分别计算真实噪声字段分布(信息熵)。
Process330,对所述多个解释特征成员中每一个解释特征成员分别计算噪声学***方值,并基于所有解释特征成员的噪声学***方值、所述第二噪声解释特征的噪声字段链接范围和噪声字段渗透路径确定第四噪声学习代价值。
针对一些示例性的设计思路而言,递归特征消除后的第二前向解释特征包括多个解释特征成员,每个解释特征成员对应第二范例大数据样本采集事件数据中的一个样本采集事件单位数据。大数据采集***100对多个解释特征成员中每一个解释特征成员分别计算噪声学***方值。
Process340,基于所述第三噪声学习代价值和所述第四噪声学习代价值,输出所述噪声决策初始化模型的第一目标噪声学习代价值。
针对一些示例性的设计思路而言,大数据采集***100获取第三噪声学习代价值对应的第三代价评价指标,并获取第四噪声学习代价值对应的***价评价指标。然后,大数据采集***100基于第三代价评价指标和***价评价指标对第三噪声学习代价值和第四噪声学习代价值进行学习代价值综合判定,输出噪声决策初始化模型的第一目标噪声学习代价值。
最后,大数据采集***100将第二目标噪声学习代价值和第一目标噪声学习代价值进行加权计算,输出目标噪声学习代价值。
针对一些示例性的设计思路而言,本申请实施例提供一种确定第二目标噪声学习代价值的方法,该方法应用于大数据采集***100,对应于Process220对应的一个具体实施例,该方法包括的步骤如下。
Process410,基于所述第一前向解释特征、所述目标样本采集实例的样本采集目标的多方耦合噪声项和所述第一范例大数据样本采集事件数据的数量,输出第一噪声学习代价值。
其中,第一范例大数据样本采集事件数据中目标样本采集实例的样本采集目标的范例噪声定位元素信息具体包括第一范例大数据样本采集事件数据中目标样本采集实例的样本采集目标的噪声定位元素的噪声字段链接范围、噪声字段渗透路径和目标样本采集实例的样本采集目标的多方耦合噪声项。
针对一些示例性的设计思路而言,大数据采集***100基于基于噪声决策初始化模型,对第一范例大数据样本采集事件数据进行噪声预测,输出第一范例大数据样本采集事件数据的第一噪声解释特征。其中,第一噪声解释特征包括第一前向解释特征,第一前向解释特征包括第一范例大数据样本采集事件数据中每个样本采集事件单位数据为目标样本采集实例的样本采集目标的多方耦合噪声项的决策支持度。
Process420,基于所述第一后向解释特征、所述第一范例大数据样本采集事件数据的数量、所述噪声定位元素的噪声字段链接范围和噪声字段渗透路径,输出第二噪声学习代价值。
针对一些示例性的设计思路而言,大数据采集***100基于基于噪声决策初始化模型,对第一范例大数据样本采集事件数据进行噪声预测,输出第一范例大数据样本采集事件数据的第一噪声解释特征。其中,第一噪声解释特征包括第一后向解释特征,第一后向解释特征包括第一范例大数据样本采集事件数据中每个样本采集事件单位数据对应的噪声字段链接范围和噪声字段渗透路径数据。第一范例大数据样本采集事件数据中目标样本采集实例的样本采集目标的范例噪声定位元素信息包括第一范例大数据样本采集事件数据中目标样本采集实例的样本采集目标的噪声定位元素的噪声字段链接范围、噪声字段渗透路径和目标样本采集实例的样本采集目标的多方耦合噪声项。
Process430,基于所述第一噪声学习代价值和所述第二噪声学习代价值,输出所述噪声决策初始化模型的第二目标噪声学习代价值。
针对一些示例性的设计思路而言,大数据采集***100获取第一噪声学习代价值对应的第一代价评价指标,并获取第二噪声学习代价值对应的第二代价评价指标。然后,大数据采集***100基于第一代价评价指标和第二代价评价指标对第一噪声学习代价值和第二噪声学习代价值进行学习代价值综合判定,输出噪声决策初始化模型的第二目标噪声学习代价值。
针对一些示例性的设计思路而言,本申请实施例还提供一种基于人工智能的大数据采集清洗方法,包括以下步骤。
STEP110,基于所述大数据采集清洗决策信息获取对应的目标大数据采集清洗控制模型中每个相关采集清洗字段分布的清洗业务节点信息。
针对一些示例性的设计思路而言,可以基于预设清洗业务节点映射关系库确定各个所述相关采集清洗字段分布所对应的清洗业务节点信息。其中,所述清洗业务节点信息可以包括由各个需要进行大数据采集清洗配置的业务节点构成的序列。
STEP120,基于各所述相关采集清洗字段分布的清洗业务节点信息,确定各相关采集清洗字段分布的清洗控制路径。
针对一些示例性的设计思路而言,可以基于知识图谱算法对清洗业务节点信息进行处理获得所述清洗控制路径,清洗控制路径可以表示各个清洗业务节点之间的清洗控制关联关系。
STEP130,将各个所述相关采集清洗字段分布的清洗控制路径进行相关节点连通,输出所述目标大数据采集清洗控制模型的目标清洗控制路径。
针对一些示例性的设计思路而言,基于将各个所述相关采集清洗字段分布的清洗控制路径进行相关节点连通得到整个目标大数据采集清洗控制模型的目标清洗控制路径,使得该目标清洗控制路径能够反映大数据采集清洗控制模型中各个相关采集清洗字段分布的清洗业务节点信息的清洗控制实例的关系信息,能够准确表达目标大数据采集清洗控制模型的大数据采集清洗逻辑信息。
STEP140,基于所述目标清洗控制路径对所述目标大数据采集清洗控制模型进行模型控制指令分配,输出所述目标大数据采集清洗控制模型的至少一个模型控制指令。
STEP150,基于所述目标大数据采集清洗控制模型的至少一个模型控制指令,为所述AI云计算训练节点200进行对应的大数据采集清洗配置。
针对一些示例性的设计思路而言,由于所述目标清洗控制路径为基于各个所述相关采集清洗字段分布的清洗控制路径聚合获得的,因此基于所述目标清洗控制路径执行的目标大数据采集清洗控制模型的模型控制指令分配可以更加准确。
针对一些示例性的设计思路而言,STEP120的一种具体实现实施例可以参见下述描述。
STEP210,针对每个所述相关采集清洗字段分布的清洗业务节点信息,对该相关采集清洗字段分布的清洗业务节点信息进行清洗控制实例信息生成,输出所述相关采集清洗字段分布的清洗业务节点信息对应的清洗控制实例信息。
针对一些示例性的设计思路而言,将各个所述相关采集清洗字段分布的清洗业务节点信息分别输入满足模型收敛要求的清洗控制决策模型,基于所述清洗控制决策模型进行一次或多次清洗控制特征点输出,以对所述清洗业务节点信息进行特征解析,输出与所述相关采集清洗字段分布的清洗业务节点信息对应的清洗控制实例信息。
STEP220,对所述相关采集清洗字段分布的清洗业务节点信息的清洗控制实例信息进行大数据采集清洗实例关系变量解析,输出所述相关采集清洗字段分布的清洗业务节点信息的清洗控制实例信息的至少一个大数据采集清洗实例关系变量。
STEP230,对所述相关采集清洗字段分布的清洗业务节点信息的清洗控制实例信息中各个大数据采集清洗实例关系变量进行逻辑特征图提取,输出所述相关采集清洗字段分布的清洗业务节点信息的各个大数据采集清洗实例关系变量的逻辑特征图。
针对一些示例性的设计思路而言,在识别出所述大数据采集清洗实例关系变量后,可以将所述清洗控制实例信息中与所述大数据采集清洗实例关系变量对应的实例变量进行逻辑特征图生成,输出这些大数据采集清洗实例关系变量对应的逻辑特征图。
STEP240,基于所述相关采集清洗字段分布的清洗业务节点信息的各个大数据采集清洗实例关系变量对所述目标大数据采集清洗控制模型的映射信息,对所述相关采集清洗字段分布的清洗业务节点信息的清洗控制实例信息以及各个大数据采集清洗实例关系变量的逻辑特征图进行聚合,输出所述相关采集清洗字段分布的清洗控制路径。
针对一些示例性的设计思路而言,STEP240的一种具体实现实施例可以参见下述描述。
STEP241,基于所述相关采集清洗字段分布的清洗业务节点信息的各个大数据采集清洗实例关系变量对所述目标大数据采集清洗控制模型的映射信息,输出所述相关采集清洗字段分布的清洗业务节点信息的各个大数据采集清洗实例关系变量对应的特征关系。
STEP242,基于所述特征关系,对所述相关采集清洗字段分布的清洗业务节点信息的清洗控制实例信息以及各个大数据采集清洗实例关系变量的逻辑特征图进行特征关系连通,输出所述相关采集清洗字段分布的清洗控制路径。
针对一些示例性的设计思路而言,STEP130的一种具体实现实施例可以参见下述描述。
STEP131,对各个所述相关采集清洗字段分布的清洗控制路径进行聚簇,输出至少一个聚簇,并确定各个聚簇中输出为聚簇簇心的簇心路径变量。
STEP132,针对每一个聚簇,计算所述聚簇中的非簇心路径变量与簇心路径变量的清洗控制路径节点变量,输出所述聚簇的清洗控制路径节点变量集。
STEP133,将各个聚簇的清洗控制路径节点变量集进行聚合,输出所述目标大数据采集清洗控制模型的目标清洗控制路径。
针对一些示例性的设计思路而言,STEP131的一种具体实现实施例可以参见下述描述。
STEP1311,输出聚簇的数量N,N为大于等于2的正整数。
STEP1312,从所述相关采集清洗字段分布的清洗控制路径中,选取N个清洗控制路径分别输出为N个聚簇的簇心路径变量。
STEP1313,计算各个所述相关采集清洗字段分布的清洗控制路径与各个簇心路径变量的关联度。
针对一些示例性的设计思路而言,所述清洗控制路径和所述簇心路径变量之间的关联度可以表示二者之间的匹配度。关联度越大,匹配度越大。计算清洗控制路径和簇心路径变量之间的关联度的方式可以基于余弦距离或欧式距离等来计算。
STEP1314,将各个清洗控制路径分别加载至与所述清洗控制路径的关联度最大的簇心路径变量所属的聚簇中,输出N个聚簇。
STEP1315,针对每个聚簇,从所述聚簇中选取符合聚簇簇心条件的清洗控制路径输出为新的簇心路径变量,返回执行所述计算各个所述相关采集清洗字段分布的清洗控制路径与各个簇心路径变量的关联度的步骤,直到各个聚簇的簇心路径变量匹配聚簇结束条件,确定N个聚簇,并获得各聚簇中输出为聚簇簇心的簇心路径变量。
针对一些示例性的设计思路而言,对于每一个聚簇而言,分别计算该聚簇最新的簇心路径变量与聚簇流程中最大一次所采用的簇心路径变量是否一致,即计算二者之间的关联度是否为0。若一致,则可以认为该聚簇的聚簇簇心收敛,如果所有聚簇的聚簇簇心都收敛,则聚簇流程完成,输出N个聚簇,并获得各聚簇中输出为聚簇簇心的簇心路径变量;如果不是所有聚簇的聚簇簇心都收敛,则返回STEP1313,直到每个聚簇的聚簇簇心收敛。
针对一些示例性的设计思路而言,在STEP220中对所述相关采集清洗字段分布的清洗业务节点信息进行清洗控制实例信息生成,输出所述相关采集清洗字段分布的清洗业务节点信息对应的清洗控制实例信息时,可以基于目标神经网络模型,对所述相关采集清洗字段分布的清洗业务节点信息进行清洗控制实例信息生成,输出所述相关采集清洗字段分布的清洗业务节点信息对应的清洗控制实例信息。
在STEP220中对所述相关采集清洗字段分布的清洗业务节点信息的清洗控制实例信息进行大数据采集清洗实例关系变量解析,输出所述相关采集清洗字段分布的清洗业务节点信息的清洗控制实例信息的至少一个大数据采集清洗实例关系变量时,可以基于所述目标神经网络模型,对所述相关采集清洗字段分布的清洗业务节点信息的清洗控制实例信息进行大数据采集清洗实例关系变量解析,输出所述相关采集清洗字段分布的清洗业务节点信息的清洗控制实例信息的至少一个大数据采集清洗实例关系变量。
在STEP140中基于所述目标清洗控制路径对所述目标大数据采集清洗控制模型进行模型控制指令分配,输出所述目标大数据采集清洗控制模型的至少一个模型控制指令时,可以基于所述目标神经网络模型,基于所述目标清洗控制路径对所述目标大数据采集清洗控制模型进行模型控制指令分配,输出所述目标大数据采集清洗控制模型的至少一个模型控制指令。
针对一些示例性的设计思路而言,所述目标神经网络模型可以残差网络和密集连接卷积网络等。
针对一些示例性的设计思路而言,本申请实施例还提供一种基于人工智能的大数据采集清洗训练方法,包括以下步骤。
STEP401,获取范例大数据样本采集事件数据,所述范例大数据样本采集事件数据包括目标大数据采集清洗控制模型的目标大数据采集清洗控制模型的清洗业务节点信息、以及所述目标大数据采集清洗控制模型对应的实际模型控制指令。
STEP402,基于目标神经网络模型,对所述目标大数据采集清洗控制模型的清洗业务节点信息进行清洗控制实例信息生成,输出所述目标大数据采集清洗控制模型的清洗业务节点信息对应的清洗控制实例信息,对所述目标大数据采集清洗控制模型的清洗业务节点信息的清洗控制实例信息进行大数据采集清洗实例关系变量解析,输出所述目标大数据采集清洗控制模型的清洗业务节点信息的清洗控制实例信息的至少一个解析大数据采集清洗实例关系变量。
STEP403,对所述目标大数据采集清洗控制模型的清洗业务节点信息的清洗控制实例信息中各个解析大数据采集清洗实例关系变量进行特征解析,输出所述目标大数据采集清洗控制模型的清洗业务节点信息的各个解析大数据采集清洗实例关系变量的逻辑特征图,并基于所述目标大数据采集清洗控制模型的清洗业务节点信息的各个解析大数据采集清洗实例关系变量对所述目标大数据采集清洗控制模型的映射信息,对所述目标大数据采集清洗控制模型的清洗业务节点信息的清洗控制实例信息以及各个解析大数据采集清洗实例关系变量的逻辑特征图进行聚合,输出所述目标大数据采集清洗控制模型的清洗业务节点信息的清洗控制路径。
STEP404,将各个目标大数据采集清洗控制模型的清洗业务节点信息的清洗控制路径进行相关节点连通,输出所述目标大数据采集清洗控制模型的目标清洗控制路径。
STEP405,基于所述目标清洗控制路径,输出所述目标大数据采集清洗控制模型在各个预设模型控制指令上的执行性能值。
STEP406,计算所述执行性能值和所述目标大数据采集清洗控制模型的实际模型控制指令的执行性能值之间的第一噪声学习代价值。
STEP407,计算所述第一噪声学习代价值对所述目标大数据采集清洗控制模型的目标清洗控制路径的梯度下降值,并基于所述梯度下降值,计算所述目标大数据采集清洗控制模型的目标大数据采集清洗控制模型的清洗业务节点信息的清洗控制实例信息对应的置信度序列。
STEP408,基于所述目标大数据采集清洗控制模型的执行性能值,输出所述目标大数据采集清洗控制模型的模型控制指令信息。
STEP409,当所述目标大数据采集清洗控制模型的模型控制指令信息与所述实际模型控制指令一致时,基于所述置信度序列,获取所述目标大数据采集清洗控制模型的清洗业务节点信息的清洗控制实例信息的大数据采集清洗实例关系变量,并将获取的所述大数据采集清洗实例关系变量设置为所述目标大数据采集清洗控制模型的清洗业务节点信息的实际大数据采集清洗实例关系变量。
STEP410,当所述目标大数据采集清洗控制模型的模型控制指令信息与所述实际模型控制指令不匹配时,基于所述置信度序列,获取所述目标大数据采集清洗控制模型的清洗业务节点信息的清洗控制实例信息的非大数据采集清洗实例关系变量,并将获取的所述非大数据采集清洗实例关系变量设置为所述目标大数据采集清洗控制模型的清洗业务节点信息的非实际大数据采集清洗实例关系变量。
STEP411,基于所述实际大数据采集清洗实例关系变量和所述非实际大数据采集清洗实例关系变量,计算所述目标大数据采集清洗控制模型的清洗业务节点信息的解析大数据采集清洗实例关系变量的第二噪声学习代价值。
STEP412,基于所述第一噪声学习代价值和所述第二噪声学习代价值,对目标神经网络模型进行模型参数层的调优和选取,输出匹配预设训练终止条件的目标神经网络模型。
针对一些示例性的设计思路而言,可以采用反向传播算法对目标神经网络模型进行模型参数层的调优和选取,以使基于目标神经网络模型得到的执行性能值与实际模型控制指令的执行性能值之间的第一噪声学习代价值小于目标代价值,可以将该目标代价值设置尽量小,以提高目标神经网络模型的性能。
通常,目标神经网络模型在某个预设模型控制指令上的执行性能值超过阈值,则可以认为该目标大数据采集清洗控制模型是该预设模型控制指令上的大数据采集清洗控制模型。在目标神经网络模型的噪声决策学习阶段中,如果目标神经网络模型决策出来的模型控制指令信息与实际模型控制指令一致时,即表示分配正确,则可以基于此次分配过程中涉及的参数,分析得到置信度序列,可以基于该置信度序列进行大数据采集清洗实例关系变量解析,输出目标大数据采集清洗控制模型的清洗业务节点信息的实际大数据采集清洗实例关系变量。
在目标神经网络模型的噪声决策学习阶段中,如果目标神经网络模型决策出来的模型控制指令信息与实际模型控制指令不匹配时,也即,基于目标神经网络模型对目标大数据采集清洗控制模型的模型控制指令分配错了,则可以基于此次分配过程中涉及的参数,分析得到置信度序列,并基于该置信度序列获取目标大数据采集清洗控制模型的清洗业务节点信息的非实际大数据采集清洗实例关系变量。
一些实施例中,大数据采集***100可包括处理器110、机器可读存储介质120、总线130以及通信单元140。
处理器110可以依据存储在机器可读存储介质120中的程序而执行各种适当的动作和处理,例如前述实施例所描述的用于AI云计算训练的大数据清洗方法所相关的程序指令。处理器110、机器可读存储介质120以及通信单元140通过总线130进行信号传输。
特别地,依据本发明的实施例,上文示例性流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信单元140从网络上被下载和安装,在该计算机程序被处理器110执行时,执行本发明实施例的方法中限定的上述功能。
本发明又一实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述任一实施例所述的用于AI云计算训练的大数据清洗方法。
本发明又一实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上述任一实施例所述的用于AI云计算训练的大数据清洗方法。
应该理解的是,虽然本发明实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本发明实施例的一些实施场景中,各流程图中的实施步骤可以依据需求以其它的顺序执行。此外,各流程图中的部分或全部步骤依据实际的实施场景,可以包括若干子步骤或者若干阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的各个子步骤或者阶段也可以各自在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以依据需求灵活配置,本发明实施例对此不限制。
以上所述仅是本发明部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明的方案技术构思的前提下,依据依据本发明技术思想的其它类似实施手段,同样属于本发明实施例的保护范畴。

Claims (8)

1.一种用于AI云计算训练的大数据清洗方法,其特征在于,所述方法包括:
在接收AI云计算训练节点的目标AI训练发起任务所输出的训练噪声指示后,获取所述目标AI训练发起任务的大数据样本采集事件数据;
对所述大数据样本采集事件数据进行噪声预测,输出所述大数据样本采集事件数据的噪声采集特征点分布,所述噪声采集特征点分布包括所述大数据样本采集事件数据中目标样本采集实例的样本采集目标的噪声定位元素信息;
基于所述噪声采集特征点分布确定所述大数据样本采集事件数据的大数据采集清洗决策信息,所述大数据采集清洗决策信息包括所述大数据样本采集事件数据中所述目标样本采集实例的样本采集目标的采集清洗字段分布;
基于所述大数据采集清洗决策信息为所述AI云计算训练节点进行对应的大数据采集清洗配置;
所述对所述大数据样本采集事件数据进行噪声预测,输出所述大数据样本采集事件数据的噪声采集特征点分布的步骤,具体包括:
基于噪声采集特征点决策模型对所述大数据样本采集事件数据进行噪声预测,输出所述大数据样本采集事件数据的噪声采集特征点分布,所述噪声采集特征点决策模型是基于对所述目标AI训练发起任务的范例大数据样本采集事件数据进行噪声点预测训练输出的;
所述噪声采集特征点决策模型包括噪声采集特征点解析分支和噪声采集特征点聚合分支;
所述基于噪声采集特征点决策模型对所述大数据样本采集事件数据进行噪声预测,输出所述大数据样本采集事件数据的噪声采集特征点分布的步骤,具体包括:
基于所述噪声采集特征点解析分支对所述大数据样本采集事件数据进行特征解析,输出所述大数据样本采集事件数据的模糊噪声采集特征点;
基于所述噪声采集特征点聚合分支对所述模糊噪声采集特征点进行基于惩罚项的特征选择,输出第一噪声采集特征点;
基于所述噪声采集特征点聚合分支对所述模糊噪声采集特征点进行嵌入处理,输出所述模糊噪声采集特征点对应的代价评价指标,并基于所述代价评价指标对所述模糊噪声采集特征点进行特征关系连通,输出第二噪声采集特征点;
对所述第一噪声采集特征点和所述第二噪声采集特征点进行聚合,输出所述大数据样本采集事件数据的噪声采集特征点分布。
2.根据权利要求1所述的用于AI云计算训练的大数据清洗方法,其特征在于,所述基于噪声采集特征点决策模型对所述大数据样本采集事件数据进行噪声预测之前,所述方法还包括:
获取范例待学习噪声点特征数据序列,所述范例待学习噪声点特征数据序列包括初始AI训练发起任务的第一范例大数据样本采集事件数据和目标AI训练发起任务的第二范例大数据样本采集事件数据;
基于对所述第二范例大数据样本采集事件数据进行噪声决策训练以及对所述第一范例大数据样本采集事件数据进行噪声决策能力学习以对噪声决策初始化模型进行模数参数层的调优和选取,当匹配模型部署条件的噪声决策初始化模型匹配模型部署条件时,将所述匹配模型部署条件的噪声决策初始化模型输出为噪声采集特征点决策模型,所述噪声采集特征点决策模型用于决策所述目标AI训练发起任务的大数据样本采集事件数据中所述目标样本采集实例的样本采集目标的噪声定位元素信息。
3.根据权利要求2所述的用于AI云计算训练的大数据清洗方法,其特征在于,所述范例待学习噪声点特征数据序列还包括第一范例大数据样本采集事件数据中目标样本采集实例的样本采集目标的范例噪声定位元素信息;
所述基于对所述第二范例大数据样本采集事件数据进行噪声决策训练以及对所述第一范例大数据样本采集事件数据进行噪声决策能力学习以对噪声决策初始化模型进行模数参数层的调优和选取的步骤,具体包括:
基于所述噪声决策初始化模型对所述第二范例大数据样本采集事件数据进行特征解析,输出所述第二范例大数据样本采集事件数据的第二噪声解释特征;
对所述第二噪声解释特征包括的第二前向解释特征或者第二后向解释特征进行递归特征消除,输出递归特征消除后的第二前向解释特征或者第二后向解释特征,所述递归特征消除后的第二前向解释特征或者第二后向解释特征包括多个解释特征成员,每个解释特征成员对应所述第二范例大数据样本采集事件数据中的一个样本采集事件单位数据;
对所述多个解释特征成员中每一个解释特征成员分别计算真实噪声字段分布,并基于所有解释特征成员的真实噪声字段分布、所述第二噪声解释特征的噪声字段链接范围和噪声字段渗透路径确定第三噪声学习代价值;
对所述多个解释特征成员中每一个解释特征成员分别计算噪声学***方值,并基于所有解释特征成员的噪声学***方值、所述第二噪声解释特征的噪声字段链接范围和噪声字段渗透路径确定第四噪声学习代价值;
基于所述第三噪声学习代价值和所述第四噪声学习代价值确定所述噪声决策初始化模型的第一目标噪声学习代价值;
基于所述噪声决策初始化模型对所述第一范例大数据样本采集事件数据进行特征解析,输出所述第一范例大数据样本采集事件数据的第一噪声解释特征;
基于所述第一噪声解释特征和所述范例噪声定位元素信息确定所述噪声决策初始化模型的第二目标噪声学习代价值;
基于所述第一目标噪声学习代价值和所述第二目标噪声学习代价值对所述噪声决策初始化模型进行模型参数层的调优和选取。
4.根据权利要求3所述的用于AI云计算训练的大数据清洗方法,其特征在于,所述第一噪声解释特征包括第一前向解释特征和第一后向解释特征,所述范例噪声定位元素信息包括所述第一范例大数据样本采集事件数据中所述目标样本采集实例的样本采集目标的噪声定位元素的噪声字段链接范围、噪声字段渗透路径和所述目标样本采集实例的样本采集目标的多方耦合噪声项;
所述基于所述第一噪声解释特征和所述范例噪声定位元素信息确定所述噪声决策初始化模型的第二目标噪声学习代价值的步骤,具体包括:
基于所述第一前向解释特征、所述目标样本采集实例的样本采集目标的多方耦合噪声项和所述第一范例大数据样本采集事件数据的数量,输出第一噪声学习代价值;
基于所述第一后向解释特征、所述第一范例大数据样本采集事件数据的数量、所述噪声定位元素的噪声字段链接范围和噪声字段渗透路径,输出第二噪声学习代价值;
基于所述第一噪声学习代价值和所述第二噪声学习代价值确定所述噪声决策初始化模型的第二目标噪声学习代价值。
5.根据权利要求3所述的用于AI云计算训练的大数据清洗方法,其特征在于,所述第一目标噪声学习代价值包括第三噪声学习代价值和第四噪声学习代价值,所述第二目标噪声学习代价值包括第一噪声学习代价值和第二噪声学习代价值;
所述基于所述第一目标噪声学习代价值和所述第二目标噪声学习代价值对所述噪声决策初始化模型进行模型参数层的调优和选取的步骤,具体包括:
获取所述第一噪声学习代价值对应的第一代价评价指标,所述第二噪声学习代价值对应的第二代价评价指标,并获取所述第三噪声学习代价值对应的第三代价评价指标,所述第三噪声学习代价值对应的***价评价指标;
基于所述第一代价评价指标、所述第二代价评价指标、所述第三代价评价指标和所述***价评价指标,对所述第二目标噪声学习代价值和所述第一目标噪声学习代价值进行学习代价值综合判定,输出目标噪声学习代价值;
基于所述目标噪声学习代价值对所述噪声决策初始化模型进行模型参数层的调优和选取。
6.根据权利要求1-5中任意一项所述的用于AI云计算训练的大数据清洗方法,其特征在于,所述噪声采集特征点分布包括前向噪声采集特征点和后向噪声采集特征点,所述前向噪声采集特征点包括所述大数据样本采集事件数据中每个样本采集事件单位数据为所述目标样本采集实例的样本采集目标的多方耦合噪声项的决策支持度,所述后向噪声采集特征点包括所述大数据样本采集事件数据中每个样本采集事件单位数据对应的噪声字段链接范围和噪声字段渗透路径数据;
所述基于所述噪声采集特征点分布确定所述大数据样本采集事件数据的大数据采集清洗决策信息的步骤,具体包括:
基于所述前向噪声采集特征点确定所述大数据样本采集事件数据中所述目标样本采集实例的样本采集目标的多方耦合噪声项;
基于所述多方耦合噪声项以及所述多方耦合噪声项处的样本采集事件单位数据对应的噪声字段链接范围和噪声字段渗透路径数据,输出所述大数据样本采集事件数据中所述目标样本采集实例的样本采集目标的噪声定位元素;
将所述目标样本采集实例的样本采集目标的噪声定位元素输出为所述目标样本采集实例的样本采集目标的采集清洗字段分布。
7.根据权利要求1-5中任意一项所述的用于AI云计算训练的大数据清洗方法,其特征在于,所述基于所述大数据采集清洗决策信息为所述AI云计算训练节点进行对应的大数据采集清洗配置的步骤,具体包括:
基于所述大数据采集清洗决策信息获取对应的目标大数据采集清洗控制模型中每个相关采集清洗字段分布的清洗业务节点信息;
基于各所述相关采集清洗字段分布的清洗业务节点信息,确定各所述相关采集清洗字段分布的清洗控制路径;
将各个所述相关采集清洗字段分布的清洗控制路径进行相关节点连通,输出所述目标大数据采集清洗控制模型的目标清洗控制路径;
基于所述目标清洗控制路径对所述目标大数据采集清洗控制模型进行模型控制指令分配,输出所述目标大数据采集清洗控制模型的至少一个模型控制指令;
基于所述目标大数据采集清洗控制模型的至少一个模型控制指令,为所述AI云计算训练节点进行对应的大数据采集清洗配置。
8.一种大数据采集***,其特征在于,所述大数据采集***包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以执行权利要求1-7中任意一项所述的用于AI云计算训练的大数据清洗方法。
CN202210786105.9A 2022-07-06 2022-07-06 用于ai云计算训练的大数据清洗方法及大数据采集*** Active CN115145904B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210786105.9A CN115145904B (zh) 2022-07-06 2022-07-06 用于ai云计算训练的大数据清洗方法及大数据采集***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210786105.9A CN115145904B (zh) 2022-07-06 2022-07-06 用于ai云计算训练的大数据清洗方法及大数据采集***

Publications (2)

Publication Number Publication Date
CN115145904A CN115145904A (zh) 2022-10-04
CN115145904B true CN115145904B (zh) 2023-04-07

Family

ID=83411354

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210786105.9A Active CN115145904B (zh) 2022-07-06 2022-07-06 用于ai云计算训练的大数据清洗方法及大数据采集***

Country Status (1)

Country Link
CN (1) CN115145904B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016101690A1 (zh) * 2014-12-22 2016-06-30 国家电网公司 基于时间序列分析的输变电设备的状态监测数据清洗方法
CN109657800A (zh) * 2018-11-30 2019-04-19 清华大学深圳研究生院 基于参数噪声的强化学习模型优化方法及装置
CN112711578A (zh) * 2020-12-30 2021-04-27 陈静 用于云计算业务的大数据去噪方法及云计算金融服务器
WO2021180062A1 (zh) * 2020-03-09 2021-09-16 华为技术有限公司 意图识别方法及电子设备
CN114697128A (zh) * 2022-04-13 2022-07-01 石家庄汇勤网络科技有限公司 通过人工智能决策的大数据去噪方法及大数据采集***

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111459922A (zh) * 2020-02-17 2020-07-28 平安科技(深圳)有限公司 用户识别方法、装置、设备及存储介质
US11853908B2 (en) * 2020-05-13 2023-12-26 International Business Machines Corporation Data-analysis-based, noisy labeled and unlabeled datapoint detection and rectification for machine-learning
US11663486B2 (en) * 2020-06-23 2023-05-30 International Business Machines Corporation Intelligent learning system with noisy label data
US20220188645A1 (en) * 2020-12-16 2022-06-16 Oracle International Corporation Using generative adversarial networks to construct realistic counterfactual explanations for machine learning models
CN113505120B (zh) * 2021-09-10 2021-12-21 西南交通大学 一种大规模人脸数据集的双阶段噪声清洗方法
CN114691665B (zh) * 2022-04-13 2023-11-14 众坤(北京)航空设备有限公司 基于大数据分析的采集噪声点挖掘方法及大数据采集***
CN114691664B (zh) * 2022-04-13 2022-12-20 杭州双禾丹网络科技有限公司 基于ai预测的智慧场景大数据清洗方法及智慧场景***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016101690A1 (zh) * 2014-12-22 2016-06-30 国家电网公司 基于时间序列分析的输变电设备的状态监测数据清洗方法
CN109657800A (zh) * 2018-11-30 2019-04-19 清华大学深圳研究生院 基于参数噪声的强化学习模型优化方法及装置
WO2021180062A1 (zh) * 2020-03-09 2021-09-16 华为技术有限公司 意图识别方法及电子设备
CN112711578A (zh) * 2020-12-30 2021-04-27 陈静 用于云计算业务的大数据去噪方法及云计算金融服务器
CN114697128A (zh) * 2022-04-13 2022-07-01 石家庄汇勤网络科技有限公司 通过人工智能决策的大数据去噪方法及大数据采集***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于云计算的个人信用数据分析模型的仿真研究;周宝建;《科技通报》(第03期);全文 *
基于大数据不平衡样本集的重采样方法及应用;汪海涛等;《现代计算机(专业版)》(第22期);全文 *
支持向量学习机在点云去噪中的应用;张琴等;《计算机技术与发展》(第06期);全文 *

Also Published As

Publication number Publication date
CN115145904A (zh) 2022-10-04

Similar Documents

Publication Publication Date Title
CN110163261B (zh) 不平衡数据分类模型训练方法、装置、设备及存储介质
US20070061144A1 (en) Batch statistics process model method and system
CN113704771B (zh) 基于人工智能分析的服务漏洞挖掘方法及大数据挖掘***
CN115048370B (zh) 用于大数据清洗的人工智能处理方法及大数据清洗***
CN111260082B (zh) 一种基于神经网络的空间对象运动轨迹预测模型构建方法
CN112860676B (zh) 应用于大数据挖掘和业务分析的数据清洗方法及云服务器
CN114880314A (zh) 应用人工智能策略的大数据清洗决策方法及ai处理***
CN114697128A (zh) 通过人工智能决策的大数据去噪方法及大数据采集***
CN115587666A (zh) 基于季节趋势分解和混合神经网络的负荷预测方法及***
CN114443331A (zh) 时序数据异常检测方法和装置
CN116244647A (zh) 一种无人机集群的运行状态估计方法
CN115409836A (zh) 一种基于图像处理的金属工件检测清洗控制方法及***
CN114647790A (zh) 应用于行为意图分析的大数据挖掘方法及云端ai服务***
CN115145904B (zh) 用于ai云计算训练的大数据清洗方法及大数据采集***
CN115422179B (zh) 基于大数据清洗的ai训练处理方法及人工智能训练***
KR101827124B1 (ko) 운전자의 주행 패턴 인식 시스템 및 방법
CN114978765B (zh) 服务于信息攻击防御的大数据处理方法及ai攻击防御***
CN115329205B (zh) 服务于个性化推送服务的大数据挖掘方法及ai推荐***
CN114780967B (zh) 基于大数据漏洞挖掘的挖掘评估方法及ai漏洞挖掘***
CN113704751B (zh) 基于人工智能决策的漏洞修复方法及大数据挖掘***
US20230206054A1 (en) Expedited Assessment and Ranking of Model Quality in Machine Learning
CN114662116A (zh) 基于大数据的业务运行漏洞查找方法及云端深度学习***
CN116306574B (zh) 应用于智慧风控任务分析的大数据挖掘方法及服务器
CN114756541B (zh) 用于人工智能训练的大数据特征清洗决策方法及***
CN115062722B (zh) 基于云端业务大数据清洗的ai训练方法及人工智能云***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230105

Address after: 2042 Shaoguang Street, Chenggong District, Kunming, Yunnan 650000

Applicant after: Yang Huanrong

Address before: No. 4607 Canal Avenue, Taierzhuang, Zaozhuang City, Shandong Province, 277400

Applicant before: Zaozhuang Hongyu Digital Technology Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230313

Address after: 100094 Unit -105, Floor 1, Building 10, Xinruijia Garden, Shangzhuang, Haidian District, Beijing

Applicant after: Beijing Zhengyuanda Technology Co.,Ltd.

Address before: 2042 Shaoguang Street, Chenggong District, Kunming, Yunnan 650000

Applicant before: Yang Huanrong

GR01 Patent grant
GR01 Patent grant