CN117666971B - 一种工业领域的数据存储方法、装置及设备 - Google Patents

一种工业领域的数据存储方法、装置及设备 Download PDF

Info

Publication number
CN117666971B
CN117666971B CN202410136688.XA CN202410136688A CN117666971B CN 117666971 B CN117666971 B CN 117666971B CN 202410136688 A CN202410136688 A CN 202410136688A CN 117666971 B CN117666971 B CN 117666971B
Authority
CN
China
Prior art keywords
data
training
formula
dimension
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410136688.XA
Other languages
English (en)
Other versions
CN117666971A (zh
Inventor
刘懿
程稳
杨贺淞
崔钰
陈�光
曾令仿
吕波
侯瑞峥
滕会刚
张金鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202410136688.XA priority Critical patent/CN117666971B/zh
Publication of CN117666971A publication Critical patent/CN117666971A/zh
Application granted granted Critical
Publication of CN117666971B publication Critical patent/CN117666971B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

在本说明书提供的一种工业领域的数据存储方法、装置及设备中,通过响应于训练目标模型的原始数据的存储请求,确定目标模型的模型类型、训练完成的回归模型以及若干待选存储地址。针对每个待选存储地址,将原始数据、第一公式以及该待选存储地址输入回归模型,得到该待选存储地址的训练效果;根据各待选存储地址的训练效果,从各待选存储地址中,确定目标存储地址,并将原始数据存储至目标存储地址。通过计算存储请求中原始数据的不同待存储地址的训练效果,确定原始数据的目标存储地址,并将原始存储至目标存储地址,达到了根据数据训练的效果的对数据进行存储的目标。

Description

一种工业领域的数据存储方法、装置及设备
技术领域
本说明书涉及计算机技术领域,尤其涉及一种工业领域的数据存储方法、装置及设备。
背景技术
近年来,随着计算机技术的发展,大模型越来越有效,工业领域对大模型的需求也变得越来越高。
在现有技术中,工业领域中的大部分企业,往往都有大量的生产数据用于训练提高企业效率的大模型。然而,数据存储位置不同,最终训练的大模型的效果也会存在差异,为此,企业只能聘请专业的数据运维人员分析数据并存储数据。而这种数据运维方法与企业使用大模型降本增效的目的明显相悖,如何根据数据训练的效果的对数据进行存储成为了一个难题。
为此,本说明书提供一种工业领域的数据存储方法。
发明内容
本说明书提供一种工业领域的数据存储方法、装置、介质及设备,以部分解决现有技术存在的上述问题。
本说明书采用下述技术方案:
一种工业领域的数据存储方法,包括:
针对预设的每个数据评判维度,从预设的第一数据源存储的各评判公式中,确定用于计算该数据评判维度的各第一公式,其中,所述数据评判维度至少包括:冷热度、冗余度以及通用度;
根据该评判维度对应的第一公式,确定第二数据源中与该评判维度相关的各第二公式;
当与该数据评判维度相关的所述各第二公式中,不存在所述第二数据源中预设的该数据评判维度的锚定公式时,迭代确定所述第一数据源用于评判各维度的第一公式,直至确定出的所述第二数据源中与该数据评判维度相关的所述各第二公式中包含该数据评判维度的锚定公式为止;
响应于训练目标模型的原始数据的存储请求,确定所述目标模型的模型类型、所述目标模型的模型类型对应的训练完成的回归模型以及空闲存储空间中所述原始数据的若干待选存储地址;
针对每个待选存储地址,将所述原始数据、所述第一公式以及该待选存储地址输入所述回归模型,得到该待选存储地址的训练效果;
根据各待选存储地址的训练效果,从所述各待选存储地址中,确定目标存储地址,并将所述原始数据存储至所述目标存储地址。
可选地,将所述原始数据、所述第一公式以及该待选存储地址输入所述回归模型,得到该待选存储地址的训练效果,具体包括:
针对所述原始数据包含的每个子数据,将该子数据分别输入各数据评判维度的各第一公式,确定该子数据对应各数据评判维度的各评判结果;
针对该子数据的每个待选存储地址,将该待选存储地址以及该子数据的各评判结果,作为该待选存储地址对应的输入数据;
将所述输入数据输入所述回归模型,确定所述回归模型输出的该子数据的该待选存储地址的训练效果。
可选地,根据各待选存储地址的训练效果,从所述各待选存储地址中,确定目标存储地址,具体包括:
针对每个待选存储地址,根据该待选存储地址的训练效果以及该待选存储地址对应的输入数据,确定该待选存储地址的数据评判结果;
将所述原始数据对应的各待选存储地址,作为进化算法的个体,根据待选存储地址的数据评判结果,确定个体的适应度,并通过预设的进化算法,更新所述各待选存储地址的数据评判结果;
根据所述原始数据更新后的各待选存储地址的数据评判结果,从所述各待选存储地址中,确定所述原始数据的目标存储地址。
可选地,针对每个待选存储地址,将所述原始数据、所述第一公式以及该待选存储地址输入所述回归模型,得到该待选存储地址的训练效果,具体包括:
针对预设的每个数据评判质量,从预设的第三数据源存储的各质量公式中,确定用于评价所述第一公式的数据评判质量的第三公式,其中,所述数据评判质量至少包括:样本性以及全面性;
根据该评判维度对应的第三公式,确定该评判质量对应的各第一公式;
当与该数据评判质量对应的所述第一公式中,不存在所述第一数据源中所述第一公式中预设的该数据评判质量的锚定公式时,迭代确定所述第三数据源用于评判各数据评判质量的第三公式,直至与该数据评判质量对应的各第一公式中包含该数据评判质量的锚定公式为止,确定所述第一公式中与该评判质量对应的所述各第一公式,重新作为第一公式;
将所述原始数据、所述第一公式中与该评判质量对应的重新确定的各第一公式以及该待选存储地址输入所述回归模型,确定所述原始数据的该待选存储地址的样本指数以及所述原始数据的该待选存储地址的全面指数,并将所述样本指数以及全面指数作为该待选存储地址的训练效果。
可选地,根据待选存储地址的数据评判结果,确定个体的适应度,具体包括:
根据待选存储地址的数据评判结果,以待选存储地址的所述训练效果中所述全面指数为参照,确定个体的待选适应度;
当所述个体的待选适应度与待选存储地址的所述训练效果中所述样本指数的差值不在预设的误差范围内,重新确定所述个体,直到确定个体的待选适应度与所述待选存储地址的所述样本指数的差值在所述误差范围内,将待选适应度作为个体的适应度。
可选地,确定空闲存储空间中所述原始数据的若干待选存储地址,具体包括:
根据预设的各存储地址对应的数据分级标准,确定所述原始数据的等级,并根据所述原始数据的等级,从当前空闲存储空间中,确定所述原始数据的等级对应的若干待选存储地址。
可选地,在迭代确定所述第一数据源用于评判各维度的第一公式,直至确定出的所述第二数据源中与该数据评判维度相关的所述各第二公式中包含该数据评判维度的锚定公式为止之后,所述方法还包括:
根据预设的数据训练模型的时间预测公式以及预设的数据训练模型的精度预测公式、所述第一公式,确定所述第一公式对应的时间预测公式以及所述第一公式对应的精度预测公式,重新作为第一公式。
可选地,采用下述方法训练回归模型,具体包括:
针对预设的多个模型类型,确定该模型类型对应的训练样本以及所述训练样本的训练时间以及训练精度;
将所述训练样本、所述训练样本的存储地址以及所述第一公式中的所述时间预测公式,作为输入数据,输入待训练的时间回归模型,以所述回归模型输出的预测时间与所述训练样本的训练时间差异最小为优化目标,训练所述时间回归模型;
将所述训练样本、所述训练样本的存储地址以及所述第一公式中的所述精度预测公式,作为输入数据,输入待训练的精度回归模型,以所述回归模型输出的预测精度与所述训练样本的训练精度差异最小为优化目标,训练所述精度回归模型;
根据训练完成的时间回归模型以及训练完成的精度回归模型,确定该模型类型对应训练完成的回归模型。
本说明书提供了一种工业领域的数据存储装置,包括:
维度预选模块,针对预设的每个数据评判维度,从预设的第一数据源存储的各评判公式中,确定用于计算该数据评判维度的各第一公式,其中,所述数据评判维度至少包括:冷热度、冗余度以及通用度;
维度作用模块,根据该评判维度对应的第一公式,确定第二数据源中与该评判维度相关的各第二公式;
维度确定模块,当与该数据评判维度相关的所述各第二公式中,不存在所述第二数据源中预设的该数据评判维度的锚定公式时,迭代确定所述第一数据源用于评判各维度的第一公式,直至确定出的所述第二数据源中与该数据评判维度相关的所述各第二公式中包含该数据评判维度的锚定公式为止;
请求响应模块,响应于训练目标模型的原始数据的存储请求,确定所述目标模型的模型类型、所述目标模型的模型类型对应的训练完成的回归模型以及空闲存储空间中所述原始数据的若干待选存储地址;
存储确定模块,针对每个待选存储地址,将所述原始数据、所述第一公式以及该待选存储地址输入所述回归模型,得到该待选存储地址的训练效果,根据各待选存储地址的训练效果,从所述各待选存储地址中,确定目标存储地址,并将所述原始数据存储至所述目标存储地址。
本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现一种工业领域的数据存储方法。
本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现一种工业领域的数据存储方法。
本说明书采用的上述至少一个技术方案能够达到以下有益效果:
通过响应于训练目标模型的原始数据的存储请求,确定目标模型的模型类型、训练完成的回归模型以及若干待选存储地址。针对每个待选存储地址,将原始数据、第一公式以及该待选存储地址输入回归模型,得到该待选存储地址的训练效果;根据各待选存储地址的训练效果,从各待选存储地址中,确定目标存储地址,并将原始数据存储至目标存储地址。
通过计算存储请求中原始数据的不同待存储地址的训练效果,确定原始数据的目标存储地址,并将原始存储至目标存储地址,达到了根据数据训练的效果的对数据进行存储的目标。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书提供的一种工业领域的数据存储方法的流程示意图;
图2为本说明书提供的一种工业领域的数据存储方法的模型训练的流程示意图;
图3为本说明书提供的一种工业领域的数据存储方法的数据评判维度选择的流程示意图;
图4为本说明书提供的一种工业领域的数据存储方法的整体流程示意图;
图5为本说明书提供的一种工业领域的数据存储方法的流程背景示意图;
图6为本说明书提供的一种工业领域的数据存储的装置示意图;
图7为本说明书提供的一种对应于图1的电子设备示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
此处需说明的是,本说明书提供的非结构化数据的元数据存储方法可使用计算机或服务器执行,而对于执行方法的具体主体,本说明书在此不作限制。且为方便本说明书描述,本说明书以服务器执行该非结构化数据的元数据存储方法为例进行说明。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为一种工业领域的数据存储方法的流程示意图,具体包括以下步骤:
S101:针对预设的每个数据评判维度,从预设的第一数据源存储的各公式中,确定用于计算该数据评判维度的各第一公式,其中,所述数据评判维度至少包括:冷热度、冗余度以及通用度。
为预先确定如何对数据进行评判,以待后续步骤评判数据,应先确认用于数据评判的第一公式,即在具体实施例中确定用于描述数据质量维度的公式。
具体的,定义第一维的通用质量维度进行时,服务器根据数据生命周期管理,定义数据冷热度,并根据冗余样本,定义的通用数据维度,且每一项通用质量维度在通用质量维度列表中唯一,即不存在重复的通用质量维度,具体通过在后续步骤中使用的锚定公式实现。例如,一种通用质量维度列表的合法定义可表达为:通用质量维度={可用性,易用性,可靠性,相关性,展示质量},在该式当中,通用质量维度={可用性,可用性}违反了数据质量二维表达范式中通用质量维度的唯一要求,即该通用质量维度为一种非法定义。在符合上述条件的合法定义样例中,“易用性”被预设为用于数据冷热定义,“相关性”被预设为用于冗余样本定义,即通用质量维度的另一种的表达方式:[“通用质量维度”:“特性”]。例如,合法的通用质量维度列表可被表达为:通用质量维度={[可用性:通用定义],[易用性:冷热数据定义],[可靠性:通用定义],[相关性:冗余样本定义],[展示质量:通用定义]},其中,携带“冷热数据定义”标签的数据质量维度用于数据生命周期管理中的冷热数据分析流程,携带“冗余样本定义”标签的数据质量维度用于数据生命周期管理中的冗余样本区分流程,携带“通用定义”标签的数据质量维度不参与数据生命周期管理中的冷热数据的区分流程以及冗余样本的区分流程。
S103:根据该评判维度对应的第一公式,确定第二数据源中与该评判维度相关的各第二公式。
通过根据第一公式对所述第二数据源中的各第二公式按照评判维度分类,确定评判维度的第一公式的效果,即在具体实施例中确定用于描述数据质量维度公式的效果。
具体的,服务器从相关性中,选取N个数据集,分别对数据质量维度表中的每一项数据质量分别对N个数据集中的每一个数据集进行量化。并在量化之后,确定使用N个数据集训练出一种大模型的收集收敛时间和精度信息,并分析收集到的数据质量量化结果与该量化结果对应的时间、精度的相关性,根据分析结果,构建数据质量维度相关性列表。
S105:当与该数据评判维度相关的所述各第二公式中,不存在所述第二数据源中预设的该数据评判维度的锚定公式时,迭代确定所述第一数据源用于评判各维度的第一公式,直至确定出的所述第二数据源中与该数据评判维度相关的所述各第二公式中包含该数据评判维度的锚定公式为止。
验证所述第一公式的分类效果,当所述分类效果不佳时,重新确定第一公式,直至第一公式分类效符合预期标准,确定第一公式,即在具体实施例中确定后续步骤使用的描述数据质量维度的公式。
本说明书实施例中,根据预设的数据训练模型的时间预测公式以及预设的数据训练模型的精度预测公式、所述第一公式,确定所述第一公式对应的时间预测公式以及所述第一公式对应的精度预测公式,重新作为第一公式。
本说明书实施例中,服务器针对预设的多个模型类型,确定该模型类型对应的训练样本以及所述训练样本的训练时间以及训练精度。将所述训练样本、所述训练样本的存储地址以及所述第一公式中的所述时间预测公式,作为输入数据,输入待训练的时间回归模型,以所述回归模型输出的预测时间与所述训练样本的训练时间差异最小为优化目标,训练所述时间回归模型。将所述训练样本、所述训练样本的存储地址以及所述第一公式中的所述精度预测公式,作为输入数据,输入待训练的精度回归模型,以所述回归模型输出的预测精度与所述训练样本的训练精度差异最小为优化目标,训练所述精度回归模型。根据训练完成的时间回归模型以及训练完成的精度回归模型,确定该模型类型对应训练完成的回归模型。
具体的,服务器根据上述的合法的通用质量维度列表,确定的数据质量维度表(D),D={[可用性:通用定义,样本特性:{时效性,可用性},全局特性:{可访问性}];[易用性:冷热数据定义,样本特性:{可重复性,易用性},全局特性:{可信性,稀疏性}];[可靠性:通用定义,样本特性:{一致性,可靠性},全局特性:{压缩性}];[相关性:冗余样本定义,样本特性:{适用性,相关性},全局特性:{冗余性,覆盖性}];[展示质量:通用定义,样本特性:{可读性},全局特性:{结构}]},其中,任一通用质量维度结合任一样本特性或结合任一全局特性,确定一个数据质量维度(d),例如,基于上述数据质量维度表,[公式号,可用性,时效性],[公式号,可用性,可访问性]为一个合法的数据质量维度,其中,公式号是一种量化方法,用于索引数据质量维度,用于量化公式的方法表示为:[公式号,可用性,时效性],亦可表达为[公式1,可用性,时效性]以及[公式2,可用性,时效性],对应的,也就有了上述数据质量维度表(D)的另一种表达方式:D={d1=[公式号,可用性,时效性],d2=[公式号,可用性,可用性],d3=[公式号,可用性,可访问性]}。
服务器根据预设的数据集数量,从第二数据源中确定N个数据集,根据数据质量维度表中的每一项数据质量,对N个数据集中的每一个数据集进行量化,并收集量化结果,与并使用N个数据集选取一种大模型进行训练,收集该大模型类型,各数据集对应的收敛时间和各数据集对应的精度信息。分析收集到的数据质量量化结果进行该量化结果与时间,精度的相关性,并根据分析结果,构建数据质量维度相关性列表。例如,有3个数据集分别为E1,E2,E3,用E1,E2,E3分别进行面向BERT的训练,收集的精度结果为TA={E1训练精度,E2训练精度,E3训练精度};收集训练时间TT={ E1训练时间,E2训练时间,E3训练时间};基于上述数据质量维度表D={d1,d2,……,dn},对数据集进行评分,d1评分={d1对E1的评分,d1对E2的评分,d1对E3的评分},d2评分={d2对E1的评分,d2对E2的评分,d2对E3的评分},……,dn评分={dn对E1的评分,dn对E2的评分,dn对E3的评分};采用精度相关性公式对各个数据质量维度的评分和训练精度(TA)进行相关性分析;采用时间相关性公式对各个数据质量维度的评分和训练时间(TT)进行相关性分析,如下公式所示:
精度相关性=max[皮尔逊相关系数(d评分,TA),斯皮尔曼秩相关系数(d评分,TA),肯德尔秩相关系数(d评分,TA)]
时间相关性=max[皮尔逊相关系数(d评分,TT),斯皮尔曼秩相关系数(d评分,TT),肯德尔秩相关系数(d评分,TT)]
收集每一项数据质量维度的分析结果,每一项表达为数据质量维度:[精度相关性,时间相关性],根据所有的相关性分析结果,构成建数据质量维度相关性列表(R):R={d1:[精度相关性分数,时间相关性分数],……,dn:[精度相关性分数,时间相关性分数]}。
设置选取阈值λ,对数据质量维度相关性列表(R)按照精度相关性分数进行由高到低进行排序,选取前λ项,存入数据质量池(P),对R按照时间相关性分数进行由高到低进行排序,选取前λ项,存入P;移除P中重复的数据质量维度。设置λ为3,基于上述数据质量维度相关性列表(R),对R按照精度相关性分数进行由高到低排序,假设排序结果为R={d1,d8,d9,d4,……},则d1,d8,d9会被选中,被存入数据质量池(P),当前P={d1,d8,d9};对R按照时间相关性分数进行由高到低排序,假设排序结果为R={d1,d10,d9,d2,……},则d1,d10,d9会被选中,被存入P,当前P={d1,d8,d9,d1,d10,d9};移除P中重复的数据质量维度,例如移除冗余数据质量维度后P={d1,d8,d9,d10}。
重复确定数据质量池,直至数据质量池(P)中至少包含一项关于冷热数据定义和一项关于冗余样本定义的数据质量维度,假设数据质量维度表(D)中d4、d5、d6、d7为冷热数据定义相关数据质量维度,d11、d12、d13、d14为冗余样本相关数据质量维度。迭代确定数值质量维度表,修改还未被添加入数据质量池(P)中的数据质量维度的量化方程,迭代流程停止,当且仅当P中至少包含d4、d5、d6、d7中的一项,且至少包含d11、d12、d13、d14中的一项。
如图2模型训练的流程示意图所示:服务器从由各数据质量维度构成的数据质量表中收集各数据质量对应的公式,从由各存储设置现有状态的存储设置表中收集现有各存储位置的剩余空间,并收集训练目标模型的各类型的精度相关性公式以及时间相关性公式,由上述各收集到的数据构成基因型,即数据存储方案,根据各基因型对卷积神经网络,循环神经网络以及注意力转移网络(Transformer)等的各类型神经网络中的一种或多种进行计算,得到以各质量维度各,存储设置,目标模型的类型对应代理模型以及该类型对应训练得到的模型精度以及时间的存储方案。继续沿用上例,从预设的一组数据集E={E1,E2,……}中,随机选取一个数据集,Es,根据数据质量池(P)中的数据质量维度P={d1,d2,……,dn},对Es进行计算分析,记录下数据质量分析结果DA ={d1(Es),……,dn(Es)},基于存储设置表TS,确定训练开始时数据集的存储设置TS={s1,s2,……,sm},其中,每个s均表示一种存储策略,使用布尔值进行表述:True即训练开始时激活的存储策略,False即训练开始时未激活的存储策略。再根据Es,训练对应的大模型,确定该大模型的收敛精度A以及收敛时间T。最后,基于上述各数据,构建各训练样本Ins,每个训练样本由一个特征集(Att)与一个标签集构(L)成,具体表示为Ins={Att,L},其中,特征集为数据质量分析结果与存储设置的组合表现为Att={ d1(Es),……,dn(Es), s1,……,sm },标签集为收敛精度和收敛时间,L={A,T}。
服务器重复确定训练样本,以收集一个基于上述训练样本构成的训练集合C={Ins1,Ins2……}。并采用一个神经网络,可选但不限于卷积神经网络、循环神经网络、注意力转移网络(Transformer),基于上述训练集合C,训练一个输入为数据质量评分和存储设置,输出为模型收敛需要时间的神经网络NN2。最后,输出NN1和NN2共同作为代理模型,其中N1表示用于精度预测,N2表示用于时间预测。
继续沿用上例,训练步骤在数据使用方面得以应用,每当训练任务发布时,服务器重新获取训练数据集E,并选取数据质量池(P)中所有的类型为全局特性的数据质量,以构成全局数据质量维度池(PG),将全局数据质量维度池和当前可设置的存储方案集合(CS)输入上述数据质量评估结果驱动存储策略自动设置方法,得到存储设置方案,并基于输出方案,将数据分布部署于各个存储节点之上。
S107:响应于训练目标模型的原始数据的存储请求,确定所述目标模型的模型类型,所述目标模型的模型类型对应的训练完成的回归模型以及空闲存储空间中所述原始数据的若干待选存储地址。
根据接收到的原始数据存储请求,确定用于确定原始数据的待存储地址的训练效果所需的信息。其中,训练效果至少包括训练时间和训练精度中的一种。在本说明书一个或多个实施例中,训练时间是指采用原始数据,训练目标模型,使该目标模型达到训练结束条件所需的时间。当然,该训练结束条件应与时间不相关,例如,训练迭代次数或者模型收敛程度等。训练精度是指采用原始数据,训练目标模型,使该目标模型能够达到的输出结果的准确度上限。当然,一般情况下模型训练过程的耗时是有限的,因此在确定该训练精度时,可以根据预设的训练时长,确定在该预设的训练时长内,基于该原始数据训练目标模型后,该目标模型输出结果的准确度。
在本说明书实施例中,根据预设的各存储地址对应的数据分级标准,确定所述原始数据的等级,并根据所述原始数据的等级,从当前空闲存储空间中,确定所述原始数据的等级对应的若干待选存储地址。
具体的,基于上述的数据质量池(P)中包含的数据质量维度P={d1,d2,……,dn},存储设置表TS中的存储方案TS={s1,s2,……,sm},设置基因表现型G,G={ d1,……,dn,s1,……,sm},接收上述的精度代理模型NN1,时间代理模型NN2。
接收当前将用于训练的数据集E,采用数据质量池P中的数据质量维度P={d1,d2,……,dn},对E进行评估,评估结果DA={d1评估(E),d2评估(E),……,dn评估(E)}。基于基因表现型G构建解决方案生成种群池1内的各解决方案,再根据评估结果的模型精度以及模型时间,确定种群池2内的各解决方案,其中d1~dn中每项数据质量维度的值填写为对应的d1评估(E)~dn评估(E);s1~sm的值为随机生成的True或者False。
S109:针对每个待选存储地址,将所述原始数据,所述第一公式以及该待选存储地址输入所述回归模型,得到该待选存储地址的训练效果。
确定原始数据的待存储地址的训练效果。
在本说明书实施例中,针对所述原始数据包含的每个子数据,将该子数据分别输入各数据评判维度的各第一公式,确定该子数据对应各数据评判维度的各评判结果。针对该子数据的每个待选存储地址,将该待选存储地址以及该子数据的各评判结果,作为该待选存储地址对应的输入数据。将所述输入数据输入所述回归模型,确定所述回归模型输出的该子数据的该待选存储地址的训练效果。
在本说明书实施例中,针对每个待选存储地址,根据该待选存储地址的训练效果以及该待选存储地址对应的输入数据,确定该待选存储地址的数据评判结果。将所述原始数据对应的各待选存储地址,作为进化算法的个体,根据待选存储地址的数据评判结果,确定个体的适应度,并通过预设的进化算法,更新所述各待选存储地址的数据评判结果。根据所述原始数据更新后的各待选存储地址的数据评判结果,从所述各待选存储地址中,确定所述原始数据的目标存储地址。
在本说明书实施例中,针对预设的每个数据评判质量,从预设的第三数据源存储的各质量公式中,确定用于评价所述第一公式的数据评判质量的第三公式,其中,所述数据评判质量至少包括:样本性以及全面性。根据该评判维度对应的第三公式,确定该评判质量对应的各第一公式。当与该数据评判质量对应的所述第一公式中,不存在所述第一数据源中所述第一公式中预设的该数据评判质量的锚定公式时,迭代确定所述第三数据源用于评判各数据评判质量的第三公式,直至与该数据评判质量对应的各第一公式中包含该数据评判质量的锚定公式为止,确定所述第一公式中与该评判质量对应的所述各第一公式,重新作为第一公式。将所述原始数据、所述第一公式中与该评判质量对应的重新确定的各第一公式以及该待选存储地址输入所述回归模型,确定所述原始数据的该待选存储地址的样本指数以及所述原始数据的该待选存储地址的全面指数,并将所述样本指数以及全面指数作为该待选存储地址的训练效果。
在本说明书实施例中,根据待选存储地址的数据评判结果,以待选存储地址的所述训练效果中所述全面指数为参照,确定个体的待选适应度。当所述个体的待选适应度与待选存储地址的所述训练效果中所述样本指数的差值不在预设的误差范围内,重新确定所述个体,直到确定个体的待选适应度与所述待选存储地址的所述样本指数的差值在所述误差范围内,将待选适应度作为个体的适应度。
具体的,服务器针对通用质量维度列表中的每一项,进行二维数据质量维度定义,并为每一项定义的维度设计量化方法,相同命名的数据质量维度出现在第二维度为合法,但需要设置全局唯一标识符进行区分;第二维度分为“样本特性”维度或“全局特性”维度两类。基于上述的合法的通用质量维度列表构建的数据质量维度表(D),可表达为,D={[可用性:通用定义,样本特性:{时效性,可用性},全局特性:{可访问性}];[易用性:冷热数据定义,样本特性:{可重复性,易用性},全局特性:{可信性,稀疏性}];[可靠性:通用定义,样本特性:{一致性,可靠性},全局特性:{压缩性}];[相关性:冗余样本定义,样本特性:{适用性,相关性},全局特性:{冗余性,覆盖性}];[展示质量:通用定义,样本特性:{可读性},全局特性:{结构}]};其中一个通用质量维度结合一个样本特性/全局特性即为一个数据质量维度(d),例如,基于上述数据质量维度表,[公式号,可用性,时效性],[公式号,可用性,可访问性]皆为一个合法的数据质量维度,其中公式号用于索引数据质量维度采用的量化方法,假设公式(1)与公式(2)都可用于量化[公式号,可用性,时效性],则[公式号,可用性,时效性]可表达为[公式1,可用性,时效性],[公式2,可用性,时效性],上述数据质量维度表(D)的另一种表达方式为D={d1=[公式号,可用性,时效性],d2=[公式号,可用性,可用性],d3=[公式号,可用性,可访问性]}。
如图3数据评判维度选择的流程示意图所示:根据数据质量得到的离散值或连续值信息以及通过大模型得到的时间信息以及精度信息,通过相关性公式,得到在图3左上角可见的,数据质量由各质量维度组成,至少包含可用性,易用性,可靠性,相关性以及展示质量。质量维度由一维的通用质量维度定义,如步骤S101中所述:服务器根据数据生命周期管理,定义数据冷热度,并根据冗余样本,定义的通用数据维度,且每一项通用质量维度在通用质量维度列表中唯一,即不存在重复的通用质量维度,通过在后续步骤中使用的锚定公式实现。例如,一种通用质量维度列表的合法定义可表达为:通用质量维度={可用性,易用性,可靠性,相关性,展示质量},在该式当中,通用质量维度={可用性,可用性}违反了数据质量二维表达范式中通用质量维度的唯一要求,即该通用质量维度为一种非法定义。在符合上述条件的合法定义样例中,“易用性”被预设为用于数据冷热定义,“相关性”被预设为用于冗余样本定义,即通用质量维度的另一种的表达方式:[“通用质量维度”:“特性”]。例如,合法的通用质量维度列表可被表达为:通用质量维度={[可用性:通用定义],[易用性:冷热数据定义],[可靠性:通用定义],[相关性:冗余样本定义],[展示质量:通用定义]},其中,携带“冷热数据定义”标签的数据质量维度用于数据生命周期管理中的冷热数据分析流程,携带“冗余样本定义”标签的数据质量维度用于数据生命周期管理中的冗余样本区分流程,携带“通用定义”标签的数据质量维度不参与数据生命周期管理中的冷热数据的区分流程以及冗余样本的区分流程。其中,可提供时间信息以及精度信息的大模型,例如:稳定扩散模型(Stable Diffusion)、路径语言模型(PAthways Language Model ,PALM)、双向注意力转移网络的编码器表示(Bidirectional Encoder Representation fromTransformers,BERT)、阿尔法折叠(AlphaFold)以及生成式预训练注意力转移网络模型(Generative Pre-Trained Transformer,GPT)等,相关性中至少包括进行线性关系测试的皮尔逊相关系数、进行非线性关系测试的斯皮尔曼秩相关系数以及进行秩次关系测试的肯德尔秩相关系数。
对于已定义的一维数据质量维度,进行二维数据质量维度的定义,分为样本特性以及全局特性,其中,样本特性至少包括一维数据质量维度可用性对应的时效性以及可用性,类似的,样本特性还至少包括一维数据质量维度易用性对应的可重复性以及易用性,样本特性还至少包括一维数据质量维度可靠性对应的一致性以及可靠性,样本特性还至少包括一维数据质量维度相关性对应的适用性以及相关性,样本特性还至少包括一维数据质量维度展示质量对应的可读性,与样本特性对应的,全局特性至少包括一维数据质量维度可用性对应的可访问性,类似的,全局特性还至少包括一维数据质量维度易用性对应的可信性以及稀疏性,全局特性还至少包括一维数据质量维度可靠性对应的压缩性,全局特性还至少包括一维数据质量维度相关性对应的冗余性以及覆盖性,全局特性还至少包括一维数据质量维度展示质量对应的结构。继续沿用上例,二维数据质量维度的定义过程如步骤S109中所述:服务器针对通用质量维度列表中的每一项,进行二维数据质量维度定义,并为每一项定义的维度设计量化方法,相同命名的数据质量维度出现在第二维度为合法,但需要设置全局唯一标识符进行区分;第二维度分为“样本特性”维度或“全局特性”维度两类。基于上述的合法的通用质量维度列表构建的数据质量维度表(D),可表达为,D={[可用性:通用定义,样本特性:{时效性,可用性},全局特性:{可访问性}];[易用性:冷热数据定义,样本特性:{可重复性,易用性},全局特性:{可信性,稀疏性}];[可靠性:通用定义,样本特性:{一致性,可靠性},全局特性:{压缩性}];[相关性:冗余样本定义,样本特性:{适用性,相关性},全局特性:{冗余性,覆盖性}];[展示质量:通用定义,样本特性:{可读性},全局特性:{结构}]};其中一个通用质量维度结合一个样本特性/全局特性即为一个数据质量维度(d),例如,基于上述数据质量维度表,[公式号,可用性,时效性],[公式号,可用性,可访问性]皆为一个合法的数据质量维度,其中公式号用于索引数据质量维度采用的量化方法,假设公式(1)与公式(2)都可用于量化[公式号,可用性,时效性],则[公式号,可用性,时效性]可表达为[公式1,可用性,时效性],[公式2,可用性,时效性],上述数据质量维度表(D)的另一种表达方式为D={d1=[公式号,可用性,时效性],d2=[公式号,可用性,可用性],d3=[公式号,可用性,可访问性]}。
根据预设的时间相关性公式以及预设的精度相关性公式,通过预选的一个或多个大模型,从数据质量中各数据质量维度获取离散值或连续性信息,执行三个关系测试,通过对三个关系测试得到的皮尔逊相关系数,斯皮尔曼秩相关系数以及肯德尔秩相关系数进行分析,整理得到有数据质量维度精度相关性得分以及时间相关性得分的数据质量维度相关性列表。继续沿用上例,数据质量维度相关性列表的确定过程如步骤S103中所述:服务器从相关性中,选取N个数据集,分别对数据质量维度表中的每一项数据质量分别对N个数据集中的每一个数据集进行量化。并在量化之后,确定使用N个数据集训练出一种大模型的收集收敛时间和精度信息,并分析收集到的数据质量量化结果与该量化结果对应的时间,精度的相关性,根据分析结果,构建数据质量维度相关性列表。
根据构建的数据质量维度相关性列表,筛选得到最终的数据质量维度,最终数据质量维度至少包括:数据质量维度1~数据质量维度5。继续沿用上例,构建数据质量维度相关性列表并筛选确定数据质量的过程如步骤S105所述:服务器根据上述的合法的通用质量维度列表,确定的数据质量维度表(D),D={[可用性:通用定义,样本特性:{时效性,可用性},全局特性:{可访问性}];[易用性:冷热数据定义,样本特性:{可重复性,易用性},全局特性:{可信性,稀疏性}];[可靠性:通用定义,样本特性:{一致性,可靠性},全局特性:{压缩性}];[相关性:冗余样本定义,样本特性:{适用性,相关性},全局特性:{冗余性,覆盖性}];[展示质量:通用定义,样本特性:{可读性},全局特性:{结构}]},其中,任一通用质量维度结合任一样本特性或结合任一全局特性,确定一个数据质量维度(d),如图3中右下角筛选出的数据质量包含的各质量维度1~质量维度5,等等。例如,基于上述数据质量维度表,[公式号,可用性,时效性],[公式号,可用性,可访问性]为一个合法的数据质量维度,其中,公式号是一种量化方法,用于索引数据质量维度,用于量化公式的方法表示为:[公式号,可用性,时效性],亦可表达为[公式1,可用性,时效性]以及[公式2,可用性,时效性],对应的,也就有了上述数据质量维度表(D)的另一种表达方式:D={d1=[公式号,可用性,时效性],d2=[公式号,可用性,可用性],d3=[公式号,可用性,可访问性]}。
S111:根据各待选存储地址的训练效果,从所述各待选存储地址中,确定目标存储地址,并将所述原始数据存储至所述目标存储地址。
根据原始数据的待存储地址的训练效果,确定所述待存储地址中的目标存储地址。
在本说明书实施例中,根据预设的各存储地址对应的数据分级标准,确定所述原始数据的等级,并根据所述原始数据的等级,从当前空闲存储空间中,确定所述原始数据的等级对应的若干待选存储地址。
针对所述原始数据的每个子数据,确定该子数据的各待选存储地址。针对该子数据的每个待选存储地址,将该待选存储地址的训练效果以及该待选存储地址对应的输入数据,作为该待选存储地址的数据评判结果。将该子数据的各待选存储地址,作为进化算法的个体,根据待选存储地址的数据评判结果,确定个体的适应度,通过预设的进化算法,更新所述各待选存储地址的数据评判结果。根据更新后的该子数据的各待选存储地址的数据评判结果,从该子数据的各待选存储地址中,确定该子数据的目标存储地址。
具体的,如图4整体流程示意图所示:服务器根据由各数据质量维度组成的数据质量表以及由各存储设置组成的存储设置表,确定由各质量维度以及存储设置构成的基因表现型。继续沿用上例,基因表现型的确定过程如步骤S107中所述:基于上述的数据质量池(P)中包含的数据质量维度P={d1,d2,……,dn},存储设置表TS中的存储方案TS={s1,s2,……,sm},设置基因表现型G,G={ d1,……,dn,s1,……,sm},接收上述的精度代理模型NN1,时间代理模型NN2。接收当前将用于训练的数据集E,采用数据质量池P中的数据质量维度P={d1,d2,……,dn},对E进行评估,评估结果DA={d1评估(E),d2评估(E),……,dn评估(E)}。基于基因表现型G构建解决方案生成种群池1内的各解决方案,再根据评估结果的模型精度以及模型时间,确定种群池2内的各解决方案,其中d1~dn中每项数据质量维度的值填写为对应的d1评估(E)~dn评估(E);s1~sm的值为随机生成的True或者False。
服务器基于表现池中的各基因,构建解决方案,并将各解决方案存入由各解决方案构成的种群池1中,再输入代理模型中,经代理模型评估计算,得到各解决方案训练出模型的精度以及时间,将带有解决方案训练出模型的精度以及时间的解决方案输入种群池2中,对种群池2中的各解决方案按照预设标准,进行精英选择,得到亲代池中的各选中解决方案,再对各选中解决方案进行预设的交叉以及变异,得到亲代池对应的子代池中的各新解决方案,最后,根据子代池中的各新解决方案,对种群池1中的各解决方案进行更新,直至达到预设的循环次数,得到目标存储策略。继续沿用上例,服务器根据种群池2内的各解决方案,预设的种群值上限α为500,预设的精英选择数量β为100以及预设的迭代终止次数λ=1000,迭代接收当前将用于训练的数据集E,采用数据质量池P中的数据质量维度P={d1,d2,……,dn},对E进行评估,评估结果DA={d1评估(E),d2评估(E),……,dn评估(E)},构建一个空的解决方案池(Ps);基于基因表现型G进行解决方案生成,其中d1~dn中每项数据质量维度的值填写为对应的d1评估(E)~dn评估(E)。将s1~sm的值确定为随机生成的True或者False,共计α次,得到500条解决方案,全部存入Ps,以确定一个空的亲代池(Pa)。服务器根据N1,评估500条解决方案的精度预期,按从优到劣的顺序排序,选取靠前的β/2条保存入亲代池(Pa),并采用N2评估500条解决方案的训练时间预期,按照从优到劣的顺序排序,选取靠前的β/2条并存入Pa。服务器任选在亲代池中不同的两条解决方案,对其中的s1~sm部分进行交叉算子,再根据变异算子,对该部分执行纠正,得到两条新的解决方案。例如,假设解决方案G的表述为G={d1,d2,d3,d4,s1,s2,s3,s4},两条解决方案分别为So1={5,2,1,8,True,False,False,False},So2={5,2,1,8,False,False,False,True},以So1与So2关于s1~s4的部分的两个交叉算子的交叉结果So3={5,2,1,8,True,False,False,True}以及So4={5,2,1,8,False,False,False,False}。并对So3与So4的合法性检测,并检查So3中s1与s4是否兼容,如果兼容则保持不变,如果不兼容,则采用变异算子随机改变s1或s4为FALSE,并通过采用变异算子随机设置s1~s4中的一项为True的方式,改变So4。最后,重复本段方法次,获得400条新解决方案,并清空当前的解决方案池Ps,将400条新解决方案以及当前Pa中的100条解决方案,存入新的Ps,即再次确定了种群池1内的多种解决方案。服务器根据用于训练的数据集E生成的不同的解决方案,迭代确定预设数量的新解决方案λ次。根据N1,评估当前Ps池中全部解决方案的预估精度,选取最优的解决方案,根据最优的解决方案执行存储。
基于图1所示的工业领域的数据存储方法可达到:通过响应于训练目标模型的原始数据的存储请求,确定目标模型的模型类型、训练完成的回归模型以及若干待选存储地址。针对每个待选存储地址,将原始数据、第一公式以及该待选存储地址输入回归模型,得到该待选存储地址的训练效果;根据各待选存储地址的训练效果,从各待选存储地址中,确定目标存储地址,并将原始数据存储至目标存储地址。通过计算存储请求中原始数据的不同待存储地址的训练效果,确定原始数据的目标存储地址,并将原始存储至目标存储地址,达到了根据数据训练的效果的对数据进行存储的目标。
此处需额外说明,具体实施例中的人工预设内容均可使用各步骤方法所述自动化方法确定,在具体实施例中使用人工预设内容是为了提供一种具体实施方法。
本说明书提供方法还包括,如图5流程背景示意图所示:工业环境各设备中产生的原始数据经内网以及防火墙检测后,服务器将原始数据分别发送至用于数据采集的数据集以及由确定目标模型类型、应用类型、精度需求以及时间约束组成的用于发布任务的模块。
在数据采集后,服务器将数据采集输出的原始数据输入数据验证模块,该模块用于根据具有样本性的数据质量维度,分析原始数据的数据质量值,达到对原始数据进行数据量化的目的,最后经数据清洗发送至由存储节点组成的存储集群中,以待使用。具体的,工业设备运转中保存历史数据至本地,当数据量达到预设量时,例如数据量到达10GB大小,服务器通过内网,将本地数据中预设大小的数据量上传至存储节点,并选取数据质量池(P)中所有类型为样本特性的数据质量维度构成样本数据质量维度池(PS),PS={d1,……},其中,每一项d代表一个样本特性的数据质量维度。服务器再为PS中的每一项确定一个选取阈值,表示为PS={d1:[阈值],……}。最后,服务器根据PS中的每一项,对数据集中的每一条样本评估,确定并移除样本集中评估分数低于阈值的样本,并将处理完成后的数据集保存至存储节点,清空数据来源处存储资源。
在经任务发布模块后,服务器将任务发布模块输出的原始数据的存储请求输入数据使用模块,该模块先将原始数据输入用于训练数据以及数据布局的协同优化器,再将各处理需求存入存储集群中,并按照预处理需求输入数据预处理模块,数据预处理模块按需求将原始数据从存储集群中取出,并分别发送至各需求对应的批处理预取模块当中,经各批处理预取模块通过异构计算机的计算芯片,计算原始数据,并根据计算后的原始数据,训练代理模型的各层模型后,将训练完成的各层模型整合,输出训练完成的代理模型,并存储至存储集群中。具体通过模型的训练使用数据的过程如步骤S105中所述:每当训练任务发布时,服务器重新获取训练数据集E,并选取数据质量池(P)中所有的类型为全局特性的数据质量,以构成全局数据质量维度池(PG),将全局数据质量维度池和当前可设置的存储方案集合(CS)输入上述数据质量评估结果驱动存储策略自动设置方法,得到存储设置方案,并基于输出方案,将数据分布部署于各个存储节点之上。
在由至少包括运维平台、存储管理以及网络管理功能的管理集群模块确定到达预设的监控间隔后,定期激活数据监控模块,数据监控模块收集每一个异构计算机模块中各计算芯片组的计算结果后,根据全面性的数据质量维度,通过任务分割的方式,使用该异构计算机模块中各计算芯片组进行数据分析,得到各构计算机模块中各计算芯片组的分析结果,并将各分析结果输入数据清洗以及数据布局模块,得到存储方案,并按照存储方案重新存储对应的原始数据。具体的,设置一个检查周期如48小时,设置一个计时器,当计时器到达48小时时候,检查当前计算资源状态,如果繁忙,则每过1小时检查一下当前计算资源状态,如果空闲,选取数据质量池(P)中支撑冗余数据分析的数据质量维度,构成冗余分析池(PR),采用PR分析每个不同的数据集,合并分析结果为相似的数据集,对于数据集内部,分析样本的相似性,移除相似度高,但重要性较弱的样本;选取数据质量池(P)中支撑数据冷热度分析的数据质量维度,以构成冷热分析池(PH),采用PH分析每个数据集的冷热程度,按照热数据集部署于近计算节点,冷数据集部署于远计算节点的规则,对存储节点内的所有数据集进行重分布。
此处需额外说明,图中工业环境内容以及与该内容相关的内网防火墙均为常规手段,数据采集部分内容为用于进行数据验证的常规内容,与之类似的,任务发布部分内容是用于提供数据使用的信息的常规内容。以及,高速互联用于对整体流程进行管控,与高速互联相关的异构计算机部分、存储集群部分以及管理集群部分,均为展示数据使用部分、数据监控部分以及数据验证部分的具体作用于具体方案中常规内容对应的部件,其中,异构计算机指的是有多个不同存储芯片的主机抑或服务器,CXL(Compute Express Link)为一种用于对各内存管理以及对各内存对应的各节点管理的技术手段,基于该技术手段构建的内存池更易于执行本方法。
本说明书还提供了与图1工业领域的数据存储方法的流程图对应的装置,如图6所示:
维度预选模块201,针对预设的每个数据评判维度,从预设的第一数据源存储的各评判公式中,确定用于计算该数据评判维度的各第一公式,其中,所述数据评判维度至少包括:冷热度、冗余度以及通用度;
维度作用模块203,根据该评判维度对应的第一公式,确定第二数据源中与该评判维度相关的各第二公式;
维度确定模块205,当与该数据评判维度相关的所述各第二公式中,不存在所述第二数据源中预设的该数据评判维度的锚定公式时,迭代确定所述第一数据源用于评判各维度的第一公式,直至确定出的所述第二数据源中与该数据评判维度相关的所述各第二公式中包含该数据评判维度的锚定公式为止;
请求响应模块207,响应于训练目标模型的原始数据的存储请求,确定所述目标模型的模型类型、所述目标模型的模型类型对应的训练完成的回归模型以及空闲存储空间中所述原始数据的若干待选存储地址;
存储确定模块209,针对每个待选存储地址,将所述原始数据、所述第一公式以及该待选存储地址输入所述回归模型,得到该待选存储地址的训练效果,根据各待选存储地址的训练效果,从所述各待选存储地址中,确定目标存储地址,并将所述原始数据存储至所述目标存储地址。
可选地,存储确定模块209用于针对所述原始数据包含的每个子数据,将该子数据分别输入各数据评判维度的各第一公式,确定该子数据对应各数据评判维度的各评判结果。针对该子数据的每个待选存储地址,将该待选存储地址以及该子数据的各评判结果,作为该待选存储地址对应的输入数据。将所述输入数据输入所述回归模型,确定所述回归模型输出的该子数据的该待选存储地址的训练效果。
可选地,存储确定模块209用于针对每个待选存储地址,根据该待选存储地址的训练效果以及该待选存储地址对应的输入数据,确定该待选存储地址的数据评判结果。将所述原始数据对应的各待选存储地址,作为进化算法的个体,根据待选存储地址的数据评判结果,确定个体的适应度,并通过预设的进化算法,更新所述各待选存储地址的数据评判结果。根据所述原始数据更新后的各待选存储地址的数据评判结果,从所述各待选存储地址中,确定所述原始数据的目标存储地址。
可选地,存储确定模块209用于针对预设的每个数据评判质量,从预设的第三数据源存储的各质量公式中,确定用于评价所述第一公式的数据评判质量的第三公式,其中,所述数据评判质量至少包括:样本性以及全面性。根据该评判维度对应的第三公式,确定该评判质量对应的各第一公式。当与该数据评判质量对应的所述第一公式中,不存在所述第一数据源中所述第一公式中预设的该数据评判质量的锚定公式时,迭代确定所述第三数据源用于评判各数据评判质量的第三公式,直至与该数据评判质量对应的各第一公式中包含该数据评判质量的锚定公式为止,确定所述第一公式中与该评判质量对应的所述各第一公式,重新作为第一公式。将所述原始数据、所述第一公式中与该评判质量对应的重新确定的各第一公式以及该待选存储地址输入所述回归模型,确定所述原始数据的该待选存储地址的样本指数以及所述原始数据的该待选存储地址的全面指数,并将所述样本指数以及全面指数作为该待选存储地址的训练效果。
可选地,存储确定模块209用于根据待选存储地址的数据评判结果,以待选存储地址的所述训练效果中所述全面指数为参照,确定个体的待选适应度。当所述个体的待选适应度与待选存储地址的所述训练效果中所述样本指数的差值不在预设的误差范围内,重新确定所述个体,直到确定个体的待选适应度与所述待选存储地址的所述样本指数的差值在所述误差范围内,将待选适应度作为个体的适应度。
可选地,请求响应模块207用于根据预设的各存储地址对应的数据分级标准,确定所述原始数据的等级,并根据所述原始数据的等级,从当前空闲存储空间中,确定所述原始数据的等级对应的若干待选存储地址。
可选地,维度确定模块205用于根据预设的数据训练模型的时间预测公式以及预设的数据训练模型的精度预测公式、所述第一公式,确定所述第一公式对应的时间预测公式以及所述第一公式对应的精度预测公式,重新作为第一公式。
可选地,维度确定模块205用于针对预设的多个模型类型,确定该模型类型对应的训练样本以及所述训练样本的训练时间以及训练精度。将所述训练样本、所述训练样本的存储地址以及所述第一公式中的所述时间预测公式,作为输入数据,输入待训练的时间回归模型,以所述回归模型输出的预测时间与所述训练样本的训练时间差异最小为优化目标,训练所述时间回归模型。将所述训练样本、所述训练样本的存储地址以及所述第一公式中的所述精度预测公式,作为输入数据,输入待训练的精度回归模型,以所述回归模型输出的预测精度与所述训练样本的训练精度差异最小为优化目标,训练所述精度回归模型。根据训练完成的时间回归模型以及训练完成的精度回归模型,确定该模型类型对应训练完成的回归模型。
本说明书还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述工业领域的数据存储方法。
本说明书还提供了图7所示的一种对应于图1的电子设备的示意结构图。如图7,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1的工业领域的数据存储方法。当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device, PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、***、或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、***或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (10)

1.一种工业领域的数据存储方法,其特征在于,包括:
针对预设的每个数据评判维度,从预设的第一数据源存储的各评判公式中,确定用于计算该数据评判维度的各第一公式,其中,所述数据评判维度至少包括:冷热度、冗余度以及通用度;
根据该评判维度对应的第一公式,确定第二数据源中与该评判维度相关的各第二公式;
当与该数据评判维度相关的所述各第二公式中,不存在所述第二数据源中预设的该数据评判维度的锚定公式时,迭代确定所述第一数据源用于评判各维度的第一公式,直至确定出的所述第二数据源中与该数据评判维度相关的所述各第二公式中包含该数据评判维度的锚定公式为止;
响应于训练目标模型的原始数据的存储请求,确定所述目标模型的模型类型、所述目标模型的模型类型对应的训练完成的回归模型以及空闲存储空间中所述原始数据的若干待选存储地址;
针对所述原始数据包含的每个子数据,将该子数据分别输入各数据评判维度的各第一公式,确定该子数据对应各数据评判维度的各评判结果;
针对该子数据的每个待选存储地址,将该待选存储地址以及该子数据的各评判结果,作为该待选存储地址对应的输入数据;
将所述输入数据输入所述回归模型,确定所述回归模型输出的该子数据的该待选存储地址的训练效果,其中,所述训练效果至少包括:训练时间以及训练精度中的一种,所述训练时间为采用所述原始数据,训练所述目标模型,使所述目标模型达到训练结束条件所需的时间,训练精度为采用所述原始数据,训练所述目标模型,使所述目标模型能够达到的输出结果的准确度上限;
根据各待选存储地址的训练效果,从所述各待选存储地址中,确定目标存储地址,并将所述原始数据存储至所述目标存储地址。
2.如权利要求1所述的方法,其特征在于,根据各待选存储地址的训练效果,从所述各待选存储地址中,确定目标存储地址,具体包括:
针对每个待选存储地址,根据该待选存储地址的训练效果以及该待选存储地址对应的输入数据,确定该待选存储地址的数据评判结果;
将所述原始数据对应的各待选存储地址,作为进化算法的个体,根据待选存储地址的数据评判结果,确定个体的适应度,并通过预设的进化算法,更新所述各待选存储地址的数据评判结果;
根据所述原始数据更新后的各待选存储地址的数据评判结果,从所述各待选存储地址中,确定所述原始数据的目标存储地址。
3.如权利要求2所述的方法,其特征在于,针对每个待选存储地址,将所述原始数据、所述第一公式以及该待选存储地址输入所述回归模型,得到该待选存储地址的训练效果,具体包括:
针对预设的每个数据评判质量,从预设的第三数据源存储的各质量公式中,确定用于评价所述第一公式的数据评判质量的第三公式,其中,所述数据评判质量至少包括:样本性以及全面性;
根据该评判维度对应的第三公式,确定该评判质量对应的各第一公式;
当与该数据评判质量对应的所述第一公式中,不存在所述第一数据源中所述第一公式中预设的该数据评判质量的锚定公式时,迭代确定所述第三数据源用于评判各数据评判质量的第三公式,直至与该数据评判质量对应的各第一公式中包含该数据评判质量的锚定公式为止,确定所述第一公式中与该评判质量对应的所述各第一公式,重新作为第一公式;
将所述原始数据、所述第一公式中与该评判质量对应的重新确定的各第一公式以及该待选存储地址输入所述回归模型,确定所述原始数据的该待选存储地址的样本指数以及所述原始数据的该待选存储地址的全面指数,并将所述样本指数以及全面指数作为该待选存储地址的训练效果。
4.如权利要求3所述的方法,其特征在于,根据待选存储地址的数据评判结果,确定个体的适应度,具体包括:
根据待选存储地址的数据评判结果,以待选存储地址的所述训练效果中所述全面指数为参照,确定个体的待选适应度;
当所述个体的待选适应度与待选存储地址的所述训练效果中所述样本指数的差值不在预设的误差范围内,重新确定所述个体,直到确定个体的待选适应度与所述待选存储地址的所述样本指数的差值在所述误差范围内,将待选适应度作为个体的适应度。
5.如权利要求1所述的方法,其特征在于,确定空闲存储空间中所述原始数据的若干待选存储地址,具体包括:
根据预设的各存储地址对应的数据分级标准,确定所述原始数据的等级,并根据所述原始数据的等级,从当前空闲存储空间中,确定所述原始数据的等级对应的若干待选存储地址。
6.如权利要求1所述的方法,其特征在于,在迭代确定所述第一数据源用于评判各维度的第一公式,直至确定出的所述第二数据源中与该数据评判维度相关的所述各第二公式中包含该数据评判维度的锚定公式为止之后,所述方法还包括:
根据预设的数据训练模型的时间预测公式以及预设的数据训练模型的精度预测公式、所述第一公式,确定所述第一公式对应的时间预测公式以及所述第一公式对应的精度预测公式,重新作为第一公式。
7.如权利要求6所述的方法,其特征在于,采用下述方法训练回归模型,具体包括:
针对预设的多个模型类型,确定该模型类型对应的训练样本以及所述训练样本的训练时间以及训练精度;
将所述训练样本、所述训练样本的存储地址以及所述第一公式中的所述时间预测公式,作为输入数据,输入待训练的时间回归模型,以所述回归模型输出的预测时间与所述训练样本的训练时间差异最小为优化目标,训练所述时间回归模型;
将所述训练样本、所述训练样本的存储地址以及所述第一公式中的所述精度预测公式,作为输入数据,输入待训练的精度回归模型,以所述回归模型输出的预测精度与所述训练样本的训练精度差异最小为优化目标,训练所述精度回归模型;
根据训练完成的时间回归模型以及训练完成的精度回归模型,确定该模型类型对应训练完成的回归模型。
8.一种工业领域的数据存储装置,其特征在于,包括:
维度预选模块,针对预设的每个数据评判维度,从预设的第一数据源存储的各评判公式中,确定用于计算该数据评判维度的各第一公式,其中,所述数据评判维度至少包括:冷热度、冗余度以及通用度;
维度作用模块,根据该评判维度对应的第一公式,确定第二数据源中与该评判维度相关的各第二公式;
维度确定模块,当与该数据评判维度相关的所述各第二公式中,不存在所述第二数据源中预设的该数据评判维度的锚定公式时,迭代确定所述第一数据源用于评判各维度的第一公式,直至确定出的所述第二数据源中与该数据评判维度相关的所述各第二公式中包含该数据评判维度的锚定公式为止;
请求响应模块,响应于训练目标模型的原始数据的存储请求,确定所述目标模型的模型类型、所述目标模型的模型类型对应的训练完成的回归模型以及空闲存储空间中所述原始数据的若干待选存储地址;
存储确定模块,针对所述原始数据包含的每个子数据,将该子数据分别输入各数据评判维度的各第一公式,确定该子数据对应各数据评判维度的各评判结果,针对该子数据的每个待选存储地址,将该待选存储地址以及该子数据的各评判结果,作为该待选存储地址对应的输入数据,将所述输入数据输入所述回归模型,确定所述回归模型输出的该子数据的该待选存储地址的训练效果,其中,所述训练效果至少包括:训练时间以及训练精度中的一种,所述训练时间为采用所述原始数据,训练所述目标模型,使所述目标模型达到训练结束条件所需的时间,训练精度为采用所述原始数据,训练所述目标模型,使所述目标模型能够达到的输出结果的准确度上限,再根据各待选存储地址的训练效果,从所述各待选存储地址中,确定目标存储地址,并将所述原始数据存储至所述目标存储地址。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~7任一项所述的方法。
10.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述权利要求1~7任一项所述的方法。
CN202410136688.XA 2024-01-31 2024-01-31 一种工业领域的数据存储方法、装置及设备 Active CN117666971B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410136688.XA CN117666971B (zh) 2024-01-31 2024-01-31 一种工业领域的数据存储方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410136688.XA CN117666971B (zh) 2024-01-31 2024-01-31 一种工业领域的数据存储方法、装置及设备

Publications (2)

Publication Number Publication Date
CN117666971A CN117666971A (zh) 2024-03-08
CN117666971B true CN117666971B (zh) 2024-04-30

Family

ID=90073493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410136688.XA Active CN117666971B (zh) 2024-01-31 2024-01-31 一种工业领域的数据存储方法、装置及设备

Country Status (1)

Country Link
CN (1) CN117666971B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110363427A (zh) * 2019-07-15 2019-10-22 腾讯科技(深圳)有限公司 模型质量评估方法和装置
CN112860769A (zh) * 2021-03-10 2021-05-28 广东电网有限责任公司 一种能源规划数据管理***
CN115146865A (zh) * 2022-07-22 2022-10-04 中国平安财产保险股份有限公司 基于人工智能的任务优化方法及相关设备
CN115618964A (zh) * 2022-10-26 2023-01-17 支付宝(杭州)信息技术有限公司 一种模型训练的方法、装置、存储介质及电子设备
CN116402113A (zh) * 2023-06-08 2023-07-07 之江实验室 一种任务执行的方法、装置、存储介质及电子设备
CN116860259A (zh) * 2023-09-05 2023-10-10 之江实验室 一种模型训练和编译器自动调优的方法、装置及设备
WO2023246393A1 (zh) * 2022-06-22 2023-12-28 支付宝(杭州)信息技术有限公司 意图识别模型训练及用户意图识别
CN117312394A (zh) * 2023-11-08 2023-12-29 之江实验室 一种数据访问方法、装置、存储介质及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11562252B2 (en) * 2020-06-22 2023-01-24 Capital One Services, Llc Systems and methods for expanding data classification using synthetic data generation in machine learning models

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110363427A (zh) * 2019-07-15 2019-10-22 腾讯科技(深圳)有限公司 模型质量评估方法和装置
CN112860769A (zh) * 2021-03-10 2021-05-28 广东电网有限责任公司 一种能源规划数据管理***
WO2023246393A1 (zh) * 2022-06-22 2023-12-28 支付宝(杭州)信息技术有限公司 意图识别模型训练及用户意图识别
CN115146865A (zh) * 2022-07-22 2022-10-04 中国平安财产保险股份有限公司 基于人工智能的任务优化方法及相关设备
CN115618964A (zh) * 2022-10-26 2023-01-17 支付宝(杭州)信息技术有限公司 一种模型训练的方法、装置、存储介质及电子设备
CN116402113A (zh) * 2023-06-08 2023-07-07 之江实验室 一种任务执行的方法、装置、存储介质及电子设备
CN116860259A (zh) * 2023-09-05 2023-10-10 之江实验室 一种模型训练和编译器自动调优的方法、装置及设备
CN117312394A (zh) * 2023-11-08 2023-12-29 之江实验室 一种数据访问方法、装置、存储介质及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Nonlinear auto regressive Elman neural network combined with unscented Kalman filter for data-driven dynamic data reconciliation in dynamic systems;Zhang, ZH等;《MEASUREMENT SCIENCE AND TECHNOLOGY》;20231201;第34卷(第12期);全文 *
基于HBase的多分类逻辑回归算法研究;刘黎志;邓介一;吴云韬;;计算机应用研究;20171010(第10期);全文 *
计算机软件进化中创新变换和回归变换;陈文伟等;《广东工业大学学报》;20120430;第29卷(第4期);全文 *

Also Published As

Publication number Publication date
CN117666971A (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
US8082247B2 (en) Best-bet recommendations
CN110149540B (zh) 多媒体资源的推荐处理方法、装置、终端及可读介质
CN109783023B (zh) 一种数据下刷的方法和相关装置
CN110674408A (zh) 业务平台、训练样本的实时生成方法及装置
CN113641896A (zh) 一种模型训练以及推荐概率预测方法及装置
CN116502679B (zh) 一种模型构建方法、装置、存储介质及电子设备
CN110826894A (zh) 超参数确定方法、装置及电子设备
CN111797312A (zh) 模型训练的方法及装置
CN105095255A (zh) 一种数据索引创建方法及装置
CN105989066A (zh) 一种信息处理方法和装置
CN114490786B (zh) 数据排序方法及装置
WO2008091887A2 (en) Parallel optimization using independent cell instances
CN117666971B (zh) 一种工业领域的数据存储方法、装置及设备
CN110968483B (zh) 业务数据采集方法、装置及电子设备
CN116822606A (zh) 一种异常检测模型的训练方法、装置、设备及存储介质
CN115456801B (zh) 个人信用的人工智能大数据风控***、方法和存储介质
CN109992468B (zh) 一种进程性能分析方法、装置、***及计算机存储介质
CN113343085B (zh) 一种信息推荐方法、装置、存储介质及电子设备
CN112015912B (zh) 一种基于知识图谱的指标智能可视化方法及装置
CN111242195B (zh) 模型、保险风控模型训练方法、装置及电子设备
CN113220992A (zh) 一种信息流内容推荐方法、***及介质
CN112699140B (zh) 数据处理方法、装置、设备和存储介质
CN109299321B (zh) 一种曲目推荐方法及装置
CN113343141A (zh) 一种网页获取方法及装置
CN117786061B (zh) 一种基于时空注意力机制的大语言模型预测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant