CN117540826A - 机器学习模型的优化方法、装置、电子设备及存储介质 - Google Patents

机器学习模型的优化方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117540826A
CN117540826A CN202311782927.0A CN202311782927A CN117540826A CN 117540826 A CN117540826 A CN 117540826A CN 202311782927 A CN202311782927 A CN 202311782927A CN 117540826 A CN117540826 A CN 117540826A
Authority
CN
China
Prior art keywords
machine learning
learning model
target
contribution
target machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311782927.0A
Other languages
English (en)
Inventor
陈端良
单聪
蔡二丰
王家家
闫树红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zetyun Tech Co ltd
Original Assignee
Beijing Zetyun Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zetyun Tech Co ltd filed Critical Beijing Zetyun Tech Co ltd
Priority to CN202311782927.0A priority Critical patent/CN117540826A/zh
Publication of CN117540826A publication Critical patent/CN117540826A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种机器学习模型的优化方法、装置、电子设备及存储介质,该方法包括:获取目标机器学习模型对应的样本数据;分别计算样本数据中每个特征对目标机器学习模型的贡献度,得到z个第一贡献度;在z个第一贡献度中确定至少一个第一目标贡献度;基于至少一个第一目标贡献度所对应的至少一个特征对目标机器学习模型进行优化,得到优化后的目标机器学习模型。本申请通过获取目标机器学习模型训练过程中预测结果不同的样本数据,根据样本数据得到多个特征,计算不同特征对目标机器学习模型的影响程度,从而确定出对目标机器学习模型影响较大的至少一个特征,通过该至少一个对目标机器学习模型进行优化,提高了机器学习模型的优化效率。

Description

机器学习模型的优化方法、装置、电子设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种机器学习模型的优化方法、装置、电子设备及存储介质。
背景技术
随着机器学习为主的人工智能技术的发展迅速,机器学习模型被应用在了越来越多的领域。对机器学习模型的模型优化在建模中起到重要作用,不仅能够提高模型性能和效率,还能降低资源消耗。目前,常用的优化方法包括数据预处理对数据清洗、标准化、归一化等,但是这种方式一般只选择预测正确的数据对机器学习模型进行分析和优化,而无法全面考虑到所有预测数据对机器学习模型带来的影响,从而出现了机器学习模型优化效率较低的问题。
发明内容
本申请实施例提供了一种机器学习模型的优化方法、装置、电子设备及存储介质,解决了现有技术中机器学习模型优化效率较低的问题。
为解决上述问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种机器学习模型的优化方法,所述方法包括:
获取目标机器学习模型对应的第一样本数据和第二样本数据,所述目标机器学习模型基于所述第一样本数据和所述第二样本数据进行预测得到的预测结果不同,所述第一样本数据包括x个第一特征,所述第二样本数据包括y个第二特征,所述x为正整数,所述y为正整数;
分别计算所述x个第一特征和所述y个第二特征中,每个特征对所述目标机器学习模型的贡献度,得到z个第一贡献度,所述贡献度用于表征所对应的特征对所述目标机器学习模型的输出结果的影响程度,所述z为所述x与所述y之和,所述z为正整数;
在所述z个第一贡献度中确定至少一个第一目标贡献度;
基于所述至少一个第一目标贡献度所对应的至少一个特征对所述目标机器学习模型进行优化,得到优化后的目标机器学习模型。
可选的,所述获取目标机器学习模型在训练过程中的第一样本数据和第二样本数据,包括:
确定所述目标机器学习模型的种类,所述种类包括分类任务的机器学习模型和回归任务的机器学习模型;
基于所述种类,获取目标机器学习模型在训练过程中的第一样本数据和第二样本数据,其中,在所述种类表征所述目标机器学习模型为所述分类任务的机器学习模型的情况下,所述第一样本数据为所述目标机器学习模型预测错误的样本数据,所述第二样本数据为所述目标机器学习模型预测正确的样本数据;在所述种类表征所述目标机器学习模型为所述回归任务的机器学习模型的情况下,所述第一样本数据为所述目标机器学习模型预测误差大于预设误差的样本数据,所述二样本数据为所述目标机器学习模型预测误差等于或小于所述预设误差的样本数据。
可选的,所述分别计算所述x个第一特征和所述y个第二特征中,每个特征对所述目标机器学习模型的贡献度,得到z个第一贡献度,包括:
分别计算所述x个第一特征和所述y个第二特征中的每个特征对所述目标机器学习模型的贡献度,得到z个第二贡献度,所述z个第二贡献度包括x个第一特征所对应的x个第二贡献度和所述y个第二特征所对应的y个第二贡献度;
对所述x个第一特征所对应的x个第二贡献度进行优化,得到x个第三贡献度;
其中,所述z个第一贡献度包括:所述y个第二特征所对应的y个第二贡献度,以及,所述x个第三贡献度。
可选的,所述对所述x个第一特征所对应的x个贡献度进行优化,得到x个第三贡献度,包括:
分别计算所述x个第一特征对所述目标机器学习模型的贡献度,得到x个第四贡献度;
对所述x个第四贡献度进行分类,得到所述x个第三贡献度,其中,所述第三贡献度包括分类标识,所述分类标识用于表征所对应的贡献度为正向贡献度或负向贡献度。
可选的,所述在所述z个第一贡献度中确定至少一个第一目标贡献度,包括:
按照降序排序的方式对所述z个第一贡献度进行排序,得到排序集合;
根据预设阈值对所述排序集合进行筛选,确定至少一个第一目标贡献度,所述第一目标贡献度大于或等于所述预设阈值。
可选的,所述基于所述至少一个第一目标贡献度所对应的至少一个特征对所述目标机器学习模型进行优化,得到优化后的目标机器学习模型包括:
基于所述至少一个目标贡献度所对应的至少一个目标特征,对所述至少一个目标贡献度进行更新,得到至少一个第二目标贡献度,所述至少一个第一目标贡献度与所述至少一个第二目标贡献度一一对应;
对所述至少一个第二目标贡献度进行筛选,确定至少一个第三目标贡献度;
基于所述至少一个第三目标贡献度所对应的至少一个特征对所述目标机器学习模型进行优化,得到优化后的目标机器学习模型。
可选的,所述基于所述至少一个第三目标贡献度所对应的至少一个特征对所述目标机器学习模型进行优化,得到优化后的目标机器学习模型,包括:
基于所述至少一个第三目标贡献度生成优化信息;
基于所述优化信息对所述目标机器学习模型进行优化,得到优化后的目标机器学习模型;
其中,所述优化信息包括以下至少一项:调整所述目标机器学习模型的中所述目标特征所对应的权重值、增加所述目标机器学习模型的第一样本特征、删除所述目标机器学习模型的第二样本特征、对所述目标机器学习模型的训练样本进行预处理。
第二方面,本申请实施例还提供了一种机器学习模型的优化装置,所述装置包括:
获取模块,用于获取目标机器学习模型对应的第一样本数据和第二样本数据,所述目标机器学习模型基于所述第一样本数据和所述第二样本数据进行预测得到的预测结果不同,所述第一样本数据包括x个第一特征,所述第二样本数据包括y个第二特征,所述x为正整数,所述y为正整数;
计算模块,用于分别计算所述x个第一特征和所述y个第二特征中,每个特征对所述目标机器学习模型的贡献度,得到z个第一贡献度,所述贡献度用于表征所对应的特征对所述目标机器学习模型的输出结果的影响程度,所述z为所述x与所述y之和,所述z为正整数;
确定模块,用于在所述z个第一贡献度中确定至少一个第一目标贡献度;
优化模块,用于基于所述至少一个第一目标贡献度所对应的至少一个特征对所述目标机器学习模型进行优化,得到优化后的目标机器学习模型。
第三方面,本申请实施例还提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;所述处理器,用于读取存储器中的程序实现如前述第一方面所述方法中的步骤。
第四方面,本申请实施例还提供一种可读存储介质,用于存储程序,所述程序被处理器执行时实现如前述第一方面所述方法中的步骤。
本申请提供一种机器学习模型的优化方法、装置、电子设备及存储介质,该方法包括:获取目标机器学习模型对应的第一样本数据和第二样本数据,所述目标机器学习模型基于所述第一样本数据和所述第二样本数据进行预测得到的预测结果不同,所述第一样本数据包括x个第一特征,所述第二样本数据包括y个第二特征,所述x为正整数,所述y为正整数;分别计算所述x个第一特征和所述y个第二特征中,每个特征对所述目标机器学习模型的贡献度,得到z个第一贡献度,所述贡献度用于表征所对应的特征对所述目标机器学习模型的输出结果的影响程度,所述z为所述x与所述y之和,所述z为正整数;在所述z个第一贡献度中确定至少一个第一目标贡献度;基于所述至少一个第一目标贡献度所对应的至少一个特征对所述目标机器学习模型进行优化,得到优化后的目标机器学习模型。本申请通过获取目标机器学习模型训练过程中预测结果不同的样本数据,根据样本数据得到多个特征,计算不同特征对目标机器学习模型的影响程度,从而确定出对目标机器学习模型影响较大的至少一个特征,通过该至少一个特征对目标机器学习模型进行优化,提高了机器学习模型的优化效率。
附图说明
图1为本申请实施例提供的一种机器学习模型的优化方法的流程示意图;
图2为本申请实施例提供的一种机器学习模型的优化装置的结构示意图;
图3为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。此外,本申请中使用“和/或”表示所连接对象的至少其中之一,例如A和/或B和/或C,表示包含单独A,单独B,单独C,以及A和B都存在,B和C都存在,A和C都存在,以及A、B和C都存在的7种情况。
参见图1,图1是本申请实施例提供的机器学习模型的优化方法的流程示意图。
步骤101、获取目标机器学习模型对应的第一样本数据和第二样本数据,所述目标机器学习模型基于所述第一样本数据和所述第二样本数据进行预测得到的预测结果不同,所述第一样本数据包括x个第一特征,所述第二样本数据包括y个第二特征,所述x为正整数,所述y为正整数。
在本实施例中,本申请所提供的方法应用于机器学***台可部署多个机器学习模型和深度学习模型,其中,深度学习是机器学习的子集,机器学习模型包括深度学习模型,生成式AI模型或大语言模型(LLM)属于深度学习模型,可使用深度学习等技术生成新的内容,本申请实施例中的机器学习模型不限于表征机器学习模型,还用于表征深度学习模型、大语言模型等。目标机器学习模型例如可用于将结构化数据或非结构化数据(例如图像、视频、文档等)进行分类和回归,通过训练目标机器学习模型还可以实现其他功能,在本实施例中不做具体限定。在通过样本数据对目标机器学习模型进行训练过程中或者后续目标机器学习模型对样本数据进行预测过程(也即模型应用过程)中会产生不同结果的预测数据,其中,与第一样本数据或第二样本数据对应的实际结果相比,该预测结果可能是准确的预测结果(也即,预测结果与实际结果一致),也可能是不准确的预测结果(也即,预测结果与实际结果不一致)。具体地,例如对结果化数据的分类可以为识别成功,也可以为识别失败。其中,第一样本数据为badcase(坏案例)数据,而第二样本数据为预测正确或较准确的数据。badcase数据的定义为模型或者具体规则无法很好预测的样本,其确定方法为模型预测错误的或者预测较不准确的样本。需要进行说明的是,在不同类型的机器学习模型中,对于第一样本数据和第二样本数据的划分也不同,在本实施例中不做具体限定。
具体地,通过在目标机器学习模型在训练过程中获取第一样本数据和第二样本数据后,根据第一样本数据确定出x个第一特征,并根据第二样本数据确定出y个第二特征,x和y均为正整数,其中,第一特征和第二特征为样本数据的维度,x个第一特征和y个第二特征可以相同,也可以不相同。示例性的,例如样本数据为结构化数据的情况下,第一特征和第二特征可以为数据格式、数据大小、数据长度等等,不同的特征对机器学习模型的影响程度不同。
步骤102、分别计算所述x个第一特征和所述y个第二特征中,每个特征对所述目标机器学习模型的贡献度,得到z个第一贡献度,所述贡献度用于表征所对应的特征对所述目标机器学习模型的输出结果的影响程度,所述z为所述x与所述y之和,所述z为正整数。
在本实施例中,通过目标算法可以分别计算出每个第一特征和个第二特征对目标机器学习模型的贡献度,其中,贡献度即代表了特征在目标机器学习模型的训练过程中或者预测过程中的影响程度。本实施例中目标算法可以为沙普利可加性模型解释(ShapleyAdditive explanations,SHAP)算法,其中沙普利可加性模型解释算法是一种非参数机器学习技术,它被用于识别和解释特定输入特征对模型输出的影响程度。通过沙普利可加性模型解释算法可以计算出每个第一特征和个第二特征所对应的SHAP值,即z个第一贡献度,其中,z为x与y之和,z为正整数。
需要进行说明的是,第一贡献度为具体的数值,例如70、90、95等等,数值越大时,代表了该特征对目标机器学习模型的贡献度越大,数值越小时,代表了该特征对目标机器学习模型的贡献度越小。
步骤103、在所述z个第一贡献度中确定至少一个第一目标贡献度。
在本实施例中,在获取到了z个第一贡献度后,对z个第一贡献度进行筛选,其中,筛选条件可以为通过目标阈值与z个第一贡献度一一进行比较,大于目标阈值的第一贡献度即确定为第一目标贡献度。示例性的,当第一贡献度为70、90、95时,目标阈值根据经验设置为85,此时90和95的贡献度即可以确定为第一目标贡献度,而70的贡献度则被遗弃。在所有的第一贡献度均完成对比之后,得到至少一个第一目标贡献度,该第一目标贡献度即表明了其对目标机器学习模型的影响较大,对目标机器学习模型进行优化时需要进行考虑。
步骤104、基于所述至少一个第一目标贡献度所对应的至少一个特征对所述目标机器学习模型进行优化,得到优化后的目标机器学习模型。
在本实施例中,在获取到至少一个第一目标贡献度后,根据至少一个第一目标贡献度可以生成相应的优化措施,通过优化措施对目标机器学习模型中的参数或者结果等进行优化,得到优化后的目标机器学习模型,目标机器学习模型可用于对结构化数据进行分类和回归,优化后的目标机器学习模型对于结构化数据的分类和回归操作更加准确。通过结合第一样本数据和第二样本数据对机器学习模型的贡献度,解决了现有技术中未从模型训练后预测偏差和预测错误角度出发分析导致某些效果不佳的原因的问题,并且通过预测正确的样本和预测错误的样本的特征重要性分析,帮助分析特征对模型预测结果的贡献,推断出哪些特征易导致模型预测错误,从侧面反映模型是否合理,并且对模型的优化提供措施。
本申请提供一种机器学习模型的优化方法,该方法包括:获取目标机器学习模型对应的第一样本数据和第二样本数据,所述目标机器学习模型基于所述第一样本数据和所述第二样本数据进行预测得到的预测结果不同,所述第一样本数据包括x个第一特征,所述第二样本数据包括y个第二特征,所述x为正整数,所述y为正整数;分别计算所述x个第一特征和所述y个第二特征中,每个特征对所述目标机器学习模型的贡献度,得到z个第一贡献度,所述贡献度用于表征所对应的特征对所述目标机器学习模型的输出结果的影响程度,所述z为所述x与所述y之和,所述z为正整数;在所述z个第一贡献度中确定至少一个第一目标贡献度;基于所述至少一个第一目标贡献度所对应的至少一个特征对所述目标机器学习模型进行优化,得到优化后的目标机器学习模型。本申请通过获取目标机器学习模型训练过程中预测结果不同的样本数据,根据样本数据得到多个特征,计算不同特征对目标机器学习模型的影响程度,从而确定出对目标机器学习模型影响较大的至少一个特征,通过该至少一个特征对目标机器学习模型进行优化,提高了机器学习模型的优化效率。
在一些可行的实施方式中,可选的,所述获取目标机器学习模型在训练过程中的第一样本数据和第二样本数据,包括:
确定所述目标机器学习模型的种类,所述种类包括分类任务的机器学习模型和回归任务的机器学习模型;
基于所述种类,获取目标机器学习模型在训练过程中的第一样本数据和第二样本数据,其中,在所述种类表征所述目标机器学习模型为所述分类任务的机器学习模型的情况下,所述第一样本数据为所述目标机器学习模型预测错误的样本数据,所述第二样本数据为所述目标机器学习模型预测正确的样本数据;在所述种类表征所述目标机器学习模型为所述回归任务的机器学习模型的情况下,所述第一样本数据为所述目标机器学习模型预测误差大于预设误差的样本数据,所述二样本数据为所述目标机器学习模型预测误差等于或小于所述预设误差的样本数据。
在本实施例中,由于目标机器学习模型的种类不同,因此对于第一样本数据和第二样本数据的划分也不同,由此在对目标机器学习模型进行优化之前,需要确定目标机器学习模型的种类。在本实施例中,以目标机器学习模型为分类任务的机器学习模型和回归任务的机器学习模型为例进行说明。
当对目标机器学习模型的种类识别结果表征目标机器学习模型为分类任务的机器学习模型的情况下,此时样本数据的预测结果只有两种情况,例如判断结构化数据是否为JSON数据格式,那么目标机器学习模型预测的结果则为是或者否。此时,第一样本数据为目标机器学习模型预测错误的样本数据,而第二样本数据为目标机器学习模型预测正确的样本数据。
当对目标机器学习模型的种类识别结果表征目标机器学习模型回归任务的机器学习模型的情况下,此时样本数据的预测结果一个数值,例如判断结构化数据与预设数据的相似度,那么目标机器学习模型预测的结果可能为一个百分数或者小数,例如50%、80%等等。
通过在获取数据之前准确确定出目标机器学习模型的种类,可以更好地获取到第一样本数据和第二样本数据,从而保证了通过特征计算贡献值的准确度。
可选的,所述分别计算所述x个第一特征和所述y个第二特征中,每个特征对所述目标机器学习模型的贡献度,得到z个第一贡献度,包括:
分别计算所述x个第一特征和所述y个第二特征中的每个特征对所述目标机器学习模型的贡献度,得到z个第二贡献度,所述z个第二贡献度包括x个第一特征所对应的x个第二贡献度和所述y个第二特征所对应的y个第二贡献度;
对所述x个第一特征所对应的x个第二贡献度进行优化,得到x个第三贡献度;
其中,所述z个第一贡献度包括:所述y个第二特征所对应的y个第二贡献度,以及,所述x个第三贡献度。
在本实施例中,可以通过第一算法分别计算x个第一特征述y个第二特征中的每个特征对目标机器学习模型的贡献度,具体地,第一算法用于计算输入的特征对于目标机器学习模型的影响程度。示例性的,第一算法可以为沙普利可加性模型解释算法,通过沙普利可加性模型解释算法分别计算x个第一特征述y个第二特征中的每个特征对目标机器学习模型的贡献度,即SHAP值,需要进行说明的是,SHAP是一种针对合作博弈的解决方案,SHAP方法对于每个样本模型都产生一个预测值。第一样本数据的SHAP值是预测错误的或者预测较不准确的样本中每个第一特征所分配到的数值,用于表征第一特征对错误数据样本推理错误的贡献度。第二样本数据的SHAP值预测正确或预测较准确样本中每个第二特征所分配到的数据,用于表征第二特征对预测正确或较正确样本推理的贡献度。
在本实施例中,可以通过第二算法对所述x个第一特征所对应的x个第二贡献度进行优化,得到x个第三贡献度,具体地,第二算法用于在多个输入的特征中进行筛选,输出符合预设要求的特征。示例性的,第二算法可以为局部可解释模型不可知解释(LocalInterpretable Model-agnostic Explanations,LIME)算法,通过局部可解释模型不可知解释算法对所述x个第一特征所对应的x个第二贡献度进行优化,得到x个第三贡献度。局部可解释模型不可知解释算法是一种机器学习技术,旨在给出解释性模型的全局视角。它通过可解释的局部解释来解释训练模型的行为,使得用户能够理解模型的结果。通过局部可解释模型不可知解释算法对所述x个第一特征所对应的x个贡献度进行优化,得到x个第三贡献度,从而可以通过y个第二特征所对应的y个第二贡献度和x个第三贡献度组成z个第一贡献度。
可选的,所述对所述x个第一特征所对应的x个贡献度进行优化,得到x个第三贡献度,包括:
分别计算所述x个第一特征对所述目标机器学习模型的贡献度,得到x个第四贡献度;
对所述x个第四贡献度进行分类,得到所述x个第三贡献度,其中,所述第三贡献度包括分类标识,所述分类标识用于表征所对应的贡献度为正向贡献度或负向贡献度。
在本实施例中,首先通过沙普利可加性模型解释算法将x个第一特征对应贡献度进行计算,得到x个第四贡献度。具体地,基于SHAP方法计算第一样本数据各样本中各特征的Shapley Value值,即边际贡献。第一样本数据的预测值对于预测值均值的偏移量是该样本所有特征的贡献叠加。对于每一个样本的预测值,不同特征在预测值中起到的作用可以理解为在“预测值均值”基础上每个特征正向作用或负向作用后得到的预测值。
其次,通过局部可解释模型不可知解释算法对x个第四贡献度进行分类,得到所述x个第三贡献度,具体地,分类包括分类标识,从而指示了第三贡献度为正向贡献度(正向作用)或负向贡献度(负向作用)。需要进行说明的是,正向作用为该特征对模型预测值有正向的影响,即会使预测概率增加。负向作用为该特征对某些预测值有负向的影响,即会是预测概率降低。
由此,结合SHAP算法和LIME算法对单个样本的分析,可视化展示每个样本中的特征重要性及对预测结果的正负影响,通过对单个样本数据中导致预测错误的特征贡献度进行分析,以弥补单个模型解释性对模型本身依赖的局限性。
可选的,所述在所述z个第一贡献度中确定至少一个第一目标贡献度,包括:
按照降序排序的方式对所述z个第一贡献度进行排序,得到排序集合;
根据预设阈值对所述排序集合进行筛选,确定至少一个第一目标贡献度,所述第一目标贡献度大于或等于所述预设阈值。
在本实施例中,通过降序排序的方式对所述z个第一贡献度进行排序,从而可以确定出哪些重要特征的某些取值区间造成某些预测结果偏大。需要进行说明的是,预设阈值可以根据实际经验进行设置,在本实施例中不做具体限定。通过筛选出度大于或等于预设阈值的第一贡献度,从而确定出至少一个第一目标贡献度。通过降序排序的方式对排序集合进行筛选,可以提高筛选速率,从而进一步地提高模型的优化效率。
可选的,所述基于所述至少一个第一目标贡献度所对应的至少一个特征对所述目标机器学习模型进行优化,得到优化后的目标机器学习模型包括:
基于所述至少一个目标贡献度所对应的至少一个目标特征,对所述至少一个目标贡献度进行更新,得到至少一个第二目标贡献度,所述至少一个第一目标贡献度与所述至少一个第二目标贡献度一一对应;
对所述至少一个第二目标贡献度进行筛选,确定至少一个第三目标贡献度;
基于所述至少一个第三目标贡献度所对应的至少一个特征对所述目标机器学习模型进行优化,得到优化后的目标机器学习模型。
在本实施例中,在确定出至少一个第一目标贡献度所对应的至少一个目标特征后,还可以通过统计学等方式将目标贡献度进行更新,得到至少一个第二目标贡献度,示例性的,例如某个第一目标贡献度明显比其他第一目标贡献度的值大,则表明该第一目标贡献度可能为错误的数值,因此需要对其进行更新,从而使其符合要求。由此,对所有的第一目标贡献度进行筛选和更新后,确定出至少一个第二目标贡献度。
另外,还通过对所述至少一个第二目标贡献度进行筛选,确定至少一个第三目标贡献度,其中,筛选方式可以通过统计学方法对特征的不同取值范围内预测结果进行定量和定性分析,通过分析了解特征区间对模型输出结果的影响。需要进行说明的是,通过定量和定性分析可以了解到数据质量、数据中特定值的缺失情况、数据中特定值的异常情况、离散集中趋势等等对模型的影响,以避免由于数据失真等情况导致建模效果不友好的问题。使用统计学方法对不同的特征取值范围对应的不同目标列范围联合分析,通过分析了解特征区间与目标列对模型输出结果的影响,从而确定出影响程度较大的目标特征。
可选的,所述基于所述至少一个第三目标贡献度所对应的至少一个特征对所述目标机器学习模型进行优化,得到优化后的目标机器学习模型,包括:
基于所述至少一个第三目标贡献度生成优化信息;
基于所述优化信息对所述目标机器学习模型进行优化,得到优化后的目标机器学习模型;
其中,所述优化信息包括以下至少一项:调整所述目标机器学习模型的中所述目标特征所对应的权重值、增加所述目标机器学习模型的第一样本特征、删除所述目标机器学习模型的第二样本特征、对所述目标机器学习模型的训练样本进行预处理。
在本实施例中,最后基于第三目标贡献度生成优化信息,并根据优化信息采取相应的优化措施改进机器学习模型。其中,优化措施可以为调整模型中特征的权重值、增加或删除特征、改进数据预处理等。例如:通过对排序靠前的部分特征进行特征分布分析发现数据异常,在反馈优化阶段建议改进数据预处理方式。对特征重要性分析和badcase数据的SHAP重要性分析帮助推断出哪些特征易导致模型预测错误,在反馈优化阶段建议模型训练前增加或删除特征。对不同的特征取值范围对应的不同目标列范围联合分析,了解特征区间与目标列对模型输出结果的影响。在反馈优化阶段建议通过改变对应的特征区间训练数据的样本权重,迫使模型关注分类错误的样本,从而提升模型性能。
本申请通过获取目标机器学习模型训练过程中预测结果不同的样本数据,根据样本数据得到多个特征,计算不同特征对目标机器学习模型的影响程度,从而确定出对目标机器学习模型影响较大的至少一个特征,通过至少一个特征对目标机器学习模型进行优化,提高了机器学习模型的优化效率。
参见图2,图2是本申请实施例提供的机器学习模型的优化装置的结构图。如图2所示,机器学习模型的优化装置200包括:
获取模块210,用于获取目标机器学习模型对应的第一样本数据和第二样本数据,所述目标机器学习模型基于所述第一样本数据和所述第二样本数据进行预测得到的预测结果不同,所述第一样本数据包括x个第一特征,所述第二样本数据包括y个第二特征,所述x为正整数,所述y为正整数;
计算模块220,用于分别计算所述x个第一特征和所述y个第二特征中,每个特征对所述目标机器学习模型的贡献度,得到z个第一贡献度,所述贡献度用于表征所对应的特征对所述目标机器学习模型的输出结果的影响程度,所述z为所述x与所述y之和,所述z为正整数;
确定模块230,用于在所述z个第一贡献度中确定至少一个第一目标贡献度;
优化模块240,用于基于所述至少一个第一目标贡献度所对应的至少一个特征对所述目标机器学习模型进行优化,得到优化后的目标机器学习模型。
可选的,获取模块210包括:
分类确定子模块,用于确定所述目标机器学习模型的种类,所述种类包括分类任务的机器学习模型和回归任务的机器学习模型;
分类获取子模块,用于基于所述种类,获取目标机器学习模型在训练过程中的第一样本数据和第二样本数据,其中,在所述种类表征所述目标机器学习模型为所述分类任务的机器学习模型的情况下,所述第一样本数据为所述目标机器学习模型预测错误的样本数据,所述第二样本数据为所述目标机器学习模型预测正确的样本数据;在所述种类表征所述目标机器学习模型为所述回归任务的机器学习模型的情况下,所述第一样本数据为所述目标机器学习模型预测误差大于预设误差的样本数据,所述二样本数据为所述目标机器学习模型预测误差等于或小于所述预设误差的样本数据。
可选的,计算模块220包括:
第一计算子模块,用于分别计算所述x个第一特征和所述y个第二特征中的每个特征对所述目标机器学习模型的贡献度,得到z个第二贡献度,所述z个第二贡献度包括x个第一特征所对应的x个第二贡献度和所述y个第二特征所对应的y个第二贡献度;
第二计算子模块,用于对所述x个第一特征所对应的x个第二贡献度进行优化,得到x个第三贡献度;
其中,所述z个第一贡献度包括:所述y个第二特征所对应的y个第二贡献度,以及,所述x个第三贡献度。
可选的,第二计算子模块包括:
计算单元,用于分别计算所述x个第一特征对所述目标机器学习模型的贡献度,得到x个第四贡献度;
分类单元,用于对所述x个第四贡献度进行分类,得到所述x个第三贡献度,其中,所述第三贡献度包括分类标识,所述分类标识用于表征所对应的贡献度为正向贡献度或负向贡献度。
可选的,确定模块230包括:
排序子模块,用于按照降序排序的方式对所述z个第一贡献度进行排序,得到排序集合;
确定子模块,用于根据预设阈值对所述排序集合进行筛选,确定至少一个第一目标贡献度,所述第一目标贡献度大于或等于所述预设阈值。
可选的,优化模块240包括:
更新子模块,用于基于所述至少一个目标贡献度所对应的至少一个目标特征,对所述至少一个目标贡献度进行更新,得到至少一个第二目标贡献度,所述至少一个第一目标贡献度与所述至少一个第二目标贡献度一一对应;
筛选子模块,用于对所述至少一个第二目标贡献度进行筛选,确定至少一个第三目标贡献度;
优化子模块,用于基于所述至少一个第三目标贡献度所对应的至少一个特征对所述目标机器学习模型进行优化,得到优化后的目标机器学习模型。
可选的,优化子模块包括:
生成单元,用于基于所述至少一个第三目标贡献度生成优化信息;
优化单元,用于基于所述优化信息对所述目标机器学习模型进行优化,得到优化后的目标机器学习模型;
其中,所述优化信息包括以下至少一项:调整所述目标机器学习模型的中所述目标特征所对应的权重值、增加所述目标机器学习模型的第一样本特征、删除所述目标机器学习模型的第二样本特征、对所述目标机器学习模型的训练样本进行预处理。
本申请通过获取目标机器学习模型训练过程中预测结果不同的样本数据,根据样本数据得到多个特征,计算不同特征对目标机器学习模型的影响程度,从而确定出对目标机器学习模型影响较大的至少一个特征,通过该至少一个特征对目标机器学习模型进行优化,提高了机器学习模型的优化效率。
本申请实施例还提供一种电子设备。请参见图3,电子设备可以包括处理器301、存储器302及存储在存储器302上并可在处理器301上运行的程序3021。
程序3021被处理器301执行时可实现图1对应的方法实施例中的任意步骤:
获取目标机器学习模型对应的第一样本数据和第二样本数据,所述目标机器学习模型基于所述第一样本数据和所述第二样本数据进行预测得到的预测结果不同,所述第一样本数据包括x个第一特征,所述第二样本数据包括y个第二特征,所述x为正整数,所述y为正整数;
分别计算所述x个第一特征和所述y个第二特征中,每个特征对所述目标机器学习模型的贡献度,得到z个第一贡献度,所述贡献度用于表征所对应的特征对所述目标机器学习模型的输出结果的影响程度,所述z为所述x与所述y之和,所述z为正整数;
在所述z个第一贡献度中确定至少一个第一目标贡献度;
基于所述至少一个第一目标贡献度所对应的至少一个特征对所述目标机器学习模型进行优化,得到优化后的目标机器学习模型。
可选的,所述获取目标机器学习模型在训练过程中的第一样本数据和第二样本数据,包括:
确定所述目标机器学习模型的种类,所述种类包括分类任务的机器学习模型和回归任务的机器学习模型;
基于所述种类,获取目标机器学习模型在训练过程中的第一样本数据和第二样本数据,其中,在所述种类表征所述目标机器学习模型为所述分类任务的机器学习模型的情况下,所述第一样本数据为所述目标机器学习模型预测错误的样本数据,所述第二样本数据为所述目标机器学习模型预测正确的样本数据;在所述种类表征所述目标机器学习模型为所述回归任务的机器学习模型的情况下,所述第一样本数据为所述目标机器学习模型预测误差大于预设误差的样本数据,所述二样本数据为所述目标机器学习模型预测误差等于或小于所述预设误差的样本数据。
可选的,所述分别计算所述x个第一特征和所述y个第二特征中,每个特征对所述目标机器学习模型的贡献度,得到z个第一贡献度,包括:
分别计算所述x个第一特征和所述y个第二特征中的每个特征对所述目标机器学习模型的贡献度,得到z个第二贡献度,所述z个第二贡献度包括x个第一特征所对应的x个第二贡献度和所述y个第二特征所对应的y个第二贡献度;
对所述x个第一特征所对应的x个贡献度进行优化,得到x个第三贡献度;
其中,所述z个第一贡献度包括:所述y个第二特征所对应的y个第二贡献度,以及,所述x个第三贡献度。
可选的,所述对所述x个第一特征所对应的x个贡献度进行优化,得到x个第三贡献度,包括:
分别计算所述x个第一特征对所述目标机器学习模型的贡献度,得到x个第四贡献度;
对所述x个第四贡献度进行分类,得到所述x个第三贡献度,其中,所述第三贡献度包括分类标识,所述分类标识用于表征所对应的贡献度为正向贡献度或负向贡献度。
可选的,所述在所述z个第一贡献度中确定至少一个第一目标贡献度,包括:
按照降序排序的方式对所述z个第一贡献度进行排序,得到排序集合;
根据预设阈值对所述排序集合进行筛选,确定至少一个第一目标贡献度,所述第一目标贡献度大于或等于所述预设阈值。
可选的,所述基于所述至少一个第一目标贡献度所对应的至少一个特征对所述目标机器学习模型进行优化,得到优化后的目标机器学习模型包括:
基于所述至少一个目标贡献度所对应的至少一个目标特征,对所述至少一个目标贡献度进行更新,得到至少一个第二目标贡献度,所述至少一个第一目标贡献度与所述至少一个第二目标贡献度一一对应;
对所述至少一个第二目标贡献度进行筛选,确定至少一个第三目标贡献度;
基于所述至少一个第三目标贡献度所对应的至少一个特征对所述目标机器学习模型进行优化,得到优化后的目标机器学习模型。
可选的,所述基于所述至少一个第三目标贡献度所对应的至少一个特征对所述目标机器学习模型进行优化,得到优化后的目标机器学习模型,包括:
基于所述至少一个第三目标贡献度生成优化信息;
基于所述优化信息对所述目标机器学习模型进行优化,得到优化后的目标机器学习模型;
其中,所述优化信息包括以下至少一项:调整所述目标机器学习模型的中所述目标特征所对应的权重值、增加所述目标机器学习模型的第一样本特征、删除所述目标机器学习模型的第二样本特征、对所述目标机器学习模型的训练样本进行预处理。
本申请通过获取目标机器学习模型训练过程中预测结果不同的样本数据,根据样本数据得到多个特征,计算不同特征对目标机器学习模型的影响程度,从而确定出对目标机器学习模型影响较大的至少一个特征,通过该至少一个特征对目标机器学习模型进行优化,提高了机器学习模型的优化效率。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述机器学习模型的优化方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random AccessMemory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (10)

1.一种机器学习模型的优化方法,其特征在于,所述方法包括:
获取目标机器学习模型对应的第一样本数据和第二样本数据,所述目标机器学习模型基于所述第一样本数据和所述第二样本数据进行预测得到的预测结果不同,所述第一样本数据包括x个第一特征,所述第二样本数据包括y个第二特征,所述x为正整数,所述y为正整数;
分别计算所述x个第一特征和所述y个第二特征中,每个特征对所述目标机器学习模型的贡献度,得到z个第一贡献度,所述贡献度用于表征所对应的特征对所述目标机器学习模型的输出结果的影响程度,所述z为所述x与所述y之和,所述z为正整数;
在所述z个第一贡献度中确定至少一个第一目标贡献度;
基于所述至少一个第一目标贡献度所对应的至少一个特征对所述目标机器学习模型进行优化,得到优化后的目标机器学习模型。
2.根据权利要求1所述的方法,其特征在于,所述获取目标机器学习模型在训练过程中的第一样本数据和第二样本数据,包括:
确定所述目标机器学习模型的种类,所述种类包括分类任务的机器学习模型和回归任务的机器学习模型;
基于所述种类,获取目标机器学习模型在训练过程中的第一样本数据和第二样本数据,其中,在所述种类表征所述目标机器学习模型为所述分类任务的机器学习模型的情况下,所述第一样本数据为所述目标机器学习模型预测错误的样本数据,所述第二样本数据为所述目标机器学习模型预测正确的样本数据;在所述种类表征所述目标机器学习模型为所述回归任务的机器学习模型的情况下,所述第一样本数据为所述目标机器学习模型预测误差大于预设误差的样本数据,所述二样本数据为所述目标机器学习模型预测误差等于或小于所述预设误差的样本数据。
3.根据权利要求1所述的方法,其特征在于,所述分别计算所述x个第一特征和所述y个第二特征中,每个特征对所述目标机器学习模型的贡献度,得到z个第一贡献度,包括:
分别计算所述x个第一特征和所述y个第二特征中的每个特征对所述目标机器学习模型的贡献度,得到z个第二贡献度,所述z个第二贡献度包括x个第一特征所对应的x个第二贡献度和所述y个第二特征所对应的y个第二贡献度;
对所述x个第一特征所对应的x个第二贡献度进行优化,得到x个第三贡献度;
其中,所述z个第一贡献度包括:所述y个第二特征所对应的y个第二贡献度,以及,所述x个第三贡献度。
4.根据权利要求3所述的方法,其特征在于,所述对所述x个第一特征所对应的x个贡献度进行优化,得到x个第三贡献度,包括:
分别计算所述x个第一特征对所述目标机器学习模型的贡献度,得到x个第四贡献度;
对所述x个第四贡献度进行分类,得到所述x个第三贡献度,其中,所述第三贡献度包括分类标识,所述分类标识用于表征所对应的贡献度为正向贡献度或负向贡献度。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述在所述z个第一贡献度中确定至少一个第一目标贡献度,包括:
按照降序排序的方式对所述z个第一贡献度进行排序,得到排序集合;
根据预设阈值对所述排序集合进行筛选,确定至少一个第一目标贡献度,所述第一目标贡献度大于或等于所述预设阈值。
6.根据权利要求1或5所述的方法,其特征在于,所述基于所述至少一个第一目标贡献度所对应的至少一个特征对所述目标机器学习模型进行优化,得到优化后的目标机器学习模型包括:
基于所述至少一个目标贡献度所对应的至少一个目标特征,对所述至少一个目标贡献度进行更新,得到至少一个第二目标贡献度,所述至少一个第一目标贡献度与所述至少一个第二目标贡献度一一对应;
对所述至少一个第二目标贡献度进行筛选,确定至少一个第三目标贡献度;
基于所述至少一个第三目标贡献度所对应的至少一个特征对所述目标机器学习模型进行优化,得到优化后的目标机器学习模型。
7.根据权利要求6所述的方法,其特征在于,所述基于所述至少一个第三目标贡献度所对应的至少一个特征对所述目标机器学习模型进行优化,得到优化后的目标机器学习模型,包括:
基于所述至少一个第三目标贡献度生成优化信息;
基于所述优化信息对所述目标机器学习模型进行优化,得到优化后的目标机器学习模型;
其中,所述优化信息包括以下至少一项:调整所述目标机器学习模型的中所述目标特征所对应的权重值、增加所述目标机器学习模型的第一样本特征、删除所述目标机器学习模型的第二样本特征、对所述目标机器学习模型的训练样本进行预处理。
8.一种机器学习模型的优化装置,其特征在于,所述装置包括:
获取模块,用于获取目标机器学习模型对应的第一样本数据和第二样本数据,所述目标机器学习模型基于所述第一样本数据和所述第二样本数据进行预测得到的预测结果不同,所述第一样本数据包括x个第一特征,所述第二样本数据包括y个第二特征,所述x为正整数,所述y为正整数;
计算模块,用于分别计算所述x个第一特征和所述y个第二特征中,每个特征对所述目标机器学习模型的贡献度,得到z个第一贡献度,所述贡献度用于表征所对应的特征对所述目标机器学习模型的输出结果的影响程度,所述z为所述x与所述y之和,所述z为正整数;
确定模块,用于在所述z个第一贡献度中确定至少一个第一目标贡献度;
优化模块,用于基于所述至少一个第一目标贡献度所对应的至少一个特征对所述目标机器学习模型进行优化,得到优化后的目标机器学习模型。
9.一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;其特征在于,所述处理器,用于读取存储器中的程序实现如权利要求1至7中任一项所述的机器学习模型的优化方法中的步骤。
10.一种可读存储介质,用于存储程序,其特征在于,所述程序被处理器执行时实现如权利要求1至7中任一项所述的机器学习模型的优化方法中的步骤。
CN202311782927.0A 2023-12-22 2023-12-22 机器学习模型的优化方法、装置、电子设备及存储介质 Pending CN117540826A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311782927.0A CN117540826A (zh) 2023-12-22 2023-12-22 机器学习模型的优化方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311782927.0A CN117540826A (zh) 2023-12-22 2023-12-22 机器学习模型的优化方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN117540826A true CN117540826A (zh) 2024-02-09

Family

ID=89796088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311782927.0A Pending CN117540826A (zh) 2023-12-22 2023-12-22 机器学习模型的优化方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117540826A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117877647A (zh) * 2024-03-13 2024-04-12 苏州创腾软件有限公司 基于机器学习的配方生成方法和装置
CN118132972A (zh) * 2024-05-08 2024-06-04 腾讯科技(深圳)有限公司 特征处理方法、装置、设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117877647A (zh) * 2024-03-13 2024-04-12 苏州创腾软件有限公司 基于机器学习的配方生成方法和装置
CN118132972A (zh) * 2024-05-08 2024-06-04 腾讯科技(深圳)有限公司 特征处理方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN117540826A (zh) 机器学习模型的优化方法、装置、电子设备及存储介质
US9129228B1 (en) Robust and fast model fitting by adaptive sampling
US20150120263A1 (en) Computer-Implemented Systems and Methods for Testing Large Scale Automatic Forecast Combinations
CN110991474A (zh) 一种机器学***台
CN111797320B (zh) 数据处理方法、装置、设备及存储介质
CN111046930A (zh) 一种基于决策树算法的供电服务满意度影响因素识别方法
US20220092359A1 (en) Image data classification method, device and system
WO2023179042A1 (zh) 数据更新方法、故障诊断方法、电子设备和存储介质
CN111860698A (zh) 确定学习模型的稳定性的方法和装置
CN114202256B (zh) 架构升级预警方法、装置、智能终端及可读存储介质
WO2023029065A1 (zh) 数据集质量评估方法、装置、计算机设备及存储介质
CN116743637B (zh) 一种异常流量的检测方法、装置、电子设备及存储介质
US20210357699A1 (en) Data quality assessment for data analytics
CN113283673A (zh) 一种模型性能衰减评价方法、模型训练方法及装置
CN113761193A (zh) 日志分类方法、装置、计算机设备和存储介质
CN115114124A (zh) 主机风险的评估方法及评估装置
CN117370753A (zh) 基于大数据的异常电力用户识别的方法、***及存储介质
WO2011149608A1 (en) Identifying and using critical fields in quality management
CN111783883A (zh) 一种异常数据的检测方法及装置
CN111309706A (zh) 模型训练方法、装置、可读存储介质及电子设备
CN114139636B (zh) 异常作业处理方法及装置
CN115994093A (zh) 测试用例推荐方法和装置
CN113570070B (zh) 流式数据采样与模型更新方法、装置、***与存储介质
CN114610590A (zh) 作业运行时长确定方法、装置、设备及存储介质
CN114155412A (zh) 深度学习模型迭代方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination