CN112598134A - 融合人工经验和集成学习策略的机器学习方法及装置 - Google Patents

融合人工经验和集成学习策略的机器学习方法及装置 Download PDF

Info

Publication number
CN112598134A
CN112598134A CN202011534460.4A CN202011534460A CN112598134A CN 112598134 A CN112598134 A CN 112598134A CN 202011534460 A CN202011534460 A CN 202011534460A CN 112598134 A CN112598134 A CN 112598134A
Authority
CN
China
Prior art keywords
training
integrated
component
data
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011534460.4A
Other languages
English (en)
Inventor
陈卓
孙启明
汪利鹏
李侃
李延明
郭显宽
胡鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Three Eye Spirit Information Technology Co ltd
Original Assignee
Nanjing Three Eye Spirit Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Three Eye Spirit Information Technology Co ltd filed Critical Nanjing Three Eye Spirit Information Technology Co ltd
Priority to CN202011534460.4A priority Critical patent/CN112598134A/zh
Publication of CN112598134A publication Critical patent/CN112598134A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供一种融合人工经验和集成学习策略的机器学习方法及装置,方法包括:根据预设训练数据和多个预设异质算法,生成多个独立的基模型;根据多个所述基模型得到对应的集成训练集和集成测试集;根据所述集成训练集采用交叉验证方法和超参数优化方法进行元模型训练,并根据所述集成测试集对所述元模型训练的结果进行效果评定,得到符合所述效果评定的合格条件的元模型;本申请能够将Auto ML与人工经验结合,二者在学习过程中共同进行决策,充分利用机器的执行效率和人工经验的先验知识指导作用,提升学习效果。

Description

融合人工经验和集成学习策略的机器学习方法及装置
技术领域
本申请涉及机器学习领域,具体涉及一种融合人工经验和集成学习策略的机器学习方法及装置。
背景技术
自动机器学习(Auto ML,Automated Machine Learning)是2014年以来,机器学习和深度学习领域最炙手可热的方向之一。Auto ML试图将模型训练过程中包括数据处理、特征提取、参数调节等在内的步骤实现全自动化处理,从而降低操作人员使用门槛并提升模型训练效率。
Auto ML划分为两个类别:传统的AutoML和深度AutoML。前者是为了解决传统机器学习的建模问题,它面向的是传统机器学习相关算法,如线性回归、逻辑回归、决策树等等;后者更多的是面向深度学习中神经网络的建模。
目前业界已经出现若干开源Auto ML框架如Auto Sklearn、TPOT、ATM、Auto Keras等等,也有一些商业化工具如Google Cloud AutoML、阿里PAI等等,这些都丰富了Auto ML实现方法。
然而Auto ML并不是万能的,并不是所有的机器学习问题都能交由它来完成,它是针对特定领域所提供的自动化解决方案。
缺陷和不足:
(1)人工经验的浪费
一方面,在一些场景下Auto ML还不能保证百分百覆盖整个建模过程。Auto ML主要实现的是机器学习关键、繁琐步骤的自动化以减少人力劳动,但如特殊格式数据组织、深层特征挖掘等等工作,都还需要人工参与才能完成。
另一方面,Auto ML的实现是以大量计算为代价的,因为过程中一切自动化决策都是通过计算得出的。而人工经验具有先验知识的作用,适当地融入人工经验不仅可以减少许多额外计算工作,在有些情况下能够避免机器的错误决策。
因此,自动化学习结合人工经验辅助决策的方式,是一种可取的提升机器学习模型构建效果的方案。
(2)次优模型的浪费
机器学习最终选择的是一个最优模型(表现最好的),而过程中会产生很多次优模型,这些模型在某些评估指标表现优秀而其他指标不尽人意,最终综合评定不及最优模型而遭到淘汰。但这并不代表它们没有利用价值,正相反,它们往往表征了数据的某些特质,而这些特质在最优模型上未必表现出来(最优模型取综合评分最高,因此可能会忽略某些特性)。
如果可以充分利用这些模型,让它们一同影响最终模型输出,则相比单一模型,整合输出的预测效果将得到很好的提升。
发明内容
针对现有技术中的问题,本申请提供一种融合人工经验和集成学习策略的机器学习方法及装置,能够将Auto ML与人工经验结合,二者在学习过程中共同进行决策,充分利用机器的执行效率和人工经验的先验知识指导作用,提升学习效果。
为了解决上述问题中的至少一个,本申请提供以下技术方案:
第一方面,本申请提供一种融合人工经验和集成学习策略的机器学习方法,包括:
根据预设训练数据和多个预设异质算法,生成多个独立的基模型;
根据多个所述基模型得到对应的集成训练集和集成测试集;
根据所述集成训练集采用交叉验证方法和超参数优化方法进行元模型训练,并根据所述集成测试集对所述元模型训练的结果进行效果评定,得到符合所述效果评定的合格条件的元模型。
进一步地,在所述根据预设训练数据和多个预设异质算法,生成多个独立的基模型之前,包括:
对原始训练数据进行数据和特征层面的分析处理过程进行封装,得到多个特征工程组件,所述特征工程组件包括数据概况分析组件、缺失值处理组件、格式转换组件、字典转换组件、特征编码组件、特征缩放组件、问题推测组件、数据碰撞组件、数据挖掘组件、数据预测组件中的至少一种。
进一步地,所述根据预设训练数据和多个预设异质算法,生成多个独立的基模型,还包括:
采用k折交叉验证训练方式,将训练数据进行划分,生成训练集和验证集;
依次选取已确定的多个预设异质算法,一一对其进行搜索优化或贝叶斯优化。
进一步地,所述根据多个所述基模型得到对应的集成训练集和集成测试集,包括:
A.使用基模型1对训练集N进行预测,结果为一个1维n行的矩阵,记为N1;
B.使用基模型1对测试集M进行预测,结果为一个1维m行的矩阵,记为M1;
C.更换基模型,重复A、B步骤,直到K个模型均执行完毕,得到N1、N2、N3。。。NK和M1、M2、M3。。。MK;
D.将N1、N2、N3。。。NK合并为一个K维n行的矩阵,记为N*;
E.将M1、M2、M3。。。MK合并为一个K维m行的矩阵,记为M*;
F.步骤中生成的N*和M*即为元模型训练使用的集成训练集和集成测试集。
第二方面,本申请提供一种融合人工经验和集成学习策略的机器学习装置,包括:
基模型确定模块,用于根据预设训练数据和多个预设异质算法,生成多个独立的基模型;
集成训练集和集成测试集确定模块,用于根据多个所述基模型得到对应的集成训练集和集成测试集;
元模型确定模块,用于根据所述集成训练集采用交叉验证方法和超参数优化方法进行元模型训练,并根据所述集成测试集对所述元模型训练的结果进行效果评定,得到符合所述效果评定的合格条件的元模型。
进一步地,还包括:
特征工程组件确定单元,用于对原始训练数据进行数据和特征层面的分析处理过程进行封装,得到多个特征工程组件,所述特征工程组件包括数据概况分析组件、缺失值处理组件、格式转换组件、字典转换组件、特征编码组件、特征缩放组件、问题推测组件、数据碰撞组件、数据挖掘组件、数据预测组件中的至少一种。
进一步地,所述基模型确定模块包括:
交叉验证单元,用于采用k折交叉验证训练方式,将训练数据进行划分,生成训练集和验证集;
超参数优化单元,用于依次选取已确定的多个预设异质算法,一一对其进行搜索优化或贝叶斯优化。
进一步地,所述集成训练集和集成测试集确定模块用于执行以下步骤:
A.使用基模型1对训练集N进行预测,结果为一个1维n行的矩阵,记为N1;
B.使用基模型1对测试集M进行预测,结果为一个1维m行的矩阵,记为M1;
C.更换基模型,重复A、B步骤,直到K个模型均执行完毕,得到N1、N2、N3。。。NK和M1、M2、M3。。。MK;
D.将N1、N2、N3。。。NK合并为一个K维n行的矩阵,记为N*;
E.将M1、M2、M3。。。MK合并为一个K维m行的矩阵,记为M*;
F.步骤中生成的N*和M*即为元模型训练使用的集成训练集和集成测试集。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的融合人工经验和集成学习策略的机器学习方法的步骤。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的融合人工经验和集成学习策略的机器学习方法的步骤。
由上述技术方案可知,本申请提供一种融合人工经验和集成学习策略的机器学习方法及装置,通过将Auto ML与人工经验结合,二者在学习过程中共同进行决策,充分利用机器的执行效率和人工经验的先验知识指导作用,提升学习效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中的融合人工经验和集成学习策略的机器学习方法的流程示意图;
图2为本申请实施例中的融合人工经验和集成学习策略的机器学习装置的结构图;
图3为本申请实施例中的融合人工经验和集成学习策略的机器学习总体设计图;
图4为本申请实施例中的分散学习流程示意图;
图5为本申请实施例中的集成学习流程示意图;
图6为本申请实施例中的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
考虑到一方面,在一些场景下Auto ML还不能保证百分百覆盖整个建模过程。AutoML主要实现的是机器学习关键、繁琐步骤的自动化以减少人力劳动,但如特殊格式数据组织、深层特征挖掘等等工作,都还需要人工参与才能完成。
另一方面,Auto ML的实现是以大量计算为代价的,因为过程中一切自动化决策都是通过计算得出的。而人工经验具有先验知识的作用,适当地融入人工经验不仅可以减少许多额外计算工作,在有些情况下能够避免机器的错误决策的问题,本申请提供一种融合人工经验和集成学习策略的机器学习方法及装置,通过将Auto ML与人工经验结合,二者在学习过程中共同进行决策,充分利用机器的执行效率和人工经验的先验知识指导作用,提升学习效果。
为了能够将Auto ML与人工经验结合,二者在学习过程中共同进行决策,充分利用机器的执行效率和人工经验的先验知识指导作用,提升学习效果,本申请提供一种融合人工经验和集成学习策略的机器学习方法的实施例,参见图1,所述融合人工经验和集成学习策略的机器学习方法具体包含有如下内容:
步骤S101:根据预设训练数据和多个预设异质算法,生成多个独立的基模型;
步骤S102:根据多个所述基模型得到对应的集成训练集和集成测试集;
步骤S103:根据所述集成训练集采用交叉验证方法和超参数优化方法进行元模型训练,并根据所述集成测试集对所述元模型训练的结果进行效果评定,得到符合所述效果评定的合格条件的元模型。
从上述描述可知,本申请实施例提供的融合人工经验和集成学习策略的机器学习方法,能够通过将Auto ML与人工经验结合,二者在学习过程中共同进行决策,充分利用机器的执行效率和人工经验的先验知识指导作用,提升学习效果。
在本申请的融合人工经验和集成学习策略的机器学习方法的一实施例中,还可以具体包含如下内容:
在所述根据预设训练数据和多个预设异质算法,生成多个独立的基模型之前,包括:
对原始训练数据进行数据和特征层面的分析处理过程进行封装,得到多个特征工程组件,所述特征工程组件包括数据概况分析组件、缺失值处理组件、格式转换组件、字典转换组件、特征编码组件、特征缩放组件、问题推测组件、数据碰撞组件、数据挖掘组件、数据预测组件中的至少一种。
在本申请的融合人工经验和集成学习策略的机器学习方法的一实施例中,还可以具体包含如下内容:
所述根据预设训练数据和多个预设异质算法,生成多个独立的基模型,还包括:
采用k折交叉验证训练方式,将训练数据进行划分,生成训练集和验证集;
依次选取已确定的多个预设异质算法,一一对其进行搜索优化或贝叶斯优化。
在本申请的融合人工经验和集成学习策略的机器学习方法的一实施例中,还可以具体包含如下内容:
所述根据多个所述基模型得到对应的集成训练集和集成测试集,包括:
A.使用基模型1对训练集N进行预测,结果为一个1维n行的矩阵,记为N1;
B.使用基模型1对测试集M进行预测,结果为一个1维m行的矩阵,记为M1;
C.更换基模型,重复A、B步骤,直到K个模型均执行完毕,得到N1、N2、N3。。。NK和M1、M2、M3。。。MK;
D.将N1、N2、N3。。。NK合并为一个K维n行的矩阵,记为N*;
E.将M1、M2、M3。。。MK合并为一个K维m行的矩阵,记为M*;
F.步骤中生成的N*和M*即为元模型训练使用的集成训练集和集成测试集。
为了能够将Auto ML与人工经验结合,二者在学习过程中共同进行决策,充分利用机器的执行效率和人工经验的先验知识指导作用,提升学习效果,本申请提供一种用于实现所述融合人工经验和集成学习策略的机器学习方法的全部或部分内容的融合人工经验和集成学习策略的机器学习装置的实施例,参见图2,所述融合人工经验和集成学习策略的机器学习装置具体包含有如下内容:
基模型确定模块10,用于根据预设训练数据和多个预设异质算法,生成多个独立的基模型;
集成训练集和集成测试集确定模块20,用于根据多个所述基模型得到对应的集成训练集和集成测试集;
元模型确定模块30,用于根据所述集成训练集采用交叉验证方法和超参数优化方法进行元模型训练,并根据所述集成测试集对所述元模型训练的结果进行效果评定,得到符合所述效果评定的合格条件的元模型。
从上述描述可知,本申请实施例提供的融合人工经验和集成学习策略的机器学习装置,能够通过将Auto ML与人工经验结合,二者在学习过程中共同进行决策,充分利用机器的执行效率和人工经验的先验知识指导作用,提升学习效果。
在本申请的融合人工经验和集成学习策略的机器学习装置的一实施例中,还具体包含有如下内容:
还包括:
特征工程组件确定单元,用于对原始训练数据进行数据和特征层面的分析处理过程进行封装,得到多个特征工程组件,所述特征工程组件包括数据概况分析组件、缺失值处理组件、格式转换组件、字典转换组件、特征编码组件、特征缩放组件、问题推测组件、数据碰撞组件、数据挖掘组件、数据预测组件中的至少一种。
在本申请的融合人工经验和集成学习策略的机器学习装置的一实施例中,还具体包含有如下内容:
所述基模型确定模块10包括:
交叉验证单元,用于采用k折交叉验证训练方式,将训练数据进行划分,生成训练集和验证集;
超参数优化单元,用于依次选取已确定的多个预设异质算法,一一对其进行搜索优化或贝叶斯优化。
在本申请的融合人工经验和集成学习策略的机器学习装置的一实施例中,还具体包含有如下内容:
所述集成训练集和集成测试集确定模块用于执行以下步骤:
A.使用基模型1对训练集N进行预测,结果为一个1维n行的矩阵,记为N1;
B.使用基模型1对测试集M进行预测,结果为一个1维m行的矩阵,记为M1;
C.更换基模型,重复A、B步骤,直到K个模型均执行完毕,得到N1、N2、N3。。。NK和M1、M2、M3。。。MK;
D.将N1、N2、N3。。。NK合并为一个K维n行的矩阵,记为N*;
E.将M1、M2、M3。。。MK合并为一个K维m行的矩阵,记为M*;
F.步骤中生成的N*和M*即为元模型训练使用的集成训练集和集成测试集。
为了更进一步说明本方案,本申请还提供一种应用上述融合人工经验和集成学习策略的机器学习装置实现融合人工经验和集成学习策略的机器学习方法的具体应用实例,具体包含有如下内容:
参见图3,本方案采用分散学习+集成学习的方式进行模型构建:
分散学习:基于机器学习流程,选择多个异质算法,训练多个基模型。
集成学习:基于堆叠(Stacking)策略,借助前一步分散学习得到的基模型,进行第二阶段训练,形成元模型,元模型的输出即为最终的结果。
整个学习过程有全自动、半自动两种执行模式:前者通过预先设定参数,全过程(略过人工步骤)自动执行;后者在每个步骤(可指定)执行前,由人工配置并确认,再开始处理流程。
方案中为人工干预提供了多个入口,便于融合人工经验知识,整个过程由机器和人工共同决策。具体的:
一、分散学习
分散学习阶段的主要任务是利用训练数据生成多个独立的基模型,它们本质是同一类机器学习问题在当前训练数据下的不同算法实现。
该阶段主体采用Auto ML方式,简化建模过程操作,但同时由于基模型可以是弱模型(仅在某些方面表现的比较好而非全部),故使得人工经验有机会介入建模过程(人为地提升模型特定方面的效果而忽略其他方面),从而使得二者能够更好地互相融合、取长补短。
分散学习流程如图4所示。
(1)数据预处理
数据预处理主要对原始训练数据做数据和特征层面的分析处理,方案将其整合为流水线(pipeline)结构,每个步骤封装成一个独立组件,可自由组合装配到指定位置。
支持的特征工程组件包括:
数据概况分析:根据选定的数据集,生成数据分布概况,包括特征字段样例、均值、分位数、值域、方差等等。
缺失值处理:支持删除、默认填充以及高维映射等多种处理方法。
格式转换:一方面支持常规数据类型(如字符串、布尔)到数值类型的转换;另一方面,提供多个特定数据格式到数值的转换,如时间、日期等。
字典转换:由指定字典值转换为代码值。
特征编码:分箱(Binning)、独热编码(One-Hot Encoding)、特征哈希(HashingTrick)等。
特征缩放:归一化、标准化、对数转换等。
问题推测:自动给出当前数据所适合的机器学习算法类型(如分类、回归等)。
以上组件提供了基础的特征数据处理能力,除此之外,方案还结合数据分析场景,融合了多组可人工操作的数据分析挖掘组件:
数据碰撞组件:通过数据集合之间的碰撞操作,对目标数据集进行多维度补充,组件支持以下操作:
基本碰撞:多个数据集进行交集、差集、并集操作。
进阶碰撞:在基本碰撞基础上增加去重、过滤、偏差、分组聚合等操作。
数据挖掘组件:数据集内部行列层面的数据挖掘工具,支持以下操作:
数据合成:字段数据的字符处理(替换、截取、拼接等)、数值运算(加减乘除、开方、乘方等)、特殊类型处理(正则、输入固定值等)
数据裂变:针对特定数据的基于规则的数据挖掘工具,例如利用身份证号信息分离星座、性别、生日、所属地等信息。目标数据和规则均由使用者自行灵活制定,支持同步编码以方便后续训练环节。
数据预测组件:利用预训练算法模型进行训练数据的预测补充(将模型生成的预测数据添加到训练集),使得训练数据不拘泥于已采集的事实信息,而可以充分利用这种“非确定性”数据进行更深层次的机器学习。
与特征工程组件一样,分析挖掘组件也可以通过预先配置而达到过程自动化,它的加入极大地丰富了数据处理功能,用户可以根据自身经验自行拆解、组织特征数据,从而充分挖掘训练数据,最大化发挥人工经验的作用。
(2)特征及算法选择
特征选择:
就已经过预处理的训练集,选取模型训练所需要的特征数据。
自动化模式:默认采用嵌入法(Embedding)进行特征选择,利用决策树算法对全体特征进行相关性分析,得到各个特征系数(coef)及特征重要度信息,自动完成特征选择。
半自动化模式:提供多种可视化、数值化分析手段(包括:特征方差、相关性分析、相关矩阵和热图以及卡方检验等等),由用户自行分析判断,选择参与训练的特征。
算法选择
与Auto ML训练最终单个模型不同,分散学习目的是训练多个基模型用于后续集成学习,因此在算法选择环节为多选,同样提供两种模式:
自动化模式:方案预定义若干基础算法,利用前述环节得到的问题类别以及数据量、数据类型等特征信息进行自动筛选,得到全部符合要求的算法准备训练。
半自动化模式:***给出各个算法的场景、数据要求以及使用建议,基于人工经验筛选完成选择。
(3)基模型训练
在确定好训练数据以及算法后,本环节开始训练基模型:
训练数据划分
为了充分利用数据的同时避免由于训练数据重复率太高导致的泛化能力减弱问题,方案在模型训练前采用打乱(shuffle)+抽样(sampling)的方式,自动将数据按照一定抽样比(可配置)分为两个独立训练集,分别用于分散学习和集成学习。
对于分散学习使用的训练数据,预先划分为训练集和测试集两部分,前者用来训练模型,后者用来模型测试评估。
交叉验证(Cross-Validation)
采用k折交叉验证(折数可配置)训练方式,将训练数据进行二次划分,生成训练集和验证集,多次参与模型训练,以提升模型解释能力和稳定性。
超参数优化(Hyper-parameter Optimization)
依次选取已确定的具体算法,一一对其进行优化。超参数优化支持以下两种方式:
搜索优化:即将参数调优过程当做一个尝试过程,仅关心输入和输出,在搜索空间范围内寻找最优参数。搜索优化有两种子方法:
网格搜索(Grid Search):遍历给定的参数组合来搜索最优模型表现,该方法适用于超参数较少的情况,否则会随着参数增加导致计算量指数***。
随机搜索(Random Search):利用随机数求极小点而求得模型近似的最优表现,相对于网格搜索,该方法不会出现计算量***的情况,但不能保证得到最优解。
贝叶斯优化(Bayesian Optimization):基于模型的优化方法,利用算法模型本身和激活函数,通过在搜索空间进行迭代,找到验证集上误差最小的一组超参数。该方法在超参数较多时,迭代次数和计算量小于搜索方法。
各个算法的超参数初始值及搜索空间由***内置,自动模式下可直接运行;在半自动化模式下,可以进行人工设定、修改以及增加对应超参数信息,充分提升经验值的指导作用有目的地降低计算量。
模型甄选
每个算法模型经过训练后均会利用测试集数据生成相应的测试结果供模型选择,结果包含各类指标如回归模型的平均方差(Mean Square Error)、分类模型的F1分数等。
本环节可以利用分数阈值方式自动完成,也可以采用手动选择方式由人工确认。
二、集成学习
参见图5,集成学习的目的是整合多个异质基模型的训练效果,形成一个最终的单一输出结果。本方案采用集成学习的stacking策略,利用基模型预测生成训练数据,在此基础上训练代表整合结果的元模型,相较于每个单一基模型,元模型通常能够获得更好的预测结果。
(1)集成数据生成
方案采用数据预测+重组的方式完成数据整合:
假定分散学习生成K个基模型(依次编号为1、2、3。。。K),利用随机抽样法将本环节训练数据划分为训练集N和测试集M,数据量分别记为n、m,数据生成过程如下:
A.使用基模型1对训练集N进行预测,结果为一个1维n行的矩阵,记为N1。
B.使用基模型1对测试集M进行预测,结果为一个1维m行的矩阵,记为M1。
C.更换基模型,重复A、B步骤,直到K个模型均执行完毕,得到N1、N2、N3。。。NK和M1、M2、M3。。。MK。
D.将N1、N2、N3。。。NK合并为一个K维n行的矩阵,记为N*。
E.将M1、M2、M3。。。MK合并为一个K维m行的矩阵,记为M*。
步骤中生成的N*和M*即为元模型训练使用的集成训练集和集成测试集。
(2)元模型训练
可见,目前为止集成学习转换为在新的训练数据上进行的上层模型训练过程,涉及到的主要步骤如下:
数据权重
分散学习生成的基模型可能存在弱模型,同时每个模型在测试集表现的效果也有差异,故可对训练集N*的权重进行调整(让不同模型生成的训练数据权重差异化),提升元模型效果。
自动模式下,权重分数根据分散学习最后的模型打分自动生成;半自动模式下,权重可由用户自行调整。
算法选择
由于本环节主要的目的是整合多个模型结果,所以元模型的基础算法不需要太复杂,主要考虑执行效率和拟合效果,常用的逻辑回归、线性回归等均可(***内置),算法类型(分类、回归等)与基模型相同。
训练过程
与基模型训练过程类似,此处也采取交叉验证+超参数优化的模式进行元模型训练,考虑到算法复杂度较低,故超参数优化一般选择搜索策略即可。
利用测试集对训练得出的元模型进行效果测试,给出评定结果。
综上,与原始的集成学习stacking方法不同,本方案中基模型在分散学习环节生成,同时两个环节的训练数据也做了分割处理,因此两者的训练过程具有良好的隔离性和独立性,降低过拟合的可能性。
最终,分散学习生成的基模型和集成学习生成的元模型一起构成了本方案的最终模型形态,前者为待预测数据输入端,后者则为最终结果输出端。
有上述内容可知,本申请至少还可以实现如下技术效果:
发明中将Auto ML与人工经验结合,二者在学习过程中共同进行决策,充分利用机器的执行效率和人工经验的先验知识指导作用,提升学习效果。
发明中机器学习各环节引入人工辅助操作,使得Auto ML无法自动完成的过程,可以借助人工解决,整个学习流程更加完整可靠。
发明中分散学习过程设计,可以充分集成各种异质算法模型的特性,形成更具泛化性的整合输出,提升整体学习效果。
从硬件层面来说,为了能够将Auto ML与人工经验结合,二者在学习过程中共同进行决策,充分利用机器的执行效率和人工经验的先验知识指导作用,提升学习效果,本申请提供一种用于实现所述融合人工经验和集成学习策略的机器学习方法中的全部或部分内容的电子设备的实施例,所述电子设备具体包含有如下内容:
处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现融合人工经验和集成学***板电脑及移动终端等,本实施例不限于此。在本实施例中,该逻辑控制器可以参照实施例中的融合人工经验和集成学习策略的机器学习方法的实施例,以及融合人工经验和集成学习策略的机器学习装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
可以理解的是,所述用户终端可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。
在实际应用中,融合人工经验和集成学习策略的机器学习方法的部分可以在如上述内容所述的电子设备侧执行,也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器。
上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
图6为本申请实施例的电子设备9600的***构成的示意框图。如图6所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图6是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
一实施例中,融合人工经验和集成学习策略的机器学习方法功能可以被集成到中央处理器9100中。其中,中央处理器9100可以被配置为进行如下控制:
步骤S101:根据预设训练数据和多个预设异质算法,生成多个独立的基模型;
步骤S102:根据多个所述基模型得到对应的集成训练集和集成测试集;
步骤S103:根据所述集成训练集采用交叉验证方法和超参数优化方法进行元模型训练,并根据所述集成测试集对所述元模型训练的结果进行效果评定,得到符合所述效果评定的合格条件的元模型。
从上述描述可知,本申请实施例提供的电子设备,通过将Auto ML与人工经验结合,二者在学习过程中共同进行决策,充分利用机器的执行效率和人工经验的先验知识指导作用,提升学习效果。
在另一个实施方式中,融合人工经验和集成学习策略的机器学习装置可以与中央处理器9100分开配置,例如可以将融合人工经验和集成学习策略的机器学习装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现融合人工经验和集成学习策略的机器学习方法功能。
如图6所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图6中所示的所有部件;此外,电子设备9600还可以包括图6中没有示出的部件,可以参考现有技术。
如图6所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本申请的实施例还提供能够实现上述实施例中的执行主体为服务器或客户端的融合人工经验和集成学习策略的机器学习方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的融合人工经验和集成学习策略的机器学习方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤S101:根据预设训练数据和多个预设异质算法,生成多个独立的基模型;
步骤S102:根据多个所述基模型得到对应的集成训练集和集成测试集;
步骤S103:根据所述集成训练集采用交叉验证方法和超参数优化方法进行元模型训练,并根据所述集成测试集对所述元模型训练的结果进行效果评定,得到符合所述效果评定的合格条件的元模型。
从上述描述可知,本申请实施例提供的计算机可读存储介质,通过将Auto ML与人工经验结合,二者在学习过程中共同进行决策,充分利用机器的执行效率和人工经验的先验知识指导作用,提升学习效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种融合人工经验和集成学习策略的机器学习方法,其特征在于,所述方法包括:
根据预设训练数据和多个预设异质算法,生成多个独立的基模型;
根据多个所述基模型得到对应的集成训练集和集成测试集;
根据所述集成训练集采用交叉验证方法和超参数优化方法进行元模型训练,并根据所述集成测试集对所述元模型训练的结果进行效果评定,得到符合所述效果评定的合格条件的元模型。
2.根据权利要求1所述的融合人工经验和集成学习策略的机器学习方法,其特征在于,在所述根据预设训练数据和多个预设异质算法,生成多个独立的基模型之前,包括:
对原始训练数据进行数据和特征层面的分析处理过程进行封装,得到多个特征工程组件,所述特征工程组件包括数据概况分析组件、缺失值处理组件、格式转换组件、字典转换组件、特征编码组件、特征缩放组件、问题推测组件、数据碰撞组件、数据挖掘组件、数据预测组件中的至少一种。
3.根据权利要求1所述的融合人工经验和集成学习策略的机器学习方法,其特征在于,所述根据预设训练数据和多个预设异质算法,生成多个独立的基模型,还包括:
采用k折交叉验证训练方式,将训练数据进行划分,生成训练集和验证集;
依次选取已确定的多个预设异质算法,一一对其进行搜索优化或贝叶斯优化。
4.根据权利要求1所述的融合人工经验和集成学习策略的机器学习方法,其特征在于,所述根据多个所述基模型得到对应的集成训练集和集成测试集,包括:
A.使用基模型1对训练集N进行预测,结果为一个1维n行的矩阵,记为N1;
B.使用基模型1对测试集M进行预测,结果为一个1维m行的矩阵,记为M1;
C.更换基模型,重复A、B步骤,直到K个模型均执行完毕,得到N1、N2、N3…NK和M1、M2、M3…MK;
D.将N1、N2、N3…NK合并为一个K维n行的矩阵,记为N*;
E.将M1、M2、M3…MK合并为一个K维m行的矩阵,记为M*;
F.步骤中生成的N*和M*即为元模型训练使用的集成训练集和集成测试集。
5.一种融合人工经验和集成学习策略的机器学习装置,其特征在于,包括:
基模型确定模块,用于根据预设训练数据和多个预设异质算法,生成多个独立的基模型;
集成训练集和集成测试集确定模块,用于根据多个所述基模型得到对应的集成训练集和集成测试集;
元模型确定模块,用于根据所述集成训练集采用交叉验证方法和超参数优化方法进行元模型训练,并根据所述集成测试集对所述元模型训练的结果进行效果评定,得到符合所述效果评定的合格条件的元模型。
6.根据权利要求5所述的融合人工经验和集成学习策略的机器学习装置,其特征在于,还包括:
特征工程组件确定单元,用于对原始训练数据进行数据和特征层面的分析处理过程进行封装,得到多个特征工程组件,所述特征工程组件包括数据概况分析组件、缺失值处理组件、格式转换组件、字典转换组件、特征编码组件、特征缩放组件、问题推测组件、数据碰撞组件、数据挖掘组件、数据预测组件中的至少一种。
7.根据权利要求5所述的融合人工经验和集成学习策略的机器学习装置,其特征在于,所述基模型确定模块包括:
交叉验证单元,用于采用k折交叉验证训练方式,将训练数据进行划分,生成训练集和验证集;
超参数优化单元,用于依次选取已确定的多个预设异质算法,一一对其进行搜索优化或贝叶斯优化。
8.根据权利要求5所述的融合人工经验和集成学习策略的机器学习装置,其特征在于,所述集成训练集和集成测试集确定模块用于执行以下步骤:
A.使用基模型1对训练集N进行预测,结果为一个1维n行的矩阵,记为N1;
B.使用基模型1对测试集M进行预测,结果为一个1维m行的矩阵,记为M1;
C.更换基模型,重复A、B步骤,直到K个模型均执行完毕,得到N1、N2、N3…NK和M1、M2、M3…MK;
D.将N1、N2、N3…NK合并为一个K维n行的矩阵,记为N*;
E.将M1、M2、M3…MK合并为一个K维m行的矩阵,记为M*;
F.步骤中生成的N*和M*即为元模型训练使用的集成训练集和集成测试集。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至4任一项所述的融合人工经验和集成学习策略的机器学习方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4任一项所述的融合人工经验和集成学习策略的机器学习方法的步骤。
CN202011534460.4A 2020-12-23 2020-12-23 融合人工经验和集成学习策略的机器学习方法及装置 Pending CN112598134A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011534460.4A CN112598134A (zh) 2020-12-23 2020-12-23 融合人工经验和集成学习策略的机器学习方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011534460.4A CN112598134A (zh) 2020-12-23 2020-12-23 融合人工经验和集成学习策略的机器学习方法及装置

Publications (1)

Publication Number Publication Date
CN112598134A true CN112598134A (zh) 2021-04-02

Family

ID=75200208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011534460.4A Pending CN112598134A (zh) 2020-12-23 2020-12-23 融合人工经验和集成学习策略的机器学习方法及装置

Country Status (1)

Country Link
CN (1) CN112598134A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112995202A (zh) * 2021-04-08 2021-06-18 昆明理工大学 一种基于SDN的DDoS攻击检测方法
CN114169440A (zh) * 2021-12-08 2022-03-11 北京百度网讯科技有限公司 模型训练方法、数据处理方法、装置、电子设备及介质
CN114611706A (zh) * 2022-02-21 2022-06-10 河南大学 基于Stacking多模型融合设计的空气污染物缺失值补充方法
WO2023045636A1 (zh) * 2021-09-23 2023-03-30 腾讯科技(深圳)有限公司 基于流水线的机器学习方法、装置、电子设备、计算机可读存储介质及计算机程序产品

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112995202A (zh) * 2021-04-08 2021-06-18 昆明理工大学 一种基于SDN的DDoS攻击检测方法
WO2023045636A1 (zh) * 2021-09-23 2023-03-30 腾讯科技(深圳)有限公司 基于流水线的机器学习方法、装置、电子设备、计算机可读存储介质及计算机程序产品
CN114169440A (zh) * 2021-12-08 2022-03-11 北京百度网讯科技有限公司 模型训练方法、数据处理方法、装置、电子设备及介质
CN114611706A (zh) * 2022-02-21 2022-06-10 河南大学 基于Stacking多模型融合设计的空气污染物缺失值补充方法

Similar Documents

Publication Publication Date Title
CN112598134A (zh) 融合人工经验和集成学习策略的机器学习方法及装置
CN107908803B (zh) 问答交互的响应方法及装置、存储介质、终端
Nagy et al. Predicting dropout in higher education based on secondary school performance
WO2021128679A1 (zh) 基于数据决策的测试数据生成方法、装置、计算机设备
CN115587175B (zh) 人机对话及预训练语言模型训练方法、***及电子设备
CN111611488B (zh) 基于人工智能的信息推荐方法、装置、电子设备
CN113361680A (zh) 一种神经网络架构搜索方法、装置、设备及介质
CN111815432B (zh) 金融服务风险预测方法及装置
CN112000772A (zh) 面向智能问答基于语义特征立方体的句子对语义匹配方法
CN111582341B (zh) 用户异常操作预测方法及装置
CN115455171B (zh) 文本视频的互检索以及模型训练方法、装置、设备及介质
KR102117287B1 (ko) 대화 시스템을 위한 대화 시나리오 데이터베이스 구축 방법 및 장치
AU2013216600A1 (en) Learning management
CN111931848B (zh) 数据的特征提取方法、装置、计算机设备及存储介质
KR20190046062A (ko) 대화 시스템을 위한 대화 시나리오 데이터베이스 구축 방법 및 장치
CN111524043A (zh) 诉讼风险评估问卷自动生成的方法和装置
CN113191880A (zh) 银行柜员终端加钞建议确定方法及装置
CN114579869B (zh) 模型训练方法以及相关产品
KR20200143039A (ko) 대화 시나리오 데이터베이스 구축 방법 및 장치
KR20230104788A (ko) 기 학습된 객체 분류 모델 기반 데이터 분류 및 저장방법, 장치 및 컴퓨터프로그램
CN114385876A (zh) 一种模型搜索空间生成方法、装置及***
CN112329924A (zh) 一种提升神经网络预测性能的方法
CN117763128B (zh) 人机交互的数据处理方法、服务器、存储介质和程序产品
CN115796405B (zh) 针对优化模型的求解报告生成方法及计算设备
US20230362681A1 (en) Method and electronic device for building digital twin based on data of base station in commercial networ

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination