CN108009643A - 一种机器学习算法自动选择方法和*** - Google Patents

一种机器学习算法自动选择方法和*** Download PDF

Info

Publication number
CN108009643A
CN108009643A CN201711354616.9A CN201711354616A CN108009643A CN 108009643 A CN108009643 A CN 108009643A CN 201711354616 A CN201711354616 A CN 201711354616A CN 108009643 A CN108009643 A CN 108009643A
Authority
CN
China
Prior art keywords
algorithm
training
data
resource consumption
consumption value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711354616.9A
Other languages
English (en)
Other versions
CN108009643B (zh
Inventor
***
龙明盛
付博
黄向东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201711354616.9A priority Critical patent/CN108009643B/zh
Publication of CN108009643A publication Critical patent/CN108009643A/zh
Application granted granted Critical
Publication of CN108009643B publication Critical patent/CN108009643B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种机器学习算法自动选择方法和***,选择方法包括:确定待选算法集合;基于多个历史参数以及多个预设系数,确定待选算法集合中的每一待选算法的训练测试次序;按照训练测试次序,基于确定的训练集,依次对待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的多个综合评分参数;基于多个综合评分参数以及多个预设系数,获取每一待选算法的综合评分;将综合评分最高的一个或多个待选算法作为机器学习算法选择结果。本发明提供的一种机器学习算法自动选择方法和***,具有很强的学习分析能力,实现极其简单,能够得到效果很好的结果。

Description

一种机器学习算法自动选择方法和***
技术领域
本发明涉及计算机数据处理领域,更具体地,涉及一种机器学习算法自动选择方法和***。
背景技术
机器学习最近在许多应用领域取得了长足的进步,这促成了在各领域中全面普及机器学习方法的需求。相应地,越来越多的商业企业正在满足这一需求(例如,BigML.com,Wise.io,SkyTree.com,RapidMiner.com,Dato.com,Prediction.io,DataRobot.com,微软的Azure机器学习和亚马逊机器学习)。机器学习的核心是每一个有效的机器学习服务都需要解决决定在给定数据集上使用哪种机器学习算法,是否并且如何对其特征进行预处理以及如何设置所有超参数。
选择一个具体的算法往往需要专家经验,从不同的方面考虑权衡,有很多因素会影响具体算法的选择,包括有如下因素:(1)数据的大小、质量及性质;(2)可用计算时间与计算空间;(3)任务的急迫性;(4)数据的使用用途。
另外机器学习经过很长时间的发展,算法的数量也越来越来越多,每个算法都有各自的特点和优劣,所以对于很多的机器学习算法初学者来说,如何快速的选择一个合适的机器学习算法成为了一个有待解决的问题。
发明内容
本发明提供一种克服上述问题的一种机器学习算法自动选择方法和***。
根据本发明的一个方面,提供一种机器学习算法自动选择方法,包括:基于算法选择知识库,通过决策树选择法,确定待选算法集合;基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序;按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的与所述多个历史参数对应的多个综合评分参数;基于所述多个综合评分参数以及所述多个预设系数,获取所述待选算法集合中每一待选算法的综合评分;将综合评分最高的一个或多个待选算法作为机器学习算法选择结果。
优选地,所述基于算法选择知识库,通过决策树选择法,确定待选算法集合之前还包括:确定所述待选算法的所处最大类别,所述所处最大类别包括:监督学习类、半监督学习类和无监督学习类;相应地,所述基于算法选择知识库,通过决策树选择法,确定待选算法集合进一步包括:基于算法选择知识库中的决策树,通过确定的所述待选算法的所处最大类别,逐层选取所述待选算法,逐层选取的一个或多个所述待选算法作为所述待选算法集合。
优选地,所述基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序进一步包括:基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,通过下式获取任一待选算法的历史评分:
F′=aI′+bO′+cS′+dT′+eA′;
其中,F′为任一待选算法的历史评分,a为预设的数据输入资源消耗值系数,I′为历史数据输入资源消耗值,b为预设的数据输出资源消耗值系数,O′为历史数据输出资源消耗值,c为预设的训练预测内存系数,S′为历史训练预测内存,d为预设的训练预测时间系数,T′为历史训练预测时间,e为预设的预测准确度系数,A′为历史预测准确度;将所有的待选算法的历史评分按照分数由高至低排列,将排列好的待选算法的次序作为待选算法的训练测试次序。
优选地,所述按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的与所述多个历史参数对应的多个综合评分参数进一步包括:所述按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,并获取每一待选算法的训练数据输入资源消耗值、训练数据输出资源消耗值、训练时间和训练内存;基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的预测数据输入资源消耗值、预测数据输出资源消耗值、预测时间、预测内存和预测准确度;对所述训练数据输入资源消耗值和所述预测数据输入资源消耗值加权求和,获取数据输入资源消耗值;对所述训练数据输出资源消耗值和所述预测数据输出资源消耗值加权求和,获取数据输出资源消耗值;对所述训练时间和所述预测时间加权求和,获取训练预测时间;对所述训练内存和所述预测内存加权求和,获取训练预测内存;将所述数据输入资源消耗值、所述数据输出资源消耗值、所述训练预测时间、所述训练预测内存和所述预测准确度作为所述多个综合评分参数。
优选地,所述基于所述多个综合评分参数以及所述多个预设系数,通过下式获取所述待选算法集合中每一待选算法的综合评分:
F=aI+bO+cS+dT+eA;
其中,F为任一待选算法的综合评分,a为预设的数据输入资源消耗值系数,I为数据输入资源消耗值,b为预设的数据输出资源消耗值系数,O为数据输出资源消耗值,c为预设的训练预测内存系数,S为训练预测内存,d为预设的训练预测时间系数,T为训练预测时间,e为预设的预测准确度系数,A为预测准确度。
优选地,所述基于算法选择知识库,通过决策树选择法,确定待选算法集合,和所述基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序之间还包括:对确定的数据集中的每一数据进行特征提取和特征选择,获取每一数据的特征;基于每一数据的特征和所有算法的类别,将所述确定的数据集中的数据划分为所述确定的训练集和所述确定的测试集,其中,所述所有算法来自于所述算法选择知识库。
优选地,所述对确定的数据集中的每一数据进行特征提取和特征选择,获取每一数据的特征之后还包括:基于每一数据的特征,获取不适宜算法,并将所述不适宜算法从所述待选算法集合中删除。
优选地,所述基于算法选择知识库,通过决策树选择法,确定待选算法集合之前还包括:通过贝叶斯优化和元学习方法,辅助所述机器学习算法热启动。
优选地,所述预测准确度为查准率、查全率、AUC值等指标中的任一种。
根据本发明的另一个方面,提供一种机器学习算法自动选择***,包括:确定待选算法集合模块,用于基于算法选择知识库,通过决策树选择法,确定待选算法集合;确定优先级模块,用于基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序;训练测试模块,用于按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的与所述多个历史参数对应的多个综合评分参数;获取综合评分模块,用于基于所述多个综合评分参数以及所述多个预设系数,获取所述待选算法集合中每一待选算法的综合评分;获取选择结果模块,用于将综合评分最高的一个或多个待选算法作为机器学习算法选择结果。
本发明提供的一种机器学习算法自动选择方法和***,通过设置对决策树选择出的集合中的待选算法进行训练和预测,并获取综合评分最终确定选择结果,能够具有很强的学习分析能力,实现极其简单,能够得到效果很好的结果。由于使用算法选择知识库中的决策树,能够快速选取待选算法集合。
附图说明
图1为本发明实施例中的一种机器学习算法自动选择方法的流程图;
图2为本发明实施例中的一种决策树示例图;
图3为本发明实施例中的一种机器学习算法自动选择方法的流程框图;
图4为本发明实施例中的一种机器学习算法自动选择***的模块图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1为本发明实施例中的一种机器学习算法自动选择方法的流程图,如图1所示,包括:基于算法选择知识库,通过决策树选择法,确定待选算法集合;基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序;按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的与所述多个历史参数对应的多个综合评分参数;基于所述多个综合评分参数以及所述多个预设系数,获取所述待选算法集合中每一待选算法的综合评分;将综合评分最高的一个或多个待选算法作为机器学习算法选择结果。
具体地,算法选择知识库中包括多种算法。图2为本发明实施例中的一种决策树示例图,基于图2所示的决策树,确定待选算法集合。算法选择知识库中各类算法包含分层次的具体算法,决策树的选择层次也与其对应。需要说明的是,本发明实施例中的算法均为机器学习算法。进一步地,对于确定待选算法集合,确定的待选算法集合中的算法大致的目标和方法相同,但是在训练速度、精确度上各有优劣,这些算法都可以作为候选算法,表1是部分节点包含算法的说明。
例如一个预测西瓜好坏的任务,即可根据条件“有标签”、“预测类别”、“两个种类”确定属于“二元分类”节点,选取二元分类节点下包含的算法作为候选算法。对于部分已经使用了元学习来辅助选择算法的项目,候选的算法集合需要包含的算法。
表1部分节点包含算法说明表
本发明提供的一种机器学习算法自动选择方法,通过设置对决策树选择出的集合中的待选算法进行训练和预测,并获取综合评分最终确定选择结果,能够具有很强的学习分析能力,实现极其简单,能够得到效果很好的结果。由于使用算法选择知识库中的决策树,能够快速选取待选算法集合。
基于上述实施例,所述基于算法选择知识库,通过决策树选择法,确定待选算法集合之前还包括:确定所述待选算法的所处最大类别,所述所处最大类别包括:监督学习类、半监督学习类和无监督学习类;相应地,所述基于算法选择知识库,通过决策树选择法,确定待选算法集合进一步包括:基于算法选择知识库中的决策树,通过确定的所述待选算法的所处最大类别,逐层选取所述待选算法,逐层选取的一个或多个所述待选算法作为所述待选算法集合。
具体地,下面对监督学习类算法做出进一步地说明,监督学习类算法基于一组样本对作出预测。例如,以往销售业绩可以用来预测未来的价格走势。借助监督学习,会有一组由标注训练数据组成的输入变量和一组希望预测的输出变量。可以使用算法分析训练数据来学习一个将输入映射到输出的函数。算法推断的函数可通过概括训练数据预测未知情景中的结果进而预测未知的新实例。
分类:当数据被用于预测类别时,监督学习也可处理这类分类任务。给一张图片贴上猫或狗的标签就是这种情况。当分类标签只有两个时,这就是二元分类;超过两个则是多元分类。
回归:当预测为连续数值型时,这就是一个回归问题。这是一个基于过去和现在的数据预测未来的过程,其最大应用是趋势分析。一个典型实例是根据今年和前年的销售业绩以预测下一年的销售业绩。
异常检测:有时,目标是识别仅仅不寻常的数据点。例如,在欺诈行为检测中,任何极不寻常的***消费模式都是可疑的。欺诈行为可能的变体很多,但定型示例却很少,因此无法了解欺骗性活动的外表形式。异常情况检测采用的方法就是仅了解正常活动的形式(使用非欺诈***易历史记录),并确定任何有很大不同的活动。
进一步地,下面对半监督学习类算法做出进一步地说明,监督学习的主要挑战是标注数据价格昂贵且非常耗时。如果标签有限,可以使用非标注数据来提高监督学习。由于在这一情况中机器并非完全有监督,所以称之为半监督。通过半监督学习,可以使用只包含少量标注数据的非标注实例提升学习精确度。
进一步地,下面对无监督学习类算法做出进一步地说明,在无监督学习之中,机器完全采用非标注数据,其被要求发现隐藏在数据之下的内在模式,比如聚类结构、低维流形或者稀疏树和图。
聚类:把一组数据实例归为一类,从而一个类(一个集群)之中的实例与其他该类之中的实例更相似(根据一些指标),其经常被用于把整个数据集分割为若干个类。这种分析可在每一分类之中进行,从而帮助用户。
降维:减少考虑的变量数量。在很多应用中,原始数据有非常高的特征维度,并且一些特征是多余的且与任务不相关。降维将有助于发现真实、潜在的关系。
基于上述实施例,所述基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序进一步包括:基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,通过下式获取任一待选算法的历史评分:
F′=aI′+bO′+cS′+dT′+eA′;
其中,F′为任一待选算法的历史评分,a为预设的数据输入资源消耗值系数,I′为历史数据输入资源消耗值,b为预设的数据输出资源消耗值系数,O′为历史数据输出资源消耗值,c为预设的训练预测内存系数,S′为历史训练预测内存,d为预设的训练预测时间系数,T′为历史训练预测时间,e为预设的预测准确度系数,A′为历史预测准确度;将所有的待选算法的历史评分按照分数由高至低排列,将排列好的待选算法的次序作为待选算法的训练测试次序。
具体地,每一系数可取0。
本发明提供的一种机器学习算法自动选择方法,通过设置预设系数,且提出了五种不同的维度,能够更有利于获取最优最合适的算法。
基于上述实施例,所述按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的与所述多个历史参数对应的多个综合评分参数进一步包括:所述按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,并获取每一待选算法的训练数据输入资源消耗值、训练数据输出资源消耗值、训练时间和训练内存;基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的预测数据输入资源消耗值、预测数据输出资源消耗值、预测时间、预测内存和预测准确度;对所述训练数据输入资源消耗值和所述预测数据输入资源消耗值加权求和,获取数据输入资源消耗值;对所述训练数据输出资源消耗值和所述预测数据输出资源消耗值加权求和,获取数据输出资源消耗值;对所述训练时间和所述预测时间加权求和,获取训练预测时间;对所述训练内存和所述预测内存加权求和,获取训练预测内存;将所述数据输入资源消耗值、所述数据输出资源消耗值、所述训练预测时间、所述训练预测内存和所述预测准确度作为所述多个综合评分参数。
基于上述实施例,所述基于所述多个综合评分参数以及所述多个预设系数,通过下式获取所述待选算法集合中每一待选算法的综合评分:
F=aI+bO+cS+dT+eA;
其中,F为任一待选算法的综合评分,a为预设的数据输入资源消耗值系数,I为数据输入资源消耗值,b为预设的数据输出资源消耗值系数,O为数据输出资源消耗值,c为预设的训练预测内存系数,S为训练预测内存,d为预设的训练预测时间系数,T为训练预测时间,e为预设的预测准确度系数,A为预测准确度。
具体地,训练数据输入资源消耗值、训练数据输出资源消耗值、训练时间和训练内存对应的训练资源消耗参数不是具体参数的绝对值,而是选取一个标准做参考,给出其相对值,以方便下面的计算。算法训练中需要的超参数可预设也可以使用另外的超参数优化工具,最后的第一资源消耗参数值为最优超参数情况下的;相似地,预测数据输入资源消耗值、预测数据输出资源消耗值、预测时间、预测内存和预测准确度对应的预测资源消耗参数亦是如此。
基于上述实施例,所述基于算法选择知识库,通过决策树选择法,确定待选算法集合,和所述基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序之间还包括:对确定的数据集中的每一数据进行特征提取和特征选择,获取每一数据的特征;基于每一数据的特征和所有算法的类别,将所述确定的数据集中的数据划分为所述确定的训练集和所述确定的测试集,其中,所述所有算法来自于所述算法选择知识库。
具体地,特征提取和特征选择都是从原始特征中找出最有效(同类样本的不变性、不同样本的鉴别性、对噪声的鲁棒性)的特征。
进一步地,特征提取:将原始特征转换为一组具有明显物理意义(Gabor、几何特征[角点、不变量]、纹理[LBP HOG])或者统计意义或核的特征。
特征选择:从特征集合中挑选一组最具统计意义的特征。
特征提取和特征选择二者都可以减少数据存储和输入数据带宽、减少冗余、能发现更有意义的潜在的变量,帮助对数据产生更深入的了解。
例如对图像来说,SIFT(Scale-invariant feature transform)是一种检测局部特征的方法,它在空间尺度中对一幅图寻找极值点,并提取出其位置、尺度、旋转不变量等描述子,得到特征并进行图像特征点匹配,可用来侦测与描述影像中的局部性特征。它是基于物体上的一些局部特征,其对旋转、尺度缩放、亮度变化保持不变性,对视角变化、仿射变换、噪声也保持一定程度的稳定性。
然后按照算法的类型和数据特征将数据划分为训练集S和测试集T。此步骤可以使用多种方法,如留出法、交叉验证法、自助法。
表2是常见聚类算法对应的常见数据集特征。
表2聚类算法对应特征举例说明表
例如某项目的数据无法转化为N维欧氏空间中的向量,只能提供数据之间的相似度矩阵,此时便需要剔除K-means等算法,优先选择谱聚类(Spectral clustering)等算法。
基于上述实施例,所述对确定的数据集中的每一数据进行特征提取和特征选择,获取每一数据的特征之后还包括:基于每一数据的特征,获取不适宜算法,并将所述不适宜算法从所述待选算法集合中删除。
基于上述实施例,基于每一数据的特征和所有算法的类别,通过留出法、交叉验证法和自助法中的任一种,将所述确定的数据集中的数据划分为所述确定的训练集和所述确定的测试集,其中,所述所有算法来自于所述算法选择知识库。
基于上述实施例,所述基于算法选择知识库,通过决策树选择法,确定待选算法集合之前还包括:通过贝叶斯优化和元学习方法,辅助所述机器学习算法热启动。
领域专家从以前的任务中获取知识:他们学习机器学习算法的性能特点,元学习通过推理跨数据集的学习算法的性能来模拟这种策略。在这项工作中,应用元学习来选择算法,这些算法可能在新数据集上表现良好。更具体地说,对于大量数据集,收集性能数据和一组元数据特征,即可以有效计算的数据集的特征,并有助于确定在新数据集上使用哪种算法。
这种元学习方法与贝叶斯优化相辅相成,可以优化机器学习框架。元学习可以很快地提出机器学习框架的一些算法实例,这些实例可能表现得相当好,但是不能提供关于性能的细粒度信息。
基于上述实施例,所述预测准确率为查准率、查全率、AUC值等指标中的任一种。
作为一个优选实施例,图3为本发明实施例中的一种机器学习算法自动选择方法的流程框图。本实施例请参见图3。
首先,确定所述待选算法的所处最大类别,所述所处最大类别包括:监督学习类、半监督学习类和无监督学习类。
进一步地,通过贝叶斯优化和元学习方法,辅助所述机器学习算法热启动。
进一步地,基于算法选择知识库,通过决策树选择法,确定待选算法集合。
进一步地,对确定的数据集中的每一数据进行特征提取和特征选择,获取每一数据的特征;基于每一数据的特征和所有算法的类别,将所述确定的数据集中的数据划分为所述确定的训练集和所述确定的测试集,其中,所述所有算法来自于所述算法选择知识库。
进一步地,基于每一数据的特征,获取不适宜算法,并将所述不适宜算法从所述待选算法集合中删除。
进一步地,基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序。
进一步地,按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的与所述多个历史参数对应的多个综合评分参数。
进一步地,基于所述多个综合评分参数以及所述多个预设系数,获取所述待选算法集合中每一待选算法的综合评分。
最后,将综合评分最高的一个或多个待选算法作为机器学习算法选择结果。
基于上述实施例,图4为本发明实施例中的一种机器学习算法自动选择***的模块图,如图4所示,包括:确定待选算法集合模块,基于算法选择知识库,通过决策树选择法,确定待选算法集合;确定优先级模块,用于基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序;训练测试模块,用于按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的与所述多个历史参数对应的多个综合评分参数;获取综合评分模块,用于基于所述多个综合评分参数以及所述多个预设系数,获取所述待选算法集合中每一待选算法的综合评分;获取选择结果模块,用于将综合评分最高的一个或多个待选算法作为机器学习算法选择结果。
本发明提供的一种机器学习算法自动选择方法和***,通过设置对决策树选择出的集合中的待选算法进行训练和预测,并获取综合评分最终确定选择结果,能够具有很强的学习分析能力,实现极其简单,能够得到效果很好的结果。由于使用算法选择知识库中的决策树,能够快速选取待选算法集合。通过设置预设系数,且提出了五种不同的维度,能够更有利于获取最优最合适的算法。在使用本发明提供的算法选择知识库与工具进行机器学习算法选择时,选择的算法基本上和专家选取的算法一致或较为相似,实验结果有力地证明了本发明提供的选择方法的有效性。本发明提供的选择方法有很强的适应性,能够适应于多种机器学习框架与***。本发明提供的选择方法能够有效地达到自动选择合适机器学习算法的目的,方法直观有效、便于使用。
最后,本发明的方法仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种机器学习算法选择方法,其特征在于,包括:
基于算法选择知识库,通过决策树选择法,确定待选算法集合;
基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序;
按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的与所述多个历史参数对应的多个综合评分参数;
基于所述多个综合评分参数以及所述多个预设系数,获取所述待选算法集合中每一待选算法的综合评分;
将综合评分最高的一个或多个待选算法作为机器学习算法选择结果。
2.根据权利要求1所述的选择方法,其特征在于,所述基于算法选择知识库,通过决策树选择法,确定待选算法集合之前还包括:
确定所述待选算法的所处最大类别,所述所处最大类别包括:监督学习类、半监督学习类和无监督学习类;
相应地,所述基于算法选择知识库,通过决策树选择法,确定待选算法集合进一步包括:
基于算法选择知识库中的决策树,通过确定的所述待选算法的所处最大类别,逐层选取所述待选算法,逐层选取的一个或多个所述待选算法作为所述待选算法集合。
3.根据权利要求1所述的选择方法,其特征在于,所述基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序进一步包括:
基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,通过下式获取任一待选算法的历史评分:
F′=aI′+bO′+cS′+dT′+eA′;
其中,F′为任一待选算法的历史评分,a为预设的数据输入资源消耗值系数,I′为历史数据输入资源消耗值,b为预设的数据输出资源消耗值系数,O′为历史数据输出资源消耗值,c为预设的训练预测内存系数,S′为历史训练预测内存,d为预设的训练预测时间系数,T′为历史训练预测时间,e为预设的预测准确度系数,A′为历史预测准确度;
将所有的待选算法的历史评分按照分数由高至低排列,将排列好的待选算法的次序作为待选算法的训练测试次序。
4.根据权利要求3所述的选择方法,其特征在于,所述按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的与所述多个历史参数对应的多个综合评分参数进一步包括:
所述按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,并获取每一待选算法的训练数据输入资源消耗值、训练数据输出资源消耗值、训练时间和训练内存;
基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的预测数据输入资源消耗值、预测数据输出资源消耗值、预测时间、预测内存和预测准确度;
对所述训练数据输入资源消耗值和所述预测数据输入资源消耗值加权求和,获取数据输入资源消耗值;
对所述训练数据输出资源消耗值和所述预测数据输出资源消耗值加权求和,获取数据输出资源消耗值;
对所述训练时间和所述预测时间加权求和,获取训练预测时间;
对所述训练内存和所述预测内存加权求和,获取训练预测内存;
将所述数据输入资源消耗值、所述数据输出资源消耗值、所述训练预测时间、所述训练预测内存和所述预测准确度作为所述多个综合评分参数。
5.根据权利要求4所述的选择方法,其特征在于,所述基于所述多个综合评分参数以及所述多个预设系数,通过下式获取所述待选算法集合中每一待选算法的综合评分:
F=aI+bO+cS+dT+eA;
其中,F为任一待选算法的综合评分,a为预设的数据输入资源消耗值系数,I为数据输入资源消耗值,b为预设的数据输出资源消耗值系数,O为数据输出资源消耗值,c为预设的训练预测内存系数,S为训练预测内存,d为预设的训练预测时间系数,T为训练预测时间,e为预设的预测准确度系数,A为预测准确度。
6.根据权利要求1所述的选择方法,其特征在于,所述基于算法选择知识库,通过决策树选择法,确定待选算法集合,和所述基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序之间还包括:
对确定的数据集中的每一数据进行特征提取和特征选择,获取每一数据的特征;
基于每一数据的特征和所有算法的类别,将所述确定的数据集中的数据划分为所述确定的训练集和所述确定的测试集,其中,所述所有算法来自于所述算法选择知识库。
7.根据权利要求6所述的选择方法,其特征在于,所述对确定的数据集中的每一数据进行特征提取和特征选择,获取每一数据的特征之后还包括:
基于每一数据的特征,获取不适宜算法,并将所述不适宜算法从所述待选算法集合中删除。
8.根据权利要求1所述的选择方法,其特征在于,所述基于算法选择知识库,通过决策树选择法,确定待选算法集合之前还包括:
通过贝叶斯优化和元学习方法,辅助所述机器学习算法热启动。
9.根据权利要求5所述的选择方法,其特征在于,所述预测准确度为查准率、查全率、AUC值中的任一种。
10.一种机器学习算法选择***,其特征在于,包括:
确定待选算法集合模块,用于基于算法选择知识库,通过决策树选择法,确定待选算法集合;
确定优先级模块,用于基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序;
训练测试模块,用于按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的与所述多个历史参数对应的多个综合评分参数;
获取综合评分模块,用于基于所述多个综合评分参数以及所述多个预设系数,获取所述待选算法集合中每一待选算法的综合评分;
获取选择结果模块,用于将综合评分最高的一个或多个待选算法作为机器学习算法选择结果。
CN201711354616.9A 2017-12-15 2017-12-15 一种机器学习算法自动选择方法和*** Active CN108009643B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711354616.9A CN108009643B (zh) 2017-12-15 2017-12-15 一种机器学习算法自动选择方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711354616.9A CN108009643B (zh) 2017-12-15 2017-12-15 一种机器学习算法自动选择方法和***

Publications (2)

Publication Number Publication Date
CN108009643A true CN108009643A (zh) 2018-05-08
CN108009643B CN108009643B (zh) 2018-10-30

Family

ID=62059505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711354616.9A Active CN108009643B (zh) 2017-12-15 2017-12-15 一种机器学习算法自动选择方法和***

Country Status (1)

Country Link
CN (1) CN108009643B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376419A (zh) * 2018-10-16 2019-02-22 北京字节跳动网络技术有限公司 一种数据建模的方法、装置、电子设备及可读介质
CN109933834A (zh) * 2018-12-26 2019-06-25 阿里巴巴集团控股有限公司 一种时序数据预测的模型创建方法及装置
CN109992866A (zh) * 2019-03-25 2019-07-09 新奥数能科技有限公司 负荷预测模型的训练方法、装置、可读介质及电子设备
CN110008121A (zh) * 2019-03-19 2019-07-12 合肥中科类脑智能技术有限公司 一种个性化测试***及其测试方法
CN110263982A (zh) * 2019-05-30 2019-09-20 百度在线网络技术(北京)有限公司 广告点击率预估模型的优化方法和装置
CN110298032A (zh) * 2019-05-29 2019-10-01 西南电子技术研究所(中国电子科技集团公司第十研究所) 文本分类语料标注训练***
WO2020011068A1 (zh) * 2018-07-10 2020-01-16 第四范式(北京)技术有限公司 用于执行机器学习过程的方法和***
CN111210023A (zh) * 2020-01-13 2020-05-29 哈尔滨工业大学 数据集分类学习算法自动选择***及方法
TWI712981B (zh) * 2018-12-13 2020-12-11 開曼群島商創新先進技術有限公司 風險辨識模型訓練方法、裝置及伺服器
CN112988384A (zh) * 2021-03-19 2021-06-18 深圳前海黑顿科技有限公司 一种基于场景的算法资源自动化整合调用方法
US20210342998A1 (en) * 2020-05-01 2021-11-04 Samsung Electronics Co., Ltd. Systems and methods for quantitative evaluation of optical map quality and for data augmentation automation
CN113626331A (zh) * 2021-08-12 2021-11-09 曙光信息产业(北京)有限公司 通信算法的选择方法、装置、计算机设备及存储介质
CN114492214A (zh) * 2022-04-18 2022-05-13 支付宝(杭州)信息技术有限公司 利用机器学习的选择算子确定、策略组合优化方法及装置
WO2022218633A1 (en) * 2021-04-13 2022-10-20 British Telecommunications Public Limited Company Algorithm selection for processor-controlled device
CN115658371A (zh) * 2022-12-14 2023-01-31 北京航空航天大学 基于案例学习与可诊断性分析的诊断算法量化推荐方法
US11645572B2 (en) 2020-01-17 2023-05-09 Nec Corporation Meta-automated machine learning with improved multi-armed bandit algorithm for selecting and tuning a machine learning algorithm
US11687795B2 (en) 2019-02-19 2023-06-27 International Business Machines Corporation Machine learning engineering through hybrid knowledge representation
CN116701652A (zh) * 2023-06-13 2023-09-05 上海沄熹科技有限公司 一种基于机器学习的数据库智能运维***及方法
CN116862643A (zh) * 2023-06-25 2023-10-10 福建润楼数字科技有限公司 面向多渠道资金整合型信贷业务的风控特征自动筛选方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101782976A (zh) * 2010-01-15 2010-07-21 南京邮电大学 一种云计算环境下机器学习自动选择方法
CN104182770A (zh) * 2013-05-24 2014-12-03 塔塔咨询服务有限公司 用于一个或多个图像处理算法的自动选择的方法和***
CN104376366A (zh) * 2013-08-14 2015-02-25 华为技术有限公司 一种最优网络最大流算法的选择方法和设备
CN106250986A (zh) * 2015-06-04 2016-12-21 波音公司 用于机器学习的高级分析基础构架
US20170286839A1 (en) * 2016-04-05 2017-10-05 BigML, Inc. Selection of machine learning algorithms

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101782976A (zh) * 2010-01-15 2010-07-21 南京邮电大学 一种云计算环境下机器学习自动选择方法
CN104182770A (zh) * 2013-05-24 2014-12-03 塔塔咨询服务有限公司 用于一个或多个图像处理算法的自动选择的方法和***
CN104376366A (zh) * 2013-08-14 2015-02-25 华为技术有限公司 一种最优网络最大流算法的选择方法和设备
CN106250986A (zh) * 2015-06-04 2016-12-21 波音公司 用于机器学习的高级分析基础构架
US20170286839A1 (en) * 2016-04-05 2017-10-05 BigML, Inc. Selection of machine learning algorithms

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MATTHEW C. SIMPSON ET AL.: "Automatic Algorithm Selection in Computational", 《2016 15TH IEEE INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND APPLICATIONS》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020011068A1 (zh) * 2018-07-10 2020-01-16 第四范式(北京)技术有限公司 用于执行机器学习过程的方法和***
CN109376419A (zh) * 2018-10-16 2019-02-22 北京字节跳动网络技术有限公司 一种数据建模的方法、装置、电子设备及可读介质
CN109376419B (zh) * 2018-10-16 2023-12-22 北京字节跳动网络技术有限公司 一种数据模型的生成方法、装置、电子设备及可读介质
TWI712981B (zh) * 2018-12-13 2020-12-11 開曼群島商創新先進技術有限公司 風險辨識模型訓練方法、裝置及伺服器
CN109933834B (zh) * 2018-12-26 2023-06-27 创新先进技术有限公司 一种时序数据预测的模型创建方法及装置
CN109933834A (zh) * 2018-12-26 2019-06-25 阿里巴巴集团控股有限公司 一种时序数据预测的模型创建方法及装置
US11687795B2 (en) 2019-02-19 2023-06-27 International Business Machines Corporation Machine learning engineering through hybrid knowledge representation
CN110008121A (zh) * 2019-03-19 2019-07-12 合肥中科类脑智能技术有限公司 一种个性化测试***及其测试方法
CN110008121B (zh) * 2019-03-19 2022-07-12 合肥中科类脑智能技术有限公司 一种个性化测试***及其测试方法
CN109992866A (zh) * 2019-03-25 2019-07-09 新奥数能科技有限公司 负荷预测模型的训练方法、装置、可读介质及电子设备
CN109992866B (zh) * 2019-03-25 2022-11-29 新奥数能科技有限公司 负荷预测模型的训练方法、装置、可读介质及电子设备
CN110298032A (zh) * 2019-05-29 2019-10-01 西南电子技术研究所(中国电子科技集团公司第十研究所) 文本分类语料标注训练***
CN110298032B (zh) * 2019-05-29 2022-06-14 西南电子技术研究所(中国电子科技集团公司第十研究所) 文本分类语料标注训练***
CN110263982A (zh) * 2019-05-30 2019-09-20 百度在线网络技术(北京)有限公司 广告点击率预估模型的优化方法和装置
CN111210023B (zh) * 2020-01-13 2023-04-11 哈尔滨工业大学 数据集分类学习算法自动选择***及方法
CN111210023A (zh) * 2020-01-13 2020-05-29 哈尔滨工业大学 数据集分类学习算法自动选择***及方法
US11645572B2 (en) 2020-01-17 2023-05-09 Nec Corporation Meta-automated machine learning with improved multi-armed bandit algorithm for selecting and tuning a machine learning algorithm
US20210342998A1 (en) * 2020-05-01 2021-11-04 Samsung Electronics Co., Ltd. Systems and methods for quantitative evaluation of optical map quality and for data augmentation automation
US11847771B2 (en) * 2020-05-01 2023-12-19 Samsung Electronics Co., Ltd. Systems and methods for quantitative evaluation of optical map quality and for data augmentation automation
CN112988384A (zh) * 2021-03-19 2021-06-18 深圳前海黑顿科技有限公司 一种基于场景的算法资源自动化整合调用方法
WO2022218633A1 (en) * 2021-04-13 2022-10-20 British Telecommunications Public Limited Company Algorithm selection for processor-controlled device
CN113626331A (zh) * 2021-08-12 2021-11-09 曙光信息产业(北京)有限公司 通信算法的选择方法、装置、计算机设备及存储介质
CN114492214A (zh) * 2022-04-18 2022-05-13 支付宝(杭州)信息技术有限公司 利用机器学习的选择算子确定、策略组合优化方法及装置
CN115658371A (zh) * 2022-12-14 2023-01-31 北京航空航天大学 基于案例学习与可诊断性分析的诊断算法量化推荐方法
CN116701652A (zh) * 2023-06-13 2023-09-05 上海沄熹科技有限公司 一种基于机器学习的数据库智能运维***及方法
CN116862643A (zh) * 2023-06-25 2023-10-10 福建润楼数字科技有限公司 面向多渠道资金整合型信贷业务的风控特征自动筛选方法

Also Published As

Publication number Publication date
CN108009643B (zh) 2018-10-30

Similar Documents

Publication Publication Date Title
CN108009643B (zh) 一种机器学习算法自动选择方法和***
Ando et al. Deep over-sampling framework for classifying imbalanced data
Wang et al. Kernelized subspace ranking for saliency detection
Wang et al. Transferring deep object and scene representations for event recognition in still images
WO2017133188A1 (zh) 一种特征集确定的方法及装置
Malik et al. Applied unsupervised learning with R: Uncover hidden relationships and patterns with k-means clustering, hierarchical clustering, and PCA
Bonner et al. Exploring the semantic content of unsupervised graph embeddings: An empirical study
CN110880007A (zh) 一种机器学习算法自动选择方法和***
Garreta et al. Scikit-learn: machine learning simplified: implement scikit-learn into every step of the data science pipeline
Schultheiss et al. Finding the unknown: Novelty detection with extreme value signatures of deep neural activations
Wang et al. Fabric identification using convolutional neural network
CN113486983A (zh) 一种用于反欺诈处理的大数据办公信息分析方法及***
Schuh et al. A comparative evaluation of automated solar filament detection
Fischer et al. REPPlab: An R package for detecting clusters and outliers using exploratory projection pursuit
Sunitha et al. Novel content based medical image retrieval based on BoVW classification method
Lin et al. Deep convolutional neural network for automatic discrimination between Fragaria× Ananassa flowers and other similar white wild flowers in fields
Shen et al. On image classification: Correlation vs causality
CN110163280A (zh) 一种聚类方法及装置
CN116861226A (zh) 一种数据处理的方法以及相关装置
CN115907954A (zh) 账户的识别方法、装置、计算机设备和存储介质
Shubh et al. Handwriting recognition using deep learning
Gallego et al. Multi-label logo classification using convolutional neural networks
Kumar et al. Image classification in python using Keras
Yuan et al. Multiple-instance learning via multiple-point concept based instance selection
Patil et al. Efficient processing of decision tree using ID3 & improved C4. 5 algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant