CN111062485A

CN111062485A - 一种新型automl框架

Info

Publication number: CN111062485A
Application number: CN201911166013.5A
Authority: CN
Inventors: 张玉祺
Original assignee: Shanghai Kedou Electronic Technology Co Ltd
Current assignee: Shanghai Kedou Electronic Technology Co Ltd
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2020-04-24

Abstract

本发明公开了一种新型AUTOML框架，该AUTOML框架由三部分构成：特征工程、模型选择、算法选择；所述特征工程的目的是自动地发掘并构造相关的特征，且其包含部分特定的特征增强方法；所述模型选择包括两个步骤：选择一个模型，设定它的参数；所述算法选择的目的是自动地选择出一个优化算法，以便能够达到效率和精度的平衡。常用算法选择优化方法包括SGD、L‑BFGS、GD；本发明所述的一种新型AUTOML框架，从机器学习角度讲，AutoML可以看作是一个在给定数据和任务上学习和泛化能力非常强大的***；从自动化角度讲，AutoML则可以看作是设计一系列高级的控制***去操作机器学习模型，使得模型可以自动化地学习到合适的参数和配置而无需人工干预。

Description

一种新型AUTOML框架

技术领域

本发明属于人工智能领域，特别涉及一种新型AUTOML框架。

背景技术

简单的说机器学习是实现人工智能的一种手段，而深度学习是在机器学习的发展过程中，发展出来的一个分支，广义上讲它也是机器学习，但是由于其实现机制和原来的机器学习算法有较大的不同，所以发展为一个独立的领域。机器学习和深度学习都是建模的有效工具，只是它们面向的场景有所不同。

所以，AutoML也需要分为两个种类，传统的AutoML和深度AutoML。即传统的AutoML是为了解决传统机器学习的建模问题，它面向的是传统机器学习相关算法，如线性回归、逻辑回归、决策树等等。而深度AutoML更多的是面向深度学习中神经网络的建模。本发明主要研究的就是面向深度学习领域的AutoML。

发明内容

本发明的主要目的在于提供一种新型AUTOML框架，可以有效解决背景技术中的问题。

为实现上述目的，本发明采取的技术方案为：

一种新型AUTOML框架，该AUTOML框架由三部分构成：特征工程、模型选择、算法选择；

所述特征工程的目的是自动地发掘并构造相关的特征，且其包含部分特定的特征增强方法；

所述模型选择包括两个步骤：选择一个模型，设定它的参数；

所述算法选择的目的是自动地选择出一个优化算法，以便能够达到效率和精度的平衡，常用算法选择优化方法包括SGD、L-BFGS、GD。

优选的，所述特定的特征增强方法包括特征选择、特征降维、特征生成、以及特征编码。

优选的，模型选择相应地，AutoML的目的就是自动选择出一个最合适的模型，并且能够设定好它的最优参数。

优选的，将特征工程、模型选择、算法选择步骤整合起来，一个完整的 AutoML过程可以分成这么两类：一类是将以上的特征工程、模型选择、算法选择整合成一个完整的pipeline；另一类则是Network Architecture Search，自动地学习到最优的网络结构。

优选的，该AUTOML框架还具有模型评估，其具有五种评估方式：直接在目标数据上进行评价，这是被使用最多的策略；当数据样本量非常大时，采样一些样本进行评价；当遇到一些极端情况使得网络表现效果不好时，可以考虑进行early stop；将之前学习过的参数重复利用在新任务上，这在两种任务配置差不多时可用；对于一些可量化的配置，可以用共轭评价法进行。

与现有技术相比，本发明具有如下有益效果：本发明所述的一种新型 AUTOML框架，从机器学习角度讲，AutoML可以看作是一个在给定数据和任务上学习和泛化能力非常强大的***；从自动化角度讲，AutoML则可以看作是设计一系列高级的控制***去操作机器学习模型，使得模型可以自动化地学习到合适的参数和配置而无需人工干预。

附图说明

图1为本发明新型AUTOML框架整体结构示意图；

图2为本发明的一个cell由rnn生成的过程示意图；

图3为本发明每个optimizer抽象的表达示意图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

本发明的一种新型AUTOML框架，该AUTOML框架由三部分构成：特征工程、模型选择、算法选择；

特征工程的目的是自动地发掘并构造相关的特征，且其包含部分特定的特征增强方法；

模型选择包括两个步骤：选择一个模型，设定它的参数；

算法选择的目的是自动地选择出一个优化算法，以便能够达到效率和精度的平衡，常用算法选择优化方法包括SGD、L-BFGS、GD。

特定的特征增强方法包括特征选择、特征降维、特征生成、以及特征编码。

模型选择相应地，AutoML的目的就是自动选择出一个最合适的模型，并且能够设定好它的最优参数。

将特征工程、模型选择、算法选择步骤整合起来，一个完整的AutoML过程可以分成这么两类：一类是将以上的特征工程、模型选择、算法选择整合成一个完整的pipeline；另一类则是Network Architecture Search，自动地学习到最优的网络结构。

该AUTOML框架还具有模型评估，其具有五种评估方式：直接在目标数据上进行评价，这是被使用最多的策略；当数据样本量非常大时，采样一些样本进行评价；当遇到一些极端情况使得网络表现效果不好时，可以考虑进行early stop；将之前学习过的参数重复利用在新任务上，这在两种任务配置差不多时可用；对于一些可量化的配置，可以用共轭评价法进行。

需要说明的是该新型AUTOML框架，将AutoML分为传统AutoML，自动调节传统的机器学习算法的参数，比如随机森林，我们来调节它的max_depth, num_trees,criterion等参数。还有一类AutoML，则专注深度学习。这类 AutoML，不妨称之为深度AutoML，与传统AutoML的差别是，现阶段深度 AutoML，会将神经网络的超参数分为两类，一类是与训练有关的超参数，比如learning rate,regularization,momentum等；还有一类超参数，则可以总结为网络结构。对网络结构的超参数自动调节，也叫Neural architecture search(nas)。而针对训练的超参数，也是传统AutoML的自动调节，叫Hyperparameteroptimization(ho)。

5.1贝叶斯优化

贝叶斯优化是一种近似逼近的方法，用各种代理函数来拟合超参数与模型评价之间的关系，然后选择有希望的超参数组合进行迭代，最后得出效果最好的超参数组合。

5.1.1算法流程

1初始化，随机选择若干组参数x，训练模型，得到相应的模型评价指标y

2用代理函数来拟合x,y

3用采集函数来选择最佳的x*

4将x*带入模型，得到新的y，然后进入第2步

5.1.2具体算法

5.1.3特点

需要消耗大量资源及时间。由于需要至少几十次迭代，即需要训练几十次的模型，因而会造成大量资源、时间消耗。基于这个特点，可以说贝叶斯优化算法适合传统AutoML，而不适合深度AutoML，效果不稳定。由于初始化存在随机性，其效果不稳定。也有论文表明，贝叶斯优化算法并不显著优于随机搜索(random search)

5.2Multi-armed Bandit

multi-armed bandit是非常经典的序列决策模型，要解决的问题是平衡“探索”(exploration)和“利用”(exploitation)。这类算法，通过将自动调参问题，转化为bandit问题，配置更多资源给表现更优异的参数模型。

5.2.1具体算法

Hyperband是一个颇具代表的算法。总体思路我们由一个自动调节LeNet 的例子来展示：

Table 1：The values of n_i and r_i for the brackets of HYPERBANDcorresponding to various values of s，when R＝81 and η＝3.

R＝81代表总资源，μμ代表每次筛选的比例，ni代表参数配置的组合数，ri代表资源数，这里代表一个epoch，第一行代表随机得到ni个参数配置，然后经过第ri次迭代之后，根据模型validation loss选择出top k个表现好的模型，继续下一行ri的训练。

5.2.2特点

1Bandit思想还是很重要的，是一类针对资源配置的算法，可以有效避免资源浪费在很差的参数配置上。

2Bandit结合贝叶斯优化，就构成了传统的AutoML的核心

3Bandit同样适合于深度AutoML中nas任务，因为大的学习率，在前期可能确实会加快收敛，但是一段时间后，可能就会震荡了，最后的收敛精度可能就很低。

5.3进化算法

一般的进化算法其实大同小异，差别在如何选择变异，有比较细的变异，比如在Large-Scale Evolution of Image Classifiers这篇文章中，就定义了非常具体的变异，比如有改变通道数量，改变filter大小，改变 stride等等；而在Simple And EfficientArchitecture Search for Convolutional Neural Networks这篇论文中，它的变异，就借鉴了现有公认的比较好的结构，加深网络就用conv-bn-relu3件套，加宽网络加大通道数量，增加skip connection。

这些进化算法在做自动模型选择时，每次迭代都不可避免的需要在整个数据集上跑若干个epoch，而每次迭代都有许多个变异，又需要很多次迭代，导致最后的训练时间太久。

5.3.1fine-tune基础上的进化

Simple And Efficient Architecture Search for Convolutional NeuralNetworks这篇论文提出，我们先用一个成熟的模型去训练(也可以fine-tune训练)，然后在这个模型的基础上去变异，变异之后用fine-tune 训练几个epoch即可。这带来两个好的结果：

1fine tune减少了大量的训练时间

2我们最后拿出来的模型，至少不比成熟模型差

5.3.2辅助网络初始化参数

SMASH:One-Shot Model Architecture Search through

HyperNetworks在这篇论文中，介绍了一种利用辅助网络给不同的网络初始化参数，从而无需重训练的方法。

在一堆待搜索的网络结构中，随机挑选数据和网络结构，用辅助网络负责参数初始化，然后训练用梯度下降训练这个辅助网络。在该辅助网络训练的足够好之后，就可以用它给各个不同的网络初始化参数，然后测试 validation loss，最后挑出最优的网络结构，从头开始正常训练。

该方法通过训练一次辅助网络，避免每个网络都需要训练的情况，使得训练时间大大减小。

强化学习在nas和ho两方面都有应用。

用RNN作为controller，产生网络结构，然后根据收敛精度调节 rnn。

将整个网络分为两种cell，Normal cell和Reduction cell，每个 cell有B个block组成，而一个cell由rnn生成的过程如图2所示：

1.选择一个hidden layer A

2.选择一个hidden layer B

3.为A选择一个op

4.为B选择一个op

5.选择一个结合op

6.重复1-5步骤B次，生成一个cell

该方法现在cifarl0上寻找到两种cell的结构，然后迁移imagenet 上。

1.每个cell有B个block组成，B是人为设定的值，这里被设为了 5；

2.cell的数量及cell的排序顺序都是提前订好的；

因此在这个网络结构的搜索中，模型的探索空间有限，同时它在 cifar10上进行训练，因此它的速度还不错。

5.4.2强化学习-超参数

用RNN作为optimizer的controller，产生optimizer，然后用小的cnn模型训练5个epoch，得到的val_acc作为reward，训练。

将每个optimizer抽象的表达为：

Δw＝λ*b(u₁(op₁)，u₂(op₂))

如图3所示；

最后产生了两类optimizer：

·PowerSign：α^{f(t)*sign(g)*sign(m)}*g.Some sampled

update rules in this family include：

-e^sign(g)*sign(m)*g

-e^{ld*sign(g)*sign(m)}*g

-e^{cd*sign(g)*sign(m)}*g

-2^{sign(g)*sign(m)}*g

·AddSign：(α+f(t)*sign(g)*sign(m))*g.Some

sampled update rules in this family include：

-(1+sign(g)*sign(m))*g

-(1+ld*sign(g)*sign(m))*g

-(1+cd*sign(g)*sign(m))*g

-(2+sign(g)*sign(m))*g

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种新型AUTOML框架，其特征在于，该AUTOML框架由三部分构成：特征工程、模型选择、算法选择；

2.根据权利要求1所述的一种新型AUTOML框架，其特征在于：所述特定的特征增强方法包括特征选择、特征降维、特征生成、以及特征编码。

3.根据权利要求1所述的一种新型AUTOML框架，其特征在于：模型选择相应地，AutoML的目的就是自动选择出一个最合适的模型，并且能够设定好它的最优参数。

4.根据权利要求1所述的一种新型AUTOML框架，其特征在于：将特征工程、模型选择、算法选择步骤整合起来，一个完整的AutoML过程可以分成这么两类：一类是将以上的特征工程、模型选择、算法选择整合成一个完整的pipeline；另一类则是Network ArchitectureSearch，自动地学习到最优的网络结构。

5.根据权利要求1所述的一种新型AUTOML框架，其特征在于：该AUTOML框架还具有模型评估，其具有五种评估方式：直接在目标数据上进行评价，这是被使用最多的策略；当数据样本量非常大时，采样一些样本进行评价；当遇到一些极端情况使得网络表现效果不好时，可以考虑进行early stop；将之前学习过的参数重复利用在新任务上，这在两种任务配置差不多时可用；对于一些可量化的配置，可以用共轭评价法进行。