CN110490320B

CN110490320B - 基于预测机制和遗传算法融合的深度神经网络结构优化方法

Info

Publication number: CN110490320B
Application number: CN201910696239.XA
Authority: CN
Inventors: 魏巍; 徐松正; 李威; 王聪; 张艳宁
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2022-08-23
Anticipated expiration: 2039-07-30
Also published as: CN110490320A

Abstract

本发明公开了一种基于预测机制和遗传算法融合的深度神经网络结构优化方法，用于解决现有网络结构搜索方法搜索效率低的技术问题。技术方案是首先对深度网络结构进行编码表示，形成网络结构编码，随后随机生成网络结构编码，作为遗传算法的初代；接着，对初代中的个体进行选择、交叉、变异与预测过程，并仅对预期性能较高的个体对应的网络进行实际训练；最后，对所有个体表现进行评估，并进入下一轮的选择操作。算法结束后，选择适应度最佳的个体即为特定任务下的网络最优结构。通过在网络实际训练前对网络性能进行预测，可以降低搜索算法在低价值网络上进行训练的时间花费，从而极大加速搜索算法的搜索过程。

Description

基于预测机制和遗传算法融合的深度神经网络结构优化方法

技术领域

本发明涉及一种网络结构搜索方法，特别是涉及一种基于预测机制和遗传算法融合的深度神经网络结构优化方法。

背景技术

文献1“Lingxi Xie,Alan Yuille:Genetic CNN.Computer Vision and PatternRecognition(2017)”提出了一种基于遗传算法的网络结构搜索方法，该方法引入达尔文进化论思想，将网络结构看作种群中的个体，通过选择、交叉、变异与评估过程不断更新网络结构。然而，该网络结构搜索方法在对网络性能进行评价前，需要对网络进行完整的训练，这一过程消耗了大量时间与计算资源。

文献2“Bowen Baker,Otkrist Gupta1,Ramesh Raskar:Accelerating NeuralArchitecture Search using Performance Prediction.International Conference onLearning Representations(2018)”利用网络训练前期的时间序列信息对网络的最终性能进行预测，并引入“Early Stop”机制，提前终止效果较差的网络的训练过程。该方法虽然对网络搜索算法具有一定的加速作用，但该方法依旧需要对网络进行部分训练，从而限制了对结构搜索算法的加速效果。

发明内容

为了克服现有网络结构搜索方法搜索效率低的不足，本发明提供一种基于预测机制和遗传算法融合的深度神经网络结构优化方法。该方法随机生成结构各异的神经网络以进行完整训练，并利用网络训练过程的信息对网络性能预测模型进行训练；在网络结构搜索阶段，首先对深度网络结构进行编码表示，形成网络结构编码，随后随机生成网络结构编码，作为遗传算法的初代；接着，对初代中的个体进行选择、交叉、变异与预测过程，并仅对预期性能较高的个体对应的网络进行实际训练；最后，对所有个体表现进行评估，并进入下一轮的选择操作。算法结束后，选择适应度最佳的个体即为特定任务下的网络最优结构。通过在网络实际训练前对网络性能进行预测，可以降低搜索算法在低价值网络上进行训练的时间花费，从而极大加速搜索算法的搜索过程。

本发明解决其技术问题所采用的技术方案是：一种基于预测机制和遗传算法融合的深度神经网络结构优化方法，其特点是包括以下步骤：

步骤一、数据预处理：

首先定义图像分类数据库X＝{x₁,x₂...x_n}^T∈R^n×b,x_n∈R^1×b表示第n个样本数据；其类别标签矢量为Y＝{y₁,y₂...y_n}^T∈R^n×l，y_n∈R^1×l是第n个样本数据的one-hot标签，n＝{1,2...N}，N为样本总数，l表示样本的类别总数，b表示光谱维数；随后将图像分类数据库X中的每个样本归一化至0～1范围，并从中随机地选择N_train个样本数据及其类别标签，得到训练数据X_train和其对应的类别标签Y_train，其中，N_train＜N。另外，将数据集中的剩余数据及其标签全部划为测试集，其数据及标签分别记为X_test与Y_test。

步骤二、确定网络结构的编码规则：

首先生成M个不同的网络结构，记其中第m个神经网络的结构编码为C_m，编码内包含S个阶段，即

其中

为第s阶段的编码段。该阶段包含K_s个节点，每个节点表示一个由卷积+批量标准化+ReLU激活构成的混合操作，记为

相同阶段内的小编号节点连接到大编号节点，节点间的连接方式用

位二进制编码进行表示。其中，第1个位二进制编码表示(v_s,1,v_s,2)间的连接情况，若有连接则该比特位为1，若无连接则该比特位为0；接下来的两个比特表示三个节点(v_s,1,v_s,3),(v_s,2,v_s,3)间的连接情况。设定S＝3，K₁＝3,K₂＝4,K₃＝5，网络结构编码总长为19位，即

步骤三、收集网络性能预测模型的训练数据：

随机生成m个互不相同的结构编码C₁,C₂,...,C_m，经自动编译后对编码对应的深度网络在指定数据集上进行完整训练。训练使用Adam优化器对网络参数进行学习，训练共迭代T次。当网络经历一个批尺寸的训练后，记录当前网络经历的迭代次数t及验证集上的分类准确率Ag_t，并以此作为预测模型训练所需的数据：data＝[C_m,t,Ag_t],t＝{1,2...T}。

步骤四、网络性能预测模型的构建与训练：

定义网络性能预测模型f，向模型输入结构编码C并对其进行映射μ后，模型测出该结构神经网络在经过t次迭代训练后在测试集上的准确率Ap_t，即：

Ap_t＝f(μ(C_m),t) (2)

在映射阶段中，模型将结构编码C映射为由s个结构编码组成的网络结构编码组

其中，p_s第

个比特至第

个比特的值等于原结构编码对应位置的值，其余位置用零值进行填充，即：

其中，p_s[idx]与C[idx]为结构编码p_s与C第idx位的值。

在将结构编码进行映射后，将p₁,p₂...p_s顺序输入隐层大小为128的单层长短期记忆网络并最终得到长短期记忆网络单元的隐含状态h，称为网络结构特征。同时，将迭代次数t输入由一个尺寸为(1,64)的全连接层、一个ReLU激活函数层、一个尺寸为(64,32)的全连接层和一个尺寸为(32,1)的全连接层组成的多层感知机，得到迭代次数对于网络最终分类准确率的贡献度D_t。

将贡献度D_t与网络的结构特征h进行逐元素相乘：

h[id]＝D_t×h[id],id＝{1,2,...,len(h)} (4)

将计算结果输入一个小型全连接模块。其包含一个尺寸为(128，128)的全连接层，一个失活概率为0.5的随机失活层，一个ReLU激活函数层，一个尺寸为(128,32)的全连接层，一个ReLU激活函数层和一个尺寸为(32，1)的全连接层。全连接模块的输出结果即为当前网络最终分类准确率的预测值Ap_t。

在训练性能预测网络前，对网络参数进行随机初始化，并利用反向传播算法求解如下优化问题来对网络参数进行学习，得到网络的最优参数θ：

其中，||·||₂为L2范数。

步骤五、初始化遗传算法：

设置遗传算法的参数，包括种群个体数G_N、迭代轮数G_T、变异概率G_M、交叉概率G_C、变异参数q_M、交叉参数q_C与阈值fit_mgn，并随机生成G_N个结构编码

作为初始种群Ge⁰，初代种群记为第0代，并将种群中的第i个个体记为

随后对种群中每个个体得分进行评估，得到该个体的得分

将当前最高准确率记为fit_max。

步骤六、对个体进行选择操作：

选择操作针对上一代种群中的每个个体。方法为在上一代种群Ge^j-1,j＝1,2...G_T中按照***赌的规则根据个体的得分

选择新一代的种群Ge^j；个体得分越高，被选中并保留到下一代的概率越大。

步骤七、对个体进行交叉操作：

交叉操作针对中群内个体每个阶段的编码

种群中的每两个个体之间都按照G_C概率发生交叉，交叉的操作为两个个体中的三个阶段的码串按照q_C概率发生交换。

步骤八、对个体进行变异操作：

变异操作针对个体编码的每个比特位，变异的表现为个体编码上的每个二进制数字都按照概率q_M发生反转，即由0变为1或由1变为0。

步骤九、对个体对应网络的性能进行预测：

将网络结构编码与训练结束时的迭代次数输入网络性能预测模型，得到种群中每个个体的预期得分

即网络充分训练后的预期分类精度。

步骤十、对个体进行评估操作：

将预期得分

与当前的最佳得分fit_max对比。若

则算法会对该网络进行充分训练后在测试集上进行测试，并将测试集上的实际性能作为该个体的实际得分

若

则不进行该网络的实际训练，仅将较低的预期性能作为该个体的得分

评估结束后，更新当前最佳个体得分fit_max，并返回步骤六，直至总迭代次数大于T为止。算法结束后得出最优网络结构。

本发明的有益效果是：该方法随机生成结构各异的神经网络以进行完整训练，并利用网络训练过程的信息对网络性能预测模型进行训练；在网络结构搜索阶段，首先对深度网络结构进行编码表示，形成网络结构编码，随后随机生成网络结构编码，作为遗传算法的初代；接着，对初代中的个体进行选择、交叉、变异与预测过程，并仅对预期性能较高的个体对应的网络进行实际训练；最后，对所有个体表现进行评估，并进入下一轮的选择操作。算法结束后，选择适应度最佳的个体即为特定任务下的网络最优结构。通过在网络实际训练前对网络性能进行预测，可以降低搜索算法在低价值网络上进行训练的时间花费，从而极大加速搜索算法的搜索过程。

由于向基于遗传算法的深度神经网络结构优化方法中引入了网络性能预测模型，使得算法可以在对网络进行实际训练之前对网络表现进行预测，并取消预期性能较差的网络的实际训练过程，从而极大降低了结构优化算法的耗时。与背景技术基于遗传算法的网络结构搜索算法相比，本方法在保持搜索出的网络性能相近的前提下，搜索速度提高了55％。

下面结合具体实施方式对本发明作详细说明。

具体实施方式

本发明基于预测机制和遗传算法融合的深度神经网络结构优化方法具体步骤如下：

1、数据预处理。

定义图像分类数据库X＝{x₁,x₂...x_n}^T∈R^n×b,其类别标签矢量为Y＝{y₁,y₂...y_n}^T∈R^n×l，其中，x_n∈R^1×b表示第n个样本数据，y_n∈R^1×l是第n个样本数据的one-hot标签，n＝{1,2...N}，N为样本总数，l表示样本的类别总数，b表示光谱维数；将高光谱图像数据X中的每个样本归一化至0～1范围后，从中随机地选择N_train个样本数据及其类别标签，得到训练数据X_train和其对应的类别标签Y_train，其中，N_train＜N。另外，将数据集中的剩余数据及其标签全部划为测试集，其数据及标签分别记为X_test与Y_test。

2、确定深度网络结构编码规则。

为了对深度网络结构进行优化，需要对深度网络结构的拓扑结构进行编码表示。编码过程将网络分为多个阶段，相同阶段内卷积操作的参数(通道数、卷积核尺寸等)保持不变，不同的阶段间则通过池化操作进行连接。深度网络的每个阶段内都包含若干个有序编号的节点，每个节点都表示一个“卷积+批量标准化+ReLU激活”混合操作；相同阶段内的小编号节点可以连接到大编号节点，节点间的连接方式表示数据在该阶段网络内的流动情况。

在网络结构优化过程中将会生成M个不同的网络结构，记第m(m＝{1,2,...,M})个神经网络的结构编码为C_m，编码内包含S个阶段，即

其中

为第s(s＝{1,2,...,S})阶段的编码段。编码中的第s阶段包含K_s个节点，记为

因此该阶段需要使用

位二进制编码(以下将一位二进制编码称为一个比特)对节点间的连接关系进行表示。其中，第1个比特表示(v_s,1,v_s,2)间的连接情况，若有连接则该比特位为1，若无连接则该比特位为0；接下来的两个比特表示三个节点(v_s,1,v_s,3),(v_s,2,v_s,3)间的连接情况。在实验中设定S＝3，K₁＝3,K₂＝4,K₃＝5，网络结构编码总长为19位，即:

其中len()表示编码的长度(即二进制编码的位数)。

3、收集网络性能预测模型的训练数据。

随机生成m个互不相同的结构编码C₁,C₂,...,C_m。编码生成完毕后，将这些编码自动编译为计算图，随后对这些计算图对应的深度网络在指定数据集上进行完整训练。训练使用Adam优化器对网络参数进行学习，优化器参数设置为学习率α＝0.001，指数衰减因子β₁＝0.9，β₂＝0.999。训练全程共迭代T次。同时在训练过程中，每当网络经历一个批尺寸的训练后，都需要记录当前网络经历的迭代次数t及验证集上的分类准确率Ag_t,整理后得到预测模型训练所需的数据data＝[C_m,t,Ag_t],t＝{1,2...T}。

4、网络性能预测模型的构建与训练。

记网络性能预测模型为f，该模型首先对结构编码C_m进行映射μ，随后即可根据映射结果μ(C_m)预测出该结构神经网络在经过t次迭代训练后在测试集上的准确率Ap_t，即：

Ap_t＝f(μ(C_m),t) (2)

该预测模型的具体结构如下：

(a)结构编码映射

在映射阶段，模型将单个结构编码C映射为由s个结构编码组成的网络结构编码组

记映射过程为μ，则对结构编码的映射可表示为：

对结构编码组而言：

其中，ps第

个比特至第

个比特的值等于原结构编码对应位置的值，其余位置用零值进行填充。本发明将结构编码p与C第idx位的值记为p[idx]与C[idx]，则该映射方式可表示为：

(b)网络性能预测模型f：

在将结构编码进行映射，并得到结构编码组

后，即可将p1,p2...ps按照顺序输入隐层大小为128的单层长短期记忆网络(LSTM)，并最终得到长度为128的一维数组h，我们将其称为被预测网络的网络结构特征。

在获得网络结构特征h的同时，将迭代次数t输入多层感知机。该多层感知机由一个尺寸为(1,64)的全连接层、一个ReLU激活函数层、一个尺寸为(64,32)的全连接层和一个尺寸为(32,1)的全连接层组成。多层感知机会输出一个标量值，从而给出迭代次数对于网络最终分类准确率的贡献度D_t。

随后将贡献度D_t与网络的结构特征h进行逐元素相乘，该操作可表示为：

h[id]＝D_t×h[id],id＝{1,2,...,len(h)} (4)

将运算结果通过一个小型全连接模块。全连接模块由一个尺寸为(128，128)的全连接模块，一个失活概率为0.5的随机失活层，一个ReLU激活函数层，一个尺寸为(128,32)的全连接层，一个ReLU激活函数层和一个尺寸为(32，1)的全连接层顺序相连组成。全连接模块的输出结果即为当前网络最终分类准确率的预测值Ap_t。

在使用网络性能预测模型对网络寻优过程进行指导前，需要对网络参数进行随机初始化，并利用反向传播算法求解如下优化问题来进行网络训练，得到网络的最优参数θ：

其中，r为单个训练批次所包含的样本数量，||·||₂为L2范数。

5、遗传算法初始化。

首先确定遗传算法的参数，即种群个体数G_N，迭代轮数G_T，变异概率G_M，交叉概率G_C，变异参数q_M，交叉参数q_C与阈值fit_mgn。随机生成G_N个结构编码

作为第0代初始种群Ge⁰，将种群中的第i个个体(即第i个结构编码)记为

随后对种群中每个个体所对应的深度网络进行完整训练，在经过测试集测试后，将该网络的分类准确率作为该个体的得分

将当前最高准确率记为fit_max。

6、对个体进行选择操作。

接下来需要对种群中的个体进行选择操作O_s。在第j-1代种群Ge^j-1,j＝1,2...G_T中按照***赌的规则选择第j代种群Ge^j；选择的依据是当前种群中每个个体的得分

通过采用***赌的方式，使得得分越高的个体有越大的概率保留到下一代，并不断迭代这一个过程。

7、对个体进行交叉操作。

对于种群中的个体作概率为G_C，参数为q_C的交叉操作；交叉过程针对的是个体中每个阶段的一段码串

种群中的每两个个体之间都按照G_C概率发生交叉，交叉的具体操作为两个个体中的三个阶段的码串之间按照q_C概率发生交换。

8、对个体进行变异操作。

对于没有发生交叉的个体进行概率为G_M的变异操作，发生变异的具体表现为该个体码串上的每个二进制数字都按照概率q_M发生反转，即由0变为1或由1变为0。变异过程针对的是单个二进制数字的改变。

9、对个体对应网络的性能进行预测。

即网络充分训练后的预期分类精度。

10、对个体进行评估操作。

获得步骤8中得到的个体预期得分后，将预期得分

与当前的最佳得分fit_max对比。若

则说明该个体的预期性能较好，算法会对其进行充分训练后在测试集上进行测试，并将测试集上的实际性能作为该个体的实际得分。若

则说明该个体的预期性能较差。对于预期性能较差的个体，算法不进行实际训练，仅仅将较低的预期性能作为该个体的得分

评估结束后，更新当前最佳个体得分fit_max，并返回步骤6，直至算法的总迭代次数大于G_T为止。算法结束后，即可给出最优网络结构。

本方法对多种图像分类网络结构优化任务皆有较好的加速效果。以在Pa viaUniversity数据集上的分类网络结构优化过程为例，传统的基于遗传算法的网络结构优化方法需要花费0.99小时来给出分类准确率为89.1％的最优深度网络结构；而本方法则仅需0.635小时即可给出分类准确率为88.6％的最优深度网络结构。可见，本发明提出的基于预测机制和遗传算法融合的深度神经网络结构优化方法可以极大加速结构优化过程，且最终搜索出的网络最优结构在指定数据集上的分类准确率与传统的基于遗传算法的网络结构优化方法地结果几乎相同。

Claims

1.一种基于预测机制和遗传算法融合的深度神经网络结构优化方法，其特征在于包括以下步骤：

步骤一、数据预处理：

首先定义图像分类数据库X＝{x₁,x₂...x_n}^T∈R^n×b,x_n∈R^1×b表示第n个样本数据；其类别标签矢量为Y＝{y₁,y₂...y_n}^T∈R^n×l，y_n∈R^1×l是第n个样本数据的one-hot标签，n＝{1,2...N}，N为样本总数，l表示样本的类别总数，b表示光谱维数；随后将图像分类数据库X中的每个样本归一化至0～1范围，并从中随机地选择N_train个样本数据及其类别标签，得到训练数据X_train和其对应的类别标签Y_train，其中，N_train＜N；另外，将数据集中的剩余数据及其标签全部划为测试集，其数据及标签分别记为X_test与Y_test；

步骤二、确定网络结构的编码规则：

其中

为第s阶段的编码段；该阶段包含K_s个节点，每个节点表示一个由卷积+批量标准化+ReLU激活构成的混合操作，记为

位二进制编码进行表示；其中，第1个比特位二进制编码表示(v_s,1,v_s,2)间的连接情况，若有连接则该比特位为1，若无连接则该比特位为0；接下来的两个比特表示三个节点(v_s,1,v_s,3),(v_s,2,v_s,3)间的连接情况；设定S＝3，K₁＝3,K₂＝4,K₃＝5，网络结构编码总长为19位，即

其中“len()表示计算括号内结构编码的长度”；

步骤三、收集网络性能预测模型的训练数据：

随机生成m个互不相同的结构编码C₁,C₂,...,C_m，经自动编译后对编码对应的深度网络在指定数据集上进行完整训练；训练使用Adam优化器对网络参数进行学习，训练共迭代T次；当网络经历一个批尺寸的训练后，记录当前网络经历的迭代次数t及验证集上的分类准确率Ag_t，并以此作为预测模型训练所需的数据：data＝[C_m,t,Ag_t],t＝{1,2...T}；

步骤四、网络性能预测模型的构建与训练：

定义网络性能预测模型f，向模型输入结构编码C并对其进行映射μ后，模型测出该结构的神经网络在经过t次迭代训练后在测试集上的准确率Ap_t，即：

Ap_t＝f(μ(C_m),t) (2)

其中，p_s第

个比特至第

其中，p_s[idx]与C[idx]为结构编码p_s与C第idx位的值；

在将结构编码进行映射后，将p₁,p₂...p_s顺序输入隐层大小为128的单层长短期记忆网络并最终得到长短期记忆网络单元的隐含状态h，称为网络结构特征；同时，将迭代次数t输入由一个尺寸为(1,64)的全连接层、一个ReLU激活函数层、一个尺寸为(64,32)的全连接层和一个尺寸为(32,1)的全连接层组成的多层感知机，得到迭代次数对于网络最终分类准确率的贡献度D_t；

将贡献度D_t与网络的结构特征h进行逐元素相乘：

h[id]＝D_t×h[id],id＝{1,2,...,len(h)} (4)

将计算结果输入一个小型全连接模块；其包含一个尺寸为(128，128)的全连接层，一个失活概率为0.5的随机失活层，一个ReLU激活函数层，一个尺寸为(128,32)的全连接层，一个ReLU激活函数层和一个尺寸为(32，1)的全连接层；全连接模块的输出结果即为当前网络最终分类准确率的预测值Ap_t；