CN110490320B - 基于预测机制和遗传算法融合的深度神经网络结构优化方法 - Google Patents

基于预测机制和遗传算法融合的深度神经网络结构优化方法 Download PDF

Info

Publication number
CN110490320B
CN110490320B CN201910696239.XA CN201910696239A CN110490320B CN 110490320 B CN110490320 B CN 110490320B CN 201910696239 A CN201910696239 A CN 201910696239A CN 110490320 B CN110490320 B CN 110490320B
Authority
CN
China
Prior art keywords
network
individual
training
code
population
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910696239.XA
Other languages
English (en)
Other versions
CN110490320A (zh
Inventor
魏巍
徐松正
李威
王聪
张艳宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201910696239.XA priority Critical patent/CN110490320B/zh
Publication of CN110490320A publication Critical patent/CN110490320A/zh
Application granted granted Critical
Publication of CN110490320B publication Critical patent/CN110490320B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于预测机制和遗传算法融合的深度神经网络结构优化方法,用于解决现有网络结构搜索方法搜索效率低的技术问题。技术方案是首先对深度网络结构进行编码表示,形成网络结构编码,随后随机生成网络结构编码,作为遗传算法的初代;接着,对初代中的个体进行选择、交叉、变异与预测过程,并仅对预期性能较高的个体对应的网络进行实际训练;最后,对所有个体表现进行评估,并进入下一轮的选择操作。算法结束后,选择适应度最佳的个体即为特定任务下的网络最优结构。通过在网络实际训练前对网络性能进行预测,可以降低搜索算法在低价值网络上进行训练的时间花费,从而极大加速搜索算法的搜索过程。

Description

基于预测机制和遗传算法融合的深度神经网络结构优化方法
技术领域
本发明涉及一种网络结构搜索方法,特别是涉及一种基于预测机制和遗传算法融合的深度神经网络结构优化方法。
背景技术
文献1“Lingxi Xie,Alan Yuille:Genetic CNN.Computer Vision and PatternRecognition(2017)”提出了一种基于遗传算法的网络结构搜索方法,该方法引入达尔文进化论思想,将网络结构看作种群中的个体,通过选择、交叉、变异与评估过程不断更新网络结构。然而,该网络结构搜索方法在对网络性能进行评价前,需要对网络进行完整的训练,这一过程消耗了大量时间与计算资源。
文献2“Bowen Baker,Otkrist Gupta1,Ramesh Raskar:Accelerating NeuralArchitecture Search using Performance Prediction.International Conference onLearning Representations(2018)”利用网络训练前期的时间序列信息对网络的最终性能进行预测,并引入“Early Stop”机制,提前终止效果较差的网络的训练过程。该方法虽然对网络搜索算法具有一定的加速作用,但该方法依旧需要对网络进行部分训练,从而限制了对结构搜索算法的加速效果。
发明内容
为了克服现有网络结构搜索方法搜索效率低的不足,本发明提供一种基于预测机制和遗传算法融合的深度神经网络结构优化方法。该方法随机生成结构各异的神经网络以进行完整训练,并利用网络训练过程的信息对网络性能预测模型进行训练;在网络结构搜索阶段,首先对深度网络结构进行编码表示,形成网络结构编码,随后随机生成网络结构编码,作为遗传算法的初代;接着,对初代中的个体进行选择、交叉、变异与预测过程,并仅对预期性能较高的个体对应的网络进行实际训练;最后,对所有个体表现进行评估,并进入下一轮的选择操作。算法结束后,选择适应度最佳的个体即为特定任务下的网络最优结构。通过在网络实际训练前对网络性能进行预测,可以降低搜索算法在低价值网络上进行训练的时间花费,从而极大加速搜索算法的搜索过程。
本发明解决其技术问题所采用的技术方案是:一种基于预测机制和遗传算法融合的深度神经网络结构优化方法,其特点是包括以下步骤:
步骤一、数据预处理:
首先定义图像分类数据库X={x1,x2...xn}T∈Rn×b,xn∈R1×b表示第n个样本数据;其类别标签矢量为Y={y1,y2...yn}T∈Rn×l,yn∈R1×l是第n个样本数据的one-hot标签,n={1,2...N},N为样本总数,l表示样本的类别总数,b表示光谱维数;随后将图像分类数据库X中的每个样本归一化至0~1范围,并从中随机地选择Ntrain个样本数据及其类别标签,得到训练数据Xtrain和其对应的类别标签Ytrain,其中,Ntrain<N。另外,将数据集中的剩余数据及其标签全部划为测试集,其数据及标签分别记为Xtest与Ytest
步骤二、确定网络结构的编码规则:
首先生成M个不同的网络结构,记其中第m个神经网络的结构编码为Cm,编码内包含S个阶段,即
Figure GDA0003744175040000021
其中
Figure GDA0003744175040000022
为第s阶段的编码段。该阶段包含Ks个节点,每个节点表示一个由卷积+批量标准化+ReLU激活构成的混合操作,记为
Figure GDA0003744175040000023
相同阶段内的小编号节点连接到大编号节点,节点间的连接方式用
Figure GDA0003744175040000024
位二进制编码进行表示。其中,第1个位二进制编码表示(vs,1,vs,2)间的连接情况,若有连接则该比特位为1,若无连接则该比特位为0;接下来的两个比特表示三个节点(vs,1,vs,3),(vs,2,vs,3)间的连接情况。设定S=3,K1=3,K2=4,K3=5,网络结构编码总长为19位,即
Figure GDA0003744175040000031
步骤三、收集网络性能预测模型的训练数据:
随机生成m个互不相同的结构编码C1,C2,...,Cm,经自动编译后对编码对应的深度网络在指定数据集上进行完整训练。训练使用Adam优化器对网络参数进行学习,训练共迭代T次。当网络经历一个批尺寸的训练后,记录当前网络经历的迭代次数t及验证集上的分类准确率Agt,并以此作为预测模型训练所需的数据:data=[Cm,t,Agt],t={1,2...T}。
步骤四、网络性能预测模型的构建与训练:
定义网络性能预测模型f,向模型输入结构编码C并对其进行映射μ后,模型测出该结构神经网络在经过t次迭代训练后在测试集上的准确率Apt,即:
Apt=f(μ(Cm),t) (2)
在映射阶段中,模型将结构编码C映射为由s个结构编码组成的网络结构编码组
Figure GDA0003744175040000032
其中,ps
Figure GDA0003744175040000033
个比特至第
Figure GDA0003744175040000034
个比特的值等于原结构编码对应位置的值,其余位置用零值进行填充,即:
Figure GDA0003744175040000035
其中,ps[idx]与C[idx]为结构编码ps与C第idx位的值。
在将结构编码进行映射后,将p1,p2...ps顺序输入隐层大小为128的单层长短期记忆网络并最终得到长短期记忆网络单元的隐含状态h,称为网络结构特征。同时,将迭代次数t输入由一个尺寸为(1,64)的全连接层、一个ReLU激活函数层、一个尺寸为(64,32)的全连接层和一个尺寸为(32,1)的全连接层组成的多层感知机,得到迭代次数对于网络最终分类准确率的贡献度Dt
将贡献度Dt与网络的结构特征h进行逐元素相乘:
h[id]=Dt×h[id],id={1,2,...,len(h)} (4)
将计算结果输入一个小型全连接模块。其包含一个尺寸为(128,128)的全连接层,一个失活概率为0.5的随机失活层,一个ReLU激活函数层,一个尺寸为(128,32)的全连接层,一个ReLU激活函数层和一个尺寸为(32,1)的全连接层。全连接模块的输出结果即为当前网络最终分类准确率的预测值Apt
在训练性能预测网络前,对网络参数进行随机初始化,并利用反向传播算法求解如下优化问题来对网络参数进行学习,得到网络的最优参数θ:
Figure GDA0003744175040000041
其中,||·||2为L2范数。
步骤五、初始化遗传算法:
设置遗传算法的参数,包括种群个体数GN、迭代轮数GT、变异概率GM、交叉概率GC、变异参数qM、交叉参数qC与阈值fitmgn,并随机生成GN个结构编码
Figure GDA0003744175040000042
作为初始种群Ge0,初代种群记为第0代,并将种群中的第i个个体记为
Figure GDA0003744175040000043
随后对种群中每个个体得分进行评估,得到该个体的得分
Figure GDA0003744175040000044
将当前最高准确率记为fitmax
步骤六、对个体进行选择操作:
选择操作针对上一代种群中的每个个体。方法为在上一代种群Gej-1,j=1,2...GT中按照***赌的规则根据个体的得分
Figure GDA0003744175040000045
选择新一代的种群Gej;个体得分越高,被选中并保留到下一代的概率越大。
步骤七、对个体进行交叉操作:
交叉操作针对中群内个体每个阶段的编码
Figure GDA0003744175040000046
种群中的每两个个体之间都按照GC概率发生交叉,交叉的操作为两个个体中的三个阶段的码串按照qC概率发生交换。
步骤八、对个体进行变异操作:
变异操作针对个体编码的每个比特位,变异的表现为个体编码上的每个二进制数字都按照概率qM发生反转,即由0变为1或由1变为0。
步骤九、对个体对应网络的性能进行预测:
将网络结构编码与训练结束时的迭代次数输入网络性能预测模型,得到种群中每个个体的预期得分
Figure GDA0003744175040000051
即网络充分训练后的预期分类精度。
Figure GDA0003744175040000052
步骤十、对个体进行评估操作:
将预期得分
Figure GDA0003744175040000053
与当前的最佳得分fitmax对比。若
Figure GDA0003744175040000054
则算法会对该网络进行充分训练后在测试集上进行测试,并将测试集上的实际性能作为该个体的实际得分
Figure GDA0003744175040000055
Figure GDA0003744175040000056
则不进行该网络的实际训练,仅将较低的预期性能作为该个体的得分
Figure GDA0003744175040000057
评估结束后,更新当前最佳个体得分fitmax,并返回步骤六,直至总迭代次数大于T为止。算法结束后得出最优网络结构。
本发明的有益效果是:该方法随机生成结构各异的神经网络以进行完整训练,并利用网络训练过程的信息对网络性能预测模型进行训练;在网络结构搜索阶段,首先对深度网络结构进行编码表示,形成网络结构编码,随后随机生成网络结构编码,作为遗传算法的初代;接着,对初代中的个体进行选择、交叉、变异与预测过程,并仅对预期性能较高的个体对应的网络进行实际训练;最后,对所有个体表现进行评估,并进入下一轮的选择操作。算法结束后,选择适应度最佳的个体即为特定任务下的网络最优结构。通过在网络实际训练前对网络性能进行预测,可以降低搜索算法在低价值网络上进行训练的时间花费,从而极大加速搜索算法的搜索过程。
由于向基于遗传算法的深度神经网络结构优化方法中引入了网络性能预测模型,使得算法可以在对网络进行实际训练之前对网络表现进行预测,并取消预期性能较差的网络的实际训练过程,从而极大降低了结构优化算法的耗时。与背景技术基于遗传算法的网络结构搜索算法相比,本方法在保持搜索出的网络性能相近的前提下,搜索速度提高了55%。
下面结合具体实施方式对本发明作详细说明。
具体实施方式
本发明基于预测机制和遗传算法融合的深度神经网络结构优化方法具体步骤如下:
1、数据预处理。
定义图像分类数据库X={x1,x2...xn}T∈Rn×b,其类别标签矢量为Y={y1,y2...yn}T∈Rn×l,其中,xn∈R1×b表示第n个样本数据,yn∈R1×l是第n个样本数据的one-hot标签,n={1,2...N},N为样本总数,l表示样本的类别总数,b表示光谱维数;将高光谱图像数据X中的每个样本归一化至0~1范围后,从中随机地选择Ntrain个样本数据及其类别标签,得到训练数据Xtrain和其对应的类别标签Ytrain,其中,Ntrain<N。另外,将数据集中的剩余数据及其标签全部划为测试集,其数据及标签分别记为Xtest与Ytest
2、确定深度网络结构编码规则。
为了对深度网络结构进行优化,需要对深度网络结构的拓扑结构进行编码表示。编码过程将网络分为多个阶段,相同阶段内卷积操作的参数(通道数、卷积核尺寸等)保持不变,不同的阶段间则通过池化操作进行连接。深度网络的每个阶段内都包含若干个有序编号的节点,每个节点都表示一个“卷积+批量标准化+ReLU激活”混合操作;相同阶段内的小编号节点可以连接到大编号节点,节点间的连接方式表示数据在该阶段网络内的流动情况。
在网络结构优化过程中将会生成M个不同的网络结构,记第m(m={1,2,...,M})个神经网络的结构编码为Cm,编码内包含S个阶段,即
Figure GDA0003744175040000061
其中
Figure GDA0003744175040000062
为第s(s={1,2,...,S})阶段的编码段。编码中的第s阶段包含Ks个节点,记为
Figure GDA0003744175040000071
因此该阶段需要使用
Figure GDA0003744175040000072
位二进制编码(以下将一位二进制编码称为一个比特)对节点间的连接关系进行表示。其中,第1个比特表示(vs,1,vs,2)间的连接情况,若有连接则该比特位为1,若无连接则该比特位为0;接下来的两个比特表示三个节点(vs,1,vs,3),(vs,2,vs,3)间的连接情况。在实验中设定S=3,K1=3,K2=4,K3=5,网络结构编码总长为19位,即:
Figure GDA0003744175040000073
其中len()表示编码的长度(即二进制编码的位数)。
3、收集网络性能预测模型的训练数据。
随机生成m个互不相同的结构编码C1,C2,...,Cm。编码生成完毕后,将这些编码自动编译为计算图,随后对这些计算图对应的深度网络在指定数据集上进行完整训练。训练使用Adam优化器对网络参数进行学习,优化器参数设置为学习率α=0.001,指数衰减因子β1=0.9,β2=0.999。训练全程共迭代T次。同时在训练过程中,每当网络经历一个批尺寸的训练后,都需要记录当前网络经历的迭代次数t及验证集上的分类准确率Agt,整理后得到预测模型训练所需的数据data=[Cm,t,Agt],t={1,2...T}。
4、网络性能预测模型的构建与训练。
记网络性能预测模型为f,该模型首先对结构编码Cm进行映射μ,随后即可根据映射结果μ(Cm)预测出该结构神经网络在经过t次迭代训练后在测试集上的准确率Apt,即:
Apt=f(μ(Cm),t) (2)
该预测模型的具体结构如下:
(a)结构编码映射
在映射阶段,模型将单个结构编码C映射为由s个结构编码组成的网络结构编码组
Figure GDA0003744175040000081
记映射过程为μ,则对结构编码的映射可表示为:
Figure GDA0003744175040000082
对结构编码组而言:
Figure GDA0003744175040000083
其中,ps第
Figure GDA0003744175040000084
个比特至第
Figure GDA0003744175040000085
个比特的值等于原结构编码对应位置的值,其余位置用零值进行填充。本发明将结构编码p与C第idx位的值记为p[idx]与C[idx],则该映射方式可表示为:
Figure GDA0003744175040000086
(b)网络性能预测模型f:
在将结构编码进行映射,并得到结构编码组
Figure GDA0003744175040000087
后,即可将p1,p2...ps按照顺序输入隐层大小为128的单层长短期记忆网络(LSTM),并最终得到长度为128的一维数组h,我们将其称为被预测网络的网络结构特征。
在获得网络结构特征h的同时,将迭代次数t输入多层感知机。该多层感知机由一个尺寸为(1,64)的全连接层、一个ReLU激活函数层、一个尺寸为(64,32)的全连接层和一个尺寸为(32,1)的全连接层组成。多层感知机会输出一个标量值,从而给出迭代次数对于网络最终分类准确率的贡献度Dt
随后将贡献度Dt与网络的结构特征h进行逐元素相乘,该操作可表示为:
h[id]=Dt×h[id],id={1,2,...,len(h)} (4)
将运算结果通过一个小型全连接模块。全连接模块由一个尺寸为(128,128)的全连接模块,一个失活概率为0.5的随机失活层,一个ReLU激活函数层,一个尺寸为(128,32)的全连接层,一个ReLU激活函数层和一个尺寸为(32,1)的全连接层顺序相连组成。全连接模块的输出结果即为当前网络最终分类准确率的预测值Apt
在使用网络性能预测模型对网络寻优过程进行指导前,需要对网络参数进行随机初始化,并利用反向传播算法求解如下优化问题来进行网络训练,得到网络的最优参数θ:
Figure GDA0003744175040000091
其中,r为单个训练批次所包含的样本数量,||·||2为L2范数。
5、遗传算法初始化。
首先确定遗传算法的参数,即种群个体数GN,迭代轮数GT,变异概率GM,交叉概率GC,变异参数qM,交叉参数qC与阈值fitmgn。随机生成GN个结构编码
Figure GDA0003744175040000092
作为第0代初始种群Ge0,将种群中的第i个个体(即第i个结构编码)记为
Figure GDA0003744175040000093
随后对种群中每个个体所对应的深度网络进行完整训练,在经过测试集测试后,将该网络的分类准确率作为该个体的得分
Figure GDA0003744175040000094
将当前最高准确率记为fitmax
6、对个体进行选择操作。
接下来需要对种群中的个体进行选择操作Os。在第j-1代种群Gej-1,j=1,2...GT中按照***赌的规则选择第j代种群Gej;选择的依据是当前种群中每个个体的得分
Figure GDA0003744175040000095
通过采用***赌的方式,使得得分越高的个体有越大的概率保留到下一代,并不断迭代这一个过程。
7、对个体进行交叉操作。
对于种群中的个体作概率为GC,参数为qC的交叉操作;交叉过程针对的是个体中每个阶段的一段码串
Figure GDA0003744175040000096
种群中的每两个个体之间都按照GC概率发生交叉,交叉的具体操作为两个个体中的三个阶段的码串之间按照qC概率发生交换。
8、对个体进行变异操作。
对于没有发生交叉的个体进行概率为GM的变异操作,发生变异的具体表现为该个体码串上的每个二进制数字都按照概率qM发生反转,即由0变为1或由1变为0。变异过程针对的是单个二进制数字的改变。
9、对个体对应网络的性能进行预测。
将网络结构编码与训练结束时的迭代次数输入网络性能预测模型,得到种群中每个个体的预期得分
Figure GDA0003744175040000101
即网络充分训练后的预期分类精度。
Figure GDA0003744175040000102
10、对个体进行评估操作。
获得步骤8中得到的个体预期得分后,将预期得分
Figure GDA0003744175040000103
与当前的最佳得分fitmax对比。若
Figure GDA0003744175040000104
则说明该个体的预期性能较好,算法会对其进行充分训练后在测试集上进行测试,并将测试集上的实际性能作为该个体的实际得分。若
Figure GDA0003744175040000105
则说明该个体的预期性能较差。对于预期性能较差的个体,算法不进行实际训练,仅仅将较低的预期性能作为该个体的得分
Figure GDA0003744175040000106
评估结束后,更新当前最佳个体得分fitmax,并返回步骤6,直至算法的总迭代次数大于GT为止。算法结束后,即可给出最优网络结构。
本方法对多种图像分类网络结构优化任务皆有较好的加速效果。以在Pa viaUniversity数据集上的分类网络结构优化过程为例,传统的基于遗传算法的网络结构优化方法需要花费0.99小时来给出分类准确率为89.1%的最优深度网络结构;而本方法则仅需0.635小时即可给出分类准确率为88.6%的最优深度网络结构。可见,本发明提出的基于预测机制和遗传算法融合的深度神经网络结构优化方法可以极大加速结构优化过程,且最终搜索出的网络最优结构在指定数据集上的分类准确率与传统的基于遗传算法的网络结构优化方法地结果几乎相同。

Claims (1)

1.一种基于预测机制和遗传算法融合的深度神经网络结构优化方法,其特征在于包括以下步骤:
步骤一、数据预处理:
首先定义图像分类数据库X={x1,x2...xn}T∈Rn×b,xn∈R1×b表示第n个样本数据;其类别标签矢量为Y={y1,y2...yn}T∈Rn×l,yn∈R1×l是第n个样本数据的one-hot标签,n={1,2...N},N为样本总数,l表示样本的类别总数,b表示光谱维数;随后将图像分类数据库X中的每个样本归一化至0~1范围,并从中随机地选择Ntrain个样本数据及其类别标签,得到训练数据Xtrain和其对应的类别标签Ytrain,其中,Ntrain<N;另外,将数据集中的剩余数据及其标签全部划为测试集,其数据及标签分别记为Xtest与Ytest
步骤二、确定网络结构的编码规则:
首先生成M个不同的网络结构,记其中第m个神经网络的结构编码为Cm,编码内包含S个阶段,即
Figure FDA0003744175030000011
其中
Figure FDA0003744175030000012
为第s阶段的编码段;该阶段包含Ks个节点,每个节点表示一个由卷积+批量标准化+ReLU激活构成的混合操作,记为
Figure FDA0003744175030000013
相同阶段内的小编号节点连接到大编号节点,节点间的连接方式用
Figure FDA0003744175030000014
位二进制编码进行表示;其中,第1个比特位二进制编码表示(vs,1,vs,2)间的连接情况,若有连接则该比特位为1,若无连接则该比特位为0;接下来的两个比特表示三个节点(vs,1,vs,3),(vs,2,vs,3)间的连接情况;设定S=3,K1=3,K2=4,K3=5,网络结构编码总长为19位,即
Figure FDA0003744175030000015
其中“len()表示计算括号内结构编码的长度”;
步骤三、收集网络性能预测模型的训练数据:
随机生成m个互不相同的结构编码C1,C2,...,Cm,经自动编译后对编码对应的深度网络在指定数据集上进行完整训练;训练使用Adam优化器对网络参数进行学习,训练共迭代T次;当网络经历一个批尺寸的训练后,记录当前网络经历的迭代次数t及验证集上的分类准确率Agt,并以此作为预测模型训练所需的数据:data=[Cm,t,Agt],t={1,2...T};
步骤四、网络性能预测模型的构建与训练:
定义网络性能预测模型f,向模型输入结构编码C并对其进行映射μ后,模型测出该结构的神经网络在经过t次迭代训练后在测试集上的准确率Apt,即:
Apt=f(μ(Cm),t) (2)
在映射阶段中,模型将结构编码C映射为由s个结构编码组成的网络结构编码组
Figure FDA0003744175030000021
其中,ps
Figure FDA0003744175030000022
个比特至第
Figure FDA0003744175030000023
个比特的值等于原结构编码对应位置的值,其余位置用零值进行填充,即:
Figure FDA0003744175030000024
其中,ps[idx]与C[idx]为结构编码ps与C第idx位的值;
在将结构编码进行映射后,将p1,p2...ps顺序输入隐层大小为128的单层长短期记忆网络并最终得到长短期记忆网络单元的隐含状态h,称为网络结构特征;同时,将迭代次数t输入由一个尺寸为(1,64)的全连接层、一个ReLU激活函数层、一个尺寸为(64,32)的全连接层和一个尺寸为(32,1)的全连接层组成的多层感知机,得到迭代次数对于网络最终分类准确率的贡献度Dt
将贡献度Dt与网络的结构特征h进行逐元素相乘:
h[id]=Dt×h[id],id={1,2,...,len(h)} (4)
将计算结果输入一个小型全连接模块;其包含一个尺寸为(128,128)的全连接层,一个失活概率为0.5的随机失活层,一个ReLU激活函数层,一个尺寸为(128,32)的全连接层,一个ReLU激活函数层和一个尺寸为(32,1)的全连接层;全连接模块的输出结果即为当前网络最终分类准确率的预测值Apt
在训练性能预测网络前,对网络参数进行随机初始化,并利用反向传播算法求解如下优化问题来对网络参数进行学习,得到网络的最优参数θ:
Figure FDA0003744175030000025
其中,||·||2为L2范数;
步骤五、初始化遗传算法:
设置遗传算法的参数,包括种群个体数GN、迭代轮数GT、变异概率GM、交叉概率GC、编译参数qM、交叉参数qC与阈值fitmgn,并随机生成GN个结构编码
Figure FDA0003744175030000031
作为初始种群Ge0,初代种群记为第0代,并将种群中的第i个个体记为
Figure FDA0003744175030000032
随后对种群中每个个体得分进行评估,得到该个体的得分
Figure FDA0003744175030000033
将当前最高准确率记为fitmax
步骤六、对个体进行选择操作:
选择操作针对上一代种群中的每个个体;方法为在上一代种群Gej-1,j=1,2...GT中按照***赌的规则根据个体的得分
Figure FDA0003744175030000034
选择新一代的种群Gej;个体得分越高,被选中并保留到下一代的概率越大;
步骤七、对个体进行交叉操作:
交叉操作针对种群内个体每个阶段的编码
Figure FDA0003744175030000035
种群中的每两个个体之间都按照GC概率发生交叉,交叉的操作为两个个体中的三个阶段的码串按照qC概率发生交换;
步骤八、对个体进行变异操作
变异操作针对个体编码的每个比特位,变异的表现为个体编码上的每个二进制数字都按照概率qM发生反转,即由0变为1或由1变为0;
步骤九、对个体对应网络的性能进行预测:
将网络结构编码与训练结束时的迭代次数输入网络性能预测模型,得到种群中每个个体的预期得分
Figure FDA0003744175030000036
即网络充分训练后的预期分类精度;
Figure FDA0003744175030000037
步骤十、对个体进行评估操作:
将预期得分
Figure FDA0003744175030000038
与当前的最佳得分fitmax对比;若
Figure FDA0003744175030000039
则算法会对该网络进行充分训练后在测试集上进行测试,并将测试集上的实际性能作为该个体的实际得分
Figure FDA00037441750300000310
Figure FDA00037441750300000311
则不进行该网络的实际训练,仅将较低的预期性能作为该个体的得分
Figure FDA00037441750300000312
评估结束后,更新当前最佳个体得分fitmax,并返回步骤六,直至总迭代次数大于T为止;算法结束后得出最优网络结构。
CN201910696239.XA 2019-07-30 2019-07-30 基于预测机制和遗传算法融合的深度神经网络结构优化方法 Active CN110490320B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910696239.XA CN110490320B (zh) 2019-07-30 2019-07-30 基于预测机制和遗传算法融合的深度神经网络结构优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910696239.XA CN110490320B (zh) 2019-07-30 2019-07-30 基于预测机制和遗传算法融合的深度神经网络结构优化方法

Publications (2)

Publication Number Publication Date
CN110490320A CN110490320A (zh) 2019-11-22
CN110490320B true CN110490320B (zh) 2022-08-23

Family

ID=68548791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910696239.XA Active CN110490320B (zh) 2019-07-30 2019-07-30 基于预测机制和遗传算法融合的深度神经网络结构优化方法

Country Status (1)

Country Link
CN (1) CN110490320B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111415009B (zh) * 2020-03-19 2021-02-09 四川大学 基于遗传算法的卷积变分自编码器网络结构搜索方法
CN112084877B (zh) * 2020-08-13 2023-08-18 西安理工大学 基于nsga-net的遥感图像识别方法
CN112001485B (zh) * 2020-08-24 2024-04-09 平安科技(深圳)有限公司 一种组卷积数目搜索方法和装置
CN112183749B (zh) * 2020-10-26 2023-04-18 天津大学 基于有导向模型变异的深度学习库测试方法
CN114842328B (zh) * 2022-03-22 2024-03-22 西北工业大学 基于协同分析自主感知网络结构的高光谱变化检测方法
CN114943866B (zh) * 2022-06-17 2024-04-02 之江实验室 基于进化神经网络结构搜索的图像分类方法
CN115994575B (zh) * 2023-03-22 2023-06-02 方心科技股份有限公司 一种电力故障诊断神经网络架构设计方法及***

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915445A (zh) * 2012-09-17 2013-02-06 杭州电子科技大学 一种改进型的神经网络高光谱遥感影像分类方法
CN103971162A (zh) * 2014-04-04 2014-08-06 华南理工大学 一种基于遗传算法改进bp神经网络的方法
CN105303252A (zh) * 2015-10-12 2016-02-03 国家计算机网络与信息安全管理中心 基于遗传算法的多阶段神经网络模型训练方法
CN106503802A (zh) * 2016-10-20 2017-03-15 上海电机学院 一种利用遗传算法优化bp神经网络***的方法
US9785886B1 (en) * 2017-04-17 2017-10-10 SparkCognition, Inc. Cooperative execution of a genetic algorithm with an efficient training algorithm for data-driven model creation
CN108021983A (zh) * 2016-10-28 2018-05-11 谷歌有限责任公司 神经架构搜索
CN108229657A (zh) * 2017-12-25 2018-06-29 杭州健培科技有限公司 一种基于演化算法的深度神经网络训练与优化算法
CN109243172A (zh) * 2018-07-25 2019-01-18 华南理工大学 基于遗传算法优化lstm神经网络的交通流预测方法
CN110020667A (zh) * 2019-02-21 2019-07-16 广州视源电子科技股份有限公司 神经网络结构的搜索方法、***、存储介质以及设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915445A (zh) * 2012-09-17 2013-02-06 杭州电子科技大学 一种改进型的神经网络高光谱遥感影像分类方法
CN103971162A (zh) * 2014-04-04 2014-08-06 华南理工大学 一种基于遗传算法改进bp神经网络的方法
CN105303252A (zh) * 2015-10-12 2016-02-03 国家计算机网络与信息安全管理中心 基于遗传算法的多阶段神经网络模型训练方法
CN106503802A (zh) * 2016-10-20 2017-03-15 上海电机学院 一种利用遗传算法优化bp神经网络***的方法
CN108021983A (zh) * 2016-10-28 2018-05-11 谷歌有限责任公司 神经架构搜索
US9785886B1 (en) * 2017-04-17 2017-10-10 SparkCognition, Inc. Cooperative execution of a genetic algorithm with an efficient training algorithm for data-driven model creation
CN108229657A (zh) * 2017-12-25 2018-06-29 杭州健培科技有限公司 一种基于演化算法的深度神经网络训练与优化算法
CN109243172A (zh) * 2018-07-25 2019-01-18 华南理工大学 基于遗传算法优化lstm神经网络的交通流预测方法
CN110020667A (zh) * 2019-02-21 2019-07-16 广州视源电子科技股份有限公司 神经网络结构的搜索方法、***、存储介质以及设备

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ACCELERATING NEURAL ARCHITECTURE SEARCH USING PERFORMANCE PREDICTION;Bowen Baker 等;《ICLR 2018》;20181231;1-19 *
Genetic CNN;Lingxi Xie 等;《2017 IEEE International Conference on Computer Vision》;20171231;1388-1397 *
Hyperspectral Image Classification Based on Convolutional Neural Networks With Adaptive Network Structure;Chen Ding 等;《2018 international conference on orange technologies》;20190506;1-5 *
NSGA-Net: Neural Architecture Search using Multi-Objective Genetic Algorithm;Zhichao Lu 等;《arXiv》;20190418;1-13 *
动态贝叶斯网络结构搜索法辨识生物神经网络连接;陈晓艳 等;《生命科学研究》;20171231;第21卷(第6期);527-533 *
遥感影像要素提取的可变结构卷积神经网络方法;王华斌 等;《测绘学报》;20190531;第48卷(第5期);583-596 *

Also Published As

Publication number Publication date
CN110490320A (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
CN110490320B (zh) 基于预测机制和遗传算法融合的深度神经网络结构优化方法
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
CN113656570B (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN109753571B (zh) 一种基于二次主题空间投影的场景图谱低维空间嵌入方法
CN112465120A (zh) 一种基于进化方法的快速注意力神经网络架构搜索方法
CN112667818A (zh) 融合gcn与多粒度注意力的用户评论情感分析方法及***
CN111898689A (zh) 一种基于神经网络架构搜索的图像分类方法
CN114625882B (zh) 提高图像文本描述独特多样性的网络构建方法
CN112560948B (zh) 数据偏差下的眼底图分类方法及成像方法
CN111882042B (zh) 用于液体状态机的神经网络架构自动搜索方法、***及介质
Tirumala Evolving deep neural networks using coevolutionary algorithms with multi-population strategy
CN112416358B (zh) 一种基于结构化词嵌入网络的智能合约代码缺陷检测方法
CN114528835A (zh) 基于区间判别的半监督专业术语抽取方法、介质及设备
CN112084877A (zh) 基于nsga-net的遥感图像识别方法
CN112651499A (zh) 一种基于蚁群优化算法和层间信息的结构化模型剪枝方法
CN111461229A (zh) 一种基于目标传递和线搜索的深层神经网络优化及图像分类方法
CN116167353A (zh) 一种基于孪生长短期记忆网络的文本语义相似度度量方法
CN116611504A (zh) 一种基于进化的神经架构搜索方法
CN114863508B (zh) 自适应注意力机制的表情识别模型生成方法、介质及设备
CN115422945A (zh) 一种融合情感挖掘的谣言检测方法及***
CN116208399A (zh) 一种基于元图的网络恶意行为检测方法及设备
CN115063374A (zh) 模型训练、人脸图像质量评分方法、电子设备及存储介质
CN111259860A (zh) 基于数据自驱动的多阶特征动态融合手语翻译方法
Qu et al. Two-stage coevolution method for deep CNN: A case study in smart manufacturing
CN117668701B (zh) Ai人工智能机器学习***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant