CN108564166A - 基于带对称跨层连接的卷积神经网络半监督特征学习方法 - Google Patents
基于带对称跨层连接的卷积神经网络半监督特征学习方法 Download PDFInfo
- Publication number
- CN108564166A CN108564166A CN201810238288.4A CN201810238288A CN108564166A CN 108564166 A CN108564166 A CN 108564166A CN 201810238288 A CN201810238288 A CN 201810238288A CN 108564166 A CN108564166 A CN 108564166A
- Authority
- CN
- China
- Prior art keywords
- image
- network
- layer
- category
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000013016 learning Effects 0.000 title claims abstract description 33
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 84
- 238000013528 artificial neural network Methods 0.000 claims abstract description 11
- 238000011084 recovery Methods 0.000 claims abstract description 11
- 238000003475 lamination Methods 0.000 claims description 27
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 238000005457 optimization Methods 0.000 claims description 13
- 230000008859 change Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 230000006378 damage Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 5
- 241001269238 Data Species 0.000 claims description 4
- 238000012544 monitoring process Methods 0.000 claims description 3
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 239000000284 extract Substances 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000006854 communication Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于带对称跨层连接的卷积神经网络半监督特征学习方法,包含如下步骤:生成无类标受损图像数据集;构建跨层连接卷积神经网络;预训练图像恢复神经网络;提取网络参数构建分类网络;训练分类网络。本发明利用对无类标图像数据的恢复任务,预训练神经网络,从而提高对有类标图像的分类效果,实现半监督特征学习。此外,通过在传统卷积神经网络自动编码器中加入对称跨层连接,使得网络更易优化,并增强网络中层特征抽象能力,使得无监督图像恢复任务得到的网络权重更易迁移于有监督学习任务。本发明实现了高效、准确的基于卷积神经网络的半监督学习方法,因此具有较高的实用价值。
Description
技术领域
本发明涉及图像半监督特征学习,尤其涉及基于带对称跨层连接的卷积神经网络(Convolutional Neural Network,CNN)半监督特征学习方法。
背景技术
随着信息技术的不断飞速发展,各个领域每天都在以惊人的速度产生各种类型的图像数据。在大量的图像数据获取、传播过程中,如何更好地理解图像语义信息,并借此完成人类才可完成的任务,是现今人工智能与模式识别领域的重要挑战。人们迫切地希望计算机能够帮助人类更好地获取并利用海量图像数据。
互联网中的图像数据往往都是以没有类标的形式存在的,仅有少量结构化数据或用于科研的图像数据具有类标。因此如何使用大量无类标数据,辅助少量有类标数据的理解与学习,成为人工智能领域亟待解决的问题。图像的半监督特征学习作为利用无类标数据的重要方法,一直受到工业界和学术界的广泛关注,并经常作为各种图像相关国际学术会议的重要主题,是人工智能和模式识别领域一个非常重要的研究课题。其基础思想是利用无类标图像中提取出的结构信息,利用一定技术手段,将无类标信息与有类标数据特征相关联,从而辅助有类标图像的理解与学习。
近几年,基于深度神经网络,特别是深度卷积神经网络的方法广泛应用于许多计算机视觉和模式识别任务,在许多高层图像理解任务,如图像分类,图像分割等问题上取得令人瞩目的效果。但其仍有一些缺点使其在应用中收到限制,其中很重要的一点即是需要大量有类标图像数据。在有类标数据量有限的情况下,深度学习方法的表现往往不尽如人意。如何将半监督特征学习思想应用于深度学习领域,已成为当前研究热点,对积极推进社会信息化进程起到重要作用。在创造了无可替代的社会价值的同时,该领域仍有许多关键技术问题尚未解决,仍有许多功能实现需要进一步完善,因此,如何利用深度卷积神经网络,更有效地在半监督情况下对图像进行理解,以更灵活地实现计算机视觉的研究,具有深远的意义。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于带跨层连接的卷积神经网络的半监督特征学习方法,通过在海量无类标数据中对卷积神经网络进行预训练,最终提高在有类标数据中的表现。
为了解决上述技术问题,本发明公开了一种基于带跨层连接的卷积神经网络(Convolutional Neural Network,CNN)的半监督特征学习方法,包含如下步骤:
步骤1,生成无类标和有类标数据集:采集有类标和无类标图像数据,对每张图像做随机裁剪和归一化处理,得到有类标图像集合X0和无类标图像集合Y,根据图像分辨率大小,对集合Y中图像进行不同的破坏,得到破坏后的无类标图像集X1,设Z为有类标图像类标向量,Z={z1,z2,…,zn},zi表示第i张图像类标,i取值为1~n,则(X1,Y)组成用于非监督预训练的无类标训练数据集合,(X0,Z)作为有监督训练的有类标训练数据集合;
步骤2,构建预训练图像恢复网络:根据输入图像大小构建图像恢复网络,设网络总深度为D层,D为偶数,其中前D/2层为卷积层,后D/2层为反卷积层,卷积核大小取为3x3,步长为1或2,根据网络深度和图像大小决定步长变化率。输入为步骤1中破坏后的图像集X1中的图像,输出为网络恢复后图像;
步骤3,训练图像恢复网络:使用ADAM(Kingma,Diederik P.,and Jimmy Ba."Adam:A method for stochastic optimization."arXiv preprint arXiv:1412.6980(2014).)优化算法,采用步骤1得到的训练集(X1,Y)对步骤2所构建网络进行训练,以集合X1中受破坏图像作为输入,并以集合Y中对应的无损图像作为网络监督信息,训练后记录图像恢复网络前D/2层每一层权重W和偏置b;
步骤4,构建有监督分类网络,以步骤2构建的图像恢复网络为模板,根据输入图像大小构建D/2层网络,均为卷积层,步长变化与步骤2中构建网络一致。并加入Max-pooling层和Softmax层,同时对卷积层参数使用步骤3中训练好网络对应权重W和偏置b进行初始化;
步骤5,训练分类网络,将步骤4中构建并初始化的分类网络使用ADAM优化算法,在有类标图像数据上进行训练,直到算法收敛。
步骤1具体包括如下步骤:
步骤1-1,采集有类标和无类标图像数据,对每幅图像进行裁剪,采用随机裁剪的方式,得到大小相同的图像块,其中图像块大小取决于原始图像大小和模型大小,对于小于50*50的低分辨率图像(如CIFAR-10数据集),裁剪大小为29*29,对于大于225*225高分辨率的自然图像(如PASCAL VOC数据集),裁剪大小为225*225,若分辨率在二者之间,则先进行缩放到相近分辨率,再进行裁剪。将裁剪后所有图像集合记为X’;
步骤1-2,将裁剪后的图像块进行归一化和中心化处理,首先计算裁剪后图像数据集合X’上每个像素的均值和标准差,设X’上的所有图像均值图像为标准差为std,对于一张特定图像x,对其进行归一化和中心化处理如下:
x′为图像x处理后的图像;处理后图像中,有类标图像集合记为X0,无类标图像集合记为Y。
步骤1-3,对于有类标图像,将其处理后图像集合X0和对应类标向量Z组成有类标训练数据(X0,Z),Z={z1,z2,…,zn},zi表示第i张图像类标。
步骤1-4,对于无类标图像集合Y中的图像,进行破坏,加高斯噪声或将图像中像素值置为0,若裁剪后为低分辨率图像(分辨率小于50*50),则采取加高斯噪声方法,若裁剪后为高分辨率图像(分辨率大于等于50*50),则采取像素点置为0方法,置0的像素点为随机选取10个相邻的8*8区域,得到破坏后的无类标图像集X1,其与无类标图像集合Y组成无类标训练数据集合(X1,Y)。
步骤2具体包括如下步骤:
步骤2-1,设图像恢复网络总深度为D层,D为偶数,其中前D/2层使用卷积层,后D/2层使用反卷积层,卷积核大小为3x3,步长为1或2,每隔k层步长为1第k+1层步长为2,0<k<D/2-1,重复n次。k和n大小由网络深度和图像块大小决定:对于29*29低分辨率图像,k=4,n=3,对于225*225高分辨率图像,k=2,n=5,在每层卷积层和反卷积层之后添加BatchNormalization层和ReLU(Rectified Linear Unit)非线性层,网络输入为步骤1中生成的破坏后的图像集合X1中图像,输出为网络恢复后图像。网络参数包括卷积层和反卷积层的权重W和偏置b,以及BatchNormalization层权重γ和偏置β。
步骤2-2,每隔两层,在卷积层和反卷积层之间加入对称跨层连接:设COi表示第i层卷积层输出,DIi代表第i层反卷积层输入,DOi代表第i层反卷积层输出,则跨层连接表示为:
DID-i+1=DOD-i+COi,
则DID+1为网络输出,CO0为网络输入,第一次跨层连接从输入层开始连接到输出层,网络最终层输入与无损图像集合Y中对应图像计算欧氏距离作为之后网络训练的损失函数
其中Xi为图像集X1中第i张图像,Yi为图像集Y中第i张图像,为神经网络代表的函数,N为训练图像数量,θ为网络所有可训练参数,包括卷积层和反卷积层的权重W和偏置b,以及BatchNormalization层权重γ和偏置β。
步骤3具体包括如下步骤:
步骤3-1,利用ADAM优化算法进行梯度反向传播训练神经网络,学习率设置为1e-4,训练持续n1轮(一般为20轮),在第n2轮(一般为第8轮)和第n3轮(一般为第16轮)结束后,学习率分别设置为1e-5和1e-6;;
步骤3-2,为说明带跨层连接的梯度反向传播步骤,设图像恢复网络深度为7层,以步骤2-2中方式添加跨层连接,设X0为网络输入,Xi为第i层卷积层输出,跨层链接具体将X1连接到第5层输入,将X0连接到第7层输入。此时在前向计算时,得到图像恢复网络输出X7为:
X7=f7(X0,X6);
步骤3-3,将X7进一步展开表示为:
X7=f7(X0,X6)
=f7(X0,f6(X5))
=f7(X0,f6(f5(X1,X4)))
=f7(X0,f6(f5(X1,f4(X3))))
=f7(X0,f6(f5(X1,f4(fk(X2)))))
步骤3-4,在梯度反向传播时,网络中的第i层直接从其顶层获得梯度来更新该层的参数θi,在本方法中,θi具体包括卷积/反卷积层权重Wi和偏置bi,以及BatchNormalization层权重γi和偏置βi以该网络第一层为例,为更新第一层参数θ1需要计算损失函数ζ关于θ1的偏导数:
步骤3-5,在得到每一层对应顶层的偏导数之后,使用ADAM算法对应的更新规则更新每一层参数,训练在步骤1得到的无类标训练数据集合(X1,Y)上进行,以X1中受破坏图像作为输入,以Y中对应清晰图像作为监督信息以步骤3-4中方法更新参数,直到使用了所有训练数据训练20轮之后停止。
步骤4具体包括如下步骤:
构建有监督分类网络,先提取步骤3中训练好图像恢复网络卷积层参数W、b、γ和β,根据输入图像大小构建D/2层网络,每层均为卷积层,步长变化与步骤2中构建网络一致,其中在最后一层卷积层后加入最大值池化层(Max-pooling)层,在其后根据分类任务类标数量N,N为有监督训练的有类标训练数据集合(X0,Z)中类标向量Z的最大可能取值,加入N类的Softmax层。使用提取的参数W、b、γ和β,采用直接赋值的方式,将有监督分类网络对应参数初始化。
步骤5具体包括如下步骤:
训练分类网络,将步骤4中构建并初始化的分类网络使用ADAM优化算法在有类标训练数据集合(X0,Z)上进行训练,初始学习率设置为1e-4,训练持续n4轮(一般为200轮),在第n5、n6和n7轮(一般n5为80、n6为120、n7为160)结束后,将当前学习率乘以0.2得到新学习率,n4轮后直到网络收敛。
本发明针对图像半监督特征学习的深度卷积神经网络方法,本发明具有如下特征:1)本发明在使用深度神经网络进行预训练时时,加入了跨层连接,使得网络可以更快收敛,同时使得网络中层特征可以保留更多图像抽象信息;2)本发明方法不同于以往针对特定数据类型的半监督特征学习方法,可以应用于几乎所有图像数据,具有普适性。
有益效果:本发明充分考虑了卷积神经网络逐层连接在非监督特征学习,加入跨层连接保证网络可以从无类标数据中提取出足够有用的抽象信息,从而更好地辅助有类标数据的分类,提升图像分类的准确率。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述或其他方面的优点将会变得更加清楚。
图1为本发明流程图。
图2为网络结构示意图。
图3a为实施例中的一副原图。
图3b为图3a加噪声后图像。
图3c为图3a的恢复图像。
图4a为实施例中的一副原图。
图4b为实施例中的一副原图。
图4c为图4a对应的特征图。
图4d为图4b对应的特征图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
如图1所示,本发明公开了一种基于带跨层连接的卷积神经网络的图像修复方法,包含如下步骤:
步骤1,生成无类标和有类标数据集:采集有类标和无类标图像数据,对每张图像做随机裁剪和归一化处理,得到有类标图像集X0和无类标清晰图像集合Y,根据图像分辨率大小,对Y中图像进行不同的破坏,得到破坏后无类标的图像集X1,设Z为有类标图像类标向量,Z={z1,z2,…,zn},zi表示第i张图像类标,则(X1,Y)组成用于非监督预训练的神经网络的训练集,(X0,Z)作为有监督训练的训练集;
步骤2,构建预训练图像恢复网络:根据输入图像大小构建,设网络总深度为D层,D为偶数,其中前D/2层为卷积层,后D/2层为反卷积层,卷积核大小取为3x3,步长为1或2,根据网络深度和图像大小决定步长变化率。输入为步骤1中破坏图像集X1中图像,输出为网络恢复后图像;
步骤3,训练图像恢复网络:使用ADAM(adaptive moment estimation,自适应矩估计)优化算法,采用步骤1得到的训练集(X1,Y)对步骤2所构建网络进行训练,以集合X1中受破坏图像作为输入,并以集合Y中对应的无损图像作为网络监督信息,训练后记录图像恢复网络前D/2层每一层权重W和偏置b;
步骤4,构建有监督分类网络,以步骤2构建的图像恢复网络为模板,根据输入图像大小构建D/2层网络,均为卷积层,步长变化与步骤2中构建网络一致。并加入Max-pooling层和Softmax层,同时对卷积层参数使用步骤3中训练好网络对应权重W和偏置b进行初始化;
步骤5,训练分类网络,将步骤4中构建并初始化的分类网络使用ADAM优化算法,在有类标图像数据上进行训练,直到算法收敛。
步骤1具体包括如下步骤:
本步骤描述数据预处理过程,采集有类标和无类标图像数据,对每幅图像进行裁剪,采用随机裁剪的方式,得到大小相同的图像块,其中图像块大小取决于原始图像大小和模型大小,对于小于50*50的低分辨率图像(如CIFAR-10数据集),裁剪大小为29*29,对于大于225*225高分辨率的自然图像(如PASCAL VOC数据集),裁剪大小为225*225,若分辨率在二者之间,则先进行缩放到相近分辨率,再进行裁剪。将裁剪后所有图像集合记为X’;将裁剪后的图像块进行归一化和中心化处理,首先计算裁剪后图像数据集合X’上每个像素的均值和标准差,设X’上的所有图像均值图像为标准差为std,对于一张特定图像x,对其进行归一化和中心化处理如下:
x′为图像x处理后的图像;处理后图像中,有类标图像集合记为X0,无类标图像集合记为Y。
对于有类标图像,将其处理后图像集合X0和对应类标向量Z组成有类标训练数据(X0,Z),Z={z1,z2,…,zn},zi表示第i张图像类标。
对于无类标清晰图像集合Y中的图像,进行破坏,加高斯噪声或将图像中像素值置为0,若裁剪后为低分辨率图像(分辨率小于50*50),则采取加高斯噪声方法,若裁剪后为高分辨率图像(分辨率大于等于50*50),则采取像素点置为0方法,置0的像素点为随机选取10个相邻的8*8区域。得到破坏后的无类标图像集X1,其与清晰图像集Y组成无类标训练数据(X1,Y)。
步骤2具体包括如下步骤:
本步骤描述对预训练神经网络模型的构建过程,设网络总深度为D层,D为偶数,其中前D/2层使用卷积层,后D/2层使用反卷积层,卷积核大小为3x3,步长为1或2,每隔k层步长为1第k+1层步长为2,0<k<D/2-1,重复n次。根据网络深度和图像块大小调整k和n大小。在每层卷积层和反卷积层之后添加BatchNormalization层和ReLU(Rectified Linear Unit)非线性层。网络输入为步骤1中生成的破坏后的图像,输出为网络恢复后图像;每隔两层,在卷积层和反卷积层之间加入对称跨层连接。具体地,设COi表示第i层卷积层输出,DIi代表第i层反卷积层输入,DOi代表第i层反卷积层输出,则跨层连接可表示为:
DID-i+1=DOD-i+COi
特别的,DID+1为网络输出,CO0为网络输入,即第一次跨层连接从输入层开始连接到输出层。网络最终层输入与原图像数据集Y中对应图像计算欧氏距离作为损失函数:
其中Xi为无类标受损图像集X1中第i张图像,Yi为无类标清晰图像集Y中第i张图像,为神经网络代表的函数,N为训练图像数量,θ为网络所有可训练参数,包括卷积层和反卷积层的权重W和偏置b,以及BatchNormalizatiion层权重γ和偏置β。
图2是网络结构简单示意图,左边图中,Corrupted data是网络输入数据,restored data是网络输出数据,conv1,conv2以及c3…c6为卷积层,d3…d6,,deconv1,deconv2为反卷积层。右边图描述一个跨层连接的细节,图中conv为卷积层,deconv为反卷积层,ReLU和BatchNorm分别代表ReLU层和BatchNormalization层。
步骤3具体包括如下步骤:
本步骤描述对预训练神经网络模型的训练过程,利用ADAM优化算法进行梯度反向传播训练神经网络,学习率设置为1e-4。训练持续20轮,在第8轮和第16轮结束后,学习率分别设置为1e-5和1e-6。
为说明带跨层连接的梯度反向传播步骤,设该网络深度为7层,以步骤2-2中方式添加跨层连接,设X0为网络输入,Xi为第i层卷积层输出,跨层连接具体将X1连接到第5层输入,将X0连接到第7层输入。此时在前向计算时,得到图像恢复网络输出X7为:
X7=f7(X0,X6)
X7可以进一步表示为:
X7=f7(X0,X6)
=f7(X0,f6(X5))
=f7(X0,f6(f5(X1,X4)))
=f7(X0,f6(f5(X1,f4(X3))))
=f7(X0,f6(f5(X1,f4(fk(X2)))))
其中X1和X2表示第1、2个卷积层得到的特征图。
在梯度反向传播时,网络中的第i层直接从其顶层获得梯度来更新该层的参数θi,在本方法中,θi具体包括卷积/反卷积层权重Wi和偏置bi,以及BatchNormalization层权重γi和偏置βi以该网络第一层为例,为更新第一层参数θ1需要计算损失函数ζ关于θ1的偏导数:
在得到每一层对应顶层的偏导数之后,使用ADAM算法对应的更新规则更新每一层参数,训练在步骤1得到的无类标数据集合(X1,Y)上进行,以X1中受破坏图像作为输入,以Y中对应清晰图像作为监督信息以步骤3-4中方法更新参数,直到使用了所有训练数据训练20轮之后停止。
步骤4具体包括如下步骤:
本步骤描述有监督分类网络的构建过程,先提取步骤3中训练好图像恢复网络卷积层参数W、b、γ和β,根据输入图像大小构建D/2层网络,每层均为卷积层,步长变化与步骤2中构建网络一致,其中在最后一层卷积层后加入最大值池化层(Max-pooling)层,在其后根据分类任务类标数量N,N为有监督训练数据(X0,Z)中类标向量Z的最大可能取值,加入N类的Softmax层。使用提取的参数W、b、γ和β,采用直接赋值的方式,将有监督分类网络对应参数初始化。
步骤5具体包括如下步骤:
本步骤描述有监督分类网络的训练过程,将步骤4中构建并初始化的分类网络使用ADAM优化算法在有类标图像数据集(X0,Z)上进行训练,初始学习率设置为1e-4,训练持续n4轮(一般为200轮),在第n5、n6和n7轮(一般n5为80、n6为120、n7为160)结束后,将当前学习率乘以0.2得到新学习率,n4轮后直到网络收敛。
实施例1
本实施例描述CIFAR-10上的半监督特征学习,包括以下部分:
1、首先将CIFAR-10数据集中50000张自然图像均匀地分为两部分,一部分包含4000张有类标图像,另一部分包含46000张无类标图像。
2、对于每张32*32大小的无类标图像,在训练时,随机截取29*29的图像块,在图像上附加均值为0,标准差为30的高斯噪声。对于加噪声后的图像和不加噪声的图像分别进行归一化,形成无类标训练集。
3、构建18层带跨层连接的卷积神经网络,使用ADAM算法在生成的无类标图像上进行训练。网络收敛后保留前9层,利用其网络权重构建对应的分类网络。
4、在另外4000张有类标图像上训练分类网络,使用ADAM算法训练直到收敛,在原始图像的50000张测试集上进行测试,并报告准确率如下表1:
表1
其中最后一行是该方法准确率,可以看到该方法达到目前很多利用GAN进行的半监督学习准确率且相比不使用预训练(No pre-training行)和不加跨层连接(Pre-training without shortcut行)相同网络,准确率均有较大提升。
实施例2
本实施例描述利用Imagenet数据集和Pascal VOC 2007数据的大规模半监督特征学习,包括以下部分:
1、首先在Imagenet自然图像数据集上,随机截取225*225的图像块,对于每个图像块将其随机35个8*8图像区域像素置为0,对于置0处理的图像和原始图像分别进行归一化,形成无类标训练集。
2、构建32层带跨层连接的卷积神经网络,使用ADAM算法在生成的无类标图像上进行训练。网络收敛后保留前16层,利用其网络权重构建对应的分类网络。
3、对PASCAL VOC 2007自然图像数据,随机截取225*225的图像块,并将图像块以50%概率进行水平翻转并归一化后,得到有类标数据。
4、在生成的有类标数据上训练分类网络,使用ADAM算法训练直到收敛,使用测试集进行测试,并报告准最终确率如下表:
表2
其中最后一行是本方法准确率,可以看到该方法比目前同类方法准确率高1%左右,且相比不加跨层连接(Ours without shortcut行)相同网络,准确率均有较大提升。图3a~图3c是该实施例预训练网络对图像的恢复效果,图3a为原图,图3b为加噪声后图像,图3c为恢复图像,可以看到预训练网络可以很好地学习到图像细节信息。图4a~图4d是该实施例学习到的特征可视化效果,图4a和图4b为原图,图4c和图4d分别为图4a和图4b对应的特征图,每一张图像中的狗脸部分在特征图中都十分明显,可以说明该方法学习到的特征很好地捕捉到了图像深层语义信息。
本发明提供了基于带对称跨层连接的卷积神经网络半监督特征学习方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (6)
1.基于带对称跨层连接的卷积神经网络半监督特征学习方法,其特征在于,包括如下步骤:
步骤1,生成无类标和有类标数据集:采集有类标和无类标图像数据,对每张图像做随机裁剪和归一化处理,得到有类标图像集合X0和无类标图像集合Y,根据图像分辨率大小,对集合Y中图像进行不同的破坏,得到破坏后的无类标图像集X1,设Z为有类标图像类标向量,Z={z1,z2,…,zn},zi表示第i张图像类标,i取值为1~n,则(X1,Y)组成用于非监督预训练的无类标训练数据集合,(X0,Z)作为有监督训练的有类标训练数据集合;
步骤2,构建预训练图像恢复网络:根据输入图像大小构建图像恢复网络,设网络总深度为D层,D为偶数,其中前D/2层为卷积层,后D/2层为反卷积层,卷积核大小取为3x3,输入为步骤1中破坏后的图像集X1中的图像,输出为网络恢复后图像;
步骤3,训练图像恢复网络:使用ADAM优化算法,采用步骤1得到的训练集(X1,Y)对步骤2所构建网络进行训练,以集合X1中受破坏图像作为输入,并以集合Y中对应的无损图像作为网络监督信息,训练后记录图像恢复网络前D/2层每一层权重W和偏置b;
步骤4,构建有监督分类网络:以步骤2构建的图像恢复网络为模板,根据输入图像大小构建D/2层网络,均为卷积层,并加入Max-pooling层和Softmax层,同时对卷积层参数使用步骤3中训练好网络对应权重W和偏置b进行初始化;
步骤5,训练分类网络,将步骤4中构建并初始化的分类网络使用ADAM优化算法,在有类标图像数据上进行训练,直到算法收敛。
2.根据权利要求1所述的方法,其特征在于,步骤1包括如下步骤:
步骤1-1,采集有类标和无类标图像数据,对每幅图像进行裁剪,采用随机裁剪的方式,得到大小相同的图像块,其中图像块大小取决于原始图像大小和模型大小,将裁剪后所有图像集合记为X’;
步骤1-2,将裁剪后的图像块进行归一化和中心化处理,首先计算裁剪后图像数据集合X’上每个像素的均值和标准差,设X’上的所有图像均值图像为标准差为std,对于一张特定图像x,对其进行归一化和中心化处理如下:
x′为图像x处理后的图像,在处理后的图像中,将有类标图像集合记为X0,无类标图像集合记为Y;
步骤1-3,对于有类标图像,将其处理后图像集合X0和对应类标向量Z组成有类标训练数据(X0,Z),Z={z1,z2,…,zn},zi表示第i张图像类标;
步骤1-4,对于无类标图像集合Y中的图像,进行破坏,加高斯噪声或将图像中像素值置为0,若裁剪后为低分辨率图像,则采取加高斯噪声方法,若裁剪后为高分辨率图像,则采取像素点置为0方法,置0的像素点为随机选取10个相邻的8*8区域,得到破坏后的无类标图像集X1,其与无类标图像集合Y组成无类标训练数据集合(X1,Y)。
3.根据权利要求2所述的方法,其特征在于,步骤2包括如下步骤:
步骤2-1,设图像恢复网络总深度为D层,D为偶数,其中前D/2层使用卷积层,后D/2层使用反卷积层,卷积核大小为3x3,步长为1或2,k层步长为1后,第k+1层步长为2,重复n次,k具体取值为0<k<D/2,根据实际训练图像大小调整k和n大小,若裁剪后为低分辨率图像,k=4,n=3;若裁剪后为高分辨率图像,k=2,n=5;在每层卷积层和反卷积层之后添加BatchNormalization层和ReLU非线性层,网络输入为步骤1中生成的破坏后的图像集合X1中图像,输出为网络恢复后图像;网络参数包括卷积层和反卷积层的权重W和偏置b,以及BatchNormalization层权重γ和偏置β;
步骤2-2,每隔两层,在卷积层和反卷积层之间加入对称跨层连接:设COi表示第i层卷积层输出,DIi代表第i层反卷积层输入,DOi代表第i层反卷积层输出,则跨层连接表示为:
DID-i+1=DOD-i+COi,
则DID+1为网络输出,CO0为网络输入,第一次跨层连接从输入层开始连接到输出层,网络最终层输入与无损图像集合Y中对应图像计算欧氏距离作为之后网络训练的损失函数
其中Xi为图像集X1中第i张图像,Yi为图像集Y中第i张图像,为神经网络代表的函数,N为训练图像数量,θ为网络所有可训练参数,包括卷积层和反卷积层的权重W和偏置b,以及BatchNormalization层权重γ和偏置β。
4.根据权利要求3所述的方法,其特征在于,步骤3包括如下步骤:
步骤3-1,利用ADAM优化算法进行梯度反向传播训练神经网络,学习率设置为1e-4,训练持续n1轮,在第n2轮和第n3轮结束后,学习率分别设置为1e-5和1e-6;
步骤3-2,设图像恢复网络深度为7层,以步骤2-2中方式添加跨层连接,设X0为网络输入,Xi为第i层卷积层输出,跨层链接具体将X1连接到第5层输入,将X0连接到第7层输入,此时在前向计算时,得到图像恢复网络输出X7为:
X7=f7(X0,X6);
步骤3-3,将X7进一步展开表示为:
X7=f7(X0,X6)
=f7(X0,f6(X5))
=f7(X0,f6(f5(X1,X4)))
=f7(X0,f6(f5(X1,f4(X3))))
=f7(X0,f6(f5(X1,f4(fk(X2)))));
步骤3-4,在梯度反向传播时,网络中的第i层直接从其顶层获得梯度来更新该层的参数θi;
步骤3-5,在得到每一层对应顶层的偏导数之后,使用ADAM算法对应的更新规则更新每一层参数,训练在步骤1得到的无类标训练数据集合(X1,Y)上进行,以X1中受破坏图像作为输入,以Y中对应图像作为监督信息以步骤3-4中方法更新参数,直到使用了所有训练数据训练20轮之后停止。
5.根据权利要求4所述方法,其特征在于,步骤4包括:
构建有监督分类网络,先提取步骤3中训练好图像恢复网络卷积层参数,根据输入图像大小构建D/2层网络,每层均为卷积层,步长变化与步骤2中构建网络一致,其中在最后一层卷积层后加入最大值池化层Max-pooling层,在其后根据分类任务类标数量N,N为有监督训练的有类标训练数据集合(X0,Z)中类标向量Z的最大可能取值,加入N类的Softmax层,使用提取的参数,采用直接赋值的方式,将有监督分类网络对应参数初始化。
6.根据权利要求5所述方法,其特征在于,步骤5包括如下步骤:
训练分类网络,将步骤4中构建并初始化的分类网络使用ADAM优化算法在有类标训练数据集合(X0,Z)上进行训练,初始学习率设置为1e-4,训练持续n4轮,在第n5、n6和n7轮结束后,将当前学习率乘以0.2得到新学习率,n4轮后直到网络收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810238288.4A CN108564166A (zh) | 2018-03-22 | 2018-03-22 | 基于带对称跨层连接的卷积神经网络半监督特征学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810238288.4A CN108564166A (zh) | 2018-03-22 | 2018-03-22 | 基于带对称跨层连接的卷积神经网络半监督特征学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108564166A true CN108564166A (zh) | 2018-09-21 |
Family
ID=63532070
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810238288.4A Pending CN108564166A (zh) | 2018-03-22 | 2018-03-22 | 基于带对称跨层连接的卷积神经网络半监督特征学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108564166A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110543563A (zh) * | 2019-08-20 | 2019-12-06 | 暨南大学 | 一种层次型文本分类方法及*** |
CN110598629A (zh) * | 2019-09-11 | 2019-12-20 | 北京百度网讯科技有限公司 | 超网络的搜索空间构建方法、装置以及电子设备 |
WO2020061972A1 (zh) * | 2018-09-27 | 2020-04-02 | 电子科技大学 | 一种基于卷积神经网络的糖尿病视网膜病变诊断技术 |
CN111263226A (zh) * | 2020-01-17 | 2020-06-09 | 中国科学技术大学 | 视频处理方法、装置、电子设备及介质 |
CN112396136A (zh) * | 2019-08-15 | 2021-02-23 | 北京神州泰岳软件股份有限公司 | 一种手写数字识别方法、装置、电子设备和可读存储介质 |
CN114341951A (zh) * | 2019-08-20 | 2022-04-12 | 阿卡蒂科有限公司 | 通过非侵入性手段诊断甲壳类动物的疾病、生理变化或其他内部状况的方法和*** |
CN115147426A (zh) * | 2022-09-06 | 2022-10-04 | 北京大学 | 基于半监督学习的模型训练与图像分割方法和*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106204449A (zh) * | 2016-07-06 | 2016-12-07 | 安徽工业大学 | 一种基于对称深度网络的单幅图像超分辨率重建方法 |
AU2017101166A4 (en) * | 2017-08-25 | 2017-11-02 | Lai, Haodong MR | A Method For Real-Time Image Style Transfer Based On Conditional Generative Adversarial Networks |
CN107316307A (zh) * | 2017-06-27 | 2017-11-03 | 北京工业大学 | 一种基于深度卷积神经网络的中医舌图像自动分割方法 |
CN107784308A (zh) * | 2017-10-09 | 2018-03-09 | 哈尔滨工业大学 | 基于链式多尺度全卷积网络的显著性目标检测方法 |
-
2018
- 2018-03-22 CN CN201810238288.4A patent/CN108564166A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106204449A (zh) * | 2016-07-06 | 2016-12-07 | 安徽工业大学 | 一种基于对称深度网络的单幅图像超分辨率重建方法 |
CN107316307A (zh) * | 2017-06-27 | 2017-11-03 | 北京工业大学 | 一种基于深度卷积神经网络的中医舌图像自动分割方法 |
AU2017101166A4 (en) * | 2017-08-25 | 2017-11-02 | Lai, Haodong MR | A Method For Real-Time Image Style Transfer Based On Conditional Generative Adversarial Networks |
CN107784308A (zh) * | 2017-10-09 | 2018-03-09 | 哈尔滨工业大学 | 基于链式多尺度全卷积网络的显著性目标检测方法 |
Non-Patent Citations (8)
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020061972A1 (zh) * | 2018-09-27 | 2020-04-02 | 电子科技大学 | 一种基于卷积神经网络的糖尿病视网膜病变诊断技术 |
CN112396136A (zh) * | 2019-08-15 | 2021-02-23 | 北京神州泰岳软件股份有限公司 | 一种手写数字识别方法、装置、电子设备和可读存储介质 |
CN110543563A (zh) * | 2019-08-20 | 2019-12-06 | 暨南大学 | 一种层次型文本分类方法及*** |
CN110543563B (zh) * | 2019-08-20 | 2022-03-08 | 暨南大学 | 一种层次型文本分类方法及*** |
CN114341951A (zh) * | 2019-08-20 | 2022-04-12 | 阿卡蒂科有限公司 | 通过非侵入性手段诊断甲壳类动物的疾病、生理变化或其他内部状况的方法和*** |
CN110598629A (zh) * | 2019-09-11 | 2019-12-20 | 北京百度网讯科技有限公司 | 超网络的搜索空间构建方法、装置以及电子设备 |
CN110598629B (zh) * | 2019-09-11 | 2023-06-06 | 北京百度网讯科技有限公司 | 超网络的搜索空间构建方法、装置以及电子设备 |
CN111263226A (zh) * | 2020-01-17 | 2020-06-09 | 中国科学技术大学 | 视频处理方法、装置、电子设备及介质 |
CN111263226B (zh) * | 2020-01-17 | 2021-10-22 | 中国科学技术大学 | 视频处理方法、装置、电子设备及介质 |
CN115147426A (zh) * | 2022-09-06 | 2022-10-04 | 北京大学 | 基于半监督学习的模型训练与图像分割方法和*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564166A (zh) | 基于带对称跨层连接的卷积神经网络半监督特征学习方法 | |
Jia et al. | Focnet: A fractional optimal control network for image denoising | |
Fu et al. | Fast crowd density estimation with convolutional neural networks | |
CN105512289B (zh) | 基于深度学习和哈希的图像检索方法 | |
Wang et al. | I3d-lstm: A new model for human action recognition | |
CN112308158A (zh) | 一种基于部分特征对齐的多源领域自适应模型及方法 | |
CN107862668A (zh) | 一种基于gnn的文物图像复原方法 | |
CN103020122B (zh) | 一种基于半监督聚类的迁移学习方法 | |
CN106355248A (zh) | 一种深度卷积神经网络训练方法及装置 | |
CN104778448B (zh) | 一种基于结构自适应卷积神经网络的人脸识别方法 | |
CN103824309B (zh) | 一种城市建成区边界自动提取方法 | |
CN106228512A (zh) | 基于学习率自适应的卷积神经网络图像超分辨率重建方法 | |
CN106295584A (zh) | 深度迁移学习在人群属性的识别方法 | |
CN107798381A (zh) | 一种基于卷积神经网络的图像识别方法 | |
CN110135386B (zh) | 一种基于深度学习的人体动作识别方法和*** | |
CN110378208B (zh) | 一种基于深度残差网络的行为识别方法 | |
CN108734095A (zh) | 一种基于3d卷积神经网络的动作检测方法 | |
Xu et al. | Recurrent convolutional neural network for video classification | |
CN108537747A (zh) | 一种基于带对称跨层连接的卷积神经网络的图像修复方法 | |
CN110751072B (zh) | 基于知识嵌入图卷积网络的双人交互识别方法 | |
CN110490265A (zh) | 一种基于双路卷积和特征融合的图像隐写分析方法 | |
CN108829810A (zh) | 面向健康舆情的文本分类方法 | |
CN109859131A (zh) | 一种基于多尺度自相似性与共形约束的图像复原方法 | |
Salem et al. | Semantic image inpainting using self-learning encoder-decoder and adversarial loss | |
CN107958259A (zh) | 一种基于卷积神经网络的图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180921 |
|
RJ01 | Rejection of invention patent application after publication |