CN109685119A - 一种随机最大池化深度卷积神经网络噪声图形分类方法 - Google Patents

一种随机最大池化深度卷积神经网络噪声图形分类方法 Download PDF

Info

Publication number
CN109685119A
CN109685119A CN201811500515.2A CN201811500515A CN109685119A CN 109685119 A CN109685119 A CN 109685119A CN 201811500515 A CN201811500515 A CN 201811500515A CN 109685119 A CN109685119 A CN 109685119A
Authority
CN
China
Prior art keywords
network
convolutional neural
random
noise
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811500515.2A
Other languages
English (en)
Other versions
CN109685119B (zh
Inventor
芮挺
费建超
杨成松
唐建
刘建青
芮思琦
齐奕
李华兵
田辉
刘好全
刘华丽
邵发明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Army Engineering University of PLA
Original Assignee
Army Engineering University of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Army Engineering University of PLA filed Critical Army Engineering University of PLA
Priority to CN201811500515.2A priority Critical patent/CN109685119B/zh
Publication of CN109685119A publication Critical patent/CN109685119A/zh
Application granted granted Critical
Publication of CN109685119B publication Critical patent/CN109685119B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种针对含有噪声图像分类的新型深度卷积神经网络方法,主要特点在于采用了随机最大值池化这一新的池化方法。随机最大值池化方法随机选取感受野范围内前n个较大值作为池化结果,首先将感受野范围内的所有值进行排序,选出前n个较大值;然后在前n个较大值中随机选取一个值作为池化结果。随机最大值池化方法结合了最大池化方法和随机池化方法的特点,既能保留感受野内主要特征信息,又能提高网络对感受野内噪声的抑制作用。本发明在CIFAR‑10,SVHN和MNIST数据集上进行验证,取得较好效果。

Description

一种随机最大池化深度卷积神经网络噪声图形分类方法
技术领域
本发明属于计算机视觉技术领域,涉及到针对噪声图像的分类方法,具体为一种基于随机最大值池化的深度卷积神经网络噪声图像分类方法。
背景技术
在计算机视觉领域,图像分类是一项非常重要的研究内容,被广泛应用在人脸识别,汽车自动驾驶等场合。图像分类问题关键的是特征提取,特征提取的好坏直接影响分类精度。传统的图像分类是通过人工设计特征[1-4],如HOG-特征、LBP特征和SIFT特征等来实现。随着科学技术的发展,数据集规模增大,且应用场景不断变化,人工设计特征的过程较为复杂,泛化能力较差,无法满足实时性要求和鲁棒性。
2006年以来,深度学习迅速发展[5-7],在图像分类问题中取得巨大成功。其中,深度卷积神经网络模型应用最为广泛,通过自上而下的非线性数据抽象,来获得用于分类的特征信息,避免了传统人工特征复杂的设计过程。在深度卷积神经网络中,卷积和池化操作操作是提取特征的主要方式。为了获得更好的网络分类性能,研究人员针对卷积核和池化层提出多种改进策略。针对传统卷积核尺寸固定的问题,谷歌团队提出GoogleNet[8],网络使用Bottleneck结构,对网络每一层特征图利用不同尺寸的卷积核进行特征提取,获得了不同尺度的特征信息;为了在参数数量增加较少的情况下获取更加全局性的特征信息,Fisher[9]等人提出空洞卷积,通过分散卷积点,使得卷积点之间存在空洞,增加了卷积核的视野范围;为了能够增加网络的泛化能力,Zeiler[10]于2013年提出随机池化的概念,通过引入概率值,赋予所有节点被选择的可能性。
上述方法的改进均未考虑噪声的影响,而实际应用中,大多数图像是含有噪声信息的。为了减少噪声对网络分类性能的影响,目前常用的解决方案有两种:对输入图像进行去噪和增强网络本身的鲁棒性。图像去噪的方法有基于空间域的中值滤波、基于小波域的小波阈值滤波和基于偏微分方程的图像去噪等。增强网络本身鲁棒性最常用的方法是在训练过程中人为增加特定噪声以提高网络对噪声的“免疫性”,如Goodfellow[11]等人提出对抗网络,Hinton等人提出Dropout[12]。
本发明从特征提取的源头出发,对池化方式进行改进,提出一种基于随机最大值池化的深度卷积神经网络,提高对噪声图像的分类性能。
发明内容
目前深度卷积神经网络针对噪声图像分类的改进方案较少,主要从增强网络模型整体泛化能力的角度进行改进,并未能从特征提取的角度消除噪声对分类性能的影响。
本发明的技术方案为:一种基于随机最大值池化的深度卷积神经网络的噪声图像分类方法,结合了最大池化方法和随机池化方法的特点,既能保留感受野内主要特征信息,又能提高网络对感受野内噪声的抑制作用,包括以下步骤:
1)将实验数据分成训练集和测试集。
2)对训练集和数据集进行数据预处理:
2.1)为了提升网络的检测速度,达到实时性要求,将数据集中所有图片尺寸变换成32×32;
2.2)对训练集和数据集进行对比度归一化处理,归一化的目的是能够使图像具有仿射不变性,并加快网络收敛的速度;
2.3)对训练集和数据集进行白化处理,去除数据之间的相关性,并具有相同的方差,降低输入的冗余性;
3)采用基于随机最大值池化的深度卷积神经网络进行训练和检测:
3.1)在大量实验的基础上,确定网络结构及网络参数,包括卷积层数,特征图的数量和激活函数等;
3.2)利用训练集进行网络训练。为了解决噪声图像中高频信息对网络提取特征过程的干扰,采用随机最大值池化方法进行深度卷积神经网络训练;
3.3)利用训练出来的网络模型对测试集进行测试。
4)将训练好的网络模型作为含噪声图像分类工具。
本发明与现有增强网络模型泛化能力的方法相比,在特征提取过程中对噪声产生抑制作用,减少噪声对网络分类性能的影响。
附图说明
图1为本发明实现流程图
图2为本发明的网络框架图。
图3为本发明不同n值(选取较大值的个数)下的收敛曲线。
图4为本发明与其他三种模型在噪声图像分类中的收敛曲线。
图5为本发明与其他三种模型在CIFAR-10和SVHN中的分类精度。
图6为本发明与其他三种模型在含噪声CIFAR-10和SVHN中的分类精度。
具体实施方式
本发明针对噪声图像提出了一种基于随机最大值池化的深度卷积神经网络图像分类方法,包括以下步骤:
1)将实验数据分成训练集和测试集,训练集用来训练模型,测试集用来检测模型分类性能。
2)对训练集和数据集进行数据预处理:
2.1)为了提升网络的检测速度,达到实时性要求,将数据集中所有图片尺寸变换成32×32,这个尺寸与大多数标准数据集的尺寸一致;
2.2)对训练集和数据集进行对比度归一化处理,归一化的目的是能够使图像具有相同分布,并加快网络收敛的速度。对比度归一化的具体公式如下:
其中,其中μ和σ分别为均值和标准差。
2.3)对训练集和数据集进行白化处理,去除数据之间的相关性,并具有相同的方差,降低输入的冗余性。白化操作的具体公式如下:
其中,xrot,i为数据xi经过PCA变换后的数据,λi为对应特征值。
3)采用随机最大值池化深度卷积神经网络进行训练和检测:
3.1)在大量实验的基础上,确定网络结构及网络参数,包括卷积层数,特征图的数量和激活函数等。本发明采用7层网络结构,包括4个卷积层和3个池化层,4个卷积层的特征图数量依次为32×32×64×64,卷积核大小为4,池化尺寸为3×3,激活函数为ReLu,代价函数为Softmax。网络结构如图1所示。
3.2)利用训练集进行网络训练。采用随机最大值池化方法进行深度卷积神经网络训练。
随机最大值池化方法随机选取感受野范围内前n个较大值作为池化结果。首先将感受野范围内的所有值进行排序,并选出前n个较大值;然后在前n个较大值中随机选取一个值作为池化结果。本发明所提方法计算公式如下:
yrestricted=random(sn).
其中,random函数将随机选取任意一值;sn表示感受野范围内前n个较大值,如果设定n=3,那么在图2中灰色表示的数字即为前3个较大值,随机最大值池化则会从这三个值中随机选择一个作为最终的池化结果。
3.3)利用训练出来的网络模型对测试集进行测试。
4)将训练好的网络模型作为含噪声图像分类工具。
本发明在CIFAR-10和SVHN数据集上与其他几种方法进行比较,包括基于最大值池化的网络(模型A)、基于均值池化的网络(模型B)、基于随机池化的网络(模型C)和基于随机最大值池化的网络(模型D)。
图5展示了当n=3时,上述四种模型的分类性能。从图5中可以看出,本发明所提模型较其他模型,错误率最低,在SVHN和Cifar-10上正确率分别达到 95.1%和78.9%。最大值池化和均值池化模型正确率基本相同,随机池化模型错误率低于前两者,但高于随机最大值池化模型。实验过程中发现n的选择对最终的结果影响较大。为了找出效果最好的n值,设定n=1~9,进行一系列实验。实验结果如图3所示。从图中可以看出,并不是n值越大效果越好,随着n值得增大错误率会逐渐增高,当n=9时,则退化为随机池化,因此错误率会增加。上述实验验证了本发明对分类问题的有效性。为了证明对噪声图片分类的有效性,将SVHN和Cifar-10数据集加入高斯噪声(均值为0,方差为0.1),图6为分类效果。从图6可以看出,本发明所提模型对噪声的测试结果优于其他模型。
实验过程中,如果增大加入图像的高斯噪声强度,则会出现模型A、B、C 不能收敛的情况,而基于本发明所提方法的模型D能继续收敛,进一步证明随机最大值池化对噪声的鲁棒性。图4为增加噪声强度(均值为0,方差为0.1) 后的Cifar-10数据集的四种模型收敛曲线图。
参考文献:
1.Dalal N,Triggs B.Histograms of oriented gradients for humandetection[C]//Computer Vision and Pattern Recognition,2005.CVPR 2005.IEEEComputer Society Conference on.IEEE,2005,1:886-893.
2.Nguyen D T,Li W,Ogunbona P O.Human detection from images andvideos:A survey[J].Pattern Recognition,2016,51:148-175.
3.Kim Y,Ha S,Kwon J.Human detection using Doppler radar based onphysical characteristics of targets[J].IEEE Geoscience and Remote SensingLetters,2015, 12(2):289-293.
4.Aguilar W G,Luna M A,Moya J F,et al.Pedestrian detection for UAVsusing cascade classifiers with meanshift[C]//Semantic Computing(ICSC),2017IEEE 11th International Conference on.IEEE,2017:509-514.
5.Nair V,Hinton G E.Rectified linear units improve restrictedboltzmann machines[C]//Proceedings of the 27th international conference onmachine learning (ICML-10).2010:807-814.
6.P.H.Pinheiro,R.Collobert,Recurrent convolutional neural networksfor scene labeling.,in:ICML,2014,pp.82-90
7.Zhu Y,Mottaghi R,Kolve E,et al.Target-driven visual navigation inindoor scenes using deep reinforcement learning[C]//Robotics and Automation(ICRA),2017 IEEE International Conference on.IEEE,2017:3357-3364.
8.Szegedy C,Liu W,Jia Y,et al.Going deeper with convolutions[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2015:1-9.
9.Yu F,Koltun V.Multi-scale context aggregation by dilatedconvolutions[J].arXiv preprint arXiv:1511.07122,2015.
10.Zeiler M D,Fergus R.Stochastic Pooling for Regularization of DeepConvolutional Neural Networks[J].Eprint Arxiv,2013.
11.Goodfellow I J,Pougetabadie J,Mirza M,et al.Generative AdversarialNetworks[J]. Advances in Neural Information Processing Systems,2014,3:2672-2680.
12.Srivastava N,Hinton G,Krizhevsky A,et al.Dropout:a simple way toprevent neural networks from overfitting[J].Journal of Machine LearningResearch,2014, 15(1):1929-1958。

Claims (1)

1.一种基于随机最大值池化的深度卷积神经网络噪声图像分类方法,其特征在于针对噪声图像分类,首先对其进行预处理,然后通过基于随机最大值池化的深度卷积神经网络进行模型训练,利用训练好的深度卷积神经网络模型进行噪声图像分类,包括以下步骤:
1)将数据集分成训练集和测试集。
2)对训练集和数据集进行数据预处理:
2.1)为了提升网络的检测速度,达到实时性要求,将数据集中所有图片尺寸变换成32×32;
2.2)对训练集和数据集进行对比度归一化处理,归一化的目的是能够使图像具有仿射不变性,并加快网络收敛的速度;
2.3)对训练集和数据集进行白化处理,去除数据之间的相关性,并具有相同的方差,降低输入的冗余性。
3)采用基于随机最大值池化的深度卷积神经网络进行训练和检测:
3.1)在大量实验的基础上,确定网络结构及网络参数,包括卷积层数,特征图的数量和激活函数等;
3.2)利用训练集进行网络训练。为了解决噪声图片中高频信息对网络提取特征过程的干扰,采用随机最大值池化方法进行深度卷积神经网络训练;
3.3)利用训练出来的网络模型对测试集进行测试,确定网络性能。
4)将训练好的网络模型作为含噪声图像分类工具。
CN201811500515.2A 2018-12-07 2018-12-07 一种随机最大池化深度卷积神经网络噪声图形分类方法 Active CN109685119B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811500515.2A CN109685119B (zh) 2018-12-07 2018-12-07 一种随机最大池化深度卷积神经网络噪声图形分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811500515.2A CN109685119B (zh) 2018-12-07 2018-12-07 一种随机最大池化深度卷积神经网络噪声图形分类方法

Publications (2)

Publication Number Publication Date
CN109685119A true CN109685119A (zh) 2019-04-26
CN109685119B CN109685119B (zh) 2023-05-23

Family

ID=66187397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811500515.2A Active CN109685119B (zh) 2018-12-07 2018-12-07 一种随机最大池化深度卷积神经网络噪声图形分类方法

Country Status (1)

Country Link
CN (1) CN109685119B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634159A (zh) * 2020-12-23 2021-04-09 中国海洋大学 基于盲噪声估计的高光谱图像去噪方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103996056A (zh) * 2014-04-08 2014-08-20 浙江工业大学 一种基于深度学习的纹身图像分类方法
CN105139028A (zh) * 2015-08-13 2015-12-09 西安电子科技大学 基于分层稀疏滤波卷积神经网络的sar图像分类方法
CN106650786A (zh) * 2016-11-14 2017-05-10 沈阳工业大学 基于多列卷积神经网络模糊评判的图像识别方法
CN107341518A (zh) * 2017-07-07 2017-11-10 东华理工大学 一种基于卷积神经网络的图像分类方法
CN108596258A (zh) * 2018-04-27 2018-09-28 南京邮电大学 一种基于卷积神经网络随机池化的图像分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103996056A (zh) * 2014-04-08 2014-08-20 浙江工业大学 一种基于深度学习的纹身图像分类方法
CN105139028A (zh) * 2015-08-13 2015-12-09 西安电子科技大学 基于分层稀疏滤波卷积神经网络的sar图像分类方法
CN106650786A (zh) * 2016-11-14 2017-05-10 沈阳工业大学 基于多列卷积神经网络模糊评判的图像识别方法
CN107341518A (zh) * 2017-07-07 2017-11-10 东华理工大学 一种基于卷积神经网络的图像分类方法
CN108596258A (zh) * 2018-04-27 2018-09-28 南京邮电大学 一种基于卷积神经网络随机池化的图像分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
YUCHI HUANG 等: ""Channel-Max, Channel-Drop and Stochastic Max-pooling"", 《IEEE》 *
史天予等: "增强层次CNN模型在目标识别应用中的研究", 《光电技术应用》 *
周林勇等: "卷积神经网络池化方法研究", 《计算机工程》 *
张皓等: "集成最大汇合:最大汇合时只有最大值有用吗", 《中国科学技术大学学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634159A (zh) * 2020-12-23 2021-04-09 中国海洋大学 基于盲噪声估计的高光谱图像去噪方法
CN112634159B (zh) * 2020-12-23 2022-07-26 中国海洋大学 基于盲噪声估计的高光谱图像去噪方法

Also Published As

Publication number Publication date
CN109685119B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
US11195051B2 (en) Method for person re-identification based on deep model with multi-loss fusion training strategy
Zhang et al. Adaptive graph convolutional network with attention graph clustering for co-saliency detection
Bergmann et al. Improving unsupervised defect segmentation by applying structural similarity to autoencoders
Kim et al. End-to-end ego lane estimation based on sequential transfer learning for self-driving cars
Han et al. A unified metric learning-based framework for co-saliency detection
Crowley et al. In search of art
Alvarez et al. Road scene segmentation from a single image
Mathur et al. Crosspooled FishNet: transfer learning based fish species classification model
Li et al. Pedestrian detection based on deep learning model
Ren et al. 3d-a-nets: 3d deep dense descriptor for volumetric shapes with adversarial networks
Funk et al. Beyond planar symmetry: Modeling human perception of reflection and rotation symmetries in the wild
US20230070439A1 (en) Managing occlusion in siamese tracking using structured dropouts
CN111881731A (zh) 基于人体骨架的行为识别方法、***、装置及介质
CN104050460B (zh) 多特征融合的行人检测方法
Liang et al. Deep infrared pedestrian classification based on automatic image matting
Shang et al. Image spam classification based on convolutional neural network
Fan Research and realization of video target detection system based on deep learning
CN114332544A (zh) 一种基于图像块评分的细粒度图像分类方法和装置
Khellal et al. Pedestrian classification and detection in far infrared images
CN111882000A (zh) 一种应用于小样本细粒度学习的网络结构及方法
AlBasiouny et al. Robust visual tracking using very deep generative model
Ammous et al. Improved YOLOv3-tiny for silhouette detection using regularisation techniques.
CN109685119A (zh) 一种随机最大池化深度卷积神经网络噪声图形分类方法
Zhou et al. Feature extraction based on local directional pattern with svm decision-level fusion for facial expression recognition
Vepuri Improving facial emotion recognition with image processing and deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant