CN110472542A - 一种基于深度学习的红外图像行人检测方法及检测*** - Google Patents
一种基于深度学习的红外图像行人检测方法及检测*** Download PDFInfo
- Publication number
- CN110472542A CN110472542A CN201910716970.4A CN201910716970A CN110472542A CN 110472542 A CN110472542 A CN 110472542A CN 201910716970 A CN201910716970 A CN 201910716970A CN 110472542 A CN110472542 A CN 110472542A
- Authority
- CN
- China
- Prior art keywords
- network
- infrared image
- detection
- fidn
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 105
- 238000013135 deep learning Methods 0.000 title claims abstract description 10
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 43
- 238000012549 training Methods 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 239000011248 coating agent Substances 0.000 claims description 4
- 238000000576 coating method Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000013480 data collection Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims description 3
- 239000003550 marker Substances 0.000 claims description 3
- 238000002156 mixing Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 3
- 238000003475 lamination Methods 0.000 claims description 2
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 238000005096 rolling process Methods 0.000 claims 1
- 230000008901 benefit Effects 0.000 abstract description 5
- 238000013461 design Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 239000013065 commercial product Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003331 infrared imaging Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000001931 thermography Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供一种基于深度学习的红外图像行人检测方法及检测***,属于计算机视觉技术领域。本发明红外图像行人检测方法包括如下步骤:获取数据和数据预处理;基于卷积神经网络构建目标检测FIDN网络;基于卷积神经网络构建目标检测FIDN网络;基于最优模型预测,本发明还提供一种实现所述红外图像行人检测方法的检测***。本发明的有益效果为:确保高精度的同时能满足实时性要求,鲁棒性强。
Description
技术领域
本发明涉及一种图像检测方法,尤其涉及一种基于深度学习的红外图像行人检测方法及检测***。
背景技术
目标检测是计算机视觉领域中一个重要的课题,主要任务是从图像中定位感兴趣的目标,需要准确地判断每个目标的具体类别,并给出每个目标的边界框。由于视角、遮挡、姿态等因素引起目标发生形变,导致目标检测成为一个具有挑战性的任务。
传统目标检测方法主要分为预处理、窗口滑动、特征提取、特征选择、特征分类和后处理六个步骤。传统目标检测一般是通过设计一些较好的人工特征,然后使用分类器进行分类。随着目标检测精度和速度要求越来越高,传统方法已经不能满足需求了。近年来,深度学***均精度均值)度量),会设计出很复杂的网络加一些很复杂的方法和一些训练技巧,然后在公开数据集上得到一个较好的成绩,但是这很难直接应用到实际中去。红外成像是依靠红外传感器的热成像性能来获取图像的,只取决于物体的温度和其所辐射的热量。因此在夜晚、雨天或雾霾等光线强度不足的情况下,红外图像相较于可见光图像有明显的优势。人体目标作为环境中最主要、最活跃的因素,一直以来都是目标跟踪和检测领域的研究热点,而人体目标的非刚性,加之红外图像自身的缺点,使得基于红外图像的行人检测充满了困难与挑战。
发明内容
为解决现有技术中的问题,本发明提供一种基于深度学习的红外图像行人检测方法及检测***,确保高精度的同时能满足实时性要求。
本发明基于深度学习的红外图像行人检测方法包括如下步骤:
步骤S1:获取数据和数据预处理:获取包含行人的红外图像,对红外图像进行预处理,并对预处理后的红外图像进行人工标注,然后按照设定比例划分为检测模型的训练集和验证集;
步骤S2:基于卷积神经网络构建目标检测FIDN网络:所述目标检测FIDN网络包括若干层卷积层和最大池化层,及设置在卷积层和最大池化层后面的扩张卷积层,卷积层的堆叠中,当通道数达到设定值时,扩张卷积层的通道数不再增加;
步骤S3:模型训练:使用训练集对目标检测FIDN网络进行模型训练,并选出在验证集表现最优的最优模型;
步骤S4:最优模型预测:基于最优模型,在GPU服务器上进行预测,实现对视频流进行目标检测。
本发明作进一步改进,步骤S2中,所述目标检测FIDN网络还包括自适应特征图通道加权模块,设置在扩张卷积层输出端,用于对扩张卷积层输出的特征图的通道加权。
本发明作进一步改进,所述自适应特征图通道加权模块的处理方法为:
A1:使用一个全局池化层把特征图压缩为1*1*C,其中,C表示特征图的通道数;
A2:使用全连接层把通道数压缩为C/16;
A3:通过Relu激活函数,使用全连接层把通道数还原为C;
A4:输出结果接sigmoid激活层,得到一个1*1*C的权重向量,经过sigmoid函数处理,所述权重向量内的权重取值在0-1之间;
A5:采用权重对特征图通道维度进行加权。
本发明作进一步改进,步骤S1中,所述预处理包括中值滤波处理,中值滤波公式如下:
g(x,y)=median{f(x-k,y-l),(k,l)∈W}
其中,f(x,y)和g(x,y)分别为原始图像和处理后图像,W为二维模板。
本发明作进一步改进,人工标注是使用标注工具将每一张图片中的行人都用矩形框框出,矩形框为目标行人的最小外接矩形,对应产生的XML文件,在XML文件中,记录图中每个目标的坐标,包含左上角坐标x,左上角坐标y,宽度w和高度h,同时删掉图片模糊或者难以标注的图片,将上述数据混合,按照9:1的比例划分为检测模型的训练集和验证集。
本发明作进一步改进,步骤S2中,所述目标检测FIDN网络由7层1*1卷积或者3*3卷积网络构成的全卷积网络,图像上的候选框是在直接在原图像上产生,生成方法如下:
B1:直接把原图像分为S*S个区域,其中S为最后一个卷积的特征图的大小;
B2:在每个区域生成若干个长宽比不同的候选框,具体长宽比根据数据集标记的矩形框使用k-means算法得到;
B3:根据实际数据集计算先验候选框的尺寸分布,使用(1-IoU)作为距离度量,其中IoU表示先验候选框与标记的矩形框之间面积的交并比,计算公式如下:
其中,A表示先验候选框,B表示标记的矩形框,∩表示A与B的交集,∪表示A与B的并集。
本发明作进一步改进,所述目标检测FIDN网络以轻量级卷积神经网络作为骨干网络,根据目标检测算法,使用一个1*1的卷积进行预测,所述目标检测算法的定位损失函数为:
其中,λ是一个控制定位损失在总的损失占比的系数,S表示最后卷积的特征图的大小,A表示每个区域生成锚框的个数,是一个0-1函数,如果第i行j列的区域有目标,取值为1,否则取值0,x,y,h,w分别表示中心点的坐标、预测框的高和宽,其中下标带^表示是真实值,没带^的表示预测值。
本发明作进一步改进,步骤S3中,所述模型训练是指从零开始训练,权重参数使用随机初始化的方法,通过左右翻转、随机裁剪、色彩抖动对数据进行数据增强操作,通过不断调整学习率、批量大小、优化方法的超参数来训练目标检测FIDN网络。
本发明作进一步改进,步骤S4中,所述预测方法为:构建网络的前向推断过程,输入参数为图像数据、返回为预测结果,在对视频进行目标检测时,加入卡尔曼滤波器进行跟踪。
本发明还提供一种实现所述红外图像行人检测方法的检测***,包括:
获取数据模块:用于获取包含行人的红外图像;
数据预处理模块:用于对红外图像进行预处理,并对预处理后的红外图像进行人工标注,然后按照设定比例划分为检测模型的训练集和验证集;
构建目标检测FIDN网络模块:用于基于卷积神经网络构建目标检测FIDN网络,所述目标检测FIDN网络包括若干层卷积层和最大池化层,及设置在卷积层和最大池化层后面的扩张卷积层,卷积层的堆叠中,当通道数达到设定值时,扩张卷积层的通道数不再增加;
模型训练模块:用于使用训练集对目标检测FIDN网络进行模型训练,并选出在验证集表现最优的最优模型;
最优模型预测模块:基于最优模型,在GPU服务器上进行预测,实现对视频流进行目标检测。
与现有技术相比,本发明的有益效果是:充分利用了深度学习准确度高的性质,鲁棒性好,能够适应外界环境的各种变化。通过设计构建FIDN网络,具有较高的精度和极低的计算量,在GPU上可以达到180fps,即使在CPU上也有18fps左右,保证了实时性的要求,具有很高的实用性。
附图说明
图1为本发明方法流程图;
图2为目标检测FIDN网络结构示意图;
图3为特征图通道加权模块处理方法流程图;
图4为原红外图像;
图5为检测后的图像。
具体实施方式
下面结合附图和实施例对本发明做进一步详细说明。
如图1所示,本发明方法构建了FIDN(Fast-Infared-Detect-Network,快速红外目标检测)深度神经网络,包括如下步骤:
步骤S1:获取数据和数据预处理:获取包含行人的红外图像,对红外图像进行预处理,并对预处理后的红外图像进行人工标注,然后按照设定比例划分为检测模型的训练集和验证集。
获取大量包含行人的图片后,因为红外图像通常成像质量不好,需要做一些预处理,然后对于处理之后的红外图像做好人工标注,标注包含两个部分,目标类别和目标包围框。
步骤S2:基于卷积神经网络构建目标检测FIDN网络(简称FIDN网络):所述目标检测FIDN网络包括若干层卷积层和最大池化层,及设置在卷积层和最大池化层后面的扩张卷积层,卷积层的堆叠中,当通道数达到设定值时,扩张卷积层的通道数不再增加;
步骤S3:模型训练:使用训练集对目标检测FIDN网络进行模型训练,并选出在验证集表现最优的最优模型;
步骤S4:最优模型预测:基于最优模型,在GPU服务器上进行预测,实现对视频流进行目标检测,在GPU上可以达到180fps(视频实时检测速度,每秒检测的帧数)以上,具体的预测流程见图3。
在步骤S1中,所述预处理包括中值滤波处理。由于受到外界环境和红外相机成像原理影响,红外图像成像过程会产生较多的噪声,导致图片成像质量不佳,清晰度不够,增加对行人检测和识别的难度,所以在开始要对图像进行预处理和滤除噪声。中值滤波公式如下:
g(x,y)=median{f(x-k,y-l),(k,l)∈W}
其中,f(x,y)和g(x,y)分别为原始图像和处理后图像,W为二维模板,k,l分别为W中的二维值。
本例的人工标注是指:使用标注工具将每一张图片中的行人都用矩形框框出,矩形框为目标行人的最小外接矩形,对应产生的XML文件。在XML文件中,记录图中每个目标的坐标,包含左上角坐标x,左上角坐标y,宽度w和高度h,同时删掉图片模糊或者难以标注的图片。将上述数据混合,按照9:1的比例划分为检测模型的训练集和验证集,训练集用于模型训练,验证集不参与模型训练,用于验证模型的训练效果。
步骤S2中,所述的FIDN网络是由7层1*1卷积或者3*3卷积网络构成的全卷积网络。本方法的整个流程是一个单阶段检测器,没有在网络中专门产生候选框,本方法的候选框是在直接在原图上产生的,生成方法如下,直接把原图分为S*S个部分(其中S为最后一个卷积的特征图的大小,通常为13*13,原图是416*416),然后在每个区域生成5个长宽比不同的候选框,具体长宽比是根据数据集标记框使用k-means算法得到的。根据实际数据集计算anchors(先验候选框)的尺寸分布,该分布由K-means算法得到,使用(1-IoU)作为距离度量,其中IoU表示先验候选框与标记框之间面积的交并比。计算公式如下:
其中,A表示先验候选框,B表示标记的矩形框,∩表示A与B的交集,∪表示A与B的并集。
如图2所示,其中conv表示卷积层,Dilated conv表示扩张卷积,maxpool是最大值池化,预测部分是一个1*1的卷积,本例的目标检测FIDN网络所述目标检测FIDN网络包括5层卷积层和最大池化层,及设置在卷积层和最大池化层后面的2个扩张卷积层,卷积层的堆叠中,当通道数达到设定值256时,扩张卷积层的通道数256不再增加。
最后两个卷积层使用Dilated Convolution(扩张卷积),扩张卷积的最大优点在于不做池化或者下采样的操作,可以增大感受野,让每个卷积输出都包含较大范围的信息,同时尽可能保留较大的特征图和图像的空间信息,这对于小目标检测非常关键。对于目标检测问题,使用扩张卷积可以极大的保留空间信息。使用扩张卷积时,由于特征图不减小,这会极大增加计算量,与一般的网络结构不同,FIDN网络在最后一个模块里,所有卷积的通道数都设置为256,由于压缩了层数,我们在该层卷积之后附加了一个自适应特征图通道加权模块,自适应特征图通道加权模块,设置在扩张卷积层输出端,用于对扩张卷积层输出的特征图的通道加权。
如图3所示,所述自适应特征图通道加权模块的处理方法为:
A1:使用一个全局池化层把特征图压缩为1*1*C,其中,C表示特征图的通道数,此处为256;
A2:使用全连接层把通道数压缩为C/16;
A3:再接Relu激活函数,通过Relu激活函数,使用全连接层把通道数还原为C;
A4:输出结果接sigmoid激活层,相当于得到了一个1*1*C的权重向量,经过sigmoid函数处理,所述权重向量内的权重取值在0-1之间,作为之前卷积层输出特征图的通道加权,让网络自己学习通道的权重,因为特征图这么多通道中不同的通道有不同作用和不同的重要程度;
A5:采用权重对特征图通道维度进行加权,
图3中,conv表示卷积层,avgpool表示平均池化层,fc表示全连接层,ReLU表示使用relu函数作为激活函数,Sigmoid表示使用sigmoid函数作为激活层。ReWeight表示根据右边支路得到的权重对特征图通道维度进行加权。
实验证明,该卷积层通道数是256(记为FIDN-256网络)和通道数是1024(记为FIDN-1024网络)相比,在自建数据集上,检测精度分别为80.1%(FIDN-256网络)和80.6%(FIND-1024网络)。整个FIDN网络结构见图2所示,整个网络以轻量级卷积神经网络作为骨干网络,检测部分与大部分常见的一步目标检测算法类似,使用一个全连接层进行预测,FIDN使用一个1*1的卷积进行预测。本例在网络的损失函数部分做了改进,在目标检测算法中,损失函数通常包含两个部分,分别为定位损失和分类识别损失。对于定位损失,考虑到不同大小的目标检测框对损失的影响是不一样的,因此,本例设置了如下的定位损失函数:
其中,λ是一个控制定位损失在总的损失占比的系数,默认是5,因为定位损失相对分类损失更重要,所以占比更重。S表示最后卷积的特征图的大小,A表示每个区域生成锚框的个数,默认是5,是一个0-1函数,如果第i行j列的区域有目标,取值为1,否则取值0.x,y,h,w分别表示中心点的坐标,和预测框的高和宽,其中下标带了^表示是真实值,没带的表示预测值。
步骤S3中,所述模型训练是指从零开始训练,因为网络比较小,直接从零开始训练也很快,也没有过拟合风险,直接在步骤S1中的数据集上进行训练,权重参数全部使用随机初始化的方法,对数据进行水平翻转、随机裁剪、色彩抖动等数据增强操作,不断调整学习率、批量大小(batch_size)、优化方法等超参数来训练FIDN网络。
所述最优模型是:在训练过程,每经过1轮(1轮是指数据集中所有图片都被训练一次)存储一次模型,一般情况,训练60轮即可。并将该模型在验证集测试,根据行人检测的精度mAP选择最优模型。
步骤S4中,所述的预测方法是:构建网络的前向推断过程,前向推断过程的网络结构与训练时的结构是相同的,只是没有计算损失和回传损失的过程。输入参数为图像数据、返回为预测结果,输入图片做一个简单的预处理,然后传给网络的输入,该网络可以自适应任何尺寸的图片,网络内部会自动做缩放。并可以进行一定后处理,在对视频进行目标检测时,通过加入卡尔曼滤波器进行跟踪,使得检测过程更加平滑和稳定。对图4经过本发明的目标检测方法检测的结果如图5所示。
本发明的基于深度学习红外行人检测方法充分利用了深度学习准确度高的性质,鲁棒性好,能够适应外界环境的各种变化。通过设计构建FIDN网络,该网络有较高的精度和极低的计算量,在GPU上可以达到180fps,即使在CPU上也有18fps左右,保证了实时性的要求,具有很高的实用性。
本发明具有以下两点主要创新点:
(1)设计新的目标检测网络FIDN。本方法提出了一种新的高效目标检测网络,用于红外图像行人检测,是一种单阶段目标检测方法,通过k-means方法得到数据集的先验候选框的分布,然后使用回归的方法进行目标框的定位。整个网络只有7个卷积层(不包括通道加权的部分),包含一些卷积层和最大池化层,然后最后使用扩张卷积不减小特征图的尺寸和足够的感受野,对行人检测的精度提升有帮助。在卷积层的堆叠中,并没有像常规网络那样一直把通道数进行翻倍,当通道数为256时,通道数就不再增加,这样可以极大减少计算量。
(2)设计自适应特征图通道加权方法。由于在设计网络时,没有像常规做法对通道数进行翻倍,这样做减少了特征图通道数,会对效果有一定影响,本发明设计了一个自适应特征图通道加权的方法,因为特征图的通道数通常很多,几百甚至上千,但是他们提供的信息和重要程度是不一样的,而本发明设计的自适应特征图通道加权方法可以通过网络自己学习出一套加权参数,然后融入到特征图中,并且这个方法有一定的通用性,可以加到很多网络中,可以自由选择加到部分卷积层后面进行特征图通道加权。
以上所述之具体实施方式为本发明的较佳实施方式,并非以此限定本发明的具体实施范围,本发明的范围包括并不限于本具体实施方式,凡依照本发明所作的等效变化均在本发明的保护范围内。
Claims (10)
1.一种基于深度学习的红外图像行人检测方法,其特征在于,所述红外图像行人检测方法包括如下步骤:
步骤S1:获取数据和数据预处理:获取包含行人的红外图像,对红外图像进行预处理,并对预处理后的红外图像进行人工标注,然后按照设定比例划分为检测模型的训练集和验证集;
步骤S2:基于卷积神经网络构建目标检测FIDN网络:所述目标检测FIDN网络包括若干层卷积层和最大池化层,及设置在卷积层和最大池化层后面的扩张卷积层,卷积层的堆叠中,当通道数达到设定值时,扩张卷积层的通道数不再增加;
步骤S3:模型训练:使用训练集对目标检测FIDN网络进行模型训练,并选出在验证集表现最优的最优模型;
步骤S4:最优模型预测:基于最优模型,在GPU服务器上进行预测,实现对视频流进行目标检测。
2.根据权利要求1所述的红外图像行人检测方法,其特征在于:步骤S2中,所述目标检测FIDN网络还包括自适应特征图通道加权模块,设置在扩张卷积层输出端,用于对扩张卷积层输出的特征图的通道加权。
3.根据权利要求2所述的红外图像行人检测方法,其特征在于:所述自适应特征图通道加权模块的处理方法为:
A1:使用一个全局池化层把特征图压缩为1*1*C,其中,C表示特征图的通道数;
A2:使用全连接层把通道数压缩为C/16;
A3:通过Relu激活函数,使用全连接层把通道数还原为C;
A4:输出结果接sigmoid激活层,得到一个1*1*C的权重向量,经过sigmoid函数处理,所述权重向量内的权重取值在0-1之间;
A5:采用权重对特征图通道维度进行加权。
4.根据权利要求1-3任一项所述的红外图像行人检测方法,其特征在于:步骤S1中,所述预处理包括中值滤波处理,中值滤波公式如下:
g(x,y)=median{fx-k,y-l),(k,l)∈W}
其中,f(x,y)和g(x,y)分别为原始图像和处理后图像,W为二维模板。
5.根据权利要求4所述的红外图像行人检测方法,其特征在于:人工标注是使用标注工具将每一张图片中的行人都用矩形框框出,矩形框为目标行人的最小外接矩形,对应产生的XML文件,在XML文件中,记录图中每个目标的坐标,包含左上角坐标x,左上角坐标y,宽度w和高度h,同时删掉图片模糊或者难以标注的图片,将上述数据混合,按照9:1的比例划分为检测模型的训练集和验证集。
6.根据权利要求5所述的红外图像行人检测方法,其特征在于:步骤S2中,所述目标检测FIDN网络由7层1*1卷积或者3*3卷积网络构成的全卷积网络,图像上的候选框是在直接在原图像上产生,生成方法如下:
B1:直接把原图像分为S*S个区域,其中S为最后一个卷积的特征图的大小;
B2:在每个区域生成若干个长宽比不同的候选框,具体长宽比根据数据集标记的矩形框使用k-means算法得到;
B3:根据实际数据集计算先验候选框的尺寸分布,使用(1-IoU)作为距离度量,其中IoU表示先验候选框与标记的矩形框之间面积的交并比,计算公式如下:
其中,A表示先验候选框,B表示标记的矩形框,∩表示A与B的交集,∪表示A与B的并集。
7.根据权利要求6所述的红外图像行人检测方法,其特征在于:所述目标检测FIDN网络以轻量级卷积神经网络作为骨干网络,根据目标检测算法,使用一个1*1的卷积进行预测,所述目标检测算法的定位损失函数为:
其中,λ是一个控制定位损失在总的损失占比的系数,S表示最后卷积的特征图的大小,A表示每个区域生成锚框的个数,是一个0-1函数,如果第i行j列的区域有目标,取值为1,否则取值0,x,y,h,w分别表示中心点的坐标、预测框的高和宽,其中下标带^表示是真实值,没带^的表示预测值。
8.根据权利要求1-3任一项所述的红外图像行人检测方法,其特征在于:步骤S3中,所述模型训练是指从零开始训练,权重参数使用随机初始化的方法,通过左右翻转、随机裁剪、色彩抖动对数据进行数据增强操作,通过不断调整学习率、批量大小、优化方法的超参数来训练目标检测FIDN网络。
9.根据权利要求8所述的红外图像行人检测方法,其特征在于:步骤S4中,所述预测方法为:构建网络的前向推断过程,输入参数为图像数据、返回为预测结果,在对视频进行目标检测时,加入卡尔曼滤波器进行跟踪。
10.一种实现权利要求1-9任一项所述的红外图像行人检测方法的检测***,其特征在于,包括:
获取数据模块:用于获取包含行人的红外图像;
数据预处理模块:用于对红外图像进行预处理,并对预处理后的红外图像进行人工标注,然后按照设定比例划分为检测模型的训练集和验证集;
构建目标检测FIDN网络模块:用于基于卷积神经网络构建目标检测FIDN网络,所述目标检测FIDN网络包括若干层卷积层和最大池化层,及设置在卷积层和最大池化层后面的扩张卷积层,卷积层的堆叠中,当通道数达到设定值时,扩张卷积层的通道数不再增加;
模型训练模块:用于使用训练集对目标检测FIDN网络进行模型训练,并选出在验证集表现最优的最优模型;
最优模型预测模块:基于最优模型,在GPU服务器上进行预测,实现对视频流进行目标检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910716970.4A CN110472542A (zh) | 2019-08-05 | 2019-08-05 | 一种基于深度学习的红外图像行人检测方法及检测*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910716970.4A CN110472542A (zh) | 2019-08-05 | 2019-08-05 | 一种基于深度学习的红外图像行人检测方法及检测*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110472542A true CN110472542A (zh) | 2019-11-19 |
Family
ID=68509998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910716970.4A Pending CN110472542A (zh) | 2019-08-05 | 2019-08-05 | 一种基于深度学习的红外图像行人检测方法及检测*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110472542A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111105372A (zh) * | 2019-12-10 | 2020-05-05 | 北京都是科技有限公司 | 热红外图像处理器、***、方法及装置 |
CN111259736A (zh) * | 2020-01-08 | 2020-06-09 | 上海海事大学 | 一种基于深度学习的复杂环境下行人实时检测方法 |
CN112101434A (zh) * | 2020-09-04 | 2020-12-18 | 河南大学 | 基于改进YOLO v3的红外图像弱小目标检测方法 |
CN112102394A (zh) * | 2020-09-17 | 2020-12-18 | 中国科学院海洋研究所 | 基于深度学习的遥感图像舰船尺寸一体化提取方法 |
CN112307955A (zh) * | 2020-10-29 | 2021-02-02 | 广西科技大学 | 一种基于ssd红外图像行人检测的优化方法 |
CN112464884A (zh) * | 2020-12-11 | 2021-03-09 | 武汉工程大学 | 一种adas红外夜视方法和夜视*** |
CN112488165A (zh) * | 2020-11-18 | 2021-03-12 | 杭州电子科技大学 | 一种基于深度学习模型的红外行人识别方法及*** |
CN112733589A (zh) * | 2020-10-29 | 2021-04-30 | 广西科技大学 | 一种基于深度学习的红外图像行人检测方法 |
CN112949633A (zh) * | 2021-03-05 | 2021-06-11 | 中国科学院光电技术研究所 | 一种基于改进YOLOv3的红外目标检测方法 |
CN113159277A (zh) * | 2021-03-09 | 2021-07-23 | 北京大学 | 目标检测方法、装置及设备 |
CN113408471A (zh) * | 2021-07-02 | 2021-09-17 | 浙江传媒学院 | 一种基于多任务深度学习的无绿幕人像实时抠图算法 |
CN114299429A (zh) * | 2021-12-24 | 2022-04-08 | 宁夏广天夏电子科技有限公司 | 一种基于深度学习的人体识别方法、***及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106096561A (zh) * | 2016-06-16 | 2016-11-09 | 重庆邮电大学 | 基于图像块深度学习特征的红外行人检测方法 |
CN106845430A (zh) * | 2017-02-06 | 2017-06-13 | 东华大学 | 基于加速区域卷积神经网络的行人检测与跟踪方法 |
CN109086678A (zh) * | 2018-07-09 | 2018-12-25 | 天津大学 | 一种基于深度监督学习提取图像多级特征的行人检测方法 |
US20190114511A1 (en) * | 2017-10-16 | 2019-04-18 | Illumina, Inc. | Deep Learning-Based Techniques for Training Deep Convolutional Neural Networks |
CN109902677A (zh) * | 2019-01-30 | 2019-06-18 | 深圳北斗通信科技有限公司 | 一种基于深度学习的车辆检测方法 |
CN109961009A (zh) * | 2019-02-15 | 2019-07-02 | 平安科技(深圳)有限公司 | 基于深度学习的行人检测方法、***、装置及存储介质 |
-
2019
- 2019-08-05 CN CN201910716970.4A patent/CN110472542A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106096561A (zh) * | 2016-06-16 | 2016-11-09 | 重庆邮电大学 | 基于图像块深度学习特征的红外行人检测方法 |
CN106845430A (zh) * | 2017-02-06 | 2017-06-13 | 东华大学 | 基于加速区域卷积神经网络的行人检测与跟踪方法 |
US20190114511A1 (en) * | 2017-10-16 | 2019-04-18 | Illumina, Inc. | Deep Learning-Based Techniques for Training Deep Convolutional Neural Networks |
CN109086678A (zh) * | 2018-07-09 | 2018-12-25 | 天津大学 | 一种基于深度监督学习提取图像多级特征的行人检测方法 |
CN109902677A (zh) * | 2019-01-30 | 2019-06-18 | 深圳北斗通信科技有限公司 | 一种基于深度学习的车辆检测方法 |
CN109961009A (zh) * | 2019-02-15 | 2019-07-02 | 平安科技(深圳)有限公司 | 基于深度学习的行人检测方法、***、装置及存储介质 |
Non-Patent Citations (2)
Title |
---|
张顺 等: "深度卷积神经网络的发展及其在计算机视觉领域的应用", 《计算机学报》 * |
耿磊 等: "结合深度可分离卷积与通道加权的全卷积神经网络视网膜图像血管分割" * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111105372A (zh) * | 2019-12-10 | 2020-05-05 | 北京都是科技有限公司 | 热红外图像处理器、***、方法及装置 |
CN111259736A (zh) * | 2020-01-08 | 2020-06-09 | 上海海事大学 | 一种基于深度学习的复杂环境下行人实时检测方法 |
CN111259736B (zh) * | 2020-01-08 | 2023-04-07 | 上海海事大学 | 一种基于深度学习的复杂环境下行人实时检测方法 |
CN112101434B (zh) * | 2020-09-04 | 2022-09-09 | 河南大学 | 基于改进YOLO v3的红外图像弱小目标检测方法 |
CN112101434A (zh) * | 2020-09-04 | 2020-12-18 | 河南大学 | 基于改进YOLO v3的红外图像弱小目标检测方法 |
CN112102394A (zh) * | 2020-09-17 | 2020-12-18 | 中国科学院海洋研究所 | 基于深度学习的遥感图像舰船尺寸一体化提取方法 |
CN112307955A (zh) * | 2020-10-29 | 2021-02-02 | 广西科技大学 | 一种基于ssd红外图像行人检测的优化方法 |
CN112733589A (zh) * | 2020-10-29 | 2021-04-30 | 广西科技大学 | 一种基于深度学习的红外图像行人检测方法 |
CN112488165A (zh) * | 2020-11-18 | 2021-03-12 | 杭州电子科技大学 | 一种基于深度学习模型的红外行人识别方法及*** |
CN112464884A (zh) * | 2020-12-11 | 2021-03-09 | 武汉工程大学 | 一种adas红外夜视方法和夜视*** |
CN112949633A (zh) * | 2021-03-05 | 2021-06-11 | 中国科学院光电技术研究所 | 一种基于改进YOLOv3的红外目标检测方法 |
CN112949633B (zh) * | 2021-03-05 | 2022-10-21 | 中国科学院光电技术研究所 | 一种基于改进YOLOv3的红外目标检测方法 |
CN113159277A (zh) * | 2021-03-09 | 2021-07-23 | 北京大学 | 目标检测方法、装置及设备 |
CN113408471A (zh) * | 2021-07-02 | 2021-09-17 | 浙江传媒学院 | 一种基于多任务深度学习的无绿幕人像实时抠图算法 |
CN113408471B (zh) * | 2021-07-02 | 2023-03-28 | 浙江传媒学院 | 一种基于多任务深度学习的无绿幕人像实时抠图算法 |
CN114299429A (zh) * | 2021-12-24 | 2022-04-08 | 宁夏广天夏电子科技有限公司 | 一种基于深度学习的人体识别方法、***及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110472542A (zh) | 一种基于深度学习的红外图像行人检测方法及检测*** | |
CN113065558B (zh) | 一种结合注意力机制的轻量级小目标检测方法 | |
CN105069746B (zh) | 基于局部仿射和颜色迁移技术的视频实时人脸替换方法及其*** | |
CN107204010B (zh) | 一种单目图像深度估计方法与*** | |
CN106127204B (zh) | 一种全卷积神经网络的多方向水表读数区域检测算法 | |
CN109902677A (zh) | 一种基于深度学习的车辆检测方法 | |
CN107067415B (zh) | 一种基于图像匹配的目标定位方法 | |
CN110889324A (zh) | 一种基于yolo v3面向末端制导的热红外图像目标识别方法 | |
CN109740665A (zh) | 基于专家知识约束的遮挡图像船只目标检测方法及*** | |
CN108460403A (zh) | 一种图像中多尺度特征融合的目标检测方法与*** | |
CN109934862A (zh) | 一种点线特征结合的双目视觉slam方法 | |
CN104794737B (zh) | 一种深度信息辅助粒子滤波跟踪方法 | |
CN107871106A (zh) | 人脸检测方法和装置 | |
CN114220035A (zh) | 一种基于改进yolo v4的快速害虫检测方法 | |
CN107330357A (zh) | 基于深度神经网络的视觉slam闭环检测方法 | |
CN110533695A (zh) | 一种基于ds证据理论的轨迹预测装置及方法 | |
CN106446930A (zh) | 基于深层卷积神经网络的机器人工作场景识别方法 | |
CN110795982A (zh) | 一种基于人体姿态分析的表观视线估计方法 | |
CN110175504A (zh) | 一种基于多任务级联卷积网络的目标检测和对齐方法 | |
CN106023257A (zh) | 一种基于旋翼无人机平台的目标跟踪方法 | |
CN108288047A (zh) | 一种行人/车辆检测方法 | |
CN110197152A (zh) | 一种用于自动驾驶***的道路目标识别方法 | |
CN109887029A (zh) | 一种基于图像颜色特征的单目视觉里程测量方法 | |
CN109344878A (zh) | 一种基于ResNet的仿鹰脑特征整合小目标识别方法 | |
CN110245587B (zh) | 一种基于贝叶斯迁移学习的光学遥感图像目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191119 |
|
RJ01 | Rejection of invention patent application after publication |