CN112733589A - 一种基于深度学习的红外图像行人检测方法 - Google Patents
一种基于深度学习的红外图像行人检测方法 Download PDFInfo
- Publication number
- CN112733589A CN112733589A CN202011181765.1A CN202011181765A CN112733589A CN 112733589 A CN112733589 A CN 112733589A CN 202011181765 A CN202011181765 A CN 202011181765A CN 112733589 A CN112733589 A CN 112733589A
- Authority
- CN
- China
- Prior art keywords
- image
- pedestrian
- deep learning
- layer
- method based
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 86
- 238000013135 deep learning Methods 0.000 title claims abstract description 44
- 238000004458 analytical method Methods 0.000 claims abstract description 18
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000003860 storage Methods 0.000 claims abstract description 4
- 230000009466 transformation Effects 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 20
- 238000000034 method Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 230000003044 adaptive effect Effects 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000012417 linear regression Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 210000004205 output neuron Anatomy 0.000 claims description 3
- 230000001737 promoting effect Effects 0.000 claims description 3
- 230000001902 propagating effect Effects 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims 1
- 239000002994 raw material Substances 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 7
- 230000001976 improved effect Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 10
- 230000000007 visual effect Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000003331 infrared imaging Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000001931 thermography Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Computer Interaction (AREA)
- Image Processing (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于深度学习的红外图像行人检测方法,包括,采集待检测的行人图像并进行预处理;将预处理后的所述图像输入搭建好的数据库内存储;基于深度卷积神经网络构建检测模型;利用所述检测模型读取所述数据库内的所述图像,计算输出检测结果。本发明通过对红外图像进行特征分析、去噪和增强,使得图像细节信息凸显出来,把无用的信息都弱化掉,增加了行人检测的鲁棒性和精准度,同时,本发明还通过深度学习对网络权重进行训练寻找最优特征值,进一步提高了行人检测的适用性、可行性、准确性和批量处理效率性。
Description
技术领域
本发明涉及图像处理、行人检测的技术领域,尤其涉及一种基于深度学习 的红外图像行人检测方法。
背景技术
近几年来,随着深度学习技术的迅猛发展,基于深度学习的目标检测方法 渐渐成熟起来,成为解决当前许多模式识别问题(包括物体检测)的主流方法, 其与传统的目标检测方法相比,不需要通过专家来设定一个特定的特征,大量 的样本通过深度学习算法模型,自动地提取特征,然后用提取到的特征训练分 类器。虽然说目前将深度学习算法用于红外行人检测上的成果还不太多,但从 发展趋势来看,深度学习将成为红外行人检测算法乃至很多目标检测领域的主 流。
当前红外行人图像检测存在的难点和问题可以概括为5个方面,一、红外图 像为灰度图像,没有色彩信息,而且图像深度有限,信噪比低,动态范围窄, 这样对红外图像中的人体目标进行检测时,就不能像可见光那样通过对皮肤的 颜色聚类;二、红外图像层次感差,纹理信息很少,而且边缘模糊,使得红外 图像中的人体检测不能像可见光图像那样通过人的一些特征如眼睛、面部特点 等对人体进行定位;三、由于红外图像是热成像,图像中存在很多干扰目标, 如灯柱、动物、车辆、电器盒、建筑等热源,它们的红外成像比较容易与人体 目标混淆;四、红外图像中目标的亮度还与目标表面特征、朝向、辐射波长有 关,行人前进方向、服装成分厚重程度等都会对目标亮度产生影响,这些成像 特征的不一致性,使得红外图像中人体目标的检测更加困难;五、行人兼具刚 性和柔性的物特性,外表易受姿态、视角、遮挡等影响。因此研究红外图像中 的人体检测具有重要的学术意义。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较 佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或 省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略 不能用于限制本发明的范围。
鉴于上述现有存在的问题,提出了本发明。
因此,本发明提供了一种基于深度学习的红外图像行人检测方法,能够解 决红外图像特征分析目标对比度低、图像信噪比低而无法得到精确检测的问题。
为解决上述技术问题,本发明提供如下技术方案:包括,采集待检测的行 人图像并进行预处理;将预处理后的所述图像输入搭建好的数据库内存储;基 于深度卷积神经网络构建检测模型;利用所述检测模型读取所述数据库内的所 述图像,计算输出检测结果。
作为本发明所述的基于深度学习的红外图像行人检测方法的一种优选方 案,其中:所述预处理包括,图像特征分析、图像降噪和图像增强;所述图像 特征分析包括,目标与背景特征分析和噪声特征分析;所述图像降噪包括,高 斯滤波、自适应中值滤波和小波自适应阈值去噪;所述图像增强包括,红外图 像的直方图、分段线性变换、Gamma校正、直方图均衡化和对比度受限的自 适应直方图均衡化。
作为本发明所述的基于深度学习的红外图像行人检测方法的一种优选方 案,其中:所述数据库由OTCBVS基准数据库构建,其包括OUS热行人数据 集、CVC-09、CVC-14;所述CVC-09包括FIR序列行人数据集,所述数据集由 两组图像组成,分别为昼夜集,第一组包含5990帧,第二组包含5081帧,分 别按训练集和测试集划分每个序列;所述CVC-14包括可见FIR日夜行人序列 数据集,所述数据集由两组图像组成,分别为昼夜集,而Visible和FIR取决于 用户对序列进行记录的摄像机,白天训练3695张图像、晚上训练3390张图像, 每个所述序列带有1500个强制行人注释。
作为本发明所述的基于深度学习的红外图像行人检测方法的一种优选方 案,其中:构建所述检测模型包括,基于所述深度卷积神经网络策略提取所述 预处理图像的候选区域的特征向量;通过区域映射的方式将所述候选区域在最 后的特征图的特征用感兴趣区域池化层得到特定的所述特征向量;利用 Softmax层分类所述候选区域的所述特征向量;对所述候选区域的线性回归算 法统一到网络中,结合所述Softmax并列成为一个多任务网络;将所述多任务 网络共享卷积特征并一起相互促进训练,训练结束,得到所述检测模型。
作为本发明所述的基于深度学习的红外图像行人检测方法的一种优选方 案,其中:所述深度卷积神经网络包括,输入层、卷积层、池化层、全连接层 以及输出层。
作为本发明所述的基于深度学习的红外图像行人检测方法的一种优选方 案,其中:训练所述检测模型需对网络权值采取初值化操作,使得网络学习到 输入、输出的形成映射关系,即训练包括两个阶段,前向传播阶段和反向传播 阶段;所述前向传播阶段包括,将所述数据集中的样本输入至所述网络中,在 经过各层神经元变换组合而获得输出结果,网络上层输出则为当前层输入,定 义所述当前层输入为A[l-1],输出为A[l],如下:
Z[l]=W[l]A[l-1]+b
A[l]=g[l](Z[l])
其中,l表示神经网络的层数,W表示权重,b为偏置,g表示激活函数, Z表示该层所有z的向量化,A表示该层所有A的向量化。
作为本发明所述的基于深度学习的红外图像行人检测方法的一种优选方 案,其中:所述反向传播阶段包括,利用反向传播算法优化权重和偏置,最大 限度地减少每个输出神经元和整个网络的误差使实际输出的值更接近理想值; 当所述深度卷积神经网络完成一次所述前向传播后,将误差由后往前进行反向 传播;根据所述误差依次计算隐含层和输入层的偏导数,不断迭代调整参数, 最后得到使误差最小的W和b,如下:
dZ[l]=dA[l]*g[l](Z[l])
dA[l-1]=W[l]T·dZ[l]
作为本发明所述的基于深度学习的红外图像行人检测方法的一种优选方 案,其中:所述图像特征分析包括,利用信噪比SNR表示图像中目标信号的 相对强度,定义如下:
其中,μT为行人目标的灰度均值,μ为整幅图像的灰度均值,σ为整幅图 像的标准差;若所述SNR的值越大,则信号和背景噪声的差别越大,目标的 检测难度相对较低;若所述SNR值越小,则所述信号被淹没在所述背景噪声 中,所述目标的检测难度相对较大。
作为本发明所述的基于深度学习的红外图像行人检测方法的一种优选方 案,其中:所述图像降噪包括,利用小波变换计算含噪声图像以进行多尺度分 解,得到噪声的方差σ2,如下:
其中,j=1,…,J、Lk为k级子带长度,J为分解总层数,随着j的改变,每一级 的尺度参数会自适应的改变;计算1到J层的高频系数标准方差σj和阈值T,
对1到J层的高频系数进行阈值化去噪;利用阈值化后的小波系数对二维图像进行重构,得到去噪后的图像。
作为本发明所述的基于深度学习的红外图像行人检测方法的一种优选方 案,其中:所述图像增强包括,若所述图像为f(x,y),则定义图像灰度值为 r0,r1,…,rk-1,则概率密度函数为P(ri),且有如下:
而分段线性变换是针对不同灰度级范围进行不同的线性变换,可以增强或 降低某一灰度范围的对比度,对比度拉伸后显然比原图能够更加清晰地看到更 多的细节,如下:
其中,x1、x2为需要转换的灰度范围,y1、y2为变换的斜率,对灰度区间[0,255]进行了分段线性变换,灰度区间[0,x1]和[x2,255]受到了压缩,减弱了噪声干 扰;
图像的Gamma校正实质上是对图像矩阵中的每一个值进行幂运算,定义如 下:
s=crγ
其中,γ的取值范围为0-1,因此需要先进行归一化,然后取指数;直方图 均衡化在图像像素映射过程中保证原来的大小关系保持不变,映射过程如下:
其中,n为图像像素的总和,L为灰度级总数。
本发明的有益效果:本发明通过对红外图像进行特征分析、去噪和增强, 使得图像细节信息凸显出来,把无用的信息都弱化掉,增加了行人检测的鲁棒 性和精准度,同时,本发明还通过深度学习对网络权重进行训练寻找最优特征 值,进一步提高了行人检测的适用性、可行性、准确性和批量处理效率性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需 要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的 一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下, 还可以根据这些附图获得其它的附图。其中:
图1为本发明第一个实施例所述的基于深度学习的红外图像行人检测方法 的流程示意图;
图2为本发明第一个实施例所述的基于深度学习的红外图像行人检测方法 的降噪预处理流程示意图;
图3为本发明第一个实施例所述的基于深度学习的红外图像行人检测方法 的OSU热红外行人数据集示意图;
图4为本发明第一个实施例所述的基于深度学习的红外图像行人检测方法 的CVC-09FIR序列行人数据集示意图;
图5为本发明第一个实施例所述的基于深度学习的红外图像行人检测方法 的CVC-14可见FIR日夜序列行人数据集示意图;
图6为本发明第一个实施例所述的基于深度学习的红外图像行人检测方法 的CNN网络结构示意图;
图7为本发明第一个实施例所述的基于深度学习的红外图像行人检测方法 的向前和向后传播示意图;
图8为本发明第一个实施例所述的基于深度学习的红外图像行人检测方法 的模型训练流程示意图;
图9为本发明第二个实施例所述的基于深度学习的红外图像行人检测方法 的分段线性变换结果示意图;
图10为本发明第二个实施例所述的基于深度学习的红外图像行人检测方 法的Gamma校正结果示意图;
图11为本发明第二个实施例所述的基于深度学习的红外图像行人检测方 法的直方图均衡化结果示意图;
图12为本发明第二个实施例所述的基于深度学习的红外图像行人检测方 法的限制对比度的自适应直方图均衡化结果示意图;
图13为本发明第二个实施例所述的基于深度学习的红外图像行人检测方 法的仿真结果示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书 附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的 一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员 在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的 保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明 还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不 违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例 的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少 一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在 一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施 例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明, 表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例, 其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及 深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等 指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述 本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、 以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第 一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广 义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械 连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件 内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在 本发明中的具体含义。
实施例1
参照图1~图8,为本发明的第一个实施例,提供了一种基于深度学习的红 外图像行人检测方法,包括:
S1:采集待检测的行人图像并进行预处理。参照图2,其中需要说明的是, 预处理包括:
图像特征分析、图像降噪和图像增强;
图像特征分析包括,目标与背景特征分析和噪声特征分析;
图像降噪包括,高斯滤波、自适应中值滤波和小波自适应阈值去噪;
图像增强包括,红外图像的直方图、分段线性变换、Gamma(显示参数) 校正、直方图均衡化和对比度受限的自适应直方图均衡化;
具体的,图像特征分析包括:
利用信噪比SNR表示图像中目标信号的相对强度,定义如下:
其中,μT为行人目标的灰度均值,μ为整幅图像的灰度均值,σ为整幅图 像的标准差;
若SNR的值越大,则信号和背景噪声的差别越大,目标的检测难度相对 较低;
若SNR值越小,则信号被淹没在背景噪声中,目标的检测难度相对较大。
进一步的,图像降噪包括:
利用小波变换计算含噪声图像以进行多尺度分解,得到噪声的方差σ2,如 下:
计算每一级尺度参数β,
其中,j=1,…,J、Lk为k级子带长度,J为分解总层数,随着j的改变,每 一级的尺度参数会自适应的改变;
计算1到J层的高频系数标准方差σj和阈值T,
对1到J层的高频系数进行阈值化去噪;
利用阈值化后的小波系数对二维图像进行重构,得到去噪后的图像。
再进一步的是,图像增强包括:
而分段线性变换是针对不同灰度级范围进行不同的线性变换,可以增强或 降低某一灰度范围的对比度,对比度拉伸后显然比原图能够更加清晰地看到更 多的细节,如下:
其中,x1、x2为需要转换的灰度范围,y1、y2为变换的斜率,对灰度区间[0,255]进行了分段线性变换,灰度区间[0,x1]和[x2,255]受到了压缩,减弱了噪声干 扰;
图像的Gamma校正实质上是对图像矩阵中的每一个值进行幂运算,定义如 下:
s=crγ
其中,γ的取值范围为0-1,因此需要先进行归一化,然后取指数;
直方图均衡化在图像像素映射过程中保证原来的大小关系保持不变,映射 过程如下:
其中,n为图像像素的总和,L为灰度级总数。
S2:将预处理后的图像输入搭建好的数据库内存储。参照图3、图4和图 5,本步骤需要说明的是:
数据库由OTCBVS基准数据库构建,其包括OUS热行人数据集、CVC-09、 CVC-14;
CVC-09包括FIR序列行人数据集,数据集由两组图像组成,分别为昼夜 集,第一组包含5990帧,第二组包含5081帧,分别按训练集和测试集划分每 个序列;
CVC-14包括可见FIR日夜行人序列数据集,数据集由两组图像组成,分 别为昼夜集,而Visible和FIR取决于用户对序列进行记录的摄像机,白天训练 3695张图像、晚上训练3390张图像,每个序列带有1500个强制行人注释。
S3:基于深度卷积神经网络构建检测模型。参照图6、图7和图8,其中 还需要说明的是,构建检测模型包括:
基于深度卷积神经网络策略提取预处理图像的候选区域的特征向量;
通过区域映射的方式将候选区域在最后的特征图的特征用感兴趣区域池化 层得到特定的特征向量;
利用Softmax(逻辑回归模型)层分类候选区域的特征向量;
对候选区域的线性回归算法统一到网络中,结合Softmax并列成为一个多任 务网络;
将多任务网络共享卷积特征并一起相互促进训练,训练结束,得到检测模 型;
深度卷积神经网络包括,输入层、卷积层、池化层、全连接层以及输出层;
训练检测模型需对网络权值采取初值化操作,使得网络学习到输入、输出 的形成映射关系,即训练包括两个阶段,前向传播阶段和反向传播阶段;
前向传播阶段包括,将数据集中的样本输入至网络中,在经过各层神经元 变换组合而获得输出结果,网络上层输出则为当前层输入,定义当前层输入为 A[l-1],输出为A[l],如下:
Z[l]=W[l]A[l-1]+b
A[l]=g[l](Z[l])
其中,l表示神经网络的层数,W表示权重,b为偏置,g表示激活函数, Z表示该层所有z的向量化,A表示该层所有A的向量化;
反向传播阶段包括:
利用反向传播算法优化权重和偏置,最大限度地减少每个输出神经元和整 个网络的误差使实际输出的值更接近理想值;
当深度卷积神经网络完成一次前向传播后,将误差由后往前进行反向传播;
根据误差依次计算隐含层和输入层的偏导数,不断迭代调整参数,最后得 到使误差最小的W和b,如下:
dZ[l]=dA[l]*g[l](Z[l])
dA[l-1]=W[l]T·dZ[l]
S4:利用检测模型读取数据库内的图像,计算输出检测结果。
优选的,本实施例还需要说明的是,现有的目标检测方法是通过计算机图 像处理的算法,其除了准确度不够高以外,最大的问题是检测速度比较慢,特 别是在区域定位阶段耗时多计算量大;而传统的激光雷达方法用于目标检测虽 克服了传统算法图像区域定位比较困难的问题,但是成本太高。
本发明方法针对红外行人图像信噪比低、对比度低的特点,对图像进行滤 波去噪和对比度增强,根据视觉观察和评价指标PSNR及SSIM的对比选取小 波自适应阈值去噪,在滤除噪声的同时保留了图像细节,使图像变得更加清晰; 在提高图像对比度方面,采用分段线性变换、Gamma校正、直方图均衡化以 及限制对比度的自适应直方图均衡化,根据视觉观察和图像灰度直方图的综合 观察,限制对比度的自适应直方图均衡化提高了图像的对比度的同时既不需要 分段线性变换、Gamma变换的用户输入,也没有出现图像的过分增强,处理 效果优于传统方法的处理效果,使得本发明方法具有较高的研究意义。
实施例2
参照图9~图13,为本发明的第二个实施例,该实施例不同于第一个实施 例的是,提供了一种基于深度学习的红外图像行人检测方法的验证,包括:
为了更好地对本发明中采用的技术效果加以验证说明,本实施例选择传统 的处理红外图像检测方法与本发明进行对比测试,以科学论证的手段对比试验 结果,验证本发明所具有的真实技术效果。
本实施例中采用TensorFlow进行试验,TensorFlow不仅有很直观的计算图可 视化呈现,还构建了活跃的社区,有完善的文档体系,大大降低了学习成本, 其模型能够快速地部署在各种硬件机器上,从高性能的计算机到移动设备,再 到更小的更轻量的智能终端,支持多种开发语言包括Python、c++、jave、R语言、 c#、JS;为了验证本发明方法的通用性,本实施例选取OUS热红外行人数据库中 不同天气的5幅图像进行实验。
参照图9,一般情况下分段线性变换限制x1<x2,y1<y2,从而保证函数单 调递增,以避免造成处理过的图像灰度级发生颠倒;根据图9的示意,分段线 性变换1中转换的灰度范围x1=0.3,x2=0.75,斜率y1=0.15,y2=0.85,分段线性变 换2中转换的灰度范围x1=0.15,x2=0.85,斜率y1=0.3,y2=0.7;从直方图可以看 出分段线性1使原图像的灰度值拉伸了,提高了图像的对比度,而分段线性2 图像整体变亮,主要的灰度级分布从原来的50~100变为了100左右使原图像 的灰度值压缩了,对比度变小了,分段线性变换虽然可以使图像对比度得到很 好的提高但依赖于用户输入。
参照图10,Gamma校正并不是线性变换,其不仅可以改变图像的对比度, 还能够增强细节,从而带来整体图像的效果改善,其中,Gamma值对图像的灰 度显示是直观的;当γ<1时,图像整体变亮,拉伸了图像中灰度级较低的区域, 当γ>1时,则与之相反。
参照图11,其为原图像与直方图均衡化后的图像及直方图的对比,可以看 出,原图像在经过直方图均衡化后,变换后图像的动态范围变宽,灰度值分布 由原来的50~120变为0~255,虽然提高了对比度但图像目标轮廓不清晰,放大了 图像中的噪声,而且经处理后对比度过分增强。
参照图12,可以看出原图像在经过限制对比度的自适应直方图均衡化后, 变换后图像的动态范围较原图像变宽,灰度值主要分布在50~140之间,提高了 图像对比度,也没有出现过分增强的现象。
参照图13,图中第一列是原图像,第二列是原图像经过小波自适应去噪后 的图像,第三列是第二列图像经过限制对比度的自适应直方图均衡化后的图像; 能够看到,采用小波自适应阈值去噪和限制对比度的自适应直方图均衡化对红 外行人图像进行预处理,使图像变得平滑、清晰,放大了图像的细节,提高了 对比度和亮度。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参 照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可 以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精 神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种基于深度学习的红外图像行人检测方法,其特征在于:包括,
采集待检测的行人图像并进行预处理;
将预处理后的所述图像输入搭建好的数据库内存储;
基于深度卷积神经网络构建检测模型;
利用所述检测模型读取所述数据库内的所述图像,计算输出检测结果。
2.根据权利要求1所述的基于深度学习的红外图像行人检测方法,其特征在于:所述预处理包括,图像特征分析、图像降噪和图像增强;
所述图像特征分析包括,目标与背景特征分析和噪声特征分析;
所述图像降噪包括,高斯滤波、自适应中值滤波和小波自适应阈值去噪;
所述图像增强包括,红外图像的直方图、分段线性变换、Gamma校正、直方图均衡化和对比度受限的自适应直方图均衡化。
3.根据权利要求1或2所述的基于深度学习的红外图像行人检测方法,其特征在于:所述数据库由OTCBVS基准数据库构建,其包括OUS热行人数据集、CVC-09、CVC-14;
所述CVC-09包括FIR序列行人数据集,所述数据集由两组图像组成,分别为昼夜集,第一组包含5990帧,第二组包含5081帧,分别按训练集和测试集划分每个序列;
所述CVC-14包括可见FIR日夜行人序列数据集,所述数据集由两组图像组成,分别为昼夜集,而Visible和FIR取决于用户对序列进行记录的摄像机,白天训练3695张图像、晚上训练3390张图像,每个所述序列带有1500个强制行人注释。
4.根据权利要求3所述的基于深度学习的红外图像行人检测方法,其特征在于:构建所述检测模型包括,
基于所述深度卷积神经网络策略提取所述预处理图像的候选区域的特征向量;
通过区域映射的方式将所述候选区域在最后的特征图的特征用感兴趣区域池化层得到特定的所述特征向量;
利用Softmax层分类所述候选区域的所述特征向量;
对所述候选区域的线性回归算法统一到网络中,结合所述Softmax并列成为一个多任务网络;
将所述多任务网络共享卷积特征并一起相互促进训练,训练结束,得到所述检测模型。
5.根据权利要求1或4所述的基于深度学习的红外图像行人检测方法,其特征在于:所述深度卷积神经网络包括,输入层、卷积层、池化层、全连接层以及输出层。
6.根据权利要求4所述的基于深度学习的红外图像行人检测方法,其特征在于:训练所述检测模型需对网络权值采取初值化操作,使得网络学习到输入、输出的形成映射关系,即训练包括两个阶段,前向传播阶段和反向传播阶段;
所述前向传播阶段包括,将所述数据集中的样本输入至所述网络中,在经过各层神经元变换组合而获得输出结果,网络上层输出则为当前层输入,定义所述当前层输入为A[l-1],输出为A[l],如下:
Z[l]=W[l]A[l-1]+b
A[l]=g[l](Z[l])
其中,l表示神经网络的层数,W表示权重,b为偏置,g表示激活函数,Z表示该层所有z的向量化,A表示该层所有A的向量化。
10.根据权利要求9所述的基于深度学习的红外图像行人检测方法,其特征在于:所述图像增强包括,
而分段线性变换是针对不同灰度级范围进行不同的线性变换,可以增强或降低某一灰度范围的对比度,对比度拉伸后显然比原图能够更加清晰地看到更多的细节,如下:
其中,x1、x2为需要转换的灰度范围,y1、y2为变换的斜率,对灰度区间[0,255]进行了分段线性变换,灰度区间[0,x1]和[x2,255]受到了压缩,减弱了噪声干扰;
图像的Gamma校正实质上是对图像矩阵中的每一个值进行幂运算,定义如下:
s=crγ
其中,γ的取值范围为0-1,因此需要先进行归一化,然后取指数;
直方图均衡化在图像像素映射过程中保证原来的大小关系保持不变,映射过程如下:
其中,n为图像像素的总和,L为灰度级总数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011181765.1A CN112733589B (zh) | 2020-10-29 | 2020-10-29 | 一种基于深度学习的红外图像行人检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011181765.1A CN112733589B (zh) | 2020-10-29 | 2020-10-29 | 一种基于深度学习的红外图像行人检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112733589A true CN112733589A (zh) | 2021-04-30 |
CN112733589B CN112733589B (zh) | 2023-01-03 |
Family
ID=75597348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011181765.1A Active CN112733589B (zh) | 2020-10-29 | 2020-10-29 | 一种基于深度学习的红外图像行人检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112733589B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113902638A (zh) * | 2021-10-08 | 2022-01-07 | 电子科技大学 | 结合卷积神经网络和轻型自适应中值滤波视频降噪方法 |
CN114550009A (zh) * | 2022-04-01 | 2022-05-27 | 中国科学院空天信息创新研究院 | 星载遥感图像的轻量化目标检测方法、装置、设备及介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104240242A (zh) * | 2014-09-05 | 2014-12-24 | 北京空间机电研究所 | 一种遥感图像最大信噪比测量方法 |
CN105430378A (zh) * | 2015-11-26 | 2016-03-23 | 航天恒星科技有限公司 | 一种影像质量评价***及方法 |
CN106952220A (zh) * | 2017-03-14 | 2017-07-14 | 长沙全度影像科技有限公司 | 一种基于深度学习的全景图像融合方法 |
CN107145846A (zh) * | 2017-04-26 | 2017-09-08 | 贵州电网有限责任公司输电运行检修分公司 | 一种基于深度学习的绝缘子识别方法 |
CN107392095A (zh) * | 2017-06-15 | 2017-11-24 | 杭州红辉电子科技有限公司 | 一种基于掩码图像的红外弱小目标检测算法 |
CN109815814A (zh) * | 2018-12-21 | 2019-05-28 | 天津大学 | 一种基于卷积神经网络的人脸检测方法 |
CN109961009A (zh) * | 2019-02-15 | 2019-07-02 | 平安科技(深圳)有限公司 | 基于深度学习的行人检测方法、***、装置及存储介质 |
CN110246130A (zh) * | 2019-06-21 | 2019-09-17 | 中国民航大学 | 基于红外和可见光图像数据融合的机场道面裂缝检测方法 |
CN110472542A (zh) * | 2019-08-05 | 2019-11-19 | 深圳北斗通信科技有限公司 | 一种基于深度学习的红外图像行人检测方法及检测*** |
CN111047624A (zh) * | 2019-12-27 | 2020-04-21 | 成都英飞睿技术有限公司 | 图像弱小目标检测方法、装置、设备及存储介质 |
CN111079740A (zh) * | 2019-12-02 | 2020-04-28 | 咪咕文化科技有限公司 | 图像的质量评价方法、电子设备和计算机可读存储介质 |
-
2020
- 2020-10-29 CN CN202011181765.1A patent/CN112733589B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104240242A (zh) * | 2014-09-05 | 2014-12-24 | 北京空间机电研究所 | 一种遥感图像最大信噪比测量方法 |
CN105430378A (zh) * | 2015-11-26 | 2016-03-23 | 航天恒星科技有限公司 | 一种影像质量评价***及方法 |
CN106952220A (zh) * | 2017-03-14 | 2017-07-14 | 长沙全度影像科技有限公司 | 一种基于深度学习的全景图像融合方法 |
CN107145846A (zh) * | 2017-04-26 | 2017-09-08 | 贵州电网有限责任公司输电运行检修分公司 | 一种基于深度学习的绝缘子识别方法 |
CN107392095A (zh) * | 2017-06-15 | 2017-11-24 | 杭州红辉电子科技有限公司 | 一种基于掩码图像的红外弱小目标检测算法 |
CN109815814A (zh) * | 2018-12-21 | 2019-05-28 | 天津大学 | 一种基于卷积神经网络的人脸检测方法 |
CN109961009A (zh) * | 2019-02-15 | 2019-07-02 | 平安科技(深圳)有限公司 | 基于深度学习的行人检测方法、***、装置及存储介质 |
CN110246130A (zh) * | 2019-06-21 | 2019-09-17 | 中国民航大学 | 基于红外和可见光图像数据融合的机场道面裂缝检测方法 |
CN110472542A (zh) * | 2019-08-05 | 2019-11-19 | 深圳北斗通信科技有限公司 | 一种基于深度学习的红外图像行人检测方法及检测*** |
CN111079740A (zh) * | 2019-12-02 | 2020-04-28 | 咪咕文化科技有限公司 | 图像的质量评价方法、电子设备和计算机可读存储介质 |
CN111047624A (zh) * | 2019-12-27 | 2020-04-21 | 成都英飞睿技术有限公司 | 图像弱小目标检测方法、装置、设备及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113902638A (zh) * | 2021-10-08 | 2022-01-07 | 电子科技大学 | 结合卷积神经网络和轻型自适应中值滤波视频降噪方法 |
CN113902638B (zh) * | 2021-10-08 | 2024-04-09 | 电子科技大学 | 结合卷积神经网络和轻型自适应中值滤波视频降噪方法 |
CN114550009A (zh) * | 2022-04-01 | 2022-05-27 | 中国科学院空天信息创新研究院 | 星载遥感图像的轻量化目标检测方法、装置、设备及介质 |
CN114550009B (zh) * | 2022-04-01 | 2022-12-06 | 中国科学院空天信息创新研究院 | 星载遥感图像的轻量化目标检测方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112733589B (zh) | 2023-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Infrared and visible image fusion based on target-enhanced multiscale transform decomposition | |
Wang et al. | Medical image fusion based on convolutional neural networks and non-subsampled contourlet transform | |
CN103049892B (zh) | 基于相似块矩阵秩最小化的非局部图像去噪方法 | |
CN108830818B (zh) | 一种快速多聚焦图像融合方法 | |
Li et al. | Fast infrared and visible image fusion with structural decomposition | |
CN111709902A (zh) | 基于自注意力机制的红外和可见光图像融合方法 | |
Fu et al. | DSAGAN: A generative adversarial network based on dual-stream attention mechanism for anatomical and functional image fusion | |
CN112233026A (zh) | 一种基于多尺度残差注意力网络的sar图像去噪方法 | |
CN113313657A (zh) | 一种用于低光照图像增强的非监督学习方法和*** | |
CN110533683B (zh) | 一种融合传统特征与深度特征的影像组学分析方法 | |
CN112733589B (zh) | 一种基于深度学习的红外图像行人检测方法 | |
CN112131975B (zh) | 基于Retinex分解和生成对抗网络的人脸光照处理方法 | |
CN103077506A (zh) | 结合局部和非局部的自适应图像去噪方法 | |
CN112464891B (zh) | 一种高光谱图像分类方法 | |
CN104657951A (zh) | 图像乘性噪声移除方法 | |
Zhang et al. | An image fusion method based on curvelet transform and guided filter enhancement | |
Pan et al. | DenseNetFuse: A study of deep unsupervised DenseNet to infrared and visual image fusion | |
CN115457249A (zh) | 红外图像与可见光图像融合匹配的方法及*** | |
CN105809650A (zh) | 一种基于双向迭代优化的图像融合方法 | |
Chen et al. | The fusion of infrared and visible images via decomposition-based structure transfer and local saliency detection | |
Zhou et al. | Physical-priors-guided DehazeFormer | |
Liu et al. | Feature pyramid U‐Net for retinal vessel segmentation | |
Wali et al. | Recent progress in digital image restoration techniques: a review | |
CN116486183B (zh) | 基于多种注意力权重融合特征的sar图像建筑区分类方法 | |
Luo et al. | Infrared and visible image fusion based on VPDE model and VGG network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240510 Address after: 200240 room k2042, floor 2, building 41, No. 398, Heqing Road, Minhang District, Shanghai Patentee after: Shanghai Jiuxing Culture Communication Co.,Ltd. Country or region after: China Address before: 545006 268 East Ring Road, Central District, Liuzhou, the Guangxi Zhuang Autonomous Region Patentee before: GUANGXI University OF SCIENCE AND TECHNOLOGY Country or region before: China |
|
TR01 | Transfer of patent right |