CN112733589B - 一种基于深度学习的红外图像行人检测方法 - Google Patents

一种基于深度学习的红外图像行人检测方法 Download PDF

Info

Publication number
CN112733589B
CN112733589B CN202011181765.1A CN202011181765A CN112733589B CN 112733589 B CN112733589 B CN 112733589B CN 202011181765 A CN202011181765 A CN 202011181765A CN 112733589 B CN112733589 B CN 112733589B
Authority
CN
China
Prior art keywords
image
pedestrian
layer
network
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011181765.1A
Other languages
English (en)
Other versions
CN112733589A (zh
Inventor
王智文
冯晶
王宇航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiuxing Culture Communication Co ltd
Original Assignee
Guangxi University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi University of Science and Technology filed Critical Guangxi University of Science and Technology
Priority to CN202011181765.1A priority Critical patent/CN112733589B/zh
Publication of CN112733589A publication Critical patent/CN112733589A/zh
Application granted granted Critical
Publication of CN112733589B publication Critical patent/CN112733589B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Processing (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于深度学习的红外图像行人检测方法,包括,采集待检测的行人图像并进行预处理;将预处理后的所述图像输入搭建好的数据库内存储;基于深度卷积神经网络构建检测模型;利用所述检测模型读取所述数据库内的所述图像,计算输出检测结果。本发明通过对红外图像进行特征分析、去噪和增强,使得图像细节信息凸显出来,把无用的信息都弱化掉,增加了行人检测的鲁棒性和精准度,同时,本发明还通过深度学习对网络权重进行训练寻找最优特征值,进一步提高了行人检测的适用性、可行性、准确性和批量处理效率性。

Description

一种基于深度学习的红外图像行人检测方法
技术领域
本发明涉及图像处理、行人检测的技术领域,尤其涉及一种基于深度学习的红外图像行人检测方法。
背景技术
近几年来,随着深度学习技术的迅猛发展,基于深度学习的目标检测方法渐渐成熟起来,成为解决当前许多模式识别问题(包括物体检测)的主流方法,其与传统的目标检测方法相比,不需要通过专家来设定一个特定的特征,大量的样本通过深度学习算法模型,自动地提取特征,然后用提取到的特征训练分类器。虽然说目前将深度学习算法用于红外行人检测上的成果还不太多,但从发展趋势来看,深度学习将成为红外行人检测算法乃至很多目标检测领域的主流。
当前红外行人图像检测存在的难点和问题可以概括为5个方面,一、红外图像为灰度图像,没有色彩信息,而且图像深度有限,信噪比低,动态范围窄,这样对红外图像中的人体目标进行检测时,就不能像可见光那样通过对皮肤的颜色聚类;二、红外图像层次感差,纹理信息很少,而且边缘模糊,使得红外图像中的人体检测不能像可见光图像那样通过人的一些特征如眼睛、面部特点等对人体进行定位;三、由于红外图像是热成像,图像中存在很多干扰目标,如灯柱、动物、车辆、电器盒、建筑等热源,它们的红外成像比较容易与人体目标混淆;四、红外图像中目标的亮度还与目标表面特征、朝向、辐射波长有关,行人前进方向、服装成分厚重程度等都会对目标亮度产生影响,这些成像特征的不一致性,使得红外图像中人体目标的检测更加困难;五、行人兼具刚性和柔性的物特性,外表易受姿态、视角、遮挡等影响。因此研究红外图像中的人体检测具有重要的学术意义。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有存在的问题,提出了本发明。
因此,本发明提供了一种基于深度学习的红外图像行人检测方法,能够解决红外图像特征分析目标对比度低、图像信噪比低而无法得到精确检测的问题。
为解决上述技术问题,本发明提供如下技术方案:包括,采集待检测的行人图像并进行预处理;将预处理后的所述图像输入搭建好的数据库内存储;基于深度卷积神经网络构建检测模型;利用所述检测模型读取所述数据库内的所述图像,计算输出检测结果。
作为本发明所述的基于深度学习的红外图像行人检测方法的一种优选方案,其中:所述预处理包括,图像特征分析、图像降噪和图像增强;所述图像特征分析包括,目标与背景特征分析和噪声特征分析;所述图像降噪包括,高斯滤波、自适应中值滤波和小波自适应阈值去噪;所述图像增强包括,红外图像的直方图、分段线性变换、Gamma校正、直方图均衡化和对比度受限的自适应直方图均衡化。
作为本发明所述的基于深度学习的红外图像行人检测方法的一种优选方案,其中:所述数据库由OTCBVS基准数据库构建,其包括OUS热行人数据集、CVC-09、CVC-14;所述CVC-09包括FIR序列行人数据集,所述数据集由两组图像组成,分别为昼夜集,第一组包含5990帧,第二组包含5081帧,分别按训练集和测试集划分每个序列;所述CVC-14包括可见FIR日夜行人序列数据集,所述数据集由两组图像组成,分别为昼夜集,而Visible和FIR取决于用户对序列进行记录的摄像机,白天训练3695张图像、晚上训练3390张图像,每个所述序列带有1500个强制行人注释。
作为本发明所述的基于深度学习的红外图像行人检测方法的一种优选方案,其中:构建所述检测模型包括,基于所述深度卷积神经网络策略提取所述预处理图像的候选区域的特征向量;通过区域映射的方式将所述候选区域在最后的特征图的特征用感兴趣区域池化层得到特定的所述特征向量;利用Softmax层分类所述候选区域的所述特征向量;对所述候选区域的线性回归算法统一到网络中,结合所述Softmax并列成为一个多任务网络;将所述多任务网络共享卷积特征并一起相互促进训练,训练结束,得到所述检测模型。
作为本发明所述的基于深度学习的红外图像行人检测方法的一种优选方案,其中:所述深度卷积神经网络包括,输入层、卷积层、池化层、全连接层以及输出层。
作为本发明所述的基于深度学习的红外图像行人检测方法的一种优选方案,其中:训练所述检测模型需对网络权值采取初值化操作,使得网络学习到输入、输出的形成映射关系,即训练包括两个阶段,前向传播阶段和反向传播阶段;所述前向传播阶段包括,将所述数据集中的样本输入至所述网络中,在经过各层神经元变换组合而获得输出结果,网络上层输出则为当前层输入,定义所述当前层输入为A[l-1],输出为A[l],如下:
Z[l]=W[l]A[l-1]+b
A[l]=g[l](Z[l])
其中,l表示神经网络的层数,W表示权重,b为偏置,g表示激活函数,Z表示该层所有z的向量化,A表示该层所有A的向量化。
作为本发明所述的基于深度学习的红外图像行人检测方法的一种优选方案,其中:所述反向传播阶段包括,利用反向传播算法优化权重和偏置,最大限度地减少每个输出神经元和整个网络的误差使实际输出的值更接近理想值;当所述深度卷积神经网络完成一次所述前向传播后,将误差由后往前进行反向传播;根据所述误差依次计算隐含层和输入层的偏导数,不断迭代调整参数,最后得到使误差最小的W和b,如下:
dZ[l]=dA[l]*g[l](Z[l])
Figure GDA0002983040890000031
Figure GDA0002983040890000032
dA[l-1]=W[l]T·dZ[l]
其中,将
Figure GDA0002983040890000033
表示为dZ[l]
Figure GDA0002983040890000036
表示为dA[l],m为训练集大小。
作为本发明所述的基于深度学习的红外图像行人检测方法的一种优选方案,其中:所述图像特征分析包括,利用信噪比SNR表示图像中目标信号的相对强度,定义如下:
Figure GDA0002983040890000035
其中,μT为行人目标的灰度均值,μ为整幅图像的灰度均值,σ为整幅图像的标准差;若所述SNR的值越大,则信号和背景噪声的差别越大,目标的检测难度相对较低;若所述SNR值越小,则所述信号被淹没在所述背景噪声中,所述目标的检测难度相对较大。
作为本发明所述的基于深度学习的红外图像行人检测方法的一种优选方案,其中:所述图像降噪包括,利用小波变换计算含噪声图像以进行多尺度分解,得到噪声的方差σ2,如下:
Figure GDA0002983040890000041
其中,Yi,j=subbandHH1,
Figure GDA0002983040890000042
是从子带HH1估计出的噪声的方差;计算每一级尺度参数β,
Figure GDA0002983040890000043
其中,j=1,…,J、Lk为k级子带长度,J为分解总层数,随着j的改变,每一级的尺度参数会自适应的改变;计算1到J层的高频系数标准方差σj和阈值T,
Figure GDA0002983040890000044
对1到J层的高频系数进行阈值化去噪;利用阈值化后的小波系数对二维图像进行重构,得到去噪后的图像。
作为本发明所述的基于深度学习的红外图像行人检测方法的一种优选方案,其中:所述图像增强包括,若所述图像为f(x,y),则定义图像灰度值为r0,r1,…,rk-1,则概率密度函数为P(ri),且有
Figure GDA0002983040890000045
如下:
Figure GDA0002983040890000046
而分段线性变换是针对不同灰度级范围进行不同的线性变换,可以增强或降低某一灰度范围的对比度,对比度拉伸后显然比原图能够更加清晰地看到更多的细节,如下:
Figure GDA0002983040890000051
其中,x1、x2为需要转换的灰度范围,y1、y2为变换的斜率,对灰度区间[0,255]进行了分段线性变换,灰度区间[0,x1]和[x2,255]受到了压缩,减弱了噪声干扰;
图像的Gamma校正实质上是对图像矩阵中的每一个值进行幂运算,定义如下:
s=crγ
其中,γ的取值范围为0-1,因此需要先进行归一化,然后取指数;直方图均衡化在图像像素映射过程中保证原来的大小关系保持不变,映射过程如下:
Figure GDA0002983040890000052
其中,n为图像像素的总和,L为灰度级总数。
本发明的有益效果:本发明通过对红外图像进行特征分析、去噪和增强,使得图像细节信息凸显出来,把无用的信息都弱化掉,增加了行人检测的鲁棒性和精准度,同时,本发明还通过深度学习对网络权重进行训练寻找最优特征值,进一步提高了行人检测的适用性、可行性、准确性和批量处理效率性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明第一个实施例所述的基于深度学习的红外图像行人检测方法的流程示意图;
图2为本发明第一个实施例所述的基于深度学习的红外图像行人检测方法的降噪预处理流程示意图;
图3为本发明第一个实施例所述的基于深度学习的红外图像行人检测方法的OSU热红外行人数据集示意图;
图4为本发明第一个实施例所述的基于深度学习的红外图像行人检测方法的CVC-09FIR序列行人数据集示意图;
图5为本发明第一个实施例所述的基于深度学习的红外图像行人检测方法的CVC-14可见FIR日夜序列行人数据集示意图;
图6为本发明第一个实施例所述的基于深度学习的红外图像行人检测方法的CNN网络结构示意图;
图7为本发明第一个实施例所述的基于深度学习的红外图像行人检测方法的向前和向后传播示意图;
图8为本发明第一个实施例所述的基于深度学习的红外图像行人检测方法的模型训练流程示意图;
图9为本发明第二个实施例所述的基于深度学习的红外图像行人检测方法的分段线性变换结果示意图;
图10为本发明第二个实施例所述的基于深度学习的红外图像行人检测方法的Gamma校正结果示意图;
图11为本发明第二个实施例所述的基于深度学习的红外图像行人检测方法的直方图均衡化结果示意图;
图12为本发明第二个实施例所述的基于深度学习的红外图像行人检测方法的限制对比度的自适应直方图均衡化结果示意图;
图13为本发明第二个实施例所述的基于深度学习的红外图像行人检测方法的仿真结果示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
参照图1~图8,为本发明的第一个实施例,提供了一种基于深度学习的红外图像行人检测方法,包括:
S1:采集待检测的行人图像并进行预处理。其中需要说明的是,预处理包括:
图像特征分析、图像降噪和图像增强;
图像特征分析包括,目标与背景特征分析和噪声特征分析;
图像降噪包括,高斯滤波、自适应中值滤波和小波自适应阈值去噪;
图像增强包括,红外图像的直方图、分段线性变换、Gamma(显示参数)校正、直方图均衡化和对比度受限的自适应直方图均衡化;
具体的,图像特征分析包括:
利用信噪比SNR表示图像中目标信号的相对强度,定义如下:
Figure GDA0002983040890000081
其中,μT为行人目标的灰度均值,μ为整幅图像的灰度均值,σ为整幅图像的标准差;
若SNR的值越大,则信号和背景噪声的差别越大,目标的检测难度相对较低;
若SNR值越小,则信号被淹没在背景噪声中,目标的检测难度相对较大。
进一步的,图像降噪包括:
利用小波变换计算含噪声图像以进行多尺度分解,得到噪声的方差σ2,如下:
Figure GDA0002983040890000082
其中,Yi,j=subbandHH1,
Figure GDA0002983040890000083
是从子带HH1估计出的噪声的方差;
计算每一级尺度参数β,
Figure GDA0002983040890000084
其中,j=1,…,J、Lk为k级子带长度,J为分解总层数,随着j的改变,每一级的尺度参数会自适应的改变;
计算1到J层的高频系数标准方差σj和阈值T,
Figure GDA0002983040890000085
对1到J层的高频系数进行阈值化去噪;
利用阈值化后的小波系数对二维图像进行重构,得到去噪后的图像。
再进一步的是,图像增强包括:
若图像为f(x,y),则定义图像灰度值为r0,r1,…,rk-1,则概率密度函数为P(ri),且有
Figure GDA0002983040890000086
如下:
Figure GDA0002983040890000087
而分段线性变换是针对不同灰度级范围进行不同的线性变换,可以增强或降低某一灰度范围的对比度,对比度拉伸后显然比原图能够更加清晰地看到更多的细节,如下:
Figure GDA0002983040890000091
其中,x1、x2为需要转换的灰度范围,y1、y2为变换的斜率,对灰度区间[0,255]进行了分段线性变换,灰度区间[0,x1]和[x2,255]受到了压缩,减弱了噪声干扰;
图像的Gamma校正实质上是对图像矩阵中的每一个值进行幂运算,定义如下:
s=crγ
其中,γ的取值范围为0-1,因此需要先进行归一化,然后取指数;
直方图均衡化在图像像素映射过程中保证原来的大小关系保持不变,映射过程如下:
Figure GDA0002983040890000092
其中,n为图像像素的总和,L为灰度级总数。
S2:将预处理后的图像输入搭建好的数据库内存储。参照图3、图4和图5,本步骤需要说明的是:
数据库由OTCBVS基准数据库构建,其包括OUS热行人数据集、CVC-09、CVC-14;
CVC-09包括FIR序列行人数据集,数据集由两组图像组成,分别为昼夜集,第一组包含5990帧,第二组包含5081帧,分别按训练集和测试集划分每个序列;
CVC-14包括可见FIR日夜行人序列数据集,数据集由两组图像组成,分别为昼夜集,而Visible和FIR取决于用户对序列进行记录的摄像机,白天训练3695张图像、晚上训练3390张图像,每个序列带有1500个强制行人注释。
S3:基于深度卷积神经网络构建检测模型。参照图6、图7和图8,其中还需要说明的是,构建检测模型包括:
基于深度卷积神经网络策略提取预处理图像的候选区域的特征向量;
通过区域映射的方式将候选区域在最后的特征图的特征用感兴趣区域池化层得到特定的特征向量;
利用Softmax(逻辑回归模型)层分类候选区域的特征向量;
对候选区域的线性回归算法统一到网络中,结合Softmax并列成为一个多任务网络;
将多任务网络共享卷积特征并一起相互促进训练,训练结束,得到检测模型;
深度卷积神经网络包括,输入层、卷积层、池化层、全连接层以及输出层;
训练检测模型需对网络权值采取初值化操作,使得网络学习到输入、输出的形成映射关系,即训练包括两个阶段,前向传播阶段和反向传播阶段;
前向传播阶段包括,将数据集中的样本输入至网络中,在经过各层神经元变换组合而获得输出结果,网络上层输出则为当前层输入,定义当前层输入为A[l-1],输出为A[l],如下:
Z[l]=W[l]A[l-1]+b
A[l]=g[l](Z[l])
其中,l表示神经网络的层数,W表示权重,b为偏置,g表示激活函数,Z表示该层所有z的向量化,A表示该层所有A的向量化;
反向传播阶段包括:
利用反向传播算法优化权重和偏置,最大限度地减少每个输出神经元和整个网络的误差使实际输出的值更接近理想值;
当深度卷积神经网络完成一次前向传播后,将误差由后往前进行反向传播;
根据误差依次计算隐含层和输入层的偏导数,不断迭代调整参数,最后得到使误差最小的W和b,如下:
dZ[l]=dA[l]*g[l](Z[l])
Figure GDA0002983040890000101
Figure GDA0002983040890000102
dA[l-1]=W[l]T·dZ[l]
其中,将
Figure GDA0002983040890000103
表示为dZ[l]
Figure GDA0002983040890000104
表示为dA[l],m为训练集大小。
S4:利用检测模型读取数据库内的图像,计算输出检测结果。
优选的,本实施例还需要说明的是,现有的目标检测方法是通过计算机图像处理的算法,其除了准确度不够高以外,最大的问题是检测速度比较慢,特别是在区域定位阶段耗时多计算量大;而传统的激光雷达方法用于目标检测虽克服了传统算法图像区域定位比较困难的问题,但是成本太高。
本发明方法针对红外行人图像信噪比低、对比度低的特点,对图像进行滤波去噪和对比度增强,根据视觉观察和评价指标PSNR及SSIM的对比选取小波自适应阈值去噪,在滤除噪声的同时保留了图像细节,使图像变得更加清晰;在提高图像对比度方面,采用分段线性变换、Gamma校正、直方图均衡化以及限制对比度的自适应直方图均衡化,根据视觉观察和图像灰度直方图的综合观察,限制对比度的自适应直方图均衡化提高了图像的对比度的同时既不需要分段线性变换、Gamma变换的用户输入,也没有出现图像的过分增强,处理效果优于传统方法的处理效果,使得本发明方法具有较高的研究意义。
实施例2
参照图9~图13,为本发明的第二个实施例,该实施例不同于第一个实施例的是,提供了一种基于深度学习的红外图像行人检测方法的验证,包括:
为了更好地对本发明中采用的技术效果加以验证说明,本实施例选择传统的处理红外图像检测方法与本发明进行对比测试,以科学论证的手段对比试验结果,验证本发明所具有的真实技术效果。
本实施例中采用TensorFlow进行试验,TensorFlow不仅有很直观的计算图可视化呈现,还构建了活跃的社区,有完善的文档体系,大大降低了学习成本,其模型能够快速地部署在各种硬件机器上,从高性能的计算机到移动设备,再到更小的更轻量的智能终端,支持多种开发语言包括Python、c++、jave、R语言、c#、JS;为了验证本发明方法的通用性,本实施例选取OUS热红外行人数据库中不同天气的5幅图像进行实验。
参照图9,一般情况下分段线性变换限制x1<x2,y1<y2,从而保证函数单调递增,以避免造成处理过的图像灰度级发生颠倒;根据图9的示意,分段线性变换1中转换的灰度范围x1=0.3,x2=0.75,斜率y1=0.15,y2=0.85,分段线性变换2中转换的灰度范围x1=0.15,x2=0.85,斜率y1=0.3,y2=0.7;从直方图可以看出分段线性1使原图像的灰度值拉伸了,提高了图像的对比度,而分段线性2图像整体变亮,主要的灰度级分布从原来的50~100变为了100左右使原图像的灰度值压缩了,对比度变小了,分段线性变换虽然可以使图像对比度得到很好的提高但依赖于用户输入。
参照图10,Gamma校正并不是线性变换,其不仅可以改变图像的对比度,还能够增强细节,从而带来整体图像的效果改善,其中,Gamma值对图像的灰度显示是直观的;当γ<1时,图像整体变亮,拉伸了图像中灰度级较低的区域,当γ>1时,则与之相反。
参照图11,其为原图像与直方图均衡化后的图像及直方图的对比,可以看出,原图像在经过直方图均衡化后,变换后图像的动态范围变宽,灰度值分布由原来的50~120变为0~255,虽然提高了对比度但图像目标轮廓不清晰,放大了图像中的噪声,而且经处理后对比度过分增强。
参照图12,可以看出原图像在经过限制对比度的自适应直方图均衡化后,变换后图像的动态范围较原图像变宽,灰度值主要分布在50~140之间,提高了图像对比度,也没有出现过分增强的现象。
参照图13,图中第一列是原图像,第二列是原图像经过小波自适应去噪后的图像,第三列是第二列图像经过限制对比度的自适应直方图均衡化后的图像;能够看到,采用小波自适应阈值去噪和限制对比度的自适应直方图均衡化对红外行人图像进行预处理,使图像变得平滑、清晰,放大了图像的细节,提高了对比度和亮度。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种基于深度学习的红外图像行人检测方法,其特征在于:包括,
采集待检测的行人图像并进行预处理;
所述预处理包括,图像特征分析、图像降噪和图像增强;
所述图像特征分析包括,目标与背景特征分析和噪声特征分析;
所述图像降噪包括,高斯滤波、自适应中值滤波和小波自适应阈值去噪;
所述图像增强包括,红外图像的直方图、分段线性变换、Gamma校正、直方图均衡化和对比度受限的自适应直方图均衡化;
所述图像增强包括:
若所述图像为f(x,y),则定义图像灰度值为r0,r1,…,rk-1,则概率密度函数为P(ri),且有
Figure FDA0003690104990000011
如下:
Figure FDA0003690104990000012
而分段线性变换是针对不同灰度级范围进行不同的线性变换,可以增强或降低某一灰度范围的对比度,对比度拉伸后显然比原图能够更加清晰地看到更多的细节,如下:
Figure FDA0003690104990000013
其中,x1、x2为需要转换的灰度范围,y1、y2为变换的斜率,对灰度区间[0,255]进行了分段线性变换,灰度区间[0,x1]和[x2,255]受到了压缩,减弱了噪声干扰;
图像的Gamma校正实质上是对图像矩阵中的每一个值进行幂运算,定义如下:
s=crγ
其中,γ的取值范围为0-1,因此需要先进行归一化,然后取指数;
直方图均衡化在图像像素映射过程中保证原来的大小关系保持不变,映射过程如下:
Figure FDA0003690104990000014
其中,n为图像像素的总和,L为灰度级总数;
将预处理后的所述图像输入搭建好的数据库内存储;
所述数据库由OTCBVS基准数据库构建,其包括OUS热行人数据集、CVC-09、CVC-14;
所述CVC-09包括FIR序列行人数据集,所述数据集由两组图像组成,分别为昼夜集,第一组包含5990帧,第二组包含5081帧,分别按训练集和测试集划分每个序列;
所述CVC-14包括可见FIR日夜行人序列数据集,所述数据集由两组图像组成,分别为昼夜集,而Visible和FIR取决于用户对序列进行记录的摄像机,白天训练3695张图像、晚上训练3390张图像,每个所述序列带有1500个强制行人注释;
基于深度卷积神经网络构建检测模型;
构建所述检测模型包括:
基于所述深度卷积神经网络策略提取所述预处理图像的候选区域的特征向量;
通过区域映射的方式将所述候选区域在最后的特征图的特征用感兴趣区域池化层得到特定的所述特征向量;
利用Softmax层分类所述候选区域的所述特征向量;
对所述候选区域的线性回归算法统一到网络中,结合所述Softmax并列成为一个多任务网络;
将所述多任务网络共享卷积特征并一起相互促进训练,训练结束,得到所述检测模型;
利用所述检测模型读取所述数据库内的所述图像,计算输出检测结果。
2.根据权利要求1所述的基于深度学习的红外图像行人检测方法,其特征在于,所述深度卷积神经网络包括:输入层、卷积层、池化层、全连接层以及输出层。
3.根据权利要求1所述的基于深度学习的红外图像行人检测方法,其特征在于:训练所述检测模型需对网络权值采取初值化操作,使得网络学习到输入、输出的形成映射关系,即训练包括两个阶段,前向传播阶段和反向传播阶段;
所述前向传播阶段包括:
将所述数据集中的样本输入至所述网络中,在经过各层神经元变换组合而获得输出结果,网络上层输出则为当前层输入,定义所述当前层输入为A[l-1],输出为A[l],如下:
Z[l]=W[l]A[l-1]+b
A[l]=g[l](Z[l])
其中,l表示神经网络的层数,W表示权重,b为偏置,g表示激活函数,Z表示该层所有z的向量化,A表示该层所有A的向量化。
4.根据权利要求3所述的基于深度学习的红外图像行人检测方法,其特征在于,所述反向传播阶段包括:
利用反向传播算法优化权重和偏置,最大限度地减少每个输出神经元和整个网络的误差使实际输出的值更接近理想值;
当所述深度卷积神经网络完成一次所述前向传播后,将误差由后往前进行反向传播;
根据所述误差依次计算隐含层和输入层的偏导数,不断迭代调整参数,最后得到使误差最小的W和b,如下:
dZ[l]=dA[l]*g[l](Z[l])
Figure FDA0003690104990000031
Figure FDA0003690104990000032
dA[l-1]=W[l]T·dZ[l]
其中,将
Figure FDA0003690104990000033
表示为dZ[l]
Figure FDA0003690104990000036
表示为dA[l],m为训练集大小。
5.根据权利要求1所述的基于深度学习的红外图像行人检测方法,其特征在于,所述图像特征分析包括:
利用信噪比SNR表示图像中目标信号的相对强度,定义如下:
Figure FDA0003690104990000035
其中,μT为行人目标的灰度均值,μ为整幅图像的灰度均值,σ为整幅图像的标准差;
若所述SNR的值越大,则信号和背景噪声的差别越大,目标的检测难度相对较低;
若所述SNR值越小,则所述信号被淹没在所述背景噪声中,所述目标的检测难度相对较大。
6.根据权利要求1所述的基于深度学习的红外图像行人检测方法,其特征在于,所述图像降噪包括:
利用小波变换计算含噪声图像以进行多尺度分解,得到噪声的方差σ2,如下:
Figure FDA0003690104990000041
其中,Yi,j=subbandHH1,
Figure FDA0003690104990000042
是从子带HH1估计出的噪声的方差;
计算每一级尺度参数β,
Figure FDA0003690104990000043
其中,j=1,…,J、Lk为k级子带长度,J为分解总层数,随着j的改变,每一级的尺度参数会自适应的改变;
计算1到J层的高频系数标准方差σj和阈值T,
Figure FDA0003690104990000044
对1到J层的高频系数进行阈值化去噪;
利用阈值化后的小波系数对二维图像进行重构,得到去噪后的图像。
CN202011181765.1A 2020-10-29 2020-10-29 一种基于深度学习的红外图像行人检测方法 Active CN112733589B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011181765.1A CN112733589B (zh) 2020-10-29 2020-10-29 一种基于深度学习的红外图像行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011181765.1A CN112733589B (zh) 2020-10-29 2020-10-29 一种基于深度学习的红外图像行人检测方法

Publications (2)

Publication Number Publication Date
CN112733589A CN112733589A (zh) 2021-04-30
CN112733589B true CN112733589B (zh) 2023-01-03

Family

ID=75597348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011181765.1A Active CN112733589B (zh) 2020-10-29 2020-10-29 一种基于深度学习的红外图像行人检测方法

Country Status (1)

Country Link
CN (1) CN112733589B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113902638B (zh) * 2021-10-08 2024-04-09 电子科技大学 结合卷积神经网络和轻型自适应中值滤波视频降噪方法
CN114550009B (zh) * 2022-04-01 2022-12-06 中国科学院空天信息创新研究院 星载遥感图像的轻量化目标检测方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106952220A (zh) * 2017-03-14 2017-07-14 长沙全度影像科技有限公司 一种基于深度学习的全景图像融合方法
CN107145846A (zh) * 2017-04-26 2017-09-08 贵州电网有限责任公司输电运行检修分公司 一种基于深度学习的绝缘子识别方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104240242B (zh) * 2014-09-05 2017-03-15 北京空间机电研究所 一种遥感图像最大信噪比测量方法
CN105430378A (zh) * 2015-11-26 2016-03-23 航天恒星科技有限公司 一种影像质量评价***及方法
CN107392095A (zh) * 2017-06-15 2017-11-24 杭州红辉电子科技有限公司 一种基于掩码图像的红外弱小目标检测算法
CN109815814B (zh) * 2018-12-21 2023-01-24 天津大学 一种基于卷积神经网络的人脸检测方法
CN109961009B (zh) * 2019-02-15 2023-10-31 平安科技(深圳)有限公司 基于深度学习的行人检测方法、***、装置及存储介质
CN110246130B (zh) * 2019-06-21 2023-03-31 中国民航大学 基于红外和可见光图像数据融合的机场道面裂缝检测方法
CN110472542A (zh) * 2019-08-05 2019-11-19 深圳北斗通信科技有限公司 一种基于深度学习的红外图像行人检测方法及检测***
CN111079740A (zh) * 2019-12-02 2020-04-28 咪咕文化科技有限公司 图像的质量评价方法、电子设备和计算机可读存储介质
CN111047624A (zh) * 2019-12-27 2020-04-21 成都英飞睿技术有限公司 图像弱小目标检测方法、装置、设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106952220A (zh) * 2017-03-14 2017-07-14 长沙全度影像科技有限公司 一种基于深度学习的全景图像融合方法
CN107145846A (zh) * 2017-04-26 2017-09-08 贵州电网有限责任公司输电运行检修分公司 一种基于深度学习的绝缘子识别方法

Also Published As

Publication number Publication date
CN112733589A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
Chen et al. Infrared and visible image fusion based on target-enhanced multiscale transform decomposition
Zhao et al. Self-supervised feature adaption for infrared and visible image fusion
Fu et al. DSAGAN: A generative adversarial network based on dual-stream attention mechanism for anatomical and functional image fusion
CN108830818B (zh) 一种快速多聚焦图像融合方法
CN103049892B (zh) 基于相似块矩阵秩最小化的非局部图像去噪方法
Li et al. Fast infrared and visible image fusion with structural decomposition
CN112233026A (zh) 一种基于多尺度残差注意力网络的sar图像去噪方法
Bhalla et al. Fusion of Infrared and Visible Images Using Fuzzy Based Siamese Convolutional Network.
CN112949565A (zh) 基于注意力机制的单样本部分遮挡人脸识别方法及***
CN112733589B (zh) 一种基于深度学习的红外图像行人检测方法
Panigrahy et al. Parameter adaptive unit-linking dual-channel PCNN based infrared and visible image fusion
Wang et al. A generative image fusion approach based on supervised deep convolution network driven by weighted gradient flow
CN115511767B (zh) 一种自监督学习的多模态图像融合方法及其应用
CN112464891B (zh) 一种高光谱图像分类方法
CN104657951A (zh) 图像乘性噪声移除方法
Zhang et al. An image fusion method based on curvelet transform and guided filter enhancement
Pan et al. DenseNetFuse: A study of deep unsupervised DenseNet to infrared and visual image fusion
Wang et al. Low-light image enhancement based on deep learning: a survey
Guo et al. Multifeature extracting CNN with concatenation for image denoising
Chen et al. The fusion of infrared and visible images via decomposition-based structure transfer and local saliency detection
Zhou et al. Physical-priors-guided DehazeFormer
Xiong et al. Multitask Sparse Representation Model Inspired Network for Hyperspectral Image Denoising
Luo et al. Infrared and visible image fusion based on VPDE model and VGG network
Zhang et al. A novel DenseNet Generative Adversarial network for Heterogenous low-Light image enhancement
Xie et al. Hyperspectral intrinsic image decomposition based on physical prior-driven unsupervised learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240510

Address after: 200240 room k2042, floor 2, building 41, No. 398, Heqing Road, Minhang District, Shanghai

Patentee after: Shanghai Jiuxing Culture Communication Co.,Ltd.

Country or region after: China

Address before: 545006 268 East Ring Road, Central District, Liuzhou, the Guangxi Zhuang Autonomous Region

Patentee before: GUANGXI University OF SCIENCE AND TECHNOLOGY

Country or region before: China

TR01 Transfer of patent right