CN111126359B - 基于自编码器与yolo算法的高清图像小目标检测方法 - Google Patents

基于自编码器与yolo算法的高清图像小目标检测方法 Download PDF

Info

Publication number
CN111126359B
CN111126359B CN202010143805.7A CN202010143805A CN111126359B CN 111126359 B CN111126359 B CN 111126359B CN 202010143805 A CN202010143805 A CN 202010143805A CN 111126359 B CN111126359 B CN 111126359B
Authority
CN
China
Prior art keywords
network
data
yolo
encoder
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010143805.7A
Other languages
English (en)
Other versions
CN111126359A (zh
Inventor
吴宪云
孙力
李云松
王柯俨
刘凯
雷杰
郭杰
苏丽雪
王康
司鹏辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Yixin Yiyi Information Technology Co ltd
Xidian University
Original Assignee
Nanjing Yixin Yiyi Information Technology Co ltd
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Yixin Yiyi Information Technology Co ltd, Xidian University filed Critical Nanjing Yixin Yiyi Information Technology Co ltd
Publication of CN111126359A publication Critical patent/CN111126359A/zh
Application granted granted Critical
Publication of CN111126359B publication Critical patent/CN111126359B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Astronomy & Astrophysics (AREA)
  • Remote Sensing (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于自编码器与YOLO算法的高清图像小目标检测方法,主要解决现有技术对高清图像小目标检测其准确率和速度不可兼顾的问题。实现步骤为:1)采集高清图像并标注,获得训练集和测试集;2)对标注好的训练集进行数据扩充;3)根据标注信息生成对应的Mask数据;4)搭建自编码器模型;5)使用训练集对其训练;6)将训练好的自编码器的编码网络与YOLO‑V3检测网络拼接,得到混合网络并使用训练集对其训练;7)使用训练好的混合网络在测试集上进行目标检测。本发明减少了目标检测的计算量,提高了检测速度,并在保证检测速度的情况下提高了高清图像中小目标的检测精度,可用于无人机航拍图像的目标识别。

Description

基于自编码器与YOLO算法的高清图像小目标检测方法
技术领域
本发明属于目标检测技术领域,特别涉及到一种高清图像小目标的检测方法,可用于无人机航拍图像的目标识别。
技术背景
目前,随着目标检测技术的发展,特别是近几年,基于深度学习的目标检测算法的提出,例如Faster-RCNN、SSD系列、YOLO系列,这些算法与传统目标检测算法相比,基于深度学习的目标检测算法在准确率以及效率上都大大超过了传统检测算法。但是目前的算法都是基于现有的数据集进行优化,如ImageNet、COCO等,在实际应用中,如无人机航拍目标检测,由于无人机飞行高度较高,采集到的图像尺寸较大,一般都为高清图像,并且在采集到的图像中,目标尺寸一般较小,所以在对于高清图像的目标检测方面主要为小目标检测。
在目标检测中,对于高清图像的处理方式主要有两种,一种为下采样尺寸缩放的方式,一种为图像裁剪的方式,具体如下:
Joseph Redmon等人发表在IEEE国际计算机视觉与模式识别会议的非专利文献“YOLO9000:Better,Faster,Stronger”中提出对于YOLO网络的改进方案中通过去掉全连接层的方式,使得网络可以检测不同尺寸大小的输入图像,该方法在使用VOC2007+VOC2012的数据集的实验结果中,通过下采样尺寸缩放的方式将输入图像缩放到288x288大小时,速度上可以达到91FPS,但是在精度上只有69.0mAP,如果将输入图像缩放到544*544大小时,速度降低为40FPS,精度提升为78.6mAP。从该实验中可以看出,大尺寸输入图像目标检测势必会造成计算量的加大,从而降低目标检测的速度,而通过下采样尺寸缩放的方式,又会造成目标空间信息的丢失,降低目标检测的精度。在高清图像的小目标检测中,如果将高清图像直接送入网络中检测,检测速度将会下降更为严重,如果通过尺寸缩放的方式,将会减少小目标特征信息,造成精度下降。
第二种常用方式为图像裁剪,具体做法为:将原始高清图像裁剪为小图送入网络进行检测,检测完毕之后进行合并。这种方式具有的优点是,通过裁剪,保证了图像的空间信息不损失,在目标检测精度上会有很好的效果,但是由于将一幅图像裁剪成了多幅图像,在目标检测速度上将会成倍的增加。
综上所述,如何在实际应用中,对高清图像进行快速又精确的目标检测成为一项有待解决的问题。
发明内容
本发明的目的在于针对上述现有方法存在的缺陷,提供一种基于自编码器和YOLO算法的高清图像小目标检测方法,旨在保证不降低高清图像检测速度的条件下,提高高清图像小目标的检测精度。
为实现上述目的,本发明的技术方案包括如下步骤:
(1)采集高清图像数据形成数据集,并对数据集进行标注,得到正确的标签数据,将数据集和标签数据以8:2的比例划分为训练集和测试集;
(2)将标注好的训练集进行数据扩充;
(3)对于每一幅高清图像数据,根据图像大小和标注信息,生成相应图像的目标Mask数据;
(4)搭建一个包括编码网络和解码网络的全卷积自编码器模型,该编码网络用于对高清图像进行特征提取和数据压缩,该解码网络用于对压缩后的特征图恢复到原始大小;
(5)将高清图像训练集数据送入全卷积自编码器模型中进行训练,得到训练好的全卷积自编码器模型:
(5a)将网络的偏移量初始化为0,并采用kaiming高斯初始化方法对网络的权重参数进行初始化,根据高清图像训练集大小设置自编码器的迭代次数T1
(5b)定义基于分区域的均方误差损失函数如下:
Figure BDA0002400010530000021
其中Mask-MSE-Loss(y,y_)为所要计算的损失函数;y为解码器输出图像;y_为输入原始高清图像;α为目标区域的损失惩罚权重,设置为0.9;β为背景区域惩罚权重,设置为0.1;W为自编码器的输入图像尺寸宽度;H为自编码器的输入图像尺寸宽度;Mask(i,j)为(3)中Mask数据第(i,j)位置的值;
(5c)将高清图像训练集数据输入到全卷积自编码网络中,进行前向传播,得到编码后的特征图,再通过解码器对特征图进行恢复;
(5d)使用(5b)定义的基于分区域的均方误差损失函数,计算输入图像与输出图像的损失值;
(5e)使用反向传播算法进行全卷积自编码器的权值和偏移量更新,完成对全卷积自编码器训练的一次迭代;
(5f)重复(5c)~(5e),直到完成所有自编码器的迭代次数T1,得到训练好的全卷积自编码器;
(6)将训练好的全卷积自编码器的编码网络与YOLO-V3检测网络进行拼接,并对拼接后的网络进行训练:
(6a)将训练好的全卷积自编码器的编码网络拼接到YOLO-V3检测网络之前,形成拼接之后的混合网络;
(6b)对拼接后的混合网络进行训练:
(6b1)读取训练好的全卷积自编码器的参数,用读取的参数值初始化编码网络,并设置该编码网络的参数为不可训练的状态;
(6b2)设置YOLO-V3网络的输入图像尺寸与全卷积自编码器网络的输入尺寸相同;
(6b3)从YOLO官网上下载ImageNet数据集上预训练的参数,用该参数对YOLO-V3网络的参数进行初始化,并根据(1)采集的数据集大小设置YOLO-V3网络的迭代次数T2
(6b4)将高清图像训练集数据送入到拼接后的混合网络中进行正向传播,得到输出检测结果;
(6b5)使用YOLO-V3算法中的损失函数,计算输出检测结果与(1)中标注的正确标签数据之间的损失值;
(6b6)根据损失值大小,使用反向传播算法进行混合网络的权值和偏移量更新,完成对混合网络训练的一次迭代;
(6b7)重复(6b4)~(6b6),直到完成所有YOLO-V3的迭代次数T2,得到训练好的混合网络;
(7)将(1)中的测试集数据输入到训练好的混合模型中,得到最终的检测结果。
本发明与现有技术相比,具有以下优点:
本发明将自编码器的编码网络与YOLO-V3检测网络相结合,且通过编码网络在很少损失目标区域特征的前提下对高清图像进行压缩,通过YOLO-V3检测网络对压缩后图像进行小目标检测,由于编码网络只压缩背景特征信息,保留了目标特征信息,从而在保证了检测速度的情况下提高了高清图像中小目标检测的精度。
附图说明
图1为本发明的实现流程图;
图2为本发明中采集高清图像的标注图;
图3为本发明中通过标注信息生成的Mask数据图;
图4为本发明中卷积自编码器的网络结构图;
图5为本发明中编码器与YOLO-V3网络相结合的结构图;
图6为用本发明在测试样本上的仿真检测结果图;
图7为现有下采样压缩高清图像方法经过YOLO-V3在测试样本上的仿真检测结果图。
具体实施方式
以下结合附图对本发明的实施例和效果做进一步详细说明,所述实施例为对无人机拍摄的高清图像进行排污口小目标检测。
参照图1,本实例的实现步骤包括如下:
步骤1,采集高清图像,获得训练集和测试集。
采集无人机航拍的高清图像数据,图像宽度为1920像素,图像高度为1080像素;
使用常用的图像标注工具LabelImg对采集到的图像数据进行目标标注,得到正确的标签数据,如图2所示;
将数据集和标签数据以8:2的比例划分为训练集和测试集。
步骤2,对标注好的数据集进行数据扩充。
2.1)对采集无人机航拍训练集中的每一幅高清图像分别做左右翻转、旋转、平移、加噪、亮度调整、对比度调整和饱和度调整的处理;
2.2)将经过处理后的图像数据加入到原始训练数据集中,得到扩充后的训练数据集。
步骤3,生成相应图像的目标Mask数据图像。
3.1)根据无人机航拍采集的高清图像大小和标注信息,设置Mask数据图像为二值图像数据,其宽度和高度与无人机航拍采集的高清图像宽度和高度相同,即Mask数据图像宽为1920像素,高为1080像素,通道数为1;
3.2)读取原始图像中像素点所在的位置信息,通过该位置信息设置Mask数据相对应像素点的值:
如果像素点在背景区域,Mask数据相对应像素位置的值设置为0,
如果像素点在目标区域,Mask数据相对应像素位置的值设置为1,
公式表示如下:
Figure BDA0002400010530000051
(i,j)是指像素点在无人机航拍图像数据中的第i行,第j列,Mask(i,j)为Mask图像数据在(i,j)位置的值。
本实例通过图2按照上述3.2)方法生成的Mask图,如图3所示。
步骤4,搭建全卷积自编码器模型。
设全卷积自编码器模型包括编码网络和解码网络,该编码网络用于对高清图像进行特征提取和数据压缩,该解码网络用于对压缩后的特征图恢复到原始大小,搭建过程如下:
4.1)搭建编码网络:
编码网络包括5个卷积层,每个卷积层之间采用串联的连接方式,且每个卷积层参数设置如下:
第一层:卷积核大小为3*3,数量为16个,卷积步长为1,激活函数采用ReLU,输出特征图尺寸为1664*1664*16;
第二层:卷积核大小为3*3,数量为32个,卷积步长为2,激活函数采用ReLU,输出特征图尺寸为832*832*32;
第三层:卷积核大小为3*3,数量为64个,卷积步长为1,激活函数采用ReLU,输出特征图尺寸为832*832*64;
第四层:卷积核大小为3*3,数量为128,卷积步长为2,激活函数采用ReLU,输出特征图尺寸为416*416*128;
第五层:卷积核大小为1*1,数量为3,卷积步长为1,激活函数采用Sigmoid,输出特征图尺寸为416*416*3;
4.2)搭建解码网络:
解码网络包括5个反卷积层,每个反卷积层之间采用串联的连接方式,且每一个反卷积层参数的设置如下:
第1层:卷积核大小为1*1,数量为128,卷积步长为1,激活函数采用ReLU,输出特征图尺寸为416*416*128;
第2层:卷积核大小为3*3,数量为64,卷积步长为2,激活函数采用ReLU,输出特征图尺寸为832*832*64;
第3层:卷积核大小为3*3,数量为32,卷积步长为1,激活函数采用ReLU,输出特征图尺寸为832*832*32;
第4层:卷积核大小为3*3,数量为16,卷积步长为2,激活函数采用ReLU,输出特征图尺寸为1664*1664*16;
第5层:卷积核大小为3*3,数量为3,卷积步长为1,激活函数采用Sigmoid,输出特征图尺寸为1664*1664*3;
上述卷积核大小描述形式为w*h,其意义表示卷积核宽度为w,高度为h;
上述特征图尺寸描述形式为w*h*c,其意义表示特征图宽度为w像素,高度为h像素,通道数为c;
搭建好的全卷积网络如图4所示。
步骤5,训练搭建好的全卷积自编码器模型。
5.1)初始化网络参数:
将网络的偏移量初始化为0,并采用kaiming高斯初始化方法对网络的权重参数进行初始化,使其服从如下分布:
Figure BDA0002400010530000061
其中:Wl为第l层的权重;N为高斯分布,即名正态分布;a为ReLU激活函数或LeakyReLU激活函数的负半轴斜率,nl为每一层的数据维数,nl=卷积核边长2×channel数,channel为每一层卷积输入的通道数;
根据高清图像训练集大小设置自编码器的迭代次数为8000次;
5.2)将训练集图像数据进行上采样,并使经过上采样的训练集图像数据尺寸与全卷积网络的输入尺寸相同,即宽度为1664像素,高度为1664像素,通道数为3;
5.3)将Mask数据进行上采样,并使经过上采样的Mask数据尺寸与全卷积网络的数据宽高相同,即宽度为1664像素,高度为1664像素,通道数为1;
5.4)将上采样后的图像输入到全卷积自编码网络中,进行前向传播,得到编码后的特征图,再通过解码器对特征图进行恢复;
5.5)按如下公式构造基于分区域的均方误差损失函数:
Figure BDA0002400010530000071
其中Mask-MSE-Loss(y,y_)为所要计算的损失函数;y为解码器输出图像;y_为输入原始高清图像;α为目标区域的损失惩罚权重,设置为0.9;β为背景区域惩罚权重,设置为0.1;W为编码器输入数据的宽度,为1664;H为编码器数据数据的高度,其值为1664,Mask(i,j)为经过上采样的Mask图像数据在(i,j)位置的值;
5.6)使用5.5)的损失函数,计算输入图像与输出图像的损失值:
5.7)使用反向传播算法进行全卷积自编码器的权值和偏移量更新,完成对全卷积自编码器训练的一次迭代:
5.7.1)使用反向传播算法更新权值,其公式如下:
Figure BDA0002400010530000072
其中:Wt+1为更新后的权重;Wt为更新前的权重;μ为反向传播算法的学习率,此处设置为0.001;
Figure BDA0002400010530000073
为5.5)的损失函数对权重W的偏导数;
5.7.2)使用反向传播算法更新偏移量,其公式如下:
Figure BDA0002400010530000074
其中:bt+1为更新后的偏移量;bt为更新前的偏移量;μ为反向传播算法的学习率,其值为0.001;
Figure BDA0002400010530000075
为5.5)的损失函数对偏移量b的偏导数;
5.8)重复5.2)~5.7),直到完成全卷积自编码器的迭代次数,得到训练好的全卷积自编码器。
步骤6,拼接全卷积自编码器的编码网络与YOLO-V3检测网络,训练拼接后的混合网络:
6.1)将训练好的全卷积自编码器的编码网络拼接到YOLO-V3检测网络之前,形成拼接之后的混合网络,如图5所示;
6.2)对拼接后的混合网络进行训练:
6.2.1)读取训练好的全卷积自编码器的参数,用读取的参数值初始化编码网络,并设置该编码网络的参数为不可训练的状态;
6.2.2)设置YOLO-V3网络的输入图像尺寸与全卷积自编码器网络的输入尺寸相同;
6.2.3)从YOLO官网上下载ImageNet数据集上的预训练参数,用该参数对YOLO-V3网络的参数进行初始化,并根据(1)采集的数据集大小设置YOLO-V3网络的迭代次数为5000次;
6.2.4)将无人机航拍的高清图像训练集数据送入到拼接后的混合网络中进行正向传播,得到输出检测结果;
6.2.5)使用YOLO-V3算法中的损失函数,计算输出检测结果与(1)中标注的正确标签数据之间的损失值,
该YOLO-V3算法中的损失函数表示如下:
Figure BDA0002400010530000081
其中:λcoord为对预测坐标损失的惩罚权重,设置为5;
λnoobj为没有检测到目标时置信度损失的惩罚权重,设置为0.5;
K为输出特征图的尺度大小;
M为边界框的数量;
Figure BDA0002400010530000082
为输出特征图中第i个单元的第j个边界框是否包含目标,如果包含目标,该值为1,否则该值为0;
Figure BDA0002400010530000083
与/>
Figure BDA0002400010530000084
相反,如果包含目标,该值为0,否则该值为1;
xi为YOLO-V3网络输出的特征图中第i个单元格中预测的边界框中心位置的横坐标值;
Figure BDA0002400010530000085
为第i个单元格中实际边界框中心位置的横坐标值;
yi为YOLO-V3网络输出的特征图中第i个单元格中预测的边界框中心位置的纵坐标值;
Figure BDA0002400010530000091
为第i个单元格中实际边界框中心位置的纵坐标值;
wi为YOLO-V3网络输出的特征图中第i个单元格中预测的边界框的宽度;
Figure BDA0002400010530000092
为第i个单元格中实际边界框的宽度;
hi为YOLO-V3网络输出的特征图中第i个单元格中预测边界框的高度;
Figure BDA0002400010530000093
为第i个单元格中实际边界框的高度;
Ci为YOLO-V3网络输出的第i个单元格预测的置信度;
Figure BDA0002400010530000094
为第i个单元格真实的置信度;
pi(c)为YOLO-V3网络输出的特征图中第i个单元格类别为c的概率;
Figure BDA0002400010530000095
为第i个单元格类别为c的概率。
6.2.6)根据6.2.5)计算的损失值大小,使用反向传播算法进行混合网络的权值和偏移量更新,权值和偏移量更新方法与5.7)的更新公式相同,完成对混合网络训练的一次迭代;
6.2.7)重复(6.2.4)~(6.2.6),直到完成所有YOLO-V3的迭代次数,得到训练好的混合网络;
步骤7,使用训练好的网络进行目标检测。
将步骤1中的测试集数据输入到训练好的混合模型中得到最终的检测结果,检测出图像中的小目标,结果如图6所示。
在图6与图7中,画框并注明文字的区域表示在该区域成功检测到了目标,从图7现有方法的结果中可看出,在左下角部分,有两个明显的暗管小目标没有检测出来,在右下角的部分,有一个较为明显的暗管小目标也没有检测出来。对比图6中的检测结果,由于本发明在图像压缩过程中保留了目标的空间特性,成功检测出了左下角和右下角的目标。从对比结果可以看出,本发明在高清图像的小目标检测方面与现有方法相比具有明显优势。

Claims (5)

1.一种基于自编码器和YOLO算法的高清图像小目标检测方法,其特征在于,包括如下:
(1)采集高清图像数据形成数据集,并对数据集进行标注,得到正确的标签数据,将数据集和标签数据以8:2的比例划分为训练集和测试集;
(2)将标注好的训练集进行数据扩充;
(3)对于每一幅高清图像数据,根据图像大小和标注信息,生成相应图像的目标Mask数据;
(4)搭建一个包括编码网络和解码网络的全卷积自编码器模型,该编码网络用于对高清图像进行特征提取和数据压缩,该解码网络用于对压缩后的特征图恢复到原始大小;
(5)将高清图像训练集数据送入全卷积自编码器模型中进行训练,得到训练好的全卷积自编码器模型:
(5a)将网络的偏移量初始化为0,并采用kaiming高斯初始化方法对网络的权重参数进行初始化,根据高清图像训练集大小设置自编码器的迭代次数T1
(5b)定义基于分区域的均方误差损失函数如下:
Figure FDA0002400010520000011
其中Mask-MSE-Loss(y,y_)为所要计算的损失函数;y为解码器输出图像;y_为输入原始高清图像;α为目标区域的损失惩罚权重,设置为0.9;β为背景区域惩罚权重,设置为0.1;W为自编码器的输入图像尺寸宽度;H为自编码器的输入图像尺寸宽度;Mask(i,j)为(3)中Mask数据第(i,j)位置的值;
(5c)将高清图像训练集数据输入到全卷积自编码网络中,进行前向传播,得到编码后的特征图,再通过解码器对特征图进行恢复;
(5d)使用(5b)定义的基于分区域的均方误差损失函数,计算输入图像与输出图像的损失值;
(5e)使用反向传播算法进行全卷积自编码器的权值和偏移量更新,完成对全卷积自编码器训练的一次迭代;
(5f)重复(5c)~(5e),直到完成所有自编码器的迭代次数T1,得到训练好的全卷积自编码器;
(6)将训练好的全卷积自编码器的编码网络与YOLO-V3检测网络进行拼接,并对拼接后的网络进行训练:
(6a)将训练好的全卷积自编码器的编码网络拼接到YOLO-V3检测网络之前,形成拼接之后的混合网络;
(6b)对拼接后的混合网络进行训练:
(6b1)读取训练好的全卷积自编码器的参数,用读取的参数值初始化编码网络,并设置该编码网络的参数为不可训练的状态;
(6b2)设置YOLO-V3网络的输入图像尺寸与全卷积自编码器网络的输入尺寸相同;
(6b3)从YOLO官网上下载ImageNet数据集上预训练的参数,用该参数对YOLO-V3网络的参数进行初始化,并根据(1)采集的数据集大小设置YOLO-V3网络的迭代次数T2
(6b4)将高清图像训练集数据送入到拼接后的混合网络中进行正向传播,得到输出检测结果;
(6b5)使用YOLO-V3算法中的损失函数,计算输出检测结果与(1)中标注的正确标签数据之间的损失值;
(6b6)根据损失值大小,使用反向传播算法进行混合网络的权值和偏移量更新,完成对混合网络训练的一次迭代;
(6b7)重复(6b4)~(6b6),直到完成所有YOLO-V3的迭代次数T2,得到训练好的混合网络;
(7)将(1)中的测试集数据输入到训练好的混合模型中,得到最终的检测结果。
2.如权利要求1所述的方法,其特征在于,步骤(2)中所述的将标注好的训练集进行数据扩充,是先对原始数据集中的每一幅高清图像分别做左右翻转、旋转、平移、加噪、亮度调整、对比度调整和饱和度调整的处理,再将经过处理后的图像数据加入到原始数据集中,得到扩充后的数据。
3.如权利要求1所述的方法,其特征在于,步骤(3)中所述对于每一幅高清图像数据,根据图像大小和标注信息,生成相应图像的目标Mask数据,其实现如下:
(3a)设置Mask数据为二值图像数据,其宽度和高度与采集的高清图像宽度和高度相同;
(3b)根据标注数据中读取原始图像中像素点的位置信息,设置Mask数据相对应像素点的值:
如果像素点在目标区域,则将Mask数据相对应像素点的值设置为1,
如果像素点在背景区域,则将Mask数据相对应像素点的值设置为0,
公式表示如下:
Figure FDA0002400010520000031
4.如权利要求1所述的方法,其特征在于,步骤(5a)中使用kaiming高斯初始化方法对网络的权重参数进行初始化是,将网络的权重进行随机初始化,使其服从以下分布:
Figure FDA0002400010520000032
其中:Wl为第l层的权重;N为高斯分布,即名正态分布;a为ReLU激活函数或Leaky ReLU激活函数的负半轴斜率,nl为每一层的数据维数,nl=卷积核边长2×channel数,channel为每一层卷积输入的通道数。
5.如权利要求1所述的方法,其特征在于,步骤(6b5)中所使用的YOLO-V3算法中的损失函数,表示如下:
Figure FDA0002400010520000041
其中:λcoord为对预测坐标损失的惩罚权重,设置为5;
λnoobj为没有检测到目标时置信度损失的惩罚权重,设置为0.5;
K为输出特征图的尺度大小;
M为边界框的数量;
Figure FDA0002400010520000042
为输出特征图中第i个单元的第j个边界框是否包含目标,如果包含目标,该值为1,否则该值为0;
Figure FDA0002400010520000043
与/>
Figure FDA0002400010520000044
相反,如果包含目标,该值为0,否则该值为1;
xi为YOLO-V3网络输出的特征图中第i个单元格中预测的边界框中心位置的横坐标值;
Figure FDA0002400010520000045
为第i个单元格中实际边界框中心位置的横坐标值;
yi为YOLO-V3网络输出的特征图中第i个单元格中预测的边界框中心位置的纵坐标值;
Figure FDA0002400010520000046
为第i个单元格中实际边界框中心位置的纵坐标值;
wi为YOLO-V3网络输出的特征图中第i个单元格中预测的边界框的宽度;
Figure FDA0002400010520000047
为第i个单元格中实际边界框的宽度;
hi为YOLO-V3网络输出的特征图中第i个单元格中预测边界框的高度;
Figure FDA0002400010520000048
为第i个单元格中实际边界框的高度;
Ci为YOLO-V3网络输出的第i个单元格预测的置信度;
Figure FDA0002400010520000051
为第i个单元格真实的置信度;
pi(c)为YOLO-V3网络输出的特征图中第i个单元格类别为c的概率;
Figure FDA0002400010520000052
为第i个单元格类别为c的概率。/>
CN202010143805.7A 2019-11-15 2020-03-04 基于自编码器与yolo算法的高清图像小目标检测方法 Active CN111126359B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2019111176908 2019-11-15
CN201911117690 2019-11-15

Publications (2)

Publication Number Publication Date
CN111126359A CN111126359A (zh) 2020-05-08
CN111126359B true CN111126359B (zh) 2023-03-28

Family

ID=70493460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010143805.7A Active CN111126359B (zh) 2019-11-15 2020-03-04 基于自编码器与yolo算法的高清图像小目标检测方法

Country Status (1)

Country Link
CN (1) CN111126359B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832513B (zh) * 2020-07-21 2024-02-09 西安电子科技大学 基于神经网络的实时足球目标检测方法
CN111986160A (zh) * 2020-07-24 2020-11-24 成都恒创新星科技有限公司 一种基于faster-RCNN提高小目标检测效果的方法
CN111881982A (zh) * 2020-07-30 2020-11-03 北京环境特性研究所 一种无人机目标识别方法
CN112287998B (zh) * 2020-10-27 2024-06-21 佛山市南海区广工大数控装备协同创新研究院 一种低光照条件下进行目标检测的方法
CN112396582B (zh) * 2020-11-16 2024-04-26 南京工程学院 一种基于Mask RCNN的均压环歪斜检测方法
CN112766223B (zh) * 2021-01-29 2023-01-06 西安电子科技大学 基于样本挖掘与背景重构的高光谱图像目标检测方法
CN112926637B (zh) * 2021-02-08 2023-06-09 天津职业技术师范大学(中国职业培训指导教师进修中心) 一种文本检测训练集的生成方法
CN113255830A (zh) * 2021-06-21 2021-08-13 上海交通大学 基于变分自编码器与高斯混合模型的无监督目标检测方法及***
CN115841522A (zh) * 2021-09-18 2023-03-24 华为技术有限公司 图像损失值的确定方法、装置、存储介质及程序产品
CN114419395A (zh) * 2022-01-20 2022-04-29 江苏大学 基于中间位置编码的在线目标检测模型训练方法
CN114743116A (zh) * 2022-04-18 2022-07-12 蜂巢航宇科技(北京)有限公司 一种基于营房巡视场景的无人值守专用载荷***及方法
CN114818838B (zh) * 2022-06-30 2022-09-13 中国科学院国家空间科学中心 基于像元时域分布学习的低信噪比运动点目标检测方法
CN115542282B (zh) * 2022-11-28 2023-04-07 南京航空航天大学 基于深度学习的雷达回波检测方法、***、设备及介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399362B (zh) * 2018-01-24 2022-01-07 中山大学 一种快速行人检测方法及装置
CN109447033A (zh) * 2018-11-14 2019-03-08 北京信息科技大学 基于yolo的车辆前方障碍物检测方法
CN109785333A (zh) * 2018-12-11 2019-05-21 华北水利水电大学 用于并联机器人视觉***的目标检测方法及装置
CN110087092B (zh) * 2019-03-11 2020-06-05 西安电子科技大学 基于图像重构卷积神经网络的低码率视频编解码方法
CN109886359B (zh) * 2019-03-25 2021-03-16 西安电子科技大学 基于卷积神经网络的小目标检测方法及检测***

Also Published As

Publication number Publication date
CN111126359A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN111126359B (zh) 基于自编码器与yolo算法的高清图像小目标检测方法
CN111598030B (zh) 一种航拍图像中车辆检测和分割的方法及***
CN111612008B (zh) 基于卷积网络的图像分割方法
CN111709416B (zh) 车牌定位方法、装置、***及存储介质
CN110688905B (zh) 一种基于关键帧的三维物体检测与跟踪方法
CN112308860A (zh) 基于自监督学习的对地观测图像语义分割方法
CN113780296A (zh) 基于多尺度信息融合的遥感图像语义分割方法及***
CN115147598B (zh) 目标检测分割方法、装置、智能终端及存储介质
CN108428248B (zh) 车窗定位方法、***、设备及存储介质
CN111242026B (zh) 一种基于空间层次感知模块和度量学习的遥感图像目标检测方法
CN115035295B (zh) 一种基于共享卷积核和边界损失函数的遥感图像语义分割方法
CN112464912B (zh) 基于YOLO-RGGNet的机器人端人脸检测方法
CN110310305B (zh) 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置
CN116645592B (zh) 一种基于图像处理的裂缝检测方法和存储介质
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN112686274A (zh) 目标对象的检测方法及设备
CN114037640A (zh) 图像生成方法及装置
CN114913493A (zh) 一种基于深度学习的车道线检测方法
CN114332070A (zh) 一种基于智能学习网络模型压缩的陨坑检测方法
CN114067142A (zh) 一种实现场景结构预测、目标检测和车道级定位的方法
CN116503709A (zh) 一种基于改进YOLOv5的雾霾天气下车辆检测方法
CN112801021B (zh) 基于多级语义信息的车道线检测方法及***
CN112785610B (zh) 一种融合低层特征的车道线语义分割方法
CN112101113B (zh) 一种轻量化的无人机图像小目标检测方法
CN116363610A (zh) 一种基于改进YOLOv5的航拍车辆旋转目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20211123

Address after: 710071 Taibai South Road, Yanta District, Xi'an, Shaanxi Province, No. 2

Applicant after: XIDIAN University

Applicant after: Nanjing Yixin Yiyi Information Technology Co.,Ltd.

Address before: 710071 No. 2 Taibai South Road, Shaanxi, Xi'an

Applicant before: XIDIAN University

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant