CN112163602A - 一种基于深度神经网络的目标检测方法 - Google Patents
一种基于深度神经网络的目标检测方法 Download PDFInfo
- Publication number
- CN112163602A CN112163602A CN202010960423.3A CN202010960423A CN112163602A CN 112163602 A CN112163602 A CN 112163602A CN 202010960423 A CN202010960423 A CN 202010960423A CN 112163602 A CN112163602 A CN 112163602A
- Authority
- CN
- China
- Prior art keywords
- target detection
- neural network
- deep neural
- loss function
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 95
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 49
- 238000000605 extraction Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000004364 calculation method Methods 0.000 claims abstract description 24
- 230000004927 fusion Effects 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 230000009467 reduction Effects 0.000 claims description 13
- 230000008859 change Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 230000005284 excitation Effects 0.000 claims description 5
- 238000003064 k means clustering Methods 0.000 claims description 4
- 230000001629 suppression Effects 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 11
- 230000002411 adverse Effects 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 41
- 238000010586 diagram Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 208000003464 asthenopia Diseases 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003137 locomotive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 238000011179 visual inspection Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明属于深度学习与机器视觉技术领域,公开了一种基于深度神经网络的目标检测方法,包括获取目标检测对象图像集;对目标检测对象图像集进行预处理后得到数据集,根据数据集构建训练样本集;构建深度神经网络包括特征提取模块、特征融合模块、分类和回归模块;特征提取模块为结合d‑ResNet网络和eSENet模块的新的网络结构eSE‑dResNet;利用训练样本集进行深度神经网络的训练生成目标检测模型;将待检测对象图像输入至目标检测模型中得到目标检测结果。本发明解决了现有技术中目标检测的计算量大、耗时长、泛化能力差、识别精度低的问题,能够显著提高目标检测检测效果,能够适用于各种不良条件下的目标检测。
Description
技术领域
本发明涉及深度学习与机器视觉技术领域,尤其涉及一种基于深度神经网络的目标检测方法。
背景技术
随着深度学习的迅速发展,目标检测作为计算机视觉的重要研究方向在检测效率以及检测精度上得到很大提升,然而现有的目标检测的检测效果还不能够让人满意, 无法适用于各种图像背景复杂、环境噪声大、对比度低及光照不均等不良条件下的目 标检测。
以列车底部零件检测为例,列车底部零件作为列车运行必要条件是列车重要组成成分之一,为了保证安全运行,需要对进站列车的部件进行常规检查。通常采用的检 测方法分为两种,第一种是通过人工对重要部件进行肉眼检查,但是随着列车数量的 急剧增加,由于列车底部环境复杂,长时间单调的人工检查会出现视觉疲劳、注意力 不集中或者错觉等问题,容易造成漏检,从而可能影响到列车的安全运行,另外一种 方法通过在铁路线上安装线阵相机,利用目标检测算法对相机拍摄的车底图片进行检 测分析。
传统的目标检测算法主要分为三个步骤,包括区域选择、特征提取和分类器分类。第一步进行区域选择,这一步是为了对目标的位置进行定位,由于目标可能出现 在图像的任何位置,而且目标的大小、长宽比例也不确定,所以最初采用滑动窗口的 策略对整幅图像进行遍历,而且需要设置不同的尺度,不同的长宽比。这种穷举的策 略虽然包含了目标所有可能出现的位置,但是缺点也是显而易见的,这种方法的时间 复杂度太高,产生冗余窗口太多,这也严重影响后续特征提取和分类的速度和性能。 第二步进行特征提取,由于目标的形态多样性,光照变化多样性,背景多样性等因素 使得设计一个鲁棒的特征并不是那么容易。然而提取特征的好坏直接影响到分类的准 确性。第三步进行分类,对上一步提取到的特征进行分类器分类,通常采用支持向量 机进行分类。
总的来说,传统的目标检测方法存在几个主要问题:基于滑动窗口的区域选择策略没有针对性,时间复杂度高,窗口冗余,手工设计的特征对于多样性的变化并没有 很好的鲁棒性,而且所采集的照片在图像背景、环境噪声、对比度及曝光度方面都有 很大的不同,导致基于单一种类的图像处理技术难以实现多场景下的目标检测,且一 种图像处理算法只能定位一种部件,多种部件的定位和分类则需要多种图像处理算法 共同协作完成,因此存在计算量大、耗时长、泛化能力差、识别精度低等问题,无法 从根本上实现目标自动检测。
发明内容
本发明通过提供一种基于深度神经网络的目标检测方法,解决了现有技术中目标检测的计算量大、耗时长、泛化能力差、识别精度低的问题。
本发明提供一种基于深度神经网络的目标检测方法,包括以下步骤:
步骤1、获取目标检测对象图像集;
步骤2、对所述目标检测对象图像集进行预处理后得到数据集,根据数据集构建训练样本集;
步骤3、构建深度神经网络,所述深度神经网络包括特征提取模块、特征融合模块、分类和回归模块;所述特征提取模块为结合d-ResNet网络和eSENet模块的新的 网络结构eSE-dResNet;
步骤4、利用所述训练样本集进行所述深度神经网络的训练,生成目标检测模 型;
步骤5、将待检测对象图像输入至所述目标检测模型中,得到目标检测结果。
优选的,所述步骤2中,对所述目标检测对象图像集进行预处理包括:对原始图 像进行裁剪修正;若所述目标检测对象图像集中的原始图像宽度一致、高度不等,则 维持图像宽度不变,对图像的不同高度进行裁剪,所述裁剪修正采用如下方式实现:
h=(w-h1)n+(n-1)h1
其中,h和w分别表示原始图片的总长度和宽度,h1表示裁剪出的n张图片后多 余矩形的高。
优选的,所述步骤2中,对所述目标检测对象图像集进行预处理还包括:对裁剪 修正后的数据集进行扩充,得到扩充后的数据集;利用标注工具对所述扩充后的数据 集中的目标检测图像中所含目标进行标注。
优选的,所述步骤3中,所述d-ResNet网络通过在原始ResNet50结构中的identity block中增加了两条跨层连接得到;所述d-ResNet网络将第一个1×1卷积块的输入、第一个1×1卷积块的输出和3×3卷积块的输出进行特征拼接操作,然后将拼接 后的结果作为第二个1×1卷积块的输入;
所述eSENet模块嵌入在所述d-ResNet网络中的identity block和conv block之间;所述eSENet模块将SENet中激励部分原有的两层全连接层替换成一个卷积核大 小为1的卷积层。
优选的,所述步骤3中,所述特征融合模块采用特征金字塔结构进行不同维度的特征融合。
优选的,所述步骤3中,所述特征提取模块包括P1~Pi共i个阶段,所述特征融合 模块包括Ci~Cj共i-j+1个阶段;
对Pi阶段的计算结果做降维运算得到Ci阶段的计算结果,将Ci阶段的计算结果 做上采样操作后得到的中间结果和Pi-1阶段的计算结果做降维运算后得到的中间结果 进行相加,得到Ci-1阶段的计算结果;
将Cm+1阶段的计算结果做上采样操作后得到的中间结果和Pm阶段的计算结果做降维运算后得到的中间结果进行相加,得到Cm阶段的计算结果;其中,m=[j,i-2]。
优选的,所述步骤3中,所述分类和回归模块包括:分类子网络、回归子网络;
通过所述分类子网络得到分类结果,通过所述回归子网络得到先验框坐标变化信息;使用k-means聚类算法得到先验框参数信息,根据所述先验框参数信息、所述先 验框坐标变化信息得到预测框位置信息;得到多个预测框后,筛选出得分大于给定阈 值的预测框,并得到预测框得分信息;利用预测框位置信息和预测框得分信息进行非 极大值抑制处理,得到定位与分类结果信息。
优选的,所述分类子网络包括4个维度为256的卷积和1个维度为N×K的卷积;
所述回归子网络包括4个维度为256的卷积和1个维度为4×K的卷积;
其中,K表示输入特征层所拥有的先验框的数量,N表示所要检测目标的种类个数。
优选的,所述步骤4中,所述目标检测模型采用的总损失函数包括分类损失函 数、回归损失函数;所述分类损失函数采用Focal loss损失函数,所述回归损失函数采 用Smooth loss损失函数,所述总损失函数如下所示:
优选的,所述分类损失函数如下所示:
FL(pt)=-αt(1-pt)γlog(pt)
其中,αt表示权重系数,(1-pt)γ表示调节系数,pt表示样本预测为正的概率;
所述回归损失函数的定义及其导数形式如下所示:
其中,x表示预测值与真实值之间的差距。
本发明中提供的一个或多个技术方案,至少具有如下技术效果或优点:
在发明中,首先获取目标检测对象图像集,并对目标检测对象图像集进行预处理后得到数据集,根据数据集构建训练样本集;然后构建的深度神经网络包括特征提取 模块、特征融合模块、分类和回归模块;特征提取模块为结合d-ResNet网络和eSENet 模块的新的网络结构eSE-dResNet;之后利用训练样本集进行深度神经网络的训练, 生成目标检测模型;最后将待检测对象图像输入至所述目标检测模型中,得到目标检 测结果。本发明采用基于深度神经网络的检测方法能够自动学习目标特征,其泛化能 力强,能适用于各种图像背景复杂、环境噪声大、对比度低及光照不均等不良条件下 的目标检测,本发明中的特征提取模块实现了不同特征的强化多重提取,能够有效增 强特征提取性能,能够显著提高目标检测检测效果。
附图说明
图1为本发明实施例2提供的一种基于深度神经网络的目标检测方法的流程图;
图2为本发明实施例2提供的一种基于深度神经网络的目标检测方法中先验框的示意图;
图3为本发明实施例2提供的一种基于深度神经网络的目标检测方法对应的深度神经网络整体结构图;
图4为本发明实施例2提供的一种基于深度神经网络的目标检测方法中特征提取模块的结构示意图;
图5为本发明实施例2提供的一种基于深度神经网络的目标检测方法中eSENet模块的结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
实施例1:
实施例1提供了一种基于深度神经网络的目标检测方法,包括以下步骤:
步骤1、获取目标检测对象图像集。
步骤2、对所述目标检测对象图像集进行预处理后得到数据集,根据数据集构建训练样本集。
具体的,对所述目标检测对象图像集进行预处理包括:对原始图像进行裁剪修正;若所述目标检测对象图像集中的原始图像宽度一致、高度不等,则维持图像宽度 不变,对图像的不同高度进行裁剪,所述裁剪修正采用如下方式实现:
h=(w-h1)n+(n-1)h1
其中,h和w分别表示原始图片的总长度和宽度,h1表示裁剪出的n张图片后多 余矩形的高。
对所述目标检测对象图像集进行预处理还包括:对裁剪修正后的数据集进行扩充,得到扩充后的数据集;利用标注工具对所述扩充后的数据集中的目标检测图像中 所含目标进行标注。
步骤3、构建深度神经网络,所述深度神经网络包括特征提取模块、特征融合模块、分类和回归模块;所述特征提取模块为结合d-ResNet网络和eSENet模块的新的 网络结构eSE-dResNet。
其中,所述d-ResNet网络通过在原始ResNet50结构中的identity block中增加了两条跨层连接得到;所述d-ResNet网络将第一个1×1卷积块的输入、第一个1×1卷积 块的输出和3×3卷积块的输出进行特征拼接操作,然后将拼接后的结果作为第二个 1×1卷积块的输入;所述eSENet模块嵌入在所述d-ResNet网络中的identity block和 conv block之间;所述eSENet模块将SENet中激励部分原有的两层全连接层替换成一 个卷积核大小为1的卷积层。
所述特征融合模块采用特征金字塔结构进行不同维度的特征融合。
所述特征提取模块包括P1~Pi共i个阶段,所述特征融合模块包括Ci~Cj共i-j+1个 阶段;
对Pi阶段的计算结果做降维运算得到Ci阶段的计算结果,将Ci阶段的计算结果 做上采样操作后得到的中间结果和Pi-1阶段的计算结果做降维运算后得到的中间结果 进行相加,得到Ci-1阶段的计算结果;
将Cm+1阶段的计算结果做上采样操作后得到的中间结果和Pm阶段的计算结果做降维运算后得到的中间结果进行相加,得到Cm阶段的计算结果;其中,m=[j,i-2]。
所述分类和回归模块包括:分类子网络、回归子网络;通过所述分类子网络得到分类结果,通过所述回归子网络得到先验框坐标变化信息;使用k-means聚类算法得 到先验框参数信息,根据所述先验框参数信息、所述先验框坐标变化信息得到预测框 位置信息;得到多个预测框后,筛选出得分大于给定阈值的预测框,并得到预测框得 分信息;利用预测框位置信息和预测框得分信息进行非极大值抑制处理,得到定位与 分类结果信息。
所述分类子网络包括4个维度为256的卷积和1个维度为N×K的卷积;所述回归 子网络包括4个维度为256的卷积和1个维度为4×K的卷积;其中,K表示输入特征 层所拥有的先验框的数量,N表示所要检测目标的种类个数。
步骤4、利用所述训练样本集进行所述深度神经网络的训练,生成目标检测模 型。
具体的,所述目标检测模型采用的总损失函数包括分类损失函数、回归损失函数;所述分类损失函数采用Focal loss损失函数,所述回归损失函数采用Smooth loss 损失函数,所述总损失函数如下所示:
所述分类损失函数如下所示:
FL(pt)=-αt(1-pt)γlog(pt)
其中,αt表示权重系数,(1-pt)γ表示调节系数,pt表示样本预测为正的概率;
所述回归损失函数的定义及其导数形式如下所示:
其中,x表示预测值与真实值之间的差距。
步骤5、将待检测对象图像输入至所述目标检测模型中,得到目标检测结果。
下面以检测列车底部零件为例,对本发明做进一步的说明。
实施例2:
实施例2提供一种基于深度神经网络的目标检测方法,设计了一种新的目标检测模型,能够快速定位列车底部的关键部件,实现对车轴、挂钩和活塞杆等多个关键部 件的多目标分类,减少人工检测的环节,提高检测效率。本实施例根据机车底部环境 的复杂性,以残差网络ResNet50为基础,设计了一种改进后的d-ResNet网络,并在 该网络中嵌入eSENet模块,增强特征提取性能;同时采用特征金字塔结构进行不同维 度的特征融合,使网络能够学到更加丰富的低维特征和高维特征,更加精确地检测到 车底零件。实验结果显示,所设计的网络模型对车底部件的检测效果有较大的提升。
本实施例的流程图如图1所示,具体步骤如下:
步骤1:数据处理。
本实施例所使用的数据集由当地铁路局提供。原始的数据集通过架设在铁轨边的高清线阵相机拍摄收集获得,每张图片的宽为2048个像素,而高则由29956到39956 不等,无法直接输入网络进行训练,需要对原始数据进行裁剪修正。本实施例采取的 裁剪方式如下所示:
h=(w-h1)n+(n-1)h1
其中,h和w分别表示原始图片的总长度和宽度,h1表示裁剪出的n张图片后多 余矩形的高,这样的裁剪方式十分简单,适合运用在长宽比很大的图片。
裁剪原则保持图片宽度不变,对不同图片进行高度上的裁剪,为了使计算方便,本文首先将输入图片统一裁剪为2048×4096尺寸大小,由于整体数据集的限制,裁剪 后的数据量不够且含有部分无目标图片,需要对数据集进行扩充,经过平移、转置、 镜像、旋转等几何变换将数据集由原来的5123张扩充到了11747张,然后将处理后的 数据按比例分为8037张训练集和3710张测试集,检测对象包括Ⅰ型车轴、Ⅱ型车 轴、车标、挂钩和活塞杆五类目标,最后利用标注工具对每张图片中所含目标进行标 注。
步骤2:先验框生成。
为了提升检测性能,在训练深度神经网络之前使用k-means聚类算法得到适合本数据集的4种不同大小的先验框,并根据不同特征层调整尺寸,每个特征层都可以将 输入图片分为与该特征层长宽对应的网格。
需要说明的是,先验框的数量可针对检测对象的不同进行调整。本实施例所检测的目标种类只有五类,形状和尺寸都固定,针对本实施例数据集的特点,本实施例采 用4种先验框。
图2展示了先验框在不同特征层的设置情况,对特征融合模块的5层输出特征图由于其他特征层尺寸过大,这里只列举了最后两层特征层,其中,图2(a)表示输入图 片,图2(b)和图2(c)分别表示特征层C6和C7中一个格子内先验框的分布情况,C7特 征层大小为8*4,所以整个图片会被分为8*4个网格,然后以每个框的中心建立4个 通过聚类得出的形状不同的先验框,其他特征层同理。
步骤3:设计损失函数。
模型训练阶段需要通过最小化损失函数来提升模型整体性能。本实施例所采用的损失函数分为两个部分,包括分类损失函数和回归损失函数,本实施例将二者结合作 为总的损失计量。
本实施例设计的检测模型属于单阶段检测模型,利用先验框来提升检测性能,但同样会出现正负样本以及难易样本比例失衡的现象,故本文采用RetinaNet网络所使用 的Focal loss(焦点损失)作为模型的分类损失函数,与交叉熵损失函数相比,Focal loss在它的基础上引入了权重系数αt,通过调整αt的大小来降低负样本对训练造成的 影响。同时,引入系数(1-pt)γ来调整易分类样本和难分类样本间的权重,增加了难分 类样本对损失值的贡献。损失函数定义如下所示:
FL(pt)=-αt(1-pt)γlog(pt)
其中,pt表示样本预测为正的概率,当γ取值为2,αt取值为0.25时的实验结果 为最优。
回归损失函数采用Smooth loss(平滑损失)损失函数,损失函数定义及其导数形式如下所示:
其中,x表示预测值与真实值之间的差距。Smooth loss损失函数能够限制梯度大小,结合了L1 loss和L2 loss的优势,使得损失函数在0点处也存在导数,网络更具 鲁棒性。从平滑损失函数的导数公式中可以看出,当预测框与实际框的差距过大时不 会导致梯度过大,当二者差距变小时也能保证足够小的梯度。
总的损失函数如下所示:
步骤4:将数据集输入深度神经网络进行训练。
将步骤1中得到的训练集分批次输入网络进行训练。训练过程中,对数据进行50轮训练,由于图片尺寸太大,受内存限制,每次输入深度神经网络训练的图片张数为 2,迭代次数为200000次,网络采用Adam优化器,网络初始学习率设为1×10-4。
深度神经网络框架如图3所示,整个深度神经网络分为三个模块:
(1)特征提取模块:
本实施例采用在ResNet50基础上改进后的d-Resnet结合eSEnet作为特征提取模块,模块一共有56层,分为P1~P7共7个阶段(见图1)。为了增加特征提取的丰富 性和准确度,本实施例在原始ResNet50结构中的identity block(恒等块)中增加了两 条跨层连接,如图4所示,原始的identity block由两个大小为1×1的卷积块以及一个 大小为3×3的卷积块组成,改进后的identity block将第一个1×1卷积块的输入、第一 个1×1卷积块的输出和3×3卷积块的输出进行拼接操作(Concatenate,见图4中C连 接),然后将拼接后的结果作为第二个1×1卷积块的输入,再进行卷积操作,将不同 特征层进行了拼接,实现了不同特征的强化多重提取,提升了整体效果,本文称这个 改进网络为dense-ResNet(简称d-ResNet),另外,为了充分考虑特征通道之间的关 联性,使网络能够提取到更有价值的特征,在每个identity block以及conv block(连 接块)中嵌入eSENet模块,d-ResNet和eSENet的组合方式如图4所示。
eSENet模块是在SeNet(Squeeze-and-Excitation Networks)基础上做的改进,与SENet一样,eSENet分为压缩和激励两个部分,采用特征重标定的方式融合特征通 道,压缩部分采用自适应全局池化操作,将维度为C大小为W×H的输入压缩到维度 为C大小为1×1的输出,这个输出特征融合了全局信息。SENet通过两个全连接层对 特征维度进行缩放,第一个全连接层使用参数r将维度为C的输入变成维度为C/r的 输出,然后通过第二个全连接层还原到初始维度,期间由于经过降维运算会导致信息 损失,eSENet将激励部分原有的两层全连接层替换成一个卷积核大小为1的卷积,在 一定程度上减少了信息丢失,同时减少了计算量,使得深度神经网络运行效率得到提 升,eSEnet结构如图5所示。
(2)特征融合模块:
特征融合模块是对特征提取模块的计算结果进行融合,通过将拥有不同分辨率和不同语义信息的特征通道相加来增强深度神经网络对不同大小物体的检测效果。首先 对P7阶段的计算结果进行一次降维运算得到C7,将特征维度由8*4*2048变成 8*4*256,再对C7采取特征上采样操作,将C7由8*4*256维度变为16*8*256维度, 最后对P6做降维运算,并将运算结果与C7上采样的结果相加得到C6。同理,将 P5~P3的特征层数分别通过降维运算减少到256层,再分别与上一层上采样的结果相 加,对应得到C5~C3的结果。特征融合只是在特征提取模块的基础上新增了跨层连 接,所以在模型效果提升的同时不会增加参数量,且计算量的少量增加也可忽略。
(3)分类和回归:
由于深度神经网络越深,所提取特征的空间信息丢失越严重,对特征融合的效果会产生影响,网络深度不够,所提取特征的语义信息不够丰富,对大目标的检测效果 也不好,经过实验,发现本实施例采用5类特征的检测效果最优。
经过特征融合后会得到大小不同但维度相同的5类特征层,将这5类特征层经过分类子网络及回归子网络处理后得到检测结果。分类子网络包括4个维度为256的卷 积和1个维度为N×K的卷积,这里的K指的是输入特征层所拥有的先验框的数量,N 指的是所要检测目标的种类个数,特征经过N×K的卷积输出分类结果。回归子网络 包括4个维度为256的卷积和1个维度为4×K的卷积,输出结果是每个先验框坐标的 变化情况,将先验框结合其变化情况得到预测框位置信息。经过分类和回归网络处理 后会得到多个预测框,最后筛选出得分大于给定阈值的预测框,利用这些框的位置信 息和得分进行NMS(非极大值抑制)处理得到最终检测结果。
本发明实施例提供的一种基于深度神经网络的目标检测方法至少包括如下技术效 果:
(1)传统的目标检测算法,其手工设计的特征对于多样性的变化没有很好的鲁棒性,而采用基于深度神经网络的检测算法能够自动学习目标特征,其泛化能力强,能 适用于更多场景。
(2)本发明在ResNet网络的基础上做出改进,设计了d-ResNet网络,并结合eSEnet模块作为特征提取模块,相比于其他特征提取模块,本模块在残差模块中引入 密集连接,实现了不同特征的强化多重提取,其特征提取性能更优,且带来的计算量 很小。
(3)在特征提取模块中引入注意力机制,采用“特征重标定”方法进行特征通道 间的融合,通过自己学习获取特征通道的权重并进行分配,提升有用特征通道的权 重,同时削弱相关性小的特征通道的权重。
最后所应说明的是,以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照实例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本 发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其 均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种基于深度神经网络的目标检测方法,其特征在于,包括以下步骤:
步骤1、获取目标检测对象图像集;
步骤2、对所述目标检测对象图像集进行预处理后得到数据集,根据数据集构建训练样本集;
步骤3、构建深度神经网络,所述深度神经网络包括特征提取模块、特征融合模块、分类和回归模块;所述特征提取模块为结合d-ResNet网络和eSENet模块的新的网络结构eSE-dResNet;
步骤4、利用所述训练样本集进行所述深度神经网络的训练,生成目标检测模型;
步骤5、将待检测对象图像输入至所述目标检测模型中,得到目标检测结果。
2.根据权利要求1所述的基于深度神经网络的目标检测方法,其特征在于,所述步骤2中,对所述目标检测对象图像集进行预处理包括:对原始图像进行裁剪修正;若所述目标检测对象图像集中的原始图像宽度一致、高度不等,则维持图像宽度不变,对图像的不同高度进行裁剪,所述裁剪修正采用如下方式实现:
h=(w-h1)n+(n-1)h1
其中,h和w分别表示原始图片的总长度和宽度,h1表示裁剪出的n张图片后多余矩形的高。
3.根据权利要求2所述的基于深度神经网络的目标检测方法,其特征在于,所述步骤2中,对所述目标检测对象图像集进行预处理还包括:对裁剪修正后的数据集进行扩充,得到扩充后的数据集;利用标注工具对所述扩充后的数据集中的目标检测图像中所含目标进行标注。
4.根据权利要求1所述的基于深度神经网络的目标检测方法,其特征在于,所述步骤3中,所述d-ResNet网络通过在原始ResNet50结构中的identity block中增加了两条跨层连接得到;所述d-ResNet网络将第一个1×1卷积块的输入、第一个1×1卷积块的输出和3×3卷积块的输出进行特征拼接操作,然后将拼接后的结果作为第二个1×1卷积块的输入;
所述eSENet模块嵌入在所述d-ResNet网络中的identity block和conv block之间;所述eSENet模块将SENet中激励部分原有的两层全连接层替换成一个卷积核大小为1的卷积层。
5.根据权利要求1所述的基于深度神经网络的目标检测方法,其特征在于,所述步骤3中,所述特征融合模块采用特征金字塔结构进行不同维度的特征融合。
6.根据权利要求1所述的基于深度神经网络的目标检测方法,其特征在于,所述步骤3中,所述特征提取模块包括P1~Pi共i个阶段,所述特征融合模块包括Ci~Cj共i-j+1个阶段;
对Pi阶段的计算结果做降维运算得到Ci阶段的计算结果,将Ci阶段的计算结果做上采样操作后得到的中间结果和Pi-1阶段的计算结果做降维运算后得到的中间结果进行相加,得到Ci-1阶段的计算结果;
将Cm+1阶段的计算结果做上采样操作后得到的中间结果和Pm阶段的计算结果做降维运算后得到的中间结果进行相加,得到Cm阶段的计算结果;其中,m=[j,i-2]。
7.根据权利要求1所述的基于深度神经网络的目标检测方法,其特征在于,所述步骤3中,所述分类和回归模块包括:分类子网络、回归子网络;
通过所述分类子网络得到分类结果,通过所述回归子网络得到先验框坐标变化信息;使用k-means聚类算法得到先验框参数信息,根据所述先验框参数信息、所述先验框坐标变化信息得到预测框位置信息;得到多个预测框后,筛选出得分大于给定阈值的预测框,并得到预测框得分信息;利用预测框位置信息和预测框得分信息进行非极大值抑制处理,得到定位与分类结果信息。
8.根据权利要求7所述的基于深度神经网络的目标检测方法,其特征在于,所述分类子网络包括4个维度为256的卷积和1个维度为N×K的卷积;
所述回归子网络包括4个维度为256的卷积和1个维度为4×K的卷积;
其中,K表示输入特征层所拥有的先验框的数量,N表示所要检测目标的种类个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010960423.3A CN112163602A (zh) | 2020-09-14 | 2020-09-14 | 一种基于深度神经网络的目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010960423.3A CN112163602A (zh) | 2020-09-14 | 2020-09-14 | 一种基于深度神经网络的目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112163602A true CN112163602A (zh) | 2021-01-01 |
Family
ID=73858002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010960423.3A Pending CN112163602A (zh) | 2020-09-14 | 2020-09-14 | 一种基于深度神经网络的目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112163602A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112669343A (zh) * | 2021-01-04 | 2021-04-16 | 桂林电子科技大学 | 一种基于深度学习的壮族少数民族服饰分割方法 |
CN112699900A (zh) * | 2021-01-05 | 2021-04-23 | 东北林业大学 | 一种改进YOLOv4的交通标志识别方法 |
CN112801027A (zh) * | 2021-02-09 | 2021-05-14 | 北京工业大学 | 基于事件相机的车辆目标检测方法 |
CN112801110A (zh) * | 2021-02-01 | 2021-05-14 | 中车青岛四方车辆研究所有限公司 | 轨道列车线阵相机图像畸变校正的目标检测方法及装置 |
CN112861989A (zh) * | 2021-03-04 | 2021-05-28 | 水利部信息中心 | 一种基于密度筛选的深度神经网络回归模型 |
CN113221795A (zh) * | 2021-05-24 | 2021-08-06 | 大连恒锐科技股份有限公司 | 用于视频中鞋样检索的特征提取、融合与比对方法及其装置 |
CN113221947A (zh) * | 2021-04-04 | 2021-08-06 | 青岛日日顺乐信云科技有限公司 | 一种基于图像识别技术的工业质检方法及*** |
CN113255837A (zh) * | 2021-06-29 | 2021-08-13 | 南昌工程学院 | 工业环境下基于改进的CenterNet网络目标检测方法 |
CN113421230A (zh) * | 2021-06-08 | 2021-09-21 | 浙江理工大学 | 基于目标检测网络的车载液晶屏导光板缺陷视觉检测方法 |
CN115121913A (zh) * | 2022-08-30 | 2022-09-30 | 北京博清科技有限公司 | 激光中心线的提取方法 |
CN115998295A (zh) * | 2023-03-24 | 2023-04-25 | 广东工业大学 | 一种结合远近红外光的血脂估测方法、***及装置 |
CN117593593A (zh) * | 2024-01-18 | 2024-02-23 | 湖北工业大学 | 一种情感增益下多尺度语义融合的图像情感分类方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109214399A (zh) * | 2018-10-12 | 2019-01-15 | 清华大学深圳研究生院 | 一种嵌入SENet结构的改进YOLOV3目标识别算法 |
CN111126472A (zh) * | 2019-12-18 | 2020-05-08 | 南京信息工程大学 | 一种基于ssd改进的目标检测方法 |
CN111507199A (zh) * | 2020-03-25 | 2020-08-07 | 杭州电子科技大学 | 一种佩戴口罩行为检测方法及装置 |
-
2020
- 2020-09-14 CN CN202010960423.3A patent/CN112163602A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109214399A (zh) * | 2018-10-12 | 2019-01-15 | 清华大学深圳研究生院 | 一种嵌入SENet结构的改进YOLOV3目标识别算法 |
CN111126472A (zh) * | 2019-12-18 | 2020-05-08 | 南京信息工程大学 | 一种基于ssd改进的目标检测方法 |
CN111507199A (zh) * | 2020-03-25 | 2020-08-07 | 杭州电子科技大学 | 一种佩戴口罩行为检测方法及装置 |
Non-Patent Citations (4)
Title |
---|
G. HUANG: "Densely Connected Convolutional Networks", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, 9 September 2017 (2017-09-09), pages 2261 - 2269 * |
Y. LE: "CenterMask: Real-Time Anchor-Free Instance Segmentation", 《2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
Y. LE: "CenterMask: Real-Time Anchor-Free Instance Segmentation", 《2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, 5 August 2020 (2020-08-05), pages 13903 - 13912 * |
言有三: "深度学习之人脸图像处理 核心算法与案例实战", 北京:机械工业出版社, pages: 101 - 105 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112669343A (zh) * | 2021-01-04 | 2021-04-16 | 桂林电子科技大学 | 一种基于深度学习的壮族少数民族服饰分割方法 |
CN112699900A (zh) * | 2021-01-05 | 2021-04-23 | 东北林业大学 | 一种改进YOLOv4的交通标志识别方法 |
CN112801110A (zh) * | 2021-02-01 | 2021-05-14 | 中车青岛四方车辆研究所有限公司 | 轨道列车线阵相机图像畸变校正的目标检测方法及装置 |
CN112801027A (zh) * | 2021-02-09 | 2021-05-14 | 北京工业大学 | 基于事件相机的车辆目标检测方法 |
CN112801027B (zh) * | 2021-02-09 | 2024-07-12 | 北京工业大学 | 基于事件相机的车辆目标检测方法 |
CN112861989A (zh) * | 2021-03-04 | 2021-05-28 | 水利部信息中心 | 一种基于密度筛选的深度神经网络回归模型 |
CN113221947A (zh) * | 2021-04-04 | 2021-08-06 | 青岛日日顺乐信云科技有限公司 | 一种基于图像识别技术的工业质检方法及*** |
CN113221795B (zh) * | 2021-05-24 | 2024-05-14 | 大连恒锐科技股份有限公司 | 用于视频中鞋样特征提取、融合与比对的方法及其装置 |
CN113221795A (zh) * | 2021-05-24 | 2021-08-06 | 大连恒锐科技股份有限公司 | 用于视频中鞋样检索的特征提取、融合与比对方法及其装置 |
CN113421230A (zh) * | 2021-06-08 | 2021-09-21 | 浙江理工大学 | 基于目标检测网络的车载液晶屏导光板缺陷视觉检测方法 |
CN113421230B (zh) * | 2021-06-08 | 2023-10-20 | 浙江理工大学 | 基于目标检测网络的车载液晶屏导光板缺陷视觉检测方法 |
CN113255837A (zh) * | 2021-06-29 | 2021-08-13 | 南昌工程学院 | 工业环境下基于改进的CenterNet网络目标检测方法 |
CN115121913B (zh) * | 2022-08-30 | 2023-01-10 | 北京博清科技有限公司 | 激光中心线的提取方法 |
CN115121913A (zh) * | 2022-08-30 | 2022-09-30 | 北京博清科技有限公司 | 激光中心线的提取方法 |
CN115998295A (zh) * | 2023-03-24 | 2023-04-25 | 广东工业大学 | 一种结合远近红外光的血脂估测方法、***及装置 |
CN117593593A (zh) * | 2024-01-18 | 2024-02-23 | 湖北工业大学 | 一种情感增益下多尺度语义融合的图像情感分类方法 |
CN117593593B (zh) * | 2024-01-18 | 2024-04-09 | 湖北工业大学 | 一种情感增益下多尺度语义融合的图像情感分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112163602A (zh) | 一种基于深度神经网络的目标检测方法 | |
CN110532859B (zh) | 基于深度进化剪枝卷积网的遥感图像目标检测方法 | |
CN113052210B (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
CN110287849A (zh) | 一种适用于树莓派的轻量化深度网络图像目标检测方法 | |
CN111723693B (zh) | 一种基于小样本学习的人群计数方法 | |
CN113780211A (zh) | 一种基于改进型Yolov4-tiny的轻量级飞机检测方法 | |
CN111461083A (zh) | 基于深度学习的快速车辆检测方法 | |
CN113160062B (zh) | 一种红外图像目标检测方法、装置、设备及存储介质 | |
CN112528862B (zh) | 基于改进的交叉熵损失函数的遥感图像目标检测方法 | |
CN112801182B (zh) | 一种基于困难样本感知的rgbt目标跟踪方法 | |
CN114820655B (zh) | 可靠区域作为注意力机制监督的弱监督建筑物分割方法 | |
CN111402237A (zh) | 基于时空级联自编码器的视频图像异常检测方法及*** | |
CN115131797A (zh) | 一种基于特征增强金字塔网络的场景文本检测方法 | |
CN110555877B (zh) | 一种图像处理方法、装置及设备、可读介质 | |
CN116523897A (zh) | 一种基于互导学习的半监督浒苔检测方法及*** | |
CN115239710A (zh) | 基于注意力反馈和双空间金字塔的绝缘子缺陷检测方法 | |
CN110503049B (zh) | 基于生成对抗网络的卫星视频车辆数目估计方法 | |
CN116402851A (zh) | 一种复杂背景下的红外弱小目标跟踪方法 | |
CN117994167B (zh) | 融合并行多卷积注意力的扩散模型去雾方法 | |
CN114743126A (zh) | 一种基于图注意力机制网络的车道线标志分割方法 | |
CN110415816B (zh) | 一种基于迁移学习的皮肤病临床图像多分类方法 | |
CN116883741A (zh) | 一种基于金字塔注意力机制的小样本虫害检测方法 | |
CN112132207A (zh) | 基于多分支特征映射目标检测神经网络构建方法 | |
CN111881924A (zh) | 结合光照不变性与短曝光光照增强的暗光车照识别方法 | |
CN116363610A (zh) | 一种基于改进YOLOv5的航拍车辆旋转目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210101 |
|
RJ01 | Rejection of invention patent application after publication |