CN110163346A - 一种针对多目标检测的卷积神经网络设计方法 - Google Patents

一种针对多目标检测的卷积神经网络设计方法 Download PDF

Info

Publication number
CN110163346A
CN110163346A CN201910431930.5A CN201910431930A CN110163346A CN 110163346 A CN110163346 A CN 110163346A CN 201910431930 A CN201910431930 A CN 201910431930A CN 110163346 A CN110163346 A CN 110163346A
Authority
CN
China
Prior art keywords
network
msopn
msodn
target
layers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910431930.5A
Other languages
English (en)
Inventor
钟剑丹
姚光乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Aixiwei Intelligent Technology Co Ltd
Original Assignee
Chengdu Aixiwei Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Aixiwei Intelligent Technology Co Ltd filed Critical Chengdu Aixiwei Intelligent Technology Co Ltd
Priority to CN201910431930.5A priority Critical patent/CN110163346A/zh
Publication of CN110163346A publication Critical patent/CN110163346A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种针对多尺度目标检测的卷积神经网络设计方法,包括如下步骤:步骤一,以VGG‑16模型为基础,删除三个全连接层,增加3个小型网络和2个全连接层构建MSOPN网络;步骤二,以VGG‑16模型为基础,在卷积层之后加入ROI Pooling层和两个全连接层,两个全连接层分别是pred_score层和pred_bbox层,构成MSODN网络;步骤三,对MSOPN网络和MSODN网络采用多任务损失函数L进行联合训练;步骤四,训练后的MSOPN网络和MSODN网络采用级联方式连接,形成多尺度目标检测网络。通过本方法可以实现对目标的定位,尤其是小目标的精确定位;以及对目标特征的提取和对目标的识别。

Description

一种针对多目标检测的卷积神经网络设计方法
技术领域
本发明涉及图像识别领域,具体是一种针对多目标检测的卷积神经网络设计方法。
背景技术
能够准确快速地从图像或者视频中精确定位并准确识别出感兴趣的目标已成为目前计算机视觉研究的重要方向。在许多重要场合(如:机场、港口、军事靶场、无人机对地侦测等)中能够及时准确的捕获视场中的目标,并对目标进行跟踪或者行为估计在军事和民用领域也有着重要的应用价值。
当前,在目标检测、目标识别等领域,卷积神经网络已成为应用最广泛的方法之一。卷积神经网络的思想最早源自于1980年,Fukushima等人从生物学角度出发结合视觉感受野(Receptive Field)概念提出了多层的神经认知机 (Neocognitron)模型。1998年,LeCun等人设计了一个5层的CNN模型(被称之为LeNet),并基于误差梯度的训练算法对其进行优化,最终该模型在手写体数字识别等一些模式识别任务中取得了不错的效果。由于计算能力的局限, CNN并未得到的有效的发展。直到2012年,来自加拿大多伦多大学的Hinton教授及其学生Krizhevsky利用GPU训练了一个8层的卷积神经网络(之后该网络被称为AlexNet),基于该网络设计的分类模型在当年的ImageNet图像分类大赛中取得了令人瞩目的成绩。至此,CNN便成为计算视觉领域的主流模型。
尽管基于CNN的目标检测算法在某些场景中已经取得了不错的效果,但是在实际应用中,由于受到尺度变换、角度变化和背景干扰等因素的影响,目标检测仍然极具挑战性。另外,在实际应用中,实时性也是衡量此类算法的关键因素。
发明内容
本发明的目的在于克服现有技术的不足,提供一种针对多目标检测的卷积神经网络设计方法,包括如下步骤:
步骤一,以VGG-16模型为基础,删除三个全连接层,增加3个小型网络和 2个全连接层构建MSOPN网络;
步骤二,以VGG-16模型为基础,在卷积层之后加入ROI Pooling层和两个全连接层,两个全连接层分别是pred_score层和pred_bbox层,构成MSODN网络;
步骤三,对MSOPN网络和MSODN网络采用多任务损失函数L进行联合训练;
步骤四,训练后的MSOPN网络和MSODN网络采用级联方式连接,形成多尺度目标检测网络。
进一步的,步骤一所述的以VGG-16模型为基础,删除三个全连接层,增加 3个小型网络和2个全连接层构建MSOPN网络,具体的包括如下步骤:
(1)保留VGG-16模型原有的13个卷积层用来提取多尺度、多层次的深度特征;
(2)删除三个全连接层和Soft-Max层,所述的三个全连接层是fc_6到fc_8 全连接层;
(3)第三,在卷积层conv3_3、conv4_3和conv5_3之后分别添加3个小型网络,所述的小型网络用于推荐候选区域;
(4)每个小型网络分别连接了两个并列的全连接网络,一个用于定位潜在的候选区域,一个用于估计objectness score。
进一步的,步骤二中所述的以VGG-16模型为基础,在卷积层之后加入ROI Pooling层和两个全连接层,构成MSODN网络,具体的包括如下过程:
(1)保留VGG-16模型中原有的13个卷积层,用于提取深度特征;
(2)在卷积层之后加入ROI Pooling层和两个全连接层,所述的两个全连接层为fc_6和fc_7,用于在候选区域上提取固定长度的特征表达;
(3)在全连接层fc_7之后,连接两个并列的全连接层。
进一步的,步骤三中所述的对MSOPN网络和MSODN网络采用多任务损失函数L进行联合训练,损失函数L采用如下公式:
L(pt,lt)=Lcls(pt,pg)+λ*pg*Lbr(lt,lg)
两个并列的全连接层中的pred_score层,pt表示将某个区域预测为目标的概率,pg表示真值,如果预测区域为正样本,则pg为1,否则为0;Lcls为针对可能包含目标的区域和背景区域的对数损失函数;
两个并列的全连接层中的pred_bbox层的输出为一组4维的坐标向量(x,y,w,h)表示预测的候选区域,其中x,y,w和h分别是推荐区域的中心坐标以及宽和高;在上式中lg和lt分别是真值目标框和预测目标框;λ为平衡因子,其值设为10; Lbr采用的是平滑L1损失函数,采用如下公式:
Lbr(lt,lg)=SL1(lt-lg)
进一步的,MSOPN网络的输入为待检测的图像,输出为待检测图像中可能包含目标的候选区域;MSODN网络有两个输入,一是待检测的图像,二是 MSOPN推荐的候选区域;MSODN网络的输出就是最终的检测结果。
进一步的,步骤三中所述的联合训练的过程中采用梯度下降法进行训练。
进一步的,对添加的ROI Pooling层和全连接层均采用均值为0,方差为0.01 的高斯随机分布进行初始化。
进一步的,训练过程中,以256个样本图像作为一个小批量(mini-batch)对网络进行优化,其中正负样本的比例为1:1。
本发明的有益效果是:本方法首先设计了一个基于CNN的多尺度目标定位网络,该网络采用多个层次的深度特征图实现对多尺度目标,尤其是小目标的精确定位。其次,本方法还设计了另外一个基于CNN的网络用于对特征的提取和对目标的识别。最后,对两个网络采用级联方式构成多尺度目标检测网络。通过比较实验可知本方法提出的级联网络在多尺度目标检测中展现出较为明显的优势。
附图说明
图1为一种针对多目标检测的卷积神经网络设计方法;
图2为飞行器数据集上的对比试验结果的示意图;
图3为几种检测网络在飞行器数据集上的精度-召回率曲线;
图4为本方法的检测网络在飞行器数据集上的检测结果;
图5为实际场景图像上的检测结果对比;
图6为几种检测器在实际场景中的召回率曲线。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
本方法进行了两组对比实验,首先利用拍摄的飞行器图像和Caltech101数据集的飞行器子集构成飞行器数据集进行对比试验。其次,针对实际场景中采集的图像进行比较分析。
此外,针对CNN模型而言,数千张的图像作为训练数据仍然相对较少。在CNN中过少的训练数据极易导致模型过拟合(overfit)。因此,针对训练数据我们采取图像翻转的方式进行数据增广。
在对比实验中,本方法采用了四种评价指标对比各个检测框架的性能,分别是PRC曲线(precision-recall curve),平均精度(average precision,AP),召回率 (Recall)和F1-Score。其中F1-Score的定义如公式(4)所示:
其中recall为召回率,precision为准确率,它们的定义如公式(5)和公式(6) 所示:
式中,True Positive指被模型预测为正的正样本,False Positive指被模型预测为正的负样本,False Negative指被模型预测为负的正样本。
平均精度(AP)指的是在PRC曲线下所占的面积,是关于准确率(Precision)和召回率(Recall)的一个综合指标。F1-Score表示了准确率和召回率的调和平均。因此,这两个指标是检测框架综合性能的反映,它们的值越高,证明检测框架的性能越好。
飞行器数据集由1240幅图像构成(里面的图像包含草地、天空和复杂场景下的飞行器目标)。其中,训练集由1000张图像构成,测试集包含了240幅图像。实验结果如图2所示,图2中比较了经典的Faster RCNN(分别采用VGG16和 Z&F模型)与Fast RCNN检测框架。本方法提出的方法取得了最好的检测效果,其AP值达到了63.1%,比排名第二的FasterRCNN(VGG-16)提升14%,远超Fast RCNN的性能。且本方法的F1-Score值也达到了最大的0.421。在检测时间方面,本方法方法也取得了与经典算法相近的结果,达到4.6帧每秒。图3展示了几种检测器的精度--召回率曲线。本方法提出的检测框架对应的红色曲线覆盖坐标系的面积最大,展示出最好的检测性能。图4展示本检测框架在飞行器数据集上的一些检测结果,可以看出针对不同尺度和不同背景下飞行器目标均展现出较好的检测效果。
本方法进一步在实际场景中采集的1000幅图像上进行了对比实验。其中,训练集由800张图像构成,测试集包含了200幅图像。实验结果如图5所示,图6为几种检测网络在实际场景中的精度—召回率曲线。
本方法从多尺度目标检测这个问题出发进行深入研究,并提出了一种基于级联卷积神经网络的多尺度目标检测框架,目的是解决多尺度目标的精确定位和准确识别。
在目标定位方面,本方法提出了一种基于CNN的目标区域推荐网络,该网络在多尺度、多层级的特征图上生成目标的候选区域。在特征提取方面,本方法同样采用了与区域推荐网络相似的CNN模型提取关于目标候选区域的鲁棒特征表达。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本方法所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本方法所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (8)

1.一种针对多尺度目标检测的卷积神经网络设计方法,其特征在于,包括如下步骤:
步骤一,以VGG-16模型为基础,删除三个全连接层,增加3个小型网络和2个全连接层构建MSOPN网络;
步骤二,以VGG-16模型为基础,在卷积层之后加入ROIPooling层和两个全连接层,两个全连接层分别是pred_score层和pred_bbox层,构成MSODN网络;
步骤三,对MSOPN网络和MSODN网络采用多任务损失函数L进行联合训练;
步骤四,训练后的MSOPN网络和MSODN网络采用级联方式连接,形成多尺度目标检测网络。
2.根据权利要求1所述的一种针对多尺度目标检测的卷积神经网络设计方法,其特征在于,步骤一所述的以VGG-16模型为基础,删除三个全连接层,增加3个小型网络和2个全连接层构建MSOPN网络,具体的包括如下步骤:
(1)保留VGG-16模型原有的13个卷积层用来提取多尺度、多层次的深度特征;
(2)删除三个全连接层和Soft-Max层,所述的三个全连接层是fc_6到fc_8全连接层;
(3)第三,在卷积层conv3_3、conv4_3和conv5_3之后分别添加3个小型网络,所述的小型网络用于推荐候选区域;
(4)每个小型网络分别连接了两个并列的全连接网络,一个用于定位潜在的候选区域,一个用于估计objectness score。
3.根据权利要求1所述的一种针对多尺度目标检测的卷积神经网络设计方法,其特征在于,步骤二中所述的以VGG-16模型为基础,在卷积层之后加入ROIPooling层和两个全连接层,构成MSODN网络,具体的包括如下过程:
(1)保留VGG-16模型中原有的13个卷积层,用于提取深度特征;
(2)在卷积层之后加入ROIPooling层和两个全连接层,所述的两个全连接层为fc_6和fc_7,用于在候选区域上提取固定长度的特征表达;
(3)在全连接层fc_7之后,连接两个并列的全连接层。
4.根据权利要求1所述的一种针对多尺度目标检测的卷积神经网络设计方法,其特征在于,步骤三中所述的对MSOPN网络和MSODN网络采用多任务损失函数L进行联合训练,损失函数L采用如下公式:
L(pt,lt)=Lcls(pt,pg)+λ*pg*Lbr(lt,lg)
两个并列的全连接层中的pred_score层,pt表示将某个区域预测为目标的概率,pg表示真值,如果预测区域为正样本,则pg为1,否则为0;Lcls为针对可能包含目标的区域和背景区域的对数损失函数;
两个并列的全连接层中的pred_bbox层的输出为一组4维的坐标向量(x,y,w,h)表示预测的候选区域,其中x,y,w和h分别是推荐区域的中心坐标以及宽和高;在上式中lg和lt分别是真值目标框和预测目标框;λ为平衡因子,其值设为10;Lbr采用的是平滑L1损失函数,采用如下公式:
Lbr(lt,lg)=SL1(lt-lg)
5.根据权利要求1所述的一种针对多尺度目标检测的卷积神经网络设计方法,其特征在于,MSOPN网络的输入为待检测的图像,输出为待检测图像中可能包含目标的候选区域;MSODN网络有两个输入,一是待检测的图像,二是MSOPN推荐的候选区域;MSODN网络的输出就是最终的检测结果。
6.根据权利要求1所述的一种针对多尺度目标检测的卷积神经网络设计方法,其特征在于,步骤三中所述的联合训练的过程中采用梯度下降法进行训练。
7.根据权利要求6所述的一种针对多尺度目标检测的卷积神经网络设计方法,其特征在于,对添加的ROI Pooling层和全连接层均采用均值为0,方差为0.01的高斯随机分布进行初始化。
8.根据权利要求6所述的一种针对多尺度目标检测的卷积神经网络设计方法,其特征在于,训练过程中,以256个样本图像作为一个小批量(mini-batch)对网络进行优化,其中正负样本的比例为1:1。
CN201910431930.5A 2019-05-22 2019-05-22 一种针对多目标检测的卷积神经网络设计方法 Pending CN110163346A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910431930.5A CN110163346A (zh) 2019-05-22 2019-05-22 一种针对多目标检测的卷积神经网络设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910431930.5A CN110163346A (zh) 2019-05-22 2019-05-22 一种针对多目标检测的卷积神经网络设计方法

Publications (1)

Publication Number Publication Date
CN110163346A true CN110163346A (zh) 2019-08-23

Family

ID=67632255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910431930.5A Pending CN110163346A (zh) 2019-05-22 2019-05-22 一种针对多目标检测的卷积神经网络设计方法

Country Status (1)

Country Link
CN (1) CN110163346A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516040A (zh) * 2021-05-12 2021-10-19 山东浪潮科学研究院有限公司 一种改进两阶段目标检测的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516040A (zh) * 2021-05-12 2021-10-19 山东浪潮科学研究院有限公司 一种改进两阶段目标检测的方法
CN113516040B (zh) * 2021-05-12 2023-06-20 山东浪潮科学研究院有限公司 一种改进两阶段目标检测的方法

Similar Documents

Publication Publication Date Title
Su et al. Object detection and instance segmentation in remote sensing imagery based on precise mask R-CNN
CN108510467B (zh) 基于深度可变形卷积神经网络的sar图像目标识别方法
Tao et al. Smoke detection based on deep convolutional neural networks
CN109816695A (zh) 一种复杂背景下的红外小型无人机目标检测与跟踪方法
CN108596108B (zh) 基于三元组语义关系学习的航拍遥感图像变化检测方法
CN108182690B (zh) 一种基于前景加权局部对比度的红外微弱目标检测方法
CN107563349A (zh) 一种基于VGGNet的人数估计方法
CN108537121B (zh) 气象环境参数与图像信息融合的自适应遥感场景分类方法
CN104376334B (zh) 一种多尺度特征融合的行人比对方法
CN104077605A (zh) 一种基于颜色拓扑结构的行人搜索识别方法
CN107798345B (zh) 基于块对角与低秩表示的高光谱伪装目标检测方法
Mansour et al. Automated vehicle detection in satellite images using deep learning
CN105389799B (zh) 基于素描图与低秩分解的sar图像目标检测方法
CN109635726B (zh) 一种基于对称式深度网络结合多尺度池化的滑坡识别方法
CN111582091B (zh) 基于多分支卷积神经网络的行人识别方法
Xie et al. Feature consistency-based prototype network for open-set hyperspectral image classification
CN105069459B (zh) 一种针对高分辨率sar图像地物类型提取方法
Chen et al. Change detection algorithm for multi-temporal remote sensing images based on adaptive parameter estimation
Zheng et al. Building recognition of UAV remote sensing images by deep learning
Li et al. Crowd density estimation based on multi scale features fusion network with reverse attention mechanism
CN108830172A (zh) 基于深度残差网络与sv编码的飞机遥感图像检测方法
Bagwari et al. A comprehensive review on segmentation techniques for satellite images
Pillai et al. Fine-Tuned EfficientNetB4 Transfer Learning Model for Weather Classification
Zhong et al. Classification for SAR scene matching areas based on convolutional neural networks
CN111242972B (zh) 一种在线跨尺度多流体目标匹配跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190823

RJ01 Rejection of invention patent application after publication