CN113255589A - 一种基于多卷积融合网络的目标检测方法及*** - Google Patents

一种基于多卷积融合网络的目标检测方法及*** Download PDF

Info

Publication number
CN113255589A
CN113255589A CN202110707169.0A CN202110707169A CN113255589A CN 113255589 A CN113255589 A CN 113255589A CN 202110707169 A CN202110707169 A CN 202110707169A CN 113255589 A CN113255589 A CN 113255589A
Authority
CN
China
Prior art keywords
convolution
module
output
fusion
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110707169.0A
Other languages
English (en)
Other versions
CN113255589B (zh
Inventor
陈克鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Telecom Easiness Information Technology Co Ltd
Original Assignee
Beijing Telecom Easiness Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Telecom Easiness Information Technology Co Ltd filed Critical Beijing Telecom Easiness Information Technology Co Ltd
Priority to CN202110707169.0A priority Critical patent/CN113255589B/zh
Publication of CN113255589A publication Critical patent/CN113255589A/zh
Application granted granted Critical
Publication of CN113255589B publication Critical patent/CN113255589B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Astronomy & Astrophysics (AREA)
  • Remote Sensing (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于多卷积融合网络的目标检测方法及***,该方法包括:将通过无人机携带的摄像头采集的交通枢纽中来往车辆的图像数据作为数据集;构建用于图像目标检测的网络结构;根据所述数据集训练所述用于图像目标检测的网络结构,获得图像目标检测模型;利用所述图像目标检测模型,对待检测图像数据进行目标检测;所述用于图像目标检测的网络结构包括:ResNet101网络、多卷积融合网络、区域生成网络、ROI池化层和检测头。本发明增强了图像目标的表征能力,进而提高了检测准确性。

Description

一种基于多卷积融合网络的目标检测方法及***
技术领域
本发明涉及图像处理领域,特别是涉及一种基于多卷积融合网络的目标检测方法及***。
背景技术
近年来,无人机产业飞速发展,并在救援、测绘、货运、侦察、交通监管等方面得到了广泛应用。对航拍图像中的目标进行准确检测是无人机得以成功完成各项任务的前提条件,然而由于成像角度和高度的影响,航拍图像中的目标往往存在视觉面积较小、分辨率低、背景干扰多等特点,自身特征信息较少,相比自然场景图像中的目标,检测难度更大,目前,航拍图像的检测准确度有待提高。
发明内容
本发明的目的是提供一种基于多卷积融合网络的目标检测方法及***,提高了检测准确度。
为实现上述目的,本发明提供了如下方案:
一种基于多卷积融合网络的目标检测方法,包括:
将通过无人机携带的摄像头采集的交通枢纽中来往车辆的图像数据作为数据集;
构建用于图像目标检测的网络结构;
根据所述数据集训练所述用于图像目标检测的网络结构,获得图像目标检测模型;
利用所述图像目标检测模型,对待检测图像数据进行目标检测;
所述用于图像目标检测的网络结构包括:ResNet101网络、多卷积融合网络、区域生成网络、ROI池化层和检测头;
所述ResNet101网络包括依次连接的第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块和第五卷积模块;所述多卷积融合网络包括第一多卷积融合模块、第二多卷积融合模块、第三多卷积融合模块、第四多卷积融合模块和第五多卷积融合模块;
所述第一多卷积融合模块、所述第二多卷积融合模块、所述第三多卷积融合模块、所述第四多卷积融合模块和所述第五多卷积融合模块均用于对输入的图像进行多卷积特征融合;
所述第五卷积模块的输出连接所述第五多卷积融合模块的输入,所述第四卷积模块的输出连接所述第四多卷积融合模块的输入,所述第三卷积模块的输出连接所述第三多卷积融合模块的输入,所述第二卷积模块的输出连接所述第二多卷积融合模块的输入,所述第一卷积模块的输出连接所述第一多卷积融合模块的输入;所述第五多卷积融合模块输出为第五特征图,所述第五特征图通过2倍上采样与所述第四多卷积融合模块的输出按元素相加输出第四特征图,所述第四特征图通过2倍上采样与所述第三多卷积融合模块的输出按元素相加后进行3×3卷积操作输出第三特征图,所述第三特征图通过2倍上采样与所述第二多卷积融合模块的输出按元素相加后进行3×3卷积操作输出第二特征图,所述第二特征图通过2倍上采样与所述第一多卷积融合模块的输出按元素相加后进行3×3卷积操作输出第一特征图;所述第一特征图、所述第二特征图、所述第三特征图、所述第四特征图和所述第五特征图均输入所述区域生成网络;所述区域生成网络连接所述ROI池化层,所述ROI池化层连接所述检测头,所述检测头用于输出检测结果。
可选地,所述第一多卷积融合模块、所述第二多卷积融合模块、所述第三多卷积融合模块、所述第四多卷积融合模块和所述第五多卷积融合模块结构相同,均包括第一卷积分支、第二卷积分支、第三卷积分支、第四卷积分支、第一SEnet注意力机制模块、第二SEnet注意力机制模块、第三SEnet注意力机制模块、第四SEnet注意力机制模块;
所述第一卷积分支包括卷积核为1*1、步长为3、像素填充为0的卷积操作,所述第二卷积分支包括卷积核为3*3、步长为2、像素填充为1的卷积操作,所述第三卷积分支包括卷积核为5*5、步长为2、像素填充为2的卷积操作,所述第四卷积分支包括卷积核为7*7、步长为2、像素填充为3的卷积操作;所述第一卷积分支输出的特征图输入所述第一SEnet注意力机制模块,所述第二卷积分支输出的特征图输入所述第二SEnet注意力机制模块,所述第三卷积分支输出的特征图输入所述第三SEnet注意力机制模块,所述第四卷积分支输出的特征图输入所述第四SEnet注意力机制模块;
所述第一SEnet注意力机制模块、所述第二SEnet注意力机制模块、所述第三SEnet注意力机制模块和所述第四SEnet注意力机制模块均基于通道维度对输入的特征图进行全局平均池化,得到尺寸为1×1×512的特征图,将尺寸为1×1×512的特征图输入第一全连接层,所述第一全连接层输出尺寸为1×1×512/r的特征图,采用ReLU激活函数对尺寸为1×1×512/r的特征图进行激活操作,通过第二全连接层将尺寸为1×1×512/r的特征图扩充为1×1×512后再经过Sigmoid函数输出包含通道注意力信息的特征图;所述r为设定值;
所述第一SEnet注意力机制模块、所述第二SEnet注意力机制模块、所述第三SEnet注意力机制模块和所述第四SEnet注意力机制模块输出的四个包含通道注意力信息的特征图进行元素级的加和操作,获得特征融合特征图,对所述特征融合特征图进行卷积核为1*1、步长为1、像素填充为0的卷积操作后输出。
可选地,所述第一卷积分支、所述第二卷积分支、所述第三卷积分支和所述第四卷积分支输出的特征的尺寸相同,尺寸均为64×64×512。
可选地,所述检测头包括回归支路和分类支路;所述分类支路利用分类损失确定检测目标的类别,所述回归支路利用回归损失确定检测目标的位置信息。
可选地,所述将通过无人机携带的摄像头采集的交通枢纽中来往车辆的图像数据作为数据集,具体包括:
通过无人机携带的摄像头采集的交通枢纽中来往车辆的图像数据;
对所述图像数据进行亮度、饱和度和对比度的随机调整,获得预处理后的图像数据;
将预处理后的图像数据划分为训练集和测试集;
采用Labelme软件对所述训练集中各图像中的车辆目标进行类别标注,获得标注后的所述训练集;所述测试集和类别标注后的所述训练集构成所述数据集。
可选地,所述根据所述数据集训练图像目标检测的网络结构,获得图像目标检测模型,具体包括:
根据所述数据集训练图像目标检测的网络结构时,计算损失函数,根据所述损失函数调整所述网络结构中的参数,获得图像目标检测模型;所述损失函数包括分类损失和回归损失。
可选地,所述损失函数表示为:
Figure 100002_DEST_PATH_IMAGE001
其中,
Figure 100002_DEST_PATH_IMAGE002
表示所述损失函数,i表示第i个样本,
Figure 100002_DEST_PATH_IMAGE003
为第一归一化参数,
Figure 100002_DEST_PATH_IMAGE004
为第二归一化参数,
Figure 100002_DEST_PATH_IMAGE005
为权重的平衡参数,
Figure 100002_DEST_PATH_IMAGE006
表示分类损失,
Figure 100002_DEST_PATH_IMAGE007
表示回归损失,
Figure 100002_DEST_PATH_IMAGE008
表示第i个样本被预测为车辆的概率,
Figure 100002_DEST_PATH_IMAGE009
是第i个样本已标注的标签,
Figure 100002_DEST_PATH_IMAGE010
表示预测边框的平移缩放参数,
Figure 100002_DEST_PATH_IMAGE011
表示真实边框的平移缩放参数。
本发明还公开了一种基于多卷积融合网络的目标检测***,包括:
数据集采集模块,用于将通过无人机携带的摄像头采集的交通枢纽中来往车辆的图像数据作为数据集;
网络构建模块,用于构建用于图像目标检测的网络结构;
图像目标检测模型训练模块,用于根据所述数据集训练所述用于图像目标检测的网络结构,获得图像目标检测模型;
目标检测模块,用于利用所述图像目标检测模型,对待检测图像数据进行目标检测;
所述用于图像目标检测的网络结构包括:ResNet101网络、多卷积融合网络、区域生成网络、ROI池化层和检测头;
所述ResNet101网络包括依次连接的第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块和第五卷积模块;所述多卷积融合网络包括第一多卷积融合模块、第二多卷积融合模块、第三多卷积融合模块、第四多卷积融合模块和第五多卷积融合模块;
所述第一多卷积融合模块、所述第二多卷积融合模块、所述第三多卷积融合模块、所述第四多卷积融合模块和所述第五多卷积融合模块均用于对输入的图像进行多卷积特征融合;
所述第五卷积模块的输出连接所述第五多卷积融合模块的输入,所述第四卷积模块的输出连接所述第四多卷积融合模块的输入,所述第三卷积模块的输出连接所述第三多卷积融合模块的输入,所述第二卷积模块的输出连接所述第二多卷积融合模块的输入,所述第一卷积模块的输出连接所述第一多卷积融合模块的输入;所述第五多卷积融合模块输出为第五特征图,所述第五特征图通过2倍上采样与所述第四多卷积融合模块的输出按元素相加输出第四特征图,所述第四特征图通过2倍上采样与所述第三多卷积融合模块的输出按元素相加后进行3×3卷积操作输出第三特征图,所述第三特征图通过2倍上采样与所述第二多卷积融合模块的输出按元素相加后进行3×3卷积操作输出第二特征图,所述第二特征图通过2倍上采样与所述第一多卷积融合模块的输出按元素相加后进行3×3卷积操作输出第一特征图;所述第一特征图、所述第二特征图、所述第三特征图、所述第四特征图和所述第五特征图均输入所述区域生成网络;所述区域生成网络连接所述ROI池化层,所述ROI池化层连接所述检测头,所述检测头用于输出检测结果。
可选地,所述第一多卷积融合模块、所述第二多卷积融合模块、所述第三多卷积融合模块、所述第四多卷积融合模块和所述第五多卷积融合模块结构相同,均包括第一卷积分支、第二卷积分支、第三卷积分支、第四卷积分支、第一SEnet注意力机制模块、第二SEnet注意力机制模块、第三SEnet注意力机制模块、第四SEnet注意力机制模块;
所述第一卷积分支包括卷积核为1*1、步长为3、像素填充为0的卷积操作,所述第二卷积分支包括卷积核为3*3、步长为2、像素填充为1的卷积操作,所述第三卷积分支包括卷积核为5*5、步长为2、像素填充为2的卷积操作,所述第四卷积分支包括卷积核为7*7、步长为2、像素填充为3的卷积操作;所述第一卷积分支输出的特征图输入所述第一SEnet注意力机制模块,所述第二卷积分支输出的特征图输入所述第二SEnet注意力机制模块,所述第三卷积分支输出的特征图输入所述第三SEnet注意力机制模块,所述第四卷积分支输出的特征图输入所述第四SEnet注意力机制模块;
所述第一SEnet注意力机制模块、所述第二SEnet注意力机制模块、所述第三SEnet注意力机制模块和所述第四SEnet注意力机制模块均基于通道维度对输入的特征图进行全局平均池化,得到尺寸为1×1×512的特征图,将尺寸为1×1×512的特征图输入第一全连接层,所述第一全连接层输出尺寸为1×1×512/r的特征图,采用ReLU激活函数对尺寸为1×1×512/r的特征图进行激活操作,通过第二全连接层将尺寸为1×1×512/r的特征图扩充为1×1×512后再经过Sigmoid函数输出包含通道注意力信息的特征图;所述r为设定值;
所述第一SEnet注意力机制模块、所述第二SEnet注意力机制模块、所述第三SEnet注意力机制模块和所述第四SEnet注意力机制模块输出的四个包含通道注意力信息的特征图进行元素级的加和操作,获得特征融合特征图,对所述特征融合特征图进行卷积核为1*1、步长为1、像素填充为0的卷积操作后输出。
可选地,所述第一卷积分支、所述第二卷积分支、所述第三卷积分支和所述第四卷积分支输出的特征的尺寸相同,尺寸均为64×64×512。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明通过多卷积融合网络的各多卷积融合区模块融合不同的特征信息,并对不同的特征信息进行多尺度融合,从而增强了图像目标的表征能力,进而提高了检测准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于多卷积融合网络的目标检测方法流程示意图;
图2为本发明用于图像目标检测的网络结构示意图一;
图3为本发明用于图像目标检测的网络结构示意图二;
图4为本发明多卷积融合模块结构图;
图5为本发明一种基于多卷积融合网络的目标检测方法简图;
图6为本发明一种基于多卷积融合网络的目标检测***结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种图像目标检测的网络结构及方法,提高了检测准确度。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明一种基于多卷积融合网络的目标检测方法流程示意图,如图1所示,一种基于多卷积融合网络的目标检测方法包括以下步骤:
步骤101:将通过无人机携带的摄像头采集的交通枢纽中来往车辆的图像数据作为数据集。
其中,步骤101具体包括:
通过无人机携带的摄像头采集交通枢纽中来往车辆的图像数据。
对图像数据进行亮度、饱和度和对比度的随机调整,获得预处理后的图像数据。
将预处理后的图像数据划分为训练集和测试集。
采用Labelme软件对训练集中各图像中的车辆目标进行类别标注,获得标注后的训练集;测试集和类别标注后的训练集构成数据集。
步骤102:构建用于图像目标检测的网络结构。
步骤103:根据数据集训练用于图像目标检测的网络结构,获得图像目标检测模型。
其中,步骤103具体包括:
根据数据集训练图像目标检测的网络结构时,计算损失函数,根据损失函数调整网络结构中的参数,获得图像目标检测模型;损失函数包括分类损失和回归损失。
损失函数表示为:
Figure 932232DEST_PATH_IMAGE001
其中,
Figure 380531DEST_PATH_IMAGE002
表示损失函数,i表示第i个样本,
Figure 363530DEST_PATH_IMAGE003
为第一归一化参数,
Figure 899685DEST_PATH_IMAGE004
为第二归一化参数,
Figure 415855DEST_PATH_IMAGE005
为权重的平衡参数,
Figure 503897DEST_PATH_IMAGE006
表示分类损失,
Figure 708613DEST_PATH_IMAGE007
表示回归损失,
Figure 517300DEST_PATH_IMAGE008
表示第i个样本被预测为车辆的概率,
Figure 451758DEST_PATH_IMAGE009
是第i个样本已标注的标签,
Figure 149849DEST_PATH_IMAGE010
表示预测边框的平移缩放参数,
Figure 513965DEST_PATH_IMAGE011
表示真实边框的平移缩放参数。
步骤104:利用图像目标检测模型,对待检测图像数据进行目标检测。
图2-图3为本发明用于图像目标检测的网络结构示意图,如图2和图3所示,用于图像目标检测的网络结构包括:ResNet101网络201、多卷积融合网络202、区域生成网络203、ROI(region of interest)池化层204和检测头205。
ResNet101网络201包括依次连接的第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块和第五卷积模块;多卷积融合网络202包括第一多卷积融合模块、第二多卷积融合模块、第三多卷积融合模块、第四多卷积融合模块和第五多卷积融合模块。
第一多卷积融合模块、第二多卷积融合模块、第三多卷积融合模块、第四多卷积融合模块和第五多卷积融合模块均用于对输入的图像进行多卷积特征融合。
第五卷积模块的输出连接第五多卷积融合模块的输入,第四卷积模块的输出连接第四多卷积融合模块的输入,第三卷积模块的输出连接第三多卷积融合模块的输入,第二卷积模块的输出连接第二多卷积融合模块的输入,第一卷积模块的输出连接第一多卷积融合模块的输入;第五多卷积融合模块输出为第五特征图,第五特征图通过2倍上采样与第四多卷积融合模块的输出按元素相加输出第四特征图,第四特征图通过2倍上采样与第三多卷积融合模块的输出按元素相加后进行3×3卷积操作输出第三特征图,第三特征图通过2倍上采样与第二多卷积融合模块的输出按元素相加后进行3×3卷积操作输出第二特征图,第二特征图通过2倍上采样与第一多卷积融合模块的输出按元素相加后进行3×3卷积操作输出第一特征图;第一特征图、第二特征图、第三特征图、第四特征图和第五特征图输入区域生成网络203;区域生成网络203连接ROI池化层204,ROI池化层204连接检测头205,检测头205用于输出检测结果。区域生成网络203用于生成一系列的候选目标区域。
ROI池化层204中的算法具体为:根据第一特征图和区域生成网络203生成的候选目标区域提取特征图,根据第二特征图和区域生成网络203生成的候选目标区域提取特征图,根据第三特征图和区域生成网络203生成的候选目标区域提取特征图,根据第四特征图和区域生成网络203生成的候选目标区域提取特征图。
图4为本发明多卷积融合模块结构图,如图4所示,第一多卷积融合模块、第二多卷积融合模块、第三多卷积融合模块、第四多卷积融合模块和第五多卷积融合模块结构相同,均包括第一卷积分支、第二卷积分支、第三卷积分支、第四卷积分支、第一SEnet注意力机制模块、第二SEnet注意力机制模块、第三SEnet注意力机制模块、第四SEnet注意力机制模块。
第一卷积分支包括卷积核为1*1、步长为3、像素填充为0的卷积操作,第二卷积分支包括卷积核为3*3、步长为2、像素填充为1的卷积操作,第三卷积分支包括卷积核为5*5、步长为2、像素填充为2的卷积操作,第四卷积分支包括卷积核为7*7、步长为2、像素填充为3的卷积操作;第一卷积分支输出的特征图输入第一SEnet注意力机制模块,第二卷积分支输出的特征图输入第二SEnet注意力机制模块,第三卷积分支输出的特征图输入第三SEnet注意力机制模块,第四卷积分支输出的特征图输入第四SEnet注意力机制模块。
第一SEnet注意力机制模块、第二SEnet注意力机制模块、第三SEnet注意力机制模块和第四SEnet注意力机制模块均基于通道维度对输入的特征图进行全局平均池化,得到尺寸为1×1×512的特征图,将尺寸为1×1×512的特征图输入第一全连接层,第一全连接层输出尺寸为1×1×512/r的特征图,采用ReLU激活函数对尺寸为1×1×512/r的特征图进行激活操作,通过第二全连接层将尺寸为1×1×512/r的特征图扩充为1×1×512后再经过Sigmoid函数输出包含通道注意力信息的特征图;r为设定值。
第一SEnet注意力机制模块、第二SEnet注意力机制模块、第三SEnet注意力机制模块和第四SEnet注意力机制模块输出的四个包含通道注意力信息的特征图进行元素级的加和操作,获得特征融合特征图,对特征融合特征图进行卷积核为1*1、步长为1、像素填充为0的卷积操作后输出。
第一卷积分支、第二卷积分支、第三卷积分支和第四卷积分支输出的特征的尺寸相同,尺寸均为64×64×512。
检测头205包括回归支路和分类支路;分类支路利用分类损失确定检测目标的类别,回归支路利用回归损失确定检测目标的位置信息。
采用航拍图像数据集对图像目标检测的网络结构进行训练及参数优化,最后进行模型测试,利用图像目标检测模型对待检测车辆图像进行目标检测。
本发明公开了一种多卷积融合模块,并将多卷积融合模块与多尺度特征融合技术相结合,提出了一种图像目标检测的网络结构,本发明一种图像目标检测的网络结构为新型的深度神经网络结构,其特点是采用基于特征金字塔网络(Feature Pyramid Network,FPN)的Faster RCNN网络结构针对整张航拍图像进行目标检测,并在该网络结构中嵌入多个多卷积融合模块来挖掘和提取多种不同属性的目标关键特征信息,从而提高深度神经网络对航拍图像目标的检测准确率。
下面详细说明本发明一种基于多卷积融合网络的目标检测方法。
如图5所示,一种基于多卷积融合网络的目标检测方法具体包括以下步骤。
Step1、构建航拍图像数据集。具体过程为:首先通过无人机摄像头采集交通枢纽来往车辆的图像数据;其次,通过预处理操作对采集所得原始图像进行亮度、饱和度和对比度的随机调整;接下来,基于Labelme软件对图像中的航拍车辆目标进行类别标注,从而得到可扩展标记语言(Extensible Markup Language, XML)格式的标注文件;最后,进行训练集和测试集划分,为训练集中的数据制作标签,测试集中的数据不作处理。
Step2、搭建深度神经网络(图像目标检测的网络结构),并采用航拍图像数据集中的训练集训练深度神经网络模型,得到航拍图像检测模型,以本发明输入航拍图像1024×1024为例,描述具体过程如下:
设计多卷积融合模块(包括第一多卷积融合模块、第二多卷积融合模块、第三多卷积融合模块、第四多卷积融合模块和第五多卷积融合模块),并嵌入Faster RCNN网络的骨干网络ResNet101中。本发明中Faster RCNN所使用的骨干网络为ResNet101,用其来提取航拍图像的特征,ResNet101网络201由5个卷积模块(conv1、conv2、conv3、conv4、conv5)组成,如图3所示,设计多卷积融合模块,并将其分别嵌入5个卷积模块之后,以便使后续特征图都包含所提取到的不同属性的目标关键信息。如图3所示,以本发明输入航拍图像1024×1024为例,其经过前三个卷积模块(conv1、conv2、conv3)后输出特征图C_3的尺寸为128×128×512,将该特征图作为多卷积融合模块(第三多卷积融合模块)的输入,展示多卷积融合模块的设计过程:
如图4所示,首先设计多卷积分支结构,将经过conv3(第三卷积模块)后输出的特征图作为本结构的输入特征图。将该特征图输入不同的卷积分支,即对该特征图分别进行四种不同的卷积操作,包括卷积核为1*1、步长为3、像素填充为0的卷积操作,卷积核为3*3、步长为2、像素填充为1的卷积操作,卷积核为5*5、步长为2、像素填充为2的卷积操作以及卷积核为7*7、步长为2、像素填充为3的卷积操作,从而得到四种尺寸相同但包含不同特征信息的特征图(尺寸为64×64×512)。
接下来,构建SEnet注意力机制,并将SEnet注意力机制嵌入多卷积分支结构之后。首先进行SEnet注意力机制的构建,如图4所示,以多卷积分支结构的四个输出特征图作为SEnet注意力机制的输入,SEnet注意力机制的设计过程为:将经过多卷积分支结构的四个特征图(尺寸均为64×64×512)作为本模块的输入特征图,首先基于通道维度对输入特征图进行全局平均池化,分别得到四个尺寸为1×1×512的特征图。然后将这四个特征图输入一个全连接层,该全连接层的作用是将尺寸为1×1×512的特征图的通道数缩减为原来的r分之一,减少全连接层的计算量,即输出四个尺寸为1×1×512/r的特征图。采用ReLU激活函数对四个特征图分别进行激活操作,再次采用第二个全连接层将四个特征图从1×1×512/r扩充为1×1×512大小,最终经过Sigmoid函数将512层特征图的权重限制到[0,1]的范围。四个特征图的512个通道与该输出权重1×1×512相乘,从而输出四个包含通道注意力信息的特征图(尺寸为64×64×512)。SEnet注意力机制的计算公式如下:
B=σ(FC(ReLu(FC(Avgpool(A)))));
其中,A表示注意力模块的输入特征图,B表示输出特征图,FC表示全连接层(包括第一全连接层和第二全连接层),σ表示sigmoid激活函数。
SEnet注意力机制不改变特征图的分辨率大小,因此如图4所示,将该注意力机制分别嵌入到多卷积分支结构之后,有助于网络筛选多卷积分支结构所提取到的过量特征信息,并将筛选到的关键特征传递至后续特征层,从而提高对航拍图像目标的检测精度。
最后,设计多卷积融合结构。将SEnet注意力机制输出的四个特征图进行元素级的加和操作,从而获得融合不同特征属性的特征图(尺寸为64×64×512)。并对其进行卷积核为1*1、步长为1、像素填充为0的卷积操作,以将通道数精炼为256,并消除特征混叠效应,最终获得尺寸为64×64×256的特征图。
多卷积融合模块分别由多卷积分支结构、SEnet注意力机制和多卷积融合结构串联组成,如图3所示,将该多卷积融合模块分别嵌入到ResNet101网络201的5个卷积模块之后,有助于网络基于不同卷积操作提取并精炼出更多丰富的关键特征信息,并将该关键特征传递至后续层,从而提高航拍图像目标的检测准确率。此外,多卷积融合模块通过关键特征提炼,可使特征图的空间维度和通道数均减少为原来的一半,从而降低计算成本。
设计基于特征金字塔网络(Feature Pyramid Network, FPN)的Faster R-CNN结构。具体结构(如图3所示)为:骨干网络ResNet101主要由五个卷积模块(conv1、conv2、conv3、conv4、conv5)组成,五个卷积模块的输出特征图,分别表示为C_1、C_2、C_3、C_4和C_5。以本发明输入航拍图像1024×1024为例,C_1至C_5特征图大小依次为:512×512×128、256×256×256、128×128×512、64×64×1024、32×32×2048。将C_1、C_2、C_3、C_4、C_5分别经过五个多卷积融合模块,获得丰富特征信息的同时,统一通道数为256,即尺寸依次为:256×256×256、128×128×256、64×64×256、32×32×256、16×16×256。将C_5经过多卷积融合模块(第五多卷积融合模块)的输出特征图命名为P_6(第五特征图)。再采用多尺度特征融合方式,依次将上一层低分辨率强语义信息的特征图通过2倍缩放上采样得到与下层同尺寸的特征图,并与下层的高分辨率特征图进行元素级相加,从而得到P_2、P_3、P_4、P_5(第四特征图)、P_6(第五特征图)层。将P_2、P_3、P_4层经过3×3卷积,以消除低层的特征混叠效应,并得到最终的P_2(第一特征图)、P_3(第二特征图)、P_4(第三特征图)层。
如图5所示,ResNet101、多卷积融合模块和FPN构成特征提取网络,用于提取输入图像中特征。
接下来,建立RPN(RegionProposal Network,区域生成网络)网络结构。RPN网络结构为一个3×3卷积层和两个输出支路:第一个支路输出候选区域为各类目标的可能性概率;第二个支路输出候选区域边框(bounding box)的左上角坐标和宽高。RPN分别在P_2—P_6这五个特征图层基于3×3大小的滑动锚框遍历特征映射图,生成多个anchor boxes(锚箱),生成一系列的Proposals(候选目标区域),每个层均进行目标候选框预测。最后将每层的预测结果进行连接融合。在RPN训练过程中,与真实的标注框的IOU(交并比)大于0.7的目标为正标签(车辆目标),IOU(交并比)小于0.3的目标则为负标签(背景)。
根据RPN生成的每个Proposals框的面积(w×h)大小,分别将Proposals框映射到对应的特征层
Figure DEST_PATH_IMAGE012
进行下一步ROI Pooling操作。
Figure DEST_PATH_IMAGE013
值计算公式如下:
Figure DEST_PATH_IMAGE014
其中
Figure DEST_PATH_IMAGE015
,w和h分别为bounding box的宽和高,k值为2、3、4和5。
P 2表示第一特征图,P 3表示第二特征图,P 4表示第三特征图,P 5表示第四特征图。
将所得Proposals输入ROI Pooling层进行特征提取,均输出统一大小为7×7的Proposals特征图,以便于下一步输入全连接层。各特征图样本经过两层1024维度的全连接层后,通过Faster RCNN的两个检测分支分别计算:利用分类损失函数进行背景和车辆目标的分类,确定proposal区域所属的车辆类别;利用回归损失完成边框回归操作后获得车辆目标的定位信息。对网络模型进行训练,计算损失函数,并进行整个网络的参数更新,最终得到训练模型,训练损失包括两个部分,即分类损失和回归损失,计算式如下:
Figure DEST_PATH_IMAGE016
式中,
Figure DEST_PATH_IMAGE017
表示每一个样本的下标,
Figure DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
均为归一化参数,
Figure DEST_PATH_IMAGE020
为权重的平衡参数。
Figure DEST_PATH_IMAGE021
表示分类损失。
Figure DEST_PATH_IMAGE022
表示该样本被预测为车辆的概率,
Figure DEST_PATH_IMAGE023
是已标注的真实数据标签。
Figure DEST_PATH_IMAGE024
表示边框回归损失,
Figure 531205DEST_PATH_IMAGE024
定义为
Figure DEST_PATH_IMAGE025
(t-t*),
Figure 726694DEST_PATH_IMAGE025
函数的定义为
Figure DEST_PATH_IMAGE026
,x表示公式输入,此处指t-t*,t表示Proposal预测目标框的平移缩放参数,t*表示Proposal对应的真实数据的平移缩放参数,
Figure DEST_PATH_IMAGE027
表示样本为正样本时,即
Figure DEST_PATH_IMAGE028
,才被激活。
Figure DEST_PATH_IMAGE029
表示Proposal预测目标框的平移缩放参数,
Figure DEST_PATH_IMAGE030
表示Proposal对应的真实数据的平移缩放参数,tx *表示预测目标框左上角坐标x的平移缩放参数,ty表示预测目标框左上角坐标y的平移缩放参数,tw表示预测目标框宽度w的平移缩放参数。th表示预测目标框高度h的平移缩放参数,tx *表示真实目标框左上角坐标x的平移缩放参数,ty *表示真实目标框左上角坐标y的平移缩放参数,tw *表示真实目标框宽度w的平移缩放参数。th *表示真实目标框高度h的平移缩放参数。
Step3、基于以上步骤完成深度神经网络的整体构造,采用航拍图像数据集进行模型的训练及参数优化,最后进行模型测试。具体为,在航拍图像数据集的训练集上对以上步骤所得到的深度神经网络进行端对端训练,对于每一张输入神经网络的图片,执行前向传播及反向传播步骤,基于损失函数
Figure DEST_PATH_IMAGE031
更新模型内部参数,得到航拍图像目标检测模型。
采用航拍图像数据集的测试集作为测试实例,输入到训练好的深度神经网络模型(图像目标检测模型)中,检测航拍图像中的车辆目标,具体过程如下:
(1)输入一组待测试的航拍图像,限制输入图最大边长为1024,经过ResNet网络、多卷积融合模块和特征金字塔网络(Feature Pyramid Network, FPN)的特征提取后,通过RPN得到图中400个候选目标区域Proposals。
(2)ROI Pooling以原图特征图和各个候选目标区域为输入,提取候选目标区域的特征图并输出统一尺寸的7×7特征图,用于下一步检测框回归及航拍车辆类别分类。
(3)Proposal的特征信息经过全连接层和边框回归与类别判定得到各航拍车辆目标检测框所在的矩形位置信息。最终在原始图像中标出所有被标记为航拍车辆目标的外接矩形。
(4)进行结果评测所用指标为平均精度AP及平均精度均值mAP。真反例(TureNegative, TN):被判定为负样本,事实上也是负样本;真正例(Ture Positve, TP):被判定为正样本,事实上也是正样本;假反例(False Negative, FN):被判定为负样本,但实为正样本;假正例(False Positive, FP):被判定为正样本,但实为负样本。召回率(Recall)=TP/(TP+FN),准确率(Precision)=TP/(TP+FP),Precision-Recall(P-R)曲线为以Precision和Recall作为纵、横轴坐标的二维曲线。平均精度AP为每个类别对应的P-R曲线围起来的面积,平均精度均值mAP为每个类别AP值的平均值。
本发明公开的一种基于多卷积融合网络的目标检测方法有益效果主要包括:
(1)通过本发明采用多卷积融合模块进一步提取conv1-conv5所包含的多种不同潜在特征信息,并基于模块中的SEnet注意力机制提炼出关键检测特征,将该关键特征传递至后面的层,从而提高对航拍图像目标的检测准确率。
(2)通过本发明构建的基于特征金字塔网络(Feature Pyramid Network, FPN)、多卷积融合模块与Faster RCNN的检测网络,该网络将多卷积融合模块与多尺度特征融合技术相结合,从而联合增强了自身对航拍图像目标的特征表征能力。
图6为本发明一种基于多卷积融合网络的目标检测***结构示意图,如图6所示,一种基于多卷积融合网络的目标检测***包括:
数据集采集模块301,用于将通过无人机携带的摄像头采集的交通枢纽中来往车辆的图像数据作为数据集。
网络构建模块302,用于构建用于图像目标检测的网络结构。
图像目标检测模型训练模块303,用于根据数据集训练用于图像目标检测的网络结构,获得图像目标检测模型。
目标检测模块304,用于利用图像目标检测模型,对待检测图像数据进行目标检测。
用于图像目标检测的网络结构包括:ResNet101网络201、多卷积融合网络202、区域生成网络203、ROI池化层204和检测头205。
ResNet101网络201包括依次连接的第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块和第五卷积模块;多卷积融合网络202包括第一多卷积融合模块、第二多卷积融合模块、第三多卷积融合模块、第四多卷积融合模块和第五多卷积融合模块。
第一多卷积融合模块、第二多卷积融合模块、第三多卷积融合模块、第四多卷积融合模块和第五多卷积融合模块均用于对输入的图像进行多卷积特征融合。
第五卷积模块的输出连接第五多卷积融合模块的输入,第四卷积模块的输出连接第四多卷积融合模块的输入,第三卷积模块的输出连接第三多卷积融合模块的输入,第二卷积模块的输出连接第二多卷积融合模块的输入,第一卷积模块的输出连接第一多卷积融合模块的输入;第五多卷积融合模块输出为第五特征图,第五特征图通过2倍上采样与第四多卷积融合模块的输出按元素相加输出第四特征图,第四特征图通过2倍上采样与第三多卷积融合模块的输出按元素相加后进行3×3卷积操作输出第三特征图,第三特征图通过2倍上采样与第二多卷积融合模块的输出按元素相加后进行3×3卷积操作输出第二特征图,第二特征图通过2倍上采样与第一多卷积融合模块的输出按元素相加后进行3×3卷积操作输出第一特征图;第一特征图、第二特征图、第三特征图、第四特征图和第五特征图输入区域生成网络203;区域生成网络203连接ROI池化层204,ROI池化层204连接检测头205,检测头205用于输出检测结果。
第一多卷积融合模块、第二多卷积融合模块、第三多卷积融合模块、第四多卷积融合模块和第五多卷积融合模块结构相同,均包括第一卷积分支、第二卷积分支、第三卷积分支、第四卷积分支、第一SEnet注意力机制模块、第二SEnet注意力机制模块、第三SEnet注意力机制模块、第四SEnet注意力机制模块。
第一卷积分支包括卷积核为1*1、步长为3、像素填充为0的卷积操作,第二卷积分支包括卷积核为3*3、步长为2、像素填充为1的卷积操作,第三卷积分支包括卷积核为5*5、步长为2、像素填充为2的卷积操作,第四卷积分支包括卷积核为7*7、步长为2、像素填充为3的卷积操作;第一卷积分支输出的特征图输入第一SEnet注意力机制模块,第二卷积分支输出的特征图输入第二SEnet注意力机制模块,第三卷积分支输出的特征图输入第三SEnet注意力机制模块,第四卷积分支输出的特征图输入第四SEnet注意力机制模块;
第一SEnet注意力机制模块、第二SEnet注意力机制模块、第三SEnet注意力机制模块和第四SEnet注意力机制模块均基于通道维度对输入的特征图进行全局平均池化,得到尺寸为1×1×512的特征图,将尺寸为1×1×512的特征图输入第一全连接层,第一全连接层输出尺寸为1×1×512/r的特征图,采用ReLU激活函数对尺寸为1×1×512/r的特征图进行激活操作,通过第二全连接层将尺寸为1×1×512/r的特征图扩充为1×1×512后再经过Sigmoid函数输出包含通道注意力信息的特征图;r为设定值。
第一SEnet注意力机制模块、第二SEnet注意力机制模块、第三SEnet注意力机制模块和第四SEnet注意力机制模块输出的四个包含通道注意力信息的特征图进行元素级的加和操作,获得特征融合特征图,对特征融合特征图进行卷积核为1*1、步长为1、像素填充为0的卷积操作后输出。
第一卷积分支、第二卷积分支、第三卷积分支和第四卷积分支输出的特征的尺寸相同,尺寸均为64×64×512。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于多卷积融合网络的目标检测方法,其特征在于,包括:
将通过无人机携带的摄像头采集的交通枢纽中来往车辆的图像数据作为数据集;
构建用于图像目标检测的网络结构;
根据所述数据集训练所述用于图像目标检测的网络结构,获得图像目标检测模型;
利用所述图像目标检测模型,对待检测图像数据进行目标检测;
所述用于图像目标检测的网络结构包括:ResNet101网络、多卷积融合网络、区域生成网络、ROI池化层和检测头;
所述ResNet101网络包括依次连接的第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块和第五卷积模块;所述多卷积融合网络包括第一多卷积融合模块、第二多卷积融合模块、第三多卷积融合模块、第四多卷积融合模块和第五多卷积融合模块;
所述第一多卷积融合模块、所述第二多卷积融合模块、所述第三多卷积融合模块、所述第四多卷积融合模块和所述第五多卷积融合模块均用于对输入的图像进行多卷积特征融合;
所述第五卷积模块的输出连接所述第五多卷积融合模块的输入,所述第四卷积模块的输出连接所述第四多卷积融合模块的输入,所述第三卷积模块的输出连接所述第三多卷积融合模块的输入,所述第二卷积模块的输出连接所述第二多卷积融合模块的输入,所述第一卷积模块的输出连接所述第一多卷积融合模块的输入;所述第五多卷积融合模块输出为第五特征图,所述第五特征图通过2倍上采样与所述第四多卷积融合模块的输出按元素相加输出第四特征图,所述第四特征图通过2倍上采样与所述第三多卷积融合模块的输出按元素相加后进行3×3卷积操作输出第三特征图,所述第三特征图通过2倍上采样与所述第二多卷积融合模块的输出按元素相加后进行3×3卷积操作输出第二特征图,所述第二特征图通过2倍上采样与所述第一多卷积融合模块的输出按元素相加后进行3×3卷积操作输出第一特征图;所述第一特征图、所述第二特征图、所述第三特征图、所述第四特征图和所述第五特征图均输入所述区域生成网络;所述区域生成网络连接所述ROI池化层,所述ROI池化层连接所述检测头,所述检测头用于输出检测结果。
2.根据权利要求1所述的基于多卷积融合网络的目标检测方法,其特征在于,所述第一多卷积融合模块、所述第二多卷积融合模块、所述第三多卷积融合模块、所述第四多卷积融合模块和所述第五多卷积融合模块结构相同,均包括第一卷积分支、第二卷积分支、第三卷积分支、第四卷积分支、第一SEnet注意力机制模块、第二SEnet注意力机制模块、第三SEnet注意力机制模块、第四SEnet注意力机制模块;
所述第一卷积分支包括卷积核为1*1、步长为3、像素填充为0的卷积操作,所述第二卷积分支包括卷积核为3*3、步长为2、像素填充为1的卷积操作,所述第三卷积分支包括卷积核为5*5、步长为2、像素填充为2的卷积操作,所述第四卷积分支包括卷积核为7*7、步长为2、像素填充为3的卷积操作;所述第一卷积分支输出的特征图输入所述第一SEnet注意力机制模块,所述第二卷积分支输出的特征图输入所述第二SEnet注意力机制模块,所述第三卷积分支输出的特征图输入所述第三SEnet注意力机制模块,所述第四卷积分支输出的特征图输入所述第四SEnet注意力机制模块;
所述第一SEnet注意力机制模块、所述第二SEnet注意力机制模块、所述第三SEnet注意力机制模块和所述第四SEnet注意力机制模块均基于通道维度对输入的特征图进行全局平均池化,得到尺寸为1×1×512的特征图,将尺寸为1×1×512的特征图输入第一全连接层,所述第一全连接层输出尺寸为1×1×512/r的特征图,采用ReLU激活函数对尺寸为1×1×512/r的特征图进行激活操作,通过第二全连接层将尺寸为1×1×512/r的特征图扩充为1×1×512后再经过Sigmoid函数输出包含通道注意力信息的特征图;所述r为设定值;
所述第一SEnet注意力机制模块、所述第二SEnet注意力机制模块、所述第三SEnet注意力机制模块和所述第四SEnet注意力机制模块输出的四个包含通道注意力信息的特征图进行元素级的加和操作,获得特征融合特征图,对所述特征融合特征图进行卷积核为1*1、步长为1、像素填充为0的卷积操作后输出。
3.根据权利要求2所述的基于多卷积融合网络的目标检测方法,其特征在于,所述第一卷积分支、所述第二卷积分支、所述第三卷积分支和所述第四卷积分支输出的特征的尺寸相同,尺寸均为64×64×512。
4.根据权利要求1所述的基于多卷积融合网络的目标检测方法,其特征在于,所述检测头包括回归支路和分类支路;所述分类支路利用分类损失确定检测目标的类别,所述回归支路利用回归损失确定检测目标的位置信息。
5.根据权利要求1所述的基于多卷积融合网络的目标检测方法,其特征在于,所述将通过无人机携带的摄像头采集的交通枢纽中来往车辆的图像数据作为数据集,具体包括:
通过无人机携带的摄像头采集交通枢纽中来往车辆的图像数据;
对所述图像数据进行亮度、饱和度和对比度的随机调整,获得预处理后的图像数据;
将预处理后的图像数据划分为训练集和测试集;
采用Labelme软件对所述训练集中各图像中的车辆目标进行类别标注,获得标注后的所述训练集;所述测试集和类别标注后的所述训练集构成所述数据集。
6.根据权利要求1所述的基于多卷积融合网络的目标检测方法,其特征在于,所述根据所述数据集训练图像目标检测的网络结构,获得图像目标检测模型,具体包括:
根据所述数据集训练图像目标检测的网络结构时,计算损失函数,根据所述损失函数调整所述网络结构中的参数,获得图像目标检测模型;所述损失函数包括分类损失和回归损失。
7.根据权利要求6所述的基于多卷积融合网络的目标检测方法,其特征在于,所述损失函数表示为:
Figure DEST_PATH_IMAGE001
其中,
Figure DEST_PATH_IMAGE002
表示所述损失函数,i表示第i个样本,
Figure DEST_PATH_IMAGE003
为第一归一化参数,
Figure DEST_PATH_IMAGE004
为第二归一化参数,
Figure DEST_PATH_IMAGE005
为权重的平衡参数,
Figure DEST_PATH_IMAGE006
表示分类损失,
Figure DEST_PATH_IMAGE007
表示回归损失,
Figure DEST_PATH_IMAGE008
表示第i个样本被预测为车辆的概率,
Figure DEST_PATH_IMAGE009
是第i个样本已标注的标签,
Figure DEST_PATH_IMAGE010
表示预测边框的平移缩放参数,
Figure DEST_PATH_IMAGE011
表示真实边框的平移缩放参数。
8.一种基于多卷积融合网络的目标检测***,其特征在于,包括:
数据集采集模块,用于将通过无人机携带的摄像头采集的交通枢纽中来往车辆的图像数据作为数据集;
网络构建模块,用于构建用于图像目标检测的网络结构;
图像目标检测模型训练模块,用于根据所述数据集训练所述用于图像目标检测的网络结构,获得图像目标检测模型;
目标检测模块,用于利用所述图像目标检测模型,对待检测图像数据进行目标检测;
所述用于图像目标检测的网络结构包括:ResNet101网络、多卷积融合网络、区域生成网络、ROI池化层和检测头;
所述ResNet101网络包括依次连接的第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块和第五卷积模块;所述多卷积融合网络包括第一多卷积融合模块、第二多卷积融合模块、第三多卷积融合模块、第四多卷积融合模块和第五多卷积融合模块;
所述第一多卷积融合模块、所述第二多卷积融合模块、所述第三多卷积融合模块、所述第四多卷积融合模块和所述第五多卷积融合模块均用于对输入的图像进行多卷积特征融合;
所述第五卷积模块的输出连接所述第五多卷积融合模块的输入,所述第四卷积模块的输出连接所述第四多卷积融合模块的输入,所述第三卷积模块的输出连接所述第三多卷积融合模块的输入,所述第二卷积模块的输出连接所述第二多卷积融合模块的输入,所述第一卷积模块的输出连接所述第一多卷积融合模块的输入;所述第五多卷积融合模块输出为第五特征图,所述第五特征图通过2倍上采样与所述第四多卷积融合模块的输出按元素相加输出第四特征图,所述第四特征图通过2倍上采样与所述第三多卷积融合模块的输出按元素相加后进行3×3卷积操作输出第三特征图,所述第三特征图通过2倍上采样与所述第二多卷积融合模块的输出按元素相加后进行3×3卷积操作输出第二特征图,所述第二特征图通过2倍上采样与所述第一多卷积融合模块的输出按元素相加后进行3×3卷积操作输出第一特征图;所述第一特征图、所述第二特征图、所述第三特征图、所述第四特征图和所述第五特征图均输入所述区域生成网络;所述区域生成网络连接所述ROI池化层,所述ROI池化层连接所述检测头,所述检测头用于输出检测结果。
9.根据权利要求8所述的基于多卷积融合网络的目标检测***,其特征在于,所述第一多卷积融合模块、所述第二多卷积融合模块、所述第三多卷积融合模块、所述第四多卷积融合模块和所述第五多卷积融合模块结构相同,均包括第一卷积分支、第二卷积分支、第三卷积分支、第四卷积分支、第一SEnet注意力机制模块、第二SEnet注意力机制模块、第三SEnet注意力机制模块、第四SEnet注意力机制模块;
所述第一卷积分支包括卷积核为1*1、步长为3、像素填充为0的卷积操作,所述第二卷积分支包括卷积核为3*3、步长为2、像素填充为1的卷积操作,所述第三卷积分支包括卷积核为5*5、步长为2、像素填充为2的卷积操作,所述第四卷积分支包括卷积核为7*7、步长为2、像素填充为3的卷积操作;所述第一卷积分支输出的特征图输入所述第一SEnet注意力机制模块,所述第二卷积分支输出的特征图输入所述第二SEnet注意力机制模块,所述第三卷积分支输出的特征图输入所述第三SEnet注意力机制模块,所述第四卷积分支输出的特征图输入所述第四SEnet注意力机制模块;
所述第一SEnet注意力机制模块、所述第二SEnet注意力机制模块、所述第三SEnet注意力机制模块和所述第四SEnet注意力机制模块均基于通道维度对输入的特征图进行全局平均池化,得到尺寸为1×1×512的特征图,将尺寸为1×1×512的特征图输入第一全连接层,所述第一全连接层输出尺寸为1×1×512/r的特征图,采用ReLU激活函数对尺寸为1×1×512/r的特征图进行激活操作,通过第二全连接层将尺寸为1×1×512/r的特征图扩充为1×1×512后再经过Sigmoid函数输出包含通道注意力信息的特征图;所述r为设定值;
所述第一SEnet注意力机制模块、所述第二SEnet注意力机制模块、所述第三SEnet注意力机制模块和所述第四SEnet注意力机制模块输出的四个包含通道注意力信息的特征图进行元素级的加和操作,获得特征融合特征图,对所述特征融合特征图进行卷积核为1*1、步长为1、像素填充为0的卷积操作后输出。
10.根据权利要求9所述的基于多卷积融合网络的目标检测***,其特征在于,所述第一卷积分支、所述第二卷积分支、所述第三卷积分支和所述第四卷积分支输出的特征的尺寸相同,尺寸均为64×64×512。
CN202110707169.0A 2021-06-25 2021-06-25 一种基于多卷积融合网络的目标检测方法及*** Active CN113255589B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110707169.0A CN113255589B (zh) 2021-06-25 2021-06-25 一种基于多卷积融合网络的目标检测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110707169.0A CN113255589B (zh) 2021-06-25 2021-06-25 一种基于多卷积融合网络的目标检测方法及***

Publications (2)

Publication Number Publication Date
CN113255589A true CN113255589A (zh) 2021-08-13
CN113255589B CN113255589B (zh) 2021-10-15

Family

ID=77189569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110707169.0A Active CN113255589B (zh) 2021-06-25 2021-06-25 一种基于多卷积融合网络的目标检测方法及***

Country Status (1)

Country Link
CN (1) CN113255589B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114332849A (zh) * 2022-03-16 2022-04-12 科大天工智能装备技术(天津)有限公司 一种农作物生长状态联合监测方法、装置及存储介质
CN114511515A (zh) * 2022-01-17 2022-05-17 山东高速路桥国际工程有限公司 一种基于BoltCorrDetNet网络的螺栓腐蚀检测***和检测方法
CN114943903A (zh) * 2022-05-25 2022-08-26 广西财经学院 一种针对无人机航空图像的自适应分簇目标检测方法
CN115272992A (zh) * 2022-09-30 2022-11-01 松立控股集团股份有限公司 一种车辆姿态估计方法
CN115861938A (zh) * 2023-02-06 2023-03-28 北京中超伟业信息安全技术股份有限公司 一种基于无人机识别的无人机反制方法及***
CN117952977A (zh) * 2024-03-27 2024-04-30 山东泉海汽车科技有限公司 一种基于改进yolov5s的路面裂缝识别方法、装置和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111951212A (zh) * 2020-04-08 2020-11-17 北京交通大学 对铁路的接触网图像进行缺陷识别的方法
CN112101373A (zh) * 2019-06-18 2020-12-18 富士通株式会社 基于深度学习网络的对象检测方法、装置和电子设备
CN112364855A (zh) * 2021-01-14 2021-02-12 北京电信易通信息技术股份有限公司 一种基于多尺度特征融合的视频目标检测方法及***
US20210056351A1 (en) * 2018-06-04 2021-02-25 Jiangnan University Multi-scale aware pedestrian detection method based on improved full convolutional network
CN112465746A (zh) * 2020-11-02 2021-03-09 新疆天维无损检测有限公司 一种射线底片中小缺陷检测方法
CN112766409A (zh) * 2021-02-01 2021-05-07 西北工业大学 一种遥感图像目标检测的特征融合方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210056351A1 (en) * 2018-06-04 2021-02-25 Jiangnan University Multi-scale aware pedestrian detection method based on improved full convolutional network
CN112101373A (zh) * 2019-06-18 2020-12-18 富士通株式会社 基于深度学习网络的对象检测方法、装置和电子设备
CN111951212A (zh) * 2020-04-08 2020-11-17 北京交通大学 对铁路的接触网图像进行缺陷识别的方法
CN112465746A (zh) * 2020-11-02 2021-03-09 新疆天维无损检测有限公司 一种射线底片中小缺陷检测方法
CN112364855A (zh) * 2021-01-14 2021-02-12 北京电信易通信息技术股份有限公司 一种基于多尺度特征融合的视频目标检测方法及***
CN112766409A (zh) * 2021-02-01 2021-05-07 西北工业大学 一种遥感图像目标检测的特征融合方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114511515A (zh) * 2022-01-17 2022-05-17 山东高速路桥国际工程有限公司 一种基于BoltCorrDetNet网络的螺栓腐蚀检测***和检测方法
CN114332849A (zh) * 2022-03-16 2022-04-12 科大天工智能装备技术(天津)有限公司 一种农作物生长状态联合监测方法、装置及存储介质
CN114332849B (zh) * 2022-03-16 2022-08-16 科大天工智能装备技术(天津)有限公司 一种农作物生长状态联合监测方法、装置及存储介质
CN114943903A (zh) * 2022-05-25 2022-08-26 广西财经学院 一种针对无人机航空图像的自适应分簇目标检测方法
CN114943903B (zh) * 2022-05-25 2023-04-07 广西财经学院 一种针对无人机航空图像的自适应分簇目标检测方法
CN115272992A (zh) * 2022-09-30 2022-11-01 松立控股集团股份有限公司 一种车辆姿态估计方法
CN115861938A (zh) * 2023-02-06 2023-03-28 北京中超伟业信息安全技术股份有限公司 一种基于无人机识别的无人机反制方法及***
CN117952977A (zh) * 2024-03-27 2024-04-30 山东泉海汽车科技有限公司 一种基于改进yolov5s的路面裂缝识别方法、装置和介质
CN117952977B (zh) * 2024-03-27 2024-06-04 山东泉海汽车科技有限公司 一种基于改进yolov5s的路面裂缝识别方法、装置和介质

Also Published As

Publication number Publication date
CN113255589B (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
CN113255589B (zh) 一种基于多卷积融合网络的目标检测方法及***
CN112200161B (zh) 一种基于混合注意力机制的人脸识别检测方法
CN108596101B (zh) 一种基于卷积神经网络的遥感图像多目标检测方法
CN108764063B (zh) 一种基于特征金字塔的遥感影像时敏目标识别***及方法
CN111738110A (zh) 基于多尺度注意力机制的遥感图像车辆目标检测方法
CN113313082B (zh) 一种基于多任务损失函数的目标检测方法及***
CN112084869A (zh) 一种基于紧致四边形表示的建筑物目标检测方法
CN113609896A (zh) 基于对偶相关注意力的对象级遥感变化检测方法及***
CN113313094B (zh) 一种基于卷积神经网络的车载图像目标检测方法和***
CN111144418B (zh) 一种铁路轨道区域分割提取的方法
CN114820655B (zh) 可靠区域作为注意力机制监督的弱监督建筑物分割方法
CN112800906A (zh) 一种基于改进YOLOv3的自动驾驶汽车跨域目标检测方法
CN114612835A (zh) 一种基于YOLOv5网络的无人机目标检测模型
CN116229452B (zh) 一种基于改进的多尺度特征融合的点云三维目标检测方法
CN112766409A (zh) 一种遥感图像目标检测的特征融合方法
CN113361528B (zh) 一种多尺度目标检测方法及***
CN110659601A (zh) 基于中心点的深度全卷积网络遥感图像密集车辆检测方法
CN113052108A (zh) 基于深度神经网络的多尺度级联航拍目标检测方法和***
CN117079163A (zh) 一种基于改进yolox-s的航拍图像小目标检测方法
CN114494870A (zh) 一种双时相遥感图像变化检测方法、模型构建方法和装置
CN114519819B (zh) 一种基于全局上下文感知的遥感图像目标检测方法
CN117853955A (zh) 一种基于改进YOLOv5的无人机小目标检测方法
CN113111740A (zh) 一种遥感图像目标检测的特征编织方法
CN114550016B (zh) 一种基于上下文信息感知的无人机定位方法及***
CN112801195A (zh) 一种基于深度学习的雾天能见度预测方法,存储装置及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant