CN117612029A - 一种基于渐进特征平滑和尺度适应性膨胀卷积的遥感图像目标检测方法 - Google Patents

一种基于渐进特征平滑和尺度适应性膨胀卷积的遥感图像目标检测方法 Download PDF

Info

Publication number
CN117612029A
CN117612029A CN202311765955.1A CN202311765955A CN117612029A CN 117612029 A CN117612029 A CN 117612029A CN 202311765955 A CN202311765955 A CN 202311765955A CN 117612029 A CN117612029 A CN 117612029A
Authority
CN
China
Prior art keywords
feature
convolution
remote sensing
scale
sensing image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311765955.1A
Other languages
English (en)
Other versions
CN117612029B (zh
Inventor
张云佐
刘婷
于璞泽
王双双
杨月辉
甄嘉闻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shijiazhuang Tiedao University
Original Assignee
Shijiazhuang Tiedao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shijiazhuang Tiedao University filed Critical Shijiazhuang Tiedao University
Priority to CN202311765955.1A priority Critical patent/CN117612029B/zh
Publication of CN117612029A publication Critical patent/CN117612029A/zh
Application granted granted Critical
Publication of CN117612029B publication Critical patent/CN117612029B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Remote Sensing (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Astronomy & Astrophysics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于渐进特征平滑和尺度适应性膨胀卷积的遥感图像目标检测方法,适用于遥感图像目标检测技术领域。所述方法包括:1、获取高分辨率的光学遥感图像数据集;2、将数据集划分为三个不同的子集,包括训练集、验证集和测试集,并对数据集进行预处理;3、建立遥感图像目标检测模型,并在训练过程中使用随机梯度下降算法;4、构建损失函数,其中模型的定位损失采用SIoU损失函数,以加快模型的收敛速度;5、利用模型的最佳参数,将训练集的遥感图像输入到检测模型中进行训练;6、将测试集的图像输入到最优的检测模型中,得到相应的检测结果。本发明适应于遥感场景下的多类别多尺度目标检测任务,能够提高目标检测的精度,并有效地减少漏检率。

Description

一种基于渐进特征平滑和尺度适应性膨胀卷积的遥感图像目 标检测方法
技术领域
本发明涉及一种基于渐进特征平滑和尺度适应性膨胀卷积的遥感图像目标检测方法,属于计算机视觉目标检测领域。
背景技术
2020年3月28日,凉山州木里县发生了一场严重的森林火灾,遥感监测在实时、准确的指导地面科学救援方面发挥了关键作用;2021年7月河南地区持续强降雨导致卫河决堤灾情,有关部门利用多源遥感手段对卫河沿岸汛情进行监测,对洪水淹没区域和畜禽养殖污染风险源进行重点关注;2022年10月17日,卫星火灾监测平台通过葵花8号静止气象卫星发现永州市新田县内存在大量火灾热异常点,相关部门迅速启动应急响应,对森林火灾区域进行持续监测,并进行了森林火灾风险等级分析;2023年7月28日,第5号台风“杜苏芮”在福建省晋江市沿海登陆,相关部门通过遥感卫星的监测云图有效观测了台风的形态变化和转移路径。从上述介绍来看,遥感影像在灾情信息获取、救灾决策等方面中发挥了重要作用。因此遥感图像目标检测技术的研究具有重要的研究意义和应用价值。
为解决遥感图像中目标检测精度较低的问题,许多研究集中在多尺度目标检测和特征融合方面。Chen等人设计了一个并行的双重融合特征金字塔结构,包含一个自底向上融合模块,可以同时检测小型和大型目标,从而提高检测精度。Wang等人专注于尺度问题,提出了一个专门的模块来融合多尺度特征中的上下文信息。Xu等人将通过特征对齐检测方法解决了大纵横比和不同尺度目标的滞后检测问题。Yi等人提出了一种高效轻量级的多尺度特征融合网络,在计数精度和运行速度上取得了良好的平衡。Lu等人提出了基于注意力和特征融合的端到端的网络。虽然上述方法已经取得了一定的进展,但它们忽略了不同尺度特征之间存在的语义差异,而这些差异对于目标检测至关重要。除此之外,复杂背景也会给目标检测造成干扰。因此,迫切需要一种高精度的多尺度多类别遥感图像目标检测方法来解决上述问题。
发明内容
针对上述现有方法中的不足,本发明提供了一种基于渐进特征平滑和尺度适应性膨胀卷积的遥感图像目标检测方法, 通过跨通道交互位置感知模块、渐进特征平滑模块和尺度适应性膨胀卷积模块协同作用,提高模型对复杂场景的感知和处理能力;跨通道交互位置感知模块提高了对目标的敏感性;渐进特征平滑模块加强了对目标的准确定位和精确分类;尺度适应性膨胀卷积模块则增强了对不同尺度目标的感知能力;这些模块的协同作用使得模型在遥感图像目标检测中更具鲁棒性和泛化能力,能够处理多类别多尺度目标,提高检测准确性和鲁棒性。
为实现上述目的,本发明的具体方案如下:
步骤1:获取光学遥感图像目标检测数据集;
步骤2:对遥感图像数据集进行预处理;
步骤3:建立遥感图像目标检测模型;
步骤4:利用所述数据集的训练集进行模型的训练,构建损失函数更新模型的参数,并引入SIoU定位损失函数加快模型的收敛速度,得到最优的模型;
步骤5:利用最优模型来检测所述数据集的测试集图像,得到最终测试结果。
进一步地,所述步骤2中对DIOR遥感数据集xml的标签文件转换为适合YOLOv7训练的txt格式;数据集按照1:1:2地比例划分为训练集、验证集、测试集,并对DIOR数据集采用平移、翻转和Mosiac方法进行数据增强。
进一步地,所述步骤3遥感图像目标检测模型包括:特征提取网络、渐进特征平滑模块、跨通道交互位置感知模块、特征增强网络、尺度适应性膨胀卷积模块、检测头。
进一步,所述遥感图像目标检测模型中,首先将经过预处理的遥感图像输入到预设的特征提取网络中,得到不同尺寸大小的特征图;然后,通过预设的跨通道交互位置感知模块对特征图进行特征增强,并通过预设的渐进特征平滑模块融合不同尺度特征;随后,利用预设的特征增强网络对得到不同尺度的平滑特征和增强特征进行多尺度特征融合;此外,将融合后的多尺度特征输入到尺度适应性膨胀卷积模块;最后将经过尺度适应性膨胀卷积模块的特征被输入到预设的检测头,进行多尺度目标检测。
进一步地,所述渐进特征平滑模块对浅层特征图和深层特征图进行处理;对于浅层特征图,首先经过卷积层生成两个新的特征图;接着,将特征图A进行重塑并转置得到特征图/>,同时将特征图B进行重塑得到特征图/>;进一步地,将/>和/>进行点乘,点乘操作让特征图中的每个像素点都产生了联系,使得每个像素的特征表示更加连续,以捕捉更多的细节信息,有助于更精确地定位目标;最后,应用softmax激活函数对点乘后的结果进行非线性映射得到/>;对于深层特征图,同样先经过卷积层生成1个新的特征图/>。然后,将特征图C重塑后与特征图进行点乘操作,并将点乘的结果进行重塑得到特征图/>;最后,对F和C进行适当的权重分配得到输出结果O,能够避免特征信息的突变,实现深层和浅层特征图的平滑融合,这样设计既确保特征间的连贯性,又充分保留丰富的语义信息,有助于目标的准确分类。
进一步地,所述跨通道交互位置感知模块由坐标注意力、3×3分支和空间注意力三部分构成;首先将输入特征图分别按照宽度和高度进行全局平均池化,然后将得到的两个具有方向感知的特征图进行拼接并输入到1×1卷积中,并采用swish激活函数得到中间特征图,接着将中间特征图通过1×1卷积和sigmoid激活函数得到高度和宽度方向上的特征图,最后通过对输入特征图与两个方向的特征图进行加权操作得到输出;所述3×3分支仅堆叠单个卷积核大小为3×3的卷积,并添加归一化层和激活函数;所述空间注意力对输入特征分别进行全局最大池化和平均池化,并将得到的两个特征图进行拼接,然后通过卷积核大小为7×7的卷积和sigmoid激活函数得到空间注意力的特征图。
进一步地,所述尺度适应性膨胀卷积模块包括三个分支;第一个分支包括一个卷积核大小为1×1的卷积层和一个膨胀率为3,步长为1,填充为3的3×3空洞卷积层;第二个分支包括一个卷积核大小为1×1的卷积层、一个卷积核大小为3×3的卷积层以及一个膨胀率为6,步长为1,填充为6的3×3空洞卷积层;第三个分支包括一个卷积核大小为1×1的卷积层、两个卷积核大小为3×3的卷积层以及一个膨胀率为9,步长为1,填充为9的3×3空洞卷积层;第一个分支的输入与其输出的特征图进行维度的拼接,以成为第二个分支的输入特征图;第二个分支的输入与其输出的特征图进行维度的拼接,以成为第三个分支的输入特征图;将三个分支最后输出的特征图与第一个分支的输入特征图进行拼接并输入到卷积核大小为1×1的卷积层。
进一步地,所述步骤4模型的损失函数包含置信度损失、类别损失、定位损失;损失函数的计算公式如下:
其中代表总计的损失,/>、/>、/>分别表示置信度损失、类别损失、定位损失;为平衡损失,在不同的损失前增加各自的权重,依次是/>、/>、/>;采用SIoU损失函数来计算定位损失,可以较好地反映长与宽的真实差异,其计算公式如下:
其中IoU为预测框与真实框的交并比,是距离损失,/>是形状损失;交叉熵损失函数用来计算置信度损失和类别损失,其计算公式如下:
其中L代表标签置信度,P代表预测置信度。
进一步地,所述遥感图像目标检测模型采用随机梯度下降法训练网络,初始学习率、动量、权重衰减和批量大小分别设置为0.01、0.937、0.0005和4。
相对于现有技术,本发明的优点和积极效果在于:本发明在基准模型YOLOv7的基础上,提出了渐进特征平滑模块来加强了对目标的准确定位和精确分类,平滑的融合深层与浅层特征图,保留丰富的语义信息,提高目标的检测性能;本发明设计了一种融合空间信息和维度信息的跨通道交互位置感知模块提高了对目标的敏感性,使模型建立全局空间位置的相互联系,更加关注目标区域;本发明构建了尺度适应性膨胀卷积模块增强对不同尺度目标的感知能力,进一步扩大感受野并增强了细节特征的提取和定位,同时也丰富了全局信息的获取;为加快模型的收敛速度,本发明采用SIoU损失函数作为定位损失;本发明的遥感图像目标检测模型在大尺度遥感图像中获得了卓越的检测效果。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明遥感图像目标检测方法的整体流程图;
图2为本发明遥感图像目标检测方法的完整模型结构示意图;
图3为本发明遥感图像目标检测方法中渐进特征平滑模块的结构示意图;
图4为本发明遥感图像目标检测方法中跨通道交互位置感知模块的结构示意图;
图5为本发明遥感图像目标检测方法中尺度适应性膨胀卷积模块的结构示意图;
图6为本发明遥感图像目标检测方法的检测流程图。
具体实施方式
为了便于本领域技术人员的理解,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行进一步说明,实施方式提及的内容并非对本发明的限定。
如图1所示,本发明一种基于渐进特征平滑和尺度适应性膨胀卷积的遥感图像目标检测方法,步骤如下:
步骤1:获取光学遥感图像目标检测数据集;
步骤2:对遥感图像数据集进行预处理;
其中,所述步骤2中DIOR数据集xml的标签文件转换为适合YOLOv7训练的txt格式;
数据集包括23463张光学图像和192472个目标实例,按照1:1:2地比例划分为训练集、验证集、测试集,并对DIOR数据集采用平移、翻转和Mosaic方法进行数据增强。
步骤3:建立遥感图像目标检测模型;
其中,所述步骤3遥感图像目标检测模型,如图2所示,包括:特征提取网络、渐进特征平滑模块、跨通道交互位置感知模块、特征增强网络、尺度适应性膨胀卷积模块、检测头。
如图2所示,所述遥感图像目标检测模型中,首先将经过预处理的遥感图像输入到预设的特征提取网络中,得到不同尺寸大小的特征图;然后,通过预设的跨通道交互位置感知模块对特征图进行特征增强,并通过预设的渐进特征平滑模块融合不同尺度特征;随后,利用预设的特征增强网络对得到不同尺度的平滑特征和增强特征进行多尺度特征融合;此外,将融合后的多尺度特征输入到尺度适应性膨胀卷积模块;最后将经过尺度适应性膨胀卷积模块的特征被输入到预设的检测头,进行多尺度目标检测;
如图3所示,所述渐进特征平滑模块对浅层特征图和深层特征图进行处理;对于浅层特征图,首先经过卷积层生成两个新的特征图。接着,将特征图A进行重塑并转置得到特征图/>,同时将特征图B进行重塑得到特征图/>。进一步地,将/>和/>进行点乘,点乘操作让特征图中的每个像素点都产生了联系,使得每个像素的特征表示更加连续,以捕捉更多的细节信息,有助于更精确地定位目标。最后,应用softmax激活函数对点乘后的结果进行非线性映射得到/>;对于深层特征图,同样先经过卷积层生成1个新的特征图/>。然后,将特征图C重塑后与特征图进行点乘操作,并将点乘的结果进行重塑得到特征图/>。最后,对F和/>进行适当的权重分配得到输出结果O,能够避免特征信息的突变,实现深浅层特征的平滑融合,这样设计既确保特征间的连贯性,又充分保留丰富的语义信息,有助于目标的准确分类。
如图4所示,进一步地,所述跨通道交互位置感知模块由坐标注意力、3×3分支和空间注意力三部分构成;首先将输入特征图分别按照宽度和高度进行全局平均池化,然后将得到的两个具有方向感知的特征图进行拼接并输入到1×1卷积中,并采用swish激活函数得到中间特征图,接着将中间特征图通过1×1卷积和sigmoid激活函数得到高度和宽度方向上的特征图,最后通过对输入特征图与两个方向的特征图进行加权操作得到输出,实现跨通道的信息交互;所述3×3分支仅堆叠单个卷积核大小为3×3的卷积,并添加归一化层和激活函数,得到输出/>,使其更好的适应复杂的上下文信息;所述空间注意力对输入特征分别进行全局最大池化和平均池化,并将得到的两个特征图进行拼接,然后通过卷积核大小为7×7的卷积和sigmoid激活函数得到空间注意力的特征图/>,从而增强对空间位置的交互;这三条分支在信息捕获和处理上形成互补,提高模型对遥感图像的适应性;跨通道交互位置感知模块的定义过程如下:
式中,表示跨通道交互位置感知模块的输出结果;/>表示坐标注意力的输出结果;/>表示3×3分支的输出结果;/>表示空间注意力的输出结果。
如图5所示,所述尺度适应性膨胀卷积模块引入最优膨胀系数的空洞卷积,进而获得足够大的感受野,增强模型对目标的感知能力;在保证特征图大小不变和模型鲁棒性稳定的的基础上,构建三个包含卷积和空洞卷积的分支;第一个分支包括一个卷积核大小为1×1的卷积层和一个膨胀率为3,步长为1,填充为3的3×3空洞卷积层;第二个分支包括一个卷积核大小为1×1的卷积层、一个卷积核大小为3×3的卷积层以及一个膨胀率为6,步长为1,填充为6的3×3空洞卷积层;第三个分支包括一个卷积核大小为1×1的卷积层、两个卷积核大小为3×3的卷积层以及一个膨胀率为9,步长为1,填充为9的3×3空洞卷积层;第一个分支的输入与其输出的特征图进行维度的拼接,以成为第二个分支的输入特征图;第二个分支的输入与其输出的特征图进行维度的拼接,以成为第三个分支的输入特征图,这样可以得到更多的感受野种类,强化对多尺度目标的感知;将三个分支最后输出的特征图与第一个分支的输入特征图进行拼接并输入到卷积核大小为1×1的卷积层,以增强细节特征提取,同时丰富全局信息的获取。
步骤4:利用所述数据集的训练集进行模型的训练,构建损失函数更新模型的参数,并引入SIoU定位损失函数加快模型的收敛速度,得到最优的模型;
其中,所述步骤4模型的损失函数包含置信度损失、类别损失、定位损失;损失函数的计算公式如下:
其中代表总计的损失,/>、/>、/>分别表示置信度损失、类别损失、定位损失。为平衡损失,在不同的损失前增加各自的权重,依次是/>、/>、/>。采用SIoU损失函数来计算定位损失,可以较好地反映长与宽的真实差异,其计算公式如下:
其中IoU为预测框与真实框的交并比,是距离损失,/>是形状损失;交叉熵损失函数用来计算置信度损失和类别损失,其计算公式如下:
其中L代表标签置信度,P代表预测置信度。
进一步地,所述遥感图像目标检测模型采用随机梯度下降法训练网络,初始学习率、动量、权重衰减和批量大小分别设置为0.01、0.937、0.0005和4;在训练过程中,DIOR数据集输入图像的分辨率为800×800;检测流程如图6所示。
步骤5:利用最优的模型来检测所述数据集的测试集图像,得到最终测试结果。
以上所述为本发明的具体实施例。需要说明的是,本发明并不仅局限上述特定实施方式。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应纳入在本发明的保护范围之内。

Claims (8)

1.一种基于渐进特征平滑和尺度适应性膨胀卷积的遥感图像目标检测方法,其特征在于,所述方法包括:
步骤1:获取遥感图像目标检测所需的数据集;
步骤2:对遥感图像数据集进行预处理,转换为适合YOLOv7训练的txt格式并进行数据集的划分和数据增强;
步骤3:建立基于渐进特征平滑和尺度适应性膨胀卷积的遥感图像目标检测模型,所述目标检测模型如下:
步骤3-1:将经过预处理的遥感图像输入到预设的特征提取网络中,生成不同尺寸的特征图;
步骤3-2:通过预设的跨通道交互位置感知模块对特征图进行特征增强,产生更富辨别性的特征,使模型更专注重要的特征信息;
步骤3-3:通过预设的渐进特征平滑模块平滑地融合深层和浅层特征图,确保特征间的连贯性;
步骤3-4:利用预设的特征增强网络对得到不同尺度的平滑特征和增强特征进行多尺度特征融合;
步骤3-5:将融合后的多尺度特征输入到尺度适应性膨胀卷积模块,以捕获目标的局部信息和全局信息,提高特征信息的利用率;
步骤3-6:将经过尺度适应性膨胀卷积模块的特征输入到预设的检测头,实现多尺度目标检测;
步骤4:利用所述数据集的训练集对模型进行训练,并引入SIoU定位损失函数加快模型的收敛速度,得到最优模型;
步骤5:利用最优模型来测试所述数据集的测试集图像,得到最终测试结果。
2.根据权利要求1所述的一种基于渐进特征平滑和尺度适应性膨胀卷积的遥感图像目标检测方法,其特征在于:所述跨通道交互位置感知模块采用并行结构建立跨通道和跨空间的信息交互,提高特征提取的效率以及模型对目标的敏感性;第一条分支采用平均池化和1×1卷积将水平方向和垂直方向的位置信息嵌入到通道注意力中,实现跨通道的信息交互;第二条分支沿通道方向执行最大池化和平均池化操作后进行拼接,并应用softmax激活函数引入非线性表达,从而增强对空间位置的交互;同时,为获取多尺度信息,第三条分支通过堆叠3×3卷积层来捕获多尺度信息,并添加归一化层和激活函数来提高模型的稳定性,并使其更好地适应复杂的上下文信息;这三条分支在信息捕获和处理上形成互补,提高模型对遥感图像的适应性;最后融合三条分支的输出特征。
3.根据权利要求1所述的一种基于渐进特征平滑和尺度适应性膨胀卷积的遥感图像目标检测方法,其特征在于:所述渐进特征平滑模块通过逐像素相乘的方法计算浅层特征图像素之间的关系,使得每个像素的特征表示更加连续,以捕捉更多的细节信息,有助于更精确地定位目标;同时通过应用softmax激活函数对浅层特征图计算的结果引入非线性因素消除特征之间的突变,增强模型的表达能力;为克服不同尺度特征图之间的语义差异,通过将经过激活函数的浅层特征输出结果与深层特征图进行适当的权重分配,能够避免特征信息的突变,实现深层与浅层特征图的平滑融合,这样设计既确保特征间的连贯性,又充分保留丰富的语义信息,有助于目标的准确分类。
4.根据权利要求1所述的一种基于渐进特征平滑和尺度适应性膨胀卷积的遥感图像目标检测方法,其特征在于:所述尺度适应性膨胀卷积模块中,为了更好地适应多尺度遥感图像,引入最优膨胀系数的空洞卷积,进而获得足够大的感受野,增强模型对目标的感知能力;同时,在保证特征图大小不变和模型鲁棒性稳定的的基础上,构建三个包含标准卷积和空洞卷积的分支,并将上一分支的输入特征图与输出特征图进行拼接,得到的新特征图作为下一分支的输入特征图,这样可以得到更多的感受野种类,强化对多尺度目标的感知;最后将三个分支的输出特征图与第一个分支的输入特征图进行拼接并经过1×1卷积得到最终的输出特征图,这样可以增强细节特征提取,同时丰富全局信息的获取。
5.根据权利要求2所述的一种基于渐进特征平滑和尺度适应性膨胀卷积的遥感图像目标检测方法,其特征在于:所述跨通道交互位置感知模块由坐标注意力、3×3分支和空间注意力三部分构成;所述坐标注意力将输入特征图分别按照宽度和高度进行全局平均池化,然后将得到的两个具有方向感知的特征图进行拼接并输入到1×1卷积中,并采用swish激活函数得到中间特征图,接着将中间特征图通过1×1卷积和sigmoid激活函数得到高度和宽度方向上的特征图,最后通过对输入特征图与两个方向的特征图进行加权操作;所述3×3分支仅堆叠单个卷积核大小为3×3的卷积,并添加归一化层和激活函数;所述空间注意力对输入特征分别进行全局最大池化和平均池化,并将得到的两个特征图进行拼接,然后通过卷积核大小为7×7的卷积和sigmoid激活函数得到空间注意力的特征图。
6.根据权利要求3所述的一种基于渐进特征平滑和尺度适应性膨胀卷积的遥感图像目标检测方法,其特征在于:所述渐进特征平滑模块对浅层特征图和深层特征图进行处理;对于浅层特征图,首先经过卷积层生成两个新的特征图A与B。接着,将特征图A进行重塑并转置得到特征图M,同时将特征图B进行重塑得到特征图V。进一步地,将M和V进行点乘,点乘操作让特征图中的每个像素点都产生了联系。最后,应用softmax激活函数对点乘后的结果进行非线性映射得到;对于深层特征图,同样先经过卷积层生成1个新的特征图C。然后,将特征图C重塑后与特征图/>进行点乘操作,并将点乘的结果进行重塑得到特征图F。最后,对F和/>进行逐元素求和得到输出结果O。
7.根据权利要求4所述的一种基于渐进特征平滑和尺度适应性膨胀卷积的遥感图像目标检测方法,其特征在于:所述尺度适应性膨胀卷积模块包括三个分支;第一个分支包括一个卷积核大小为1×1的卷积层和一个膨胀率为3,步长为1,填充为3的3×3空洞卷积层;第二个分支包括一个卷积核大小为1×1的卷积层、一个卷积核大小为3×3的卷积层以及一个膨胀率为6,步长为1,填充为6的3×3空洞卷积层;第三个分支包括一个卷积核大小为1×1的卷积层、两个卷积核大小为3×3的卷积层以及一个膨胀率为9,步长为1,填充为9的3×3空洞卷积层;第一个分支的输入与其输出的特征图进行维度的拼接,以成为第二个分支的输入特征图;第二个分支的输入与其输出的特征图进行维度的拼接,以成为第三个分支的输入特征图;最后将第一个分支的输入特征图与三个分支的输出特征图进行维度拼接并输入到卷积核大小为1×1的卷积层,得到最终的输出特征图。
8.根据权利要求1所述的一种基于渐进特征平滑和尺度适应性膨胀卷积的遥感图像目标检测方法,其特征在于:在遥感多类别多尺度目标场景中,跨通道交互位置感知模块、渐进特征平滑模块和尺度适应性膨胀卷积模块协同作用,提高模型对复杂场景的感知和处理能力;跨通道交互位置感知模块提高了对目标的敏感性;渐进特征平滑模块加强了对目标的准确定位和精确分类;而尺度适应性膨胀卷积模块则增强了对不同尺度目标的感知能力;这些模块的协同作用使得模型在遥感图像目标检测中更具鲁棒性和泛化能力,能够处理多类别多尺度目标,提高检测准确性和鲁棒性。
CN202311765955.1A 2023-12-21 2023-12-21 一种基于渐进特征平滑和尺度适应性膨胀卷积的遥感图像目标检测方法 Active CN117612029B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311765955.1A CN117612029B (zh) 2023-12-21 2023-12-21 一种基于渐进特征平滑和尺度适应性膨胀卷积的遥感图像目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311765955.1A CN117612029B (zh) 2023-12-21 2023-12-21 一种基于渐进特征平滑和尺度适应性膨胀卷积的遥感图像目标检测方法

Publications (2)

Publication Number Publication Date
CN117612029A true CN117612029A (zh) 2024-02-27
CN117612029B CN117612029B (zh) 2024-05-24

Family

ID=89957988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311765955.1A Active CN117612029B (zh) 2023-12-21 2023-12-21 一种基于渐进特征平滑和尺度适应性膨胀卷积的遥感图像目标检测方法

Country Status (1)

Country Link
CN (1) CN117612029B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287927A (zh) * 2019-07-01 2019-09-27 西安电子科技大学 基于深度多尺度和上下文学习的遥感影像目标检测方法
CN113657326A (zh) * 2021-08-24 2021-11-16 陕西科技大学 一种基于多尺度融合模块和特征增强的杂草检测方法
CN113780152A (zh) * 2021-09-07 2021-12-10 北京航空航天大学 一种基于目标感知的遥感图像船只小目标检测方法
CN115410081A (zh) * 2022-08-10 2022-11-29 南京信息工程大学 一种多尺度聚合的云和云阴影辨识方法、***、设备及存储介质
CN115861951A (zh) * 2022-11-27 2023-03-28 石家庄铁道大学 一种基于双特征提取网络的复杂环境车道线精准检测方法
WO2023056889A1 (zh) * 2021-10-09 2023-04-13 百果园技术(新加坡)有限公司 模型训练和场景识别方法、装置、设备及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287927A (zh) * 2019-07-01 2019-09-27 西安电子科技大学 基于深度多尺度和上下文学习的遥感影像目标检测方法
CN113657326A (zh) * 2021-08-24 2021-11-16 陕西科技大学 一种基于多尺度融合模块和特征增强的杂草检测方法
CN113780152A (zh) * 2021-09-07 2021-12-10 北京航空航天大学 一种基于目标感知的遥感图像船只小目标检测方法
WO2023056889A1 (zh) * 2021-10-09 2023-04-13 百果园技术(新加坡)有限公司 模型训练和场景识别方法、装置、设备及介质
CN115410081A (zh) * 2022-08-10 2022-11-29 南京信息工程大学 一种多尺度聚合的云和云阴影辨识方法、***、设备及存储介质
CN115861951A (zh) * 2022-11-27 2023-03-28 石家庄铁道大学 一种基于双特征提取网络的复杂环境车道线精准检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨雅茹 等: "浅层特征融合引导的深层网络行人检测", 计算机工程与应用, no. 02, 29 February 2020 (2020-02-29), pages 201 - 205 *

Also Published As

Publication number Publication date
CN117612029B (zh) 2024-05-24

Similar Documents

Publication Publication Date Title
CN110276316B (zh) 一种基于深度学习的人体关键点检测方法
CN110163187A (zh) 基于f-rcnn的远距离交通标志检测识别方法
CN110163836A (zh) 基于深度学习用于高空巡检下的挖掘机检测方法
US20230260255A1 (en) Three-dimensional object detection framework based on multi-source data knowledge transfer
CN110309747A (zh) 一种支持多尺度快速深度行人检测模型
CN113255589B (zh) 一种基于多卷积融合网络的目标检测方法及***
CN113313082B (zh) 一种基于多任务损失函数的目标检测方法及***
CN105930812A (zh) 一种基于融合特征稀疏编码模型的车辆品牌类型识别方法
CN111079604A (zh) 面向大尺度遥感图像的微小目标快速检测方法
CN109635726B (zh) 一种基于对称式深度网络结合多尺度池化的滑坡识别方法
Song et al. A novel sky image-based solar irradiance nowcasting model with convolutional block attention mechanism
CN115223017B (zh) 一种基于深度可分离卷积的多尺度特征融合桥梁检测方法
CN111061897B (zh) 一种适于电网高分辨遥感图像多尺度自动截取与分类方法
CN113902792A (zh) 基于改进RetinaNet网络的建筑物高度检测方法、***和电子设备
CN111814696A (zh) 一种基于改进YOLOv3的视频船舶目标检测方法
Baoyuan et al. Research on object detection method based on FF-YOLO for complex scenes
CN113361528B (zh) 一种多尺度目标检测方法及***
CN112668662B (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
Li et al. Multiscale cross-modal homogeneity enhancement and confidence-aware fusion for multispectral pedestrian detection
Ke et al. Haze removal from a single remote sensing image based on a fully convolutional neural network
CN117788810A (zh) 一种无监督语义分割的学习***
CN117612029B (zh) 一种基于渐进特征平滑和尺度适应性膨胀卷积的遥感图像目标检测方法
CN115439741A (zh) 基于人工智能与单目视觉的电力设备检测、测距及预警方法
Ma PANet: parallel attention network for remote sensing image semantic segmentation
CN114399728A (zh) 一种雾天场景人群计数方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant