CN111860171A - 一种大规模遥感图像中不规则形状目标的检测方法及*** - Google Patents
一种大规模遥感图像中不规则形状目标的检测方法及*** Download PDFInfo
- Publication number
- CN111860171A CN111860171A CN202010567183.0A CN202010567183A CN111860171A CN 111860171 A CN111860171 A CN 111860171A CN 202010567183 A CN202010567183 A CN 202010567183A CN 111860171 A CN111860171 A CN 111860171A
- Authority
- CN
- China
- Prior art keywords
- input image
- remote sensing
- network
- layer
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Astronomy & Astrophysics (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种大规模遥感图像中不规则形状目标的检测方法及***,包括:获取待检测遥感图像;将所述待检测遥感图像输入至预先训练的不规则形状目标检测网络,通过注意力机制捕获图像中目标物体的所在区域,给予高度关注,再利用可变形卷积对物体进行特征提取,提取丰富的可变形物体的特征,最后使用特征金字塔网络对浅层特征进行增强,以及全卷积神经网络对目标进行分类和回归,输出所述待检测遥感图像中的目标对应检测结果;本发明提供的技术方案中全部由卷积操作完成,不需要预先设定的回归框,目标识别过程中不需要物体具有明显的几何特征,简单高效,在处理形状不规则的非刚性物体方面精度和速度都有很大提升。
Description
技术领域
本发明涉及计算机视觉领域,具体涉及一种大规模遥感图像中不规则形状目标的检测方法及***。
背景技术
现有的目标检测技术主要面向的是刚性物体,刚性物体往往具有统一的形状特征,这使得网络可以通过学习目标物体的形状达到检测的目的。但是在现实生活中还存在许多非刚性物体,同一类别之内形状差异巨大,没有明显的几何特征。这些使得现有的目标检测技术检测非刚性物体时遇到了两个巨大困难,一是特征提取模块无法提取丰富的形状不规则物体特征,二是无法同时对多种形状很好地回归。
首先在特征提取方面,卷积神经网络提出以后,在图像分类、目标检测、语义分割等领域取得了巨大的进展,但是常规的卷积操作往往只能捕获局部特征,无法对形状变化较大的不规则物体进行有效建模。可变形卷积则解决了这个问题,可变形卷积对卷积核中的每个采样点的位置都增加了一个offset。通过这些offset,卷积核就可以在当前位置附近随意的采样,实现对不规则物体的建模。但是在没有辅助监督的情况下,可变形卷积往往会额外捕获目标物体周围的多余信息,影响物体的精确定位。
在检测方法上,现有的基于深度学习的目标检测方法主要分为Anchor base和Anchor free两大方向,Anchor base通过预先设定一些固定形状的anchor,然后通过两阶段检测器或一阶段检测器对预设的anchor进行位置调整达到检测的目的,但对于任意形状的目标检测而言少数的anchor尺寸难以覆盖各种形状的目标。Anchor free又可以分为基于关键点检测和基于FCN的方法,基于关键点检测的算法以Corner Net、Center Net为主,通过检测关键点然后对关键点聚类达到检测的效果。基于FCN的anchor free方法以FCOS、Fovea Box、FSAF为主,不需要预设的anchor通过全卷积神经网络直接进行目标框预测和分类,简单高效,适用于各种形状的目标检测。虽然Anchor free适用于各种形状的目标检测,但由于缺乏不规则物体有效的特征表示,检测结果还是不如人意,存在较大误差。
发明内容
针对现有技术的不足,本发明的目的是提供一种简单高效且在处理形状不规则的非刚性物体方面精度和速度都有很大提升的大规模遥感图像中不规则形状目标的检测方法及***;
本发明的目的是采用下述技术方案实现的:
本发明提供了一种大规模遥感图像中不规则形状目标的检测方法,其改进之处在于,所述方法包括:
获取待检测遥感图像;
将所述待检测遥感图像输入至预先训练的不规则形状目标检测网络,获取所述预先训练的不规则形状目标检测网络输出的所述待检测遥感图像中的目标对应检测结果;
基于所述待检测遥感图像中的目标对应检测结果实现所述待检测遥感图像中的目标的目标识别。
优选的,所述预先训练的不规则形状目标检测模型的获取过程包括:
步骤1.人工标注遥感图像数据中遥感图像的检测目标的类别和边界框;
步骤2.将所述遥感图像数据划分为训练数据和测试数据;
步骤3.利用所述训练数据和测试数据对初始不规则形状目标检测网络进行训练,并将训练完成的初始不规则形状目标检测网络为所述预先训练的不规则形状目标检测网络。
进一步的,所述初始不规则形状目标检测网络包括:基础卷积神经网络、注意力模块、第一可变形卷积神经网络、第二可变形卷积神经网络、第一特征金字塔网络、第二特征金字塔网络、第三特征金字塔网络和全卷积神经网络;
所述基础卷积神经网络,用于提取输入图像的第一层特征;
所述注意力模块,用于基于所述输入图像的第一层特征提取输入图像的第二层特征;
所述第一可变形卷积神经网络,用于基于所述输入图像的第二层特征提取输入图像的第三层特征;
所述第二可变形卷积神经网络,用于基于所述输入图像的第三层特征提取输入图像的第四层特征;
所述第一特征金字塔网络,用于当所述输入图像各像素的回归距离最大值在0-32之间时,将所述输入图像的第四层特征经过1×1卷积执行卷积操作后得到第一降维特征,并将所述第一降维特征经过3×3卷积执行卷积操作;
所述第二特征金字塔网络,用于当所述输入图像各像素的回归距离最大值在32-128之间时,将所述输入图像的第三层特征经过1×1卷积执行卷积操作后得到第二降维特征,将所述第一降维特征通过2倍上采样与所述第二降维特征融合得到第一融合特征,并将所述第一融合特征经过3×3卷积执行卷积操作;
所述第三特征金字塔网络,用于当所述输入图像各像素的回归距离最大值在128-∞之间时,将所述输入图像的第二层特征经过1×1卷积执行卷积操作后得到第三降维特征,将所述第二降维特征通过2倍上采样与所述第三降维特征融合得到第二融合特征,并将所述第二融合特征经过3×3卷积执行卷积操作;
所述全卷积神经网络,用于分别对第一特征金字塔网络的输出特征、第二特征金字塔网络的输出特征和第三特征金字塔网络的输出特征进行分类回归。
进一步的,所述基础卷积神经网络具体用于:
按下式提取输入图像中每一空间点p对应第一层特征中的特征y1p:
上式中,xp为输入图像中空间点p的像素坐标值,K为卷积操作所需的空间采样点总数,wk为卷积操作的第k个空间采样点的权重,pk为对应于空间点p的第k个空间采样点的偏移量,p∈P,P为输入图像中空间点的集合。
进一步的,所述注意力模块具体用于:
将所述输入图像的第一层特征依次通过1×1卷积执行卷积操作、soft-max函数执行归一化操作,得到HW×1×1的矩阵;
将所述输入图像的第一层特征与所述HW×1×1的矩阵点乘进行加权,得到特征A;
将所述特征A依次通过1×1卷积执行卷积操作、Relu函数执行非线性操作以及1×1卷积执行卷积操作,得到特征B;
将所述输入图像的第一层特征与所述特征B相加,得到所述输入图像的第二层特征;
其中,H为所述输入图像的第一层特征的高度,W为所述输入图像的第一层特征的宽度。
进一步的,所述第一可变形卷积神经网络具体用于:
按下式提取输入图像中空间点p对应的第三层特征y3p:
所述第二可变形卷积神经网络具体用于:
按下式提取输入图像中空间点p对应的第四层特征y4p:
上式中,K为卷积操作所需的空间采样点总数,wk为卷积操作的第k个空间采样点的权重,pk为对应于空间点p的第k个空间采样点的偏移量,Δpk为对应于空间点p的第k个空间采样点的额外偏置,y2p为输入图像中空间点p对应的第二层特征,p∈P,P为输入图像中空间点的集合。
进一步的,按下式确定所述输入图像第i各像素的回归距离Li:
Li=max(li,ti,ri,bi)
上式中,li为所述输入图像中第i个像素的横坐标与输入图像标定的检测框左上顶点的横坐标间的距离,ti为所述输入图像中第i个像素的纵坐标与输入图像标定的检测框左上顶点的纵坐标间的距离,ri为所述输入图像中第i个像素的横坐标与输入图像标定的检测框右下顶点的横坐标间的距离,bi为,所述输入图像中第i个像素的纵坐标与输入图像标定的检测框右下顶点的纵坐标间的距离。
进一步的,按下式确定所述li、ti、ri和bi:
上式中,xi为所述输入图像中第i个像素的横坐标,yi为所述输入图像中第i个像素的纵坐标,x0为所述输入图像标定的检测框左上顶点坐标的横坐标,y0为所述输入图像标定的检测框左上顶点坐标的纵坐标,x0′为所述输入图像标定的检测框右下顶点的横坐,y0′为所述输入图像标定的检测框右下顶点的纵坐。
基于同一发明构思,本发明还提供了一种大规模遥感图像中不规则形状目标的检测***,其改进之处在于,所述***包括:
获取模块,用于获取待检测遥感图像;
检测模块,用于将所述待检测遥感图像输入至预先训练的不规则形状目标检测网络,获取所述预先训练的不规则形状目标检测网络输出的所述待检测遥感图像中的目标对应检测结果;
识别模块,用于基于所述待检测遥感图像中的目标对应检测结果实现所述待检测遥感图像中的目标的目标识别。
与最接近的现有技术相比,本发明具有的有益效果:
为了解决现有技术中只针对规则的刚性物体的问题,本发明提供了一种不规则形状目标的检测技术方案,该方案通过将待检测遥感图像输入至预先训练的不规则形状目标检测网络,获取所述预先训练的不规则形状目标检测网络输出的所述待检测遥感图像中的目标对应检测结果,最后基于所述待检测遥感图像中的目标对应检测结果实现所述待检测遥感图像中的目标的目标识别,相比于现有技术中的目标检测方法,本发明提供的技术方案简单高效,在处理形状不规则的非刚性物体方面精度和速度都有很大提升。
进一步的,本发明提供的技术方案中不规则形状目标检测网络在特征提取阶段通过注意力机制捕获图像中目标物体的所在区域,给予高度关注,再利用可变形卷积对物体进行特征提取。相比于其他特征提取方法本发明可以提取丰富的可变形物体的特征,更适合不规则物体。在检测阶段通过特征金字塔网络对浅层特征进行增强,对不同尺度的不规则物体分层处理,在每个特征层上使用基于全卷积神经网络对目标直接进行分类和回归,实现目标的提取。这种目标检测方式不需要预先定义的滑动框,通过卷积从数据中学习物体的形状,更适合形状多变的不规则物体的边界框回归,此外所有的操作均由卷积完成,在处理任意物体检测方面精度和速度都有很大提升。
附图说明
图1是本发明提供的一种大规模遥感图像中不规则形状目标的检测方法流程图;
图2是本发明实施例中不规则形状目标检测模型结构示意图;
图3是本发明实施例中基础卷积神经网络结构示意图;
图4是本发明实施例中注意力模块结构示意图;
图5是本发明实施例中可变形卷积神经网络结构示意图;
图6是本发明提供的一种大规模遥感图像中不规则形状目标的检测***的结构示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为了解决现有技术中只针对规则的刚性物体的问题,本发明提供了一种大规模遥感图像中不规则形状目标的检测方法,如图1所示,包括:
101获取待检测遥感图像;
102将所述待检测遥感图像输入至预先训练的不规则形状目标检测网络,获取所述预先训练的不规则形状目标检测网络输出的所述待检测遥感图像中的目标对应检测结果;
103基于所述待检测遥感图像中的目标对应检测结果实现所述待检测遥感图像中的目标的目标识别。
其中,所述预先训练的不规则形状目标检测模型的获取过程包括:
步骤1.人工标注遥感图像数据中遥感图像的检测目标的类别和边界框;
步骤2.将所述遥感图像数据划分为训练数据和测试数据;
步骤3.利用所述训练数据和测试数据对初始不规则形状目标检测网络进行训练,并将训练完成的初始不规则形状目标检测网络为所述预先训练的不规则形状目标检测网络。
本发明提供的实施例中,在所述初始不规则形状目标检测网络的构建过程中,为了解决提取不规则物体特征的问题考虑了注意力机制,注意力机制最早应用在自然语言处理领域,后来在计算机视觉领域也表现出了强大的生命力,它可以使网络聚焦在感兴趣的目标周围使得网络更好的训练,本发明将注意力机制与可变形卷积相结合可以很好地提取不规则物体特征,通过注意力机制捕获图像中目标物体的所在区域,给予高度关注;再利用可变形卷积对物体进行特征提取,提取丰富的可变形物体的特征。然后通过特征金字塔网络对浅层特征进行增强,最后使用全卷积神经网络对目标进行分类和回归,实现目标的提取,在处理任意物体检测方面精度和速度都有很大提升。
具体的,如图2所示,所述初始不规则形状目标检测网络包括:基础卷积神经网络、注意力模块、第一可变形卷积神经网络、第二可变形卷积神经网络、第一特征金字塔网络、第二特征金字塔网络、第三特征金字塔网络和全卷积神经网络;
所述基础卷积神经网络,用于提取输入图像的第一层特征;
所述注意力模块,用于基于所述输入图像的第一层特征提取输入图像的第二层特征;
所述第一可变形卷积神经网络,用于基于所述输入图像的第二层特征提取输入图像的第三层特征;
所述第二可变形卷积神经网络,用于基于所述输入图像的第三层特征提取输入图像的第四层特征;
所述第一特征金字塔网络,用于当所述输入图像各像素的回归距离最大值在0-32之间时,将所述输入图像的第四层特征经过1×1卷积执行卷积操作后得到第一降维特征,并将所述第一降维特征经过3×3卷积执行卷积操作;
所述第二特征金字塔网络,用于当所述输入图像各像素的回归距离最大值在32-128之间时,将所述输入图像的第三层特征经过1×1卷积执行卷积操作后得到第二降维特征,将所述第一降维特征通过2倍上采样与所述第二降维特征融合得到第一融合特征,并将所述第一融合特征经过3×3卷积执行卷积操作;
所述第三特征金字塔网络,用于当所述输入图像各像素的回归距离最大值在128-∞之间时,将所述输入图像的第二层特征经过1×1卷积执行卷积操作后得到第三降维特征,将所述第二降维特征通过2倍上采样与所述第三降维特征融合得到第二融合特征,并将所述第二融合特征经过3×3卷积执行卷积操作;
所述全卷积神经网络,用于分别对第一特征金字塔网络的输出特征、第二特征金字塔网络的输出特征和第三特征金字塔网络的输出特征进行分类回归。
进一步的,本发明提供的实施例中,基础卷积神经网络采用一系列常规卷积进行初步的特征提取,常规卷积层以一系列基于图3的残差模块组成,残差模块通过引入shortcut分支使得网络大大加深,提高了现有网络的精度。每一个残差模块由1×1和3×3卷积组成,以3×3卷积为例,其卷积操作所需的空间采样点总数K=9,则所述基础卷积神经网络具体用于:
按下式提取输入图像中每一空间点p对应第一层特征中的特征y1p:
上式中,xp为输入图像中空间点p的像素坐标值,K为卷积操作所需的空间采样点总数,wk为卷积操作的第k个空间采样点的权重,pk为对应于空间点p的第k个空间采样点的偏移量,p∈P,P为输入图像中空间点的集合,其中,pk∈{(-1,-1),(-1,0),...,(1,1)}。
在所述基础卷积神经网络之后,利用注意力机制,将网络的关注区域集中在目标物体周围,本发明提供的实施例中,所述注意力模块基于所述输入图像的第一层特征提取输入图像的第二层特征的具体过程可以通过下述方法实现:
a.利用上下文模块计算空间各点重要程度。
b.利用变换模块对输入特征进行变换。
具体的,所述注意力模块结构示意图如图4所示,所述步骤a中,假设所述输入图像的第一层特征的尺寸为H×W,将所述输入图像的第一层特征作为输入,通过1×1卷积以及soft-max函数进行归一化得到HW×1×1的矩阵用于表示空间各点的重要程度,然后将这个重要程度和所述输入图像的第一层特征通过点乘进行加权得到特征A,使网络更加关注空间中包含目标物体的像素点,对背景区域进行抑制;
基于此,所述步骤b中,首先对所述特征A压缩进一步降低计算量,另一方面加入relu等非线性函数进一步提高性能,因此,在所述步骤b中,将所述特征A依次通过1×1卷积执行卷积操作、Relu函数执行非线性操作以及1×1卷积执行卷积操作,得到特征B;将所述输入图像的第一层特征与所述特征B相加,得到所述输入图像的第二层特征,其中,H为所述输入图像的第一层特征的高度,W为所述输入图像的第一层特征的宽度。
提取输入图像的第二层特征之后,本发明提供的技术方案使用可变形卷积对网络关注区域的不规则物体进行特征提取,如图5所示,相比于常规卷积,可变形卷积对每一个采样点p施加额外的偏置Δpk来对物体的形状进行建模,多个可变形卷积层的级联可以充分捕获物体的尺度以及形状信息,具体的,所述第一可变形卷积神经网络具体用于:
按下式提取输入图像中空间点p对应的第三层特征y3p:
所述第二可变形卷积神经网络具体用于:
按下式提取输入图像中空间点p对应的第四层特征y4p:
上式中,K为卷积操作所需的空间采样点总数,wk为卷积操作的第k个空间采样点的权重,pk为对应于空间点p的第k个空间采样点的偏移量,Δpk为对应于空间点p的第k个空间采样点的额外偏置,y2p为输入图像中空间点p对应的第二层特征,p∈P,P为输入图像中空间点的集合,y2p由取输入图像中空间点p对应的第一层特征y1p经过注意力模块得到。
对于上述网络提取的输入图像的第二层特征、第三层特征和第四层特征,本发明使用三级的特征金字塔结构对其进行多尺度特征融合,融合过程中,按下式确定所述输入图像第i各像素的回归距离Li:
Li=max(li,ti,ri,bi)
上式中,li为所述输入图像中第i个像素的横坐标与输入图像标定的检测框左上顶点的横坐标间的距离,ti为所述输入图像中第i个像素的纵坐标与输入图像标定的检测框左上顶点的纵坐标间的距离,ri为所述输入图像中第i个像素的横坐标与输入图像标定的检测框右下顶点的横坐标间的距离,bi为,所述输入图像中第i个像素的纵坐标与输入图像标定的检测框右下顶点的纵坐标间的距离。
其中,按下式确定所述li、ti、ri和bi:
上式中,xi为所述输入图像中第i个像素的横坐标,yi为所述输入图像中第i个像素的纵坐标,x0为所述输入图像标定的检测框左上顶点坐标的横坐标,y0为所述输入图像标定的检测框左上顶点坐标的纵坐标,x0′为所述输入图像标定的检测框右下顶点的横坐,y0′为所述输入图像标定的检测框右下顶点的纵坐。
最终,由所述全卷积神经网络分别对第一特征金字塔网络的输出特征、第二特征金字塔网络的输出特征和第三特征金字塔网络的输出特征进行分类回归。
本发明提供的实施例中,全卷积神经网络可以对于每一个特征图,其上每一个像素点需要输出类别分数score、回归坐标bbox、center-ness值,它们的维度分别为C、4和1,C是物体的类别个数,4是回归的目标(li,ti,ri,bi)的个数;
Center-ness表示点的中心度,用来抑制低质量边界框的产生,对于给定的一个位置的回归目标的(li,ti,ri,bi)而言,center-ness目标的定义如下所示:
预测的目标框含有较多低质量的框,一般来说越靠近物体中心预测的框越准确,中心度center-ness也越高,反之两者都较低。将center-ness与这一步的分类得分score相乘作为最终的得分从而起到筛选效果。
基于同一发明构思,本发明还提供了一种不规则形状目标的检测***,如图6所示,所述***包括:
获取模块,用于获取待检测遥感图像;
检测模块,用于将所述待检测遥感图像输入至预先训练的不规则形状目标检测网络,获取所述预先训练的不规则形状目标检测网络输出的所述待检测遥感图像中的目标对应检测结果;
识别模块,用于基于所述待检测遥感图像中的目标对应检测结果实现所述待检测遥感图像中的目标的目标识别。
优选的,所述预先训练的不规则形状目标检测模型的获取过程包括:
步骤1.人工标注遥感图像数据中遥感图像的检测目标的类别和边界框;
步骤2.将所述遥感图像数据划分为训练数据和测试数据;
步骤3.利用所述训练数据和测试数据对初始不规则形状目标检测网络进行训练,并将训练完成的初始不规则形状目标检测网络为所述预先训练的不规则形状目标检测网络。
进一步的,所述初始不规则形状目标检测网络包括:基础卷积神经网络、注意力模块、第一可变形卷积神经网络、第二可变形卷积神经网络、第一特征金字塔网络、第二特征金字塔网络、第三特征金字塔网络和全卷积神经网络;
所述基础卷积神经网络,用于提取输入图像的第一层特征;
所述注意力模块,用于基于所述输入图像的第一层特征提取输入图像的第二层特征;
所述第一可变形卷积神经网络,用于基于所述输入图像的第二层特征提取输入图像的第三层特征;
所述第二可变形卷积神经网络,用于基于所述输入图像的第三层特征提取输入图像的第四层特征;
所述第一特征金字塔网络,用于当所述输入图像各像素的回归距离最大值在0-32之间时,将所述输入图像的第四层特征经过1×1卷积执行卷积操作后得到第一降维特征,并将所述第一降维特征经过3×3卷积执行卷积操作;
所述第二特征金字塔网络,用于当所述输入图像各像素的回归距离最大值在32-128之间时,将所述输入图像的第三层特征经过1×1卷积执行卷积操作后得到第二降维特征,将所述第一降维特征通过2倍上采样与所述第二降维特征融合得到第一融合特征,并将所述第一融合特征经过3×3卷积执行卷积操作;
所述第三特征金字塔网络,用于当所述输入图像各像素的回归距离最大值在128-∞之间时,将所述输入图像的第二层特征经过1×1卷积执行卷积操作后得到第三降维特征,将所述第二降维特征通过2倍上采样与所述第三降维特征融合得到第二融合特征,并将所述第二融合特征经过3×3卷积执行卷积操作;
所述全卷积神经网络,用于分别对第一特征金字塔网络的输出特征、第二特征金字塔网络的输出特征和第三特征金字塔网络的输出特征进行分类回归。
进一步的,所述基础卷积神经网络具体用于:
按下式提取输入图像中每一空间点p对应第一层特征中的特征y1p:
上式中,xp为输入图像中空间点p的像素坐标值,K为卷积操作所需的空间采样点总数,wk为卷积操作的第k个空间采样点的权重,pk为对应于空间点p的第k个空间采样点的偏移量,p∈P,P为输入图像中空间点的集合。
进一步的,所述注意力模块具体用于:
将所述输入图像的第一层特征依次通过1×1卷积执行卷积操作、soft-max函数执行归一化操作,得到HW×1×1的矩阵;
将所述输入图像的第一层特征与所述HW×1×1的矩阵点乘进行加权,得到特征A;
将所述特征A依次通过1×1卷积执行卷积操作、Relu函数执行非线性操作以及1×1卷积执行卷积操作,得到特征B;
将所述输入图像的第一层特征与所述特征B相加,得到所述输入图像的第二层特征;
其中,H为所述输入图像的第一层特征的高度,W为所述输入图像的第一层特征的宽度。
进一步的,所述第一可变形卷积神经网络具体用于:
按下式提取输入图像中空间点p对应的第三层特征y3p:
所述第二可变形卷积神经网络具体用于:
按下式提取输入图像中空间点p对应的第四层特征y4p:
上式中,K为卷积操作所需的空间采样点总数,wk为卷积操作的第k个空间采样点的权重,pk为对应于空间点p的第k个空间采样点的偏移量,Δpk为对应于空间点p的第k个空间采样点的额外偏置,y2p为输入图像中空间点p对应的第二层特征,p∈P,P为输入图像中空间点的集合。
进一步的,按下式确定所述输入图像第i各像素的回归距离Li:
Li=max(li,ti,ri,bi)
上式中,li为所述输入图像中第i个像素的横坐标与输入图像标定的检测框左上顶点的横坐标间的距离,ti为所述输入图像中第i个像素的纵坐标与输入图像标定的检测框左上顶点的纵坐标间的距离,ri为所述输入图像中第i个像素的横坐标与输入图像标定的检测框右下顶点的横坐标间的距离,bi为,所述输入图像中第i个像素的纵坐标与输入图像标定的检测框右下顶点的纵坐标间的距离。
进一步的,按下式确定所述li、ti、ri和bi:
上式中,xi为所述输入图像中第i个像素的横坐标,yi为所述输入图像中第i个像素的纵坐标,x0为所述输入图像标定的检测框左上顶点坐标的横坐标,y0为所述输入图像标定的检测框左上顶点坐标的纵坐标,x0′为所述输入图像标定的检测框右下顶点的横坐,y0′为所述输入图像标定的检测框右下顶点的纵坐。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (9)
1.一种大规模遥感图像中不规则形状目标的检测方法,其特征在于,所述方法包括:
获取待检测遥感图像;
将所述待检测遥感图像输入至预先训练的不规则形状目标检测网络,获取所述预先训练的不规则形状目标检测网络输出的所述待检测遥感图像中的目标对应检测结果;
基于所述待检测遥感图像中的目标对应检测结果实现所述待检测遥感图像中的目标的目标识别。
2.如权利要求1所述的方法,其特征在于,所述预先训练的不规则形状目标检测模型的获取过程包括:
步骤1.人工标注遥感图像数据中遥感图像的检测目标的类别和边界框;
步骤2.将所述遥感图像数据划分为训练数据和测试数据;
步骤3.利用所述训练数据和测试数据对初始不规则形状目标检测网络进行训练,并将训练完成的初始不规则形状目标检测网络为所述预先训练的不规则形状目标检测网络。
3.如权利要求2所述的方法,其特征在于,所述初始不规则形状目标检测网络包括:基础卷积神经网络、注意力模块、第一可变形卷积神经网络、第二可变形卷积神经网络、第一特征金字塔网络、第二特征金字塔网络、第三特征金字塔网络和全卷积神经网络;
所述基础卷积神经网络,用于提取输入图像的第一层特征;
所述注意力模块,用于基于所述输入图像的第一层特征提取输入图像的第二层特征;
所述第一可变形卷积神经网络,用于基于所述输入图像的第二层特征提取输入图像的第三层特征;
所述第二可变形卷积神经网络,用于基于所述输入图像的第三层特征提取输入图像的第四层特征;
所述第一特征金字塔网络,用于当所述输入图像各像素的回归距离最大值在0-32之间时,将所述输入图像的第四层特征经过1×1卷积执行卷积操作后得到第一降维特征,并将所述第一降维特征经过3×3卷积执行卷积操作;
所述第二特征金字塔网络,用于当所述输入图像各像素的回归距离最大值在32-128之间时,将所述输入图像的第三层特征经过1×1卷积执行卷积操作后得到第二降维特征,将所述第一降维特征通过2倍上采样与所述第二降维特征融合得到第一融合特征,并将所述第一融合特征经过3×3卷积执行卷积操作;
所述第三特征金字塔网络,用于当所述输入图像各像素的回归距离最大值在128-∞之间时,将所述输入图像的第二层特征经过1×1卷积执行卷积操作后得到第三降维特征,将所述第二降维特征通过2倍上采样与所述第三降维特征融合得到第二融合特征,并将所述第二融合特征经过3×3卷积执行卷积操作;
所述全卷积神经网络,用于分别对第一特征金字塔网络的输出特征、第二特征金字塔网络的输出特征和第三特征金字塔网络的输出特征进行分类回归。
5.如权利要求3所述的方法,其特征在于,所述注意力模块具体用于:
将所述输入图像的第一层特征依次通过1×1卷积执行卷积操作、soft-max函数执行归一化操作,得到HW×1×1的注意力矩阵;
将所述输入图像的第一层特征与所述HW×1×1的注意力矩阵点乘进行加权,得到特征A;
将所述特征A依次通过1×1卷积执行卷积操作、Relu函数执行非线性操作以及1×1卷积执行卷积操作,得到特征B;
将所述输入图像的第一层特征与所述特征B相加,得到所述输入图像的第二层特征;
其中,H为所述输入图像的第一层特征的高度,W为所述输入图像的第一层特征的宽度。
7.如权利要求3所述的方法,其特征在于,按下式确定所述输入图像第i各像素的回归距离Li:
Li=max(li,ti,ri,bi)
上式中,li为所述输入图像中第i个像素的横坐标与输入图像标定的检测框左上顶点的横坐标间的距离,ti为所述输入图像中第i个像素的纵坐标与输入图像标定的检测框左上顶点的纵坐标间的距离,ri为所述输入图像中第i个像素的横坐标与输入图像标定的检测框右下顶点的横坐标间的距离,bi为,所述输入图像中第i个像素的纵坐标与输入图像标定的检测框右下顶点的纵坐标间的距离。
9.一种大规模遥感图像中不规则形状目标的检测***,其特征在于,所述***包括:
获取模块,用于获取待检测遥感图像;
检测模块,用于将所述待检测遥感图像输入至预先训练的不规则形状目标检测网络,获取所述预先训练的不规则形状目标检测网络输出的所述待检测遥感图像中的目标对应检测结果;
识别模块,用于基于所述待检测遥感图像中的目标对应检测结果实现所述待检测遥感图像中的目标的目标识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010567183.0A CN111860171B (zh) | 2020-06-19 | 2020-06-19 | 一种大规模遥感图像中不规则形状目标的检测方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010567183.0A CN111860171B (zh) | 2020-06-19 | 2020-06-19 | 一种大规模遥感图像中不规则形状目标的检测方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111860171A true CN111860171A (zh) | 2020-10-30 |
CN111860171B CN111860171B (zh) | 2021-03-23 |
Family
ID=72987003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010567183.0A Active CN111860171B (zh) | 2020-06-19 | 2020-06-19 | 一种大规模遥感图像中不规则形状目标的检测方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111860171B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112348187A (zh) * | 2020-11-11 | 2021-02-09 | 东软睿驰汽车技术(沈阳)有限公司 | 神经网络模型的训练方法、装置以及电子设备 |
CN112699856A (zh) * | 2021-03-24 | 2021-04-23 | 成都新希望金融信息有限公司 | 人脸装饰品识别方法、装置、电子设备及存储介质 |
CN113111719A (zh) * | 2021-03-16 | 2021-07-13 | 苏州海宸威视智能科技有限公司 | 基于重结构化类脑卷积的无人机视角下的车辆检测方法 |
CN113128353A (zh) * | 2021-03-26 | 2021-07-16 | 安徽大学 | 面向自然人机交互的情绪感知方法及其*** |
CN113221961A (zh) * | 2021-04-20 | 2021-08-06 | 山东师范大学 | 一种能够缓和表达瓶颈的目标果实检测方法及*** |
CN113239825A (zh) * | 2021-05-19 | 2021-08-10 | 四川中烟工业有限责任公司 | 一种复杂场景下高精度烟草甲虫检测方法 |
CN113378912A (zh) * | 2021-06-08 | 2021-09-10 | 长光卫星技术有限公司 | 一种基于深度学习目标检测的林区非法开垦地块检测方法 |
CN113420774A (zh) * | 2021-03-24 | 2021-09-21 | 成都理工大学 | 一种用于不规则图形的目标检测技术 |
CN114037832A (zh) * | 2021-12-17 | 2022-02-11 | 北京中宇瑞德建筑设计有限公司 | 一种卫星遥感图像中典型区域的提取方法及*** |
CN114418001A (zh) * | 2022-01-20 | 2022-04-29 | 北方工业大学 | 一种基于参数重构网络的字符识别方法及*** |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108510467A (zh) * | 2018-03-28 | 2018-09-07 | 西安电子科技大学 | 基于深度可变形卷积神经网络的sar图像目标识别方法 |
US10176382B1 (en) * | 2015-10-01 | 2019-01-08 | Hrl Laboratories, Llc | Method and apparatus for sparse associative recognition and recall for visual media reasoning |
CN109409443A (zh) * | 2018-11-28 | 2019-03-01 | 北方工业大学 | 一种基于深度学习的多尺度可变形卷积网络目标检测方法 |
CN109685813A (zh) * | 2018-12-27 | 2019-04-26 | 江西理工大学 | 一种自适应尺度信息的u型视网膜血管分割方法 |
CN109977952A (zh) * | 2019-03-27 | 2019-07-05 | 深动科技(北京)有限公司 | 基于局部最大值的候选目标检测方法 |
US20190354835A1 (en) * | 2018-05-17 | 2019-11-21 | International Business Machines Corporation | Action detection by exploiting motion in receptive fields |
CN110674866A (zh) * | 2019-09-23 | 2020-01-10 | 兰州理工大学 | 迁移学习特征金字塔网络对X-ray乳腺病灶图像检测方法 |
CN110705457A (zh) * | 2019-09-29 | 2020-01-17 | 核工业北京地质研究院 | 一种遥感影像建筑物变化检测方法 |
CN111126385A (zh) * | 2019-12-13 | 2020-05-08 | 哈尔滨工程大学 | 一种可变形活体小目标的深度学习智能识别方法 |
CN111160230A (zh) * | 2019-12-27 | 2020-05-15 | 清华大学苏州汽车研究院(吴江) | 一种基于深度学习的道路不规则区域检测网络 |
CN111242122A (zh) * | 2020-01-07 | 2020-06-05 | 浙江大学 | 一种轻量级深度神经网络旋转目标检测方法和*** |
-
2020
- 2020-06-19 CN CN202010567183.0A patent/CN111860171B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10176382B1 (en) * | 2015-10-01 | 2019-01-08 | Hrl Laboratories, Llc | Method and apparatus for sparse associative recognition and recall for visual media reasoning |
CN108510467A (zh) * | 2018-03-28 | 2018-09-07 | 西安电子科技大学 | 基于深度可变形卷积神经网络的sar图像目标识别方法 |
US20190354835A1 (en) * | 2018-05-17 | 2019-11-21 | International Business Machines Corporation | Action detection by exploiting motion in receptive fields |
CN109409443A (zh) * | 2018-11-28 | 2019-03-01 | 北方工业大学 | 一种基于深度学习的多尺度可变形卷积网络目标检测方法 |
CN109685813A (zh) * | 2018-12-27 | 2019-04-26 | 江西理工大学 | 一种自适应尺度信息的u型视网膜血管分割方法 |
CN109977952A (zh) * | 2019-03-27 | 2019-07-05 | 深动科技(北京)有限公司 | 基于局部最大值的候选目标检测方法 |
CN110674866A (zh) * | 2019-09-23 | 2020-01-10 | 兰州理工大学 | 迁移学习特征金字塔网络对X-ray乳腺病灶图像检测方法 |
CN110705457A (zh) * | 2019-09-29 | 2020-01-17 | 核工业北京地质研究院 | 一种遥感影像建筑物变化检测方法 |
CN111126385A (zh) * | 2019-12-13 | 2020-05-08 | 哈尔滨工程大学 | 一种可变形活体小目标的深度学习智能识别方法 |
CN111160230A (zh) * | 2019-12-27 | 2020-05-15 | 清华大学苏州汽车研究院(吴江) | 一种基于深度学习的道路不规则区域检测网络 |
CN111242122A (zh) * | 2020-01-07 | 2020-06-05 | 浙江大学 | 一种轻量级深度神经网络旋转目标检测方法和*** |
Non-Patent Citations (3)
Title |
---|
XIU CHEN 等: "Object Detection of Optical Remote Sensing Image Based on Improved Faster RCNN", 《2019 IEEE 5TH INTERNATIONAL CONFERENCE ON COMPUTER AND COMMUNICATIONS (ICCC)》 * |
刘华杰: "基于可变形卷积神经网络的目标检测", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
李红艳 等: "注意力机制改进卷积神经网络的遥感图像目标检测", 《中国图象图形学报》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112348187A (zh) * | 2020-11-11 | 2021-02-09 | 东软睿驰汽车技术(沈阳)有限公司 | 神经网络模型的训练方法、装置以及电子设备 |
CN113111719A (zh) * | 2021-03-16 | 2021-07-13 | 苏州海宸威视智能科技有限公司 | 基于重结构化类脑卷积的无人机视角下的车辆检测方法 |
CN112699856A (zh) * | 2021-03-24 | 2021-04-23 | 成都新希望金融信息有限公司 | 人脸装饰品识别方法、装置、电子设备及存储介质 |
CN113420774A (zh) * | 2021-03-24 | 2021-09-21 | 成都理工大学 | 一种用于不规则图形的目标检测技术 |
CN113128353A (zh) * | 2021-03-26 | 2021-07-16 | 安徽大学 | 面向自然人机交互的情绪感知方法及其*** |
CN113128353B (zh) * | 2021-03-26 | 2023-10-24 | 安徽大学 | 面向自然人机交互的情绪感知方法及其*** |
CN113221961A (zh) * | 2021-04-20 | 2021-08-06 | 山东师范大学 | 一种能够缓和表达瓶颈的目标果实检测方法及*** |
CN113239825A (zh) * | 2021-05-19 | 2021-08-10 | 四川中烟工业有限责任公司 | 一种复杂场景下高精度烟草甲虫检测方法 |
CN113378912A (zh) * | 2021-06-08 | 2021-09-10 | 长光卫星技术有限公司 | 一种基于深度学习目标检测的林区非法开垦地块检测方法 |
CN114037832A (zh) * | 2021-12-17 | 2022-02-11 | 北京中宇瑞德建筑设计有限公司 | 一种卫星遥感图像中典型区域的提取方法及*** |
CN114418001A (zh) * | 2022-01-20 | 2022-04-29 | 北方工业大学 | 一种基于参数重构网络的字符识别方法及*** |
CN114418001B (zh) * | 2022-01-20 | 2023-05-12 | 北方工业大学 | 一种基于参数重构网络的字符识别方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN111860171B (zh) | 2021-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111860171B (zh) | 一种大规模遥感图像中不规则形状目标的检测方法及*** | |
CN108416266B (zh) | 一种利用光流提取运动目标的视频行为快速识别方法 | |
CN111160269A (zh) | 一种人脸关键点检测方法及装置 | |
CN109034210A (zh) | 基于超特征融合与多尺度金字塔网络的目标检测方法 | |
CN107871101A (zh) | 一种人脸检测方法及装置 | |
CN111738344A (zh) | 一种基于多尺度融合的快速目标检测方法 | |
CN111753828A (zh) | 一种基于深度卷积神经网络的自然场景水平文字检测方法 | |
CN113762138B (zh) | 伪造人脸图片的识别方法、装置、计算机设备及存储介质 | |
CN107784288A (zh) | 一种基于深度神经网络的迭代定位式人脸检测方法 | |
Gao et al. | A Novel Deep Convolutional Neural Network Based on ResNet‐18 and Transfer Learning for Detection of Wood Knot Defects | |
CN110532946A (zh) | 一种基于卷积神经网络识别绿通车车辆轴型的方法 | |
CN112329771B (zh) | 一种基于深度学习的建筑材料样本识别方法 | |
CN110751195A (zh) | 一种基于改进YOLOv3的细粒度图像分类方法 | |
CN108986091A (zh) | 基于深度哈希网络的铸件缺陷图像检测方法 | |
Zhao et al. | Cbph-net: A small object detector for behavior recognition in classroom scenarios | |
CN116883393A (zh) | 一种基于无锚框目标检测算法的金属表面缺陷检测方法 | |
Li et al. | An improved PCB defect detector based on feature pyramid networks | |
CN115906786A (zh) | 煤质检测报告图像的表格自动化重建方法、存储介质及电子设备 | |
CN112633327B (zh) | 分阶段金属表面缺陷检测方法、***、介质、设备及应用 | |
Yuan et al. | GDCP-YOLO: Enhancing steel surface defect detection using lightweight machine learning approach | |
CN113344110A (zh) | 一种基于超分辨率重建的模糊图像分类方法 | |
Sheng et al. | Lightweight Food Image Recognition With Global Shuffle Convolution | |
Rungyaem et al. | The 3-dimensional Plant Organs Point Clouds Classification for the Phenotyping Application based on CNNs. | |
CN115983986B (zh) | 一种针对视频面审人像的衣着暴露等级识别方法 | |
Wang et al. | Multi-Scale Dynamic Convolution for Classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |