CN111860171A

CN111860171A - 一种大规模遥感图像中不规则形状目标的检测方法及***

Info

Publication number: CN111860171A
Application number: CN202010567183.0A
Authority: CN
Inventors: 孙显; 付琨; 闫志远; 刁文辉; 闫梦龙; 刘迎飞; 王佩瑾; 武斌; 李霁豪
Original assignee: Aerospace Information Research Institute of CAS
Current assignee: Aerospace Information Research Institute of CAS
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2020-10-30
Anticipated expiration: 2040-06-19
Also published as: CN111860171B

Abstract

本发明涉及一种大规模遥感图像中不规则形状目标的检测方法及***，包括：获取待检测遥感图像；将所述待检测遥感图像输入至预先训练的不规则形状目标检测网络，通过注意力机制捕获图像中目标物体的所在区域，给予高度关注，再利用可变形卷积对物体进行特征提取，提取丰富的可变形物体的特征，最后使用特征金字塔网络对浅层特征进行增强，以及全卷积神经网络对目标进行分类和回归，输出所述待检测遥感图像中的目标对应检测结果；本发明提供的技术方案中全部由卷积操作完成，不需要预先设定的回归框，目标识别过程中不需要物体具有明显的几何特征，简单高效，在处理形状不规则的非刚性物体方面精度和速度都有很大提升。

Description

一种大规模遥感图像中不规则形状目标的检测方法及***

技术领域

本发明涉及计算机视觉领域，具体涉及一种大规模遥感图像中不规则形状目标的检测方法及***。

背景技术

现有的目标检测技术主要面向的是刚性物体，刚性物体往往具有统一的形状特征，这使得网络可以通过学习目标物体的形状达到检测的目的。但是在现实生活中还存在许多非刚性物体，同一类别之内形状差异巨大，没有明显的几何特征。这些使得现有的目标检测技术检测非刚性物体时遇到了两个巨大困难，一是特征提取模块无法提取丰富的形状不规则物体特征，二是无法同时对多种形状很好地回归。

首先在特征提取方面，卷积神经网络提出以后，在图像分类、目标检测、语义分割等领域取得了巨大的进展，但是常规的卷积操作往往只能捕获局部特征，无法对形状变化较大的不规则物体进行有效建模。可变形卷积则解决了这个问题，可变形卷积对卷积核中的每个采样点的位置都增加了一个offset。通过这些offset，卷积核就可以在当前位置附近随意的采样，实现对不规则物体的建模。但是在没有辅助监督的情况下，可变形卷积往往会额外捕获目标物体周围的多余信息，影响物体的精确定位。

在检测方法上，现有的基于深度学习的目标检测方法主要分为Anchor base和Anchor free两大方向，Anchor base通过预先设定一些固定形状的anchor，然后通过两阶段检测器或一阶段检测器对预设的anchor进行位置调整达到检测的目的，但对于任意形状的目标检测而言少数的anchor尺寸难以覆盖各种形状的目标。Anchor free又可以分为基于关键点检测和基于FCN的方法，基于关键点检测的算法以Corner Net、Center Net为主，通过检测关键点然后对关键点聚类达到检测的效果。基于FCN的anchor free方法以FCOS、Fovea Box、FSAF为主，不需要预设的anchor通过全卷积神经网络直接进行目标框预测和分类，简单高效，适用于各种形状的目标检测。虽然Anchor free适用于各种形状的目标检测，但由于缺乏不规则物体有效的特征表示，检测结果还是不如人意，存在较大误差。

发明内容

针对现有技术的不足，本发明的目的是提供一种简单高效且在处理形状不规则的非刚性物体方面精度和速度都有很大提升的大规模遥感图像中不规则形状目标的检测方法及***；

本发明的目的是采用下述技术方案实现的：

本发明提供了一种大规模遥感图像中不规则形状目标的检测方法，其改进之处在于，所述方法包括：

获取待检测遥感图像；

将所述待检测遥感图像输入至预先训练的不规则形状目标检测网络，获取所述预先训练的不规则形状目标检测网络输出的所述待检测遥感图像中的目标对应检测结果；

基于所述待检测遥感图像中的目标对应检测结果实现所述待检测遥感图像中的目标的目标识别。

优选的，所述预先训练的不规则形状目标检测模型的获取过程包括：

步骤1.人工标注遥感图像数据中遥感图像的检测目标的类别和边界框；

步骤2.将所述遥感图像数据划分为训练数据和测试数据；

步骤3.利用所述训练数据和测试数据对初始不规则形状目标检测网络进行训练，并将训练完成的初始不规则形状目标检测网络为所述预先训练的不规则形状目标检测网络。

进一步的，所述初始不规则形状目标检测网络包括：基础卷积神经网络、注意力模块、第一可变形卷积神经网络、第二可变形卷积神经网络、第一特征金字塔网络、第二特征金字塔网络、第三特征金字塔网络和全卷积神经网络；

所述基础卷积神经网络，用于提取输入图像的第一层特征；

所述注意力模块，用于基于所述输入图像的第一层特征提取输入图像的第二层特征；

所述第一可变形卷积神经网络，用于基于所述输入图像的第二层特征提取输入图像的第三层特征；

所述第二可变形卷积神经网络，用于基于所述输入图像的第三层特征提取输入图像的第四层特征；

所述第一特征金字塔网络，用于当所述输入图像各像素的回归距离最大值在0-32之间时，将所述输入图像的第四层特征经过1×1卷积执行卷积操作后得到第一降维特征，并将所述第一降维特征经过3×3卷积执行卷积操作；

所述第二特征金字塔网络，用于当所述输入图像各像素的回归距离最大值在32-128之间时，将所述输入图像的第三层特征经过1×1卷积执行卷积操作后得到第二降维特征，将所述第一降维特征通过2倍上采样与所述第二降维特征融合得到第一融合特征，并将所述第一融合特征经过3×3卷积执行卷积操作；

所述第三特征金字塔网络，用于当所述输入图像各像素的回归距离最大值在128-∞之间时，将所述输入图像的第二层特征经过1×1卷积执行卷积操作后得到第三降维特征，将所述第二降维特征通过2倍上采样与所述第三降维特征融合得到第二融合特征，并将所述第二融合特征经过3×3卷积执行卷积操作；

所述全卷积神经网络，用于分别对第一特征金字塔网络的输出特征、第二特征金字塔网络的输出特征和第三特征金字塔网络的输出特征进行分类回归。

进一步的，所述基础卷积神经网络具体用于：

按下式提取输入图像中每一空间点p对应第一层特征中的特征y_1p：

上式中，x_p为输入图像中空间点p的像素坐标值，K为卷积操作所需的空间采样点总数，w_k为卷积操作的第k个空间采样点的权重，p_k为对应于空间点p的第k个空间采样点的偏移量，p∈P，P为输入图像中空间点的集合。

进一步的，所述注意力模块具体用于：

将所述输入图像的第一层特征依次通过1×1卷积执行卷积操作、soft-max函数执行归一化操作，得到HW×1×1的矩阵；

将所述输入图像的第一层特征与所述HW×1×1的矩阵点乘进行加权，得到特征A；

将所述特征A依次通过1×1卷积执行卷积操作、Relu函数执行非线性操作以及1×1卷积执行卷积操作，得到特征B；

将所述输入图像的第一层特征与所述特征B相加，得到所述输入图像的第二层特征；

其中，H为所述输入图像的第一层特征的高度，W为所述输入图像的第一层特征的宽度。

进一步的，所述第一可变形卷积神经网络具体用于：

按下式提取输入图像中空间点p对应的第三层特征y_3p：

所述第二可变形卷积神经网络具体用于：

按下式提取输入图像中空间点p对应的第四层特征y_4p：

上式中，K为卷积操作所需的空间采样点总数，w_k为卷积操作的第k个空间采样点的权重，p_k为对应于空间点p的第k个空间采样点的偏移量，Δp_k为对应于空间点p的第k个空间采样点的额外偏置，y_2p为输入图像中空间点p对应的第二层特征，p∈P，P为输入图像中空间点的集合。

进一步的，按下式确定所述输入图像第i各像素的回归距离L_i：

L_i＝max(l_i,t_i,r_i,b_i)

上式中，l_i为所述输入图像中第i个像素的横坐标与输入图像标定的检测框左上顶点的横坐标间的距离，t_i为所述输入图像中第i个像素的纵坐标与输入图像标定的检测框左上顶点的纵坐标间的距离，r_i为所述输入图像中第i个像素的横坐标与输入图像标定的检测框右下顶点的横坐标间的距离，b_i为，所述输入图像中第i个像素的纵坐标与输入图像标定的检测框右下顶点的纵坐标间的距离。

进一步的，按下式确定所述l_i、t_i、r_i和b_i：

上式中，x_i为所述输入图像中第i个像素的横坐标，y_i为所述输入图像中第i个像素的纵坐标，x₀为所述输入图像标定的检测框左上顶点坐标的横坐标，y₀为所述输入图像标定的检测框左上顶点坐标的纵坐标，x₀′为所述输入图像标定的检测框右下顶点的横坐，y₀′为所述输入图像标定的检测框右下顶点的纵坐。

基于同一发明构思，本发明还提供了一种大规模遥感图像中不规则形状目标的检测***，其改进之处在于，所述***包括：

获取模块，用于获取待检测遥感图像；

检测模块，用于将所述待检测遥感图像输入至预先训练的不规则形状目标检测网络，获取所述预先训练的不规则形状目标检测网络输出的所述待检测遥感图像中的目标对应检测结果；

识别模块，用于基于所述待检测遥感图像中的目标对应检测结果实现所述待检测遥感图像中的目标的目标识别。

与最接近的现有技术相比，本发明具有的有益效果：

为了解决现有技术中只针对规则的刚性物体的问题，本发明提供了一种不规则形状目标的检测技术方案，该方案通过将待检测遥感图像输入至预先训练的不规则形状目标检测网络，获取所述预先训练的不规则形状目标检测网络输出的所述待检测遥感图像中的目标对应检测结果，最后基于所述待检测遥感图像中的目标对应检测结果实现所述待检测遥感图像中的目标的目标识别，相比于现有技术中的目标检测方法，本发明提供的技术方案简单高效，在处理形状不规则的非刚性物体方面精度和速度都有很大提升。

进一步的，本发明提供的技术方案中不规则形状目标检测网络在特征提取阶段通过注意力机制捕获图像中目标物体的所在区域，给予高度关注，再利用可变形卷积对物体进行特征提取。相比于其他特征提取方法本发明可以提取丰富的可变形物体的特征，更适合不规则物体。在检测阶段通过特征金字塔网络对浅层特征进行增强，对不同尺度的不规则物体分层处理，在每个特征层上使用基于全卷积神经网络对目标直接进行分类和回归，实现目标的提取。这种目标检测方式不需要预先定义的滑动框，通过卷积从数据中学习物体的形状，更适合形状多变的不规则物体的边界框回归，此外所有的操作均由卷积完成，在处理任意物体检测方面精度和速度都有很大提升。

附图说明

图1是本发明提供的一种大规模遥感图像中不规则形状目标的检测方法流程图；

图2是本发明实施例中不规则形状目标检测模型结构示意图；

图3是本发明实施例中基础卷积神经网络结构示意图；

图4是本发明实施例中注意力模块结构示意图；

图5是本发明实施例中可变形卷积神经网络结构示意图；

图6是本发明提供的一种大规模遥感图像中不规则形状目标的检测***的结构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的详细说明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

为了解决现有技术中只针对规则的刚性物体的问题，本发明提供了一种大规模遥感图像中不规则形状目标的检测方法，如图1所示，包括：

101获取待检测遥感图像；

102将所述待检测遥感图像输入至预先训练的不规则形状目标检测网络，获取所述预先训练的不规则形状目标检测网络输出的所述待检测遥感图像中的目标对应检测结果；

103基于所述待检测遥感图像中的目标对应检测结果实现所述待检测遥感图像中的目标的目标识别。

其中，所述预先训练的不规则形状目标检测模型的获取过程包括：

步骤2.将所述遥感图像数据划分为训练数据和测试数据；

本发明提供的实施例中，在所述初始不规则形状目标检测网络的构建过程中，为了解决提取不规则物体特征的问题考虑了注意力机制，注意力机制最早应用在自然语言处理领域，后来在计算机视觉领域也表现出了强大的生命力，它可以使网络聚焦在感兴趣的目标周围使得网络更好的训练，本发明将注意力机制与可变形卷积相结合可以很好地提取不规则物体特征，通过注意力机制捕获图像中目标物体的所在区域，给予高度关注；再利用可变形卷积对物体进行特征提取，提取丰富的可变形物体的特征。然后通过特征金字塔网络对浅层特征进行增强，最后使用全卷积神经网络对目标进行分类和回归，实现目标的提取，在处理任意物体检测方面精度和速度都有很大提升。

具体的，如图2所示，所述初始不规则形状目标检测网络包括：基础卷积神经网络、注意力模块、第一可变形卷积神经网络、第二可变形卷积神经网络、第一特征金字塔网络、第二特征金字塔网络、第三特征金字塔网络和全卷积神经网络；

所述基础卷积神经网络，用于提取输入图像的第一层特征；

进一步的，本发明提供的实施例中，基础卷积神经网络采用一系列常规卷积进行初步的特征提取，常规卷积层以一系列基于图3的残差模块组成，残差模块通过引入shortcut分支使得网络大大加深，提高了现有网络的精度。每一个残差模块由1×1和3×3卷积组成，以3×3卷积为例，其卷积操作所需的空间采样点总数K＝9，则所述基础卷积神经网络具体用于：

上式中，x_p为输入图像中空间点p的像素坐标值，K为卷积操作所需的空间采样点总数，w_k为卷积操作的第k个空间采样点的权重，p_k为对应于空间点p的第k个空间采样点的偏移量，p∈P，P为输入图像中空间点的集合，其中，p_k∈{(-1,-1),(-1,0),...,(1,1)}。

在所述基础卷积神经网络之后，利用注意力机制，将网络的关注区域集中在目标物体周围，本发明提供的实施例中，所述注意力模块基于所述输入图像的第一层特征提取输入图像的第二层特征的具体过程可以通过下述方法实现：

a.利用上下文模块计算空间各点重要程度。

b.利用变换模块对输入特征进行变换。

具体的，所述注意力模块结构示意图如图4所示，所述步骤a中，假设所述输入图像的第一层特征的尺寸为H×W，将所述输入图像的第一层特征作为输入，通过1×1卷积以及soft-max函数进行归一化得到HW×1×1的矩阵用于表示空间各点的重要程度，然后将这个重要程度和所述输入图像的第一层特征通过点乘进行加权得到特征A，使网络更加关注空间中包含目标物体的像素点，对背景区域进行抑制；

基于此，所述步骤b中，首先对所述特征A压缩进一步降低计算量，另一方面加入relu等非线性函数进一步提高性能，因此，在所述步骤b中，将所述特征A依次通过1×1卷积执行卷积操作、Relu函数执行非线性操作以及1×1卷积执行卷积操作，得到特征B；将所述输入图像的第一层特征与所述特征B相加，得到所述输入图像的第二层特征，其中，H为所述输入图像的第一层特征的高度，W为所述输入图像的第一层特征的宽度。

提取输入图像的第二层特征之后，本发明提供的技术方案使用可变形卷积对网络关注区域的不规则物体进行特征提取，如图5所示，相比于常规卷积，可变形卷积对每一个采样点p施加额外的偏置Δp_k来对物体的形状进行建模，多个可变形卷积层的级联可以充分捕获物体的尺度以及形状信息，具体的，所述第一可变形卷积神经网络具体用于：

按下式提取输入图像中空间点p对应的第三层特征y_3p：

所述第二可变形卷积神经网络具体用于：

按下式提取输入图像中空间点p对应的第四层特征y_4p：

上式中，K为卷积操作所需的空间采样点总数，w_k为卷积操作的第k个空间采样点的权重，p_k为对应于空间点p的第k个空间采样点的偏移量，Δp_k为对应于空间点p的第k个空间采样点的额外偏置，y_2p为输入图像中空间点p对应的第二层特征，p∈P，P为输入图像中空间点的集合，y_2p由取输入图像中空间点p对应的第一层特征y_1p经过注意力模块得到。

对于上述网络提取的输入图像的第二层特征、第三层特征和第四层特征，本发明使用三级的特征金字塔结构对其进行多尺度特征融合，融合过程中，按下式确定所述输入图像第i各像素的回归距离L_i：

L_i＝max(l_i,t_i,r_i,b_i)

其中，按下式确定所述l_i、t_i、r_i和b_i：

最终，由所述全卷积神经网络分别对第一特征金字塔网络的输出特征、第二特征金字塔网络的输出特征和第三特征金字塔网络的输出特征进行分类回归。

本发明提供的实施例中，全卷积神经网络可以对于每一个特征图，其上每一个像素点需要输出类别分数score、回归坐标bbox、center-ness值，它们的维度分别为C、4和1，C是物体的类别个数，4是回归的目标(l_i,t_i,r_i,b_i)的个数；

Center-ness表示点的中心度，用来抑制低质量边界框的产生，对于给定的一个位置的回归目标的(l_i,t_i,r_i,b_i)而言，center-ness目标的定义如下所示：

预测的目标框含有较多低质量的框，一般来说越靠近物体中心预测的框越准确，中心度center-ness也越高，反之两者都较低。将center-ness与这一步的分类得分score相乘作为最终的得分从而起到筛选效果。

基于同一发明构思，本发明还提供了一种不规则形状目标的检测***，如图6所示，所述***包括：

获取模块，用于获取待检测遥感图像；

步骤2.将所述遥感图像数据划分为训练数据和测试数据；

所述基础卷积神经网络，用于提取输入图像的第一层特征；

进一步的，所述基础卷积神经网络具体用于：

进一步的，所述注意力模块具体用于：

进一步的，所述第一可变形卷积神经网络具体用于：

按下式提取输入图像中空间点p对应的第三层特征y_3p：

所述第二可变形卷积神经网络具体用于：

按下式提取输入图像中空间点p对应的第四层特征y_4p：

L_i＝max(l_i,t_i,r_i,b_i)

进一步的，按下式确定所述l_i、t_i、r_i和b_i：

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种大规模遥感图像中不规则形状目标的检测方法，其特征在于，所述方法包括：

获取待检测遥感图像；

2.如权利要求1所述的方法，其特征在于，所述预先训练的不规则形状目标检测模型的获取过程包括：

步骤2.将所述遥感图像数据划分为训练数据和测试数据；

3.如权利要求2所述的方法，其特征在于，所述初始不规则形状目标检测网络包括：基础卷积神经网络、注意力模块、第一可变形卷积神经网络、第二可变形卷积神经网络、第一特征金字塔网络、第二特征金字塔网络、第三特征金字塔网络和全卷积神经网络；

所述基础卷积神经网络，用于提取输入图像的第一层特征；

4.如权利要求3所述的方法，其特征在于，所述基础卷积神经网络具体用于：

5.如权利要求3所述的方法，其特征在于，所述注意力模块具体用于：

将所述输入图像的第一层特征依次通过1×1卷积执行卷积操作、soft-max函数执行归一化操作，得到HW×1×1的注意力矩阵；

将所述输入图像的第一层特征与所述HW×1×1的注意力矩阵点乘进行加权，得到特征A；

6.如权利要求3所述的方法，其特征在于，所述第一可变形卷积神经网络具体用于：

按下式提取输入图像中空间点p对应的第三层特征y_3p：

所述第二可变形卷积神经网络具体用于：

按下式提取输入图像中空间点p对应的第四层特征y_4p：

7.如权利要求3所述的方法，其特征在于，按下式确定所述输入图像第i各像素的回归距离L_i：

L_i＝max(l_i,t_i,r_i,b_i)

8.如权利要求7所述的方法，其特征在于，按下式确定所述l_i、t_i、r_i和b_i：

9.一种大规模遥感图像中不规则形状目标的检测***，其特征在于，所述***包括：

获取模块，用于获取待检测遥感图像；