CN112257727A - 一种基于深度学习自适应可变形卷积的特征图像提取方法 - Google Patents

一种基于深度学习自适应可变形卷积的特征图像提取方法 Download PDF

Info

Publication number
CN112257727A
CN112257727A CN202011212397.2A CN202011212397A CN112257727A CN 112257727 A CN112257727 A CN 112257727A CN 202011212397 A CN202011212397 A CN 202011212397A CN 112257727 A CN112257727 A CN 112257727A
Authority
CN
China
Prior art keywords
offset
adaptive
image
convolution
adaptive deformable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011212397.2A
Other languages
English (en)
Other versions
CN112257727B (zh
Inventor
赵成明
陈金令
李洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Petroleum University
Original Assignee
Southwest Petroleum University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Petroleum University filed Critical Southwest Petroleum University
Priority to CN202011212397.2A priority Critical patent/CN112257727B/zh
Publication of CN112257727A publication Critical patent/CN112257727A/zh
Application granted granted Critical
Publication of CN112257727B publication Critical patent/CN112257727B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于深度学习自适应可变形卷积的特征图像提取方法,包括自适应可变形卷积模块和自适应可变形的ROIpooling模块;所述自适应可变形卷积模块最主要的是采用了两种不同的可学习因子对偏移量和采样位置进行学习微调的方式,然后通过使用网格根据目标物体进行自适应的形变,产生更能符合目标物体的特征;所述自适应可变形的ROIpooling模块为池化层中的每个bin位置添加的一个偏移量,偏移量能从前面的特征图像以及感兴趣区域中进行学习得到,能对具有不同形变特性的目标物体实现自适应的准确定位。本发明提供的两个模块能够轻松替换现在主流的卷积层,且在不增加较多的参数情况下,提升卷积神经网络对模型的建模能力和图像检测精度。

Description

一种基于深度学习自适应可变形卷积的特征图像提取方法
技术领域
本发明涉及人工智能领域和数字图像处理方法,特别是涉及一种基于深度学习自适应可变形卷积的特征图像提取方法。
背景技术
近几年来,随着深度学习技术的快速发展和计算机设备性能的逐步提升,越来越多的卷积神经网络(CNNs)被应用于计算机视觉任务,如图像分类、目标检测和图像分割等领域。但是基于卷积神经网络(CNNs)的方法都是以一个固定的卷积尺寸进行特征提取,此方法无法自由的适应目标的多尺寸、多姿态以及多角度所带来的几何变化或者模型的几何转换的问题。针对以上的卷积神经网络(CNNs)所带来的诸多问题,目前主流的解决方法则有两种。其中一点是能够建立针对当前任务所拥有的目标多尺寸、多姿态、多角度等足够多的期望变化训练数据集。这种方法往往是通过增加现有的训练数据集样本实现的,如对数据样本进行随机尺寸变化、随机剪裁以及随机旋转等相互组合的方式,增强当前训练数据集样本的几何多样性的特征;其二种便是通过相应的变换不变性的特征或者算法,丰富现有训练数据集样本的空间表达能力,有助于提高模型对训练任务的几何表达能力。虽然卷积神经网络最近几年中在图像分类、语义分割和目标检测等热门的计算机视觉任务中取得了非常显著的效果,但是它仍然具有一下两个较为显著的缺点。第一点,卷积核在对目标物体进行卷积特征提取的时候,对于目标物体的几何变换是固定且是已知的,这样将会阻碍卷积神经网络对具有未知几何变换任务的泛化能力。其次,如果使用过于复杂的转换方法,将会提高相应变换不变性的特征或者算法的设计难度,且是一个耗时的过程,因此,这种方法的可行性极低,这样便无法满足当前视觉任务的需求,从而在无形之中就增加了视觉任务的隐形难度。
在当前的技术中,当目标样本具有多尺寸、多姿态以及多角度等形变特性的时候,就需要计算机设备储存大量和该目标样本与之相关的特征图像数据,这样将会使得储存的数据量非常的庞大,很消耗图形处理器(GPU)的显存,且在训练的过程的中是相当的耗时,不便于样本的快速训练。目前的卷积神经网络中,卷积层会对特征图像进行固定大小位置的采样,ROI池化层会把感兴趣区域划分成固定大小的空间容器,致使网络无法根据目标样本的内容而自适应的调整卷积核的感受野大小,因此便限制了对于具有形变特性的样本的识别精度。
发明内容
本发明的目的在于提供一种基于深度学习自适应可变形卷积的特征图像提取方法,可以有效的提高目标识别的精度。
本发明采用的技术方案是:一种基于深度学习自适应可变形卷积的特征图像提取方法,包括自适应可变形卷积模块和自适应可变形的ROIpooling模块;
所述自适应可变形卷积模块首先先将二维偏移量添加到标准卷积中的常规网格采样位置中,其次采用了两个不同的可学习因子对偏移量和采样位置进行学习微调的方式,然后通过使用网格可以根据目标物体进行自适应的变形,使之更能符合目标物体的特征;其中的二维偏移量是通过从前面的特征图像中利用不同的卷积层得到的;
所述自适应可变形的ROIpooling模块能够在池化层中的每一个bin位置添加一个偏移量,其偏移量能够从前面的特征图像以及感兴趣区域中进行学习得到,其中的ROI检测框能够以一个适应目标物体的检测框大小去检测,不再是以固定的检测框大小,避免了无用的检测,这样能够实现对具有不同形变的目标物体实现自适应的准确定位。
为了能够解决上诉的技术问题,本发明提供了一种基于深度学习自适应可变形卷积的特征图像提取方法,所述方法步骤包括:
S1,获取目标物体图像;
S2,通过卷积层的卷积核中的采样点的位置,以提取输入图像的低水平特征图像
Figure BDA0002759245350000021
其中I为原始输入图像, M为卷积核,p为输出特征图像点,c为图像的列,r为图像的宽;
S3,在输入的特征图像X上使用标准的规则网格K进行特征采样,使用的自适应可变形卷积核为
Figure BDA0002759245350000022
Figure BDA0002759245350000023
以获取高水平的特征图像,其中用W代表加权采样之和,网格k定义采样位置,用pk代表采样点在自适应可变形卷积核中的位置,sk表示对采样点pk的学习因子,Δpk表示可学习偏移量,Δmk表示可调制量,ck表示对可调制量Δmk的学习因子,其中sk∈[0,1],Δmk∈[0,1],ck∈[0,1]。
更进一步地,所述步骤S3具体为:
对于输出映射特征y上的每个位置p0,有:
Figure BDA0002759245350000024
其中,pk为网格K中枚举的采样位置;
在可变形的卷积中,对枚举的采样位置pk进行学习,另外还添加了可调制量Δmk,其中采样位置k用偏移量进行推广{Δpk|k=1,...,K},使采样位置能够分解为较大的步长,因此有:
Figure BDA0002759245350000025
最后,在自适应可变形的卷积中,运用学习因子ck对添加的调制偏移量进行再学习,以此来适应目标物体所具有多变的形变特性,因此有:
Figure BDA0002759245350000026
此时,采样是在极其不规则以及具有偏移的位置pk+Δpk,因此Δpk经常以小数的形式进行偏移,特别地,sk、ck、Δpk和Δmk来自于
Figure BDA0002759245350000027
输出通道的单独卷积,其中,2k输出通道模拟空间偏移量Δpk,连续的k个输出通道对应于调制量Δmk,用Sigmoid函数激活,剩余的
Figure BDA0002759245350000028
个通道是sk和ck在空间维度上与Δpk和Δmk作用的张量,它们的学习率是当前层学习率的0.1倍。
更进一步地,所述步骤S3还包括:
对可学习偏移量Δpk进行处理:
X(p)=∑qG(q,p)·X(q)
其中,p代表着目标物体学习的任意位置(p=p0+sk·pk+(1-ck)·Δpk),q列举了采样特征图像X所有完整的空间位置信息,G(·,·)代表双线性插值的内核,使特征提取的图像能够进行双线性插值以恢复图像上下文信息;同时G是二维的,在进行运算时能够被分为两个一维的核:
G(q,p)=g(qx,px)·g(qy,py)
其中,g(qx,px)=max(0,1-|a-b|);
其中的偏移量Δpk是通过在相同的输入采样特征上进行自适应可变形卷积得来的,输出的偏移量与输入的采样特征能够有相同尺寸的空间分辨率;而在进行深度学习训练过程中,卷积核的输出特征和可学习偏移量是能够同时学习而来的。
更进一步地,所述自适应可变形的ROIpooling模块将输入矩形检测框的任意大小变换为符合目标物体大小的检测框。在普通的ROI池化中,对于任意一个输入特征图像X,一个尺寸大小是w×h的ROI矩形检测框以及左上角的位置pk;ROI池化将ROI矩形检测框M划分为j×j个相同大小的网格单元,在第j 个网格单元中再划分k×k个采样小块;并且输出一个k×k的映射特征y,pkj是第j个网格单元的第k个采样小块,因此有
Figure BDA0002759245350000031
其中X(p)是在特征图像上第p个采样位置使用双线性插值来计算偏移量, nk是第k个bin的采样cells,即第(i,j)个采样块小区域的像素点,并且第(i, j)个采样块小区域的范围为:
Figure BDA0002759245350000032
以及
Figure BDA0002759245350000033
在可变形的ROI池化层中,采样位置k用偏移量进行推广{Δpk|k=1,..., K}以及可调制量Δmk被添入到空间小区域块位置中,从而有
Figure BDA0002759245350000034
在自适应可变形的ROIpooling中,对于给定输入ROI,采用ROIpooling 将ROI划分为K个空间bin,属于每个cell的bin被聚合以计算相应的bin输出,将采样点pk的学习因子sk和可调制量Δmk的学习因子ck添加到bin中,从而有:
Figure BDA0002759245350000035
该方法使用了两个1024-D的FC层和一个附加的具有
Figure BDA0002759245350000036
通道的 FC层,前两个2k通道是归一化学习偏移量Δpk,之后的k通道是使用Sigmoid函数归一化调制量Δmk,剩下的
Figure BDA0002759245350000037
通道用于产生添加的两个可学习因子sk和ck,且这些额外添加的FC层的学习率和神经网络里面的卷积层具有相同的学习率。
更进一步地,所述自适应可变形的ROIpooling模块还应包括:
对其可学习偏移量Δpk进行处理:
X(p)=∑qG(q,p)·X(q)
G(q,p)=g(qx,px)·g(qy,py)
对于自适应可变形的ROIpooling,首先将输入特征X进行池化后生成池化的映射特征,生成的映射特征接着经过全连接层后生成标准的偏移量
Figure BDA0002759245350000038
最后经过元素级的特征计算,利用检测框的宽和高转换为Δpk,因此有:
Figure BDA0002759245350000039
其中的β是人工设定的标量,用来调节偏移量的大小;自适应可变形ROI 池化层通过卷积层,将每一个目标物体的全部输入映射特征转换成t2个映射,用 {xi,j}表示,其中的(i,j)为检测框中的每一个bin;在进ROIpooling的时候,对第(i,j)个bin的输出值是通过对应的bin的一个特征映射{xi,j}进行求和而得来的。
本发明的优点:
本发明通过发明了两个自适应可变形卷积以此增强了卷积神经网络对具有多尺寸、多姿态以及多角度样本的可变形建模塑造能力,从而能够使得卷积网络学习且获得较为强的特征图像表达能力。这两个卷积层都是添加了额外的偏移量增加卷积网络中的空间采样位置,使得卷积神经网络不断学习偏移量来获得更深层的特征表达。此外,本发明的两个自适应可变形卷积可以用于替换主流的卷积神经网络中的普通卷积层,并可通过标准化的反向传播进行一个端到端的训练。
本发明提出的自适应可变形卷积,是能够在增加卷积中空间采样位置和 ROI池化层中的额外偏移量的基础上进行训练的,当对自适应可变形卷积进行叠加时,其对复合形变的特征表达能力的影响是较为深层次的,原因是可以在自适应可变形卷积中根据目标物体的比例大小和形状进行一定层度的自适应调节,其大大提升了卷积神经网络在复杂环境下的图像分类、目标检测、图像分割等的检测精度。
附图说明
图1为本发明实施例所提供的特征图像提取方法流程图;
图2为自适应可变形ROIpooling示意图;
图3为目前卷积神经网络中特征提取方法中的采样点分布示意图;
图4为自适应可变形卷积特征提取方法中的采样点分布示意图;
图5为图4中的某一个采样点特征提取方法示意图;
图6为本发明提出的特征提取方法用于语义分割的结果展示图。
具体实施方式
本发明的核心思想是提供一种基于深度学习自适应可变形卷积的特征图像提取方法,可以有效的提高目标识别的精度。为了使本发明的目的、技术方案以及优点更加清楚明白,将会结合附图以及实施例,对本发明进一步的详细说明,以下所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明的主要思想。
参考图1,如图1所示,一种基于深度学习自适应可变形卷积的特征图像提取方法流程图;
在此流程图中,首先是将目标物体图像送入到卷积神经网络中,通过卷积层的卷积核中采样的位置来提取输入图像的低水平特征图X,然后,对特征图像X使用标准的规则网格K进行特征采样,其中进行特征提取的卷积核并不是普通的卷积核,而是使用本发明提出自适应可变形卷积核,对含有形变特性的目标图像获得具有更高水平的特征图像表达,为后面的卷积神经网络提供更加稳定的且丰富的模型特征;
针对本发明所述的自适应可变形卷积,更进一步的详细说明如下:
自适应可变形卷积,能够极大地增强卷积神经网络对于目标物体的几何形变建模能力。它首先在标准卷积中的常规网格采样的位置添加了二维的偏移量,其次采用了两个不同的可学习因子对偏移量和采样位置进行学习微调的方式,然后通过使用网格可以根据图像中的目标物体自适应的变形,使之更能符合目标物体的特征。其中的二维偏移量是通过从前一层中的特征图像经过另外的卷积层来获得的,因此,自适应可变形卷积是一种由输入特征经过一种局部且密集的自适应调节方式进行的,将自适应可变形卷积加入到现有的卷积神经网络中,是一种能够通过反向传播进行一个端到端的训练方式。
对于图2所示,为自适应可变形卷积ROIpooling模块,该方法能够在池化层中的每一个bin位置添加一个额外的微小偏移量。与自适应可变形卷积类似,该偏移量同样能够可以从前一层中的特征图像和感兴趣区域中学习,其中的ROI 检测框是以一个适应目标物体的检测框大小去检测,不再是以固定的检测框大小,这样能够实现为具有不同形变的目标物体实现一个自适应的准确定位。将自适应可变形卷积ROIpooling加入到现有的卷积神经网络中,也是一种能够通过反向传播进行一个端到端的训练方式。
对于自适应可变形卷积,其二维卷积包括两个步骤:(1)在输入的特征图像上使用有规则的网格K进行采样;(2)用W代表加权采样之和,网格k定义采样位置,用pk代表采样点在自适应可变形卷积核中的位置,sk表示对采样点 pk的学习因子,Δpk表示可学习偏移量,Δmk表示可调制量,ck表示对可调制量Δmk的学习因子,其中sk∈[0,1],Δmk∈[0,1],ck∈[0,1]。
如定义一个3×3的自适应可变形卷积核,在神经网络中初始Δpk=0,sk=1,Δmk=1,ck=1:
K={(1,1),(0,1),…,(-1,0),(-1,-1)}
对于输出映射特征y上的每个位置p0,有:
Figure BDA0002759245350000051
其中,pk为网格K中枚举的采样位置;
在可变形的卷积中,对枚举的采样位置pk进行学习,另外还添加了可调制量Δmk,其中采样位置k用偏移量进行推广{Δpk|k=1,...,K},使采样位置能够分解为较大的步长,因此有:
Figure BDA0002759245350000052
最后,在自适应可变形的卷积中,运用学习因子ck对添加的调制偏移量进行再学习,以此来适应目标物体所具有多变的形变特性,因此有:
Figure BDA0002759245350000053
此时,采样是在极其不规则以及具有偏移的位置pk+Δpk,因此Δpk经常以小数的形式进行微量偏移,特别地,sk、ck、Δpk和Δmk来自于
Figure BDA0002759245350000054
输出通道的单独卷积,其中,2k输出通道模拟空间偏移量Δpk,连续的k个输出通道对应于调制量Δmk,用Sigmoid函数激活,剩余的
Figure BDA0002759245350000055
个通道是sk和ck在空间维度上与Δpk和Δmk作用的张量,它们的学习率是当前层学习率的0.1倍。
对可学习偏移量Δpk进行处理:
X(p)=∑qG(q,p)·X(q)
其中,p代表着目标物体学习的任意位置(p=p0+sk·pk+(1-ck)·Δpk),q列举了采样特征图像X所有完整的空间位置信息,G(·,·)代表双线性插值的内核,使特征提取的图像能够进行双线性插值以恢复图像上下文信息;同时G是二维的,在进行运算时能够被分为两个一维的核:
G(q,p)=g(qx,px)·g(qy,py)
其中,g(qx,px)=max(0,1-|a-b|);
其中的偏移量Δpk是通过在相同的输入采样特征上进行自适应可变形卷积得来的,输出的偏移量与输入的采样特征能够有相同尺寸的空间分辨率;而在进行深度学习训练过程中,卷积核的输出特征和可学习偏移量是能够同时学习而来的。
对于图2所示的自适应可变形的ROIpooling模块,将输入矩形检测框的任意大小变换为符合目标物体大小的检测框。在普通的ROI池化中,对于任意一个输入特征图像X,一个尺寸大小是w×h的ROI矩形检测框以及左上角的位置pk;ROI池化将ROI矩形检测框M划分为j×j个相同大小的网格单元,在第j 个网格单元中再划分k×k个采样小块;并且输出一个k×k的特征映射y,pkj是第j个网格单元的第k个采样小块,因此有
Figure BDA0002759245350000061
其中X(p)是在特征图像上第p个采样位置使用双线性插值来计算偏移量, nk是第k个bin的采样cells,即第(i,j)个采样块小区域的像素点,并且第(i, j)个采样块小区域的范围为:
Figure BDA0002759245350000062
以及
Figure BDA0002759245350000063
在可变形的ROI池化层中,采样位置k用偏移量进行推广{Δpk|k=1,..., K}以及可调制量Δmk被添入到空间小区域块位置中,从而有
Figure BDA0002759245350000064
在自适应可变形的ROIpooling中,对于给定输入ROI,采用ROIpooling 将ROI划分为K个空间bin,属于每个cell的bin被聚合以计算相应的bin输出,将采样点pk的学习因子sk和可调制量Δmk的学习因子ck添加到bin中,从而有:
Figure BDA0002759245350000065
该方法使用了两个1024-D的FC层和一个附加的具有
Figure BDA0002759245350000066
通道的 FC层,前两个2k通道是归一化学习偏移量Δpk,之后的k通道是使用Sigmoid函数归一化调制量Δmk,剩下的
Figure BDA0002759245350000069
通道用于产生添加的两个可学习因子sk和ck,且这些额外添加的FC层的学习率和神经网络里面的卷积层具有相同的学习率。
更进一步地,所述自适应可变形的ROIpooling模块还应包括:
对可学习偏移量其Δpk进行处理:
X(p)=∑qG(q,p)·X(q)
G(q,p)=g(qx,px)·g(qy,py)
对于自适应可变形的ROIpooling,首先将输入特征X进行池化后生成池化的映射特征,生成的映射特征接着经过全连接层后生成标准的偏移量
Figure BDA0002759245350000067
最后经过元素级的特征计算,利用检测框的宽和高转换为Δpk,因此有:
Figure BDA0002759245350000068
其中的β是人为设定的标量,用来调节偏移量的大小;自适应可变形ROI 池化层通过卷积层,将每一个目标物体的全部输入映射特征转换成t2个映射,用 {xi,j}表示,其中的(i,j)为检测框中的每一个bin;在进ROIpooling的时候,对第(i,j)个bin的输出值是通过对应的bin的一个特征映射{xi,j}进行求和而得来的。
对于图3所示,为目前卷积神经网络中特征提取方法中的采样点分布示意图。此方法的特征提取方法是使用一个固定尺寸大小的卷积核来提取输入图像的特征图,是不能根据目标图像的具体形变产生符合其特征的特征表达,因此,此卷积核具有一定的局限性。
对于图4所示,为自适应可变形卷积特征提取方法中的采样点分布示意图。此方法的特征提取方法是使用本发明提出的自适应可变形卷积,其中的卷积核会以一个符合目标物体形变的尺寸大小提取输入图像的特征图,对具有形变特性的目标图像能产生符合其特征的特征表达。
总之,自适应可变形卷积和自适应可变形ROI池化具有与其他普通卷积和ROI池化相同的输入和输出,由此可言,在现有的卷积神经网络中的普通卷积和ROI池化可以很容易被自适应可变形卷积和自适应可变形ROI池化所替换掉,且在不影响整个模型的建模能力的前提下,还能提高整个模型的检测算法精度。
综上所述,本发明提出的一种基于深度学习自适应可变形卷积的特征提取方法,它能够极大地增强卷积神经网络对于目标物体的几何形变的建模能力。同时在标准卷积中的常规网格采样的位置添加了二维的偏移量,并且采用了两个不同的可学习因子对偏移量和采样位置进行学习微调的方式,然后通过采样网格可以根据图像中的目标物体自适应的形变。其中的偏移量是通过从前一层中的特征图像经过另外的卷积层来获得的,因此,自适应可变形卷积是一种由输入特征图像经过一个局部且密集的自适应调节方式进行的,将自适应可变形卷积加入到现有的卷积神经网络中,能够提高在复杂环境下的图像分类,目标检测以及图像分割等计算机视觉任务的检测精度,是一种能够通过标准反向传播进行一种端到端的训练方式。
本文中结合了图片个例对本发明的原理以及具体实施方式进行了详细的阐述,对于上述的说明仅仅只用于帮助理解本发明的方法及其核心思想,并不用于限制本发明。可以指出的是,在不完全脱离本发明核心原理的前提之下,对本发明进行的任何改进、修饰、替换等,均包含在本发明的保护范围之内。

Claims (6)

1.一种基于深度学习自适应可变形卷积的特征图像提取方法,其特征在于,包括自适应可变形卷积模块和自适应可变形的ROIpooling模块;
所述自适应可变形卷积模块首先先将二维偏移量添加到标准卷积中的常规网格采样位置中,其次采用了两个不同的可学习因子对偏移量和采样位置进行学习微调的方式,然后通过使用网格可以根据目标物体进行自适应的变形,使之更能符合目标物体的特征,其中的二维偏移量是通过从前面的特征图像中利用不同的卷积层得到的;
所述自适应可变形的ROIpooling模块能够在池化层中的每一个bin位置添加一个微小偏移量,其偏移量能够从前面的特征图像以及感兴趣区域中进行学习得到,其中的ROI检测框以一个适应目标物体的检测框大小去检测,不再是以固定的检测框大小,这样能够实现对具有不同形变的目标物体实现自适应的准确定位。
2.根据权利要求1所述的基于深度学习自适应可变形卷积层的特征图像提取方法,其特征在于,所述自适应可变形卷积层的特征图像提取方法包括三个步骤:
S1,获取目标物体图像;
S2,通过卷积层的卷积核中的采样点的位置,以提取输入图像的低水平特征图像
Figure FDA0002759245340000011
其中I为原始输入图像,M为卷积核,p为输出特征图像点,c为图像的列,r为图像的宽;
S3,在输入的特征图像X上使用标准的规则网格K进行特征采样,使用的自适应可变形卷积核为
Figure FDA0002759245340000012
Figure FDA0002759245340000013
以获取高水平的特征图像,其中用W代表加权采样之和,网格k定义采样位置,用pk代表采样点在自适应可变形卷积核中的位置,sk表示对采样点pk的学习因子,Δpk表示可学习偏移量,Δmk表示可调制量,ck表示对可调制量Δmk的学习因子,其中sk∈[0,1],Δmk∈[0,1],ck∈[0,1]。
3.根据权利要求2所述的基于深度学习自适应可变形卷积层的特征图像提取方法,其特征在于,所述步骤S3具体为:
对于输出映射特征y上的每个位置p0,有:
Figure FDA0002759245340000014
其中,pk为网格K中枚举的采样位置;
在可变形的卷积中,对枚举的采样位置pk进行学习,另外还添加了可调制量Δmk,其中采样位置k用偏移量进行推广{Δpk|k=1,...,K},使采样位置能够分解为较大的步长,因此有:
Figure FDA0002759245340000015
最后,在自适应可变形的卷积中,运用学习因子ck对添加的调制偏移量进行再学习,以此来适应目标物体所具有多变的形变特性,因此有:
Figure FDA0002759245340000016
此时,采样是在极不规则以及具有偏移的位置pk+Δpk,因此Δpk经常以小数的形式进行微量偏移,特别地,sk、ck、Δpk和Δmk来自于
Figure FDA0002759245340000017
输出通道的单独卷积,其中,2k输出通道模拟空间偏移量Δpk,连续的k个输出通道对应于调制量Δmk,用Sigmoid函数激活,剩余的
Figure FDA0002759245340000021
个通道是sk和ck在空间维度上与Δpk和Δmk作用的张量,它们的学习率是当前层学习率的0.1倍。
4.根据权利要求3所述的基于深度学习自适应可变形卷积层的特征图像提取方法,其特征在于,所述步骤S3还包括:
对可学习偏移量Δpk进行处理:
Figure FDA0002759245340000022
其中,p代表着目标物体学习的任意位置(p=p0+sk·pk+(1-ck)·Δpk),q列举了采样特征图像X所有完整的空间位置信息,G(·,·)代表双线性插值的内核,使特征提取的图像能够进行双线性插值以恢复图像上下文信息;同时G是二维的,在进行运算时能够被分为两个一维的核:
G(q,p)=g(qx,px)·g(qy,py)
其中,g(qx,px)=max(0,1-|a-b|);
其中的偏移量Δpk是通过在相同的输入采样特征上进行自适应可变形卷积得来的,输出的偏移量与输入的采样特征能够有相同尺寸的空间分辨率;而在进行深度学习训练过程中,卷积核的输出特征和可学习偏移量是能够同时学习而来的。
5.根据权利要求1所述的基于深度学习自适应可变形卷积层的特征图像提取方法,其特征在于,所述自适应可变形的ROI池化层模块将输入矩形检测框的任意大小变换为符合目标物体大小的检测框;
在普通的ROI池化中,对于任意一个输入特征图像X,一个尺寸大小是w×h的ROI矩形检测框以及左上角的位置pk;ROI池化将ROI矩形检测框M划分为j×j个相同大小的网格单元,在第j个网格单元中再划分k×k个采样小块;并且输出一个k×k的映射特征y,pkj是第j个网格单元的第k个采样小块,因此有:
Figure FDA0002759245340000023
其中nk是第k个bin的采样cells,即第(i,j)个采样块小区域的像素点,并且第(i,j)个采样块小区域的范围为:
Figure FDA0002759245340000024
以及
Figure FDA0002759245340000025
Figure FDA0002759245340000026
X(p)是在特征图像上第p个采样位置使用双线性插值来计算偏移量。
在可变形的ROI池化层中,采样位置k用偏移量进行推广{Δpk|k=1,...,K}以及可调制量Δmk被添入到空间小区域块位置中,从而有:
Figure FDA0002759245340000027
在自适应可变形的ROI池化层中,对于给定输入ROI,采用ROIpooling将ROI划分为K个空间bin,属于每个cell的bin被聚合以计算相应的bin输出,将手工偏移量pk的学习因子sk和可调制量Δmk的学习因子ck添加到bin中,从而有:
Figure FDA0002759245340000028
该方法使用了两个1024-D的FC层和一个附加的具有
Figure FDA0002759245340000031
通道的FC层,前两个2k通道是归一化学习偏移量Δpk,之后的k通道是使用Sigmoid函数归一化调制量Δmk,剩下的
Figure FDA0002759245340000032
通道用于产生添加的两个可学习因子sk和ck,且这些额外添加的FC层的学习率和神经网络里面的卷积层具有相同的学习率。
6.根据权利要求5所述的基于深度学习自适应可变形卷积层的特征图像提取方法,其特征在于,所述自适应可变形的ROIpooling模块还应包括:
对可学习偏移量Δpk进行处理:
Figure FDA0002759245340000033
G(q,p)=g(qx,px)·g(qy,py)
对于自适应可变形的ROI池化层,首先将输入特征X进行池化后生成池化的映射特征,生成的映射特征接着经过全连接层后生成标准的偏移量
Figure FDA0002759245340000034
最后经过元素级的特征计算,利用检测框的宽和高转换为Δpk,因此有
Figure FDA0002759245340000035
其中的β是人工设定的标量,用来调节偏移量的大小;自适应可变形ROI池化层通过卷积层,将每一个目标物体的全部输入映射特征转换成t2个映射,用{xi,j}表示,其中的(i,j)为检测框中的每一个bin;在进行ROIpooling的时候,对第(i,j)个bin的输出值是通过对应的bin的一个特征映射{xi,j}进行求和而得来的。
CN202011212397.2A 2020-11-03 2020-11-03 一种基于深度学习自适应可变形卷积的特征图像提取方法 Active CN112257727B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011212397.2A CN112257727B (zh) 2020-11-03 2020-11-03 一种基于深度学习自适应可变形卷积的特征图像提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011212397.2A CN112257727B (zh) 2020-11-03 2020-11-03 一种基于深度学习自适应可变形卷积的特征图像提取方法

Publications (2)

Publication Number Publication Date
CN112257727A true CN112257727A (zh) 2021-01-22
CN112257727B CN112257727B (zh) 2023-10-27

Family

ID=74268727

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011212397.2A Active CN112257727B (zh) 2020-11-03 2020-11-03 一种基于深度学习自适应可变形卷积的特征图像提取方法

Country Status (1)

Country Link
CN (1) CN112257727B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657587A (zh) * 2021-08-17 2021-11-16 上海大学 基于fpga的可变形卷积加速方法及装置
CN115082430A (zh) * 2022-07-20 2022-09-20 中国科学院自动化研究所 图像分析方法、装置及电子设备
WO2022235478A1 (en) * 2021-05-06 2022-11-10 Micron Technology, Inc. Object detection with a deep learning accelerator of artificial neural networks

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107966546A (zh) * 2017-11-21 2018-04-27 西南石油大学 一种页岩岩相平面分布编制方法及页岩勘探体系
CN108564025A (zh) * 2018-04-10 2018-09-21 广东电网有限责任公司 一种基于可变形卷积神经网络的红外图像物体识别方法
CN208171995U (zh) * 2018-06-08 2018-11-30 西南石油大学 一种手持式岩心扫描装置
CN110197255A (zh) * 2019-04-29 2019-09-03 杰创智能科技股份有限公司 一种基于深度学习的可变形卷积网络
CN110674866A (zh) * 2019-09-23 2020-01-10 兰州理工大学 迁移学习特征金字塔网络对X-ray乳腺病灶图像检测方法
US20200151457A1 (en) * 2018-11-13 2020-05-14 Nec Laboratories America, Inc. Attention and warping based domain adaptation for videos
WO2020192471A1 (zh) * 2019-03-26 2020-10-01 腾讯科技(深圳)有限公司 一种图像分类模型训练的方法、图像处理的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107966546A (zh) * 2017-11-21 2018-04-27 西南石油大学 一种页岩岩相平面分布编制方法及页岩勘探体系
CN108564025A (zh) * 2018-04-10 2018-09-21 广东电网有限责任公司 一种基于可变形卷积神经网络的红外图像物体识别方法
CN208171995U (zh) * 2018-06-08 2018-11-30 西南石油大学 一种手持式岩心扫描装置
US20200151457A1 (en) * 2018-11-13 2020-05-14 Nec Laboratories America, Inc. Attention and warping based domain adaptation for videos
WO2020192471A1 (zh) * 2019-03-26 2020-10-01 腾讯科技(深圳)有限公司 一种图像分类模型训练的方法、图像处理的方法及装置
CN110197255A (zh) * 2019-04-29 2019-09-03 杰创智能科技股份有限公司 一种基于深度学习的可变形卷积网络
CN110674866A (zh) * 2019-09-23 2020-01-10 兰州理工大学 迁移学习特征金字塔网络对X-ray乳腺病灶图像检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FENG CHEN等: "daptive deformable convolution network", 《NEUROCOMPUTING》 *
XIZHOU ZHU等: "Deformable convnets v2:More Deformable ,Better Results", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION(CVPR)》 *
栾尚祯: "深度学习目标识别算法发展趋势研究", 《电信网技术》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022235478A1 (en) * 2021-05-06 2022-11-10 Micron Technology, Inc. Object detection with a deep learning accelerator of artificial neural networks
CN113657587A (zh) * 2021-08-17 2021-11-16 上海大学 基于fpga的可变形卷积加速方法及装置
CN113657587B (zh) * 2021-08-17 2023-09-26 上海大学 基于fpga的可变形卷积加速方法及装置
CN115082430A (zh) * 2022-07-20 2022-09-20 中国科学院自动化研究所 图像分析方法、装置及电子设备

Also Published As

Publication number Publication date
CN112257727B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN114255238A (zh) 一种融合图像特征的三维点云场景分割方法及***
CN113128558B (zh) 基于浅层空间特征融合与自适应通道筛选的目标检测方法
CN112257727A (zh) 一种基于深度学习自适应可变形卷积的特征图像提取方法
CN112651438A (zh) 多类别图像的分类方法、装置、终端设备和存储介质
CN109558862B (zh) 基于空间感知的注意力细化框架的人群计数方法及***
CN112818969A (zh) 一种基于知识蒸馏的人脸姿态估计方法及***
CN111899203B (zh) 基于标注图在无监督训练下的真实图像生成方法及存储介质
CN113449612B (zh) 一种基于子流型稀疏卷积的三维目标点云识别的方法
CN114926734B (zh) 基于特征聚合和注意融合的固体废弃物检测装置及方法
CN111368733B (zh) 一种基于标签分布学习的三维手部姿态估计方法、存储介质及终端
CN111709433A (zh) 一种多特征融合图像识别算法
CN113344110B (zh) 一种基于超分辨率重建的模糊图像分类方法
CN114187506A (zh) 视点意识的动态路由胶囊网络的遥感图像场景分类方法
CN115861595B (zh) 一种基于深度学习的多尺度域自适应异源图像匹配方法
CN112132207A (zh) 基于多分支特征映射目标检测神经网络构建方法
CN116993639A (zh) 基于结构重参数化的可见光与红外图像融合方法
CN117011515A (zh) 基于注意力机制的交互式图像分割模型及其分割方法
CN116597142A (zh) 基于全卷积神经网络与变换器的卫星图像语义分割方法及***
CN116597146A (zh) 一种针对激光雷达稀疏点云数据的语义分割方法
CN112990336B (zh) 基于竞争注意力融合的深度三维点云分类网络构建方法
CN115690497A (zh) 一种基于注意力机制与卷积神经网络的花粉图像分类方法
CN116343019A (zh) 一种遥感图像的目标检测方法
CN110826726B (zh) 目标处理方法、目标处理装置、目标处理设备及介质
CN114202694A (zh) 基于流形混合插值和对比学习的小样本遥感场景图像分类方法
Wang et al. Image Semantic Segmentation Algorithm Based on Self-learning Super-Pixel Feature Extraction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant