CN113554156A - 基于注意力机制与可变形卷积的多任务学习模型构建方法 - Google Patents

基于注意力机制与可变形卷积的多任务学习模型构建方法 Download PDF

Info

Publication number
CN113554156A
CN113554156A CN202111104069.5A CN202111104069A CN113554156A CN 113554156 A CN113554156 A CN 113554156A CN 202111104069 A CN202111104069 A CN 202111104069A CN 113554156 A CN113554156 A CN 113554156A
Authority
CN
China
Prior art keywords
task
features
feature extraction
module
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111104069.5A
Other languages
English (en)
Other versions
CN113554156B (zh
Inventor
黄磊
刘怡彤
魏志强
魏冠群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN202111104069.5A priority Critical patent/CN113554156B/zh
Publication of CN113554156A publication Critical patent/CN113554156A/zh
Application granted granted Critical
Publication of CN113554156B publication Critical patent/CN113554156B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于注意力机制与可变形卷积的多任务学***衡。

Description

基于注意力机制与可变形卷积的多任务学习模型构建方法
技术领域
本发明属于计算机视觉技术领域,涉及利用注意力机制与可变形卷积搭建多任务学习网络模型的框架,特别涉及基于注意力机制与可变形卷积的多任务学习模型构建方法。
背景技术
多任务学习在学习一个问题的同时,可以通过使用共享表示来获得其他问题的知识。现有的多任务学习网络模型主要分为三类,第一类是硬参数共享,该种共享方式适合用来处理相关性强的任务,硬参数共享将多个任务的特征表示嵌入到相同的语义空间中,然后针对每个任务使用特定于任务的层为每个任务提取特定于任务的特征。第二类是软参数共享,它为每个任务学习一个网络,但是每个任务的网络都可以访问其他任务对应的网络中的信息。软参数共享机制非常灵活,不需要关注各个任务之间的相关性。第三类是分层共享,分层共享在网络的较低层中执行简单的任务,而在较高层中处理困难任务。分层共享比硬参数共享更灵活,并且相比于软参数共享需要更少的参数。
不论是哪种共享方式,在提取共享特征和子任务特征时,大多采用多层普通卷积堆叠的方式。不可否认,普通卷积具有一定的特征提取能力,但是也有一定的局限性。一方面,针对不同的任务,譬如多分类任务,不同的数据集对于最后的分类步骤有较多贡献的特征具有较大差异,普通卷积的简单堆叠并不能针对性地提取出这些区分性区域,与此同时,这些区分性特征的尺度也具有一定的差异。另一方面,普通卷积的几何结构都是固定的,对输入特征图的固定位置进行采样,并且在同一层卷积中,所有的激活单元的感受野是一样的,但不同位置可能对应着不同尺度或形变的物体。同时多任务学习中各个任务对于几何形变的敏感程度有所差异,譬如,当同时处理语义分割和目标检测任进行的精细分割,而目标检测任务物体形变学习程度的要求则相对较小。普通卷积的简单堆叠并不能有效学习到这些针对不同任务有所差异的形变规律。
如何对不同难度,不同特征空间的子任务在训练过程中进行平衡,而不致使简单任务占据主导地位是多任务学习的另一挑战。在多任务损失函数优化方面,我们希望模型的训练对所有任务都有效,但是各任务的训练难度,收敛速度均有所差异,如果凭借经验为每个任务的损失分配固定的权重会导致简单任务训练效果好时复杂任务性能较差,不利于模型的训练。现有的一些方法开始试图探索损失函数权重自适应调整的方法,但计算过程较为复杂。
发明内容
针对现有技术存在的不足,本发明提供基于注意力机制与可变形卷积的多任务学***衡。
为了解决上述技术问题,本发明采用的技术方案是:
基于注意力机制与可变形卷积的多任务学习模型构建方法,包括以下步骤:
步骤1:构建共享特征提取网络,用于为不同任务提取公共的特征表达;
步骤2:构建子任务特征提取网络,用于提取不同的任务特征:
所述子任务特征提取网络包括提取不同任务的子任务特征提取模块,每个子任务特征提取模块由可变形卷积层、ASPP模块和注意力模块构成,所述注意力模块包括通道注意力模块和空间注意力模块;
其中,在提取特征时,选择共享特征提取网络的部分共享特征层提取到的特征作为与之对应的特定任务的可变形卷积层的输入特征;
步骤3:通过ASPP模块生成不同尺度的特征图,表示为
Figure 100002_DEST_PATH_IMAGE001
,每个特征图都有不同的感受野,作为注意力模块的输入特征图;
步骤4:依次通过注意力模块的通道注意力和空间注意力处理特征,获得最终对任务起关键作用的不同尺度的特征图;
步骤5:优化任务损失函数权重,定期更新:对所有任务的难易程度进行排序,并为困难任务的损失函数加权、分配更高的权重,减小简单任务权重。
进一步的,所述的共享特征提取网络中的普通卷积层替换为深度过度参数化卷积层DO-Conv,设共享特征提取网络共包含L层共享特征层,第j层提取到的共享特征表示为:
Figure 542385DEST_PATH_IMAGE002
其中D表示一个DO-Conv单元,包含DO-Conv层、池化层和归一化层;
经过步骤1,共享特征提取网络提取到了不同层次特征,后续步骤中,各个子任务特征提取模块从共享特征提取网络的各个共享特征层中提取特定于任务的特征,并使用这些特定于任务的特征计算最终的任务结果。
进一步的,步骤2中,可变形卷积层首先通过一个平行的标准卷积单元计算偏移量,学***方向与竖直方向的位置变化;之后以此偏移输出为指导,对原固定采样点进行水平、竖直方向上的位置调整,得到最终的采样点位置,通过可变形卷积层,能够根据子任务的内容特点对目标的形变规律进行学习,得到了针对不同任务的具有一定形变规律的特征;
对于子任务i,第j个特征提取模块的输入特征
Figure 28861DEST_PATH_IMAGE004
通过可变形卷积层处理后,得到的特征表示为
Figure 461111DEST_PATH_IMAGE006
,其中
Figure 603510DEST_PATH_IMAGE008
表示可变形卷积操作。
进一步的,步骤3中,ASPP模块生成的多尺度特征图由四个具有不同扩张率的平行的空洞卷积生成,扩张率分别为1、6、12、18,
Figure 100002_DEST_PATH_IMAGE009
在平行的空洞卷积层之后,由一个卷积核大小为1×1,步长为1的卷积层将不同尺度的特征图拼接在一起;最终得到的特征表示为:
Figure 553143DEST_PATH_IMAGE010
,其中
Figure 97388DEST_PATH_IMAGE012
Figure 231697DEST_PATH_IMAGE014
Figure 861393DEST_PATH_IMAGE016
Figure 100002_DEST_PATH_IMAGE017
表示经过不同扩张率的空洞卷积得到的特征图,
Figure 100002_DEST_PATH_IMAGE019
代表1×1卷积操作。
进一步的,步骤4中,
首先,通过通道注意力模块在通道维度对输入的特征图
Figure 100002_DEST_PATH_IMAGE021
进行处理,生成通道注意力特征,即
Figure 846009DEST_PATH_IMAGE022
其次,将
Figure 244760DEST_PATH_IMAGE022
和输入特征图
Figure 815550DEST_PATH_IMAGE024
进行对应元素点乘操作,生成空间注意力模块需要的输入特征
Figure 100002_DEST_PATH_IMAGE025
Figure 100002_DEST_PATH_IMAGE027
表示通道注意力模块的一系列操作,
Figure 683274DEST_PATH_IMAGE029
表示对应元素点乘操作;
然后,使用空间注意力模块处理特征,将通道注意力模块输出的特征图
Figure 568185DEST_PATH_IMAGE031
作为本模块的输入特征图,生成空间注意力特征,即
Figure 87022DEST_PATH_IMAGE033
最后,将
Figure 100002_DEST_PATH_IMAGE034
和空间注意力模块的输入特征进行对应元素点乘操作,得到最终生成的特征
Figure 438500DEST_PATH_IMAGE035
Figure 42788DEST_PATH_IMAGE037
表示空间注意力的一系列操作,
Figure 100002_DEST_PATH_IMAGE038
表示对应元素点乘操作。
进一步的,步骤5中,具体包括以下步骤:
步骤(1),子任务损失函数权重初始化:定义多任务学习的优化目标
Figure 872335DEST_PATH_IMAGE040
,其中L 1 L 2 L 5 分别表示子任务的损失函数值,
Figure 245678DEST_PATH_IMAGE042
Figure 880973DEST_PATH_IMAGE044
Figure DEST_PATH_IMAGE046
分别对应损失函数当前迭代轮数的权重;在权重初始化阶段为各个任务分配相同的权重;设共有K个任务,每个任务损失函数的权重在训练初始时设置为1/K,对网络进行优化;
步骤(2),任务难易程度判定:在训练过程中,每经过五个迭代,计算每个子任务的损失函数变化率
Figure 316764DEST_PATH_IMAGE047
l i 表示任务i的当前的损失函数值,
Figure 74636DEST_PATH_IMAGE049
代表迭代轮数;每隔五轮,对所有任务的损失函数变化率进行排序,选出当前迭代次数最易训练的任务和最难训练的任务,最易和最难训练任务损失函数变化率分别表示为
Figure 302486DEST_PATH_IMAGE051
Figure 120401DEST_PATH_IMAGE053
步骤(3),最难最易任务损失函数权重更新:通过步骤(2),得到了当前轮数最易和最难训练的任务,设定任务1为最难训练的任务,任务5为最易训练的任务,即
Figure 433701DEST_PATH_IMAGE055
,引入变量
Figure 995264DEST_PATH_IMAGE057
,对最易最难任务的损失函数进行调整:设置任务1损失函数权重为
Figure 77620DEST_PATH_IMAGE059
,任务5损失函数权重为
Figure 66436DEST_PATH_IMAGE061
,新一轮的损失函数优化目标重新更新为
Figure 867033DEST_PATH_IMAGE063
步骤(4),迭代步骤(1)-(3),随着模型的训练,每五个迭代计算最难训练和最易训练的任务,对各任务权重进行更新。
本发明还提供基于注意力机制与可变形卷积的多任务学习模型,通过如前所述的方法构建,包括为不同任务提取公共特征表达的共享特征提取网络、和用于提取不同的任务特征的子任务特征提取网络;所述共享特征提取网络包含L层共享特征层,提取不同层次特征,所述子任务特征提取网络包括提取不同任务的子任务特征提取模块,每个子任务特征提取模块由可变形卷积层、ASPP模块和注意力模块构成,ASPP模块在可变形卷积层之后、注意力模块前,所述注意力模块包括通道注意力和空间注意力模块;各子任务特征提取模块从共享特征提取网络的不同网络层提取特定于任务的特征,并使用这些特定于任务的特征计算最终的任务结果。
与现有技术相比,本发明优点在于:
(1)针对多任务学习网络模型中缺少对各任务不同形变规律学习的问题,以及缺少机制对各任务关键性区分区域进行定位的问题,本发明将注意力机制与可变形卷积结合起来,二者相互辅助来提取特征。针对每一个特定任务网络的特征提取模块(即子任务特征提取模块),首先使用可变形卷积提取特征,可变形卷积为每一个卷积采样点学习一个额外偏移量,可以根据图像内容进行自适应变化,而不局限于规则区域,这可以使各子任务网络根据任务特点学习到本任务的形变规律。可变形卷积在提取到目标区域特征的同时有一定概率受到背景噪声的影响,由此关注到背景中的部分干扰信息。然后使用注意力机制来处理可变形卷积得到的特征,从而关注到对于最终任务起关键作用的区分性区域。通过一系列的可变形-注意力模块与不同层的共享特征相连,可以更精确提取到针对每个任务的区分性特征。
(2)针对多任务网络结构中特定任务特征提取时,普通卷积的简单堆叠无法捕获到不同尺度区分性特征的问题,本发明将通道注意力机制和空间注意力机制引入到多任务学习领域,同时引入空洞空间卷积池化金字塔(Atrous Spatial Pyramid Pooling,ASPP)来捕获图像多尺度信息。首先,针对每一个可变形卷积层从共享特征层提取到的特征,同时使用空间注意力和通道注意力从这些特征中定位到具有区分性的区域。为了使注意力模块能关注到不同尺度的区分性特征,本发明在注意力前使用空洞空间卷积池化金字塔,空洞空间卷积池化金字塔提供不同的特征映射,每个特征映射具有不同的尺度,以不同采样率的空洞卷积并行采样,相当于以多个比例捕捉图像的上下文,这种在不同膨胀率之间的密集连接使得模型可以获得更大的感受野以及更多的信息,从而提高各任务精度。
(3)针对多任务网络模型在训练时各子任务不平衡的问题,本发明提出权重定期更新策略,能够促进较难训练的任务而抑制易训练的任务。首先每隔五轮训练,计算各任务的损失函数变化率,并对其进行排序,选出最难与最易训练的任务,按损失函数变化率的比例对困难任务损失函数的权重进行加权,同时减小简单任务损失函数的权重。重复上述步骤,通过这种最难最易任务损失函数权重定期更新,使各任务处于相对均衡的状态。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的基于注意力机制与可变形卷积的多任务学习模型的框架机构图;
图2为本发明实施例的最难最易任务损失函数权重优化策略示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的说明。
结合图1所示模型的架构图,本实施例基于注意力机制与可变形卷积的多任务学习模型构建方法,包括以下步骤:
步骤1:构建共享特征提取网络。
共享特征提取网络的作用是为不同任务提取公共的特征表达。以软参数共享方式为例,子任务网络需要从共享特征网络的不同网络层中提取特定于任务的特征。通常根据各子任务类型选择不同的共享特征提取网络。譬如多分类任务可选择ResNet系列网络作为共享特征提取网络,而对于语义分割、深度估计和表面法线估计任务更适合选择SegNet。
同时为了提升网络模型的特征提取能力,使用深度过度参数化卷积层(DepthwiseOver-parameterized Convolutional Layer,DO-Conv)替换共享特征提取网络中的普通卷积层,该方式不增加网络层数,在测试阶段,DO-Conv被折叠为常规卷积,从而使计算量精确地等于卷积层的计算量,而不会导致过参数化。
设共享特征提取网络共包含L层共享特征层,第j层提取到的共享特征表示为:
Figure DEST_PATH_IMAGE064
其中D表示一个DO-Conv单元,包含DO-Conv层、池化层和归一化层。
经过步骤1,共享特征提取网络提取到了不同层次特征。接下来,各个子任务特征提取模块从共享特征提取网络的不同网络层中提取特定于任务的特征,并使用这些特定于任务的特征计算最终的任务结果。下面依次介绍:
步骤2:构建子任务特征提取网络,用于提取不同的任务特征。
子任务特征提取网络包括提取不同任务的子任务特征提取模块,每个子任务特征提取模块由可变形卷积层、ASPP模块和注意力模块构成,所述注意力模块包括通道注意力模块和空间注意力模块。
其中,在提取特征时,选择共享特征提取网络的部分共享特征层提取到的特征作为与之对应的特定任务的可变形卷积层的输入特征。
可变形卷积层首先通过一个平行的标准卷积单元计算偏移量,学***方向与竖直方向的位置变化;之后以此偏移输出为指导,对原固定采样点进行水平、竖直方向上的位置调整,得到最终的采样点位置。通过可变形卷积层,
实现了卷积操作由固定采样到不规则采样的变化,且偏移量的学习不需要任何额外监督信息,可以通过反向传播进行端到端的训练。可变形卷积增强了网络空间建模能力,能够根据子任务的内容特点对目标的形变规律进行学习,得到了针对不同任务的具有一定形变规律的特征。
对于子任务i,第j个特征提取模块的输入特征
Figure DEST_PATH_IMAGE066
通过可变形卷积层处理后,得到的特征表示为
Figure 655123DEST_PATH_IMAGE067
,其中
Figure 857565DEST_PATH_IMAGE069
表示可变形卷积操作。
经过步骤2,得到了针对不同任务的具有一定形变规律的特征。
步骤3:通过ASPP模块生成不同尺度的特征图,作为注意力模块的输入特征图。
为了进一步丰富特征表达,使模型关注到不同粒度和尺度的特征,将空洞空间金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)模块***在可变形卷积层之后、注意力模块前。通过ASPP模块生成不同尺度的特征图,每个特征图都有不同的感受野。
ASPP模块生成的多尺度特征图由四个具有不同扩张率的平行的空洞卷积生成,扩张率分别为1、6、12、18,
Figure DEST_PATH_IMAGE070
在平行的空洞卷积层之后,由一个卷积核大小为1×1,步长为1的卷积层将不同尺度的特征图拼接在一起;最终得到的特征表示为:
Figure 904367DEST_PATH_IMAGE072
,其中
Figure 926681DEST_PATH_IMAGE074
Figure 830046DEST_PATH_IMAGE076
Figure 886995DEST_PATH_IMAGE078
Figure 952034DEST_PATH_IMAGE079
表示经过不同扩张率的空洞卷积得到的特征图,
Figure 727223DEST_PATH_IMAGE081
代表1×1卷积操作。
经过步骤3,得到了不同尺度的特征图,每个特征图都有不同的感受野。
步骤4:依次通过注意力模块的通道注意力和空间注意力处理特征,获得最终对任务起关键作用的不同尺度的特征图。
在ASPP模块之后,使用通道注意力模块和空间注意力模块使子任务特征提取网络被引导专注于有意义的特征以获得准确的结果。具体的,
首先,使用通道注意力模块在通道维度对特征进行处理,将输入的特征图
Figure 434279DEST_PATH_IMAGE083
分别经过全局最大池化和全局平均池化,得到两个大小为1×1×C的特征图,接着,再将它们分别送入一个两层的神经网络,第一层神经元个数为C/rr为减少率),激活函数为ReLU,第二层神经元个数为C,这个两层的神经网络是共享的。而后,将MLP输出的特征进行基于对应元素的加和操作,再经过sigmoid激活操作,生成最终的通道注意力特征,即
Figure 611314DEST_PATH_IMAGE085
其次,将
Figure 847254DEST_PATH_IMAGE087
和输入特征图
Figure 109739DEST_PATH_IMAGE088
进行对应元素点乘操作,生成空间注意力模块需要的输入特征
Figure 354907DEST_PATH_IMAGE090
Figure 855289DEST_PATH_IMAGE092
表示通道注意力模块的一系列操作,
Figure 793290DEST_PATH_IMAGE094
表示对应元素点乘操作。
然后,使用空间注意力模块处理特征,将通道注意力模块输出的特征图
Figure 11912DEST_PATH_IMAGE096
作为本模块的输入特征图。首先做一个基于通道的全局最大池化和全局平均池化,得到两个H×W×1的特征图,然后将这两个特征图进行通道拼接。然后经过一个7×7卷积操作,降维成单个通道,即H×W×1。再经过sigmoid生成空间注意力特征,即
Figure 326350DEST_PATH_IMAGE098
最后,将
Figure 200679DEST_PATH_IMAGE100
和空间注意力模块的输入特征进行对应元素点乘操作,得到最终生成的特征
Figure 44001DEST_PATH_IMAGE102
Figure 15499DEST_PATH_IMAGE104
表示空间注意力的一系列操作,
Figure 602470DEST_PATH_IMAGE105
表示对应元素点乘操作。
步骤5:优化任务损失函数权重,定期更新:对所有任务的难易程度进行排序,并为困难任务的损失函数加权、分配更高的权重,减小简单任务权重。
结合图2所示的损失函数权重优化策略示意图,具体包括以下步骤:
步骤(1),子任务损失函数权重初始化:
定义多任务学习的优化目标
Figure 77444DEST_PATH_IMAGE106
,其中L 1 L 2 L 5 分别表示子任务的损失函数值,
Figure 357247DEST_PATH_IMAGE042
Figure 816042DEST_PATH_IMAGE107
Figure 941123DEST_PATH_IMAGE108
分别对应损失函数当前迭代轮数的权重。以多分类任务为例,在权重初始化阶段为各个任务分配相同的权重;设共有K个任务,每个任务损失函数的权重在训练初始时设置为1/K,对网络进行优化。
步骤(2),任务难易程度判定:
在训练过程中,每经过五个迭代,计算每个子任务的损失函数变化率
Figure 801763DEST_PATH_IMAGE109
l i 表示任务i的当前的损失函数值,
Figure DEST_PATH_IMAGE111
代表迭代轮数。本实施例每五轮对损失函数进行一次调整,因此
Figure DEST_PATH_IMAGE113
均为5的倍数。如果
Figure DEST_PATH_IMAGE115
较小,说明该任务的损失变化较慢,较之其他任务更难训练,需要对其分配更高的权重。因此,每隔五轮,对所有任务的损失函数变化率进行排序,选出当前迭代次数最易训练的任务和最难训练的任务,以便对它们的权重进行调整,最易和最难训练任务损失函数变化率分别表示为
Figure DEST_PATH_IMAGE116
Figure DEST_PATH_IMAGE118
步骤(3),最难最易任务损失函数权重更新:
通过步骤(2),得到了当前轮数最易和最难训练的任务,为方便表示,本实施例设定任务1为最难训练的任务,任务5为最易训练的任务,即
Figure DEST_PATH_IMAGE120
,为了防止网络训练被简单任务所主导,需要对任务5进行抑制,同时为任务1设置更高的权重,因此引入变量
Figure DEST_PATH_IMAGE122
,对最易最难任务的损失函数进行调整:设置任务1损失函数权重为
Figure DEST_PATH_IMAGE124
,任务5损失函数权重为
Figure DEST_PATH_IMAGE126
,新一轮的损失函数优化目标重新更新为
Figure DEST_PATH_IMAGE127
步骤(4),迭代步骤(1)-(3),随着模型的训练,每五个迭代计算最难训练和最易训练的任务,对各任务权重进行更新。
作为本发明另一个实施例,提供基于注意力机制与可变形卷积的多任务学习模型,通过如前所述的方法构建,包括为不同任务提取公共特征表达的共享特征提取网络、和用于提取不同的任务特征的子任务特征提取网络;所述共享特征提取网络包含L层共享特征层,提取不同层次特征,所述子任务特征提取网络包括提取不同任务的子任务特征提取模块,每个子任务特征提取模块由可变形卷积层、ASPP模块和注意力模块构成,ASPP模块在可变形卷积层之后、注意力模块前,所述注意力模块包括通道注意力和空间注意力模块;各子任务特征提取模块从共享特征提取网络的不同网络层(即各个共享特征层)提取特定于任务的特征,并使用这些特定于任务的特征计算最终的任务结果。
本发明与现有技术相比主要有以下优点:
已有的多任务学习网络模型,大多采用普通卷积简单堆叠的方式来提取各任务特征,普通卷积固有的局限性限制了网络模型的特征提取能力。多任务学习对多个任务进行训练,目标物体可能存在的几何形变对不同任务具有不同程度的影响,同时现有的网络模型缺少一个机制来保证各任务的关键区域被关注。本发明将可变形卷积与注意力机制进行结合,通过可变形卷积为当前采样点增加偏移量,学习到数据集在不同任务的形变规律。由于仅使用可变形卷积可能会关注到背景噪声,因此本发明借助注意力机制,使模型自适应的关注到当前任务的关键区域,在此之前利用空洞空间金字塔池化融合不同尺度的特征以使不同粒度的区分性特征得到关注。通过一系列可变形-注意力模块的顺次连接构成了多任务学习网络中的子任务特征提取网络,自适应地提取特定于任务的特征,促进了多任务学习网络性能的提升。
在多任务损失函数优化设计上,大部分方法引入复杂计算来更新权重参数,增加模型训练的计算量。本发明的方法使用损失权重定时更新的方法,在训练过程中,每隔几个迭代计算各任务损失函数的变化率,通过对困难任务的损失函数进行加权,以及相应比例减小简单任务权重的方法,达到各任务平衡训练的目标,这种设计方法计算简单并且不会引入过多参数。我们提出的一种基于可变形卷积与注意力机制的多任务学习模型,通过在多任务网络结构和多任务损失函数优化两方面的创新设计,显著提升了多任务学习模型的性能。
综上所述,本发明对多任务学***衡。针对多任务学***衡问题,本发明有显著改善,可用于目标识别任务、图像分割任务和图像深度估计任务等之间的多任务学习,提高多任务学习模型的性能。
当然,上述说明并非是对本发明的限制,本发明也并不限于上述举例,本技术领域的普通技术人员,在本发明的实质范围内,做出的变化、改型、添加或替换,都应属于本发明的保护范围。

Claims (7)

1.基于注意力机制与可变形卷积的多任务学习模型构建方法,其特征在于,包括以下步骤:
步骤1:构建共享特征提取网络,用于为不同任务提取公共的特征表达;
步骤2:构建子任务特征提取网络,用于提取不同的任务特征:
所述子任务特征提取网络包括提取不同任务的子任务特征提取模块,每个子任务特征提取模块由可变形卷积层、ASPP模块和注意力模块构成,所述注意力模块包括通道注意力模块和空间注意力模块;
其中,在提取特征时,选择共享特征提取网络的部分共享特征层提取到的特征作为与之对应的特定任务的可变形卷积层的输入特征;
步骤3:通过ASPP模块生成不同尺度的特征图,表示为
Figure DEST_PATH_IMAGE001
,每个特征图都有不同的感受野,作为注意力模块的输入特征图;
步骤4:依次通过注意力模块的通道注意力和空间注意力处理特征,获得最终对任务起关键作用的不同尺度的特征图;
步骤5:优化任务损失函数权重,定期更新:对所有任务的难易程度进行排序,并为困难任务的损失函数加权、分配更高的权重,减小简单任务权重。
2.根据权利要求1所述的基于注意力机制与可变形卷积的多任务学习模型构建方法,其特征在于,所述的共享特征提取网络中的普通卷积层替换为深度过度参数化卷积层DO-Conv,设共享特征提取网络共包含L层共享特征层,第j层提取到的共享特征表示为:
Figure DEST_PATH_IMAGE002
其中D表示一个DO-Conv单元,包含DO-Conv层、池化层和归一化层;
经过步骤1,共享特征提取网络提取到了不同层次特征,后续步骤中,各个子任务特征提取模块从共享特征提取网络的各个共享特征层中提取特定于任务的特征,并使用这些特定于任务的特征计算最终的任务结果。
3.根据权利要求1所述的基于注意力机制与可变形卷积的多任务学***行的标准卷积单元计算偏移量,学***方向与竖直方向的位置变化;之后以此偏移输出为指导,对原固定采样点进行水平、竖直方向上的位置调整,得到最终的采样点位置,通过可变形卷积层,能够根据子任务的内容特点对目标的形变规律进行学习,得到了针对不同任务的具有一定形变规律的特征;
对于子任务i,第j个特征提取模块的输入特征通过可变形卷积层处理后,得到的 特征表示为,其中
Figure DEST_PATH_IMAGE005
表示可变形卷积操作。
4.根据权利要求3所述的基于注意力机制与可变形卷积的多任务学***行的空洞卷积生成,扩张率分别为1、6、12、18,
Figure DEST_PATH_IMAGE006
在平行的空洞卷积层之后,由一个卷积核大小为1×1,步长为1的卷积层将不同尺度的特征图拼接在一起;最终得到的特征表示为:
Figure DEST_PATH_IMAGE007
,其中
Figure DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
表示经过不同扩张率的空洞卷积得到的特征图,
Figure DEST_PATH_IMAGE012
代表1×1卷积操作。
5.根据权利要求4所述的基于注意力机制与可变形卷积的多任务学习模型构建方法,其特征在于,步骤4中,
首先,通过通道注意力模块在通道维度对输入的特征图
Figure DEST_PATH_IMAGE013
进行处理,生成通道注意力特征,即
Figure DEST_PATH_IMAGE014
其次,将
Figure DEST_PATH_IMAGE015
和输入特征图
Figure DEST_PATH_IMAGE016
进行对应元素点乘操作,生成空间注意力模块需要的输入特征
Figure DEST_PATH_IMAGE017
Figure DEST_PATH_IMAGE018
表示通道注意力模块的一系列操作,
Figure DEST_PATH_IMAGE019
表示对应元素点乘操作;
然后,使用空间注意力模块处理特征,将通道注意力模块输出的特征图
Figure DEST_PATH_IMAGE020
作为本模块的输入特征图,生成空间注意力特征,即
Figure DEST_PATH_IMAGE021
最后,将
Figure DEST_PATH_IMAGE022
和空间注意力模块的输入特征进行对应元素点乘操作,得到最终生成的特征
Figure DEST_PATH_IMAGE023
Figure DEST_PATH_IMAGE024
表示空间注意力的一系列操作,
Figure DEST_PATH_IMAGE025
表示对应元素点乘操作。
6.根据权利要求4所述的基于注意力机制与可变形卷积的多任务学习模型构建方法,其特征在于,步骤5中,具体包括以下步骤:
步骤(1),子任务损失函数权重初始化:定义多任务学习的优化目标
Figure DEST_PATH_IMAGE026
,其中L 1 L 2 L 5 分别表示子任务的损失函数值,
Figure DEST_PATH_IMAGE027
Figure DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE029
分别对应损失函数当前迭代轮数的权重;在权重初始化阶段为各个任务分配相同的权重;设共有K个任务,每个任务损失函数的权重在训练初始时设置为1/K,对网络进行优化;
步骤(2),任务难易程度判定:在训练过程中,每经过五个迭代,计算每个子任务的损失函数变化率
Figure DEST_PATH_IMAGE030
l i 表示任务i的当前的损失函数值,
Figure DEST_PATH_IMAGE031
代表迭代轮数;每隔五轮,对所有任务的损失函数变化率进行排序,选出当前迭代次数最易训练的任务和最难训练的任务,最易和最难训练任务损失函数变化率分别表示为
Figure DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE033
步骤(3),最难最易任务损失函数权重更新:通过步骤(2),得到了当前轮数最易和最难训练的任务,设定任务1为最难训练的任务,任务5为最易训练的任务,即
Figure DEST_PATH_IMAGE034
,引入变量
Figure DEST_PATH_IMAGE035
,对最易最难任务的损失函数进行调整:设置任务1损失函数权重为
Figure DEST_PATH_IMAGE036
,任务5损失函数权重为
Figure DEST_PATH_IMAGE037
,新一轮的损失函数优化目标重新更新为
Figure DEST_PATH_IMAGE038
步骤(4),迭代步骤(1)-(3),随着模型的训练,每五个迭代计算最难训练和最易训练的任务,对各任务权重进行更新。
7.基于注意力机制与可变形卷积的多任务学习模型,其特征在于,通过权利要求6所述的方法构建,包括为不同任务提取公共特征表达的共享特征提取网络、和用于提取不同的任务特征的子任务特征提取网络;所述共享特征提取网络包含L层共享特征层,提取不同层次特征,所述子任务特征提取网络包括提取不同任务的子任务特征提取模块,每个子任务特征提取模块由可变形卷积层、ASPP模块和注意力模块构成,ASPP模块在可变形卷积层之后、注意力模块前,所述注意力模块包括通道注意力和空间注意力模块;各子任务特征提取模块从共享特征提取网络的各个共享特征层中提取特定于任务的特征,并使用这些特定于任务的特征计算最终的任务结果。
CN202111104069.5A 2021-09-22 2021-09-22 基于注意力机制与可变形卷积的多任务图像处理方法 Active CN113554156B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111104069.5A CN113554156B (zh) 2021-09-22 2021-09-22 基于注意力机制与可变形卷积的多任务图像处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111104069.5A CN113554156B (zh) 2021-09-22 2021-09-22 基于注意力机制与可变形卷积的多任务图像处理方法

Publications (2)

Publication Number Publication Date
CN113554156A true CN113554156A (zh) 2021-10-26
CN113554156B CN113554156B (zh) 2022-01-11

Family

ID=78134543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111104069.5A Active CN113554156B (zh) 2021-09-22 2021-09-22 基于注意力机制与可变形卷积的多任务图像处理方法

Country Status (1)

Country Link
CN (1) CN113554156B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113868966A (zh) * 2021-12-02 2021-12-31 浙江大学 一种生物质锅炉省煤器结构参数优化设计方法
CN114037024A (zh) * 2022-01-07 2022-02-11 心鉴智控(深圳)科技有限公司 一种基于多任务神经网络数据识别***及方法
CN115100428A (zh) * 2022-07-01 2022-09-23 天津大学 一种利用上下文感知的目标检测方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190205643A1 (en) * 2017-12-29 2019-07-04 RetailNext, Inc. Simultaneous Object Localization And Attribute Classification Using Multitask Deep Neural Networks
CN110120020A (zh) * 2019-04-30 2019-08-13 西北工业大学 一种基于多尺度空洞残差注意力网络的sar图像去噪方法
CN110378484A (zh) * 2019-04-28 2019-10-25 清华大学 一种基于注意力机制的空洞卷积空间金字塔池化上下文学习方法
CN110941995A (zh) * 2019-11-01 2020-03-31 中山大学 基于轻量级网络的实时目标检测与语义分割的多任务学习方法
CN111340189A (zh) * 2020-02-21 2020-06-26 之江实验室 一种空间金字塔图卷积网络实现方法
CN111898617A (zh) * 2020-06-29 2020-11-06 南京邮电大学 基于注意力机制与并行空洞卷积网络的目标检测方法、***
CN111967480A (zh) * 2020-09-07 2020-11-20 上海海事大学 基于权重共享的多尺度自注意力目标检测方法
US20200387762A1 (en) * 2019-06-04 2020-12-10 Beijing Institute Of Technology Multi-task learning incorporating dependencies method for bionic eye's face attribute recognition
CN112084868A (zh) * 2020-08-10 2020-12-15 北京航空航天大学 一种基于注意力机制的遥感图像中目标计数方法
CN112132258A (zh) * 2020-08-26 2020-12-25 中国海洋大学 一种基于可变形卷积的多任务学习模型构建及优化方法
CN112801029A (zh) * 2021-02-09 2021-05-14 北京工业大学 基于注意力机制的多任务学习方法
CN113034380A (zh) * 2021-02-09 2021-06-25 浙江大学 一种基于改进可变形卷积校正的视频时空超分辨率方法和装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190205643A1 (en) * 2017-12-29 2019-07-04 RetailNext, Inc. Simultaneous Object Localization And Attribute Classification Using Multitask Deep Neural Networks
CN110378484A (zh) * 2019-04-28 2019-10-25 清华大学 一种基于注意力机制的空洞卷积空间金字塔池化上下文学习方法
CN110120020A (zh) * 2019-04-30 2019-08-13 西北工业大学 一种基于多尺度空洞残差注意力网络的sar图像去噪方法
US20200387762A1 (en) * 2019-06-04 2020-12-10 Beijing Institute Of Technology Multi-task learning incorporating dependencies method for bionic eye's face attribute recognition
CN110941995A (zh) * 2019-11-01 2020-03-31 中山大学 基于轻量级网络的实时目标检测与语义分割的多任务学习方法
CN111340189A (zh) * 2020-02-21 2020-06-26 之江实验室 一种空间金字塔图卷积网络实现方法
CN111898617A (zh) * 2020-06-29 2020-11-06 南京邮电大学 基于注意力机制与并行空洞卷积网络的目标检测方法、***
CN112084868A (zh) * 2020-08-10 2020-12-15 北京航空航天大学 一种基于注意力机制的遥感图像中目标计数方法
CN112132258A (zh) * 2020-08-26 2020-12-25 中国海洋大学 一种基于可变形卷积的多任务学习模型构建及优化方法
CN111967480A (zh) * 2020-09-07 2020-11-20 上海海事大学 基于权重共享的多尺度自注意力目标检测方法
CN112801029A (zh) * 2021-02-09 2021-05-14 北京工业大学 基于注意力机制的多任务学习方法
CN113034380A (zh) * 2021-02-09 2021-06-25 浙江大学 一种基于改进可变形卷积校正的视频时空超分辨率方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JIE LI ET.AL: "Multi-task learning with deformable convolution", 《JOURNAL OF VISUAL COMMUNICATION AND IMAGE REPRESENTATION》 *
YIFAN WU ET.AL: "AMR-Net: Arbitrary-Oriented Ship Detection Using Attention Module, Multi-Scale Feature Fusion and Rotation Pseudo-Label", 《IEEE ACCESS》 *
李晓光: "基于多任务学习的人脸及关键点检测算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
王宇浩: "基于深度学习的遥感图像语义分割问题研究", 《中国博士学位论文全文数据库 工程科技Ⅱ辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113868966A (zh) * 2021-12-02 2021-12-31 浙江大学 一种生物质锅炉省煤器结构参数优化设计方法
CN114037024A (zh) * 2022-01-07 2022-02-11 心鉴智控(深圳)科技有限公司 一种基于多任务神经网络数据识别***及方法
CN115100428A (zh) * 2022-07-01 2022-09-23 天津大学 一种利用上下文感知的目标检测方法

Also Published As

Publication number Publication date
CN113554156B (zh) 2022-01-11

Similar Documents

Publication Publication Date Title
CN109919108B (zh) 基于深度哈希辅助网络的遥感图像快速目标检测方法
CN113554156B (zh) 基于注意力机制与可变形卷积的多任务图像处理方法
CN111428818B (zh) 基于神经通路激活状态的深度学习模型测试方法与装置
CN103559504B (zh) 图像目标类别识别方法及装置
CN109858506B (zh) 一种面向卷积神经网络分类结果的可视化算法
CN113628294A (zh) 一种面向跨模态通信***的图像重建方法及装置
CN109978021B (zh) 一种基于文本不同特征空间的双流式视频生成方法
CN112347970B (zh) 一种基于图卷积神经网络的遥感影像地物识别方法
CN109033978B (zh) 一种基于纠错策略的cnn-svm混合模型手势识别方法
Dozono et al. Convolutional self organizing map
CN113902131B (zh) 抵抗联邦学习中歧视传播的节点模型的更新方法
CN112364747B (zh) 一种有限样本下的目标检测方法
CN111311702A (zh) 一种基于BlockGAN的图像生成和识别模块及方法
CN115359366A (zh) 基于参数优化的遥感图像目标检测方法
CN113487600A (zh) 一种特征增强尺度自适应感知船舶检测方法
CN113807176A (zh) 一种基于多知识融合的小样本视频行为识别方法
CN112597956B (zh) 基于人体锚点集合与感知增强网络的多人姿态估计方法
CN110110628A (zh) 一种频率综合器劣化的检测方法及检测设备
CN117058235A (zh) 跨多种室内场景的视觉定位方法
CN116665300A (zh) 基于时空自适应特征融合图卷积网络的骨架动作识别方法
CN115860113A (zh) 一种自对抗神经网络模型的训练方法及相关装置
CN115909027A (zh) 一种态势估计方法及装置
CN112818982B (zh) 基于深度特征自相关性激活的农业害虫图像检测方法
CN112241726B (zh) 基于自适应感受野网络和关节点损失权重的姿态估计方法
CN115331021A (zh) 基于多层特征自身差异融合的动态特征提取与描述方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant