CN115115918B

CN115115918B - 一种基于多知识融合的视觉学习方法

Info

Publication number: CN115115918B
Application number: CN202210682147.8A
Authority: CN
Inventors: 高鹏; 张仁瑞; 莫申童; 马特立; 李鸿升; 乔宇
Original assignee: Shanghai AI Innovation Center
Current assignee: Shanghai AI Innovation Center
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2024-05-31
Anticipated expiration: 2042-06-16
Also published as: CN115115918A

Abstract

本发明公开了一种基于多知识融合的视觉学习方法。该方法包括：构建视觉学习器，该视觉学习器包括多个卷积模块，Transformer模块、解码器和多知识融合模块，其中，各卷积模块的输入图像具有不同分辨率，并且各输入图像对应多种知识的每一种具有互补的遮掩区域，各卷积模块对多种知识对应的不同非遮掩区域进行相互独立的特征提取；所述Transformer模块针对未遮掩的特征进行相互独立的全局特征提取；所述解码器基于未遮掩的特征和掩码进行图像重建；以设定的损失标准为目标预训练视觉学习器，在预训练过程中，利用所述多知识融合模块学习到的多种知识作为监督信号输入到所述解码器指导训练过程。本发明提高了预训练效率，并且可适配到更广泛的下游任务。

Description

一种基于多知识融合的视觉学习方法

技术领域

本发明涉及计算机视觉技术领域，更具体地，涉及一种基于多知识融合的视觉学习方法。

背景技术

掩码自动编码器是指在计算机视觉骨干网络的预训练中，利用随机掩码将图像的一部分进行掩盖，利用编码器学习未被掩盖部分的特征，然后根据这些特征学习恢复出被掩盖的图像特征。利用掩码自动编码器(MaskAutoencoder，MAE)来进行视觉特征的预训练学习已经在各种视觉任务中取得了很好的性能。

自监督预训练已经成为视觉特征学习的新范式，并且通过其强大的视觉表征能力提升了各种视觉任务的性能。除了DINO、MOCO-V3等对比学习的自监督方法之外，掩码自动编码器(MaskAutoencoder-MAE)也表现出了很有潜力的性能，并且启发了一系列后续针对其性能改进的工作，例如ConvMAE、HiVIT、MixMIM等。MAE的自监督学习是受自然语言处理中BERT模型的启发，它将图片的一部分区域用随机掩码遮挡，然后利用未被遮挡的部分来重建掩码区域的像素值，通过这种方式使得网络学习到图片的低层次语义信息。然而，现有技术中，缓慢的预训练收敛速度和巨大的计算资源开销很大程度上制约了MAE的进一步发展和应用。具体来说，预训练基于视觉Transformer网络的MAE需要800个周期，并花费两千个显卡小时，而后续的ConvMAE需要1600个周期和四千个显卡小时。

因此，有必要提供新的技术方案来加速预训练时间并降低计算资源的开销。

发明内容

本发明的目的是克服上述现有技术的缺陷，提供一种基于多知识融合的视觉学习方法。

根据本发明的第一方面，提供一种基于多知识融合的视觉学习方法。该方法包括以下步骤：

构建视觉学习器，该视觉学习器包括多个卷积模块，Transformer模块、解码器和多知识融合模块，其中，各卷积模块的输入图像具有不同分辨率，并且各输入图像对应多种知识的每一种具有互补的遮掩区域，各卷积模块对多种知识对应的不同非遮掩区域进行相互独立的特征提取；所述Transformer模块针对未遮掩的特征进行相互独立的全局特征提取；所述解码器基于未遮掩的特征和掩码进行图像重建；

以设定的损失标准为目标预训练视觉学习器，在预训练过程中，利用所述多知识融合模块学习到的多种知识作为监督信号输入到所述解码器指导训练过程。

根据本发明的第二方面，提供一种视觉学习器的应用方法。该方法包括：

针对输入的目标图像，利用多个卷积模块以及上述经训练的Transformer模块提取不同尺度的特征，其中所述Transformer模块采用全局或局部注意力机制对特征进行增强；

将所述Transformer模块输出的特征进行下采样后，与所提取的不同尺度特征一起送入到检测网络或者分割网络，获得对应的检测结果或分割结果。

与现有技术相比，本发明的优点在于，通过增加多种重建任务，将各种不同模型产生的语义知识注入到网络学习的过程中，使网络学习到更加多样性的信息，并利用互补掩码将不同的知识重建目标对应到互补的未被遮挡的图像区域。本发明提高了预训练效率，并且可适配到更广泛的下游任务。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是根据本发明一个实施例的基于多知识融合的视觉学习方法的流程图；

图2是根据本发明一个实施例的基于多知识融合的视觉学习器的架构图；

图3是根据本发明一个实施例的将视觉学习器的应用于下游任务的过程示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明提出了基于多知识融合的高效掩码视觉学习器，简称MoR-ConvMAE。首先，MoR-ConvMAE的重建任务不仅仅是像素值，而是多种知识的融合，例如语言-视觉的多模态的知识、不同图片间的判别性知识和网络学习的历史动量知识。通过更强的多知识融合的自监督信号，网络可以获得极快的预训练收敛速度。此外，为了进一步减小运算资源开销，提出了互补掩码将不同的知识重建目标对应到互补的未被遮挡的图像区域，并通过所设计的互补掩码卷积来对不同的区域独立编码，从而可以在一次网络前向传播过程中对不同的区域独立编码，防止信息泄露。本发明提供的MoR-ConvMAE能够用一张图片的运算开销，来同时完成多种知识的重建目标，极大地提升了预训练的效率。

具体地，参见图1所示，所提供的基于多知识融合的视觉学习方法包括以下步骤。

步骤S110，构建基于多知识融合的视觉学习器，该视觉学习器利用互补掩码将不同的知识重建目标对应到互补的未被遮挡的图像区域。

参见图2所示，视觉学习器整体上包括多个卷积模块，Transformer模块、解码器和多知识融合模块(MoR)。其中多个卷积模块利用生成的互补随机掩码对输入图像进行遮掩并对多种知识对应的不同非掩码区域进行相互独立的特征提取，并且每个卷积模块的输入图像具有不同分辨率。Transformer模块针对未遮掩的特征进行相互独立的全局特征提取。解码器基于未掩盖的特征和掩码进行图像重建。视觉学习器的预训练过程中，利用多知识融合模块输出的多种知识作为监督信号输入到解码器指导训练过程。

在一个实施例中，解码器的浅层Transformer模块是多个知识的特征共享，而深层的Transformer模块则是不同知识间相互独立，因此也称为部分共享的解码器(PS-Decoder)。

需说明的是，在视觉学习器的预训练过程中，由于卷积模块是针对互补随机掩码图像执行卷积操作，在图2中也标记为互补掩码卷积模块。在下文的描述中，以设置两个互补掩码卷积模块为例进行说明。

步骤S120，预训练视觉学习器，并利用多种不同的知识形成监督信号，以学习到更加多样化和普遍性的视觉特征。

仍结合图2所示，在预训练阶段，首先使用左下角的互补掩码机制生成对应原图像尺寸1/16的四种随机掩码，每种掩码对应一种知识的重建目标，并且掩码之外的未遮挡区域是独立和互补的；然后，通过上采样将图像尺寸1/16的互补随机掩码分别扩大为图像尺寸1/8和图像尺寸1/4的互补随机掩码。

在一个实施例中，视觉学***，由1/16分辨率的掩码拉平之后进行遮掩，然后将未掩盖的特征送入例如11层Transformer模块进行相互独立的全局特征的提取。经过这样多尺度编码网络的特征提取后，这些未掩盖的特征和掩码都会被一起送入一个部分共享的解码器(PS-Decoder)进行图像重建，该解码器的浅层Transformer模块是多个知识的特征共享，而其深层的Transformer模块则是不同知识间相互独立的，通过这种方式使不同的Transformer模块专注不同知识的重建，缓解梯度冲突的问题。最终，不同知识对应的特征会分别进行掩码部分的预测重建，并与实际的被遮掩部分对应特征计算损失，根据损失进行梯度反传来更新模型参数。

优选地，前两阶段的互补掩码卷积层数均为2，卷积核大小为5*5，在这种设计下，兼顾了视觉学习效果和效率，性能最佳。第三阶段的Transformer层数为11，可以根据网络所需大小进行加深。

在预训练视觉学习器时，将多种类型的知识融合在学习过程中，例如多种知识包括：语言-视觉的多模态的知识、不同图片间的判别性知识和历史动量知识以及RGB像素知识等。在一个实施例中，采用历史动量编码器学习历史动量知识。采用DINO(DETR withImproved denoising anchor boxes)学习不同图片间的判别性知识。采用CLIP学习语言-视觉的多模态的知识，采用已有的ConvMAE或MixMIM学习RGB像素知识，RGB像素知识属于现有技术中，图2中仅简单示意。每种知识都有利于引导网络学习一方面的视觉特征，利用多种不同的知识形成监督信号，使网络学习到更加多样化和普遍性的视觉特征，有利于在各个不同的视觉任务中取得很好的性能。

通过预训练过程，可以使网络提前学习到一定的视觉信号理解能力，并且这种预先训练在时间和计算资源开销上是高效的。此外，利用所设计的互补掩码，使得不同知识对应的可见区域在图像上互补，从而网络的一次前向传播就可以同时进行多种知识的重建，而不是对于不同知识需要前向传播多次，并且在一次传播时不发生不同知识间的信息泄露，这是因为所设计的互补掩码会将不同知识对应的未遮挡区域形成相互独立和互补的关系，并且设计了对应的互补掩码卷积对不同区域独立编码，这样就可以实现无信息泄露的并行多知识重建。

步骤S130，将预训练的视觉学习器应用于下游任务。

进一步地，可以将预训练的视觉学习器应用于下游任务进行处理，通过预训练视觉学习器，提高了下游任务的处理过程。

具体地，参见图3所示，在下游任务应用上，将预训练好的视觉学习器的PS-Decoder和MoR抛弃，将第一阶段和第二阶段的互补掩码卷积换成普通卷积，第三阶段的全局自注意力机制调整为根据下游任务采用局部或者全局自注意力机制。并在第三阶段后，添加一个新的下采样将原分辨率1/16的特征下采样成1/32的特征。然后与前三个阶段产生的1/4，1/8以及1/16的特征一起送入到检测网络或者分割网络中进行下游任务的训练。

需要说明的是，在不违背本发明精神和范围的前提下，本领域技术可对上述实施例进行适当的改变或变型。例如，在预训练阶段融入多种知识，除了采用掩码重建的方式，也可以采用直接监督方式。互补掩码卷积可以一次处理多种知识，也可以分解互补掩码卷积，即通过多次前向传播来分别学习不同的知识。解码器除了部分共享外，也可以是不同知识间完全共享或者完全独立。此外，不同阶段处理图像的尺度也可以不同于上述实施例。并且，多种知识不限于上述四种知识类型，可根据实际需要选择更多的知识类型或不同的知识类型。

进一步地，通过实验证明了本发明解决了预训练中收敛速度慢以及计算资源开销大的问题，相对于现有技术，本发明具有以下效果：

1)现有掩码自动编码器(MAE)的预训练目标是重建被随机掩码遮挡区域的像素值，因此网络只能学习到低层次的像素信息。本发明通过增加多种重建任务，将各种不同模型产生的语义知识注入到网络学习的过程中，使网络学习到更加多样性的信息。参见表1-3，本发明的FastMoR-ConvMAE通过多种知识的融合，在各个任务上达到了最好的指标和最快的收敛速度。

2)现有的掩码技术将图像简单的分为遮挡和未遮挡两部分，并且利用未遮挡部分的信息去恢复遮挡部分的像素，并使用掩码卷积实现仅对未遮挡部分信息的编码。在本发明中，互补掩码可以将不同的知识重建目标对应到互补的未被遮挡的图像区域，并且互补掩码卷积可以在一次网络前向传播过程中对不同知识对应的未遮挡区域进行独立的编码。参见表1-3，通过有效的互补掩码机制和互补掩码卷积进行预训练，本发明的FastMoR-ConvMAE在各个任务上达到了最好的指标和最快的收敛速度。

表1预训练性能

表1中可以看出，对比其他掩码训练方法，本发明的Fast MoR-ConvMAE采用了多知识融合、互补掩码机制和互补掩码卷积，因此只需要更短的200个预训练回合数目以及200个显卡小时，就可以达到比慢了20倍的ConvMAE更好的模型微调精度。

表2应用于检测和实例分割任务的性能

表2是预训练的骨干网络利用Mask RCNN方法在检测和实例分割上的表现。AP^box和AP^mask分别表示检测和语义分割的准确度。可以看出，Fast MoR-ConvMAE在下游目标检测和实例分割上取得了最好的效果。

表3应用于语义分割任务的性能

方法	重建目标	预训练回合	mIoU
				GreenMIM	RGB像素	800	-
HiViT	RGB像素	800	51.2
				MixMIM	RGB像素	600	50.3
ConvMAE	RGB像素	1600	51.7
				FastMoR-ConvMAE	多知识融合	200

表3是预训练的骨干网络利用UperNet方法在语义分割上的表现对比。对比其他利用掩码训练的方法，本发明的Fast MoR-ConvMAE可以获得更好的表现。

综上所述，本发明的技术效果主要体现在以下方面：

1)预训练的高效率。常规的训练均利用了单一的像素知识，并且会耗费大量的预训练时间和计算资源，而本发明提出的多知识融合、互补掩码和互补掩码卷积则可以大幅度的提升预训练的效率和最终的性能。

2)可适配下游任务的广泛性。由于下游任务会在各种场景上有所应用，本发明的预训练可以给网络融合多样性的知识，从而能够在更广泛的下游任务范围内取得更好的结果。

3)部署的灵活性。本发明可以显著减少预训练的时间，从而将模型做的更大，在目前大模型预训练成为人工智能范式的潮流下，更大的模型意味着更好的表征以及下游任务更好的表现，对于智能化***的部署具有重要意义。

本发明可以是***、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++、Python等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种基于多知识融合的视觉学习方法，包括以下步骤：

以设定的损失标准为目标预训练视觉学习器，在预训练过程中，利用所述多知识融合模块学习到的多种知识作为监督信号输入到所述解码器指导训练过程；

其中，对于所述多个卷积模块的输入图像，根据设定的互补掩码确定每种知识的遮掩区域，该互补掩码使得不同知识对应的可见区域在图像上互补。

2.根据权利要求1所述的方法，其特征在于，所述多种知识包括四种，所述多个卷积模块包括第一卷积模块和第二卷积模块，第一卷积模块的输入图像的分辨率是原始图像的1/4，第二卷积模块的输入图像是原始图像的1/8；将第二卷积模块的输出下采样到原始图像分辨率的1/16，并将四种知识对应的不同特征独立出来，利用对应的互补掩码拉平后进行遮掩，进而将未遮掩的特征送入所述Transformer模块，以针对四种知识进行相互独立的全局特征的提取，其中所述原始图像是指输入到所述视觉学习器的图像。

3.根据权利要求2所述的方法，其特征在于，第一卷积模块和第二卷积模块的层数设置为2层，卷积核大小设置为5*5，所述Transformer模块的层数设置为11层。

4.根据权利要求1所述的方法，其特征在于，所述解码器的浅层Transformer模块对所述多种知识的特征共享，所述解码器的深层Transformer模块对于不同知识间相互独立。

5.根据权利要求1所述的方法，其特征在于，所述多种知识包括语言-视觉的多模态的知识、不同图片间的判别性知识、历史动量知识和RGB像素知识。

6.根据权利要求5所述的方法，其特征在于，采用历史动量编码器学习所述历史动量知识，采用DINO模型学习所述不同图片间的判别性知识，采用CLIP学习所述语言-视觉的多模态的知识。

7.一种视觉学习器的应用方法，包括：

针对输入的目标图像，利用多个卷积模块以及根据权利要求1至6中任一项所述方法获得的经训练的Transformer模块提取不同尺度的特征，其中所述Transformer模块采用全局或局部注意力机制对特征进行增强；

8.一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现根据权利要求1至7中任一项所述的方法的步骤。

9.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。