CN113837205B

CN113837205B - 用于图像特征表示生成的方法、设备、装置和介质

Info

Publication number: CN113837205B
Application number: CN202111145999.5A
Authority: CN
Inventors: 孔涛; 周靖皓
Original assignee: Beijing Youzhuju Network Technology Co Ltd
Current assignee: Beijing Youzhuju Network Technology Co Ltd
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2023-04-28
Anticipated expiration: 2041-09-28
Also published as: CN113837205A; WO2023051140A1

Abstract

根据本公开的实施例，提供了用于图像特征表示生成的方法、设备、装置和介质。该方法包括基于参考图像，根据第一模型，生成参考图像的特征表示。该方法还包括基于与参考图像对应的掩码图像，根据第二模型，生成掩码图像的第二特征表示。掩码图像通过向参考图像中的区域应用掩码而生成。第一模型的参数是基于第二模型的参数确定的。该方法还包括确定根据第一特征表示对该区域的第一局部分类结果和根据第二特征表示对该区域的第二局部分类结果。该方法还包括至少基于第一局部分类结果和第二局部分类结果，确定第二模型的参数。以此方式，能够得到准确的图像特征表示结果，并且加强了模型对局部细节的理解。

Description

用于图像特征表示生成的方法、设备、装置和介质

技术领域

本公开的示例实施例总体涉及计算机领域，特别地涉及用于图像特征表示生成的方法、设备、装置和计算机可读存储介质。

背景技术

在计算机视觉(CV)领域中，基于人工智能的各种图像处理技术已经得到显著发展，并且具有广泛应用。计算机视觉可以应用于多种不同的图像处理任务，诸如图像分类以及图像的全景分割等等。针对这些图像处理任务，通常需要获取图像的特征表示以进行进一步的处理。因此，所获取的特征表示在描述图像方面的准确性影响着图像处理任务的准确性。此外，也期望用于生成图像的特征表示的模型具有可扩展性，能够应用于多种不同的图像处理任务。

发明内容

根据本公开的示例实施例，提供了一种用于图像特征表示生成的方案。

在本公开的第一方面，提供了一种的方法。该方法包括基于第一参考图像，根据第一模型，生成第一参考图像的第一特征表示。该方法还包括基于与第一参考图像对应的第一掩码图像，根据第二模型，生成第一掩码图像的第二特征表示。第一掩码图像通过向第一参考图像中的区域应用掩码而生成。第一模型的参数是基于第二模型的参数确定的。该方法还包括确定根据第一特征表示对区域的第一局部分类结果和根据第二特征表示对该区域的第二局部分类结果。该方法还包括至少基于第一局部分类结果和第二局部分类结果，确定第二模型的参数。

在本公开的第二方面，提供了一种电子设备。该设备包括至少一个处理单元；以及至少一个存储器，至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使设备执行以下动作：基于第一参考图像，根据第一模型，生成第一参考图像的第一特征表示；基于与第一参考图像对应的第一掩码图像，根据第二模型，生成第一掩码图像的第二特征表示，第一掩码图像通过向第一参考图像中的区域应用掩码而生成，其中第一模型的参数是基于第二模型的参数确定的；确定根据第一特征表示对区域的第一局部分类结果和根据第二特征表示对该区域的第二局部分类结果；以及至少基于第一局部分类结果和第二局部分类结果，确定第二模型的参数。

在本公开的第三方面，提供了一种用于图像特征表示生成的装置，该装置包括第一表示生成模块，被配置为基于第一参考图像，根据第一模型，生成第一参考图像的第一特征表示；第二表示生成模块，被配置为基于与第一参考图像对应的第一掩码图像，根据第二模型，生成第一掩码图像的第二特征表示，第一掩码图像通过向第一参考图像中的区域应用掩码而生成，其中第一模型的参数是基于第二模型的参数确定的；分类结果确定模块，被配置为确定根据第一特征表示对区域的第一局部分类结果和根据第二特征表示对区域的第二局部分类结果；以及模型参数确定模块，被配置为至少基于第一局部分类结果和第二局部分类结果，确定第二模型的参数。

在本公开的第四方面，提供了一种计算机可读存储介质。介质上存储有计算机程序，程序被处理器执行时实现第一方面的方法。应当理解，本发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了本公开的实施例能够在其中实现的示例环境的示意图；

图2示出了根据本公开的一些实施例的模型预训练架构的示意图；

图3示出了根据本公开的一些实施例的模型微调架构的示意图；

图4示出了根据本公开的一些实施例的用于图像特征表示生成的过程的流程图；

图5示出了根据本公开的一些实施例的用于图像特征表示生成的装置的框图；以及

图6示出了能够实施本公开的多个实施例的设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其他明确的和隐含的定义。

如本文中所使用的，术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联，从而在训练完成后可以针对给定的输入，生成对应的输出。模型的生成可以基于机器学习技术。深度学习是一种机器学习算法，通过使用多层处理单元来处理输入和提供相应输出。神经网络模型是基于深度学习的模型的一个示例。在本文中，“模型”也可以被称为“机器学习模型”、“学习模型”、“机器学习网络”或“学习网络”，这些术语在本文中可互换地使用。如本文所使用的，属于“确定模型的参数”或类似表达是指确定模型的参数的值(又称为参数值)，包括具体值、取值集合或取值范围等。

“神经网络”是一种基于深度学习的机器学习网络。神经网络能够处理输入并且提供相应输出，其通常包括输入层和输出层以及在输入层与输出层之间的一个或多个隐藏层。在深度学习应用中使用的神经网络通常包括许多隐藏层，从而增加网络的深度。神经网络的各个层按顺序相连，从而前一层的输出被提供作为后一层的输入，其中输入层接收神经网络的输入，而输出层的输出作为神经网络的最终输出。神经网络的每个层包括一个或多个节点(也称为处理节点或神经元)，每个节点处理来自上一层的输入。

通常，机器学习大致可以包括三个阶段，即训练阶段、测试阶段和应用阶段(也称为推理阶段)。在训练阶段，给定的模型可以使用大量的训练数据进行训练，不断迭代更新模型的参数值，直到模型能够从训练数据中获取一致的满足预期目标的推理。通过训练，模型可以被认为能够从训练数据中学习从输入到输出之间的关联(也称为输入到输出的映射)。训练后的模型的参数值被确定。在测试阶段，将测试输入应用到训练后的模型，测试模型是否能够提供正确的输出，从而确定模型的性能。在应用阶段，模型可以被用于基于训练得到的参数值，对实际的输入进行处理，确定对应的输出。

在一些机器学习方案中，训练阶段又可以包括预训练和微调。预训练是指针对通用任务来训练模型，即迭代更新模型的参数值。经预训练的模型具有广泛的应用范围，可应用于多种不同的下游任务。微调是指针对将要应用模型的具体下游任务来训练经预训练的模型。微调后的模型更适于处理具体下游任务。

如前文提及的，在CV领域中，针对各种图像处理任务，通常需要获取图像的特征表示以进行进一步的处理。因此，需要模型学习图像的特征表示，即进行视觉表示学习。总体而言，机器学习模型包括生成模型和判别模型。给定输入X和目标Y的联合分布P(X,Y)，生成模型计算P(X|Y＝y)，而判别模型计算P(Y＝y|X)。

目前已经提出一些基于判别模型的视觉表示学习方法，诸如实例判别、聚类判别、数据增强判别等视觉表示学习方法。在基于实例判别的视觉表示学习方法中，图像的多个不同视图用作正样本，而另一图像用作负样本。在基于聚类判别的视觉表示学习方法中，对编码器生成的编码表示进行聚类，并根据聚类的结果为每个样本生成伪标签；然后鉴别器预测两个样本是否来自同一簇，并反向传播到编码器。在基于数据增强判别的视觉表示学习方法中，判断数据增强的类型，例如从样本中预测两个图像块的相对位置，或恢复图像的打乱图像块的位置，或推断图像的旋转角度。

然而，这些基于判别模型的常规的自监督方案无法有效拓展到大规模数据预训练的场景。此外，这些常规方案的学习算法通常基于图像整体语义信息的挖掘，而无法获取图像局部区域或细节的特征表示。

在自然语言处理(NLP)领域中，存在一些基于生成模型的表示学习方法。例如，去噪自编码器模型的无监督表示学习方法取得了很好的效果。掩码语言模型(MaskedLanguage Model)可以被视为降噪自编码器模型的一种。为了建模文本序列，掩码语言模型从输入中随机掩盖了一些标记，然后根据其上下文信息预测被掩盖的标记。在NLP领域中，每个词是离散的，因而可以被单独地标记和预测。与之相比，在CV领域中，图像本身包括的是连续信号，被掩盖的图像部分无法被标记。因此，NLP领域的去噪自编码模型无法直接应用到图像处理。

为了解决被掩盖的图像部分无法被标记的问题，已经提出了一种基于标记器(Tokenizer)的方案。在这种方案中，将离散自编码器作为标记器，给每个需要预测的标记分配一个索引。然而，这种方案需要大量数据来训练标记器。

综上，基于判别模型的视觉表示学习方法扩展性差，而NLP领域的去噪自编码器模型不能直接应用于图像处理。因此，在CV领域中，缺少利用生成模型实现视觉特征表示学习的有效方案。

根据本公开的实施例，提供了一种用于图像特征表示生成的方案，旨在解决上述问题以及其他潜在问题中的一个或多个。在该方案中，基于参考图像，根据第一模型，生成参考图像的第一特征表示。基于对该参考图像中的区域应用掩码所得到的掩码图像，根据第二模型，生成掩码图像的第二特征表示。第一模型的参数是基于第二模型的参数确定的。分别确定根据第一特征表示和第二特征表示对第一参考图像中被掩码区域的第一局部分类结果和第二局部分类结果。至少基于第一局部分类结果和第二局部分类结果，确定第二模型的参数。

在该方案中，对图像的局部区域进行掩码。同时，第一模型的参数基于第二模型，并且第二模型在训练中参数被更新。以此方式，在同一局部区域上进行了自蒸馏学习，以实现掩码预测。因此，这是一种基于掩码预测的生成式视觉无监督表示学习方案。使用这种基于生成模型的视觉表示学习，不需要额外训练的标记器，并且能够得到准确的图像特征表示结果。此外，通过对图像的局部区域进行掩码预测，加强了模型对局部细节的理解，能够更好地应用于某些需要局部细节特征的图像处理任务。

示例环境

图1示出了本公开的实施例能够在其中实现的示例环境100的示意图。在图1的环境100中，期望预训练、微调和应用第一模型130和/或第二模型120。第一模型130和第二模型120被配置为生成图像的特征表示，并且第一模型130的参数是基于第二模型120的参数而确定。相应地，在本文中，第一模型130也称为“教师模型”，并且第二模型120也称为“学生模型”。

总体而言，环境100包括预训练***110以及可选的微调***140和应用***160。在图1的示例实施例以及下文将会描述的一些示例实施例中，预训练***110被配置为利用多个参考图像101-1、101-2……和掩码图像102-1、102-2……来训练第二模型120，从而确定第二模型120的参数和第一模型130的参数。应当理解，虽然图1中仅示出了两个参考图像101-1和101-2以及两个掩码图像102-1和102-2，但这仅仅是示意性的，预训练***110可以利用N个参考图像以及N个掩码图像，其中N为大于等于1的整数。为便于讨论，参考图像101-1和101-2等可以统称或单独称为参考图像101，掩码图像102-1和102-2等可以统称或单独称为掩码图像102。

每个掩码图像102具有相对应的参考图像101。掩码图像102通常是对相应的参考图像101的部分区域应用掩码而获得的。在图1的示例中，掩码图像102-1对应于参考图像101-1，通过向参考图像101-1的部分区域应用掩码而获得掩码图像102-1。类似地，掩码图像102-2对应于参考图像101-2，通过向参考图像101-2的部分区域应用掩码而获得掩码图像102-2。参考图像101和对应的掩码图像102(也称为一对图像)具有相同的对象，并且该对象以相同的视图呈现在该对图像中。

在预训练前，第一模型130和第二模型120的参数值可以被初始化的，并且第一模型130的参数值是基于第二模型120的参数值确定的。经过预训练，第一模型130和第二模型120的参数值被更新和确定。在预训练完成后，第一模型130和第二模型120具有预训练后的参数值。基于这样的参数值，第一模型130和/或第二模型120能够用于生成图像的特征表示，以实现图像处理任务。

将要应用第一模型130和/或第二模型120的特定任务在本文中也称为“下游任务”。下游任务可以包括但不限于图像检索、图像分类、线性协议下的图像分类、全景分割、K最近邻(KNN)匹配、无监督重识别、无监督视频实例分割等。

针对不同的下游任务，可以选择第一模型130或第二模型120来生成图像的特征表示。例如，针对诸如图像分类、线性协议下的图像分类等任务，可以使用第一模型130来生成图像的特征表示。针对诸如全景分割等任务，可以使用第二模型120来生成图像的特征表示。所选择的用于执行下游任务的模型也可以称为“目标模型”。

环境100可选地包括微调***140。在图1中，微调***140接收输入的训练图像141。微调***140可以被配置为根据具体的下游任务，基于训练图像141对目标模型150进行训练，从而对目标模型150进行微调。也即，经过微调，目标模型150的参数被更新和确定。

目标模型150是基于具体的下游任务而从第一模型130和第二模型120中选择的。目标模型150具有经过预训练***110的预训练而确定的参数。在微调阶段，目标模型150生成训练图像141的特征表示。微调***140还可以包括未示出的其他模型或操作，以利用所生成的特征表示实现相应的训练任务。

环境100可选地包括应用***160。取决于具体任务，应用***160中的目标模型150可以是来自预训练***110的第一模型130或第二模型120，或者可以是来自微调***140的经微调的目标模型150。应用***160接收输入的源图像161。应用***160可以被配置为利用目标模型150来执行针对源图像161的特征表示生成。应用***160还可以包括未示出的其他模型或操作，以利用所生成的特征表示完成相应的推理。

在图1中，预训练***110、微调***140和应用***160可以是任何具有计算能力的***，例如各种计算设备/***、终端设备、服务器等。终端设备可以是任意类型的移动终端、固定终端或便携式终端，包括移动手机、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、媒体计算机、多媒体平板、或者前述各项的任意组合，包括这些设备的配件和外设或者其任意组合。服务器包括但不限于大型机、边缘计算节点、云环境中的计算设备，等等。

应当理解，图1示出的环境中的部件和布置仅是示例，适于用于实现本公开所描述的示例实施例的计算***可以包括一个或多个不同的部件、其他部件和/或不同的布置方式。例如，虽然被示出为是分离的，但预训练***110、微调***140和应用***160中的两项或更多项可以集成在相同***或设备。本公开的实施例在此方面不受限制。

以下将继续参考附图，分别描述模型预训练和模型微调的示例实施例。

模型预训练架构

图2示出了根据本公开的一些实施例的模型预训练架构200的示例。图2的架构200可以被实现在图1的预训练***110中。架构200中的各个模块/组件可以由硬件、软件、固件或者它们的任意组合来实现。

如图2所示，示出了用于模型预训练的参考图像101-1和101-2和掩码图像102-1和102-2。参考图像101-1和101-2被输入到第一模型130，并且掩码图像102-1和102-2被输入到第二模型120。从图2可以看出，参考图像101-1和101-2具有相同的对象(例如，图2所示的狗)，但该对象以不同视图呈现在参考图像101-1和101-2中。

在一些实施例中，参考图像101-1和101-2可以是由同一训练图像205通过数据增广操作而生成的。数据增广操作的示例包括但不限于大小缩放、颜色抖动、高斯滤波等。也即，通过对训练图像205执行两次数据增广操作，可以分别获得参考图像101-1和101-2。

作为示例，通过对训练图像205进行大小缩放可以得到参考图像101-1，通过对训练图像202进行镜像和大小缩放可以得到参考图像101-2。本文中所列举的数据增广操作的示例仅仅是示意性的，还可以使用其他数据增广操作来获取参考图像101-1和101-2。

虽然图2中仅示出了一张训练图像205以及由其经过数据增广操作所得到的两个参考图像101-1和101-2，但这仅仅是示例性的。在预训练中，可以从训练图像集中选择一定数目(例如，K张，其中K为正整数)的图像作为一个批次的训练图像X。通过对该批次的训练图像X分别进行数据增广操作，可以获得与训练图像X相对应的参考图像X₁和X₂，以输入到第一模型130。相应地，在本文中，参考图像101-1也可以被表示为X₁，而参考图像101-2也可以被表示为X₂。

虽然图2中示出了对同一训练图像205进行两次数据增广操作来得到两张参考图像101-1和101-2，但这仅仅是示意性的，而无意限制本公开的范围。例如，可以对同一训练图像205进行一次数据增广操作，并将原来的训练图像205和增广后的图像分别作为参考图像101-1和101-2。又如，可以对同一训练图像205进行多于两次的数据增广操作以获得更多的参考图像101。

备选地，在一些实施例中，还可以直接使用训练图像205作为参考图像，而无需数据增广操作。例如，训练数集可以包括具同一对象的多张图像，并且该对象以不同视图呈现在这些图像中。在这种情况下，可以使用这些图像作为参考图像。

如参考图1所描述的，掩码图像102对应于参考图像101。可以通过向参考图像101-1和101-2的部分区域(以下称为“掩码区域”)分别应用掩码来获得掩码图像102-1和102-2。例如，可以对参考图像101的包括一个或多个像素块的区域进行掩码操作，从而获得掩码图像102。参考图2的示例，参考图像101-1和101-2分别被划分成4x4个像素块。对参考图像101-1中包括像素块201-1、201-2和201-3的区域应用掩码，从而获得掩码图像102-1。类似地，对参考图像101-2中包括像素块202-1、202-2、202-3、202-4和202-5的区域应用掩码，从而获得掩码图像102-2。

在一些实施例中，可以每次迭代地选取某一范围内的成块区域进行掩码操作，直到不多于预定比例(例如，50％)的区域已经选择完毕。应当理解，上述所列举的预定比例仅仅是示意性的，可以选择其他数值的预定比例。此外，上述所列举的像素块的总数目以及被掩码的像素块的数目仅是示例性的，而无意限制本公开的范围。

如图2所示，参考图像101与对应的掩码图像102(也称为一对图像)具有相同的对象，并且该对象以相同的视图呈现在该对图像中。可以对参考图像X₁和X₂分别应用掩码从而获得对应的掩码图像

和

相应地，在本文中，掩码图像102-1也可以被表示为

而掩码图像102-2也可以被表示为

掩码图像

和

被输入到第二模型120。

第一模型130和第二模型120可以具有相同的网络结构。这种网络结构也称为孪生双胞胎网络。第一模型130的参数是基于第二模型120的参数而被确定的。也即，第一模型130是教师模型，并且第二模型120是学生模型。

可以通过任何合适的方式来确定第一模型130的参数。作为示例，第一模型130的参数值可以是第二模型120的历史参数值的滑动平均，诸如指数滑动平均(EMA)。例如，可以使用式(1)来确定第一模型130的参数值：

T_t+1＝(1-α)×T_t+α×S_t (1)

其中S_t和T_t分别表示在第t次迭代中第二模型120和第一模型130的参数值，T_t+1表示在第t+1次迭代中第一模型130的参数值。α可以是预设的值，例如0.5或者其他介于0与1之间的适当的值。

继续参考图2，第一模型130基于所输入的参考图像101，生成参考图像101的特征表示h_t，其在本文中也称为“第一特征表示”。第二模型120基于所输入的掩码图像102，生成掩码图像102的特征表示h_s，其在本文中也称为“第二特征表示”。特征表示h_t和h_s可以视为相应图像的隐式特征。

在一些实施例中，特征表示h_t可以包括全局特征表示

和一组局部特征表示

全局特征表示

用于表征整个参考图像101，即，刻画参考图像101的全局特征。一组局部特征表示

中的每个局部特征表示用于表征参考图像101中的对应像素块，即，刻画参考图像101的局部特征。例如，对于具有4×4即16个像素块的参考图像101，特征表示h_t可以包括一个全局特征表示

和16个局部特征表示

每个局部特征表示

用于表征一个像素块。

相应地，特征表示h_s可以包括全局特征表示

和一组局部特征表示

全局特征表示

用于表征整个掩码图像102，即，刻画掩码图像102的全局特征。一组局部特征表示

中的每个局部特征表示用于表征掩码图像102中的对应像素块，即，刻画掩码图像102的局部特征。例如，对于具有4×4即16个像素块的掩码图像102，特征表示h_s可以包括一个全局特征表示

和16个局部特征表示

每个局部特征表示

用于表征一个像素块。

为了使特征表示包括全局特征表示和一组局部特征表示，可以采用诸如变换器(Transformer)来实现第一模型130和第二模型120。在这种情况下，变换器所输出的分类标记([CLS]token)用作全局特征表示，并且所输出的块标记(Patch tokens)用作局部特征表示。应当理解，还可以采用任何其他的适当网络结构来实现第一模型130和第二模型120，本公开的实施例在此方面不受限制。

根据所获得的特征表示h_t和h_s至少对掩码区域进行分类。具体地，确定根据特征表示h_t对掩码区域的局部分类结果，其也称为“第一局部分类结果”，并且确定根据特征表示h_s对掩码区域的局部分类结果，其也称为“第二局部分类结果”。附加地，在一些实施例中，还可以确定根据特征表示h_t对参考图像101的整体分类结果，并且可以确定根据特征表示h_s对掩码图像102的整体分类结果。

为此，在一些实施例中，架构200可以包括分别连接在第二模型120和第一模型130之后的投影层210和投影层215。例如，投影层210和215可以是浅层的全连接层。全局特征表示和局部特征表示的投影网络的参数可以是共享的，例如可以使用同一个投影网络。特征表示h_s和特征表示h_t分别被输入投影层210和投影层215，可以分别得到经过投影的特征表示h_s和特征表示h_t。经过投影的特征表示h_s和特征表示h_t分别用h′_s和h′_t表示。

投影层210和215将特征表示h_s和h_t投影到预定的维度上。在经过投影层210和215之后，特征表示h_s和特征表示h_t的特征空间的维度发生变化。例如，对于具有16个像素块的参考图像101或掩码图像102，每个特征表示h_t或特征表示h_s分别包括一个全局特征表示和16个局部特征表示。对于一批次B张参考图像或B张掩码图像，第一模型130和第二模型120的输出具有B×17×384的维度。17代表1个全局特征表示和16个局部特征表示，并且每个全局特征表示和每个局部特征表示是维度为384的向量。将B×17×384维度的张量输入到投影层210或215，所得到的输出例如变为具有B×17×8192的维度。也即，每个特征表示的特征空间的维度从384变为8192。通过使用投影层210和215，能够便于后续的计算，减少计算量。

在一些实施例中，架构200可以包括Softmax层220和Softmax层225。Softmax层225基于经过投影层215的特征表示h′_t，生成分类结果P_t235。类似地，Softmax层220基于经过投影层210的特征表示h′_s，生成分类结果P_s230。

备选地，在一些实施例中，可以不经由投影层210和215，直接将第二模型120和第一模型130所输出的特征表示h_s和h_t分别输入到Softmax层220和Softmax层225，以获得分类结果P_s230和分类结果P_t235。

备选地，在一些实施例中，可以不使用如图2所示的Softmax层进行分类，而是可以使用其他合适的网络或操作来基于特征表示进行分类。本公开的实施例在此方面不受限制。

在特征表示包括全局特征表示和局部特征表示的实施例中，分类结果P_t235可以包括对应于全局特征表示

的整体分类结果

和对应于一组局部特征表示

的一组局部分类结果

类似地，分类结果P_s230可以包括对应于全局特征表示

的整体分类结果

和对应于一组局部特征表示

的一组局部分类结果

如前所述，在一些实施例中，掩码图像102中的掩码区域可以包括多个像素块。相应地，局部分类结果

可以包括对掩码图像102中被掩码的每个像素块的分类。局部分类结果

可以包括对参考图像101中相应的每个像素块的分类。

备选地，在一些实施例中，分类结果P_t235可以仅包括对应于一组局部特征表示

的局部分类结果

类似地，分类结果P_s230可以仅包括对应于一组局部特征表示

的局部分类结果

分类结果P_s230和分类结果P_t235可以用多个类别上的概率分布来表示。应当理解，由于在此描述的预训练是无监督学习，多个类别可以不具有具体标签。作为示例，可以确定在8192个类别上的分类结果。相应地，每个局部分类结果和每个整体分类结果包括8192个概率分布。

为了确定第二模型120的参数，可以至少最小化基于局部分类结果

和局部分类结果

的损失函数。例如，以下所描述的式(2)示出了最小化基于局部分类结果

和局部分类结果

的损失函数的一个示例：

其中，x₁和x₂分别表示参考图像101-1和参考图像101-2。

和

分别表示掩码图像102-1和掩码图像102-2。θ_s表示第二模型120的参数集。H()表示损失函数，可以使用任意适当的损失函数，例如信息熵函数。以下式(3)示出了损失函数H()的一个示例。

H＝-P_tlogP_s (3)

如式(2)所示，该损失函数基于对参考图像101的局部分类结果

和对与该参考图像101对应的掩码图像102的局部分类结果

而被计算。也即，该损失函数仅在被掩码的区域上计算。由于上述两个局部分类结果(也称为区域标记)是针对同一参考图像的，因此基于这种损失函数的学习可以视为同视野的自蒸馏学习。通过这种同视野的自蒸馏学习，能够无需额外训练的标记器，而实现掩码预测。此外，这种学习方式是针对局部分类结果进行的，因此还能够加强模型对局部细节的理解。以此方式获得的目标模型150在处理细节密集型任务(例如，全景分割)中能够得到更精细和准确的结果。

在一些实施例中，还可以使用附加损失函数来进一步确定第二模型120的参数。例如，以下描述的式(4)示出了附加损失函数的一个示例：

其中，x₁和x₂分别表示参考图像101-1和参考图像101-2。

和

分别表示掩码图像102-1和掩码图像102-2。θ_s表示第二模型120的参数集。H()表示损失函数，例如式(3)所示的信息熵函数。

如式(4)中所示出的，附加损失函数根据以下两项被计算：第一模型130对参考图像101(例如，参考图像101-1)的整体分类结果

以及第二模型120对与不同的参考图像101对应的掩码图像102(例如，掩码图像102-2)的整体分类结果

由于上述两个整体分类结果(也称为分类标记)是针对具有不同视野的参考图像的，因此基于这种附加损失函数的学习也被称为跨视野的自蒸馏学习。通过将上式(4)结合到式(2)，例如使用式(4)与式(2)的和作为最终的损失函数，可以通过利用跨视野的自蒸馏学习，来防止模型坍塌，即防止所有图像被划分到同一类。

应当理解，上文所描述的附加损失函数是示意性的，而不是限制性的。还可以使用其他适当方式(例如，其他的附加损失函数)来防止模型坍塌。

附加地或备选地，还可以对Softmax层220和/或Softmax层225的输入进行中心化(Centering)处理。以对第一模型130，即教师模型，进行中心化为例。，可以采用滑动平均的方式来进行中心化处理。以下的式(5)描述了确定中心点的示例方法：

其中，g_θ(x_i)表示针对参考图像x_i的Softmax层225的输入，例如特征表示h_t(没有投影层的情况下)或特征表示h′_t(有投影层的情况下。B表示一批次参考图像的数目。m是预设的比例参数，m的值可以介于0与1之间，例如0.5。c表示中心点。每次迭代都使用上式(5)来对中心点c进行更新。

可以对输入到Softmax层225的特征表示h_t或特征表示h′_t减去所确定的中心点值，从而对分类结果P_t 235进行中心化。通过对分类结果进行中心化，可以使在所有类别上的概率更平滑。以此方式，能够进一步地避免模型坍塌。

在一些实施例中，还可以对Softmax层220和Softmax层225的输出结果进行尖锐化(Sharpening)处理。例如，可以通过分别降低针对第一模型130的Softmax层220的温度参数或第二模型120的Softmax层225的温度参数，来对分类结果P_s 230和分类结果P_t 235进行尖锐化。在本文中，温度参数指代Softmax层的计算函数中用于控制输出分布的尖锐度的参数。通过尖锐化处理，可以避免分类结果的概率分布过于平滑。以此方式，能够进一步地避免模型坍塌。

本文中介绍了上述防止模型坍塌的示例方式，但这仅是示例性的，而无意任何限制。还可以使用其他的方式来防止模型坍塌。本公开的实施例在此方面不受限制。

基于上文所描述的损失函数(例如，式(2))以及可选的附加损失函数(例如，式(4))，可以进行多次迭代优化，直到迭代收敛或达到预定次数，预训练完成。这样，确定了第二模型120的参数值。此外，可以通过使用利用上文所描述的EMA的方式，来根据所确定的第二模型120的参数值，确定第一模型130的参数值。

由于第一模型130的参数值取决于第二模型120的参数值，因此在预训练中仅对第二模型120进行梯度反向传播以更新参数。如图2所示，如符号280所示，梯度反向传播对第一模型130是停止的。

通过以上所描述的方式，可以通过模型自蒸馏的方式实现对图像特征表示的掩码预测，而无需额外的标记器。这种预训练的模型，对各类下游任务具有很好的迁移性能。此外，本公开的实施例还可以实现图像区域的聚类效果，加强了模型对局部细节的理解。

模型微调架构

以上讨论了对第一模型130和第二模型120的预训练。可以根据将要应用的任务，将预训练后的第一模型130或第二模型120作为目标模型150提供给微调***140。例如，针对诸如图像分类、线性协议下的图像分类等任务，可以将第一模型130作为目标模型150。针对诸如全景分割等任务，可以将第二模型120作为目标模型150。在微调***140中，可以根据将要应用目标模型150的任务，对目标模型150的参数进行进一步的更新。

图3示出了根据本公开的一些实施例的模型微调架构300的示意图。架构300可以被实现在图1的微调***140中。架构300中的各个模块/组件可以由硬件、软件、固件或者它们的任意组合来实现。

图3中的目标模型150具有经预训练***110得到的参数。将训练图像141输入至目标模型150。确定针对具体下游任务的目标函数310。可以通过最小化目标函数310，以反向传播方式来迭代地更新目标模型150的参数值。以此方式，目标模型150针对下游任务被训练。

通过对目标模型150进行微调，能够使目标模型150更好地适用于下游任务。以这种方式，能够提高目标模型150在下游任务上的性能，例如准确度。

在一些实施例中，经过微调后的目标模型150可以被提供至应用***160中使用。备选地，在一些实施例中，也可以不对目标模型150进行微调，而是直接将由预训练***110得到的目标模型150提供至应用***160中使用。例如，针对KNN匹配、无监督重识别、无监督视频实例分割等任务，可以不对目标模型150进行微调。

通过将经过预训练和可选的微调的目标函数150应用于应用***160，可以提高应用***160执行各类任务的准确度。特别是针对需要对图像的局部进行预测的任务，能够更好地提高这类任务的结果准确度。

示例过程

图4示出了根据本公开的一些实施例的用于图像特征表示生成的过程400的流程图。过程400可以被实现在预训练***110和/或微调***140和/或应用***160处。

在框410处，基于第一参考图像，根据第一模型130，生成第一参考图像的第一特征表示。在框420处，基于与第一参考图像对应的第一掩码图像，根据第二模型120，生成第一掩码图像的第二特征表示。第一掩码图像通过向第一参考图像中的区域应用掩码而生成。第一模型130的参数是基于第二模型120的参数确定的。例如，第一参考图像可以是参考图像101-1，第一特征表示可以是特征表示h_t。第一掩码图像可以是掩码图像102-1，第二特征表示可以是特征表示h_s。

在一些实施例中，第一特征表示和第二特征表示可以分别包括全局特征表示和一组局部特征表示。全局特征表示用于表征整个图像。一组局部特征表示中的局部特征表示用于表征图像中的像素块。

在框430处，确定根据第一特征表示对区域的第一局部分类结果和根据第二特征表示对区域的第二局部分类结果。例如，第一局部分类结果可以是局部分类结果

第二局部分类结果可以是局部分类结果

在一些实施例中，该区域可以包括多个像素块。第一局部分类结果和第二局部分类结果可以分别包括对多个像素块中的每个像素块的分类。

在框440处，至少基于第一局部分类结果和第二局部分类结果，确定第二模型120的参数。例如，至少基于式(2)的损失函数来进行迭代更新，从而确定第二模型120的参数值。

在一些实施例中，为了确定第二模型120的参数，还可以基于与第二参考图像对应的第二掩码图像，根据第二模型120，生成第二掩码图像的第三特征表示。第二参考图像与第一参考图像具有相同对象，并且该对象以不同视图呈现在第一参考图像和第二参考图像中。第二掩码图像通过向第二参考图像中的区域应用掩码而生成。可以确定根据第一特征表示对第一参考图像的第一整体分类结果和根据第三特征表示对第二掩码图像的第二整体分类结果，进一步基于第一整体分类结果和第二整体分类结果，确定第二模型120的参数。

作为示例，第二参考图像可以是参考图像101-2，第二掩码图像可以是掩码图像102-2。第一整体分类结果可以是整体分类结果

而第二整体分类结果可以是

可以基于式(2)和式(4)的损失函数来进行迭代更新，从而确定第二模型120的参数值。

在一些实施例中，还可以通过对同一图像执行数据增广操作，来获取第一参考图像和第二参考图像。例如，通过对训练图像205进行数据增广操作，可以得到参考图像101-1和101-2。

在一些实施例中，还可以从参数被确定的第二模型120和所确定的第一模型130中选择目标模型。所确定的第一模型130的参数是基于所确定的第二模型120的参数而确定的。在一些实施例中，还可以根据将要应用目标模型的任务，训练目标模型。

在一些实施例中，将要应用目标模型的任务包括以下至少一项：图像分类，线性协议下的图像分类，以及针对图像的全景分割。

示例装置和设备

图5示出了根据本公开的一些实施例的用于图像特征表示生成的装置500的框图。装置500可以被实现为或者被包括在预训练***110和/或微调***140和/或应用***160中。装置500中的各个模块/组件可以由硬件、软件、固件或者它们的任意组合来实现。

如图所示，装置500包括第一表示生成模块510，被配置为基于第一参考图像，根据第一模型，生成第一参考图像的第一特征表示。装置500还包括第二表示生成模块520，被配置为基于与第一参考图像对应的第一掩码图像，根据第二模型，生成第一掩码图像的第二特征表示。第一掩码图像通过向第一参考图像中的区域应用掩码而生成。第一模型的参数是基于第二模型的参数确定的。

装置500还包括分类结果确定模块530，被配置为确定根据第一特征表示对区域的第一局部分类结果和根据第二特征表示对区域的第二局部分类结果。在一些实施例中，该区域可以包括多个像素块。第一局部分类结果和第二局部分类结果可以分别包括对多个像素块中的每个像素块的分类。

装置500还包括模型参数确定模块540，被配置为至少基于第一局部分类结果和第二局部分类结果，确定第二模型的参数。在一些实施例中，模型参数确定模块540包括：第三表示生成模块，被配置为基于与第二参考图像对应的第二掩码图像，根据第二模型，生成第二掩码图像的第三特征表示。第二参考图像与第一参考图像具有相同对象，并且该对象以不同视图呈现在第一参考图像和第二参考图像中。第二掩码图像通过向第二参考图像中的区域应用掩码而生成。

在一些实施例中，模型参数确定模块540还包括：整体分类结果确定模块，被配置为确定根据第一特征表示对第一参考图像的第一整体分类结果和根据第三特征表示对第二掩码图像的第二整体分类结果。在一些实施例中，模型参数确定模块540还包括：第二模型参数确定模块，被配置为还基于第一整体分类结果和第二整体分类结果，确定第二模型的参数。

在一些实施例中，还可以包括数据增广模块，被配置为通过对同一图像执行数据增广操作，来获取第一参考图像和第二参考图像。

在一些实施例中，还可以包括选择模块，被配置为从参数被确定的第二模型和所确定的第一模型中选择目标模型。所确定的第一模型的参数是基于所确定的第二模型的参数而确定的。

在一些实施例中，还可以包括训练模块，被配置为根据将要应用目标模型的任务，训练目标模型。在一些实施例中，将要应用目标模型的任务包括以下至少一项：图像分类，线性协议下的图像分类，以及针对图像的全景分割。

图6示出了示出了其中可以实施本公开的一个或多个实施例的计算设备600的框图。应当理解，图6所示出的计算设备600仅仅是示例性的，而不应当构成对本文所描述的实施例的功能和范围的任何限制。图6所示出的计算设备600可以用于实现图1的预训练***110和/或微调***140和/或应用***150。

如图6所示，计算设备600是通用计算设备的形式。计算设备600的组件可以包括但不限于一个或多个处理器或处理单元610、存储器620、存储设备630、一个或多个通信单元640、一个或多个输入设备650以及一个或多个输出设备660。处理单元610可以是实际或虚拟处理器并且能够根据存储器620中存储的程序来执行各种处理。在多处理器***中，多个处理单元并行执行计算机可执行指令，以提高计算设备600的并行处理能力。

计算设备600通常包括多个计算机存储介质。这样的介质可以是计算设备600可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器620可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储设备630可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，诸如闪存驱动、磁盘或者任何其他介质，其可以能够用于存储信息和/或数据(例如用于训练的训练数据)并且可以在计算设备600内被访问。

计算设备600可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图6中示出，可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器620可以包括计算机程序产品625，其具有一个或多个程序模块，这些程序模块被配置为执行本公开的各种实施例的各种方法或动作。

通信单元640实现通过通信介质与其他计算设备进行通信。附加地，计算设备600的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，计算设备600可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个网络节点的逻辑连接来在联网环境中进行操作。

输入设备650可以是一个或多个输入设备，例如鼠标、键盘、追踪球等。输出设备660可以是一个或多个输出设备，例如显示器、扬声器、打印机等。计算设备600还可以根据需要通过通信单元640与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等，与一个或多个使得用户与计算设备600交互的设备进行通信，或者与使得计算设备600与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

根据本公开的示例性实现方式，提供了一种计算机可读存储介质，其上存储有计算机可执行指令，其中计算机可执行指令被处理器执行以实现上文描述的方法。根据本公开的示例性实现方式，还提供了一种计算机程序产品，计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令，而计算机可执行指令被处理器执行以实现上文描述的方法。

这里参照根据本公开实施例的方法、装置、设备和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实施例中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所公开的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文公开的各个实现方式。

Claims

1.一种用于图像特征表示生成的方法，包括：

基于第一参考图像，根据第一模型，生成所述第一参考图像的第一特征表示；

基于与所述第一参考图像对应的第一掩码图像，根据第二模型，生成所述第一掩码图像的第二特征表示，所述第一掩码图像通过向所述第一参考图像中的区域应用掩码而生成，其中所述第一模型的参数是基于所述第二模型的参数确定的；

基于与第二参考图像对应的第二掩码图像，根据所述第二模型，生成所述第二掩码图像的第三特征表示，所述第二参考图像与所述第一参考图像具有相同对象，并且所述对象以不同视图呈现在所述第一参考图像和所述第二参考图像中，所述第二掩码图像通过向所述第二参考图像中的区域应用掩码而生成；

确定根据所述第一特征表示对所述区域的第一局部分类结果和根据所述第二特征表示对所述区域的第二局部分类结果，并且确定根据所述第一特征表示对所述第一参考图像的第一整体分类结果和根据所述第三特征表示对所述第二掩码图像的第二整体分类结果；以及

至少基于所述第一局部分类结果、所述第二局部分类结果、所述第一整体分类结果和所述第二整体分类结果，确定所述第二模型的参数。

2.根据权利要求1所述的方法，其中所述第一特征表示和所述第二特征表示分别包括全局特征表示和一组局部特征表示，所述全局特征表示用于表征整个图像，并且所述一组局部特征表示中的局部特征表示用于表征图像中的像素块。

3.根据权利要求1所述的方法，其中所述区域包括多个像素块，并且所述第一局部分类结果和所述第二局部分类结果分别包括对所述多个像素块中的每个像素块的分类。

4.根据权利要求1所述的方法，还包括：

通过对同一图像执行数据增广操作，来获取所述第一参考图像和所述第二参考图像。

5.根据权利要求1所述的方法，还包括：

从参数被确定的所述第二模型和所确定的所述第一模型中选择目标模型，所确定的所述第一模型的参数是基于所确定的所述第二模型的参数而确定的；以及

根据将要应用所述目标模型的任务，训练所述目标模型。

6.根据权利要求5所述的方法，其中所述任务包括以下至少一项：

图像分类，

线性协议下的图像分类，以及

针对图像的全景分割。

7.一种电子设备，包括：

至少一个处理单元；以及

至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令在由所述至少一个处理单元执行时使所述电子设备执行以下动作：

8.根据权利要求7所述的电子设备，其中所述第一特征表示和所述第二特征表示分别包括全局特征表示和一组局部特征表示，所述全局特征表示用于表征整个图像，并且所述一组局部特征表示中的局部特征表示用于表征图像中的像素块。

9.根据权利要求7所述的电子设备，其中所述区域包括多个像素块，并且所述第一局部分类结果和所述第二局部分类结果分别包括对所述多个像素块中的每个像素块的分类。

10.根据权利要求7所述的电子设备，其中所述动作还包括：

11.根据权利要求7所述的电子设备，其中所述动作还包括：

根据将要应用所述目标模型的任务，训练所述目标模型。

12.根据权利要求11所述的电子设备，其中所述任务包括以下至少一项：

图像分类，

线性协议下的图像分类，以及

针对图像的全景分割。

13.一种用于图像特征表示生成的装置，包括

第一表示生成模块，被配置为基于第一参考图像，根据第一模型，生成所述第一参考图像的第一特征表示；

第二表示生成模块，被配置为基于与所述第一参考图像对应的第一掩码图像，根据第二模型，生成所述第一掩码图像的第二特征表示，所述第一掩码图像通过向所述第一参考图像中的区域应用掩码而生成，其中所述第一模型的参数是基于所述第二模型的参数确定的；

第三表示生成模块，被配置为基于与第二参考图像对应的第二掩码图像，根据所述第二模型，生成所述第二掩码图像的第三特征表示，所述第二参考图像与所述第一参考图像具有相同对象，并且所述对象以不同视图呈现在所述第一参考图像和所述第二参考图像中，所述第二掩码图像通过向所述第二参考图像中的区域应用掩码而生成；

分类结果确定模块，被配置为确定根据所述第一特征表示对所述区域的第一局部分类结果和根据所述第二特征表示对所述区域的第二局部分类结果，并且确定根据所述第一特征表示对所述第一参考图像的第一整体分类结果和根据所述第三特征表示对所述第二掩码图像的第二整体分类结果；以及

模型参数确定模块，被配置为至少基于所述第一局部分类结果、所述第二局部分类结果、所述第一整体分类结果和所述第二整体分类结果，确定所述第二模型的参数。

14.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求1至6中任一项所述的方法。