CN116030156B

CN116030156B - 图像重建模型的迭代方法和图像重建方法

Info

Publication number: CN116030156B
Application number: CN202310161883.3A
Authority: CN
Inventors: 朱优松; 李朝闻; 陈志扬; 赵朝阳; 唐明; 王金桥
Original assignee: Wuhan Artificial Intelligence Research Institute; Institute of Automation of Chinese Academy of Science
Current assignee: Wuhan Artificial Intelligence Research Institute; Institute of Automation of Chinese Academy of Science
Priority date: 2023-02-24
Filing date: 2023-02-24
Publication date: 2023-07-18
Anticipated expiration: 2043-02-24
Also published as: CN116030156A

Abstract

本发明涉及图像处理技术领域，提供了一种图像重建模型的迭代方法和图像重建方法，其中图像重建模型的迭代方法包括：基于原始图像进行掩码，得到多个掩码图像；基于初始图像重建模型，对各个掩码图像中的掩码区域进行重建，得到所述各个掩码图像对应的重建图像；确定各个重建图像中两两重建图像之间的重叠区域，基于两两重建图像中重叠区域的区域特征之间的特征相似度，对所述初始图像重建模型进行参数迭代，得到图像重建模型，解决了传统方案中模型具有高度的不确定性和不一致性的问题，通过自洽机制可以使得不同重建图像之间的重叠区域保持一致，提升了模型的训练效率，同时优化了模型的预测准确率。

Description

图像重建模型的迭代方法和图像重建方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种图像重建模型的迭代方法和图像重建方法。

背景技术

随着计算机视觉的技术不断发展，无标签数据的获取愈加容易。但是，对于海量的无标签数据，若通过人工进行标注，则不仅需耗费大量的时间精力，还极易出现错标、漏标等情况。而自监督算法无需提供带标签的数据也能进行模型训练，并且较之传统的有监督学习，其在众多方面有着明显优势，例如，避免有监督偏见、长尾问题。

目前，视觉自注意力模型在各类计算机视觉任务中表现出了很好的效果。然而，对于模型通过观测发现，高掩码率会带来十分严重的问题，即会使得模型具有高度的不确定性和不一致性，简而言之，高掩码率会引入不可靠的特征，因而，对于基于原始图像的不同的掩码设置，模型对同一掩码图块的输出结果大概率是不一致的。

发明内容

本发明提供一种图像重建模型的迭代方法和图像重建方法，用以解决现有技术中模型具有高度的不确定性和不一致性的缺陷，实现了模型训练效率和预测准确率的提升。

本发明提供一种图像重建模型的迭代方法，包括：

基于原始图像进行掩码，得到多个掩码图像；

基于初始图像重建模型，对各个掩码图像中的掩码区域进行重建，得到所述各个掩码图像对应的重建图像；

确定各个重建图像中两两重建图像之间的重叠区域，基于两两重建图像中重叠区域的区域特征之间的特征相似度，对所述初始图像重建模型进行参数迭代，得到图像重建模型。

根据本发明提供的一种图像重建模型的迭代方法，所述基于两两重建图像中重叠区域的区域特征之间的特征相似度，对所述初始图像重建模型进行参数迭代，得到图像重建模型，包括：

基于两两重建图像中重叠区域的区域特征之间的特征相似度，确定所述初始图像重建模型的一致性损失；

基于所述各个重建图像中的重建区域，以及所述原始图像中的图像区域，确定所述初始图像重建模型的重建损失；

基于所述重建损失，以及所述一致性损失，对所述初始图像重建模型进行参数迭代，得到图像重建模型。

根据本发明提供的一种图像重建模型的迭代方法，所述基于所述各个重建图像中的重建区域，以及所述原始图像中的图像区域，确定所述初始图像重建模型的重建损失，包括：

基于所述各个重建图像中的重建区域，确定所述重建区域在所述原始图像中对应的图像区域；

分别提取所述各个重建图像中重建区域的区域特征，以及所述重建区域在所述原始图像中对应的图像区域的区域特征；

基于所述各个重建图像中重建区域的区域特征，与所述重建区域在所述原始图像中对应的图像区域的区域特征之间的特征相似度，确定所述初始图像重建模型的重建损失。

根据本发明提供的一种图像重建模型的迭代方法，所述各个掩码图像的掩码率相同；

所述各个掩码图像中的可见区域互不相同，且所述各个掩码图像中的可见区域构成所述原始图像。

根据本发明提供的一种图像重建模型的迭代方法，所述初始图像重建模型是在掩码自编码器和自洽层的基础上构建的；

所述自洽机制用于确定所述两两重建图像之间的重叠区域，并指导所述两两重建图像中重叠区域的区域特征之间的一致性。

本发明还提供一种图像重建方法，包括：

确定待重建图像；

基于图像重建模型中的编码层，对所述待重建图像进行特征提取，得到所述待重建图像的图像特征，所述图像重建模型是基于如上述任一项所述的图像重建模型的迭代方法确定的；

基于所述图像特征，对所述待重建图像进行重建。

本发明还提供一种图像重建模型的迭代装置，包括：

掩码单元，用于基于原始图像进行掩码，得到多个掩码图像；

重建单元，用于基于初始图像重建模型，对各个掩码图像中的掩码区域进行重建，得到所述各个掩码图像对应的重建图像；

迭代单元，用于确定各个重建图像中两两重建图像之间的重叠区域，基于两两重建图像中重叠区域的区域特征之间的特征相似度，对所述初始图像重建模型进行参数迭代，得到图像重建模型。

本发明还提供一种图像重建装置，包括：

图像确定单元，用于确定待重建图像；

特征提取单元，用于基于图像重建模型中的编码层，对所述待重建图像进行特征提取，得到所述待重建图像的图像特征，所述图像重建模型是基于如上述任一项所述的图像重建模型的迭代方法确定的；

图像重建单元，用于基于所述图像特征，对所述待重建图像进行重建。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的图像重建模型的迭代方法，或如上述所述的图像重建方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的图像重建模型的迭代方法，或如上述所述的图像重建方法。

本发明提供的图像重建模型的迭代方法和图像重建方法，对原始图像进行掩码，得到多个掩码图像；根据初始图像重建模型，对各个掩码图像中的掩码区域进行重建，得到各个掩码图像对应的重建图像；确定各个重建图像中两两重建图像之间的重叠区域，基于两两重建图像中重叠区域的区域特征之间的特征相似度，对初始图像重建模型进行参数迭代，得到图像重建模型，解决了传统方案中模型具有高度的不确定性和不一致性的问题，通过自洽机制可以使得不同重建图像之间的重叠区域保持一致，提升了模型的训练效率，同时优化了模型的预测准确率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的图像重建模型的迭代方法的流程示意图；

图2是本发明提供的图像重建模型的迭代方法的总体框架图；

图3是本发明提供的图像重建方法的流程示意图；

图4是本发明提供的图像重建模型的迭代装置的结构示意图；

图5是本发明提供的图像重建装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着计算机视觉的技术不断发展，无标签数据的获取愈加容易。但是，对于海量的无标签数据，若通过人工进行标注，则不仅需耗费大量的时间精力，还极易出现错标、漏标等情况。而自监督算法无需提供带标签的数据也能进行模型训练，并可以提供给计算机视觉领域的各类任务以预训练模型；并且，较之传统的有监督算法，其在避免有监督偏见、长尾问题，以及拟合海量业务数据中有着明显的优势。

相对于传统的卷积神经网络，视觉Transformer（自注意力模型）在建立长距离关系模型、自监督学习，以及拟合海量视觉数据中有着明显优势。目前，视觉Transformer已经在各类计算机视觉任务中表现出很好的效果。然而，通过观测却发现高掩码率会导致十分严重的问题，即会使得模型具有高度的不确定性和不一致性。

究其根本，是高掩码率引入不可靠的特征，因而，从原始图像中采样的可见斑块的不同组合，对于同一掩码图块的预测可能会产生不一致的输出结果，简而言之，对于基于原始图像的不同的掩码设置，模型对于同一掩码图块的输出结果的语义大概率是不一致的。

对此，本发明提供一种图像重建模型的迭代方法，旨在通过自洽机制使得输出结果之间的重叠区域保持一致，从而克服模型高度的不确定性和不一致性，提升模型的性能和训练效率，图1是本发明提供的图像重建模型的迭代方法的流程示意图，如图1所示，该方法包括：

步骤110，基于原始图像进行掩码，得到多个掩码图像；

具体地，在进行模型训练之前，首先需要获取迭代所需的原始数据，由于此处应用于图像重建，对应于图像重建模型，因而原始数据可以理解为原始图像。此处，原始图像可以是各种领域各种类型下的完整图像，例如，人物图像、风景图像、核磁共振图像、CT（Computed Tomography，电子计算机断层扫描）图像等，其可以通过图像采集设备采集得到，也可以通过网络下载得到，或者通过其他方式得到，本发明实施例不做具体限定。

而在得到原始图像之后，还需对原始图像进行掩码，以得到多个掩码图像，即可以针对于原始图像进行随机掩码，从而得到互不相同的多个掩码图像。此处，图像掩码的过程可以理解为在原始图像的基础上，通过图像裁剪、图块分组等得到多个由原始图像中的图像区域（可见区域），以及原始图像中的被遮掩区域（掩码区域）构成的掩码图像。值得注意的是，每一掩码图像中的可见区域是不完全重叠的。

步骤120，基于初始图像重建模型，对各个掩码图像中的掩码区域进行重建，得到各个掩码图像对应的重建图像；

具体地，经过步骤110，得到多个掩码图像之后，即可执行步骤120，通过初始图像重建模型，对各个掩码图像中的掩码区域进行重建，得到各个掩码图像对应的重建图像，具体过程可以包括：

首先，需确定各个掩码图像中的可见区域和掩码区域，此处可见区域对应于原始图像中的图像区域，掩码区域则对应于被遮掩区域；同时，还需确定初始图像重建模型，此处的初始图像重建模型可以是在传统掩码图像模型的基础上，结合自洽机制构建得到的；

然后，可以应用初始图像重建模型，对各个掩码图像中的掩码区域进行重建，从而得到各个掩码图像对应的重建图像，具体而言，是将掩码图像输入至初始图像重建模型，初始图像重建模型则可根据输入的掩码图像中的可见区域，预测掩码图像中的掩码区域，以得到对应于掩码区域的重建图像，即是通过提取得到的可见区域的区域特征，对掩码区域进行重建，从而得到初始图像重建模型输出的重建图像。

值得注意的是，此处模型输出的重建图像并非是完整图像，而是仅包含对掩码区域进行重建所得的重建区域的图像，简而言之，其中仅包含对应于掩码区域的重建区域，未包含掩码图像中的可见区域。

步骤130，确定各个重建图像中两两重建图像之间的重叠区域，基于两两重建图像中重叠区域的区域特征之间的特征相似度，对初始图像重建模型进行参数迭代，得到图像重建模型。

具体地，得到各个掩码图像对应的重建图像之后，即可确定各个重建图像中两两之间的重叠区域，并据此重叠区域的区域特征之间的特征相似度，进行模型训练，以得到图像重建模型，具体过程包括：

由于人工智能相当于一个自洽***，其有助于高效学习和错误纠正，因而，此处可以引入自洽机制以提高模型的训练效率和一致性，具体而言，自洽机制对于不同输入，鼓励模型预测的输出结果中的重叠区域具备一致性，即可以通过损失函数拉近重叠区域之间的距离，从而使模型输出的输出结果中重叠区域尽可能的保持一致。

鉴于此，本发明实施例中，初始图像重建模型的参数迭代的过程，首先，可以通过自洽机制确定各个重建图像中两两之间的重叠区域，即确定两两重建图像之间的重叠区域，具体可以是，从各个重建图像中确定由两个重建图像组成的多个图像组，并确定每一图像组中两个重建图像的重建区域之间的重叠区域。

随即，可以提取两两重建图像中重叠区域的区域特征，即可以对每一图像组中两个重建图像的重叠区域进行特征提取，提取重叠区域的图像信息，从而得到每一图像组中两个重叠图像的重叠区域的区域特征。由于特征提取过程中主要提取的是语义信息，因此，提取得到的区域特征亦可以称之为重叠区域的语义特征；

随后，可以据此两个重叠图像的重叠区域的区域特征，计算每一图像组中重叠区域的特征相似度，即计算两两重叠图像中重叠区域的区域特征之间的特征相似度，此处的特征相似度可以是通过余弦相似度、欧氏距离、闵氏距离等度量的语义特征之间的语义相似度；

此后，即可依据两两重建图像中重叠区域的区域特征之间的特征相似度，对初始图像重建模型进行参数迭代，从而得到图像重建模型，具体可以是，根据两两重建图像中重叠区域的区域特征之间的特征相似度，对初始图像重建模型进行参数调整，以使调整后的初始图像重建模型在面对不同掩码图像时，能够使其对应输出的不同重建图像中的重叠区域的区域特征之间的特征相似度尽可能的高，简而言之，使模型输出的不同重建图像中的重叠区域尽可能的一致，最终可以得到训练完成的图像重建模型。

本发明实施例中，引入自洽机制并利用不同重建图像中重叠区域的自洽性进行模型训练，可以使得模型对于重叠区域的预测尽可能的一致，通过拉近不同重建图像中重叠区域的区域特征之间的距离，可以极大地减小模型对于同一掩码区域的输出结果之间的误差，降低模型的不确定性和不一致性，实现了模型训练效率和预测准确率的提升。

本发明提供的图像重建模型的迭代方法，对原始图像进行掩码，得到多个掩码图像；根据初始图像重建模型，对各个掩码图像中的掩码区域进行重建，得到各个掩码图像对应的重建图像；确定各个重建图像中两两重建图像之间的重叠区域，基于两两重建图像中重叠区域的区域特征之间的特征相似度，对初始图像重建模型进行参数迭代，得到图像重建模型，解决了传统方案中模型具有高度的不确定性和不一致性的问题，通过自洽机制可以使得不同重建图像之间的重叠区域保持一致，提升了模型的训练效率，同时优化了模型的预测准确率。

基于上述实施例，步骤130中，基于两两重建图像中重叠区域的区域特征之间的特征相似度，对初始图像重建模型进行参数迭代，得到图像重建模型，包括：

基于两两重建图像中重叠区域的区域特征之间的特征相似度，确定初始图像重建模型的一致性损失；

基于各个重建图像中的重建区域，以及原始图像中的图像区域，确定初始图像重建模型的重建损失；

基于重建损失，以及一致性损失，对初始图像重建模型进行参数迭代，得到图像重建模型。

具体地，步骤130中，依据两两重建图像中重叠区域的区域特征之间的特征相似度，对初始图像重建模型进行参数迭代，从而得到图像重建模型的过程，具体包括如下步骤：

首先，可以根据两两重建图像中重叠区域的区域特征之间的特征相似度，确定模型训练过程中的自洽损失，即对于不同重建图像中的重叠区域在语义层面的损失，亦可以称之为语义的一致性损失，即利用每一图像组中重叠区域的区域特征之间的特征相似度，计算初始图像重建模型对于重叠区域在语义层面的一致性损失；

同时，可以根据初始图像重建模型输出的各个重建图像，以及原始图像，度量初始图像重建模型的重建损失，该重建损失即初始图像重建模型对各个掩码图像中的掩码区域的重建过程的损失，由于重建图像中仅包含掩码区域对应的重建区域，因此，该重建损失可以通过重建图像中的重建区域，以及原始图像中的图像区域进行度量。

具体而言，可以从局部入手，直接利用重建图像中的重建区域，以及重建区域在原始图像中对应的图像区域，度量初始图像重建模型的重建损失；也可以从全局出发，不仅考虑重建区域与其对应的图像区域之间的一致性，还对重建区域与周围可见区域之间的自然度、衔接度、和谐性等进行考量，从整体层面衡量重建损失，即可以在重建图像的基础上，融合与之对应的掩码图像，以得到完整图像，然后，凭借完整图像和原始图像，衡量初始图像重建模型的重建损失。

此后，即可依据重建损失和一致性损失，对初始图像重建模型进行参数迭代，得到图像重建模型，具体可以是，通过重建损失和一致性损失，计算初始图像重建模型的联合训练损失，并以此联合训练损失为基准，调整对初始图像重建模型的参数，以使调整的模型对于不同掩码图像，输出的重建图像中的重叠区域的区域特征之间的特征相似度尽可能的高，以及使输出的重建图像与原始图像尽可能的接近，从而得到训练完成的图像重建模型。

此处，使用多个损失函数进行联合训练，可以极大地提升模型的性能，使训练所得的图像重建模型的特征提取能力和图像重建能力更优，而依据重建损失调整模型参数，则可以使得模型预测的输出结果更加趋近于真实的原始图像。

本发明实施例中，从两个不同的层面确定初始图像重建模型的训练过程中的损失，并依据此损失进行参数调整，从不同角度实现了模型性能的优化，多重优化的叠加可以使训练所得的图像重建模型的预测能力有了本质的提升，加快了模型训练过程，还提升了预测准确率。

基于上述实施例，基于各个重建图像中的重建区域，以及原始图像中的图像区域，确定初始图像重建模型的重建损失，包括：

基于各个重建图像中的重建区域，确定重建区域在原始图像中对应的图像区域；

分别提取各个重建图像中重建区域的区域特征，以及重建区域在原始图像中对应的图像区域的区域特征；

基于各个重建图像中重建区域的区域特征，与重建区域在原始图像中对应的图像区域的区域特征之间的特征相似度，确定初始图像重建模型的重建损失。

具体地，上述根据各个重建图像中的重建区域，以及原始图像中的图像区域，确定初始图像重建模型的重建损失的过程，具体包括：

首先，需确定各个重建图像中的重建区域在原始图像中对应的图像区域，即以各个重建图像中的重建区域为基准，定位其在原始图像中对应的图像区域，从而得到重建区域在原始图像中对应的图像区域；

然后，可以分别提取各个重建图像中重建区域的区域特征，以及重建区域在原始图像中对应的图像区域的区域特征，具体可以是，对各个重建图像中重建区域，以及重建区域在原始图像中对应的图像区域分别进行特征提取，提取对应区域的图像信息（语义信息），从而得到各个重建图像中重建区域的区域特征，以及重建区域在原始图像中对应的图像区域的区域特征；

之后，可以确定各个重建图像中重建区域的区域特征，与重建区域在原始图像中对应的图像区域的区域特征之间的特征相似度，具体可以是，依据各个重建图像中重建区域的区域特征，与重建区域在原始图像中对应的图像区域的区域特征，进行距离度量，即通过重建区域的区域特征与对应的图像区域的区域特征之间的余弦相似度、欧氏距离、闵氏距离等度量区域特征在语义层面上的相似度，从而得到重建区域的区域特征与对应的图像区域的区域特征之间的特征相似度；

而后，即可根据各个重建图像中重建区域的区域特征，与重建区域在原始图像中对应的图像区域的区域特征之间的特征相似度，确定初始图像重建模型的重建损失，即根据重建区域的区域特征与对应的图像区域的区域特征之间的特征相似度，衡量初始图像重建模型在针对各个掩码图像中的掩码区域进行重建的损失，从而得到重建损失。

基于上述实施例，各个掩码图像的掩码率相同；

各个掩码图像中的可见区域互不相同，且各个掩码图像中的可见区域构成原始图像。

考虑到模型训练过程中，高掩码率除了导致模型具有高度的不确定性和不一致性之外，还会使得训练过程中图像的利用率不高，致使模型的训练效率低下。

此处，以MAE（Masked Autoencoders，掩码自编码器）和BERT（BidirectionalEncoder Representation from Transformers）作为MIM（Masked Image Model，掩码图像模型）和MLM（Masked Language Model，掩码语言模型）的初始模型为例，进行说明：

模型训练过程中，MAE只利用了整个图像的25%来训练模型，与之相反的是，BERT使用了85%的文本语料进行模型训练。由于MIM的数据利用率不足，其训练的轮数比MLM高40倍左右（前者1600个epochs，后者40个epochs），由此可知，MIM的训练效率远远低于MLM，而且其训练的轮数过多。而导致这一结果的原因不仅是图像和语言的信息密度不同，还是MLM和MIM的训练过程对于训练数据在利用上的不同。

鉴于此，本发明实施例中，提出利用整个数据进行模型训练，以提升模型的训练效率，加快模型的收敛速率，即应用完整的原始图像参与模型训练，逐步将原始图像分为多个不重叠的部分，每一部分由一个随机的掩码产生，并且具有相同的掩码率。然后，MIM任务在一次迭代中对所有掩码图像平行进行重建，并输出重建图像。

当MIM的随机掩码率为时，数据利用率为/>；简而言之，随机掩码率越高，数据利用率越低，而过低的数据利用率会导致数据的训练不足，训练效率低下。例如，对于MAE和BERT，若使用相同的/>轮进行训练，则MLM与MIM的数据利用率之比为/>。此外，训练一个1600轮数的模型需耗费大量的时间和资源。因此，为减少训练时间以提升训练效率，本发明实施例中选择整个原始图像参与训练，以充分利用原始图像中的图像区域，从而提高数据利用率。

具体而言，可以对原始图像进行图像裁剪，以将完整的原始图像分为多个图块，接着可以遵照不放回抽样原则，均匀地将这多个图块随机分为不重叠的个部分，各个部分的掩码率相同，如此即可保证原始图像中的各个图块都能被取到，简而言之，通过随机掩码产生的各个掩码图像中的可见区域互不相同，且通过各个掩码图像中的可见区域可以构成完整的原始图像。

在这之后，即可应用初始图像重建模型，对各个掩码图像中的掩码区域进行重建，以得到各个掩码图像对应的重建图像，具体可以是，将各个部分并行输入至初始图像重建模型，以获取输出结果。其中，输入的各个掩码图像可以表示为，输出的各个重建图像则可以表示为/>。

而对于每一掩码图像输入的数据，通过初始图像重建模型可以得到/>的重建图像，而任意两个重建图像之间会有重叠，重叠比例为/>。而对于任意两个掩码图像，其中掩码区域可以表示为1，可见区域则表示为0，因此，重叠区域可以通过如下公式获取得到：

；

式中，和/>分别为以矩阵形式表示的掩码图像/>和掩码图像/>，矩阵中0表示对应掩码图像中的可见区域，1表示掩码区域；/>表示/>和/>之间的重叠区域。

而和/>之间的自洽损失，可以通过如下公式进行表示：

；

式中，表示/>和/>之间的自洽损失，/>和/>分别为/>和/>对应的输出结果（重建图像），/>表示停止梯度，对于任意掩码图像的输出结果，其与其他掩码图像的输出结果计算K-2次。

进一步地，初始图像重建模型的自洽损失（一致性损失）表示为：

；

式中，表示初始图像重建模型的自洽损失，/>表示原始图像，/>为掩码图像的数量。

基于上述实施例，初始图像重建模型是在掩码自编码器和自洽层的基础上构建的；

自洽机制用于确定两两重建图像之间的重叠区域，并指导两两重建图像中重叠区域的区域特征之间的一致性。

具体地，本发明实施例中，初始图像重建模型可以是基于掩码自编码器（MAE）和自洽机制构建的，即是在掩码自编码器的基础上，结合自洽机制，以构建得到初始图像重建模型。

其中，自洽机制可以确定各个重建图像中两两重建图像之间的重叠区域，并可以拉近两两重建图像中重叠区域的区域特征之间的距离，从而使得两两重建图像中重叠区域的预测尽可能的一致。

基于上述实施例，图2是本发明提供的图像重建模型的迭代方法的总体框架图，如图2所示，该方法包括：

首先，基于原始图像进行掩码，得到多个掩码图像；此处各个掩码图像的掩码率相同；各个掩码图像中的可见区域互不相同，且各个掩码图像中的可见区域构成原始图像；

随即，基于初始图像重建模型，对各个掩码图像中的掩码区域进行重建，得到各个掩码图像对应的重建图像；

此后，确定各个重建图像中两两重建图像之间的重叠区域，基于两两重建图像中重叠区域的区域特征之间的特征相似度，对初始图像重建模型进行参数迭代，得到图像重建模型。

其中，基于两两重建图像中重叠区域的区域特征之间的特征相似度，对初始图像重建模型进行参数迭代，得到图像重建模型，包括：基于两两重建图像中重叠区域的区域特征之间的特征相似度，确定初始图像重建模型的一致性损失；基于各个重建图像中的重建区域，以及原始图像中的图像区域，确定初始图像重建模型的重建损失；基于重建损失，以及一致性损失，对初始图像重建模型进行参数迭代，得到图像重建模型。

进一步地，基于各个重建图像中的重建区域，以及原始图像中的图像区域，确定初始图像重建模型的重建损失，包括：基于各个重建图像中的重建区域，确定重建区域在原始图像中对应的图像区域；分别提取各个重建图像中重建区域的区域特征，以及重建区域在原始图像中对应的图像区域的区域特征；基于各个重建图像中重建区域的区域特征，与重建区域在原始图像中对应的图像区域的区域特征之间的特征相似度，确定初始图像重建模型的重建损失。

其中，初始图像重建模型是在掩码自编码器和自洽机制的基础上构建的；并且，自洽机制用于确定两两重建图像之间的重叠区域，并指导两两重建图像中重叠区域的区域特征之间的一致性。

值得注意的是，此处训练得到的图像重建模型可以理解为具有自洽性的高效掩码自动编码器（Efficient Masked AutoEncoders，EMAE），其通过对大数据集（如ImageNet）学习视觉表征，通过完整原始图像的利用，以及自洽机制的掺入，可以在提升模型训练效率的同时，在极大程度上优化模型的性能，降低其不一致性和不确定性。

并且，在公开数据集ImageNet上，EMAE使用ViT-Base（Vision Transformer-Base）结构下仅用300个训练轮数就可以达到掩码图像模型中的最高精度。此外，EMAE在各种下游任务（物体检测、语义分割）上也一直具备最优的的转移性能，其能够更有效地利用数据并获得可靠的视觉表征。

本发明实施例提供的方法，对原始图像进行掩码，得到多个掩码图像；根据初始图像重建模型，对各个掩码图像中的掩码区域进行重建，得到各个掩码图像对应的重建图像；确定各个重建图像中两两重建图像之间的重叠区域，基于两两重建图像中重叠区域的区域特征之间的特征相似度，对初始图像重建模型进行参数迭代，得到图像重建模型，解决了传统方案中模型具有高度的不确定性和不一致性的问题，通过自洽机制可以使得不同重建图像之间的重叠区域保持一致，提升了模型的训练效率，同时优化了模型的预测准确率。

本发明还提供一种图像重建方法，图3是本发明提供的图像重建方法的流程示意图，如图3所示，该方法包括：

步骤310，确定待重建图像；

步骤320，基于图像重建模型中的编码层，对待重建图像进行特征提取，得到待重建图像的图像特征，图像重建模型是基于如上述任一项所述的图像重建模型的迭代方法确定的；

步骤330，基于图像特征，对待重建图像进行重建。

具体地，在进行图像重建之前，首先需要确定需要重建的图像，即待重建图像，此处待重建图像可以是各种领域各种类型下的完整图像，例如，人物图像、风景图像、核磁共振图像、CT图像等，其可以通过图像采集设备采集得到，也可以通过网络下载得到，或者通过其他方式得到，本发明实施例不做具体限定。

然后，可以应用图像重建模型中的编码层，对待重建图像进行特征提取，以提取待重建图像的图像信息，从而得到待重建图像的视觉表征，即待重建图像的图像特征，具体而言，此处是直接加载预先训练好的图像重建模型中的编码层的参数，并将待重建图像输入至编码层，编码层则可以对输入的待重建图像进行特征提取，以提取待重建图像的视觉表征，最终可以得到编码层输出的待重建图像的图像特征。

需要说明的是，在将待重建图像输入至编码层之前，还可以预先训练得到图像重建模型，图像重建模型的迭代过程具体包括：

首先，确定原始图像，并基于原始图像进行掩码，得到多个掩码图像；随即，基于初始图像重建模型，对各个掩码图像中的掩码区域进行重建，得到各个掩码图像对应的重建图像；随后，确定各个重建图像中两两重建图像之间的重叠区域，并基于两两重建图像中重叠区域的区域特征之间的特征相似度，对初始图像重建模型进行参数迭代，从而得到迭代完成的图像重建模型。

此后，即可依据图像特征，对待重建图像进行重建，以得到待重建图像对应的重建图像，具体可以是，以待重建图像的图像特征为基准，进行图像重建任务，从而得到待重建图像对应的重建图像。

值得注意的是，此处训练好的图像重建模型，其中的编码层除了可以用于图像重建任务之外，还可以应用于视觉领域下的其他任务，例如，图像分类、目标检测、语义分割等。

本发明提供的图像重建方法，确定待重建图像，基于图像重建模型中的编码层，对待重建图像进行特征提取，得到待重建图像的图像特征，所述图像重建模型是基于如上述任一项所述的图像重建模型的迭代方法确定的；基于图像特征，对待重建图像进行重建，直接加载迭代完成的图像重建模型中的编码层，应用编码层进行特征提取，能够保证提取所得的视觉表征的准确度和准确率，从而提升了视觉领域下各类任务上的性能，并且加快了各类任务的进程，提高了执行效率。

下面对本发明提供的图像重建模型的迭代装置进行描述，下文描述的图像重建模型的迭代装置与上文描述的图像重建模型的迭代方法可相互对应参照。

图4是本发明提供的图像重建模型的迭代装置的结构示意图，如图4所示，该装置包括：

掩码单元410，用于基于原始图像进行掩码，得到多个掩码图像；

重建单元420，用于基于初始图像重建模型，对各个掩码图像中的掩码区域进行重建，得到所述各个掩码图像对应的重建图像；

迭代单元430，用于确定各个重建图像中两两重建图像之间的重叠区域，基于两两重建图像中重叠区域的区域特征之间的特征相似度，对所述初始图像重建模型进行参数迭代，得到图像重建模型。

本发明提供的图像重建模型的迭代装置，对原始图像进行掩码，得到多个掩码图像；根据初始图像重建模型，对各个掩码图像中的掩码区域进行重建，得到各个掩码图像对应的重建图像；确定各个重建图像中两两重建图像之间的重叠区域，基于两两重建图像中重叠区域的区域特征之间的特征相似度，对初始图像重建模型进行参数迭代，得到图像重建模型，解决了传统方案中模型具有高度的不确定性和不一致性的问题，通过自洽机制可以使得不同重建图像之间的重叠区域保持一致，提升了模型的训练效率，同时优化了模型的预测准确率。

基于上述实施例，迭代单元430用于：

基于上述实施例，所述各个掩码图像的掩码率相同；

基于上述实施例，所述初始图像重建模型是在掩码自编码器和自洽层的基础上构建的；

下面对本发明提供的图像重建装置进行描述，下文描述的图像重建装置与上文描述的图像重建方法可相互对应参照。

图5是本发明提供的图像重建装置的结构示意图，如图5所示，该装置包括：

图像确定单元510，用于确定待重建图像；

特征提取单元520，用于基于图像重建模型中的编码层，对所述待重建图像进行特征提取，得到所述待重建图像的图像特征，所述图像重建模型是基于如上述任一项所述的图像重建模型的迭代方法确定的；

图像重建单元530，用于基于所述图像特征，对所述待重建图像进行重建。

本发明提供的图像重建装置，确定待重建图像，基于图像重建模型中的编码层，对待重建图像进行特征提取，得到待重建图像的图像特征，所述图像重建模型是基于如上述任一项所述的图像重建模型的迭代方法确定的；基于图像特征，对待重建图像进行重建，直接加载迭代完成的图像重建模型中的编码层，应用编码层进行特征提取，能够保证提取所得的视觉表征的准确度和准确率，从而提升了视觉领域下各类任务上的性能，并且加快了各类任务的进程，提高了执行效率。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器（processor）610、通信接口（Communications Interface）620、存储器（memory）630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行图像重建模型的迭代方法或图像重建方法，其中图像重建模型的迭代方法，包括：基于原始图像进行掩码，得到多个掩码图像；基于初始图像重建模型，对各个掩码图像中的掩码区域进行重建，得到所述各个掩码图像对应的重建图像；确定各个重建图像中两两重建图像之间的重叠区域，基于两两重建图像中重叠区域的区域特征之间的特征相似度，对所述初始图像重建模型进行参数迭代，得到图像重建模型。图像重建方法包括：确定待重建图像；基于图像重建模型中的编码层，对所述待重建图像进行特征提取，得到所述待重建图像的图像特征，所述图像重建模型是基于如上述任一项所述的图像重建模型的迭代方法确定的；基于所述图像特征，对所述待重建图像进行重建。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的图像重建模型的迭代方法或图像重建方法，其中图像重建模型的迭代方法，包括：基于原始图像进行掩码，得到多个掩码图像；基于初始图像重建模型，对各个掩码图像中的掩码区域进行重建，得到所述各个掩码图像对应的重建图像；确定各个重建图像中两两重建图像之间的重叠区域，基于两两重建图像中重叠区域的区域特征之间的特征相似度，对所述初始图像重建模型进行参数迭代，得到图像重建模型。图像重建方法包括：确定待重建图像；基于图像重建模型中的编码层，对所述待重建图像进行特征提取，得到所述待重建图像的图像特征，所述图像重建模型是基于如上述任一项所述的图像重建模型的迭代方法确定的；基于所述图像特征，对所述待重建图像进行重建。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法所提供的图像重建模型的迭代方法或图像重建方法，其中图像重建模型的迭代方法，包括：基于原始图像进行掩码，得到多个掩码图像；基于初始图像重建模型，对各个掩码图像中的掩码区域进行重建，得到所述各个掩码图像对应的重建图像；确定各个重建图像中两两重建图像之间的重叠区域，基于两两重建图像中重叠区域的区域特征之间的特征相似度，对所述初始图像重建模型进行参数迭代，得到图像重建模型。图像重建方法包括：确定待重建图像；基于图像重建模型中的编码层，对所述待重建图像进行特征提取，得到所述待重建图像的图像特征，所述图像重建模型是基于如上述任一项所述的图像重建模型的迭代方法确定的；基于所述图像特征，对所述待重建图像进行重建。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图像重建模型的迭代方法，其特征在于，包括：

基于原始图像进行掩码，得到多个掩码图像；

确定各个重建图像中两两重建图像之间的重叠区域，基于两两重建图像中重叠区域的区域特征之间的特征相似度，对所述初始图像重建模型进行参数迭代，得到图像重建模型；

所述基于两两重建图像中重叠区域的区域特征之间的特征相似度，对所述初始图像重建模型进行参数迭代，得到图像重建模型，包括：

2.根据权利要求1所述的图像重建模型的迭代方法，其特征在于，所述基于所述各个重建图像中的重建区域，以及所述原始图像中的图像区域，确定所述初始图像重建模型的重建损失，包括：

3.根据权利要求1或2所述的图像重建模型的迭代方法，其特征在于，所述各个掩码图像的掩码率相同；

4.根据权利要求1或2所述的图像重建模型的迭代方法，其特征在于，所述初始图像重建模型是在掩码自编码器和自洽机制的基础上构建的；

5.一种图像重建方法，其特征在于，包括：

确定待重建图像；

基于图像重建模型中的编码层，对所述待重建图像进行特征提取，得到所述待重建图像的图像特征，所述图像重建模型是基于如权利要求1至4中任一项所述的图像重建模型的迭代方法确定的；

基于所述图像特征，对所述待重建图像进行重建。

6.一种图像重建模型的迭代装置，其特征在于，包括：

迭代单元，用于确定各个重建图像中两两重建图像之间的重叠区域，基于两两重建图像中重叠区域的区域特征之间的特征相似度，对所述初始图像重建模型进行参数迭代，得到图像重建模型；

所述迭代单元具体用于：

7.一种图像重建装置，其特征在于，包括：

图像确定单元，用于确定待重建图像；

特征提取单元，用于基于图像重建模型中的编码层，对所述待重建图像进行特征提取，得到所述待重建图像的图像特征，所述图像重建模型是基于如权利要求1至4中任一项所述的图像重建模型的迭代方法确定的；

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述的图像重建模型的迭代方法，或如权利要求5所述的图像重建方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的图像重建模型的迭代方法，或如权利要求5所述的图像重建方法。