CN116363429A

CN116363429A - 图像识别模型的训练方法、图像识别方法、装置及设备

Info

Publication number: CN116363429A
Application number: CN202310317047.XA
Authority: CN
Inventors: 李兴建; 张泽人; 熊昊一
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-03-28
Filing date: 2023-03-28
Publication date: 2023-06-30

Abstract

本公开提供了一种图像识别模型的训练方法、图像识别方法、装置及设备，涉及人工智能技术领域，具体为深度学习、图像处理、计算机视觉技术领域。该方法包括：对辅助领域的第一样本图像进行灰度化，得到第一辅助图像；将第一辅助图像输入辅助模型，通过辅助模型中的辅助编码器和辅助解码器对第一辅助图像进行色彩恢复，得到第二辅助图像；根据第一辅助图像和第二辅助图像，对辅助编码器和辅助解码器进行预训练；采用目标领域的第二样本图像对目标模型进行微调，且将经微调的目标模型作为目标领域的图像识别模型；目标模型中的目标编码器采用经预训练的辅助编码器进行初始化。通过上述技术方案能够提高图像识别效果。

Description

图像识别模型的训练方法、图像识别方法、装置及设备

技术领域

本公开涉及人工智能技术领域，具体为深度学习、图像处理、计算机视觉技术领域。具体涉及一种图像识别模型的训练方法、图像识别方法、装置及设备。

背景技术

随着深度学习(Deep Learning,DL)技术的快速发展，深度学习已经广泛应用于计算机视觉技术、语音识别技术、自然语言处理技术、深度学习、大数据处理技术等领域。

掩码自编码(Mask Auto Encoder，MAE)模型在许多自然图像识别任务上取得了巨大的成功，但将其迁移到部分领域的图像识别任务中，受数据量较少的影响，图像的识别效果却不理想。

发明内容

本公开提供了一种图像识别模型的训练方法、图像识别方法、装置及设备。

根据本公开的一方面，提供了一种图像识别模型的训练方法，包括：

对辅助领域的第一样本图像进行灰度化，得到第一辅助图像；

将所述第一辅助图像输入辅助模型，通过所述辅助模型中的辅助编码器和辅助解码器对所述第一辅助图像进行色彩恢复，得到第二辅助图像；

根据所述第一辅助图像和所述第二辅助图像，对所述辅助编码器和所述辅助解码器进行预训练；

采用目标领域的第二样本图像对目标模型进行微调，且将经微调的目标模型作为目标领域的图像识别模型；所述目标模型中的目标编码器采用经预训练的辅助编码器进行初始化。

根据本公开的另一方面，提供了一种图像识别方法，包括：

获取目标领域中待识别的目标图像；

将所述目标图像输入目标领域的图像识别模型，得到目标图像的识别结果；

其中，所述目标领域的图像识别模型采用本公开任意实施例公开的图像识别模型的训练方法训练得到。

根据本公开的又一方面，提供了一种图像识别模型的训练装置，包括：

灰度化模块，用于对辅助领域的第一样本图像进行灰度化，得到第一辅助图像；

色彩恢复模块，用于将所述第一辅助图像输入辅助模型，通过所述辅助模型中的辅助编码器和辅助解码器对所述第一辅助图像进行色彩恢复，得到第二辅助图像；

预训练模块，用于根据所述第一辅助图像和所述第二辅助图像，对所述辅助编码器和所述辅助解码器进行预训练；

模型微调模块，用于采用目标领域的第二样本图像对目标模型进行微调，且将经微调的目标模型作为目标领域的图像识别模型；所述目标模型中的目标编码器采用经预训练的辅助编码器进行初始化。

根据本公开的又一方面，提供了一种图像识别装置，包括：

目标图像模块，用于获取目标领域中待识别的目标图像；

图像识别模块，用于将所述目标图像输入目标领域的图像识别模型，得到目标图像的识别结果；

其中，所述目标领域的图像识别模型由本公开任意实施例公开的图像识别模型的训练装置训练得到。

根据本公开的另一方面，提供了一种电子设备，该电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开任意实施例所提供的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行本公开任意实施例所提供的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1a是根据本公开实施例提供的一种图像识别模型的训练方法的流程图；

图1b是根据本公开实施例提供的一种图像识别模型的训练原理示意图；

图2是根据本公开实施例提供的另一种图像识别模型的训练方法的流程图；

图3a是根据本公开实施例提供的又一种图像识别模型的训练方法的流程图；

图3b是根据本公开实施例提供的一种辅助模型、目标模型的训练过程示意图；

图4是根据本公开实施例提供的一种图像识别方法的流程图；

图5是根据本公开实施例提供的一种图像识别模型的训练装置的结构示意图；

图6是根据本公开实施例提供的一种图像识别装置的结构示意图；

图7是用来实现本公开实施例的图像识别模型的训练方法或图像识别方法的电子设备的框图。

具体实施方式

图1a是根据本公开实施例提供的一种图像识别模型的训练方法的流程图。该方法适用于训练目标领域的图像识别模型。该方法可以由图像识别模型的训练装置来执行，该装置可以采用软件和/或硬件的方式实现，并可集成于电子设备中。如图1a所示，本实施例的图像识别模型的训练方法可以包括：

S101，对辅助领域的第一样本图像进行灰度化，得到第一辅助图像；

S102，将所述第一辅助图像输入辅助模型，通过所述辅助模型中的辅助编码器和辅助解码器对所述第一辅助图像进行色彩恢复，得到第二辅助图像；

S103，根据所述第一辅助图像和所述第二辅助图像，对所述辅助编码器和所述辅助解码器进行预训练；

S104，采用目标领域的第二样本图像对目标模型进行微调，且将经微调的目标模型作为目标领域的图像识别模型。

在本公开实施例中，目标领域为需要进行图像识别的领域，但是目标领域中标注样本的数量非常有限，如果直接采用目标领域中的标注样本进行训练很容易导致过拟合，使训练得到的模型泛化性很差。辅助领域为除目标领域之外的其他领域，即辅助领域与目标领域不同。辅助领域具有丰富的标注样本，辅助领域可采用自然场景的图像数据集，例如可视化数据集ImageNet。ImageNet数据集有1281167张图像和标签，共1000类，大概每类1300张图片，验证集有50000副图像，每类50个数据，测试集有100000副图像，每类100个数据，能够提高充足的第一样本图像。

其中，辅助模型为辅助领域的深度学习模型，目标模型为目标领域的深度学习模型，辅助模型中的辅助编码器、目标领域中的目标编码器可均基于掩码自编码模型(MaskAuto Encoder，MAE)结构构建。MAE模型在许多自然图像识别任务上取得了巨大的成功，但直接将其迁移到目标领域的图像识别任务中效果却并不理想。本公开实施例提出了一种全新的MAE预训练任务，通过灰度图片色彩恢复(Colorization)，使编码器能够利用已有的大型自然场景数据集，学习出更适合目标领域图像的特征，从而提高目标领域的图像识别效果。

图1b是根据本公开实施例提供的一种图像识别模型的训练原理示意图，参考图1b，辅助模型基于MAE结构构建，包括辅助编码器和辅助解码器，辅助编码器可采用ViT(Vision Transformer，视觉变换器)中的Encoder(编码器)结构，辅助解码器可采用MAE解码器结构；目标模型包括目标编码器和目标输出层，目标编码器与辅助解码器结构相同。目标输出层的结构由目标识别任务的类型决定，目标识别任务可为图像分类任务或图像分割任务。第一样本图像为辅助领域的RGB三通道图像，第二样本图像可为目标领域的灰度图像，例如医学领域的CT图像等，第一样本图像的数量大于第二样本图像的数量。

参考图1b，在预训练阶段，对辅助类型的第一样本图像进行灰度化得到第一辅助图像，将第一辅助图像输入辅助模型，通过辅助模型中的辅助编码器、辅助解码器对第一辅助图像进行色彩恢复，得到第二辅助图像；根据第一辅助图像、第二辅助图像对辅助编码器、辅助解码器进行预训练，得到经预训练的辅助编码器、辅助解码器。在预训练阶段，通过色彩恢复任务，使辅助编码器充分学习辅助领域的图像语义特征，从而学习到具有良好泛化性能的表征，通过将辅助编码器迁移到目标领域，使目标编码器也具有良好泛化性，能够高质量地学习目标领域的图像特征，从而提高目标领域的图像识别性能。

在微调阶段，采用经预训练的辅助编码器作为初始的目标编码器，即采用经预训练的辅助编码器中的网络参数对目标编码器中的网络参数进行初始化，并将目标领域的第二样本图像输入目标模型，通过目标模型中的目标编码器、目标输出层对第二样本图像进行图像识别，且根据图像识别结果对目标编码器、目标输出层进行微调，将经微调的目标模型作为目标领域的图像识别模型，用于对目标领域的图像进行识别。

通过基于MAE模型结构提出的色彩恢复任务，使得在预训练阶段辅助编码器能够更好地学习图像语义特征，通过采用经预训练的辅助编码器对目标模型中的目标编码器进行初始化，使得目标编码器也可以高质量地学习目标领域的图像特征，从而提升目标领域的图像识别性能。

本公开实施例提供的技术方案，通过辅助模型对第一辅助图像进行色彩恢复得到第二辅助图像，并采用经预训练的辅助编码器对目标模型中的目标编码器进行初始化，使目标编码器可利用辅助领域中的数据集学习出更适合目标领域的图像特征，从而能够提升目标领域的图像识别性能。

在一种可选实施方式中，所述目标领域为医学领域；所述目标模型用于对医学领域的图像进行处理。

在目标领域为医学领域的情况下，目标领域的图像可为CT图像之类的灰度图，通过预训练阶段的灰度图片色彩恢复处理，使模型能更容易迁移到目标领域，取得更好的识别效果。

图2是根据本公开实施例提供的另一种图像识别模型的训练方法的流程图。参见图2，本实施例的图像识别模型的训练方法可以包括：

S201，对辅助领域的第一样本图像进行灰度化，得到第一辅助图像；

S202，对所述第一辅助图像进行掩码遮挡得到经遮挡的第一辅助图像；

S203，将经遮挡的第一辅助图像输入辅助模型，通过所述辅助模型中的辅助编码器和辅助解码器对所述第一辅助图像进行色彩恢复和遮挡位置重建，得到第二辅助图像；

S204，根据所述第一辅助图像和所述第二辅助图像，对所述辅助编码器和所述辅助解码器进行预训练；

S205，采用目标领域的第二样本图像对目标模型进行微调，且将经微调的目标模型作为目标领域的图像识别模型；所述目标模型中的目标编码器采用经预训练的辅助编码器进行初始化。

在预训练阶段，不仅对辅助领域的第一样本图像进行灰度化得到第一辅助图像，还对第一辅助图像进行掩码遮挡得到经遮挡的第一辅助图像，将经遮挡的第一辅助图像输入辅助模型，通过辅助模型不仅对第一辅助图像进行色彩恢复，还根据未遮挡位置对遮挡位置进行重建，得到第二辅助图像。辅助模型不仅执行色彩恢复任务，还执行MIM(MaskImage Modeling，掩码图像重构)任务，能够进一步提高编码器的图像特征提取能力。

本公开实施例对第一样本图像的灰度化方式不做具体限定，例如可采用灰度变换：Y＝0.2126×R+0.7152×G+0.0722×B，其中，RGB分别表示第一样本图像中红、绿、蓝三个颜色通道的值，Y为单通道的灰度值。在对第一样本图像进行灰度化之前，还可对第一样本图像进行随机缩放，224×224分辨率的剪裁。第二辅助图像和第一样本图像都是RGB三通道的彩色图像。

具体的，在预训练阶段，可对第一样本图像进行缩放、剪裁等处理，并采用灰度变换：Y＝0.2126×R+0.7152×G+0.0722×B对经处理的第一样本图像进行灰度化得到第一辅助图像，且采用掩码对第一辅助图像中的部分区域进行遮挡得到经遮挡的第一辅助图像。将经遮挡的第一辅助图像输入辅助模型，通过辅助模型中的辅助编码器、辅助解码器执行色彩恢复任务、MIM任务得到第二辅助图像。辅助编码器通过兼顾色彩恢复任务、MIM任务，能够更好地学习图像特征，从而进一步提高迁移到目标领域的图像识别性能。

在一种可选实施方式中，所述对所述第一辅助图像进行掩码遮挡得到经遮挡的第一辅助图像，包括：采用预设的遮挡比例，对所述第一辅助图像进行掩码遮挡得到经遮挡的第一辅助图像；所述遮挡比例小于遮挡比例阈值。

其中，预设的遮挡比例、遮挡比例阈值可均为经验值，例如遮挡比例阈值可为75％，预设的遮挡比例可为15％。由于色彩恢复任务相当于对每个像素点进行256×256×256个类别的分类，计算复杂度高。通过控制MIM任务采用较低的遮挡比例，相比于采用遮挡比例阈值的高遮挡比例，能够使得辅助模型更好地收敛。

在一种可选实施方式中，所述根据所述第一辅助图像和所述第二辅助图像，对所述辅助编码器和所述辅助解码器进行预训练，包括：根据所述第一辅助图像中每一像素点的像素值，与所述第二辅助图像中对应像素点的像素值，确定预训练损失函数；采用所述预训练损失函数，对所述辅助编码器和所述辅助解码器进行预训练。

在预训练阶段的损失函数可以采用像素级别的平均平方误差(mean squareerror，MSE)损失，又称为L2损失。具体的，针对第一辅助图像中的每一像素点I1，可确定该像素点在第二辅助图像中对应像素点I2，根据该像素点I1在第一辅助图像中的像素值和对应像素点I2在第二辅助图像中的像素值之间的欧式距离，得到预训练损失值，并采用预训练损失值更新辅助编码器、辅助解码器中的网络参数。在预训练阶段，通过像素基本的L2损失函数，实现了辅助编码器、辅助解码器中网络参数的更新，使辅助编码器具有良好的图像特征提取能力。需要说明的是，经训练的辅助模型还可用于对黑白图片的色彩恢复功能。

本公开实施例提供的技术方案，在预训练阶段，辅助模型在色彩恢复任务之余还引入MIM任务，并且控制MIM任务中的掩码遮挡比例，不仅能够进一步提高图像特征提取能力，还能够使辅助模型更好地收敛，从而进一步提升辅助模型迁移到目标领域中的图像识别性能。

图3a是根据本公开实施例提供的又一种图像识别模型的训练方法的流程图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图3a，本实施例的图像识别模型的训练方法可以包括：

S301，对辅助领域的第一样本图像进行灰度化，得到第一辅助图像；

S302，将所述第一辅助图像输入辅助模型，通过所述辅助模型中的辅助编码器和辅助解码器对所述第一辅助图像进行色彩恢复，得到第二辅助图像；

S303，根据所述第一辅助图像和所述第二辅助图像，对所述辅助编码器和所述辅助解码器进行预训练；

S304，将目标领域的第二样本图像输入目标模型中的目标编码器进行特征提取，得到第二目标特征；

S305，将所述第二目标特征输入目标模型中的目标输出层，得到第二样本图像的预测信息；

S306，采用所述第二样本图像的标注信息和所述预测信息，对所述目标编码器和所述目标输出层进行微调，且将经微调的目标模型作为目标领域的图像识别模型。

目标模型包括目标编码器和目标输出层，目标编码器采用经预训练的辅助编码器进行初始化。第二样本图像具有标注信息(ground truth)，标注信息的类别由目标领域的图像识别任务决定，在图像识别任务为图像分割任务的情况下，第二样本图像的标注信息为第二样本图像所标注的图像分割结果；在图像识别任务为图像分类任务的情况下，第二样本图像的标注信息为第二样本图像所标注的图像分类结果。

在微调阶段，将目标领域的第二样本图像输入目标编码器，通过目标编码器对第二样本图像进行特征提取得到第二目标特征；以及，将第二目标特征输入目标输出层进行图像识别，得到第二样本图像的预测信息；根据第二样本图像的预测信息和标注信息，对目标编码器和目标输出层中的网络参数进行更新，例如根据第二样本图像的预测信息和标注信息之间的Logits(对数矫正值)得分进行更新，且将经微调训练的目标模型作为目标领域的图像识别模型。

在微调阶段，通过目标模型对第二样本图像进行图像识别，得到第二样本图像的预测信息，根据第二样本图像的标注信息和预测信息对目标模型进行微调，得到目标领域的图像识别模型。由于目标模型中的目标编码器采用经预训练的辅助编码器进行初始化，可以借住辅助领域的第一样本图像学习图像特征提取能力，减少对目标领域标注数据的依赖。

在一种可选实施方式中，所述采用所述第二样本图像的标注信息和所述预测信息，对所述目标编码器和所述目标输出层进行微调，包括：根据所述第二样本图像的标注信息和所述预测信息之间的差值，确定交叉熵损失；针对所述目标编码器中的目标编码参数，确定所述目标编码参数在所述辅助编码器中对应的辅助编码参数，并根据所述目标编码参数和所述辅助编码参数确定正则化损失；根据所述交叉熵损失和所述正则化损失，对所述目标编码器和所述目标输出层进行微调。

在微调阶段，不仅考虑交叉熵损失，还可引入目标编码参数与辅助编码参数之间的正则化损失，通过引入正则化损失使得目标编码器的更新以辅助编码器的参数为参考依据，从而使得目标编码器在微调阶段能够减少过拟合。

具体的，针对目标编码器中的目标编码参数，根据目标编码器、辅助编码器之间的初始化对应关系，确定目标编码参数在辅助编码器中对应的辅助编码参数，并根据目标编码参数和对应的辅助编码参数确定正则化损失；结合交叉熵损失和正则化损失，对目标编码器和目标输出层中的网络参数进行微调。

在一种可选实施方式中，所述目标编码器采用视觉变换器中的编码器；在所述目标模型为图像分割任务的情况下，所述目标输出层为语义分割的解码器；在所述目标模型为图像分类任务的情况下，所述目标输出层为线性分类器。

在本公开实施例中，目标编码器、辅助编码器结构一致，均可采用MAE中ViT编码器。目标输出层舍弃了轻量级的MAE解码器网络。参考图3b，在目标模型为图像分割任务的情况下，目标输出层可为语义分割的解码器，例如Upernet解码器用于进行2D图像分割，或者UNETR解码器用于进行3D图像分割。

参考图3b，在目标模型为图像分割任务的情况下，目标输出层可以为线性层，可将目标编码器中可学习类CLS对应的输出作为整幅图像的代表，外接线性层，通过线性层将输出映射成与类别数相同的logits得分。由于医疗图像分类中很多数据是多标签的，即一张图像拥有多个类别标签，可再使用Sigmoid函数对其进行激活，并使用损失函数对整个目标模型的网络进行调优。通过根据图像识别任务，为目标输出层适配网络结构，能够实现对目标领域的图像识别。

本公开实施例提供的技术方案，在微调阶段，通过采用经预训练的辅助编码器对目标编码器进行初始化，可以借住辅助领域的第一样本图像学习图像特征提取能力；通过根据交叉熵损失、正则化损失，对目标编码器和目标输出层中的网络参数进行微调，使得目标编码器在微调阶段能够避免过拟合；以及，通过为目标识别任务提供目标输出层的适配网络结构，能够实现对目标领域的图像识别。

图4是根据本公开实施例提供的一种图像识别方法的流程图。该方法适用于执行目标领域的图像识别任务。该方法可以由图像识别装置执行，该装置可以采用软件和/或硬件的方式实现，并可集成于电子设备中。如图4所示，本实施例的图像识别方法可以包括：

S401，获取目标领域中待识别的目标图像；

S402，将所述目标图像输入目标领域的图像识别模型，得到目标图像的识别结果；

目标领域为需要进行图像识别的领域，但是目标领域中标注样本的数量非常有限。目标领域可为医疗图像领域，医疗图像标注成本高，通常来说数据集大小有限。在目标图像为灰度图像的情况下例如CT图像，可将目标图像直接输入目标领域的图像识别模型进行图像识别，得到目标图像的识别结果。在目标图像为彩色图像的情况下，可先对彩色图像进行灰度化，再输入到图像识别模型中。

由于本公开实施例提供的目标领域的图像识别模型采用本公开任意实施例提供的图像识别模型的训练方法构建，因此具有良好的图像识别性能。

本公开实施例提供的技术方案，通过加上色彩恢复的MAE模型进行预训练，且采用经预训练的辅助编码器对目标领域的编码器进行初始化，使得目标编码器能够更好的学习目标领域的图像特征，从而对目标领域具有良好的图像识别性能。

图5是根据本公开实施例提供的一种图像识别模型的训练装置的结构示意图。本实施例适用于训练目标领域的图像识别模型。该装置可以采用软件和/或硬件的方式实现。如图5所示，本实施例的图像识别模型的训练装置500可以包括：

灰度化模块510，用于对辅助领域的第一样本图像进行灰度化，得到第一辅助图像；

色彩恢复模块520，用于将所述第一辅助图像输入辅助模型，通过所述辅助模型中的辅助编码器和辅助解码器对所述第一辅助图像进行色彩恢复，得到第二辅助图像；

预训练模块530，用于根据所述第一辅助图像和所述第二辅助图像，对所述辅助编码器和所述辅助解码器进行预训练；

模型微调模块540，用于采用目标领域的第二样本图像对目标模型进行微调，且将经微调的目标模型作为目标领域的图像识别模型；所述目标模型中的目标编码器采用经预训练的辅助编码器进行初始化。

在一种可选实施方式中，所述色彩恢复模块520包括：

掩码单元，用于对所述第一辅助图像进行掩码遮挡得到经遮挡的第一辅助图像；

辅助模型单元，用于将经遮挡的第一辅助图像输入辅助模型，通过所述辅助模型中的辅助编码器和辅助解码器对所述第一辅助图像进行色彩恢复和遮挡位置重建，得到第二辅助图像。

在一种可选实施方式中，所述掩码单元具体用于：

采用预设的遮挡比例，对所述第一辅助图像进行掩码遮挡得到经遮挡的第一辅助图像；所述遮挡比例小于遮挡比例阈值。

在一种可选实施方式中，所述预训练模块530包括：

训练损失单元，用于根据所述第一辅助图像中每一像素点的像素值，与所述第二辅助图像中对应像素点的像素值，确定预训练损失函数；

预训练单元，用于采用所述预训练损失函数，对所述辅助编码器和所述辅助解码器进行预训练。

在一种可选实施方式中，所述模型微调模块540包括：

特征提取单元，用于将目标领域的第二样本图像输入目标模型中的目标编码器进行特征提取，得到第二目标特征；

预测信息单元，用于将所述第二目标特征输入目标模型中的目标输出层，得到第二样本图像的预测信息；

模型微调单元，用于采用所述第二样本图像的标注信息和所述预测信息，对所述目标编码器和所述目标输出层进行微调。

在一种可选实施方式中，所述模型微调单元包括：

交叉熵损失子单元，用于根据所述第二样本图像的标注信息和所述预测信息之间的差值，确定交叉熵损失；

正则化损失子单元，用于针对所述目标编码器中的目标编码参数，确定所述目标编码参数在所述辅助编码器中对应的辅助编码参数，并根据所述目标编码参数和所述辅助编码参数确定正则化损失；

模型微调子单元，用于根据所述交叉熵损失和所述正则化损失，对所述目标编码器和所述目标输出层进行微调。

在一种可选实施方式中，所述目标编码器采用视觉变换器中的编码器；

在所述目标模型为图像分割任务的情况下，所述目标输出层为语义分割的解码器；在所述目标模型为图像分类任务的情况下，所述目标输出层为线性分类器。

本公开实施例的技术方案，通过辅助模型对第一辅助图像进行色彩恢复得到第二辅助图像，使辅助模型中的辅助编码器能够高质量地学习图像语义特征；以及，通过采用经预训练的辅助编码器对目标模型中的目标编码器进行初始化，并采用目标领域的第二样本图像对目标模型进行微调，能够提升目标领域的图像识别性能。

图6是根据本公开实施例提供的一种图像识别装置的结构示意图。本实施例适用于执行目标领域的图像识别任务。该装置可以采用软件和/或硬件的方式实现。如图6所示，本实施例的图像识别装置600可以包括：

目标图像模块610，用于获取目标领域中待识别的目标图像；

图像识别模块620，用于将所述目标图像输入目标领域的图像识别模型，得到目标图像的识别结果；

其中，所述目标领域的图像识别模型由本公开任意实施例提供的图像识别模型的训练装置训练得到。

本公开实施例的技术方案，通过加上色彩恢复的MAE模型进行预训练，且采用经预训练的辅助编码器对目标领域的编码器进行初始化，使得目标编码器能够更好的学习目标领域的图像特征，从而对目标领域具有良好的图像识别性能。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，电子设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储电子设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

电子设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如图像识别模型的训练方法或图像识别方法。例如，在一些实施例中，图像识别模型的训练方法或图像识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到电子设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的图像识别模型的训练方法或图像识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像识别模型的训练方法或图像识别方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式***的服务器，或者是结合了区块链的服务器。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。

云计算(cloud computing)，指的是通过网络接入弹性可扩展的共享物理或虚拟资源池，资源可以包括服务器、操作***、网络、软件、应用和存储设备等，并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术，可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像识别模型的训练方法，包括：

2.根据权利要求1所述的方法，其中，所述将所述第一辅助图像输入辅助模型，通过所述辅助模型中的辅助编码器和辅助解码器对所述第一辅助图像进行色彩恢复，得到第二辅助图像，包括：

对所述第一辅助图像进行掩码遮挡得到经遮挡的第一辅助图像；

将经遮挡的第一辅助图像输入辅助模型，通过所述辅助模型中的辅助编码器和辅助解码器对所述第一辅助图像进行色彩恢复和遮挡位置重建，得到第二辅助图像。

3.根据权利要求2所述的方法，其中，所述对所述第一辅助图像进行掩码遮挡得到经遮挡的第一辅助图像，包括：

4.根据权利要求1所述的方法，其中，所述根据所述第一辅助图像和所述第二辅助图像，对所述辅助编码器和所述辅助解码器进行预训练，包括：

根据所述第一辅助图像中每一像素点的像素值，与所述第二辅助图像中对应像素点的像素值，确定预训练损失函数；

采用所述预训练损失函数，对所述辅助编码器和所述辅助解码器进行预训练。

5.根据权利要求1所述的方法，其中，所述采用目标领域的第二样本图像对目标模型进行微调，包括：

将目标领域的第二样本图像输入目标模型中的目标编码器进行特征提取，得到第二目标特征；

将所述第二目标特征输入目标模型中的目标输出层，得到第二样本图像的预测信息；

采用所述第二样本图像的标注信息和所述预测信息，对所述目标编码器和所述目标输出层进行微调。

6.根据权利要求5所述的方法，其中，所述采用所述第二样本图像的标注信息和所述预测信息，对所述目标编码器和所述目标输出层进行微调，包括：

根据所述第二样本图像的标注信息和所述预测信息之间的差值，确定交叉熵损失；

针对所述目标编码器中的目标编码参数，确定所述目标编码参数在所述辅助编码器中对应的辅助编码参数，并根据所述目标编码参数和所述辅助编码参数确定正则化损失；

根据所述交叉熵损失和所述正则化损失，对所述目标编码器和所述目标输出层进行微调。

7.根据权利要求5所述的方法，所述目标编码器采用视觉变换器中的编码器；

8.根据权利要求1-7中任一项所述的方法，其中，所述目标领域为医学领域；所述目标模型用于对医学领域的图像进行处理。

9.一种图像识别方法，包括：

获取目标领域中待识别的目标图像；

其中，所述目标领域的图像识别模型采用如权利要求1-8中任一项所述的方法训练得到。

10.一种图像识别模型的训练装置，包括：

11.根据权利要求10所述的装置，其中，所述色彩恢复模块包括：

12.根据权利要求11所述的装置，其中，所述掩码单元具体用于：

13.根据权利要求10所述的装置，其中，所述预训练模块包括：

14.根据权利要求10所述的装置，其中，所述模型微调模块包括：

15.根据权利要求14所述的装置，其中，所述模型微调单元包括：

16.根据权利要求14所述的装置，所述目标编码器采用视觉变换器中的编码器；

17.根据权利要求10-16中任一项所述的装置，其中，所述目标领域为医学领域；所述目标模型用于对医学领域的图像进行处理。

18.一种图像识别装置，包括：

目标图像模块，用于获取目标领域中待识别的目标图像；

其中，所述目标领域的图像识别模型由权利要求10-17中任一项所述的装置训练得到。

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-9中任一项所述的方法。

21.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法。