CN115187819A

CN115187819A - 图像分类模型的训练方法、装置、电子设备及存储介质

Info

Publication number: CN115187819A
Application number: CN202211014238.0A
Authority: CN
Inventors: 贾潇; 王子腾; 丁佳; 吕晨翀
Original assignee: Beijing Yizhun Medical AI Co Ltd
Current assignee: Zhejiang Yizhun Intelligent Technology Co.,Ltd.
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2022-10-14
Anticipated expiration: 2042-08-23
Also published as: CN115187819B

Abstract

本公开提供了一种图像分类模型的训练方法、装置、电子设备及存储介质，所述方法包括：确认第一样本图像和第一样本图像对应的第一掩码图像；基于所述第一掩码图像训练图像分类模型包括的第一编码器，确认训练完成的第一编码器为第二编码器；将第二样本图像输入至分类分支中，将第二样本图像对应的第二掩码图像输入至对照分支中，对分类分支输出的第一特征图像和对照分支输出的第二特征图像进行特征融合，获得第一融合特征；将第一融合特征输入至分类分支包括的全连接层分类器中，确认全连接层分类器的输出为第二样本图像对应的肺部预测分类结果；基于第二样本图像的肺部标注分类结果和第二样本图像的肺部预测分类结果调整分类分支的参数。

Description

图像分类模型的训练方法、装置、电子设备及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及一种图像分类模型的训练方法、装置、电子设备及存储介质。

背景技术

掩码自动编码器(MaskedAuto-Encoder，MAE)利用图像信息冗余性的特点，观察部分图像重建原始图像作为代理任务；MAE的编码器具备通过聚合上下文信息来推断被掩盖的图像区域内容的能力；基于胸部X射线图像数据集训练MAE的编码器作为下游任务中的初始权重，无法很好地利用在胸部X射线图像数据集中学习到的先验知识。

发明内容

本公开提供了一种图像分类模型的训练方法、装置、电子设备及存储介质，以至少解决现有技术中存在的以上技术问题。

根据本公开的第一方面，提供了一种图像分类模型的训练方法，包括：

确认第一样本图像和所述第一样本图像对应的第一掩码图像；其中，所述第一掩码图像基于第一样本图像获得，所述第一掩码图像中肺野区域包括掩码；

基于所述第一掩码图像调整图像分类模型包括的第一编码器的参数，确认调整参数后的第一编码器为第二编码器；所述第二编码器应用于图像分类模型包括的分类分支和对照分支；

将第二样本图像输入至所述分类分支中，将所述第二样本图像对应的第二掩码图像输入至所述对照分支中，对所述分类分支输出的第一特征图像和所述对照分支输出的第二特征图像进行特征融合，获得第一融合特征；

将所述第一融合特征输入至所述分类分支包括的全连接层分类器中，确认所述全连接层分类器的输出为所述第二样本图像对应的肺部预测分类结果；

基于所述第二样本图像的肺部标注分类结果和所述第二样本图像的肺部预测分类结果调整所述分类分支的参数。

上述方案中，所述确认第一样本图像和所述第一样本图像对应的第一掩码图像，包括：

对所述第一样本图像进行分割，基于分割结果确定所述第一样本图像中肺野区域和非肺野区域；

基于掩码和/或第一补丁库中的子图像替换所述第一样本图像的肺野区域，得到所述第一样本图像对应的第一掩码图像。

上述方案中，所述基于掩码和/或第一补丁库中的子图像替换所述第一样本图像的肺野区域，得到所述第一样本图像对应的第一掩码图像，包括：

基于所述掩码替换所述第一样本图像的肺野区域，得到所述第一样本图像对应的第一掩码图像；所述第一掩码图像中肺野区域全部为掩码；

或者，基于所述掩码和所述第一补丁库中的子图像，替换所述第一样本图像的肺野区域，得到所述第一样本图像对应的第一掩码图像；所述第一掩码图像中肺野区域部分为掩码，部分为第一补丁库中的子图像。

上述方案中，所述基于所述第一掩码图像调整图像分类模型包括的第一编码器的参数，确认调整参数后的第一编码器为第二编码器，包括：

将所述第一掩码图像输入至所述第一编码器中，确认所述第一编码器的输出为所述第一掩码图像对应的至少一张特征图像；

将所述至少一张特征图像输入至所述图像分类模型包括的解码器中，确认所述解码器的输出为所述第一掩码图像对应的第一重构图像；

基于所述第一重构图像和所述第一样本图像调整所述第一编码器的参数，确认调整参数后的第一编码器为第二编码器。

上述方案中，所述将第二样本图像输入至所述分类分支中，将所述第二样本图像对应的第二掩码图像输入至所述对照分支中，对所述分类分支输出的第一特征图像和所述对照分支输出的第二特征图像进行特征融合，获得第一融合特征，包括：

将所述第二样本图像输入至所述分类分支包括的第三编码器中，确认所述第三编码器的输出为所述第二样本图像对应的第一特征图像；所述第三编码器的参数与所述第二编码器的参数相同；

将所述第二样本图像对应的第二掩码图像输入至所述对照分支包括的第四编码器中，确认所述第四编码器的输出为所述第二样本图像对应的第二特征图像；所述第四编码器的参数与所述第二编码器的参数相同；

对所述第一特征图像和所述第二特征图像进行特征融合，获得第一融合特征。

上述方案中，所述对所述分类分支输出的第一特征图像和所述对照分支输出的第二特征图像进行特征融合，获得第一融合特征，包括：

对所述第一特征图像和所述第二特征图像逐像素作差，得到第一差异特征；

基于所述第一特征图像和所述第一差异特征，获得所述第一融合特征。

上述方案中，所述基于所述第二样本图像的肺部标注分类结果和所述第二样本图像的肺部预测分类结果调整所述分类分支的参数，包括：

基于所述第二样本图像的肺部标注分类结果和所述第二样本图像的肺部预测分类结果，确定交叉熵损失；

基于所述交叉熵损失调整所述分类分支包括的第三编码器的参数和所述全连接层分类器的参数。

根据本公开的第二方面，提供一种图像分类方法，基于第一方面提供的方法训练得到的图像分类模型实现，所述方法包括：

将第一待分类图像输入至所述图像分类模型包括的分类分支中，确认所述分类分支的输出为所述第一待分类图像的分类结果；

和/或，确认所述第一待分类图像对应的第三掩码图像；将所述第三掩码图像输入至所述图像分类模型包括的对照分支中，确认所述对照分支的输出为所述第一待分类图像对应的对照图像。

根据本公开的第三方面，提供一种图像分类模型的训练装置，包括：

分割单元，用于确认第一样本图像和所述第一样本图像对应的第一掩码图像；其中，所述第一掩码图像基于第一样本图像获得，所述第一掩码图像中肺野区域包括掩码；

第一训练单元，用于基于所述第一掩码图像调整图像分类模型包括的第一编码器的参数，确认调整参数后的第一编码器为第二编码器；所述第二编码器应用于图像分类模型包括的分类分支和对照分支；

特征融合单元，用于将第二样本图像输入至所述分类分支中，将所述第二样本图像对应的第二掩码图像输入至所述对照分支中，对所述分类分支输出的第一特征图像和所述对照分支输出的第二特征图像进行特征融合，获得第一融合特征；

第二训练单元，用于将所述第一融合特征输入至所述分类分支包括的全连接层分类器中，确认所述全连接层分类器的输出为所述第二样本图像对应的肺部预测分类结果；

调整单元，用于基于所述第二样本图像的肺部标注分类结果和所述第二样本图像的肺部预测分类结果调整所述分类分支的参数。

根据本公开的第四方面，提供一种图像分类装置，包括：

第一输入单元，用于将第一待分类图像输入至所述图像分类模型包括的分类分支中，确认所述分类分支的输出为所述第一待分类图像的分类结果；

第二输入单元，用于确认所述第一待分类图像对应的第三掩码图像；将所述第三掩码图像输入至所述图像分类模型包括的对照分支中，确认所述对照分支的输出为所述第一待分类图像对应的对照图像。

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开所述的方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开所述的方法。

本公开的图像分类模型的训练方法，通过确认第一样本图像和所述第一样本图像对应的第一掩码图像；其中，所述第一掩码图像基于第一样本图像获得，所述第一掩码图像中肺野区域包括掩码；基于所述第一掩码图像调整图像分类模型包括的第一编码器的参数，确认调整参数后的第一编码器为第二编码器；所述第二编码器应用于图像分类模型包括的分类分支和对照分支；将第二样本图像输入至所述分类分支中，将所述第二样本图像对应的第二掩码图像输入至所述对照分支中，对所述分类分支输出的第一特征图像和所述对照分支输出的第二特征图像进行特征融合，获得第一融合特征；将所述第一融合特征输入至所述分类分支包括的全连接层分类器中，确认所述全连接层分类器的输出为所述第二样本图像对应的肺部预测分类结果；基于所述第二样本图像的肺部标注分类结果和所述第二样本图像的肺部预测分类结果调整所述分类分支的参数；如此，可以充分利用图像分类模型在健康胸片数据集中学习到的先验知识，并将其运用到下游分类任务的训练中，提升图像分类模型的分类效果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1示出了相关技术中MAE的结构示意图；

图2示出了本公开实施例提供的图像分类模型的训练方法的一种可选流程示意图；

图3示出了本公开实施例提供的图像分类模型的训练方法的另一种可选流程示意图；

图4示出了本公开实施例提供的肺野分割的示意图；

图5示出了本公开实施例提供的图像的划分示意；

图6示出了本公开实施例提供的确认第一掩码图像的可选示意图；

图7示出了本公开实施例提供的图像分类模型的一种可选示意图；

图8示出了本公开实施例提供的图像分类模型的另一种可选示意图；

图9示出了本公开实施例提供的图像分类方法的一种可选流程示意图；

图10示出了本公开实施例提供的图像分类模型的训练装置的可选结构示意图；

图11示出了本公开实施例提供的图像分类装置的可选结构示意图；

图12示出了本公开实施例一种电子设备的组成结构示意图。

具体实施方式

为使本公开的目的、特征、优点能够更加的明显和易懂，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而非全部实施例。基于本公开中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

变换器(Transformer)由于自注意力机制能够建立长距离对象间的关系被广泛应用于自然语言处理领域。在计算机视觉领域，视觉变换器(VisionTransformer，ViT)通过将输入图像分为多个块(Patch)，如16*16，再将每个patch投影为固定长度的向量送入Transformer。在拥有足够多的数据进行预训练的时候，ViT的表现就会超过卷积神经网络，突破其缺少归纳偏置的限制，可以在下游任务中获得较好的迁移效果。

图1示出了相关技术中MAE的结构示意图。

掩码自动编码器被证明在预训练自然图像分析的ViT方面是有效的。如图1所示，MAE利用图像信息冗余性的特点，观察部分图像重建原始图像作为代理任务，MAE的编码器具备通过聚合上下文信息来推断被掩盖的图像区域内容的能力。这种上下文聚合能力在医学图像领域也是至关重要的，例如在胸部X射线图像中，解剖结构(肋骨，肺野)在功能上和机械上都与其他结构和区域存在密不可分的联系。

MAE应用在胸部X射线图像分析任务中，通过随机掩盖掉75％图像块的掩码策略对输入图像进行重建，训练完成的MAE的编码器在下游的胸部X射线多标签疾病诊断任务中取得了较高的性能。

但是，基于健康的胸部X射线图像数据集对MAE的编码器进行预训练时，以填充(In-painting)缺失的肺野区域为代理任务(pretexttask)对编码器(ViT模型)进行预训练，得到的ViT权重(即编码器的参数)仅做为下游任务中ViT编码器的初始权重，并在此权重基础上进行微调(Fine-tune)，并没有充分利用图像分类模型在健康的胸部X射线图像数据集中学习到的领域知识(DomainKnowledge，具体指的：不同的健康的胸部X射线图像在相同的位置往往含有相似的结构组织如：肋骨，锁骨，肺门)，没有将预训练任务中获得的额外信息融入到后续的疾病辅助诊断(CAD)模型中，导致图像分类模型最终无法达到较高的分类性能。

基于此，本公开实施例提供一种图像分类模型的训练方法，可以充分利用图像分类模型在健康胸片数据集中学习到的先验知识，并将其运用到下游分类任务的训练中，提升图像分类模型的分类效果。

图2示出了本公开实施例提供的图像分类模型的训练方法的一种可选流程示意图，将根据各个步骤进行说明。

步骤S101，确认第一样本图像和所述第一样本图像对应的第一掩码图像。

在一些实施例中，图像分类模型的训练装置(以下简称第一装置)确认第一样本图像和第一样本图像对应的第一掩码图像；所述第一样本图像可以是健康的(无病变)的胸部X射线图像；所述第一掩码图像基于第一样本图像获得，所述第一掩码图像中肺野区域包括掩码。

具体实施时，所述第一装置可以对所述第一样本图像进行分割，基于分割结果确定所述第一样本图像中肺野区域和非肺野区域；可选的，所述第一装置可以将所述第一样本图像输入至训练好的肺野分割模型(UNet)中，得到第一掩码图像。然后，基于掩码替换所述第一样本图像的肺野区域，得到所述第一样本图像对应的第一掩码图像；或者，基于掩码和第一补丁库中的子图像替换所述第一样本图像的肺野区域，得到所述第一样本图像对应的第一掩码图像。其中，所述第一补丁库包括至少一张健康的胸部X射线图像，以及基于所述至少一张健康的胸部X射线图像分割得到的多张子图像。

具体的，若所述第一装置基于掩码替换所述第一样本图像的肺野区域，则所述第一样本图像的肺野区域全部替换为掩码，非肺野区域不进行任何处理，确认肺野区域为掩码的图像为第一掩码图像。

或者，若所述第一装置基于掩码和第一补丁库中的子图像替换所述第一样本图像的肺野区域，则确认非肺野区域和肺野区域后，基于掩码填充肺野区域；此时肺野区域不包含任何信息；所述第一装置可以通过第一补丁库中的子图像随机替换所述第一样本图像中的肺野区域的掩码，需要说明的是，替换时子图像的结构或位置需要与肺野区域被替换的掩码的结构和位置相对应；具体的，掩码的结构和位置可以是掩码对应的原肺野区域的结构和位置。

在一些可选实施例中，所述第一装置对所述掩码填充肺野区域后的图像进行划分，确认至少一个子图像(patch)，确认所述至少一个子图像中不包含任何信息(即像素和为0)的子图像，组成第一子图像集合；对第一子图像集合中的全部子图像进行编号并打乱顺序，取出打乱顺序后的前第一阈值个子图像，从第一补丁库中获取与所述前第一阈值个子图像位置或编号相同的子图像，用第一补丁库中的子图像替换前第一阈值个子图像，替换后的图像为所述第一掩码图像。其中，第一阈值可以根据实际需求或实验结果确定。

基于掩码和第一补丁库中的子图像生成第一掩码图像，相较于直接用掩码替换肺野区域生成第一掩码图像，在不引入额外标注的前提下，为预训练任务提供了额外的辅助信息，可以加快第一编码器的收敛速度，帮助cxrMAE模型(第一编码器)更好得填充原始胸片中的肺野区域。利用第一补丁库中的子图像替换部分掩码图像的方式建立了不同健康胸片之间的关联，更好得学习健康胸片所共有的结构组织信息，以此作为一个泛化性能更好的健康胸片肺野组织结构的先验知识模型，应用于下游任务中。对同一张健康胸片，通过替换不同的掩码图像可以得到多种可能的潜空间特征向量与填充结果。

进一步，所述第一装置可以获取训练集中全部样本图像对应的掩码图像，由于每一张样本图像的肺野区域的大小不一致，因此选择掩码图像作为图像分类模型的输入；相应的，训练集中的样本图像均为健康的胸部X射线图像。

步骤S102，基于所述第一掩码图像训练图像分类模型包括的第一编码器，确认训练完成的第一编码器为第二编码器。

在一些实施例中，所述第一装置将所述第一掩码图像输入至所述第一编码器中，确认所述第一编码器的输出为所述第一掩码图像对应的至少一张特征图像；将所述至少一张特征图像输入至所述解码器中，确认所述解码器的输出为所述第一掩码图像对应的第一重构图像；基于所述第一重构图像和所述第一样本图像调整所述第一编码器的参数，确认调整参数后的第一编码器为第二编码器。

在一些实施例中，所述图像分类模型还可以包括第一全连接层和第二全连接层，所述第一全连接层位于所述第一编码器之前，用于对第一掩码图像分割后的分割图像进行维度转换，所述第二全连接层位于解码器之后，用于对解码器输出的重构子图像进行维度转换。

具体实施时，所述第一装置将所述第一掩码图像分割为至少一个分割图像，此时所述分割图像的维度为m*n，然后将所述至少一个分割图像输入至图像分类模型包括的第一全连接层进行维度转换；其中，每一张分割图像均不交叠，每一张分割图像的大小均相同，全部分割图像的面积之和等于所述第一掩码图像的面积。进一步，所述第一装置将维度转换后的所述第一掩码图像对应的至少一张分割图像输入至所述第一编码器中，确定所述第一编码器的输出为所述获得所述第一掩码图像对应的至少一张特征图像；可选的，所述特征图像的数量可以与所述分割图像的数量相同，也可以与所述分割图像的数量不同；所述分割图像与至少一张特征图像相对应，所述至少一张特征图像的维度与维度转换后的至少一个分割图像的维度相同。然后，所述第一装置将所述第一掩码图像对应的至少一张特征图像输入至所述解码器中，确定所述解码器的输出为至少一张重构子图像；其中，重构子图像的数量与所述分割图像的数量相同，重构子图像的大小与所述分割图像的大小相同；所述装置将所述至少一张重构子图像输入至第二全连接层中，确认所述第二全连接层的输出为第一重构图像。

每一张重构子图像均有唯一一张与其对应的分割图像，它们在第一重构图像或第一掩码图像中的位置相对应，例如第一重构图像中第a行第b列的重构子图像与第一掩码图像中第a行第b列的分割图像相对应，其大小、尺寸完全相同，特征相似或相同。

在一些实施例中，所述第一装置确认位置相同的重构子图像和分割图像之间的欧式距离的平方之和，为所述第一子损失值；所述第一重构图像对应的至少一张重构子图像的数量与所述第一样本图像对应的至少一张分割图像的数量相同。

具体的，所述位置相同可以包括第一重构图像中第a行第b列的重构子图像与第一掩码图像中第a行第b列的分割图像的位置相同，可以将第一重构图像和第一掩码图像中位置相同的重构子图像和分割图像设置为图像对，计算每一对图像对之间欧式距离(L2距离)的平方，再对全部图像对之间的欧氏距离的平方进行求和，确认求和结果为所述第一子损失值。

在一些可选实施例中，基于所述第一子损失值调整所述第一编码器和/或解码器的参数之后，所述第一装置还可以重复执行步骤S101至步骤S102，即重复训练所述第一编码器和/或解码器，直至子损失值满足第一条件，确认所述第一编码器训练完成，确认训练完成的第一编码器为第二编码器。其中，所述第一条件可以是所述子损失值小于预设阈值，或所述子损失值收敛，或者其他基于实际需求或实验结果设置的条件，本公开不做具体限制。

在一些实施例中，所述第二编码器应用于图像分类模型包括的分类分支和对照分支；具体的，所述第二编码器为所述分类分支中的第三编码器；所述第二编码器为所述对照分支中的第四编码器。

步骤S103，将第二样本图像输入至所述分类分支中，将所述第二样本图像对应的第二掩码图像输入至所述对照分支中，对所述分类分支输出的第一特征图像和所述对照分支输出的第二特征图像进行特征融合，获得第一融合特征。

在一些实施例中，所述第一装置训练得到所述第二编码器之后，将所述第二编码器应用到下游的分类任务中，具体的，将所述第二样本图像输入至所述分类分支包括的第三编码器中，确认所述第三编码器的输出为所述第二样本图像对应的第一特征图像；所述第三编码器的参数与所述第二编码器的参数相同；将所述第二样本图像对应的第二掩码图像输入至所述对照分支包括的第四编码器中，确认所述第四编码器的输出为所述第二样本图像对应的第二特征图像；所述第四编码器的参数与所述第二编码器的参数相同；对所述第一特征图像和所述第二特征图像进行特征融合，获得第一融合特征。其中，所述第二样本图像对应的第二掩码图像可以基于步骤S101获得。

具体实施时，所述装置可以对所述第一特征图像和所述第二特征图像逐像素作差，得到第一差异特征；基于所述第一特征图像和所述第一差异特征，获得所述第一融合特征(如对所述第一特征图像和所述第一差异特征逐像素求和)；所述装置还可以基于相关技术中其他特征融合方法对所述第一特征图像和所述第二特征图像进行特征融合，本公开不做具体限制。

步骤S104，将所述第一融合特征输入至所述分类分支包括的全连接层分类器中，确认所述全连接层分类器的输出为所述第二样本图像对应的肺部预测分类结果。

在一些实施例中，所述全连接层分类器包括平均池化层和全连接层；所述第一装置将所述第一融合特征输入至所述全连接层分类器中，获得所述第二样本图像对应的预测分类结果。

步骤S105，基于所述第二样本图像的肺部标注分类结果和所述第二样本图像的肺部预测分类结果调整所述分类分支的参数。

在一些实施例中，所述第一装置基于所述第二样本图像的肺部标注分类结果和所述第二样本图像的肺部预测分类结果，确定交叉熵损失；基于所述交叉熵损失调整所述分类分支包括的第三编码器的参数和所述全连接层分类器的参数。其中，所述肺部标注分类结果和所述肺部预测分类结果可以是所述第二样本图像对应的肺部疾病。

在一些可选实施例中，所述肺部标注分类结果包括各子分类结果的标识值，可以通过0和1表示，0表示没有该类病种(子分类结果)，1表示有该类病种(子分类结果)。例如，所述肺部标注分类结果可以为1维向量，其中包括元素的个数为子分类结果(病种)的总数，通过1或0表示是否有对应的病种。

如此，通过本公开实施例提供的图像分类模型的训练方法，利用训练好的cxrMAE模型的Encoder(第二编码器)，提出了一种特征差异注意力机制，对输入胸片特征图中潜在的疾病特征进行增强(即特征融合相关内容)，以辅助模型进行诊断。同时图像分类模型还具有较强的诊断可解释性，具体表现为可以利用第二编码器(对照分支中第四编码器)编码的健康特征向量与预训练时cxrMAEdecoder复原出输入胸部X射线图像的健康模式，作为图像分类模型分类的依据。

图3示出了本公开实施例提供的图像分类模型的训练方法的另一种可选流程示意图，将根据各个步骤进行说明。

步骤S201，获取训练集。

在一些实施例中，第一装置可以基于训练好的肺野分割模型对样本图像进行处理，得到样本图像的肺野区域，并基于掩码替换所述肺野区域得到掩码区域；对应的还可以得样本图像中非掩码区域，将样本图像的掩码区域和非掩码区域进行组合，得到掩码图像；或者还可以基于肺野分割模型对样本图像进行处理后，得到肺野区域，基于掩码对所述肺野区域进行处理，确认处理后的图像为掩码图像。

图4示出了本公开实施例提供的肺野分割的示意图。

如图4所示，将样本图像输入至肺野分割模型，得到的肺野分割模型的输出中，肺野区域通过掩码表示，非肺野区域则正常表示。并且，掩码区域的形状与肺野区域的形状完全相同。

在另一些实施例中，所述第一装置还可以对上述掩码图像(肺野区域全部为掩码)进行分割操作，划分为形状、大小一致的多个子图像。

图5示出了本公开实施例提供的图像的划分示意。如图5所示，将图像划分为形状、大小一致的16个子图像(patch)；需要理解图5仅为示意，在实施时，可以将掩码图像划分为大于16个子图像，使得肺野区域(掩码)可以划分为多个子图像，便于后期基于第一补丁库中的子图像进行替换。

图6示出了本公开实施例提供的确认第一掩码图像的可选示意图。

在一些实施例中，所述装置分割出肺野区域并将全部肺野区域替换为掩码，得到掩码图像后，将所述掩码图像划分为至少一个子图像，并基于第一补丁库中的子图像替换掩码图像中属于肺野区域的子图像，替换后得到第一掩码图像。

具体的，在替换时可以采用随机替换的方式，也可以预先确认掩码图像中不包含任何信息(即像素和为0)的子图像(patch)，将像素和为0的子图像的索引号信息(index)记录在一个列表中，将所述列表中子图像的索引号信息的顺序打乱，取出前

(即第一阈值)的索引号信息(其中λ为大于1的整数，可以设置为2、3等，本公开中选取2)，基于第一补丁库中的子图像替换掩码图像中前

的索引号信息对应的子图像；可选的，将第一补丁库中的图像参考掩码图像的方式进行分割并标记索引号信息，基于索引号信息进行替换(如基于第一补丁库中索引号编号为1的子图像替换掩码图像中索引号编号为1的子图像)，生成第一掩码图像后，基于第一掩码图像对第一编码器进行训练。其中，List_index表征掩码像素和为0的子图像的索引号信息(index)的列表，len(List_index)表征掩码像素和为0的子图像的索引号信息(index)的列表的长度。

具体的，所述第一补丁库中的图像为至少一张健康的胸部X射线图像；第一补丁库中的子图像可以第一补丁库中任一张健康的胸部X射线图像按照掩码图像的分割方式进行分割后，得到的子图像(如掩码图像按照20*30进行分割，则所述健康的胸部X射线图像也按照20*30进行分割)。

在替换时，第一补丁库中的子图像只替换掩码图像中像素和为0的子图像，如图6所示，对于像素和不为0(全部为非肺野区域或者部分为肺野区域部分为非肺野区域)的子图像不进行替换。

如图6所示，左边图像为输入的第一样本图像(健康的胸部X射线图像)，右边图像为基于掩码替换肺野区域并利用healthypatch(第一补丁库中的子图像)替代1/2的maskpatch(掩码区域的子图像)后的补充结果，对比两张图像，可以发现具有相同索引号信息的子图像之间具有相似的胸部结构组织，例如，图中的1号patch均包含锁骨与肋骨结构，2号patch均包含肋骨结构，3号patch均包含肺门与肋骨结构组织。

如此，基于掩码和第一补丁库中的子图像生成第一掩码图像，相较于直接用掩码替换肺野区域生成第一掩码图像，在不引入额外标注的前提下，为预训练任务提供了额外的辅助信息，加快模型的收敛速度，帮助cxrMAE模型(第一编码器)更好得填充原始胸片中的肺野区域。利用第一补丁库中的子图像替换部分掩码图像的方式建立了不同健康胸片之间的关联，更好得学习健康胸片所共有的结构组织信息，以此作为一个泛化性能更好的健康胸片肺野组织结构的先验知识模型，应用于下游任务中。对同一张健康胸片，通过替换不同的掩码图像可以得到多种可能的潜空间特征向量与填充结果。

在一些实施例中，每张样本图像的肺野区域大小不一致因此将掩码区域与非掩码区域共同输入到cxrMAE(图像分类模型)中进行特征提取。

获取训练集之后，基于训练集中的图像对第一编码器进行训练，得到第一编码器的预训练权重(即第二编码器和/或第二编码器的参数)；然后本公开提出了一种新的基于模型交叉注意力机制的图像分类模型的训练方法，利用cxrMAE中的健康胸片编码器(第二编码器)模型对输入的胸片输出的可能的健康胸部结构的特征向量，作为图像分类模型的参考，利用健康特征与原始特征之间的差异部分，挖掘出输入图像中潜在病灶区域的特征，并通过对差异部分的特征增强，提高图像分类模型的分类性能。

步骤S202，训练第一编码器。

图7示出了本公开实施例提供的图像分类模型的一种可选示意图。如图7所示，所述图像分类模型包括第一编码器和解码器。需要说明的是，图7中输入图像为肺野区域全部替换为掩码的掩码图像，本领域技术人员应当理解，输入图像也可以是步骤S201中得到的肺野区域被替换为掩码后，基于第一补丁库中的子图像替换肺野区域像素和为0的子图像所得到的第一掩码图像，图7中输入图像仅仅作为示例说明第一编码器的训练过程，并不用于限定本公开。

在一些实施例中，如图7所示，第一装置将第一掩码图像按照预先设置好的图像块大小(patch size)不交叠地划分成图像块(分割图像)，图像块(分割图像)的数量数为输入图像的大小除以图像块的大小。划分好的多个图像块先经过第一全连接层(patchembeddinglayer)进行维度转换，将多个图像块的维度从m*n转换为1*(m*n)。接着将各图像块输入到第一编码器中，所述第一编码器可以选择ViT-Base或ViT-Large，第一编码器输出的至少一张特征图像经过层归一化后输入到解码器中，最终经过第二全连接层对第一样本图像的各图像块中的像素值进行回归，重建得到第一重构图像。

第一编码器对应的第一子损失值为带有掩码的图像块重建前后的L2距离的平方，具体计算公式为：

其中N为第一掩码图像被分割的图像块总数，P_i,pred为第一重构图像的第i个图像块(如第a行第b列的图像块)，P_i,target为第一样本图像的第i个图像块(如第a行第b列的图像块)。

基于所述第一子损失值调整所述第一编码器和/或解码器的参数，所述第一装置还可以重复执行步骤S202，即重复训练所述第一编码器和/或解码器，直至子损失值满足第一条件，确认所述第一编码器训练完成，确认训练完成的第一编码器为第二编码器。其中，所述第一条件可以是所述子损失值小于预设阈值，或所述子损失值收敛，或者其他基于实际需求或实验结果设置的条件，本公开不做具体限制。

步骤S203，训练图像分类模型包括的对照分支和分类分支。

图8示出了本公开实施例提供的图像分类模型的另一种可选示意图。

如图8所示，所述图像分类模型包括对照分支和分类分支，所述对照分支包括第四编码器(参数与第二编码器的参数相同)，可选的，还可以包括解码器，用于输入第四编码器输出的特征，获得重构图像；所述分类分支包括第三编码器(参数与第二编码器的参数相同)和全连接层分类器。其中，对照分支用于为分类分支提供可以参考的第二特征图像，进而通过与分类分支输出的第一特征图像进行对比，得到分类分支的第一特征图像中由于病灶引起的异常值区域。差异注意力机制主要指利用对比两个分支输出的特征图像的差异部分，对分类分支的潜在疾病特征进行增强，以达到提高图像分类模型对疾病的分类性能(或诊断性能)。

在一些实施例中，所述第一装置训练得到所述第二编码器之后，将所述第二编码器应用到下游的分类任务中，具体的，将所述第二样本图像(原始的胸部X射线图像)输入至所述分类分支包括的第三编码器中，确认所述第三编码器的输出为所述第二样本图像对应的第一特征图像；所述第三编码器的参数与所述第二编码器的参数相同；将所述第二样本图像对应的第二掩码图像输入至所述对照分支包括的第四编码器中，确认所述第四编码器的输出为所述第二样本图像对应的第二特征图像；所述第四编码器的参数与所述第二编码器的参数相同；对所述第一特征图像和所述第二特征图像进行特征融合，获得第一融合特征。其中，所述第二样本图像对应的第二掩码图像可以基于步骤S201获得。

具体实施时，所述装置可以对所述第一特征图像和所述第二特征图像逐像素作差，得到第一差异特征；基于所述第一特征图像和所述第一差异特征，获得所述第一融合特征；所述装置还可以基于相关技术中其他特征融合方法对所述第一特征图像和所述第二特征图像进行特征融合，本公开不做具体限制。

在一些实施例中，所述第一装置基于所述第二样本图像的肺部标注分类结果和所述第二样本图像的肺部预测分类结果，确定带权重的二值交叉熵损失或多标签损失函数；基于损失函数，以梯度翻转的方式调整所述分类分支包括的第三编码器的参数和所述全连接层分类器的参数；对照分支中第四编码器的参数则保持不变。

可选的，在训练第一编码器、分类分支和对照分支时，ViT模型为ViT-base，输入图像的大小为224，分割后的子图像大小为16。

如此，通过本公开实施例提供的图像分类模型的训练方法，提出了一种maskpatchreplacement的方式加快预训练模型(第一编码器)的收敛，并挖掘健康病人间的相同的结构组织在特征空间的表示，并以此为先验知识辅助下游图像分类模型(胸部疾病诊断模型)。用训练好的cxrMAE模型的Encoder(第一编码器)，提出了一种特征差异注意力机制，对两个分支输出的特征图像中潜在的疾病特征进行增强，以辅助模型进行诊断。同时图像分类模型还具有较强的诊断可解释性，具体表现为可以利用cxrMAE encoder编码的健康特征向量与预训练时cxrMAEdecoder复原出输入胸片的健康模式，作为图像分类模型分类的依据；具体的，可以在对照分支的第四编码器之后接解码器，确认解码器的输出为输入图像对应的健康的胸部X射线图像。所述解码器的参数可以根据步骤S102或步骤S201确定。

图9示出了本公开实施例提供的图像分类方法的一种可选流程示意图，将根据各个步骤进行说明。

步骤S301，将第一待分类图像输入至所述图像分类模型包括的分类分支中，确认所述分类分支的输出为所述第一待分类图像的分类结果。

在一些实施例中，图像分类装置(简称第二装置)将所述第一待分类图像输入至所述分类分支包括的第三编码器中，确认所述第三编码器的输出为所述第一待分类图像对应的特征图像；然后将所述第一分类图像对应的特征图像输入至所述分类分支包括的全连接层分类器中，确认所述全连接层分类器的输出为所述第一代分类图像的分类结果。

进一步，所述第二装置还可以基于所述图像分类模型包括的对照分支获取所述第一但分类图像对应的对照图像，具体可以包括：

步骤S302，确认所述第一待分类图像对应的第三掩码图像；将所述第三掩码图像输入至所述图像分类模型包括的对照分支中，确认所述对照分支的输出为所述第一待分类图像对应的对照图像。

在一些实施例中，所述第二装置可以参照步骤S101或步骤S201获取第一带分类图像对应的第三掩码图像；将所述第三掩码图像输入至对照分支包括的第四编码器中，确认所述第四编码器的输出为所述第三掩码图像对应的特征图像；将所述特征图像输入至解码器中，获取所述第一待分类图像对应的对照图像。

如此，通过本公开实施例提供的图像分类方法，一方面基于图像分类模型得到的分类结果具有较高的准确性，另一方面还具有较强的诊断可解释性，在对照分支的第四编码器之后接解码器，确认解码器的输出为输入图像对应的健康的胸部X射线图像，可以辅助医生或病人理解病情。

图10示出了本公开实施例提供的图像分类模型的训练装置的可选结构示意图，将根据各个步骤进行说明。

在一些实施例中，所述图像分类模型的训练装置400包括分割单元401、第一训练单元402、特征融合单元403、第二训练单元404和调整单元405。

所述分割单元401，用于确认第一样本图像和所述第一样本图像对应的第一掩码图像；其中，所述第一掩码图像基于第一样本图像获得，所述第一掩码图像中肺野区域包括掩码；

所述第一训练单元402，用于基于所述第一掩码图像训练图像分类模型包括的第一编码器，确认训练完成的第一编码器为第二编码器；所述第二编码器应用于图像分类模型包括的分类分支和对照分支；

所述特征融合单元403，用于将第二样本图像输入至所述分类分支中，将所述第二样本图像对应的第二掩码图像输入至所述对照分支中，对所述分类分支输出的第一特征图像和所述对照分支输出的第二特征图像进行特征融合，获得第一融合特征；

所述第二训练单元404，用于将所述第一融合特征输入至所述分类分支包括的全连接层分类器中，确认所述全连接层分类器的输出为所述第二样本图像对应的肺部预测分类结果；

所述调整单元405，用于基于所述第二样本图像的肺部标注分类结果和所述第二样本图像的肺部预测分类结果调整所述分类分支的参数。

所述分割单元401，具体用于对所述第一样本图像进行分割，基于分割结果确定所述第一样本图像中肺野区域和非肺野区域；

所述分割单元401，具体用于基于所述掩码替换所述第一样本图像的肺野区域，得到所述第一样本图像对应的第一掩码图像；所述第一掩码图像中肺野区域全部为掩码；

所述第一训练单元402，具体用于将所述第一掩码图像输入至所述第一编码器中，确认所述第一编码器的输出为所述第一掩码图像对应的至少一张特征图像；

所述特征融合单元403，具体用于将所述第二样本图像输入至所述分类分支包括的第三编码器中，确认所述第三编码器的输出为所述第二样本图像对应的第一特征图像；所述第三编码器为所述第二编码器；

将所述第二样本图像对应的第二掩码图像输入至所述对照分支包括的第四编码器中，确认所述第四编码器的输出为所述第二样本图像对应的第二特征图像；所述第四编码器为所述第二编码器；

所述特征融合单元403，具体用于对所述第一特征图像和所述第二特征图像逐像素作差，得到第一差异特征；

所述调整单元405，具体用于基于所述第二样本图像的肺部标注分类结果和所述第二样本图像的肺部预测分类结果，确定交叉熵损失；

图11示出了本公开实施例提供的图像分类装置的可选结构示意图，将根据各个部分进行说明。

在一些实施例中，图像分类装置500包括第一输入单元501和第二输入单元502。

所述第一输入单元501，用于将第一待分类图像输入至所述图像分类模型包括的分类分支中，确认所述分类分支的输出为所述第一待分类图像的分类结果；

所述第二输入单元502，用于确认所述第一待分类图像对应的第三掩码图像；将所述第三掩码图像输入至所述图像分类模型包括的对照分支中，确认所述对照分支的输出为所述第一待分类图像对应的对照图像。

根据本公开的实施例，本公开还提供了一种电子设备和一种可读存储介质。

图12示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图12所示，电子设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储电子设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

电子设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如XXX方法。例如，在一些实施例中，XXX方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到电子设备800上。当计算机程序加载到RAM803并由计算单元801执行时，可以执行上文描述的XXX方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行XXX方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图像分类模型的训练方法，其特征在于，所述方法包括：

基于所述第一掩码图像训练图像分类模型包括的第一编码器，确认训练完成的第一编码器为第二编码器；所述第二编码器应用于图像分类模型包括的分类分支和对照分支；

2.根据权利要求1所述的方法，其特征在于，所述确认第一样本图像和所述第一样本图像对应的第一掩码图像，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于掩码和/或第一补丁库中的子图像替换所述第一样本图像的肺野区域，得到所述第一样本图像对应的第一掩码图像，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述第一掩码图像训练图像分类模型包括的第一编码器，确认训练完成的第一编码器为第二编码器，包括：

5.根据权利要求1所述的方法，其特征在于，所述将第二样本图像输入至所述分类分支中，将所述第二样本图像对应的第二掩码图像输入至所述对照分支中，对所述分类分支输出的第一特征图像和所述对照分支输出的第二特征图像进行特征融合，获得第一融合特征，包括：

6.根据权利要求1或5所述的方法，其特征在于，所述对所述分类分支输出的第一特征图像和所述对照分支输出的第二特征图像进行特征融合，获得第一融合特征，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述第二样本图像的肺部标注分类结果和所述第二样本图像的肺部预测分类结果调整所述分类分支的参数，包括：

8.一种图像分类方法，其特征在于，基于权利要求1-7训练得到的图像分类模型实现，所述方法包括：

9.一种图像分类模型的训练装置，其特征在于，所述装置包括：

10.一种图像分类装置，其特征在于，基于权利要求1-7训练得到的图像分类模型实现，所述装置包括：

11.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法；

或者，执行权利要求8所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法；

或者，执行权利要求8所述的方法。