CN116883737A

CN116883737A - 分类方法、计算机设备和存储介质

Info

Publication number: CN116883737A
Application number: CN202310836197.1A
Authority: CN
Inventors: 李箴; 高耀宗; 詹翊强; 周翔
Original assignee: Shanghai United Imaging Intelligent Healthcare Co Ltd
Current assignee: Shanghai United Imaging Intelligent Healthcare Co Ltd
Priority date: 2023-07-07
Filing date: 2023-07-07
Publication date: 2023-10-13

Abstract

本申请涉及一种分类方法、计算机设备和存储介质。所述方法通过获取待分类图像，并将待分类图像输入至分类网络进行病灶分类，得到分类结果，其中，待分类图像中包括病灶区域，分类网络是基于图像文本对样本集训练得到的；分类结果包括对病灶区域的多种分类结果。上述分类网络是基于图像文本对样本集训练得到，而图像文本对样本集中不仅包含图像样本，还包括文本样本，也就是说，训练分类网络使用的样本包含丰富的信息，因此可以提升训练效果，进而提高训练好的分类网络的分类准确性。另外，上述分类网络相比于传统二分类的分类器，能够输出多种分类结果，实现了精细分类。

Description

分类方法、计算机设备和存储介质

技术领域

本申请涉及医学图像处理技术领域，特别是涉及一种分类方法、计算机设备和存储介质。

背景技术

随着医学影像扫描设备的快速发展，基于医学影像的病灶分类技术已经广泛应用于各类医学检测场景中。

目前，对医学影像中的病灶进行分类的方法，主要是预先基于大量包含病灶的图像样本集训练分类器进行病灶分类，得到分类结果，而该分类结果通常为二分类结果，比如，对于可能隐含结节的图像进行分类，得到是否包含结节的分类结果。

然而，当面对一些罕见病灶的分类时，上述分类方法存在分类不准确的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高分类准确性的分类方法、装置、计算机设备和存储介质。

第一方面，本申请提供了一种分类方法。所述方法包括：

获取待分类图像；所述待分类图像中包括病灶区域；

将所述待分类图像输入至分类网络进行病灶分类，得到分类结果；所述分类网络是基于对比预训练后得到的图像文本对样本集训练得到的；所述分类结果包括对所述病灶区域的多种分类结果。

在其中一个实施例中，所述分类网络包括：图像编码器、文本生成模型和分类器；所述将所述待分类图像输入至分类网络进行病灶分类，得到分类结果，包括：

将所述待分类图像输入至所述图像编码器进行图像编码提取，得到图像编码；

将所述图像编码输入至所述文本生成模型进行文本生成，得到所述图像编码对应的文本编码；

将所述文本编码和所述图像编码输入至所述分类器进行病灶分类，得到所述分类结果。

在其中一个实施例中，所述分类网络还包括：文本解码器，所述方法还包括：

将所述文本编码输入至所述文本解码器进行文本解码，得到所述待分类图像对应的病灶文本描述。

在其中一个实施例中，所述分类网络还包括：融合模块，所述方法还包括：

将所述文本编码和所述图像编码输入至所述融合模块进行融合，得到融合特征；

所述将所述文本编码和所述图像编码输入至所述分类器进行病灶分类，得到所述分类结果，包括：

将所述融合特征输入至所述分类器进行病灶分类，得到所述分类结果。

在其中一个实施例中，所述方法还包括：

获取所述图像文本对样本集；所述图像文本对样本集包括第一图像样本集和第一文本样本集；

将所述第一图像样本集进行图像编码后，得到图像编码集，以及将所述第一文本样本集进行文本编码后，得到文本编码集；

根据所述图像编码集和所述文本编码集对初始文本生成模型进行训练，得到所述文本生成模型；

根据所述图像编码集和所述文本编码集对初始分类器进行训练，得到所述分类器。

在其中一个实施例中，所述根据所述图像编码集和所述文本编码集对初始文本生成模型进行训练，得到所述文本生成模型，包括：

将所述图像编码集输入至所述初始文本生成模型进行文本生成，得到所述图像编码集对应的输出文本编码集；

根据所述输出文本编码集和所述文本编码集，对所述初始文本生成模型进行训练，得到训练好的文本生成模型。

在其中一个实施例中，所述根据所述图像编码集和

所述文本编码集对初始分类器进行训练，得到所述分类器，包括：

将所述图像编码集和所述文本编码集进行融合处理，得到融合特征集；

根据所述融合特征集对所述初始分类器进行训练，得到训练好的分类器。

在其中一个实施例中，所述获取所述图像文本对样本集，包括：

将第二图像样本集和第二文本样本集输入至对比预训练网络进行对比预训练，得到所述图像文本对样本集，所述图像文本对样本集包括相似性最高的所述第一图像样本集和所述第一文本样本集。

第二方面，本申请还提供了一种分类装置。所述装置包括：

获取模块，用于获取待分类图像；所述待分类图像中包括病灶区域；

分类模块，用于将所述待分类图像输入至分类网络进行病灶分类，得到分类结果；所述分类网络通过图像文本对样本集进行对比预训练得到；所述分类结果包括对所述病灶区域的多种分类结果。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待分类图像；所述待分类图像中包括病灶区域；

将所述待分类图像输入至分类网络进行病灶分类，得到分类结果；所述分类网络通过图像文本对样本集进行对比预训练得到；所述分类结果包括对所述病灶区域的多种分类结果。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待分类图像；所述待分类图像中包括病灶区域；

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取待分类图像；所述待分类图像中包括病灶区域；

上述分类方法、计算机设备和存储介质，通过获取待分类图像，并将待分类图像输入至分类网络进行病灶分类，得到分类结果，其中，待分类图像中包括病灶区域，分类网络是基于图像文本对样本集训练得到的；分类结果包括对病灶区域的多种分类结果。上述分类网络是基于图像文本对样本集训练得到，而图像文本对样本集中不仅包含图像样本，还包括文本样本，也就是说，训练分类网络使用的样本包含丰富的信息，因此可以提升训练效果，进而提高训练好的分类网络的分类准确性。另外，上述分类网络相比于传统二分类的分类器，能够输出多种分类结果，实现了精细分类。

附图说明

图1为一个实施例中分类***的应用环境图；

图2为一个实施例中分类方法的流程示意图；

图3为另一个实施例中分类方法的流程示意图；

图3A为一个实施例中分类网络的一种结构示意图；

图3B为一个实施例中分类网络的另一种结构示意图；

图3C为一个实施例中分类网络的另一种结构示意图；

图4为另一个实施例中分类方法的流程示意图；

图5为另一个实施例中分类方法的流程示意图；

图6为一个实施例中训练方法的流程示意图；

图7为另一个实施例中训练方法的流程示意图；

图8为另一个实施例中训练方法的流程示意图；

图9为一个实施例中多模态分类网络的结构示意图；

图10为一个实施例中分类方法的流程示意图；

图11为一个实施例中分类装置的结构示意图；

图12为另一个实施例中分类装置的结构示意图；

图13为另一个实施例中分类装置的结构示意图；

图14为另一个实施例中分类装置的结构示意图；

图15为另一个实施例中分类装置的结构示意图；

图16为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

目前，医学影像的病灶(如肺结节)分类技术已经广泛应用于各类下游场景中。相关应用中，大多数方法基于已有的分类和数据的标注对输入的图像块是否包含目标病灶进行判断，如对于可能包含结节的图像的(1，是结节)(0，不是结节)二分类问题。然而，在实际场景下，病灶图像的输入有时与分类器实际训练时的特征有着较大的出入，这导致一些罕见的病灶和难分类的样例无法被正确的分类。同时，模型对各类病灶的整体理解也不够全面，缺乏不同病灶间解剖层面的语义关联。此外，对于具有结节征象的细分(3mm结节，大结节，多发结节，磨玻璃密度影等)也都被笼统的归类为结节或不是结节，这种二分类的输出导致后续流程无法根据一些特征对病灶做进一步的划分和处理。本申请提供了一种分类方法，旨在解决上述问题，下面实施例将具体说明本申请所述的分类方法。

本申请实施例提供的视频数据的处理方法，可以应用于如图1所示的分类***中。其中，扫描设备102通过有线或无线的方式与处理设备104进行通信。扫描设备102对目标对象进行图像扫描，得到待分类图像，并将该待分类图像发送至处理设备104，处理设备104对待分类图像进行病灶区域的分类，得到分类结果。处理设备104还可以预先基于图像文本对样本集对初始分类网络进行训练，得到实际应用中的分类网络。上述处理设备104可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、服务器等。其中，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的数据处理***的限定，具体的数据处理***可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，如图2所示，提供了一种分类方法，以该方法应用于图1中的处理设备为例进行说明，包括以下步骤：

S201，获取待分类图像；待分类图像中包括病灶区域。

其中，待分类图像为一种病灶图像。病灶区域可以为任意类型的病灶，例如，肺结节。

本申请实施例中，处理设备可以连接扫描设备，且当扫描设备对目标对象进行扫描成像时，可以从扫描设备上实时获取病灶图像，并将获取到的任一病灶图像作为待分类图像。可选的，处理设备也可以从云平台或通过其他方式获取病灶图像作为待分类图像。

S202，将待分类图像输入至分类网络进行病灶分类，得到分类结果；所述分类网络是基于图像文本对样本集训练得到的；所述分类结果包括对所述病灶区域的多种分类结果。

其中，分类网络可以为一种预先训练好的神经网络模型，用于对输入图像中的病灶区域进行多种维度的信息的分类。图像文本对样本集中包括多对的图像文本对样本，图像文本对样本包括图像样本和文本样本，且图像样本和文本样本为对应关系，即文本样本是对图像样本中病灶区域的文本描述，另外，图像样本和文本样本之间的相似性很高或者关联度很高，即图像样本和文本样本之间的相似度大于预设相似度阈值或者图像样本和文本样本之间的关联度大于预设关联度阈值。病灶区域的多种分类结果表示对病灶进行分类的多种结果，例如，针对肺结节的病灶区域，多分类结果包括诸如小结节、大结节、多发结节、磨玻璃密度影等结果。

本申请实施例中，处理设备可以先通过对比预训练得到大量的图像文本对，形成图像文本对样本集，其中成对的图像样本和文本样本之间的相似性或关联度很高，或者文本样本是对图像样本中的病灶进行描述的文本；或者，处理设备先获取图像样本，并对图像样本进行文本描述，从而得到与图像样本关联的文本样本，形成图像样本和文本样本的图像文本对，如此操作，获取到大量的图像文本对，形成图像文本对样本集。

当处理设备获取到图像文本对样本集时，可以基于该图像文本对样本集对构建的初始分类网络进行训练，得到需要应用的分类网络，并使训练好的分类网络具备对病灶分类得到多种分类结果的能力。之后，处理设备可以与扫描设备连接，当扫描设备对目标对象进行图像扫描得到扫描图像后，可以将扫描图像发送至处理设备，处理设备在获取到扫描图像后，即可将该扫描图像作为待分类图像输入至预先训练好的分类网络进行病灶分类，得到多种分类结果。

上述分类方法中，通过获取待分类图像，并将待分类图像输入至分类网络进行病灶分类，得到分类结果，其中，待分类图像中包括病灶区域，分类网络是基于图像文本对样本集训练得到的；分类结果包括对病灶区域的多种分类结果。上述分类网络是基于图像文本对样本集训练得到，而图像文本对样本集中不仅包含图像样本，还包括文本样本，也就是说，训练分类网络使用的样本包含丰富的信息，因此可以提升训练效果，进而提高训练好的分类网络的分类准确性。另外，上述分类网络相比于传统二分类的分类器，能够输出多种分类结果，实现了精细分类。

在一个实施例中，提供了一种分类网络的结构，如图3A所示，该分类网络包括：图像编码器、文本生成模型和分类器，其中，图像编码器的输出端与文本生成模型连接，文本生成模型的输出端与分类器连接，基于此结构，如图3所示，对应的分类方法，即上述S202“将待分类图像输入至分类网络进行病灶分类，得到分类结果”，包括：

S301，将待分类图像输入至图像编码器进行图像特征提取，得到图像编码。

其中，图像编码器可以为一种神经网络模型，用于对输入图像进行特征提取。可选的，该图像编码器可以是ViT模型或ResNet模型，具体用于将输入图像编码到一个固定维度大小的向量[V₀，V₁，V₂.....V_n]。

本申请实施例中，当处理设备基于前述步骤获取到待分类图像时，可以将该待分类图像输入至预先训练好的图像编码器进行图像特征提取，得到图像编码；可选的，处理设备也可以对待分类图像进行预处理后输入至图像编码器进行图像，得到图像编码。

S302，将图像编码输入至文本生成模型进行文本生成，得到图像编码对应的文本编码。

其中，文本编码是对待分类图像中的病灶进行文本描述后得到的文本再进行特征提取后得到的文本编码。文本生成模型可以为一种神经网络模型，用于生成与输入图像的图像编码相似度或关联度极高的文本编码。可选的，文本生成模型的结构可以使用Transformer的解码器结构。

本申请实施例中，当处理设备基于前述步骤获取到图像编码时，可以将该图像编码输入至预先训练好的文本生成模型进行文本编码生成，得到与图像编码相似度或关联度极高的文本编码。

S303，将文本编码和图像编码输入至分类器进行病灶分类，得到分类结果。

其中，分类器可以为一种神经网络模型，用于对图像编码和文本编码进行分类，或者用于对文本编码和图像编码的融合编码进行分类。

本申请实施例中，当处理设备获取到与图像编码对应的文本编码时，可以将该文本编码和图像编码同时输入至预先训练好的分类器进行病灶分类，得到分类结果；可选的，处理设备也可以对图像编码和文本编码进行融合后输入至预先训练好的分类器进行病灶分类，得到分类结果。。

本申请实施例所述的分类方法，其中分类网络中的文本生成模型可以根据图像编码输出对应的文本编码，使文本编码辅助图像编码输入至分类器进行分类时，分类器进行分类的依据更为全面和合理，可以提高分类器进行分类的准确性。

在一个实施例中，提供了另一种分类网络的结构，如图3B所示，图3A所述的分类网络还包括：文本解码器，其中，图像编码器的输出端与文本生成模型连接，文本生成模型的输出端分别与分类器和文本解码器连接，基于此结构，如图4所示，图3所述的分类方法还包括步骤：

S304，将文本编码输入至文本解码器进行文本解码，得到待分类图像对应的病灶文本描述。

其中，待分类图像对应的病灶文本描述表示待分类图像中的病灶区域进行文本描述，其包括对病灶大小、密度、位置、征象等丰富的语义信息，比如，待分类图像中的病灶区域为肺结节，则对应的病灶文本描述为：左肺上叶前段、舌段、下叶后基底段、右肺下叶外基底段微小磨玻璃结节。文本解码器可以为一种神经网络模型，为一种预先基于文本编码器和文本解码器的对抗网络训练得到的模型，用于对输入的文本编码进行解码，即进行病灶文本描述的还原。

本申请实施例中，处理设备可以先获取大量的病灶文本描述的样本和对应的文本编码的样本，然后基于该大量的病灶文本描述的样本和对应的文本编码的样本对对抗网络进行训练，该对抗网络包括初始文本编码器和初始文本解码器，得到训练好的文本编码器和文本解码器，使训练好的文本编码器具备对输入的病灶文本描述进行特征提取，得到文本编码的能力，以及使相应的文本解码器具备对输入的文本编码进行文本描述还原的能力，得到与文本编码对应的病灶文本描述。之后，当处理设备获取到待分类图像对应的文本编码时，可以将该文本编码输入至预先训练好的文本解码器进行文本描述还原，得到待分类图像对应的病灶文本描述。

本申请实施例所述的分类方法，其中分类网络中的文本生成模型可以根据图像编码输出对应的文本编码，使文本编码辅助图像编码输入至分类器进行分类时，分类器进行分类的依据更为全面和合理，可以提高分类器进行分类的准确性，且该分类网络可以输出多种分类结果；另一方面，上述分类网络还可以只需要输入原始的待分类图像，就可以获得综合了文本和图像多模态特征的分类结果，效果优于单模态模型，同时还输出待分类图像对应的病灶文本描述，实现了多模态分类，且便于后期对病灶的进一步处理和分析。

在一个实施例中，提供了另一种分类网络的结构，如图3C所示，图3A或图3B所述的分类网络还包括：融合模块，其中，图像编码器的输出端与文本生成模型连接，文本生成模型的输出端与融合模块连接，融合模块的输出端与分类器连接，基于此结构，如图5所示，图3或图4所述的分类方法还包括步骤：

S305，将文本编码和图像编码输入至融合模块进行融合，得到融合编码。

其中，该融合模块可以为一个拼接层，用于将文本编码和图像编码进行拼接；可选的，融合模块可以为一种神经网络模型，用于对输入的图像编码和文本编码进行融合处理。

本申请实施例中，处理设备可以先基于大量的文本编码样本和图像编码样本对初始融合模块进行训练，得到需要应用的融合模块，并使训练好的融合模块能够具备对图像编码样本和文本编码样本进行融合的能力，其中文本编码样本和图像编码样本是一一对应的关系，且图像编码样本和文本编码样本均属于同一图像样本。之后，当处理设备获取到与图像编码对应的文本编码时，可以将该文本编码和图像编码同时输入至预先训练好的融合模块进行融合，得到融合编码。需要说明的是，文本编码和图像编码在融合时需要尺寸一致，所以在融合图像编码和文本编码之前，可以对文本编码和图像编码的尺寸进行调整，使文本编码和融合编码的尺寸一致，以便后期对这两个编码进行准确融合。另外，如图3C所示的结构，在训练阶段，可以基于图像编码样本和对应的文本编码样本对文本生成模型、融合模块和分类器分别单独进行训练，可选的，也可以将文本生成模型、融合模块和分类器连接起来一起进行训练，实际训练情况可以根据实际需求确定，此处不限定。

对应的，处理设备在执行上述S303“将文本编码和图像编码输入至分类器进行病灶分类，得到分类结果”时，具体执行步骤：将融合特征输入至分类器进行病灶分类，得到分类结果。

本申请实施例中，处理设备可以先基于特征样本集对初始分类器进行训练，得到需要应用的分类器，并使训练好的分类器能够具备对病灶分类得到多种分类结果的能力，其中，特征样本集中包括图像编码样本和文本编码样本的融合编码样本，图像编码样本和文本编码样本是一一对应的关系，且图像编码样本和文本编码样本均属于同一图像样本。之后，当处理设备获取到与图像编码对应的图像编码和文本编码的融合编码时，可以将该融合编码输入至预先训练好的分类器进行病灶分类，得到分类结果。

本申请实施例所述的分类方法，其中分类网络中的融合模块将文本编码和图像编码进行融合后输入分类器进行分类，使文本编码辅助图像编码输入至分类器进行分类时，分类器进行分类的依据更为全面和合理，可以提高分类器进行分类的准确性，且该分类网络可以输出多种分类结果。

在一个实施例中，本申请还提供了一种训练方法，即训练得到图3A所述分类网络中文本生成模型和分类器的方法，如图6所示，该方法包括：

S401，获取图像文本对样本集；图像文本对样本集包括第一图像样本和第一文本样本。

其中，图像文本对样本集中包括多对的图像文本对样本，图像文本对样本包括第一图像样本和第一文本样本，且第一图像样本和第一文本样本为一一对应关系，即第一文本样本是对第一图像样本中病灶区域的文本描述，另外，第一图像样本和第一文本样本之间的相似性或关联度很高，即第一图像样本和第一文本样本之间的相似度或关联度大于预设相似度阈值。

本申请实施例中，处理设备可以先通过对比预训练得到大量的图像文本对样本，形成图像文本对样本集，其中成对的第一图像样本和第一文本样本之间的相似性或关联度很高，或者第一文本样本是对第一图像样本中的病灶进行描述的文本；或者，处理设备先获取第一图像样本，并对第一图像样本进行文本描述，从而得到与第一图像样本关联的第一文本样本，形成第一图像样本和第一文本样本的图像文本对样本，如此操作，获取到大量的图像文本对样本，形成图像文本对样本集。

S402，将第一图像样本进行图像编码，得到图像编码样本，以及将第一文本样本进行文本编码，得到文本编码样本。

本申请实施例中，处理设备获取到第一图像样本和对应的第一文本样本时，可以将第一图像样本输入至预先训练好的图像编码器中进行图像编码，得到图像编码样本，同时，将第一文本样本输入至预先训练好的文本编码器中进行文本编码，得到文本编码样本。需要说明的是，上述图像编码器将输入图像(第一样本图像)编码到一个固定维度大小的向量中，对应的上述图像编码器对应的文本编码器将输入的文本描述(第一文本样本)编码为与图像编码器维度一致的向量，此时，输出的图像编码样本和文本编码样本的向量组成一对，以便之后一个batch中可以包含多个这样的图像文本对样本进行训练。

S403，根据图像编码样本和文本编码样本对初始文本生成模型进行训练，得到文本生成模型。

本申请实施例中，当处理设备获取到图像编码样本和文本编码样本时，可以将图像编码样本输入至初始文本生成模型，并以文本编码样本为监督信息进行训练，得到需要应用的文本生成模型，使得训练好的文本生成模型具备根据图像编码样本生成对应的文本编码样本的能力。本申请实施例中的图像编码样本和文本编码样本为一一对应关系，即图像编码样本和文本编码样本嵌入到相同空间，实现了文本语义和图像语义信息的锚定，因此基于该类的图像编码样本和文本编码样本对初始文本生成模型进行训练，可以使初始文本生成模型能够根据图像编码生成准确的与之相似度或关联度高的文本编码，实现了在高纬空间中容易定位自身和别的病灶间的差异和相似性，进而提高训练得到的本生成模型的生成文本的能力。

S404，根据图像编码样本和文本编码样本对初始分类器进行训练，得到分类器。

本申请实施例中，当处理设备获取到图像编码样本和文本编码样本时，可以将图像编码样本和文本编码样本同时输入至初始分类器，实现以多模态的特征对初始分类器进行训练，得到需要应用的分类器，并使训练好的分类器具备准确的分类能力。本申请实施例中的图像编码样本和文本编码样本为一一对应关系，即图像编码样本和文本编码样本嵌入到相同空间，实现了文本语义和图像语义信息的锚定，因此基于该类的图像编码样本和文本编码样本对初始分类器进行训练，可以使初始分类器对未知或者稀少病灶的预测能力更稳健合理。

进一步的，提供了训练上述初始文本生成模型的方法，如图7所示，该方法包括：

S501，将图像编码样本输入至初始文本生成模型进行文本生成，得到图像编码样本对应的输出文本编码样本。

其中，输出文本编码样本和图像编码样本之间的相似度极高或关联度极高。初始文本生成模型可以为一种神经网络模型，用于生成与输入图像编码相似度或关联度极高的文本编码。

本申请实施例中，当处理设备获取到图像编码样本时，可以将该图像编码样本输入至构建的初始文本生成模型进行文本生成，得到与图像编码样本相关的输出文本编码样本。

S502，根据输出文本编码样本和文本编码样本，对初始文本生成模型进行训练，得到训练好的文本生成模型。

当处理设备得到输出文本编码样本时，即可将文本编码样本作为监督信号，对初始文本生成模型进行训练，得到训练好的文本生成模型，使训练好的文本生成模型具备根据图像编码生成极为关联的文本编码的能力。具体的，处理设备可以根据输出文本编码样本和文本编码样本确定目标损失，并在训练过程中基于目标损失调节初始文本生成模型的参数，直到模型收敛或者目标损失符合训练条件为止，得到训练好的文本生成模型。

本申请实施例所涉及的训练方法，以文本编码样本为监督信号对初始生成模型训练，使初始生成模型可以根据输入的图像编码样本生成与其关联的文本编码样本，从而后期可以使用本文编码辅助图像编码实现图像分类，提升分类器对未知或者稀少病灶的预测能力。

进一步的，提供了训练上述初始分类器的方法，如图8所示，该方法包括：

S601，将图像编码样本和文本编码样本进行融合处理，得到融合编码样本；

本申请实施例中，当处理设备获取到图像编码样本和文本编码样本时，可以将该图像编码样本和文本编码样本进行融合，具体的，可以将图像编码样本和文本编码样本输入至预先训练好的融合模块中进行融合处理，得到融合编码样本。

S602，根据融合编码样本对初始分类器进行训练，得到训练好的分类器。

当处理设备得到融合编码样本时，即可将融合编码样本输入至初始分类器进行训练，得到训练好的分类器，使训练好的分类器具备对待分类图像中的病灶进行分类的能力。

本申请实施例所涉及的训练方法，以融合编码样本为样本对初始分类器训练，使初始分类器能够基于丰富的信息进行分类，可以提高分类器的分类准确性。

进一步的，提供了获取上述图像文本对样本集的方法，即处理设备在执行上述S401的步骤时，具体执行步骤：将第二图像样本集中的各第二图像样本和第二文本样本集中的各第二文本样本输入至对比预训练网络进行对比相似度学习，得到图像文本对样本集，图像文本对样本集包括相似性或关联度最高的第一图像样本和所述第一文本样本。

其中，对比预训练网络包括图像编码器和文本编码器，图像编码器可以是ViT模型或ResNET模型。文本编码器使用Transformer编码器。可选的，对比预训练网络可以采用类似比对语言-图像的多模态训练模型(Contrastive Language-Image Pre-Training，CLIP)，将文本语义信息和图像语义信息嵌入到相同空间，实现文本语义信息和图像语义信息的锚定。

本申请实施例中，图像编码器将输入的图像编码到一个固定维度大小的向量[V₀，V₁，V₂.....V_n]。文本编码器将图像对应的文本描述编码为与图像编码器维度一致的向量，这样的一个图像向量和一个文本向量组成一对。在对比预训练的过程中，一个batch中可以包含多个这样的图像文本对。训练时，通过对比预训练，计算每个batch中每个文本向量和每个图像向量的相似度或关联度，目标函数可以涉及为使原本一对的图像文本对相似度或关联度最高，从而通过对比预训练得到相似度或关联度最高的第一图像样本和第一文本样本组成的图像文本对样本。

可选的，在上述训练过程中，在图像编码器侧输入任意第二图像样本，并在文本编码器侧输入几段对应的第二文本样本(对第二图像样本的文本描述)，然后计算图像编码输出的图像编码和文本编码输出的文本编码之间的相似度或关联度，其中，和输入图像最接近的文本描述将获得最高的相似度或关联度得分。同样的，在输入多张第二图像样本和一段对应的第二文本样本的情况下，与描述最接近的图像将获得最高的相似度或关联度得分。

可选的，利用在之前的对比预训练中已经训练完成的图像编码器获得待分类图像的图像编码，输入至文本生成模型，这里的文本生成模型的结构可以使用Transformer的解码器结构，输入图像的图像编码将输入文本生成模型(解码器)的自注意力层。训练任务(目标函数)是自回归地生成来自对比预训练中使用的文本编码器生成的文本编码，初始化的文本编码分别与模型权重和图像编码器输出的图像编码做自注意力计算，最后生成文本编码将拥有与图像编码高度的相关性。接着，文本编码和之前通过图像编码器生成的图像编码通过拼接融合后，可以输入一个Transformer编码器的结构的多模态模型(分类器)生成最终的分类结果。在多模态模型中，以肺结节为例，分类的输出可以是二分类的结果，如分类结果包括是结节，不是结节。也可以是多分类的结果，如多分类的结果包括实性结节、肺炎、磨玻璃等。

本申请实施例通过对比预训练得到相似性或关联度最高的第一图像样本和第一文本样本，以使之后基于相似性或关联度最高的第一图像样本和第一文本样本训练文本生成模型时，可以使文本生成模型能够基于输入图像中病灶的大小、密度、征象特征和规律给出与之最相近的文本描述。

综合上述所有实施例，本申请还提供了一种多模态分类网络与对应的训练方法，如图9所示，该多模态分类网络的结构包括：对比预训练分支网络和分类分支网络，对比预训练分支网络包括图像编码器和文本编码器，分类分支网络包括图像编码器、生成式模型、融合模块、文本编码器、多模态分类模型；基于该多模态分类网络进行训练的方法包括：在图像编码器输入侧输入样本图像，图像编码器对输入的样本图像进行编码，得到第一图像编码，在文本编码器输入侧输入文本，文本编码器对输入的文本进行编码，得到第一文本编码，最后对比预训练分支网络通过相似度学习，将使得图像编码器和文本编码器输出的“图像和文本”样本对编码获得最高的相似度，即输出相似度最高的第一图像编码和第一文本编码组成图像文本对样本；而且，后期基于该图像文本对样本分别对另一分类分支网络中的生成式模型和多模态分类模型进行训练，具体可以将图像文本对样本中的第一图像编码作为输入样本，将图像文本对样本中的第一文本编码作为标签数据进行训练，得到训练好的生成式模型和多模态分类模型。

在另一分类分支网络的应用过程中，在图像编码器输入侧输入待分类的图像，图像编码器对该待分类的图像进行编码输出第二图像编码时，可以将该第二图像编码输入至生成式模型进行文本生成，得到待分类的图像对应的第二文本编码，然后，一路将第二图像编码和第二文本编码输入至上述训练好的多模态分类模型输出病灶的多种分类结果，另一路将第二文本编码输入至文本解码器输出病灶文本描述。

基于上述所有实施例所述的多模态分类网络，以及综合上述所有实施例所述的分类方法，本申请还提供了一种分类方法，如图10所示，该方法包括：

S901，将第二图像样本集中的各第二图像样本和第二文本样本集中的各第二文本样本输入至对比预训练网络进行对比预训练，得到图像文本对样本集，图像文本对样本集包括相似性最高的第一图像样本和第一文本样本。

S902，基于图像文本对样本集对初始文本生成模型进行训练，得到训练好的文本生成模型，以及基于图像文本对样本集对初始分类器进行训练，得到训练好的分类器。

S903，获取待分类的图像，并将待分类的图像输入至图像编码器进行特征提取，得到待分类的图像对应的图像编码。

S904，将图像编码输入至训练好的文本生成模型进行文本生成，得到图像编码对应的文本编码。

S905，将文本编码和图像编码输入至融合模块进行融合，得到融合编码。

S906，将融合编码输入至分类器进行病灶分类，得到分类结果。

S907，将文本编码输入至文本解码器进行文本解码，得到待分类图像对应的病灶文本描述。

上述各步骤在前述均有说明，详细内容请参见前述说明，此处不赘述。

本申请提供的分类方法首先引入多模态对比预训练的思路，先将含有各类病灶之丰富文本描述和该病灶的图像块分别通过对应的编码器生成嵌入作对比学习，训练文本生成模型，使该文本生成模型同时学习到语义和图像间的特征区别。之后，利用上述编码器中的文本编码器输出的文本编码嵌入作为监督，训练输入图像后生成丰富文本的嵌入信息的文本生成模型，最后利用训练完成的文本生成模型生成的文本嵌入和对应的图像嵌入作为输入，训练一个基于图像和丰富文本描述的，稳健的分类器。另外，在使用上述整个分类模型时，仅需要输入原始图像，分类模型就能生成图像相关的文本嵌入，之后分类器利用文本嵌入信息和图像原始的嵌入信息作为输入，完成对病灶的分类。

本申请实施例由于加入基于丰富的语义信息的编码特征作为比对的依据，基于对比预训练的多模态模型拥有对稀少样本更好的区分能力，图像的输入本身包含着丰富的语义信息，以肺结节为例，在结节的图像块中，本身包含了结节的位置、大小、密度甚至相关的征象。当出现已有数据集中未出现过的少见病灶类型时(比如，特征十分少见的结节)，传统分类器容易判断错误而分类失败。对比预训练模型通过对上述病灶的位置，大小，密度的多模态特征锚定后投射在高维空间，可以通过寻找空间关系中最接近的分类获得更准确地定位。另外，本申请提供的分类方法使用的分类网络使用时，只需要输入原始的图像，就可以获得综合了文本和图像多模态特征的分类结果，效果优于单模态模型。同时还输出对于原始图像的文本描述，便于后续处理。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的分类方法的分类装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个分类装置实施例中的具体限定可以参见上文中对于分类方法的限定，在此不再赘述。

在一个实施例中，如图11所示，提供了一种分类装置，包括：

获取模块10，用于获取待分类图像；所述待分类图像中包括病灶区域。

分类模块11，用于将所述待分类图像输入至分类网络进行病灶分类，得到分类结果；所述分类网络是基于图像文本对样本集训练得到的；所述分类结果包括对所述病灶区域的多种分类结果。

在一个实施例中，上述分类模块11，如图12所示，包括：

提取单元110，用于将所述待分类图像输入至所述图像编码器进行图像编码提取，得到图像编码；

生成单元111，用于将所述图像编码输入至所述文本生成模型进行文本生成，得到所述图像编码对应的文本编码；

分类单元112，用于将所述文本编码和所述图像编码输入至所述分类器进行病灶分类，得到所述分类结果。

在一个实施例中，如图13所示，上述分类装置，还包括：

解码模块13，用于将所述文本编码输入至所述文本解码器进行文本解码，得到所述待分类图像对应的病灶文本描述。

在一个实施例中，如图14所示，上述分类装置，还包括：

融合模块14，用于将所述文本编码和所述图像编码输入至所述融合模块进行融合，得到融合特征；

对应的，上述分类模块12，用于将所述融合特征输入至所述分类器进行病灶分类，得到所述分类结果。

在一个实施例中，如图15所示，上述分类装置，还包括：

训练模块15，包括获取样本单元150、编码单元151、第一训练单元152、第二训练单元153,，其中：

获取样本单元150，用于获取所述图像文本对样本集；所述图像文本对样本集包括第一图像样本和第一文本样本；

编码单元151，用于将所述第一图像样本进行图像编码后，得到图像编码样本，以及将所述第一文本样本进行文本编码后，得到文本编码样本。

第一训练单元152，用于根据所述图像编码样本和所述文本编码样本对初始文本生成模型进行训练，得到所述文本生成模型；

第二训练单元153，用于根据所述图像编码样本和所述文本编码样本对初始分类器进行训练，得到所述分类器。

在一个实施例中，上述第一训练单元152具体用于将所述图像编码样本输入至所述初始文本生成模型进行文本生成，得到所述图像编码样本对应的输出文本编码样本；根据所述输出文本编码样本和所述文本编码样本，对所述初始文本生成模型进行训练，得到训练好的文本生成模型。

在一个实施例中，上述第二训练单元153具体用于将所述图像编码样本和所述文本编码样本进行融合处理，得到融合特征；根据所述融合特征样本对所述初始分类器进行训练，得到训练好的分类器。

在一个实施例中，上述获取样本单元150用于将第二图像样本集中的各第二图像样本和第二文本样本集中的各第二文本样本输入至对比预训练网络进行对比预训练，得到所述图像文本对样本集，所述图像文本对样本集包括相似性最高的所述第一图像样本和所述第一文本样本。

上述分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图16所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种分类方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图16中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待分类图像；所述待分类图像中包括病灶区域；

将所述待分类图像输入至分类网络进行病灶分类，得到分类结果；所述分类网络是基于图像文本对样本集训练得到的；所述分类结果包括对所述病灶区域的多种分类结果。

上述实施例提供的一种计算机设备，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待分类图像；所述待分类图像中包括病灶区域；

上述实施例提供的一种计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取待分类图像；所述待分类图像中包括病灶区域；

上述实施例提供的一种计算机程序产品，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种分类方法，其特征在于，所述方法包括：

获取待分类图像；所述待分类图像中包括病灶区域；

2.根据权利要求1所述的方法，其特征在于，所述分类网络包括：图像编码器、文本生成模型和分类器；所述将所述待分类图像输入至分类网络进行病灶分类，得到分类结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述分类网络还包括：文本解码器，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，所述分类网络还包括：融合模块，所述方法还包括：

5.根据权利要求2-4任一项所述的方法，其特征在于，所述方法还包括：

获取所述图像文本对样本集；所述图像文本对样本集包括第一图像样本和第一文本样本；

将所述第一图像样本进行图像编码，得到图像编码样本，以及将所述第一文本样本进行文本编码，得到文本编码样本；

根据所述图像编码样本和所述文本编码样本对初始文本生成模型进行训练，得到所述文本生成模型；

根据所述图像编码样本和所述文本编码样本对初始分类器进行训练，得到所述分类器。

6.根据权利要求5所述的方法，其特征在于，所述根据所述图像编码样本和所述文本编码样本对初始文本生成模型进行训练，得到所述文本生成模型，包括：

将所述图像编码样本输入至所述初始文本生成模型进行文本生成，得到所述图像编码样本对应的输出文本编码样本；

根据所述输出文本编码样本和所述文本编码样本，对所述初始文本生成模型进行训练，得到训练好的文本生成模型。

7.根据权利要求5所述的方法，其特征在于，所述根据所述图像编码样本和所述文本编码样本对初始分类器进行训练，得到所述分类器，包括：

将所述图像编码样本和所述文本编码样本进行融合处理，得到融合特征；

根据所述融合特征样本对所述初始分类器进行训练，得到训练好的分类器。

8.根据权利要求5所述的方法，其特征在于，所述获取所述图像文本对样本集，包括：

将第二图像样本集中的各第二图像样本和第二文本样本集中的各第二文本样本输入至对比预训练网络进行对比预训练，得到所述图像文本对样本集，所述图像文本对样本集包括相似性最高的所述第一图像样本和所述第一文本样本。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。