WO2023071680A1

WO2023071680A1 - 内窥镜图像特征学习模型、分类模型的训练方法和装置

Info

Publication number: WO2023071680A1
Application number: PCT/CN2022/122056
Authority: WO
Inventors: 边成
Original assignee: 北京字节跳动网络技术有限公司
Priority date: 2021-10-26
Filing date: 2022-09-28
Publication date: 2023-05-04
Also published as: CN113706526B; CN113706526A

Abstract

一种内窥镜图像特征学习模型、分类模型的训练方法和装置。所述方法包括：获取第一训练数据集，所述第一训练数据集包括一个或多个具有待识别对象的内窥镜图像和一个或多个不具有待识别对象的内窥镜图像；将所述第一训练数据集输入到所述内窥镜图像特征学习模型；以及基于所述第一训练数据集对所述内窥镜图像特征学习模型进行无监督的对比学习，以获得训练完成的内窥镜图像特征学习模型，其中，所述内窥镜图像特征学习模型包括多个对比学习子模块，所述多个对比学习子模块的每一个用于提取所述第一训练数据集中的同一内窥镜图像的不同尺度的特征表示，并基于所提取的不同尺度的特征表示进行对比学习。

Description

内窥镜图像特征学习模型、分类模型的训练方法和装置

本申请要求于2021年10月26日提交的中国专利申请第202111248801.6的优先权，该中国专利申请的全文通过引用的方式结合于此以作为本申请的一部分。

技术领域

本申请涉及人工智能领域，具体涉及一种基于对比学习的内窥镜图像特征学习模型的训练方法、内窥镜图像分类模型的训练方法、内窥镜图像分类方法、装置及计算机可读介质。

背景技术

大多数结直肠癌开始于结直肠内膜表面的赘生物，称为息肉，而有些息肉可以发展为癌症。因此，早期诊断成为直肠癌防治关键一环。肠镜检查是预防和诊断肠道癌症的首选检查方法，部分消化道早期癌内镜下微创治疗可达到治愈性切除的目的。结肠镜是利用电子肠镜经***，经过直肠、乙状结肠，到达回盲部，从黏膜侧观察结肠病变(如炎症、肿瘤等)的过程。回盲部是回肠末端与盲肠互相交接的部位，称回盲部，回盲部是肠管的炎症(如周围炎、憩室炎等)、肿瘤、套叠等疾病的好发部位，而盲肠与阑尾又是回盲部的主要器官。因此在内镜检查过程中，对回盲部的识别至关重要。

为了减轻医生的负担，有一些工作尝试研究使用深度学习的方式自动化地实现对回盲部的识别。然而这些工作仅使用了简单的卷积神经网络，且都是基于全监督的方法，即需要大量标注数据。而现有的内镜影像的标注数据集主要集中于息肉等病变标注，很少有关于回盲部的标注，而单独为这一任务进行大量回盲部的标注是费时费力的。

现有的对回盲部进行识别的研究工作基本基于全监督的卷积神经网络。它们通常使用一个现成的卷积神经网络，如ResNet、VGG、Inceptionv3等。少数工作在这些现成的模型上稍加修改，如使用预训练的模型微调。然而，它们使用的预训练模型通常是基于现成的在自然图像上预训练好的结果，由于医学图像和自然图像的差异，这类预训练模型无法很好的学习到内镜影像的特征。

近年来，使用基于对比学习的自监督学习来进行预训练的工作取得了巨大的发展。对比学习着重于学习同类实例之间的共同特征，区分非同类实例之间的不同之处。它不需要关注实例上繁琐的细节，只需要在抽象语义级别的特征空间上学会对数据的区分即可，因此模型以及其优化变得更加简单，且泛化能力更强。对比损失可以最大化正样本之间的互信息并最小化负样本之间的互信息。最近，对比学习的思想已经被应用于医学领域。然而，这类方法仅在图像级别进行对比学习的学习，而没有学习到不同尺度下不同级别的特征。

因此，期望一种改进的内窥镜图像特征学习模型的训练方法，在标注数据有限的情况下，能够在大量无标注的数据上更好的学习到影像本身的抽象语义级别的特征。

发明内容

考虑到以上问题而做出了本公开。本公开的一个目的是提供一种基于对比学习的内窥镜图像特征学习模型的训练方法、内窥镜图像分类模型的训练方法、内窥镜图像分类方法、装置及计算机可读介质。

本公开的实施例提供了一种基于多尺度对比学习的内窥镜图像特征学习模型的训练方法，所述方法包括：获取第一训练数据集，所述第一训练数据集包括一个或多个具有待识别对象的内窥镜图像和一个或多个不具有待识别对象的内窥镜图像；将所述第一训练数据集输入到所述内窥镜图像特征学习模型；以及基于所述第一训练数据集对所述内窥镜图像特征学习模型进行无监督的对比学习，以获得训练完成的内窥镜图像特征学习模型，其中，所述内窥镜图像特征学习模型包括多个对比学习子模块，所述多个对比学习子模块的每一个用于提取所述第一训练数据集中的同一内窥镜图像的不同尺度的特征表示，并基于所提取的不同尺度的特征表示进行对比学习。

例如，根据本公开的实施例的方法，其中，所述多个对比学习子模块包括依次连接的M个对比学习子模块，其中，所述M个对比学习子模块中的任意一个对比学习子模块i都包括：结构完全相同的第一编码器和第二编码器、以及结构完全相同的第一映射器模块和第二映射器模块，其中，所述第一编码器的输出端连接到所述第一映射器模块的输入端，所述第二编码器的输出端连接到所述第二映射器模块的输入端，其中，所述M个对比学习子模块中的M个第一编码器依次连接，所述M个对比学习子模块中的M个第二编码器依次连接，其中，所述M为大于或等于1的整数，所述i∈[1,M]。

例如，根据本公开的实施例的方法，其中，将所述第一训练数据集输入到所述内窥镜图像特征学习模型包括：在每次迭代训练时：从所述第一训练数据集中随机选取L个内窥镜图像，将所述L个内窥镜图像中的每一个进行第一图像增强，得到与所述L个内窥镜图像一一对应的L个第一增强型内窥镜图像，并输入到所述内窥镜图像特征学习模型中第一个对比学习子模块的第一编码器；以及将所述L个内窥镜图像中的每一个进行第二图像增强，得到与所述L个内窥镜图像一一对应的L个第二增强型内窥镜图像，并输入到所述内窥镜图像特征学习模型中第一个对比学习子模块的第二编码器，其中，所述L为大于1的正整数。

例如，根据本公开的实施例的方法，其中，所述第一图像增强和第二图像增强分别包括以下各项中任意两个：保持不变、剪裁、翻转、颜色变换和高斯模糊。

例如，根据本公开的实施例的方法，其中，基于所述第一训练数据集对所述内窥镜图像特征学习模型进行无监督的对比学习，以获得训练完成的内窥镜图像特征学习模型包括：基于所述M个对比学习子模块中的每一个对比学习子模块i的特征输出，计算联合对比损失值，并基于所述联合对比损失值调整所述内窥镜图像特征学习模型的参数，直到所述内窥镜图像特征学习模型的联合对比损失函数收敛，其中，所述联合对比损失函数是基于所述M个对比学习子模块中的每一对比学习子模块i的输出的对比损失函数之和。

例如，根据本公开的实施例的方法，其中，基于所述第一训练数据集对所述内窥镜图像特征学习模型进行无监督的对比学习包括：基于所述M个对比学习子模块中的任意一个对比学习子模块i，利用其中所包括的第一编码器和第二编码器，分别提取与所述L个第一增强型内窥镜图像相对应的L个第i尺度的第一特征表示和与所述L个第二增强型内窥镜图像相对应的L个第i尺度的第二特征表示；利用其中所包括的第一映射器模块和第二映射器模块，分别对所述L个第i尺度的第一特征表示和所述L个第i尺度的第二特征表示进行映射处理，以得到与所述L个第一增强型内窥镜图像相对应的映射后的第i尺度的特征表示和与所述L个第二增强型内窥镜图像相对应的映射后的第i尺度的特征表示；以及基于与所述L个第一增强型内窥镜图像相对应的映射后的第i尺度的特征表示和与所述L个第二增强型内窥镜图像相对应的映射后的第i尺度的特征表示，计算对比学习子模块i的对比损失值，其中，所述任意一个对比学习子模块i中的第一编码器和第二编码器在不同尺度上对所接收的输入进行特征提取，使得任一个对比学习子模块i中的第一编码器和第二编码器所提取的第i尺度的特征表示与其余(M-1)个对比学习子模块中的第一编码器和第二编码器所提取的特征表示的尺度都不相同。

例如，根据本公开的实施例的方法，其中，所述对比学习子模块i中的第一映射器模块包括第一全局映射器，所述对比学习子模块i中的第一编码器的输出端连接到所述对比学习子模块i中的第一全局映射器的输入端；所述对比学习子模块i中的第二映射器模块包括第二全局映射器，所述对比学习子模块i中的第二编码器的输出端连接到所述对比学习子模块i中的第二全局映射器的输入端。

例如，根据本公开的实施例的方法，其中，利用其中所包括的第一映射器模块和第二映射器模块，分别对所述L个第i尺度的第一特征表示和所述L个第i尺度的第二特征表示进行映射处理，以得到与所述L个第一增强型内窥镜图像相对应的映射后的第i尺度的特征表示和与所述L个第二增强型内窥镜图像相对应的映射后的第i尺度的特征表示包括：基于所述对比学习子模块i中包括的所述第一全局映射器和所述第二全局映射器，分别对所述L个第i尺度的第一特征表示和所述L个第i尺度的第二特征表示进行全局映射处理，以得到与所述L个第一增强型内窥镜图像相对应的L个全局映射后的第i尺度的第一特征表示和与所述L个第二增强型内窥镜图像相对应的L个全局映射后的第i尺度的第二特征表示。

例如，根据本公开的实施例的方法，其中，所述第一全局映射器和所述第二全局映射器是两层的全连接模块。

例如，根据本公开的实施例的方法，其中，基于与所述L个第一增强型内窥镜图像相对应的映射后的第i尺度的特征表示和与所述L个第二增强型内窥镜图像相对应的映射后的第i尺度的特征表示，计算对比学习子模块i的对比损失值包括：将与所述L个第一增强型内窥镜图像相对应的所述L个全局映射后的第i尺度的第一特征表示和与所述L个第二增强型内窥镜图像相对应的所述L个全局映射后的第i尺度的第二特征表示中一一对应的两个特征表示作为一对正例，其余(2L-2)个特征表示作为负例，计算对比损失函数，以得到对比学习子模块i的对比损失值。

例如，根据本公开的实施例的方法，其中，所述对比学习子模块i中的第一映射器模块包括第一全局映射器和第一局部映射器，所述对比学习子模块i中的第一编码器的输出端同时连接到所述对比学习子模块i中的第一全局映射器的输入端和第一局部映射器的输入端；所述对比学习子模块i中的第二映射器模块包括第二全局映射器和第二局部映射器，所述对比学习子模块i中的第二编码器的输出端同时连接到所述对比学习子模块i中的第二全局映射器的输入端和第二局部映射器的输入端。

例如，根据本公开的实施例的方法，其中，利用其中所包括的第一映射器模块和第二映射器模块，分别对所述L个第i尺度的第一特征表示和所述L个第i尺度的第二特征表示进行映射处理，以得到与所述L个第一增强型内窥镜图像相对应的映射后的第i尺度的特征表示和与所述L个第二增强型内窥镜图像相对应的映射后的第i尺度的特征表示包括：基于所述对比学习子模块i中包括的所述第一全局映射器和所述第二全局映射器，分别对所述L个第i尺度的第一特征表示和所述L个第i尺度的第二特征表示进行全局映射处理，以得到与所述L个第一增强型内窥镜图像相对应的L个全局映射后的第i尺度的第一特征表示和与所述L个第二增强型内窥镜图像相对应的L个全局映射后的第i尺度的第二特征表示；以及基于所述对比学习子模块i中包括的所述第一局部映射器和所述第二局部映射器，分别对所述L个第i尺度的第一特征表示和所述L个第i尺度的第二特征表示进行局部映射，以得到与所述L个第一增强型内窥镜图像相对应的L个局部映射后的第i尺度的第一特征表示和与所述L个第二增强型内窥镜图像相对应的L个局部映射后的第i尺度的第二特征表示。

例如，根据本公开的实施例的方法，其中，所述第一全局映射器和所述第二全局映射器是两层的全连接模块，所述第一局部映射器和所述第二局部映射器是两层1x1的卷积模块。

例如，根据本公开的实施例的方法，其中，基于与所述L个第一增强型内窥镜图像相对应的映射后的特征表示和与所述L个第二增强型内窥镜图像相对应的映射后的特征表示，计算对比学习子模块i的对比损失值包括：将与所述L个第一增强型内窥镜图像相对应的所述L个全局映射后的第i尺度的第一特征表示和与所述L个第二增强型内窥镜图像相对应的所述L个全局映射后的第i尺度的第二特征表示中一一对应的两个特征表示作为一对正例，其余(2L-2)个特征表示作为负例，计算对比损失函数，以得到全局对比损失值；以及将与所述L个第一增强型内窥镜图像相对应的所述L个局部映射后的第i尺度的第一特征表示中的每一个划分为第一S个第i尺度的局部特征表示，以得到第一(L×S)个第i尺度的局部特征表示；以与划分第一S个局部特征表示相同的方式，将与所述L个第二增强型内窥镜图像相对应的所述L个局部映射后的第i尺度的第二特征表示中的每一个划分为与所述第一S个第i尺度的局部特征表示一一对应的第二S个第i尺度的局部特征表示，以得到第二(L×S)个第i尺度的局部特征表示；将所述第一(L×S)个第i尺度的局部特征表示与所述第二L×S个第i尺度的局部特征表示中一一对应的两个局部特征表示作为一对正例，其余(2×(L×S)-2)个局部特征表示作为负例，计算对比损失函数，以得到局部对比损失值；将所述全局对比损失值与所述局部对比损失值相加，以得到对比学习子模块i的对比损失值。

例如，根据本公开的实施例的方法，其中，所述对比损失函数是噪声对比估计损失函数InfoNCE。

例如，根据本公开的实施例的方法，其中，所述第一编码器和所述第二编码器是多尺度Transformer编码器块，所述多尺度Transformer编码器块包括间隔设置的一个或多个多头池化注意力模块和一个或多个多层感知器模块，其中每个多头池化注意力模块和每个多层感知器模块之前设置有模块标准化模块。

例如，根据本公开的实施例的方法，其中，所述对象是回盲部。

本公开的实施例还提供了还提供了一种基于多尺度对比学习的内窥镜图像特征学习模型的训练装置，所述装置包括：训练数据集获取部件，用于获取第一训练数据集，所述第一训练数据集包括一个或多个具有待识别对象的内窥镜图像和一个或多个不具有待识别对象的内窥镜图像；输入部件，用于将所述第一训练数据集输入到所述内窥镜图像特征学习模型；训练部件，用于基于所述第一训练数据集对所述内窥镜图像特征学习模型进行无监督的对比学习，以获得训练完成的内窥镜图像特征学习模型，其中，所述内窥镜图像特征学习模型包括多个对比学习子模块，所述多个对比学习子模块用于提取同一输入样本的不同尺度的特征表示，并基于所提取的不同尺度的特征表示进行对比学习。

本公开的实施例还提供了还提供了一种内窥镜图像分类模型的训练方法，包括：获取第二训练数据集，所述第二训练数据集包括一个或多个具有待识别对象的内窥镜图像和一个或多个不具有待识别对象的内窥镜图像，所述内窥镜图像标注有标签，用于指示内窥镜图像是否包括待识别对象；将所述第二训练数据集输入到内窥镜图像分类模型中进行训练，直到所述内窥镜图像分类模型的目标损失函数收敛，以获得训练完成的内窥镜图像分类模型，其中，所述内窥镜图像分类模型包括依次连接的特征提取模块和分类器模块，其中所述特征提取模块是根据前面所述的基于多尺度对比学习的内窥镜图像特征学习模型的训练方法所获得的内窥镜图像特征学习模型中的M个第一编码器或M个第二编码器，其中M是大于1的整数。

例如，根据本公开的实施例的方法，其中，所述第二训练数据集呈长尾分布，所述内窥镜图像分类模型的目标损失函数包括：基于所述内窥镜图像分类模型的最终输出结果与图像样本的标注标签而确定的焦点损失函数。

本公开的实施例还提供了还提供了一种内窥镜图像分类模型的训练装置，包括：图像获取部件，用于获取第二训练数据集，所述第二训练数据集包括一个或多个具有待识别对象的内窥镜图像和一个或多个不具有待识别对象的内窥镜图像，所述内窥镜图像标注有标签，用于指示内窥镜图像是否包括待识别对象；训练部件，将所述第二训练数据集输入到内窥镜图像分类模型中进行训练，直到所述内窥镜图像分类模型的目标损失函数收敛，以获得训练完成的内窥镜图像分类模型，其中，所述内窥镜图像分类模型包括依次连接的特征提取模块和分类器模块，其中所述特征提取模块是根据上述基于多尺度对比学习的内窥镜图像特征学习模型的训练方法所获得的内窥镜图像特征学习模型中的M个第一编码器或M个第二编码器，其中M是大于1的整数。

本公开的实施例提供了还提供了一种内窥镜图像分类方法，包括：获取待识别的内窥镜图像；基于训练好的内窥镜图像分类模型，获得所述内窥镜图像的分类结果；其中，所述训练好的内窥镜图像特征学习模型是基于上述内窥镜图像分类模型的训练方法所获得的。

本公开的实施例提供了还提供了一种内窥镜图像分类***，包括：图像获取部件，用于获取待识别的内窥镜图像；处理部件，基于训练好的内窥镜图像分类模型，获得所述内窥镜图像的分类结果；输出部件，用于输出待识别的内窥镜图像的分类结果，其中，所述训练好的内窥镜图像特征学习模型是基于根据上述内窥镜图像分类模型的训练方法所获得的。

本公开的实施例还提供了一种电子设备，包括存储器和处理器，其中，所述存储器上存储有处理器可读的程序代码，当处理器执行所述程序代码时，执行根据上述方法中任一项所述的方法。

本公开的实施例还提供了一种计算机可读存储介质，其上存储有计算机可执行指令，所述计算机可执行指令用于执行根据上述方法中任一项所述的方法。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对本公开实施例的附图作简单地介绍。明显地，下面描述中的附图仅仅涉及本公开的一些实施例，而非对本公开的限制。

图1示出了本公开实施例中内窥镜图像特征学习模型训练及内窥镜图像分类方法的应用架构示意图；

图2示出了传统的基于SimCLR的对比学习网络架构示意图；

图3示出了一个常规的Vision Transformer模型的一个整体示例性框图；

图4示出了图3中的ViT将原始图像展平成序列的示意图；

图5示出了多尺度Vision Transformer的编码器块中多头池化注意力(MHPA)模块的示意图；

图6A示出了根据本公开实施例的回盲部内窥镜图像；

图6B示出了非回盲部的内窥镜图像；

图7A示出了根据本公开实施例的基于对比学习的内窥镜图像特征学习模型700A的示意性结构；

图7B示出了模型700A中的编码器是多尺度Vision Transformer的一个实施例；

图7C示出了在图7A的模型700A的基础上，针对同一尺度的特征输出进一步进行局部对比学习的示例模型；

图8示出了用于训练根据本公开一个实施例的基于多尺度对比学习的内窥镜图像特征学习模型的方法800的流程图；

图9示出了图8中步骤S803中的基于所述第一训练数据集对所述内窥镜图像特征学习模型进行无监督的对比学习的步骤进行更具体的示例性说明；

图10说明如何基于局部映射后的特征来计算对比学习子模块i的局部对比损失值；

图11描述了本公开实施例的内窥镜图像分类模型的训练方法的流程图；

图12描述本公开实施例中内窥镜图像分类方法的流程图；

图13示出了本公开实施例中一种内窥镜图像分类***的结构示意图；

图14示出了根据本公开实施例的内窥镜特征学习模型的训练装置；

图15示出了根据本公开实施例的内窥镜图像分类模型的训练装置；以及

图16示出了根据本公开的实施例的存储介质的示意图。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行清楚、完整地描述，显而易见地，所描述的实施例仅仅是本申请的部分实施例，而不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，也属于本申请保护的范围。

本说明书中使用的术语是考虑到关于本公开的功能而在本领域中当前广泛使用的那些通用术语，但是这些术语可以根据本领域普通技术人员的意图、先例或本领域新技术而变化。此外，特定术语可以由申请人选择，并且在这种情况下，其详细含义将在本公开的详细描述中描述。因此，说明书中使用的术语不应理解为简单的名称，而是基于术语的含义和本公开的总体描述。

虽然本申请对根据本申请的实施例的***中的某些模块做出了各种引用，然而，任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的，并且所述***和方法的不同方面可以使用不同模块。

本申请中使用了流程图来说明根据本申请的实施例的***所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，根据需要，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

为了减轻医生的负担，有一些工作尝试研究使用深度学习的方式自动化的实现对回盲部的识别。然而这些工作仅使用了简单的卷积神经网络，且都是基于全监督的方法，即需要大量标注数据。而现有的内镜影像的标注数据集主要集中于息肉等病变标注，很少有关于回盲部的标注，而单独为这一任务进行大量回盲部的标注是费时费力的此外，现有的内窥镜影像识别模型的研究工作基本基于现成的卷积神经网络，这类模型无法很好的学习到内窥镜影像的特征。

因此，本公开提出了一种基于多尺度对比学习的内窥镜特征学习模型，在不同尺度上对输入的内窥镜影像进行特征提取，并在不同尺度的特征表示的基础上进行对比学习，能够更好地学习到内窥镜影像的特征。

图1示出了本公开实施例中内窥镜图像特征学习模型训练及内窥镜图像分类方法的应用架构示意图，包括服务器100、终端设备200。

终端设备200可以是医疗设备，例如，用户可以基于终端设备200查看内窥镜图像分类结果。

终端设备200与服务器100之间可以通过互联网相连，实现相互之间的通信。可选地，上述的互联网使用标准通信技术和/或协议。互联网通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan AreaNetwork，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括超文本标记语言(Hyper Text MarkupLanguage，HTML)、可扩展标记语言(Extensible Markup Language，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure SocketLayer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(VirtualPrivate Network，VPN)、网际协议安全(Internet Protocol Security，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

服务器100可以为终端设备200提供各种网络服务，其中，服务器100可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。

具体地，服务器100可以包括处理器110(Center Processing Unit，CPU)、存储器120、输入设备130和输出设备140等，输入设备130可以包括键盘、鼠标、触摸屏等，输出设备140可以包括显示设备，如液晶显示器(Liquid Crystal Display，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。

存储器120可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器110提供存储器120中存储的程序指令和数据。在本公开实施例中，存储器120可以用于存储本公开实施例中内窥镜图像特征学习模型的训练方法、内窥镜图像分类模型的训练方法或内窥镜图像分类方法的程序。

处理器110通过调用存储器120存储的程序指令，处理器110用于按照获得的程序指令执行本公开实施例中任一种内窥镜图像特征学习模型的训练方法、内窥镜图像分类模型的训练方法或内窥镜图像分类方法的步骤。

例如，本公开实施例中，内窥镜图像特征学习模型的训练方法、内窥镜图像分类模型的训练方法或内窥镜图像分类方法主要由服务器100侧执行，例如，针对内窥镜图像分类方法，终端设备200可以将采集到的消化道的内窥镜图像(例如，回盲部图像)发送给服务器100，由服务器100对消化道的内窥镜图像进行类型识别，并可以将识别结果返回给终端设备200。

如图1所示的应用架构，是以应用于服务器100侧为例进行说明的，当然，本公开实施例中的方法也可以由终端设备200执行，例如终端设备200可以从服务器100侧获得训练好的内窥镜图像分类模型，从而基于该内窥镜图像分类模型，对内窥镜影像进行类型识别，获得分类结果，对此本公开实施例中并不进行限制。

另外，本公开实施例中的应用架构图是为了更加清楚地说明本公开实施例中的技术方案，并不构成对本公开实施例提供的技术方案的限制，当然，对于其它的应用架构和业务应用，本公开实施例提供的技术方案对于类似的问题，同样适用。

本公开各个实施例以应用于图1所示的应用架构图为例进行示意性说明。

首先，为了使本领域技术人员能更清楚地理解本公开的原理，下面对本公开所涉及的一些技术术语以及背景知识进行简要的描述。

对比学习：对比学习属于一种无监督学习，特点是不需要人工标注的类别标签信息，直接利用数据本身作为监督信息，来学习样本数据的特征表达，并用于下游任务，例如，对回盲部影像的类型进行分类的任务。在对比学习中，通过在输入样本之间进行比较来学习表示。对比学习不是一次从单个数据样本中学习信号，而是通过在不同样本之间进行比较来学习。可以在“相似”输入的正例对和“不同”输入的负例对之间进行比较。对比学习通过同时最大化同一图像的不同变换视图(例如剪裁，翻转，颜色变换等)之间的一致性，以及最小化不同图像的变换视图之间的一致性来学习的。简单来说，就是对比学习要做到相同的图像经过各类变换之后，依然能识别出是同一张图像，所以要最大化各类变换后图像的相似度(因为都是同一个图像得到的)。应当理解，广义的对比学习不一定是将同一张图像的不同变换作为“相似”的正例，还可以直接选择相似的两张图片作为的正例，而其余不同图像作为负例。通过这样的对比训练，编码器(encoder)能学习到图像的更高层次的通用特征。

图2示出了传统的基于SimCLR的对比学习网络架构示意图。

如图2所示，传统的SimCLR模型架构由对称的两个分支(Branch)构成，如图所示，上下两个分支分别对称地设置有编码器和非线性映射器。SimCLR提出了一种构建正负例的方式，基本思想是：输入一个批次的L(L为大于1的正整数)张图X＝x ₁,x ₂,x ₃,…,x _L，以其中的某张图像x _i来说，对其进行随机变换(图像增强，例如包括剪裁，翻转，颜色变换和高斯模糊等)得到两幅图x′ _i和x″ _i，那么一个批次的L张图像X经过增强以后得到两个批次的图像X′和X″，这两个批次X′和X″各自包含L张图像，并且这两个批次的图像中之间一一对应。例如，图像x经过变换后的数据对<x′ _i,x″ _i>互为正例，而x′ _i和其余2L-2个图像都互为负例。在经过变换后，增强图像被投影到表示空间。以上分支为例进行说明，增强图像x′ _i首先经过特征编码器Encoder(一般采用深度残差网络(Deep residual network，ResNet)做为模型结构，这里以函数f _θ(x)代表)，被转换成对应的特征表示h′ _i。紧随其后，是另外一个非线性映射器Non-linear Projector(由两层的多层感知器(multi-layer perceptron，MLP)构成，这里以函数g _θ(·)代表)，进一步将特征表示h′ _i映射成另外一个空间里的向量z′ _i。这样，经过g _θ(f _θ(x))两次非线性变换，就将增强图像投影到了表示空间。下分支的过程类似，在此不做赘述。

此外，本领域技术人员应当理解，也可以只做一个增强变换，并将原始图像和其增强后的版本作为一对正例。

通过计算并最大化正例映射特征之间的相似性，并最小化负例映射特征之间的相似性，可以实现对图像特征的无监督学习。SimCLR中用余弦相似度来计算两个增强的图像之间的相似度，对于两个增强的图像x′ _i和x″ _i，在其投影(即，映射)表示

和z″ _i上计算余弦相似度。在理想情况下，增强后的一对图像(这里可以称为一对正例，例如<x′ _i,x″ _i>)之间的相似度会很高，而该对图像和两个批次中的其他图像之间的相似度会较低。

可以基于正例与负例之间的相似度来定义对比学习的损失函数，SimCLR使用了一种对比损失InfoNCE，如下等式(1)所示：

其中，z _i表示经过非线性映射之后的特征，z _j(i)表示与z _i对应的正例，z _a表示除了z _i的所有其他特征(包括正例和负例)。I表示所有图像。(·)表示点乘操作。τ表示温度参数，用于在模型训练初期防止陷入局部最优解，并随着模型训练帮助收敛。

通过优化上面这个对比损失函数InfoNCE，可以实现最大化正例之间的相似性，同时最小化负例之间的相似性，在一种无监督的环境下可以学到图像的本质特征。

在神经网络中，尤其是计算机视觉(Computer Vision，CV)领域，一般先对图像进行特征提取，这一部分是整个CV任务的根基，因为后续的下游任务都是基于提取出来的图像特征进行(比如分类，生成等等)，所以将这一部分网络结构称为主干网络。如上所述，传统的对比损失模型一般采用深度残差网络作为编码器来提取图像级别的特征，并基于所提取的图像级别的特征进行对比学习。

为了更好地学习内窥镜影像的特征，本公开提出了一种新的多尺度对比学习模型，获取同一图像不同尺度上的特征表示，并基于每个不同尺度的特征表示分别进行对比学习。

多尺度特征：多尺度图像技术也叫做多分辨率技术(MRA)，指对图像采用多尺度的表达，并且在不同尺度下分别进行处理。所谓多尺度，实际上就是对信号的不同粒度的采样，通常在不同的尺度下可以观察到不同的特征，从而完成不同的任务。要在多尺度情况下对图像进行处理首先要在多尺度情况下对图像进行表达。视觉任务中处理多尺度主要有两类方式：图像金字塔和特征金字塔。其中特征金字塔通过不同大小的卷积核以及池化，获得不同大小的感受野来获得不同尺度下的特征表示。

以下，本公开实施例以多尺度Vision Transformer(Multi-scale ViT)为例，用作获得同一输入图像的不同尺度的特征表示的示例性网络。多尺度Vision Transformer编码器块在传统的Transformer编码器块的基础上增加了一个池化层，用于将输入图像特征池化为更小的尺度特征。通过级联多个多尺度Vision Transformer的编码器块，便可以得到多个不同尺度的特征表示。

首先，图3示出了一个常规的Vision Transformer(ViT)模型的一个整体示例性框图。在进行编码之前，尺度ViT对原始图像分为方块网格，通过连接一个方块中所有像素通道，然后利用线性映射器将其线性投影到所需的输入维度，将每个方块展平为单个向量。尺度ViT与输入元素的结构无关，因此还进一步需要利用位置编码器在每个方块向量中添加可学***的序列输入进Transformer模型的编码器部分(这里的Transformer编码器由多个Transformer编码器块串行堆叠构成，例如图3所示的m个(m×)Transformer编码器块)用以进行特征提取。每个Vision Transformer编码器块包括间隔设置的一个多头注意力(Multi-head Attention，MHA)模块和一个多层感知器(Multi-Layer Perception，MLP)模块，其中每个多头注意力模块和多层感知器模块之前设置有一个层标准化模块。

图4示出了图3中的ViT将原始图像展平成序列的示意图。

如图4所示，输入ViT的图像是一张H×W×C的息肉白光影像图像，其中H和W分别为长和宽方向上的像素数量，C为通道数量。先将图像分为方块，再进行展平。假设每个方块的长宽为(P×P)，那么方块的数目为N＝H×W/(P×P)，然后对每个图像方块展平成一维向量，每个向量大小为P×P×C，N个方块总的输入向量变换为N×(P×P×C)。接着利用线性映射器对每个向量都做一个线性变换(即全连接层)来进行矩阵变维(reshape)，将维度压缩为D，这里称其为图块嵌入(Patch Embedding)，就得到了一个N×D的嵌入序列(embedding vector)，N是最终得到的嵌入序列的长度，D是嵌入序列的每个向量的维度，其中，每个D维的向量表示一个相应区域的特征，例如，这里的N×D分别对应于N个区域。随后，用一个位置编码器在序列中加入位置信息，经位置编码后的输入向量的维度并不会发生任何变化。接下来便可以将加入了位置信息以后的序列输入到Transformer编码器中进行特征提取。

在多尺度Vision Transformer中，传统的Vision Transformer编码器块中多头的注意力(MHA)模块被替换为多头池化注意力(Multi-head Pooling Attention，MHPA)模块，通过在其中添加池化层以获得更小尺度的特征。

如图5所示，示出了多尺度Vision Transformer的编码器块中多头池化注意力(MHPA)模块的示意图。

对于输入特征序列长度为N的D维输入张量X∈R^(HW×D)(其中H和W分别为长和宽方向上的像素数量)，和普通的transformer编码器块一样，都是将

分别乘以三个变换矩阵W _q、W _k和W _v，以得到对应的三个中间张量

和

MHPA模块进一步添加了一个池化层，如图5中的Pool _Q、Pool _K和Pool _V所示，用于将特征表示进行池化，以获得更小尺度的特征。例如，如图5所示，中间张量

和

经过池化后变为

和

此时，输入特征的尺度从HW变为

每个特征向量的维度D保持不变。接下来，基于池化后的中间张量

和

继续进行一系列处理，最终得到的输出特征是把原始输入特征进行池化以后的特征和进一步经过注意力模块进行池化和注意力计算的特征进行拼接，如图所示，输出特征的尺寸为

与输入尺寸HW×D相比，特征在尺度上发生了变化(这里是变小)，并且每个向量的维度变为两倍。通过添加池化层，多尺度Vision Transformer可以将输入图像的特征池化为更小的尺度。

可以理解，由于每个编码器块都将在所接收的输入特征的基础上获取更小尺度的特征，那么依次连接多个多尺度Vision Transformer编码器块将会得到同一输入样本图像在不同尺度上的特征表示。这些多尺度ViT所提取的特征可以接入下游任务模块进行进一步的特征提取或进行图像识别或分割等。例如，本申请实施例的基于对比学习的内窥镜图像特征学习模型的训练方法进一步基于多尺度ViT所提取的特征进行对比学习。

应当注意的是，本公开实施例不限于此，还可以利用其它的网络架构来作为多尺度特征提取的主干网络，例如Inception，Deeplab-V3架构等，本公开在此不做限制。

以下以回盲部影像为例，对本公开实施例的基于多尺度对比学习的内窥镜图像特征学习模型的训练方法进行示意性说明。应当注意，本公开实施例提供的技术方案对于其他内窥镜影像同样适用。

图6A示出了根据本公开实施例的回盲部内窥镜图像。

内窥镜经人体的天然孔道，或者是经手术做的小切口进入人体内，获取关于相关的内窥镜图像，这些影像后续被用于疾病的诊断和治疗。如图6A示出了利用在白光(white light，WL)成像模式下操作的内窥镜所拍摄到的回盲部影像。图6B示出了非回盲部的内窥镜图像。通过和图6B的非回盲部影像进行对比可以看出，相对于其他非回盲部的区域，回盲部具有瓣状皱襞，瓣口呈鱼口状。

图7A示出了根据本公开实施例的基于对比学习的内窥镜图像特征学习模型700A的示意性结构。

如图7A所示，根据本公开实施例的内窥镜图像特征学习模型700A的结构和图2所示的传统的基于SimCLR的对比学习网络架构类似，由完全对称的两个分支组成。

例如，根据本公开的一个实施例的编码器可以是多尺度Vision Transformer编码器。在多尺度ViT中，每个多尺度Vision Transformer编码器块由交替的多头池化注意力(Multi-head Pooling Attention，MHPA)模块模块和多层感知器(MLP)模块构成。MHPA模块中添加有池化层，以将输入数据的尺度进行进一步的池化。例如，多尺度ViT的编码器块可以采用池化层将N×D的特征序列池化为Q×D(Q例如可以是

)。以 Q为

为例，对于尺寸为64×1024的输入，经过多尺度Transformer编码器块处理之后，将特征的尺度缩小为1/4，由于多尺度Vision Transformer中，每个编码器块把原始输入特征进行池化以后的特征和进一步经过注意力模块进行池化和注意力计算的特征进行拼接，最终得到的输出特征的尺寸为16×2048。应当理解，在其他多尺度编码器中，可以不进行上述拼接过程，则尺度缩放后的特征尺寸可以是16×1024。

应当理解，多尺度Transformer的结构及其进行提取特征的技术在本领域是公知的，在此不做过多赘述。

如图7A所示，模型700A包括左右两个分支，每个分支包括依次连接的多个编码器，每个编码器的输出端连接到一个映射器模块(例如，图中示出为全局映射模块)。由于这两个分支结构完全相同，并且分别基于同一原始图像的不同增强版本进行完全相同的处理，这里按照功能来对模型700A进行结构划分。例如，可以将模型700A划分为多个(例如，M个，这里的M为大于1的整数)对比学习子模块。如图7A，根据本公开实施例的基于多尺度对比学习的内窥镜图像特征学习模型包括依次连接的多个(例如M个，M为大于1的整数)对比学习子模块700A_1-700A_M。每个对比学习子模块包括两个分支中的一对结构相同的第一编码器和第二编码器及分别与一对编码器连接的一对结构相同的第一映射器模块和第二映射器模块。

应当理解，这里使用的序数词“第一”和“第二”仅仅是为了进行区分，而不进行任何重要性或顺序的限定。例如，这里的“第一编码器”和“第二第二编码器”仅仅是为了区分两个不同分支上的编码器。

例如，这里的编码器可以用于提取与输入特征不同尺度的输出特征。例如，这里的编码器可以是多尺度Vision Transformer编码器块。应当理解，根据本公开实施例的用于多尺度特征提取的编码器不限于此，还可以包括其他能够实现相同功能的架构，例如Inception，Deeplab-V3架构等，本公开在此不做限制。

例如，这里的线性映射器模块可以是图2所示的传统的基于SimCLR的对比学习网络架构中的非线性映射器，用于进一步将编码器输出的特征表示映射成另外一个空间里的向量。例如，这里的映射器模块是一个基于图片级别的特征进行映射的全局映射器模块。例如，这里的映射器模块可以是两层的全连接层。

此外，应当理解，取决于这里的编码器类型，增强图像X’和X”在输入到第一个编码器之前，还可能需要经过一些预处理。

例如，如图7B所示，示出了700A中的编码器是多尺度Vision Transformer编码器块的一个实施例。如上关于Vision Tranformer的相关背景介绍可知，输入的增强图像X’和X”都在输入之前被分割为相同大小的图块，这些图块被展平为一维向量，接着利用线性映射器进行线性变换，以压缩维度。随后，用一个位置编码器在序列中加入位置信息。因此，在模型700A的基础上，模型700B还可以在两个分支中分别包括依次连接的线性映射器和位置编码器。

如前面介绍的，依次串联连接的多个多尺度编码器可以基于同一输入图像生成不同尺度上的特征表示，本公开实施例基于不同尺度上的特征表示进行对比学习，以使得相对于普通的对比学习模型能实现更好的特征学习效果。但是这里进行对比学习通常都是在图像级别进行的，也就是说，在输入两个分支的图像中，以同一张图像的不同增强版本作为一对正例，其余的增强图像作为负例，通过最大化同一图像的不同变换视图(例如剪裁，翻转，颜色变换等)之间的一致性，以及最小化不同图像的变换视图之间的一致性来学习。

本公开实施例还提出了一个进一步的实施例，在基于每一个对比学习子模块的每个尺度的特征的基础上，除了在图像级别进行对比学习以外，还进一步在区域级别进行对比学习。

图7C示出了在图7A的模型700A的基础上，针对同一尺度的特征输出除了进行全局对比学习以外，进一步进行局部对比学习的示例模型。

同样，这里的编码器可以用于提取与输入特征不同尺度的输出特征的多尺度编码器。例如，这里的编码器可以是多尺度Vision Transformer编码器块。应当理解，这里的编码器还可以包括其他能够实现相同功能的架构，例如Inception，Deeplab-V3架构等，本公开在此不做限制。

如上所述，这里的全局映射器是一个基于图片级别的特征进行映射的全局映射器模块。例如，这里的全局映射器模块可以是两层的全连接层。

这里的局部映射器在每个区域的级别上对区域特征进行单独映射。例如，这里的局部映射器可以是两层的1×1卷积层，使得经过局部映射后的特征图维度保持不变。

如此，根据本公开实施例提供的内窥镜图像特征学习模型在多尺度的基础上同时进行全局和局部的对比，相较于常规的对比学习能够更好地学习到内窥镜图像的特征。

图8示出了用于训练根据本公开一个实施例的基于多尺度对比学习的内窥镜图像特征学习模型的方法800的流程图。例如，这里该内窥镜图像特征学习模型是如上参考图7A所示的内窥镜图像特征学习模型700A、图7B所示的内窥镜图像特征学习模型700B或图7C所示的内窥镜图像特征学习模型700C。例如，该内窥镜图像特征学习模型的训练方法800可以由服务器来执行，该服务器可以是图1中所示的服务器100。

首先，在步骤S801中，获取第一训练数据集，所述第一训练数据集包括一个或多个具有待识别对象的内窥镜图像和一个或多个不具有待识别对象的内窥镜图像。

例如，这里的对象可以是回盲部。根据本公告开的一个实施例，这里的内窥镜图像特征学习模型的训练过程是一个无监督的预训练过程，用于学习数据本身的特征，因此，这些数据集没有标注标签。

例如，这里的第一训练数据集可以是模仿真实情况中回盲部图像类型呈现长尾分布的情况所准备的。例如，在本公开的实施例的一个具体实现方式的第一训练数据集中，回盲部的内窥镜图像只占很小的比例，其余的都是非回盲部的内窥镜图像，使得整个训练数据集呈现一种长尾分布。

例如，这里的第一训练数据集可以是通过操作内窥镜获得的，也可以是通过网络下载的方式获取的，也可以通过其他途径获取的，本公开的实施例对此不作限制。

应当理解，根据本公开实施例的内窥镜图像特征学习模型的训练方法的第一训练数据集的数量和比例可以根据实际情况进行调整，本公开对此不做限制。

应当理解，本公开实施例还可以同样适用于除回盲部以外的其他消化道部位或病灶的影像的特征学习，例如息肉等，本公开对此不作限制。

应当理解，如果要针对其他消化道内窥镜影像进行特征学习，这里也可以采用任何其他消化道内窥镜影像来构建数据集并对根据本公开实施例的内窥镜图像特征学习模型进行训练。这些内窥镜影像可以是内窥镜采取任意合适的模式所获取的影像，例如窄带光影像、自发荧光影像、I-SCAN影像等。例如，还可以将以上各种模态影像混合起来构建数据集，本公开对此不作限制。

在步骤S803中，将所述第一训练数据集输入到所述内窥镜图像特征学习模型。

如上所述，在传统的对比学习中，在每次迭代训练时，随机从训练数据集中选取L张图像构成一个批次的输入图像。对于一个批次中的每张图像，通过图像增强方法对每张图像生成两个图像增强视图，这两个增强视图构成一对正例。当然，也可以对每张图像生成一个增强视图，这个增强视图与原始图像构成一对正例。

在对本公开实施例的内窥镜图像特征学习模型进行训练时也是一样。例如，在每次迭代训练时，从所述第一训练数据集中随机选取L个内窥镜图像，将所述L个内窥镜图像中的每一个进行第一图像增强，得到与所述L个内窥镜图像一一对应的L个第一增强型内窥镜图像，并输入到所述内窥镜图像特征学习模型中第一个对比学习子模块的第一编码器；以及将所述L个内窥镜图像中的每一个进行第二图像增强，得到与所述L个内窥镜图像一一对应的L个第二增强型内窥镜图像，并输入到所述内窥镜图像特征学习模型中第一个对比学习子模块的第二编码器。

例如，这里的图像增强可以包括剪裁、翻转、颜色变换和高斯模糊等。此外，本领域技术人员应当理解，也可以只做一个增强变换，并将原始的L个图像和L个增强后的图像输入到模型中。因此，这里使用第一增强是为了便于描述，实际上这个第一增强也可以包括不对图像做任何变换。

作为一个替代实施例，内窥镜图像特征学***为一维向量，接着利用线性映射器进行线性变换，进行维度压缩。随后，用一个位置编码器在序列中加入位置信息。

在步骤S805中，基于所述第一训练数据集对所述内窥镜图像特征学习模型进行无监督的对比学习，以获得训练完成的内窥镜图像特征学习模型。

根据本公开的实施例，这里的内窥镜图像特征学习模型可以包括依次连接的多个对比学习子模块，多个对比学习子模块的每一个用于提取所述第一训练数据集中的同一内窥镜图像的一个不同尺度的特征表示，并基于所提取的不同尺度的特征表示进行对比学习。

如本领域技术人员所熟知的，机器学习算法通常依赖于对目标函数最大化或者最小化的过程，常常把最小化的函数称为损失函数。

由于本公开实施例的内窥镜图像特征学习模型的训练方法是基于多个尺度的图像特征中的每一个进行对比学习的，因此，总的联合损失函数可以是基于多个不同尺度特征的对比学习(即，每个对比学习子模块)的对比损失函数之和。

对于M个的对比学习子模块，联合损失函数为：

其中，L ⁽ⁱ⁾为任意一个对比学习子模块i的对比损失函数，M为对比学习子模块的个数。

例如，根据本公开实施例的内窥镜图像特征学习模型的训练方法中，对所述内窥镜图像特征学习模型进行无监督的对比学习，以获得训练完成的内窥镜图像特征学习模型可以包括：基于所述M个对比学习子模块中的每一个对比学习子模块i的特征输出，计算联合对比损失值，并基于所述联合对比损失值调整所述内窥镜图像特征学习模型的参数，直到所述内窥镜图像特征学习模型的联合对比损失函数收敛，其中，所述联合对比损失函数是基于所述M个对比学习子模块中的每一对比学习子模块i的输出的对比损失函数之和。

下面参考图9，来对步骤S803中的基于所述第一训练数据集对所述内窥镜图像特征学习模型进行无监督的对比学习的步骤进行更具体的示例性说明。

如图9所示，步骤S803中的基于所述第一训练数据集对所述内窥镜图像特征学习模型进行无监督的对比学习包括以下子步骤S901-S905。这些步骤是以一次迭代过程为例进行说明的。

具体地，对于每个对比学习子模块，除了接收的数据尺度不一样，它们所执行的处理都完全一样，最后的联合损失值仅是每个对比学习子模块的损失值的简单相加。因此，下面以M个对比学习子模块中的任意一个对比学习子模块i来进行说明，其中i∈[1,M]。这里假设任意一个对比学习子模块i，其所提取的图像特征的尺度为第i尺度。

在步骤S901，基于所述M个对比学习子模块中的任意一个对比学习子模块i，利用其中所包括的第一编码器和第二编码器，分别提取与所述L个第一增强型内窥镜图像相对应的L个第i尺度的第一特征表示和与所述L个第二增强型内窥镜图像相对应的L个第i尺度的第二特征表示。

如上所述，这里的第一编码器和第二编码器具有完全相同的结构，用于对分别对应于第一分支的输入样本以及对应于第二分支的输入样本的输入特征进行特征提取，并且所提取的特征的尺度与所接收的特征的尺度不同。举例来说，对于第一个对比学习子模块1，假设其中所包括的第一编码器接收的输入特征为

该第一编码器提取不同于输入特征的尺度的特征，例如，经过第一编码器编码后，输出的特征可以是

应当理解，这里的1/(2 ²)仅是示例，尺度缩小比例可以是任意预设的值。例如，这里的编码器可以采用池化的方式来缩小特征尺度，也可以采用任何可以实现此技术效果的其他方法，本公开对此不作限制。每个对比学习子模块中的第一编码器输出的特征会进入到下一层的对比学习子模块中的第一编码器。例如，这里第一个对比学习子模块1中第一编码器的输出特征

会进入到第二个对比学习子模块2中的第一编码器，该第一编码器进一步缩小尺度，例如输出特征

依次类推。第二编码器的过程与第一编码器完全一样，这里不再赘述。

例如，这里的编码器可以是多尺度Vision Transformer编码器块，其如何进行特征池化以及特征提取的过程在本领域是公知的，在此不做过多赘述。

应当理解，根据本公开实施例的多尺度特征提取的编码器不限于此，还可以包括其他能够实现相同功能的架构，例如Inception，Deeplab-V3架构等，本公开在此不做限制。

在步骤S903，利用其中所包括的第一映射器模块和第二映射器模块，分别对所述L个第i尺度的第一特征表示和所述L个第i尺度的第二特征表示进行映射处理，以得到与所述L个第一增强型内窥镜图像相对应的映射后的第i尺度的特征表示和与所述L个第二增强型内窥镜图像相对应的映射后的第i尺度的特征表示。

与图2所示的传统的基于SimCLR的对比学习网络架构类似，根据本公开实施例的对比学习子模块i基于从上一层接收的两个批次的内窥镜图像(例如，上文提到的L个第一增强型内窥镜图像和L个第二增强型内窥镜图像的输入)的特征表示，进一步在不同尺度上进行特征提取。每个编码器的输出端连接到相应的映射器进行映射，对比学习便在映射后的特征表示上计算相似度(例如余弦相似度)。

在本公开的一个实施例中，提出仅在图像级别进行对比学习。

在这种情况下，这里的第一映射器模块和第二映射器模块可以仅包括全局映射器，例如第一全局映射器和第二全局映射器，如上图7A中的模型700A或如上图7B中的模型700B所示。这两个全局映射器分别连接到第一编码器和第二编码器的输出，用于在图像级别的基础上对第一编码器和第二编码器输出的特征进行全局映射。

例如，基于第一全局映射器和第二全局映射器，分别对L个第i尺度的第一特征表示和L个第i尺度的第二特征表示进行映射处理，以得到与L个第一增强型内窥镜图像相对应的L个全局映射后的第i尺度的第一特征表示和与L个第二增强型内窥镜图像相对应的L个全局映射后的第i尺度的第二特征表示。

在本公开的另一个实施例中，还提出在图像级别进行对比学习的基础上，进一步在区域级别进行对比学习。

例如，对于对比学习子模块i，第一编码器或第二编码器除了连接到一个全局映射器之外，还可以连接到一个局部映射器，如上图7C中的模型700C所示。这两个局部映射器用于对从编码器接收的特征表示进行局部特征的映射。

在这种情况下，这两个局部映射器进一步分别在区域级别的基础上对第一编码器和第二编码器输出的特征进行局部映射。

例如，基于所述第一局部映射器和所述第二局部映射器，分别对所述L个第i尺度的第一特征表示和所述L个第i尺度的第二特征表示进行局部映射，以得到与所述L个第一增强型内窥镜图像相对应的L个局部映射后的第i尺度的第一特征表示和与所述L个第二增强型内窥镜图像相对应的L个局部映射后的第i尺度的第二特征表示。

在步骤S905，基于与所述L个第一增强型内窥镜图像相对应的映射后的特征表示和与所述L个第二增强型内窥镜图像相对应的映射后的特征表示，计算对比学习子模块i的对比损失值。

如上文所述，对比学习利用映射器将从编码器输出的特征表示映射成另外一个空间里的向量，随后便在映射后的特征表示上计算正例和负例之间的余弦相似度。在理想情况下，正例之间的相似度会很高，正例和负例之间的相似度会较低。

本公开的一个实施例仅在图像级别进行对比学习。在这种情况下，将同一图像的一对增强版本的映射后的全局特征作为正例，其他图像的映射后的全局特征作为负例。

例如，将与所述L个第一增强型内窥镜图像相对应的所述L个全局映射后的第i尺度的第一特征表示和与所述L个第二增强型内窥镜图像相对应的所述L个全局映射后的第i尺度的第二特征表示中一一对应的两个特征表示作为一对正例，其余(2L-2)个特征表示作为负例，计算对比损失函数，以得到对比学习子模块i的对比损失值。

本公开的另一个实施例除了图像级别进行对比学习以外，进一步在区域级别进行对比学习。区域级别的对比学习将编码器输出的特征作为若干区域的特征的集合，基于局部映射器分别对不同区域的特征进行局部映射。

例如，这里的局部映射器可以是两层1x1的卷积模块。由于1x1的卷积核大小只有1x1，所以并不需要考虑像素跟周边区域的关系，也并不会将周边区域与当前区域的特征进行融合。

在这种情况下，将同一图像的一对增强版本的局部区域的局部特征作为正例，同一对图像中的其他区域、以及不同图片中的所有区域都作为负例。

此时，每一个对比损失子模块i的损失函数可以是局部对比损失函数与全局对比损失函数之和：

同样，由于本公开实施例的内窥镜图像特征学习模型的训练方法是基于多个尺度的图像特征中的每一个进行全局和局部的对比学习的，因此，总的联合损失函数可以是每个对比学习子模块的对比损失函数之和。

对于M个的对比学习子模块，总的联合损失函数为：

其中，

为任意一个对比学习子模块i的局部对比损失函数，

为任意一个对比学习子模块i的全局对比损失函数，M为对比学习子模块的个数。

下面结合图10具体说明如何基于局部映射后的特征来计算对比学习子模块i的局部对比损失值。

在步骤S1001，将与所述L个第一增强型内窥镜图像相对应的所述L个局部映射后的第i尺度的第一特征表示中的每一个划分为第一S个第i尺度的局部特征表示，以得到第一(L×S)个第i尺度的局部特征表示。

例如，假设第一个对比学习子模块中第一编码器针对一个第一增强型内窥镜图像输出特征

如上文步骤S905所述，由于局部映射函数是1*1的卷积，所以并不需要考虑当前区域像素跟周边区域的关系，也并不会将周边区域的特征与当前区域的特征融合，因此，经过局部映射后的特征Y ₁仍然属于

如本领域技术人员所理解的，对于

其中每一个1×D的向量对应于一个区域，因此，根据本公开的实施例，可以将Y ₁当成与

个区域相对应的

个局部特征的集合。

此外，应当理解，多个数量的1×D向量可以对应于一个更大区域，例如，可以将两个1×D的向量作为与一个更大区域相对应的特征，此时，可以将Y ₁当成与

个区域相对应的局部特征的集合。本公开对特征划分(即区域划分)的尺寸不做限制。

在步骤S1003，以与划分第一S个局部特征表示相同的方式，将与所述L个第二增强型内窥镜图像相对应的所述L个局部映射后的第i尺度的第二特征表示中的每一个划分为与所述第一S个第i尺度的局部特征表示一一对应的第二S个第i尺度的局部特征表示，以得到第二(L×S)个第i尺度的局部特征表示。该过程与划分第一S个局部特征表示完全相同，在此不做赘述。

在步骤S1005，将所述第一(L×S)个第i尺度的局部特征表示与所述第二(L×S)个第i尺度的局部特征表示中一一对应的两个局部特征表示作为一对正例，其余(2×(L×S)-2)个局部特征表示作为负例，计算对比损失函数，以得到局部对比损失值。

基于此，通过将同一图像的一对增强版本的局部区域的局部特征作为正例，同一对图像中的其他区域、以及其他不同图片中的所有区域都作为负例，来计算对比损失值。

如此，根据本公开实施例提供的内窥镜图像特征学习模型在多尺度的基础上进行全局和局部的对比，相较于常规的对比学习能够更好地学习到内窥镜图像的特征。

在内窥镜图像特征学习模型的训练完成之后，本公开实施例进一步基于训练好的内窥镜图像特征学习模型中的编码器来进行有监督的分类训练。

本公开实施例还提供了一种内窥镜图像分类模型的训练方法。参考图11来描述本公开实施例中内窥镜图像分类模型的训练方法的流程图，该方法包括：

步骤S1101中，获取第二训练数据集，所述训练数据集包括一个或多个具有待识别对象的内窥镜图像和一个或多个不具有待识别对象的内窥镜图像，所述内窥镜图像标注有标签，用于指示内窥镜图像是否包括待识别对象。

例如，这里的第二训练数据集可以是模仿真实情况中回盲部图像类型呈现长尾分布的情况所准备的。例如，在本公开的实施例的一个具体实现方式中，回盲部的内窥镜图像只占很小的比例，其余的都是非回盲部的内窥镜图像，使得整个训练数据集呈现一种长尾分布。

例如，这里的第二训练数据集可以是通过操作内窥镜获得的，也可以是通过网络下载的方式获取的，也可以通过其他途径获取的，本公开的实施例对此不作限制。

应当理解，根据本公开实施例的内窥镜图像分类模型的训练方法的训练数据集的数量和比例可以根据实际情况进行调整，本公开对此不做限制。

应当理解，在内窥镜图像特征学习模型是训练为学习其他类型的内窥镜影像的情况下，本公开实施例的内窥镜图像分类模型还可以同样适用于除回盲部以外的其他消化道部位或病灶的影像分类，例如息肉等，本公开对此不作限制。

应当理解，这里的第二训练数据集中的内窥镜影像可以是内窥镜采取任意合适的模式所获取的影像，例如窄带光影像、自发荧光影像、I-SCAN影像等。例如，还可以将以上各种模态影像混合起来构建数据集，本公开对此不作限制。

在步骤S1103中，将所述第二训练数据集输入到内窥镜图像分类模型中进行训练，直到所述内窥镜图像分类模型的目标损失函数收敛，以获得训练完成的内窥镜图像分类模型。

例如，这里的分类模型和本领域普通的分类模型一样，都是包括特征提取模块和一个分类器，特征提取模块用于提取图像特征，分类器用于基于提取的图像特征进行分类预测，再基于预测的结果和真实标签计算损失值，并基于所述损失值调整所述内窥镜图像分类模型的参数，直到目标损失函数收敛。

例如，这里的内窥镜图像分类模型的特征提取模块可以是上述训练好的内窥镜特征学习模型700A、700B或700C的任何一个中的M个第一编码器或M个第二编码器。

例如，这里的目标损失函数可以是基于所述内窥镜图像分类模型的最终输出结果与图像样本的标注标签而确定的交叉熵损失函数。

例如，若第二训练数据集基于呈现真实情况的长尾分布，这里的目标损失函数可以是所述内窥镜图像分类模型的最终输出结果与图像样本的标注标签而确定的焦点损失函数，如下等式(5)所示：

其中，

为预测概率分布，γ≥0，为可调节的权重。

基于通过如上方式训练好的内窥镜图像分类模型，本公开实施例还提供了一种内窥镜图像分类方法。参考图12来描述本公开实施例中内窥镜图像分类方法的流程图，该方法包括：

在步骤S1201中，获取待识别的内窥镜图像。

例如，如果所训练的图像分类模型是针对回盲部识别进行训练的，获取的待识别的内窥镜图像即是采集到的回盲部影像或非回盲部影像。

在步骤S1203中，将所述待识别的内窥镜图像输入到训练好的内窥镜图像分类模型中，以获得所述内窥镜图像的分类结果。

基于上述实施例，参阅图13所示，为本公开实施例中一种内窥镜图像分类***1300的结构示意图。该内窥镜图像分类***1300至少包括图像获取部件1301、处理部件1302和输出部件1303。本公开实施例中，图像获取部件1301、处理部件1302和输出部件1303为相关的医疗器械，可以集成在同一医疗器械中，也可以分为多个设备，相互连接通信，组成一个医疗***来使用等，例如针对消化道疾病诊断，图像获取部件1301可以为内镜，处理部件1302和输出部件1303可以为与内镜相通信的计算机设备等。

具体地，图像获取部件1301用于获取待识别图像。处理部件1302例如用于执行图12所示的方法步骤，提取待识别图像的图像特征信息，并基于待识别的图像的特征信息获得待识别图像的分类结果。输出部件1303用于输出待识别图像的分类结果。

图14示出了根据本公开实施例的内窥镜特征学习模型的训练装置1400，具体包括训练数据集获取部件1401、输入部件1403和训练部件1405。

训练数据集获取部件1401用于获取第一训练数据集，所述第一训练数据集包括一个或多个具有待识别对象的内窥镜图像和一个或多个不具有待识别对象的内窥镜图像。输入部件1403用于将所述第一训练数据集输入到所述内窥镜图像特征学习模型。训练部件1405用于基于所述第一训练数据集对所述内窥镜图像特征学习模型进行无监督的对比学习，以获得训练完成的内窥镜图像特征学习模型。

例如，其中，所述内窥镜图像特征学习模型包括多个对比学习子模块，所述多个对比学习子模块的每一个用于提取所述第一训练数据集中的同一内窥镜图像的不同尺度的特征表示，并基于所提取的不同尺度的特征表示进行对比学习。

例如，其中，所述多个对比学习子模块包括依次连接的M个对比学习子模块，其中，所述M个对比学习子模块中的任意一个对比学习子模块i都包括：结构完全相同的第一编码器和第二编码器、以及结构完全相同的第一映射器模块和第二映射器模块，其中，所述第一编码器的输出端连接到所述第一映射器模块的输入端，所述第二编码器的输出端连接到所述第二映射器模块的输入端，其中，所述M个对比学习子模块中的M个第一编码器依次连接，所述M个对比学习子模块中的M个第二编码器依次连接，其中，所述M为大于或等于1的整数，所述i∈[1,M]。

例如，所述输入部件1403在每次迭代训练时：从所述第一训练数据集中随机选取L个内窥镜图像，将所述L个内窥镜图像中的每一个进行第一图像增强，得到与所述L个内窥镜图像一一对应的L个第一增强型内窥镜图像，并输入到所述内窥镜图像特征学习模型中第一个对比学习子模块的第一编码器；以及将所述L个内窥镜图像中的每一个进行第二图像增强，得到与所述L个内窥镜图像一一对应的L个第二增强型内窥镜图像，并输入到所述内窥镜图像特征学习模型中第一个对比学习子模块的第二编码器，其中，所述L为大于1的正整数。

例如，其中，所述第一图像增强和第二图像增强分别包括以下各项中任意两个：保持不变、剪裁、翻转、颜色变换和高斯模糊。

例如，其中所述训练部件1405基于所述M个对比学习子模块中的每一个对比学习子模块i的特征输出，计算联合对比损失值，并基于所述联合对比损失值调整所述内窥镜图像特征学习模型的参数，直到所述内窥镜图像特征学习模型的联合对比损失函数收敛。

例如，其中，所述联合对比损失函数是基于所述M个对比学习子模块中的每一对比学习子模块i的输出的对比损失函数之和。

例如，其中所述训练部件1405包括特征提取子部件1405_1、映射子部件1405_3和损失值计算子部件1405_5。

所述特征提取子部件1405_1基于所述M个对比学习子模块中的任意一个对比学习子模块i，利用其中所包括的第一编码器和第二编码器，分别提取与所述L个第一增强型内窥镜图像相对应的L个第i尺度的第一特征表示和与所述L个第二增强型内窥镜图像相对应的L个第i尺度的第二特征表示。所述映射子部件1405_3利用其中所包括的第一映射器模块和第二映射器模块，分别对所述L个第i尺度的第一特征表示和所述L个第i尺度的第二特征表示进行映射处理，以得到与所述L个第一增强型内窥镜图像相对应的映射后的第i尺度的特征表示和与所述L个第二增强型内窥镜图像相对应的映射后的第i尺度的特征表示。所述损失值计算部件1405_5基于与所述L个第一增强型内窥镜图像相对应的映射后的第i尺度的特征表示和与所述L个第二增强型内窥镜图像相对应的映射后的第i尺度的特征表示，计算对比学习子模块i的对比损失值。

例如，其中，所述任意一个对比学习子模块i中的第一编码器和第二编码器在不同尺度上对所接收的输入进行特征提取，使得任一个对比学习子模块i中的第一编码器和第二编码器所提取的第i尺度的特征表示与其余(M-1)个对比学习子模块中的第一编码器和第二编码器所提取的特征表示的尺度都不相同。

例如，所述映射子部件1405_3基于所述对比学习子模块i中包括的所述第一全局映射器和所述第二全局映射器，分别对所述L个第i尺度的第一特征表示和所述L个第i尺度的第二特征表示进行全局映射处理，以得到与所述L个第一增强型内窥镜图像相对应的L个全局映射后的第i尺度的第一特征表示和与所述L个第二增强型内窥镜图像相对应的L个全局映射后的第i尺度的第二特征表示。

例如，其中，所述第一全局映射器和所述第二全局映射器是两层的全连接模块。

例如，所述损失值计算子部件1405_5将与所述L个第一增强型内窥镜图像相对应的所述L个全局映射后的第i尺度的第一特征表示和与所述L个第二增强型内窥镜图像相对应的所述L个全局映射后的第i尺度的第二特征表示中一一对应的两个特征表示作为一对正例，其余(2L-2)个特征表示作为负例，计算对比损失函数，以得到对比学习子模块i的对比损失值。

例如，所述映射子部件1405_3基于所述对比学习子模块i中包括的所述第一全局映射器和所述第二全局映射器，分别对所述L个第i尺度的第一特征表示和所述L个第i尺度的第二特征表示进行全局映射处理，以得到与所述L个第一增强型内窥镜图像相对应的L个全局映射后的第i尺度的第一特征表示和与所述L个第二增强型内窥镜图像相对应的L个全局映射后的第i尺度的第二特征表示；以及基于所述对比学习子模块i中包括的所述第一局部映射器和所述第二局部映射器，分别对所述L个第i尺度的第一特征表示和所述L个第i尺度的第二特征表示进行局部映射，以得到与所述L个第一增强型内窥镜图像相对应的L个局部映射后的第i尺度的第一特征表示和与所述L个第二增强型内窥镜图像相对应的L个局部映射后的第i尺度的第二特征表示。

例如，其中，所述第一全局映射器和所述第二全局映射器是两层的全连接模块，所述第一局部映射器和所述第二局部映射器是两层1x1的卷积模块。

例如，所述损失值计算子部件1405_5将与所述L个第一增强型内窥镜图像相对应的所述L个全局映射后的第i尺度的第一特征表示和与所述L个第二增强型内窥镜图像相对应的所述L个全局映射后的第i尺度的第二特征表示中一一对应的两个特征表示作为一对正例，其余(2L-2)个特征表示作为负例，计算对比损失函数，以得到全局对比损失值；以及将与所述L个第一增强型内窥镜图像相对应的所述L个局部映射后的第i尺度的第一特征表示中的每一个划分为第一S个第i尺度的局部特征表示，以得到第一(L×S)个第i尺度的局部特征表示；以与划分第一S个局部特征表示相同的方式，将与所述L个第二增强型内窥镜图像相对应的所述L个局部映射后的第i尺度的第二特征表示中的每一个划分为与所述第一S个第i尺度的局部特征表示一一对应的第二S个第i尺度的局部特征表示，以得到第二(L×S)个第i尺度的局部特征表示；将所述第一(L×S)个第i尺度的局部特征表示与所述第二(L×S)个第i尺度的局部特征表示中一一对应的两个局部特征表示作为一对正例，其余(2×(L×S)-2)个局部特征表示作为负例，计算对比损失函数，以得到局部对比损失值；将所述全局对比损失值与所述局部对比损失值相加，以得到对比学习子模块i的对比损失值。

例如，其中，所述对比损失函数是噪声对比估计损失函数InfoNCE。

例如，其中，所述第一编码器和所述第二编码器是多尺度Transformer编码器，所述多尺度Transformer编码器包括间隔设置的一个或多个多头池化注意力模块和一个或多个多层感知器模块，其中每个多头注意力模块和多层感知器模块之前设置有模块标准化模块。

例如，其中，所述对象是回盲部。

图15示出了根据本公开实施例的内窥镜图像分类模型的训练装置1500，具体包括训练数据集获取部件1501和训练部件1503。

训练数据集获取部件1501用于获取第二训练数据集，所述第二训练数据集包括一个或多个具有待识别对象的内窥镜图像和一个或多个不具有待识别对象的内窥镜图像，所述内窥镜图像标注有标签，用于指示内窥镜图像是否包括待识别对象。训练部件1503用于将所述第二训练数据集输入到内窥镜图像分类模型中进行训练，直到所述内窥镜图像分类模型的目标损失函数收敛，以获得训练完成的内窥镜图像分类模型。

例如，其中，所述内窥镜图像分类模型包括依次连接的特征提取模块和分类器模块，其中所述特征提取模块是根据前面所述的基于多尺度对比学习的内窥镜图像特征学习模型的训练方法所获得的内窥镜图像特征学习模型中的M个第一编码器或M个第二编码器，其中M是大于1的整数。

例如，其中，所述第二训练数据集呈长尾分布，所述内窥镜图像分类模型的目标损失函数包括：基于所述内窥镜图像分类模型的最终输出结果与图像样本的标注标签而确定的焦点损失函数。

基于上述实施例，本公开实施例中还提供了另一示例性实施方式的电子设备。在一些可能的实施方式中，本公开实施例中电子设备可以包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行程序时可以实现上述实施例中内窥镜图像特征学习模型训练方法或内窥镜图像识别方法的步骤。

例如，以电子设备为本公开图1中的服务器100为例进行说明，则该电子设备中的处理器即为服务器100中的处理器110，该电子设备中的存储器即为服务器100中的存储器120。

本公开的实施例还提供了一种计算机可读存储介质。图16示出了根据本公开的实施例的存储介质的示意图1600。如图16所示，所述计算机可读存储介质1600上存储有计算机可执行指令1601。当所述计算机可执行指令1601由处理器运行时，可以执行参照以上附图描述的根据本公开实施例的基于对比学习的内窥镜图像特征学习模型的训练方法和内窥镜图像分类方法。所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。

本公开的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行根据本公开实施例的基于对比学习的内窥镜图像特征学习模型的训练方法和内窥镜图像分类方法。

本领域技术人员能够理解，本公开所披露的内容可以出现多种变型和改进。例如，以上所描述的各种设备或组件可以通过硬件实现，也可以通过软件、固件、或者三者中的一些或全部的组合实现。

此外，虽然本公开对根据本公开的实施例的***中的某些单元做出了各种引用，然而，任何数量的不同单元可以被使用并运行在客户端和/或服务器上。所述单元仅是说明性的，并且所述***和方法的不同方面可以使用不同单元。

本领域普通技术人员可以理解上述方法中的全部或部分的步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本公开并不限制于任何特定形式的硬件和软件的结合。

除非另有定义，这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

以上是对本公开的说明，而不应被认为是对其的限制。尽管描述了本公开的如果干示例性实施例，但本领域技术人员将容易地理解，在不背离本公开的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本公开范围内。应当理解，上面是对本公开的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本公开由权利要求书及其等效物限定。

Claims

一种基于多尺度对比学习的内窥镜图像特征学习模型的训练方法，所述方法包括：

获取第一训练数据集，所述第一训练数据集包括一个或多个具有待识别对象的内窥镜图像和一个或多个不具有待识别对象的内窥镜图像；

将所述第一训练数据集输入到所述内窥镜图像特征学习模型；以及

基于所述第一训练数据集对所述内窥镜图像特征学习模型进行无监督的对比学习，以获得训练完成的内窥镜图像特征学习模型，

其中，所述内窥镜图像特征学习模型包括多个对比学习子模块，所述多个对比学习子模块的每一个用于提取所述第一训练数据集中的同一内窥镜图像的不同尺度的特征表示，并基于所提取的不同尺度的特征表示进行对比学习。
根据权利要求1所述的方法，其中，所述多个对比学习子模块包括依次连接的M个对比学习子模块，其中，

所述M个对比学习子模块中的任意一个对比学习子模块i都包括：结构完全相同的第一编码器和第二编码器、以及结构完全相同的第一映射器模块和第二映射器模块，

其中，所述第一编码器的输出端连接到所述第一映射器模块的输入端，所述第二编码器的输出端连接到所述第二映射器模块的输入端，

其中，所述M个对比学习子模块中的M个第一编码器依次连接，所述M个对比学习子模块中的M个第二编码器依次连接，

其中，所述M为大于或等于1的整数，所述i∈[1,M]。
根据权利要求2所述的方法，其中，将所述第一训练数据集输入到所述内窥镜图像特征学习模型包括：

在每次迭代训练时：

从所述第一训练数据集中随机选取L个内窥镜图像，将所述L个内窥镜图像中的每一个进行第一图像增强，得到与所述L个内窥镜图像一一对应的L个第一增强型内窥镜图像，并输入到所述内窥镜图像特征学习模型中第一个对比学习子模块的第一编码器；以及

将所述L个内窥镜图像中的每一个进行第二图像增强，得到与所述L个内窥镜图像一一对应的L个第二增强型内窥镜图像，并输入到所述内窥镜图像特征学习模型中第一个对比学习子模块的第二编码器，其中，所述L为大于1的正整数。
根据权利要求3所述的方法，其中，所述第一图像增强和第二图像增强分别包括以下各项中任意两个：保持不变、剪裁、翻转、颜色变换和高斯模糊。
根据权利要求3或4所述的方法，其中，基于所述第一训练数据集对所述内窥镜图像特征学习模型进行无监督的对比学习包括：

基于所述M个对比学习子模块中的任意一个对比学习子模块i，利用其中所包括的第一编码器和第二编码器，分别提取与所述L个第一增强型内窥镜图像相对应的L个第i尺度的第一特征表示和与所述L个第二增强型内窥镜图像相对应的L个第i尺度的第二特征表示；

利用其中所包括的第一映射器模块和第二映射器模块，分别对所述L个第i尺度的第一特征表示和所述L个第i尺度的第二特征表示进行映射处理，以得到与所述L个第一增强型内窥镜图像相对应的映射后的第i尺度的特征表示和与所述L个第二增强型内窥镜图像相对应的映射后的第i尺度的特征表示；以及

基于与所述L个第一增强型内窥镜图像相对应的映射后的第i尺度的特征表示和与所述L个第二增强型内窥镜图像相对应的映射后的第i尺度的特征表示，计算对比学习子模块i的对比损失值，

其中，所述任意一个对比学习子模块i中的第一编码器和第二编码器在不同尺度上对所接收的输入进行特征提取，使得任一个对比学习子模块i中的第一编码器和第二编码器所提取的第i尺度的特征表示与其余(M-1)个对比学习子模块中的第一编码器和第二编码器所提取的特征表示的尺度都不相同。
根据权利要求2至5中任一项所述的方法，其中，基于所述第一训练数据集对所述内窥镜图像特征学习模型进行无监督的对比学习，以获得训练完成的内窥镜图像特征学习模型包括：

基于所述M个对比学习子模块中的每一个对比学习子模块i的特征输出，计算联合对比损失值，并基于所述联合对比损失值调整所述内窥镜图像特征学习模型的参数，直到所述内窥镜图像特征学习模型的联合对比损失函数收敛，

其中，所述联合对比损失函数是基于所述M个对比学习子模块中的每一对比学习子模块i的输出的对比损失函数之和。
根据权利要求5所述的方法，其中，所述对比学习子模块i中的第一映射器模块包括第一全局映射器，所述对比学习子模块i中的第一编码器的输出端连接到所述对比学习子模块i中的第一全局映射器的输入端；所述对比学习子模块i中的第二映射器模块包括第二全局映射器，所述对比学习子模块i中的第二编码器的输出端连接到所述对比学习子模块i中的第二全局映射器的输入端。
根据权利要求7所述的方法，其中，利用其中所包括的第一映射器模块和第二映射器模块，分别对所述L个第i尺度的第一特征表示和所述L个第i尺度的第二特征表示进行映射处理，以得到与所述L个第一增强型内窥镜图像相对应的映射后的第i尺度的特征表示和与所述L个第二增强型内窥镜图像相对应的映射后的第i尺度的特征表示包括：

基于所述对比学习子模块i中包括的所述第一全局映射器和所述第二全局映射器，分别对所述L个第i尺度的第一特征表示和所述L个第i尺度的第二特征表示进行全局映射处理，以得到与所述L个第一增强型内窥镜图像相对应的L个全局映射后的第i尺度的第一特征表示和与所述L个第二增强型内窥镜图像相对应的L个全局映射后的第i尺度的第二特征表示。
根据权利要求7或8所述的方法，其中，所述第一全局映射器和所述第二全局映射器是两层的全连接模块。
根据权利要求8所述的方法，其中，基于与所述L个第一增强型内窥镜图像相对应的映射后的第i尺度的特征表示和与所述L个第二增强型内窥镜图像相对应的映射后的第i尺度的特征表示，计算对比学习子模块i的对比损失值包括：

将与所述L个第一增强型内窥镜图像相对应的所述L个全局映射后的第i尺度的第一特征表示和与所述L个第二增强型内窥镜图像相对应的所述L个全局映射后的第i尺度的第二特征表示中一一对应的两个特征表示作为一对正例，其余(2L-2)个特征表示作为负例，计算对比损失函数，以得到对比学习子模块i的对比损失值。
根据权利要求5所述的方法，其中，所述对比学习子模块i中的第一映射器模块包括第一全局映射器和第一局部映射器，所述对比学习子模块i中的第一编码器的输出端同时连接到所述对比学习子模块i中的第一全局映射器的输入端和第一局部映射器的输入端；所述对比学习子模块i中的第二映射器模块包括第二全局映射器和第二局部映射器，所述对比学习子模块i中的第二编码器的输出端同时连接到所述对比学习子模块i中的第二全局映射器的输入端和第二局部映射器的输入端。
根据权利要求11所述的方法，其中，利用其中所包括的第一映射器模块和第二映射器模块，分别对所述L个第i尺度的第一特征表示和所述L个第i尺度的第二特征表示进行映射处理，以得到与所述L个第一增强型内窥镜图像相对应的映射后的第i尺度的特征表示和与所述L个第二增强型内窥镜图像相对应的映射后的第i尺度的特征表示包括：

基于所述对比学习子模块i中包括的所述第一全局映射器和所述第二全局映射器，分别对所述L个第i尺度的第一特征表示和所述L个第i尺度的第二特征表示进行全局映射处理，以得到与所述L个第一增强型内窥镜图像相对应的L个全局映射后的第i尺度的第一特征表示和与所述L个第二增强型内窥镜图像相对应的L个全局映射后的第i尺度的第二特征表示；以及

基于所述对比学习子模块i中包括的所述第一局部映射器和所述第二局部映射器，分别对所述L个第i尺度的第一特征表示和所述L个第i尺度的第二特征表示进行局部映射，以得到与所述L个第一增强型内窥镜图像相对应的L个局部映射后的第i尺度的第一特征表示和与所述L个第二增强型内窥镜图像相对应的L个局部映射后的第i尺度的第二特征表示。
根据权利要求11或12所述的方法，其中，所述第一全局映射器和所述第二全局映射器是两层的全连接模块，所述第一局部映射器和所述第二局部映射器是两层1x1的卷积模块。
根据权利要求12所述的方法，其中，基于与所述L个第一增强型内窥镜图像相对应的映射后的特征表示和与所述L个第二增强型内窥镜图像相对应的映射后的特征表示，计算对比学习子模块i的对比损失值包括：

将与所述L个第一增强型内窥镜图像相对应的所述L个全局映射后的第i尺度的第一特征表示和与所述L个第二增强型内窥镜图像相对应的所述L个全局映射后的第i尺度的第二特征表示中一一对应的两个特征表示作为一对正例，其余(2L-2)个特征表示作为负例，计算对比损失函数，以得到全局对比损失值；

将与所述L个第一增强型内窥镜图像相对应的所述L个局部映射后的第i尺度的第一特征表示中的每一个划分为第一S个第i尺度的局部特征表示，以得到第一(L×S)个第i尺度的局部特征表示；

以与划分第一S个局部特征表示相同的方式，将与所述L个第二增强型内窥镜图像相对应的所述L个局部映射后的第i尺度的第二特征表示中的每一个划分为与所述第一S个第i尺度的局部特征表示一一对应的第二S个第i尺度的局部特征表示，以得到第二(L×S)个第i尺度的局部特征表示；

将所述第一(L×S)个第i尺度的局部特征表示与所述第二(L×S)个第i尺度的局部特征表示中一一对应的两个局部特征表示作为一对正例，其余(2×(L×S)-2)个局部特征表示作为负例，计算对比损失函数，以得到局部对比损失值；以及

将所述全局对比损失值与所述局部对比损失值相加，以得到对比学习子模块i的对比损失值。
根据权利要求10或14所述的方法，其中，所述对比损失函数是噪声对比估计损失函数InfoNCE。
根据权利要求2-15任一项所述的方法，其中，所述第一编码器和所述第二编码器是多尺度Transformer编码器块，所述多尺度Transformer编码器块包括间隔设置的一个或多个多头池化注意力模块和一个或多个多层感知器模块，其中每个多头池化注意力模块和每个多层感知器模块之前设置有模块标准化模块。
根据权利要求1-16任一项所述的方法，其中，所述对象是回盲部。
一种基于对比学习的内窥镜图像特征学习模型的训练装置，所述装置包括：

训练数据集获取部件，用于获取第一训练数据集，所述第一训练数据集包括一个或多个具有待识别对象的内窥镜图像和一个或多个不具有待识别对象的内窥镜图像；

输入部件，用于将所述第一训练数据集输入到所述内窥镜图像特征学习模型；

训练部件，用于基于所述第一训练数据集对所述内窥镜图像特征学习模型进行无监督的对比学习，以获得训练完成的内窥镜图像特征学习模型，

其中，所述内窥镜图像特征学习模型包括多个对比学习子模块，所述多个对比学习子模块用于提取同一输入样本的不同尺度的特征表示，并基于所提取的不同尺度的特征表示进行对比学习。
一种内窥镜图像分类模型的训练方法，包括：

获取第二训练数据集，所述第二训练数据集包括一个或多个具有待识别对象的内窥镜图像和一个或多个不具有待识别对象的内窥镜图像，所述内窥镜图像标注有标签，用于指示内窥镜图像是否包括待识别对象；

将所述第二训练数据集输入到内窥镜图像分类模型中进行训练，直到所述内窥镜图像分类模型的目标损失函数收敛，以获得训练完成的内窥镜图像分类模型，

其中，所述内窥镜图像分类模型包括依次连接的特征提取模块和分类器模块，其中所述特征提取模块是根据权利要求1-17中任一项所述的基于多尺度对比学习的内窥镜图像特征学习模型的训练方法所获得的内窥镜图像特征学习模型中的M个第一编码器或M个第二编码器，其中M是大于1的整数。
根据权利要求19所述的方法，其中，所述第二训练数据集呈长尾分布，所述内窥镜图像分类模型的目标损失函数包括：基于所述内窥镜图像分类模型的最终输出结果与图像样本的标注标签而确定的焦点损失函数。
一种内窥镜图像分类模型的训练装置，包括：

图像获取部件，用于获取第二训练数据集，所述第二训练数据集包括一个或多个具有待识别对象的内窥镜图像和一个或多个不具有待识别对象的内窥镜图像，所述内窥镜图像标注有标签，用于指示内窥镜图像是否包括待识别对象；

训练部件，将所述第二训练数据集输入到内窥镜图像分类模型中进行训练，直到所述内窥镜图像分类模型的目标损失函数收敛，以获得训练完成的内窥镜图像分类模型，

其中，所述内窥镜图像分类模型包括依次连接的特征提取模块和分类器模块，其中所述特征提取模块是根据权利要求1-17中任一项所述的基于多尺度对比学习的内窥镜图像特征学习模型的训练方法所获得的内窥镜图像特征学习模型中的M个第一编码器或M个第二编码器，其中M是大于1的整数。
一种内窥镜图像分类方法，包括：

获取待识别的内窥镜图像；

基于训练好的内窥镜图像分类模型，获得所述内窥镜图像的分类结果；

其中，所述训练好的内窥镜图像特征学习模型是基于根据权利要求19所述的内窥镜图像分类模型的训练方法所获得的。
一种内窥镜图像分类***，包括：

图像获取部件，用于获取待识别的内窥镜图像；

处理部件，基于训练好的内窥镜图像分类模型，获得所述内窥镜图像的分类结果；

输出部件，用于输出待识别的内窥镜图像的分类结果，

其中，所述训练好的内窥镜图像特征学习模型是基于根据权利要求19所述的内窥镜图像分类模型的训练方法所获得的。
一种电子设备，包括存储器和处理器，其中，所述存储器上存储有处理器可读的程序代码，当处理器执行所述程序代码时，执行根据权利要求1-17、19-20和22中任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机可执行指令，所述计算机可执行指令用于执行根据权利要求1-17、19-20和22中任一项所述的方法。