CN114863179B

CN114863179B - 基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法

Info

Publication number: CN114863179B
Application number: CN202210542820.8A
Authority: CN
Inventors: 史骏; 张元�; 汪逸飞; 杨皓程; 周泰然; 李想; 郑利平
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-12-13
Anticipated expiration: 2042-05-18
Also published as: CN114863179A

Abstract

本发明提出了一种基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法，包括：获取已标注好的N类内窥镜图像；建立基于多尺度特征嵌入和多头交叉注意力的深度学习网络；构建内窥镜图像分类器；利用建立好的分类器实现预测内窥镜图像类别。本发明通过多尺度特征嵌入将深层特征图中丰富的语义信息和浅层特征图中的几何细节信息进行融合，并结合交叉注意力机制消除不同尺度特征图之间的语义信息和几何信息歧义来挖掘出更有效的特征，完成对内窥镜图像的精准分类，从而辅助医生进行诊断阅片，提高阅片效率。

Description

基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法

技术领域

本发明涉及计算机视觉领域，特别涉及图像分类技术，具体涉及一种基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法。

背景技术

内窥镜是癌症诊断最常用的方式，内窥镜图像分类在癌症早期筛查中具有重要的临床意义。传统的癌症诊断主要通过内镜医生在内窥镜下进行人工诊断，但在临床诊断中内镜医生对于癌症的判别存在主观差异性，且内镜判图工作量大，漏诊误诊时有发生。因此，需要一种准确且高效的内窥镜诊断方法，利用计算机辅助医生阅片，减轻内镜医生的阅片压力，同时提高内窥镜图像分类的准确率。

近年来，深度学习框架在计算机视觉领域引起了广泛的关注，研究人员已开始将其应用于各种分类任务中，但基于深度学习的内窥镜图像分类方法大多采用卷积神经网络模型提取内窥镜图像单一尺度下的特征，而忽视了其他尺度的信息，从而难以提高内窥镜图像分类的精度。

发明内容

本发明为了弥补已有的技术缺陷，提出一种基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法，旨在能通过多尺度特征嵌入将深层特征图中丰富的语义信息和浅层特征图中的几何细节信息进行融合，并结合交叉注意力机制消除不同尺度特征图之间的语义信息和几何信息歧义来挖掘出更有效的特征，完成对内窥镜图像的精准分类。

本发明为达到上述发明目的，采用如下技术方案：

根据本发明得到实施例，本发明提出了一种基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法，包括如下步骤：

步骤1、获取N种类别C×H×W的内窥镜图像样本，对所述样本进行预处理后得到训练集E,E＝{E₁,E₂,...,E_n,...,E_N}；

E_n表示第n类内窥镜图像样本，第n类共有P个图像，

表示第n类预处理后的内窥镜图像样本中的第p个图像；C表示图像通道，H表示图像高度，W表示图像宽度，n＝1,2,...,N；

步骤2、建立深度学习网络，通过所述深度学习网络的卷积神经网络对所述内窥镜图像的样本数据集进行处理，以输出不同卷积阶段的特征图，将所述不同卷积阶段的特征图经过降维处理后形成降维输出特征图

i＝1,2,3,4；

步骤3、将所述降维输出特征图

输入至预先构建的多尺度特征嵌入的多头交叉注意力编码器中，进行归一化及上采样处理后输出特征图U_n,p；

步骤4、将所述特征图U_n,p输入至一个卷积阶段进行特征提取输出特征图D_n,p，将卷积阶段输出的特征图D_n,p分别进行全局平均池化操作和全局最大池化操作，将得到的特征图进行拼接融合得到结果特征图D′_n,p，将特征图D′_n,p输入至一个全连接层，得到N维分类的结果向量；

步骤5、构建基于N维分类的结果向量的内窥镜分类器用以对所述内窥镜图像进行分类。

进一步的，所述步骤2具体包括：

步骤2.1、建立深度学习网络，所述深度学习网络包括：多尺度特征提取模块、多尺度特征嵌入模块和多头交叉注意力编码器模块；

步骤2.2、构建多尺度特征提取模块：

所述多尺度特征提取模块由四个卷积神经网络阶段构成，依次包括：第一卷积阶段、第二卷积阶段、第三卷积阶段、第四卷积阶段；

将第p个图像

输入所述多尺度特征提取模块中，并经过所述第一卷积阶段、第二卷积阶段、第三卷积阶段、第四卷积阶段分别得到第一卷积阶段输出的特征图

第二卷积阶段输出的特征图

第三卷积阶段输出的特征图

第四卷积阶段输出的特征图

步骤2.3、构建多尺度特征嵌入模块：

所述多尺度特征嵌入模块由4个不同的嵌入层并联而成，4个嵌入层对应4个

i＝1,2,3,4，每个嵌入层包含一个卷积层和一个降维处理；

将四个卷积阶段输出特征图

输入到多尺度特征嵌入模块中，

i＝1,2,3,4，分别经过卷积核为2^5-i×2^5-i的卷积层并经过降维处理后分别输出特征图

i＝1,2,3,4。

进一步的，所述步骤3具体包括：

步骤3.1、构建多尺度特征嵌入的多头交叉注意力编码器：

所述多尺度特征嵌入的多头交叉注意力编码器模块由嵌入4个卷积阶段的特征和L个多头交叉注意力编码器串联而成；

将4个特征图

输入所述多尺度特征嵌入模块中，并分别经过一个LN层进行归一化处理，从通道交叉的角度对特征图

进行转换，具体利用式(1)得到通道交叉特征图

i＝1,2,3,4：

式(1)中transpose(·)代表特征图的转置处理，

代表有Cⁱ个大小为Hⁱ·Wⁱ的像素特征图，

代表有Hⁱ·Wⁱ个大小为Cⁱ个通道交叉的像素特征图；

步骤3.2、将通道交叉特征图

进行多尺度嵌入，具体利用式(2)得到多尺度特征嵌入特征图

式(2)中concat(·)代表特征向量拼接操作，

表示

经过多尺度特征嵌入和转置后的通道交叉特征图；

步骤3.3、将特征图

作为第1个多头交叉注意力编码器模块的输入，第c个多头交叉注意力编码器模块的输出作为第c+1个多头交叉注意力编码器模块的输入；

任意第c个多头交叉注意力编码器模块包括：2个线性变换层，M个并联的交叉注意力层；c＝1,2,...,L；

步骤3.4、将特征图

i＝1,2,3,4输入到第c个多头交叉注意力编码器模块，将特征图

分别与两个权重矩阵W_m ^K,W_m ^V相乘，将特征图

i＝1,2,3,4，分别与四个权重矩阵

相乘，输出特征图K_n,p、V_n,p、

i＝1,2,3,4，具体公式如式(3)所示：

式(3)中,φ(·)代表归一化函数；

步骤3.5、将多尺度特征嵌入模块输出特征图K_n,p,V_n,p,

i＝1,2,3,4输入第1个多头交叉注意力编码器中，K_n,p,V_n,p,

i＝1,2,3,4分别经过线性变换处理输入至M头交叉注意力层中，将

分别与K_n,p相乘，最后通过Softmax函数激活后与V_n,p相乘得到输出，具体公式如式(4)所示：

式(4)中，ψ(·)是归一化函数,δ(·)是Softmax函数；

步骤3.6、以注意力特征图

为基础，动态地融合不同头部的注意力特征图来形成新的注意力特征图，具体公式如式(5)所示：

式(5)中，

是一个可学习的变换矩阵，通过

将多头注意力特征图融合并生成新的注意力特征图；

将得到M个交叉注意力层输出

i＝1,2,3,4,m＝1,2,...,M，再利用式(6)所示得到特征图

c＝1,2,…,L,i＝1,2,3,4：

式(6)中M是交叉注意力层头的数量，

表示第c个多头交叉注意力编码器模块中第i个特征图Qⁱ经过第m个交叉注意力层产生的特征图；

步骤3.7、将多头交叉注意力后的特征图

i＝1,2,3,4分别经过线性变换处理并进行归一化处理，再利用式(7)所示得到多头交叉注意力编码器模块的输出

i＝1,2,3,4:

式(7)中，δ(·)代表GeLU函数，σ(·)代表线性变换函数；

c≠L时，将第c个多头交叉注意力编码器模块的输出，输入到下1个多头交叉注意力编码器模块；

当c＝L时，将第L个多头交叉注意力编码器模块的输出

利用式(8)对特征图

进行上采样处理，从而得到特征图U_n,p：

式(8)中，μ(·)代表上采样函数，φ(·)代表归一化函数，δ(·)代表ReLU函数；

步骤3.8、将经过上采样处理的特征图U_n,p与卷积阶段输出的特征图

进行融合得到输出U_n,p，具体公式如式(9)所示：

式(9)中，

是多尺度特征提取模块中第四卷积阶段输出的特征图。

进一步的，所述步骤4具体包括：

步骤4.1、将多尺度特征嵌入的多头交叉注意力编码器输出的特征图U_n,p输入至一个卷积阶段进行特征提取输出特征图D_n,p

步骤4.2、将卷积阶段输出的特征图D_n,p分别进行全局平均池化操作和全局最大池化操作，将得到的特征图进行拼接融合得到结果D′_n,p，具体公式如式(10)所示：

式(10)中，concat(·)代表特征向量拼接操作，

是D_n,p经过全局平均池化后输出的特征图，

是D_n,p经过全局最大池化后输出的特征图；

将特征图D′_n,p输入至一个全连接层，得到N维分类的结果向量。

进一步的，所述步骤5具体包括：建立交叉熵损失函数，并将训练样本集输入所述深度学习网络进行训练后，采用反向传播算法对所述交叉熵损失函数进行优化求解，从而调整所述深度学习网络中所有参数，得到内窥镜图像分类器用于内窥镜图像的分类。

与已有技术相比，本发明的优点如下：

本发明使用一种基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法，构建了内窥镜图像分类模型。一般卷积神经网络分类时依赖深层特征图的语义信息而忽略了浅层特征图的几何细节信息。本方法通过多尺度嵌入将语义信息丰富的深层特征图和几何细节信息丰富的浅层特征图进行融合并从通道交叉的角度来消除不同尺度特征图之间的语义信息和几何信息的歧义来提取更有效的特征，从而提高内窥镜图像分类的精度，辅助医生进行诊断阅片，降低了内镜医生阅片的压力。

附图说明

图1为本发明方法的流程图；

图2为本发明深度学习网络的结构图；

图3为本发明的多头交叉注意力编码器模块的示意图。

具体实施方式

为便于理解，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例中，一种基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法，如图1所示，具体步骤如下：

E_n表示第n类内窥镜图像样本，第n类共有P个图像，

步骤2、如图2所示，建立深度学习网络，通过所述深度学习网络的卷积神经网络对所述内窥镜图像的样本数据集进行处理，以输出不同卷积阶段的特征图，将所述不同卷积阶段的特征图经过降维处理后形成降维输出特征图

i＝1,2,3,4。

步骤2.2、构建多尺度特征提取模块：

将第p个图像

第二卷积阶段输出的特征图

第三卷积阶段输出的特征图

第四卷积阶段输出的特征图

步骤2.3、构建多尺度特征嵌入模块：

i＝1,2,3,4，每个嵌入层包含一个卷积层和一个降维处理；

将四个卷积阶段输出特征图

输入到多尺度特征嵌入模块中，

i＝1,2,3,4。

步骤3、将所述降维输出特征图

输入至预先构建的多尺度特征嵌入的多头交叉注意力编码器中，进行归一化及上采样处理后输出特征图U_n,p。

步骤3.1、构建多尺度特征嵌入的多头交叉注意力编码器：

将4个特征图

进行转换，具体利用式(1)得到通道交叉特征图

i＝1,2,3,4：

式(1)中transpose(·)代表特征图的转置处理，

代表有Cⁱ个大小为Hⁱ·Wⁱ的像素特征图，

代表有Hⁱ·Wⁱ个大小为Cⁱ个通道交叉的像素特征图；

步骤3.2、将通道交叉特征图

进行多尺度嵌入，具体利用式(2)得到多尺度特征嵌入特征图

式(2)中concat(·)代表特征向量拼接操作，

表示

经过多尺度特征嵌入和转置后的通道交叉特征图；

步骤3.3、将特征图

如图3所示，任意第c个多头交叉注意力编码器模块包括：2个线性变换层，M个并联的交叉注意力层；c＝1,2,...,L；

步骤3.4、将特征图

i＝1,2,3,4输入到第c个多头交叉注意力编码器模块，将特征图

分别与两个权重矩阵W_m ^K,W_m ^V相乘，将特征图

i＝1,2,3,4，分别与四个权重矩阵

相乘，输出特征图K_n,p、V_n,p、

i＝1,2,3,4，具体公式如式(3)所示：

式(3)中,φ(·)代表归一化函数；

步骤3.5、将多尺度特征嵌入模块输出特征图K_n,p,V_n,p,

i＝1,2,3,4输入第1个多头交叉注意力编码器中，K_n,p,V_n,p,

式(4)中，ψ(•)是归一化函数,δ(•)是Softmax函数；

步骤3.6、以注意力特征图

式(5)中，

是一个可学习的变换矩阵，通过

将多头注意力特征图融合并生成新的注意力特征图；

将得到M个交叉注意力层输出

i＝1,2,3,4,m＝1,2,...,M，再利用式(6)所示得到特征图

c＝1,2,…,L,i＝1,2,3,4：

式(6)中M是交叉注意力层头的数量，

步骤3.7、将多头交叉注意力后的特征图

i＝1,2,3,4:

式(7)中，δ(·)代表GeLU函数，σ(·)代表线性变换函数；

当c≠L时，将第c个多头交叉注意力编码器模块的输出，输入到下1个多头交叉注意力编码器模块；

当c＝L时，将第L个多头交叉注意力编码器模块的输出

利用式(8)对特征图

进行上采样处理，从而得到特征图U_n,p：

进行融合得到输出U_n,p，具体公式如式(9)所示：

式(9)中，

是多尺度特征提取模块中第四卷积阶段输出的特征图。

步骤4、将所述特征图U_n,p输入至一个卷积阶段进行特征提取输出特征图D_n,p，将卷积阶段输出的特征图D_n,p分别进行全局平均池化操作和全局最大池化操作，将得到的特征图进行拼接融合得到结果特征图D′_n,p，将特征图D′_n,p输入至一个全连接层，得到N维分类的结果向量。

步骤4.1、将多尺度特征嵌入的多头交叉注意力编码器输出的特征图U_n,p输入至一个卷积阶段进行特征提取输出特征图D_n,p；

式(10)中，concat(·)代表特征向量拼接操作，

是D_n,p经过全局平均池化后输出的特征图，

是D_n,p经过全局最大池化后输出的特征图；

所述步骤5具体包括：建立交叉熵损失函数，并将训练样本集输入所述深度学习网络进行训练后，采用反向传播算法对所述交叉熵损失函数进行优化求解，从而调整所述深度学习网络中所有参数，得到内窥镜图像分类器用于内窥镜图像的分类。

建立如式(11)所示的交叉熵损失函数，并将训练样本集输入所述深度学习网络进行训练后，采用反向传播算法对交叉熵损失函数进行优化求解，从而调整所述深度学习网络中的所有参数，从而得到内窥镜图像分类器用于内窥镜图像的分类，所述交叉熵损失函数如下：

式(11)中，其中C代表类别数,p_i表示样本i的真实类别，q_i表示样本i的预测类别，CE(p,q)表示在样本上的分类损失。

对于本领域技术人员而言，显然本发明实施例不限于上述示范性实施例的细节，而且在不背离本发明实施例的精神或基本特征的情况下，能够以其他的具体形式实现本发明实施例。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明实施例的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明实施例内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。***、装置或终端权利要求中陈述的多个单元、模块或装置也可以由同一个单元、模块或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施方式仅用以说明本发明实施例的技术方案而非限制，尽管参照以上较佳实施方式对本发明实施例进行了详细说明，本领域的普通技术人员应当理解，可以对本发明实施例的技术方案进行修改或等同替换都不应脱离本发明实施例的技术方案的精神和范围。

Claims

1.一种基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法，其特征在于，所述方法包括：

步骤1、获取N种类别C×H×W的内窥镜图像样本，对所述样本进行预处理后得到训练集E，E＝{E₁，E₂，...，E_n，...，E_N}；

E_n表示第n类内窥镜图像样本，第n类共有P个图像，

表示第n类预处理后的内窥镜图像样本中的第p个图像；C表示图像通道，H表示图像高度，W表示图像宽度，n＝1，2，...，N；

i＝1，2，3，4；具体为：

步骤2.2、构建多尺度特征提取模块：

将第p个图像

第二卷积阶段输出的特征图

第三卷积阶段输出的特征图

第四卷积阶段输出的特征图

步骤2.3、构建多尺度特征嵌入模块：

i＝1，2，3，4，每个嵌入层包含一个卷积层和一个降维处理；

将四个卷积阶段输出特征图

输入到多尺度特征嵌入模块中，

i＝1，2，3，4，分别经过卷积核为2^5-i×2^5-i的卷积层并经过降维处理后分别输出特征图

i＝1，2，3，4；

步骤3、将所述降维输出特征图

输入至预先构建的多尺度特征嵌入的多头交叉注意力编码器中，进行归一化及上采样处理后输出特征图U_n，p；具体为：

步骤3.1、构建多尺度特征嵌入的多头交叉注意力编码器：

将4个特征图

进行转换，具体利用式(1)得到通道交叉特征图

i＝1，2，3，4：

式(1)中transpose(·)代表特征图的转置处理，

代表有Cⁱ个大小为Hⁱ·Wⁱ的像素特征图，

代表有Hⁱ·Wⁱ个大小为Cⁱ个通道交叉的像素特征图；

步骤3.2、将通道交叉特征图

进行多尺度嵌入，具体利用式(2)得到多尺度特征嵌入特征图

式(2)中concat(·)代表特征向量拼接操作，

表示

经过多尺度特征嵌入和转置后的通道交叉特征图；

步骤3.3、将特征图

任意第c个多头交叉注意力编码器模块包括：2个线性变换层，M个并联的交叉注意力层；c＝1，2，...，L；

步骤3.4、将特征图

f＝1，2，3，4输入到第c个多头交叉注意力编码器模块，将特征图

分别与两个权重矩阵W_m ^K，W_m ^V相乘，将特征图

i＝1，2，3，4，分别与四个权重矩阵

相乘，输出特征图K_n，p、V_n，p、

f＝1，2，3，4，具体公式如式(3)所示：

式(3)中，φ(·)代表归一化函数；

步骤3.5、将多尺度特征嵌入模块输出特征图

输入第1个多头交叉注意力编码器中，

分别经过线性变换处理输入至M头交叉注意力层中，将

分别与K_n，p相乘，最后通过Softmax函数激活后与V_n，p相乘得到输出，具体公式如式(4)所示：

式(4)中，ψ(·)是归一化函数，δ(·)是Softmax函数；

步骤3.6、以注意力特征图

为基础，动态地融合不同头部的沣意力特征图来形成新的注意力特征图，具体公式如式(5)所示：

式(5)中，

是一个可学习的变换矩阵，通过

将多头注意力特征图融合并生成新的注意力特征图；

将得到M个交叉注意力层输出

i＝1，2，3，4，m＝1，2，...，M，再利用式(6)所示得到特征图

c＝1，2，...，L，i＝1，2，3，4：

式(6)中M是交叉注意力层头的数量，

步骤3.7、将多头交叉注意力后的特征图

i＝1，2，3，4分别经过线性变换处理并进行归一化处理，再利用式(7)所示得到多头交叉注意力编码器模块的输出

i＝1，2，3，4：

式(7)中，δ(·)代表GeLU函数，σ(·)代表线性变换函数；

当c＝L时，将第L个多头交叉注意力编码器模块的输出

利用式(8)对特征图

进行上采样处理，从而得到特征图U_n，p：

步骤3.8、将经过上采样处理的特征图U_n，p与卷积阶段输出的特征图

进行融合得到输出U_n，p，具体公式如式(9)所示：

式(9)中，

是多尺度特征提取模块中第四卷积阶段输出的特征图；

步骤4、将所述特征图U_n，p输入至一个卷积阶段进行特征提取输出特征图D_n，p，将卷积阶段输出的特征图D_n，p分别进行全局平均池化操作和全局最大池化操作，将得到的特征图进行拼接融合得到结果特征图D′_n，p，将特征图D′_n，p输入至一个全连接层，得到N维分类的结果向量；

2.根据权利要求1所述的内窥镜图像分类方法，其特征在于，所述步骤4具体包括：

步骤4.1、将多尺度特征嵌入的多头交叉注意力编码器输出的特征图U_n，p输入至一个卷积阶段进行特征提取输出特征图D_n，p；

步骤4.2、将卷积阶段输出的特征图D_n，p分别进行全局平均池化操作和全局最大池化操作，将得到的特征图进行拼接融合得到结果D′_n，p，具体公式如式(10)所示：

式(10)中，concat(·)代表特征向量拼接操作，

是D_n，p经过全局平均池化后输出的特征图，

是D_n，p经过全局最大池化后输出的特征图；

将特征图D′_n，p输入至一个全连接层，得到N维分类的结果向量。

3.根据权利要求2所述的内窥镜图像分类方法，其特征在于，所述步骤5具体包括：建立交叉熵损失函数，并将训练样本集输入所述深度学习网络进行训练后，采用反向传播算法对所述交叉熵损失函数进行优化求解，从而调整所述深度学习网络中所有参数，得到内窥镜图像分类器用于内窥镜图像的分类。