CN114863179B - 基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法 - Google Patents

基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法 Download PDF

Info

Publication number
CN114863179B
CN114863179B CN202210542820.8A CN202210542820A CN114863179B CN 114863179 B CN114863179 B CN 114863179B CN 202210542820 A CN202210542820 A CN 202210542820A CN 114863179 B CN114863179 B CN 114863179B
Authority
CN
China
Prior art keywords
feature
feature map
scale
output
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210542820.8A
Other languages
English (en)
Other versions
CN114863179A (zh
Inventor
史骏
张元�
汪逸飞
杨皓程
周泰然
李想
郑利平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202210542820.8A priority Critical patent/CN114863179B/zh
Publication of CN114863179A publication Critical patent/CN114863179A/zh
Application granted granted Critical
Publication of CN114863179B publication Critical patent/CN114863179B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Image Processing (AREA)

Abstract

本发明提出了一种基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法,包括:获取已标注好的N类内窥镜图像;建立基于多尺度特征嵌入和多头交叉注意力的深度学习网络;构建内窥镜图像分类器;利用建立好的分类器实现预测内窥镜图像类别。本发明通过多尺度特征嵌入将深层特征图中丰富的语义信息和浅层特征图中的几何细节信息进行融合,并结合交叉注意力机制消除不同尺度特征图之间的语义信息和几何信息歧义来挖掘出更有效的特征,完成对内窥镜图像的精准分类,从而辅助医生进行诊断阅片,提高阅片效率。

Description

基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法
技术领域
本发明涉及计算机视觉领域,特别涉及图像分类技术,具体涉及一种基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法。
背景技术
内窥镜是癌症诊断最常用的方式,内窥镜图像分类在癌症早期筛查中具有重要的临床意义。传统的癌症诊断主要通过内镜医生在内窥镜下进行人工诊断,但在临床诊断中内镜医生对于癌症的判别存在主观差异性,且内镜判图工作量大,漏诊误诊时有发生。因此,需要一种准确且高效的内窥镜诊断方法,利用计算机辅助医生阅片,减轻内镜医生的阅片压力,同时提高内窥镜图像分类的准确率。
近年来,深度学习框架在计算机视觉领域引起了广泛的关注,研究人员已开始将其应用于各种分类任务中,但基于深度学习的内窥镜图像分类方法大多采用卷积神经网络模型提取内窥镜图像单一尺度下的特征,而忽视了其他尺度的信息,从而难以提高内窥镜图像分类的精度。
发明内容
本发明为了弥补已有的技术缺陷,提出一种基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法,旨在能通过多尺度特征嵌入将深层特征图中丰富的语义信息和浅层特征图中的几何细节信息进行融合,并结合交叉注意力机制消除不同尺度特征图之间的语义信息和几何信息歧义来挖掘出更有效的特征,完成对内窥镜图像的精准分类。
本发明为达到上述发明目的,采用如下技术方案:
根据本发明得到实施例,本发明提出了一种基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法,包括如下步骤:
步骤1、获取N种类别C×H×W的内窥镜图像样本,对所述样本进行预处理后得到训练集E,E={E1,E2,...,En,...,EN};
Figure BDA0003650924180000021
En表示第n类内窥镜图像样本,第n类共有P个图像,
Figure BDA0003650924180000022
表示第n类预处理后的内窥镜图像样本中的第p个图像;C表示图像通道,H表示图像高度,W表示图像宽度,n=1,2,...,N;
步骤2、建立深度学习网络,通过所述深度学习网络的卷积神经网络对所述内窥镜图像的样本数据集进行处理,以输出不同卷积阶段的特征图,将所述不同卷积阶段的特征图经过降维处理后形成降维输出特征图
Figure BDA0003650924180000023
i=1,2,3,4;
步骤3、将所述降维输出特征图
Figure BDA0003650924180000024
输入至预先构建的多尺度特征嵌入的多头交叉注意力编码器中,进行归一化及上采样处理后输出特征图Un,p
步骤4、将所述特征图Un,p输入至一个卷积阶段进行特征提取输出特征图Dn,p,将卷积阶段输出的特征图Dn,p分别进行全局平均池化操作和全局最大池化操作,将得到的特征图进行拼接融合得到结果特征图D′n,p,将特征图D′n,p输入至一个全连接层,得到N维分类的结果向量;
步骤5、构建基于N维分类的结果向量的内窥镜分类器用以对所述内窥镜图像进行分类。
进一步的,所述步骤2具体包括:
步骤2.1、建立深度学习网络,所述深度学习网络包括:多尺度特征提取模块、多尺度特征嵌入模块和多头交叉注意力编码器模块;
步骤2.2、构建多尺度特征提取模块:
所述多尺度特征提取模块由四个卷积神经网络阶段构成,依次包括:第一卷积阶段、第二卷积阶段、第三卷积阶段、第四卷积阶段;
将第p个图像
Figure BDA0003650924180000031
输入所述多尺度特征提取模块中,并经过所述第一卷积阶段、第二卷积阶段、第三卷积阶段、第四卷积阶段分别得到第一卷积阶段输出的特征图
Figure BDA0003650924180000032
第二卷积阶段输出的特征图
Figure BDA0003650924180000033
第三卷积阶段输出的特征图
Figure BDA0003650924180000034
第四卷积阶段输出的特征图
Figure BDA0003650924180000035
步骤2.3、构建多尺度特征嵌入模块:
所述多尺度特征嵌入模块由4个不同的嵌入层并联而成,4个嵌入层对应4个
Figure BDA0003650924180000036
i=1,2,3,4,每个嵌入层包含一个卷积层和一个降维处理;
将四个卷积阶段输出特征图
Figure BDA0003650924180000037
输入到多尺度特征嵌入模块中,
Figure BDA0003650924180000038
i=1,2,3,4,分别经过卷积核为25-i×25-i的卷积层并经过降维处理后分别输出特征图
Figure BDA0003650924180000039
i=1,2,3,4。
进一步的,所述步骤3具体包括:
步骤3.1、构建多尺度特征嵌入的多头交叉注意力编码器:
所述多尺度特征嵌入的多头交叉注意力编码器模块由嵌入4个卷积阶段的特征和L个多头交叉注意力编码器串联而成;
将4个特征图
Figure BDA00036509241800000310
输入所述多尺度特征嵌入模块中,并分别经过一个LN层进行归一化处理,从通道交叉的角度对特征图
Figure BDA00036509241800000311
进行转换,具体利用式(1)得到通道交叉特征图
Figure BDA00036509241800000312
i=1,2,3,4:
Figure BDA0003650924180000041
式(1)中transpose(·)代表特征图的转置处理,
Figure BDA0003650924180000042
代表有Ci个大小为Hi·Wi的像素特征图,
Figure BDA0003650924180000043
代表有Hi·Wi个大小为Ci个通道交叉的像素特征图;
步骤3.2、将通道交叉特征图
Figure BDA0003650924180000044
进行多尺度嵌入,具体利用式(2)得到多尺度特征嵌入特征图
Figure BDA0003650924180000045
Figure BDA0003650924180000046
式(2)中concat(·)代表特征向量拼接操作,
Figure BDA0003650924180000047
表示
Figure BDA0003650924180000048
经过多尺度特征嵌入和转置后的通道交叉特征图;
步骤3.3、将特征图
Figure BDA0003650924180000049
作为第1个多头交叉注意力编码器模块的输入,第c个多头交叉注意力编码器模块的输出作为第c+1个多头交叉注意力编码器模块的输入;
任意第c个多头交叉注意力编码器模块包括:2个线性变换层,M个并联的交叉注意力层;c=1,2,...,L;
步骤3.4、将特征图
Figure BDA00036509241800000410
i=1,2,3,4输入到第c个多头交叉注意力编码器模块,将特征图
Figure BDA00036509241800000411
分别与两个权重矩阵Wm K,Wm V相乘,将特征图
Figure BDA00036509241800000412
i=1,2,3,4,分别与四个权重矩阵
Figure BDA00036509241800000413
相乘,输出特征图Kn,p、Vn,p
Figure BDA00036509241800000414
i=1,2,3,4,具体公式如式(3)所示:
Figure BDA00036509241800000415
式(3)中,φ(·)代表归一化函数;
步骤3.5、将多尺度特征嵌入模块输出特征图Kn,p,Vn,p,
Figure BDA00036509241800000416
i=1,2,3,4输入第1个多头交叉注意力编码器中,Kn,p,Vn,p,
Figure BDA00036509241800000417
i=1,2,3,4分别经过线性变换处理输入至M头交叉注意力层中,将
Figure BDA0003650924180000051
分别与Kn,p相乘,最后通过Softmax函数激活后与Vn,p相乘得到输出,具体公式如式(4)所示:
Figure BDA0003650924180000052
式(4)中,ψ(·)是归一化函数,δ(·)是Softmax函数;
步骤3.6、以注意力特征图
Figure BDA0003650924180000053
为基础,动态地融合不同头部的注意力特征图来形成新的注意力特征图,具体公式如式(5)所示:
Figure BDA0003650924180000054
式(5)中,
Figure BDA0003650924180000055
是一个可学习的变换矩阵,通过
Figure BDA0003650924180000056
将多头注意力特征图融合并生成新的注意力特征图;
将得到M个交叉注意力层输出
Figure BDA0003650924180000057
i=1,2,3,4,m=1,2,...,M,再利用式(6)所示得到特征图
Figure BDA0003650924180000058
c=1,2,…,L,i=1,2,3,4:
Figure BDA0003650924180000059
式(6)中M是交叉注意力层头的数量,
Figure BDA00036509241800000510
表示第c个多头交叉注意力编码器模块中第i个特征图Qi经过第m个交叉注意力层产生的特征图;
步骤3.7、将多头交叉注意力后的特征图
Figure BDA00036509241800000511
i=1,2,3,4分别经过线性变换处理并进行归一化处理,再利用式(7)所示得到多头交叉注意力编码器模块的输出
Figure BDA00036509241800000512
i=1,2,3,4:
Figure BDA00036509241800000513
式(7)中,δ(·)代表GeLU函数,σ(·)代表线性变换函数;
c≠L时,将第c个多头交叉注意力编码器模块的输出,输入到下1个多头交叉注意力编码器模块;
当c=L时,将第L个多头交叉注意力编码器模块的输出
Figure BDA00036509241800000514
利用式(8)对特征图
Figure BDA0003650924180000061
进行上采样处理,从而得到特征图Un,p
Figure BDA0003650924180000062
式(8)中,μ(·)代表上采样函数,φ(·)代表归一化函数,δ(·)代表ReLU函数;
步骤3.8、将经过上采样处理的特征图Un,p与卷积阶段输出的特征图
Figure BDA0003650924180000063
进行融合得到输出Un,p,具体公式如式(9)所示:
Figure BDA0003650924180000064
式(9)中,
Figure BDA0003650924180000065
是多尺度特征提取模块中第四卷积阶段输出的特征图。
进一步的,所述步骤4具体包括:
步骤4.1、将多尺度特征嵌入的多头交叉注意力编码器输出的特征图Un,p输入至一个卷积阶段进行特征提取输出特征图Dn,p
步骤4.2、将卷积阶段输出的特征图Dn,p分别进行全局平均池化操作和全局最大池化操作,将得到的特征图进行拼接融合得到结果D′n,p,具体公式如式(10)所示:
Figure BDA0003650924180000066
式(10)中,concat(·)代表特征向量拼接操作,
Figure BDA0003650924180000067
是Dn,p经过全局平均池化后输出的特征图,
Figure BDA0003650924180000068
是Dn,p经过全局最大池化后输出的特征图;
将特征图D′n,p输入至一个全连接层,得到N维分类的结果向量。
进一步的,所述步骤5具体包括:建立交叉熵损失函数,并将训练样本集输入所述深度学习网络进行训练后,采用反向传播算法对所述交叉熵损失函数进行优化求解,从而调整所述深度学习网络中所有参数,得到内窥镜图像分类器用于内窥镜图像的分类。
与已有技术相比,本发明的优点如下:
本发明使用一种基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法,构建了内窥镜图像分类模型。一般卷积神经网络分类时依赖深层特征图的语义信息而忽略了浅层特征图的几何细节信息。本方法通过多尺度嵌入将语义信息丰富的深层特征图和几何细节信息丰富的浅层特征图进行融合并从通道交叉的角度来消除不同尺度特征图之间的语义信息和几何信息的歧义来提取更有效的特征,从而提高内窥镜图像分类的精度,辅助医生进行诊断阅片,降低了内镜医生阅片的压力。
附图说明
图1为本发明方法的流程图;
图2为本发明深度学习网络的结构图;
图3为本发明的多头交叉注意力编码器模块的示意图。
具体实施方式
为便于理解,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例中,一种基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法,如图1所示,具体步骤如下:
步骤1、获取N种类别C×H×W的内窥镜图像样本,对所述样本进行预处理后得到训练集E,E={E1,E2,...,En,...,EN};
Figure BDA0003650924180000081
En表示第n类内窥镜图像样本,第n类共有P个图像,
Figure BDA0003650924180000082
表示第n类预处理后的内窥镜图像样本中的第p个图像;C表示图像通道,H表示图像高度,W表示图像宽度,n=1,2,...,N;
步骤2、如图2所示,建立深度学习网络,通过所述深度学习网络的卷积神经网络对所述内窥镜图像的样本数据集进行处理,以输出不同卷积阶段的特征图,将所述不同卷积阶段的特征图经过降维处理后形成降维输出特征图
Figure BDA0003650924180000083
i=1,2,3,4。
步骤2.1、建立深度学习网络,所述深度学习网络包括:多尺度特征提取模块、多尺度特征嵌入模块和多头交叉注意力编码器模块;
步骤2.2、构建多尺度特征提取模块:
所述多尺度特征提取模块由四个卷积神经网络阶段构成,依次包括:第一卷积阶段、第二卷积阶段、第三卷积阶段、第四卷积阶段;
将第p个图像
Figure BDA0003650924180000084
输入所述多尺度特征提取模块中,并经过所述第一卷积阶段、第二卷积阶段、第三卷积阶段、第四卷积阶段分别得到第一卷积阶段输出的特征图
Figure BDA0003650924180000085
第二卷积阶段输出的特征图
Figure BDA0003650924180000086
第三卷积阶段输出的特征图
Figure BDA0003650924180000087
第四卷积阶段输出的特征图
Figure BDA0003650924180000088
步骤2.3、构建多尺度特征嵌入模块:
所述多尺度特征嵌入模块由4个不同的嵌入层并联而成,4个嵌入层对应4个
Figure BDA0003650924180000089
i=1,2,3,4,每个嵌入层包含一个卷积层和一个降维处理;
将四个卷积阶段输出特征图
Figure BDA00036509241800000810
输入到多尺度特征嵌入模块中,
Figure BDA00036509241800000811
i=1,2,3,4,分别经过卷积核为25-i×25-i的卷积层并经过降维处理后分别输出特征图
Figure BDA0003650924180000091
i=1,2,3,4。
步骤3、将所述降维输出特征图
Figure BDA0003650924180000092
输入至预先构建的多尺度特征嵌入的多头交叉注意力编码器中,进行归一化及上采样处理后输出特征图Un,p
步骤3.1、构建多尺度特征嵌入的多头交叉注意力编码器:
所述多尺度特征嵌入的多头交叉注意力编码器模块由嵌入4个卷积阶段的特征和L个多头交叉注意力编码器串联而成;
将4个特征图
Figure BDA0003650924180000093
输入所述多尺度特征嵌入模块中,并分别经过一个LN层进行归一化处理,从通道交叉的角度对特征图
Figure BDA0003650924180000094
进行转换,具体利用式(1)得到通道交叉特征图
Figure BDA0003650924180000095
i=1,2,3,4:
Figure BDA0003650924180000096
式(1)中transpose(·)代表特征图的转置处理,
Figure BDA0003650924180000097
代表有Ci个大小为Hi·Wi的像素特征图,
Figure BDA0003650924180000098
代表有Hi·Wi个大小为Ci个通道交叉的像素特征图;
步骤3.2、将通道交叉特征图
Figure BDA0003650924180000099
进行多尺度嵌入,具体利用式(2)得到多尺度特征嵌入特征图
Figure BDA00036509241800000910
Figure BDA00036509241800000911
式(2)中concat(·)代表特征向量拼接操作,
Figure BDA00036509241800000912
表示
Figure BDA00036509241800000913
经过多尺度特征嵌入和转置后的通道交叉特征图;
步骤3.3、将特征图
Figure BDA00036509241800000914
作为第1个多头交叉注意力编码器模块的输入,第c个多头交叉注意力编码器模块的输出作为第c+1个多头交叉注意力编码器模块的输入;
如图3所示,任意第c个多头交叉注意力编码器模块包括:2个线性变换层,M个并联的交叉注意力层;c=1,2,...,L;
步骤3.4、将特征图
Figure BDA0003650924180000101
i=1,2,3,4输入到第c个多头交叉注意力编码器模块,将特征图
Figure BDA0003650924180000102
分别与两个权重矩阵Wm K,Wm V相乘,将特征图
Figure BDA0003650924180000103
i=1,2,3,4,分别与四个权重矩阵
Figure BDA0003650924180000104
相乘,输出特征图Kn,p、Vn,p
Figure BDA0003650924180000105
i=1,2,3,4,具体公式如式(3)所示:
Figure BDA0003650924180000106
式(3)中,φ(·)代表归一化函数;
步骤3.5、将多尺度特征嵌入模块输出特征图Kn,p,Vn,p,
Figure BDA0003650924180000107
i=1,2,3,4输入第1个多头交叉注意力编码器中,Kn,p,Vn,p,
Figure BDA0003650924180000108
i=1,2,3,4分别经过线性变换处理输入至M头交叉注意力层中,将
Figure BDA0003650924180000109
分别与Kn,p相乘,最后通过Softmax函数激活后与Vn,p相乘得到输出,具体公式如式(4)所示:
Figure BDA00036509241800001010
式(4)中,ψ(•)是归一化函数,δ(•)是Softmax函数;
步骤3.6、以注意力特征图
Figure BDA00036509241800001011
为基础,动态地融合不同头部的注意力特征图来形成新的注意力特征图,具体公式如式(5)所示:
Figure BDA00036509241800001012
式(5)中,
Figure BDA00036509241800001013
是一个可学习的变换矩阵,通过
Figure BDA00036509241800001014
将多头注意力特征图融合并生成新的注意力特征图;
将得到M个交叉注意力层输出
Figure BDA00036509241800001015
i=1,2,3,4,m=1,2,...,M,再利用式(6)所示得到特征图
Figure BDA00036509241800001016
c=1,2,…,L,i=1,2,3,4:
Figure BDA00036509241800001017
式(6)中M是交叉注意力层头的数量,
Figure BDA00036509241800001018
表示第c个多头交叉注意力编码器模块中第i个特征图Qi经过第m个交叉注意力层产生的特征图;
步骤3.7、将多头交叉注意力后的特征图
Figure BDA0003650924180000111
i=1,2,3,4分别经过线性变换处理并进行归一化处理,再利用式(7)所示得到多头交叉注意力编码器模块的输出
Figure BDA0003650924180000112
i=1,2,3,4:
Figure BDA0003650924180000113
式(7)中,δ(·)代表GeLU函数,σ(·)代表线性变换函数;
当c≠L时,将第c个多头交叉注意力编码器模块的输出,输入到下1个多头交叉注意力编码器模块;
当c=L时,将第L个多头交叉注意力编码器模块的输出
Figure BDA0003650924180000114
利用式(8)对特征图
Figure BDA0003650924180000115
进行上采样处理,从而得到特征图Un,p
Figure BDA0003650924180000116
式(8)中,μ(·)代表上采样函数,φ(·)代表归一化函数,δ(·)代表ReLU函数;
步骤3.8、将经过上采样处理的特征图Un,p与卷积阶段输出的特征图
Figure BDA0003650924180000117
进行融合得到输出Un,p,具体公式如式(9)所示:
Figure BDA0003650924180000118
式(9)中,
Figure BDA0003650924180000119
是多尺度特征提取模块中第四卷积阶段输出的特征图。
步骤4、将所述特征图Un,p输入至一个卷积阶段进行特征提取输出特征图Dn,p,将卷积阶段输出的特征图Dn,p分别进行全局平均池化操作和全局最大池化操作,将得到的特征图进行拼接融合得到结果特征图D′n,p,将特征图D′n,p输入至一个全连接层,得到N维分类的结果向量。
步骤4.1、将多尺度特征嵌入的多头交叉注意力编码器输出的特征图Un,p输入至一个卷积阶段进行特征提取输出特征图Dn,p
步骤4.2、将卷积阶段输出的特征图Dn,p分别进行全局平均池化操作和全局最大池化操作,将得到的特征图进行拼接融合得到结果D′n,p,具体公式如式(10)所示:
Figure BDA0003650924180000121
式(10)中,concat(·)代表特征向量拼接操作,
Figure BDA0003650924180000122
是Dn,p经过全局平均池化后输出的特征图,
Figure BDA0003650924180000123
是Dn,p经过全局最大池化后输出的特征图;
将特征图D′n,p输入至一个全连接层,得到N维分类的结果向量。
步骤5、构建基于N维分类的结果向量的内窥镜分类器用以对所述内窥镜图像进行分类。
所述步骤5具体包括:建立交叉熵损失函数,并将训练样本集输入所述深度学习网络进行训练后,采用反向传播算法对所述交叉熵损失函数进行优化求解,从而调整所述深度学习网络中所有参数,得到内窥镜图像分类器用于内窥镜图像的分类。
建立如式(11)所示的交叉熵损失函数,并将训练样本集输入所述深度学习网络进行训练后,采用反向传播算法对交叉熵损失函数进行优化求解,从而调整所述深度学习网络中的所有参数,从而得到内窥镜图像分类器用于内窥镜图像的分类,所述交叉熵损失函数如下:
Figure BDA0003650924180000124
式(11)中,其中C代表类别数,pi表示样本i的真实类别,qi表示样本i的预测类别,CE(p,q)表示在样本上的分类损失。
对于本领域技术人员而言,显然本发明实施例不限于上述示范性实施例的细节,而且在不背离本发明实施例的精神或基本特征的情况下,能够以其他的具体形式实现本发明实施例。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明实施例的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明实施例内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。***、装置或终端权利要求中陈述的多个单元、模块或装置也可以由同一个单元、模块或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施方式仅用以说明本发明实施例的技术方案而非限制,尽管参照以上较佳实施方式对本发明实施例进行了详细说明,本领域的普通技术人员应当理解,可以对本发明实施例的技术方案进行修改或等同替换都不应脱离本发明实施例的技术方案的精神和范围。

Claims (3)

1.一种基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法,其特征在于,所述方法包括:
步骤1、获取N种类别C×H×W的内窥镜图像样本,对所述样本进行预处理后得到训练集E,E={E1,E2,...,En,...,EN};
Figure FDA0003883663930000011
En表示第n类内窥镜图像样本,第n类共有P个图像,
Figure FDA0003883663930000012
表示第n类预处理后的内窥镜图像样本中的第p个图像;C表示图像通道,H表示图像高度,W表示图像宽度,n=1,2,...,N;
步骤2、建立深度学习网络,通过所述深度学习网络的卷积神经网络对所述内窥镜图像的样本数据集进行处理,以输出不同卷积阶段的特征图,将所述不同卷积阶段的特征图经过降维处理后形成降维输出特征图
Figure FDA0003883663930000013
i=1,2,3,4;具体为:
步骤2.1、建立深度学习网络,所述深度学习网络包括:多尺度特征提取模块、多尺度特征嵌入模块和多头交叉注意力编码器模块;
步骤2.2、构建多尺度特征提取模块:
所述多尺度特征提取模块由四个卷积神经网络阶段构成,依次包括:第一卷积阶段、第二卷积阶段、第三卷积阶段、第四卷积阶段;
将第p个图像
Figure FDA0003883663930000014
输入所述多尺度特征提取模块中,并经过所述第一卷积阶段、第二卷积阶段、第三卷积阶段、第四卷积阶段分别得到第一卷积阶段输出的特征图
Figure FDA0003883663930000015
第二卷积阶段输出的特征图
Figure FDA0003883663930000016
第三卷积阶段输出的特征图
Figure FDA0003883663930000017
第四卷积阶段输出的特征图
Figure FDA0003883663930000018
步骤2.3、构建多尺度特征嵌入模块:
所述多尺度特征嵌入模块由4个不同的嵌入层并联而成,4个嵌入层对应4个
Figure FDA0003883663930000019
i=1,2,3,4,每个嵌入层包含一个卷积层和一个降维处理;
将四个卷积阶段输出特征图
Figure FDA00038836639300000110
输入到多尺度特征嵌入模块中,
Figure FDA0003883663930000021
i=1,2,3,4,分别经过卷积核为25-i×25-i的卷积层并经过降维处理后分别输出特征图
Figure FDA0003883663930000022
i=1,2,3,4;
步骤3、将所述降维输出特征图
Figure FDA0003883663930000023
输入至预先构建的多尺度特征嵌入的多头交叉注意力编码器中,进行归一化及上采样处理后输出特征图Un,p;具体为:
步骤3.1、构建多尺度特征嵌入的多头交叉注意力编码器:
所述多尺度特征嵌入的多头交叉注意力编码器模块由嵌入4个卷积阶段的特征和L个多头交叉注意力编码器串联而成;
将4个特征图
Figure FDA0003883663930000024
输入所述多尺度特征嵌入模块中,并分别经过一个LN层进行归一化处理,从通道交叉的角度对特征图
Figure FDA0003883663930000025
进行转换,具体利用式(1)得到通道交叉特征图
Figure FDA0003883663930000026
i=1,2,3,4:
Figure FDA0003883663930000027
式(1)中transpose(·)代表特征图的转置处理,
Figure FDA0003883663930000028
代表有Ci个大小为Hi·Wi的像素特征图,
Figure FDA0003883663930000029
代表有Hi·Wi个大小为Ci个通道交叉的像素特征图;
步骤3.2、将通道交叉特征图
Figure FDA00038836639300000210
进行多尺度嵌入,具体利用式(2)得到多尺度特征嵌入特征图
Figure FDA00038836639300000211
Figure FDA00038836639300000212
式(2)中concat(·)代表特征向量拼接操作,
Figure FDA00038836639300000213
表示
Figure FDA00038836639300000214
经过多尺度特征嵌入和转置后的通道交叉特征图;
步骤3.3、将特征图
Figure FDA00038836639300000215
作为第1个多头交叉注意力编码器模块的输入,第c个多头交叉注意力编码器模块的输出作为第c+1个多头交叉注意力编码器模块的输入;
任意第c个多头交叉注意力编码器模块包括:2个线性变换层,M个并联的交叉注意力层;c=1,2,...,L;
步骤3.4、将特征图
Figure FDA0003883663930000031
f=1,2,3,4输入到第c个多头交叉注意力编码器模块,将特征图
Figure FDA0003883663930000032
分别与两个权重矩阵Wm K,Wm V相乘,将特征图
Figure FDA0003883663930000033
i=1,2,3,4,分别与四个权重矩阵
Figure FDA0003883663930000034
相乘,输出特征图Kn,p、Vn,p
Figure FDA0003883663930000035
f=1,2,3,4,具体公式如式(3)所示:
Figure FDA0003883663930000036
式(3)中,φ(·)代表归一化函数;
步骤3.5、将多尺度特征嵌入模块输出特征图
Figure FDA0003883663930000037
输入第1个多头交叉注意力编码器中,
Figure FDA0003883663930000038
分别经过线性变换处理输入至M头交叉注意力层中,将
Figure FDA0003883663930000039
分别与Kn,p相乘,最后通过Softmax函数激活后与Vn,p相乘得到输出,具体公式如式(4)所示:
Figure FDA00038836639300000310
式(4)中,ψ(·)是归一化函数,δ(·)是Softmax函数;
步骤3.6、以注意力特征图
Figure FDA00038836639300000311
为基础,动态地融合不同头部的沣意力特征图来形成新的注意力特征图,具体公式如式(5)所示:
Figure FDA00038836639300000312
式(5)中,
Figure FDA00038836639300000313
是一个可学习的变换矩阵,通过
Figure FDA00038836639300000314
将多头注意力特征图融合并生成新的注意力特征图;
将得到M个交叉注意力层输出
Figure FDA00038836639300000315
i=1,2,3,4,m=1,2,...,M,再利用式(6)所示得到特征图
Figure FDA00038836639300000316
c=1,2,...,L,i=1,2,3,4:
Figure FDA00038836639300000317
式(6)中M是交叉注意力层头的数量,
Figure FDA00038836639300000318
表示第c个多头交叉注意力编码器模块中第i个特征图Qi经过第m个交叉注意力层产生的特征图;
步骤3.7、将多头交叉注意力后的特征图
Figure FDA0003883663930000041
i=1,2,3,4分别经过线性变换处理并进行归一化处理,再利用式(7)所示得到多头交叉注意力编码器模块的输出
Figure FDA0003883663930000042
i=1,2,3,4:
Figure FDA0003883663930000043
式(7)中,δ(·)代表GeLU函数,σ(·)代表线性变换函数;
c≠L时,将第c个多头交叉注意力编码器模块的输出,输入到下1个多头交叉注意力编码器模块;
当c=L时,将第L个多头交叉注意力编码器模块的输出
Figure FDA0003883663930000044
利用式(8)对特征图
Figure FDA0003883663930000045
进行上采样处理,从而得到特征图Un,p
Figure FDA0003883663930000046
式(8)中,μ(·)代表上采样函数,φ(·)代表归一化函数,δ(·)代表ReLU函数;
步骤3.8、将经过上采样处理的特征图Un,p与卷积阶段输出的特征图
Figure FDA0003883663930000047
进行融合得到输出Un,p,具体公式如式(9)所示:
Figure FDA0003883663930000048
式(9)中,
Figure FDA0003883663930000049
是多尺度特征提取模块中第四卷积阶段输出的特征图;
步骤4、将所述特征图Un,p输入至一个卷积阶段进行特征提取输出特征图Dn,p,将卷积阶段输出的特征图Dn,p分别进行全局平均池化操作和全局最大池化操作,将得到的特征图进行拼接融合得到结果特征图D′n,p,将特征图D′n,p输入至一个全连接层,得到N维分类的结果向量;
步骤5、构建基于N维分类的结果向量的内窥镜分类器用以对所述内窥镜图像进行分类。
2.根据权利要求1所述的内窥镜图像分类方法,其特征在于,所述步骤4具体包括:
步骤4.1、将多尺度特征嵌入的多头交叉注意力编码器输出的特征图Un,p输入至一个卷积阶段进行特征提取输出特征图Dn,p
步骤4.2、将卷积阶段输出的特征图Dn,p分别进行全局平均池化操作和全局最大池化操作,将得到的特征图进行拼接融合得到结果D′n,p,具体公式如式(10)所示:
Figure FDA0003883663930000051
式(10)中,concat(·)代表特征向量拼接操作,
Figure FDA0003883663930000052
是Dn,p经过全局平均池化后输出的特征图,
Figure FDA0003883663930000053
是Dn,p经过全局最大池化后输出的特征图;
将特征图D′n,p输入至一个全连接层,得到N维分类的结果向量。
3.根据权利要求2所述的内窥镜图像分类方法,其特征在于,所述步骤5具体包括:建立交叉熵损失函数,并将训练样本集输入所述深度学习网络进行训练后,采用反向传播算法对所述交叉熵损失函数进行优化求解,从而调整所述深度学习网络中所有参数,得到内窥镜图像分类器用于内窥镜图像的分类。
CN202210542820.8A 2022-05-18 2022-05-18 基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法 Active CN114863179B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210542820.8A CN114863179B (zh) 2022-05-18 2022-05-18 基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210542820.8A CN114863179B (zh) 2022-05-18 2022-05-18 基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法

Publications (2)

Publication Number Publication Date
CN114863179A CN114863179A (zh) 2022-08-05
CN114863179B true CN114863179B (zh) 2022-12-13

Family

ID=82638829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210542820.8A Active CN114863179B (zh) 2022-05-18 2022-05-18 基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法

Country Status (1)

Country Link
CN (1) CN114863179B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116188436B (zh) * 2023-03-03 2023-11-10 合肥工业大学 基于局部特征和全局特征融合的膀胱镜图像分类方法
CN117522884B (zh) * 2024-01-05 2024-05-17 武汉理工大学三亚科教创新园 一种海洋遥感图像语义分割方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034253A (zh) * 2018-08-01 2018-12-18 华中科技大学 一种基于多尺度语义特征的慢性静脉疾病图像分类方法
CN113378791A (zh) * 2021-07-09 2021-09-10 合肥工业大学 基于双注意力机制和多尺度特征融合的宫颈细胞分类方法
WO2022073452A1 (zh) * 2020-10-07 2022-04-14 武汉大学 一种基于自注意力上下文网络的高光谱遥感图像分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111739075B (zh) * 2020-06-15 2024-02-06 大连理工大学 一种结合多尺度注意力的深层网络肺部纹理识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034253A (zh) * 2018-08-01 2018-12-18 华中科技大学 一种基于多尺度语义特征的慢性静脉疾病图像分类方法
WO2022073452A1 (zh) * 2020-10-07 2022-04-14 武汉大学 一种基于自注意力上下文网络的高光谱遥感图像分类方法
CN113378791A (zh) * 2021-07-09 2021-09-10 合肥工业大学 基于双注意力机制和多尺度特征融合的宫颈细胞分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Bi-Modal Learning With Channel-Wise Attention for Multi-Label Image Classification;Peng Li et.al;《IEEE Access》;20200107;第2169-3536页 *
基于注意力机制及多尺度特征融合的番茄叶片缺素图像分类方法;韩旭 等;《农业工程学报》;20210908;第37卷(第17期);第177-188页 *

Also Published As

Publication number Publication date
CN114863179A (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
CN114863179B (zh) 基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法
CN112116605B (zh) 一种基于集成深度卷积神经网络的胰腺ct图像分割方法
CN111242288B (zh) 一种用于病变图像分割的多尺度并行深度神经网络模型构建方法
CN113239954B (zh) 基于注意力机制的图像语义分割特征融合方法
CN112257647A (zh) 基于注意力机制的人脸表情识别方法
CN113674253A (zh) 基于U-Transformer的直肠癌CT影像自动分割方法
CN113378791B (zh) 基于双注意力机制和多尺度特征融合的宫颈细胞分类方法
CN111401156B (zh) 基于Gabor卷积神经网络的图像识别方法
CN112149720A (zh) 一种细粒度车辆类型识别方法
CN112347908B (zh) 一种基于空间分组注意力模型的外科手术器械图像识别方法
CN114782753B (zh) 基于弱监督学习和转换器的肺癌组织病理全切片分类方法
CN109492610B (zh) 一种行人重识别方法、装置及可读存储介质
CN114037699B (zh) 一种病理图像分类方法、设备、***及存储介质
CN115457311A (zh) 一种基于自表达迁移学习的高光谱遥感影像波段选择方法
CN114820481A (zh) 基于转换器的肺癌组织病理全切片egfr状态预测方法
CN114581789A (zh) 一种高光谱图像分类方法及***
CN116758621B (zh) 基于自注意力机制的遮挡人脸面部表情深度卷积识别方法
CN115331047A (zh) 基于注意力机制的地震图像解释方法
CN114267069A (zh) 基于数据泛化与特征增强的人脸检测方法
CN113192076A (zh) 联合分类预测和多尺度特征提取的mri脑肿瘤图像分割方法
Girdher et al. Detecting and estimating severity of leaf spot disease in golden pothos using hybrid deep learning approach
CN112926619B (zh) 一种高精度水下激光目标识别***
CN116486101B (zh) 一种基于窗口注意力的图像特征匹配方法
Cai et al. Semi-Supervised Segmentation of Interstitial Lung Disease Patterns from CT Images via Self-Training with Selective Re-Training
CN113408463B (zh) 一种基于距离度量的细胞图像小样本分类***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant