CN113191390B - 一种图像分类模型的构建方法、图像分类方法及存储介质 - Google Patents

一种图像分类模型的构建方法、图像分类方法及存储介质 Download PDF

Info

Publication number
CN113191390B
CN113191390B CN202110356938.7A CN202110356938A CN113191390B CN 113191390 B CN113191390 B CN 113191390B CN 202110356938 A CN202110356938 A CN 202110356938A CN 113191390 B CN113191390 B CN 113191390B
Authority
CN
China
Prior art keywords
feature map
convolution
convolution unit
pyramid
ith
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110356938.7A
Other languages
English (en)
Other versions
CN113191390A (zh
Inventor
张旭明
周权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202110356938.7A priority Critical patent/CN113191390B/zh
Priority to PCT/CN2021/086861 priority patent/WO2022205502A1/zh
Publication of CN113191390A publication Critical patent/CN113191390A/zh
Application granted granted Critical
Publication of CN113191390B publication Critical patent/CN113191390B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/32Indexing scheme for image data processing or generation, in general involving image mosaicing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图像分类模型的构建方法、图像分类方法及存储介质,所构建的图像分类模型包括依次级联的卷积层、第一金字塔卷积单元、第二金字塔卷积单元、...、第n金字塔卷积单元、池化层和全连接层;第i金字塔卷积单元采用数量为n‑i+1的不同尺度的卷积核分别对当前输入的特征图进行进一步的特征提取后,依次对各尺度的卷积核提取的特征图,将其与其前一级卷积核提取的融合特征图进行融合,得到各尺度的卷积核提取的融合特征图,即一组含有不同尺度信息的特征图;将含有不同尺度信息的特征图与当前输入的特征图进行融合,得到包含多尺度信息的输出特征图;i=1,2,…,n;本发明充分利用了不同尺度信息,图像分类准确性较高。

Description

一种图像分类模型的构建方法、图像分类方法及存储介质
技术领域
本发明属于图像处理技术领域,更具体地,涉及一种图像分类模型的构建方法、图像分类方法及存储介质。
背景技术
图像分类技术是计算机视觉的核心,在很多领域中都有着广泛的应用,如:安防领域的人脸识别和智能视频分析、交通领域的交通场景识别,互联网领域的图像检索以及医学领域的医学图像分析等。以医学图像为例,医生在临床诊断中可通过对影像设备(如核磁共振成像、超声成像和光学断层成像等设备)采集到的图像进行识别,以实现疾病筛查目的。然而,人工识别效果极大地依赖于医生的临床经验,同时医生的诊断效率也受到巨大医学数据量的影响,容易由于医生过度疲劳而导致误诊或漏诊。目前,自动化的计算机辅助诊断技术已被广泛应用于医学图像识别领域中,它利用计算机的强大计算能力对图像进行处理和分析,为临床医生提供具有参考价值的信息,并大大减少医生的工作负担。
近年来,深度学习算法在图像分类领域得到广泛关注。与基于浅层学习获得手工特征的传统机器学习算法相比,深度学习方法通过联合多个非线性浅层特征,并在此基础上构造出更加抽象的高阶特征。如同大脑的深度结构,深度学习中,每一个输入对象会以多层抽象形式表现出来,每个层次对应于不同的皮层区域。深度学习的优势在于它获得的多层次特征是使用通用的学习过程从原始数据中学习获得的,而不是由手工筛选设计出来。目前较为常用的深度学习模型有深度玻尔兹曼机、深度信念网络、栈式自动编码器、递归神经网络以及卷积神经网络。其中卷积神经网络在图像处理中被广泛使用,并在许多医学图像识别任务中取得了不错的效果。然而,目前大部分网络模型提取图像特征信息时仅使用单一的卷积核,对目标区域变化较大的图像,很难完整地捕捉不同细节大小的特征信息,同时这些网络未能充分利用不同尺度的特征信息,也没有解决好特征融合过程中所产生的信息冗余问题,导致有用信息无法凸显而无用信息无法被抑制,分类的准确性偏低。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供一种图像分类模型的构建方法、图像分类方法及存储介质,用以解决现有技术由于未能充分利用不同尺度的特征信息而存在分类准确性较低的技术问题。
为了实现上述目的,第一方面,本发明提供了一种图像分类模型的构建方法,包括以下步骤:
S1、搭建图像分类模型;图像分类模型包括:依次级联的卷积层、第一金字塔卷积单元、第二金字塔卷积单元、...、第n金字塔卷积单元、池化层和全连接层;第一卷积层用于提取输入图像的初始特征图,并输出至第一金字塔卷积单元;第i金字塔卷积单元用于采用数量为n-i+1的不同尺度的卷积核分别对当前输入到第i金字塔卷积单元的特征图进行进一步的特征提取后,依次对各尺度的卷积核提取的特征图,将其与其前一级卷积核提取的融合特征图进行融合,得到各尺度的卷积核提取的融合特征图,即一组含有不同尺度信息的特征图;将含有不同尺度信息的特征图与当前输入到第i金字塔卷积单元的特征图进行融合,得到包含多尺度信息的输出特征图;其中,i=1,2,…,n;对于各尺度卷积核,其尺度大于其前一级卷积核的尺度;
S2、将按照预设分类任务采集的训练集输入到上述图像分类模型中进行训练,得到训练好的图像分类模型。
进一步优选地,输入图像为对训练集中原始样本图像进行尺度缩放后的图像,以提高计算效率。
进一步优选地,将在第i金字塔卷积单元中采用第block尺度的卷积核提取的特征图记为Fi block,block=1,…,n-i+1;对于第i金字塔卷积单元,当i=1,2,…,n-1时,将特征图Fi 2与特征图Fi 1进行融合得到第二尺度卷积核提取的融合特征图
Figure BDA0003003705090000031
从block=3开始,将特征图Fi block与第block-1尺度卷积核提取的融合特征图
Figure BDA0003003705090000032
进行融合得到第block尺度卷积核提取的融合特征图
Figure BDA0003003705090000033
待各尺度卷积核的融合特征图均提取完成后,对各融合特征图
Figure BDA0003003705090000034
进行拼接操作后与当前输入到第i金字塔卷积单元的特征图进行融合,得到包含多尺度信息的输出特征图,并输出至第i+1金字塔卷积单元;当i=n时,对当前输入到第i金字塔卷积单元的特征图进行卷积操作后与当前输入到第i金字塔卷积单元的特征图进行融合,得到包含多尺度信息的输出特征图,并输出至池化层进行池化操作后经过全连接层得到分类结果。
进一步优选地,在上述第i金字塔卷积单元中,在所述第i金字塔卷积单元中,将特征图A与特征图B或融合特征图B进行融合的具体方式为:对A进行卷积操作后与B进行组合;其中,与B进行组合的方式包括逐像素叠加操作或拼接操作或拼接后再进行卷积的操作;
对各融合特征图
Figure BDA0003003705090000035
进行拼接操作后与当前输入到第i金字塔卷积单元的特征图进行融合的具体方式为:将各融合特征图
Figure BDA0003003705090000036
按通道进行拼接,并通过卷积方式来改变拼接后的特征图的特征通道数量,使其与当前输入到第i金字塔卷积单元的特征图的通道数量保持一致,然后将其与当前输入到所述第i金字塔卷积单元的特征图逐像素进行叠加求和,得到包含多尺度信息的输出特征图。
进一步优选地,第i金字塔卷积单元的输出端还连接到该第i金字塔卷积单元的输入端;
第i金字塔卷积单元还用于在将所得的包含多尺度信息的输出特征图输出至下一金字塔卷积单元或池化层之前,将所得的包含多尺度信息的输出特征图重新输入至第i金字塔卷积单元,以对当前所得的包含多尺度信息的输出特征图进一步提取特征;重复多次后,将结果输出至下一金字塔卷积单元或池化层;以提高上述图像分类模型的鲁棒性。
进一步优选地,上述图像分类模型还包括:混合注意力模块;混合注意力模块有n个,当i=1,2,…,n-1时,第i混合注意力模块位于第i金字塔卷积单元和第i+1金字塔卷积单元之间;当i=n时,第i混合注意力模块位于第i金字塔卷积单元与池化层之间;
混合注意力模块包括级联或并联的空间注意力网络和通道注意力网络,以对金字塔卷积单元输入的包含多尺度信息的输出特征图在空间和通道维度上进行筛选,得到特征图Fsa,从而抑制冗余的背景信息并凸显对分类结果有益的特征信息。
进一步优选地,第i混合注意力模块的输出端还连接到第i金字塔卷积单元的输入端;
第i混合注意力模块还用于将所得特征图Fsa重新输入至第i金字塔卷积单元,以对特征图Fsa进一步提取特征;重复多次后,将结果输出至下一金字塔卷积单元或池化层;以提高上述图像分类模型的鲁棒性。
进一步优选地,通道注意力网络用于对输入的特征图按通道进行全局平均池化操作来提取各通道上的全局空间信息;然后通过权值共享的一维卷积核分别对各通道上的全局空间信息的通道权重进行学习,并将学习到的各通道权重分别作用于输入的特征图中所对应的通道上,以对特征信息进行通道维度上的筛选;
通道注意力网络中卷积核的尺寸k1D与输入的特征图的特征通道数量C1D满足:
Figure BDA0003003705090000051
其中,γ和b均为学习参数,|e|odd表示离e最近的奇数。
第二方面,本发明提供了一种图像分类方法,包括:将待分类的图像输入到采用本发明第一方面所提供的图像分类模型的构建方法所构建的图像分类模型中,得到分类结果。
第三方面,本发明还提供一种机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现如上所述的任一种图像分类模型的构建方法和/或如上所述的图像分类方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
1、本发明提供了一种图像分类模型的构建方法,所构建的图像分类模型包括依次级联的卷积层、第一金字塔卷积单元、第二金字塔卷积单元、...、第n金字塔卷积单元、池化层和全连接层,其中,金字塔卷积单元通过卷积跨越连接的方式依次对各尺度卷积核提取的特征图,将其与其前一级卷积核提取的融合特征图进行融合,得到各尺度卷积核提取的融合特征图,以进一步挖掘特征图之间的相关性,得到包含多尺度信息的输出特征图,以充分利用输出特征图间的不同尺度信息;本发明利用多尺度方案来提取不同细粒度图像特征,图像分类的准确性较高。
2、本发明所提供的图像分类模型的构建方法所构建的图像分类模型还包括混合注意力模块,基于空间注意力网络和通道注意力网络对金字塔卷积单元输入的包含多尺度信息的输出特征图在空间和通道维度上进行筛选,实现通道特征和空间信息的自适应校准,以抑制不同尺度特征图整合时所引入的冗余信息,通过有效抑制无用的背景信息和凸显关键的特征信息,进一步提高了图像分类的准确性。
3、本发明所提供的图像分类模型的构建方法所构建的图像分类模型中,第i混合注意力模块的输出端还连接到第i金字塔卷积单元的输入端;其中,金字塔卷积单元和与其输出端相连的混合注意力模块称为混合注意力金字塔模块,将由不同数量和深度卷积核组成的混合注意力金字塔模块级联在一起进行图像分类,在提高模型准确率的同时也大大提升了模型的鲁棒性。
4、本发明所提供的图像分类模型的构建方法所构建的图像分类模型中,图像在输入模型之前可以先进行尺度缩放以提高计算效率。
附图说明
图1为本发明实施例1所提供的图像分类模型结构示意图;
图2为本发明实施例1所提供的包含混合注意力模块后的图像分类模型结构示意图;
图3为本发明实施例1所提供的包含混合注意力模块且混合注意力模块的输出端还连接到对应金字塔卷积单元的输入端的图像分类模型结构示意图;
图4为本发明实施例1所提供的金字塔卷积单元中3×3卷积跨越连接的方式示意图;
图5为本发明实施例1所提供的HapcNet与各对比深度学习模型在前房角验证集上的精确度曲线;
图6为本发明实施例1所提供的HapcNet与各对比深度学习模型在前房角测试集上的混淆矩阵;其中,(a)为深度学习模型VGG-16在前房角测试集上的混淆矩阵;(b)为深度学习模型ResNet-50在前房角测试集上的混淆矩阵;(c)为深度学习模型DenseNet-121在前房角测试集上的混淆矩阵;(d)为深度学习模型MobileNet在前房角测试集上的混淆矩阵;(e)为深度学习模型EfficientNet-B7在前房角测试集上的混淆矩阵;(f)为深度学习模型PyConvNet-50在前房角测试集上的混淆矩阵;(g)为本发明所提供的HapcNet在前房角测试集上的混淆矩阵。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
实施例1、
一种图像分类模型的构建方法,包括以下步骤:
S1、搭建图像分类模型;如图1所示,图像分类模型包括:依次级联的卷积层、第一金字塔卷积单元、第二金字塔卷积单元、...、第n金字塔卷积单元、池化层和全连接层;第一卷积层用于提取输入图像的初始特征图,并输出至第一金字塔卷积单元;第i金字塔卷积单元用于采用数量为n-i+1的不同尺度的卷积核分别对当前输入到第i金字塔卷积单元的特征图进行进一步的特征提取后,依次对各尺度卷积核提取的特征图,将其与其前一级卷积核提取的融合特征图进行融合,得到各尺度卷积核提取的融合特征图,即一组含有不同尺度信息的特征图;将含有不同尺度信息的特征图进行拼接操作后与当前输入到第i金字塔卷积单元的特征图进行融合,得到包含多尺度信息的输出特征图;其中,i=1,2,…,n;对于各尺度卷积核,其尺度大于其前一级卷积核的尺度。具体地,将在第i金字塔卷积单元中采用第block个尺度的卷积核提取的特征图记为Fi block,block=1,…,n-i+1;对于第i金字塔卷积单元,当i=1,2,…,n-1时,将特征图Fi 2与特征图Fi 1进行融合得到第二尺度卷积核提取的融合特征图
Figure BDA0003003705090000081
将特征图Fi 3与第二尺度卷积核提取的融合特征图
Figure BDA0003003705090000082
与进行融合得到第三尺度卷积核提取的融合特征图
Figure BDA0003003705090000083
以此类推,待各尺度卷积核的融合特征图均提取完成后,对各融合特征图
Figure BDA0003003705090000084
进行拼接操作后与当前输入到第i金字塔卷积单元的特征图进行融合,得到包含多尺度信息的输出特征图,并输出至第i+1金字塔卷积单元;当i=n时,对当前输入到第i金字塔卷积单元的特征图进行卷积操作后与当前输入到第i金字塔卷积单元的特征图进行融合,得到包含多尺度信息的输出特征图,并输出至池化层进行池化操作后经过全连接层得到分类结果。优选地,当i=1,2,…,n-1时,在上述第i金字塔卷积单元中,将特征图Fi block与第block-1尺度卷积核提取的融合特征图
Figure BDA0003003705090000085
进行融合的具体方式为:对特征图Fi block-1进行卷积操作后与融合特征图
Figure BDA0003003705090000086
进行组合,以充分挖掘不同特征图之间的信息,使得信息更加完整;其中,与融合特征图
Figure BDA0003003705090000087
进行组合的方式包括逐像素叠加操作或拼接操作或拼接后再进行卷积的操作。需要说的是,将特征图Fi 2与特征图Fi 1进行融合的方式与将特征图Fi block与第block-1尺度卷积核提取的融合特征图
Figure BDA0003003705090000088
进行融合的方式相同,这里不做赘述。进一步地,对各融合特征图
Figure BDA0003003705090000089
进行拼接操作后与当前输入到第i金字塔卷积单元的特征图进行融合的具体方式为:将各融合特征图
Figure BDA00030037050900000810
按通道进行拼接,并通过卷积方式来改变拼接后的特征图的特征通道数量,使其与当前输入到第i金字塔卷积单元的特征图的通道数量保持一致,然后将其与当前输入到所述第i金字塔卷积单元的特征图逐像素进行叠加求和,得到包含多尺度信息的输出特征图。
S2、将按照预设分类任务采集的训练集输入到上述图像分类模型中进行训练,得到训练好的图像分类模型。优选地,上述输入图像可以为对训练集中原始样本图像进行尺度缩放后的图像,从而提高计算效率,加快训练速度。本实施例中将交叉熵损失作为总损失函数,具体为:
Figure BDA0003003705090000091
其中,η表示输出类别的数量,Num为训练集中图像的批量大小;xp,q为第p个样本且属于第q类时由softmax分类函数所产生的预测概率;yp,q为第p个样本是否分类为第q类的相应标签。
优选地,为了提高上述图像分类模型的鲁棒性,第i金字塔卷积单元的输出端还连接到该第i金字塔卷积单元的输入端;
第i金字塔卷积单元还用于在将所得的包含多尺度信息的输出特征图输出至下一金字塔卷积单元或池化层之前,将所得的包含多尺度信息的输出特征图重新输入至第i金字塔卷积单元,以对当前所得的包含多尺度信息的输出特征图进一步提取特征;重复多次后,将结果输出至下一金字塔卷积单元或池化层;以提高上述图像分类模型的鲁棒性。
优选地,如图2所示,为了解决特征融合过程中所产生的信息冗余问题,进一步凸显有用信息且抑制无用信息;上述图像分类模型还包括:混合注意力模块;混合注意力模块有n个,当i=1,2,…,n-1时,第i混合注意力模块位于第i金字塔卷积单元和第i+1金字塔卷积单元之间;当i=n时,第i混合注意力模块位于第i金字塔卷积单元与池化层之间;混合注意力模块包括级联或并联的空间注意力网络和通道注意力网络,以对金字塔卷积单元输入的包含多尺度信息的输出特征图在空间和通道维度上进行筛选,得到特征图Fsa,从而抑制冗余的背景信息并凸显对分类结果有益的特征信息。
以级联的空间注意力网络和通道注意力网络所构成的混合注意力模块为例,将第i金字塔卷积单元输出的包含多尺度信息的输出特征图u输入到混合注意力模块中,在混合注意力模块中执行以下操作:
在通道注意力网络中,首先对输出特征图u按通道进行全局平均池化操作来提取各通道上的全局空间信息,其中,uc中第c个通道的全局空间信息
Figure BDA0003003705090000101
Hca和Wca分别为uc的高和宽,uc为输出特征图u的第c个通道所对应的特征图,z为包含各通道全局空间信息的一维矢量;然后通过一个权重可以共享的一维卷积核分别对各通道上的全局空间信息的通道权重进行学习,所得权重为
Figure BDA0003003705090000102
其中,δ(·)为Sigmoid函数;1D_Conv表示采用尺寸为k1D的卷积核对z进行一维卷积操作;需要说明的是,为了实现卷积核大小的自适应选择,通道注意力网络中卷积核的尺寸k1D与输入的特征图的特征通道数量C1D满足:
Figure BDA0003003705090000103
其中,γ和b均为学习参数,本实施例中分别设置为2和1,|e|odd表示离e最近的奇数;该通道注意力在保证提升分类结果的同时,减少了计算量以及参数量。最后,将学习到的各通道权重分别作用于输出特征图中所对应的通道上,得到通道注意力权重特征图Fca;具体的,Fca=u·w。进一步地,将通道注意力权重特征图Fca输入到空间注意力网络中。
在空间注意力网络中,对特征图Fca沿其通道轴方向分别进行平均池化和最大池化操作,以快速捕获上下文信息从而分别生成两个2D映射
Figure BDA0003003705090000104
Figure BDA0003003705090000105
(Hsa和Wsa分别是空间注意力网络生成特征图的高和宽)。然后,将Favg和Fmax按通道进行拼接生成两通道特征图,并采用预设尺寸的卷积核对所得两通道特征图进行卷积操作,生成空间注意力权重特征图
Figure BDA0003003705090000106
最后,将通道注意力权重特征图Fca与空间注意力权重特征图M(Fca)按像素对应相乘(即点乘运算)得到特征图Fsa。其中,预设卷积核的尺寸根据通道注意力权重特征图Fca的尺寸确定,通过卷积操作将两通道特征图的尺寸与通道注意力权重特征图Fca的尺寸保持一致,以实现后续的点乘运算。
需要说明的是,本实施例通过级联的方式将通道注意力网络和空间注意力网络进行组合,构成混合注意力模块;除此之外,也可采用并联或其它方式将两种注意力模块进行合理结合。
当采用并联方式时,通道注意力网络和空间注意力网络分别按照上述操作对第i金字塔卷积单元输入的包含多尺度信息的输出特征图u进行处理,分别得到通道注意力权重特征图和空间注意力权重特征图;然后将注意力权重特征图和空间注意力权重特征图按通道进行拼接后进行卷积运算得到特征图Fsa。需要说明的是,这里按通道进行拼接和进行卷积运算的顺序不做限制,只要保证输出维度和输出特征图u的维度保持一致即可。
优选地,如图3所示,第i混合注意力模块的输出端还连接到第i金字塔卷积单元的输入端;第i混合注意力模块还用于将所得特征图Fsa重新输入至第i金字塔卷积单元,以对特征图Fsa进一步提取特征;重复多次后,将结果输出至下一金字塔卷积单元或池化层;以提高上述图像分类模型的鲁棒性。
需要说明的是,可以将金字塔卷积单元和与其输出端相连的混合注意力模块称为混合注意力金字塔模块;为了提升网络模型的鲁棒性,将由不同数量和深度卷积核组成的混合注意力金字塔模块级联在一起构成本发明中的分类模型,输入图像经过多次重复的不同混合注意力金字塔模块处理,由此产生最终的分类预测结果。且本发明可以根据实际任务来调整混合注意力金字塔模块中提取特征的重复次数以及各金字塔卷积单元中卷积核的大小和数量。
进一步地,以眼科常见疾病——青光眼为例,光学相干断层成像(opticalcoherence tomography,OCT)因其无创、舒适、高分辨率、非接触等优点,常被用来帮助临床医生识别患者前房角(Anterior chamber angle,ACA)类型,即开角,窄角以及闭角,但因个体的不同,前房角在OCT图像中所占区域会出现一定范围的波动。若前房角较小,单一的卷积核很难准确捕获微小细节的特征信息,同时因忽略特征融合过程中的信息冗余问题,导致有用信息无法凸显而无用信息无法被抑制,最终影响了前房角的准确类型预测;本发明提供了一种图像分类模型,包括多个金字塔卷积单元,它利用多尺度方案来提取不同细粒度图像特征。在该模块中,将图像输入到由不同大小和深度的卷积核滤波器组成的金字塔卷积模块中,并对输入图像分别进行不同尺度信息的提取。然后,通过卷积跨越连接的方式依次对各尺度卷积核提取的特征图,将其与其前一级卷积核提取的融合特征图进行融合,得到各尺度卷积核提取的融合特征图,以进一步挖掘特征图之间的相关性,得到包含不同尺度信息的输出特征图,由此完成所有大小卷积核的特征提取。接着,利用特征图组合操作将输出的含有不同尺度信息的特征图拼接在一起,并通过1×1卷积来改变拼接后特征通道的数量。最后,将组合的特征图与输入金字塔卷积模块的图像进行逐像素叠加求和。
为了更好的验证本发明所构建的分类模型的准确性,本发明将2019年MICCAI(Medical Image Computing and Computer Assisted Intervention)国际会议所提供的闭角青光眼数据集作为训练数据集,从中随机选择了1341张图像,并通过裁剪将图像切分为2682张前房角图像,该数据集已提供了开角前房角和闭角前房角两种金标准标签。在此基础上,进一步将闭角青光眼分为窄角前房角和闭角青光眼。为避免因数据分布不平衡而导致的训练难收敛问题,通过数据增强对原始数据进行平移和旋转处理,得到开角前房角1536张,窄角前房角1214张,闭角前房角1458张,最终得到的训练集、验证集和测试集的数量分别为3367,419和422。
为了进一步体现本发明的优点,本发明利用上述青光眼前房角数据集对采用本发明所构建的分类模型进行分类的方法和目前主流深度学***均敏感性
Figure BDA0003003705090000131
平均特异性
Figure BDA0003003705090000132
和平均平衡准确率
Figure BDA0003003705090000133
其定义如下:
Figure BDA0003003705090000134
Figure BDA0003003705090000135
Figure BDA0003003705090000136
Figure BDA0003003705090000137
其中,Ntest为测试集中的图像数量,TPs、TNs、FPs、FNs(s∈{1,2,3})分别表示当第s类被当作为阳性,其余类别为阴性时,真阳性、真阴性、假阳性和假阴性数量。
需要说明的是,本实施例中,金字塔卷积单元的个数n取值为4,第一金字塔卷积单元的卷积核的个数为n个,卷积核尺度分别为3×3,5×5,…,(2n+1)×(2n+1);第二金字塔卷积单元的卷积核个数为n-1个,卷积核尺度分别为3×3,5×5,…,(2n-1)×(2n-1);第n-1金字塔卷积单元的卷积核为2个,卷积核尺度分别为3×3,5×5;第n金字塔卷积单元的卷积核为1个,尺度为3×3。在各金字塔卷积单元中,通过卷积跨越连接的方式依次对各尺度卷积核提取的特征图,将其与其前一级卷积核提取的融合特征图进行融合,得到各尺度卷积核提取的融合特征图,从而得到包含不同尺度信息的输出特征图,依次完成所有卷积核的特征提取;即将第二尺度卷积核提取的特征图Fi 2与第一尺度卷积核所提取的特征图Fi 1进行融合得到第二尺度卷积核提取的融合特征图Mi 2,将第三尺度卷积核所提取的特征图Fi 3与第二尺度卷积核提取的融合特征图Fi 2进行融合得到第三尺度卷积核提取的融合特征图
Figure BDA0003003705090000141
将第四尺度卷积核所提取的特征图Fi 4与第三尺度卷积核提取的融合特征图
Figure BDA0003003705090000142
进行融合得到第四尺度卷积核提取的融合特征图
Figure BDA0003003705090000143
以此类推。需要说明的是,前一级卷积核的尺度小于当前卷积核的尺度。具体的,本实施例中,如图4所示,以金字塔卷积单元中有3个卷积核为例,通过3×3卷积跨越连接的方式进行操作,第block尺度卷积核提取的融合特征图为:
Figure BDA0003003705090000144
其中K3×3为尺寸为3×3的卷积核。待各尺度卷积核的融合特征图均提取完成后,利用特征图组合操作将输出的
Figure BDA0003003705090000145
按通道拼接在一起,并通过1×1卷积来改变拼接后特征通道数量,以使得其能够与当前输入到第i金字塔卷积单元的特征图逐像素叠加求和,得到包含多尺度信息的输出特征图。本实施例中,第一金字塔卷积单元和与第一混合注意力模块所构成的第一混合注意力金字塔模块提取特征时重复的次数为3次,第二金字塔卷积单元和与第二混合注意力模块所构成的第二混合注意力金字塔模块提取特征时重复的次数为4次,第三金字塔卷积单元和与第三混合注意力模块所构成的第三混合注意力金字塔模块提取特征时重复的次数为6次,第四金字塔卷积单元和与第四混合注意力模块所构成的第四混合注意力金字塔模块提取特征时重复的次数为3次。
表1为本发明所提供的采用本发明所构建的分类模型(这里记为HapcNet)与不同主流网络(VGG-16、ResNet-50、DenseNet-121、MobileNet、EfficientNet-B7及PyConvNet-50)在前房角测试集上分类性能的比较。其中,EfficientNet-B7为EfficientNet的B7系列,其它网络中的数字表示网络的层数,如VGG-16表示16层VGG网络。从表1中可看出,分类效果较为突出的算法包括EfficientNet、PyConvNet以及本发明所提供的HapcNet,它们在绝大部分指标上优于其余四种深度学习方法。与EfficientNet和PyConvNet方法相比,本发明所提供的HapcNet在ACC值上分别提高了约1.47%和1.66%。在
Figure BDA0003003705090000151
上,虽然各网络之间相差不明显,但VGG表现最差,其
Figure BDA0003003705090000152
为0.9933,而本发明所提供的HapcNet则可达0.9998,在这些对比网络中取得了最佳分类性能。
表1
Figure BDA0003003705090000153
进一步地,为更直观地显示本发明相对于其余方法的优越性,分别采用本发明所提供的HapcNet与各对比深度学习模型进行实验;如图5所示为本发明所提供的HapcNet与各对比深度学习模型在前房角验证集上的精确度曲线,其中,横坐标Epochs为迭代次数,纵坐标Accuracy为精确度;如图6所示为本发明所提供的HapcNet与各对比深度学习模型在前房角测试集上的混淆矩阵,其中,“0”、“1”和“2”分别代表开角、窄角和闭角;图6中的(a)为深度学习模型VGG-16在前房角测试集上的混淆矩阵;图6中的(b)为深度学习模型ResNet-50在前房角测试集上的混淆矩阵;图6中的(c)为深度学习模型DenseNet-121在前房角测试集上的混淆矩阵;图6中的(d)为深度学习模型MobileNet在前房角测试集上的混淆矩阵;图6中的(e)为深度学习模型EfficientNet-B7在前房角测试集上的混淆矩阵;图6中的(f)为深度学习模型PyConvNet-50在前房角测试集上的混淆矩阵;图6中的(g)为本发明所提供的HapcNet在前房角测试集上的混淆矩阵。从图5可以发现,本发明所提供的HapcNet相比深度学习模型取得了更佳的收敛精确度,且能提供极具竞争力的收敛速度。从图6所示的混淆矩阵可以看出,HapcNet、EfficientNet-B7和PyConvNet-50相比其余的主流网络在前房角测试数据集上能取得更优异的分类性能。具体而言,对于开角前房角,本发明所提供的HapcNet能提供次佳的准确率98.7%,EfficientNet-B7取得了最佳的分类准确率99.4%;而对于窄角前房角,本发明所提供的HapcNet则能提供100%的最佳准确率,EfficientNet-B7只能提供次佳的准确率;对于闭角前房角,本发明所提供的HapcNet仍能取得最佳的分类准确率。综上所述,本发明所提供的HapcNet相比其它深度学习模型在前房角数据集分类上具有优势。
实施例2、
一种图像分类方法,包括:将待分类的图像输入到采用实施例1所提供的图像分类模型的构建方法所构建的图像分类模型中,得到分类结果。优选地,在将待分类的图像输入到图像分类模型之前,先对待分类的图像进行尺度缩放以提高计算效率。
相关技术方案同实施例1,这里不做赘述。
实施例3、
一种机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现实施例1所提供的图像分类模型的构建方法和/或实施例2所提供的图像分类方法。
相关技术特征同实施例1和实施例2,这里不做赘述。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种图像分类模型的构建方法,其特征在于,包括以下步骤:
S1、搭建图像分类模型;图像分类模型包括:依次级联的卷积层、第一金字塔卷积单元、第二金字塔卷积单元、...、第n金字塔卷积单元、池化层和全连接层;所述卷积层用于提取输入图像的初始特征图,并输出至第一金字塔卷积单元;第i金字塔卷积单元用于采用数量为n-i+1的不同尺度的卷积核分别对当前输入到所述第i金字塔卷积单元的特征图进行进一步的特征提取后,依次对各尺度卷积核提取的特征图,将其与其前一级卷积核提取的融合特征图进行融合,得到各尺度卷积核提取的融合特征图,即一组含有不同尺度信息的特征图;将所述含有不同尺度信息的特征图与当前输入到所述第i金字塔卷积单元的特征图进行融合,得到包含多尺度信息的输出特征图;其中,i=1,2,…,n;对于各尺度卷积核,其尺度大于其前一级卷积核的尺度;
S2、将按照预设分类任务采集的训练集输入到所述图像分类模型中进行训练,得到训练好的图像分类模型;
其中,将在所述第i金字塔卷积单元中采用第block尺度的卷积核提取的特征图记为Fi block,block=1,…,n-i+1;对于所述第i金字塔卷积单元,当i=1,2,…,n-1时,将特征图Fi 2与特征图Fi 1进行融合得到第二尺度卷积核提取的融合特征图
Figure FDA0003603290500000011
从block=3开始,依次将特征图Fi block与第block-1尺度卷积核提取的融合特征图
Figure FDA0003603290500000012
进行融合得到第block尺度卷积核提取的融合特征图
Figure FDA0003603290500000013
待各尺度卷积核的融合特征图均提取完成后,对各融合特征图
Figure FDA0003603290500000014
进行拼接操作后与当前输入到所述第i金字塔卷积单元的特征图进行融合,得到包含多尺度信息的输出特征图,并输出至第i+1金字塔卷积单元;当i=n时,对当前输入到所述第i金字塔卷积单元的特征图进行卷积操作后与当前输入到第i金字塔卷积单元的特征图进行融合,得到包含多尺度信息的输出特征图,并输出至所述池化层进行池化操作后经过所述全连接层得到分类结果;
在所述第i金字塔卷积单元中,将特征图A与特征图B或融合特征图B进行融合的具体方式为:对A进行卷积操作后与B进行组合;其中,与B进行组合的方式包括逐像素叠加操作或拼接操作或拼接后再进行卷积的操作;
所述对各融合特征图
Figure FDA0003603290500000021
进行拼接操作后与当前输入到所述第i金字塔卷积单元的特征图进行融合的具体方式为:将各融合特征图
Figure FDA0003603290500000022
按通道进行拼接,并通过卷积方式来改变拼接后的特征图的特征通道数量,使其与当前输入到所述第i金字塔卷积单元的特征图的通道数量保持一致,然后将其与当前输入到所述第i金字塔卷积单元的特征图逐像素进行叠加求和,得到包含多尺度信息的输出特征图;
所述第i金字塔卷积单元的输出端还连接到所述第i金字塔卷积单元的输入端;
所述第i金字塔卷积单元还用于在将所述包含多尺度信息的输出特征图输出至下一金字塔卷积单元或所述池化层之前,将所述包含多尺度信息的输出特征图重新输入至所述第i金字塔卷积单元,以对所述包含多尺度信息的输出特征图进一步提取特征;重复多次后,将结果输出至下一金字塔卷积单元或所述池化层;
所述图像分类模型还包括:混合注意力模块;所述混合注意力模块有n个,当i=1,2,…,n-1时,第i混合注意力模块位于所述第i金字塔卷积单元和第i+1金字塔卷积单元之间;当i=n时,第i混合注意力模块位于所述第i金字塔卷积单元与所述池化层之间;
所述混合注意力模块包括级联或并联的空间注意力网络和通道注意力网络,以对金字塔卷积单元输入的包含多尺度信息的输出特征图在空间和通道维度上进行筛选,得到特征图Fsa,从而抑制冗余的背景信息;
所述第i混合注意力模块的输出端还连接到所述第i金字塔卷积单元的输入端;
所述第i混合注意力模块还用于将所述特征图Fsa重新输入至所述第i金字塔卷积单元,以对所述特征图Fsa进一步提取特征;重复多次后,将结果输出至下一金字塔卷积单元或所述池化层;
所述通道注意力网络用于对输入的特征图按通道进行全局平均池化操作来提取各通道上的全局空间信息;然后通过权值共享的一维卷积核分别对各通道上的全局空间信息的通道权重进行学习,并将学习到的各通道权重分别作用于所述输入的特征图中所对应的通道上,以对特征信息进行通道维度上的筛选;
所述通道注意力网络中卷积核的尺寸k1D与所述输入的特征图的特征通道数量C1D满足:
Figure FDA0003603290500000031
其中,γ和b均为学习参数,|e|odd表示离e最近的奇数。
2.根据权利要求1所述的图像分类模型的构建方法,其特征在于,所述输入图像为对所述训练集中原始样本图像进行尺度缩放后的图像。
3.一种图像分类方法,其特征在于,包括:将待分类的图像输入到采用权利要求1或2所述的图像分类模型的构建方法所构建的图像分类模型中,得到分类结果。
4.一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现权利要求1或2所述的图像分类模型的构建方法和/或权利要求3所述的图像分类方法。
CN202110356938.7A 2021-04-01 2021-04-01 一种图像分类模型的构建方法、图像分类方法及存储介质 Active CN113191390B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110356938.7A CN113191390B (zh) 2021-04-01 2021-04-01 一种图像分类模型的构建方法、图像分类方法及存储介质
PCT/CN2021/086861 WO2022205502A1 (zh) 2021-04-01 2021-04-13 一种图像分类模型的构建方法、图像分类方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110356938.7A CN113191390B (zh) 2021-04-01 2021-04-01 一种图像分类模型的构建方法、图像分类方法及存储介质

Publications (2)

Publication Number Publication Date
CN113191390A CN113191390A (zh) 2021-07-30
CN113191390B true CN113191390B (zh) 2022-06-14

Family

ID=76974445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110356938.7A Active CN113191390B (zh) 2021-04-01 2021-04-01 一种图像分类模型的构建方法、图像分类方法及存储介质

Country Status (2)

Country Link
CN (1) CN113191390B (zh)
WO (1) WO2022205502A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113762251B (zh) * 2021-08-17 2024-05-10 慧影医疗科技(北京)股份有限公司 一种基于注意力机制的目标分类方法及***
CN114821121B (zh) * 2022-05-09 2023-02-03 盐城工学院 一种基于rgb三分量分组注意力加权融合的图像分类方法
CN115496808B (zh) * 2022-11-21 2023-03-24 中山大学中山眼科中心 一种角膜缘定位方法及其***
CN116758029A (zh) * 2023-06-15 2023-09-15 东莞市商斯迈智能科技有限公司 基于机器视觉的擦窗机移动控制方法及***
CN117876797B (zh) * 2024-03-11 2024-06-04 中国地质大学(武汉) 图像多标签分类方法、装置及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034210A (zh) * 2018-07-04 2018-12-18 国家新闻出版广电总局广播科学研究院 基于超特征融合与多尺度金字塔网络的目标检测方法
CN109598269A (zh) * 2018-11-14 2019-04-09 天津大学 一种基于多分辨率输入与金字塔膨胀卷积的语义分割方法
CN110232394A (zh) * 2018-03-06 2019-09-13 华南理工大学 一种多尺度图像语义分割方法
CN111507408A (zh) * 2020-04-17 2020-08-07 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN112287924A (zh) * 2020-12-24 2021-01-29 北京易真学思教育科技有限公司 文本区域检测方法、装置、电子设备和计算机存储介质
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field
CN112396645A (zh) * 2020-11-06 2021-02-23 华中科技大学 一种基于卷积残差学习的单目图像深度估计方法和***
CN112418176A (zh) * 2020-12-09 2021-02-26 江西师范大学 一种基于金字塔池化多级特征融合网络的遥感图像语义分割方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018052587A1 (en) * 2016-09-14 2018-03-22 Konica Minolta Laboratory U.S.A., Inc. Method and system for cell image segmentation using multi-stage convolutional neural networks
WO2018120013A1 (en) * 2016-12-30 2018-07-05 Nokia Technologies Oy Artificial neural network
CN110188685B (zh) * 2019-05-30 2021-01-05 燕山大学 一种基于双注意力多尺度级联网络的目标计数方法及***
CN110992361A (zh) * 2019-12-25 2020-04-10 创新奇智(成都)科技有限公司 基于代价平衡的发动机紧固件检测***及检测方法
CN111739075B (zh) * 2020-06-15 2024-02-06 大连理工大学 一种结合多尺度注意力的深层网络肺部纹理识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232394A (zh) * 2018-03-06 2019-09-13 华南理工大学 一种多尺度图像语义分割方法
CN109034210A (zh) * 2018-07-04 2018-12-18 国家新闻出版广电总局广播科学研究院 基于超特征融合与多尺度金字塔网络的目标检测方法
CN109598269A (zh) * 2018-11-14 2019-04-09 天津大学 一种基于多分辨率输入与金字塔膨胀卷积的语义分割方法
CN111507408A (zh) * 2020-04-17 2020-08-07 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN112396645A (zh) * 2020-11-06 2021-02-23 华中科技大学 一种基于卷积残差学习的单目图像深度估计方法和***
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field
CN112418176A (zh) * 2020-12-09 2021-02-26 江西师范大学 一种基于金字塔池化多级特征融合网络的遥感图像语义分割方法
CN112287924A (zh) * 2020-12-24 2021-01-29 北京易真学思教育科技有限公司 文本区域检测方法、装置、电子设备和计算机存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Xinjiang Wang等.Scale –Equalizing Pyramid Convolution for Object Detection.《Computer Vision and Pattern Recognition》.2020, *
Xuming Zhang等.Spiking cortical model-based noise detector for switching-based filters.《Journal of Electronic Imaging》.2012, *
吕朦.基于多尺度卷积神经网络的图像分类算法研究.《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》.2019, *

Also Published As

Publication number Publication date
WO2022205502A1 (zh) 2022-10-06
CN113191390A (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
CN113191390B (zh) 一种图像分类模型的构建方法、图像分类方法及存储介质
Verma et al. Pneumonia classification using deep learning in healthcare
Olatunji et al. Identification of erythemato-squamous skin diseases using extreme learning machine and artificial neural network
US11830187B2 (en) Automatic condition diagnosis using a segmentation-guided framework
CN113706544A (zh) 一种基于完备注意力卷积神经网络的医学图像分割方法
CN114445356A (zh) 基于多分辨率的全视野病理切片图像肿瘤快速定位方法
Tambe et al. Towards designing an automated classification of lymphoma subtypes using deep neural networks
Shamrat et al. Analysing most efficient deep learning model to detect COVID-19 from computer tomography images
Tursynova et al. Brain Stroke Lesion Segmentation Using Computed Tomography Images based on Modified U-Net Model with ResNet Blocks.
Dhawan et al. Deep Learning Based Sugarcane Downy Mildew Disease Detection Using CNN-LSTM Ensemble Model for Severity Level Classification
Yan et al. Investigation of Customized Medical Decision Algorithms Utilizing Graph Neural Networks
CN116958535B (zh) 一种基于多尺度残差推理的息肉分割***及方法
Haddada et al. Comparative study of deep learning architectures for early alzheimer detection
US11875898B2 (en) Automatic condition diagnosis using an attention-guided framework
Bhattacharjya et al. A genetic algorithm for intelligent imaging from quantum-limited data
Princy et al. Detection & Classification of Tuberculosis HIV-Positive Patients using Deep Learning
Padmapriya et al. Computer-Aided Diagnostic System for Brain Tumor Classification using Explainable AI
Hassan et al. Transparent and Accurate COVID-19 Diagnosis: Integrating Explainable AI with Advanced Deep Learning in CT Imaging.
Chauhan et al. Handwritten Digit Recognition using Deep Neural Networks
Kassim et al. A cell augmentation tool for blood smear analysis
Veeranki et al. Detection and classification of brain tumors using convolutional neural network
Harshini et al. Machine Learning Approach for Various Eye Diseases using Modified Voting Classifier Model
Subuda et al. Image recognition based on improved LSTM deep neural network
Mahmud et al. Automatic Diagnosis of Malaria from Thin Blood Smear Images using Deep Convolutional Neural Network with Multi-Resolution Feature Fusion
Rithin et al. Analysis on Covid-19 Detection System Using Machine Learning & Deep Learning Models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant