CN113191390B

CN113191390B - 一种图像分类模型的构建方法、图像分类方法及存储介质

Info

Publication number: CN113191390B
Application number: CN202110356938.7A
Authority: CN
Inventors: 张旭明; 周权
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-04-01
Filing date: 2021-04-01
Publication date: 2022-06-14
Anticipated expiration: 2041-04-01
Also published as: WO2022205502A1; CN113191390A

Abstract

本发明公开了一种图像分类模型的构建方法、图像分类方法及存储介质，所构建的图像分类模型包括依次级联的卷积层、第一金字塔卷积单元、第二金字塔卷积单元、...、第n金字塔卷积单元、池化层和全连接层；第i金字塔卷积单元采用数量为n‑i+1的不同尺度的卷积核分别对当前输入的特征图进行进一步的特征提取后，依次对各尺度的卷积核提取的特征图，将其与其前一级卷积核提取的融合特征图进行融合，得到各尺度的卷积核提取的融合特征图，即一组含有不同尺度信息的特征图；将含有不同尺度信息的特征图与当前输入的特征图进行融合，得到包含多尺度信息的输出特征图；i＝1,2,…,n；本发明充分利用了不同尺度信息，图像分类准确性较高。

Description

一种图像分类模型的构建方法、图像分类方法及存储介质

技术领域

本发明属于图像处理技术领域，更具体地，涉及一种图像分类模型的构建方法、图像分类方法及存储介质。

背景技术

图像分类技术是计算机视觉的核心，在很多领域中都有着广泛的应用，如：安防领域的人脸识别和智能视频分析、交通领域的交通场景识别，互联网领域的图像检索以及医学领域的医学图像分析等。以医学图像为例，医生在临床诊断中可通过对影像设备(如核磁共振成像、超声成像和光学断层成像等设备)采集到的图像进行识别，以实现疾病筛查目的。然而，人工识别效果极大地依赖于医生的临床经验，同时医生的诊断效率也受到巨大医学数据量的影响，容易由于医生过度疲劳而导致误诊或漏诊。目前，自动化的计算机辅助诊断技术已被广泛应用于医学图像识别领域中，它利用计算机的强大计算能力对图像进行处理和分析，为临床医生提供具有参考价值的信息，并大大减少医生的工作负担。

近年来，深度学习算法在图像分类领域得到广泛关注。与基于浅层学习获得手工特征的传统机器学习算法相比，深度学习方法通过联合多个非线性浅层特征，并在此基础上构造出更加抽象的高阶特征。如同大脑的深度结构，深度学习中，每一个输入对象会以多层抽象形式表现出来，每个层次对应于不同的皮层区域。深度学习的优势在于它获得的多层次特征是使用通用的学习过程从原始数据中学习获得的，而不是由手工筛选设计出来。目前较为常用的深度学习模型有深度玻尔兹曼机、深度信念网络、栈式自动编码器、递归神经网络以及卷积神经网络。其中卷积神经网络在图像处理中被广泛使用，并在许多医学图像识别任务中取得了不错的效果。然而，目前大部分网络模型提取图像特征信息时仅使用单一的卷积核，对目标区域变化较大的图像，很难完整地捕捉不同细节大小的特征信息，同时这些网络未能充分利用不同尺度的特征信息，也没有解决好特征融合过程中所产生的信息冗余问题，导致有用信息无法凸显而无用信息无法被抑制，分类的准确性偏低。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供一种图像分类模型的构建方法、图像分类方法及存储介质，用以解决现有技术由于未能充分利用不同尺度的特征信息而存在分类准确性较低的技术问题。

为了实现上述目的，第一方面，本发明提供了一种图像分类模型的构建方法，包括以下步骤：

S1、搭建图像分类模型；图像分类模型包括：依次级联的卷积层、第一金字塔卷积单元、第二金字塔卷积单元、...、第n金字塔卷积单元、池化层和全连接层；第一卷积层用于提取输入图像的初始特征图，并输出至第一金字塔卷积单元；第i金字塔卷积单元用于采用数量为n-i+1的不同尺度的卷积核分别对当前输入到第i金字塔卷积单元的特征图进行进一步的特征提取后，依次对各尺度的卷积核提取的特征图，将其与其前一级卷积核提取的融合特征图进行融合，得到各尺度的卷积核提取的融合特征图，即一组含有不同尺度信息的特征图；将含有不同尺度信息的特征图与当前输入到第i金字塔卷积单元的特征图进行融合，得到包含多尺度信息的输出特征图；其中，i＝1,2,…,n；对于各尺度卷积核，其尺度大于其前一级卷积核的尺度；

S2、将按照预设分类任务采集的训练集输入到上述图像分类模型中进行训练，得到训练好的图像分类模型。

进一步优选地，输入图像为对训练集中原始样本图像进行尺度缩放后的图像，以提高计算效率。

进一步优选地，将在第i金字塔卷积单元中采用第block尺度的卷积核提取的特征图记为F_i ^block，block＝1,…,n-i+1；对于第i金字塔卷积单元，当i＝1,2,…,n-1时，将特征图F_i ²与特征图F_i ¹进行融合得到第二尺度卷积核提取的融合特征图

从block＝3开始，将特征图F_i ^block与第block-1尺度卷积核提取的融合特征图

进行融合得到第block尺度卷积核提取的融合特征图

待各尺度卷积核的融合特征图均提取完成后，对各融合特征图

进行拼接操作后与当前输入到第i金字塔卷积单元的特征图进行融合，得到包含多尺度信息的输出特征图，并输出至第i+1金字塔卷积单元；当i＝n时，对当前输入到第i金字塔卷积单元的特征图进行卷积操作后与当前输入到第i金字塔卷积单元的特征图进行融合，得到包含多尺度信息的输出特征图，并输出至池化层进行池化操作后经过全连接层得到分类结果。

进一步优选地，在上述第i金字塔卷积单元中，在所述第i金字塔卷积单元中，将特征图A与特征图B或融合特征图B进行融合的具体方式为：对A进行卷积操作后与B进行组合；其中，与B进行组合的方式包括逐像素叠加操作或拼接操作或拼接后再进行卷积的操作；

对各融合特征图

进行拼接操作后与当前输入到第i金字塔卷积单元的特征图进行融合的具体方式为：将各融合特征图

按通道进行拼接，并通过卷积方式来改变拼接后的特征图的特征通道数量，使其与当前输入到第i金字塔卷积单元的特征图的通道数量保持一致，然后将其与当前输入到所述第i金字塔卷积单元的特征图逐像素进行叠加求和，得到包含多尺度信息的输出特征图。

进一步优选地，第i金字塔卷积单元的输出端还连接到该第i金字塔卷积单元的输入端；

第i金字塔卷积单元还用于在将所得的包含多尺度信息的输出特征图输出至下一金字塔卷积单元或池化层之前，将所得的包含多尺度信息的输出特征图重新输入至第i金字塔卷积单元，以对当前所得的包含多尺度信息的输出特征图进一步提取特征；重复多次后，将结果输出至下一金字塔卷积单元或池化层；以提高上述图像分类模型的鲁棒性。

进一步优选地，上述图像分类模型还包括：混合注意力模块；混合注意力模块有n个，当i＝1,2,…,n-1时，第i混合注意力模块位于第i金字塔卷积单元和第i+1金字塔卷积单元之间；当i＝n时，第i混合注意力模块位于第i金字塔卷积单元与池化层之间；

混合注意力模块包括级联或并联的空间注意力网络和通道注意力网络，以对金字塔卷积单元输入的包含多尺度信息的输出特征图在空间和通道维度上进行筛选，得到特征图F_sa，从而抑制冗余的背景信息并凸显对分类结果有益的特征信息。

进一步优选地，第i混合注意力模块的输出端还连接到第i金字塔卷积单元的输入端；

第i混合注意力模块还用于将所得特征图F_sa重新输入至第i金字塔卷积单元，以对特征图F_sa进一步提取特征；重复多次后，将结果输出至下一金字塔卷积单元或池化层；以提高上述图像分类模型的鲁棒性。

进一步优选地，通道注意力网络用于对输入的特征图按通道进行全局平均池化操作来提取各通道上的全局空间信息；然后通过权值共享的一维卷积核分别对各通道上的全局空间信息的通道权重进行学习，并将学习到的各通道权重分别作用于输入的特征图中所对应的通道上，以对特征信息进行通道维度上的筛选；

通道注意力网络中卷积核的尺寸k_1D与输入的特征图的特征通道数量C_1D满足：

其中，γ和b均为学习参数，|e|_odd表示离e最近的奇数。

第二方面，本发明提供了一种图像分类方法，包括：将待分类的图像输入到采用本发明第一方面所提供的图像分类模型的构建方法所构建的图像分类模型中，得到分类结果。

第三方面，本发明还提供一种机器可读存储介质，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现如上所述的任一种图像分类模型的构建方法和/或如上所述的图像分类方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

1、本发明提供了一种图像分类模型的构建方法，所构建的图像分类模型包括依次级联的卷积层、第一金字塔卷积单元、第二金字塔卷积单元、...、第n金字塔卷积单元、池化层和全连接层，其中，金字塔卷积单元通过卷积跨越连接的方式依次对各尺度卷积核提取的特征图，将其与其前一级卷积核提取的融合特征图进行融合，得到各尺度卷积核提取的融合特征图，以进一步挖掘特征图之间的相关性，得到包含多尺度信息的输出特征图，以充分利用输出特征图间的不同尺度信息；本发明利用多尺度方案来提取不同细粒度图像特征，图像分类的准确性较高。

2、本发明所提供的图像分类模型的构建方法所构建的图像分类模型还包括混合注意力模块，基于空间注意力网络和通道注意力网络对金字塔卷积单元输入的包含多尺度信息的输出特征图在空间和通道维度上进行筛选，实现通道特征和空间信息的自适应校准，以抑制不同尺度特征图整合时所引入的冗余信息，通过有效抑制无用的背景信息和凸显关键的特征信息，进一步提高了图像分类的准确性。

3、本发明所提供的图像分类模型的构建方法所构建的图像分类模型中，第i混合注意力模块的输出端还连接到第i金字塔卷积单元的输入端；其中，金字塔卷积单元和与其输出端相连的混合注意力模块称为混合注意力金字塔模块，将由不同数量和深度卷积核组成的混合注意力金字塔模块级联在一起进行图像分类，在提高模型准确率的同时也大大提升了模型的鲁棒性。

4、本发明所提供的图像分类模型的构建方法所构建的图像分类模型中，图像在输入模型之前可以先进行尺度缩放以提高计算效率。

附图说明

图1为本发明实施例1所提供的图像分类模型结构示意图；

图2为本发明实施例1所提供的包含混合注意力模块后的图像分类模型结构示意图；

图3为本发明实施例1所提供的包含混合注意力模块且混合注意力模块的输出端还连接到对应金字塔卷积单元的输入端的图像分类模型结构示意图；

图4为本发明实施例1所提供的金字塔卷积单元中3×3卷积跨越连接的方式示意图；

图5为本发明实施例1所提供的HapcNet与各对比深度学习模型在前房角验证集上的精确度曲线；

图6为本发明实施例1所提供的HapcNet与各对比深度学习模型在前房角测试集上的混淆矩阵；其中，(a)为深度学习模型VGG-16在前房角测试集上的混淆矩阵；(b)为深度学习模型ResNet-50在前房角测试集上的混淆矩阵；(c)为深度学习模型DenseNet-121在前房角测试集上的混淆矩阵；(d)为深度学习模型MobileNet在前房角测试集上的混淆矩阵；(e)为深度学习模型EfficientNet-B7在前房角测试集上的混淆矩阵；(f)为深度学习模型PyConvNet-50在前房角测试集上的混淆矩阵；(g)为本发明所提供的HapcNet在前房角测试集上的混淆矩阵。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例1、

一种图像分类模型的构建方法，包括以下步骤：

S1、搭建图像分类模型；如图1所示，图像分类模型包括：依次级联的卷积层、第一金字塔卷积单元、第二金字塔卷积单元、...、第n金字塔卷积单元、池化层和全连接层；第一卷积层用于提取输入图像的初始特征图，并输出至第一金字塔卷积单元；第i金字塔卷积单元用于采用数量为n-i+1的不同尺度的卷积核分别对当前输入到第i金字塔卷积单元的特征图进行进一步的特征提取后，依次对各尺度卷积核提取的特征图，将其与其前一级卷积核提取的融合特征图进行融合，得到各尺度卷积核提取的融合特征图，即一组含有不同尺度信息的特征图；将含有不同尺度信息的特征图进行拼接操作后与当前输入到第i金字塔卷积单元的特征图进行融合，得到包含多尺度信息的输出特征图；其中，i＝1,2,…,n；对于各尺度卷积核，其尺度大于其前一级卷积核的尺度。具体地，将在第i金字塔卷积单元中采用第block个尺度的卷积核提取的特征图记为F_i ^block，block＝1,…,n-i+1；对于第i金字塔卷积单元，当i＝1,2,…,n-1时，将特征图F_i ²与特征图F_i ¹进行融合得到第二尺度卷积核提取的融合特征图

将特征图F_i ³与第二尺度卷积核提取的融合特征图

与进行融合得到第三尺度卷积核提取的融合特征图

以此类推，待各尺度卷积核的融合特征图均提取完成后，对各融合特征图

进行拼接操作后与当前输入到第i金字塔卷积单元的特征图进行融合，得到包含多尺度信息的输出特征图，并输出至第i+1金字塔卷积单元；当i＝n时，对当前输入到第i金字塔卷积单元的特征图进行卷积操作后与当前输入到第i金字塔卷积单元的特征图进行融合，得到包含多尺度信息的输出特征图，并输出至池化层进行池化操作后经过全连接层得到分类结果。优选地，当i＝1,2,…,n-1时，在上述第i金字塔卷积单元中，将特征图F_i ^block与第block-1尺度卷积核提取的融合特征图

进行融合的具体方式为：对特征图F_i ^block-1进行卷积操作后与融合特征图

进行组合，以充分挖掘不同特征图之间的信息，使得信息更加完整；其中，与融合特征图

进行组合的方式包括逐像素叠加操作或拼接操作或拼接后再进行卷积的操作。需要说的是，将特征图F_i ²与特征图F_i ¹进行融合的方式与将特征图F_i ^block与第block-1尺度卷积核提取的融合特征图

进行融合的方式相同，这里不做赘述。进一步地，对各融合特征图

S2、将按照预设分类任务采集的训练集输入到上述图像分类模型中进行训练，得到训练好的图像分类模型。优选地，上述输入图像可以为对训练集中原始样本图像进行尺度缩放后的图像，从而提高计算效率，加快训练速度。本实施例中将交叉熵损失作为总损失函数，具体为：

其中，η表示输出类别的数量，Num为训练集中图像的批量大小；x_p,q为第p个样本且属于第q类时由softmax分类函数所产生的预测概率；y_p,q为第p个样本是否分类为第q类的相应标签。

优选地，为了提高上述图像分类模型的鲁棒性，第i金字塔卷积单元的输出端还连接到该第i金字塔卷积单元的输入端；

优选地，如图2所示，为了解决特征融合过程中所产生的信息冗余问题，进一步凸显有用信息且抑制无用信息；上述图像分类模型还包括：混合注意力模块；混合注意力模块有n个，当i＝1,2,…,n-1时，第i混合注意力模块位于第i金字塔卷积单元和第i+1金字塔卷积单元之间；当i＝n时，第i混合注意力模块位于第i金字塔卷积单元与池化层之间；混合注意力模块包括级联或并联的空间注意力网络和通道注意力网络，以对金字塔卷积单元输入的包含多尺度信息的输出特征图在空间和通道维度上进行筛选，得到特征图F_sa，从而抑制冗余的背景信息并凸显对分类结果有益的特征信息。

以级联的空间注意力网络和通道注意力网络所构成的混合注意力模块为例，将第i金字塔卷积单元输出的包含多尺度信息的输出特征图u输入到混合注意力模块中，在混合注意力模块中执行以下操作：

在通道注意力网络中，首先对输出特征图u按通道进行全局平均池化操作来提取各通道上的全局空间信息，其中，u_c中第c个通道的全局空间信息

H_ca和W_ca分别为u_c的高和宽，u_c为输出特征图u的第c个通道所对应的特征图，z为包含各通道全局空间信息的一维矢量；然后通过一个权重可以共享的一维卷积核分别对各通道上的全局空间信息的通道权重进行学习，所得权重为

其中，δ(·)为Sigmoid函数；1D_Conv表示采用尺寸为k_1D的卷积核对z进行一维卷积操作；需要说明的是，为了实现卷积核大小的自适应选择，通道注意力网络中卷积核的尺寸k_1D与输入的特征图的特征通道数量C_1D满足：

其中，γ和b均为学习参数，本实施例中分别设置为2和1，|e|_odd表示离e最近的奇数；该通道注意力在保证提升分类结果的同时，减少了计算量以及参数量。最后，将学习到的各通道权重分别作用于输出特征图中所对应的通道上，得到通道注意力权重特征图F_ca；具体的，F_ca＝u·w。进一步地，将通道注意力权重特征图F_ca输入到空间注意力网络中。

在空间注意力网络中，对特征图F_ca沿其通道轴方向分别进行平均池化和最大池化操作，以快速捕获上下文信息从而分别生成两个2D映射

和

(H_sa和W_sa分别是空间注意力网络生成特征图的高和宽)。然后，将F_avg和F_max按通道进行拼接生成两通道特征图，并采用预设尺寸的卷积核对所得两通道特征图进行卷积操作，生成空间注意力权重特征图

最后，将通道注意力权重特征图F_ca与空间注意力权重特征图M(F_ca)按像素对应相乘(即点乘运算)得到特征图F_sa。其中，预设卷积核的尺寸根据通道注意力权重特征图F_ca的尺寸确定，通过卷积操作将两通道特征图的尺寸与通道注意力权重特征图F_ca的尺寸保持一致，以实现后续的点乘运算。

需要说明的是，本实施例通过级联的方式将通道注意力网络和空间注意力网络进行组合，构成混合注意力模块；除此之外，也可采用并联或其它方式将两种注意力模块进行合理结合。

当采用并联方式时，通道注意力网络和空间注意力网络分别按照上述操作对第i金字塔卷积单元输入的包含多尺度信息的输出特征图u进行处理，分别得到通道注意力权重特征图和空间注意力权重特征图；然后将注意力权重特征图和空间注意力权重特征图按通道进行拼接后进行卷积运算得到特征图F_sa。需要说明的是，这里按通道进行拼接和进行卷积运算的顺序不做限制，只要保证输出维度和输出特征图u的维度保持一致即可。

优选地，如图3所示，第i混合注意力模块的输出端还连接到第i金字塔卷积单元的输入端；第i混合注意力模块还用于将所得特征图F_sa重新输入至第i金字塔卷积单元，以对特征图F_sa进一步提取特征；重复多次后，将结果输出至下一金字塔卷积单元或池化层；以提高上述图像分类模型的鲁棒性。

需要说明的是，可以将金字塔卷积单元和与其输出端相连的混合注意力模块称为混合注意力金字塔模块；为了提升网络模型的鲁棒性，将由不同数量和深度卷积核组成的混合注意力金字塔模块级联在一起构成本发明中的分类模型，输入图像经过多次重复的不同混合注意力金字塔模块处理，由此产生最终的分类预测结果。且本发明可以根据实际任务来调整混合注意力金字塔模块中提取特征的重复次数以及各金字塔卷积单元中卷积核的大小和数量。

进一步地，以眼科常见疾病——青光眼为例，光学相干断层成像(opticalcoherence tomography,OCT)因其无创、舒适、高分辨率、非接触等优点，常被用来帮助临床医生识别患者前房角(Anterior chamber angle，ACA)类型，即开角，窄角以及闭角，但因个体的不同，前房角在OCT图像中所占区域会出现一定范围的波动。若前房角较小，单一的卷积核很难准确捕获微小细节的特征信息，同时因忽略特征融合过程中的信息冗余问题，导致有用信息无法凸显而无用信息无法被抑制，最终影响了前房角的准确类型预测；本发明提供了一种图像分类模型，包括多个金字塔卷积单元，它利用多尺度方案来提取不同细粒度图像特征。在该模块中，将图像输入到由不同大小和深度的卷积核滤波器组成的金字塔卷积模块中，并对输入图像分别进行不同尺度信息的提取。然后，通过卷积跨越连接的方式依次对各尺度卷积核提取的特征图，将其与其前一级卷积核提取的融合特征图进行融合，得到各尺度卷积核提取的融合特征图，以进一步挖掘特征图之间的相关性，得到包含不同尺度信息的输出特征图，由此完成所有大小卷积核的特征提取。接着，利用特征图组合操作将输出的含有不同尺度信息的特征图拼接在一起，并通过1×1卷积来改变拼接后特征通道的数量。最后，将组合的特征图与输入金字塔卷积模块的图像进行逐像素叠加求和。

为了更好的验证本发明所构建的分类模型的准确性，本发明将2019年MICCAI(Medical Image Computing and Computer Assisted Intervention)国际会议所提供的闭角青光眼数据集作为训练数据集，从中随机选择了1341张图像，并通过裁剪将图像切分为2682张前房角图像，该数据集已提供了开角前房角和闭角前房角两种金标准标签。在此基础上，进一步将闭角青光眼分为窄角前房角和闭角青光眼。为避免因数据分布不平衡而导致的训练难收敛问题，通过数据增强对原始数据进行平移和旋转处理，得到开角前房角1536张，窄角前房角1214张，闭角前房角1458张，最终得到的训练集、验证集和测试集的数量分别为3367，419和422。

为了进一步体现本发明的优点，本发明利用上述青光眼前房角数据集对采用本发明所构建的分类模型进行分类的方法和目前主流深度学***均敏感性

平均特异性

和平均平衡准确率

其定义如下：

其中，N_test为测试集中的图像数量，TP_s、TN_s、FP_s、FN_s(s∈{1,2,3})分别表示当第s类被当作为阳性，其余类别为阴性时，真阳性、真阴性、假阳性和假阴性数量。

需要说明的是，本实施例中，金字塔卷积单元的个数n取值为4，第一金字塔卷积单元的卷积核的个数为n个，卷积核尺度分别为3×3,5×5,…,(2n+1)×(2n+1)；第二金字塔卷积单元的卷积核个数为n-1个，卷积核尺度分别为3×3,5×5,…,(2n-1)×(2n-1)；第n-1金字塔卷积单元的卷积核为2个，卷积核尺度分别为3×3,5×5；第n金字塔卷积单元的卷积核为1个，尺度为3×3。在各金字塔卷积单元中，通过卷积跨越连接的方式依次对各尺度卷积核提取的特征图，将其与其前一级卷积核提取的融合特征图进行融合，得到各尺度卷积核提取的融合特征图，从而得到包含不同尺度信息的输出特征图，依次完成所有卷积核的特征提取；即将第二尺度卷积核提取的特征图F_i ²与第一尺度卷积核所提取的特征图F_i ¹进行融合得到第二尺度卷积核提取的融合特征图M_i ²，将第三尺度卷积核所提取的特征图F_i ³与第二尺度卷积核提取的融合特征图F_i ²进行融合得到第三尺度卷积核提取的融合特征图

将第四尺度卷积核所提取的特征图F_i ⁴与第三尺度卷积核提取的融合特征图

进行融合得到第四尺度卷积核提取的融合特征图

以此类推。需要说明的是，前一级卷积核的尺度小于当前卷积核的尺度。具体的，本实施例中，如图4所示，以金字塔卷积单元中有3个卷积核为例，通过3×3卷积跨越连接的方式进行操作，第block尺度卷积核提取的融合特征图为：

其中K_3×3为尺寸为3×3的卷积核。待各尺度卷积核的融合特征图均提取完成后，利用特征图组合操作将输出的

按通道拼接在一起，并通过1×1卷积来改变拼接后特征通道数量，以使得其能够与当前输入到第i金字塔卷积单元的特征图逐像素叠加求和，得到包含多尺度信息的输出特征图。本实施例中，第一金字塔卷积单元和与第一混合注意力模块所构成的第一混合注意力金字塔模块提取特征时重复的次数为3次，第二金字塔卷积单元和与第二混合注意力模块所构成的第二混合注意力金字塔模块提取特征时重复的次数为4次，第三金字塔卷积单元和与第三混合注意力模块所构成的第三混合注意力金字塔模块提取特征时重复的次数为6次，第四金字塔卷积单元和与第四混合注意力模块所构成的第四混合注意力金字塔模块提取特征时重复的次数为3次。

表1为本发明所提供的采用本发明所构建的分类模型(这里记为HapcNet)与不同主流网络(VGG-16、ResNet-50、DenseNet-121、MobileNet、EfficientNet-B7及PyConvNet-50)在前房角测试集上分类性能的比较。其中，EfficientNet-B7为EfficientNet的B7系列，其它网络中的数字表示网络的层数，如VGG-16表示16层VGG网络。从表1中可看出，分类效果较为突出的算法包括EfficientNet、PyConvNet以及本发明所提供的HapcNet，它们在绝大部分指标上优于其余四种深度学习方法。与EfficientNet和PyConvNet方法相比，本发明所提供的HapcNet在ACC值上分别提高了约1.47％和1.66％。在

上，虽然各网络之间相差不明显，但VGG表现最差，其

为0.9933，而本发明所提供的HapcNet则可达0.9998，在这些对比网络中取得了最佳分类性能。

表1

进一步地，为更直观地显示本发明相对于其余方法的优越性，分别采用本发明所提供的HapcNet与各对比深度学习模型进行实验；如图5所示为本发明所提供的HapcNet与各对比深度学习模型在前房角验证集上的精确度曲线，其中，横坐标Epochs为迭代次数，纵坐标Accuracy为精确度；如图6所示为本发明所提供的HapcNet与各对比深度学习模型在前房角测试集上的混淆矩阵，其中，“0”、“1”和“2”分别代表开角、窄角和闭角；图6中的(a)为深度学习模型VGG-16在前房角测试集上的混淆矩阵；图6中的(b)为深度学习模型ResNet-50在前房角测试集上的混淆矩阵；图6中的(c)为深度学习模型DenseNet-121在前房角测试集上的混淆矩阵；图6中的(d)为深度学习模型MobileNet在前房角测试集上的混淆矩阵；图6中的(e)为深度学习模型EfficientNet-B7在前房角测试集上的混淆矩阵；图6中的(f)为深度学习模型PyConvNet-50在前房角测试集上的混淆矩阵；图6中的(g)为本发明所提供的HapcNet在前房角测试集上的混淆矩阵。从图5可以发现，本发明所提供的HapcNet相比深度学习模型取得了更佳的收敛精确度，且能提供极具竞争力的收敛速度。从图6所示的混淆矩阵可以看出，HapcNet、EfficientNet-B7和PyConvNet-50相比其余的主流网络在前房角测试数据集上能取得更优异的分类性能。具体而言，对于开角前房角，本发明所提供的HapcNet能提供次佳的准确率98.7％，EfficientNet-B7取得了最佳的分类准确率99.4％；而对于窄角前房角，本发明所提供的HapcNet则能提供100％的最佳准确率，EfficientNet-B7只能提供次佳的准确率；对于闭角前房角，本发明所提供的HapcNet仍能取得最佳的分类准确率。综上所述，本发明所提供的HapcNet相比其它深度学习模型在前房角数据集分类上具有优势。

实施例2、

一种图像分类方法，包括：将待分类的图像输入到采用实施例1所提供的图像分类模型的构建方法所构建的图像分类模型中，得到分类结果。优选地，在将待分类的图像输入到图像分类模型之前，先对待分类的图像进行尺度缩放以提高计算效率。

相关技术方案同实施例1，这里不做赘述。

实施例3、

一种机器可读存储介质，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现实施例1所提供的图像分类模型的构建方法和/或实施例2所提供的图像分类方法。

相关技术特征同实施例1和实施例2，这里不做赘述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像分类模型的构建方法，其特征在于，包括以下步骤：

S1、搭建图像分类模型；图像分类模型包括：依次级联的卷积层、第一金字塔卷积单元、第二金字塔卷积单元、...、第n金字塔卷积单元、池化层和全连接层；所述卷积层用于提取输入图像的初始特征图，并输出至第一金字塔卷积单元；第i金字塔卷积单元用于采用数量为n-i+1的不同尺度的卷积核分别对当前输入到所述第i金字塔卷积单元的特征图进行进一步的特征提取后，依次对各尺度卷积核提取的特征图，将其与其前一级卷积核提取的融合特征图进行融合，得到各尺度卷积核提取的融合特征图，即一组含有不同尺度信息的特征图；将所述含有不同尺度信息的特征图与当前输入到所述第i金字塔卷积单元的特征图进行融合，得到包含多尺度信息的输出特征图；其中，i＝1,2,…,n；对于各尺度卷积核，其尺度大于其前一级卷积核的尺度；

S2、将按照预设分类任务采集的训练集输入到所述图像分类模型中进行训练，得到训练好的图像分类模型；

其中，将在所述第i金字塔卷积单元中采用第block尺度的卷积核提取的特征图记为F_i ^block，block＝1,…,n-i+1；对于所述第i金字塔卷积单元，当i＝1,2,…,n-1时，将特征图F_i ²与特征图F_i ¹进行融合得到第二尺度卷积核提取的融合特征图

从block＝3开始，依次将特征图F_i ^block与第block-1尺度卷积核提取的融合特征图

进行融合得到第block尺度卷积核提取的融合特征图

进行拼接操作后与当前输入到所述第i金字塔卷积单元的特征图进行融合，得到包含多尺度信息的输出特征图，并输出至第i+1金字塔卷积单元；当i＝n时，对当前输入到所述第i金字塔卷积单元的特征图进行卷积操作后与当前输入到第i金字塔卷积单元的特征图进行融合，得到包含多尺度信息的输出特征图，并输出至所述池化层进行池化操作后经过所述全连接层得到分类结果；

在所述第i金字塔卷积单元中，将特征图A与特征图B或融合特征图B进行融合的具体方式为：对A进行卷积操作后与B进行组合；其中，与B进行组合的方式包括逐像素叠加操作或拼接操作或拼接后再进行卷积的操作；

所述对各融合特征图

进行拼接操作后与当前输入到所述第i金字塔卷积单元的特征图进行融合的具体方式为：将各融合特征图

按通道进行拼接，并通过卷积方式来改变拼接后的特征图的特征通道数量，使其与当前输入到所述第i金字塔卷积单元的特征图的通道数量保持一致，然后将其与当前输入到所述第i金字塔卷积单元的特征图逐像素进行叠加求和，得到包含多尺度信息的输出特征图；

所述第i金字塔卷积单元的输出端还连接到所述第i金字塔卷积单元的输入端；

所述第i金字塔卷积单元还用于在将所述包含多尺度信息的输出特征图输出至下一金字塔卷积单元或所述池化层之前，将所述包含多尺度信息的输出特征图重新输入至所述第i金字塔卷积单元，以对所述包含多尺度信息的输出特征图进一步提取特征；重复多次后，将结果输出至下一金字塔卷积单元或所述池化层；

所述图像分类模型还包括：混合注意力模块；所述混合注意力模块有n个，当i＝1,2,…,n-1时，第i混合注意力模块位于所述第i金字塔卷积单元和第i+1金字塔卷积单元之间；当i＝n时，第i混合注意力模块位于所述第i金字塔卷积单元与所述池化层之间；

所述混合注意力模块包括级联或并联的空间注意力网络和通道注意力网络，以对金字塔卷积单元输入的包含多尺度信息的输出特征图在空间和通道维度上进行筛选，得到特征图F_sa，从而抑制冗余的背景信息；

所述第i混合注意力模块的输出端还连接到所述第i金字塔卷积单元的输入端；

所述第i混合注意力模块还用于将所述特征图F_sa重新输入至所述第i金字塔卷积单元，以对所述特征图F_sa进一步提取特征；重复多次后，将结果输出至下一金字塔卷积单元或所述池化层；

所述通道注意力网络用于对输入的特征图按通道进行全局平均池化操作来提取各通道上的全局空间信息；然后通过权值共享的一维卷积核分别对各通道上的全局空间信息的通道权重进行学习，并将学习到的各通道权重分别作用于所述输入的特征图中所对应的通道上，以对特征信息进行通道维度上的筛选；

所述通道注意力网络中卷积核的尺寸k_1D与所述输入的特征图的特征通道数量C_1D满足：

其中，γ和b均为学习参数，|e|_odd表示离e最近的奇数。

2.根据权利要求1所述的图像分类模型的构建方法，其特征在于，所述输入图像为对所述训练集中原始样本图像进行尺度缩放后的图像。

3.一种图像分类方法，其特征在于，包括：将待分类的图像输入到采用权利要求1或2所述的图像分类模型的构建方法所构建的图像分类模型中，得到分类结果。

4.一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现权利要求1或2所述的图像分类模型的构建方法和/或权利要求3所述的图像分类方法。