CN113781489B

CN113781489B - 一种息肉影像语义分割方法及装置

Info

Publication number: CN113781489B
Application number: CN202110981690.3A
Authority: CN
Inventors: 张子游; 应昕源; 方路平
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2024-03-29
Anticipated expiration: 2041-08-25
Also published as: CN113781489A

Abstract

本发明公开了一种息肉影像语义分割方法及装置。该装置包括采集模块、分割模块和显示模块。使用方法为：采集模块采集肠镜视频，转换为图像帧。分割模块对转换后的图像进行预处理，去除反光的部分，然后输入由编码器、中间层、解码器组成的Ext‑HarDNet网络，抛弃图像的浅层特征，提取深层特征对应的注意力特征，经过特征融合后进行双线性采样。得到的分割结果由显示模块展示。本方法可以克服主流的去反光方法导致的图片压缩、模块问题，使用低流量的HarDNet框架构建主干网络，可以提高速度，满足实时性。中间层可以加强全局特征联系。解码器的融合方法可以提升有效感受野的比例。最终实现对息肉图像的精准、快速分割。

Description

一种息肉影像语义分割方法及装置

技术领域

本发明属于图像处理技术领域，具体涉及一种息肉影像语义分割方法及装置。

背景技术

结直肠癌(CRC)是常见的消化道肿瘤之一，发病率仅次于肺癌和***癌。结肠镜下的息肉检测是结直肠癌的重要筛查方法，通过对可疑病变部位进行病理学活组织检查，使医生能够在结直肠息肉发展为结直肠癌之前将其切除。实时快速的肠镜人眼检测容易导致误诊、漏诊的发生，精细的反复排查检测又会增加患者的不适。因此，一种能够在早期发现所有潜在息肉的自动、精确的息肉分割方法对预防结直肠癌具有重要意义。

根据大肠的位置和特点，可以分为回盲部、升结肠、横结肠、降结肠、乙状结肠、直肠。除降结肠外，直肠、乙状结肠、横结肠、肝曲、升结肠以及回盲部本身即具有许多不平整的褶皱，导致不容易对息肉与正常凸起肉进行区分。其次由于肠镜与人体肠内粘液产生的反光，也会对息肉特征的判断产生极大的干扰。而且同一类型的息肉存在不同的大小、颜色与质地，息肉和周围粘膜的边界也较为模糊，缺乏精确分割所需的强烈对比度。这些影响都对息肉图像分割的精准分割都带来了很大的挑战。除此以外，在分割过程中，还需要注意：

1、与CT检测时可以针对同一张图片反复检测不同，由于息肉检测为肠镜下的实时检测，即视频检测，为了减少检测次数与检测时长，需要保证检测过程的高FPS，因此在设计语义分割网络时需要提高计算效率。

2、在分割过程中，错误标记为背景的息肉像素数目相比于被错误分割为息肉区域的背景像素数目更加重要，因为息肉语义分割的目的是提醒医生注意那些可能会被遗漏的息肉，并非要准确得到息肉的大小信息。同时，将正常凸起肉识别为息肉，只需要医生进一步检验、排查，所以未识别的错误样本中相比于识别错误的错误样本而言更加严重。因此相对于敏感度指标，可以相对牺牲精确度。

3、由于各医院医疗器械配备情况差异较大，医院内窥镜的款式与版本不尽相同。因此还要保证息肉分割网络模型具有一定的泛化能力。

发明内容

针对现有技术的不足，本发明提出了一种息肉影像语义分割方法及装置，采用分步掩模法去除图像的反光部分，基于HarDNet网络，引入External Attention，构建了级联式的编码器-解码器网络提取图像特征，通过PPM进行全局特征融合，提升感受野，实现对息肉影像的快速、精确分割。

一种息肉影像语义分割方法，该方法不能获得疾病诊断结果，且不以获得健康状况为直接目标，具体包括以下步骤：

步骤一、数据获取

将拍摄的肠镜视频转换为息肉图像，作为样本Image。制作样本Image对应的单通道标签Label。将样本Image与标签Label一一对应后，按比例划分为训练集和验证集。

作为优选，训练集和验证集的数据比例为4∶1。

步骤二、数据预处理

使用分步掩模法对训练集和验证集中的样本Image进行预处理：提取图像中的高亮区域，然后进行插值修复，将修复后的高亮区域与原图像中不反光的部分相或，得到去反光的样本Image。

所述分步掩模法具体包括以下步骤：

s2.1、设置阈值为200，对RGB三通道的Image图像进行二值化处理，提取高亮区域。再设置阈值为255，将RGB三通道的Image图像转化为单通道的灰度图像，得到掩模Mask。

s2.2、使用s2.1得到的掩模Mask对RGB三通道的Image图像进行步长为10的流体力学插值处理，得到插值修复图。

s2.3、对s2.2得到的插值修复图进行滤波核为25的大核中值滤波，并将滤波后的图像与掩模Mask相与，得到修复后的高亮区域。

s2.4、将s2.2得到的插值修复图与掩模Mask进行反相与，得到原图像中不反光的部分。

s2.5、将s2.3、s2.4得到的修复后的高亮区域、原图像中不反光的部分相或，然后进行滤波核为3的小核中值滤波，得到去反光的样本Image。

步骤三、网络构建

构建包括编码器、中间层、解码器的Ext-HarDNet网络。编码器基于HarDNet主干网络，提取输入数据的浅层特征和不同尺寸的深层特征，并将浅层特征丢弃、深层特征输入到中间层。中间层引入注意力机制，对不同尺寸的深层特征分别进行注意力特征图提取。解码器通过PPM和深层聚合上采样，对中间层提取的多张注意力特征图进行融合，将融合后的一张特征图进行双线性采样，输出分割结果。

s3.1、所述编码器用于提取得到不同尺寸的浅层特征和深层特征。编码器的结构依次为卷积层、最大池化层、HardBlock×8结构块、最大池化层、HardBlock×16结构块、HardBlock×16结构块、最大池化层、HardBlock×16结构块、最大池化层和HardBlock×4结构块。其中HardBlock×h结构块为HarDNet网络的主干部分，h为结构块中节点的个数。对于HardBlock×h结构块中的第l个节点，如果l能整除2^p，则第l个节点与第l-2^p个节点相连，其中0＜p≤h、l-2^p≥0。第l个节点的信道数为其中h_max是满足l整除以2^h的最大数，m为压缩因子。

作为优选，所述卷积层包括两个卷积核大小为3×3的卷积，步长依次为2和1。

作为优选，所述最大池化层的步长为2。

作为优选，压缩因子m的取值为1.7。

s3.2、中间层基于注意力提取机制，将s3.1提取的深层特征映射为Query矩阵，然后通过矩阵相乘计算Query矩阵与外部记忆矩阵的相似性。对相似性进行Softmax归一化后与外部记忆矩阵的权重相乘，得到深层特征对应的注意力特征图。

s3.3、解码器使用PPM对s3.2得到的注意力特征图进行不同尺度的自适应平均池化，然后通过深度卷积降低通道数。再使用深层聚合上采样进行拼接，最后通过双线性采样，输出得到的分割结果。

步骤四、网络训练优化

将经过步骤二预处理的训练集数据输入到步骤三构建的Ext-HarDNet网络中进行语义分割，网络通过训练集的样本Image和对应的标签Label训练网络模型参数，训练1个batch后，将预处理后验证集的样本Image输入到Ext-HarDNet网络中进行语义分割，将输出结果与对应的验证集标签Label进行计算，得到模型分割结果的指标，根据指标修改网络参数完善网络，从而完成模型的训练优化。

所述分割结果的指标包括：平均交并比(mIoU)、Dice系数、敏感度(Sens)、精确率(Prec)、F1值和帧率(FPS)。

步骤五、息肉图像分割

将待检测的肠镜视频转换为息肉图像，经过步骤二预处理后输入步骤四优化后的网络进行语义分割，得到分割后的息肉轮廓图像，该图像无法直接获得疾病诊断结果。

一种息肉影像语义分割装置，包括数据采集模块、语义分割模块和显示模块。其中数据采集模块用于采集肠镜视频并转换为息肉图像后传输到语义分割模块。语义分割模块内置了训练优化后的Ext-HarDNet网络，用于完成息肉图像的分割并将分割结果传输给显示模块。显示模块用于显示分割结果。

本发明具有以下有益效果：

采用分步掩膜法对图像进行去反光预处理，能够消除目前主流方法直接利用中值滤波消除图像反光带来的图像压缩模糊问题；通过低流量内存，高推理速度的谐波连接网络HarDNet、线性层输入External Attention，在有效提高息肉分割精度的前提下，保证了较高的FPS；采取部分级联PPM以及深层聚集上采样的方式，对于深层网络进行更多的关注计算，融合了全局特征信息，提升了有效感受野。最终实现对息肉影像的精准、快速的语义分割。

附图说明

图1为语义分割方法的流程图；

图2为Ext-HarDNet网络结构示意图；

图3为编码器中HardBlock×n结构块的示意图；

图4为解码器中PPM的结构示意图；

具体实施方式

以下结合附图对本发明作进一步的解释说明；

一种息肉影像语义分割装置，包括数据采集模块、语义分割模块和显示模块。其中数据采集模块用于采集肠镜视频并转换为息肉图像后传输到语义分割模块。语义分割模块内置了训练优化后的Ext-HarDNet网络，用于完成息肉图像的分割并将分割结果传输给显示模块。显示模块用于显示分割结果。其中语义分割模块使用的硬件为树莓派4b，运行的软件环境为Pytorch1.6，CuDA10.2。

如图1所示，一种息肉影像语义分割方法，具体包括以下步骤：

步骤一、数据获取

将拍摄的肠镜视频转换为息肉图像，作为样本Image。制作样本Image对应的单通道标签Label。将样本Image与标签Label一一对应后，按4∶1的比例划分为训练集和验证集。

步骤二、数据预处理

使用分步掩模法对训练集和验证集中的样本Image进行预处理，具体步骤为：

步骤三、网络构建

构建如图2所示包括编码器、中间层、解码器的Ext-HarDNet网络。

编码器的主干网络为HarDNet。HarDNet架构是一种为了平衡模型大小与性能而设计的低流量内存网络。为达到网络低内存流量、低推理延迟、小模型尺寸的要求，设计出的一种谐波密集连接网络。在连接策略方面，它是对DenseNet的一种稀疏化，避免了频繁的数据交换。在通道数方面，它平衡了关键层的输入与输出的通道比以避免过低CIO(Convolutional Input/Output)，有效提高了推理速度。

中间层引入了外部注意力机制。ExternalAttention是一种非卷积运算的注意力算法。卷积网络的语义表征能力受限于卷积核，卷积核通常是局部的，即使随着网络的深入后期计算感受野越来越大，但实际感受野终究还是局部区域的运算。因此利用NLP(NaturalLanguage Processing)领域的注意力机制捕捉某一像素点和其他所有位置，包括较远位置的像素点之间的关系，来构建全局的信息以获得更大的感受野和上下文信息。但由于每一个点都要捕捉全局的上下文信息，会增加自注意力机制模块的计算复杂度和显存容量。这不符合息肉图像分割过程中对实时性要求。因此将注意力机制中的Query和Key作为两个线性层输入并归一化，将二次复杂度降低为线性复杂度，隐式考虑了不同样本之间的相关性。

解码器使用了PPM和深层聚合上采样操作。PPM(Pyramid Pooling Module)是用于聚合不同区域的上下文信息的金字塔池化模块，可以增强神经网络的感受野。实验表明有效感受野占理论感受野的比例随着网络加深而减少。因此，虽然目前CNN网络都比较深，输出层有足够的理论感受野来表征不同尺度的目标，但有效感受野的比例仍需进一步增加。同时，理论感受野的大小由网络结构决定，网络训练只能改善有效感受野，意味着需要充分考虑上下文信息以表征全局特征。使用PPM可以充分挖掘边界线索，建立起息肉的区域和边界之间即深层特征图与浅层特征图的关系。充分解决了网络无法有效融合全局特征信息的问题。

s3.1、所述编码器用于提取得到不同尺寸的浅层特征和深层特征，包括卷积层、最大池化层以及HardBlock×h结构块。其中HardBlock×h结构块为HarDNet网络的主干部分，h为结构块中节点的个数。对于HardBlock×h结构块中的第l个节点，如果l能整除2^p，则第l个节点与第l-2^p个节点相连，其中0＜p≤h、l-2^p≥0。设置第l个节点的初始增长率为k，信道数为其中h_max是满足l整除以2^h的最大数，m为压缩因子。当m＝2时，每个节点间的信道比为1∶1。当m＜2时，将对输入通道数进行压缩，减少通道数量。在衡量分割精度和参数效率的基础上，设置压缩因子m＝1.7。

s3.1.1、将步骤二得到的去反光的样本Image依次进行步长为2、卷积核为3×3的卷积，步长为1、卷积核为3×3的卷积和步长为2的最大池化，得到初步下采样的特征图。

s3.1.2、将初步下采样的特征图输入到如图3所示的HardBlock×8结构块后再进行步长为2的最大池化，得到通道数为128、尺寸为88×88的浅层特征图f1。

s3.1.3、将浅层特征图f1输入到HardBlock×16结构块进一步压缩，得到通道数为256、尺寸为88×88的浅层特征图f2。

s3.1.4、将浅层特征图f2输入到HardBlock×16结构块后再进行步长为2的最大池化，得到通道数为320、尺寸为44×44的深层特征图f3。

s3.1.5、将深层特征图f3输入到HardBlock×16结构块后再进行步长为2的最大池化，得到通道数为640、尺寸为22×22的深层特征图f4。

s3.1.6、将深层特征图f5输入到HardBlock×4结构块进一步压缩，得到通道数为1024、尺寸为11×11的深层特征图f5。

s3.2、所述中间层计算得到s3.1提取的深层特征对应的注意力特征图。

s3.2.1、将s3.1得到的深层特征图f3、f4、f5分别线性映射为Query矩阵Q₃，Q₄，Q₅。

s3.2.2、随机初始化外部记忆矩阵M_kn∈S_n×d，n＝3、4、5；其中S_n是外部记忆矩阵M_kn的像素个数，d是特征维度。通过矩阵相乘计算Query矩阵Q_n与对应的外部记忆矩阵M_kn的相似性A_n，然后对相似性A_n进行Softmax归一化，用于表示深层特征中第i个像素与外部记忆矩阵中第j个像素之间的关系：

s3.2.3、将s3.2.2中归一化后的相似性A_n与外部记忆矩阵M_kn的权重M_vn进行矩阵相乘，得到深层特征fn对应的注意力特征图F_outn：

F_outn＝A_nM_vn

其中注意力特征图F_out3、F_out4、F_out5的尺寸大小分别为：44×44、22×22、11×11，通道数分别为320、640和1024。

s3.3、所述解码器对s3.2得到的多张注意力特征图进行融合与双线性采样，输出分割结果。

s3.3.1、将s3.2得到的注意力特征图F_out3输入到如图4所示的PPM模块中进行目标尺寸大小为1×1，2×2，3×3，6×6的自适应平均池化，然后再通过大小为1×1深度卷积，得到尺寸不变，通道数降为80的特征图。

s3.3.2、将4个不同尺寸的特征图同时利用双线性差值进行上采样，还原至大小为44×44，并与注意力特征图F_out3进行拼接，得到尺寸为44×44，通道数为640的特征图，再通过大小为1×1深度卷积，得到尺寸不变，通道数降为44的特征图P_out3。

s3.3.3、分别对注意力特征图F_out4和F_out5进行s3.3.1、s3.3.2的操作，在对注意力特征图F_out4和F_out5进行双线性差值上采样时，目标尺寸分别为22×22，11×11；1×1深度卷积的目标通道数不变，得到通道数为44，尺寸分别为22×22，11×11的特征图P_out4、P_out5。

s3.3.4、分别对特征图P_out4、P_out5进行尺度为2、4的上采样后，与P_out3相乘，得到特征图Node-f3-1。对特征图P_out5进行尺度为2的上采样后，与P_out4相乘，得到特征图Node-f4-1。

s3.3.5、将特征图P_out3作为特征图Node-f5-1，进行尺度为2的上采样后，与特征图Node-f4-1相乘，得到特征图Node-f4-2。

s3.3.6、将特征图Node-f4-2进行尺度为2的上采样后，与特征图Node-f3-1相乘，得到特征图Node-f3-2，对特征图Node-f3-2进行双线性采样，输出分割结果。

步骤四、网络训练优化

将经过步骤二预处理的训练集数据输入到步骤三构建的Ext-HarDNet网络中进行语义分割，网络通过训练集的样本Image和对应的标签Label训练网络模型参数，训练1个batch后，将预处理后验证集的样本Image输入到Ext-HarDNet网络中进行语义分割，将输出结果与对应的验证集标签Label进行计算，得到模型分割结果的6项指标mDice、mIoU、wfm、MAE、maxEm、FPS的数值，根据指标修改网络参数，完成网络的优化。

步骤五、息肉图像分割

将待检测的肠镜视频转换为息肉图像，经过步骤二预处理后输入步骤四优化后的网络进行语义分割，得到分割后的息肉轮廓图像。

Claims

1.一种息肉影像语义分割方法，其特征在于：具体包括以下步骤：

步骤一、数据获取

将拍摄的肠镜视频转换为息肉图像，作为样本Image；制作样本Image对应的单通道标签Label；将样本Image与标签Label一一对应后，按比例划分为训练集和验证集；

步骤二、数据预处理

使用分步掩模法对训练集和验证集中的样本Image进行预处理：提取图像中的高亮区域，然后进行插值修复，将修复后的高亮区域与原图像中不反光的部分相或，得到去反光的样本Image；

步骤三、网络构建

构建包括编码器、中间层、解码器的Ext-HarDNet网络；编码器基于HarDNet主干网络，提取输入数据的浅层特征和不同尺寸的深层特征，并将浅层特征丢弃、深层特征输入到中间层；中间层引入注意力机制，对不同尺寸的深层特征分别进行注意力特征图提取；解码器通过PPM和深层聚合上采样，对中间层提取的多张注意力特征图进行融合，将融合后的一张特征图进行双线性采样，输出分割结果；

所述编码器用于提取得到不同尺寸的浅层特征和深层特征；编码器的结构依次为卷积层、最大池化层、HardBlock×8结构块、最大池化层、HardBlock×16结构块、HardBlock×16结构块、最大池化层、HardBlock×16结构块、最大池化层和HardBlock×4结构块；其中HardBlock×h结构块为HarDNet网络的主干部分，h为结构块中节点的个数；编码器对于HardBlock×h结构块中的第l个节点，如果l能整除2^p，则第l个节点与第l-2^p个节点相连，其中0<p≤h、l-2^p≥0；第l个节点的信道数为其中h_max是满足l整除以2^h的最大数，m为压缩因子，k为第l个节点的初始增长率；

使用编码器提取不同尺寸的浅层特征和深层特征的方法为：

s3.1.1、将步骤二得到的去反光的样本Image依次进行步长为2、卷积核为3×3的卷积，步长为1、卷积核为3×3的卷积和步长为2的最大池化，得到初步下采样的特征图；

s3.1.2、将初步下采样的特征图输入到HardBlock×8结构块后再进行步长为2的最大池化，得到通道数为128、尺寸为88×88的浅层特征图f1；

s3.1.3、将浅层特征图f1输入到HardBlock×16结构块进一步压缩，得到通道数为256、尺寸为88×88的浅层特征图f2；

s3.1.4、将浅层特征图f2输入到HardBlock×16结构块后再进行步长为2的最大池化，得到通道数为320、尺寸为44×44的深层特征图f3；

s3.1.5、将深层特征图f3输入到HardBlock×16结构块后再进行步长为2的最大池化，得到通道数为640、尺寸为22×22的深层特征图f4；

s3.1.6、将深层特征图f4输入到HardBlock×4结构块进一步压缩，得到通道数为1024、尺寸为11×11的深层特征图f5；

使用中间层得到注意力特征图的方法为：

s3.2.1、将得到的深层特征图f3、f4、f5分别线性映射为Query矩阵Q₃，Q₄，Q₅；

s3.2.2、随机初始化外部记忆矩阵M_kn∈S_n×d，n＝3、4、5；其中S_n是外部记忆矩阵M_kn的像素个数，d是特征维度；通过矩阵相乘计算Query矩阵Q_n与对应的外部记忆矩阵M_kn的相似性A_n，然后对相似性A_n进行Softmax归一化，用于表示深层特征中第i个像素与外部记忆矩阵中第j个像素之间的关系：

F_outn＝A_nM_vn

其中注意力特征图F_out3、F_out4、F_out5的尺寸大小分别为：44×44、22×22、11×11，通道数分别为320、640和1024；

步骤四、网络训练优化

将经过步骤二预处理的训练集数据输入到步骤三构建的Ext-HarDNet网络中进行语义分割，网络通过训练集的样本Image和对应的标签Label训练网络模型参数，训练1个batch后，将预处理后验证集的样本Image输入到Ext-HarDNet网络中进行语义分割，将输出结果与对应的验证集标签Label进行计算，得到模型分割结果的指标，根据指标修改网络参数完善网络，从而完成模型的训练优化；

步骤五、息肉图像分割

2.如权利要求1所述一种息肉影像语义分割方法，其特征在于：训练集和验证集的数据比例为4∶1。

3.如权利要求1所述一种息肉影像语义分割方法，其特征在于：所述分步掩模法具体包括以下步骤：

s2.1、设置阈值为200，对RGB三通道的Image图像进行二值化处理，提取高亮区域；再设置阈值为255，将RGB三通道的Image图像转化为单通道的灰度图像，得到掩模Mask；

s2.2、使用s2.1得到的掩模Mask对RGB三通道的Image图像进行步长为10的流体力学插值处理，得到插值修复图；

s2.3、对s2.2得到的插值修复图进行滤波核为25的大核中值滤波，并将滤波后的图像与掩模Mask相与，得到修复后的高亮区域；

s2.4、将s2.2得到的插值修复图与掩模Mask进行反相与，得到原图像中不反光的部分；

4.如权利要求1所述一种息肉影像语义分割方法，其特征在于：HardBlock×h结构块中，节点通道数的压缩因子m＝1.7。

5.如权利要求1所述一种息肉影像语义分割方法，其特征在于：

s3.3.1、将步骤三中得到的注意力特征图F_out3输入到PPM3中进行目标尺寸大小为1×1，2×2，3×3，6×6的自适应平均池化，然后再通过大小为1×1深度卷积，得到尺寸不变，通道数降为80的特征图；

s3.3.2、将4个不同尺寸的特征图同时利用双线性差值进行上采样，还原至大小为44×44，并与注意力特征图F_out3进行拼接，得到尺寸为44×44，通道数为640的特征图，再通过大小为1×1深度卷积，得到尺寸不变，通道数降为44的特征图P_out3；

s3.3.3、分别对注意力特征图F_out4和F_out5进行s3.3.1、s3.3.2的操作，在对注意力特征图F_out4和F_out5进行双线性差值上采样时，目标尺寸分别为22×22，11×11；1×1深度卷积的目标通道数不变，得到通道数为44，尺寸分别为22×22，11×11的特征图P_out4、P_out5；

s3.3.4、分别对特征图P_out4、P_out5进行尺度为2、4的上采样后，与P_out3相乘，得到特征图Node-f3-1；对特征图P_out5进行尺度为2的上采样后，与P_out4相乘，得到特征图Node-f4-1；

s3.3.5、将特征图P_out3作为特征图Node-f5-1，进行尺度为2的上采样后，与特征图Node-f4-1相乘，得到特征图Node-f4-2；

6.如权利要求1所述一种息肉影像语义分割方法，其特征在于：网络训练优化过程中使用的指标包括mDice、mIoU、wfm、MAE、maxEm和FPS。

7.一种息肉影像语义分割装置，其特征在于：包括数据采集模块、语义分割模块和显示模块；其中数据采集模块用于采集肠镜视频并转换为息肉图像后传输到语义分割模块；语义分割模块用于完成息肉图像的分割并将分割结果传输给显示模块；显示模块用于显示分割结果；

该装置的使用方法包括以下步骤：

步骤一、数据获取

步骤二、数据预处理

步骤三、网络构建

使用编码器提取不同尺寸的浅层特征和深层特征的方法为：

使用中间层得到注意力特征图的方法为：

F_outn＝A_nM_vn

步骤四、网络训练优化

步骤五、息肉图像分割