CN114170422A

CN114170422A - 一种煤矿井下图像语义分割方法

Info

Publication number: CN114170422A
Application number: CN202111248280.4A
Authority: CN
Inventors: 程健; 肖洪飞; 闫鹏鹏; 李�昊; 李和平; 王广福
Original assignee: China Coal Research Institute CCRI
Current assignee: China Coal Research Institute CCRI
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-03-11

Abstract

本发明公开了一种煤矿井下图像语义分割方法，属于计算机视觉领域。首先对采集到的井下场景图像进行预处理生成数据集；然后构建以ResNet‑101为骨架的特征提取网络，并在网络各阶段输入使用不同尺度图像来增强所提取的特征；接着构建融合注意力模块融合各阶段特征，并利用全局注意力模块增强全局信息，获取远程依赖关系；最后将得到的特征输入分类器生成语义图，完成对图像的语义分割。本方法计算量和复杂度大大降低，针对场景复杂采用注意力机制，突出了目标区域的语义信息，改善了图像分割效果。

Description

一种煤矿井下图像语义分割方法

技术领域

本发明涉及一种图像语义分割方法，尤其适用于煤矿井下使用的一种煤矿井下图像语义分割方法，属于计算机视觉领域。

背景技术

研究井下隧道视觉场景的结构化特征和恢复方法对于井下复杂场景的广场结构化分析具有重要意义。针对煤矿井下场景中强光直射、暗光、粉尘、水雾和烟雾造成的复杂环境，研究井下特征分析方法。传统的图像分析方法主要有：Lucas-Kanade算法、匹配法、能量法、相位法等，在井下复杂场景中，光照条件的突然变化会引起亮度随时改变，在狭小场景中发生的小运动也可能会引起位置的较大变化。传统方法很容易在井下复杂场景下产生错误结果。因此有待研究井下复杂场景的分析方法。

对于井下复杂场景分析中遇到的光照突变、阴影、位置偏移等问题，基于深度学习的图像分割理论的语义分析方法可以很好的解决，深度学习的图像分割模型能够以极高的精度逼近非线性模型。但是针对结构化场景的研究多集中于建筑物的室内场景，暂未有在煤矿井下隧道场景下进行的相关工作。因此，结合煤矿巷道长宽比大的特点，同时为了保证分割的准确率和速度，本发明提出了一种多级特征融合图像分割理论的语义分析方法。在其他场景的图像分割任务，前人做了大量的工作。

专利(秦应化,徐怡.基于分割网络的频域空间结合的玻璃缺陷检测方法[P].江苏省：CN112686896B,2021-07-06.)通过频域结合空间分析处理图像，得到图像的频率特征，然后对处理后的图像进行反卷积处理，提取图像中的高维特征作为特征点，采用卷积神经网络对待检测图像中的所述特征点进行分割训练，得出检测结果。专利(余双,冀炜,马锴,郑冶枫.图像分割方法、装置、计算机设备及存储介质[P].广东省：CN112598686B,2021-06-04.)利用先验知识向量对图像编码得到目标特征图，然后再解码，得到第一分割图，然后根据先验知识向量重构第一分割图得到多个标注分割图像，基于此对目标特征图处理得到第二分割图，使其融入多个标注结果，提高了图像分割的准确性。专利(唐韵玮,荆林海,陈富龙,万昊明,刘艳祯.基于地表要素的遥感图像信息精细提取方法[P].北京市：CN112434685B,2021-05-28.)统计遥感图像内部光谱直方图作为第一分类特征，使用曲线匹配算法对遥感图像进行监督分类，根据初步结果，提取与相邻的图像目标间的空间关联性，作为第二特征，结合光谱直方图和空间关联性，再次使用曲线匹配算法对图像进行分割。专利(韩静,陈霄宇,李端阳,张权,滕之杰,魏驰恒,李怡然.一种基于类别原型回归的红外道路场景分割方法[P].江苏省：CN112381101B,2021-05-28.)对数据集使用类别原型回归得到类别原型特征，聚类网络深度特征，使全局类别特征更加紧密，放大各类别间的差异性，相应构建关系矩阵和注意力模块，使整体特征更加紧密，提升最终的图像分割精度。专利(何金龙.图像分割方法和装置[P].北京市：CN112101369B,2021-02-05.)利用图像中的两个目标区域之间的逻辑关系以及各自的顶点的位置信息，其中，所述两个目标区域至少部分重合，根据两个目标区域各自的顶点的位置信息，确定所述两个目标区域各自的边界之间的交点的位置信息，根据所述交点的位置信息和所述逻辑关系，从所述待处理图像中分割出所述两个不同的对象。文献(Chen C,Deng J,N Lv.Illegal ConstructionsDetection in Remote Sensing Images based on Multi-scale Semantic Segmentation[C]//2020IEEE International Conference on Smart Internet ofThings(SmartIoT).IEEE,2020.)采用多尺度并联结构代替传统多层卷积层，基于此提出了新的编码解码结构的语义分割网络，还使用了条件随机场来约束分割结果，使网络分割精度更高。文献(ZhangF,Chen Y,Li Z,et al.ACFNet:Attentional Class Feature Network for SemanticSegmentation[C]//International Conference on Computer Vision(ICCV),IEEE,2019.)提出了类中心的概念，它从分类的角度提取全局上下文。这个类级上下文描述了图像中每个类的整体表示。进而提出注意类特征模块，根据每个像素计算和自适应组合不同的类中心，由此提出一个由粗到细的注意类特征分割网络。以此来提高图像分割的准确率。

发明内容

针对现有技术的不足之处，提供一种煤矿井下图像语义分割方法，其步骤简单分割效果好，对场景特征描述的鲁棒性强。

为了解决现有技术的不足之处，本发明煤矿井下图像语义分割方法，其步骤如下：

步骤1、采集井下图片，对图片数据进行标注预处理，将标注预处理的图片数据分为训练样本与测试样本数据集。

步骤2、将训练样本数据集输入特征提取网络提取输入图片特征，特征提取网络包括改进的ResNet-101网络，改进的ResNet-101网络结构删除了常规ResNet-101网络中第四和第五阶段的下采样操作，保留第四和第五阶段的其他内容；

步骤3、在改进的ResNet-101网络的第四阶段通过多尺度输入同时输入第三阶段输出的特征图以及额外输入特征图，输出低级特征图；第五阶段通过多尺度输入同时输入第四阶段输出的特征图以及额外输入特征图，输出高级特征图；所述额外输入特征图为输入图片通过残差单元处理后获得，额外输入特征图通过压缩原始输入图片使其与前一阶段输出特征图大小相同获得；

步骤4、在改进的ResNet-101网络第五阶段后面构建融合注意力模块，利用融合注意力模块融合低级特征图和高级特征图，输出包含全局上下文语义信息的新的特征图；

步骤5、在融合注意力模块后面构建全局上下文增强模块，增强新的特征图的全局表示，从而获取特征图中各像素之间的远距离依赖关系，得到最终的融合特征图；

步骤6、将最终的融合特征图输入经过预训练的分类器中生成语义图，然后再利用测试样本数据集检测生成的语义图性能，检验特征提取网络的性能，性能达标即可用以对煤矿井下照片图像进行语义分割，若不达标则重新训练；

步骤7、使用训练好的特征提取网络对输入的煤矿井下图片进行煤矿井下图像语义分割。

所述步骤1)的具体过程为：

步骤11)采用井下防爆摄像机获取清晰图像。

步骤12)对所得到的图像人工进行语义分割标注，即将图像中的每个像素进行归类；图像中的不同区域彼此分割，各区域由语义信息所定义；

步骤13)按照4:1的比例将标注后的图像随机构建训练样本集与测试样本集。

所述的步骤2)的具体过程为：

步骤21)在原始ResNet-101网络的基础上改进，改进的ResNet-101网络共分为五个阶段，用来提取输入图像的特征，从而得到不同级别的输出特征图；

步骤22)在改进的ResNet-101网络的五个阶段中每个阶段都包含多个通道，且每个通道所包含信息对于语义分割的重要程度也不一样，所以在每个阶段添加通道注意力机制通道，通过为每个通道分配0-1权值表示不同通道的重要程度；

步骤23)为了丰富细节信息所以删除第四阶段和第五阶段的下采样操作，从而防止常规ResNet-101的第四和第五阶段特征图的感受野随着卷积、降采样的过程而逐渐增大而特征图中小目标的细节信息逐渐丢失；

步骤24)使用膨胀卷积来保存第四和第五阶段的输出特征图，使得第三、第四和第五阶段的特征图大小相同，均为输入图像的1/8大小。

所述的步骤3)的具体过程为：

步骤31)由于感受野随着卷积、降采样的过程而逐渐增大，小目标的细节信息逐渐丢失，为了得到更多的细节信息，采用多尺度输入，在改进的ResNet-101网络第四和第五阶段的输入端分别增加分别添加基础残差单元，将额外的1/8大小的输入图像直接输入到基础残差单元得到第四和第五阶段额外输入特征图，此步骤所得到的额外输入特征图经过一次特征提取，为低层次特征图，在改进的ResNet-101网络中，除第一阶段外的每阶段的输入图像均为上一个阶段的输出特征图，第四和第五阶段的输入是高层次特征图，所包含的细节信息少于低层次特征图；

步骤32)将第四和第五阶段通过基础残差单元处理后的额外输入特征图分别与正常第四和第五阶段输入特征图融合，充分利用浅层特征图从而丰富小目标在深层特征图中的信息；

步骤33)利用多尺度输入来增强输入图像1/8大小的特征图，其中多尺度输入的过程为：假设ResNet-101网络在第i阶段包含L_i层卷积，那么第j层卷积就可以被定义为y_j＝M_j(x_j)，其中y_j为第j层的输出张量，M_j包含卷积、ReLU激活函数和正则化操作，第i阶段的输入图片x_i的尺寸为(N,H_j,W_j,W_j)，N表示批次大小，H_i和W_i表示输入特征图的高度和宽度，C_i为通道数；第i阶段的输出特征图F_i可表示为：

步骤34)I_i表示第i阶段的额外输入，其分辨率与第i-1阶段的输出张量相同，其经过特征提取后的特征图为：

步骤35)第i阶段的融合输入表示为：

式中，F_i表示第i阶段的输出张量，

表示通道拼接操作；

步骤36)其中第五阶段输出高级特征图χ_h，第四阶段低级特征图χ_l。

所述的步骤4)的具体过程为：

步骤41)构建融合注意力模块：融合注意力模块包含两个输入，来自步骤36)第五阶段输出的高级特征图

和第四阶段输出的低级特征图

H_h×W_h是高级特征图χ_h的空间位置的数量，H_l×W_l是低级特征图χ_l的空间位置的数量；C_h和C_l分别是高级特征图χ_h和低级特征图χ_l的通道数，1×1卷积W_θ用于将低级特征图χ_l的特征转换为

其中

是转换后的特征的通道数，R为实数，ε_l为低级特征图χ_l特征转换后的结果，如式(4)所示：

ε_l＝W_θ(χ_l) (4)

步骤42)将特征转换结果ε_l经过softmax函数正则化后得到f(ε_l)；

步骤43)采用瓶颈特征转换处理f(ε_l)，获取通道依赖关系，1×1卷积W_γ1和W_γ2将用于χ_h的特征转换得到注意力输出结果

结果如式(5)：

O_F＝W_γ2ReLU(LN(W_γ1(f(ε_l))))₁(f(ε_l)))) (5)

输出O_F反映了χ_l对χ_h的补偿，这些补偿是从χ_l的所有位置中挑选出来的，

步骤44)最后输出的融合特征图Y_F为：

Y_F＝cat(O_F，χ_h) (6)。

所述的步骤5)的具体过程为：

步骤51)在ResNet-101网络第五阶段后面构建全局注意力模块，获取对语义分割至关重要的远距离依赖关系，设输入特征X∈R^C×H×W，C，H，W分别为通道数、空间高度和宽度，1×1卷积W_θ用来转换特征X：

θ＝W_θ(X) (7)

其中

是转换后的特征的通道数；

步骤52)经过softmax函数正则化之后得到相似矩阵

步骤53)注意力模块的输出由1×1卷积W_γ1和W_γ2以及中间的归一化和ReLU函数来计算，其结果如式(8)：

步骤54)最后的输出特征图Y_G∈R^C×H×W的表达式为：

Y_G＝cat(O_G，X) (9)。

所述的步骤6)的具体过程为：

步骤61)将步骤5)得到的最后的输出融合特征图Y_G输入分类器中，生成通道语义分割特征图；

步骤62)将生成的特征图与步骤1)中标注的真实标签图像对比，用来监督特征提取网络参数的训练，从而得到训练好的网络模型；将步骤1)得到的测试样本数据集作为输入图像输入训练好的网络模型，检验网络模型的性能；

步骤63)加载训练好的模型参数，对下一批来自井下拍摄的照片进行场景语义分析。

有益效果：

本发明针对煤矿井下图像中场景复杂采用注意力机制，突出了目标区域的语义信息，改善了图像分割效果，相较于其他分割方法，兼顾了图像分割的准确度和速度，使得鲁棒性更好。

本方法通过构建多尺度输入网络，增强所提取的特征；构建融合注意力模块，融合所提取的各阶段特征；同时构建全局注意力模块来增强全局信息，获取远程依赖关系；最后，使用分类器用来生成语义图，完成对图像的语义分割，保证了分割的准确度，提高了算法的鲁棒性。

附图说明：

图1是本发明煤矿井下图像语义分割方法的基本残差网络单元示意图。

图2是本发明煤矿井下图像语义分割方法的注意力融合模块示意图。

图3是本发明煤矿井下图像语义分割方法的全局注意力模块示意图。

图4是本发明中多特征融合图像分割方法的网络框架示意图。

具体实施方式：

下面结合附图对本发明做进一步描述。

本发明的一种煤矿井下图像语义分割方法，使用井下防爆摄像机采集井下场景图片，然后进行预处理生成数据集；然后将数据集输入，选择特征提取网络对图片进行特征提取，构建多尺度输入模块，强化提取特征图；然后构建融合注意力模块，融合所提取的各阶段特征；构建全局注意力模块来增强全局信息，获取远程依赖关系；最后，使用分类器用来生成语义图，完成对图像的语义分割。本方法较其他语义分割方法的优势：算法的计算量和复杂度大大降低，针对场景复杂采用注意力机制，突出了目标区域的语义信息，改善了图像分割效果，算法的鲁棒性大大增强。

如图4所示，本发明的一种煤矿井下图像语义分割方法，步骤如下：

步骤1)采集井下图像，对图像数据进行标注预处理，并将标注预处理的图像数据分为训练样本与测试样本数据集。

具体过程为：

步骤11)采用井下防爆摄像机获取清晰图像。

步骤12)对所得到的图像进行语义分割标注，即将图像中的每个像素进行归类；图像中的不同区域彼此分割，各区域由语义信息所定义。

步骤2)将步骤1)所得到的训练样本数据集输入以ResNet-101为骨架的特征提取网络提取输入图像特征；删除ResNet-101中五个特征提取阶段的第四和第五阶段的下采样操作，保留第四和第五阶段的其他内容，使其特征图为输入图像的1/8的大小。

具体过程为：

步骤21)使用ResNet-101作为特征提取的骨架网络，ResNet-101共分为五个阶段，每个阶段都由基础残差单元(Residual Convolution Unit，RCU)构成，用来提取输入图像的特征，得到不同级别的输出特征图。

步骤22)在特征提取网络ResNet-101的五个阶段中每个阶段都包含多个通道，且每个通道所包含信息对于语义分割的重要程度也不一样，所以在每个阶段添加通道注意力机制通道，为每个通道分配0-1权值，表示不同通道的重要程度。

步骤23)删除第四阶段和第五阶段的下采样操作，现有的ResNet-101的第4和5阶段特征图的感受野随着卷积、降采样的过程而逐渐增大，小目标的细节信息逐渐丢失，为了丰富细节信息，在此步骤23)删除第四个第五阶段的下采样操作。

步骤24)使用膨胀卷积来保存第四和第五阶段的输出特征图，使得第三、第四和第五阶段的特征图大小相同，为1/8输入图像的大小。

步骤3)在删除了下采样操作的第四和第五阶段，采用多尺度输入来增强步骤2)中所提取的大小为输入图像特征图，并输出特征图。

具体过程为：

步骤31)感受野随着卷积、降采样的过程而逐渐增大，小目标的细节信息逐渐丢失，为了得到更多的细节信息，采用多尺度输入，将额外的输入图像输入基础残差单元(Residual Convolution Unit，RCU)得到第四和第五阶段额外输入特征图，基础残差单元结构如图1所示，此步骤所得到的额外输入特征图经过一次特征提取，为低层次特征图，在ResNet-101网络中，出第一阶段外的每阶段的输入图像均为上一个阶段的输出特征图，第四和第五阶段的输入是高层次特征图，所包含的细节信息相比较低层次特征图较少。

步骤32)将步骤31)得到的第四和第五阶段额外输入特征图分别与ResNet-101第四和第五阶段输入特征图融合，以便充分利用浅层特征图，来丰富小目标在深层特征图中的信息。

步骤33)多尺度输入的过程为：假设ResNet-101网络在第i阶段包含L_i层卷积，那么第j层卷积就可以被定义为y_j＝M_j(x_j)，其中y_j为第j层的输出张量，M_j包含卷积、ReLU激活函数和正则化操作，第i阶段的输入图片x_i的尺寸为(N,H_j,W_j,W_j)，N表示批次大小，H_i和W_i表示输入特征图的高度和宽度，C_i为通道数。第i阶段的输出特征图F_i可表示为：

步骤34)I_i表示第i阶段的额外输入，其分辨率与第i-1阶段的输出张量相同。其经过特征提取后的特征图为：

步骤35)第i阶段的融合输入可表示为：

式中，F_i表示第i阶段的输出张量，

表示通道拼接操作。

步骤36)第五阶段输出高级特征图χ_h，第四阶段低级特征图χ_l。

步骤4)构建融合注意力模块，融合步骤3)第四和第五阶段得到的大小为输入图像1/8的特征图，输出包含全局上下文语义信息的新的特征图，具体见图2所示；

具体过程为：

和第四阶段输出的低级特征图

其中

ε_l＝W_θ(χ_l) (4)

步骤42)将特征转换结果ε_l经过softmax函数正则化后得到f(ε_l)。

结果如式(5)：

O_F＝W_γ2ReLU(LN(W_γ1(f(ε_l)))) (5)

输出O_F反映了χ_l对χ_h的补偿，这些补偿是从χ_l的所有位置中挑选出来的。

步骤44)最后输出的融合特征图Y_F为：

Y_F＝cat(O_F，χ_h) (6)

步骤5)在ResNet-101网络第五阶段后面构建全局注意力模块，具体如图3所示，增强步骤4)获得的新的特征图的全局表示，获取不同级别特征之间的远程依赖关系，得到最终的融合特征图。

具体过程为：

步骤51)构建全局注意力增强块，获取对语义分割至关重要的远距离依赖关系，设输入特征X∈R^C×H×W，C，H，W分别为通道数、空间高度和宽度，1×1卷积W_θ用来转换特征X：

θ＝W_θ(X) (7)

其中

是转换后的特征的通道数。

步骤52)经过softmax函数正则化之后得到相似矩阵

步骤54)最后的输出特征图Y_G∈R^C×H×W可表示如下式：

Y_G＝cat(O_G，X) (9)

步骤6)将步骤5)得到的融合输出特征图输入经过预训练的分类器中，生成语义图。然后再将步骤1)得到的测试样本数据集输入训练好的网络中，检验网络的性能。

步骤61)将步骤5)得到的最后的输出融合特征图Y_G输入分类器中，生成通道语义分割特征图。

步骤62)将生成的特征图与步骤1)中标注的真实标签图像对比，用来监督网络模型参数的训练，从而得到训练好的网络模型；将步骤1)得到的测试样本数据集作为输入图像输入训练好的网络模型，检验网络模型的性能。

步骤63)加载步骤62)训练好的模型参数，对下一批来自井下拍摄的照片进行场景语义分析。