CN114170422A - 一种煤矿井下图像语义分割方法 - Google Patents

一种煤矿井下图像语义分割方法 Download PDF

Info

Publication number
CN114170422A
CN114170422A CN202111248280.4A CN202111248280A CN114170422A CN 114170422 A CN114170422 A CN 114170422A CN 202111248280 A CN202111248280 A CN 202111248280A CN 114170422 A CN114170422 A CN 114170422A
Authority
CN
China
Prior art keywords
feature
stage
input
image
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111248280.4A
Other languages
English (en)
Inventor
程健
肖洪飞
闫鹏鹏
李�昊
李和平
王广福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Coal Research Institute CCRI
Original Assignee
China Coal Research Institute CCRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Coal Research Institute CCRI filed Critical China Coal Research Institute CCRI
Priority to CN202111248280.4A priority Critical patent/CN114170422A/zh
Publication of CN114170422A publication Critical patent/CN114170422A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种煤矿井下图像语义分割方法,属于计算机视觉领域。首先对采集到的井下场景图像进行预处理生成数据集;然后构建以ResNet‑101为骨架的特征提取网络,并在网络各阶段输入使用不同尺度图像来增强所提取的特征;接着构建融合注意力模块融合各阶段特征,并利用全局注意力模块增强全局信息,获取远程依赖关系;最后将得到的特征输入分类器生成语义图,完成对图像的语义分割。本方法计算量和复杂度大大降低,针对场景复杂采用注意力机制,突出了目标区域的语义信息,改善了图像分割效果。

Description

一种煤矿井下图像语义分割方法
技术领域
本发明涉及一种图像语义分割方法,尤其适用于煤矿井下使用的一种煤矿井下图像语义分割方法,属于计算机视觉领域。
背景技术
研究井下隧道视觉场景的结构化特征和恢复方法对于井下复杂场景的广场结构化分析具有重要意义。针对煤矿井下场景中强光直射、暗光、粉尘、水雾和烟雾造成的复杂环境,研究井下特征分析方法。传统的图像分析方法主要有:Lucas-Kanade算法、匹配法、能量法、相位法等,在井下复杂场景中,光照条件的突然变化会引起亮度随时改变,在狭小场景中发生的小运动也可能会引起位置的较大变化。传统方法很容易在井下复杂场景下产生错误结果。因此有待研究井下复杂场景的分析方法。
对于井下复杂场景分析中遇到的光照突变、阴影、位置偏移等问题,基于深度学习的图像分割理论的语义分析方法可以很好的解决,深度学习的图像分割模型能够以极高的精度逼近非线性模型。但是针对结构化场景的研究多集中于建筑物的室内场景,暂未有在煤矿井下隧道场景下进行的相关工作。因此,结合煤矿巷道长宽比大的特点,同时为了保证分割的准确率和速度,本发明提出了一种多级特征融合图像分割理论的语义分析方法。在其他场景的图像分割任务,前人做了大量的工作。
专利(秦应化,徐怡.基于分割网络的频域空间结合的玻璃缺陷检测方法[P].江苏省:CN112686896B,2021-07-06.)通过频域结合空间分析处理图像,得到图像的频率特征,然后对处理后的图像进行反卷积处理,提取图像中的高维特征作为特征点,采用卷积神经网络对待检测图像中的所述特征点进行分割训练,得出检测结果。专利(余双,冀炜,马锴,郑冶枫.图像分割方法、装置、计算机设备及存储介质[P].广东省:CN112598686B,2021-06-04.)利用先验知识向量对图像编码得到目标特征图,然后再解码,得到第一分割图,然后根据先验知识向量重构第一分割图得到多个标注分割图像,基于此对目标特征图处理得到第二分割图,使其融入多个标注结果,提高了图像分割的准确性。专利(唐韵玮,荆林海,陈富龙,万昊明,刘艳祯.基于地表要素的遥感图像信息精细提取方法[P].北京市:CN112434685B,2021-05-28.)统计遥感图像内部光谱直方图作为第一分类特征,使用曲线匹配算法对遥感图像进行监督分类,根据初步结果,提取与相邻的图像目标间的空间关联性,作为第二特征,结合光谱直方图和空间关联性,再次使用曲线匹配算法对图像进行分割。专利(韩静,陈霄宇,李端阳,张权,滕之杰,魏驰恒,李怡然.一种基于类别原型回归的红外道路场景分割方法[P].江苏省:CN112381101B,2021-05-28.)对数据集使用类别原型回归得到类别原型特征,聚类网络深度特征,使全局类别特征更加紧密,放大各类别间的差异性,相应构建关系矩阵和注意力模块,使整体特征更加紧密,提升最终的图像分割精度。专利(何金龙.图像分割方法和装置[P].北京市:CN112101369B,2021-02-05.)利用图像中的两个目标区域之间的逻辑关系以及各自的顶点的位置信息,其中,所述两个目标区域至少部分重合,根据两个目标区域各自的顶点的位置信息,确定所述两个目标区域各自的边界之间的交点的位置信息,根据所述交点的位置信息和所述逻辑关系,从所述待处理图像中分割出所述两个不同的对象。文献(Chen C,Deng J,N Lv.Illegal ConstructionsDetection in Remote Sensing Images based on Multi-scale Semantic Segmentation[C]//2020IEEE International Conference on Smart Internet ofThings(SmartIoT).IEEE,2020.)采用多尺度并联结构代替传统多层卷积层,基于此提出了新的编码解码结构的语义分割网络,还使用了条件随机场来约束分割结果,使网络分割精度更高。文献(ZhangF,Chen Y,Li Z,et al.ACFNet:Attentional Class Feature Network for SemanticSegmentation[C]//International Conference on Computer Vision(ICCV),IEEE,2019.)提出了类中心的概念,它从分类的角度提取全局上下文。这个类级上下文描述了图像中每个类的整体表示。进而提出注意类特征模块,根据每个像素计算和自适应组合不同的类中心,由此提出一个由粗到细的注意类特征分割网络。以此来提高图像分割的准确率。
发明内容
针对现有技术的不足之处,提供一种煤矿井下图像语义分割方法,其步骤简单分割效果好,对场景特征描述的鲁棒性强。
为了解决现有技术的不足之处,本发明煤矿井下图像语义分割方法,其步骤如下:
步骤1、采集井下图片,对图片数据进行标注预处理,将标注预处理的图片数据分为训练样本与测试样本数据集。
步骤2、将训练样本数据集输入特征提取网络提取输入图片特征,特征提取网络包括改进的ResNet-101网络,改进的ResNet-101网络结构删除了常规ResNet-101网络中第四和第五阶段的下采样操作,保留第四和第五阶段的其他内容;
步骤3、在改进的ResNet-101网络的第四阶段通过多尺度输入同时输入第三阶段输出的特征图以及额外输入特征图,输出低级特征图;第五阶段通过多尺度输入同时输入第四阶段输出的特征图以及额外输入特征图,输出高级特征图;所述额外输入特征图为输入图片通过残差单元处理后获得,额外输入特征图通过压缩原始输入图片使其与前一阶段输出特征图大小相同获得;
步骤4、在改进的ResNet-101网络第五阶段后面构建融合注意力模块,利用融合注意力模块融合低级特征图和高级特征图,输出包含全局上下文语义信息的新的特征图;
步骤5、在融合注意力模块后面构建全局上下文增强模块,增强新的特征图的全局表示,从而获取特征图中各像素之间的远距离依赖关系,得到最终的融合特征图;
步骤6、将最终的融合特征图输入经过预训练的分类器中生成语义图,然后再利用测试样本数据集检测生成的语义图性能,检验特征提取网络的性能,性能达标即可用以对煤矿井下照片图像进行语义分割,若不达标则重新训练;
步骤7、使用训练好的特征提取网络对输入的煤矿井下图片进行煤矿井下图像语义分割。
所述步骤1)的具体过程为:
步骤11)采用井下防爆摄像机获取清晰图像。
步骤12)对所得到的图像人工进行语义分割标注,即将图像中的每个像素进行归类;图像中的不同区域彼此分割,各区域由语义信息所定义;
步骤13)按照4:1的比例将标注后的图像随机构建训练样本集与测试样本集。
所述的步骤2)的具体过程为:
步骤21)在原始ResNet-101网络的基础上改进,改进的ResNet-101网络共分为五个阶段,用来提取输入图像的特征,从而得到不同级别的输出特征图;
步骤22)在改进的ResNet-101网络的五个阶段中每个阶段都包含多个通道,且每个通道所包含信息对于语义分割的重要程度也不一样,所以在每个阶段添加通道注意力机制通道,通过为每个通道分配0-1权值表示不同通道的重要程度;
步骤23)为了丰富细节信息所以删除第四阶段和第五阶段的下采样操作,从而防止常规ResNet-101的第四和第五阶段特征图的感受野随着卷积、降采样的过程而逐渐增大而特征图中小目标的细节信息逐渐丢失;
步骤24)使用膨胀卷积来保存第四和第五阶段的输出特征图,使得第三、第四和第五阶段的特征图大小相同,均为输入图像的1/8大小。
所述的步骤3)的具体过程为:
步骤31)由于感受野随着卷积、降采样的过程而逐渐增大,小目标的细节信息逐渐丢失,为了得到更多的细节信息,采用多尺度输入,在改进的ResNet-101网络第四和第五阶段的输入端分别增加分别添加基础残差单元,将额外的1/8大小的输入图像直接输入到基础残差单元得到第四和第五阶段额外输入特征图,此步骤所得到的额外输入特征图经过一次特征提取,为低层次特征图,在改进的ResNet-101网络中,除第一阶段外的每阶段的输入图像均为上一个阶段的输出特征图,第四和第五阶段的输入是高层次特征图,所包含的细节信息少于低层次特征图;
步骤32)将第四和第五阶段通过基础残差单元处理后的额外输入特征图分别与正常第四和第五阶段输入特征图融合,充分利用浅层特征图从而丰富小目标在深层特征图中的信息;
步骤33)利用多尺度输入来增强输入图像1/8大小的特征图,其中多尺度输入的过程为:假设ResNet-101网络在第i阶段包含Li层卷积,那么第j层卷积就可以被定义为yj=Mj(xj),其中yj为第j层的输出张量,Mj包含卷积、ReLU激活函数和正则化操作,第i阶段的输入图片xi的尺寸为(N,Hj,Wj,Wj),N表示批次大小,Hi和Wi表示输入特征图的高度和宽度,Ci为通道数;第i阶段的输出特征图Fi可表示为:
Figure BDA0003321856200000051
步骤34)Ii表示第i阶段的额外输入,其分辨率与第i-1阶段的输出张量相同,其经过特征提取后的特征图为:
Figure BDA0003321856200000052
步骤35)第i阶段的融合输入表示为:
Figure BDA0003321856200000053
式中,Fi表示第i阶段的输出张量,
Figure BDA0003321856200000054
表示通道拼接操作;
步骤36)其中第五阶段输出高级特征图χh,第四阶段低级特征图χl
所述的步骤4)的具体过程为:
步骤41)构建融合注意力模块:融合注意力模块包含两个输入,来自步骤36)第五阶段输出的高级特征图
Figure BDA0003321856200000055
和第四阶段输出的低级特征图
Figure BDA0003321856200000056
Hh×Wh是高级特征图χh的空间位置的数量,Hl×Wl是低级特征图χl的空间位置的数量;Ch和Cl分别是高级特征图χh和低级特征图χl的通道数,1×1卷积Wθ用于将低级特征图χl的特征转换为
Figure BDA0003321856200000057
其中
Figure BDA0003321856200000058
是转换后的特征的通道数,R为实数,εl为低级特征图χl特征转换后的结果,如式(4)所示:
εl=Wθl) (4)
步骤42)将特征转换结果εl经过softmax函数正则化后得到f(εl);
步骤43)采用瓶颈特征转换处理f(εl),获取通道依赖关系,1×1卷积Wγ1和Wγ2将用于χh的特征转换得到注意力输出结果
Figure BDA0003321856200000061
结果如式(5):
OF=Wγ2ReLU(LN(Wγ1(f(εl))))1(f(εl)))) (5)
输出OF反映了χl对χh的补偿,这些补偿是从χl的所有位置中挑选出来的,
步骤44)最后输出的融合特征图YF为:
YF=cat(OF,χh) (6)。
所述的步骤5)的具体过程为:
步骤51)在ResNet-101网络第五阶段后面构建全局注意力模块,获取对语义分割至关重要的远距离依赖关系,设输入特征X∈RC×H×W,C,H,W分别为通道数、空间高度和宽度,1×1卷积Wθ用来转换特征X:
Figure BDA0003321856200000062
θ=Wθ(X) (7)
其中
Figure BDA0003321856200000063
是转换后的特征的通道数;
步骤52)经过softmax函数正则化之后得到相似矩阵
Figure BDA0003321856200000065
步骤53)注意力模块的输出由1×1卷积Wγ1和Wγ2以及中间的归一化和ReLU函数来计算,其结果如式(8):
Figure BDA0003321856200000064
步骤54)最后的输出特征图YG∈RC×H×W的表达式为:
YG=cat(OG,X) (9)。
所述的步骤6)的具体过程为:
步骤61)将步骤5)得到的最后的输出融合特征图YG输入分类器中,生成通道语义分割特征图;
步骤62)将生成的特征图与步骤1)中标注的真实标签图像对比,用来监督特征提取网络参数的训练,从而得到训练好的网络模型;将步骤1)得到的测试样本数据集作为输入图像输入训练好的网络模型,检验网络模型的性能;
步骤63)加载训练好的模型参数,对下一批来自井下拍摄的照片进行场景语义分析。
有益效果:
本发明针对煤矿井下图像中场景复杂采用注意力机制,突出了目标区域的语义信息,改善了图像分割效果,相较于其他分割方法,兼顾了图像分割的准确度和速度,使得鲁棒性更好。
本方法通过构建多尺度输入网络,增强所提取的特征;构建融合注意力模块,融合所提取的各阶段特征;同时构建全局注意力模块来增强全局信息,获取远程依赖关系;最后,使用分类器用来生成语义图,完成对图像的语义分割,保证了分割的准确度,提高了算法的鲁棒性。
附图说明:
图1是本发明煤矿井下图像语义分割方法的基本残差网络单元示意图。
图2是本发明煤矿井下图像语义分割方法的注意力融合模块示意图。
图3是本发明煤矿井下图像语义分割方法的全局注意力模块示意图。
图4是本发明中多特征融合图像分割方法的网络框架示意图。
具体实施方式:
下面结合附图对本发明做进一步描述。
本发明的一种煤矿井下图像语义分割方法,使用井下防爆摄像机采集井下场景图片,然后进行预处理生成数据集;然后将数据集输入,选择特征提取网络对图片进行特征提取,构建多尺度输入模块,强化提取特征图;然后构建融合注意力模块,融合所提取的各阶段特征;构建全局注意力模块来增强全局信息,获取远程依赖关系;最后,使用分类器用来生成语义图,完成对图像的语义分割。本方法较其他语义分割方法的优势:算法的计算量和复杂度大大降低,针对场景复杂采用注意力机制,突出了目标区域的语义信息,改善了图像分割效果,算法的鲁棒性大大增强。
如图4所示,本发明的一种煤矿井下图像语义分割方法,步骤如下:
步骤1)采集井下图像,对图像数据进行标注预处理,并将标注预处理的图像数据分为训练样本与测试样本数据集。
具体过程为:
步骤11)采用井下防爆摄像机获取清晰图像。
步骤12)对所得到的图像进行语义分割标注,即将图像中的每个像素进行归类;图像中的不同区域彼此分割,各区域由语义信息所定义。
步骤13)按照4:1的比例将标注后的图像随机构建训练样本集与测试样本集。
步骤2)将步骤1)所得到的训练样本数据集输入以ResNet-101为骨架的特征提取网络提取输入图像特征;删除ResNet-101中五个特征提取阶段的第四和第五阶段的下采样操作,保留第四和第五阶段的其他内容,使其特征图为输入图像的1/8的大小。
具体过程为:
步骤21)使用ResNet-101作为特征提取的骨架网络,ResNet-101共分为五个阶段,每个阶段都由基础残差单元(Residual Convolution Unit,RCU)构成,用来提取输入图像的特征,得到不同级别的输出特征图。
步骤22)在特征提取网络ResNet-101的五个阶段中每个阶段都包含多个通道,且每个通道所包含信息对于语义分割的重要程度也不一样,所以在每个阶段添加通道注意力机制通道,为每个通道分配0-1权值,表示不同通道的重要程度。
步骤23)删除第四阶段和第五阶段的下采样操作,现有的ResNet-101的第4和5阶段特征图的感受野随着卷积、降采样的过程而逐渐增大,小目标的细节信息逐渐丢失,为了丰富细节信息,在此步骤23)删除第四个第五阶段的下采样操作。
步骤24)使用膨胀卷积来保存第四和第五阶段的输出特征图,使得第三、第四和第五阶段的特征图大小相同,为1/8输入图像的大小。
步骤3)在删除了下采样操作的第四和第五阶段,采用多尺度输入来增强步骤2)中所提取的大小为输入图像特征图,并输出特征图。
具体过程为:
步骤31)感受野随着卷积、降采样的过程而逐渐增大,小目标的细节信息逐渐丢失,为了得到更多的细节信息,采用多尺度输入,将额外的输入图像输入基础残差单元(Residual Convolution Unit,RCU)得到第四和第五阶段额外输入特征图,基础残差单元结构如图1所示,此步骤所得到的额外输入特征图经过一次特征提取,为低层次特征图,在ResNet-101网络中,出第一阶段外的每阶段的输入图像均为上一个阶段的输出特征图,第四和第五阶段的输入是高层次特征图,所包含的细节信息相比较低层次特征图较少。
步骤32)将步骤31)得到的第四和第五阶段额外输入特征图分别与ResNet-101第四和第五阶段输入特征图融合,以便充分利用浅层特征图,来丰富小目标在深层特征图中的信息。
步骤33)多尺度输入的过程为:假设ResNet-101网络在第i阶段包含Li层卷积,那么第j层卷积就可以被定义为yj=Mj(xj),其中yj为第j层的输出张量,Mj包含卷积、ReLU激活函数和正则化操作,第i阶段的输入图片xi的尺寸为(N,Hj,Wj,Wj),N表示批次大小,Hi和Wi表示输入特征图的高度和宽度,Ci为通道数。第i阶段的输出特征图Fi可表示为:
Figure BDA0003321856200000091
步骤34)Ii表示第i阶段的额外输入,其分辨率与第i-1阶段的输出张量相同。其经过特征提取后的特征图为:
Figure BDA0003321856200000092
步骤35)第i阶段的融合输入可表示为:
Figure BDA0003321856200000093
式中,Fi表示第i阶段的输出张量,
Figure BDA0003321856200000094
表示通道拼接操作。
步骤36)第五阶段输出高级特征图χh,第四阶段低级特征图χl
步骤4)构建融合注意力模块,融合步骤3)第四和第五阶段得到的大小为输入图像1/8的特征图,输出包含全局上下文语义信息的新的特征图,具体见图2所示;
具体过程为:
步骤41)构建融合注意力模块:融合注意力模块包含两个输入,来自步骤36)第五阶段输出的高级特征图
Figure BDA0003321856200000101
和第四阶段输出的低级特征图
Figure BDA0003321856200000102
Hh×Wh是高级特征图χh的空间位置的数量,Hl×Wl是低级特征图χl的空间位置的数量;Ch和Cl分别是高级特征图χh和低级特征图χl的通道数,1×1卷积Wθ用于将低级特征图χl的特征转换为
Figure BDA0003321856200000103
其中
Figure BDA0003321856200000104
是转换后的特征的通道数,R为实数,εl为低级特征图χl特征转换后的结果,如式(4)所示:
εl=Wθl) (4)
步骤42)将特征转换结果εl经过softmax函数正则化后得到f(εl)。
步骤43)采用瓶颈特征转换处理f(εl),获取通道依赖关系,1×1卷积Wγ1和Wγ2将用于χh的特征转换得到注意力输出结果
Figure BDA0003321856200000105
结果如式(5):
OF=Wγ2ReLU(LN(Wγ1(f(εl)))) (5)
输出OF反映了χl对χh的补偿,这些补偿是从χl的所有位置中挑选出来的。
步骤44)最后输出的融合特征图YF为:
YF=cat(OF,χh) (6)
步骤5)在ResNet-101网络第五阶段后面构建全局注意力模块,具体如图3所示,增强步骤4)获得的新的特征图的全局表示,获取不同级别特征之间的远程依赖关系,得到最终的融合特征图。
具体过程为:
步骤51)构建全局注意力增强块,获取对语义分割至关重要的远距离依赖关系,设输入特征X∈RC×H×W,C,H,W分别为通道数、空间高度和宽度,1×1卷积Wθ用来转换特征X:
Figure BDA0003321856200000111
θ=Wθ(X) (7)
其中
Figure BDA0003321856200000112
是转换后的特征的通道数。
步骤52)经过softmax函数正则化之后得到相似矩阵
Figure BDA0003321856200000113
步骤53)注意力模块的输出由1×1卷积Wγ1和Wγ2以及中间的归一化和ReLU函数来计算,其结果如式(8):
Figure BDA0003321856200000114
步骤54)最后的输出特征图YG∈RC×H×W可表示如下式:
YG=cat(OG,X) (9)
步骤6)将步骤5)得到的融合输出特征图输入经过预训练的分类器中,生成语义图。然后再将步骤1)得到的测试样本数据集输入训练好的网络中,检验网络的性能。
步骤61)将步骤5)得到的最后的输出融合特征图YG输入分类器中,生成通道语义分割特征图。
步骤62)将生成的特征图与步骤1)中标注的真实标签图像对比,用来监督网络模型参数的训练,从而得到训练好的网络模型;将步骤1)得到的测试样本数据集作为输入图像输入训练好的网络模型,检验网络模型的性能。
步骤63)加载步骤62)训练好的模型参数,对下一批来自井下拍摄的照片进行场景语义分析。

Claims (7)

1.一种煤矿井下图像语义分割方法,其特征在于步骤如下:
步骤1、采集井下图片,对图片数据进行标注预处理,将标注预处理的图片数据分为训练样本与测试样本数据集。
步骤2、将训练样本数据集输入特征提取网络提取输入图片特征,特征提取网络包括改进的ResNet-101网络,改进的ResNet-101网络删除原本的第四和第五阶段的下采样操作,保留第四和第五阶段的其他内容;
步骤3、在改进的ResNet-101网络的第四阶段通过多尺度输入同时输入第三阶段输出的特征图以及额外输入特征图,输出低级特征图;第五阶段通过多尺度输入同时输入第四阶段输出的特征图以及额外输入特征图,输出高级特征图;所述额外输入特征图为输入图片通过残差单元处理后获得,额外输入特征图通过压缩原始输入图片使其与前一阶段输出特征图大小相同获得;
步骤4、在改进的ResNet-101网络第五阶段后面构建融合注意力模块,利用融合注意力模块融合低级特征图和高级特征图,输出包含全局上下文语义信息的新的特征图;
步骤5、在融合注意力模块后面构建全局上下文增强模块,增强新的特征图的全局表示,从而获取特征图中各像素之间的远距离依赖关系,得到最终的融合特征图;
步骤6、将最终的融合特征图输入经过预训练的分类器中生成语义图,然后再利用测试样本数据集检测生成的语义图性能,检验特征提取网络的性能,性能达标即可用以对煤矿井下照片图像进行语义分割,若不达标则重新训练;
步骤7、使用训练好的特征提取网络对输入的煤矿井下图片进行煤矿井下图像语义分割。
2.根据权利要求书1所述一种煤矿井下图像语义分割方法,其特征在于,所述步骤1)的具体过程为:
步骤11)采用井下防爆摄像机获取清晰图像。
步骤12)对所得到的图像人工进行语义分割标注,即将图像中的每个像素进行归类;图像中的不同区域彼此分割,各区域由语义信息所定义;
步骤13)按照4:1的比例将标注后的图像随机构建训练样本集与测试样本集。
3.根据权利要求书1所述一种煤矿井下图像语义分割方法,其特征在于,所述的步骤2)的具体过程为:
步骤21)在原始ResNet-101网络的基础上改进,改进的ResNet-101网络共分为五个阶段,用来提取输入图像的特征,从而得到不同级别的输出特征图;
步骤22)在改进的ResNet-101网络的五个阶段中每个阶段都包含多个通道,且每个通道所包含信息对于语义分割的重要程度也不一样,所以在每个阶段添加通道注意力机制通道,通过为每个通道分配0-1权值表示不同通道的重要程度;
步骤23)为了丰富细节信息所以删除第四阶段和第五阶段的下采样操作,从而防止常规ResNet-101的第四和第五阶段特征图的感受野随着卷积、降采样的过程而逐渐增大而特征图中小目标的细节信息逐渐丢失;
步骤24)使用膨胀卷积来保存第四和第五阶段的输出特征图,使得第三、第四和第五阶段的特征图大小相同,均为输入图像的1/8大小。
4.根据权利要求书3所述一种煤矿井下图像语义分割方法,其特征在于,所述的步骤3)的具体过程为:
步骤31)由于感受野随着卷积、降采样的过程而逐渐增大,小目标的细节信息逐渐丢失,为了得到更多的细节信息,采用多尺度输入,在改进的ResNet-101网络第四和第五阶段的输入端分别增加分别添加基础残差单元,将额外的1/8大小的输入图像直接输入到基础残差单元得到第四和第五阶段额外输入特征图,此步骤所得到的额外输入特征图经过一次特征提取,为低层次特征图,在改进的ResNet-101网络中,除第一阶段外的每阶段的输入图像均为上一个阶段的输出特征图,第四和第五阶段的输入是高层次特征图,所包含的细节信息少于低层次特征图;
步骤32)将第四和第五阶段通过基础残差单元处理后的额外输入特征图分别与正常第四和第五阶段输入特征图融合,充分利用浅层特征图从而丰富小目标在深层特征图中的信息;
步骤33)利用多尺度输入来增强输入图像1/8大小的特征图,其中多尺度输入的过程为:假设ResNet-101网络在第i阶段包含Li层卷积,那么第j层卷积就可以被定义为yj=Mj(xj),其中yj为第j层的输出张量,Mj包含卷积、ReLU激活函数和正则化操作,第i阶段的输入图片xi的尺寸为(N,Hj,Wj,Wj),N表示批次大小,Hi和Wi表示输入特征图的高度和宽度,Ci为通道数;第i阶段的输出特征图Fi可表示为:
Figure FDA0003321856190000031
步骤34)Ii表示第i阶段的额外输入,其分辨率与第i-1阶段的输出张量相同,其经过特征提取后的特征图为:
Figure FDA0003321856190000032
步骤35)第i阶段的融合输入表示为:
Figure FDA0003321856190000033
式中,Fi表示第i阶段的输出张量,
Figure FDA0003321856190000034
表示通道拼接操作;
步骤36)其中第五阶段输出高级特征图χh,第四阶段低级特征图χl
5.根据权利要求书4所述一种煤矿井下图像语义分割方法,其特征在于,所述的步骤4)的具体过程为:
步骤41)构建融合注意力模块:融合注意力模块包含两个输入,来自步骤36)第五阶段输出的高级特征图
Figure FDA0003321856190000035
和第四阶段输出的低级特征图
Figure FDA0003321856190000036
Hh×Wh是高级特征图χh的空间位置的数量,Hl×Wl是低级特征图Xl的空间位置的数量;Ch和Cl分别是高级特征图Xh和低级特征图Xl的通道数,1×1卷积Wθ用于将低级特征图Xl的特征转换为
Figure FDA0003321856190000037
其中
Figure FDA0003321856190000038
是转换后的特征的通道数,R为实数,εl为低级特征图χl特征转换后的结果,如式(4)所示:
εl=Wθl) (4)
步骤42)将特征转换结果εl经过softmax函数正则化后得到f(εl);
步骤43)采用瓶颈特征转换处理f(εl),获取通道依赖关系,1×1卷积Wγ1和Wγ2将用于χh的特征转换得到注意力输出结果
Figure FDA0003321856190000041
结果如式(5):
OF=Wγ2ReLU(LN(Wγ1(f(εl)))) (5)
输出OF反映了χl对χh的补偿,这些补偿是从χl的所有位置中挑选出来的,
步骤44)最后输出的融合特征图YF为:
YF=cat(OF,χh) (6)。
6.根据权利要求书1所述一种煤矿井下图像语义分割方法,其特征在于,所述的步骤5)的具体过程为:
步骤51)在ResNet-101网络第五阶段后面构建全局注意力模块,获取对语义分割至关重要的远距离依赖关系,设输入特征X∈RC×H×W,C,H,W分别为通道数、空间高度和宽度,1×1卷积Wθ用来转换特征X:
Figure FDA0003321856190000042
θ=Wθ(X) (7)
其中
Figure FDA0003321856190000043
是转换后的特征的通道数;
步骤52)经过softmax函数正则化之后得到相似矩阵
Figure FDA0003321856190000044
步骤53)注意力模块的输出由1×1卷积Wγ1和Wγ2以及中间的归一化和ReLU函数来计算,其结果如式(8):
Figure FDA0003321856190000045
步骤54)最后的输出特征图YG∈RC×H×W的表达式为:
YG=cat(OG,X) (9)。
7.根据权利要求书1所述一种煤矿井下图像语义分割方法,其特征在于,所述的步骤6)的具体过程为:
步骤61)将步骤5)得到的最后的输出融合特征图YG输入分类器中,生成通道语义分割特征图;
步骤62)将生成的特征图与步骤1)中标注的真实标签图像对比,用来监督特征提取网络参数的训练,从而得到训练好的网络模型;将步骤1)得到的测试样本数据集作为输入图像输入训练好的网络模型,检验网络模型的性能;
步骤63)加载训练好的模型参数,对下一批来自井下拍摄的照片进行场景语义分析。
CN202111248280.4A 2021-10-26 2021-10-26 一种煤矿井下图像语义分割方法 Pending CN114170422A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111248280.4A CN114170422A (zh) 2021-10-26 2021-10-26 一种煤矿井下图像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111248280.4A CN114170422A (zh) 2021-10-26 2021-10-26 一种煤矿井下图像语义分割方法

Publications (1)

Publication Number Publication Date
CN114170422A true CN114170422A (zh) 2022-03-11

Family

ID=80477308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111248280.4A Pending CN114170422A (zh) 2021-10-26 2021-10-26 一种煤矿井下图像语义分割方法

Country Status (1)

Country Link
CN (1) CN114170422A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115700781A (zh) * 2022-11-08 2023-02-07 广东技术师范大学 一种动态场景下基于图像补绘的视觉定位方法及***
CN116363134A (zh) * 2023-06-01 2023-06-30 深圳海清智元科技股份有限公司 煤与矸石的识别与分割方法、装置及电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115700781A (zh) * 2022-11-08 2023-02-07 广东技术师范大学 一种动态场景下基于图像补绘的视觉定位方法及***
CN116363134A (zh) * 2023-06-01 2023-06-30 深圳海清智元科技股份有限公司 煤与矸石的识别与分割方法、装置及电子设备
CN116363134B (zh) * 2023-06-01 2023-09-05 深圳海清智元科技股份有限公司 煤与矸石的识别与分割方法、装置及电子设备

Similar Documents

Publication Publication Date Title
Wang et al. SFNet-N: An improved SFNet algorithm for semantic segmentation of low-light autonomous driving road scenes
CN113052210B (zh) 一种基于卷积神经网络的快速低光照目标检测方法
Zhang et al. Deep hierarchical guidance and regularization learning for end-to-end depth estimation
CN111160297A (zh) 基于残差注意机制时空联合模型的行人重识别方法及装置
CN113591968A (zh) 一种基于非对称注意力特征融合的红外弱小目标检测方法
CN113077491B (zh) 基于跨模态共享和特定表示形式的rgbt目标跟踪方法
Wang et al. Deep Learning for Object Detection: A Survey.
CN114170422A (zh) 一种煤矿井下图像语义分割方法
CN109977834B (zh) 从深度图像中分割人手与交互物体的方法和装置
Noh et al. Unsupervised change detection based on image reconstruction loss
CN114155474A (zh) 基于视频语义分割算法的损伤识别技术
CN112700476A (zh) 一种基于卷积神经网络的红外船视频跟踪方法
CN115861756A (zh) 基于级联组合网络的大地背景小目标识别方法
CN111627007A (zh) 一种基于自优化匹配网络图像拼接的航天器缺陷检测方法
CN112132839B (zh) 一种基于深度卷积级联网络的多尺度快速人脸分割方法
Khoshboresh-Masouleh et al. Robust building footprint extraction from big multi-sensor data using deep competition network
CN111612803B (zh) 一种基于图像清晰度的车辆图像语义分割方法
Kajabad et al. YOLOv4 for urban object detection: Case of electronic inventory in St. Petersburg
Duan et al. Attention enhanced ConvNet-RNN for Chinese vehicle license plate recognition
Shi et al. Cpa-yolov7: Contextual and pyramid attention-based improvement of yolov7 for drones scene target detection
CN115393901A (zh) 一种跨模态行人重识别方法及计算机可读存储介质
Guo et al. Udtiri: An open-source road pothole detection benchmark suite
Wang et al. Improving deep learning based object detection of mobile robot vision by HSI preprocessing method and CycleGAN method under inconsistent illumination conditions in real environment
Sreelekshmi et al. Deep forgery detect: enhancing social media security through deep learning-based forgery detection
Fan et al. Attention-modulated triplet network for face sketch recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination