CN116596930B - 一种半监督多任务现实图像裂缝检测***及方法 - Google Patents
一种半监督多任务现实图像裂缝检测***及方法 Download PDFInfo
- Publication number
- CN116596930B CN116596930B CN202310876653.5A CN202310876653A CN116596930B CN 116596930 B CN116596930 B CN 116596930B CN 202310876653 A CN202310876653 A CN 202310876653A CN 116596930 B CN116596930 B CN 116596930B
- Authority
- CN
- China
- Prior art keywords
- edges
- crack
- information
- edge
- stage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000001514 detection method Methods 0.000 title claims abstract description 49
- 238000004220 aggregation Methods 0.000 claims abstract description 12
- 230000002776 aggregation Effects 0.000 claims abstract description 11
- 238000010586 diagram Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000012544 monitoring process Methods 0.000 claims abstract description 6
- 238000002372 labelling Methods 0.000 claims abstract description 5
- 238000005286 illumination Methods 0.000 claims description 43
- 230000008569 process Effects 0.000 claims description 34
- 239000011159 matrix material Substances 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 19
- 238000010606 normalization Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 18
- 230000003993 interaction Effects 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 14
- 230000000694 effects Effects 0.000 claims description 12
- 230000002708 enhancing effect Effects 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 7
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000006116 polymerization reaction Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 230000001737 promoting effect Effects 0.000 claims description 4
- 238000000638 solvent extraction Methods 0.000 claims description 4
- 238000007635 classification algorithm Methods 0.000 claims description 3
- 230000002441 reversible effect Effects 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 239000006185 dispersion Substances 0.000 claims description 2
- 230000004931 aggregating effect Effects 0.000 claims 2
- 238000003708 edge detection Methods 0.000 description 13
- 238000012360 testing method Methods 0.000 description 10
- 238000013461 design Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 238000002679 ablation Methods 0.000 description 5
- 235000013350 formula milk Nutrition 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 239000003973 paint Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 241000283070 Equus zebra Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 239000004815 dispersion polymer Substances 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006740 morphological transformation Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Quality & Reliability (AREA)
- Image Processing (AREA)
Abstract
本发明提出了一种半监督多任务现实图像裂缝检测***及方法;属于计算机视觉技术领域,首先根据边缘不连续分类的原理,将边缘分为四类;再处理裂缝、噪声和边缘,然后生成地面真值图;贴标签以得到标记的边缘图,分组得到边缘的聚合信息;为四类边缘和裂缝计数构建单独的解码器,为裂缝区域构建两级解码器;最终对图像中估计的裂缝数量进行监督,对裂缝区域进行监督,进而完成多任务现实图像裂缝检测;本发明与现有技术相比,在多个数据集的所有标准上都取得了最好的结果。
Description
技术领域
本发明属于计算机视觉技术领域,具体地,涉及一种半监督多任务现实图像裂缝检测***及方法。
背景技术
传统的裂缝检测方法通常是从图像中包含的底层信息检测裂缝。其中一些方法是使用先验知识,即假设裂缝的颜色比路面暗,来帮助裂缝检测。然而,这样的检测结果并不精确。其他方法利用局部、几何、波长或曲线信息来帮助他们判断裂缝区域。现有基于机器学习提供了一种基于随机森林的路面裂缝检测方法来检测复杂的裂缝,在一定程度上推进了裂缝检测领域的研究进展,但该方法的结果比基于卷积神经网络的方法弱一些。另有在卷积神经网络中聚合了多尺度信息,通过大尺度感知细节信息,通过小尺度感知全局信息,达到了超越传统方法的效果。后来提出了一种基于U-Net的网络架构,并增加了空间和通道压缩和激发模块,便于进一步优化效果。使用扩展卷积、深度可分离卷积和空间金字塔池进行桥梁裂缝检测。利用混合注意力模块捕获裂缝特征的长期依赖关系来预测隧道裂缝。设计了两个特征提取分支,提取裂缝的形状和细节,实现实时检测。利用边缘检测的思想,利用边缘检测网络作为主干,在网络中加入特征金字塔结构,促进多尺度交互,增强裂缝检测性能,使其能够在多数据集上实现SOTAs性能。最后进一步优化了特征金字塔结构的高层和信息传递过程,进一步提出了预处理算法和噪声裂缝数据集,对训练数据进行强化,以缓解误将噪声当作裂缝的现象。
然而,上述方法都只对裂缝区域进行监督。认为,裂缝的检测应该与许多其他因素相关,仅监测裂缝区域是不够的。此外,仅使用标记数据限制了检测网络中更复杂类型裂缝的可能性。
考虑到现有技术在使用边缘检测模型作为基线的裂缝检测中取得了相对较好的结果,认为边缘信息是必不可少的。然而,一般来说,在裂缝检测中被识别为噪声的像素通常在边缘检测中被视为边缘。对边缘进行额外的监督可能会适得其反。尝试对边缘进行分类可能会促进网络对裂缝和噪声做出不同的响应,从而促进最终结果的优化。
发明内容
本发明提出了一种半监督多任务现实图像裂缝检测***及方法,采用ResNext101作为编码器,并将其每级最后一层的输出,即R1、R2、R3、R4、R5作为解码器的输入。随后,构建解码器。第一阶段解码器由一个短连接和一个第一阶段预测头组成。短连接后的输出分别记为D2、D3、D4,而D1和D5是R1和R5的副本。然后D2、D3、D4、D5被送入共享的第一阶段预测头和第二阶段解码器。边缘特征图也被馈送到第二级解码器中,通过统一的交叉交互模块与裂缝信息交互。信息交互后的特征图标记为C2、C3、C4、C5。然后将它们通过加法进行聚合,并与C2、C3、C4、C5一起输入由3x3卷积和1x1卷积组成的第二阶段预测头,生成融合的预测图和第二阶段的侧输出。采用交叉熵损失函数对所有裂缝区域和边缘类别进行监督,采用MSE对裂缝计数进行监督。
通过以下技术方案实现:
一种半监督多任务现实图像裂缝检测方法:所述方法具体包括以下步骤:
步骤1,根据边缘不连续分类的原理,将边缘分为四类;处理裂缝、噪声和边缘,然后生成地面真值图;
步骤2,对步骤1分类的边缘贴标签,得到标记的边缘图,分组得到边缘的聚合信息;
步骤3,为四类边缘和裂缝计数构建单独的解码器,为裂缝区域构建两级解码器;
步骤4,对图像中估计的裂缝数量进行监督,对裂缝区域进行监督,进而完成多任务现实图像裂缝检测。
进一步地,在步骤1中,
根据所述边缘不连续分类将边缘分为四类:深度边缘(Depthedges)、正常边缘(Normaledges)、反射边缘(Reflectanceedges)和光照边缘(Illuminationedges);
所述深度边缘(DepehEdges)通常是由于图像对象与相机之间的深度不一致造成的;所述正常边缘(Normaledges)是由边缘中的不连续性产生的;所述反射边缘(Reflectanceedges)是由光滑物体表面的变化产生的;所述光照边缘(Illuminationedges)是由光照形成的的因素;
深度边缘(DepthEdges)和正常边缘(NormalEdges)更容易对裂缝做出响应,而反射边缘(ReflectanceEdges)和光照边缘(IlluminationEdges)更容易检测噪声;
主要的噪声、阴影,将被检测为光照边缘(Illuminationedges),而在光滑的道路上引起颜色变化的其他噪声将被检测为反射边缘(Reflectanceedges)。
进一步地,在步骤2中,
采用SOTAs边缘分类算法的预测结果作为边缘类别的标签;选择FPAFNet作为GT生成方法;
将训练集输入到FPAFNet中,得到标记的边缘图,
估计裂纹区域的数量:首先取裂缝区域的地面真值图,然后屏蔽掉微小的裂缝;再计算标签图中裂缝的连通性,每个连接的区域被算作一个裂缝;最后设置一个阈值NT,并将图像中最终裂缝数量的真实值CCG表示为:
进一步地,在步骤2中,
对四种类型的边缘进行分组,根据RINDNet和FPAFNet,深度边缘(Depthedges)和正常边缘(Normaledges)对全尺度特征信息感兴趣,而反射边缘(Reflectanceedges)和光照边缘(Illuminationedges)只对大尺度特征图的精细信息感兴趣;
因此,将四种类型的边缘成对分组,Ed,n是深度边缘和正常边缘的聚合信息,Er,i是反射边缘和光照边缘的聚合信息,并执行以下信息聚合步骤:
其中,σ为sigmoid函数,Den表示短连接,Den下角标的数字表示边,这些都被输入短连接;Rk是主干上的某一面。
进一步地,在步骤3中,
对于裂缝计数解码器的构造,采用ResNext101作为编码器,首先准备编码器的最高层的特征图,即R5,然后对其空间信息进行压缩,并采用全连接层输出对裂缝数量的预测,将其每级最后一层的输出,即R1、R2、R3、R4、R5作为解码器的输入;最后,与边缘不同的是,只通过CCG对它进行监督,不让它参与后续的计算;
对于裂缝区域,构建两级解码器,所述两级解码器分别为:第一阶段解码器和第二阶段解码器;
所述第一阶段解码器用于增强裂缝区域的特征表示,由短连接和第一级预测头组成;短连接后的输出分别记为D2、D3、D4,而D1和D5分别是R1和R5的副本,然后D2、D3、D4、D5被送入共享的第一阶段预测头和第二阶段解码器;
所述第二阶段解码器用于促进边缘和裂缝或边缘和噪声之间的关联;边缘特征图被输送到第二级解码器中,通过统一的交叉交互模块与裂缝信息交互;信息交互后的特征图标记为C2、C3、C4、C5;然后将它们通过加法进行聚合,并与C2、C3、C4、C5一起输入由3x3卷积和1x1卷积组成的第二阶段预测头,生成融合的预测图和第二阶段的侧输出。
进一步地,所述第一级预测头以Transformer块为基础,让q、k、v分别经历不同级别的信息,q、k、v是输入经过线性变换后的信息编码,q代表查询(query),k代表键(key),v代表值(value);经过自注意机制对各种信息进行汇总后,改变后的FFN进一步强化了群体信息,生成了预测图;
首先采用简单的3x3卷积+1x1卷积块来进一步挖掘q上的局部信息,而对于k和v,使用全局平均池化层来降低它们的分辨率;对于k,随后利用SE模块增强k感知所有通道全局信息的能力;对于v,使用两个1x1卷积对通道进行操作;
采用1x1卷积来促进通道之间的信息交换,然后在输出上执行2个组的群归一化操作;然后使用一个2组的1x1组卷积来处理之前归一化和激活后的输出,连接一个有4组的组归一化层;重复这个过程两次,以方便v获得组间的差异,同时对每组中有用的频道给予更高的评级;划分和训练q、k、v的过程可以用下面的公式表示:
其中,q、k、v分别是输入经过线性变换后的信息编码,C1和C3分别代表核大小为1x1和3x3的卷积层,SE代表压缩-扩张方法,G代表当前卷积为组卷积,GN代表组归一化操作。
随后,对q、k、v的最后两个维度进行平面化,并对新张量的最后两个维度进行转置;N=H*W,而H和W是当前特征图的高度和宽度,N表示运算后的二维图片坍缩为一维数据的结果;
利用for-mula来计算局部像素和全局压缩通道的相似度矩阵:
其中S为求得的相似度矩阵,其编码的是每个像素和全局信息之间的关系,Q为输入经过线性变换后的查询信息编码,K为输入经过线性变换后的键值信息编码,T表示矩阵转置;
按照v中的分组思想来替换前馈神经网络FFN,利用3x3卷积来消除混叠效应,采用GN进行归一化;利用Soft-max函数按通道维度激活归一化结果;最终的映射图只有1个通道,作为第一阶段的侧输出;上面的计算过程可以表示为:
其中Pre为计算得到的预测图,r为相似度矩阵S与值v做矩阵乘法后得到的结果,为除D1之外的每个Dk添加第一阶段预测头,并让权重在预测头之间共享。
进一步地,在所述统一的交叉交互模块中,边缘类别与裂缝或噪声之间存在粗略对应关系,即深度边缘和普通边缘多属于裂缝,而反射边和照明边多属于噪声;
首先确定四种类型的边缘与哪一侧(Dk)相互作用并根据匹配好的层将边缘图与裂缝图相加后经过一个3x3的卷积层完成第一步聚合;然后利用反向沙漏块的结构和sigmoid函数分别构造边缘和裂缝的权值图,完成了第二步分散;将第二步得到的权重图全部与第一步得到的结果相乘,实现了第三步的聚合。
进一步地,在步骤4中,
所述多任务为边缘分类、裂缝区域检测和裂缝计数;采用交叉熵损失函数对所有裂缝区域和边缘类别进行监督,采用MSE对裂缝计数进行监督。
一种半监督多任务现实图像裂缝检测***:
所述***闹了分类模块、GT模块、解码器模块和监督模块;
所述分类模块根据边缘不连续分类的原理,将边缘分为四类;处理裂缝、噪声和边缘,然后生成地面真值图;
所述GT模块对分类的边缘贴标签,得到标记的边缘图,分组得到边缘的聚合信息;
所述解码器模块为四类边缘和裂缝计数构建单独的解码器,为裂缝区域构建两级解码器;
所述监督模块对图像中估计的裂缝数量进行监督,对裂缝区域进行监督,进而完成多任务现实图像裂缝检测。
一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
有益效果
根据边缘不连续理论对边缘进行区分,并解释裂缝、噪声和边缘类别之间的相关性。根据边缘不连续分类的原理,边缘可以分为四类,研究内容对这四种类型的边都添加了监督,对图像中估计的裂缝数量进行了监督,最后对裂缝区域进行了监督,进而完成多任务***目标的构造。
同时,为四类边缘和裂缝计数构建了单独的解码器,为裂缝区域构建了两级解码器。第一阶段解码器是增强裂缝区域的特征表示,由短连接和第一级预测头组成。第二阶段解码器旨在促进边缘和裂缝或边缘和噪声之间的关联。设计了一个统一的交叉交互模块,这是第二阶段解码器的主要组成部分,根据边缘的属性为其分配相应的层。然后,在某一层上对边缘图和裂缝图实现聚合-分散-聚合结构,以增强它们之间的通信。在相应的裂缝图和某一类边缘图的相互作用下,每一方都可以在几乎不变的训练目标下探索更多相关的线索,以利于双方的收敛。
附图说明
图1为半监督多任务现实图像裂缝检测***框架图;
图2为第一阶段解码器构建中的重要组成部分的示意图;
图3为的统一交叉交互模块示意图;
图4为实验效果可视化图;
图5为示例图像及其对应的裂缝区域和四种边缘。
具体实施方式
下面将结合实施例中的附图对实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是一部分实施例,而不是全部的实施例。基于中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于保护的范围。
结合图1和图5;
一种半监督多任务现实图像裂缝检测方法:
所述方法具体包括以下步骤:
步骤1,根据边缘不连续分类的原理,将边缘分为四类;处理裂缝、噪声和边缘,然后生成地面真值图;
步骤2,对步骤1分类的边缘贴标签,得到标记的边缘图,分组得到边缘的聚合信息;
步骤3,为四类边缘和裂缝计数构建单独的解码器,为裂缝区域构建两级解码器;
步骤4,对图像中估计的裂缝数量进行监督,对裂缝区域进行监督,进而完成多任务现实图像裂缝检测。
在步骤1中,
根据所述边缘不连续分类将边缘分为四类:深度边缘(Depthedges)、正常边缘(Normaledges)、反射边缘(Reflectanceedges)和光照边缘(Illuminationedges);
所述深度边缘(DepehEdges)通常是由于图像对象与相机之间的深度不一致造成的;所述正常边缘(Normaledges)是由边缘中的不连续性产生的;所述反射边缘(Reflectanceedges)是由光滑物体表面的变化产生的;所述光照边缘(Illuminationedges)是由光照形成的的因素;
如图5所示,直观地发现深度边缘(DepthEdges)和正常边缘(NormalEdges)更容易对裂缝做出响应,而反射边缘(ReflectanceEdges)和光照边缘(IlluminationEdges)更容易检测噪声;
主要的噪声、阴影,将被检测为光照边缘(Illuminationedges),而在光滑的道路上引起颜色变化的其他噪声将被检测为反射边缘(Reflectanceedges)。
裂缝往往比路面更深,而且往往有一定可见的侧壁,这会造成正常情况下的不连续。道路噪音通常包括阴影、油漆、斑马线、车辙等。主要的噪声、阴影,将被检测为光照边缘,而在光滑的道路上引起颜色变化的其他噪声将被检测为反射边缘。此外,当路面不够光滑时,也会在凹凸不平的区域造成大量的反射边缘,分析与本发明的两个发现相吻合。然后,需要生成地面真值图,并为本发明的多任务构建解码器。
在步骤2中,
为了不消耗大量的人力物力,采用SOTAs边缘分类算法的预测结果作为边缘类别的标签;选择融合注意力金字塔结构的边缘不连续分类网络FPAFNet(Feature pyramidwith attention fusion for edge discontinuity classification,FPAFNet)作为GT生成方法(基准生成方法GroundTruthGeneration);
将训练集输入到FPAFNet中,得到标记的边缘图,如图5所示。噪声、裂纹和每一种边缘并没有完全清晰的对应关系。正如上述描述的是一种粗略的对应关系。根据生成的地面真值图,发现深度边缘和光照边缘是不可靠的。由于裂缝与路面之间的深度差并不明显,因此可以检测到的作为深度边缘的像素非常稀疏。
同时,由于数据集中的阴影往往是浅色的,甚至不会比裂缝的颜色更暗,这也给光照边缘的检测带来了一定的困难。在实践中,仍然将这两类与另外两类同等对待。但是,从所起作用的角度来看,这两类边可以看作是特殊样本的辅助任务。
采用与多阈值分割和形态学变换MTMT(MultipleThresholdingandMorphologicalTransformations)相同的方法来估计裂纹区域的数量:首先取裂缝区域的地面真值图,然后屏蔽掉微小的裂缝;再计算标签图中裂缝的连通性,每个连接的区域被算作一个裂缝;最后,为了计算方便,人为设置一个阈值NT,并将图像中最终裂缝数量的真实值CCG表示为:
由于裂缝区域是的主要任务,所以其他任务的解码器的构建应该遵循简单和高效的原则。由于边缘分类既需要低级的精细信息,也需要高级的语义信息,而且不同的边缘类型对不同尺度的特征图的响应是不同的,因此首先需要对四种类型的边缘进行分组。
对四种类型的边缘进行分组,根据RINDNet(光照边缘不连续性检测网络Rindnet:Edge detection for discontinuity in reflectance,illumination,normaland depth,RINDNet)和FPAFNet的实践经验,深度边缘(Depthedges)和正常边缘(Normaledges)对全尺度特征信息感兴趣,而反射边缘(Reflectanceedges)和光照边缘(Illuminationedges)只对大尺度特征图的精细信息感兴趣;
因此,将四种类型的边缘成对分组,Ed,n是深度边缘和正常边缘的聚合信息,Er,i是反射边缘和光照边缘的聚合信息,并执行以下信息聚合步骤:
其中,σ为sigmoid函数,Den表示短连接,Den下角标的数字表示边,这些都被输入短连接;Rk是主干上的某一面。
在步骤3中,如图1所示。在生成GT后,利用三个堆叠的3x3卷积来进一步提取边缘信息;进一步提取边缘信息有两种用途:一是利用它与裂缝区域发生反应,另一种用途是它将被送入由3x3卷积和1x1卷积组成的边缘预测头部,并由生成的边缘地面真值图进行监督。
对于裂缝计数解码器的构造,采用ResNext101作为编码器,首先准备编码器的最高层的特征图,即R5,它包含更丰富的语义信息,有利于涉及全局信息(如裂纹计数)的工作。然后,对其空间信息进行压缩,并采用全连接层输出对裂缝数量的预测,将其每级最后一层的输出,即R1、R2、R3、R4、R5作为解码器的输入;最后,与边缘不同的是,只通过CCG对它进行监督,不让它参与后续的计算;
对于裂缝区域,构建两级解码器,所述两级解码器分别为:第一阶段解码器和第二阶段解码器;
所述第一阶段解码器用于增强裂缝区域的特征表示,由短连接和第一级预测头组成;短连接后的输出分别记为D2、D3、D4,而D1和D5分别是R1和R5的副本,然后D2、D3、D4、D5被送入共享的第一阶段预测头和第二阶段解码器;
所述第二阶段解码器用于促进边缘和裂缝或边缘和噪声之间的关联;边缘特征图被输送到第二级解码器中,通过统一的交叉交互模块与裂缝信息交互;信息交互后的特征图标记为C2、C3、C4、C5;然后将它们通过加法进行聚合,并与C2、C3、C4、C5一起输入由3x3卷积和1x1卷积组成的第二阶段预测头,生成融合的预测图和第二阶段的侧输出。
所述第一级预测头以Transformer块为基础,让q、k、v分别经历不同级别的信息,q、k、v是输入经过线性变换后的信息编码,q代表查询(query),k代表键(key),v代表值(value);q可以根据与k中的信息匹配后与v动态生成新的特征图;经过自注意机制对各种信息进行汇总后,改变后的FFN进一步强化了群体信息,生成了预测图;
首先采用简单的3x3卷积+1x1卷积块来进一步挖掘q上的局部信息,而对于k和v,使用全局平均池化层来降低它们的分辨率;对于k,随后利用SE模块增强k感知所有通道全局信息的能力;对于v,使用两个1x1卷积对通道进行操作,在这个过程中隐含了分组的概念。
采用1x1卷积来促进通道之间的信息交换,然后在输出上执行2个组的群归一化操作;然后使用一个2组的1x1组卷积来处理之前归一化和激活后的输出,连接一个有4组的组归一化层;这个过程可以总结为在自己的范围内卷积每一组通道,然后在继续上一步之前将每一组划分为两个子组。重复这个过程两次,以方便v获得组间的差异,同时对每组中有用的频道给予更高的评级;划分和训练q、k、v的过程可以用下面的公式表示:
其中,q、k、v分别是输入经过线性变换后的信息编码,C1和C3分别代表核大小为1x1和3x3的卷积层,SE代表压缩-扩张方法,G代表当前卷积为组卷积,GN代表组归一化操作。
随后,对q、k、v的最后两个维度进行平面化,并对新张量的最后两个维度进行转置;N=H*W,而H和W是当前特征图的高度和宽度,N表示运算后的二维图片坍缩为一维数据的结果;
利用for-mula来计算局部像素和全局压缩通道的相似度矩阵:
每个像素都可以探索其与全局信息的相似度,扩展自身的知识存储。注意,本发明没有像传统的自注意机制那样在S上使用softmax激活函数。因为本发明的k和v的分辨率已经压缩为1×1。编码的是每个像素和全局信息之间的关系;softmax不需要对每两个像素对之间的关系进行规范化。仍然保留了加权和步骤来与v中的组信息进行交互;
这将允许在做矩阵乘法时获得更多样化的信息。做完上面的操作之后,本发明按照v中的分组思想来替换前馈神经网络FFN,利用3x3卷积来消除混叠效应,采用GN进行归一化;利用Soft-max函数按通道维度激活归一化结果;这样的注意力图聚合了丰富的局部信息、全局信息和群体信息;
本发明以元素为基础将注意力图与相应的第k层短连接的输出结果Dk相乘,并按频道将结果相加;最终的映射图只有1个通道,作为第一阶段的侧输出;最终的预测图可以根据强关注信息选择对裂缝区域响应更高的通道,从而获得更好的裂缝检测结果。上面的计算过程可以表示为:
其中Pre为计算得到的预测图,r为相似度矩阵S与值v做矩阵乘法后得到的结果,本发明为除D1之外的每个Dk添加第一阶段预测头,并让权重在预测头之间共享;这四个输出为一级解码器提供了更早、更充分的反馈,有利于一级解码器和主干网的参数优化。与标准Transformer相比,本发明的第一级预测头具有低计算和内存友好性。本发明的k和v的分辨率压缩是至关重要的,因为它不仅可以让本发明的信息以多种方式得到丰富,还可以减少计算量和存储空间。例如,传统的自注意力机制需要维护一个B×N×N的相似度矩阵,其中B为批处理的大小,而本发明只需要维护一个B×N×1大小的矩阵。经过以上的努力,本发明的预测头变得足够强大,可以推动整个第一阶段解码器和编码器的进步。
在所述统一的交叉交互模块中,边缘类别与裂缝或噪声之间存在粗略对应关系,即深度边缘和普通边缘多属于裂缝,而反射边和照明边多属于噪声;如何构建边缘与裂缝或边缘与噪声的关系,成为摆在本发明面前的难题。一个最直观的思路就是针对不同的对构建不同的模块。一种类型的模块通过深度边和法向边帮助构建裂缝区域,另一种模块通过其他类型的边掩盖噪声。然而,这种想法有两个不可忽视的缺点。首先,各种模块可能会造成语义信息的巨大差异。由于解码器的输出需要在后面作为深度监督视觉的一部分使用,这种差异对于训练的收敛是有害的。其次,构建不同的模块混合了过多的人工设计技巧,失去了神经网络高可训练性的优势。
基于以上思路,本发明决定针对四种边裂交互,设计一个结构统一的模块。具体来说,本发明的统一交叉相互作用模块可以概括为“聚集-分散-聚集”三步。
第一步,首先确定四种类型的边缘与哪一侧(Dk)相互作用;本发明让DepthEdges和NormalEdges与上面的两层进行通信,而ReflectanceEdges和IlluminationEdges与下面的两个地图进行通信。下两层的分辨率更高,细节也更多,但也包含了更多的噪点。较高的两个具有丰富的上下文语义信息,但缺乏精细的内容。反射边缘(ReflectanceEdges)和照明边缘(IlluminationEdges)倾向多反射噪声。与下两层的交互有利于扩展底层特征图中噪声的表示,迫使下两层在复杂场景中学习精细的裂缝表示。另外两种类型的边缘更能指示裂缝。与高层沟通可以促使高层更准确地定位裂缝。这样的分配策略匹配了具有相同训练目的的边缘图和裂缝图,有利于交互模块的实现和侧收敛。分配完成后,本发明对边缘和裂缝进行聚合。将裂缝和边缘相加,并通过3次卷积进一步提取交互信息。目前,裂缝和边缘处于混合状态。边缘信息可能对改善裂纹区域有作用,但有些位置可能会导致模块做出错误的判断。所以这就引出了本发明的第二步。
第二步,然后利用反向沙漏块的结构和sigmoid函数分别构造边缘和裂缝的权值图,称为“分散(disi-persebyus)”;将前一步得到的权重图与第一步的结果相乘,完成第三步的聚合。
对于较高两层的结果,主要效果在于识别裂缝。边缘和裂缝都得分高的位置会以更高的概率被保留,而且这样的位置主要在裂缝的轮廓上,有利于更准确的定位裂缝。对于较低两层的输出,主要功能已经转化为噪声掩蔽工作。对于一个像素,它们不太可能有相同的高分,所以就变成了一个高分另一个低分的情况。对于这种情况,当裂缝分数高而边缘分数低时,噪声就被掩盖了。当边缘分数高而裂缝分数低时,综合分数不会太高,这样的点可以作为难采样点,获得更高的关注度。这个模块可以让不同的边缘类型在对应的裂缝侧面更好地发挥作用。进一步,训练目的和结构的统一,有利于在后续的第二阶段预测头中各边的收敛。
在步骤4中,所述多任务为边缘分类、裂缝区域检测和裂缝计数;采用交叉熵损失函数对所有裂缝区域和边缘类别进行监督,采用MSE对裂缝计数进行监督。
一种半监督多任务现实图像裂缝检测***:
所述***闹了分类模块、GT模块、解码器模块和监督模块;
所述分类模块根据边缘不连续分类的原理,将边缘分为四类;处理裂缝、噪声和边缘,然后生成地面真值图;
所述GT模块对分类的边缘贴标签,得到标记的边缘图,分组得到边缘的聚合信息;
所述解码器模块为四类边缘和裂缝计数构建单独的解码器,为裂缝区域构建两级解码器;
所述监督模块对图像中估计的裂缝数量进行监督,对裂缝区域进行监督,进而完成多任务现实图像裂缝检测。
实施例:
为了验证本发明模型的有效性,将对提出的方法一步一步地进行消融实验。实验过程在如下数据集上完成:Crack500经由收集、注释和裁剪。数据集中的图片都是手机拍摄的校园路面裂缝,其中共包含1896张训练图像、348张验证图像和 1124张测试图像。GAPS384是从GAPS数据集中选取的数据集,对选取的图像进行裁剪和标注。该数据集仅用于测试,图片数量为509张,包含了大量带有噪声的裂缝图像。提出并注释裂缝森林数据集CFD。它包含118 张测试图像,几乎所有图像都是无噪声的。 NCD是提出的噪声裂缝数据集。研究过程中收集了各种类型道路噪声的裂缝图像。总共有261张训练图像和178张测试图像。
本专利研究过程中对于实验的超参数设置如下:max iterations (12000)、批大小(6)(标注为(4))、优化器(SGD)、学***均相交-过合并比。ODS表示一个数据集在固定阈值下所能达到的最大f测度。OIS表示所有图片在各自最优阈值下获得的f测度的平均值。这三个指标的计算公式如下:
在计算AIU之前不进行额外的处理步骤。在测量指标ODS和OIS时,对网络的预测图进行非最大抑制操作。对于所有数据集,允许预测图和地 面真值图正确匹配的最大容差设置为0.0075。
消融实验
本发明从两个方面进行消融实验。首先,探索本发明设计的模块和多任务是否有效。然后,探索本发明使用的边缘类型数量对最终裂缝检测结果的影响。
如表1所示的结果,可以知道本发明的多任务和两阶段解码器设计对网络有积极的影响。其中,***阶段1后的结果比未***阶段1的结 分别高出36.76%、64.43%和64.52%。这证实了本发明的stage 1解码器在提高半监督多任务现实裂缝检测网络(MTSCD)检测裂缝区域的能力方面起到了关键的作用。添加多任务“边缘分类”可以进一步改善结果,同时添加多任务“裂缝计数”也可以略微改善结果。在MTSCD中***stage 2解码器后,由于获得了裂缝和边缘的交互信息,本发明的网络性能得到了进一步的提升。在确定模型的结构后,本发明决定探索不同边缘类别对裂缝检测结果的影响。
表1多任务双级解码器消融研究
表中AIU在0.01到0.99的阈值下计算测试集中所有图像的预测图与地面实况图的平均交并比。ODS表示数据集在固定阈值下可以实现的最大F度量。OIS是指所有图片在其各自的最佳阈值下获得的F度量的平均值。
表2边缘类型选择的消融研究
本发明探索了仅使用一个边缘类别、使用两个特征相关类别和使用所有四个边缘类别的七种情况,结果如表2所示。综上所述:(1)不同的边缘类别对裂缝检测性能的影响不同;(2)两种边缘类别的结合会促进效果的进步;(3)同时利用四种边类,会使网络达到最佳效果。因此,本发明最终决定使用所有四种边缘类型来辅助裂缝检测。
与SOTA方法的比较:
将本发明的模型与SOTA方法在四个基准数据集上进行了比较。在这4个数据集中,Crack500和CFD是无噪声裂缝数据集,而GAPS384和NCD是多噪声裂缝数据集。本发明在所有四个基准数据集上都获得了最先进的结果。本发明对所有方法采用相同的主干、超参数和损失函数。裂缝检测和边缘检测具有很高的相关性,因此选择了三种边缘检测方法HED、RCF、PiDiNet和三种裂缝检测方法FPHBN、 RCDNN、DcsNet来与本发明的方法MTSCD 进行比较。
在Crack500上的比较:如表3所示,本发明的方法在所有指标上都达到了最先进的结果。它在每个标准上分别超过了10.71%、23.17%和20.52% 的第二佳结果。与其他SOTA方法相比,本发明的方法很有竞争力。
在GAPS384上的对比:这个数据集包含了大量的阴影和油漆噪声裂缝图像,这是一个非常具有挑战性的数据集。请注意,模型仅在Crack500和NCD训练集上进行训练,因此在GAPS384和CFD数据集上的测试结果可以很好地反映所有方法的泛化。对比结果如表4所示。本发明在所有指标上仍然取得了最先进的结果。而其他方法对GAPS384的影响也大大超过了他们原始论文中的数据。本发明将其归因于更强大的 ResNext101骨干,这也证明了本发明比较的公正性。
表3 与SOTA方法在Crack500测试集上的对比结果
表4 与SOTA方法在GAPS384上的对比结果
表中Holistically-Nested Edge Detection (HED) -- 整体嵌套边缘检测
Richer Convolutional Features for Edge Detection (RCF) --用于边缘检测的更丰富的卷积特征
Feature Pyramid and Hierarchical Boosting Network for Pavement CrackDetection (FPHBN) -- 路面裂缝检测的特征金字塔和层次提升网络
Road Crack Detection Network Under Noise Based on Feature PyramidStructure with Feature Enhancement (RCDNN) -- 基于特征金字塔结构和特征增强的噪声环境下道路裂缝检测网络
Pixel Difference Networks for Efficient Edge Detection (PiDiNet) --用于高效边缘检测的像素差分网络
Dcsnet: a real-time deep network for crack segmentation (Dcsnet)-- 一种用于裂纹分割的实时深度网络
CFD上的对比:这个数据集也只用于测试,但它包含的噪声裂缝图像很少。对比结果如表5所示。本发明仍有一定的领先优势。在AIU 指标下,本发明比第二好的方法提高了56.28%,这说明本发明的预测图更与地面真值图一致。在NCD上的比较:它也是一个具有多噪声裂缝图像的具有挑战性的数据集。可以清楚地看到表6对比结果。本发明仍然优于其他方法,但差距并不显著。可能是由于NCD中的图像包含了各种各样的噪声,有些图片本身就很难预测。较小的数值差距也证明了MTSCD与其他方法相比具有足够的优势。
表5与SOTA方法CFD对比结果
表6与SOTA方法在NCD测试集上的对比结果
本发明巧妙地构建了多任务,即边缘分类、裂缝区域检测和裂缝计数。为每个任务设计解码器,对于裂缝区域,本发明设计了一个两级解码器。第一阶段解码器专注于裂缝区域的增强,第二阶段解码器在保持训练目标一致的同时,更专注于裂缝和多个边缘类别之间的信息交互。本发明将设计好的多任务模型馈送到教师网络和学生网络中,并使用额外的未标记数据来训练网络。大量的实验证明了模型结构和多任务设计的合理性和有效性。在SOTA方法的比较中,本发明在多个数据集的所有标准上都取得了最好的结果。
一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
以上对所提出的一种半监督多任务现实图像裂缝检测***及方法,进行了详细介绍,对的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解的方法及其核心思想;同时,对于本领域的一般技术人员,依据的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对的限制。
Claims (7)
1.一种半监督多任务现实图像裂缝检测方法,其特征在于:
所述方法具体包括以下步骤:
步骤1,根据边缘不连续分类的原理,将边缘分为四类;处理裂缝、噪声和边缘,然后生成地面真值图;
步骤2,对步骤1分类的边缘贴标签,得到标记的边缘图,分组得到边缘的聚合信息;对四种类型的边缘进行分组,根据RINDNet和FPAFNet,深度边缘(Depthedges)和正常边缘(Normaledges)对全尺度特征信息感兴趣,而反射边缘(Reflectanceedges)和光照边缘(Illuminationedges)只对大尺度特征图的精细信息感兴趣;
因此,将四种类型的边缘成对分组,Ed,n是深度边缘和正常边缘的聚合信息,Er,i是反射边缘和光照边缘的聚合信息,并执行以下信息聚合步骤:
Ed,n=σ(Den2345)*(R1+R5)
Er,i=σ(Den23)*(R1+R5)
其中,σ为sigmoid函数,Den表示短连接,Den下角标的数字表示边,这些都被输入短连接;Rk是主干上的某一面;
步骤3,为四类边缘和裂缝计数构建单独的解码器,为裂缝区域构建两级解码器;对于裂缝计数解码器的构造,采用ResNext101作为编码器,首先准备编码器的最高层的特征图,即R5,然后对其空间信息进行压缩,并采用全连接层输出对裂缝数量的预测,将其每级最后一层的输出,即R1、R2、R3、R4、R5作为解码器的输入;最后,与边缘不同的是,只通过CCG对它进行监督,不让它参与后续的计算;
对于裂缝区域,构建两级解码器,所述两级解码器分别为:第一阶段解码器和第二阶段解码器;
所述第一阶段解码器用于增强裂缝区域的特征表示,由短连接和第一级预测头组成;短连接后的输出分别记为D2、D3、D4,而D1和D5分别是R1和R5的副本,然后D2、D3、D4、D5被送入共享的第一阶段预测头和第二阶段解码器;
所述第二阶段解码器用于促进边缘和裂缝或边缘和噪声之间的关联;边缘特征图被输送到第二级解码器中,通过统一的交叉交互模块与裂缝信息交互;信息交互后的特征图标记为C2、C3、C4、C5;然后将它们通过加法进行聚合,并与C2、C3、C4、C5一起输入由3x3卷积和1x1卷积组成的第二阶段预测头,生成融合的预测图和第二阶段的侧输出;
所述第一级预测头以Transformer块为基础,让q、k、v分别经历不同级别的信息,q、k、v是输入经过线性变换后的信息编码;q代表查询(query),k代表键(key),v代表值(value);经过自注意机制对各种信息进行汇总后,改变后的FFN进一步强化了群体信息,生成了预测图;
首先采用简单的3x3卷积+1x1卷积块来进一步挖掘q上的局部信息,而对于k和v,使用全局平均池化层来降低它们的分辨率;对于k,随后利用SE模块增强k感知所有通道全局信息的能力;对于v,使用两个1x1卷积对通道进行操作;
采用1x1卷积来促进通道之间的信息交换,然后在输出上执行2个组的群归一化操作;然后使用一个2组的1x1组卷积来处理之前归一化和激活后的输出,连接一个有4组的组归一化层;重复这个过程两次,以方便v获得组间的差异,同时对每组中有用的频道给予更高的评级;划分和训练q、k、v的过程可以用下面的公式表示:
q=C1(C3(q))
k=SE(AvgPool(k))
v=GN(GC1(GN(C1(AvgPool(v)))))
其中,q、k、v分别是输入经过线性变换后的信息编码,C1和C3分别代表核大小为1x1和3x3的卷积层,SE代表压缩-扩张方法,G代表当前卷积为组卷积,GN代表组归一化操作;
随后,对q、k、v的最后两个维度进行平面化,并对新张量的最后两个维度进行转置;N=H*W,而H和W是当前特征图的高度和宽度,N表示运算后的二维图片坍缩为一维数据的结果;
利用公式来计算局部像素和全局压缩通道的相似度矩阵:
其中S为求得的相似度矩阵,其编码的是每个像素和全局信息之间的关系,Q为输入经过线性变换后的查询信息编码,K为输入经过线性变换后的键值信息编码,T表示矩阵转置;
按照v中的分组思想来替换前馈神经网络FFN,利用3x3卷积来消除混叠效应,采用GN进行归一化;利用Softmax函数按通道维度激活归一化结果;最终的映射图只有1个通道,作为第一阶段的侧输出;上面的计算过程可以表示为:
Pre=Sumc(x*Softmax(GN(C3(r))))
其中Pre为计算得到的预测图,r为相似度矩阵S与值v做矩阵乘法后得到的结果,为除D1之外的每个Dk添加第一阶段预测头,并让权重在预测头之间共享;
步骤4,对图像中估计的裂缝数量进行监督,对裂缝区域进行监督,进而完成多任务现实图像裂缝检测。
2.根据权利要求1所述方法,其特征在于:在步骤1中,
根据所述边缘不连续分类将边缘分为四类:深度边缘(Depthedges)、正常边缘(Normaledges)、反射边缘(Reflectanceedges)和光照边缘(Illuminationedges);
所述深度边缘(DepehEdges)通常是由于图像对象与相机之间的深度不一致造成的;所述正常边缘(Normaledges)是由边缘中的不连续性产生的;所述反射边缘(Reflectanceedges)是由光滑物体表面的变化产生的;所述光照边缘(Tlluminationedges)是由光照形成的的因素;
深度边缘(DepthEdges)和正常边缘(NormalEdges)对裂缝做出响应,而反射边缘(ReflectanceEdges)和光照边缘(IlluminationEdges)检测噪声;
主要的噪声、阴影,将被检测为光照边缘(Illuminationedges),而在光滑的道路上引起颜色变化的其他噪声将被检测为反射边缘(Reflectanceedges)。
3.根据权利要求2所述方法,其特征在于:在步骤2中,
采用SOTAs边缘分类算法的预测结果作为边缘类别的标签;选择FPAFNet作为GT生成方法;
将训练集输入到FPAFNet中,得到标记的边缘图,
估计裂纹区域的数量:首先取裂缝区域的地面真值图,然后屏蔽掉微小的裂缝;再计算标签图中裂缝的连通性,每个连接的区域被算作一个裂缝;最后设置一个阈值NT,并将图像中最终裂缝数量的真实值CCG表示为:
CCG=Max(Nconn,NT)。
4.根据权利要求3所述方法,其特征在于:
在所述统一的交叉交互模块中,边缘类别与裂缝或噪声之间存在粗略对应关系,即深度边缘和普通边缘多属于裂缝,而反射边和照明边多属于噪声;
首先确定四种类型的边缘与哪一侧Dk相互作用并根据匹配好的层将边缘图与裂缝图相加后经过一个3x3的卷积层完成第一步聚合;然后利用反向沙漏块的结构和sigmoid函数分别构造边缘和裂缝的权值图,完成了第二步分散;将第二步得到的权重图全部与第一步得到的结果相乘,实现了第三步的聚合。
5.根据权利要求4所述方法,其特征在于:在步骤4中,
所述多任务为边缘分类、裂缝区域检测和裂缝计数;采用交叉熵损失函数对所有裂缝区域和边缘类别进行监督,采用MSE对裂缝计数进行监督。
6.一种半监督多任务现实图像裂缝检测***,其特征在于:
所述***包括分类模块、GT模块、解码器模块和监督模块;
所述分类模块根据边缘不连续分类的原理,将边缘分为四类;处理裂缝、噪声和边缘,然后生成地面真值图;
所述GT模块对分类的边缘贴标签,得到标记的边缘图,分组得到边缘的聚合信息;对四种类型的边缘进行分组,根据RINDNet和FPAFNet,深度边缘(Depthedges)和正常边缘(Normaledges)对全尺度特征信息感兴趣,而反射边缘(Reflectanceedges)和光照边缘(Illuminationedges)只对大尺度特征图的精细信息感兴趣;
因此,将四种类型的边缘成对分组,Ed,n是深度边缘和正常边缘的聚合信息,Er,i是反射边缘和光照边缘的聚合信息,并执行以下信息聚合步骤:
Ed,n=σ(Den2345)*(R1+R5)
Er,i=σ(Den23)*(R1+R5)
其中,o为sigmoid函数,Den表示短连接,Den下角标的数字表示边,这些都被输入短连接;Rk是主干上的某一面;
所述解码器模块为四类边缘和裂缝计数构建单独的解码器,为裂缝区域构建两级解码器;对于裂缝计数解码器的构造,采用ResNext101作为编码器,首先准备编码器的最高层的特征图,即R5,然后对其空间信息进行压缩,并采用全连接层输出对裂缝数量的预测,将其每级最后一层的输出,即R1、R2、R3、R4、R5作为解码器的输入;最后,与边缘不同的是,只通过CCG对它进行监督,不让它参与后续的计算;
对于裂缝区域,构建两级解码器,所述两级解码器分别为:第一阶段解码器和第二阶段解码器;
所述第一阶段解码器用于增强裂缝区域的特征表示,由短连接和第一级预测头组成;短连接后的输出分别记为D2、D3、D4,而D1和D5分别是R1和R5的副本,然后D2、D3、D4、D5被送入共享的第一阶段预测头和第二阶段解码器;
所述第二阶段解码器用于促进边缘和裂缝或边缘和噪声之间的关联;边缘特征图被输送到第二级解码器中,通过统一的交叉交互模块与裂缝信息交互;信息交互后的特征图标记为C2、C3、C4、C5;然后将它们通过加法进行聚合,并与C2、C3、C4、C5一起输入由3x3卷积和1x1卷积组成的第二阶段预测头,生成融合的预测图和第二阶段的侧输出;
所述第一级预测头以Transformer块为基础,让q、k、v分别经历不同级别的信息,q、k、v是输入经过线性变换后的信息编码;q代表查询(query),k代表键(key),v代表值(value);经过自注意机制对各种信息进行汇总后,改变后的FFN进一步强化了群体信息,生成了预测图;
首先采用简单的3x3卷积+1x1卷积块来进一步挖掘q上的局部信息,而对于k和v,使用全局平均池化层来降低它们的分辨率;对于k,随后利用SE模块增强k感知所有通道全局信息的能力;对于v,使用两个1x1卷积对通道进行操作;
采用1x1卷积来促进通道之间的信息交换,然后在输出上执行2个组的群归一化操作;然后使用一个2组的1x1组卷积来处理之前归一化和激活后的输出,连接一个有4组的组归一化层;重复这个过程两次,以方便v获得组间的差异,同时对每组中有用的频道给予更高的评级;划分和训练q、k、v的过程可以用下面的公式表示:
q=C1(C3(q))
k=SE(AvgPool(k))
v=GN(GC1(GN(C1(AvgPool(v)))))
其中,q、k、v分别是输入经过线性变换后的信息编码,C1和C3分别代表核大小为1x1和3x3的卷积层,SE代表压缩-扩张方法,G代表当前卷积为组卷积,GN代表组归一化操作;
随后,对q、k、v的最后两个维度进行平面化,并对新张量的最后两个维度进行转置;N=H*W,而H和W是当前特征图的高度和宽度,N表示运算后的二维图片坍缩为一维数据的结果;
利用公式来计算局部像素和全局压缩通道的相似度矩阵:
其中S为求得的相似度矩阵,其编码的是每个像素和全局信息之间的关系,Q为输入经过线性变换后的查询信息编码,K为输入经过线性变换后的键值信息编码,T表示矩阵转置;
按照v中的分组思想来替换前馈神经网络FFN,利用3x3卷积来消除混叠效应,采用GN进行归一化;利用Softmax函数按通道维度激活归一化结果;最终的映射图只有1个通道,作为第一阶段的侧输出;上面的计算过程可以表示为:
Pre=Sumc(x*Softmax(GN(C3(r))))
其中Pre为计算得到的预测图,r为相似度矩阵S与值v做矩阵乘法后得到的结果,为除D1之外的每个Dk添加第一阶段预测头,并让权重在预测头之间共享;
所述监督模块对图像中估计的裂缝数量进行监督,对裂缝区域进行监督,进而完成多任务现实图像裂缝检测。
7.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310876653.5A CN116596930B (zh) | 2023-07-18 | 2023-07-18 | 一种半监督多任务现实图像裂缝检测***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310876653.5A CN116596930B (zh) | 2023-07-18 | 2023-07-18 | 一种半监督多任务现实图像裂缝检测***及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116596930A CN116596930A (zh) | 2023-08-15 |
CN116596930B true CN116596930B (zh) | 2023-09-22 |
Family
ID=87590330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310876653.5A Active CN116596930B (zh) | 2023-07-18 | 2023-07-18 | 一种半监督多任务现实图像裂缝检测***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116596930B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416307A (zh) * | 2018-03-13 | 2018-08-17 | 北京理工大学 | 一种航拍图像路面裂缝检测方法、装置及设备 |
CN112489023A (zh) * | 2020-12-02 | 2021-03-12 | 重庆邮电大学 | 一种基于多尺度和多层次的路面裂缝检测方法 |
CN113436169A (zh) * | 2021-06-25 | 2021-09-24 | 东北大学 | 一种基于半监督语义分割的工业设备表面裂纹检测方法及*** |
CN116091426A (zh) * | 2022-12-28 | 2023-05-09 | 杭电(丽水)研究院有限公司 | 一种基于编-解码器的路面裂纹检测方法 |
CN116309485A (zh) * | 2023-03-24 | 2023-06-23 | 重庆邮电大学 | 一种改进UNet网络结构的路面裂缝检测方法 |
CN116309536A (zh) * | 2023-04-23 | 2023-06-23 | 西安理工大学 | 一种路面裂缝检测方法及存储介质 |
-
2023
- 2023-07-18 CN CN202310876653.5A patent/CN116596930B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416307A (zh) * | 2018-03-13 | 2018-08-17 | 北京理工大学 | 一种航拍图像路面裂缝检测方法、装置及设备 |
CN112489023A (zh) * | 2020-12-02 | 2021-03-12 | 重庆邮电大学 | 一种基于多尺度和多层次的路面裂缝检测方法 |
CN113436169A (zh) * | 2021-06-25 | 2021-09-24 | 东北大学 | 一种基于半监督语义分割的工业设备表面裂纹检测方法及*** |
CN116091426A (zh) * | 2022-12-28 | 2023-05-09 | 杭电(丽水)研究院有限公司 | 一种基于编-解码器的路面裂纹检测方法 |
CN116309485A (zh) * | 2023-03-24 | 2023-06-23 | 重庆邮电大学 | 一种改进UNet网络结构的路面裂缝检测方法 |
CN116309536A (zh) * | 2023-04-23 | 2023-06-23 | 西安理工大学 | 一种路面裂缝检测方法及存储介质 |
Non-Patent Citations (2)
Title |
---|
Deeply Supervised Salient Object Detection with Short Connections;Qibin Hou等;《2017 IEEE Conference on Computer Vision and Pattern Recognition》;论文第5300-5309页 * |
Feature pyramid with attention fusion for edge discontinuity classification;Mingsi Sun等;《Machine Vision and Applications34,34(23)》;论文1-15页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116596930A (zh) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Grm et al. | Strengths and weaknesses of deep learning models for face recognition against image degradations | |
CN110598029B (zh) | 基于注意力转移机制的细粒度图像分类方法 | |
CN112750140B (zh) | 基于信息挖掘的伪装目标图像分割方法 | |
CN108171701B (zh) | 基于u网络和对抗学习的显著性检测方法 | |
CN113641820B (zh) | 基于图卷积神经网络的视角级文本情感分类方法及*** | |
Kadam et al. | Detection and localization of multiple image splicing using MobileNet V1 | |
CN107330364A (zh) | 一种基于cGAN网络的人群计数方法及*** | |
Qian et al. | Sequence-dropout block for reducing overfitting problem in image classification | |
CN109948692B (zh) | 基于多颜色空间卷积神经网络及随机森林的计算机生成图片检测方法 | |
US20220319233A1 (en) | Expression recognition method and apparatus, electronic device, and storage medium | |
CN113011357A (zh) | 基于时空融合的深度伪造人脸视频定位方法 | |
CN115619743A (zh) | Oled新型显示器件表面缺陷检测模型的构建方法及其应用 | |
CN113034506B (zh) | 遥感图像语义分割方法、装置、计算机设备和存储介质 | |
CN110751072B (zh) | 基于知识嵌入图卷积网络的双人交互识别方法 | |
CN115661505A (zh) | 一种语义感知的图像阴影检测方法 | |
CN114882278A (zh) | 一种基于注意力机制和迁移学习的轮胎花纹分类方法和装置 | |
CN116612283A (zh) | 一种基于大卷积核骨干网络的图像语义分割方法 | |
Liu et al. | Lightweight ViT model for micro-expression recognition enhanced by transfer learning | |
CN114581789A (zh) | 一种高光谱图像分类方法及*** | |
Ma et al. | Facial expression recognition method based on PSA—YOLO network | |
Ding et al. | Rethinking click embedding for deep interactive image segmentation | |
CN113554653A (zh) | 基于互信息校准点云数据长尾分布的语义分割方法 | |
CN117409358A (zh) | 一种融合BiFPN的轻量化火焰检测方法 | |
CN116596930B (zh) | 一种半监督多任务现实图像裂缝检测***及方法 | |
CN112766134A (zh) | 一种强化类间区分的表情识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |