CN116912257A - 基于深度学习的混凝土路面裂缝识别方法及存储介质 - Google Patents
基于深度学习的混凝土路面裂缝识别方法及存储介质 Download PDFInfo
- Publication number
- CN116912257A CN116912257A CN202311181886.XA CN202311181886A CN116912257A CN 116912257 A CN116912257 A CN 116912257A CN 202311181886 A CN202311181886 A CN 202311181886A CN 116912257 A CN116912257 A CN 116912257A
- Authority
- CN
- China
- Prior art keywords
- decoder
- layer
- output
- encoder
- concrete pavement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013135 deep learning Methods 0.000 title claims abstract description 21
- 238000003062 neural network model Methods 0.000 claims abstract description 35
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 230000004927 fusion Effects 0.000 claims abstract description 18
- 238000003709 image segmentation Methods 0.000 claims abstract description 4
- 238000011176 pooling Methods 0.000 claims description 37
- 238000010586 diagram Methods 0.000 claims description 32
- 239000011159 matrix material Substances 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 abstract description 31
- 230000000694 effects Effects 0.000 abstract description 13
- 230000008569 process Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 40
- 238000001514 detection method Methods 0.000 description 35
- 230000007246 mechanism Effects 0.000 description 19
- 238000013528 artificial neural network Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 14
- 230000004913 activation Effects 0.000 description 12
- 230000000052 comparative effect Effects 0.000 description 10
- 239000000284 extract Substances 0.000 description 10
- 238000010606 normalization Methods 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 6
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 5
- 230000007547 defect Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 206010027146 Melanoderma Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 208000003464 asthenopia Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A30/00—Adapting or protecting infrastructure or their operation
- Y02A30/60—Planning or developing urban green infrastructure
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于深度学习的混凝土路面裂缝识别方法及存储介质,方法包括获取混凝土路面图像,利用训练好的神经网络模型对路面图像进行图像分割,分割出路面图像中的裂缝,神经网络模型包括梯度融合输入模块、编码器模块、解码器模块和输出层,梯度融合输入模块处理路面图像,编码器模块对处理后的路面图像进行特征提取和下采样,解码器模块对编码器模块的输出进行反卷积,输出层对解码器模块的输出图进行拼接,分割出路面图像中的裂缝。本发明结合了深层全局信息与浅层细节信息,提高了有效特征的利用率,使得裂缝的提取更加连续、完整,增强了网络提取特征信息和剔除伪裂缝的能力,达到更优的裂缝分割效果。本发明应用于语义分割技术领域。
Description
技术领域
本发明涉及语义分割技术领域,尤其是基于深度学习的混凝土路面裂缝识别方法及存储介质。
背景技术
公路表面的混凝土裂缝是公路最为常见的损伤类型,裂缝的出现往往意味着公路开始退化,但由于裂缝分布的随机性,许多细小的裂缝容易因为与车辙、水渍等噪声过于相似而造成漏检误检,导致不能及时发现,从而产生较大的安全隐患。可见,排除水渍等伪裂缝干扰的同时准确地完成此类细小裂缝的检测方法研究具有着重大意义。传统的裂缝检测方法采用人工检测的方式,此方式具有较强的主观性,对检测人员的工作状态和专业素养具有较强的依赖性,不仅耗费人力物力,而且检测效率低下。随着人工智能的发展,引入深度学习技术的混凝土路面裂缝图像识别***是公路养护发展的大势所趋。目前,大部分的混凝土路面裂缝自动检测技术采用的是传统的全卷积神经网络,如U-Net、VGG16等,这类传统的神经网络对图像的要求较高,算法的泛化能力较差,存在的检测裂缝不完整、不连续以及伪裂缝错误检测等问题,未能达到较好的语义分割效果。而少部分的混凝土路面裂缝自动检测技术采用的则是改进后的全卷积神经网络,达到了良好的语义分割效果,能够克服传统的全卷积神经网络的缺陷,在一定程度上提高了裂缝的识别精度和检测效率。然而,大部分改进后的全卷积神经网络仍旧没有关注多个编码器和单个解码器之间的信息传递,其编码器-解码器结构只存在简单的级联和密集连接关系,网络并未构建相邻编码器的输出信息间的关联性,致使图像特征的细节信息丢失,存在提取的图像特征不够丰富、无法在复杂的环境中将伪裂缝进行剔除等问题,裂缝的分割效果和检测精度有待提高。
发明内容
本发明的目的在于至少一定程度上解决现有技术中存在的技术问题之一。
为此,本发明的目的在于提供基于深度学习的混凝土路面裂缝识别方法及存储介质。
为了达到上述技术目的,本发明实施例所采取的技术方案包括:
一方面,本发明实施例提供了基于深度学习的混凝土路面裂缝识别方法,包括以下步骤:
获取混凝土路面图像;
利用训练好的神经网络模型对所述混凝土路面图像进行图像分割,分割出所述混凝土路面图像中的裂缝;
其中,所述训练好的神经网络模型利用已标记的混凝土路面的样本图像和对应的标记结果进行训练得到,所述神经网络模型包括:
梯度融合输入模块,用于对所述混凝土路面图像进行处理,得到待编码特征图;
编码器模块,用于对所述待编码特征图进行特征提取和下采样;
解码器模块,与所述编码器模块密集连接,用于对所述编码器模块的输出进行反卷积,得到所述混凝土路面图像中的多个裂缝特征图;
输出层,用于对多个所述裂缝特征图进行拼接,生成所述混凝土路面图像中的裂缝。
另一方面,本发明实施例提供了一种存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于实现上述的基于深度学习的混凝土路面裂缝识别方法。
本发明的有益效果是:提供基于深度学习的混凝土路面裂缝识别方法及存储介质,通过改进神经网络模型实现混凝土路面图像中的裂缝的分割,改进神经网络模型包括梯度融合输入模块、编码器模块、解码器模块和输出层。本发明创新性地在语义分割网络中改变编码器模块和解码器模块的密集连接方式,使得深层的特征信息传播到浅层,通过将深层的抽象全局信息与浅层的细节信息结合起来,对有效特征进行重复利用,提高了有效特征的利用率,让网络提取的特征信息更加丰富,使得网络对裂缝的提取更加连续、完整,能够克服相关技术中全局信息干扰编码器的深层特征提取、无法将伪裂缝剔除等问题;另外,本发明将融合梯度机制与输入层进行结合,有利于捕获图像中更细粒度的纹理特征,避免一些细节信息的丢失;本发明有效地增强网络对全局特征信息的提取能力和学习能力,以及对伪裂缝的识别和剔除能力,提高了图像裂缝检测的精确度和裂缝分割的效果,具有高可用性。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员来说,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1为本发明提供的基于深度学习的混凝土路面裂缝识别方法的流程图;
图2为本发明提供的改进神经网络模型的网络结构图;
图3为本发明提供的改进神经网络模型的数据流图;
图4为本发明提供的梯度融合输入模块的结构图;
图5为本发明提供的编码器模块、解码器模块和输出层的结构图;
图6为本发明提供的解码器模块的自注意力机制的流程图;
图7为本发明提供的改进神经网络模型、对比网络1和对比网络2的P-R曲线图;
图8为本发明提出的改进神经网络模型、对比网络1和对比网络2的裂缝分割的效果图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
下面结合说明书附图和具体的实施例对本申请进行进一步的说明。所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
公路表面的混凝土裂缝是公路最为常见的损伤类型,裂缝的出现往往意味着公路开始退化,但由于裂缝分布的随机性,许多细小的裂缝容易因为与车辙、水渍等噪声过于相似而造成漏检误检,导致不能及时发现,从而产生较大的安全隐患。因此,排除水渍等伪裂缝干扰的同时,准确地完成此类细小裂缝的检测方法研究具有着重大意义。
传统的裂缝检测方法采用人工检测的方式,此种方法十分耗费人力物力,有着昂贵的时间成本,而且检测人员需要仔细甄别许多过细的裂缝很容易导致视觉疲劳,检测效率低下,另外,基于人工的裂缝检测具有较大的主观性,对检测人员的工作状态和专业素养有较强的依赖性。因此,引入自动化技术的混凝土路面裂缝图像识别***是公路养护发展的大势所趋。
目前,大部分的混凝土路面裂缝自动检测技术采用的是传统的语义分割网络,如U-Net、VGG16等全卷积神经网络(Fully Convolutional Networks,FCN)。这类传统的神经网络对图像的要求较高,算法的泛化能力较差,存在的检测裂缝不完整、不连续以及伪裂缝错误检测等问题,未能达到较好的语义分割效果。具体地,传统的语义分割网络可分为两类:无监督算法和有监督算法,其中,无监督算法根据附加条件对图像像素进行分类,易受噪声影响,检测的准确率低;有监督的算法则通过学习神经网络提取的丰富的层次特征来对裂缝图像进行检测,但是神经网络提取的浅层特征不够全面,无法较好地剔除枯枝落叶、水渍、阴影等伪裂缝噪声,而较深的网络虽然能提取较为完整的特征,却存在不易收敛且计算量较大等问题,存在不易训练、效率低的缺点。
相关技术中,少部分的混凝土路面裂缝自动检测技术采用的则是改进后的全卷积神经网络,达到了良好的语义分割效果,能够克服传统的全卷积神经网络的缺陷,在一定程度上提高了裂缝的识别精度和检测效率。然而,大部分改进后的全卷积神经网络仍旧没有关注多个编码器和单个解码器之间的信息传递,其编码器-解码器结构只存在简单的级联和密集连接关系,网络并未构建相邻编码器的输出信息间的关联性,致使图像特征的细节信息丢失,存在提取的图像特征不够丰富、无法在复杂的环境中将伪裂缝进行剔除等问题,裂缝的分割效果和检测精度有待提高。
针对传统算法的泛化能力较差,存在的检测裂缝不完整、不连续以及伪裂缝错误检测等问题,以及改进算法并未关注多个编码器和单个解码器之间的信息传递,致使图像特征的细节信息丢失,存在提取的图像特征不够丰富、无法在复杂的环境中将伪裂缝进行剔除等问题,本发明提出了一种基于融合梯度和编码器与解码器进行特殊的密集连接的混凝土路面裂缝识别算法,具体为基于深度学习的混凝土路面裂缝识别方法及存储介质,能够对混凝土路面图像快速、高效、准确地进行裂缝检测,实现轻量化的混凝土路面裂缝识别,在提高算法的学习能力的同时保证了混凝土路面裂缝识别的检测效率和识别精度,提高混凝土路面裂缝的分割效果,具有高可用性。
首先,下面参照附图详细描述根据本发明实施例提出的混凝土路面裂缝识别方法。
本发明实施例中提供混凝土路面裂缝识别方法,本发明实施例中的方法,可应用于终端中,也可应用于服务器中,还可以是运行于终端或服务器中的软件等。终端可以是平板电脑、笔记本电脑、台式计算机等,但并不局限于此。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1,本发明实施例提出的混凝土路面裂缝识别方法主要包括如下步骤:
S101,获取混凝土路面图像。
需要说明的是,混凝土路面图像为待测图像,其中包含至少一条裂缝,裂缝为待识别和/或待分割的目标。
S102,利用训练好的神经网络模型对混凝土路面图像进行图像分割,分割出混凝土路面图像中的裂缝。
需要说明的是,本发明实施例通过混凝土路面的样本数据集对神经网络模型进行训练,以得到训练好的神经网络模型,样本数据集包括已标记的混凝土路面的样本图像及其对应的标记结果。
可选地,采用手动采集标定的数据集和公共数据集作为样本数据集,公共数据集为可从公共渠道获得的DeepCrack混凝土裂缝数据集。
其次,下面参照附图详细描述根据本发明实施例提出的神经网络模型。
参照图2,本发明实施例提出的神经网络模型主要包括:
梯度融合输入模块,其作用是处理混凝土路面图像,生成待编码特征图。
编码器模块,包括多个编码器,其作用是对待编码特征图进行特征提取和下采样。
解码器模块,包括多个解码器,其作用是对编码器模块的输出进行反卷积,得到混凝土路面图像中的多个裂缝特征图。
输出层,其作用是对多个裂缝特征图进行拼接,得到混凝土路面图像中的裂缝。
本发明实施例中,梯度融合输入模块的输入端输入混凝土路面图像,其输出端与编码器模块的第一个编码器的输入端连接。在编码器模块中,多个编码器依次级联,上一个编码器输出的特征图将作为下一个编码器的输入。编码器模块与解码器模块构成密集连接,密集连接的方式将在后续阐述。在解码器模块中,多个解码器均与多个编码器对应设置且密集连接,构成编码器-解码器对。其中,多个解码器之间的反卷积运算和特征处理相互独立,多个解码器将对相应的编码器输出的特征图进行处理后生成相应的裂缝特征图。多个解码器的输出端均与输出层的输入端进行连接,输出层将多个解码器的输出进行拼接,以分割出混凝土路面图像中的裂缝,实现混凝土路面图像的裂缝分割。
下面结合图3以及其他附图对本发明提出的神经网络模型中的各模块的结构和功能进行详细说明。图3所示为本发明提供的改进神经网络模型的数据流图,图3中的“Non-Local”是指自注意力机制,“Concatenate”是指拼接,“Sobel”是指Sobel算子,“Laplace”是指拉普拉斯算子。
1)梯度融合输入模块的结构和功能如下:
参照图3和图4,本发明的梯度融合输入模块包括梯度层和梯度输出层的两层结构,梯度层和梯度输出层顺次连接,梯度层采用第一梯度层与第二梯度层并接的结构。混凝土路面图像分别输入至第一梯度层和第二梯度层中进行处理。
具体地,在第一梯度层中,其作用是利用Sobel算子对混凝土路面图像进行卷积操作,得到第一梯度特征图。在第二梯度层中,其作用是利用Laplace算子对混凝土路面图像进行卷积操作,并将卷积操作的结果与混凝土路面图像进行相加,生成第二梯度特征图并将其通过三层卷积层输出至梯度输出层。而在梯度输出层中,其作用是将第一梯度特征图和第二梯度特征图进行拼接,得到待编码特征图。
需要说明的是,Sobel 算子常用于图像识别中的边缘检测,计算图像灰度函数的近似梯度。Laplace算子即为拉普拉斯算子,拉普拉斯算子关心的是图像灰度的突变而不强调灰度缓慢变化的区域,对边缘的定位能力更强。
作为进一步的实施方式,在第一梯度层中,将横向的Sobel一阶差分算子作为卷积核,对混凝土路面图像的横坐标方向进行卷积操作,得到混凝土路面图像在横坐标方向的梯度矩阵,即横向梯度矩阵。同样地,将纵向的Sobel一阶差分算子作为卷积核,对混凝土路面图像的纵坐标方向进行卷积操作,得到混凝土路面图像在纵坐标方向的梯度矩阵,即纵向梯度矩阵。然后,将得到的纵向、横向梯度矩阵进行按元素加权相加以得到第一梯度层的输出,即第一梯度特征图。
可选地,第一梯度层的横向和纵向的Sobel算子均为33的Sobel一阶差分算子。
作为进一步的实施方式,在第二梯度层中,首先,采用拉普拉斯二阶差分算子作为卷积核作用于混凝土路面图像,以实现对混凝土路面图像的卷积操作,生成卷积特征图。然后,将卷积特征图与输入至第二梯度层中的混凝土路面图像进行相加,生成第二梯度特征图。之后,通过三层卷积层结构输出第二梯度特征图至梯度输出层。
可选地,第二梯度层的拉普拉斯算子为33的拉普拉斯二阶差分算子。
需要说明的是,卷积层的目的是通过卷积运算以保持像素之间的层关系,以及提取图像中的特征信息,其中卷积运算得到的结果通常称为特征图(Feature Map)。卷积层的主要参数包括卷积核和步长(padding)。而对于一个二维卷积而言,位于第i层的第j个特征立方体的位置的值可以由下面的公式所给出:
,
其中,为激活函数,/>为偏置,/>为二维卷积核的大小,/>为在位置的权重参数。
通过上述公式,可以看出卷积核的大小对于卷积层是一个重要的参数,卷积核的大小直接影响了卷积层的特征值的提取。不同的卷积核大小的卷积层能提取到不同的特征信息。因此,本发明采用了三层卷积层结构来对第二梯度特征图进行进一步地卷积操作和非线性变换。
更进一步地,第二梯度层的三层卷积层结构包括顺次连接的第一卷积层、第二卷积层和第三卷积层,通过第一卷积层、第二卷积层和第三卷积层依次对第二梯度特征图进行进一步的卷积操作和非线性变换。其中,第一卷积层的输入端获取第二梯度特征图,第一卷积层的输出端与第二卷积层的输入端连接,第二卷积层的输出端与第三卷积层的输入端连接,第三卷积层的输出端与梯度输出层的输入端连接。
可选地,上述三层卷积层的卷积核均为33,步长均为1,无零填充。
此外,为了使网络结构的稳定,每个卷积层的后面均设置有归一化层,归一化层的后面连接有激活函数。即,每个卷积层之间连接有归一化层。其中,归一化层用于对每一批数据进行归一化,在一定程度下能够加快模型的收敛速度和缓解深度网络特征分布零散的问题。可选地,激活函数为ReLU函数,每次卷积操作后均采用ReLU函数进行非线性激活运算。
本发明针对现有技术存在的特征细节信息丢失的问题,引入了梯度融合输入模块,在通过Sobel一阶差分算子提取混凝土路面图像的梯度信息,保留图像的强纹理特征的基础上,增加了拉普拉斯二阶差分算子,目的是捕获混凝土路面图像中更细粒度的纹理特征,能够很好地克服混凝土路面图像的部分细节信息的丢失的缺陷,提高了神经网络对裂缝的分割能力和识别能力,使得网络对混凝土路面图像的裂缝的提取更为完整、连续。
2)编码器模块的结构和功能如下:
参照图3和图5,本发明的编码器模块依次设置有五个构造不同的编码器,上一个编码器的输出作为下一个编码器的输入。具体地,在编码器模块中:
第一个编码器,即第一编码器,其包括依次连接的两层编码卷积层,为两层结构,其作用是对待编码特征图进行两次卷积操作。
具体地,两层编码卷积层分别为第一编码卷积层和第二编码卷积层,第一编码卷积层的输入端即为第一编码器的输入端,其与梯度输出层的输出端连接,第一编码卷积层的输出端则与第二编码卷积层的输入端连接,第二编码卷积层的输出端与第二个编码器的输入端连接,第二编码卷积层的输出端即为第一编码器的输出端。
本发明实施例中,第一编码卷积层的作用是对待编码特征图进行第一次卷积操作,而第二编码卷积层的作用则是对第一编码卷积层的输出进行第二次卷积操作,以得到经过两次卷积操作后的待编码特征图。
可选地,第一编码卷积层和第二编码卷积层的卷积核均为33,步长均为1,无零填充。
第二个编码器,即第二编码器,包括顺次连接的一层池化层和两层编码卷积层,为三层结构,其作用是通过池化方式降低上一个编码器的输出的尺寸维度,可以将上一个编码器的输出的特征图的长宽维度减少二分之一,从而提取更高阶的语义信息,减少计算量。
可选地,池化层为最大池化层,因而池化方式为最大池化方式。
具体地,两层编码卷积层分别为第三编码卷积层和第四编码卷积层。第二编码器的池化层的输入端即为第二编码器的输入端,其与第二编码卷积层的输出端连接,第二编码器的池化层的作用是获取由第一编码器输出的特征图,即卷积操作后的待编码特征图,并利用最大池化方式来对卷积操作后的待编码特征图的尺寸维度进行降维。第二编码器的池化层的输出端与第三编码卷积层的输入端连接,第三编码卷积层的输出端与第四编码卷积层的输入端连接,第四编码卷积层的输出端即为第二编码器的输出端,其与第三个编码器的输入端连接。其中,第三编码卷积层和第四编码卷积层的作用均为对上一层的输出进行卷积操作。
可选地,第三编码卷积层和第四编码卷积层的卷积核均为33,步长均为1,无零填充。
第三个编码器、第四个编码器和第五个编码器分别作为编码器模块的第三编码器、第四编码器和第五编码器,它们的结构相同,均包括顺次连接的一层池化层和三层编码卷积层,为四层结构。第三编码器、第四编码器和第五编码器的作用是对上一个编码器的输出进行下采样和特征提取。
需要说明的是,池化层通常有两种操作方式:最大池化和平均池化。其中,最大池化会在每个池化窗口内取最大值,平均池化则会在每个池化窗口内取平均值。另外,在进行池化操作时,通常会设定池化窗口大小和步幅大小,这两个参数可以决定池化后特征图的大小。
池化层可以在多个方面对卷积神经网络的性能产生积极影响。首先,它可以减少模型的参数和计算量,有效地降低模型复杂度,并且可以有效地抑制模型过拟合,池化操作通过对特征图进行下采样,使得模型具有一定的平移不变性和部分不变性,从而提高了模型的泛化性能。此外,池化层还可以将输入特征图的大小缩小,使得后续层的计算更加高效。
可选地,池化层为最大池化层,因而池化方式为最大池化方式。
具体地,在第三编码器、第四编码器和第五编码器中的任一个编码器当中,首先,前一个编码器的输出输入至当前编码器的池化层中,其池化层即为当前编码器的输入端,池化层通过最大池化方式来对上一层编码器的输出进行下采样。此外,由于池化层的池化操作,使得输入的特征图长宽维度缩小,因此减少了后续使用三层编码卷积层所需的计算负担。然后,池化层将下采样得到的特征图输入到三层编码卷积层当中。三层编码卷积层依次对下采样得到的特征图进行特征提取,具体的特征提取方式为卷积操作,最后一层编码卷积层的输出端即为编码器的输出端。
可选地,第三编码器、第四编码器和第五编码器的编码卷积层的卷积核均为33,步长均为1,无零填充。
可选地,在编码器模块的编码器中,所有的编码卷积层的后面均连接有归一化层,归一化层的后面连接有激活函数,激活函数可选为ReLU函数。编码卷积层的每次卷积操作之后都采用ReLU函数进行非线性激活运算,以保证网络的稳定性。
3)解码器模块的结构和功能如下:
参照图3和图5,本发明的解码器模块依次设置有五个解码器,分别为第一解码器、第二解码器、第三解码器、第四解码器和第五解码器,每个解码器的作用均为对每个解码器的输入进行通道拼接和反卷积,得到每个解码器对应的裂缝特征图。
进一步地,五个解码器与五个编码器对应设置。具体地,第一解码器与第一编码器对应设置,第二解码器与第二编码器对应设置,第三解码器与第三编码器对应设置,第四解码器与第四编码器对应设置,第五解码器与第五编码器对应设置。
更进一步地,对于最后一个解码器,即第五解码器,解码器的输入为与解码器对应的编码器的输出。即,第五解码器的输入为第五编码器的输出。而对于前四个解码器,即第一解码器、第二解码器、第三解码器、第四解码器,解码器的输入为与解码器对应的编码器的输出以及与解码器对应的下位编码器的输出。
需要说明的是,与解码器对应的下位编码器定义为与解码器对应的编码器的输出端进行连接的编码器。
本发明实施例在所有解码器与所有编码器的一一对应的基础上,在解码器的输入端增加了来自下一个编码器的输出,以形成特殊的密集连接。除了最后一个解码器,即第五解码器以外,其余的所有解码器的输入均来自于对应的编码器的输出以及下一个编码器的输出,除了最后一个解码器以外的解码器均对解码器的两个输入进行通道叠加,并对通道叠加后的结果进行反卷积,以生成混凝土路面图像的裂缝特征图。具体地:
第一解码器对应于第一编码器和第二编码器,第二编码器为第一解码器对应的下位编码器,第一解码器的输入端分别与第一编码器的输出端和第二编码器的输出端连接。
第二解码器对应于第二编码器和第三编码器,第三编码器为第二解码器对应的下位编码器,第二解码器的输入端分别与第二编码器的输出端和第三编码器的输出端连接。
第三解码器对应于第三编码器和第四编码器,第四编码器为第三解码器的下位编码器,第三解码器的输入端分别与第三编码器的输出端和第四编码器的输出端连接。
第四解码器对应于第四编码器和第五编码器,第五编码器为第四解码器的下位编码器,第四解码器的输入端分别与第四编码器的输出端和第五编码器的输出端连接。
第五解码器对应于第五编码器,第五解码器为没有下位编码器,第五解码器的输入端与第五编码器的输出端连接。
更进一步地,解码器对应的编码器的输出直接输入至解码器中,而解码器对应的下位编码器的输出通过上采样层输入至解码器中。
本发明中,针对相关技术中存在的特征提取不够丰富、无法在复杂环境中将伪裂缝剔除等问题,引入了以特殊密集连接方式连接的编码器模块和解码器模块。本发明的神经网络的浅层网络提取到的是局部特征,如颜色、纹理、边缘等细节信息,而深层网络提取到的是更抽象的语义信息,使用本发明提出的特殊密集连接方式能够将深层的特征信息传播到浅层,通过将深层的抽象全局信息与浅层的细节信息结合起来,对有效特征进行了重用,即重复利用,提高了有效特征的利用率,让网络提取的特征信息更加丰富的同时很好地避免了网络加深带来的训练速度慢、梯度消失等问题。
在本发明的一些实施例中,第一解码器和第二解码器的结构相同,第三解码器和第四解码器的结构相同。但需要说明的是,第一解码器、第三解码器和第五解码器的结构均不同。每个解码器的结构具体如下:
第一解码器和第二解码器均包括通道输入层和解码卷积层,解码卷积层为至少一个,通道输入层和解码卷积层顺次连接。对于第一解码器和第二解码器而言,其通道输入层的作用是将与解码器对应的编码器的输出和与解码器对应的下位编码器的输出进行通道叠加,通道叠加的意思是按通道数进行叠加,其解码卷积层的作用是对通道叠加后的结果进行反卷积,得到解码器对应的裂缝特征图,并通过上采样层输出给网络的输出层。
需要说明的是,第一解码器的通道输入层对第一编码器和第二编码器的输出进行通道叠加。而第二解码器的通道输入层则对第二编码器和第三编码器的输出进行通道叠加。
第三解码器和第四解码器均包括通道输入层、自注意力层和解码卷积层,解码卷积层为至少一个,通道输入层、自注意力层和解码卷积层顺次连接。
对于第三解码器和第四解码器而言,其通道输入层的作用是是将与解码器对应的编码器的输出和与解码器对应的下位编码器的输出进行通道叠加,通道叠加的意思是按通道数进行叠加;其自注意力层的作用是对通道叠加后的结果进行特征选择;其解码卷积层的作用是对自注意力层的输出进行反卷积,得到解码器对应的裂缝特征图,并通过上采样层输出给网络的输出层。
需要说明的是,第三解码器的通道输入层对第三编码器和第四编码器的输出进行通道叠加,而第四解码器的通道输入层对第四编码器和第五编码器的输出进行通道叠加。
第五解码器只对应有第五编码器,因而其结构中不包含通道输入层。第五解码器包括自注意力层和解码卷积层,解码卷积层为至少一个,自注意力层和解码卷积层顺次连接。
对于第五个解码器而言,其自注意力层的作用是对与解码器对应的编码器的输出进行特征选择;其解码卷积层的作用是对自注意力层的输出进行反卷积,得到解码器对应的裂缝特征图,并通过上采样层输出给网络的输出层。
可选地,在解码器模块中的所有解码卷积层的卷积核均为11,步长为1,无零填充。
可选地,所有解码卷积层的后面均连接有归一化层,归一化层的后面连接有激活函数,激活函数可选为ReLU函数。解码卷积层的每次卷积操作之后都采用ReLU函数进行非线性激活运算,以保证网络的稳定性。
进一步地,参照图6,每一个自注意力层中,自注意力机制的实现步骤如下:
首先,获得自注意力层的输入,对输入分别做卷积核为11的卷积操作,使得输入特征图通道数减半,能够将输入特征图的通道数缩小一倍,从而降低算法的计算量。同时,获得与注意力相关的查询(Query)矩阵、键(Key)矩阵和值(Value)矩阵,其中,W、H、C、B分别对应输入特征图的宽度、高度、通道数、批量大小。
然后,对查询矩阵和键矩阵作点乘运算,得到大小为BHWBHW的相似度权重矩阵。
再者,对相似度权重矩阵进行Softmax运算,实现相似度权重矩阵的归一化。
最后,将归一化的相似度权重矩阵与值矩阵进行点乘运算,得到大小为BHWC/2的注意力(Attention)值。然后,经过1/>1的卷积核将通道数恢复到与输入特征图的通道数一致,然后将处理完的注意力值按元素叠加到输入特征图矩阵中。
更进一步地,自注意力层的输出满足如下公式:
,
式中,分别为第三个解码器至第五个解码器的自注意力层的输出,分别为第三个解码器至第五个解码器的自注意力层的输入,/>表示用于扩展通道数的矩阵,Q、K、V分别为查询矩阵、键矩阵和值矩阵。
本发明实施例在解码器模块中引入自注意力机制的原因和目的如下:
其一,在解码器模块中引入自注意力机制的目的在于:
针对相关技术中存在的检测裂缝不完整、不连续以及伪裂缝错误检测等问题,本发明的解码器模块加入自注意力机制,通过计算输入特征图中每个像素点与其他所有像素点的关联度来增强网络对全局特征信息的提取能力和学习能力,以及增强网络对伪裂缝的识别和剔除能力,提高了图像裂缝检测的精确度。
其二,选择在第三解码器至第五解码器加入自注意力机制,其原因在于:
相关技术一般在用于提取深层信息的编码器处加入自注意力机制,然而,在编码器阶段直接引入自注意力机制会丢失原有卷积层的输出结果,导致原始图像的分割会被这部分的全局信息所干扰。因此,本发明实施例采用保留编码器的卷积输出而通过拼接的连接方式,深层的编码器提取的是深层次的语义信息,如裂缝的边缘轮廓、颜色、形状等特征,本发明只在深层的编码器的输出拼接后加入注意力机制,使得解码器对关键信息赋予更多注意,同时减少无关信息的注意力程度,不仅可以增加有效特征的利用率,还可以能够克服全局信息干扰编码器的深层特征提取的问题,降低全局信息的干扰,使得网络模型对深层次语义信息的学习更加全面,提高分割的准确率。
此外,第一解码器和第二解码器分别对应于第一编码器和第二编码器,第一编码器和第二编码器并未开始进行深层的特征提取,而是进行特征处理和初步的特征提取。当第一编码器和第二编码器提取的特征信息分别传递到第一解码器和第二解码器时,由于第一编码器和第二编码器提取的特征信息并未包含深层特征信息,因而第一解码器和第二解码器无需对特征信息进行特征选择,因此,第一解码器和第二解码器并未设置有自注意力机制,以降低网络的参数。而第三解码器至第五解码器分别对应于第三编码器至第五编码器,第三编码器至第五编码器进行深层的特征信息进行提取,而后传递到第三解码器至第五解码器。为了提高第三解码器至第五解码器的全局特征信息的提取能力和学习能力,本发明在第三解码器至第五解码器加入了自注意力机制。
其三,本发明的自注意力层设置在解码卷积层之前的原因在于:
自注意力机制容易学习到包含噪声的深层语义信息,会对图像的分割结果产生干扰,降低模型的泛化性。对此,本发明将自注意力层设置在解码卷积层之前,解码卷积层的反卷积操作能够在保留网络原先学习到的特征的同时,选择是否叠加自注意力层学习到的深层语义特征,以避免噪声的深层语义信息对图像的分割结果的干扰,增加了网络模型的泛化性和鲁棒性。
4)输出层:
参照图3和图5,本发明的输出层包括输出拼接层和输出卷积层,输出拼接层和输出卷积层顺次连接,输出卷积层为至少一层。输出拼接层的作用是对解码器模块的输出进行拼接。具体地,在输出拼接层中,对第一解码器、第二解码器、第三解码器、第四解码器和第五解码器输出的裂缝特征图进行拼接。而输出卷积层的作用则为对拼接后的裂缝特征图进行卷积操作和非线性变换,得到混凝土路面图像中的裂缝并输出。
可选地,输出卷积层的卷积核为11,步长为1,无零填充。
可选地,输出卷积层的后面连接有归一化层,归一化层的后面连接有激活函数,激活函数可选为ReLU函数。输出卷积层的卷积操作之后都采用ReLU函数进行非线性激活运算,以保证网络的稳定性。
下面将通过如下实施例来验证本发明提出的混凝土路面裂缝识别方法的有效性和先进性。
为了更好地训练和验证本申请提出的神经网络模型,在语义分割的相关性能评估参数上,本发明实施例选取了如下参数来对神经网络的语义分割的性能进行评估:
全局最佳(Optimal Dataset Scale,ODS),也称为固定轮廓阈值、数据集固定比例、检测指标数据集尺度上最优,简单来说,ODS是为所有图像设置同样的阈值,即选取一个固定的阈值应用于所有图像,使得整个数据集上的F-score最大,F-score即为F1分数。
单图最佳(Optimal Image Scale,OIS),也称为每幅图像的最佳阈值、图片尺度上最优,是指在每一张图上均选取不同使得该图像F1分数最大的阈值。
平均精准率(Average Precision ,AP),是神经网络常用的衡量结果的标准。
本发明实施例选取基于全卷积神经网络模型的DeepCrack语义分割模型作为对比网络1,以专利号为 CN115272826A,名为“一种基于卷积神经网络的图像识别方法、装置及***”的中国发明专利中提出的神经网络模型作为对比网络2,本发明实施例提出的神经网络模型以及上述对比网络1和对比网络2在同一个标准的混凝土路面图像样本数据集上进行训练和验证,并将本发明实施例提出的神经网络模型、对比网络1和对比网络2的分割效果进行比对,以验证本发明实施例提出的神经网络模型的有效性。
需要说明的是,采用手动采集标定的数据集和公共数据集作为样本数据集,公共数据集为可从公共渠道获得的DeepCrack混凝土裂缝数据集。此外,对本发明实施例提出的神经网络模型、对比网络1和对比网络2进行训练时,均采用相同的如初始学习率、动量、批处理数、输入图像的尺寸、最大训练轮数、损失函数等训练参数。
参照下表1,表1所示为本发明实施例提出的神经网络模型、对比网络1和对比网络2的语义分割的性能评估表。
表1 语义分割的性能评估表
通过上表1可见:本发明实施例提出的神经网络模型呈现了最佳的结果,在AP、OIS、ODS指标上都达到了最高值。
值得注意的是,对比网络1并未设置有融合梯度机制,同时缺乏对多个编码器和单个解码器之间的信息传递的关注,也未构建多个编码器的输出之间的关联性;而对比网络2虽然设置有Sobel梯度机制,但是它没有引入Laplace二阶差分算子的梯度层,同时也没有一阶、二阶梯度的融合机制,并且其在编码器阶段直接引入自注意力机制会丢失原有卷积层的输出结果,导致原始图像的分割会被这部分的全局信息所干扰,而且对比网络2缺乏对多个编码器和单个解码器之间的信息传递的关注,也未构建多个编码器的输出之间的关联性。这致使对比网络1和对比网络2在语义分割时将出现特征细节信息丢失、全局信息干扰编码器的深层特征提取等问题,在混凝土路面图像的裂缝分割任务上的表现并不佳。
而本发明实施例提出的神经网络模型中,受益于梯度融合输入模块的设置以及编码器和解码器之间的特殊密集连接关系,不仅使得深层的特征信息传播到浅层,通过将深层的抽象全局信息与浅层的细节信息结合起来,对有效特征进行了重用,提高了有效特征的利用率,而且还可以克服全局信息干扰编码器的深层特征提取的问题,降低全局信息的干扰,使得网络模型对深层次语义信息的学习更加全面,提高分割效果。因此,本发明在混凝土路面图像的裂缝分割任务的表现上达到了高效的表现。
参照图7,图7所示为本发明实施例提出的神经网络模型、对比网络1和对比网络2的P-R曲线图。P-R 曲线围起来的左下面积就是AP 值,通常来说一个越好的分类器,AP 值越高。在P-R曲线图中,横坐标表示召回率(Recall),纵坐标表示精准率(Precision)。
通过图7可见:在不同的阈值的情况下,本发明实施例提出的神经网络模型对图像中属于裂缝的像素点更为敏感,而对比网络1和对比网络2均未对属于裂缝的像素点赋予更多的关注,本发明实施例在对裂缝的关注这一方面显然更优于两个对比网络。而从评价指标F1分数方面来看,相比于对比网络1取得的82.6%的F1分数和对比网络2取得的82.99%的F1分数,本发明实施例取得了最高的F1分数,为84.76%。这说明本发明实施例提出的神经网络模型的性能更为优秀。
参照图8,图8所示为本发明实施例提出的神经网络模型、对比网络1和对比网络2的裂缝分割的效果比较图。通过图8可见:本发明实施例提出的神经网络模型、对比网络1和对比网络2均能够将混凝土路面图像中的裂缝准确地分割出来。然而,对比网络1和对比网络2均存在将路面图像的伪裂缝识别为真实裂缝的问题,如将输入的原图像中的黑斑、树枝、落叶及路面标识线等非裂缝对象识别为裂缝。而得益于编码器和解码器的特殊密集连接的设置,本发明实施例在对伪裂缝的剔除方面取得了更好的分割效果,在识别存在有黑斑、树枝、落叶及路面标识线等背景干扰的路面图像时,能够很好地排除伪裂缝的干扰,这充分说明本发明实施例在有伪裂缝影响的情况下仍能识别出更为连续、完整的裂缝,拥有较强的泛化能力和精准率。
以上实施例充分证明了本发明提出的神经网络模型在混凝土路面图像的分割任务上的表现较相关技术更佳,拥有更好的有效性、高效性和泛化性。
此外,本发明实施例还提供了一种计算机可读存储介质,其中存储有处理器可执行的程序,处理器可执行的程序在由处理器执行时用于执行上述的基于深度学习的混凝土路面裂缝识别方法。
同理,上述方法实施例中的内容均适用于本存储介质实施例中,本存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
综上可见:首先,针对相关技术存在特征细节信息丢失的问题,本发明引入了梯度融合输入模块,通过Sobel一阶差分算子提取梯度信息,保留图像强纹理特征,在此基础上增加了Laplace二阶差分算子,目的是为了捕获图像中更细粒度的纹理特征,避免一些细节信息的丢失,提高了网络对裂缝的识别能力,使得网络对裂缝的提取更加连续、完整。
其次,针对相关技术中存在的检测裂缝不完整、不连续以及伪裂缝错误检测等问题,本发明在解码器模块中引入了自注意力机制,通过计算输入特征图中每个像素点与其他所有像素点的关联度来增强网络对全局特征信息的提取能力和学习能力,以及对伪裂缝的识别和剔除能力,提高了图像裂缝检测的精确度。
再者,针对相关技术中存在的提取的特征不够丰富,无法在复杂的环境中将伪裂缝剔除的问题,本发明引入了编码器-解码器的特殊密集连接的设置,神经网络中浅层网络提取到的是局部特征,如颜色、纹理、边缘等细节信息,而深层网络提取到的是更抽象的语义信息,使用密集连接能够将深层的特征信息传播到浅层,通过将深层的抽象全局信息与浅层的细节信息结合起来,对特征进行了重用,有效地利用了特征,让网络提取的特征信息更加丰富的同时很好地避免了网络加深带来的训练速度慢、梯度消失等问题,实现对伪裂缝的识别和剔除。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干程序用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行程序的定序列表,可以具体实现在任何计算机可读介质中,以供程序执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从程序执行***、装置或设备取程序并执行程序的***)使用,或结合这些程序执行***、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供程序执行***、装置或设备或结合这些程序执行***、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的程序执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本发明权利要求所限定的范围内。
Claims (10)
1.基于深度学习的混凝土路面裂缝识别方法,其特征在于,包括如下步骤:
获取混凝土路面图像;
利用训练好的神经网络模型对所述混凝土路面图像进行图像分割,分割出所述混凝土路面图像中的裂缝;
其中,所述训练好的神经网络模型利用已标记的混凝土路面的样本图像和对应的标记结果进行训练得到,所述神经网络模型包括:
梯度融合输入模块,用于对所述混凝土路面图像进行处理,得到待编码特征图;
编码器模块,用于对所述待编码特征图进行特征提取和下采样;
解码器模块,与所述编码器模块密集连接,用于对所述编码器模块的输出进行反卷积,得到所述混凝土路面图像中的多个裂缝特征图;
输出层,用于对多个所述裂缝特征图进行拼接,生成所述混凝土路面图像中的裂缝。
2.根据权利要求1所述的基于深度学习的混凝土路面裂缝识别方法,其特征在于,所述梯度融合输入模块包括顺次连接的梯度层和梯度输出层,所述梯度层由第一梯度层和第二梯度层并接构成,其中:
所述第一梯度层用于利用Sobel一阶差分算子对所述混凝土路面图像进行卷积操作,得到第一梯度特征图;
所述第二梯度层用于利用Laplace二阶差分算子对所述混凝土路面图像进行卷积操作,并将卷积操作的结果与所述混凝土路面图像进行相加,生成第二梯度特征图并将其通过三层卷积层输出至所述梯度输出层;
所述梯度输出层用于将所述第一梯度特征图和所述第二梯度特征图进行拼接,得到待编码特征图。
3.根据权利要求2所述的基于深度学习的混凝土路面裂缝识别方法,其特征在于,所述对所述混凝土路面图像进行卷积操作,得到第一梯度特征图包括:
首先,利用横向Sobel一阶差分算子对所述混凝土路面图像的横坐标方向进行卷积操作,得到横向梯度矩阵,并利用竖向Sobel一阶差分算子对所述混凝土路面图像的纵坐标方向进行卷积操作,得到纵向梯度矩阵,之后,通过加权相加的方式将所述横向梯度矩阵和所述纵向梯度矩阵进行拼接,得到第一梯度特征图。
4.根据权利要求1所述的基于深度学习的混凝土路面裂缝识别方法,其特征在于,所述编码器模块依次设置有五个编码器,上一个编码器的输出作为下一个编码器的输入,其中:
第一个编码器包括顺次连接的两层编码卷积层,用于对所述待编码特征图进行两次卷积操作;
第二个编码器采用一层池化层和两层编码卷积层顺次连接的三层结构,用于通过池化方式降低上一个编码器的输出的尺寸维度;
往后三个编码器均采用一层池化层和三层编码卷积层顺次连接的四层结构,用于对上一个编码器的输出进行下采样和特征提取。
5.根据权利要求4所述的基于深度学习的混凝土路面裂缝识别方法,其特征在于,所述解码器模块依次设置有五个解码器,五个所述解码器与五个所述编码器对应设置,每个所述解码器均用于对每个解码器的输入进行通道拼接和反卷积,得到每个解码器对应的裂缝特征图,其中:
对于前四个解码器,与解码器对应的编码器的输出和与解码器对应的下位编码器的输出作为解码器的输入,所述解码器对应的下位编码器定义为与所述解码器对应的编码器的输出端连接的编码器;
对于最后一个编码器,与解码器对应的编码器的输出作为解码器的输入。
6.根据权利要求5所述的基于深度学习的混凝土路面裂缝识别方法,其特征在于,所述解码器对应的编码器的输出直接输入至所述解码器中,而所述解码器对应的下位编码器的输出通过上采样层输入至所述解码器中。
7.根据权利要求6所述的基于深度学习的混凝土路面裂缝识别方法,其特征在于,在所述解码器模块中,第一个解码器和第二个解码器均包括顺次连接的通道输入层和解码卷积层,第三个解码器和第四个解码器包括顺次连接的通道输入层、自注意力层和解码卷积层,第五个解码器包括顺次连接的自注意力层和解码卷积层;其中:
在第一个解码器和第二个解码器中,通道输入层用于对与解码器对应的编码器的输出和与解码器对应的下位编码器的输出进行通道叠加,解码卷积层用于对通道叠加后的结果进行反卷积,得到解码器对应的裂缝特征图;
在第三个解码器和第四个解码器中,通道输入层用于对与解码器对应的编码器的输出和与解码器对应的下位编码器的输出进行通道叠加,自注意力层用于对通道叠加后的结果进行特征选择,解码卷积层用于对自注意力层的输出进行反卷积,得到解码器对应的裂缝特征图;
在第五个解码器中,自注意力层用于对与解码器对应的编码器的输出进行特征选择,解码卷积层用于对自注意力层的输出进行反卷积,得到解码器对应的裂缝特征图。
8.根据权利要求7所述的基于深度学习的混凝土路面裂缝识别方法,其特征在于,所述自注意力层的输出满足如下公式:
,
其中,分别表示第三个解码器至第五个解码器的自注意力层的输出,分别表示第三个解码器至第五个解码器的自注意力层的输入,/>为用于扩展通道数的矩阵,Q、K、V分别表示查询矩阵、键矩阵和值矩阵。
9.根据权利要求1所述的基于深度学习的混凝土路面裂缝识别方法,其特征在于,所述输出层包括顺次连接的输出拼接层和输出卷积层,所述输出拼接层用于对所述解码器模块输出的多个裂缝特征图进行拼接,所述输出卷积层用于对拼接后的裂缝特征图进行卷积操作和非线性变换,得到所述混凝土路面图像中的裂缝并输出。
10.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于实现如权利要求1至9中任一项所述的基于深度学习的混凝土路面裂缝识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311181886.XA CN116912257B (zh) | 2023-09-14 | 2023-09-14 | 基于深度学习的混凝土路面裂缝识别方法及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311181886.XA CN116912257B (zh) | 2023-09-14 | 2023-09-14 | 基于深度学习的混凝土路面裂缝识别方法及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116912257A true CN116912257A (zh) | 2023-10-20 |
CN116912257B CN116912257B (zh) | 2023-12-29 |
Family
ID=88353503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311181886.XA Active CN116912257B (zh) | 2023-09-14 | 2023-09-14 | 基于深度学习的混凝土路面裂缝识别方法及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116912257B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117291913A (zh) * | 2023-11-24 | 2023-12-26 | 长江勘测规划设计研究有限责任公司 | 一种水工混凝土结构表观裂缝测量方法 |
CN117333777A (zh) * | 2023-12-01 | 2024-01-02 | 山东元明晴技术有限公司 | 一种坝体异常识别方法、装置及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110349166A (zh) * | 2019-06-11 | 2019-10-18 | 东软医疗***股份有限公司 | 一种针对于视网膜图像的血管分割方法、装置及设备 |
CN111311629A (zh) * | 2020-02-21 | 2020-06-19 | 京东方科技集团股份有限公司 | 图像处理方法、图像处理装置及设备 |
CN112819762A (zh) * | 2021-01-22 | 2021-05-18 | 南京邮电大学 | 一种基于伪孪生密集连接注意力机制的路面裂缝检测方法 |
CN113221900A (zh) * | 2021-04-29 | 2021-08-06 | 上海海事大学 | 一种基于密集连接卷积网络的多模态视频中文字幕识别方法 |
CN114693926A (zh) * | 2022-03-23 | 2022-07-01 | 温州商学院 | 一种基于深度学习的图像语义分割方法 |
US20220222914A1 (en) * | 2021-01-14 | 2022-07-14 | Tata Consultancy Services Limited | System and method for attention-based surface crack segmentation |
CN116258854A (zh) * | 2023-02-16 | 2023-06-13 | 西安中创新能网络科技有限责任公司 | 一种基于密集连接策略和图像梯度的路面裂缝分割方法 |
CN116630621A (zh) * | 2023-05-16 | 2023-08-22 | 宁夏医科大学 | 一种融合多尺度特征的图像分割方法 |
-
2023
- 2023-09-14 CN CN202311181886.XA patent/CN116912257B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110349166A (zh) * | 2019-06-11 | 2019-10-18 | 东软医疗***股份有限公司 | 一种针对于视网膜图像的血管分割方法、装置及设备 |
CN111311629A (zh) * | 2020-02-21 | 2020-06-19 | 京东方科技集团股份有限公司 | 图像处理方法、图像处理装置及设备 |
US20220222914A1 (en) * | 2021-01-14 | 2022-07-14 | Tata Consultancy Services Limited | System and method for attention-based surface crack segmentation |
CN112819762A (zh) * | 2021-01-22 | 2021-05-18 | 南京邮电大学 | 一种基于伪孪生密集连接注意力机制的路面裂缝检测方法 |
CN113221900A (zh) * | 2021-04-29 | 2021-08-06 | 上海海事大学 | 一种基于密集连接卷积网络的多模态视频中文字幕识别方法 |
CN114693926A (zh) * | 2022-03-23 | 2022-07-01 | 温州商学院 | 一种基于深度学习的图像语义分割方法 |
CN116258854A (zh) * | 2023-02-16 | 2023-06-13 | 西安中创新能网络科技有限责任公司 | 一种基于密集连接策略和图像梯度的路面裂缝分割方法 |
CN116630621A (zh) * | 2023-05-16 | 2023-08-22 | 宁夏医科大学 | 一种融合多尺度特征的图像分割方法 |
Non-Patent Citations (1)
Title |
---|
赵盈皓 等: "基于改进编码-解码网络的混凝土桥梁裂缝检测方法研究", 《广州建筑》, vol. 50, no. 3, pages 1 - 7 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117291913A (zh) * | 2023-11-24 | 2023-12-26 | 长江勘测规划设计研究有限责任公司 | 一种水工混凝土结构表观裂缝测量方法 |
CN117291913B (zh) * | 2023-11-24 | 2024-04-16 | 长江勘测规划设计研究有限责任公司 | 一种水工混凝土结构表观裂缝测量方法 |
CN117333777A (zh) * | 2023-12-01 | 2024-01-02 | 山东元明晴技术有限公司 | 一种坝体异常识别方法、装置及存储介质 |
CN117333777B (zh) * | 2023-12-01 | 2024-02-13 | 山东元明晴技术有限公司 | 一种坝体异常识别方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116912257B (zh) | 2023-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116912257B (zh) | 基于深度学习的混凝土路面裂缝识别方法及存储介质 | |
Zhou et al. | Salient object detection in stereoscopic 3D images using a deep convolutional residual autoencoder | |
CN108171701B (zh) | 基于u网络和对抗学习的显著性检测方法 | |
WO2022105125A1 (zh) | 图像分割方法、装置、计算机设备及存储介质 | |
CN110084238B (zh) | 基于LadderNet网络的指静脉图像分割方法、装置和存储介质 | |
CN114821342B (zh) | 一种遥感影像道路提取方法及*** | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN113971735A (zh) | 一种深度图像聚类方法、***、设备、介质及终端 | |
CN113139544A (zh) | 一种基于多尺度特征动态融合的显著性目标检测方法 | |
CN117197763A (zh) | 基于交叉注意引导特征对齐网络的道路裂缝检测方法和*** | |
CN115908789A (zh) | 跨模态特征融合及渐近解码的显著性目标检测方法及装置 | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及*** | |
CN116704483A (zh) | 基于端到端网络的场景文本识别方法 | |
Zhou et al. | Frequency-aware feature aggregation network with dual-task consistency for RGB-T salient object detection | |
CN113947538A (zh) | 一种多尺度高效卷积自注意力单幅图像除雨方法 | |
Liu et al. | Multi-level wavelet network based on CNN-Transformer hybrid attention for single image deraining | |
Dhar et al. | Interval type-2 fuzzy set and human vision based multi-scale geometric analysis for text-graphics segmentation | |
CN115861108A (zh) | 一种基于小波自注意力生成对抗网络的图像修复方法 | |
CN114998587A (zh) | 一种遥感影像建筑物语义分割方法及*** | |
CN114241288A (zh) | 一种选择性边缘信息引导的遥感目标显著性检测方法 | |
CN114022719A (zh) | 一种多特征融合的显著性检测方法 | |
Zou et al. | Group‐Based Atrous Convolution Stereo Matching Network | |
CN112966569B (zh) | 一种图像处理方法、装置、计算机设备及存储介质 | |
CN115471875B (zh) | 一种多码率的行人识别视觉特征编码压缩方法和装置 | |
CN116311106B (zh) | 一种遮挡图像识别模型的训练方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |