WO2023216721A1

WO2023216721A1 - 一种混凝土大坝缺陷时序图像智能识别方法

Info

Publication number: WO2023216721A1
Application number: PCT/CN2023/082484
Authority: WO
Inventors: 马洪琪; 周华; 毛莺池; 迟福东; 周晓峰; 曹学兴; 戚荣志; 陈豪; 谭彬; 聂兵兵
Original assignee: 河海大学; 华能澜沧江水电股份有限公司
Priority date: 2022-05-11
Filing date: 2023-03-20
Publication date: 2023-11-16
Also published as: CN114913150A; CN114913150B

Abstract

本发明公开一种混凝土大坝缺陷时序图像智能识别方法，使用双流网络提取包含混凝土大坝缺陷的时序图像的特征序列，并添加时间维度的自注意力机制获取全局上下文特征关系；在模型的训练过程中，使用基于距离交并比的目标函数匹配定位缺陷和真实缺陷，计算缺陷的时序位置关系加速模型收敛；在模型损失函数中添加基于紧密感知交并比的损失项，以关注缺陷序列的完整性提高准确率；在完成缺陷定位后，采用基于2D时序差分的卷积神经网络提取缺陷特征并识别缺陷类型。本发明对混凝土大坝缺陷时序图像进行了有效检测，不仅能够定位长图像序列中的缺陷位置，还能够准确识别缺陷类型。在大坝缺陷时序图像的识别任务中具有较高的识别精度与较好的收敛性能。

Description

一种混凝土大坝缺陷时序图像智能识别方法

技术领域

本发明属于混凝土大坝缺陷时序图像识别技术领域，特别涉及一种基于时序差分和自注意力机制的缺陷识别方法。

背景技术

在建筑工程领域，不符合工程施工质量要求规定的检验项目或检验点被定义为缺陷。随着水电站大坝的长期运行，材料老化、环境影响等因素都不同程度地导致了缺陷的形成。当缺陷程度较轻时，可采取相应措施及时处理，以满足结构的承载要求。一旦缺陷没有得到及时处理和修复，将对大坝的安全运行构成重大威胁。因此，利用自动巡检设备及时检测和排除缺陷，可以有效地维护大坝的结构安全。

在大坝水电站实际巡检场景中，通过无人机、移动摄像头等设备采集到的数据均由视频构成。在获取和传输的过程中，为节约成本会对视频进行压缩编码，从而导致模型无法直接处理视频数据，需要将视频转换为时间维度的图像序列，通过提取时序图像特征信息定位其中的缺陷并进行识别。实际采集到的时序图像，往往包含了大量与缺陷无关的背景帧，直接对整段图像序列识别难度较大。

发明内容

发明目的：经上述现有技术的分析可知，在时序图像缺陷识别任务中，模型需要能够关注图像序列的上下文特征关系以保证缺陷提取的完整性和识别准确率。为了对自动化设备采集到的大坝缺陷时序图像快速识别，本发明提供一种混凝土大坝缺陷时序图像智能识别方法。

技术方案：一种混凝土大坝缺陷时序图像智能识别方法，选用双流网络提取包含大坝缺陷的时序图像特征序列，并添加时间维度的自注意力机制获取全局特征关系；在模型的训练过程中，使用基于距离交并比的目标函数匹配定位缺陷和真实缺陷，计算缺陷的时序位置关系加速模型收敛；在模型损失函数中添加基于紧密感知交并比的损失项，以关注缺陷序列的完整性提高准确率；在完成缺陷定位后，采用基于2D时序差分的卷积神经网络提取缺陷特征并识别缺陷类型。具体包括如下步骤：

(1)针对包含大坝缺陷的时序图像特点设计缺陷定位模型，该模型采用双流网络和Transformer网络进行时序特征提取，使用双流网络提取图像特征，通过Transformer网络给图像帧添加时间维度的自注意力机制，获取全局特征关系以定位缺陷；

(2)在缺陷定位模型训练过程中，使用基于距离交并比的目标函数匹配定位缺陷和真实缺陷，通过计算缺陷位置关系加快模型收敛速度，并在损失函数中添加基于紧密感知交并比的损失项，通过关注缺陷序列的完整性提高缺陷定位准确率；

(3)定位缺陷序列后，采用基于2D时序差分的卷积网络进行帧采样，提取缺陷图像帧的视觉和位移信息以识别缺陷类型。

所述采用双流网络和Transformer网络进行时序特征提取的具体步骤如下：

(1.1)输入原始时序图像，记作该序列包含l个图像帧，其中x_n表示该序列X的第n帧。

(1.2)将原始时序图像转换为作为双流网络的输入，其中为原始时序图像X的第t_n帧RGB图像，由空间流卷积网络处理；

为第t_n帧和t_n+1帧RGB图像堆叠成的光流，由时间流卷积网络处理，表示第t_n+1帧在点(u,v)上的水平或垂直位移矢量。和分别表示第t_n+1帧在点(u,v)上的水平和垂直位移矢量，可以看作卷积神经网络的两个输入通道。为了表示一系列时序图像的运动，将L个连续帧的光流叠加在一起，形成2L个输入通道，任意帧τ的输入由如下公式组成：

其中公式中w和h为输入图像的宽度和高度。

(1.3)将双流网络提取的时序图像特征序列记作使用三层卷积组成边界评估网络，计算每一帧作为缺陷序列开始和结束帧的概率和并将时序图像的输入特征和每个时序位置对应的缺陷开始和结束的预测概率相乘并组合，得到特征序列：

(1.4)求得图像对应的特征序列后，为每一帧添加位置编码标记时序位置，并使用Transformer网络计算每一帧的全局自注意力权重：

其中W_m和W′_m为权重可学习的注意力矩阵，都是通过网络学习的权重，功能和维度大小一致，其权值是不同的，A_mqk为多头自注意力权重，Ω_k为图像序列的维度，得到包含注意力权重的缺陷图像特征序列；

(1.5)采用多层感知机，将包含注意力权重的缺陷图像特征序列的图像序列作为输入，预测并输出起开始和结束帧的位置。

所述在缺陷定位模型训练过程中，使用基于距离交并比的目标函数匹配定位缺陷和真实缺陷，通过计算缺陷位置关系加快模型收敛速度，并在损失函数中添加基于紧密感知交并比的损失项，通过关注缺陷序列的完整性提高缺陷定位准确率，具体步骤如下：

(2.1)在模型的训练过程中，首先需要将定位缺陷与真实缺陷两两匹配，计算模型定位的区间和真实缺陷区间之间的误差(简称区间误差)作为损失值优化模型。在匹配过程中通过最大化目标函数计算最优匹配，目标函数如下：

其中l₁为严格匹配边界的L1目标函数，DIoU为距离交并比；

(2.2)为了加快模型训练速度，保证模型在定位的缺陷和真实缺陷不重叠时也能收敛，将基于距离交并比的目标函数定义为：

其中IoU为两缺陷交并比，b和b^t分别代表定位缺陷和真实缺陷区间的中心点坐标，而ρ则表示计算两点(两个区间中心点)间的距离，c为能同时覆盖定位缺陷和真实缺陷区间的最小时间区间的长度。

(2.3)最后缺陷定位任务的损失函数定义为：

其中L_bou为边界损失，用以衡量缺陷区间的起止帧与真实缺陷区间的偏差：

其中t_s和t_e为含有缺陷的区间开始和结束帧的位置，和表示预测出的缺陷区间的起止位置。L_pre为区间损失，使用紧密感知交并比衡量模型预测的缺陷区间准确性和完整性：

为定位的区间和真实的区间，IOU为两区间交并比。

所述基于2D时序差分的卷积网络进行帧采样，提取缺陷图像帧的视觉和位移信息以识别缺陷类型，具体步骤如下：

(3.1)将包含缺陷的图像序列分割为没有重叠的T个等长片段，从每个片段中随机抽取一帧X_t组成集合为X＝[x′₁，x′₂，...，x′_T]以增加训练的多样性，使得基于2D时序差分的卷积网络能够学习同一缺陷的不同实例变化。X中的采样帧均由2D卷积神经网络提取特征，得到特征集合F＝[F₁，F₂，...，F_T]；

(3.2)采样帧所表示的运动信息为在特征中，采样帧F_t贡献视觉图像信息，特征堆叠H_(xt)贡献局部运动信息，由平均池化层提取采样帧前后各帧的特征后堆叠得到。

(3.3)使用多层感知机和softmax函数对采样的特征图像序列解码得到缺陷类别。

一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如上所述的混凝土大坝缺陷时序图像智能识别方法。

一种计算机可读存储介质，该计算机可读存储介质存储有执行如上所述的混凝土大坝缺陷时序图像智能识别方法的计算机程序。

有益效果：本发明与现有技术相比具有以下优点：

(1)使用Transformer网络给图像序列添加时间维度的自注意力机制，使得模型能够关注全局特征关系，提高缺陷定位准确率。

(2)通过在模型训练过程中添加基于距离交并比的目标函数和基于紧密感知交并比的损失项，关注缺陷的位置信息和完整性以加快模型收敛速度，提高定位准确率。

(3)在识别缺陷的过程中，采用基于2D时序差分的卷积网络，使得采样帧能够同时包含缺陷的图像特征和位移信息，在节省计算资源的情况下提升了识别精确度。

附图说明

图1为具体实施例中大坝缺陷时序图像示意图；

图2为具体实施例中大坝缺陷时序图像识别方法总体框架图；

图3为具体实施例中双流网络框架示意图；

图4为具体实施例中2D时序差分卷积网络框架示意图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

已知有某电站大坝工程巡检缺陷时序图像，每段图像中可能包含4类缺陷，分别为裂缝、碱性物析出、渗水、混凝土剥落，如图1所示。

图2给出了面向大坝缺陷时序图像的缺陷识别方法的总体框架，面向大坝缺陷时序图像的缺陷识别方法，主要工作流程实施如下：

(1)针对大坝缺陷时序图像序列长、且包含大量与缺陷无关的背景帧的问题，设计缺陷定位模型，使用双流网络提取时序图像特征序列，并添加时间维度的自注意力机制获取全局特征关系以定位缺陷，如图3所示。

(1.1)输入原始时序图像，记作该序列包含l个图像帧，其中x_n表示该序列X的第n帧；

(1.2)将原始图像序列转换为作为双流网络的输入，其中为图像序列X的第t_n帧RGB图像，由空间流卷积网络处理；为第t_n帧和t_n+1帧堆叠成的光流，由时间流卷积网络处理。和分别表示第t_n+1帧在点(u,v)上的水平和垂直位移矢量，可以看作卷积神经网络的两个输入通道。为了表示一系列时序图像的运动，将L个连续帧的光流叠加在一起，形成2L个输入通道，任意帧τ的输入由如下公式组成：

其中公式中w和h为输入图像的宽度和高度；

(1.3)将双流网络提取的时序图像特征序列记作使用三层卷积组成边界评估网络，计算每一帧作为缺陷序列开始和结束帧的概率和卷积层被记作Con(c_f，c_k，f)，参数c_f，c_k和f分别为卷积核数、通道数和激活函数，则上述边界评估网络的结构可以简单概括表示为Conv(512,3,Relu)→Conv(512,3,Relu)→Conv(3,1,sigmoid)，这三层卷积的步长相同均为1。最后将时序图像的输入特征和每个时序位置对应的缺陷开始和结束的预测概率相乘并组合，得到特征序列：

(1.4)为每一帧添加位置编码标记时序位置，并使用Transformer网络计算每一帧的全局自注意力权重：

其中W_m为权重可学习的注意力矩阵，A_mqk为多头自注意力权重。该网络包含8个自注意力头和2048维的前馈神经网络，丢弃比例设置为0.1并使用ReLU作为激活函数，得到包含注意力权重的缺陷图像特征序列；

(1.5)将特征序列作为3层512维多层感知机的输入，预测并输出起开始和结束帧的位置。

(2)在缺陷定位模型的训练阶段，针对模型无法关注缺陷位置和完整性的问题，使用基于距离交并比的目标函数匹配定位缺陷和真实缺陷，计算缺陷的时序位置关系加速模型收敛，并在损失函数中添加基于紧密感知交并比的损失项提高模型准确率。

(2.1)在模型的训练过程中，首先需要将定位缺陷与真实缺陷两两匹配，计算区间误差作为损失值优化模型。在匹配过程中通过最大化目标函数计算最优匹配，目标函数如下：

其中l₁为严格匹配边界的L1目标函数，DIoU为距离交并比。

其中b和b^t分别代表定位缺陷区间和真实缺陷区间的中心点坐标，而ρ则表示计算两点间的距离，c为能同时覆盖两区间的最小时间区间的长度。

(2.3)最后缺陷定位任务的损失函数定义为：

其中t_s和t_e为含有缺陷的区间开始和结束帧的位置。L_pre为区间损失，使用紧密感知交并比衡量模型预测的缺陷区间准确性和完整性：

(3)定位缺陷序列后，采用基于2D时序差分的卷积网络进行帧采样，提取缺陷图像帧的视觉和位移信息以识别缺陷类型，在加快模型识别速度的同时保证识别准确率，如图4所示。

(3.1)将包含缺陷的图像序列割为没有重叠的T个等长片段，从每个片段中以1/32的采样帧率随机抽取一帧X_t组成集合为X_t＝[x′₁，x′₂，...，x′_T]以增加训练的多样性，使得网络能够学习同一缺陷的不同实例变化。所有采样帧均由以Resnet50作为骨干网络的2D卷积神经网络提取特征，得到特征集合F＝[F₁，Ｆ₂，...，F_T]。

(3.2)该帧所表示的运动信息为在特征中，采样帧F_t贡献视觉图像信息，特征堆叠H_(xt)贡献局部运动信息，由采样帧前后n帧的运动信息，由平均池化层提取采样帧前后各帧的特征后堆叠得到，网络结构如图4所示。

(3.2)使用3层512维多层感知机和softmax函数对采样的特征图像序列解码得到缺陷类别。

显然，本领域的技术人员应该明白，上述的本发明实施例的面向大坝缺陷时序图像的缺陷识别方法各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

Claims

一种混凝土大坝缺陷时序图像智能识别方法，其特征在于，包括如下步骤：

(1)针对包含大坝缺陷的时序图像特点设计缺陷定位模型，缺陷定位模型采用双流网络和Transformer网络进行时序特征提取，使用双流网络提取图像特征，通过Transformer网络给图像帧添加时间维度的自注意力机制，获取全局特征关系以定位缺陷；

(2)在缺陷定位模型训练过程中，使用基于距离交并比的目标函数匹配定位缺陷和真实缺陷，通过计算缺陷位置关系加快模型收敛速度，并在损失函数中添加基于紧密感知交并比的损失项，通过关注缺陷序列的完整性提高缺陷定位准确率；

(3)定位缺陷序列后，采用基于2D时序差分的卷积网络进行帧采样，提取缺陷图像帧的视觉和位移信息以识别缺陷类型。
根据权利要求1所述的混凝土大坝缺陷时序图像智能识别方法，其特征在于，

所述采用双流网络和Transformer网络进行时序特征提取的具体步骤如下：

(1.1)输入原始时序图像，记作该序列包含l个图像帧，其中x_n表示该序列X的第n帧；

(1.2)将原始时序图像转换为作为双流网络的输入，其中为原始时序图像X的第t_n帧RGB图像，由空间流卷积网络处理；为第t_n帧和t_n+1帧RGB图像堆叠成的光流，由时间流卷积网络处理；和分别表示第t_n+1帧在点(u,v)上的水平和垂直位移矢量，看作卷积神经网络的两个输入通道；

(1.3)将双流网络提取的时序图像特征序列记作使用三层卷积组成边界评估网络，计算每一帧作为缺陷序列开始和结束帧的概率和并将时序图像的输入特征和每个时序位置对应的缺陷开始和结束的预测概率相乘并组合；

(1.4)为每一帧添加位置编码标记时序位置，并使用Transformer网络计算每一帧的全局自注意力权重；

(1.5)采用多层感知机预测包含缺陷的图像序列，输出起开始和结束帧的位置。
根据权利要求1所述的混凝土大坝缺陷时序图像智能识别方法，其特征在于，

所述在缺陷定位模型训练过程中，使用基于距离交并比的目标函数匹配定位缺陷和真实缺陷，通过计算缺陷位置关系加快模型收敛速度，并在损失函数中添加基于紧密感知交并比的损失项，通过关注缺陷序列的完整性提高缺陷定位准确率，具体步骤如下：

(2.1)在模型的训练过程中，首先需要将定位缺陷与真实缺陷两两匹配，计算区间误差作为损失值优化模型；在匹配过程中通过最大化目标函数计算最优匹配，目标函数如下：

其中l1为严格匹配边界的L1目标函数，DIoU为距离交并比；

(2.2)将基于距离交并比的目标函数定义为：

其中IoU为两缺陷交并比，b和b^t分别代表定位缺陷和真实缺陷区间的中心点坐标，而ρ则表示计算两点间的距离，c为能同时覆盖定位缺陷和真实缺陷区间的最小时间区间的长度；

(2.3)最后缺陷定位任务的损失函数定义为：

其中L_bou为边界损失，用以衡量缺陷区间的起止帧与真实缺陷区间的偏差；L_pre为区间损失，用以衡量模型预测的缺陷区间准确性和完整性。
根据权利要求1所述的混凝土大坝缺陷时序图像智能识别方法，其特征在于，

所述基于2D时序差分的卷积网络进行帧采样，提取缺陷图像帧的视觉和位移信息以识别缺陷类型，具体步骤如下：

(3.1)将提取到的缺陷序列分割为没有重叠的若干个等长片段，从每个片段中随机抽取一帧组成采样帧的集合；

(3.2)以每一个采样帧为中心，抽取前后若干帧进行堆叠操作，通过残差连接与当前帧融合，捕捉短期位移特征，使单个采样帧能够感知局部变化；

(3.3)使用多层感知机和softmax函数对采样的特征图像序列解码得到缺陷类别。
根据权利要求4所述的混凝土大坝缺陷时序图像智能识别方法，其特征在于，

所有采样帧均由2D卷积神经网络提取特征，得到特征集合F＝[F₁，F₂，...，F_T]；采样帧所表示的运动信息为在特征中，采样帧F_t贡献视觉图像信息，特征堆叠H_(xt)贡献局部运动信息。
根据权利要求2所述的混凝土大坝缺陷时序图像智能识别方法，其特征在于，

为了表示一系列时序图像的运动，将L个连续帧的光流叠加在一起，形成2L个输入通道，任意帧τ的输入由如下公式组成：

其中公式中w和h为输入图像的宽度和高度。
一种计算机设备，其特征在于：

该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如权利要求1-6中任一项所述的混凝土大坝缺陷时序图像智能识别方法。
一种计算机可读存储介质，其特征在于：

该计算机可读存储介质存储有执行如权利要求1-6中任一项所述的混凝土大坝缺陷时序图像智能识别方法的计算机程序。