CN116861361B

CN116861361B - 一种基于图像-文本多模态融合的大坝形变评估方法

Info

Publication number: CN116861361B
Application number: CN202310768316.4A
Authority: CN
Inventors: 王龙宝; 张津豪; 储洪强; 毛莺池; 张雪洁; 徐淑芳; 徐荟华
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2023-06-27
Filing date: 2023-06-27
Publication date: 2024-05-03
Anticipated expiration: 2043-06-27
Also published as: CN116861361A

Abstract

本发明公开了一种基于图像‑文本多模态融合的大坝形变评估方法，包括：获取到先前图像和当前图像；获取到差分图像；对先前图像与差分图像进行多尺度特征提取与融合，得到原始图像；对原始图像、大坝形变判别文本进行预处理；将预处理后的图像与文本特征输入双流跨模态Transformer模型进行预训练，联合建模模态内和跨模态表示，得到预训练模型；优化调整预训练模型的参数；利用训练好的模型，根据测试集图像以及问题文本数据进行预测，获取到大坝形变评估结果。本发明将大坝场景图知识融入到多模态预训练中，大幅度提升了机器对大坝形变场景的“理解能力”，使得模型能更精准地图像‑文本跨模态间的细粒度特征对齐，从而提高回答大坝形变问题的准确率。

Description

一种基于图像-文本多模态融合的大坝形变评估方法

技术领域

本发明属于水利大坝形变监测与评估领域，具体涉及一种基于图像-文本多模态融合的大坝形变评估方法。

背景技术

我国至今共修建了10万多座水坝，是世界上水库大坝最多的国家之一。随着水资源的进一步开发利用，新建的高坝大库越来越多，这些工程在农业灌溉、防洪抗旱、水源配置、水力发电、城市供水、水土保持、生态环境保护等方面发挥了巨大效益。六、七十年代修建的一部分大坝，限于当时经济条件和科学技术水平等原因，存在设计标准偏低、地质、施工质量以及老化等安全问题，影响着水库综合效益的发挥，甚至给下游的城镇、交通及人们的生命财产造成威胁。因此，大坝安全问题成为日益突出的公共安全问题，必须得到高度重视。

大坝安全监测主要项目有：变形、渗流、压力、应力应变、水力学及环境量等。其中，变形监测最直观可靠，可基本反映在各种荷载作用下的大坝安全性态，因而成为最为重要的监测项目。变形监测主要包括表面变形、内部变形、坝基变形、裂缝及接缝、混凝土面板变形、岸坡位移等。其中，大坝表面变形监测主要包括观测垂直位移与观测水平位移。观测水平位移是指用观测仪器和设备对水工建筑物及地基有代表性的点位进行的水平方向位移量的量测，监测方法有视准线法、引张线法、激光准直法、垂线法、交会法和导线法等。

传统的工程监测方法往往需要消耗人力与物力，不能自动地观测水平位移。随着计算机在图像与自然语言等多模态特征提取方法的飞速发展，将领域知识与其领域图像信息交互，最终实现跨模态学***位移形变为研究目的，一种基于图像一文本多模态融合的大坝形变视觉问答评估方法具有重要的实际意义。

发明内容

发明目的：为了克服现有技术中存在的不足，提供一种基于图像-文本多模态融合的大坝形变评估方法。

技术方案：为实现上述目的，本发明提供一种基于图像-文本多模态融合的大坝形变评估方法，包括如下步骤：

S1：通过定点的工业监控摄像机，采集大坝图像集，分别获取到先前图像和当前图像；

S2：根据先前图像和当前图像，获取到差分图像；

S3：利用特征金字塔FPN网络分别对先前图像与差分图像进行多尺度特征提取与融合，将得到的当前特征图像作为原始图像；

S4：对原始图像、大坝形变判别文本进行预处理；

S5：将预处理后的图像与文本特征输入双流跨模态Transformer模型进行预训练，联合建模模态内和跨模态表示，得到预训练模型；

S6：利用大坝的先前图像、当前图像训练集以及有关大坝形变风险的问题文本训练集，优化调整预训练模型的参数，完成训练；

S7：利用步骤S6训练好的模型，根据测试集图像以及问题文本数据进行预测，获取到大坝形变评估结果。

进一步地，所述步骤S2中对先前图像和当前图像进行真彩色特征增强、特征差分，将当前的特征图像作为差分图像，具体过程包括如下步骤：

A1：采用一种基于PCA的彩色特征增强方法执行真彩色特征增强，在保证事物主导的颜色以及图像的色差对比度没有发生变化的前提下，图像的亮度发生了明显的增强；

A2：计算真彩色特征增强后的先前图像与当前图像的特征差分。先前图像的特征矩阵为src_init，当前图像的特征矩阵为src_final，那么特征差分d_src表示为：

进一步地，所述步骤A1的真彩色特征增强的具体过程为：

B1：分别将先前图像P_init与当前图像P_final按照RGB三通道标准化处理，均值为0，方差为1，保证RGB通道之间的相对关系，不改变三个通道内部的像素值分布；

B2：图像P_init与P_final按照通道展平为N×3的向量，记为向量I(θ)，θ∈D；

B3：求向量I(θ)的协方差矩阵；

B4：对协方差矩阵进行特征分解，得到特征向量F(θ)与特征值λ(θ)；

B5：将图像P_init与P_final的三个通道特征向量分别与处理后的特征向量相加，得到特征增强的图像。这里以图像P_init的一个通道为例，公式如下，其中α为添加的抖动系数。

P_result(θ)＝P_init(θ)+F(θ)_i·(a_i·λ(θ)_i)^T，θ，i∈D

进一步地，所述步骤S3具体为：

D1：先前图像与差分图像经过结构相同的主干网络ResNet50进行特征提取，将C2，C3，C4，C5阶段的最终输出特征经过1×1、步长为1的卷积操作，使之通道数为256，记为F2，F3，F4，F5；

D2：(水平操作)F5特征经过3×3、步长为1的卷积操作，输出P5图像特征；(从上至下垂直操作)F5特征上采样，使之特征图像的长宽扩大一倍，与F4特征形状一致并与之融合，然后进行3×3、步长为1的卷积操作，输出P4图像特征；以此类推，直至输出P2图像特征；

D3：经过FPN网络处理后的先前图像与差分图像输出特征记为F′_θ与F″_θ，θ表示层数量，这里θ＝4，将每层两者的特征进行融合，将此时的特征作为原始图像特征，公式如下，其中表示特征concat相加，

进一步地，所述步骤D1的具体操作过程为：

D1-1：C1阶段采用7×7、步长为2的卷积操作与3×3、步长为2的最大池化操作，通道数为64；

D1-2：C2至C5阶段之间的连接分为两个分支一主分支与shortcut分支；主分支均采用1×1、3×3、1×1且步长为1、2、1的卷积操作，称此为一个残差块，每个阶段之间分别采用3、4、6、3个残差块，通道数分别为256、512、1024、2048，使特征图像的长宽缩小一倍；shortcut分支采用1×1且步长为2的卷积操作，使之特征矩阵的形状与主分支相同。

进一步地，所述步骤S4中预处理操作为：用Faster R-CNN网络的RPN模块选择显著图像区域并提取区域特征，经过筛选，对每个保留区域，使用平均池化表示作为区域特征。

进一步地，所述步骤S4中预处理操作具体包括如下步骤：

E1：通过RPN结构对各尺度原始图像特征生成候选框；

E2：将RPN生成的候选框投影到特征图上获得相应的特征矩阵，将每个特征矩阵通过ROI Pooling层缩放到7×7大小的特征图，通过一系列全连接层展平特征图，得到显著图像区域。

进一步地，所述步骤E1的操作具体如下：

E1-1：RPN结构采用3×3、步长为1的卷积充当滑动窗口，在各尺度原始图像的特征进行滑动，计算出各个滑动窗口中心点(各个待检测点)对应于原始图像上的中心点，滑动后特征图像与原始图像的映射公式如下：

s_width＝w_origin/w_feature

s_height＝h_origin/h_feature

其中，w_feature与h_feature为特征图像的宽与长，w_origin与h_origin为原始图像的宽与长，s_width与s_height分别表示从原始图像到特征图像的缩放比例；通过特征图像某点的横纵坐标乘以相应方向上的缩放比例之后就可以得到在原始图像上的坐标；

E1-2：在计算各尺度的特征图像(各个检测点)对应于原始图像上的中心点之后，在每个原始图像上的中心点位置生成三种面积{1282，2562，5122}、三种长宽比例{1∶1，1∶2，2∶1}的9个一组的锚框，那么生成的锚框的宽与长的计算公式为：

其中，area是生成锚框的面积，ratio是生成锚框的长宽比例，h是生成锚框的宽度，w是生成锚框的长度；

E1-3：通道数为256的各尺度特征图像经过18个1×1的卷积操作得到通道数为18的特征图像，然后经Softmax层二分类计算数值；若数值大于0.5，则表示特征图像上的该点对应的原图上的锚框为前景positive，反之为背景negative，公式如下，其中j为样本的数量：

E1-4：通道数为256的各尺度特征图像经过36个1×1的卷积操作生成每个锚框的4个坐标偏移量[t_x，t_y，t_w，t_h]，用于修正锚框，偏移量计算公式如下：

t_x＝(x-x_a)/w_a t_y＝(y-y_a)/h_a

t_w＝log(w/w_a) t_h＝log(h/h_a)

其中，[x_a，y_a，w_a，h_a]是锚框的中心点坐标与宽高，[t_x，t_y，t_w，t_h]是预测的偏移量，那么通过以下公式计算修正后的锚框坐标[x，y，w，h]：

其中，[p_x，p_y，p_w，p_h]表示原始锚框的坐标，[d_x，d_y，d_w，d_h]表示RPN网络预测的坐标偏移，[g_x，g_y，g_w，g_h]表示修正后的锚框的坐标；

E1-5：利用E1-4产生的偏移量，对所有的原始锚框进行修正，根据E1-4产生的二分类概率，将positive锚框的由大到小排列并取前6000个，采用非极大值抑制，IoU设为0.7，这样每张图片只剩2000个候选框，最后输出对应于原图的锚框的左上角和右下角的坐标，称此时的锚框为候选框。

进一步地，所述步骤E2的操作具体如下：

E2-1：将候选框先映射回相应尺度的原始图像，并对每一个候选框对应的特征图划分为7×7的网格，对网格的每一部分做最大池化操作，即投影到原始图像获得相应的7×7大小的特征图，具体映射到哪个相应尺度的原始图像，公式如下：

其中，k为用来映射的特征图的层数，k₀为特征图的尺度个数(这里为4)，w和h为单个候选框的宽高(映射为原始图像)，area_origin为输入图片尺寸(候选框的面积)；

E2-2：最后完成候选框的分类与回归：通过全连接层和Softmax对所有候选框进行具体类别的分类，该操作与S413操作类似；再次对候选框进行回归预测，获取更高精度的最终的预测框，该操作与S414操作一致。

进一步地，所述步骤S5具体为：

G1：区域图像的输入表示：对经过S4操作处理后保留的区域特征，采用一个5维的向量对其进行位置编码，5个维度的元素分别为归一化后的区域的左上角和右下角的坐标以及图像区域覆盖占比，然后映射位置编码，使之与视觉特征维数匹配，两者相加后得到图像区域特征，最后用特定的图像token标记图像序列的开始与结束，并用它的输出表示整个图像；

G2：文本的输入表示：经过S4预处理后的大坝形变判别文本，输入Bert模型得到对应的文本嵌入；

G3：区域图像与文本联合表征：将G1与G2处理后得到的图像与文本特征，通过6组共同注意机制的Transformer层使两者进行信息交互，即给定一个图像I，表示为一组区域特征v₀，...，v_T和一个文本输入w₀，...，w_T，输出最终表示为h_v0，...，h_vT和h_w0，...，h_wT。

有益效果：本发明与现有技术相比，以同一区域、时间跨度长的大坝图像集，和大坝形变判别的文本知识为研究对象，以观测大坝表面水平位移形变为研究目的，提供一种基于图像-文本多模态融合的大坝形变视觉问答评估方法，其具备如下优点：

1、与现有的工程监测方法相比，弥补了需要人为操作的缺点，不但节约了人力物力，而且具备了更好的评估效果。

2、通过两个特征金字塔网络，在基本不增加原有模型计算量的情况下，能够将尺度相差较大的先前图像与差分图像的特征提取更充分，大幅度提升了差分图像上的坝体形变检测的性能。

3、将大坝场景图知识融入到多模态预训练中，大幅度提升了机器对大坝形变场景的“理解能力”，使得模型能更精准地图像-文本跨模态间的细粒度特征对齐，从而提高回答大坝形变问题的准确率。

附图说明

图1为本发明方法的流程示意图。

图2为本发明方法的案例示意图。

图3为本发明方法的特征金字塔多尺度特征提取示意图。

图4为本发明方法的原始图像特征融合示意图。

图5为本发明方法的候选框映射至相应尺度的原始图像示意图。

图6为本发明方法的解析场景图示意图。

图7为本发明方法的多模态预训练流程示意图。

图8为本发明方法的大坝形变评估视觉问答模型示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明提供一种基于图像-文本多模态融合的大坝形变评估方法，如图1和图2所示，其包括如下步骤：

S1：通过定点的工业监控摄像机，采集同一区域、时间间隔为3年的大坝图像集，将距当前时间较久远的图像确定为先前图像，距当前时间较近的图像确定为当前图像；

S2：根据采集到的先前图像和当前图像这两类遥感图像，先对其进行真彩色特征增强，再取两者的特征差分，称当前的特征图像为差分图像；

具体过程包括如下步骤：

步骤A1的真彩色特征增强的具体过程为：

B3：求向量I(θ)的协方差矩阵；

P_result(θ)＝P_init(θ)+F(θ)_i·(a_i·λ(θ)_i)^T，θ，i∈D

参照图3和图4，多尺度特征提取与特征融合的具体步骤为：

对于主干网络ResNet50进行接下来的5个阶段的特征提取操作：

D1-2：C2至C5阶段之间的连接分为两个分支一主分支与shortcut分支；主分支均采用1×1、3×3、1×1且步长为1、2、1的卷积操作，称此为一个残差块，每个阶段之间分别采用3、4、6、3个残差块，通道数分别为256、512、1024、2048，使特征图像的长宽缩小一倍；shortcut分支采用1×1且步长为2的卷积操作，使之特征矩阵的形状与主分支相同；

其中，一个残差结构可表示为如下形式：

x_l+1＝x_l+F(x_l，Wx)

F(x_l，W_l)是第l单元的主分支输出，x_l是第l单元的shortcut分支输出；

其中每层特征的上采样的具体操作为：

对于特征的上采样，采用最近邻插值算法，记d_stx与d_sty为上采样后的目标图像的某个像素的横坐标与纵坐标，d_stwidth与d_stheight为目标图像的宽度与高度，s_rcwidth与s_rcheight为原图像的宽度与高度，s_rcx与s_rcy为目标图像在该点(d_stx，d_sty)对应的原图像的坐标，公式如下：

s_rcx＝d_stx*(s_rcwidth/d_stwidth)

s_rcy＝d_sty*(s_rcheight/d_stheight)

S4：对原始图像、经过专家论证审查的大坝形变判别文本进行预处理：

对原始图像进行预处理，具体表现为采用Faster R-CNN网络的RPN模块选择显著图像区域并提取区域特征，经过筛选，对每个保留区域，使用平均池化表示作为区域特征；

对经过专家论证审查的大坝形变判别文本进行预处理，参照图6，具体表现为通过场景图解析器从句子中解析场景图，并采用WordPieces方式对判别文本进行标记化，然后随机遮掩15％的分词，30％的场景图节点；

预处理操作具体包括如下步骤：

E1：通过RPN结构对各尺度原始图像特征生成候选框：

s_width＝w_origin/w_feature

s_height＝h_origin/h_feature

t_x＝(x-x_a)/w_a t_y＝(y-y_a)/h_a

t_w＝log(w/w_a) t_h＝log(h/h_a)

E2：将RPN生成的候选框投影到特征图上获得相应的特征矩阵，将每个特征矩阵通过ROI Pooling层缩放到7×7大小的特征图，通过一系列全连接层展平特征图，得到显著图像区域：

E2-1：参照图5，将候选框先映射回相应尺度的原始图像，并对每一个候选框对应的特征图划分为7×7的网格，对网格的每一部分做最大池化操作，即投影到原始图像获得相应的7×7大小的特征图，具体映射到哪个相应尺度的原始图像，公式如下：

参照图7，具体操作步骤如下：

其中，用一个5维的向量对区域特征位置编码具体操作为：

W、H分别表示区域特征的长与宽，图像区域的左上角坐标为[x₁，y₁]，右下角坐标为[x₂，y₂]，则该区域位置编码后表示为5维向量v＝[x，y，w，h，s]。

G3：区域图像与文本联合表征：将G1与G2处理后得到的图像与文本特征，通过6组共同注意机制的Transformer层使两者进行信息交互，即给定一个图像I，表示为一组区域特征v₀，...，v_T和一个文本输入w₀，...，w_T，输出最终表示为h_v0，...，h_vT和h_w0，...，h_wT；

其中，6组共同注意力机制的Transformer层与Transformer的encoder结构一致，只是经过线性变换之后的Q、K、V来源不同，共同注意力机制可以表示为以下公式：

MultiHead(Q，K，V)＝Concat(head1，......，head_h)W^O

对于图像流，Q来源于区域特征v₀，...，v_T，K、V来源于文本输入w₀，...，w_T；对于文本流，Q来源于文本输入w₀，...，w_T，K、V来源于区域特征v₀，...，v_T；

其中，该预训练的两个任务分别为基于未被遮掩的文本token与区域特征预测被遮掩的文本token(MLM任务)、文本特征与区域特征是否匹配(ITM任务)，其中MLM与ITM任务的损失函数可以表示为以下公式：

L_MLM＝-E_(W，V)∈DlogP_θ(w_m|w_/m，V)

w_m，w_/m分别表示被遮掩、未被遮掩的文本token，(W，V)∈D表示大坝形变数据集的一对文本W与区域图像V样本；

L_ITM＝-E_(W，V)∈D[y log s_θ(w_[CLS]，v_[IMG])+(1-y)log(1-s_θ(w_[CLS]，v_[IMG])]

s_θ评分函数测量区域图像和文本之间的对其概率，y∈{0，1}表示文本W与区域图像V是否匹配一致，w_[CLS]与v_[IMG]分别表示文本W与区域图像V。

其中，视觉问答训练任务是一个多分类任务，因此该训练任务的损失函数可以表示为以下公式：

N为训练集的答案标签中出现频率较高的标签数量，y_v∈{0，1}是对预测结果的标记值，p_v是预测分类结果为第v类的概率。

S7：参照图8，利用步骤S6训练好的模型，根据测试集图像以及问题文本数据进行预测，获取到大坝形变评估结果，以供专业人员参考并预警报。

Claims

1.一种基于图像-文本多模态融合的大坝形变评估方法，其特征在于，包括如下步骤：

S2：根据先前图像和当前图像，获取到差分图像；

S4：对原始图像、大坝形变判别文本进行预处理；

S7：利用步骤S6训练好的模型，根据测试集图像以及问题文本数据进行预测，获取到大坝形变评估结果；

所述步骤S2中对先前图像和当前图像进行真彩色特征增强、特征差分，将当前的特征图像作为差分图像，具体过程包括如下步骤：

A1：采用一种基于PCA的彩色特征增强方法执行真彩色特征增强；

A2：计算真彩色特征增强后的先前图像与当前图像的特征差分，先前图像的特征矩阵为src_init，当前图像的特征矩阵为src_final，那么特征差分d_src表示为：

所述步骤A1的真彩色特征增强的具体过程为：

B3：求向量I(θ)的协方差矩阵；

B5：将图像P_init与P_final的三个通道特征向量分别与处理后的特征向量相加，得到特征增强的图像；

所述步骤S3具体为：

D2：F5特征经过3×3、步长为1的卷积操作，输出P5图像特征；F5特征上采样，使之特征图像的长宽扩大一倍，与F4特征形状一致并与之融合，然后进行3×3、步长为1的卷积操作，输出P4图像特征；以此类推，直至输出P2图像特征；

D3：经过FPN网络处理后的先前图像与差分图像输出特征记为F′_θ与F″_θ，θ表示层数量，将每层两者的特征进行融合，将此时的特征作为原始图像特征，公式如下，其中表示特征concat相加，

所述步骤D1的具体操作过程为：

D1-2：C2至C5阶段之间的连接分为两个分支-主分支与shortcut分支；主分支均采用1×1、3×3、1×1且步长为1、2、1的卷积操作，称此为一个残差块，每个阶段之间分别采用3、4、6、3个残差块，通道数分别为256、512、1024、2048，使特征图像的长宽缩小一倍；shortcut分支采用1×1且步长为2的卷积操作，使之特征矩阵的形状与主分支相同。

2.根据权利要求1所述的一种基于图像-文本多模态融合的大坝形变评估方法，其特征在于，所述步骤S4中预处理操作为：用Faster R-CNN网络的RPN模块选择显著图像区域并提取区域特征，经过筛选，对每个保留区域，使用平均池化表示作为区域特征。

3.根据权利要求2所述的一种基于图像-文本多模态融合的大坝形变评估方法，其特征在于，所述步骤S4中预处理操作具体包括如下步骤：

E1：通过RPN结构对各尺度原始图像特征生成候选框；

E2：将RPN生成的候选框投影到特征图上获得相应的特征矩阵，将每个特征矩阵通过ROIPooling层缩放到7×7大小的特征图，通过一系列全连接层展平特征图，得到显著图像区域。

4.根据权利要求3所述的一种基于图像-文本多模态融合的大坝形变评估方法，其特征在于，所述步骤E1的操作具体如下：

E1-1：RPN结构采用3×3、步长为1的卷积充当滑动窗口，在各尺度原始图像的特征进行滑动，计算出各个滑动窗口中心点对应于原始图像上的中心点，滑动后特征图像与原始图像的映射公式如下：

s_width＝w_origin/w_feature

s_height＝h_origin/h_feature

其中，w_feature与h_featture为特征图像的宽与长，w_origin与h_origin为原始图像的宽与长，s_width与s_height分别表示从原始图像到特征图像的缩放比例；通过特征图像某点的横纵坐标乘以相应方向上的缩放比例之后就可以得到在原始图像上的坐标；

E1-2：在计算各尺度的特征图像对应于原始图像上的中心点之后，在每个原始图像上的中心点位置生成三种面积{1282，2562，5122}、三种长宽比例{1∶1，1∶2，2∶1}的9个一组的锚框，那么生成的锚框的宽与长的计算公式为：

t_x＝(x-x_a)/w_a t_y＝(y-y_a)/h_a

t_w＝log(w/w_a)t_h＝log(h/h_a)

5.根据权利要求3所述的一种基于图像-文本多模态融合的大坝形变评估方法，其特征在于，所述步骤E2的操作具体如下：

其中，k为用来映射的特征图的层数，k₀为特征图的尺度个数，w和h为单个候选框的宽高，area_origin为输入图片尺寸；

E2-2：最后完成候选框的分类与回归：通过全连接层和Softmax对所有候选框进行具体类别的分类；再次对候选框进行回归预测，获取最终的预测框。

6.根据权利要求1所述的一种基于图像-文本多模态融合的大坝形变评估方法，其特征在于，所述步骤S5具体为：

G3：区域图像与文本联合表征：将G1与G2处理后得到的图像与文本特征，通过6组共同注意机制的Transformer层使两者进行信息交互，即给定一个图像I，表示为一组区域特征υ₀，...，υ_T和一个文本输入w₀，...，w_T，输出最终表示为h_υ0，...，h_υT和h_w0，...，h_wT。