CN113239886B

CN113239886B - 基于跨语言图像变化描述的井下管道泄漏描述方法及装置

Info

Publication number: CN113239886B
Application number: CN202110626949.2A
Authority: CN
Inventors: 胡迪; 刘玉洁; 罗辉; 段章领; 卫星; 赵冲; 赵明; 陆阳; 李航; 帅竞贤
Original assignee: Hefei University of Technology; Intelligent Manufacturing Institute of Hefei University Technology
Current assignee: Hefei University of Technology; Intelligent Manufacturing Institute of Hefei University Technology
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2024-03-19
Anticipated expiration: 2041-06-04
Also published as: CN113239886A

Abstract

本发明公开了基于跨语言图像变化描述的井下管道泄漏描述方法及装置，所述方法包括：获取井下管道场景图像，对图像进行预处理得到训练集和测试集；构建基于双重动态注意力机制的跨语言图像变化描述模型；将基于双重动态注意力机制的跨语言图像变化描述模型在训练集上训练；利用训练好的基于双重动态注意力机制的跨语言图像变化描述模型对测试集进行测试，获得图像描述结果；本发明的优点在于：井下管道泄漏描述较为准确。

Description

基于跨语言图像变化描述的井下管道泄漏描述方法及装置

技术领域

本发明涉及井下管道变化描述领域，更具体涉及基于跨语言图像变化描述的井下管道泄漏描述方法及装置。

背景技术

矿井是形成地下煤矿生产***的井巷、硐室、装备、地面建筑物和构筑物的总称。我国国有重点煤矿多为大、中型矿井；地方国营煤矿多为中、小型矿井。随着我国国民经济的高速发展，我国对能源的需求量在不断增加。未来很长一段时间内，煤炭作为我国保障性支柱能源，需求量将逐年递增，煤炭产业规模化已经是大势所趋。煤炭行业作为基础能源工业，经过几十年的发展，煤矿集团化大型化上现有的趋势，投资规模随之增大，平均300万t/a井型投资均在6亿～7亿元左右；以往单纯以盈利为目的的粗放型开采，将逐步被大型机械化生产取代，所以随即衍生出各类井下安全防护***，其中井下管道泄漏的检测也是其防备措施之一。

管道运输是继铁路、公路、航空、水运的第五大运输手段。在石油、天然气等流体运输中有着独特的优势。但是，随着管龄的增长，由于施工缺陷、腐蚀和人为破坏的存在，管道渗漏状况频频发生，给人们的生命财产和生存环境造成了巨大的威胁。其中井下场景的管道渗漏情况较为隐蔽，不易及时发现处理，耗费维护巡查人员大量的时间和精力，收效也甚微。

流体输送管道泄漏检测的方法很多，分类也很多，根据近十几年来国内外相关资料，比较公认的分类方法大致有：基于硬件和软件的方法、根据测量媒介分类、根据检测装置所处位置分类、根据检测对象分类、基于信号处理方式分类等。

深度学习网络模型的提出，使计算机视觉领域得到更进一步的发展。深度学习模型从图像中自适应学习，是一种端到端的检测方法。随着大数据时代的到来，各种用于训练深度学习网络模型的数据集不断地丰富与完善也推动了基于深度学习的计算机视觉领域发展。其中change caption作为计算机视觉与自然语言处理的交叉领域得到了长足的发展。该领域主要任务为标记图像，将所述处理标记图像按两张为一组，两张图产生时序对比，生成符合图像内容的描述性文字，要求不仅能识别图像中的主要目标，还要考虑目标之间的变化关系。通过change caption模型对井下矿井管道场景进行描述，可以辅助巡查人员实时监控井下管道状态并起到及时预警作用。

中国专利授权公告号CN107013812B，公开了一种三场耦合管道泄漏监测方法，包括如下步骤：构建管道三场耦合传感***、管道三场耦合传感***监测被测管道空载状态模拟、管道三场耦合传感***监测被测管道正常工况模拟、管道三场耦合传感***泄漏事件模拟、管道监测神经网络建模与学习、管道泄漏监测。该发明的目的是提供管道泄漏报监测警、定位和泄漏大小判断的方法，通过采集管道周围三场参数及建立检测参数之间相互联系，目的在于能够有效地减少误报、避免漏报、准确定位泄漏点，并通过神经网络算法提供泄漏的大小，为制定维修方案提供可靠依据。但是该发明采用传感器检测的方式采集数据进行管道描述，井下管道内传感器数据并不稳定，如果传感器失灵或者损坏将导致管道泄漏描述不准确。

发明内容

本发明所要解决的技术问题在于现有技术井下管道泄漏描述方法不够准确的问题。

本发明通过以下技术手段实现解决上述技术问题的：基于跨语言图像变化描述的井下管道泄漏描述方法，所述方法包括：

步骤a：获取井下管道场景图像，对图像进行预处理得到训练集和测试集；

步骤b：构建基于双重动态注意力机制的跨语言图像变化描述模型；

步骤c：将基于双重动态注意力机制的跨语言图像变化描述模型在训练集上训练；

步骤d：利用训练好的基于双重动态注意力机制的跨语言图像变化描述模型对测试集进行测试，获得图像描述结果。

本发明采集井下管道场景图像，避免使用传感器进行检测，保证采集的数据的准确性，构建基于双重动态注意力机制的跨语言图像变化描述模型，并训练该模型，最后利用训练好的模型进行管道泄漏状态描述，保证井下管道泄漏描述的准确性。

进一步地，所述步骤a包括：

步骤a1：在井下管道前端安装摄像头采集井下管道日常状态视频流数据；

步骤a2：按照预设的时间间隔提取视频流数据中的关键帧并保存为井下管道场景图像；

步骤a3：将所有井下管道场景图像裁剪至512×512大小得到图像数据集；将所述图像数据集按两张为一组划分为多组，每组中一张图像为前一帧的管道无泄漏状态图像，另一张图像为后一帧存在泄漏的变化图像或者不存在泄漏变化但有其他因素变化的图像；采用COCO官方pycocotools包对所述图像进行标注，获得标注后的标记数据集；将标记数据集按3：1分为训练集和测试集。

进一步地，所述步骤b包括：

所述基于双重动态注意力机制的跨语言图像变化描述模型包括编码器、嵌入了空间注意力机制的RNN网络、基于动态发言机制的动态注意模块和打标签模块，动态注意模块和打标签模块都是基于LSTM的递归模型，训练集或者测试集输入到编码器，编码器连接嵌入了空间注意力机制的RNN网络，RNN网络输出空间注意力结果也即需要注意的图像位置，嵌入了空间注意力机制的RNN网络连接动态注意模块，动态注意模块连接打标签模块，打标签模块输出当前词，对当前词进行分发，当前词中包含注意图像时间也即何时开始注意每个图像。

更进一步地，所述步骤b还包括：

采用1个ResNet-101网络作为编码器提取输入图像组特征(X_bef，X_aft)；

将输入图像组特征(X_bef，X_aft)输入到一个嵌入了双重注意力机制的RNN网络，对编码后的输入图像组特征(X_bef，X_aft)通过公式X_aft-X_bef做差得到差异特征X_diff；将得到的差异特征X_diff分别与输入图像组特征(X_bef，X_aft)连接，得到两个不同的空间注意力图像组A_bef和A_aft；

动态注意模块中的LSTM解码器将打标签模块的先前隐藏状态和l_bef、l_diff、l_aft的视觉特征的潜在投影v作为输入，预测注意权重/>将注意权重/>与视觉特征累积求和得到动态参与特征/>动态参与特征/>和前一个词x^t-1输入到打标签模块的LSTM解码器，生成当前词的分布，对当前词进行分发。

更进一步地，所述ResNet-101网络包括顺序连接的1个conv1卷积层，3个conv2_x卷积层，4个conv3_x卷积层，23个conv4_x卷积层，3个conv5_x卷积层以及1个全连接层，conv1卷积层是一个步长为2的7×7的卷积层，conv2_x卷积层由一个卷积核1×1且数量64的卷积层、一个卷积核3×3且数量64的卷积层以及一个卷积核1×1且数量256的卷积层组成，conv3_x卷积层由一个卷积核1×1且数量128的卷积层、一个卷积核3×3且数量128的卷积以及一个卷积核1×1且数量512的卷积层组成，conv4_x卷积层由一个卷积核1×1且数量256的卷积层、一个卷积核3×3且数量256的卷积层以及一个卷积核1×1且数量1024的卷积层组成，conv5_x卷积层由一个卷积核1×1且数量512的卷积层、一个卷积核3×3且数量512的卷积层以及一个卷积核1×1且数量2048的卷积层组成。

更进一步地，所述步骤c包括：

初始化训练参数；

将输入图像组特征(X_bef，X_aft)输入到基于双重动态注意力机制的跨语言图像变化描述模型的ResNet-101网络中，不断更新ResNet-101网络的学习率以及动态注意模块的权重系数、打标签模块的权重系数，直到损失函数值最小时停止训练得到训练好的基于双重动态注意力机制的跨语言图像变化描述模型。

更进一步地，所述初始化训练参数包括初始化学习率、初始化最大迭代次数、初始化更新梯度、初始化动态注意模块的权重系数、初始化打标签模块的权重系数，学习率的更新公式为其中，iter为当前迭代次数，max_iter为最大迭代次数，power为更新梯度，learningrate为当前学习率。

更进一步地，所述损失函数公式为

L(θ)＝L_XE+λ₁L₁-λ_entL_ent

L₁＝||W_c||+||W_d2||

其中，L_XE表示对训练目标采用交叉熵损失最小化得到的值，L₁表示正则化的值，L_ent表示交叉熵损失值，λ₁表示预设的第一超参数，λ_ent表示预设的第二超参数，p_θ表示求概率值，W_c表示表示打标签模块的权重系数，W_d2表示动态注意模块的权重系数，ω_t表示打标签模块的权重，α_t表示动态注意模块的注意权重。

本发明还提供基于跨语言图像变化描述的井下管道泄漏描述装置，所述装置包括：

图像预处理模块，用于获取井下管道场景图像，对图像进行预处理得到训练集和测试集；

模型构建模块，用于构建基于双重动态注意力机制的跨语言图像变化描述模型；

模型训练模块，用于将基于双重动态注意力机制的跨语言图像变化描述模型在训练集上训练；

测试模块，用于利用训练好的基于双重动态注意力机制的跨语言图像变化描述模型对测试集进行测试，获得图像描述结果。

进一步地，所述图像预处理模块还用于：

进一步地，所述模型构建模块还用于：

更进一步地，所述模型构建模块还用于：

更进一步地，所述模型训练模块还用于：

初始化训练参数；

更进一步地，所述损失函数公式为

L(θ)＝L_XE+λ₁L₁-λ_entL_ent

L₁＝||W_c||+||W_d2||

本发明的优点在于：

(1)本发明采集井下管道场景图像，避免使用传感器进行检测，保证采集的数据的准确性，构建基于双重动态注意力机制的跨语言图像变化描述模型，并训练该模型，最后利用训练好的模型进行管道泄漏状态描述，保证井下管道泄漏描述的准确性。

(2)本发明通过采用标注的井下管道状态图像组成的训练集对基于双重动态注意力机制的跨语言图像变化描述模型进行训练，训练过程中通过嵌入了空间注意力机制的RNN网络得到空间注意力结果也即需要注意的图像位置，通过动态注意模块以及打标签模块输出当前词，对当前词进行分发，当前词中包含注意图像时间也即何时开始注意每个图像，整个模型最终生成目标场景的中文描述，不需要采用人工观测检测井下管道状态，且描述效果较好。

(3)本发明突破了传统的井下管道泄漏状态检测中存在大量人工检查、环境复杂引起的肉眼观测的误判、传统监控设备(如传感器探测)无法提供有效的状态信息等问题，提高了***检测井下管道泄漏状态检测的准确率，更加适合应用于复杂的工业场景。

附图说明

图1为本发明实施例所公开的基于跨语言图像变化描述的井下管道泄漏描述方法的流程图；

图2为本发明实施例所公开的基于跨语言图像变化描述的井下管道泄漏描述方法中ResNet-101架构示意图；

图3为本发明实施例所公开的基于跨语言图像变化描述的井下管道泄漏描述方法中井下管道状态图像获取流程示意图；

图4为本发明实施例所公开的基于跨语言图像变化描述的井下管道泄漏描述方法中井下管道状态图像的预处理流程图；

图5为本发明实施例所公开的基于跨语言图像变化描述的井下管道泄漏描述方法中对预处理后得到的数据集的处理流程图；

图6为本发明实施例所公开的基于跨语言图像变化描述的井下管道泄漏描述方法中模型训练的流程图；

图7为本发明实施例所公开的基于跨语言图像变化描述的井下管道泄漏描述方法中基于双重动态注意力机制的跨语言图像变化描述模型的架构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1和图2所示，基于跨语言图像变化描述的井下管道泄漏描述方法，所述方法包括：

步骤a：获取井下管道场景图像，对图像进行预处理得到训练集和测试集；如图3所示，具体过程为：

S11、在井下管道侧面垂直距离为h的位置安装摄像头，摄像头焦距为f，可以在多个角度安装摄像头以达到对井下管道多方位的观测；

S12、设置摄像头参数，由于工业现场环境较为复杂，对摄像头采集的图像有很大的干扰，因此设置摄像头采用较高的分辨率以捕捉图像的更多特性；设置摄像头帧率，在井下管道泄漏时采用较高的摄像头帧率可以使采集的图像更加清晰；根据井下的光线特性调整摄像头的饱和度，对比度等参数以达到对井下管道状态采集的最佳拍摄。

S13、从视频帧中获取井下管道状态图像，设置固定的时间间隔，按照指定时间间隔抽取关键帧并转换为图像。井下管道状态图像为训练集和测试集的数据源。

如图4所示，井下管道状态图像进行预处理的过程为：

S21、对图像进行初步筛选，去除过度模糊、过度遮挡、曝光过度、曝光不足等不合格图像，处理图片大小分辨率统一为512×512的大小。

S22、对合格的图像进行标注，采用COCO官方pycocotools包对所述图像数据进行标注。标注规则根据Amazon Mechanical Turk标准。标注后的标注数据保存为.json格式，每张图像包含以下标注文件：

(1)info：包括数据集建立的时间，下载地址，版本号等；

(2)licenses：数据集使用条款；

(3)images：包括图片的filename，height，width，图片对应的caption的id；

(4)annotation：包含image的id,对应的caption的id，和每个图片对应的3句描述。

S23、按照一定的比例将标注后的数据集拆分为训练集和测试集。

如图5所示，S31、根据Amazon Mechanical Turk标准，人工检验每张图像标注描述，剔除不符合标准的描述。

S32、根据Amazon Mechanical Turk标准，补全剔除的描述。

步骤b：构建基于双重动态注意力机制的跨语言图像变化描述模型；具体为：构建基于双重动态注意力机制的跨语言图像变化描述模型，首先选择Encoder网络和Decoder网络，并设置训练网络的超参数。可选的Encoder网络类型有LeNet、AlexNet、VGGNet-16、VGGNet-19、ResNet-50、ResNet-101、ResNet-152、GoogleNet等。从VGG网络开始，神经网络的层数越来越深，深层次网络可以提取更多的特征，但由于梯度消失的问题，网络的训练效果并没有变好。ResNet引入了残差网络结构(residual network)，通过该结构可以有效的解决梯度消失问题。可选的Decoder网络有RNN、LSTM、GRU等。对于较长的序列输入，为解决长期依赖问题，我们一般需要较深的神经网络，但是同一般的深度网络一样，RNN也存在优化困难的问题，如梯度消失与梯度***。而对于梯度消失问题，由于相互作用的梯度呈指数减少，因此长期依赖信号将会变得非常微弱，而容易受到短期信号波动的影响。LSTM通过设计“门”结构实现保留信息和选择信息功能(遗忘门、输入门)，从而得以使输入信息长期传递下去。GRU是对LSTM的简化，将输入门和遗忘门合并为更新门(更新门决定隐状态保留或放弃部分)；然而在众多的LSTM变种中，其在很多任务中性能和鲁棒性均比不上RNN和LSTM。LSTM选择单层结构，设置hidden_size为512。

设置训练神经网络的超参数，包括：优化方法(SGD、AdaGrad、RMSProp、Adam)，初始化学习率，权重衰减率等。

综上，本发明构建的基于双重动态注意力机制的跨语言图像变化描述模型包括编码器、嵌入了空间注意力机制的RNN网络、基于动态发言机制的动态注意模块和打标签模块，动态注意模块和打标签模块都是基于LSTM的递归模型，训练集或者测试集输入到编码器，编码器连接嵌入了空间注意力机制的RNN网络，RNN网络输出空间注意力结果也即需要注意的图像位置，嵌入了空间注意力机制的RNN网络连接动态注意模块，动态注意模块连接打标签模块，打标签模块输出当前词，对当前词进行分发，当前词中包含注意图像时间也即何时开始注意每个图像。

基于双重动态注意力机制的跨语言图像变化描述模型的工作过程为：首先，采用1个ResNet-101网络作为编码器提取输入图像组特征(X_bef，X_aft)；所述ResNet-101网络包括顺序连接的1个conv1卷积层，3个conv2_x卷积层，4个conv3_x卷积层，23个conv4_x卷积层，3个conv5_x卷积层以及1个全连接层，conv1卷积层是一个步长为2的7×7的卷积层，conv2_x卷积层由一个卷积核1×1且数量64的卷积层、一个卷积核3×3且数量64的卷积层以及一个卷积核1×1且数量256的卷积层组成，conv3_x卷积层由一个卷积核1×1且数量128的卷积层、一个卷积核3×3且数量128的卷积以及一个卷积核1×1且数量512的卷积层组成，conv4_x卷积层由一个卷积核1×1且数量256的卷积层、一个卷积核3×3且数量256的卷积层以及一个卷积核1×1且数量1024的卷积层组成，conv5_x卷积层由一个卷积核1×1且数量512的卷积层、一个卷积核3×3且数量512的卷积层以及一个卷积核1×1且数量2048的卷积层组成。

接着，将输入图像组特征(X_bef，X_aft)输入到一个嵌入了双重注意力机制的RNN网络，对编码后的输入图像组特征(X_bef，X_aft)通过公式X_aft-X_bef做差得到差异特征X_diff；将得到的差异特征X_diff分别与输入图像组特征(X_bef，X_aft)连接，得到两个不同的空间注意力图像组A_bef和A_aft；具体公式如下：

X_diff＝X_aft-X_bef (1)

X′_bef＝[X_bef；X_diff]；X′_aft＝[X_aft；X_diff] (2)

a_bef＝σ(conv₂(ReLU(conv₁(X′_bef)))) (3)

a_aft＝σ(conv₂(ReLU(conv₁(X′_aft)))) (4)

l_bef＝∑_H,Wa_bef⊙X_bef (5)

l_aft＝∑_H,Wa_aft⊙X_aft (6)

以上是基于双重注意力机制，该双重注意力设计允许***根据变化的类型和视点移动的数量来处理不同的图像，对于检测至关重要。为了正确地描述一个管道泄漏状态，模型需要在两个图像中定位和匹配变化的对象；如果只关注一个管道在其中一个图像上的状态，很可能会造成管道泄漏的误判，影响结果准确度。在管道泄漏中，最明显的状态改变是有一个属性改变(如颜色)不涉及物***移，单一的注意可能不足以在一个视点移动下正确定位改变的物体，而使用双重注意力可以很好的适应这个环境。

最后，为了成功地描述一个变化，模型不仅应该学习在每个图像中检测哪里(空间注意，由双重注意预测)，还应该学习何时看每个图像(语义注意)。事实上，希望模型可以表现出动态推理，通过这它可以学习什么时候关注“之前”(l_bef)，“之后”(l_aft),或者“差异”特征(l_diff＝l_aft-l_bef)，并为它生成一个单词序列，该单词序列即最终输出的中文描述。

因此设计基于动态发言机制的动态注意模块和打标签模块，动态注意模块中的LSTM解码器将打标签模块的先前隐藏状态和l_bef、l_diff、l_aft的视觉特征的潜在投影v作为输入，预测注意权重/>将注意权重/>与视觉特征累积求和得到动态参与特征动态参与特征/>和前一个词x^t-1输入到打标签模块的LSTM解码器，生成当前词的分布，对当前词进行分发。具体公式过程如下：

其中，l_i是t时刻l_bef、l_diff、l_aft的视觉特征，和/>分别为动态注意模块和打标签模块在解码器时间步长t处的LSTM输出，Wd1、bd1、Wd2、bd2为可学习参数。利用式(11)预测的注意权重，根据式(7)得到动态参与特征/>最后，/>和前一个词x^t-1输入到打标签模块的LSTM解码器，开始对下一个单词进行分发：

是前一个单词ω_t-1的一个one-hot编码，E是一个嵌入层；x^t-1是前一个单词在嵌入层的一个热编码值；c(t)是将/>和前一个词的独热编码值x^t-1连接，然后被输入到打标签模块的LSTM解码器，从而开始生成下一个单词的分布。这两个解码器并行预测每个单词并保持相互交互。

每一时间步输入的h_t和Z_t采用基线模型的方法计算。使用来表示一个包含学习到参数的仿射变换：

c_t＝f_t⊙c_t-1+i_t⊙g_t

h_t＝o_t⊙tanh(c_t)

这里i_t，f_t，c_t，o_t，h_t分别是LSTM的输入、遗忘、记忆、输出和隐藏状态。向量是图像向量，捕获与特定输入位置相关联的视觉信息，如下所述。/>是一个嵌入矩阵。设m和n分别表示嵌入维数和LSTM维数，σ和⊙分别表示logistic-sigmoid激活和元素相乘。

步骤c：将基于双重动态注意力机制的跨语言图像变化描述模型在训练集上训练；具体过程为：

初始化训练参数；

所述初始化训练参数包括初始化学习率、初始化最大迭代次数、初始化更新梯度、初始化动态注意模块的权重系数、初始化打标签模块的权重系数，学习率的更新公式为其中，iter为当前迭代次数，max_iter为最大迭代次数，power为更新梯度，learningrate为当前学习率。本实例中，训练的批处理大小为batchsize为4，最大迭代次数设为30000次。动量momentum为0.9，设置初始学习率为0.001。在训练模型的时候采用inv策略来对学习率进行调整。

如图6所示，ResNet-101网络权重初始化，除了网络的最后一层其余层的权重都采用无偏方式进行初始化，即偏置(bias)为0，方差(var)采用高斯分布(σ＝0.01)，网络最后一层的权重参数考虑样本不平衡分布的问题，权重初始化时采用公式其中π为超参数，本实例中π设置为0.01，改变模型初始化策略使模型不会偏向更多的负样本；

使用如下损失函数求得最优解的时候模型停止训练：

L(θ)＝L_XE+λ₁L₁-λ_entL_ent

L₁＝||W_c||+||W_d2||

其中，L_XE表示对训练目标采用交叉熵损失最小化得到的值，L₁表示正则化的值，L_ent表示交叉熵损失值，λL1表示预设的第一超参数，λent表示预设的第二超参数。p_θ表示求概率值，初始的时候W_c、b_c和W_d2、b_d2均给定一个初始值，先进入双重注意力模块，将W_d2、b_d2的初始值代入式(11)计算初始的α_t，根据初始的α_t得到初始的L_ent，然后进入动态发言机制，将W_c、b_c的初始值代入(15)式得到初始的ω_t，根据初始的ω_t，得到初始的L_XE，然后用初始的W_c和初始的W_d2计算得到初始的L₁，然后根据初始的L_XE、初始的L_ent以及初始的L₁的得出初始的损失值，然后通过反向传播分别更新W_c和W_d2，每次更新的时候最终都会得到一个损失值，损失函数寻得最优解的时候停止更新，固定参数，将这些参数代入以上公式(11)、公式(15)得到最后训练好的模型。

步骤d：利用训练好的基于双重动态注意力机制的跨语言图像变化描述模型对测试集进行测试，获得图像描述结果。图7为本发明的跨语言图像变化描述模型架构示意图。

通过以上技术方案，本发明采集井下管道场景图像，避免使用传感器进行检测，保证采集的数据的准确性，构建基于双重动态注意力机制的跨语言图像变化描述模型，并训练该模型，最后利用训练好的模型进行管道泄漏状态描述，保证井下管道泄漏描述的准确性。

实施例2

具体的，所述图像预处理模块还用于：

具体的，所述模型构建模块还用于：

更具体的，所述模型构建模块还用于：

动态注意模块中的LSTM解码器将打标签模块的先前隐藏状态和l_bef、l_diff、l_aft的视觉特征的潜在投影v作为输入，预测注意权重/>将注意权重/>与视觉特征累积求和得到动态参与特征/>动态参与特征/>和前一个词x^t-1输入到打标签模块的LSTM解码器，生成当前词的分布，对当前词进行分发。/>

更具体的，所述ResNet-101网络包括顺序连接的1个conv1卷积层，3个conv2_x卷积层，4个conv3_x卷积层，23个conv4_x卷积层，3个conv5_x卷积层以及1个全连接层，conv1卷积层是一个步长为2的7×7的卷积层，conv2_x卷积层由一个卷积核1×1且数量64的卷积层、一个卷积核3×3且数量64的卷积层以及一个卷积核1×1且数量256的卷积层组成，conv3_x卷积层由一个卷积核1×1且数量128的卷积层、一个卷积核3×3且数量128的卷积以及一个卷积核1×1且数量512的卷积层组成，conv4_x卷积层由一个卷积核1×1且数量256的卷积层、一个卷积核3×3且数量256的卷积层以及一个卷积核1×1且数量1024的卷积层组成，conv5_x卷积层由一个卷积核1×1且数量512的卷积层、一个卷积核3×3且数量512的卷积层以及一个卷积核1×1且数量2048的卷积层组成。

更具体的，所述模型训练模块还用于：

初始化训练参数；

更具体的，所述初始化训练参数包括初始化学习率、初始化最大迭代次数、初始化更新梯度、初始化动态注意模块的权重系数、初始化打标签模块的权重系数，学习率的更新公式为其中，iter为当前迭代次数，max_iter为最大迭代次数，power为更新梯度，learningrate为当前学习率。

更具体的，所述损失函数公式为

L(θ)＝L_XE+λ₁L₁-λ_entL_ent

L₁＝||W_c||+||W_d2||

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.基于跨语言图像变化描述的井下管道泄漏描述方法，其特征在于，所述方法包括：

所述基于双重动态注意力机制的跨语言图像变化描述模型包括编码器、嵌入了空间注意力机制的RNN网络、基于动态发言机制的动态注意模块和打标签模块，动态注意模块和打标签模块都是基于LSTM的递归模型，训练集或者测试集输入到编码器，编码器连接嵌入了空间注意力机制的RNN网络，RNN网络输出空间注意力结果也即需要注意的图像位置，嵌入了空间注意力机制的RNN网络连接动态注意模块，动态注意模块连接打标签模块，打标签模块输出当前词，对当前词进行分发，当前词中包含注意图像时间也即何时开始注意每个图像；

采用1个ResNet-101网络作为编码器提取输入图像组特征（X_bef，X_aft）；

将输入图像组特征（X_bef，X_aft）输入到一个嵌入了双重注意力机制的RNN网络，对编码后的输入图像组特征（X_bef，X_aft）通过公式X_aft- X_bef做差得到差异特征X_diff；将得到的差异特征X_diff分别与输入图像组特征（X_bef，X_aft）连接，得到两个不同的空间注意力图像组A_bef和A_aft；

动态注意模块中的LSTM解码器将打标签模块的先前隐藏状态和l_bef、l_diff、l_aft的视觉特征的潜在投影v作为输入，预测注意权重/>；将注意权重/>与视觉特征累积求和得到动态参与特征/>，动态参与特征/>和前一个词/>输入到打标签模块的LSTM解码器，生成当前词的分布，对当前词进行分发；

所述ResNet -101网络包括顺序连接的1个conv1卷积层，3个conv2_x卷积层，4个conv3_x卷积层，23个conv4_x卷积层，3个conv5_x卷积层以及1个全连接层，conv1卷积层是一个步长为2的的卷积层，conv2_x卷积层由一个卷积核/>且数量64的卷积层、一个卷积核/>且数量64的卷积层以及一个卷积核/>且数量256的卷积层组成，conv3_x卷积层由一个卷积核/>且数量128的卷积层、一个卷积核/>且数量128的卷积以及一个卷积核/>且数量512的卷积层组成，conv4_x卷积层由一个卷积核/>且数量256的卷积层、一个卷积核/>且数量256的卷积层以及一个卷积核/>且数量1024的卷积层组成，conv5_x卷积层由一个卷积核/>且数量512的卷积层、一个卷积核/>且数量512的卷积层以及一个卷积核/>且数量2048的卷积层组成；

2.根据权利要求1所述的基于跨语言图像变化描述的井下管道泄漏描述方法，其特征在于，所述步骤a包括：

3.根据权利要求1所述的基于跨语言图像变化描述的井下管道泄漏描述方法，其特征在于，所述步骤c包括：

初始化训练参数；

将输入图像组特征（X_bef，X_aft）输入到基于双重动态注意力机制的跨语言图像变化描述模型的ResNet -101网络中，不断更新ResNet -101网络的学习率以及初始化动态注意模块的权重系数、初始化打标签模块的权重系数，直到损失函数值最小时停止训练得到训练好的基于双重动态注意力机制的跨语言图像变化描述模型。

4.根据权利要求3所述的基于跨语言图像变化描述的井下管道泄漏描述方法，其特征在于，所述初始化训练参数包括初始化学习率、初始化最大迭代次数、初始化更新梯度、初始化动态注意模块的权重系数、初始化打标签模块的权重系数，学习率的更新公式为，其中，/>为当前迭代次数，/>为最大迭代次数，/>为更新梯度，/>为当前学习率。

5.根据权利要求3所述的基于跨语言图像变化描述的井下管道泄漏描述方法，其特征在于，所述损失函数公式为

其中，表示对训练目标采用交叉熵损失最小化得到的值，/>表示正则化的值，/>表示交叉熵损失值，/>表示预设的第一超参数，/>表示预设的第二超参数，/>表示求概率值， />表示表示打标签模块的权重系数，/>表示动态注意模块的权重系数，/>表示打标签模块的权重，/>表示动态注意模块的注意权重。

6.基于跨语言图像变化描述的井下管道泄漏描述装置，其特征在于，所述装置包括：

7.根据权利要求6所述的基于跨语言图像变化描述的井下管道泄漏描述装置，其特征在于，所述图像预处理模块还用于：