CN113239886B - 基于跨语言图像变化描述的井下管道泄漏描述方法及装置 - Google Patents

基于跨语言图像变化描述的井下管道泄漏描述方法及装置 Download PDF

Info

Publication number
CN113239886B
CN113239886B CN202110626949.2A CN202110626949A CN113239886B CN 113239886 B CN113239886 B CN 113239886B CN 202110626949 A CN202110626949 A CN 202110626949A CN 113239886 B CN113239886 B CN 113239886B
Authority
CN
China
Prior art keywords
image
module
attention
convolution
dynamic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110626949.2A
Other languages
English (en)
Other versions
CN113239886A (zh
Inventor
胡迪
刘玉洁
罗辉
段章领
卫星
赵冲
赵明
陆阳
李航
帅竞贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Intelligent Manufacturing Institute of Hefei University Technology
Original Assignee
Hefei University of Technology
Intelligent Manufacturing Institute of Hefei University Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology, Intelligent Manufacturing Institute of Hefei University Technology filed Critical Hefei University of Technology
Priority to CN202110626949.2A priority Critical patent/CN113239886B/zh
Publication of CN113239886A publication Critical patent/CN113239886A/zh
Application granted granted Critical
Publication of CN113239886B publication Critical patent/CN113239886B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于跨语言图像变化描述的井下管道泄漏描述方法及装置,所述方法包括:获取井下管道场景图像,对图像进行预处理得到训练集和测试集;构建基于双重动态注意力机制的跨语言图像变化描述模型;将基于双重动态注意力机制的跨语言图像变化描述模型在训练集上训练;利用训练好的基于双重动态注意力机制的跨语言图像变化描述模型对测试集进行测试,获得图像描述结果;本发明的优点在于:井下管道泄漏描述较为准确。

Description

基于跨语言图像变化描述的井下管道泄漏描述方法及装置
技术领域
本发明涉及井下管道变化描述领域,更具体涉及基于跨语言图像变化描述的井下管道泄漏描述方法及装置。
背景技术
矿井是形成地下煤矿生产***的井巷、硐室、装备、地面建筑物和构筑物的总称。我国国有重点煤矿多为大、中型矿井;地方国营煤矿多为中、小型矿井。随着我国国民经济的高速发展,我国对能源的需求量在不断增加。未来很长一段时间内,煤炭作为我国保障性支柱能源,需求量将逐年递增,煤炭产业规模化已经是大势所趋。煤炭行业作为基础能源工业,经过几十年的发展,煤矿集团化大型化上现有的趋势,投资规模随之增大,平均300万t/a井型投资均在6亿~7亿元左右;以往单纯以盈利为目的的粗放型开采,将逐步被大型机械化生产取代,所以随即衍生出各类井下安全防护***,其中井下管道泄漏的检测也是其防备措施之一。
管道运输是继铁路、公路、航空、水运的第五大运输手段。在石油、天然气等流体运输中有着独特的优势。但是,随着管龄的增长,由于施工缺陷、腐蚀和人为破坏的存在,管道渗漏状况频频发生,给人们的生命财产和生存环境造成了巨大的威胁。其中井下场景的管道渗漏情况较为隐蔽,不易及时发现处理,耗费维护巡查人员大量的时间和精力,收效也甚微。
流体输送管道泄漏检测的方法很多,分类也很多,根据近十几年来国内外相关资料,比较公认的分类方法大致有:基于硬件和软件的方法、根据测量媒介分类、根据检测装置所处位置分类、根据检测对象分类、基于信号处理方式分类等。
深度学习网络模型的提出,使计算机视觉领域得到更进一步的发展。深度学习模型从图像中自适应学习,是一种端到端的检测方法。随着大数据时代的到来,各种用于训练深度学习网络模型的数据集不断地丰富与完善也推动了基于深度学习的计算机视觉领域发展。其中change caption作为计算机视觉与自然语言处理的交叉领域得到了长足的发展。该领域主要任务为标记图像,将所述处理标记图像按两张为一组,两张图产生时序对比,生成符合图像内容的描述性文字,要求不仅能识别图像中的主要目标,还要考虑目标之间的变化关系。通过change caption模型对井下矿井管道场景进行描述,可以辅助巡查人员实时监控井下管道状态并起到及时预警作用。
中国专利授权公告号CN107013812B,公开了一种三场耦合管道泄漏监测方法,包括如下步骤:构建管道三场耦合传感***、管道三场耦合传感***监测被测管道空载状态模拟、管道三场耦合传感***监测被测管道正常工况模拟、管道三场耦合传感***泄漏事件模拟、管道监测神经网络建模与学习、管道泄漏监测。该发明的目的是提供管道泄漏报监测警、定位和泄漏大小判断的方法,通过采集管道周围三场参数及建立检测参数之间相互联系,目的在于能够有效地减少误报、避免漏报、准确定位泄漏点,并通过神经网络算法提供泄漏的大小,为制定维修方案提供可靠依据。但是该发明采用传感器检测的方式采集数据进行管道描述,井下管道内传感器数据并不稳定,如果传感器失灵或者损坏将导致管道泄漏描述不准确。
发明内容
本发明所要解决的技术问题在于现有技术井下管道泄漏描述方法不够准确的问题。
本发明通过以下技术手段实现解决上述技术问题的:基于跨语言图像变化描述的井下管道泄漏描述方法,所述方法包括:
步骤a:获取井下管道场景图像,对图像进行预处理得到训练集和测试集;
步骤b:构建基于双重动态注意力机制的跨语言图像变化描述模型;
步骤c:将基于双重动态注意力机制的跨语言图像变化描述模型在训练集上训练;
步骤d:利用训练好的基于双重动态注意力机制的跨语言图像变化描述模型对测试集进行测试,获得图像描述结果。
本发明采集井下管道场景图像,避免使用传感器进行检测,保证采集的数据的准确性,构建基于双重动态注意力机制的跨语言图像变化描述模型,并训练该模型,最后利用训练好的模型进行管道泄漏状态描述,保证井下管道泄漏描述的准确性。
进一步地,所述步骤a包括:
步骤a1:在井下管道前端安装摄像头采集井下管道日常状态视频流数据;
步骤a2:按照预设的时间间隔提取视频流数据中的关键帧并保存为井下管道场景图像;
步骤a3:将所有井下管道场景图像裁剪至512×512大小得到图像数据集;将所述图像数据集按两张为一组划分为多组,每组中一张图像为前一帧的管道无泄漏状态图像,另一张图像为后一帧存在泄漏的变化图像或者不存在泄漏变化但有其他因素变化的图像;采用COCO官方pycocotools包对所述图像进行标注,获得标注后的标记数据集;将标记数据集按3:1分为训练集和测试集。
进一步地,所述步骤b包括:
所述基于双重动态注意力机制的跨语言图像变化描述模型包括编码器、嵌入了空间注意力机制的RNN网络、基于动态发言机制的动态注意模块和打标签模块,动态注意模块和打标签模块都是基于LSTM的递归模型,训练集或者测试集输入到编码器,编码器连接嵌入了空间注意力机制的RNN网络,RNN网络输出空间注意力结果也即需要注意的图像位置,嵌入了空间注意力机制的RNN网络连接动态注意模块,动态注意模块连接打标签模块,打标签模块输出当前词,对当前词进行分发,当前词中包含注意图像时间也即何时开始注意每个图像。
更进一步地,所述步骤b还包括:
采用1个ResNet-101网络作为编码器提取输入图像组特征(Xbef,Xaft);
将输入图像组特征(Xbef,Xaft)输入到一个嵌入了双重注意力机制的RNN网络,对编码后的输入图像组特征(Xbef,Xaft)通过公式Xaft-Xbef做差得到差异特征Xdiff;将得到的差异特征Xdiff分别与输入图像组特征(Xbef,Xaft)连接,得到两个不同的空间注意力图像组Abef和Aaft
动态注意模块中的LSTM解码器将打标签模块的先前隐藏状态和lbef、ldiff、laft的视觉特征的潜在投影v作为输入,预测注意权重/>将注意权重/>与视觉特征累积求和得到动态参与特征/>动态参与特征/>和前一个词xt-1输入到打标签模块的LSTM解码器,生成当前词的分布,对当前词进行分发。
更进一步地,所述ResNet-101网络包括顺序连接的1个conv1卷积层,3个conv2_x卷积层,4个conv3_x卷积层,23个conv4_x卷积层,3个conv5_x卷积层以及1个全连接层,conv1卷积层是一个步长为2的7×7的卷积层,conv2_x卷积层由一个卷积核1×1且数量64的卷积层、一个卷积核3×3且数量64的卷积层以及一个卷积核1×1且数量256的卷积层组成,conv3_x卷积层由一个卷积核1×1且数量128的卷积层、一个卷积核3×3且数量128的卷积以及一个卷积核1×1且数量512的卷积层组成,conv4_x卷积层由一个卷积核1×1且数量256的卷积层、一个卷积核3×3且数量256的卷积层以及一个卷积核1×1且数量1024的卷积层组成,conv5_x卷积层由一个卷积核1×1且数量512的卷积层、一个卷积核3×3且数量512的卷积层以及一个卷积核1×1且数量2048的卷积层组成。
更进一步地,所述步骤c包括:
初始化训练参数;
将输入图像组特征(Xbef,Xaft)输入到基于双重动态注意力机制的跨语言图像变化描述模型的ResNet-101网络中,不断更新ResNet-101网络的学习率以及动态注意模块的权重系数、打标签模块的权重系数,直到损失函数值最小时停止训练得到训练好的基于双重动态注意力机制的跨语言图像变化描述模型。
更进一步地,所述初始化训练参数包括初始化学习率、初始化最大迭代次数、初始化更新梯度、初始化动态注意模块的权重系数、初始化打标签模块的权重系数,学习率的更新公式为其中,iter为当前迭代次数,max_iter为最大迭代次数,power为更新梯度,learningrate为当前学习率。
更进一步地,所述损失函数公式为
L(θ)=LXE1L1entLent
L1=||Wc||+||Wd2||
其中,LXE表示对训练目标采用交叉熵损失最小化得到的值,L1表示正则化的值,Lent表示交叉熵损失值,λ1表示预设的第一超参数,λent表示预设的第二超参数,pθ表示求概率值,Wc表示表示打标签模块的权重系数,Wd2表示动态注意模块的权重系数,ωt表示打标签模块的权重,αt表示动态注意模块的注意权重。
本发明还提供基于跨语言图像变化描述的井下管道泄漏描述装置,所述装置包括:
图像预处理模块,用于获取井下管道场景图像,对图像进行预处理得到训练集和测试集;
模型构建模块,用于构建基于双重动态注意力机制的跨语言图像变化描述模型;
模型训练模块,用于将基于双重动态注意力机制的跨语言图像变化描述模型在训练集上训练;
测试模块,用于利用训练好的基于双重动态注意力机制的跨语言图像变化描述模型对测试集进行测试,获得图像描述结果。
进一步地,所述图像预处理模块还用于:
步骤a1:在井下管道前端安装摄像头采集井下管道日常状态视频流数据;
步骤a2:按照预设的时间间隔提取视频流数据中的关键帧并保存为井下管道场景图像;
步骤a3:将所有井下管道场景图像裁剪至512×512大小得到图像数据集;将所述图像数据集按两张为一组划分为多组,每组中一张图像为前一帧的管道无泄漏状态图像,另一张图像为后一帧存在泄漏的变化图像或者不存在泄漏变化但有其他因素变化的图像;采用COCO官方pycocotools包对所述图像进行标注,获得标注后的标记数据集;将标记数据集按3:1分为训练集和测试集。
进一步地,所述模型构建模块还用于:
所述基于双重动态注意力机制的跨语言图像变化描述模型包括编码器、嵌入了空间注意力机制的RNN网络、基于动态发言机制的动态注意模块和打标签模块,动态注意模块和打标签模块都是基于LSTM的递归模型,训练集或者测试集输入到编码器,编码器连接嵌入了空间注意力机制的RNN网络,RNN网络输出空间注意力结果也即需要注意的图像位置,嵌入了空间注意力机制的RNN网络连接动态注意模块,动态注意模块连接打标签模块,打标签模块输出当前词,对当前词进行分发,当前词中包含注意图像时间也即何时开始注意每个图像。
更进一步地,所述模型构建模块还用于:
采用1个ResNet-101网络作为编码器提取输入图像组特征(Xbef,Xaft);
将输入图像组特征(Xbef,Xaft)输入到一个嵌入了双重注意力机制的RNN网络,对编码后的输入图像组特征(Xbef,Xaft)通过公式Xaft-Xbef做差得到差异特征Xdiff;将得到的差异特征Xdiff分别与输入图像组特征(Xbef,Xaft)连接,得到两个不同的空间注意力图像组Abef和Aaft
动态注意模块中的LSTM解码器将打标签模块的先前隐藏状态和lbef、ldiff、laft的视觉特征的潜在投影v作为输入,预测注意权重/>将注意权重/>与视觉特征累积求和得到动态参与特征/>动态参与特征/>和前一个词xt-1输入到打标签模块的LSTM解码器,生成当前词的分布,对当前词进行分发。
更进一步地,所述ResNet-101网络包括顺序连接的1个conv1卷积层,3个conv2_x卷积层,4个conv3_x卷积层,23个conv4_x卷积层,3个conv5_x卷积层以及1个全连接层,conv1卷积层是一个步长为2的7×7的卷积层,conv2_x卷积层由一个卷积核1×1且数量64的卷积层、一个卷积核3×3且数量64的卷积层以及一个卷积核1×1且数量256的卷积层组成,conv3_x卷积层由一个卷积核1×1且数量128的卷积层、一个卷积核3×3且数量128的卷积以及一个卷积核1×1且数量512的卷积层组成,conv4_x卷积层由一个卷积核1×1且数量256的卷积层、一个卷积核3×3且数量256的卷积层以及一个卷积核1×1且数量1024的卷积层组成,conv5_x卷积层由一个卷积核1×1且数量512的卷积层、一个卷积核3×3且数量512的卷积层以及一个卷积核1×1且数量2048的卷积层组成。
更进一步地,所述模型训练模块还用于:
初始化训练参数;
将输入图像组特征(Xbef,Xaft)输入到基于双重动态注意力机制的跨语言图像变化描述模型的ResNet-101网络中,不断更新ResNet-101网络的学习率以及动态注意模块的权重系数、打标签模块的权重系数,直到损失函数值最小时停止训练得到训练好的基于双重动态注意力机制的跨语言图像变化描述模型。
更进一步地,所述初始化训练参数包括初始化学习率、初始化最大迭代次数、初始化更新梯度、初始化动态注意模块的权重系数、初始化打标签模块的权重系数,学习率的更新公式为其中,iter为当前迭代次数,max_iter为最大迭代次数,power为更新梯度,learningrate为当前学习率。
更进一步地,所述损失函数公式为
L(θ)=LXE1L1entLent
L1=||Wc||+||Wd2||
其中,LXE表示对训练目标采用交叉熵损失最小化得到的值,L1表示正则化的值,Lent表示交叉熵损失值,λ1表示预设的第一超参数,λent表示预设的第二超参数,pθ表示求概率值,Wc表示表示打标签模块的权重系数,Wd2表示动态注意模块的权重系数,ωt表示打标签模块的权重,αt表示动态注意模块的注意权重。
本发明的优点在于:
(1)本发明采集井下管道场景图像,避免使用传感器进行检测,保证采集的数据的准确性,构建基于双重动态注意力机制的跨语言图像变化描述模型,并训练该模型,最后利用训练好的模型进行管道泄漏状态描述,保证井下管道泄漏描述的准确性。
(2)本发明通过采用标注的井下管道状态图像组成的训练集对基于双重动态注意力机制的跨语言图像变化描述模型进行训练,训练过程中通过嵌入了空间注意力机制的RNN网络得到空间注意力结果也即需要注意的图像位置,通过动态注意模块以及打标签模块输出当前词,对当前词进行分发,当前词中包含注意图像时间也即何时开始注意每个图像,整个模型最终生成目标场景的中文描述,不需要采用人工观测检测井下管道状态,且描述效果较好。
(3)本发明突破了传统的井下管道泄漏状态检测中存在大量人工检查、环境复杂引起的肉眼观测的误判、传统监控设备(如传感器探测)无法提供有效的状态信息等问题,提高了***检测井下管道泄漏状态检测的准确率,更加适合应用于复杂的工业场景。
附图说明
图1为本发明实施例所公开的基于跨语言图像变化描述的井下管道泄漏描述方法的流程图;
图2为本发明实施例所公开的基于跨语言图像变化描述的井下管道泄漏描述方法中ResNet-101架构示意图;
图3为本发明实施例所公开的基于跨语言图像变化描述的井下管道泄漏描述方法中井下管道状态图像获取流程示意图;
图4为本发明实施例所公开的基于跨语言图像变化描述的井下管道泄漏描述方法中井下管道状态图像的预处理流程图;
图5为本发明实施例所公开的基于跨语言图像变化描述的井下管道泄漏描述方法中对预处理后得到的数据集的处理流程图;
图6为本发明实施例所公开的基于跨语言图像变化描述的井下管道泄漏描述方法中模型训练的流程图;
图7为本发明实施例所公开的基于跨语言图像变化描述的井下管道泄漏描述方法中基于双重动态注意力机制的跨语言图像变化描述模型的架构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1和图2所示,基于跨语言图像变化描述的井下管道泄漏描述方法,所述方法包括:
步骤a:获取井下管道场景图像,对图像进行预处理得到训练集和测试集;如图3所示,具体过程为:
S11、在井下管道侧面垂直距离为h的位置安装摄像头,摄像头焦距为f,可以在多个角度安装摄像头以达到对井下管道多方位的观测;
S12、设置摄像头参数,由于工业现场环境较为复杂,对摄像头采集的图像有很大的干扰,因此设置摄像头采用较高的分辨率以捕捉图像的更多特性;设置摄像头帧率,在井下管道泄漏时采用较高的摄像头帧率可以使采集的图像更加清晰;根据井下的光线特性调整摄像头的饱和度,对比度等参数以达到对井下管道状态采集的最佳拍摄。
S13、从视频帧中获取井下管道状态图像,设置固定的时间间隔,按照指定时间间隔抽取关键帧并转换为图像。井下管道状态图像为训练集和测试集的数据源。
如图4所示,井下管道状态图像进行预处理的过程为:
S21、对图像进行初步筛选,去除过度模糊、过度遮挡、曝光过度、曝光不足等不合格图像,处理图片大小分辨率统一为512×512的大小。
S22、对合格的图像进行标注,采用COCO官方pycocotools包对所述图像数据进行标注。标注规则根据Amazon Mechanical Turk标准。标注后的标注数据保存为.json格式,每张图像包含以下标注文件:
(1)info:包括数据集建立的时间,下载地址,版本号等;
(2)licenses:数据集使用条款;
(3)images:包括图片的filename,height,width,图片对应的caption的id;
(4)annotation:包含image的id,对应的caption的id,和每个图片对应的3句描述。
S23、按照一定的比例将标注后的数据集拆分为训练集和测试集。
如图5所示,S31、根据Amazon Mechanical Turk标准,人工检验每张图像标注描述,剔除不符合标准的描述。
S32、根据Amazon Mechanical Turk标准,补全剔除的描述。
步骤b:构建基于双重动态注意力机制的跨语言图像变化描述模型;具体为:构建基于双重动态注意力机制的跨语言图像变化描述模型,首先选择Encoder网络和Decoder网络,并设置训练网络的超参数。可选的Encoder网络类型有LeNet、AlexNet、VGGNet-16、VGGNet-19、ResNet-50、ResNet-101、ResNet-152、GoogleNet等。从VGG网络开始,神经网络的层数越来越深,深层次网络可以提取更多的特征,但由于梯度消失的问题,网络的训练效果并没有变好。ResNet引入了残差网络结构(residual network),通过该结构可以有效的解决梯度消失问题。可选的Decoder网络有RNN、LSTM、GRU等。对于较长的序列输入,为解决长期依赖问题,我们一般需要较深的神经网络,但是同一般的深度网络一样,RNN也存在优化困难的问题,如梯度消失与梯度***。而对于梯度消失问题,由于相互作用的梯度呈指数减少,因此长期依赖信号将会变得非常微弱,而容易受到短期信号波动的影响。LSTM通过设计“门”结构实现保留信息和选择信息功能(遗忘门、输入门),从而得以使输入信息长期传递下去。GRU是对LSTM的简化,将输入门和遗忘门合并为更新门(更新门决定隐状态保留或放弃部分);然而在众多的LSTM变种中,其在很多任务中性能和鲁棒性均比不上RNN和LSTM。LSTM选择单层结构,设置hidden_size为512。
设置训练神经网络的超参数,包括:优化方法(SGD、AdaGrad、RMSProp、Adam),初始化学习率,权重衰减率等。
综上,本发明构建的基于双重动态注意力机制的跨语言图像变化描述模型包括编码器、嵌入了空间注意力机制的RNN网络、基于动态发言机制的动态注意模块和打标签模块,动态注意模块和打标签模块都是基于LSTM的递归模型,训练集或者测试集输入到编码器,编码器连接嵌入了空间注意力机制的RNN网络,RNN网络输出空间注意力结果也即需要注意的图像位置,嵌入了空间注意力机制的RNN网络连接动态注意模块,动态注意模块连接打标签模块,打标签模块输出当前词,对当前词进行分发,当前词中包含注意图像时间也即何时开始注意每个图像。
基于双重动态注意力机制的跨语言图像变化描述模型的工作过程为:首先,采用1个ResNet-101网络作为编码器提取输入图像组特征(Xbef,Xaft);所述ResNet-101网络包括顺序连接的1个conv1卷积层,3个conv2_x卷积层,4个conv3_x卷积层,23个conv4_x卷积层,3个conv5_x卷积层以及1个全连接层,conv1卷积层是一个步长为2的7×7的卷积层,conv2_x卷积层由一个卷积核1×1且数量64的卷积层、一个卷积核3×3且数量64的卷积层以及一个卷积核1×1且数量256的卷积层组成,conv3_x卷积层由一个卷积核1×1且数量128的卷积层、一个卷积核3×3且数量128的卷积以及一个卷积核1×1且数量512的卷积层组成,conv4_x卷积层由一个卷积核1×1且数量256的卷积层、一个卷积核3×3且数量256的卷积层以及一个卷积核1×1且数量1024的卷积层组成,conv5_x卷积层由一个卷积核1×1且数量512的卷积层、一个卷积核3×3且数量512的卷积层以及一个卷积核1×1且数量2048的卷积层组成。
接着,将输入图像组特征(Xbef,Xaft)输入到一个嵌入了双重注意力机制的RNN网络,对编码后的输入图像组特征(Xbef,Xaft)通过公式Xaft-Xbef做差得到差异特征Xdiff;将得到的差异特征Xdiff分别与输入图像组特征(Xbef,Xaft)连接,得到两个不同的空间注意力图像组Abef和Aaft;具体公式如下:
Xdiff=Xaft-Xbef (1)
X′bef=[Xbef;Xdiff];X′aft=[Xaft;Xdiff] (2)
abef=σ(conv2(ReLU(conv1(X′bef)))) (3)
aaft=σ(conv2(ReLU(conv1(X′aft)))) (4)
lbef=∑H,Wabef⊙Xbef (5)
laft=∑H,Waaft⊙Xaft (6)
以上是基于双重注意力机制,该双重注意力设计允许***根据变化的类型和视点移动的数量来处理不同的图像,对于检测至关重要。为了正确地描述一个管道泄漏状态,模型需要在两个图像中定位和匹配变化的对象;如果只关注一个管道在其中一个图像上的状态,很可能会造成管道泄漏的误判,影响结果准确度。在管道泄漏中,最明显的状态改变是有一个属性改变(如颜色)不涉及物***移,单一的注意可能不足以在一个视点移动下正确定位改变的物体,而使用双重注意力可以很好的适应这个环境。
最后,为了成功地描述一个变化,模型不仅应该学习在每个图像中检测哪里(空间注意,由双重注意预测),还应该学习何时看每个图像(语义注意)。事实上,希望模型可以表现出动态推理,通过这它可以学习什么时候关注“之前”(lbef),“之后”(laft),或者“差异”特征(ldiff=laft-lbef),并为它生成一个单词序列,该单词序列即最终输出的中文描述。
因此设计基于动态发言机制的动态注意模块和打标签模块,动态注意模块中的LSTM解码器将打标签模块的先前隐藏状态和lbef、ldiff、laft的视觉特征的潜在投影v作为输入,预测注意权重/>将注意权重/>与视觉特征累积求和得到动态参与特征动态参与特征/>和前一个词xt-1输入到打标签模块的LSTM解码器,生成当前词的分布,对当前词进行分发。具体公式过程如下:
其中,li是t时刻lbef、ldiff、laft的视觉特征,和/>分别为动态注意模块和打标签模块在解码器时间步长t处的LSTM输出,Wd1、bd1、Wd2、bd2为可学习参数。利用式(11)预测的注意权重,根据式(7)得到动态参与特征/>最后,/>和前一个词xt-1输入到打标签模块的LSTM解码器,开始对下一个单词进行分发:
是前一个单词ωt-1的一个one-hot编码,E是一个嵌入层;xt-1是前一个单词在嵌入层的一个热编码值;c(t)是将/>和前一个词的独热编码值xt-1连接,然后被输入到打标签模块的LSTM解码器,从而开始生成下一个单词的分布。这两个解码器并行预测每个单词并保持相互交互。
每一时间步输入的ht和Zt采用基线模型的方法计算。使用来表示一个包含学习到参数的仿射变换:
ct=ft⊙ct-1+it⊙gt
ht=ot⊙tanh(ct)
这里it,ft,ct,ot,ht分别是LSTM的输入、遗忘、记忆、输出和隐藏状态。向量是图像向量,捕获与特定输入位置相关联的视觉信息,如下所述。/>是一个嵌入矩阵。设m和n分别表示嵌入维数和LSTM维数,σ和⊙分别表示logistic-sigmoid激活和元素相乘。
步骤c:将基于双重动态注意力机制的跨语言图像变化描述模型在训练集上训练;具体过程为:
初始化训练参数;
将输入图像组特征(Xbef,Xaft)输入到基于双重动态注意力机制的跨语言图像变化描述模型的ResNet-101网络中,不断更新ResNet-101网络的学习率以及动态注意模块的权重系数、打标签模块的权重系数,直到损失函数值最小时停止训练得到训练好的基于双重动态注意力机制的跨语言图像变化描述模型。
所述初始化训练参数包括初始化学习率、初始化最大迭代次数、初始化更新梯度、初始化动态注意模块的权重系数、初始化打标签模块的权重系数,学习率的更新公式为其中,iter为当前迭代次数,max_iter为最大迭代次数,power为更新梯度,learningrate为当前学习率。本实例中,训练的批处理大小为batchsize为4,最大迭代次数设为30000次。动量momentum为0.9,设置初始学习率为0.001。在训练模型的时候采用inv策略来对学习率进行调整。
如图6所示,ResNet-101网络权重初始化,除了网络的最后一层其余层的权重都采用无偏方式进行初始化,即偏置(bias)为0,方差(var)采用高斯分布(σ=0.01),网络最后一层的权重参数考虑样本不平衡分布的问题,权重初始化时采用公式其中π为超参数,本实例中π设置为0.01,改变模型初始化策略使模型不会偏向更多的负样本;
使用如下损失函数求得最优解的时候模型停止训练:
L(θ)=LXE1L1entLent
L1=||Wc||+||Wd2||
其中,LXE表示对训练目标采用交叉熵损失最小化得到的值,L1表示正则化的值,Lent表示交叉熵损失值,λL1表示预设的第一超参数,λent表示预设的第二超参数。pθ表示求概率值,初始的时候Wc、bc和Wd2、bd2均给定一个初始值,先进入双重注意力模块,将Wd2、bd2的初始值代入式(11)计算初始的αt,根据初始的αt得到初始的Lent,然后进入动态发言机制,将Wc、bc的初始值代入(15)式得到初始的ωt,根据初始的ωt,得到初始的LXE,然后用初始的Wc和初始的Wd2计算得到初始的L1,然后根据初始的LXE、初始的Lent以及初始的L1的得出初始的损失值,然后通过反向传播分别更新Wc和Wd2,每次更新的时候最终都会得到一个损失值,损失函数寻得最优解的时候停止更新,固定参数,将这些参数代入以上公式(11)、公式(15)得到最后训练好的模型。
步骤d:利用训练好的基于双重动态注意力机制的跨语言图像变化描述模型对测试集进行测试,获得图像描述结果。图7为本发明的跨语言图像变化描述模型架构示意图。
通过以上技术方案,本发明采集井下管道场景图像,避免使用传感器进行检测,保证采集的数据的准确性,构建基于双重动态注意力机制的跨语言图像变化描述模型,并训练该模型,最后利用训练好的模型进行管道泄漏状态描述,保证井下管道泄漏描述的准确性。
实施例2
本发明还提供基于跨语言图像变化描述的井下管道泄漏描述装置,所述装置包括:
图像预处理模块,用于获取井下管道场景图像,对图像进行预处理得到训练集和测试集;
模型构建模块,用于构建基于双重动态注意力机制的跨语言图像变化描述模型;
模型训练模块,用于将基于双重动态注意力机制的跨语言图像变化描述模型在训练集上训练;
测试模块,用于利用训练好的基于双重动态注意力机制的跨语言图像变化描述模型对测试集进行测试,获得图像描述结果。
具体的,所述图像预处理模块还用于:
步骤a1:在井下管道前端安装摄像头采集井下管道日常状态视频流数据;
步骤a2:按照预设的时间间隔提取视频流数据中的关键帧并保存为井下管道场景图像;
步骤a3:将所有井下管道场景图像裁剪至512×512大小得到图像数据集;将所述图像数据集按两张为一组划分为多组,每组中一张图像为前一帧的管道无泄漏状态图像,另一张图像为后一帧存在泄漏的变化图像或者不存在泄漏变化但有其他因素变化的图像;采用COCO官方pycocotools包对所述图像进行标注,获得标注后的标记数据集;将标记数据集按3:1分为训练集和测试集。
具体的,所述模型构建模块还用于:
所述基于双重动态注意力机制的跨语言图像变化描述模型包括编码器、嵌入了空间注意力机制的RNN网络、基于动态发言机制的动态注意模块和打标签模块,动态注意模块和打标签模块都是基于LSTM的递归模型,训练集或者测试集输入到编码器,编码器连接嵌入了空间注意力机制的RNN网络,RNN网络输出空间注意力结果也即需要注意的图像位置,嵌入了空间注意力机制的RNN网络连接动态注意模块,动态注意模块连接打标签模块,打标签模块输出当前词,对当前词进行分发,当前词中包含注意图像时间也即何时开始注意每个图像。
更具体的,所述模型构建模块还用于:
采用1个ResNet-101网络作为编码器提取输入图像组特征(Xbef,Xaft);
将输入图像组特征(Xbef,Xaft)输入到一个嵌入了双重注意力机制的RNN网络,对编码后的输入图像组特征(Xbef,Xaft)通过公式Xaft-Xbef做差得到差异特征Xdiff;将得到的差异特征Xdiff分别与输入图像组特征(Xbef,Xaft)连接,得到两个不同的空间注意力图像组Abef和Aaft
动态注意模块中的LSTM解码器将打标签模块的先前隐藏状态和lbef、ldiff、laft的视觉特征的潜在投影v作为输入,预测注意权重/>将注意权重/>与视觉特征累积求和得到动态参与特征/>动态参与特征/>和前一个词xt-1输入到打标签模块的LSTM解码器,生成当前词的分布,对当前词进行分发。/>
更具体的,所述ResNet-101网络包括顺序连接的1个conv1卷积层,3个conv2_x卷积层,4个conv3_x卷积层,23个conv4_x卷积层,3个conv5_x卷积层以及1个全连接层,conv1卷积层是一个步长为2的7×7的卷积层,conv2_x卷积层由一个卷积核1×1且数量64的卷积层、一个卷积核3×3且数量64的卷积层以及一个卷积核1×1且数量256的卷积层组成,conv3_x卷积层由一个卷积核1×1且数量128的卷积层、一个卷积核3×3且数量128的卷积以及一个卷积核1×1且数量512的卷积层组成,conv4_x卷积层由一个卷积核1×1且数量256的卷积层、一个卷积核3×3且数量256的卷积层以及一个卷积核1×1且数量1024的卷积层组成,conv5_x卷积层由一个卷积核1×1且数量512的卷积层、一个卷积核3×3且数量512的卷积层以及一个卷积核1×1且数量2048的卷积层组成。
更具体的,所述模型训练模块还用于:
初始化训练参数;
将输入图像组特征(Xbef,Xaft)输入到基于双重动态注意力机制的跨语言图像变化描述模型的ResNet-101网络中,不断更新ResNet-101网络的学习率以及动态注意模块的权重系数、打标签模块的权重系数,直到损失函数值最小时停止训练得到训练好的基于双重动态注意力机制的跨语言图像变化描述模型。
更具体的,所述初始化训练参数包括初始化学习率、初始化最大迭代次数、初始化更新梯度、初始化动态注意模块的权重系数、初始化打标签模块的权重系数,学习率的更新公式为其中,iter为当前迭代次数,max_iter为最大迭代次数,power为更新梯度,learningrate为当前学习率。
更具体的,所述损失函数公式为
L(θ)=LXE1L1entLent
L1=||Wc||+||Wd2||
其中,LXE表示对训练目标采用交叉熵损失最小化得到的值,L1表示正则化的值,Lent表示交叉熵损失值,λ1表示预设的第一超参数,λent表示预设的第二超参数,pθ表示求概率值,Wc表示表示打标签模块的权重系数,Wd2表示动态注意模块的权重系数,ωt表示打标签模块的权重,αt表示动态注意模块的注意权重。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.基于跨语言图像变化描述的井下管道泄漏描述方法,其特征在于,所述方法包括:
步骤a:获取井下管道场景图像,对图像进行预处理得到训练集和测试集;
步骤b:构建基于双重动态注意力机制的跨语言图像变化描述模型;
所述基于双重动态注意力机制的跨语言图像变化描述模型包括编码器、嵌入了空间注意力机制的RNN网络、基于动态发言机制的动态注意模块和打标签模块,动态注意模块和打标签模块都是基于LSTM的递归模型,训练集或者测试集输入到编码器,编码器连接嵌入了空间注意力机制的RNN网络,RNN网络输出空间注意力结果也即需要注意的图像位置,嵌入了空间注意力机制的RNN网络连接动态注意模块,动态注意模块连接打标签模块,打标签模块输出当前词,对当前词进行分发,当前词中包含注意图像时间也即何时开始注意每个图像;
采用1个ResNet-101网络作为编码器提取输入图像组特征(Xbef,Xaft);
将输入图像组特征(Xbef,Xaft)输入到一个嵌入了双重注意力机制的RNN网络,对编码后的输入图像组特征(Xbef,Xaft)通过公式Xaft- Xbef做差得到差异特征Xdiff;将得到的差异特征Xdiff分别与输入图像组特征(Xbef,Xaft)连接,得到两个不同的空间注意力图像组Abef和Aaft
动态注意模块中的LSTM解码器将打标签模块的先前隐藏状态和lbef、ldiff、laft的视觉特征的潜在投影v作为输入,预测注意权重/>;将注意权重/>与视觉特征累积求和得到动态参与特征/>,动态参与特征/>和前一个词/>输入到打标签模块的LSTM解码器,生成当前词的分布,对当前词进行分发;
所述ResNet -101网络包括顺序连接的1个conv1卷积层,3个conv2_x卷积层,4个conv3_x卷积层,23个conv4_x卷积层,3个conv5_x卷积层以及1个全连接层,conv1卷积层是一个步长为2的的卷积层,conv2_x卷积层由一个卷积核/>且数量64的卷积层、一个卷积核/>且数量64的卷积层以及一个卷积核/>且数量256的卷积层组成,conv3_x卷积层由一个卷积核/>且数量128的卷积层、一个卷积核/>且数量128的卷积以及一个卷积核/>且数量512的卷积层组成,conv4_x卷积层由一个卷积核/>且数量256的卷积层、一个卷积核/>且数量256的卷积层以及一个卷积核/>且数量1024的卷积层组成,conv5_x卷积层由一个卷积核/>且数量512的卷积层、一个卷积核/>且数量512的卷积层以及一个卷积核/>且数量2048的卷积层组成;
步骤c:将基于双重动态注意力机制的跨语言图像变化描述模型在训练集上训练;
步骤d:利用训练好的基于双重动态注意力机制的跨语言图像变化描述模型对测试集进行测试,获得图像描述结果。
2.根据权利要求1所述的基于跨语言图像变化描述的井下管道泄漏描述方法,其特征在于,所述步骤a包括:
步骤a1:在井下管道前端安装摄像头采集井下管道日常状态视频流数据;
步骤a2:按照预设的时间间隔提取视频流数据中的关键帧并保存为井下管道场景图像;
步骤a3:将所有井下管道场景图像裁剪至512×512大小得到图像数据集;将所述图像数据集按两张为一组划分为多组,每组中一张图像为前一帧的管道无泄漏状态图像,另一张图像为后一帧存在泄漏的变化图像或者不存在泄漏变化但有其他因素变化的图像;采用COCO官方pycocotools包对所述图像进行标注,获得标注后的标记数据集;将标记数据集按3:1分为训练集和测试集。
3.根据权利要求1所述的基于跨语言图像变化描述的井下管道泄漏描述方法,其特征在于,所述步骤c包括:
初始化训练参数;
将输入图像组特征(Xbef,Xaft)输入到基于双重动态注意力机制的跨语言图像变化描述模型的ResNet -101网络中,不断更新ResNet -101网络的学习率以及初始化动态注意模块的权重系数、初始化打标签模块的权重系数,直到损失函数值最小时停止训练得到训练好的基于双重动态注意力机制的跨语言图像变化描述模型。
4.根据权利要求3所述的基于跨语言图像变化描述的井下管道泄漏描述方法,其特征在于,所述初始化训练参数包括初始化学习率、初始化最大迭代次数、初始化更新梯度、初始化动态注意模块的权重系数、初始化打标签模块的权重系数,学习率的更新公式为,其中,/>为当前迭代次数,/>为最大迭代次数,/>为更新梯度,/>为当前学习率。
5.根据权利要求3所述的基于跨语言图像变化描述的井下管道泄漏描述方法,其特征在于,所述损失函数公式为
其中, 表示对训练目标采用交叉熵损失最小化得到的值,/>表示正则化的值,/>表示交叉熵损失值,/>表示预设的第一超参数,/>表示预设的第二超参数,/>表示求概率值, />表示表示打标签模块的权重系数,/>表示动态注意模块的权重系数,/>表示打标签模块的权重,/>表示动态注意模块的注意权重。
6.基于跨语言图像变化描述的井下管道泄漏描述装置,其特征在于,所述装置包括:
图像预处理模块,用于获取井下管道场景图像,对图像进行预处理得到训练集和测试集;
模型构建模块,用于构建基于双重动态注意力机制的跨语言图像变化描述模型;
所述基于双重动态注意力机制的跨语言图像变化描述模型包括编码器、嵌入了空间注意力机制的RNN网络、基于动态发言机制的动态注意模块和打标签模块,动态注意模块和打标签模块都是基于LSTM的递归模型,训练集或者测试集输入到编码器,编码器连接嵌入了空间注意力机制的RNN网络,RNN网络输出空间注意力结果也即需要注意的图像位置,嵌入了空间注意力机制的RNN网络连接动态注意模块,动态注意模块连接打标签模块,打标签模块输出当前词,对当前词进行分发,当前词中包含注意图像时间也即何时开始注意每个图像;
采用1个ResNet-101网络作为编码器提取输入图像组特征(Xbef,Xaft);
将输入图像组特征(Xbef,Xaft)输入到一个嵌入了双重注意力机制的RNN网络,对编码后的输入图像组特征(Xbef,Xaft)通过公式Xaft- Xbef做差得到差异特征Xdiff;将得到的差异特征Xdiff分别与输入图像组特征(Xbef,Xaft)连接,得到两个不同的空间注意力图像组Abef和Aaft
动态注意模块中的LSTM解码器将打标签模块的先前隐藏状态和lbef、ldiff、laft的视觉特征的潜在投影v作为输入,预测注意权重/>;将注意权重/>与视觉特征累积求和得到动态参与特征/>,动态参与特征/>和前一个词/>输入到打标签模块的LSTM解码器,生成当前词的分布,对当前词进行分发;
所述ResNet -101网络包括顺序连接的1个conv1卷积层,3个conv2_x卷积层,4个conv3_x卷积层,23个conv4_x卷积层,3个conv5_x卷积层以及1个全连接层,conv1卷积层是一个步长为2的的卷积层,conv2_x卷积层由一个卷积核/>且数量64的卷积层、一个卷积核/>且数量64的卷积层以及一个卷积核/>且数量256的卷积层组成,conv3_x卷积层由一个卷积核/>且数量128的卷积层、一个卷积核/>且数量128的卷积以及一个卷积核/>且数量512的卷积层组成,conv4_x卷积层由一个卷积核/>且数量256的卷积层、一个卷积核/>且数量256的卷积层以及一个卷积核/>且数量1024的卷积层组成,conv5_x卷积层由一个卷积核/>且数量512的卷积层、一个卷积核/>且数量512的卷积层以及一个卷积核/>且数量2048的卷积层组成;
模型训练模块,用于将基于双重动态注意力机制的跨语言图像变化描述模型在训练集上训练;
测试模块,用于利用训练好的基于双重动态注意力机制的跨语言图像变化描述模型对测试集进行测试,获得图像描述结果。
7.根据权利要求6所述的基于跨语言图像变化描述的井下管道泄漏描述装置,其特征在于,所述图像预处理模块还用于:
步骤a1:在井下管道前端安装摄像头采集井下管道日常状态视频流数据;
步骤a2:按照预设的时间间隔提取视频流数据中的关键帧并保存为井下管道场景图像;
步骤a3:将所有井下管道场景图像裁剪至512×512大小得到图像数据集;将所述图像数据集按两张为一组划分为多组,每组中一张图像为前一帧的管道无泄漏状态图像,另一张图像为后一帧存在泄漏的变化图像或者不存在泄漏变化但有其他因素变化的图像;采用COCO官方pycocotools包对所述图像进行标注,获得标注后的标记数据集;将标记数据集按3:1分为训练集和测试集。
CN202110626949.2A 2021-06-04 2021-06-04 基于跨语言图像变化描述的井下管道泄漏描述方法及装置 Active CN113239886B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110626949.2A CN113239886B (zh) 2021-06-04 2021-06-04 基于跨语言图像变化描述的井下管道泄漏描述方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110626949.2A CN113239886B (zh) 2021-06-04 2021-06-04 基于跨语言图像变化描述的井下管道泄漏描述方法及装置

Publications (2)

Publication Number Publication Date
CN113239886A CN113239886A (zh) 2021-08-10
CN113239886B true CN113239886B (zh) 2024-03-19

Family

ID=77136997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110626949.2A Active CN113239886B (zh) 2021-06-04 2021-06-04 基于跨语言图像变化描述的井下管道泄漏描述方法及装置

Country Status (1)

Country Link
CN (1) CN113239886B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114067103A (zh) * 2021-11-23 2022-02-18 南京工业大学 一种基于YOLOv3的管道第三方破坏智能识别方法
CN114577410A (zh) * 2022-03-04 2022-06-03 浙江蓝能燃气设备有限公司 一种用于瓶组容器氦气泄漏的自动检漏***及应用方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020028382A1 (en) * 2018-07-30 2020-02-06 Memorial Sloan Kettering Cancer Center Multi-modal, multi-resolution deep learning neural networks for segmentation, outcomes prediction and longitudinal response monitoring to immunotherapy and radiotherapy
CN111160467A (zh) * 2019-05-31 2020-05-15 北京理工大学 一种基于条件随机场和内部语义注意力的图像描述方法
CN111368846A (zh) * 2020-03-19 2020-07-03 中国人民解放军国防科技大学 一种基于边界语义分割的道路积水识别方法
CN111832501A (zh) * 2020-07-20 2020-10-27 中国人民解放军战略支援部队航天工程大学 一种面向卫星在轨应用的遥感影像文本智能描述方法
WO2020222985A1 (en) * 2019-04-30 2020-11-05 The Trustees Of Dartmouth College System and method for attention-based classification of high-resolution microscopy images
CN111914710A (zh) * 2020-07-24 2020-11-10 合肥工业大学 一种铁路机务段场景描述方法及***
WO2020244287A1 (zh) * 2019-06-03 2020-12-10 中国矿业大学 一种图像语义描述的生成方法
WO2020248471A1 (zh) * 2019-06-14 2020-12-17 华南理工大学 一种基于集聚交叉熵损失函数的序列识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170330153A1 (en) * 2014-05-13 2017-11-16 Monster Worldwide, Inc. Search Extraction Matching, Draw Attention-Fit Modality, Application Morphing, and Informed Apply Apparatuses, Methods and Systems
US10402448B2 (en) * 2017-06-28 2019-09-03 Google Llc Image retrieval with deep local feature descriptors and attention-based keypoint descriptors
US11756160B2 (en) * 2018-07-27 2023-09-12 Washington University ML-based methods for pseudo-CT and HR MR image estimation

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020028382A1 (en) * 2018-07-30 2020-02-06 Memorial Sloan Kettering Cancer Center Multi-modal, multi-resolution deep learning neural networks for segmentation, outcomes prediction and longitudinal response monitoring to immunotherapy and radiotherapy
WO2020222985A1 (en) * 2019-04-30 2020-11-05 The Trustees Of Dartmouth College System and method for attention-based classification of high-resolution microscopy images
CN111160467A (zh) * 2019-05-31 2020-05-15 北京理工大学 一种基于条件随机场和内部语义注意力的图像描述方法
WO2020244287A1 (zh) * 2019-06-03 2020-12-10 中国矿业大学 一种图像语义描述的生成方法
WO2020248471A1 (zh) * 2019-06-14 2020-12-17 华南理工大学 一种基于集聚交叉熵损失函数的序列识别方法
CN111368846A (zh) * 2020-03-19 2020-07-03 中国人民解放军国防科技大学 一种基于边界语义分割的道路积水识别方法
CN111832501A (zh) * 2020-07-20 2020-10-27 中国人民解放军战略支援部队航天工程大学 一种面向卫星在轨应用的遥感影像文本智能描述方法
CN111914710A (zh) * 2020-07-24 2020-11-10 合肥工业大学 一种铁路机务段场景描述方法及***

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
一种基于注意力机制与多模态的图像描述方法;牛斌;李金泽;房超;马利;徐和然;纪兴海;;辽宁大学学报(自然科学版)(01);全文 *
基于全局-局部特征和自适应注意力机制的图像语义描述算法;赵小虎;尹良飞;赵成龙;;浙江大学学报(工学版)(01);全文 *
基于注意力特征自适应校正的图像描述模型;韦人予;蒙祖强;;计算机应用(S1);全文 *
基于深度学习的结构化图像标注研究;姚义;王诗珂;陈希豪;林宇翩;;电脑知识与技术(33);全文 *

Also Published As

Publication number Publication date
CN113239886A (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
Kumar et al. Deep learning–based automated detection of sewer defects in CCTV videos
US20210319265A1 (en) Method for segmentation of underground drainage pipeline defects based on full convolutional neural network
CN113239886B (zh) 基于跨语言图像变化描述的井下管道泄漏描述方法及装置
EP3699579B1 (en) Inspection method and inspection device and computer-readable medium
CN107944412A (zh) 基于多层卷积神经网络的输电线路自动识别***及方法
CN110490239B (zh) 图像质控网络的训练方法、质量分类方法、装置及设备
CN108038850A (zh) 一种基于深度学习的排水管道异常类型自动检测方法
CN109299657B (zh) 基于语义注意力保留机制的群体行为识别方法及装置
CN111915579B (zh) 基于高斯混合模型和卷积神经网络的液体泄漏检测方法
CN110458838A (zh) 一种故障类型的检测方法、装置、存储介质及设备
CN114998566A (zh) 一种可解释的多尺度红外弱小目标检测网络设计方法
CN117523177A (zh) 一种基于人工智能混合大模型的燃气管道监测***和方法
CN116805061A (zh) 基于光纤传感的泄漏事件判断方法
CN113780111A (zh) 一种基于优化YOLOv3算法的管道连接器及缺陷精确识别方法
CN117808739A (zh) 用于检测管道缺陷的方法和装置
Li et al. An integrated underwater structural multi-defects automatic identification and quantification framework for hydraulic tunnel via machine vision and deep learning
CN116580243A (zh) 一种掩码图像建模引导域适应的跨域遥感场景分类方法
CN113516179B (zh) 一种地下基础设施渗漏水性态辨识方法及***
CN113283382B (zh) 一种井下管道泄漏场景描述方法和装置
CN115690636A (zh) 一种针对互联网直播异常行为的智能检测***
Zhu et al. Research on recognition algorithm of tunnel leakage based on image processing
Tan et al. BSIRNet: A road extraction network with bidirectional spatial information reasoning
CN117454987B (zh) 基于事件自动抽取的矿山事件知识图谱构建方法及装置
CN115935241B (zh) 一种多参数相互融合的清管器实时定位方法及装置
CN117808790A (zh) 基于PSPNet和贝叶斯优化综合管廊病害识别方法、***及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant