CN116861361B - 一种基于图像-文本多模态融合的大坝形变评估方法 - Google Patents
一种基于图像-文本多模态融合的大坝形变评估方法 Download PDFInfo
- Publication number
- CN116861361B CN116861361B CN202310768316.4A CN202310768316A CN116861361B CN 116861361 B CN116861361 B CN 116861361B CN 202310768316 A CN202310768316 A CN 202310768316A CN 116861361 B CN116861361 B CN 116861361B
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- text
- images
- dam
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 21
- 238000011156 evaluation Methods 0.000 title claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 40
- 239000013598 vector Substances 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000012544 monitoring process Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 11
- 230000000007 visual effect Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000012512 characterization method Methods 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 238000006073 displacement reaction Methods 0.000 description 8
- 238000011160 research Methods 0.000 description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- DSCFFEYYQKSRSV-KLJZZCKASA-N D-pinitol Chemical compound CO[C@@H]1[C@@H](O)[C@@H](O)[C@H](O)[C@H](O)[C@H]1O DSCFFEYYQKSRSV-KLJZZCKASA-N 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000002262 irrigation Effects 0.000 description 1
- 238000003973 irrigation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 230000035882 stress Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/08—Construction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A10/00—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
- Y02A10/40—Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Human Resources & Organizations (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Development Economics (AREA)
Abstract
本发明公开了一种基于图像‑文本多模态融合的大坝形变评估方法,包括:获取到先前图像和当前图像;获取到差分图像;对先前图像与差分图像进行多尺度特征提取与融合,得到原始图像;对原始图像、大坝形变判别文本进行预处理;将预处理后的图像与文本特征输入双流跨模态Transformer模型进行预训练,联合建模模态内和跨模态表示,得到预训练模型;优化调整预训练模型的参数;利用训练好的模型,根据测试集图像以及问题文本数据进行预测,获取到大坝形变评估结果。本发明将大坝场景图知识融入到多模态预训练中,大幅度提升了机器对大坝形变场景的“理解能力”,使得模型能更精准地图像‑文本跨模态间的细粒度特征对齐,从而提高回答大坝形变问题的准确率。
Description
技术领域
本发明属于水利大坝形变监测与评估领域,具体涉及一种基于图像-文本多模态融合的大坝形变评估方法。
背景技术
我国至今共修建了10万多座水坝,是世界上水库大坝最多的国家之一。随着水资源的进一步开发利用,新建的高坝大库越来越多,这些工程在农业灌溉、防洪抗旱、水源配置、水力发电、城市供水、水土保持、生态环境保护等方面发挥了巨大效益。六、七十年代修建的一部分大坝,限于当时经济条件和科学技术水平等原因,存在设计标准偏低、地质、施工质量以及老化等安全问题,影响着水库综合效益的发挥,甚至给下游的城镇、交通及人们的生命财产造成威胁。因此,大坝安全问题成为日益突出的公共安全问题,必须得到高度重视。
大坝安全监测主要项目有:变形、渗流、压力、应力应变、水力学及环境量等。其中,变形监测最直观可靠,可基本反映在各种荷载作用下的大坝安全性态,因而成为最为重要的监测项目。变形监测主要包括表面变形、内部变形、坝基变形、裂缝及接缝、混凝土面板变形、岸坡位移等。其中,大坝表面变形监测主要包括观测垂直位移与观测水平位移。观测水平位移是指用观测仪器和设备对水工建筑物及地基有代表性的点位进行的水平方向位移量的量测,监测方法有视准线法、引张线法、激光准直法、垂线法、交会法和导线法等。
传统的工程监测方法往往需要消耗人力与物力,不能自动地观测水平位移。随着计算机在图像与自然语言等多模态特征提取方法的飞速发展,将领域知识与其领域图像信息交互,最终实现跨模态学***位移形变为研究目的,一种基于图像一文本多模态融合的大坝形变视觉问答评估方法具有重要的实际意义。
发明内容
发明目的:为了克服现有技术中存在的不足,提供一种基于图像-文本多模态融合的大坝形变评估方法。
技术方案:为实现上述目的,本发明提供一种基于图像-文本多模态融合的大坝形变评估方法,包括如下步骤:
S1:通过定点的工业监控摄像机,采集大坝图像集,分别获取到先前图像和当前图像;
S2:根据先前图像和当前图像,获取到差分图像;
S3:利用特征金字塔FPN网络分别对先前图像与差分图像进行多尺度特征提取与融合,将得到的当前特征图像作为原始图像;
S4:对原始图像、大坝形变判别文本进行预处理;
S5:将预处理后的图像与文本特征输入双流跨模态Transformer模型进行预训练,联合建模模态内和跨模态表示,得到预训练模型;
S6:利用大坝的先前图像、当前图像训练集以及有关大坝形变风险的问题文本训练集,优化调整预训练模型的参数,完成训练;
S7:利用步骤S6训练好的模型,根据测试集图像以及问题文本数据进行预测,获取到大坝形变评估结果。
进一步地,所述步骤S2中对先前图像和当前图像进行真彩色特征增强、特征差分,将当前的特征图像作为差分图像,具体过程包括如下步骤:
A1:采用一种基于PCA的彩色特征增强方法执行真彩色特征增强,在保证事物主导的颜色以及图像的色差对比度没有发生变化的前提下,图像的亮度发生了明显的增强;
A2:计算真彩色特征增强后的先前图像与当前图像的特征差分。先前图像的特征矩阵为srcinit,当前图像的特征矩阵为srcfinal,那么特征差分dsrc表示为:
进一步地,所述步骤A1的真彩色特征增强的具体过程为:
B1:分别将先前图像Pinit与当前图像Pfinal按照RGB三通道标准化处理,均值为0,方差为1,保证RGB通道之间的相对关系,不改变三个通道内部的像素值分布;
B2:图像Pinit与Pfinal按照通道展平为N×3的向量,记为向量I(θ),θ∈D;
B3:求向量I(θ)的协方差矩阵;
B4:对协方差矩阵进行特征分解,得到特征向量F(θ)与特征值λ(θ);
B5:将图像Pinit与Pfinal的三个通道特征向量分别与处理后的特征向量相加,得到特征增强的图像。这里以图像Pinit的一个通道为例,公式如下,其中α为添加的抖动系数。
Presult(θ)=Pinit(θ)+F(θ)i·(ai·λ(θ)i)T,θ,i∈D
进一步地,所述步骤S3具体为:
D1:先前图像与差分图像经过结构相同的主干网络ResNet50进行特征提取,将C2,C3,C4,C5阶段的最终输出特征经过1×1、步长为1的卷积操作,使之通道数为256,记为F2,F3,F4,F5;
D2:(水平操作)F5特征经过3×3、步长为1的卷积操作,输出P5图像特征;(从上至下垂直操作)F5特征上采样,使之特征图像的长宽扩大一倍,与F4特征形状一致并与之融合,然后进行3×3、步长为1的卷积操作,输出P4图像特征;以此类推,直至输出P2图像特征;
D3:经过FPN网络处理后的先前图像与差分图像输出特征记为F′θ与F″θ,θ表示层数量,这里θ=4,将每层两者的特征进行融合,将此时的特征作为原始图像特征,公式如下,其中表示特征concat相加,
进一步地,所述步骤D1的具体操作过程为:
D1-1:C1阶段采用7×7、步长为2的卷积操作与3×3、步长为2的最大池化操作,通道数为64;
D1-2:C2至C5阶段之间的连接分为两个分支一主分支与shortcut分支;主分支均采用1×1、3×3、1×1且步长为1、2、1的卷积操作,称此为一个残差块,每个阶段之间分别采用3、4、6、3个残差块,通道数分别为256、512、1024、2048,使特征图像的长宽缩小一倍;shortcut分支采用1×1且步长为2的卷积操作,使之特征矩阵的形状与主分支相同。
进一步地,所述步骤S4中预处理操作为:用Faster R-CNN网络的RPN模块选择显著图像区域并提取区域特征,经过筛选,对每个保留区域,使用平均池化表示作为区域特征。
进一步地,所述步骤S4中预处理操作具体包括如下步骤:
E1:通过RPN结构对各尺度原始图像特征生成候选框;
E2:将RPN生成的候选框投影到特征图上获得相应的特征矩阵,将每个特征矩阵通过ROI Pooling层缩放到7×7大小的特征图,通过一系列全连接层展平特征图,得到显著图像区域。
进一步地,所述步骤E1的操作具体如下:
E1-1:RPN结构采用3×3、步长为1的卷积充当滑动窗口,在各尺度原始图像的特征进行滑动,计算出各个滑动窗口中心点(各个待检测点)对应于原始图像上的中心点,滑动后特征图像与原始图像的映射公式如下:
swidth=worigin/wfeature
sheight=horigin/hfeature
其中,wfeature与hfeature为特征图像的宽与长,worigin与horigin为原始图像的宽与长,swidth与sheight分别表示从原始图像到特征图像的缩放比例;通过特征图像某点的横纵坐标乘以相应方向上的缩放比例之后就可以得到在原始图像上的坐标;
E1-2:在计算各尺度的特征图像(各个检测点)对应于原始图像上的中心点之后,在每个原始图像上的中心点位置生成三种面积{1282,2562,5122}、三种长宽比例{1∶1,1∶2,2∶1}的9个一组的锚框,那么生成的锚框的宽与长的计算公式为:
其中,area是生成锚框的面积,ratio是生成锚框的长宽比例,h是生成锚框的宽度,w是生成锚框的长度;
E1-3:通道数为256的各尺度特征图像经过18个1×1的卷积操作得到通道数为18的特征图像,然后经Softmax层二分类计算数值;若数值大于0.5,则表示特征图像上的该点对应的原图上的锚框为前景positive,反之为背景negative,公式如下,其中j为样本的数量:
E1-4:通道数为256的各尺度特征图像经过36个1×1的卷积操作生成每个锚框的4个坐标偏移量[tx,ty,tw,th],用于修正锚框,偏移量计算公式如下:
tx=(x-xa)/wa ty=(y-ya)/ha
tw=log(w/wa) th=log(h/ha)
其中,[xa,ya,wa,ha]是锚框的中心点坐标与宽高,[tx,ty,tw,th]是预测的偏移量,那么通过以下公式计算修正后的锚框坐标[x,y,w,h]:
其中,[px,py,pw,ph]表示原始锚框的坐标,[dx,dy,dw,dh]表示RPN网络预测的坐标偏移,[gx,gy,gw,gh]表示修正后的锚框的坐标;
E1-5:利用E1-4产生的偏移量,对所有的原始锚框进行修正,根据E1-4产生的二分类概率,将positive锚框的由大到小排列并取前6000个,采用非极大值抑制,IoU设为0.7,这样每张图片只剩2000个候选框,最后输出对应于原图的锚框的左上角和右下角的坐标,称此时的锚框为候选框。
进一步地,所述步骤E2的操作具体如下:
E2-1:将候选框先映射回相应尺度的原始图像,并对每一个候选框对应的特征图划分为7×7的网格,对网格的每一部分做最大池化操作,即投影到原始图像获得相应的7×7大小的特征图,具体映射到哪个相应尺度的原始图像,公式如下:
其中,k为用来映射的特征图的层数,k0为特征图的尺度个数(这里为4),w和h为单个候选框的宽高(映射为原始图像),areaorigin为输入图片尺寸(候选框的面积);
E2-2:最后完成候选框的分类与回归:通过全连接层和Softmax对所有候选框进行具体类别的分类,该操作与S413操作类似;再次对候选框进行回归预测,获取更高精度的最终的预测框,该操作与S414操作一致。
进一步地,所述步骤S5具体为:
G1:区域图像的输入表示:对经过S4操作处理后保留的区域特征,采用一个5维的向量对其进行位置编码,5个维度的元素分别为归一化后的区域的左上角和右下角的坐标以及图像区域覆盖占比,然后映射位置编码,使之与视觉特征维数匹配,两者相加后得到图像区域特征,最后用特定的图像token标记图像序列的开始与结束,并用它的输出表示整个图像;
G2:文本的输入表示:经过S4预处理后的大坝形变判别文本,输入Bert模型得到对应的文本嵌入;
G3:区域图像与文本联合表征:将G1与G2处理后得到的图像与文本特征,通过6组共同注意机制的Transformer层使两者进行信息交互,即给定一个图像I,表示为一组区域特征v0,...,vT和一个文本输入w0,...,wT,输出最终表示为hv0,...,hvT和hw0,...,hwT。
有益效果:本发明与现有技术相比,以同一区域、时间跨度长的大坝图像集,和大坝形变判别的文本知识为研究对象,以观测大坝表面水平位移形变为研究目的,提供一种基于图像-文本多模态融合的大坝形变视觉问答评估方法,其具备如下优点:
1、与现有的工程监测方法相比,弥补了需要人为操作的缺点,不但节约了人力物力,而且具备了更好的评估效果。
2、通过两个特征金字塔网络,在基本不增加原有模型计算量的情况下,能够将尺度相差较大的先前图像与差分图像的特征提取更充分,大幅度提升了差分图像上的坝体形变检测的性能。
3、将大坝场景图知识融入到多模态预训练中,大幅度提升了机器对大坝形变场景的“理解能力”,使得模型能更精准地图像-文本跨模态间的细粒度特征对齐,从而提高回答大坝形变问题的准确率。
附图说明
图1为本发明方法的流程示意图。
图2为本发明方法的案例示意图。
图3为本发明方法的特征金字塔多尺度特征提取示意图。
图4为本发明方法的原始图像特征融合示意图。
图5为本发明方法的候选框映射至相应尺度的原始图像示意图。
图6为本发明方法的解析场景图示意图。
图7为本发明方法的多模态预训练流程示意图。
图8为本发明方法的大坝形变评估视觉问答模型示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明提供一种基于图像-文本多模态融合的大坝形变评估方法,如图1和图2所示,其包括如下步骤:
S1:通过定点的工业监控摄像机,采集同一区域、时间间隔为3年的大坝图像集,将距当前时间较久远的图像确定为先前图像,距当前时间较近的图像确定为当前图像;
S2:根据采集到的先前图像和当前图像这两类遥感图像,先对其进行真彩色特征增强,再取两者的特征差分,称当前的特征图像为差分图像;
具体过程包括如下步骤:
A1:采用一种基于PCA的彩色特征增强方法执行真彩色特征增强,在保证事物主导的颜色以及图像的色差对比度没有发生变化的前提下,图像的亮度发生了明显的增强;
A2:计算真彩色特征增强后的先前图像与当前图像的特征差分。先前图像的特征矩阵为srcinit,当前图像的特征矩阵为srcfinal,那么特征差分dsrc表示为:
步骤A1的真彩色特征增强的具体过程为:
B1:分别将先前图像Pinit与当前图像Pfinal按照RGB三通道标准化处理,均值为0,方差为1,保证RGB通道之间的相对关系,不改变三个通道内部的像素值分布;
B2:图像Pinit与Pfinal按照通道展平为N×3的向量,记为向量I(θ),θ∈D;
B3:求向量I(θ)的协方差矩阵;
B4:对协方差矩阵进行特征分解,得到特征向量F(θ)与特征值λ(θ);
B5:将图像Pinit与Pfinal的三个通道特征向量分别与处理后的特征向量相加,得到特征增强的图像。这里以图像Pinit的一个通道为例,公式如下,其中α为添加的抖动系数。
Presult(θ)=Pinit(θ)+F(θ)i·(ai·λ(θ)i)T,θ,i∈D
S3:利用特征金字塔FPN网络分别对先前图像与差分图像进行多尺度特征提取与融合,将得到的当前特征图像作为原始图像;
参照图3和图4,多尺度特征提取与特征融合的具体步骤为:
D1:先前图像与差分图像经过结构相同的主干网络ResNet50进行特征提取,将C2,C3,C4,C5阶段的最终输出特征经过1×1、步长为1的卷积操作,使之通道数为256,记为F2,F3,F4,F5;
对于主干网络ResNet50进行接下来的5个阶段的特征提取操作:
D1-1:C1阶段采用7×7、步长为2的卷积操作与3×3、步长为2的最大池化操作,通道数为64;
D1-2:C2至C5阶段之间的连接分为两个分支一主分支与shortcut分支;主分支均采用1×1、3×3、1×1且步长为1、2、1的卷积操作,称此为一个残差块,每个阶段之间分别采用3、4、6、3个残差块,通道数分别为256、512、1024、2048,使特征图像的长宽缩小一倍;shortcut分支采用1×1且步长为2的卷积操作,使之特征矩阵的形状与主分支相同;
其中,一个残差结构可表示为如下形式:
xl+1=xl+F(xl,Wx)
F(xl,Wl)是第l单元的主分支输出,xl是第l单元的shortcut分支输出;
D2:(水平操作)F5特征经过3×3、步长为1的卷积操作,输出P5图像特征;(从上至下垂直操作)F5特征上采样,使之特征图像的长宽扩大一倍,与F4特征形状一致并与之融合,然后进行3×3、步长为1的卷积操作,输出P4图像特征;以此类推,直至输出P2图像特征;
其中每层特征的上采样的具体操作为:
对于特征的上采样,采用最近邻插值算法,记dstx与dsty为上采样后的目标图像的某个像素的横坐标与纵坐标,dstwidth与dstheight为目标图像的宽度与高度,srcwidth与srcheight为原图像的宽度与高度,srcx与srcy为目标图像在该点(dstx,dsty)对应的原图像的坐标,公式如下:
srcx=dstx*(srcwidth/dstwidth)
srcy=dsty*(srcheight/dstheight)
D3:经过FPN网络处理后的先前图像与差分图像输出特征记为F′θ与F″θ,θ表示层数量,这里θ=4,将每层两者的特征进行融合,将此时的特征作为原始图像特征,公式如下,其中表示特征concat相加,
S4:对原始图像、经过专家论证审查的大坝形变判别文本进行预处理:
对原始图像进行预处理,具体表现为采用Faster R-CNN网络的RPN模块选择显著图像区域并提取区域特征,经过筛选,对每个保留区域,使用平均池化表示作为区域特征;
对经过专家论证审查的大坝形变判别文本进行预处理,参照图6,具体表现为通过场景图解析器从句子中解析场景图,并采用WordPieces方式对判别文本进行标记化,然后随机遮掩15%的分词,30%的场景图节点;
预处理操作具体包括如下步骤:
E1:通过RPN结构对各尺度原始图像特征生成候选框:
E1-1:RPN结构采用3×3、步长为1的卷积充当滑动窗口,在各尺度原始图像的特征进行滑动,计算出各个滑动窗口中心点(各个待检测点)对应于原始图像上的中心点,滑动后特征图像与原始图像的映射公式如下:
swidth=worigin/wfeature
sheight=horigin/hfeature
其中,wfeature与hfeature为特征图像的宽与长,worigin与horigin为原始图像的宽与长,swidth与sheight分别表示从原始图像到特征图像的缩放比例;通过特征图像某点的横纵坐标乘以相应方向上的缩放比例之后就可以得到在原始图像上的坐标;
E1-2:在计算各尺度的特征图像(各个检测点)对应于原始图像上的中心点之后,在每个原始图像上的中心点位置生成三种面积{1282,2562,5122}、三种长宽比例{1∶1,1∶2,2∶1}的9个一组的锚框,那么生成的锚框的宽与长的计算公式为:
其中,area是生成锚框的面积,ratio是生成锚框的长宽比例,h是生成锚框的宽度,w是生成锚框的长度;
E1-3:通道数为256的各尺度特征图像经过18个1×1的卷积操作得到通道数为18的特征图像,然后经Softmax层二分类计算数值;若数值大于0.5,则表示特征图像上的该点对应的原图上的锚框为前景positive,反之为背景negative,公式如下,其中j为样本的数量:
E1-4:通道数为256的各尺度特征图像经过36个1×1的卷积操作生成每个锚框的4个坐标偏移量[tx,ty,tw,th],用于修正锚框,偏移量计算公式如下:
tx=(x-xa)/wa ty=(y-ya)/ha
tw=log(w/wa) th=log(h/ha)
其中,[xa,ya,wa,ha]是锚框的中心点坐标与宽高,[tx,ty,tw,th]是预测的偏移量,那么通过以下公式计算修正后的锚框坐标[x,y,w,h]:
其中,[px,py,pw,ph]表示原始锚框的坐标,[dx,dy,dw,dh]表示RPN网络预测的坐标偏移,[gx,gy,gw,gh]表示修正后的锚框的坐标;
E1-5:利用E1-4产生的偏移量,对所有的原始锚框进行修正,根据E1-4产生的二分类概率,将positive锚框的由大到小排列并取前6000个,采用非极大值抑制,IoU设为0.7,这样每张图片只剩2000个候选框,最后输出对应于原图的锚框的左上角和右下角的坐标,称此时的锚框为候选框。
E2:将RPN生成的候选框投影到特征图上获得相应的特征矩阵,将每个特征矩阵通过ROI Pooling层缩放到7×7大小的特征图,通过一系列全连接层展平特征图,得到显著图像区域:
E2-1:参照图5,将候选框先映射回相应尺度的原始图像,并对每一个候选框对应的特征图划分为7×7的网格,对网格的每一部分做最大池化操作,即投影到原始图像获得相应的7×7大小的特征图,具体映射到哪个相应尺度的原始图像,公式如下:
其中,k为用来映射的特征图的层数,k0为特征图的尺度个数(这里为4),w和h为单个候选框的宽高(映射为原始图像),areaorigin为输入图片尺寸(候选框的面积);
E2-2:最后完成候选框的分类与回归:通过全连接层和Softmax对所有候选框进行具体类别的分类,该操作与S413操作类似;再次对候选框进行回归预测,获取更高精度的最终的预测框,该操作与S414操作一致。
S5:将预处理后的图像与文本特征输入双流跨模态Transformer模型进行预训练,联合建模模态内和跨模态表示,得到预训练模型;
参照图7,具体操作步骤如下:
G1:区域图像的输入表示:对经过S4操作处理后保留的区域特征,采用一个5维的向量对其进行位置编码,5个维度的元素分别为归一化后的区域的左上角和右下角的坐标以及图像区域覆盖占比,然后映射位置编码,使之与视觉特征维数匹配,两者相加后得到图像区域特征,最后用特定的图像token标记图像序列的开始与结束,并用它的输出表示整个图像;
其中,用一个5维的向量对区域特征位置编码具体操作为:
W、H分别表示区域特征的长与宽,图像区域的左上角坐标为[x1,y1],右下角坐标为[x2,y2],则该区域位置编码后表示为5维向量v=[x,y,w,h,s]。
G2:文本的输入表示:经过S4预处理后的大坝形变判别文本,输入Bert模型得到对应的文本嵌入;
G3:区域图像与文本联合表征:将G1与G2处理后得到的图像与文本特征,通过6组共同注意机制的Transformer层使两者进行信息交互,即给定一个图像I,表示为一组区域特征v0,...,vT和一个文本输入w0,...,wT,输出最终表示为hv0,...,hvT和hw0,...,hwT;
其中,6组共同注意力机制的Transformer层与Transformer的encoder结构一致,只是经过线性变换之后的Q、K、V来源不同,共同注意力机制可以表示为以下公式:
MultiHead(Q,K,V)=Concat(head1,......,headh)WO
对于图像流,Q来源于区域特征v0,...,vT,K、V来源于文本输入w0,...,wT;对于文本流,Q来源于文本输入w0,...,wT,K、V来源于区域特征v0,...,vT;
其中,该预训练的两个任务分别为基于未被遮掩的文本token与区域特征预测被遮掩的文本token(MLM任务)、文本特征与区域特征是否匹配(ITM任务),其中MLM与ITM任务的损失函数可以表示为以下公式:
LMLM=-E(W,V)∈DlogPθ(wm|w/m,V)
wm,w/m分别表示被遮掩、未被遮掩的文本token,(W,V)∈D表示大坝形变数据集的一对文本W与区域图像V样本;
LITM=-E(W,V)∈D[y log sθ(w[CLS],v[IMG])+(1-y)log(1-sθ(w[CLS],v[IMG])]
sθ评分函数测量区域图像和文本之间的对其概率,y∈{0,1}表示文本W与区域图像V是否匹配一致,w[CLS]与v[IMG]分别表示文本W与区域图像V。
S6:利用大坝的先前图像、当前图像训练集以及有关大坝形变风险的问题文本训练集,优化调整预训练模型的参数,完成训练;
其中,视觉问答训练任务是一个多分类任务,因此该训练任务的损失函数可以表示为以下公式:
N为训练集的答案标签中出现频率较高的标签数量,yv∈{0,1}是对预测结果的标记值,pv是预测分类结果为第v类的概率。
S7:参照图8,利用步骤S6训练好的模型,根据测试集图像以及问题文本数据进行预测,获取到大坝形变评估结果,以供专业人员参考并预警报。
Claims (6)
1.一种基于图像-文本多模态融合的大坝形变评估方法,其特征在于,包括如下步骤:
S1:通过定点的工业监控摄像机,采集大坝图像集,分别获取到先前图像和当前图像;
S2:根据先前图像和当前图像,获取到差分图像;
S3:利用特征金字塔FPN网络分别对先前图像与差分图像进行多尺度特征提取与融合,将得到的当前特征图像作为原始图像;
S4:对原始图像、大坝形变判别文本进行预处理;
S5:将预处理后的图像与文本特征输入双流跨模态Transformer模型进行预训练,联合建模模态内和跨模态表示,得到预训练模型;
S6:利用大坝的先前图像、当前图像训练集以及有关大坝形变风险的问题文本训练集,优化调整预训练模型的参数,完成训练;
S7:利用步骤S6训练好的模型,根据测试集图像以及问题文本数据进行预测,获取到大坝形变评估结果;
所述步骤S2中对先前图像和当前图像进行真彩色特征增强、特征差分,将当前的特征图像作为差分图像,具体过程包括如下步骤:
A1:采用一种基于PCA的彩色特征增强方法执行真彩色特征增强;
A2:计算真彩色特征增强后的先前图像与当前图像的特征差分,先前图像的特征矩阵为srcinit,当前图像的特征矩阵为srcfinal,那么特征差分dsrc表示为:
所述步骤A1的真彩色特征增强的具体过程为:
B1:分别将先前图像Pinit与当前图像Pfinal按照RGB三通道标准化处理,均值为0,方差为1,保证RGB通道之间的相对关系,不改变三个通道内部的像素值分布;
B2:图像Pinit与Pfinal按照通道展平为N×3的向量,记为向量I(θ),θ∈D;
B3:求向量I(θ)的协方差矩阵;
B4:对协方差矩阵进行特征分解,得到特征向量F(θ)与特征值λ(θ);
B5:将图像Pinit与Pfinal的三个通道特征向量分别与处理后的特征向量相加,得到特征增强的图像;
所述步骤S3具体为:
D1:先前图像与差分图像经过结构相同的主干网络ResNet50进行特征提取,将C2,C3,C4,C5阶段的最终输出特征经过1×1、步长为1的卷积操作,使之通道数为256,记为F2,F3,F4,F5;
D2:F5特征经过3×3、步长为1的卷积操作,输出P5图像特征;F5特征上采样,使之特征图像的长宽扩大一倍,与F4特征形状一致并与之融合,然后进行3×3、步长为1的卷积操作,输出P4图像特征;以此类推,直至输出P2图像特征;
D3:经过FPN网络处理后的先前图像与差分图像输出特征记为F′θ与F″θ,θ表示层数量,将每层两者的特征进行融合,将此时的特征作为原始图像特征,公式如下,其中表示特征concat相加,
所述步骤D1的具体操作过程为:
D1-1:C1阶段采用7×7、步长为2的卷积操作与3×3、步长为2的最大池化操作,通道数为64;
D1-2:C2至C5阶段之间的连接分为两个分支-主分支与shortcut分支;主分支均采用1×1、3×3、1×1且步长为1、2、1的卷积操作,称此为一个残差块,每个阶段之间分别采用3、4、6、3个残差块,通道数分别为256、512、1024、2048,使特征图像的长宽缩小一倍;shortcut分支采用1×1且步长为2的卷积操作,使之特征矩阵的形状与主分支相同。
2.根据权利要求1所述的一种基于图像-文本多模态融合的大坝形变评估方法,其特征在于,所述步骤S4中预处理操作为:用Faster R-CNN网络的RPN模块选择显著图像区域并提取区域特征,经过筛选,对每个保留区域,使用平均池化表示作为区域特征。
3.根据权利要求2所述的一种基于图像-文本多模态融合的大坝形变评估方法,其特征在于,所述步骤S4中预处理操作具体包括如下步骤:
E1:通过RPN结构对各尺度原始图像特征生成候选框;
E2:将RPN生成的候选框投影到特征图上获得相应的特征矩阵,将每个特征矩阵通过ROIPooling层缩放到7×7大小的特征图,通过一系列全连接层展平特征图,得到显著图像区域。
4.根据权利要求3所述的一种基于图像-文本多模态融合的大坝形变评估方法,其特征在于,所述步骤E1的操作具体如下:
E1-1:RPN结构采用3×3、步长为1的卷积充当滑动窗口,在各尺度原始图像的特征进行滑动,计算出各个滑动窗口中心点对应于原始图像上的中心点,滑动后特征图像与原始图像的映射公式如下:
swidth=worigin/wfeature
sheight=horigin/hfeature
其中,wfeature与hfeatture为特征图像的宽与长,worigin与horigin为原始图像的宽与长,swidth与sheight分别表示从原始图像到特征图像的缩放比例;通过特征图像某点的横纵坐标乘以相应方向上的缩放比例之后就可以得到在原始图像上的坐标;
E1-2:在计算各尺度的特征图像对应于原始图像上的中心点之后,在每个原始图像上的中心点位置生成三种面积{1282,2562,5122}、三种长宽比例{1∶1,1∶2,2∶1}的9个一组的锚框,那么生成的锚框的宽与长的计算公式为:
其中,area是生成锚框的面积,ratio是生成锚框的长宽比例,h是生成锚框的宽度,w是生成锚框的长度;
E1-3:通道数为256的各尺度特征图像经过18个1×1的卷积操作得到通道数为18的特征图像,然后经Softmax层二分类计算数值;若数值大于0.5,则表示特征图像上的该点对应的原图上的锚框为前景positive,反之为背景negative,公式如下,其中j为样本的数量:
E1-4:通道数为256的各尺度特征图像经过36个1×1的卷积操作生成每个锚框的4个坐标偏移量[tx,ty,tw,th],用于修正锚框,偏移量计算公式如下:
tx=(x-xa)/wa ty=(y-ya)/ha
tw=log(w/wa)th=log(h/ha)
其中,[xa,ya,wa,ha]是锚框的中心点坐标与宽高,[tx,ty,tw,th]是预测的偏移量,那么通过以下公式计算修正后的锚框坐标[x,y,w,h]:
其中,[px,py,pw,ph]表示原始锚框的坐标,[dx,dy,dw,dh]表示RPN网络预测的坐标偏移,[gx,gy,gw,gh]表示修正后的锚框的坐标;
E1-5:利用E1-4产生的偏移量,对所有的原始锚框进行修正,根据E1-4产生的二分类概率,将positive锚框的由大到小排列并取前6000个,采用非极大值抑制,IoU设为0.7,这样每张图片只剩2000个候选框,最后输出对应于原图的锚框的左上角和右下角的坐标,称此时的锚框为候选框。
5.根据权利要求3所述的一种基于图像-文本多模态融合的大坝形变评估方法,其特征在于,所述步骤E2的操作具体如下:
E2-1:将候选框先映射回相应尺度的原始图像,并对每一个候选框对应的特征图划分为7×7的网格,对网格的每一部分做最大池化操作,即投影到原始图像获得相应的7×7大小的特征图,具体映射到哪个相应尺度的原始图像,公式如下:
其中,k为用来映射的特征图的层数,k0为特征图的尺度个数,w和h为单个候选框的宽高,areaorigin为输入图片尺寸;
E2-2:最后完成候选框的分类与回归:通过全连接层和Softmax对所有候选框进行具体类别的分类;再次对候选框进行回归预测,获取最终的预测框。
6.根据权利要求1所述的一种基于图像-文本多模态融合的大坝形变评估方法,其特征在于,所述步骤S5具体为:
G1:区域图像的输入表示:对经过S4操作处理后保留的区域特征,采用一个5维的向量对其进行位置编码,5个维度的元素分别为归一化后的区域的左上角和右下角的坐标以及图像区域覆盖占比,然后映射位置编码,使之与视觉特征维数匹配,两者相加后得到图像区域特征,最后用特定的图像token标记图像序列的开始与结束,并用它的输出表示整个图像;
G2:文本的输入表示:经过S4预处理后的大坝形变判别文本,输入Bert模型得到对应的文本嵌入;
G3:区域图像与文本联合表征:将G1与G2处理后得到的图像与文本特征,通过6组共同注意机制的Transformer层使两者进行信息交互,即给定一个图像I,表示为一组区域特征υ0,...,υT和一个文本输入w0,...,wT,输出最终表示为hυ0,...,hυT和hw0,...,hwT。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310768316.4A CN116861361B (zh) | 2023-06-27 | 2023-06-27 | 一种基于图像-文本多模态融合的大坝形变评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310768316.4A CN116861361B (zh) | 2023-06-27 | 2023-06-27 | 一种基于图像-文本多模态融合的大坝形变评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116861361A CN116861361A (zh) | 2023-10-10 |
CN116861361B true CN116861361B (zh) | 2024-05-03 |
Family
ID=88231403
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310768316.4A Active CN116861361B (zh) | 2023-06-27 | 2023-06-27 | 一种基于图像-文本多模态融合的大坝形变评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116861361B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117095363B (zh) * | 2023-10-20 | 2024-01-26 | 安能三局(成都)工程质量检测有限公司 | 一种大坝安全监测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111027547A (zh) * | 2019-12-06 | 2020-04-17 | 南京大学 | 一种针对二维图像中的多尺度多形态目标的自动检测方法 |
CN113220919A (zh) * | 2021-05-17 | 2021-08-06 | 河海大学 | 一种大坝缺陷图像文本跨模态检索方法及模型 |
CN113658176A (zh) * | 2021-09-07 | 2021-11-16 | 重庆科技学院 | 基于交互注意力与卷积神经网络的瓷砖表面缺陷检测方法 |
WO2022027986A1 (zh) * | 2020-08-04 | 2022-02-10 | 杰创智能科技股份有限公司 | 基于跨模态行人重识别方法及装置 |
CN115331075A (zh) * | 2022-08-11 | 2022-11-11 | 杭州电子科技大学 | 一种多模态场景图知识增强的对抗式多模态预训练方法 |
CN115761757A (zh) * | 2022-11-04 | 2023-03-07 | 福州大学 | 基于解耦特征引导的多模态文本页面分类方法 |
-
2023
- 2023-06-27 CN CN202310768316.4A patent/CN116861361B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111027547A (zh) * | 2019-12-06 | 2020-04-17 | 南京大学 | 一种针对二维图像中的多尺度多形态目标的自动检测方法 |
WO2022027986A1 (zh) * | 2020-08-04 | 2022-02-10 | 杰创智能科技股份有限公司 | 基于跨模态行人重识别方法及装置 |
CN113220919A (zh) * | 2021-05-17 | 2021-08-06 | 河海大学 | 一种大坝缺陷图像文本跨模态检索方法及模型 |
CN113658176A (zh) * | 2021-09-07 | 2021-11-16 | 重庆科技学院 | 基于交互注意力与卷积神经网络的瓷砖表面缺陷检测方法 |
CN115331075A (zh) * | 2022-08-11 | 2022-11-11 | 杭州电子科技大学 | 一种多模态场景图知识增强的对抗式多模态预训练方法 |
CN115761757A (zh) * | 2022-11-04 | 2023-03-07 | 福州大学 | 基于解耦特征引导的多模态文本页面分类方法 |
Non-Patent Citations (1)
Title |
---|
深度学习在医学影像中的应用综述;施俊;汪琳琳;王珊珊;陈艳霞;王乾;魏冬铭;梁淑君;彭佳林;易佳锦;刘盛锋;倪东;王明亮;张道强;沈定刚;;中国图象图形学报(10);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116861361A (zh) | 2023-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110136170B (zh) | 一种基于卷积神经网络的遥感影像建筑物变化检测方法 | |
CN111898507A (zh) | 一种预测无标签遥感影像地表覆盖类别的深度学习方法 | |
CN109711413A (zh) | 基于深度学习的图像语义分割方法 | |
CN109934154B (zh) | 一种遥感影像变化检测方法及检测装置 | |
CN116861361B (zh) | 一种基于图像-文本多模态融合的大坝形变评估方法 | |
CN112149547A (zh) | 基于图像金字塔引导和像素对匹配的遥感影像水体识别 | |
CN111738113A (zh) | 基于双注意力机制与语义约束的高分辨遥感图像的道路提取方法 | |
CN109829507B (zh) | 航拍高压输电线路环境检测方法 | |
CN114943876A (zh) | 一种多级语义融合的云和云影检测方法、设备及存储介质 | |
CN117011295B (zh) | 基于深度可分离卷积神经网络的uhpc预制件质量检测方法 | |
CN112884758B (zh) | 一种基于风格迁移方法的缺陷绝缘子样本生成方法及*** | |
CN113420619A (zh) | 一种遥感影像建筑物提取方法 | |
CN116306203A (zh) | 一种海上目标航迹智能仿真生成方法 | |
CN115222754A (zh) | 一种基于知识蒸馏和对抗学习的镜面图像分割方法 | |
CN113888399B (zh) | 一种基于风格融合与域选结构的人脸年龄合成方法 | |
CN112967227B (zh) | 基于病灶感知建模的糖尿病视网膜病变自动评估*** | |
CN114998373A (zh) | 基于多尺度损失函数的改进型U-Net云图分割方法 | |
CN114818826A (zh) | 基于轻量级Vision Transformer模块的故障诊断方法 | |
CN115497006B (zh) | 基于动态混合策略的城区遥感图像变化深度监测方法及*** | |
CN114021422B (zh) | 一种基于跨孔雷达和深度学习的地下结构内部缺陷识别方法 | |
CN116958800A (zh) | 基于层次注意力残差UNet++的遥感影像变化检测方法 | |
CN114596433A (zh) | 一种绝缘子识别方法 | |
CN110443248A (zh) | 大幅遥感影像语义分割分块效应消除方法及*** | |
CN111738324A (zh) | 一种基于分频卷积的多频率和多尺度融合的自动化裂缝检测方法 | |
Zhang et al. | MMSTP: Multi-modal Spatiotemporal Feature Fusion Network for Precipitation Prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |