CN114821050A - 一种基于transformer的指称图像分割方法 - Google Patents

一种基于transformer的指称图像分割方法 Download PDF

Info

Publication number
CN114821050A
CN114821050A CN202210382021.9A CN202210382021A CN114821050A CN 114821050 A CN114821050 A CN 114821050A CN 202210382021 A CN202210382021 A CN 202210382021A CN 114821050 A CN114821050 A CN 114821050A
Authority
CN
China
Prior art keywords
feature
cross
global
features
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210382021.9A
Other languages
English (en)
Inventor
刘芳
孔雨秋
张立和
尹宝才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202210382021.9A priority Critical patent/CN114821050A/zh
Publication of CN114821050A publication Critical patent/CN114821050A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉技术领域,提供了一种基于transformer的指称图像分割方法,对于输入的文本和图像,算法要根据输入的文本来对图像中指定的目标进行分割,算法主要由特征提取、跨模态特征融合、跨层级信息整合三个部分组成。本发明可以在视觉特征提取和跨模态融合阶段提取全局和局部信息,在解码器阶段也可以很好地使不同层级的信息进行有效的整合,从而可以让模型根据文本描述来生成性能更好的分割结果。

Description

一种基于transformer的指称图像分割方法
技术领域
本发明属于计算机视觉技术领域,涉及深度学习的指称图像分割方法。
背景技术
在我们的日常生活中,我们会接触到各种各样的信息,其中最重要的就是文本和图像的信息。指称表达式则通过文本描述来表述图像中不同目标之间的关系,例如“拿着遥控器的男孩”、“左边的椅子”、“在沙发上的猫”等,使自然语言和视觉信息进行了很好的结合。
指称图像分割(ReferringImageSegmentation)是计算机视觉和自然语言处理的一个交叉领域。对于给定的图像和指称表达式,算法要能正确地定位图像中的目标并准确地分割出来。传统的图像分割算法需要预测图像中每个像素的类别,而指称图像分割任务则更具挑战性,其要求模型能正确理解语言所表达的信息,再来对图像中的目标进行分割。
目前的指称图像分割算法种类有很多,我们可以概括成两个类别:单阶段方案和多阶段方案。
(1)单阶段指称图像分割方法
对于单阶段方案的运算流程,通常是先分别用卷积神经网络(CNN)和文本编码器(LSTM)来提取图像和文本的特征,再来对它们用不同的方法进行融合,从而进一步来得到对目标进行分割的结果。这些方法的主要区别在于如何有效地对两个模态的信息进行整合。早期的一些方法主要采用级联的方式来进行融合。这种方式并不能有效地对齐两个模态的长短距离信息,加州大学的陈奕雯等人采用动态滤波器来融合它们,这里的滤波器也可以看做是卷积神经网络的卷积核,文本信息会被抽象成这里的卷积核,图像再通过对应的卷积操作来对两个模态的信息进行融合。由于融合模块主要使用了卷积操作,这种方式会让模型过度地关注局部信息。近期中国科学技术大学的惠天瑞等人则采用注意力机制来进行融合,使其可以获取更多有效的长距离信息,但这种方式并不能获取足够的局部信息。
(2)多阶段指称图像分割方法
多阶段方案需要先用传统的目标检测方法(FastR-CNN)来提取图像中每个目标对应的候选区域,再根据这些区域选择和文本描述最接近的目标作为最终结果。上海交通大学的虞立成等人提出一种模块化注意力模型,先把输入的指称表达式解析成三个部分:主语、位置和关系,再使用不同的注意力模块来得到不同种类的信息来和候选区域的匹配分数,这些匹配分数会再进行加权求和来得到最后的目标候选框,将目标框输入分割分支,则可求得对应的分割结果。中国科学技术大学的刘大庆等人则提出了树状神经网络模快,使用语义解析树来对输入的文本进行解析,树中的节点表示文本中的某个单词,树的边则表示不同单词之间的关系,每个单词都需要来和候选区域进行相似度匹配,选择一个分数最高的候选区域作为输出,这个得分最高的区域会再输入分割分支,来得到最后的分割结果。但这种多阶段方法有一个很明显的弊端,候选区域的选取是非常耗时的,很影响模型的测试速度,而单阶段算法则不需要候选框的提取,通常比多阶段算法更加高效。
发明内容
本发明针对现有方法的不足,提出了一种基于transformer的指称图像分割框架。本框架可以在特征提取和跨模态融合阶段,都可以很好地获取全局和局部信息,使模型在获取长距离依赖的同时,还可以保留必要的细节信息。整个框架的输入是图像和文本描述(指称表达式),首先会分别经过视觉和文本编码器来提取特征,图像和文本特征会在编码器阶段通过跨模态融合模块来进行融合,得到的跨模态特征再来输入跨层级信息整合模块来得到最后的分割结果。
本发明的技术方案:
一种基于transformer的指称图像分割方法,该方法共由三部分组成,步骤如下:
(1)特征提取阶段
将图像和文本分别输入视觉编码器和文本编码器来提取特征;文本编码器采用了预训练的BERT框架,文本描述中的每个单词都会被编码成一个768维的向量;视觉编码器采用了基于transformer的结构,是一个卷积和transformer 结合的视觉特征提取器,视觉特征提取器由五个阶段构成,第一个阶段是三个卷积层,第二、三个阶段对应局部transformer块,第四、五个阶段对应全局 transformer块;其中卷积层是用来引入归纳偏置,局部transformer块用来提取局部的细节特征,全局transformer块用来获取全局的高级语义信息;对于输入的图像,通过不同的线性变换来调整输入特征的维度和分辨率,从而用来获取五个不同层级的特征;对于全局transformer块,其基本结构包括正则化LN、全局自注意力GMSA和多层感知机MLP,具体的运算过程如下:
z′l=GMSA(LN(zl-i))+zl-1
zl=MLP(LN(z′l))+z′l,
其中,zl-1表示当前全局transformer块的输入,z′l表示输入通过GMSA变换的特征,zl表示当前全局transformer块的输出;把式中的GMSA替换成局部自注意力LMSA,即得到局部transformer块的运算过程;对于全局自注意力,把输入的任意特征Y先经过三个不同的线性变换得到对应的Q、K和V,线性变换不会改变特征Y的通道数和大小,得到的Q、K和V的通道数和特征大小是相同的,再来计算自注意力,自注意力的流程如下:
Figure RE-GDA0003680841340000041
其中,C0表示K的通道数,softmax表示对输入进行归一化,T表示求矩阵的转置;局部自注意力也是类似的流程,但其自注意力只发生在特征图中7×7 的窗口内部,而不是整个特征图;
在特征提取阶段,得到五个不同层级的视觉特征,即{Xi,i∈1,2,3,4,5},由于后三个层级的特征{X3,X4,X5}包括丰富的语义信息,选取这部分视觉特征来分别与文本特征S在下文的跨模态特征融合阶段进行融合;
(2)跨模态特征融合阶段
对于输入的文本特征S和视觉特征Xi,先进行级联来得到初步的多模态融合特征Mi,即
Mi=([Xi,S])W0
其中,W0表示可学习的参数,[·]表示级联操作,再通过以下运算流程得到对齐之后的文本特征Li
Ai=softmax((SW1)(MiW2)T),
Li=STAi
其中,w1和W2表示可学习的参数,softmax表示对输入进行归一化,T表示求矩阵的转置,Ai表示多模态注意力矩阵;
初步的多模态融合特征Mi和对齐的文本特征Li被送入跨模态特征融合模块来进一步融合,跨模态特征融合模块也是一个基于transformer的结构,但其中的自注意力MSA被替换成交叉注意力MCA;MCA和MSA的算法流程非常类似,只是其中Q、K和V是根据不同的输入进行了变换,即Q是根据文本特征进行的变换,而K和V是根据视觉特征进行的变换;跨模态特征融合模块先使用基于全局交叉注意力G-MCA的全局交叉transformer块来获取全局信息,再使用基于局部交叉注意力L-MCA的局部交叉transformer块来获取局部的细节信息,基于全局交叉注意力G-MCA的全局交叉transformer块、基于局部交叉注意力L-MCA的局部交叉transformer块的基本结构和前文提到的全局transformer 块很接近,只有其中的GMSA被分别替换成了G-MCA和L-MCA;
在跨模态特征融合阶段,得到三个不同层级的跨模态特征{Fm3,Fm4,Gm5},为了让网络尽可能保留更多视觉特征的细节信息,在下一个跨层级信息整合阶段让视觉编码器得到的前两层视觉特征{X1,X2}和跨模态特征{Fm3,Fm4,Fm5}进行整合;
(3)跨层级信息整合阶段
对于编码器阶段得到的视觉或多模态特征{X1,X2,Fm3,Fm4,Fm5},先用核大小为3×3、步长为1的卷积来对这些特征进行降维,得到简化后的特征 {Ti,i∈1,2,3,4,5},再进一步通过跨层级信息整合模块进行整合;跨层级信息整合模块由四个特征整合操作组成,具体如下:简化后的低层特征Ti先进行上采样,使其和高层特征Ti-1具有相同的分辨率;使用点乘来使上采样后的低层特征和高层特征进行逐像素相乘,得到过滤后的特征Bi;对于上一次不同层进行特征整合后的特征Di,其中D5=T5,先进行上采样,使其和Bi有相同的大小,上采样之后的特征Di′再来和过滤后的特征Bi进行点乘,得到提炼后的特征D′i-1;本方法使用了残差连接使模型可保留更多的信息,即让整合后的特征Di′和第二次点乘后的特征D′i-1进行逐像素相加,来得到该特征整合模块的输出Di-1;对于最后一个特征整合模块的输出D1,需要再经过头模块来得到最后的分割结果,头模块是由两个卷积层组成,第一个卷积层用来把对应特征图的通道数减少1/2,第二个卷积层输出的通道数为1,对应了输出的蒙版,再通过双线性上采样来把蒙版的分辨率恢复到输入图像的分辨率,经过sigmoid函数把输出的蒙版进一步限制到(0,1)的范围,再来和真值计算交叉熵损失函数,
Figure RE-GDA0003680841340000061
其中,yi表示真值,pi表示对分割图进行sigmoid的结果,N表示输入图像像素点的数量。
本发明的有益效果:相比于现有的指称图像分割方法,本方法的最大优点是可以在视觉特征提取和跨模态特征融合阶段,都可以考虑到更多有效的全局上下文和局部细节信息,使模型在能理解文本所表达的复杂语义信息外,还可以获取图像中具体目标的细节信息。在解码器阶段,本方法提出的特征整合操作,可以在不显著提升计算复杂度的条件下,来对编码器中不同层级的特征进行有效地整合。此外,本方法这种同时考虑全局和局部信息的思想对其他的计算机视觉任务也有着较大的参考价值。
附图说明
图1是整体框架的流程图。
图2是视觉特征提取框架图。
图3是跨模态特征融合模块流程图。
图4是特征整合操作流程图。
图5是不同组件效果对比图,(a)为原始输入图像;(b)为仅包含特征提取网络得到的分割结果图;(c)为在(b)的基础上增加了跨模态特征融合模块得到的分割结果图;(d)为在(b)的基础上增加了跨层级信息整合模块得到的分割结果图;(e)为整个框架得到的结果;(f)为监督信息。
具体实施方式
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
为了更好的对比不同组件对于整个框架的贡献,我们根据图5来做可视化说明。(a)为原始输入图像;(b)为仅包含特征提取网络得到的分割结果图; (c)为在(b)的基础上增加了跨模态特征融合模块得到的分割结果图;(d) 为在(b)的基础上增加了跨层级信息整合模块得到的分割结果图;(e)为整个框架得到的结果;(f)为监督信息。为了方便描述,我们把(b)对应的模型称为基准网络,将原始图像(a)送入基准网络之后,通过分割结果可以看出来模型只能得到目标的大致位置,有很多相关区域都没有被包括进来;当在基准网络(b)中加入了跨模态信息整合模块之后,得到的结果明显可见对于中间区域有了显著的改善,特别是第一张图中人的头部,第二张图中摩托车的轮胎和挡风玻璃部分,但是对于边界区域的分割还是不够准确;同时,只在基准网络中加入了跨层级信息整合模块之后,从图(d)可以看出来,对于部分边缘的区域有了很好的改善,但是却没有理解图中多个对象之间的关系;紧接着在基准网络(b)中同时加入跨模态特征融合模块和跨层级特征整合模块之后,如图(e) 所示,得到的便是我们最终的效果图,这个结果图不仅在边界区域也更接近真实值,也能理解图中多个目标之间的关系。由此也能进一步印证我们各个模块对提升性能的重要性和不可或缺性。
本发明的核心在于多层级视觉特征的提取、跨模态特征融合和跨层级信息交互,接下来将结合具体实现方式对该发明作详细说明。首先是多层级视觉特征的提取,本发明设计了基于transformer的视觉特征提取器,如图2所示,不仅可以在浅层通过局部transformer块提取细节信息,还可以通过全局transformer 块提取高级的语义信息,整个视觉特征提取器使用了在ImageNet预训练的结果。对于图像和文本分别输入视觉和文本编码器得到的特征,需要先进行初步的融合,再输入跨模态特征融合网络来进一步融合。而跨模态特征融合块馍则是模仿人类的视觉***而设计的,如图3所示,先对整个图像有一个全局的视野,再来关注某个物体的细节信息;这是通过先使用带全局交叉注意力的transformer 块提取长距离信息,再使用带局部交叉注意力的transformer块来提取短距离信息来实现的;对于交叉注意力,则是把输入的文本特征当作Q,而视觉特征当作K,V来计算自注意力实现的。对于编码器中不同层级的视觉特征和跨模态特征,要通过跨层级信息整合模块来进行结合,它是在特征金字塔池化网络的基础上进行设计的,总共加入了四次特征整合操作,可以进一步提升分割结果中边缘区域的性能。

Claims (1)

1.一种基于transformer的指称图像分割方法,该方法共由三部分组成,其特征在于,步骤如下:
(1)特征提取阶段
将图像和文本分别输入视觉编码器和文本编码器来提取特征;文本编码器采用了预训练的BERT框架,文本描述中的每个单词都会被编码成一个768维的向量;视觉编码器采用了基于transformer的结构,是一个卷积和transformer结合的视觉特征提取器,视觉特征提取器由五个阶段构成,第一个阶段是三个卷积层,第二、三个阶段对应局部transformer块,第四、五个阶段对应全局transformer块;其中卷积层是用来引入归纳偏置,局部transformer块用来提取局部的细节特征,全局transformer块用来获取全局的高级语义信息;对于输入的图像,通过不同的线性变换来调整输入特征的维度和分辨率,从而用来获取五个不同层级的特征;对于全局transformer块,其基本结构包括正则化LN、全局自注意力GMSA和多层感知机MLP,具体的运算过程如下:
z′l=GMSA(LN(zl-1))+zl-1
zl=MLP(LN(z′l))+z′l
其中,zl-1表示当前全局transformer块的输入,z′l表示输入通过GMSA变换的特征,zl表示当前全局transformer块的输出;把式中的GMSA替换成局部自注意力LMSA,即得到局部transformer块的运算过程;对于全局自注意力,把输入的任意特征Y先经过三个不同的线性变换得到对应的Q、K和V,线性变换不会改变特征Y的通道数和大小,得到的Q、K和V的通道数和特征大小是相同的,再来计算自注意力,自注意力的流程如下:
Figure FDA0003593268170000011
其中,C0表示K的通道数,softmax表示对输入进行归一化,T表示求矩阵的转置;局部自注意力也是类似的流程,但其自注意力只发生在特征图中7×7的窗口内部,而不是整个特征图;
在特征提取阶段,得到五个不同层级的视觉特征,即{Xi,i∈1,2,3,4,5},由于后三个层级的特征{X3,X4,X5}包括丰富的语义信息,选取这部分视觉特征来分别与文本特征S在下文的跨模态特征融合阶段进行融合;
(2)跨模态特征融合阶段
对于输入的文本特征S和视觉特征Xi,先进行级联来得到初步的多模态融合特征Mi,即
Mi=([Xi,S])W0
其中,W0表示可学习的参数,[·]表示级联操作,再通过以下运算流程得到对齐之后的文本特征Li
Ai=soffmax((SW1)(MiW2)T),
Li=STAi
其中,W1和W2表示可学习的参数,softmax表示对输入进行归一化,T表示求矩阵的转置,Ai表示多模态注意力矩阵;
初步的多模态融合特征Mi和对齐的文本特征Li被送入跨模态特征融合模块来进一步融合,跨模态特征融合模块也是一个基于transformer的结构,但其中的自注意力MSA被替换成交叉注意力MCA;MCA和MSA的算法流程非常类似,只是其中Q、K和V是根据不同的输入进行了变换,即Q是根据文本特征进行的变换,而K和V是根据视觉特征进行的变换;跨模态特征融合模块先使用基于全局交叉注意力G-MCA的全局交叉transformer块来获取全局信息,再使用基于局部交叉注意力L-MCA的局部交叉transformer块来获取局部的细节信息,基于全局交叉注意力G-MCA的全局交叉transformer块、基于局部交叉注意力L-MCA的局部交叉transformer块的基本结构和前文提到的全局transformer块很接近,只有其中的GMSA被分别替换成了G-MCA和L-MCA;
在跨模态特征融合阶段,得到三个不同层级的跨模态特征{Fm3,Fm4,Fm5},为了让网络尽可能保留更多视觉特征的细节信息,在下一个跨层级信息整合阶段让视觉编码器得到的前两层视觉特征{X1,X2}和跨模态特征{Fm3,Fm4,Fm5}进行整合;
(3)跨层级信息整合阶段
对于编码器阶段得到的视觉或多模态特征{X1,X2,Fm3,Fm4,Fm5},先用核大小为3×3、步长为1的卷积来对这些特征进行降维,得到简化后的特征{Ti,i∈1,2,3,4,5},再进一步通过跨层级信息整合模块进行整合;跨层级信息整合模块由四个特征整合操作组成,具体如下:简化后的低层特征Ti先进行上采样,使其和高层特征Ti-1具有相同的分辨率;使用点乘来使上采样后的低层特征和高层特征进行逐像素相乘,得到过滤后的特征Bi;对于上一次不同层进行特征整合后的特征Di,其中D5=T5,先进行上采样,使其和Bi有相同的大小,上采样之后的特征Di′再来和过滤后的特征Bi进行点乘,得到提炼后的特征D′i-1;本方法使用了残差连接使模型可保留更多的信息,即让整合后的特征Di′和第二次点乘后的特征D′i-1进行逐像素相加,来得到该特征整合模块的输出Di-1;对于最后一个特征整合模块的输出D1,需要再经过头模块来得到最后的分割结果,头模块是由两个卷积层组成,第一个卷积层用来把对应特征图的通道数减少1/2,第二个卷积层输出的通道数为1,对应了输出的蒙版,再通过双线性上采样来把蒙版的分辨率恢复到输入图像的分辨率,经过sigmoid函数把输出的蒙版进一步限制到(0,1)的范围,再来和真值计算交叉熵损失函数,
Figure FDA0003593268170000041
其中,yi表示真值,pi表示对分割图进行sigmoid的结果,N表示输入图像像素点的数量。
CN202210382021.9A 2022-04-13 2022-04-13 一种基于transformer的指称图像分割方法 Pending CN114821050A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210382021.9A CN114821050A (zh) 2022-04-13 2022-04-13 一种基于transformer的指称图像分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210382021.9A CN114821050A (zh) 2022-04-13 2022-04-13 一种基于transformer的指称图像分割方法

Publications (1)

Publication Number Publication Date
CN114821050A true CN114821050A (zh) 2022-07-29

Family

ID=82535418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210382021.9A Pending CN114821050A (zh) 2022-04-13 2022-04-13 一种基于transformer的指称图像分割方法

Country Status (1)

Country Link
CN (1) CN114821050A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115170934A (zh) * 2022-09-05 2022-10-11 粤港澳大湾区数字经济研究院(福田) 一种图像分割方法、***、设备及存储介质
CN117078942A (zh) * 2023-10-12 2023-11-17 中国科学技术大学 上下文感知的指称图像分割方法、***、设备及存储介质
CN118015283A (zh) * 2024-04-08 2024-05-10 中国科学院自动化研究所 图像分割方法、装置、设备和存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115170934A (zh) * 2022-09-05 2022-10-11 粤港澳大湾区数字经济研究院(福田) 一种图像分割方法、***、设备及存储介质
CN117078942A (zh) * 2023-10-12 2023-11-17 中国科学技术大学 上下文感知的指称图像分割方法、***、设备及存储介质
CN117078942B (zh) * 2023-10-12 2024-02-23 中国科学技术大学 上下文感知的指称图像分割方法、***、设备及存储介质
CN118015283A (zh) * 2024-04-08 2024-05-10 中国科学院自动化研究所 图像分割方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN111462126B (zh) 一种基于边缘增强的语义图像分割方法及***
CN111340814B (zh) 一种基于多模态自适应卷积的rgb-d图像语义分割方法
CN114821050A (zh) 一种基于transformer的指称图像分割方法
CN114758383A (zh) 基于注意力调制上下文空间信息的表情识别方法
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN113240683B (zh) 基于注意力机制的轻量化语义分割模型构建方法
CN113961736B (zh) 文本生成图像的方法、装置、计算机设备和存储介质
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN113052775B (zh) 一种图像去阴影方法及装置
CN111062329B (zh) 基于增广网络的无监督行人重识别方法
CN114494297B (zh) 处理多种先验知识的自适应视频目标分割方法
CN112818764A (zh) 一种基于特征重建模型的低分辨率图像人脸表情识别方法
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN111401247A (zh) 一种基于级联卷积神经网络的人像分割方法
CN110598746A (zh) 一种基于ode求解器自适应的场景分类方法
CN113516133A (zh) 一种多模态图像分类方法及***
CN114723787A (zh) 一种光流计算方法及***
CN116704506A (zh) 一种基于交叉环境注意力的指代图像分割方法
CN111898614B (zh) 神经网络***以及图像信号、数据处理的方法
CN116704198A (zh) 一种基于多模态信息引导的知识增强视觉问答方法
Wang et al. Msfnet: multistage fusion network for infrared and visible image fusion
CN113096133A (zh) 一种基于注意力机制的语义分割网络的构建方法
CN117058392A (zh) 一种基于卷积局部增强的多尺度Transformer图像语义分割方法
Di et al. FDNet: An end-to-end fusion decomposition network for infrared and visible images
CN115035402B (zh) 一种用于土地覆盖分类问题的多级特征聚合***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination