CN112819012A - 一种基于多源协同特征的图像描述生成方法 - Google Patents

一种基于多源协同特征的图像描述生成方法 Download PDF

Info

Publication number
CN112819012A
CN112819012A CN202110128180.1A CN202110128180A CN112819012A CN 112819012 A CN112819012 A CN 112819012A CN 202110128180 A CN202110128180 A CN 202110128180A CN 112819012 A CN112819012 A CN 112819012A
Authority
CN
China
Prior art keywords
features
image
feature
grid
method based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110128180.1A
Other languages
English (en)
Other versions
CN112819012B (zh
Inventor
孙晓帅
纪荣嵘
骆云鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202110128180.1A priority Critical patent/CN112819012B/zh
Publication of CN112819012A publication Critical patent/CN112819012A/zh
Application granted granted Critical
Publication of CN112819012B publication Critical patent/CN112819012B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

一种基于多源协同特征的图像描述生成方法,涉及多源特征提取、强化和融合,属于人工智能技术领域,包括如下步骤:步骤1,采用目标检测器同时提取图像的网格特征和区域特征;步骤2,利用特征的绝对和相对位置信息,辅助模型进行特征理解和两种特征内部的交互和增强;步骤3,利用特征间的几何对齐关系,让两种特征进行交互增强,交换重要的视觉信息,实现更好的视觉表达。此种方法针对传统基于单源特征的图像描述方法缺少场景和细节信息的局限性,提出多源协同特征提取、融合和增强方法,强化视觉先验,从而提高生成描述的准确性。

Description

一种基于多源协同特征的图像描述生成方法
技术领域
本发明涉及多源特征提取、强化和融合,尤其是涉及一种基于多源协同特征的图像描述生成方法。
背景技术
图像描述生成是为输入图像自动生成描述性语句的任务。图像描述生成任务横跨计算机视觉和自然语言处理两个领域,它的主要挑战不仅在于通过物体识别、场景识别、属性和关系检测等对图像中的对象和关系进行全面理解,还在于生成符合视觉语义的流畅句子。图像描述生成的应用面很广泛,可以帮助自动驾驶领域理解道路情况,也可以帮助视觉障碍者了解所处的环境。
尽管图像描述生成任务充满挑战,经过多年的发展,图像描述生成的仍然取得了很大的进步,在基准数据集和方法上都取得了很大的进展。Lin等人(Lin,T.-Y.;Maire,M.;Belongie,S.;Hays,J.;Perona,P.;Ramanan,D.;Dollar,P.;and Zitnick,C.L.2014.Microsoft coco:Common objects in context.In ECCV.)提出图像描述生成的基准数据集COCO。Vinyals等人(Vinyals,O.;Toshev,A.;Bengio,S.;and Erhan,D.2015.Show and tell:A neural image caption generator.In CVPR.)首次借鉴机器翻译领域的编码器解码器结构作为图像描述生成的一大范式。Anderson等人(Rennie,S.J.;Marcheret,E.;Mroueh,Y.;Ross,J.;and Goel,V.2017.Self-critical sequencetraining for imagecaptioning.In CVPR)提出一种使用目标检测器提供图像先验的方法。Rennie等人(Anderson,P.;He,X.;Buehler,C.;Teney,D.;Johnson,M.;Gould,S.;andZhang,L.2018.Bottom-up and top-down attention for image captioning and visualquestion answering.In CVPR.)则使用强化学习方法来解决图像描述生成网络训练和测试时行为不一致的问题。
上述工作为图像描述生成打下了坚实基础。与早期方法中使用的网格特征相比,Anderson等人提出的通过目标检测网络提出了区域特征,因为图像中的大多数显著区域往往都是目标,因此区域特征极大地降低了视觉语义嵌入的难度。尽管取得了巨大的成功,但是区域特征仍然因缺乏上下文信息和细粒度细节而备受诟病。检测到的区域可能没有覆盖整个图像,导致无法正确地描述全局场景。同时,每个区域都由一个单一的特征向量来表示,这不可避免地会丢失大量的对象细节。然而,这些缺点是网格特征的优点,相比之下,网格特征以更零碎的形式覆盖了给定图像的所有内容。
基于这样的背景,本发明选择研究基于多源协同特征的图像描述生成方法,来弥补现有方法中的不足,得到更加准确、精细的图像描述内容,推进图像描述生成的工业化应用的步伐。
发明内容
本发明的目的在于针对传统图像报告生成方法图像特征上的缺点,提出多源特征协同的方法,提取并使用多样的图像特征,以此强化图像先验信息,进行更加准确细致的图像描述生成的一种基于多源协同特征的图像描述生成方法。
本发明包括以下步骤:
1)采用目标检测器同时提取图像的网格特征和区域特征;
2)利用特征的绝对位置信息和相对位置信息,建立一个综合关系注意力机制辅助模型进行特征理解和关系建模,辅助模型进行特征理解和两种特征自增强;
3)利用特征间的几何对齐关系,让两种特征进行交互协作增强,交换重要的视觉信息,实现更好的视觉表达。
在步骤1)中,所述采用目标检测器同时提取图像的网格特征和区域特征的具体方法可为:
(1)使用Faster-RCNN作为目标检测器,在Visual Genome数据集上进行目标检测和属性预测训练。
(2)将目标检测器检测出的置信度大于20%的检测框中对应的图像特征提取出来作为区域特征,将目标检测器骨干网络提取出的特征作为网格特征。
在步骤2)中,所述绝对位置信息为网格特征或区域特征在整张图片中的位置;所述相对位置信息可先将网格特征和区域特征的几何信息都表示为矩形框(x,y,w,h),其中(x,y)为框的左上角坐标,w,h为框的宽度和高度;然后将两个框boxi和boxj的相对关系表示为一个4维向量:
Figure BDA0002924713340000021
得到4维相对编码向量之后,使用PE函数将其也映射为dmodel维;
所述特征自增强,可在得到绝对位置编码和相对位置编码后,使用Transformer模型进行特征自增强。
在步骤3)中,所述利用特征间的几何对齐关系,让两种特征进行交互增强,交换重要的视觉信息,实现更好的视觉表达的具体步骤可为:
(1)根据区域特征和网格特征的位置信息构建几何对齐图。
(2)根据几何对齐图进行视觉信息交互和增强。
本发明具有以下突出优点:
1、本发明克服单源特征的局限性和缺点,首次考虑了多源特征的互补性,不仅考虑了各类特征内部的自我强化,而且考虑了特征之间的协同促进,构建一种多源协同特征的图像描述生成方法,设计实现了模型,得到了更加准确和精细的高质量图像描述文本。
2、本发明充分利用特征位置的元信息,且具体考虑了特征本身的绝对位置信息并具体建模了特征之间的相对位置信息,更进一步地帮助模型理解特征的内在属性以及相互之间的关系。
3、本发明设计一种轻量级的特征间交互的方法,通过不同类特征之间的几何位置信息进行更加高效和轻量级的信息交互。
附图说明
图1为本发明实施例的总体框架图。
图2为本发明实施例的特征自增强模块结构示意图。
图3为本发明实施例的特征协作增强模块结构示意图。
图4为本发明实施例的特征几何对齐图。
具体实施方式
以下实施例将结合附图对本发明作进一步的说明。
本发明提出的具有一种基于多源协同特征的图像描述生成方法的工作,整体框架如图1所示,具体包括以下几个方面:
1)图像特征提取。使用Faster-RCNN作为目标检测器,在Faster-RCNN目标检测器的基础上,合并第5个卷积模块到目标检测骨干网络中,在目标检测头网络中使用1x1的兴趣区域池化(RoI Pooling)方法,并使用两个全连接层作为目标检测器的检测头,在VisualGenome数据集上进行目标检测和属性预测训练。对于一张图片,使用训练得到的网络,计算到第5个卷积模块结束后得到特征图,然后平均池化为7x7的网格特征。对于区域特征,将目标检测器检测出的置信度大于20%的检测框中对应的图像特征提取出来作为区域特征,当区域特征不足10个时,提取置信度前10的检测结果,并设置区域特征的最大数量为100,即每张图片最多拥有100个区域特征。从而对于每张图片,可以得到7x7=49个网格特征以及10~100个区域特征。
2)特征自增强,模块结构如图2所示。特征自增强模块的目的是让网格特征和区域特征通过各自内部的交互来增强特征表达,在这个过程中,使用绝对位置信息和相对位置信息,建立一个综合关系注意力机制(CRA)辅助模型进行特征理解和关系建模。
绝对位置信息即网格特征或区域特征在整张图片中的位置,对于网格特征,可以使用一个二维坐标(i,j)来表示其绝对位置,为了将坐标输入到神经网络中,通过GPE函数将2维的坐标映射成一个高维的向量:
GPE(i,j)=[PEi;PEj] (1)
其中,
Figure BDA0002924713340000041
dmodel为神经网络的中间层特征维数:
Figure BDA0002924713340000042
Figure BDA0002924713340000043
其中,pos代表位置(即i或j),k代表维度。对于区域特征,通过一个线性映射RPE将其对应的矩形框(xmin,ymin,xmax,ymax)映射为一个高维向量:
RPE(i)=BiWemb (4)
其中,i是区域特征的下标,(xmin,ymin)是特征的左上角坐标,(xmax,ymax)是特征的右上角坐标,
Figure BDA0002924713340000044
是可学习的参数矩阵。
为了更好地融合相对位置信息,根据基于几何信息加入了相对位置信息,为此,先将网格特征和区域特征的几何信息都表示为矩形框(x,y,w,h),其中(x,y)为框的左上角坐标,w,h为框的宽度和高度。然后将两个框boxi和boxj的相对关系表示为一个4维向量:
Figure BDA0002924713340000045
得到4维相对编码向量之后,使用PE函数将其也映射为dmodel维,以便输入到后续模块中。
绝对位置编码和相对位置编码得到后,使用Transformer模型进行特征自增强,具体的,在Transformer模型中,有:
MHCRA(Q,K,V)=Concat(head1,...,headh)WO (6)
Figure BDA0002924713340000051
Figure BDA0002924713340000052
确定了综合关系注意力机制(CRA)计算方法之后,就可以进行特征的自增强步骤,记第l层的网格特征和区域特征分别为
Figure BDA0002924713340000053
以及
Figure BDA0002924713340000054
则:
Figure BDA0002924713340000055
Figure BDA0002924713340000056
其中,RPE和GPE分别是区域特征和网格特征的绝对位置编码,Ω**是两者的相对位置编码。随后使用两层前向传播网络FFN作为中间映射:
Figure BDA0002924713340000057
Figure BDA0002924713340000058
以上是特征自增强模块,自增强完成后,两路特征进入下一个模块,进行特征协作增强;
3)特征协作增强,模块结构如图3所示。特征协作增强模块的目的是建模两种不同特征之间的交互来增强特征表达为了更加高效地进行两种特征的交互,首先构建一个几何对齐图,G=(V,E),如图4所示,在这张几何图中,所有的区域特征和网格特征都是独立的结点,构成结点集合V,对于边集合E,一个区域特征结点和一个网格特征结点之间有一条边,当且仅当它们在几何上相交,特征协作增强模块中,使用了多头的交叉注意力机制(MHLCCA);
MHLCCA(Q,K,V)=Concat(head1,...,headh)WO (13)
Figure BDA0002924713340000059
Figure BDA00029247133400000510
其中,graph-softmax操作基于图G,对于每个结点,仅对所有与其相连的结点进行归一化操作,并将无连接的结点的权值置零;对于特征自增强模块的第l个输出
Figure BDA00029247133400000511
特征协作增强模块计算:
Figure BDA00029247133400000512
Figure BDA00029247133400000513
其中,Ωrggr是区域特征和网格特征之间的相对位置信息。将区域特征嵌入网格特征中,反之亦然,以增强两种特征。具体地说,网格特征关注区域特征以获取高级对象信息,而区域特征关注网格特征以补充细节信息。然后通过两个FFN层,得到该层的输出:
Figure BDA0002924713340000061
Figure BDA0002924713340000062
特征自增强和协同增强模块交替作用3次,最后得到特征输入到语言生成模块中。
4)语言生成模块。语言生成模块在给定增强的特征
Figure BDA0002924713340000063
以及之前生成的部分句子{w1,w2,...,wi},来生成下一个词wi+1,首先,句子的已生成部分通过词嵌入方法映射为dmodel维向量,按行排列并结合下一个位置的占位向量得到矩阵
Figure BDA0002924713340000064
然后进行自注意力模块:
MHSA(Q,K,V)=Concat(head1,...,headh)WO (20)
Figure BDA0002924713340000065
Figure BDA0002924713340000066
其中,
Figure BDA0002924713340000067
都是可学习的参数,pos*是词的位置编码。对于第l层的输出H(l),语言生成模块计算:
M(l)=MHSA(H(l)) (23)
H(l+1)=FFN(M(l)) (24)
第i+1个词最终预测为:
Figure BDA0002924713340000068
5)损失函数。整个模型分为两阶段训练,第一阶段损失函数为:
Figure BDA0002924713340000069
即每个词预测的概率,第二阶段的损失函数为:
Figure BDA00029247133400000610
为强化学习的Reinforce损失,其中,r表示CIDEr,b表示baseline,k为集束搜索大小。
具体实施结果如下:
在基准图像字幕数据集COCO上进行了实验。这个数据集包含123287张图片,每个图片都有5个不同的注释。对于数据划分,遵循广泛采用的Karpathy分割法,113287、5000、5000张图像分别用于训练、验证和测试。将dmodel设置为512,头的数量设置为8。编码器和解码器的层数都设置为3。在训练第一阶段,将模型预热4轮,学习率线性增加到1×10-4。然后在5~10轮之间将学习率设置为1×10-4,在11~12之间设置为2×10-5,之后设置为4×10-6。批大小设置为50。在18个时代的XE预训练阶段之后,开始用Cider优化模型,学习率为5×10-6,批大小为100个。在两个阶段都使用Adam优化器,集束搜索宽度为5。遵循标准评估流程,利用BLEU@N,METEOR,ROUGE-L,CIDEr,和SPICE来评估模型。
表1
Model B-1 B-4 M R C S
SCST(ResNet-101) - 34.2 26.7 57.7 114 -
Up-Down(ResNet-101) 79.8 36.3 27.7 56.9 120.1 21.4
HAN(ResNet-101) 80.9 37.6 27.8 58.1 121.7 21.5
GCN-LSTM(ResNet-101) 80.5 38.2 28.5 58.5 128.3 22
SGAE(ResNet-101) 80.8 38.4 28.4 58.6 127.8 22.1
ORT(ResNet-101) 80.5 38.6 28.7 58.4 127.8 22.1
AoA(ResNet-101) 80.2 38.9 29.2 58.8 129.8 22.4
M2(ResNet-101) 80.8 39.1 29.2 58.6 131.2 22.6
X-Transformer(SENet-154) 80.9 39.7 29.5 59.1 132.8 23.4
Ours(ResNeXt-101)141 2 81.4 39.8 29.5 59.1 133.8 23
图像描述最终测试结果如表1所示。

Claims (4)

1.一种基于多源协同特征的图像描述生成方法,其特征在于包括以下步骤:
1)采用目标检测器同时提取图像的网格特征和区域特征;
2)利用特征的绝对位置信息和相对位置信息,建立一个综合关系注意力机制辅助模型进行特征理解和关系建模,辅助模型进行特征理解和两种特征自增强;
3)利用特征间的几何对齐关系,让两种特征进行交互协作增强,交换重要的视觉信息,实现更好的视觉表达。
2.如权利要求1所述一种基于多源协同特征的图像描述生成方法,其特征在于在步骤1)中,所述采用目标检测器同时提取图像的网格特征和区域特征的具体方法为:
(1)使用Faster-RCNN作为目标检测器,在Visual Genome数据集上进行目标检测和属性预测训练;
(2)将目标检测器检测出的置信度大于20%的检测框中对应的图像特征提取出来作为区域特征,将目标检测器骨干网络提取出的特征作为网格特征。
3.如权利要求1所述一种基于多源协同特征的图像描述生成方法,其特征在于在步骤2)中,所述绝对位置信息为网格特征或区域特征在整张图片中的位置;所述相对位置信息是先将网格特征和区域特征的几何信息都表示为矩形框(x,y,w,h),其中(x,y)为框的左上角坐标,w,h为框的宽度和高度;然后将两个框boxi和boxj的相对关系表示为一个4维向量:
Figure FDA0002924713330000011
得到4维相对编码向量之后,使用PE函数将其也映射为dmodel维;
所述特征自增强,可在得到绝对位置编码和相对位置编码后,使用Transformer模型进行特征自增强。
4.如权利要求1所述一种基于多源协同特征的图像描述生成方法,其特征在于在步骤3)中,所述利用特征间的几何对齐关系,让两种特征进行交互增强,交换重要的视觉信息,实现更好的视觉表达的具体步骤为:
(1)根据区域特征和网格特征的位置信息构建几何对齐图;
(2)根据几何对齐图进行视觉信息交互和增强。
CN202110128180.1A 2021-01-29 2021-01-29 一种基于多源协同特征的图像描述生成方法 Active CN112819012B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110128180.1A CN112819012B (zh) 2021-01-29 2021-01-29 一种基于多源协同特征的图像描述生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110128180.1A CN112819012B (zh) 2021-01-29 2021-01-29 一种基于多源协同特征的图像描述生成方法

Publications (2)

Publication Number Publication Date
CN112819012A true CN112819012A (zh) 2021-05-18
CN112819012B CN112819012B (zh) 2022-05-03

Family

ID=75858380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110128180.1A Active CN112819012B (zh) 2021-01-29 2021-01-29 一种基于多源协同特征的图像描述生成方法

Country Status (1)

Country Link
CN (1) CN112819012B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378919A (zh) * 2021-06-09 2021-09-10 重庆师范大学 融合视觉常识和增强多层全局特征的图像描述生成方法
WO2023241272A1 (zh) * 2022-06-13 2023-12-21 华能澜沧江水电股份有限公司 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737243A (zh) * 2011-03-31 2012-10-17 富士通株式会社 获取多幅图像的描述信息的方法及装置与图像匹配方法
CN110717498A (zh) * 2019-09-16 2020-01-21 腾讯科技(深圳)有限公司 图像描述生成方法、装置及电子设备
CN111144553A (zh) * 2019-12-28 2020-05-12 北京工业大学 一种基于时空记忆注意力的图像描述方法
CN111523534A (zh) * 2020-03-31 2020-08-11 华东师范大学 一种图像描述的方法
CN111612103A (zh) * 2020-06-23 2020-09-01 中国人民解放军国防科技大学 结合抽象语义表示的图像描述生成方法、***及介质
CN111737511A (zh) * 2020-06-17 2020-10-02 南强智视(厦门)科技有限公司 基于自适应局部概念嵌入的图像描述方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737243A (zh) * 2011-03-31 2012-10-17 富士通株式会社 获取多幅图像的描述信息的方法及装置与图像匹配方法
CN110717498A (zh) * 2019-09-16 2020-01-21 腾讯科技(深圳)有限公司 图像描述生成方法、装置及电子设备
CN111144553A (zh) * 2019-12-28 2020-05-12 北京工业大学 一种基于时空记忆注意力的图像描述方法
CN111523534A (zh) * 2020-03-31 2020-08-11 华东师范大学 一种图像描述的方法
CN111737511A (zh) * 2020-06-17 2020-10-02 南强智视(厦门)科技有限公司 基于自适应局部概念嵌入的图像描述方法
CN111612103A (zh) * 2020-06-23 2020-09-01 中国人民解放军国防科技大学 结合抽象语义表示的图像描述生成方法、***及介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YUNPENG LUO ET AL.: "dual-level collaborative transformer for image captioning", 《ARXIV》 *
ZONGJIAN ZHANG ET AL.: "High-Quality Image Captioning With Fine-Grained and Semantic-Guided Visual Attention", 《IEEE TRANSACTIONS ON MULTIMEDIA》 *
苗益 等: "图像描述技术综述", 《计算机科学》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378919A (zh) * 2021-06-09 2021-09-10 重庆师范大学 融合视觉常识和增强多层全局特征的图像描述生成方法
WO2023241272A1 (zh) * 2022-06-13 2023-12-21 华能澜沧江水电股份有限公司 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法

Also Published As

Publication number Publication date
CN112819012B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
Zhou et al. Contextual ensemble network for semantic segmentation
Lee et al. Deep architecture with cross guidance between single image and sparse lidar data for depth completion
CN108334830A (zh) 一种基于目标语义和深度外观特征融合的场景识别方法
CN110827312B (zh) 一种基于协同视觉注意力神经网络的学习方法
CN112819012B (zh) 一种基于多源协同特征的图像描述生成方法
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
Qiu et al. Hallucinating visual instances in total absentia
CN115240121B (zh) 一种用于增强行人局部特征的联合建模方法和装置
CN111368637A (zh) 一种基于多掩模卷积神经网络的搬运机器人识别目标方法
Huang et al. ORDNet: Capturing omni-range dependencies for scene parsing
CN117974988B (zh) 一种轻量化目标检测方法、装置、计算机程序产品
Wang et al. KTN: Knowledge transfer network for learning multiperson 2D-3D correspondences
Jiang et al. Tabcellnet: Deep learning-based tabular cell structure detection
Zhou et al. Context-aware 3D object detection from a single image in autonomous driving
Shen et al. ImLiDAR: cross-sensor dynamic message propagation network for 3D object detection
Zhou et al. Lrfnet: an occlusion robust fusion network for semantic segmentation with light field
Wang et al. Generative data augmentation by conditional inpainting for multi-class object detection in infrared images
Wang et al. An Improved Convolutional Neural Network‐Based Scene Image Recognition Method
Zheng et al. Modular graph attention network for complex visual relational reasoning
Lyu et al. Deep semantic feature matching using confidential correspondence consistency
Lyu et al. Weakly supervised object-aware convolutional neural networks for semantic feature matching
Zhou et al. Image semantic segmentation with finer edges and complete parts from bounding box annotations
Wei et al. Wall segmentation in house plans: fusion of deep learning and traditional methods
Cheng et al. Dual attention-guided self-adaptive aware cascade network for multi-view stereo and stereo matching
Chen et al. Monocular 3D Object Detection Utilizing Auxiliary Learning With Deformable Convolution

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant