CN112464016A - 一种基于深度关系自注意力网络的场景图生成方法 - Google Patents
一种基于深度关系自注意力网络的场景图生成方法 Download PDFInfo
- Publication number
- CN112464016A CN112464016A CN202011500013.7A CN202011500013A CN112464016A CN 112464016 A CN112464016 A CN 112464016A CN 202011500013 A CN202011500013 A CN 202011500013A CN 112464016 A CN112464016 A CN 112464016A
- Authority
- CN
- China
- Prior art keywords
- features
- candidate
- relation
- feature
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/587—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/268—Lexical context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度关系自注意力网络的场景图生成方法。本发明步骤如下:1、数据预处理及数据集的划分,2、使用预训练的目标检测网络对图像提取特征,3、构建目标的空间特征,4、构建目标的语言特征,5、构建相对关系特征,6、构建深度神经网络,7、损失函数,8、训练模型、9、网络预测值计算。本发明用于同时建模目标上下文和关系上下文的RSAN网络在场景图生成的任务上取得了显著性的提升效果,超越了该任务上的大部分主流方法。并且本发明的RSAN网络在其他跨模态相关领域中如图像内容问答和视觉关系检测中也具有十分重要的应用价值和巨大的潜力。
Description
技术领域
本发明提出一种基于深度关系自注意力网络(Relational Self-AttentionNetworks)的场景图生成方法(Scene Graph Generation)。
背景技术
场景图生成是一项多媒体领域的新兴任务,该任务旨在建模目标和目标之间关系的上下文信息,并生成图像对应的场景图。具体来讲是输入一张图片,通过模型后生成这个图像抽象出来的场景图,场景图中包含结点和边信息,结点和边分别表示目标和目标间的关系。例如,图像内容为一个带着帽子的人提着木桶在喂马,其中可能包含有“人戴着眼镜”、“人喂马”、“人提着木桶”、“马从木桶中吃食物”、“人站在地上”等语义信息。当给出一个图像时,场景图生成模型需要根据图像的语义信息生成该图像对应的场景图。为了得到更准确的预测,机器需要深入理解图像的内容,并在此基础上对目标上下文信息和目标之间的关系上下文信息进行融合以最大程度地挖掘目标之间的关系。对比单纯的关系检测,场景图可以被理解为具有同时建模目标上下文信息和关系上下文信息的任务,如何同时建模好它们的上下文信息,并利用好上下文信息进行场景图生成也是研究场景图领域的关键。
深度学习自2006年产生之后就受到科研机构、工业界的高度关注,发展至今已收获诸多优秀的网络模型和各种有效的训练方法。目标检测的丰富研究支撑起场景图的研究,使得场景图相关任务逐渐成为一个主流研究方向。同时场景图更符合真实的生活场景,具有丰富的研究意义和实际价值。场景图作为近几年来逐渐兴起的研究媒体,结合语义信息预测,形成了图像语义信息理解的研究方向,其中场景图生成是其中一个较为丰富的方向,在目标检测的同时完成场景图生成,让计算机根据输入的图像自动预测出包含丰富语义关系的场景图是一个值得深入探索的研究问题。
多年来,在图像研究领域中已经认识到理解场景图的重要性,并尝试挖掘图像中丰富的上下文信息。在场景图生成任务中,主要的模型分为两类,一类是基于卷积神经网络的模型,一类是基于循环神经网络的模型,也有部分研究开始注意到基于注意力机制的模型。由于场景图生成需要建立在对目标上下文信息和关系上下文信息的充分利用的基础上,无论是目标上下文信息或者关系上下文信息,都存在更多值得挖掘的有效信息,对上下文信息的建模无疑有助于加深场景图的理解进而增强最终场景图生成的表达能力。
在实际应用方面,场景图生成算法具有广泛的应用场景。在娱乐场景下,如用户输入一张图片,机器就能生成这个图片对应的场景图,便于用户更加深入理解的图片场景。在银行***中,在根据大量用户的消费记录及信用记录,建立用户和用户之间的关系,预测某类用户贷款还款能力以及银行贷款风险,在一定的准确度下,可大大节省人力及时间成本,具有十分良好的研究前景及重要的研究意义。
综上所述,场景图生成是一个值得深入研究的课题,本专利拟从该任务中几个关键点切入展开探讨,解决目前方法存在的难点和重点,形成一套完整的场景图生成***。
场景图的标签一般来自不同的标注者,具有较高的自由度,不具备统一固定的语义信息。同时,自然场景下的图片载体主题多样,内容复杂富于变化,目标与目标间可能具有较高的差异性,而这使得场景图生成面临巨大的挑战。具体而言,主要存在如下两方面的难点:
(1)如何对目标上下文信息进行有效建模:目标和目标之间一般具有较高的差异性,该问题主要是通过注意力机制进行处理,得到有效的目标上下文特征表达。建模有效的富含上下文信息的目标特征一直是场景图领域中一个必不可少的环节,通过注意力机制特征建模将目标和所有其他的目标之间的信息进行交互,得到可有效表达目标上下文的特征,参与场景图生成的结果预测。基于深度学习理论提出了一系列的建模目标上下文信息的方法包括循环神经网络、卷积神经网络和基于此的注意力机制等。因此,如何让算法自动学习到目标和其他目标之间的关系,并生成更有效的目标上下文的表达特征,是场景图生成算法中的难点,也是影响结果性能的根本原因。
(2)如何对场景图语义信息更加深层次的进行建模,以更好获得丰富的上下文信息:大部分的方法是分开建模目标上下文信息和关系上下文信息,并且没有对建模上下文信息的网络进行深度堆叠处理,该方式可能会出现的问题是不能很好的有效的建模目标上下文信息和关系上下文信息,因为目标上下文信息和关系上下文信息是相互影响的,所以我们这里采用的是同时建模目标上下文信息和关系上下文信息,并且通过将网络深度堆叠来获得更丰富的上下文信息。由于上下文信息对场景图的正确生成尤为重要,因此该任务对上下文信息的有效性更加敏感,对上下文信息的建模依赖性更高。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于注意力机制的场景图生成方法。本发明主要包含两点:
1、将目标上下文信息和关系上下文信息的特征同时进行建模,充分发掘上下文的信息,并引入相对空间关系特征,得到更有效的上下文信息。
2、提出深层的关系注意力方法,将网络通过深度堆叠来更好的对上下文信息进行充分建模,充分理解场景图的上下文信息和目标相关性,得到包含目标上下文信息和关系上下文信息的有效表达。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤(1)、数据集的预处理及划分
首先对数据集中的图像进行预处理,然后划分数据集;
步骤(2):使用训练好的目标检测网络(FasterRCNN)对预处理后的数据集中图像提取特征;
对于一张输入图像,使用训练好的目标检测网络计算出图像中包含物体的m个候选框;针对每一个候选框,将该候选框在图像中对应的区域输入到目标检测网络中,并提取目标检测网络中某一层的输出作为该候选框的视觉特征将一张图像中所有候选框的特征拼接成总体视觉特征 表示自然实数集,dv代表候选框的特征维度;
步骤(3):构建候选框的空间特征
步骤(4):构建候选框的语言特征
步骤(5):构建相对关系特征
步骤(6):构建深度神经网络
将图像的视觉特征V、位置特征S、语言特征L拼接成最终的图像特征将该图像特征输入到深度神经网络,结合相对关系特征F,根据自注意力机制将图像特征和相对关系特征F一起映射到隐藏特征空间,产生特征向量最后将图像特征Z输入到全连接函数及激活函数中,输出的预测值是m个候选框的分类分数向量同时预测m×m对候选框之间的关系分类分数向量
步骤(7):损失函数
将步骤(6)中输出的两个预测的分类分数向量和关系分类分数向量分别同对应的标签向量一起输入到相应的损失函数中,并分别输出两个损失值;
所述的标签向量是步骤(1)数据集自带;
步骤(8):训练深度神经网络模型
根据步骤(7)中的损失函数产生的损失值,利用反向传播算法对步骤(6)中构建的深度神经网络的模型参数进行梯度回传,不断优化,直至整个网络模型收敛;
步骤(9):深度神经网络模预测值计算
将候选框的分类分数向量进行排序,选择最高分数对应的分类作为其预测分类;将候选框的关系分类分数向量进行排序,选择最高分数对应的关系作为其关系分类。
进一步的,步骤(1)具体实现如下:
剔除一些低质量的图片数据,并且使用最常见的150个目标类别和50个关系类别;还有数据集的划分,将数据集中70%的数据用于训练,剩下的30%用于测试。
进一步的,步骤(2)所述的用目标检测网络对图像提取特征,具体如下:
V=[υ1,υ2,...,υi,...,υm] (公式1)。
进一步的,步骤(3)所述的构建目标的空间特征,具体如下:
每个候选框的空间位置坐标为(xmin,ymin,xmax,ymax),(xmin,ymin)表示候选框的左上角点的位置坐标,(xmax,ymax)表示候选框的右下角点的位置坐标,每个候选框的空间特征s公式如下:
其中,W、H表示图像的宽和高;w、h表示对应的候选框的宽和高;
S=[s1,s2,...,si,...,sm] (公式3)。
进一步的,步骤(4)所述的构建目标的语言特征,具体如下:
L=[l1,l2,...,li,...,lm] (公式4)。
进一步的,步骤(5)所述的构建相对关系特征,具体如下:
由于候选框的空间特征建模了单个候选框的位置信息,因此通过任意两个候选框之间的相对位置信息进行建模生成关系特征将第i个候选框的空间位置定义为(xi,yi,wi,hi),该四维坐标分别表示候选框的中心点横坐标、纵坐标、宽、高;第i个候选框和第j个候选框之间的关系特征定义为:
进一步的,步骤(6)所述的构建深度神经网络,具体如下:
6-1.融合视觉特征、空间特征、语言特征;
Z=[V,S,L] (公式7)
6-2.构建关系自注意力网络(RSA)
X=Linear(Z) (公式8)
B′=LN(X+RMHA(X,X,X,F)) (公式9)
B=LN(B′+FFN(B′)) (公式10)
Q=Linear(X) (公式11)
K=Linear(X) (公式12)
V=Linear(X) (公式13)
其中,FFN结构,输入是上下文信息特征向量B′,公式如下:
FFN(B′)=FCd(Drop(ReLU(FC4d(B′)))) (公式15)
其中,LN是归一化函数;
6-3.深度堆叠RSA网络
以融合特征Z和关系特征F作为深度堆叠RSA网络[RSA(1),RSA(2),...,RSA(N)]的输入;将第n层RSA(n)的输出特征Z(n)和关系特征F作为第n+1层RSA(n+1)的输入,迭代往复,公式如下:
Z(n)=RSA(n)(Z(n-1),F) (公式16)
其中,Z(0)=Z,对不同层的RSA,关系特征F保持不变;
6-4.候选框分类优化
O=Linear(Z(n)) (公式17)
6-5.多头注意力关系预测
将输出特征Z(n)作为输入,经过全连接层映射输出单头pj,公式如下:
pj=Linear(Z(n))Linear(Z(n))T (公式18)
P=([p1,p2,...,pj,...,phead]+MLP(F))Wr (公式19)
进一步的,步骤(7)所述的损失函数,具体如下:
7-1.计算候选框预测分类分数oi与真实标签oi *之间的差距,使用交叉熵计算如下:
7-2.计算候选框的预测关系分类分数与标签向量中真实值之间的差距,使用交叉熵计算如下:
7-3.深度神经网络的总损失,具体公式如下:
Loss=Lossobj+λLossrel (公式23)
本发明有益效果如下:
本发明核心方法为提出深层关系自注意力网络(RSAN),用来对目标上下文信息和目标间的关系上下文信息的有效建模,并在场景图生成这一深度学习任务中验证该模型的优越性。本方法首次提出在对目标上下文信息和目标间关系上下文信息进行建模,由此得到的上下文信息不仅获得了目标间的上下文信息,同时建立了关系间的上下文信息的深层次理解和交互。在RSAN模型表现优异的前提下,本发明进一步地提出深度关系自注意力机制的方法,该方法将自注意力机制延伸到场景图生成,不再局限于机器翻译等应用。实验中将图像的目标特征和相对关系特征输入RSAN模型,在RSAN模型中完成了目标和关系上下文信息的深层理解和交互,进而得到了更好的实验结果,这证明了该方法的普适通用性,可在其他关系推理的任务中充分发挥价值。
本发明所提出的一种算法,尤其是用于同时建模目标上下文和关系上下文的RSAN网络在场景图生成的任务上取得了显著性的提升效果,超越了该任务上的大部分主流方法。并且本发明的RSAN网络在其他跨模态相关领域中如图像内容问答和视觉关系检测中也具有十分重要的应用价值和巨大的潜力。
附图说明
图1:关系自注意力模块
图2:关系自注意力网络架构(RSAN)
具体实施方式
下面对本发明的详细参数做进一步具体说明。
如图1、2所示,本发明提供一种基于深度关系自注意力网络的场景图生成方法。
步骤(1)具体实现如下:
剔除一些低质量的图片数据,并且使用最常见的150个目标类别和50个关系类别;还有数据集的划分,将数据集中70%的数据用于训练,剩下的30%用于测试。
步骤(2)所述使用训练好的目标检测网络对图像提取特征,具体如下:
步骤(3)所述根据目标的空间位置坐标来构建空间特征,具体如下:
每个回归框的空间位置坐标为(xmin,ymin,xmax,ymax),(xmin,ymin)表示目标框的左上角点的位置坐标,(xmax,ymax)表示目标框的右下角点的位置坐标。
步骤(4)所述构建目标语言特征,具体如下:
步骤(5)所述的构建相对关系特征,具体如下:
步骤(6)所述的构建深度神经网络,具体如下:
6-1.融合视觉特征、空间特征、语言特征;
6-2.构建关系自注意力网络(RSA)
6-3.深度堆叠RSA网络
以融合后的特征Z和关系特征F作为输入,深度堆叠RSA网络[RSA(1),RSA(2),...,RSA(n)],这里的n可以取1,2,3,4。将第n层RSA(n)的输出特征和关系特征F作为第n+1层RSA(n +1)的输入,迭代往复.
其中,Z(0)=Z,对不同层的RSA,关系特征F保持不变。
6-4.目标分类优化
6-5.多头注意力关系预测
将6-3.的输出Z(n)作为输入,经过全连接层输出单头pj。
步骤(7)所述的损失函数,具体如下:
7-1.计算目标预测分类分数oi与真实标签oi *之间的差距,这里使用交叉熵(softmax cross entropy)。
7-2.计算目标关系对的预测分数与真实值之间的差距,这里使用交叉熵(sigmoidcross entropy)。
7-3.模型总损失,具体公式如下:
Loss=Lossobj+λLossrel (公式18)
其中,λ是用来平衡两个损失值的超参数,可以取0.1、1、10或100。
步骤(8)所述的训练模型,具体如下:
根据步骤(7)中的损失函数产生的损失值利用反向传播算法对步骤(6)中神经网络的模型参数进行梯度回传,不断优化,直至整个网络模型收敛。
步骤(9)所述网络预测值,具体如下:
9-1.根据步骤(6)的6-4输出的候选框的分类分数向量O进行排序,选择最高分数对应的分类作为其预测分类;。
9-2.根据步骤(6)的6-5输出的候选框的关系分类分数向量P进行排序,选择最高分数对应的关系作为其关系分类。。
Claims (7)
1.一种基于深度关系自注意力网络的场景图生成方法,其特征在于包括如下步骤:
步骤(1)、数据集的预处理及划分
首先对数据集中的图像进行预处理,然后划分数据集;
步骤(2):使用训练好的目标检测网络对预处理后的数据集中图像提取特征;
对于一张输入图像,使用训练好的目标检测网络计算出图像中包含物体的m个候选框;针对每一个候选框,将该候选框在图像中对应的区域输入到目标检测网络中,并提取目标检测网络中某一层的输出作为该候选框的视觉特征将一张图像中所有候选框的特征拼接成总体视觉特征 表示自然实数集,dv代表候选框的特征维度;
步骤(3):构建候选框的空间特征
步骤(4):构建候选框的语言特征
步骤(5):构建相对关系特征
步骤(6):构建深度神经网络
将图像的视觉特征V、位置特征语言特征L拼接成最终的图像特征将该图像特征输入到深度神经网络,结合相对关系特征F,根据自注意力机制将图像特征和相对关系特征F一起映射到隐藏特征空间,产生特征向量最后将图像特征Z输入到全连接函数及激活函数中,输出的预测值是m个候选框的分类分数向量同时预测m×m对候选框之间的关系分类分数向量
步骤(7):损失函数
将步骤(6)中输出的两个预测的分类分数向量和关系分类分数向量分别同对应的标签向量一起输入到相应的损失函数中,并分别输出两个损失值;
所述的标签向量是步骤(1)数据集自带;
步骤(8):训练深度神经网络模型
根据步骤(7)中的损失函数产生的损失值,利用反向传播算法对步骤(6)中构建的深度神经网络的模型参数进行梯度回传,不断优化,直至整个网络模型收敛;
步骤(9):深度神经网络模预测值计算
将候选框的分类分数向量进行排序,选择最高分数对应的分类作为其预测分类;将候选框的关系分类分数向量进行排序,选择最高分数对应的关系作为其关系分类。
6.根据权利要求书5所述的一种基于深度关系自注意力网络的场景图生成方法,其特征在于步骤(6)所述的构建深度神经网络,具体如下:
6-1.融合视觉特征、空间特征、语言特征;
Z=[V,S,L] (公式7)
6-2.构建关系自注意力网络(RSA)
X=Linear(Z) (公式8)
B′=LN(X+RMHA(X,X,X,F)) (公式9)
B=LN(B′+FFN(B′)) (公式10)
Q=Linear(X) (公式11)
K=Linear(X) (公式12)
V=Linear(X) (公式13)
其中,FFN结构,输入是上下文信息特征向量B′,公式如下:
FFN(B′)=FCd(Drop(ReLU(FC4d(B′)))) (公式15)
其中,LN是归一化函数;
6-3.深度堆叠RSA网络
以融合特征Z和关系特征F作为深度堆叠RSA网络
[RSA(1),RSA(2),...,RSA(N)]的输入;将第n层RSA(n)的输出特征Z(n)和关系特征F作为第n+1层RSA(n+1)的输入,迭代往复,公式如下:
Z(n)=RSA(n)(Z(n-1),F) (公式16)
其中,Z(0)=Z,对不同层的RSA,关系特征F保持不变;
6-4.候选框分类优化
O=Linear(Z(n)) (公式17)
6-5.多头注意力关系预测
将输出特征Z(n)作为输入,经过全连接层映射输出单头pj,公式如下:
pj=Linear(Z(n))Linear(Z(n))T (公式18)
P=([p1,p2,...,pj,...,phead]+MLP(F))Wr (公式19)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011500013.7A CN112464016B (zh) | 2020-12-17 | 2020-12-17 | 一种基于深度关系自注意力网络的场景图生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011500013.7A CN112464016B (zh) | 2020-12-17 | 2020-12-17 | 一种基于深度关系自注意力网络的场景图生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112464016A true CN112464016A (zh) | 2021-03-09 |
CN112464016B CN112464016B (zh) | 2022-04-01 |
Family
ID=74803638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011500013.7A Active CN112464016B (zh) | 2020-12-17 | 2020-12-17 | 一种基于深度关系自注意力网络的场景图生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112464016B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065587A (zh) * | 2021-03-23 | 2021-07-02 | 杭州电子科技大学 | 一种基于超关系学习网络的场景图生成方法 |
CN113344181A (zh) * | 2021-05-31 | 2021-09-03 | 北京市商汤科技开发有限公司 | 神经网络的结构搜索方法、装置、计算机设备及存储介质 |
CN113554129A (zh) * | 2021-09-22 | 2021-10-26 | 航天宏康智能科技(北京)有限公司 | 场景图的生成方法和生成装置 |
CN113627557A (zh) * | 2021-08-19 | 2021-11-09 | 电子科技大学 | 一种基于上下文图注意力机制的场景图生成方法 |
CN113689514A (zh) * | 2021-06-29 | 2021-11-23 | 杭州电子科技大学 | 一种面向主题的图像场景图生成方法 |
CN113792177A (zh) * | 2021-08-05 | 2021-12-14 | 杭州电子科技大学 | 基于知识引导深度注意力网络的场景文字视觉问答方法 |
CN114612767A (zh) * | 2022-03-11 | 2022-06-10 | 电子科技大学 | 一种基于场景图的图像理解与表达方法、***与存储介质 |
CN114708472A (zh) * | 2022-06-06 | 2022-07-05 | 浙江大学 | 面向ai实训的多模态数据集标注方法、装置及电子设备 |
CN116962196A (zh) * | 2023-06-08 | 2023-10-27 | 中国人民解放军国防科技大学 | 一种基于关系推理的机动通信网网络智能规划方法及*** |
CN118015522A (zh) * | 2024-03-22 | 2024-05-10 | 广东工业大学 | 用于视频场景图生成的时间过渡正则化方法和*** |
CN118229532A (zh) * | 2024-05-21 | 2024-06-21 | 华侨大学 | 一种基于复合Transformer的图像超分辨率方法及*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109582993A (zh) * | 2018-06-20 | 2019-04-05 | 长安大学 | 城市交通场景图像理解与多视角群智优化方法 |
CN109712108A (zh) * | 2018-11-05 | 2019-05-03 | 杭州电子科技大学 | 一种基于多样鉴别性候选框生成网络的针对视觉定位方法 |
CN110084128A (zh) * | 2019-03-29 | 2019-08-02 | 安徽艾睿思智能科技有限公司 | 基于语义空间约束和注意力机制的场景图生成方法 |
CN111275688A (zh) * | 2020-01-19 | 2020-06-12 | 合肥工业大学 | 基于注意力机制的上下文特征融合筛选的小目标检测方法 |
-
2020
- 2020-12-17 CN CN202011500013.7A patent/CN112464016B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109582993A (zh) * | 2018-06-20 | 2019-04-05 | 长安大学 | 城市交通场景图像理解与多视角群智优化方法 |
CN109712108A (zh) * | 2018-11-05 | 2019-05-03 | 杭州电子科技大学 | 一种基于多样鉴别性候选框生成网络的针对视觉定位方法 |
CN110084128A (zh) * | 2019-03-29 | 2019-08-02 | 安徽艾睿思智能科技有限公司 | 基于语义空间约束和注意力机制的场景图生成方法 |
CN111275688A (zh) * | 2020-01-19 | 2020-06-12 | 合肥工业大学 | 基于注意力机制的上下文特征融合筛选的小目标检测方法 |
Non-Patent Citations (2)
Title |
---|
NIKOLAOS GKANATSIOS等: ""Attention-Translation-Relation Network for Scalable Scene Graph Generation", 《2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION WORKSHOP(ICCVW)》 * |
黄勇韬等: ""结合注意力机制与特征融合的场景图生成模型"", 《计算机科学》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065587A (zh) * | 2021-03-23 | 2021-07-02 | 杭州电子科技大学 | 一种基于超关系学习网络的场景图生成方法 |
CN113344181B (zh) * | 2021-05-31 | 2022-10-18 | 北京市商汤科技开发有限公司 | 神经网络的结构搜索方法、装置、计算机设备及存储介质 |
CN113344181A (zh) * | 2021-05-31 | 2021-09-03 | 北京市商汤科技开发有限公司 | 神经网络的结构搜索方法、装置、计算机设备及存储介质 |
CN113689514B (zh) * | 2021-06-29 | 2024-04-09 | 杭州电子科技大学 | 一种面向主题的图像场景图生成方法 |
CN113689514A (zh) * | 2021-06-29 | 2021-11-23 | 杭州电子科技大学 | 一种面向主题的图像场景图生成方法 |
CN113792177B (zh) * | 2021-08-05 | 2023-02-03 | 杭州电子科技大学 | 基于知识引导深度注意力网络的场景文字视觉问答方法 |
CN113792177A (zh) * | 2021-08-05 | 2021-12-14 | 杭州电子科技大学 | 基于知识引导深度注意力网络的场景文字视觉问答方法 |
CN113627557A (zh) * | 2021-08-19 | 2021-11-09 | 电子科技大学 | 一种基于上下文图注意力机制的场景图生成方法 |
CN113627557B (zh) * | 2021-08-19 | 2023-10-03 | 电子科技大学 | 一种基于上下文图注意力机制的场景图生成方法 |
CN113554129B (zh) * | 2021-09-22 | 2021-12-10 | 航天宏康智能科技(北京)有限公司 | 场景图的生成方法和生成装置 |
CN113554129A (zh) * | 2021-09-22 | 2021-10-26 | 航天宏康智能科技(北京)有限公司 | 场景图的生成方法和生成装置 |
CN114612767A (zh) * | 2022-03-11 | 2022-06-10 | 电子科技大学 | 一种基于场景图的图像理解与表达方法、***与存储介质 |
CN114612767B (zh) * | 2022-03-11 | 2022-11-15 | 电子科技大学 | 一种基于场景图的图像理解与表达方法、***与存储介质 |
CN114708472A (zh) * | 2022-06-06 | 2022-07-05 | 浙江大学 | 面向ai实训的多模态数据集标注方法、装置及电子设备 |
CN114708472B (zh) * | 2022-06-06 | 2022-09-09 | 浙江大学 | 面向ai实训的多模态数据集标注方法、装置及电子设备 |
CN116962196A (zh) * | 2023-06-08 | 2023-10-27 | 中国人民解放军国防科技大学 | 一种基于关系推理的机动通信网网络智能规划方法及*** |
CN118015522A (zh) * | 2024-03-22 | 2024-05-10 | 广东工业大学 | 用于视频场景图生成的时间过渡正则化方法和*** |
CN118229532A (zh) * | 2024-05-21 | 2024-06-21 | 华侨大学 | 一种基于复合Transformer的图像超分辨率方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN112464016B (zh) | 2022-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112464016B (zh) | 一种基于深度关系自注意力网络的场景图生成方法 | |
CN112989927B (zh) | 一种基于自监督预训练的场景图生成方法 | |
Chen et al. | Structure-aware deep learning for product image classification | |
CN108427740B (zh) | 一种基于深度度量学习的图像情感分类与检索算法 | |
CN112380453B (zh) | 物品推荐方法、装置、存储介质及设备 | |
Chen et al. | AE-Net: Fine-grained sketch-based image retrieval via attention-enhanced network | |
CN111339818A (zh) | 一种人脸多属性识别*** | |
CN113191357A (zh) | 基于图注意力网络的多层次图像-文本匹配方法 | |
CN114298122A (zh) | 数据分类方法、装置、设备、存储介质及计算机程序产品 | |
CN111324773A (zh) | 一种背景音乐构建方法、装置、电子设备和存储介质 | |
CN115098675A (zh) | 一种基于多类别表格填充的情感三元组生成方法 | |
Lin et al. | PS-mixer: A polar-vector and strength-vector mixer model for multimodal sentiment analysis | |
CN114648031A (zh) | 基于双向lstm和多头注意力机制的文本方面级情感识别方法 | |
CN114358109A (zh) | 特征提取模型训练、样本检索方法、装置和计算机设备 | |
CN117556067B (zh) | 数据检索方法、装置、计算机设备和存储介质 | |
CN113657272B (zh) | 一种基于缺失数据补全的微视频分类方法及*** | |
Liang et al. | Attentional neural factorization machine for web services classification via exploring content and structural semantics | |
Ding et al. | Joint qos prediction for web services based on deep fusion of features | |
Bodria et al. | Explaining Black Box with Visual Exploration of Latent Space. | |
CN117312594A (zh) | 一种融合双尺度特征的草图化机械零件库检索方法 | |
Ou et al. | Improving person re-identification by multi-task learning | |
CN116340569A (zh) | 一种基于语义一致性的半监督短视频分类方法 | |
CN115439722A (zh) | 基于图像和属性图融合网络的三维cad模型检索方法 | |
CN115423016A (zh) | 多任务预测模型的训练方法、多任务预测方法及装置 | |
Wang et al. | Hierarchical multimodal fusion network with dynamic multi-task learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |