CN109726718A - 一种基于关系正则化的视觉场景图生成***及方法 - Google Patents

一种基于关系正则化的视觉场景图生成***及方法 Download PDF

Info

Publication number
CN109726718A
CN109726718A CN201910004817.9A CN201910004817A CN109726718A CN 109726718 A CN109726718 A CN 109726718A CN 201910004817 A CN201910004817 A CN 201910004817A CN 109726718 A CN109726718 A CN 109726718A
Authority
CN
China
Prior art keywords
relationship
regularization
label
feature
obtains
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910004817.9A
Other languages
English (en)
Other versions
CN109726718B (zh
Inventor
宋井宽
郭昱宇
高联丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910004817.9A priority Critical patent/CN109726718B/zh
Publication of CN109726718A publication Critical patent/CN109726718A/zh
Application granted granted Critical
Publication of CN109726718B publication Critical patent/CN109726718B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及视觉场景图生成技术,其公开了一种基于关系正则化的视觉场景图生成***及方法,快速有效地判断物体间是否存在关系,有利于增强物体检测模型的探测效果。该***,包括:物体检测器、物体标签精练器和物体关系生成器;通过物体检测器,探测图像中的物体,获得物体的标签、物体边框特征和联合边框特征;利用物体标签精练器对物体的标签进行精练,利用物体关系生成器获取物体之间的关系,生成最终的视觉场景图。本发明适用于视觉场景图的生成。

Description

一种基于关系正则化的视觉场景图生成***及方法
技术领域
本发明涉及视觉场景图生成技术,具体涉及一种基于关系正则化的视觉场景图生成***及方法。
背景技术
视觉场景图(Visual Scene Graph)是对图像内容的高度概括,它由一系列结点(图像中的实体)和边(实体与实体之间的关系)组成。视觉场景图生成任务是指输入一张图片,模型不仅要探测出图像所包含的物体(边框以及类别),还要探测出物体与物体之间的关系。
因为视觉场景图生成需要探测图像中包含的物体,所以大多数方法都使用了一个很有效的物体检测模型—Faster R-CNN去检测物体的边框以及类别。但是之前的工作都只是利用Faster R-CNN的检测结果再去判断物体间的关系,很少有人去考虑物体间的关系对物体检测的影响。而且之前的工作也揭示了一个现象:如果已知两物体间的确存在关系,那么判断具体是什么关系就会容易许多。所以如何判断物体间是否存在关系以及如何利用这种信息去增强模型的效果就成为了一个问题。
发明内容
本发明所要解决的技术问题是:提出一种基于关系正则化的视觉场景图生成***及方法,快速有效地判断物体间是否存在关系,有利于增强物体检测模型的探测效果。
本发明解决上述技术问题所采用的技术方案是:
基于关系正则化的视觉场景图生成***,包括:
物体检测器、物体标签精练器和物体关系生成器;
所述物体检测器,用于探测图像中的物体,获得物体的标签、物体边框特征和联合边框特征;
所述物体标签精练器,包括关系正则化的标签编码器和标签解码器;
所述关系正则化的标签编码器,用于编码物体检测器探测出的物体边框特征,获得全局特征,并基于全局特征获得关系仿射矩阵,融合物体间的仿射关系获得关系正则化的特征;所述标签解码器,用于基于关系正则化的标签编码器的输出来解码物体的标签,获得精练后的标签;
所述物体关系生成器,包括关系正则化的关系编码器和关系解码器;
所述关系正则化的关系编码器,用于编码标签解码器的输出,获得关系正则化的关系特征:所述关系解码器,对关系特征进行解码,获得物体间的关系。
作为进一步优化,所述关系正则化的标签编码器和关系正则化的关系编码器中均包括Bi-LSTMs网络以及GCNs网络;通过Bi-LSTMs网络来获取包含全局上下文信息的特征,再利用这种特征获取物体间的仿射关系来判断任意物体间存在关系的可能性;最后利用GCNs网络融合仿射关系来获得关系正则化的特征。
作为进一步优化,所述关系正则化的标签编码器采用拼接关系正则化的特征和全局特征作为输出。
此外,本发明还提供了一种基于关系正则化的视觉场景图生成方法,其包括:
a.探测物体:
探测图像中的物体,获得物体的标签、物体边框特征和联合边框特征;
b.对物体的标签进行精练:
编码探测出的物体边框特征,获得全局特征,并基于全局特征获得关系仿射矩阵,融合物体间的仿射关系获得关系正则化的特征;基于关系正则化的标签编码器的输出来解码物体的标签,获得精练后的标签;
c.获取物体间的关系:
编码标签解码器的输出,获得关系正则化的关系特征;对关系特征进行解码,获得物体间的关系。
作为进一步优化,步骤a中,采用基于ResNet101的Faster R-CNN网络探测图像中的物体,所述Faster R-CNN网络为在视觉基因数据集上预训练获得。
作为进一步优化,步骤b具体包括:
b1.采用带有高速连接的Bi-LSTM网络编码Faster R-CNN探测出的物体边框特征,获得全局特征H={h1,...,hN};hi表示物体i融合全局信息后的特征;
b2.基于全局特征H获得一个图的关系仿射矩阵表示物体i和物体j存在关系的可能性;
b3.通过两个全连接层将hi映射到一个主体空间和一个客体空间:
指两个全连接网络,分别表示映射到主体和客体空间后的特征;
b4.利用DistMult模型来构建仿射矩阵:
其中,为一个对角参数矩阵;是一个由主体i和客体j特化的偏差;σ是一个激活函数,能将输出映射到0至1;ui,j是指物体i和物体j的联合特征;
b5.调整仿射矩阵到一个对称矩阵
b6.使用GCNs网络编码全局特征H生成关系正则化的特征
O={o1,...,oN}:
O=ReLU(DsAsHWG)
ReLU表示线性整流函数;WG是模型需要学习的参数;s是一个对角矩阵用来归一化As
b7.拼接H和O作为关系正则化编码器的输出:
o′i=[oi,hi]
b8.采用LSTM网络来解码每个物体的标签:
LSTM表示标准的长短期记忆网络;表示长短期记忆模型的第i步输出;其中li是来自Faster R-CNN的先验标签;是第i步精炼后的标签。
作为进一步优化,步骤c具体包括:
c1.采用关系正则化的关系编码器编码上层的输出:
{Ar,Z}=R2_Encoder([O′,WLLd]|Wz);
为上层输出的精练后的标签,Wl是由语言模型Glove初始化的映射矩阵,Wz代表编码模块中的所有需要学习的参数;
c2.获得关系正则化后的关系特征:
Z={z1,…,zN};
c3.采用两个全连接层将Z映射到主体空间和客体空间:
c4.使用DistMult模型生成关系分数:
r′m,i,j是指以物体i作为主体,以物体j作为客体属于关系m的分数;是需要学习对角参数矩阵;是指偏差项,它由物体i、物体j以及关系m共同指定;ui,j是指物体i和物体j的联合特征;
c5.使用softmax函数将分数映射到0至1:
Dr是数据集中包含的表示关系单词的数量;
最终获得映射到0至1的关系分数
本发明的有益效果是:
在很好地利用全局上下文信息的同时,能够充分地发掘并利用物体间的仿射关系。模型将仿射关系通过GCNs融合,得到了关系正则化的特征,从而同时增强了物体标签识别以及场景图生成的效果。
附图说明
图1为本发明中的基于关系正则化的视觉场景图生成***原理图。
具体实施方式
本发明旨在提出一种基于关系正则化的视觉场景图生成***及方法,快速有效地判断物体间是否存在关系,有利于增强物体检测模型的探测效果。
为了实现上述目的,本发明设计了基于关系正则的网络来生成视觉场景图。由于之前有工作证明了物体的标签对最后的场景图有非常大的影响,所以我们提出了物体标签精炼模块用来改善Faster R-CNN生成的物体标签。之后又使用了关系生成模块用来生成最终的视觉场景图。每个模块都由双向长短时记忆模型(Bi-LSTMs)以及图卷积网络(GCNs)构成,通过Bi-LSTMs来获取包含全局上下文信息的特征,再利用这种特征获取一个关系矩阵来判断任意物体间存在关系的可能性,最后利用GCNs将这种信息融合来获得关系正则化的特征。通过这种方式来判断物体间是否存在关系并且利用这种信息去增强模型效果。
如图1所示,本发明中的基于关系正则化的视觉场景图生成***整体框架包括三个部分:物体检测器、物体标签精炼器以及物体关系生成器。
下面将详细介绍各个部分的功能及实现方案。
由于视觉场景图生成任务中,首先需要尽可能多地探测出图像的物体。所以与其他工作类似,我们使用了一种在物体检测任务中非常有效的模型Faster R-CNN来探测图像中的物体。我们首先在视觉基因(Visual Genome)数据集上预训练了基于ResNet101的Faster R-CNN。之后使用这种Faster R-CNN来处理图像(如图1的物体检测器部分所示),从而获得物体的以下信息:
a)一系列标签的分布L={l1,...,lN},此处Dl是数据集中包含物体类别的总数。
b)对应物体边框特征F={f1,...,fN},此处Df是特征的维度。
c)以及一系列联合边框的特征U={u1,1,...,uN,N},此处一个联合边框是指一对物体的边框合并后的最小边框。
正如其他工作中的实验所展示的,物体的标签对最终场景图的生成有很大影响。所以,我们首先使用物体标签精炼器来改善从Faster R-CNN生成的标签。如图1所示物体标签精炼器包含两部分:关系正则化的标签编码器和标签解码器。
由于Faster R-CNN是孤立地探测每个区域出现的物体,并没有考虑图像中的全局上下文信息,所以我们使用带有高速连接(highway)的Bi-LSTM(双向长短期记忆模型)去编码Faster R-CNN探测出的物体边框特征F:
此处xk,t是指第k层的LSTM的第t步输入。ik,t、sk,t、ok,t、ck,t、hk,t分别表示第k层中第t步输入门、遗忘门、输出门、记忆单元和隐藏状态。σ表示sigmoid函数,tanh表示双曲函数。表示拼接和xk,t向量。是指LSTM中需要学习的参数。ο是指两向量逐元素相乘即哈达马积。δk是指第k层LSTM的方向。具体来说我们按如下方式设置第k层的LSTM的xk,t和δk
此处的ft是指第t步的输入。由于我们使用的是双向的LSTM,所以模型对输入的顺序不敏感,简单起见我们按照物体从左到右的顺序去排列物体特征F并将其作为Bi-LSTM的输入。
图卷积网络(GCNs)能够根据图(Graph)的邻接矩阵优化图中结点的特征。而且我们认为探索物体间的关系对物体的识别是有帮助的。所以我们首先利用物体特征F作为Bi-LSTM的输入,获得全局特征H={h1,...,hN},此处hi表示物体i融合全局信息后的特征。再基于全局特征H获得一个图的关系仿射矩阵此处表示物体i和物体j存在关系的可能性。由于一个物体在关系中可能出现为客体也可能出现为主体,所以我们通过两个全连接层将hi映射到一个主体空间和一个客体空间:
指两个全连接网络,分别表示映射到主体和客体空间后的特征。之后利用一种在知识图谱中有效的关系学习模型--DistMult来构建我们的仿射矩阵:
其中为一个对角参数矩阵。是一个由主体i和客体j特化的偏差。σ是一个激活函数能将输出映射到0至1。ui,j是指物体i和物体j的联合特征。另外给定两个物体我们很难确定信息是从主体流向客体还是从客体流向主体,所以我们调整仿射矩阵到一个对称矩阵
之后我们就可以使用GCNs编码全局特征H用来生成我们的关系正则化的特征O={o1,...,oN}:
O=ReLU(DsAsHWG) (7)
ReLU表示线性整流函数,其中WG是模型需要学习的参数,s是一个对角矩阵用来归一化As
最后我们拼接H和O作为我们关系正则化编码器的输出:
o′i=[oi,hi] (9)
为了简便起见我们表示我们的关系正则化的标签编码器如下:
{Ae,O′}=R2_Encoder(F|Wo) (10)
R2_Encoder表示从公式(1)到公式(9)整个模型。F表示输入的特征,Ae表示我们获得的放射矩阵,O′表示关系正则化后的物体特征,Wo代表编码模块中的所有需要学习的参数。
最后我们使用了一层LSTM来解码每个物体的标签,从而改善Faster R-CNN生成的标签:
LSTM表示标准的长短期记忆网络,表示长短期记忆模型的第i步输出,其中li是来自Faster R-CNN的先验标签,是第i步精炼后的标签。此外我们将<BOS>作为开始解码的信号。
至此,我们已经得到了精炼后的物体标签Ld,之后我们就进入第二阶段--物体关系生成器来生成图像中物体与物体的关系。如图1所示物体关系生成器也包含两部分:关系正则化的关系编码器和关系解码器。我们使用了关系正则化的关系编码器编码上层的输出:
{Ar,Z}=R2_Encoder([O′,WLLd]|Wz) (12)
此处标签精炼模块输出的物体标签,Wl是由语言模型Glove初始化的映射矩阵,Wz代表编码模块中的所有需要学习的参数。之后我们就得到了关系正则化后的关系特征Z={z1,…,zN}。
最后我们就进入了关系解码阶段,同样我们还是要用两个全连接层将Z映射到主体空间和客体空间:
之后再次使用DistMult模型去生成关系分数:
此处r′m,i,j是指以物体i作为主体,以物体j作为客体属于关系m的分数。是需要学习对角参数矩阵,是指偏差项,它由物体i、物体j以及关系m共同指定。ui,j是指物体i和物体j的联合特征。°是指两向量逐元素相乘即哈达马积。最后我们使用softmax函数将分数映射到0至1:
r′m,i,j是指初始化的分数如公式(14)描述,e是自然对数函数的底数,此处Dr是数据集中包含的表示关系单词的数量。最后我们得到了映射到0至1的关系分数R={r1,1,1,...,rDr,N,N}。
对于损失函数的构建,首先在标签精炼阶段,我们构建了标签损失函数和第一个仿射矩阵损失函数,两者形式都是交叉熵:
在关系生成阶段:
其中Ld、Ae、Ar以及R分别是公式(11)、(5)、(12)以及(15)的输出。Lg、Ag、以及Rg分别是数据集中真实的物体标签、邻接矩阵以及关系标签。我们构建真实邻接矩阵的方式是判断两物体间是否存在关系若存在就为1,若不存在关系就为0。最后我们将四个损失函数求和作为模型整体的损失函数。

Claims (7)

1.一种基于关系正则化的视觉场景图生成***,其特征在于,包括:
物体检测器、物体标签精练器和物体关系生成器;
所述物体检测器,用于探测图像中的物体,获得物体的标签、物体边框特征和联合边框特征;
所述物体标签精练器,包括关系正则化的标签编码器和标签解码器;
所述关系正则化的标签编码器,用于编码物体检测器探测出的物体边框特征,获得全局特征,并基于全局特征获得关系仿射矩阵,融合物体间的仿射关系获得关系正则化的特征;所述标签解码器,用于基于关系正则化的标签编码器的输出来解码物体的标签,获得精练后的标签;
所述物体关系生成器,包括关系正则化的关系编码器和关系解码器;
所述关系正则化的关系编码器,用于编码标签解码器的输出,获得关系正则化的关系特征:所述关系解码器,对关系特征进行解码,获得物体间的关系。
2.如权利要求1所述的***,其特征在于,
所述关系正则化的标签编码器和关系正则化的关系编码器中均包括Bi-LSTMs网络以及GCNs网络;通过Bi-LSTMs网络来获取包含全局上下文信息的特征,再利用这种特征获取物体间的仿射关系来判断任意物体间存在关系的可能性;最后利用GCNs网络融合仿射关系来获得关系正则化的特征。
3.如权利要求1或2所述的***,其特征在于,
所述关系正则化的标签编码器采用拼接关系正则化的特征和全局特征作为输出。
4.一种基于关系正则化的视觉场景图生成方法,应用于如权利要求1-3任意一项所述的***,其特征在于,包括以下步骤:
a.探测物体:
探测图像中的物体,获得物体的标签、物体边框特征和联合边框特征;
b.对物体的标签进行精练:
编码探测出的物体边框特征,获得全局特征,并基于全局特征获得关系仿射矩阵,融合物体间的仿射关系获得关系正则化的特征;基于关系正则化的标签编码器的输出来解码物体的标签,获得精练后的标签;
c.获取物体间的关系:
编码标签解码器的输出,获得关系正则化的关系特征;对关系特征进行解码,获得物体间的关系。
5.如权利要求4所述的方法,其特征在于,
步骤a中,采用基于ResNet101的Faster R-CNN网络探测图像中的物体,所述Faster R-CNN网络为在视觉基因数据集上预训练获得。
6.如权利要求4所述的方法,其特征在于,
步骤b具体包括:
b1.采用带有高速连接的Bi-LSTM网络编码Faster R-CNN探测出的物体边框特征,获得全局特征H={h1,...,hN};hi表示物体i融合全局信息后的特征;
b2.基于全局特征H获得一个图的关系仿射矩阵 表示物体i和物体j存在关系的可能性;
b3.通过两个全连接层将hi映射到一个主体空间和一个客体空间:
指两个全连接网络,分别表示映射到主体和客体空间后的特征;
b4.利用DistMult模型来构建仿射矩阵:
其中,为一个对角参数矩阵;是一个由主体i和客体j特化的偏差;σ是一个激活函数,能将输出映射到0至1;ui,j是指物体i和物体j的联合特征;
b5.调整仿射矩阵到一个对称矩阵
b6.使用GCNs网络编码全局特征H生成关系正则化的特征
O={o1,...,oN}:
O=ReLU(DsAsHWG)
ReLU表示线性整流函数;WG是模型需要学习的参数;s是一个对角矩阵用来归一化As
b7.拼接H和O作为关系正则化编码器的输出:
o′i=[oi,hi]
b8.采用LSTM网络来解码每个物体的标签:
LSTM表示标准的长短期记忆网络;表示长短期记忆模型的第i步输出;其中li是来自Faster R-CNN的先验标签;是第i步精炼后的标签。
7.如权利要求6所述的方法,其特征在于,
步骤c具体包括:
c1.采用关系正则化的关系编码器编码上层的输出:
{Ar,Z}=R2_Encoder([O′,WLLd]|Wz);
为上层输出的精练后的标签,Wl是由语言模型Glove初始化的映射矩阵,Wz代表编码模块中的所有需要学习的参数;
c2.获得关系正则化后的关系特征:
Z={z1,…,zN};
c3.采用两个全连接层将Z映射到主体空间和客体空间:
c4.使用DistMult模型生成关系分数:
r′m,i,j是指以物体i作为主体,以物体j作为客体属于关系m的分数;是需要学习对角参数矩阵;是指偏差项,它由物体i、物体j以及关系m共同指定;ui,j是指物体i和物体j的联合特征;
c5.使用softmax函数将分数映射到0至1:
Dr是数据集中包含的表示关系单词的数量;
最终获得映射到0至1的关系分数
CN201910004817.9A 2019-01-03 2019-01-03 一种基于关系正则化的视觉场景图生成***及方法 Active CN109726718B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910004817.9A CN109726718B (zh) 2019-01-03 2019-01-03 一种基于关系正则化的视觉场景图生成***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910004817.9A CN109726718B (zh) 2019-01-03 2019-01-03 一种基于关系正则化的视觉场景图生成***及方法

Publications (2)

Publication Number Publication Date
CN109726718A true CN109726718A (zh) 2019-05-07
CN109726718B CN109726718B (zh) 2022-09-16

Family

ID=66299610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910004817.9A Active CN109726718B (zh) 2019-01-03 2019-01-03 一种基于关系正则化的视觉场景图生成***及方法

Country Status (1)

Country Link
CN (1) CN109726718B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110363282A (zh) * 2019-06-06 2019-10-22 中国科学院信息工程研究所 一种基于图卷积网络的网络节点标签主动学习方法和***
CN111475661A (zh) * 2020-03-23 2020-07-31 深兰科技(上海)有限公司 一种基于有限标签构造场景图的方法、装置及计算机设备
CN111898598A (zh) * 2020-07-03 2020-11-06 贵州大学 一种动态场景下基于文本的目标检测方法
CN111931928A (zh) * 2020-07-16 2020-11-13 成都井之丽科技有限公司 场景图的生成方法、装置和设备
CN113139423A (zh) * 2021-03-09 2021-07-20 杭州电子科技大学 一种用于场景图检测的关系图学习方法
CN113836339A (zh) * 2021-09-01 2021-12-24 淮阴工学院 一种基于全局信息和位置嵌入的场景图生成方法
CN114511779A (zh) * 2022-01-20 2022-05-17 电子科技大学 场景图生成模型的训练方法、场景图生成方法及装置
CN115512003A (zh) * 2022-11-16 2022-12-23 之江实验室 一种独立关系检测的场景图生成方法和***
CN118015522A (zh) * 2024-03-22 2024-05-10 广东工业大学 用于视频场景图生成的时间过渡正则化方法和***

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090153708A1 (en) * 2007-12-18 2009-06-18 Sony Corporation Solid-state imaging device and camera
CN101567051A (zh) * 2009-06-03 2009-10-28 复旦大学 一种基于特征点的图像配准方法
CN105550709A (zh) * 2015-12-14 2016-05-04 武汉大学 一种遥感影像输电线路走廊森林区域提取方法
CN107341815A (zh) * 2017-06-01 2017-11-10 哈尔滨工程大学 基于多目立体视觉场景流的剧烈运动检测方法
WO2017206936A1 (zh) * 2016-06-02 2017-12-07 腾讯科技(深圳)有限公司 基于机器学习的网络模型构造方法及装置
CN108564126A (zh) * 2018-04-19 2018-09-21 郑州大学 一种融合语义控制的特定场景生成方法
US20180293777A1 (en) * 2017-04-08 2018-10-11 Intel Corporation Sub-graph in frequency domain and dynamic selection of convolution implementation on a gpu
CN108664687A (zh) * 2018-03-22 2018-10-16 浙江工业大学 一种基于深度学习的工控***时空数据预测方法
CN108830334A (zh) * 2018-06-25 2018-11-16 江西师范大学 一种基于对抗式迁移学习的细粒度目标判别方法
CN108986186A (zh) * 2018-08-14 2018-12-11 山东师范大学 文字转化视频的方法和***

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090153708A1 (en) * 2007-12-18 2009-06-18 Sony Corporation Solid-state imaging device and camera
CN101567051A (zh) * 2009-06-03 2009-10-28 复旦大学 一种基于特征点的图像配准方法
CN105550709A (zh) * 2015-12-14 2016-05-04 武汉大学 一种遥感影像输电线路走廊森林区域提取方法
WO2017206936A1 (zh) * 2016-06-02 2017-12-07 腾讯科技(深圳)有限公司 基于机器学习的网络模型构造方法及装置
US20180293777A1 (en) * 2017-04-08 2018-10-11 Intel Corporation Sub-graph in frequency domain and dynamic selection of convolution implementation on a gpu
CN107341815A (zh) * 2017-06-01 2017-11-10 哈尔滨工程大学 基于多目立体视觉场景流的剧烈运动检测方法
CN108664687A (zh) * 2018-03-22 2018-10-16 浙江工业大学 一种基于深度学习的工控***时空数据预测方法
CN108564126A (zh) * 2018-04-19 2018-09-21 郑州大学 一种融合语义控制的特定场景生成方法
CN108830334A (zh) * 2018-06-25 2018-11-16 江西师范大学 一种基于对抗式迁移学习的细粒度目标判别方法
CN108986186A (zh) * 2018-08-14 2018-12-11 山东师范大学 文字转化视频的方法和***

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
CHEN J 等: ""Gc-lstm: Graph convolution embedded lstm for dynamic link prediction"", 《ARXIV:1812.04206》 *
D. MARCHEGGIANI 等: ""Encoding sentences with graph convolutional networks for semantic role labeling"", 《EMNLP》 *
LU N等: ""Deep learning for fall detection: Three-dimensional CNN combined with LSTM on video kinematic data"", 《IEEE》 *
S. QI 等: ""Learning human-object interactions by graph parsing neural networks"", 《 ECCV》 *
ZTELLERS R 等: ""Neural motifs: Scene graph parsing with global context"", 《COMPUTER VISION AND PATTERN RECOGNITION》 *
*** 等: ""基于宏块内部特征的H.264快速预测模式决策算法"", 《计算机应用研究》 *
刘风: ""基于磁共振成像的多变量模式分析方法学与应用研究"", 《万方》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110363282B (zh) * 2019-06-06 2021-10-26 中国科学院信息工程研究所 一种基于图卷积网络的网络节点标签主动学习方法和***
CN110363282A (zh) * 2019-06-06 2019-10-22 中国科学院信息工程研究所 一种基于图卷积网络的网络节点标签主动学习方法和***
CN111475661A (zh) * 2020-03-23 2020-07-31 深兰科技(上海)有限公司 一种基于有限标签构造场景图的方法、装置及计算机设备
CN111475661B (zh) * 2020-03-23 2023-07-14 深兰科技(上海)有限公司 一种基于有限标签构造场景图的方法、装置及计算机设备
CN111898598A (zh) * 2020-07-03 2020-11-06 贵州大学 一种动态场景下基于文本的目标检测方法
CN111898598B (zh) * 2020-07-03 2022-08-30 贵州大学 一种动态场景下基于文本的目标检测方法
CN111931928B (zh) * 2020-07-16 2022-12-27 成都井之丽科技有限公司 场景图的生成方法、装置和设备
CN111931928A (zh) * 2020-07-16 2020-11-13 成都井之丽科技有限公司 场景图的生成方法、装置和设备
CN113139423A (zh) * 2021-03-09 2021-07-20 杭州电子科技大学 一种用于场景图检测的关系图学习方法
CN113139423B (zh) * 2021-03-09 2024-03-01 杭州电子科技大学 一种用于场景图检测的关系图学习方法
CN113836339A (zh) * 2021-09-01 2021-12-24 淮阴工学院 一种基于全局信息和位置嵌入的场景图生成方法
CN113836339B (zh) * 2021-09-01 2023-09-26 淮阴工学院 一种基于全局信息和位置嵌入的场景图生成方法
CN114511779A (zh) * 2022-01-20 2022-05-17 电子科技大学 场景图生成模型的训练方法、场景图生成方法及装置
CN115512003A (zh) * 2022-11-16 2022-12-23 之江实验室 一种独立关系检测的场景图生成方法和***
CN118015522A (zh) * 2024-03-22 2024-05-10 广东工业大学 用于视频场景图生成的时间过渡正则化方法和***

Also Published As

Publication number Publication date
CN109726718B (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
CN109726718A (zh) 一种基于关系正则化的视觉场景图生成***及方法
Zhang et al. Category anchor-guided unsupervised domain adaptation for semantic segmentation
Tu et al. RGB-T image saliency detection via collaborative graph learning
Ding et al. Semantic segmentation with context encoding and multi-path decoding
CN109800628B (zh) 一种加强ssd小目标行人检测性能的网络结构及检测方法
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
CN109711463A (zh) 基于注意力的重要对象检测方法
CN113449801B (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
CN112488229B (zh) 一种基于特征分离和对齐的域自适应无监督目标检测方法
CN110111337A (zh) 一种基于图迁移学习的通用人体解析框架及其解析方法
CN113221852B (zh) 一种目标识别方法及装置
CN112651940B (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
Lian et al. A dense Pointnet++ architecture for 3D point cloud semantic segmentation
CN115205592A (zh) 一种基于多模态数据的重平衡长尾图像数据分类方法
CN116682144A (zh) 一种基于多层次跨模态差异调和的多模态行人重识别方法
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
CN117370498B (zh) 一种3d开放词汇检测与密集字幕生成统一的建模方法
Yuan et al. Multi-objects change detection based on Res-UNet
CN113468327A (zh) 一种基于深度学习的早期舆情检测方法
CN117173450A (zh) 一种交通场景生成式图像描述方法
She et al. Contrastive self-supervised representation learning using synthetic data
CN112465836B (zh) 基于轮廓信息的热红外语义分割无监督领域自适应方法
CN103793720A (zh) 一种眼睛定位方法和***
Wang et al. Collapsed building detection in high-resolution remote sensing images based on mutual attention and cost sensitive loss
Zeng et al. Large-scale point cloud semantic segmentation via local perception and global descriptor vector

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant