CN109726718B - 一种基于关系正则化的视觉场景图生成***及方法 - Google Patents

一种基于关系正则化的视觉场景图生成***及方法 Download PDF

Info

Publication number
CN109726718B
CN109726718B CN201910004817.9A CN201910004817A CN109726718B CN 109726718 B CN109726718 B CN 109726718B CN 201910004817 A CN201910004817 A CN 201910004817A CN 109726718 B CN109726718 B CN 109726718B
Authority
CN
China
Prior art keywords
relation
relationship
label
regularization
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910004817.9A
Other languages
English (en)
Other versions
CN109726718A (zh
Inventor
宋井宽
郭昱宇
高联丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910004817.9A priority Critical patent/CN109726718B/zh
Publication of CN109726718A publication Critical patent/CN109726718A/zh
Application granted granted Critical
Publication of CN109726718B publication Critical patent/CN109726718B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及视觉场景图生成技术,其公开了一种基于关系正则化的视觉场景图生成***及方法,快速有效地判断物体间是否存在关系,有利于增强物体检测模型的探测效果。该***,包括:物体检测器、物体标签精练器和物体关系生成器;通过物体检测器,探测图像中的物体,获得物体的标签、物体边框特征和联合边框特征;利用物体标签精练器对物体的标签进行精练,利用物体关系生成器获取物体之间的关系,生成最终的视觉场景图。本发明适用于视觉场景图的生成。

Description

一种基于关系正则化的视觉场景图生成***及方法
技术领域
本发明涉及视觉场景图生成技术,具体涉及一种基于关系正则化的视觉场景图生成***及方法。
背景技术
视觉场景图(Visual Scene Graph)是对图像内容的高度概括,它由一系列结点(图像中的实体)和边(实体与实体之间的关系)组成。视觉场景图生成任务是指输入一张图片,模型不仅要探测出图像所包含的物体(边框以及类别),还要探测出物体与物体之间的关系。
因为视觉场景图生成需要探测图像中包含的物体,所以大多数方法都使用了一个很有效的物体检测模型—Faster R-CNN去检测物体的边框以及类别。但是之前的工作都只是利用Faster R-CNN的检测结果再去判断物体间的关系,很少有人去考虑物体间的关系对物体检测的影响。而且之前的工作也揭示了一个现象:如果已知两物体间的确存在关系,那么判断具体是什么关系就会容易许多。所以如何判断物体间是否存在关系以及如何利用这种信息去增强模型的效果就成为了一个问题。
发明内容
本发明所要解决的技术问题是:提出一种基于关系正则化的视觉场景图生成***及方法,快速有效地判断物体间是否存在关系,有利于增强物体检测模型的探测效果。
本发明解决上述技术问题所采用的技术方案是:
基于关系正则化的视觉场景图生成***,包括:
物体检测器、物体标签精练器和物体关系生成器;
所述物体检测器,用于探测图像中的物体,获得物体的标签、物体边框特征和联合边框特征;
所述物体标签精练器,包括关系正则化的标签编码器和标签解码器;
所述关系正则化的标签编码器,用于编码物体检测器探测出的物体边框特征,获得全局特征,并基于全局特征获得关系仿射矩阵,融合物体间的仿射关系获得关系正则化的特征;所述标签解码器,用于基于关系正则化的标签编码器的输出来解码物体的标签,获得精练后的标签;
所述物体关系生成器,包括关系正则化的关系编码器和关系解码器;
所述关系正则化的关系编码器,用于编码标签解码器的输出,获得关系正则化的关系特征:所述关系解码器,对关系特征进行解码,获得物体间的关系。
作为进一步优化,所述关系正则化的标签编码器和关系正则化的关系编码器中均包括Bi-LSTMs网络以及GCNs网络;通过Bi-LSTMs网络来获取包含全局上下文信息的特征,再利用这种特征获取物体间的仿射关系来判断任意物体间存在关系的可能性;最后利用GCNs网络融合仿射关系来获得关系正则化的特征。
作为进一步优化,所述关系正则化的标签编码器采用拼接关系正则化的特征和全局特征作为输出。
此外,本发明还提供了一种基于关系正则化的视觉场景图生成方法,其包括:
a.探测物体:
探测图像中的物体,获得物体的标签、物体边框特征和联合边框特征;
b.对物体的标签进行精练:
编码探测出的物体边框特征,获得全局特征,并基于全局特征获得关系仿射矩阵,融合物体间的仿射关系获得关系正则化的特征;基于关系正则化的标签编码器的输出来解码物体的标签,获得精练后的标签;
c.获取物体间的关系:
编码标签解码器的输出,获得关系正则化的关系特征;对关系特征进行解码,获得物体间的关系。
作为进一步优化,步骤a中,采用基于ResNet101的Faster R-CNN网络探测图像中的物体,所述Faster R-CNN网络为在视觉基因数据集上预训练获得。
作为进一步优化,步骤b具体包括:
b1.采用带有高速连接的Bi-LSTM网络编码Faster R-CNN探测出的物体边框特征,获得全局特征H={h1,...,hN};hi表示物体i融合全局信息后的特征;
b2.基于全局特征H获得一个图的关系仿射矩阵
Figure BDA0001935013240000021
表示物体i和物体j存在关系的可能性;
b3.通过两个全连接层将hi映射到一个主体空间和一个客体空间:
Figure BDA0001935013240000022
Figure BDA0001935013240000023
Figure BDA0001935013240000024
指两个全连接网络,
Figure BDA0001935013240000025
Figure BDA0001935013240000026
分别表示映射到主体和客体空间后的特征;
b4.利用DistMult模型来构建仿射矩阵:
Figure BDA0001935013240000027
其中,
Figure BDA0001935013240000031
为一个对角参数矩阵;
Figure BDA0001935013240000032
是一个由主体i和客体j特化的偏差;σ是一个激活函数,能将输出映射到0至1;ui,j是指物体i和物体j的联合特征;
b5.调整仿射矩阵
Figure BDA0001935013240000033
到一个对称矩阵
Figure BDA0001935013240000034
Figure BDA0001935013240000035
b6.使用GCNs网络编码全局特征H生成关系正则化的特征
O={o1,...,oN}:
O=ReLU(DsAsHWG)
ReLU表示线性整流函数;WG是模型需要学习的参数;
Figure BDA0001935013240000036
s是一个对角矩阵用来归一化As
Figure BDA0001935013240000037
b7.拼接H和O作为关系正则化编码器的输出:
o′i=[oi,hi]
b8.采用LSTM网络来解码每个物体的标签:
Figure BDA0001935013240000038
Figure BDA0001935013240000039
LSTM表示标准的长短期记忆网络;
Figure BDA00019350132400000310
表示长短期记忆模型的第i步输出;其中li是来自Faster R-CNN的先验标签;
Figure BDA00019350132400000311
是第i步精炼后的标签。
作为进一步优化,步骤c具体包括:
c1.采用关系正则化的关系编码器编码上层的输出:
{Ar,Z}=R2_Encoder([O′,WLLd]|Wz);
Figure BDA00019350132400000312
为上层输出的精练后的标签,Wl是由语言模型Glove初始化的映射矩阵,Wz代表编码模块中的所有需要学习的参数;
c2.获得关系正则化后的关系特征:
Z={z1,…,zN};
c3.采用两个全连接层将Z映射到主体空间和客体空间:
Figure BDA0001935013240000041
Figure BDA0001935013240000042
c4.使用DistMult模型生成关系分数:
Figure BDA0001935013240000043
r′m,i,j是指以物体i作为主体,以物体j作为客体属于关系m的分数;
Figure BDA0001935013240000044
是需要学习对角参数矩阵;
Figure BDA0001935013240000045
是指偏差项,它由物体i、物体j以及关系m共同指定;ui,j是指物体i和物体j的联合特征;
c5.使用softmax函数将分数映射到0至1:
Figure BDA0001935013240000046
Dr是数据集中包含的表示关系单词的数量;
最终获得映射到0至1的关系分数
Figure BDA0001935013240000047
本发明的有益效果是:
在很好地利用全局上下文信息的同时,能够充分地发掘并利用物体间的仿射关系。模型将仿射关系通过GCNs融合,得到了关系正则化的特征,从而同时增强了物体标签识别以及场景图生成的效果。
附图说明
图1为本发明中的基于关系正则化的视觉场景图生成***原理图。
具体实施方式
本发明旨在提出一种基于关系正则化的视觉场景图生成***及方法,快速有效地判断物体间是否存在关系,有利于增强物体检测模型的探测效果。
为了实现上述目的,本发明设计了基于关系正则的网络来生成视觉场景图。由于之前有工作证明了物体的标签对最后的场景图有非常大的影响,所以我们提出了物体标签精炼模块用来改善Faster R-CNN生成的物体标签。之后又使用了关系生成模块用来生成最终的视觉场景图。每个模块都由双向长短时记忆模型(Bi-LSTMs)以及图卷积网络(GCNs)构成,通过Bi-LSTMs来获取包含全局上下文信息的特征,再利用这种特征获取一个关系矩阵来判断任意物体间存在关系的可能性,最后利用GCNs将这种信息融合来获得关系正则化的特征。通过这种方式来判断物体间是否存在关系并且利用这种信息去增强模型效果。
如图1所示,本发明中的基于关系正则化的视觉场景图生成***整体框架包括三个部分:物体检测器、物体标签精炼器以及物体关系生成器。
下面将详细介绍各个部分的功能及实现方案。
由于视觉场景图生成任务中,首先需要尽可能多地探测出图像的物体。所以与其他工作类似,我们使用了一种在物体检测任务中非常有效的模型Faster R-CNN来探测图像中的物体。我们首先在视觉基因(Visual Genome)数据集上预训练了基于ResNet101的Faster R-CNN。之后使用这种Faster R-CNN来处理图像(如图1的物体检测器部分所示),从而获得物体的以下信息:
a)一系列标签的分布L={l1,...,lN},此处
Figure BDA0001935013240000051
Dl是数据集中包含物体类别的总数。
b)对应物体边框特征F={f1,...,fN},此处
Figure BDA0001935013240000052
Df是特征的维度。
c)以及一系列联合边框的特征U={u1,1,...,uN,N},此处
Figure BDA0001935013240000053
一个联合边框是指一对物体的边框合并后的最小边框。
正如其他工作中的实验所展示的,物体的标签对最终场景图的生成有很大影响。所以,我们首先使用物体标签精炼器来改善从Faster R-CNN生成的标签。如图1所示物体标签精炼器包含两部分:关系正则化的标签编码器和标签解码器。
由于Faster R-CNN是孤立地探测每个区域出现的物体,并没有考虑图像中的全局上下文信息,所以我们使用带有高速连接(highway)的Bi-LSTM(双向长短期记忆模型)去编码Faster R-CNN探测出的物体边框特征F:
Figure BDA0001935013240000054
此处xk,t是指第k层的LSTM的第t步输入。ik,t、sk,t、ok,t、ck,t、hk,t分别表示第k层中第t步输入门、遗忘门、输出门、记忆单元和隐藏状态。σ表示sigmoid函数,tanh表示双曲函数。
Figure BDA0001935013240000061
表示拼接
Figure BDA0001935013240000062
和xk,t向量。
Figure BDA0001935013240000063
Figure BDA0001935013240000064
是指LSTM中需要学习的参数。ο是指两向量逐元素相乘即哈达马积。δk是指第k层LSTM的方向。具体来说我们按如下方式设置第k层的LSTM的xk,t和δk
Figure BDA0001935013240000065
Figure BDA0001935013240000066
此处的ft是指第t步的输入。由于我们使用的是双向的LSTM,所以模型对输入的顺序不敏感,简单起见我们按照物体从左到右的顺序去排列物体特征F并将其作为Bi-LSTM的输入。
图卷积网络(GCNs)能够根据图(Graph)的邻接矩阵优化图中结点的特征。而且我们认为探索物体间的关系对物体的识别是有帮助的。所以我们首先利用物体特征F作为Bi-LSTM的输入,获得全局特征H={h1,...,hN},此处hi表示物体i融合全局信息后的特征。再基于全局特征H获得一个图的关系仿射矩阵
Figure BDA0001935013240000067
此处
Figure BDA0001935013240000068
表示物体i和物体j存在关系的可能性。由于一个物体在关系中可能出现为客体也可能出现为主体,所以我们通过两个全连接层将hi映射到一个主体空间和一个客体空间:
Figure BDA0001935013240000069
Figure BDA00019350132400000610
Figure BDA00019350132400000611
指两个全连接网络,
Figure BDA00019350132400000612
Figure BDA00019350132400000613
分别表示映射到主体和客体空间后的特征。之后利用一种在知识图谱中有效的关系学习模型--DistMult来构建我们的仿射矩阵:
Figure BDA00019350132400000614
其中
Figure BDA00019350132400000615
为一个对角参数矩阵。
Figure BDA00019350132400000616
是一个由主体i和客体j特化的偏差。σ是一个激活函数能将输出映射到0至1。ui,j是指物体i和物体j的联合特征。另外给定两个物体我们很难确定信息是从主体流向客体还是从客体流向主体,所以我们调整仿射矩阵
Figure BDA00019350132400000617
到一个对称矩阵
Figure BDA00019350132400000618
Figure BDA0001935013240000071
之后我们就可以使用GCNs编码全局特征H用来生成我们的关系正则化的特征O={o1,...,oN}:
O=ReLU(DsAsHWG) (7)
ReLU表示线性整流函数,其中WG是模型需要学习的参数,
Figure BDA0001935013240000072
s是一个对角矩阵用来归一化As
Figure BDA0001935013240000073
最后我们拼接H和O作为我们关系正则化编码器的输出:
o′i=[oi,hi] (9)
为了简便起见我们表示我们的关系正则化的标签编码器如下:
{Ae,O′}=R2_Encoder(F|Wo) (10)
R2_Encoder表示从公式(1)到公式(9)整个模型。F表示输入的特征,Ae表示我们获得的放射矩阵,O′表示关系正则化后的物体特征,Wo代表编码模块中的所有需要学习的参数。
最后我们使用了一层LSTM来解码每个物体的标签,从而改善Faster R-CNN生成的标签:
Figure BDA0001935013240000074
LSTM表示标准的长短期记忆网络,
Figure BDA0001935013240000075
表示长短期记忆模型的第i步输出,其中li是来自Faster R-CNN的先验标签,
Figure BDA0001935013240000076
是第i步精炼后的标签。此外我们将<BOS>作为开始解码的信号。
至此,我们已经得到了精炼后的物体标签Ld,之后我们就进入第二阶段--物体关系生成器来生成图像中物体与物体的关系。如图1所示物体关系生成器也包含两部分:关系正则化的关系编码器和关系解码器。我们使用了关系正则化的关系编码器编码上层的输出:
{Ar,Z}=R2_Encoder([O′,WLLd]|Wz) (12)
此处
Figure BDA0001935013240000077
标签精炼模块输出的物体标签,Wl是由语言模型Glove初始化的映射矩阵,Wz代表编码模块中的所有需要学习的参数。之后我们就得到了关系正则化后的关系特征Z={z1,…,zN}。
最后我们就进入了关系解码阶段,同样我们还是要用两个全连接层将Z映射到主体空间和客体空间:
Figure BDA0001935013240000081
之后再次使用DistMult模型去生成关系分数:
Figure BDA0001935013240000082
此处r′m,i,j是指以物体i作为主体,以物体j作为客体属于关系m的分数。
Figure BDA0001935013240000083
是需要学习对角参数矩阵,
Figure BDA0001935013240000087
是指偏差项,它由物体i、物体j以及关系m共同指定。ui,j是指物体i和物体j的联合特征。°是指两向量逐元素相乘即哈达马积。最后我们使用softmax函数将分数映射到0至1:
Figure BDA0001935013240000084
r′m,i,j是指初始化的分数如公式(14)描述,e是自然对数函数的底数,此处Dr是数据集中包含的表示关系单词的数量。最后我们得到了映射到0至1的关系分数R={r1,1,1,...,rDr,N,N}。
对于损失函数的构建,首先在标签精炼阶段,我们构建了标签损失函数和第一个仿射矩阵损失函数,两者形式都是交叉熵:
Figure BDA0001935013240000085
在关系生成阶段:
Figure BDA0001935013240000086
其中Ld、Ae、Ar以及R分别是公式(11)、(5)、(12)以及(15)的输出。Lg、Ag、以及Rg分别是数据集中真实的物体标签、邻接矩阵以及关系标签。我们构建真实邻接矩阵的方式是判断两物体间是否存在关系若存在就为1,若不存在关系就为0。最后我们将四个损失函数求和作为模型整体的损失函数。

Claims (5)

1.一种基于关系正则化的视觉场景图生成***,其特征在于,包括:
物体检测器、物体标签精练器和物体关系生成器;
所述物体检测器,用于探测图像中的物体,获得物体的标签、物体边框特征和联合边框特征;
所述物体标签精练器,包括关系正则化的标签编码器和标签解码器;
所述关系正则化的标签编码器,用于编码物体检测器探测出的物体边框特征,获得全局特征,并基于全局特征获得关系仿射矩阵,融合物体间的仿射关系获得关系正则化的特征;所述标签解码器,用于基于关系正则化的标签编码器的输出来解码物体的标签,获得精练后的标签;
所述物体关系生成器,包括关系正则化的关系编码器和关系解码器;
所述关系正则化的关系编码器,用于编码标签解码器的输出,获得关系正则化的关系特征;所述关系解码器,对关系特征进行解码,获得物体间的关系;
所述关系正则化的标签编码器编码物体检测器探测出的物体边框特征,获得全局特征,并基于全局特征获得关系仿射矩阵,融合物体间的仿射关系获得关系正则化的特征,具体包括:
(1)采用带有高速连接的Bi-LSTM网络编码Faster R-CNN探测出的物体边框特征,获得全局特征H={h1,...,hN};hi表示物体i融合全局信息后的特征;
(2)基于全局特征H获得一个图的关系仿射矩阵
Figure FDA0003728509490000011
Figure FDA0003728509490000012
表示物体i和物体j存在关系的可能性;
(3)通过两个全连接层将hi映射到一个主体空间和一个客体空间:
Figure FDA0003728509490000013
Figure FDA0003728509490000014
Figure FDA0003728509490000015
指两个全连接网络,
Figure FDA0003728509490000016
Figure FDA0003728509490000017
分别表示映射到主体和客体空间后的特征;
(4)利用DistMult模型来构建仿射矩阵:
Figure FDA0003728509490000018
其中,
Figure FDA0003728509490000019
为一个对角参数矩阵;
Figure FDA00037285094900000110
是一个由主体i和客体j特化的偏差;σ是一个激活函数,能将输出映射到0至1;ui,j是指物体i和物体j的联合特征;
(5)调整仿射矩阵
Figure FDA00037285094900000111
到一个对称矩阵
Figure FDA00037285094900000112
Figure FDA0003728509490000021
(6)使用GCNs网络编码全局特征H生成关系正则化的特征:
O={o1,...,oN}:
O=ReLU(DsAsHWG)
ReLU表示线性整流函数;WG是模型需要学习的参数;
Figure FDA0003728509490000022
s是一个对角矩阵用来归一化As
Figure FDA0003728509490000023
(7)拼接H和O作为关系正则化编码器的输出:
o′i=[oi,hi];
所述标签解码器基于关系正则化的标签编码器的输出来解码物体的标签,获得精练后的标签,具体包括:
采用LSTM网络来解码每个物体的标签:
Figure FDA0003728509490000024
Figure FDA0003728509490000025
LSTM表示标准的长短期记忆网络;
Figure FDA0003728509490000026
表示长短期记忆模型的第i步输出;其中li是来自Faster R-CNN的先验标签;
Figure FDA0003728509490000027
是第i步精炼后的标签;
所述关系正则化的关系编码器编码标签解码器的输出,获得关系正则化的关系特征,具体包括:
采用关系正则化的关系编码器编码上层的输出:
{Ar,Z}=R2_Encoder([O′,WLLd]|Wz);
Figure FDA0003728509490000028
为上层输出的精练后的标签,Wl是由语言模型Glove初始化的映射矩阵,Wz代表编码模块中的所有需要学习的参数;
获得关系正则化后的关系特征:
Z={z1,…,zN};
所述关系解码器对关系特征进行解码,获得物体间的关系,具体包括:
(1)采用两个全连接层将Z映射到主体空间和客体空间:
Figure FDA0003728509490000031
Figure FDA0003728509490000032
(2)使用DistMult模型生成关系分数:
Figure FDA0003728509490000033
r′m,i,j是指以物体i作为主体,以物体j作为客体属于关系m的分数;
Figure FDA0003728509490000034
是需要学习对角参数矩阵;
Figure FDA0003728509490000035
是指偏差项,它由物体i、物体j以及关系m共同指定;ui,j是指物体i和物体j的联合特征;
(3)使用softmax函数将分数映射到0至1:
Figure FDA0003728509490000036
Dr是数据集中包含的表示关系单词的数量;
最终获得映射到0至1的关系分数
Figure FDA0003728509490000037
2.如权利要求1所述的***,其特征在于,
所述关系正则化的标签编码器和关系正则化的关系编码器中均包括Bi-LSTMs网络以及GCNs网络;通过Bi-LSTMs网络来获取包含全局上下文信息的特征,再利用这种特征获取物体间的仿射关系来判断任意物体间存在关系的可能性;最后利用GCNs网络融合仿射关系来获得关系正则化的特征。
3.如权利要求1或2所述的***,其特征在于,
所述关系正则化的标签编码器采用拼接关系正则化的特征和全局特征作为输出。
4.一种基于关系正则化的视觉场景图生成方法,应用于如权利要求1-3任意一项所述的***,其特征在于,包括以下步骤:
a.探测物体:
探测图像中的物体,获得物体的标签、物体边框特征和联合边框特征;
b.对物体的标签进行精练:
编码探测出的物体边框特征,获得全局特征,并基于全局特征获得关系仿射矩阵,融合物体间的仿射关系获得关系正则化的特征;基于关系正则化的标签编码器的输出来解码物体的标签,获得精练后的标签;
c.获取物体间的关系:
编码标签解码器的输出,获得关系正则化的关系特征;对关系特征进行解码,获得物体间的关系;
步骤b具体包括:
b1.采用带有高速连接的Bi-LSTM网络编码Faster R-CNN探测出的物体边框特征,获得全局特征H={h1,...,hN};hi表示物体i融合全局信息后的特征;
b2.基于全局特征H获得一个图的关系仿射矩阵
Figure FDA0003728509490000041
Figure FDA0003728509490000042
表示物体i和物体j存在关系的可能性;
b3.通过两个全连接层将hi映射到一个主体空间和一个客体空间:
Figure FDA0003728509490000043
Figure FDA0003728509490000044
Figure FDA0003728509490000045
指两个全连接网络,
Figure FDA0003728509490000046
Figure FDA0003728509490000047
分别表示映射到主体和客体空间后的特征;
b4.利用DistMult模型来构建仿射矩阵:
Figure FDA0003728509490000048
其中,
Figure FDA0003728509490000049
为一个对角参数矩阵;
Figure FDA00037285094900000410
是一个由主体i和客体j特化的偏差;σ是一个激活函数,能将输出映射到0至1;ui,j是指物体i和物体j的联合特征;
b5.调整仿射矩阵
Figure FDA00037285094900000411
到一个对称矩阵
Figure FDA00037285094900000412
Figure FDA00037285094900000413
b6.使用GCNs网络编码全局特征H生成关系正则化的特征
O={o1,...,oN}:
O=ReLU(DsAsHWG)
ReLU表示线性整流函数;WG是模型需要学习的参数;
Figure FDA00037285094900000414
s是一个对角矩阵用来归一化As
Figure FDA0003728509490000051
b7.拼接H和O作为关系正则化编码器的输出:
o′i=[oi,hi]
b8.采用LSTM网络来解码每个物体的标签:
Figure FDA0003728509490000052
Figure FDA0003728509490000053
LSTM表示标准的长短期记忆网络;
Figure FDA0003728509490000054
表示长短期记忆模型的第i步输出;其中li是来自Faster R-CNN的先验标签;
Figure FDA0003728509490000055
是第i步精炼后的标签;
步骤c具体包括:
c1.采用关系正则化的关系编码器编码上层的输出:
{Ar,Z}=R2_Encoder([O′,WLLd]|Wz);
Figure FDA0003728509490000056
为上层输出的精练后的标签,Wl是由语言模型Glove初始化的映射矩阵,Wz代表编码模块中的所有需要学习的参数;
c2.获得关系正则化后的关系特征:
Z={z1,…,zN};
c3.采用两个全连接层将Z映射到主体空间和客体空间:
Figure FDA0003728509490000057
Figure FDA0003728509490000058
c4.使用DistMult模型生成关系分数:
Figure FDA0003728509490000059
r′m,i,j是指以物体i作为主体,以物体j作为客体属于关系m的分数;
Figure FDA00037285094900000510
是需要学习对角参数矩阵;
Figure FDA00037285094900000511
是指偏差项,它由物体i、物体j以及关系m共同指定;ui,j是指物体i和物体j的联合特征;
c5.使用softmax函数将分数映射到0至1:
Figure FDA0003728509490000061
Dr是数据集中包含的表示关系单词的数量;
最终获得映射到0至1的关系分数
Figure FDA0003728509490000062
5.如权利要求4所述的方法,其特征在于,
步骤a中,采用基于ResNet101的Faster R-CNN网络探测图像中的物体,所述Faster R-CNN网络为在视觉基因数据集上预训练获得。
CN201910004817.9A 2019-01-03 2019-01-03 一种基于关系正则化的视觉场景图生成***及方法 Active CN109726718B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910004817.9A CN109726718B (zh) 2019-01-03 2019-01-03 一种基于关系正则化的视觉场景图生成***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910004817.9A CN109726718B (zh) 2019-01-03 2019-01-03 一种基于关系正则化的视觉场景图生成***及方法

Publications (2)

Publication Number Publication Date
CN109726718A CN109726718A (zh) 2019-05-07
CN109726718B true CN109726718B (zh) 2022-09-16

Family

ID=66299610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910004817.9A Active CN109726718B (zh) 2019-01-03 2019-01-03 一种基于关系正则化的视觉场景图生成***及方法

Country Status (1)

Country Link
CN (1) CN109726718B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110363282B (zh) * 2019-06-06 2021-10-26 中国科学院信息工程研究所 一种基于图卷积网络的网络节点标签主动学习方法和***
CN111475661B (zh) * 2020-03-23 2023-07-14 深兰科技(上海)有限公司 一种基于有限标签构造场景图的方法、装置及计算机设备
CN111898598B (zh) * 2020-07-03 2022-08-30 贵州大学 一种动态场景下基于文本的目标检测方法
CN111931928B (zh) * 2020-07-16 2022-12-27 成都井之丽科技有限公司 场景图的生成方法、装置和设备
CN113139423B (zh) * 2021-03-09 2024-03-01 杭州电子科技大学 一种用于场景图检测的关系图学习方法
CN113836339B (zh) * 2021-09-01 2023-09-26 淮阴工学院 一种基于全局信息和位置嵌入的场景图生成方法
CN114511779B (zh) * 2022-01-20 2023-07-25 电子科技大学 场景图生成模型的训练方法、场景图生成方法及装置
CN115512003B (zh) * 2022-11-16 2023-04-28 之江实验室 一种独立关系检测的场景图生成方法和***
CN118015522A (zh) * 2024-03-22 2024-05-10 广东工业大学 用于视频场景图生成的时间过渡正则化方法和***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101567051A (zh) * 2009-06-03 2009-10-28 复旦大学 一种基于特征点的图像配准方法
CN105550709A (zh) * 2015-12-14 2016-05-04 武汉大学 一种遥感影像输电线路走廊森林区域提取方法
CN107341815A (zh) * 2017-06-01 2017-11-10 哈尔滨工程大学 基于多目立体视觉场景流的剧烈运动检测方法
WO2017206936A1 (zh) * 2016-06-02 2017-12-07 腾讯科技(深圳)有限公司 基于机器学习的网络模型构造方法及装置
CN108564126A (zh) * 2018-04-19 2018-09-21 郑州大学 一种融合语义控制的特定场景生成方法
CN108664687A (zh) * 2018-03-22 2018-10-16 浙江工业大学 一种基于深度学习的工控***时空数据预测方法
CN108830334A (zh) * 2018-06-25 2018-11-16 江西师范大学 一种基于对抗式迁移学习的细粒度目标判别方法
CN108986186A (zh) * 2018-08-14 2018-12-11 山东师范大学 文字转化视频的方法和***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5167799B2 (ja) * 2007-12-18 2013-03-21 ソニー株式会社 固体撮像装置およびカメラ
US10467795B2 (en) * 2017-04-08 2019-11-05 Intel Corporation Sub-graph in frequency domain and dynamic selection of convolution implementation on a GPU

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101567051A (zh) * 2009-06-03 2009-10-28 复旦大学 一种基于特征点的图像配准方法
CN105550709A (zh) * 2015-12-14 2016-05-04 武汉大学 一种遥感影像输电线路走廊森林区域提取方法
WO2017206936A1 (zh) * 2016-06-02 2017-12-07 腾讯科技(深圳)有限公司 基于机器学习的网络模型构造方法及装置
CN107341815A (zh) * 2017-06-01 2017-11-10 哈尔滨工程大学 基于多目立体视觉场景流的剧烈运动检测方法
CN108664687A (zh) * 2018-03-22 2018-10-16 浙江工业大学 一种基于深度学习的工控***时空数据预测方法
CN108564126A (zh) * 2018-04-19 2018-09-21 郑州大学 一种融合语义控制的特定场景生成方法
CN108830334A (zh) * 2018-06-25 2018-11-16 江西师范大学 一种基于对抗式迁移学习的细粒度目标判别方法
CN108986186A (zh) * 2018-08-14 2018-12-11 山东师范大学 文字转化视频的方法和***

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
"Deep learning for fall detection: Three-dimensional CNN combined with LSTM on video kinematic data";Lu N等;《IEEE》;20180220;第23卷(第1期);314-323 *
"Encoding sentences with graph convolutional networks for semantic role labeling";D. Marcheggiani 等;《EMNLP》;20170730;1506–1515 *
"Gc-lstm: Graph convolution embedded lstm for dynamic link prediction";Chen J 等;《arXiv:1812.04206》;20181211;1-12 *
"Learning human-object interactions by graph parsing neural networks";S. Qi 等;《 ECCV》;20181231;407–423 *
"Neural motifs: Scene graph parsing with global context";Ztellers R 等;《Computer Vision and Pattern Recognition》;20180329;5831-5840 *
"基于宏块内部特征的H.264快速预测模式决策算法";*** 等;《计算机应用研究》;20090515;第26卷(第05期);1955-1957 *
"基于磁共振成像的多变量模式分析方法学与应用研究";刘风;《万方》;20150701;1-121 *

Also Published As

Publication number Publication date
CN109726718A (zh) 2019-05-07

Similar Documents

Publication Publication Date Title
CN109726718B (zh) 一种基于关系正则化的视觉场景图生成***及方法
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN110163299B (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
CN111915627B (zh) 语义分割方法、网络、设备及计算机存储介质
Zhang et al. Deep hierarchical guidance and regularization learning for end-to-end depth estimation
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
CN110543841A (zh) 行人重识别方法、***、电子设备及介质
CN111598183B (zh) 一种多特征融合图像描述方法
CN112651940B (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN112488229B (zh) 一种基于特征分离和对齐的域自适应无监督目标检测方法
US20220180624A1 (en) Method and device for automatic identification of labels of an image
CN114445201A (zh) 一种基于多模态预训练模型的组合商品检索方法及***
Hou et al. BSNet: Dynamic hybrid gradient convolution based boundary-sensitive network for remote sensing image segmentation
CN115578735B (zh) 文本检测方法和文本检测模型的训练方法、装置
CN113297370A (zh) 基于多交互注意力的端到端多模态问答方法及***
CN112070174A (zh) 一种基于深度学习的自然场景下文本检测方法
EP4302234A1 (en) Cross-modal processing for vision and language
CN112070040A (zh) 一种用于视频字幕的文本行检测方法
Iqbal et al. FogAdapt: Self-supervised domain adaptation for semantic segmentation of foggy images
CN115331024A (zh) 一种基于深度监督和逐步学习的肠道息肉检测方法
Wang et al. Thermal images-aware guided early fusion network for cross-illumination RGB-T salient object detection
CN115222750A (zh) 基于多尺度融合注意力的遥感图像分割方法及***
CN111104941A (zh) 图像方向纠正方法、装置及电子设备
CN111178363A (zh) 文字识别方法、装置、电子设备以及可读存储介质
Huang et al. Attention‐Enhanced One‐Stage Algorithm for Traffic Sign Detection and Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant