CN115861779A - 一种基于有效特征表示的无偏场景图生成方法 - Google Patents

一种基于有效特征表示的无偏场景图生成方法 Download PDF

Info

Publication number
CN115861779A
CN115861779A CN202211506846.3A CN202211506846A CN115861779A CN 115861779 A CN115861779 A CN 115861779A CN 202211506846 A CN202211506846 A CN 202211506846A CN 115861779 A CN115861779 A CN 115861779A
Authority
CN
China
Prior art keywords
network
scene graph
effective
classification
graph generation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211506846.3A
Other languages
English (en)
Inventor
王菡子
马文熙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202211506846.3A priority Critical patent/CN115861779A/zh
Publication of CN115861779A publication Critical patent/CN115861779A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

一种基于有效特征表示的无偏场景图生成方法,涉及计算机视觉技术。采用特征提取网络和分类网络解耦的训练策略,利用预训练好的骨干网络提取物体的视觉特征;进行目标检测,利用提取到的物体的视觉特征、物体的位置编码以及物体的类别编码两两配对再次组合编码,得到适用于谓词分类的编码特征;通过一个全连接层进行谓词分类;训练特征提取网络,在推理时不采用全连接层形式的分类网络,通过计算每一类谓词的用于谓词分类的编码特征的均值,根据待分类样本的编码特征与每一类谓词特征均值的余弦相似度进行谓词分类。摒弃全连接层分类器,直接基于谓词特征进行分类,可排除全连接层参数易受长尾数据影响的问题,从而提升场景图生成任务的性能。

Description

一种基于有效特征表示的无偏场景图生成方法
技术领域
本发明涉及计算机视觉技术,尤其是涉及一种基于有效特征表示的无偏场景图生成方法。
背景技术
近年来,基于深度学***衡导致了模型的预测结果由很大的偏差,即对于预测头部谓词有着极强的倾向性,这并不能让模型很好地学会关系预测。因此,解决场景图生成任务中存在的由于长尾数据导致算法性能不高的问题就显得尤为重要。
提高场景图生成任务的谓词分类精度,一个自然的想法就是改进网络,增加其复杂性使得网络能够提取出更好的谓词特征。因此早期的SGG方法侧重于构建更好的特征提取网络。Guojun Yin等人(Yin,G.,Sheng,L.,Liu,B.,Yu,N.,Wang,X.,Shao,J.,&Loy,C.C.(2018).Zoom-net:Mining deep feature interactions for visual relationshiprecognition.In Proceedings of the European Conference on Computer Vision(ECCV)(pp.322-338).)利用局部特征的交互来提高场景图生成的性能。Kaihua Tang等人(Tang,K.,Zhang,H.,Wu,B.,Luo,W.,&Liu,W.(2019).Learning to compose dynamic treestructures for visual contexts.In Proceedings of the IEEE/CVF conference oncomputer vision and pattern recognition(pp.6619-6628).)通过利用标准循环神经网络结构或其变体结构进行消息传递,学***衡训练域中微调网络的一些参数缓解长尾问题。
发明内容
本发明的目的在于针对现有技术存在的上述难题,旨在解决在场景图生成任务中由于长尾的训练数据导致的关系检测性能不佳的问题,提供一种基于有效特征表示的无偏场景图生成方法,采用特征提取网络和分类网络解耦的训练策略,可以处理场景图生成任务中存在的长尾问题。
本发明包括以下步骤:
A.收集场景图生成数据集,划分为训练集、验证集和测试集,进行图像预处理;
B.用预训练好的骨干网络,提取物体的视觉特征,送入目标检测分支,得到物体的位置和类别;
C.将步骤B得到的物***置和类别分别进行编码,得到物***置编码特征和物体类别编码特征;
D.将步骤B得到的物体视觉特征和步骤C得到的物***置编码特征和物体类别编码特征进行拼接,得到物体的有效特征表示;
E.将每一幅图中所有物体的由步骤D得到的有效特征表示传入关系融合特征编码器,并将编码结果两两配对,得到一系列关系的有效特征表示;
F.将步骤E得到的关系的有效特征表示传入全连接层网络进行分类,计算分类损失从而进行网络的参数更新;
G.训练收敛后对于每一类谓词,利用步骤A~E计算训练集中包含该类谓词的样本的关系的有效特征的平均值,在推理时计算待分类样本的关系的有效特征与计算好的每一类关系的有效特征均值的余弦相似度,取相似度最大的类别作为分类结果。
在步骤A中,所述场景图生成数据集采用公开数据集VG-150(Xu,D.,Zhu,Y.,Choy,C.B.,&Fei-Fei,L.(2017).Scene graph generation by iterative message passing.InProceedings of the IEEE conference on computer vision and pattern recognition(pp.5410-5419).);该数据集收集108077张图片,包含150类物体和50类谓词;数据集按照7:3的比例划分为训练集和测试集,并将训练集的前5000张图片作为验证集;在训练模型时对图片进行随机剪裁、随机翻转、规范化等预处理操作,进一步扩充训练样本的丰富性。
在步骤B中,所述骨干网络采用的是ResNeXt-101-FPN网络(Xie,S.,Girshick,R.,Dollár,P.,Tu,Z.,&He,K.(2017).Aggregated residual transformations for deepneural networks.In Proceedings of the IEEE conference on computer vision andpattern recognition(pp.1492-1500),Lin,T.Y.,Dollár,P.,Girshick,R.,He,K.,Hariharan,B.,&Belongie,S.(2017).Feature pyramid networks for objectdetection.In Proceedings of the IEEE conference on computer vision andpattern recognition(pp.2117-2125).),所述目标检测分支采用的是Faster R-CNN网络(Ren,S.,He,K.,Girshick,R.,&Sun,J.(2015).Faster r-cnn:Towards real-time objectdetection with region proposal networks.Advances in neural informationprocessing systems,28.);所述物体的视觉特征为神经网络学到的一个4096维的向量;所述物体的位置为一个四维向量,代表物体框的左上角和右下角的横纵坐标,所述物体的类别为[0,CO)范围内的整数,CO表示数据集中物体类别数量。
在步骤C中,所述物体的位置编码特征为:首先计算一个九维向量,该向量每个位置分别代表:物体框的宽度/图像的宽度、物体框的高度/图像的高度、物体框中心点的横坐标/图像的宽度、物体框中心点的纵坐标/图像的高度、物体框左上角的横坐标/图像的宽度、物体框左上角的纵坐标/图像的高度、物体框右下角的横坐标/图像的宽度、物体框右下角的纵坐标/图像的高度、(物体框的宽度*物体框的高度)/(图像的宽度*图像的高度),然后进行线性变换变为128维的向量;所述物体的类别编码为神经网络嵌入层学到的200维向量。
步骤D中,所述物体的有效特征表示为:首先将步骤B得到的物体视觉特征和步骤C得到的物***置编码特征和物体类别编码特征进行拼接,再将拼接结果传入一个全连接层,转变为768维的向量。
在步骤E中,进一步包含以下子步骤:
E1.所述关系融合编码器由一系列Transformer编码器(Vaswani,A.,Shazeer,N.,Parmar,N.,Uszkoreit,J.,Jones,L.,Gomez,A.N.,...&Polosukhin,I.(2017).Attentionis all you need.Advances in neural information processing systems,30.)组成,并增加了两个融合策略;
E2.所述两个融合策略的第一部分为对Transformer编码器的输入进行的融合操作;具体来说,第1个Transformer编码器的输入为步骤D得到的物体的有效特征表示,后续的除了第M+1个Transformer编码器的输入为前一个Transformer编码器的输出;为了防止物体的有效特征表示在编码过程中被遗忘,将第M+1个Transformer编码器的输入改为第M个Transformer编码器的输出和物体的有效特征表示的融合结果,具体融合方式如下:
XM+1=(X1+YM)Win+bin (公式一)
其中XM+1为第M+1个Transformer编码器的输入;X1为第1个Transformer编码器的输入,即物体的有效特征表示;YM为第M个Transformer编码器的输出,Win和bin为线性变换所需的矩阵和向量;
E3.所述两个融合策略的第二部分为对各个Transformer编码器的输出进行的融合操作,这能使编码结果包含有多层次的特征,计算方式如下:
Figure BDA0003969344740000041
其中Y表示各个Transformer编码器编码结果的融合结果,M+N为Transformer编码器的数量;
E4.对每个物体都去计算其Transformer编码器的融合编码结果,并进行两两拼接得到一系列关系的有效特征表示,具体来说,对于一对物体<s,o>,这两个物体之间的关系的有效特征表示Fs,o由如下公式计算得到:
Fs,o=cat(YsWout+bout,YoWout+bout) (公式三)
其中cat(·,·)表示向量的拼接操作,Ys和Yo分别表示Transformer编码器对于物体s和物体o的融合编码结果,Wout和bout为线性变化所需的矩阵和向量,最终得到的关系的有效特征表示Fs,o为768维向量。
在步骤F中,为了让网络能够更新参数,将步骤E得到的关系的有效特征表示传入一个全连接层网络进行谓词分类,通过谓词分类的交叉熵损失来进行反向梯度传播,从而更新特征提取网络部分的参数。
在步骤G中,进一步包含以下子步骤:
G1.为了避免全连接层的参数会趋向于优化样本数量多的类别的分类效果的问题,在步骤A-F训练至收敛时冻结整个网络的所有参数;并且对于每一类谓词,利用步骤A-E计算训练集中包含该类谓词的关系的有效特征表示的均值,得到CR个关系特征均值,CR为数据集中谓词的类别数量,第i类谓词ri的关系特征均值μi的计算方法如下:
Figure BDA0003969344740000042
其中ni为包含第i类谓词的训练样本的数量,ps,o为物体对<s,o>之间的谓词真实值,
Figure BDA0003969344740000046
函数的定义如下:
Figure BDA0003969344740000043
G2.在模型推理阶段,首先根据步骤A-E计算待分类样本的关系的有效特征
Figure BDA0003969344740000044
并与步骤G1计算得到的所有关系特征均值一一计算余弦相似度,并取相似度最大的类别作为推理时的分类结果/>
Figure BDA0003969344740000045
具体如下:
Figure BDA0003969344740000051
本发明提出一种基于有效特征表示的无偏场景图生成方法,采用特征提取网络和分类网络解耦的训练策略,认为长尾数据主要影响模型中的分类网络。所以先进行场景图生成网络的整体训练,然后在推理时丢弃原始网络中的全连接层形式的分类器,改为使用特征余弦相似性匹配的方法进行谓词分类。这样的做法要求网络学习到的谓词特征能够切实准确地表示每个关系中主谓宾之间的联系,提出一个关系特征融合编码器来进行谓词特征的多层级融合操作,以此来获得更加切实有效的关系特征表达。这样的做法能够有效避免因为长尾数据而导致的分类器学习产生偏差的问题,有效地提升场景图生成的性能。
附图说明
图1为本发明实施例的整个网络结构图。
图2为在场景图生成数据集VG-150上随机抽取几张图片,用基准方法生成的场景图和本发明的方法生成的场景图的对比图。
具体实施方式
以下实施例将结合附图对本发明作进一步的说明,本实施例在以本发明技术方案为前提下进行实施,给出实施方式和具体操作过程,但本发明的保护范围不限于下述的实施例。
参见图1,本发明实施例的实施方式包括以下步骤:
A.收集场景图生成数据集,并划分为训练集、验证集和测试集,然后进行图像预处理。具体做法为:本发明采用公开数据集VG-150(Xu,D.,Zhu,Y.,Choy,C.B.,&Fei-Fei,L.(2017).Scene graph generation by iterative message passing.In Proceedings ofthe IEEE conference on computer vision and pattern recognition(pp.5410-5419).)。该数据集收集108077张图片,包含150类物体和50类谓词。数据集按照7:3的比例划分为训练集和测试集,并将训练集的前5000张图片作为验证集。在训练模型时对图片进行随机剪裁、随机翻转、规范化等预处理操作,进一步扩充训练样本的丰富性。
B.用预训练好的骨干网络,提取物体的视觉特征,送入目标检测分支,得到物体的位置和类别。具体做法为:所述骨干网络采用的是ResNeXt-101-FPN网络(Xie,S.,Girshick,R.,Dollár,P.,Tu,Z.,&He,K.(2017).Aggregated residual transformationsfor deep neural networks.In Proceedings of the IEEE conference on computervision and pattern recognition(pp.1492-1500),Lin,T.Y.,Dollár,P.,Girshick,R.,He,K.,Hariharan,B.,&Belongie,S.(2017).Feature pyramid networks for objectdetection.In Proceedings of the IEEE conference on computer viSion andpattern recognition(pp.2117-2125).),所述目标检测分支采用的是Faster R-CNN网络(Ren,S.,He,K.,Girshick,R.,&Sun,J.(2015).Faster r-cnn:Towards real-time objectdetection with region proposal networks.Advances in neural informationprocessing systems,28.)。所述物体的视觉特征为神经网络学到的一个4096维的向量。所述物体的位置为一个四维向量,代表物体框的左上角和右下角的横纵坐标,所述物体的类别为[0,CO)范围内的整数,CO表示数据集中物体类别数量。
C.将步骤B得到的物***置和类别分别进行编码,得到物体的位置编码特征和类别编码特征。具体做法为:所述物体的位置编码特征为:首先计算一个九维向量,该向量每个位置分别代表:物体框的宽度/图像的宽度、物体框的高度/图像的高度、物体框中心点的横坐标/图像的宽度、物体框中心点的纵坐标/图像的高度、物体框左上角的横坐标/图像的宽度、物体框左上角的纵坐标/图像的高度、物体框右下角的横坐标/图像的宽度、物体框右下角的纵坐标/图像的高度、(物体框的宽度*物体框的高度)/(图像的宽度*图像的高度),然后进行线性变换变为128维的向量。所述物体的类别编码为神经网络嵌入层学到的200维向量。
D.将步骤B得到的物体视觉特征和步骤C得到的物***置编码特征和物体类别编码特征进行拼接,得到物体的有效特征表示。具体做法为:所述物体的有效特征表示为:首先将步骤B得到的物体视觉特征和步骤C得到的物***置编码特征和物体类别编码特征进行拼接,再将拼接结果传入一个全连接层,转变为768维的向量。
E.将每一幅图中所有物体的由步骤D得到的有效特征表示传入关系融合特征编码器,并将编码结果两两配对,得到一系列关系的有效特征表示。具体做法包含以下子步骤:
E1.所述关系融合编码器由一系列Transformer编码器(Vaswani,A.,Shazeer,N.,Parmar,N.,Uszkoreit,J.,Jones,L.,Gomez,A.N.,...&Polosukhin,I.(2017).Attentionis all you need.Advances in neural information processing systems,30.)组成,并增加了两个融合策略。
E2.所述两个融合策略的第一部分为对Transformer编码器的输入进行的融合操作。具体来说,第1个Transformer编码器的输入为步骤D得到的物体的有效特征表示,后续的除了第M+1个Transformer编码器的输入为前一个Transformer编码器的输出。为了防止物体的有效特征表示在编码过程中被遗忘,将第M+1个Transformer编码器的输入改为第M个Transformer编码器的输出和物体的有效特征表示的融合结果,具体融合方式如下:
XM+1=(X1+YM)Win+bin (公式一)
其中XM+1为第M+1个Transformer编码器的输入;X1为第1个Transformer编码器的输入,即物体的有效特征表示;YM为第M个Transformer编码器的输出,Win和bin为线性变换所需的矩阵和向量。
E3.所述两个融合策略的第二部分为对各个Transformer编码器的输出进行的融合操作,这能使编码结果包含有多层次的特征,计算方式如下:
Figure BDA0003969344740000071
其中Y表示各个Transformer编码器编码结果的融合结果,M+N为Transformer编码器的数量。
E4.对每个物体都去计算其Transformer编码器的融合编码结果,并进行两两拼接得到一系列关系的有效特征表示,具体来说,对于一对物体<s,o>,这两个物体之间的关系的有效特征表示Fs,o由如下公式计算得到:
Fs,o=cat(YsWout+bout,YoWout+bout) (公式三)
其中cat(·,·)表示向量的拼接操作,Ys和Yo分别表示Transformer编码器对于物体s和物体o的融合编码结果,Wout和bout为线性变化所需的矩阵和向量,最终得到的关系的有效特征表示Fs,o为768维向量。
F.将步骤E得到的关系的有效特征表示传入全连接层网络进行分类,计算分类损失从而进行网络的参数更新。具体做法为:为了让网络能够更新参数,将步骤E得到的关系的有效特征表示传入一个全连接层网络进行谓词分类,通过谓词分类的交叉熵损失来进行反向梯度传播,从而更新特征提取网络部分的参数。
G.训练收敛后对于每一类谓词,利用步骤A-E计算训练集中包含该类谓词的样本的关系的有效特征的平均值,在推理时计算待分类样本的关系的有效特征与计算好的每一类关系的有效特征均值的余弦相似度,取相似度最大的类别作为分类结果。具体做法包含以下子步骤:
G1.为了避免全连接层的参数会趋向于优化样本数量多的类别的分类效果的问题,在步骤A-F训练至收敛时冻结整个网络的所有参数。并且对于每一类谓词,利用步骤A-E计算训练集中包含该类谓词的关系的有效特征表示的均值,得到CR个关系特征均值,CR为数据集中谓词的类别数量,第i类谓词ri的关系特征均值μi的计算方法如下:
Figure BDA0003969344740000072
其中ni为包含第i类谓词的训练样本的数量,ps,o为物体对<s,o>之间的谓词真实值,
Figure BDA0003969344740000073
函数的定义如下:
Figure BDA0003969344740000074
G2.在模型推理阶段,首先根据步骤A-E计算待分类样本的关系的有效特征
Figure BDA0003969344740000075
并与步骤G1计算得到的所有关系特征均值一一计算余弦相似度,并取相似度最大的类别作为推理时的分类结果/>
Figure BDA0003969344740000081
具体如下:
Figure BDA0003969344740000082
如图2所示,给定若干张图片,本发明的方法相对于基准方法而言能够生成更加有意义的场景图,避免了基准方法一味预测高频谓词的问题,有效地缓解了场景图生成任务中面临的长尾问题,能够预测出低频但更有信息量的谓词。
表1为本发明的方法与其它一些现有的场景图生成方法在VG-150的测试数据上三个常见子任务的谓词平均召回率(mR)对比。
从表1可以看出,本发明在VG-150数据集上评价场景图生成模型的三个常见子任务上都取得了最高的谓词平均召回率(mR)。
表1
Figure BDA0003969344740000083
IMP对应为Danfei Xu等人提出的方法(Xu,D.,Zhu,Y.,Choy,C.B.,&Fei-Fei,L.(2017).Scene graph generation by iterative message passing.In Proceedings ofthe IEEE conference on computer vision and pattern recognition(pp.5410-5419).);
MotifNet对应为Rowan Zeller等人提出的方法(Zellers,R.,Yatskar,M.,Thomson,S.,&Choi,Y.(2018).Neural motifs:Scene graph parsing with globalcontext.In Proceedings of the IEEE conference on computer vision and patternrecognition(pp.5831-5840).);
VCTree对应于Kaihua Tang等人提出的方法(Tang,K.,Zhang,H.,Wu,B.,Luo,W.,&Liu,W.(2019).Learning to compose dynamic tree structures for visualcontexts.In Proceedings of the IEEE/CVF conference on computer vision andpattern recognition(pp.6619-6628).);
TDE对应为Kaihua Tang等人提出的方法(Tang,K.,Niu,Y.,Huang,J.,Shi,J.,&Zhang,H.(2020).Unbiased scene graph generation from biased training.InProceedings of the IEEE/CVF conference on computer vision and patternrecognition(pp.3716-3725).);
PUM对应为Gengcong Yang等人提出的方法(Yang,G.,Zhang,J.,Zhang,Y.,Wu,B.,&Yang,Y.(2021).Probabilistic modeling of semantic ambiguity for scenegraph generation.In Proceedings of the IEEE/CVF Conference on Computer Visionand Pattern Recognition(pp.12527-12536).);
BGNN对应为Rongjie Li等人提出的方法(Li,R.,Zhang,S.,Wan,B.,&He,X.(2021).Bipartite graph network with adaptive message passing for unbiasedscene graph generation.In Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition(pp.11109-11119).);
BA-SGG对应为Yuyu Guo等人提出的方法(Guo,Y.,Gao,L.,Wang,X.,Hu,Y.,Xu,X.,Lu,X.,...&Song,J.(2021).From general to specific:Informative scene graphgeneration via balance adjustment.In Proceedings of the IEEE/CVFInternational Conference on Computer Vision(pp.16383-16392).)。
场景图生成目的是检测一幅图里的物体以及物体之间的关系,该关系用形如<主语,谓语,宾语>的三元组来表示。本发明采用特征提取网络和分类网络解耦的训练策略,首先利用预训练好的骨干网络提取物体的视觉特征;然后进行目标检测,并且利用提取到的物体的视觉特征、物体的位置编码以及物体的类别编码进行两两配对再次组合编码,得到适用于谓词分类的编码特征;再通过一个全连接层进行谓词分类;通过上述步骤训练特征提取网络,并且在推理时不采用全连接层形式的分类网络,而通过计算每一类谓词的用于谓词分类的编码特征的均值,根据待分类样本的编码特征与每一类谓词特征均值的余弦相似度进行谓词分类。这种摒弃全连接层分类器,直接基于谓词特征进行分类的做法,可以排除全连接层参数易受长尾数据影响的问题,从而提升场景图生成任务的性能。

Claims (8)

1.一种基于有效特征表示的无偏场景图生成方法,其特征在于包括以下步骤:
A.收集场景图生成数据集,划分为训练集、验证集和测试集,进行图像预处理;
B.用预训练好的骨干网络,提取物体的视觉特征,送入目标检测分支,得到物体的位置和类别;
C.将步骤B得到的物***置和类别分别进行编码,得到物***置编码特征和物体类别编码特征;
D.将步骤B得到的物体视觉特征和步骤C得到的物***置编码特征和物体类别编码特征拼接,得到物体的有效特征表示;
E.将每一幅图中所有物体的由步骤D得到的有效特征表示传入关系融合特征编码器,并将编码结果两两配对,得到一系列关系的有效特征表示;
F.将步骤E得到的关系的有效特征表示传入全连接层网络进行分类,计算分类损失从而进行网络的参数更新;
G.训练收敛后对于每一类谓词,利用步骤A-E计算训练集中包含该类谓词的样本的关系的有效特征的平均值,在推理时计算待分类样本的关系的有效特征与计算好的每一类关系的有效特征均值的余弦相似度,取相似度最大的类别作为分类结果。
2.如权利要求1所述一种基于有效特征表示的无偏场景图生成方法,其特征在于:在步骤A中,所述场景图生成数据集采用公开数据集VG-150,该数据集收集108077张图片,包含150类物体和50类谓词;数据集按7︰3的比例划分为训练集和测试集,将训练集的前5000张图片作为验证集;在训练模型时对图片预处理操作扩充训练样本的丰富性,所述预处理操作包括随机剪裁、随机翻转、规范化。
3.如权利要求1所述一种基于有效特征表示的无偏场景图生成方法,其特征在于:在步骤B中,所述骨干网络采用的是ResNeXt-101-FPN网络,所述目标检测分支采用Faster R-CNN网络;所述物体的视觉特征为神经网络学到的一个4096维的向量;所述物体的位置为一个四维向量,代表物体框的左上角和右下角的横纵坐标,所述物体的类别为[0,CO)范围内的整数,CO表示数据集中物体类别数量。
4.如权利要求1所述一种基于有效特征表示的无偏场景图生成方法,其特征在于:在步骤C中,所述物***置编码特征为:计算一个九维向量,该向量每个位置分别代表:物体框的宽度/图像的宽度、物体框的高度/图像的高度、物体框中心点的横坐标/图像的宽度、物体框中心点的纵坐标/图像的高度、物体框左上角的横坐标/图像的宽度、物体框左上角的纵坐标/图像的高度、物体框右下角的横坐标/图像的宽度、物体框右下角的纵坐标/图像的高度、(物体框的宽度*物体框的高度)/(图像的宽度*图像的高度),然后进行线性变换变为128维的向量;所述物体类别编码为神经网络嵌入层学到的200维向量。
5.如权利要求1所述一种基于有效特征表示的无偏场景图生成方法,其特征在于:在步骤D中,所述物体的有效特征表示为:将步骤B得到的物体视觉特征和步骤C得到的物***置编码特征和物体类别编码特征拼接,将拼接结果传入一个全连接层,转变为768维的向量。
6.如权利要求1所述一种基于有效特征表示的无偏场景图生成方法,其特征在于:在步骤E中,所述得到一系列关系的有效特征表示包括:
E1.所述关系融合编码器由一系列Transformer编码器组成,并增加两个融合策略;
所述两个融合策略的第一部分为对Transformer编码器的输入进行的融合操作;具体的,第1个Transformer编码器的输入为步骤D得到的物体的有效特征表示,后续的除了第M+1个Transformer编码器的输入为前一个Transformer编码器的输出;为了防止物体的有效特征表示在编码过程中被遗忘,将第M+1个Transformer编码器的输入改为第M个Transformer编码器的输出和物体的有效特征表示的融合结果,融合方式如下:
XM+1=(X1+YM)Win+bin
其中,XM+1为第M+1个Transformer编码器的输入;X1为第1个Transformer编码器的输入,即物体的有效特征表示;YM为第M个Transformer编码器的输出,Win和bin为线性变换所需的矩阵和向量;
所述两个融合策略的第二部分为对各个Transformer编码器的输出进行的融合操作,这能使编码结果包含有多层次的特征,计算方式如下:
Figure FDA0003969344730000021
其中,Y表示各个Transformer编码器编码结果的融合结果,M+N为Transformer编码器的数量;
E2.对每个物体都去计算其Transformer编码器的融合编码结果,两两拼接得到一系列关系的有效特征表示,具体的,对于一对物体<s,o>,这两个物体之间的关系的有效特征表示Fs,o由如下公式计算得到:
Fs,o=cat(YsWout+bout,oWout+bout)
其中,cat(·,表示向量的拼接操作,Ys和Yo分别表示Transformer编码器对于物体s和物体o的融合编码结果,Wout和bout为线性变化所需的矩阵和向量,最终得到的关系的有效特征表示Fs,o为768维向量。
7.如权利要求1所述一种基于有效特征表示的无偏场景图生成方法,其特征在于:在步骤F中,所述将步骤E得到的关系的有效特征表示传入全连接层网络进行分类,计算分类损失从而进行网络的参数更新,为了让网络能够更新参数,将步骤E得到的关系的有效特征表示传入一个全连接层网络进行谓词分类,通过谓词分类的交叉熵损失进行反向梯度传播,从而更新特征提取网络部分的参数。
8.如权利要求1所述一种基于有效特征表示的无偏场景图生成方法,其特征在于:在步骤G中,包括以下子步骤:
G1.为了避免全连接层的参数会趋向于优化样本数量多的类别的分类效果的问题,在步骤A-F训练至收敛时冻结整个网络的所有参数;对于每一类谓词,利用步骤A-E计算训练集中包含该类谓词的关系的有效特征表示的均值,得到CR个关系特征均值,CR为数据集中谓词的类别数量,第i类谓词ri的关系特征均值μi的计算方法如下:
Figure FDA0003969344730000031
其中,ni为包含第i类谓词的训练样本的数量,ps,o为物体对<s,o>之间的谓词真实值,
Figure FDA0003969344730000032
函数的定义如下:
Figure FDA0003969344730000033
G2.在模型推理阶段,根据步骤A-E计算待分类样本的关系的有效特征
Figure FDA0003969344730000034
与步骤G1计算得到的所有关系特征均值一一计算余弦相似度,取相似度最大的类别作为推理时的分类结果/>
Figure FDA0003969344730000035
公式如下:
Figure FDA0003969344730000036
/>
CN202211506846.3A 2022-11-29 2022-11-29 一种基于有效特征表示的无偏场景图生成方法 Pending CN115861779A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211506846.3A CN115861779A (zh) 2022-11-29 2022-11-29 一种基于有效特征表示的无偏场景图生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211506846.3A CN115861779A (zh) 2022-11-29 2022-11-29 一种基于有效特征表示的无偏场景图生成方法

Publications (1)

Publication Number Publication Date
CN115861779A true CN115861779A (zh) 2023-03-28

Family

ID=85667472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211506846.3A Pending CN115861779A (zh) 2022-11-29 2022-11-29 一种基于有效特征表示的无偏场景图生成方法

Country Status (1)

Country Link
CN (1) CN115861779A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117333744A (zh) * 2023-09-21 2024-01-02 南通大学 一种基于空间特征融合和原型嵌入的无偏场景图生成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117333744A (zh) * 2023-09-21 2024-01-02 南通大学 一种基于空间特征融合和原型嵌入的无偏场景图生成方法
CN117333744B (zh) * 2023-09-21 2024-05-28 南通大学 一种基于空间特征融合和原型嵌入的无偏场景图生成方法

Similar Documents

Publication Publication Date Title
CN111583263B (zh) 一种基于联合动态图卷积的点云分割方法
CN108229550B (zh) 一种基于多粒度级联森林网络的云图分类方法
CN111325236B (zh) 一种基于卷积神经网络的超声图像分类方法
CN110570433B (zh) 基于生成对抗网络的图像语义分割模型构建方法和装置
CN110555841B (zh) 基于自注意图像融合和dec的sar图像变化检测方法
CN114120041B (zh) 一种基于双对抗变分自编码器的小样本分类方法
CN113361373A (zh) 一种农业场景下的航拍图像实时语义分割方法
CN116206185A (zh) 一种基于改进YOLOv7的轻量级小目标检测方法
CN109871749B (zh) 一种基于深度哈希的行人重识别方法和装置、计算机***
CN113688941A (zh) 基于生成对抗网络的小样本声呐图像分类识别优化方法
CN112733693B (zh) 一种全局感知高分辨率遥感影像多尺度残差道路提取方法
CN115861779A (zh) 一种基于有效特征表示的无偏场景图生成方法
Wang et al. Generative adversarial network based on resnet for conditional image restoration
CN115170943A (zh) 一种基于迁移学习的改进视觉Transformer海底底质声呐图像分类方法
CN112905828A (zh) 一种结合显著特征的图像检索器、数据库及检索方法
CN114675249A (zh) 基于注意力机制的雷达信号调制方式识别方法
CN115565019A (zh) 基于深度自监督生成对抗的单通道高分辨sar图像地物分类方法
CN115965968A (zh) 基于知识引导的小样本目标检测识别方法
CN115032682A (zh) 一种基于图论的多站台地震震源参数估计方法
Xie et al. Co-compression via superior gene for remote sensing scene classification
CN112560034B (zh) 基于反馈式深度对抗网络的恶意代码样本合成方法及装置
CN117765258A (zh) 基于密度自适应和注意力机制的大规模点云语义分割方法
CN113111774B (zh) 一种基于主动增量式微调的雷达信号调制方式识别方法
CN114004295B (zh) 一种基于对抗增强的小样本图像数据拓展方法
CN112966544B (zh) 一种采用ICGAN与ResNet网络的雷达辐射源信号分类识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination