CN111985542B - 代表性图结构模型、视觉理解模型的建立方法及应用 - Google Patents

代表性图结构模型、视觉理解模型的建立方法及应用 Download PDF

Info

Publication number
CN111985542B
CN111985542B CN202010778717.4A CN202010778717A CN111985542B CN 111985542 B CN111985542 B CN 111985542B CN 202010778717 A CN202010778717 A CN 202010778717A CN 111985542 B CN111985542 B CN 111985542B
Authority
CN
China
Prior art keywords
long
matrix
representative
module
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010778717.4A
Other languages
English (en)
Other versions
CN111985542A (zh
Inventor
吴东岳
余昌黔
高常鑫
桑农
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202010778717.4A priority Critical patent/CN111985542B/zh
Publication of CN111985542A publication Critical patent/CN111985542A/zh
Application granted granted Critical
Publication of CN111985542B publication Critical patent/CN111985542B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种代表性图结构模型、视觉理解模型的建立方法及应用,属于视觉理解领域,包括:建立代表性图结构模型;代表性图结构模型包括:特征映射模块,用于从输入特征图像中提取值分支、键值分支和序列分支,并生成偏移矩阵;采样模块,用于根据偏移矩阵对值分支和键值分支中的节点(像素或图像栅格)采样,得到代表性特征;长距离依赖信息捕获模块,用于对键值分支的代表性特征与序列分支进行矩阵乘法后进行Softmax操作,得到关系矩阵,并对值分支的代表性特征与关系矩阵进行矩阵乘法,得到长距离依赖矩阵;以及特征反映射模块,用于将长距离依赖信息编码到输入特征图像中。本发明能够学习到更精炼的长距离依赖信息,提高视觉理解任务的准确度。

Description

代表性图结构模型、视觉理解模型的建立方法及应用
技术领域
本发明属于视觉理解领域,更具体地,涉及一种代表性图结构模型、视觉理解模型的建立方法及应用。
背景技术
长距离依赖,是图像中位置相隔较远的区域或像素间具有的语义关系。对长距离依赖进行建模的工作,对于语义分割、目标检测、目标分割等视觉理解任务具有重要意义,例如判断图像中某区域/像素所属类别时可将其他距离较远的相似特征区域/像素纳入判断结果的影响因素。先前的主流方法依靠局部操作的深度堆叠,例如卷积操作。但这种方法计算低效、优化困难而且感受野较小。
为解决上述问题,non-local方法被提出以捕获长距离依赖。Non-local操作对每个位置,将其他所有位置的加权和作为计算得到的长距离依赖信息,其权重从一个密集关系矩阵中获得。该密集关系矩阵通过卷积层映射和一些列矩阵运算后产生,对于每个位置而言,该密集关系矩阵记录了其他所有位置对当前位置的重要程度。当然,在关系矩阵中会存在冗余,这也导致计算复杂度较高。对于每个位置,有些其他位置可能只产生很小的响应。经过统计研究,某些位置对响应产生主要贡献,而大多数位置只产生极少贡献。因此,关系矩阵中的冗余在non-local计算中必然导致计算冗余。
总体而言,上述用于捕获长距离依赖的方法具有高计算复杂度的特点,限制了实际应用中捕获长距离依赖的效率与效果,造成各种计算机视觉理解任务准确度较低。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种代表性图结构模型、视觉理解模型的建立方法及应用,其目的在于,解决现有的捕获长距离依赖的方法因计算复杂度高,限制了长距离依赖捕获的效率和效果,导致视觉理解任务准确度低的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种代表性图结构模型建立方法,包括:
建立代表性图结构模型,用于捕获输入特征图像的长距离依赖信息;
代表性图结构模型包括:特征映射模块、采样模块、长距离依赖信息捕获模块以及特征反映模块;
特征映射模块,用于从输入特征图像中提取值分支、键值分支和序列分支,并生成用于指示采样点坐标的偏移矩阵;
采样模块,用于根据偏移矩阵分别对值分支和键值分支中各节点的邻居节点进行采样,得到值分支的代表性特征和键值分支的代表性特征;
长距离依赖信息捕获模块,用于对键值分支的代表性特征与序列分支进行矩阵乘法后进行Softmax操作,得到关系矩阵,关系矩阵中记录了各节点与其采样点间的关系向量;长距离信息捕获模块,还用于对值分支的代表性特征与关系矩阵进行矩阵乘法,得到长距离依赖矩阵,长距离依赖矩阵记录了各节点的长距离依赖信息;
特征反映模块,用于将节点间的长距离依赖信息编码到输入特征图像中,输出包含长距离依赖信息的特征图像;
其中,节点为像素或图像栅格。
进一步地,代表性图结构模型还包括通道划分模块和特征整合模块;
通道划分模块,用于按照通道分别对值分支的代表性特征、键值分支的代表性特征以及分支序列进行划分,得到多个通道组,并将各通道组分别输入至长距离依赖信息捕获模块,以捕获各通道组内节点间的长距离依赖信息;
特征整合模块,用于整合各通道组内节点间的长距离依赖信息,得到输入特征图像中各节点的长距离依赖信息,并输入至特征反映射模块,以由特征反映射模块将节点间的长距离依赖信息编码到输入特征图像中;
其中,按照通道划分后,对应通道的值分支的代表性特征、键值分支的代表性特征以及序列分支构成一个通道组。
在一些可选的实施方式中,特征映射模块包括:第一卷积层、第二卷积层、第三卷积层和第四卷积层,各卷积层的卷积核大小均为1×1;
第一卷积层、第二卷积层、第三卷积层和第四卷积层分别用于对输入特征图像进行卷积操作,得到值分支、偏移矩阵、键值分支和序列分支。
进一步地,特征反映射模块包括:第五卷积层和第一aggregation层,第五卷积层的卷积核大小为1×1;
第五卷积层,用于对长距离依赖矩阵进行卷积操作,将长距离依赖矩阵的大小还原至与输入特征图像相同;
第一aggregation层,用于对输入特征映射模块的特征图像与还原后的长距离依赖矩阵进行aggregation操作,将节点间的长距离依赖信息编码到输入特征图像中。
在一些可选的实施方式中,特征映射模块包括:第六卷积层、第一批归一化层、第一激活层和第七卷积层,第六卷积层和第七卷积层的卷积核大小均为1×1;
第六卷积层、第一批归一化层和第一激活层,用于依次对输入特征图像进行卷积操作、批归一化操作和激活操作,得到值分支、键值分支和序列分支;
第七卷积层,用于对第一激活层的输出图像进行卷积操作,得到偏移矩阵。
进一步地,特征反映射模块包括:第八卷积层、第二批归一化层、第二aggregation层和第二激活层,第八卷积层的卷积核大小为1×1;
第八卷积层和第二批归一化层,用于依次对长距离依赖矩阵进行卷积操作和批归一化操作,将长距离依赖矩阵的大小还原至与输入特征图像相同;
第二aggregation层和第二激活层,用于对输入特征图像与还原后的长距离依赖矩阵进行aggregation操作后,对操作结果进行激活操作,将节点间的长距离依赖信息编码到输入特征图像中。
按照本发明的另一个方面,提供了一种视觉理解模型建立方法,包括:
在用于执行目标视觉理解任务的主干网络中,***利用本发明提供的的代表性图结构模型建立方法得到的代表性图结构模型,得到视觉理解模型;
利用标准训练集对视觉理解模型进行训练,得到训练好的视觉理解模型;
其中,标准训练集中各样本由与目标视觉理解任务相关的图像及其对应的标签真值构成,标签真值用于指示任务结果。
按照本发明的又一个方面,提供了一种视觉理解任务执行方法,包括:
将待执行的视觉理解任务的图像输入至训练好的视觉理解模型中,得到任务结果;
其中,训练好的视觉理解模型由本发明提供的视觉理解模型建立方法得到。
按照本发明的又一个方面,提供了一种计算机可读存储介质,该计算机可读存储介质包括存储的计算机程序,在该计算机程序被处理器运行时控制计算机可读存储介质所在设备执行本发明提供的代表性图结构模块建立方法,和/或本发明提供的视觉理解模型建立方法,和/或本发明提供的视觉理解任务执行方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明提供的代表性图结构模型建立方法,通过分别提取特征图像的值分支、键值分支和序列分支,并动态地对值分支和键值分支中各节点的邻居节点进行采样,获取到值分支和键值分支中各节点的代表性特征,从而基于采样后的代表性节点能够学习到更精炼的长距离依赖信息,增强特征的表征能力,提高计算机视觉理解任务的准确度。
(2)本发明提供的代表性图结构模型建立方法,通过动态地对值分支和键值分支中各节点的邻居节点进行采样,大幅降低计算复杂度,抵消了部分长距离依赖在应用中因计算复杂度产生的限制,改善了长距离依赖的应用前景。
(3)本发明提供的视觉理解模型建立方法,通过在执行视觉理解任务的主干网络中***代表性图结构模型,可以在主干网络执行视觉理解任务的过程中,捕获特征图像中节点间的长距离依赖信息,从而可以利用长距离依赖信息提高视觉理解任务的准确度。
附图说明
图1为本发明实施例提供的代表性图结构模型示意图;
图2为本发明实施例提供的简单代表性图结构模型示意图;
图3为本发明实施例提供的采样模块示意图;
图4为本发明实施例提供的瓶颈形代表性图结构模型示意图;
图5为本发明实施例提供的栅格化代表性图结构模型示意图;
图6为本发明实施例提供的分组代表性图结构模块示意图;
图7(a)~图7(e)为自动驾驶场景下,对于不同节点采样得到的代表性节点的可视化结果;
图8(a)~图8(e)为地理信息***中,对于不同节点采样得到的代表性节点的可视化结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1:
一种代表性图结构模型建立方法,包括:
建立代表性图结构模型,用于捕获输入特征图像的长距离依赖信息;
如图1所示,代表性图结构模型包括:特征映射模块、采样模块、长距离依赖信息捕获模块以及特征反映射模块;
特征映射模块,用于从输入特征图像中提取值分支、键值分支和序列分支,并生成用于指示采样点坐标的偏移矩阵;
采样模块,用于根据偏移矩阵分别对值分支和键值分支中各节点的邻居节点进行采样,得到值分支的代表性特征和键值分支的代表性特征;
长距离依赖信息捕获模块,用于对键值分支的代表性特征与序列分支进行矩阵乘法后进行Softmax操作,得到关系矩阵,关系矩阵中记录了各节点与其采样点间的关系向量;长距离信息捕获模块,还用于对值分支的代表性特征与关系矩阵进行矩阵乘法,得到长距离依赖矩阵,长距离依赖矩阵记录了各节点的长距离依赖信息;
特征反映射模块,用于将节点间的长距离依赖信息编码到输入特征图像中,输出包含长距离依赖信息的特征图像;
本实施例中,节点为像素;
本实施例,通过分别提取特征图像的值分支、键值分支和序列分支,并动态地对值分支和键值分支中各节点的邻居节点进行采样,获取到值分支和键值分支中各节点的代表性特征,从而基于采样后的代表性节点能够学习到更精炼的长距离依赖信息,增强特征的表征能力,提高计算机视觉理解任务的准确度;并且,本实施例通过动态地对值分支和键值分支中各节点的邻居节点进行采样,大幅降低计算复杂度,抵消了部分长距离依赖在应用中因计算复杂度产生的限制,改善了长距离依赖的应用前景。
作为一种可选的实施方式,本实施例所提供的代表性图结构模型,是一种简单的代表性图结构模型,其结构具体如图2所示;图2中,V,K,Q分别表示值分支、键值分支和序列分支,Wg、Wh、Wφ和Wθ分别表示权重;在视觉理解领域中,特征图像的构成元素可以看做是由一系列的<Key,Value>数据对,Key和Value分别表示键值和值;序列分支中包含了各节点的注意力向量,给定一个节点,其注意力向量中的值表示该节点与其余节点间对应边的权重,表征其余节点对该节点的重要程度;N表示总节点个数,C表示原始输入特征的通道数,C'表示特征经变换后的通道数,S采样的表示代表性节点个数;
如图2所示,本实施例中,特征映射模块包括:第一卷积层、第二卷积层、第三卷积层和第四卷积层,各卷积层的卷积核大小均为1×1;
第一卷积层、第二卷积层、第三卷积层和第四卷积层分别用于对输入特征图像进行卷积操作,得到值分支、偏移矩阵、键值分支和序列分支;
如图2所示,本实施例中,特征反映射模块包括:第五卷积层和第一aggregation层,第五卷积层的卷积核大小为1×1;
第五卷积层,用于对长距离依赖矩阵进行卷积操作,将长距离依赖矩阵的大小还原至与输入特征图像相同;
第一aggregation层,用于对输入特征映射模块的特征图像与还原后的长距离依赖矩阵进行aggregation操作,将节点间的长距离依赖信息编码到输入特征图像中;
aggregation操作即表示对应位置相加操作或拼接操作。
如图2所示,本实施例中,采样模块包括两个采样器Sampler,分别用于对值分支和键值分支中的节点进行动态采样,采样所依据的位置信息均来自于第二卷积层执行1×1卷积操作回归产生的偏移矩阵,根据偏移矩阵采样S个代表性节点,各代表性节点的位置以二维坐标表示,相应地偏移矩阵有2S个通道,其值为小数形式;
作为一种可选的实施方式,本实施例中对于每个节点p,从其邻居节点中采样9个代表性节点S1~S9,采样结果如图3所示;基于采样结果,在输入特征图像的连接矩阵中,任意节点仅与其代表性节点为邻居关系,即仅在节点与其代表性节点之间存在连接的边;
采样后,对键值分支的代表性特征与序列分支进行矩阵乘法,使键值分支中各节点的代表性特征与序列分支中对应节点的注意力向量进行矩阵乘法,获得各节点与其代表性节点间的关系向量,之后进行Softmax操作,即可获得维度为N×S的关系矩阵。
实施例2:
一种代表性图结构模型建立方法,本实施例与上述实施例1类似,所不同之处在于,本实施例所提供的代表性图结构模型,是一种瓶颈形的代表性图结构模型,其结构具体如图4所示;
如图4所示,本实施例中,特征映射模块包括:第六卷积层、第一批归一化层、第一激活层和第七卷积层,第六卷积层和第七卷积层的卷积核大小均为1×1;
第六卷积层、第一批归一化层和第一激活层,用于依次对输入特征图像进行卷积操作、批归一化操作和激活操作,得到值分支、键值分支和序列分支;
第七卷积层,用于对第一激活层的输出图像进行卷积操作,得到偏移矩阵。
特征反映射模块包括:第八卷积层、第二批归一化层、第二aggregation层和第二激活层,第八卷积层的卷积核大小为1×1;
第八卷积层和第二批归一化层,用于依次对长距离依赖矩阵进行卷积操作和批归一化操作,将长距离依赖矩阵的大小还原至与输入特征图像相同;
第二aggregation层和第二激活层,用于对输入特征图像与还原后的长距离依赖矩阵进行aggregation操作后,对操作结果进行激活,将节点间的长距离依赖信息编码到输入特征图像中;
本实施例中,第一激活层和第二激活层采用的激活函数均为Relu激活函数。
实施例3:
一种代表性图结构模型建立方法,本实施例与上述实施例1类似,所不同之处在于,如图5所示,本实施例中,节点表示图像栅格;
具体地,特征映射模块将输入特征图像按空间栅格化,将输入特征中的位置分成不同组,每组中的左上位置元素为锚定位置,并使用平均池化对信息进行聚合以回归偏移矩阵;每一个栅格作为一个节点;学习得到的偏移矩阵应用于所有锚定位置上以对每个栅格采样其代表性节点;
如图5所示,在本实施例中,栅格大小为3×3,具体地,3×3输入中正中心方框及其对应栅格化后的特征p所示,每组的锚定坐标为栅格中左上角的像素位置的坐标;G表示沿着某一维度的每组中像素个数,本实施例中,G=2。
本实施例以图像栅格为节点,将图像栅格作为节点可通过大量减少参与运算的节点个数,从而减少计算。
实施例4:
一种代表性图结构模型建立方法,本实施例与上述实施例1类似,所不同之处在于,如图6所示,本实施例中,代表性图结构模型还包括通道划分模块和特征整合模块;
通道划分模块,用于按照通道分别对值分支的代表性特征、键值分支的代表性特征以及分支序列进行划分,得到多个通道组,并将各通道组分别输入至长距离依赖信息捕获模块,以捕获各通道组内节点间的长距离依赖信息;
特征整合模块,用于整合各通道组内节点间的长距离依赖信息,得到输入特征图像中各节点的长距离依赖信息,并输入至特征反映射模块,以由特征反映射模块将节点间的长距离依赖信息编码到输入特征图像中;
其中,按照通道划分后,对应通道的值分支的代表性特征、键值分支的代表性特征以及序列分支构成一个通道组。
本实施例按照通道分别对值分支的代表性特征、键值分支的代表性特征以及分支序列进行划分,得到多个通道组,分别捕捉各通道组内节点间的长距离依赖信息,通道划分可捕获各组通道内长距离依赖信息的各自特性,同时也可以通过降低特征维度,从而减少计算增加模型容量。
为了提高通道组间的并行性,可选地,本实施例中,依据划分得到的通道组的数量,长距离依赖信息捕获模块还可以相应地设置有多个;
每个长距离依赖信息捕获模块分用于捕获一个通道组内各节点间的长距离依赖信息,并输入至特征整合模块。
实施例5:
一种视觉理解模型建立方法,包括:
在用于执行目标视觉理解任务的主干网络中,***利用本发明提供的的代表性图结构模型建立方法得到的代表性图结构模型,得到视觉理解模型;
利用标准训练集对视觉理解模型进行训练,得到训练好的视觉理解模型;
其中,标准训练集中各样本由与目标视觉理解任务相关的图像及其对应的标签真值构成,标签真值用于指示任务结果;
本实施例中,代表性图结构模型***主干网络后,输入代表性图结构模型的特征图像是原始图像特征顺次通过主干网络中***位置之前的模块后输出的特征图像;
其中,具体使用主干网络中的哪个模块的输出特征可根据目标视觉理解任务的实际要求相应设定。
实施例6:
一种视觉理解任务执行方法,包括:
将待执行的视觉理解任务的图像输入至训练好的视觉理解模型中,得到任务结果;
其中,训练好的视觉理解模型由上述实施例5提供的视觉理解模型建立方法得到。
实施例7:
一种计算机可读存储介质,该计算机可读存储介质包括存储的计算机程序,在该计算机程序被处理器运行时控制计算机可读存储介质所在设备执行上述实施例1-4中任一项提供的代表性图结构模块建立方法,和/或上述实施例5提供的视觉理解模型建立方法,和/或上述实施例6提供的视觉理解任务执行方法。
以下结合一些具体的应用场景对本发明所能取得的有效效果做进一步的解释说明:
采用上述实施例2建立瓶颈形代表性图结构模型,代表性图结构模块首先通过1×1卷积层、批归一化层与Relu激活函数,之后进行四个分支的操作;采样器模块分别针对值分支和键值分支中每个节点(或称位置)动态地采样,每个节点选取九个采样点(S=9)作为代表性节点,确定每个节点的代表性节点集合,并通过插值操作在值分支与键值分支上分别获得采样后的两分支的代表性特征。键值分支的采样后某节点的采样点特征与序列分支中该节点对应的注意力向量进行矩阵乘法获得该节点与其采样点间的关系向量,将所有节点都进行该操作后进行Softmax操作,即可获得维度为N×S的关系矩阵。将该关系矩阵与值分支采样后的代表性特征进行矩阵乘法后通过1×1卷积层、批归一化层,与原始输入特征图像进行aggregation操作后通过Relu激活函数,最终输出包含长距离依赖信息的特征图像。
以语义分割任务作为目标视觉理解任务,采用ResNet作为执行目标视觉理解任务的主干网络,将利用实施例2建立的代表性图结构模型***到ResNet中适当的位置,例如ResNet-50的stage5后,以捕获长距离依赖信息;在ResNet中***代表性图结构模型后,得到视觉理解任务模型。
采用ADE20K数据集对视觉理解模型进行训练。ADE20K数据集是一个复杂场景下的图像分割数据集,包含2万张图像作为训练集、2千张图像用于验证集和3千张图像用于测试集;每个像素都标注好预先定义的类别,数据集具有150类预先定义的语义标签。将训练集随机分成大小相同的训练子集,具体地,每个训练子集大小为16,对每个训练子集的数据进行数据扩增,以提高准确率,数据扩增的方式具体包括如下操作:(1)计算训练集中图像每一通道的均值;(2)训练子集中每张图像减去图像均值;(3)随机水平翻转,并随机缩放,缩放系数为中{0.5,0.75,1.0,1.5,1.7}任一个。
训练过程中,每次训练一个训练子集,所有的训练子集训练结束为一次迭代结束;重复训练直至迭代次数到达上限,得到训练好的视觉理解模型;在实际训练中,迭代次数上限优选100000。
在上述迭代训练中,一次迭代中的训练过程如下:利用正向传播算法和后向传播算法训练视觉理解模型的网络参数,正向传播计算每个训练子集对应的损失函数,反向传播会得到这个训练子集相应的梯度。损失计算使用交叉熵损失。
利用训练好的视觉理解模型执行不同场景下的目标分割任务,在不同场景下,不同节点的代表性节点的可视化结果如图7和图8所示,其中,在自动驾驶场景下的结果如图7(a)~图7(e)所示,地理信息***中的结果如图8(a)~图8(e)所示,图中的菱形点表示当前节点,圆点表示对当前节点采样后得到的代表性节点,为了更好的展示效果,权重非常小的采样点的尺寸已经过调整。图7和图8中不同节点与其采样点间的差别清楚显示出代表性图结构模块抓住与不同节点途中长距离依赖信息,例如图7(a)植被上节点的采样点分布在植被上、图7(b)道路上节点的采样点大部分分布在道路上、图7(c)、图7(d)不同车辆上节点各自的采样点都分布在响应的不同车辆上。图7和图8也能较清晰展示出同一采样点之间的权重差别,如图7(b)在道路上的采样点权重明显大于在植被上的采样点。
总体而言,本发明能够降低计算复杂度,准确捕获长距离依赖信息,有效提高视觉理解任务的准确度。本发明可以应用于自动驾驶、地理信息***、视频监控、医疗影像分析、机器人等领域中,准确执行视觉理解任务。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种代表性图结构模型建立方法,其特征在于,包括:
建立代表性图结构模型,用于捕获输入特征图像的长距离依赖信息;
所述代表性图结构模型包括:特征映射模块、采样模块、长距离依赖信息捕获模块以及特征反映射模块;
所述特征映射模块,用于从所述输入特征图像中提取值分支、键值分支和序列分支,并生成用于指示采样点坐标的偏移矩阵;
所述采样模块,用于根据所述偏移矩阵分别对所述值分支和所述键值分支中各节点的邻居节点进行采样,将采样结果分别作为所述值分支的代表性特征和所述键值分支的代表性特征;
所述长距离依赖信息捕获模块,用于对所述键值分支的代表性特征与所述序列分支进行矩阵乘法后进行Softmax操作,得到关系矩阵,所述关系矩阵中记录了各节点与其采样点间的关系向量;所述长距离信息捕获模块,还用于对所述值分支的代表性特征与所述关系矩阵进行矩阵乘法,得到长距离依赖矩阵,所述长距离依赖矩阵记录了各节点的长距离依赖信息;
所述特征反映射模块,用于将节点间的长距离依赖信息编码到所述输入特征图像中,输出包含长距离依赖信息的特征图像;
其中,所述节点为像素或图像栅格;所述值分支和所述键值分支分别由构成所述输入特征图像的一系列<Key,Value>数据对中的Key和Value组成,所述序列分支包含了所述输入特征图中各节点的注意力向量。
2.如权利要求1所述的代表性图结构模型建立方法,其特征在于,所述代表性图结构模型还包括通道划分模块和特征整合模块;
所述通道划分模块,用于按照通道分别对所述值分支的代表性特征、所述键值分支的代表性特征以及所述分支序列进行划分,得到多个通道组,并将各通道组分别输入至所述长距离依赖信息捕获模块,以捕获各通道组内节点间的长距离依赖信息;
所述特征整合模块,用于整合各通道组内节点间的长距离依赖信息,得到所述输入特征图像中各节点的长距离依赖信息,并输入至所述特征反映射模块,以由所述特征反映射模块将节点间的长距离依赖信息编码到所述输入特征图像中;
其中,按照通道划分后,对应通道的所述值分支的代表性特征、所述键值分支的代表性特征以及所述序列分支构成一个通道组。
3.如权利要求1或2所述的代表性图结构模型建立方法,其特征在于,所述特征映射模块包括:第一卷积层、第二卷积层、第三卷积层和第四卷积层,各卷积层的卷积核大小均为1×1;
所述第一卷积层、所述第二卷积层、所述第三卷积层和所述第四卷积层分别用于对所述输入特征图像进行卷积操作,得到值分支、偏移矩阵、键值分支和序列分支。
4.如权利要求3所述的代表性图结构模型建立方法,其特征在于,所述特征反映射模块包括:第五卷积层和第一aggregation层,所述第五卷积层的卷积核大小为1×1;
所述第五卷积层,用于对所述长距离依赖矩阵进行卷积操作,将所述长距离依赖矩阵的大小还原至与所述输入特征图像相同;
所述第一aggregation层,用于对输入所述特征映射模块的特征图像与还原后的长距离依赖矩阵进行aggregation操作,将节点间的长距离依赖信息编码到所述输入特征图像中。
5.如权利要求1或2所述的代表性图结构模型建立方法,其特征在于,所述特征映射模块包括:第六卷积层、第一批归一化层、第一激活层和第七卷积层,所述第六卷积层和所述第七卷积层的卷积核大小均为1×1;
所述第六卷积层、第一批归一化层和所述第一激活层,用于依次对所述输入特征图像进行卷积操作、批归一化操作和激活操作,得到值分支、键值分支和序列分支;
所述第七卷积层,用于对所述第一激活层的输出图像进行卷积操作,得到偏移矩阵。
6.如权利要求5所述的代表性图结构模型建立方法,其特征在于,所述特征反映射模块包括:第八卷积层、第二批归一化层、第二aggregation层和第二激活层,所述第八卷积层的卷积核大小为1×1;
所述第八卷积层和所述第二批归一化层,用于依次对所述长距离依赖矩阵进行卷积操作和批归一化操作,将所述长距离依赖矩阵的大小还原至与输入所述特征映射模块的特征图像相同;
所述第二aggregation层和所述第二激活层,用于对所述输入特征图像与还原后的长距离依赖矩阵进行aggregation操作后,对操作结果进行激活操作,将节点间的长距离依赖信息编码到所述输入特征图像中。
7.一种视觉理解模型建立方法,其特征在于,包括:
在用于执行目标视觉理解任务的主干网络中,***利用权利要求1-6任一项所述的代表性图结构模型建立方法得到的代表性图结构模型,得到视觉理解模型;
利用标准训练集对所述视觉理解模型进行训练,得到训练好的视觉理解模型;
其中,所述标准训练集中各样本由与所述目标视觉理解任务相关的图像及其对应的标签真值构成,所述标签真值用于指示任务结果。
8.一种视觉理解任务执行方法,其特征在于,包括:
将待执行的视觉理解任务的图像输入至训练好的视觉理解模型中,得到任务结果;
其中,所述训练好的视觉理解模型由权利要求7所述的视觉理解模型建立方法得到。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述计算机可读存储介质所在设备执行权利要求1-6任一项所述的代表性图结构模型建立方法,或权利要求7所述视觉理解模型建立方法,或权利要求8所述的视觉理解任务执行方法。
CN202010778717.4A 2020-08-05 2020-08-05 代表性图结构模型、视觉理解模型的建立方法及应用 Active CN111985542B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010778717.4A CN111985542B (zh) 2020-08-05 2020-08-05 代表性图结构模型、视觉理解模型的建立方法及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010778717.4A CN111985542B (zh) 2020-08-05 2020-08-05 代表性图结构模型、视觉理解模型的建立方法及应用

Publications (2)

Publication Number Publication Date
CN111985542A CN111985542A (zh) 2020-11-24
CN111985542B true CN111985542B (zh) 2022-07-12

Family

ID=73445129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010778717.4A Active CN111985542B (zh) 2020-08-05 2020-08-05 代表性图结构模型、视觉理解模型的建立方法及应用

Country Status (1)

Country Link
CN (1) CN111985542B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113887435A (zh) * 2021-09-30 2022-01-04 北京百度网讯科技有限公司 人脸图像处理方法、装置、设备、存储介质及程序产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705313A (zh) * 2019-10-09 2020-01-17 沈阳航空航天大学 一种基于特征抽取和语义增强的文本摘要生成方法
US10701394B1 (en) * 2016-11-10 2020-06-30 Twitter, Inc. Real-time video super-resolution with spatio-temporal networks and motion compensation
CN111444923A (zh) * 2020-04-13 2020-07-24 中国人民解放军国防科技大学 自然场景下图像语义分割方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104517106B (zh) * 2013-09-29 2017-11-28 北大方正集团有限公司 一种列表识别方法与***
US11853903B2 (en) * 2017-09-28 2023-12-26 Siemens Aktiengesellschaft SGCNN: structural graph convolutional neural network
US11615311B2 (en) * 2018-12-10 2023-03-28 Baidu Usa Llc Representation learning for input classification via topic sparse autoencoder and entity embedding
US10997690B2 (en) * 2019-01-18 2021-05-04 Ramot At Tel-Aviv University Ltd. Method and system for end-to-end image processing
CN111353988B (zh) * 2020-03-03 2021-04-23 成都大成均图科技有限公司 Knn动态自适应的双图卷积图像分割方法和***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10701394B1 (en) * 2016-11-10 2020-06-30 Twitter, Inc. Real-time video super-resolution with spatio-temporal networks and motion compensation
CN110705313A (zh) * 2019-10-09 2020-01-17 沈阳航空航天大学 一种基于特征抽取和语义增强的文本摘要生成方法
CN111444923A (zh) * 2020-04-13 2020-07-24 中国人民解放军国防科技大学 自然场景下图像语义分割方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Non-local Neural Networks";X. Wang等;《2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20181217;全文 *
"Text Generation from Knowledge Graphs with Graph Transformers";Rik Koncel-Kedziorski等;《arXiv:1904.02342v2》;20190518;全文 *
"基于自然语言处理和图计算的情报分析研究";杨明川等;《电信技术》;20170630;第2017年卷(第06期);全文 *

Also Published As

Publication number Publication date
CN111985542A (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN107103754B (zh) 一种道路交通状况预测方法及***
CN110135227B (zh) 一种基于机器学习的激光点云室外场景自动分割方法
CN111523546A (zh) 图像语义分割方法、***及计算机存储介质
CN112489164B (zh) 基于改进深度可分离卷积神经网络的图像着色方法
CN111461129B (zh) 一种基于上下文先验的场景分割方法和***
CN110991444A (zh) 面向复杂场景的车牌识别方法及装置
CN111582091B (zh) 基于多分支卷积神经网络的行人识别方法
CN112734931B (zh) 一种辅助点云目标检测的方法及***
CN113759338B (zh) 一种目标检测方法、装置、电子设备及存储介质
CN114973011A (zh) 一种基于深度学习的高分辨率遥感影像建筑物提取方法
CN112270259A (zh) 基于轻量级卷积神经网络的sar图像舰船目标快速检测方法
CN112733693A (zh) 一种全局感知高分辨率遥感影像多尺度残差道路提取方法
CN113988147A (zh) 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置
Luo et al. Multi-scale receptive field fusion network for lightweight image super-resolution
CN111985542B (zh) 代表性图结构模型、视觉理解模型的建立方法及应用
CN112163106A (zh) 二阶相似感知的图像哈希码提取模型建立方法及其应用
Son et al. Partial convolutional LSTM for spatiotemporal prediction of incomplete data
CN108154522B (zh) 目标追踪***
CN113962332B (zh) 基于自优化融合反馈的显著目标识别方法
CN114155410A (zh) 图池化、分类模型训练、重建模型训练方法和装置
CN113628338A (zh) 一种采样重建方法、装置、计算机设备及存储介质
CN110533749B (zh) 一种动态纹理视频生成方法、装置、服务器及存储介质
CN113192204A (zh) 单幅倾斜遥感图像中建筑物的三维重建方法
CN116030347B (zh) 一种基于注意力网络的高分辨率遥感影像建筑物提取方法
CN117496162B (zh) 一种红外卫星遥感影像薄云去除方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant