CN115171029A - 基于无人驾驶的城市场景下的实例分割方法及*** - Google Patents
基于无人驾驶的城市场景下的实例分割方法及*** Download PDFInfo
- Publication number
- CN115171029A CN115171029A CN202211098488.7A CN202211098488A CN115171029A CN 115171029 A CN115171029 A CN 115171029A CN 202211098488 A CN202211098488 A CN 202211098488A CN 115171029 A CN115171029 A CN 115171029A
- Authority
- CN
- China
- Prior art keywords
- frame
- sequence
- space
- original pixel
- identity characteristics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000011218 segmentation Effects 0.000 claims abstract description 34
- 238000013507 mapping Methods 0.000 claims abstract description 19
- 238000012216 screening Methods 0.000 claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000000638 solvent extraction Methods 0.000 claims description 6
- 230000000717 retained effect Effects 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 230000005012 migration Effects 0.000 description 5
- 238000013508 migration Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 101100391179 Dictyostelium discoideum forF gene Proteins 0.000 description 2
- 101100001671 Emericella variicolor andF gene Proteins 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 101100001677 Emericella variicolor andL gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开的基于无人驾驶的城市场景下的实例分割方法及***,属于视频理解和分析技术领域,包括:从场景视频中获取原始像素级特征序列;对原始像素级特征序列进行时空位置编码;根据原始像素级特征序列、时空位置编码结果和全时空偏移Transformer编码器‑解码器,获得每一帧的实例身份特征;计算相邻两帧实例身份特征的关联矩阵,根据关联矩阵对相邻两帧的实例身份特征进行筛选;将每一帧筛选出的实例身份特征与相应帧的Transformer解码器的输出输入到自注意力模块中,获得初始注意力映射,根据初始注意力映射、相应帧的原始像素级特征序列及筛选出的实例身份特征,获得实例分割结果。提高了场景中实例分割的准确性。
Description
技术领域
本发明涉及视频理解和分析技术领域,尤其涉及基于无人驾驶的城市场景下的实例分割方法及***。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
自动驾驶主要是通过获取前方的城市场景视频,并对城市场景视频进行分析,将场景中的实例进行识别分割,进而根据实例分割结果进行自动驾驶,目前大多数的实例分割方法都是基于Mask-RCNN框架,其中用于数据匹配的目标外观和运动信息会增加计算成本,并对分割的实时性产生影响,且在无人驾驶的城市场景下,道路上行人和车辆会发生极为严重的实例身份变更,原因为:(1)因遮挡引起的实例消失和出现,(2)实例离开场景,(3)新的实例进入场景;均导致实例分割结果不准确。
发明内容
本发明为了解决上述问题,提出了基于无人驾驶的城市场景下的实例分割方法及***,使用一个单阶段的全时空偏移Transformer进行特征提取,获得实例候选(instanceproposal),然后使用针对实例身份变更的数据关联模块进行数据关联,提高了对城市场景中实例分割的准确性。
为实现上述目的,本发明采用如下技术方案:
第一方面,提出了基于无人驾驶的城市场景下的实例分割方法,包括:
获取城市场景视频;
根据城市场景视频和特征提取网络,获取原始像素级特征序列;
对原始像素级特征序列进行时空位置编码,获得时空位置编码结果;
根据原始像素级特征序列、时空位置编码结果和全时空偏移Transformer编码器-解码器,获得每一帧的实例身份特征;
计算相邻两帧实例身份特征的关联矩阵,根据关联矩阵对相邻两帧的实例身份特征进行筛选;
将每一帧筛选出的实例身份特征与相应帧的Transformer解码器的输出输入到自注意力模块中,获得初始注意力映射,将初始注意力映射、相应帧的原始像素级特征序列以及筛选出的实例身份特征进行融合,获得实例分割结果。
第二方面,提出了基于无人驾驶的城市场景下的实例分割***,包括:
视频获取模块,用于获取城市场景视频;
特征提取模块,用于根据城市场景视频和特征提取网络,获取原始像素级特征序列;
时空位置编码模块,用于对原始像素级特征序列进行时空位置编码,获得时空位置编码结果;
实例预测模块,用于根据原始像素级特征序列、时空位置编码结果和全时空偏移Transformer编码器-解码器,获得每一帧的实例身份特征;
实例身份特征筛选模块,用于计算相邻两帧实例身份特征的关联矩阵,根据关联矩阵对相邻两帧的实例身份特征进行筛选;
实例分割结果获取模块,用于将每一帧筛选出的实例身份特征与相应帧的Transformer解码器的输出输入到自注意力模块中,获得初始注意力映射,将初始注意力映射、相应帧的原始像素级特征序列以及筛选出的实例身份特征进行融合,获得实例分割结果。
第三方面,提出了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成基于无人驾驶的城市场景下的实例分割方法所述的步骤。
第四方面,提出了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成基于无人驾驶的城市场景下的实例分割方法所述的步骤。
与现有技术相比,本发明的有益效果为:
1、本发明使用基于全时空偏移Transformer的全景分割技术,能够有效的建模长期依赖和历史轨迹,通过偏移注意力机制缓解全时空Transformer的高复杂度问题,提高运算速度,加快模型收敛,减少运算量,实例身份变更的数据关联模块能够有效的识别实例身份变更,快速适应无人驾驶的城市场景下的复杂环境。
2、本发明通过Transformer编码器-解码器获取了实例身份特征后,计算了相邻两帧身份特征的关联矩阵,根据关联矩阵对实例身份特征进行筛选,深入挖掘图像中实例的时空依赖关系,从而根据筛选后的实例身份特征进行实例分割,提高了实例分割的准确性。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为实施例1公开方法的流程图;
图2为第一帧到第30帧的数据关联说明;
图3为实施例1公开方法的框架图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例1
在该实施例中,公开了基于无人驾驶的城市场景下的实例分割方法,如图1、图3所示,包括:
获取城市场景视频;
根据城市场景视频和特征提取网络,获取原始像素级特征序列;
对原始像素级特征序列进行时空位置编码,获得时空位置编码结果;
根据原始像素级特征序列、时空位置编码结果和全时空偏移Transformer编码器-解码器,获得每一帧的实例身份特征;
计算相邻两帧实例身份特征的关联矩阵,根据关联矩阵对相邻两帧的实例身份特征进行筛选;
将每一帧筛选出的实例身份特征与相应帧的Transformer解码器的输出输入到自注意力模块中,获得初始注意力映射,将初始注意力映射、相应帧的原始像素级特征序列以及筛选出的实例身份特征进行融合,获得实例分割结果。
具体的,将城市场景视频划分为视频帧序列。
特征提取网络包括骨干网络ResNet101,通过骨干网络ResNet101对视频帧序列进行多尺度特征提取,获得第一特征图序列F 3 、第二特征图序列F 4 和第三特征图序列F 5 ,优选的,F 3 、F 4 和F 5 的分辨率与输入视频帧相比分别为1/32、1/16、1/8,通道数为256;
将第一特征图序列F 3 进行上采样后与第二特征图序列F 4 拼接,获得第四特征图序列F 6 ,优选的,对F 3 上采样2倍,F 6 的通道数为512;
将第四特征图序列F 6 上采样后与第三特征图序列F 5 拼接,获得第五特征图序列F 8 ,优选的,对F 6 上采样2倍,通道数降维至256,与F 5 拼接得到F 8 ,通道数变为512;
将第五特征图序列F 8 进行卷积处理后,压缩为一个维度,获得原始像素级特征序列,优选的,使用1x1卷积层将F 8 的通道数降维至256。将F 8 的维度,即时间T、高H和宽W压缩为一个维度,即把上一步得到的dxTxHxW维的特征图通过重塑尺寸成dxn,n=TxHxW。
使用不同频率的正弦和余弦函数对原始像素级特征序列进行时空位置编码,获得时空位置编码结果。
将原始像素级特征序列、时空位置编码结果输入全时空偏移Transformer编码器-解码器中,获得每一帧的实例身份特征。
其中,全时空偏移Transformer编码器-解码器中引入了偏移注意力机制,基于偏移注意力机制的全时空偏移Transformer编码器-解码器包括3个基本组件:多头偏移注意力模块、前馈神经网络和正则化层。多头偏移注意力模块并行制使用多个偏移注意力机制模块,每个偏移注意力模块将输入分解为三个向量:查询向量Q,键向量K和值向量V。其目的得到根据局部查询向量和局部键向量计算得到的权重作用于值向量上的权重和,通过解耦的形式进行偏移采样,减少全时空注意力机制的高复杂度问题,并且将注意力集中在局部感兴趣区域,获得更具有区分性的局部特征。
偏移注意力模块LocalAttention表示为:
其中,P Q 来自一个Q的局部采样区域,是学习到的采样点的偏移量,是P Q 所对应的局部键向量,是的维度,softmax()为激活函数。将并行的多个偏移注意力模块的输出拼接起来,即可得到多头偏移注意力模块的输出。
前馈神经网络FFN是由具有ReLU激活功能且具有隐藏层的3层感知器和线性层组成的。正则化层使用Layer Normalization(LN)方式,以通道为单位进行归一化操作。
全时空偏移Transformer编码器由8个编码块组成,每个编码块由1个多头偏移注意力模块+正则化层+FFN+正则化层组成。全时空偏移Transformer解码器由8个解码块组成,每个解码块由1个多头偏移注意力模块+正则化层+1个可形变的多头注意力层+正则化层+FFN+正则化层组成。全时空偏移Transformer编码器的编码器和解码器结构对称,编码器的输入为原始像素级特征序列,每个编码块的输出是下个编码块的输入,编码器的输出和时空位置编码结果相加,作为每个解码块输入的一部分。将每个解码块的输出输入到下一个解码块中。Transformer编码器-解码器直接输出每一帧的N个不同实例身份特征。N远大于全景中所有ID的个数。
使用数据关联模块对每一帧的实例身份特征进行历史轨迹数据关联,计算相邻两帧实例身份特征的关联矩阵,根据关联矩阵对相邻两帧的实例身份特征进行筛选。
使用针对实例身份变更的数据关联模块对全时空偏移Transformer输出的每一帧的实例身份特征进行历史轨迹数据关联,使得学习到的实例身份特征与真实实例一一对应。F t 和F t-n 是Transformer输出的第t帧和第t-n帧的实例身份特征,被组合成一个特征向量Ψ(t-n,t),大小为NxNx1024。随后将特征向量Ψ(t-n,t)通过压缩网络映射为大小为NxN的关联特征,经过Softmax函数处理后,特征值大于0.5的设置为1,小于0.5的设置为了0,得到关联矩阵M。
如图2所示,图2表示第1帧到第30帧的数据关联说明,第1帧和第30帧中最多包含5个实例,即N=5。矩阵中列中的数字表示第1帧中的所有实例,行中的数字表示第30帧中的所有实例编号,相同编号表示相同的实例,值为1表示既在第1帧中出现又在第30帧中出现,否则为0,用X填充表示未出现的实例。如右所示,表示实例进入和退出视频帧。例如,最后一行中的1表示对象5进入第30帧,最后一列中的1表示实例4在第1帧存在,但在第30帧离开。
压缩网络使用卷积核沿着输入张量的深度逐步降维,不允许特征映射的相邻元素相互影响。然而关联矩阵M不考虑在两个输入帧之间进入或离开视频的实例对象。为了照顾这些对象,分别附加一个额外的列和行到关联矩阵M上,形成矩阵和。添加行向量和列向量分别表示当第t帧与第t-n帧的实例关联时,实例离开视频和实例进入视频的概率。接下来,对M1执行以行为单位的Softmax运算得到概率矩阵,以概率的形式表示第t帧和第t-n帧不同实例身份特征预测结果之间的关联关系。然后对M2执行以列为单位的Softmax运算得到概率矩阵,表示各列对应的相似概率。最后将A 1和A 2 分别与视频帧中物体之间的真实关联矩阵L t-n,t 进行比较,以获得匹配损失。
其中,L t-n,t 表示一个二进制数据关联矩阵,表示第t-n帧和第t帧实例身份特征中检测到的实例对象之间的对应关系。例如,如果第t-n帧中的实例对象1对应于第t帧中的第n个实例对象,则L t-n,t 第一行的第n个元素是1。
根据上述分析,关联过程可以基于循环一直性进行监督,包括正向损失L f 和反向损失L b 。正向损耗保证实例从第t-n帧正确关联到第t帧,反向损耗保证实例从第t帧正确关联到第t-n帧。同时,为了抑制非最大相似度实例之间的关联,加入非最大损耗L a ,使实际实例关联概率矩阵最大化。最后的匹配损失是这三部分的平均值:
其中,L 1 和L 2 分别是L t-n,t 分别删除最后一行和最后一列的删减矩阵,L 3 分别是L t-n,t 同时删除最后一行和最后一列的删减矩阵,表示为哈达玛积,是矩阵和分别去掉最后一列和最后一行得到的矩阵。
计算出相邻两帧的关联矩阵M后,以行为单位对关联矩阵M进行求和,获得N×1的和向量,将和向量中大于1的实例身份特征进行保留,获得筛选出的实例身份特征。即找到和向量中值大于1的行索引,根据找到的行索引筛选,保留相应行的实例身份特征,为筛选出的实例身份特征。
将每一帧筛选出的实例身份特征与相应帧的Transformer解码器的输出输入到自注意力模块(self-attention)中,获得初始注意力映射,将初始注意力映射、相应帧的原始像素级特征序列以及筛选出的实例身份特征进行拼接融合,获得实例分割结果。
具体的:将初始注意力映射、相应帧的原始像素级特征序列以及筛选出的实例身份特征进行融合,获得每一帧的预测结果,预测结果包括每个ID的掩码、类别和置信度分数的预测结果,选取置信度分数高于第一设定值的预测结果为实例分割结果。
将初始注意力映射与相应帧的原始像素级特征序列和Transformer编码器的输出进行拼接融合,经过一个3D卷积和三个并行的分支输出每一帧的预测结果,预测结果包括每个ID的掩码、类别和置信度分数。第一个分支是一个可变形的卷积层,输出不同帧的每个ID的掩码m;第二个分支是一个卷积层和激活函数,输出每个ID的类别c;第三个分支是一个卷积层和激活函数,输出置信度分数s。
得到预测的类别c,置信度分数s和预测的掩码m,输出一个语义掩码SemMsk和实例ID掩码IdMsk,为每个像素分配一个类别标签和实例ID。具体来说,SemMsk和IdMsk首先被初始化为零。然后,将预测结果按照置信度分数降序排序,并将排序后的预测掩码填充到SemMsk和IdMsk中。置信度分数低于第一设定值(thrcls)的结果被丢弃,置信度较低(高于第一设定值,低于第二设定值)的重叠部分被删除,以生成无重叠的全视结果。最后,添加类别标签和实例ID,获得实例分割结果。此处,为了约束输出的类别和掩码,添加实例分割模块的损失函数如下:
本实施例公开的基于无人驾驶的城市场景下的实例分割方法,使用一个单阶段的全时空偏移Transformer进行特征提取,获得每一帧的实例身份特征(instanceproposal),然后使用针对实例身份变更的数据关联模块进行相邻两帧的实例身份特征的数据关联,基于视频中图像的相似性,深入挖掘图像中实例的时空依赖关系。本发明使用基于全时空偏移Transformer的全景分割技术,能够有效的建模长期依赖和历史轨迹,通过偏移注意力机制缓解全时空Transformer的高复杂度问题,提高运算速度,加快模型收敛,减少运算量。实例身份变更的数据关联模块能够有效的识别实例身份变更,快速适应无人驾驶的城市场景下的复杂环境。
实施例2
在该实施例中,公开了基于无人驾驶的城市场景下的实例分割***,包括:
视频获取模块,用于获取城市场景视频;
特征提取模块,用于根据城市场景视频和特征提取网络,获取原始像素级特征序列;
时空位置编码模块,用于对原始像素级特征序列进行时空位置编码,获得时空位置编码结果;
实例预测模块,用于根据原始像素级特征序列、时空位置编码结果和全时空偏移Transformer编码器-解码器,获得每一帧的实例身份特征;
实例身份特征筛选模块,用于计算相邻两帧实例身份特征的关联矩阵,根据关联矩阵对相邻两帧的实例身份特征进行筛选;
实例分割结果获取模块,用于将每一帧筛选出的实例身份特征与相应帧的Transformer解码器的输出输入到自注意力模块中,获得初始注意力映射,将初始注意力映射、相应帧的原始像素级特征序列以及筛选出的实例身份特征进行融合,获得实例分割结果。
实施例3
在该实施例中,公开了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1公开的基于无人驾驶的城市场景下的实例分割方法所述的步骤。
实施例4
在该实施例中,公开了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1公开的基于无人驾驶的城市场景下的实例分割方法所述的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (10)
1.基于无人驾驶的城市场景下的实例分割方法,其特征在于,包括:
获取城市场景视频;
根据城市场景视频和特征提取网络,获取原始像素级特征序列;
对原始像素级特征序列进行时空位置编码,获得时空位置编码结果;
根据原始像素级特征序列、时空位置编码结果和全时空偏移Transformer编码器-解码器,获得每一帧的实例身份特征;
计算相邻两帧实例身份特征的关联矩阵,根据关联矩阵对相邻两帧的实例身份特征进行筛选;
将每一帧筛选出的实例身份特征与相应帧的Transformer解码器的输出输入到自注意力模块中,获得初始注意力映射,将初始注意力映射、相应帧的原始像素级特征序列以及筛选出的实例身份特征进行融合,获得实例分割结果。
2.如权利要求1所述的基于无人驾驶的城市场景下的实例分割方法,其特征在于,通过骨干网络对视频进行多尺度特征提取,获得第一特征图序列、第二特征图序列和第三特征图序列;
将第一特征图序列进行上采样后与第二特征图拼接,获得第四特征图;
将第四特征图上采样后与第三特征图拼接,获得第五特征图;
将第五特征图压缩为一个维度后,获得原始像素级特征序列。
3.如权利要求1所述的基于无人驾驶的城市场景下的实例分割方法,其特征在于,全时空偏移Transformer编码器-解码器中引入偏移注意力机制,其中,编码器包括多个编码块,每个编码块的输出是下个编码块的输入,每个编码块包括依次连接的多头偏移注意力模块、正则化层、FFN和正则化层,每个解码块包括依次连接的多头偏移注意力模块、正则化层、可形变的多头注意力层、正则化层、FFN和正则化层,编码器和解码器结构对称,编码器的输出和时空位置编码结果相加,作为每个解码块输入的一部分,将每个解码块的输出输入到下一个解码块中,Transformer编码器-解码器直接输出每一帧的实例身份特征。
4.如权利要求3所述的基于无人驾驶的城市场景下的实例分割方法,其特征在于,多头偏移注意力模块包括多个偏移注意力机制模块。
5.如权利要求1所述的基于无人驾驶的城市场景下的实例分割方法,其特征在于,将相邻两帧的实例身份特征组合成一个特征向量,将特征向量进行压缩,获得关联矩阵M,以行为单位对关联矩阵M进行求和,获得N×1的和向量,将和向量中大于1的实例身份特征进行保留,获得筛选出的实例身份特征。
6.如权利要求1所述的基于无人驾驶的城市场景下的实例分割方法,其特征在于,分别附加一个额外的列和行到关联矩阵上,获得矩阵M1和矩阵M2,对M1执行以行为单位的Softmax运算得到概率矩阵A1,对M2执行以列为单位的softmax运算获得概率矩阵A2,A1和A2分别与真实关联矩阵L t-n,t 进行比较,获得匹配损失,其中,L t-n,t 为二进制数据关联矩阵,表示第t-n帧和第t帧的实例身份特征中检测到的实例对象之间的对应关系。
7.如权利要求1所述的基于无人驾驶的城市场景下的实例分割方法,其特征在于,将初始注意力映射、相应帧的原始像素级特征序列以及筛选出的实例身份特征进行融合,获得每一帧的预测结果,预测结果包括每个ID的掩码、类别和置信度分数的预测结果,选取置信度分数高于第一设定值的预测结果为实例分割结果。
8.基于无人驾驶的城市场景下的实例分割***,其特征在于,包括:
视频获取模块,用于获取城市场景视频;
特征提取模块,用于根据城市场景视频和特征提取网络,获取原始像素级特征序列;
时空位置编码模块,用于对原始像素级特征序列进行时空位置编码,获得时空位置编码结果;
实例预测模块,用于根据原始像素级特征序列、时空位置编码结果和全时空偏移Transformer编码器-解码器,获得每一帧的实例身份特征;
实例身份特征筛选模块,用于计算相邻两帧实例身份特征的关联矩阵,根据关联矩阵对相邻两帧的实例身份特征进行筛选;
实例分割结果获取模块,用于将每一帧筛选出的实例身份特征与相应帧的Transformer解码器的输出输入到自注意力模块中,获得初始注意力映射,将初始注意力映射、相应帧的原始像素级特征序列以及筛选出的实例身份特征进行融合,获得实例分割结果。
9.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-7任一项所述的基于无人驾驶的城市场景下的实例分割方法的步骤。
10.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7任一项所述的基于无人驾驶的城市场景下的实例分割方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211098488.7A CN115171029B (zh) | 2022-09-09 | 2022-09-09 | 基于无人驾驶的城市场景下的实例分割方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211098488.7A CN115171029B (zh) | 2022-09-09 | 2022-09-09 | 基于无人驾驶的城市场景下的实例分割方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115171029A true CN115171029A (zh) | 2022-10-11 |
CN115171029B CN115171029B (zh) | 2022-12-30 |
Family
ID=83482387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211098488.7A Active CN115171029B (zh) | 2022-09-09 | 2022-09-09 | 基于无人驾驶的城市场景下的实例分割方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115171029B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117893933A (zh) * | 2024-03-14 | 2024-04-16 | 国网上海市电力公司 | 一种用于输变电设备的无人巡检故障检测方法和*** |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5915044A (en) * | 1995-09-29 | 1999-06-22 | Intel Corporation | Encoding video images using foreground/background segmentation |
CN112184780A (zh) * | 2020-10-13 | 2021-01-05 | 武汉斌果科技有限公司 | 一种运动物体实例分割方法 |
WO2021136528A1 (zh) * | 2019-12-31 | 2021-07-08 | 华为技术有限公司 | 一种实例分割的方法及装置 |
CN113177940A (zh) * | 2021-05-26 | 2021-07-27 | 复旦大学附属中山医院 | 基于Transformer的胃镜视频部位识别网络结构 |
CN113673489A (zh) * | 2021-10-21 | 2021-11-19 | 之江实验室 | 一种基于级联Transformer的视频群体行为识别方法 |
CN114049362A (zh) * | 2021-11-09 | 2022-02-15 | 中国石油大学(华东) | 一种基于transformer的点云实例分割方法 |
CN114743020A (zh) * | 2022-04-02 | 2022-07-12 | 华南理工大学 | 一种结合标签语义嵌入和注意力融合的食物识别方法 |
CN114842394A (zh) * | 2022-05-17 | 2022-08-02 | 西安邮电大学 | 基于Swin Transformer的手术视频流程自动识别方法 |
CN114898243A (zh) * | 2022-03-23 | 2022-08-12 | 超级视线科技有限公司 | 基于视频流的交通场景解析方法以及装置 |
CN114998592A (zh) * | 2022-06-18 | 2022-09-02 | 脸萌有限公司 | 用于实例分割的方法、装置、设备和存储介质 |
CN114998815A (zh) * | 2022-08-04 | 2022-09-02 | 江苏三棱智慧物联发展股份有限公司 | 一种基于视频分析的交通车辆识别追踪方法及*** |
-
2022
- 2022-09-09 CN CN202211098488.7A patent/CN115171029B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5915044A (en) * | 1995-09-29 | 1999-06-22 | Intel Corporation | Encoding video images using foreground/background segmentation |
WO2021136528A1 (zh) * | 2019-12-31 | 2021-07-08 | 华为技术有限公司 | 一种实例分割的方法及装置 |
CN112184780A (zh) * | 2020-10-13 | 2021-01-05 | 武汉斌果科技有限公司 | 一种运动物体实例分割方法 |
CN113177940A (zh) * | 2021-05-26 | 2021-07-27 | 复旦大学附属中山医院 | 基于Transformer的胃镜视频部位识别网络结构 |
CN113673489A (zh) * | 2021-10-21 | 2021-11-19 | 之江实验室 | 一种基于级联Transformer的视频群体行为识别方法 |
CN114049362A (zh) * | 2021-11-09 | 2022-02-15 | 中国石油大学(华东) | 一种基于transformer的点云实例分割方法 |
CN114898243A (zh) * | 2022-03-23 | 2022-08-12 | 超级视线科技有限公司 | 基于视频流的交通场景解析方法以及装置 |
CN114743020A (zh) * | 2022-04-02 | 2022-07-12 | 华南理工大学 | 一种结合标签语义嵌入和注意力融合的食物识别方法 |
CN114842394A (zh) * | 2022-05-17 | 2022-08-02 | 西安邮电大学 | 基于Swin Transformer的手术视频流程自动识别方法 |
CN114998592A (zh) * | 2022-06-18 | 2022-09-02 | 脸萌有限公司 | 用于实例分割的方法、装置、设备和存储介质 |
CN114998815A (zh) * | 2022-08-04 | 2022-09-02 | 江苏三棱智慧物联发展股份有限公司 | 一种基于视频分析的交通车辆识别追踪方法及*** |
Non-Patent Citations (3)
Title |
---|
TONG HE ET AL.: "Dynamic Convolution for 3D Point Cloud nstance Segmentation", 《ARXIV:2107.08392V2》 * |
ZE LIU ET AL.: "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows", 《COMPUTER VISION FOUNDATION》 * |
孙刘杰 等: "多尺度Transformer激光雷达点云3D物体检测", 《计算机工程与应用》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117893933A (zh) * | 2024-03-14 | 2024-04-16 | 国网上海市电力公司 | 一种用于输变电设备的无人巡检故障检测方法和*** |
CN117893933B (zh) * | 2024-03-14 | 2024-05-24 | 国网上海市电力公司 | 一种用于输变电设备的无人巡检故障检测方法和*** |
Also Published As
Publication number | Publication date |
---|---|
CN115171029B (zh) | 2022-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111210443B (zh) | 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 | |
Hu et al. | Real-time semantic segmentation with fast attention | |
CN109711463B (zh) | 基于注意力的重要对象检测方法 | |
CN111968150B (zh) | 一种基于全卷积神经网络的弱监督视频目标分割方法 | |
CN113591968A (zh) | 一种基于非对称注意力特征融合的红外弱小目标检测方法 | |
CN111369565A (zh) | 一种基于图卷积网络的数字病理图像的分割与分类方法 | |
CN114973049B (zh) | 一种统一卷积与自注意力的轻量视频分类方法 | |
CN114120363A (zh) | 基于背景及姿态归一化的行人跨镜重识别方法及*** | |
Xie et al. | Context-aware pedestrian detection especially for small-sized instances with Deconvolution Integrated Faster RCNN (DIF R-CNN) | |
CN116469100A (zh) | 一种基于Transformer的双波段图像语义分割方法 | |
CN115171029B (zh) | 基于无人驾驶的城市场景下的实例分割方法及*** | |
CN111696136A (zh) | 一种基于编解码结构的目标跟踪方法 | |
CN114882351B (zh) | 一种基于改进YOLO-V5s的多目标检测与跟踪方法 | |
CN116863384A (zh) | 一种基于CNN-Transfomer的自监督视频分割方法和*** | |
CN116580278A (zh) | 一种基于多注意力机制的唇语识别方法、设备及存储介质 | |
CN115239765A (zh) | 基于多尺度可形变注意力的红外图像目标跟踪***及方法 | |
CN117315293A (zh) | 一种基于Transformer的时空上下文目标跟踪方法及*** | |
Hu et al. | Lightweight asymmetric dilation network for real-time semantic segmentation | |
CN116543338A (zh) | 一种基于注视目标估计的学生课堂行为检测方法 | |
CN116363361A (zh) | 基于实时语义分割网络的自动驾驶方法 | |
Park et al. | Rainunet for super-resolution rain movie prediction under spatio-temporal shifts | |
CN114782995A (zh) | 一种基于自注意力机制的人交互行为检测方法 | |
Liu et al. | VADiffusion: Compressed Domain Information Guided Conditional Diffusion for Video Anomaly Detection | |
CN115761530A (zh) | 一种变电站无人机巡检图像异物悬挂实时识别方法 | |
Li et al. | LTEA-YOLO: An Improved YOLOv5s Model for Small Object Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |