CN115171029A

CN115171029A - 基于无人驾驶的城市场景下的实例分割方法及***

Info

Publication number: CN115171029A
Application number: CN202211098488.7A
Authority: CN
Inventors: 徐龙生; 孙振行; 庞世玺; 杨继冲
Original assignee: Shandong Kailin Environmental Protection Equipment Co ltd
Current assignee: Shandong Kailin Environmental Protection Equipment Co ltd
Priority date: 2022-09-09
Filing date: 2022-09-09
Publication date: 2022-10-11
Anticipated expiration: 2042-09-09
Also published as: CN115171029B

Abstract

本发明公开的基于无人驾驶的城市场景下的实例分割方法及***，属于视频理解和分析技术领域，包括：从场景视频中获取原始像素级特征序列；对原始像素级特征序列进行时空位置编码；根据原始像素级特征序列、时空位置编码结果和全时空偏移Transformer编码器‑解码器，获得每一帧的实例身份特征；计算相邻两帧实例身份特征的关联矩阵，根据关联矩阵对相邻两帧的实例身份特征进行筛选；将每一帧筛选出的实例身份特征与相应帧的Transformer解码器的输出输入到自注意力模块中，获得初始注意力映射，根据初始注意力映射、相应帧的原始像素级特征序列及筛选出的实例身份特征，获得实例分割结果。提高了场景中实例分割的准确性。

Description

基于无人驾驶的城市场景下的实例分割方法及***

技术领域

本发明涉及视频理解和分析技术领域，尤其涉及基于无人驾驶的城市场景下的实例分割方法及***。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

自动驾驶主要是通过获取前方的城市场景视频，并对城市场景视频进行分析，将场景中的实例进行识别分割，进而根据实例分割结果进行自动驾驶，目前大多数的实例分割方法都是基于Mask-RCNN框架，其中用于数据匹配的目标外观和运动信息会增加计算成本，并对分割的实时性产生影响，且在无人驾驶的城市场景下，道路上行人和车辆会发生极为严重的实例身份变更，原因为：（1）因遮挡引起的实例消失和出现，（2）实例离开场景，（3）新的实例进入场景；均导致实例分割结果不准确。

发明内容

本发明为了解决上述问题，提出了基于无人驾驶的城市场景下的实例分割方法及***，使用一个单阶段的全时空偏移Transformer进行特征提取，获得实例候选（instanceproposal），然后使用针对实例身份变更的数据关联模块进行数据关联，提高了对城市场景中实例分割的准确性。

为实现上述目的，本发明采用如下技术方案：

第一方面，提出了基于无人驾驶的城市场景下的实例分割方法，包括：

获取城市场景视频；

根据城市场景视频和特征提取网络，获取原始像素级特征序列；

对原始像素级特征序列进行时空位置编码，获得时空位置编码结果；

根据原始像素级特征序列、时空位置编码结果和全时空偏移Transformer编码器-解码器，获得每一帧的实例身份特征；

计算相邻两帧实例身份特征的关联矩阵，根据关联矩阵对相邻两帧的实例身份特征进行筛选；

将每一帧筛选出的实例身份特征与相应帧的Transformer解码器的输出输入到自注意力模块中，获得初始注意力映射，将初始注意力映射、相应帧的原始像素级特征序列以及筛选出的实例身份特征进行融合，获得实例分割结果。

第二方面，提出了基于无人驾驶的城市场景下的实例分割***，包括：

视频获取模块，用于获取城市场景视频；

特征提取模块，用于根据城市场景视频和特征提取网络，获取原始像素级特征序列；

时空位置编码模块，用于对原始像素级特征序列进行时空位置编码，获得时空位置编码结果；

实例预测模块，用于根据原始像素级特征序列、时空位置编码结果和全时空偏移Transformer编码器-解码器，获得每一帧的实例身份特征；

实例身份特征筛选模块，用于计算相邻两帧实例身份特征的关联矩阵，根据关联矩阵对相邻两帧的实例身份特征进行筛选；

实例分割结果获取模块，用于将每一帧筛选出的实例身份特征与相应帧的Transformer解码器的输出输入到自注意力模块中，获得初始注意力映射，将初始注意力映射、相应帧的原始像素级特征序列以及筛选出的实例身份特征进行融合，获得实例分割结果。

第三方面，提出了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成基于无人驾驶的城市场景下的实例分割方法所述的步骤。

第四方面，提出了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成基于无人驾驶的城市场景下的实例分割方法所述的步骤。

与现有技术相比，本发明的有益效果为：

1、本发明使用基于全时空偏移Transformer的全景分割技术，能够有效的建模长期依赖和历史轨迹，通过偏移注意力机制缓解全时空Transformer的高复杂度问题，提高运算速度，加快模型收敛，减少运算量，实例身份变更的数据关联模块能够有效的识别实例身份变更，快速适应无人驾驶的城市场景下的复杂环境。

2、本发明通过Transformer编码器-解码器获取了实例身份特征后，计算了相邻两帧身份特征的关联矩阵，根据关联矩阵对实例身份特征进行筛选，深入挖掘图像中实例的时空依赖关系，从而根据筛选后的实例身份特征进行实例分割，提高了实例分割的准确性。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为实施例1公开方法的流程图；

图2为第一帧到第30帧的数据关联说明；

图3为实施例1公开方法的框架图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1

在该实施例中，公开了基于无人驾驶的城市场景下的实例分割方法，如图1、图3所示，包括：

获取城市场景视频；

具体的，将城市场景视频划分为视频帧序列。

特征提取网络包括骨干网络ResNet101，通过骨干网络ResNet101对视频帧序列进行多尺度特征提取，获得第一特征图序列F ₃、第二特征图序列F ₄和第三特征图序列F ₅，优选的，F ₃、F ₄和F ₅的分辨率与输入视频帧相比分别为1/32、1/16、1/8，通道数为256；

将第一特征图序列F ₃进行上采样后与第二特征图序列F ₄拼接，获得第四特征图序列F ₆，优选的，对F ₃上采样2倍，F ₆的通道数为512；

将第四特征图序列F ₆上采样后与第三特征图序列F ₅拼接，获得第五特征图序列F ₈，优选的，对F ₆上采样2倍，通道数降维至256，与F ₅拼接得到F ₈，通道数变为512；

将第五特征图序列F ₈进行卷积处理后，压缩为一个维度，获得原始像素级特征序列，优选的，使用1x1卷积层将F ₈的通道数降维至256。将F ₈的维度，即时间T、高H和宽W压缩为一个维度，即把上一步得到的dxTxHxW维的特征图通过重塑尺寸成dxn，n=TxHxW。

使用不同频率的正弦和余弦函数对原始像素级特征序列进行时空位置编码，获得时空位置编码结果。

其中，

是元素在序列中的位置，i是维数。d要能被3整除，在Transformer编码器输入处传递位置编码一次，并在每个编码块上添加注意层。

将原始像素级特征序列、时空位置编码结果输入全时空偏移Transformer编码器-解码器中，获得每一帧的实例身份特征。

其中，全时空偏移Transformer编码器-解码器中引入了偏移注意力机制，基于偏移注意力机制的全时空偏移Transformer编码器-解码器包括3个基本组件：多头偏移注意力模块、前馈神经网络和正则化层。多头偏移注意力模块并行制使用多个偏移注意力机制模块，每个偏移注意力模块将输入分解为三个向量：查询向量Q，键向量K和值向量V。其目的得到根据局部查询向量和局部键向量计算得到的权重作用于值向量上的权重和，通过解耦的形式进行偏移采样，减少全时空注意力机制的高复杂度问题，并且将注意力集中在局部感兴趣区域，获得更具有区分性的局部特征。

偏移注意力模块LocalAttention表示为：

其中，P _Q来自一个Q的局部采样区域，

是学习到的采样点的偏移量，

是P _Q所对应的局部键向量，

是

的维度，softmax()为激活函数。将并行的多个偏移注意力模块的输出拼接起来，即可得到多头偏移注意力模块的输出。

前馈神经网络FFN是由具有ReLU激活功能且具有隐藏层的3层感知器和线性层组成的。正则化层使用Layer Normalization（LN）方式，以通道为单位进行归一化操作。

全时空偏移Transformer编码器由8个编码块组成，每个编码块由1个多头偏移注意力模块+正则化层+FFN+正则化层组成。全时空偏移Transformer解码器由8个解码块组成，每个解码块由1个多头偏移注意力模块+正则化层+1个可形变的多头注意力层+正则化层+FFN+正则化层组成。全时空偏移Transformer编码器的编码器和解码器结构对称，编码器的输入为原始像素级特征序列，每个编码块的输出是下个编码块的输入，编码器的输出和时空位置编码结果相加，作为每个解码块输入的一部分。将每个解码块的输出输入到下一个解码块中。Transformer编码器-解码器直接输出每一帧的N个不同实例身份特征。N远大于全景中所有ID的个数。

使用数据关联模块对每一帧的实例身份特征进行历史轨迹数据关联，计算相邻两帧实例身份特征的关联矩阵，根据关联矩阵对相邻两帧的实例身份特征进行筛选。

使用针对实例身份变更的数据关联模块对全时空偏移Transformer输出的每一帧的实例身份特征进行历史轨迹数据关联，使得学习到的实例身份特征与真实实例一一对应。F _t和F _t-n是Transformer输出的第t帧和第t-n帧的实例身份特征，被组合成一个特征向量Ψ(t-n,t)，大小为NxNx1024。随后将特征向量Ψ(t-n,t)通过压缩网络映射为大小为NxN的关联特征，经过Softmax函数处理后，特征值大于0.5的设置为1，小于0.5的设置为了0，得到关联矩阵M。

如图2所示，图2表示第1帧到第30帧的数据关联说明，第1帧和第30帧中最多包含5个实例，即N=5。矩阵中列中的数字表示第1帧中的所有实例，行中的数字表示第30帧中的所有实例编号，相同编号表示相同的实例，值为1表示既在第1帧中出现又在第30帧中出现，否则为0，用X填充表示未出现的实例。如右所示，

表示实例进入和退出视频帧。例如，最后一行中的1表示对象5进入第30帧，最后一列中的1表示实例4在第1帧存在，但在第30帧离开。

压缩网络使用卷积核沿着输入张量的深度逐步降维，不允许特征映射的相邻元素相互影响。然而关联矩阵M不考虑在两个输入帧之间进入或离开视频的实例对象。为了照顾这些对象，分别附加一个额外的列和行到关联矩阵M上，形成矩阵

和

。添加行向量和列向量分别表示当第t帧与第t-n帧的实例关联时，实例离开视频和实例进入视频的概率。接下来，对M₁执行以行为单位的Softmax运算得到概率矩阵

，以概率的形式表示第t帧和第t-n帧不同实例身份特征预测结果之间的关联关系。然后对M₂执行以列为单位的Softmax运算得到概率矩阵

，表示各列对应的相似概率。最后将A ₁和A ₂分别与视频帧中物体之间的真实关联矩阵L _t-n,t进行比较，以获得匹配损失。

其中，L _t-n,t表示一个二进制数据关联矩阵，表示第t-n帧和第t帧实例身份特征中检测到的实例对象之间的对应关系。例如，如果第t-n帧中的实例对象1对应于第t帧中的第n个实例对象，则L _t-n,t第一行的第n个元素是1。

根据上述分析，关联过程可以基于循环一直性进行监督，包括正向损失L _f和反向损失L _b。正向损耗保证实例从第t-n帧正确关联到第t帧，反向损耗保证实例从第t帧正确关联到第t-n帧。同时，为了抑制非最大相似度实例之间的关联，加入非最大损耗L _a，使实际实例关联概率矩阵最大化。最后的匹配损失是这三部分的平均值：

其中，L ₁和L ₂分别是L _t-n,t分别删除最后一行和最后一列的删减矩阵，L ₃分别是L _t-n,t同时删除最后一行和最后一列的删减矩阵，

表示为哈达玛积，

是矩阵

和

分别去掉最后一列和最后一行得到的矩阵。

计算出相邻两帧的关联矩阵M后，以行为单位对关联矩阵M进行求和，获得N×1的和向量，将和向量中大于1的实例身份特征进行保留，获得筛选出的实例身份特征。即找到和向量中值大于1的行索引，根据找到的行索引筛选，保留相应行的实例身份特征，为筛选出的实例身份特征。

将每一帧筛选出的实例身份特征与相应帧的Transformer解码器的输出输入到自注意力模块（self-attention）中，获得初始注意力映射，将初始注意力映射、相应帧的原始像素级特征序列以及筛选出的实例身份特征进行拼接融合，获得实例分割结果。

具体的：将初始注意力映射、相应帧的原始像素级特征序列以及筛选出的实例身份特征进行融合，获得每一帧的预测结果，预测结果包括每个ID的掩码、类别和置信度分数的预测结果，选取置信度分数高于第一设定值的预测结果为实例分割结果。

将初始注意力映射与相应帧的原始像素级特征序列和Transformer编码器的输出进行拼接融合，经过一个3D卷积和三个并行的分支输出每一帧的预测结果，预测结果包括每个ID的掩码、类别和置信度分数。第一个分支是一个可变形的卷积层，输出不同帧的每个ID的掩码m；第二个分支是一个卷积层和激活函数，输出每个ID的类别c；第三个分支是一个卷积层和激活函数，输出置信度分数s。

得到预测的类别c，置信度分数s和预测的掩码m，输出一个语义掩码SemMsk和实例ID掩码IdMsk，为每个像素分配一个类别标签和实例ID。具体来说，SemMsk和IdMsk首先被初始化为零。然后，将预测结果按照置信度分数降序排序，并将排序后的预测掩码填充到SemMsk和IdMsk中。置信度分数低于第一设定值（thrcls）的结果被丢弃，置信度较低（高于第一设定值，低于第二设定值）的重叠部分被删除，以生成无重叠的全视结果。最后，添加类别标签和实例ID，获得实例分割结果。此处，为了约束输出的类别和掩码，添加实例分割模块的损失函数如下：

类别分支的

采用Focal Loss，掩码分支的

为交叉熵损失，置信度分支的

为对数似然函数。

本实施例公开的基于无人驾驶的城市场景下的实例分割方法，使用一个单阶段的全时空偏移Transformer进行特征提取，获得每一帧的实例身份特征（instanceproposal），然后使用针对实例身份变更的数据关联模块进行相邻两帧的实例身份特征的数据关联，基于视频中图像的相似性，深入挖掘图像中实例的时空依赖关系。本发明使用基于全时空偏移Transformer的全景分割技术，能够有效的建模长期依赖和历史轨迹，通过偏移注意力机制缓解全时空Transformer的高复杂度问题，提高运算速度，加快模型收敛，减少运算量。实例身份变更的数据关联模块能够有效的识别实例身份变更，快速适应无人驾驶的城市场景下的复杂环境。

实施例2

在该实施例中，公开了基于无人驾驶的城市场景下的实例分割***，包括：

视频获取模块，用于获取城市场景视频；

实施例3

在该实施例中，公开了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1公开的基于无人驾驶的城市场景下的实例分割方法所述的步骤。

实施例4

在该实施例中，公开了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1公开的基于无人驾驶的城市场景下的实例分割方法所述的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.基于无人驾驶的城市场景下的实例分割方法，其特征在于，包括：

获取城市场景视频；

2.如权利要求1所述的基于无人驾驶的城市场景下的实例分割方法，其特征在于，通过骨干网络对视频进行多尺度特征提取，获得第一特征图序列、第二特征图序列和第三特征图序列；

将第一特征图序列进行上采样后与第二特征图拼接，获得第四特征图；

将第四特征图上采样后与第三特征图拼接，获得第五特征图；

将第五特征图压缩为一个维度后，获得原始像素级特征序列。

3.如权利要求1所述的基于无人驾驶的城市场景下的实例分割方法，其特征在于，全时空偏移Transformer编码器-解码器中引入偏移注意力机制，其中，编码器包括多个编码块，每个编码块的输出是下个编码块的输入，每个编码块包括依次连接的多头偏移注意力模块、正则化层、FFN和正则化层，每个解码块包括依次连接的多头偏移注意力模块、正则化层、可形变的多头注意力层、正则化层、FFN和正则化层，编码器和解码器结构对称，编码器的输出和时空位置编码结果相加，作为每个解码块输入的一部分，将每个解码块的输出输入到下一个解码块中，Transformer编码器-解码器直接输出每一帧的实例身份特征。

4.如权利要求3所述的基于无人驾驶的城市场景下的实例分割方法，其特征在于，多头偏移注意力模块包括多个偏移注意力机制模块。

5.如权利要求1所述的基于无人驾驶的城市场景下的实例分割方法，其特征在于，将相邻两帧的实例身份特征组合成一个特征向量，将特征向量进行压缩，获得关联矩阵M，以行为单位对关联矩阵M进行求和，获得N×1的和向量，将和向量中大于1的实例身份特征进行保留，获得筛选出的实例身份特征。

6.如权利要求1所述的基于无人驾驶的城市场景下的实例分割方法，其特征在于，分别附加一个额外的列和行到关联矩阵上，获得矩阵M₁和矩阵M₂，对M₁执行以行为单位的Softmax运算得到概率矩阵A₁，对M₂执行以列为单位的softmax运算获得概率矩阵A₂，A₁和A₂分别与真实关联矩阵L _t-n,t进行比较，获得匹配损失，其中，L _t-n,t为二进制数据关联矩阵，表示第t-n帧和第t帧的实例身份特征中检测到的实例对象之间的对应关系。

7.如权利要求1所述的基于无人驾驶的城市场景下的实例分割方法，其特征在于，将初始注意力映射、相应帧的原始像素级特征序列以及筛选出的实例身份特征进行融合，获得每一帧的预测结果，预测结果包括每个ID的掩码、类别和置信度分数的预测结果，选取置信度分数高于第一设定值的预测结果为实例分割结果。

8.基于无人驾驶的城市场景下的实例分割***，其特征在于，包括：

视频获取模块，用于获取城市场景视频；

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项所述的基于无人驾驶的城市场景下的实例分割方法的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的基于无人驾驶的城市场景下的实例分割方法的步骤。