CN111062395A

CN111062395A - 一种实时的视频语义分割方法

Info

Publication number: CN111062395A
Application number: CN201911185021.4A
Authority: CN
Inventors: 赵三元; 吴俊蓉; 文宗正; 黄科乐
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2020-04-24
Anticipated expiration: 2039-11-27
Also published as: CN111062395B

Abstract

本发明属于计算机视觉领域，涉及一种实时的视频语义分割方法。该方法包括如下步骤：步骤1：选择训练和测试数据集；步骤2：构建基于图像的骨干网络；步骤3：使用训练数据集对骨干网络进行预训练；步骤4：构建整体的视频语义分割模型；步骤5：在训练数据集上对整体视频语义分割模型进行训练；步骤6：输入测试集的视频帧，在已训练好的视频语义分割模型中进行前向传播，端到端地输出预测的语义分割结果。本发明方法推理速度快，能够满足实时性的要求；准确率高，能够准确实现视频语义分割，具有很强地实用性。

Description

一种实时的视频语义分割方法

技术领域

本发明属于计算机视觉领域，涉及一种实时的视频语义分割方法。

背景技术

语义分割是计算机视觉领域的一项基本任务，其目的在于为给定图像中的每一个像素预测一个语义标签。受到深度学习的启发，这项任务拥有了崭新的发展方向，特别是全卷积网络的提出，使图像语义分割效果达到了里程碑般的新高度。而由于视频信息比图像信息多一个时间维度并且存在大量冗余信息，视频语义分割往往更加复杂。

直接将基于图像的语义分割方法来分割视频中的每一帧非常耗时，并且无法充分利用帧间的相关性，因此无法得到满意的性能。现存的视频语义分割方法可以根据如何利用时间信息来大致分类，主要包括采用3D卷积来编码运动和结构特征的方法、采用循环神经网络来汇总逐帧信息的方法、采用CRF来建模空间和时间上下文的方法以及采用独立的网络来计算光流并传播特征的方法。然而基于3D卷积的方法可以看作一种信息聚合的方式，将整个视频段的信息作为输入，处理效率不高，基于循环神经网络的方法也存在类似的缺点。而由于CRF的推理复杂，因此基于CRF的方法需要高昂的计算成本。基于光流的方法难以实现精确的光流估计，费时并且总是存在未对准的情况。大部分现存方法处理视频帧速度慢，无法达到实时，而实时的速度在很多视频语义分割的实际应用中是必要的，比如自动驾驶和智能监控等。

综上所述，目前的视频语义分割方法需要充分利用帧间一致性，减少相邻视频帧之间的信息冗余并进一步节省推理时间。

发明内容

本发明的目的是为了解决现有技术中的视频语义分割推理速度慢的问题，提供一种实时的视频语义分割方法。

本发明的工作原理和过程为：为了解决现有问题，首先提出了一种轻量级、高效、实时的基于图像的网络作为整体视频语义分割方法的强大骨干网洛。骨干网络采用编码器-解码器体系结构，在编码器中提出了残差双分支深度可分离卷积模块(RDDS模块)，以有效地捕获细节信息并有效地减少计算量。为了实现特征传播，采用关键帧选择机制并提出一个独特的整体注意力模块来指示非关键帧与其先前关键帧之间的空间相关性。更具体地说，使用我们提出的基于注意力的特征传播架构来构建实时全卷积网络。首先，根据固定关键帧选择机制将输入帧分为关键帧和非关键帧。对于关键帧，采用整个骨干网络来多层次地提取丰富的空间信息以进行特征传播。非关键帧无需浪费大量时间来通过整个骨干网提取冗余特征，而只需通过骨干网的低层网络提取低层特征，保留空间细节，然后融合该低层特征与传播得到的乘上注意力权重的前一个关键帧的高层特征。为了有效地实现传播，本发明提出了一种基于注意力的方法：以非关键帧及其对应关键帧的低级特征图为输入，通过计算特征图的任意两个位置之间的空间相似度来获得整体注意力图A，A中每个位置的值都表示关键帧与非关键帧对应位置之间的相关性。由于整体注意力图集成了两帧之间的每个像素相关性，因此可以将其视为捕获帧间一致性信息的空间转换指导。通过将注意力权重应用于相应关键帧的高层特征来获得预测的非关键帧的高层特征，然后，将其与非关键帧的低级功能相融合，以补充先前关键帧中不存在的新信息，从而增强了处理复杂且不断变化的场景的能力。所提出的模型是可导的和可端到端训练的。

本发明的目的是通过以下技术方案实现的。

一种实时的视频语义分割方法，包括如下步骤：

步骤1、选择训练和测试数据集；

步骤2、构建基于图像的骨干网络；

步骤3、使用训练数据集对骨干网络进行预训练；

步骤4、构建整体的视频语义分割模型；

步骤5、在训练数据集上对整体视频语义分割模型进行训练；

步骤6、输入测试集的视频帧，在已训练好的视频语义分割模型中进行前向传播，端到端地输出预测的语义分割结果。

步骤2中所述的基于图像的骨干网络采用编码器-解码器架构。编码器包含残差双分支深度可分离卷积模块(RDDS模块)和下采样模块，其中残差双分支深度可分离卷积模块包含两个对称分支，每个分支包含1个深度可分离卷积层、1个深度可分离扩张卷积层、3个批量标准化(BatchNormalization)层、1个线性整流函数(ReLU)激活层和1个丢弃(dropout)层，两个分支结果连接(Concat)之后再经过一个1×1卷积核的卷积层以及一个ReLU激活层。下采样模块由一个最大池化层和一个3×3卷积核的卷积层Concat后构成。解码器包含一个1×1卷积核的卷积层和一个8倍双线性上采样层。

步骤3包括：

步骤3.1：对训练数据集中的图像进行预处理和数据增强，将图像重定义大小为固定数值，使用水平翻转、平移和颜色(包括亮度、饱和度和对比度)变化的数据增强方式；

步骤3.2：对整个图像语义分割模型进行初始化；

步骤3.3：记训练过程中模型预测的语义分割结果与标注图像的交叉熵损失为loss。

步骤4所述的整体的视频语义分割模型是基于关键帧选择机制，首先以第二个下采样层为界，把骨干网络的编码器部分分成低层网络和高层网络两部分。如果当前输入的视频帧是关键帧，则使用整个骨干网络进行计算，并得到低层特征图F_lk和高层特征图F_hk；如果当前输入是非关键帧，则只使用编码器的低层网络计算非关键帧得到特征图F_ln，然后使用整体注意力模块来实现特征传播，把F_ln和前一关键帧的F_lk作为输入通过矩阵乘法计算得到整体注意力图A，再将前一关键帧的F_hk与A相乘得到预测的当前非关键帧的高层特征图F_hn，将F_hn与F_ln相加来补充细节信息。两种情况下最终都需要通过解码器得到最终的语义分割结果。

步骤5包括：

步骤5.1、对训练数据集中的图像进行预处理和数据增强，将图像重定义大小为固定数值，使用水平翻转、平移和颜色(包括亮度、饱和度和对比度)变化的数据增强方式；

步骤5.2、加载骨干网络预训练好的模型参数，对整个视频语义分割模型进行初始化，每次输入一个关键帧-非关键帧图像对，每个连续视频片段包含1个关键帧和n个非关键帧；

步骤5.3、记训练过程中模型对非关键帧预测的语义分割结果与标注图像的交叉熵损失为loss。

对于步骤3和步骤5，根据loss使用随机剃度下降算法进行误差反向传播，用多项式学习策略，更新模型参数，得到训练好的语义分割模型。多项式学习策略中，学习率lr设置为：

其中，baselr为初始学习率，步骤3设置为5e^-4,步骤5设置为3e^-3；power设置化0.9。

有益效果

本发明与现有技术相比，其显著优点是：

(1)本发明方法推理速度快，能够满足实时性的要求；

(2)本发明方法准确率高，能够准确实现视频语义分割，具有实用性。

附图说明

图1为本发明的流程图；

图2为本发明的骨干网络结构图；

图3为本发明的残差双分支深度可分离卷积模块结构图；

图4为本发明的下采样模块结构图；

图5为本发明的视频语义分割模型结构图；

图6为本发明的整体注意力模块结构图；

图7为本发明在Cityscapes数据集上的部分实例。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例与附图，对本发明作进一步详细说明。

下面，将具体结合一个最优选的实施例，来对本发明进行更加清楚、完整的说明。

如图1所示，本发明的实时视频语义分割方法，包括如下步骤：

步骤1、选择训练和测试数据集；本实施例中以Cityscapes数据集的20类(其中1类为背景)场景类别为基准，训练骨干网络时使用Cityscapes(单帧图像)和Cityscapessequence(连续视频帧)数据集，训练整体视频语义分割模型时仅使用Cityscapessequence数据集，测试时都使用Cityscapes测试数据集。

步骤2、构建基于图像的骨干网络。

如图2所示，所述骨干网络采用编码器-解码器架构。编码器包含残差双分支深度可分离卷积模块(RDDS模块)和下采样模块，解码器包含一个1×1卷积核的卷积层和一个8倍双线性上采样层。

如图3所示，所述RDDS模块包含两个对称分支，每个分支包含1个深度可分离卷积层、1个深度可分离扩张卷积层、3个批量标准化(BatchNormalization)层、1个线性整流函数(ReLU)激活层和1个丢弃(dropout)层，两个分支结果连接(Concat)之后再经过一个1×1卷积核的卷积层以及一个ReLU激活层。RDDS模块能够有效地捕获细节信息并有效地减少计算量。

如图4所示，所述下采样模块用于进行下采样操作提取特征，由一个最大池化层和一个3×3卷积核的卷积层Concat后构成。

骨干网络的具体网络结构如表1所示：

表1 RDDS模块网络结构

步骤3、使用Cityscapes和Cityscapes sequence训练数据集对骨干网络进行预训练。

步骤3的过程为：

步骤3.1、对训练数据集中的图像进行预处理和数据增强，将图像重定义大小为固定数值，使用水平翻转、平移和颜色(包括亮度、饱和度和对比度)变化的数据增强方式；

步骤3.2、对整个图像语义分割模型进行初始化；

步骤3.3、记训练过程中模型预测的语义分割结果与标注图像的交叉熵损失为loss。

步骤4、构建整体的视频语义分割模型。

如图5所示，整体的视频语义分割模型基于关键帧选择机制，首先以第二个下采样层为界，把骨干网络的编码器部分分成低层网络和高层网络两部分。如果当前输入的视频帧是关键帧，则使用整个骨干网络进行计算，并得到低层特征图F_lk和高层特征图F_hk；如果当前输入是非关键帧，则只使用编码器的低层网络计算非关键帧得到特征图F_ln，然后使用整体注意力模块来实现特征传播，把F_ln和前一关键帧的F_lk作为输入通过矩阵乘法计算得到整体注意力图A，再将前一关键帧的F_hk与A相乘得到预测的当前非关键帧的高层特征图F_hn，将F_hn与F_ln相加来补充细节信息。两种情况下最终都需要通过解码器得到最终的语义分割结果。

如图6所示，为了深入挖掘关键帧和非关键帧的低层特征图之间的空间相关性并实现特征传播，我们设计了整体注意力模块，通过该模块计算得到的注意力图隐式地包含了帧间一致性信息，可以视为特征传播的指导信息。整体注意力模块中的计算过程如下：

(1)通过骨干网络编码器第二个下采样模块计算后，得到关键帧和非关键帧低层特征图

将两者通道数减少，将F_lk转置后与F_ln做矩阵乘法得到图

(N＝H×W)；

(2)然后我们将A’输入两个并行分支以获得最大的点对点响应，分别在通道维度上对A’进行平均池化和最大池化，然后将两个分支的结果Concat起来以获得通道数为2的最大响应注意力图。

(3)最后，我们使用5×5卷积层将通道数减少为1，然后使用Sigmoid激活层将值限制为[-1，1]，最终得到注意力图

步骤5、在Cityscapes sequence训练数据集上对整体视频语义分割模型进行训练。

步骤5的过程为：

表2展示了本视频语义分割方法与其他最先进方法在准确率(mIoU)与推理速度上的比较，可见本方法在保持较高准确率的同时能够大幅度提升推理速度，当mIoU为60.6％时，推理速度可以达到131.6fps：

表2本视频语义分割方法与其他最先进方法的比较

图7展示了本发明在Cityscapes数据集上的部分实例。

Claims

1.一种实时的视频语义分割方法，其特征在于，包括如下步骤：

步骤1、选择训练和测试数据集；

步骤2、构建基于图像的骨干网络；

步骤3、使用训练数据集对骨干网络进行预训练；

步骤4、构建整体的视频语义分割模型；

步骤5、在训练数据集上对整体视频语义分割模型进行训练；

2.根据权利要求1所述的一种实时的视频语义分割方法，其特征在于：步骤2所述骨干网络采用编码器-解码器架构；编码器包含残差双分支深度可分离卷积模块和下采样模块，其中残差双分支深度可分离卷积模块包含两个对称分支，每个分支包含1个深度可分离卷积层、1个深度可分离扩张卷积层、3个批量标准化层、1个线性整流函数激活层和1个丢弃层，两个分支结果连接之后再经过一个1×1卷积核的卷积层以及一个线性整流函数激活层。下采样模块由一个最大池化层和一个3×3卷积核的卷积层连接后构成；解码器包含一个1×1卷积核的卷积层和一个8倍双线性上采样层。

3.根据权利要求1所述的一种实时的视频语义分割方法，其特征在于：步骤3包括：

步骤3.2：对整个图像语义分割模型进行初始化；

4.根据权利要求1所述的一种实时的视频语义分割方法，其特征在于，步骤4所述整体的视频语义分割模型基于关键帧选择机制；首先以第二个下采样层为界，把骨干网络的编码器部分分成低层网络和高层网络两部分；如果当前输入的视频帧是关键帧，则使用整个骨干网络进行计算，并得到低层特征图F_lk和高层特征图F_hk；如果当前输入是非关键帧，则只使用编码器的低层网络计算非关键帧得到特征图F_ln，然后使用整体注意力模块来实现特征传播，把F_ln和前一关键帧的F_lk作为输入通过矩阵乘法计算得到整体注意力图A，再将前一关键帧的F_hk与A相乘得到预测的当前非关键帧的高层特征图F_hn，将F_hn与F_ln相加来补充细节信息；两种情况下最终都需要通过解码器得到最终的语义分割结果。

5.根据权利要求1所述的一种实时的视频语义分割方法，其特征在于，步骤5包括：

步骤5.1：对训练数据集中的图像进行预处理和数据增强，将图像重定义大小为固定数值，使用水平翻转、平移和颜色(包括亮度、饱和度和对比度)变化的数据增强方式；

步骤5.2：加载骨干网络预训练好的模型参数，对整个视频语义分割模型进行初始化，每次输入一个关键帧-非关键帧图像对，每个连续视频片段包含1个关键帧和n个非关键帧；

步骤5.3：记训练过程中模型对非关键帧预测的语义分割结果与标注图像的交叉熵损失为loss。

6.根据权利要求1所述的一种实时的视频语义分割方法，其特征在于，对于步骤3和步骤5，根据loss使用随机剃度下降算法进行误差反向传播，用多项式学习策略，更新模型参数，得到训练好的语义分割模型；多项式学习策略中，学习率lr设置为：

其中，baselr为初始学习率，步骤3设置为5e^-4,步骤5设置为3e^-3；power设置为0.9。