CN116246075A

CN116246075A - 一种动态信息与静态信息结合的视频语义分割方法

Info

Publication number: CN116246075A
Application number: CN202310536770.7A
Authority: CN
Inventors: 余锋; 李会引; 姜明华; 汤光裕; 刘莉; 周昌龙; 宋坤芳
Original assignee: Wuhan Textile University
Current assignee: Wuhan Textile University
Priority date: 2023-05-12
Filing date: 2023-05-12
Publication date: 2023-06-09
Anticipated expiration: 2043-05-12
Also published as: CN116246075B

Abstract

本发明公开了一种动态信息与静态信息结合的视频语义分割方法，所述的视频语义分割方法包含如下步骤：首先构建动静态信息融合的视频语义分割网络，接着设计损失函数，通过在视频语义分割数据集上训练得到视频语义分割模型，最后使用模型实现对视频的智能分割。本发明通过改进视频语义分割模型和损失函数提高了视频分割的平均交并比，提供了一种高精确度的视频语义分割网络构建策略，为视频分割的智能化提供的参考，大大节省了人工成本。

Description

一种动态信息与静态信息结合的视频语义分割方法

技术领域

本发明涉及视频语义分割领域，并且更具体地，涉及一种动态信息与静态信息结合的视频语义分割方法。

背景技术

随着视频数量的迅速增长，如何分析和理解视频的内容就更加重要，视频语义分割作为内容理解的其中一个重要步骤，如何提高语义分割的准确性也是亟待解决的问题，相关技术中,视频语义分割所使用的信息较为单一，而视频识别场景通常较为复杂，单模态信息覆盖的场景较少，降低了语义分割的准确性。

公开号为CN113139502A的中国专利公开了“一种视频语义分割方法、装置、电子设备及存储介质”，提出通过多模态图片信息提升图像分割的准确度，其在二分类领域确实已经足够了，但是推广到多分类领域仅通过多模态图像来分割，分割精度是远远不够的。

发明内容

针对现有技术的以上缺陷或者改进需求，本发明提供了一种动态信息与静态信息结合的视频语义分割方法，其目的在于实现对视频的有效分割，提高视频语义分割的准确度。

为实验上述目的，按照本发明的一个方面，提供了一种动态信息与静态信息结合的视频语义分割方法，包括以下步骤：

步骤1，构建动态信息与静态信息结合的视频语义分割网络架构；

所述视频语义分割网络架构设置了3个参考系，分别用于处理当前时刻T的视频帧，时刻T-1的视频帧和时刻T-2的视频帧；每一个参考系都使用时序特征编码器来提取特征，并通过一个卷积层输出对应参考系的特征图；将第二个参考系的输出特征图与第三个参考系的输出特征图拼接，送入位置学习模块学习位置信息得到动态信息特征图，然后将动态信息特征图与第一个参考系的输出特征图经过位置学习模块学习后得到的静态信息特征图相加得到具有动态信息与静态信息的特征表示，然后将这个具有动态信息与静态信息的特征表示送入位置学习模块进行学习后送入解码器进行特征解码，最后求每一个对应像素点类别预测最大值的下标得到最终的预测掩码；

步骤2，设计损失函数，在数据集上训练得到视频语义分割模型；

步骤3，使用视频语义分割模型，实现对视频的智能分割。

进一步的，所述时序特征编码器分为四层时序特征编码层，其中前两层是由时序特征残差块组成，后两层是由时序特征随机丢弃残差块组成；

其中，第一层和第二层时序特征编码层分别由K1个和K2个时序特征残差块组成，第三层和第四层时序特征编码层分别由K3个和K4个时序特征随机丢弃残差块组成；

时序特征残差块由卷积层，层归一化层，深度卷积层，激活层和卷积层组成，输入时序特征残差块的特征图依次经过这些层，然后再通过残差分支与输入时序特征残差块的特征图进行特征图相加操作输出特征图；时序特征随机丢弃残差块由卷积层，层归一化层，激活层，卷积层和随机丢弃层组成，输入时序特征随机丢弃残差块的特征图依次经过前四层，然后通过残差分支与输入时序特征随机丢弃残差块的特征图进行特征图相加操作，再经过一个随机丢弃层后输出特征图；

进一步的，激活层使用的是RELU激活函数，随机丢弃层采用的是Drop path操作。

进一步的，时序特征编码器的前两层时序特征编码层中的第一个时序特征残差块的第一个5×5卷积层，设置步长为2用来缩小特征图的高宽，此时在时序特征残差块的残差分支使用一个2×2卷积层用来缩小特征图的高宽来保持特征图相加时的特征图的大小一致性，其他的时序特征残差块不进行此操作；时序特征编码器的后两层时序特征编码层中的第一个时序特征随机丢弃残差块的第一个7×7卷积层，设置步长为2用来缩小特征图的高宽，此时在时序特征残差块的残差分支使用一个2×2卷积层用来缩小特征图的高宽来保持特征图相加时的特征图的大小一致性，其他的时序特征随机丢弃残差块不进行此操作。

进一步的，位置学习模块的具体处理过程如下；

当特征图输入到位置学习模块后，会被分成三条支路同时进行特征图变形操作，将维度为C×H×W的特征图后两维进行合并维度变成C×(H×W)，然后第一条支路会进行维度变换将第一维和第二维进行维度调换特征图维度变成 (H×W) ×C，再进行第一条支路和第二条支路的矩阵乘法并将得到的矩阵与第三条支路上的矩阵进行矩阵乘法，这两次操作先得到一个(H×W) ×(H×W) 矩阵，然后得到C×(H×W)矩阵，将矩阵变形得到C×H×W的张量；最后，先进行1×1卷积得到1×H×W，然后再将这个特征图与输入位置学习模块之前的特征图进行对应位置的相加，得到最终的输出结果。

进一步的，第一个参考系的时序特征编码器输出的特征图通过一个5×5卷积来提取特征，输出第一个参考系的特征图；第二个参考系的时序特征编码器输出的特征图通过一个7×7卷积来提取特征，输出第二个参考系的特征图。第三个参考系的时序特征编码器输出的特征图通过一个11×11卷积来提取特征，输出第三个参考系的特征图。

进一步的，所述步骤2中设计的损失函数为位置加权损失函数L_p由两部分损失L₁和L₂组成，L₁和L₂具体公式如下：

公式L₁和L₂中C是像素的类别数量，N是表示掩码中的像素数量，y_ij表示第i个像素对于第j种类别的真实标签，p_ij表示第i个像素的第j个类别的预测概率，α_j是对不同的类别j设置不同的权重，w_i是位置权重，为不同位置的像素分配不同的权重，ε是一个极小值，用于避免分母为0的情况；L₁和L₂组成位置加权损失函数L_p的公式如下：

其中，λ为损失权重用来控制后一部分损失的权重；|1- L₂|是对1- L₂部分求绝对值。

进一步的，α_j的取值由分割对象决定，容易分割的对象分配的权重比其他对象的权重小；w_i的取值由像素在图像中所处的位置决定，在图像中部的像素的位置权重比图像边缘的像素的位置权重大。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

（1）通过改进网络结构加深网络的深度并在网络的深层加入随机丢弃层，可防止网络过拟合提高网络的学习能力和泛化性。

（2）设计了一个损失函数可以同时关注像素级的预测和对象边缘信息的预测情况。

（3）设计了一个位置学习模块，通过矩阵乘法和卷积来学习特征图中位置的相关性，并对特征图赋予位置权重，增加网络对动态信息和静态信息的敏感度，提升分割的准确度。

附图说明

图1 本发明实施例提供的一种动态信息与静态信息结合的视频语义分割方法的技术方案流程图。

图2本发明实施例提供的一种动态信息与静态信息结合的视频语义分割方法的时序特征残差块结构示意图。

图3本发明实施例提供的一种动态信息与静态信息结合的视频语义分割方法的时序特征随机丢弃残差块结构示意图。

图4本发明实施例提供的一种动态信息与静态信息结合的视频语义分割方法的位置学习模块结构示意图。

图5本发明实施例提供的一种动态信息与静态信息结合的视频语义分割方法的网络框架示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供的一种动态信息与静态信息结合的视频语义分割方法的技术方案，请参见附图1，图1是实施用例提供的一种动态信息与静态信息结合的视频语义分割方法的技术方案流程图，具体包含如下步骤：

（1）构建动态信息与静态信息结合的视频语义分割网络架构；

具体的，动态信息与静态信息结合的视频语义分割网络结构，请参见附图5，图5是实施用例提供的一种基于动态信息与静态信息结合的视频语义分割方法的网络框架示意图。

首先，网络设置了3个参考系，分别用于处理当前时刻T的视频帧，时刻T-1的视频帧和时刻T-2的视频帧。而在特殊情况下如当前时刻T的视频帧是第一帧时，那么时刻T-1和时刻T-2的参考系使用当前时刻T的视频帧，而如当前时刻T的视频帧是第二帧时，那么时刻T-1和时刻T-2的参考系使用时刻T-1的视频帧。

其次，网络的每一个参考系都使用了时序特征编码器来提取特征，这里3个参考系的时序特征编码器的结构是相同的。第一个参考系的时序特征编码器输出的特征图通过一个5×5卷积来提取特征，输出第一个参考系的特征图。第二个参考系的时序特征编码器输出的特征图通过一个7×7卷积来提取特征，输出第二个参考系的特征图。第三个参考系的时序特征编码器输出的特征图通过一个11×11卷积来提取特征，输出第三个参考系的特征图。通过使用不同尺度的卷积来整合不同时刻视频帧的信息，时刻越远的话使用的卷积核越大，因为需要分割的对象与当前时刻的差异较大，需要更大的卷积核来进行特征表示。

最后，将第二个参考系的输出特征图与第三个参考系的输出特征图拼接，送入位置学习模块学习位置信息得到动态信息特征图，这里的位置学习模块，请参见附图4，图4是实施用例提供的一种基于动态信息与静态信息结合的视频语义分割方法的位置学习模块结构示意图，将动态信息特征图与第一个参考系的输出特征图经过位置学习模型学习后得到的静态信息特征图相加得到具有动态信息与静态信息的特征表示，然后将这个具有动态信息与静态信息的特征表示送入位置学习模块进行学习后送入解码器进行特征解码，最后求每一个对应像素点类别预测最大值的下标得到最终的预测掩码。

这里使用的解码器为视频分割领域常用的两阶段特征图解码结构。

具体的，时序特征编码器是由两种残差块组成，这两种残差块分别是时序特征残差块和时序特征随机丢弃残差块，请参见附图2和附图3，图2是实施用例提供的一种基于动态信息与静态信息结合的视频语义分割方法的时序特征残差块结构示意图，图3是实施用例提供的一种基于动态信息与静态信息结合的视频语义分割方法的时序特征随机丢弃残差块结构示意图。时序特征编码器可以分为四层时序特征编码层，其中前两层是由时序特征残差块组成，后两层是由时序特征随机丢弃残差块组成。

其中，第一层和第二层时序特征编码层分别由4个和6个时序特征残差块组成，第三层和第四层时序特征编码层分别由9个和15个时序特征随机丢弃残差块组成，上述数值是通过实验确定的最好参数。

具体的，位置学习模块的具体操作：当特征图输入到位置学习模块后，会被分成三条支路同时进行特征图变形操作，将维度为C×H×W的特征图后两维进行合并维度变成C×(H×W)，然后第一条支路会进行维度变换将第一维和第二维进行维度调换特征图维度变成(H×W) ×C，再进行第一条支路和第二条支路的矩阵乘法并将得到的矩阵与第三条支路上的矩阵进行矩阵乘法，这两次操作先得到一个(H×W) ×(H×W) 矩阵，然后得到C×(H×W)矩阵，将矩阵变形得到C×H×W的张量。最后，先进行1×1卷积得到1×H×W，然后再将这个特征图与输入位置学习模块之前的特征图进行对应位置的相加，得到最终的输出结果。

具体的，时序特征残差块和时序随机丢弃残差块的具体构成。时序特征残差块由5×5卷积层，层归一化层，3×3深度卷积层，激活层和1×1卷积层组成，输入时序特征残差块的特征图依次经过这些层，然后再通过残差分支与输入时序特征残差块的特征图进行特征图相加操作输出特征图。时序特征随机丢弃残差块由7×7卷积层，层归一化层，激活层，1×1卷积层和随机丢弃层组成，输入时序特征随机丢弃残差块的特征图依次经过前四层，然后通过残差分支与输入时序特征随机丢弃残差块的特征图进行特征图相加操作，再经过一个随机丢弃层后输出特征图。这里的激活层使用的是RELU激活函数，随机丢弃层采用的是Drop path操作。

具体的，时序特征编码器中两种残差块的具体设置。时序特征编码器的前两层时序特征编码层中的第一个时序特征残差块的第一个5×5卷积层，设置步长为2用来缩小特征图的高宽，此时在时序特征残差块的残差分支会使用一个2×2卷积层用来缩小特征图的高宽来保持特征图相加时的特征图的大小一致性，其他的时序特征残差块不进行此操作，这里这样设置的原因是：特征编码层的步长设置成2才可以缩小特征图的大小，其他特征编码层只需要学习特征，不需要缩小特征图大小。时序特征编码器的后两层时序特征编码层中的第一个时序特征随机丢弃残差块的第一个7×7卷积层，设置步长为2用来缩小特征图的高宽，此时在时序特征残差块的残差分支会使用一个2×2卷积层用来缩小特征图的高宽来保持特征图相加时的特征图的大小一致性，其他的时序特征随机丢弃残差块不进行此操作。

（2）设计损失函数，在城市景观数据集上训练得到视频语义分割模型，其中城市景观数据集有19种分类，图片的标签以单通道图像来存储图片中的像素值范围是0到18，每一种类别对应一种像素值实现像素维度上的分类，常称为掩码图；

具体的，所述步骤2中设计的损失函数为位置加权损失数L_p由两部分损失L₁和L₂组成，L₁和L₂具体公式如下：

公式L₁和L₂中C是像素的类别数量，N是表示掩码中的像素数量，y_ij表示第i个像素对于第j种类别的真实标签，p_ij表示第i个像素的第j个类别的预测概率，α_j是对不同的类别j设置不同的权重，根据实验效果对容易分割的对象如背景和人等分配较低的权重，而对其他的类别分配较大一些权重，通常这两种权重的比值是9:10，w_i是位置权重，为不同位置的像素分配不同的权重，其中在图像中部的位置权重比图像边缘的权重大，分别为1.1和1，ε是一个极小值通常设置为0.0004，用于避免分母为0的情况。L₁和L₂组成位置加权损失函数L_p的公式如下：

其中，λ为损失权重用来控制后一部分损失的权重，通常设置为0.8。|1- L₂|是对1- L₂部分求绝对值，这部分损失表示在L₂尽可能小的同时保持1- L₂也尽可能小，可以使网络训练更加关注于边界像素分割的准确性。位置加权损失函数L_p进行这样的组合可以使网络训练即关注整体的分割情况，也关注边缘信息的分割情况。

（3）使用视频语义分割模型，实现对视频的智能分割。

本发明提供一种动态信息与静态信息结合的视频语义分割方法，可以通过改进网络结果，设计损失函数，实现对视频高效分割，解决的视频分割需要人工实现的问题，提供了高准确性的视频分割网络构建策略。在城市景观数据集上相对于现有的视频语义分割先进方法在平均交并比指标上有0.8%的提升。

本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种动态信息与静态信息结合的视频语义分割方法，其特征在于，包括以下步骤：

所述视频语义分割网络架构设置了3个参考系，分别用于处理当前时刻T的视频帧，时刻T-1的视频帧和时刻T-2的视频帧；每一个参考系都使用时序特征编码器来提取特征，并通过一个卷积层输出对应参考系的特征图；之后将第二个参考系的输出特征图与第三个参考系的输出特征图拼接，送入位置学习模块学习位置信息得到动态信息特征图，然后将动态信息特征图与第一个参考系的输出特征图经过位置学习模块学习后得到的静态信息特征图相加得到具有动态信息与静态信息的特征表示，然后将这个具有动态信息与静态信息的特征表示送入位置学习模块进行学习后送入解码器进行特征解码，最后求每一个对应像素点类别预测最大值的下标得到最终的预测掩码；

步骤3，使用视频语义分割模型，实现对视频的智能分割。

2.如权利要求1所述的一种动态信息与静态信息结合的视频语义分割方法，其特征在于：所述时序特征编码器分为四层时序特征编码层，其中前两层是由时序特征残差块组成，后两层是由时序特征随机丢弃残差块组成；

时序特征残差块由卷积层，层归一化层，深度卷积层，激活层和卷积层组成，输入时序特征残差块的特征图依次经过这些层，然后再通过残差分支与输入时序特征残差块的特征图进行特征图相加操作输出特征图；时序特征随机丢弃残差块由卷积层，层归一化层，激活层，卷积层和随机丢弃层组成，输入时序特征随机丢弃残差块的特征图依次经过前四层，然后通过残差分支与输入时序特征随机丢弃残差块的特征图进行特征图相加操作，再经过一个随机丢弃层后输出特征图。

3.如权利要求2所述的一种动态信息与静态信息结合的视频语义分割方法，其特征在于：激活层使用的是RELU激活函数，随机丢弃层采用的是Drop path操作。

4.如权利要求2所述的一种动态信息与静态信息结合的视频语义分割方法，其特征在于：时序特征编码器的前两层时序特征编码层中的第一个时序特征残差块的第一个5×5卷积层，设置步长为2用来缩小特征图的高宽，此时在时序特征残差块的残差分支使用一个2×2卷积层用来缩小特征图的高宽来保持特征图相加时的特征图的大小一致性，其他的时序特征残差块不进行此操作；时序特征编码器的后两层时序特征编码层中的第一个时序特征随机丢弃残差块的第一个7×7卷积层，设置步长为2用来缩小特征图的高宽，此时在时序特征残差块的残差分支使用一个2×2卷积层用来缩小特征图的高宽来保持特征图相加时的特征图的大小一致性，其他的时序特征随机丢弃残差块不进行此操作。

5.如权利要求1所述的一种动态信息与静态信息结合的视频语义分割方法，其特征在于：位置学习模块的具体处理过程如下；

6.如权利要求1所述的一种动态信息与静态信息结合的视频语义分割方法，其特征在于：第一个参考系的时序特征编码器输出的特征图通过一个5×5卷积来提取特征，输出第一个参考系的特征图；第二个参考系的时序特征编码器输出的特征图通过一个7×7卷积来提取特征，输出第二个参考系的特征图；第三个参考系的时序特征编码器输出的特征图通过一个11×11卷积来提取特征，输出第三个参考系的特征图。

7.如权利要求1所述的一种动态信息与静态信息结合的视频语义分割方法，其特征在于：所述步骤2中设计的损失函数为位置加权损失函数L_p由两部分损失L₁和L₂组成，L₁和L₂具体公式如下：

；

；

；

8.如权利要求7所述的一种动态信息与静态信息结合的视频语义分割方法，其特征在于：α_j的取值由分割对象决定，容易分割的对象分配的权重比其他对象的权重小；w_i的取值由像素在图像中所处的位置决定，在图像中部的像素的位置权重比图像边缘的像素的位置权重大。