CN111523442A

CN111523442A - 视频语义分割中的自适应关键帧选择方法

Info

Publication number: CN111523442A
Application number: CN202010316625.4A
Authority: CN
Inventors: 杨绿溪; 顾恒瑞; 王路; 朱紫辉; 徐琴珍; 俞菲
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2020-08-11
Anticipated expiration: 2040-04-21
Also published as: CN111523442B

Abstract

视频语义分割中的自适应关键帧选择方法。在处理视频的语义分割技术中，关键帧的选择是一个重要的问题，本发明提出一种自适应关键帧选择方法。该方法可以对场景变换进行感知，自适应地选择关键帧：当视频中场景变化较快时，增加关键帧选择的频率；视频中场景变化较慢时，减少关键帧选择的频率。该方法可以使网络在处理速度和分割精度上取得更好的平衡。经验证，相比于采取定长选择关键帧方法的视频语义分割网络，使用本发明提出的自适应关键帧选择方法的网络，测试中在同等处理速度的情况下有着更高的准确率。

Description

视频语义分割中的自适应关键帧选择方法

技术领域

本发明属于计算机视觉领域，特别是涉及视频语义分割中的自适应关键帧选择方法。

背景技术

语义分割技术作为计算机视觉领域的关键技术之一，一直备受关注。语义分割是在像素级别上进行分类，是一种应用于场景理解的任务，有着广阔的应用前景，覆盖多个领域，包括自动驾驶、人机交互、机器人、增强现实等。

目前，图像语义分割技术已经取得了很大的发展，许多研究者的关注的重心开始向视频语义分割方向偏移。与单一图像不同，视频是由一组在某一段时间内连续发生的若干张图像组成，视频基于图像，却又有着图像所不具备的特征，因此，视频语义分割可以说是在图像语义分割上进一步发展的方向。随着多媒体和通信技术的不断发展，数据的存储和传输能力得到极大提升，视频已经成为越来越主流的数据格式，比如在自动辅助驾驶领域，如何利用车载摄像头，为汽车实时提供有效信息，辅助司机驾驶，成为了当前很受关注的研究热点。

视频语义分割网络与图像语义分割网络不同，可以有效利用视频帧与帧之间的相关性，达到降低网络运算量、提高网络运行速度的目的。一种有效的视频语义分割方法是：网络对某些稀疏分布的视频帧进行图像语义分割，得到分割结果，而对于其余帧，则通过已有的语义分割结果进行特征传播，得到分割结果。

这些稀疏分布的，进行图像语义分割处理的视频帧，被称为关键帧。

关键帧的选择，自然就成为是一个值得关注的问题。目前普遍的一种做法采取定长的方法选择关键帧，即固定每隔若干帧选择一个关键帧。这种方法在多数情况下都可以取得较好的语义分割结果，因为大多时候，视频中的场景变化都比较慢，即物体的变化都比较连续，不会突然消失或突然出现。对于种情况，定长选取关键帧的方法可以取得很好的效果。

然而，对于场景变化比较快的视频，这种定长的选择方法就不是很合适。这是因为，采用定长方法时，网络并不考虑视频帧的内容，只是根据时间间隔，在某些时刻稀疏地选取关键帧。这时，如果某一帧相比前一关键帧，在内容上发生了很大的变化，而网络在这个时刻按照时间间隔并没有将这一帧判定为关键帧，那么在这种情况下，这一帧的语义分割结果就会出现很大的误差。这是因为，特征传播只能传播前一个关键帧中已有的或相似的特征，如果当前帧中出现了大量关键帧中没有的特征，那么基于特征传播的语义分割结果自然也不会很理想。

发明内容

为了解决以上问题，本发明提供视频语义分割中的自适应关键帧选择方法，该方法以在处理速度和分割精度上取得更好的平衡，为达此目的，本发明提供视频语义分割中的自适应关键帧选择方法，包含以下步骤：

步骤1：给出视频帧相关性衡量指标；

步骤2：构建自适应关键帧选择网络；

步骤3：构建图像语义分割网络；

步骤4：构建光流估计网络；

步骤5：构建自适应视频语义分割网络；

步骤6：训练自适应视频语义分割网络；

步骤7：分析上述自适应关键帧选择方法的作用。

作为本发明进一步改进，所述步骤1中，给出视频帧相关性衡量指标，视频描述着物体在时间和空间上连续的运动轨迹，因此相邻视频帧之间有着很大的相关性，这种相关性主要是指空间上的相关性，即两帧之间有很大比例的部分是重合的，为了描述这种相关性，给出了一种衡量指标；

这里给出一个衡量指标cor(s,t)，其中，s,t是视频帧I的下标。记视频帧I_s和I_t的语义分割结果分别为Y_s和Y_t，则cor(s,t)可以表示为：

其中，p是视频帧上任一像素点，f的表达式为：

因此，cor(s,t)描述的是两个视频帧之间语义分割结果间的相关性，具体为语义分割结果中重叠的像素在所有像素中的占比；

根据定义，cor(s,t)具有以下性质：

(1)cor(s,t)的取值区间为[0,1]；

(2)cor(s,t)的值越大，表示两帧之间的相关性越高。

作为本发明进一步改进，所述步骤2中，构建自适应关键帧选择网络，自适应关键帧选择网络用来判别当前帧是否为关键帧，网络的输入是两个视频帧的差，输出是这两帧的相关性指标，网络由卷积层、全局池化层、和全连接层组成；

记当前帧为I_s，关键帧为I_k，网络的输入为当前帧和关键帧的差值I_s-I_k，输出为当前帧与关键帧相关性指标cor(s,k)的预测值，通过cor(s,k)值的大小来判别当前帧是否为关键帧。因此，需要给定阈值T，当cor(s,k)≥T时，认为当前帧与关键帧之间相关性较高，不将当前帧判别为关键帧；当cor(s,k)＜T时，认为当前帧与关键帧之间的相关性低，将当前帧判别为关键帧，其中，阈值T的值是可以调整的，这样可根据不同场景的变化更灵活地选择关键帧。

作为本发明进一步改进，所述步骤3中，构建图像语义分割网络，视频语义分割网络是基于图像语义分割网络实现的，图像语义分割网络用来处理视频中的关键帧。

作为本发明进一步改进，所述步骤4中，构建光流估计网络，光流描述的是视频中像素的运动情况，它反应的不是单一视频帧的特性，而是具体表示出了视频帧之间的变化，因此，可以利用光流，建立起视频帧之间的联系，在视频帧之间的传播一定的特征，光流估计网络的作用就是计算两个视频帧之间的光流场，并进行特征传播。

作为本发明进一步改进，所述步骤5中，构建自适应视频语义分割网络，自适应视频语义分割网络由3个子网络组成，分别是：自适应关键帧选择网络、图像语义分割网络和光流预测网络，视频帧经过自适应关键帧选择网络后，如果被判别为关键帧，则经过图像语义分割网络处理，如果被判别为非关键帧，则经过光流预测网络处理。

作为本发明进一步改进，所述步骤6中，训练自适应视频语义分割网络，自适应视频语义分割网络可以分别训练子网络，也可以联合训练，训练时，先单独训练子网络，然后联合起来，进行微调训练，得到更准确的网络权重；

关键帧判别网络的训练过程如下：

(1)每次随机选取一对视频帧(I_s，I_t)；

(2)前向传播时，I_s和I_t经过关键帧判别网络，得到相关性指标cor(s,t)的预测值；

(3)根据I_s和I_t的标签，计算cor(s,t)的真实值；

(4)计算网络输出的cor(s,t)的预测值和真实值的误差，经梯度反向传播，更新网络权重

作为本发明进一步改进，所述步骤7中，分析上述自适应关键帧选择方法的作用，相比于采取定长选择关键帧方法的视频语义分割网络，使用上述自适应关键帧选择方法的网络，测试中可以在处理速度和分割精度上取得更好的平衡，比如在同等处理速度的情况下，有着更高的准确率。

本申请视频语义分割中的自适应关键帧选择方法，该方法可以对场景变换进行感知，自适应地选择关键帧：当视频中场景变化较快时，增加关键帧选择的频率；视频中场景变化较慢时，减少关键帧选择的频率。该方法可以在处理速度和分割精度上取得更好的平衡。经验证，相比于采取定长选择关键帧方法的视频语义分割网络，使用本发明提出的自适应关键帧选择方法的网络，测试中在同等处理速度的情况下有着更高的准确率。

附图说明

图1是本申请视频帧之间相关性示意图；

图2是本申请自适应关键帧选择网络示意图；

图3是本申请图像语义分割网络示意图；

图4是本申请block1示意图；

图5是本申请光流估计网络示意图；

图6是本申请F操作示意图；

图7是本申请自适应视频语义分割网络示意图；

图8是本申请FPS-mIoU曲线图；

图9是本申请mIoU是时间变化图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

本发明提供视频语义分割中的自适应关键帧选择方法，该方法以在处理速度和分割精度上取得更好的平衡。

本发明的具体实施方式如下：

步骤1：给出视频帧相关性衡量指标，视频描述着物体在时间和空间上连续的运动轨迹，因此相邻视频帧之间有着很大的相关性，这种相关性主要是指空间上的相关性，即两帧之间有很大比例的部分是重合的。为了描述这种相关性，这里给出一个衡量指标cor(s,t)，其中，s,t是视频帧I的下标。记视频帧I_s和I_t的语义分割结果分别为Y_s和Y_t，则cor(s,t)可以表示为：

其中，p是视频帧上任一像素点，f的表达式为：

因此，cor(s,t)描述的是两个视频帧之间语义分割结果间的相关性，具体为语义分割结果中重叠的像素在所有像素中的占比。

根据定义，cor(s,t)具有以下性质：

(1)cor(s,t)的取值区间为[0,1]；

(2)cor(s,t)的值越大，表示两帧之间的相关性越高。

图1给出了连续10个视频帧的cor(s,t)的值(0≤t≤9)，可以看到，随着t的增大，cor(t,0)的值不断减小，这也表明时间上相距越远的两帧，它们之间的差异就越大。

步骤2：构建自适应关键帧选择网络，图2给出网络示意图，由3个卷积层(包含激活函数)、1个全局池化层和1个全连接层组成。

记当前帧为I_s，关键帧为I_k，网络的输入为当前帧和关键帧的差值I_s-I_k，输出为当前帧与关键帧相关性指标cor(s,k)的预测值，通过cor(s,k)值的大小来判别当前帧是否为关键帧。因此，需要给定阈值T。当cor(s,k)≥T时，认为当前帧与关键帧之间相关性较高，不将当前帧判别为关键帧；当cor(s,k)＜T时，认为当前帧与关键帧之间的相关性低，将当前帧判别为关键帧。其中，阈值T的值是可以调整的，这样可根据不同场景的变化更灵活地选择关键帧。

步骤3：构建图像语义分割网络，语义分割网络是一种结构复杂、参数量大的卷积神经网络，图3给出了示意图。图4给出第1个block的结构。相比block1，block2、3、4、5的结构更为复杂，每个block中都包含着若干个类似的结构。

步骤4：构建光流估计网络，光流估计网络是一个浅层网络，主要由卷积层和反卷积层组成，图5给出网络示意图。网络的输入为两个视频帧，首先在通道维度上进行拼接，两张RGB图像拼接为一个RGBRGB的输入，然后送入网络。经过5次卷积，网络得到尺寸不断变小的特征图，为了得到所需尺寸的输出，需要对这些特征图进行反卷积。值得注意的是，在反卷积过程中，还需要进行一些特征提取和特征融合的过程，这里以F操作的形式给出。图6给出F操作的具体过程。

步骤5：构建自适应视频语义分割网络，图7给出自适应视频语义分割网络示意图，由3个子网络组成，分别是：自适应关键帧选择网络、图像语义分割网络和光流预测网络，视频帧经过自适应关键帧选择网络后，如果被判别为关键帧，则经过图像语义分割网络处理，如果被判别为非关键帧，则经过光流估计网络处理。

步骤6：训练自适应视频语义分割网络，自适应视频语义分割网络可以分别训练子网络，也可以联合训练，训练时，先单独训练子网络，然后联合起来，进行微调训练，得到更准确的网络权重。其中，关键帧判别网络的训练过程如下：

(1)每次随机选取一对视频帧(I_s，I_t)；

(3)根据I_s和I_t的标签，计算cor(s,t)的真实值；

(4)计算网络输出的cor(s,t)的预测值和真实值的误差，经梯度反向传播，更新网络权重。

步骤7：分析上述自适应关键帧选择方法的作用，相比于采取定长选择关键帧方法的视频语义分割网络，使用上述自适应关键帧选择方法的网络，测试中可以在处理速度和分割精度上取得更好的平衡，比如在同等处理速度的情况下，有着更高的准确率。

与定长选取关键帧的策略相比，自适应选择关键帧的策略在测试中有着更好的表现。对于一段视频，如果对每一个视频帧都进行一次语义分割，那么将会得到最高的准确率，但同时也意味着最慢的处理速度。而随着降低关键帧的更新频率，也就是关键帧选取间隔的增加，网络的平均准确率会下降，但是平均处理速度会随之提高。因此，可以认为，网络的准确率和处理速度大致上有着反比的关系。

为了比较采取定长和自适应两种不同关键帧选择策略的网络在准确率和处理速度上的表现，图8给出了其对应的FPS-mIoU曲线对比图。可以看到，采用自适应关键帧选择策略的网络在性能上有着更好的表现，其对应的曲线一直处于定长关键帧选择策略对应的曲线上面。这也就是说，相比定长关键帧选择策略，自适应关键帧选择策略在处理速度相同的情况下，有着更高的准确率；在准确率相同的情况下，有着更快的处理速度。

图9给出了两种关键帧选择策略对分割准确率mIoU随时间变化的影响。可以看到，虽然同样在一段时间、同样选取了两个关键帧，但是采取自适应策略的网络平均mIoU值要更高，整体具有更高的准确率。这是因为自适应选取关键帧时，可以根据场景变化做出更优的选择。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或等同变化，仍属于本发明所要求保护的范围。

Claims

1.视频语义分割中的自适应关键帧选择方法，其特征在于，包含以下步骤：

步骤1：给出视频帧相关性衡量指标；

步骤2：构建自适应关键帧选择网络；

步骤3：构建图像语义分割网络；

步骤4：构建光流估计网络；

步骤5：构建自适应视频语义分割网络；

步骤6：训练自适应视频语义分割网络；

步骤7：分析上述自适应关键帧选择方法的作用。

2.根据权利要求1所述的视频语义分割中的自适应关键帧选择方法，其特征在于，所述步骤1中，给出视频帧相关性衡量指标，视频描述着物体在时间和空间上连续的运动轨迹，因此相邻视频帧之间有着很大的相关性，这种相关性主要是指空间上的相关性，即两帧之间有很大比例的部分是重合的，为了描述这种相关性，给出了一种衡量指标；

其中，p是视频帧上任一像素点，f的表达式为：

根据定义，cor(s,t)具有以下性质：

(1)cor(s,t)的取值区间为[0,1]；

(2)cor(s,t)的值越大，表示两帧之间的相关性越高。

3.根据权利要求1所述的视频语义分割中的自适应关键帧选择方法，其特征在于，所述步骤2中，构建自适应关键帧选择网络，自适应关键帧选择网络用来判别当前帧是否为关键帧，网络的输入是两个视频帧的差，输出是这两帧的相关性指标，网络由卷积层、全局池化层、和全连接层组成；

4.根据权利要求1所述的视频语义分割中的自适应关键帧选择方法，其特征在于，所述步骤3中，构建图像语义分割网络，视频语义分割网络是基于图像语义分割网络实现的，图像语义分割网络用来处理视频中的关键帧。

5.根据权利要求1所述的视频语义分割中的自适应关键帧选择方法，其特征在于，所述步骤4中，构建光流估计网络，光流描述的是视频中像素的运动情况，它反应的不是单一视频帧的特性，而是具体表示出了视频帧之间的变化，因此，可以利用光流，建立起视频帧之间的联系，在视频帧之间的传播一定的特征，光流估计网络的作用就是计算两个视频帧之间的光流场，并进行特征传播。

6.根据权利要求1所述的视频语义分割中的自适应关键帧选择方法，其特征在于：所述步骤5中，构建自适应视频语义分割网络，自适应视频语义分割网络由3个子网络组成，分别是：自适应关键帧选择网络、图像语义分割网络和光流预测网络，视频帧经过自适应关键帧选择网络后，如果被判别为关键帧，则经过图像语义分割网络处理，如果被判别为非关键帧，则经过光流预测网络处理。

7.根据权利要求1所述的视频语义分割中的自适应关键帧选择方法，其特征在于：所述步骤6中，训练自适应视频语义分割网络，自适应视频语义分割网络可以分别训练子网络，也可以联合训练，训练时，先单独训练子网络，然后联合起来，进行微调训练，得到更准确的网络权重；

关键帧判别网络的训练过程如下：

(1)每次随机选取一对视频帧(I_s，I_t)；

(3)根据I_s和I_t的标签，计算cor(s,t)的真实值；

8.根据权利要求1所述的视频语义分割中的自适应关键帧选择方法，其特征在于：所述步骤7中，分析上述自适应关键帧选择方法的作用，相比于采取定长选择关键帧方法的视频语义分割网络，使用上述自适应关键帧选择方法的网络，测试中可以在处理速度和分割精度上取得更好的平衡，比如在同等处理速度的情况下，有着更高的准确率。