CN111008978B

CN111008978B - 基于深度学习的视频场景分割方法

Info

Publication number: CN111008978B
Application number: CN201911239331.XA
Authority: CN
Inventors: 代成; 刘欣刚; 李辰奇; 倪铭昊; 韩硕; 曾昕
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2022-10-14
Anticipated expiration: 2039-12-06
Also published as: CN111008978A

Abstract

本发明公开了一种基于深度学习的视频场景分割方法，属于视频场景分割技术领域。本发明首先将待分割的视频数据转化为帧图像，再基于深度学习算法进行目标检测处理获取帧图像的背景候选框；并对帧图像进行关键背景候选框选取；基于关键背景候选框的位置信息，确定关键背景候选框所在的图像帧的相邻的后一图像帧上的对应所述位置信息的背景候选框；最后计算相邻图像帧的联合相似度相似度，若将联合相似度低于相似度阈值，则基于当前相邻帧的帧位置对待分割的一段视频数据进行视频分割。本发明可以在自动提取局部背景区域的情况下实现对视频背景信息进行相似度的判断，解决了传统算法中算法复杂度过高的问题，实现对复杂场景下背景分割。

Description

基于深度学习的视频场景分割方法

技术领域

本发明涉及视频场景分割技术领域，具体涉及一种基于深度学习的视频场景分割方法。

背景技术

随着多媒体技术的快速发展，视频作为重要的信息传输媒介广泛的应用于人们的日常生活中。近些年，视频数据量呈现了***式的增长，然而海量的视频数据在丰富人们的工作、学习、生活的同时，存储、管理和检索这些海量的视频数据成为高效使用这些数据的基础，尤其是在大数据时代，如何准确的进行视频的分类和检索目前也成了一个巨大的挑战。考虑到在视频检索研究中，视频场景分割对于更加灵活地、高效地标识视频数据具有重要的意义，因此准确的对场景进行分割开始受到研究人员的越来越多的关注。

场景分割的主要目标是准确的进行场景相似度进行检测，在有明显区分度的情况下进行视频的分割任务，但是传统的基于人工特征的算法存在着人工特征工程量大、计算复杂度高以及准确率低等问题，从而不能很好的满足现在实时分割的要求，因此，需要新的方法来更加智能化的解决视频背景分割的问题。

发明内容

本发明的发明目的在于：为了解决现有技术的不足，针对复杂场景下，海量数据提供一种更精确、更便捷的视频背景分割方法。

本发明的基于深度学习的视频场景分割方法，包括如下步骤：

步骤S1：图像预处理：将待分割的视频数据转化为帧图像；

例如固定间隔对待分割的视频数据(一段待分割的视频帧序列)进行帧图像采样，得到帧图像序列；

步骤S2：背景候选框识别：

基于预设的目标对象，采用目标检测算法Faster R-CNN对各帧图像进行目标检测处理，生成目标对象的候选框，并进行候选框坐标信息标注；

对候选框进行目标对象识别，筛选出不存在目标对象的候选框，作为帧图像的背景候选框；

步骤S3：对帧图像进行关键背景候选框选取：

步骤S31：筛除面积小于预置的面积阈值的背景候选框；

步骤S32：筛除重叠度高的背景候选框：当存在重叠的两个背景候选框的重叠度大于预置的重叠度阈值时，删除重叠的两个背景候选框中面积较小的一个；

其中，重叠度计算公式为：

其中Area表示面积，B-box_i和B-box_j分别表示存在重叠的两个背景候选框，i和j为背景候选框标识符；

将当前剩余的背景候选框作为关键背景候选框；

步骤S4：基于关键背景候选框的位置信息，确定关键背景候选框所在的图像帧的相邻的后一图像帧上的对应所述位置信息的背景候选框；

步骤S5：计算相邻图像帧的相似度：

将关键背景候选框或背景候选框所在的位置区域作为背景区域；

将步骤4得到的上一图像帧的关键背景候选框与相邻的后一图像帧上对应的背景候选框作为相邻图像帧的同一位置的背景区域的相似度计算对象；

对相似度计算对象分别计算结构相似度、直方图相似度；

设置每个背景区域的权重值w_i为：

其中A_i表示第i个背景区域的面积；n表示帧图像包括的背景区域数量；

并根据公式

计算相邻图像帧的联合相似度similarity，其中

SSIM_i、Hist_i分别表示相邻的两帧帧图像之间对应第i个背景区域的结构相似度和直方图相似度；

步骤S6：视频场景分割：

相邻图像帧的联合相似度similarity，若联合相似度similarity低于预置的相似度阈值，则基于当前相邻帧的帧位置对待分割的视频数据进行视频分割，从而将待分割视频数据分割成多段的子视频段，每段子视频段一类场景。

例如对于固定间隔采样得到的帧图像序列而言，帧图像序列中的相邻帧在原始视频数据并不相邻，该两帧之间包括一定数量的原始视频帧，只需要从该两帧之间任意选定一个分割位置即可，即将固定间隔采样得到的帧图像序列中的联合相似度similarity低于预置的相似度阈值相邻帧分割为不同类场景，该相邻帧的前一帧图像对应一类，后一帧图像对应另一类场景。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

通过深度学习技术能够对复杂场景下的目标检测进行学习，得到局部背景候选框。再对相邻的帧图像进行候选框对应坐标进行标注，通过图像局部区域的结构相似度SSIM和直方图相似度Hist加权对比，能够降低算法的复杂度，同时基于深度学习的特征区域能够相对于传统的手工区域标注更具有普适性，并且能够获得更高的分割准确率。

附图说明

图1是实施例中的具体实现过程示意图；

图2是实例中的张量建模示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

S1：图像预处理，将视频数据转化为帧图像：即采用惯用的视频帧提取方式，完成视频到对应帧的转换，从而得到待处理的帧图像；

S2：背景区域识别，利用目标检测算法Faster R-CNN算法确定帧图像中的目标对象，进而确定帧图像的背景候选框：

首先采用CNN+RPN网络(卷积神经网络+区域生成网络)，生成候选框，即候选区域框，并进行候选框坐标信息标注；

对候选框中的内容特征，进行分类回归，从而实现物体目标识别；

筛选出候选框中没有目标对象的候选框，得到帧图像的背景候选框(该背景候选框所在的位置区域即为背景区域)的坐标。

其中，Faster R-CNN算法具体可参考文献《Faster R-CNN:Towards Real-TimeObject Detection with Region Proposal Networks》。

S3：对于视频中的每一帧图像的关键背景候选框选取：

根据背景区域面积计算，并通过区域重叠检测函数进行量化，删除背景区域中的重叠部分和区域面积小的背景候选框，实现选出有效的背景候选框，即关键背景候选框；

S31：筛除面积小的背景候选框，当面积小于某一阈值，即可忽略，其中背景候选框的面积公式为：

其中，

和

表示第i个背景候选框的左右横坐标；

和

表示第i个背景候选框的上下纵坐标；A_i表示第i个背景候选框的面积；

S32：筛除重叠度高的背景候选框，当重叠度较高时，删除两者中面积较小的一方，重叠检测函数为：

其中，Area表示面积，B-box_i和B-box_j分别表示第i个和第j个背景候选框。

S4：背景候选框特征提取，根据坐标提取相邻帧对应区域的背景候选框；

提取关键背景候选框对应点的坐标，根据提取的对应点的坐标，找出相邻的后续一帧的对应的背景候选框；

S5：背景框相似度对比，对相邻帧对应的区域通过结构相似度SSIM和直方图相似度Hist联合算法实现对应背景区域进行加权完成相邻帧背景相似度对比。

参见图2，结构相似度SSIM的具体计算方式为：

SSIM(x,y)＝L(x,y)×C(x,y)×S(x,y)

其中，L(x,y),C(x,y)和S(x,y)函数分别表示两图像的亮度，对比度，结构对比，SSIM(x,y)为两图像的结构相似度。

L(x,y),C(x,y)和S(x,y)的具体计算公式如下：

(1)

其中，u_x，u_y分别表示图像x,y的像素的平均值，

x_i表示图像x的第i个像素值，N表示像素点数；u_y与u_x的计算方式相同，C₁为常数，用来避免分母为0，通常取值C₁＝(K₁×L)，K₁＝0.01，L＝255。

(2)

其中，σ_x，σ_y分别表示图像x,y的像素标准差，

其中，μ_x表示图像x的像素均值，C₂＝(K₂×L)²，K₁＝0.03，L＝255。

(3)

其中，σ_xy表示图像x,y的像像素的协方差，且

μ_y表示图像y的像素均值，

直方图相似度Hist的具体计算公式为：

其中，

分别表示图像x,y的直方图的第i个数值，N为直方图包含的所有数值的个数。

结构性相似SSIM和直方图相似Hist的联合处理时，首先设置每个背景框的权重值，再计算所有背景框的两种相似度的加权平均，再结合的两者的加权平均得到最终的相似度度量值，即联合相似度：

每个背景框的权重值w_i为：

其中A_i表示第i个背景框的面积。

联合相似度similarity为：

其中

SSIM_i、Hist_i分别表示相邻的两帧帧图像之间对应第i个背景框的结构和直方图相似度。

S6：视频场景分割。

根据场景相似度对比的结果，如果相似度低于门限值，说明相似帧(相邻帧)图像之间的关系不大，不属于一类场景，基于当前相邻帧的帧位置对视频进行分割，即分割成为不同段落镜头。

实施例

基于本发明的视频场景分割方法，应用到基于视频处理的应用中，实现一种基于改进型Faster R-CNN网络的视频分割算法中，参见图1，其具体实现过程如下：

S1：图像预处理，将视频数据转化为帧图像；本具体实施方式中，处理的视频长度大多在1.5分钟到3分钟之内的短视频文件，按每秒24帧计算，大约有2160-4320帧。为了减少计算量，提高计算速度，本实施例以5帧为宽度，等间隔对视频帧进行采样。这样，单个视频的帧数将会降至432-864，且也能确保原视频的连续性，避免了内容变化过大导致信息丢失。

S2：目标识别，利用Faster R-CNN算法标示出视频中目标对象；

其中，Faster R-CNN模型主要有4个部分构成。

第一步，卷积层会对于输入的图片帧进行特征提取；

第二步，提取出的特征图将进入RPN(Region Proposal Network)网络，来生成300个候选区域框；

第三步，候选区域框将会经过RoI(Region 0f Interest)池化，转化为固定长度的特征；

最后，对于每个候选区域框进行回归和分类，输出候选区域内的物体和该区域的精确坐标。

本实施例中，采用VGG-16的CNN模型来进行特征提取，并用图像分类数据集VOC2007进行训练，可以分辨出21类物体。如果区域框内存在物体，则被视为前景并去除。然后在剩下的区域框内，挑选出一定数量的区域框作为背景候选区域框(背景框)，本实施例中挑选出20个。

S3：关键背景区域选取，根据背景区域面积计算，并通过区域重叠检测函数进行量化，删除背景区域中的重叠部分和区域面积小的背景框，选出有效的背景框；经过实验验证，当区域面积大于800时，背景区域框分布效果最佳，因此小于800被视为小区域。同时，如果两区域重叠面积大于较小区域面积的70％，则去除面积较小区域。

S4：候选框区域特征提取，根据坐标提取相邻帧对应区域的背景区域，在相邻两帧图像上，对这些区域进行切割；

S5：背景框相似度对比，对相邻帧对应的区域通过结构相似度SSIM和直方图相似度Hist联合算法实现对应背景区域进行加权完成相邻帧背景相似度对比。在相邻两帧中，每个对应背景区域都进行一次SSIM和直方图相似计算。然后根据区域面积占比，赋予各区域权重值，并将两种指标分别进行加权相加，得到两图像总的SSIM和直方图相似度。最后通过调和平均方法，实现两种相似度的联合得到新的相似度指标，来进行场景变化判断以及分割。

本发明的基于背景区域相似度的视频场景分割算法，使用了深度学***均值达到了80.4％，而在不使用深度学习的情况下，当前方法仅有64.8％。其他三类视频由于场景较为简单，该算法结果准确率较高，电影类视频达到93.7％，新闻类达到93.0％，日常生活类甚至高达98.1％。而若不使用深度学习模型，识别率分别仅为70.5％、71.4％和80.0％。通过实验结果可知，利用深度学习选取背景内容，再进行相似度比较的视频分割方法，可以有效提高简单视频分段的准确率，具有非常良好的应用前景。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。