CN106952269A

CN106952269A - 近邻可逆的视频前景物体序列检测分割方法及***

Info

Publication number: CN106952269A
Application number: CN201710104243.3A
Authority: CN
Inventors: 李甲; 陈小武; 周彬; 赵沁平; 夏长群; 郑安林; 张宇
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2017-02-24
Filing date: 2017-02-24
Publication date: 2017-07-14
Anticipated expiration: 2037-02-24
Also published as: US10275653B2; CN106952269B; US20180247126A1

Abstract

本发明提供一种近邻可逆的视频前景物体序列检测分割方法及***，其中，方法包括：将视频的每一视频帧划分为超像素块；利用视觉关注属性特征表征每一个超像素块；构建并训练深度神经网络，预测每一个超像素块在空域上的初始前景度值；利用视觉关注属性特征在不同视频帧之间构建近邻可逆矩阵；利用近邻可逆矩阵传播超像素块的初始前景度值，构建迭代优化问题，求解超像素块在时空域上的最终前景度值；将超像素块的最终前景度值进行像素级转化；采用形态学平滑操作对像素的最终前景度值进行优化处理；根据像素的最终前景度值判定所述像素是否属于视频前景物体序列。本发明处理视频无需设置先验假定条件，尤其适用于包含复杂场景的大数据集。

Description

近邻可逆的视频前景物体序列检测分割方法及***

技术领域

本发明涉及计算机视觉和图像视频处理领域，尤其涉及一种近邻可逆的视频前景物体序列检测分割方法及***。

背景技术

近年来，图像前景物体序列的分割，或称为基于图像的显著对象检测，随着随机森林、多示例学习、栈式自编码器、深度神经网络等技术的结合与应用，在大规模图像数据集上训练出了很多强大的检测模型，取得了令人印象深刻的发展与进步。

视频前景物体序列与图像显著对象存在内在联系，即视频中前景物体序列在大部分视频帧上都是图像显著对象。然而两者也具有根本性不同之处，表现在：首先，视频中所有视频帧上的前景物体序列并不总是图像显著对象，其次，视频中视频帧与视频帧的一致关系为分割前景物体序列与背景提供了额外的线索，最后，由于摄像头和对象的各种动作，前景物体序列可能落在视频的边界处，导致在图像显著检测模型中广泛使用的背景先验不再有效。

分割视频的前景物体序列是众多计算机视觉应用中很重要的一步。然而，针对视频前景物体序列检测分割，仍然存在巨大的挑战。由于缺少大规模的训练视频数据，无法利用机器学习方法训练性能足够强大的时空域检测模型。此外，由于相机和拍摄对象的运动，使得同样的视频前景物体序列在不同视频帧上产生不同的出现方式，或者多个前景物体序列同时出现，或者与干扰背景有遮挡现象，使得很难持续一致地在整个视频中凸显前景物体序列。

为解决视频前景物体序列检测分割存在的问题，当前研究中存在三种模型类型：全自动分割模型、交互分割模型以及语义信息指导分割模型。

交互分割模型需要对视频第一帧或若干关键视频帧手动标注出前景物体序列，随后才能进行自动的分割过程。而语义信息指导分割模型在分割过程进行之前，需要先设定视频前景物体序列的语义类别，因此这类模型可以结合对象检测器等其他工具分割视频前景物体序列。通常，这两类模型都可依靠人工标注或者数据学习得到的先验知识取得不错的性能。但是，所需要的交互工作和语义标签使得他们很难在大规模数据集上推广使用。

全自动分割模型旨在对单个视频直接分割出前景物体序列或者对视频集共分割出前景物体序列。一般地，全自动分割模型需要对视频前景物体序列的空域视觉属性或者时域运动方式提出确定的假设条件。比如，Papazoglou等人在2013年ICCV会议上提出在视频大部分片段中前景对象应该尽可能的和周围背景有不同的运动方式的假设条件，他们首先根据运动信息初始化得到前景概率图，然后在时空域中优化求解以提高前景对象运动的平滑性。又如，Zhang等人在2013年CVPR会议上的论文中提出基于层次化有向非循环图的***框架分割视频前景物体序列，其假设条件为对象是空域紧致的、而且他们的形状和位置随着时域平滑变动。实际上，类似的假设条件出现在很多全自动分割模型中，并且在若干小数据(SegTrack以及SegTrackV2等数据集)上都有不错的性能，然而，对于Youtube-Objects和VOS等包含复杂场景的大数据集，假设条件可能并不成立，此类模型有时会产生失败负例。而且，很多全自动分割模型需要对视频计算光流，或者需要迭代求解复杂优化问题，使得该模型在分割视频前景物体序列过程中显著地增加计算开销，导致更低的分割速度。

发明内容

本发明提供一种近邻可逆的视频前景物体序列检测分割方法及***，用于解决现有的视频前景物体序列分割方法无法适用于大规模视频数据集的问题。

本发明提供一种近邻可逆的视频前景物体序列检测分割方法，包括：

将待处理视频划分为多个视频帧{I₁,I₂,...,I_u-1,I_u}，并将每个视频帧I_u按照当前设定的尺度划分为多个超像素块其中，u为所述多个视频帧的个数，N_u为所述视频帧I_u中超像素块的个数；

获取每个超像素块的视觉关注属性特征集合，所述视觉关注属性特征集合中每个视觉关注属性特征为所述超像素块中所有像素的所述视觉关注属性特征的平均值；

针对每个视频帧I_u，依次将其前后各T帧的每个视频帧I_v与所述视频帧I_u作为当前的待处理视频帧，执行步骤一至步骤三的步骤，获得所述视频帧I_u对应的2T个近邻可逆矩阵；其中，I_v∈T_u，T_u＝{I_u-T,...,I_u-1,I_u+1,...,I_u+T}，T为正整数，N_v为所述视频帧I_v中超像素块个数；

步骤一：根据当前的待处理视频帧对应的超像素块，构建对应的近邻可逆矩阵F_uv：

步骤二：针对当前的待处理视频帧中每个视频帧对应的每个超像素块，将另一视频帧中所有的超像素块按照与所述超像素块的视觉关注属性特征集合的相似度进行排序，若所述视频帧I_u中的超像素块O_ui和所述视频帧I_v中的超像素块O_vj都为对方的前K个最相似的超像素块，确定超像素块O_ui和超像素块O_vj互为可逆K近邻，其中，K为正整数；

步骤三：针对所述矩阵F_uv中的每个元素f_ui,vj，若K≤K₀，则将所述元素f_ui,vj赋值为f_ui,vj＝exp(-2K/K₀)，否则赋值为0，其中，K₀为预设的正整数；

构建深度神经网络，基于所述深度神经网络利用图像显著领域的大规模数据集训练得到的前景度回归器，预测每个视频帧I_u中每个超像素块在空域上的初始前景度值；

针对每个视频帧I_u，根据所述视频帧I_u对应的2T个近邻可逆矩阵，重复执行N次步骤A至步骤B，获得所述视频帧I_u中各超像素块在时空域上的最终前景度值，所述最终前景度值为最后一次执行步骤B之后所述各超像素块当前的前景度值，N为预设的正整数；

步骤A：利用第一公式，将所述视频帧I_u中各超像素块当前的前景度值依次传播到所述视频帧I_u的前后各T帧的视频帧I_v中，得到所述视频帧I_u中各超像素块的2T个前景度传播值，所述第一公式为：

其中，表示所述视频帧I_v中各超像素块在第t次迭代前的前景度值的列向量；表示所述视频帧I_u中各超像素块在第t次迭代前传播到所述视频帧I_v中的前景度传播值的列向量；

步骤B：根据所述视频帧I_u中各超像素块的前景度值和所述各超像素块的2T个前景度传播值，构建优化问题并求解，获得并根据所述各超像素块的优化前景度值更新所述各超像素块当前的前景度值；

针对每个视频帧I_u中每个像素，将所述像素所在的超像素块的最终前景度值作为当前尺度下所述像素的前景度值；

采用形态学平滑操作，对每个视频帧I_u中各像素的前景度值进行优化处理，并针对每个视频帧I_u中每个像素的前景度值，若所述像素的前景度值大于预设的阈值，则判定所述像素属于视频前景物体序列，否则，判定所述像素属于视频背景物体序列。

本发明还提供一种近邻可逆的视频前景物体序列检测分割***，包括：

划分模块，用于将待处理视频划分为多个视频帧{I₁,I₂,...,I_u-1,I_u}，并将每个视频帧I_u按照当前设定的尺度划分为多个超像素块其中，u为所述多个视频帧的个数，N_u为所述视频帧I_u中超像素块的个数；

特征模块，用于获取每个超像素块的视觉关注属性特征集合，所述视觉关注属性特征集合中每个视觉关注属性特征为所述超像素块中所有像素的所述视觉关注属性特征的平均值；

矩阵模块，用于针对每个视频帧I_u，依次将其前后各T帧的每个视频帧I_v与所述视频帧I_u作为当前的待处理视频帧，执行步骤一至步骤三的步骤，获得所述视频帧I_u对应的2T个近邻可逆矩阵；其中，I_v∈T_u，T_u＝{I_u-T,...,I_u-1,I_u+1,...,I_u+T}，T为正整数，N_v为所述视频帧I_v中超像素块的个数；

预测模块，用于构建深度神经网络，基于所述深度神经网络利用图像显著领域的大规模数据集训练得到的前景度回归器，预测每个视频帧I_u中每个超像素块在空域上的初始前景度值；

计算模块，用于针对每个视频帧I_u，根据所述视频帧I_u对应的2T个近邻可逆矩阵，重复执行N次步骤A至步骤B，获得所述视频帧I_u中各超像素块在时空域上的最终前景度值，所述最终前景度值为最后一次执行步骤B之后所述各超像素块当前的前景度值，N为预设的正整数；

转化模块，用于针对每个视频帧I_u中每个像素，将所述像素所在的超像素块的最终前景度值作为当前尺度下所述像素的前景度值；

判定模块，用于采用形态学平滑操作，对每个视频帧I_u中各像素的前景度值进行优化处理，并针对每个视频帧I_u中每个像素的前景度值，若所述像素的前景度值大于预设的阈值，则判定所述像素属于视频前景物体序列，否则，判定所述像素属于视频背景物体序列。

本发明提供的近邻可逆的视频前景物体序列检测分割方法及***，以超像素块为单元，结合视觉关注属性特征，构建深度神经网络模型以预测各超像素块的初始前景度值、以及构建各视频帧对应的近邻可逆矩阵；基于该近邻可逆矩阵将各超像素块的前景度值进行传播至其前后一定范围内的视频帧中，通过构建优化问题，从而获得各超像素块在时空域上的最终前景度值，进而获得各超像素块中像素的前景度值，并基于各像素的前景度值自动分割视频前景物体序列，上述方案无需对任一无语义标签的视频设定前景物体序列的运动模式或外观的整体变化规律等假设条件，而且更准确有效，尤其适用于大规模视频数据集。

附图说明

图1为根据本发明的一实施例所示出的近邻可逆的视频前景物体序列检测分割方法的流程示意图；

图2为根据本发明的一实施例所示出的深度神经网络的结构示意图；

图3为根据本发明的一实施例所示出的近邻可逆的视频前景物体序列检测分割***的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下获得的所有其他实施例，都属于本发明保护的范围。

图1为根据本发明的一实施例所示出的近邻可逆的视频前景物体序列检测分割方法的流程示意图，如图1所示，所述方法包括如下步骤：

S11、将待处理视频划分为多个视频帧{I₁,I₂,...,I_u-1,I_u}，并将每个视频帧I_u按照当前设定的尺度划分为多个超像素块其中，u为所述多个视频帧的个数，N_u为所述视频帧I_u中超像素块的个数；

S12、获取每个超像素块的视觉关注属性特征集合，所述视觉关注属性特征集合中每个视觉关注属性特征为所述超像素块中所有像素的所述视觉关注属性特征的平均值；

在察看一个视频时，人的视觉注意会从第一视频帧一直持续到最后一视频帧。在此过程中，视频前景物体序列捕获了最多的视觉注意力。视觉注意受颜色、显著、位置以及语义等视觉刺激属性影响。因此，上述的视觉关注属性特征集合可包括颜色特征、显著特征、位置特征以及语义特征。

进一步的，上述的颜色特征的数量可以根据需要的精度确定，例如，可以为9个，相应的，获取每个超像素块的颜色特征，包括：将超像素块所在视频帧转换到RGB、Lab和HSV三种颜色空间，获得超像素块所在视频帧中的所有像素的9个通道的颜色特征，并将每个像素在每个通道下的颜色特征归一化为[0,1]之间；分别计算超像素块中所有像素在9个通道下的颜色特征的平均值，获得超像素块的颜色特征。

进一步的，上述的显著特征的数量也可以根据需要的精度确定，例如，可以为9个，相应的，获取每个超像素块的显著特征，包括：采用光栅扫描技术计算超像素块所在视频帧中每一个像素到边界像素的最小障碍物距离，获得超像素块所在视频帧中的所有像素的9个显著特征，并将每个像素的每个显著特征归一化为[0,1]之间；分别计算超像素块中所有像素的每个显著特征的平均值，获得超像素块的显著特征。

进一步的，上述的位置特征的数量也可以根据需要的精度确定，例如，可以为2个，相应的，获取每个超像素块的位置特征，包括：对超像素块所在视频帧中的每一个像素提取水平方向和垂直方向的两个位置特征，并将每个像素的每个位置特征归一化为[0,1]之间；分别计算超像素块中所有像素的每个位置特征的平均值，获得超像素块的位置特征。

进一步的，上述的语义特征的数量也可以根据需要的精度确定，例如，可以为21个，相应的，获取每个超像素块的语义特征，包括：采用CRF-RNN模型，提取超像素块所在视频帧的21张语义概率图，获得超像素块所在视频帧中的所有像素的21个语义特征，并将每个像素的每个语义特征归一化到[0,1]之间；其中，21张语义概率图包括预定义的20类语义概率图，以及1张背景语义概率图；分别计算超像素块中所有像素的每个语义特征的平均值，获得超像素块的语义特征。上述CRF-RNN模型可以采用2015年Zheng等人发表在ICCV上的CRF-RNN模型。

S13、针对每个视频帧I_u，依次将其前后各T帧的每个视频帧I_v与所述视频帧I_u作为当前的待处理视频帧，执行步骤一至步骤三的步骤，获得所述视频帧I_u对应的2T个近邻可逆矩阵；

其中，I_v∈T_u，T_u＝{I_u-T,...,I_u-1,I_u+1,...,I_u+T}，T为正整数，举例来说，其取值可以为2，N_v为所述视频帧I_v中超像素块的个数；

步骤三：针对所述矩阵F_uv中的每个元素f_ui,vj，若K≤K₀，则将所述元素f_ui,vj赋值为f_ui,vj＝exp(-2K/K₀)，否则赋值为0，其中，K₀为预设的正整数，举例来说，可以取值为10；

进一步的，上述的针对当前的待处理视频帧中每个视频帧对应的每个超像素块，将另一视频帧中所有的超像素块按照与所述超像素块的视觉关注属性特征集合的相似度进行排序，可包括：针对当前的待处理视频帧中每个视频帧对应的每个超像素块，计算另一视频帧中所有超像素块与所述超像素块的视觉关注属性特征集合的曼哈顿距离；根据所述曼哈顿距离，对另一视频帧中所有的超像素块进行相似度排序，所述曼哈顿距离越小，相似度越高。

具体的，两个超像素块的视觉关注属性特征集合的曼哈顿距离计算公式为：

其中，M为超像素块的视觉关注属性特征的个数，G(O_ui)_m为视频帧I_u中超像素块O_ui的第m个视觉关注属性特征的值，G(O_vj)_m为视频帧I_v中超像素块O_vj的第m个视觉关注属性特征的值。曼哈顿距离越小，超像素块O_ui与超像素块O_vj的相似度越高。

S14、构建深度神经网络，基于所述深度神经网络利用图像显著领域的大规模数据集训练得到的前景度回归器，预测每个视频帧I_u中每个超像素块在空域上的初始前景度值；

由于缺少用于训练时空域检测模型的大规模视频数据集，因此直接计算超像素块的时空域前景度值存在很大困难。而视频前景物体序列与图像显著对象之间存在内在联系与区别：内在联系为视频中前景物体序列在大部分视频帧上都是图像显著对象；区别之处表现在，首先，视频中所有视频帧上的前景物体序列并不总是显著对象，其次，视频中视频帧与视频帧的一致关系为分割前景物体序列与背景提供了额外的线索，最后，由于摄像头和对象的各种动作，前景物体序列可能落在视频帧的边界处，导致在图像显著检测模型中广泛使用的背景先验不再有效。基于视频前景物体序列与图像显著对象之间存在的内在联系与区别，本发明构建深度神经网络，该深度神经网络利用图像显著领域中的大规模数据集，训练空域前景度回归器，预测每个视频帧中每个超像素块在空域上的初始前景度值。

进一步的，上述的深度神经网络利用图像显著领域中的大规模数据集，训练空域前景度回归器，预测每个视频帧中每个超像素块在空域上的初始前景度值，可包括：

构建深度神经网络。图2为根据本发明的一实施例所示出的深度神经网络的结构示意图。该深度神经网络由7层全连接组成，其中，前6层全连接的每一层全连接包含512个节点，第7层全连接包含1个节点，且前6层全连接的每一层全连接之后紧接着Batchnormalization批规范化和Relu激活函数，第7层全连接采用sigmod函数为损失函数；

举例来说，从现有图像显著数据集收集到20615张训练图像，首先将每一张训练图像按照15个尺度划分为若干超像素块，从而获取1千6百万个超像素块训练样本，并为每一个超像素块提取41维的视觉关注属性特征集合(包括9维颜色特征、9维显著特征、2维位置特征以及21维语义特征)。对于任一超像素块训练样本，计算包含在该超像素块训练样本内所有像素基准前景度值的平均值，并将该平均值归一化为[0,1]之间，获得该超像素块训练样本的基准前景度值；

根据每一超像素块训练样本的视觉关注属性特征集合以及基准前景度值，采用深度神经网络在线下主导训练空域前景度回归器，在训练过程中，输入是超像素块训练样本的视觉关注属性特征集合，输出是超像素块训练样本的基准前景度值，其中，输出值范围为[0,1]之间；

给定训练好空域前景度回归器的深度神经网络，输入每个视频帧中每个超像素块的视觉关注属性特征集合，则可输出该超像素块在空域上的初始前景度值。

S15、针对每个视频帧I_u，根据所述视频帧I_u对应的2T个近邻可逆矩阵，重复执行N次步骤A至步骤B，获得所述视频帧I_u中各超像素块在时空域上的最终前景度值，所述最终前景度值为最后一次执行步骤B之后所述各超像素块当前的前景度值，N为预设的正整数；

进一步的，上述步骤B中根据视频帧I_u中各超像素块的前景度值和各超像素块的2T个前景度传播值，构建优化问题并求解，获得各超像素块的优化前景度值，可包括：

构建二次优化公式：

其中，λc为正实数，优选取值为0.5，表示视频帧I_u中各超像素块在第t次迭代前的前景度值的列向量，表示视频帧I_u中各超像素块在第t次迭代后的前景度值的列向量；

在上述二次优化公式中代入欧式距离公式：

求解获得视频帧I_u中各超像素块的前景度值：

将求解获得的视频帧I_u中各超像素块的前景度值归一化到[0,1]之间，获得各超像素块的优化前景度值。

进一步的，在S15之后，还可包括：利用高斯高通滤波，对视频帧I_u中各超像素块在时空域上的最终前景度值进行处理。这样可以提高各超像素块的最终前景度值的对比度，有效滤除噪声。

S16、针对每个视频帧I_u中每个像素，将像素所在的超像素块的最终前景度值作为当前尺度下像素的前景度值；

进一步的，在S16之后，还可包括：更新所述尺度，并返回执行将每个视频帧I_u按照当前设定的尺度划分为多个超像素块的步骤，获得当前尺度下每个视频帧I_u中每个像素的前景度值；将所有尺度下每个视频帧I_u中每个像素的前景度值的平均值，作为像素的前景度值。这样可以使最终获得的每个像素的前景度值更为精准。

S17、采用形态学平滑操作，对每个视频帧I_u中各像素的前景度值进行优化处理，并针对每个视频帧I_u中每个像素的前景度值，若所述像素的前景度值大于预设的阈值，则判定所述像素属于视频前景物体序列，否则，判定所述像素属于视频背景物体序列。

上述阈值优选为当前视频帧I_u对应的所有像素的前景度值中最大值的20％。

本实施例的近邻可逆的视频前景物体序列检测分割方法可全自动分割视频前景物体序列，无需对任一无语义标签的视频设定前景物体序列的运动模式或外观的整体变化规律等假设条件，而且更准确有效，尤其适用于包含复杂挑战场景的大规模视频数据集。

图3为根据本发明的一实施例所示出的近邻可逆的视频前景物体序列检测分割***的结构示意图。如图3所示，所述***主要包括：

划分模块11，用于将待处理视频划分为多个视频帧{I₁,I₂,...,I_u-1,I_u}，并将每个视频帧I_u按照当前设定的尺度划分为多个超像素块其中，u为所述多个视频帧的个数，N_u为所述视频帧I_u中超像素块的个数；

特征模块12，用于获取每个超像素块的视觉关注属性特征集合，所述视觉关注属性特征集合中每个视觉关注属性特征为所述超像素块中所有像素的所述视觉关注属性特征的平均值；

矩阵模块13，用于针对每个视频帧I_u，依次将其前后各T帧的每个视频帧I_v与所述视频帧I_u作为当前的待处理视频帧，执行步骤一至步骤三的步骤，获得所述视频帧I_u对应的2T个近邻可逆矩阵；其中，I_v∈T_u，T_u＝{I_u-T,...,I_u-1,I_u+1,...,I_u+T}，T为正整数，N_v为所述视频帧I_v中超像素块的个数；

预测模块14，用于构建深度神经网络，基于所述深度神经网络利用图像显著领域的大规模数据集训练得到的前景度回归器，预测每个视频帧I_u中每个超像素块在空域上的初始前景度值；

计算模块15，用于针对每个视频帧I_u，根据所述视频帧I_u对应的2T个近邻可逆矩阵，重复执行N次步骤A至步骤B，获得所述视频帧I_u中各超像素块在时空域上的最终前景度值，所述最终前景度值为最后一次执行步骤B之后所述各超像素块当前的前景度值，N为预设的正整数；

转化模块16，用于针对每个视频帧I_u中每个像素，将所述像素所在的超像素块的最终前景度值作为当前尺度下所述像素的前景度值；

判定模块17，用于采用形态学平滑操作，对每个视频帧I_u中各像素的前景度值进行优化处理，并针对每个视频帧I_u中每个像素的前景度值，若所述像素的前景度值大于预设的阈值，则判定所述像素属于视频前景物体序列，否则，判定所述像素属于视频背景物体序列。

作为一种可选的实施方式，在前述任一实施方式的基础上，该近邻可逆的视频前景物体序列检测分割***，还可以包括：

循环模块18，用于在转化模块16针对每个视频帧I_u中每个像素，将所述像素所在的超像素块的最终前景度值作为当前尺度下所述像素的前景度值之后，更新所述尺度，并指示划分模块11再次执行所述将每个视频帧I_u按照当前设定的尺度划分为多个超像素块的步骤，获得当前尺度下每个视频帧I_u中每个像素的前景度值；

循环模块18，还用于将所有尺度下每个视频帧I_u中每个像素的前景度值的平均值，作为所述像素的前景度值。

进一步的，矩阵模块13，具体可用于针对当前的待处理视频帧中每个视频帧对应的每个超像素块，计算另一视频帧中所有超像素块与所述超像素块的视觉关注属性特征集合的曼哈顿距离；根据所述曼哈顿距离，对另一视频帧中所有的超像素块进行相似度排序，所述曼哈顿距离越小，相似度越高。

进一步的，预测模块14，具体可以用于构建深度神经网络。该深度神经网络由7层全连接组成，其中，前6层全连接的每一层全连接包含512个节点，第7层全连接包含1个节点，且前6层全连接的每一层全连接之后紧接着Batch normalization批规范化和Relu激活函数，第7层全连接采用sigmod函数为损失函数；

进一步的，计算模块15，具体可以包括：

构建单元，用于构建二次优化公式：

求解单元，用于在上述二次优化公式中代入欧式距离公式：

所述求解单元，还用于求解获得视频帧I_u中各超像素块的前景度值：

归一化单元，用于将求解获得的视频帧I_u中各超像素块的前景度值归一化到[0,1]之间，获得各超像素块的优化前景度值。

进一步的，计算模块15，还用于利用高斯高通滤波，对视频帧I_u中各超像素块在时空域上的最终前景度值进行处理。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种近邻可逆的视频前景物体序列检测分割方法，其特征在于，包括：

针对每个视频帧I_u，依次将其前后各T帧的每个视频帧I_v与所述视频帧I_u作为当前的待处理视频帧，执行步骤一至步骤三的步骤，获得所述视频帧I_u对应的2T个近邻可逆矩阵；其中，I_v∈T_u，T_u＝{I_u-T,...,I_u-1,I_u+1,...,I_u+T}，T为正整数，N_v为所述视频帧I_v中超像素块的个数；

[\begin{matrix} f_{u 1, v 1} & .. & .. & f_{u 1, v j} & .. & .. & f_{u 1, {vN}_{v}} \\ .. & .. & .. & .. & .. & .. & .. \\ .. & .. & .. & .. & .. & .. & .. \\ f_{u i, v 1} & .. & .. & f_{u i, v j} & .. & .. & f_{u i, {vN}_{v}} \\ .. & .. & .. & .. & .. & .. & .. \\ .. & .. & .. & .. & .. & .. & .. \\ f_{{uN}_{u}, v 1} & .. & .. & f_{{uN}_{u}, v j} & .. & .. & f_{{uN}_{u}, {vN}_{v}} \end{matrix}]

x_{u | v}^{t - 1} = \frac{F_{u v} x_{v}^{t - 1}}{K_{0}};

2.根据权利要求1所述的方法，其特征在于，所述视觉关注属性特征集合包括颜色特征、显著特征、位置特征以及语义特征。

3.根据权利要求1所述的方法，其特征在于，所述深度神经网络由7层全连接组成，其中，前6层全连接的每一层全连接包含512个节点，第7层全连接包含1个节点，且所述前6层全连接的每一层全连接之后紧接着Batch normalization批规范化和Relu激活函数，所述第7层全连接采用sigmod函数为损失函数，所述深度神经网络的输入是超像素块的视觉关注属性特征集合，输出是超像素块的初始前景度值，所述输出值范围为[0,1]之间。

4.根据权利要求1所述的方法，其特征在于，所述针对当前的待处理视频帧中每个视频帧对应的每个超像素块，将另一视频帧中所有的超像素块按照与所述超像素块的视觉关注属性特征集合的相似度进行排序，包括：

针对当前的待处理视频帧中每个视频帧对应的每个超像素块，计算另一视频帧中所有超像素块与所述超像素块的视觉关注属性特征集合的曼哈顿距离；

根据所述曼哈顿距离，对另一视频帧中所有的超像素块进行相似度排序，所述曼哈顿距离越小，相似度越高。

5.根据权利要求1所述的方法，其特征在于，所述步骤B中所述根据所述视频帧I_u中各超像素块的前景度值和所述各超像素块的2T个前景度传播值，构建优化问题并求解，获得所述各超像素块的优化前景度值，包括：

构建二次优化公式：

x_{u}^{t} = \arg \underset{x}{m i n} | | x - x_{u}^{t - 1} | |_{2}^{2} + λ_{c} \underset{v &Element; T_{u}}{Σ} | | x - x_{u | v}^{t - 1} | |_{2}^{2}, s . t . x &PlusMinus; 0

其中，λc为正实数，表示所述视频帧I_u中各超像素块在第t次迭代前的前景度值的列向量，表示所述视频帧I_u中各超像素块在第t次迭代后的前景度值的列向量；

在所述二次优化公式中代入欧式距离公式，求解获得所述视频帧I_u中各超像素块的前景度值：

x_{u}^{t} = \frac{x_{u}^{t - 1} + λ_{c} \underset{v &Element; T_{u}}{Σ} x_{u | v}^{t - 1}}{1 + λ_{c}}

将求解获得的所述视频帧I_u中各超像素块的前景度值归一化到[0,1]之间，获得所述各超像素块的优化前景度值。

6.根据权利要求1所述的方法，其特征在于，所述针对每个视频帧I_u，根据所述视频帧I_u对应的2T个近邻可逆矩阵，重复执行N次步骤A至步骤B，获得所述视频帧I_u中各超像素块在时空域上的最终前景度值之后，还包括：

利用高斯高通滤波，对所述视频帧I_u中各超像素块在时空域上的最终前景度值进行处理。

7.根据权利要求1所述的方法，其特征在于，所述阈值为当前视频帧I_u对应的所有像素的前景度值中最大值的20％。

8.根据权利要求1所述的方法，其特征在于，所述针对每个视频帧I_u中每个像素，将所述像素所在的超像素块的最终前景度值作为所述像素的前景度值之后，还包括：

更新所述尺度，并返回执行所述将每个视频帧I_u按照当前设定的尺度划分为多个超像素块的步骤，获得当前尺度下每个视频帧I_u中每个像素的前景度值；

将所有尺度下每个视频帧I_u中每个像素的前景度值的平均值，作为所述像素的前景度值。

9.一种近邻可逆的视频前景物体序列检测分割***，其特征在于，包括：

[\begin{matrix} f_{u 1, v 1} & .. & .. & f_{u 1, v j} & .. & .. & f_{u 1, {vN}_{v}} \\ .. & .. & .. & .. & .. & .. & .. \\ .. & .. & .. & .. & .. & .. & .. \\ f_{u i, v 1} & .. & .. & f_{u i, v j} & .. & .. & f_{u i, {vN}_{v}} \\ .. & .. & .. & .. & .. & .. & .. \\ .. & .. & .. & .. & .. & .. & .. \\ f_{{uN}_{u}, v 1} & .. & .. & f_{{uN}_{u}, v j} & .. & .. & f_{{uN}_{u}, {vN}_{v}} \end{matrix}]

x_{u | v}^{t - 1} = \frac{F_{u v} x_{v}^{t - 1}}{K_{0}};

10.根据权利要求9所述的***，其特征在于，所述***还包括：

循环模块，用于在所述转化模块针对每个视频帧I_u中每个像素，将所述像素所在的超像素块的最终前景度值作为当前尺度下所述像素的前景度值之后，更新所述尺度，并指示所述划分模块再次执行所述将每个视频帧I_u按照当前设定的尺度划分为多个超像素块的步骤，获得当前尺度下每个视频帧I_u中每个像素的前景度值；