CN102999901A

CN102999901A - 基于深度传感器的在线视频分割后的处理方法及***

Info

Publication number: CN102999901A
Application number: CN2012103953664A
Authority: CN
Inventors: 黄美玉; 陈益强; 纪雯
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2012-10-17
Filing date: 2012-10-17
Publication date: 2013-03-27
Anticipated expiration: 2032-10-17
Also published as: CN102999901B

Abstract

本发明公开了一种基于深度传感器的在线视频分割后的处理方法及***，该方法包括：步骤1，深度传感器基于视频帧和其对应的深度图像提取特征，对所述特征进行视频帧前景、背景分割，得到二值图像；步骤2，对该二值分割图像中的前景孔洞进行检测和填充，得到前景孔洞填充后的二值图像；步骤3，对该前景孔洞填充后的二值图像进行边界优化，获取优化后的二值图像；步骤4，将该优化后的二值图像融合虚拟背景和所述视频帧，生成虚实融合图像。本发明解决了基于深度传感器的在线视频分割在深度非连续处容易出错和现有技术在准确度和实时性上存在顾此失彼的问题，提供了一种满足实时性要求的高质量的基于深度传感器的在线视频分割后处理方法和虚实融合***。

Description

基于深度传感器的在线视频分割后的处理方法及***

技术领域

本发明涉及视频内容分析、图像处理和计算机视觉领域，特别是涉及一种基于深度传感器的在线视频分割后的处理方法及***。

背景技术

随着普适计算技术和视频编码技术以及宽频网络技术的发展，在因特网上通过远程视频实现位于不同地方的人的共同交流和通讯成为21世纪的新热点，并展现出广阔的应用前景。除了传统的行政会议和办公会议的应用范畴，远程视频交互的应用范围已经扩展到远程医疗，远程教育、远程商务会议和法律等等领域。最近几年，远程视频交互逐步向提供沉浸式体验发展，目的是让参与者有身临奇境的感觉，但是目前的远程视频还存在很多问题，并不如“面对面”交流自然，其中一个重要的问题就是交流具备严重的空间隔离感，由于视频交互用户处于不同的空间位置，因此通过简单的图像拼接技术并不能实现多个场景的自然融合，从而不能让会话人感到所有会话成员都在同一个会话空间之中，产生心灵的隔阂。实时高质量的在线视频分割技术通过准确的前景提取，并结合虚实融合技术可以实现不同物理位置的用户犹如身处同一个虚拟会话空间。

在线视频分割指的是提取在线视频中的前景（多为人体），其目的是将用户感兴趣的物体（即前景）与视频帧中的其它部分（即背景）分离开，以便对前景进行特殊处理，如背景替换和虚实融合。所谓虚实融合，指的是将提取的前景与虚拟场景融合到一个统一的三维空间中。为了获得高质量的融合效果，用于前景提取的分割方法必须要能得到物体的精确边界，前景提取的结果可用像素的alpha值来表示，alpha值等于0表示像素是背景，alpha值等于1表示像素是前景。对于软分割或抠图，alpha值可取0到1之间的连续值。

由于在线视频分割不能有用户交互，且其对算法的速度和鲁棒性都有较高的要求，因此到目前为止还处于非常初级的研究阶段。为了达到实时，在线视频分割方法很难借鉴图像和视频抠图的技术，而只能对输入图像进行逐帧的二元分割。一种二元分割方法是将分割问题转化为一个马尔科夫随机场的能量最小化问题，并使用图切割算法快速地求解。为了获取高质量的二元分割，传统的方法是提取多种能用于区分前景和背景的特征，并将这些特征融入到现有的图像分割框架中。常用的特征有颜色分布、图像边缘、背景图等。除此之外，在线视频分割还能采用一些新的特征，如深度信息。由于深度信息对于光照变化的鲁棒性，因此，利用深度信息对改善分割结果很有帮助。但是，由于深度传感器获取的实时深度图像在深度非连续处容易出错，而且非常不稳定，从而导致分割结果在边界附近出现闪烁。

为了获得较好的视觉效果，改善基于深度信息的前景分割结果，一种方法是在分割之后融合彩色图像中提取的多种额外信息提高分割精度。由于前、背景边界处经常就是深度非连续处，因此存在严重的误分割。一种后处理方法[1]是利用边界像素的局部颜色模型和边界模型估算其混合alpha值，由于该方法能够自适应地调整边界区域的宽度，使边界清晰但不生硬，在一定程度上保证了单帧分割结果的准确性和光滑性。但是该方法没有利用视频帧的时序分割结果，难以保证视频分割时序的一致性。采用抠图的方法也可以对边界进行优化，但是抠图的方法运行速度较慢，很难满足在线视频分割的实时性要求。

综上，可以看出，目前分割后处理的方法很难在准确度和实时度上达到一个平衡，难以满足在线视频分割的要求。

发明内容

本发明的目的是：解决针对基于深度传感器的在线视频分割在边界容易出错的现象，及现有技术在准确度和实时性上存在顾此失彼的问题，从而提供一种满足实时性要求的高质量的基于深度传感器的在线视频分割后处理方法和一套虚实融合***。

为实现上述目的，本发明提出了一种基于深度传感器的在线视频分割后的处理方法，包括：

步骤1，深度传感器基于视频帧和其对应的深度图像提取特征，对所述特征进行视频帧前景、背景分割，得到二值图像，在该二值图像中，0表示像素是背景，1表示像素是前景；

步骤2，对该二值图像中的前景孔洞进行检测和填充，得到前景孔洞填充后的二值图像；

步骤3，对该前景孔洞填充后的二值图像进行边界优化，获取优化后的二值图像；

步骤4，将该优化后的二值图像融合虚拟背景和所述视频帧，生成虚实融合图像。

所述步骤2包括：

步骤201，对所述二值图像进行轮廓检测，记轮廓个数为Num，初始化轮廓计数器n=1；

步骤202，判断n是否小于等于所述轮廓个数Num，当n小于等于所述轮廓个数Num时，执行步骤203；否则执行步骤3；

步骤203，对第n个轮廓的内部区域进行标记，并记该轮廓及其内部包含区域为一个孔洞；

步骤204，统计所述孔洞的区域对应位置的非零深度像素的个数；

步骤205，判断所述个数是否为零，非零时执行步骤206，否则执行步骤211；

步骤206，计算孔洞轮廓边缘及其权重；

步骤207，计算孔洞区域背景相似度及其权重；

步骤208，对所述孔洞轮廓边缘及其权重、所述孔洞区域背景相似度及其权重进行加权计算，得到孔洞背景相似度；

步骤209，判断所述孔洞背景相似度是否小于给定的阈值T^b，小于时，执行步骤210，否则执行步骤211；

步骤210，对所述孔洞进行前景填充得到所述前景孔洞填充后的二值图像；

步骤211，对轮廓计数器n执行加一操作，并返回步骤202。

所述步骤209中的阈值T^b为0.3。

所述步骤3包括：

步骤301，获取所述前景孔洞填充后的二值图像的前景、背景边界过渡区域；

步骤302，计算所述边界过渡区域中每个像素的局部alpha值，此处的alpha值借鉴了软分割或抠图中的定义，用于反映前景和背景的合成情况。alpha值可取0到1之间的连续值，alpha值越趋近于0表示像素与背景越相似，alpha值越趋近于1表示像素与前景越相似；

步骤303，计算所述边界过渡区域中每个像素相对前两帧的运动概率；

步骤304，以运动概率为权值，计算所述边界过渡区域每个像素的时序分割结果和局部alpha值的加权和，得到混合alpha值；

步骤305，判断所述混合alpha值是否大于给定的阈值T^f，大于时，将二值图像上对应位置的像素值置为1，表示该像素为前景；否则将二值图像上对应位置的像素值置为0，表示该像素为背景；

步骤306，根据所述步骤305得到边界优化后的二值图像。

所述步骤305中阈值T^f为0.5。

本发明还提供了一种基于深度传感器的在线视频分割后的处理***，包括：

在线视频前、背景分割模块，基于视频帧和其对应的深度图像提取特征，对所述特征进行视频帧前景、背景分割得到二值图像；

检查填充模块，用于对该二值分割图像中的前景孔洞进行检测和填充得到前景孔洞填充后的二值图像；

优化处理模块，用于对该前景孔洞填充后的二值图像进行边界优化，获取优化后的二值图像；

虚实融合模块，用于将所述优化后的二值图像融合虚拟背景和所述视频帧，生成虚实融合合成视频。

所述检查填充模块包括：

轮廓检测模块，用于对所述二值图像进行轮廓检测，记轮廓个数为Num，初始化轮廓计数器n=1；

第一判断模块，用于判断第n个轮廓的轮廓个数是否小于等于所述轮廓个数Num，当n小于等于所述轮廓个数Num时，执行孔洞标记模块，否则执行优化处理模块；

孔洞标记模块，用于对所述第n个轮廓的内部区域进行标记，并记该轮廓及其内部包含区域为一个孔洞；

统计模块，用于统计所述孔洞的区域对应位置的非零深度像素的个数；

第二判断模块，用于判断个数是否为零，非零时执行计算模块，否则执行加一模块；

第一计算模块，用于计算孔洞轮廓边缘及其权重、计算孔洞区域背景相似度及其权重，并利用所述孔洞轮廓边缘及其权重、所述孔洞区域背景相似度及其权重进行加权计算，得到孔洞背景相似度；

第三判断模块，用于判断所述孔洞背景相似度是否小于给定的阈值T^b，若小于，则进入填充模块，否则进入加一模块；

填充模块，对所述孔洞进行前景填充得到前景孔洞填充后的二值图像；

加一模块，用于对轮廓计数器n执行加一操作，并返回判断模块1。

其中，所述第三判断模块中的阈值T^b为0.3。

所述优化处理模块包括：

获取模块，用于获取所述前景孔洞填充后的二值图像的前景、背景边界过渡区域；

第二计算模块，用于计算所述边界过渡区域中每个像素的局部alpha值、所述边界过渡区域中每个像素相对前两帧的运动概率，并以运动概率为权值，计算所述边界过渡区域每个像素的时序分割结果和局部alpha值的加权和，得到混合alpha值，此处的alpha值借鉴了软分割或抠图中的定义，用于反映前景和背景的合成情况。alpha值可取0到1之间的连续值，alpha值越趋近于0表示像素与背景越相似，alpha值越趋近于1表示像素与前景越相似；

前、背景判断模块，用于判断所述混合alpha值是否大于给定的阈值T^f，大于时，将二值图像上对应位置的像素值置1，表示该像素为前景；否则将二值图像上对应位置的像素值置为0，表示该像素为背景；

二值图像获得模块，用于根据所述前景和背景得到边界优化后的二值图像。

其中，所述前、背景判断模块中阈值T^f为0.5。

本发明的有益效果在于：本发明充分挖掘了基于深度传感器的在线视频分割结果出错的原因，针对由于深度丢失造成的前景误判为背景的孔洞给出了一种前景孔洞检测填充算法，并针对由于前、背景边界深度估算不准确或丢失造成的误分现象给出了一种融合时序，颜色、边界和运动信息的边界优化算法，结合上述两种算法，本发明可高效实时地改善基于深度传感器的在线视频分割结果的质量，且能保证分割结果沿时间轴上的一致性，避免视频闪烁。本发明的前景孔洞检测算法既考虑了产生前景孔洞的本质原因，又考虑到前景孔洞的本质属性，即轮廓边缘应该尽量小，背景相似度也应该尽量低，从而能够很好地辨识前景孔洞，滤除背景孔洞。另外，本发明的边界优化算法采用了多种特征，在由局部颜色模型和边界模型估算的局部alpha值的基础上，进一步融合了时序分割结果，且以边缘加权帧差和作为运动概率，将局部alpha值和时序分割结果进行了决策融合，从而能够保证分割结果的时序一致性。

以下结合附图和具体实施例对本发明进行详细描述，但不作为对本发明的限定。

附图说明

图1是本发明的在线视频分割后的处理方法流程图；

图2是本发明的在线视频分割后的处理***示意图；

图3是基于深度传感器的在线视频分割结果示例图；

图4是虚实融合***方法的流程图；

图5是基于深度传感器的在线视频分割结果后处理框架流程图。

具体实施方式

最近几年，由于深度传感器的体积逐渐小型化，***格也在逐渐降低，因此使用深度传感器直接获取的深度信息来辅助视频分割变得实际可行。深度信息对于光照变化和动态阴影本身的鲁棒性，将改善图像分割的质量。图3是基于Kinect深度传感器采用OpenNI中的场景分割应用程序接口获取的某一视频帧的在线视频分割结果示例图，其中图3（a）是视频帧，图3（b）是通过深度传感器获取的与视频帧对应的深度图像，图3（c）是基于深度图像分割出的前景，图3（d）放大显示了图3(c)中标记区域的分割结果，从图3（c）中可以看出，基于深度传感器的在线视频分割即使在复杂场景也可以获取较好的分割结果，但在边界处的误分现象比较严重，而且前景内部还会出现一些误判为背景的前景孔洞。出现上述现象的根源在于基于深度传感器获取的深度信息在深度非连续处容易出错或丢失。

为了解决上述问题，本发明提供了一种基于深度传感器的在线视频分割后的处理方法，用于改善基于深度传感器的在线视频分割结果。图1是本发明的在线视频分割后的处理方法流程图。如图1所示一种基于深度传感器的在线视频分割后的处理方法，包括：

本发明首先针对因深度丢失造成的前景误判为背景的孔洞给出了一种基于轮廓边缘和区域背景颜色相似度的判别算法，并将其正确填充为前景。然后提供了一种高效优质的时序一致的边界优化算法，融合时序、颜色、边界和运动信息重新计算基于深度图像的分割结果的边界像素值，消除边界误分现象。本发明进一步将该后处理方法嵌入到一套虚实融合***中，实现沉浸式远程视频交互。

进一步的，所述步骤2包括：

步骤203，对第n个轮廓的内部包含区域进行标记，并记该轮廓及其内部包含区域为一个孔洞；

步骤206，计算孔洞轮廓边缘及其权重；

步骤207，计算孔洞区域背景相似度及其权重；

步骤210，在所述孔洞进行前景填充得到前景孔洞填充后的二值图像；

步骤211，对轮廓计数器n执行加一操作，并返回步骤202；

所述步骤3包括：

步骤302，计算所述边界过渡区域中每个像素的局部alpha值，此处的alpha值借鉴了软分割或抠图中的定义，用于反映前景和背景的合成情况，alpha值可取0到1之间的连续值，alpha值越趋近于0表示像素与背景越相似，alpha值越趋近于1表示像素与前景越相似；

步骤306，根据所述步骤305的前景和背景得到边界优化后的二值图像。

本发明中的虚实融合***与现有技术类似，流程图如图4所示，分为3个主要步骤：视频前、背景分割、分割后处理、虚实融合。其中视频前、背景分割是基于深度传感器实现的，具体的实现方法可以参照现有的基于深度信息的在线视频分割技术，此处不对其进行详细描述。关于虚实融合也已经有很多相关的研究，具体的实现方法可以参考这些研究成果。本发明主要考虑基于深度传感器的在线视频分割结果出现的因深度丢失误判为背景的前景孔洞和因深度估算不准确造成的边界误分现象以及现有技术很难在准确性和实时性方面达到平衡的研究现状，给出一种分割后处理的方法，并对其进行详细介绍。该后处理的输入是视频帧及其对应的深度图像以及初始二值分割结果，另外为了保持时序一致性，该输入还包括时序视频帧和时序分割结果，输出是经过后处理的二值图像。后处理包括前景孔洞检测和填充以及前、背景边界优化，具体的流程图如图5所示，其中，二值图像作为检查和填充模块中轮廓检测模块的输入；深度图像作为检查和填充模块中统计模块的输入；视频帧作为检查和填充模块以及边界优化模块的计算模块的输入，用于计算孔洞轮廓边缘及其权重、计算孔洞区域背景相似度及其权重，并用于计算所述边界过渡区域中每个像素的局部alpha值、所述边界过渡区域中每个像素相对前两帧的运动概率；时序视频帧作为边界优化模块的计算模块的输入，用于计算所述边界过渡区域中每个像素相对前两帧的运动概率；时序局部alpha值图像作为边界优化模块的计算模块的输入，用于计算所述边界过渡区域每个像素的混合alpha值。。

本发明首先介绍前景孔洞检测和填充。如图3（c）中的矩形区域（图3（d）中的左上部分区域）所示，当前景（目标人）的头发披散在肩头的时候，在头发与肩部的交界处存在深度丢失的现象，会形成前景误判为背景的孔洞，这些孔洞的出现将会大大影响分割的精度。当这些前景孔洞足够小的时候，通常可以采用数学形态学运算，即利用膨胀运算实现孔洞填补，但是，当前景孔洞较大时，使用前述的大掩膜结构的膨胀运算在填补前景孔洞的时候，很可能造成对前景中的背景区域进行误填充。由于目标人的叉腰动作也会在前景内部形成孔洞，如图3（c）中的矩形区域（图3（d）中的中间部分区域）所示，所以不能将前景内部的所有孔洞进行笼统地填充。本发明根据深度传感器获得的深度数据的特性以及前景孔洞的本质特性，给出了一种前景孔洞的判别算法。

本发明首先通过轮廓算法找到二值分割图像中的所有轮廓，然后依次对每个轮廓的内部包含区域进行标记，并将每个轮廓及其内部区域记为一个孔洞Φ。针对每个孔洞，本发明首先遍历统计孔洞区域位置的深度数据，判断是否存在深度不为0的像素，如果存在，则该孔洞不需要进行填充，因为该孔洞不是由于深度缺失产生的，否则该孔洞成为候选前景孔洞，并将基于轮廓边缘和区域背景颜色相似度的加权和计算的背景相似度对其进行进一步的判别，如果候选前景孔洞的背景相似度小于阈值T^b，则在二值图像中将该候选前景孔洞填充为前景。

下面逐个对上述的前景孔洞判别算法中利用的特征进行描述说明。

由于前景孔洞的轮廓边缘一般较小，背景孔洞的轮廓边缘较大，因此轮廓边缘可以被用作一维区分前、背景孔洞的特征。梯度常用于计算像素的边缘，但由于基于深度信息的视频分割在边界的误分现象严重，因此即使是前景内部的背景孔洞，其轮廓也未必是真正的前景与背景的边界，意味着轮廓像素的梯度并不一定大，从而基于轮廓的梯度将无法区分前、背景孔洞。基于上述考虑，本发明提供了一种边缘的近似算法，具体地，本实施例采用边界清晰度估计像素的边缘。本实施例中首先将视频帧转换成灰度图像并对其进行高斯滤波，然后将灰度颜色空间等分成L=32个颜色子空间B^l(l＝1,2,…,L)。记N_p(L_s)是像素p的邻域窗口大小为L_s的邻域，则N_p(Ls)中必同时包含前景像素和背景像素，因为p是轮廓上的像素。记N_p(L_s)中前景像素和背景像素的样本集分别为和

若N_p(L_s)中颜色子空间B^l同时包含样本集

和

中的元素，则认为它是二义的。记N_p为所有二义颜色子空间包含的样本集

和

中颜色样本的总数，则像素p的边界清晰度为:

γ_{p} = 1 - \frac{N_{p}}{L_{s}^{2}},

从而像素p的边缘e_p＝γ_p，整个轮廓的边缘可通过所有轮廓像素的边缘的平均值计算得到。计算公式如下：

e_{Φ^{c}} = \frac{1}{M} \underset{p &Element; Φ^{c}}{Σ} e_{p},

其中Φ^c是Φ的轮廓，M为孔洞轮廓Φ^c上的像素总个数。

由于前景孔洞的区域背景相似度低，背景孔洞的区域背景相似度高，因此区域背景相似度也可以用作一维区分前、背景孔洞的特征。为了计算孔洞区域的背景相似度，首先需要对像素的背景颜色进行建模。由于场景都不是绝对静止的，都会出现诸如光照变化和动态阴影等干扰因素，因此需要采用实时更新的模型对背景颜色建模。本发明采用累积背景颜色直方图对每个像素的背景颜色进行建模。对于视频帧中的每个像素，当且仅当其在t时刻的初始分割标记为背景，且其深度不为0时，该像素的颜色被称为背景颜色，并进行累积直方图建模。本实施例中，灰度颜色空间被均匀划分为32个子块，t时刻像素p的背景颜色直方图为：

H_{p} (t) = [h_{p}^{1} (t), h_{p}^{2} (t), . . ., h_{p}^{L} (t)],

L=32

其中

表征t时刻像素p的颜色分布在第l个颜色块B^l中的频率，计算公式为：

h_{p}^{l} (t) = β * h_{p}^{l} (t - 1) + δ (l_{p} (t) = l,

a_{p}^{b} (t) = 0,

d_p(t)≠0)

其中β=0.95，用来削弱历史背景颜色对于当前、背景颜色模型的作用。δ(.)函数的作用是当参数为真值表达式时，函数值为1，否则为0。l_p(t)，

d_p(t)分别表示像素p在t时刻的颜色子空间标号，初始二值分割标记和深度值。根据公式

对上述每个像素p的背景颜色直方图H_p(t)执行归一化操作后，每个候选孔洞与背景颜色直方图的相似度可由下式计算得到：

其中Φ^r是孔洞Φ的内部区域，N为孔洞区域Φ^r的像素总个数。

本实施例中，使用轮廓边缘和区域背景相似度

的加权和p_Φ计算孔洞与背景的相似度。由于基于颜色块的边界清新度的可靠性与局部区域的颜色复杂度紧密相连，因此的权重w_c取决于邻域非零颜色子空间的数目，可由下式计算得到：

w_{c} = 1 - \frac{1}{M} (\frac{Σ_{p &Element; Φ^{c}} N_{p}^{n}}{L}),

其中

表征像素p的邻域中非零颜色块的个数。与w_c的计算一样，背景像素的

的权重w_r与背景颜色模型的置信度相关，当且仅当场景中存在少量的光照变化，即孔洞区域的背景颜色模型中的非零颜色子空间的数目较少时，背景颜色模型才是可靠的。因此，w_r可按照下式计算：

w_{r} = 1 - \frac{1}{N} \underset{p &Element; Φ^{r}}{Σ} (\frac{Σ_{l = 1}^{L} δ (h_{p}^{l} (t) &NotEqual; 0)}{L})

从而孔洞与背景的相似度p_Φ可由下式估算得到：

p_{Φ} = w * {lh}_{Φ^{r}} + (1 - w) * e_{Φ^{c}},

其中，

当p_Φ小于给定的经验阈值T^b时，本实施例将该区域填充为前景。值得说明的是，本实施例中T^b设为0.3。

下面介绍本发明针对由于前景和背景的边界出现深度丢失或深度估算错误造成的误分割提供的时序一致的边界优化算法。由于在前景和背景的交界处，深度是非连续的，因此这些交界处经常丢失深度信息，出现前景误判为背景的现象。另一方面，在交界处即使获得深度信息，也经常出现估算不准确的情况，容易出现将背景误判为前景的现象。从图3（c）矩形区域（图3（d）中的左下部分区域）中可以明显的看出前景头部边界丢失的深度信息最多，误判现象严重，另外，在前景的手部边缘或衣服边缘则存在明显的误将背景判为前景的现象，如图3（c）中矩形区域（图3（d）中的右部区域）所示。虽然由上述原因引起的逐帧错误是比较轻微的，但在视频里会导致闪烁，严重影响视觉效果。为了消除这些误分割，需要利用对应深度图像的彩色图像信息对前景和背景的交界区域的像素重新进行标记。在本实施例中，采用抠图的思想，首先计算交界区域的alpha值，然后再通过一定的阈值量化alpha值，实现边界区域的二值分割。

本实施例中采用论文《在线视频分割实时后处理》的第二节的第一小节中提出的方法记为方法[1]，找到边界附近的像素。具体的实现方法是：记边界像素的集合为Ω，则Ω可由下式定义：

Ω(L_e)={p|τ₀＜s_p<τ₁},

s_{p} = \frac{1}{L_{e}^{2}} \underset{q &Element; N_{p} (L_{e})}{Σ} a_{q}^{s},

其中N_p(L_e)是像素p的窗口大小为L_e×L_e的邻域；

为像素q经过前景孔洞填充后的二元分割标签；s_p为像素p的邻域内所有像素二值分割标签的平均值；Ω(L_e)为边界两侧一带状区域内的像素集合，该区域的宽度由参数τ₀，τ₁控制，0<τ₀<τ₁＜1。

由于深度传感器在深度非连续处获取的深度信息是非常不稳定的，即使前景保持静止，其深度信息也会出现很大的波动，以致基于深度信息的分割结果也是相当不稳定的。因此，仅基于当前帧的信息去估算待处理像素的alpha值，在前景静止的情况下，前后两帧的alpha值也可能是不同的，并不能消除帧间闪烁。为了保持分割结果的一致性，可以利用时序信息来修正当前帧的alpha值。并且，某个像素前后两帧的运动越小，分割结果应该越相似。基于上述分析，本实施例提供了一种基于时序、颜色、边界和运动信息的边界优化算法。该算法首先使用已有的方法[1]提出的局部颜色模型和边界函数计算每个待处理像素的局部alpha值，然后采用一种简单的运动估计法，估算当前帧与相邻前两帧的运动概率图，接着以运动概率作为权值，求取局部alpha值和时序alpha值的加权和作为待处理像素的混合alpha值。

下面逐个对上述的边界优化算法中利用的特征进行描述说明。

本实施例采用颜色alpha值和边界alpha值的加权和计算待处理像素的局部alpha值。其中颜色alpha值

是基于像素的局部颜色模型计算的。设N_p(L_b)是像素p的窗口大小为L_b的邻域，N_p(L_s)中前景像素和背景像素的样本集分别为

和

则颜色alpha值

可由下式计算：

α_{p}^{c} = \frac{P (c_{p} | M_{p}^{F})}{P (c_{p} | M_{p}^{F}) + P (c_{p} | M_{p}^{B})},

其中c_p是像素p的RGB颜色，

和

分别是像素p的前景颜色相似度和背景颜色相似度，其中颜色模型为均匀分块混合高斯模型。

由于在前景、背景颜色很接近的区域，颜色alpha值会有较明显的错误，导致过宽的半透明区域和边界不光滑。在这种情况下，应该遵从二元分割的结果。已有的方法[1]使用一四参数边界函数来计算像素的边界alpha值，直观上，一个像素距离边界越远，则其与前景的相似度应该越低，边界alpha值也应该较小。具体地，边界alpha值由下述公式计算：

参数δ_p,a_p,b_p,c_p的计算步骤可参考已有的方法[1]。

本实施例中，颜色alpha值的权重取决于边界的清晰度，而边界alpha值的权重取决于二元分割的错误率，局部alpha值的计算公式如下:

a_{p}^{l} = (1 - w_{p}) α_{p}^{c} + w_{p} α_{p}^{b},

其中

w_{p} = \frac{w_{p}^{b}}{w_{p}^{b} + w_{p}^{c}}, w_{p}^{b} = \frac{1}{9} \underset{q &Element; N_{p} (3)}{Σ} | α_{q}^{c} - α_{q}^{s} |,

w_{p}^{c} = γ_{p} .

由于视频帧是连续捕获的，因此帧与帧之间有一定的关联性，分割结果也存在一定的依赖关系。直观上，一个像素如果前后两帧保持静止，则它的类别应该保持一致。因此可以依据像素的运动概率衡量时序alpha值在当前帧的连续性。由于时序局部alpha值的估算过程中采用了局部颜色模型和局部边界属性，因此使用每个像素的邻域的运动总和更能精确反映一个像素的运动。本实施例中采用像素邻域的边缘加权帧差和计算像素的运动概率。假设像素p从t-1时刻到t时刻的运动概率定义为

则其计算公式如下：

p_{p}^{m} (t - 1) = \frac{\underset{q &Element; N_{p} (L_{s})}{Σ} f_{q} (t - 1) * e_{q} (t)}{\underset{q &Element; N_{p} (L_{s})}{Σ} e_{q} (t)},

其中f_q(t－1)是像素q在t时刻相对于t-1时刻的帧差，为了用作概率估计，此处的帧差是归一化后的帧差，e_q(t)则是当前时刻像素q的梯度。为了去除噪声，帧差并不是直接将前后两帧的灰度图像作差得到，而是对进行高斯平滑后的前后两帧图像作差得到，即帧差的计算公式如下：

f_p(t-1)=Norm(|G(g_p(t))-G(g_p(t-1))|)，

其中Norm(.)代表归一化函数，G(.)代表尺度为0.8的高斯核函数，g_p(t)和g_p(t-1)分别为t时刻和t-1时刻像素p的颜色值。图像的边缘则是通过与高斯函数的一阶导数进行卷积得到，即:

e_{p} (t) = | &dtri; G (g_{p} (t)) |,

本实施例中采用同样的方法计算计算出像素p在t时刻相对于t-2时刻的运动概率

值得说明的是，像素p在t时刻相对于t时刻的运动概率

为0。

本实施例使用局部alpha值和时序alpha值的加权和估算每个待处理像素的混合alpha值，其中加权系数由运动概率决定，混合alpha值的具体计算公式如下：

a_{p}^{h} (t) = {\overset{\cdot}{p}}_{p} (t - 2) a_{p}^{l} (t - 2) + {\overset{\cdot}{p}}_{p} (t - 1) a_{p}^{l} (t - 1) + {\overset{\cdot}{p}}_{p} (t) a_{p}^{l} (t),

其中

和分别是像素p在t-2时刻、t-1时刻和t时刻的局alpha值，

是归一化后的加权系数，即：

{\overset{\cdot}{p}}_{p} (t - 2) = \frac{p_{p} (t - 2)}{p_{p} (t - 2) + p_{p} (t - 1) + p_{p} (t)}

{\overset{\cdot}{p}}_{p} (t - 1) = \frac{p_{p} (t - 1)}{p_{p} (t - 2) + p_{p} (t - 1) + p_{p} (t)}

{\overset{\cdot}{p}}_{p} (t) = \frac{p_{p} (t)}{p_{p} (t - 2) + p_{p} (t - 1) + p_{p} (t)},

其中

p_{p} (t - 2) = 1 - p_{p}^{m} (t - 2),

p_{p} (t - 1) = 1 - p_{p}^{m} (t - 1),

p_{p} (t) = 1 - p_{p}^{m} (t)

分别是像素p在t时刻相对t-2时刻、t-1时刻和t时刻的运动概率，上述混合alpha值的计算公式表明像素p在t时刻相对于某一时刻的运动概率越大，某一时刻的alpha值在t时刻的连续性越小。

本发明还提出一种基于深度传感器的在线视频分割后的处理***，如图2所示，图2是本发明的在线视频分割后的处理***示意图，该***包括：

检查填充模块，用于对该二值图像中的前景孔洞进行检测和填充得到前景孔洞填充后的二值图像；

所述检查填充模块包括：

孔洞标记模块，用于对所述第n个轮廓进行的内部包含区域进行标记，并记该轮廓及其内部包含区域为一个孔洞；

填充模块，用于对所述孔洞进行前景填充得到前景孔洞填充后的二值图像；

所述优化处理模块包括：

第二计算模块，用于计算所述边界过渡区域中每个像素的局部alpha值、所述边界过渡区域中每个像素相对前两帧的运动概率，并以运动概率为权值，计算所述边界过渡区域每个像素的时序分割结果和局部alpha值的加权和，得到混合alpha值，其中alpha值借鉴了软分割或抠图中的定义，用于反映前景和背景的合成情况，alpha值可取0到1之间的连续值，alpha值越趋近于0表示像素与背景越相似，alpha值越趋近于1表示像素与前景越相似；

前、背景判断模块，用于判断所述混合alpha值是否大于给定的阈值T^f，大于时，将二值图像上对应位置的像素置为1，表示该像素为前景；否则将二值图像上对应位置的像素置为0，表示该像素为背景；

本发明中的虚实融合***与现有技术类似，流程图如图4所示，分为3个主要步骤：视频前、背景分割、分割后处理、虚实融合。其中视频前、背景分割是基于深度传感器实现的，具体的实现方法可以参照现有的基于深度信息的在线视频分割技术，此处不对其进行详细描述。关于虚实融合也已经有很多相关的研究，具体的实现方法可以参考这些研究成果。本发明主要考虑基于深度传感器的在线视频分割结果出现的因深度丢失误判为背景的前景孔洞和因深度估算不准确造成的边界误分现象以及现有技术很难在准确性和实时性方面达到平衡的研究现状，给出一种分割后处理的方法，并对其进行详细介绍。该后处理的输入是视频帧及其对应的深度图像以及初始二值分割结果，另外为了保持时序一致性，该处理的输入还包括时序视频帧和时序分割结果，输出是经过后处理的二值图像。该处理包含前景孔洞检测和填充以及前、背景边界优化，具体的流程图如图5所示。

本发明首先通过轮廓算法找到二值分割图像中的所有轮廓，然后依次对每个轮廓进行的内部包含区域进行标记，并将每个轮廓及其内部区域记为一个孔洞Φ。针对每个孔洞，本发明首先遍历统计孔洞区域位置的深度数据，判断是否存在深度不为0的像素，如果存在，则该孔洞不需要进行填充，因为该孔洞不是由于深度缺失产生的，否则该孔洞成为候选前景孔洞，并将基于轮廓边缘和区域背景颜色相似度的加权和计算的背景相似度对其进行进一步的判别，如果候选前景孔洞的背景相似度小于阈值T^b，则在二值图像中将该候选前景孔洞填充为前景。

由于前景孔洞的轮廓边缘一般较小，背景孔洞的轮廓边缘较大，因此轮廓边缘可以被用作一维区分前、背景孔洞的特征。梯度常用于计算像素的边缘，但由于基于深度信息的视频分割在边界的误分现象严重，因此即使是前景内部的背景孔洞，其轮廓也未必是真正的前景与背景的边界，意味着轮廓像素的梯度并不一定大，从而基于轮廓的梯度将无法区分前、背景孔洞。基于上述考虑，本发明提供了一种边缘的近似算法，具体地，本实施例采用边界清晰度估计像素的边缘。本实施例中首先将视频帧转换成灰度图像并对其进行高斯滤波，然后将灰度颜色空间等分成L=32个颜色子空间B^l(l＝1,2,…,L)。记N_p(L_s)是像素p的邻域窗口大小为L_s的邻域，则N_p(L_s)中必同时包含前景像素和背景像素，因为p是轮廓上的像素。记N_p(L_s)中前景像素和背景像素的样本集分别为

和

若N_p(L_s)中颜色子空间B^l同时包含样本集

和

和

中颜色样本的总数，则像素p的边界清晰度为:

γ_{p} = 1 - \frac{N_{p}}{L_{s}^{2}},

e_{Φ^{c}} = \frac{1}{M} \underset{p &Element; Φ^{c}}{Σ} e_{p},

其中Φ^c是Φ的轮廓，M为孔洞轮廓Φ^c上的像素总个数。

H_{p} (t) = [h_{p}^{1} (t), h_{p}^{2} (t), . . ., h_{p}^{L} (t)],

L=32

其中

h_{p}^{l} (t) = β * h_{p}^{l} (t - 1) + δ (l_{p} (t) = l,

a_{p}^{b} (t) = 0,

d_p(t)≠0)

其中β=0.95，用来削弱历史背景颜色对于当前、背景颜色模型的作用。δ(.)函数的作用是当参数为真值表达式时，函数值为1，否则为0。l_p(t)，d_p(t)分别表示像素p在t时刻的颜色子空间标号，初始二值分割标记和深度值。根据公式

本实施例中，使用轮廓边缘

和区域背景相似度

的加权和p_Φ计算孔洞与背景的相似度。由于基于颜色块的边界清新度的可靠性与局部区域的颜色复杂度紧密相连，因此

的权重w_c取决于邻域非零颜色子空间的数目，可由下式计算得到：

w_{c} = 1 - \frac{1}{M} (\frac{Σ_{p &Element; Φ^{c}} N_{p}^{n}}{L}),

其中

w_{r} = 1 - \frac{1}{N} \underset{p &Element; Φ^{r}}{Σ} (\frac{Σ_{l = 1}^{L} δ (h_{p}^{l} (t) &NotEqual; 0)}{L})

从而孔洞与背景的相似度p_Φ可由下式估算得到：

p_{Φ} = w * {lh}_{Φ^{r}} + (1 - w) * e_{Φ^{c}},

其中，

下面介绍本发明针对由于前景和背景的边界出现深度丢失或深度估算错误造成的误分割提供的时序一致的边界优化算法。由于在前景和背景的交界处，深度是非连续的，因此这些交界处经常丢失深度信息，出现前景误判为背景的现象。另一方面，在交界处即使获得深度信息，也经常出现估算不准确的情况，容易出现将背景误判为前景的现象。从图3（c）矩形区域（图3（d）中的左下部分区域）中可以明显的看出前景头部边界丢失的深度信息最多，误判现象严重，另外，在前景的手部边缘或衣服边缘则存在明显的误将背景判为前景的现象，如图3（c）中矩形区域（图3（d）中的右部区域）所示。虽然由上述原因引起的逐帧错误是比较轻微的，但在视频里会导致闪烁，严重影响视觉效果。为了消除这些误分割，需要利用对应深度图像的彩色图像信息对前景和背景的交界区域的像素重新进行标记。在本实施例中，采用抠图的思想，首先计算交界区域的alpha值，然后再通过一定的阈值量化alpha值，实现边界区域的二值分割，其中alpha值借鉴了软分割或抠图中的定义，用于反映前景和背景的合成情况。alpha值可取0到1之间的连续值，alpha值越趋近于0表示像素与背景越相似，alpha值越趋近于1表示像素与前景越相似。

Ω(L_e)={p|τ₀<s_p<τ1},

s_{p} = \frac{1}{L_{e}^{2}} \underset{q &Element; N_{p} (L_{e})}{Σ} a_{q}^{s}

其中N_p(L_e)是像素p的窗口大小为L_e×L_e的邻域；

为像素q经过前景孔洞填充后的二元分割标签；s_p为像素p的邻域内所有像素二值分割标签的平均值；Ω(L_e)为边界两侧一带状区域内的像素集合，该区域的宽度由参数τ₀，τ₁控制，0<τ₀<τ₁<1。

和

则颜色alpha值

可由下式计算：

α_{p}^{c} = \frac{P (c_{p} | M_{p}^{F})}{P (c_{p} | M_{p}^{F}) + P (c_{p} | M_{p}^{B})},

其中c_p是像素p的RGB颜色，和分别是像素p的前景颜色相似度和背景颜色相似度，其中颜色模型为均匀分块混合高斯模型。

a_{p}^{b} = \frac{a_{p}}{1 + e^{(c_{p} - s_{p}) / δ_{p}}} + b_{p},

参数δ_p,a_p,b_p,c_p的计算步骤可参考已有的方法[1]。

a_{p}^{l} = (1 - w_{p}) α_{p}^{c} + w_{p} α_{p}^{b},

其中

w_{p} = \frac{w_{p}^{b}}{w_{p}^{b} + w_{p}^{c}},

w_{p}^{b} = \frac{1}{9} \underset{q &Element; N_{p} (3)}{Σ} | α_{q}^{c} - α_{q}^{s} |, w_{p}^{c} = γ_{p} .

由于视频帧是连续捕获的，因此帧与帧之间有一定的关联性，分割结果也存在一定的依赖关系。直观上，一个像素如果前后两帧保持静止，则它的类别应该保持一致。因此可以依据像素的运动概率衡量时序局部alpha值在当前帧的连续性。由于时序局部alpha值的估算过程中采用了局部颜色模型和局部边界属性，因此使用每个像素的邻域的运动总和更能精确反映一个像素的运动。本实施例中采用像素邻域的边缘加权帧差和计算像素的运动概率。假设像素p从t-1时刻到t时刻的运动概率定义为

则其计算公式如下：

p_{p}^{m} (t - 1) = \frac{\underset{q &Element; N_{p} (L_{s})}{Σ} f_{q} (t - 1) * e_{q} (t)}{\underset{q &Element; N_{p} (L_{s})}{Σ} e_{q} (t)},

其中f_p(t-1)是像素q在t时刻相对于t-1时刻的帧差，为了用作概率估计，此处的帧差是归一化后的帧差，e_q(t)则是当前时刻像素q的梯度。为了去除噪声，帧差并不是直接将前后两帧的灰度图像作差得到，而是对进行高斯平滑后的前后两帧图像作差得到，即帧差的计算公式如下：

f_p(t-1)=Norm(|G(g_p(t))-G(g_p(t-1))|)，

e_{p} (t) = | &dtri; G (g_{p} (t)) |,

本实施例中采用同样的方法计算计算出像素p在t时刻相对于t-2时刻的运动概率值得说明的是，像素p在t时刻相对于t时刻的运动概率

为0。

a_{p}^{h} (t) = {\overset{\cdot}{p}}_{p} (t - 2) a_{p}^{l} (t - 2) + {\overset{\cdot}{p}}_{p} (t - 1) a_{p}^{l} (t - 1) + {\overset{\cdot}{p}}_{p} (t) a_{p}^{l} (t),

其中

和分别是像素p在t-2时刻、t-1时刻和t时刻的局alpha值，是归一化后的加权系数，即：

{\overset{\cdot}{p}}_{p} (t - 2) = \frac{p_{p} (t - 2)}{p_{p} (t - 2) + p_{p} (t - 1) + p_{p} (t)}

{\overset{\cdot}{p}}_{p} (t - 1) = \frac{p_{p} (t - 1)}{p_{p} (t - 2) + p_{p} (t - 1) + p_{p} (t)}

{\overset{\cdot}{p}}_{p} (t) = \frac{p_{p} (t)}{p_{p} (t - 2) + p_{p} (t - 1) + p_{p} (t)},

其中

p_{p} (t - 2) = 1 - p_{p}^{m} (t - 2),

p_{p} (t - 1) = 1 - p_{p}^{m} (t - 1),

p_{p} (t) = 1 - p_{p}^{m} (t)

由于本发明提供的前景孔洞检测和填充算法充分考虑了产生前景孔洞的本质以及前景孔洞的本质特性，因此能很好地辨识前景孔洞，滤除背景孔洞，且因为算法的计算过程非常简单，因此速度非常快。另一方面，本发明提供的边界优化算法融合了多种特征，既不会像抠图算法一样在前、背景相似区域造成背景颜色溢出，也不会像羽化算法一样使边界变得过模糊，同时，不同于已有的方法[1]，本发明融合了时序信息，能很好地消除因深度估算不准确造成的分割结果动荡以致虚实融合视频闪烁的现象。更重要的是，由于本发明提供的边界优化算法采用的特征都有快速计算方法，因此能够满足实时性需求。

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明权利要求的保护范围。

Claims

1.一种基于深度传感器的在线视频分割后的处理方法，其特征在于，包括：

步骤1，深度传感器基于视频帧和其对应的深度图像提取特征，对所述特征进行视频帧前景、背景分割，得到二值图像；

步骤2，对该二值图像中的前景孔洞进行检测和填充，得到前景孔洞填充的二值图像；

步骤3，对该前景孔洞填充的二值图像进行边界优化，获取优化后的二值图像；

2.如权利要求1所述的在线视频分割后的处理方法，其特征在于，所述步骤2包括：

步骤203，对第n个轮廓进行的内部包含区域进行标记，并记该轮廓及其内部包含区域为一个孔洞；

步骤206，计算孔洞轮廓边缘及其权重；

步骤207，计算孔洞区域背景相似度及其权重；

步骤210，在所述孔洞进行前景填充得到前景孔洞填充的二值图像；

步骤211，对轮廓计数器n执行加一操作，并返回步骤202。

3.如权利要求2所述的在线视频分割后的处理方法，其特征在于，所述步骤209中的阈值T^b为0.3。

4.如权利要求1所述的在线视频分割后的处理方法，其特征在于，所述步骤3包括：

步骤301，获取所述前景孔洞填充的二值图像的前景、背景边界过渡区域；

步骤302，计算所述边界过渡区域中每个像素的局部alpha值，其中alpha值借鉴了软分割或抠图中的定义，用于反映前景和背景的合成情况，alpha值可取0到1之间的连续值，alpha值越趋近于0表示像素与背景越相似，alpha值越趋近于1表示像素与前景越相似；

步骤305，判断所述混合alpha值是否大于给定的阈值T^f，大于时，将二值图像上对应位置的像素置为1，表示该像素为前景；否则将二值图像上对应位置的像素置为0，表示该像素为背景；

步骤306，得到边界优化后的二值图像。

5.如权利要求3所述的在线视频分割后的处理方法，其特征在于，所述步骤305中阈值T^f为0.5。

6.一种基于深度传感器的在线视频分割后的处理***，其特征在于，包括：

7.如权利要求6所述的在线视频分割后的处理***，其特征在于，所述检查填充模块包括：

轮廓检测模块，用于对所述二值分割图像进行轮廓检测，记轮廓个数为Num，初始化轮廓计数器n=1；

加一模块，用于对轮廓计数器n执行加一操作，并返回第一判断模块。

8.如权利要求7所述的在线视频分割后的处理***，其特征在于，所述第三判断模块中的阈值T^b为0.3。

9.如权利要求6所述的在线视频分割后的处理***，其特征在于，所述优化处理模块包括：

获取模块，用于获取所述二值图像的前景、背景边界过渡区域；

前、背景判断模块，用于判断所述混合alpha值是否大于给定的阈值T^f，大于时，将二值图像上对应位置的像素值置为1，表示该像素为前景；否则将二值图像上对应位置的像素值置为0，表示该像素为背景；

10.如权利要求9所述的在线视频分割后的处理***，其特征在于，所述前、背景判断模块中阈值T^f为0.5。