CN107154051B

CN107154051B - 背景剪除方法及装置

Info

Publication number: CN107154051B
Application number: CN201610121226.6A
Authority: CN
Inventors: 赵颖; 刘丽艳; 王炜
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2016-03-03
Filing date: 2016-03-03
Publication date: 2020-06-12
Anticipated expiration: 2036-03-03
Also published as: CN107154051A

Abstract

本发明提供了背景剪除方法及装置，本发明能够在相机运动的情况下，鲁棒地剪除视频的背景区域，实现物体检测、跟踪及识别等功能。本发明通过分析输入视频，结合运动和外观特征，并考虑物体在前、背景之间的状态转换，在线训练并改善外观分类器，以逐步提高前、背景分类的准确度，进而鲁棒地剪除视频的背景区域。

Description

背景剪除方法及装置

技术领域

本发明涉及计算机视觉技术领域，更具体地涉及背景剪除方法及装置。

背景技术

背景是指一个场景中的静止部分，背景剪除广泛应用于视频分割、物体跟踪等计算机视觉问题。目前，越来越多的视频是通过嵌入在智能眼镜、无人机、手机等移动设备上的相机拍摄而得，传统的背景剪除方法大都假设相机处于静止状态，并不能解决相机运动带来的干扰。此外，现有的用于运动相机的物体跟踪方法大多没有物体在前、背景之间的状态转换，并不能很好的适用于第一视角的视频，如通过智能眼镜拍摄而得的视频。

发明内容

本发明实施例要解决的技术问题是提供背景剪除方法及装置，用以实现在相机运动的情况下，鲁棒地剪除视频的背景区域。

为解决上述技术问题，本发明实施例提供的背景剪除方法，包括：

特征提取单元，用于在输入视频中播撒并跟踪多个粒子，获得所述粒子在下一帧图像中的预测位置，并提取所述粒子的特征，其中，若当前已经建立前景和背景的外观模型，所述特征包括运动特征和外观特征，若当前尚未建立所述前景和背景的外观模型，所述特征包括运动特征；

聚类单元，用于根据粒子的特征对粒子进行分类，得到已分类的粒子，所述粒子的类别包括前景和背景；

模型学习单元，用于在外观分类器已经初始化时，根据所述粒子在下一帧图像中的预测位置，提取图像块，并利用提取的图像块，训练并更新所述外观分类器和一训练样本集；以及，利用所述训练样本集，学习并建立前景和背景的外观模型；

背景剪除单元，用于根据所述已分类的粒子、所述前景和背景的外观模型，计算出所述输入视频中的背景像素点，并输出剪除所述背景像素点后的视频数据。

优选的，以上背景剪除装置中，所述特征提取单元包括：

运动特征提取子单元，用于在输入视频中按照高斯分布播撒多个粒子，并在所述输入视频的一组连续帧序列中，根据全局和局部平滑项的能量约束，得到粒子运动轨迹，并根据粒子运动轨迹提取运动特征，所述运动特征包括粒子的位置，轨迹形状，运动速度及运动方向；

外观特征提取子单元，用于在当前已经建立前景和背景的外观模型时，根据所述前景和背景的外观模型提取粒子的外观特征，所述外观特征包括粒子属于前景的概率及粒子属于背景的概率。

优选的，以上背景剪除装置中，所述聚类单元包括：

运动相似性计算子单元，用于根据粒子的运动特征，计算播撒的任意两个粒子在运动特征方面的运动相似性；

外观相似性计算子单元，用于在当前已经建立前景和背景的外观模型时，根据所述粒子的外观特征，计算播撒的任意两个粒子在外观特征方面的外观相似性；

概率计算子单元，用于在当前已经建立前景和背景的外观模型时，根据运动相似性及外观相似性计算一个粒子属于前景的概率，并根据该概率将该粒子分类为前景或背景，以及，在当前尚未建立前景和背景的外观模型时，根据运动相似性计算一个粒子属于前景的概率，并根据该概率将该粒子分类为前景或背景。

优选的，以上背景剪除装置中，所述运动相似性为两个粒子对应的运动特征之间的相似性所组成的第一向量，所述外观相似性为两个粒子对应的外观特征的相似性所组成的第二向量。

优选的，以上背景剪除装置中，所述概率计算子单元，在根据运动相似性及外观相似性计算一个粒子属于前景的概率时，具体用于根据运动相似性计算运动似然函数，以获取粒子在运动方面属于前景的第一概率，以及，根据外观相似性计算外观似然函数，以获取粒子在外观方面属于前景的第二概率，以及，结合第一概率和第二概率，计算粒子属于前景的最终概率。

优选的，以上背景剪除装置中，所述模型学习单元还用在外观分类器尚未初始化时，根据已分类的粒子，生成包括有多个图像块的训练样本集，并利用所述训练样本集训练得到一个初始化的外观分类器。

优选的，以上背景剪除装置中，所述模型学习单元还用于在利用所述训练样本集，学习并建立前景和背景的外观模型之前，将下一帧图像中包含所述预测位置的邻域，划分为多个图像块，利用更新后的外观分类器，从该多个图像块中选取置信度最高的一个图像块作为下一段跟踪的起始位置的候选区域，并将选取的图像块添加到所述训练样本集。

优选的，以上背景剪除装置中，所述模型学习单元包括：

外观分类器初始化子单元，用于在外观分类器未初始化时，根据已分类的粒子，生成包括有多个图像块的训练样本集，并利用所述训练样本集训练得到一个初始化的外观分类器，并触发模型建立子单元；

外观分类器评价子单元，用于根据粒子在下一帧图像中的预测位置，提取图像块，并利用提取的图像块，训练并更新所述外观分类器和训练样本集；

跟踪评价子单元，用于将下一帧图像中包含所述预测位置的邻域，划分为多个图像块，利用更新后的外观分类器，从该多个图像块中选取置信度最高的一个图像块作为下一段跟踪的起始位置的候选区域，并将选取的图像块添加到所述训练样本集，并触发模型建立子单元；

模型建立子单元，用于利用所述训练样本集，学习并建立前景和背景的外观模型。

优选的，以上背景剪除装置中，所述外观分类器评价子单元，具体用于根据跟踪得到的粒子在下一帧图像中的预测位置，提取包含所述粒子的图像块，利用所述外观分类器对该图像块进行分类，并在外观分类器的分类结果与所述粒子的类别不同时，将该图像块重新标记为粒子的类别并更新到训练样本集中，利用更新后的训练样本集重新对所述外观分类器进行训练更新。

优选的，以上背景剪除装置中，所述模型建立子单元，具体用于根据训练样本集中图像块的类别、图像块在整幅图像中的位置，计算图像块在下一帧改变类别的概率值；以图像块在下一帧改变类别的概率值作为该图像块的权值，利用空间颜色高斯混合模型，建立前景和背景的外观模型。

优选的，以上背景剪除装置中，所述模型学习单元还包括：

粒子优化子单元，用于建立一目标函数，所述目标函数包括一个数据项和一个平滑项，所述平滑项表示候选区域中的像素点与候选区域的中心点之间的距离，所述数据项表示基于候选区域的图像块属于前景的概率和属于背景的概率的第一视角约束项；通过最小化所述目标函数，计算得到具有最高置信度的像素点，作为粒子跟踪的起始位置。

本发明实施例还提供了一种背景剪除方法，包括：

在输入视频中播撒并跟踪多个粒子，获得所述粒子在下一帧图像中的预测位置，并提取所述粒子的特征，其中，若当前已经建立前景和背景的外观模型，所述特征包括运动特征和外观特征，若当前尚未建立所述前景和背景的外观模型，所述特征包括运动特征；

根据粒子的特征对粒子进行分类，得到已分类的粒子，所述粒子的类别包括前景和背景；

在外观分类器已经初始化时，根据所述粒子在下一帧图像中的预测位置，提取图像块，并利用提取的图像块，训练并更新所述外观分类器和一训练样本集，其中，所述外观分类器用于对图像块进行分类，所述训练样本集包括有多个图像块，且所述图像块的类别与该图像块包含的粒子的类别相同；

利用所述训练样本集，学习并建立前景和背景的外观模型；

根据所述已分类的粒子、所述前景和背景的外观模型，计算出所述输入视频中的背景像素点，并输出剪除所述背景像素点后的视频数据。

优选的，以上方法中，所述在输入视频中播撒并跟踪多个粒子，提取所述粒子的特征的步骤包括：

在输入视频中按照高斯分布播撒多个粒子；

在所述输入视频的一组连续帧序列中，根据全局和局部平滑项的能量约束，得到粒子运动轨迹，并根据粒子运动轨迹提取运动特征，所述运动特征包括粒子的位置，轨迹形状，运动速度及运动方向；

在当前已经建立前景和背景的外观模型时，还根据所述前景和背景的外观模型提取粒子的外观特征，所述外观特征包括粒子属于前景的概率及粒子属于背景的概率。

优选的，以上方法中，所述根据粒子的特征对粒子进行分类，得到已分类的粒子的步骤，包括：

若当前已经建立前景和背景的外观模型，则根据粒子的运动特征，计算播撒的任意两个粒子在运动特征方面的运动相似性，以及根据所述粒子的外观特征，计算播撒的任意两个粒子在外观特征方面的外观相似性，然后，根据运动相似性及外观相似性计算一个粒子属于前景的概率，并根据该概率将该粒子分类为前景或背景；

若当前尚未建立前景和背景的外观模型，则根据粒子的运动特征，计算播撒的任意两个粒子在运动特征方面的运动相似性，然后，根据运动相似性计算一个粒子属于前景的概率，并根据该概率将该粒子分类为前景或背景。

优选的，以上方法中，在所述根据粒子的特征对粒子进行分类，得到已分类的粒子的步骤之后，若外观分类器尚未初始化，则根据已分类的粒子，生成包括有多个图像块的训练样本集，并利用所述训练样本集训练得到一个初始化的外观分类器，然后进入所述利用所述训练样本集，学习并建立前景和背景的外观模型的步骤。

优选的，以上方法中，在所述利用所述训练样本集，学习并建立前景和背景的外观模型的步骤之前，还包括：将下一帧图像中包含所述预测位置的邻域，划分为多个图像块，利用更新后的外观分类器，从该多个图像块中选取置信度最高的一个图像块作为下一段跟踪的起始位置的候选区域，并将选取的图像块添加到所述训练样本集。

优选的，以上方法中，所述所述粒子在下一帧图像中的预测位置，提取图像块，并利用提取的图像块，训练并更新所述外观分类器和一训练样本集的步骤，包括：

根据所述粒子在下一帧图像中的预测位置，提取包含所述粒子的图像块，利用所述外观分类器对该图像块进行分类，并在外观分类器的分类结果与所述粒子的类别不同时，将该图像块重新标记为粒子的类别并更新到训练样本集中，利用更新后的训练样本集重新对所述外观分类器进行训练更新。

优选的，以上方法中，在所述利用所述训练样本集，学习并建立前景和背景的外观模型的步骤之后，所述方法还包括：

建立一目标函数，所述目标函数包括一个数据项和一个平滑项，所述平滑项表示候选区域中的像素点与候选区域的中心点之间的距离，所述数据项表示基于候选区域的图像块属于前景的概率和属于背景的概率的第一视角约束项；

通过最小化所述目标函数，计算得到具有最高置信度的像素点，作为粒子跟踪的起始位置。

与现有技术相比，本发明实施例提供的背景剪除方法及装置，能够在相机运动的情况下，鲁棒地剪除视频的背景区域，实现物体检测、跟踪及识别等功能。本发明实施例通过分析输入视频，结合运动和外观特征，并考虑物体在前、背景之间的状态转换，在线训练并改善外观分类器，以逐步提高前、背景分类的准确度，进而鲁棒地剪除视频的背景区域。

附图说明

图1是集成了本发明实施例的背景剪除装置的应用***的示意图；

图2是本发明实施例提供的背景剪除装置200的一种功能结构示意图；

图3是本发明实施例的特征提取单元201的结构示意图；

图4是本发明实施例的聚类单元202的结构示意图；

图5是本发明实施例的模型学习单元203的结构示意图；

图6是本发明实施例提供的背景剪除装置200的一种硬件结构示意图；

图7是本发明实施例提供的背景剪除方法的流程示意图；

图8是图7中的步骤701的流程示意图；

图9是本发明另一实施例提供的背景剪除方法的流程示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。在下面的描述中，提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此，本领域技术人员应该清楚，可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外，为了清楚和简洁，省略了对已知功能和构造的描述。

背景剪除技术具有广泛的应用，比如视频分割、物体跟踪等。本发明实施例的一个具体的应用例是购物场景的增强现实，例如，用户通过佩戴的智能眼镜查看手中拿着的商品的信息，如基本信息或同类产品信息。本发明实施例分析摄像头拍摄到的视频，将场景中的背景区域去除，获得仅保留包含手及手中的商品的前景区域的输出结果。通过将本发明实施例的输出结果作为识别方法的输入，则可以进一步识别出手的握姿、手势及商品的属性，从而理解用户的意图，实现自然人机交互。为了便于理解，以下实施例将基于此应用例介绍本发明。

图1是一个集成了本发明实施例的背景剪除装置的应用***的示意图。该应用***100包括一个可穿戴式摄像头101，一个可穿戴式显示屏102以及一个智能眼镜103。具体的，智能眼镜103实际可以是一台可穿戴式计算机，本发明实施例的背景剪除装置可以嵌入在该计算机中，可穿戴式摄像头101及可穿戴式显示屏102可以安装在智能眼镜103中。

图1所示的应用场景104为用户通过佩戴的智能眼镜103查看手中商品的信息。智能眼镜103分析摄像头101拍摄到的视频，理解用户的意图，输出对应的响应，如在显示屏102上显示商品的有效期或者同类产品的信息。上述摄像头101可以是任意一种能够提供投影区域的彩色图像的照相机，比如网络摄像头、家用数码相机等。安装了背景剪除装置的智能眼镜103，可以输出背景剪除后的视频，即视频仅包含手及手中商品的区域，这个输出结果可用于识别手势、手握商品的姿态及商品属性等。图1所示的应用***100仅为本发明的一个应用示例，实际应用中可能会多于或少于其所包含的设备个数，或者使用不同的设备，或者用于不同的场景。

请参考图2，本发明实施例提供的背景剪除装置200，包括：

特征提取单元201，用于在输入视频中播撒并跟踪多个粒子，获得所述粒子在下一帧图像中的预测位置，并提取所述粒子的特征，其中，若当前已经建立前景和背景的外观模型，所述特征包括运动特征和外观特征，若当前尚未建立所述前景和背景的外观模型，所述特征包括运动特征。

这里，上述输入视频可以是运动相机采集到的一段RGB彩***，可以按照现有技术类似的方式，在输入视频中选择需要关注的像素点进行粒子跟踪。具体的粒子跟踪方式和特征提取方式的实现可以参考现有技术的类似技术。

聚类单元202，用于根据粒子的特征对粒子进行分类，得到已分类的粒子，所述粒子的类别包括前景和背景。

模型学习单元203，用于在外观分类器已经初始化时，根据所述粒子在下一帧图像中的预测位置，提取图像块，并利用提取的图像块，训练并更新所述外观分类器和一训练样本集，以及，利用所述训练样本集，学习并建立前景和背景的外观模型。

这里，所述外观分类器用于对图像块进行分类，确定图像块的类别为背景或前景。所述训练样本集包括有多个图像块，且所述图像块的类别与该图像块包含的粒子的类别相同。图像块的大小可以根据输入视频的图像大小进行设置。

背景剪除单元204，用于根据所述已分类的粒子、所述前景和背景的外观模型，计算出所述输入视频中的背景像素点，并输出剪除所述背景像素点后的视频数据。

这里，可以根据阈值来判断是否进入背景剪除单元204，阈值可以为当前接收的视频帧数或外观分类器置信度等，当达到预定帧数或外观分类器置信度高于预定值，则可以通过背景剪除单元204进行背景剪除并输出从所述输入视频中剪除所述背景像素点后的视频数据。

请参考图3，本发明实施例的特征提取单元201包括：

运动特征提取子单元2011，用于在输入视频中按照高斯分布播撒多个粒子，并在所述输入视频的一组连续帧序列中，根据全局和局部平滑项的能量约束，得到粒子运动轨迹，并根据粒子运动轨迹提取运动特征，所述运动特征包括粒子的位置，轨迹形状，运动速度及运动方向。

外观特征提取子单元2012，用于在当前已经建立前景和背景的外观模型时，根据所述前景和背景的外观模型提取粒子的外观特征，所述外观特征包括粒子属于前景的概率及粒子属于背景的概率。

这里，特征提取单元201输出粒子的特征，其中，在当前已经建立前景和背景的外观模型时，输出的粒子的特征包括运动特征和外观特征；在当前尚未建立前景和背景的外观模型时，输出的粒子的特征仅包括运动特征。

本发明实施例中，所述运动特征提取子单元2011可以按照现有技术中的各种已有方案实现，本实施例提供的一种具体实现步骤为：

步骤1，在一组视频帧序列的起始帧中，按照高斯分布撒播粒子。为了获得稠密的且长时间的跟踪，可以在图像中纹理丰富的区域撒播粒子，如边缘及角点。此外，为了获得足够的颜色信息以用于训练外观分类器，也可以同时在图像的平坦区域撒播粒子。

步骤2，基于全局及局部平滑的约束，利用光流在上述视频帧序列内跟踪粒子，并计算粒子的运动轨迹，一种具体的计算方式如下：

在视频帧序列f_r内，基于光流跟踪粒子，得到粒子在每一帧上的位置，然后根据全局平滑约束w_gt优化粒子的位置，以避免粒子的位置在短时间内有剧烈的跳变。能量方程E包含数据项E_flowdata和平滑项E_flowsmooth两项。

其中，数据项E_flowdata描述了粒子在相邻两帧之间的对应关系：

平滑项E_flowsmooth约束粒子运动相对于其领域内的、颜色相似的粒子是平滑的：

上述公式中，I(x,y,t)表示粒子(x，y)在第t帧时的灰度值，

表示粒子光流的x分量和y分量；Ω表示粒子的邻域；

局部平滑因子：

这里，N(a；σ_b)表示高斯分布，I_x(x,y,t)表示x方向的梯度，I_y(x,y,t)表示 y方向的梯度。

步骤3，从粒子的轨迹中提取运动特征，包括粒子的位置、轨迹形状、运动速度及方向。对于一个粒子p_i，步骤3提取出的运动特征f_i ^M为，

f_i ^M＝{tr_i,sh_i,sp_i,dr_i} [8]

其中，tr_i为粒子在每一帧中的位置，sh_i为粒子轨迹的形状描述，sp_i为粒子在相邻两帧内的运动速度，dr_i为粒子在序列内的总体运动方向。

tr_i＝{p_it(x,y)|t∈fr} [9]

sh_i＝{δ_x(p_i(t+1),p_it),δ_y(p_i(t+1),p_it),θ(p_i(t+1),p_it)|t,(t+1)∈fr} [10]

sp_i＝{δ(p_i(t+1),p_it)|t∈fr} [11]

本发明实施例中，外观特征提取子单元2012可以根据前景和背景的外观模型M_K(p_it|K)，提取并输出粒子的外观特征，用于在后续划分粒子类别时辅助运动特征。外观特征提取子单元2012的一种具体实现步骤为：

步骤1，计算粒子属于前景的概率M_F(p_it|F)；

步骤2，计算粒子属于背景的概率M_B(p_it|B)。

结合上述两种概率，外观特征提取子单元2012提取出粒子p_i的外观特征f_i ^A：

f_i ^A＝{M_B(p_it|B),M_F(p_it|F)|t∈fr} [13]

请参照图4，本发明实施例的聚类单元202包括：

运动相似性计算子单元2021，用于根据粒子的运动特征，计算播撒的任意两个粒子在运动特征方面的运动相似性；

外观相似性计算子单元2022，用于在当前已经建立前景和背景的外观模型时，根据所述粒子的外观特征，计算播撒的任意两个粒子在外观特征方面的外观相似性；

概率计算子单元2023，用于在当前已经建立前景和背景的外观模型时，根据运动相似性及外观相似性计算一个粒子属于前景的概率，并据此概率将该粒子分类为前景或背景，以及，在当前尚未建立前景和背景的外观模型时，根据运动相似性计算一个粒子属于前景的概率，并据此概率将该粒子分类为前景或背景，获得已分类的粒子，粒子的类别可以通过粒子对应的类别标签来表征。

这里，所述运动相似性为两个粒子之间对应的运动特征之间的相似性所组成的第一向量，所述外观相似性为两个粒子对应的外观特征的相似性所组成的第二向量。

所述概率计算子单元2023，具体用于根据运动相似性计算运动似然函数，以获取粒子在运动方面属于前景的第一概率，以及，根据外观相似性计算外观似然函数，以获取粒子在外观方面属于前景的第二概率，以及，结合第一概率和第二概率，计算粒子属于前景粒子的最终概率。

本发明实施例中，运动相似性计算子单元2021计算并输出任意两个粒子之间的运动相似性。运动相似性为一个向量，由各个运动特征之间的相似性组成。具体的，运动相似性计算子单元2021计算任意两个粒子p_i和p_j之间的运动差异，然后基于上述差异计算出运动相似性Aff^M(p_i,p_j)：

外观相似性计算子单元2022计算并输出任意两个粒子之间的外观相似性。外观相似性也是一个向量，由各个外观特征之间的相似性组成。具体的，外观相似性计算子单元2022计算任意两个粒子p_i和p_j之间的外观差异，然后基于上述差异计算出外观相似性Aff^A(p_i,p_j)：

所述概率计算子单元2023根据运动相似性和外观相似性来计算粒子属于前景的概率，进而将粒子划分成前景和背景两类。具体的，概率计算子单元 2023根据运动相似性来计算运动似然函数，以从粒子的运动方面描述其属于前景的概率。当前景中的物体停止运动时，粒子的跟踪可能会发生错误，得到不准确的运动特征。因此，当前景和背景的外观模型建立以后，概率计算子单元2023根据外观相似性计算外观似然函数，以从粒子的外观方面描述其属于前景的概率。然后，将基于外观及运动特征计算出的概率融合起来(例如，通过加权求和方式进行融合)，计算出粒子属于前景的最终概率，通过将该最终概率与预设门限进行比较，得出粒子的分类结果。当上述概率大于门限时，粒子属于前景；否则，粒子属于背景。

上述运动似然函数或外观似然函数的一个具体的实施例为，利用K近邻 (KNN)方法聚类上述运动相似性或外观相似性，得到粒子属于前景的似然描述。

本发明实施例中，所述模型学习单元203，还用于在外观分类器尚未初始化时，根据已分类的粒子，生成包括有多个图像块的训练样本集，并利用所述训练样本集训练得到一个初始化的外观分类器。

所述模型学习单元203，还可以在利用所述训练样本集，学习并建立前景和背景的外观模型之前，将下一帧图像中包含所述预测位置的邻域，划分为多个图像块，利用更新后的外观分类器，从该多个图像块中选取置信度最高的一个图像块作为下一段跟踪的起始位置的候选区域，并将选取的图像块添加到所述训练样本集，该选取的图像块的类别，与其所包含的所述粒子的类别相同。

具体的，请参照图5，本发明实施例的模型学习单元203可包括：

外观分类器初始化子单元2031，用于在外观分类器未初始化时，根据已分类的粒子，生成包括有多个图像块的训练样本集，并利用所述训练样本集训练得到一个初始化的外观分类器，并触发模型建立子单元2034。

外观分类器评价子单元2032，用于在外观分类器已初始化时，根据跟踪得到的粒子在下一帧图像中的预测位置，提取图像块，并利用提取的图像块，训练并更新所述外观分类器和训练样本集。

跟踪评价子单元2033，用于将下一帧图像中包含所述预测位置的邻域，划分为多个图像块，利用更新后的外观分类器，从该多个图像块中选取置信度最高的一个图像块作为下一段跟踪的起始位置的候选区域，并将选取的图像块添加到所述训练样本集，并触发模型建立子单元。

具体的，跟踪评价子单元2033可以在粒子的邻域内建立一个搜索区域，该搜索区域通常大于所述预测位置的面积，且包含以粒子在下一帧中的预测位置为中心的预测图像块。按照预定步长，在所述搜索区域内滑动图像块的位置，对该搜索区域进行搜索。例如，将搜索区域有重叠地划分成多个图像块(该多个图像块覆盖所述搜索区域，且部分图像块之间具有重叠区域)，针对各个图像块进行搜索。然后，从中选取置信度最高的一个图像块作为下一段跟踪的起始位置的候选区域，并将该选取的图像块添加到训练样本集，输出更新后的训练样本集。这里，置信度最高的图像块是所述搜索区域中与所述预测图像块的类别相同，且与所述预测图像块重叠部分面积最大的图像块。

模型建立子单元2034，用于利用所述训练样本集，学习并建立前景和背景的外观模型。

当外观分类器未初始化时，模型学习单元203建立输出前景和背景的外观模型；当外观分类器初始化后，模型学习单元203建立输出前景和背景的外观模型以及更新后的粒子位置。由于训练样本集实时发生更新，因此可以实时利用更新后的训练样本集，在线学习并更新外观模型。

这里，当外观模型未建立时，装置根据运动特征聚类粒子，得到初始的分类结果，并提取前、背景的训练样本集。上述外观分类器初始化子单元2031，在线训练并输出一个初始的外观分类器。具体的，在视频帧序列中，以粒子为中心，在该粒子的邻域提取出包含有该粒子的图像块，作为训练分类器的前、背景的训练样本集，其中，图像块的类别与粒子的类别相同。利用上述样本集训练一个外观分类器，该外观分类器将用于评价粒子跟踪(粒子跟踪可以通过一个***的功能模块来实现)的准确度。

由于在初始阶段，收集到的样本量有可能不够充分，因此，训练得到的外观分类器可能输出错误的分类，外观分类器评价子单元2032将对外观分类器进行评价，将其分类错误的样本重新标记并更新到训练样本集中，实时训练并提升外观分类器。

这里，所述外观分类器评价子单元2032，利用粒子跟踪预测的结果评价外观分类器的精度并更新训练样本集，粒子跟踪预测的结果为粒子在下一帧中的位置。具体的，根据跟踪得到的粒子在下一帧图像中的预测位置，提取包含所述粒子的图像块并输入至外观分类器，利用所述外观分类器对该图像块进行分类，并在外观分类器的分类结果与所述粒子的类别不同时，将该图像块重新标记为粒子的类别并更新到训练样本集中，利用更新后的训练样本集重新对所述外观分类器进行训练更新。这里的外观分类器可以为初始的外观分类器，也可以为更新后的外观分类器。

所述模型建立子单元2034，具体用于根据训练样本集中图像块的类别、图像块在整幅图像中的位置，计算图像块在下一帧改变类别的概率值；以图像块在下一帧改变类别的概率值作为该图像块的权值，利用空间颜色高斯混合模型，建立前景和背景的外观模型。

由于前景中的运动物体可能停止运动进而转变为背景物体，因此，在建立外观模型时，模型建立子单元2034利用图像块的状态转换值来提高模型的准确性。基于邻域图像块的类别标签，以及图像块在整幅图像中的位置，模型建立子单元2034计算出图像块在下一帧改变其前、背景类别的概率，即状态转换值。然后，将状态转换值作为权值，利用空间颜色高斯混合模型建立图像块的外观模型。

物体状态转换的一个具体场景为用户佩戴智能眼镜，拿起一个物体，完成操作后放回物体。在模型建立期间，上述物体由前景转变成背景，状态发生了转换。同时，由于第一视角视频的拍摄方向与用户注意力的方向一致，物体在视频中的位置也由中心转变到边缘。因此，对状态转换函数T_i的定义可以如公式[16]所示，利用该公式计算状态转换值：

其中，t_ix＝|P_ix-C_x|,t_iy＝|P_iy-C_y|,

(P_ix,P_iy)是图像块P_i的中心，(C_x,C_y)是整幅图像的中心，B表示背景，F表示前景。

以状态转换值作为混合系数，利用空间颜色高斯混合模型计算图像块的外观模型。

其中，z_s＝(r,g,b,x,y),l∈{F,B}，r,g,b,x,y分别表示像素点r通道、g通道、 b通道、x坐标和y坐标，K_l为具有l标签的图像块的个数，μ_i和Σ_i分别是混合高斯模型的第i个高斯分布的均值和协方差矩阵。

如图5所示，本发明实施例的模型学习单元203还可以包括：

粒子优化子单元2035，用于建立一目标函数，所述目标函数为一个数据项和一个平滑项的和值，所述平滑项表示候选区域中的像素点与候选区域的中心点之间的距离，所述数据项表示基于候选区域的图像块属于前景的概率和属于背景的概率的第一视角约束项；通过最小化所述目标函数，计算得到具有最高置信度的像素点，作为粒子跟踪的起始位置，以获得更新后的粒子的位置。

粒子优化子单元2035从候选区域中，选取粒子的跟踪起始位置，并输出更新的粒子的位置，一种具体实现方式如下：

步骤1，建立一个目标函数，包括一个学***滑项。

粒子优化子单元2035从候选区域中搜索出下段粒子跟踪的最佳起始位置，最佳位置应该接近图像块的中心并远离邻域粒子，而且粒子在最佳位置的标签应该具有高置信度。因此，步骤1中可以定义目标函数E_track，包含第一视角约束的数据项E_egodata和平滑项E_smooth。

E_track＝E_smooth+E_egodata [18]

其中，如公式[19]所示，平滑项E_smooth描述了图像块P_i中的像素点

到图像块的中心P_ic的距离：

如公式[20]所示，数据项E_egodata基于图像块P_i属于前景的概率

及属于背景的概率

步骤2，通过最小化目标函数找到具有最高置信度的像素点，得到最佳的跟踪起始位置，以用于重置粒子跟踪的起始位置。上述平滑项约束候选位置到搜索区域中心的距离越小越好，数据项约束候选位置的置信度越高越好。更新后的粒子跟踪起始位置，可以用于下一段视频帧序列中的粒子跟踪，以提高粒子跟踪的精度。

本发明实施例中，背景剪除单元204将输入视频中的背景像素点剪除，输出背景剪除后的视频数据。背景剪除单元204根据已分类的粒子、前景和背景的外观模型，估计出每一帧图像中的背景像素点。背景剪除单元204的一个具体的实现方式如下：

给定一帧图像及其中的已分类的粒子，背景剪除单元204根据贝叶斯理论及条件独立，估计每个像素点的类别标签，生成一幅二值标签图。

这里，x_i表示第i个像素点，l_i表示第i个像素点的标签，标签包括前景和背景，N表示图像中的像素点的数量，L表示二值标签图，p(L)表示生成二值标签图L的概率，M_B(x_i|B)表示像素点x_i属于背景类别的概率，M_F(x_i|F)表示像素点x_i属于前景类别的概率。

背景剪除单元204根据前景和背景的外观模型及图割算法(Graph-cut)，最大化后验概率p(L|x)，从而确定各个像素点属于前景或背景的概率，进而确定各个像素点的类别。

综上，本发明实施例提供的背景剪除装置，通过在线学习的方式，同时利用运动特征与外观特征，实时更新训练样本集并改进粒子跟踪及外观分类器，从而获得鲁棒的前、背景分类结果。本发明实施例从粒子跟踪的跟踪结果中提取运动特征，利用运动特征建立初始的前、背景的训练样本集，从该训练样本集中提取前、背景的外观特征并训练外观分类器，根据该外观特征改进粒子跟踪及外观分类器，逐步提升前、背景分类结果，进而得到鲁棒的背景剪除结果。

下面结合图6描述本发明实施例涉及的背景剪除装置的一种硬件结构图，如图6所示，该硬件结构600包括：

摄像机601、处理器602、存储器603、显示设备604、以及背景剪除装置605，背景剪除装置605又包括特征提取单元6051、聚类单元6052、模型学习单元6053和背景剪除单元6051，其中，所述特征提取单元6051、聚类单元6052、模型学习单元6053和背景剪除单元6051各自实现的功能与图2所示的特征提取单元201、聚类单元202、模型学习单元203和背景剪除单元204 相类似。

本发明实施例中，背景剪除装置605中的各个模块可以通过嵌入式***来实现。当然背景剪除装置605也可以通过处理器602来实现，此时背景剪除装置605相当于处理器602的一个子模块。

图6中，处理器602和存储器603分别通过总线接口与背景剪除装置605 连接；总线架构可以是可以包括任意数量的互联的总线和桥；具体由处理器 602代表的一个或者多个处理器，以及由存储器603代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如***设备、稳压器和功率管理电路等之类的各种其它电路连接在一起，这些都是本领域所公知的。因此，本文不再对其进行详细描述。

本发明实施例还提供了一种背景剪除方法，可应用于对运动相机采集的视频进行背景剪除，请参照图7，该方法包括以下步骤：

步骤701，在输入视频中播撒并跟踪多个粒子，获得粒子在下一帧图像中的预测位置，并提取所述粒子的特征，其中，若当前已经建立前景和背景的外观模型，所述特征包括运动特征和外观特征，若当前尚未建立所述前景和背景的外观模型，所述特征包括运动特征。

这里，可以按照高斯分布的方式在输入视频中播撒粒子，通过跟踪粒子，获得跟踪结果，并从跟踪结果中提取粒子的运动特征。若当前已经建立前景和背景的外观模型，则还可以进一步通过该外观模型，提取粒子的外观特征。

步骤702，根据粒子的特征对粒子进行分类，得到已分类的粒子，所述粒子的类别包括前景和背景。

这里，在步骤702中，若当前已经建立前景和背景的外观模型，则根据粒子的运动特征，计算播撒的任意两个粒子在运动特征方面的运动相似性，以及根据所述粒子的外观特征，计算播撒的任意两个粒子在外观特征方面的外观相似性，然后，根据运动相似性及外观相似性计算一个粒子属于前景的概率，并据此概率将该粒子划分成前景粒子或背景粒子；若当前尚未建立前景和背景的外观模型，则根据粒子的运动特征，计算播撒的任意两个粒子在运动特征方面的运动相似性，然后，根据运动相似性计算一个粒子属于前景的概率，并据此概率将该粒子划分成前景粒子或背景粒子。

步骤703，在外观分类器已经初始化时，根据粒子在下一帧图像中的预测位置，提取图像块，并利用提取的图像块，训练并更新所述外观分类器和一训练样本集，其中，所述外观分类器用于对图像块进行分类，所述训练样本集包括有多个图像块，且所述图像块的类别与该图像块包含的粒子类别相同。

这里，若当前已经初始化外观分类器，则可以利用粒子跟踪的预测结果，对外观分类器进行在线训练，并同时更新外观分类器和训练样本集。本发明实施例中，可以预先利用已分类的粒子，获得初始的训练样本集，然后，基于该初始的训练样本集初始化得到所述化外观分类器。

步骤704，利用所述训练样本集，学习并建立前景和背景的外观模型。

这里，可以根据训练样本集中图像块的类别、图像块在整幅图像中的位置，计算图像块在下一帧改变类别的概率值，然后，以图像块在下一帧改变类别的概率值作为该图像块的权值，利用空间颜色高斯混合模型，建立前景和背景的外观模型。

步骤705，根据已分类的粒子、所述前景和背景的外观模型，计算出所述输入视频中的背景像素点，并输出剪除所述背景像素点后的视频数据。

本发明实施例的上述步骤703中，在利用提取的图像块，训练并更新所述外观分类器和一训练样本集之后，还可以进一步将下一帧图像中包含所述预测位置的邻域，划分为多个图像块，利用更新后的外观分类器，从该多个图像块中选取置信度最高的一个图像块作为下一段跟踪的起始位置的候选区域，并将选取的图像块添加到所述训练样本集。

从以上方法可以看出，本发明实施例通过在线学习的方式，同时利用运动特征与外观特征，实时更新训练样本集并改进粒子跟踪及外观分类器，从而获得鲁棒的前、背景分类结果。本发明实施例从粒子跟踪的跟踪结果中提取运动特征，利用运动特征建立初始的前、背景的训练样本集，从该训练样本集中提取前、背景的外观特征并训练外观分类器，根据该外观特征改进粒子跟踪及外观分类器，逐步提升前、背景分类结果，进而得到鲁棒的背景剪除结果。

请参照图8，上述步骤701中，在输入视频中播撒并跟踪多个粒子，提取所述粒子的特征的步骤具体包括：

步骤7011，在输入视频中按照高斯分布播撒多个粒子；

步骤7012，在所述输入视频的一组连续帧序列中，根据全局和局部平滑项的能量约束，得到粒子运动轨迹，并根据粒子运动轨迹提取运动特征，所述运动特征包括粒子的位置，轨迹形状，运动速度及运动方向；

步骤7013，在当前已经建立前景和背景的外观模型时，还根据所述前景和背景的外观模型提取粒子的外观特征，所述外观特征包括粒子属于前景的概率及粒子属于背景的概率。

因此，在已建立前景和背景的外观模型时，输出的粒子特征包括运动特征和外观特征；而在未建立前景和背景的外观模型时，输出的粒子特征仅包括运动特征。

请参照图9，本发明另一实施例提供的背景剪除方法，该方法可以对运动相机采集到的视频数据进行背景剪除，如图9所示，该方法包括：

步骤901，在输入视频中播撒并跟踪多个粒子，获得粒子在下一帧图像中的预测位置，并提取粒子的特征。

步骤902，根据粒子的特征对粒子进行分类，得到已分类的粒子。

这里，输入视频通常为运动相机采集的视频，通常是按照高斯分布的方式在输入视频中播撒粒子。上述步骤901～902的实现方式，可以参考上述实施例中的步骤701～702。

步骤903，判断外观分类器是否已完成初始化，若是，进入步骤904，否则进入步骤905；

步骤904，根据跟踪得到的粒子在下一帧图像中的预测位置，提取图像块，并利用提取的图像块，训练并更新所述外观分类器和训练样本集，然后进入步骤906；

步骤905，根据已分类的粒子，生成包括有多个图像块的训练样本集，并利用所述训练样本集训练得到一个初始化的外观分类器，然后，进入步骤907。

这里，在上述步骤904中，根据跟踪得到的粒子在下一帧图像中的预测位置，提取包含所述粒子的图像块，利用所述外观分类器对该图像块进行分类，并在外观分类器的分类结果与所述粒子的类别不同时，将该图像块重新标记为粒子的类别并更新到训练样本集中，利用更新后的训练样本集重新对所述外观分类器进行训练更新，从而利用粒子跟踪结果对外观分类器进行评价和更新，提高了外观分类器的准确度。

步骤906，将下一帧图像中包含所述预测位置的邻域，划分为多个图像块，利用更新后的外观分类器，从该多个图像块中选取置信度最高的一个图像块作为下一段跟踪的起始位置的候选区域，并将选取的图像块添加到所述训练样本集。

这里，在上述步骤906中，进一步利用外观分类器，对粒子跟踪的结果进行优化，提高了后续粒子跟踪的精度。

步骤907，利用所述训练样本集，学习并建立前景和背景的外观模型。

步骤908，根据已分类的粒子、所述前景和背景的外观模型，计算所述输入视频的每一帧图像中的背景像素点，并输出剪除所述背景像素点后的视频数据。

本发明实施例还可以进一步对粒子跟踪的起始位置进行优化，获得优化后的粒子跟踪的起始位置，并应用于步骤901中的粒子跟踪中，以提高粒子跟踪的精度，此时上述方法在上述步骤907之后，还包括以下步骤：

建立一目标函数，所述目标函数为一个数据项和一个平滑项的和值，所述平滑项表示候选区域中的像素点与候选区域的中心点之间的距离，所述数据项表示基于候选区域的图像块属于前景的概率和属于背景的概率的第一视角约束项；通过最小化所述目标函数，计算得到具有最高置信度的像素点，作为粒子跟踪的起始位置。

综上，本发明实施例提供的背景剪除装置及方法，可以针对运动相机采集的输入视频，鲁棒地剪除视频中的背景区域。本发明实施例分析输入视频，结合运动和外观特征，并考虑物体在前、背景之间的状态转换，在线训练并改善外观分类器，以逐步提高前、背景分类的准确度，进而鲁棒地剪除视频的背景区域。本发明实施例可以广泛的应用于物体检测、跟踪及识别等功能。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种背景剪除装置，其特征在于，包括：

特征提取单元，用于在输入视频中播撒并跟踪多个粒子，获得所述粒子在下一帧图像中的预测位置，并提取所述粒子的特征，其中，若当前已经建立前景和背景的外观模型，所述特征包括运动特征和外观特征，若当前尚未建立所述前景和背景的外观模型，所述特征包括运动特征，其中所述外观特征包括粒子属于前景的概率及粒子属于背景的概率；

2.如权利要求1所述的背景剪除装置，其特征在于，所述特征提取单元包括：

外观特征提取子单元，用于在当前已经建立前景和背景的外观模型时，根据所述前景和背景的外观模型提取粒子的外观特征。

3.如权利要求1所述的背景剪除装置，其特征在于，所述聚类单元包括：

4.如权利要求1所述的背景剪除装置，其特征在于，所述模型学习单元还用在外观分类器尚未初始化时，根据已分类的粒子，生成包括有多个图像块的训练样本集，并利用所述训练样本集训练得到一个初始化的外观分类器。

5.如权利要求1至4任一项所述的背景剪除装置，其特征在于，所述模型学习单元还用于在利用所述训练样本集，学习并建立前景和背景的外观模型之前，将下一帧图像中包含所述预测位置的邻域，划分为多个图像块，利用更新后的外观分类器，从该多个图像块中选取置信度最高的一个图像块作为下一段跟踪的起始位置的候选区域，并将选取的图像块添加到所述训练样本集。

6.如权利要求5所述的背景剪除装置，其特征在于，所述模型学习单元包括：

7.如权利要求6所述的背景剪除装置，其特征在于，

所述外观分类器评价子单元，具体用于根据跟踪得到的粒子在下一帧图像中的预测位置，提取包含所述粒子的图像块，利用所述外观分类器对该图像块进行分类，并在外观分类器的分类结果与所述粒子的类别不同时，将该图像块重新标记为粒子的类别并更新到训练样本集中，利用更新后的训练样本集重新对所述外观分类器进行训练更新。

8.如权利要求6所述的背景剪除装置，其特征在于，

所述模型建立子单元，具体用于根据训练样本集中图像块的类别、图像块在整幅图像中的位置，计算图像块在下一帧改变类别的概率值；以图像块在下一帧改变类别的概率值作为该图像块的权值，利用空间颜色高斯混合模型，建立前景和背景的外观模型。

9.如权利要求6所述的背景剪除装置，其特征在于，所述模型学习单元还包括：

10.一种背景剪除方法，其特征在于，包括：

在输入视频中播撒并跟踪多个粒子，获得所述粒子在下一帧图像中的预测位置，并提取所述粒子的特征，其中，若当前已经建立前景和背景的外观模型，所述特征包括运动特征和外观特征，若当前尚未建立所述前景和背景的外观模型，所述特征包括运动特征，其中所述外观特征包括粒子属于前景的概率及粒子属于背景的概率；

利用所述训练样本集，学习并建立前景和背景的外观模型；

11.如权利要求10所述的背景剪除方法，其特征在于，

所述在输入视频中播撒并跟踪多个粒子，提取所述粒子的特征的步骤包括：

在输入视频中按照高斯分布播撒多个粒子；

在当前已经建立前景和背景的外观模型时，还根据所述前景和背景的外观模型提取粒子的外观特征。

12.如权利要求10所述的背景剪除方法，其特征在于，

所述根据粒子的特征对粒子进行分类，得到已分类的粒子的步骤，包括：

13.如权利要求10所述的背景剪除方法，其特征在于，

在所述根据粒子的特征对粒子进行分类，得到已分类的粒子的步骤之后，若外观分类器尚未初始化，则根据已分类的粒子，生成包括有多个图像块的训练样本集，并利用所述训练样本集训练得到一个初始化的外观分类器，然后进入所述利用所述训练样本集，学习并建立前景和背景的外观模型的步骤。

14.如权利要求10至13任一项所述的背景剪除方法，其特征在于，

在所述利用所述训练样本集，学习并建立前景和背景的外观模型的步骤之前，还包括：将下一帧图像中包含所述预测位置的邻域，划分为多个图像块，利用更新后的外观分类器，从该多个图像块中选取置信度最高的一个图像块作为下一段跟踪的起始位置的候选区域，并将选取的图像块添加到所述训练样本集。

15.如权利要求10所述的背景剪除方法，其特征在于，

在所述利用所述训练样本集，学习并建立前景和背景的外观模型的步骤之后，所述方法还包括：