CN109426805B

CN109426805B - 用于对象检测的方法、设备和计算机程序产品

Info

Publication number: CN109426805B
Application number: CN201810946839.2A
Authority: CN
Inventors: 王廷槐
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2017-08-21
Filing date: 2018-08-20
Publication date: 2022-03-25
Anticipated expiration: 2038-08-20
Also published as: EP3447727A1; GB2565775A; GB201713345D0; US20190058887A1; EP3447727B1; CN109426805A; US10778988B2

Abstract

一种方法，包括：接收包括视频帧的视频作为输入；从所述视频中生成一组对象提议；生成对象轨迹片段，所述对象轨迹片段包括在所述视频的连续帧中出现的区域，所述区域对应于具有预定置信水平的对象提议；构建包括所述对象提议和超像素的图，所述超像素是从所述帧的像素分组的；根据对象轨迹片段中的对象提议计算超像素似然性的第一成本函数；根据所述帧中的超像素计算对象提议似然性的第二成本函数；使所述第一和第二成本函数彼此最小化；计算每个超像素的后验概率；以及为每个超像素分配具有最大后验概率的对象类以构成语义对象分割。

Description

用于对象检测的方法、设备和计算机程序产品

技术领域

本解决方案通常涉及计算机视觉和人工智能。特别地，本解决方案涉及用于对象检测的方法和技术设备。

背景技术

许多实际应用依赖于关于例如图像、视频等的媒体内容的语义信息的可用性。语义信息由元数据表示，元数据可以表示场景的类型、特定动作/活动的发生、特定对象的存在等。可以通过分析媒体来获得这种语义信息。

从视频中语义地分割对象仍然是一个开放性挑战，最近的进步依赖于通过交互式初始化或校正所提供的先备知识。然而，全自动语义视频对象分割在以下场景中仍然有用：循环中的人是不切实际的，例如视频识别或总结概括或3D建模。

语义视频对象分割，其旨在根据已知的语义标签识别和分割视频中的对象，最近通过结合中级和高级视觉信息(例如对象检测)取得了很大进展，这使得能够构建视频对象的显式语义概念。然而，这些方法通常无法捕获长程和高级上下文，因此可能由于改变对象外观和遮挡而引入显著的错误。

发明内容

现在已经发明了一种改进的方法和实施该方法的技术设备，通过该方法和技术设备可以至少减轻问题。本发明的各个方面包括一种方法、设备和包括存储在其中的计算机程序的计算机可读介质，其特征在于独立权利要求中所述的内容。在从属权利要求中公开了本发明的各种实施例。

根据第一方面，提供了一种方法，包括：接收包括视频帧的视频作为输入；从视频中生成一组对象提议；生成包括在视频的连续帧中出现的区域的对象轨迹片段，所述区域对应于具有预定置信水平的对象提议；构建包括对象提议和超像素的图，所述超像素是从帧的像素分组的；根据对象轨迹片段中的对象提议计算超像素似然性的第一成本函数；根据帧中的超像素计算对象提议似然性的第二成本函数；使第一和第二成本函数彼此最小化；计算每个超像素的后验概率；以及为每个超像素分配具有最大后验概率的对象类以构成语义对象分割。

根据一个实施例，该方法还包括从所述图确定所述图的节点对之间的链接。

根据一个实施例，该方法还包括计算对于在每个对象提议和其组成超像素之间的连接的第一权重。

根据一个实施例，该方法还包括计算对于在空间上或时间上相邻的超像素之间的连接的第二权重。

根据一个实施例，该方法还包括计算对于在同一轨迹内的对象提议之间的连续连接之间的连接的第三权重。

根据一个实施例，第一权重和第二权重用作第一成本函数中的权重。

根据一个实施例，第一权重和第三权重用作第二成本函数中的权重。

根据一个实施例，根据贝叶斯(Bayes)规则计算每个超像素的后验概率。

本发明的第二和第三方面涉及一种设备和一种计算机可读介质，所述计算机可读介质包括存储在其中的用于执行所述方法的计算机程序。

鉴于下面进一步详细说明的实施例，本发明的这些和其他方面以及与其相关的实施例将变得显而易见。

附图说明

在下文中，将参考附图更详细地描述本发明的各种实施例，其中

图1示出了根据实施例的适用于计算机视觉处理的计算机***；

图2示出了适用于计算机视觉***的卷积神经网络的示例；

图3示出了根据实施例的方法的流程图；

图4示出了从视频序列中提取的轨迹片段的示例；以及

图5示出了根据实施例的无向图。

具体实施方式

在下文中，将在计算机视觉的背景下描述本发明的若干实施例。特别地，本发明实施例涉及视频对象检测，其目的是检测视频中某个类的语义对象的实例。视频对象检测应用于计算机视觉的许多领域中，例如跟踪、分类、分割、字幕和监控中。

图1示出了根据实施例的适用于图像处理中(例如计算机视觉处理中)的计算机***。将根据***的功能块解释计算机***的通用结构。可以用单个物理设备执行若干功能，例如如果需要的话，所有计算程序都可以在单个处理器中执行。根据图1的示例的设备的数据处理***包括主处理单元100、存储器102、存储设备104、输入设备106、输出设备108和图形子***110，它们都经由数据总线112彼此连接。

主处理单元100是包括处理器电路的处理单元，并且被配置为处理数据处理***内的数据。存储器102、存储设备104、输入设备106和输出设备108可以包括本领域技术人员认识的传统部件。存储器102和存储设备104存储在数据处理***100内的数据。计算机程序代码驻留在存储器102中，用于实现例如计算机视觉处理。输入设备106将数据输入到***中，而输出设备108从数据处理***接收数据并向例如显示器、数据发送器或其他输出设备转发数据。数据总线112是传统的数据总线，并且虽然示出为单条线，但它可以是以下的任何组合：处理器总线、PCI总线、图形总线、ISA总线。因此，技术人员容易认识到该设备可以是任何数据处理设备，例如计算机设备、个人计算机、服务器计算机、移动电话、智能电话或因特网访问设备(例如因特网平板计算机)。

需要理解的是，不同实施例允许在不同元件中执行不同部分。例如，计算机视觉***的各种过程可以在一个或多个处理设备中执行；例如，完全在一个计算机设备中，或在一个服务器设备中或跨多个用户设备。计算机视觉过程的元件可以实现为驻留在一个设备上的软件部件，或如上所述分布在多个设备上，例如使得设备形成所谓的云。

一般用于分析数据特别是视觉数据的一种方法是深度学习。深度学习是机器学习的子领域。深度学习可能涉及采用监控或无监控方式的非线性处理单元的多层的学习。这些层形成层的层级结构，其可以称为人工神经网络。每个学习层从输入数据中提取特征表示，其中来自较低层的特征表示低级语义(即，更抽象的概念)。无监控学习应用可以包括模式分析(例如，聚类、特征提取)，而有监控学习应用可以包括图像对象的分类。

深度学习技术可以非常准确地识别和检测图像或视频中的对象，优于先前的方法。与先前的方法相比，深度学习图像识别技术的一个区别是学习从原始数据直接识别图像对象，而先前的技术基于从手工设计的特征(例如，SIFT特征)识别图像对象。在训练阶段，深度学习技术构建分级层次，其提取越来越抽象级别的特征。

因此，提取器或特征提取器可以用于深度学习技术。深度学习技术中的特征提取器的示例是卷积神经网络(CNN)，如图2所示。CNN可以由一个或多个卷积层组成，顶部具有全连接层。CNN比其他深度神经网络更容易训练，并且具有更少的待估计参数。因此，CNN已被证明是一种非常有吸引力的架构，尤其是用于图像和语音应用中。

在图2中，CNN的输入是图像，但是也可以使用任何其他媒体内容对象，例如视频或音频文件。CNN的每一层代表一定的抽象(或语义)级别，CNN提取多个特征图。为简单起见，图2中的CNN仅具有三个特征(或抽象或语义)层C1、C2、C3，但是表现最佳的CNN可具有超过20个特征层。

CNN的第一卷积层C1包括从第一层(即，从输入图像)提取4个特征图。这些图可以表示输入图像中的低级特征，例如边和角。CNN的第二卷积层C2包括从前一层提取6个特征图，增加了所提取特征的语义级别。类似地，第三卷积层C3可以表示在图像中找到的更抽象的概念，例如边和角的组合、形状等。CNN的最后一层(全连接的MLP)不提取特征图。相反，它可以使用来自最后一个特征层的特征图来预测(识别)对象类。例如，它可以预测图像中的对象是房屋。

可以理解，神经网络的目标是将输入数据转换为更有用的输出。一个示例是分类，其中输入数据被分类为N个可能类别之一(例如，如果图像包含猫或狗则分类)。另一示例是回归，其中输入数据被转换成实数(例如，确定歌曲的音乐节拍)。然而，另一示例是从噪声分布产生图像。

尽管图像对象检测具有显著的性能提升，但视频对象检测对如何有力地且有效地解决对于视频的对象检测问题提出了新的挑战。语义视频对象分割，其旨在根据已知的语义标签识别和分割视频中的对象，最近通过结合中级和高级视觉信息(例如对象检测)取得了很大进展，这使得能够构建视频对象的显式语义概念。这种与对象识别和分割的集成不仅有利于整体对象模型，而且还提供了用于描绘语义对象的中级几何表示。然而，由于缺乏分割和上下文的推断以及联合建模，这些现有的基于检测分割的方法通常无法捕获长程和高级上下文。它们通常直接使用本地上下文，即，从时域中关联的独立帧检测到的对象提议，作为约束以加强标记一致性。但是，对象检测以及时间关联可能包含由于改变对象外观和遮挡而导致的显著错误。

本发明实施例涉及构建新颖的图形模型，其考虑各种尺度的上下文信息。该多尺度上下文信息可以由轨迹片段、对象提议和超像素表示，其中每个节点从粗粒度到细粒度捕获各种空间-时间上下文和语义。

图3以简化的方式示出了根据实施例的用于视频对象检测的方法。该方法包括接收(300)包括视频帧的视频作为输入；从该视频生成(302)一组对象提议；生成(304)包括在该视频的连续帧中出现的区域的对象轨迹片段，所述区域对应于具有预定置信水平的对象提议；构建(306)包括对象提议和超像素的图，所述超像素是从帧的像素分组的；根据对象轨迹片段中的对象提议计算(308)超像素似然性的第一成本函数；根据帧中的超像素计算(310)对象提议似然性的第二成本函数；使第一和第二成本函数彼此最小化(312)；计算(314)每个超像素的后验概率；并且为每个超像素分配(316)具有最大后验概率的对象类以构成语义对象分割。

在下文中，以更详细的方式讨论这些步骤。

可以通过计算由***接收的输入视频帧的分层分割来生成对象提议。该输入视频帧可以由包括图1的计算机***的摄像机设备获得。替代地，该输入视频帧可以通过通信网络从在图1的计算机***外部的摄像机设备接收。

为了生成对象提议，可以使用已知的对象检测器，例如快速R-CNN(基于快速区域的卷积神经网络)。快速R-CNN将视频帧和一组对象提议作为输入。该网络首先利用若干卷积层和最大池化层处理视频帧以产生特征图。然后，对于该组对象提议中的每个对象提议，感兴趣区域(RoI)池化层从特征图提取固定长度的特征向量。每个特征向量被馈送到一系列全连接层中，这些层最终分支成两个兄弟输出层：一个产生softmax概率，另一个产生每个类别的边界框回归偏移(per-class bounding-box regression offset)。负对象提议被消除，剩余对象提议具有预定(即足够)置信水平。

对于每个对象类别，例如通过跟踪具有所述预定置信水平的对象提议来生成轨迹片段。这里，例如，Kang，K.、Ouyang，W.、Li，H.和Wang，X.在2016年CVPR第817-82页描述的方法，“用卷积神经网络从视频管束中检测物体(Object detection from video tubeletswith convolutional neural networks)”，可用于生成轨迹片段，其可以包含噪声检测，即误报检测(false positive detection)。该上下文中的轨迹片段指的是从连续视频帧中提取的时间关联的一组对象提议。图4示出了从视频序列中提取的轨迹片段的示例。

在对象检测领域中，图像通常用有限数量的像素组而不是单个像素来表示，因此显著减少了具有图像的计算节点的数量，以及计算复杂度。这些像素组通常称为超像素。

为了处理各种规模或级别的上下文信息，形成无向图G＝(V，E)，超像素和来自轨迹片段的对象提议分别作为节点V＝{X，Y}。图5示出了这种图的示例。在图5的上部，矩形表示轨迹片段，每个轨迹片段包括由圆圈表示的一组对象提议。如线所示，对象提议被反映到该图(图5的下部)。在该图中，每个帧被划分成超像素图，超像素图包括由圆圈表示的、覆盖帧的区域的多个相同尺寸的超像素。在每个帧上，可能存在多于一个的重叠或非重叠对象提议，对应于多个或相同的对象实例。因此，该一个或多个对象提议可以反映到相同的超像素，并且从一个对象提议可以有到两个或更多个超像素的链接。

图4和图5示出了如何在三个级别上提供上下文信息。轨迹片段级节点对长程上下文和更高级别语义协同作用进行编码。对象提议节点加强短程依赖性和局部几何表示，而超像素节点扮演感知有意义的原子区域的角色，以保证有效和准确的分割，尽管它们的信息量较少。跨各种粒度的节点的信息流使得能够实现有效的推断，其解释了自下而上和自上而下的语义线索。

简单地使用更高级别的上下文信息加强标记超像素通常会由于不准确的上下文信息而导致错误分割。然而，图3的方法步骤和与其相关的实施例提供了一种新颖的软标记一致性约束，以允许在一定程度上灵活地标记同一圈子内的节点。

根据一个实施例，该方法还包括从所述图确定图节点对之间的链接。这里，图节点对之间的链接被定义为边，标示为E＝{E_XY，E_XX，E_YY}。E_XY可以被称为交叉上下文边，E_XX可以被称为超像素边，E_YY可以被称为对象提议边。这些边的存在基于图中如下所述的可用多尺度上下文线索来确定。

根据一个实施例，该方法还包括计算每个对象提议和其组成超像素之间的连接的第一权重。每个对象提议和其组成超像素之间的连接被添加为交叉上下文边E_XY。对象提议包括对象实例的更高级别线索，例如外观和位置信息，并且超像素保留局部上下文信息，同时与强度边对齐。超像素x_i和对象提议y_m之间的边

上的第一权重

被定义为

其中[·]是指标函数，Pr(x_i|y_m)是给定对象提议y_m的概率密度函数(PDF)的观察x_i的似然性。对象提议的概率密度可以通过任何合适的密度估计来估计，例如使用Yang，C.、Duraiswami，R.、Gumerov，N.和Davis，L在2003年ICCV第一卷第464页“改进的快速高斯变换和高效核密度估计(Improved Fast Gauss Transform and Efficient KernelDensity Estimation)”中公开的快速核密度估计，将其应用于例如CIE Lab颜色上。跨上下文边将对象实例级别线索转移到超像素中，每个对象提议可以合并本地上下文线索的补充信息。

根据一个实施例，该方法还包括计算空间上或时间上相邻的超像素之间的连接的第二权重。所有空间上或时间上相邻的超像素被连接以形成超像素边E_XX。空间上相邻是基于超像素邻域，而时间上相邻的超像素是通过连续帧上的至少一个光流运动矢量在时间上连接的。边

的第二权重被定义为反映局部外观相似性以及空间/时间距离，如下所述。设定

为x_i的空间和时间邻域中的超像素集，

其中，χ²(h_i，h_j)是超像素x_i和x_j各自的L1标准化CIE Lab颜色直方图h_i、h_j之间的距离为χ2，d^s(x_i，x_j)表示x_i和x_j之间的空间或时间距离。时间距离通过两个超像素内的像素的比率来测量，所述两个超像素通过两个超像素的并集上的运动矢量连接。

根据一个实施例，该方法还包括计算同一轨迹片段内的对象提议之间的连续连接之间的连接的第三权重。同一轨迹片段内的提议之间的连续连接形成对象提议边E_YY。如上所述，偶尔不准确的对象提议可能导致噪声更高级别的上下文信息，其进而传播到超像素。尽管如此，构成相同轨迹片段的对象提议共同编码对象的动态内在结构，即不仅考虑了对象的运动，还考虑了外观随时间的演变。对象提议边被定义为同一轨迹内的提议之间的顺序连接。这些边使得在更高级别的上下文线索内流动的信息能够补偿本地噪声信息。两个对象提议y_m和y_n之间的边

的第三权重被定义为

其中，

是其轨迹片段中y_m的邻域，f.是提议的L2标准化CNN特征，<·>表示内积。第三权重利用深度特征空间中的高级语义。

为了分别促进对于超像素和对象提议的似然性的联合推断，可以将第一和第二成本函数定义为二次成本函数，从而将互补的上下文信息彼此利用。

可以通过以有原则的方式将对象提议似然性V_l结合为更高级别的上下文线索来推断超像素似然性U_l。通过表征图中所有节点之间的关系，超像素似然性U_l相对于标签l的第一二次成本函数

如下。设定节点度矩阵

的对角元素定义为

其中λ和π是参数。超像素概率

是关于标签l的初始似然性。来自对象提议似然性v_ml∈V_l的超像素x_i的估计似然性

被定义为其对应的对象提议似然性的加权平均值，

其中，

在第一成本函数中，

和

分别是拟合约束和平滑约束，而是

上下文约束。

在第一成本函数中，

鼓励超像素具有初始似然性，该初始似然性通过测量推断的似然性应当与初始似然性一致的程度的λ^X来控制。

促进位于特征空间中紧邻的相邻节点之间的推断似然性的连续性。

促进每个超像素的推断以了解更高级别的上下文信息。结果，轨迹片段中的对象提议编码对象的更丰富的语义和内在动态，其可以在推理期间被传播到其组成超像素。

为了求解等式(1)，还需要通过参考图G中的超像素似然性U_l来估计对象提议似然性V_l。类似于(1)，对象提议似然性V_l的第二二次成本函数

定义如下。设定节点度矩阵

的对角元素定义为

其中λ^Y和ψ是参数，

是给定标签l的对象提议m的初始似然性，并且通过结合局部上下文线索(即，超像素似然性U_l)来定义对象提议y_m的估计似然性

被计算为其组成超像素似然性的加权平均值：

其中，

类似地，等式(2)由三项组成，即，

和

在第二成本函数中，

是拟合约束，其鼓励每个对象提议具有其初始似然性。

是平滑约束，其促进同一轨迹片段中对象提议之间的标签连续性，以保持对象的时空一致性。第三项

是上下文约束，其以自下而上的方式收集局部上下文线索，以使用更多本地信息的超像素似然性U_l来细化对象提议似然性V_l，因为它不能保证对象提议始终被提取，从而保留自然图像中的真实对象边界。

由于第一和第二成本函数U_l和V_l彼此互补，它们优选地彼此同时最小化。根据一个实施例，第一和第二成本函数被重新表述为分别关于来自初始似然性

和

的似然性

和

的矩阵形式，

其中，

和

图G中超像素和其对应的对象提议之间的上下文依赖关系由

和

表示。N_X×N_X矩阵Λ^X＝diag([λ^X，…，λ^X])和N_Y×N_Y矩阵Λ^Y＝diag([λ^Y，…，λ^Y])的对角元素分别是参数λ^X和λ^Y。

通过分别关于U_l和V_l区分

和

其中P^X＝D^X-1W^X(或P^Y＝D^Y-1W^Y)和I^X(或I^Y)是单位矩阵(identity matrix)。

通过将所有似然性标示为Z_l＝[U_l；V_l]和初始似然性标示为

可以将等式(5)和(6)联合转换成

标示B＝I(I-Γ)П，等式(7)可以通过稀疏矩阵求逆

来求解。

根据一个实施例，根据贝叶斯规则计算每个超像素的后验概率。例如，然后可以在贝叶斯规则之后计算每个超像素相对于标记l的后验概率

最后每个超像素被分配有对应于具有最大后验概率的类的标签，其构成语义对象分割，

根据实施例的设备包括用于接收包括视频帧的视频作为输入的装置；用于从该视频生成一组对象提议的装置；用于生成包括在该视频的连续帧中出现的区域的对象轨迹片段的装置，所述区域对应于具有预定置信水平的对象提议；用于构造包括对象提议和超像素的图的装置，所述超像素是从帧的像素分组的；用于根据对象轨迹片段中的对象提议计算超像素似然性的第一成本函数的装置；用于根据帧中的超像素计算对象提议似然性的第二成本函数的装置；用于使第一和第二成本函数彼此最小化的装置；用于计算每个超像素的后验概率的装置；用于为每个超像素分配具有最大后验概率的对象类以构成语义对象分割的装置。

本领域技术人员理解，上述任何实施例可以实现为与一个或多个其他实施例的组合，除非明确或隐含地标明某些实施例仅是彼此的替代。

各种实施例可提供优于现有技术的优点。由于轨迹片段、对象提议和超像素的三重图形模型，这里描述的实施例使得能够考虑各种规模或级别的上下文线索。除了中级和高级视觉信息之外，实施例还能够向语义对象分割过程提供长程和更高级别的上下文信息。

本发明的各种实施例可以借助于驻留在存储器中的计算机程序代码来实现，并使相关设备实现本发明。例如，设备可以包括：用于处理、接收和发送数据的电路和电子品，存储器中的计算机程序代码，以及当运行计算机程序代码时使设备执行实施例的特征的处理器。此外，诸如服务器的网络设备可以包括：用于处理、接收和发送数据的电路和电子品，存储器中的计算机程序代码，以及当运行计算机程序代码时使网络设备执行实施例的特征的处理器。

显然，本发明不仅限于上述实施例，而是可以在所附权利要求的范围内进行修改。

Claims

1.一种用于视频分割的方法，包括：

接收包括视频帧的视频作为输入；

从所述视频中生成对象提议集合；

生成对象轨迹片段，每一对象轨迹片段包括出现在所述视频的连续帧中具有预定置信水平的对象提议；

将每一帧划分成多个超像素；

构建包括超像素和来自轨迹片段的所述对象提议集合的图；

根据具有对象类别标签的超像素似然性和为每一超像素定义的估计似然性来计算第一成本函数，超像素的所述估计似然性是在所述图中连接到超像素的对象提议的对象类别似然性的加权和；

根据所述对象提议的对象类别似然性和为每一对象提议定义的估计似然性来计算第二成本函数，所述为每一对象提议定义的估计似然性是对象提议的组成超像素的对象类别似然性的加权和；

使所述第一成本函数和第二成本函数同时最小化，以推断所述对象提议和超像素的对象类别似然性；

基于所推断的对象类别似然性来计算具有对象类别标签的超像素的后验概率；以及

为每个超像素分配具有最大后验概率的对象类别以构成语义对象分割。

2.根据权利要求1所述的方法，还包括从所述图中确定所述图的节点对之间的链接。

3.根据权利要求2所述的方法，还包括计算对于在每个对象提议和其组成超像素之间的连接的第一权重。

4.根据权利要求3所述的方法，还包括计算对于在空间上或时间上相邻的超像素之间的连接的第二权重。

5.根据权利要求3所述的方法，还包括计算对于在相同轨迹片段内的对象提议之间的连续连接的第三权重。

6.根据权利要求4所述的方法，其中，所述第一权重和所述第二权重用作所述第一成本函数中的权重。

7.根据权利要求5所述的方法，其中，所述第一权重和所述第三权重用作所述第二成本函数中的权重。

8.根据权利要求1所述的方法，其中，根据贝叶斯(Bayes)规则计算每个超像素的后验概率。

9.一种用于视频分割的设备，包括至少一个处理器以及包括计算机程序代码的存储器，所述存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使得所述设备：

接收包括视频帧的视频作为输入；

从所述视频中生成对象提议集合；

将每一帧划分成多个超像素；

构建包括超像素和来自轨迹片段的所述对象提议集合的图；

10.根据权利要求9所述的设备，还包括被配置为使所述设备从所述图中确定所述图的节点对之间的链接的计算机程序代码。

11.根据权利要求10所述的设备，还包括被配置为使所述设备计算对于在每个对象提议和其组成超像素之间的连接的第一权重的计算机程序代码。

12.根据权利要求11所述的设备，还包括被配置为使所述设备计算对于在空间上或时间上相邻的超像素之间的连接的第二权重的计算机程序代码。

13.根据权利要求11所述的设备，还包括被配置为使所述设备计算对于在同一轨迹内的对象提议之间的连续连接的第三权重的计算机程序代码。

14.根据权利要求12所述的设备，其中，所述第一权重和所述第二权重用作所述第一成本函数中的权重。

15.根据权利要求13所述的设备，其中，所述第一权重和所述第三权重用作所述第二成本函数中的权重。

16.根据权利要求9所述的设备，还包括被配置为使所述设备根据贝叶斯(Bayes)规则计算每个超像素的后验概率的计算机程序代码。

17.一种计算机可读介质，其上存储有计算机程序代码，所述计算机程序代码被配置为当在至少一个处理器上执行时使得设备或***：

接收包括视频帧的视频作为输入；

从所述视频中生成对象提议集合；

将每一帧划分成多个超像素；

构建包括超像素和来自轨迹片段的所述对象提议集合的图；

18.根据权利要求17所述的计算机可读介质，其中，所述计算机程序代码被配置为当在至少一个处理器上执行时使得设备或***执行根据权利要求2-8任一项所述的方法。

19.一种用于视频分割的设备，包括：

用于接收包括视频帧的视频作为输入的装置；

用于从所述视频中生成对象提议集合的装置；

用于生成对象轨迹片段的装置，每一对象轨迹片段包括出现在所述视频的连续帧中的具有预定置信水平的对象提议；

用于将每一帧划分成多个超像素的装置；

用于构建包括超像素和来自轨迹片段的所述对象提议集合的图的装置；

用于根据具有对象类别标签的超像素似然性和为每一超像素定义的估计似然性来计算第一成本函数的装置，超像素的所述估计似然性是在所述图中连接到超像素的对象提议的对象类别似然性的加权和；

用于根据所述对象提议的对象类别似然性和为每一对象提议定义的估计似然性来计算第二成本函数的装置，所述为每一对象提议定义的估计似然性是对象提议的组成超像素的对象类别似然性的加权和；

用于使所述第一成本函数和第二成本函数同时最小化以推断所述对象提议和超像素的对象类别似然性的装置；

用于基于所推断的对象类别似然性来计算具有对象类别标签的超像素的后验概率的装置；以及

用于为每个超像素分配具有最大后验概率的对象类别以构成语义对象分割的装置。

20.根据权利要求19所述的设备，还包括用于执行根据权利要求2-8中任一项所述的方法的装置。