CN112085025A

CN112085025A - 物体分割方法、装置、设备

Info

Publication number: CN112085025A
Application number: CN201910517393.6A
Authority: CN
Inventors: 任海兵; 杨瑜; 刘晓宇
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2020-12-15
Anticipated expiration: 2039-06-14
Also published as: CN112085025B

Abstract

本发明实施例提供一种物体分割方法、装置、设备，该方法包括：获取视频中包含的第一图像和第二图像；确定至少一个物体在第一图像中各自对应的第一分割结果；跟踪该至少一个物体，以确定该至少一个物体在第二图像中各自对应的图像块；根据该至少一个物体各自对应的第一分割结果和图像块，确定该至少一个物体在第二图像中各自对应的第二分割结果。基于物体跟踪方法来实现对物体在不同图像中所处区域的跟踪，从而利用物体在当前一帧图像中所处的区域来约束物体分割，且基于物体在某帧图像中的分割结果来指导在另一帧图像中对该物体的分割，可以提高物体分割的正确率。

Description

物体分割方法、装置、设备

技术领域

本发明涉及图像处理技术领域，尤其涉及一种物体分割方法、装置、设备。

背景技术

视频中的物体分割是指将视频中每帧图像中各像素按照不同物体进行分割。因此，笼统地讲，物体分割相当于是一种分类问题，具体是对像素是否属于某种物体进行分类处理。

目前，一种视频中的物体分割算法是：首先估计当前帧图像和前一帧图像之间的光流，利用光流把前一帧图像中的物体区域影射到当前帧图像中，最后优化当前帧中物体的精确边缘。

但是，由于光流计算需要花费很长的时间，而且，对于缺少纹理的区域很难获取准确的光流，从而导致物体分割结果不佳。

发明内容

本发明实施例提供一种物体分割方法、装置、设备，用以实现对视频中用户感兴趣物体的图像分割。

第一方面，本发明实施例提供一种物体分割方法，该方法包括：

获取视频中包含的第一图像和第二图像；

确定至少一个物体在所述第一图像中各自对应的第一分割结果；

跟踪所述至少一个物体，以确定所述至少一个物体在所述第二图像中各自对应的图像块；

根据所述至少一个物体各自对应的第一分割结果和图像块，确定所述至少一个物体在所述第二图像中各自对应的第二分割结果。

第二方面，本发明实施例提供一种物体分割装置，该装置包括：

获取模块，用于获取视频中包含的第一图像和第二图像；

第一分割模块，用于确定至少一个物体在所述第一图像中各自对应的第一分割结果；

跟踪模块，用于跟踪所述至少一个物体，以确定所述至少一个物体在所述第二图像中各自对应的图像块；

第二分割模块，用于根据所述至少一个物体各自对应的第一分割结果和图像块，确定所述至少一个物体在所述第二图像中各自对应的第二分割结果。

第三方面，本发明实施例提供一种电子设备，其中包括处理器和存储器，其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器至少可以实现第一方面中的物体分割方法。

第四方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现第一方面中的物体分割方法。

本发明实施例中，针对需要进行物体分割处理的视频，获取该视频中包含的多帧图像，以该多帧图像中的第一图像和第二图像为例来说明物体分割的核心思想：将用户想要分割出来的物体称为至少一个物体，首先，确定该至少一个物体在第一图像中各自对应的第一分割结果，即第一图像中的各像素对应于每个物体的概率分布情况。其次，通过物体跟踪算法，跟踪该至少一个物体，以确定该至少一个物体在第二图像中各自对应的图像块。之后，根据至少一个物体各自对应的第一分割结果和该至少一个物体在第二图像中各自对应的图像块，确定该至少一个物体在第二图像中各自对应的第二分割结果，即第二图像中的各像素对应于每个物体的概率分布情况。

在上述方案中，针对任一物体来说，基于物体跟踪方法来实现对该物体在不同图像中所处区域即对应的图像块的跟踪，从而利用物体在当前一帧图像中所处的区域来约束物体分割，而且，基于物体在某帧图像中的分割结果来指导在另一帧图像中对该物体的分割，可以提高物体分割的正确率。另外，物体跟踪方法的计算速度往往很高，相比于光流的计算速度，几乎可以忽略计算时间。而且，物体跟踪方法具有良好的鲁棒性，可以较好的适应物体变形、部分遮挡等较为复杂的情况，从而有利于保证最终的物体分割结果的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种物体分割方法的流程图；

图2为本发明实施例提供的一种物体分割过程的示意图；

图3为本发明实施例提供的另一种物体分割方法的流程图；

图4为本发明实施例提供的一种用户通过绘制闭合曲线选中分割对象的示意图；

图5为本发明实施例提供的一种用户通过绘制线段选中分割对象的示意图；

图6为本发明实施例提供的一种闭合曲线对应的指导图像的示意图；

图7为本发明实施例提供的一种线段对应的指导图像的示意图；

图8为本发明实施例提供的另一种物体分割方法的流程图；

图9为本发明实施例提供的一种多物体存在重叠情形的示意图；

图10为本发明实施例提供的一种多物体分割过程的示意图；

图11为本发明实施例提供的另一种物体分割方法的流程图；

图12为本发明实施例提供的一种背景替换的示意图；

图13为本发明实施例提供的一种物体分割装置的结构示意图；

图14为与图13所示实施例提供的物体分割装置对应的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者***中还存在另外的相同要素。

另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

本发明实施例提供的物体分割方法可以由一电子设备来执行，该电子设备可以是诸如PC机、笔记本电脑等终端设备，也可以是服务器。该服务器可以是包含一独立主机的物理服务器，或者也可以为主机集群承载的虚拟服务器，或者也可以为云服务器。

本发明实施例提供的物体分割方法可以适用于需要对任一视频中包含的用户感兴趣的物体进行分割的场景中。

比如，在一些实际应用场景中，用户想要为某视频中包含的某一个或多个物体添加某种渲染效果，此时，首先需要对该视频进行将该一个或多个物体的分割出来。

再比如，在一些实际应用场景中，用户想要将视频中的前景物体从背景画面中提取出来，进而替换新的背景画面，那么此时，也需要先将前景物体从视频中分割出来。具体举例来说，假设某个直播视频或录播视频是用户A访问用户B的视频，且假设访问环境是处于人来人往的嘈杂环境中，那么当观看者在观看该视频时，受到人流耸动的背景画面的影响，将很难聚焦在用户A和用户B身上。为此，如果通过本发明实施例提供的物体分割方法将视频的各帧图像中包含的目标物体——用户A和用户B分割出来，进而为各帧图像替换新的背景图像比如会客厅图像，相当于将用户A访问用户B的访问环境替换为会客厅，这样对于观看者来说，更容易聚焦在用户A和用户B身上。

为更方便理解本实施例中的物体分割方法，先对该物体分割方法的核心思想进行概要说明：

在物体分割过程中，主要涉及到两个关键点，其一是：基于物体跟踪方法实现对需要分割的物体在视频的不同图像中所处区域即对应的图像块的跟踪。物体跟踪的目的是确定出需要分割的物体在不同图像中所位于的大致区域范围，以便以其区域范围为约束进行物体分割，即在该区域范围内进行物体的精确分割。其二是：基于物体在某帧图像中的分割结果来指导在另一帧图像中对该物体的分割。

结合上述核心思想的介绍可知，对于需要进行物体分割处理的某个视频，可以先对该视频进行分帧处理，即将该视频划分为若干帧图像，假设视频被划为N帧图像，N大于1。从而，对该视频进行物体分割的问题将转换为对这N帧图像进行物体分割的问题。

具体地，对于用户想要分割的某个物体而言，可以首先在N帧图像中的第一图像中确定该物体的分割结果，后续其他帧图像比如第二图像中该物体的分割过程将受到该物体在前一帧图像即第一图像中的第一分割结果以及通过跟踪该物体得到的该物体在第二图像中对应的区域范围的影响。

由此可知，在一可选实施例中，在N帧图像中进行某物体的分割处理的过程可以实现为：在第一帧图像中确定该物体的分割结果，记为F1；跟踪该物体以确定该物体在第二帧图像中对应的区域范围(即在第二帧图像中对应的图像块)，记为T1，进而根据F1和T1得到该物体在第二帧图像中对应的分割结果，记为F2。之后，跟踪该物体以确定该物体在第三帧图像中对应的图像块，记为T2，进而根据F2和T2得到该物体在第三帧图像中对应的分割结果，记为F3。以此类推，直到根据在第N-1帧图像中该物体对应的分割结果以及该物体在第N帧图像中对应的图像块得到该物体在第N帧图像中对应的分割结果。

其中，物体在任一图像中对应的分割结果反映了该任一图像中的像素对应于该任一物体的概率分布情况，以该任一图像中的各像素以多大的概率是属于该任一物体的。

结合上述介绍，下面结合以下实施例对本文提供的物体分割方法的执行过程进行说明。

图1为本发明实施例提供的一种物体分割方法的流程图，如图1所示，该方法包括如下步骤：

101、获取视频中包含的第一图像和第二图像。

102、确定至少一个物体在第一图像中各自对应的第一分割结果。

103、跟踪至少一个物体，以确定至少一个物体在第二图像中各自对应的图像块。

104、根据至少一个物体各自对应的第一分割结果和图像块，确定至少一个物体在第二图像中各自对应的第二分割结果。

如前文所述，对于需要进行物体分割的某个视频，可以先对该视频进行分帧处理，以获得该视频中包含的多帧图像，假设为N帧图像。

用户想要分割出的物体可能是一个也可能是多个，上述步骤中将用户想要分割的物体称为至少一个物体。

作为物体分割方法执行的起点，执行该物体分割方法的电子设备首先需要得知用户想要分割的物体是什么。在一可选实施例中，当用户想要分割的多个物体是属于不同类别的物体时，比如需要分割的物体包括人物、马，用户可以配置想要分割的多个物体各种所对应的类别，从而使得电子设备得知需要分割出属于什么类别的物体。当然，电子设备还可以通过其他方式得知用户想要分割的物体是什么，将在后续其他实施例中具体说明。

在得知用户想要分割的各物体后，便可以针对N帧图像进行各物体的分割处理。由于在上述步骤中，对每个物体的分割处理过程都是一样的，因此，为便于描述，将以至少一个物体中的任一物体(假设称为物体A)为例进行说明。

另外，下面以这N帧图像中包含的其中两帧图像为例，对在这两帧图像中进行物体A的分割过程进行说明，这两帧图像分别称为第一图像和第二图像。

值得说明的是，第一图像是分割物体A的首帧图像，在第一图像中分割物体A的方式与在其他图像中分割物体A的方式是有所不同的。具体来说，在第一图像中分割物体A可以采用传统地在图片中分割物体的方法，而在后续的某帧图像比如第二图像中进行物体A的分割时，将会基于前一帧图像中物体A的分割结果以及当前图像中物体A对应的图像块来实现。

实际应用中，第一图像可以是视频的N帧图像中首次出现物体A的那帧图像，也可以是N帧图像中任一帧包含物体A的图像。第二图像可以是按照时间顺序，位于第一图像之前或之后的某帧图像，其中，第二图像可以是时序上与第一图像相邻或不相邻的某帧图像。

基于此，在一可选实施例中，可以按照正向的时间顺序，自首帧包含物体A的图像开始，逐帧向后进行物体A的分割。在另一可选实施例中，可以按照逆向的时间顺序，自最后一帧包含物体A的图像开始，逐帧向前进行物体A的分割。

可选地，可以采用诸如Mask R-CNN、Mask-X RCNN等物体分割方法确定物体A在第一图像中对应的第一分割结果。第一分割结果表明了第一图像中的各像素对应于物体A的概率分布情况，简单来说，第一图像中物体A覆盖区域内的各像素被确定为对应于物体A的概率为1，第一图像中其他区域内的各像素被确定为对应于物体A的概率为0。

可以理解的是，假设用户想要分割的物体还包括物体B，而且假设第一图像中包含物体B，那么，对物体B在第一图像中对应的第一分割结果的确定过程与物体A一致，也就是说，可以并行地、相互独立地分别确定物体A和物体B在第一图像中对应的第一分割结果。

在得到物体A在第一图像中对应的第一分割结果后，为了得到物体A在下一帧图像即第二图像中对应的第二分割结果，首先，需要基于物体跟踪算法来跟踪物体A，以确定物体A在第二图像中对应的图像块，进而，结合物体A在第一图像中对应的第一分割结果和物体A在第二图像中对应的图像块来确定物体A在第二图像中对应的第二分割结果。

具体地，跟踪物体A，以确定物体A在第二图像中对应的图像块，可以实现为：

根据第一分割结果确定物体A在第一图像中对应的第一图像块，跟踪第一图像块，以确定物体A在第二图像中对应的第二图像块。

其中，由于第一分割结果表明了第一图像中的各像素对应于物体A的概率分布情况，基于此，可以得知第一图像中哪些像素是对应于物体A的，从而，确定包围对应于物体A的这些像素的最小矩形框，将第一图像中落入该矩形框内的图像区域作为第一图像块。通过诸如ATOM、KCF、GOTURN等物体跟踪算法来跟踪第一图像块在第二图像中对应的区域范围，将该区域范围称为第二图像块。可以理解的是，物体A即包含在该第二图像块中。

举例来说，在图2中，假设第一图像中包括用户X和用户Y，其中，用户X是正在行走中的人，用户Y是在骑自行车的人。假设需要分割的物体A为图2中正在行走中的用户X，基于在第一图像中得到的第一分割结果确定出包围用户X的最小矩形框为图2中示意的矩形框a，跟踪该矩形框a，确定在第二图像中该矩形框a映射为矩形框b。在图2中，由于骑自行车的用户Y以及正在行走中的用户X都处于移动中，跟踪矩形框a以在第二图像中确定包含用户X的最小矩形框即矩形框b时，自行车的部分可能会落入该矩形框b中。

通过跟踪物体A在第一图像中对应的第一图像块在第二图像中对应的位置区域，以得到物体A在第二图像中对应的第二图像块后，以该第二图像块为约束来对确定物体A在第二图像中对应的第二分割结果。其中，第二图像块的约束作用可以理解为：在第二图像块中进行物体A的分割，因为物体A包含于第二图像块中，当然，第二图像块中还可能包含其他物体的全部或部分，也会包含部分背景信息。

另外，物体A在第二图像中对应的第二分割结果需要结合物体A在第一图像中对应的第一分割结果以及上述第二图像块来确定，其中，第一分割结果主要是起到指导作用，即基于第一分割结果指导物体A在第二图像中的分割，以获得第二分割结果。

可选地，根据物体A在第一图像中对应的第一分割结果以及物体A在第二图像中对应的第二图像块来确定物体A在第二图像中对应的第二分割结果，可以实现为：

根据物体A对应的第一分割结果对物体A对应的第一图像块进行处理；

将处理后的第一图像块和物体A在第二图像中对应的第二图像块输入到第二模型中，以通过第二模型获取物体A在第二图像中对应的第二分割结果。

其中，可选地，对第一图像块的处理可以是二值化处理。二值化处理的目的是区分出第一图像块中包含的物体A的区域和非物体A的区域。基于此，其他可以实现该目的的图像处理方式均适用，不以二值化处理为限。

如前文所述，第一分割结果反映了第一图像中各像素对应于物体A的概率分布情况，也就是说，反映了第一图像中哪些像素是对应于物体A的，哪些像素是不对应于物体A的。以二值化处理为例，对第一图像中包含物体A的第一图像块进行二值化处理，即为将第一图像块中包含的像素，按照是否对应于物体A进行二值化处理，比如，将第一图像块中对应于物体A的像素设置为灰度值为255(即为白色)，将第一图像块中不对应于物体A的像素设置为灰度值为0(即为黑色)。

基于此，二值化处理后的第一图像块中仅包含物体A的轮廓或者说形状特征。而第二图像块，结合图2来说，其实就是第二图像中位于矩形框b中的图形，相当于从第二图像中抠取出第二图像块，以用于进行物体A的分割。

本实施例中，可以采用预先训练至收敛的神经网络模型(即为上述第二模型)来进行物体A的分割。

该神经网络模型比如可以是基于对DeepLabv3+这个网络模型进行改进而获得。传统的DeepLabv3+网络模型支持三通道输入，这三个通道分别对应于图像的R(红色)、G(绿色)、B(蓝色)三种颜色的灰度值。在本实施例中，这三个通道的输入分别是第二图像块在R、G、B三种颜色下各种对应的灰度值矩阵。即计算第二图像块中的各个像素在R下分别对应的灰度值，得到R对应的灰度值矩阵，同理，计算第二图像块中的各个像素分别在G、B下分别对应的灰度值，得到G对应的灰度值矩阵以及B对应的灰度值矩阵，从而，将R、G、B各自对应的灰度值矩阵作为三个通道的输入。

由于本实施例中，在确定物体A在第二图像中对应的第二分割结果的过程中，还需要使用到物体A在前一帧图像即第一图像中对应的第一分割结果，因此，该第一分割结果将对应于第四个通道的输入，输入到第二模型中。由此可知，本实施例中对传统的DeepLabv3+网络模型的改进主要体现为增加了一个通道，该通道即对应于物体A在当前帧的前一帧图像中对应的分割结果。

可以理解的是，第四通道的网络结构与其他三个通道的网络结构可以相同，只是，对应的网络参数即权重系数需要被训练获得，训练可以采用有监督的训练方式进行。

另外，值得说明的是，第四个通道的输入其实是上述二值化处理后的第一图像块，也就是第一图像块对应的经二值化处理后的灰度值矩阵，在该灰度值矩阵中，对应于物体A的像素的灰度值比如为255，不对应于物体A的像素的灰度值比如为0。可以理解的是，对应于物体A的像素的灰度值以及不对应于物体A的像素的灰度值的具体取值也可以是其他预设值。

由于二值化的第一图像块中反映出了物体A的形状特征，因此，可以认为第二模型是基于该形状特征在第二图像块中寻找形状与之匹配的物体，将找寻到的物体视为物体A，从而实现物体A在第二图像中的分割。

结合图2中的举例来说，通过上述处理过程，物体A即用户X在第二图像中对应的第二分割结果将为：矩形框b内用户X所覆盖的各像素将被确定为：对应于用户X的概率为1，而矩形框b内的其他像素以及剩余的矩形框b外的像素将被确定为：对应于用户X的概率为0。

当然，上述概率值为1、0仅为举例，实际上，第二模型预测输出的概率值是位于0至1区间的一个数值，并非一定是1和0。

基于上述过程完成物体A在第二图像中对应的第二分割结果的确定后，进而，可以跟踪第二图像块，以确定物体A在下一帧图像比如第三图像中对应的第三图像块，以及根据物体A对应的第二分割结果对物体A对应的第二图像块进行二值化处理，将二值化处理后的第二图像块和上述第三图像块输入到第二模型中，以通过第二模型获取物体A在第三图像中对应的第三分割结果。以此类推，直到完成在全部图像帧中对物体A的分割。

综上，针对任一物体来说，基于物体跟踪方法来实现对该物体在视频的不同图像中所处区域的跟踪，从而利用物体在当前一帧图像中所处的区域来约束物体分割，而且，基于物体在某帧图像中的分割结果来指导在另一帧图像中对该物体的分割，可以提高物体分割的正确率。另外，物体跟踪方法的计算速度往往很高(可以达到30FPS)，相比于光流的计算速度(约为1FPS)，几乎可以忽略计算时间。而且，物体跟踪方法具有良好的鲁棒性，可以较好的适应物体变形、部分遮挡等较为复杂的情况，从而有利于保证最终的物体分割结果的准确性。

图3为本发明实施例提供的另一种物体分割方法的流程图，如图3所示，该方法包括如下步骤：

301、获取视频中包含的第一图像和第二图像。

302、响应于用户在第一图像中对某物体触发的选择操作，确定该物体在第一图像中对应的第一分割结果。

303、跟踪该物体，以确定该物体在第二图像中对应的图像块。

304、根据该物体对应的第一分割结果和在第二图像中对应的图像块，确定该物体在第二图像中对应的第二分割结果。

上述步骤中仅以用户选择某一个物体为例进行说明，可以理解的是，当用户选择多个物体作为分割对象时，都可以通过上述步骤分别对每个物体进行分割处理。

另外，经过分帧处理，视频中包括N帧图像，N大于1,上述第一图像可以是用户从中选择的任一帧包括上述物体的图像，第二图像也可以是剩余的任一帧图像。而且，可以理解的是，为实现该物体在N帧图像的分割处理，上述步骤是一种迭代循环执行的过程，即在针对第一图像和第二图像执行完步骤304后，进行该物体在下一帧图像比如第三图像中的分割出来，只是此时，前一次分割所针对的第二图像作为第三图像的前一帧图像，需要结合该前一帧图像中该物体的分割结果来实现对该物体在下一帧图像即第三图像中的分割，如此类推下去。这个循环迭代的过程同样适用于本文中的其他实施例，在其他实施例的说明中不再赘述。

与前述图1所示实施例不同的是，本实施例中，提供了一种可选的让电子设备得知用户想要分割的物体的方式，即基于用户在第一图像中对某物体触发的选择操作。该选择操作也可以称为交互操作、交互行为等，主要想强调的是：用户可以在图像中直接对其想要分割的物体进行某种交互操作，以告知电子设备其具体选择了哪些物体需要进行分割。

实际应用中，根据电子设备的不同，用户交互操作的具体手段也可以有所不同。比如，如果电子设备为触摸屏设备，则用户可以通过手指在当前显示的第一图像中对想要选择的物体画出某些图形以选中该物体作为分割对象。如果电子设备为非触摸屏设备，比如为PC机，则用户可以通过操作鼠标在当前显示的第一图像中选中作为分割对象的物体。

值得说明的是，本实施例中，用户针对某个物体触发的选择操作，应该理解为仅是一种简单的交互行为，目的是告知电子设备用户想要分割出哪个物体，并不要求用户一定要在第一图像中描绘出想要分割的物体的准确轮廓。

下面提供几种可选地选择某个物体作为分割对象的操作行为：

在一可选实施中，如图4中所示，用户选择图4中示意的用户Z作为分割对象的行为可以是用户绘制包围用户Z的闭合曲线的行为。其中，该闭合曲线的形状可以不做具体限定，可以是矩形、圆形或其他任意规则或不规则的形状。而且，该闭合曲线并不要求如前述实施例中示意的矩形框a、矩形框b一样，是包围物体的最小闭合图形。

在另一可选实施中，如图5中所示，用户选择图5中示意的马作为分割对象的行为可以是用户在马身上绘制线段的行为。其中，该线段可以是直线线段也可以是弯折的曲线线段。

基于用户在第一图像上对需要分割的物体触发的上述选择操作行为，该物体在第一图像中对应的第一分割结果的确定过程也可以结合该选择操作行为来进行。其中，该选择操作行为相当于给出了在第一图像中确定物体对应的第一分割结果的指导信息。

实际上，对应于图4和图5示意的两种不同的选择操作行为，获取相应的指导信息的方式也是不同的。

具体来说，当该选择操作行为是如图4中所示的，绘制包围想要分割的物体的闭合曲线时，基于用户绘制的闭合曲线，可以生成与该闭合曲线对应的指导图像。其中，在该指导图像中，由闭合曲线围成的闭合区域的中心向闭合区域的边界，像素的灰度值呈现预设的变化趋势；闭合区域外的像素的灰度值被置为预设值。

举例来说，如图6中所示，假设用户绘制的是如图4中示意的闭合曲线，另外，假设上述预设的变化趋势为灰度值由大到小的变化趋势，则比如可以将闭合区域的中心位置的像素的灰度值设置为255，之后，按照设定的某种递减规律，从中心位置向闭合区域的边界逐步递减像素的灰度值，假设基于该递减规律到闭合区域的边界处像素的灰度值为30。另外，设置闭合区域外的像素的灰度值为0。

其中，在上述举例中，是基于某像素的灰度值越高，该像素越有可能是对应于想要分割的物体上的像素这一前提条件。基于该前提条件可知，越靠近闭合区域的中心位置的像素是想要分割的物体上的像素的可能性越高，因此，将闭合区域的中心位置的像素的灰度值设置为较高值，越靠近闭合区域的边界位置的像素是想要分割的物体上的像素的可能性渐低，因此，将闭合区域的边界位置的像素的灰度值设置为较低值，而闭合区域外的像素是想要分割的物体上的像素的可能性更低，因此将闭合区域外的像素的灰度值设置为最低值。

基于上述闭合区域内、外各像素的灰度值的设置规律，可以生成一张尺寸与第一图像相同的指导图像，该知道图像中各个像素对应的灰度值基于该设置规律而定。

而当该选择操作行为是如图5中所示的，在想要分割的物体上绘制线段时，基于用户绘制的线段，可以生成与该线段对应的指导图像。其中，如图7所示，在该指导图像中，该线段上对应的像素的灰度值为第一灰度值，其他像素的灰度值为第二灰度值。比如，基于某像素的灰度值越高，该像素越有可能是对应于想要分割的物体上的像素这一假设的前提条件，第一灰度值比如可以设置为255，第二灰度值设置为0。

假设本实施例中用户想要分割的物体为物体W，在得到上述指导图像后，物体W在第一图像中对应的第一分割结果的确定过程可以实现为：

将指导图像和第一图像输入至第一模型中，以通过第一模型输出物体W在第一图像中对应的第一分割结果。

其中，该第一模型的网络结构仍旧可以采用前文中描述的对DeepLabv3+网络模型增加一个通道后得到的四通道的模型结构。只是，该第一模型的权重系数与前文中第二模型的权重系数不同。也就是说，第一模型和第二模型可以具有相同的网络结构，但是，各自对应不同的权重系数，不同模型对应的权重系数是基于每个模型各自的用途经不同的训练样本的监督训练过程训练得到的。

具体地，第一图像输入至第一模型中，是指将第一图像在R、G、B三种颜色上各自对应的灰度值矩阵输入到第一模型中。指导图像输入至第一模型中，是指将指导图像对应的灰度值矩阵输入到第一模型中。

其中，在第一图像中分割物体W的过程中，指导图像的指导作用主要体现为：指导图像告知了第一模型第一图像中各像素对应于物体W的可能性高低。

图8为本发明实施例提供的另一种物体分割方法的流程图，如图8所示，该方法包括如下步骤：

801、获取视频中包含的第一图像和第二图像。

802、确定至少两个物体在第一图像中各自对应的第一分割结果。

803、跟踪该至少两个物体，以确定该至少两个物体在第二图像中各自对应的图像块。

804、根据该至少两个物体各自对应的第一分割结果和在第二图像中各自对应的图像块，确定该至少两个物体在第二图像中各自对应的第二分割结果。

805、基于该至少两个物体在目标图像中各自对应的分割结果，重新确定目标图像中的像素归属于的物体，以更新至少两个物体在目标图像中各自对应的分割结果，目标图像为第一图像和第二图像中的任一图像。

本实施例中假设用户想要分割的物体为至少两个物体，具体假设为物体A和物体B。经过上述步骤801-804的执行过程可以得到物体A和物体B各自在第二图像中对应的第二分割结果。

现以上述目标图像为第二图像为例进行说明，可以理解的是，目标图像为第一图像时的处理过程是相同的。

如图9中所示，假设物体A在第二图像中对应的第二分割结果表明：在第二图像中，物体A的轮廓为图9中示意的轮廓a，并假设物体B在第二图像中对应的第二分割结果表明：在第二图像中，物体B的轮廓为图9中示意的轮廓b。而实际上，在第二图像中，物体A和物体B可能会存在部分重叠的现象，比如图9中轮廓a与轮廓b存在部分重叠。

为便于理解，举例来说，假设物体A为某个人，物体B为一匹马，这个人骑在马上，在人与马的图像会存在部分重叠。

而在独立地分别对物体A和物体B在第二图像中进行分割时，物体A在第二图像中对应的第二分割结果描述了第二图像中的各像素对应于物体A的概率分布情况，物体B在第二图像中对应的第二分割结果描述了第二图像中的各像素对应于物体B的概率分布情况。

为方便理解，以图9中位于轮廓a与轮廓b重叠区域中的某像素i为例来说，假设该像素i具有如下四个概率值：

P(i)_A＝0.6，P(i)_非A＝0.4，P(i)_B＝0.8，P(i)_非B＝0.2。

其中，P(i)_A＝0.6和P(i)_非A＝0.4是基于物体A在第二图像中对应的第二分割结果得到的，P(i)_B＝0.8和P(i)_非B＝0.2是基于物体B在第二图像中对应的第二分割结果得到的。

也就是说，基于物体A在第二图像中对应的第二分割结果确定像素i对应于物体A的概率为0.6，不对应于物体A的概率为0.4；基于物体B在第二图像中对应的第二分割结果确定像素i对应于物体B的概率为0.8，不对应于物体B的概率为0.2。

基于上述假设可知，在重叠区域的像素，既有可能是对应于物体A的，也有可能是对应于物体B的，还有可能既不对应于物体A也不对应于物体B即为背景。那么此时，为了获得准确的物体分割结果，需要对重叠区域的像素的归属进行再次判定。具体地，即为需要根据物体A和物体B在第二图像中各自对应的第二分割结果，重新确定第二图像中的像素是否对应于这两个物体中的某个物体，以更新这两个物体的分割结果。

仍以上述像素i为例，可选地，基于上述四个概率值的假设，可以确定像素i的归属对应于四个概率值中的最大值：P(i)_B＝0.8，即确定像素i对应于物体B。

该可选方式的思路，概括来说即为：对于第二图像中的任一像素j来说，如果该像素j仅对应有某一个物体的概率值，那么该像素j是否归属于该物体，根据该概率值确定即可，比如概率值大于或等于0.6，则认为该像素归属于该物体，反之属于背景。而如果该像素j仅对应有多个物体的概率值，那么该像素j是否归属于其中的某个物体，根据该像素j在多个物体下各种对应的概率值的大小确定该像素j的归属。

另外，基于上述像素i的上述四个概率值的假设，可选地，还可以通过如下方式确定像素i的归属：

0.6/(1-0.6)；

0.8/(1-0.8)；

(0.4+0.2)/2＝0.3,0.3/(1-0.3)；

确定像素i的归属对应于上述三个计算结果中的最大值：0.8/(1-0.8)，即确定像素i对应于物体B。

其中，上述三个计算过程相当于是分别计算像素i对应于物体A、物体B和背景的归一化的概率值。

其中，(0.4+0.2)/2＝0.3，是对P(i)_非A＝0.4和P(i)_非B＝0.2求均值，以该均值来表示像素i属于背景的概率。

上述举例中假设的是物体在某帧图像中对应的分割结果，直接表示出了该帧图像中的像素分别属于该物体和背景的概率值。但是，在一些实际应用中，物体在某帧图像中对应的分割结果，实际上表示出的是该帧图像中的像素分别属于该物体和背景的置信度。基于此，本发明实施例提供了另一种基于至少两个物体在目标图像中各自对应的分割结果，重新确定目标图像中的像素归属于的物体的实现方式，详情如下：

仍以判断目标图像中的任一像素i在物体A、物体B和背景中的归属为例来说明。

首先，基于物体A和物体B在目标图像中各自对应的分割结果可以得到像素i对应的置信度：Pa(i)和Pb(i)，其中，Pa(i)与物体A对应，Pb(i)与物体B对应。

Pa(i)是一个二维向量，可以表示为：Pa(i)＝[a1,a2]，同样地，Pb(i)是一个二维向量，可以表示为：Pb(i)＝[b1,b2]。

其中，a1和a2分别表示基于在目标图像中分割物体A的过程得到的像素i分别属于背景和物体A的置信度。同理，b1和b2分别表示基于在目标图像中分割物体B的过程得到的像素i分别属于背景和物体B的置信度。

在得到上述置信度后，可以通过如下方式对置信度进行转换，以将置信度转换为大于0的值：

假设Pa(i)和Pb(i)分别对应的转换结果为Pa＇(i,k)和Pb＇(i,k)，其中，k的取值为0和1，是指上述表示置信度的二维向量中的元素的标号。如果上述二维向量中的第一个元素表示的是对应于背景的置信度，第二个元素表示的是对应于前景物体的置信度，则可以理解的是，k＝0表示背景，k＝1表示作为前景的物体。

具体来说，Pa＇(i,0)和Pa＇(i,1)分别表示对置信度a1和a2进行转换后得到的新的置信度。同理，Pb＇(i,0)和Pb＇(i,1)分别表示对置信度b1和b2进行转换后得到的新的置信度，其中：

Pa＇(i,0)＝e^Pa(i,0)/e^Pa(i,0)＝1，

Pa＇(i,1)＝e^Pa(i,1)/e^Pa(i,0)＝e^a2/e^a1，

Pb＇(i,0)＝e^Pb(i,0)/e^Pb(i,0)＝1，

Pb＇(i,1)＝e^Pb(i,1)/e^Pb(i,0)＝e^b2/e^b1。

其中，Pa(i,0)＝a1，Pa(i,1)＝a2，Pb(i,0)＝b1，Pb(i,1)＝b2。

由此可见，对于像素i来说，其属于背景的置信度被归一化为1，从而，经过上述转换过程，像素i对应有三个新的置信度：像素i属于背景的置信度为1，像素i属于物体A的置信度为e^a2/e^a1，像素i属于物体B的置信度为e^b2/e^b1。

基于这三个置信度，可以最终确定像素i的归属。

可选地，可以确定这三个置信度中的最大值，基于最大置信度确定像素i的归属。比如，如果e^b2/e^b1是这三个置信度中的最大值，则确定像素i归属于物体B。

可选地，也可以对这三个置信度进行归一化处理，确定归一化处理后得到的最大概率值，基于归一化后的最大概率值确定像素i的归属。

上述三个置信度的归一化结果分别为如下三个概率值：

像素i属于背景的概率为：1/(1+e^a2/e^a1+e^b2/e^b1),

像素i属于物体A的概率为：(e^a2/e^a1)/(1+e^a2/e^a1+e^b2/e^b1),

像素i属于物体B的概率为：(e^b2/e^b1)/(1+e^a2/e^a1+e^b2/e^b1),

假设像素i属于物体B的概率为最大值，则确定像素i归属于物体B。

另外，以用户想要分割的物体为物体A和物体B为例，为更直观地理解先独立地分别对物体A和物体B在某帧图像中进行物体分割，进而综合考虑物体A和物体B各自对应的分割结果来解决由于物体A和物体B可能存在重叠区域而导致的分割结果不准确问题，结合图10来示意性说明物体A和物体B的完整的分割处理过程。

在图10中，在分别得到物体A在前一帧图像中对应的第一分割结果以及物体B在前一帧图像中对应的第一分割结果后，分别针对物体A和物体B进行单物体的跟踪，从而得到物体A在当前帧图像中对应的图像块以及物体B在当前帧图像中对应的图像块。之后，单独地分别针对物体A和物体B，确定物体A在当前帧图像中对应的第二分割结果以及物体B在当前帧图像中对应的第二分割结果。之后，综合考虑物体A在当前帧图像中对应的第二分割结果以及物体B在当前帧图像中对应的第二分割结果，进行多物体的分割优化，从而最终得到物体A和物体B在当前帧图像中对应的分割结果。

图11为本发明实施例提供的一种物体分割方法的流程图，如图11所示，该方法包括如下步骤：

1101、获取视频中包含的第一图像和第二图像。

1102、确定至少一个物体在第一图像中各自对应的第一分割结果。

1103、跟踪至少一个物体，以确定至少一个物体在第二图像中各自对应的图像块。

1104、根据至少一个物体各自对应的第一分割结果和图像块，确定至少一个物体在第二图像中各自对应的第二分割结果。

1105、根据至少一个物体在目标图像中分别对应的分割结果，替换第一图像和第二图像的背景区域。

上述步骤中关于至少一个物体的分割过程可以参考前述其他实施例中的描述来实现，在此不赘述。

本实施例中，针对视频中包括的N帧图像，当得到各个物体在这N帧图像中分别对应的分割结果后，可以基于获得的分割结果，将这些物体从相应的各帧图像中抠取出来，进而将剩下的像素区域即背景区域进行替换。

以需要分割的物体为物体A为例来说，对于第一图像和第二图像而言，可以分别替换图像的背景。具体来说，以N帧图像中的第一图像为例，假设第一图像中包括物体A，基于物体A在第一图像中对应的分割结果可知第一图像中哪些像素对应于物体A，基于此可以将物体A从第一图像中抠取出来，从而第一图像中剩余的区域对应于背景区域，可以将预设设置好的新背景区域渲染在原来的背景区域上，从而实现背景区域的替换。比如，如图12中所示，物体A为图中的女孩，将女孩分割出来后，将背景替换为白色背景。

背景区域的替换，比如可以适用于直播场景。举例来说，假设正在对用户a访问用户b的过程进行直播，由于访问环境可能处于人流耸动的环境下，如果直接将采集的访问现场视频直播出去，对于观看者来说，感受不佳。为此，可以针对访问现场视频进行本文中提供的物体分割处理，以将用户a和用户b的访问从访问环境背景中提取出来，替换上其他的背景，从而生成新的访问视频，之后再将新的访问视频直播出去。正如前文中所说的，本文提供的物体分割方法的耗时比较短，因此，不会对视频直播的实时性产生明显的影响。

值得说明的是，在直播视频的场景下，用户想要分割的物体基本上可以认为就是视频画面中的“主播”，因此，针对直播视频而言，电子设备可以直接确定主播为需要分割的物体。

以下将详细描述本发明的一个或多个实施例的物体分割装置。本领域技术人员可以理解，这些物体分割装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图13为本发明实施例提供的一种物体分割装置的结构示意图，如图13所示，该物体分割装置包括：获取模块11、第一分割模块12、跟踪模块13、第二分割模块14。

获取模块11，用于获取视频中包含的第一图像和第二图像。

第一分割模块12，用于确定至少一个物体在所述第一图像中各自对应的第一分割结果。

跟踪模块13，用于跟踪所述至少一个物体，以确定所述至少一个物体在第二图像中各自对应的图像块。

第二分割模块14，用于根据所述至少一个物体各自对应的第一分割结果和图像块，确定所述至少一个物体在所述第二图像中各自对应的第二分割结果。

其中，本文中，任一物体在任一图像中对应的分割结果反映了所述任一图像中的像素对应于所述任一物体的概率分布情况。

可选地，所述第一分割模块12具体可以用于：响应于用户在所述第一图像中分别对所述至少一个物体触发的选择操作，确定所述至少一个物体在所述第一图像中各自对应的第一分割结果。

可选地，所述装置还包括：图像生成模块。

其中，可选地，对于所述至少一个物体中的任一物体，若所述选择操作对应于所述用户绘制包围所述任一物体的闭合曲线的行为，则所述图像生成模块用于：生成与所述闭合曲线对应的指导图像；在所述指导图像中，由所述闭合曲线围成的闭合区域的中心向所述闭合区域的边界，像素的灰度值呈现预设的变化趋势，所述闭合区域外的像素的灰度值被置为预设值。

其中，可选地，对于所述至少一个物体中的任一物体，若所述选择操作对应于所述用户在所述任一物体上绘制线段的行为，则所述图像生成模块用于：生成与所述线段对应的指导图像；在所述指导图像中，所述线段上对应的像素的灰度值为第一灰度值，其他像素的灰度值为第二灰度值。

基于此，所述第一分割模块12具体可以用于：将所述指导图像和所述第一图像输入至第一模型中，以通过所述第一模型输出所述任一物体在所述第一图像中对应的第一分割结果。

可选地，所述跟踪模块13具体可以用于：根据所述第一分割结果确定所述至少一个物体在所述第一图像中各自对应的第一图像块；跟踪所述第一图像块，以确定所述至少一个物体在所述第二图像中各自对应的第二图像块。

从而，可选地，所述第二分割模块14具体可以用于：对于所述至少一个物体中的任一物体，根据所述任一物体对应的第一分割结果对所述任一物体对应的第一图像块进行二值化处理；将二值化处理后的第一图像块和所述任一物体在所述第二图像中对应的第二图像块输入到第二模型中，以通过所述第二模型获取所述任一物体在所述第二图像中对应的第二分割结果。

当所述至少一个物体为至少两个物体时，可选地，所述装置还包括：优化处理模块，用于基于所述至少两个物体在目标图像中各自对应的分割结果，重新确定所述目标图像中的像素归属于的物体，以更新所述至少两个物体在所述目标图像中各自对应的分割结果，所述目标图像为所述第一图像和所述第二图像中的任一图像。

可选地，所述装置还包括：背景替换模块，用于根据所述至少一个物体在所述第一图像和所述第二图像中分别对应的分割结果，替换所述所述第一图像和所述第二图像的背景区域。

图13所示物体分割装置可以执行前述各实施例中提供的方法，本实施例未详细描述的部分，可参考前述实施例的相关说明，在此不再赘述。

在一个可能的设计中，上述图13所示的物体分割装置的结构可实现为一电子设备。如图14所示，该电子设备可以包括：处理器21、存储器22。其中，所述存储器22上存储有可执行代码，当所述可执行代码被所述处理器21执行时，至少使所述处理器21可以实现如前述实施例中提供的物体分割方法。在一个实施例中，通过使用该电子设备，可以实现直播场景中的背景替换。

其中，该电子设备的结构中还可以包括通信接口23，用于与其他设备或通信网络通信。

另外，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被无线路由器的处理器执行时，使所述处理器执行前述各实施例中提供的物体分割方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的各个模块可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种物体分割方法，其特征在于，包括：

获取视频中包含的第一图像和第二图像；

2.根据权利要求1所述的方法，其特征在于，所述任一物体在任一图像中对应的分割结果反映了所述任一图像中的像素对应于所述任一物体的概率分布情况。

3.根据权利要求1所述的方法，其特征在于，所述确定至少一个物体在所述第一图像中各自对应的第一分割结果，包括：

响应于用户在所述第一图像中分别对所述至少一个物体触发的选择操作，确定所述至少一个物体在所述第一图像中各自对应的第一分割结果。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

对于所述至少一个物体中的任一物体，若所述选择操作对应于所述用户绘制包围所述任一物体的闭合曲线的行为，则生成与所述闭合曲线对应的指导图像；

在所述指导图像中，由所述闭合曲线围成的闭合区域的中心向所述闭合区域的边界，像素的灰度值呈现预设的变化趋势，所述闭合区域外的像素的灰度值被置为预设值。

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

对于所述至少一个物体中的任一物体，若所述选择操作对应于所述用户在所述任一物体上绘制线段的行为，则生成与所述线段对应的指导图像；

在所述指导图像中，所述线段上对应的像素的灰度值为第一灰度值，其他像素的灰度值为第二灰度值。

6.根据权利要求4或5所述的方法，其特征在于，确定所述任一物体在所述第一图像中对应的第一分割结果，包括：

将所述指导图像和所述第一图像输入至第一模型中，以通过所述第一模型输出所述任一物体在所述第一图像中对应的第一分割结果。

7.根据权利要求1所述的方法，其特征在于，所述跟踪所述至少一个物体，以确定所述至少一个物体在所述第二图像中各自对应的图像块，包括：

根据所述第一分割结果确定所述至少一个物体在所述第一图像中各自对应的第一图像块；

跟踪所述第一图像块，以确定所述至少一个物体在所述第二图像中各自对应的第二图像块。

8.根据权利要求7所述的方法，其特征在于，所述根据所述至少一个物体各自对应的第一分割结果和图像块，确定所述至少一个物体在所述第二图像中各自对应的第二分割结果，包括：

对于所述至少一个物体中的任一物体，根据所述任一物体对应的第一分割结果对所述任一物体对应的第一图像块进行处理；

将处理后的第一图像块和所述任一物体在所述第二图像中对应的第二图像块输入到第二模型中，以通过所述第二模型获取所述任一物体在所述第二图像中对应的第二分割结果。

9.根据权利要求8所述的方法，其中，根据所述任一物体对应的第一分割结果对所述任一物体对应的第一图像块进行处理，包括：

根据所述任一物体对应的第一分割结果对所述任一物体对应的第一图像块进行二值化处理。

10.根据权利要求1所述的方法，其特征在于，所述至少一个物体为至少两个物体，所述方法还包括：

基于所述至少两个物体在目标图像中各自对应的分割结果，重新确定所述目标图像中的像素归属于的物体，以更新所述至少两个物体在所述目标图像中各自对应的分割结果，所述目标图像为所述第一图像和所述第二图像中的任一图像。

11.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述至少一个物体在所述第一图像和所述第二图像中分别对应的分割结果，替换所述第一图像和所述第二图像的背景区域。

12.一种物体分割装置，其特征在于，包括：

获取模块，用于获取视频中包含的第一图像和第二图像；

13.一种电子设备，其特征在于，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至11中任一项所述的物体分割方法。

14.一种非暂时性机器可读存储介质，其特征在于，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至11中任一项所述的物体分割方法。