CN111414860A

CN111414860A - 一种实时的人像跟踪分割方法

Info

Publication number: CN111414860A
Application number: CN202010200344.2A
Authority: CN
Inventors: 张明琦; 李云夕; 熊永春
Original assignee: Hangzhou Quwei Science & Technology Co ltd
Current assignee: Hangzhou Quwei Science & Technology Co ltd
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2020-07-14

Abstract

本发明公开了一种实时的人像跟踪分割方法。它具体包括如下步骤：(1)训练阶段用来训练人像分割模型的参数，对分割网络进行离线训练，其包括数据预处理以及模型训练两部分；(2)预测阶段将视频的图片序列帧输入到人像跟踪分割算法中，经过KCF跟踪算法得到人像跟踪框，根据人像跟踪框裁剪出人像区域，对人像区域进行预处理并输入到分割模型中，对输出结果进行后处理，得到与输入帧对应的人像分割掩膜，按视频帧顺序循环这个过程，直到得到最终的视频人像掩膜序列后结束。本发明的有益效果是：提高算法的运行速度；图片数据更容易获取及标注；提高模型的运行速度，达到移动端实时的要求。

Description

一种实时的人像跟踪分割方法

技术领域

本发明涉及图像处理相关技术领域，尤其是指一种实时的人像跟踪分割方法。

背景技术

跟踪算法和分割算法属于两个不同的技术领域。通常来讲，在一个场景中，跟踪算法主要是对一个给定的目标进行持续的跟踪，从而得到其在该场景中的位置信息。而分割算法主要是对给定的目标进行语义分割，从而得到一系列的目标掩膜。因此，如果将跟踪算法和分割算法结合在一起，其应用就会十分的广泛，比如将人像的跟踪分割算法用于短视频行业，能够为后续进行视频特效的渲染等玩法提供基础。

目前的跟踪分割算法大多是基于深度学习的方法。在数据方面，由于需要同时训练跟踪及分割网络，必须以视频作为训练数据，而视频数据的标注需要花费大量的人工时间。因此视频数据的标注成为一大难点。在模型方面，由于跟踪分割算法的复杂性，导致模型结构的复杂度增加，算法运行时间较长，无法满足实时性的需求。

发明内容

本发明是为了克服现有技术中存在上述的不足，提供了一种提高算法运行速度的实时的人像跟踪分割方法。

为了实现上述目的，本发明采用以下技术方案：

一种实时的人像跟踪分割方法，具体包括如下步骤：

(1)训练阶段用来训练人像分割模型的参数，对分割网络进行离线训练，其包括数据预处理以及模型训练两部分；

(2)预测阶段将视频的图片序列帧输入到人像跟踪分割算法中，经过KCF跟踪算法得到人像跟踪框，根据人像跟踪框裁剪出人像区域，对人像区域进行预处理并输入到分割模型中，对输出结果进行后处理，得到与输入帧对应的人像分割掩膜，按视频帧顺序循环这个过程，直到得到最终的视频人像掩膜序列后结束。

本发明采用传统的KCF跟踪算法，提高算法的运行速度；以图片作为分割网络的训练数据，相比于视频数据，图片数据更容易获取及标注；设计轻量化的分割网络，提高模型的运行速度，达到移动端实时的要求；故而本发明提高了整体算法的运行速度，使跟踪分割算法在移动端能达到实时的性能要求。

作为优选，在步骤(1)中，具体操作方法为：

(11)搜集不同的人像数据，并对人像区域进行精确标注，背景区域为0，人像区域为1，从而得到对应的二值化人像掩膜；

(12)对训练的人像数据进行数据增强处理，然后将图像的长边缩放至224，短边等比缩放，不足之处补0对齐，得到尺寸为224*224*3的RGB输入图像I_x，对相应的二值化人像掩膜进行同样的缩放操作得到训练人像掩膜I_y；

(13)采用Mobilenetv2作为分割网络的编码模块，整个编码模块对输入图像进行32倍下采样，得到特征图F；解码模块中，采用类似U-net的解码方式对特征图F进行细节的恢复，在将特征图尺寸恢复到56*56后，直接利用4倍的上采样层，得到尺寸为224*224*1的输出人像掩膜Y；

(14)对输出人像掩膜Y和训练人像掩膜I_y进行交叉熵损失函数运算和Dice损失函数运算，得到损失函数Loss；

(15)利用损失函数Loss对整个模型进行迭代，更新模型参数。

作为优选，在步骤(12)中，数据增强处理包括镜像、旋转、亮度对比度变换、仿射变换。

作为优选，在步骤(2)中，具体操作方法为：

(21)对视频进行拆帧处理，得到图片序列帧；

(22)将第一帧图片输入到KCF跟踪算法中，同时手工标记需要跟踪的人像框来初始化KCF跟踪算法，并将此作为第一帧的人像跟踪框B₁；

(23)假设当前帧的人像跟踪框为B_t，其中t表示图片帧在视频中的位置，KCF跟踪算法根据当前帧的人像跟踪框B_t，来预测下一帧的人像跟踪框B_t+1；

(24)根据步骤(23)中得到的人像跟踪框B_t，对人像区域进行自适应裁剪，得到人像区域P_t；

(25)对人像区域P_t进行预处理，将人像区域P_t的长边缩放至224，短边等比缩放，不足之处补0对齐，得到尺寸为224*224*3的RGB模型输入I_t；

(26)RGB模型输入I_t在经过步骤(1)获得的人像分割模型后得到人像掩膜输出Y_t；

(27)对人像掩膜输出Y_t进行后处理来优化结果，得到与原始图像帧对应的二值人像掩膜N_t；

(28)循环步骤(23)到步骤(27)，直到最后一帧的图像分割完成，得到所有的人像掩膜帧。

作为优选，在步骤(24)中，自适应裁剪具体为：首先判断人像跟踪框的宽高比或者高宽比，如果宽高比或者高宽比小于0.5，则扩大短边的范围，使其比例到达0.5；之后对人像跟踪框的宽高进行同等比例的外扩，得到人像区域P_t，保证整个裁剪区域中包含完整的人像。

作为优选，在步骤(27)中，对人像掩膜输出Y_t进行后处理具体为：首先对其进行二值化处理，阈值为0.5，得到二值化的人像掩膜；其次，对该人像掩膜进行联通域分析，除去误分割的区域，保留人像的最大区域；然后将该结果缩放到步骤(24)中的人像区域P_t的尺寸大小；最后根据人像区域P_t的裁剪信息，将人像掩膜周边补0，得到与原始图像帧对应的二值人像掩膜N_t。

本发明的有益效果是：提高算法的运行速度；图片数据更容易获取及标注；提高模型的运行速度，达到移动端实时的要求；提高了整体算法的运行速度，使跟踪分割算法在移动端能达到实时的性能要求。

附图说明

图1是本发明的方法流程图；

图2是本发明中分割模型的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的描述。

如图1所述的实施例中，一种实时的人像跟踪分割方法，具体包括如下步骤：

(1)训练阶段用来训练人像分割模型的参数，由于KCF跟踪算法不需要离线训练，因此该步仅对分割网络进行离线训练，其包括数据预处理以及模型训练两部分；具体操作方法为：

(12)为了提高网络的泛化性，对训练的人像数据进行数据增强处理，数据增强处理包括镜像、旋转、亮度对比度变换、仿射变换等，然后将图像的长边缩放至224，短边等比缩放，不足之处补0对齐，得到尺寸为224*224*3的RGB输入图像I_x，对相应的二值化人像掩膜进行同样的缩放操作得到训练人像掩膜I_y；

(13)采用Mobilenetv2作为分割网络的编码模块，该模块主要由一系列Mobilenetv2单元组成，整个编码模块对输入图像进行32倍下采样，得到特征图F；解码模块中，采用类似U-net的解码方式对特征图F进行细节的恢复，同时为了减小计算量，在将特征图尺寸恢复到56*56后，直接利用4倍的上采样层，得到尺寸为224*224*1的输出人像掩膜Y；

(15)利用损失函数Loss对整个模型进行迭代，更新模型参数。

(2)预测阶段将视频的图片序列帧输入到人像跟踪分割算法中，经过KCF跟踪算法得到人像跟踪框，根据人像跟踪框裁剪出人像区域，对人像区域进行预处理并输入到分割模型中，对输出结果进行后处理，得到与输入帧对应的人像分割掩膜，按视频帧顺序循环这个过程，直到得到最终的视频人像掩膜序列后结束；具体操作方法为：

(21)对视频进行拆帧处理，得到图片序列帧；

(23)假设当前帧的人像跟踪框为B_t，其中t表示图片帧在视频中的位置(t＝1，2，3…)，KCF跟踪算法根据当前帧的人像跟踪框B_t，来预测下一帧的人像跟踪框B_t+1；

(24)根据步骤(23)中得到的人像跟踪框B_t，对人像区域进行自适应裁剪，得到人像区域P_t；自适应裁剪具体为：首先判断人像跟踪框的宽高比或者高宽比，如果宽高比或者高宽比小于0.5，则扩大短边的范围，使其比例到达0.5；之后对人像跟踪框的宽高进行同等比例的外扩，得到人像区域P_t，保证整个裁剪区域中包含完整的人像；

(27)对人像掩膜输出Y_t进行后处理来优化结果，得到与原始图像帧对应的二值人像掩膜N_t；对人像掩膜输出Y_t进行后处理具体为：首先对其进行二值化处理，阈值为0.5，得到二值化的人像掩膜；其次，对该人像掩膜进行联通域分析，除去误分割的区域，保留人像的最大区域；然后将该结果缩放到步骤(24)中的人像区域P_t的尺寸大小；最后根据人像区域P_t的裁剪信息，将人像掩膜周边补0，得到与原始图像帧对应的二值人像掩膜N_t；

(28)循环步骤(23)到步骤(27)，直到最后一帧的图像分割完成，得到所有的人像掩膜帧(N₁，N₂，N₃…)。

Claims

1.一种实时的人像跟踪分割方法，其特征是，具体包括如下步骤：

2.根据权利要求1所述的一种实时的人像跟踪分割方法，其特征是，在步骤(1)中，具体操作方法为：

(15)利用损失函数Loss对整个模型进行迭代，更新模型参数。

3.根据权利要求2所述的一种实时的人像跟踪分割方法，其特征是，在步骤(12)中，数据增强处理包括镜像、旋转、亮度对比度变换、仿射变换。

4.根据权利要求1所述的一种实时的人像跟踪分割方法，其特征是，在步骤(2)中，具体操作方法为：

(21)对视频进行拆帧处理，得到图片序列帧；

5.根据权利要求4所述的一种实时的人像跟踪分割方法，其特征是，在步骤(24)中，自适应裁剪具体为：首先判断人像跟踪框的宽高比或者高宽比，如果宽高比或者高宽比小于0.5，则扩大短边的范围，使其比例到达0.5；之后对人像跟踪框的宽高进行同等比例的外扩，得到人像区域P_t，保证整个裁剪区域中包含完整的人像。

6.根据权利要求4所述的一种实时的人像跟踪分割方法，其特征是，在步骤(27)中，对人像掩膜输出Y_t进行后处理具体为：首先对其进行二值化处理，阈值为0.5，得到二值化的人像掩膜；其次，对该人像掩膜进行联通域分析，除去误分割的区域，保留人像的最大区域；然后将该结果缩放到步骤(24)中的人像区域P_t的尺寸大小；最后根据人像区域P_t的裁剪信息，将人像掩膜周边补0，得到与原始图像帧对应的二值人像掩膜N_t。