CN117097853A

CN117097853A - 一种基于深度学习的实时抠像方法及***

Info

Publication number: CN117097853A
Application number: CN202311031197.0A
Authority: CN
Inventors: 吴呈瑜; 秦江山; 占敖
Original assignee: Zhejiang Sci Tech University ZSTU
Current assignee: Zhejiang Sci Tech University ZSTU
Priority date: 2023-08-16
Filing date: 2023-08-16
Publication date: 2023-11-21

Abstract

本发明提供了一种基于深度学习的实时抠像方法及***，方法包括步骤：S1：获取抠像数据集；S2：构建基于ViT与CNN混合结构的抠像网络模型；S3：利用数据集对模型进行训练，并通过损失函数进行校正，得到训练完成的模型；S4：将待抠像的图像文件或摄像头得到的视频帧，和来自上一时刻的循环特征图输入训练完成的模型，实时获取抠像alpha图和本时刻的循环特征图。本发明针对复杂背景下抠像结果不稳定的问题，融入了自注意力机制来强化全局信息提取能力，减少前景和背景像素被语义误判的可能，保证了抠像结果的精度。同时，本发明可实时地处理视频数据，无需额外约束，使用成本低，可用于多种非专业场景。

Description

一种基于深度学习的实时抠像方法及***

技术领域

本发明属于图像处理技术领域，尤其涉及计算机视觉技术，具体涉及一种基于深度学习的实时抠像方法及***。

背景技术

抠像是一种计算机视觉领域的热门技术，它可以从图片或视频中有效地分离出人们感兴趣的前景物体，广泛应用于电视直播、电影特效、广告宣传等多种商业领域。该技术的数学模型如公式(1)所示：

I＝αF+(1-α)B (1)

其中，I为给定的图片或视频帧，F为前景图像、B为背景图像，α为alpha图，即前景图像像素的不透明度。在仅有已知量I的情况下，无法通过该公式得出另外三个未知量的值，因此该问题是欠约束问题。

传统抠像方法基于采样和传播，通过假设图像中不同像素的颜色具有一定的函数关系，人为地对公式(1)添加约束。这类方法没有充分利用图像的上下文信息，在前景像素和背景像素颜色相似时，容易发生误判，抠像的精度较低，结果不稳定。

由于传统方法存在各种缺陷，目前自然背景抠像主要使用两种基于深度学习的方法：基于卷积神经网络(Convolution Neural Network,CNN)的抠像方法、基于VisionTransformer(ViT)的抠像方法。其中，基于CNN的方法通过使用卷积层、池化层和激活层构造卷积神经网络模型，是深度学习中较为传统的方法；基于ViT的方法使用ViT模块来构造神经网络模型，该方法构造的模型可以是纯ViT结构，也可以是CNN和ViT的混合结构。ViT拥有自注意力机制，可以捕捉图像中长程像素点的关联性，对图像全局信息进行建模，相比CNN具有更高的精度，是计算机视觉领域的新兴技术。

经过对现有文献的检索后发现如下相关文献：

稳定视频抠像(Robust Video Matting,RVM)方法(Lin Shanchuan,Yang Linjie,Saleemi I,et al.“Robust High-Resolution Video Matting with Temporal Guidance(基于时间引导的高分辨率稳定视频抠像)”.Proc of IEEE/CVF Winter Conference onApplications of Computer Vision.Waikoloa,HI,USA:IEEE Press,2022:3132-3141)，使用MobileNet为主干网络实现自然背景的实时抠像。该方法实时性高，在简单背景下抠像精度较好。但由于该方法仍使用传统CNN结构，全局信息的处理能力较弱，因此在复杂背景下容易混淆前景和背景像素。

VMFormer(Video Matting with Transformer)方法(Li Jiachen,Goel V,Ohanyan M,et al.

“VMFormer:End-to-End Video Matting with Transformer(基于Transformer的端到端视频抠像)”,https://arxiv.org/abs/2208.12801)，改进了以往CNN结构处理图像的不足之处，引入Vision Transformer实现图像的特征提取和特征图解码。该方法在编码和解码器上都大量使用了普通的Vision Transformer结构，导致其所构造的网络模型参数较多，达到了RVM方法的约2倍。实验表明，VMFormer方法所提出的网络模型在NvidiaGeForce RTX 4060GPU上仅能以每秒3帧的速度处理1080p图像，难以实现图像的实时处理。目前，此方法仅适合处理现成的视频文件，无法应用于直播等领域，在使用场景上受到一定限制。

发明内容

针对自然背景的实时抠像任务，现有CNN模型处理复杂背景时精度不佳的问题，本发明提出一种利用ViT模型中自注意力机制来强化全局关系建模，减少图像像素语义识别错误的频率，进而在保证实时性的基础上实现高分辨率和高精度视频抠像的技术方案。

为解决上述问题，本发明采用的技术方案如下：

一种基于深度学习的实时抠像方法，包括以下步骤：

S1：获取抠像数据集；

S2：构建基于ViT与CNN混合结构的抠像网络模型；

S3：利用数据集对模型进行训练，并通过损失函数进行校正，得到训练完成的模型；

S4：将待抠像的图像文件或摄像头得到的视频帧，和来自上一时刻的循环特征图输入训练完成的模型，实时获取抠像alpha图和本时刻的循环特征图。

优选的，在步骤S1中，所述的抠像数据集具体包含视频抠像前景数据集、视频背景数据集、图片抠像前景数据集、图片背景数据集和人像分割数据集，均为360p、720p或1080p的图像。其中，抠像前景数据集包含前景图像和对应的alpha图。

优选的，在步骤S2中，构建基于ViT与CNN混合结构的抠像网络模型时，采用以下方法：

S2.1：构建原始图像重采样子网络，将较高分辨率的原始图像进行下采样后再送入编码器子网络处理，并将解码器网络生成的低分辨率alpha图恢复为原始分辨率alpha图；

S2.2：构建基于ViT和CNN混合结构的特征提取编码器子网络，从下采样后的原始图像中提取多层次特征；

S2.3：构建瓶颈块子网络，衔接编码器和解码器子网络；

S2.4：构建基于注意力和内容感知的循环解码器子网络，对特征图进行时空建模，并生成低分辨率的alpha图。

优选的，在步骤S2.1中，构建原始图像重采样子网络，具体包含以下步骤：

S2.1.1：将高分辨率的原始图像F1.1通过平均池化操作进行下采样，得到低分辨率原始图像F1.2，将其送入步骤S2.2所述的编码器子网络；

S2.1.2：将步骤S2.4所述的编码器子网络生成的低分辨率alpha图F1.3与步骤S2.1.1所述的高分辨率原始图像F1.1拼接，输入到深度导向滤波器(Deep Guided Filter,DGF)中，从而恢复出原始分辨率的alpha图F1.4。

优选的，在步骤S2.2中，构建基于ViT和CNN混合结构的特征提取编码器子网络，具体是：

将3个Mobile ViT V3模块嵌入到MobileNet V3 Large的17个倒残差块中，组成编码器子网络，并从该子网络中引出3个跳跃连接特征图F2.1、F2.2、F2.3。编码器网络的末端输出特征图F2.4。

优选的，在步骤S2.3中，构建瓶颈块子网络，具体是：

使用卷积块注意力模块(Convolutional Block Attention Module,CBAM)、LR-ASPP、Conv-GRU和内容感知的特征重构(Content-Aware Reassembly of FEatures,CARAFE)上采样算子依次连接组成瓶颈块子网络。该子网络接受特征图F2.4作为输入，并输出特征图F3。

优选的，在步骤S2.4中，构建基于注意力和内容感知的循环解码器子网络，具体模块结构是：

构造3个编码器模块D1、D2、D3，每个模块的构造方法为：使用卷积层、标准化层、激活层、Conv-GRU和CARAFE上采样算子前后连接，组合成解码器模块。

优选的，在步骤S2.4中，构建基于注意力和内容感知的循环解码器子网络，具体步骤是：

S2.4.1：将低分辨率原始图像F1.2经过8倍下采样得到图F4.1.1，将跳跃连接的特征图F2.1经过一层CBAM得到特征图F4.1.2，然后将F4.1.1、F4.1.2和F3送入解码器模块D1，得到输出特征图F4.1.3；

S2.4.2：将低分辨率原始图像F1.2经过4倍下采样得到图F4.2.1，将跳跃连接的特征图F2.2经过一层CBAM得到特征图F4.2.2，然后将F4.2.1、F4.2.2和F4.1.3送入解码器模块D2，得到输出特征图F4.2.3；

S2.4.3：将低分辨率原始图像F1.2经过2倍下采样得到图F4.3.1，将跳跃连接的特征图F2.3经过一层CBAM得到特征图F4.3.2，然后将F4.3.1、F4.3.2和F4.2.3送入解码器模块D3，得到输出特征图F4.3.3；

S2.4.4：将低分辨率原始图像F1.2和特征图F4.3.3拼接，送入两组卷积层、标准化层、激活层构成的模块处理，得到低分辨率alpha图F1.3。

优选的，在步骤S3中，使用的损失函数具体是：L1损失、拉普拉斯金字塔损失和时间连贯性损失三者之和，计算公式如下：

其中，α_t是t时刻真实的alpha图，为t时刻预测的alpha图，/>代表alpha图在拉普拉斯金字塔第i层的值。

优选的，在步骤S4中，模型的输入具体是：原始图像F1.1和来自上一时刻Conv-GRU层输出的循环特征图T1.1、T1.2、T1.3，其中，循环特征图是可选输入，在处理单张图片时非必要。

优选的，在步骤S4中，模型的输出具体是：预测的alpha图F1.4和本时刻Conv-GRU层输出的循环特征图T2.1、T2.2、T2.3。

本发明还公开了一种基于深度学习的实时抠像***，用于执行上述方法，其包括以下模块：

数据集获取模块：获取抠像数据集，包含视频抠像前景数据集、视频背景数据集、图片抠像前景数据集、图片背景数据集和人像分割数据集；

网络模型构建模块：构建基于ViT与CNN混合结构的抠像网络模型；

模型训练模块：利用数据集对抠像网络模型进行训练，并通过损失函数进行校正，得到训练完成的模型；

抠像alpha图获取模块：将待抠像的图像文件或摄像头得到的视频帧，和来自上一时刻的循环特征图输入训练完成的模型，实时获取抠像alpha图和本时刻的循环特征图。

本发明针对复杂背景下抠像结果不稳定的问题，融入了自注意力机制来强化全局信息提取能力，减少前景和背景像素被语义误判的可能，提高了抠像结果的精度；同时，本发明可实时地处理视频数据，无需额外约束，使用成本低，可用于多种非专业场景。

附图说明

下面结合附图和实施例对本发明作进一步的说明：

图1为本发明优选实施例一种基于深度学习的实时抠像方法的流程图；

图2为本发明的网络框架；

图3为本发明的编码器子网络结构图；

图4为本发明的解码器子网络结构图；

图5为本发明优选实施例一种基于深度学习的实时抠像***框图。

具体实施方式

下面结合附图对本发明优选实施例做详细说明。

本发明针对自然背景的实时抠像任务，普通CNN模型处理复杂背景时精度不佳的问题，提出一种利用ViT模型中自注意力机制来强化全局关系建模，减少图像像素语义识别错误的频率，进而在保证实时性的基础上实现高分辨率和高精度视频抠像的技术方案。

如图1-4所示，本实施例一种基于深度学习的实时抠像方法，具体包括如下步骤：

S1：获取抠像数据集，包含前景、前景的alpha图和背景，并将数据集划分为训练集、验证集和测试集；

S2：构建基于ViT与CNN混合结构的抠像网络模型；

S3：利用数据集对步骤S2的模型进行训练，并通过损失函数进行校正，得到训练完成的模型；

各步骤具体介绍如下。

在步骤S1中，图片和视频抠像的前景数据集由前景图片和对应的真实alpha图组成。本实施例采用的视频抠像数据集为Video Matte 240K；图片抠像数据集为AIM-500、Adobe Image Matting Datase、Distinctions-646、PPM-100以及P3M-10K；背景数据集为DVM、Indoor CVPR 09；人像分割数据集为COCO、Supervisely Person Dataset和YoutubeVIS2021。

由于ViT结构较依赖数据集的数据增强来突破没有归纳偏置特性的限制，本实施例对图像进行的数据增强操作主要有以下几种：

(1)旋转：将图像按自身的中心进行90度、180度或270度的旋转；

(2)平移：使图像前景平移，偏离原本的位置；

(3)拉伸：将图像以一定角度倾斜拉伸；

(4)缩放：将图像的前景以随机倍数缩小或放大；

(5)裁剪：将图像前景裁剪掉一部分；

(6)变色：将图像由原始色彩转变为灰度图；

(7)噪点：向图像随机地添加密度不一的噪点；

(8)截断：针对视频抠像数据集，将完整的视频片段以随机时长裁剪掉一部分；

(9)倒放：针对视频抠像数据集，颠倒视频帧序列的顺序进行训练；

(10)抽帧：针对视频抠像数据集，在一段视频片段中，每隔一定的间隔删除一个视频帧。

在步骤S2中，构建基于ViT与CNN混合结构的抠像网络模型，具体还包括以下子步骤：

S2.3：构建瓶颈块子网络，衔接编码器和解码器子网络；

在步骤S2.1中，构建原始图像重采样子网络的作用是更快地处理高分辨率图像，若对实时性没有要求或是处理图像的分辨率较低，则该子网络非必需。

在步骤S2.1中，构建原始图像重采样子网络，具体包含以下子步骤：

在步骤S2.2中，构建基于ViT和CNN混合结构的特征提取编码器子网络，具体是：将3个Mobile ViT V3模块嵌入到MobileNet V3 Large的17个倒残差块中，组成编码器子网络。

具体的，在步骤S2.2中，采用MobileNet V3 Large的17个倒残差块组成的结构，在该结构的第4、第6和第9个倒残差块的后面嵌入Mobile ViT V3模块，形成混合结构。此外，在第2个倒残差块、第1个Mobile ViT块和第2个Mobile ViT块的位置引出3个跳跃连接特征图F2.1、F2.2、F2.3。编码器接受下采样原始图像F1.2作为输入，并输出特征图F2.4。

在步骤S2.3中，构建瓶颈块子网络，方法是：使用CBAM、LR-ASPP、Conv-GRU和CARAFE上采样算子依次连接组成瓶颈块子网络。

具体的，在步骤S2.3中，瓶颈块子网络接受特征图F2.4作为输入，输出特征图F3。此外，就该结构中的Conv-GRU层而言，其接受上一时刻的循环特征图T1.1作为约束输入，并输出一个本时刻的循环特征图T2.1，用作下一时刻其本身的约束输入。

在步骤S2.4中，构建基于注意力和内容感知的循环解码器子网络，具体是：共构造3个编码器模块D1、D2、D3，并将三者前后连接，在末端添加两组卷积层、标准化层、激活层构成的模块，形成解码器子网络。

具体的，在步骤S2.4中，构建基于注意力和内容感知的循环解码器子网络，步骤如下：

具体的，在步骤S2.4中，对于解码器模块D1、D2、D3中的每个Conv-GRU层，分别接受来自上一时刻的循环特征图T1.2、T1.3、T1.4作为约束输入，并输出本时刻的循环特征图T2.2、T2.3、T2.4，用于下一时刻对应位置的Conv-GRU层的约束输入。

表1消融实验

消融实验共计进行3次。其中，消融模型1消去了编码器中的Mobile ViT模块，消融模型2不仅消去了Mobile ViT，还消去了解码器中的CBAM和CARAFE算子。结果表明，不论是编码器中的Mobile ViT模块还是解码器中的CBAM和CARAFE算子，都对网络模型的预测alpha图精度产生了显著影响，模型机制越完整，抠像精度越高。

在步骤S3中，利用数据集对模型进行训练，具体是：先对720p视频抠像数据集进行训练，再对1080p视频抠像数据集进行训练，最后对图片抠像数据集进行训练。其中，人像分割训练穿插在上述的训练步骤中，每隔若干次抠像训练，就进行一次人像分割训练。

具体的，在步骤S3中，使用损失函数对训练进行校正。所使用的损失函数为L1损失、拉普拉斯金字塔损失和时间连贯性损失三者之和，计算公式如下：

在步骤S4中，模型的输入具体是：原始图像F1.1和来自上一时刻Conv-GRU层输出的循环特征图T1.1、T1.2、T1.3、T1.4，其中，循环特征图是可选输入，在处理单张图片时非必要。

在步骤S4中，模型的输出具体是：预测的alpha图F1.4和本时刻Conv-GRU层输出的循环特征图T2.1、T2.2、T2.3、T2.4。

该模型充分利用了自注意力机制对图像特征的全局提取能力，以及内容感知机制对模型整体精度的提升，解决了传统CNN网络对长程像素点关系不敏感的缺陷，能够准确区分复杂背景下前景和背景像素的语义；解码器使用注意力和内容感知机制，提升了重建图像的精度，使细节更加清晰；本发明还通过深度导向滤波器提高了处理高分辨率图像的速度。在对实时性和精度都有要求的抠像任务上，本发明具有较好的应用价值。

如图5所示，本实施例公开了一种基于深度学习的实时抠像***，用于执行上述方法实施例，其包括以下模块：

本实施例其他内容可参考上述方法实施例。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.一种基于深度学习的实时抠像方法，其特征在于，包括以下步骤：

S1：获取抠像数据集；

S2：构建基于ViT与CNN混合结构的抠像网络模型；

2.根据权利要求1所述的方法，其特征在于，步骤S1中的数据集包含视频抠像前景数据集、视频背景数据集、图片背景数据集、图片抠像数据集和人像分割数据集。

3.根据权利要求1所述的方法，其特征在于，步骤S2中，构建基于ViT与CNN混合结构的抠像网络模型，具体如下：

S2.3：构建瓶颈块子网络，衔接编码器和解码器子网络；

4.根据权利要求3所述的方法，其特征在于，在步骤S2.1中，构建原始图像重采样子网络，具体包含以下步骤：

S2.1.1：将高分辨率的原始图像F1.1通过平均池化操作进行下采样，得到低分辨率原始图像F1.2，送入步骤S2.2所述的编码器子网络；

S2.1.2：将步骤S2.4所述的编码器子网络生成的低分辨率alpha图F1.3与步骤S2.1.1所述的高分辨率原始图像F1.1拼接，输入到深度导向滤波器中，从而恢复出原始分辨率的alpha图F1.4。

5.根据权利要求3所述的方法，其特征在于，在步骤S2.2中，构建基于ViT和CNN混合结构的特征提取编码器子网络，具体如下：将3个Mobile ViT V3模块分别嵌入到MobileNetV3 Large的第4、第6和第9个倒残差块后方，组成编码器子网络，并从该子网络的第2个倒残差块、第1个Mobile ViT块和第2个Mobile ViT块的位置引出3个跳跃连接特征图F2.1、F2.2、F2.3；编码器网络的末端输出特征图F2.4。

6.根据权利要求3所述的方法，其特征在于，在步骤S2.3中，构建瓶颈块子网络，具体是：使用卷积块注意力模块、LR-ASPP、Conv-GRU和内容感知的特征重构上采样算子依次连接组成瓶颈块子网络；该子网络接受特征图F2.4作为输入，并输出特征图F3。

7.根据权利要求3-6任一项所述的方法，其特征在于，在步骤S2.4中，构建基于注意力和内容感知的循环解码器子网络，具体是：使用卷积层、标准化层、激活层、Conv-GRU和CARAFE上采样算子前后连接，组成编码器模块，构造3个编码器模块D1、D2、D3；

和/或，在步骤S2.4中，构建基于注意力和内容感知的循环解码器子网络，具体步骤如下：

8.根据权利要求1-6任一项所述的方法，其特征在于，步骤S3中，损失函数具体是：L1损失、拉普拉斯金字塔损失和时间连贯性损失三者之和，计算公式如下：

9.根据权利要求1-6任一项所述的方法，其特征在于，步骤S4中，模型输入的内容具体是：待抠像的图像文件或摄像头得到的视频帧F1.1和来自上一时刻Conv-GRU层输出的循环特征图T1.1、T1.2、T1.3、T1.4，若本时刻是起始时刻，则无需输入循环特征图；

和/或，步骤S4中，训练完成的模型输出的内容具体是：预测的alpha图F1.4和本时刻Conv-GRU层输出的循环特征图T2.1、T2.2、T2.3、T2.4。

10.一种基于深度学习的实时抠像***，用于执行如权利要求1-9任一项所述方法，其特征在于，包括以下模块：

数据集获取模块：获取抠像数据集；