CN113408471A

CN113408471A - 一种基于多任务深度学习的无绿幕人像实时抠图算法

Info

Publication number: CN113408471A
Application number: CN202110748585.5A
Authority: CN
Inventors: 林强; 俞定国; 马小雨
Original assignee: Zhejiang University of Media and Communications
Current assignee: Zhejiang University of Media and Communications
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2021-09-17
Anticipated expiration: 2041-07-02
Also published as: US20230005160A1; CN113408471B

Abstract

本发明公开了一种基于多任务深度学习的无绿幕人像实时抠图算法，包括：原始数据集二分类调整，输入包含人像信息的图像或视频，预处理；构建人体目标检测深度学习网络，通过深度残差神经网络提取图像特征，并通过逻辑回归得到人像前景扩展候选框ROI Box和扩展候选框中的人像三元图trimap；构建人像Alpha掩码抠图深度学习网络，通过编码器共享机制有效地加速了网络的计算过程，并通过端到端的方式输出人像前景Aplha掩码预测结果实现了人像抠图效果。本方法在人像抠图过程中，成功摆脱了绿幕的使用限制，其次抠图过程中不需要提供人工标注的人像三元图，只需提供原始图像或者视频即可，给用户的使用提供了极大的便利。

Description

一种基于多任务深度学习的无绿幕人像实时抠图算法

技术领域

本发明涉及深度学习、目标检测、三元图trimap自动生成以及人像前景Aplha掩码抠图技术领域，具体涉及一种基于多任务深度学习的无绿幕人像实时抠图算法。

背景技术

近年来由于互联网信息时代飞速发展，人类日常生活中无处不在的充斥着大量数字内容。在这海量的数字内容当中，数字图像信息包括图像与视频，凭借着其传达信息直观易懂、内容形式丰富多样等优点逐渐成为信息传播的重要载体。时代的进步催生了众多的互联网内容生产机构乃至个人创作者，然而数字图像信息的编辑处理较为复杂困难，相关行业存在着一定的准入门槛，往往需要从业人员耗费大量的人力与时间成本进行内容创作。因此，人们对于高效率、易入门的内容生产手段的需求也愈加迫切。数字图像抠图技术就是数字图像信息编辑处理技术中关键的研究内容之一。

数字图像抠图技术的主要目的是分离图像或者视频当中的前景与背景画面，从而实现高精度的前景提取与虚拟背景替换工作。其中，人像抠图作为数字图像抠图的主要应用领域，早在二十世纪中旬就伴随着电影产业的制作需求应运而生。利用人像抠图技术，早期电影特效就可以提取演员的人物形象，并与虚拟的场地背景进行合成制作。经过几十年的产业科技发展，综合运用数字图像抠图的影视特效技术能够在降低内容制作成本保证参演人员安全的同时，给观众带来扣人心弦的收视体验，人像抠图技术已经成为电影电视节目制作环节中不可替代的一部分。

在早期的研究当中，数字人像抠图技术需要用户提供先验的背景知识。在传统的影视制作当中通常采用与人体皮肤以及服装色彩差异较大的纯色绿幕或者蓝幕作为拍摄场地背景，通过对比被摄主体与背景的像素差别，从而完成人像抠图工作。然而，专业绿幕背景的架设水平要求高，且对场地光照条件限定严格，一般用户很难以较低的成本使用绿幕技术。而随着数字时代快速发展，大众对于数字人像抠图技术的需求更加广泛地拓展到图片编辑和网络会议等场景当中，以满足自身对于娱乐性、隐私保护等多方面的需求。数字人像抠图技术的研究经过数十年的发展，也取得了十分瞩目的成就。然而现有算法主要存在着三类不足。首先部分研究需要提供人工交互标注的人像三元图trimap，构造三元图的工作消耗大量人力与时间。其次绝大部分研究算法耗时较长，每秒处理图像帧数较低无法实现人像的实时抠图效果。最后已有运算较快的人像抠图算法通常需要提供一张包含被摄主体与一张同一背景下不包含被摄主体的场景照片，限制了算法的使用场景。

发明内容

本发明针对现有技术的不足，针对数字图像抠图技术问题，提出了一种基于多任务深度学习的无绿幕人像实时抠图算法。

本发明提出了一种基于多任务深度学习的无绿幕人像实时抠图算法，围绕复杂自然环境下人像抠图过程中的人体目标检测、三元图生成和人像Alpha掩码抠图等关键技术，实现了在缺少专业绿幕设备条件下的无门槛实时自动人像自动抠图功能。本发明可应用于网络会议、摄影编辑等应用程序当中，为一般用户提供便捷的数字人像抠图服务。

本发明的目的是通过以下技术方案来实现：

一种基于多任务深度学习的无绿幕人像实时抠图算法，包括以下步骤：

第1步：对原始的多分类多目标检测数据集进行二分类调整，输入调整后的数据集图像或视频文件(即输入包含人像信息的图像或视频)，对图像或视频进行对应的数据预处理，得到原始输入文件的预处理数据；

第2步：采用编码器-逻辑回归(encoder-logistic)构建用于人体目标检测的深度学习网络，输入第1步得到的预处理数据，构造损失函数，训练和优化用于人体目标检测的深度学习网络，得到人体目标检测模型；

第3步：从第2步中人体目标检测模型的编码器encoder中提取特征图，进行特征拼接融合多尺度图像特征形成人像Alpha掩码抠图网络的编码器，实现人体目标检测与人像Alpha掩码抠图网络的编码器共享结构；

第4步：构建人像Alpha掩码抠图网络的解码器decoder，同第3步中的编码器共享结构形成端到端的编码器-解码器(encoder-decoder)人像Alpha掩码抠图网络结构，以包含人体信息的图像以及三元图trimap为输入，构造损失函数训练和优化人像Alpha掩码抠图网络；

第5步：向第4步训练完毕的网络，输入第1步中获取的预处理数据，通过第2步中人体目标检测模型的逻辑回归输出人像前景的候选框ROI Box和候选框中的人像trimap三元图；

第6步：将第5步的人像前景候选框ROI Box和人像trimap三元图输入至第4步中构建的人像Alpha掩码抠图网络，最终得到人像Alpha掩码预测结果。

在第1步中，所述的二分类调整是，将80个物体多分类原始数据集COCO-80修改为“人体/其他”二分类，并以此标准对数据集进行补充。通过放弃对其他物体种类识别任务，精调提高后续网络模型针对人体识别的准确度。

在第1步中，所述的数据预处理包括视频帧处理和输入图像尺寸重定：

所述的视频帧处理包括：

视频帧处理，通过ffmpeg将视频转换为帧图像，在后续工作中即可以将处理后的视频文件视为图像文件采用同样的方法进行处理；具体地，通过ffmpeg将视频转换为帧图像，在工程目录中以原始视频编号为文件夹名，全部图像帧为文件夹下图像文件的方式存储；

所述的输入图像尺寸重定包括：

输入图像尺寸重定，通过裁切、填充的方式统一不同的输入图像的尺寸大小，维持网络特征图大小与原图一致。具体地，统一不同的输入图像的尺寸大小，以原图像的最长边为基准边计算缩放系数，等比例压缩最长边至后续网络规定的输入标准，再对图像短边空缺内容进行灰色背景填充。

第2步中，输入第1步得到的预处理数据，以候选框误差、候选框置信度误差、人体二分类交叉熵误差为损失函数，训练和优化人体目标检测网络(即用于人体目标检测的深度学习网络)；

所述的用于人体目标检测的深度学习网络，通过以深度残差神经网络主体的模型预测实现；

所述的深度残差神经网络主体的模型由编码器部分和逻辑回归部分构成，具体包括：

编码器部分是一个全卷积残差神经网络。网络中使用跳层连接构成不同深度的残差块res_block，对包含人像信息的图像进行特征提取得到特征序列x。针对第1步中的所述处理后所得的图像帧

提取长度为T的特征序列

V_t表示第t个图像帧，x_t表示第t个图像帧的特征序列。

所述的特征提取包括：

利用深度学习技术进行原始图像或者视频预处理后的帧图像的认知过程，将图像转换为计算机能够识别的特征序列。

逻辑回归部分是一个对于候选框中心位置(x_i,y_i),，候选框长度宽度(w_i,h_i)、候选框置信度C_i、候选框内物体分类p_i(c),c∈classes，以及人体前景f(pixel_i)和后景b(pixel_i)二分类结果进行多尺度检测的输出结构。其中所述的classes为训练样本中所有类别，pixel_i为候选框中第i个像素点。

第3步中，分别以大、中、小三种不同尺度从第2步中人体目标检测模型的编码器encoder中提取特征图，进行特征拼接融合多尺度图像特征形成人像Alpha掩码抠图网络的编码器，实现人体目标检测与人像Alpha掩码抠图网络的编码器共享结构。

在第3步中，前向访问第2步构建的深度残差神经网络，分别获得下采样倍数为8倍、16倍、32倍的残差块res_block的输出。上述输出分别经过3*3的卷积核conv与1*1的卷积核conv，拼接形成大、中、小多尺度融合的图像特征结构作为人像Alpha掩码抠图网络的编码器，实现人体目标检测与人像Alpha掩码抠图网络的编码器共享结构。

所述的人体目标检测与人像Alpha掩码抠图网络的编码器共享结构，第3步具体包括：

3.1)前向访问全卷积深度残差神经网络，分别获得下采样倍数为8倍、16倍、32倍的残差块res_block的输出，采用步长stride为2的卷积核实现下采样工作，设定core₈,core₁₆,core₃₂为上述对应下采样过程中的卷积核，卷积核大小为x,y。输入input大小为m,n,则输出output大小为m/2,n/2，输出对应的卷积计算公式如公式(1)所示，其中fun(·)为激活函数，β为偏执量：

output_m/2,n/2＝fun(∑∑input_mn*core_xy+β) (1)

3.2)对应输出经过融合拼接形成大、中、小多尺度融合的图像特征结构作为人像Alpha掩码抠图网络的编码器，实现人体目标检测与人像Alpha掩码抠图网络的编码器共享结构。

在第4步中，所述的解码器以上采样、卷积、ELU激活函数与全连接层FC输出为主体结构，以包含人体信息的图像以及三元图trimap为输入，构造以Alpha掩码预测误差和图像合成误差二者为核心的网络损失函数，训练优化人像Alpha掩码抠图网络。

所述的上采样是用来恢复编码器中下采样后的图像特征大小。采用SeLU激活函数，其中超参数λ,α为固定常数，激活函数表达式如公式(2)所示：

在第4步中，构造人像Alpha掩码抠图网络损失函数，具体包括：

4.1)Alpha掩码预测误差，如公式(3)所示：

其中α_pre,α_gro分别为预测和真实的Alpha掩码值，ε为一极小的常数。

4.2)图像合成误差，如公式(4)所示：

其中c_pre，c_gro分别为预测和真实的Alpha合成图像，ε为一极小的常数。

4.3)综合损失函数为Alpha掩码预测误差和图像合成误差，如公式(5)所示：

Loss_overall＝ω₁Loss_αlp+ω₂Loss_com,ω₁+ω₂＝1 (5)

在第5步中，输入第1步得到的图像预处理数据至训练后的人体目标检测网络模型，通过逻辑回归后预测得到人像前景扩展候选框ROI Box和扩展候选框中的人像三元图trimap。

所述人像前景扩展候选框ROI Box在一般目标识别候选框的基础上进行边缘膨胀，避免了目标检测过程中将人体细微边缘置于候选框外的问题。所述的扩展候选框中的人像三元图由第二步损失函数中的人体二分类交叉熵误差经过腐蚀膨胀后获得。

在第5步中，所述输出的人像前景扩展候选框ROI Box和候选框中的人像trimap三元图，具体包括：

5.1)人像前景扩展候选框判断标准RIOU，对原有判断基础进行改进。为使得候选框有更强的囊括能力，避免目标检测过程中将人体细微边缘置于候选框外的问题，改进后的判断标准RIOU，如公式(7)所示：

其中,ROI_edge为能够包裹住ROI_p和ROI_g的最小外接矩形候选框，[·]为候选框面积，ROI_p表示人像前景候选框的预测值，ROI_g表示人像前景候选框的真实值；

5.2)对人体前\背景二分类结果，先采用腐蚀算法去除噪声，再通过膨胀算法产生清晰的边缘轮廓。最终得到的人像三元图trimap，如公式(8)所示：

其中前景f(pixel_i)和背景b(pixel_i)表示第i个像素pixel_i属于前景或者背景,trimap_i表示第i个像素pixel_i的alpha掩码通道值，otherwise表示像素无法确认属于前/后景的情况。

在第6步中，将第5步的原始人像前景扩展候选框ROI Box经过特征映射后，与扩展候选框中的人像三元图trimap输入至人像Alpha掩码抠图网络模型，降低卷积计算规模，加速网络计算速度。经过解码器上采样恢复图像原始分辨率后，在全连接层FC输出得到人像Alpha掩码预测结果，最终整体完成人像抠图任务。

本发明原始数据集二分类调整，输入包含人像信息的图像或视频，通过视频帧处理和输入图像尺寸重定获得预处理后的网络输入数据；构建人体目标检测深度学习网络，通过深度残差神经网络提取图像特征，并通过逻辑回归的方式得到人像前景扩展候选框ROI Box和扩展候选框中的人像三元图trimap；构建人像Alpha掩码抠图深度学习网络，通过编码器共享机制有效地加速了网络的计算过程，并通过端到端的方式输出人像前景Aplha掩码预测结果实现了人像抠图效果。本明方法在人像抠图过程中，成功摆脱了绿幕的使用限制，其次抠图过程中不需要提供人工标注的人像三元图，只需提供原始图像或者视频即可，给用户的使用提供了极大的便利。最后本发明提出的编码器共享机制加速任务计算速度，提供了高清画质下的实时人像抠图效果，满足了用户多种场景下的使用需求。

与现有技术相比，本发明具有如下优点：

本发明一种基于多任务深度学习的无绿幕人像实时抠图算法，围绕复杂自然环境下人像抠图过程中的人体目标检测、三元图生成和人像Alpha掩码抠图等关键技术，实现了在缺少专业绿幕设备条件下的无门槛实时自动人像自动抠图功能。本发明算法解决了传统数字图像抠图技术的对于设备和场地的限制，应用于网络会议、摄影编辑等应用程序当中，为一般用户提供实时、便捷的数字人像抠图服务。本发明所具有的创新性，具体体现在以下几个方面：

1)本发明创新性的提出了对于传统多分类多目标检测数据集COCO-80的修改与补充，形成了本发明独有的“人物\其他”二分类数据集。在明显降低训练样本构建难度的同时，精调提高了后续网络模型针对人体识别的准确度；

2)本发明创新性的提出了一种新的目标检测候选框判断标准RIOU，使得候选框有更强的囊括能力，避免目标检测过程中将人体细微边缘置于候选框外的问题；

3)本发明创新性的提出了人体目标检测网络与人像Alpha掩码抠图网络的编码器共享机制，大幅度减少了算法对于图像特征识别过程的耗时，实现了高清实时人像抠图。

附图说明

图1为本发明一种基于多任务深度学习的无绿幕人像实时抠图算法的网络结构示意图；

图2为本发明多分类原始数据集二分类过程示意图；

图3为本发明算法人体目标检测任务流程示意图；

图4为本发明算法人像Alpha掩码抠图任务流程示意图；

图5为本发明算法的整体流程示意图；

具体实施方式

下面结合附图对于基于多任务深度学习的无绿幕人像实时抠图算法作进一步说明。

一种基于多任务深度学习的无绿幕人像实时抠图算法，包含以下步骤：

第1步：对原始数据集进行改进，输入改进后的数据集图像或视频文件，对图像或视频进行对应的数据预处理，得到原始输入文件的预处理数据；

第1步中，原始数据集改进和数据预处理具体包括：

1.1)多分类多目标检测数据集的二分类调整与补充，二分类调整将80个物体多分类原始数据集COCO-80修改为“人体/其他”两种分类，并以此标准对数据集进行补充；

1.2)视频帧处理，通过ffmpeg将视频转换为帧图像，在后续工作中即可以将处理后的视频文件视为图像文件采用同样的方法进行处理；

1.3)输入图像尺寸重定，通过裁切、填充的方式统一不同的输入图像的尺寸大小，维持网络特征图大小与原图一致。

第2步：采用编码器-逻辑回归(encoder-logistic)构建用于人体目标检测的深度学习网络。输入第1步得到的预处理数据，构造损失函数，训练和优化人体目标检测网络；

人体目标检测深度学习网络，具体包括：

2.1)编码器部分是一个全卷积残差神经网络。网络中使用跳层连接构成不同深度的残差块res_block，对包含人像信息的图像进行特征提取得到特征序列；

2.2)构造损失函数，在一般的目标检测任务基础上增加人体二分类交叉熵误差为额外负载；

2.3)逻辑回归部分是一个对于候选框中心位置(x_i,y_i)、候选框长度宽度(w_i,h_i)、候选框置信度C_i、候选框内物体分类p_i(c),c∈classes进行多尺度检测的输出结构。其中，classes为训练样本中所有类别，具体为[class0:person,class1:others],pixel_i为候选框中第i个像素点。

第3步：融合多尺度图像特征形成人像Alpha掩码抠图网络的编码器，实现人体目标检测与人像Alpha掩码抠图网络的编码器共享结构；

人体目标检测与人像Alpha掩码抠图网络的多尺度编码器共享结构，具体包括：

3.1)前向访问全卷积深度残差神经网络，分别获得下采样倍数为8倍、16倍、32倍的残差块res_block的输出。采用步长stride为2的卷积核实现下采样工作，设定core₈,core₁₆,core₃₂为上述对应下采样过程中的卷积核，卷积核大小为x,y。输入input大小为m,n,则输出output大小为m/2,n/2，输出对应的卷积计算公式如公式(1)所示，其中fun(·)为激活函数，β为偏执量：

output_m/2,n/2＝fun(∑∑input_mn*core_xy+β) (1)

第4步：构建人像Alpha掩码抠图网络的解码器decoder，同第3步中的共享编码器组合形成端到端的编码器-解码器(encoder-decoder)人像Alpha掩码抠图网络结构。以包含人体信息的图像以及三元图trimap为输入，构造损失函数，训练和优化人像Alpha掩码抠图网络；

人像Alpha掩码抠图网络解码器，该解码器以上采样、卷积、ELU激活函数与全连接层FC输出为主体结构，具体包括：

4.1)上采样通过unsampling操作实现，以此恢复编码器中下采样后的图像特征大小；

4.2)采用SeLU激活函数，使深度学习网络中部分神经元输出置0，形成稀疏网络结构。其中SeLU激活函数的超参数λ,α为固定常数，激活函数表达式如公式(2)所示：

构造人像Alpha掩码抠图网络损失函数，具体包括：

4.3)Alpha掩码预测误差，如公式(3)所示：

其中α_pre,α_gro分别为预测和真实的Alpha掩码值，ε为一极小的常数；

4.4)图像合成误差，如公式(4)所示：

其中c_pre，c_gro分别为预测和真实的Alpha合成图像；

4.5)综合损失函数为Alpha掩码预测误差和图像合成误差，如公式(5)所示：

Loss_overall＝ω₁Loss_αlp+ω₂Loss_com,ω₁+ω₂＝1 (5)

第5步：向训练完毕的网络，输入第1步中获取的图像预处理数据，通过第2步中人体目标检测网络逻辑回归输出人像前景扩展候选框ROI Box和候选框中的人像trimap三元图；

输出的人像前景扩展候选框ROI Box和候选框中的人像trimap三元图，具体包括：

5.1)人像前景扩展候选框判断标准RIOU，对原有判断基础进行改机。为使得候选框有更强的囊括能力，避免目标检测过程中将人体细微边缘置于候选框外的问题，改进后的判断标准RIOU，如公式(7)所示：

其中,ROI_edge为能够包裹住ROI_p和ROI_g的最小外接矩形候选框，[·]为候选框面积；

其中前景f(pixel_i)和背景b(pixel_i)表示第i个像素pixel_i属于前景或者背景,trimap_i表示第i个像素pixel_i的alpha掩码通道值。

更具体地，基于多任务深度学习的无绿幕实时人像抠图算法将人像抠图分为两部分算法任务，分别为第一步的人体目标检测任务，以及第二步的人像前景Alpha掩码抠图任务，具体包括以下步骤：

在第1步中，进行数据预处理包括视频帧处理和输入图像尺寸重定：

视频帧处理包括：

通过ffmpeg将视频转换为帧图像，在工程目录中以原始视频编号为文件夹名，全部图像帧为文件夹下图像文件的方式存储，在后续工作中即可以将处理后的视频文件视为图像文件采用同样的方法进行处理；

输入图像尺寸重定包括：

统一不同的输入图像的尺寸大小，以原图像的最长边为基准边计算缩放系数，等比例压缩最长边至后续网络规定的输入标准，通过Padding方式对短边空缺内容进行灰色背景填充，维持网络特征图大小与原图一致。避免因为输入图像尺寸错误造成的网络输出值异常。

如图2所示，通过二分类调整将80个物体多分类原始数据集COCO-80修改为“人体/其他”两种分类，并以此标准对数据集进行补充。通过放弃对其他物体种类识别任务，精调提高后续网络模型针对人体识别的准确度。

如图3所示，网络整体第一部分任务的人体目标检测深度学习网络，通过以深度残差神经网络主体的模型预测实现。深度残差神经网络模型由编码器部分和逻辑回归部分构成，具体包括：

第1步：编码器部分是一个全卷积残差神经网络。网络中使用跳层连接构成不同深度的残差块res_block，对包含人像信息的图像进行特征提取得到特征序列x。针对处理后所得的图像帧

提取长度为T的特征序列

V_t表示第t个图像帧，x_t表示第t个图像帧的特征序列。

特征提取包括：

第2步：逻辑回归部分是一个对于候选框中心位置(x_i,y_i),，候选框长度宽度(w_i,h_i)、候选框置信度C_i、候选框内物体分类p_i(c),c∈classes，以及人体前景f(pixel_i)和后景b(pixel_i)二分类结果进行多尺度检测的输出结构。其中所述的classes为训练样本中所有类别，具体为[class0:person,class1:others],pixel_i为候选框中第i个像素点。

如图4所示，网络整体第二部分任务的人像Alpha掩码抠图网络由共享编码器与人像Alpha掩码抠图解码器构成，具体包括以下实施方式：

第1步：前向访问深度残差神经网络，分别获得下采样倍数为8倍、16倍、32倍的残差块res_block的输出。下采样过程为了降低池化带来的梯度负面效果，采用步长stride为2的卷积核实现。设定core₈,core₁₆,core₃₂为上述对应下采样过程中的卷积核，其通道数channel_n与对应输入input₈,input₁₆,input₃₂相等，卷积核大小为x,y。输入input大小为m,n,则输出output大小为m/2,n/2，输出对应的卷积计算公式如公式(1)所示，其中fun(·)为激活函数，β为偏执量：

output_m/2,n/2＝fun(∑∑input_mn*core_xy+β)

(1)

第2步：对应输出分别经过3*3的卷积核conv33*3扩大特征图感受野，增加了图像特征局部的上下文信息。随后经过1*1的卷积核conv1降低特征通道channel维度。融合拼接形成大、中、小多尺度融合的图像特征结构作为人像Alpha掩码抠图网络的编码器，实现人体目标检测与人像Alpha掩码抠图网络的编码器共享结构。

第3步：解码器以上采样、卷积、ELU激活函数与全连接层FC输出为主体结构。以包含人体信息的图像以及三元图trimap为输入，构造以Alpha掩码预测误差和图像合成误差二者为核心的网络损失函数，训练优化人像Alpha掩码抠图网络。

上采样通过unsampling操作实现，将输入图像特征中的某个值映射填充到输出上采样的图像特征的某片对应区域中，同时用相同的值填充上采样后空白的区域，以此恢复编码器中下采样后的图像特征大小。

采用SeLU激活函数，使深度学习网络中部分神经元输出置0，形成稀疏网络结构，有效降低抠图网络过拟合问题，同时避免了传统sigmoid激活函数在反向传播时易发生梯度消失的问题。其中SeLU激活函数的超参数λ,α为固定常数，激活函数表达式如公式(2)所示：

所述的Alpha掩码预测误差，如公式(3)所示：

所述的图像合成误差，如公式(4)所示：

最终综合损失函数为Alpha掩码预测误差和图像合成误差，如公式(5)所示：

Loss_overall＝ω₁Loss_αlp+ω₂Loss_com,ω₁+ω₂＝1

(5)

如图5所示，本发明提出的算法训练完成后，即可实时人像抠图推理过程。

第1步：输入图像预处理数据至训练后的人体目标检测网络模型，通过逻辑回归后预测得到人像前景扩展候选框ROI Box和扩展候选框中的人像三元图trimap。

一般目标识别候选框的筛选判断以图像交并比IOU为标准，如公式(6)所示,ROI_p,ROI_g分别为预测和真实的候选框：

本发明提出改进的人像前景扩展候选框判断标准RIOU，为使得候选框有更强的囊括能力，避免目标检测过程中将人体细微边缘置于候选框外的问题，改进后的判断标准RIOU，如公式(7)所示：

其中,ROI_edge为能够包裹住ROI_p和ROI_g的最小外接矩形候选框，[·]为候选框面积。

第2步：对人体前\背景二分类结果，先采用腐蚀算法去除噪声，再通过膨胀算法产生清晰的边缘轮廓。最终得到的人像三元图trimap，如公式(8)所示：

第3步：将第2步的原始人像前景扩展候选框ROI Box经过特征映射后，与扩展候选框中的人像三元图trimap输入至人像Alpha掩码抠图网络模型，降低卷积计算规模，加速网络计算速度。经过解码器上采样恢复图像原始分辨率后，在全连接层FC输出得到人像Alpha掩码预测结果α。结合原始输入图像，通过前景提取最终完成人像抠图任务，如公式(9)所示，其中I是为输入图像，F是人像前景，B是背景图像：

I＝αF+(1-α)B (9)

上述只是对本发明实例所作的说明，而并非对本发明的限制。本领域的普通技术人员应当认识到，任何对本发明所做的变换、变型都将落入本发明的保护范围。

Claims

1.一种基于多任务深度学习的无绿幕人像实时抠图算法，其特征在于，包括以下步骤：

第1步：对原始的多分类多目标检测数据集进行二分类调整，输入包含人像信息的图像或视频，对图像或视频进行对应的数据预处理，得到原始输入文件的预处理数据；

第2步：采用编码器-逻辑回归构建用于人体目标检测的深度学习网络，输入第1步得到的预处理数据，构造损失函数，训练和优化用于人体目标检测的深度学习网络，得到人体目标检测模型；

第3步：从第2步中人体目标检测模型的编码器中提取特征图，进行特征拼接融合多尺度图像特征形成人像Alpha掩码抠图网络的编码器，实现人体目标检测与人像Alpha掩码抠图网络的编码器共享结构；

第4步：构建人像Alpha掩码抠图网络的解码器，同第3步中的编码器共享结构形成端到端的编码器-解码器人像Alpha掩码抠图网络结构，以包含人体信息的图像以及三元图trimap为输入，构造损失函数训练和优化人像Alpha掩码抠图网络；

第5步：向第4步训练完毕的网络，输入第1步中获取的预处理数据，通过第2步中人体目标检测模型的逻辑回归输出人像前景的候选框ROIBox和候选框中的人像trimap三元图；

2.根据权利要求1所述的基于多任务深度学习的无绿幕人像实时抠图算法，其特征在于，第1步中，所述的数据预处理包括视频帧处理和输入图像尺寸重定。

3.根据权利要求1所述的基于多任务深度学习的无绿幕人像实时抠图算法，其特征在于，第2步中，所述的用于人体目标检测的深度学习网络，通过以深度残差神经网络主体的模型预测实现。

4.根据权利要求1所述的基于多任务深度学习的无绿幕人像实时抠图算法，其特征在于，第4步中，所述的解码器以上采样、卷积、ELU激活函数与全连接层FC输出为主体结构。

5.根据权利要求4所述的基于多任务深度学习的无绿幕人像实时抠图算法，其特征在于，所述的上采样用来恢复编码器中下采样后的图像特征大小，采用SeLU激活函数，其中超参数λ,α为固定常数，激活函数表达式如公式(2)所示：

6.根据权利要求1所述的基于多任务深度学习的无绿幕人像实时抠图算法，其特征在于，在第4步中，构造损失函数训练和优化人像Alpha掩码抠图网络，具体包括：

4.1)Alpha掩码预测误差，如公式(3)所示：

其中，Loss_αlp表示Alpha掩码预测误差，α_pre,α_gro分别为预测和真实的Alpha掩码值，ε为一极小的常数；

4.2)图像合成误差，如公式(4)所示：

其中，Loss_com表示图像合成误差，c_pre，c_gro分别为预测和真实的Alpha合成图像，ε为一极小的常数；

Loss_overall＝ω₁Loss_αlp+ω₂Loss_com,ω₁+ω₂＝1 (5)；

其中，Loss_overall表示综合损失函数，ω₁，ω₂分别表示Alpha掩码预测误差Loss_αlp和图像合成误差Loss_αlp的权重值。

7.根据权利要求1所述的基于多任务深度学习的无绿幕人像实时抠图算法，其特征在于，在第5步中，输出人像前景扩展候选框ROIBox和候选框中的人像trimap三元图，具体包括：

5.1)人像前景扩展候选框判断标准RIOU，对原有判断基础进行改进，改进后的判断标准RIOU，如公式(7)所示：

5.2)对人体前\背景二分类结果，先采用腐蚀算法去除噪声，再通过膨胀算法产生清晰的边缘轮廓，最终得到的人像三元图trimap，如公式(8)所示：

其中，前景f(pixel_i)表示第i个像素pixel_i属于前景，背景b(pixel_i)表示第i个像素pixel_i属于背景，otherwise表示像素无法确认属于前/后景的情况，trimap_i表示第i个像素pixel_i的alpha掩码通道值。