CN111462161A

CN111462161A - 一种实时视频人像提取的***、方法、存储介质和设备

Info

Publication number: CN111462161A
Application number: CN202010242426.3A
Authority: CN
Inventors: 何东超
Original assignee: Xiamen Yealink Network Technology Co Ltd
Current assignee: Xiamen Yealink Network Technology Co Ltd
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-07-28
Anticipated expiration: 2040-03-31
Also published as: CN111462161B

Abstract

本发明公开了一种实时视频人像提取的***、方法、存储介质和设备，属于图像处理技术领域。本发明首先将视频图像输入训练好的卷积神经网络模型中进行特征提取，输出视频图像的概率值图；所述的卷积神经网络包括编码网络和与编码网络连接的解码网络，所述编码网络利用标准卷积、深度可分离卷积和空洞卷积对图像进行特征提取；所述解码网络利用双线性差值模块与标准卷积层对图像特征进行解码；采用抠图算法，将提取出图像中的人像。本发明的卷积神经网络模型的参数较少，使得卷积神经网络模型具有更快的运算速度，能够更加快速地对视频图像进行实施人像提取，克服了现有技术人像提取速度慢的问题。

Description

一种实时视频人像提取的***、方法、存储介质和设备

技术领域

本发明属于图像处理技术领域，具体涉及一种实时视频人像提取的***、方法、存储介质和设备。

背景技术

人像提取是指在图像或视频帧中精准地取出人像，随着机器视觉和图像处理技术的迅速发展，人像提取在众多领域得到了广泛应用，例如影视制作、视频监控等。目前，人像提取主要采用两类方法，一类是通过语义分割算法，对每个像素点进行类别判定，从而提取出人像区域；另一类是采用抠图的思想，通过对每个像素进行判定，根据概率值来判断该像素点是否属于人像区域，从而将人像区域提取出来。现有技术中，上述的两类方法多存在着资源消耗大，计算速度慢等缺点，因此，在实际应用中，多需要性能优良的计算机硬件设备作为辅助，才能快速地将人像提取出来。并且，目前很多的方法或算法，多用于从静态的图像中将人像提取出来，相对来讲，对于提取的速度要求相对较低。然而，目前，很多领域需要能够从动态的视频中快速将人像提取出来，因此，在保持高精度的同时，对于人像提取技术的计算速度提出了更高的要求。

申请号为201811052988.0的中国专利公开了一种自动抠图***，该***主体检测模块、主体分割模块、抠图模块组成，并采用Encoder/Decoder(编码-解码)结构的全卷积深度神经网络来进行分割和抠图。该***虽然能够具有较高的人像提取精度，但是，需要对图像进行预处理，然后进行人像提取，计算量比较大，比较耗时，并且对于计算机等硬件设备的要求较高，因此，对于照片处理等这类静态的图像，比较适用，但是对于从视频图像中进行人像提取，很难满足提取速度的要求，从而影响视频图像提取效果。

发明内容

技术问题：本发明提供一种实时视频人像提取的***、方法、存储介质和设备，利用卷积神经网络模型输出概率值图，并利用抠图算法提取人像，能够快速地将人像从视频图像中实时提取出来。

技术方案：本发明的实时视频人像提取的***，包括：

图像采集模块，用于采集实时视频图像；

图像处理模块，用于对视频图像进行实施人像提取；

所述图像处理模块包括前处理模块和后处理模块，所述前处理模块利用卷积神经网络模型络模型对视频图像进行编码和解码，对视频图像进行特征提取，并输出视频图像的概率值图；所述后处理模块采用抠图算法，将输出的概率值图与输入的视频图像的每个像素点相乘得到人像区域，提取出图像中的人像；

所述的卷积神经网络包括编码网络和与编码网络连接的解码网络，所述编码网络包括依次连接的一个标准编码模块和若干个通用编码模块；通用编码模块利用标准卷积、深度可分离卷积和空洞卷积对图像进行特征提取；所述解码网络利用双线性差值模块与标准卷积层对图像特征进行解码。

进一步地，所述卷积神经网络模型结构：

编码网络包括依次连接的标准编码模块M1、第一通用编码模块GM1、第二通用编码模块GM2、第三通用编码模块GM3、第四通用编码模块GM4、第五通用编码模块GM5、第六通用编码模块GM6、第七通用编码模块GM7；

解码网络：包括第一双线性差值模块UP1、第二双线性差值模块UP2、第三双线性差值模块UP3、第一标准卷积层C1、第二标准卷积层C2，所述第一双线性差值模块UP1、第二双线性差值模块UP2、第三双线性差值模块UP3依次连接；

所述第七通用编码模块GM7与第一双线性差值模块UP1连接，第七通用编码模块GM7的输出作为第一双线性差值模块UP1的输入；

所述第一标准卷积层C1分别与第三通用编码模块GM3和第二双线性差值模块UP2连接，第三通用编码模块GM3的输出作为第一标准卷积层C1的输入，第一标准卷积层C1的输出与第一双线性差值模块UP1的输出进行特征融合后作为第二双线性差值模块UP2的输入；

所述第二标准卷积层C2分别与第一通用编码模块GM1和第三双线性差值模块UP3连接，第一通用编码模块GM1的输出作为第二标准卷积层C2的输入，第二标准卷积层C2的输出与第二双线性差值模块UP2的输出进行特征融合后作为第三双线性差值模块UP3的输入；

还包括与第三双线性差值模块UP3依次连接一个标准卷积层C3和softmax层，从解码网络输出的图像经标准卷积层C3修改通道数，然后经softmax层进行概率判断，输出概率值图。

进一步地，所述通用编码模块包括并联的至少两个子编码模块，所述至少两个子编码模块的输出采用concat层融合连接，concat层连接一个标准卷积层C4进行图像输出；

每个子编码模块包括依次连接的标准卷积层、深度可分离卷积层、空洞卷积层。

进一步地，所述通用编码模块包括两个子编码模块，分别为第一子编码模块和第二子编码模块，所述第一子编码模块包括依次连接的标准卷积层C11、深度可分离卷积层DW11、空洞卷积层D11；

所述第二子编码模块包括依次连接的标准卷积层C12、深度可分离卷积层DW12、空洞卷积层D12。

进一步地，所述卷积神经网络各模块的参数如下：

标准编码模块M1：包括一个标准卷积层，卷积核大小为3×3，步长为2，通道数为16；

第一通用编码模块GM1：标准卷积层C11和C12的卷积核大小为均为1×1，深度可分离卷积层DW11和DW12的步长均为2，空洞卷积层D11和D12的空洞率分别为1和2，标准卷积层C4的通道数为24；

第二通用编码模块GM2：标准卷积层C11和C12的卷积核大小为均为1×1，深度可分离卷积层DW11和DW12的步长为1，空洞卷积层D11和D12的空洞率分别为1和2，标准卷积层C4的通道数为40；

第三通用编码模块GM3：标准卷积层C11和C12的卷积核大小为均为1×1，深度可分离卷积层DW11和DW12的步长为2，空洞卷积层D11和D12的空洞率分别为1和2，标准卷积层C4的通道数为80；

第四通用编码模块GM4：标准卷积层C11和C12的卷积核大小为均为1×1，深度可分离卷积层DW11和DW12的步长为1，空洞卷积层D11和D12的空洞率分别为1和2，标准卷积层C4的通道数为80；

第五通用编码模块GM5：标准卷积层C11和C12的卷积核大小为均为1×1，深度可分离卷积层DW11和DW12的步长为1，空洞卷积层D11和D12的空洞率分别为1和2，标准卷积层C4的通道数为80；

第六通用编码模块GM6：标准卷积层C11和C12的卷积核大小为均为1×1，深度可分离卷积层DW11和DW12的步长为2，空洞卷积层D11和D12的空洞率分别为1和2，标准卷积层C4的通道数为120；

第七通用编码模块GM7：标准卷积层C11和C12的卷积核大小为均为1×1，深度可分离卷积层DW11和DW12的步长为1，空洞卷积层D11和D12的空洞率分别为1和2，标准卷积层C4的通道数为120；

第一双线性差值模块UP1采用2倍双线性差值；第二双线性差值模块UP2采用4倍双线性差值；第三双线性差值模块UP3采用2倍双线性差值；

标准卷积层C1的卷积核大小为3×3，步长为1，通道数为80；

标准卷积层C2的卷积核大小为3×3，步长为1，通道数为40；

标准卷积层C3的卷积核大小为1×1，通道数为2。

本发明的实时视频人像提取的方法，利用所述的实时视频人像提取的***进行实时视频人像提取，包括：

利用图像采集模块，采集实时视频图像；

将视频图像输入到图像处理模块中，利用卷积神经网络进行神经网络推理，视频图像首先进入前处理模块，在前处理模块中依次通过编码网络的标准编码模块和若干个通用编码模块，进行编码，完成特征提取，然后进入解码网络，利用双线性差值模块与标准卷积层对图像特征进行解码，输出概率值图；然后进入后处理模块，采用抠图算法，将输出的概率值图与输入的视频图像的每个像素点相乘得到人像区域，提取出图像中的人像。

进一步地，在利用卷积神经网络模型进行神经网络推理前，对所述卷积神经网络模型进行训练，训练过程为：

S1：采用COCO数据集，对COCO数据集进行清洗，筛选出COCO数据集中若干包含人像的图像样本构建样本数据集，并将样本数据集中图像样本的RGB通道值；

S2：对步骤S1建立的样本数据集中的图像样本进行预处理，将图像样本归一化，并对图像样本进行增广，包括随机旋转、随机增加或减少亮度、随机水平翻转及剪裁；

S3：将经过步骤S2处理后的样本数据集输入卷积神经网络模型中对模型进行训练，采用初始学习率为0.0001，采用Adam优化器，并采用softmax函数作为损失函数。并将训练好的模型权值文件保存，用于卷积神经网络模型的部署。

进一步地，所述步骤S2中，对图像样本进行增广时，随机旋转15°、亮度随机增加或减少50％。

本发明的存储介质，存储所述的实时视频人像提取的***的计算机程序指令，以及所述的实时视频人像提取的方法的计算机程序指令。

本发明的设备，采用所述的实时视频人像提取的***进行实时视频人像提取。

有益效果：本发明与现有技术相比，具有以下优点：

(1)本发明采用卷积神经网络模型，对视频图像进行神经网络推理，输出概率值图，然后采用抠图算法，将输出的概率值图与输入的视频图像的每个像素点相乘得到人像区域，提取出图像中的人像。本发明的卷积神经网络模型，采用编码-解码网络，采用深度可分离卷积和空洞卷积构建编码模块，极大地减少了卷积神经网络模型的参数量，从而提高了卷积神经网络模型的运算速度，从而快速地将视频图像中人像快速地实时提取出来，有效地克服了现有技术中，人像提取速度慢，难以满足视频人像实时提取的需求的问题。

(2)本发明在训练卷积神经网络模型时，通过对COCO数据集进行数据筛选清洗，只筛选包括人像的图像样本来构建样本训练集，并用于卷积神经网络模型训练，使得本发明的卷积神经网络模型具有更好的处理效果。

附图说明

图1为本发明的实时视频人像提取的***的流程图；

图2为本发明的卷积神经网络模型的网络结构图；

图3为本发明的通用编码模块的网络结构图；

图4为本发明的实施例的视频图像的原图；

图5为本发明的实施例的视频图像的提取后的效果图。

具体实施方式

下面结合实施例和说明书附图对本发明作进一步的说明。

在本发明的描述中，术语“第一”、“第二”、“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性，此外，需要说明的是，除非另有明确的规定或限定，术语“连接”、“相连”等词应作广义理解，例如可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

结合图1所示，本发明的实时视频人像提取的***包括：图像采集模块，用于采集实时视频图像；图像处理模块，用于对视频图像进行实施人像提取。所述图像处理模块包括前处理模块和后处理模块，所述前处理模块利用卷积神经网络模型络模型对视频图像进行编码和解码，对视频图像进行特征提取，并输出视频图像的概率值图；所述后处理模块采用抠图算法，将输出的概率值图与输入的视频图像的每个像素点相乘得到人像区域，提取出图像中的人像。

本发明的卷积神经网络模型包括编码网络和与编码网络连接的解码网络，是按照编码-解码结构搭建的卷积神经网络模型，编码网络用于对视频图像进行编码，提取图像中的人像特征；解码网络用于对特征图像进行解码，完成人像提取。

所述编码网络包括依次连接的一个标准编码模块和若干个通用编码模块；通用编码模块利用标准卷积、深度可分离卷积和空洞卷积对图像进行特征提取；所述解码网络利用双线性差值模块与标准卷积层对图像特征进行解码。

具体的，本发明的实施例中，卷积神经网络模型的结构如图2所示，其中，编码网络包括依次连接的标准编码模块M1、第一通用编码模块GM1、第二通用编码模块GM2、第三通用编码模块GM3、第四通用编码模块GM4、第五通用编码模块GM5、第六通用编码模块GM6、第七通用编码模块GM7。

解码网络包括第一双线性差值模块UP1、第二双线性差值模块UP2、第三双线性差值模块UP3、第一标准卷积层C1、第二标准卷积层C2，所述第一双线性差值模块UP1、第二双线性差值模块UP2、第三双线性差值模块UP3依次连接。

所述第七通用编码模块GM7与第一双线性差值模块UP1连接，第七通用编码模块GM7的输出作为第一双线性差值模块UP1的输入。所述第一标准卷积层C1分别与第三通用编码模块GM3和第二双线性差值模块UP2连接，第三通用编码模块GM3的输出作为第一标准卷积层C1的输入，第一标准卷积层C1的输出与第一双线性差值模块UP1的输出进行特征融合后作为第二双线性差值模块UP2的输入。所述第二标准卷积层C2分别与第一通用编码模块GM1和第三双线性差值模块UP3连接，第一通用编码模块GM1的输出作为第二标准卷积层C2的输入，第二标准卷积层C2的输出与第二双线性差值模块UP2的输出进行特征融合后作为第三双线性差值模块UP3的输入。

还包括与第三双线性差值模块UP3依次连接一个标准卷积层C3和softmax层，从第三双线性差值模块UP3输出的图像经标准卷积层C3调整通道数，然后经softmax层进行概率判断，输出概率值图。

标准编码模块和通用编码模块的目的是对视频图像进行编码，完成图像特征提取。标准编码模块包括依次连接的若干个标准卷积层，在本发明的实施例中，标准编码模块只包括一个标准卷积层。

通用编码模块包括并联的至少两个子编码模块，所述至少两个子编码模块的输出采用concat层融合连接，concat层连接一个标准卷积层C4进行图像输出。每个子编码模块包括依次连接的标准卷积层、深度可分离卷积层、空洞卷积层。在本发明的实施例中，如图3所示，通用编码模块包括两个子编码模块，分别为第一子编码模块和第二子编码模块，所述第一子编码模块包括依次连接的标准卷积层C11、深度可分离卷积层DW11、空洞卷积层D11；所述第二子编码模块包括依次连接的标准卷积层C12、深度可分离卷积层DW12、空洞卷积层D12。

在本发明的实施例中，卷积神经网络模型各模块的网络层的参数为：

标准编码模块M1：包括一个标准卷积层，该标准卷积层的卷积核大小为3×3，步长为2，通道数为16。

第一通用编码模块GM1：标准卷积层C11和C12的卷积核大小为均为1×1，深度可分离卷积层DW11和DW12的步长均为2，空洞卷积层D11和D12的空洞率分别为1和2，标准卷积层C4的通道数为24。

第二通用编码模块GM2：标准卷积层C11和C12的卷积核大小为均为1×1，深度可分离卷积层DW11和DW12的步长为1，空洞卷积层D11和D12的空洞率分别为1和2，标准卷积层C4的通道数为40。

第三通用编码模块GM3：标准卷积层C11和C12的卷积核大小为均为1×1，深度可分离卷积层DW11和DW12的步长为2，空洞卷积层D11和D12的空洞率分别为1和2，标准卷积层C4的通道数为80。

第四通用编码模块GM4：标准卷积层C11和C12的卷积核大小为均为1×1，深度可分离卷积层DW11和DW12的步长为1，空洞卷积层D11和D12的空洞率分别为1和2，标准卷积层C4的通道数为80。

第五通用编码模块GM5：标准卷积层C11和C12的卷积核大小为均为1×1，深度可分离卷积层DW11和DW12的步长为1，空洞卷积层D11和D12的空洞率分别为1和2，标准卷积层C4的通道数为80。

第六通用编码模块GM6：标准卷积层C11和C12的卷积核大小为均为1×1，深度可分离卷积层DW11和DW12的步长为2，空洞卷积层D11和D12的空洞率分别为1和2，标准卷积层C4的通道数为120。

第七通用编码模块GM7：标准卷积层C11和C12的卷积核大小为均为1×1，深度可分离卷积层DW11和DW12的步长为1，空洞卷积层D11和D12的空洞率分别为1和2，标准卷积层C4的通道数为120。

标准卷积层C1的卷积核大小为3×3，步长为1，通道数为80；

标准卷积层C2的卷积核大小为3×3，步长为1，通道数为40；

标准卷积层C3的卷积核大小为1×1，通道数为2。

应该说明的是，上述的各模块中网络层的参数，只给出了本发明的实施例中各网络层中关键的参数，对于未给出的，本领域技术人员可根据需求进行调整。值得说明的是，在本发明的实施过程中，神经网络模型中所有的卷积层，包括标准卷积层、空洞卷积层、深度可分离卷积层后都会默认的采用一个批标准化层对卷积层的输出进行标准化，并采用Relu函数进行激活，并且对于未特殊说明的，卷积层的步长默认为1。

***的后处理模块，利用抠图算法，将人像区域提取出来，抠图算法为：

I_i＝a_iF_i+(1-a_i)B_i

式中，I_i表示当前图像或视频的当前帧，F_i表示前景，本发明中指人像，B_i表示背景，本发明中指非人像区域，a_i表示该像素点属于前景的概率值，1-a_i表示该像素点属于背景的概率值，i表示像素点的序号。根据抠图算法，将概率值图与原图的每个像素点乘，即得到人像区域。

基于上述的实时视频人像提取的***，给出本发明的实时视频人像提取的方法，该方法包括：

利用图像采集模块，采集实时视频图像；

将视频图像输入到图像处理模块中，利用卷积神经网络进行神经网络推理，视频图像首先进入前处理模块，在前处理模块中依次通过编码网络的标准编码模块和若干个通用编码模块，进行编码，完成特征提取，然后进入解码网络，利用双线性差值模块与标准卷积层对图像特征进行解码，输出概率值图；然后进入后处理模块，采用抠图算法，将输出的概率值图与输入的视频图像的每个像素点相乘得到人像区域，提取出图像中的人像。更具体地，在本发明的实施例中，视频图像依次通过标准编码模块M1、第一通用编码模块GM1、第二通用编码模块GM2、第三通用编码模块GM3、第四通用编码模块GM4、第五通用编码模块GM5、第六通用编码模块GM6、第七通用编码模块GM7。第七通用编码模块GM7的输出作为第一双线性差值模块UP1的输入，第三通用编码模块GM3的输出作为第一标准卷积层C1的输入，第一标准卷积层C1的输出与第一双线性差值模块UP1的输出进行特征融合后作为第二双线性差值模块UP2的输入，第一通用编码模块GM1的输出作为第二标准卷积层C2的输入，第二标准卷积层C2的输出与第二双线性差值模块UP2的输出进行特征融合后作为第三双线性差值模块UP3的输入，然后第三双线性差值模块UP3输出后，经标准卷积层C3调整通道数，然后经softmax层进行概率判断，输出概率值图。然后进入后处理模块，通过抠图算法，提取出人像。

在将视频图像输入图像处理模块前，为使图像处理模块中的具有最优的特性，需要对神经网络模型进行训练，训练卷积神经模型的步骤如下：

S1：构建样本数据集

采用COCO数据集，对COCO数据集进行数据清洗，筛选COCO数据集中若干包含人像的图像样本构建样本数据集，并将样本数据集中图像样本的RGB通道值统一。在本发明的实施例中，共从COCO数据集中筛选出71181张包含人像的图像样本，构建了用于本发明的训练卷集神经网络模型的样本数据集。因为COCO数据集中包括了大量的图像样本，只筛选包含人像的图像样本，能够有效提高样本数据集的实用性，从而提高卷积神经网络模型的训练速度，使得训练出的卷积神经网络模型具有更高的准确性。此外，次本发明的实施例中，为了训练需要，统一将样本数据集中图像样本的RGB通道值调整为128。

S2：数据预处理

对步骤S1建立的样本数据集中的图像样本进行预处理，将图像样本归一化，并对图像样本进行增广，包括随机旋转、随机增加或减少亮度、随机水平翻转及剪裁。在本发明的实施例中，为将样本数据集中的图像样本进行归一化，将图像样本的每个像素都除以256，使所有的像素值都在0-1之间，对图像样本进行归一化操作，使得卷积神经网络能够更快的收敛，从而节省模型的训练时间。

此外，对样本数据集中的图像样本进行增广处理，在本发明的实施例中，对图像样本进行增广时，随机旋转15°、亮度随机增加或减少50％，并进行随机水平翻转和剪裁。通过对图像样本进行增广，使得卷积神经网络模型具有更好的泛化能力。

S3：训练模型

将经过步骤S2处理后的样本数据集输入卷积神经网络模型中对模型进行训练，在本发明的实施例中，在对模型训练时，网络模型的输入为像素384×384的图像，如样本大于384×384分辨率，则随机裁切至384×384分辨率，若小于则在周围用0填充，训练时，采用初始学习率为0.0001，采用Adam优化器，并采用softmax函数作为损失函数。并将训练好的模型权值文件保存，用于卷积神经网络模型的部署。在本发明的实施例中，训练卷积神经网络时，供迭代1000000次，最终达到收敛。

现有技术中，用在应用于嵌入式设备的特征提取网络主要为MobileNet V2，将本发明方法与MobileNet V2对比，在模型参数上，本发明的卷积神经网络模型的参数量约为MobileNet V2的1/10，对同一张图像进行人像提取时，本发明的方法在速度上约为MobileNet V2的7倍，因此，本发明的方法，具有更快的速度，更高的效率，更适用于实时视频人像的提取。同时，图4和图5分别给出了采用本发明进行视频人像提取时，提取前的原图和提取后的效果图，右图5可以看出，采用本发明，提取出的人像边界清晰，因此可以看出，本发明在保证提取视频人像时，在保证效果的同时，具有更快的速度。

本发明还提供了一种存储介质，该存储介质能够存储实时视频人像提取的***和方法的计算机程序指令，运行所述计算机程序指令时，能够进行响应的运算操作，完成实时视频人像的提取。

此外，本发明还提供一种设备，该设备采用本发明的实时视频人像提取的***，并利用本发明的实时视频人像提取的方法进行实时视频人像提取。

综上，本发明采用卷积神经网络模型对视频图像进行特征提取，输出概率值图，然后采用抠图算法完成实时视频人像的分割，所采用的卷积神经网络型采用编码-解码结构，利用深度可分离卷积和空洞卷积，降低了卷积神经网络模型的参数量，提高了卷积神经网络模型的速度，从而极大地提高了实时视频人像的提取效率，更能适用于各领域对人像提取技术的需求。

上述实施例仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和等同替换，这些对本发明权利要求进行改进和等同替换后的技术方案，均落入本发明的保护范围。

Claims

1.一种实时视频人像提取的***，其特征在于，包括：

图像采集模块，用于采集实时视频图像；

图像处理模块，用于对视频图像进行实施人像提取；

2.根据权利要求1所述的一种实时视频人像提取的***，其特征在于，所述卷积神经网络模型结构：

3.根据权利要求2所述的一种实时视频人像提取的***，其特征在于，所述通用编码模块包括并联的至少两个子编码模块，所述至少两个子编码模块的输出采用concat层融合连接，concat层连接一个标准卷积层C4进行图像输出；

4.根据权利要求3所述的一种实时视频人像提取的***，其特征在于，所述通用编码模块包括两个子编码模块，分别为第一子编码模块和第二子编码模块，所述第一子编码模块包括依次连接的标准卷积层C11、深度可分离卷积层DW11、空洞卷积层D11；

5.根据权利要求4所述的一种实时视频人像提取的***，其特征在于，所述卷积神经网络各模块的参数如下：

标准卷积层C1的卷积核大小为3×3，步长为1，通道数为80；

标准卷积层C2的卷积核大小为3×3，步长为1，通道数为40；

标准卷积层C3的卷积核大小为1×1，通道数为2。

6.一种实时视频人像提取的方法，其特征在于，利用权利要求1-5任一项所述的实时视频人像提取的***进行实时视频人像提取，包括：

利用图像采集模块，采集实时视频图像；

7.根据权利要求6所述的一种实时视频人像提取的方法，其特征在于，在利用卷积神经网络模型进行神经网络推理前，对所述卷积神经网络模型进行训练，训练过程为：

8.根据权利要求7所述的一种实时视频人像提取的方法，其特征在于，所述步骤S2中，对图像样本进行增广时，随机旋转15°、亮度随机增加或减少50％。

9.一种存储介质，其特征在于，存储权利要求1-5任一项所述的实时视频人像提取的***的计算机程序指令，以及权力要求6-8任一项所述的实时视频人像提取的方法的计算机程序指令。

10.一种设备，其特征在于，采用权利要求1-5任一项所述的实时视频人像提取的***进行实时视频人像提取。