CN113408471A - 一种基于多任务深度学习的无绿幕人像实时抠图算法 - Google Patents

一种基于多任务深度学习的无绿幕人像实时抠图算法 Download PDF

Info

Publication number
CN113408471A
CN113408471A CN202110748585.5A CN202110748585A CN113408471A CN 113408471 A CN113408471 A CN 113408471A CN 202110748585 A CN202110748585 A CN 202110748585A CN 113408471 A CN113408471 A CN 113408471A
Authority
CN
China
Prior art keywords
portrait
image
matting
network
human body
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110748585.5A
Other languages
English (en)
Other versions
CN113408471B (zh
Inventor
林强
俞定国
马小雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Media and Communications
Original Assignee
Zhejiang University of Media and Communications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Media and Communications filed Critical Zhejiang University of Media and Communications
Priority to CN202110748585.5A priority Critical patent/CN113408471B/zh
Publication of CN113408471A publication Critical patent/CN113408471A/zh
Priority to US17/725,292 priority patent/US20230005160A1/en
Application granted granted Critical
Publication of CN113408471B publication Critical patent/CN113408471B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/34Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于多任务深度学习的无绿幕人像实时抠图算法,包括:原始数据集二分类调整,输入包含人像信息的图像或视频,预处理;构建人体目标检测深度学习网络,通过深度残差神经网络提取图像特征,并通过逻辑回归得到人像前景扩展候选框ROI Box和扩展候选框中的人像三元图trimap;构建人像Alpha掩码抠图深度学习网络,通过编码器共享机制有效地加速了网络的计算过程,并通过端到端的方式输出人像前景Aplha掩码预测结果实现了人像抠图效果。本方法在人像抠图过程中,成功摆脱了绿幕的使用限制,其次抠图过程中不需要提供人工标注的人像三元图,只需提供原始图像或者视频即可,给用户的使用提供了极大的便利。

Description

一种基于多任务深度学习的无绿幕人像实时抠图算法
技术领域
本发明涉及深度学习、目标检测、三元图trimap自动生成以及人像前景Aplha掩码抠图技术领域,具体涉及一种基于多任务深度学习的无绿幕人像实时抠图算法。
背景技术
近年来由于互联网信息时代飞速发展,人类日常生活中无处不在的充斥着大量数字内容。在这海量的数字内容当中,数字图像信息包括图像与视频,凭借着其传达信息直观易懂、内容形式丰富多样等优点逐渐成为信息传播的重要载体。时代的进步催生了众多的互联网内容生产机构乃至个人创作者,然而数字图像信息的编辑处理较为复杂困难,相关行业存在着一定的准入门槛,往往需要从业人员耗费大量的人力与时间成本进行内容创作。因此,人们对于高效率、易入门的内容生产手段的需求也愈加迫切。数字图像抠图技术就是数字图像信息编辑处理技术中关键的研究内容之一。
数字图像抠图技术的主要目的是分离图像或者视频当中的前景与背景画面,从而实现高精度的前景提取与虚拟背景替换工作。其中,人像抠图作为数字图像抠图的主要应用领域,早在二十世纪中旬就伴随着电影产业的制作需求应运而生。利用人像抠图技术,早期电影特效就可以提取演员的人物形象,并与虚拟的场地背景进行合成制作。经过几十年的产业科技发展,综合运用数字图像抠图的影视特效技术能够在降低内容制作成本保证参演人员安全的同时,给观众带来扣人心弦的收视体验,人像抠图技术已经成为电影电视节目制作环节中不可替代的一部分。
在早期的研究当中,数字人像抠图技术需要用户提供先验的背景知识。在传统的影视制作当中通常采用与人体皮肤以及服装色彩差异较大的纯色绿幕或者蓝幕作为拍摄场地背景,通过对比被摄主体与背景的像素差别,从而完成人像抠图工作。然而,专业绿幕背景的架设水平要求高,且对场地光照条件限定严格,一般用户很难以较低的成本使用绿幕技术。而随着数字时代快速发展,大众对于数字人像抠图技术的需求更加广泛地拓展到图片编辑和网络会议等场景当中,以满足自身对于娱乐性、隐私保护等多方面的需求。数字人像抠图技术的研究经过数十年的发展,也取得了十分瞩目的成就。然而现有算法主要存在着三类不足。首先部分研究需要提供人工交互标注的人像三元图trimap,构造三元图的工作消耗大量人力与时间。其次绝大部分研究算法耗时较长,每秒处理图像帧数较低无法实现人像的实时抠图效果。最后已有运算较快的人像抠图算法通常需要提供一张包含被摄主体与一张同一背景下不包含被摄主体的场景照片,限制了算法的使用场景。
发明内容
本发明针对现有技术的不足,针对数字图像抠图技术问题,提出了一种基于多任务深度学习的无绿幕人像实时抠图算法。
本发明提出了一种基于多任务深度学习的无绿幕人像实时抠图算法,围绕复杂自然环境下人像抠图过程中的人体目标检测、三元图生成和人像Alpha掩码抠图等关键技术,实现了在缺少专业绿幕设备条件下的无门槛实时自动人像自动抠图功能。本发明可应用于网络会议、摄影编辑等应用程序当中,为一般用户提供便捷的数字人像抠图服务。
本发明的目的是通过以下技术方案来实现:
一种基于多任务深度学习的无绿幕人像实时抠图算法,包括以下步骤:
第1步:对原始的多分类多目标检测数据集进行二分类调整,输入调整后的数据集图像或视频文件(即输入包含人像信息的图像或视频),对图像或视频进行对应的数据预处理,得到原始输入文件的预处理数据;
第2步:采用编码器-逻辑回归(encoder-logistic)构建用于人体目标检测的深度学习网络,输入第1步得到的预处理数据,构造损失函数,训练和优化用于人体目标检测的深度学习网络,得到人体目标检测模型;
第3步:从第2步中人体目标检测模型的编码器encoder中提取特征图,进行特征拼接融合多尺度图像特征形成人像Alpha掩码抠图网络的编码器,实现人体目标检测与人像Alpha掩码抠图网络的编码器共享结构;
第4步:构建人像Alpha掩码抠图网络的解码器decoder,同第3步中的编码器共享结构形成端到端的编码器-解码器(encoder-decoder)人像Alpha掩码抠图网络结构,以包含人体信息的图像以及三元图trimap为输入,构造损失函数训练和优化人像Alpha掩码抠图网络;
第5步:向第4步训练完毕的网络,输入第1步中获取的预处理数据,通过第2步中人体目标检测模型的逻辑回归输出人像前景的候选框ROI Box和候选框中的人像trimap三元图;
第6步:将第5步的人像前景候选框ROI Box和人像trimap三元图输入至第4步中构建的人像Alpha掩码抠图网络,最终得到人像Alpha掩码预测结果。
在第1步中,所述的二分类调整是,将80个物体多分类原始数据集COCO-80修改为“人体/其他”二分类,并以此标准对数据集进行补充。通过放弃对其他物体种类识别任务,精调提高后续网络模型针对人体识别的准确度。
在第1步中,所述的数据预处理包括视频帧处理和输入图像尺寸重定:
所述的视频帧处理包括:
视频帧处理,通过ffmpeg将视频转换为帧图像,在后续工作中即可以将处理后的视频文件视为图像文件采用同样的方法进行处理;具体地,通过ffmpeg将视频转换为帧图像,在工程目录中以原始视频编号为文件夹名,全部图像帧为文件夹下图像文件的方式存储;
所述的输入图像尺寸重定包括:
输入图像尺寸重定,通过裁切、填充的方式统一不同的输入图像的尺寸大小,维持网络特征图大小与原图一致。具体地,统一不同的输入图像的尺寸大小,以原图像的最长边为基准边计算缩放系数,等比例压缩最长边至后续网络规定的输入标准,再对图像短边空缺内容进行灰色背景填充。
第2步中,输入第1步得到的预处理数据,以候选框误差、候选框置信度误差、人体二分类交叉熵误差为损失函数,训练和优化人体目标检测网络(即用于人体目标检测的深度学习网络);
所述的用于人体目标检测的深度学习网络,通过以深度残差神经网络主体的模型预测实现;
所述的深度残差神经网络主体的模型由编码器部分和逻辑回归部分构成,具体包括:
编码器部分是一个全卷积残差神经网络。网络中使用跳层连接构成不同深度的残差块res_block,对包含人像信息的图像进行特征提取得到特征序列x。针对第1步中的所述处理后所得的图像帧
Figure BDA0003145163040000031
提取长度为T的特征序列
Figure BDA0003145163040000041
Vt表示第t个图像帧,xt表示第t个图像帧的特征序列。
所述的特征提取包括:
利用深度学习技术进行原始图像或者视频预处理后的帧图像的认知过程,将图像转换为计算机能够识别的特征序列。
逻辑回归部分是一个对于候选框中心位置(xi,yi),,候选框长度宽度(wi,hi)、候选框置信度Ci、候选框内物体分类pi(c),c∈classes,以及人体前景f(pixeli)和后景b(pixeli)二分类结果进行多尺度检测的输出结构。其中所述的classes为训练样本中所有类别,pixeli为候选框中第i个像素点。
第3步中,分别以大、中、小三种不同尺度从第2步中人体目标检测模型的编码器encoder中提取特征图,进行特征拼接融合多尺度图像特征形成人像Alpha掩码抠图网络的编码器,实现人体目标检测与人像Alpha掩码抠图网络的编码器共享结构。
在第3步中,前向访问第2步构建的深度残差神经网络,分别获得下采样倍数为8倍、16倍、32倍的残差块res_block的输出。上述输出分别经过3*3的卷积核conv与1*1的卷积核conv,拼接形成大、中、小多尺度融合的图像特征结构作为人像Alpha掩码抠图网络的编码器,实现人体目标检测与人像Alpha掩码抠图网络的编码器共享结构。
所述的人体目标检测与人像Alpha掩码抠图网络的编码器共享结构,第3步具体包括:
3.1)前向访问全卷积深度残差神经网络,分别获得下采样倍数为8倍、16倍、32倍的残差块res_block的输出,采用步长stride为2的卷积核实现下采样工作,设定core8,core16,core32为上述对应下采样过程中的卷积核,卷积核大小为x,y。输入input大小为m,n,则输出output大小为m/2,n/2,输出对应的卷积计算公式如公式(1)所示,其中fun(·)为激活函数,β为偏执量:
outputm/2,n/2=fun(∑∑inputmn*corexy+β) (1)
3.2)对应输出经过融合拼接形成大、中、小多尺度融合的图像特征结构作为人像Alpha掩码抠图网络的编码器,实现人体目标检测与人像Alpha掩码抠图网络的编码器共享结构。
在第4步中,所述的解码器以上采样、卷积、ELU激活函数与全连接层FC输出为主体结构,以包含人体信息的图像以及三元图trimap为输入,构造以Alpha掩码预测误差和图像合成误差二者为核心的网络损失函数,训练优化人像Alpha掩码抠图网络。
所述的上采样是用来恢复编码器中下采样后的图像特征大小。采用SeLU激活函数,其中超参数λ,α为固定常数,激活函数表达式如公式(2)所示:
Figure BDA0003145163040000051
在第4步中,构造人像Alpha掩码抠图网络损失函数,具体包括:
4.1)Alpha掩码预测误差,如公式(3)所示:
Figure BDA0003145163040000052
其中αpregro分别为预测和真实的Alpha掩码值,ε为一极小的常数。
4.2)图像合成误差,如公式(4)所示:
Figure BDA0003145163040000053
其中cpre,cgro分别为预测和真实的Alpha合成图像,ε为一极小的常数。
4.3)综合损失函数为Alpha掩码预测误差和图像合成误差,如公式(5)所示:
Lossoverall=ω1Lossαlp2Losscom12=1 (5)
在第5步中,输入第1步得到的图像预处理数据至训练后的人体目标检测网络模型,通过逻辑回归后预测得到人像前景扩展候选框ROI Box和扩展候选框中的人像三元图trimap。
所述人像前景扩展候选框ROI Box在一般目标识别候选框的基础上进行边缘膨胀,避免了目标检测过程中将人体细微边缘置于候选框外的问题。所述的扩展候选框中的人像三元图由第二步损失函数中的人体二分类交叉熵误差经过腐蚀膨胀后获得。
在第5步中,所述输出的人像前景扩展候选框ROI Box和候选框中的人像trimap三元图,具体包括:
5.1)人像前景扩展候选框判断标准RIOU,对原有判断基础进行改进。为使得候选框有更强的囊括能力,避免目标检测过程中将人体细微边缘置于候选框外的问题,改进后的判断标准RIOU,如公式(7)所示:
Figure BDA0003145163040000054
其中,ROIedge为能够包裹住ROIp和ROIg的最小外接矩形候选框,[·]为候选框面积,ROIp表示人像前景候选框的预测值,ROIg表示人像前景候选框的真实值;
5.2)对人体前\背景二分类结果,先采用腐蚀算法去除噪声,再通过膨胀算法产生清晰的边缘轮廓。最终得到的人像三元图trimap,如公式(8)所示:
Figure BDA0003145163040000061
其中前景f(pixeli)和背景b(pixeli)表示第i个像素pixeli属于前景或者背景,trimapi表示第i个像素pixeli的alpha掩码通道值,otherwise表示像素无法确认属于前/后景的情况。
在第6步中,将第5步的原始人像前景扩展候选框ROI Box经过特征映射后,与扩展候选框中的人像三元图trimap输入至人像Alpha掩码抠图网络模型,降低卷积计算规模,加速网络计算速度。经过解码器上采样恢复图像原始分辨率后,在全连接层FC输出得到人像Alpha掩码预测结果,最终整体完成人像抠图任务。
本发明原始数据集二分类调整,输入包含人像信息的图像或视频,通过视频帧处理和输入图像尺寸重定获得预处理后的网络输入数据;构建人体目标检测深度学习网络,通过深度残差神经网络提取图像特征,并通过逻辑回归的方式得到人像前景扩展候选框ROI Box和扩展候选框中的人像三元图trimap;构建人像Alpha掩码抠图深度学习网络,通过编码器共享机制有效地加速了网络的计算过程,并通过端到端的方式输出人像前景Aplha掩码预测结果实现了人像抠图效果。本明方法在人像抠图过程中,成功摆脱了绿幕的使用限制,其次抠图过程中不需要提供人工标注的人像三元图,只需提供原始图像或者视频即可,给用户的使用提供了极大的便利。最后本发明提出的编码器共享机制加速任务计算速度,提供了高清画质下的实时人像抠图效果,满足了用户多种场景下的使用需求。
与现有技术相比,本发明具有如下优点:
本发明一种基于多任务深度学习的无绿幕人像实时抠图算法,围绕复杂自然环境下人像抠图过程中的人体目标检测、三元图生成和人像Alpha掩码抠图等关键技术,实现了在缺少专业绿幕设备条件下的无门槛实时自动人像自动抠图功能。本发明算法解决了传统数字图像抠图技术的对于设备和场地的限制,应用于网络会议、摄影编辑等应用程序当中,为一般用户提供实时、便捷的数字人像抠图服务。本发明所具有的创新性,具体体现在以下几个方面:
1)本发明创新性的提出了对于传统多分类多目标检测数据集COCO-80的修改与补充,形成了本发明独有的“人物\其他”二分类数据集。在明显降低训练样本构建难度的同时,精调提高了后续网络模型针对人体识别的准确度;
2)本发明创新性的提出了一种新的目标检测候选框判断标准RIOU,使得候选框有更强的囊括能力,避免目标检测过程中将人体细微边缘置于候选框外的问题;
3)本发明创新性的提出了人体目标检测网络与人像Alpha掩码抠图网络的编码器共享机制,大幅度减少了算法对于图像特征识别过程的耗时,实现了高清实时人像抠图。
附图说明
图1为本发明一种基于多任务深度学习的无绿幕人像实时抠图算法的网络结构示意图;
图2为本发明多分类原始数据集二分类过程示意图;
图3为本发明算法人体目标检测任务流程示意图;
图4为本发明算法人像Alpha掩码抠图任务流程示意图;
图5为本发明算法的整体流程示意图;
具体实施方式
下面结合附图对于基于多任务深度学习的无绿幕人像实时抠图算法作进一步说明。
一种基于多任务深度学习的无绿幕人像实时抠图算法,包含以下步骤:
第1步:对原始数据集进行改进,输入改进后的数据集图像或视频文件,对图像或视频进行对应的数据预处理,得到原始输入文件的预处理数据;
第1步中,原始数据集改进和数据预处理具体包括:
1.1)多分类多目标检测数据集的二分类调整与补充,二分类调整将80个物体多分类原始数据集COCO-80修改为“人体/其他”两种分类,并以此标准对数据集进行补充;
1.2)视频帧处理,通过ffmpeg将视频转换为帧图像,在后续工作中即可以将处理后的视频文件视为图像文件采用同样的方法进行处理;
1.3)输入图像尺寸重定,通过裁切、填充的方式统一不同的输入图像的尺寸大小,维持网络特征图大小与原图一致。
第2步:采用编码器-逻辑回归(encoder-logistic)构建用于人体目标检测的深度学习网络。输入第1步得到的预处理数据,构造损失函数,训练和优化人体目标检测网络;
人体目标检测深度学习网络,具体包括:
2.1)编码器部分是一个全卷积残差神经网络。网络中使用跳层连接构成不同深度的残差块res_block,对包含人像信息的图像进行特征提取得到特征序列;
2.2)构造损失函数,在一般的目标检测任务基础上增加人体二分类交叉熵误差为额外负载;
2.3)逻辑回归部分是一个对于候选框中心位置(xi,yi)、候选框长度宽度(wi,hi)、候选框置信度Ci、候选框内物体分类pi(c),c∈classes进行多尺度检测的输出结构。其中,classes为训练样本中所有类别,具体为[class0:person,class1:others],pixeli为候选框中第i个像素点。
第3步:融合多尺度图像特征形成人像Alpha掩码抠图网络的编码器,实现人体目标检测与人像Alpha掩码抠图网络的编码器共享结构;
人体目标检测与人像Alpha掩码抠图网络的多尺度编码器共享结构,具体包括:
3.1)前向访问全卷积深度残差神经网络,分别获得下采样倍数为8倍、16倍、32倍的残差块res_block的输出。采用步长stride为2的卷积核实现下采样工作,设定core8,core16,core32为上述对应下采样过程中的卷积核,卷积核大小为x,y。输入input大小为m,n,则输出output大小为m/2,n/2,输出对应的卷积计算公式如公式(1)所示,其中fun(·)为激活函数,β为偏执量:
outputm/2,n/2=fun(∑∑inputmn*corexy+β) (1)
3.2)对应输出经过融合拼接形成大、中、小多尺度融合的图像特征结构作为人像Alpha掩码抠图网络的编码器,实现人体目标检测与人像Alpha掩码抠图网络的编码器共享结构。
第4步:构建人像Alpha掩码抠图网络的解码器decoder,同第3步中的共享编码器组合形成端到端的编码器-解码器(encoder-decoder)人像Alpha掩码抠图网络结构。以包含人体信息的图像以及三元图trimap为输入,构造损失函数,训练和优化人像Alpha掩码抠图网络;
人像Alpha掩码抠图网络解码器,该解码器以上采样、卷积、ELU激活函数与全连接层FC输出为主体结构,具体包括:
4.1)上采样通过unsampling操作实现,以此恢复编码器中下采样后的图像特征大小;
4.2)采用SeLU激活函数,使深度学习网络中部分神经元输出置0,形成稀疏网络结构。其中SeLU激活函数的超参数λ,α为固定常数,激活函数表达式如公式(2)所示:
Figure BDA0003145163040000091
构造人像Alpha掩码抠图网络损失函数,具体包括:
4.3)Alpha掩码预测误差,如公式(3)所示:
Figure BDA0003145163040000092
其中αpregro分别为预测和真实的Alpha掩码值,ε为一极小的常数;
4.4)图像合成误差,如公式(4)所示:
Figure BDA0003145163040000093
其中cpre,cgro分别为预测和真实的Alpha合成图像;
4.5)综合损失函数为Alpha掩码预测误差和图像合成误差,如公式(5)所示:
Lossoverall=ω1Lossαlp2Losscom12=1 (5)
第5步:向训练完毕的网络,输入第1步中获取的图像预处理数据,通过第2步中人体目标检测网络逻辑回归输出人像前景扩展候选框ROI Box和候选框中的人像trimap三元图;
输出的人像前景扩展候选框ROI Box和候选框中的人像trimap三元图,具体包括:
5.1)人像前景扩展候选框判断标准RIOU,对原有判断基础进行改机。为使得候选框有更强的囊括能力,避免目标检测过程中将人体细微边缘置于候选框外的问题,改进后的判断标准RIOU,如公式(7)所示:
Figure BDA0003145163040000101
其中,ROIedge为能够包裹住ROIp和ROIg的最小外接矩形候选框,[·]为候选框面积;
5.2)对人体前\背景二分类结果,先采用腐蚀算法去除噪声,再通过膨胀算法产生清晰的边缘轮廓。最终得到的人像三元图trimap,如公式(8)所示:
Figure BDA0003145163040000102
其中前景f(pixeli)和背景b(pixeli)表示第i个像素pixeli属于前景或者背景,trimapi表示第i个像素pixeli的alpha掩码通道值。
第6步:将第5步的人像前景候选框ROI Box和人像trimap三元图输入至第4步中构建的人像Alpha掩码抠图网络,最终得到人像Alpha掩码预测结果。
更具体地,基于多任务深度学习的无绿幕实时人像抠图算法将人像抠图分为两部分算法任务,分别为第一步的人体目标检测任务,以及第二步的人像前景Alpha掩码抠图任务,具体包括以下步骤:
在第1步中,进行数据预处理包括视频帧处理和输入图像尺寸重定:
视频帧处理包括:
通过ffmpeg将视频转换为帧图像,在工程目录中以原始视频编号为文件夹名,全部图像帧为文件夹下图像文件的方式存储,在后续工作中即可以将处理后的视频文件视为图像文件采用同样的方法进行处理;
输入图像尺寸重定包括:
统一不同的输入图像的尺寸大小,以原图像的最长边为基准边计算缩放系数,等比例压缩最长边至后续网络规定的输入标准,通过Padding方式对短边空缺内容进行灰色背景填充,维持网络特征图大小与原图一致。避免因为输入图像尺寸错误造成的网络输出值异常。
如图2所示,通过二分类调整将80个物体多分类原始数据集COCO-80修改为“人体/其他”两种分类,并以此标准对数据集进行补充。通过放弃对其他物体种类识别任务,精调提高后续网络模型针对人体识别的准确度。
如图3所示,网络整体第一部分任务的人体目标检测深度学习网络,通过以深度残差神经网络主体的模型预测实现。深度残差神经网络模型由编码器部分和逻辑回归部分构成,具体包括:
第1步:编码器部分是一个全卷积残差神经网络。网络中使用跳层连接构成不同深度的残差块res_block,对包含人像信息的图像进行特征提取得到特征序列x。针对处理后所得的图像帧
Figure BDA0003145163040000111
提取长度为T的特征序列
Figure BDA0003145163040000112
Vt表示第t个图像帧,xt表示第t个图像帧的特征序列。
特征提取包括:
利用深度学习技术进行原始图像或者视频预处理后的帧图像的认知过程,将图像转换为计算机能够识别的特征序列。
第2步:逻辑回归部分是一个对于候选框中心位置(xi,yi),,候选框长度宽度(wi,hi)、候选框置信度Ci、候选框内物体分类pi(c),c∈classes,以及人体前景f(pixeli)和后景b(pixeli)二分类结果进行多尺度检测的输出结构。其中所述的classes为训练样本中所有类别,具体为[class0:person,class1:others],pixeli为候选框中第i个像素点。
如图4所示,网络整体第二部分任务的人像Alpha掩码抠图网络由共享编码器与人像Alpha掩码抠图解码器构成,具体包括以下实施方式:
第1步:前向访问深度残差神经网络,分别获得下采样倍数为8倍、16倍、32倍的残差块res_block的输出。下采样过程为了降低池化带来的梯度负面效果,采用步长stride为2的卷积核实现。设定core8,core16,core32为上述对应下采样过程中的卷积核,其通道数channel_n与对应输入input8,input16,input32相等,卷积核大小为x,y。输入input大小为m,n,则输出output大小为m/2,n/2,输出对应的卷积计算公式如公式(1)所示,其中fun(·)为激活函数,β为偏执量:
outputm/2,n/2=fun(∑∑inputmn*corexy+β)
(1)
第2步:对应输出分别经过3*3的卷积核conv33*3扩大特征图感受野,增加了图像特征局部的上下文信息。随后经过1*1的卷积核conv1降低特征通道channel维度。融合拼接形成大、中、小多尺度融合的图像特征结构作为人像Alpha掩码抠图网络的编码器,实现人体目标检测与人像Alpha掩码抠图网络的编码器共享结构。
第3步:解码器以上采样、卷积、ELU激活函数与全连接层FC输出为主体结构。以包含人体信息的图像以及三元图trimap为输入,构造以Alpha掩码预测误差和图像合成误差二者为核心的网络损失函数,训练优化人像Alpha掩码抠图网络。
上采样通过unsampling操作实现,将输入图像特征中的某个值映射填充到输出上采样的图像特征的某片对应区域中,同时用相同的值填充上采样后空白的区域,以此恢复编码器中下采样后的图像特征大小。
采用SeLU激活函数,使深度学习网络中部分神经元输出置0,形成稀疏网络结构,有效降低抠图网络过拟合问题,同时避免了传统sigmoid激活函数在反向传播时易发生梯度消失的问题。其中SeLU激活函数的超参数λ,α为固定常数,激活函数表达式如公式(2)所示:
Figure BDA0003145163040000121
所述的Alpha掩码预测误差,如公式(3)所示:
Figure BDA0003145163040000122
其中αpregro分别为预测和真实的Alpha掩码值,ε为一极小的常数。
所述的图像合成误差,如公式(4)所示:
Figure BDA0003145163040000123
其中cpre,cgro分别为预测和真实的Alpha合成图像,ε为一极小的常数。
最终综合损失函数为Alpha掩码预测误差和图像合成误差,如公式(5)所示:
Lossoverall=ω1Lossαlp2Losscom12=1
(5)
如图5所示,本发明提出的算法训练完成后,即可实时人像抠图推理过程。
第1步:输入图像预处理数据至训练后的人体目标检测网络模型,通过逻辑回归后预测得到人像前景扩展候选框ROI Box和扩展候选框中的人像三元图trimap。
一般目标识别候选框的筛选判断以图像交并比IOU为标准,如公式(6)所示,ROIp,ROIg分别为预测和真实的候选框:
Figure BDA0003145163040000131
本发明提出改进的人像前景扩展候选框判断标准RIOU,为使得候选框有更强的囊括能力,避免目标检测过程中将人体细微边缘置于候选框外的问题,改进后的判断标准RIOU,如公式(7)所示:
Figure BDA0003145163040000132
其中,ROIedge为能够包裹住ROIp和ROIg的最小外接矩形候选框,[·]为候选框面积。
第2步:对人体前\背景二分类结果,先采用腐蚀算法去除噪声,再通过膨胀算法产生清晰的边缘轮廓。最终得到的人像三元图trimap,如公式(8)所示:
Figure BDA0003145163040000133
其中前景f(pixeli)和背景b(pixeli)表示第i个像素pixeli属于前景或者背景,trimapi表示第i个像素pixeli的alpha掩码通道值。
第3步:将第2步的原始人像前景扩展候选框ROI Box经过特征映射后,与扩展候选框中的人像三元图trimap输入至人像Alpha掩码抠图网络模型,降低卷积计算规模,加速网络计算速度。经过解码器上采样恢复图像原始分辨率后,在全连接层FC输出得到人像Alpha掩码预测结果α。结合原始输入图像,通过前景提取最终完成人像抠图任务,如公式(9)所示,其中I是为输入图像,F是人像前景,B是背景图像:
I=αF+(1-α)B (9)
上述只是对本发明实例所作的说明,而并非对本发明的限制。本领域的普通技术人员应当认识到,任何对本发明所做的变换、变型都将落入本发明的保护范围。

Claims (7)

1.一种基于多任务深度学习的无绿幕人像实时抠图算法,其特征在于,包括以下步骤:
第1步:对原始的多分类多目标检测数据集进行二分类调整,输入包含人像信息的图像或视频,对图像或视频进行对应的数据预处理,得到原始输入文件的预处理数据;
第2步:采用编码器-逻辑回归构建用于人体目标检测的深度学习网络,输入第1步得到的预处理数据,构造损失函数,训练和优化用于人体目标检测的深度学习网络,得到人体目标检测模型;
第3步:从第2步中人体目标检测模型的编码器中提取特征图,进行特征拼接融合多尺度图像特征形成人像Alpha掩码抠图网络的编码器,实现人体目标检测与人像Alpha掩码抠图网络的编码器共享结构;
第4步:构建人像Alpha掩码抠图网络的解码器,同第3步中的编码器共享结构形成端到端的编码器-解码器人像Alpha掩码抠图网络结构,以包含人体信息的图像以及三元图trimap为输入,构造损失函数训练和优化人像Alpha掩码抠图网络;
第5步:向第4步训练完毕的网络,输入第1步中获取的预处理数据,通过第2步中人体目标检测模型的逻辑回归输出人像前景的候选框ROIBox和候选框中的人像trimap三元图;
第6步:将第5步的人像前景候选框ROI Box和人像trimap三元图输入至第4步中构建的人像Alpha掩码抠图网络,最终得到人像Alpha掩码预测结果。
2.根据权利要求1所述的基于多任务深度学习的无绿幕人像实时抠图算法,其特征在于,第1步中,所述的数据预处理包括视频帧处理和输入图像尺寸重定。
3.根据权利要求1所述的基于多任务深度学习的无绿幕人像实时抠图算法,其特征在于,第2步中,所述的用于人体目标检测的深度学习网络,通过以深度残差神经网络主体的模型预测实现。
4.根据权利要求1所述的基于多任务深度学习的无绿幕人像实时抠图算法,其特征在于,第4步中,所述的解码器以上采样、卷积、ELU激活函数与全连接层FC输出为主体结构。
5.根据权利要求4所述的基于多任务深度学习的无绿幕人像实时抠图算法,其特征在于,所述的上采样用来恢复编码器中下采样后的图像特征大小,采用SeLU激活函数,其中超参数λ,α为固定常数,激活函数表达式如公式(2)所示:
Figure FDA0003145163030000021
6.根据权利要求1所述的基于多任务深度学习的无绿幕人像实时抠图算法,其特征在于,在第4步中,构造损失函数训练和优化人像Alpha掩码抠图网络,具体包括:
4.1)Alpha掩码预测误差,如公式(3)所示:
Figure FDA0003145163030000022
其中,Lossαlp表示Alpha掩码预测误差,αpregro分别为预测和真实的Alpha掩码值,ε为一极小的常数;
4.2)图像合成误差,如公式(4)所示:
Figure FDA0003145163030000023
其中,Losscom表示图像合成误差,cpre,cgro分别为预测和真实的Alpha合成图像,ε为一极小的常数;
4.3)综合损失函数为Alpha掩码预测误差和图像合成误差,如公式(5)所示:
Lossoverall=ω1Lossαlp2Losscom12=1 (5);
其中,Lossoverall表示综合损失函数,ω1,ω2分别表示Alpha掩码预测误差Lossαlp和图像合成误差Lossαlp的权重值。
7.根据权利要求1所述的基于多任务深度学习的无绿幕人像实时抠图算法,其特征在于,在第5步中,输出人像前景扩展候选框ROIBox和候选框中的人像trimap三元图,具体包括:
5.1)人像前景扩展候选框判断标准RIOU,对原有判断基础进行改进,改进后的判断标准RIOU,如公式(7)所示:
Figure FDA0003145163030000031
其中,ROIedge为能够包裹住ROIp和ROIg的最小外接矩形候选框,[·]为候选框面积,ROIp表示人像前景候选框的预测值,ROIg表示人像前景候选框的真实值;
5.2)对人体前\背景二分类结果,先采用腐蚀算法去除噪声,再通过膨胀算法产生清晰的边缘轮廓,最终得到的人像三元图trimap,如公式(8)所示:
Figure FDA0003145163030000032
其中,前景f(pixeli)表示第i个像素pixeli属于前景,背景b(pixeli)表示第i个像素pixeli属于背景,otherwise表示像素无法确认属于前/后景的情况,trimapi表示第i个像素pixeli的alpha掩码通道值。
CN202110748585.5A 2021-07-02 2021-07-02 一种基于多任务深度学习的无绿幕人像实时抠图算法 Active CN113408471B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110748585.5A CN113408471B (zh) 2021-07-02 2021-07-02 一种基于多任务深度学习的无绿幕人像实时抠图算法
US17/725,292 US20230005160A1 (en) 2021-07-02 2022-04-20 Multi-task deep learning-based real-time matting method for non-green-screen portraits

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110748585.5A CN113408471B (zh) 2021-07-02 2021-07-02 一种基于多任务深度学习的无绿幕人像实时抠图算法

Publications (2)

Publication Number Publication Date
CN113408471A true CN113408471A (zh) 2021-09-17
CN113408471B CN113408471B (zh) 2023-03-28

Family

ID=77680881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110748585.5A Active CN113408471B (zh) 2021-07-02 2021-07-02 一种基于多任务深度学习的无绿幕人像实时抠图算法

Country Status (2)

Country Link
US (1) US20230005160A1 (zh)
CN (1) CN113408471B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114373162A (zh) * 2021-12-21 2022-04-19 国网江苏省电力有限公司南通供电分公司 用于变电站视频监控的危险区域人员入侵检测方法及***
CN114840124A (zh) * 2022-03-30 2022-08-02 阿里巴巴(中国)有限公司 显示控制方法、装置、电子设备、介质及程序产品
CN115482309A (zh) * 2022-11-04 2022-12-16 平安银行股份有限公司 图像处理方法、计算机设备及存储介质
CN115543161A (zh) * 2022-11-04 2022-12-30 广州市保伦电子有限公司 一种适用于白板一体机的抠图方法及装置
CN117557689A (zh) * 2024-01-11 2024-02-13 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备及存储介质
CN118134955A (zh) * 2024-05-07 2024-06-04 江苏物润船联网络股份有限公司 基于人工智能的无绿幕人像自动抠图方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230054283A1 (en) * 2021-08-20 2023-02-23 Kwai Inc. Methods and apparatuses for generating style pictures
CN116128734B (zh) * 2023-04-17 2023-06-23 湖南大学 一种基于深度学习的图像拼接方法、装置、设备和介质
CN117036355B (zh) * 2023-10-10 2023-12-15 湖南大学 编码器和模型的训练方法、故障检测方法及相关设备
CN117078564B (zh) * 2023-10-16 2024-01-12 北京网动网络科技股份有限公司 视频会议画面的智能生成方法及其***
CN117934932A (zh) * 2024-01-17 2024-04-26 湖南工商大学 一种人物交互关系检测方法、终端设备及介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145922A (zh) * 2018-09-10 2019-01-04 成都品果科技有限公司 一种自动抠图***
WO2019136623A1 (en) * 2018-01-10 2019-07-18 Nokia Technologies Oy Apparatus and method for semantic segmentation with convolutional neural network
CN110298844A (zh) * 2019-06-17 2019-10-01 艾瑞迈迪科技石家庄有限公司 X光造影图像血管分割与识别方法及装置
CN110472542A (zh) * 2019-08-05 2019-11-19 深圳北斗通信科技有限公司 一种基于深度学习的红外图像行人检测方法及检测***
US20200020108A1 (en) * 2018-07-13 2020-01-16 Adobe Inc. Automatic Trimap Generation and Image Segmentation
CN110837831A (zh) * 2019-10-31 2020-02-25 中国石油大学(华东) 基于改进ssd网络的候选框生成方法
WO2020224424A1 (zh) * 2019-05-07 2020-11-12 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
CN112396598A (zh) * 2020-12-03 2021-02-23 中山大学 一种基于单阶段多任务协同学习的人像抠图方法及***
CN112651980A (zh) * 2020-12-01 2021-04-13 北京工业大学 一种基于显著性检测的图像三元图生成方法
CN112750111A (zh) * 2021-01-14 2021-05-04 浙江工业大学 一种牙齿全景片中疾病识别与分割方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9773196B2 (en) * 2016-01-25 2017-09-26 Adobe Systems Incorporated Utilizing deep learning for automatic digital image segmentation and stylization
US10984558B2 (en) * 2019-05-09 2021-04-20 Disney Enterprises, Inc. Learning-based sampling for image matting
US11475280B2 (en) * 2019-11-15 2022-10-18 Disney Enterprises, Inc. Data object classification using an optimized neural network
US11593948B2 (en) * 2021-02-17 2023-02-28 Adobe Inc. Generating refined alpha mattes utilizing guidance masks and a progressive refinement network

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019136623A1 (en) * 2018-01-10 2019-07-18 Nokia Technologies Oy Apparatus and method for semantic segmentation with convolutional neural network
US20200020108A1 (en) * 2018-07-13 2020-01-16 Adobe Inc. Automatic Trimap Generation and Image Segmentation
CN109145922A (zh) * 2018-09-10 2019-01-04 成都品果科技有限公司 一种自动抠图***
WO2020224424A1 (zh) * 2019-05-07 2020-11-12 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
CN110298844A (zh) * 2019-06-17 2019-10-01 艾瑞迈迪科技石家庄有限公司 X光造影图像血管分割与识别方法及装置
CN110472542A (zh) * 2019-08-05 2019-11-19 深圳北斗通信科技有限公司 一种基于深度学习的红外图像行人检测方法及检测***
CN110837831A (zh) * 2019-10-31 2020-02-25 中国石油大学(华东) 基于改进ssd网络的候选框生成方法
CN112651980A (zh) * 2020-12-01 2021-04-13 北京工业大学 一种基于显著性检测的图像三元图生成方法
CN112396598A (zh) * 2020-12-03 2021-02-23 中山大学 一种基于单阶段多任务协同学习的人像抠图方法及***
CN112750111A (zh) * 2021-01-14 2021-05-04 浙江工业大学 一种牙齿全景片中疾病识别与分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
冉清: "人体前景的自动抠图算法", 《计算机辅助设计与图形学学报》 *
梁椅辉: "自然图像抠图技术综述", 《计算机应用研究》 *
许征波: "基于多任务深度学习的快速人像自动抠图", 《武汉大学学报(工学版)》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114373162A (zh) * 2021-12-21 2022-04-19 国网江苏省电力有限公司南通供电分公司 用于变电站视频监控的危险区域人员入侵检测方法及***
CN114373162B (zh) * 2021-12-21 2023-12-26 国网江苏省电力有限公司南通供电分公司 用于变电站视频监控的危险区域人员入侵检测方法及***
CN114840124A (zh) * 2022-03-30 2022-08-02 阿里巴巴(中国)有限公司 显示控制方法、装置、电子设备、介质及程序产品
CN115482309A (zh) * 2022-11-04 2022-12-16 平安银行股份有限公司 图像处理方法、计算机设备及存储介质
CN115543161A (zh) * 2022-11-04 2022-12-30 广州市保伦电子有限公司 一种适用于白板一体机的抠图方法及装置
CN115543161B (zh) * 2022-11-04 2023-08-15 广东保伦电子股份有限公司 一种适用于白板一体机的抠图方法及装置
CN115482309B (zh) * 2022-11-04 2023-08-25 平安银行股份有限公司 图像处理方法、计算机设备及存储介质
CN117557689A (zh) * 2024-01-11 2024-02-13 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备及存储介质
CN117557689B (zh) * 2024-01-11 2024-03-29 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备及存储介质
CN118134955A (zh) * 2024-05-07 2024-06-04 江苏物润船联网络股份有限公司 基于人工智能的无绿幕人像自动抠图方法

Also Published As

Publication number Publication date
US20230005160A1 (en) 2023-01-05
CN113408471B (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN113408471B (zh) 一种基于多任务深度学习的无绿幕人像实时抠图算法
CN111179167B (zh) 一种基于多阶段注意力增强网络的图像超分辨方法
US11651477B2 (en) Generating an image mask for a digital image by utilizing a multi-branch masking pipeline with neural networks
US11393100B2 (en) Automatically generating a trimap segmentation for a digital image by utilizing a trimap generation neural network
CN111028235B (zh) 一种利用特征融合增强边缘和细节信息的图像分割方法
CN112084859B (zh) 一种基于稠密边界块和注意力机制的建筑物分割方法
CN112884776B (zh) 一种基于合成数据集增广的深度学习抠图方法
CN113934890B (zh) 一种文字自动生成场景视频的方法及***
CN110610509A (zh) 可指定类别的优化抠图方法及***
CN113034413A (zh) 一种基于多尺度融合残差编解码器的低照度图像增强方法
WO2020043296A1 (en) Device and method for separating a picture into foreground and background using deep learning
CN112200817A (zh) 基于图像的天空区域分割和特效处理方法、装置及设备
CN115457266A (zh) 基于注意力机制的高分辨率实时自动绿幕抠像方法及***
CN114881879A (zh) 一种基于亮度补偿残差网络的水下图像增强方法
Le et al. Facial detection in low light environments using OpenCV
CN117689592A (zh) 一种基于级联自适应网络的水下图像增强方法
US12051225B2 (en) Generating alpha mattes for digital images utilizing a transformer-based encoder-decoder
CN113781376B (zh) 一种基于分治融合的高清人脸属性编辑方法
CN112164078B (zh) 基于编码器-解码器的rgb-d多尺度语义分割方法
Mironică A generative adversarial approach with residual learning for dust and scratches artifacts removal
Geetha et al. Enhancing Upscaled Image Resolution Using Hybrid Generative Adversarial Network-Enabled Frameworks
Ruan et al. ECAFormer: Low-light Image Enhancement using Cross Attention
Jiang et al. LightenDiffusion: Unsupervised Low-Light Image Enhancement with Latent-Retinex Diffusion Models
Zhang et al. Attention module combined with AU-Net architecture for image matting
Zheng et al. EFE-CNA Net: An Approach for Effective Image Deblurring Using an Edge-Sensitive Focusing Encoder

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant