CN115249306B - 图像分割模型训练方法、图像处理方法、装置及存储介质 - Google Patents

图像分割模型训练方法、图像处理方法、装置及存储介质 Download PDF

Info

Publication number
CN115249306B
CN115249306B CN202211111509.4A CN202211111509A CN115249306B CN 115249306 B CN115249306 B CN 115249306B CN 202211111509 A CN202211111509 A CN 202211111509A CN 115249306 B CN115249306 B CN 115249306B
Authority
CN
China
Prior art keywords
image
avatar
segmentation model
segmentation
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211111509.4A
Other languages
English (en)
Other versions
CN115249306A (zh
Inventor
曾颖森
沈招益
郑天航
杨思庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202211111509.4A priority Critical patent/CN115249306B/zh
Publication of CN115249306A publication Critical patent/CN115249306A/zh
Application granted granted Critical
Publication of CN115249306B publication Critical patent/CN115249306B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图像分割模型训练方法、图像处理方法、装置及存储介质,在获取非虚拟形象图像样本和非虚拟形象分割标签、虚拟形象图像样本和虚拟形象分割标签、通用图像样本和显著性分割标签之后,先利用非虚拟形象图像样本对初始图像分割模型进行训练以得到第一图像分割模型,然后利用虚拟形象图像样本和通用图像样本对第一图像分割模型进行训练以得到目标图像分割模型。本发明实施例能够更为准确地实现对虚拟形象图像的图像分割。本发明可以广泛应用于例如人工智能、智慧交通、辅助驾驶、音视频等各种需要对图像进行图像防遮挡处理的场景的信息处理技术中。

Description

图像分割模型训练方法、图像处理方法、装置及存储介质
技术领域
本发明涉及信息处理技术领域,尤其涉及一种图像分割模型训练方法、图像处理方法、装置及存储介质。
背景技术
目前在图像分割领域,常常使用语义分割模型对输入图像进行图像分割,以对输入图像中的目标对象进行定位以生成目标对象所对应的分割掩膜。
由于非虚拟形象具有类似的形象特征,因此相关技术中的语义分割模型能够对非虚拟形象图像进行较为准确的图像分割,从而可以对非虚拟形象图像中的非虚拟形象进行较为准确的定位。然而,对于虚拟形象,由于创作画风的不同,同一虚拟形象会有多种不同类型的形象特征,因此,采用相关技术中的语义分割模型对虚拟形象图像进行图像分割时,往往容易产生过拟合、泛化能力差等问题,从而无法对虚拟形象图像进行准确的图像分割。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供了一种图像分割模型训练方法、图像处理方法、装置及存储介质,能够更为准确地实现对虚拟形象图像的图像分割。
一方面,本发明实施例提供了一种图像分割模型训练方法,包括以下步骤:
获取非虚拟形象图像样本和非虚拟形象分割标签、虚拟形象图像样本和虚拟形象分割标签、通用图像样本和显著性分割标签;
利用所述非虚拟形象图像样本对初始图像分割模型进行训练,得到第一图像分割模型,其中,在利用所述非虚拟形象图像样本对所述初始图像分割模型进行训练的过程中,根据所述非虚拟形象分割标签修正所述初始图像分割模型的参数;
利用所述虚拟形象图像样本和所述通用图像样本对所述第一图像分割模型进行训练,得到目标图像分割模型,其中,在利用所述虚拟形象图像样本对所述第一图像分割模型进行训练时,根据所述虚拟形象分割标签修正所述第一图像分割模型的参数;在利用所述通用图像样本对所述第一图像分割模型进行训练时,根据所述显著性分割标签修正所述第一图像分割模型的参数。
另一方面,本发明实施例还提供了一种图像处理方法,包括以下步骤:
获取待处理图像;
将所述待处理图像输入至目标图像分割模型进行图像分割,得到第一分割图像;
利用所述第一分割图像进行图像防遮挡处理;
其中,所述目标图像分割模型通过如前面所述的图像分割模型训练方法训练得到。
另一方面,本发明实施例还提供了一种图像分割模型训练装置,包括:
样本获取单元,用于获取非虚拟形象图像样本和非虚拟形象分割标签、虚拟形象图像样本和虚拟形象分割标签、通用图像样本和显著性分割标签;
第一训练单元,用于利用所述非虚拟形象图像样本对初始图像分割模型进行训练,得到第一图像分割模型,其中,在利用所述非虚拟形象图像样本对所述初始图像分割模型进行训练的过程中,根据所述非虚拟形象分割标签修正所述初始图像分割模型的参数;
第二训练单元,用于利用所述虚拟形象图像样本和所述通用图像样本对所述第一图像分割模型进行训练,得到目标图像分割模型,其中,在利用所述虚拟形象图像样本对所述第一图像分割模型进行训练时,根据所述虚拟形象分割标签修正所述第一图像分割模型的参数;在利用所述通用图像样本对所述第一图像分割模型进行训练时,根据所述显著性分割标签修正所述第一图像分割模型的参数。
可选地,所述非虚拟形象图像样本包括不同分辨率的非虚拟形象动态图像样本;所述第一训练单元还用于:
获取不同分辨率下的不同时序长度的所述非虚拟形象动态图像样本;
利用各个分辨率下的各个时序长度的所述非虚拟形象动态图像样本对所述初始图像分割模型进行训练,得到第一图像分割模型。
可选地,所述第一训练单元还用于:
利用相同分辨率下的不同时序长度的所述非虚拟形象动态图像样本对所述初始图像分割模型进行模型迭代训练,得到第二图像分割模型;
利用不同分辨率下的不同时序长度的所述非虚拟形象动态图像样本对所述第二图像分割模型进行训练,得到第一图像分割模型。
可选地,所述相同分辨率下的不同时序长度包括第一时序长度和第二时序长度;所述第一训练单元还用于:
利用所述第一时序长度的所述非虚拟形象动态图像样本对所述初始图像分割模型进行训练,得到第三图像分割模型;
利用所述第二时序长度的所述非虚拟形象动态图像样本对所述第三图像分割模型进行训练,得到第二图像分割模型。
可选地,所述图像分割模型训练装置还包括:
第一获取单元,用于获取虚拟环境图像素材、虚拟形象图像素材和所述虚拟形象图像素材所对应的透明度通道图;
第一融合单元,用于将所述虚拟形象图像素材与所述虚拟环境图像素材进行图像融合,得到所述虚拟形象图像样本;
第二融合单元,用于将所述透明度通道图与所述虚拟环境图像素材进行图像融合,得到所述虚拟形象分割标签。
可选地,所述第一融合单元还用于:
对所述虚拟形象图像素材进行几何变换、颜色变换或添加随机噪声中的至少一种处理,得到多个目标图像素材;
将各个所述目标图像素材与所述虚拟环境图像素材进行图像融合,得到多个所述虚拟形象图像样本。
可选地,所述第二融合单元还用于:
对所述透明度通道图进行几何变换、颜色变换或添加随机噪声中的至少一种处理,得到多个目标通道图,其中,所述目标通道图与所述目标图像素材一一对应;
将各个所述目标通道图与所述虚拟环境图像素材进行图像融合,得到多个与所述虚拟形象图像样本对应的所述虚拟形象分割标签。
可选地,所述图像分割模型训练装置还包括:
第二获取单元,用于获取非虚拟形象图像素材和所述非虚拟形象图像素材所对应的非虚拟形象素材分割标签;
虚拟风格化单元,用于对所述非虚拟形象图像素材进行虚拟形象风格化,得到所述虚拟形象图像样本;
标签确定单元,用于将所述非虚拟形象素材分割标签作为所述虚拟形象分割标签。
另一方面,本发明实施例还提供了一种图像处理装置,包括:
图像获取单元,用于获取待处理图像;
图像分割单元,用于将所述待处理图像输入至目标图像分割模型进行图像分割,得到第一分割图像;
图像防遮挡单元,用于利用所述第一分割图像进行图像防遮挡处理;
其中,所述目标图像分割模型通过如前面所述的图像分割模型训练装置训练得到。
可选地,所述图像防遮挡单元还用于:
对所述第一分割图像进行高斯模糊,得到第二分割图像;
根据预设阈值对所述第二分割图像进行二值化,得到二值化图像;
对所述二值化图像进行连通域检测,得到所述二值化图像中的连通域;
根据所述连通域得到掩膜图像;
根据所述掩膜图像对所述待处理图像进行图像防遮挡处理。
可选地,所述图像防遮挡单元还用于:
对所述连通域进行空洞填补,得到填补图像;
对所述填补图像进行矢量化,得到掩膜图像。
另一方面,本发明实施例还提供了一种电子设备,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当至少一个所述程序被至少一个所述处理器执行时实现如前面所述的图像分割模型训练方法,或者实现如前面所述的图像处理方法。
另一方面,本发明实施例还提供了一种计算机可读存储介质,其中存储有处理器可执行的计算机程序,所述处理器可执行的计算机程序被处理器执行时用于实现如前面所述的图像分割模型训练方法,或者实现如前面所述的图像处理方法。
另一方面,本发明实施例还提供了一种计算机程序产品,包括计算机程序或计算机指令,所述计算机程序或所述计算机指令存储在计算机可读存储介质中,电子设备的处理器从所述计算机可读存储介质读取所述计算机程序或所述计算机指令,所述处理器执行所述计算机程序或所述计算机指令,使得所述电子设备执行如前面所述的图像分割模型训练方法,或者执行如前面所述的图像处理方法。
本发明实施例至少包括以下有益效果:在获取非虚拟形象图像样本和非虚拟形象分割标签、虚拟形象图像样本和虚拟形象分割标签、通用图像样本和显著性分割标签之后,先利用非虚拟形象图像样本对初始图像分割模型进行训练以得到第一图像分割模型,其中,在利用非虚拟形象图像样本对初始图像分割模型进行训练的过程中,根据非虚拟形象分割标签修正初始图像分割模型的参数,可以使得第一图像分割模型能够快速适应数据分布,初步提升第一图像分割模型的图像分割能力;然后利用虚拟形象图像样本和通用图像样本对第一图像分割模型进行训练以得到目标图像分割模型,其中,在利用虚拟形象图像样本对第一图像分割模型进行训练时,根据虚拟形象分割标签修正第一图像分割模型的参数,在利用通用图像样本对第一图像分割模型进行训练时,根据显著性分割标签修正第一图像分割模型的参数,可以使得目标图像分割模型能够将分割对象由非虚拟形象扩展为虚拟形象,从而能够提高对虚拟形象图像的图像分割准确性;另外,由于利用了通用图像样本和显著性分割标签对第一图像分割模型进行训练,因此可以使得目标图像分割模型能够具备显著性检测的能力,由于显著性检测对各种虚拟形象不敏感,因此不需要使用大量虚拟形象图像样本进行模型训练即可实现对各种虚拟形象图像的图像分割,不仅能够更为准确地实现对虚拟形象图像的图像分割,还能够提高对目标图像分割模型的训练效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1是本发明实施例提供的一种实施环境的示意图;
图2是本发明实施例提供的另一种实施环境的示意图;
图3是本发明实施例提供的另一种实施环境的示意图;
图4是本发明实施例提供的一种图像分割模型训练方法的流程图;
图5是本发明实施例提供的一种图像分割模型的模型结构示意图;
图6是本发明实施例提供的一种前景背景合成法的流程示意图;
图7是本发明实施例提供的一种风格迁移法的流程示意图;
图8是本发明实施例提供的一种图像处理方法的流程图;
图9是本发明实施例提供的图像分割模型训练方法及掩膜图像获取方法的整体流程图;
图10是本发明一个具体示例提供的对图像分割模型进行模型训练的流程图;
图11是本发明一个具体示例提供的对模型输出结果进行数据后处理的流程图;
图12(a)是本发明实施例提供的一种掩膜图像的示意图;
图12(b)是本发明实施例提供的另一种掩膜图像的示意图;
图13(a)是本发明实施例提供的一种经过图像防遮挡处理后的图像的示意图;
图13(b)是本发明实施例提供的另一种经过图像防遮挡处理后的图像的示意图;
图14(a)是采用本发明实施例的图像处理方法而得到的一种掩膜图像的示意图;
图14(b)是采用相关技术中的基于语义分割方法而得到的一种掩膜图像的示意图;
图14(c)是采用本发明实施例的图像处理方法而得到的另一种掩膜图像的示意图;
图14(d)是采用相关技术中的基于语义分割方法而得到的另一种掩膜图像的示意图;
图15是本发明实施例提供的一种图像分割模型训练装置的示意图;
图16是本发明实施例提供的一种图像处理装置的示意图;
图17是本发明实施例提供的一种电子设备的示意图。
具体实施方式
下面结合说明书附图和具体的实施例对本发明进行进一步的说明。所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)虚拟形象(Virtual Character),一般是指合成的形像。从虚拟形象的结构来说,虚拟形象可以是三维模型的形象,也可以是平面图像的形象。从虚拟形象的类型来说,虚拟形象可以是模拟人物形象来形成的虚拟形象,也可以是模拟动物形象来形成的虚拟形象,还可以是基于卡通、漫画中的形象来形成的虚拟形象。虚拟形象一般为虚拟角色形象,虚拟角色可以为人物、动物等。
2)非虚拟形象,是与虚拟形象相对的形象。非虚拟形象一般是指真实环境中的真实角色形象,例如可以为人物、动物等。
3)通用图像,是指包括目标对象的一般图像。其中,目标对象可以是人物、动物或植物等非虚拟形象,也可以是人物、动物或植物等非虚拟形象所对应的虚拟形象。
4)语义分割技术,是一种将标签或类别与图像中的每个像素进行关联的深度学习算法。语义分割技术可以用来识别构成可区分类别的像素集合。
5)显著性检测,是指通过智能算法模拟人的视觉,提取图像中的显著区域(即感兴趣的区域)的技术。
6)人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
7)计算机视觉技术(Computer Vision,CV),计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
8)机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
9)区块链(Blockchain),是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
10)智能交通***(Intelligent Traffic System,ITS),又称智能运输***(Intelligent Transportation System),是将先进的科学技术(信息技术、计算机技术、数据通信技术、传感器技术、电子控制技术、自动控制理论、运筹学、人工智能等)有效地综合运用于交通运输、服务控制和车辆制造,加强车辆、道路、使用者三者之间的联系,从而形成一种保障安全、提高效率、改善环境、节约能源的综合运输***。
图像分割技术可用于对输入图像实现图像防遮挡功能,例如可以用于实现对输入图像的弹幕防遮挡功能,从而提高用户的观看体验,其中,输入图像可以包括静态图像和动态图像,静态图像可以是图片或者通过三维技术搭建的静态三维图像等,动态图像可以是动图或者视频等。在相关技术中,常常使用语义分割模型对输入图像进行图像分割,以对输入图像中的目标对象进行定位以生成目标对象所对应的分割掩膜,继而可以利用该分割掩膜对目标对象实现图像防遮挡功能。为了使得语义分割模型能够准确地对输入图像进行图像分割,需要使用大量的图像样本对语义分割模型进行训练,然而,在相关技术中,由于更注重于对非虚拟形象(例如真人角色)进行语义分割,因此相关技术中所提供的样本集基本都是以非虚拟形象为主的图像样本,例如相关技术中所提供的COCO(Common Objects inContext)数据集或者PASCAL-VOC数据集等,都是以真人角色为主的图像样本数据集,而且,由于非虚拟形象具有类似的形象特征,因此相关技术中的语义分割模型往往能够对非虚拟形象图像进行较为准确的图像分割,从而可以对非虚拟形象图像中的非虚拟形象进行较为准确的定位。然而,对于虚拟形象,由于不同作者的创作画风不同,同一虚拟形象会有多种不同类型的形象特征,因此,如果采用相关技术中的语义分割模型对虚拟形象图像进行图像分割,往往容易产生过拟合、泛化能力差等问题,从而无法对虚拟形象图像进行准确的图像分割,进而无法有效地实现对虚拟形象图像的图像防遮挡功能。
为了能够提高对虚拟形象图像进行图像分割的准确性,本发明实施例提供了一种图像分割模型训练方法、图像处理方法、图像分割模型训练装置、图像处理装置、电子设备、计算机可读存储介质以及计算机程序产品,在获取非虚拟形象图像样本和非虚拟形象分割标签、虚拟形象图像样本和虚拟形象分割标签、通用图像样本和显著性分割标签之后,先利用非虚拟形象图像样本对初始图像分割模型进行训练以得到第一图像分割模型,其中,在利用非虚拟形象图像样本对初始图像分割模型进行训练的过程中,根据非虚拟形象分割标签修正初始图像分割模型的参数,可以使得第一图像分割模型能够快速适应数据分布,初步提升第一图像分割模型的图像分割能力;然后利用虚拟形象图像样本和通用图像样本对第一图像分割模型进行训练以得到目标图像分割模型,其中,在利用虚拟形象图像样本对第一图像分割模型进行训练时,根据虚拟形象分割标签修正第一图像分割模型的参数,在利用通用图像样本对第一图像分割模型进行训练时,根据显著性分割标签修正第一图像分割模型的参数,可以使得目标图像分割模型能够将分割对象由非虚拟形象扩展为虚拟形象,从而能够提高对虚拟形象图像的图像分割准确性;另外,由于利用了通用图像样本和显著性分割标签对第一图像分割模型进行训练,因此可以使得目标图像分割模型能够具备显著性检测的能力,由于显著性检测对各种虚拟形象不敏感,因此不需要使用大量虚拟形象图像样本进行模型训练即可实现对各种虚拟形象图像的图像分割,不仅能够更为准确地实现对虚拟形象图像的图像分割,还能够提高对目标图像分割模型的训练效率。
本发明实施例提供的方案涉及人工智能的机器学习等技术,具体通过如下的各个实施例进行相应的说明。
图1是本发明实施例提供的一种实施环境的示意图。参照图1,该实施环境包括终端101和服务器102。终端101和服务器102通过有线或无线通信方式进行直接或间接的连接,其中,终端101和服务器102可以为区块链中的节点,本实施例对此并不作具体限定。
终端101可以包括但不限于智能手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等具有显示屏的智能设备。可选地,终端101可以安装有用于播放静态图像或动态图像的播放器应用程序,用户通过该播放器应用程序观看静态图像或动态图像时,可以发布例如文字弹幕、图像弹幕等叠加呈现在静态图像或动态图像之上的内容,也可以观看其他用户所发布的例如文字弹幕、图像弹幕等叠加呈现在静态图像或动态图像之上的内容,还可以观看服务器102所发布的例如***消息等叠加呈现在静态图像或动态图像之上的内容。
终端101至少具有发起请求和显示图像等功能,例如,终端101能够响应于用户打开图像防遮挡功能的操作,向服务器102发送对于掩膜图像的获取请求,在接收到服务器102根据该获取请求所反馈的掩膜图像之后,根据该掩膜图像进行图像防遮挡处理,并显示经过图像防遮挡处理的图像。又如,终端101能够响应于播放带有图像防遮挡功能的视频的操作,向服务器102请求带有掩膜图像的目标视频,在接收到服务器102所反馈的带有掩膜图像的目标视频之后,显示利用该掩膜图像实现图像防遮挡功能的该目标视频。此外,终端101还可以从服务器102下载经过训练的图像分割模型,终端101可以响应于播放视频的操作,将待播放的视频帧图像输入至该图像分割模型进行图像分割,得到对应的掩膜图像,然后利用该掩膜图像对待播放的视频帧图像进行图像防遮挡处理,接着显示经过图像防遮挡处理的视频帧图像。需要说明的是,掩膜图像是用于对待处理图像进行全局或局部遮挡的图像,掩膜图像可以使得叠加呈现于待处理图像之上的内容在待处理图像的全局范围内或者局部位置处不显示,此外,掩膜图像不会影响待处理图像的正常显示。
服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。
服务器102至少具有对图像分割模型进行训练、利用训练后的图像分割模型对待处理图像进行图像分割等功能,例如,能够在获取非虚拟形象图像样本和非虚拟形象分割标签、虚拟形象图像样本和虚拟形象分割标签、通用图像样本和显著性分割标签之后,先利用非虚拟形象图像样本对初始图像分割模型进行训练以得到第一图像分割模型,其中,在利用非虚拟形象图像样本对初始图像分割模型进行训练的过程中,根据非虚拟形象分割标签修正初始图像分割模型的参数,然后利用虚拟形象图像样本和通用图像样本对第一图像分割模型进行训练以得到目标图像分割模型,其中,在利用虚拟形象图像样本对第一图像分割模型进行训练时,根据虚拟形象分割标签修正第一图像分割模型的参数,在利用通用图像样本对第一图像分割模型进行训练时,根据显著性分割标签修正第一图像分割模型的参数。又如,能够根据来自终端101的针对掩膜图像的获取请求和经过训练后的图像分割模型,对待处理图像进行图像分割,得到掩膜图像,然后向终端101发送该掩膜图像,使得终端101根据该掩膜图像对待处理图像进行图像防遮挡处理并显示经过图像防遮挡处理的图像;或者,能够根据来自终端101的针对带有掩膜图像的目标视频的获取请求和经过训练后的图像分割模型,对目标视频中的视频帧图像进行图像分割,得到掩膜图像,然后将掩膜图像和视频帧图像进行融合得到带有掩膜图像的目标视频,接着向终端101发送带有掩膜图像的目标视频,使得终端101可以直接显示带有掩膜图像的目标视频。
参照图1所示,在一应用场景中,假设终端101为智能手机,并且终端101安装有用于播放静态图像或动态图像的播放器应用程序(例如播放器软件或者社交媒体播放软件等)。响应于用户在观看视频的过程中触发了图像防遮挡功能,终端101向服务器102发送对于掩膜图像的获取请求;响应于接收到该获取请求,服务器102将终端101当前播放的视频中的视频帧图像输入至经过训练的图像分割模型进行图像分割,得到视频帧图像中的目标对象所对应的掩膜图像,接着向终端101发送掩膜图像;响应于接收到掩膜图像,终端101根据掩膜图像对待播放的视频帧图像进行图像防遮挡处理,并将经过图像防遮挡处理的视频帧图像进行显示。其中,服务器102对图像分割模型进行训练的过程中,在获取非虚拟形象图像样本和非虚拟形象分割标签、虚拟形象图像样本和虚拟形象分割标签、通用图像样本和显著性分割标签之后,先利用非虚拟形象图像样本对初始图像分割模型进行训练以得到第一图像分割模型,其中,在利用非虚拟形象图像样本对初始图像分割模型进行训练的过程中,根据非虚拟形象分割标签修正初始图像分割模型的参数,然后利用虚拟形象图像样本和通用图像样本对第一图像分割模型进行训练以得到目标图像分割模型,其中,在利用虚拟形象图像样本对第一图像分割模型进行训练时,根据虚拟形象分割标签修正第一图像分割模型的参数,在利用通用图像样本对第一图像分割模型进行训练时,根据显著性分割标签修正第一图像分割模型的参数。
参照图2所示,在另一应用场景中,假设终端101为智能手机,并且终端101安装有用于播放静态图像或动态图像的播放器应用程序(例如播放器软件或者社交媒体播放软件等)。响应于用户在观看开启了图像防遮挡功能的视频,终端101向服务器102请求经过图像防遮挡处理的目标视频;响应于接收到针对经过图像防遮挡处理的目标视频的请求信息,服务器102将待播放的视频帧图像输入至经过训练的图像分割模型进行图像分割,得到视频帧图像中的目标对象所对应的掩膜图像,然后根据掩膜图像对待播放的视频帧图像进行图像防遮挡处理,得到经过图像防遮挡处理的目标视频,接着向终端101发送经过图像防遮挡处理的目标视频;响应于接收到经过图像防遮挡处理的目标视频,终端101显示经过图像防遮挡处理的目标视频。其中,服务器102对图像分割模型进行训练的过程中,在获取非虚拟形象图像样本和非虚拟形象分割标签、虚拟形象图像样本和虚拟形象分割标签、通用图像样本和显著性分割标签之后,先利用非虚拟形象图像样本对初始图像分割模型进行训练以得到第一图像分割模型,其中,在利用非虚拟形象图像样本对初始图像分割模型进行训练的过程中,根据非虚拟形象分割标签修正初始图像分割模型的参数,然后利用虚拟形象图像样本和通用图像样本对第一图像分割模型进行训练以得到目标图像分割模型,其中,在利用虚拟形象图像样本对第一图像分割模型进行训练时,根据虚拟形象分割标签修正第一图像分割模型的参数,在利用通用图像样本对第一图像分割模型进行训练时,根据显著性分割标签修正第一图像分割模型的参数。
参照图3所示,在一应用场景中,假设终端101为车载终端,并且终端101安装有用于播放静态图像或动态图像的播放器应用程序(例如播放器软件或者社交媒体播放软件等),另外,终端101还预先从服务器102下载了经过训练的图像分割模型。响应于用户在观看视频的过程中触发了图像防遮挡功能,终端101将待播放的视频帧图像输入至该经过训练的图像分割模型进行图像分割,得到视频帧图像中的目标对象所对应的掩膜图像,然后根据掩膜图像对待播放的视频帧图像进行图像防遮挡处理,接着将经过图像防遮挡处理的视频帧图像进行显示。其中,服务器102对图像分割模型进行训练的过程中,在获取非虚拟形象图像样本和非虚拟形象分割标签、虚拟形象图像样本和虚拟形象分割标签、通用图像样本和显著性分割标签之后,先利用非虚拟形象图像样本对初始图像分割模型进行训练以得到第一图像分割模型,其中,在利用非虚拟形象图像样本对初始图像分割模型进行训练的过程中,根据非虚拟形象分割标签修正初始图像分割模型的参数,然后利用虚拟形象图像样本和通用图像样本对第一图像分割模型进行训练以得到目标图像分割模型,其中,在利用虚拟形象图像样本对第一图像分割模型进行训练时,根据虚拟形象分割标签修正第一图像分割模型的参数,在利用通用图像样本对第一图像分割模型进行训练时,根据显著性分割标签修正第一图像分割模型的参数。
需要说明的是,在本发明的各个具体实施方式中,当涉及到需要根据对象(例如用户等)的属性信息或属性信息集合等与对象的特性相关的数据进行相关处理时,都会先获得对应对象的许可或者同意,而且,对这些数据的收集、使用和处理等,都会遵守相关国家和地区的相关法律法规和标准。此外,当本发明实施例需要获取对象的属性信息时,会通过弹窗或者跳转到确认页面等方式获得对应对象的单独许可或者单独同意,在明确获得对应对象的单独许可或者单独同意之后,再获取用于使本发明实施例能够正常运行的必要的对象的相关数据。
本发明实施例可应用于各种需要对图像进行图像防遮挡处理的场景,包括但不限于视频、直播等领域中的图像防遮挡场景。
图4是本发明实施例提供的一种图像分割模型训练方法的流程图,该图像分割模型训练方法可以由终端或服务器执行,也可以由终端和服务器共同执行,在本发明实施例中,以该方法由服务器执行为例进行说明。参照图4,该图像分割模型训练方法包括但不限于步骤110至步骤130。
步骤110:获取非虚拟形象图像样本和非虚拟形象分割标签、虚拟形象图像样本和虚拟形象分割标签、通用图像样本和显著性分割标签。
本步骤中,非虚拟形象分割标签是与非虚拟形象图像样本对应的标签信息,当采用非虚拟形象图像样本对图像分割模型进行训练时,非虚拟形象分割标签可以作为模型训练过程中用于修正模型参数的标签信息;虚拟形象分割标签是与虚拟形象图像样本对应的标签信息,当采用虚拟形象图像样本对图像分割模型进行训练时,虚拟形象分割标签可以作为模型训练过程中用于修正模型参数的标签信息;显著性分割标签是与通用图像样本对应的标签信息,当采用通用图像样本对图像分割模型进行训练时,显著性分割标签可以作为模型训练过程中用于修正模型参数的标签信息。需要说明的是,非虚拟形象图像样本、虚拟形象图像样本和通用图像样本,均可以包括静态图像和动态图像,其中,静态图像可以是图片或者通过三维技术搭建的静态三维图像等,动态图像可以是动图或者视频等。
在一可能的实施方式中,非虚拟形象图像样本和非虚拟形象分割标签可从相关技术所提供的数据集中获得,例如,可从相关技术所提供的COCO数据集或者PASCAL-VOC数据集等不同数据集中获得,此处不作具体限定。其中,COCO数据集是本领域常用的可以用来进行图像识别的数据集,COCO数据集中包括训练集、验证集和测试集。PASCAL-VOC数据集是PASCAL-VOC挑战赛的数据集,可应用于图像识别中目标分类、目标检测、目标分割、人体布局、动作识别等方面的应用。此外,非虚拟形象图像样本还可以通过采集网络上的公开图像而获得,在这种情况下,非虚拟形象分割标签可以通过对非虚拟形象图像样本进行人工标注而得到,或者,可以采用语义分割模型对非虚拟形象图像样本进行图像分割而得到,此处不作具体限定。其中,语义分割模型可以由深度神经网络或者深度卷积神经网络等构成,此处不作具体限定。
在一可能的实施方式中,虚拟形象图像样本可以通过采集网络上的公开图像而获得,在这种情况下,虚拟形象分割标签可以通过对虚拟形象图像样本进行人工标注而得到,或者,可以采用语义分割模型对虚拟形象图像样本进行图像分割而得到,此处不作具体限定。另外,虚拟形象图像样本和虚拟形象分割标签还可以通过前景背景合成法或者风格迁移法而获得,此处不作具体限定。需要说明的是,前景背景合成法和风格迁移法的具体方法内容,将在后续的内容中详细给出。
在一可能的实施方式中,通用图像样本可以从COCO数据集或者PASCAL-VOC数据集等不同数据集中获得,也可以通过采集网络上的公开图像而获得,此处不作具体限定。显著性分割标签可以通过采用常规的显著性检测模型对通用图像样本进行显著性检测而得到,其中,显著性检测模型可以为基于区域建议的深度学习目标检测模型或者基于回归的深度学习目标检测模型等,此处不作具体限定。其中,基于区域建议的深度学习目标检测模型可以包括区域卷积神经网络(Region Convolutional Neural Networks,R-CNN)模型、空间金字塔池化(Spatial Pyramid Pooling Network,SPP-Net)模型或者区域全卷积神经网络(Region Fully Convolutional Networks,R-FCN)模型等,此处不作具体限定。基于回归的深度学习目标检测模型可以包括YOLO(You Only Look Once)模型、单步多框目标检测(Single ShotMultibox Detector,SSD)模型或者非极大值抑制(Non MaximumSuppression,NMS)模型等,此处不作具体限定。需要说明的是,R-CNN模型、SPP-Net模型、R-FCN模型、YOLO模型、SSD模型和NMS模型等,均是本领域的常用模型,这些模型的具体模型结构,可以参考相关技术中的相关描述,此处不再赘述。
步骤120:利用非虚拟形象图像样本对初始图像分割模型进行训练,得到第一图像分割模型,其中,在利用非虚拟形象图像样本对初始图像分割模型进行训练的过程中,根据非虚拟形象分割标签修正初始图像分割模型的参数。
本步骤中,由于在步骤110中获取到了非虚拟形象图像样本和非虚拟形象分割标签,因此可以利用非虚拟形象图像样本对初始图像分割模型进行训练,得到第一图像分割模型,使得第一图像分割模型能够快速适应数据分布,初步提升第一图像分割模型的图像分割能力。其中,由于非虚拟形象分割标签可以作为模型训练过程中用于修正模型参数的标签信息,因此在利用非虚拟形象图像样本对初始图像分割模型进行训练的过程中,当初始图像分割模型输出与非虚拟形象图像样本对应的图像分割信息时,可以根据非虚拟形象分割标签和初始图像分割模型所输出的图像分割信息计算得到损失值,然后根据计算得到的损失值修正初始图像分割模型的参数,直到损失值小于预设的损失阈值。需要说明的是,预设的损失阈值可以根据实际应用情况进行适当的选择,此处不作具体限定。
在一可能的实施方式中,假设非虚拟形象图像样本为非虚拟形象视频样本,那么在利用非虚拟形象图像样本对初始图像分割模型进行训练时,可以每次均连续取第一数量(例如15帧等)的视频样本帧对初始图像分割模型进行训练,其中,这些视频样本帧均可以为低分辨率的视频帧,可以使得初始图像分割模型在训练过程中能够快速地对视频样本帧进行图像分割,让初始图像分割模型能够快速适应数据分布,初步实现对非虚拟形象图像样本的分割任务,从而能够初步提升第一图像分割模型的图像分割能力。
步骤130:利用虚拟形象图像样本和通用图像样本对第一图像分割模型进行训练,得到目标图像分割模型,其中,在利用虚拟形象图像样本对第一图像分割模型进行训练时,根据虚拟形象分割标签修正第一图像分割模型的参数;在利用通用图像样本对第一图像分割模型进行训练时,根据显著性分割标签修正第一图像分割模型的参数。
本步骤中,由于在步骤110中获取到了虚拟形象图像样本和虚拟形象分割标签、通用图像样本和显著性分割标签,并且在步骤120中训练得到了第一图像分割模型,因此可以利用虚拟形象图像样本和通用图像样本对第一图像分割模型进行训练,得到目标图像分割模型,使得目标图像分割模型能够将分割对象由非虚拟形象扩展为虚拟形象,从而能够提高对虚拟形象图像的图像分割准确性,而且,由于利用了通用图像样本对第一图像分割模型进行训练,因此可以使得目标图像分割模型能够具备显著性检测的能力,由于显著性检测能够在画面中区分视觉上最明显的区域,并根据该区域的边缘将该区域分割出来,也就是说,显著性检测能够通过分析画面的结构而区分出图像前景(即虚拟形象)和图像背景,因此显著性检测对各种虚拟形象不敏感,所以不需要使用大量虚拟形象图像样本进行模型训练即可实现对各种虚拟形象图像的图像分割,不仅能够更为准确地实现对虚拟形象图像的图像分割,还能够提高对目标图像分割模型的训练效率。
需要说明的是,利用虚拟形象图像样本和通用图像样本对第一图像分割模型进行训练,可以是分别利用虚拟形象图像样本和通用图像样本对第一图像分割模型进行训练,也可以是将虚拟形象图像样本和通用图像样本作为一个整体的样本集同时对第一图像分割模型进行训练,此处不作具体限定。当分别利用虚拟形象图像样本和通用图像样本对第一图像分割模型进行训练时,可以先利用虚拟形象图像样本对第一图像分割模型进行训练,当完成训练之后,再利用通用图像样本对训练后的第一图像分割模型进行训练,当完成训练之后,即可得到目标图像分割模型。或者,也可以先利用通用图像样本对第一图像分割模型进行训练,当完成训练之后,再利用虚拟形象图像样本对训练后的第一图像分割模型进行训练,当完成训练之后,即可得到目标图像分割模型。其中,由于虚拟形象分割标签和显著性分割标签均可以作为模型训练过程中用于修正模型参数的标签信息,因此,在利用虚拟形象图像样本对第一图像分割模型进行训练的过程中,当第一图像分割模型输出与虚拟形象图像样本对应的图像分割信息时,可以根据虚拟形象分割标签和第一图像分割模型所输出的图像分割信息计算得到损失值,然后根据计算得到的损失值修正第一图像分割模型的参数,直到损失值小于预设的损失阈值;在利用通用图像样本对第一图像分割模型进行训练的过程中,当第一图像分割模型输出与通用图像样本对应的图像分割信息时,可以根据显著性分割标签和第一图像分割模型所输出的图像分割信息计算得到损失值,然后根据计算得到的损失值修正第一图像分割模型的参数,直到损失值小于预设的损失阈值。
在一可能的实施方式中,假设前面已经采用非虚拟形象视频样本对初始图像分割模型进行训练,那么当完成对初始图像分割模型的训练而得到第一图像分割模型之后,可以采用图片数据形式的的虚拟形象图像样本和通用图像样本对第一图像分割模型进行训练,并且虚拟形象图像样本和通用图像样本均可以为低分辨率的图片数据,可以使得第一图像分割模型在训练过程中能够快速地对图片数据进行图像分割,使得得到的目标图像分割模型能够将分割对象由非虚拟形象扩展为虚拟形象,从而能够提高对虚拟形象图像的图像分割准确性。
在一可能的实施方式中,图像分割模型(即初始图像分割模型、第一图像分割模型和目标图像分割模型)可以包括输入模块、多个编码模块、多个门控循环单元(GateRecurrent Unit,GRU)模块、多个上采样模块、多个解码模块和输出模块等,其中,GRU模块是循环神经网络的一种,能够解决长期记忆和反向传播中的梯度等问题。例如,图像分割模型的模型结构可以如图5所示,在图5中,图像分割模型包括4个编码模块、4个GRU模块、4个上采样模块、3个解码模块和输出模块,其中,编码模块的输出包括第一输出和第二输出,第一输出连接至对应的解码模块,第二输出连接至下一层编码模块,并且,该下一层编码模块的输出在经过对应的GRU模块和上采样模块的处理后,会与上一层编码模块的第一输出进行特征串联,再连接到该上一层编码模块所对应的解码模块,也就是说,图像分割模型的整体结构呈现为深浅层结构,深层编码模块的输出会先与浅层编码模块的输出进行特征串联,然后连接到浅层编码模块所对应的解码模块。需要说明的是,最深层编码模块的输出只有一个,该输出在经过对应的GRU模块和上采样模块的处理后,即可与上一层编码模块的输出进行特征串联,并不需要经过解码模块的处理。在该图像分割模型中,编码模块、解码模块和输出模块均可以为多层卷积神经网络,其中,该多层卷积神经网络可以包括依次连接的卷积层、批量归一化层和ReLU激活层,该多层卷积神经网络能够对图片画面的特征进行提取。另外,GRU模块能够保留视频帧的运动信息,可以使得网络的输出结果更加平滑,从而能够提高特征的表达能力。在一实施例中,输入到图像分割模型的输入数据可以是连续的视频帧,该输入数据在经过图像分割模型中各个模块的处理后,可以输出单通道的分割图,其中,该输出的分割图中的各个像素取值在0到1之间,像素的取值大小代表该像素为感兴趣的图像前景的置信度。
需要说明的是,在一可能的实施方式中,图像分割模型中的编码模块和解码模块还可以采用残差网络(Residual Network,ResNet)、VGG网络(Visual Geometry GroupNetwork)、MobileNet或者其他类型的深度卷积神经网络实现,此处不作具体限定。其中,ResNet、VGG网络和MobileNet等,均是本领域常用的神经网络,这些神经网络的具体结构以及相关说明,可以参考相关技术中的相关描述,此处不再赘述。
此外,在一可能的实施方式中,还可以使用例如U2-Net等其他的可用于显著性检测任务的模型实现本实施例中的图像分割模型。其中,U2-Net是一个两层嵌套的U型结构的网络模型,在U2-Net中,通过采用残差U-block(ReSidual U-block,RSU)融合不同尺寸接受野的特征,能够捕获更多不同尺度的上下文信息,此外,在这些RSU块中,通过使用池化操作,能够增加整个网络架构的深度而不会显著增加计算成本。
本实施例中,通过包括前面步骤110至步骤130的图像分割模型训练方法,在获取非虚拟形象图像样本和非虚拟形象分割标签、虚拟形象图像样本和虚拟形象分割标签、通用图像样本和显著性分割标签之后,先利用非虚拟形象图像样本对初始图像分割模型进行训练以得到第一图像分割模型,其中,在利用非虚拟形象图像样本对初始图像分割模型进行训练的过程中,根据非虚拟形象分割标签修正初始图像分割模型的参数,可以使得第一图像分割模型能够快速适应数据分布,初步提升第一图像分割模型的图像分割能力;然后利用虚拟形象图像样本和通用图像样本对第一图像分割模型进行训练以得到目标图像分割模型,其中,在利用虚拟形象图像样本对第一图像分割模型进行训练时,根据虚拟形象分割标签修正第一图像分割模型的参数,在利用通用图像样本对第一图像分割模型进行训练时,根据显著性分割标签修正第一图像分割模型的参数,可以使得目标图像分割模型能够将分割对象由非虚拟形象扩展为虚拟形象,从而能够提高对虚拟形象图像的图像分割准确性;另外,由于利用了通用图像样本和显著性分割标签对第一图像分割模型进行训练,因此可以使得目标图像分割模型能够具备显著性检测的能力,由于显著性检测能够在画面中区分视觉上最明显的区域,并根据该区域的边缘将该区域分割出来,也就是说,显著性检测能够通过分析画面的结构而区分出图像前景(即虚拟形象)和图像背景,因此显著性检测对各种虚拟形象不敏感,所以不需要使用大量虚拟形象图像样本进行模型训练即可实现对各种虚拟形象图像的图像分割,不仅能够更为准确地实现对虚拟形象图像的图像分割,还能够提高对目标图像分割模型的训练效率。
在一可能的实施方式中,非虚拟形象图像样本可以包括不同分辨率的非虚拟形象动态图像样本,在这种情况下,当利用非虚拟形象图像样本对初始图像分割模型进行训练以得到第一图像分割模型时,可以先获取不同分辨率下的不同时序长度的非虚拟形象动态图像样本,然后利用各个分辨率下的各个时序长度的非虚拟形象动态图像样本对初始图像分割模型进行训练,得到第一图像分割模型。例如,假设非虚拟形象图像样本包括高分辨率的非虚拟形象动态图像样本和低分辨率的非虚拟形象动态图像样本,那么在获取不同分辨率下的不同时序长度的非虚拟形象动态图像样本时,可以随机获取连续15帧低分辨率的非虚拟形象动态图像样本、连续6帧高分辨率的非虚拟形象动态图像样本和连续40帧低分辨率的非虚拟形象动态图像样本等多种非虚拟形象动态图像样本,然后利用这些非虚拟形象动态图像样本对初始图像分割模型进行训练,使得训练后得到的第一图像分割模型能够适应不同分辨率的图像以及长短时序信息,从而能够更好地实现对各种尺寸、各种时序长度的图像(例如各种尺寸、各种时长的视频等)的分割效果。
在一可能的实施方式中,在利用各个分辨率下的各个时序长度的非虚拟形象动态图像样本对初始图像分割模型进行训练以得到第一图像分割模型时,可以先利用相同分辨率下的不同时序长度的非虚拟形象动态图像样本对初始图像分割模型进行模型迭代训练,得到第二图像分割模型,然后利用不同分辨率下的不同时序长度的非虚拟形象动态图像样本对第二图像分割模型进行训练,得到第一图像分割模型。其中,利用相同分辨率下的不同时序长度的非虚拟形象动态图像样本对初始图像分割模型进行模型迭代训练,是指先利用某一时序长度的非虚拟形象动态图像样本对初始图像分割模型进行训练,修正初始图像分割模型的模型参数,直到训练后的初始图像分割模型适应该时序长度的非虚拟形象动态图像样本,然后利用相同分辨率下的另一时序长度的非虚拟形象动态图像样本对训练后的初始图像分割模型进行进一步的训练。利用不同分辨率下的不同时序长度的非虚拟形象动态图像样本对第二图像分割模型进行训练,是指将不同分辨率下不同时序长度的非虚拟形象动态图像样本作为一个整体的样本集,然后利用该整体的样本集对第二图像分割模型进行训练。通过利用相同分辨率下的不同时序长度的非虚拟形象动态图像样本对初始图像分割模型进行模型迭代训练,可以使得训练后得到的第二图像分割模型能够适应不同的时序信息,从而能够提高对不同时序长度的图像的分割效果。另外,通过利用不同分辨率下的不同时序长度的非虚拟形象动态图像样本对第二图像分割模型进行训练,可以使得训练后得到的第一图像分割模型能够适应不同分辨率的图像以及长短时序信息,从而能够更好地实现对各种尺寸、各种时序长度的图像(例如各种尺寸、各种时长的视频等)的分割效果。
在一可能的实施方式中,相同分辨率下的不同时序长度可以包括第一时序长度和第二时序长度,在这种情况下,在利用相同分辨率下的不同时序长度的非虚拟形象动态图像样本对初始图像分割模型进行模型迭代训练以得到第二图像分割模型时,可以先利用第一时序长度的非虚拟形象动态图像样本对初始图像分割模型进行训练,得到第三图像分割模型,然后利用第二时序长度的非虚拟形象动态图像样本对第三图像分割模型进行训练,得到第二图像分割模型。其中,第一时序长度可以大于第二时序长度,也可以小于第二时序长度,此处不作具体限定。例如,在一实施例中,假设第一时序长度的非虚拟形象动态图像样本为连续15帧低分辨率的视频帧,第二时序长度的非虚拟形象动态图像样本为连续50帧低分辨率的视频帧,那么可以先利用该连续15帧低分辨率的视频帧对初始图像分割模型进行训练,使得训练后得到的第三图像分割模型能够快速适用数据分布,初步提升第三图像分割模型的图像分割能力,然后利用该连续50帧低分辨率的视频帧对第三图像分割模型进行训练,使得训练后得到的第二图像分割模型能够适应长时序信息,能够更充分地利用先前的视频帧实现更佳的图像分割效果。
在一可能的实施方式中,为了减少通过网络上的公开图像采集虚拟形象图像样本的人工成本以及对虚拟形象图像样本进行人工标注获得虚拟形象分割标签的人工成本,虚拟形象图像样本和虚拟形象分割标签可以通过前景背景合成法或者风格迁移法而获得。
如图6所示,图6是一个实施例所提供的前景背景合成法的流程示意图。当通过前景背景合成法获得虚拟形象图像样本和虚拟形象分割标签时,可以先获取虚拟环境图像素材、虚拟形象图像素材和虚拟形象图像素材所对应的透明度通道图,然后将虚拟形象图像素材与虚拟环境图像素材进行图像融合,得到虚拟形象图像样本,接着将透明度通道图与虚拟环境图像素材进行图像融合,得到虚拟形象分割标签。其中,虚拟环境图像素材、虚拟形象图像素材和透明度通道图,均可以通过采集网络上的公开图像而获得。需要说明的是,由于在获得虚拟环境图像素材、虚拟形象图像素材和透明度通道图之后,可以将虚拟形象图像素材与虚拟环境图像素材进行图像融合以得到虚拟形象图像样本,以及将透明度通道图与虚拟环境图像素材进行图像融合以得到虚拟形象分割标签,也就是说,在通过网络上的公开图像而获得虚拟环境图像素材、虚拟形象图像素材和透明度通道图时,并不需要获取大量的素材信息,可以只收集少量的素材信息,即可通过图像融合的方式扩展虚拟形象图像样本和虚拟形象分割标签的数量,从而可以减少采集虚拟形象图像样本的人工成本以及对虚拟形象图像样本进行人工标注以获得虚拟形象分割标签的人工成本。需要说明的是,在将虚拟形象图像素材与虚拟环境图像素材进行图像融合时,可以将虚拟形象图像素材叠加显示在虚拟环境图像素材之上,从而得到虚拟形象图像样本;在将透明度通道图与虚拟环境图像素材进行图像融合时,可以将透明度通道图叠加显示在虚拟环境图像素材之上,从而得到虚拟形象分割标签。其中,透明度通道图是一种记录图像透明度信息的特殊图层,可用于进行选区的保护,还可以将选区存储为灰度图像,通过编辑透明度通道图可以对选区进行修改。透明度通道图中可以包括有白色、黑色和灰色这3种颜色,其中,白色代表可以被选择的区域,属于不透明的实色区域;黑色代表不能选择的区域,属于不包含像素信息的区域;灰色代表可以被部分选择区域,即常见的羽化区域。
在一可能的实施方式中,在将虚拟形象图像素材与虚拟环境图像素材进行图像融合以得到虚拟形象图像样本时,可以先对虚拟形象图像素材进行几何变换、颜色变换或添加随机噪声中的至少一种处理,得到多个目标图像素材,然后将各个目标图像素材与虚拟环境图像素材进行图像融合,得到多个虚拟形象图像样本。另外,在将透明度通道图与虚拟环境图像素材进行图像融合以得到虚拟形象分割标签时,可以先对透明度通道图进行几何变换、颜色变换或添加随机噪声中的至少一种处理,得到多个目标通道图,其中,目标通道图与目标图像素材一一对应,接着,将各个目标通道图与虚拟环境图像素材进行图像融合,得到多个与虚拟形象图像样本对应的虚拟形象分割标签。其中,虚拟环境图像素材的数量可以是一个,也可以是多个,当虚拟环境图像素材的数量为一个时,进行图像融合之后所得到的多个虚拟形象图像样本之间会具有相同的环境背景以及不同的虚拟形象前景,而进行图像融合之后所得到的多个虚拟形象分割标签之间会具有相同的环境背景以及不同的前景分割标签;当虚拟环境图像素材的数量为多个时,进行图像融合之后所得到的多个虚拟形象图像样本之间可以具有不同的环境背景以及不同的虚拟形象前景,而进行图像融合之后所得到的多个虚拟形象分割标签之间可以具有不同的环境背景以及不同的前景分割标签。也就是说,通过对少量的虚拟形象图像素材进行几何变换、颜色变换或添加随机噪声中的至少一种数据增强处理,可以得到大量的目标图像素材,然后将这些目标图像素材与各种虚拟环境图像素材进行图像融合,可以快速地得到大量的在不同形态、不同画风、不同环境背景下的与该虚拟形象对应的虚拟形象图像样本,从而可以大大地节省通过网络上的公开图像采集虚拟形象图像样本的人工成本。此外,通过透明度通道图可以获得对应的虚拟形象图像素材的分割标注,因此,通过对透明度通道图进行与对应的虚拟形象图像素材相一致的数据增强处理,并且将数据增强后的透明度通道图与相应的各种虚拟环境图像素材进行图像融合,即可快速地得到各个虚拟形象图像样本所对应的虚拟形象分割标签,无需进行额外的人工标注,因此可以大大减少构建数据集的工作量和耗时。
如图7所示,图7是一个实施例所提供的风格迁移法的流程示意图。当通过风格迁移法获得虚拟形象图像样本和虚拟形象分割标签时,可以先获取非虚拟形象图像素材和非虚拟形象图像素材所对应的非虚拟形象素材分割标签,然后对非虚拟形象图像素材进行虚拟形象风格化,得到虚拟形象图像样本,此时,可以直接将非虚拟形象素材分割标签作为虚拟形象分割标签。其中,非虚拟形象图像素材和非虚拟形象素材分割标签从相关技术所提供的COCO数据集或者PASCAL-VOC数据集等不同数据集中获得,此处不作具体限定。另外,非虚拟形象图像素材还可以通过采集网络上的公开图像而获得,在这种情况下,非虚拟形象素材分割标签可以通过对非虚拟形象图像素材进行人工标注而得到,或者,可以采用常规的语义分割模型对非虚拟形象图像素材进行图像分割而得到,此处不作具体限定。其中,在对非虚拟形象图像素材进行虚拟形象风格化以得到虚拟形象图像样本时,可以采用图像类比方法、图像滤波方法或者机器学习方法等不同的方法对非虚拟形象图像素材进行虚拟形象风格化,此处不作具体限定。其中,图像类比方法主要是通过学习一对源图像和目标图像之间的映射关系,然后根据该映射关系以监督学习的方式定位风格化图像。图像滤波方法主要是采用一些组合的图像滤波器(例如双边滤波器和高斯滤波器等)来渲染给定的图像,使得给定的图像能够进行虚拟形象风格化。机器学习方法主要是通过经过训练的神经网络模型对非虚拟形象图像素材进行虚拟形象风格化,神经网络模型的输出即为非虚拟形象图像素材所对应的虚拟形象图像样本,其中,在训练该神经网络模型时,先利用该神经网络模型提取图像样本的内容特征和风格特征,然后将内容特征和风格特征重新组合生成虚拟形象图像,并根据生成的虚拟形象图像和作为标签信息的目标图像计算得到图像差异值,接着根据该图像差异值修正神经网络模型的模型参数,不停地迭代重建虚拟形象图像,直到生成的虚拟形象图像和作为标签信息的目标图像之间的图像差异值符合预设的阈值要求。由于非虚拟形象图像素材和非虚拟形象素材分割标签可以从相关技术所提供的COCO数据集或者PASCAL-VOC数据集等不同数据集中容易地获得,因此在获得大量的非虚拟形象图像素材和非虚拟形象素材分割标签之后,通过进行虚拟形象风格化即可得到大量的虚拟形象图像样本和虚拟形象分割标签,无需进行额外的人工标注,从而可以大大减少构建数据集的工作量和耗时。
参照图8所示,图8是本发明实施例提供的一种图像处理方法的流程图,该图像处理方法可以由终端或服务器执行,也可以由终端和服务器共同执行,在本发明实施例中,以该方法由服务器执行为例进行说明。参照图8,该图像处理方法包括但不限于步骤810至步骤830。
步骤810:获取待处理图像。
本步骤中,待处理图像可以是静态图像(如图片等),也可以是动态图像(如视频等),此处不作具体限定。例如,假设用户在通过终端中的社交媒体播放软件浏览其他用户所上传的图片的过程中,当用户为了避免弹幕信息遮挡该图片而开启了图像防遮挡功能,终端可以向服务器请求经过图像防遮挡处理的该图片,在这种情况下,服务器可以先根据该请求从数据库中获取该图片,以便于后续步骤可以根据该图片获取对应的分割图像以实现对该图片的图像防遮挡处理。又如,假设用户在通过终端中的视频播放平台观看网络视频的过程中,当用户为了避免弹幕信息遮挡该视频而开启了图像防遮挡功能,终端可以向服务器请求经过图像防遮挡处理的该视频,在这种情况下,服务器可以先根据该请求从数据库中获取该视频,以便于后续步骤可以根据该视频获取对应的分割图像以实现对该视频的图像防遮挡处理。
步骤820:将待处理图像输入至目标图像分割模型进行图像分割,得到第一分割图像,其中,目标图像分割模型通过图像分割模型训练方法训练得到。
本步骤中,由于在步骤810中获取到了待处理图像,并且目标图像分割模型已经通过前面的图像分割模型训练方法完成了训练,因此可以将待处理图像输入至目标图像分割模型进行图像分割,得到第一分割图像,以便于后续步骤可以利用该第一分割图像对该待处理图像进行图像防遮挡处理。需要说明的是,利用目标图像分割模型进行图像分割之后得到的第一分割图像,是与待处理图像中的感兴趣区域对应的分割图像,例如,假设待处理图像中的感兴趣区域为非虚拟形象区域(例如人像区域等),则第一分割图像是对应的非虚拟形象分割图像;又如,假设待处理图像中的感兴趣区域为虚拟形象区域(例如卡通形象区域等),则第一分割图像是对应的虚拟形象分割图像;再如,假设待处理图像中的感兴趣区域为植物区域,则第一分割图像是对应的植物分割图像。由于目标图像分割模型已经通过前面的图像分割模型训练方法完成了训练,而且,在进行模型训练的过程中,先利用非虚拟形象图像样本对初始图像分割模型进行初步训练得到第一图像分割模型,使得初步训练后得到的第一图像分割模型能够快速适应数据分布,初步提升第一图像分割模型的图像分割能力,然后利用虚拟形象图像样本和通用图像样本对第一图像分割模型进行进一步的训练,使得进一步训练后得到的目标图像分割模型能够将分割对象由非虚拟形象扩展为虚拟形象,从而能够提高对虚拟形象图像的图像分割准确性,而且,由于在模型的训练过程中,利用了通用图像样本和显著性分割标签对目标图像分割模型进行训练,因此可以使得目标图像分割模型能够具备显著性检测的能力,由于显著性检测对各种虚拟形象不敏感,因此能够更为准确地实现对虚拟形象图像的图像分割,所以,当待处理图像中的感兴趣区域为虚拟形象区域的情况下,利用经过前面的图像分割模型训练方法训练之后的目标图像分割模型对待处理图像进行图像分割,可以得到更为准确的与虚拟形象对应的第一分割图像,从而有利于更为准确地实现对待处理图像中的虚拟形象的图像防遮挡处理,进而可以提高用户的使用体验。
步骤830:利用第一分割图像进行图像防遮挡处理。
本步骤中,由于在步骤820中得到了与待处理图像对应的第一分割图像,因此可以利用第一分割图像对待处理图像进行图像防遮挡处理。其中,利用第一分割图像对待处理图像进行的图像防遮挡处理,可以包括多种不同的处理内容,以待处理图像中的感兴趣区域为虚拟形象区域为例,利用第一分割图像对待处理图像中的虚拟形象进行的图像防遮挡处理,可以为防止弹幕类信息遮挡待处理图像中的虚拟形象,或者可以为防止礼物类图像遮挡待处理图像中的虚拟形象,又或者可以为防止通知类信息遮挡待处理图像中的虚拟形象,此处不作具体限定。
在一可能的实施方式中,在利用第一分割图像进行图像防遮挡处理时,可以先对第一分割图像进行高斯模糊得到第二分割图像,再根据预设阈值对第二分割图像进行二值化得到二值化图像,然后对二值化图像进行连通域检测得到二值化图像中的连通域,在得到二值化图像中的连通域之后,根据连通域得到掩膜图像,接着根据掩膜图像对待处理图像进行图像防遮挡处理。其中,在对第一分割图像进行高斯模糊时,可以通过高斯卷积核对第一分割图像进行高斯模糊,对第一分割图像的边缘进行平滑处理,在完成对第一分割图像的高斯模糊之后,通过预设阈值对高斯模糊后的第一分割图像进行二值化,使得二值化后的第一分割图像的像素取值为0或者1,其中,取值为0的像素表示分割背景,取值为1的像素表示分割前景。需要说明的是,图像分割模型所输出的第一分割图像中,每个像素的取值均在0至1之间,当对第一分割图像进行高斯模糊以及二值化之后,可以使得二值化后的第一分割图像的像素取值为0或者1,以便于可以更为准确地分割图像前景(即虚拟形象)和图像背景。
需要说明的是,在一些情况下,图像前景中某些像素位置的取值可能会与图像背景中某些像素位置的取值接近或者相等,当进行二值化以及连通域检测之后,在得到的连通域范围内可能会出现空洞点从而影响后续获得的掩膜图像的准确性,为了解决这个问题,在根据连通域得到掩膜图像时,可以先对连通域进行空洞填补,例如可以将连通域内空洞点的像素值置为1,得到填补图像,然后对填补图像进行矢量化,得到掩膜图像。其中,通过对连通域进行空洞填补,可以去除连通域范围内所存在的空洞点,使得整个连通域完整。另外,在对填补图像进行矢量化时,可以使用例如Potrace等的图片矢量化工具对填补图像进行矢量化,得到矢量化之后的掩膜图像,以便于后续步骤可以利用该掩膜图像对待处理图像进行图像防遮挡处理。需要说明的是,Potrace是一种能够将像素位图转换成矢量图的常用工具,能够根据像素位图的数据信息生成对应的SVG格式的矢量图。其中,SVG(Scalable Vector Graphics,可缩放矢量图)是可交互的动态图形,SVG图像可以在不损失图像质量的前提下任意放大图形显示。
需要说明的是,掩膜图像是用于衡量透明度的一个图层,在掩膜图像中,像素值为1的位置表示该位置的透明度为0%,像素值为0的位置表示该位置的透明度为100%,即是说,掩膜图像中像素值为1的位置会显示图像,像素值为0的位置不显示图像,因此,在根据掩膜图像对待处理图像进行图像防遮挡处理时,可以将掩膜图像与待处理图像进行融合渲染,使得掩膜图像在对应于待处理图像中的感兴趣区域(例如虚拟形象区域)的位置的像素值取值为0,以及使得掩膜图像在对应于待处理图像中的感兴趣区域(例如虚拟形象区域)之外的位置的像素值取值为1,这样,待处理图像中感兴趣区域(例如虚拟形象区域)的范围内都不会显示弹幕类信息、礼物类图像或者通知类信息等内容,弹幕类信息、礼物类图像或者通知类信息等内容只会在待处理图像中的感兴趣区域(例如虚拟形象区域)之外的位置显示,因此,在视觉上可以表现为弹幕类信息、礼物类图像或者通知类信息等内容在图片或者视频中移动显示,当弹幕类信息、礼物类图像或者通知类信息等内容经过图片或者视频中的虚拟形象时,这些弹幕类信息、礼物类图像或者通知类信息等内容都不显示,只有移动到虚拟形象之外的位置时,这些弹幕类信息、礼物类图像或者通知类信息等内容才会显示,从而实现了对待处理图像的图像防遮挡处理。
下面以一些具体示例完整说明本发明实施例所提供的图像分割模型训练方法的原理以及图像处理方法的原理。
参照图9所示,图9是本发明实施例提供的图像分割模型训练方法以及掩膜图像获取方法的整体流程图,该整体流程具体包括但不限于以下步骤910至步骤940。
步骤910:构建用于训练图像分割模型的训练样本集。
本步骤中,用于训练图像分割模型的训练样本集可以包括相互对应的非虚拟形象图像样本和非虚拟形象分割标签、相互对应的虚拟形象图像样本和虚拟形象分割标签、相互对应的通用图像样本和显著性分割标签。其中,当采用非虚拟形象图像样本对图像分割模型进行训练时,非虚拟形象分割标签可以作为模型训练过程中用于修正模型参数的标签信息;当采用虚拟形象图像样本对图像分割模型进行训练时,虚拟形象分割标签可以作为模型训练过程中用于修正模型参数的标签信息;当采用通用图像样本对图像分割模型进行训练时,显著性分割标签可以作为模型训练过程中用于修正模型参数的标签信息。
本步骤中,非虚拟形象图像样本和非虚拟形象分割标签可从相关技术所提供的COCO数据集或者PASCAL-VOC数据集等不同数据集中获得,此处不作具体限定。虚拟形象图像样本和虚拟形象分割标签可以通过前面的前景背景合成法或者风格迁移法而获得,此处不作具体限定。通用图像样本可以从COCO数据集或者PASCAL-VOC数据集等不同数据集中获得,也可以通过采集网络上的公开图像而获得,此处不作具体限定;显著性分割标签可以通过采用常规的显著性检测模型对通用图像样本进行显著性检测而得到。
步骤920:构建基于深度学习的图像分割模型。
本步骤中,可以构建模型结构如前面图5所示的图像分割模型,以便于后续步骤在完成对该图像分割模型的训练之后,可以利用该图像分割模型对待处理图像进行准确的图像分割。
步骤930:利用训练样本集对图像分割模型进行四个阶段的模型训练,得到训练后的图像分割模型,即目标图像分割模型。
本步骤中,由于在步骤910中构建了训练样本集,并且在步骤920中构建了图像分割模型,因此可以利用训练样本集对图像分割模型进行四个阶段的模型训练,得到训练后的目标图像分割模型。
其中,利用训练样本集对图像分割模型进行四个阶段的模型训练的具体流程,可参照图10所示。在图10中,利用训练样本集对图像分割模型进行四个阶段的模型训练,具体可以包括但不限于以下步骤1010至步骤1040。
步骤1010:利用第一时序长度的低分辨率的非虚拟形象图像样本和非虚拟形象分割标签对图像分割模型进行训练。
本步骤中,利用第一时序长度的低分辨率的非虚拟形象图像样本和非虚拟形象分割标签对图像分割模型进行训练,使得图像分割模型能够快速适应数据分布,初步实现图像分割模型对非虚拟形象图像样本的分割任务。例如,假设非虚拟形象图像样本为包括真人角色的视频样本,那么本步骤中可以每次连续取15帧低分辨率的视频帧对图像分割模型进行训练,使得图像分割模型能够初步实现对视频帧中真人角色的分割任务。
步骤1020:利用第二时序长度的低分辨率的非虚拟形象图像样本和非虚拟形象分割标签对图像分割模型进行训练。
本步骤中,利用第二时序长度的低分辨率的非虚拟形象图像样本和非虚拟形象分割标签对图像分割模型进行训练,使得图像分割模型能够适应长时序信息,从而能够更充分地利用先前的图像样本实现更佳的图像分割效果。例如,假设非虚拟形象图像样本为包括真人角色的视频样本,那么本步骤中可以每次连续取50帧低分辨率的视频帧对图像分割模型进行训练,提高图像分割模型对长时序信息的适应能力,从而提高图像分割模型对视频帧中真人角色的图像分割能力。
步骤1030:利用第三时序长度的低分辨率的非虚拟形象图像样本和非虚拟形象分割标签,以及第四时序长度的高分辨率的非虚拟形象图像样本和非虚拟形象分割标签,对图像分割模型进行训练。
本步骤中,利用第三时序长度的低分辨率的非虚拟形象图像样本和非虚拟形象分割标签,以及第四时序长度的高分辨率的非虚拟形象图像样本和非虚拟形象分割标签,对图像分割模型进行训练,使得图像分割模型能够适应高低分辨率图像以及长短时序信息,从而能够更好地实现对各种尺寸、各种时长的非虚拟形象图像样本的分割效果。例如,假设非虚拟形象图像样本为包括真人角色的视频样本,那么本步骤中可以每次随机连续取40帧低分辨率的视频帧和6帧高分辨率的视频帧对图像分割模型进行训练,提高图像分割模型对高低分辨率画面以及长短时序信息的适应能力,从而能够更好地实现对各种尺寸、各种时长的视频中的真人角色的分割效果。
步骤1040:利用虚拟形象图像样本和虚拟形象分割标签、通用图像样本和显著性分割标签对图像分割模型进行训练。
本步骤中,虚拟形象图像样本和通用图像样本均可以为图片样本,利用虚拟形象图像样本和虚拟形象分割标签、通用图像样本和显著性分割标签对图像分割模型进行训练,能够使得训练后得到的目标图像分割模型的分割对象由非虚拟形象扩展为虚拟形象,从而能够实现基于显著性检测的目标图像分割模型的训练。例如,假设虚拟形象图像样本为包括卡通角色的图片样本,通用图像样本为图片样本,那么本步骤中可以每次取1帧低分辨率的虚拟形象图像样本和1帧低分辨率的通用图像样本对图像分割模型进行训练,将训练后得到的目标图像分割模型的分割对象由真人角色扩展为卡通角色,从而实现能够支持对卡通角色进行显著性检测的目标图像分割模型的训练。
通过上述步骤1010至步骤1040,使得训练后的目标图像分割模型能够支持对虚拟形象的准确分割,从而有利于后续步骤利用目标图像分割模型的模型输出结果对待处理图像进行图像防遮挡处理。
步骤940:利用训练后的目标图像分割模型对待处理图像进行图像分割,得到模型输出结果,对模型输出结果进行数据后处理,输出与待处理图像对应的掩膜图像。
本步骤中,由于在步骤930中得到了训练后的目标图像分割模型,因此可以利用训练后的目标图像分割模型对待处理图像进行图像分割得到模型输出结果,然后对模型输出结果进行数据后处理,输出与待处理图像对应的掩膜图像,以便于后续步骤可以利用掩膜图像对待处理图像进行图像防遮挡处理。
其中,对模型输出结果进行数据后处理的具体流程,可参照图11所示。在图11中,对模型输出结果进行数据后处理,具体可以包括但不限于以下步骤1110至步骤1150。
步骤1110:对模型输出结果进行高斯模糊。
本步骤中,模型输出结果为与待处理图像分辨率一致的单通道图像,并且每个像素的取值均在0到1之间。为了能够对模型输出结果进行数据后处理以得到准确的掩膜图像,本步骤中,可以先通过高斯卷积核对模型输出结果进行高斯模糊,对模型输出结果的边缘进行平滑处理,为后续的二值化处理提供数据基础。
步骤1120:对高斯模糊后的模型输出结果进行二值化。
本步骤中,在完成对模型输出结果的高斯模糊之后,可以通过预设阈值对高斯模糊后的模型输出结果进行二值化,使得二值化后的模型输出结果的像素取值为0或者1,其中,取值为0的像素表示分割背景,取值为1的像素表示分割前景。需要说明的是,图像分割模型所输出的模型输出结果中,每个像素的取值均在0至1之间,当对模型输出结果进行高斯模糊以及二值化之后,可以使得二值化后的模型输出结果的像素取值为0或者1,以便于可以更为准确地分割图像前景(即虚拟形象)和图像背景。
步骤1130:对二值化后的模型输出结果进行连通域检测,得到连通域。
本步骤中,在完成对模型输出结果的二值化之后,可以对二值化后的模型输出结果进行连通域检测,得到连通域,以便于后续步骤可以基于连通域获得准确的掩膜图像。
步骤1140:对连通域进行空洞填补,得到填补图像。
本步骤中,在一些情况下,图像前景中某些像素位置的取值可能会与图像背景中某些像素位置的取值接近或者相等,当进行二值化以及连通域检测之后,在得到的连通域范围内可能会出现空洞点从而影响后续获得的掩膜图像的准确性,因此可以先对连通域进行空洞填补得到填补图像,例如可以将连通域内空洞点的像素值置为1,去除连通域范围内所存在的空洞点,使得整个连通域完整。
步骤1150:对填补图像进行矢量化,得到掩膜图像。
本步骤中,由于在步骤1140中得到了填补图像,因此可以对填补图像进行矢量化,得到掩膜图像,以便于后续步骤可以利用掩膜图像对待处理图像进行图像防遮挡处理。例如,可以使用例如Potrace等的图片矢量化工具对填补图像进行矢量化,得到矢量化之后的掩膜图像。其中,对填补图像进行矢量化后得到的掩膜图像,可以如图12(a)和图12(b)所示,在图12(a)中,待处理图像中包括有3个卡通角色,因此得到的掩膜图像会与这3个卡通角色相对应,具体地,掩膜图像会包括有图像前景和图像背景,图像前景的范围与这3个卡通角色的范围相一致,而掩膜图像中除了图像前景之外的范围,均属于图像背景的范围。在图12(b)中,待处理图像中包括有1个卡通角色,因此得到的掩膜图像会与这1个卡通角色相对应,即是说,掩膜图像中的图像前景的范围会与这1个卡通角色的范围相一致。
另外,在得到掩膜图像之后,可以将掩膜图像与待处理图像进行融合渲染,使得掩膜图像在对应于待处理图像中的虚拟形象区域的位置的像素值取值为0,以及使得掩膜图像在对应于待处理图像中的虚拟形象区域之外的位置的像素值取值为1,这样,待处理图像中虚拟形象区域的范围内都不会显示弹幕类信息、礼物类图像或者通知类信息等内容,弹幕类信息、礼物类图像或者通知类信息等内容只会在待处理图像中的虚拟形象区域之外的位置显示。例如图13(a)和图13(b)所示,在图13(a)中,弹幕类信息只显示在图像背景中,并不会叠加显示在3个卡通角色中,同样地,在图13(b)中,弹幕类信息也只显示在图像背景中,并不会叠加显示在卡通角色中。
通过采用本具体示例所提供的图像分割模型训练方法以及掩膜图像获取方法的整体流程步骤,能够有效提高对虚拟形象图像的图像分割准确性,从而能够获得更为准确的掩膜图像,进而有利于利用掩膜图像对待处理图像进行图像防遮挡处理。如图14(a)、图14(b)、图14(c)和图14(d)所示,图14(a)是采用本具体示例所提供的图像分割模型训练方法以及掩膜图像获取方法的整体流程而得到的一个掩膜图像,图14(b)是采用相关技术中的基于语义分割方法而得到的一个掩膜图像,在图14(a)和图14(b)中,实线区域部分是图像前景,虚线区域部分是图像背景,因此,根据图14(a)和图14(b)可知,采用相关技术中的基于语义分割方法而得到的掩膜图像无法与所有卡通角色匹配,而采用本具体示例所提供的图像分割模型训练方法以及掩膜图像获取方法的整体流程而得到的掩膜图像,则能够与所有卡通角色准确匹配。图14(c)是采用本具体示例所提供的图像分割模型训练方法以及掩膜图像获取方法的整体流程而得到的另一个掩膜图像,图14(d)是采用相关技术中的基于语义分割方法而得到的另一个掩膜图像,在图14(c)和图14(d)中,实线区域部分是图像前景,虚线区域部分是图像背景,因此,根据图14(c)和图14(d)可知,采用相关技术中的基于语义分割方法而得到的掩膜图像无法分割出卡通角色,而采用本具体示例所提供的图像分割模型训练方法以及掩膜图像获取方法的整体流程而得到的掩膜图像,则能够准确分割出卡通角色。
下面以实际例子说明本发明实施例的应用场景。
需要说明的是,本发明实施例提供的图像处理方法可以应用于观看视频的场景或观看直播的场景等不同的应用场景,下面以观看视频的场景和观看直播的场景为例进行说明。
场景一
本发明实施例提供的图像处理方法可以应用于观看视频的场景,具体地,用户在利用智能手机或者车载终端等终端通过视频播放平台观看网络视频的过程中,发现弹幕信息会把视频中的目标对象(例如卡通角色等虚拟形象)遮挡,影响了观看体验,当用户在视频播放平台中开启图像防遮挡功能,智能手机或者车载终端等设备向服务器发送用于获取经过图像防遮挡处理的视频帧图像的请求,当服务器接收到该请求,服务器先将待播放的视频帧图像输入至经过训练的图像分割模型进行图像分割,得到视频帧图像中的目标对象(例如卡通角色等虚拟形象)所对应的第一分割图像,再对第一分割图像进行高斯模糊得到第二分割图像,然后根据预设阈值对第二分割图像进行二值化得到二值化图像,接着对二值化图像进行连通域检测得到二值化图像中的连通域,在得到二值化图像中的连通域之后,对连通域进行空洞填补得到填补图像,并对填补图像进行矢量化得到掩膜图像,在得到掩膜图像之后,服务器根据掩膜图像对待播放的视频帧图像中的目标对象(例如卡通角色等虚拟形象)进行图像防遮挡处理,然后将经过图像防遮挡处理的视频帧图像发送给终端,终端在接收到经过图像防遮挡处理的视频帧图像之后,对经过图像防遮挡处理的视频帧图像进行显示,此时,用户在观看网络视频的过程中,会发现弹幕信息不会遮挡网络视频中的目标对象(例如卡通角色等虚拟形象)。其中,服务器对图像分割模型进行训练的过程中,在获取非虚拟形象图像样本和非虚拟形象分割标签、虚拟形象图像样本和虚拟形象分割标签、通用图像样本和显著性分割标签之后,先利用非虚拟形象图像样本对初始图像分割模型进行训练以得到第一图像分割模型,其中,在利用非虚拟形象图像样本对初始图像分割模型进行训练的过程中,根据非虚拟形象分割标签修正初始图像分割模型的参数,然后利用虚拟形象图像样本和通用图像样本对第一图像分割模型进行训练以得到目标图像分割模型,其中,在利用虚拟形象图像样本对第一图像分割模型进行训练时,根据虚拟形象分割标签修正第一图像分割模型的参数,在利用通用图像样本对第一图像分割模型进行训练时,根据显著性分割标签修正第一图像分割模型的参数。
场景二
本发明实施例提供的图像处理方法可以应用于观看直播的场景,具体地,用户在利用智能手机或者车载终端等终端通过社交媒体直播平台观看直播视频的过程中,发现其他用户所发送的弹幕信息或者礼物图像会把直播视频中的目标对象(例如卡通角色等虚拟形象)遮挡,影响了观看体验,当用户在社交媒体直播平台中开启图像防遮挡功能,智能手机或者车载终端等设备向服务器发送用于获取经过图像防遮挡处理的视频帧图像的请求,当服务器接收到该请求,服务器先将待播放的视频帧图像输入至经过训练的图像分割模型进行图像分割,得到视频帧图像中的目标对象(例如卡通角色等虚拟形象)所对应的第一分割图像,再对第一分割图像进行高斯模糊得到第二分割图像,然后根据预设阈值对第二分割图像进行二值化得到二值化图像,接着对二值化图像进行连通域检测得到二值化图像中的连通域,在得到二值化图像中的连通域之后,对连通域进行空洞填补得到填补图像,并对填补图像进行矢量化得到掩膜图像,在得到掩膜图像之后,服务器根据掩膜图像对待播放的视频帧图像中的目标对象(例如卡通角色等虚拟形象)进行图像防遮挡处理,然后将经过图像防遮挡处理的视频帧图像发送给终端,终端在接收到经过图像防遮挡处理的视频帧图像之后,对经过图像防遮挡处理的视频帧图像进行显示,此时,用户在观看直播视频的过程中,会发现弹幕信息或者礼物图像不会遮挡直播视频中的目标对象(例如卡通角色等虚拟形象)。其中,服务器对图像分割模型进行训练的过程中,在获取非虚拟形象图像样本和非虚拟形象分割标签、虚拟形象图像样本和虚拟形象分割标签、通用图像样本和显著性分割标签之后,先利用非虚拟形象图像样本对初始图像分割模型进行训练以得到第一图像分割模型,其中,在利用非虚拟形象图像样本对初始图像分割模型进行训练的过程中,根据非虚拟形象分割标签修正初始图像分割模型的参数,然后利用虚拟形象图像样本和通用图像样本对第一图像分割模型进行训练以得到目标图像分割模型,其中,在利用虚拟形象图像样本对第一图像分割模型进行训练时,根据虚拟形象分割标签修正第一图像分割模型的参数,在利用通用图像样本对第一图像分割模型进行训练时,根据显著性分割标签修正第一图像分割模型的参数。
可以理解的是,虽然上述各个流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本实施例中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时间执行完成,而是可以在不同的时间执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
参照图15,本发明实施例还公开了一种图像分割模型训练装置,该图像分割模型训练装置1500能够实现如前面实施例的图像分割模型训练方法,该图像分割模型训练装置1500包括:
样本获取单元1510,用于获取非虚拟形象图像样本和非虚拟形象分割标签、虚拟形象图像样本和虚拟形象分割标签、通用图像样本和显著性分割标签;
第一训练单元1520,用于利用非虚拟形象图像样本对初始图像分割模型进行训练,得到第一图像分割模型,其中,在利用非虚拟形象图像样本对初始图像分割模型进行训练的过程中,根据非虚拟形象分割标签修正初始图像分割模型的参数;
第二训练单元1530,用于利用虚拟形象图像样本和通用图像样本对第一图像分割模型进行训练,得到目标图像分割模型,其中,在利用虚拟形象图像样本对第一图像分割模型进行训练时,根据虚拟形象分割标签修正第一图像分割模型的参数;在利用通用图像样本对第一图像分割模型进行训练时,根据显著性分割标签修正第一图像分割模型的参数。
在一实施例中,非虚拟形象图像样本包括不同分辨率的非虚拟形象动态图像样本;第一训练单元1520还用于:
获取不同分辨率下的不同时序长度的非虚拟形象动态图像样本;
利用各个分辨率下的各个时序长度的非虚拟形象动态图像样本对初始图像分割模型进行训练,得到第一图像分割模型。
在一实施例中,第一训练单元1520还用于:
利用相同分辨率下的不同时序长度的非虚拟形象动态图像样本对初始图像分割模型进行模型迭代训练,得到第二图像分割模型;
利用不同分辨率下的不同时序长度的非虚拟形象动态图像样本对第二图像分割模型进行训练,得到第一图像分割模型。
在一实施例中,相同分辨率下的不同时序长度包括第一时序长度和第二时序长度;第一训练单元1520还用于:
利用第一时序长度的非虚拟形象动态图像样本对初始图像分割模型进行训练,得到第三图像分割模型;
利用第二时序长度的非虚拟形象动态图像样本对第三图像分割模型进行训练,得到第二图像分割模型。
在一实施例中,图像分割模型训练装置1500还包括:
第一获取单元,用于获取虚拟环境图像素材、虚拟形象图像素材和虚拟形象图像素材所对应的透明度通道图;
第一融合单元,用于将虚拟形象图像素材与虚拟环境图像素材进行图像融合,得到虚拟形象图像样本;
第二融合单元,用于将透明度通道图与虚拟环境图像素材进行图像融合,得到虚拟形象分割标签。
在一实施例中,第一融合单元还用于:
对虚拟形象图像素材进行几何变换、颜色变换或添加随机噪声中的至少一种处理,得到多个目标图像素材;
将各个目标图像素材与虚拟环境图像素材进行图像融合,得到多个虚拟形象图像样本。
在一实施例中,第二融合单元还用于:
对透明度通道图进行几何变换、颜色变换或添加随机噪声中的至少一种处理,得到多个目标通道图,其中,目标通道图与目标图像素材一一对应;
将各个目标通道图与虚拟环境图像素材进行图像融合,得到多个与虚拟形象图像样本对应的虚拟形象分割标签。
在一实施例中,图像分割模型训练装置1500还包括:
第二获取单元,用于获取非虚拟形象图像素材和非虚拟形象图像素材所对应的非虚拟形象素材分割标签;
虚拟风格化单元,用于对非虚拟形象图像素材进行虚拟形象风格化,得到虚拟形象图像样本;
标签确定单元,用于将非虚拟形象素材分割标签作为虚拟形象分割标签。
需要说明的是,由于本实施例的图像分割模型训练装置1500能够实现如前面实施例的图像分割模型训练方法,因此本实施例的图像分割模型训练装置1500与前面实施例的图像分割模型训练方法,具有相同的技术原理以及相同的有益效果,为了避免内容重复,此处不再赘述。
参照图16,本发明实施例还公开了一种图像处理装置,该图像处理装置1600能够实现如前面实施例的图像处理方法,该图像处理装置1600包括:
图像获取单元1610,用于获取待处理图像;
图像分割单元1620,用于将待处理图像输入至目标图像分割模型进行图像分割,得到第一分割图像;
图像防遮挡单元1630,用于利用第一分割图像进行图像防遮挡处理;
其中,目标图像分割模型通过如前面的图像分割模型训练装置1500训练得到。
在一实施例中,图像防遮挡单元1630还用于:
对第一分割图像进行高斯模糊,得到第二分割图像;
根据预设阈值对第二分割图像进行二值化,得到二值化图像;
对二值化图像进行连通域检测,得到二值化图像中的连通域;
根据连通域得到掩膜图像;
根据掩膜图像对待处理图像进行图像防遮挡处理。
在一实施例中,图像防遮挡单元1630还用于:
对连通域进行空洞填补,得到填补图像;
对填补图像进行矢量化,得到掩膜图像。
需要说明的是,由于本实施例的图像处理装置1600能够实现如前面实施例的图像处理方法,因此本实施例的图像处理装置1600与前面实施例的图像处理方法,具有相同的技术原理以及相同的有益效果,为了避免内容重复,此处不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
参照图17,本发明实施例还公开了一种电子设备,该电子设备1700包括:
至少一个处理器1701;
至少一个存储器1702,用于存储至少一个程序;
当至少一个程序被至少一个处理器1701执行时,实现如前面所述的图像分割模型训练方法,或者实现如前面所述的图像处理方法。
本发明实施例还公开了一种计算机可读存储介质,其中存储有处理器可执行的计算机程序,处理器可执行的计算机程序被处理器执行时,用于实现如前面所述的图像分割模型训练方法,或者实现如前面所述的图像处理方法。
本发明实施例还公开了一种计算机程序产品,包括计算机程序或计算机指令,计算机程序或计算机指令存储在计算机可读存储介质中,电子设备的处理器从计算机可读存储介质读取计算机程序或计算机指令,处理器执行计算机程序或计算机指令,使得电子设备执行如前面所述的图像分割模型训练方法,或者执行如前面所述的图像处理方法。
本发明的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或装置不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其他步骤或单元。
应当理解,在本发明中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本发明所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机、服务器或者网络装置等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于上述方法实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

Claims (15)

1.一种图像分割模型训练方法,其特征在于,包括以下步骤:
获取非虚拟形象图像样本和非虚拟形象分割标签、虚拟形象图像样本和虚拟形象分割标签、通用图像样本和显著性分割标签;
利用所述非虚拟形象图像样本对初始图像分割模型进行训练,得到第一图像分割模型,其中,在利用所述非虚拟形象图像样本对所述初始图像分割模型进行训练的过程中,根据所述非虚拟形象分割标签修正所述初始图像分割模型的参数;
利用所述虚拟形象图像样本和所述通用图像样本对所述第一图像分割模型进行训练,得到目标图像分割模型,其中,在利用所述虚拟形象图像样本对所述第一图像分割模型进行训练时,根据所述虚拟形象分割标签修正所述第一图像分割模型的参数;在利用所述通用图像样本对所述第一图像分割模型进行训练时,根据所述显著性分割标签修正所述第一图像分割模型的参数。
2.根据权利要求1所述的图像分割模型训练方法,其特征在于,所述非虚拟形象图像样本包括不同分辨率的非虚拟形象动态图像样本;
所述利用所述非虚拟形象图像样本对初始图像分割模型进行训练,得到第一图像分割模型,包括:
获取不同分辨率下的不同时序长度的所述非虚拟形象动态图像样本;
利用各个分辨率下的各个时序长度的所述非虚拟形象动态图像样本对所述初始图像分割模型进行训练,得到第一图像分割模型。
3.根据权利要求2所述的图像分割模型训练方法,其特征在于,所述利用各个分辨率下的各个时序长度的所述非虚拟形象动态图像样本对所述初始图像分割模型进行训练,得到第一图像分割模型,包括:
利用相同分辨率下的不同时序长度的所述非虚拟形象动态图像样本对所述初始图像分割模型进行模型迭代训练,得到第二图像分割模型;
利用不同分辨率下的不同时序长度的所述非虚拟形象动态图像样本对所述第二图像分割模型进行训练,得到第一图像分割模型。
4.根据权利要求3所述的图像分割模型训练方法,其特征在于,所述相同分辨率下的不同时序长度包括第一时序长度和第二时序长度;
所述利用相同分辨率下的不同时序长度的所述非虚拟形象动态图像样本对所述初始图像分割模型进行模型迭代训练,得到第二图像分割模型,包括:
利用所述第一时序长度的所述非虚拟形象动态图像样本对所述初始图像分割模型进行训练,得到第三图像分割模型;
利用所述第二时序长度的所述非虚拟形象动态图像样本对所述第三图像分割模型进行训练,得到第二图像分割模型。
5.根据权利要求1所述的图像分割模型训练方法,其特征在于,所述虚拟形象图像样本和所述虚拟形象分割标签由以下步骤得到:
获取虚拟环境图像素材、虚拟形象图像素材和所述虚拟形象图像素材所对应的透明度通道图;
将所述虚拟形象图像素材与所述虚拟环境图像素材进行图像融合,得到所述虚拟形象图像样本;
将所述透明度通道图与所述虚拟环境图像素材进行图像融合,得到所述虚拟形象分割标签。
6.根据权利要求5所述的图像分割模型训练方法,其特征在于,所述将所述虚拟形象图像素材与所述虚拟环境图像素材进行图像融合,得到所述虚拟形象图像样本,包括:
对所述虚拟形象图像素材进行几何变换、颜色变换或添加随机噪声中的至少一种处理,得到多个目标图像素材;
将各个所述目标图像素材与所述虚拟环境图像素材进行图像融合,得到多个所述虚拟形象图像样本。
7.根据权利要求6所述的图像分割模型训练方法,其特征在于,所述将所述透明度通道图与所述虚拟环境图像素材进行图像融合,得到所述虚拟形象分割标签,包括:
对所述透明度通道图进行几何变换、颜色变换或添加随机噪声中的至少一种处理,得到多个目标通道图,其中,所述目标通道图与所述目标图像素材一一对应;
将各个所述目标通道图与所述虚拟环境图像素材进行图像融合,得到多个与所述虚拟形象图像样本对应的所述虚拟形象分割标签。
8.根据权利要求1所述的图像分割模型训练方法,其特征在于,所述虚拟形象图像样本和所述虚拟形象分割标签由以下步骤得到:
获取非虚拟形象图像素材和所述非虚拟形象图像素材所对应的非虚拟形象素材分割标签;
对所述非虚拟形象图像素材进行虚拟形象风格化,得到所述虚拟形象图像样本;
将所述非虚拟形象素材分割标签作为所述虚拟形象分割标签。
9.一种图像处理方法,其特征在于,包括以下步骤:
获取待处理图像;
将所述待处理图像输入至目标图像分割模型进行图像分割,得到第一分割图像;
利用所述第一分割图像进行图像防遮挡处理;
其中,所述目标图像分割模型通过权利要求1至8任意一项所述的图像分割模型训练方法训练得到。
10.根据权利要求9所述的图像处理方法,其特征在于,所述利用所述第一分割图像进行图像防遮挡处理,包括:
对所述第一分割图像进行高斯模糊,得到第二分割图像;
根据预设阈值对所述第二分割图像进行二值化,得到二值化图像;
对所述二值化图像进行连通域检测,得到所述二值化图像中的连通域;
根据所述连通域得到掩膜图像;
根据所述掩膜图像对所述待处理图像进行图像防遮挡处理。
11.根据权利要求10所述的图像处理方法,其特征在于,所述根据所述连通域得到掩膜图像,包括:
对所述连通域进行空洞填补,得到填补图像;
对所述填补图像进行矢量化,得到掩膜图像。
12.一种图像分割模型训练装置,其特征在于,包括:
样本获取单元,用于获取非虚拟形象图像样本和非虚拟形象分割标签、虚拟形象图像样本和虚拟形象分割标签、通用图像样本和显著性分割标签;
第一训练单元,用于利用所述非虚拟形象图像样本对初始图像分割模型进行训练,得到第一图像分割模型,其中,在利用所述非虚拟形象图像样本对所述初始图像分割模型进行训练的过程中,根据所述非虚拟形象分割标签修正所述初始图像分割模型的参数;
第二训练单元,用于利用所述虚拟形象图像样本和所述通用图像样本对所述第一图像分割模型进行训练,得到目标图像分割模型,其中,在利用所述虚拟形象图像样本对所述第一图像分割模型进行训练时,根据所述虚拟形象分割标签修正所述第一图像分割模型的参数;在利用所述通用图像样本对所述第一图像分割模型进行训练时,根据所述显著性分割标签修正所述第一图像分割模型的参数。
13.一种图像处理装置,其特征在于,包括:
图像获取单元,用于获取待处理图像;
图像分割单元,用于将所述待处理图像输入至目标图像分割模型进行图像分割,得到第一分割图像;
图像防遮挡单元,用于利用所述第一分割图像进行图像防遮挡处理;
其中,所述目标图像分割模型通过如权利要求12所述的图像分割模型训练装置训练得到。
14.一种电子设备,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当至少一个所述程序被至少一个所述处理器执行时实现如权利要求1至8任意一项所述的图像分割模型训练方法,或者实现如权利要求9至11任意一项所述的图像处理方法。
15.一种计算机可读存储介质,其特征在于,其中存储有处理器可执行的计算机程序,所述处理器可执行的计算机程序被处理器执行时用于实现如权利要求1至8任意一项所述的图像分割模型训练方法,或者实现如权利要求9至11任意一项所述的图像处理方法。
CN202211111509.4A 2022-09-13 2022-09-13 图像分割模型训练方法、图像处理方法、装置及存储介质 Active CN115249306B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211111509.4A CN115249306B (zh) 2022-09-13 2022-09-13 图像分割模型训练方法、图像处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211111509.4A CN115249306B (zh) 2022-09-13 2022-09-13 图像分割模型训练方法、图像处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN115249306A CN115249306A (zh) 2022-10-28
CN115249306B true CN115249306B (zh) 2022-12-02

Family

ID=83700329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211111509.4A Active CN115249306B (zh) 2022-09-13 2022-09-13 图像分割模型训练方法、图像处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN115249306B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937626B (zh) * 2022-11-17 2023-08-08 郑州轻工业大学 基于实例分割的半虚拟数据集自动生成方法
CN115775024B (zh) * 2022-12-09 2024-04-16 支付宝(杭州)信息技术有限公司 虚拟形象模型训练方法及装置
CN115953559B (zh) * 2023-01-09 2024-04-12 支付宝(杭州)信息技术有限公司 虚拟对象处理方法及装置
CN116664873B (zh) * 2023-07-27 2024-04-26 腾讯科技(深圳)有限公司 图像信息处理方法、装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558901A (zh) * 2018-11-16 2019-04-02 北京市商汤科技开发有限公司 一种语义分割训练方法及装置、电子设备、存储介质
CN110363201A (zh) * 2019-07-10 2019-10-22 上海交通大学 基于协同学习的弱监督语义分割方法及***
CN110812845A (zh) * 2019-10-31 2020-02-21 腾讯科技(深圳)有限公司 外挂检测方法、外挂识别模型的训练方法和相关装置
CN112862840A (zh) * 2021-03-04 2021-05-28 腾讯科技(深圳)有限公司 图像分割方法、装置、设备及介质
CN113971727A (zh) * 2021-10-21 2022-01-25 京东鲲鹏(江苏)科技有限公司 一种语义分割模型的训练方法、装置、设备和介质
CN114612658A (zh) * 2022-02-24 2022-06-10 南京工业大学 基于双重类别级对抗网络的图像语义分割方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3660787A4 (en) * 2017-07-25 2021-03-03 Cloudminds (Shenzhen) Robotics Systems Co., Ltd. LEARNING DATA GENERATION PROCESS AND GENERATION APPARATUS, AND ASSOCIATED IMAGE SEMANTICS SEGMENTATION PROCESS
EP3750081A4 (en) * 2018-02-06 2021-11-17 HRL Laboratories, LLC LEARNING SYSTEM WITH DOMAIN ADAPTATION

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558901A (zh) * 2018-11-16 2019-04-02 北京市商汤科技开发有限公司 一种语义分割训练方法及装置、电子设备、存储介质
CN110363201A (zh) * 2019-07-10 2019-10-22 上海交通大学 基于协同学习的弱监督语义分割方法及***
CN110812845A (zh) * 2019-10-31 2020-02-21 腾讯科技(深圳)有限公司 外挂检测方法、外挂识别模型的训练方法和相关装置
CN112862840A (zh) * 2021-03-04 2021-05-28 腾讯科技(深圳)有限公司 图像分割方法、装置、设备及介质
CN113971727A (zh) * 2021-10-21 2022-01-25 京东鲲鹏(江苏)科技有限公司 一种语义分割模型的训练方法、装置、设备和介质
CN114612658A (zh) * 2022-02-24 2022-06-10 南京工业大学 基于双重类别级对抗网络的图像语义分割方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Not All Areas Are Equal: Transfer Learning for Semantic Segmentation via Hierarchical Region Selection;Ruoqi Sun 等;《2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20200109;4360-4369 *
Semantic Segmentation with Transfer Learning for Off-Road Autonomous Driving;Suvash Sharma 等;《sensors》;20190606;1-21 *
SSUL: Semantic Segmentation with Unknown Label for Exemplar-based Class-Incremental Learning;Sungmin Cha 等;《arXiv》;20210622;1-12 *
基于纹元森林和显著性先验的弱监督图像语义分割方法;韩铮 等;《电子与信息学报》;20180331;第40卷(第3期);610-617 *
运用多级对象语义框架的彩色图像分割;江岩 等;《电视技术》;20110602;第35卷(第11期);19-23 *

Also Published As

Publication number Publication date
CN115249306A (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
CN115249306B (zh) 图像分割模型训练方法、图像处理方法、装置及存储介质
US10614574B2 (en) Generating image segmentation data using a multi-branch neural network
Castillo Camacho et al. A comprehensive review of deep-learning-based methods for image forensics
CN111078940B (zh) 图像处理方法、装置、计算机存储介质及电子设备
CN111754396A (zh) 脸部图像处理方法、装置、计算机设备和存储介质
CN110781980B (zh) 目标检测模型的训练方法、目标检测方法及装置
Mirzaei et al. Laterf: Label and text driven object radiance fields
CN112101344B (zh) 一种视频文本跟踪方法及装置
Nazir et al. Copy move forgery detection and segmentation using improved mask region-based convolution network (RCNN)
Jin et al. Vehicle license plate recognition for fog‐haze environments
Huang et al. DS-UNet: a dual streams UNet for refined image forgery localization
Hartley et al. GANana: Unsupervised domain adaptation for volumetric regression of fruit
Shit et al. An encoder‐decoder based CNN architecture using end to end dehaze and detection network for proper image visualization and detection
CN117636131A (zh) 一种基于Yolo-I模型的小目标识别方法及相关装置
CN113570615A (zh) 一种基于深度学习的图像处理方法、电子设备及存储介质
CN116798041A (zh) 图像识别方法、装置和电子设备
Veeravasarapu et al. Model-driven simulations for computer vision
US20230326137A1 (en) Garment rendering techniques
Huang et al. Object‐Level Remote Sensing Image Augmentation Using U‐Net‐Based Generative Adversarial Networks
CN112529116B (zh) 场景元素融合处理方法、装置和设备及计算机存储介质
CN114283087A (zh) 一种图像去噪方法及相关设备
CN116883770A (zh) 深度估计模型的训练方法、装置、电子设备及存储介质
CN114511702A (zh) 一种基于多尺度分权注意力的遥感图像分割方法和***
CN116415019A (zh) 虚拟现实vr图像识别方法及装置、电子设备、存储介质
Zhao et al. Rethinking superpixel segmentation from biologically inspired mechanisms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant