CN114067052A - 漫画化模型构建方法、装置、设备、存储介质及程序产品 - Google Patents

漫画化模型构建方法、装置、设备、存储介质及程序产品 Download PDF

Info

Publication number
CN114067052A
CN114067052A CN202111356773.XA CN202111356773A CN114067052A CN 114067052 A CN114067052 A CN 114067052A CN 202111356773 A CN202111356773 A CN 202111356773A CN 114067052 A CN114067052 A CN 114067052A
Authority
CN
China
Prior art keywords
image
model
cartoon
sample
full
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111356773.XA
Other languages
English (en)
Inventor
李安
李玉乐
项伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bigo Technology Pte Ltd
Original Assignee
Bigo Technology Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bigo Technology Pte Ltd filed Critical Bigo Technology Pte Ltd
Priority to CN202111356773.XA priority Critical patent/CN114067052A/zh
Publication of CN114067052A publication Critical patent/CN114067052A/zh
Priority to PCT/CN2022/132131 priority patent/WO2023088276A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种漫画化模型构建方法、装置、设备、存储介质及程序产品,其中所述方法包括:采用预先训练的第一生成模型生成预设数量的样本真图;基于所述第一生成模型构建第二生成模型,并采用所述第二生成模型生成与各样本真图对应的样本漫画图;将所述样本真图与对应的样本漫画图组合成样本图像对;基于多个所述样本图像对组成的样本集合,以所述第二生成模型对应的权重作为初始权重,对预设的初始漫画化模型进行拟合,生成用于将目标图像转化为全图漫画化图像的漫画化模型,使得漫画化模型具有更高的鲁棒性和泛化性,提升全图漫画化的效果。

Description

漫画化模型构建方法、装置、设备、存储介质及程序产品
技术领域
本申请涉及图像处理技术领域,尤其涉及一种构建漫画化模型的方法、一种构建漫画化模型的装置、一种电子设备、一种计算机可读存储介质以及一种计算机程序产品。
背景技术
图像漫画化技术是计算机视觉中图像编辑常见的任务之一,在生活以及娱乐中应用非常广泛,例如在电影制作、动漫制作、短视频、直播等场景中,对图像进行漫画化处理。
在相关技术中,图像漫画化的处理实现方式有如下:
一种是基于基础信号的处理方式,这种方式主要是构建一个素材库,通过各种相关的基础信号,例如高矮、胖瘦、头发颜色、服饰颜色等,在素材库匹配最合适的素材,然后将匹配的素材组合成动漫形象。该方式具有形象单一、不够灵活、多样性不足、用户的特征相似性差等缺点。
另一种是贴图捏脸的处理方法。该方法通过形变,将真人的脸形变到动漫人脸的形状,然后通过各种贴素材,例如动漫的脸、眼睛、眉毛等方式,实现图像漫画化。但这种方式的效果单一,不同的人物构建的动漫化形象都是大同小异的,多样性差,并且漫画感弱,真实性差。
发明内容
本申请提供一种漫画化模型构建方法、装置、设备、存储介质及程序产品,以解决现有技术中漫画化处理时生成的漫画图像形象单一、不够灵活、多样性不足、用户的特征相似性差、漫画感弱等问题。
第一方面,本申请实施例提供了一种构建漫画化模型的方法,所述方法包括:
采用预先训练的第一生成模型生成预设数量的样本真图;
基于所述第一生成模型构建第二生成模型,并采用所述第二生成模型生成与各样本真图对应的样本漫画图;
将所述样本真图与对应的样本漫画图组合成样本图像对;
基于多个所述样本图像对组成的样本集合,以所述第二生成模型对应的权重作为初始权重,对预设的初始漫画化模型进行拟合,生成用于将目标图像转化为全图漫画化图像的漫画化模型。
第二方面,本申请实施例还提供了一种构建漫画化模型的装置,所述装置包括:
样本真图生成模块,用于采用预先训练的第一生成模型生成预设数量的样本真图;
样本漫画图生成模块,用于基于所述第一生成模型构建第二生成模型,并采用所述第二生成模型生成与各样本真图对应的样本漫画图;
图像结对模块,用于将所述样本真图与对应的样本漫画图组合成样本图像对;
漫画化模型拟合模块,用于基于多个所述样本图像对组成的样本集合,以所述第二生成模型对应的权重作为初始权重,对预设的初始漫画化模型进行拟合,生成用于将目标图像转化为全图漫画化图像的漫画化模型。
第三方面,本申请实施例还提供了一种电子设备,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述第一方面或第二方面的方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面或第二方面的方法。
第五方面,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品包括计算机可执行指令,所述计算机可执行指令在被执行时用于实现上述第一方面或第二方面的方法。
本申请所提供的技术方案,具有如下有益效果:
在本实施例中,在构建用于将目标图像转化为全图漫画化图像的漫画化模型时,首先通过预训练的第一生成模型随机生成预设数量的样本真图,然后基于该第一生成模型构建用于生成漫画图的第二生成模型,并采用该第二生成模型生成与各样本真图对应的样本漫画图,通过将样本真图与对应的样本漫画图组合成样本图像对来得到样本集合,接着以第二生成模型对应的权重作为初始权重,采用该样本集合对预设的初始漫画化模型进行拟合,拟合好的模型就是漫画化模型,能够实现全图漫画化处理。本实施例中的第二生成模型与第一生成模型相关联,且以第二生成模型的权重作为漫画化模型的初始权重,采用图像结对的方式得到图像对作为训练数据,实现对漫画化模型的拟合,使得最后得到的漫画化模型具有更高的鲁棒性和泛化性,提升全图漫画化的效果。另外本实施例对所需数据量的需求较其他方案少。
附图说明
图1是本申请实施例一提供的一种构建漫画化模型的方法实施例的流程图;
图2是本申请实施例一提供的一种基于漫画化模型进行图像的全图漫画化处理的效果示意图;
图3是本申请实施例一提供的一种StyleGAN2模型的模型架构示意图;
图4是本申请实施例二提供的一种构建漫画化模型的方法实施例的流程图;
图5是本申请实施例三提供的一种构建漫画化模型的方法实施例的流程图;
图6是本申请实施例四提供的一种构建漫画化模型的方法实施例的流程图;
图7是本申请实施例四提供的一种初始漫画化模型的架构示意图;
图8是本申请实施例五提供的一种构建漫画化模型的方法实施例的流程图;
图9是本申请实施例六提供的一种构建漫画化模型的装置实施例的结构框图;
图10是本申请实施例七提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
实施例一
图1为本申请实施例一提供的一种构建漫画化模型的方法实施例的流程图,该方法可以通过漫画化模型构建装置实现,其中,该漫画化模型构建装置可以位于服务器或者客户端中,本实施例对此不作限制。
本实施例构建的漫画化模型可以应用于图像处理、短视频、电影制作、直播、3D卡通等场景中,用于将图像处理、短视频、电影、直播等场景中的图像处理成全图漫画化图像。例如,如图2所示,给定一张图像,将该图像输入至漫画化模型中,漫画化模型可以输出全图漫画化后的图像(即全图漫画化图像),全图漫画化图像和输入的图像的内容保持不变,但是变成了漫画的风格,也即是将输入的图像中的所有元素进行漫画化。又如,给定一段短视频,将该短视频每一帧图像输入至漫画化模型中,漫画化模型可以输出各帧图像对应的全图漫画化图像,以实现将输入的短视频中的每一帧图像全图漫画化。
本实施例构建的漫画化模型可以按开发文档接入到APP或Web页面中。
如图1所示,本实施例可以包括如下步骤:
步骤110,采用预先训练的第一生成模型生成预设数量的样本真图。
生成模型(Generative Model)是概率统计和机器学习中的一类重要模型,指用于随机生成可观测数据的模型。示例性地,第一生成模型可以为样式GAN2(StyleGAN2)模型,可以采用StyleGAN2模型随机生成预设数量的样本真图。其中,样本真图可以为未进行漫画化处理的图像,例如,包含真实人物的图像。
GAN(Generative Adversarial Networks,生成式对抗网络)是一种深度学习模型,是一种能够生成新内容的生成模型。而StyleGAN是GAN中的一种,是一种基于风格的生成模型,StyleGAN是一种先进的高分辨率图像合成方法,已被证明可以在各种数据集上可靠地工作。除了逼真的人像,StyleGAN还可以用于生成其他动物,汽车甚至房间。然而,StyleGAN并不完美,最明显的缺陷是生成的图像有时包含斑点似的伪影(artifacts),而这一缺陷被StyleGAN2克服了,从而进一步提高了生成图像的质量。
如图3示出的StyleGAN2模型的模型架构所示,StyleGAN2由两部分组成,包含图3中左边部分为映射网络(Mapping NetWork)以及右边部分的合成网络。
Mapping NetWork可以将输入解缠得更好。如图3所示,Mapping NetWork由8个全连接层(fully connected layers,简称FC)构成,其输入为高斯噪声(latent Z),经过Mapping NetWork得到隐变量(W)。
合成网络由可学习的仿射变换A、调制模块Mod-Demod、上采样Upsample等模块构成。除此以外,合成网络还包括权重(w)、偏差(b)和常数输入(c,即Const 4*4*512,表示可学习的常数),激活函数(Leaky ReLU)总是在添加偏置后立即应用。
其中,可学习的仿射变换A可以由一个全连接层构成;Upsample可以使用反卷积(也叫转置卷积)进行上采样操作。
调制模块Mod-Demod的处理流程如下:
w′ijk=si·wijk
其中,si是第i个输入特征图的缩放比例;
经过缩放和卷积后,对卷积层的权重进行demod,输出激活的标准差为:
Figure BDA0003357482800000061
解调demod权重,旨在使输出恢复到单位标准差,即新的卷积层的权重为:
Figure BDA0003357482800000071
上式中,加上∈是为了避免分母为0。
图3中最右边是随机噪声的注入,B是可学习的噪声参数,引入随机噪声是为了使得生成的图像更加真实逼真,例如,这些噪声在生成时可以生成人脸的微小的特征,比如脸部的斑点等。
步骤120,基于所述第一生成模型构建第二生成模型,并采用所述第二生成模型生成与各样本真图对应的样本漫画图。
在该步骤中,第二生成模型也可以为StyleGAN2模型,第一生成模型与第二生成模型的模型架构是相同的,不同在于训练目标不同导致模型的权重不同。第一生成模型的训练模型是生成样本真图,即未漫画化的图像。而第二生成模型的训练模型是生成样本漫画图,即漫画化后的图像。
在一种实现中,可以通过对预训练的第一生成模型的权重,以漫画数据为训练目标进行微调(fine-tune),得到漫画化的第二生成模型。接着采用第二生成模型生成与各样本真图对应的样本漫画图。
步骤130,将所述样本真图与对应的样本漫画图组合成样本图像对。
在该步骤中,当生成预设数量的样本真图以及对应的样本漫画图以后,可以将每个样本真图与其对应的样本漫画图构成样本图像对(picture TO picture,简称P2P)。所有的样本图像对组成样本集合用于后续的模型拟合。
需要说明的是,预设数量可以是一种经验值,可以根据模型的需求精度来确定预设数量的具体值,例如,预设数量可以是15万,即生成15万对样本图像对。
步骤140,基于多个所述样本图像对组成的样本集合,以所述第二生成模型对应的权重作为初始权重,对预设的初始漫画化模型进行拟合,生成用于将目标图像转化为全图漫画化图像的漫画化模型。
在该步骤中,在获得样本图像对组成的样本集合以后,可以以该样本集合中的样本真图作为训练数据,以最终生成的第二生成模型对应的权重作为初始权重,以各样本真图对应的样本漫画图作为优化目标,对预设的初始漫画化模型进行拟合,最终得到拟合好的漫画化模型,该漫画化模型用于将目标图像转化为全图漫画化图像。
在本实施例中,在构建用于将目标图像转化为全图漫画化图像的漫画化模型时,首先通过预训练的第一生成模型随机生成预设数量的样本真图,然后基于该第一生成模型构建用于生成漫画图的第二生成模型,并采用该第二生成模型生成与各样本真图对应的样本漫画图,通过将样本真图与对应的样本漫画图组合成样本图像对来得到样本集合,接着以第二生成模型对应的权重作为初始权重,采用该样本集合对预设的初始漫画化模型进行拟合,拟合好的模型就是漫画化模型,能够实现全图漫画化处理。本实施例中的第二生成模型与第一生成模型相关联,且以第二生成模型的权重作为漫画化模型的初始权重,采用图像结对的方式得到图像对作为训练数据,实现对漫画化模型的拟合,使得最后得到的漫画化模型具有更高的鲁棒性和泛化性,提升全图漫画化的效果。另外本实施例对所需数据量的需求较其他方案少。
实施例二
图4为本申请实施例二提供的一种构建漫画化模型的方法实施例的流程图,本实施例在实施例一的基础上对第二生成模型构建过程进行更加具体的说明。如图4所示,本实施例可以包括如下步骤:
步骤410,采用预先训练的第一生成模型生成预设数量的样本真图。
步骤420,对所述第一生成模型的权重进行调整,生成中间漫画模型。
在该实施例中,第一生成模型的训练目标为未经漫画化的原图,而中间漫画模型的训练目标是经过漫画化处理后的漫画图像,因此可以以第一生成模型的权重作为中间漫画模型的初始权重,以漫画图像为训练目标,来生成中间漫画模型,这样中间漫画模型的权重就是对第一生成模型的权重进行调整后得到的。
步骤430,将所述中间漫画模型中的部分指定层对应的权重替换为所述第一生成模型对应于所述部分指定层的权重,并进行权重插值,生成第二生成模型。
为了确保最终输出的漫画图像的部分属性与第一生成模型生成的原图中的属性一致,在生成中间漫画模型以后,还可以将中间漫画模型中的部分指定层对应的权重替换为第一生成模型对应于该部分指定层的权重,并进行权重插值,生成第二生成模型。
例如,部分指定层可以包括如下的至少一种:控制人物姿势的层、控制人物肤色的层。也就是说,为了确保漫画化后人物的姿势pose以及肤色与原图中的真人的姿势和肤色保持一致,在得到中间漫画模型以后,可以将中间漫画模型中控制人物姿势的层以及控制人物肤色的层的权重,替换为第一生成模型中控制人物姿势的层以及控制人物肤色的层的权重,并在中间漫画模型中进行权重插值,最终得到第二生成模型的权重。
权重插值是指采用插值算法计算两权重之间新的权重,并将新的权重***到两权重之间。本实施例对权重插值的具体插值算法不作限定,例如可以包括反距离权重插值法(IDW)进行权重插值。反距离加权插值也可以称为距离倒数乘方法,是指距离倒数乘方格网化方法是一个加权平均插值法,可以进行确切的或者圆滑的方式插值。反距离权重(IDW)插值显式假设:彼此距离较近的事物要比彼此距离较远的事物更相似。当为任何未测量的位置预测值时,反距离权重法会采用预测位置周围的测量值。与距离预测位置较远的测量值相比,距离预测位置最近的测量值对预测值的影响更大。反距离权重法假定每个测量点都有一种局部影响,而这种影响会随着距离的增大而减小。由于这种方法为距离预测位置最近的点分配的权重较大,而权重却作为距离的函数而减小,因此称之为反距离权重法。
除此以外,本领域技术人员还可以采用基于协方差权重插值算法、克里金插值法等进行权重插值。
步骤440,采用所述第二生成模型生成与各样本真图对应的样本漫画图。
步骤450,将所述样本真图与对应的样本漫画图组合成样本图像对。
步骤460,基于多个所述样本图像对组成的样本集合,以所述第二生成模型对应的权重作为初始权重,对预设的初始漫画化模型进行拟合,生成用于将目标图像转化为全图漫画化图像的漫画化模型。
在本实施例中,在构建第二生成模型时,将预训练的第一生成模型作为基础,以漫画图像为训练目标对第一生成模型的权重进行调整,得到中间漫画模型,然后对中间漫画模型进行部分层的权重替换和权重插值,得到最终的第二生成模型的权重,从而完成对第二生成模型的构建。相比于单纯以漫画化图像为训练目标训练第二生成模型,通过本实施例的上述方式构建的第二生成模型鲁棒性更高,提高了漫画化图像的真实性。
实施例三
图5为本申请实施例三提供的一种构建漫画化模型的方法实施例的流程图,本实施例在实施例一或实施例二的基础上对训练样本的处理过程进行更加具体的说明。如图5所示,本实施例可以包括如下步骤:
步骤510,采用预先训练的第一生成模型生成预设数量的样本真图。
步骤520,基于所述第一生成模型构建第二生成模型,并采用所述第二生成模型生成与各样本真图对应的样本漫画图。
步骤530,将所述样本真图与对应的样本漫画图组合成样本图像对。
步骤540,对基于多个所述样本图像对组成的样本集合进行数据增强,其中,所述数据增强包括:随机对所述样本真图与所述样本漫画图进行随机角度的旋转、随机裁剪、随机放大、随机缩小等至少一种。
在该步骤中,可以将所有样本图像对组成样本集合,然后对样本集合中的样本真图以及样本漫画图进行数据增强,以增加训练数据的数据量,提高模型的鲁棒性和泛化能力。
在实现时,数据增强可以包括如下方式的至少一种:各种噪声增强、先下采样再上采样等方式增强、对样本图像对的数据增强,等等。
示例性地,对样本图像对的数据增强可以包括但不限于:随机对样本真图和/或样本漫画图进行随机角度的旋转、随机裁剪、随机放大、随机缩小等。
步骤550,基于所述样本集合,以所述第二生成模型对应的权重作为初始权重,对预设的初始漫画化模型进行拟合,生成用于将目标图像转化为全图漫画化图像的漫画化模型。
通过数据增强的方式获得样本集合以后,可以采用该样本集合,以第二生成模型对应的权重作为初始权重,对预设的初始漫画化模型进行拟合,生成漫画化模型。
在本实施例中,在获得样本真图与对应的样本漫画图组合成样本图像对以后,可以将样本图像对作为训练数据组成样本集合,然后对样本集合采用各种方式的数据增强,并采用数据增强后的样本集合训练漫画化模型,实现全图漫画化技术,可以使得漫画化模型的鲁棒性更高,使得模型对于任意角度的对象(如人物对象)都鲁棒,且对各种场景的泛化性强,对各种低质图像的全图漫画化效果依然比较好。
实施例四
图6为本申请实施例四提供的一种构建漫画化模型的方法实施例的流程图,本实施例在实施例一或实施例二或实施例三的基础上,对漫画化模型的构建过程进行更加具体的说明。如图6所示,本实施例可以包括如下步骤:
步骤610,采用预先训练的第一生成模型生成预设数量的样本真图。
步骤620,基于所述第一生成模型构建第二生成模型,并采用所述第二生成模型生成与各样本真图对应的样本漫画图。
步骤630,将所述样本真图与对应的样本漫画图组合成样本图像对。
步骤640,采用预设的初始漫画化模型中的编码器对所述样本集合中的样本真图进行特征提取,以获得对应的特征图以及样式属性信息,并将所述特征图与所述样式属性信息输出至所述初始漫画化模型的解码器中。
在一种实现中,初始漫画化模型可以包括编码器Encoder以及解码器Decoder,如图7所示,左边虚线框部分是Encoder,右边虚线框部分是Decoder。Encoder的作用是对各样本真图进行信息提取,并将提取的特征图以及样式属性信息输出至Decoder,由Decoder根据特征图以及样式属性信息进行结合,输出全图漫画化图像。
本实施例的Encoder的初始权重为在先编辑过各种真人图像的编码器的权重。
在一种实施例中,Encoder的结构可以包括:输入层、若干个残差层以及全连接层,其中,各残差层用于提取样本真图中的特征图并将所述特征图输出至解码器的对应层中,所述全连接层用于提取样本真图的样式属性信息,并将所述样式属性信息输出至解码器的各个层中。
例如,Encoder的结构如下表1所示,在表1中,残差层(ResBlock)有5个,每个残差层输出的特征图(Featuremap)的大小都是指定的,如表1中的512*512*3、256*256*32等。全连接层FC输出的是16*512大小的样式属性信息。
Figure BDA0003357482800000131
Figure BDA0003357482800000141
表1
如图7所示,每个残差层提取的特征图,一方面输出至下一层中进行处理,另一方面还需要输出至Decoder的对应层中(最后一个残差层除外,最后一个残差层只输出结果到Decoder的对应层中)。这里的对应层是指与当前输出的特征图的大小匹配的解码层,例如,若当前输出的特征图大小为32*32*512,则Decoder中的对应层是指能够处理32*32*512大小的特征图的解码层。
在图7中,Encoder最右边的两个输出层,位于上方的是最后一个残差层ResBlock,输出大小为16*16*512的特征图;位于下方的是FC层,输出的是16*512大小的样式属性信息,FC层将样式属性信息输出至Decoder的每一层中,以便于Decoder根据样式属性信息进行全图动漫化处理。
步骤650,采用所述解码器以所述样本集合中的样本漫画图为训练目标,以所述第二生成模型的权重作为初始权重,采用预设的损失函数对所述特征图以及所述样式属性信息进行训练,得到漫画化模型。
在一种实现中,解码器Decoder的结构与第二生成模型StyleGAN2模型的合成网络的结构相同,且以第二生成模型的权重作为初始权重进行训练。
如图7所示,Decoder的每一个解码层,在获得Encoder输入的特征图以及样式属性信息以后,则将特征图与样式属性信息进行解码合成,并将解码结果输出至下一层中,以此类推,并由最后一个解码层输出全图漫画化的结果。
在一种实施例中,训练漫画化模型所使用的损失函数,可以包括如下损失函数的结合:对抗网络损失函数GANloss、感知损失函数perceptualloss以及回归损失函数L1loss,即:
Loss=GANloss+perceptualloss+L1loss
其中,对抗网络损失函数GANloss是一种分类损失函数,用于判断漫画化模型生成的全图漫画化图像的真实性,并根据判断结果计算损失,从而使得漫画化模型生成的全图漫画化图像的漫画感更加真实。
在一种实现中,可以采用如下公式计算GANloss
GANloss=E[D(G(x)-1)2]+E[D(G(x))2]
其中,D表示判别器,E表示均值,G(x)表示漫画化模型输出的全图漫画化图像。
感知损失函数perceptualloss用于将漫画化模型输出的全图漫画化图像与样本集合中对应的样本漫画图分别输入至预设的神经网络模型中,获得所述神经网络模型输出的对应的第一特征图以及第二特征图,并计算所述第一特征图与所述第二特征图之间的L2损失。
示例性地,预设的神经网络模型可以为VGG模型,如VGG-19或VGG-16等。
在一种实现中,可以采用如下公式计算perceptualloss
perceptualloss=E((VGG(x)-VGG(G(x)))2)
其中,E表示均值,G(x)表示漫画化模型输出的全图漫画化图像,x表示输入至漫画化模型的样本原图对应的样本漫画图。
L1loss用于计算所述漫画化模型输出的全图漫画化图像与所述样本集合中对应的样本漫画图之间的L1损失,可以采用如下公式表示:
L1loss=E(x-G(x))
需要说明的是,本实施例中损失函数的设计,除了上述列出的三种损失函数的组合以外,还可以根据实际的优化目标采用其他损失函数,本实施例对此不作限制。
在本实施例中,初始漫画化模型包括编码器以及解码器,在对初始漫画化模型进行拟合时,编码器的初始权重为在先编辑过各种真人图像的编码器的权重,而解码器的初始权重为第二生成模型的权重,采用上述的模型架构,以样本真图以及样本漫画图结成的成对数据为训练数据,结合对抗网络损失函数GANloss、感知损失函数perceptualloss以及回归损失函数L1loss三种损失函数,进行漫画化模型的拟合,使得拟合好的漫画化模型能够通过编码器较好地提取出图像的特征图以及样本属性信息,并通过解码器对特征图以及样本属性信息进行全图漫画化处理,使得漫画化模型输出的全图漫画化图像的漫画感更强,且全图漫画化后的内容与真图更加一致,更好地提高了漫画化模型的鲁棒性和泛化能力,可适用于低质图像以及复杂场景中。
实施例五
图8为本申请实施例五提供的一种构建漫画化模型的方法实施例的流程图,本实施例在实施例一或实施例二或实施例三或实施例四的基础上,对漫画化模型的推理过程进行更加具体的说明。如图8所示,本实施例可以包括如下步骤:
步骤810,采用预先训练的第一生成模型生成预设数量的样本真图。
步骤820,基于所述第一生成模型构建第二生成模型,并采用所述第二生成模型生成与各样本真图对应的样本漫画图。
步骤830,将所述样本真图与对应的样本漫画图组合成样本图像对。
步骤840,基于多个所述样本图像对组成的样本集合,以所述第二生成模型对应的权重作为初始权重,对预设的初始漫画化模型进行拟合,生成漫画化模型。
步骤850,获取目标图像,并将所述目标图像输入至所述漫画化模型中。
在一种例子中,目标图像可以包括:经由图像编辑页面输入的图像。例如,在图像编辑应用程序或者具有图像编辑功能的应用程序中打开图像编辑页面后,将用户导入的图像作为目标图像,当用户触发图像编辑页面中的全图漫画化功能时,即可使用本申请的全图漫画化技术进行图像的全图漫画化处理。
在另一种例子中,目标图像还可以包括:目标视频中的各图像帧。例如,在直播场景中,当用户在直播界面中触发全图漫画化功能时,即可使用本申请的全图漫画化技术对直播的视频中的各图像帧进行全图漫画化处理。又如,在短视频或视频播放场景中,当用户在播放界面中触发全图漫画化功能时,即可使用本申请的全图漫画化技术对视频中的各图像帧进行全图漫画化处理。
步骤860,在所述漫画化模型中,由所述编码器对所述目标图像进行特征提取,以提取所述目标图像的目标特征图以及目标样式属性信息,并将所述目标特征图以及所述目标样式属性信息输入至所述解码器中;由所述解码器基于所述目标特征图以及所述目标样式属性信息生成对应的全图漫画化图像,并输出所述全图漫画化图像。
在该实施例中,当漫画化模型通过编码器的输入层获得目标图像以后,输入层将该目标图像输入至如图7所示的编码器的第一个残差层中,第一个残差层提取该目标图像的特征图,并输入至下一残差层中以及输入至解码器的对应层中,然后下一个残差层继续进行特征提取,以此类推,直到最后一个残差层以及FC层处理完成,此时编码器的工作完成。然后到解码器工作,在解码器的每一层中,根据接收的目标特征图以及目标样式属性信息进行漫画化处理,并将处理结果传输至下一层中进行处理,以此类推,直到最后的解码层输出全图漫画化图像至输出层,由输出层将该全图漫画化图像进行输出,自此解码器的工作完成。然后可以进行下一目标图像的处理。
在本实施例中,通过漫画化模型的编码器以及解码器实现全图漫画化技术,在保留真图的风格不变的同时全图漫画化风格强烈、漫画感真实,沉浸感高,适用于各种不同的漫画化风格。
实施例六
图9为本申请实施例六提供的一种构建漫画化模型的装置实施例的结构框图,可以包括如下模块:
样本真图生成模块910,用于采用预先训练的第一生成模型生成预设数量的样本真图;
第二生成模块构建模块920,用于基于所述第一生成模型构建第二生成模型;
样本漫画图生成模块930,用于采用所述第二生成模型生成与各样本真图对应的样本漫画图;
图像结对模块940,用于将所述样本真图与对应的样本漫画图组合成样本图像对;
漫画化模型拟合模块950,用于基于多个所述样本图像对组成的样本集合,以所述第二生成模型对应的权重作为初始权重,对预设的初始漫画化模型进行拟合,生成用于将目标图像转化为全图漫画化图像的漫画化模型。
在一种实施例中,所述第二生成模块构建模块920具体用于:
对所述第一生成模型的权重进行调整,生成中间漫画模型;
将所述中间漫画模型中的部分指定层对应的权重替换为所述第一生成模型对应于所述部分指定层的权重,并进行权重插值,生成第二生成模型。
在一种实施例中,所述部分指定层包括如下的至少一种:控制人物姿势的层、控制人物肤色的层。
在一种实施例中,所述初始漫画化模型包括编码器以及解码器;
所述漫画化模型拟合模块950可以包括如下子模块:
编码子模块,用于采用所述编码器对所述样本集合中的样本真图进行特征提取,以获得对应的特征图以及样式属性信息,并将所述特征图与所述样式属性信息输出至所述解码器中;
解码子模块,用于采用所述解码器以所述样本集合中的样本漫画图为训练目标,以所述第二生成模型的权重作为初始权重,采用预设的损失函数对所述特征图以及所述样式属性信息进行训练,得到漫画化模型。
在一种实施例中,所述损失函数包括如下损失函数的结合:对抗网络损失函数、感知损失函数以及回归损失函数L1_loss;
所述对抗网络损失函数用于判断漫画化模型生成的全图漫画化图像的真实性,并根据判断结果计算损失;
所述感知损失函数用于将所述漫画化模型输出的全图漫画化图像与所述样本集合中对应的样本漫画图分别输入至预设的神经网络模型中,获得所述神经网络模型输出的对应的第一特征图以及第二特征图,并计算所述第一特征图与所述第二特征图之间的L2损失;
所述L1_loss用于计算所述漫画化模型输出的全图漫画化图像与所述样本集合中对应的样本漫画图之间的L1损失。
在一种实施例中,所述编码器的结构如下:
输入层、若干个残差层以及全连接层,其中,各残差层用于提取样本真图中的特征图并将所述特征图输出至解码器的对应层中,所述全连接层用于提取样本真图的样式属性信息,并将所述样式属性信息输出至解码器的各个层中。
在一种实施例中,所述编码器的初始权重为在先编辑过各种真人图像的编码器的权重。
在一种实施例中,所述第二生成模型为StyleGAN2模型,所述解码器的结构与所述StyleGAN2模型的合成网络的结构相同。
在一种实施例中,所述装置还可以包括如下模块:
目标图像获取模块,用于获取目标图像,并将所述目标图像输入至所述漫画化模型中;
全图漫画化处理子模块,用于在所述漫画化模型中,由所述编码器对所述目标图像进行特征提取,以提取所述目标图像的目标特征图以及目标样式属性信息,并将所述目标特征图以及所述目标样式属性信息输入至所述解码器中;由所述解码器基于所述目标特征图以及所述目标样式属性信息生成对应的全图漫画化图像,并输出所述全图漫画化图像。
在一种实施例中,所述目标图像包括如下的至少一种:
经由图像编辑页面输入的图像;
目标视频中的各图像帧。
在一种实施例中,所述装置还可以包括如下模块:
数据增强模块,用于在采用所述样本集合进行模型拟合前,对所述样本集合进行数据增强,其中,所述数据增强包括:随机对所述样本真图与所述样本漫画图进行随机角度的旋转、随机裁剪、随机放大、随机缩小等至少一种。
本申请实施例所提供的一种页面渲染的装置可执行本申请实施例一或实施例二中的一种页面渲染的方法,具备执行方法相应的功能模块和有益效果。
实施例七
图10为本申请实施例七提供的一种电子设备的结构示意图,如图10所示,该电子设备包括处理器1010、存储器1020、输入装置1030和输出装置1040;电子设备中处理器1010的数量可以是一个或多个,图10中以一个处理器1010为例;电子设备中的处理器1010、存储器1020、输入装置1030和输出装置1040可以通过总线或其他方式连接,图10中以通过总线连接为例。
存储器1020作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请实施例中的上述实施例一至实施例五中任一实施例对应的程序指令/模块。处理器1010通过运行存储在存储器1020中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述的方法实施例一至实施例五中任一实施例中提到的方法。
存储器1020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器1020可进一步包括相对于处理器1010远程设置的存储器,这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置1030可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置1040可包括显示屏等显示设备。
实施例八
本申请实施例八还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行上述方法实施例一至实施例五中任一实施例的方法。
当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本申请任意实施例所提供的方法中的相关操作。
实施例九
本申请实施例九还提供一种计算机程序产品,该计算机程序产品包括计算机可执行指令,所述计算机可执行指令在由计算机处理器执行时用于执行上述实施例一至实施例五中任一实施例的方法。
当然,本申请实施例所提供的一种计算机程序产品,其计算机可执行指令不限于如上所述的方法操作,还可以执行本申请任意实施例所提供的方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本申请可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
值得注意的是,上述装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。

Claims (15)

1.一种构建漫画化模型的方法,其特征在于,所述方法包括:
采用预先训练的第一生成模型生成预设数量的样本真图;
基于所述第一生成模型构建第二生成模型,并采用所述第二生成模型生成与各样本真图对应的样本漫画图;
将所述样本真图与对应的样本漫画图组合成样本图像对;
基于多个所述样本图像对组成的样本集合,以所述第二生成模型对应的权重作为初始权重,对预设的初始漫画化模型进行拟合,生成用于将目标图像转化为全图漫画化图像的漫画化模型。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一生成模型训练第二生成模型,包括:
对所述第一生成模型的权重进行调整,生成中间漫画模型;
将所述中间漫画模型中的部分指定层对应的权重替换为所述第一生成模型对应于所述部分指定层的权重,并进行权重插值,生成第二生成模型。
3.根据权利要求2所述的方法,其特征在于,所述部分指定层包括如下的至少一种:控制人物姿势的层、控制人物肤色的层。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述初始漫画化模型包括编码器以及解码器;
所述基于多个所述样本图像对组成的样本集合,以所述第二生成模型对应的权重作为预训练权重,对预设的初始漫画化模型进行拟合,生成用于将目标图像转化为全图漫画化图像的漫画化模型,包括:
采用所述编码器对所述样本集合中的样本真图进行特征提取,以获得对应的特征图以及样式属性信息,并将所述特征图与所述样式属性信息输出至所述解码器中;
采用所述解码器以所述样本集合中的样本漫画图为训练目标,以所述第二生成模型的权重作为初始权重,采用预设的损失函数对所述特征图以及所述样式属性信息进行训练,得到漫画化模型。
5.根据权利要求4所述的方法,其特征在于,所述损失函数包括如下损失函数的结合:对抗网络损失函数、感知损失函数以及回归损失函数L1_loss;
所述对抗网络损失函数用于判断漫画化模型生成的全图漫画化图像的真实性,并根据判断结果计算损失;
所述感知损失函数用于将所述漫画化模型输出的全图漫画化图像与所述样本集合中对应的样本漫画图分别输入至预设的神经网络模型中,获得所述神经网络模型输出的对应的第一特征图以及第二特征图,并计算所述第一特征图与所述第二特征图之间的L2损失;
所述L1_loss用于计算所述漫画化模型输出的全图漫画化图像与所述样本集合中对应的样本漫画图之间的L1损失。
6.根据权利要求4所述的方法,其特征在于,所述编码器的结构如下:
输入层、若干个残差层以及全连接层,其中,各残差层用于提取样本真图中的特征图并将所述特征图输出至解码器的对应层中,所述全连接层用于提取样本真图的样式属性信息,并将所述样式属性信息输出至解码器的各个层中。
7.根据权利要求6所述的方法,其特征在于,所述编码器的初始权重为在先编辑过各种真人图像的编码器的权重。
8.根据权利要求4所述的方法,其特征在于,所述第二生成模型为StyleGAN2模型,所述解码器的结构与所述StyleGAN2模型的合成网络的结构相同。
9.根据权利要求4所述的方法,其特征在于,还包括:
获取目标图像,并将所述目标图像输入至所述漫画化模型中;
在所述漫画化模型中,由所述编码器对所述目标图像进行特征提取,以提取所述目标图像的目标特征图以及目标样式属性信息,并将所述目标特征图以及所述目标样式属性信息输入至所述解码器中;由所述解码器基于所述目标特征图以及所述目标样式属性信息生成对应的全图漫画化图像,并输出所述全图漫画化图像。
10.根据权利要求9所述的方法,其特征在于,所述目标图像包括如下的至少一种:
经由图像编辑页面输入的图像;
目标视频中的各图像帧。
11.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在采用所述样本集合进行模型拟合前,对所述样本集合进行数据增强,其中,所述数据增强包括:随机对所述样本真图与所述样本漫画图进行随机角度的旋转、随机裁剪、随机放大、随机缩小等至少一种。
12.一种构建漫画化模型的装置,其特征在于,所述装置包括:
样本真图生成模块,用于采用预先训练的第一生成模型生成预设数量的样本真图;
第二生成模块构建模块,用于基于所述第一生成模型构建第二生成模型;
样本漫画图生成模块,用于采用所述第二生成模型生成与各样本真图对应的样本漫画图;
图像结对模块,用于将所述样本真图与对应的样本漫画图组合成样本图像对;
漫画化模型拟合模块,用于基于多个所述样本图像对组成的样本集合,以所述第二生成模型对应的权重作为初始权重,对预设的初始漫画化模型进行拟合,生成用于将目标图像转化为全图漫画化图像的漫画化模型。
13.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-11任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-11任一项所述的方法。
15.一种计算机程序产品,所述计算机程序产品包括计算机可执行指令,所述计算机可执行指令在被执行时用于实现权利要求1-11中任一项所述的方法。
CN202111356773.XA 2021-11-16 2021-11-16 漫画化模型构建方法、装置、设备、存储介质及程序产品 Pending CN114067052A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111356773.XA CN114067052A (zh) 2021-11-16 2021-11-16 漫画化模型构建方法、装置、设备、存储介质及程序产品
PCT/CN2022/132131 WO2023088276A1 (zh) 2021-11-16 2022-11-16 漫画化模型构建方法、装置、设备、存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111356773.XA CN114067052A (zh) 2021-11-16 2021-11-16 漫画化模型构建方法、装置、设备、存储介质及程序产品

Publications (1)

Publication Number Publication Date
CN114067052A true CN114067052A (zh) 2022-02-18

Family

ID=80273018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111356773.XA Pending CN114067052A (zh) 2021-11-16 2021-11-16 漫画化模型构建方法、装置、设备、存储介质及程序产品

Country Status (2)

Country Link
CN (1) CN114067052A (zh)
WO (1) WO2023088276A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023088276A1 (zh) * 2021-11-16 2023-05-25 百果园技术(新加坡)有限公司 漫画化模型构建方法、装置、设备、存储介质及程序产品

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10607065B2 (en) * 2018-05-03 2020-03-31 Adobe Inc. Generation of parameterized avatars
CN109800732B (zh) * 2019-01-30 2021-01-15 北京字节跳动网络技术有限公司 用于生成漫画头像生成模型的方法和装置
CN109816589B (zh) * 2019-01-30 2020-07-17 北京字节跳动网络技术有限公司 用于生成漫画风格转换模型的方法和装置
CN110097086B (zh) * 2019-04-03 2023-07-18 平安科技(深圳)有限公司 图像生成模型训练方法、图像生成方法、装置、设备及存储介质
CN112862669B (zh) * 2021-02-02 2024-02-09 百果园技术(新加坡)有限公司 图像生成模型的训练方法、生成方法、装置及设备
CN114067052A (zh) * 2021-11-16 2022-02-18 百果园技术(新加坡)有限公司 漫画化模型构建方法、装置、设备、存储介质及程序产品

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023088276A1 (zh) * 2021-11-16 2023-05-25 百果园技术(新加坡)有限公司 漫画化模型构建方法、装置、设备、存储介质及程序产品

Also Published As

Publication number Publication date
WO2023088276A1 (zh) 2023-05-25

Similar Documents

Publication Publication Date Title
CN111489287B (zh) 图像转换方法、装置、计算机设备和存储介质
CN111127304B (zh) 跨域图像转换
US20200051303A1 (en) Real-time avatars using dynamic textures
JP2023548921A (ja) 画像の視線補正方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
US11954828B2 (en) Portrait stylization framework using a two-path image stylization and blending
US20230146676A1 (en) Portrait stylization framework to control the similarity between stylized portraits and original photo
US20220198731A1 (en) Pixel-aligned volumetric avatars
CN113724354A (zh) 基于参考图颜色风格的灰度图像着色方法
WO2023088276A1 (zh) 漫画化模型构建方法、装置、设备、存储介质及程序产品
CN111275778A (zh) 人脸简笔画生成方法及装置
WO2024104144A1 (zh) 图像合成方法和装置、存储介质及电子设备
CN113066005A (zh) 图像处理方法、装置、电子设备及可读存储介质
CN116912148A (zh) 图像增强方法、装置、计算机设备及计算机可读存储介质
Kim et al. Game effect sprite generation with minimal data via conditional GAN
Tous Pictonaut: movie cartoonization using 3D human pose estimation and GANs
US20230319223A1 (en) Method and system for deep learning based face swapping with multiple encoders
Dy et al. MCGAN: mask controlled generative adversarial network for image retargeting
CN116958451B (zh) 模型处理、图像生成方法、装置、计算机设备和存储介质
CN114387160B (zh) 训练方法、图像的处理方法、装置、电子设备及存储介质
CN117994173B (zh) 修复网络训练方法、图像处理方法、装置及电子设备
CN115984094B (zh) 基于多损失约束视角一致性保持人脸安全生成方法及设备
Wang et al. Uncouple generative adversarial networks for transferring stylized portraits to realistic faces
CN115714888B (zh) 视频生成方法、装置、设备与计算机可读存储介质
CN116071478B (zh) 图像重建模型的训练方法和虚拟场景渲染方法
Mantiuk et al. State of the art on neural rendering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination