CN115272057A - 卡通素描图像重构网络的训练及其重构方法与设备 - Google Patents
卡通素描图像重构网络的训练及其重构方法与设备 Download PDFInfo
- Publication number
- CN115272057A CN115272057A CN202210910458.5A CN202210910458A CN115272057A CN 115272057 A CN115272057 A CN 115272057A CN 202210910458 A CN202210910458 A CN 202210910458A CN 115272057 A CN115272057 A CN 115272057A
- Authority
- CN
- China
- Prior art keywords
- data
- image data
- animation
- sketch
- cartoon
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 113
- 238000012549 training Methods 0.000 title claims abstract description 45
- 238000012216 screening Methods 0.000 claims abstract description 10
- 238000001514 detection method Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 19
- 210000004209 hair Anatomy 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 18
- 238000001914 filtration Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 17
- 230000003321 amplification Effects 0.000 claims description 13
- 230000000875 corresponding effect Effects 0.000 claims description 13
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 10
- 239000012634 fragment Substances 0.000 claims description 9
- 238000004040 coloring Methods 0.000 claims description 4
- 210000000697 sensory organ Anatomy 0.000 claims description 4
- 230000002596 correlated effect Effects 0.000 claims description 3
- 230000010339 dilation Effects 0.000 claims description 3
- 230000007797 corrosion Effects 0.000 claims description 2
- 238000005260 corrosion Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 238000012805 post-processing Methods 0.000 abstract description 8
- 210000003128 head Anatomy 0.000 description 43
- 238000005070 sampling Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 238000012512 characterization method Methods 0.000 description 6
- 230000003628 erosive effect Effects 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000009877 rendering Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 229920002160 Celluloid Polymers 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 210000001508 eye Anatomy 0.000 description 2
- 210000004709 eyebrow Anatomy 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000000214 mouth Anatomy 0.000 description 2
- 241000760358 Enodes Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 235000011888 snacks Nutrition 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种卡通素描图像重构网络的训练及重构方法与设备,该方法包括:采集故事发生于真实世界的电影数据、多部故事发生于虚拟世界的动画数据;在电影数据中提取多帧图像数据,作为内容样本图像数据;从多部动画数据中筛选呈素描风格的动画数据;在呈素描风格的动画数据中提取多帧图像数据,作为风格样本图像数据;根据内容样本图像数据与风格样本图像数据将生成对抗网络训练为卡通素描图像重构网络,卡通素描图像重构网络用于重构包含卡通素描风格的图像数据。重构卡通素描风格属于后期处理,可以维持制作视频数据的门槛,维持制作视频数据的耗时,大大提高了制作卡通素描风格的视频数据的效率。
Description
技术领域
本发明涉及计算机视觉的技术领域,尤其涉及一种卡通素描图像重构网络的训练及其重构方法与设备。
背景技术
在短视频、广告等场景中,用户会制作各种不同类型的视频数据,在录制原始的视频数据之后,通常会对视频数据进行后期处理,从而提升视频数据的质量。
因某些业务需求,部分后期处理是将视频数据的风格转换至卡通、素描等风格,而目前常用的后期处理是对视频数据添加滤镜,将视频数据整体转换至其他风格,例如,复古、胶片、落日,等等。
但是,滤镜通常是在像素点的颜色值进行调整,并添加其他装饰使用的元素,效果较为单一,使用多个滤镜叠加也难以实现一些卡通、素描等风格,而如果在制作视频数据时按照卡通、素描等风格进行设计,这会大大提高制作视频数据的门槛,导致制作视频数据的耗时大大延长,制作视频数据的效率低。
发明内容
本发明提供了一种卡通素描图像重构网络的训练及其重构方法与设备,以解决如何高效将画面实现卡通素描的风格。
根据本发明的一方面,提供了一种卡通素描图像重构网络的训练方法,包括:
采集故事发生于真实世界的电影数据、多部故事发生于虚拟世界的动画数据;
在所述电影数据中提取多帧图像数据,作为内容样本图像数据;
从多部所述动画数据中筛选呈素描风格的所述动画数据;
在呈素描风格的所述动画数据中提取多帧图像数据,作为风格样本图像数据;
根据所述内容样本图像数据与所述风格样本图像数据将生成对抗网络训练为卡通素描图像重构网络,所述卡通素描图像重构网络用于重构包含卡通素描风格的图像数据。
根据本发明的另一方面,提供了一种图像重构方法,包括:
加载根据本发明任一实施例项所述的方法训练的卡通素描图像重构网络;
获取待重构的原始图像数据;
将所述原始图像数据输入至所述卡通素描图像重构网络中重构为包含卡通素描风格的目标图像数据。
根据本发明的另一方面,提供了一种视频重构方法,其特征在于,包括:
加载根据本发明任一实施例所述的方法训练的卡通素描图像重构网络;
获取内容为介绍游戏的原始视频数据,所述原始视频数据中具有多帧原始图像数据;
将所述原始图像数据输入至所述卡通素描图像重构网络中重构为包含卡通素描风格的目标图像数据;
在所述原始视频数据中将所述目标图像数据替换所述原始图像数据,获得目标视频数据。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的卡通素描图像重构网络的训练方法或者图像重构方法或者视频重构方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于使处理器执行时实现本发明任一实施例所述的卡通素描图像重构网络的训练方法或者图像重构方法或者视频重构方法。
本实施例中,采集故事发生于真实世界的电影数据、多部故事发生于虚拟世界的动画数据;在电影数据中提取多帧图像数据,作为内容样本图像数据;从多部动画数据中筛选呈素描风格的动画数据;在呈素描风格的动画数据中提取多帧图像数据,作为风格样本图像数据;根据内容样本图像数据与风格样本图像数据将生成对抗网络训练为卡通素描图像重构网络,卡通素描图像重构网络用于重构包含卡通素描风格的图像数据。在动画数据呈现卡通风格的基础上筛选出素描风格,两者结合可以得到卡通素描风格,以此训练生成对抗网络,使得卡通素描图像重构网络可将图像数据重构至卡通素描风格,重构卡通素描风格属于后期处理,可以维持制作视频数据的门槛,维持制作视频数据的耗时,大大提高了制作卡通素描风格的视频数据的效率。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例一提供的一种卡通素描图像重构网络的训练方法的流程图;
图2是根据本发明实施例一提供的一种动画角色的示例图;
图3是根据本发明实施例二提供的一种图像重构方法的流程图;
图4A与图4B是根据本发明实施例二提供的一种重构卡通素描重构的示例图;
图5是根据本发明实施例三提供的一种视频重构方法的流程图;
图6是根据本发明实施例四提供的一种卡通素描图像重构网络的训练装置的结构示意图;
图7是根据本发明实施例五提供的一种图像重构装置的结构示意图;
图8是根据本发明实施例六提供的一种视频重构装置的结构示意图;
图9是实现本发明实施例七提供的一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1为本发明实施例一提供的一种卡通素描图像重构网络的训练方法的流程图,本实施例可适用于训练实现卡通素描风格的卡通素描图像重构网络的情况,该方法可以由卡通素描图像重构网络的训练装置来执行,该卡通素描图像重构网络的训练装置可以采用硬件和/或软件的形式实现,该卡通素描图像重构网络的训练装置可配置于电子设备中。如图1所示,该方法包括:
步骤101、采集故事发生于真实世界的电影数据、多部故事发生于虚拟世界的动画数据。
一方面,可以通过授权使用、公开的数据集、自行录制等方式采集多部电影数据,一般情况下,每部电影数据是在有限的时间(如1-3个小时)讲述一个故事,本实施例中所采集的电影数据的故事发生于真实世界。
其中,真实世界既可以包括真实的自然环境,也可以包括真实的建筑,还可以包括真实的人、动物,等等。
另一方面,可以通过授权使用、公开的数据集、自行录制等方式采集多部动画数据,每部动画数据讲述的故事发生在虚拟世界,若某部动画数据属于一季动画数据,则该部动画中具有多集时长较短(如10-30分钟)的动画数据,若某部动画数据属于OVA(OriginalVideo Animation,原创光盘动画)等形式,该部动画数据属于时长较长(如1-3个小时)的单独的动画数据。
步骤102、在电影数据中提取多帧图像数据,作为内容样本图像数据。
电影数据为视频数据的一种表现形式,本实施例中可通过随机采样、均匀采样等采样方式在每部电影数据中分别提取多帧图像数据,作为训练卡通素描图像重构网络的样本,对于卡通素描图像重构网络而言,作为样本的图像数据属于内容的来源,因而可记为内容样本图像数据。
在一种采样方式中,可以使用命令行工具、库文件等方式将以独立的场景作为切分的节点,将电影数据切分为多个片段,记为电影片段,其中,每个电影片段中具有一个或多个独立的场景。
进一步而言,检测场景的方式包括如下两种:
1、阈值模式
针对存在明显场景边界的电影数据适用阈值模式,将每帧图像数据与设置的黑电平进行比较,基于检测的结果判断是否为淡入、淡出、切成黑色等场景的边界,从而在电影数据中划分出各个场景。
2、内容模式
针对场景之间快速切换的电影数据适用内容模式,比较每帧图像数据,依次查找内容存在较大变化的图像数据作为切分的节点,从而在电影数据中划分出各个场景。
一般情况下,可以将包含一个独立场景的电影数据切分为一个电影片段,而考虑到某些包含一个独立场景的电影数据的时长较短,则可以将该场景与相邻的其他场景合并,从而将包含两个或两个以上相连场景的电影数据切分为一个电影片段,本实施例对此不加以限制。
在每个电影片段中,每间隔预设的第一时间段抽取一帧图像数据,作为内容样本图像数据。
本实施例按照场景将电影数据切分为电影片段(即切片),在电影片段中抽帧,由于在同一个场景中的内容较为固定,因而通过切片与抽帧可以提高采样内容样本图像数据的均匀性,从而提高卡通素描图像重构网络的性能。
步骤103、从多部动画数据中筛选呈素描风格的动画数据。
一般情况下,同一部动画数据是由同一个团队制作,同一部动画数据的风格较为统一,考虑到制作过程中存在诸多影响的因素,不同集动画数据之间的风格可能存较一定的差异、不同部动画数据之间的风格可能存较大的差异,并不是每一部动画数据在整体上都会呈现出素描风格,在本实施例中,在动画数据基本都呈现出典型的卡通风格的基础上,可进一步细分每部动画数据的风格差异,从而筛选出整体上呈较为明显的素描风格的动画数据。
在本发明的一个实施例中,步骤103可以包括如下步骤:
步骤1031、从每部动画数据中抽取多帧图像数据,作为参考图像数据。
动画数据为视频数据的一种表现形式,本实施例中可通过随机采样、均匀采样等采样方式在每部动画数据中分别提取多帧图像数据,记为参考图像数据。
在一种采样方式中,可以使用命令行工具、库文件等方式将以独立的场景作为切分的节点,将动画数据切分为多个片段,记为动画片段,其中,每个动画片段中具有一个或多个独立的场景。
进一步而言,检测场景的方式包括如下两种:
1、阈值模式
针对存在明显场景边界的动画数据适用阈值模式,将每帧图像数据与设置的黑电平进行比较,基于检测的结果判断是否为淡入、淡出、切成黑色等场景的边界,从而在动画数据中划分出各个场景。
2、内容模式
针对场景之间快速切换的动画数据适用内容模式,比较每帧图像数据,依次查找内容存在较大变化的图像数据作为切分的节点,从而在动画数据中划分出各个场景。
一般情况下,可以将包含一个独立场景的动画数据切分为一个动画片段,而考虑到某些包含一个独立场景的动画数据的时长较短,则可以将该场景与相邻的其他场景合并,从而将包含两个或两个以上相连场景的动画数据切分为一个动画片段,本实施例对此不加以限制。
在每个动画片段中,每间隔预设的第二时间段抽取一帧图像数据,作为参考图像数据。
本实施例按照场景将动画数据切分为动画片段(即切片),在动画片段中抽帧,由于在同一个场景中的内容较为固定,因而通过切片与抽帧可以提高采样参考图像数据的均匀性。
步骤1032、从参考图像数据中识别表征素描风格的描边数据。
在动画数据的美术制作过程中,一般同时绘制物体表面的外轮廓与内部轮廓,并且要灵活控制轮廓的宽度,以动画数据的角色为例,在绘制角色的外轮廓时,一般把轮廓线描绘的粗一些,在绘制角色的转折位置时,一般把轮廓线描绘的粗一些,而面部的身体的一些细节位置会绘制的细一些。
描边数据为轮廓边缘的线条,其可以在一定程度上表征素描风格,在动画数据的美术制作时,可以基于视角(利用模型法线向量和视向量的夹角,夹角越接近垂直,说明离描边越近)、几何体生成方法(双pass(渲染流程)渲染,第一个pass渲染物体正面,第二个pass渲染物体背面,并使轮廓可见)、图像处理(将深度信息和法线信息以贴图的形式传入,运用边缘检测算法寻找边缘)等方式生成描边数据。
某些地区的动画数据中倾向于使用基于几何体生成的方法去描边,这类描边方法相较于另两类方法的好处在于线宽更容易为美术所控制,而在某些地区的动画数据中,往往使用粗细有变化的描边数据去体现角色不同部位的特征,某些情况会引入逐物体的顶点色来控制描边数据的细节,同时也是为了保证描边数据粗细不会随着摄像机视距发生变化。
针对不同方式制作的动画数据,本实施例可从从各帧参考图像数据中识别描边数据,以便整体评价动画数据的素描风格的强弱。
在本发明的一个实施例中,步骤1032进一步可以包括如下步骤:
步骤10321、在参考图像数据中检测包含头发数据的头部数据。
不同动画数据内容之间的差异较大,从机甲到异能、从古代到现代再到架空幻想,等等,在动画数据中添加描边数据的物体的种类多,为了统一对不同动画数据的描边数据进行比较,本实施例选择在不同动画数据均广泛分布各个角色的头部数据,在头部数据尤其包含头发数据。
在动画数据中,各个角色主要为故事的剧情所在,用户的注意力大多集中在角色上,考虑到绘制的因素,如图2所示,动画数据中的角色多以头部数据(头发数据表示发型)、服饰等区分,因而美术人员在制作动画数据时,各个角色的头部数据(尤其为头发数据)上的描边数据描绘得更加细致,而头发数据多为平坦、纯色的区域,其他元素的干扰少,并且,头发数据的整体颜色与描边数据存在较为明显的色差,尤其适合分离描边数据。
在具体实现中,可以使用ACFD(非对称考酮人脸检测算法)等卡通人脸检测网络在参考图像数据中执行人脸检测,得到标识人脸数据的原始检测框。
分别沿水平方向与垂直向上的方向扩展原始检测框,以覆盖头发数据,其中,沿水平方向的左侧与右侧扩展原始检测框的步长、沿垂直方向扩展原始检测框的步长一般为经验值,例如,设原始检测框的宽为W,高为H,在原始检测框的基础上,沿水平方向的左侧可扩展1/3W,沿右平方向的左侧可扩展1/3W,沿垂直向上的方向扩展1/2H,这样子,基本可以把头发数据囊括进来。
若完成扩展,则可以提取位于扩展之后的原始检测框的数据,获得包含头发数据的原始头部数据。
步骤10322、对头部数据执行放大处理。
一般情况下,描边数据相对于整个头部数据而言,体积较小,如果按照原有的大小进行比较,会过于灵敏,因而可以将头部数据执行放大处理,由于描边数据的颜色多为纯色,因而,可以以较大的倍数对头部数据,即便画面整体上存在明显的锯齿、造成画面的失真也不影响描边数据的对比。
在一个示例中,可以确定放大之前头部数据的第一尺寸(宽为srcWidth、高为srcHeight)、放大之后头部数据的第二尺寸(宽为dstWidth、高为dstHeight),并计算第一尺寸与第二尺寸之间的比例,第二尺寸大于第一尺寸,第一尺寸与第二尺寸之间的比例即为放大的倍数。
对放大之后头部数据的坐标(dstX,dstY)与比例之间的乘积取整,获得放大之前头部数据的坐标(srcX,srcY),即:
srcX=dstX*(srcWidth/dstWidth)
srcY=dstY*(srcHeight/dstHeight)
将位于放大之前头部数据的坐标中的像素点赋颜色至放大之后头部数据坐标中的像素点。
在本示例中,将放大之前的头部数据的像素点的颜色等比例映射至放大之后头部数据的像素点上,可以保持描边数据并不发生变化,而且计算简单,操作简便。
步骤10323、对放大的头部数据执行用于区分黑白的二值化处理。
考虑到描边数据的颜色多为黑色,因而可以在黑色、白色的维度上对放大的头部数据执行二值化处理。
在具体实现中,可以查询放大之后的头部数据中各个像素点的红色分量R、绿色分量G与蓝色分量B。
若红色分量R小于或等于第一阈值、绿色分量G小于或等于第一阈值、蓝色分量B小于或等于第一阈值,则将像素点置为黑色(即0)。
若满足红色分量R大于第一阈值、绿色分量G大于第一阈值、蓝色分量B大于第一阈值中的至少一者,则将像素点置为白色(即255)。
步骤10324、对二值化的头部数据执行腐蚀处理。
步骤10325、对腐蚀的头部数据执行膨胀处理。
二值化之后的头部数据可能存在一定的噪点,此时,可对二值化之后的头部数据执行腐蚀处理(dilate),腐蚀处理是将灰度值小(视觉上就是比较暗)的区域增强扩展,可用于去除比较亮的噪点,减少噪点对描边数据的统计的影响,减少误差。
腐蚀之后的头部数据会存在一定程度的缩小,此时,可对腐蚀之后的头部数据执行膨胀处理(erode),膨胀处理将灰度值大(视觉上就是比较亮)的区域增强扩展,主要用来连通相似颜色或强度的区域(即连通区)。
步骤10326、在膨胀的头部数据中检测黑色的像素点,获得表征素描风格的描边数据。
在膨胀之后的头部数据中检测表示黑色(即0)的像素点,得到表征素描风格的描边数据。
步骤10327、使用面积、坐标中的至少一者对描边数据进行校正。
在实际应用中,动画数据的角色中头发、眉毛、眼睛、嘴巴等元素可能也会是黑色,这些在一定程度上会对描边数据进行干扰,因而,可以通过分析描边数据的面积、坐标等因素,使用面积、坐标中的至少一者对描边数据进行校正。
在一个示例中,针对每个属于独立连通区的描边数据,统计描边数据的面积(可等价为像素点的数量)。
若面积小于或等于第二阈值,表示描边数据的面积较小,描边数据较为置信,则保留描边数据。
若面积大于第二阈值,表示描边数据的面积较大,可能属于头发数据,则滤除描边数据。
在另一个示例,查询检测头部数据时记录的、表征五官(如眉毛、眼睛、嘴巴等)的人脸关键点组成的区域。
针对每个属于独立连通区的描边数据,将描边数据的坐标与区域进行比较。
若描边数据位于区域外,描边数据较为置信,则保留描边数据。
若描边数据位于区域中,描边数据可能属于五官数据,则滤除描边数据。
当然,上述校正描边数据的方式只是作为示例,在实施本实施例时,可以根据实际情况设置其它校正描边数据的方式,本实施例对此不加以限制。另外,除了上述校正描边数据的方式外,本领域技术人员还可以根据实际需要采用其它校正描边数据的方式,本实施例对此也不加以限制。
步骤1033、对每部动画数据配置表示描边数据强弱程度的分数。
一般情况下,较强的描边数据表现为长度较大、最大宽度较大、颜色较深等特征,因此,本实施例根据一个或多个表示强度的特征综合分析每部动画数据的描边数据,将其进行数值化,得到表示描边数据强弱程度的分数。
在本发明的一个实施例中,步骤1033可以包括如下步骤:
步骤10331、针对每部动画数据,查询头部数据在动画数据中表示的角色。
针对每部动画数据,在检测头部数据时,可以对头部数据标记角色的ID,即,如果检测到已有角色的头部数据,则可以将头部数据映射至该角色的ID,如果检测到未知角色的头部数据,则可以对该未知角色配置新的ID,将头部数据映射至该角色的ID,从而实现将各个头部数据映射至动画数据中的各个角色。
步骤10332、针对同一角色,则统计描边数据中像素点的数量的平均值。
针对同一角色(即同一ID),可以统计各个描边数据中像素点的数量,对该数量计算平均值。
步骤10333、在动画数据中查询作为代表的n个角色。
在本实施例中,可以从剧情、人气值等方面在动画数据中筛选n(n为正整数)个角色,作为动画数据中各个角色的代表。
在一种筛选方式中,可对各个角色配置一个变量,记为典型值,典型值初始为0。
查询在角色在动画数据的各个场景(即动画片段)中出现的频次。
若某个角色的频次大于第三阈值,表示该角色出现的频率较高,在该场景中的单独剧情占据较为重要的作用,可作为该场景中的代表,则对角色的典型值累加一。
在遍历完所有场景之后,将各个角色的典型值进行排序,筛选出典型值最高的n个角色,作为动画数据代表的n个角色,本方式计算简便,筛选出的n个角色在所有场景中的整体剧情占据较为重要的作用,保证这n个角色的典型程度,用户的注意力大多会集中在这n个角色上,从而保证评价描边数据的准确性。
步骤10334、将n个角色对应的平均值融合为表示描边数据强弱程度的分数。
在本实施例中,可以通过线性或非线性的方式将n个角色对应的平均值融合为表示描边数据强弱程度的分数。
以线性的方式为例,可以分别对n个角色配置权重,其中,权重与典型值正相关,即典型值越大,权重越高,反之,典型值越小,权重越低。
将n个角色对应的平均值与权重之间的乘积相加,得到表示描边数据强弱程度的分数。
步骤1034、将分数最高的k部动画数据标记为呈素描风格的动画数据。
在本实施例中,可以将各部动画数据的分数进行排序,从而选择分数最高的k(k为正整数)部动画数据标记为呈素描风格的动画数据。
步骤104、在呈素描风格的动画数据中提取多帧图像数据,作为风格样本图像数据。
在本实施例中,可通过随机采样、均匀采样等采样方式在每部呈素描风格的动画数据中分别提取多帧图像数据,作为训练卡通素描图像重构网络的样本,对于卡通素描图像重构网络而言,作为样本的图像数据属于风格的来源,因而可记为风格样本图像数据。
进一步而言,若在先筛选呈素描风格的动画数据的过程中提取了参考图像数据,则可以复用该参考图像数据为风格样本图像数据。
步骤105、根据内容样本图像数据与风格样本图像数据将生成对抗网络训练为卡通素描图像重构网络。
在本实施例中,可以预先构建生成对抗网络(Generative Adversarial Network,GAN)。
一般情况下,生成对抗网络包括生成器和判别器。其中,生成器负责依据随机向量产生内容,在本实施例中,该内容为图像数据,尤其为具有卡通素描风格的图像数据;判别器负责判别接收的内容是否是真实的,判别器通常会给出一个概率,代表内容的真实度。
生成器和判别器可以使用不同的结构,对于处理图像数据的功能,这些结构不局限于人工设计的神经网络,如卷积层、全连接层等,也可以通过模型量化方法优化的神经网络,通过NAS(Neural Architecture Search,神经网络结构搜索)方法针对卡通素描风格的特性搜索的神经网络,等等,本实施例对此不加以限制。
针对不同结构的生成器和判别器,可以将生成对抗网络划分为如下类型:
DCGAN(深度卷积生成对抗网络)、CGAN(条件生成对抗网络)、CycleGAN(周期生成对抗网络)、CoGAN(耦合生成对抗网络)、ProGAN(生成对抗网络的渐进式增长)、WGAN(Wasserstein生成对抗网络)、SAGAN(自注意力生成对抗网络)、BigGAN(大生成对抗性网络)、StyleGAN(基于风格的生成对抗网络)。
生成器和判别器存在对抗,所谓对抗,可以指在生成对抗网络交替训练的过程,以生成具有卡通素描风格的图像数据为例,让生成器生成一些假的图像数据和真的图像数据,一起交给判别器判别,让它学习区分两者,给真的图像数据(即具有卡通素描风格的图像数据)评高分,给假的图像数据(即不具有卡通素描风格的图像数据)评低分,当判别器能够熟练判断现有的图像数据后,让生成器以从判别器处获得高分为目标,不断生成更好的假的图像数据,直到能骗过判别器,重复这一过程,直到判别器对任何图像数据的预测概率都接近0.5,也就是无法判别图像数据的真假,即可停止训练了。
在本实施例中,用于记录真实世界的内容样本图像数据、具备卡通素描风格的风格样本图像脸数据为训练生成对抗网络的样本,内容样本图像数据为内容的来源、风格样本图像数据为卡通素描风格的来源,以此训练生成对抗网络,将完成训练的生成对抗网络记为卡通素描图像重构网络,使得卡通素描图像重构网络可用于重构包含卡通素描风格的图像数据。
进一步而言,训练生成对抗网络的样本可选为成对数据(paired data),这样子可提升生成对抗网络的性能,但这要求收集风格样本图像数据对应的真实世界的图像数据,但实际上大部分风格样本图像数据并不存在对应的真实世界的图像数据,因此,本实施例中的生成对抗网络支持利用非成对数据(unpaired data)训练,例如,CycleGAN、StyleGAN,等等。
以Learning to Cartoonize Using White-box Cartoon Representations(学习使用白盒卡通表示法进行卡通化网络)为例,该网络包含三个模块,可将原图和风格图分为三个表征:
1、surface(表面)表征
提取表面表征来表示图像数据的光滑表面。给定图像数据,可提取加权低频分量,其中颜色成分和表面纹理被保留,边缘、纹理和细节被忽略,可用于实现平滑表面的灵活和可学习的特征表示。
2、structure(结构)表征
结构表征可有效抓住赛璐珞卡通风格中的全局结构信息和稀疏色块从输入的图像数据中提取分割区域,对每个分割区域应用自适应着色算法以生成结构表征。结构表征可模仿赛璐珞卡通风格,其特点是边界清晰,色块稀疏。
3、texture(纹理)表征
纹理表征包含绘制的细节和边缘。输入的图像数据被转换为单通道强度图,其中去除了颜色和亮度,并保留了相对像素强度。纹理表征可引导网络独立学习高频纹理细节,排除颜色和亮度模式。
通过平衡表面表征、结构表征、纹理表征的权重来控制图像数据输出的风格。
本实施例中,采集故事发生于真实世界的电影数据、多部故事发生于虚拟世界的动画数据;在电影数据中提取多帧图像数据,作为内容样本图像数据;从多部动画数据中筛选呈素描风格的动画数据;在呈素描风格的动画数据中提取多帧图像数据,作为风格样本图像数据;根据内容样本图像数据与风格样本图像数据将生成对抗网络训练为卡通素描图像重构网络,卡通素描图像重构网络用于重构包含卡通素描风格的图像数据。在动画数据呈现卡通风格的基础上筛选出素描风格,两者结合可以得到卡通素描风格,以此训练生成对抗网络,使得卡通素描图像重构网络可将图像数据重构至卡通素描风格,重构卡通素描风格属于后期处理,可以维持制作视频数据的门槛,维持制作视频数据的耗时,大大提高了制作卡通素描风格的视频数据的效率。
实施例二
图3为本发明实施例二提供的一种图像重构方法的流程图,本实施例可适用于基于卡通素描图像重构网络将图像数据重构至卡通素描风格的情况,该方法可以由图像重构装置来执行,该图像重构装置可以采用硬件和/或软件的形式实现,该图像重构装置可配置于电子设备中。如图3所示,该方法包括:
步骤301、加载卡通素描图像重构网络。
在具体实现中,可以预先根据本发明实施例一所述的方法训练卡通素描图像重构网络,其中,卡通素描图像重构网络可用于重构包含卡通素描风格的图像数据。
在应用卡通素描图像重构网络时,将卡通素描图像重构网络及其参数加载至内存进行运行。
步骤302、获取待重构的原始图像数据。
一般情况下,卡通素描图像重构网络的结构较为庞大,占用的资源较多,通常部署在服务端,服务端可将卡通素描图像重构网络封装成接口、插件等方式,面向局域网或公网的用户提供重构卡通素描风格的服务,用户可以通过客户端或浏览器以调用该接口、插件等方式将待重构卡通素描风格的图像数据传输至服务端,为便于区分,待重构卡通素描风格的图像数据记为原始图像数据。
当然,如果诸如个人电脑、笔记本电脑等电子设备本地的资源较多,可满足卡通素描图像重构网络的运行,则可以在电子设备本地加载并运行卡通素描图像重构网络,此时,可以通过命令行等方式输入待重构卡通素描风格的原始图像数据。
步骤303、将原始图像数据输入至卡通素描图像重构网络中重构为包含卡通素描风格的目标图像数据。
在本实施例中,将原始图像数据输入至卡通素描图像重构网络中,卡通素描图像重构网络按照其结构对原始图像数据进行处理,在保持原始图像数据的内容的情况下,将原始图像数据重构为包含卡通素描风格的新图像数据,记为目标图像数据。
在一个示例中,将如图4A所示的原始图像数据输入至卡通素描图像重构网络中,重构得到如图4B所示的目标图像数据,如图4B所示的目标图像数据相比于如图4A所示的原始图像数据,人物形象更加卡通化,凸显出素描(尤其为描边)的风格。
本实施例中,加载卡通素描图像重构网络;获取待重构的原始图像数据;将原始图像数据输入至卡通素描图像重构网络中重构为包含卡通素描风格的目标图像数据。在训练卡通素描图像重构网络时,在动画数据呈现卡通风格的基础上筛选出素描风格,两者结合可以得到卡通素描风格,以此训练生成对抗网络,使得卡通素描图像重构网络可将图像数据重构至卡通素描风格,重构卡通素描风格属于后期处理,可以维持制作视频数据的门槛,维持制作视频数据的耗时,大大提高了制作卡通素描风格的视频数据的效率。
实施例三
图5为本发明实施例三提供的一种视频重构方法的流程图,本实施例可适用于基于卡通素描图像重构网络将视频数据重构至卡通素描风格的情况,该方法可以由视频重构装置来执行,该视频重构装置可以采用硬件和/或软件的形式实现,该视频重构装置可配置于电子设备中。如图5所示,该方法包括:
步骤501、加载卡通素描图像重构网络。
在具体实现中,可以预先根据本发明实施例一所述的方法训练卡通素描图像重构网络,其中,卡通素描图像重构网络可用于重构包含卡通素描风格的图像数据。
在应用卡通素描图像重构网络时,将卡通素描图像重构网络及其参数加载至内存进行运行。
步骤502、获取内容为介绍游戏的原始视频数据。
在本实施例中,美术人员可以针对待推广目标的游戏制作视频数据,该视频数据的内容用于介绍该游戏。
其中,游戏的类型可以包括MOBA(Multiplayer Online Battle Arena,多人在线战术竞技游戏)、RPG(Role-playing game,角色扮演游戏)、SLG(Simulation Game,策略类游戏),等等,本实施例对此不加以限制。
在具体实现中,原始视频数据的内容可以划分为游戏的内容、真实的剧情两种主要的形式,其中剧情可以进一步划分为如下类别:
1、伪美食分享
原始视频数据包含一些美食类的素材,可以吸引起用户的注意,其次植入赚钱吃美食的玩法,与此同时还给用户们提供了一个明确的玩游戏的目标。
2、贴近用户生活题材
原始视频数据贴近用户现在的生活状态,将游戏的卖点植入到生活的方方面面,购买目标游戏的道具、吃饭、买零食等方式使用游戏赚钱付款。这类素材的制作也较为简单,场景单一且拍摄难度低,素材前半段主要以2人对话为主,后半段为游戏的植入片段。
3、情景剧
原始视频数据包含情景剧的素材,部分情况为明星穿着游戏中的服饰代言,某些剧情较为夸张,用以吸引起用户的注意。
一般情况下,卡通素描图像重构网络的结构较为庞大,占用的资源较多,通常部署在服务端,服务端可将卡通素描图像重构网络封装成接口、插件等方式,面向局域网或公网的用户提供重构卡通素描风格的服务,用户可以通过客户端或浏览器以调用该接口、插件等方式将待重构卡通素描风格的视频数据传输至服务端,为便于区分,待重构卡通素描风格的视频数据记为原始视频数据。
当然,如果诸如个人电脑、笔记本电脑等电子设备本地的资源较多,可满足卡通素描图像重构网络的运行,则可以在电子设备本地加载并运行卡通素描图像重构网络,此时,可以通过命令行等方式输入待重构卡通素描风格的原始视频数据。
步骤503、将原始图像数据输入至卡通素描图像重构网络中重构为包含卡通素描风格的目标图像数据。
在具体实现中,原始视频数据中具有多帧图像数据,记为原始图像数据,将每帧原始图像数据输入至卡通素描图像重构网络中,卡通素描图像重构网络按照其结构对原始图像数据进行处理,在保持原始图像数据的内容的情况下,将原始图像数据重构为包含卡通素描风格的新图像数据,记为目标图像数据。
步骤504、在原始视频数据中将目标图像数据替换原始图像数据,获得目标视频数据。
在原始视频数据中,可以将目标图像数据替换相应的原始图像数据,获得目标视频数据。
此后,可以在目标视频数据中添加与游戏相关的广告元素数据,获得广告视频数据,其中,广告元素数据包括用于分发目标游戏的平台的LOGO(图标)、Banner(横幅广告)、EC(结束片段,一般包含目标游戏的信息(如名称、分发目标游戏的平台等)),等等。
在指定的渠道(如新闻资讯、短视频、小说阅读、运动健康等)发布广告视频数据,以在客户端访问渠道时,将广告视频数据推送至客户端进行播放,用户在对游戏感兴趣时,从分发游戏的平台中下载游戏。
本实施例中,加载卡通素描图像重构网络;获取内容为介绍游戏的原始视频数据,原始视频数据中具有多帧原始图像数据;将原始图像数据输入至卡通素描图像重构网络中重构为包含卡通素描风格的目标图像数据;在原始视频数据中将目标图像数据替换原始图像数据,获得目标视频数据。在训练卡通素描图像重构网络时,在动画数据呈现卡通风格的基础上筛选出素描风格,两者结合可以得到卡通素描风格,以此训练生成对抗网络,使得卡通素描图像重构网络可将图像数据重构至卡通素描风格,重构卡通素描风格属于后期处理,可以维持制作视频数据的门槛,维持制作视频数据的耗时,大大提高了制作卡通素描风格的视频数据的效率。
实施例四
图6为本发明实施例四提供的一种卡通素描图像重构网络的训练装置的结构示意图。如图6所示,该装置包括:
视频数据采集模块601,用于采集故事发生于真实世界的电影数据、多部故事发生于虚拟世界的动画数据;
内容样本图像数据提取模块602,用于在所述电影数据中提取多帧图像数据,作为内容样本图像数据;
动画数据筛选模块603,用于从多部所述动画数据中筛选呈素描风格的所述动画数据;
风格样本图像数据提取模块604,用于在呈素描风格的所述动画数据中提取多帧图像数据,作为风格样本图像数据;
生成对抗网络训练模块605,用于根据所述内容样本图像数据与所述风格样本图像数据将生成对抗网络训练为卡通素描图像重构网络,所述卡通素描图像重构网络用于重构包含卡通素描风格的图像数据。
在本发明的一个实施例中,所述内容样本图像数据提取模块602还用于:
以独立的场景作为切分的节点,将所述电影数据切分为多个电影片段;
在每个所述电影片段中,每间隔预设的第一时间段抽取一帧图像数据,作为内容样本图像数据。
在本发明的一个实施例中,所述动画数据筛选模块603还用于:
从每部所述动画数据中抽取多帧图像数据,作为参考图像数据;
从所述参考图像数据中识别表征素描风格的描边数据;
对每部所述动画数据配置表示所述描边数据强弱程度的分数;
将所述分数最高的k部所述动画数据标记为呈素描风格的动画数据。
在本发明的一个实施例中,所述动画数据筛选模块603还用于:
以独立的场景作为切分的节点,将每部所述动画数据切分为多个动画片段;
在每个所述动画片段中,每间隔预设的第二时间段抽取一帧图像数据,作为参考图像数据。
在本发明的一个实施例中,所述动画数据筛选模块603还用于:
在所述参考图像数据中检测包含头发数据的头部数据;
对所述头部数据执行放大处理;
对放大的所述头部数据执行用于区分黑白的二值化处理;
对二值化的所述头部数据执行腐蚀处理;
对腐蚀的所述头部数据执行膨胀处理;
在膨胀的所述头部数据中检测黑色的像素点,获得表征素描风格的描边数据;
使用面积、坐标中的至少一者对所述描边数据进行校正。
在本发明的一个实施例中,所述动画数据筛选模块603还用于:
在所述参考图像数据中执行人脸检测,得到标识人脸数据的原始检测框;
分别沿水平方向与垂直向上的方向扩展所述原始检测框,以覆盖头发数据;
提取位于扩展之后的所述原始检测框的数据,获得包含头发数据的原始头部数据。
在本发明的一个实施例中,所述动画数据筛选模块603还用于:
确定放大之前所述头部数据的第一尺寸、放大之后所述头部数据的第二尺寸;
计算所述第一尺寸与所述第二尺寸之间的比例;
对放大之后所述头部数据的坐标与所述比例之间的乘积取整,获得放大之前所述头部数据的坐标;
将位于放大之前所述头部数据的坐标中的像素点赋颜色至放大之后所述头部数据坐标中的像素点。
在本发明的一个实施例中,所述动画数据筛选模块603还用于:
查询放大的所述头部数据中各个像素点的红色分量、绿色分量与蓝色分量;
若所述红色分量小于或等于第一阈值、所述绿色分量小于或等于第一阈值、所述蓝色分量小于或等于第一阈值,则将所述像素点置为黑色;
若满足所述红色分量大于第一阈值、所述绿色分量大于第一阈值、所述蓝色分量大于第一阈值中的至少一者,则将所述像素点置为白色。
在本发明的一个实施例中,所述动画数据筛选模块603还用于:
针对每个属于独立连通区的所述描边数据,统计所述描边数据的面积;
若所述面积小于或等于第二阈值,则保留所述描边数据;
若所述面积大于第二阈值,则滤除所述描边数据;
和/或,
查询检测所述头部数据时记录的、表征五官的人脸关键点组成的区域;
针对每个属于独立连通区的所述描边数据,将所述描边数据的坐标与所述区域进行比较;
若所述描边数据位于所述区域外,则保留所述描边数据;
若所述描边数据位于所述区域中,则滤除所述描边数据。
在本发明的一个实施例中,所述动画数据筛选模块603还用于:
针对每部所述动画数据,查询所述头部数据在所述动画数据中表示的角色;
针对同一所述角色,则统计所述描边数据中像素点的数量的平均值;
在所述动画数据中查询作为代表的n个所述角色;
将n个所述角色对应的所述平均值融合为表示所述描边数据强弱程度的分数。
在本发明的一个实施例中,所述动画数据筛选模块603还用于:
对各个所述角色配置典型值;
查询在所述角色在所述动画数据的各个场景中出现的频次;
若某个所述角色的频次大于第三阈值,则对所述角色的典型值累加一;
筛选出所述典型值最高的n个所述角色,作为所述动画数据代表的n个所述角色。
在本发明的一个实施例中,所述动画数据筛选模块603还用于:
分别对n个所述角色配置权重,所述权重与所述典型值正相关;
将n个所述角色对应的平均值与所述权重之间的乘积相加,得到表示所述描边数据强弱程度的分数。
本发明实施例所提供的卡通素描图像重构网络的训练装置可执行本发明任意实施例所提供的卡通素描图像重构网络的训练方法,具备执行卡通素描图像重构网络的训练方法相应的功能模块和有益效果。
实施例五
图7为本发明实施例五提供的一种图像重构装置的结构示意图。如图3所示,该装置包括:
重构网络加载模块701,用于加载根据本发明任一实施例所述的方法训练的卡通素描图像重构网络;
原始图像数据获取模块702,用于获取待重构的原始图像数据;
目标图像数据生成模块703,用于将所述原始图像数据输入至所述卡通素描图像重构网络中重构为包含卡通素描风格的目标图像数据。
本发明实施例所提供的图像重构装置可执行本发明任意实施例所提供的图像重构方法,具备执行图像重构方法相应的功能模块和有益效果。
实施例六
图8为本发明实施例六提供的一种视频重构装置的结构示意图。如图3所示,该装置包括:
重构网络加载模块801,用于加载根据本发明任一实施例所述的方法训练的卡通素描图像重构网络;
原始视频数据获取模块802,用于获取内容为介绍游戏的原始视频数据,所述原始视频数据中具有多帧原始图像数据;
目标图像数据生成模块803,用于将所述原始图像数据输入至所述卡通素描图像重构网络中重构为包含卡通素描风格的目标图像数据;
目标视频数据生成模块804,用于在所述原始视频数据中将所述目标图像数据替换所述原始图像数据,获得目标视频数据。
在本发明的一个实施例中,还包括:
广告视频数据生成模块,用于在所述目标视频数据中添加与所述游戏相关的广告元素,获得广告视频数据;
广告视频数据发布模块,用于在指定的渠道发布所述广告视频数据,以在客户端访问所述渠道时,将所述广告视频数据推送至所述客户端进行播放。
本发明实施例所提供的视频重构装置可执行本发明任意实施例所提供的视频重构方法,具备执行视频重构方法相应的功能模块和有益效果。
实施例七
图9示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图9所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如卡通素描图像重构网络的训练方法或者图像重构方法或者视频重构方法。
在一些实施例中,卡通素描图像重构网络的训练方法或者图像重构方法或者视频重构方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的卡通素描图像重构网络的训练方法或者图像重构方法或者视频重构方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行卡通素描图像重构网络的训练方法或者图像重构方法或者视频重构方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的***和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (17)
1.一种卡通素描图像重构网络的训练方法,其特征在于,包括:
采集故事发生于真实世界的电影数据、多部故事发生于虚拟世界的动画数据;
在所述电影数据中提取多帧图像数据,作为内容样本图像数据;
从多部所述动画数据中筛选呈素描风格的所述动画数据;
在呈素描风格的所述动画数据中提取多帧图像数据,作为风格样本图像数据;
根据所述内容样本图像数据与所述风格样本图像数据将生成对抗网络训练为卡通素描图像重构网络,所述卡通素描图像重构网络用于重构包含卡通素描风格的图像数据。
2.根据权利要求1所述的方法,其特征在于,所述在所述电影数据中提取多帧图像数据,作为内容样本图像数据,包括:
以独立的场景作为切分的节点,将所述电影数据切分为多个电影片段;
在每个所述电影片段中,每间隔预设的第一时间段抽取一帧图像数据,作为内容样本图像数据。
3.根据权利要求1或2所述的方法,其特征在于,所述从多部所述动画数据中筛选呈素描风格的所述动画数据,包括:
从每部所述动画数据中抽取多帧图像数据,作为参考图像数据;
从所述参考图像数据中识别表征素描风格的描边数据;
对每部所述动画数据配置表示所述描边数据强弱程度的分数;
将所述分数最高的k部所述动画数据标记为呈素描风格的动画数据。
4.根据权利要求3所述的方法,其特征在于,所述从每部所述动画数据中抽取多帧图像数据,作为参考图像数据,包括:
以独立的场景作为切分的节点,将每部所述动画数据切分为多个动画片段;
在每个所述动画片段中,每间隔预设的第二时间段抽取一帧图像数据,作为参考图像数据。
5.根据权利要求3所述的方法,其特征在于,所述从所述参考图像数据中识别表征素描风格的描边数据,包括:
在所述参考图像数据中检测包含头发数据的头部数据;
对所述头部数据执行放大处理;
对放大的所述头部数据执行用于区分黑白的二值化处理;
对二值化的所述头部数据执行腐蚀处理;
对腐蚀的所述头部数据执行膨胀处理;
在膨胀的所述头部数据中检测黑色的像素点,获得表征素描风格的描边数据;
使用面积、坐标中的至少一者对所述描边数据进行校正。
6.根据权利要求5所述的方法,其特征在于,所述在所述参考图像数据中检测包含头发数据的头部数据,包括:
在所述参考图像数据中执行人脸检测,得到标识人脸数据的原始检测框;
分别沿水平方向与垂直向上的方向扩展所述原始检测框,以覆盖头发数据;
提取位于扩展之后的所述原始检测框的数据,获得包含头发数据的原始头部数据。
7.根据权利要求5所述的方法,其特征在于,所述对所述头部数据执行放大处理,包括:
确定放大之前所述头部数据的第一尺寸、放大之后所述头部数据的第二尺寸;
计算所述第一尺寸与所述第二尺寸之间的比例;
对放大之后所述头部数据的坐标与所述比例之间的乘积取整,获得放大之前所述头部数据的坐标;
将位于放大之前所述头部数据的坐标中的像素点赋颜色至放大之后所述头部数据坐标中的像素点。
8.根据权利要求5所述的方法,其特征在于,所述对放大的所述头部数据执行用于区分黑白的二值化处理,包括:
查询放大的所述头部数据中各个像素点的红色分量、绿色分量与蓝色分量;
若所述红色分量小于或等于第一阈值、所述绿色分量小于或等于第一阈值、所述蓝色分量小于或等于第一阈值,则将所述像素点置为黑色;
若满足所述红色分量大于第一阈值、所述绿色分量大于第一阈值、所述蓝色分量大于第一阈值中的至少一者,则将所述像素点置为白色。
9.根据权利要求5所述的方法,其特征在于,所述使用面积、坐标中的至少一者对所述描边数据进行校正,包括:
针对每个属于独立连通区的所述描边数据,统计所述描边数据的面积;
若所述面积小于或等于第二阈值,则保留所述描边数据;
若所述面积大于第二阈值,则滤除所述描边数据;
和/或,
查询检测所述头部数据时记录的、表征五官的人脸关键点组成的区域;
针对每个属于独立连通区的所述描边数据,将所述描边数据的坐标与所述区域进行比较;
若所述描边数据位于所述区域外,则保留所述描边数据;
若所述描边数据位于所述区域中,则滤除所述描边数据。
10.根据权利要求5-9中任一项所述的方法,其特征在于,所述对每部所述动画数据配置表示所述描边数据强弱程度的分数,包括:
针对每部所述动画数据,查询所述头部数据在所述动画数据中表示的角色;
针对同一所述角色,则统计所述描边数据中像素点的数量的平均值;
在所述动画数据中查询作为代表的n个所述角色;
将n个所述角色对应的所述平均值融合为表示所述描边数据强弱程度的分数。
11.根据权利要求10所述的方法,其特征在于,所述在所述动画中查询作为代表的n个所述角色,包括:
对各个所述角色配置典型值;
查询在所述角色在所述动画数据的各个场景中出现的频次;
若某个所述角色的频次大于第三阈值,则对所述角色的典型值累加一;
筛选出所述典型值最高的n个所述角色,作为所述动画数据代表的n个所述角色。
12.根据权利要求11所述的方法,其特征在于,所述将n个所述角色对应的所述平均值融合为表示所述描边数据强弱程度的分数,包括:
分别对n个所述角色配置权重,所述权重与所述典型值正相关;
将n个所述角色对应的平均值与所述权重之间的乘积相加,得到表示所述描边数据强弱程度的分数。
13.一种图像重构方法,其特征在于,包括:
加载根据权利要求1-12任一项所述的方法训练的卡通素描图像重构网络;
获取待重构的原始图像数据;
将所述原始图像数据输入至所述卡通素描图像重构网络中重构为包含卡通素描风格的目标图像数据。
14.一种视频重构方法,其特征在于,包括:
加载根据权利要求1-12任一项所述的方法训练的卡通素描图像重构网络;
获取内容为介绍游戏的原始视频数据,所述原始视频数据中具有多帧原始图像数据;
将所述原始图像数据输入至所述卡通素描图像重构网络中重构为包含卡通素描风格的目标图像数据;
在所述原始视频数据中将所述目标图像数据替换所述原始图像数据,获得目标视频数据。
15.根据权利要求14所述的方法,其特征在于,还包括:
在所述目标视频数据中添加与所述游戏相关的广告元素,获得广告视频数据;
在指定的渠道发布所述广告视频数据,以在客户端访问所述渠道时,将所述广告视频数据推送至所述客户端进行播放。
16.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-12中任一项所述的卡通素描图像重构网络的训练方法或者权利要求13所述的图像重构方法或者权利要求14-15中任一项所述的视频重构方法。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于使处理器执行时实现权利要求1-12中任一项所述的卡通素描图像重构网络的训练方法或者权利要求13所述的图像重构方法或者权利要求14-15中任一项所述的视频重构方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210910458.5A CN115272057A (zh) | 2022-07-29 | 2022-07-29 | 卡通素描图像重构网络的训练及其重构方法与设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210910458.5A CN115272057A (zh) | 2022-07-29 | 2022-07-29 | 卡通素描图像重构网络的训练及其重构方法与设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115272057A true CN115272057A (zh) | 2022-11-01 |
Family
ID=83747134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210910458.5A Pending CN115272057A (zh) | 2022-07-29 | 2022-07-29 | 卡通素描图像重构网络的训练及其重构方法与设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115272057A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116681813A (zh) * | 2023-07-28 | 2023-09-01 | 山东舜网传媒股份有限公司 | 区块链原创认证的浏览器中3d场景渲染方法及*** |
-
2022
- 2022-07-29 CN CN202210910458.5A patent/CN115272057A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116681813A (zh) * | 2023-07-28 | 2023-09-01 | 山东舜网传媒股份有限公司 | 区块链原创认证的浏览器中3d场景渲染方法及*** |
CN116681813B (zh) * | 2023-07-28 | 2023-11-03 | 山东舜网传媒股份有限公司 | 区块链原创认证的浏览器中3d场景渲染方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180253865A1 (en) | Image matting using deep learning | |
CN108898145A (zh) | 一种结合深度学习的图像显著目标检测方法 | |
US20180025749A1 (en) | Automatic generation of semantic-based cinemagraphs | |
CN107341434A (zh) | 视频图像的处理方法、装置和终端设备 | |
US20120309520A1 (en) | Generation of avatar reflecting player appearance | |
US20110292051A1 (en) | Automatic Avatar Creation | |
US20210027531A1 (en) | Terrain generation and population system | |
US11282257B2 (en) | Pose selection and animation of characters using video data and training techniques | |
CN111738243A (zh) | 人脸图像的选择方法、装置、设备及存储介质 | |
CN110598700B (zh) | 对象的显示方法和装置、存储介质及电子装置 | |
US20230021533A1 (en) | Method and apparatus for generating video with 3d effect, method and apparatus for playing video with 3d effect, and device | |
CN115100334B (zh) | 一种图像描边、图像动漫化方法、设备及存储介质 | |
CN115222858A (zh) | 动画重构网络的训练及其图像重构、视频重构方法与设备 | |
CN109408672A (zh) | 一种文章生成方法、装置、服务器及存储介质 | |
CN108596098A (zh) | 人体部件的解析方法、***、设备和存储介质 | |
Chen et al. | Salbinet360: Saliency prediction on 360 images with local-global bifurcated deep network | |
CN115272057A (zh) | 卡通素描图像重构网络的训练及其重构方法与设备 | |
Polasek et al. | ICTree: Automatic perceptual metrics for tree models | |
US11361467B2 (en) | Pose selection and animation of characters using video data and training techniques | |
CN112819767A (zh) | 图像处理方法、装置、设备、存储介质以及程序产品 | |
Cui et al. | Film effect optimization by deep learning and virtual reality technology in new media environment | |
Wang et al. | A novel two-tier Bayesian based method for hair segmentation | |
Bhattacharyya et al. | Diffusion deepfake | |
CN112991152A (zh) | 一种图像处理方法、装置、电子设备和存储介质 | |
CN115829828A (zh) | 游戏图像重构网络的训练及重构方法、设备与存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |