CN109359687B - 视频风格转换处理方法和装置 - Google Patents
视频风格转换处理方法和装置 Download PDFInfo
- Publication number
- CN109359687B CN109359687B CN201811220100.XA CN201811220100A CN109359687B CN 109359687 B CN109359687 B CN 109359687B CN 201811220100 A CN201811220100 A CN 201811220100A CN 109359687 B CN109359687 B CN 109359687B
- Authority
- CN
- China
- Prior art keywords
- target
- video
- model
- output vector
- style
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 163
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 69
- 238000000034 method Methods 0.000 claims abstract description 57
- 238000012545 processing Methods 0.000 claims abstract description 53
- 230000003287 optical effect Effects 0.000 claims abstract description 52
- 230000008569 process Effects 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Processing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本申请提出一种视频风格转换处理方法和装置,其中,方法包括:根据样本图片的风格属性信息设置反映风格属性特征网络层的第一目标输出向量,根据当前输入视频帧的内容信息设置反映内容特征网络层的第二目标输出向量,根据当前输入视频帧的光流场信息设置反映光流场特征网络层的第三目标输出向量,根据第一目标输出向量、第二目标输出向量、第三目标输出向量训练目标模型中每个网络层的网络参数,根据满足预设训练条件时对应的目标网络参数和目标模型生成与样本图片对应的视频风格转换模型,以根据视频风格转换模型对目标视频进行转换处理生成与样本图片匹配的视频风格。由此,在确保视频流畅性的同时提高了视频风格转换处理的效率。
Description
技术领域
本申请涉及视频处理技术领域,尤其涉及一种视频风格转换处理方法和装置。
背景技术
随着互联网技术的不断发展,用户对媒体资源的丰富性的需求也越来越高,例如从经典的文字内容进化到后来的图片内容,进而到如今广泛流行的视频特别是短视频内容。另一方面,用户也希望能够对内容本身进行重新的艺术加工从而获得更加新颖更加具有创意的艺术形态,比如视频的艺术风格转换。
相关技术中,艺术风格的转换方法只能针对单张图片进行风格转换,因此利用经典的基于图片逐帧的方式进行风格转换处理,由于视频内容往往包含海量数据必然会导致耗时过长的问题,以及每帧图片之间可能存在突变,即风格转换后的图片内容和原始转换前的图片内容不具有相同的光流场,影响视频的流畅性。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种视频风格转换处理方法,通过训练生成视频风格转换模型,在确保视频流畅性的同时提高了视频风格转换处理的效率。
本申请的第二个目的在于提出另一种视频风格转换处理方法。
本申请的第三个目的在于提出一种视频风格转换处理装置。
本申请的第四个目的在于提出另一种视频风格转换处理装置。
本申请的第五个目的在于提出一种计算机设备。
本申请的第六个目的在于提出一种计算机程序产品。
本申请的第七个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本申请的第一个目的在于提出一种视频风格转换处理方法,包括:
获取用于模型训练的样本图片以及对应的样本视频集合;
获取所述样本图片的风格属性信息,进而在训练所述目标模型的过程中,根据所述风格属性信息设置目标模型中反映风格属性特征网络层的第一目标输出向量;
获取所述样本视频中每个视频帧的内容信息和光流场信息,进而在训练所述目标模型的过程中,根据当前输入视频帧的内容信息设置所述目标模型中反映内容特征网络层的第二目标输出向量,以及根据当前输入视频帧的光流场信息设置所述目标模型中反映光流场特征网络层的第三目标输出向量;
根据所述第一目标输出向量、所述第二目标输出向量,以及所述第三目标输出向量训练所述目标模型中每个网络层的网络参数,并根据满足预设训练条件时对应的目标网络参数和所述目标模型,生成与所述样本图片对应的视频风格转换模型,以根据所述视频风格转换模型对目标视频进行转换处理生成与所述样本图片匹配的视频风格。
为达上述目的,本申请的第二个目的在于提出一种视频风格转换处理方法,包括:
获取包含目标视频和目标图片的视频风格转换请求;
获取预先训练的与所述目标图片对应的目标视频风格转换模型;
根据所述目标视频风格转换模型对所述目标视频进行转换处理生成与所述目标图片匹配的视频风格。
为达上述目的,本申请的第三个目的在于提出一种视频风格转换处理装置,包括:
获取模块,用于获取用于模型训练的样本图片以及对应的样本视频集合;
第一设置模块,用于获取所述样本图片的风格属性信息,进而在训练所述目标模型的过程中,根据所述风格属性信息设置目标模型中反映风格属性特征网络层的第一目标输出向量;
第二设置模块,用于获取所述样本视频中每个视频帧的内容信息和光流场信息,进而在训练所述目标模型的过程中,根据当前输入视频帧的内容信息设置所述目标模型中反映内容特征网络层的第二目标输出向量,以及根据当前输入视频帧的光流场信息设置所述目标模型中反映光流场特征网络层的第三目标输出向量;
训练生成模块,用于根据所述第一目标输出向量、所述第二目标输出向量,以及所述第三目标输出向量训练所述目标模型中每个网络层的网络参数,并根据满足预设训练条件时对应的目标网络参数和所述目标模型,生成与所述样本图片对应的视频风格转换模型,以根据所述视频风格转换模型对目标视频进行转换处理生成与所述样本图片匹配的视频风格。
为达上述目的,本申请的第四个目的在于提出一种视频风格转换处理装置,包括:
第二获取模块,用于获取包含目标视频和目标图片的视频风格转换请求;
第三获取模块,用于获取预先训练的与所述目标图片对应的目标视频风格转换模型;
转换模块,用于根据所述目标视频风格转换模型对所述目标视频进行转换处理生成与所述目标图片匹配的视频风格。
为达上述目的,本申请第五方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如前述方法实施例所述的视频风格转换处理。
为达上述目的,本申请第六方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时实现如前述方法实施例所述的视频风格转换处理方法。
为达上述目的,本申请第七方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述方法实施例所述的视频风格转换处理方法。
本申请实施例提供的技术方案可以包含如下的有益效果:
获取用于模型训练的样本图片以及对应的样本视频集合,获取样本图片的风格属性信息,进而在训练目标模型的过程中,根据风格属性信息设置目标模型中反映风格属性特征网络层的第一目标输出向量,获取样本视频中每个视频帧的内容信息和光流场信息,进而在训练目标模型的过程中,根据当前输入视频帧的内容信息设置目标模型中反映内容特征网络层的第二目标输出向量,以及根据当前输入视频帧的光流场信息设置目标模型中反映光流场特征网络层的第三目标输出向量,根据第一目标输出向量、第二目标输出向量,以及第三目标输出向量训练目标模型中每个网络层的网络参数,并根据满足预设训练条件时对应的目标网络参数和目标模型,生成与样本图片对应的视频风格转换模型,以根据视频风格转换模型对目标视频进行转换处理生成与样本图片匹配的视频风格。由此,在确保视频流畅性的同时提高了视频风格转换处理的效率。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本申请一个实施例的视频风格转换处理方法的流程图;
图2是根据本申请另一个实施例的视频风格转换处理方法的流程图
图3是根据本申请一个实施例的视频风格转换处理装置的结构示意图;
图4是根据本申请另一个实施例的视频风格转换处理装置的结构示意图;
图5是根据本申请再一个实施例的视频风格转换处理装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
为了解决相关技术中通过利用经典的基于图片逐帧的方式进行风格转换处理导致耗时过长的问题,以及风格转换后的图片内容和原始转换前的图片内容不具有相同的光流场,影响视频的流畅性。
本申请中,通过生成一种视频风格转换模型,可以确保视频转换处理前后的视频内容不变,仅仅是视频的风格转换,确保视频的流畅性。
下面参考附图描述本申请实施例的视频风格转换处理方法和装置。
图1是根据本申请一个实施例的视频风格转换处理方法的流程图,如图1所示,该方法包括:
步骤101,获取用于模型训练的样本图片以及对应的样本视频集合。
可以理解的是,一张样本图片表示一种艺术风格,也就是说一张样本图片对应一个视频风格转换模型。
还可以理解的是,为了本申请示例中训练生成的视频风格转换模型能够适用于不同目标视频的风格转换,因此需要获取尽可能多的不同场景的视频作为样本视频集合用于模型训练。
其中,为了提高视频风格转换模型的有效性,尽可能采用近千数量级的自然场景视频作为样本视频集合用于模型训练。
需要说明的是,为了进一步提高模型训练的丰富性和准确性,作为一种可能实现的方式,根据目标模型的输入图片尺寸,对样本图片和/或样本视频集合中的每个视频帧的尺寸大小进行调整,使调整后的样本图片和/或样本视频集合中的每个视频帧的尺寸大小与输入图片尺寸相匹配。
其中,输入图片尺寸可以根据实际应用需要进行调整,以及对样本图片和/或样本视频集合中的每个视频帧的尺寸大小进行调整的方式有很多种,举例说明如下:
第一种示例,对样本图片和/或样本视频集合中的每个视频帧的尺寸大小进行剪裁处理。
其中,剪裁处理可以是样本图片和/或样本视频集合中的每个视频帧的任意位置,进一步提高处理的灵活性。
第二种示例,对样本图片和/或样本视频集合中的每个视频帧的尺寸大小进行插值处理。
步骤102,获取样本图片的风格属性信息,进而在训练目标模型的过程中,根据风格属性信息设置目标模型中反映风格属性特征网络层的第一目标输出向量。
具体地,不同的样本图片具有不同的风格属性信息,可以通过相关技术中图片处理算法等方式获取样本图片中的风格属性信息,比如梵高的星空作为样本图片,获取该样本图片的风格属性信息比如为海一样的蔚兰色,色调柔和宁静的风格。
可以理解的是,目标模型有很多层网络层,可以根据需要将其中的一层或者多层作为反映风格属性特征网络层,并根据风格属性信息设置反映风格属性特征网络层的第一目标输出向量。其中,目标模型可以是VGG19在ImageNet上训练出来的模型。
步骤103,获取样本视频中每个视频帧的内容信息和光流场信息,进而在训练目标模型的过程中,根据当前输入视频帧的内容信息设置目标模型中反映内容特征网络层的第二目标输出向量,以及根据当前输入视频帧的光流场信息设置目标模型中反映光流场特征网络层的第三目标输出向量。
可以理解是,样本视频由多个视频帧组成,每个视频帧具有对应的内容信息和光流场信息。其中,内容信息比如文字、图像等;光流场信息比如物体的运动信息,以及有关景物三维结构的丰富信息等。
同理,可以根据需要将目标模型的多层网络层中的一层或者多层作为反映内容特征网络层,并根据当前输入视频帧的内容信息设置反映内容特征网络层的第二目标输出向量;可以根据需要将目标模型的多层网络层中的一层或者多层作为反映光流场特征网络层,并根据当前输入视频帧的光流场信息设置反映光流场特征网络层的第三目标输出向量。
举例而言,目标模型的为90层网络层,将底部30层作为反映风格属性特征网络层,中间30层为反映内容特征网络层和高部30层作为反映光流场特征网络层。
需要强调的是,在本申请示例中,目标模型中的网络层不能够被重复设置,比如已经设置成反映风格属性特征网络层不能再被重复设置,再比如已经设置成反映光流场特征网络层不能再被重复设置。
也就是说,可以用目标模型中的不同网络层来反映不同的特征,比如风格属性特征、内容特征和光流场特征等,从而提高模型训练的有效性。
步骤104,根据第一目标输出向量、第二目标输出向量,以及第三目标输出向量训练目标模型中每个网络层的网络参数,并根据满足预设训练条件时对应的目标网络参数和目标模型,生成与样本图片对应的视频风格转换模型,以根据视频风格转换模型对目标视频进行转换处理生成与样本图片匹配的视频风格。
具体地,通过第一目标输出向量、第二目标输出向量,以及第三目标输出向量来训练目标模型中每个网络层的网络参数,使得目标模型中不同网络层的网络参数分别可以无限接近对应的反映风格属性特征网络层、反映内容特征网络层和反映光流场特征网络层,则为满足预设训练条件,从而可以将对应的网络参数和目标模型生成与样本图片对应的视频风格转换模型。
进而,可以根据视频风格转换模型对目标视频进行转换处理生成与样本图片匹配的视频风格。
可以理解的是,视频风格转换模型输出图片和样本图片对应于目标模型的反映风格属性特征网络层进行训练从而保证两者之间具有风格相似性;视频风格转换模型输出图片与视频帧对应于目标模型的内容特征网络层进行训练从而保证两者之间具有内容相似性,由此确保了内容以及风格上的相似性。以及通过对变换前视频光流场和变换后视频光流场进行训练,从而确保两者具有相似性光流,使得风格变换处理后的视频具有帧间流畅的特点。
在实际应用中,不同的用户对于艺术风格的爱好不同,为了本申请示例中训练生成的视频风格转换模型能够满足于不同用户的视频风格转换需求,因此需要获取尽可能多的不同艺术风格的样本图片用于生成多个不同的视频风格转换模型。
具体地,可以随机也可以有目的性的选择不同艺术风格的样本图片,作为一种示例,获取多种西方艺术绘画风格的艺术图片作为样本图片用于生成多个不同的视频风格转换模型;作为另一种示例,获取多种西方艺术绘画风格的艺术图片、多种中国传统绘画风格的艺术图片和多种日本动漫风格的艺术图片作为样本图片用于生成多个不同的视频风格转换模型。
在应用时,根据用户需求选择目标视频风格转换模型对目标视频进行转换处理生成与样本图片匹配的视频风格。其中样本图片的艺术风格也就是用户需要转成的目标艺术风格。
在本申请示例中,为了确保视频风格转换模型能够在终端设备进行实时转换,在生成与样本图片对应的视频风格转换模型之后,还需要根据预设算法对目标网络参数进行计算,将计算结果满足预设过滤条件的候选网络参数对应的网络层进行删除处理。
作为一种可能实现方式,基于L1范数的滤波算法对目标网络参数进行计算得到绝对值小于预设阈值的对应的候选网络参数对应的网络层进行删除处理,实现视频风格转换模型压缩加速的作用。
也就是说,在视频风格转换模型训练完成后不再需要对光流场进行显式计算即可生成较为流畅的风格化视频,如此可以大大提高视频风格转换模型处理速度,进一步提高视频风格转换模型的实用性。
在本申请示例中,在视频风格转换模型部署的同时,可以采用内存复用的技术来保存内存的高效利用。
作为一种可能实现方式,对视频风格转换模型中的网络层进行内存复用设置,以使在根据视频风格转换模型对目标视频进行转换处理的过程中,删除内存中存储的网络层的处理数据。
也就是说,在对目标视频A进行风格转化处理后,可以将进行内存复用设置的视频风格转换模型中的网络层的处理进行删除,以便对下一个目标视频B进行风格转化处理,由此,提高了视频风格转换处理效率。
综上,本申请实施例的视频风格转换处理方法,获取用于模型训练的样本图片以及对应的样本视频集合,获取样本图片的风格属性信息,进而在训练目标模型的过程中,根据风格属性信息设置目标模型中反映风格属性特征网络层的第一目标输出向量,获取样本视频中每个视频帧的内容信息和光流场信息,进而在训练目标模型的过程中,根据当前输入视频帧的内容信息设置目标模型中反映内容特征网络层的第二目标输出向量,以及根据当前输入视频帧的光流场信息设置目标模型中反映光流场特征网络层的第三目标输出向量,根据第一目标输出向量、第二目标输出向量,以及第三目标输出向量训练目标模型中每个网络层的网络参数,并根据满足预设训练条件时对应的目标网络参数和目标模型,生成与样本图片对应的视频风格转换模型,以根据视频风格转换模型对目标视频进行转换处理生成与样本图片匹配的视频风格。由此,在确保视频流畅性的同时提高了视频风格转换处理的效率。
图2是根据本申请另一个实施例的视频风格转换处理方法的流程图,如图2所示,该方法包括:
步骤201,获取包含目标视频和目标图片的视频风格转换请求。
步骤202,获取预先训练的与目标图片对应的目标视频风格转换模型。
步骤203,根据目标视频风格转换模型对目标视频进行转换处理生成与目标图片匹配的视频风格。
具体地,不同的用户对于艺术风格的爱好不同,也可能是使用场景不同,对艺术风格的需求不同等等。因此需要获取尽可能多的不同艺术风格的样本图片用于生成多个不同的视频风格转换模型。
从而,在应用时,获取包含目标视频和目标图片的视频风格转换请求。也就是在用户需要对目标视频进行风格转换时,首先确定目标视频和目标图片,目标视频是需要转换的视频,目标图片是需要转换的目标风格,接着获取预先训练的与目标图片对应的目标视频风格转换模型,也就是获取与目标风格对应的目标视频风格转换模型,由此根据目标视频风格转换模型对目标视频进行转换处理生成与目标图片匹配的视频风格,由此能够快速实现视频风格转换处理,提高用户体验。
为了实现上述实施例,本申请实施例还提出了一种视频风格转换处理装置,图3是根据本申请一个实施例的视频风格转换处理装置的结构示意图,如图3所示,该视频风格转换处理装置包括:第一获取模块310、第一设置模块320、第二设置模块330和训练生成模块340。
其中,第一获取模块310,用于获取用于模型训练的样本图片以及对应的样本视频集合。
第一设置模块320,用于获取样本图片的风格属性信息,进而在训练目标模型的过程中,根据风格属性信息设置目标模型中反映风格属性特征网络层的第一目标输出向量。
第二设置模块330,用于获取样本视频中每个视频帧的内容信息和光流场信息,进而在训练目标模型的过程中,根据当前输入视频帧的内容信息设置目标模型中反映内容特征网络层的第二目标输出向量,以及根据当前输入视频帧的光流场信息设置目标模型中反映光流场特征网络层的第三目标输出向量。
训练生成模块340,用于根据第一目标输出向量、第二目标输出向量,以及第三目标输出向量训练目标模型中每个网络层的网络参数,并根据满足预设训练条件时对应的目标网络参数和目标模型,生成与样本图片对应的视频风格转换模型,以根据视频风格转换模型对目标视频进行转换处理生成与样本图片匹配的视频风格。
在本申请的一个实施例中,如图4所示,在图3的基础上还包括:调整模块350、计算删除模块360、复用删除模块370。
调整模块350,用于根据目标模型的输入图片尺寸,对样本图片和/或样本视频集合中的每个视频帧的尺寸大小进行调整,使调整后的样本图片和/或样本视频集合中的每个视频帧的尺寸大小与所述输入图片尺寸相匹配。
在本申请的一个实施例中,对样本图片和/或样本视频集合中的每个视频帧的尺寸大小进行剪裁处理,或者,对样本图片和/或样本视频集合中的每个视频帧的尺寸大小进行插值处理。
计算删除模块360,用于根据预设算法对目标网络参数进行计算,将计算结果满足预设过滤条件的候选网络参数对应的网络层进行删除处理。
复用删除模块370,用于对视频风格转换模型中的网络层进行内存复用设置,以使在根据视频风格转换模型对目标视频进行转换处理的过程中,删除内存中存储的网络层的处理数据。
也就是说,在视频风格转换模型训练完成后不再需要对光流场进行显式计算即可生成较为流畅的风格化视频,如此可以大大提高视频风格转换模型处理速度,进一步提高视频风格转换模型的实用性。
也就是说,在对目标视频A进行风格转化处理后,可以将进行内存复用设置的视频风格转换模型中的网络层的处理进行删除,以便对下一个目标视频B进行风格转化处理,由此,提高了视频风格转换处理效率。
需要说明的是,前述对视频风格转换处理方法实施例的解释说明也适用于该实施例的视频风格转换处理装置,其实现原理类似,此处不再赘述。
综上,本申请实施例的视频风格转换处理装置,获取用于模型训练的样本图片以及对应的样本视频集合,获取样本图片的风格属性信息,进而在训练目标模型的过程中,根据风格属性信息设置目标模型中反映风格属性特征网络层的第一目标输出向量,获取样本视频中每个视频帧的内容信息和光流场信息,进而在训练目标模型的过程中,根据当前输入视频帧的内容信息设置目标模型中反映内容特征网络层的第二目标输出向量,以及根据当前输入视频帧的光流场信息设置目标模型中反映光流场特征网络层的第三目标输出向量,根据第一目标输出向量、第二目标输出向量,以及第三目标输出向量训练目标模型中每个网络层的网络参数,并根据满足预设训练条件时对应的目标网络参数和目标模型,生成与样本图片对应的视频风格转换模型,以根据视频风格转换模型对目标视频进行转换处理生成与样本图片匹配的视频风格。由此,在确保视频流畅性的同时提高了视频风格转换处理的效率。
为了实现上述实施例,本申请实施例还提出了一种视频风格转换处理装置,图5是根据本申请再一个实施例的视频风格转换处理装置的结构示意图,如图5所示,该视频风格转换处理装置包括:第二获取模块510、第三获取模块520、转换模块530。
第二获取模块510,用于获取包含目标视频和目标图片的视频风格转换请求。
第三获取模块520,用于获取预先训练的与目标图片对应的目标视频风格转换模型。
转换模块530,用于根据目标视频风格转换模型对目标视频进行转换处理生成与目标图片匹配的视频风格。
从而,在应用时,获取包含目标视频和目标图片的视频风格转换请求。也就是在用户需要对目标视频进行风格转换时,首先确定目标视频和目标图片,目标视频是需要转换的视频,目标图片是需要转换的目标风格,接着获取预先训练的与目标图片对应的目标视频风格转换模型,也就是获取与目标风格对应的目标视频风格转换模型,由此根据目标视频风格转换模型对目标视频进行转换处理生成与目标图片匹配的视频风格,由此能够快速实现视频风格转换处理,提高用户体验。
为了实现上述实施例,本申请实施例还提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述程序时,实现如前述方法实施例所述的视频风格转换处理。
为了实现上述实施例,本申请还提出一种计算机程序产品,当计算机程序产品中的指令处理器执行时实现如前述方法实施例所描述的视频风格转换处理方法。
为了实现上述实施例,本申请还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如前述方法实施例所描述的视频风格转换处理方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (12)
1.一种视频风格转换处理方法,其特征在于,包括以下步骤:
获取用于模型训练的样本图片以及对应的样本视频集合;
获取所述样本图片的风格属性信息,进而在训练目标模型的过程中,根据所述风格属性信息设置目标模型中反映风格属性特征网络层的第一目标输出向量;
获取所述样本视频中每个视频帧的内容信息和光流场信息,进而在训练所述目标模型的过程中,根据当前输入视频帧的内容信息设置所述目标模型中反映内容特征网络层的第二目标输出向量,以及根据当前输入视频帧的光流场信息设置所述目标模型中反映光流场特征网络层的第三目标输出向量;
根据所述第一目标输出向量、所述第二目标输出向量,以及所述第三目标输出向量训练所述目标模型中每个网络层的网络参数,并根据满足预设训练条件时对应的目标网络参数和所述目标模型,生成与所述样本图片对应的视频风格转换模型,以根据所述视频风格转换模型对目标视频进行转换处理生成与所述样本图片匹配的视频风格。
2.如权利要求1所述的方法,其特征在于,在所述获取用于模型训练的样本图片以及对应的样本视频集合之后,还包括:
根据所述目标模型的输入图片尺寸,对所述样本图片和/或所述样本视频集合中的每个视频帧的尺寸大小进行调整,使调整后的所述样本图片和/或所述样本视频集合中的每个视频帧的尺寸大小与所述输入图片尺寸相匹配。
3.如权利要求2所述的方法,其特征在于,所述对所述样本图片和/或所述样本视频集合中的每个视频帧的尺寸大小进行调整,包括:
对所述样本图片和/或所述样本视频集合中的每个视频帧的尺寸大小进行剪裁处理,或者,
对所述样本图片和/或所述样本视频集合中的每个视频帧的尺寸大小进行插值处理。
4.如权利要求1所述的方法,其特征在于,在所述生成与所述样本图片对应的视频风格转换模型之后,还包括:
根据预设算法对所述目标网络参数进行计算,将计算结果满足预设过滤条件的候选网络参数对应的网络层进行删除处理。
5.如权利要求1所述的方法,其特征在于,在所述根据所述视频风格转换模型对目标视频进行转换处理生成与所述样本图片匹配的视频风格之前,还包括:
对所述视频风格转换模型中的网络层进行内存复用设置,以使在根据所述视频风格转换模型对目标视频进行转换处理的过程中,删除内存中存储的所述网络层的处理数据。
6.一种视频风格转换处理方法,其特征在于,包括以下步骤:
获取包含目标视频和目标图片的视频风格转换请求;
获取预先训练的与所述目标图片对应的目标视频风格转换模型;其中,获取用于模型训练的目标图片以及对应的样本视频集合;获取所述目标图片的风格属性信息,进而在训练目标模型的过程中,根据所述风格属性信息设置目标模型中反映风格属性特征网络层的第一目标输出向量;获取所述样本视频中每个视频帧的内容信息和光流场信息,进而在训练所述目标模型的过程中,根据当前输入视频帧的内容信息设置所述目标模型中反映内容特征网络层的第二目标输出向量,以及根据当前输入视频帧的光流场信息设置所述目标模型中反映光流场特征网络层的第三目标输出向量;根据所述第一目标输出向量、所述第二目标输出向量,以及所述第三目标输出向量训练所述目标模型中每个网络层的网络参数,并根据满足预设训练条件时对应的目标网络参数和所述目标模型,生成与所述目标图片对应的视频风格转换模型;
根据所述目标视频风格转换模型对所述目标视频进行转换处理生成与所述目标图片匹配的视频风格。
7.一种视频风格转换处理装置,其特征在于,包括:
第一获取模块,用于获取用于模型训练的样本图片以及对应的样本视频集合;
第一设置模块,用于获取所述样本图片的风格属性信息,进而在训练目标模型的过程中,根据所述风格属性信息设置目标模型中反映风格属性特征网络层的第一目标输出向量;
第二设置模块,用于获取所述样本视频中每个视频帧的内容信息和光流场信息,进而在训练所述目标模型的过程中,根据当前输入视频帧的内容信息设置所述目标模型中反映内容特征网络层的第二目标输出向量,以及根据当前输入视频帧的光流场信息设置所述目标模型中反映光流场特征网络层的第三目标输出向量;
训练生成模块,用于根据所述第一目标输出向量、所述第二目标输出向量,以及所述第三目标输出向量训练所述目标模型中每个网络层的网络参数,并根据满足预设训练条件时对应的目标网络参数和所述目标模型,生成与所述样本图片对应的视频风格转换模型,以根据所述视频风格转换模型对目标视频进行转换处理生成与所述样本图片匹配的视频风格。
8.一种视频风格转换处理装置,其特征在于,包括:
第二获取模块,用于获取包含目标视频和目标图片的视频风格转换请求;
第三获取模块,用于获取预先训练的与所述目标图片对应的目标视频风格转换模型;其中,获取用于模型训练的目标图片以及对应的样本视频集合;获取所述目标图片的风格属性信息,进而在训练目标模型的过程中,根据所述风格属性信息设置目标模型中反映风格属性特征网络层的第一目标输出向量;获取所述样本视频中每个视频帧的内容信息和光流场信息,进而在训练所述目标模型的过程中,根据当前输入视频帧的内容信息设置所述目标模型中反映内容特征网络层的第二目标输出向量,以及根据当前输入视频帧的光流场信息设置所述目标模型中反映光流场特征网络层的第三目标输出向量;根据所述第一目标输出向量、所述第二目标输出向量,以及所述第三目标输出向量训练所述目标模型中每个网络层的网络参数,并根据满足预设训练条件时对应的目标网络参数和所述目标模型,生成与所述目标图片对应的视频风格转换模型;
转换模块,用于根据所述目标视频风格转换模型对所述目标视频进行转换处理生成与所述目标图片匹配的视频风格。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-5中任一所述的视频风格转换处理。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-5中任一所述的视频风格转换处理方法。
11.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求6所述的视频风格转换处理。
12.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求6所述的视频风格转换处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811220100.XA CN109359687B (zh) | 2018-10-19 | 2018-10-19 | 视频风格转换处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811220100.XA CN109359687B (zh) | 2018-10-19 | 2018-10-19 | 视频风格转换处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109359687A CN109359687A (zh) | 2019-02-19 |
CN109359687B true CN109359687B (zh) | 2020-11-24 |
Family
ID=65345917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811220100.XA Active CN109359687B (zh) | 2018-10-19 | 2018-10-19 | 视频风格转换处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109359687B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110599421B (zh) * | 2019-09-12 | 2023-06-09 | 腾讯科技(深圳)有限公司 | 模型训练方法、视频模糊帧转换方法、设备及存储介质 |
CN111556244B (zh) * | 2020-04-23 | 2022-03-11 | 北京百度网讯科技有限公司 | 视频风格迁移方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102355555A (zh) * | 2011-09-22 | 2012-02-15 | 中国科学院深圳先进技术研究院 | 视频处理方法及*** |
CN105303598A (zh) * | 2015-10-23 | 2016-02-03 | 浙江工业大学 | 基于纹理传输的多风格视频艺术化处理方法 |
WO2018075927A1 (en) * | 2016-10-21 | 2018-04-26 | Google Llc | Stylizing input images |
WO2018111786A1 (en) * | 2016-12-16 | 2018-06-21 | Microsoft Technology Licensing, Llc | Image stylization based on learning network |
-
2018
- 2018-10-19 CN CN201811220100.XA patent/CN109359687B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102355555A (zh) * | 2011-09-22 | 2012-02-15 | 中国科学院深圳先进技术研究院 | 视频处理方法及*** |
CN105303598A (zh) * | 2015-10-23 | 2016-02-03 | 浙江工业大学 | 基于纹理传输的多风格视频艺术化处理方法 |
WO2018075927A1 (en) * | 2016-10-21 | 2018-04-26 | Google Llc | Stylizing input images |
WO2018111786A1 (en) * | 2016-12-16 | 2018-06-21 | Microsoft Technology Licensing, Llc | Image stylization based on learning network |
Non-Patent Citations (1)
Title |
---|
基于深度学习的图像与视频风格化研究与实现;操江峰;《中国优秀硕士学位论文全文数据库信息科技辑》;20171015;I138-232 * |
Also Published As
Publication number | Publication date |
---|---|
CN109359687A (zh) | 2019-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7657060B2 (en) | Stylization of video | |
US10650570B2 (en) | Dynamic local temporal-consistent textured mesh compression | |
US7764310B2 (en) | Image processing apparatus, program and method for performing preprocessing for movie reproduction of still images | |
CN110085244B (zh) | 直播互动方法、装置、电子设备及可读存储介质 | |
CN107180443B (zh) | 一种手绘动画生成方法及其装置 | |
US20240087610A1 (en) | Modification of objects in film | |
US9129655B2 (en) | Time compressing video content | |
CN104394422A (zh) | 一种视频分割点获取方法及装置 | |
US11582519B1 (en) | Person replacement utilizing deferred neural rendering | |
US11581020B1 (en) | Facial synchronization utilizing deferred neural rendering | |
CN109359687B (zh) | 视频风格转换处理方法和装置 | |
CN110958469A (zh) | 视频处理方法、装置、电子设备及存储介质 | |
KR102546631B1 (ko) | 영상 데이터 증식 장치 및 방법 | |
CN114339409A (zh) | 视频处理方法、装置、计算机设备及存储介质 | |
CN114972574A (zh) | 利用潜在向量流绘制器和图像修改神经网络的基于web的数字图像实时编辑 | |
Hoogeboom et al. | High-fidelity image compression with score-based generative models | |
JP5109038B2 (ja) | リップシンクアニメーション作成装置及びコンピュータプログラム | |
CN115988262A (zh) | 用于视频处理的方法、装置、设备和介质 | |
CN115049558A (zh) | 模型训练、人脸图像处理方法及装置、电子设备及可读存储介质 | |
CN115049559A (zh) | 模型训练、人脸图像处理、人脸模型处理方法及装置、电子设备及可读存储介质 | |
Ravichandran et al. | Synthesizing photorealistic virtual humans through cross-modal disentanglement | |
JP2008140364A (ja) | リップシンクアニメーション作成装置、コンピュータプログラム及び顔モデル生成装置 | |
CN115917647A (zh) | 自动非线性编辑风格转移 | |
CN114586068A (zh) | 信息处理装置、提案装置、信息处理方法和提案方法 | |
Rajatha et al. | Cartoonizer: Convert Images and Videos to Cartoon-Style Images and Videos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |