CN113870313B - 一种动作迁移方法 - Google Patents
一种动作迁移方法 Download PDFInfo
- Publication number
- CN113870313B CN113870313B CN202111208600.3A CN202111208600A CN113870313B CN 113870313 B CN113870313 B CN 113870313B CN 202111208600 A CN202111208600 A CN 202111208600A CN 113870313 B CN113870313 B CN 113870313B
- Authority
- CN
- China
- Prior art keywords
- key point
- source
- driving
- point coordinate
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000005012 migration Effects 0.000 title claims abstract description 43
- 238000013508 migration Methods 0.000 title claims abstract description 43
- 230000009471 action Effects 0.000 title claims abstract description 27
- 230000003287 optical effect Effects 0.000 claims abstract description 43
- 238000010586 diagram Methods 0.000 claims abstract description 18
- 230000009466 transformation Effects 0.000 claims description 47
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 37
- 239000011159 matrix material Substances 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000013519 translation Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 241001465754 Metazoa Species 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/02—Affine transformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种动作迁移方法,包括获取源图像和驱动视频;将源图像和驱动视频输入至训练好的动作迁移模型中,训练好的动作迁移模型被配置为执行以下步骤:获取源图像的源关键点坐标,以及提取源图像的隐层特征;获取驱动视频的驱动关键点坐标;根据源关键点坐标和驱动关键点坐标,获取由源关键点坐标变换至驱动关键点坐标的光流图和重绘图;根据源图像的隐层特征、光流图和所述重绘图,输出目标视频。本申请提供的动作迁移方法,提升了生成的目标视频的清晰度。
Description
技术领域
本申请涉及图像处理领域,尤其涉及一种动作迁移方法。
背景技术
动作迁移是图像处理领域中一种重要的图像编辑技术,是指将驱动视频中的人物动作迁移到源图像中的人物身上,在保留源图像中人物外观的基础上,使源图像中的人物与目标视频中的人物保持同步运动。
在现有的方案中,常向动作迁移模型中输入一段驱动视频和一张源图像,以生成相应的视频。但在生成过程中,驱动视频的视频帧的局部区域可能会出现抖动现象。出现这一现象是因为输入的驱动视频的视频帧尺寸过大,图像信息增加,图像中运动明显的位置较小尺寸图像更多,在固定关键点检测个数的情况下,检测出的关键点会在一定区域范围内发生抖动,使得生成视频中的对应区域也会出现抖动。因此,当输入的图像尺寸较大时,需减小图像尺寸,以保证生成视频的清晰度。
但是,若减小输入的驱动视频的视频帧的尺寸,最终生成的图像的清晰度也会随之降低,生成效果不好。
发明内容
本申请提供了一种动作迁移方法,提升了经过动作迁移的目标视频的清晰度。
本申请提供的动作迁移方法,包括:
获取源图像和驱动视频;
将所述源图像和所述驱动视频输入至训练好的动作迁移模型中,所述训练好的动作迁移模型被配置为执行以下步骤:
获取所述源图像的源关键点坐标KSn,以及提取所述源图像的隐层特征SRE(S);
获取所述驱动视频的驱动关键点坐标KDn;
根据所述源关键点坐标KSn和所述驱动关键点坐标KDn,获取由所述源关键点坐标KSn变换至所述驱动关键点坐标KDn的光流图和重绘图/>
根据所述源图像的隐层特征SRE(S)、所述光流图和所述重绘图/>输出目标视频。
可选的,将所述源图像和所述驱动视频输入至训练好的动作迁移模型中之前,包括:
获取所述源图像的有效区域面积,将所述源图像的有效区域面积确定为第一面积,计算所述第一面积在所述源图像中的面积占比;
判定所述第一面积在所述源图像中的面积占比是否小于第一预设值,所述第一预设值是所述第一面积在所述源图像中的面积占比的阈值;
若是,则对所述源图像进行预处理,以使所述第一面积在所述源图像中的面积占比大于或等于所述第一预设值。
可选的,所述驱动视频包括按时间顺序排序的视频帧,将所述源图像和所述驱动视频输入至训练好的动作迁移模型中之前,包括:
获取每一个所述视频帧的有效区域面积,将所述视频帧的有效区域面积确定为第二面积,计算所述第二面积在所述视频帧中的面积占比;
判定所述第二面积在所述视频帧中的面积占比是否小于第二预设值,所述第二预设值是所述第二面积在所述视频帧中的面积占比的阈值;
若是,则对所述视频帧进行预处理,以使所述第二面积在所述视频帧中的面积占比大于或等于所述第二预设值。
可选的,根据所述源关键点坐标KSn和所述驱动关键点坐标KDn,获取由所述源关键点坐标KSn变换至所述驱动关键点坐标KDn的光流图和重绘图/>包括:
根据所述源关键点坐标KSn和所述驱动关键点坐标KDn,获取每一个所述驱动关键点坐标KDn到其对应的所述源关键点坐标KSn发生的平移变换参数;
根据所述源关键点坐标KSn和所述驱动关键点坐标KDn,获取与所述源关键点坐标KSn关联的源局部仿射变换参数和与所述驱动关键点坐标KDn关联的驱动局部仿射变换参数;
根据所述源关键点坐标KSn、所述驱动关键点坐标KDn、所述源局部仿射变换参数和所述驱动局部仿射变换参数,获取每一个所述驱动关键点坐标KDn到其对应的所述源关键点坐标KSn发生的局部仿射变换的参数;
根据所述源关键点坐标KSn、所述驱动关键点坐标KDn、每一个所述驱动关键点坐标KDn到其对应的所述源关键点坐标KSn发生的平移变换参数以及每一个所述驱动关键点坐标KDn到其对应的所述源关键点坐标KSn发生的局部仿射变换的参数,得到对应的光流图,所述光流图/>为每一个所述驱动关键点坐标KDn到其对应的所述源关键点坐标KSn发生的全局仿射变换的参数。
可选的,根据所述源关键点坐标KSn、所述驱动关键点坐标KDn、每一个所述驱动关键点坐标KDn到其对应的所述源关键点坐标KSn发生的平移变换参数以及每一个所述驱动关键点坐标KDn到其对应的所述源关键点坐标KSn发生的局部仿射变换的参数,通过卷积注意力层,得到所述源图像对应的重绘图所述重绘图/>用于描述在所述目标图像生成过程中需要生成的像素点坐标信息。
可选的,根据所述源图像的隐层特征SRE(S)、所述光流图和所述重绘图输出目标视频,包括:
将所述隐层特征SRE(S)与所述光流图拼接,得到的拼接结果与所述重绘图/>相乘,以输出目标视频Dr,处理公式如下:
可选的,所述动作迁移模型包括:
关键点坐标获取模块:用于获取输入的源图像的源关键点坐标KSn,以及获取输入的驱动视频的驱动关键点坐标KDn;
数据处理模块:用于根据输入的所述源关键点坐标KSn和所述驱动关键点坐标KDn,获取由所述源关键点坐标KSn变换至所述驱动关键点坐标KDn的光流图和重绘图
图像生成模块:用于提取输入的所述源图像的隐层特征SRE(S),以及,根据所述源图像的隐层特征SRE(S)、输入的所述光流图和所述重绘图/>输出目标视频Dr。
可选的,所述图像生成模块的输入-输出过程公式为:
可选的,所述图像生成模块包括卷积网络编码器和卷积网络解码器;
所述卷积网络编码器包括卷积层、激活层、池化层和归一化层,所述卷积网络编码器用于拼接输入的所述隐层特征SRE(S)与所述光流图
所述卷积网络解码器包括卷积层、激活层、归一化层、升采样层和反卷积层,所述卷积网络解码器用于根据输入的所述隐层特征SRE(S)与所述光流图的拼接结果与所述重绘图/>的乘积,输出目标视频Dr。
由以上技术方案可知,本申请提供的动作迁移方法,包括获取源图像和驱动视频;将源图像和驱动视频输入至训练好的动作迁移模型中,训练好的动作迁移模型被配置为执行以下步骤:获取源图像的源关键点坐标,以及提取源图像的隐层特征;获取驱动视频的驱动关键点坐标KD;根据源关键点坐标和驱动关键点坐标,获取由源关键点坐标变换至驱动关键点坐标的光流图和重绘图;根据源图像的隐层特征、光流图和所述重绘图,输出目标视频。本申请提供的动作迁移方法,提升了生成的目标视频的清晰度。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的动作迁移模型的流程图;
图2为本申请提供的零阶运动信息的获取流程图;
图3为本申请提供的动作迁移模型的结构。
具体实施方式
为使本申请的目的和实施方式更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其他组件。术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。
本申请公开了一种动作迁移方法,该方法通过将源图像和一段驱动视频输入至训练好的动作迁移模型中,提取源图像的隐层特征、光流图和重绘图,并对源图像的隐层特征、光流图和重绘图进行预处理,以输出目标视频,完成动作迁移。为便于说明,在下述实施例中,将对动作迁移模型的训练过程称为模型训练过程。将训练得到的目标动作迁移模型的运用过程称为模型推断过程。
本申请提供的动作迁移方法,参见图1,该方法包括如下步骤:
S110:获取源图像和驱动视频;
示例性的,获取的驱动视频包括但不限于人脸视频、人运动视频、动物运动视频、物体运动视频、动画视频等包含运动的人或物体的视频,视频时长可以根据需求自行选择,一般选取的时长在10秒左右,视频分辨率为720P、1080P的驱动视频为佳。视频帧率为常用的视频帧率即可,如25帧/秒或30帧/秒。
在一些实施例中,若驱动视频中运动的人或物体占视频帧图像的比例较大,则不需要额外的处理;若运动的人或物体占视频帧图像的比例较小,则需要使用手动裁剪方法或自动裁剪方法,将视频中运动的人或物体所在的视频图像子区域提取出来,产生新的驱动视频用于动作迁移。
在一些实施例中,手动裁剪方法可以通过人工观察驱动视频的所有视频帧,在每一个视频帧中划定一固定区域,使得此驱动视频的每一个视频帧中的人或物体在此区域内,将所有视频帧中的此区域裁剪出来,组合成为新的驱动视频。
在一些实施例中,自动裁剪方法可以通过人脸、人体、动物或物体检测算法,自动检测驱动视频的每一个视频帧中运动的人或物体所在的区域,并根据所有视频帧中检测出的区域,计算出一更大的图像区域,使得所有视频帧的检测区域均为此更大区域的子集,并将所有视频帧中该更大区域提取出来,产生新的仅包含运动的人或物体区域的视频。
在一种实现方式中,自动裁剪方法可以获取所述源图像的有效区域面积,所述有效区域面积即为上述检测区域,将源图像的有效区域面积确定为第一面积,计算所述第一面积在源图像中的面积占比;判定第一面积在源图像中的面积占比是否小于第一预设值,第一预设值是第一面积在源图像中的面积占比的阈值;若是,则对源图像进行预处理,以使所述第一面积在源图像中的面积占比大于或等于所述第一预设值。
进一步地,获取驱动图像的有效区域面积,将驱动图像的有效区域面积确定为第二面积,计算第二面积在驱动图像中的面积占比;判定第二面积在驱动图像中的面积占比是否小于第二预设值,第二预设值是第二面积在驱动图像中的面积占比的阈值;
若是,则对驱动图像进行预处理,以使第二面积在驱动图像中的面积占比大于或等于第二预设值。
S120:将源图像和驱动视频输入至训练好的动作迁移模型中,所述训练好的动作迁移模型被配置为执行S130-S160步骤:
在一些实施例中,驱动视频包括按时间顺序排序的若干视频帧,每一个视频帧即为某一时刻该视频的静止画面,在进行动作迁移的过程中,每一次迁移,所述训练好的动作迁移模型从驱动视频中按序抽取一个视频帧作为驱动图像。
S130:获取源图像的源关键点坐标KSn,以及提取源图像的隐层特征SRE(S);
在一些实施例中,源关键点坐标KSn是源图像中的人或物体的结构上的特征点,例如,人脸视频中的人脸特征点,人运动视频中的人体骨架关节点等。若源图像中为动物运动视频或动画视频,可以通过手动标注此类视频中的人或物体的结构特征点,或训练一特定模型来提取结构特征点。从源图像中提取Ns个源关键点坐标KSn关键点坐标并保存。Ns必须大于0,一般情况下不大于10。Ns的数值不做强制限制可以根据需要自行选择,因为Ns的数值不影响本发明流程,但影响本发明所提方法所获得的效果,Ns的数值越大,则本发明所提供的训练效果越好。
S140:获取驱动视频的驱动关键点坐标KDn;
在一些实施例中,驱动关键点坐标组是驱动图像的源关键点坐标KDn合集,驱动关键点坐标KDn是驱动视频中运动的人或物体的结构上的特征点,例如,人脸视频中的人脸特征点,人运动视频中的人体骨架关节点等。若驱动视频为动物运动视频或动画视频,可以通过手动标注此类视频中的人或物体的结构特征点,或训练一特定模型来提取结构特征点。从驱动图像中提取Ns个驱动关键点坐标KDn关键点坐标并保存。Ns必须大于0,一般情况下不大于10。Ns的数值不做强制限制可以根据需要自行选择,因为Ns的数值不影响本发明流程,但影响本发明所提方法所获得的效果,Ns的数值越大,则本发明所提供的训练效果越好。
S150:根据源关键点坐标KSn和驱动关键点坐标KDn,获取由源关键点坐标KSn变换至驱动关键点坐标KDn的光流图和重绘图/>
在一些实施例中,根据源关键点坐标组和驱动关键点坐标组,获取零阶运动信息Hn(z),零阶运动信息Hn(z)包括每一个所述驱动关键点坐标KDn到其对应的源关键点坐标KSn发生的平移变换参数;
更为具体的,参见图2,零阶运动信息Hn(z)可以通过如下步骤获得:
S210:获取以源关键点坐标组中的每个源关键点坐标KSn为中心的高斯热力图,将以源关键点坐标KSn为中心的高斯热力图记为GS(pn);
S220:获取以驱动关键点坐标组中的每个驱动关键点坐标KDn为中心的高斯热力图,将以驱动关键点坐标KDn为中心的高斯热力图记为GD(pn);
S230:零阶运动信息Hn(z)=GD(pn)-GS(pn)。
在一些实施例中,可以根据源关键点坐标组和驱动关键点坐标组,获取与源关键点坐标KSn关联的源局部仿射变换参数和与驱动关键点坐标KDn关联的驱动局部仿射变换参数;
根据源关键点坐标组、驱动关键点坐标组源局部仿射变换参数和驱动局部仿射变换参数,获取一阶运动信息/>一阶运动信息/>包括每一个驱动关键点坐标KDn到其对应的源关键点坐标KSn发生的局部仿射变换的参数;
更为具体的,一阶运动信息其中,KSn是所述源关键点坐标组中的所述源关键点坐标KSn,JSn是所述源局部仿射变换参数,KDn是所述驱动关键点坐标组中的所述驱动关键点坐标KDn,JDn是所述驱动局部仿射变换参数,z是所述驱动关键点坐标KDn的矩阵。
在一些实施例中,可以根据源关键点坐标组、驱动关键点坐标组、零阶运动信息Hn(z)、一阶运动信息计算每一个驱动关键点坐标KDn到其对应的源关键点坐标KSn发生的全局仿射变换的参数,并得到对应的光流图/>和重绘图/>
更为具体的,参见图3,可通过如下步骤获取光流图和重绘图/>
在零阶运动信息Hn(z)中***第一矩阵H0(z),第一矩阵H0(z)是一个全零矩阵;将一阶运动信息作用于源关键点坐标组中的每一个源关键点坐标KSn,以获取对应的仿射变换图像组,记为S1,S2,…,SN;
在仿射变换图像组中***源图像S0;
根据***第一矩阵H0(z)后的零阶运动信息Hn(z)、***源图像S0后的仿射变换图像组,得到像素掩模组,记为M0,M1,M2,…,MN,像素掩模用于描述像素点坐标的运动状态;根据像素掩模组M0,M1,M2,…,MN,***第一矩阵H0(z)后的零阶运动信息Hn+1(z)、一阶运动信息得到全局仿射变换的参数,全局仿射变换的参数即为光流图/>光流图
在一些实施例中,重绘图用于描述在目标视频生成过程中需要生成的像素点坐标信息,可以通过如下方式得到:
根据所述源关键点坐标KSn、所述驱动关键点坐标KDn、每一个所述驱动关键点坐标KDn到其对应的所述源关键点坐标KSn发生的平移变换参数以及每一个所述驱动关键点坐标KDn到其对应的所述源关键点坐标KSn发生的局部仿射变换的参数,通过卷积注意力层,得到所述源图像对应的重绘图
S160:根据源图像的隐层特征SRE(S)、光流图和重绘图/>输出目标视频。
更为具体的,可以将隐层特征SRE(S)与光流图拼接,得到的拼接结果与重绘图/>相乘,以输出目标视频,若用Dr表示目标视频,则:
进一步地,本申请提供的动作迁移方法,具体实施例包括如下步骤:
(1)准备一人脸图像作为源图像,一人脸视频作为驱动视频;源图像与驱动视频图像尺寸均为512像素×512像素;
(3)将源图像和驱动视频输入训练好的动作迁移模型,获得并保存源图像的关键点及局部仿射变换参数;将驱动视频逐帧图像作为驱动图像输入同一动作迁移模型,获得并保存所有驱动图像的关键点及局部放射变换参数;
(4)根据源图像的关键点及局部仿射变换参数、驱动图像的关键点及局部放射变换参数,获取对应的隐层特征图SRE(S)、光流图以及重绘图/>
(5)将隐层特征SRE(S)与所述光流图拼接,得到的拼接结果与所述重绘图相乘,以输出目标视频Dr。
在一些实施例中,本申请还提供一种动作迁移模型,参见图2,所述动作迁移模型包括:
关键点坐标获取模块:用于获取输入的源图像的源关键点坐标KSn,以及获取输入的驱动视频的驱动关键点坐标KDn;
数据处理模块:用于根据输入的所述源关键点坐标KSn和所述驱动关键点坐标KDn,获取由所述源关键点坐标KSn变换至所述驱动关键点坐标KDn的光流图和重绘图
图像生成模块:用于提取输入的所述源图像的隐层特征SRE(S),以及,根据所述源图像的隐层特征SRE(S)、输入的所述光流图和所述重绘图/>输出目标视频。
在一些实施例中,所述图像生成模块的输入-输出过程公式为:
在一些实施例中,所述图像生成模块包括卷积网络编码器和卷积网络解码器;
所述卷积网络编码器包括卷积层、激活层、池化层和归一化层,所述卷积网络编码器用于拼接输入的所述隐层特征SRE(S)与所述光流图
所述卷积网络解码器包括卷积层、激活层、归一化层、升采样层和反卷积层,所述卷积网络解码器用于根据输入的所述隐层特征SRE(S)与所述光流图的拼接结果与所述重绘图/>的乘积,输出目标视频Dr。
由以上技术方案可知,本申请提供了一种动作迁移方法,包括获取源图像和驱动视频;将源图像和驱动视频输入至训练好的动作迁移模型中,训练好的动作迁移模型被配置为执行以下步骤:获取源图像的源关键点坐标,以及提取源图像的隐层特征;获取驱动视频的驱动关键点坐标KD;根据源关键点坐标和驱动关键点坐标,获取由源关键点坐标变换至驱动关键点坐标的光流图和重绘图;根据源图像的隐层特征、光流图和重绘图,输出目标视频。本申请提供的动作迁移方法,提升了生成的目标视频的清晰度。
具体实现中,本发明还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的动作迁移方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本申请提供的实施例之间的相似部分相互参见即可,以上提供的具体实施方式只是本申请总的构思下的几个示例,并不构成本申请保护范围的限定。对于本领域的技术人员而言,在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。
本申请提供的实施例之间的相似部分相互参见即可,以上提供的具体实施方式只是本申请总的构思下的几个示例,并不构成本申请保护范围的限定。对于本领域的技术人员而言,在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。
Claims (8)
1.一种动作迁移方法,其特征在于,包括:
获取源图像和驱动视频;
获取所述驱动视频中人或物体的比例,如果所述比例小于预设比例,则通过手动裁剪在所述驱动视频中划分固定区域,并根据所述固定区域更新驱动视频;
将所述源图像和所述驱动视频输入至训练好的动作迁移模型中,所述训练好的动作迁移模型被配置为执行以下步骤:
获取所述源图像的源关键点坐标KSn,以及提取所述源图像的隐层特征SRE(S);
获取所述驱动视频的驱动关键点坐标KDn;
获取以源关键点坐标组中的源关键点坐标KSn为中心的第一高斯热力图GS(pn),以及,获取以驱动关键点坐标组中的驱动关键点坐标KDn为中心的第二高斯热力图GD(pn);
根据所述第一高斯热力图GS(pn)和所述第二高斯热力图GD(pn)计算零阶运动信息Hn(z);
在所述零阶运动信息Hn(z)***第一矩阵H0(z),所述第一矩阵H0(z)为全零矩阵;
将一阶运动信息作用于源关键点坐标组中的每一个源关键点坐标KSn,以获取仿射变换图像组,并将所述仿射变换图像组***所述源图像;
根据***第一矩阵H0(z)后的零阶运动信息Hn+1(z)、***源图像后的仿射变换图像组,得到像素掩模组;
根据所述像素掩模组、所述一阶运动信息和所述***第一矩阵H0(z)后的零阶运动信息Hn+1(z)得到光流图/>
所述一阶运动信息如下式所示:
其中,JSn是源局部仿射变换参数,JDn是驱动局部仿射变换参数,z是所述驱动关键点坐标KDn的矩阵;
所述光流图如下式所示:
根据所述源关键点坐标KSn、所述驱动关键点坐标KDn、每一个所述驱动关键点坐标KDn到其对应的所述源关键点坐标KSn发生的平移变换参数以及每一个所述驱动关键点坐标KDn到其对应的所述源关键点坐标KSn发生的局部仿射变换的参数,通过卷积注意力层,得到所述源图像对应的重绘图所述重绘图/>用于描述在目标图像生成过程中需要生成的像素点坐标信息;
根据所述源图像的隐层特征SRE(S)、所述光流图和所述重绘图/>输出目标视频。
2.根据权利要求1所述的方法,其特征在于,将所述源图像和所述驱动视频输入至训练好的动作迁移模型中之前,包括:
获取所述源图像的有效区域面积,将所述源图像的有效区域面积确定为第一面积,计算所述第一面积在所述源图像中的面积占比;
判定所述第一面积在所述源图像中的面积占比是否小于第一预设值,所述第一预设值是所述第一面积在所述源图像中的面积占比的阈值;
若是,则对所述源图像进行预处理,以使所述第一面积在所述源图像中的面积占比大于或等于所述第一预设值。
3.根据权利要求2所述的方法,其特征在于,所述驱动视频包括按时间顺序排序的视频帧,将所述源图像和所述驱动视频输入至训练好的动作迁移模型中之前,包括:
获取每一个所述视频帧的有效区域面积,将所述视频帧的有效区域面积确定为第二面积,计算所述第二面积在所述视频帧中的面积占比;
判定所述第二面积在所述视频帧中的面积占比是否小于第二预设值,所述第二预设值是所述第二面积在所述视频帧中的面积占比的阈值;
若是,则对所述视频帧进行预处理,以使所述第二面积在所述视频帧中的面积占比大于或等于所述第二预设值。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述源关键点坐标KSn和所述驱动关键点坐标KDn,获取每一个所述驱动关键点坐标KDn到其对应的所述源关键点坐标KSn发生的平移变换参数;
根据所述源关键点坐标KSn和所述驱动关键点坐标KDn,获取与所述源关键点坐标KSn关联的源局部仿射变换参数和与所述驱动关键点坐标KDn关联的驱动局部仿射变换参数;
根据所述源关键点坐标KSn、所述驱动关键点坐标KDn、所述源局部仿射变换参数和所述驱动局部仿射变换参数,获取每一个所述驱动关键点坐标KDn到其对应的所述源关键点坐标KSn发生的局部仿射变换的参数;
根据所述源关键点坐标KSn、所述驱动关键点坐标KDn、每一个所述驱动关键点坐标KDn到其对应的所述源关键点坐标KSn发生的平移变换参数以及每一个所述驱动关键点坐标KDn到其对应的所述源关键点坐标KSn发生的局部仿射变换的参数,得到对应的光流图所述光流图/>为每一个所述驱动关键点坐标KDn到其对应的所述源关键点坐标KSn发生的全局仿射变换的参数。
5.根据权利要求1所述的方法,其特征在于,根据所述源图像的隐层特征SRE(S)、所述光流图和所述重绘图/>输出目标视频,包括:
将所述隐层特征SRE(S)与所述光流图拼接,得到的拼接结果与所述重绘图相乘,以输出目标视频Dr,处理公式如下:
6.根据权利要求1所述的方法,其特征在于,所述动作迁移模型包括:
关键点坐标获取模块:用于获取输入的源图像的源关键点坐标KSn,以及获取输入的驱动视频的驱动关键点坐标KDn;
数据处理模块:用于根据输入的所述源关键点坐标KSn和所述驱动关键点坐标KDn,获取由所述源关键点坐标KSn变换至所述驱动关键点坐标KDn的光流图和重绘图/>
图像生成模块:用于提取输入的所述源图像的隐层特征SRE(S),以及,根据所述源图像的隐层特征SRE(S)、输入的所述光流图和所述重绘图/>输出目标视频Dr。
7.根据权利要求6所述的方法,其特征在于,所述图像生成模块的输入-输出过程公式为:
8.根据权利要求7所述的方法,其特征在于,根据权利要求7所述的方法,其特征在于,所述图像生成模块包括卷积网络编码器和卷积网络解码器;
所述卷积网络编码器包括卷积层、激活层、池化层和归一化层,所述卷积网络编码器用于拼接输入的所述隐层特征SRE(S)与所述光流图
所述卷积网络解码器包括卷积层、激活层、归一化层、升采样层和反卷积层,所述卷积网络解码器用于根据输入的所述隐层特征SRE(S)与所述光流图的拼接结果与所述重绘图/>的乘积,输出目标视频Dr。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111208600.3A CN113870313B (zh) | 2021-10-18 | 2021-10-18 | 一种动作迁移方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111208600.3A CN113870313B (zh) | 2021-10-18 | 2021-10-18 | 一种动作迁移方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113870313A CN113870313A (zh) | 2021-12-31 |
CN113870313B true CN113870313B (zh) | 2023-11-14 |
Family
ID=78999902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111208600.3A Active CN113870313B (zh) | 2021-10-18 | 2021-10-18 | 一种动作迁移方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113870313B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114627161B (zh) * | 2022-01-27 | 2024-06-28 | 清华大学 | 源图片到驱动图片的运动迁移的方法和*** |
CN117689781A (zh) * | 2023-12-18 | 2024-03-12 | 北京开普云信息科技有限公司 | 目标对象的动作驱动方法、装置、存储介质及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10445921B1 (en) * | 2018-06-13 | 2019-10-15 | Adobe Inc. | Transferring motion between consecutive frames to a digital image |
CN111462209A (zh) * | 2020-03-31 | 2020-07-28 | 北京市商汤科技开发有限公司 | 动作迁移方法、装置、设备及存储介质 |
CN111598977A (zh) * | 2020-05-21 | 2020-08-28 | 北京中科深智科技有限公司 | 一种表情迁移并动画化的方法及*** |
CN111797753A (zh) * | 2020-06-29 | 2020-10-20 | 北京灵汐科技有限公司 | 图像驱动模型的训练、图像生成方法、装置、设备及介质 |
WO2021034443A1 (en) * | 2019-08-21 | 2021-02-25 | The Regents Of The University Of California | Human motion transfer for dancing video synthesis |
CN113239857A (zh) * | 2021-05-27 | 2021-08-10 | 京东科技控股股份有限公司 | 视频合成方法及其装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109951654B (zh) * | 2019-03-06 | 2022-02-15 | 腾讯科技(深圳)有限公司 | 一种视频合成的方法、模型训练的方法以及相关装置 |
-
2021
- 2021-10-18 CN CN202111208600.3A patent/CN113870313B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10445921B1 (en) * | 2018-06-13 | 2019-10-15 | Adobe Inc. | Transferring motion between consecutive frames to a digital image |
WO2021034443A1 (en) * | 2019-08-21 | 2021-02-25 | The Regents Of The University Of California | Human motion transfer for dancing video synthesis |
CN111462209A (zh) * | 2020-03-31 | 2020-07-28 | 北京市商汤科技开发有限公司 | 动作迁移方法、装置、设备及存储介质 |
CN111598977A (zh) * | 2020-05-21 | 2020-08-28 | 北京中科深智科技有限公司 | 一种表情迁移并动画化的方法及*** |
CN111797753A (zh) * | 2020-06-29 | 2020-10-20 | 北京灵汐科技有限公司 | 图像驱动模型的训练、图像生成方法、装置、设备及介质 |
CN113239857A (zh) * | 2021-05-27 | 2021-08-10 | 京东科技控股股份有限公司 | 视频合成方法及其装置 |
Non-Patent Citations (5)
Title |
---|
3DMM与GAN结合的实时人脸表情迁移方法;高翔等;计算机应用与软件(第04期);全文 * |
Animating arbitrary objects via deep motion transfer;Siarohin A等;Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition;全文 * |
First order motion model for image animation;Siarohin A等;Advances in Neural Information Processing Systems;第3页第1、5段,第4页第2段第1-4行、第5段至第5页第7段,第6页第1段,附图1-2 * |
基于生成对抗网络的视频生成***方法研究与实现;陈思雨;中国优秀硕博论文全文库 信息科技辑;全文 * |
竞技运动目标的提取及视频合成与比较;张玉霞等;计算机应用与软件(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113870313A (zh) | 2021-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11017586B2 (en) | 3D motion effect from a 2D image | |
CN110650368B (zh) | 视频处理方法、装置和电子设备 | |
US11741581B2 (en) | Training method for image processing model, image processing method, network device, and storage medium | |
CN109670558B (zh) | 使用深度学习的数字图像完成 | |
CN113870313B (zh) | 一种动作迁移方法 | |
US7609271B2 (en) | Producing animated scenes from still images | |
CN113870315B (zh) | 基于多算法集成的动作迁移模型训练方法及动作迁移方法 | |
CN106127689B (zh) | 图像视频超分辨率方法和装置 | |
CN113706372B (zh) | 自动抠图模型建立方法及*** | |
US11238302B2 (en) | Method and an apparatus for performing object illumination manipulation on an image | |
US11379992B2 (en) | Patch expansion for segmentation network training | |
Li et al. | A maximum a posteriori estimation framework for robust high dynamic range video synthesis | |
US20240020810A1 (en) | UNIVERSAL STYLE TRANSFER USING MULTl-SCALE FEATURE TRANSFORM AND USER CONTROLS | |
Rasheed et al. | LSR: Lightening super-resolution deep network for low-light image enhancement | |
CN111680573B (zh) | 人脸识别方法、装置、电子设备和存储介质 | |
CN114022497A (zh) | 一种图像处理方法及装置 | |
Wu et al. | Integrating neural networks into the blind deblurring framework to compete with the end-to-end learning-based methods | |
Ardino et al. | Semantic-guided inpainting network for complex urban scenes manipulation | |
Nguyen et al. | Diffusion in the dark: A diffusion model for low-light text recognition | |
CN113870314B (zh) | 一种动作迁移模型的训练方法及动作迁移方法 | |
CN117036552A (zh) | 一种基于扩散模型的动画序列帧生成方法及*** | |
US20230110393A1 (en) | System and method for image transformation | |
CN116342377A (zh) | 一种降质场景下伪装目标图像自适应生成方法与*** | |
US11816842B2 (en) | Image processing method, apparatus, electronic device, and storage medium | |
Omiya et al. | Optimization-based data generation for photo enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |