CN116385629A - 数字人视频的生成方法、装置、电子设备和存储介质 - Google Patents
数字人视频的生成方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN116385629A CN116385629A CN202310132741.4A CN202310132741A CN116385629A CN 116385629 A CN116385629 A CN 116385629A CN 202310132741 A CN202310132741 A CN 202310132741A CN 116385629 A CN116385629 A CN 116385629A
- Authority
- CN
- China
- Prior art keywords
- face
- model
- preset
- models
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000009877 rendering Methods 0.000 claims abstract description 54
- 238000006243 chemical reaction Methods 0.000 claims abstract description 41
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 12
- 230000004927 fusion Effects 0.000 claims description 26
- 230000002093 peripheral effect Effects 0.000 claims description 17
- 238000001914 filtration Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 14
- 230000015572 biosynthetic process Effects 0.000 claims description 8
- 238000003786 synthesis reaction Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/005—General purpose rendering architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Geometry (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种数字人视频的生成方法、装置、电子设备和存储介质,该方法包括:根据目标音频的时长从目标人的真实说话视频中获取多个源视频帧;对各源视频帧进行3D人脸建模,并将得到的多个第一3D人脸模型的表情参数置零,得到多个第二3D人脸模型;按各音素的时序对各第二3D人脸模型和基于各音素生成的各第三3D人脸模型进行融合,并渲染出人脸图像序列;按时序将人脸图像序列和各源视频帧进行融合,并将融合图像中的预设区域置为黑色,得到多个渲染帧;将各渲染帧输入图像转换模型,并将目标音频和图像转换模型输出的目标视频帧序列进行合成处理,得到数字人视频,从而提高了数字人视频和真实说话视频之间人脸的一致性。
Description
技术领域
本申请涉及计算机视觉技术领域,更具体地,涉及一种数字人视频的生成方法、装置、电子设备和存储介质。
背景技术
根据一段音频和目标人的真实说话视频,生成与该音频同步的目标人说话的数字人视频。这种音频驱动的数字人视频有着广泛的应用,例如,可以应用在数字虚拟人,游戏/动漫角色配音嘴形同步化,音唇同步的语音翻译等场景。
现有技术中,在进行上述数字人视频生成时,需要训练音频到表情参数和姿态参数的映射模型,将音频输入该映射模型得到表情参数和姿态参数,然后将该表情参数和姿态参数替换与源视频帧对应的3D人脸模型的相应参数,再经渲染得到人脸图像,将该人脸图像和与源视频帧融合,得到粗糙的视频帧,继续将粗糙的视频帧按源视频帧优化,得到最终的数字人视频。
然而,由于现有技术直接将人脸图像和与源视频帧融合,在人脸图像中面部形状与源视频帧中面部形状差距很大时,会导致下巴等部位与颈部区域不协调,难以渲染出高保真的人脸效果。
因此,如何提高数字人视频和真实说话视频之间人脸的一致性,是目前有待解决的技术问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本申请实施例公开了一种数字人视频的生成方法、装置、电子设备和存储介质,用以提高数字人视频和真实说话视频之间人脸的一致性。
第一方面,提供一种数字人视频的生成方法,所述方法包括:根据目标音频的时长从目标人的真实说话视频中获取多个源视频帧;基于预设3D人脸重建算法对各所述源视频帧进行3D人脸建模,得到多个第一3D人脸模型,并将所述第一3D人脸模型的表情参数置零,得到多个第二3D人脸模型;根据所述目标音频中各音素生成多个第三3D人脸模型,按各所述音素的时序对各所述第二3D人脸模型和各所述第三3D人脸模型进行融合,并渲染出由多个人脸图像组成的人脸图像序列;按所述时序将所述人脸图像序列和各所述源视频帧进行融合,得到多个融合图像,并将所述融合图像中的预设区域置为黑色,得到多个渲染帧,其中,所述预设区域沿所述人脸图像的轮廓线设置在所述人脸图像的***;将各所述渲染帧输入图像转换模型,并将所述目标音频和所述图像转换模型输出的目标视频帧序列进行合成处理,得到与所述目标人对应的数字人视频,其中,所述图像转换模型是预先根据所述渲染帧和所述源视频帧之间的映射关系对预设生成对抗模型进行训练后生成的。
第二方面,提供一种数字人视频的生成装置,所述装置包括:获取模块,用于根据目标音频的时长从目标人的真实说话视频中获取多个源视频帧;建模模块,用于基于预设3D人脸重建算法对各所述源视频帧进行3D人脸建模,得到多个第一3D人脸模型,并将所述第一3D人脸模型的表情参数置零,得到多个第二3D人脸模型;第一融合模块,用于根据所述目标音频中各音素生成多个第三3D人脸模型,按各所述音素的时序对各所述第二3D人脸模型和各所述第三3D人脸模型进行融合,并渲染出由多个人脸图像组成的人脸图像序列;第二融合模块,用于按所述时序将所述人脸图像序列和各所述源视频帧进行融合,得到多个融合图像,并将所述融合图像中的预设区域置为黑色,得到多个渲染帧,其中,所述预设区域沿所述人脸图像的轮廓线设置在所述人脸图像的***;合成模块,用于将各所述渲染帧输入图像转换模型,并将所述目标音频和所述图像转换模型输出的目标视频帧序列进行合成处理,得到与所述目标人对应的数字人视频,其中,所述图像转换模型是预先根据所述渲染帧和所述源视频帧之间的映射关系对预设生成对抗模型进行训练后生成的。
第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行第一方面所述的数字人视频的生成方法。
第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的数字人视频的生成方法。
通过应用以上技术方案,根据目标音频的时长从目标人的真实说话视频中获取多个源视频帧;基于预设3D人脸重建算法对各源视频帧进行3D人脸建模,得到多个第一3D人脸模型,并将第一3D人脸模型的表情参数置零,得到多个第二3D人脸模型;根据目标音频中各音素生成多个第三3D人脸模型,按各音素的时序对各第二3D人脸模型和各第三3D人脸模型进行融合,并渲染出由多个人脸图像组成的人脸图像序列;按时序将人脸图像序列和各源视频帧进行融合,得到多个融合图像,并将融合图像中的预设区域置为黑色,得到多个渲染帧,其中,预设区域沿人脸图像的轮廓线设置在人脸图像的***;将各渲染帧输入图像转换模型,并将目标音频和图像转换模型输出的目标视频帧序列进行合成处理,得到与目标人对应的数字人视频,其中,图像转换模型是预先根据渲染帧和源视频帧之间的映射关系对预设生成对抗模型进行训练后生成的。通过对人脸图像***预设区域的纹理特征进行学习,提高了图像转换模型的泛化能力,进而提高了数字人视频和真实说话视频之间人脸的一致性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例提出的一种数字人视频的生成方法的流程示意图;
图2示出了本发明实施例中将各第二3D人脸模型和各第三3D人脸模型融合及渲染的流程示意图;
图3示出了本发明另一实施例提出的一种数字人视频的生成方法的原理示意图;
图4示出了本发明实施例提出的一种数字人视频的生成装置的结构示意图;
图5示出了本发明实施例提出的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求部分指出。
应当理解的是,本申请并不局限于下面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
下面结合图1-图2来描述根据本申请示例性实施方式的数字人视频的生成方法。需要注意的是,下述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
本申请实施例提供一种数字人视频的生成方法,如图1所示,该方法包括以下步骤:
步骤S101,根据目标音频的时长从目标人的真实说话视频中获取多个源视频帧。
本实施例中,目标音频可以是预先录制的语音音频,也可以是自然人说话的自然语音音频,还可以是根据预设语音合成算法将输入的文本信息进行语音合成后得到的语音音频。相应的,可通过接收用户输入的一段预先录制的语音音频,并将其作为目标音频;或者对自然人说话的自然语音音频进行接收和存储并作为目标音频;或者接收用户输入的文本信息,基于预设语音合成算法将该文本信息进行语音合成后得到目标音频。
目标人的真实说话视频可以是用户输入的一段视频,也可以是实时录制一段的目标人说话时的视频。为了获得较好的效果,在本申请具体的应用场景中,目标人的真实说话视频的时长应当不小于预设时长,如2分钟。
根据目标音频的时长可以确定待生成的数字人视频的帧数,根据该帧数从目标人的真实说话视频中获取多个源视频帧。为了获得较好的效果,在本申请具体的应用场景中,各源视频帧中均包括完整的人脸图像。
可选的,目标音频的格式可以为包括mp3、wma、aac、ogg、mpc、flac、ape等格式中的任一种,目标人的真实说话视频的格式可以为包括wmv、asf、asx、rm、rmvb、mpg、mpeg、mpe、3gp、mov、mp4、m4v、avi、dat、mkv、flv、vob等格式中的任一种,本领域技术人员可根据实际需要灵活选用。
步骤S102,基于预设3D人脸重建算法对各所述源视频帧进行3D人脸建模,得到多个第一3D人脸模型,并将所述第一3D人脸模型的表情参数置零,得到多个第二3D人脸模型。
本实施例中,可以先基于人脸检测技术从源视频帧中获取人脸区域,然后基于预设3D人脸重建算法对各人脸区域进行3D人脸建模,得到多个第一3D人脸模型。再将第一3D人脸模型的表情参数置零,以去除第一3D人脸模型的表情及口型,生成多个第二3D人脸模型。
可选的,预设3D人脸重建算法可以为3DMM(3D Morphable Face Model,人脸3D形变统计模型),3DMM是一种比较基础的三维人脸统计模型,可基于一组人脸形状和纹理的统计模型来表示任意一张人脸。每个第一3D人脸模型表征了一组3DMM参数,该3DMM参数可包括形状参数、纹理参数、亮度参数、表情参数和姿态参数等。预设3D人脸重建算法还可以是DECA(Detailed Expression Capture and Animation,详细表情捕捉和动画),DECA能够从由特定人的细节参数和通用表情参数组成的低维潜在表示中稳健地生成UV位移map,而回归器经过训练,能够从单张图片中预测细节、形状、反照率、表情、姿势和照明参数。本领域技术人员还可根据实际需要采用其他类型的预设3D人脸重建算法进行人脸重建,这并不影响本申请的保护范围。
步骤S103,根据所述目标音频中各音素生成多个第三3D人脸模型,按各所述音素的时序对各所述第二3D人脸模型和各所述第三3D人脸模型进行融合,并渲染出由多个人脸图像组成的人脸图像序列。
本实施例中,音素是构成音节的最小语音单位,任意一段音频都是有限种音素组合而成。多个第三3D人脸模型由目标音频中各音素生成,因此,第三3D人脸模型表征了各音素的发音特征。按各音素的时序对各第二3D人脸模型和各第三3D人脸模型进行融合,再经渲染后,得到由多个人脸图像组成的人脸图像序列。
在本申请一些实施例中,所述按各所述音素的时序对各所述第二3D人脸模型和各所述第三3D人脸模型进行融合,并渲染出由多个人脸图像组成的人脸图像序列,如图2所示,包括以下步骤:
步骤S1031,按所述时序将各所述第二3D人脸模型和各所述第三3D人脸模型融合,得到多个第四3D人脸模型。
本实施例中,按时序将各第二3D人脸模型和各第三3D人脸模型依次进行融合,得到多个按时序排列的第四3D人脸模型。可以理解的是,将各第二3D人脸模型和各第三3D人脸模型融合是指将对应的模型参数进行融合,具体的融合过程对于本领域技术人员是显而易见的,在此不再赘述。
步骤S1032,按预设帧数对各所述音素的发音起始点和发音结束点进行扩展,以在每两个相邻音素之间形成重叠区间。
本实施例中,为了实现更加符合正常人说话的口型动作效果,需要对各音素的发音进行扩展,具体的,按预设帧数对各音素的发音起始点和发音结束点进行扩展,从而在每两个相邻音素之间形成重叠区间,其中,预设帧数可以是一帧或多帧。
举例来说,音素“b”在一段语音中持续的范围为第n到第n+5帧,音素“o”在语音中的持续范围为第n+6至n+12帧,则可以将音素“b”的范围设为第n-1到第n+6帧,将音素“o”的范围设为第n+5到第n+13帧,这样保证了两个音素在n+5和n+6这两帧实现重合,形成重叠区间。
步骤S1033,按照预设权重参数将与各所述重叠区间对应的两种第四3D人脸模型的参数进行均值加权融合,并得到多个第五3D人脸模型。
本实施例中,该预设权重参数由各音素的发音时长确定。每个重叠区间对应相邻的两个音素,每个音素对应一种第四3D人脸模型,因此每个重叠区间对应两种第四3D人脸模型,按预设权重参数对两种第四3D人脸模型的参数进行均值加权融合后得到一个第五3D人脸模型,该第五3D人脸模型可作为两个相邻音素的过渡,多个重叠区间可对应得到多个第五3D人脸模型。
步骤S1034,按所述时序将各所述第五3D人脸模型***各所述第四3D人脸模型之间,并对各所述第五3D人脸模型和各所述第四3D人脸模型渲染,得到所述人脸图像序列。
本实施例中,通过在各相邻音素对应的第四3D人脸模型之间***作为过渡的第五3D人脸模型,确保了音素之间良好的衔接,提高了口型变化的流畅度。
在本申请一些实施例中,在按所述时序将各所述第五3D人脸模型***各所述第四3D人脸模型之间之后,所述方法还包括:
基于预设滤波算法对由所述第五3D人脸模型和所述第四3D人脸模型组成的模型序列进行滤波处理。
本实施例中,通过预设滤波算法对上述模型序列进行滤波处理,可以使该模型序列更加符合正常说话的口型连贯性和整体性。本领域技术人员可根据实际需要采用不同的预设滤波算法,这并不影响本申请的保护范围。
在本申请一些实施例中,所述基于预设滤波算法对由各所述第五3D人脸模型和各所述第四3D人脸模型组成的模型序列进行滤波处理,包括:
对所述模型序列中各3D人脸模型进行多项式曲线拟合,以使所述模型序列中每个3D人脸模型与相邻3D人脸模型之间表情参数的变化量满足预设条件。
本实施例中,对模型序列中的各第五3D人脸模型和各第四3D人脸模型进行多项式曲线拟合,重构每一帧的表情参数,使每个3D人脸模型与相邻3D人脸模型之间的表情参数的变化量满足预设条件,预设条件可以为变化量小于预设变化量,从而可滤除口型变化幅度较大的抖动帧,避免所生成的数字人视频中出现口型突然变化的情况。
可选的,除了进行多项式曲线拟合外,还可对各第五3D人脸模型的参数和各第四3D人脸模型的参数在时间窗口上进行中值滤波或高斯滤波等,从而过滤掉一些异常数据。
步骤S104,按所述时序将所述人脸图像序列和各所述源视频帧进行融合,得到多个融合图像,并将所述融合图像中的预设区域置为黑色,得到多个渲染帧,其中,所述预设区域沿所述人脸图像的轮廓线设置在所述人脸图像的***。
本实施例中,由于人脸图像序列中各人脸图像中不包含头发和背景信息,需要将各人脸图像与各源视频帧进行融合,得到多个融合图像。由于渲染出的各人脸图像中面部形状可能与源视频帧中真实人脸的面部形状差别很大,直接融合会导致下巴等部位与颈部区域不协调,因此,本实施例中还将融合图像中的预设区域置为黑色,该预设区域沿融合图像中人脸图像的轮廓线设置在人脸图像的***。通过将融合图像中人脸图像***的预设区域置为黑色,可以在后续对预设生成对抗模型进行训练的过程中,在对该人脸图像的纹理到真实人脸纹理的转化进行学习的同时,还对该人脸图像边界以外的小区域的纹理特征进行学习,从而提高了图像转换模型的泛化能力,进而使图像转换模型输出的目标视频帧序列更加符合真实人脸。
在本申请一些实施例中,在将所述融合图像中的预设区域置为黑色,得到多个渲染帧之前,所述方法还包括:
根据所述融合图像中所述人脸图像的坐标数据确定所述轮廓线;
在所述融合图像中所述人脸图像的***确定***轮廓线,所述***轮廓线与所述轮廓线之间的距离为预设距离;
根据所述轮廓线和所述***轮廓线确定所述预设区域。
本实施例中,通过轮廓线和***轮廓线确定预设区域,其中,轮廓线由融合图像中人脸图像的坐标数据确定,在轮廓线的基础上向人脸图像的***延伸预设距离,可确定***轮廓线,从而可准确的在融合图像中确定预设区域。
可选的,轮廓线和***轮廓线之间的距离也可以不是固定的预设距离,可在不同位置产生一定的变化,只要轮廓线和***轮廓线之间的最小距离不小于该预设距离即可。
步骤S105,将各所述渲染帧输入图像转换模型,并将所述目标音频和所述图像转换模型输出的目标视频帧序列进行合成处理,得到与所述目标人对应的数字人视频,其中,所述图像转换模型是预先根据所述渲染帧和所述源视频帧之间的映射关系对预设生成对抗模型进行训练后生成的。
本实施例中,为了使各所述渲染帧与源视频帧中的图像更加接近,需要进一步进行优化,预先根据渲染帧和源视频帧之间的映射关系对预设生成对抗模型进行训练,得到图像转换模型。在得到各渲染帧后,将各渲染帧输入图像转换模型,图像转换模型输出优化后的目标视频帧序列,再将目标音频和目标视频帧序列进行合成处理,最后可生成口型精准,无抖动的目标人的数字人视频。
可选的,预设生成对抗模型可以为Memory Gan模型,该Memory Gan模型包括生成器、判别器和记忆网络。
可选的,将目标音频和目标视频帧序列进行合成处理可通过FFmpeg(FastForward Mpeg)编码实现。
在本申请一些实施例中,在根据所述目标音频中各音素生成多个第三3D人脸模型之前,所述方法还包括:
根据不同音素和不同口型3D人脸模型之间的对应关系建立预设音素库;
根据各所述第一3D人脸模型的口型从预设音素库中筛选出3D人脸模型集合;
其中,各所述第三3D人脸模型是根据各所述音素从所述3D人脸模型集合中获取的。
本实施例中,不同音素对应不同的口型,可根据不同音素和不同口型3D人脸模型之间的对应关系建立预设音素库,因此,预设音素库包括了不同口型的3D人脸模型,预设音素库中每种3D人脸模型可对应一种音素。根据各第一3D人脸模型的口型从预设音素库中筛选出一组3D人脸模型作为3D人脸模型集合,由于目标人的真实说话视频满足一定长度,该3D人脸模型集合可涵盖多种不同音素对应的3D人脸模型。再根据各音素从3D人脸模型集合中筛选与各音素对应的3D人脸模型,获取各第三3D人脸模型。由于可基于第一3D人脸模型的口型直接从预设音素库中获取各第三3D人脸模型,避免了因采用映射模型造成的大规模数据训练,可在提高效率的同时,提高音频和口型的一致性。
在本申请一些实施例中,在根据所述目标音频中各音素生成多个第三3D人脸模型之前,所述方法还包括:
基于预设语音识别算法对所述目标音频进行语音识别,并根据语音识别结果获取文本数据和与所述文本数据对应的时间戳信息;
根据所述文本数据的拼音信息和所述时间戳信息得到各所述音素。
本实施例中,基于预设语音识别算法对目标音频进行语音识别,可以获取对应的文本数据和与文本数据对齐的时间戳信息,然后将文本数据转换为对应的拼音信息,基于该拼音信息和时间戳信息可得到各音素,从而更加准确的获取各音素。
可选的,预设语音识别算法可以为包括基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等算法的任一种。
可以理解的是,若目标音频为除汉语以外的其他语言的音频时,由于不存在拼音信息,可根据与所述文本数据对应的单词发音信息和所述时间戳信息获取各音素。
通过应用以上技术方案,根据目标音频的时长从目标人的真实说话视频中获取多个源视频帧;基于预设3D人脸重建算法对各源视频帧进行3D人脸建模,得到多个第一3D人脸模型,并将第一3D人脸模型的表情参数置零,得到多个第二3D人脸模型;根据目标音频中各音素生成多个第三3D人脸模型,按各音素的时序对各第二3D人脸模型和各第三3D人脸模型进行融合,并渲染出由多个人脸图像组成的人脸图像序列;按时序将人脸图像序列和各源视频帧进行融合,得到多个融合图像,并将融合图像中的预设区域置为黑色,得到多个渲染帧,其中,预设区域沿人脸图像的轮廓线设置在人脸图像的***;将各渲染帧输入图像转换模型,并将目标音频和图像转换模型输出的目标视频帧序列进行合成处理,得到与目标人对应的数字人视频,其中,图像转换模型是预先根据渲染帧和源视频帧之间的映射关系对预设生成对抗模型进行训练后生成的,通过对人脸图像***预设区域的纹理特征进行学习,提高了图像转换模型的泛化能力,进而提高了数字人视频和真实说话视频之间人脸的一致性。
为了进一步阐述本发明的技术思想,现结合具体的应用场景,对本发明的技术方案进行说明。
本申请实施例提供一种数字人视频的生成方法,如图3所示,包括以下过程:
步骤1,获取目标音频和目标人的真实说话视频,根据目标音频的时长从目标人的真实说话视频中获取源视频帧序列,同时根据目标音频中各音素的时序生成音素序列;
步骤2,基于3DMM算法对各源视频帧中的人脸区域进行3D人脸建模,根据建立的3D人脸模型(即第一3D人脸模型)从预设音素库中筛选出3D人脸模型集合;
步骤3、根据各音素的发音时长确定各音素的预设权重参数;
步骤4、根据音素序列从预设3D人脸模型集合中获取基于音素的3D人脸模型(即第三3D人脸模型);
步骤5、将源视频帧的3D人脸模型参数中的表情参数置零,得到无表情的3D人脸模型(即第二3D人脸模型);
步骤6、将步骤4中的基于音素的3D人脸模型和步骤5中的源视频帧的无表情3D人脸模型按照时序和各权重参数进行加权融合,得到新的3D人脸模型(即第四3D人脸模型);
步骤7、将新的3D人脸模型经过渲染并与源视频帧融合,得到融合图像,并将融合图像中的预设区域置为黑色,得到多个渲染帧;
步骤8、将步骤7的渲染帧输入训练好的Memory Gan模型,就可以得到优化后视频帧;
步骤9、将优化后视频帧与目标音频通过FFmpeg编码合成处理得到与目标人对应的数字人视频。
通过应用以上技术方案,通过根据音素序列从预设3D人脸模型集合中获取与音素相关的3D人脸模型,可以在不考虑大规模数据训练的前提下,生成比较精准的口型效果,并通过对人脸图像***预设区域的纹理特征进行学习,提高了图像转换模型的泛化能力,进而提高了数字人视频和真实说话视频之间人脸的一致性。
本申请实施例还提出了一种数字人视频的生成装置,如图4所示,所述装置包括:
获取模块401,用于根据目标音频的时长从目标人的真实说话视频中获取多个源视频帧;
建模模块402,用于基于预设3D人脸重建算法对各所述源视频帧进行3D人脸建模,得到多个第一3D人脸模型,并将所述第一3D人脸模型的表情参数置零,得到多个第二3D人脸模型;
第一融合模块403,用于根据所述目标音频中各音素生成多个第三3D人脸模型,按各所述音素的时序对各所述第二3D人脸模型和各所述第三3D人脸模型进行融合,并渲染出由多个人脸图像组成的人脸图像序列;
第二融合模块404,用于按所述时序将所述人脸图像序列和各所述源视频帧进行融合,得到多个融合图像,并将所述融合图像中的预设区域置为黑色,得到多个渲染帧,其中,所述预设区域沿所述人脸图像的轮廓线设置在所述人脸图像的***;
合成模块405,用于将各所述渲染帧输入图像转换模型,并将所述目标音频和所述图像转换模型输出的目标视频帧序列进行合成处理,得到与所述目标人对应的数字人视频,其中,所述图像转换模型是预先根据所述渲染帧和所述源视频帧之间的映射关系对预设生成对抗模型进行训练后生成的。
在具体的应用场景中,所述装置还包括确定模块,用于:
根据所述融合图像中所述人脸图像的坐标数据确定所述轮廓线;
在所述融合图像中所述人脸图像的***确定***轮廓线,所述***轮廓线与所述轮廓线之间的距离为预设距离;
根据所述轮廓线和所述***轮廓线确定所述预设区域。
在具体的应用场景中,所述装置还包括筛选模块,用于:
根据不同音素和不同口型3D人脸模型之间的对应关系建立预设音素库;
根据各所述第一3D人脸模型的口型从预设音素库中筛选出3D人脸模型集合;
其中,各所述第三3D人脸模型是根据各所述音素从所述3D人脸模型集合中获取的。
在具体的应用场景中,第一融合模块403,具体用于:
按所述时序将各所述第二3D人脸模型和各所述第三3D人脸模型融合,得到多个第四3D人脸模型;
按预设帧数对各所述音素的发音起始点和发音结束点进行扩展,以在每两个相邻音素之间形成重叠区间;
按照预设权重参数将与各所述重叠区间对应的两种第四3D人脸模型的参数进行均值加权融合,并得到多个第五3D人脸模型;
按所述时序将各所述第五3D人脸模型***各所述第四3D人脸模型之间,并对各所述第五3D人脸模型和各所述第四3D人脸模型渲染,得到所述人脸图像序列;
其中,所述预设权重参数是根据各所述音素的发音时长确定的。
在具体的应用场景中,所述装置还包括滤波模块,用于:
基于预设滤波算法对由所述第五3D人脸模型和所述第四3D人脸模型组成的模型序列进行滤波处理。
在具体的应用场景中,所述滤波模块,具体用于:
对所述模型序列中各3D人脸模型进行多项式曲线拟合,以使所述模型序列中每个3D人脸模型与相邻3D人脸模型之间表情参数的变化量满足预设条件。
在具体的应用场景中,识别模块,用于:
基于预设语音识别算法对所述目标音频进行语音识别,并根据语音识别结果获取文本数据和与所述文本数据对应的时间戳信息;
根据所述文本数据的拼音信息和所述时间戳信息得到各所述音素。
通过应用以上技术方案,数字人视频的生成装置包括:获取模块,用于根据目标音频的时长从目标人的真实说话视频中获取多个源视频帧;建模模块,用于基于预设3D人脸重建算法对各源视频帧进行3D人脸建模,得到多个第一3D人脸模型,并将第一3D人脸模型的表情参数置零,得到多个第二3D人脸模型;第一融合模块,用于根据目标音频中各音素生成多个第三3D人脸模型,按各音素的时序对各第二3D人脸模型和各第三3D人脸模型进行融合,并渲染出由多个人脸图像组成的人脸图像序列;第二融合模块,用于按时序将人脸图像序列和各源视频帧进行融合,得到多个融合图像,并将融合图像中的预设区域置为黑色,得到多个渲染帧,其中,预设区域沿人脸图像的轮廓线设置在人脸图像的***;合成模块,用于将各渲染帧输入图像转换模型,并将目标音频和图像转换模型输出的目标视频帧序列进行合成处理,得到与目标人对应的数字人视频,其中,图像转换模型是预先根据渲染帧和源视频帧之间的映射关系对预设生成对抗模型进行训练后生成的,通过对人脸图像***预设区域的纹理特征进行学习,提高了图像转换模型的泛化能力,进而提高了数字人视频和真实说话视频之间人脸的一致性。
本发明实施例还提供了一种电子设备,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,
存储器503,用于存储处理器的可执行指令;
处理器501,被配置为经由执行所述可执行指令来执行:
根据目标音频的时长从目标人的真实说话视频中获取多个源视频帧;
基于预设3D人脸重建算法对各所述源视频帧进行3D人脸建模,得到多个第一3D人脸模型,并将所述第一3D人脸模型的表情参数置零,得到多个第二3D人脸模型;
根据所述目标音频中各音素生成多个第三3D人脸模型,按各所述音素的时序对各所述第二3D人脸模型和各所述第三3D人脸模型进行融合,并渲染出由多个人脸图像组成的人脸图像序列;
按所述时序将所述人脸图像序列和各所述源视频帧进行融合,得到多个融合图像,并将所述融合图像中的预设区域置为黑色,得到多个渲染帧,其中,所述预设区域沿所述人脸图像的轮廓线设置在所述人脸图像的***;
将各所述渲染帧输入图像转换模型,并将所述目标音频和所述图像转换模型输出的目标视频帧序列进行合成处理,得到与所述目标人对应的数字人视频,其中,所述图像转换模型是预先根据所述渲染帧和所述源视频帧之间的映射关系对预设生成对抗模型进行训练后生成的。
上述通信总线可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(Extended Industry Standard Architecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括RAM(Random Access Memory,随机存取存储器),也可以包括非易失性存储器,例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括CPU(Central Processing Unit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(Digital Signal Processing,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的数字人视频的生成方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如上所述的数字人视频的生成方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘)等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种数字人视频的生成方法,其特征在于,所述方法包括:
根据目标音频的时长从目标人的真实说话视频中获取多个源视频帧;
基于预设3D人脸重建算法对各所述源视频帧进行3D人脸建模,得到多个第一3D人脸模型,并将所述第一3D人脸模型的表情参数置零,得到多个第二3D人脸模型;
根据所述目标音频中各音素生成多个第三3D人脸模型,按各所述音素的时序对各所述第二3D人脸模型和各所述第三3D人脸模型进行融合,并渲染出由多个人脸图像组成的人脸图像序列;
按所述时序将所述人脸图像序列和各所述源视频帧进行融合,得到多个融合图像,并将所述融合图像中的预设区域置为黑色,得到多个渲染帧,其中,所述预设区域沿所述人脸图像的轮廓线设置在所述人脸图像的***;
将各所述渲染帧输入图像转换模型,并将所述目标音频和所述图像转换模型输出的目标视频帧序列进行合成处理,得到与所述目标人对应的数字人视频,其中,所述图像转换模型是预先根据所述渲染帧和所述源视频帧之间的映射关系对预设生成对抗模型进行训练后生成的。
2.如权利要求1所述的方法,其特征在于,在将所述融合图像中的预设区域置为黑色,得到多个渲染帧之前,所述方法还包括:
根据所述融合图像中所述人脸图像的坐标数据确定所述轮廓线;
在所述融合图像中所述人脸图像的***确定***轮廓线,所述***轮廓线与所述轮廓线之间的距离为预设距离;
根据所述轮廓线和所述***轮廓线确定所述预设区域。
3.如权利要求1所述的方法,其特征在于,在根据所述目标音频中各音素生成多个第三3D人脸模型之前,所述方法还包括:
根据不同音素和不同口型3D人脸模型之间的对应关系建立预设音素库;
根据各所述第一3D人脸模型的口型从预设音素库中筛选出3D人脸模型集合;
其中,各所述第三3D人脸模型是根据各所述音素从所述3D人脸模型集合中获取的。
4.如权利要求1所述的方法,其特征在于,所述按各所述音素的时序对各所述第二3D人脸模型和各所述第三3D人脸模型进行融合,并渲染出由多个人脸图像组成的人脸图像序列,包括:
按所述时序将各所述第二3D人脸模型和各所述第三3D人脸模型融合,得到多个第四3D人脸模型;
按预设帧数对各所述音素的发音起始点和发音结束点进行扩展,以在每两个相邻音素之间形成重叠区间;
按照预设权重参数将与各所述重叠区间对应的两种第四3D人脸模型的参数进行均值加权融合,并得到多个第五3D人脸模型;
按所述时序将各所述第五3D人脸模型***各所述第四3D人脸模型之间,并对各所述第五3D人脸模型和各所述第四3D人脸模型渲染,得到所述人脸图像序列;
其中,所述预设权重参数是根据各所述音素的发音时长确定的。
5.如权利要求4所述的方法,其特征在于,在按所述时序将各所述第五3D人脸模型***各所述第四3D人脸模型之间之后,所述方法还包括:
基于预设滤波算法对由所述第五3D人脸模型和所述第四3D人脸模型组成的模型序列进行滤波处理。
6.如权利要求5所述的方法,其特征在于,所述基于预设滤波算法对由各所述第五3D人脸模型和各所述第四3D人脸模型组成的模型序列进行滤波处理,包括:
对所述模型序列中各3D人脸模型进行多项式曲线拟合,以使所述模型序列中每个3D人脸模型与相邻3D人脸模型之间表情参数的变化量满足预设条件。
7.如权利要求1所述的方法,其特征在于,在根据所述目标音频中各音素生成多个第三3D人脸模型之前,所述方法还包括:
基于预设语音识别算法对所述目标音频进行语音识别,并根据语音识别结果获取文本数据和与所述文本数据对应的时间戳信息;
根据所述文本数据的拼音信息和所述时间戳信息得到各所述音素。
8.一种数字人视频的生成装置,其特征在于,所述装置包括:
获取模块,用于根据目标音频的时长从目标人的真实说话视频中获取多个源视频帧;
建模模块,用于基于预设3D人脸重建算法对各所述源视频帧进行3D人脸建模,得到多个第一3D人脸模型,并将所述第一3D人脸模型的表情参数置零,得到多个第二3D人脸模型;
第一融合模块,用于根据所述目标音频中各音素生成多个第三3D人脸模型,按各所述音素的时序对各所述第二3D人脸模型和各所述第三3D人脸模型进行融合,并渲染出由多个人脸图像组成的人脸图像序列;
第二融合模块,用于按所述时序将所述人脸图像序列和各所述源视频帧进行融合,得到多个融合图像,并将所述融合图像中的预设区域置为黑色,得到多个渲染帧,其中,所述预设区域沿所述人脸图像的轮廓线设置在所述人脸图像的***;
合成模块,用于将各所述渲染帧输入图像转换模型,并将所述目标音频和所述图像转换模型输出的目标视频帧序列进行合成处理,得到与所述目标人对应的数字人视频,其中,所述图像转换模型是预先根据所述渲染帧和所述源视频帧之间的映射关系对预设生成对抗模型进行训练后生成的。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~7中任意一项所述的数字人视频的生成方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~7中任意一项所述的数字人视频的生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310132741.4A CN116385629A (zh) | 2023-02-17 | 2023-02-17 | 数字人视频的生成方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310132741.4A CN116385629A (zh) | 2023-02-17 | 2023-02-17 | 数字人视频的生成方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116385629A true CN116385629A (zh) | 2023-07-04 |
Family
ID=86972065
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310132741.4A Pending CN116385629A (zh) | 2023-02-17 | 2023-02-17 | 数字人视频的生成方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116385629A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117478818A (zh) * | 2023-12-26 | 2024-01-30 | 荣耀终端有限公司 | 语音通话方法、终端和存储介质 |
-
2023
- 2023-02-17 CN CN202310132741.4A patent/CN116385629A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117478818A (zh) * | 2023-12-26 | 2024-01-30 | 荣耀终端有限公司 | 语音通话方法、终端和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11211060B2 (en) | Using machine-learning models to determine movements of a mouth corresponding to live speech | |
Taylor et al. | A deep learning approach for generalized speech animation | |
CN110874557B (zh) | 一种语音驱动虚拟人脸的视频生成方法以及装置 | |
CN110751708B (zh) | 一种实时的语音驱动人脸动画的方法和*** | |
CN112823380A (zh) | 将数字视频中的口形和动作与替代音频匹配 | |
CN113077537B (zh) | 一种视频生成方法、存储介质及设备 | |
CN115830193A (zh) | 数字人动画的生成方法、装置、电子设备和存储介质 | |
CN110266973A (zh) | 视频处理方法、装置、计算机可读存储介质和计算机设备 | |
CN112866586A (zh) | 一种视频合成方法、装置、设备及存储介质 | |
CN112785670B (zh) | 一种形象合成方法、装置、设备及存储介质 | |
CN116385629A (zh) | 数字人视频的生成方法、装置、电子设备和存储介质 | |
CN113111812A (zh) | 一种嘴部动作驱动模型训练方法及组件 | |
CN115423904A (zh) | 一种口型动画的生成方法、装置、电子设备及存储介质 | |
CN116363268A (zh) | 一种口型动画的生成方法、装置、电子设备和存储介质 | |
KR102319753B1 (ko) | 딥러닝 기반의 영상 컨텐츠 제작 방법 및 장치 | |
CN117640994A (zh) | 一种视频生成方法及相关设备 | |
Wang et al. | Talking faces: Audio-to-video face generation | |
KR20230172427A (ko) | 사람 음성에 따른 실사인물의 발화 영상 합성 시스템 | |
CN115439614B (zh) | 虚拟形象的生成方法、装置、电子设备和存储介质 | |
CN117115310A (zh) | 一种基于音频和图像的数字人脸生成方法及*** | |
CN113963092B (zh) | 音视频拟合关联的计算方法、装置、介质和设备 | |
CN113990295A (zh) | 一种视频生成方法和装置 | |
Kolivand et al. | Realistic lip syncing for virtual character using common viseme set | |
CN117115318B (zh) | 口型动画合成方法及装置和电子设备 | |
US20200388270A1 (en) | Speech synthesizing devices and methods for mimicking voices of children for cartoons and other content |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |