CN115050083B - 矫正口型模型、模型的训练及其应用方法 - Google Patents

矫正口型模型、模型的训练及其应用方法 Download PDF

Info

Publication number
CN115050083B
CN115050083B CN202210971051.3A CN202210971051A CN115050083B CN 115050083 B CN115050083 B CN 115050083B CN 202210971051 A CN202210971051 A CN 202210971051A CN 115050083 B CN115050083 B CN 115050083B
Authority
CN
China
Prior art keywords
mouth
video
picture
mouth shape
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210971051.3A
Other languages
English (en)
Other versions
CN115050083A (zh
Inventor
司马华鹏
杨过
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Silicon Intelligence Technology Co Ltd
Original Assignee
Nanjing Silicon Intelligence Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Silicon Intelligence Technology Co Ltd filed Critical Nanjing Silicon Intelligence Technology Co Ltd
Priority to CN202210971051.3A priority Critical patent/CN115050083B/zh
Publication of CN115050083A publication Critical patent/CN115050083A/zh
Application granted granted Critical
Publication of CN115050083B publication Critical patent/CN115050083B/zh
Priority to US18/338,460 priority patent/US11887403B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)

Abstract

本申请实施例提供了一种矫正口型模型、模型的训练及其应用方法,模型包括嘴部特征提取模块、关键点提取模块、第一视频模块、第二视频模块、判别器。其训练方法包括:基于第一原始视频与第二原始视频通过模型中的各个模块提取对应的特征对模型进行训练,直至模型达到收敛条件,完成训练,生成目标矫正口型模型。其应用方法包括:将待矫正数字人演员口型的视频以及对应的音频输入至矫正口型模型中,以获取所述视频中数字人演员口型被修正后的视频;所述矫正口型模型为采用训练方法训练得到的模型。

Description

矫正口型模型、模型的训练及其应用方法
技术领域
本申请涉及自然人机交互技术领域,具体而言,涉及一种矫正视频中数字人演员口型模型、模型的训练及应用方法。
背景技术
数字人生成过程中的口型迁移是指依据目标项目进行视频展现。在进行口型迁移的过程中首先选择口型较好的真人演员进行说话表演录制,其次将该真人演员的口型特征迁移到目标项目视频中的数字人演员上,使得数字人演员按照真人演员的口型发言。口型迁移的过程要求视觉感受更加符合项目的需求,同时尽可能地保留目标项目视频中演员的真实表情。
上述口型迁移的过程需要对预设的模型进行训练。然而,模型训练的过程中不可避免的会学到训练数据自身的口型缺陷(本发明中所指的口型缺陷,具体诸如说话时牙齿露出过多,口型张开过大或过小等);故此,在通过完成训练后的模型进行口型迁移的过程中,不免会受到上述模型所学习到的口型缺陷的影响,进而导致在真人演员的口型存在缺陷时,数字人演员根据存在缺陷的模型所进行的口型驱动会复刻上述口型缺陷。基于上述现象,相关技术中的二维数字人语音驱动口型的技术在实现过程中所依仗的深度学习存在固有的缺陷,它无法摆脱视频中真人演员的口型特征,所以当真人演员存在明显的口型缺陷特征时,语音驱动口型展示的数字人演员的口型缺陷则会暴露明显。
目前,相关技术中以表情驱动表情等AI技术可以在一定程度上进行口型的矫正,但是,上述相关技术在改变口型的同时,也大大影响了目标演员的真实表情;而根据应用场景的需求,口型迁移的过程要求同时尽可能地保留项目目标视频中演员的真实表情。故此,相关技术虽然可以实现一定程度的口型矫正,但其并无法适用于整体的表情驱动表情的业务需求中。
针对相关技术中,无法在保留演员真实表情的前提下实现口型矫正的问题,相关技术中尚未提供有效的解决方案。
发明内容
本申请实施例提供了一种矫正口型模型、模型的训练及其应用方法,以至少解决相关技术中,无法在保留演员真实表情的前提下实现口型矫正的技术问题。
在本申请的一个实施例中,提出了一种矫正口型模型,包括嘴部特征提取模块、关键点提取模块、第一视频模块、第二视频模块、判别器,其中:
所述嘴部特征提取模块用于,获取待矫正口型视频中人脸对应的嘴部图片,提取口型变化特征;
所述关键点提取模块用于,获取所述待矫正口型视频中包含所述嘴部图片的人脸图片,提取嘴部关键点特征;
所述第一视频模块用于,获取与所述人脸图片对应的视频拆帧图片,并对所述视频拆帧图片的嘴部进行掩码得到嘴部遮挡图片,提取遮挡特征并将所述遮挡特征、所述嘴部关键点特征、所述口型变化特征进行拼接并输入至所述第一视频模块中的解码器,以获取预测人脸图片;
所述第二视频模块用于,从所述嘴部图片中提取嘴部特征;对所述预测人脸图片中的嘴部区域进行掩码以获取预测人脸遮挡特征,将所述预测人脸遮挡特征、所述嘴部特征、所述口型变化特征进行拼接并输入至所述第二视频模块中的解码器,以获取口型矫正后的人脸图片;
所述判别器用于,计算所述第一视频模块与所述第二视频模块中的判别器损失,并根据所述判别器损失结果判定所述预测人脸图片与所述口型矫正后的人脸图片是否为真实人脸图片,若判定结果为真则输出所述预测人脸图片与所述口型矫正后的人脸图片。
在本申请的一个实施例中,还提出了一种矫正口型模型的训练方法,应用于上述模型中,包括:采用嘴部特征提取模块根据第一原始视频中对应的第一嘴部图片提取第一口型变化特征,根据第二原始视频中对应的第二嘴部图片提取第二口型变化特征,所述第一原始视频为演员口型准确视频,所述第二原始视频为演员口型缺陷视频,并计算所述第一口型变化特征与所述第二口型变化特征的第一像素损失;
采用关键点提取模块根据包含所述第一嘴部图片的第一人脸图片提取第一嘴部关键点特征;
采用第一视频模块,根据与所述第一人脸图片对应的第一视频拆帧图片,提取第一遮挡特征,并将所述第一遮挡特征、所述第一嘴部关键点特征、所述第一口型变化特征进行拼接并输入至所述第一视频模块中的解码器,以获取第一预测人脸图片,并计算所述第一预测人脸图片与所述第一视频拆帧图片的第二像素损失与第一判别器损失的加权之和;
采用第二视频模块,提取所述第二嘴部图片的第二嘴部特征,以及与第二人脸图片对应的第二视频拆帧图片的第二遮挡特征;将所述第二遮挡特征、所述第二嘴部特征、所述第二口型变化特征进行拼接并输入至所述第二视频模块中的解码器,以获取第二预测人脸图片,并计算所述第二预测人脸图片与所述第二视频拆帧图片的第三像素损失与第二判别器损失的加权之和;
当所述第一像素损失、所述第二像素损失与第一判别器损失的加权之和、所述第三像素损失与第二判别器损失的加权之和全部达到所述模型收敛条件,完成训练,生成目标矫正口型模型。
在本申请的一个实施例中,对预设的矫正口型模型进行训练之前还包括:
选取两组由真人演员录制的口型视频,分别为第一原始视频与第二原始视频;
将所述第一原始视频与预设的音频输入至预设的音频驱动口型模型,生成第一视频;
将所述第二原始视频与所述预设的音频输入至所述预设的音频驱动口型模型,生成第二视频,所述第一视频与所述第二视频为数字人根据所述预设的音频进行相应动作的视频;
将所述第一视频与所述第二视频中数字人错字发声的视频片段删除,以获取第一筛选视频与第二筛选视频;
通过所述第一筛选视频与所述第二筛选视频得到所述第一人脸图片与所述第二人脸图片。
在本申请的一个实施例中,通过所述第一筛选视频与所述第二筛选视频得到所述第一人脸图片与所述第二人脸图片,包括:
将所述第一筛选视频与所述第二筛选视频进行视频拆帧,以得到对应的所述第一视频拆帧图片与第二视频拆帧图片;
根据所述第一视频拆帧图片与所述第二视频拆帧图片裁剪图片中的数字人嘴部区域,得到对应所述第一嘴部图片与所述第二嘴部图片;
将所述第一嘴部图片与所述第二嘴部图片缩放至同一目标尺寸;
通过人脸识别库获取人脸关键点,根据人脸关键点外接矩形,裁剪所述第一筛选视频与所述第二筛选视频中的人脸,得到对应的所述第一人脸图片、第二人脸图片。
在本申请的一个实施例中,采用关键点提取模块根据包含所述第一嘴部图片的第一人脸图片提取第一嘴部关键点特征,具体包括:
获取所述第一人脸图片中的人脸深度关键点;
选取所述人脸深度关键点中的嘴部区域深度关键点并保存,以得到所述第一人脸图片中的所述第一嘴部关键点特征。
在本申请的一个实施例中,提取所述第一遮挡特征与所述第二遮挡特征具体步骤为:
采用所述第一视频模块对所述第一视频拆帧图片中的数字人嘴部区域进行掩码,以获取第一嘴部遮挡图片;提取所述第一嘴部遮挡图片的所述第一遮挡特征;
采用所述第二视频模块对所述第二视频拆帧图片中的数字人嘴部区域进行掩码,以获取第二嘴部遮挡图片;提取所述第二嘴部遮挡图片的所述第二遮挡特征。
在本申请的一个实施例中,所述完成训练,生成目标矫正口型模型之后还包括:
采用训练后的第一视频模块,根据所述第二嘴部遮挡图片得到处理图片;
对所述处理图片中的数字人嘴部区域进行裁剪,以获取对应的处理嘴部图片;
采用训练后的嘴部特征提取模块,根据所述处理嘴部图片提取处理口型变化特征。
在本申请的一个实施例中,所述完成训练,生成目标矫正口型模型之后还包括:
通过训练后的第二视频模块对所述处理图片中的数字人嘴部区域进行掩码,以获取处理嘴部遮挡图片;
根据所述处理嘴部图片与所述处理嘴部遮挡图片提取对应的处理嘴部特征与处理嘴部遮挡特征;
采用训练后的第二视频模块中的解码器,根据所述处理嘴部特征、所述处理嘴部遮挡特征、所述处理口型变化特征进行拼接,以获取第二嘴部修正图片,所述第二嘴部修正图片为所述第二视频拆帧图片中嘴部缺陷被修正的图片。
在本申请的一个实施例中,还提出了一种方法,包括:将待矫正数字人演员口型的视频以及对应的音频输入至矫正口型模型中,以获取所述视频中数字人演员口型被修正后的视频;
所述矫正口型模型为采用上述任一项训练方法训练得到的模型。
由以上技术方案可知,基于本申请提供的模型,具体有以下技术效果:
1、本发明在相关技术中的瞳孔矫正方案的模型结构与训练方法的基础上添加嘴部特征提取模块,并应用在口型矫正中,从而实现了在不影响面部其它表情的迁移的前提下,针对口型实现了矫正;
2、本发明给出一个较为廉价高效的数据标注方式,此方法是在同一音频下选用同一个音频驱动口型模型生成两组说话视频,保证了两组视频在时间与内容上的完全对齐,大大提高模型精度,我们需要学习的是口型变化的参数,与两者的口型变化好坏无关,所以它不受音频驱动口型等模型的精度的影响。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请提供的矫正口型模型的结构示意图;
图2为本申请提供的嘴部特征提取模块的结构示意图;
图3为本申请提供的关键点提取模块的结构示意图;
图4为本申请提供的第一视频模块的结构示意图;
图5为本申请提供的第二视频模块的结构示意图;
图6为本申请提供的矫正口型模型的训练方法流程图;
图7为本申请提供的第一视频与第二视频生成过程的流程图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
如图1所示,本申请实施例提供了一种矫正口型模型,包括:嘴部特征提取模块01、关键点提取模块02、第一视频模块03、第二视频模块04、判别器05,其中:
所述嘴部特征提取模块01用于,获取待矫正口型视频中人脸对应的嘴部图片,提取口型变化特征;需要说明的是,本申请不直接传入嘴部深度关键点数据,在进入网络之前,参见图2,本申请首先通过一段卷积网络层,提取更深层次的特征,然后与嘴部特征提取模块01中相应的Encode1(编码器)末端特征进行拼接,再传入对应的Decode(解码器)。具体地,所述嘴部特征提取模块01仍然使用GazeAnimation中的主干网络。
参见图3,所述关键点提取模块02用于,获取所述待矫正口型视频中包含所述嘴部图片的人脸图片,提取嘴部关键点特征;需要说明的是,所述关键点提取模块02只是三维嘴部关键点的特征提取器,通过提取所述嘴部关键点特征来驱动模型的前向推力预测。进一步的,模型在训练时,必须要有反向传播的过程,在tensorflow,pytorch框架中,已设计好,不需要后期的开发的关注。我们训练完模型,并保存好这个模型,在使用的时候,模型只需要一次前向推理即可。
参见图4,所述第一视频模块03用于,获取与所述人脸图片对应的视频拆帧图片,并对所述视频拆帧图片的嘴部进行掩码得到嘴部遮挡图片,提取遮挡特征并将所述遮挡特征、所述嘴部关键点特征、所述口型变化特征进行拼接并输入至所述第一视频模块中的解码器,以获取预测人脸图片;参见图5,所述第二视频模块04用于,从所述嘴部图片中提取嘴部特征;对所述预测人脸图片中的嘴部区域进行掩码以获取预测人脸遮挡特征,将所述预测人脸遮挡特征、所述嘴部特征、所述口型变化特征进行拼接并输入至所述第二视频模块中的解码器,以获取口型矫正后的人脸图片;
上述第一视频模块03与第二视频模块04的网络整体架构与GazeAnimation一样,不同的是,本申请中对于这两个模块还设计了新的网络结构。同时还加入了嘴部关键点特征,并且以嘴部关键点特征来驱动口型的改变。进一步的,对于两个模块中的残差网络部分,本申请也做了一些调整,如图5所示,在减少参数量的同时,在精度上也依然可靠。在第一视频模块03中的Encode3的与第二视频模块04的Encode4部分中的卷积网络层中串联了9个resnet_block(残差网络模块),而在Decode部分本申请使用了三层反卷积来生成图像,因此第一视频模块03与第二视频模块04并不公用一个网络。
所述判别器05用于,计算所述第一视频模块03与所述第二视频模块04中的判别器损失,并根据所述判别器损失结果判定所述预测人脸图片与所述口型矫正后的人脸图片是否为真实人脸图片,若判定结果为真则输出所述预测人脸图片与所述口型矫正后的人脸图片。具体的,本申请中选择现存的patchGan作为矫正口型模型的判别器,该判别器将输入图像映射成n*n个patch(块),并计算每个块为真的概率,最后输出概率平均值。此处选择的判别器名称为patchGan,也就是Gan网络的判别器,传入patchGan的矩阵会被映射为n*n个patch,然后再计算每个patch为真的概率,最后输出概率平均值。
需要说明的是,为了使本申请提供的模型最终生成更加清晰的图片,本申请对第一视频模块03中的Encode3与第二视频模块04中的Encode4以及其对应的Decode的卷积网络层做了一些改变,具体网络主体结构如上述,且当Encode3以及Encode4的输入层与Decode的输出层选择7*7卷积层时生成的图像效果最佳。另外,本申请提供的残差网络相比于现有的残差网络有着更轻量的计算参数,同时,也没有降低生成图片的质量。
参见图6,本申请实施例还提供了一种矫正口型模型的训练方法,应用于上述的模型中,所述方法包括:
S1,采用嘴部特征提取模块01根据第一原始视频中对应的第一嘴部图片提取第一口型变化特征,根据第二原始视频中对应的第二嘴部图片提取第二口型变化特征,所述第一原始视频为演员口型准确视频,所述第二原始视频为演员口型缺陷视频,并计算所述第一口型变化特征与所述第二口型变化特征的第一像素损失;
特别的,本实施例中的嘴部特征提取模块01主要是预测功能,因此不需要加入判 别器,仅仅需要通过其提取上述的第一口型变化特征与第二口型变化特征,并将嘴部特征 提取模块01中的Eecode1部分作为后面的第一视频模块03与第二视频模块04的口型变化特 征提取器。特别的,本申请中使用第一原始视频与第二原始视频对应的嘴部图片进行嘴部 区域的训练,并提取对应的第一口型变化特征与第二口型变化特征。另外,通过L1_loss损 失函数(L1_loss损失具体公式:
Figure 96554DEST_PATH_IMAGE001
;其中,ytrue表 示真实值,ypredicted表示预测值。L1_loss:真实值与预测值的绝对差的和,真实值与预测 值实际上是一个多维张量(数组)将两个张量中的相同位置的值进行绝对差,并相加)计算 所述第一口型变化特征与第二口型变化特征的第一像素损失函数。
S2,采用关键点提取模块02根据包含所述第一嘴部图片的第一人脸图片提取第一嘴部关键点特征;需要说明的是所述关键点提取模块02只是嘴部关键点特征提取器,并且在本申请中仅利用关键点提取模块02作为上述第一原始视频的嘴部关键点特征提取器,并且只使用所述第一原始视频对应的第一嘴部关键点特征来驱动口型矫正模型的前向推理预测。
具体地,所述前向推理预测是指模型在训练的时候,必须要有反向传播的过程,在现有的tensorflow,pytorch框架中,已经设计好,不需要后期的开发和关注。本申请针对训练完成的模型,需要对训练完成的模型进行保存,这样在具体使用的时候,模型只需要一次前向推力即可。
S3,采用第一视频模块03,根据与所述第一人脸图片对应的第一视频拆帧图片,提取第一遮挡特征,并将所述第一遮挡特征、所述第一嘴部关键点特征、所述第一口型变化特征进行拼接并输入至所述第一视频模块03中的解码器,以获取第一预测人脸图片,并计算所述第一预测人脸图片与所述第一视频拆帧图片的第二像素损失与第一判别器损失的加权之和;
具体的,如图4所示,对所述第一原始视频中的任意一帧图片(即上述第一视频拆帧图片)的嘴部区域特征进行掩码,得到第一遮挡图片,所述第一遮挡图片经过Encode3进行特征提取得到所述第一遮挡特征,之后拼接所述第一遮挡特征以及上述获取到的所述第一嘴部关键点特征、所述第一口型变化特征,传入Decode部分。进一步的,对所述第一视频模块03进行训练后还需要分别计算所述第一预测人脸图片与所述第一视频拆帧图片的第二像素损失与第一判别器损失的加权之和。
S4,采用第二视频模块04,提取所述第二嘴部图片的第二嘴部特征,以及与第二人脸图片对应的第二视频拆帧图片的第二遮挡特征;将所述第二遮挡特征、所述第二嘴部特征、所述第二口型变化特征进行拼接并输入至所述第二视频模块中的解码器,以获取第二预测人脸图片,并计算所述第二预测人脸图片与所述第二视频拆帧图片的第三像素损失与第二判别器损失的加权之和;
需要说明的是,如图5所示,所述第二嘴部特征是单独使用所述第二视频模块04中的Encode5提取的特征,需要注意的是,这与所述嘴部特征提取模块01中的Encode1不同,它提取的只是嘴部特征,以确保模型具有嘴部特征信息。同时通过嘴部特征提取模块中的Encode1提取第二嘴部图片对应的第二口型变化特征。对第二原始视频中的任意一帧图片(即上述第二视频拆帧图片)的嘴部区域进行掩码,得到第二嘴部遮挡图片,所述第二嘴部遮挡图片经过Encode4进行特征提取得到第二遮挡特征,之后拼接所述第二遮挡特征以及上述获取得到的所述第二嘴部特征、所述第二口型变化特征,并传入Decode部分。
在一些实施例中,提取所述第一遮挡特征与所述第二遮挡特征具体步骤为:采用所述第一视频模块03对所述第一视频拆帧图片中的数字人嘴部区域进行掩码,以获取第一嘴部遮挡图片;提取所述第一嘴部遮挡图片的所述第一遮挡特征;采用所述第二视频模块04对所述第二视频拆帧图片中的数字人嘴部区域进行掩码,以获取第二嘴部遮挡图片;提取所述第二嘴部遮挡图片的所述第二遮挡特征。
S5,当所述第一像素损失、所述第二像素损失与第一判别器损失的加权之和、所述第三像素损失与第二判别器损失的加权之和全部达到所述模型收敛条件,完成训练,生成目标矫正口型模型。
在一些实施例中,对预设的矫正口型模型进行训练之前还包括:S11,选取两组由真人演员录制的口型视频,分别为第一原始视频与第二原始视频;
具体的,在对模型进行训练之前需要进行数据的预处理,在本申请中,首先选取两组视频,分别为口型好的视频(即第一原始视频)、和口型差的视频(即第二原始视频)。所述第一原始视频与第二原始视频均指示由真人演员录制的视频,其中,第一原始视频在录制过程中的口型较好,无明显缺陷;第二原始视频在录制过程中的口型存在部分缺陷。
S12,将所述第一原始视频与预设的音频输入至预设的音频驱动口型模型,生成第一视频;
S13,将所述第二原始视频与所述预设的音频输入至所述预设的音频驱动口型模型,生成第二视频,所述第一视频与所述第二视频为数字人根据所述预设的音频进行相应动作的视频;
具体的,参见图7,将所述第一原始视频和预设的音频作为输入,通过音频驱动口型模型生成新的视频,即第一视频并输出;同样的将所述第二原始视频和预设的音频作为输入,通过所述音频驱动口型模型生成新的视频,即第二视频并输出。
需要说明的是,前述第一原始视频与第二原始视频均指示由数字人视频,即由数字人按照预设的音频内容进行展示;第一原始视频与第二原始视频的生成过程中,预设的音频为同一段音频,音频驱动口型模型也为预先训练完成的模型,用于根据真人视频与音频生成对应的数字人视频。
S14,将所述第一视频与所述第二视频中数字人错字发声的视频片段删除,以获取第一筛选视频与第二筛选视频;
需要说明的是,在S14步骤中同样是对视频筛选出口型相对准确的视频片段,但本步骤中的口型是否准确与前述步骤S11中的口型好坏或口型缺陷并非同一概念,口型准确是指数字人针对某个字发声时是否存在错字现象,而口型缺陷具体是指说话时牙齿露出过多,口型张开过大或过小等,因此S14步骤即将第一原始视频与第二原始视频中可能的错字视频段筛除。
S15,通过所述第一筛选视频与所述第二筛选视频得到所述第一人脸图片与所述第二人脸图片。
在一些实施例中,通过所述第一筛选视频与所述第二筛选视频得到所述第一人脸图片与所述第二人脸图片,包括:S151,将所述第一筛选视频与所述第二筛选视频进行视频拆帧,以得到对应的所述第一视频拆帧图片与第二视频拆帧图片;S152,根据所述第一视频拆帧图片与所述第二视频拆帧图片裁剪图片中的数字人嘴部区域,得到对应所述第一嘴部图片与所述第二嘴部图片;S153,将所述第一嘴部图片与所述第二嘴部图片缩放至同一目标尺寸;S154,通过人脸识别库获取人脸关键点,根据人脸关键点外接矩形,裁剪所述第一筛选视频与所述第二筛选视频中的人脸,得到对应的所述第一人脸图片、第二人脸图片。
示例性的,对得到的第一筛选视频与第二筛选视频进行拆帧,并分别裁剪其视频中的数字人嘴部区域,并将裁剪出来的嘴部图片缩放到同一尺寸(32*32或64*64);使用dlib库(即人脸识别库)获得人脸关键点,依据人脸关键点外接矩形裁剪第一筛选视频与第二筛选视频中的人脸。
在一些实施例中,采用关键点提取模02根据包含所述第一嘴部图片的第一人脸图片提取第一嘴部关键点特征,具体包括:获取所述第一人脸图片中的人脸深度关键点;选取所述人脸深度关键点中的嘴部区域深度关键点并保存,以得到所述第一人脸图片中的所述第一嘴部关键点特征。
示例性的,使用官方封装的mediapipe工具获得第一筛选视频中的嘴部区域深度关键点作为嘴部区域深度信息。前述过程为先获得第一筛选视频中的人脸深度关键点,再此基础上选择嘴部区域深度关键点,并保存,以得到第一筛选视频中的嘴部区域深度关键点。
在一些实施例中,所述完成训练,生成目标矫正口型模型之后还包括:采用训练后的第一视频模块03,根据所述第二嘴部遮挡图片得到处理图片;对所述处理图片中的数字人嘴部区域进行裁剪,以获取对应的处理嘴部图片;采用训练后的嘴部特征提取模块01,根据所述处理嘴部图片提取处理口型变化特征。
在一些实施例中,所述完成训练,生成目标矫正口型模型之后还包括:通过训练后的第二视频模块04对所述处理图片中的数字人嘴部区域进行掩码,以获取处理嘴部遮挡图片;根据所述处理嘴部图片与所述处理嘴部遮挡图片提取对应的处理嘴部特征与处理嘴部遮挡特征;采用训练后的第二视频模块04中的解码器,根据所述处理嘴部特征、所述处理嘴部遮挡特征、所述处理口型变化特征进行拼接,以获取第二嘴部修正图片,所述第二嘴部修正图片为所述第二视频拆帧图片中嘴部缺陷被修正的图片。
示例性的,当对所述校正口型模型完成训练后,将第二嘴部遮挡图片传入训练过的第一视频模块03获得处理图片,然后对处理图片作嘴部区域掩码,获得处理嘴部遮挡图片,再将处理嘴部遮挡图片传入训练过的第二视频模块04的Encode4部分获得处理嘴部遮挡特征;对处理图片的嘴部区域进行裁剪,得到对应的处理嘴部图片,对处理嘴部图片进行特征提取,获得与处理嘴部遮挡特征有着相同尺寸的处理嘴部特征,再通过训练完成的嘴部特征提取模块01对处理嘴部图片进行特征提取,获得处理口型变化特征,最后拼接得到的处理嘴部遮挡特征与处理嘴部特征,并传入训练后的第二视频模块中的Decode部分,最终获得第二视频拆帧图片中嘴部缺陷被修正后的图片。
进一步的,本申请还提供了一种矫正视频中数字人演员口型的方法,包括:将待矫正数字人演员口型的视频以及对应的音频输入至矫正口型模型中,以获取所述视频中数字人演员口型被修正后的视频;所述矫正口型模型为采用上述任一项训练方法训练得到的模型。
在具体使用时,仅需要将待矫正数字人演员口型的视频以及对应的音频输入至本申请提供的训练完成后的矫正口型模型中,即可得到数字人演员口型被修正后的视频。
综上所述,本申请在相关技术中的瞳孔矫正方案的模型结构与训练方法的基础上,添加嘴部特征提取模块01,并应用在口型矫正中,从而实现了在不影响面部其他表情的迁移的前提下,针对口型实现了矫正。其次,本申请中的基于瞳孔矫正框架矫正视频中数字人演员口型的方法在实测过程中效果显著,优于之前的视觉矫正方案。本申请在此基础上加上了嘴部特征提取模块01,使得改变口型的结果更加可靠。
与此同时,本申请提供了一个较为廉价高效的数据标注方式,即本申请是在同一音频下选用同一个音频驱动口型模型生成两组说话视频,保证了两组视频在时间与内容上的完全对齐,大大提高模型精度,模型需要学习的是口型变化的参数,与两者的口型变化好坏无关,所以它不受音频驱动口型等模型的精度的影响。
本说明书中通篇提及的“多个实施例”、“一些实施例”、“一个实施例”或“实施例”等,意味着结合该实施例描述的具体特征,部件或特性包括在至少一个实施例中,因此,本说明书通篇出现的短语“在多个实施例中”、“在一些实施例中”、“在至少另一个实施例中”或“在实施例中”等,并不一定都指相同的实施例。此外,在一个或多个实施例中,具体特征、部件或特性可以任何合适的方式进行组合。因此,在无限制的情形下,结合一个实施例示出或描述的具体特征、部件或特性可全部或部分地与一个或多个其他实施例的特征、部件或特性进行组合。这种修改和变型皆包括在本申请的范围之内。
本申请提供的实施例之间的相似部分相互参见即可,以上提供的具体实施方式只是本申请总的构思下的几个示例,并不构成本申请保护范围的限定。对于本领域的技术人员而言,在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (9)

1.一种矫正口型模型,其特征在于,包括嘴部特征提取模块、关键点提取模块、第一视频模块、第二视频模块、判别器,其中:
所述嘴部特征提取模块用于,获取待矫正口型视频中人脸对应的嘴部图片,提取口型变化特征;
所述关键点提取模块用于,获取所述待矫正口型视频中包含所述嘴部图片的人脸图片,提取嘴部关键点特征;
所述第一视频模块用于,获取与所述人脸图片对应的视频拆帧图片,并对所述视频拆帧图片的嘴部进行掩码得到嘴部遮挡图片,提取遮挡特征并将所述遮挡特征、所述嘴部关键点特征、所述口型变化特征进行拼接并输入至所述第一视频模块中的解码器,以获取预测人脸图片;
所述第二视频模块用于,从所述嘴部图片中提取嘴部特征;对所述预测人脸图片中的嘴部区域进行掩码以获取预测人脸遮挡特征,将所述预测人脸遮挡特征、所述嘴部特征、所述口型变化特征进行拼接并输入至所述第二视频模块中的解码器,以获取口型矫正后的人脸图片;
所述判别器用于,计算所述第一视频模块与所述第二视频模块中的判别器损失,并根据所述判别器损失结果判定所述预测人脸图片与所述口型矫正后的人脸图片是否为真实人脸图片,若判定结果为真则输出所述预测人脸图片与所述口型矫正后的人脸图片。
2.一种矫正口型模型的训练方法,应用于权利要求1所述的模型中,其特征在于,包括:
采用嘴部特征提取模块根据第一原始视频中对应的第一嘴部图片提取第一口型变化特征,根据第二原始视频中对应的第二嘴部图片提取第二口型变化特征,所述第一原始视频为演员口型准确视频,所述第二原始视频为演员口型缺陷视频,并计算所述第一口型变化特征与所述第二口型变化特征的第一像素损失;
采用关键点提取模块根据包含所述第一嘴部图片的第一人脸图片提取第一嘴部关键点特征;
采用第一视频模块,根据与所述第一人脸图片对应的第一视频拆帧图片,提取第一遮挡特征,并将所述第一遮挡特征、所述第一嘴部关键点特征、所述第一口型变化特征进行拼接并输入至所述第一视频模块中的解码器,以获取第一预测人脸图片,并计算所述第一预测人脸图片与所述第一视频拆帧图片的第二像素损失与第一判别器损失的加权之和;
采用第二视频模块,提取所述第二嘴部图片的第二嘴部特征,以及与第二人脸图片对应的第二视频拆帧图片的第二遮挡特征;将所述第二遮挡特征、所述第二嘴部特征、所述第二口型变化特征进行拼接并输入至所述第二视频模块中的解码器,以获取第二预测人脸图片,并计算所述第二预测人脸图片与所述第二视频拆帧图片的第三像素损失与第二判别器损失的加权之和;
当所述第一像素损失、所述第二像素损失与第一判别器损失的加权之和、所述第三像素损失与第二判别器损失的加权之和全部达到所述模型收敛条件,完成训练,生成目标矫正口型模型。
3.根据权利要求2所述的方法,其特征在于,对预设的矫正口型模型进行训练之前还包括:
选取两组由真人演员录制的口型视频,分别为第一原始视频与第二原始视频;
将所述第一原始视频与预设的音频输入至预设的音频驱动口型模型,生成第一视频;
将所述第二原始视频与所述预设的音频输入至所述预设的音频驱动口型模型,生成第二视频,所述第一视频与所述第二视频为数字人根据所述预设的音频进行相应动作的视频;
将所述第一视频与所述第二视频中数字人错字发声的视频片段删除,以获取第一筛选视频与第二筛选视频;
通过所述第一筛选视频与所述第二筛选视频得到所述第一人脸图片与所述第二人脸图片。
4.根据权利要求3所述的方法,其特征在于,通过所述第一筛选视频与所述第二筛选视频得到所述第一人脸图片与所述第二人脸图片,包括:
将所述第一筛选视频与所述第二筛选视频进行视频拆帧,以得到对应的所述第一视频拆帧图片与第二视频拆帧图片;
根据所述第一视频拆帧图片与所述第二视频拆帧图片裁剪图片中的数字人嘴部区域,得到对应所述第一嘴部图片与所述第二嘴部图片;
将所述第一嘴部图片与所述第二嘴部图片缩放至同一目标尺寸;
通过人脸识别库获取人脸关键点,根据人脸关键点外接矩形,裁剪所述第一筛选视频与所述第二筛选视频中的人脸,得到对应的所述第一人脸图片、第二人脸图片。
5.根据权利要求2所述的方法,其特征在于,采用关键点提取模块根据包含所述第一嘴部图片的第一人脸图片提取第一嘴部关键点特征,具体包括:
获取所述第一人脸图片中的人脸深度关键点;
选取所述人脸深度关键点中的嘴部区域深度关键点并保存,以得到所述第一人脸图片中的所述第一嘴部关键点特征。
6.根据权利要求2所述的方法,其特征在于,提取所述第一遮挡特征与所述第二遮挡特征具体步骤为:
采用所述第一视频模块对所述第一视频拆帧图片中的数字人嘴部区域进行掩码,以获取第一嘴部遮挡图片;提取所述第一嘴部遮挡图片的所述第一遮挡特征;
采用所述第二视频模块对所述第二视频拆帧图片中的数字人嘴部区域进行掩码,以获取第二嘴部遮挡图片;提取所述第二嘴部遮挡图片的所述第二遮挡特征。
7.根据权利要求2所述的方法,其特征在于,所述完成训练,生成目标矫正口型模型之后还包括:
采用训练后的第一视频模块,根据所述第二嘴部遮挡图片得到处理图片;
对所述处理图片中的数字人嘴部区域进行裁剪,以获取对应的处理嘴部图片;
采用训练后的嘴部特征提取模块,根据所述处理嘴部图片提取处理口型变化特征。
8.根据权利要求7所述的方法,其特征在于,所述完成训练,生成目标矫正口型模型之后还包括:
通过训练后的第二视频模块对所述处理图片中的数字人嘴部区域进行掩码,以获取处理嘴部遮挡图片;
根据所述处理嘴部图片与所述处理嘴部遮挡图片提取对应的处理嘴部特征与处理嘴部遮挡特征;
采用训练后的第二视频模块中的解码器,根据所述处理嘴部特征、所述处理嘴部遮挡特征、所述处理口型变化特征进行拼接,以获取第二嘴部修正图片,所述第二嘴部修正图片为所述第二视频拆帧图片中嘴部缺陷被修正的图片。
9.一种矫正视频中数字人演员口型的方法,其特征在于,包括:
将待矫正数字人演员口型的视频以及对应的音频输入至矫正口型模型中,以获取所述视频中数字人演员口型被修正后的视频;
所述矫正口型模型为采用权利要求2-8任一项 所述的训练方法训练得到的模型。
CN202210971051.3A 2022-08-15 2022-08-15 矫正口型模型、模型的训练及其应用方法 Active CN115050083B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210971051.3A CN115050083B (zh) 2022-08-15 2022-08-15 矫正口型模型、模型的训练及其应用方法
US18/338,460 US11887403B1 (en) 2022-08-15 2023-06-21 Mouth shape correction model, and model training and application method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210971051.3A CN115050083B (zh) 2022-08-15 2022-08-15 矫正口型模型、模型的训练及其应用方法

Publications (2)

Publication Number Publication Date
CN115050083A CN115050083A (zh) 2022-09-13
CN115050083B true CN115050083B (zh) 2022-10-25

Family

ID=83166857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210971051.3A Active CN115050083B (zh) 2022-08-15 2022-08-15 矫正口型模型、模型的训练及其应用方法

Country Status (2)

Country Link
US (1) US11887403B1 (zh)
CN (1) CN115050083B (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110136698B (zh) * 2019-04-11 2021-09-24 北京百度网讯科技有限公司 用于确定嘴型的方法、装置、设备和存储介质
CN110807825B (zh) * 2020-01-07 2021-04-20 南京硅基智能科技有限公司 一种基于voca的完整口型动画生成方法
CN111741326B (zh) * 2020-06-30 2023-08-18 腾讯科技(深圳)有限公司 视频合成方法、装置、设备及存储介质
CN112102153B (zh) * 2020-08-20 2023-08-01 北京百度网讯科技有限公司 图像的卡通化处理方法、装置、电子设备和存储介质
CN112528936B (zh) * 2020-12-22 2024-02-06 北京百度网讯科技有限公司 视频序列编排方法、装置、电子设备及存储介质
CN114187547A (zh) * 2021-12-03 2022-03-15 南京硅基智能科技有限公司 目标视频的输出方法及装置、存储介质及电子装置
CN114359450A (zh) * 2022-01-17 2022-04-15 小哆智能科技(北京)有限公司 一种模拟虚拟人物说话的方法及装置

Also Published As

Publication number Publication date
CN115050083A (zh) 2022-09-13
US11887403B1 (en) 2024-01-30
US20240054811A1 (en) 2024-02-15

Similar Documents

Publication Publication Date Title
WO2021190146A1 (zh) 图片处理方法、装置、存储介质及电子设备
CN107391646B (zh) 一种视频图像的语义信息提取方法及装置
US11847726B2 (en) Method for outputting blend shape value, storage medium, and electronic device
CN114419702B (zh) 数字人生成模型、模型的训练方法以及数字人生成方法
CN113077537A (zh) 一种视频生成方法、存储介质及设备
CN112070114A (zh) 基于高斯约束注意力机制网络的场景文字识别方法及***
CN116634242A (zh) 语音驱动的说话视频生成方法、***、设备和存储介质
CN113781324A (zh) 一种老照片修复方法
CN116597857A (zh) 一种语音驱动图像的方法、***、装置及存储介质
CN115471886A (zh) 一种数字人生成方法及***
CN115050083B (zh) 矫正口型模型、模型的训练及其应用方法
CN117152283A (zh) 一种利用扩散模型的语音驱动人脸图像生成方法及***
CN116977903A (zh) 一种通过文本智能生成短视频的aigc方法
CN116645456A (zh) 语音驱动数字人面部动画生成方法和装置
CN114155321B (zh) 一种基于自监督和混合密度网络的人脸动画生成方法
CN113590879B (zh) 一种缩短时间戳网络解决多事件视频问答***、方法、计算机及存储介质
Zhao et al. Audio-Infused Automatic Image Colorization by Exploiting Audio Scene Semantics
CN113986005B (zh) 基于集成学习的多模态融合视线估计框架
CN116402928B (zh) 一种虚拟谈话数字人生成方法
CN113722513B (zh) 多媒体数据的处理方法及设备
CN114693565B (zh) 一种基于跳跃连接多尺度融合的gan图像修复方法
US20240169701A1 (en) Affordance-based reposing of an object in a scene
CN116246648A (zh) 基于语义操作的语音驱动说话视频生成方法和设备
CN116668611A (zh) 一种虚拟数字人唇形同步方法及***
CN116112737A (zh) 一种视频数据处理的方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant