CN117409121A - 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、***、设备及介质 - Google Patents

基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、***、设备及介质 Download PDF

Info

Publication number
CN117409121A
CN117409121A CN202311344000.9A CN202311344000A CN117409121A CN 117409121 A CN117409121 A CN 117409121A CN 202311344000 A CN202311344000 A CN 202311344000A CN 117409121 A CN117409121 A CN 117409121A
Authority
CN
China
Prior art keywords
emotion
coefficient
face
audio
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311344000.9A
Other languages
English (en)
Inventor
苗启广
冯冠文
程昊然
麻志远
冯清扬
李宇楠
卢子祥
刘如意
谢琨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202311344000.9A priority Critical patent/CN117409121A/zh
Publication of CN117409121A publication Critical patent/CN117409121A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Molecular Biology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Child & Adolescent Psychology (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Processing Or Creating Images (AREA)

Abstract

基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、***、设备及介质,方法包括:向OpenFace模型中输入参考图像获取人脸面部特征信息,向音频编码器中输入音频片段,解耦其中的情感向量,获取纯粹的内容特征,将内容特征输入表达系数预测网络得到预测表达系数,人为指定情感类别标签和强度标签,将标签及内容特征输入情感系数预测网络和姿势系数预测网络获得预测情感系数和预测姿势系数,生成驱动潜在人脸关键点的运动向量,生成具有细粒度情感控制的说话人脸视频;***、设备及介质,用于实现基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法;克服了人脸与音频情感表达不同步,唇音同步性差,不能生成指定情感和细粒度情感强度的说话人脸视频的问题。

Description

基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生 成方法、***、设备及介质
技术领域
本发明属于说话人脸视频生成技术领域,特别涉及一种基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、***、设备及介质。
背景技术
音频驱动的人脸面部动画生成是一种利用音频输入生成与音频内容相对应的人脸面部动画的技术,它结合了音频处理、面部表情分析和动画合成等技术,期望实现更简洁和自然的情感面部的动画生成技术。在生成说话人面部动画的视频时,重点是对唇部区域进行建模,以实现生成的唇部运动动画与语音内容同步。音频驱动的面部动画生成有着各种应用场景,如虚拟数字人物生成、虚拟现实和电影特效制作。以前的研究更关注于提升唇部动作同步性和生成视频的质量,但对生成视频的情感表达探索有限。
目前已有长视频驱动和短视频驱动的情感视频生成方法,但这些方法在现实场景中并不实用,使用标签控制方法难以生成具有不同强度和不同情感中间状态的情感视频。大多数单幅图像驱动生成方法通常仅考虑唇音同步性,而不考虑情感因素。
基于利用音频输入来生成与音频内容相对应的面部动画或表情的技术虽然获得了较好的效果,但是一般来说,现有技术通常依赖情感标签进行动画生成而缺乏对面部情感表达的细粒度控制,并且存在唇音同步性问题和嘴唇动画控制的精度问题。具体存在如下局限性:
1)生成的人脸的情感表达不同步,情感标签和情感视频之间存在域差异,导致视觉和听觉信息表达不同步,使得生成的人脸情感与音频中的情感表达不同步。
2)生成的人脸唇音同步性低,口型不准确,和音轨吻合性较差,唇部动作很难与音频变化同步一致,合成痕迹明显,缺乏真实性。
3)生成的视频质量低,由于现存方法通常无法捕捉到面部表情变化引起的面部纹理变化,导致面部细节的纹理变化缺失,导致生成的细节与人物真实外貌特征之间存在差异,生成的不同图像不能更好的展示不同情感表达的差异性。
4)目前方法不能够生成任意人的细粒度情感面部动画。
公开号为CN116233567的专利申请文件,提供了一种基于音频情感感知的说话人脸视频生成方法及***,通过根据有情感的人脸标记序列和参考图像,并融合标记嵌入表示和参考图像的嵌入表示,生成情感人脸视频,但无法生成细粒度的情感人脸视频,即不能指定情感的强度,对面部的情感表达实现精准的控制,而且生成的视频中唇音同步性较差,缺少真实性。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提出了一种基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、***、设备及介质,通过将单幅图像、音频和情感标签作为输入,生成具有指定细粒度情感的说话人脸视频,克服了生成的说话人脸视频中人脸与音频情感表达不同步,唇音同步性差,生成的视频质量低,以及不能生成指定情感和细粒度情感强度的说话人脸视频的问题。
为了实现上述目的,本发明所采用的技术方案是:
基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法,包括:
步骤1:向OpenFace模型中输入人脸参考图像,对人脸参考图像进行处理,包括人脸检测和关键点定位,以获取人脸面部特征信息;
步骤2:向音频编码器中输入音频片段,对输入的音频片段进行处理,提取人脸面部动作单元特征并与训练视频提取的真实人脸面部动作单元特征构建对比损失,解耦音频片段中的情感向量,获取纯粹的内容特征;
步骤3:将步骤2提取到的内容特征输入表达系数预测网络,得到控制嘴唇运动的预测表达系数,人为指定情感类别标签和情感强度标签,将情感类别标签和情感强度标签及步骤2获得的内容特征输入情感系数预测网络和姿势系数预测网络来分别获得预测情感系数和预测姿势系数;
步骤4:根据步骤3中得到的预测表达系数、预测情感系数和预测姿势系数,生成驱动潜在人脸关键点的运动向量,通过驱动潜在的关键点,生成具有细粒度情感控制的说话人脸视频。
所述步骤1中,人脸面部特征信息包括从参考图像中提取68个人脸面部关键点和3D人脸重建参考系数,所述3D人脸重建参考系数,包括身份系数、纹理系数、表达系数、角度系数和旋转系数:
其中,Ui表示不同的特征向量,Wi表示相应的权重,Uid∈R64和Utex∈R80分别对应于不同面部模型的身份系数和纹理系数;Uexp∈R64对应不同面部模型的表达系数;
为了控制面部的运动,还使用Uangle∈R3和Utrans∈R3来表示面部的姿势系数;其中,Uangle代表角度系数,用于控制面部的方向和旋转;Utrans代表旋转系数,用于控制面部的位置和运动。
所述步骤2具体过程为:
步骤2.1:将音频片段输入三个连续的不同层级音频编码器中,分别获得低级和高级音频编码,利用共享的面部动作单元解码器来提取面部驱动单元的相关特征;
步骤2.2:从训练视频中提取的面部动作单元(AU)特征,与步骤2.1得到的面部驱动单元的相关特征构建对比损失,使用低层级面部动作单元特征生成正样本对,使用高层级面部动作单元特征生成负样本对,利用提取的面部动作单元特征用于构建对比损失,解耦音频片段中的情感向量,获取纯粹的内容特征:
其中,使用fau表示面部动作单元(AU)特征,at表示时间t处的音频帧的Mel频率倒谱系数(MFCC)特征,是第l层的音频编码器,Dau是AU解码器,/>是对比损失函数,L={low,mid,high}。
所述步骤3的具体过程为:
步骤3.1:利用表达系数预测网络得到控制嘴唇运动的预测表达系数:
其中,是表情系数损失,DExpNet是表达系数预测网络,Ea是音频编码器,at表示时间t处的音频片段,/>表示实际的表情值;
步骤3.2:在情感系数预测网络第一层连接情感类别标签,在每一层连接情感强度标签,调整输入音频的滑动窗口大小,以获得与唇音同步的细粒度情感向量,将细粒度情感向量与内容特征相结合,利用情感系数预测网络得到预测情感系数,即预测身份系数和预测纹理系数:
其中,是情感系数损失,DEmoNet是情感系数预测网络,e表示情感类别标签,p表示强度标签,/>表示实际的Id和Tex值;
步骤3.3:训练情感系数预测网络,输入步骤3.2得到的情感系数,输出情感类别:
其中,是情感系数分类损失,Ce是情感系数分类网络;
步骤3.4:在姿势系数预测网络第一层连接情感类别标签,在每一层连接情感强度标签;调整输入音频的滑动窗口大小,以获得与唇音同步的细粒度情感向量,将细粒度情感向量与内容特征相结合,利用姿势系数预测网络得到预测姿势系数,即预测角度系数和预测旋转系数:
其中,是姿势系数损失,DPoseNet是姿势网络,e表示情感类别标签,p表示强度标签,/>表示实际的角度和平移值;
所述预测表达系数、预测情感系数和预测姿势系数组成3D人脸重建预测系数。
所述步骤4的具体过程为:
步骤4.1:训练图像动画渲染器,通过对单个图像内部的人脸面部关键点进行隐式建模,建立潜在关键点与真实人脸图像中像素点运动之间的关系;
步骤4.2:训练Face-vid2vid模型,并在已经预训练好的Face-vid2vid模型的基础上,利用获取到的3D人脸重建参考系数,进行了参数微调;
步骤4.3:使用Face-vid2vid框架内的映射网络将生成的3D人脸重建预测系数映射到潜在关键点的动作参数上,利用步骤4.1训练的图像动画渲染器,使用动作参数驱动参考图像中潜在关键点的面部动作,渲染生成说话人脸视频。
所述低级音频编码捕捉与情感和内容密切相关的信息,高级音频编码包含语音内容信息。
所述表达系数预测网络由三层线性层组成,输入维度大小分别为512维度、256维度和128维度;
所述情感系数预测网络由三层线性层组成,输入维度大小分别为512维度、256维度和128维度;
所述姿势系数预测网络有两层线性层,大小为512维度和128维。
基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成***,包括:
参考系数提取模块:输入人脸参考图像,对人脸参考图像进行处理,包括人脸检测和关键点定位,以获取面部特征信息;
情感解耦模块:输入音频片段,对输入的音频片段进行处理,提取人脸面部动作单元特征并与训练视频提取的真实人脸面部动作单元特征构建对比损失,解耦音频片段中的情感向量,获取纯粹的内容特征;
情感预测模块:将情感解耦模块提取到的内容特征输入表达系数预测网络,得到控制嘴唇运动的预测表达系数,人为指定情感类别标签和情感强度标签,将情感类别标签和情感强度标签及情感解耦模块获得的内容特征输入情感系数预测网络和姿势系数预测网络来分别获得预测情感系数和预测姿势系数;
视频渲染模块:根据情感预测模块中得到的预测表达系数、预测情感系数和预测姿势系数,生成驱动潜在人脸关键点的运动向量,通过驱动潜在的关键点,生成具有细粒度情感控制的说话人脸视频。
基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成设备,包括:
存储器:用于存储所述基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法的计算机程序;
处理器:用于执行所述计算机程序时实现基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时能够实现基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法。
相对于现有技术,本发明的有益效果在于:
第一,本发明通过比较学习机制,利用面部动作单元(AU)和情感表达之间的相关性,对内容向量和情感向量进行解耦训练,可以提高说话人脸部唇音同步性。
第二,本发明通过表达预测网络预测精准的内容向量,能够以更准确的方式生成人脸唇部运动的系数。
第三,本发明通过控制细粒度情感强度矩阵以更精确和准确的方式预测情感向量,具有实现细粒度情感表示的特点。
第四,本发明通过控制人脸图像中的潜在关键点运动,具有能够合成高度逼真的说话人脸视频的特点。
综上,通过将单幅图像、音频和情感标签作为输入,生成具有指定细粒度情感的说话人脸视频,克服了说话人脸视频中人脸与音频情感表达不同步,唇音同步性差,生成的视频质量低,不能生成指定情感和细粒度情感强度的说话人脸视频的问题。
附图说明
图1是本发明的方法流程图。
图2是本发明自回归细粒度情感强度控制推理方法的结构示意图。
图3是本发明细粒度情感强度矩阵控制的结构示意图。
图4是本发明细粒度情感强度矩阵控制在参考图像实施的例图。
图5是本发明实施例的可视化对比结果示意图。
图6是本发明与现有方法生成图像的效果对比图。
具体实施方式
下面结合附图对本发明做进一步详细描述。
如图1所示,一种基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法,包括以下步骤:
步骤1,向OpenFace模型中输入人脸参考图像,对人脸参考图像进行处理,提取68个人脸面部关键点和3D人脸重建参考系数;
其中,Ui表示不同的特征向量,Wi表示相应的权重,Uid∈R64和Utex∈R80分别对应于不同面部模型的身份系数和纹理系数;Uexp∈R64对应不同面部模型的表达系数;这些特征有助于捕捉每个个体面部的独特特征;
此外,为了控制面部的运动,还使用Uangle∈R3和Utrans∈R3来表示面部的姿态系数。其中,Uangle代表角度系数,用于控制面部的方向和旋转,Utrans代表旋转系数,用于控制面部的位置和运动。
通过调整分配给这些不同特征向量的权重,有效地控制生成的面部模型的身份、纹理、表情、姿态和整体运动,能够实现精细的控制和定制生成的面部表情和运动。
步骤2,将音频片段输入三个连续的不同层级的音频编码器中,分别获得低级,中级和高级音频编码,利用共享的面部动作单元解码器对低级和高级音频编码解码获得人脸面部驱动单元表征,与训练视频提取的真实人脸面部动作单元特征构建正负样本对进行对比学习,分离去除情感向量:
在训练过程中,使用fau表示面部动作单元(AU)特征,at表示时间t处的音频帧的Mel频率倒谱系数(MFCC)特征,是第l层的音频编码器,Dau是AU解码器,/>是对比损失函数,L={low,mid,high}。
所述AU编码器,由多个卷积层堆叠组成,对输入音频进行卷积操作,输入图像大小为512维,并使用Adam优化器进行训练。
同时输入10帧图像及其对应的音频,面部动作单元(AU)由多个卷积层堆叠,对音频进行卷积,面部动作的输入图像大小设置为512×512,初始学习率为1×10-5,使用ADAM优化器,将β1和β2参数分别设置为0.9和0.999,权重衰减设置为0.001。
步骤3,人为指定控制标签,控制标签中的情感强度标签在情感系数预测网络的每一层中都会和内容向量连接一次,情感类别标签只在情感系数预测网络的第一层连接一次,调整输入音频的滑动窗口大小,以获唇音同步的细粒度情感向量,并与内容向量相结合;
通过表达系数预测网络,情感系数预测网络和姿势系数预测网络来预测表情、情感和姿势系数,得到3D人脸重建预测系数;
其中,是表情系数损失,DExpNet是表达系数预测网络,Ea是音频编码器。at表示时间t处的音频片段,/>表示实际的表情值。
将表达系数预测网络设置为三层线性层,大小分别为512维度、256维、128维,训练过程在500个epoch后停止。
通过引入情感向量和情感强度矩阵,可以更好地捕捉和表达特定情感的视频内容:
其中,是情感系数损失,DEmoNet是情感系数预测网络,e表示情感类别标签,p表示强度标签。/>表示实际的Id和Tex值。
情感系数预测网络为三层线性层,输入维度大小分别为512、256、128,姿势系数预测网络为两层线性层,输入维度大小为512、128,其中在第一层我们会连接情感类别标签,并且在每一层都会连接情感强度标签。
其中,是情感系数分类损失,Ce是情感系数分类网络。
使用大小为5的滑动窗口来训练身份系数和纹理系数生成,使用大小为20的滑动窗口来训练姿势系数,在推理过程中指定不同大小的音频滑动窗口,重复地在相同的音频长度内加入情感标签信息,从而产生叠加效果。此外,由于滑动窗口大小的变异性,情感强度标签对音频编码的影响也会有所不同,最终导致生成具有细粒度情感强度的视频。
其中,是姿势系数损失,DPoseNet是姿势网络,e表示情感类别标签,p表示强度标签,/>表示实际的角度和平移值。
为了生成与情感更加一致的动作,设计了一个姿势预测网络,根据输入的内容向量和指定的情感信息来预测相应的角度和平移动作系数。
通过使用姿势预测网络,本发明的模型可以根据输入的内容向量和情感信息,预测并生成与情感一致的角度和平移动作系数,可以生成与特定情感相关的动作,以增强视频中所传达的情感效果。
步骤4,利用步骤3中得到的3D人脸重建预测系数生成潜在人脸关键点的运动向量,驱动的潜在关键点,生成具有细粒度情感控制的说话人脸视频。
训练一个Face-vid2vid模型,并在已经预训练好的Face-vid2vid模型的基础上,进行了参数微调,利用获取到的3D人脸重建参考系数,每个系数控制特定的信息,输入到Face-vid2vid框架内的映射网络中,以得到驱动图像中必要的潜在关键点的位置;
训练一个图像动画渲染器,通过在单幅图像中对面部关键点进行隐式建模,有效地建立了潜在关键点和真实面部图像中像素点运动之间的关系,并使用映射网络将生成的3D人脸重建预测系数映射到潜在关键点的动作参数上,使用动作参数驱动参考图像中潜在关键点的面部动作,渲染生成说话人脸视频。
基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成***,包括:
参考系数提取模块:输入人脸参考图像,对人脸参考图像进行处理,包括人脸检测和关键点定位,以获取面部特征信息;
情感解耦模块:输入音频片段,对输入的音频片段进行处理,提取人脸面部动作单元特征并与训练视频提取的真实人脸面部动作单元特征构建对比损失,解耦音频片段中的情感向量,获取纯粹的内容特征;
情感预测模块:将情感解耦模块提取到的内容特征输入表达系数预测网络,得到控制嘴唇运动的预测表达系数,人为指定情感类别标签和情感强度标签,将情感类别标签和情感强度标签及情感解耦模块获得的内容特征输入情感系数预测网络和姿势系数预测网络来分别获得预测情感系数和预测姿势系数;
视频渲染模块:根据情感预测模块中得到的预测表达系数、预测情感系数和预测姿势系数,生成驱动潜在人脸关键点的运动向量,通过驱动潜在的关键点,生成具有细粒度情感控制的说话人脸视频。
基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成设备,包括:
存储器:用于存储所述基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法的计算机程序;
处理器:用于执行所述计算机程序时实现基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时能够实现基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法。
为了评价本发明所提供的上述方法的优点和积极效果,本发明使用了如下几个评价指标:
弗雷彻特初始距离(Frechet Inception Distance,FID),结构相似性指数(Structural Similarity,SSIM),峰值信噪比(Peak Signal to Noise Ratio,PSNR)和累积概率模糊检测(Cumulative Probability Blur Detection,CPBD)来评估视频质量,使用Syncnet置信度来检测唇音同步置信度(AVConf),唇偏移(AVOffset)和最小偏移(MinDist)来评估唇音同步。
其中,弗雷彻特初始距离越小说明方法效果越好;结构相似性指数的值越高说明方法效果越好;峰值信噪比的值越高说明方法的效果越好:SyncNet置信度的值越高说明方法的效果越好,唇偏移量的值越接近0说明方法的效果越好;最小偏移量越小说明唇音同步性越好,说明方法的效果越好。
在实验中,本发明在开源框架PyTorch平台上进行,输入音频以16,000Hz的采样率进行采样,并提取MFCC特征,输入图像分辨率设置为512×512像素,输入图像通过OpenFace和DeepFace3D Reconstruction等技术进行处理,以获得面部动作单元和3D人脸重建系数,情感解耦模块和情感预测模块进行联合训练,而面部渲染模块则独立训练,总训练时间约为30小时。
如图2所示,在推断过程中,使用不同尺寸的音频滑动窗口,人为指定情感类别和强度标签,通过EmoNet获取表情系数,最后一帧的预测系数作为连续窗口的参考系数。
如图3所示,本发明在细粒度情感强度矩阵的控制下能够生成不同类别、不同强度的情感视频,采用开源的预训练情感分类网络对生成视频进行了情感预测,方格中是不同输入条件下生成的视频,对应情感类别的概率。
如图4所示,为本发明的生成效果,可以从一张单独的图片、驱动音频以及指定情感类别标签和细致情感强度来生成不同情感、不同情感强度的说话人脸视频。
如图5所示,将本发明的方法与现有的说话人脸视频生成方法EAMM、EVP、MEAD以及唇部生成方法Wav2lip等进行了比较,从图5中可以明显看出,本发明的方法在唇音同步性、姿态重建和视频质量等各个方面表现出了卓越性能。
如图6所示,在生成的结果中可视化了不同方法之间的差异:
可以观察到,本发明的方法在视觉质量上与目标参考视频非常相似,并且能够为不同的情感类别和强度生成相应的头部动画,本发明的方法和Wav2lip相比,可以实现准确控制唇部运动,EAMM生成的人脸动画与参考图像明显不同,面部动画看起来不自然,EVP和MEAD在唇部运动控制方面缺乏准确性,无法生成细致的情感表达。
下表1在MEAD数据集上7个指标,除Min Dist和AVConf外其余指标均为最优,在CREMA-D数据集上7个指标均为最优。相比之下,本发明在保持视频质量的同时,确保了高度的唇音同步和更丰富的情感表达。
表1本发明实施例的效果与现有方法的对比。

Claims (10)

1.基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法,其特征在于,包括:
步骤1:向OpenFace模型中输入人脸参考图像,对人脸参考图像进行处理,包括人脸检测和关键点定位,以获取人脸面部特征信息;
步骤2:向音频编码器中输入音频片段,对输入的音频片段进行处理,提取人脸面部动作单元特征并与训练视频提取的真实人脸面部动作单元特征构建对比损失,解耦音频片段中的情感向量,获取纯粹的内容特征;
步骤3:将步骤2提取到的内容特征输入表达系数预测网络,得到控制嘴唇运动的预测表达系数,人为指定情感类别标签和情感强度标签,将情感类别标签和情感强度标签及步骤2获得的内容特征输入情感系数预测网络和姿势系数预测网络来分别获得预测情感系数和预测姿势系数;
步骤4:根据步骤3中得到的预测表达系数、预测情感系数和预测姿势系数,生成驱动潜在人脸关键点的运动向量,通过驱动潜在的关键点,生成具有细粒度情感控制的说话人脸视频。
2.根据权利要求1所述的基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法,其特征在于,所述步骤1中,人脸面部特征信息包括从参考图像中提取68个人脸面部关键点和3D人脸重建参考系数,所述3D人脸重建参考系数,包括身份系数、纹理系数、表达系数、角度系数和旋转系数:
其中,Ui表示不同的特征向量,Wi表示相应的权重,Uid∈R64和Utex∈R80分别对应于不同面部模型的身份系数和纹理系数;Uexp∈R64对应不同面部模型的表达系数;
为了控制面部的运动,还使用Uangle∈R3和Utrans∈R3来表示面部的姿势系数;其中,Uangle代表角度系数,用于控制面部的方向和旋转;Utrans代表旋转系数,用于控制面部的位置和运动。
3.根据权利要求1所述的基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法,其特征在于,所述步骤2具体过程为:
步骤2.1:将音频片段输入三个连续的不同层级音频编码器中,分别获得低级和高级音频编码,利用共享的面部动作单元解码器来提取面部驱动单元的相关特征;
步骤2.2:从训练视频中提取的面部动作单元(AU)特征,与步骤2.1得到的面部驱动单元的相关特征构建对比损失,使用低层级面部动作单元特征生成正样本对,使用高层级面部动作单元特征生成负样本对,利用提取的面部动作单元特征用于构建对比损失,解耦音频片段中的情感向量,获取纯粹的内容特征:
其中,使用fau表示面部动作单元(AU)特征,at表示时间t处的音频帧的Mel频率倒谱系数(MFCC)特征,是第l层的音频编码器,Dau是AU解码器,/>是对比损失函数,L={low,mid,high}。
4.根据权利要求1所述的基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法,其特征在于,所述步骤3的具体过程为:
步骤3.1:利用表达系数预测网络得到控制嘴唇运动的预测表达系数:
其中,是表情系数损失,DExpNet是表达系数预测网络,Ea是音频编码器,at表示时间t处的音频片段,/>表示实际的表情值;
步骤3.2:在情感系数预测网络第一层连接情感类别标签,在每一层连接情感强度标签,调整输入音频的滑动窗口大小,以获得与唇音同步的细粒度情感向量,将细粒度情感向量与内容特征相结合,利用情感系数预测网络得到预测情感系数,即预测身份系数和预测纹理系数:
其中,是情感系数损失,DEmoNet是情感系数预测网络,e表示情感类别标签,p表示强度标签,/>表示实际的Id和Tex值;
步骤3.3:训练情感系数预测网络,输入步骤3.2得到的情感系数,输出情感类别:
其中,是情感系数分类损失,Ce是情感系数分类网络;
步骤3.4:在姿势系数预测网络第一层连接情感类别标签,在每一层连接情感强度标签;调整输入音频的滑动窗口大小,以获得与唇音同步的细粒度情感向量,将细粒度情感向量与内容特征相结合,利用姿势系数预测网络得到预测姿势系数,即预测角度系数和预测旋转系数:
其中,是姿势系数损失,DPoseNet是姿势网络,e表示情感类别标签,p表示强度标签,表示实际的角度和平移值;
所述预测表达系数、预测情感系数和预测姿势系数组成3D人脸重建预测系数。
5.根据权利要求1所述的基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法,其特征在于,所述步骤4的具体过程为:
步骤4.1:训练图像动画渲染器,通过对单个图像内部的人脸面部关键点进行隐式建模,建立潜在关键点与真实人脸图像中像素点运动之间的关系;
步骤4.2:训练Face-vid2vid模型,并在已经预训练好的Face-vid2vid模型的基础上,利用获取到的3D人脸重建参考系数,进行了参数微调;
步骤4.3:使用Face-vid2vid框架内的映射网络将生成的3D人脸重建预测系数映射到潜在关键点的动作参数上,利用步骤4.1训练的图像动画渲染器,使用动作参数驱动参考图像中潜在关键点的面部动作,渲染生成说话人脸视频。
6.根据权利要求3所述的基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法,其特征在于,所述低级音频编码捕捉与情感和内容密切相关的信息,高级音频编码包含语音内容信息。
7.根据权利要求4所述的基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法,其特征在于,所述表达系数预测网络由三层线性层组成,输入维度大小分别为512维度、256维度和128维度;
所述情感系数预测网络由三层线性层组成,输入维度大小分别为512维度、256维度和128维度;
所述姿势系数预测网络有两层线性层,大小为512维度和128维。
8.基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成***,其特征在于,包括:
参考系数提取模块:输入人脸参考图像,对人脸参考图像进行处理,包括人脸检测和关键点定位,以获取面部特征信息;
情感解耦模块:输入音频片段,对输入的音频片段进行处理,提取人脸面部动作单元特征并与训练视频提取的真实人脸面部动作单元特征构建对比损失,解耦音频片段中的情感向量,获取纯粹的内容特征;
情感预测模块:将情感解耦模块提取到的内容特征输入表达系数预测网络,得到控制嘴唇运动的预测表达系数,人为指定情感类别标签和情感强度标签,将情感类别标签和情感强度标签及情感解耦模块获得的内容特征输入情感系数预测网络和姿势系数预测网络来分别获得预测情感系数和预测姿势系数;
视频渲染模块:根据情感预测模块中得到的预测表达系数、预测情感系数和预测姿势系数,生成驱动潜在人脸关键点的运动向量,通过驱动潜在的关键点,生成具有细粒度情感控制的说话人脸视频。
9.基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成设备,其特征在于,包括:
存储器:用于存储所述基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法的计算机程序;
处理器:用于执行所述计算机程序时实现基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时能够实现基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法。
CN202311344000.9A 2023-10-17 2023-10-17 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、***、设备及介质 Pending CN117409121A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311344000.9A CN117409121A (zh) 2023-10-17 2023-10-17 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、***、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311344000.9A CN117409121A (zh) 2023-10-17 2023-10-17 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、***、设备及介质

Publications (1)

Publication Number Publication Date
CN117409121A true CN117409121A (zh) 2024-01-16

Family

ID=89488316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311344000.9A Pending CN117409121A (zh) 2023-10-17 2023-10-17 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、***、设备及介质

Country Status (1)

Country Link
CN (1) CN117409121A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117880444A (zh) * 2024-03-12 2024-04-12 之江实验室 一种长短时特征引导的人体康复运动视频数据生成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117880444A (zh) * 2024-03-12 2024-04-12 之江实验室 一种长短时特征引导的人体康复运动视频数据生成方法
CN117880444B (zh) * 2024-03-12 2024-05-24 之江实验室 一种长短时特征引导的人体康复运动视频数据生成方法

Similar Documents

Publication Publication Date Title
CN113192161B (zh) 一种虚拟人形象视频生成方法、***、装置及存储介质
CN113194348B (zh) 一种虚拟人讲课视频生成方法、***、装置及存储介质
Zhang et al. Facial: Synthesizing dynamic talking face with implicit attribute learning
CN109308731B (zh) 级联卷积lstm的语音驱动唇形同步人脸视频合成算法
CN112562720B (zh) 一种唇形同步的视频生成方法、装置、设备及存储介质
Ginosar et al. Learning individual styles of conversational gesture
CN116250036A (zh) 用于合成语音的照片级真实感视频的***和方法
Zhou et al. An image-based visual speech animation system
EP4010899A1 (en) Audio-driven speech animation using recurrent neutral network
CN116233567B (zh) 一种基于音频情感感知的说话人脸视频生成方法及***
Filntisis et al. Visual speech-aware perceptual 3d facial expression reconstruction from videos
CN117409121A (zh) 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、***、设备及介质
CN117237521A (zh) 语音驱动人脸生成模型构建方法、目标人说话视频生成方法
CN115376482A (zh) 面部动作视频生成方法及装置、可读介质和电子设备
CN114581812B (zh) 视觉语言识别方法、装置、电子设备及存储介质
CN116597857A (zh) 一种语音驱动图像的方法、***、装置及存储介质
Kumar et al. Robust one shot audio to video generation
CN116828129B (zh) 一种超清2d数字人生成方法及***
Song et al. Emotional listener portrait: Realistic listener motion simulation in conversation
Wang et al. Ca-wav2lip: Coordinate attention-based speech to lip synthesis in the wild
Wang et al. Talking faces: Audio-to-video face generation
CN116705038A (zh) 基于语音分析的3d虚拟演讲者驱动方法及相关装置
CN117115310A (zh) 一种基于音频和图像的数字人脸生成方法及***
Jha et al. Cross-language speech dependent lip-synchronization
CN113450824B (zh) 一种基于多尺度视频特征融合的语音唇读方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination