CN114155321B - 一种基于自监督和混合密度网络的人脸动画生成方法 - Google Patents
一种基于自监督和混合密度网络的人脸动画生成方法 Download PDFInfo
- Publication number
- CN114155321B CN114155321B CN202111424899.6A CN202111424899A CN114155321B CN 114155321 B CN114155321 B CN 114155321B CN 202111424899 A CN202111424899 A CN 202111424899A CN 114155321 B CN114155321 B CN 114155321B
- Authority
- CN
- China
- Prior art keywords
- voice
- image
- face
- network
- inputting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 239000013598 vector Substances 0.000 claims abstract description 28
- 238000000605 extraction Methods 0.000 claims abstract description 24
- 230000009471 action Effects 0.000 claims abstract description 21
- 230000001815 facial effect Effects 0.000 claims abstract description 20
- 238000006243 chemical reaction Methods 0.000 claims abstract description 7
- 239000012141 concentrate Substances 0.000 claims abstract description 4
- 239000012634 fragment Substances 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 description 9
- 230000033001 locomotion Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 210000000056 organ Anatomy 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004886 head movement Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000006993 memory improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明涉及一种基于自监督和混合密度网络的人脸动画生成方法,从语音fbank特征中分离语音内容特征向量和身份特征向量,为提取高质量语音特征,引入记忆模块,在记忆模块中保存多个不同假设,将语音映射到唇部动作和头部动作时产生的不确定性分配给记忆模块,从而使特征提取器专注于特征提取。为了解决语音映射到头部动作时产生的不确定性问题,将混合密度网络引入到人脸关键点回归任务中,提出基于混合密度网络的人脸关键点回归网络。最后将人脸关键点和参考人脸图像输入到图片到图片转换网络中得到最终的人脸图像。
Description
技术领域
本发明属于图像特征提取技术领域,涉及一种基于自监督和混合密度网络的人脸动画生成方法。
背景技术
一般而言,人脸动画生成旨在通过一段源语音序列驱动一张参考人脸图像,进而生成与源语音序列对应的说话人人脸动画。人脸动画生成,在电影制作、数字游戏、视频会议,虚拟主播等行业有广阔的发展前景,对于提高听力障碍人士对于语言的理解具有不可或缺的意义。
声觉和视觉是信息交流的重要媒介。人们之间相互交流时,面部器官运动传递了重要信息,唇部动作传递了语音内容信息,面部表情反应了说话者的喜怒哀乐,甚至是头部动作也可以提高人们对语言的理解度。语音中不仅包含内容信息还包含身份信息,不同人说话音色音调是不同的,我们有时可以通过声音来判断不同的人。人脸图像中也包含着身份特征,因此声音特征和人脸图像特征中包含着重叠信息同时也存在互补信息。因此,声觉和视觉两种模态相结合为人机交互提供了重要方式。
在生成的人脸动画中,唇部动作和语音内容同步是至关重要的,语音内容和唇部动作不同步会使人感到不适甚至会怀疑自己所听到的内容。因此,在人脸动画生成任务中生成和语音内容同步的人脸动画是首先要考虑的一个问题。然而,仅仅生成与语音同步的唇部动作是远远不够的,只有唇动而脸部其他器官如头部动作静止的人脸动画,其效果会让人看起来十分僵硬,脸部器官运动有助于提高人们对生成效果的真实性感知。因此,人脸动画中包含自然的头部动作是十分重要的。
人脸动画生成一般分为语音驱动和文本驱动两种。语音驱动的人脸动画是指给予原始语音输入,从原始语音中提取梅尔频率倒谱系数(Mel Frequency CepstralCoefficient,MFCC)或者滤波器组参数(Filter Bank,Fbank),利用神经网络或机器学***滑连续的嘴型。文本驱动和语音驱动的方法在本质上是相同的,利用语音识别(speech recognition)方法可以把语音转化为文本,利用语音合成(Text-to-Speech,TTS)方法可以把文本转化为语音。
人脸动画生成,在多个行业都具有广泛应用前景。对于带宽受限的网络会议,我们可以只传输语音和一张人脸图像,在接收端进行人脸动画合成。对于听力受限人士,通过语音合成出人脸动画,通过唇部动作提高对语言的理解能力。对于电影配音、游戏动画等行业也有极大的帮助,可以有效改善用户体验。人脸动画生成作为一个多学科交叉的研究领域,该技术的发展将为我们的生活提供极大的便利推动社会的发展。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于自监督和混合密度网络的人脸动画生成方法。
本发明解决其技术问题是通过以下技术方案实现的:
一种基于自监督和混合密度网络的人脸动画生成方法,其特征在于:所述方法的步骤为:
1)输入一组人脸图像和一段语音片段,进行自监督对比学习,训练语音特征提取模块;
2)将自监督对比学习中学到的语音特征提取模块应用到人脸关键点回归下游任务中,在下游任务中并对其微调;
3)将人脸关键点回归网络输出的目标人脸关键点和参考人脸图像输入到图像到图像转换网络得到最终目标人脸图像。
而且,所述步骤1)的具体操作为:
1)给定了一组输入人脸图像和一段语音片段,将输入人脸图像和语音片段分别输入到图片特征提取器和语音特征提取器分别进行特征提取;
(2)输入人脸图像首先使用2D-CNN提取图像特征,然后使用3D-CNN提取相邻图像帧之间的时序信息,最后通过图像内容编码器提取图像内容特征,图像身份编码器提取图像身份特征;
(3)输入语音片段首先使用卷积神经网络对语音特征进行初步提取获得高层次特征表示,然后使用双向GRU进一步学习语音时序信息;
(4)把经过GRU提取到的语音特征输入到记忆模块,使用记忆模块保存多个不同假设,将语音映射到唇部动作以及头部动作的不确定性分担给记忆模块,使语音特征提取模块专注于语音特征提取。
(5)将提取的语音内容特征和人脸图像内容特征做对比损失,将提取到的语音身份特征和人脸图像身份特征做对比损失。
而且,所述步骤2)的具体操作为:
1)将语音片段输入到语音特征提取器得到语音内容特征向量和语音内容特征向量;
2)将参考人脸关键点输入到多层感知机得到人脸关键点特征向量,把语音内容特征向量和语音内容特征向量以及人脸关键点特征向量输入到混合密度网络得到目标人脸关键点。
本发明的优点和有益效果为:
1、本发明的基于自监督和混合密度网络的人脸动画生成方法,使用语音片段和参考人脸图像关键点生成目标人脸关键点作为人脸动画生成的中间表示,然后从目标人脸关键点和参考人脸图像生成最终的目标人脸图像。使用人脸关键点作为语音和人脸图像的中间表示有几个优势;首先,生成人脸关键点可以回避掉低级别像素外观特征更容易捕获头部动作;同时,相比于数百万像素点,使用68个人脸关键点,这可以使模型更加紧凑参数量更加少,从而可以使用小数据集训练本文模型;其次,关键点易于驱动不同类型动画内容,包含人脸图像和卡通动画。相比之下,基于像素的人脸动画生成方法仅限于人脸,不能轻易推广到卡通动画生成中。
2、本发明的基于自监督和混合密度网络的人脸动画生成方法,利用自监督不需要数据标签特性,在大量无标签数据上充分训练特征提取网络,将语音特征分离为内容相关特征向量和身份相关特征向量,使语音内容特征向量专注于唇部动作,语音身份特征向量专注于头部动作。
3、本发明的基于自监督和混合密度网络的人脸动画生成方法,在自监督对比学习中引入记忆模块保存多个不同假设,将语音映射到唇部动作和头部动作时产生的不确定性分配给记忆模块,从而使特征提取器专注于特征提取。
4、本发明的基于自监督和混合密度网络的人脸动画生成方法,使用混合密度网络为说话者生成多个不同假设进一步提高生成头部动作的自然度。
附图说明
图1本发明的自监督对比学习网路结构的示意图;
图2本发明基于混合密度网络人脸动画回归结构示意图;
图3本发明图像到图像转换网络结构示意图;
图4本发明实验结果示意图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明涉及一种基于自监督和混合密度网络的人脸动画生成网络结构,以一种基于记忆增强自监督对比学习的语音特征提取网络以获得高质量语音特征。利用自监督不需要数据标签特性,在大量无标签数据上充分训练特征提取网络,将语音特征分离为内容相关特征向量和身份相关特征向量。并引入记忆模块保存多个不同假设,将语音映射到唇部动作和头部动作时产生的不确定性分配给记忆模块,从而使特征提取器专注于特征提取;使用混合密度网络为说话者生成多个不同假设进一步提高生成头部动作的自然度。相比于大多数现存工作通过最小化单高斯负对数似然来生成单个人脸关键点,论文通过最小化混合高斯负对数似然来估计多个2D人脸关键点假设。
如图1所示,提出了一种基于记忆增强自监督对比学习特征提取模型,主要包括三个模块:
(1)基于AudioEncoder和双向GRU的语音特征提取模块,首先使用卷积神经网络对语音特征进行初步提取获得高层次特征表示,然后使用双向GRU进一步学习语音时序信息,表示为ht;
(2)基于Resnet-18的图像特征提取模块,首先使用2D-CNN提取图片特征,然后使用3D-CNN提取相邻图像帧之间的时序信息,最后通过图像内容编码器Uc(·)提取图像内容特征,表示为图像身份编码器Us(·)提取图像身份特征,表示为/>
(3)记忆模块。语音和唇部动作以及头部动作之间不是一对一的映射关系,相同一段语音片段对应多个不同唇部动作和头部动作。使用记忆模块保存多个不同假设,将映射之间的不确定性分担给记忆模块,使特征提取模块专注于特征提取。
语音内容特征向量可表示为:
语音身份特征向量可表示为:
其中p(i,t)是第i个记忆槽对时间步t的特征所做的贡献,M为记忆模块,权重分配函数把上下文表示ht映射到p(i,t),ht为t时刻GRU提取的语音特征。/>是一个可学习的多层感知机并在维度k上应用softmax操作。
(4)对比损失函数。对于任意一段音频片段,和此音频片段对应的图像序列为正样本,其余的图像序列均为负样本。对比损失函数使用余弦相似度计算任意两个特征表示之间的相似度,由于cos距离和softmax损失函数的组合使得输出结果的取值范围为[-1,1],这导致了较小的交叉熵,使得cos距离和softmax的组合不能高效学习。为此,本文使用可学习的参数w和b一起参与到网络的训练中来。
内容对比损失函数可表示为:
身份对比损失函数可表示为:
对于基于混合密度网络的人脸关键点回归网络,如图3所示,具体步骤如下:
输入第i帧目标人脸关键点pi所对应的的前两帧和后两帧以及当前帧语音片段Ai(包含5帧音频)和参考人脸关键点pr,目标是学习一个函数F:{pi,Ai}→Θ,其把输入{pi,Ai}映射为混合密度网络输出参数Θ={μ,σ,α}。μ,σ,α分别是混合密度网络的均值、方差和混合系数。M是高斯核数量。每一个高斯核的均值代表一个对齐后2D人脸关键点、旋转、偏移集合,高斯核数量M决定模型生成的假设数量。
输入第i帧语音内容特征向量和语音身份特征向量/>以及参考人脸关键点特征向量pr,目标值的概率密度可以表示为高斯核函数的线性组合如下所示:
其中,M是高斯核数量,即构成混合模型的组件数量。αm(ci)为混合系数表示输入语音内容特征向量、语音身份特征向量以及参考人脸关键点特征向量生成wi时第m个组件对应的概率权重,wi为生成的对齐后2D人脸关键点、旋转、偏移集合,ψm是组件m的概率密度函数,用于计算在输入ci条件下得到的wi密度。本发明采用高斯核作为概率密度函数。
本发明训练图片到图片转换模块,输入目标人脸关键点和参考人脸图像生成最终的目标人脸图像。图片到图片转换模块为一个encoder/decoder结构,将目标人脸关键点绘制为一张RGB图片Otrg大小为256×256×3并和源人脸图像Hsrc在通道维度上进行拼接得到大小为256×256×6的输入。输入经过encoder得到中间特征表示,中间特征表示输入到decoder用于重构目标人脸图像Htrg。Decoder是一个CNN架构使用反置卷积从中间特征表示得到目标人脸图像。Encoder和Decoder使用带有跳连的U-Net结构来更好得保存目标说话者的身份信息,模型结构如图3所示。
具体的,本实施例中使用Voxceleb2数据集进行训练和测试。将图片分成数据集和测试集以后,首先使用人脸关键点提取器提取人脸图像中的关键点,然后将人脸关键点和语音片段输入人脸关键点回归网络得到目标人脸关键点,然后将目标人脸关键点和参考人脸图像输入到图像到图像转换网络得到最终人脸图像。
在实际应用中,这些数据样本可以替换成自己的数据样本,只要保持框架结构相同即可。而且本实施例只需要通过使用pytorch(Python机器学习框架)即可,更加方便实际应用。
为了验证技术方案的可行性,本实施例在数据集上做了实验,并最终得到了表1的结果和图4结果。
在研究中,为了评估本实施例所提出模型的性能,定义了两个个评估指标,分别是唇部关键点距离(Landmark Distance,LMD)和旋转距离(Rotation Distance,RD)。根据表1中的结果,本发明提出的方法获得了比上述方法出色的性能。
表1
尽管为说明目的公开了本发明的实施例和附图,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换、变化和修改都是可能的,因此,本发明的范围不局限于实施例和附图所公开的内容。
Claims (2)
1.一种基于自监督和混合密度网络的人脸动画生成方法,其特征在于:所述方法的步骤为:
1)输入一组人脸图像和一段语音片段,进行自监督对比学习,训练语音特征提取模块;
2)将自监督对比学习中学到的语音特征提取模块应用到人脸关键点回归下游任务中,在下游任务中并对其微调;
3)将人脸关键点回归网络输出的目标人脸关键点和参考人脸图像输入到图像到图像转换网络得到最终目标人脸图像;
所述步骤1)的具体操作为:
(1)给定了一组输入人脸图像和一段语音片段,将输入人脸图像和语音片段分别输入到图片特征提取器和语音特征提取器分别进行特征提取;
(2)输入人脸图像首先使用2D-CNN 提取图像特征,然后使用3D-CNN提取相邻图像帧之间的时序信息,最后通过图像内容编码器提取图像内容特征,图像身份编码器提取图像身份特征;
(3)输入语音片段首先使用卷积神经网络对语音特征进行初步提取获得高层次特征表示,然后使用双向GRU进一步学习语音时序信息;
(4)把经过GRU提取到的语音特征输入到记忆模块,使用记忆模块保存多个不同假设,将语音映射到唇部动作以及头部动作的不确定性分担给记忆模块,使语音特征提取模块专注于语音特征提取;
(5)将提取的语音内容特征和人脸图像内容特征做对比损失,将提取到的语音身份特征和人脸图像身份特征做对比损失。
2.根据权利要求1所述的基于自监督和混合密度网络的人脸动画生成方法,其特征在于:所述步骤2)的具体操作为:
1)将语音片段输入到语音特征提取器得到语音内容特征向量和语音内容特征向量;
2)将参考人脸关键点输入到多层感知机得到人脸关键点特征向量,把语音内容特征向量和语音内容特征向量以及人脸关键点特征向量输入到混合密度网络得到目标人脸关键点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111424899.6A CN114155321B (zh) | 2021-11-26 | 2021-11-26 | 一种基于自监督和混合密度网络的人脸动画生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111424899.6A CN114155321B (zh) | 2021-11-26 | 2021-11-26 | 一种基于自监督和混合密度网络的人脸动画生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114155321A CN114155321A (zh) | 2022-03-08 |
CN114155321B true CN114155321B (zh) | 2024-06-07 |
Family
ID=80458764
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111424899.6A Active CN114155321B (zh) | 2021-11-26 | 2021-11-26 | 一种基于自监督和混合密度网络的人脸动画生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114155321B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115393945A (zh) * | 2022-10-27 | 2022-11-25 | 科大讯飞股份有限公司 | 基于语音的图像驱动方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160098581A (ko) * | 2015-02-09 | 2016-08-19 | 홍익대학교 산학협력단 | 얼굴 인식 및 화자 인식이 융합된 인증 방법 |
CN112001992A (zh) * | 2020-07-02 | 2020-11-27 | 超维视界(北京)传媒科技有限公司 | 基于深度学习的语音驱动3d虚拟人表情音画同步方法及*** |
CN113450436A (zh) * | 2021-06-28 | 2021-09-28 | 武汉理工大学 | 一种基于多模态相关性的人脸动画生成方法及*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7299572B2 (ja) * | 2019-12-26 | 2023-06-28 | 浙江大学 | 音声信号により駆動される顔アニメーションの生成方法 |
-
2021
- 2021-11-26 CN CN202111424899.6A patent/CN114155321B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160098581A (ko) * | 2015-02-09 | 2016-08-19 | 홍익대학교 산학협력단 | 얼굴 인식 및 화자 인식이 융합된 인증 방법 |
CN112001992A (zh) * | 2020-07-02 | 2020-11-27 | 超维视界(北京)传媒科技有限公司 | 基于深度学习的语音驱动3d虚拟人表情音画同步方法及*** |
CN113450436A (zh) * | 2021-06-28 | 2021-09-28 | 武汉理工大学 | 一种基于多模态相关性的人脸动画生成方法及*** |
Non-Patent Citations (2)
Title |
---|
基于NURBS变形和单视角图片的人脸表情生成;孙思;葛卫民;冯志勇;徐超;彭伟龙;;计算机工程;20171115(第11期);全文 * |
基于关键点表示的语音驱动说话人脸视频生成;年福东;王文涛;王妍;张晶晶;胡贵恒;李腾;模式识别与人工智能;20210615;第34卷(第006期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114155321A (zh) | 2022-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | One-shot talking face generation from single-speaker audio-visual correlation learning | |
CN116250036A (zh) | 用于合成语音的照片级真实感视频的***和方法 | |
Vougioukas et al. | Video-driven speech reconstruction using generative adversarial networks | |
CN113554737A (zh) | 目标对象的动作驱动方法、装置、设备及存储介质 | |
JP2014519082A (ja) | 文字に基づく映像生成 | |
WO2022106654A2 (en) | Methods and systems for video translation | |
Fu et al. | Audio/visual mapping with cross-modal hidden Markov models | |
CN111666831A (zh) | 一种基于解耦表示学习的说话人脸视频生成方法 | |
CN113077537A (zh) | 一种视频生成方法、存储介质及设备 | |
Ma et al. | Unpaired image-to-speech synthesis with multimodal information bottleneck | |
CN115761075A (zh) | 脸部图像生成方法及其装置、设备、介质、产品 | |
Hassid et al. | More than words: In-the-wild visually-driven prosody for text-to-speech | |
CN114155321B (zh) | 一种基于自监督和混合密度网络的人脸动画生成方法 | |
Liz-Lopez et al. | Generation and detection of manipulated multimodal audiovisual content: Advances, trends and open challenges | |
CN116977903A (zh) | 一种通过文本智能生成短视频的aigc方法 | |
CN117115310A (zh) | 一种基于音频和图像的数字人脸生成方法及*** | |
CN116705038A (zh) | 基于语音分析的3d虚拟演讲者驱动方法及相关装置 | |
CN114360491B (zh) | 语音合成方法、装置、电子设备及计算机可读存储介质 | |
Sun et al. | Pre-avatar: An automatic presentation generation framework leveraging talking avatar | |
Preethi | Analyzing lower half facial gestures for lip reading applications: Survey on vision techniques | |
Kolivand et al. | Realistic lip syncing for virtual character using common viseme set | |
Barve et al. | Multi-language audio-visual content generation based on generative adversarial networks | |
Sadiq et al. | Emotion dependent domain adaptation for speech driven affective facial feature synthesis | |
Zainkó et al. | Adaptation of Tacotron2-based Text-To-Speech for Articulatory-to-Acoustic Mapping using Ultrasound Tongue Imaging | |
Wang et al. | Autolv: Automatic lecture video generator |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |