CN117152283A - 一种利用扩散模型的语音驱动人脸图像生成方法及*** - Google Patents

一种利用扩散模型的语音驱动人脸图像生成方法及*** Download PDF

Info

Publication number
CN117152283A
CN117152283A CN202310944172.3A CN202310944172A CN117152283A CN 117152283 A CN117152283 A CN 117152283A CN 202310944172 A CN202310944172 A CN 202310944172A CN 117152283 A CN117152283 A CN 117152283A
Authority
CN
China
Prior art keywords
face image
audio
diffusion model
image
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310944172.3A
Other languages
English (en)
Inventor
虞钉钉
徐清
王晓梅
沈伟林
沈旭立
曹培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huayuan Computing Technology Shanghai Co ltd
Original Assignee
Huayuan Computing Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huayuan Computing Technology Shanghai Co ltd filed Critical Huayuan Computing Technology Shanghai Co ltd
Priority to CN202310944172.3A priority Critical patent/CN117152283A/zh
Publication of CN117152283A publication Critical patent/CN117152283A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种利用扩散模型的语音驱动人脸图像生成方法及***,涉及AIGC技术领域,包括:输入驱动音频和部分人脸图像;对驱动音频和部分人脸图像分别进行特征提取,得到音频特征和图像特征;将音频特征和图像特征输入到扩散模型,生成完整图像特征;将扩散模型生成的完整图像特征输入解码器,得到完整人脸图像。本发明充分利用扩散模型以及特征融合,实现准确清晰地生成和音频相对应的人脸图像。

Description

一种利用扩散模型的语音驱动人脸图像生成方法及***
技术领域
本发明涉及AIGC技术领域,尤其是涉及一种利用扩散模型的语音驱动人脸图像生成方法及***。
背景技术
AI生成内容,即AIGC,是当前最为热门的话题之一。AIGC本质是利用AI来自动生成内容。而内容的形式可以表现为文字、图像、音频、视频等等。
对于语音驱动人脸图像生成任务,深度学习是当前最为流行的方法。语音驱动人脸图像生成技术主要是采用深度模型来处理音频和图像特征以及一些附加的特征,比如2D的关键点特征或者3D的人脸重建相关特征,并生成相应的人脸图像。而根据使用的模型架构,语音驱动人脸图像生成技术主要可以分为两类:一类是采用对抗生成网络GANs;另一类是采用神经辐射场Nerf。但上述两类模型,在人脸图像生成的质量上都有所欠缺。
语音驱动人脸生成技术,涉及到多模态数据,与AIGC中的图像生成领域十分相关,如何利用AIGC技术实现语音驱动人脸图像生成是一个非常重要的问题。
发明内容
针对上述问题,本发明提供了一种利用扩散模型的语音驱动人脸图像生成方法及***,采用扩散模型,通过充分利用扩散模型的生成能力,准确生成和音频相对应的高质量人脸图像。
为实现上述目的,本发明提供了一种利用扩散模型的语音驱动人脸图像生成方法,包括:
输入驱动音频和部分人脸图像;
对所述驱动音频和所述部分人脸图像分别进行特征提取,得到音频特征和图像特征;
将所述音频特征和所述图像特征输入到扩散模型,生成完整图像特征;
将所述扩散模型生成的所述完整图像特征输入解码器,得到完整人脸图像。
作为本发明的进一步改进,所述部分人脸图像为掩码掉下半脸的人脸图像,包含人脸的姿态信息。
作为本发明的进一步改进,采用不同的神经网络对输入的所述部分人脸图像和所述驱动音频进行特征提取。
作为本发明的进一步改进,采用预训练好的自编码器的编码部分对所述部分人脸图像进行特征提取,得到所述图像特征。
作为本发明的进一步改进,采用预训练好的第一网络对所述驱动音频进行特征提取,得到所述音频特征;并采用包括卷积、跳层连接结构的第二网络对所述音频特征进一步映射,得到映射后的所述音频特征。
作为本发明的进一步改进,所述扩散模型采用UNet结构的深度网络模型;
所述图像特征输入所述扩散模型的第一层,映射后的所述音频特征融合到所述扩散模型的每一层中。
作为本发明的进一步改进,所述驱动音频的长度大于一帧图像的音频长度。
作为本发明的进一步改进,所述解码器为预训练好的自编码器的解码部分。
作为本发明的进一步改进,所述编码器和所述解码器构成完整的自编码器模型,其损失函数为:
LAE=Lrec(x,S(x))+Ldis(S(x))+Ldis(S(x))
其中,
Lrec(x,S(x))表示回归损失,衡量输入的部分人脸图像和输出的所述完整人脸图像的区别;
Ldis(S(x))表示对自编码以后的所述完整人脸图像的判别损失;
Ldis(S(x))表示对自编码器模型S的正则化损失。
本发明还提供了一种用扩散模型的语音驱动人脸图像生成***,包括:输入模块、特征提取模块、特征融合模块和解码输出模块;
所述输入模块,用于:
输入驱动音频和部分人脸图像;
所述特征提取模块,用于:
对所述驱动音频和所述部分人脸图像分别进行特征提取,得到音频特征和图像特征;
所述特征融合模块,用于:
将所述音频特征和所述图像特征输入到扩散模型,生成完整图像特征;
所述解码输出模块,用于:
将所述扩散模型生成的所述完整图像特征输入解码器,得到完整人脸图像。
与现有技术相比,本发明的有益效果为:
本发明通过对部分图像的图像特征提取、驱动音频特征提取、图像特征和音频特征融合及扩散,得到与音频口型相一致的完整人脸图像输出,实现了人脸图像与音频的结合,能够准确生成和音频相对应的高质量人脸图像。
本发明通过通过掩码掉下半张脸的人脸图像作为基础,使用其人脸姿态信息,对于完整人脸图像的生成具有意义及作用。
本发明输入超过一帧图像音频长度几倍甚至几十倍的驱动音频,在当前人脸图像的生成过程中,可以更好的结合前后信息,使最终生成的人脸图像与前后剧情更加贴合,与前后人脸图像结合后更加平滑。
附图说明
图1为本发明一种实施例公开的利用扩散模型的语音驱动人脸图像生成方法流程图;
图2为本发明一种实施例公开的利用扩散模型的语音驱动人脸图像生成***示意图;
图3为本发明一种实施例公开的完整模型示意图;
图4为本发明一种实施例公开的图像特征和音频特征融合到扩散模型的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
如图1、3所示,本发明提供的一种利用扩散模型的语音驱动人脸图像生成方法,包括步骤:
S1、输入驱动音频和部分人脸图像;
其中,
部分人脸图像为一张掩码掉下半脸的人脸图像,如:RGB图像,其包含人脸的姿态信息。
进一步的,
部分人脸图像相关的人脸姿态信息,帮助模型最终生成一张和驱动音频相对应口型的图像。
具体的,
输入的驱动音频的长度将大于一张图像所对应的音频长度。以25FPS的视频为例,一帧图像会对应40ms的音频长度,而输入的驱动音频的长度大于一帧图像的音频长度,将会是40ms的几倍,甚至十几倍;以此来提供当前音频的前后信息,让模型生成的图像结果更加平滑。
S2、对驱动音频和部分人脸图像分别进行特征提取,得到音频特征和图像特征;
其中,
采用不同的神经网络对输入的部分人脸图像和驱动音频进行特征提取。
进一步的,
采用预训练好的自编码器的编码部分对部分人脸图像进行特征提取,得到图像特征。
对驱动音频进行特征提取的网络分为两个模块,采用预训练好的第一网络(实质为语音特征提取模块)对驱动音频进行特征提取,得到音频特征;采用包括卷积、跳层连接等结构的第二网络对音频特征进一步映射,得到映射后的音频特征。
具体的,
第一网络已经在大量语音数据上进行预训练,以用于初步提取语音特征;
第二网络是一个可以训练的模块,该模块用于对语音特征进行进一步映射,以用于下一步的扩散模型。
S3、将音频特征和图像特征输入到扩散模型,生成完整图像特征;
其中,
扩散模型采用UNet结构的深度网络模型;
如图4所示,图像特征输入扩散模型的第一层,而映射后的音频特征融合到扩散模型的每一层中。
S4、将扩散模型生成的完整图像特征输入解码器,得到完整人脸图像。
其中,
解码器对应步骤S2中自编码器的编码部分,为预训练好解码部分;
编码器和解码器构成完整的自编码器模型,自编码器模型损失函数为:
LAE=Lrec(x,S(x))+Ldis(S(x))+Ldis(S(x))
式中,
Lrec(x,S(x))表示回归损失,衡量输入的部分人脸图像和输出的完整人脸图像的区别;
Ldis(S(x))表示对自编码以后的完整人脸图像的判别损失;
Ldis(S(x))表示对自编码器模型S的正则化损失。
本发明中,除自编码器的编码部分和解码部分需要预训练外,扩散模型和驱动音频的提取网络(第二网络)也需要进行训练,且扩散模型和第二网络可以一起训练,训练框架为扩散模型的训练框架,具体的损失函数为:
其中,
∈为高斯噪声,za是音频特征,zi是图像特征,zt则通过扩散模型的扩散过程得到。
通过采用上述模型以后,可以生成高质量的和语音相匹配的人脸图像。
如图2所示,本发明还提供了一种利用扩散模型的语音驱动人脸图像生成***,包括:输入模块、特征提取模块、特征融合模块和解码输出模块;
输入模块,用于:
输入驱动音频和部分人脸图像;
特征提取模块,用于:
对驱动音频和部分人脸图像分别进行特征提取,得到音频特征和图像特征;
特征融合模块,用于:
将音频特征和图像特征输入到扩散模型,生成完整图像特征;
解码输出模块,用于:
将扩散模型生成的完整图像特征输入解码器,得到完整人脸图像。
本发明的优点:
本发明通过对部分图像的图像特征提取、驱动音频特征提取、图像特征和音频特征融合及扩散,得到与音频口型相一致的完整人脸图像输出,实现了人脸图像与音频的结合,能够准确生成和音频相对应的高质量人脸图像。
本发明通过通过掩码掉下半张脸的人脸图像作为基础,使用其人脸姿态信息,对于完整人脸图像的生成具有意义及作用。
本发明输入超过一帧图像音频长度几倍甚至几十倍的驱动音频,在当前人脸图像的生成过程中,可以更好的结合前后信息,使最终生成的人脸图像与前后剧情更加贴合,与前后人脸图像结合后更加平滑。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种利用扩散模型的语音驱动人脸图像生成方法,其特征在于,包括:
输入驱动音频和部分人脸图像;
对所述驱动音频和所述部分人脸图像分别进行特征提取,得到音频特征和图像特征;
将所述音频特征和所述图像特征输入到扩散模型,生成完整图像特征;
将所述扩散模型生成的所述完整图像特征输入解码器,得到完整人脸图像。
2.根据权利要求1所述的利用扩散模型的语音驱动人脸图像生成方法,其特征在于:所述部分人脸图像为掩码掉下半脸的人脸图像,包含人脸的姿态信息。
3.根据权利要求1所述的利用扩散模型的语音驱动人脸图像生成方法,其特征在于:采用不同的神经网络对输入的所述部分人脸图像和所述驱动音频进行特征提取。
4.根据权利要求1所述的利用扩散模型的语音驱动人脸图像生成方法,其特征在于:采用预训练好的自编码器的编码部分对所述部分人脸图像进行特征提取,得到所述图像特征。
5.根据权利要求1所述的利用扩散模型的语音驱动人脸图像生成方法,其特征在于:采用预训练好的第一网络对所述驱动音频进行特征提取,得到所述音频特征;并采用包括卷积、跳层连接结构的第二网络对所述音频特征进一步映射,得到映射后的所述音频特征。
6.根据权利要求1所述的利用扩散模型的语音驱动人脸图像生成方法,其特征在于:所述扩散模型采用UNet结构的深度网络模型;
所述图像特征输入所述扩散模型的第一层,映射后的所述音频特征融合到所述扩散模型的每一层中。
7.根据权利要求1所述的利用扩散模型的语音驱动人脸图像生成方法,其特征在于:所述驱动音频的长度大于一帧图像的音频长度。
8.根据权利要求4所述的利用扩散模型的语音驱动人脸图像生成方法,其特征在于:所述解码器为预训练好的自编码器的解码部分。
9.根据权利要求8所述的利用扩散模型的语音驱动人脸图像生成方法,其特征在于:所述编码器和所述解码器构成完整的自编码器模型,其损失函数为:
LAE=Lrec(x,S(x))+Ldis(S(x))+Ldis(S(x))
其中,
Lrec(x,S(x))表示回归损失,衡量输入的部分人脸图像和输出的所述完整人脸图像的区别;
Ldis(S(x))表示对自编码以后的所述完整人脸图像的判别损失;
Ldis(S(x))表示对自编码器模型S的正则化损失。
10.一种实现如权利要求1~9任一项所述方法的利用扩散模型的语音驱动人脸图像生成***,其特征在于,包括:输入模块、特征提取模块、特征融合模块和解码输出模块;
所述输入模块,用于:
输入驱动音频和部分人脸图像;
所述特征提取模块,用于:
对所述驱动音频和所述部分人脸图像分别进行特征提取,得到音频特征和图像特征;
所述特征融合模块,用于:
将所述音频特征和所述图像特征输入到扩散模型,生成完整图像特征;
所述解码输出模块,用于:
将所述扩散模型生成的所述完整图像特征输入解码器,得到完整人脸图像。
CN202310944172.3A 2023-07-28 2023-07-28 一种利用扩散模型的语音驱动人脸图像生成方法及*** Pending CN117152283A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310944172.3A CN117152283A (zh) 2023-07-28 2023-07-28 一种利用扩散模型的语音驱动人脸图像生成方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310944172.3A CN117152283A (zh) 2023-07-28 2023-07-28 一种利用扩散模型的语音驱动人脸图像生成方法及***

Publications (1)

Publication Number Publication Date
CN117152283A true CN117152283A (zh) 2023-12-01

Family

ID=88885692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310944172.3A Pending CN117152283A (zh) 2023-07-28 2023-07-28 一种利用扩散模型的语音驱动人脸图像生成方法及***

Country Status (1)

Country Link
CN (1) CN117152283A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118101988A (zh) * 2024-04-26 2024-05-28 荣耀终端有限公司 一种视频处理方法、***及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115908657A (zh) * 2022-11-16 2023-04-04 科大讯飞股份有限公司 虚拟形象的生成方法、装置、设备及存储介质
US20230109379A1 (en) * 2021-10-05 2023-04-06 Nvidia Corporation Diffusion-based generative modeling for synthetic data generation systems and applications
CN116051668A (zh) * 2022-12-30 2023-05-02 北京百度网讯科技有限公司 文生图扩散模型的训练方法和基于文本的图像生成方法
CN116311473A (zh) * 2023-04-06 2023-06-23 平安科技(深圳)有限公司 基于扩散模型的表情迁移方法、装置、设备及介质
CN116363250A (zh) * 2023-03-31 2023-06-30 阿维塔科技(重庆)有限公司 一种图像生成方法及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230109379A1 (en) * 2021-10-05 2023-04-06 Nvidia Corporation Diffusion-based generative modeling for synthetic data generation systems and applications
CN115908657A (zh) * 2022-11-16 2023-04-04 科大讯飞股份有限公司 虚拟形象的生成方法、装置、设备及存储介质
CN116051668A (zh) * 2022-12-30 2023-05-02 北京百度网讯科技有限公司 文生图扩散模型的训练方法和基于文本的图像生成方法
CN116363250A (zh) * 2023-03-31 2023-06-30 阿维塔科技(重庆)有限公司 一种图像生成方法及***
CN116311473A (zh) * 2023-04-06 2023-06-23 平安科技(深圳)有限公司 基于扩散模型的表情迁移方法、装置、设备及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118101988A (zh) * 2024-04-26 2024-05-28 荣耀终端有限公司 一种视频处理方法、***及电子设备

Similar Documents

Publication Publication Date Title
US11281945B1 (en) Multimodal dimensional emotion recognition method
CN107391609B (zh) 一种双向多模态递归网络的图像描述方法
CN111259804B (zh) 一种基于图卷积的多模态融合手语识别***及方法
CN110266973A (zh) 视频处理方法、装置、计算机可读存储介质和计算机设备
WO2023072067A1 (zh) 人脸属性编辑模型的训练以及人脸属性编辑方法
CN117152283A (zh) 一种利用扩散模型的语音驱动人脸图像生成方法及***
CN116661603A (zh) 复杂人机交互场景下的多模态融合的用户意图识别方法
CN115761075A (zh) 脸部图像生成方法及其装置、设备、介质、产品
CN117994447B (zh) 面向型片的车型设计3d图像辅助生成方法和***
CN116129013A (zh) 一种生成虚拟人动画视频的方法、装置及存储介质
CN115712709A (zh) 基于多关系图模型的多模态对话问答生成方法
CN113781324A (zh) 一种老照片修复方法
CN115471886A (zh) 一种数字人生成方法及***
CN117671764A (zh) 基于Transformer的动态说话人脸图像生成***及方法
CN116524791A (zh) 一种基于元宇宙的唇语学习辅助训练***及其应用
CN116597857A (zh) 一种语音驱动图像的方法、***、装置及存储介质
CN117291232A (zh) 一种基于扩散模型的图像生成方法与装置
CN116705038A (zh) 基于语音分析的3d虚拟演讲者驱动方法及相关装置
CN115496134B (zh) 基于多模态特征融合的交通场景视频描述生成方法和装置
CN114155321B (zh) 一种基于自监督和混合密度网络的人脸动画生成方法
US11887403B1 (en) Mouth shape correction model, and model training and application method
CN116402928B (zh) 一种虚拟谈话数字人生成方法
Liang et al. Pyramid Attention CycleGAN for Non-Parallel Voice Conversion
Liu Audio-Driven Talking Face Generation: A Review
Rastogi et al. LRNeuNet: An attention based deep architecture for lipreading from multitudinous sized videos

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination