CN118397674A - 基于快速归一化流模型的语音驱动虚拟数字人脸生成方法 - Google Patents

基于快速归一化流模型的语音驱动虚拟数字人脸生成方法 Download PDF

Info

Publication number
CN118397674A
CN118397674A CN202410475170.9A CN202410475170A CN118397674A CN 118397674 A CN118397674 A CN 118397674A CN 202410475170 A CN202410475170 A CN 202410475170A CN 118397674 A CN118397674 A CN 118397674A
Authority
CN
China
Prior art keywords
face
model
face image
hidden space
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410475170.9A
Other languages
English (en)
Inventor
陈飞龙
樊帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN202410475170.9A priority Critical patent/CN118397674A/zh
Publication of CN118397674A publication Critical patent/CN118397674A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本申请涉及计算机信息技术领域,尤其涉及一种基于快速归一化流模型的语音驱动虚拟数字人脸生成方法,其中方法包括获取采样视频,使用人脸检测模型对采样视频进行人脸检测,获取人脸图像并对人脸图像进行优化,将人脸图像输入预设的快速归一化流模型中,构建人脸的隐空间向量;获取语音信号,使用语音识别预训练模型提取语音信号的音频特征;通过序列到序列模型构建音频特征到人脸隐空间向量的映射模型,将音频特征转换为对应的人脸的隐空间向量;通过快速归一化流模型将转换的人脸隐空间向量渲染出人脸图像,将渲染出的人脸图像合成到人脸图像中。本申请能够有效解决了现有技术中视频帧率不一致、人脸检测不准确以及语音特征提取困难等技术问题。

Description

基于快速归一化流模型的语音驱动虚拟数字人脸生成方法
技术领域
本申请涉及计算机信息技术领域,尤其涉及一种基于快速归一化流模型的语音驱动虚拟数字人脸生成方法。
背景技术
随着人工智能和计算机视觉技术的不断发展,语音驱动虚拟数字人脸生成技术逐渐成为了一个备受关注的研究方向。这种技术可以将语音信息与人脸生成相结合,从而实现虚拟数字人的口型和面部表情的自然生成,为虚拟人物和人机交互技术提供了更加生动和自然的体验。
目前的语音驱动人脸生成方法主要包括基于人脸关键点、3DMM(三维形状和纹理模型)、运动场、神经辐射场等技术。此外,还有一些基于GAN(生成对抗网络)和扩散模型的方法,这些方法在一定程度上均可以实现语音驱动的人脸生成。
尽管现有技术在语音驱动人脸生成领域取得了一定进展,但仍然存在一些问题亟待解决。例如,基于关键点的方法容易导致人脸驱动不自然,效果不平滑;基于3DMM的方法在重建人脸时容易出现抖动不平滑效果;基于GAN的方法需要大量数据训练且难以训练;而基于扩散模型的方法在表达人脸细节特征上仍有缺失,如无法表达牙齿和人员身份等信息。综上所述,现有技术在语音驱动人脸生成方面尚存在生成效果不佳、模型复杂度高、计算资源消耗大等问题,因此需要一种更加高效且稳定的解决方案来应对上述技术的不足。
发明内容
本申请提供了一种基于快速归一化流模型的语音驱动虚拟数字人脸生成方法、***、设备及存储介质,有效解决了现有技术中视频帧率不一致、人脸检测不准确以及语音特征提取困难等技术问题。本申请提供如下技术方案:
第一方面,本申请提供一种基于快速归一化流模型的语音驱动虚拟数字人脸生成方法,所述方法包括:
获取采样视频,对所述采样视频进行处理使其为25fps;
使用人脸检测模型对所述采样视频进行人脸检测,获取人脸图像并对所述人脸图像进行优化;
将优化后的人脸图像输入预设的快速归一化流模型中,构建人脸的隐空间向量;
获取语音信号,将所述语音信号的采样率调整为16k;
使用语音识别预训练模型提取所述语音信号的音频特征;
通过序列到序列模型构建所述音频特征到人脸隐空间向量的映射模型,将所述音频特征转换为对应的人脸的隐空间向量;
通过所述快速归一化流模型将转换的人脸的隐空间向量渲染出人脸图像,将渲染出的人脸图像合成到人脸图像中。
在一个具体的可实施方案中,所述获取采样视频,对所述采样视频进行处理使其为25fps包括:
检查所述采样视频的当前帧率;
如果所述采样视频的帧率不是25fps,使用ffmpeg工具进行处理,将所述采样视频转换为标准的25fps。
在一个具体的可实施方案中,所述使用人脸检测模型对所述采样视频进行人脸检测,获取人脸图像并对所述人脸图像进行优化包括:
采用sfd人脸检测模型对所述采样视频进行人脸检测;
所述sfd模型在所述采样视频中定位和识别人脸,将检测到的人脸图像截取出来;
将检测到的人脸框沿着其中心扩大1.25倍,并将扩大后的人脸图像缩放至256*256尺寸。
在一个具体的可实施方案中,所述将优化后的人脸图像输入预设的快速归一化流模型中,构建人脸的隐空间向量包括:
将优化后的人脸图像输入预训练的快速归一化流模型中;
所述快速归一化流模型内部的变换网络对优化后的人脸图像进行处理,逐步将其转换为一个高维的隐空间向量。
在一个具体的可实施方案中,所述使用语音识别预训练模型提取所述语音信号的音频特征包括:
将16k采样率的语音信号分成连续的语音帧或片段;
语音帧或片段作为语音识别预训练模型的输入,经过HuBERT模型处理后,每个语音帧都会被转换为一个特征向量。
在一个具体的可实施方案中,所述通过序列到序列模型构建所述音频特征到人脸隐空间向量的映射模型,将所述音频特征转换为对应的人脸的隐空间向量包括:
使用语音识别模型中的Conformer结构将音频特征解耦为表情信息向量和语义信息向量;
利用线性映射技术,将解耦后的音频特征映射为人脸的隐空间向量;
构建并训练Seq2Seq模型,模型接受解耦后的音频特征作为输入,并输出对应的人脸隐空间向量。
在一个具体的可实施方案中,所述通过序列到序列模型构建所述音频特征到人脸隐空间向量的映射模型,将所述音频特征转换为对应的人脸的隐空间向量还包括:
通过线性映射与随机选取的参考特征向量,将其分解成两个关键组成部分:姿态特征和外观特征;
利用两个连续的Conformer结构来处理语音识别预训练模型提取的特征,将其分解为两类向量:一类捕捉表情信息,另一类包含与说话内容密切相关的语义信息。
第二方面,本申请提供一种基于快速归一化流模型的语音驱动虚拟数字人脸生成***,采用如下的技术方案:
一种基于快速归一化流模型的语音驱动虚拟数字人脸生成***,包括:
视频采样模块,用于获取采样视频,对所述采样视频进行处理使其为25fps;
人脸检测模块,用于使用人脸检测模型对所述采样视频进行人脸检测,获取人脸图像并对所述人脸图像进行优化;
向量构建模块,用于将优化后的人脸图像输入预设的快速归一化流模型中,构建人脸的隐空间向量;
信号获取模块,用于获取语音信号,将所述语音信号的采样率调整为16k;
特征提取模块,用于使用语音识别预训练模型提取所述语音信号的音频特征;
图像转换模块,用于通过序列到序列模型构建所述音频特征到人脸隐空间向量的映射模型,将所述音频特征转换为对应的人脸的隐空间向量;
图像合成模块,用于通过所述快速归一化流模型将转换的人脸的隐空间向量渲染出人脸图像,将渲染出的人脸图像合成到人脸图像中。
第三方面,本申请提供一种电子设备,所述设备包括处理器和存储器;所述存储器中存储有程序,所述程序由所述处理器加载并执行以实现如第一方面所述的一种基于快速归一化流模型的语音驱动虚拟数字人脸生成方法。
第四方面,本申请提供一种计算机可读存储介质,所述存储介质中存储有程序,所述程序被处理器执行时用于实现如第一方面所述的一种基于快速归一化流模型的语音驱动虚拟数字人脸生成方法。
综上所述,本申请的有益效果至少包括:
(1)通过使用二阶段网络实现虚拟数字人脸生成,我们能够迅速且准确地生成数字人脸。同时,通过快速归一化流模型实现的人脸编辑功能,我们不仅能优化隐空间特征,还可以进行更为精细的人脸编辑,如表情和姿态的调整,提供了更高的人脸生成和编辑效率。
(2)采用序列到序列模型,我们能够有效地学习长时音频信息到人脸的特征向量的映射,实现了对音频信息的精准捕捉和转换。此外,通过引入参考向量,我们不仅成功保留了说话人的身份特征,还能有效解耦出与音频无关的头部姿态信息,实现了对头部姿态的精准控制。
通过结合25fps的视频处理、sfd人脸检测、快速归一化流模型和HuBERT语音识别模型,实现了从采样视频和16k语音信号到人脸隐空间向量的流程。采用特定的Seq2Seq架构确保了音频特征与人脸向量的匹配,同时通过定制的解码器结构优化了向量生成。HuBERT模型的选用利用其Transformer架构和预训练优势,实现了从语音信号中高效准确地提取音频特征。这一整套流程有效解决了现有技术中视频帧率不一致、人脸检测不准确以及语音特征提取困难等技术问题,为实现语音驱动的虚拟数字人脸生成提供了稳健的解决方案。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,并可依照说明书的内容予以实施,以下以本申请的较佳实施例并配合附图详细说明如后。
附图说明
图1是本申请实施例中基于快速归一化流模型的语音驱动虚拟数字人脸生成方法的流程示意图。
图2是本申请实施例中基于快速归一化流模型的语音驱动虚拟数字人脸生成***的结构框图。
图3是本申请实施例中基于快速归一化流模型的语音驱动虚拟数字人脸生成的电子设备的框图。
具体实施方式
下面结合附图和实施例,对本申请的具体实施方式做进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。
可选地,本申请以各个实施例提供的基于快速归一化流模型的语音驱动虚拟数字人脸生成方法用于电子设备中为例进行说明,该电子设备为终端或服务器,终端可以为计算机、平板电脑等,本实施例不对电子设备的类型作限定。
参照图1,是本申请一个实施例提供的基于快速归一化流模型的语音驱动虚拟数字人脸生成方法的流程示意图,该方法至少包括以下几个步骤:
步骤S101、获取采样视频,对采样视频进行处理使其为25fps。
步骤S102、使用人脸检测模型对采样视频进行人脸检测,获取人脸图像并对人脸图像进行优化。
步骤S103、将优化后的人脸图像输入预设的快速归一化流模型中,构建人脸的隐空间向量。
步骤S104、获取语音信号,将语音信号的采样率调整为16k。
步骤S105、使用语音识别预训练模型提取语音信号的音频特征。
步骤S106、通过序列到序列模型构建音频特征到人脸隐空间向量的映射模型,将音频特征转换为对应的人脸的隐空间向量。
步骤S107、通过快速归一化流模型将转换的人脸的隐空间向量渲染出人脸图像,将渲染出的人脸图像合成到人脸图像中。
在步骤S101中,在语音驱动的虚拟数字人脸生成中,视频的流畅性对于获取准确的人脸表情和唇形同步至关重要。不同的视频可能有不同的帧率,这可能会导致在处理过程中出现问题,如不自然的动作或者人脸变形。帧率是视频中每秒钟帧数的数量,常见的帧率有24fps、25fps、30fps等。在本申请中,选择标准帧率为25fps的原因主要是为了与相对多地区的电视广播标准相匹配。同时,25fps的帧率相对于24fps来说,可以更好地适应电视***的电网频率50Hz。
在实施中,为了确保视频数据的一致性和准确性,首先会检查采样视频的当前帧率,如果采样视频的帧率不是25fps,使用ffmpeg工具进行处理,将采样视频转换为标准的25fps。其中ffmpeg是一个开源的多媒体处理工具,它提供了丰富的功能来处理和转换音频、视频和其他多媒体数据。通过使用ffmpeg将采样视频的帧率转换为25fps,可以确保采样视频的数据的一致性,为后续的人脸检测和处理提供稳定的输入。
在步骤S102中,在语音驱动虚拟数字人脸生成的过程中,准确的人脸检测和预处理是至关重要的,因为其直接影响后续模型的训练和性能。可选地,本申请采用sfd(SingleShot MultiBox Detector)人脸检测模型来对采样视频进行人脸检测。具体的,首先,sfd模型会在视频中定位和识别人脸,然后将检测到的人脸图像截取出来。随后为了增强人脸图像的质量和信息量。将检测到的人脸框沿着其中心扩大1.25倍,这样做是为了保留更多的背景信息,其中背景信息对于人脸检测和特征提取都是有益的,能够帮助模型更好地理解人脸的上下文和环境。最后将扩大后的人脸图像缩放至256*256尺寸,此操作是为了将图像标准化为一个固定大小,使得后续的处理和分析更为简单和高效。同时,上述尺寸的选择是为了保证图像的清晰度和细节,从而提高后续模型的鲁棒性和准确性。通过这一系列的预处理和增强步骤,能够获取到清晰、完整且带有丰富背景信息的人脸图像,为后续的模型训练和应用提供了良好的输入数据。
在步骤S103中,使用预训练的快速归一化流(FastInvertible NormalizingFlow,FInCFlow)模型对优化后的人脸图像进行处理,从而构建出该人脸的隐空间向量。快速归一化流模型的基本工作原理为:该模型通过一系列可逆的变换,将输入数据从一个简单的概率分布转换为一个更为复杂和丰富的概率分布,在本实施例的应用场景中,这个模型被训练成能够将人脸图像映射到一个高维的隐空间。具体的,首先将优化后的人脸图像输入到预训练的FInCFlow模型中,模型内部的变换网络会对这个图像进行处理,逐步将其转换为一个高维的隐空间向量。在这个隐空间向量中,每一个维度都代表了人脸图像中的某种特定特征或信息。例如,一些维度可能代表脸部的形状、光线条件或表情等。这些维度的组合构成了一个全面而丰富的描述,能够捕获原始人脸图像的关键特征和细节。通过这一步骤,能够成功地将优化后的人脸图像转换为一个高维的隐空间向量,这个向量不仅保留了人脸图像的主要特征,而且为后续的处理和分析提供了一个紧凑而高效的表示形式,为实现语音驱动的虚拟数字人脸生成奠定了基础。
在步骤S104中,将获取到的语音信号进行必要的预处理,确保其采样率为16k。采样率是指在一定时间内对模拟信号进行采样的次数,它决定了数字音频的质量和清晰度。首先,从某种语音输入源获取原始的语音信号。这个信号可能来自于真实的人类语音、合成的语音,或者其他可以转换为语音的信息源。随后进行采样率调整,重新采样或者使用数字信号处理技术将语音信号的采样率调整为16k。采样率的选择取决于多种因素,包括需要处理的语音内容的频率范围、计算资源和存储需求等。16k采样率是一个广泛接受和使用的标准,它提供了良好的语音质量和清晰度,同时保持了相对较低的数据量和计算复杂性。具体的,16k的采样率意味着每秒对语音信号进行16,000次采样,这足以捕获人类语音中的大部分频率信息,同时也适合于大多数语音识别和处理应用。通过将语音信号的采样率调整为16k,在一定程度上确保了语音信号的质量和兼容性,为后续步骤例如音频特征提取和与人脸图像的关联提供了一个统一和标准的数据格式,有助于保持整个***的稳定性和效率。
在步骤S105中,采用预训练的语音识别模型,即HuBERT模型,来提取语音信号中的音频特征,音频特征能够捕捉语音信号中的重要信息,包括声音的频率、强度和持续时间等,为后续步骤提供有价值的数据。具体的,首先,将16k采样率的语音信号分成连续的语音帧或片段,这些语音帧或片段作为HuBERT模型的输入,HuBERT模型是基于Transformer架构的,它经过预训练,能够对语音信号进行高效且准确的特征提取。模型的层级结构允许它捕捉语音信号中的多层次特征,从低级的声音元素到更高级的语音内容。经过HuBERT处理后,每个语音帧都会被转换为一个特征向量。这些向量捕获了语音帧中的关键信息,如声音的频率、强度和时域特性等。此外,HuBERT采用了Transformer架构,这种架构在自然语言处理和语音识别任务上已经证明了其效果。它能够处理长距离的依赖关系和捕获复杂的特征。由于HuBERT是在大量的语音数据上进行预训练的,它能够从中学习到丰富的音频特征,这些特征具有很好的泛化能力。通过上述步骤,利用HuBERT模型成功地从16k采样率的语音信号中提取出了有代表性的音频特征。
在步骤S106中,使用序列到序列(Seq2Seq)模型建立从音频的音频特征到人脸的隐空间向量的映射,模型负责将从音频中提取的特征转换为与人脸相关的隐空间向量。具体的,首先使用语音识别模型中的Conformer结构将音频特征解耦为表情信息向量和语义信息向量。随后利用线性映射技术,将解耦后的音频特征映射为人脸的隐空间向量。最后构建并训练Seq2Seq模型,模型接受解耦后的音频特征作为输入,并输出对应的人脸隐空间向量。其中Seq2Seq模型是一种由编码器和解码器组成的神经网络结构,它们通常用于处理序列数据,如自然语言处理、机器翻译和时间序列预测。在本实施例中,Seq2Seq模型负责将从音频中提取的特征转换为与人脸相关的隐空间向量。在本实施例中,采用了一种特殊设计的Seq2Seq架构,其中解码器部分被定制以保证生成的向量能够与人脸隐空间向量相匹配。这种定制化的解码器结构特别考虑了人脸特征的复杂性和多样性,通过加入特定的注意力机制和正则化手段,确保生成的隐空间向量能够准确、高效地捕捉人脸的关键特征。
此外,为了重建人脸的特征向量,首先通过线性映射与随机选取的参考特征向量,将其分解成两个关键组成部分:姿态特征(pos特征)和外观特征(appearance特征)。这种分解方法确保了当音频信息被映射到特征向量时,模型能够获得关于人脸外观和头部姿态的详细信息,从而实现更为精确和生动的人脸生成。在语音处理方面,利用两个连续的Conformer结构来处理HuBERT提取的特征,将其分解为两类向量:一类捕捉表情信息,另一类包含与说话内容密切相关的语义信息。通过构建的seq2seq序列映射框架,使得音频内容能够高效地转化为人脸特征向量。这不仅保留了语音的原始特性和细节,同时为模型提供了丰富的语境信息,进一步提升了生成虚拟人脸的自然性和细致度。
在步骤S107中,使用快速归一化流(FInCFlow)模型来将之前生成的人脸的隐空间向量转换为真实的人脸图像,并将这个图像与原始的人脸图像进行合成。具体的,利用FInCFlow模型,将生成的人脸的隐空间向量渲染为具有高质量细节的人脸图像。再将渲染出的人脸图像与原始人脸图像进行合成,确保合成的人脸图像与背景和其他元素无缝融合。
综上所述,通过结合25fps的视频处理、sfd人脸检测、快速归一化流模型和HuBERT语音识别模型,实现了从采样视频和16k语音信号到人脸隐空间向量的流程。采用特定的Seq2Seq架构确保了音频特征与人脸向量的匹配,同时通过定制的解码器结构优化了向量生成。HuBERT模型的选用利用其Transformer架构和预训练优势,实现了从语音信号中高效准确地提取音频特征。这一整套流程有效解决了背景技术中视频帧率不一致、人脸检测不准确以及语音特征提取困难等技术问题,为实现语音驱动的虚拟数字人脸生成提供了稳健的解决方案。
图2是本申请一个实施例提供的基于快速归一化流模型的语音驱动虚拟数字人脸生成***的结构框图。该装置至少包括以下几个模块:
视频采样模块,用于获取采样视频,对采样视频进行处理使其为25fps。
人脸检测模块,用于使用人脸检测模型对采样视频进行人脸检测,获取人脸图像并对人脸图像进行优化。
向量构建模块,用于将优化后的人脸图像输入预设的快速归一化流模型中,构建人脸的隐空间向量。
信号获取模块,用于获取语音信号,将语音信号的采样率调整为16k。
特征提取模块,用于使用语音识别预训练模型提取语音信号的音频特征。
图像转换模块,用于通过序列到序列模型构建音频特征到人脸隐空间向量的映射模型,将音频特征转换为对应的人脸的隐空间向量。
图像合成模块,用于通过快速归一化流模型将转换的人脸的隐空间向量渲染出人脸图像,将渲染出的人脸图像合成到人脸图像中。
相关细节参考上述方法实施例。
图3是本申请一个实施例提供的电子设备的框图。该设备至少包括处理器401和存储器402。
处理器401可以包括一个或多个处理核心,比如:4核心处理器、8核心处理器等。处理器401可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器401也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器401可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器401还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器402可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器402还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器402中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器401所执行以实现本申请中方法实施例提供的基于快速归一化流模型的语音驱动虚拟数字人脸生成方法。
在一些实施例中,电子设备还可选包括有:***设备接口和至少一个***设备。处理器401、存储器402和***设备接口之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口相连。示意性地,***设备包括但不限于:射频电路、触摸显示屏、音频电路、和电源等。
当然,电子设备还可以包括更少或更多的组件,本实施例对此不作限定。
可选地,本申请还提供有一种计算机可读存储介质,计算机可读存储介质中存储有程序,程序由处理器加载并执行以实现上述方法实施例的基于快速归一化流模型的语音驱动虚拟数字人脸生成方法。
可选地,本申请还提供有一种计算机产品,该计算机产品包括计算机可读存储介质,计算机可读存储介质中存储有程序,程序由处理器加载并执行以实现上述方法实施例的基于快速归一化流模型的语音驱动虚拟数字人脸生成方法。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于快速归一化流模型的语音驱动虚拟数字人脸生成方法,其特征在于,所述方法包括:
获取采样视频,对所述采样视频进行处理使其为25fps;
使用人脸检测模型对所述采样视频进行人脸检测,获取人脸图像并对所述人脸图像进行优化;
将优化后的人脸图像输入预设的快速归一化流模型中,构建人脸的隐空间向量;
获取语音信号,将所述语音信号的采样率调整为16k;
使用语音识别预训练模型提取所述语音信号的音频特征;
通过序列到序列模型构建所述音频特征到人脸隐空间向量的映射模型,将所述音频特征转换为对应的人脸的隐空间向量;
通过所述快速归一化流模型将转换的人脸的隐空间向量渲染出人脸图像,将渲染出的人脸图像合成到人脸图像中。
2.根据权利要求1所述的基于快速归一化流模型的语音驱动虚拟数字人脸生成方法,其特征在于,所述获取采样视频,对所述采样视频进行处理使其为25fps包括:
检查所述采样视频的当前帧率;
如果所述采样视频的帧率不是25fps,使用ffmpeg工具进行处理,将所述采样视频转换为标准的25fps。
3.根据权利要求1所述的基于快速归一化流模型的语音驱动虚拟数字人脸生成方法,其特征在于,所述使用人脸检测模型对所述采样视频进行人脸检测,获取人脸图像并对所述人脸图像进行优化包括:
采用sfd人脸检测模型对所述采样视频进行人脸检测;
所述sfd模型在所述采样视频中定位和识别人脸,将检测到的人脸图像截取出来;
将检测到的人脸框沿着其中心扩大1.25倍,并将扩大后的人脸图像缩放至256*256尺寸。
4.根据权利要求1所述的基于快速归一化流模型的语音驱动虚拟数字人脸生成方法,其特征在于,所述将优化后的人脸图像输入预设的快速归一化流模型中,构建人脸的隐空间向量包括:
将优化后的人脸图像输入预训练的快速归一化流模型中;
所述快速归一化流模型内部的变换网络对优化后的人脸图像进行处理,逐步将其转换为一个高维的隐空间向量。
5.根据权利要求1所述的基于快速归一化流模型的语音驱动虚拟数字人脸生成方法,其特征在于,所述使用语音识别预训练模型提取所述语音信号的音频特征包括:
将16k采样率的语音信号分成连续的语音帧或片段;
语音帧或片段作为语音识别预训练模型的输入,经过HuBERT模型处理后,每个语音帧都会被转换为一个特征向量。
6.根据权利要求1所述的基于快速归一化流模型的语音驱动虚拟数字人脸生成方法,其特征在于,所述通过序列到序列模型构建所述音频特征到人脸隐空间向量的映射模型,将所述音频特征转换为对应的人脸的隐空间向量包括:
使用语音识别模型中的Conformer结构将音频特征解耦为表情信息向量和语义信息向量;
利用线性映射技术,将解耦后的音频特征映射为人脸的隐空间向量;
构建并训练Seq2Seq模型,模型接受解耦后的音频特征作为输入,并输出对应的人脸隐空间向量。
7.根据权利要求6所述的基于快速归一化流模型的语音驱动虚拟数字人脸生成方法,其特征在于,所述通过序列到序列模型构建所述音频特征到人脸隐空间向量的映射模型,将所述音频特征转换为对应的人脸的隐空间向量还包括:
通过线性映射与随机选取的参考特征向量,将其分解成两个关键组成部分:姿态特征和外观特征;
利用两个连续的Conformer结构来处理语音识别预训练模型提取的特征,将其分解为两类向量:一类捕捉表情信息,另一类包含与说话内容密切相关的语义信息。
8.一种基于快速归一化流模型的语音驱动虚拟数字人脸生成***,其特征在于,包括:
视频采样模块,用于获取采样视频,对所述采样视频进行处理使其为25fps;
人脸检测模块,用于使用人脸检测模型对所述采样视频进行人脸检测,获取人脸图像并对所述人脸图像进行优化;
向量构建模块,用于将优化后的人脸图像输入预设的快速归一化流模型中,构建人脸的隐空间向量;
信号获取模块,用于获取语音信号,将所述语音信号的采样率调整为16k;
特征提取模块,用于使用语音识别预训练模型提取所述语音信号的音频特征;
图像转换模块,用于通过序列到序列模型构建所述音频特征到人脸隐空间向量的映射模型,将所述音频特征转换为对应的人脸的隐空间向量;
图像合成模块,用于通过所述快速归一化流模型将转换的人脸的隐空间向量渲染出人脸图像,将渲染出的人脸图像合成到人脸图像中。
9.一种电子设备,其特征在于,所述设备包括处理器和存储器;所述存储器中存储有程序,所述程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的一种基于快速归一化流模型的语音驱动虚拟数字人脸生成方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有程序,所述程序被处理器执行时用于实现如权利要求1至7任一项所述的一种基于快速归一化流模型的语音驱动虚拟数字人脸生成方法。
CN202410475170.9A 2024-04-19 2024-04-19 基于快速归一化流模型的语音驱动虚拟数字人脸生成方法 Pending CN118397674A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410475170.9A CN118397674A (zh) 2024-04-19 2024-04-19 基于快速归一化流模型的语音驱动虚拟数字人脸生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410475170.9A CN118397674A (zh) 2024-04-19 2024-04-19 基于快速归一化流模型的语音驱动虚拟数字人脸生成方法

Publications (1)

Publication Number Publication Date
CN118397674A true CN118397674A (zh) 2024-07-26

Family

ID=91988449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410475170.9A Pending CN118397674A (zh) 2024-04-19 2024-04-19 基于快速归一化流模型的语音驱动虚拟数字人脸生成方法

Country Status (1)

Country Link
CN (1) CN118397674A (zh)

Similar Documents

Publication Publication Date Title
Guo et al. Ad-nerf: Audio driven neural radiance fields for talking head synthesis
WO2022116977A1 (zh) 目标对象的动作驱动方法、装置、设备及存储介质及计算机程序产品
CN111370020B (zh) 一种将语音转换成唇形的方法、***、装置和存储介质
CN110751708B (zh) 一种实时的语音驱动人脸动画的方法和***
Cao et al. Expressive speech-driven facial animation
CN111325817A (zh) 一种虚拟人物场景视频的生成方法、终端设备及介质
CN113920230A (zh) 人物形象视频生成方法、装置、计算机设备和存储介质
WO2022106654A2 (en) Methods and systems for video translation
CN112581569B (zh) 自适应情感表达的说话人面部动画生成方法及电子装置
CN113469292A (zh) 视频合成模型的训练方法、合成方法、装置、介质和设备
Zhang et al. A survey on multimodal-guided visual content synthesis
CN112862672B (zh) 刘海生成方法、装置、计算机设备和存储介质
Tan et al. Style2talker: High-resolution talking head generation with emotion style and art style
CN117528135A (zh) 语音驱动的脸部视频生成方法、装置、电子设备及介质
US20240013464A1 (en) Multimodal disentanglement for generating virtual human avatars
CN117315102A (zh) 虚拟主播处理方法、装置、计算设备及存储介质
CN115631285B (zh) 基于统一驱动的人脸渲染方法、装置、设备及存储介质
Deng et al. Automatic dynamic expression synthesis for speech animation
CN118397674A (zh) 基于快速归一化流模型的语音驱动虚拟数字人脸生成方法
Wang et al. Expression-aware neural radiance fields for high-fidelity talking portrait synthesis
Wang et al. Flow2Flow: Audio-visual cross-modality generation for talking face videos with rhythmic head
Song et al. Virtual Human Talking-Head Generation
CN117876271A (zh) 网络训练及数字人动画驱动方法、装置、设备及介质
Chen et al. Brand-new Speech Animation Technology based on First Order Motion Model and MelGAN-VC
Arora Speech Prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination