CN113691833A - 虚拟主播换脸方法、装置、电子设备及存储介质 - Google Patents

虚拟主播换脸方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113691833A
CN113691833A CN202010420711.XA CN202010420711A CN113691833A CN 113691833 A CN113691833 A CN 113691833A CN 202010420711 A CN202010420711 A CN 202010420711A CN 113691833 A CN113691833 A CN 113691833A
Authority
CN
China
Prior art keywords
face
virtual anchor
changing
target virtual
anchor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010420711.XA
Other languages
English (en)
Other versions
CN113691833B (zh
Inventor
樊博
徐祯
陈曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN202010420711.XA priority Critical patent/CN113691833B/zh
Priority to PCT/CN2021/078248 priority patent/WO2021232878A1/zh
Publication of CN113691833A publication Critical patent/CN113691833A/zh
Priority to US17/989,323 priority patent/US20230082830A1/en
Application granted granted Critical
Publication of CN113691833B publication Critical patent/CN113691833B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明实施例公开了一种虚拟主播换脸方法、装置、电子设备及存储介质,通过端对端的序列学习模型处理目标虚拟主播的历史视频素材,得到目标虚拟主播的人脸特征参数;使用候选虚拟人脸对所述目标虚拟主播进行换脸,得到对应换脸虚拟主播的图像素材;通过端对端的序列学习模型处理目标虚拟主播的人脸特征参数和图像素材,得到换脸虚拟主播的人脸特征参数;根据换脸虚拟主播的人脸特征参数将候选虚拟人脸融合到历史视频素材上,得到换脸后视频素材。以此提高了历史视频素材的利用率,使得换脸虚拟主播的形象真实自然、面部特征运动自然、协调。

Description

虚拟主播换脸方法、装置、电子设备及存储介质
技术领域
本发明实施例涉及视频处理技术,尤其涉及一种虚拟主播换脸方法、装置、电子设备及存储介质。
背景技术
人工智能产业正逐渐趋向成熟,人工智能虚拟现实转换技术越来越贴近大众生活,基于人工智能形成与真人形象无差的虚拟主播进行新闻播报、虚拟教师、虚拟医生、虚拟客服等众多的业务场景,大大提高了信息表达和传递的效率。在虚拟主播进行新闻播报、虚拟教师、虚拟医生、虚拟客服等众多的业务场景下,如何快速对历史视频素材中的虚拟主播进行换脸成为了当下新的需求。
发明内容
本发明实施例提供了一种虚拟主播换脸方法、装置、电子设备及存储介质,以生成高质量的换脸后视频素材。
第一方面,本发明实施例提供一种虚拟主播换脸方法,包括:
通过端对端的序列学习模型处理目标虚拟主播的历史视频素材,得到所述目标虚拟主播的人脸特征参数;
使用候选虚拟人脸对所述目标虚拟主播进行换脸,得到对应换脸虚拟主播的图像素材;
通过所述端对端的序列学习模型处理所述目标虚拟主播的人脸特征参数和所述图像素材,得到所述换脸虚拟主播的人脸特征参数;
根据所述换脸虚拟主播的人脸特征参数,将所述候选虚拟人脸融合到历史视频素材上,得到换脸后视频素材。
可选地,所述目标虚拟主播的人脸特征参数,包括:
所述目标虚拟主播在不同表情下的面部特征运动参数;或者
所述目标虚拟主播在不同表情下的面部特征运动参数和如下至少一种附加参数:所述目标虚拟主播的脸部轮廓参数、所述目标虚拟主播的面部特征比例参数、所述目标虚拟主播的性别特征参数、所述目标虚拟主播的头部与所述目标虚拟主播除所述头部之外的各个身体部位之间的比例参数。
可选地,通过端对端的序列学习模型处理目标虚拟主播的历史视频素材,得到所述目标虚拟主播的人脸特征参数,包括:
通过所述端对端的序列学习模型的嵌入层对历史视频素材进行映射,得到所述目标虚拟主播的原始面部特征,以及与所述原始面部特征对应的源文本特征;
通过所述端对端的序列学习模型的前馈转换器处理所述原始面部特征和所述源文本特征,得到与所述原始面部特征对应的原始面部特征向量,以及与所述源文本特征对应的第一文本编码特征;
将所述原始面部特征向量与所述第一文本编码特征对齐后进行拼帧和解码,得到所述目标虚拟主播的面部特征运动参数。
可选地,所述根据候选虚拟人脸对所述目标虚拟主播进行换脸,得到换脸虚拟主播的图像素材,包括:
确定候选虚拟人脸;
针对所述历史视频素材上的目标虚拟主播,将所述候选虚拟人脸与所述目标虚拟主播的人脸部位进行人脸融合,作为所述对应换脸虚拟主播的图像素材。
可选地,所述换脸虚拟主播的人脸特征参数,包括:
所述换脸虚拟主播在不同表情下的面部特征运动参数;或者
所述换脸虚拟主播在不同表情下的面部特征运动参数和如下至少一种附加参数:所述换脸虚拟主播的脸部轮廓参数、所述换脸虚拟主播的面部特征比例参数、所述换脸虚拟主播的性别特征参数、所述换脸虚拟主播的头部与所述换脸虚拟主播上除所述头部之外的各个身体部位之间的比例参数。
可选地,所述通过所述端对端的序列学习模型处理所述目标虚拟主播的人脸特征参数和所述图像素材,得到所述换脸虚拟主播的人脸特征参数,包括:
通过所述端对端的序列学习模型的嵌入层对所述图像素材进行映射,得到所述换脸虚拟主播的换脸后面部特征;
通过所述端对端的序列学习模型的前馈转换器处理所述换脸后面部特征和所述目标虚拟主播的人脸特征参数,得到所述换脸后面部特征对应的换脸面部特征向量,以及与所述目标虚拟主播的人脸特征参数对应的第二文本编码特征;
将所述换脸面部特征向量与所述第二文本编码特征对齐后进行拼帧和解码,得到所述换脸虚拟主播的面部特征运动参数。
可选地,所述根据所述换脸虚拟主播的人脸特征参数,将所述候选虚拟人脸融合到历史视频素材上,得到换脸后视频素材,包括:
将所述换脸虚拟主播的面部特征运动参数输入到所述换脸虚拟主播绑定的肌肉模型中,驱动所述换脸虚拟主播的面部特征进行运动,以得到所述换脸后视频素材。
第二方面,本发明实施例提供一种虚拟主播换脸装置,包括:
第一处理单元,用于通过端对端的序列学习模型处理目标虚拟主播的历史视频素材,得到所述目标虚拟主播的人脸特征参数;
素材生成单元,用于使用候选虚拟人脸对所述目标虚拟主播进行换脸,得到对应换脸虚拟主播的图像素材;
第二处理单元,用于通过所述端对端的序列学习模型处理所述目标虚拟主播的人脸特征参数和所述图像素材,得到所述换脸虚拟主播的人脸特征参数;
换脸处理单元,用于根据所述换脸虚拟主播的人脸特征参数,将所述候选虚拟人脸融合到历史视频素材上,得到换脸后视频素材。
可选地,所述目标虚拟主播的人脸特征参数,包括:
所述目标虚拟主播在不同表情下的面部特征运动参数;或者
所述目标虚拟主播在不同表情下的面部特征运动参数和如下至少一种附加参数:所述目标虚拟主播的脸部轮廓参数、所述目标虚拟主播的面部特征比例参数、所述目标虚拟主播的性别特征参数、所述目标虚拟主播的头部与所述目标虚拟主播除所述头部之外的各个身体部位之间的比例参数。
可选地,所述第一处理单元包括:
第一映射单元,用于通过所述端对端的序列学习模型的嵌入层对历史视频素材进行映射,得到所述目标虚拟主播的原始面部特征,以及与所述原始面部特征对应的源文本特征;
第一编码单元,用于通过所述端对端的序列学习模型的前馈转换器处理所述原始面部特征和所述源文本特征,得到与所述原始面部特征对应的原始面部特征向量,以及与所述源文本特征对应的第一文本编码特征;
第一对齐单元,用于将所述原始面部特征向量与所述第一文本编码特征对齐后进行拼帧和解码,得到所述目标虚拟主播的面部特征运动参数。
可选地,所述素材生成单元,包括:
确定子单元,用于确定候选虚拟人脸;
人脸融合子单元,用于针对所述历史视频素材上的目标虚拟主播,将所述候选虚拟人脸与所述目标虚拟主播的人脸部位进行人脸融合,作为所述对应换脸虚拟主播的图像素材。
可选地,所述换脸虚拟主播的人脸特征相关参数,包括:
所述换脸虚拟主播在不同表情下的面部特征运动参数;或者
所述换脸虚拟主播在不同表情下的面部特征运动参数和如下至少一种附加参数:所述换脸虚拟主播的脸部轮廓参数、所述换脸虚拟主播的面部特征比例参数、所述换脸虚拟主播的性别特征参数、所述换脸虚拟主播的头部与所述换脸虚拟主播上除所述头部之外的各个身体部位之间的比例参数。
可选地,所述第二处理单元,包括:
第二映射单元,用于通过所述端对端的序列学习模型的嵌入层对所述图像素材进行映射,得到所述换脸虚拟主播的换脸后面部特征;
第二编码单元,用于通过所述端对端的序列学习模型的前馈转换器处理所述换脸后面部特征和所述目标虚拟主播的人脸特征参数,得到所述换脸后面部特征对应的换脸面部特征向量,以及与所述目标虚拟主播的人脸特征参数对应的第二文本编码特征;
第二对齐单元,用于将所述换脸面部特征向量与所述第二文本编码特征对齐后进行拼帧和解码,得到所述换脸虚拟主播的面部特征运动参数。
可选地,所述换脸处理单元,具体用于:
将所述换脸虚拟主播的面部特征运动参数输入到所述换脸虚拟主播绑定的肌肉模型中,驱动所述换脸虚拟主播的面部运动,以得到所述换脸后视频素材。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述方法的任意一种实现方式。
第四方面、本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述方法的任意一种实现方式。
本发明实施例提供的一个或者多个技术方案,至少实现了如下技术效果或者优点:
使用候选虚拟人脸对目标虚拟主播进行换脸,得到对应换脸虚拟主播的图像素材;通过端对端的序列学习模型处理目标虚拟主播的人脸特征参数和图像素材,得到换脸虚拟主播的人脸特征参数;根据换脸虚拟主播的人脸特征参数,将候选虚拟人脸融合到历史视频素材上,得到换脸后视频素材,不是生硬的将一个人脸贴到历史视频素材上,而是结合了换脸前后的人脸特征参数,保证了换脸后视频素材上,虚拟主播的面部特征运动自然、协调,实现了生成高质量的换脸后视频素材,且提高了基于虚拟主播的视频素材的利用率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例中虚拟主播换脸方法的流程图;
图2为本发明实施例中虚拟主播换脸装置的功能模块图;
图3为本发明实施例中电子设备的结构示意图。
具体实施方式
本发明实施例提供的虚拟主播换脸方法、装置及电子设备,通过端对端的序列学习模型处理目标虚拟主播的历史视频素材,得到目标虚拟主播的人脸特征参数;使用候选虚拟人脸对目标虚拟主播进行换脸,得到对应换脸虚拟主播的图像素材;通过端对端的序列学习模型处理目标虚拟主播的人脸特征参数和所述图像素材,得到换脸虚拟主播的人脸特征参数;根据换脸虚拟主播的人脸特征参数,将候选虚拟人脸融合到历史视频素材上,得到换脸后视频素材。
通过本发明实施例提供的上述技术方案,不仅可以提高基于虚拟主播的视频素材的利用率,且保证了换脸后视频素材中的质量。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例提供的技术方案进行清楚、完整地描述:
第一方面,本发明实施例提供一种虚拟主播换脸。参考图1所示,图1为本发明实施例中虚拟主播换脸方法的流程图,本发明实施例提供的虚拟主播换脸方法包括如下步骤:
S101:通过端对端的序列学习模型处理目标虚拟主播的历史视频素材,得到目标虚拟主播的人脸特征参数。
在实际应用中,历史视频素材可以是以该目标虚拟主播进行播报的一段视频片段,比如,可以是:目标虚拟主播进行的30分钟新闻播报片段,或者目标虚拟主播进行的1小时教学视频等等。其中,目标虚拟主播是通过对某一真人进行建模得到的数字人类(Digital Human),通过文本驱动创建的目标虚拟主播,能够进行新闻播报、虚拟教师、虚拟医生、或者虚拟客服。目标虚拟主播在历史视频素材中呈现的是半身形象、全身形象或者头部形象。而本发明实施例的虚拟主播换脸针对的是仅仅目标虚拟主播的脸部或者头部。
本发明实施例所使用的端对端的序列学习模型可以是端到端的文本语音转换模型,比如:FastSpeech模型或者基于深度神经网络的端到端文本语音转换模型,其中,FastSpeech模型是采用基于Transformer和一维卷积中自注意力机制的前馈网络,形成的序列学习模型。
具体的,就FastSpeech模型而言,借助以历史视频素材作为对FastSpeech模型进行训练的样本,对FastSpeech模型进行训练的过程,从该历史视频素材中提取出目标虚拟主播的人脸特征参数。
在具体实施过程中,根据换脸方式的不同,提取目标虚拟主播的人脸特征参数的具体类型也相应有所不同,下面分别进行描述:
方式一:如果是基于与目标虚拟主播的脸部轮廓相同或者满足预设轮廓相似度的候选虚拟人脸,对历史视频素材中的目标虚拟主播进行换脸,则仅仅提取出目标虚拟主播在不同表情下的面部特征运动参数。
需要说明的是,候选虚拟人脸可以是对另一真人进行脸部建模得到的数字人脸。或者从数字人脸库中筛选出的虚拟人脸。具体的,候选虚拟人脸与目标虚拟主播的相貌不同。下面,对FastSpeech模型处理历史视频素材,以提取出目标虚拟主播在不同表情下的面部特征运动参数的实施过程进行更为详细的描述:
首先,执行步骤A1:通过FastSpeech模型的嵌入层(embedding)对历史视频素材进行映射,以采集到目标虚拟主播的原始面部特征,以及与原始面部特征对应的源文本特征;其中,源文本特征为音素级别。
接着,执行步骤A2:通过FastSpeech模型的前馈转换器(Feed ForwardTransformer)处理步骤1的原始面部特征和源文本特征,得到与原始面部特征对应的原始面部特征向量,以及与源文本特征对应的第一文本编码特征;其中,原始面部特征向量是用于进行面部表情以及唇部运动的特征表示,而第一文本编码特征是音素级别。
再接着,执行步骤A3:将原始面部特征向量与第一文本编码特征进行对齐,可以使用持续时间预测器将原始面部特征向量与第一文本编码特征对齐,对齐后进行拼帧和解码,得到目标虚拟主播的面部特征运动参数序列,即得到了目标虚拟主播在不同表情下的面部特征运动参数。
针对步骤A3的处理过程,更具体来讲,包含:通过FastSpeech模型对音素级的第一文本编码向量与原始面部特征向量进行拼帧,将拼帧得到的帧级编码特征经过FastSpeech模型的解码器进行解码处理,得到面部特征运动参数,并且将帧级编码特征经过FastSpeech模型的梯度反转层(Gradient Reversal Layer,GRL),使得在反向传播过程中梯度方向自动取反,在前向传播过程中实现恒等变换,将经过梯度反转层的帧级编码特征输入到运动参数分类器,得到对应的分类概率。
由于FastSpeech模型是使用了前馈转换器的一种非自回归模型,无需明确依赖先前的元素,相对于采用的基于编码器-注意-解码器的体系结构来进行基于序列的学习而言,本发明实施例实现了并行生成面部特征运动参数序列,从而能够高效处理历史视频素材。
具体的,面部特征运动参数序列中包含了多组面部特征运动参数,其中,每组面部特征运动参数包含:面部肌肉、眼睛、鼻子、眉毛、嘴巴等面部特征的运动参数。
需要说明的是,本发明实施例中的源文本特征可以包括:音素特征和/或语义特征等。进一步的,音素是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个发音动作构成一个音素。具体的,音素特征与原始面部特征顺次对应。其中,面部特征包含:表情特征和唇部特征,其中,表情是表达感情、情意,可以指表现在面部的思想感情。表情特征通常是针对整个面部的。唇部特征可以专门针对唇部,而且跟文本的文本内容、语音、发音方式等都有关系,从而可以通过面部特征运动参数促使面部表情和唇动更逼真且更细腻。
方式二:如果是基于任意一个候选虚拟人脸对历史视频素材中的目标虚拟主播进行换脸。比如:候选虚拟人脸与目标虚拟主播的性别不同、脸型不同等等,为了提高换脸效果。对于提取目标虚拟主播的人脸特征参数,除了提取出目标虚拟主播在历史视频素材下的面部特征运动参数序列,还提取目标虚拟主播的脸部轮廓参数、面部特征比例参数、性别特征参数等等中的一种或者多种。具体的,对于面部轮廓参数、面部特征比例参数、性别特征参数的提取,均可以采用现有方式,或者采用与上述步骤A1-A3相同的实施方式进行提取,为了说明书的简洁,在此不再进行赘述。
方式三、如果是基于候选虚拟人脸,直接对历史视频素材中的目标虚拟主播替换头部,而不仅仅是脸部。那么,对于提取目标虚拟主播的人脸特征参数,除了提取出目标虚拟主播在不同表情下的面部特征运动参数之外,还需要提取目标虚拟主播的头部特征、目标虚拟主播的头部与目标虚拟主播上除头部之外的各个身体部位之间的比例参数,比如:目标虚拟主播的头部与颈部之间的比例。具体的,目标虚拟主播的头部特征、目标虚拟主播的头部与目标虚拟主播上除头部之外的各个身体部位之间的比例参数,可以采用现有方式提取,或者采用与上述步骤A1-A3相同的实施方式进行提取,为了说明书的简洁,在此不再进行赘述。
步骤S102:使用候选虚拟人脸对目标虚拟主播进行换脸,得到对应换脸虚拟主播的图像素材。
具体的,为了让换脸虚拟主播的人脸效果更自然,在本发明实施例中,可以采用离线处理的方式,将确定出的候选虚拟人脸与目标虚拟主播的面部进行融合,得到换脸虚拟主播对应的图像素材。由于图像素材中的换脸虚拟主播融合了目标虚拟主播和候选虚拟人脸的脸部特征,使得换脸后效果更加自然。下面,对候选虚拟人脸与目标虚拟主播的面部进行融合的过程进行详细描述:
首先,需要设定融合度α(0=<α<=1),对候选虚拟人脸进行人脸关键点检测,得到候选虚拟人脸的人脸关键点;对历史视频素材上的目标虚拟主播进行人脸关键点检测,得到目标虚拟主播的人脸关键点。对候选虚拟人脸的人脸关键点、以及目标虚拟主播的人脸关键点分别进行仿射变换,得到对应的仿射后人脸图像;根据设定的融合度α将两个仿射后人脸图像点进行加权平均,得到融合后图像,融合后图像就是包含了换脸虚拟主播对应的图像素材。融合度α的数值决定了人脸融合后的虚拟主播形象的脸部与候选虚拟人脸以及目标虚拟主播相貌的接近程度;其中,α等于0.5时,相当于候选虚拟人脸与目标虚拟主播的人脸进行平均。
S103:通过端对端的序列学习模型处理目标虚拟主播的人脸特征参数和图像素材,得到换脸虚拟主播的人脸特征参数。
具体的,得到换脸虚拟主播的人脸特征参数与目标虚拟主播的人脸特征参数是相应的,因此,换脸虚拟主播的人脸特征参数包括:换脸虚拟主播在不同表情下的面部特征运动参数。或者同时包括:换脸虚拟主播在不同表情下的面部特征运动参数和如下至少一种附加参数:换脸虚拟主播的脸部轮廓参数、换脸虚拟主播的面部特征比例参数、换脸虚拟主播的性别特征参数、换脸虚拟主播的头部与换脸虚拟主播上除头部之外的各个身体部位之间的比例参数。
其中,换脸虚拟主播在不同表情下的面部特征运动参数,可以通过端对端的序列学习模型提取得到,具体流程如下:
步骤B1:通过端对端的序列学习模型的嵌入层对图像素材进行映射,得到换脸虚拟主播的换脸后面部特征;
步骤B2:通过端对端的序列学习模型的前馈转换器处理换脸后面部特征和目标虚拟主播的人脸特征参数,得到换脸后面部特征对应的换脸面部特征向量,以及与目标虚拟主播的人脸特征参数对应的第二文本编码特征;
步骤B3:将换脸面部特征向量与第二文本编码特征对齐后进行拼帧和解码,得到换脸虚拟主播的面部特征运动参数。
在具体实施时,步骤B1-B3的更多实施细节可以参考前文对步骤A1-A3的详细描述,为了说明书的简洁,在此不再赘述。
而换脸虚拟主播的脸部轮廓参数、换脸虚拟主播的面部特征比例参数、换脸虚拟主播的性别特征参数、换脸虚拟主播的头部与换脸虚拟主播上除头部之外的各个身体部位之间的比例参数,可采用现有技术或者与上述步骤B1-B3的相似实施方式进行提取。
S104:根据换脸虚拟主播的人脸特征参数,将候选虚拟人脸融合到历史视频素材上,得到换脸后视频素材。
具体的,是将换脸虚拟主播的面部特征运动参数输入到换脸虚拟主播绑定的肌肉模型中,驱动换脸虚拟主播的面部特征进行运动,以得到换脸后视频素材。
第二方面,基于与前述虚拟主播换脸方法的同样发明构思,本发明实施例提供一种本发明实施例提供一种虚拟主播换脸装置,参考图2所示,包括:
第一处理单元201,用于通过端对端的序列学习模型处理目标虚拟主播的历史视频素材,得到目标虚拟主播的人脸特征参数;
素材生成单元202,用于使用候选虚拟人脸对目标虚拟主播进行换脸,得到对应换脸虚拟主播的图像素材;
第二处理单元203,用于通过端对端的序列学习模型处理目标虚拟主播的人脸特征参数和图像素材,得到换脸虚拟主播的人脸特征参数;
换脸处理单元204,用于根据换脸虚拟主播的人脸特征参数,将候选虚拟人脸融合到历史视频素材上,得到换脸后视频素材。
可选地,目标虚拟主播的人脸特征参数,包括:
目标虚拟主播在不同表情下的面部特征运动参数;或者
目标虚拟主播在不同表情下的面部特征运动参数和如下至少一种附加参数:目标虚拟主播的脸部轮廓参数、目标虚拟主播的面部特征比例参数、目标虚拟主播的性别特征参数、目标虚拟主播的头部与目标虚拟主播除头部之外的各个身体部位之间的比例参数。
可选地,第一处理单元201包括:
第一映射单元,用于通过端对端的序列学习模型的嵌入层对历史视频素材进行映射,得到目标虚拟主播的原始面部特征,以及与原始面部特征对应的源文本特征;
第一编码单元,用于通过端对端的序列学习模型的前馈转换器处理原始面部特征和源文本特征,得到与原始面部特征对应的原始面部特征向量,以及与源文本特征对应的第一文本编码特征;
第一对齐单元,用于将原始面部特征向量与第一文本编码特征对齐后进行拼帧和解码,得到目标虚拟主播的面部特征运动参数。
可选地,素材生成单元202,包括:
确定子单元,用于确定候选虚拟人脸;
人脸融合子单元,用于针对历史视频素材上的目标虚拟主播,将候选虚拟人脸与目标虚拟主播的人脸部位进行人脸融合,作为对应换脸虚拟主播的图像素材。
可选地,换脸虚拟主播的人脸特征相关参数,包括:
换脸虚拟主播在不同表情下的面部特征运动参数;或者
换脸虚拟主播在不同表情下的面部特征运动参数和如下至少一种附加参数:换脸虚拟主播的脸部轮廓参数、换脸虚拟主播的面部特征比例参数、换脸虚拟主播的性别特征参数、换脸虚拟主播的头部与换脸虚拟主播上除头部之外的各个身体部位之间的比例参数。
可选地,第二处理单元203,包括:
第二映射单元,用于通过端对端的序列学习模型的嵌入层对图像素材进行映射,得到换脸虚拟主播的换脸后面部特征;
第二编码单元,用于通过端对端的序列学习模型的前馈转换器处理换脸后面部特征和目标虚拟主播的人脸特征参数,得到换脸后面部特征对应的换脸面部特征向量,以及与目标虚拟主播的人脸特征参数对应的第二文本编码特征;
第二对齐单元,用于将换脸面部特征向量与第二文本编码特征对齐后进行拼帧和解码,得到换脸虚拟主播的面部特征运动参数。
可选地,换脸处理单元204,具体用于:
将换脸虚拟主播的面部特征运动参数输入到换脸虚拟主播绑定的肌肉模型中,驱动换脸虚拟主播的面部运动,以得到换脸后视频素材。
本发明实施例提供的虚拟主播换脸装置的具体实施细节可以参考虚拟主播换脸方法实施例的描述,该虚拟主播换脸装置结合了换脸前后的人脸特征参数,保证了换脸后视频素材上,主播的面部特征运动自然、协调,实现了生成高质量的换脸后视频素材,且可以提高基于虚拟主播的视频素材的利用率。
图3是根据一示例性实施例示出的一种实现虚拟主播换脸的电子设备800的框图。例如,电子设备800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图3,电子设备800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类别的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类别的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理***,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述按键误触纠错方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本发明还提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行上述本发明方法实施例中的全部或部分步骤。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种虚拟主播换脸方法,其特征在于,包括:
通过端对端的序列学习模型处理目标虚拟主播的历史视频素材,得到所述目标虚拟主播的人脸特征参数;
使用候选虚拟人脸对所述目标虚拟主播进行换脸,得到对应换脸虚拟主播的图像素材;
通过所述端对端的序列学习模型处理所述目标虚拟主播的人脸特征参数和所述图像素材,得到所述换脸虚拟主播的人脸特征参数;
根据所述换脸虚拟主播的人脸特征参数,将所述候选虚拟人脸融合到历史视频素材上,得到换脸后视频素材。
2.如权利要求1所述的方法,其特征在于,所述目标虚拟主播的人脸特征参数,包括:
所述目标虚拟主播在不同表情下的面部特征运动参数;或者
所述目标虚拟主播在不同表情下的面部特征运动参数和如下至少一种附加参数:所述目标虚拟主播的脸部轮廓参数、所述目标虚拟主播的面部特征比例参数、所述目标虚拟主播的性别特征参数、所述目标虚拟主播的头部与所述目标虚拟主播除所述头部之外的各个身体部位之间的比例参数。
3.如权利要求2所述的方法,其特征在于,所述通过端对端的序列学习模型处理目标虚拟主播的历史视频素材,得到所述目标虚拟主播的人脸特征参数,包括:
通过所述端对端的序列学习模型的嵌入层对历史视频素材进行映射,得到所述目标虚拟主播的原始面部特征,以及与所述原始面部特征对应的源文本特征;
通过所述端对端的序列学习模型的前馈转换器处理所述原始面部特征和所述源文本特征,得到与所述原始面部特征对应的原始面部特征向量,以及与所述源文本特征对应的第一文本编码特征;
将所述原始面部特征向量与所述第一文本编码特征对齐后进行拼帧和解码,得到所述目标虚拟主播的面部特征运动参数。
4.如权利要求1所述的方法,其特征在于,所述根据候选虚拟人脸对所述目标虚拟主播进行换脸,得到换脸虚拟主播的图像素材,包括:
确定候选虚拟人脸;
针对所述历史视频素材上的目标虚拟主播,将所述候选虚拟人脸与所述目标虚拟主播的人脸部位进行人脸融合,作为所述对应换脸虚拟主播的图像素材。
5.如权利要求1所述的方法,其特征在于,所述换脸虚拟主播的人脸特征参数,包括:
所述换脸虚拟主播在不同表情下的面部特征运动参数;或者
所述换脸虚拟主播在不同表情下的面部特征运动参数和如下至少一种附加参数:所述换脸虚拟主播的脸部轮廓参数、所述换脸虚拟主播的面部特征比例参数、所述换脸虚拟主播的性别特征参数、所述换脸虚拟主播的头部与所述换脸虚拟主播上除所述头部之外的各个身体部位之间的比例参数。
6.如权利要求5所述的方法,其特征在于,所述通过所述端对端的序列学习模型处理所述目标虚拟主播的人脸特征参数和所述图像素材,得到所述换脸虚拟主播的人脸特征参数,包括:
通过所述端对端的序列学习模型的嵌入层对所述图像素材进行映射,得到所述换脸虚拟主播的换脸后面部特征;
通过所述端对端的序列学习模型的前馈转换器处理所述换脸后面部特征和所述目标虚拟主播的人脸特征参数,得到所述换脸后面部特征对应的换脸面部特征向量,以及与所述目标虚拟主播的人脸特征参数对应的第二文本编码特征;
将所述换脸面部特征向量与所述第二文本编码特征对齐后进行拼帧和解码,得到所述换脸虚拟主播的面部特征运动参数。
7.如权利要求1所述的方法,其特征在于,所述根据所述换脸虚拟主播的人脸特征参数,将所述候选虚拟人脸融合到历史视频素材上,得到换脸后视频素材,包括:
将所述换脸虚拟主播的面部特征运动参数输入到所述换脸虚拟主播绑定的肌肉模型中,驱动所述换脸虚拟主播的面部特征进行运动,以得到所述换脸后视频素材。
8.一种虚拟主播换脸装置,其特征在于,包括:
第一处理单元,用于通过端对端的序列学习模型处理目标虚拟主播的历史视频素材,得到所述目标虚拟主播的人脸特征参数;
素材生成单元,用于使用候选虚拟人脸对所述目标虚拟主播进行换脸,得到对应换脸虚拟主播的图像素材;
第二处理单元,用于通过所述端对端的序列学习模型处理所述目标虚拟主播的人脸特征参数和所述图像素材,得到所述换脸虚拟主播的人脸特征参数;
换脸处理单元,用于根据所述换脸虚拟主播的人脸特征参数,将所述候选虚拟人脸融合到历史视频素材上,得到换脸后视频素材。
9.一种电子设备,包括存储器、一个或多个处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述的方法。
CN202010420711.XA 2020-05-18 2020-05-18 虚拟主播换脸方法、装置、电子设备及存储介质 Active CN113691833B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010420711.XA CN113691833B (zh) 2020-05-18 2020-05-18 虚拟主播换脸方法、装置、电子设备及存储介质
PCT/CN2021/078248 WO2021232878A1 (zh) 2020-05-18 2021-02-26 虚拟主播换脸方法、装置、电子设备及存储介质
US17/989,323 US20230082830A1 (en) 2020-05-18 2022-11-17 Method and apparatus for driving digital human, and electronic device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010420711.XA CN113691833B (zh) 2020-05-18 2020-05-18 虚拟主播换脸方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113691833A true CN113691833A (zh) 2021-11-23
CN113691833B CN113691833B (zh) 2023-02-03

Family

ID=78575581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010420711.XA Active CN113691833B (zh) 2020-05-18 2020-05-18 虚拟主播换脸方法、装置、电子设备及存储介质

Country Status (2)

Country Link
CN (1) CN113691833B (zh)
WO (1) WO2021232878A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114245155A (zh) * 2021-11-30 2022-03-25 北京百度网讯科技有限公司 直播方法、装置及电子设备
CN114241558B (zh) * 2021-12-15 2024-06-28 平安科技(深圳)有限公司 模型的训练方法、视频生成方法和装置、设备、介质
CN115984427B (zh) * 2022-12-08 2024-05-17 上海积图科技有限公司 基于音频的动画合成方法、装置、设备及存储介质
CN115661005B (zh) * 2022-12-26 2023-05-12 成都索贝数码科技股份有限公司 一种定制数字人的生成方法及设备
CN116996630B (zh) * 2023-08-02 2024-07-12 北京中科闻歌科技股份有限公司 实时问答虚拟人视频生成方法、电子设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BRPI0904540A2 (pt) * 2009-11-27 2011-07-12 Samsung Eletronica Da Amazonia Ltda método de sìntese de movimento labial para animação de cabeças virtuais através do processamento de voz em dispositivos portáteis
WO2016177290A1 (zh) * 2015-05-06 2016-11-10 北京蓝犀时空科技有限公司 为自由组合创作的虚拟形象生成及使用表情的方法和***
CN107911644A (zh) * 2017-12-04 2018-04-13 吕庆祥 基于虚拟人脸表情进行视频通话的方法及装置
CN109670427A (zh) * 2018-12-07 2019-04-23 腾讯科技(深圳)有限公司 一种图像信息的处理方法、装置及存储介质
KR20190052832A (ko) * 2017-11-09 2019-05-17 (주)코아시아 쓰리디 시뮬레이션이 가능한 가상헤어스타일피팅미러 장치 및 시스템
CN110136229A (zh) * 2019-05-27 2019-08-16 广州亮风台信息科技有限公司 一种用于实时虚拟换脸的方法与设备
CN110390704A (zh) * 2019-07-11 2019-10-29 深圳追一科技有限公司 图像处理方法、装置、终端设备及存储介质
CN110866968A (zh) * 2019-10-18 2020-03-06 平安科技(深圳)有限公司 基于神经网络生成虚拟人物视频的方法及相关设备
CN110889454A (zh) * 2019-11-29 2020-03-17 上海能塔智能科技有限公司 模型训练方法、装置、情绪识别方法、装置、设备与介质
CN110929553A (zh) * 2018-09-19 2020-03-27 未来市股份有限公司 通过数据融合产生脸部表情的方法、装置及头戴式显示器
CN111010589A (zh) * 2019-12-19 2020-04-14 腾讯科技(深圳)有限公司 基于人工智能的直播方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101373014B1 (ko) * 2007-09-14 2014-03-13 삼성전자주식회사 얼굴 관리를 위한 디지털 영상 처리 장치의 제어 방법 및이 방법을 채용한 디지털 영상 처리 장치
CN112995706B (zh) * 2019-12-19 2022-04-19 腾讯科技(深圳)有限公司 基于人工智能的直播方法、装置、设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BRPI0904540A2 (pt) * 2009-11-27 2011-07-12 Samsung Eletronica Da Amazonia Ltda método de sìntese de movimento labial para animação de cabeças virtuais através do processamento de voz em dispositivos portáteis
WO2016177290A1 (zh) * 2015-05-06 2016-11-10 北京蓝犀时空科技有限公司 为自由组合创作的虚拟形象生成及使用表情的方法和***
KR20190052832A (ko) * 2017-11-09 2019-05-17 (주)코아시아 쓰리디 시뮬레이션이 가능한 가상헤어스타일피팅미러 장치 및 시스템
CN107911644A (zh) * 2017-12-04 2018-04-13 吕庆祥 基于虚拟人脸表情进行视频通话的方法及装置
CN110929553A (zh) * 2018-09-19 2020-03-27 未来市股份有限公司 通过数据融合产生脸部表情的方法、装置及头戴式显示器
CN109670427A (zh) * 2018-12-07 2019-04-23 腾讯科技(深圳)有限公司 一种图像信息的处理方法、装置及存储介质
CN110136229A (zh) * 2019-05-27 2019-08-16 广州亮风台信息科技有限公司 一种用于实时虚拟换脸的方法与设备
CN110390704A (zh) * 2019-07-11 2019-10-29 深圳追一科技有限公司 图像处理方法、装置、终端设备及存储介质
CN110866968A (zh) * 2019-10-18 2020-03-06 平安科技(深圳)有限公司 基于神经网络生成虚拟人物视频的方法及相关设备
CN110889454A (zh) * 2019-11-29 2020-03-17 上海能塔智能科技有限公司 模型训练方法、装置、情绪识别方法、装置、设备与介质
CN111010589A (zh) * 2019-12-19 2020-04-14 腾讯科技(深圳)有限公司 基于人工智能的直播方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
任梦园: "基于人脸特征的三维重建及脸部动画", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Also Published As

Publication number Publication date
WO2021232878A1 (zh) 2021-11-25
CN113691833B (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
CN113691833B (zh) 虚拟主播换脸方法、装置、电子设备及存储介质
CN109637518B (zh) 虚拟主播实现方法及装置
CN108363706B (zh) 人机对话交互的方法和装置、用于人机对话交互的装置
CN110210310B (zh) 一种视频处理方法、装置和用于视频处理的装置
CN111553864B (zh) 图像修复方法及装置、电子设备和存储介质
CN110458218B (zh) 图像分类方法及装置、分类网络训练方法及装置
CN113689879B (zh) 实时驱动虚拟人的方法、装置、电子设备及介质
CN109840917B (zh) 图像处理方法及装置、网络训练方法及装置
CN109711546B (zh) 神经网络训练方法及装置、电子设备和存储介质
CN110490164B (zh) 生成虚拟表情的方法、装置、设备及介质
CN113642394B (zh) 一种虚拟对象的动作处理方法、装置和介质
CN114266840A (zh) 图像处理方法、装置、电子设备及存储介质
CN112597944B (zh) 关键点检测方法及装置、电子设备和存储介质
CN110991329A (zh) 一种语义分析方法及装置、电子设备和存储介质
CN110633470A (zh) 命名实体识别方法、装置及存储介质
CN115273831A (zh) 语音转换模型训练方法、语音转换方法和装置
CN110349577B (zh) 人机交互方法、装置、存储介质及电子设备
CN110321829A (zh) 一种人脸识别方法及装置、电子设备和存储介质
CN111145080B (zh) 一种图像生成模型的训练方法、图像生成方法及装置
CN113689880B (zh) 实时驱动虚拟人的方法、装置、电子设备及介质
CN112613447A (zh) 关键点检测方法及装置、电子设备和存储介质
CN113115104B (zh) 视频处理方法、装置、电子设备及存储介质
CN113709548B (zh) 基于图像的多媒体数据合成方法、装置、设备及存储介质
CN108024005B (zh) 信息处理方法、装置、智能终端、服务器和***
CN114155849A (zh) 一种虚拟对象的处理方法、装置和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant