CN116912375A - 面部动画生成方法、装置、电子设备及存储介质 - Google Patents

面部动画生成方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116912375A
CN116912375A CN202310878945.2A CN202310878945A CN116912375A CN 116912375 A CN116912375 A CN 116912375A CN 202310878945 A CN202310878945 A CN 202310878945A CN 116912375 A CN116912375 A CN 116912375A
Authority
CN
China
Prior art keywords
audio
facial
voice
feature
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310878945.2A
Other languages
English (en)
Inventor
徐波
袁志勇
李传胜
姚云飞
欧阳晔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asiainfo Technologies China Inc
Original Assignee
Asiainfo Technologies China Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asiainfo Technologies China Inc filed Critical Asiainfo Technologies China Inc
Priority to CN202310878945.2A priority Critical patent/CN116912375A/zh
Publication of CN116912375A publication Critical patent/CN116912375A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请实施例提供了一种面部动画生成方法、装置、电子设备及存储介质,涉及人工智能技术领域。该方法包括:获取当前周期的音频的语音特征;通过语音驱动模型基于通道注意力机制和空间注意力机制,对语音特征进行注意力变换,确定当前周期的音频对应的面部动作数据;基于面部动作数据进行渲染,生成面部动画。本申请实施例提升了基于面部动作数据渲染得到的面部动画与对应音频之间的匹配度,提升了面部动画的效果。

Description

面部动画生成方法、装置、电子设备及存储介质
技术领域
本申请涉及人工智能技术领域,具体而言,本申请涉及一种面部动画生成方法、装置、电子设备及存储介质。
背景技术
虚拟数字人的发展与其制作技术密不可分,从最早的手绘、电脑绘图到现在通过AI(Artificial Intelligence,人工智能)合成。现在人工智能已经成为数字人不可分割的工具,智能驱动的数字人成为主流,数字人正朝着智能化、精细化的方向发展。
语音驱动面部动作是虚拟数字人合成中的关键步骤,语音驱动面部动作的主要原理是根据语音或音素信号生成数字人的面部动画信息,通过后续的渲染服务,达到面部表情和口型与声音匹配的效果。
目前,语音驱动面部动作的方法主要是通过对语音进行音素的划分,基于语音包含的每一种音素对应的口型,生成面部动画。现有的语音驱动面部动作的方法通过音素对应的口型合成面部动画,生成的面部动画单一、不连贯,面部动画效果较差。
发明内容
本申请实施例提供了一种面部动画生成方法、装置、电子设备及存储介质,可以解决现有技术中生成的面部动画单一、不连贯,面部动画效果较差的问题。
所述技术方案如下:
根据本申请实施例的一个方面,提供了一种面部动画生成方法,该方法包括:
获取当前周期的音频的语音特征;
通过语音驱动模型基于通道注意力机制和空间注意力机制,对所述语音特征进行注意力变换,确定所述当前周期的音频对应的面部动作数据;
其中,所述面部动作数据包括预设数量的面部动作类型以及与各个面部动作类型对应的动作系数;
基于所述面部动作数据进行渲染,生成面部动画。
可选地,所述基于通道注意力机制和空间注意力机制,对所述语音特征进行注意力变换,确定所述当前周期的音频对应的面部动作数据,包括:
基于通道注意力机制和空间注意力机制,对所述语音特征进行注意力变换,得到注意力特征;
对所述注意力特征进行解码处理,得到第一中间特征;
基于上一周期的音频对应的面部动作数据,对所述第一中间特征进行更新,基于更新后的第一中间特征,确定所述当前周期的音频对应的面部动作数据。
可选地,所述基于上一周期的音频对应的面部动作数据,对所述第一中间特征进行更新,包括:
对所述上一周期的音频对应的面部动作数据进行维度变换,得到与所述中间特征维度一致的第二中间特征;
对所述第一中间特征和所述第二中间特征进行加权,得到更新后的第一中间特征。
可选地,所述对所述第一中间特征和所述第二中间特征进行加权,得到更新后的第一中间特征,包括:
基于训练后的语音驱动模型的参数确定所述第一中间特征对应的第一权重,以及所述第二中间特征对应的第二权重;
基于所述第一中间特征及其对应的第一权重,以及所述第二中间特征及其对应的第二权重,确定更新后的第一中间特征。
可选地,所述基于通道注意力机制和空间注意力机制,对所述语音特征进行注意力变换,得到注意力特征,包括:
对所述语音特征进行编码处理,得到第一特征;
基于通道注意力机制,对所述第一特征进行注意力变换,得到第二特征;
基于空间注意力机制,对所述第二特征进行注意力变换,得到所述注意力特征。
可选地,所述获取当前周期的音频的语音特征,包括:
通过对待处理音频进行切分,确定当前周期的音频;
对所述当前周期的音频进行特征提取,得到所述当前周期的音频对应的语音特征。
可选地,所述对待处理音频进行切分,包括如下至少一项:
基于预设周期,对所述待处理音频进行切分;
基于所述待处理音频中的停顿信息,对所述待处理音频进行切分。
可选地,所述基于所述面部动作数据进行渲染,生成面部动画,包括:
通过渲染引擎基于所述当前周期的音频对应的面部动作数据以及所述当前周期的音频对三维形象进行渲染,得到面部动画。
根据本申请实施例的另一个方面,提供了一种面部动画生成装置,该装置包括:
语音特征获取模块,用于获取当前周期的音频的语音特征;
语音驱动模块,用于通过语音驱动模型基于通道注意力机制和空间注意力机制,对所述语音特征进行注意力变换,确定所述当前周期的音频对应的面部动作数据;
其中,所述面部动作数据包括预设数量的面部动作类型以及与各个面部动作类型对应的动作系数;
渲染模块,用于基于所述面部动作数据进行渲染,生成面部动画。
根据本申请实施例的另一个方面,提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述任一种面部动画生成方法的步骤。
根据本申请实施例的再一个方面,提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种面部动画生成方法的步骤。
本申请实施例提供的技术方案带来的有益效果是:
通过对当前周期的音频进行特征提取,得到语音特征,使得语音特征包含符合人耳听觉特性的频率、高低、时长等信息,有利于提升后续基于语音特征生成的面部动画与对应音频之间的匹配度。
将语音特征输入至语音驱动模型,通过语音驱动模型基于通道注意力机制和空间注意力机制对语音特征进行注意力变换,得到面部动作数据。利用通道注意力和空间注意力的双层注意力机制,提升了输出的面部动作数据的准确性,进一步提升了基于面部动作数据渲染得到的面部动画与对应音频之间的匹配度,提升了面部动画的效果,有利于提升用户的观看体验。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为现有技术中虚拟数字人***的结构示意图;
图2为非交互类数字人应用场景的示意图;
图3为交互类数字人应用场景的示意图;
图4为本申请实施例提供的一种面部动画生成方法的流程示意图;
图5为本申请实施例提供的一种注意力层的处理过程示意图;
图6为本申请实施例提供的另一种面部动画生成方法的流程示意图;
图7为本申请实施例提供的一种面部动画生成装置的结构示意图;
图8为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合本申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是,本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“A和/或B”可以实现为“A”,或者实现为“B”,或者实现为“A和B”。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
虚拟数字人是指具有数字化外形的虚拟人物。图1为现有技术中虚拟数字人***的结构示意图,其中交互模块在交互场景存在,非交互场景(如主播)可以不具备交互模块。
虚拟数字人的应用场景包括交互类数字人应用场景和非交互类数字人应用场景,图2为非交互类数字人应用场景的示意图,图3为交互类数字人应用场景的示意图,如图2和图3所示,语音驱动面部动作是虚拟数字人合成中的关键步骤,语音驱动面部动作的主要原理是根据语音或音素信号生成数字人的面部动画信息,通过后续的渲染服务,达到面部表情和口型与声音匹配的效果。
目前,语音驱动面部动作的方法主要是通过对语音进行音素的划分,基于语音包含的每一种音素对应的口型,生成面部动画。
音素是根据语音的自然属性划分出来的最小语音单位,从生理性质来看,一个发音动作形成一个音素。相同的发音动作发出的音对应同一音素,不同发音动作发出的音对应不同音素。例如,[mi:]和[maI]中,两个[m]的发音动作相同,是相同音素,[i:]和[aI]的发音动作不同,是不同音素。
对于一种音素,其对应的标准口型是固定的,因此基于同一文本内容的不同语音,生成的面部动画是相同的,但是实际中,即使是针对同一文本内容的不同语音,可能因为说话人发出的语音的语速、音调、音量等存在显著差异,其对应的面部动作并不相同。也就是说,现有技术中通过音素对应口型生成面部动画的过程中,忽略了语音中包含的实际的发音信息,从而导致生成的面部动画与对应的语音匹配度较低,面部动画效果较差。
此外,对于一种特定的语言,其对应的音素种类比较有限,导致生成的面部动画连贯性较差。而且对于不同的语言类型(例如,英语或汉语),其对应的音素也是不同的,因此现有的语音驱动面部动作方法对于不同的语言类型不具备通用性。
本申请提供的面部动画生成方法、装置、电子设备及存储介质,旨在解决现有技术的如上技术问题。
下面通过对几个示例性实施方式的描述,对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是,下述实施方式之间可以相互参考、借鉴或结合,对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等,不再重复描述。
图4为本申请实施例提供的一种面部动画生成方法的流程示意图,如图4所示,该方法包括:
步骤S110,获取当前周期的音频的语音特征。
具体地,在虚拟数字人的制作过程中,数字人的面部表情和口型需要与对应的声音一致,才能保持良好的观看体验。为了实现数字人的面部表情和口型与声音同步,可以先确定当前周期的音频,当前周期的音频可以为当前输入至语音驱动模型且在时长为一个预设周期的音频。
其中,可以一边采集音频,一边将采集得到的音频以流数据的形式输入至语音驱动模型。例如,可以按照预设周期,将一个周期内采集得到的音频依次输入至语音驱动模型;也可以先获取需要同步的待处理音频的完整文件,通过对待处理音频进行切分,确定当前周期的音频。
在确定当前周期的音频之后,可以对当前周期的音频进行特征提取,得到当前周期的音频对应的语音特征,语音特征可以为对应音频的语音信息的特征表示。通过对当前周期的音频进行特征提取,得到的语音特征,使得语音特征包含符合人耳听觉特性的频率、高低、时长等信息,有利于提升后续基于语音特征生成的面部动画与对应音频的匹配度。
步骤S120,通过语音驱动模型基于通道注意力机制和空间注意力机制,对语音特征进行注意力变换,确定当前周期的音频对应的面部动作数据;其中,面部动作数据包括预设数量的面部动作类型以及与各个面部动作类型对应的动作系数。
具体地,在确定当前周期的音频对应的语音特征之后,可以将语音特征输入至语音驱动模型,通过语音驱动模型基于通道注意力机制和空间注意力机制,对语音特征进行注意力变换,得到语音特征对应的面部动作数据。
可选地,语音驱动模型可以先基于通道注意力机制对语音特征进行通道注意力变换,得到第一语音特征,然后基于空间注意力机制对第一语音特征进行空间注意力变换,得到第二语音特征,并基于第二语音特征,确定对应的面部动作数据。
可选地,语音驱动模型可以先基于空间注意力机制对语音特征进行空间注意力变换,得到第一语音特征,然后基于通道注意力机制对第一语音特征进行通道注意力变换,得到第二语音特征,并基于第二语音特征,确定对应的面部动作数据。
本申请实施例对语音驱动模型中双层注意力机制的具体处理顺序不做限定。
通过语音驱动模型基于通道注意力机制和空间注意力机制对语音特征进行特征变换,其中空间注意力关注于图像的空间分布,能够提取出重要的位置信息,通道注意力关注于不同通道的重要性,能够突出重要的特征通道。通过结合通道注意力和空间注意力从不同的维度进行特征表示,使得模型能够自适应地关注和利用不同位置和通道的信息,提升了模型的性能,提升了基于注意力变换后的特征确定出的面部动作数据的准确性,进而提升生成的面部动画的效果。
在此基础上,还可以将语音驱动模型中最后一层设置为全连接层,语音特征经过包括通道注意力和空间注意力的双层注意力组件和解码处理后,输入至全连接层,通过全连接层进行映射,输出当前周期的音频对应的面部动作数据。
面部动作数据可以包括预设数量的面部动作类型以及与各个面部动作类型对应的动作系数。其中,面部动作类型用于反映面部表情的细节,一个面部动作类型可以对应一个面部部位(例如眼睛、眉毛、嘴唇等)的一个面部动作,面部动作类型对应的动作系数可以用于反映对应面部动作的运动信息。例如,面部动作类型可以为“眼睛眨动”,其对应的动作系数的取值范围为0-1,动作系数的数值越大,表示眼睛眨动的幅度越大。
可选地,面部动作数据可以用符合ARKit(一种虚拟现实开发框架)标准的52维BlendShape系数来表达。BlendShape是一种动画制作方式,与骨骼动画相比,它主要应用在很小的局部,可以使用52种面部动作类型来有效表达数字人的面部动作,提升了数字人的形象表达能力,既可以用在卡通形象的场景中,也可以用在真人写实形象的场景中。
现有技术中语音驱动的结果都是3D Mesh(三维网格)序列,序列中包含的顶点数量一般在1万以上,高清写实形象甚至可以达到百万级别。在实时渲染时,这个数量级Mesh序列信息对服务器性能要求非常高,无法有效支撑如虚拟助手等并发量比较高的场景。通过全连接层将面部动作数据格式设计52维BlendShape系数,避免了Mesh序列对渲染性能高要求的问题,降低了渲染的要求和部署成本。
进一步的,通过设计符合ARKit标准的面部动作数据,可以将面部动作数据应用到符合ARKit标准的3D形象上,应用范围广泛、通用性较强。
步骤S130,基于面部动作数据进行渲染,生成面部动画。
具体地,在确定当前周期的音频对应的面部动作数据之后,可以基于面部动作数据对3D形象进行渲染,生成对应的面部动画。其中,面部动画可以为视频文件或视频流。
可选地,渲染过程可以具体包括:
通过渲染引擎基于所述当前周期的音频对应的面部动作数据以及所述当前周期的音频对三维形象进行渲染,得到面部动画。
具体地,将当前周期的音频对应的面部动作数据,当前周期的音频,以及待渲染的三维形象输入至渲染引擎,通过渲染引擎合成面部动画的视频帧。其中,渲染引擎可以包括Unity3D(一种游戏引擎)、UE5(一种引擎)等。此外,渲染引擎在生成面部动画之后,还可以发布在线服务。
本申请实施例中,通过对当前周期的音频进行特征提取,得到语音特征,使得语音特征包含符合人耳听觉特性的频率、高低、时长等信息,有利于提升后续基于语音特征生成的面部动画与对应音频之间的匹配度。
将语音特征输入至语音驱动模型,通过语音驱动模型基于通道注意力机制和空间注意力机制对语音特征进行注意力变换,得到面部动作数据。利用通道注意力和空间注意力的双层注意力机制,提升了输出的面部动作数据的准确性,进一步提升了基于面部动作数据渲染得到的面部动画与对应音频之间的匹配度,提升了面部动画的效果,有利于提升用户的观看体验。
作为一种可选实施例,该方法中,基于通道注意力机制和空间注意力机制,对语音特征进行注意力变换,确定当前周期的音频对应的面部动作数据,包括:
基于通道注意力机制和空间注意力机制,对语音特征进行注意力变换,得到注意力特征;
对注意力特征进行解码处理,得到第一中间特征;
基于上一周期的音频对应的面部动作数据,对第一中间特征进行更新,基于更新后的第一中间特征,确定当前周期的音频对应的面部动作数据。
具体地,将语音特征输入至语音驱动模型,语音驱动模型可以先基于通道注意力机制和空间注意力机制对语音特征进行注意力变换,将经过注意力变换之后的语音特征作为注意力特征;然后对注意力特征进行解码,将解码后的特征作为第一中间特征。
在确定出第一中间特征之后,语音驱动模型可以确定上一周期的音频对应的面部动作数据,并结合上一周期的音频对应的面部动作数据和第一中间特征,生成更新后的第一中间特征,将更新后的第一中间特征输入至全连接层,得到全连接层输出的当前周期的音频对应的面部动作数据。
其中,上一周期的音频对应的面部动作数据可以是将上一周期的音频输入至语音驱动模型,语音驱动模型输出的对应的面部动作数据。上一周期的音频是相对于当前周期的音频而言的,上一周期的音频可以理解为排序在当前周期前一个周期的音频。
本申请实施例中,基于上一周期的声音和面部表情信息,来生成当前周期的音频对应的面部动作数据,既充分考虑了发音的连续性的特点,即实际说话时协同发音现象,又通过利用上下文之间的依赖关系,提升了面部动画的连贯性,进而提示了面部动画的效果。
作为一种可选实施例,该方法中,基于上一周期的音频对应的面部动作数据,对第一中间特征进行更新,包括:
对上一周期的音频对应的面部动作数据进行维度变换,得到与中间特征维度一致的第二中间特征;
对第一中间特征和第二中间特征进行加权,得到更新后的第一中间特征。
具体地,在上一周期的音频对应的面部动作数据之后,语音驱动模型可以对上一周期的音频对应的面部动作数据进行一系列维度变换,使得生成的第二中间特征与第一中间特征维度一致,以供后续对第一中间特征和第二中间特征进行向量运算。
在确定出第一中间特征和第二中间特征之后,可以对第一中间特征和第二中间特征进行加权处理,将加权得到的特征作为更新后的第一中间特征。
需要说明的是,在当前周期为第一个周期的情况下,由于第一个周期不存在上一周期,因此针对第一个周期的音频,可以将上一周期的音频对应的面部动作数据设置为0。
本申请实施例中,通过对第一中间特征和第二中间特征进行加权处理,充分利用了上下文之间的依赖关系,使得后续的生成的面部动画能够平衡过渡,提升了面部动画的连贯性。
作为一种可选实施例,该方法中,对第一中间特征和第二中间特征进行加权,得到更新后的第一中间特征,包括:
基于训练后的语音驱动模型的参数确定第一中间特征对应的第一权重,以及第二中间特征对应的第二权重;
基于第一中间特征及其对应的第一权重,以及第二中间特征及其对应的第二权重,确定更新后的第一中间特征。
具体地,在生成面部动画之前,可以预先训练得到语音驱动模型。在模型的训练阶段,可以将第一中间特征对应的第一权重以及第二中间特征对应的第二权重分别作为待训练的初始语音驱动模型中的参数。
通过对初始语音驱动模型重复执行训练操作,在训练操作中,基于损失函数对初始语音驱动模型中的参数进行调整,直至满足预设训练结束条件,例如损失函数收敛等,从而得到训练后的语音驱动模型。
语音驱动模型的参数包括第一权重和第二权重,可以基于训练后的语音驱动模型的参数,确定出第一中间特征对应的第一权重以及第二中间特征对应的第二权重,并基于第一中间特征和第二中间特征,及其分别对应的第一权重和第二权重,得到更新后的第一中间特征。
作为一种可选实施例,该方法中,基于通道注意力机制和空间注意力机制,对语音特征进行注意力变换,得到注意力特征,包括:
对语音特征进行编码处理,得到第一特征;
基于通道注意力机制,对第一特征进行注意力变换,得到第二特征;
基于空间注意力机制,对第二特征进行注意力变换,得到注意力特征。
具体地,将语音特征输入至语音驱动模型,语音驱动模型可以先对语音特征进行编码处理,将编码后得到的特征作为第一特征;基于通道注意力机制对第一特征进行通道注意力变换,得到第二特征,然后基于空间注意力机制对第二特征进行空间注意力变换,得到注意力特征。
本申请实施例中,通过对语音特征先进行通道注意力变换,再进行空间注意力变换,通道注意力变换可以帮助模型更好地捕捉不同通道之间的相关性和重要性,从而提取全局上下文信息,这种顺序可以使模型首先充分利用全局通道级别的信息,然后再根据每个位置的重要性增强局部感知能力;通过先进行通道注意力变换可以促使模型更多地关注重要特征通道,模型能够更好地抑制噪声、冗余和无关信息,有效提高模型的鲁棒性。
可选地,语音驱动模型可以包括注意力层,图5为本申请实施例提供的一种注意力层的处理过程示意图,如图5所示,注意力层进一步包括通道注意力层和空间注意力层,且通道注意力层与空间注意力层串联连接,通道注意力层和空间注意力层分别学习了通道的重要性和空间的重要性,顺序推导出沿通道和空间两个独立维度的注意力分布,然后将注意力权重与输入的编码后的特征相乘进行自适应特征细化,最后通过残差网络中的残差机制与编码后的特征进行合并操作,得到注意力变换后的特征。其中,输入至注意力层的特征,与注意力层输出的特征的维度一致。
作为一种可选实施例,获取当前周期的音频的语音特征,包括:
通过对待处理音频进行切分,确定当前周期的音频;
对当前周期的音频进行特征提取,得到当前周期的音频对应的语音特征。
具体地,可以预先确定待处理音频,待处理音频可以通过语音采集设备获取,其中,语音采集设备可以包括智能手机、平板电脑或话筒等;待处理音频也可以是从已有的音频文件中选取出来的,例如待处理音频可以为录制完成的配音文件,本申请实施例对待处理音频的处理方式不做具体限制。
在确定出待处理音频之后,可以通过对待处理音频进行切分,获取当前周期的音频。并对当前周期的音频进行特征提取,得到对应的语音特征,其中,语音特征可以包括MFCC(Mel Frequency Cepstrum Coefficient,梅尔频率倒谱系数)特征。
此外,在确定待处理音频之后,还可以对待处理音频进行降噪等预处理操作。
可选地,待处理音频的具体切分方式包括如下至少一项:
基于预设周期,对待处理音频进行切分;
基于待处理音频中的停顿信息,对待处理音频进行切分。
具体地,可以设置一个预设周期,例如1秒,然后根据预设周期将待处理音频切分为多个片段,作为各个周期对应的音频。
还可以基于待处理音频中的停顿信息,对待处理音频进行切分,得到至少两个子音频。其中,可以基于静默期检测法、短时能量比较法和VAD(Voice Activity Detection,端点检测)等方法来实现。
针对每个子音频,基于预设周期,对子音频进行进一步切分,进而得到各个周期对应的音频。
通过先根据待处理音频中的停顿信息进行一次切分,然后根据预设周期,进行二次切分,可以有效地减少无效的语音的干扰,保证了输入至语音驱动模型的音频的有效性。
图6为本申请实施例提供的一种面部动画生成方法的流程示意图,如图6所示,语音驱动模型包括顺次连接的编码层、注意力层、解码层和全连接层,语音驱动模型还包括自回归层。
在此基础上,该方法包括:
(1)获取当前周期的音频;
(2)对音频进行降噪等预处理,然后对音频进行特征提取,得到对应的语音特征,以适配后续语音驱动模型的接收格式要求;
(3)将语音特征输入至语音驱动模型,通过语音驱动模型中的编码层对语音特征进行降采样操作,得到编码后的特征,然后将编码后的特征输入至注意力层,通过注意力层基于通道注意力和空间注意力,进行注意力变换,得到注意力变换后的特征,将注意力变换后的特征输入至解码层,通过解码层对注意力变换后的特征进行上采样操作,得到解码后的特征;将上一周期的面部动作数据输入至自回归层,通过自回归层基于对解码后的特征和上一周期的面部动作数据进行融合,得到融合特征,将融合特征输入至全连接层,得到全连接层输出的当前周期的面部动作数据;
(4)通过渲染引擎基于所述当前周期的音频对应的面部动作数据以及所述当前周期的音频对三维形象进行渲染,得到面部动画。
本申请实施例提供的方法,通过直接利用语音编码结果,不采用从音频信息二次提取有限音素的方案,可以尽量保留个性化音调和发音信息等原始信息,有利于后续充分表达丰富的面部动作,提升面部动画效果。
基于语音生成面部动作数据的过程中,添加包含双层注意力的注意力层,通过空间注意力和通道注意力机制,从多个维度确定面部动作数据,提升面部动作数据的准确性。添加自回归层,通过上一周期的面部动作数据,确定当前周期的面部动作数据,保证了面部动画的平滑过渡,提升了面部动画的连贯性,进而提升了面部动画的效果。
图7为本申请实施例提供的一种面部动画生成装置的结构示意图,如图7所示,该装置包括:
语音特征获取模块210,用于获取当前周期的音频的语音特征;
语音驱动模块220,用于通过语音驱动模型基于通道注意力机制和空间注意力机制,对所述语音特征进行注意力变换,确定所述当前周期的音频对应的面部动作数据;
其中,所述面部动作数据包括预设数量的面部动作类型以及与各个面部动作类型对应的动作系数;
渲染模块230,用于基于所述面部动作数据进行渲染,生成面部动画。
作为一种可选实施例,该装置中,语音驱动模块包括:
注意力子模块,用于基于通道注意力机制和空间注意力机制,对所述语音特征进行注意力变换,得到注意力特征;
解码子模块,用于对所述注意力特征进行解码处理,得到第一中间特征;
自回归子模块,用于基于上一周期的音频对应的面部动作数据,对所述第一中间特征进行更新,基于更新后的第一中间特征,确定所述当前周期的音频对应的面部动作数据。
作为一种可选实施例,该装置中,自回归子模块包括:
维度变换单元,用于对所述上一周期的音频对应的面部动作数据进行维度变换,得到与所述中间特征维度一致的第二中间特征;
加权单元,用于对所述第一中间特征和所述第二中间特征进行加权,得到更新后的第一中间特征。
作为一种可选实施例,该装置中,加权单元具体用于:
基于训练后的语音驱动模型的参数确定所述第一中间特征对应的第一权重,以及所述第二中间特征对应的第二权重;
基于所述第一中间特征及其对应的第一权重,以及所述第二中间特征及其对应的第二权重,确定更新后的第一中间特征。
作为一种可选实施例,该装置中,注意力子模块具体用于:
对所述语音特征进行编码处理,得到第一特征;
基于通道注意力机制,对所述第一特征进行注意力变换,得到第二特征;
基于空间注意力机制,对所述第二特征进行注意力变换,得到所述注意力特征。
作为一种可选实施例,该装置中,语音特征获取模块包括:
切分子模块,用于通过对待处理音频进行切分,确定当前周期的音频;
特征提取子模块,用于对所述当前周期的音频进行特征提取,得到所述当前周期的音频对应的语音特征。
作为一种可选实施例,该装置中,切分子模块具体用于:
基于预设周期,对所述待处理音频进行切分;
基于所述待处理音频中的停顿信息,对所述待处理音频进行切分。
作为一种可选实施例,该装置中,渲染模块具体用于:
通过渲染引擎基于所述当前周期的音频对应的面部动作数据以及所述当前周期的音频对三维形象进行渲染,得到面部动画。
本申请实施例的装置可执行本申请实施例所提供的方法,其实现原理相类似,本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。
本申请实施例中提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行上述计算机程序以实现上述面部动画生成方法的步骤,与相关技术相比可实现:通过对当前周期的音频进行特征提取,得到语音特征,使得语音特征包含符合人耳听觉特性的频率、高低、时长等信息,有利于提升后续基于语音特征生成的面部动画与对应音频之间的匹配度。将语音特征输入至语音驱动模型,通过语音驱动模型基于通道注意力机制和空间注意力机制对语音特征进行注意力变换,得到面部动作数据。利用通道注意力和空间注意力的双层注意力机制,提升了输出的面部动作数据的准确性,进一步提升了基于面部动作数据渲染得到的面部动画与对应音频之间的匹配度,提升了面部动画的效果,有利于提升用户的观看体验。
在一个可选实施例中提供了一种电子设备,如图8所示,图8所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
存储器4003用于存储执行本申请实施例的计算机程序,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序,以实现前述方法实施例所示的步骤。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。
应该理解的是,虽然本申请实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。
以上所述仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其他类似实施手段,同样属于本申请实施例的保护范畴。

Claims (11)

1.一种面部动画生成方法,其特征在于,包括:
获取当前周期的音频的语音特征;
通过语音驱动模型基于通道注意力机制和空间注意力机制,对所述语音特征进行注意力变换,确定所述当前周期的音频对应的面部动作数据;
其中,所述面部动作数据包括预设数量的面部动作类型以及与各个面部动作类型对应的动作系数;
基于所述面部动作数据进行渲染,生成面部动画。
2.根据权利要求1所述的面部动画生成方法,其特征在于,所述基于通道注意力机制和空间注意力机制,对所述语音特征进行注意力变换,确定所述当前周期的音频对应的面部动作数据,包括:
基于通道注意力机制和空间注意力机制,对所述语音特征进行注意力变换,得到注意力特征;
对所述注意力特征进行解码处理,得到第一中间特征;
基于上一周期的音频对应的面部动作数据,对所述第一中间特征进行更新,基于更新后的第一中间特征,确定所述当前周期的音频对应的面部动作数据。
3.根据权利要求2所述的面部动画生成方法,其特征在于,所述基于上一周期的音频对应的面部动作数据,对所述第一中间特征进行更新,包括:
对所述上一周期的音频对应的面部动作数据进行维度变换,得到与所述中间特征维度一致的第二中间特征;
对所述第一中间特征和所述第二中间特征进行加权,得到更新后的第一中间特征。
4.根据权利要求3所述的面部动画生成方法,其特征在于,所述对所述第一中间特征和所述第二中间特征进行加权,得到更新后的第一中间特征,包括:
基于训练后的语音驱动模型的参数确定所述第一中间特征对应的第一权重,以及所述第二中间特征对应的第二权重;
基于所述第一中间特征及其对应的第一权重,以及所述第二中间特征及其对应的第二权重,确定更新后的第一中间特征。
5.根据权利要求2所述的面部动画生成方法,其特征在于,所述基于通道注意力机制和空间注意力机制,对所述语音特征进行注意力变换,得到注意力特征,包括:
对所述语音特征进行编码处理,得到第一特征;
基于通道注意力机制,对所述第一特征进行注意力变换,得到第二特征;
基于空间注意力机制,对所述第二特征进行注意力变换,得到所述注意力特征。
6.根据权利要求1至5任一项所述的面部动画生成方法,其特征在于,所述获取当前周期的音频的语音特征,包括:
通过对待处理音频进行切分,确定当前周期的音频;
对所述当前周期的音频进行特征提取,得到所述当前周期的音频对应的语音特征。
7.根据权利要求6所述的面部动画生成方法,其特征在于,所述对待处理音频进行切分,包括如下至少一项:
基于预设周期,对所述待处理音频进行切分;
基于所述待处理音频中的停顿信息,对所述待处理音频进行切分。
8.根据权利要求1至5任一项所述的面部动画生成方法,其特征在于,所述基于所述面部动作数据进行渲染,生成面部动画,包括:
通过渲染引擎基于所述当前周期的音频对应的面部动作数据以及所述当前周期的音频对三维形象进行渲染,得到面部动画。
9.一种面部动画生成装置,其特征在于,包括:
语音特征获取模块,用于获取当前周期的音频的语音特征;
语音驱动模块,用于通过语音驱动模型基于通道注意力机制和空间注意力机制,对所述语音特征进行注意力变换,确定所述当前周期的音频对应的面部动作数据;
其中,所述面部动作数据包括预设数量的面部动作类型以及与各个面部动作类型对应的动作系数;
渲染模块,用于基于所述面部动作数据进行渲染,生成面部动画。
10.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1至8中任一项所述方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述方法的步骤。
CN202310878945.2A 2023-07-17 2023-07-17 面部动画生成方法、装置、电子设备及存储介质 Pending CN116912375A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310878945.2A CN116912375A (zh) 2023-07-17 2023-07-17 面部动画生成方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310878945.2A CN116912375A (zh) 2023-07-17 2023-07-17 面部动画生成方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116912375A true CN116912375A (zh) 2023-10-20

Family

ID=88359860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310878945.2A Pending CN116912375A (zh) 2023-07-17 2023-07-17 面部动画生成方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116912375A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117877509A (zh) * 2024-03-13 2024-04-12 亚信科技(中国)有限公司 一种数字人实时交互方法及装置、电子设备、存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117877509A (zh) * 2024-03-13 2024-04-12 亚信科技(中国)有限公司 一种数字人实时交互方法及装置、电子设备、存储介质
CN117877509B (zh) * 2024-03-13 2024-06-04 亚信科技(中国)有限公司 一种数字人实时交互方法及装置、电子设备、存储介质

Similar Documents

Publication Publication Date Title
WO2022048403A1 (zh) 基于虚拟角色的多模态交互方法、装置及***、存储介质、终端
WO2022116977A1 (zh) 目标对象的动作驱动方法、装置、设备及存储介质及计算机程序产品
CN111489424A (zh) 虚拟角色表情生成方法、控制方法、装置和终端设备
US20110131041A1 (en) Systems And Methods For Synthesis Of Motion For Animation Of Virtual Heads/Characters Via Voice Processing In Portable Devices
CN113077537B (zh) 一种视频生成方法、存储介质及设备
GB2516965A (en) Synthetic audiovisual storyteller
CN114895817B (zh) 交互信息处理方法、网络模型的训练方法及装置
CN113299312B (zh) 一种图像生成方法、装置、设备以及存储介质
Llorach et al. Web-based live speech-driven lip-sync
US20230047858A1 (en) Method, apparatus, electronic device, computer-readable storage medium, and computer program product for video communication
CN115761075A (zh) 脸部图像生成方法及其装置、设备、介质、产品
CN113838174A (zh) 一种音频驱动人脸动画生成方法、装置、设备与介质
CN116912375A (zh) 面部动画生成方法、装置、电子设备及存储介质
CN113948105A (zh) 基于语音的图像生成方法、装置、设备及介质
Hassid et al. More than words: In-the-wild visually-driven prosody for text-to-speech
CN116309984A (zh) 一种基于文本驱动的口型动画生成方法及***
CN117275485B (zh) 一种音视频的生成方法、装置、设备及存储介质
US11521594B2 (en) Automated pipeline selection for synthesis of audio assets
Filntisis et al. Video-realistic expressive audio-visual speech synthesis for the Greek language
CN115550744B (zh) 一种语音生成视频的方法和装置
Kakumanu et al. Speech driven facial animation
KR20230172427A (ko) 사람 음성에 따른 실사인물의 발화 영상 합성 시스템
CN114155321B (zh) 一种基于自监督和混合密度网络的人脸动画生成方法
Kolivand et al. Realistic lip syncing for virtual character using common viseme set
Verma et al. Animating expressive faces across languages

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination