CN116597857A - 一种语音驱动图像的方法、***、装置及存储介质 - Google Patents
一种语音驱动图像的方法、***、装置及存储介质 Download PDFInfo
- Publication number
- CN116597857A CN116597857A CN202310334646.2A CN202310334646A CN116597857A CN 116597857 A CN116597857 A CN 116597857A CN 202310334646 A CN202310334646 A CN 202310334646A CN 116597857 A CN116597857 A CN 116597857A
- Authority
- CN
- China
- Prior art keywords
- expression
- lip
- voice
- vector
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000003860 storage Methods 0.000 title claims abstract description 11
- 230000014509 gene expression Effects 0.000 claims abstract description 154
- 239000013598 vector Substances 0.000 claims abstract description 136
- 230000008451 emotion Effects 0.000 claims abstract description 46
- 238000000605 extraction Methods 0.000 claims abstract description 34
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 238000012512 characterization method Methods 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 11
- 238000003062 neural network model Methods 0.000 claims description 10
- 230000008921 facial expression Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000003384 imaging method Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 description 6
- 230000001815 facial effect Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000002902 bimodal effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/18—Details of the transformation process
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种语音驱动图像的方法、***、装置及存储介质,包括:获取音频数据,并通过语音特征提取模型提取所述音频数据对应的音频特征向量;通过唇形表情预测模型和确定的表情情绪向量对所述音频特征向量进行预测,得到唇形表情偏移量序列;获取三维人脸基础模型,将所述三维人脸基础模型和所述唇形表情偏移量序列进行合成处理,得到三维人脸唇形表情动画。本发明实施例能够根据输入语音驱动图像生成包含唇形和表情的三维动画,效率高,稳定性好,可广泛应用于计算机技术领域。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种语音驱动图像的方法、***、装置及存储介质。
背景技术
随着3D视频内容丰富多样性不断的增长与数字虚拟人应用场景的快速发展,对3D数字虚拟人的相关内容产出提出了更高质量与更高效率的创作需求。通过快速的产出生成3D数字虚拟人时的唇形动作、面部表情,可以帮助观众更生动的理解对话内容。视觉动画和听觉声音的双模态信息融合的表达方式,不仅能提高用户对内容的理解度,还能在需要交互的场景中提供一种更为准确的体验,以及提高3D虚拟数字人的艺术性和观赏度。
目前制作3D人物唇形表情动画的技术方案包括以下类型:第一是通过专业的动画师听取音频内容,通过人力手工的方式制作出声音与人物动画唇形表匹配的关键帧动画;第二是通过动作捕捉设备捕捉专业演员的面部唇形表情,再由人力对捕捉的数据进行二次修整调节,最后导入渲染引擎驱动人物面部唇形表情运动。以上两种方案都需要耗费大量的人力与时间成本,并且不同的人和设备对最后产出的内容稳定性都有影响。
发明内容
有鉴于此,本发明实施例的目的是提供一种语音驱动图像的方法、***、装置及存储介质,能够根据输入语音驱动图像生成包含唇形和表情的三维动画,效率高,稳定性好。
第一方面,本发明实施例提供了一种语音驱动图像的方法,包括以下步骤:
获取音频数据,并通过语音特征提取模型提取所述音频数据对应的音频特征向量;
通过唇形表情预测模型和确定的表情情绪向量对所述音频特征向量进行预测,得到唇形表情偏移量序列;
获取三维人脸基础模型,将所述三维人脸基础模型和所述唇形表情偏移量序列进行合成处理,得到三维人脸唇形表情动画。
可选地,所述语音特征提取模型包括卷积神经网络和双向长短记忆网络,所述通过语音特征提取模型提取所述音频数据对应的音频特征向量,具体包括:
将所述音频数据对应的一维向量输入到所述卷积神经网络,得到高层次的语音特征;
将所述高层次的语音特征输入到所述双向长短记忆网络,得到音频特征向量。
可选地,所述语音特征提取模型的训练过程包括:
获取语音样本数据及对应的真实语音样本特征向量;
将所述语音样本数据输入到初始模型,提取预测语音样本特征向量;
根据所述预测语音样本特征向量与所述真实语音样本特征向量之间的误差,对所述初始模型的模型参数进行调整,直至所述初始模型输出的预测语音样本特征向量与真实语音样本特征向量之间的误差满足训练要求,得到所述语音特征提取模型。
可选地,所述唇形表情预测模型包括transformer神经网络模型,所述transformer神经网络模型包括编码器网络和解码器网络,所述通过唇形表情预测模型和确定的表情情绪向量对所述音频特征向量进行预测,得到唇形表情偏移量序列,具体包括:
将所述音频特征向量输入到编码器网络,得到音频信息表征向量序列;
将所述音频信息表征向量序列和确定的表情情绪向量输入解码器网络,得到唇形表情偏移量序列。
可选地,所述唇形表情预测模型的训练过程包括:
获取说话人多个视角的视频样本数据,并根据所述视频数据建立三维点云人脸序列,并根据所述三维点云人脸序列确定真实人脸唇形表情偏移量;
提取视频样本数据的语音样本数据,并将所述三维点云人脸序列与语音样本数据进行匹配标注,形成样本数据对;
将样本数据对中的语音样本数据输入到编码器网络,得到音频样本信息表征向量;
将音频样本信息表征向量、样本数据对中的三维点云人脸序列和随机生成的表情情绪向量输入到解码器网络,得到预测人脸唇形表情偏移量;
根据目标损失函数计算真实人脸唇形表情偏移量与预测人脸唇形表情偏移量之间的损失值,并根据所述损失值对编码器网络、解码器网络和目标损失函数进行更新,得到transformer神经网络模型。
可选地,所述目标损失函数的计算公式如下:
Loss=Sl×Llip+Sf×Lface+Sr×Lreg
其中,Loss表示损失值,Llip表示唇形区域的损失值,Sl表示唇形区域的影响系数,Lface表示唇形区域以外的人脸表情区域的损失值,Sf表示唇形区域以外的人脸表情区域的影响系数,Lreg表示表情正则项的损失值,Sr表示表情正则项的影响系数。
可选地,所述表情情绪向量通过以下方式获取:
将唇形表情预测模型训练过程中学习得到的表情情绪向量确定为表情情绪向量;
或,获取表情信息,根据所述表情信息确定表情情绪向量。
第二方面,本发明实施例提供了一种语音驱动图像的***,包括:
第一模块,用于获取音频数据,并通过语音特征提取模型提取所述音频数据对应的音频特征向量;
第二模块,用于通过唇形表情预测模型和确定的表情情绪向量对所述音频特征向量进行预测,得到唇形表情偏移量序列;
第三模块,用于获取三维人脸基础模型,将所述三维人脸基础模型和所述唇形表情偏移量序列进行合成处理,得到三维人脸唇形表情动画。
第三方面,本发明实施例提供了一种语音驱动图像的装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上述的方法。
第四方面,本发明实施例提供了一种存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行上述的方法。
实施本发明实施例包括以下有益效果:本实施例通过语音特征提取模型提取音频数据对应的音频特征向量,以使唇形表情预测模型可以适应不同的语言,然后通过唇形表情预测模型和确定的表情情绪向量对音频特征向量进行预测得到唇形表情偏移量序列,得到唇形和表面的变化量,然后根据三维人脸基础模型和唇形表情偏移量序列得到三维人脸唇形表情动画,从而实现根据语音驱动图像生成包含唇形和表情的三维动画,效率高,稳定性好。
附图说明
图1是本发明实施例提供的一种语音驱动图像的方法的步骤流程示意图;
图2是本发明实施例提供的另一种语音驱动图像的方法的步骤流程示意图;
图3是本发明实施例提供的一种语言特征提取模型的结构框图;
图4是本发明实施例提供的一种唇形表情预测模型的结构框图;
图5是本发明实施例提供的一种语音驱动图像的***的结构框图;
图6是本发明实施例提供的一种语音驱动图像的装置的结构框图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
参阅图1和图2所示,本发明实施例提供了一种语音驱动图像的方法,包括以下步骤:
S100、获取音频数据,并通过语音特征提取模型提取所述音频数据对应的音频特征向量。
音频数据指用于驱动图像的语音数据,语音数据包括多种语言,如中文或英文等。音频特征向量用于表征语言数据的音频特征。语音特征提取模型用于根据输入的音频数据得到输出的音频特征向量。
本领域技术人员可以理解的是,音频特征向量的具体类型根据实际应用确定,本实施例不做具体限制。例如,音频特征向量为PPG(phonetic posteriorgrams,音素后验概率图)特征向量,PPG音频特征向量可以提取更丰富音频特征信息,让后续通过语音预测3D人脸唇形表情过程中,提高对不同语言的自适应能力。
需要说明的是,语音特征提取模型的具体结构根据实际应用确定,本实施例不做具体限制。参阅图3,在一个具体的实施中,语音特征提取模型包括卷积神经网络(CNN,Convolutional Neural Networks)和双向长短期记忆网络(BiLSTM,Bi-directional LongShort-Term Memory),语音特征提取模型的输入为语音信号,语音特征提取模型的输出为对应的语音特征向量,语音信号为按照一定时间间隔对音频数据采样得到的一维向量。具体地,将语音信号输入进1D-CNN(一维卷积神经网络),经过3个1D-CNN网络层与池化层,提取出高层次的语音特征;接着将CNN层的输出作为输入,通过BiLSTM捕捉音频信号的时间序列信息,进一步提取语音特征;最后一层网络使用全连接层作为输出层,将BiLSTM层的输出映射到PPG特征向量。
可选地,所述语音特征提取模型的训练过程包括:
S101、获取语音样本数据及对应的真实语音样本特征向量;
S102、将所述语音样本数据输入到初始模型,提取预测语音样本特征向量;
S103、根据所述预测语音样本特征向量与所述真实语音样本特征向量之间的误差,对所述初始模型的模型参数进行调整,直至所述初始模型输出的预测语音样本特征向量与真实语音样本特征向量之间的误差满足训练要求,得到所述语音特征提取模型。
语音样本数据包括多种语言的样本数据,真实语音样本特征向量为语音样本数据的特征向量。初始模型指模型参数有待确定的语音特征提取模型。具体地,首先将语音样本数据输入到语音特征提取模型,得到预测语音样本特征向量,然后根据预测语音样本特征向量与真实语音样本特征向量之间的误差对初始模型的模型参数进行调整,调制过程中,使预测语音样本特征向量与真实语音样本特征向量之间的误差变小,当初始模型输出的预测语音样本特征向量与真实语音样本特征向量之间的误差满足训练要求,将对应模型参数的初始模型作为语音特征提取模型。
可选地,所述语音特征提取模型包括卷积神经网络和双向长短记忆网络,所述通过语音特征提取模型提取所述音频数据对应的音频特征向量,具体包括:
S110、将所述音频数据对应的一维向量输入到所述卷积神经网络,得到高层次的语音特征;
S120、将所述高层次的语音特征输入到所述双向长短记忆网络,得到音频特征向量。
具体地,参阅图3,首先,音频数据对应的一维向量输入到语音特征提取模型中的CNN(卷积神经网络),经过提取得到高层次的语音特征;然后,将高层次的语音特征输入到语音特征提取模型中的BiLSTM(双向长短记忆网络),经过提取得到音频特征向量。
S200、通过唇形表情预测模型和确定的表情情绪向量对所述音频特征向量进行预测,得到唇形表情偏移量序列。
唇形表情预测模型用于根据音频特征向量和表情情绪向量预测唇形表情偏移量序列。唇形表情偏移量表征唇形和表情基于未说话和无表情人脸点云的偏离程度。需要说明的是,唇形表情预测模型根据实际应用确定,本实施例不做具体限制。在一个具体的实施例中,参阅图4,唇形表情预测模型包括编码器和解码器,编码器包括向前传播层、若干个重叠的多头自注意力机制和向前传播层、线性投影层,解码器包括向前传播层、多头自注意力机制和线性投影层,编码器的输入为音频特征向量,编码器的输出为解码器的输入,解码器的输出为三维人脸唇形表情偏移值。
可选地,所述唇形表情预测模型的训练过程包括:
S201、获取说话人多个视角的视频样本数据,并根据所述视频数据建立三维点云人脸序列,并根据所述三维点云人脸序列确定真实人脸唇形表情偏移量。
视频样本数据包括通过多视角阵列相机采集不同人物说话的多视角视频数据,其中,视频中语音数据为多人多语言混合语音数据,视频中图像数据为不同人说话的多视角人脸数据,同时每个视角的视频分辨率尽可能在1080p以上。对采集好的视频的每一帧多视角人脸数据进行3D点云对齐重建,得到三维点云人脸序列;同时在重建的数据中为每一个说话选取一个自然状态下不说话闭嘴的3D人脸模型,作为自然表情基础模型并保存,将三维点云人脸序列与自然表情基础模型之间的偏移量作为真实人脸唇形表情偏移量。
S202、提取视频样本数据的语音样本数据,并将所述三维点云人脸序列与语音样本数据进行匹配标注,形成样本数据对。
提取视频样本数据的语音作为语音样本数据,对说话人3D人脸点云序列与对应的语音匹配标注,标注出每一段语音与之对应的说话人3D人脸点云序列,通过标注将数据分割成语音与说话人3D点云人脸匹配的数据对,最终形成序列小段并保存。
S203、将样本数据对中的语音样本数据输入到编码器网络,得到音频样本信息表征向量。
参阅图4,提取样本数据对中的语音样本数据对应的音频样本特征向量,将音频样本特征向量输入到编码器网络,得到音频样本信息表征向量。需要说明的是,编码器网络中重叠的多头自注意力机制和向前传播层的个数根据实际应用确定,本实施例不做具体限制,例如,多头自注意力机制和向前传播层的重叠个数为5个。
S204、将音频样本信息表征向量、样本数据对中的三维点云人脸序列和随机生成的表情情绪向量输入到解码器网络,得到预测人脸唇形表情偏移量。
训练过程中,表情情绪向量为随机高斯分布采样的N维向量,由于训练数据中有说话人带有不同情绪的发音表情数据对,带有情绪的训练数据输入唇形表情预测模型,通过训练计算损失函数反向传播将自动学习到不同情绪所蕴含的表情情绪向量,最终将不同情绪数据下学习到的表情情绪向量组合构成表情情绪向量矩阵并保存。参阅图4,将编码器输出的音频样本信息表征向量、样本数据对中的三维点云人脸序列和随机生成的表情情绪向量输入到解码器网络,解码器网络的输出为预测人脸唇形表情偏移量。
S205、根据目标损失函数计算真实人脸唇形表情偏移量与预测人脸唇形表情偏移量之间的损失值,并根据所述损失值对编码器网络、解码器网络和目标损失函数进行更新,得到transformer神经网络模型。
目标损失函数用于计算模型预测值与真实目标值之间的误差的函数,目标损失函数的具体形式根据实际应用确定,本实施例不做具体限制。根据目标损失函数计算的损失值越小,得到的transformer神经网络模型的模型参数越准确。
可选地,所述目标损失函数的计算公式如下:
Loss=Sl×Llip+Sf×Lface+Sr×Lreg
其中,Loss表示损失值,Llip表示唇形区域的损失值,Sl表示唇形区域的影响系数,Lface表示唇形区域以外的人脸表情区域的损失值,Sf表示唇形区域以外的人脸表情区域的影响系数,Lreg表示表情正则项的损失值,Sr表示表情正则项的影响系数。
具体地,唇形区域的影响系数Sl的值与唇形区域以外的人脸表情区域的影响系数Sf的值根据实际应用中的权重大小进行调整,Sl与Sf调整后,同时调整表情正则项的影响系数Sr,让模型在训练中关注在更长时间内的表情变化,可避免模型表情预测在短时间内剧烈变化,使得表情变化能更加自然。在训练过程中,通过迭代不断去最小化目标损失函数的损失值,同时调节Sl、Sf和Sr系数,使得生成更准确、更自然的3D人脸唇形表情动画。
可选地,所述唇形表情预测模型包括transformer神经网络模型,所述transformer神经网络模型包括编码器网络和解码器网络,所述通过唇形表情预测模型和确定的表情情绪向量对所述音频特征向量进行预测,得到唇形表情偏移量序列,具体包括:
S210、将所述音频特征向量输入到编码器网络,得到音频信息表征向量序列;
S220、将所述音频信息表征向量序列和确定的表情情绪向量输入解码器网络,得到唇形表情偏移量序列。
编码器网络主要用于从音频特征中编码抽取与上下文相关的音频表示信息,输入数据是音频特征向量,输出是与上下文相关的音频信息表征向量;解码器网络是用于解码编码器网络输出的与上下文相关的音频信息表征向量与表情情绪向量,解码器网络输入是编码器网络输出的与上下文相关的音频信息表征向量、3D点云人脸与确定的表情情绪向量,解码器网络的输出为唇形表情偏移量序列。
可选地,所述表情情绪向量通过以下方式获取:
S221、将唇形表情预测模型训练过程中学习得到的表情情绪向量确定为表情情绪向量;
S222、或,获取表情信息,根据所述表情信息确定表情情绪向量。
具体地,在预测过程中,解码器网络输入的表情情绪向量可以是训练过程中已学习到的表情情绪向量,也可通过多个表情情绪向量的线性叠加组合形成新的表情情绪向量作为输入,控制输出3D人脸唇形表情顶点动画中的情绪。
S300、获取三维人脸基础模型,将所述三维人脸基础模型和所述唇形表情偏移量序列进行合成处理,得到三维人脸唇形表情动画。
三维人脸基础模型表征不说话且无表情的三维人脸模型,唇形表情偏移量表征三维人脸的唇形和表情的顶点偏移量。将三维人脸基础模型和唇形表情偏移量序列进行叠加处理,得到三维人脸唇形表情动画。
实施本发明实施例包括以下有益效果:本实施例通过语音特征提取模型提取音频数据对应的音频特征向量,以使唇形表情预测模型可以适应不同的语言,然后通过唇形表情预测模型和确定的表情情绪向量对音频特征向量进行预测得到唇形表情偏移量序列,得到唇形和表面的变化量,然后根据三维人脸基础模型和唇形表情偏移量序列得到三维人脸唇形表情动画,从而实现根据语音驱动图像生成包含唇形和表情的三维动画,效率高,稳定性好。
参阅图5,本发明实施例提供了一种语音驱动图像的***,包括:
第一模块,用于获取音频数据,并通过语音特征提取模型提取所述音频数据对应的音频特征向量;
第二模块,用于通过唇形表情预测模型和确定的表情情绪向量对所述音频特征向量进行预测,得到唇形表情偏移量序列;
第三模块,用于获取三维人脸基础模型,将所述三维人脸基础模型和所述唇形表情偏移量序列进行合成处理,得到三维人脸唇形表情动画。
可见,上述方法实施例中的内容均适用于本***实施例中,本***实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
参阅图6,本发明实施例提供了一种语音驱动图像的装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上述的方法。
可见,上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
此外,本申请实施例还公开了一种计算机程序产品或计算机程序,计算机程序产品或计算机程序存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述的方法。同样地,上述方法实施例中的内容均适用于本存储介质实施例中,本存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.一种语音驱动图像的方法,其特征在于,包括:
获取音频数据,并通过语音特征提取模型提取所述音频数据对应的音频特征向量;
通过唇形表情预测模型和确定的表情情绪向量对所述音频特征向量进行预测,得到唇形表情偏移量序列;
获取三维人脸基础模型,将所述三维人脸基础模型和所述唇形表情偏移量序列进行合成处理,得到三维人脸唇形表情动画。
2.根据权利要求1所述的方法,其特征在于,所述语音特征提取模型包括卷积神经网络和双向长短记忆网络,所述通过语音特征提取模型提取所述音频数据对应的音频特征向量,具体包括:
将所述音频数据对应的一维向量输入到所述卷积神经网络,得到高层次的语音特征;
将所述高层次的语音特征输入到所述双向长短记忆网络,得到音频特征向量。
3.根据权利要求2所述的方法,其特征在于,所述语音特征提取模型的训练过程包括:
获取语音样本数据及对应的真实语音样本特征向量;
将所述语音样本数据输入到初始模型,提取预测语音样本特征向量;
根据所述预测语音样本特征向量与所述真实语音样本特征向量之间的误差,对所述初始模型的模型参数进行调整,直至所述初始模型输出的预测语音样本特征向量与真实语音样本特征向量之间的误差满足训练要求,得到所述语音特征提取模型。
4.根据权利要求1所述的方法,其特征在于,所述唇形表情预测模型包括transformer神经网络模型,所述transformer神经网络模型包括编码器网络和解码器网络,所述通过唇形表情预测模型和确定的表情情绪向量对所述音频特征向量进行预测,得到唇形表情偏移量序列,具体包括:
将所述音频特征向量输入到编码器网络,得到音频信息表征向量序列;
将所述音频信息表征向量序列和确定的表情情绪向量输入解码器网络,得到唇形表情偏移量序列。
5.根据权利要求4所述的方法,其特征在于,所述唇形表情预测模型的训练过程包括:
获取说话人多个视角的视频样本数据,并根据所述视频数据建立三维点云人脸序列,并根据所述三维点云人脸序列确定真实人脸唇形表情偏移量;
提取视频样本数据的语音样本数据,并将所述三维点云人脸序列与语音样本数据进行匹配标注,形成样本数据对;
将样本数据对中的语音样本数据输入到编码器网络,得到音频样本信息表征向量;
将音频样本信息表征向量、样本数据对中的三维点云人脸序列和随机生成的表情情绪向量输入到解码器网络,得到预测人脸唇形表情偏移量;
根据目标损失函数计算真实人脸唇形表情偏移量与预测人脸唇形表情偏移量之间的损失值,并根据所述损失值对编码器网络、解码器网络和目标损失函数进行更新,得到transformer神经网络模型。
6.根据权利要求5所述的方法,其特征在于,所述目标损失函数的计算公式如下:
Loss=Sl×Llip+Sf×Lface+Sr×Lreg
其中,Loss表示损失值,Llip表示唇形区域的损失值,Sl表示唇形区域的影响系数,Lface表示唇形区域以外的人脸表情区域的损失值,Sf表示唇形区域以外的人脸表情区域的影响系数,Lreg表示表情正则项的损失值,Sr表示表情正则项的影响系数。
7.根据权利要求1所述的方法,其特征在于,所述表情情绪向量通过以下方式获取:
将唇形表情预测模型训练过程中学习得到的表情情绪向量确定为表情情绪向量;
或,获取表情信息,根据所述表情信息确定表情情绪向量。
8.一种语音驱动图像的***,其特征在于,包括:
第一模块,用于获取音频数据,并通过语音特征提取模型提取所述音频数据对应的音频特征向量;
第二模块,用于通过唇形表情预测模型和确定的表情情绪向量对所述音频特征向量进行预测,得到唇形表情偏移量序列;
第三模块,用于获取三维人脸基础模型,将所述三维人脸基础模型和所述唇形表情偏移量序列进行合成处理,得到三维人脸唇形表情动画。
9.一种语音驱动图像的装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-7任一项所述的方法。
10.一种存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310334646.2A CN116597857A (zh) | 2023-03-30 | 2023-03-30 | 一种语音驱动图像的方法、***、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310334646.2A CN116597857A (zh) | 2023-03-30 | 2023-03-30 | 一种语音驱动图像的方法、***、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116597857A true CN116597857A (zh) | 2023-08-15 |
Family
ID=87603317
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310334646.2A Pending CN116597857A (zh) | 2023-03-30 | 2023-03-30 | 一种语音驱动图像的方法、***、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116597857A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117218224A (zh) * | 2023-08-21 | 2023-12-12 | 华院计算技术(上海)股份有限公司 | 人脸情绪图像生成方法及装置、可读存储介质、终端 |
CN117372553A (zh) * | 2023-08-25 | 2024-01-09 | 华院计算技术(上海)股份有限公司 | 人脸图像生成方法及装置、计算机可读存储介质、终端 |
-
2023
- 2023-03-30 CN CN202310334646.2A patent/CN116597857A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117218224A (zh) * | 2023-08-21 | 2023-12-12 | 华院计算技术(上海)股份有限公司 | 人脸情绪图像生成方法及装置、可读存储介质、终端 |
CN117372553A (zh) * | 2023-08-25 | 2024-01-09 | 华院计算技术(上海)股份有限公司 | 人脸图像生成方法及装置、计算机可读存储介质、终端 |
CN117372553B (zh) * | 2023-08-25 | 2024-05-10 | 华院计算技术(上海)股份有限公司 | 人脸图像生成方法及装置、计算机可读存储介质、终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111243626B (zh) | 一种说话视频生成方法及*** | |
CN113194348B (zh) | 一种虚拟人讲课视频生成方法、***、装置及存储介质 | |
CN112184858B (zh) | 基于文本的虚拟对象动画生成方法及装置、存储介质、终端 | |
CN103650002B (zh) | 基于文本的视频生成 | |
CN110751708B (zh) | 一种实时的语音驱动人脸动画的方法和*** | |
CN112562722A (zh) | 基于语义的音频驱动数字人生成方法及*** | |
CN112465935A (zh) | 虚拟形象合成方法、装置、电子设备和存储介质 | |
CN116597857A (zh) | 一种语音驱动图像的方法、***、装置及存储介质 | |
JP2002507033A (ja) | 顔合成装置および顔合成方法 | |
CN111459450A (zh) | 交互对象的驱动方法、装置、设备以及存储介质 | |
JP2014519082A5 (zh) | ||
CN113592985B (zh) | 混合变形值的输出方法及装置、存储介质、电子装置 | |
JP2003529861A (ja) | 音響信号により駆動される人間の顔の合成モデルのアニメ化方法 | |
CN113421547B (zh) | 一种语音处理方法及相关设备 | |
CN113228163A (zh) | 基于文本和音频的实时面部再现 | |
CN114332318A (zh) | 一种虚拟形象生成方法及其相关设备 | |
CN113077537A (zh) | 一种视频生成方法、存储介质及设备 | |
CN113299312A (zh) | 一种图像生成方法、装置、设备以及存储介质 | |
CN113838174A (zh) | 一种音频驱动人脸动画生成方法、装置、设备与介质 | |
CN114882862A (zh) | 一种语音处理方法及相关设备 | |
Rastgoo et al. | A survey on recent advances in Sign Language Production | |
Filntisis et al. | Video-realistic expressive audio-visual speech synthesis for the Greek language | |
CN117409121A (zh) | 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、***、设备及介质 | |
CN116758189A (zh) | 基于语音驱动的数字人图像生成方法、装置及存储介质 | |
Liu et al. | Real-time speech-driven animation of expressive talking faces |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |