CN112614212A - 联合语气词特征的视音频驱动人脸动画实现方法及*** - Google Patents

联合语气词特征的视音频驱动人脸动画实现方法及*** Download PDF

Info

Publication number
CN112614212A
CN112614212A CN202011484986.6A CN202011484986A CN112614212A CN 112614212 A CN112614212 A CN 112614212A CN 202011484986 A CN202011484986 A CN 202011484986A CN 112614212 A CN112614212 A CN 112614212A
Authority
CN
China
Prior art keywords
word
voice
expression
face
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011484986.6A
Other languages
English (en)
Other versions
CN112614212B (zh
Inventor
李舜
肖双九
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202011484986.6A priority Critical patent/CN112614212B/zh
Publication of CN112614212A publication Critical patent/CN112614212A/zh
Application granted granted Critical
Publication of CN112614212B publication Critical patent/CN112614212B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Abstract

一种联合语气词特征的视音频驱动人脸动画方法及***,通过提取语音特征构建出语音特征矩阵,利用语气词增强训练网络的多层卷积操作对特征矩阵进行采样并映射到低维空间的中间变量;对输入的语音转换成文字,从文字内容中识别出语气词并构建one‑hot向量,与中间变量拼接后得到包含语气词特征的中间变量;再通过语气词增强训练网络进行卷积后映射为当前帧的表情AU参数,用于与视频追踪、语音预测算法生成的AU参数拟合后作为人脸模型的驱动参数,实现表情增强。本发明通过输入用户面部的视频内容和用户发声的音频内容,就可以联合驱动虚拟场景中的三维Avatar模型,在实时驱动的基础上,使整体和局部的面部动画都得到较为逼真和生动的表现效果。

Description

联合语气词特征的视音频驱动人脸动画实现方法及***
技术领域
本发明涉及的是一种计算机图形学领域的技术,具体是一种联合语气词特征的视音频驱动人脸动画实现方法及***。
背景技术
现有人脸表情动画的实现方式包括传统的交互建模与关键帧动画方法、基于脸部marker跟踪的动作捕捉方法、基于视频流图像的驱动方法和基于音频预测的驱动方法。其中交互建模与关键帧动画方法广泛的应用于游戏、三维动画等领域,是制作较高精度三维面部动画的主流方法。该方法具有精度较高、技术成熟、适合流水线生产等优点,但是需要建模师和动画师长时间的设置和调整,耗时耗力,且生产开销大。基于脸部marker跟踪的动作捕捉方法广泛的应用于电影工业级别的人脸动画生产,与VR、AR相关的电影生产环境紧密结合。该方法具有专业性强,动画精细度高,效果逼真等优点,但是需要高精度设备的支持和整个团队人员的协同开发,开发耗时长,耗资巨大。基于视频流图像的驱动方法采用神经网络进行特征学习,将视频流图像信息输入网络,输出每一帧的人脸表情AU参数值或者模型顶点位置等面部形变参数,来自动驱动的人脸动画。但该技术依赖视频信息输入的质量,对拍摄条件的要求高,且在在嘴唇等柔软组织区域无法得到逼真的效果。
基于音频驱动的三维人脸动画技术也是学术界的研究热点,采用的也是神经网络相关的技术,但与视频流图像驱动技术不同的是,该方法的输入是音频信息,通过提取音频中的特征信息,来预测面部形变。例如,构建一个4D数据集,来训练语音字符动画(VOCA)模型根据音频模拟用户的说话风格和面部表情,该方法能实现较高质量的口部区域姿势和动画,但是预测面部上方区域不够精准,导致整体人脸表情趋于中性。
发明内容
本发明针对现有技术需要高程度的制作成本和时间周期,单一基于视频流驱动方法和音频驱动方法各有弊端,且均未考虑到语气词的特征的缺陷,提出一种联合语气词特征的视音频驱动人脸动画方法及***,通过输入用户面部的视频内容和用户发声的音频内容,就可以联合驱动虚拟场景中的三维Avatar模型,在实时驱动的基础上,使整体和局部的面部动画都得到较为逼真和生动的表现效果。
本发明是通过以下技术方案实现的:
本发明涉及一种联合语气词特征的视音频驱动人脸动画实现方法,通过提取语音特征构建出语音特征矩阵,利用语气词增强训练网络的多层卷积操作对特征矩阵进行采样并映射到低维空间的中间变量;对输入的语音转换成文字,从文字内容中识别出语气词并构建one-hot向量,与中间变量拼接后得到包含语气词特征的中间变量;再通过语气词增强训练网络进行卷积后映射为当前帧的表情AU参数,用于与视频追踪、语音预测算法生成的AU参数拟合后作为人脸模型的驱动参数,实现表情增强。
所述的语音特征矩阵,采用但不限于python_speech_feature库提取,得到的语音特征为音频MFCC、Fbank或SSC,设置时间窗口,对多帧的语音特征构建语音特征矩阵。
所述的语音特征的采集率为25fps,winLen为0.025,时间窗口设为24×4。
所述的语气词增强训练网络包括四层卷积层,其中:第一层和第二层的filter大小为64, kernel大小为4×1,strides为4×1,第三层的filter大小为32,kernel大小为3×1,strides为3×1,第四层的filter大小为16,kernel大小为2×1,strides为2×1,各卷积层之间使用ReLu函数进行激活。
所述的语气词包括:在语句中用于表示语气,与情绪变化直接相关的词语。在一个完整的语句中,大量的词语是中性词,用户在对中性词进行发音时往往处于中性的面部状态,而语气词是这个语句中和情绪特征直接相关的词语,是连接口部形状和情绪特征的关键特征。
所述的语气词增强训练网络,通过以下方式构建得到用于训练的数据集,包括以下步骤:
1)人工挑选视频中含有语气词的片段,标注片段的起止时间;
2)使用工具自动剪切视频,得到含有语气词的各个视频片段;
3)对各个视频片段中的音频内容进行处理,转成文字内容;
4)人工矫正文字内容。
本发明涉及一种实现上述方法的联合语气词特征的视音频驱动人脸动画实现***,包括: openface视频追踪模块、语音预测模块、语气词增强模块和可视化模块,其中:openface视频追踪模块根据处理视频输入信息,进行面部位姿计算得到面部旋转角、视线旋转角,进行表情 AU参数检测得到AU强度参数,语音预测模块根据处理语音输入信息,通过语音特征窗口预测表情AU参数,语气词增强模块转换语音内容为文字,进行语气词特征提取后进一步进行表情增强处理,并使用语气词特征搭建语气词增强训练网络预测用于增强的表情AU参数,可视化模块根据视频追踪模块、语音预测模块和语气词增强模块输出的表情AU参数,进行融合处理,得到最终用于驱动人脸模型的AU参数,驱动人脸模型动画。
技术效果
本发明整体解决了现有三维Avatar人脸表情动画场景中,由于视频追踪信息提取的真实人脸表情幅度小、语音输入信息预测面部上方效果差,导致生成的人脸表情动画表情平淡、趋于中性的问题。
与现有技术相比,本发明引入语气词特征的概念,利用语气词增强训练网络学习识别语气词特征,学习语气词特征与面部表情AU参数在语境中的深层的映射关系,对语音输入信息进行语气词特征的提取,进行表情增强AU参数的预测,配合表情增强AU参数驱动三维Avatar 人脸模型,并且针对语气词特征的训练网络,本发明通过相应的语气词数据集构建方案,实现联合语气词特征的视音频驱动的人脸表情动画生成。最终得到的表情能够对较为准确地利用语气词特征和相关的语境信息,预测用户此时的表情,生成的人脸动画的面部表情更生动逼真。
附图说明
图1为本发明整体***结构示意图;
图2为本发明语气词数据集构建流程图。
具体实施方式
如图1所示,为本实施例涉及一种联合语气词特征的视音频驱动人脸动画实现***,包括:openface视频追踪模块、语音预测模块、语气词增强模块和可视化模块,其中:openface 视频追踪模块根据处理视频输入信息,进行面部位姿计算得到面部旋转角、视线旋转角,进行表情AU参数检测得到AU强度参数,语音预测模块根据处理语音输入信息,使用提取的音频特征构建音频特征矩阵,通过长短记忆网络(LSTM)来预测音频特征窗口与面部AU参数之间的映射关系,即表情AU参数,语气词增强模块转换语音内容为文字,进行语气词特征提取后进一步进行表情增强处理,可视化模块根据视频追踪模块、语音预测模块和语气词增强模块输出的表情AU参数,进行融合处理,得到最终用于驱动人脸模型的AU参数,驱动人脸模型动画。
所述的Openface视频追踪模块使用Openface库对输入的视频帧进行处理,基于局部约束模型(CLM)提取精准的人脸面部关键点,结合先验知识求解人脸面部位姿。对视频帧进行图像处理,提取直方图,使用交叉数据集预测人脸面部AU参数,其中:AU参数是指基于面部表情编码***(FACS)的各个表情动作单元的参数,用于设置人脸模型形状,该Openface视频追踪模块包括:人脸识别单元、面部关键点检测单元、面部位姿检测单元以及AU强度估计单元,其中:人脸识别单元根据当前帧的图像数据信息,进行人脸检测并得到人脸位置结果集,面部关键点检测单元根据人脸位置信息,进行关键点检测处理并得到面部关键点集,面部位姿检测单元根据面部关键点信息,进行PnP求解并得到面部旋转角,AU强度估计单元根据面部关键点位置和图像数据,生成定向梯度直方图,并基于CE-CLM模型求解各AU强度参数。
所述的音频特征包括:MFCC、Fbank、SSC。
所述的提取的音频特征,采用python_speech_feature库提取语音特征,采集率为25fps, winLen为0.025。
所述的语音预测模块包括:语音特征提取单元、AU分类检测单元以及AU强度回归预测单元,其中:语音特征提取单元根据输入的音频序列信息,使用python_speech_feature库提取 MFCC、Fbank、SSC这三种音频特征;AU分类检测单元根据音频特征信息,构建特征窗口向量,通过输入AU分类阶段的网络并输出得到当前帧的AU分类结果;AU强度回归预测单元根据AU分类单元的特征窗口向量和AU分类结果,通过输入AU强度回归阶段的网络并输出得到当前帧的 AU强度估计结果。
所述的语音预测包括:AU分类阶段和AU回归预测阶段,其中:AU分类阶段初筛音频窗口中存在的AU类型,使用的是两层LSTM结合一层Dense层,LSTM层设置recurrent_dropout为 0.35来防止过拟合,Dense层使用sigmod进行激活,该分类使用二维交叉熵作为损失函数, rmsprop作为优化器,得到AU参数的Mask;AU回归预测阶段预测AU的当前帧面部AU参数的准确值,使用的是两层LSTM结合一层Dense层,LSTM层设置recurrent_dropout为0.35来防止过拟合,Dense层的输出使用AU分类阶段得到的Mask进行激活,该分类使用L2正则损失作为损失函数,sgd作为优化器,得到AU参数的具体值。
所述的语音预测模块网络训练,使用的是vidmit数据集。
所述的语气词增强模块包括:语音特征提取单元、语气词识别单元以及语气词AU强度预测单元,其中:语音特征提取单元根据输入的音频序列信息,使用python_speech_feature库提取MFCC、Fbank、SSC这三种音频特征;语气词识别单元根据输入的音频序列信息,使用谷歌Gloud Speech API进行语音听写处理得到转换的文字内容,并识别语气词得到语气词识别结果;语气词AU强度预测单元根据音频特征信息构建特征窗口向量,同时根据语气词识别结果构建语气词one-hot向量,将特征窗口向量和语气词one-hot向量输入语气词AU强度预测网络并输出得到用于增强的当前帧的AU强度估计结果。该语气词增强模块按照以下步骤进行网络的搭建:
1)采用python_speech_feature库提取语音特征(MFCC、Fbank、SSC),根据多帧时间窗口内的语音特征构建特征矩阵,其中:语音特征的采集率为25fps,winLen为0.025,时间窗口设为24×4;
2)利用多层的卷积操作对特征矩阵进行采样,并且映射到低维空间的中间变量,其中:卷积操作共有四层,第一层和第二层的filter大小为64,kernel大小为4×1,strides为4×1,第三层的filter大小为32,kernel大小为3×1,strides为3×1,第四层的filter大小为16,kernel大小为 2×1,strides为2×1,各卷积层之间使用ReLu函数进行激活;
3)识别语气词,根据语气词识别结果构建one-hot向量,其中:目前使用的语气词有“Um”、“Oh”、“Oops”、“Wow”、“Eh”、“Oh My God”六种语气词,即语气词特征向量为6×1的one-hot向量;
4)将上述2)和3)的结果进行拼接,得到包含语气词特征的中间变量;其中,第四层卷积层得到的是16×1的向量,拼接6×1的语气词特征向量,得到22×1的中间变量;
5)对包含语气词特征的中间变量进行卷积,映射为当前帧的表情AU参数;其中,卷积操作由两层全连接层构成,第一层由64个unit构成,激活函数为tanh,第二层由17个unit构成,激活函数为linear。第二层输出的17×1的向量即为用于驱动人脸模型的17个AU的参数值;
6)利用该表情AU参数对原本的驱动结果AU参数进行拟合,进行表情增强,使用拟合后的结果进行人脸模型的驱动。
如图2所示,所述的数据集通过以下方式构建得到:
1)人工挑选视频中含有语气词的片段,标注片段的起止时间。对每个视频,标注的方式是填写视频标题、链接、UniqueName(作者名_视频编号)和片段列表(记录片段的起止时间,以 json字符串的形式组织);
2)使用工具自动剪切视频,得到含有语气词的各个视频片段。使用工具为imovie库,读取标注信息中的各个片段的起止时间并剪切视频。对得到的各个视频片段,自动填写索引文件,包括视频片段的UniqueName(作者名_视频编号_片段下标)、片段存储地址、音频存储地址、片段内容(文字)地址等;
3)对各个视频片段中的音频内容进行处理,转成文字内容。语音转文字使用的是Google Speech API进行的,得到每个单词的起止时间,并将该信息记录为片段内容文件。由于该API 会对部分语气词(如“Um”)进行静默处理,因此依然需要进行人工矫正的操作;
4)人工矫正文字内容。由于使用的视频来自于Youtube上的Vlog,Youtube自带的字幕不会对语气词进行静默处理,但是缺少起止时间。根据字幕结果,人工修改片段内容,添加上被静默的语气词。最终得到视频片段、音频片段、片段内容等多种数据文件,作为最终的数据集数据。
所述的可视化模块对视频追踪得到的人脸位姿修改模型的位姿,对视频追踪、语音预测和语气词增强得到的AU参数进行拟合,逐帧设置模型的skinMeshRenderer组件中的Blendshape 权重,使重定向人脸模型动,该可视化模块包括:AU参数拟合单元、离线驱动框架单元和实时驱动框架单元,其中:多种结果的AU参数拟合单元使用权重形式将视频追踪、语音预测、语气词增强的结果进行拟合;离线驱动框架单元通过文件读取每一帧的AU参数,逐帧设置重定向模型的skinMeshRenderer组件中的Blendshape权重,实现动画效果;实时驱动框架单元使用Google ProtoBuff进行AU参数的消息转发,并构建buffer存储三种结果的数据,再逐帧读取buffer,设置模型的skinMeshRenderer组件中的Blendshape权重,实现实时将三种结果的数据对齐的动画效果。
经过具体实际实验,在三维Avatar人脸表情动画的场景下,本***能以高于30fps,延迟低于150ms实时运行。在输入中包含语气词的情况下,得到的人脸表情动画更为生动,显著改善其他方法在此情形下面部表情不明显、趋于中性的情况。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (10)

1.一种联合语气词特征的视音频驱动人脸动画实现方法,其特征在于,通过提取语音特征构建出语音特征矩阵,利用语气词增强训练网络的多层卷积操作对特征矩阵进行采样并映射到低维空间的中间变量;对输入的语音转换成文字,从文字内容中识别出语气词并构建one-hot向量,与中间变量拼接后得到包含语气词特征的中间变量;再通过语气词增强训练网络进行卷积后映射为当前帧的表情AU参数,用于与视频追踪、语音预测算法生成的AU参数拟合后作为人脸模型的驱动参数,实现表情增强;
所述的语音特征矩阵,采用python_speech_feature库提取,得到的语音特征为音频MFCC、Fbank或SSC,设置时间窗口,对多帧的语音特征构建语音特征矩阵;
所述的语气词增强训练网络包括四层卷积层;
所述的语气词包括:在语句中用于表示语气,与情绪变化直接相关的词语。
2.根据权利要求1所述的联合语气词特征的视音频驱动人脸动画实现方法,其特征是,所述的语气词增强训练网络中第一层和第二层卷积层的filter大小为64,kernel大小为4×1,strides为4×1,第三层卷积层的filter大小为32,kernel大小为3×1,strides为3×1,第四层卷积层的filter大小为16,kernel大小为2×1,strides为2×1,各卷积层之间使用ReLu函数进行激活。
3.根据权利要求1所述的联合语气词特征的视音频驱动人脸动画实现方法,其特征是,所述的语气词增强训练网络,通过以下方式构建得到用于训练的数据集,包括以下步骤:
1)人工挑选视频中含有语气词的片段,标注片段的起止时间;
2)使用工具自动剪切视频,得到含有语气词的各个视频片段;
3)对各个视频片段中的音频内容进行处理,转成文字内容;
4)人工矫正文字内容。
4.一种实现上述任一权利要求所述方法的联合语气词特征的视音频驱动人脸动画实现***,其特征在于,包括:openface视频追踪模块、语音预测模块、语气词增强模块和可视化模块,其中:openface视频追踪模块根据处理视频输入信息,进行面部位姿计算得到面部旋转角、视线旋转角,进行表情AU参数检测得到AU强度参数,语音预测模块根据处理语音输入信息,通过语音特征窗口预测表情AU参数,语气词增强模块转换语音内容为文字,进行语气词特征提取后进一步进行表情增强处理,并使用语气词特征搭建语气词增强训练网络预测用于增强的表情AU参数,可视化模块根据视频追踪模块、语音预测模块和语气词增强模块输出的表情AU参数,进行融合处理,得到最终用于驱动人脸模型的AU参数,驱动人脸模型动画。
5.根据权利要求4所述的视音频驱动人脸动画实现***,其特征是,所述的Openface视频追踪模块包括:人脸识别单元、面部关键点检测单元、面部位姿检测单元以及AU强度估计单元,其中:人脸识别单元根据当前帧的图像数据信息,进行人脸检测并得到人脸位置结果集,面部关键点检测单元根据人脸位置信息,进行关键点检测处理并得到面部关键点集,面部位姿检测单元根据面部关键点信息,进行PnP求解并得到面部旋转角,AU强度估计单元根据面部关键点位置和图像数据,生成定向梯度直方图,并基于CE-CLM模型求解各AU强度参数。
6.根据权利要求4所述的视音频驱动人脸动画实现***,其特征是,所述的语音预测模块包括:语音特征提取单元、AU分类检测单元以及AU强度回归预测单元,其中:语音特征提取单元根据输入的音频序列信息,使用python_speech_feature库提取MFCC、Fbank、SSC这三种音频特征;AU分类检测单元根据音频特征信息,构建特征窗口向量,通过输入AU分类阶段的网络并输出得到当前帧的AU分类结果;AU强度回归预测单元根据AU分类单元的特征窗口向量和AU分类结果,通过输入AU强度回归阶段的网络并输出得到当前帧的AU强度估计结果。
7.根据权利要求4或6所述的视音频驱动人脸动画实现***,其特征是,所述的语音预测包括:AU分类阶段和AU回归预测阶段,其中:AU分类阶段初筛音频窗口中存在的AU类型,使用的是两层LSTM结合一层Dense层,LSTM层设置recurrent_dropout为0.35来防止过拟合,Dense层使用sigmod进行激活,该分类使用二维交叉熵作为损失函数,rmsprop作为优化器,得到AU参数的Mask;AU回归预测阶段预测AU的当前帧面部AU参数的准确值,使用的是两层LSTM结合一层Dense层,LSTM层设置recurrent_dropout为0.35来防止过拟合,Dense层的输出使用AU分类阶段得到的Mask进行激活,该分类使用L2正则损失作为损失函数,sgd作为优化器,得到AU参数的具体值。
8.根据权利要求4所述的视音频驱动人脸动画实现***,其特征是,所述的语气词增强模块包括:语音特征提取单元、语气词识别单元以及语气词AU强度预测单元,其中:语音特征提取单元根据输入的音频序列信息,使用python_speech_feature库提取MFCC、Fbank、SSC这三种音频特征;语气词识别单元根据输入的音频序列信息,使用谷歌Gloud SpeechAPI进行语音听写处理得到转换的文字内容,并识别语气词得到语气词识别结果;语气词AU强度预测单元根据音频特征信息构建特征窗口向量,同时根据语气词识别结果构建语气词one-hot向量,将特征窗口向量和语气词one-hot向量输入语气词AU强度预测网络并输出得到用于增强的当前帧的AU强度估计结果。
9.根据权利要求4或8所述的视音频驱动人脸动画实现***,其特征是,所述的语气词增强模块按照以下步骤进行网络的搭建:
1)采用python_speech_feature库提取语音特征(MFCC、Fbank、SSC),根据多帧时间窗口内的语音特征构建特征矩阵,其中:语音特征的采集率为25fps,winLen为0.025,时间窗口设为24×4;
2)利用多层的卷积操作对特征矩阵进行采样,并且映射到低维空间的中间变量,其中:卷积操作共有四层,第一层和第二层的filter大小为64,kernel大小为4×1,strides为4×1,第三层的filter大小为32,kernel大小为3×1,strides为3×1,第四层的filter大小为16,kernel大小为2×1,strides为2×1,各卷积层之间使用ReLu函数进行激活;
3)识别语气词,根据语气词识别结果构建one-hot向量,其中:目前使用的语气词有“Um”、“Oh”、“Oops”、“Wow”、“Eh”、“Oh My God”六种语气词,即语气词特征向量为6×1的one-hot向量;
4)将上述2)和3)的结果进行拼接,得到包含语气词特征的中间变量;其中,第四层卷积层得到的是16×1的向量,拼接6×1的语气词特征向量,得到22×1的中间变量;
5)对包含语气词特征的中间变量进行卷积,映射为当前帧的表情AU参数;其中,卷积操作由两层全连接层构成,第一层由64个unit构成,激活函数为tanh,第二层由17个unit构成,激活函数为linear,第二层输出的17×1的向量即为用于驱动人脸模型的17个AU的参数值;
6)利用该表情AU参数对原本的驱动结果AU参数进行拟合,进行表情增强,使用拟合后的结果进行人脸模型的驱动。
10.根据权利要求4所述的视音频驱动人脸动画实现***,其特征是,所述的可视化模块包括:AU参数拟合单元、离线驱动框架单元和实时驱动框架单元,其中:多种结果的AU参数拟合单元使用权重形式将视频追踪、语音预测、语气词增强的结果进行拟合;离线驱动框架单元通过文件读取每一帧的AU参数,逐帧设置重定向模型的skinMeshRenderer组件中的Blendshape权重,实现动画效果;实时驱动框架单元使用Google ProtoBuff进行AU参数的消息转发,并构建buffer存储三种结果的数据,再逐帧读取buffer,设置模型的skinMeshRenderer组件中的Blendshape权重,实现实时将三种结果的数据对齐的动画效果。
CN202011484986.6A 2020-12-16 2020-12-16 联合语气词特征的视音频驱动人脸动画实现方法及*** Active CN112614212B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011484986.6A CN112614212B (zh) 2020-12-16 2020-12-16 联合语气词特征的视音频驱动人脸动画实现方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011484986.6A CN112614212B (zh) 2020-12-16 2020-12-16 联合语气词特征的视音频驱动人脸动画实现方法及***

Publications (2)

Publication Number Publication Date
CN112614212A true CN112614212A (zh) 2021-04-06
CN112614212B CN112614212B (zh) 2022-05-17

Family

ID=75239666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011484986.6A Active CN112614212B (zh) 2020-12-16 2020-12-16 联合语气词特征的视音频驱动人脸动画实现方法及***

Country Status (1)

Country Link
CN (1) CN112614212B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378806A (zh) * 2021-08-16 2021-09-10 之江实验室 一种融合情感编码的音频驱动人脸动画生成方法及***
CN113450804A (zh) * 2021-06-23 2021-09-28 深圳市火乐科技发展有限公司 语音可视化方法、装置、投影设备及计算机可读存储介质
CN113705349A (zh) * 2021-07-26 2021-11-26 电子科技大学 一种基于视线估计神经网络的注意力量化分析方法及***
CN113760101A (zh) * 2021-09-23 2021-12-07 北京字跳网络技术有限公司 一种虚拟角色控制方法、装置、计算机设备以及存储介质
CN113763519A (zh) * 2021-11-09 2021-12-07 江苏原力数字科技股份有限公司 一种基于深度学习的语音驱动3d人物面部表情方法
CN113822969A (zh) * 2021-09-15 2021-12-21 宿迁硅基智能科技有限公司 训练神经辐射场模型和人脸生成方法、装置及服务器
CN114218424A (zh) * 2022-02-22 2022-03-22 杭州一知智能科技有限公司 一种基于wav2vec的语气词***的语音交互方法及***
WO2022267380A1 (zh) * 2021-06-25 2022-12-29 达闼科技(北京)有限公司 基于语音驱动的人脸动作合成方法、电子设备及存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100082345A1 (en) * 2008-09-26 2010-04-01 Microsoft Corporation Speech and text driven hmm-based body animation synthesis
JP2013219495A (ja) * 2012-04-06 2013-10-24 Nec Infrontia Corp 感情表現アニメーション顔表示システム、方法及びプログラム
CN104217454A (zh) * 2014-08-21 2014-12-17 中国科学院计算技术研究所 一种视频驱动的人脸动画生成方法
CN106204698A (zh) * 2015-05-06 2016-12-07 北京蓝犀时空科技有限公司 为自由组合创作的虚拟形象生成及使用表情的方法和***
US20190012599A1 (en) * 2010-06-07 2019-01-10 Affectiva, Inc. Multimodal machine learning for emotion metrics
CN109523616A (zh) * 2018-12-04 2019-03-26 科大讯飞股份有限公司 一种面部动画生成方法、装置、设备及可读存储介质
US20190122412A1 (en) * 2017-10-23 2019-04-25 Paypal, Inc. System and method for generating animated emoji mashups
US20190172243A1 (en) * 2017-12-01 2019-06-06 Affectiva, Inc. Avatar image animation using translation vectors
CN110189749A (zh) * 2019-06-06 2019-08-30 四川大学 语音关键词自动识别方法
US20200065383A1 (en) * 2018-08-24 2020-02-27 S&P Global Inc. Sentiment Analysis
CN110874557A (zh) * 2018-09-03 2020-03-10 阿里巴巴集团控股有限公司 一种语音驱动虚拟人脸的视频生成方法以及装置
US20200126283A1 (en) * 2017-01-12 2020-04-23 The Regents Of The University Of Colorado, A Body Corporate Method and System for Implementing Three-Dimensional Facial Modeling and Visual Speech Synthesis
US20200279553A1 (en) * 2019-02-28 2020-09-03 Microsoft Technology Licensing, Llc Linguistic style matching agent
CN112041924A (zh) * 2018-05-18 2020-12-04 渊慧科技有限公司 通过音素预测进行视觉语音识别

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100082345A1 (en) * 2008-09-26 2010-04-01 Microsoft Corporation Speech and text driven hmm-based body animation synthesis
US20190012599A1 (en) * 2010-06-07 2019-01-10 Affectiva, Inc. Multimodal machine learning for emotion metrics
JP2013219495A (ja) * 2012-04-06 2013-10-24 Nec Infrontia Corp 感情表現アニメーション顔表示システム、方法及びプログラム
CN104217454A (zh) * 2014-08-21 2014-12-17 中国科学院计算技术研究所 一种视频驱动的人脸动画生成方法
CN106204698A (zh) * 2015-05-06 2016-12-07 北京蓝犀时空科技有限公司 为自由组合创作的虚拟形象生成及使用表情的方法和***
US20200126283A1 (en) * 2017-01-12 2020-04-23 The Regents Of The University Of Colorado, A Body Corporate Method and System for Implementing Three-Dimensional Facial Modeling and Visual Speech Synthesis
US20190122412A1 (en) * 2017-10-23 2019-04-25 Paypal, Inc. System and method for generating animated emoji mashups
US20190172243A1 (en) * 2017-12-01 2019-06-06 Affectiva, Inc. Avatar image animation using translation vectors
CN112041924A (zh) * 2018-05-18 2020-12-04 渊慧科技有限公司 通过音素预测进行视觉语音识别
US20200065383A1 (en) * 2018-08-24 2020-02-27 S&P Global Inc. Sentiment Analysis
CN110874557A (zh) * 2018-09-03 2020-03-10 阿里巴巴集团控股有限公司 一种语音驱动虚拟人脸的视频生成方法以及装置
CN109523616A (zh) * 2018-12-04 2019-03-26 科大讯飞股份有限公司 一种面部动画生成方法、装置、设备及可读存储介质
US20200279553A1 (en) * 2019-02-28 2020-09-03 Microsoft Technology Licensing, Llc Linguistic style matching agent
CN110189749A (zh) * 2019-06-06 2019-08-30 四川大学 语音关键词自动识别方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
AHMED HUSSEN ABDELAZIZ: "Modality Dropout for Improved Performance-driven Talking Faces", 《ARXIV》 *
TRIPATHY, S.; KANNALA, J.; RAHTU, E.: "FACEGAN: Facial Attribute Controllable rEenactment GAN", 《ARXIV》 *
张申等: "基于语义维度的人脸表情生成", 《清华大学学报(自然科学版)》 *
李皓: "语音驱动的人脸建模与动画技术研究", 《中国优秀博士学位论文全文库》 *
谢金晶等: "基于语音情感识别的多表情人脸动画方法", 《计算机辅助设计与图形学学报》 *
饶玲珊: "增强现实游戏的场景重建和运动物体跟踪技术", 《计算机工程与应用》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113450804A (zh) * 2021-06-23 2021-09-28 深圳市火乐科技发展有限公司 语音可视化方法、装置、投影设备及计算机可读存储介质
WO2022267380A1 (zh) * 2021-06-25 2022-12-29 达闼科技(北京)有限公司 基于语音驱动的人脸动作合成方法、电子设备及存储介质
CN113705349A (zh) * 2021-07-26 2021-11-26 电子科技大学 一种基于视线估计神经网络的注意力量化分析方法及***
CN113705349B (zh) * 2021-07-26 2023-06-06 电子科技大学 一种基于视线估计神经网络的注意力量化分析方法及***
CN113378806A (zh) * 2021-08-16 2021-09-10 之江实验室 一种融合情感编码的音频驱动人脸动画生成方法及***
CN113822969A (zh) * 2021-09-15 2021-12-21 宿迁硅基智能科技有限公司 训练神经辐射场模型和人脸生成方法、装置及服务器
CN113760101A (zh) * 2021-09-23 2021-12-07 北京字跳网络技术有限公司 一种虚拟角色控制方法、装置、计算机设备以及存储介质
CN113763519A (zh) * 2021-11-09 2021-12-07 江苏原力数字科技股份有限公司 一种基于深度学习的语音驱动3d人物面部表情方法
CN113763519B (zh) * 2021-11-09 2022-02-08 江苏原力数字科技股份有限公司 一种基于深度学习的语音驱动3d人物面部表情方法
CN114218424A (zh) * 2022-02-22 2022-03-22 杭州一知智能科技有限公司 一种基于wav2vec的语气词***的语音交互方法及***

Also Published As

Publication number Publication date
CN112614212B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
CN112614212B (zh) 联合语气词特征的视音频驱动人脸动画实现方法及***
CN113192161B (zh) 一种虚拟人形象视频生成方法、***、装置及存储介质
CN107979764B (zh) 基于语义分割和多层注意力框架的视频字幕生成方法
CN112184858B (zh) 基于文本的虚拟对象动画生成方法及装置、存储介质、终端
US8224652B2 (en) Speech and text driven HMM-based body animation synthesis
CN112860888B (zh) 一种基于注意力机制的双模态情感分析方法
CN113378806B (zh) 一种融合情感编码的音频驱动人脸动画生成方法及***
KR102148392B1 (ko) 동영상 메타데이터 태깅 시스템 및 그 방법
US20120130717A1 (en) Real-time Animation for an Expressive Avatar
CN101187990A (zh) 一种会话机器人***
CN113838174B (zh) 一种音频驱动人脸动画生成方法、装置、设备与介质
CN112151030A (zh) 一种基于多模态的复杂场景语音识别方法和装置
CN115329779A (zh) 一种多人对话情感识别方法
CN113592251B (zh) 一种多模态融合的教态分析***
CN110880198A (zh) 动画生成方法和装置
CN113344036A (zh) 一种基于动态词嵌入的多模态Transformer的图像描述方法
CN111340005A (zh) 一种手语识别方法和***
CN115050354B (zh) 数字人驱动方法和装置
CN113283336A (zh) 一种文本识别方法与***
CN114581812B (zh) 视觉语言识别方法、装置、电子设备及存储介质
Chen et al. Transformer-s2a: Robust and efficient speech-to-animation
CN117409121A (zh) 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、***、设备及介质
Wei et al. A practical model for live speech-driven lip-sync
Liu et al. Real-time speech-driven animation of expressive talking faces
CN113257225B (zh) 一种融合词汇及音素发音特征的情感语音合成方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant