CN110942502B - 语音唇形拟合方法、***及存储介质 - Google Patents

语音唇形拟合方法、***及存储介质 Download PDF

Info

Publication number
CN110942502B
CN110942502B CN201911195998.4A CN201911195998A CN110942502B CN 110942502 B CN110942502 B CN 110942502B CN 201911195998 A CN201911195998 A CN 201911195998A CN 110942502 B CN110942502 B CN 110942502B
Authority
CN
China
Prior art keywords
lip
voice
neural network
feature vector
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911195998.4A
Other languages
English (en)
Other versions
CN110942502A (zh
Inventor
黄以华
张睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201911195998.4A priority Critical patent/CN110942502B/zh
Publication of CN110942502A publication Critical patent/CN110942502A/zh
Application granted granted Critical
Publication of CN110942502B publication Critical patent/CN110942502B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种语音唇形拟合方法,包括以下内容:采集目标人物视频数据集的图像数据和语音数据;提取所述图像数据中目标人物的唇形特征向量;提取所述语音数据中目标人物的语音特征向量;以语音特征向量为输入,唇形特征向量为输出,训练多尺度融合卷积神经网络;向多尺度融合卷积神经网络输入目标人物待拟合的语音特征向量,多尺度融合卷积神经网络生成拟合的唇形特征向量并进行输出,基于所述唇形特征向量对唇形进行拟合。

Description

语音唇形拟合方法、***及存储介质
技术领域
本发明涉及语音信号技术领域,更具体地,涉及一种语音唇形拟合方法、***及存储介质。
背景技术
根据语音生成相应唇形的语音唇形拟合技术,是虚拟主播、虚拟形象机器人、动画角色嘴型设计等应用的基础技术之一。准确、流畅地根据语音拟合出唇形,是该项技术难点所在。
目前,基于语音拟合唇形在技术上主要通过以下两种方案实现:
1)根据音素理论和基本唇形理论,利用贝叶斯估计、隐马尔可夫模型、BP神经网络等进行唇形分类后,通过插值估计产生唇形序列的方法。
2)利用LSTM、RNN等循环神经网络进行序列到序列映射的唇形估计方法。
然而,以上两种方案在实际使用时,存在着以下问题:1)类技术方案理论较多、步骤繁琐、模型计算量大、唇形拟合准确率低;2)类技术方案并行度低、运算速度慢、唇形特征点标签采集精确度低、方案整体效率低。
发明内容
本发明为解决现有技术提供的语音唇形拟合方法存在的拟合准确率低的技术缺陷,提供了一种语音唇形拟合方法。
为实现以上发明目的,采用的技术方案是:
语音唇形拟合方法,包括以下内容:
采集目标人物视频数据集的图像数据和语音数据;
提取所述图像数据中目标人物的唇形特征向量;
提取所述语音数据中目标人物的语音特征向量;
以语音特征向量为输入,唇形特征向量为输出,训练多尺度融合卷积神经网络;
向多尺度融合卷积神经网络输入目标人物待拟合的语音特征向量,多尺度融合卷积神经网络生成拟合的唇形特征向量并进行输出,基于所述唇形特征向量对唇形进行拟合。
优选地,所述目标人物视频数据集的图像数据和语音数据同步及同帧率进行采集。
优选地,所述目标人物视频数据集通过三维结构光深度相机采集。
优选地,所述目标人物的唇形特征向量由采集的图像数据逐帧画面中嘴唇、下巴和脸颊部位的30维BlendShape系数向量组成。
优选地,所述提取语音数据中目标人物的语音特征向量的具体过程如下:
对采集的目标人物的语音数据逐帧进行梅尔频率倒谱系数的特征向量提取;
获取一个经过语音识别训练的深度神经网络,并去除掉最后的CTC分类损失层;
将提取的梅尔频率倒谱系数特征向量逐帧输入所述深度神经网络,深度神经网络输出语音数据经过二次提取后的特征向量,即为所需语音特征向量。
优选地,所述训练多尺度融合卷积神经网络的具体过程如下:
A、设采集的语音数据长度共为a帧,帧序号为从1到a,则按照[1:m][2:(m+1)]...[(a-m+1):a]的形式进行滑动帧序分组,将提取的语音特征向量构造成大小为m×n的二维矩阵形式;
B、将所述提取的唇形特征向量构造成大小为m×30的二维矩阵形式;
C、构造多尺度融合卷积神经网络;
D、将所述唇形特征向量展平成一维向量作为所述多尺度融合卷积神经网络训练的标签向量;
E、向所述多尺度融合卷积神经网络输入提取的语音特征向量;
F、根据多尺度融合卷积神经网络的输出计算损失函数,并基于所述损失函数根据反向传播和梯度下降原理调整多尺度融合卷积神经网络的各层权重;
G、重复步骤E、F直至损失函数值符合要求。
优选地,所述多尺度融合卷积神经网络包括
Figure BDA0002294635480000021
层二维卷积层、加权融合层和全连接层;
Figure BDA0002294635480000022
层二维卷积层首尾连接,加权融合层的输入端与
Figure BDA0002294635480000023
层二维卷积层的输出端连接,加权融合层的输出端与全连接层的输入端连接;
其中每一层的二维卷积层的输出特征图大小和输入特征图大小相同;
语音特征向量通过首端的二维卷积层输入,二维卷积层的输出特征图分为两路传输,一路传到下一层二维卷积层,另一路直接传输到加权融合层缓存;当尾端的二维卷积层的输出特征图生成并传输到加权融合层缓存时,将加权融合层中缓存的输出特征图按各自层的权重大小加和输出;将加权融合层的输出展平成一维向量,输入全连接层;全连接层输出的一维向量即为唇形特征的预测向量,基于所述唇形特征的预测向量拟合唇形。
优选地,所述训练的损失函数计算如下:
Figure BDA0002294635480000031
其中,loss(i)表示输入的第i个语音特征向量的唇形拟合相对误差值,p(i)表示第i个语音特征向量输入多尺度融合卷积神经网络后得到的唇形特征的预测向量,g(i)表示第i个语音特征向量对应的真实唇形特征向量值。
同时,本发明还提供了一种应用以上方法的语音唇形拟合***,其具体的方案如下:
包括数据采集模块、唇形特征向量提取模块、语音特征向量提取模块、多尺度融合卷积神经网络训练模块和语音唇形拟合模块;
其中数据采集模块用于采集目标人物视频数据集的图像数据和语音数据;
唇形特征向量提取模块用于提取所述图像数据中目标人物的唇形特征向量;
语音特征向量提取模块用于提取所述语音数据中目标人物的语音特征向量;
多尺度融合卷积神经网络训练模块用于以语音特征向量为输入,唇形特征向量为输出,训练多尺度融合卷积神经网络;
语音唇形拟合模块用于向多尺度融合卷积神经网络输入目标人物待拟合的语音特征向量,多尺度融合卷积神经网络生成拟合的唇形特征向量并进行输出,基于所述唇形特征向量对唇形进行拟合。
另外,本发明还提供了一种存储介质,其内部存储有程序,所述程序运行时执行以上的语音唇形拟合方法。
与现有技术相比,本发明的有益效果是:
(1)采用三维结构光深度相机提取人脸与唇形相关的BlendShape系数,能准确地产生和语音相对应的准确唇形系数向量作为多尺度融合卷积神经网络训练的标签向量,也有利于生成由BlendShape系数控制的唇形动画;
(2)对语音数据进行特征二次提取,既有梅尔频率倒谱系数的梅尔频域特征特性,又有语音识别在音素、字词方面的语义特征,更利于语音特征准确地拟合唇形;
(3)将语音特征向量和唇形特征向量用滑动帧序分组,在保证连贯性的情况下,大幅增加训练样本,降低采集训练数据的时间成本;使用多尺度融合卷积神经网络运算,相比循环神经网络,提高并行度,增加了运算效率;使用多个尺度特征图的加权融合,可同时兼顾语音特征向量在时间和特征维度上的关联性,进一步提升唇形拟合的准确度、连贯性和泛化能力;训练的损失函数使用相对误差的形式,更利于观测网络的拟合量化效果。
附图说明
图1为实施例1的基于多尺度融合卷积神经网络语音唇形拟合方法的流程图。
图2为实施例1的多尺度融合卷积神经网络的网络结构示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
如图1所示,为本实施例的基于多尺度融合卷积神经网络语音唇形拟合方法的流程图。
本实施例的基于多尺度融合卷积神经网络的语音唇形拟合方法,包括以下步骤:
S1:采集目标人物视频数据集的图像数据和语音数据。本步骤中需要以同时、同帧率采集目标人物视频数据集的图像数据和语音数据,并且所述目标人物视频数据集的图像数据需要使用三维结构光深度相机采集。在本实施例中,利用MacOS和ARKit编写人脸追踪程序,在IphoneX设备上运行,利用其前置摄像头,进行所述视频图像数据采集,帧率为60帧每秒。
S2:提取所述图像数据中目标人物的唇形特征向量。本步骤中,目标人物的唇形特征向量,是由S1步骤采集的目标人物图像数据逐帧画面中嘴唇、下巴和脸颊部位的30维BlendShape系数向量组成。在本实施例中,所述系数向量,由步骤S1中ARKit编写的人脸追踪程序,自动提取并保存在设备文件中,待采集完毕,再上传到电脑上处理;BlendShape系数是在0.0-1.0之间的浮点数。
S3:提取所述语音数据中目标人物的语音特征向量。其具体步骤如下:
S3.1:对S1步骤采集的目标人物语音数据逐帧进行梅尔频率倒谱系数的特征向量提取;在本实施例中,梅尔频率倒谱系数的维度选为26维;
S3.2:获取一个经过语音识别训练的深度神经网络,并去除掉最后的CTC分类损失层;在本实施例中,获取DeepSpeech神经网络框架;
S3.3:将S3.1中提取的梅尔频率倒谱系数特征向量逐帧输入S3.2所述网络中,输出语音数据经过二次提取后的29维特征向量,即为所需语音特征向量。
S4:以语音特征向量为输入,唇形特征向量为输出,训练多尺度融合卷积神经网络,实现语音特征到唇形特征的映射拟合。其具体步骤如下:
S4.1:设S1步骤所采集的目标人物语音数据长度共a帧,帧序号为从1到a,则按照[1:m][2:(m+1)]...[(a-m+1):a]的形式进行滑动帧序分组,将所述语音特征向量构造成大小为m×29的二维矩阵形式;在本实施例中m=30;
S4.2:由于S1步骤所采集的目标人物图像数据和语音数据是同等时长、同等帧率的,因此将所述唇形特征向量构造成大小为30×30的二维矩阵形式;
S4.3:构造多尺度融合卷积神经网络,如图2所示;所述网络由7层二维卷积层、加权融合层和全连接层依次连接构成;其中二维卷积层大小均为3×3;每一层二维卷积层的输出特征图大小和输入特征图相同,并分成两路传输,一路传到下一层卷积层,另一路直接传到加权融合层缓存;当最后一层二维卷积层的输出特征图生成并传到加权融合层缓存时,将加权融合层中缓存的输出特征图按各自层的权重大小[f1:f7]加和输出,其中所述各自层的权重大小为可训练参数;将加权融合层的输出展平成一维向量,输入全连接层;全连接层输出的一维向量即为唇形特征的预测向量;
S4.4:将S4.2所述的唇形特征向量展平成一维向量,作为所述多尺度融合卷积神经网络训练的标签向量;其中训练的损失函数为:
Figure BDA0002294635480000051
其中,loss(i)表示输入的第i个语音特征向量的唇形拟合相对误差值,p(i)表示第i个语音特征向量输入多尺度融合卷积神经网络后得到的唇形特征的预测向量,g(i)表示第i个语音特征向量对应的真实唇形特征向量值;根据误差的反向传播和梯度下降原理,训练调整所述多尺度融合卷积神经网络中二维卷积层、加权融合层、全连接层的权重,至所有语音特征向量拟合得到的损失函数值最小。在本实施例中,录制了约437分钟的训练数据集;训练时为了缓解过拟合,在全连接层前后分别加入Dropout层,Dropout比例设为0.5;计算梯度下降时的批量数为1;初始学习率为0.1,之后一旦出现连续八次损失函数不下降,则减少20%学习率;训练结束后,损失函数值低至0.1,拟合精确度高。
S5:以唇形特征生成唇形画面。本步骤中,需要将步骤S4拟合得到的唇形特征向量,逐帧合成对应的唇形,可得到流畅的唇形画面。在本实施例中,将唇形特征向量编译为FBX文件,导入到Unity3D引擎中,可看到唇形画面。测试一些未在步骤S4训练的音频片段,依旧能观测到拟合出的唇形非常准确,模型泛化性能良好。
实施例2
本实施例提供了一种应用实施例1语音唇形拟合方法的***,其具体的方案如下:
包括数据采集模块、唇形特征向量提取模块、语音特征向量提取模块、多尺度融合卷积神经网络训练模块和语音唇形拟合模块;
其中数据采集模块用于采集目标人物视频数据集的图像数据和语音数据;
唇形特征向量提取模块用于提取所述图像数据中目标人物的唇形特征向量;
语音特征向量提取模块用于提取所述语音数据中目标人物的语音特征向量;
多尺度融合卷积神经网络训练模块用于以语音特征向量为输入,唇形特征向量为输出,训练多尺度融合卷积神经网络;
语音唇形拟合模块用于向多尺度融合卷积神经网络输入目标人物待拟合的语音特征向量,多尺度融合卷积神经网络生成拟合的唇形特征向量并进行输出,基于所述唇形特征向量对唇形进行拟合。
实施例3
本实施例提供了一种存储介质,所述存储介质内存储有程序,所述程序运行时执行实施例1的语音唇形拟合方法的方法步骤。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.语音唇形拟合方法,其特征在于:包括以下内容:
采集目标人物视频数据集的图像数据和语音数据;
提取所述图像数据中目标人物的唇形特征向量;
提取所述语音数据中目标人物的语音特征向量;
以语音特征向量为输入,唇形特征向量为输出,训练多尺度融合卷积神经网络;
向多尺度融合卷积神经网络输入目标人物待拟合的语音特征向量,多尺度融合卷积神经网络生成拟合的唇形特征向量并进行输出,基于所述唇形特征向量对唇形进行拟合;
所述目标人物的唇形特征向量由采集的图像数据逐帧画面中嘴唇、下巴和脸颊部位的30维BlendShape系数向量组成;
所述提取语音数据中目标人物的语音特征向量的具体过程如下:
对采集的目标人物的语音数据逐帧进行梅尔频率倒谱系数的特征向量提取;
获取一个经过语音识别训练的深度神经网络,并去除掉最后的CTC分类损失层;
将提取的梅尔频率倒谱系数特征向量逐帧输入所述深度神经网络,深度神经网络输出语音数据经过二次提取后的特征向量,即为所需语音特征向量;
所述训练多尺度融合卷积神经网络的具体过程如下:
A、设采集的语音数据长度共为a帧,帧序号为从1到a,则按照[1:m][2:(m+1)]...[(a-m+1):a]的形式进行滑动帧序分组,将提取的语音特征向量构造成大小为m×n的二维矩阵形式;
B、将所述提取的唇形特征向量构造成大小为m×30的二维矩阵形式;
C、构造多尺度融合卷积神经网络;
D、将所述唇形特征向量展平成一维向量作为所述多尺度融合卷积神经网络训练的标签向量;
E、向所述多尺度融合卷积神经网络输入提取的语音特征向量;
F、根据多尺度融合卷积神经网络的输出计算损失函数,并基于所述损失函数根据反向传播和梯度下降原理调整多尺度融合卷积神经网络的各层权重;
G、重复步骤E、F直至损失函数值符合要求。
2.根据权利要求1所述的语音唇形拟合方法,其特征在于:所述目标人物视频数据集的图像数据和语音数据同步及同帧率进行采集。
3.根据权利要求1所述的语音唇形拟合方法,其特征在于:所述目标人物视频数据集通过三维结构光深度相机采集。
4.根据权利要求1所述的语音唇形拟合方法,其特征在于:所述多尺度融合卷积神经网络包括
Figure FDA0003139968630000021
层二维卷积层、加权融合层和全连接层;
Figure FDA0003139968630000022
层二维卷积层首尾连接,加权融合层的输入端与
Figure FDA0003139968630000023
层二维卷积层的输出端连接,加权融合层的输出端与全连接层的输入端连接;
其中每一层的二维卷积层的输出特征图大小和输入特征图大小相同;
语音特征向量通过首端的二维卷积层输入,二维卷积层的输出特征图分为两路传输,一路传到下一层二维卷积层,另一路直接传输到加权融合层缓存;当尾端的二维卷积层的输出特征图生成并传输到加权融合层缓存时,将加权融合层中缓存的输出特征图按各自层的权重大小加和输出;将加权融合层的输出展平成一维向量,输入全连接层;全连接层输出的一维向量即为唇形特征的预测向量,基于所述唇形特征的预测向量拟合唇形。
5.根据权利要求1所述的语音唇形拟合方法,其特征在于:所述训练的损失函数计算如下:
Figure FDA0003139968630000024
其中,loss(i)表示输入的第i个语音特征向量的唇形拟合相对误差值,p(i)表示第i个语音特征向量输入多尺度融合卷积神经网络后得到的唇形特征的预测向量,g(i)表示第i个语音特征向量对应的真实唇形特征向量值。
6.一种语音唇形拟合***,其特征在于:包括数据采集模块、唇形特征向量提取模块、语音特征向量提取模块、多尺度融合卷积神经网络训练模块和语音唇形拟合模块;
其中数据采集模块用于采集目标人物视频数据集的图像数据和语音数据;
唇形特征向量提取模块用于提取所述图像数据中目标人物的唇形特征向量;
语音特征向量提取模块用于提取所述语音数据中目标人物的语音特征向量;
多尺度融合卷积神经网络训练模块用于以语音特征向量为输入,唇形特征向量为输出,训练多尺度融合卷积神经网络;
语音唇形拟合模块用于向多尺度融合卷积神经网络输入目标人物待拟合的语音特征向量,多尺度融合卷积神经网络生成拟合的唇形特征向量并进行输出,基于所述唇形特征向量对唇形进行拟合;
所述目标人物的唇形特征向量由采集的图像数据逐帧画面中嘴唇、下巴和脸颊部位的30维BlendShape系数向量组成;
所述提取语音数据中目标人物的语音特征向量的具体过程如下:
对采集的目标人物的语音数据逐帧进行梅尔频率倒谱系数的特征向量提取;
获取一个经过语音识别训练的深度神经网络,并去除掉最后的CTC分类损失层;
将提取的梅尔频率倒谱系数特征向量逐帧输入所述深度神经网络,深度神经网络输出语音数据经过二次提取后的特征向量,即为所需语音特征向量;
所述训练多尺度融合卷积神经网络的具体过程如下:
A、设采集的语音数据长度共为a帧,帧序号为从1到a,则按照[1:m][2:(m+1)]...[(a-m+1):a]的形式进行滑动帧序分组,将提取的语音特征向量构造成大小为m×n的二维矩阵形式;
B、将所述提取的唇形特征向量构造成大小为m×30的二维矩阵形式;
C、构造多尺度融合卷积神经网络;
D、将所述唇形特征向量展平成一维向量作为所述多尺度融合卷积神经网络训练的标签向量;
E、向所述多尺度融合卷积神经网络输入提取的语音特征向量;
F、根据多尺度融合卷积神经网络的输出计算损失函数,并基于所述损失函数根据反向传播和梯度下降原理调整多尺度融合卷积神经网络的各层权重;
G、重复步骤E、F直至损失函数值符合要求。
7.一种存储介质,内部存储有程序,其特征在于:所述程序运行时执行权利要求1~5任一项的语音唇形拟合方法。
CN201911195998.4A 2019-11-29 2019-11-29 语音唇形拟合方法、***及存储介质 Active CN110942502B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911195998.4A CN110942502B (zh) 2019-11-29 2019-11-29 语音唇形拟合方法、***及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911195998.4A CN110942502B (zh) 2019-11-29 2019-11-29 语音唇形拟合方法、***及存储介质

Publications (2)

Publication Number Publication Date
CN110942502A CN110942502A (zh) 2020-03-31
CN110942502B true CN110942502B (zh) 2021-10-15

Family

ID=69908372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911195998.4A Active CN110942502B (zh) 2019-11-29 2019-11-29 语音唇形拟合方法、***及存储介质

Country Status (1)

Country Link
CN (1) CN110942502B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766166B (zh) * 2021-01-20 2022-09-06 中国科学技术大学 一种基于多音素选择的唇型伪造视频检测方法及***
CN113035198B (zh) * 2021-02-26 2023-11-21 北京百度网讯科技有限公司 三维人脸的唇动控制方法、设备和介质
CN112802484B (zh) * 2021-04-12 2021-06-18 四川大学 一种混合音频下的大熊猫声音事件检测方法及***
CN113269872A (zh) * 2021-06-01 2021-08-17 广东工业大学 基于三维人脸重构和视频关键帧优化的合成视频生成方法
CN113420697B (zh) * 2021-07-01 2022-12-09 中科人工智能创新技术研究院(青岛)有限公司 基于表观和形状特征的换装视频行人重识别方法及***
CN116312612B (zh) * 2023-02-02 2024-04-16 北京甲板智慧科技有限公司 基于深度学习的音频处理方法和装置
CN117152317B (zh) * 2023-11-01 2024-02-13 之江实验室科技控股有限公司 数字人界面控制的优化方法
CN117765214A (zh) * 2024-02-21 2024-03-26 飞狐信息技术(天津)有限公司 3d数字人唇形实时驱动方法、装置、终端和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751692A (zh) * 2009-12-24 2010-06-23 四川大学 语音驱动唇形动画的方法
CN106653052A (zh) * 2016-12-29 2017-05-10 Tcl集团股份有限公司 虚拟人脸动画的生成方法及装置
CN109243490A (zh) * 2018-10-11 2019-01-18 平安科技(深圳)有限公司 司机情绪识别方法及终端设备
CN109308731A (zh) * 2018-08-24 2019-02-05 浙江大学 级联卷积lstm的语音驱动唇形同步人脸视频合成算法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9129505B2 (en) * 1995-06-07 2015-09-08 American Vehicular Sciences Llc Driver fatigue monitoring system and method
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751692A (zh) * 2009-12-24 2010-06-23 四川大学 语音驱动唇形动画的方法
CN106653052A (zh) * 2016-12-29 2017-05-10 Tcl集团股份有限公司 虚拟人脸动画的生成方法及装置
CN109308731A (zh) * 2018-08-24 2019-02-05 浙江大学 级联卷积lstm的语音驱动唇形同步人脸视频合成算法
CN109243490A (zh) * 2018-10-11 2019-01-18 平安科技(深圳)有限公司 司机情绪识别方法及终端设备

Also Published As

Publication number Publication date
CN110942502A (zh) 2020-03-31

Similar Documents

Publication Publication Date Title
CN110942502B (zh) 语音唇形拟合方法、***及存储介质
CN109308731B (zh) 级联卷积lstm的语音驱动唇形同步人脸视频合成算法
KR101558202B1 (ko) 아바타를 이용한 애니메이션 생성 장치 및 방법
CN112784730B (zh) 一种基于时域卷积网络的多模态情感识别方法
CN110069985B (zh) 基于图像的目标点位置检测方法、装置、电子设备
CN113378806B (zh) 一种融合情感编码的音频驱动人脸动画生成方法及***
JP4631078B2 (ja) リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム
CN112581569B (zh) 自适应情感表达的说话人面部动画生成方法及电子装置
CN112001992A (zh) 基于深度学习的语音驱动3d虚拟人表情音画同步方法及***
CN112308949A (zh) 模型训练、人脸图像生成方法和装置以及存储介质
CN113838174B (zh) 一种音频驱动人脸动画生成方法、装置、设备与介质
CN113077537A (zh) 一种视频生成方法、存储介质及设备
CN111724458A (zh) 一种语音驱动的三维人脸动画生成方法及网络结构
CN108648745B (zh) 一种由唇部图像序列到语音编码参数的转换方法
Mattos et al. Improving CNN-based viseme recognition using synthetic data
CN114694255B (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN116597857A (zh) 一种语音驱动图像的方法、***、装置及存储介质
CN114581812B (zh) 视觉语言识别方法、装置、电子设备及存储介质
CN114170657A (zh) 融合注意力机制与高阶特征表示的面部情感识别方法
CN114491289A (zh) 一种双向门控卷积网络的社交内容抑郁检测方法
Li et al. Estimate articulatory MRI series from acoustic signal using deep architecture
CN117409121A (zh) 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、***、设备及介质
Tang et al. Real-time conversion from a single 2D face image to a 3D text-driven emotive audio-visual avatar
Luo et al. Realtime speech-driven facial animation using Gaussian Mixture Models
CN116311472A (zh) 基于多层次图卷积网络的微表情识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant