CN114972592A - 歌唱嘴型与面部动画生成方法、装置及电子设备 - Google Patents
歌唱嘴型与面部动画生成方法、装置及电子设备 Download PDFInfo
- Publication number
- CN114972592A CN114972592A CN202210710648.2A CN202210710648A CN114972592A CN 114972592 A CN114972592 A CN 114972592A CN 202210710648 A CN202210710648 A CN 202210710648A CN 114972592 A CN114972592 A CN 114972592A
- Authority
- CN
- China
- Prior art keywords
- singing
- sequence
- mouth shape
- phoneme
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001815 facial effect Effects 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 43
- 238000013518 transcription Methods 0.000 claims description 12
- 230000035897 transcription Effects 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 230000008859 change Effects 0.000 abstract description 6
- 239000011295 pitch Substances 0.000 description 12
- 230000003993 interaction Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明属于音视频同步技术领域,具体公开了歌唱嘴型与面部动画生成方法、装置及电子设备,其中方法包括步骤:将歌词与音符序列输入乐谱编码器得到第一歌唱声音参数特征向量序列;输入音长预测器得到每个音素的预测时长;将第一歌唱声音参数特征向量序列和每个音素的预测时长输入长度调节器得到第二歌唱声音参数特征向量序列;输入解码器得到音素信息序列;将音素信息序列输入嘴型信息预测模型得到嘴型信息序列;生成包含嘴型信息对应的嘴型的人脸图像;将人脸图像作为关键帧生成面部动画。本发明将歌曲的歌词和音符序列作为歌唱嘴型与面部动画生成所需的输入信息,结合歌唱时能量大小对嘴型动画的影响,保证嘴型更改与音素变化的时间序列对应。
Description
技术领域
本发明属于音视频同步技术领域,具体而言,涉及歌唱嘴型与面部动画生成方法、装置及电子设备。
背景技术
随着硬件与虚拟现实设备的快速发展,人们歌唱时的面部表情、唇部动作,甚至是头部与肢体的动作都可以帮助观众欣赏和理解歌曲,视觉和听觉的双模态信息融合的交互方式,不仅能提高用户对歌曲的理解度,还能提供一种更为准确的交互体验,提高歌唱的艺术性和观赏度。
歌唱嘴型与面部动画生成技术是指通过从歌词和音符序列中提取的音素、音符持续时间和音高等信息驱动、实时生成虚拟人歌唱嘴型和面部动画的技术。除了能提供更友好的人机交互方式之外,该技术在感知研究、声音辅助学习等方面具有重要应用价值,同时,能够在游戏和电影特效等娱乐化方面降低作品制作成本。
现有的大部分口型同步都集中在虚拟人物声音同步的口型动画与面部姿势动画上,传统的声音生成嘴型和面部动画的方法不能准确地模拟歌唱嘴型与歌曲的时间的对应关系,即歌唱时嘴型更改的时间序列与音素变化的时间序列存在不对应的问题,即嘴型更改的时间序列与音素变化的时间序列存在时间差。
发明内容
为了解决声音生成歌唱嘴型与面部动画同步效果差的问题,本发明提供歌唱嘴型与面部动画生成方法、装置及电子设备。
第一方面,本公开提供了歌唱嘴型与面部动画生成方法,包括步骤:
将歌词与音符序列输入乐谱编码器,得到第一歌唱声音参数特征向量序列;
将所述第一歌唱声音参数特征向量序列输入音长预测器,得到每个音素的预测时长;
将所述第一歌唱声音参数特征向量序列和每个音素的所述预测时长输入长度调节器,得到时长扩充后的第二歌唱声音参数特征向量序列;
将所述第二歌唱声音参数特征向量序列输入解码器,得到音素信息序列;
将所述音素信息序列输入预先训练的嘴型信息预测模型,得到嘴型信息序列;
根据所述嘴型信息序列中的嘴型信息,生成包含所述嘴型信息对应的嘴型的人脸图像;
将所述人脸图像作为面部动画的关键帧,利用所述关键帧生成面部动画。
第二方面,本公开提供了歌唱嘴型与面部动画生成装置,包括编码单元、音长预测单元、长度调节单元、解码单元、嘴型信息预测单元、嘴型特征图像生成单元、面部图像生成单元与面部动画生成单元;
所述编码单元,用于将歌词与音符序列输入乐谱编码器,得到第一歌唱声音参数特征向量序列;
所述音长预测单元,用于将所述第一歌唱声音参数特征向量序列输入音长预测器,得到每个音素的预测时长;
所述长度调节单元,用于将所述第一歌唱声音参数特征向量序列和每个音素的所述预测时长输入长度调节器,得到时长扩充后的第二歌唱声音参数特征向量序列;
所述解码单元,用于将所述第二歌唱声音参数特征向量序列输入解码器,得到音素信息序列;
所述嘴型信息预测单元,用于将所述音素信息序列输入预先训练的嘴型信息预测模型,得到嘴型信息序列;
所述人脸图像生成单元,用于根据所述嘴型信息序列中的嘴型信息,生成包含所述嘴型信息对应的嘴型的人脸图像;
所述动画生成单元,用于将所述人脸作为面部动画的关键帧,利用所述关键帧生成面部动画。
第三方面,本公开提供了一种电子设备,包括:
处理器和存储器;
所述存储器,用于存储计算机操作指令;
所述处理器,用于通过调用所述计算机操作指令,执行歌唱嘴型与面部动画生成方法。
本发明的有益效果是:本发明将歌曲的歌词和音符序列作为歌唱嘴型与面部动画的生成所需要的输入信息,不同于传统的声音生成嘴型和面部动画方法的声音信息,本发明结合歌唱时不同的歌唱技巧(如颤音,滑音等)演唱相同音素以及歌唱时能量大小对嘴型的影响,能够准确地模拟歌唱嘴型与歌曲的时间的对应关系,保证歌唱时嘴型更改的时间序列与音素变化的时间序列对应,。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述第一歌唱声音参数与所述第二歌唱声音参数均包括音素、音高、音素持续时间与转音标识符。
采用上述进一步方案的有益效果是,将音素、音高、音素持续时间与转音标识符的特征向量序列输入音长预测器,得到更准确的每个音素的预测时长。
进一步,所述音素信息序列包括能量、频谱、基频与对齐信息。
采用上述进一步方案的有益效果是,将能量、频谱、基频与对齐信息作为嘴型信息预测模型的输入,能够得到更准确的歌唱嘴型与歌曲之间的时间对应关系。
进一步,所述根据所述嘴型信息序列中的嘴型信息,生成嘴型特征图像,包括:
建立特征数据库,预设所述第一歌唱声音参数对应的歌唱技巧类型,以及所述歌唱技巧类型对应的嘴型特征参数;
根据所述第一歌唱声音参数,识别所述歌唱技巧类型;
根据所述歌唱技巧类型,确定所述嘴型特征参数;
根据所述嘴型特征参数,生成所述嘴型特征图像。
采用上述进一步方案的有益效果是,传统的声音生成嘴型和面部动画的方法未考虑歌唱时不同的歌唱技巧(如颤音,滑音等)演唱相同音素与歌唱时能量大小对嘴型的影响,本发明利用歌唱技巧(如颤音,滑音等)演唱相同音素与歌唱时能量大小对嘴型动画的影响,识别歌唱技巧类型,能够保证歌唱时嘴型更改的时间序列与音素变化的时间序列对应。
进一步,所述根据所述第一歌唱声音参数,识别所述歌唱技巧类型,包括:
检测所述第一歌唱声音参数的基频序列中连续出现波谷或者波峰的次数;
判断所述基频序列中连续出现波谷或者波峰的次数是否达到预设次数;若是,则获取基频序列片段,并统计该所述基频序列片段中的平均频率;否则,该所述基频序列片段为非颤音片段,所述歌唱技巧类型为非颤音技巧;
检测每次所述频率由波谷到波峰和所述频率由波峰到波谷的过程中,所述波谷和所述波峰对应的频率值;
判断所述波谷所对应的频率值是否小于所述平均频率,且所述波峰所对应的频率值是否大于所述平均频率;若每次所述波谷所对应的频率值小于所述平均频率,且所述波峰所对应的频率值大于所述平均频率,则确定该基频序列片段为颤音片段,所述歌唱技巧类型为颤音类型;否则,该所述基频序列片段为非颤音片段,所述歌唱技巧类型为非颤音技巧。
采用上述进一步方案的有益效果是,通过检测基频序列中连续出现波谷或者波峰的次数,判断基频序列片段是否为颤音片段,实现歌唱技巧类型是否为颤音技巧的识别。
进一步,所述编码单元为乐谱编码器;所述音长预测单元为音长预测器;所述长度调节单元为长度调节器;所述解码单元为解码器。
采用上述进一步方案的有益效果是,通过设置乐谱编码器得到第一歌唱声音参数特征向量序列;通过设置音长预测器得到每个音素的预测时长;通过设置长度调节器得到时长扩充后的第二歌唱声音参数特征向量序列;通过设置解码器得到音素信息序列。
附图说明
图1为本发明实施例1中提供的歌唱嘴型与面部动画生成方法流程图;
图2为本发明实施例1中提供的音素、音高、音素持续时间与转音标识符的特征向量序列以及预测时长的结果的示意图;
图3为本发明实施例1中提供的识别歌唱技巧类型的流程图;
图4为本发明实施例2中提供的歌唱嘴型与面部动画生成装置的原理图;
图5为本发明实施例3中提供的一种电子设备的原理图。
图标:50-电子设备;510-处理器;520-总线;530-存储器;540-收发器。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
实施例1
作为一个实施例,如附图1所示,为解决上述技术问题,本实施例提供歌唱嘴型与面部动画生成方法,包括步骤:
将歌词与音符序列输入乐谱编码器,得到第一歌唱声音参数特征向量序列;
将第一歌唱声音参数特征向量序列输入音长预测器,得到每个音素的预测时长;
将第一歌唱声音参数特征向量序列和每个音素的预测时长输入长度调节器,得到时长扩充后的第二歌唱声音参数特征向量序列;
将第二歌唱声音参数特征向量序列输入解码器,得到音素信息序列;
将音素信息序列输入预先训练的嘴型信息预测模型,得到嘴型信息序列;
根据嘴型信息序列中的嘴型信息,生成包含所述嘴型信息对应的嘴型的人脸图像;
将人脸图像作为面部动画的关键帧,利用关键帧生成面部动画。
本发明将歌曲的歌词和音符序列作为歌唱嘴型与面部动画的生成所需要的输入信息,不同于传统的声音生成嘴型和面部动画方法的声音信息,本发明能够准确地模拟歌唱嘴型与歌曲的时间的对应关系,保证歌唱时嘴型更改的时间序列与音素变化的时间序列对应,避免歌唱时不同的歌唱技巧(如颤音,滑音等)演唱相同音素与歌唱时能量大小对嘴型的影响。
可选的,第一歌唱声音参数与第二歌唱声音参数均包括音素、音高、音素持续时间与转音标识符。
在实际应用过程中,音素为根据语音的自然属性划分出来的最小语音单位。音高指音调高度,音高与声音的频率成正相关,与声音的波长成负相关。音素持续时间指音素持续时间音素在歌声中的持续时长。转音标识符为1表示该音素存在转音,转音标识符为0表示该音素不存在转音。
将音素、音高、音素持续时间与转音标识符的特征向量序列输入音长预测器,能够得到更准确的每个音素的预测时长。
可选的,音素信息序列包括能量、频谱、基频与对齐信息。
能量指时域上每帧的能量。频谱指信号频率与能量的关系用频谱,如MFCC(Mel-Frequency Cepstral Coefficiem,Mel域倒谱系数)。基频指基音的频率,基音的强度代表声音的音高,声带振动越快,基频越高。基频可以分解为很多正弦波,频率最低的波就是基音,其他频率高的是泛音。频率越高分配到的能量越少。对齐信息指每个音素的时间长度序列。附图2给出了音素、音高、音素持续时间与转音标识符的特征向量序列,以及预测时长的结果。
可选的,嘴型张开的幅度与能量大小满足函数关系,可选的,嘴型张开的幅度与能量大小满足正比例函数,或者嘴型张开的幅度与能量的平方成正比,能量越大,嘴型张开的幅度越大,本申请实施例对此不做限定。
将能量、频谱、基频与对齐信息作为嘴型信息预测模型的输入,能够得到更准确的歌唱嘴型与歌曲之间的时间对应关系。
可选的,根据嘴型信息序列中的嘴型信息,生成嘴型特征图像,包括:
建立特征数据库,预设第一歌唱声音参数对应的歌唱技巧类型,以及歌唱技巧类型对应的嘴型特征参数;
根据第一歌唱声音参数,识别歌唱技巧类型;
根据歌唱技巧类型,确定嘴型特征参数;
根据嘴型特征参数,生成嘴型特征图像。
在实际应用过程中,传统的声音生成嘴型和面部动画的方法未考虑歌唱时不同的歌唱技巧(如颤音,滑音等)演唱相同音素与歌唱时能量大小对嘴型的影响,本发明利用歌唱技巧(如颤音,滑音等)演唱相同音素与歌唱时能量大小对嘴型动画的影响,识别歌唱技巧类型,能够保证歌唱时嘴型更改的时间序列与音素变化的时间序列对应。
可选的,如附图3所示,根据第一歌唱声音参数,识别歌唱技巧类型,包括:
检测第一歌唱声音参数的基频序列中连续出现波谷或者波峰的次数;
判断基频序列中连续出现波谷或者波峰的次数是否达到预设次数;若是,则获取基频序列片段,并统计该基频序列片段中的平均频率;否则,该基频序列片段为非颤音片段,歌唱技巧类型为非颤音技巧;
频率由波谷到波峰和频率由波峰到波谷的过程中,波谷和波峰对应的频率值;
判断波谷所对应的频率值是否小于平均频率,且波峰所对应的频率值是否大于平均频率;若每次波谷所对应的频率值小于平均频率,且波峰所对应的频率值大于平均频率,则确定该基频序列片段为颤音片段,歌唱技巧类型为颤音类型;否则,该基频序列片段为非颤音片段,歌唱技巧类型为非颤音技巧。
在实际应用过程中,通过检测基频序列中连续出现波谷或者波峰的次数,判断基频序列片段是否为颤音片段,实现歌唱技巧类型是否为颤音技巧的识别。
实施例2
基于与本发明的实施例1中所示的方法相同的原理,本发明的实施例中还提供了歌唱嘴型与面部动画生成装置,如附图4所示,该装置包括编码单元、音长预测单元、长度调节单元、解码单元、嘴型信息预测单元、嘴型特征图像生成单元、面部图像生成单元与面部动画生成单元;
编码单元,用于将歌词与音符序列输入乐谱编码器,得到第一歌唱声音参数特征向量序列;
音长预测单元,用于将第一歌唱声音参数特征向量序列输入音长预测器,得到每个音素的预测时长;
长度调节单元,用于将第一歌唱声音参数特征向量序列和每个音素的预测时长输入长度调节器,得到时长扩充后的第二歌唱声音参数特征向量序列;
解码单元,用于将第二歌唱声音参数特征向量序列输入解码器,得到音素信息序列;
嘴型信息预测单元,用于将音素信息序列输入预先训练的嘴型信息预测模型,得到嘴型信息序列;
人脸图像生成单元,用于根据嘴型信息序列中的嘴型信息,生成包含嘴型信息对应的嘴型的人脸图像;
动画生成单元,用于将人脸图像作为面部动画的关键帧,利用关键帧生成面部动画。
可选的,编码单元为乐谱编码器;音长预测单元为音长预测器;长度调节单元为长度调节器;解码单元为解码器。
可选的,第一歌唱声音参数与第二歌唱声音参数均包括音素、音高、音素持续时间与转音标识符。
可选的,音素信息序列包括能量、频谱、基频与对齐信息。
可选的,嘴型特征图像生成单元,包括:
预设单元,用于建立特征数据库,预设第一歌唱声音参数对应的歌唱技巧类型,以及歌唱技巧类型对应的嘴型特征参数;
识别单元,用于根据第一歌唱声音参数,识别歌唱技巧类型;
嘴型特征参数确定单元,用于根据歌唱技巧类型,确定嘴型特征参数;
嘴型特征图像生成单元,用于根据嘴型特征参数,生成包含嘴型信息对应的嘴型的人脸图像。
可选的,识别单元,包括:
第一检测单元,用于检测第一歌唱声音参数的基频序列中连续出现波谷或者波峰的次数;
判断与处理单元,用于判断基频序列中连续出现波谷或者波峰的次数是否达到预设次数;若基频序列中连续出现波谷或者波峰的次数是否达到预设次数,则获取基频序列片段,并统计该基频序列片段中的平均频率;否则,该基频序列片段为非颤音片段,歌唱技巧类型为非颤音技巧;
第二检测单元,用于检测每次频率由波谷到波峰和频率由波峰到波谷的过程中,波谷和波峰对应的频率值;
判断与输出单元,用于判断波谷所对应的频率值是否小于平均频率,且波峰所对应的频率值是否大于平均频率;若每次波谷所对应的频率值小于平均频率,且波峰所对应的频率值大于平均频率,则确定该基频序列片段为颤音片段,歌唱技巧类型为颤音类型;否则,该基频序列片段为非颤音片段,歌唱技巧类型为非颤音技巧。
可选的,编码单元为乐谱编码器;音长预测单元为音长预测器;长度调节单元为长度调节器;解码单元为解码器。其中,乐谱编码器把音素、音符时长以及音高序列,编码为一个稠密空间向量序列;音长预测器根据编码器得到的特征向量序列,来获取每个音素的时长;长度调节器根据预测出来的音长,来对编码器得到的特征向量序列进行长度扩充,例如音素a,如果持续了5秒,那么就根据5秒对应的时间切片(例如25ms时间切片)进行扩充,扩充倍数为:5000/25=200倍,解码器从扩充之后的编码向量序列,生成声学特征即音素信息序列。
实施例3
基于与本发明的实施例中所示的方法相同的原理,本发明的实施例中还提供了一种电子设备,如附图5所示,该电子设备可以包括但不限于:处理器和存储器;存储器,用于存储计算机程序;处理器,用于通过调用计算机程序执行本发明任一实施例所示的方法。
在一个可选实施例中提供了一种电子设备,图5所示的电子设备50包括:处理器510和存储器550。其中,处理器510和存储器550相连,如通过总线520相连。
可选地,电子设备50还可以包括收发器540,收发器540可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器540不限于一个,该电子设备50的结构并不构成对本发明实施例的限定。
处理器510可以是CPU中央处理器,通用处理器,DSP数据信号处理器,ASIC专用集成电路,FPGA现场可编程门阵列或者其他可编程逻辑器件、硬件部件或者其任意组合。处理器510也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线520可包括一通路,在上述组件之间传送信息。总线520可以是PCI外设部件互连标准总线或EISA扩展工业标准结构总线等。总线520可以分为控制总线、数据总线、地址总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器550可以是ROM只读存储器或可存储静态信息和指令的其他类型的静态存储设备,RAM随机存储器或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM电可擦可编程只读存储器、CD-ROM只读光盘或其他光盘存储、光碟存储(包括光碟、激光碟、压缩光碟、数字通用光碟等)、磁盘存储介质,或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器550用于存储执行本发明方案的应用程序代码(计算机程序),并由处理器510来控制执行。处理器510用于执行存储器550中存储的应用程序代码,以实现前述方法实施例所示的内容。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.歌唱嘴型与面部动画生成方法,其特征在于,包括步骤:
将歌词与音符序列输入乐谱编码器,得到第一歌唱声音参数特征向量序列;
将所述第一歌唱声音参数特征向量序列输入音长预测器,得到每个音的预测时长;
将所述第一歌唱声音参数特征向量序列和每个音素的所述预测时长输入长度调节器,得到时长扩充后的第二歌唱声音参数特征向量序列;
将所述第二歌唱声音参数特征向量序列输入解码器,得到音素信息序列;
将所述音素信息序列输入预先训练的嘴型信息预测模型,得到嘴型信息序列;
根据所述嘴型信息序列中的嘴型信息,生成包含所述嘴型信息对应的嘴型的人脸图像;
将所述人脸图像作为面部动画的关键帧,利用所述关键帧生成面部动画。
2.根据权利要求1所述歌唱嘴型与面部动画生成方法,其特征在于,所述第一歌唱声音参数与所述第二歌唱声音参数均包括音素、音高、音素持续时间与转音标识符。
3.根据权利要求1所述歌唱嘴型与面部动画生成方法,其特征在于,所述音素信息序列包括能量、频谱、基频与对齐信息。
4.根据权利要求1所述歌唱嘴型与面部动画生成方法,其特征在于,所述根据所述嘴型信息序列中的嘴型信息,生成嘴型特征图像,包括:
建立特征数据库,预设所述第一歌唱声音参数对应的歌唱技巧类型,以及所述歌唱技巧类型对应的嘴型特征参数;
根据所述第一歌唱声音参数,识别所述歌唱技巧类型;
根据所述歌唱技巧类型,确定所述嘴型特征参数;
根据所述嘴型特征参数,生成所述嘴型特征图像。
5.根据权利要求4所述歌唱嘴型与面部动画生成方法,其特征在于,所述根据所述第一歌唱声音参数,识别所述歌唱技巧类型,包括:
检测所述第一歌唱声音参数的基频序列中连续出现波谷或者波峰的次数;
判断所述基频序列中连续出现波谷或者波峰的次数是否达到预设次数;若是,则获取基频序列片段,并统计该所述基频序列片段中的平均频率;否则,该所述基频序列片段为非颤音片段,所述歌唱技巧类型为非颤音技巧;
检测每次所述频率由波谷到波峰和所述频率由波峰到波谷的过程中,所述波谷和所述波峰对应的频率值;
判断所述波谷所对应的频率值是否小于所述平均频率,且所述波峰所对应的频率值是否大于所述平均频率;若每次所述波谷所对应的频率值小于所述平均频率,且所述波峰所对应的频率值大于所述平均频率,则确定该基频序列片段为颤音片段,所述歌唱技巧类型为颤音类型;否则,该所述基频序列片段为非颤音片段,所述歌唱技巧类型为非颤音技巧。
6.歌唱嘴型与面部动画生成装置,其特征在于,包括编码单元、音长预测单元、长度调节单元、解码单元、嘴型信息预测单元、嘴型特征图像生成单元、面部图像生成单元与面部动画生成单元;
所述编码单元,用于将歌词与音符序列输入乐谱编码器,得到第一歌唱声音参数特征向量序列;
所述音长预测单元,用于将所述第一歌唱声音参数特征向量序列输入音长预测器,得到每个音素的预测时长;
所述长度调节单元,用于将所述第一歌唱声音参数特征向量序列和每个音素的所述预测时长输入长度调节器,得到时长扩充后的第二歌唱声音参数特征向量序列;
所述解码单元,用于将所述第二歌唱声音参数特征向量序列输入解码器,得到音素信息序列;
所述嘴型信息预测单元,用于将所述音素信息序列输入预先训练的嘴型信息预测模型,得到嘴型信息序列;
所述人脸图像生成单元,用于根据所述嘴型信息序列中的嘴型信息,生成包含所述嘴型信息对应的嘴型的人脸图像;
所述动画生成单元,用于将所述人脸图像作为面部动画的关键帧,利用所述关键帧生成面部动画。
7.根据权利要求6所述歌唱嘴型与面部动画生成装置,其特征在于,所述编码单元为乐谱编码器;所述音长预测单元为音长预测器;所述长度调节单元为长度调节器;所述解码单元为解码器。
8.一种电子设备,其特征在于,包括:
处理器和存储器;
所述存储器,用于存储计算机操作指令;
所述处理器,用于通过调用所述计算机操作指令,执行权利要求1至6中任一项所述的歌唱嘴型与面部动画生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210710648.2A CN114972592A (zh) | 2022-06-22 | 2022-06-22 | 歌唱嘴型与面部动画生成方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210710648.2A CN114972592A (zh) | 2022-06-22 | 2022-06-22 | 歌唱嘴型与面部动画生成方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114972592A true CN114972592A (zh) | 2022-08-30 |
Family
ID=82966154
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210710648.2A Pending CN114972592A (zh) | 2022-06-22 | 2022-06-22 | 歌唱嘴型与面部动画生成方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114972592A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115311731A (zh) * | 2022-10-10 | 2022-11-08 | 之江实验室 | 一种手语数字人的表情生成方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108492817A (zh) * | 2018-02-11 | 2018-09-04 | 北京光年无限科技有限公司 | 一种基于虚拟偶像的歌曲数据处理方法及演唱交互*** |
CN109377539A (zh) * | 2018-11-06 | 2019-02-22 | 北京百度网讯科技有限公司 | 用于生成动画的方法和装置 |
WO2020140390A1 (zh) * | 2019-01-04 | 2020-07-09 | 平安科技(深圳)有限公司 | 颤音建模方法、装置、计算机设备及存储介质 |
CN113593520A (zh) * | 2021-09-08 | 2021-11-02 | 广州虎牙科技有限公司 | 歌声合成方法及装置、电子设备及存储介质 |
CN113609255A (zh) * | 2021-08-04 | 2021-11-05 | 元梦人文智能国际有限公司 | 一种面部动画的生成方法、***及存储介质 |
-
2022
- 2022-06-22 CN CN202210710648.2A patent/CN114972592A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108492817A (zh) * | 2018-02-11 | 2018-09-04 | 北京光年无限科技有限公司 | 一种基于虚拟偶像的歌曲数据处理方法及演唱交互*** |
CN109377539A (zh) * | 2018-11-06 | 2019-02-22 | 北京百度网讯科技有限公司 | 用于生成动画的方法和装置 |
WO2020140390A1 (zh) * | 2019-01-04 | 2020-07-09 | 平安科技(深圳)有限公司 | 颤音建模方法、装置、计算机设备及存储介质 |
CN113609255A (zh) * | 2021-08-04 | 2021-11-05 | 元梦人文智能国际有限公司 | 一种面部动画的生成方法、***及存储介质 |
CN113593520A (zh) * | 2021-09-08 | 2021-11-02 | 广州虎牙科技有限公司 | 歌声合成方法及装置、电子设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115311731A (zh) * | 2022-10-10 | 2022-11-08 | 之江实验室 | 一种手语数字人的表情生成方法和装置 |
CN115311731B (zh) * | 2022-10-10 | 2023-01-31 | 之江实验室 | 一种手语数字人的表情生成方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789290B2 (en) | Audio data processing method and apparatus, and computer storage medium | |
US11295721B2 (en) | Generating expressive speech audio from text data | |
Cook | Real sound synthesis for interactive applications | |
JP7395792B2 (ja) | 2レベル音声韻律転写 | |
Vercoe et al. | Structured audio: Creation, transmission, and rendering of parametric sound representations | |
JP2022534764A (ja) | 多言語音声合成およびクロスランゲージボイスクローニング | |
CN112005298A (zh) | 时钟式层次变分编码器 | |
CN1758330A (zh) | 用于通过交互式话音响应***防止语音理解的方法和设备 | |
Hono et al. | Sinsy: A deep neural network-based singing voice synthesis system | |
US20220246132A1 (en) | Generating Diverse and Natural Text-To-Speech Samples | |
WO2021212954A1 (zh) | 极低资源下的特定发音人情感语音合成方法及装置 | |
WO2023245389A1 (zh) | 歌曲生成方法、装置、电子设备和存储介质 | |
WO2018175892A1 (en) | System providing expressive and emotive text-to-speech | |
CN112735454A (zh) | 音频处理方法、装置、电子设备和可读存储介质 | |
CN111477210A (zh) | 语音合成方法和装置 | |
WO2023279976A1 (zh) | 语音合成方法、装置、设备及存储介质 | |
Iskarous et al. | Perception of articulatory dynamics from acoustic signatures | |
CN114972592A (zh) | 歌唱嘴型与面部动画生成方法、装置及电子设备 | |
CN113436600B (zh) | 一种语音合成方法及装置 | |
Bogaers et al. | Music-driven animation generation of expressive musical gestures | |
Kane et al. | Analysing the prosodic characteristics of speech-chunks preceding silences in task-based interactions. | |
Oh et al. | LOLOL: Laugh Out Loud On Laptop. | |
CN113870838A (zh) | 一种语音合成方法、装置、设备及介质 | |
CN112164387A (zh) | 音频合成方法、装置及电子设备和计算机可读存储介质 | |
US12033611B2 (en) | Generating expressive speech audio from text data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |