CN114972592A

CN114972592A - 歌唱嘴型与面部动画生成方法、装置及电子设备

Info

Publication number: CN114972592A
Application number: CN202210710648.2A
Authority: CN
Inventors: 尹学渊; 肖钦引; 刘鑫忠; 陈洪宇; 马思雨
Original assignee: Chengdu Potential Artificial Intelligence Technology Co ltd
Current assignee: Chengdu Potential Artificial Intelligence Technology Co ltd
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2022-08-30

Abstract

本发明属于音视频同步技术领域，具体公开了歌唱嘴型与面部动画生成方法、装置及电子设备，其中方法包括步骤：将歌词与音符序列输入乐谱编码器得到第一歌唱声音参数特征向量序列；输入音长预测器得到每个音素的预测时长；将第一歌唱声音参数特征向量序列和每个音素的预测时长输入长度调节器得到第二歌唱声音参数特征向量序列；输入解码器得到音素信息序列；将音素信息序列输入嘴型信息预测模型得到嘴型信息序列；生成包含嘴型信息对应的嘴型的人脸图像；将人脸图像作为关键帧生成面部动画。本发明将歌曲的歌词和音符序列作为歌唱嘴型与面部动画生成所需的输入信息，结合歌唱时能量大小对嘴型动画的影响，保证嘴型更改与音素变化的时间序列对应。

Description

歌唱嘴型与面部动画生成方法、装置及电子设备

技术领域

本发明属于音视频同步技术领域，具体而言，涉及歌唱嘴型与面部动画生成方法、装置及电子设备。

背景技术

随着硬件与虚拟现实设备的快速发展，人们歌唱时的面部表情、唇部动作，甚至是头部与肢体的动作都可以帮助观众欣赏和理解歌曲，视觉和听觉的双模态信息融合的交互方式，不仅能提高用户对歌曲的理解度，还能提供一种更为准确的交互体验，提高歌唱的艺术性和观赏度。

歌唱嘴型与面部动画生成技术是指通过从歌词和音符序列中提取的音素、音符持续时间和音高等信息驱动、实时生成虚拟人歌唱嘴型和面部动画的技术。除了能提供更友好的人机交互方式之外，该技术在感知研究、声音辅助学习等方面具有重要应用价值，同时，能够在游戏和电影特效等娱乐化方面降低作品制作成本。

现有的大部分口型同步都集中在虚拟人物声音同步的口型动画与面部姿势动画上，传统的声音生成嘴型和面部动画的方法不能准确地模拟歌唱嘴型与歌曲的时间的对应关系，即歌唱时嘴型更改的时间序列与音素变化的时间序列存在不对应的问题，即嘴型更改的时间序列与音素变化的时间序列存在时间差。

发明内容

为了解决声音生成歌唱嘴型与面部动画同步效果差的问题，本发明提供歌唱嘴型与面部动画生成方法、装置及电子设备。

第一方面，本公开提供了歌唱嘴型与面部动画生成方法，包括步骤：

将歌词与音符序列输入乐谱编码器，得到第一歌唱声音参数特征向量序列；

将所述第一歌唱声音参数特征向量序列输入音长预测器，得到每个音素的预测时长；

将所述第一歌唱声音参数特征向量序列和每个音素的所述预测时长输入长度调节器，得到时长扩充后的第二歌唱声音参数特征向量序列；

将所述第二歌唱声音参数特征向量序列输入解码器，得到音素信息序列；

将所述音素信息序列输入预先训练的嘴型信息预测模型，得到嘴型信息序列；

根据所述嘴型信息序列中的嘴型信息，生成包含所述嘴型信息对应的嘴型的人脸图像；

将所述人脸图像作为面部动画的关键帧，利用所述关键帧生成面部动画。

第二方面，本公开提供了歌唱嘴型与面部动画生成装置，包括编码单元、音长预测单元、长度调节单元、解码单元、嘴型信息预测单元、嘴型特征图像生成单元、面部图像生成单元与面部动画生成单元；

所述编码单元，用于将歌词与音符序列输入乐谱编码器，得到第一歌唱声音参数特征向量序列；

所述音长预测单元，用于将所述第一歌唱声音参数特征向量序列输入音长预测器，得到每个音素的预测时长；

所述长度调节单元，用于将所述第一歌唱声音参数特征向量序列和每个音素的所述预测时长输入长度调节器，得到时长扩充后的第二歌唱声音参数特征向量序列；

所述解码单元，用于将所述第二歌唱声音参数特征向量序列输入解码器，得到音素信息序列；

所述嘴型信息预测单元，用于将所述音素信息序列输入预先训练的嘴型信息预测模型，得到嘴型信息序列；

所述人脸图像生成单元，用于根据所述嘴型信息序列中的嘴型信息，生成包含所述嘴型信息对应的嘴型的人脸图像；

所述动画生成单元，用于将所述人脸作为面部动画的关键帧，利用所述关键帧生成面部动画。

第三方面，本公开提供了一种电子设备，包括：

处理器和存储器；

所述存储器，用于存储计算机操作指令；

所述处理器，用于通过调用所述计算机操作指令，执行歌唱嘴型与面部动画生成方法。

本发明的有益效果是：本发明将歌曲的歌词和音符序列作为歌唱嘴型与面部动画的生成所需要的输入信息，不同于传统的声音生成嘴型和面部动画方法的声音信息，本发明结合歌唱时不同的歌唱技巧(如颤音，滑音等)演唱相同音素以及歌唱时能量大小对嘴型的影响，能够准确地模拟歌唱嘴型与歌曲的时间的对应关系，保证歌唱时嘴型更改的时间序列与音素变化的时间序列对应，。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述第一歌唱声音参数与所述第二歌唱声音参数均包括音素、音高、音素持续时间与转音标识符。

采用上述进一步方案的有益效果是，将音素、音高、音素持续时间与转音标识符的特征向量序列输入音长预测器，得到更准确的每个音素的预测时长。

进一步，所述音素信息序列包括能量、频谱、基频与对齐信息。

采用上述进一步方案的有益效果是，将能量、频谱、基频与对齐信息作为嘴型信息预测模型的输入，能够得到更准确的歌唱嘴型与歌曲之间的时间对应关系。

进一步，所述根据所述嘴型信息序列中的嘴型信息，生成嘴型特征图像，包括：

建立特征数据库，预设所述第一歌唱声音参数对应的歌唱技巧类型，以及所述歌唱技巧类型对应的嘴型特征参数；

根据所述第一歌唱声音参数，识别所述歌唱技巧类型；

根据所述歌唱技巧类型，确定所述嘴型特征参数；

根据所述嘴型特征参数，生成所述嘴型特征图像。

采用上述进一步方案的有益效果是，传统的声音生成嘴型和面部动画的方法未考虑歌唱时不同的歌唱技巧(如颤音，滑音等)演唱相同音素与歌唱时能量大小对嘴型的影响，本发明利用歌唱技巧(如颤音，滑音等)演唱相同音素与歌唱时能量大小对嘴型动画的影响，识别歌唱技巧类型，能够保证歌唱时嘴型更改的时间序列与音素变化的时间序列对应。

进一步，所述根据所述第一歌唱声音参数，识别所述歌唱技巧类型，包括：

检测所述第一歌唱声音参数的基频序列中连续出现波谷或者波峰的次数；

判断所述基频序列中连续出现波谷或者波峰的次数是否达到预设次数；若是，则获取基频序列片段，并统计该所述基频序列片段中的平均频率；否则，该所述基频序列片段为非颤音片段，所述歌唱技巧类型为非颤音技巧；

检测每次所述频率由波谷到波峰和所述频率由波峰到波谷的过程中，所述波谷和所述波峰对应的频率值；

判断所述波谷所对应的频率值是否小于所述平均频率，且所述波峰所对应的频率值是否大于所述平均频率；若每次所述波谷所对应的频率值小于所述平均频率，且所述波峰所对应的频率值大于所述平均频率，则确定该基频序列片段为颤音片段，所述歌唱技巧类型为颤音类型；否则，该所述基频序列片段为非颤音片段，所述歌唱技巧类型为非颤音技巧。

采用上述进一步方案的有益效果是，通过检测基频序列中连续出现波谷或者波峰的次数，判断基频序列片段是否为颤音片段，实现歌唱技巧类型是否为颤音技巧的识别。

进一步，所述编码单元为乐谱编码器；所述音长预测单元为音长预测器；所述长度调节单元为长度调节器；所述解码单元为解码器。

采用上述进一步方案的有益效果是，通过设置乐谱编码器得到第一歌唱声音参数特征向量序列；通过设置音长预测器得到每个音素的预测时长；通过设置长度调节器得到时长扩充后的第二歌唱声音参数特征向量序列；通过设置解码器得到音素信息序列。

附图说明

图1为本发明实施例1中提供的歌唱嘴型与面部动画生成方法流程图；

图2为本发明实施例1中提供的音素、音高、音素持续时间与转音标识符的特征向量序列以及预测时长的结果的示意图；

图3为本发明实施例1中提供的识别歌唱技巧类型的流程图；

图4为本发明实施例2中提供的歌唱嘴型与面部动画生成装置的原理图；

图5为本发明实施例3中提供的一种电子设备的原理图。

图标：50-电子设备；510-处理器；520-总线；530-存储器；540-收发器。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

实施例1

作为一个实施例，如附图1所示，为解决上述技术问题，本实施例提供歌唱嘴型与面部动画生成方法，包括步骤：

将第一歌唱声音参数特征向量序列输入音长预测器，得到每个音素的预测时长；

将第一歌唱声音参数特征向量序列和每个音素的预测时长输入长度调节器，得到时长扩充后的第二歌唱声音参数特征向量序列；

将第二歌唱声音参数特征向量序列输入解码器，得到音素信息序列；

将音素信息序列输入预先训练的嘴型信息预测模型，得到嘴型信息序列；

根据嘴型信息序列中的嘴型信息，生成包含所述嘴型信息对应的嘴型的人脸图像；

将人脸图像作为面部动画的关键帧，利用关键帧生成面部动画。

本发明将歌曲的歌词和音符序列作为歌唱嘴型与面部动画的生成所需要的输入信息，不同于传统的声音生成嘴型和面部动画方法的声音信息，本发明能够准确地模拟歌唱嘴型与歌曲的时间的对应关系，保证歌唱时嘴型更改的时间序列与音素变化的时间序列对应，避免歌唱时不同的歌唱技巧(如颤音，滑音等)演唱相同音素与歌唱时能量大小对嘴型的影响。

可选的，第一歌唱声音参数与第二歌唱声音参数均包括音素、音高、音素持续时间与转音标识符。

在实际应用过程中，音素为根据语音的自然属性划分出来的最小语音单位。音高指音调高度，音高与声音的频率成正相关，与声音的波长成负相关。音素持续时间指音素持续时间音素在歌声中的持续时长。转音标识符为1表示该音素存在转音，转音标识符为0表示该音素不存在转音。

将音素、音高、音素持续时间与转音标识符的特征向量序列输入音长预测器，能够得到更准确的每个音素的预测时长。

可选的，音素信息序列包括能量、频谱、基频与对齐信息。

能量指时域上每帧的能量。频谱指信号频率与能量的关系用频谱，如MFCC(Mel-Frequency Cepstral Coefficiem，Mel域倒谱系数)。基频指基音的频率，基音的强度代表声音的音高，声带振动越快，基频越高。基频可以分解为很多正弦波，频率最低的波就是基音，其他频率高的是泛音。频率越高分配到的能量越少。对齐信息指每个音素的时间长度序列。附图2给出了音素、音高、音素持续时间与转音标识符的特征向量序列，以及预测时长的结果。

可选的，嘴型张开的幅度与能量大小满足函数关系，可选的，嘴型张开的幅度与能量大小满足正比例函数，或者嘴型张开的幅度与能量的平方成正比，能量越大，嘴型张开的幅度越大，本申请实施例对此不做限定。

将能量、频谱、基频与对齐信息作为嘴型信息预测模型的输入，能够得到更准确的歌唱嘴型与歌曲之间的时间对应关系。

可选的，根据嘴型信息序列中的嘴型信息，生成嘴型特征图像，包括：

建立特征数据库，预设第一歌唱声音参数对应的歌唱技巧类型，以及歌唱技巧类型对应的嘴型特征参数；

根据第一歌唱声音参数，识别歌唱技巧类型；

根据歌唱技巧类型，确定嘴型特征参数；

根据嘴型特征参数，生成嘴型特征图像。

在实际应用过程中，传统的声音生成嘴型和面部动画的方法未考虑歌唱时不同的歌唱技巧(如颤音，滑音等)演唱相同音素与歌唱时能量大小对嘴型的影响，本发明利用歌唱技巧(如颤音，滑音等)演唱相同音素与歌唱时能量大小对嘴型动画的影响，识别歌唱技巧类型，能够保证歌唱时嘴型更改的时间序列与音素变化的时间序列对应。

可选的，如附图3所示，根据第一歌唱声音参数，识别歌唱技巧类型，包括：

检测第一歌唱声音参数的基频序列中连续出现波谷或者波峰的次数；

判断基频序列中连续出现波谷或者波峰的次数是否达到预设次数；若是，则获取基频序列片段，并统计该基频序列片段中的平均频率；否则，该基频序列片段为非颤音片段，歌唱技巧类型为非颤音技巧；

频率由波谷到波峰和频率由波峰到波谷的过程中，波谷和波峰对应的频率值；

判断波谷所对应的频率值是否小于平均频率，且波峰所对应的频率值是否大于平均频率；若每次波谷所对应的频率值小于平均频率，且波峰所对应的频率值大于平均频率，则确定该基频序列片段为颤音片段，歌唱技巧类型为颤音类型；否则，该基频序列片段为非颤音片段，歌唱技巧类型为非颤音技巧。

在实际应用过程中，通过检测基频序列中连续出现波谷或者波峰的次数，判断基频序列片段是否为颤音片段，实现歌唱技巧类型是否为颤音技巧的识别。

实施例2

基于与本发明的实施例1中所示的方法相同的原理，本发明的实施例中还提供了歌唱嘴型与面部动画生成装置，如附图4所示，该装置包括编码单元、音长预测单元、长度调节单元、解码单元、嘴型信息预测单元、嘴型特征图像生成单元、面部图像生成单元与面部动画生成单元；

编码单元，用于将歌词与音符序列输入乐谱编码器，得到第一歌唱声音参数特征向量序列；

音长预测单元，用于将第一歌唱声音参数特征向量序列输入音长预测器，得到每个音素的预测时长；

长度调节单元，用于将第一歌唱声音参数特征向量序列和每个音素的预测时长输入长度调节器，得到时长扩充后的第二歌唱声音参数特征向量序列；

解码单元，用于将第二歌唱声音参数特征向量序列输入解码器，得到音素信息序列；

嘴型信息预测单元，用于将音素信息序列输入预先训练的嘴型信息预测模型，得到嘴型信息序列；

人脸图像生成单元，用于根据嘴型信息序列中的嘴型信息，生成包含嘴型信息对应的嘴型的人脸图像；

动画生成单元，用于将人脸图像作为面部动画的关键帧，利用关键帧生成面部动画。

可选的，编码单元为乐谱编码器；音长预测单元为音长预测器；长度调节单元为长度调节器；解码单元为解码器。

可选的，音素信息序列包括能量、频谱、基频与对齐信息。

可选的，嘴型特征图像生成单元，包括：

预设单元，用于建立特征数据库，预设第一歌唱声音参数对应的歌唱技巧类型，以及歌唱技巧类型对应的嘴型特征参数；

识别单元，用于根据第一歌唱声音参数，识别歌唱技巧类型；

嘴型特征参数确定单元，用于根据歌唱技巧类型，确定嘴型特征参数；

嘴型特征图像生成单元，用于根据嘴型特征参数，生成包含嘴型信息对应的嘴型的人脸图像。

可选的，识别单元，包括：

第一检测单元，用于检测第一歌唱声音参数的基频序列中连续出现波谷或者波峰的次数；

判断与处理单元，用于判断基频序列中连续出现波谷或者波峰的次数是否达到预设次数；若基频序列中连续出现波谷或者波峰的次数是否达到预设次数，则获取基频序列片段，并统计该基频序列片段中的平均频率；否则，该基频序列片段为非颤音片段，歌唱技巧类型为非颤音技巧；

第二检测单元，用于检测每次频率由波谷到波峰和频率由波峰到波谷的过程中，波谷和波峰对应的频率值；

判断与输出单元，用于判断波谷所对应的频率值是否小于平均频率，且波峰所对应的频率值是否大于平均频率；若每次波谷所对应的频率值小于平均频率，且波峰所对应的频率值大于平均频率，则确定该基频序列片段为颤音片段，歌唱技巧类型为颤音类型；否则，该基频序列片段为非颤音片段，歌唱技巧类型为非颤音技巧。

可选的，编码单元为乐谱编码器；音长预测单元为音长预测器；长度调节单元为长度调节器；解码单元为解码器。其中，乐谱编码器把音素、音符时长以及音高序列，编码为一个稠密空间向量序列；音长预测器根据编码器得到的特征向量序列，来获取每个音素的时长；长度调节器根据预测出来的音长，来对编码器得到的特征向量序列进行长度扩充，例如音素a，如果持续了5秒，那么就根据5秒对应的时间切片(例如25ms时间切片)进行扩充，扩充倍数为：5000/25＝200倍，解码器从扩充之后的编码向量序列，生成声学特征即音素信息序列。

实施例3

基于与本发明的实施例中所示的方法相同的原理，本发明的实施例中还提供了一种电子设备，如附图5所示，该电子设备可以包括但不限于：处理器和存储器；存储器，用于存储计算机程序；处理器，用于通过调用计算机程序执行本发明任一实施例所示的方法。

在一个可选实施例中提供了一种电子设备，图5所示的电子设备50包括：处理器510和存储器550。其中，处理器510和存储器550相连，如通过总线520相连。

可选地，电子设备50还可以包括收发器540，收发器540可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器540不限于一个，该电子设备50的结构并不构成对本发明实施例的限定。

处理器510可以是CPU中央处理器，通用处理器，DSP数据信号处理器，ASIC专用集成电路，FPGA现场可编程门阵列或者其他可编程逻辑器件、硬件部件或者其任意组合。处理器510也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线520可包括一通路，在上述组件之间传送信息。总线520可以是PCI外设部件互连标准总线或EISA扩展工业标准结构总线等。总线520可以分为控制总线、数据总线、地址总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器550可以是ROM只读存储器或可存储静态信息和指令的其他类型的静态存储设备，RAM随机存储器或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM电可擦可编程只读存储器、CD-ROM只读光盘或其他光盘存储、光碟存储(包括光碟、激光碟、压缩光碟、数字通用光碟等)、磁盘存储介质，或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器550用于存储执行本发明方案的应用程序代码(计算机程序)，并由处理器510来控制执行。处理器510用于执行存储器550中存储的应用程序代码，以实现前述方法实施例所示的内容。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.歌唱嘴型与面部动画生成方法，其特征在于，包括步骤：

将所述第一歌唱声音参数特征向量序列输入音长预测器，得到每个音的预测时长；

2.根据权利要求1所述歌唱嘴型与面部动画生成方法，其特征在于，所述第一歌唱声音参数与所述第二歌唱声音参数均包括音素、音高、音素持续时间与转音标识符。

3.根据权利要求1所述歌唱嘴型与面部动画生成方法，其特征在于，所述音素信息序列包括能量、频谱、基频与对齐信息。

4.根据权利要求1所述歌唱嘴型与面部动画生成方法，其特征在于，所述根据所述嘴型信息序列中的嘴型信息，生成嘴型特征图像，包括：

根据所述第一歌唱声音参数，识别所述歌唱技巧类型；

根据所述歌唱技巧类型，确定所述嘴型特征参数；

根据所述嘴型特征参数，生成所述嘴型特征图像。

5.根据权利要求4所述歌唱嘴型与面部动画生成方法，其特征在于，所述根据所述第一歌唱声音参数，识别所述歌唱技巧类型，包括：

6.歌唱嘴型与面部动画生成装置，其特征在于，包括编码单元、音长预测单元、长度调节单元、解码单元、嘴型信息预测单元、嘴型特征图像生成单元、面部图像生成单元与面部动画生成单元；

所述动画生成单元，用于将所述人脸图像作为面部动画的关键帧，利用所述关键帧生成面部动画。

7.根据权利要求6所述歌唱嘴型与面部动画生成装置，其特征在于，所述编码单元为乐谱编码器；所述音长预测单元为音长预测器；所述长度调节单元为长度调节器；所述解码单元为解码器。

8.一种电子设备，其特征在于，包括:

处理器和存储器；

所述存储器，用于存储计算机操作指令；

所述处理器，用于通过调用所述计算机操作指令，执行权利要求1至6中任一项所述的歌唱嘴型与面部动画生成方法。