CN113192162A

CN113192162A - 语音驱动图像的方法、***、装置及存储介质

Info

Publication number: CN113192162A
Application number: CN202110436595.5A
Authority: CN
Inventors: 王伦基; 李�权; 叶俊杰; 朱杰; 成秋喜; 韩蓝青
Original assignee: CYAGEN BIOSCIENCES (GUANGZHOU) Inc; Research Institute Of Tsinghua Pearl River Delta
Current assignee: CYAGEN BIOSCIENCES (GUANGZHOU) Inc; Research Institute Of Tsinghua Pearl River Delta
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2021-07-30
Anticipated expiration: 2041-04-22
Also published as: CN113192162B

Abstract

本发明公开了一种语音驱动图像的方法、***、装置及存储介质，所述方法包括：获取语音及图像；根据所述图像提取面部特征参数；将所述语音输入到头部位姿及表情预测模型获取系列动态参数；根据所述面部特征参数及所述系列动态参数生成系列图像；根据所述语音及所述系列图像生成视频文件。本发明实施例通过图像提取面部特征参数实现对多种图像的面部参数进行更准确的提取，通过头部位姿及表情预测模型获取与语音匹配的动态参数，通过语音、面部特征参数及动态参数生成生动逼真且与语音匹配的视频文件，整个过程操作简单且便于推广。本发明实施例可广泛应用于图像处理技术领域。

Description

语音驱动图像的方法、***、装置及存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种语音驱动图像的方法、***、装置及存储介质。

背景技术

随着互联网的不断发展，传统媒体已经逐渐数字化，如广播、电视或报纸。随着社交网络的进一步发展，普通大众也可以通过网络等途径向外发布他们自身的事实和新闻，人人皆是自媒体。但是，目前自媒体的形式和制作仍然存在一些问题：如大多数社交动态只用图文说明，不够生动。如果采用虚拟人物形象达到动态变化的效果，需要专业的建模师，耗费成本较高；如果采用视频拍摄并制作动态效果，需要专人录制及后期处理且成本较高，一旦发现有错误则难以修改；采用虚拟人物或视频拍摄制作动态效果，操作复杂，不便于推广。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本申请提出一种语音驱动图像的方法、***、装置及存储介质，能够根据语音驱动静态图像形成与语音匹配的视频文件，生动逼真，操作简单且便于推广。

第一方面，本发明实施例提供了一种语音驱动图像的方法，包括步骤：

获取语音及图像；

根据所述图像提取面部特征参数；

将所述语音输入到头部位姿及表情预测模型获取系列动态参数；

根据所述面部特征参数及所述系列动态参数生成系列图像；

根据所述语音及所述系列图像生成视频文件。

可选地，所述根据所述图像提取面部特征参数，包括步骤：

根据所述图像提取面部特征向量；

根据所述图像获取若干个关键点及所述若干个关键点对应的雅克比矩阵。

可选地，所述将所述语音输入到头部位姿及表情预测模型获取系列动态参数，包括步骤：

将所述语音输入到头部位姿及表情预测模型获取系列旋转矩阵、系列平移矢量及系列表情参数。

可选地，所述根据所述面部特征参数及所述系列动态参数生成系列图像，包括步骤：

根据所述若干个关键点、所述系列旋转矩阵、所述系列平移矢量及所述系列表情参数获取若干个新的系列关键点；

根据所述若干个关键点对应的雅克比矩阵及所述系列旋转矩阵获取若干个新的系列雅克比矩阵；

根据所述面部特征向量、所述若干个新的系列关键点及所述若干个新的系列雅克比矩阵生成系列图像。

可选地，所述头部位姿及表情预测模型是经过训练得到，训练方法包括：

获取训练的视频文件，并提取所述训练的视频文件中音频文件的声音频谱图及系列图像帧；

根据所述系列图像帧检测得到训练的系列旋转矩阵、系列平移矢量及系列表情参数；

根据所述声音频谱图及所述训练的系列旋转矩阵、系列平移矢量及系列表情参数训练所述头部位姿及表情预测模型。

第二方面，本发明实施例提供了一种语音驱动图像的***，包括：

第一获取模块，用于获取语音及图像；

提取模块，用于根据所述图像提取面部特征参数；

第二获取模块，用于将所述语音输入到头部位姿及表情预测模型获取系列动态参数；

第一生成模块，用于根据所述面部特征参数及所述系列动态参数生成系列图像；

第二生成模块，用于根据所述语音及所述系列图像生成视频文件。

可选地，所述头部位姿及表情预测模型包括：

音频处理单元，用于将所述语音转化为声音频谱图；

声音编码器，用于提取所述声音频谱图的声音特征；

若干个线性层，所述线性层用于根据所述声音特征预测动态参数。

可选地，所述面部特征参数包括面部特征向量、关键点及所述关键点对应的雅克比矩阵，所述第一生成模块包括：

参数编码器，用于根据所述关键点、所述关键点对应的雅克比矩阵及所述动态参数生成新的关键点及新的关键点对应的雅克比矩阵；

图像解码器，用于根据所述面部特征向量、所述新的关键点及所述新的关键点对应的雅克比矩阵生成图像。

第三方面，本发明实施例提供了一种语音驱动图像的装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现第一方面实施例提供的语音驱动图像的方法。

第四方面，本发明实施例提供了一种计算机存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由所述处理器执行时用于实现第一方面实施例提供的语音驱动图像的方法。

实施本发明实施例可以实现以下效果：通过图像提取面部特征参数实现对多种图像的面部参数进行更准确的提取，通过头部位姿及表情预测模型获取与语音匹配的动态参数，通过语音、面部特征参数及动态参数生成生动逼真且与语音匹配的视频文件，整个过程操作简单且便于推广。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1是本申请提供的一种语音驱动图像的方法的步骤流程示意图；

图2是本申请提供的一种根据图像提取面部特征参数的步骤流程示意图；

图3是本申请提供的一种关键点检测模型的结构示意图；

图4是本申请提供的一种将语音输入到头部位姿及表情预测模型获取动态参数的步骤流程示意图；

图5是本申请提供的一种根据面部特征参数及动态参数生成图像的步骤流程示意图；

图6是本申请提供的一种训练头部位姿及表情预测模型的步骤流程示意图；

图7是本申请提供的另一种训练头部位姿及表情预测模型的步骤流程示意图；

图8是本申请提供的另一种语音驱动图像的方法的步骤流程示意图；

图9是本申请提供的一种语音驱动图像的***的结构示意图；

图10是本申请提供的一种部位姿及表情预测模型的结构示意图；

图11是本申请提供的一种第一生成模块的结构示意图；

图12是本申请提供的一种语音驱动图像的装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在***示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于***中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

下面结合附图，对本申请实施例作进一步阐述。

参考图1，本发明实施例提供了一种语音驱动图像的方法，包括步骤：

S100、获取语音及图像；

S200、根据所述图像提取面部特征参数；

S300、将所述语音输入到头部位姿及表情预测模型获取系列动态参数；

S400、根据所述面部特征参数及所述系列动态参数生成系列图像；

S500、根据所述语音及所述系列图像生成视频文件。

需要说明的是，语音不限语种和形式，如语种包括中文、英文或日文等，如形式包括录制、合成或从网络获取等形式，本发明实施例对语音的语种或形式等不做限制，可根据具体情况进行设置。

本领域技术人员可以理解的是，图像是指一种静态的图像，图像的对象包括但不限于人物图像、动漫人物图像或动物图像等；图像可以是不同角度的图像，如正面照或侧面照等；图像的形式包括但不限于证件照、自拍照或采用生成式对抗网络合成的照片等。本发明实施例对图像的对象、角度或形式等不做限制，可根据具体情况进行设置。

需要说明的是，面部特征参数可以用于对面部进行识别以辨别不同的面部；另外，面部特征参数还可以用于生成动态头部特征；图像的面部特征参数的提取可根据实际情况进行设置。

本领域技术人员可以理解的是，头部位姿及表情预测模型是预先训练好的，头部位姿及表情预测模型用于根据输入的语音生成一系列与语音匹配的面部动态参数。

语音驱动图像的过程如下：首先，获取语音和语音驱动的图像；然后，对图像提取能够识别面部及生成头部动态特征的面部特征参数，以及将语音输入到头部位姿及表情预测模型生成一系列与语音匹配的系列面部动态参数；最后，根据面部特征参数及系列面部动态参数生成系列图像，该系列图像组合在一起可形成动态的图像，并根据语音及系列图像生成与语音匹配的视频文件。

在一些实施例中，参考图2，所述根据所述图像提取面部特征参数，包括步骤：

S201、根据所述图像提取面部特征向量。

具体地，以人物图像为例，通过人脸识别模型对人物图像提取面部特征向量。由于提供的人物图像可能是从不同角度拍摄的，在定位目标时可能会出现误判，将同一个人不同角度的图像判断为不同的人。因此，本实施例使用脸部特征点估计算法，找到人脸的68个特征点，其中，包括眼睛、鼻子、嘴巴和面部轮廓；找到脸部特征点后，无论人脸的朝向如何，根据眼睛和嘴巴的位置，将若干人脸检测结果组中的人脸区域进行仿射变换(如旋转，缩放和剪切图像)，使人脸区域中人脸的眼睛和嘴巴在预设的位置范围，得到扭曲后的人脸检测结果组，一般预设的位置范围位于人脸的中部。此时，人脸的眼睛和嘴巴位于人脸的中部，定位更准确。将扭曲后的人脸检测结果组输入训练好的深度卷积神经网络模型，得到若干128维度的人脸特征向量f。

S202、根据所述图像获取若干个关键点及所述若干个关键点对应的雅克比矩阵。

具体地，相对于人脸识别模型采用的脸部特征点估算算法，人物的关键点检测采用了U-Net网络。通过输入一张人物图片，采用无监督训练，获取K个关键点(x，K×3的矩阵)和关键点对应的Jacobians(J，雅可比矩阵，K×3×3的矩阵)。K可设为10～30，它允许操作3D空间中的关键点，合成过程中可以旋转并平移人物的头部。雅可比矩阵表示如何通过仿射变换将关键点周围的局部区域转换为生成图像中的对应区域。

参阅图3，获取图像的关键点及关键点对应的Jacobians具体过程如下：将输入的人物图像调整到256x256，首先经过多个DownBlock模块进行卷积的下采样操作，如DownBlock-64、DownBlock-128、DownBlock-256、DownBlock-512及DownBlock-1024模块；再经过一个一维卷积并进行矩阵变换；然后输入到多个UpBlock模块进行卷积的上采样操作，UpBlock-512、UpBlock-256、UpBlock-128、UpBlock-64及UpBlock-32模块，得到K个关键点(x，K×3的矩阵)和关键点对应的Jacobians(J，雅可比矩阵，K×3×3的矩阵)。

在一些实施例中，参阅图4，所述将所述语音输入到头部位姿及表情预测模型获取系列动态参数，包括步骤：

S301、将所述语音输入到头部位姿及表情预测模型获取系列旋转矩阵、系列平移矢量及系列表情参数。

在一些实施例中，参阅图5，所述根据所述面部特征参数及所述系列动态参数生成系列图像，包括步骤：

S401、根据所述若干个关键点、所述系列旋转矩阵、所述系列平移矢量及所述系列表情参数获取若干个新的系列关键点；

S402、根据所述若干个关键点对应的雅克比矩阵及所述系列旋转矩阵获取若干个新的系列雅克比矩阵；

S403、根据所述面部特征向量、所述若干个新的系列关键点及所述若干个新的系列雅克比矩阵生成系列图像。

具体地，根据关键点、关键点对应的雅克比矩阵及系列动态参数生成新的关键点及新的关键点对应的雅克比矩阵的计算方法如下：

x'_a＝R_ax+t_a+δ_a

J'_a＝R_aJ

其中，R_a、t_a及δ_a分别表示系列旋转矩阵、系列平移矢量及系列表情参数，x表示关键点，J表示雅克比矩阵，x'_a表示某新的系列关键点，J'_a表示新的系列雅克比矩阵。其中，新的系列关键点包括{x'_a1，x'_a2，...x'_an}，新的系列雅克比矩阵包括{J'_a1，J'_a2，...J'_an}，x'_a1表示第一张图像帧的新系列关键点，x'_a2表示第二张图像帧的新系列关键点，x'_an表示第n张图像帧的新系列关键点，J'_a1表示第一张图像帧新系列关键点对应的雅克比矩阵，J'_a2表示第二张图像帧新系列关键点对应的雅克比矩阵，J'_an表示第n张图像帧新系列关键点对应的雅克比矩阵。

在一些实施例中，参阅图6，所述头部位姿及表情预测模型是经过训练得到，训练方法包括：

S001、获取训练的视频文件，并提取所述训练的视频文件中音频文件的声音频谱图及系列图像帧；

S002、根据所述系列图像帧检测得到训练的系列旋转矩阵、系列平移矢量及系列表情参数；

S003、根据所述声音频谱图及所述训练的系列旋转矩阵、系列平移矢量及系列表情参数训练所述头部位姿及表情预测模型。

具体地，如图7所示，收集一定数量的不同语种及不同人种的视频数据作为训练数据，如几千人或几万人的视频数据；另外，训练过程中，通过Syncnet的唇型判别网络保证说话人的语音和图像是同步的。首先，对视频数据分别提取其中的音频文件和图像文件；图像文件是一系列的图像帧，对每帧图像由头部位姿及表情检测网络得到一系列的旋转矩阵R、平移矢量t及表情参数δ；对音频文件进行归一化处理得到音频波形数据，再将音频波形数据转化为声音频谱图，如梅尔频谱或线性频谱等；将旋转矩阵R、平移矢量t、表情参数δ及声音频谱图作为头部位姿及表情预测模型的训练数据。

具体地，头部位姿及表情检测网络由一系列ResNet残差网络组成，之后用全局池化以消除空间维度，然后使用不同的线性层来估计旋转角度、平移矢量及表情参数。旋转矩阵R可采用3×3的矩阵，平移矢量t可采用3×1的矩阵，表情参数δ可采用K×3的矩阵。头部位姿及表情检测网络用来提取输入图像中人物的头部位置和姿态表情，得到旋转矩阵、平移矢量及表情参数。

参阅图8，以一个具体实施例说明上述语音驱动图像的具体过程：首先，获取一张人物图像和一段语音；然后，将图像输入到人脸识别模型得到特征向量f，以及对图像进行关键点检测得到若干个关键点x及关键点对应的雅可比矩阵J；其次，将语音输入到头部位姿及表情预测模型得到系列旋转矩阵R_a、系列平移矢量t_a及系列表情参数δ_a；其次，将特征向量f、关键点x、关键点对应的雅可比矩阵J、系列旋转矩阵R_a、系列平移矢量t_a及系列表情参数δ_a输入到人物生成模型生成系列与声音同步的人物表情及唇型图像Frame't，其中，根据不同的生成需求，图像Frame't包括但不限于96x96、128x128、256x256及512x512等；最后，将输入的一段语音与生成的一系列图片{Frame'1,Frame'2,...,Frame'n}合并成视频文件。

下面以一个具体实施例说明语音驱动图像的方法，具体包括以下步骤：

(1)选取一张人物图像，如某明星的照片；

(2)选择指定要说的内容，如“新年快乐”。要说的内容是一段语音，该语音可以自行录制，也可以通过语音合成得到；

(3)对人物图片进行人物特征提取，得到特征向量f，关键点x及关键点的雅克比矩阵J；

(4)假如语音长度为2秒，指定视频帧率为25fps，将语音输入到头部位姿及表情预测模型，得到50组旋转矩阵Ra、平移矢量ta及表情参数δa；

(5)将人物特征参数(f，x，J)及动作参数(Ra，ta，δa)一起输入到人物生成模型，生成50张图像；

(6)通过ffmpeg等工具，将图像及语音合并成视频文件，即可得到某明星对你说“新年快乐”的短视频。

参阅图9，本发明实施例提供了一种语音驱动图像的***，包括：

第一获取模块，用于获取语音及图像；

提取模块，用于根据所述图像提取面部特征参数；

在一些实施例中，所述头部位姿及表情预测模型包括：

音频处理单元，用于将所述语音转化为声音频谱图；

声音编码器，用于提取所述声音频谱图的声音特征；

具体地，参阅图10，语音输入到头部位姿及表情预测模型，首先，经过音频处理单元获得声音频谱图；然后，声音频谱图经过声音编码器通过卷积声音频谱图提取声音特征，其中，声音编码器由多个下采样DownBlock层组成；最后，提取的声音特征通过不同的线性层预测动态参数，如通过线性层1预测旋转矩阵R、通过线性层2预测平移矢量t及通过线性层3预测表情参数δ。

在一些实施例中，所述面部特征参数包括面部特征向量、关键点及所述关键点对应的雅克比矩阵，所述第一生成模块包括：

具体地，参阅图11，首先，关键点x、关键点对应的雅克比矩阵J、旋转矩阵R、平移矢量t及表情参数δ通过参数编码器形成新的关键点x'及新的关键点对应的雅克比矩阵J'，具体计算方法采用上述公式(1)及公式(2)；然后，面部特征向量f、新的关键点x'及新的关键点对应的雅克比矩阵J'通过图像解码器生成图像。

参照图12，图12是本发明一个实施例提供的控制装置110的结构示意图。本发明实施例的控制装置110内置于计算机或服务器等设备中，包括一个或多个控制处理器1101和存储器1102，图12中以一个控制处理器1101及一个存储器1102为例。

控制处理器1101和存储器1102可以通过总线或者其他方式连接，图12中以通过总线连接为例。

存储器1102作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器1102可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器1102可选包括相对于控制处理器1101远程设置的存储器1102，这些远程存储器1102可以通过网络连接至该控制装置110。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本领域技术人员可以理解，图12中示出的装置结构并不构成对控制装置110的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

实现上述实施例中应用于控制装置110的控制方法所需的非暂态软件程序以及指令存储在存储器1102中，当被控制处理器1101执行时，执行上述实施例中应用于控制装置110的控制方法，例如，执行以上描述的图1中的方法步骤S100至步骤S400、图2中的方法步骤S201至步骤S202、图4中的方法步骤S301、图5中的方法步骤S401及步骤S403、图6中的方法步骤S001及步骤S003。

此外，本发明的一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行程序，该计算机可执行程序被一个或多个控制处理器执行，例如，被图12中的一个控制处理器1101执行，可使得上述一个或多个控制处理器1101执行上述方法实施例中的控制方法，如，执行以上描述的图1中的方法步骤S100至步骤S500、图2中的方法步骤S201至步骤S202、图4中的方法步骤S301、图5中的方法步骤S401及步骤S403、图6中的方法步骤S001及步骤S003。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、***可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本申请的较佳实施进行了具体说明，但本申请并不局限于上述实施方式，熟悉本领域的技术人员在不违背本申请精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种语音驱动图像的方法，其特征在于，包括步骤：

获取语音及图像；

根据所述图像提取面部特征参数；

根据所述面部特征参数及所述系列动态参数生成系列图像；

根据所述语音及所述系列图像生成视频文件。

2.根据权利要求1所述的语音驱动图像的方法，其特征在于，所述根据所述图像提取面部特征参数，包括步骤：

根据所述图像提取面部特征向量；

3.根据权利要求2所述的语音驱动图像的方法，其特征在于，所述将所述语音输入到头部位姿及表情预测模型获取系列动态参数，包括步骤：

4.根据权利要求3所述的语音驱动图像的方法，其特征在于，所述根据所述面部特征参数及所述系列动态参数生成系列图像，包括步骤：

5.根据权利要求3所述的语音驱动图像的方法，其特征在于，所述头部位姿及表情预测模型是经过训练得到，训练方法包括：

6.一种语音驱动图像的***，其特征在于，包括：

第一获取模块，用于获取语音及图像；

提取模块，用于根据所述图像提取面部特征参数；

7.根据权利要求6所述的语音驱动图像的***，其特征在于，所述头部位姿及表情预测模型包括：

音频处理单元，用于将所述语音转化为声音频谱图；

声音编码器，用于提取所述声音频谱图的声音特征；

8.根据权利要求6所述的语音驱动图像的***，其特征在于，所述面部特征参数包括面部特征向量、关键点及所述关键点对应的雅克比矩阵，所述第一生成模块包括：

9.一种语音驱动图像的装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-5中任一项所述的方法。

10.一种计算机存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由所述处理器执行时用于实现如权利要求1-5任一项所述的方法。