CN114040126B

CN114040126B - 一种文字驱动的人物播报视频生成方法及装置

Info

Publication number: CN114040126B
Application number: CN202111109413.XA
Authority: CN
Inventors: 蒋泽锟; 刘宁
Original assignee: Xi'an Xinxin Information Technology Co ltd
Current assignee: Xi'an Xinxin Information Technology Co ltd
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2022-09-09
Anticipated expiration: 2041-09-22
Also published as: CN114040126A

Abstract

本发明提供的一种文字驱动的人物播报视频生成方法，在预测声谱过程中加入了梅尔频谱向量信息、背景降噪处理，以保证最大程度的降低音色和噪音的影响；在生成对抗网络中，使用loss将人物面部特征和人物面部运动特征进行分化指引，使生成器学到的是人物面部运动特征与隐层编码之间的关系，从而达到一个通用、不受人物面部特征影响的生成器，提高与生成视频拥有类似面部表情的驱动人像图片的生成效果。在得到与所述生成视频拥有类似面部表情的驱动人像图片后，继续使用一阶运动矩阵来扩展各种人物面部图片、各种分辨率的支持，可以更好的支持各种分辨率的图片和各种风格的人物形象，以此提高文字驱动的人物面部运动视频的驱动效果。

Description

一种文字驱动的人物播报视频生成方法及装置

技术领域

本发明属于文字驱动动画技术领域，具体涉及一种文字驱动的人物播报视频生成方法及装置。

背景技术

视频驱动是视频处理技术的一个研究热点，其涉及到数字图像处理、计算机视觉、自然语言处理、脸部动画等领域。而视频人脸驱动技术是视频处理技术的关键点。

现有技术提出一种表情迁移并动画化的方法及***，通过给定一源图像和一驱动视频；通过—预先训练的表情迁移并动画化模型预测源图像中的第一人脸关键点；通过表情迁移并动画化模型预测驱动视频中的第二人脸关键点，并预测得到各第二人脸关键点对应的人脸运动姿态；表情迁移并动画化模型根据第二人脸关键点和所述第一人脸关键点的映射关系，将关第二人脸关键的所述人脸运动姿态迁移到具有映射关系的第一人脸关键点上，以实现静态的所述源图像跟随所述驱动视频中的人脸运动姿态作同步运动的动画化。

现有技术提出的一种语音信号驱动的脸部动画生成方法，该方法通过对一个窗口内的语音提取梅尔频谱特征；对梅尔频谱，沿着频率维度方向，使用神经网络抽象、收集所有频率信息，得到频率抽象信息汇总时间信息：对所得的频率抽象信息，沿着时间维度方向，使用神经网络确定时间上下文中每帧信息的重要程度，并依据重要程度进行汇总，得到时间汇总信息。解码动作特征：对所得的时间汇总信息，与用户输入的控制风格的独热向量连接；经过两个神经网络分支，分别输出缩放/剪切系数与旋转系数，两个分支的输出系数组合起来得到表示脸部动作的形变梯度驱动脸部模型：对于任意给定的无表情、闭嘴状态脸的部模型，使用形变梯度驱动脸部模型，作出相应的脸部动作。

现有技术中一种表情迁移并动画化的方法及***，对于指定人物进行面部动画生成，用户无法更换、指定生成人物形象；一种语音信号驱动的脸部动画生成方法，会因为生成对抗网络训练计算量庞大的问题，降低生成视频的分辨率，同时生成的视频会存在面部表情不连续、不自然的情况；现有技术还提出基于3DMM的动画生成方式，由于其数据采集过程极为复杂，前期工作较多，同时在此技术条件下，想要生成自然真实的人脸，需要采集大量数据。

发明内容

为了解决现有技术中存在的上述问题，本发明提供一种文字驱动的人物播报视频生成方法及装置。本发明要解决的技术问题通过以下技术方案实现：

本发明提供的一种文字驱动的人物播报视频生成方法包括：

获取待驱动的正面人物图片、驱动文字以及预设的声谱预测网络；

使用所述声谱预测网络对所述驱动文字进行注意力循环机制的频谱预测，获得所述驱动文字的预测声谱；

将所述预测声谱输入预设的声码器中，以使所述声码器将所述预测声谱的频谱信息转化为声音序列；

将所述声音序列按照预设的生成视频帧率进行切分，以使声音序列的切分段数与生成视频帧率匹配，获得与生成视频对应的多个声音片段；

将所述多个声音片段、所述待驱动的正面人物图片以及随机噪声输入预设的生成对抗网络中，使用所述生成对抗网络提取所述待驱动的正面人物图片的人物特征信息并进行编码，得到第一目标一维向量；对所述声音序列按照时序进行编码获得第二目标一维向量；对所述随机噪声编码为第三目标一维向量；将所述第一目标一维向量、第二目标一维向量以及第三目标一维向量进行矩阵拼接、解码，获得与待驱动的正面人物图片形状相同的输出图片；

将所述输出图片按照声音片段的时序组成生成视频；

使用人脸关键点检测网络对待驱动的正面人物图片以及生成视频进行关键点特征提取，得到所述正面人物图片的第一关键点坐标以及生成视频的第二关键点坐标；

将第二关键点坐标分布与第一关键点坐标分布进行比对，在所述生成视频中确定最为相似的参考帧；

将所述生成视频的其余帧与所述参考帧的关键点运动趋势进行泰勒展开，获得其余帧中每个帧的用于映射关键点的一阶运动矩阵；

将所述待驱动的正面人物图像的人脸特征，与其余帧中每个帧的一阶运动矩阵进行拼接；

对所述拼接之后的矩阵进行解码，得到与所述生成视频拥有类似面部表情的驱动人像图片；

将与所述生成视频拥有类似面部表情的驱动人像图片组成图像序列；

按照生成视频帧率将所述图像序列与所述声音序列进行视频生成，得到由文字驱动的人物面部运动视频。

可选的，所述声谱预测网络包括：第一编码器、预处理网络、循环注意力结构、第一解码器；

使用所述声谱预测网络对所述驱动文字进行注意力循环机制的频谱预测，获得所述驱动文字的预测声谱包括：

针对当前迭代次，使用所述第一编码器对所述驱动文字依次进行编码、卷积以及时间序列预测，获得表征驱动文字时序特征的隐层表征向量并输出至所述声谱预测网络中的预处理网络；

使用预处理网络将上一迭代次的梅尔频谱向量转化为第一三维张量，并对第一三维张量进行张量压缩压缩操作获得第一目标二维向量，将所述第一目标二维向量与上一迭代次的注意力上下文张量进行拼接操作，得到第二目标二维向量，将所述第二目标二维向量输入循环注意力结构；

使用循环注意力结构，基于所述第二目标二维向量、上一迭代次的表征所述驱动文字短期时序的第一隐层以及上一次迭代次的表征所述驱动文字的长期时序向量，计算当前迭代次的表征所述驱动文字短期时序的第一隐层；将当前迭代次的第一隐层、所述隐层表征向量以及上一迭代次的注意力权重向量依次进行矩阵相加、张量压缩、函数激活，获得激活后的第三目标二维向量；基于所述第三目标二维向量计算当前迭代次的注意力权重向量；将所述隐层表征向量与所述当前迭代次的注意力权重向量进行批相乘处理，得到当前迭代次的注意力上下文张量；将当前迭代次的注意力上下文张量与当前迭代次的第一隐层进行矩阵拼接操作，获得第四目标二维向量输入至第一解码器中；

使用所述第一解码器，将上一迭代次的第一隐层、上一次迭代次的长期时序向量以及所述第四目标二维向量，计算第一解码器表征所述驱动文字短期时序的第二隐层；将所述第二隐层与当前迭代次的注意力上下文张量进行矩阵拼接操作，得到第五目标二维向量；对所述第五目标二维向量进行第二维压缩、以及函数激活，将激活后获得的第六目标二维向量作为门信号输出张量；

根据所述门信号输出张量，判断注意力循环机制是否结束循环；

当结束循环时，将第五目标二维向量进行第一维压缩以及函数激活，获得当前迭代次的梅尔频谱向量；

将当前迭代次的梅尔频谱向量进行卷积处理，并与未卷积前的梅尔频谱向量进行残差相加作为预测声谱。

可选的，所述第一编码器包括：字符嵌入层、三层卷积层以及双向长短时记忆层，

将所述驱动文字输入字符嵌入层，使用所述字符嵌入层将所述驱动文字转化为字符向量；

将所述字符向量输入三层卷积层，使用三层卷积层对所述字符向量进行非线性变换，得到非线性变换后的向量；

将非线性变换后的向量输入双向长短时记忆层，使用双向长短时记忆层计算得到表征所述驱动文字时序特征的隐层表征向量。

可选的，所述预处理网络包括多个第一全连接层，

使用预处理网络将上一迭代次的梅尔频谱向量转化为第一三维张量，并对第一三维张量进行张量压缩压缩操作获得第一目标二维向量，将所述第一目标二维向量与上一迭代次的注意力上下文张量进行拼接操作，得到第二目标二维向量，将所述第二目标二维向量输入循环注意力结构包括：

将上一迭代次的梅尔频谱向量输入所述第一全连接层，使用第一全连接层将上一迭代次的梅尔频谱向量转化为三维张量并激活，获得第一三维张量；

选择第一三维张量中表示帧数的维度进行张量压缩操作，以将帧数的维度压缩掉，得到与第一三维张量包含信息相同的第一目标二维向量；

将所述第一目标二维向量与上一迭代次的注意力上下文张量进行拼接操作，以使第一目标二维向量与上一迭代次的注意力上下文张量的第二维拼接在一起，获得第二目标二维向量，所述第二目标二维向量输入循环注意力结构。

可选的，所述循环注意力结构包括长短时记忆单元、3个第二全连接层、第三全连接层以及注意力单元，

将所述第二目标二维向量、上一迭代次的表征所述驱动文字短期时序的第一隐层以及上一次迭代次的表征所述驱动文字的长期时序向量输入长短时记忆单元，使用所述长短时记忆单元计算得到当前迭代次的表征所述驱动文字短期时序的第一隐层；

将所述第二目标二维向量、上一迭代次的表征所述驱动文字短期时序的第一隐层以及上一次迭代次的表征所述驱动文字的长期时序向量输入对应的第二全连接层，每个第二全连接层对输入进行处理以使输出的向量长度相同；

将每个第二全连接层输出的向量进行矩阵相加，再使用激活函数激活，得到第二三维张量；

将所述第二三维张量输入第三全连接层，使用所述第三全连接层对所述第二三维张量的第三维进行压缩，并在压缩后进行张量压缩，获得未激活的第三目标二维向量；

对未激活的第三目标二维向量使用SoftMax函数进行激活，获得激活后的第三目标二维向量；

将所述第三目标张量输入注意力单元，使用所述注意力单元计算当前迭代次的注意力权重向量；将所述隐层表征向量与所述当前迭代次的注意力权重向量进行批相乘处理，得到当前迭代次的注意力上下文张量；将当前迭代次的注意力上下文张量与当前迭代次的第一隐层进行矩阵拼接操作，获得第四目标二维向量输入至第一解码器中。

可选的，所述声谱预测网络还包括第四全连接层以及5层一维卷积层，

对所述第五目标二维向量进行第二维压缩、以及函数激活包括：

将所述第五目标二维向量经过第四全连接层，使用所述第四全连接层将第五目标二维向量的第二维压缩为1，并使用sigmoid激活函数进行激活，将激活后的第六目标二维向量；

所述当结束循环时，将第五目标二维向量输入第四全连接层，使用第四全连接层对所述第五目标二维向量的第二维进行压缩，将压缩后的当前迭代次的梅尔频谱向量；

将当前迭代次的梅尔频谱向量输入5层一维卷积层，获得输出结果；

将输出结果与当前迭代次的梅尔频谱向量进行残差相加，得到残差相加后的向量；

将残差相加后的向量作为预测声谱。

可选的，所述生成对抗网络包括生成器以及判别器，所述生成器包括人物特征信息编码器、音频帧编码器、高斯噪声编码器和第二解码器，

将所述多个声音片段、所述待驱动的正面人物图片以及随机噪声输入预设的生成对抗网络中，使用人物特征信息编码器提取所述待驱动的正面人物图片的人物特征信息并进行编码，得到第一目标一维向量；

使用所述音频帧编码器对所述声音序列按照时序进行编码获得第二目标一维向量；

使用所述高斯噪声编码器，对所述随机噪声编码为第三目标一维向量；

将所述第一目标一维向量、第二目标一维向量以及第三目标一维向量输入所述生成器中，使用生成器对其输入进行矩阵拼接，获得矩阵拼接后的向量；

使用所述第二解码器，对矩阵拼接后的向量进行解码，获得与待驱动的正面人物图片形状相同的输出图片。

可选的，所述生成对抗网络还包括判别器，用于对所述第二解码器的输出图片进行判别，以监督学习的方式监督生成器的输出结果。

可选的，在将所述生成视频的其余帧与所述参考帧的关键点运动趋势进行泰勒展开，获得其余帧中每个帧的用于映射关键点的一阶运动矩阵之前，所述文字驱动的人物播报视频生成方法还包括：

将所述生成视频的其余帧的关键点坐标与该参考帧的关键点坐标进行对比，得到其余帧与该参考帧的关键点运动趋势；

计算其余帧与该参考帧的关键点运动趋势的泰勒展开式，得到其余帧中每个帧的用于映射关键点的一阶运动矩阵；

提取待驱动的正面人物图片的人脸特征，获得所述待驱动的正面人物图像的人脸特征。

可选的，所述提取待驱动的正面人物图片的人脸特征，获得人脸特征包括：

使用预设的第二编码器提取待驱动的正面人物图片的人脸特征；

对所述拼接之后的矩阵进行解码，得到与所述生成视频拥有类似面部表情的驱动人像图片包括：

使用预设的运动解码器对所述拼接之后的矩阵进行解码，得到与所述生成视频拥有类似面部表情的驱动人像图片。

1、本发明提供的一种文字驱动的人物播报视频生成方法，为了保证生成模型不受音频音色、驱动人物面部特征的影响，在预测声谱过程中加入了梅尔频谱向量信息、背景降噪处理，以保证最大程度的降低音色和噪音的影响；在生成对抗网络中，使用loss将人物面部特征和人物面部运动特征进行分化指引，使生成器学到的是人物面部运动特征与隐层编码之间的关系，从而达到一个通用、不受人物面部特征影响的生成器，提高与生成视频拥有类似面部表情的驱动人像图片的生成效果。

2、本发明提供的一种文字驱动的人物播报视频生成方法，采用一阶运动矩阵实现面部表情迁移，在得到与所述生成视频拥有类似面部表情的驱动人像图片后，继续使用一阶运动矩阵来扩展各种人物面部图片、各种分辨率的支持，可以更好的支持各种分辨率的图片和各种风格的人物形象，以此提高文字驱动的人物面部运动视频的驱动效果。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1是本发明实施例提供的一种文字驱动的人物播报视频生成方法的流程示意图；

图2是本发明实施例提供的人物特征信息编码器的网络示意图；

图3是本发明实施例提供的音频编码器的网络示意图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

如图1所示，本发明提供的一种文字驱动的人物播报视频生成方法包括：

S1，获取待驱动的正面人物图片、驱动文字以及预设的声谱预测网络；

S2，使用声谱预测网络对驱动文字进行注意力循环机制的频谱预测，获得驱动文字的预测声谱；

S3，将预测声谱输入预设的声码器中，以使声码器将预测声谱的频谱信息转化为声音序列；

本发明的声码器使用的是DeepMind公布的WaveNet模型，主体是k层网络块，通过跳步连接(Skip-connections)以及两个激活函数和一个1*1卷积层，最后加上Softmax层的网络模型。经过声码器后，驱动文字转换成avi或者mp3格式的音频信息，即音频序列。

S4，将声音序列按照预设的生成视频帧率进行切分，以使声音序列的切分段数与生成视频帧率匹配，获得与生成视频对应的多个声音片段；

S5，将多个声音片段、待驱动的正面人物图片以及随机噪声输入预设的生成对抗网络中，使用生成对抗网络提取待驱动的正面人物图片的人物特征信息并进行编码，得到第一目标一维向量；对声音序列按照时序进行编码获得第二目标一维向量；对随机噪声编码为第三目标一维向量；将第一目标一维向量、第二目标一维向量以及第三目标一维向量进行矩阵拼接、解码，获得与待驱动的正面人物图片形状相同的输出图片；

对于生成对抗网络，需要输入的是一张人物静态面部图片、一段音频和一个随机噪声。对于音频，需要根据生成的视频帧率和自身音频采样率进行匹配处理，即需要根据帧率对音频进行裁切，裁切的过程中有滑窗操作，以保证切分后的声音片段连续，平滑过度。生成的声音片段与输出图片一一对应。

示例性的，当声音片段是30个片段，则输出图片是30张。

S6，将输出图片按照声音片段的时序组成生成视频；

S7，使用人脸关键点检测网络对待驱动的正面人物图片以及生成视频进行关键点特征提取，得到正面人物图片的第一关键点坐标以及生成视频的第二关键点坐标；

S8，将第二关键点坐标分布与第一关键点坐标分布进行比对，在生成视频中确定最为相似的参考帧；

S9，将生成视频的其余帧与参考帧的关键点运动趋势进行泰勒展开，获得其余帧中每个帧的用于映射关键点的一阶运动矩阵；

S10，将待驱动的正面人物图像的人脸特征，与其余帧中每个帧的一阶运动矩阵进行拼接；

S11，对拼接之后的矩阵进行解码，得到与生成视频拥有类似面部表情的驱动人像图片；

本发明在得到与生成视频拥有类似面部表情的驱动人像图片的过程中，首先用人脸关键点检测网络对人脸68个关键点进行检测，得到关键点坐标。这个操作对视频中的每一帧都进行一遍，即可得到每帧图片的人脸关键点。那么挑选其中与驱动正面人像关键点分布最相似的一帧图像作为参考帧，其余帧均与此帧进行对比，可以得到两帧图像关键点运动趋势，通过计算一阶泰勒展开式，可以得到一个用于映射关键点的一阶运动矩阵。首先将需要驱动的图片放入编码器模型，得到特征编码。特征编码与一阶矩阵信息进行拼接，放入运动解码器，即可获得与对应帧拥有类似面部表情的带有驱动人像信息的图片。

S12，将与生成视频拥有类似面部表情的驱动人像图片组成图像序列；

S13，按照生成视频帧率将图像序列与声音序列进行视频生成，得到由文字驱动的人物面部运动视频。

本步骤可以将图片与第一个流程中生成的音频，使用ffmpeg进行视频生成，即可得到由文字驱动的人物面部运动视频。

本发明提供的一种文字驱动的人物播报视频生成方法，为了保证生成模型不受音频音色、驱动人物面部特征的影响，在预测声谱过程中加入了梅尔频谱向量信息、背景降噪处理，以保证最大程度的降低音色和噪音的影响；在生成对抗网络中，使用loss将人物面部特征和人物面部运动特征进行分化指引，使生成器学到的是人物面部运动特征与隐层编码之间的关系，从而达到一个通用、不受人物面部特征影响的生成器，提高与生成视频拥有类似面部表情的驱动人像图片的生成效果。并且采用一阶运动矩阵实现面部表情迁移，在得到与生成视频拥有类似面部表情的驱动人像图片后，继续使用一阶运动矩阵来扩展各种人物面部图片、各种分辨率的支持，可以更好的支持各种分辨率的图片和各种风格的人物形象，以此提高文字驱动的人物面部运动视频的驱动效果。本发明只需要输入一段文字、一张人物正脸图片即可生成一段逼真、流畅、自然的人物播报内容的视频。可以不受限于提供的人物形象和音频音色的影响，生成的视频中人物形象真实、人物表情自然。

实施例二

在本发明一种实施例中，声谱预测网络包括：第一编码器、预处理网络、循环注意力结构、第一解码器；

上述步骤S2包括：

S21，针对当前迭代次，使用第一编码器对驱动文字依次进行编码、卷积以及时间序列预测，获得表征驱动文字时序特征的隐层表征向量并输出至声谱预测网络中的预处理网络；

S22，使用预处理网络将上一迭代次的梅尔频谱向量转化为第一三维张量，并对第一三维张量进行张量压缩压缩操作获得第一目标二维向量，将第一目标二维向量与上一迭代次的注意力上下文张量进行拼接操作，得到第二目标二维向量，将第二目标二维向量输入循环注意力结构；

本发明首先使用一个预处理网络(Prenet)将频谱信息转化为向量信息，该网络使用了两层全连接层，每一层后面都连接了线性整流函数作为激活函数。第一层的向量输入大小为80，因为梅尔频谱的特征维度为80，输出为256。第二层的输入输出大小均为256。最终输出的是一个三维张量，即第一三维张量，第一维表示帧数，第二维表示批大小(batchsize)，第三维表示向量长度。

S23，使用循环注意力结构将第二目标二维向量、上一迭代次的表征驱动文字短期时序的第一隐层以及上一次迭代次的表征驱动文字的长期时序向量，计算当前迭代次的表征驱动文字短期时序的第一隐层；将当前迭代次的第一隐层、隐层表征向量以及上一迭代次的注意力权重向量依次进行矩阵相加、张量压缩、函数激活，获得激活后的第三目标二维向量；基于第三目标二维向量计算当前迭代次的注意力权重向量；将隐层表征向量与当前迭代次的注意力权重向量进行批相乘处理，得到当前迭代次的注意力上下文张量；将当前迭代次的注意力上下文张量与当前迭代次的第一隐层进行矩阵拼接操作，获得第四目标二维向量输入至第一解码器中；

在第一三维张量中取出一帧，进入注意力机制结构。取完一帧后，张量仍然保持成三维，只是第一维的帧数变为了1，然后进行张量压缩操作(squeeze)，对第一维进行压缩处理，得到一个二维的向量，第一维表示批大小，第二维表示向量长度。同时每一维的数值不变。然后该二维张量与一个注意力上下文(attentioncontext)张量进行拼接操作。该注意力上下文张量第一维表示批大小，第二维表示向量长度，数值维512。因此，拼接操作之后，得到了一个第二维长度为768的二维向量，即第四目标二维向量。

计算当前迭代次的表征驱动文字短期时序的第一隐层的过程为：将第二目标二维向量、上一迭代次的表征驱动文字短期时序的第一隐层以及上一次迭代次的表征驱动文字的长期时序向量，三者进入长短时记忆单元，进行一次前向传播计算(更新记忆，得到隐层输出)，得到前迭代次的表征驱动文字短期时序的第一隐层。

基于第三目标二维向量计算当前迭代次的注意力权重向量的过程为：第三目标二维向量与此前所有迭代累计的第三目标二维向量进行就第二维进行矩阵拼接操作，得到一个三维的张量。接着将该三维张量经过一个核大小为31*1的一维卷积层，再经过一个输入长度32输出长度128的全连接层，得到此迭代周期的注意力权重。

S24，使用第一解码器，将上一迭代次的第一隐层、上一次迭代次的长期时序向量以及第四目标二维向量，计算第一解码器表征驱动文字短期时序的第二隐层；将第二隐层与当前迭代次的注意力上下文张量进行矩阵拼接操作，得到第五目标二维向量；对第五目标二维向量进行第二维压缩、以及函数激活，将激活后获得的第六目标二维向量作为门信号输出张量；

计算第一解码器表征驱动文字短期时序的第二隐层的具体过程为：上一迭代次的第一隐层、上一次迭代次的长期时序向量以及第四目标二维向量，三者进入长短时记忆单元，进行一次前向传播计算(更新记忆，得到隐层输出)，得到前迭代次的表征驱动文字短期时序的第二隐层。

S25，根据门信号输出张量，判断注意力循环机制是否结束循环；

S26，当结束循环时，将第五目标二维向量进行第一维压缩以及函数激活，获得当前迭代次的梅尔频谱向量；

S27，将当前迭代次的梅尔频谱向量进行卷积处理，并与未卷积前的梅尔频谱向量进行残差相加作为预测声谱。

当第四目标二维向量进入解码器后，解码器将上一迭代次的第一隐层、上一次迭代次的长期时序向量以及第四目标二维向量，计算第一编码器表征驱动文字短期时序的第二隐层，即本次的注意力隐层，为一个二维张量，第一维为批大小，第二维长度1024。接着本次的注意力隐层此输出分两路运算：一路与注意力权重、经过全连接从512维变为128维长度的预处理网络向量一起相加，经过矩阵相加与tanh激活函数之后得到一个三维张量，第一维是批大小，第二维长度为1，第三维长度为128，然后经过全连接层转将第三维长度压缩为1，并经过张量压缩和SoftMax函数后，一方面成为之前的注意力权重，另一方面与预处理网络得到的张量相乘得到新的注意力上下文，得到结果一路与长短时记忆单元出来的注意力隐层输出拼接得到一个二维张量，第二维长度为1536，另一路在上一路张量经过解码器的长短时记忆单元处理之后再次拼接；另一路与新的注意力上下文在上述过程中拼接进入解码器。进入解码器后，一个二维张量，第二维为1536，先经过一个注意力单元，得到了第一维不变，第二维长度变为1024的张量，接着与上述注意力上下文拼接，第二维拼接，长度为1536。接着此张量一方面经过一个全连接层，第二维变为1，作为门信号输出张量输出；另一方面经过全连接层，得到第二维长度80。门信号输出张量作为判断是否继续循环的依据，张量继续进入一个后处理网络(五层一维卷积)，经过后处理之后与自身残差相加，作为梅尔频谱向量输出。

实施例三

在本发明一种实施例中，第一编码器包括：字符嵌入层、三层卷积层以及双向长短时记忆层，上述步骤S21包括：

S211：将驱动文字输入字符嵌入层，使用字符嵌入层将驱动文字转化为字符向量；

S212：将字符向量输入三层卷积层，使用三层卷积层对字符向量进行非线性变换，得到非线性变换后的向量；

S213：将非线性变换后的向量输入双向长短时记忆层，使用双向长短时记忆层计算得到表征驱动文字时序特征的隐层表征向量。

将非线性变换后的向量输入双向长短时记忆层，使用双向长短时记忆层，计算得到表征驱动文字时序特征的隐层表征向量的具体过程为：

将非线性变换后的向量分别正向、反向送入双向长短时记忆层的其中一层，并将计算结果再最后一层激活函数进行合并激活后，得到表征驱动文字时序特征的隐层表征向量。

实施例四

在本发明一种实施例中，预处理网络包括多个第一全连接层，上述S22步骤包括：

S221：将上一迭代次的梅尔频谱向量输入第一全连接层，使用第一全连接层将上一迭代次的梅尔频谱向量转化为三维张量并激活，获得第一三维张量；

S222：选择第一三维张量中表示帧数的维度进行张量压缩操作，以将帧数的维度压缩掉，得到与第一三维张量包含信息相同的第一目标二维向量；

S223：将第一目标二维向量与上一迭代次的注意力上下文张量进行拼接操作，以使第一目标二维向量与上一迭代次的注意力上下文张量的第二维拼接在一起，获得第二目标二维向量，第二目标二维向量输入循环注意力结构。

实施例五

在本发明一种实施例中，循环注意力结构包括长短时记忆单元、3个第二全连接层、第三全连接层以及注意力单元，

S23包括：

S231：将第二目标二维向量、上一迭代次的表征驱动文字短期时序的第一隐层以及上一次迭代次的表征驱动文字的长期时序向量输入长短时记忆单元，使用长短时记忆单元计算得到当前迭代次的表征驱动文字短期时序的第一隐层；

S232：将第二目标二维向量、上一迭代次的表征驱动文字短期时序的第一隐层以及上一次迭代次的表征驱动文字的长期时序向量输入对应的第二全连接层，每个第二全连接层对输入进行处理以使输出的向量长度相同；

S233：将每个第二全连接层输出的向量进行矩阵相加，再使用激活函数激活，得到第二三维张量；

S234：将第二三维张量输入第三全连接层，使用第三全连接层对第二三维张量的第三维进行压缩，并在压缩后进行张量压缩，获得未激活的第三目标二维向量；

S235：对未激活的第三目标二维向量使用SoftMax函数进行激活，获得激活后的第三目标二维向量；

S236：将第三目标张量输入注意力单元，使用注意力单元计算当前迭代次的注意力权重向量；将隐层表征向量与当前迭代次的注意力权重向量进行批相乘处理，得到当前迭代次的注意力上下文张量；将当前迭代次的注意力上下文张量与当前迭代次的第一隐层进行矩阵拼接操作，获得第四目标二维向量输入至第一解码器中。

实施例六

在本发明一种实施例中，声谱预测网络还包括第四全连接层以及5层一维卷积层，

对第五目标二维向量进行第二维压缩、以及函数激活包括：

步骤a1：将第五目标二维向量经过第四全连接层，使用第四全连接层将第五目标二维向量的第二维压缩为1，并使用sigmoid激活函数进行激活，将激活后的第六目标二维向量；

步骤b1：当结束循环时，将第五目标二维向量输入第四全连接层，使用第四全连接层对第五目标二维向量的第二维进行压缩，将压缩后的当前迭代次的梅尔频谱向量；

步骤c1：将当前迭代次的梅尔频谱向量输入5层一维卷积层，获得输出结果；

步骤d1：将输出结果与当前迭代次的梅尔频谱向量进行残差相加，得到残差相加后的向量；

步骤e1：将残差相加后的向量作为预测声谱。

实施例七

在本发明一种实施例中，生成对抗网络包括生成器以及判别器，生成器包括人物特征信息编码器、音频帧编码器、高斯噪声编码器和第二解码器，上述步骤S5包括：

S51：将多个声音片段、待驱动的正面人物图片以及随机噪声输入预设的生成对抗网络中，使用人物特征信息编码器提取待驱动的正面人物图片的人物特征信息并进行编码，得到第一目标一维向量；

如图2所示，人物特征信息编码器是一个卷积神经网络(Convolutional NeuralNetworks，CNN)，由6层二维卷积层组成，每层卷积层之后连接批归一化层与线性整流函数。最终人物特征信息编码器将一张96*128的输入图片编码成一个长度为128的一维向量，即第一目标一维向量。

S52：使用音频帧编码器对声音序列按照时序进行编码获得第二目标一维向量；

如图3所示，音频帧编码器结构由不定层数的一维卷积层组成，每一层卷积层也连接着批归一化和ReLU激活函数。编码器层数由音频采样率决定，由于不同的采样率的音频最终经过音频编码器编码后，都得到128维的向量。因此在每一层的步长、卷积核大小，均有所调整。经过一维卷积网络之后，向量进入一个双层门控制循环单元(Gated RecurrentUnit，GRU)，计算音频时许上的关系。最终得到一个长度为256的向量，即第二目标一维向量。

S53：使用高斯噪声编码器，对随机噪声编码为第三目标一维向量；

本步骤将一个长度为10的一维噪音向量进入一层GRU，即高斯噪声编码器，得到一个长度为10的一维向量，即第三目标一维向量。

S54：将第一目标一维向量、第二目标一维向量以及第三目标一维向量输入第二解码器中，使用第二解码器对其输入进行矩阵拼接，获得矩阵拼接后的向量；

本步骤上述三部分生成的向量拼接在一起，进入第二解码器。第二解码器的结构如下：第二解码器一共有6反向卷积层(由生成图像最大边128决定)，每一层是一个反向二维卷积和批归一化和线性整流函数组成。同时，解码器与之前的人物特征信息编码器还有跳步连接，将编码过程中的信息加入到解码器中。最终生成与输入图片相同形状的输出图片。

S55：使用第二解码器，对矩阵拼接后的向量进行解码，获得与待驱动的正面人物图片形状相同的输出图片。

实施例八

在本发明一种实施例中，生成对抗网络还包括有判别器，用于对第二解码器的输出图片进行判别，以监督学习的方式监督生成器的输出结果。

实施例九

在本发明一种实施例中，在将生成视频的其余帧与参考帧的关键点运动趋势进行泰勒展开，获得其余帧中每个帧的用于映射关键点的一阶运动矩阵之前，文字驱动的人物播报视频生成方法还包括：

步骤a2：将生成视频的其余帧的关键点坐标与该参考帧的关键点坐标进行对比，得到其余帧与该参考帧的关键点运动趋势；

步骤b2：计算其余帧与该参考帧的关键点运动趋势的泰勒展开式，得到其余帧中每个帧的用于映射关键点的一阶运动矩阵；

步骤c2：提取待驱动的正面人物图片的人脸特征，获得待驱动的正面人物图像的人脸特征。

实施例十

在本发明一种实施例中，提取待驱动的正面人物图片的人脸特征，获得人脸特征包括：

步骤c21：使用预设的第二编码器提取待驱动的正面人物图片的人脸特征；

步骤c22：对拼接之后的矩阵进行解码，得到与生成视频拥有类似面部表情的驱动人像图片包括：

步骤c23：使用预设的运动解码器对拼接之后的矩阵进行解码，得到与生成视频拥有类似面部表情的驱动人像图片。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种文字驱动的人物播报视频生成方法，其特征在于，包括：

使用所述声谱预测网络对所述驱动文字进行注意力循环机制的声谱预测，获得所述驱动文字的预测声谱；

将所述输出图片按照声音片段的时序组成生成视频；

2.根据权利要求1所述的文字驱动的人物播报视频生成方法，其特征在于，所述声谱预测网络包括：第一编码器、预处理网络、循环注意力结构、第一解码器；

3.根据权利要求2所述的文字驱动的人物播报视频生成方法，其特征在于，所述第一编码器包括：字符嵌入层、三层卷积层以及双向长短时记忆层，

4.根据权利要求2所述的文字驱动的人物播报视频生成方法，其特征在于，所述预处理网络包括多个第一全连接层，

5.根据权利要求2所述的文字驱动的人物播报视频生成方法，其特征在于，所述循环注意力结构包括长短时记忆单元、3个第二全连接层、第三全连接层以及注意力单元，

6.根据权利要求2所述的文字驱动的人物播报视频生成方法，其特征在于，所述声谱预测网络还包括第四全连接层以及5层一维卷积层，

将残差相加后的向量作为预测声谱。

7.根据权利要求1所述的文字驱动的人物播报视频生成方法，其特征在于，所述生成对抗网络包括生成器以及判别器，所述生成器包括人物特征信息编码器、音频帧编码器、高斯噪声编码器和第二解码器，

8.根据权利要求7所述的文字驱动的人物播报视频生成方法，其特征在于，所述生成对抗网络还包括判别器，用于对所述第二解码器的输出图片进行判别，以监督学习的方式监督生成器的输出结果。

9.根据权利要求1所述的文字驱动的人物播报视频生成方法，其特征在于，在将所述生成视频的其余帧与所述参考帧的关键点运动趋势进行泰勒展开，获得其余帧中每个帧的用于映射关键点的一阶运动矩阵之前，所述文字驱动的人物播报视频生成方法还包括：

10.根据权利要求9所述的文字驱动的人物播报视频生成方法，其特征在于，所述提取待驱动的正面人物图片的人脸特征，获得人脸特征包括：