CN114793300A

CN114793300A - 一种基于生成对抗网络的虚拟视频客服机器人合成方法和***

Info

Publication number: CN114793300A
Application number: CN202110097183.3A
Authority: CN
Inventors: 张轩宇; 王逸超; 刘昱麟; 朱鹏飞
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2022-07-26

Abstract

本发明涉及人脸视频合成技术领域，且公开了一种基于生成对抗网络的虚拟视频客服机器人合成方法和***，所述一种基于生成对抗网络的虚拟视频客服机器人合成***，包括唇形生成器模块、表情生成器模块、文本情感分析模块、文本语音合成模块。该一种基于生成对抗网络的虚拟视频客服机器人合成方法和***，其创新性在于提出了两种合成虚拟视频客服机器人的方案，可供用户根据需求自主选择；合成方案可以让用户实现各种语言的合成，客服形象的任意选择，多种场景的应用，并且将说话者的情感融入到视频合成的过程中，具有良好的真实性；集成了一套基于Web端的***，支持用户直接登陆网站，上传音视频材料，在线合成，批量快速生产。

Description

一种基于生成对抗网络的虚拟视频客服机器人合成方法和 ***

技术领域

本发明涉及人脸视频合成技术领域，具体为一种基于生成对抗网络的虚拟视频客服机器人合成方法和***。

背景技术

人脸视频合成是计算机视觉中一个新兴的、具有挑战性的问题，基于该技术的虚拟视频机器人正在获得越来越多的关注。虚拟视频客服机器人包括唇形生成、表情生成、语音合成等模块，被期待能真实模仿出人说话时的唇动、声音和面部表情。

受深度学习在计算机视觉领域成功应用的启发，基于深度学习的人脸视频合成取得了优异的性能和良好的视觉效果。目前，人脸视频合成领域提出了一些具有重要意义的基准数据集，如GRID [1] , TIMIT [2] 和LRW [3]等。这些数据集提供了大量的音频视频数据对，大力推动了人脸视频合成领域的发展。基于上述数据集，涌现出大量的优秀算法，如ObamaNet [4]、LipGAN [5]、ExprGAN [6]、Wav2Lip [7]等。以LipGAN为例，其通过生成对抗网络中生成器的编码解码结构提取音频视频特征，并用鉴别器将生成的视频与真实的视频进行比较，实现了端到端的训练，在静态的图像和动态的视频上均取得了较好的表现。这些算法对于推动人脸视频合成的发展起到了重要作用。近年来，基于人脸视频合成技术，百度、搜狐、科大讯飞等公司都设计出相应的虚拟视频机器人用来完成新闻播报、客服答疑等简单工作，促进了强人工智能的落地与发展。

现有技术存在以下缺陷与不足：

然而，现存的虚拟视频客服合成方法和***大多无法实现真实可靠的、从文字到视频的一体式合成。具体体现在：无法很好地实现唇形与声音的对齐，无法根据用户需求切换说话者的语言，无法根据所表达词句的情感生成相应的面部表情和语音语调。这些***虽然具备了视频客服的初级功能，但是无法更好地接近真人说话的习惯，人工处理的痕迹较为明显。

发明内容

针对现有技术的不足，本发明提出了一种基于生成对抗网络的虚拟视频客服机器人合成方法和***，其创新性在于提出了两种合成虚拟视频客服机器人的方案，可供用户根据需求自主选择；合成方案可以让用户实现各种语言的合成，客服形象的任意选择，多种场景的应用，并且将说话者的情感融入到视频合成的过程中，具有良好的真实性；集成了一套基于Web端的***，支持用户直接登陆网站，上传音视频材料，在线合成，批量快速生产。

为实现上述的一种基于生成对抗网络的虚拟视频客服机器人合成方法和***目的，本发明提供如下技术方案：一种基于生成对抗网络的虚拟视频客服机器人合成方法和***，包括唇形生成器模块、表情生成器模块、文本情感分析模块、文本语音合成模块。

所述一种基于生成对抗网络的虚拟视频客服机器人合成方法包括以下步骤：

步骤一：收集1000段时长在15秒的中央电视台新闻联播视频作为相应的中文语料-视频数据集。在该数据集上训练Wav2Lip、First Order Motion Model模型，使其更加符合汉语发音的特征，作为唇形生成器。

步骤二：在Oulu-CASIA NIR&VIS面部表情数据集上训练ExprGAN模型作为表情生成器，训练双向LSTM模型作为文本情感分析模块，调用百度TTS接口合成带有感情的语音。

步骤三：将上述四个模块集成，基于Web端开发。利用VUE框架搭建前端，利用Python的flask、django包封装接口、搭建后端，利用nginx进行反向代理，集成出具有两种方案的虚拟视频客服机器人合成网站和平台。

步骤四：用户根据自身的需求选择对应的两种合成方案。

步骤五：登录网站，提交上述原始材料，即可合成出虚拟客服的面部视频。

其中，步骤一所述方案为迁移合成，更加适用于对唇形对齐要求高的场景，能够清晰真实的人脸视频；

其中，步骤二所述方案为文本合成，更加适用于大规模的商业级应用场景，能够根据文字直接合成出真实的唇形、表情、声音，合成视频具有良好的时序稳定性，合成迅速，效果逼真。

进一步地，若用户选择步骤一所述方案，需要向平台服务器提供一段预先朗读过相应文字的源视频和视频客服的形象图片；

进一步地，若用户选择步骤二所述方案，需要向平台服务器提供代表虚拟客服形象的任意视频和客服即将朗读的文字。

其中，所述Wav2Lip模型具体为对连续帧的视频和音频进行特征提取，引入合成损失，通过生成对抗网络合成具有良好平滑性的唇动视频。所述First Order Motion Model模型具体为无需使用任何标签或先验信息进行图片的动画处理。即通过在一组描绘面部特征的视频上进行训练，就可以将模型用于唇形的迁移。

其中，所述ExprGAN模型具体是具有可控制表情强度的表情编辑算法，可以将面部图像更改为具有多种样式的目标表情，表情强度也可以连续控制。所述双向LSTM模型具体为使用双向LSTM模型来分析文本情感，用于更好地处理程度词和捕捉双向的语义依赖。

进一步地，若用户选择步骤一所述方案，则直接通过训练好的First OrderMotion模型生成具有精准唇动、自然的面部表情的视频；

进一步地，若用户选择步骤二所述方案，则将文本输入情感分析模块，分析出相应情感；通过调用TTS生成相应语音语调的音频；将视频输入唇形生成器，与TTS生成的音频共同合成带有唇动的视频；将上述视频输入表情生成器，根据分析出的情感，调整面部表情，得到结果。

所述一种基于生成对抗网络的虚拟视频客服机器人合成***，所述装置包括：云服务器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的集成方案和方法步骤。

与现有技术相比，本发明提供了一种基于生成对抗网络的虚拟视频客服机器人合成方法和***，具备以下有益效果：

1、本一种基于生成对抗网络的虚拟视频客服机器人合成方法和***，提出了两种合成虚拟视频客服机器人的方案，即步骤一所述方案为预先录制一段朗读相应文字的视频，并将该面部特征迁移到虚拟客服的形象图片上；步骤二所述方案为输入文字和虚拟客服的形象视频，直接合成带有情感和真实唇动的虚拟客服视频；

2、本一种基于生成对抗网络的虚拟视频客服机器人合成方法和***，提出的合成方案可以让用户实现各种语言的合成，客服形象的任意选择，多种场景的应用，并且将说话者的情感融入到视频合成的过程中，具有更好的真实性和良好的拓展性；

3、本一种基于生成对抗网络的虚拟视频客服机器人合成方法和***，集成了一套基于Web端的***，支持用户直接登陆网站，上传音视频材料，在线合成，批量快速生产。

附图说明

图1为本发明基于生成对抗网络的虚拟视频客服机器人合成方法流程图；

图2为本发明步骤二所述方案 Wav2Lip整体网络结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-2，一种基于生成对抗网络的虚拟视频客服机器人合成***，包括唇形生成器模块、表情生成器模块、文本情感分析模块、文本语音合成模块。

实施例1：

本发明实施例提供了一种基于生成对抗网络的虚拟视频客服机器人合成方法，该方法包括以下步骤：

101：使用you-get工具收集1000段不同人物的中央电视台新闻联播视频作为相应的中文语料-视频数据集，并按照LRS2数据集的格式整理。

进一步地，用ffmpeg工具从视频中提取音频，并通过python库librosa将音频文件转换为梅尔块供网络读取，将视频裁剪为分辨率256*256，时长为15秒的MP4格式文件完成数据集的预处理。

102：在收集的中文数据集上训练Wav2Lip网络模型。该模型能通过面部解码器、音频解码器提取声音与唇形之间的映射关系，生成出合成唇形，并通过预训练好的唇形合成鉴别器和与生成器联合训练的视觉效果鉴别器不断修正合成效果，作为步骤二所述方案的唇形生成器。

具体实现时，在原网络的预训练模型上进行训练，使得网络能够在保持原有性能的基础上兼顾中文发音的特点，提升唇形合成效果。

103：训练First Order Motion、ExprGAN、Bi-LSTM三个模型分别作为上述方案1的唇形合成器、方案2的表情生成器和文本情感分析模块。

104：调用百度语音合成API接口并集成上述训练好的两种方案的各个模型。用vue框架搭建前端，用python的flask、django包封装模型接口，搭建后端，基于Web端搭建网站。

105：用户可根据自身需求选择合成步骤一所述方案和步骤二所述方案。若选择步骤一所述方案，需要准备预先朗读好的视频和虚拟客服的形象图片；若选择步骤二所述方案，需要准备虚拟客服的形象视频（或图像）和需要机器人朗读的文字。

106：用户登录网站，提交上述材料，即可获得合成结果。

综上所述，本发明提出了一种基于生成对抗网络的虚拟视频客服机器人合成方法，其创新性在于提出了两种合成虚拟视频客服机器人的方案，可供用户根据需求自主选择；合成方案可以让用户实现不同语言的合成，客服形象的任意选择，多种场景的应用，并且将说话者的情感融入到视频合成的过程中，具有良好的真实性；集成了一套基于Web端的***，支持用户直接登陆网站，上传音视频材料，快速批量合成。

实施例2：

下面结合具体的实例、计算公式对实施例1中的方案进行进一步地介绍，详见下文描述：

一、数据准备

本发明使用you-get工具收集1000段不同人物的中央电视台新闻联播视频作为相应的中文语料-视频数据集，并按照LRS2数据集的格式整理。进一步地，用ffmpeg、librosa工具对数据集进行预处理。

该数据集由对应的音频和视频组成。视频部分共包含5个不同男主播和5个不同女主播的播音内容，帧率为25 fps，分辨率均被裁剪为256*256，时长为25秒，格式为MP4；音频部分是从视频中提取出的梅尔块，用于网络直接获取声音信息。

二、模型的训练

本发明共包含四个模块分别是：唇形生成模块、表情生成模块、文本情感分析模块和语音合成模块，具体如下。

（1）唇形生成模块：

步骤一所述方案中的唇形生成模块采用First Order Motion模型，无需使用任何标签或先验信息进行图片的动画处理。该模型通过在一组描绘面部特征的视频上进行训练，之后就可以将模型用于唇形的迁移。具体实现是使用生成对抗网络的方法将外观信息与运动信息分离。为了支持模型对复杂运动的鲁棒性，该模型提取源视频中的面部关键点和局部仿射变换，生成器网络对目标物体的运动进行建模，即从源图像中提取静态外观信息与驱动视频中获得的运动信息组合，得到合成视频。

步骤二所述方案中的唇形生成模块采用Wav2Lip模型，该模型由一个生成器和两个鉴别器组成。生成器可分为面部信息编码器、语音信息编码器、面部信息解码器。面部信息编码器由一系列跳跃连接的残差卷积块组成。其将一组随机视频帧R的唇部信息遮掩作为先验姿态P，与R按通道数级联作为编码器输入。该编码器提取输入中的唇形信息作为面部特征图供后续网络的解码重建；语音编码器由一系列二维卷积块编码，提取输入梅尔块S中的语音信息，之后与面部特征图级联；面部信息解码器对上述两个编码器编码出的特征进行解码，通过一系列的上采样和反卷积操作重建出与音频相匹配的唇形视频，具体的唇形重建L1损失如下：

其中，Lg为生成器重建出的唇形，LG为真实的图像，N为输入图像的数量

唇形同步鉴别器用来惩罚与音频不同步的唇形生成。将生成的视频帧按时间维度级联输入预训练好的唇形同步鉴别器时，鉴别器将对生成面部的下半部分进行鉴别，最小化同步损失，具体如下：

该唇形同步生成器的权重在GAN网络的训练过程中保持不变，其对于判断唇形音频是否同步具有91%的准确率，能够很好地约束生成器的训练。

视觉效果鉴别器与生成器网络联合训练，该鉴别器用来约束失真的面部生成。鉴别器D由一系列卷积块组成。每个块包含一个卷积层和一个Leaky ReLU激活层。在鉴别训练过程中，网络使得损失Ldisc最小化，具体如下：

最终，网络的总损失为

其中，sw、sg为预先设定的参数，Lrecon为上文所提的重建损失，Esync为上文所提的同步损失，Lgen为生成器损失。

（2）表情生成模块：

表情生成模块由ExprGAN模型构成。ExprGAN是可控制表情强度的表情编辑算法，可以将面部图像更改为具有多种样式的目标表情，表情强度也可以连续控制。ExprGAN的生成器由编码器和解码器组成，编码器的输入是面部图像，解码器的输出是对重建的图像；ExprGAN的鉴别器用来约束表情的强度和真实性。整个网络可分为三个阶段：控制器学习阶段，图像重建阶段和图像细化阶段。经过三个阶段的生成即可得到具有指定表情的面部视频。

（3）文本情感分析模块：

文本情感分析即分析句子情感倾向，本发明使用双向LSTM模型来分析文本情感，可以更好的处理程度词和捕捉双向的语义依赖。双向LSTM模型是由前向的LSTM和后向的LSTM两个模型合成得到的。LSTM模型由t时刻的输入词，细胞状态，临时细胞状态，隐层状态，遗忘门，记忆门，输出门组成。其计算过程可以概括为，门控细胞状态进行新信息的遗忘和记忆，使得对后续时刻计算有用的信息得以传递，而无用的信息被丢弃；其中前一步的隐层状态和新的输入参与了每一步的运算，决定了每一步的遗忘与记忆的内容。将正向和反向的LSTM合成，即将所得到的两个LSTM的隐层状态的输出结果拼接，就可以得到所需要的情感倾向的判断。本发明***中将情感分为中立、开心、愤怒、伤心、惊喜、恐惧六种情感。

（4）语音合成模块：

本发明在该模块调用百度的TTS接口。该技术可以较好地完成中文语音合成，韵律处理能够自然地处理文本的断句，多音字等问题，效果较为逼真，能很好地为整个***服务。

三、模型的集成

四个模块的集成方法为若用户选择步骤一所述方案，则直接通过训练好的FirstOrder Motion模型生成具有精准唇动、自然的面部表情的视频；若用户选择步骤二所述方案，则将文本输入情感分析模块，分析出相应情感；通过调用TTS生成相应语音语调的音频；将视频输入唇形生成器，与TTS生成的音频共同合成音画同步的唇动视频；将上述视频输入表情生成器，根据分析出的情感，调整面部表情，得到结果。

本模型实施例具有以下三个关键创造点：

一、提出了两种合成虚拟视频客服机器人的方案；

技术效果：步骤一所述方案为迁移合成，合成效果逼真，适用于对视频真实要求性较高的场景；步骤二所述方案为文本合成，可快速根据文字一站式合成出真实的唇形、表情、声音，合成视频具有良好的时序稳定性，更加适用于大规模的商业级应用场景。

二、提出了让合成的中文视频具有精准唇动、自然表情的方法；

技术效果：训练的模型具有优异的性能，唇形同步误差LSE-D由原来的10.33降到了6.39，唇形同步置信度LSE-C由3.199上升到了7.789，视觉质量由3.91提升到4.12。同时模型由单纯的合成唇形融入了表情的合成。

三、集成了合成虚拟视频客服机器人的***。

技术效果：将四个模块集成为一套***，并搭建网站，能够很好的实现两种方案的一站式合成。

综上所述，本方法通过四个模块、两种方案实现了虚拟视频客服机器人的合成，能够精准地驱动唇形、自然地合成表情与语音，视觉效果良好。同时，集成的***能够让用户快速批量的生产虚拟视频客服机器人。

实施例3：

本发明实施例不仅可以用在虚拟视频客服的生成中，也可以用在如下应用场景。

如让历史人物、静态图画完成唱歌、说节日祝福等特定动作，如提前导入问题语料库，即可将虚拟视频客服机器人的***应用到校园迎新机器人、心理咨询机器人等，能够使学生与机器人实现面对面的真实交流，实现更好的人机交互。

实施例4：

一种基于生成对抗网络的虚拟视频客服机器人合成***，该***包括：网站域名、云服务器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行程序时实施实施例1和2中的方法步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于生成对抗网络的虚拟视频客服机器人合成方法和***，其特征在于：所述一种基于生成对抗网络的虚拟视频客服机器人合成***，包括唇形生成器模块、表情生成器模块、文本情感分析模块、文本语音合成模块。

2.根据权利要求1所述的一种基于生成对抗网络的虚拟视频客服机器人合成方法和***，其特征在于：所述一种基于生成对抗网络的虚拟视频客服机器人合成方法包括以下步骤：

步骤一：收集1000段时长在15秒的中央电视台新闻联播视频作为相应的中文语料-视频数据集，在该数据集上训练Wav2Lip、First Order Motion Model模型，使其更加符合汉语发音的特征，作为唇形生成器；

步骤二：在Oulu-CASIA NIR&VIS面部表情数据集上训练ExprGAN模型作为表情生成器，训练双向LSTM模型作为文本情感分析模块，调用百度TTS接口合成带有感情的语音；

步骤三：将上述四个模块集成，基于Web端开发，利用VUE框架搭建前端，利用Python的flask、django包封装接口、搭建后端，利用nginx进行反向代理，集成出具有两种方案的虚拟视频客服机器人合成网站和平台；

步骤四：用户根据自身的需求选择对应的两种合成方案；

3.根据权利要求2步骤一所述的一种基于生成对抗网络的虚拟视频客服机器人合成方法和***，其特征在于：步骤一所述方案为迁移合成，更加适用于对唇形对齐要求高的场景，能够清晰真实的人脸视频。

4.根据权利要求2步骤二所述的一种基于生成对抗网络的虚拟视频客服机器人合成方法和***，其特征在于：步骤二所述方案为文本合成，更加适用于大规模的商业级应用场景，能够根据文字直接合成出真实的唇形、表情、声音，合成视频具有良好的时序稳定性，合成迅速，效果逼真。

5.根据权利要求2步骤一所述的一种基于生成对抗网络的虚拟视频客服机器人合成方法和***，其特征在于：若用户选择步骤一所述方案，需要向平台服务器提供一段预先朗读过相应文字的源视频和视频客服的形象图片。

6.根据权利要求2步骤二所述的一种基于生成对抗网络的虚拟视频客服机器人合成方法和***，其特征在于：若用户选择步骤二所述方案，需要向平台服务器提供代表虚拟客服形象的任意视频和客服即将朗读的文字。

7.根据权利要求2步骤一所述的一种基于生成对抗网络的虚拟视频客服机器人合成方法和***，其特征在于：所述Wav2Lip模型具体为对连续帧的视频和音频进行特征提取，引入合成损失，通过生成对抗网络合成具有良好平滑性的唇动视频，所述First OrderMotion Model模型具体为无需使用任何标签或先验信息进行图片的动画处理，即通过在一组描绘面部特征的视频上进行训练，就可以将模型用于唇形的迁移。

8.根据权利要求2步骤二所述的一种基于生成对抗网络的虚拟视频客服机器人合成方法和***，其特征在于：所述ExprGAN模型具体是具有可控制表情强度的表情编辑算法，可以将面部图像更改为具有多种样式的目标表情，表情强度也可以连续控制，所述双向LSTM模型具体为使用双向LSTM模型来分析文本情感，用于更好地处理程度词和捕捉双向的语义依赖。

9.根据权利要求2步骤一所述的一种基于生成对抗网络的虚拟视频客服机器人合成方法和***，其特征在于：若用户选择步骤一所述方案，则直接通过训练好的First OrderMotion模型生成具有精准唇动、自然的面部表情的视频。

10.根据权利要求2步骤二所述的一种基于生成对抗网络的虚拟视频客服机器人合成方法和***，其特征在于：若用户选择步骤二所述方案，则将文本输入情感分析模块，分析出相应情感，通过调用TTS生成相应语音语调的音频，将视频输入唇形生成器，与TTS生成的音频共同合成带有唇动的视频，将上述视频输入表情生成器，根据分析出的情感，调整面部表情，得到结果。

11.根据权利要求2所述的一种基于生成对抗网络的虚拟视频客服机器人合成方法和***，其特征在于：所述一种基于生成对抗网络的虚拟视频客服机器人合成***，所述装置包括：云服务器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的集成方案和方法步骤。