CN110415261A

CN110415261A - 一种分区域训练的表情动画转换方法及***

Info

Publication number: CN110415261A
Application number: CN201910721265.3A
Authority: CN
Inventors: 迟静; 叶亚男; 于志平
Original assignee: Shandong University of Finance and Economics
Current assignee: Shandong University of Finance and Economics
Priority date: 2019-08-06
Filing date: 2019-08-06
Publication date: 2019-11-05
Anticipated expiration: 2039-08-06
Also published as: CN110415261B

Abstract

本公开提供了一种分区域训练的表情动画转换方法及***。其中，一种分区域训练的表情动画转换方法包括：检测人脸图像的关键特征点位置，并将人脸图像划分成若干个区域；利用具有表情映射关系的CycleGan模型对每个区域进行单独训练，得到表情转换后每个区域的结果图；CycleGan模型的总损失函数等于对抗性损失函数和循环一致损失函数之和，循环一致损失函数等于欧氏距离约束项和协方差约束项分别与相应权重相乘的累加和；将转换后每个区域的结果图合成完整的人脸表情图像，采用像素加权融合算法平滑合成的边界。其无需数据源驱动,可直接在源人脸动画序列上实时地转换生成真实自然的新表情序列,且对于语音视频可保证新面部表情序列与源音频的同步。

Description

一种分区域训练的表情动画转换方法及***

技术领域

本公开属于表情数据处理和计算机动画领域，尤其涉及一种分区域训练的表情动画转换方法及***。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

具有真实感的人脸表情动画合成，在数字娱乐、视频会议、医疗、辅助教育等领域有着广泛的应用。目前表情合成的主要方式有：1)手工编辑人脸模型，生成一帧帧的新表情；2)将源表情传递到目标人脸，在目标人脸上重现该表情；3)融合已有的表情样本，生成新表情。

发明人发现，第一种方式允许对已有的源表情数据进行任意编辑,生成任意的新表情，但耗时耗力，且对操作人员的专业技术要求较高；第二和第三种方式需要借助表情数据源来驱动，合成的新表情数目和质量受限于已有的源表情数据规模，很多情况下合成的表情真实感不高，尤其在处理语音视频时，往往难以实现表情重现与源视频中音频的同步。因此，现有人脸表情合成存在大多依赖数据源驱动、生成效率低及真实感差的问题。

发明内容

为了解决上述问题，本公开的第一个方面提供一种分区域训练的表情动画转换方法，其无需借助数据源驱动,而是直接将人脸动画序列中的源表情转换成任意的新表情，如将中性表情下的演讲过程转变成在惊讶表情下的演讲，且生成的新表情下的动画序列连贯、真实、自然.该方法在处理语音视频时，可很好地实现新面部表情序列与源音频的同步。

为了实现上述目的，本公开采用如下技术方案：

一种分区域训练的表情动画转换方法，包括：

检测人脸图像的关键特征点位置，并将人脸图像划分成若干个区域；

利用具有表情映射关系的CycleGan模型对每个区域进行单独训练，得到表情转换后每个区域的结果图；其中，CycleGan模型的总损失函数等于对抗性损失函数和循环一致损失函数之和，循环一致损失函数等于欧氏距离约束项和协方差约束项分别与相应权重相乘的累加和；

将转换后每个区域的结果图合成完整的人脸表情图像，采用像素加权融合算法平滑合成的边界。

本公开的第二个方面提供一种分区域训练的表情动画转换***。

一种分区域训练的表情动画转换***，包括：

区域分割模块，其用于检测人脸图像的关键特征点位置，并将人脸图像划分成若干个区域；

分区训练模块，其用于利用具有表情映射关系的CycleGan模型对每个区域进行单独训练，得到表情转换后每个区域的结果图；其中，CycleGan模型的总损失函数等于对抗性损失函数和循环一致损失函数之和，循环一致损失函数等于欧氏距离约束项和协方差约束项分别与相应权重相乘的累加和；

图像融合模块，其用于将转换后每个区域的结果图合成完整的人脸表情图像，采用像素加权融合算法平滑合成的边界。

本公开的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述所述的分区域训练的表情动画转换方法中的步骤。

本公开的第四个方面提供一种计算机终端。

一种计算机终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述所述的分区域训练的表情动画转换方法中的步骤。

本公开的有益效果是：

(1)本公开在CycleGan模型的循环一致损失函数中引入新的协方差约束条件，用来约束源图像(或目标图像)和重建后的源图像(或目标图像)之间的误差；新约束条件既可避免在大数据样本下将全部源图像转换成同一目标图像，又可避免在转换过程中出现色彩异常和模糊不清等现象，从而有效提高了表情合成的精度；

(2)为进一步提高人脸表情转换模型的鲁棒性和真实感，本公开引入了分区域训练的思想，根据人脸的几何结构以及脸部不同区域的表情变化特点，将输入的源人脸图像分割成若干个区域，对每个区域利用CycleGan模型单独进行训练，将所得的分块结果图进行加权融合，得到最终完整的、真实自然的目标人脸表情图像。因此本公开可直接将二维的源人脸动画序列实时地转换成真实自然的新表情动画序列，且对于语音视频可保证新面部表情序列与源音频的同步。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是本公开实施例提供的一种分区域训练的表情动画转换方法流程图；

图2是本公开实施例中提供的CycleGan模型中的生成器结构示意图；

图3是本公开实施例中提供的CycleGan模型中的判别器结构示意图；

图4是本公开实施例中提供的CycleGan模型结构及损失函数示意图；

图5是本公开实施例提供的分区域训练的表情动画转换***结构示意图；

图6(a)是本公开实施例提供的源图；

图6(b)是利用传统CycleGan模型得到的表情转换结果；

图6(c)是利用本实施例所提出的CycleGan模型得到的表情转换结果；

图7是本公开实施例提供的萨里视听表达情感(SAVEE)数据库中演员JK的各区域转换结果的加权融合效果图；

图8(a)是本公开实施例提供的萨里视听表达情感(SAVEE)数据库中演员JK的源表情1；

图8(b)是本公开实施例提供的萨里视听表达情感(SAVEE)数据库中演员JK的源表情2；

图8(c)是本公开实施例提供的萨里视听表达情感(SAVEE)数据库中演员JK的源表情3；

图8(d)是本公开实施例提供的萨里视听表达情感(SAVEE)数据库中演员JK的源表情4；

图8(e)是利用传统CycleGan模型对源表情1转换后的表情转换结果1；

图8(f)是利用传统CycleGan模型对源表情2转换后的表情转换结果2；

图8(g)是利用传统CycleGan模型对源表情3转换后的表情转换结果3；

图8(h)是利用传统CycleGan模型对源表情4转换后的表情转换结果4；

图8(i)是基于StarGan模型对源表情1转换后的表情转换结果1；

图8(j)是基于StarGan模型对源表情2转换后的表情转换结果2；

图8(k)是基于StarGan模型对源表情3转换后的表情转换结果3；

图8(l)是基于StarGan模型对源表情4转换后的表情转换结果4；

图8(m)是基于本实施例提出的CycleGan模型对源表情1转换后的表情转换结果1；

图8(n)是基于本实施例提出的CycleGan模型对源表情2转换后的表情转换结果2；

图8(o)是基于本实施例提出的CycleGan模型对源表情3转换后的表情转换结果3；

图8(p)是基于本实施例提出的CycleGan模型对源表情4转换后的表情转换结果4。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1

图1是本公开实施例提供的一种分区域训练的表情动画转换方法流程图。

如图1所示，本实施例的一种分区域训练的表情动画转换方法，包括：

S101：检测人脸图像的关键特征点位置，并将人脸图像划分成若干个区域。

在本实施例中，用人脸识别的一个数据库Dlib对人脸特征点进行检测，该方法计算量小，速度快且准确率高，具有良好的实时性和鲁棒性。该方法使用的是Ensemble ofRegression Tress级联回归的算法，简称ERT算法。

其中，ERT算法是一种基于回归树的人脸对齐算法，这种方法通过建立一个级联的残差回归树(GBDT)来使人脸形状从当前形状一步一步回归到真实形状。每一个GBDT的每一个叶子节点上都存储着一个残差回归量，当输入落到一个节点上时，就将残差加到改输入上，起到回归的目的，最终将所有残差叠加在一起，就完成了人脸对齐的目的。

检测人脸图像的关键特征点位置的具体过程为：

将输入人脸图像的所有特征点的形状记为S，用ERT算法建立对应人脸的ERT模型，将上述模型不断进行迭代得到一个最优的模型.。

具体地，首先初始化人脸特征点形状S，计算出所有特征点对的像素差，用像素差特征进行训练得到随机森林，其中叶子节点保存特征点模型残差，非叶子节点保存相应点和节点的分离阈值，通过对本层所有的树求残差，将其相加得到残差总和，将所得残差总和结果和前一次迭代的结果进行相加，经过多次迭代，输出最后拟合好的人脸检测模型。

利用人脸检测模型识别人脸面部关键特征点，依据特征点对人脸表情进行区域划分，并分区域进行处理，不仅降低了将整个人脸作为处理对象所导致的高复杂度问题，而且减少了背景和其它物体相互之间的干扰，因此提高了训练结果的准确性，减少了样本数据的处理量，节省了处理时间，具有较强的适应性。

通过检测到的关键特征点对源域和目标域的人脸进行区域分割，依据在表情转换过程中人脸各个区域的易变换程度，将人脸划分成左眼,右眼,嘴部和剩余人脸部分共四块区域。本实施例区域分割将图像的训练范围从整张人脸分解到了四个区域，很好地避免了不同区域之间无关特征的相互影响。

由于源域和目标域中的训练样本数据量大，且训练样本中的人脸几何结构各不相同，直接利用检测到的关键特征点位置进行区域划分，会导致不同样本分割后其对应的同一区域(如左眼区域)大小不一致，使得分割结果无法用于后期的训练。因此，本实施例在划分区域时限定分割窗口大小，即在划分区域时将同一区域划分为统一尺寸的图片，然后再进行训练，生成区域目标表情。

具体地，区域分割步骤如下：

输入：训练样本和

输出：左眼区域右眼区域嘴部区域和剩余人脸区域

Step1.导入Dlib人脸识别数据库；

Step2.对每一个样本x_i,i＝1,...,N和每一个样本y_j,j＝1,...,M；

Step2.1检测出68个人脸特征点，利用特征点标定左眼、右眼和嘴部区域；

Step2.2计算每个区域的中心点；

Step2.3计算每个区域的长和宽，并取长和宽两个值中大的一个，暂记为该区域的窗口大小；

Step3.对每一个区域，取Step2中所有样本对应的该区域的窗口值中最大的一个，作为该区域的最终窗口大小；

Step4.对每一个样本x_i,i＝1,...,N和每一个样本y_j,j＝1,...,M,根据Step2.2中所得每个区域的中心点坐标和Step3中所得的每个区域的最终窗口大小，分割出最终的左眼区域xl_i,yl_j,右眼区域xr_i,yr_j,嘴部区域xm_i,ym_j，整张图片的剩余部分记为剩余人脸区域xc_i,yc_j。

S102：利用具有表情映射关系的CycleGan模型对每个区域进行单独训练，得到表情转换后每个区域的结果图；其中，CycleGan模型的总损失函数等于对抗性损失函数和循环一致损失函数之和，循环一致损失函数等于欧氏距离约束项和协方差约束项分别与相应权重相乘的累加和。

在本实施例中，CycleGan模型包括两个生成器和两个判别器,生成器和判别器的网络结构分别如图2和图3所示；模型通过学习源域到目标域的表情映射关系，实现两个表情序列间的转换。如图4所示，CycleGan模型由两项损失函数组成，分别是循环一致损失函数和对抗性损失函数。

其中，循环一致损失函数实现了图像的转换，避免了大数据量下将所有的源表情序列转化成同一目标表情序列；对抗性损失函数判别转换后的图片是否为真实数据库的图片，提高了图像转换精度。

用传统的CycleGan模型进行训练，会导致生成的目标域图像出现模糊不清和色彩不一致等现象，为了解决这个问题，本实施例提出了用协方差约束项来构建新的循环一致损失函数，使得其在表情转换过程中可以生成较高质量的图片。

设源表情序列为X域，目标表情序列为Y域。训练样本为和其中x_i∈X，y_j∈Y，N和M为样本个数。本实施例的CycleGan模型学习两个映射关系G:X→Y和F:Y→X,G的目的是对X域中的任意一个真实样本x进行变换，使变换得到的样本G(x)更接近Y域中的真实样本，同理F的目的是对Y域中的任意一个真实样本y进行变换，使变换后的样本F(y)更接近X域中的真实样本。

对抗性损失函数:本实施例的CycleGan模型包含两个判别器D_X和D_Y，如图4所示，用来判别转换后的样本数据是否是真实的样本数据。

具体地，D_X用来区分从Y域转换生成的样本数据F(y)与X域中的真实样本数据x；D_Y用来区分从X域转换生成的样本数据G(x)和Y域中的真实样本数据y。为了使转换后的样本数据和目标样本数据尽可能地相近，本实施例采用传统CycleGan模型中的对抗性损失函数，表示如下:

其中，D_X和D_Y均为0,1二分类的损失函数。x～X和y～Y表示X域和Y域样本数据的分布；X域的样本数据x通过映射函数G生成Y域的样本G(x)，判别器D_Y来判断G(x)是不是Y域本身的数据，而对于G来说，希望D_Y(G(x))无限接近Y域本身的样本数据。同理，判别器D_X用来判断从Y域映射过来的样本数据F(y)是不是X域本身的数据，而对于F来说，希望D_X(F(y))无限接近X域本身的样本数据。由此构成了一个对抗生成网络。

新循环一致损失函数:只利用对抗性损失函数是无法进行训练的，因为它很容易导致一个域中的所有样本都映射成另一个域中的同一个样本。因此，CycleGan模型引入了循环一致损失,要求两个映射关系G和F是可以反向映射回去的。

具体地，G将X域的样本数据x转换成Y域中的样本数据G(x)，再通过F映射回X域得到样本数据F(G(x))；同理，Y域中的样本数据y经过一个循环变换后变成G(F(y))。要求循环变换后的样本数据与原始的真实样本数据尽可能地接近，如图4所示。传统的循环一致损失函数定义为:

E_cyc(G,F)＝||F(G(x))-x||₁+||G(F(y))-y||₁ (2)

其中，|| ||₁为1范式，即欧式距离.

欧氏距离约束项作为CycleGan模型中常采用的约束项，衡量的是空间中各个像素点颜色间的绝对距离，也就是颜色的差异，可以在一定程度上反映两个图像间的相似性。但该约束项不能反映不同数据集中各个像素点颜色的分布情况的差异，而像素颜色分布的相似性也是衡量两个图像之间相似性的重要指标。显然，像素颜色的分布越相似，两幅图像的相似程度就越高。因此，本实施例提出新的协方差约束项，用于反映两个图像间像素颜色分布的相似程度。

协方差可表示一个数据集中不同元素之间的相关程度，协方差越大表示元素间的相关度越高。由各元素之间的协方差构成的协方差矩阵反映了数据集中的元素分布状态，可以用来描述多维数据集。对于图像，其协方差矩阵反映的是图像中各个像素的分布情况。源(或目标)图像和循环转换回来的源(或目标)图像的协方差矩阵越相似，说明两个图像的像素分布越相似，两个图像自然也越相像。因此通过最小化真实数据和循环转换数据之间的协方差矩阵的差，可使生成的目标图像更加清晰自然，且包含丰富的表情细节信息。

设样本图像为x＝[x_{_1} x_{_2} ... x_{_b}]；

x_{_k}为图像的列像素，记为x_{_k}＝[x_1k x_2k ... x_ak]^T,k＝1,...,b。

这里，x_ij,i＝1,...,a,j＝1,...,b为图像的像素点，a是样本图像的宽度(行数)，b是样本图像的长度(列数)。样本图像所有的像素点可以表示为一个a×b的矩阵，则该样本图像的协方差矩阵∑x可表示为：

其中：

则式(3)可表示成

其中，是该样本图像的像素均值，x_{_k}是该样本图像的第k列像素。

同理计算样本图像x经过循环转换后得到的图像F(G(x))的协方差。

设图像F(G(x))＝[x′_{_1} x′_{_2} ... x′_{_b}]；

x′_{_k}为图像的列像素，记为x′_{_k}＝[x′_1k x′_2k ... x′_ak]^T,k＝1,...,b。a是图像的宽度(行数)，b是图像的长度(列数)。

则循环转换后的图像F(G(x))的协方差矩阵∑(F(G(x)))为：

其中，是循环转换后图像F(G(x))的像素均值，x′_{_k}为循环转换后图像F(G(x))的第k列像素。

要求循环转换后的样本图像F(G(x))的协方差矩阵和真实样本图像x的协方差矩阵尽可能相似，同理，循环转换后的样本图像G(F(y))的协方差矩阵和真实样本图像y的协方差矩阵也要尽可能相似，因此新提出的协方差保持约束项表示如下：

则新的循环一致损失函数由式(2)和式(5)加权组合得到，即：

E_ncyc(G,F)＝λE_cyc(G,F)+μE_cov(G,F) (6)

其中，λ和μ为权值，用于调节各约束项所占的比重。

本实施例提出的新循环一致损失函数由欧氏距离约束项和协方差约束项这两项共同构成。协方差约束项和欧式距离约束项一起，可进一步约束源(目标)图像和转换后源(目标)图像之间的相似程度。新循环一致损失函数不仅提高了转换图像的清晰程度，而且有效提高了模型的真实感。

综上，CycleGan模型新的总损失函数由对抗性损失函数式(1)和新循环一致损失函数式(6)构成，表示为：

E(G,F,D_X,D_Y)＝E_GAN(G,D_Y)+E_GAN(F,D_X)+E_ncyc(G,F) (7)

新的总损失函数中引入了新的基于协方差约束的循环一致损失函数,可有效提高源域到目标域的人脸表情转换质量。

具体地，利用本实施例提出的基于协方差约束的CycleGan模型,分别对分割后的各个人脸区域图像集进行训练，实现源表情序列到目标表情序列的转换。分区域转换可有效避免直接使用完整人脸图像进行表情转换时所产生的人脸扭曲、五官错位和图像模糊等问题，提高了表情转换的稳定性。该转换模型包含两个生成器和两个判别器。判别器是一个卷积神经网络，从输入的图像中提取特征，通过添加产生一维输出的卷积层，判断图像提取的特征是否属于给定的类别。

生成器的网络结构如图2所示，是由两个步幅为2的卷积，两个步幅为1/2的卷积和几个残差块组成。其中步幅为2的卷积进行下采样，步幅为1/2的卷积进行上采样，减少了参数的数量，从而提高了***的性能。生成器包含1个输入层，3个隐含层和1个输出层。隐含层使用ReLU(Rectified Linear Unit,线性整流函数)作为激活函数。除了输出层以外，所有非残差卷积层后面都用批次归一化和ReLU非线性进行处理,输出层使用缩放的tanh(双曲正切函数)来进行约束，确保输出的像素在[0,255]这个有效范围之内。输入层和输出层都用46个单位来表示表情向量，每一个隐藏层都有100个单位。

判别器使用的是70*70的全卷积网络PatchGans，减少了网络参数数量，如图3所示。输出层仅有一个单元能产生一个概率，这个概率表示输入的样本是否为真实样本。***采用Adam优化器进行优化，将batchsize(步长)设置为1。

本实施例将网络学习的单次迭代次数epochs设置为200，前100个epochs将学习率设置为0.0002，后面100个epochs对学习率进行线性衰减一直到0，学习结束。利用传统的CycleGan模型与本实施例的CycleGan模型得到的表情转换结果比较如图6(a)-图6(c)所示，通过表情转换结果比较可知：利用本实施例的CycleGan模型进行表情转换，提高了生成目标图像的质量；同时，为了避免出现目标图像的眼睛、嘴等局部位置丢失细节信息的情况，提高人脸表情转换的鲁棒性和适应性，在引入分区域训练思想的基础上，提出新的表情转换框架和方法，以增强人脸局部位置的细节信息，进一步提高生成目标表情的质量。本实施例利用基于协方差约束的CycleGan模型对每个区域单独训练，有效提高了转换效果和转换后的图像质量，并有效减少了训练时间。

S103：将转换后每个区域的结果图合成完整的人脸表情图像，采用像素加权融合算法平滑合成的边界。

在具体实施中，将训练好的分区域结果图进行融合，形成完整的目标人脸表情图像。为避免在融合过程中出现区域边界过渡不自然的现象，本实施例采用加权融合的思想，将区域边界一定范围内的像素点进行加权融合，使区域之间的过渡自然。区域融合一方面提高了图像的质量和清晰度，另一方面提高了图像的信噪比。

具体实现过程如下：

设两幅区域图像分别为M(m,n)和N(m,n)，则对于两幅图像交界范围内的每一个像素点(m_i,n_j)，其像素值F(m_i,n_j)由下式融合得到：

1)若交界区域为纵向的，即图像M(m,n)和N(m,n)左右相邻，则

2)若交界区域为横向的，即图像M(m,n)和N(m,n)上下相邻，则：

其中，k为步长，表示以点(m_i,n_j)为中心，左右(或上下)各取k个像素进行融合，这个过程相当于对交界处的像素进行了模糊处理。ω₁,ω₂,…,ω_k为融合系数，其值根据相应像素点与点(m_i,n_j)的距离来确定。

利用上式对左眼、右眼、嘴和剩余人脸四个区域的交界处进行模糊处理，并反复进行多次模糊，直到得到自然的融合图像。该融合方法简单直观，速度快，可以应用在实时性要求比较高的场合。

如图7所示，通过图像融合，提高了图像信息的利用率，形成了对目标人脸图像的清晰、完整、准确的信息描述，同时消除了图像冗杂信息，提高了生成面部人脸图像的质量。

在实验环境为Tensorflow框架，python3.4软件，Intel(R)Core(TM)[email protected]处理器和NVIDIA Geforce GTX 1060GPU下：

实验数据来自萨里视听表达情感(SAVEE)数据库，该数据库是四名中年男性演员的视频剪辑，分别为DC、JK、JE和KL，该数据库包括7种情绪类别(愤怒、厌恶、恐惧、快乐、中性、悲伤、惊喜)。每个人用英语说了120句话。其中每段视频均以每秒60帧的速度录制，共产生大约10万张照片，本实施例训练了一个从中性到惊讶的表情映射关系，因为中性情绪有30个句子，惊讶情绪有15个句子，数据量庞大，所以对其进行等间隔采样，选取一部分作为训练集，训练模型的输入图片数量为820张。一个模型需要训练8个小时，测试一张图片需要97.48ms，其中，以JK为例进行实验验证，如图8(a)-图8(p)所示。

通过实验验证，本实施例的CycleGan表情映射模型，通过在原有的循环一致损失函数中引入协方差约束项，有效避免了传统CycleGan表情转换过程中出现的大量局部细节丢失、图像扭曲和模糊不清的问题，可生成高精度的目标人脸表情图像。本实施例提出了基于分区域训练的、以改进的CycleGan模型为核心的表情转换方法，不仅提高了表情动画合成的真实感，尤其对语音视频可实现表情重现与源视频中音频的同步，而且具有较好的稳定性和鲁棒性。

实施例2

图5是本公开实施例提供的一种分区域训练的表情动画转换***结构示意图。

如图5所示，本实施例的一种分区域训练的表情动画转换***，包括：

(1)区域分割模块，其用于检测人脸图像的关键特征点位置，并将人脸图像划分成若干个区域；

具体地，在所述区域分割模块中，检测人脸图像的关键特征点位置的过程为：

(1.1)将输入人脸图像的所有特征点的形状记为S，用ERT算法建立对应人脸的ERT模型，将上述模型不断进行迭代得到一个最优的人脸检测模型；

其中，获取最优的人脸检测模型的过程为：

(1.1.1)初始化人脸特征点形状S，计算出所有特征点对的像素差；

(1.1.2)用像素差特征进行训练得到随机森林，其中叶子节点保存特征点模型残差，非叶子节点保存相应点和节点的分离阈值，通过对本层所有的树求残差，将其相加得到残差总和，将所得残差总和结果和前一次迭代的结果进行相加；

(1.1.3)经过多次迭代，输出最后拟合好的人脸检测模型，得到最优的人脸检测模型。

(1.2)利用最优的人脸检测模型识别人脸面部关键特征点。

(2)分区训练模块，其用于利用具有表情映射关系的CycleGan模型对每个区域进行单独训练，得到表情转换后每个区域的结果图；其中，CycleGan模型的总损失函数等于对抗性损失函数和循环一致损失函数之和，循环一致损失函数等于欧氏距离约束项和协方差约束项分别与相应权重相乘的累加和；

(3)图像融合模块，其用于将转换后每个区域的结果图合成完整的人脸表情图像，采用像素加权融合算法平滑合成的边界。

本实施例在CycleGan模型的循环一致损失函数中引入新的协方差约束条件，用来约束源图像(或目标图像)和重建后的源图像(或目标图像)之间的误差；新约束条件既可避免在大数据样本下将全部源图像转换成同一目标图像，又可避免在转换过程中出现色彩异常和模糊不清等现象，从而有效提高了表情合成的精度；

为进一步提高人脸表情转换模型的鲁棒性和真实感，本实施例引入了分区域训练的思想，根据人脸的几何结构以及脸部不同区域的表情变化特点，将输入的源人脸图像分割成若干个区域，对每个区域利用CycleGan模型单独进行训练，将所得的分块结果图进行加权融合，得到最终完整的、真实自然的目标人脸表情图像。因此本实施例可直接将二维的源人脸动画序列实时地转换成真实自然的新表情动画序列，且对于语音视频可保证新面部表情序列与源音频的同步。

实施例3

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现的步骤如下：

实施例4

本实施例提供一种计算机终端，其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现的步骤如下：

本领域内的技术人员应明白，本公开的实施例可提供为方法、***、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种分区域训练的表情动画转换方法，其特征在于，包括：

2.如权利要求1所述的分区域训练的表情动画转换方法，其特征在于，循环一致损失函数E_ncyc(G,F)为：

E_ncyc(G,F)＝λE_cyc(G,F)+μE_cov(G,F)

E_cyc(G,F)＝||F(G(x))-x||₁+||G(F(y))-y||₁

E_cov(G,F)＝||∑(F(G(x)))-∑x||₁+||∑(G(F(x)))-∑y||₁

其中，x和y分别表示源域X域和目标域Y域中的样本数据；CycleGan模型通过学习源域到目标域的表情映射关系，实现两个表情序列间的转换，映射G将X域的样本数据x转换成Y域中的样本数据G(x)，再通过F映射回X域得到样本数据F(G(x))；Y域中的样本数据y经过一个循环变换后变成G(F(y))；E_cyc(G,F)和E_cov(G,F)分别为欧氏距离约束项和协方差约束项；|| ||₁为1范式，即欧式距离；∑x为样本图像x的协方差矩阵；∑(F(G(x)))为循环转换后样本数据F(G(x))的协方差矩阵；∑y为样本图像y的协方差矩阵；∑(G(F(y)))为循环转换后样本数据G(F(y))的协方差矩阵；λ和μ为权重。

3.如权利要求2所述的分区域训练的表情动画转换方法，其特征在于，样本图像x的协方差矩阵∑x为：

其中，x_k为样本图像x的第k列像素；b是样本图像x的长度，也就是列数；是样本图像x的像素均值。

4.如权利要求2所述的分区域训练的表情动画转换方法，其特征在于，循环转换后样本数据F(G(x))的协方差矩阵∑(F(G(x)))为：

其中，x′_{_k}为循环转换后样本数据F(G(x))的第k列像素；d是循环转换后样本数据F(G(x))的长度，也就是列数；是循环转换后样本数据F(G(x))的像素均值。

5.如权利要求1所述的分区域训练的表情动画转换方法，其特征在于，检测人脸图像的关键特征点位置的过程为：

将输入人脸图像的所有特征点的形状记为S，用ERT算法建立对应人脸的ERT模型，将上述模型不断进行迭代得到一个最优的人脸检测模型；

利用最优的人脸检测模型识别人脸面部关键特征点。

6.如权利要求1所述的分区域训练的表情动画转换方法，其特征在于，利用面部关键特征点对人脸图片进行区域划分，且在划分区域时限定分割窗口大小，即在划分区域时将同一区域划分为统一尺寸的图片；对分区域训练后的结果图进行融合时，对区域的交界处进行模糊处理，并反复进行多次模糊，生成区域目标表情。

7.一种分区域训练的表情动画转换***，其特征在于，包括：

8.如权利要求7所述的分区域训练的表情动画转换***，其特征在于，在所述分区训练模块中，循环一致损失函数E_ncyc(G,F)为：

E_ncyc(G,F)＝λE_cyc(G,F)+μE_cov(G,F)

E_cyc(G,F)＝||F(G(x))-x||₁+||G(F(y))-y||₁

E_cov(G,F)＝||Σ(F(G(x)))-∑x||₁+||Σ(G(F(x)))-∑y||₁

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的分区域训练的表情动画转换方法中的步骤。

10.一种计算机终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中任一项所述的分区域训练的表情动画转换方法中的步骤。