CN110660037B

CN110660037B - 图像间脸部交换的方法、装置、***和计算机程序产品

Info

Publication number: CN110660037B
Application number: CN201810697069.2A
Authority: CN
Inventors: 陈冠男
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2023-02-10
Anticipated expiration: 2038-06-29
Also published as: WO2020000814A1; EP3815049A4; EP3815049A1; CN110660037A; US20200286273A1; US10839581B2

Abstract

公开了在图像之间实现脸部交换的方法和装置的实施例。该方法包括：提取第一图像中的脸部内容图像和第二图像中的脸部风格图像；经由深度卷积神经网络从所述脸部内容图像得到原始内容特征和从所述脸部风格图像得到原始风格特征，其中与所述原始风格特征相比，所述原始内容特征从所述深度卷积神经网络的较高卷积层得到；基于预定义的损失函数，根据所述原始内容特征和原始风格特征，从初始的脸部风格迁移图像开始来迭代地优化，且在执行所述迭代优化预定次数后，输出经优化的脸部风格迁移图像；以及通过用脸部风格迁移图像与第二图像进行融合，以生成包含经风格迁移的脸部的第三图像。通过对脸部区域进行风格迁移，使得所生成的经脸部交换的图像给用户以更为自然、和谐的感受，因而改善了用户体验。

Description

图像间脸部交换的方法、装置、***和计算机程序产品

技术领域

本公开总地涉及图像处理，更具体而言，涉及一种用于实现图像之间的脸部交换的方法、装置、***和计算机程序产品。

背景技术

脸部特征识别技术在本世纪初得到了全世界的广泛关注。在安全和娱乐领域，该技术获得了巨大的发展空间。越来越多的公司和研究机构（如谷歌、科大讯飞、腾讯等）投入大量资源对该技术进行深入研究，且开发的产品也多种多样。脸部交换是脸部特征识别技术的一种应用，国内外关于脸部交换的应用产品目前已经可以实现真实照片之间的脸部交换。

由于这些脸部交换的应用产品大多聚焦于图像中脸部位置的脸部特征交换，所以当涉及交换的两幅图像之间存在风格差异时，实现脸部交换后所生成的图像给人以拼接过渡生硬、拼接痕迹明显、画风违和的感觉。这使得用户的使用体验较差。

发明内容

本公开提供用于在图像之间实现脸部交换的方法和装置、***、计算机程序产品。

根据本公开的一方面，提供了一种用于在图像之间实现脸部交换的方法，包括以下步骤：提取第一图像中的脸部内容图像和第二图像中的脸部风格图像；经由深度卷积神经网络从所述脸部内容图像得到原始内容特征和从所述脸部风格图像得到原始风格特征，其中与所述原始风格特征相比，所述原始内容特征从所述深度卷积神经网络的较高卷积层得到；基于预定义的损失函数，根据所述原始内容特征和原始风格特征，从初始的脸部风格迁移图像开始来迭代地优化，且在执行所述迭代优化预定次数后，输出经优化的脸部风格迁移图像；以及通过用脸部风格迁移图像与第二图像进行融合，以生成包含经风格迁移的脸部的第三图像。

可选地，深度卷积神经网络的卷积层的数量为8个。

可选地，该方法包括从深度卷积神经网络的第7卷积层得到所述内容特征，而从其第1、3、5卷积层得到所述风格特征。

可选地，预定义的损失函数包括用于计算内容损失的内容损失函数和用于计算风格损失的风格损失函数，且所述内容损失和风格损失被分别用于优化所述脸部风格迁移图像。

可选地，该方法包括计算所述内容损失和风格损失的加权和作为总的损失，当所述总的损失达到某一阈值时，输出经优化的脸部风格迁移图像。

可选地，将VGG19模型的预训练参数作为所述深度卷积神经网络的初始预训练参数。

可选地，所述预定次数是100次。

可选地，所述迭代地优化包括：使用深度卷积神经网络得到脸部风格迁移图像的内容特征和风格特征；基于所述预定义的损失函数计算脸部风格迁移图像的内容特征和风格特征相对于原始内容特征和原始风格特征的内容损失和风格损失；根据计算的内容损失和风格损失的加权和来优化脸部风格迁移图像以得到经修改的脸部风格迁移图像；以及将经修改的脸部风格迁移图像作为迭代变量用于下一次迭代中。

可选地，该方法还包括：以肖像画作为参考对所得到的脸部风格迁移图像进行旋转、缩放和平移，以实现脸部对齐。

可选地，其中用脸部风格迁移图像与第二图像进行融合之前还包括：以第二图像作为参考对所得到的脸部风格迁移图像进行旋转、缩放和平移，以实现脸部对齐。

可选地，该方法还包括：所述脸部融合包括：根据从脸部风格迁移图像获得的脸部特征点向量计算第一二维凸包边界，根据从第二图像获得的脸部特征点向量计算第二二维凸包边界；获得第一二维凸包边界内的区域作为第一脸部掩膜，获得第二二维凸包边界内的区域作为第二脸部掩膜，将第一和第二脸部掩膜取并集，得到融合后的脸部掩膜；在分别对脸部风格迁移图像和第二图像进行高斯模糊后通过计算两个图像的亮度值比而获得每个像素点的亮度比例系数，该亮度比例系数比例被用于对脸部风格迁移图像进行亮度值校正；和以融合后的脸部掩膜做参考，将脸部风格迁移图像中经亮度值校正的脸部区域融合至第二图像的对应区域

根据本公开的第二方面，提供了一种用于在图像之间实现脸部交换的装置。该装置包括：脸部提取模块、风格迁移模块和图像生成模块。脸部提取模块被配置为提取第一图像中的脸部内容图像和第二图像中的脸部风格图像。风格迁移模块包括：深度卷积神经网络和迭代优化模块。深度卷积神经网络用于从所述脸部内容图像得到原始内容特征和从所述脸部风格图像得到原始风格特征，其中与所述原始风格特征相比，所述原始内容特征从所述深度卷积神经网络的较高卷积层得到。迭代优化模块，用于基于预定义的损失函数，根据所述原始内容特征和原始风格特征，从初始的脸部风格迁移图像开始来迭代地进行优化，且在执行所述迭代优化预定次数后，输出经优化的脸部风格迁移图像。图像生成模块，用于通过用脸部风格迁移图像与第二图像进行融合，以生成包含经风格迁移的脸部的第三图像。

可选地，深度卷积神经网络的卷积层的数量为8个。

可选地，所述深度卷积神经网络被配置为从其第7卷积层输出原始内容特征，而从其第1、3、5卷积层输出原始风格特征。

可选地，所述预定义的损失函数包括用于计算内容损失的内容损失函数和用于计算风格损失的风格损失函数，且所述迭代优化模块被配置为分别使用所述内容损失和风格损失来优化所述脸部风格迁移图像。

可选地，所述迭代优化模块还包括损失计算模块和用于优化脸部风格迁移图像的优化器。损失计算模块被配置为计算所述内容损失和风格损失的加权和作为总的损失。优化器被配置为当所述总的损失达到某一阈值时，输出经优化的脸部风格迁移图像。

可选地，深度卷积神经网络被配置为得到脸部风格迁移图像的内容特征和风格特征。损失计算模块被配置为基于所述预定义的损失函数计算脸部风格迁移图像的内容特征和风格特征相对于原始内容特征和原始风格特征的内容损失和风格损失。优化器被配置为按照所计算的内容损失和风格损失来优化脸部风格迁移图像以得到经修改的脸部风格迁移图像。经修改的脸部风格迁移图像作为迭代变量被输入到所述深度卷积神经网络用于下一次迭代。

根据本公开的第三方面，提供了一种用于在图像之间实现脸部交换的***，包括一个或多个处理器；和耦合到所述一个或多个处理器的存储器，该存储器包括指令，所述指令在被所述一个或多个处理器执行时使得该***执行根据本公开第一方面所述方法。

根据本公开的第四方面，提供了一种计算机程序产品，所述计算机程序产品包括存储有指令的计算机可读存储介质，所述指令在被执行时使得计算设备的至少一个中央处理器单元执行根据本公开第一方面所述方法。

附图说明

通过阅读以下的详细说明和仔细查看相关联的附图，这些和其它的特征与优点将是明显的。应当明白，上述的一般性说明和以下的详细说明均仅仅是说明性的，而不是对所要求保护的方面的限制。

图1图示了根据本公开实施例的方法。

图2图示了根据本公开实施例的装置的框图。

图3图示了脸部特征点的一个示例性实现。

图4图示了深度卷积神经网络的示意图。

图5图示了根据本公开实施例的风格迁移模块的示例性实现。

图6图示了根据本公开实施例的深度卷积神经网络的示例性实现。

图7图示了根据本公开实施例的照片与肖像画脸部交换的效果图。

图8图示了根据本公开实施例的计算设备的框图。

具体实施方式

各种实施例针对在图像之间，特别是在照片和肖像画之间实现脸部交换的技术。在本文中，照片可以是包含用户头像，例如包含脸部的真实照片。照片可以包含单调的背景，比如单色背景，也可以包含复杂的背景，比如风景等。肖像画可以是艺术肖像画，其可以带有各种时代（例如文艺复兴时期）的风格或者各种艺术流派的风格。肖像画可以是头像、半身像或者全身像。举例而言，肖像画可以是带有强烈的个人风格的名画家的作品，例如梵高的作品、达芬奇的作品等。鉴于照片和肖像画之间可能存在巨大的风格差异，所以需要一种在将照片中的脸部交换到肖像画中的同时实现被交换脸部与肖像画中的风格融合的技术。

图1图示了根据本公开实施例的用于在照片和肖像画之间实现脸部交换的方法100的流程图。该方法可以结合任何合适的硬件、软件、固件或其组合来执行。尽管在这一实施例中，图像被例示为照片和肖像画，但是可以理解，本公开的实施例不限于此，而是可以适用于任何类型的包含人的脸部的图像。

在步骤102中，提取第一图像（可以是照片）中的脸部内容图像和第二图像（可以是肖像画）中的脸部风格图像。可选地，可以在步骤102之前先接收包含人的脸部的照片和肖像画。第一图像可以是来自摄像机的实时拍摄的照片或者是从本地相册中选择的照片。举例而言，可以提示用户拍摄包含自己头像的照片。第二图像可以是从一幅或多幅本地存储的肖像画中选择的肖像画，或者也可以是通过摄像机等采集的肖像画。本发明以下实施例中都以第一图像为照片、第二图像为肖像画为例进行说明。在一些实施例中，肖像画也可以是基于用户输入的关键字，比如画家名“梵高”，而从网络上搜索且下载的肖像画。在一些场景中，当肖像画先于照片而确定时，还可以提示用户按照肖像画脸部的角度来拍摄自己的照片。这样，由于两个图像（照片和肖像画）中脸部的角度一致，可以获得更好的脸部交换效果。

在步骤102中，可以对照片和肖像画进行分析，以通过例如确定脸部特征来找到脸部所在的区域。在一些实施例中，可以基于描绘脸部轮廓的特征点来划定脸部边界框，并提取边界框中的图像作为脸部图像。在一个实施例中，边界框被限定为脸部轮廓的最大外接矩形。

在步骤104中，经由深度卷积神经网络从脸部内容图像得到原始内容特征和从脸部风格图像得到原始风格特征。原始内容特征从所述深度卷积神经网络的较高卷积层得出，而原始风格特征从所述深度卷积神经网络的较低卷积层得出。原始内容特征和原始风格特征可以经由深度卷积神经网络顺序地或者并行地得出。在一些实施例中，所得到的原始内容特征和原始风格特征可以被存储到存储器中，以便在后续的迭代中使用。

在步骤106中，基于预定义的损失函数，根据所得到的原始内容特征和原始风格特征，从初始的脸部风格迁移图像开始来迭代地对其进行优化脸部目标图像，且在执行所述迭代优化预定次数后，输出经优化的脸部风格迁移图像。

在一个实施例中，脸部风格迁移图像可以初始地被设置为白噪声图像，也即初始的脸部风格迁移图像。在此实施例中，可以将白噪声图像输入到深度卷积神经网络中，以得到其内容特征和风格特征。预定义的损失函数被用来计算白噪声图像的内容特征和风格特征相对于原始内容特征和原始风格特征的内容损失和风格损失。可选地，还可以计算包含内容损失和风格损失的总损失。所计算的内容损失和风格损失被用于优化白噪声图像（例如修改白噪声图像）以生成经修改的脸部风格迁移图像。经修改的脸部风格迁移图像被输入到深度卷积神经网络中，以重复进行损失计算和脸部风格迁移图像优化的过程。也即，经修改的脸部风格迁移图像被作为迭代变量输入到下一次迭代中。脸部风格迁移图像的优化被重复地进行，直到达到预定次数才终止。此时所生成的经修改的，也即经优化的脸部风格迁移图像被输出。

在一些实施例中，预定次数可以在90-110次的范围内。可选地，预定次数可以为100次。由于迭代次数被限制在较小的范围内，所以使得整个优化过程所需的时间大大减小。

在步骤108中，通过用脸部风格迁移图像与肖像画进行融合，以生成包含经风格迁移的脸部的第三图像（例如为肖像画图像）。在本发明的所有实施例中都以第三图像为肖像画图像为例进行说明。在一些实施例中，在实施所述融合之前，可以对脸部风格迁移图像中的脸部和肖像画中的脸部进行对齐。所述对齐可以通过包括（但不限于）例如旋转、缩放和平移等的变换来实现。替换地，脸部对齐也可以在步骤102提取照片脸部图像后，对照肖像画脸部图像来实施。由于在进行风格迁移之前，照片和肖像画中的脸部特征的空间位置保持一致，所以可以更准确地将肖像画的脸部风格迁移到照片中。这将提供更自然的换脸效果，从而提供更好的主观体验。

用脸部风格迁移图像与肖像画进行融合具体包括：

- 根据从脸部风格迁移图像获得的脸部特征点向量计算第一二维凸包边界，根据从第二图像获得的脸部特征点向量计算第二二维凸包边界；

- 获得第一二维凸包边界内的区域作为第一脸部掩膜，获得第二二维凸包边界内的区域作为第二脸部掩膜，将第一和第二脸部掩膜取并集，得到融合后的脸部掩膜；

- 在分别对脸部风格迁移图像和第二图像进行高斯模糊后通过计算两个图像的亮度值比而获得每个像素点的亮度比例系数，该亮度比例系数比例被用于对脸部风格迁移图像进行亮度值校正；和

- 以融合后的脸部掩膜做参考，将脸部风格迁移图像中经亮度值校正的脸部区域融合至第二图像的对应区域。

图2图示了根据本公开实施例的在照片和肖像画之间实现脸部交换的装置200的框图。在一些实施例中，装置200可以是计算机有关的实体，且可以被实施为计算设备或者计算设备的一部分。计算设备的例子可包括（但不限于）移动设备、个人数字助理、移动计算设备、智能电话、计算机、个人计算机（PC）、台式计算机、膝上型计算机、笔记本电脑等。

在一个实施例中，如图1所示，装置200可包括：脸部提取模块210、风格迁移模块220和图像生成模块230。

脸部提取模块210被配置为从包含人的脸部的照片和肖像画中分别提取脸部图像。示例性地，用户可能希望将照片中的人脸交换到肖像画中，例如替换肖像画中的人脸。在一些实施例中，照片是可以从摄像机接收的其实时拍摄的用户的头像，或者也可以是从存储装置中读取预先存储的包含用户头像的照片。在一些示例中，照片还可以是从网络下载的照片。

在一些实施例中，肖像画是可以从存储装置中预先存储的肖像画中所选择的肖像画，也可以接收从网络下载的肖像画。在一些示例中，肖像画还可以是经由输入装置（例如摄像机或者扫描仪等）输入的肖像画。

在一些实施例中，脸部提取模块210可以基于照片中的脸部特征来提取照片脸部图像。示范性地，脸部提取模块210可以分析照片以提取其中的脸部特征。可选地，可以利用脸部特征识别库dlib来提取照片中的脸部特征。如所知的，脸部特征识别库采用机器学习的方法，通过标注了脸部特征点（诸如眉、眼、鼻、唇、颌）的图像，对神经网络架构进行训练，并将经训练的模型进行集成封装，形成识别库。

图3图示了可以使用脸部特征识别库dlib来提取的68个脸部特征点。如图所示，脸部特征点0-26描绘了脸部的轮廓，27-35描绘了鼻子的形状，36-41和42-47描绘了眼睛的形状，而48-68则描绘了嘴唇的形状。

在一些实施例中，脸部提取模块210可以使用脸部特征识别库dlib通过脸部特征点来提取脸部的主要特征。示例性地，脸部提取模块210可以根据对照片所提取的描绘脸部轮廓的脸部特征点，例如脸部特征点0-26来界定照片中的脸部区域，并相应地生成脸部边界框（boundary box）。边界框内的图像被提取作为照片脸部图像。以同样的方式，脸部提取模块210可以从肖像画中提取肖像画脸部图像。

风格迁移模块220被配置为对所提取的脸部图像进行风格迁移。风格迁移模块220包括深度卷积神经网络221和迭代优化模块222。深度卷积神经网络221用于从输入的脸部图像得到内容特征和风格特征。在一个示例的场景下，深度卷积神经网络221可以将照片脸部图像作为脸部内容图像而从其得到原始内容特征，以表征该照片脸部图像的内容，并且将肖像画脸部图像作为脸部风格图像而从其得到原始风格特征，以表征该肖像画脸部图像的风格。内容特征和风格特征可以从深度卷积神经网络221的不同层得出。在一些实施例中，与风格特征相比，内容特征可以从深度卷积神经网络的更高层得出。

迭代优化模块222被配置为使用所得到的内容特征和风格特征，基于预定义的损失函数来迭代地优化脸部风格迁移图像，即实现了风格迁移的脸部图像。预定义的损失函数可以包括基于所得到的内容特征计算内容损失的内容损失函数和基于所得到的风格特征计算风格损失的风格损失函数。迭代优化模块222可以分别使用所述内容损失和风格损失来优化脸部风格迁移图像。迭代优化模块222被配置为在执行迭代优化预定次数之后，输出经优化的脸部风格迁移图像作为具有脸部风格迁移图像。

图像生成模块230被配置为用脸部风格迁移图像与肖像画进行融合，以生成包含经风格迁移的脸部的肖像画图像。

在一些实施例中，图像生成模块230可以通过先将脸部风格迁移图像与肖像画中的脸部对齐，再将经对齐的脸部图像融合到肖像画中而实施所述替换。

示例性地，在获得照片脸部的特征点和肖像画脸部的特征点后，图像生成模块230可以以肖像画脸部为参考，分析照片脸部需做何种程度的变换以实现脸部对齐。变换可以是（但不限于）例如旋转、缩放和平移。脸部对齐可以是使得照片脸部特征在几何空间上与肖像画脸部特征保持位置一致。

以68个脸部特征点为例，所需变换可以通过使下式最小化来确定：

（1）

其中，s为代表几何缩放程度的标量；R为代表几何旋转程度的2x2矩阵；T为代表几何偏移程度的二维向量；p_i为照片脸部特征点向量，q_i为肖像画脸部特征点向量。

式（1）可以通过普氏（Procrustes）分析法来求解，以获得仿射变换矩阵。普氏分析法对式（1）的求解步骤为：

- 分别对照片脸部特征点向量p和肖像画脸部特征点向量q求均值得c1和c2，求标准差得s1和s2。

- 将向量p和q分别减去对应均值c1和c2，然后分别再除以标准差s1和s2。

- 奇异值分解获得R矩阵过程：

（2）

（3）

- 获得仿射矩阵：

（4）

其中，

。

通过将照片脸部图像按仿射矩阵M做仿射变换，可以实现照片脸部图像与肖像画脸部图像的几何空间对齐。

在一些实施例中，图像生成模块230可以通过以下的示例性实现来进行脸部图像的融合。

A.根据从脸部风格迁移图像和肖像画获得的脸部特征点向量，计算其二维凸包边界，即在二维平面上连接位于特征点分布最外侧的点，形成凸多边形。使所有特征点均包含在凸多边形内。该二维凸包边界内的区域，即该凸多边形所形成的区域可作为脸部掩膜使用。

B.根据脸部风格迁移图像和肖像画中所计算的二维凸包边界分布获得脸部对齐后的照片脸部掩膜和肖像画脸部掩膜。将两个脸部掩膜取并集，得到融合后的掩膜。

C.分别对脸部风格迁移图像和肖像画进行高斯模糊，然后做两个图像的亮度值比，获得每个像素点的亮度比例系数。用该亮度比例系数比例对照片脸部图像进行亮度校正，使其与肖像画的明暗度相近似。可选地，当脸部风格迁移图像或肖像画图像为彩色图像时，可以对各颜色通道颜色做两个图像的亮度值比，获得每个像素点的亮度比例系数。用该亮度比例系数比例对脸部风格迁移图像进行颜色校正，使其与肖像画的色调相近似。

D.以融合掩膜做参考，将经校正的脸部风格迁移图像中的脸部区域融合至第二图像的对应区域。可选地，当脸部风格迁移图像或肖像画为彩色图像时将颜色校正后的照片脸部区域融合至肖像画对应区域。附加地，还可以通过高斯模糊来平滑局部细节，完成融合过程。

按照本公开实施例的装置，通过对脸部区域进行风格迁移，使得被交换到图像中的脸部区域与图像的其他区域仍然能够保持一致的画面风格，给用户的感觉更为自然、和谐。而且，由于仅对脸部图像进行风格迁移，大幅减少了深度卷积神经网络的运算量。这极大地减少了换脸过程所需的时间，因而进一步改善了用户体验。

图4图示了根据本公开实施例的深度卷积神经网络的示意图。深度卷积神经网络可以由多层小型计算单元组成，且是将图像作为***的输入、输出并用卷积核替代标量的权值的一种结构。如图4所示，计算单元可以是卷积层中的卷积核单元

（例如

、

、

……

；

、

……

）；和偏置单元

（例如

、

、

；

、

），其中k表示输入层编号，i和j表示输入和输出的单位编号。偏置

是一组叠加在卷积层输出上的标量。叠加了偏置的卷积层输出接下来会进入到激活层（通常为RELU或者sigmoid函数）。正如相关技术中已知的，激活层函数一般为非线性函数，其作用是对卷积层参数进行部分抑制，使神经网络具有稀疏性，一定程度上缓解网络过拟合的情况发生。

多层小型计算单元可以以前馈方式分层处理图像。当深度卷积神经网络被用于处理输入的图像时，每一层小型计算单元可以被理解为图像滤波器的集合。每个图像滤波器从输入图像中提取某个特征。深度卷积神经网络的特点在于，沿着深度卷积神经网络的处理层级，输入图像可以被转换为与其详细的像素值相比更多地关注图像的实际内容的表示。因此，深度卷积神经网络较高层级中的特征响应可以被用作输入图像的“内容表示”，也即内容特征。相应地，为获得输入图像的“风格表示”，可以使用深度卷积神经网络中用于捕捉纹理信息的较低层级中的特征响应。在一些实施例中，通过包含多个较低层级的特征相关性，可以获得输入图像的纹理信息来作为风格特征。

按照本公开实施例，深度卷积神经网络可以将照片脸部图像作为内容图像输入来进行处理，并从其较高层级获得表征照片脸部的实际内容的内容特征。深度卷积神经网络还可以将肖像画脸部图像作为风格图像输入来进行处理，并从其一个或多个较低层级获得表征肖像画脸部区域的风格的风格特征。

图5图示了根据本公开实施例的风格迁移模块500的示例性实现。如图4所示，风格迁移模块500包括深度卷积神经网络510 和迭代优化模块520。照片脸部图像和肖像脸部图像被作为输入图像输入到深度卷积神经网络510。深度卷积神经网络510对照片脸部图像和肖像画脸部图像进行处理，例如滤波处理，以从相应的层输出照片脸部图像的第一内容特征和肖像画脸部图像的第一风格特征。可选地，深度卷积神经网络510包含8个卷积层。深度卷积神经网络510被配置为从第7卷积层网络输出照片脸部图像的第一内容特征（也即原始内容特征），且从第1、3、5卷积层输出肖像画脸部图像的第一风格特征（也即原始风格特征）。可选地，第一内容特征和第一风格特征可以采用特征图像的形式。

迭代优化模块520被配置为通过迭代优化脸部风格迁移图像来获得脸部风格迁移图像。在一些实施例中，迭代优化模块520包括损失计算模块521和优化器522。损失计算模块521可以基于预定义的内容损失函数来计算原始内容脸部图像和脸部风格迁移图像之间的内容损失，以及基于预定义的风格损失函数来计算原始风格脸部图像和脸部风格迁移图像之间的风格损失。脸部风格迁移图像可以初始地被设置为白噪声图像。替换地，脸部风格迁移图像也可以初始地被设置为原始内容脸部图像或者原始风格脸部图像。

在一些实施例中，脸部风格迁移图像被输入到深度卷积神经网络510，且深度卷积神经网络510被配置为从相应的层输出该脸部风格迁移图像的第二内容特征和第二风格特征。可选地，深度卷积神经网络510被配置为从第7卷积层输出该第二内容特征，且从第1、3、5卷积层输出该第二风格特征。

在一些实施例中，可以使用第一内容特征和第一风格特征以及第二内容特征和第二风格特征，分别基于内容损失函数和风格损失函数来计算内容损失和风格损失。下面给出了计算内容损失和风格损失的示范性实施例。

I. 内容损失

在深度卷积神经网络510中，每一个卷积层的输出都是输入图像的特征图像。假设某个具有

个卷积核的卷积层，其输出包含

个特征图像，假设每个特征图像的尺寸都是

（特征图像的宽x高）。这样第

卷积层的输出可以存储在矩阵

中。

表示第

卷积层中第i个卷积核输出的特征图像中第j个位置的值。

如果定义

和

分别为原始输入内容图像（例如照片脸部图像）和生成图像（脸部风格迁移图像），

和

分别为它们在深度卷积神经网络510中第

卷积层的输出的特征图像，也即第一内容特征图像和第二内容特征图像，则内容损失函数可以如下地定义：

（5）

其中

为一个常数，用于对结果进行标准化处理。

在一个实施例中，当从深度卷积神经网络510中第7层输出内容特征时，基于内容损失函数，内容损失可以被计算为

，其中

和

分别为在深度卷积神经网络510的第7卷积层输出的照片脸部图像和脸部风格迁移图像的内容特征图像。

II. 风格损失：

Gram矩阵的定义如下：

（6）

如果定义

和

分别为原始输入风格图像（例如肖像画脸部图像）和生成图像（脸部风格迁移图像），

和

分别为它们在深度卷积神经网络中第

卷积层的输出的Gram矩阵，则该层的风格损失函数可以如下地定义：

（7）

其中

为一常数，用于对结果进行标准化处理。相应地总的风格损失可以计算为

（8）

其中

为第

层风格损失占总风格损失的权重。

在一个实施例中，当从深度卷积神经网络510中第1、3、5层输出风格特征时，基于风格损失函数，总的风格损失可以被计算为

。

优化器522可以被配置为分别基于内容损失和风格损失来对脸部风格迁移图像进行优化。在一些实施例中，优化器522通过使用Adam梯度下降算法改变脸部风格迁移图像而进行优化。

经改变的脸部风格迁移图像被作为迭代变量输入到深度卷积神经网络510，且其内容特征和风格特征被用来计算内容损失和风格损失。

损失计算模块521和优化器522在迭代地执行损失计算和图像优化预定次数后，通过优化器522输出的优化的脸部风格迁移图像。在一些实施例中，预定次数可以通过实验的方式获得，或者可以被设置为经验值。可选地，预定次数可以在90-110次的范围内。可选地，预定次数可以为100次。由于迭代次数被限制在较小的范围内，所以使得整个优化过程所需的时间大大减小。

在一些实施例中，总的损失函数可以定义为：

（9）

其中，

、

分别为内容损失权重与风格损失权重。在一些实施例中，内容损失权重与风格损失权重可以通过实验的方式获得，或者可以被设置为经验值。

损失计算模块521被配置为基于总的损失函数来计算总的损失。

在本公开的一个实施例中，可以基于总损失函数来评估脸部风格迁移图像是否已达到预期的风格迁移效果。示例性的，优化器522还可以被配置为当计算的总损失小于某一阈值时，输出经优化的脸部风格迁移图像。

可以理解，尽管在图5中，为了说明的清楚，将用于脸部内容图像/脸部特征图像的深度卷积神经网络和用于脸部风格迁移图像的深度卷积神经网络示为分开的深度卷积神经网络，但是它们也可以被实施为同一个深度卷积神经网络。

按照本公开的实施例，由于所采用的深度卷积神经网络只包含8个卷积层，且输入图像只要求两个脸部图像（即照片脸部图像和肖像画脸部图像），因此网络结构和训练量都极大简化。这进一步提升了网络的执行速度。

图6图示了根据本公开实施例的深度卷积神经网络600的示例性实现。如图5所示，深度卷积神经网络600包括8个卷积层（也即卷积层的数量为8个）和3个池化层，其中每一个卷积层的输出都是从输入图像中提出的特征。池化层降低特征图像的分辨率并传递给下一个卷积层。这样经过每个卷积层后的特征图像都表征了输入图像在不同层级上的特征（如纹理、边缘、物体等）。可以从不同的卷积层提取内容特征和风格特征。如前所述，从深度卷积神经网络较高层级中得到的特征图通常可以表征输入图像的内容特征；而从深度卷积神经网络较低层级中得到的特征图通常可以表征输入图像的风格特征。

在图6中，输入图像顺序经过第1、2卷积层的处理后，进入第1池化层。经过第1池化层处理的图像被继续顺序经过第3、4卷积层的处理，进入第2池化层。经过第2池化层处理的图像被继续顺序经过第5、6、7、8卷积层的处理，进入第3池化层。

如图6所述，在本公开的这一实施例中，风格特征从较低的第1、3、5卷积层得到，而内容特征从较高的第7卷积层得到。

图7图示了使用本公开实施例的技术进行脸部交换的对比效果图。在图7中，（a）为所拍摄的用户的照片，（b）为所选用的分别包含男性和女性的两幅肖像画，而（c）为将照片的脸部交换到肖像画中对应的脸部区域后生成的肖像画。

如图7所示，在生成的肖像画中保留了照片中用户脸部的内容特征，例如眼镜、眼睛（比如形状和凝视的方向等）、鼻子和嘴的形状等。同时，原肖像画的艺术风格被很好地迁移到用户脸部中，例如脸部、面颊部等处的颜色以及与周围图案的色调配合等。

根据本公开实施例的脸部交换方法，通过对脸部区域进行风格迁移，使得被交换到图像中的脸部区域与图像的其他区域仍然能够保持一致的画面风格，给用户以更为自然、和谐的主观感受。而且，由于仅对脸部图像进行风格迁移，大幅减少了深度卷积神经网络的运算量。这极大地减少了换脸过程所需的时间，因而进一步改善了用户体验。

图8示出了按照本公开实施例的示范性计算设备800的示意图。计算设备800可以采取以下形式：台式计算设备、移动计算设备（比如智能电话、膝上型计算机、笔记本计算机或平板计算机）、网络计算机、家庭娱乐计算机、交互式电视、游戏***或其他合适类型的计算设备。

计算设备800可包括按照本公开实施例的在照片和肖像画之间实现脸部交换的脸部交换装置810。装置810可以是比如前述结合附图描述的装置。

在一些实施例中，计算设备800可以包括用于采集包含人的脸部的照片的摄像机820和用于存储包含人的脸部的照片和/或肖像画的存储器830。脸部交换装置810可以从摄像机820和/或存储器830接收照片和肖像画。

在一些实施例中，计算设备800还可以包括显示器840。脸部交换装置810可以将生成的经脸部交换的肖像画输出到显示器840，以经由显示器840显示给用户。

在一个实施例中，脸部交换装置810可以被实现为脸部交换app的形式，且计算设备800可以包含被配置成提供脸部交换功能性的脸部交换app。

本公开的各种实施例中的“装置”、“模块”等可以通过使用硬件单元、软件单元或它们的组合而被实施。硬件单元的例子可包括设备、构件、处理器、微处理器、电路、电路元件（例如，晶体管、电阻器、电容器、电感器等等）、集成电路、专用集成电路（ASIC）、可编程逻辑器件（PLD）、数字信号处理器（DSP）、现场可编程门阵列（FPGA）、存储器单元、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片组等等。软件单元的例子可包括软件构件、程序、应用、计算机程序、应用程序、***程序、机器程序、操作***软件、中间件、固件、软件模块、例行程序、子程序、函数、方法、过程、软件接口、应用程序接口（API）、指令集、计算代码、计算机代码、代码段、计算机代码段、单词、值、符号、或它们的任何组合。确定实施例是否通过使用硬件单元和/或软件单元被实施可以根据任意数量的因素而变化，诸如想要的计算速率、功率电平、耐热性、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度、和其它设计或性能约束，正如对于给定的实现所想要的。

某些实施例可包括制造品。制造品可包括用来存储逻辑的存储介质。存储介质的例子可包括能够存储电子数据的一种或多种类型的计算机可读存储媒体，包括易失性存储器或非易失性存储器、可拆卸或不可拆卸存储器、可擦除或不可擦除存储器、可写或可再写存储器等等。逻辑的例子可包括各种软件单元，诸如软件构件、程序、应用、计算机程序、应用程序、***程序、机器程序、操作***软件、中间件、固件、软件模块、例行程序、子程序、函数、方法、过程、软件接口、应用程序接口（API）、指令集、计算代码、计算机代码、代码段、计算机代码段、单词、值、符号、或它们的任何组合。在一个实施例中，例如，制造品可以存储可执行计算机程序指令，它们在被计算机执行时使得计算机执行按照所描述的实施例的方法和/或操作。可执行计算机程序指令可包括任何适当类型的代码，诸如源代码、编译的代码、解释的代码、可执行代码、静态代码、动态代码等等。可执行计算机程序指令可以按照预定义的计算机语言、方式或语法被实施，用于指令计算机去执行一定的功能。指令可以通过使用任何适当的高级、低级、面向对象的、视觉的、编译的和/或解释的编程语言而被实施。

一些实施例可以通过使用表达“一个实施例”或“一些实施例”连同它们的派生词而被描述。这些术语是指结合实施例描述的特定特征、结构或特性被包括在至少一个实施例中。在申请书的各个地方出现的词组“在一个实施例中”不一定必须全都指同一个实施例。

附加地，在上述的详细说明中，可以看到，为了简化公开内容，各种特征在单个实施例中被聚合在一起。这种公开的方法不被解译为反映了所要求保护的实施例需要比在每项权利要求中明确叙述的特征更多特征的意图。相反，正如以下的权利要求反映的，本公开的主题在于少于单个公开的实施例的所有特征。因此，以下的权利要求据此被合并到详细说明中，每项权利要求独自地作为单独的实施例。在所附权利要求中，术语“包括(including)”和“其中 (in which)”分别被用作为相应术语“包括（comprising）”和“其中（wherein）”的简明英语的等同物。而且，术语“第一”、“第二”、“第三”等等仅仅被用作为标签，且不打算对它们的对象施加数值要求。

虽然本主题是以特定于结构特征和/或方法动作的语言被描述的，但应当明白，在所附权利要求中限定的主题不是必须限于以上描述的具体特征或动作。相反，上面描述的具体的特征和动作是作为实施权利要求的示例性形式被公开的。

Claims

1.一种在图像之间实现脸部交换的方法，包括以下步骤：

提取第一图像中的脸部图像作为脸部内容图像和提取第二图像中的脸部图像作为脸部风格图像；

经由深度卷积神经网络从所述脸部内容图像得到原始内容特征作为第一内容特征和从所述脸部风格图像得到原始风格特征作为第一风格特征，其中与所述原始风格特征相比，所述原始内容特征从所述深度卷积神经网络的较高卷积层得到；

基于预定义的损失函数，根据所述第一内容特征和第一风格特征，从初始的脸部风格迁移图像开始来迭代地优化，所述迭代地优化包括：将脸部风格迁移图像输入到所述深度卷积神经网络，从所述深度卷积神经网络不同的卷积层输出该脸部风格迁移图像的第二内容特征和第二风格特征，其中与所述第二风格特征相比，所述第二内容特征从所述深度卷积神经网络的较高卷积层得到，基于所述预定义的损失函数计算脸部风格迁移图像的第二内容特征和第二风格特征相对于第一内容特征和第一风格特征的内容损失和风格损失；根据计算的内容损失和风格损失的加权和来优化脸部风格迁移图像以得到经修改的脸部风格迁移图像，以及将经修改的脸部风格迁移图像作为迭代变量用于下一次迭代中，且在执行所述迭代优化预定次数后，输出经优化的脸部风格迁移图像；以及

通过用所述经优化的脸部风格迁移图像与第二图像进行融合，以生成包含经风格迁移的脸部的第三图像，

其中用所述经优化的脸部风格迁移图像与第二图像进行融合包括：

－根据从所述经优化的脸部风格迁移图像获得的脸部特征点向量计算第一二维凸包边界，根据从第二图像获得的脸部特征点向量计算第二二维凸包边界；

－获得第一二维凸包边界内的区域作为第一脸部掩膜，获得第二二维凸包边界内的区域作为第二脸部掩膜，将第一和第二脸部掩膜取并集，得到融合后的脸部掩膜；

－在分别对脸部风格迁移图像和第二图像进行高斯模糊后通过计算两个图像的亮度值比而获得每个像素点的亮度比例系数，该亮度比例系数比例被用于对脸部风格迁移图像进行亮度值校正；和

－以融合后的脸部掩膜做参考，将脸部风格迁移图像中经亮度值校正的脸部区域融合至第二图像的对应区域。

2.根据权利要求1所述的方法，其中所述深度卷积神经网络的卷积层的数量为8个。

3.根据权利要求2所述的方法，包括从深度卷积神经网络的第7卷积层得到所述原始内容特征，而从其第1、3、5卷积层得到所述原始风格特征。

4.根据权利要求1到3中任一项所述的方法，其中所述预定义的损失函数包括用于计算内容损失的内容损失函数和用于计算风格损失的风格损失函数，且所述内容损失和风格损失被分别用于优化所述脸部风格迁移图像。

5.根据权利要求4所述的方法，还包括计算所述内容损失和风格损失的加权和作为总的损失，以及当所述总的损失达到某一阈值时，输出经优化的脸部风格迁移图像。

6.根据权利要求1到3中任一项所述的方法，其中将VGG19模型的预训练参数作为所述深度卷积神经网络的初始预训练参数。

7.根据权利要求1所述的方法，其中所述预定次数是100次。

8.根据权利要求1所述的方法，其中用脸部风格迁移图像与第二图像进行融合之前还包括：以第二图像作为参考对所得到的脸部风格迁移图像进行旋转、缩放和平移，以实现脸部对齐。

9.一种用于在图像之间实现脸部交换的装置，包括：

脸部提取模块，被配置为提取第一图像中的脸部图像作为脸部内容图像和提取第二图像中的脸部图像作为脸部风格图像；

风格迁移模块，其包括：

深度卷积神经网络，用于从所述脸部内容图像得到原始内容特征作为第一内容特征和从所述脸部风格图像得到原始风格特征作为第一风格特征，其中与所述原始风格特征相比，所述原始内容特征从所述深度卷积神经网络的较高卷积层得到；和

迭代优化模块，用于基于预定义的损失函数，根据所述第一内容特征和第一风格特征，从初始的脸部风格迁移图像开始来迭代地进行优化，且在执行所述迭代优化预定次数后，输出经优化的脸部风格迁移图像；和

图像生成模块，用于通过用所述经优化的脸部风格迁移图像与第二图像进行融合，以生成包含经风格迁移的脸部的第三图像，

其中所述深度卷积神经网络被配置为从不同的卷积层输出脸部风格迁移图像的第二内容特征和第二风格特征，其中与所述第二风格特征相比，所述第二内容特征从所述深度卷积神经网络的较高卷积层得到，所述损失计算模块被配置为基于所述预定义的损失函数计算脸部风格迁移图像的第二内容特征和第二风格特征相对于第一内容特征和第一风格特征的内容损失和风格损失；以及所述优化器被配置为按照所计算的内容损失和风格损失来优化脸部风格迁移图像以得到经修改的脸部风格迁移图像，其中经修改的脸部风格迁移图像作为迭代变量被输入到所述深度卷积神经网络用于下一次迭代；

其中所述图像生成模块被配置为根据从所述经优化的脸部风格迁移图像获得的脸部特征点向量计算第一二维凸包边界，根据从第二图像获得的脸部特征点向量计算第二二维凸包边界；获得第一二维凸包边界内的区域作为第一脸部掩膜，获得第二二维凸包边界内的区域作为第二脸部掩膜，将第一和第二脸部掩膜取并集，得到融合后的脸部掩膜；在分别对脸部风格迁移图像和第二图像进行高斯模糊后通过计算两个图像的亮度值比而获得每个像素点的亮度比例系数，该亮度比例系数比例被用于对脸部风格迁移图像进行亮度值校正；和以融合后的脸部掩膜做参考，将脸部风格迁移图像中经亮度值校正的脸部区域融合至第二图像的对应区域。

10.根据权利要求9所述的装置，其中所述深度卷积神经网络的卷积层的数量为8个。

11.根据权利要求10所述的装置，其中所述深度卷积神经网络被配置为从其第7卷积层得到所述原始内容特征，而从其第1、3、5卷积层得到所述原始风格特征。

12.根据权利要求11所述的装置，其中所述预定义的损失函数包括用于计算内容损失的内容损失函数和用于计算风格损失的风格损失函数，且所述迭代优化模块被配置为分别使用所述内容损失和风格损失来优化所述脸部风格迁移图像。

13.根据权利要求12所述的装置，其中所述迭代优化模块还包括损失计算模块和用于优化脸部风格迁移图像的优化器，所述损失计算模块被配置为计算所述内容损失和风格损失的加权和作为总的损失，以及所述优化器被配置为当所述总的损失达到某一阈值时，输出经优化的脸部风格迁移图像。

14.一种用于在图像之间实现脸部交换的***，包括一个或多个处理器；和耦合到所述一个或多个处理器的存储器，该存储器包括指令，所述指令在被所述一个或多个处理器执行时使得该***执行根据权利要求1-8中任一项所述的方法。

15.一种计算机可读存储介质，存储有指令，所述指令在被执行时使得计算设备的至少一个中央处理器单元执行根据权利要求1-8中任一项所述的方法。