CN112232220A

CN112232220A - 生成人物图像的方法、训练方法和装置及存储介质

Info

Publication number: CN112232220A
Application number: CN202011118517.2A
Authority: CN
Inventors: 支蓉; 张武强; 方志杰; 郭子杰
Original assignee: Daimler AG
Current assignee: Mercedes Benz Group AG
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2021-01-15

Abstract

本发明提出一种用于生成人物图像的神经网络模型的训练方法，神经网络模型包括图像合成网络模型和细节优化网络模型并用于将包含人物的第一图像和第二图像输入至神经网络模型以生成新的人物图像，所述训练方法包括：在第一阶段，获取包含人物的原始图像并输入至图像合成网络模型以生成合成图像，计算第一阶段的损失函数并更新图像合成网络模型的网络参数；以及在第二阶段，获取合成图像，将合成图像输入至细节优化网络模型中得到优化图像，根据优化图像与原始图像计算第二阶段的损失函数并更新细节优化网络模型的网络参数。还提出一种用于生成人物图像的方法、一种计算机可读存储介质以及一种用于训练用于生成人物图像的神经网络模型的装置。

Description

生成人物图像的方法、训练方法和装置及存储介质

技术领域

本发明涉及一种用于生成人物图像的神经网络模型的训练方法、一种用于生成人物图像的方法、一种计算机可读存储介质以及一种用于训练用于生成人物图像的神经网络模型的装置。

背景技术

近年来，机器学习(Machine Learning)及深度学习(Deep Learning)被应用于各种领域中，尤其在计算机视觉和自动驾驶领域中得到广泛应用。机器学习模型的性能不光取决于模型构建的质量，而且也会受到训练数据的质量和数量的要求。真实的训练数据需要大量的采集、筛选及标注工作，然而最终采集到的数据集往往是不均衡的，这种不均衡的数据集极大程度上增加了神经网络的训练难度。

对训练数据的研究分析与数据增强是近年来的重要的研究课题之一。

现有的生成式网络如变分自编码器(Variational Autoencoder，简称VAE)、生成式对抗网络(Generative Adversarial Networks，简称GAN)等可基于具有有限数量的训练样本的训练数据集生成新样本。然而，所生成的新样本的质量往往不足以用做机器学习和深度学习的训练样本，尤其不足以用于目标检测、人物姿态识别、人物身份识别等任务。并且，生成的过程多为随机过程，生成的目标图像样式不可控或可控性极低。

当利用现有的生成式网络生成人物图像时，生成的图像存在内容模糊、不真实、生成种类不丰富、生成过程不可控等问题，因而无法用作机器学习和深度学习的训练样本。

因此，现有技术在生成的人物图像的质量方面仍然存在诸多不足。

发明内容

本发明的目的在于提供一种用于生成人物图像的神经网络模型的训练方法、一种用于生成人物图像的方法、一种计算机可读存储介质以及一种用于训练用于生成人物图像的神经网络模型的装置，使得能够由包含人物的第一图像和第二图像生成更清晰、更自然的新的人物图像。

根据本发明的第一方面，提供了一种用于生成人物图像的神经网络模型的训练方法，所述神经网络模型用于将包含人物的第一图像和第二图像输入至神经网络模型以生成具有第一图像的特征和第二图像的特征的新的人物图像，所述神经网络模型包括图像合成网络模型和细节优化网络模型，其中，所述训练方法包括下述步骤：

在第一阶段，获取包含人物的原始图像，将原始图像输入至图像合成网络模型以生成合成图像，根据合成图像与原始图像计算第一阶段的损失函数并更新图像合成网络模型的网络参数；以及

在第二阶段，获取在第一阶段生成的合成图像，将合成图像输入至细节优化网络模型中得到优化图像，根据优化图像与原始图像计算第二阶段的损失函数并更新细节优化网络模型的网络参数。

根据本发明的一可选实施例，第一阶段包括以下步骤：

S11：获取包含人物的原始图像；

S12：识别原始图像的人物姿态关键点，提取原始图像的人物姿态特征、前景特征和背景特征；

S13：将人物姿态特征、前景特征和背景特征输入至图像合成网络模型，以生成合成图像；

S14：根据合成图像与原始图像，计算第一阶段的损失函数并更新图像合成网络模型的网络参数；以及

S15：判断第一阶段的训练是否结束，若未达到预设的第一训练步数，则将第一阶段的损失函数更新梯度反向传播至图像合成网络模型的网络参数中，并继续训练图像合成网络模型，若达到预设的第一训练步数，则结束第一阶段的训练。

根据本发明的一可选实施例，步骤S12包括在识别原始图像的人物姿态关键点之后：

根据人物姿态关键点，从原始图像截取多个前景图像块和多个背景图像块，将所述多个前景图像块和所述多个背景图像块正规化成相同大小，并将正规化后的前景图像块和背景图像块输入特征提取网络以提取前景特征和背景特征；和/或

将人物姿态关键点根据真实人物骨架链接方式进行连接并转换成可视化的人物姿态图像，根据人物姿态图像借助于另外的特征提取网络来提取人物姿态特征。

根据本发明的一可选实施例，第一阶段的损失函数包括：

第一部分，所述第一部分通过下式表示：

其中，F为VGG19网络特征参数，X为输入的原始图像，

为合成图像，{l_c}为VGG19对应的特征层；

第二部分，所述第二部分通过下式表示：

其中，X′为前景图像块，X″为背景图像块，Y为人物姿态图像，z为提取到的图像整体特征，

和

分别代表所使用的特征提取网络的中间层得到的未经采样的特征向量；以及

第三部分，所述第三部分通过下式表示：

其中，F为VGG19网络特征参数，G为VGG19网络特征参数的格拉姆矩阵，X为输入的原始图像，

为合成图像，{l_S}为VGG19对应的特征层，

其中，第一阶段的训练目的在于最小化第一阶段的损失函数。

根据本发明的一可选实施例，第二阶段包括以下步骤：

S21：获取在第一阶段生成的合成图像；

S22：将合成图像输入至细节优化网络，以得到优化图像，所述细节优化网络为生成对抗网络的生成器；

S23：将原始图像和优化图像输入至所述判别器以判别真假；

S24：计算第二阶段的损失函数并更新网络参数；以及

S25：判断第二阶段的训练是否结束，若未达到预设的第二训练步数，则将第二阶段的损失函数更新梯度反向传播至所述生成对抗网络的网络参数中，并继续训练细节优化网络模型，若达到预设的第二训练步数，则结束第二阶段的训练。

根据本发明的一可选实施例，细节优化网络模型采用Patch-GAN网络中的生成器，判别器相应地采用Patch-GAN网络中的判别器；和/或判别器根据其感受野对图像做出经加权平均后的真伪判断，以得到最终判断结果；和/或在步骤S23中，将在第一阶段获得的人物姿态关键点与原始图像和优化图像一起输入至判别器。

根据本发明的一可选实施例，第二阶段的损失函数包括用于生成器的损失函数和用于判别器的损失函数，其中，

用于生成器的损失函数由下式表示：

其中，D为判别器的网络特征参数，X为原始图像，

为合成图像，{l_D}为判别器对应的特征层，其中，第二阶段的训练目的包括最小化用于生成器的损失函数；和/或

用于判别器的损失函数由下式表示：

其中，X为原始图像，

为合成图像，Y为人物姿态图像，E_X,Y和

分别表示期望，Dis(X,Y)和

分别表示判别器的输出结果，其中，第二阶段的训练目的包括最小化用于判别器的损失函数。

根据本发明的第二方面，提供了一种用于生成人物图像的方法，所述方法包括：

获取包含人物的第一图像和第二图像；以及

将第一图像和第二图像输入通过根据本发明的训练方法训练得到的神经网络模型，以获得新的人物图像。

根据本发明的第三方面，提供了一种计算机可读存储介质，其中，所述计算机可读存储介质中存储有计算器程序，当所述计算机程序被一个或多于一个处理器执行时，所述处理器能够执行根据本发明的训练方法或根据本发明的用于生成人物图像的方法。

根据本发明的第四方面，提供了一种用于训练用于生成人物图像的神经网络模型的装置，所述装置包括处理器和与处理器通信连接的计算机可读存储介质，计算机可读存储介质中存储有计算机程序，当所述计算机程序被处理器执行时，用于实施根据本发明的训练方法。

本发明的积极效果在于：通过加入细节优化网络实现对人物图像细节信息的优化，使得人物图像更清晰、神态更自然。通过结合多种生成式网络的优点，所述训练方法训练的神经网络模型所生成的图像能够同时具备真实的宏观和局部人物图像的特征，从而能够获得人物逼真且画面清晰的图像。可以在无配对标注的情况下，生成具备第一图像的特征和第二图像的特征的高质量的新的人物图像。尤其可生成具备第一图像的前景与背景特征和第二图像的人物姿态的高质量的新的人物图像。通过对图像中人物的姿态提取、前景与背景感兴趣区域(ROI,Region of Interest)截取、正规化、特征提取、融合等步骤实现对人物姿态和前景与背景的解耦式提取与融合。通过这些步骤，不仅实现了一种对人物图像的前景、背景和姿态可控的人物图像生成过程，也解决了图像内容模糊、细节缺失等问题。

附图说明

下面，通过参看附图更详细地描述本发明，可以更好地理解本发明的原理、特点和优点。附图包括：

图1示出了根据本发明的一个示例性实施例的训练方法的第一阶段的流程图；

图2示出了根据本发明的一个示例性实施例的训练方法的第二阶段的流程图；

图3示例性地示出了人物姿态关键点和人物姿态图像；

图4示例性地示出了前景图像块和背景图像块；

图5示出根据本发明的一示例性实施例的前/背景特征提取模型VAE的结构示意图；

图6示出根据本发明的一示例性实施例的姿态特征提取模型U-Net的结构示意图；

图7示出了根据本发明的一示例性实施例的第二阶段所用的判别器的操作示意图；以及

图8示出根据本发明的一示例性实施例的用于训练用于生成人物图像的神经网络模型的装置的示意性结构框图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案以及有益的技术效果更加清楚明白，以下将结合附图以及多个示例性实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，而不是用于限定本发明的保护范围。

图1和图2示出了根据本发明的一个示例性实施例的用于生成人物图像的神经网络模型的训练方法的部分步骤的流程图。所述神经网络模型用于将包含人物的第一图像和第二图像输入至神经网络模型以生成具有第一图像的特征和第二图像的特征的新的人物图像。所述神经网络模型包括图像合成网络模型和细节优化网络模型。

所述训练方法包括下述步骤：

所述训练方法结合了多种生成式网络的优点，通过所述训练方法训练的神经网络模型所生成的图像同时具备真实的宏观和局部人物图像的特征，从而能够获得人物逼真且画面清晰的图像。同时，根据本发明的训练方法不需要配对的标注数据，节省了大量的标注成本。生成的图像清晰、质量高，例如可用于作为其他感知模型的训练数据集。

图1示出了根据本发明的一个示例性实施例的训练方法的第一阶段的流程图。

在步骤101中，获取包含人物的原始图像。原始图像尤其是从真实图像中(人工地或机器地)选取出的包括人物的图像，这些真实图像例如可以通过图像获取装置采集。

在步骤102至步骤106中，识别原始图像的人物姿态关键点，提取原始图像的人物姿态特征、前景特征和背景特征。

在步骤102中，识别原始图像的人物姿态关键点。例如可采用预训的人物姿态检测模型检测原始图像中的人物姿态关键点。在一示例性实施例中，采用OpenPose检测法在MSCOCO上训练得到的预训的人物姿态检测模型。应理解，也可采用其它任何可以检测到图像中人物姿态关键点的方法。

将获得的人物姿态关键点信息根据真实人物骨架链接方式进行连接，并用RGB图像可视化，以得到人物姿态图像。作为示例，图3中左图示出了检测到的人物姿态关键点，右图示出了得到的人物姿态图像。应理解，也可采用其它的拼接顺序和可视化处理方式。

在步骤103中，根据步骤102中识别到的人物姿态关键点，获得人物边缘框，并将人物边缘框向外扩张。例如，扩张比例为原始人物边缘框边长的1.5倍。应理解，也可采用其它的扩张方式和扩张比例。从原始图像中按照扩张完的边缘框截取出图像块。

在步骤104中，根据步骤102中识别到的人物姿态关键点和步骤103中截取得到的图像块提取图像的多个前景图像块(前景ROI)。各个前景图像块可分别包括人物的各个肢体区域。由此，可将人物外观的各个部分解耦处理以确保人物的姿态不影响外观的构成。

作为示例，图4的左图示出了所述多个前景图像块包括头部区块406、从左右肩关节至左右髋关节的躯干区块401、左大臂区块402、左小臂区块403、右大臂区块407、右小臂区块408、左大腿区块404、左小腿区块405、右大腿区块409、右小腿410这十个图像块。替代地，本发明也可以采用的其它适当的截取方案来由姿态关键点70截取前景图像块。例如，可以划分出多于或少于十个前景图像块。附加地或替代地，所截取的人物前景图像块应尽可能少地包含背景信息。

在步骤105中，根据步骤102中识别到的人物姿态关键点和步骤103中截取得到的图像块提取图像的多个背景图像块(背景ROI)。由此，可将背景的各个部分解耦处理以确保人物在图像中的姿态和位置不影响到背景的构成。

作为示例，图4的右图示出了所述多个背景图像块包括人物的左上区块412、中上区块411、右上区块415、左中区块413、右中区块416、左下区块414、中下区块418、右下区块417这八个图像块。替代地，本发明也可以采用的其它适当的方式来由姿态关键点70截取背景图像块。例如，可以划分出多于或少于八个背景图像块。附加地或替代地，所截取的人物背景图像块应尽可能少地或者完全不包含前景信息。

应理解，步骤104和步骤105可以以任意顺序或者同步地执行。

在步骤106中，将所述多个前景图像块和所述多个背景图像块正规化成相同大小，并将正规化后的前景图像块和背景图像块输入特征提取网络以提取前景特征和背景特征。

可以采用任意适当形式的神经网络、例如VAE来构建前/背景特征提取模型。如图5所示，在一示例性实施例中，所提取的前/背景特征向量是VAE中间层采样过后的特征向量。

另外，在步骤106中，将人物姿态图像例如通过输入到姿态特征提取模型中来提取所述至少一个第二特征向量。

可以采用任意适当形式的神经网络来构建姿态特征提取模型。如图6所示，在一示例性实施例中，可采用U-Net构建姿态特征提取模型。

在步骤107中，将人物姿态特征、前景特征和背景特征输入至图像合成网络模型，以生成合成图像。

例如，可将人物姿态特征、前景特征和背景特征输入到预设的生成网络中来合成新的人物图像。预设的生成网络例如可以是U-Net或其它合适的神经网络。示例性地，此处的U-Net与步骤106中U-Net的相应层数进行跳跃连接。

在步骤108中，根据合成图像与原始图像，计算第一阶段的损失函数并更新图像合成网络模型的网络参数。例如，可计算步骤107中的合成图像与原始图像的特征差值。计算得到的特征差值用于更新神经网络的参数。

在一个示例性实施例中，第一阶段的损失函数包括三个部分。第一部分是基于VGG19在MSCOCO上的预训网络的内容损失(特征L2损失)。所述第一部分可通过下式表示：

其中，F为VGG19网络特征参数，X为输入的原始图像，

为合成图像，{l_c}为VGG19对应的特征层。

第二部分是KL散度距离，可通过下式表示：

和

分别代表所使用的特征提取网络的中间层得到的未经采样的特征向量。

第三部分是基于VGG19预训网络的风格损失(Gram矩阵L2损失)，可通过下式表示：

为合成图像，{l_S}为VGG19对应的特征层。

将这三个部分结合起来作为第一阶段的损失函数。第一阶段的训练目的在于最小化第一阶段的损失函数。通过如此设计的损失函数，可在保留图像内容与图像风格的同时，把人物姿态与前景背景的特征解耦开来，以便在人物图像生成过程中可以控制这些参数。

在步骤109中，判断第一阶段的训练是否结束，若未达到预设的第一训练步数，则将第一阶段的损失函数更新梯度反向传播至图像合成网络模型的网络参数中，并继续训练图像合成网络模型，若达到预设的第一训练步数，则结束第一阶段的训练。

图2示出了根据本发明的一个示例性实施例的训练方法的第二阶段的流程图。

步骤201中，获取在第一阶段生成的合成图像。可选地，附加地获取第一阶段中得到的相应的人物姿态图像。

在步骤202中，将合成图像输入至细节优化网络，以得到优化图像，所述细节优化网络为生成对抗网络的生成器。可选地，将相应的人物姿态图像与合成图像一起输入至细节优化网络。细节优化网络模型例如采用Patch-GAN网络中的生成器。

在步骤203中，将原始图像和优化图像输入至所述生成对抗网络的判别器以判别真假。判别器可与细节优化网络模型相应地采用Patch-GAN网络中的判别器。可选地，判别器根据其感受野对图像做出经加权平均后的真伪判断，以得到最终判断结果。

在一个示例性实施例中，如图7中所示，在步骤203中，将在第一阶段获得的人物姿态图像与原始图像和优化图像一起输入至生成对抗网络的判别器。

在步骤204中，计算第二阶段的损失函数并更新网络参数。

第二阶段的损失函数包括用于生成器的损失函数和用于判别器的损失函数。用于生成器的损失函数可采用GAN的FM(Feature Matching)损失，例如由下式表示：

其中，D为判别器的网络特征参数，X为原始图像，

为合成图像，{l_D}为判别器对应的特征层。第二阶段的训练目的包括最小化用于生成器的损失函数。如此设计的损失函数能够很大程度上保留图像的高频信息，使得生成的图像更真实，同时能够稳定训练过程，让网络最终趋于收敛。

用于判别器的损失函数可由下式表示：

其中，X为原始图像，

为合成图像，Y为人物姿态图像，E_X,Y和

分别表示期望，Dis(X,Y)和

分别表示判别器的输出结果。第二阶段的训练目的包括最小化用于判别器的损失函数。

在步骤205中，判断第二阶段的训练是否结束，若未达到预设的第二训练步数，则将第二阶段的损失函数更新梯度反向传播至所述生成对抗网络的网络参数中，并继续训练细节优化网络模型，若达到预设的第二训练步数，则结束第二阶段的训练。

本发明还涉及一种用于生成人物图像的方法，所述方法包括：获取包含人物的第一图像和第二图像；以及将第一图像和第二图像输入通过根据本发明的训练方法训练得到的神经网络模型，以获得新的人物图像。

本发明还涉及一种计算机可读存储介质，其中，所述计算机可读存储介质中存储有计算器程序，当所述计算机程序被一个或多于一个处理器执行时，所述处理器能够执行根据本发明的训练方法或根据本发明的用于生成人物图像的方法。计算机可读存储介质例如可包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(FlashCard)、至少一个磁盘存储器件、闪存器件、或其它易失性固态存储器件。处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述装置包括处理器10和与处理器10通信连接的计算机可读存储介质20。计算机可读存储介质20中存储有计算机程序，当所述计算机程序被处理器10执行时，用于实施本文所描述的用于生成人物图像的神经网络模型的训练方法。

根据一示例性实施例，与处理器10通信连接的显示装置30被提供。借助于显示装置30，用户可以查看将被装置100处理的原图像和由装置100生成的新的人物图像。

根据一示例性实施例，与处理器10通信连接的输入装置40被提供。借助于输入装置40，用户可以选择或输入将被装置100处理的原始图像。输入装置40例如可以包括：键盘、鼠标和/或触控屏。

根据一示例性实施例，与处理器10通信连接的摄像装置50被提供。借助于摄像装置50，用户可以拍摄人物图像以作为将被装置100处理的原始图像。

根据一示例性实施例，由多个人物图像构成的原始图像集被提供。原始图像集可以存储在计算机可读存储介质20或与处理器10通信连接的另外的存储介质中。

尽管这里详细描述了本发明的特定实施方式，但它们仅仅是为了解释的目的而给出的，而不应认为它们对本发明的范围构成限制。在不脱离本发明精神和范围的前提下，各种替换、变更和改造可被构想出来。