CN108564126B

CN108564126B - 一种融合语义控制的特定场景生成方法

Info

Publication number: CN108564126B
Application number: CN201810353922.9A
Authority: CN
Inventors: 曹仰杰; 陈永霞; 段鹏松; 林楠; 贾丽丽
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2018-04-19
Filing date: 2018-04-19
Publication date: 2022-04-19
Anticipated expiration: 2038-04-19
Also published as: CN108564126A

Abstract

本发明提供一种融合语义控制的特定场景生成方法，包括选取若干物品图以及多个包含该物品的不同特定场景图片；根据特定场景图片中特定场景的特点制作不同的属性标签，将特定场景图片裁剪处理后，获得训练样本；构建由判别器与生成器组成的条件生成式对抗网络；将物品图与标签一起作为输入，输入到生成器中，生成标签所描述的特定场景图；包含物品的特定场景图作为目标场景图，将由生成器生成的标签所描述的特定场景图、目标场景图、物品图及标签一同输入到判别器中，判别器通过条件对抗网络进行模型训练；将待处理的同类物品图及想要得到的场景以标签形式输入训练好的模型即可获得对应的场景图像。

Description

一种融合语义控制的特定场景生成方法

技术领域

本发明属于机器学习算法领域，具体的说，涉及了一种融合语义控制的特定场景生成方法。

背景技术

融合语义控制的特定场景生成指的是通过语义控制让计算机生成语言所描述的场景。能够真实的描绘世界一直是人类的追求，绘画的诞生源于人类描绘世界的需要，对极致的追求成就了艺术。相机的发明使人类记录世界变得容易，计算机出现后，人类开始让计算机自己来描绘真实世界，由此诞生了许多生成算法。传统的生成算法有梯度方向直方图，尺度不变特征变换等，这些算法采用手工提取特征与浅层模型相组合的方法实现目标的生成。其解决方案基本遵循四个步骤：图像预处理→手动特征提取→建立模型(分类器/回归器)→输出。而深度学习算法解决计算机视觉的思路是端到端(End to End),即从输入直接到输出，中间采用神经网络自动学习特征，避免了手动特征提取的繁琐操作。

深度学习是机器学习的一个重要分支，因其最近几年在许多领域取得重大突破而受到广泛关注。生成式对抗网络(Generative Adversarial Networks,GAN)是2014年由Goodfellow等提出的一种生成式深度学习模型，该模型一经提出就成为了计算机视觉研究领域热点研究方向之一。由于GAN出色的生成能力，使得GAN在样本生成领域取得显著成就，其次GAN在图像还原与修复、图像风格迁移、文本与图像的相互生成、图像的高质量生成等领域也已经成为一个有巨大应用价值的课题。同时工业界中的不少领军企业也已加入GAN发展的浪潮中。比如Facebook、Google、Apple等公司。基于以上研究，GAN为实现融合语义控制生成特定场景提供了实现的可能。但是目前还没有一个模型能够直接实现通过语义控制生成不同的特定场景。

为了解决以上存在的问题，人们一直在寻求一种理想的技术解决方案。

发明内容

本发明的目的是针对现有技术的不足，从而提供了一种融合语义控制的特定场景生成方法。

为了实现上述目的，本发明所采用的技术方案是：一种融合语义控制的特定场景生成方法，包括如下步骤：

步骤1、选取若干物品图以及多个包含该物品的不同特定场景图片；

步骤2、根据特定场景图片中特定场景的特点制作不同的属性标签，将特定场景图片裁剪处理后，获得训练样本，训练样本包括物品图、与物品图对应的包含该物品的特定场景图及描述该场景的标签；

步骤3、构建由判别器与生成器组成的条件生成式对抗网络；

步骤4、将物品图与标签一起作为输入，输入到生成器中，生成标签所描述的特定场景图；

步骤5、包含物品的特定场景图作为目标场景图，将由生成器生成的标签所描述的特定场景图、目标场景图、物品图及标签一同输入到判别器中，判别器通过条件对抗网络进行模型训练；

步骤6、将待处理的同类物品图及想要得到的场景以标签形式输入训练好的模型即可获得对应的场景图像。

基于上述，所述标签为二进制形式的语义标签。

基于上述，步骤1中，所述物品图为从购物网站上爬取的物品特写图。

基于上述，步骤3中，所述生成式对抗网络为GAN模型，所述生成式对抗网络的生成器表示为

其中，y为目标场景图像域，x为原始输入图像，l为目标场景图像域标签，

为标签所描述的特定场景图；

使用条件GAN的代价函数作为模型的对抗性损失，其中，所述代价函数为

其中，D为判别器，G为生成器。

本发明相对现有技术具有突出的实质性特点和显著的进步，具体的说：

本发明通过构建条件生成式对抗网络进行模型训练，通过人工智能技术代替重复的劳动，能极大的提高人类的工作效率，一些简单的场景可以直接由***生成，不用浪费人力去拍摄、制作。通过语义控制生成指定的场景，针对不同的情况只需提供一些该场景所需的训练样本，并为训练样本制作域标签，经过训练，就能够生成指定场景的图像。本发明方法有广阔的应用前景，尤其是购物网站上展示商品详情的图像可以由该方法生成，从而节约劳动力和资源。

附图说明

图1是本发明的算法流程示意图。

图2为本发明一种融合语义控制的特定场景生成方法的设计示意图。

具体实施方式

下面通过具体实施方式，对本发明的技术方案做进一步的详细描述。

如图1和图2所示，一种融合语义控制的特定场景生成方法，包括如下步骤：

步骤1、从购物网站上爬取若干物品图以及多个包含该物品的不同特定场景图片；

步骤2、根据特定场景图片中特定场景的特点制作不同的属性标签，所述标签为二进制形式的语义标签；将特定场景图片裁剪处理后，获得训练样本，训练样本包括物品图、与物品图对应的包含该物品的特定场景图及描述该场景的标签；

步骤3、构建由判别器与生成器组成的条件生成式对抗网络；

具体的，步骤3中，所述生成式对抗网络为GAN模型，所述生成式对抗网络的生成器表示为

为标签所描述的特定场景图；

本发明方法中，每一个输入物品图像对应一个成对的目标场景图像域y及标签l，使得G可以准确的学习生成特定场景。判别器学习将真实图像与生成图像分类，生成器需要学会欺骗判别器，并且判别器在输入物品图像和标签上产生概率分布，能够指定标签，实现语义控制生成器的生成。生成器的目标是将原始物品图像转换为由标签描述的真实场景图像，因此训练样本的数据集是作为一组相应图像(x，y，l)给出的，其中x是输入物品图像，y是相应的目标场景图像，l是目标场景图像域标签。

使用条件GAN的代价函数作为算法模型的对抗性损失，该代价函数是一个极小极大的双人零和游戏：

其中，D为判别器，G为生成器。

函数的第一项表明，当输入真实场景图像时，判别器使目标函数尽可能大，并判断它是真实图像。函数的第二项表示在输入生成的图像时，G(x，y，l)尽可能小，因此，损失函数的值相对较大，生成器欺骗判别器并错误地认为输入是真实图像的同时判别器试图将其识别为假图像，函数的两项模型进行游戏直到达到纳什均衡，使生成器学习到标签的语义特征，并与物品图像对应起来。

使用GAN模型的生成式对抗网络，生成器输入目标域场景的原始图像，目标域图像和标签作为条件变量，同时生成假的特定场景，目标域图像和目标域标签在输入时被复制并与输入图像拼接。生成器则试图从输入图像和给出原始域标签中重建新的场景，并试图生成与真实场景无法区分的特定场景，使不容易被判别器区分。两者在对抗博弈的过程中，生成器生成的场景越来越逼真，判别器区分真实场景图像与伪场景图像愈加困难，从而实现训练的目的。

本发明整体结构简单，设计合理，采用条件GAN作为模型框架。为了实现语义控制功能，算法模型能够接受多个领域的训练数据，并且只使用一个生成器学习所有可用领域之间的映射，本算法模型不是学习固定的生成(例如，仅从衣服到正面的模特)，而是将物品图像和目标信息作为输入，并学习将输入图像中的物体灵活地生成相应的场景。通过使用标签来表示域信息，在训练过程中，随机生成一个目标域标签，训练模型将输入图像转换为目标域，从而实现通过语义控制域标签，在训练阶段将输入转换成任何期望的场景输出，比如输入生成正面站立、手拿包、手垂下的模特，输出一个包含输入衣服的满足要求的模特。

即输入一个物品图，生成包含该物品的合理场景。这克服了两大难关，首先是多域生成，其次是生成输入中不存在且合理的场景。对于第一种情况，本发明将训练样本的标签以向量的形式表示，并与输入图像、目标场景对应，形成映射，通过在训练过程中，随机生成一个目标域标签，训练模型灵活地将输入图像转换为目标域。通过这样做，在使用模型的阶段实现通过语义控制域标签，对于同一张输入图像，输入不同的标签，即可得到不同的场景，实现多域的生成。对于第二种情况，本发明在训练阶段提供了目标场景图像与描述该场景的标签，通过生成式对抗网络学习两者之间的映射，并将图像与标签的文本对应起来，在训练过程中，生成器学到文本的图像表示，判别器识别真实图像与生成图像，经过对抗博弈，生成器生成人眼辨别不出真假的特定场景图像。

该发明算法模型结构精简、训练方便，运行平稳、可靠，可移植性较好，可以在多种特定场景中使用。

最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制；尽管参照较佳实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换；而不脱离本发明技术方案的精神，其均应涵盖在本发明请求保护的技术方案范围当中。

Claims

1.一种融合语义控制的特定场景生成方法，其特征在于，包括如下步骤：

步骤1、选取若干物品图以及多个包含该物品的不同特定场景图片，所述物品图为从购物网站上爬取的物品特写图；

步骤3、构建由判别器与生成器组成的条件生成式对抗网络；

所述生成式对抗网络为GAN模型，所述生成式对抗网络的生成器表示为

，其中，

为目标场景图像域，x为原始输入图像，l为目标场景图像域标签，

为标签所描述的特定场景图；

其中，D为判别器，G为生成器；

步骤6、将待处理的同类物品图及想要得到的场景以标签形式输入训练好的模型即可获得对应的场景图像；所述标签为二进制形式的语义标签。