CN108564126B - 一种融合语义控制的特定场景生成方法 - Google Patents

一种融合语义控制的特定场景生成方法 Download PDF

Info

Publication number
CN108564126B
CN108564126B CN201810353922.9A CN201810353922A CN108564126B CN 108564126 B CN108564126 B CN 108564126B CN 201810353922 A CN201810353922 A CN 201810353922A CN 108564126 B CN108564126 B CN 108564126B
Authority
CN
China
Prior art keywords
scene
label
specific scene
graph
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810353922.9A
Other languages
English (en)
Other versions
CN108564126A (zh
Inventor
曹仰杰
陈永霞
段鹏松
林楠
贾丽丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University
Original Assignee
Zhengzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University filed Critical Zhengzhou University
Priority to CN201810353922.9A priority Critical patent/CN108564126B/zh
Publication of CN108564126A publication Critical patent/CN108564126A/zh
Application granted granted Critical
Publication of CN108564126B publication Critical patent/CN108564126B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种融合语义控制的特定场景生成方法,包括选取若干物品图以及多个包含该物品的不同特定场景图片;根据特定场景图片中特定场景的特点制作不同的属性标签,将特定场景图片裁剪处理后,获得训练样本;构建由判别器与生成器组成的条件生成式对抗网络;将物品图与标签一起作为输入,输入到生成器中,生成标签所描述的特定场景图;包含物品的特定场景图作为目标场景图,将由生成器生成的标签所描述的特定场景图、目标场景图、物品图及标签一同输入到判别器中,判别器通过条件对抗网络进行模型训练;将待处理的同类物品图及想要得到的场景以标签形式输入训练好的模型即可获得对应的场景图像。

Description

一种融合语义控制的特定场景生成方法
技术领域
本发明属于机器学习算法领域,具体的说,涉及了一种融合语义控制的特定场景生成方法。
背景技术
融合语义控制的特定场景生成指的是通过语义控制让计算机生成语言所描述的场景。能够真实的描绘世界一直是人类的追求,绘画的诞生源于人类描绘世界的需要,对极致的追求成就了艺术。相机的发明使人类记录世界变得容易,计算机出现后,人类开始让计算机自己来描绘真实世界,由此诞生了许多生成算法。传统的生成算法有梯度方向直方图,尺度不变特征变换等,这些算法采用手工提取特征与浅层模型相组合的方法实现目标的生成。其解决方案基本遵循四个步骤:图像预处理→手动特征提取→建立模型(分类器/回归器)→输出。而深度学习算法解决计算机视觉的思路是端到端(End to End),即从输入直接到输出,中间采用神经网络自动学习特征,避免了手动特征提取的繁琐操作。
深度学习是机器学习的一个重要分支,因其最近几年在许多领域取得重大突破而受到广泛关注。生成式对抗网络(Generative Adversarial Networks,GAN)是2014年由Goodfellow等提出的一种生成式深度学习模型,该模型一经提出就成为了计算机视觉研究领域热点研究方向之一。由于GAN出色的生成能力,使得GAN在样本生成领域取得显著成就,其次GAN在图像还原与修复、图像风格迁移、文本与图像的相互生成、图像的高质量生成等领域也已经成为一个有巨大应用价值的课题。同时工业界中的不少领军企业也已加入GAN发展的浪潮中。比如Facebook、Google、Apple等公司。基于以上研究,GAN为实现融合语义控制生成特定场景提供了实现的可能。但是目前还没有一个模型能够直接实现通过语义控制生成不同的特定场景。
为了解决以上存在的问题,人们一直在寻求一种理想的技术解决方案。
发明内容
本发明的目的是针对现有技术的不足,从而提供了一种融合语义控制的特定场景生成方法。
为了实现上述目的,本发明所采用的技术方案是:一种融合语义控制的特定场景生成方法,包括如下步骤:
步骤1、选取若干物品图以及多个包含该物品的不同特定场景图片;
步骤2、根据特定场景图片中特定场景的特点制作不同的属性标签,将特定场景图片裁剪处理后,获得训练样本,训练样本包括物品图、与物品图对应的包含该物品的特定场景图及描述该场景的标签;
步骤3、构建由判别器与生成器组成的条件生成式对抗网络;
步骤4、将物品图与标签一起作为输入,输入到生成器中,生成标签所描述的特定场景图;
步骤5、包含物品的特定场景图作为目标场景图,将由生成器生成的标签所描述的特定场景图、目标场景图、物品图及标签一同输入到判别器中,判别器通过条件对抗网络进行模型训练;
步骤6、将待处理的同类物品图及想要得到的场景以标签形式输入训练好的模型即可获得对应的场景图像。
基于上述,所述标签为二进制形式的语义标签。
基于上述,步骤1中,所述物品图为从购物网站上爬取的物品特写图。
基于上述,步骤3中,所述生成式对抗网络为GAN模型,所述生成式对抗网络的生成器表示为
Figure BDA0001634124490000021
其中,y为目标场景图像域,x为原始输入图像,l为目标场景图像域标签,
Figure BDA0001634124490000022
为标签所描述的特定场景图;
使用条件GAN的代价函数作为模型的对抗性损失,其中,所述代价函数为
Figure BDA0001634124490000031
其中,D为判别器,G为生成器。
本发明相对现有技术具有突出的实质性特点和显著的进步,具体的说:
本发明通过构建条件生成式对抗网络进行模型训练,通过人工智能技术代替重复的劳动,能极大的提高人类的工作效率,一些简单的场景可以直接由***生成,不用浪费人力去拍摄、制作。通过语义控制生成指定的场景,针对不同的情况只需提供一些该场景所需的训练样本,并为训练样本制作域标签,经过训练,就能够生成指定场景的图像。本发明方法有广阔的应用前景,尤其是购物网站上展示商品详情的图像可以由该方法生成,从而节约劳动力和资源。
附图说明
图1是本发明的算法流程示意图。
图2为本发明一种融合语义控制的特定场景生成方法的设计示意图。
具体实施方式
下面通过具体实施方式,对本发明的技术方案做进一步的详细描述。
如图1和图2所示,一种融合语义控制的特定场景生成方法,包括如下步骤:
步骤1、从购物网站上爬取若干物品图以及多个包含该物品的不同特定场景图片;
步骤2、根据特定场景图片中特定场景的特点制作不同的属性标签,所述标签为二进制形式的语义标签;将特定场景图片裁剪处理后,获得训练样本,训练样本包括物品图、与物品图对应的包含该物品的特定场景图及描述该场景的标签;
步骤3、构建由判别器与生成器组成的条件生成式对抗网络;
步骤4、将物品图与标签一起作为输入,输入到生成器中,生成标签所描述的特定场景图;
步骤5、包含物品的特定场景图作为目标场景图,将由生成器生成的标签所描述的特定场景图、目标场景图、物品图及标签一同输入到判别器中,判别器通过条件对抗网络进行模型训练;
步骤6、将待处理的同类物品图及想要得到的场景以标签形式输入训练好的模型即可获得对应的场景图像。
具体的,步骤3中,所述生成式对抗网络为GAN模型,所述生成式对抗网络的生成器表示为
Figure BDA0001634124490000041
其中,y为目标场景图像域,x为原始输入图像,l为目标场景图像域标签,
Figure BDA0001634124490000042
为标签所描述的特定场景图;
本发明方法中,每一个输入物品图像对应一个成对的目标场景图像域y及标签l,使得G可以准确的学习生成特定场景。判别器学习将真实图像与生成图像分类,生成器需要学会欺骗判别器,并且判别器在输入物品图像和标签上产生概率分布,能够指定标签,实现语义控制生成器的生成。生成器的目标是将原始物品图像转换为由标签描述的真实场景图像,因此训练样本的数据集是作为一组相应图像(x,y,l)给出的,其中x是输入物品图像,y是相应的目标场景图像,l是目标场景图像域标签。
使用条件GAN的代价函数作为算法模型的对抗性损失,该代价函数是一个极小极大的双人零和游戏:
Figure BDA0001634124490000043
其中,D为判别器,G为生成器。
函数的第一项表明,当输入真实场景图像时,判别器使目标函数尽可能大,并判断它是真实图像。函数的第二项表示在输入生成的图像时,G(x,y,l)尽可能小,因此,损失函数的值相对较大,生成器欺骗判别器并错误地认为输入是真实图像的同时判别器试图将其识别为假图像,函数的两项模型进行游戏直到达到纳什均衡,使生成器学习到标签的语义特征,并与物品图像对应起来。
使用GAN模型的生成式对抗网络,生成器输入目标域场景的原始图像,目标域图像和标签作为条件变量,同时生成假的特定场景,目标域图像和目标域标签在输入时被复制并与输入图像拼接。生成器则试图从输入图像和给出原始域标签中重建新的场景,并试图生成与真实场景无法区分的特定场景,使不容易被判别器区分。两者在对抗博弈的过程中,生成器生成的场景越来越逼真,判别器区分真实场景图像与伪场景图像愈加困难,从而实现训练的目的。
本发明整体结构简单,设计合理,采用条件GAN作为模型框架。为了实现语义控制功能,算法模型能够接受多个领域的训练数据,并且只使用一个生成器学习所有可用领域之间的映射,本算法模型不是学习固定的生成(例如,仅从衣服到正面的模特),而是将物品图像和目标信息作为输入,并学习将输入图像中的物体灵活地生成相应的场景。通过使用标签来表示域信息,在训练过程中,随机生成一个目标域标签,训练模型将输入图像转换为目标域,从而实现通过语义控制域标签,在训练阶段将输入转换成任何期望的场景输出,比如输入生成正面站立、手拿包、手垂下的模特,输出一个包含输入衣服的满足要求的模特。
即输入一个物品图,生成包含该物品的合理场景。这克服了两大难关,首先是多域生成,其次是生成输入中不存在且合理的场景。对于第一种情况,本发明将训练样本的标签以向量的形式表示,并与输入图像、目标场景对应,形成映射,通过在训练过程中,随机生成一个目标域标签,训练模型灵活地将输入图像转换为目标域。通过这样做,在使用模型的阶段实现通过语义控制域标签,对于同一张输入图像,输入不同的标签,即可得到不同的场景,实现多域的生成。对于第二种情况,本发明在训练阶段提供了目标场景图像与描述该场景的标签,通过生成式对抗网络学习两者之间的映射,并将图像与标签的文本对应起来,在训练过程中,生成器学到文本的图像表示,判别器识别真实图像与生成图像,经过对抗博弈,生成器生成人眼辨别不出真假的特定场景图像。
该发明算法模型结构精简、训练方便,运行平稳、可靠,可移植性较好,可以在多种特定场景中使用。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本发明技术方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。

Claims (1)

1.一种融合语义控制的特定场景生成方法,其特征在于,包括如下步骤:
步骤1、选取若干物品图以及多个包含该物品的不同特定场景图片,所述物品图为从购物网站上爬取的物品特写图;
步骤2、根据特定场景图片中特定场景的特点制作不同的属性标签,将特定场景图片裁剪处理后,获得训练样本,训练样本包括物品图、与物品图对应的包含该物品的特定场景图及描述该场景的标签;
步骤3、构建由判别器与生成器组成的条件生成式对抗网络;
所述生成式对抗网络为GAN模型,所述生成式对抗网络的生成器表示为
Figure DEST_PATH_IMAGE002
,其中,
Figure DEST_PATH_IMAGE004
为目标场景图像域,x为原始输入图像,l为目标场景图像域标签,
Figure DEST_PATH_IMAGE006
为标签所描述的特定场景图;
使用条件GAN的代价函数作为模型的对抗性损失,其中,所述代价函数为
Figure DEST_PATH_IMAGE008
其中,D为判别器,G为生成器;
步骤4、将物品图与标签一起作为输入,输入到生成器中,生成标签所描述的特定场景图;
步骤5、包含物品的特定场景图作为目标场景图,将由生成器生成的标签所描述的特定场景图、目标场景图、物品图及标签一同输入到判别器中,判别器通过条件对抗网络进行模型训练;
步骤6、将待处理的同类物品图及想要得到的场景以标签形式输入训练好的模型即可获得对应的场景图像;所述标签为二进制形式的语义标签。
CN201810353922.9A 2018-04-19 2018-04-19 一种融合语义控制的特定场景生成方法 Active CN108564126B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810353922.9A CN108564126B (zh) 2018-04-19 2018-04-19 一种融合语义控制的特定场景生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810353922.9A CN108564126B (zh) 2018-04-19 2018-04-19 一种融合语义控制的特定场景生成方法

Publications (2)

Publication Number Publication Date
CN108564126A CN108564126A (zh) 2018-09-21
CN108564126B true CN108564126B (zh) 2022-04-19

Family

ID=63535888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810353922.9A Active CN108564126B (zh) 2018-04-19 2018-04-19 一种融合语义控制的特定场景生成方法

Country Status (1)

Country Link
CN (1) CN108564126B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447137B (zh) * 2018-10-15 2022-06-14 聚时科技(上海)有限公司 一种基于分解因子的图像局部风格迁移方法
CN109493417B (zh) * 2018-10-31 2023-04-07 深圳大学 三维物体重建方法、装置、设备和存储介质
CN109584257B (zh) * 2018-11-28 2022-12-09 中国科学院深圳先进技术研究院 一种图像处理方法及相关设备
CN109726718B (zh) * 2019-01-03 2022-09-16 电子科技大学 一种基于关系正则化的视觉场景图生成***及方法
CN109831352B (zh) * 2019-01-17 2022-05-17 柳州康云互联科技有限公司 一种用于互联网检测中基于对抗生成网络的检测样本生成***及方法
CN109871898B (zh) * 2019-02-27 2020-04-07 南京中设航空科技发展有限公司 一种利用生成对抗网络生成堆积物训练样本的方法
US10832450B2 (en) * 2019-03-27 2020-11-10 GM Global Technology Operations LLC Semantic preserved style transfer
CN110414593B (zh) * 2019-07-24 2022-06-21 北京市商汤科技开发有限公司 图像处理方法及装置、处理器、电子设备及存储介质
CN110516577B (zh) * 2019-08-20 2022-07-12 Oppo广东移动通信有限公司 图像处理方法、装置、电子设备及存储介质
CN110766638A (zh) * 2019-10-31 2020-02-07 北京影谱科技股份有限公司 一种对图像中物体背景风格进行转换方法和装置
WO2021097845A1 (zh) * 2019-11-22 2021-05-27 驭势(上海)汽车科技有限公司 一种仿真场景的图像生成方法、电子设备和存储介质
CN110738276A (zh) * 2019-12-19 2020-01-31 北京影谱科技股份有限公司 图像素材生成方法和装置及电子设备、计算机可读存储介质
CN111563482A (zh) * 2020-06-18 2020-08-21 深圳天海宸光科技有限公司 基于gan的加油站危险场景图片生成方法
CN112966742A (zh) * 2021-03-05 2021-06-15 北京百度网讯科技有限公司 模型训练方法、目标检测方法、装置和电子设备
CN113487629B (zh) * 2021-07-07 2023-04-07 电子科技大学 一种基于结构化场景和文本描述的图像属性编辑方法
CN115086059B (zh) * 2022-06-30 2023-03-21 北京永信至诚科技股份有限公司 基于欺骗域特定语言的欺骗场景描述文件生成方法、装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9792821B1 (en) * 2016-03-25 2017-10-17 Toyota Jidosha Kabushiki Kaisha Understanding road scene situation and semantic representation of road scene situation for reliable sharing
US11055537B2 (en) * 2016-04-26 2021-07-06 Disney Enterprises, Inc. Systems and methods for determining actions depicted in media contents based on attention weights of media content frames
CN106096531B (zh) * 2016-05-31 2019-06-14 安徽省云力信息技术有限公司 一种基于深度学习的交通图像多类型车辆检测方法
CN106878632B (zh) * 2017-02-28 2020-07-10 北京知慧教育科技有限公司 一种视频数据的处理方法和装置
CN107743072B (zh) * 2017-07-04 2020-07-17 中国电力科学研究院 高效可扩展的网络仿真场景生成方法
CN107862293B (zh) * 2017-09-14 2021-05-04 北京航空航天大学 基于对抗生成网络的雷达生成彩色语义图像***及方法
CN107832558B (zh) * 2017-11-29 2021-12-03 闽江学院 数字舞台创意场景智能生成方法

Also Published As

Publication number Publication date
CN108564126A (zh) 2018-09-21

Similar Documents

Publication Publication Date Title
CN108564126B (zh) 一种融合语义控制的特定场景生成方法
Lin et al. Cross-domain complementary learning using pose for multi-person part segmentation
Wang et al. Adaptive fusion for RGB-D salient object detection
Chen et al. Sketchygan: Towards diverse and realistic sketch to image synthesis
Garcia-Garcia et al. A review on deep learning techniques applied to semantic segmentation
CN108537136B (zh) 基于姿态归一化图像生成的行人重识别方法
CN106033435B (zh) 物品识别方法和装置,室内地图生成方法和装置
Zhao et al. A fully end-to-end deep learning approach for real-time simultaneous 3D reconstruction and material recognition
CN113408584B (zh) Rgb-d多模态特征融合3d目标检测方法
Nehashree Simulation and Performance Analysis of Feature Extraction and Matching Algorithms for Image Processing Applications
Ma et al. Learning multiscale deep features and SVM regressors for adaptive RGB-T saliency detection
CN111597978B (zh) 基于StarGAN网络模型实现行人重识别图片自动生成的方法
Rawat et al. A spring-electric graph model for socialized group photography
Nida et al. Video augmentation technique for human action recognition using genetic algorithm
CN112528811A (zh) 行为识别方法和装置
Gonzalez-Sosa et al. Real time egocentric segmentation for video-self avatar in mixed reality
CN112699261A (zh) 一种服装图像自动生成***及方法
Xu The research on applying artificial intelligence technology to virtual youtuber
Jong et al. Virtual try-on with generative adversarial networks: A taxonomical survey
WO2023185074A1 (zh) 一种基于互补时空信息建模的群体行为识别方法
CN116958766A (zh) 图像处理方法
Lu et al. Optimized training of deep neural network for image analysis using synthetic objects and augmented reality
CN116977547A (zh) 一种三维人脸重建方法、装置、电子设备和存储介质
Karbasi et al. Real-time hand detection by depth images: A survey
Kong et al. Foreground feature attention module based on unsupervised saliency detector for few-shot learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant