CN111860555A - 图像处理方法、装置以及存储介质 - Google Patents

图像处理方法、装置以及存储介质 Download PDF

Info

Publication number
CN111860555A
CN111860555A CN201910362077.6A CN201910362077A CN111860555A CN 111860555 A CN111860555 A CN 111860555A CN 201910362077 A CN201910362077 A CN 201910362077A CN 111860555 A CN111860555 A CN 111860555A
Authority
CN
China
Prior art keywords
image
generator
sample
sketch
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910362077.6A
Other languages
English (en)
Inventor
董博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201910362077.6A priority Critical patent/CN111860555A/zh
Publication of CN111860555A publication Critical patent/CN111860555A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种图像处理方法、装置以及存储介质,涉及计算机技术领域,其中方法包括:构建生成式对抗网络模型,生成器根据样本图像描述文本获得生成图像,生成包含有与样本草图和生成图像的联合图像,根据判别器对于联合图像、样本图像描述文本的判别结果生成目标函数,使用基于目标函数调整后的生成器生成图像。本公开的图像处理方法、装置以及存储介质,样本图像描述文本和样本草图能够互补信息,可以基于样本图像描述文本和样本草图调整模型,通过调整后的模型生成更加精准的图像;提供新的对抗网络模型,提高网络训练的效率、生成的图像的准确度,适用性和鲁棒性较好。

Description

图像处理方法、装置以及存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种图像处理方法、装置以及存储介质。
背景技术
生成式对抗网络模型是一种生成模型,包含生成器网络(Generator Network)和判别器网络(Discriminator Network),生成器网络和判别器网络相互竞争,直至达到平衡。目前的生成式对抗网络模型只能基于草图生成与此草图的图像特征相同的图像,在训练过程中,现有的生成式对抗网络模型学习特征的速度较为缓慢,并且,基于生成式对抗网络模型生成的图像的准确度较差。
发明内容
有鉴于此,本发明要解决的一个技术问题是提供一种图像处理方法、装置以及存储介质。
根据本公开的一个方面,提供一种图像处理方法,包括:构建通过文本生成图像的生成式对抗网络模型;其中,所述的生成式对抗网络模型包括:生成器和判别器;将样本图像描述文本输入所述生成器,获得所述生成器输出的生成图像;生成包含有与样本草图和所述生成图像的联合图像;其中,所述样本草图对应的图像特征与所述图像样本描述文本对应的图像特征相同;将所述联合图像、所述样本图像描述文本输入所述判别器,获得判别结果;根据所述判别结果生成所述生成式对抗网络模型的目标函数,基于所述目标函数对所述生成器和所述判别器进行调整;使用调整后的所述生成器基于图像描述文本生成图像并输出。
可选地,获得用于表征所述生成图像与所述样本草图之间的相似度的第一判别结果;获得用于表征所述生成图像为假的第二判别结果;和,获得用于表征所述生成图像为真的第三判别结果。
可选地,根据所述第一判别结果构建所述生成器的草图损失函数;根据所述第二判别结果构建所述生成器的语义损失函数;基于所述草图损失函数和所述语义损失函数构建生成器目标函数;根据所述第三判别结果构建判别器损失函数;基于所述生成器损失函数和所述判别器损失函数生成所述目标函数。
可选地,所述根据所述第一判别结果构建所述生成器的草图损失函数包括:使用图像掩码对所述联合图像进行过滤处理,获得与所述生成图像对应的生成图像简笔图、与所述样本草图相对应的样本草图简笔图;计算所述生成图像简笔图与所述样本草图简笔图之间的距离,其中,所述距离为所述第一判别结果,所述距离包括:KL距离、欧式距离;基于所述距离构建用于确定所述生成图像简笔图与所述样本草图简笔图之间的相似度的所述草图损失函数;
可选地,所述根据所述第二判别结果构建所述生成器的语义损失函数包括:获得判别所述生成图像为假的第一概率信息;其中,所述第一概率信息为所述第二判别结果;基于所述第一概率信息构建所述语义损失函数。
可选地,所述基于所述草图损失函数和所述语义损失函数构建生成器目标函数包括:确定与所述草图损失函数或所述语义损失函数相对应的加权值;基于所述草图损失函数、所述语义损失函数以及所述加权值生成所述生成器目标函数。
可选地,所述将样本图像描述文本输入所述生成器包括:使用编码器将所述样本图像描述文本转换为用于表示图像特征的输入向量;获得与所述样本图像描述文本相对应的随机变量;将所述输入向量和所述随机变量相结合,输入所述生成器。
可选地,所述生成器目标函数为:L1=DKL(M⊙y,M⊙G(z,φ(t)))+λlog(1-D(G(z,φ(t))));其中,M为图像掩码,z为所述随机变量,φ(t)为所述输入向量,y为所述样本草图,G(z,φ(t)为所述生成图像,M⊙y为所述样本草图简笔图,M⊙G(z,φ(t))为所述生成图像简笔图,DKL为所述草图损失函数,D(G(z,φ(t))为生成器输出的所述生成图像为与所述样本图像描述文本相对应的真实图像的概率;1-D(G(z,φ(t))为所述第一概率信息,λ为所述加权值。
可选地,所述根据所述第三判别结果构建判别器损失函数包括:获得判别所述生成图像为真的第二概率信息;其中,所述第二概率信息为所述第三判别结果;基于所述第二概率信息构建所述判别器损失函数。
可选地,所述判别器损失函数为L2=logD(G(z,φ(t));其中,D(G(z,φ(t))为第二概率信息,第二概率信息为生成器输出的所述生成图像为与所述样本图像描述文本相对应的真实图像的概率。
可选地,确定所述目标函数为minGmaxDV(D,G)=L2+L1;
其中,V(D,G)为所述生成器和所述判别器进行调整后的数学期望,D为判别器器,G为生成器。
可选地,利用深度卷积神经网络构建所述生成器和所述判别器;其中,所述生成器和所述判别器包括:输入层、全连接层和输出层。
根据本公开的另一方面,提供一种图像处理装置,包括:模型构建模块,用于构建通过文本生成图像的生成式对抗网络模型;其中,所述的生成式对抗网络模型包括:生成器和判别器;样本生成模块,用于将样本图像描述文本输入所述生成器,获得所述生成器输出的生成图像;图像联合模块,用于生成包含有与样本草图和所述生成图像的联合图像;其中,所述样本草图对应的图像特征与所述图像样本描述文本对应的图像特征相同;图像判别模块,用于将所述联合图像、所述样本图像描述文本输入所述判别器,获得判别结果;模型调整模块,根据所述判别结果生成所述生成式对抗网络模型的目标函数,基于所述目标函数对所述生成器和所述判别器进行调整;图像生成模块,用于使用调整后的所述生成器基于图像描述文本生成图像并输出。
可选地,所述图像判别模块,用于获得用于表征所述生成图像与所述样本草图之间的相似度的第一判别结果;获得用于表征所述生成图像为假的第二判别结果;和,获得用于表征所述生成图像为真的第三判别结果。
可选地,所述模型调整模块,包括:第一损失确定单元,用于根据所述第一判别结果构建所述生成器的草图损失函数;根据所述第二判别结果构建所述生成器的语义损失函数;基于所述草图损失函数和所述语义损失函数构建生成器目标函数;第二损失确定单元,用于根据所述第三判别结果构建判别器损失函数;基于所述生成器损失函数和所述判别器损失函数生成所述目标函数。
可选地,所述第一损失确定单元,用于使用图像掩码对所述联合图像进行过滤处理,获得与所述生成图像对应的生成图像简笔图、与所述样本草图相对应的样本草图简笔图;计算所述生成图像简笔图与所述样本草图简笔图之间的距离,其中,所述距离为所述第一判别结果,所述距离包括:KL距离、欧式距离;基于所述距离构建用于确定所述生成图像简笔图与所述样本草图简笔图之间的相似度的所述草图损失函数;
可选地,所述第一损失确定单元,还用于获得判别所述生成图像为假的第一概率信息;其中,所述第一概率信息为所述第二判别结果;基于所述第一概率信息构建所述语义损失函数。
可选地,所述第一损失确定单元,还用于确定与所述草图损失函数或所述语义损失函数相对应的加权值;基于所述草图损失函数、所述语义损失函数以及所述加权值生成所述生成器目标函数。
可选地,所述样本生成模块,还用于使用编码器将所述样本图像描述文本转换为用于表示图像特征的输入向量;获得与所述样本图像描述文本相对应的随机变量;将所述输入向量和所述随机变量相结合,输入所述生成器。
可选地,所述生成器目标函数为:L1=DKL(M⊙y,M⊙G(z,φ(t)))+λlog(1-D(G(z,φ(t))));其中,M为图像掩码,z为所述随机变量,φ(t)为所述输入向量,y为所述样本草图,G(z,φ(t)为所述生成图像,M⊙y为所述样本草图简笔图,N⊙G(z,φ(t))为所述生成图像简笔图,DKL为所述草图损失函数,D(G(z,φ(t))为生成器输出的所述生成图像为与所述样本图像描述文本相对应的真实图像的概率;1-D(G(z,φ(t))为所述第一概率信息,λ为所述加权值。
可选地,所述第二损失确定单元,用于获得判别所述生成图像为真的第二概率信息;其中,所述第二概率信息为所述第三判别结果;基于所述第二概率信息构建所述判别器损失函数。
可选地,所述判别器损失函数为L2=logD(G(z,φ(t));其中,D(G(z,φ(t))为第二概率信息,第二概率信息为生成器输出的所述生成图像为与所述样本图像描述文本相对应的真实图像的概率。
可选地,所述模型调整模块,包括:目标函数确定单元,用于确定所述目标函数为minGmaxDV(D,G)=L2+L1;其中,V(D,G)为所述生成器和所述判别器进行调整后的数学期望,D为判别器器,G为生成器。
可选地,所述模型构建模块,用于利用深度卷积神经网络构建所述生成器和所述判别器;其中,所述生成器和所述判别器包括:输入层、全连接层和输出层。
根据本公开的又一方面,提供一种图像处理装置,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如上所述的方法。
根据本公开的再一方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行如上所述的方法。
本公开的图像处理方法、装置以及存储介质,对抗网络模型的生成器根据样本图像描述文本获得生成图像,生成包含有与样本草图和生成图像的联合图像,根据判别器对于联合图像、样本图像描述文本的判别结果生成目标函数,使用基于目标函数调整后的生成器生成图像;样本图像描述文本能够描述图像的类别和颜色等,样本草图能够描述图像的具体细节、姿态、位置和尺寸等信息,可以基于样本图像描述文本和样本草图调整模型,通过调整后的模型生成更加精准的图像;提供新的对抗网络模型,提高网络训练的效率、生成的图像的准确度,适用性和鲁棒性较好。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为根据本公开的图像处理方法的一个实施例的流程示意图;
图2为根据本公开的图像处理方法的一个实施例中的生成目标函数的流程示意图;
图3为根据本公开的图像处理方法的一个实施例中的生成式对抗网络模型的示意图;
图4为根据本公开的图像处理方法的一个实施例中的生成草图损失函数的流程示意图;
图5为根据本公开的图像处理装置的一个实施例的模块示意图;
图6为根据本公开的图像处理装置的一个实施例中的模型调整模块的模块示意图;
图7为根据本公开的图像处理装置的另一个实施例的模块示意图。
具体实施方式
下面参照附图对本公开进行更全面的描述,其中说明本公开的示例性实施例。下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。下面结合各个图和实施例对本公开的技术方案进行多方面的描述。
下文中的“第一”、“第二”等仅用于描述上相区别,并没有其它特殊的含义。
图1为根据本公开的图像处理方法的一个实施例的流程示意图,如图1所示:
步骤101,构建通过文本生成图像的生成式对抗网络模型,生成式对抗网络模型包括:生成器和判别器。
生成式对抗网络(Generative Adversarial Network,GAN)是一种深度学习模型,通过生成器模型(Generative Model)和判别器模型(Discriminative Model)的互相博弈学习产生相当好的输出。生成式对抗网络通常使用深度神经网络作为生成器G和判别器D,基于“博奕论”的思想,生成器生成图像,判别器对输入的图像进行判别,判别是来自数据集的图像还是由生成器产生的图像。
步骤102,将样本图像描述文本输入生成器,获得生成器输出的生成图像。
样本图像描述文本为用于描述样本图像的文本。例如,样本图像(真实图像)为鸟的图像,样本图像描述文本为描述鸟的图像的文本,可以为“小鸟有黑色的眼睛、白色的羽毛、尖嘴、红色的爪子”。
步骤103,生成包含有与样本草图和生成图像的联合图像,样本草图对应的图像特征与图像样本描述文本对应的图像特征相同。
样本草图可以由用户绘制并由用户输入。样本草图是与图像样本描述文本以及样本图像相对应的草图,例如,用户手绘样本草图,样本草图为与图像样本描述文本“小鸟有黑色的眼睛、白色的羽毛、尖嘴、红色的爪子”相对应的样本草图。生成器在输出生成图像后,获得样本草图,生成包含有样本草图和生成图像的联合图像。
步骤104,将联合图像、样本图像描述文本输入判别器,获得判别结果。
步骤105,根据判别结果生成生成式对抗网络模型的目标函数,基于目标函数对生成器和判别器进行调整。
判别器相当于一个二分类器,可以区分输入的图像是来自于真实样本图像还是生成器生成的图像,可以判别生成图像是否为真实的样本图像的概率等。目标函数可以基于生成器、判别器的损失函数进行确定。可以采用样本图像、图像样本描述文本以及样本草图等作为训练集,并基于目标函数并对生成式对抗网络模型进行训练,对生成器和判别器进行调整。可以通过现有的迭代训练对生成器和判别器进行调整,提高网络模型的精度。
例如,生成器G生成图片,判别器D判别一张图片是不是“真实的”。判别器的输入是x图片,输出D(x)代表x图片为真实图片的概率,如果为1,代表x图片100%是真实的图片,而输出为0,代表x图片不是真实的图片。
生成器G的目标是尽量生成真实的图片去欺骗判别器D,判别器D的目标是尽量把生成器G生成的图片和真实的图片分别开来,生成器G和判别器D构成了一个动态的“博弈过程”。
生成器G和判别器D博弈的结果是在理想的状态下,生成器G可以生成足以“以假乱真”的图片G(z),而判别器D难以判定生成器G生成的图片是不是真实的。当D(G(z))=0.5,则得到了一个生成器G,可以用来生成图片。
步骤106,使用调整后的生成器基于图像描述文本生成图像并输出。可以使用训练好的生成器基于图像描述文本生成图像。
上述实施例中的图像处理方法,样本图像描述文本能够描述具体样本图像的类别和颜色等,样本草图能够描述样本图像的具体细节、姿态、位置和尺寸等信息,样本图像描述文本和样本草图能够互补信息,基于样本图像描述文本和样本图像描述文本对模型进行训练,训练好的模型可以生成更加精准的图像。
将样本图像描述文本输入生成器可以有多种方法。例如,使用编码器将样本图像描述文本转换为用于表示图像特征的输入向量,获得与样本图像描述文本相对应的随机变量,将输入向量和随机变量相结合,输入生成器。随机变量可以为随机噪声Z~N(0,1)等。
卷积神经网络是一种常见的深度学习网络,利用深度卷积神经网络构建生成器和判别器,生成器和判别器可以包括输入层、全连接层和输出层等。例如,生成器网络可以包括依次相连接的输入层、多个卷积层、多个最大池化层、多个反卷积层和输出层等。输入层的输入为随机噪声和输入向量,输出层输出生成图像。
在一个实施例中,通过判别器获得的判别结果信息可以有多种。例如,获得用于表征生成图像与样本草图之间的相似度的第一判别结果,获得用于表征生成图像为假的第二判别结果,获得用于表征生成图像为真的第三判别结果。
图2为根据本公开的图像处理方法的一个实施例中的生成目标函数的示意图,如图2所示:
步骤201,根据第一判别结果构建生成器的草图损失函数。
步骤202,根据第二判别结果构建生成器的语义损失函数。
步骤203,基于草图损失函数和语义损失函数构建生成器目标函数。
步骤204,根据第三判别结果构建判别器损失函数。
步骤205,基于生成器损失函数和判别器损失函数生成目标函数。
如图3所示,生成式对抗网络模型包括生成器网络和判别器网络。生成器网络接收随机变量z和φ结合的变量,输出生成图像。获得样本草图,生成包含有与样本草图和生成图像的联合图像,联合图像的左侧为样本草图,右侧为生成图像。
判别器网络判别生成的联合图像是否真实,φ为通过文本编码器对样本图像描述文本进行处理,获得的表示图像特征的输入向量,样本图像描述文本可以为“具有黑色脑袋、红黄色身体、灰色尾巴和蓝色背部的小鸟”。
z为满足正态分布的噪声先验。文件编码器可以为基于神经网络模型的编码器,生成的输入向量可以为视觉向量。文本编码器可以有多种,例如,文本编码器可以为预训练好的混合字符级卷积循环(hybrid character-level convolutional-recurrent)网络模型,文本编码器生成一个与样本图像描述文本对应的、能表示图像特征的视觉向量。
将随机变量z和描述文本t通过编码器φ编码之后生成的向量相结合,生成新变量,将新变量输入生成器网络,生成器网络使用一个全连接卷积层和一个Leaky ReLUs层、输出特定长度的embedding输出层。
联合图像可以为样本草图和生成图像的联合图像对,联合图像对包含了上下文的内容信息。生成式对抗网络模型中的判别器需要区分生成图像和真实图像,生成器需要生成能够欺骗判别器的图片。
图4为根据本公开的图像处理方法的一个实施例中的生成草图损失函数的流程示意图,如图4所示:
步骤401,使用图像掩码对联合图像进行过滤处理,获得与生成图像对应的生成图像简笔图、与样本草图相对应的样本草图简笔图。
图像掩码可以是用于掩盖图像中指定部分的二进制掩码,可以对联合图像进行过滤生成简笔图,简笔图为使用一些简单的线条的图。获得的简笔图为与生成图像对应的生成图像简笔图、与样本草图相对应的样本草图简笔图。
步骤402,计算生成图像简笔图与样本草图简笔图之间的距离,其中,距离为第一判别结果,距离包括:KL距离、欧式距离等。KL距离为Kullback-Leibler差异,欧式距离为欧几里得度量(euclidean metric)。
步骤403,基于距离构建用于确定生成图像简笔图与样本草图简笔图之间的相似度的草图损失函数。
根据第二判别结果构建生成器的语义损失函数可以有多种方法获得判别生成图像为假的第一概率信息,第一概率信息为第二判别结果;基于第一概率信息构建语义损失函数。向判别器输入生成器输出的生成图像,如果判别器确定输入的图像为与样本图像描述文本相对应的样本图像,则判别生成图像为真,如果判别器确定输入的图像为生成器输出的生成图像,则判别生成图像为假。确定与草图损失函数或语义损失函数相对应的加权值。基于草图损失函数、语义损失函数以及加权值生成生成器目标函数。
例如,生成器目标函数为:L1=DKL(M⊙y,M⊙G(z,φ(t)))+λlog(1-D(G(z,φ(t))));其中,M为图像掩码,z为随机变量(随机噪音),φ(t)为输入向量,y为样本草图,G(z,φ(t)为生成图像,M⊙y为样本草图简笔图,M⊙G(z,φ(t))为生成图像简笔图,DKL为草图损失函数,D(G(z,φ(t))为生成器输出的生成图像为与样本图像描述文本相对应的真实图像(样本图像)的概率;1-D(G(z,φ(t))为第一概率信息,λ为加权值。
获得判别生成图像为真的第二概率信息,第二概率信息为第三判别结果。基于第二概率信息构建判别器损失函数。例如,判别器损失函数为L2=logD(G(z,φ(t));其中,D(G(z,φ(t))为第二概率信息,第二概率信息为生成器输出的生成图像为与样本图像描述文本相对应的真实图像的概率。
确定目标函数为minGmaxDV(D,G)=L2+L1;其中,V(D,G)可以为生成器和判别器进行调整后的数学期望,D为判别器器,G为生成器。
在一个实施例中,对于给定一个随机变量z和文本编码φ(t)结合的变量,t为样本图像描述文本,确定生成器的损失函数包含两个损失函数。第一个损失函数是需要获得最小化生成的图像G(z,φ(t))中的草图部分和联合图像AB中的样本草图B的相似度,使用KL距离来衡量图像G(z,φ(t))中的草图部分和输入的样本草图B的相似度。
草图损失函数
Lcontextual(z,φ(t))=DKL(M⊙y,M⊙G(z,φ(t)));其中,M为一个二进制掩码,⊙为Hadamard乘积。M⊙y表示联合图像AB经过M过滤后的样本草图简笔图。如果图像G(z,φ(t))中的草图部分和输入的样本草图B是一样的,则Lcontextual(z,φ(t))为0。
第二个损失函数包含了语义级别的内容,生成器网络的对抗损失函数为:语义损失函数Lp-eceptual(z,φ(t))=log(1-D(G(z,φ(t))))。对于输入(z,φ(t)),生成器的目标函数就变为两个损失函数的和:
Lcontextual(z,φ(t))+λLp-eceptual(z,φ(t));
生成式对抗网络模型的目标函数为:
minGmaxDV(D,G)=logD(()+Lconte(tual(z,φ(t))+
λLpreceptual(z,φ(t))。
基于目标函数对生成器和判别器进行调整可以采用现有的多种方法,进行调整后获得满足期望值的生成器,基于图像描述文本生成图像并输出。
在一个实施例中,如图5所示,本公开提供一种图像处理装置50,包括:模型构建模块51、样本生成模块52、图像联合模块53、图像判别模块54、模型调整模块55和图像生成模块56。模型构建模块51构建通过文本生成图像的生成式对抗网络模型;其中,的生成式对抗网络模型包括:生成器和判别器。模型构建模块51利用深度卷积神经网络构建生成器和判别器,生成器和判别器包括:输入层、全连接层和输出层。
样本生成模块52将样本图像描述文本输入生成器,获得生成器输出的生成图像。图像联合模块53生成包含有与样本草图和生成图像的联合图像,样本草图对应的图像特征与图像样本描述文本对应的图像特征相同。
图像判别模块54将联合图像、样本图像描述文本输入判别器,获得判别结果。模型调整模块55判别结果生成生成式对抗网络模型的目标函数,基于目标函数对生成器和判别器进行调整。图像生成模块56使用调整后的生成器基于图像描述文本生成图像并输出。
图像判别模块54获得用于表征生成图像与样本草图之间的相似度的第一判别结果,获得用于表征生成图像为假的第二判别结果,获得用于表征生成图像为真的第三判别结果。
如图6所示,模型调整模块55包括:第一损失确定单元551、第二损失确定单元552和目标函数确定单元553。第一损失确定单元551根据第一判别结果构建生成器的草图损失函数,根据第二判别结果构建生成器的语义损失函数,基于草图损失函数和语义损失函数构建生成器目标函数。第二损失确定单元552根据第三判别结果构建判别器损失函数,基于生成器损失函数和判别器损失函数生成目标函数。
第一损失确定单元551使用图像掩码对联合图像进行过滤处理,获得与生成图像对应的生成图像简笔图、与样本草图相对应的样本草图简笔图。第一损失确定单元551计算生成图像简笔图与样本草图简笔图之间的距离,其中,距离为第一判别结果,距离包括:KL距离、欧式距离等。第一损失确定单元551基于距离构建用于确定生成图像简笔图与样本草图简笔图之间的相似度的草图损失函数。
第一损失确定单元551获得判别生成图像为假的第一概率信息,第一概率信息为第二判别结果,基于第一概率信息构建语义损失函数。第一损失确定单元551确定与草图损失函数或语义损失函数相对应的加权值,基于草图损失函数、语义损失函数以及加权值生成生成器目标函数。
样本生成模块52使用编码器将样本图像描述文本转换为用于表示图像特征的输入向量。样本生成模块52获得与样本图像描述文本相对应的随机变量,将输入向量和随机变量相结合,输入生成器。生成器目标函数为:L1=DKL(M⊙y,M⊙G(z,φ(t)))+λlog(1-D(G(z,φ(t))))。
第二损失确定单元552获得判别生成图像为真的第二概率信息,第二概率信息为第三判别结果,基于第二概率信息构建判别器损失函数。判别器损失函数为L2=logD(G(z,φ(t))。目标函数确定单元553确定目标函数为minGmaxDV(D,G)=L2+L1;其中,V(D,G)为生成器和判别器进行调整后的数学期望,D为判别器器,G为生成器。
根据本公开的又一方面,提供一种图像处理装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行如上的方法。
在一个实施例中,图7为根据本公开的图像处理装置的另一个实施例的模块示意图。如图7所示,该装置可包括存储器71、处理器72、通信接口73以及总线74。存储器71用于存储指令,处理器72耦合到存储器71,处理器72被配置为基于存储器71存储的指令执行实现上述的图像处理方法。
存储器71可以为高速RAM存储器、非易失性存储器(non-volatile memory)等,存储器71也可以是存储器阵列。存储器71还可能被分块,并且块可按一定的规则组合成虚拟卷。处理器72可以为中央处理器CPU,或专用集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本公开的图像处理方法的一个或多个集成电路。
在一个实施例中,本公开提供一种物流***,包括:机器人、如上任一实施例中的图像处理装置,图像处理装置将目标物品的三维中心位置信息以及姿态信息发送给机器人。
在一个实施例中,本公开提供一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,指令被处理器执行时实现如上任一个实施例中的图像处理方法。
上述实施例提供的图像处理方法、装置以及存储介质,构建生成式对抗网络模型,生成器根据样本图像描述文本获得生成图像,生成包含有与样本草图和生成图像的联合图像,根据判别器对于联合图像、样本图像描述文本的判别结果生成目标函数,使用基于目标函数调整后的生成器生成图像;样本图像描述文本能够描述图像的类别和颜色等,样本草图能够描述图像的具体细节、姿态、位置和尺寸等信息,样本图像描述文本和样本草图能够互补信息,可以基于样本图像描述文本和样本草图调整模型,通过调整后的模型生成更加精准的图像;那个提供新的对抗网络模型,提高网络训练的效率、生成的图像的准确度,适用性和鲁棒性较好。
可能以许多方式来实现本公开的方法和***。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和***。用于方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
本公开的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用,并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims (15)

1.一种图像处理方法,包括:
构建通过文本生成图像的生成式对抗网络模型;其中,所述的生成式对抗网络模型包括:生成器和判别器;
将样本图像描述文本输入所述生成器,获得所述生成器输出的生成图像;
生成包含有与样本草图和所述生成图像的联合图像;其中,所述样本草图对应的图像特征与所述图像样本描述文本对应的图像特征相同;
将所述联合图像、所述样本图像描述文本输入所述判别器,获得判别结果;
根据所述判别结果生成所述生成式对抗网络模型的目标函数,基于所述目标函数对所述生成器和所述判别器进行调整;
使用调整后的所述生成器基于图像描述文本生成图像并输出。
2.如权利要求1所述的方法,所述获得判别结果信息包括:
获得用于表征所述生成图像与所述样本草图之间的相似度的第一判别结果;
获得用于表征所述生成图像为假的第二判别结果;和,
获得用于表征所述生成图像为真的第三判别结果。
3.如权利要求2所述的方法,还包括:
根据所述第一判别结果构建所述生成器的草图损失函数;
根据所述第二判别结果构建所述生成器的语义损失函数;
基于所述草图损失函数和所述语义损失函数构建生成器目标函数;
根据所述第三判别结果构建判别器损失函数;
基于所述生成器损失函数和所述判别器损失函数生成所述目标函数。
4.如权利要求3所述的方法,所述根据所述第一判别结果构建所述生成器的草图损失函数包括:
使用图像掩码对所述联合图像进行过滤处理,获得与所述生成图像对应的生成图像简笔图、与所述样本草图相对应的样本草图简笔图;
计算所述生成图像简笔图与所述样本草图简笔图之间的距离,其中,所述距离为所述第一判别结果,所述距离包括:KL距离、欧式距离;
基于所述距离构建用于确定所述生成图像简笔图与所述样本草图简笔图之间的相似度的所述草图损失函数。
5.如权利要求4所述的方法,所述根据所述第二判别结果构建所述生成器的语义损失函数包括:
获得判别所述生成图像为假的第一概率信息;其中,所述第一概率信息为所述第二判别结果;
基于所述第一概率信息构建所述语义损失函数。
6.如权利要求5所述的方法,所述基于所述草图损失函数和所述语义损失函数构建生成器目标函数包括:
确定与所述草图损失函数或所述语义损失函数相对应的加权值;
基于所述草图损失函数、所述语义损失函数以及所述加权值生成所述生成器目标函数。
7.如权利要求6所述的方法,所述将样本图像描述文本输入所述生成器包括:
使用编码器将所述样本图像描述文本转换为用于表示图像特征的输入向量;
获得与所述样本图像描述文本相对应的随机变量;
将所述输入向量和所述随机变量相结合,输入所述生成器。
8.如权利要求7所述的方法,其中,
所述生成器目标函数为:
L1=DKL(M⊙y,M⊙G(z,φ(t)))+λlog(1-D(G(z,φ(t))));
其中,M为图像掩码,z为所述随机变量,φ(t)为所述输入向量,y为所述样本草图,G(z,φ(t)为所述生成图像,M⊙y为所述样本草图简笔图,M⊙G(z,φ(t))为所述生成图像简笔图,DKL为所述草图损失函数,D(G(z,φ(t))为生成器输出的所述生成图像为与所述样本图像描述文本相对应的真实图像的概率;1-D(G(z,φ(t))为所述第一概率信息,λ为所述加权值。
9.如权利要求6所述的方法,所述根据所述第三判别结果构建判别器损失函数包括:
获得判别所述生成图像为真的第二概率信息;其中,所述第二概率信息为所述第三判别结果;
基于所述第二概率信息构建所述判别器损失函数。
10.如权利要求9所述的方法,其中,
所述判别器损失函数为L2=log D(G(z,φ(t));其中,D(G(z,φ(t))为第二概率信息,第二概率信息为生成器输出的所述生成图像为与所述样本图像描述文本相对应的真实图像的概率。
11.如权利要求10所述的方法,其中,
确定所述目标函数为minG maxD V(D,G)=L2+L1;
其中,V(D,G)为所述生成器和所述判别器进行调整后的数学期望,D为判别器器,G为生成器。
12.如权利要求1至11任一项所述的方法,其中,
利用深度卷积神经网络构建所述生成器和所述判别器;
其中,所述生成器和所述判别器包括:输入层、全连接层和输出层。
13.一种图像处理装置,包括:
模型构建模块,用于构建通过文本生成图像的生成式对抗网络模型;其中,所述的生成式对抗网络模型包括:生成器和判别器;
样本生成模块,用于将样本图像描述文本输入所述生成器,获得所述生成器输出的生成图像;
图像联合模块,用于生成包含有与样本草图和所述生成图像的联合图像;其中,所述样本草图对应的图像特征与所述图像样本描述文本对应的图像特征相同;
图像判别模块,用于将所述联合图像、所述样本图像描述文本输入所述判别器,获得判别结果;
模型调整模块,根据所述判别结果生成所述生成式对抗网络模型的目标函数,基于所述目标函数对所述生成器和所述判别器进行调整;
图像生成模块,用于使用调整后的所述生成器基于图像描述文本生成图像并输出。
14.一种图像处理装置,包括:
存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1至12中任一项所述的方法。
15.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行如权利要求1至12中任一项所述的方法。
CN201910362077.6A 2019-04-30 2019-04-30 图像处理方法、装置以及存储介质 Pending CN111860555A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910362077.6A CN111860555A (zh) 2019-04-30 2019-04-30 图像处理方法、装置以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910362077.6A CN111860555A (zh) 2019-04-30 2019-04-30 图像处理方法、装置以及存储介质

Publications (1)

Publication Number Publication Date
CN111860555A true CN111860555A (zh) 2020-10-30

Family

ID=72965683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910362077.6A Pending CN111860555A (zh) 2019-04-30 2019-04-30 图像处理方法、装置以及存储介质

Country Status (1)

Country Link
CN (1) CN111860555A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112614197A (zh) * 2020-11-23 2021-04-06 上海眼控科技股份有限公司 图像生成方法、装置、计算机设备和存储介质
CN113673349A (zh) * 2021-07-20 2021-11-19 广东技术师范大学 基于反馈机制的图像生成中文文本方法、***及装置
CN113706646A (zh) * 2021-06-30 2021-11-26 酷栈(宁波)创意科技有限公司 用于生成山水画的数据处理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112614197A (zh) * 2020-11-23 2021-04-06 上海眼控科技股份有限公司 图像生成方法、装置、计算机设备和存储介质
CN113706646A (zh) * 2021-06-30 2021-11-26 酷栈(宁波)创意科技有限公司 用于生成山水画的数据处理方法
CN113673349A (zh) * 2021-07-20 2021-11-19 广东技术师范大学 基于反馈机制的图像生成中文文本方法、***及装置

Similar Documents

Publication Publication Date Title
CN109409222B (zh) 一种基于移动端的多视角人脸表情识别方法
Barsoum et al. Hp-gan: Probabilistic 3d human motion prediction via gan
CN111860555A (zh) 图像处理方法、装置以及存储介质
JP6760318B2 (ja) 顔画像識別システム、識別器生成装置、識別装置、画像識別システム、及び識別システム
CN110084193B (zh) 用于面部图像生成的数据处理方法、设备和介质
CN110188673B (zh) 表情识别方法和装置
JP7257756B2 (ja) 画像識別装置、画像識別方法、学習装置、及びニューラルネットワーク
CN111389008B (zh) 虚拟角色的面部生成方法、自动捏脸方法及装置
CN111833236B (zh) 产生模拟用户的三维脸部模型的方法及装置
CN113095333B (zh) 无监督特征点检测方法及装置
Dozono et al. Convolutional self organizing map
JP5120238B2 (ja) オブジェクト領域抽出装置及びオブジェクト領域抽出プログラム
CN111832372A (zh) 产生模拟用户的三维脸部模型的方法及装置
CN111046893B (zh) 图像相似性确定方法和装置、图像处理方法和装置
KR102229034B1 (ko) 표정 관련 정보 생성 장치와 방법 및 표정 생성 장치
JP2016095640A (ja) 密度計測装置、密度計測方法、およびプログラム
Correia et al. X-faces: The exploit is out there
CN113591763A (zh) 人脸脸型的分类识别方法、装置、存储介质及计算机设备
CN110610131B (zh) 人脸运动单元的检测方法、装置、电子设备及存储介质
CN112818774A (zh) 一种活体检测方法及装置
CN111079823A (zh) 验证码图像生成方法及***
CN116843785A (zh) 基于人工智能绘画图像生成方法、显示终端及存储介质
Gona et al. Multimodal biometric reorganization system using deep learning convolutional neural network
CN113096206B (zh) 基于注意力机制网络的人脸生成方法、装置、设备及介质
CN111612861B (zh) 一种图像合成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination