CN117292007A - 图像生成方法及装置 - Google Patents

图像生成方法及装置 Download PDF

Info

Publication number
CN117292007A
CN117292007A CN202311274061.2A CN202311274061A CN117292007A CN 117292007 A CN117292007 A CN 117292007A CN 202311274061 A CN202311274061 A CN 202311274061A CN 117292007 A CN117292007 A CN 117292007A
Authority
CN
China
Prior art keywords
model
image
diffusion model
basic
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311274061.2A
Other languages
English (en)
Inventor
曹佳炯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202311274061.2A priority Critical patent/CN117292007A/zh
Publication of CN117292007A publication Critical patent/CN117292007A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本说明书实施例公开了一种图像生成方法及装置,该图像生成方法包括利用包括图像空间的扩散模型和隐空间的扩散模型的初级模型训练,确定支持在prompt下的关联初级模型,并构建双重扩散模型进行模型训练,然后结合资源信息,训练路径权重优化模型,自适应寻找图像生成路径,得到目标图像。

Description

图像生成方法及装置
技术领域
本说明书的一个或多个实施例涉及人工智能领域,特别的涉及一种图像生成方法及装置。
背景技术
随着互联网的发展,基于扩散模型的图像生成方法在AIGC领域取得了重大突破,推动了AIGC技术从学术界向工业界迈进。
但是,目前AIGC图像生成方面,主要有两种不同的技术路径,包括基于隐空间扩散的AIGC图像生成方法和直接在图像空间进行扩散的AIGC图像生成方法,两者各有优点但无法兼顾,比如前者无法对一些图像细节进行较好的控制,而后者往往需要耗费大量的计算资源和时间。
发明内容
针对现有技术中存在的问题,本发明实施例提供一种图像生成方法及装置。
第一方面,本说明书实施例提供了一种图像生成方法,包括:
构建图像训练的初级模型,所述初级模型包含图像空间的扩散模型和隐空间的扩散模型;
将prompt输入所述初级模型,获取所述初级模型训练过程中的第一损失函数,并以所述第一损失函数作为收敛函数进行训练,得到关联的初级模型;
对关联的初级模型进行联合训练,得到双重扩散模型;
将所述prompt输入双重扩散模型,获取所述双重扩散模型训练过程中的第二损失函数,并以所述第二损失函数作为收敛函数进行训练,得到输出的标准图像;
获取资源信息,结合所述标准图像,资源信息计算所述双重扩散模型的层权重,并以所述层权重对所述双重扩散模型训练过程进行优化,得到优化后的双重扩散模型输出的目标图像。
第二方面,本说明书实施例提供了一种图像生成装置,包括:
初级模型构建模块,配置为构建图像训练的初级模型,所述初级模型包含图像空间的扩散模型和隐空间的扩散模型;
初级模型训练模块,配置为将prompt输入所述初级模型,获取所述初级模型训练过程中的第一损失函数,并以所述第一损失函数作为收敛函数进行训练,得到关联的初级模型;
联合训练模块,配置为对关联的初级模型进行联合训练,得到双重扩散模型;
双重扩散模型训练模块,配置为将所述prompt输入双重扩散模型,获取所述双重扩散模型训练过程中的第二损失函数,并以所述第二损失函数作为收敛函数进行训练,得到输出的标准图像;
双重扩散模型优化模块,配置为获取资源信息,结合所述标准图像,资源信息计算所述双重扩散模型的层权重,并以所述层权重对所述双重扩散模型训练过程进行优化,得到优化后的双重扩散模型输出的目标图像。
第三方面,本说明书实施例提供了一种电子设备,包括处理器以及存储器;
所述处理器与所述存储器相连;
所述存储器,用于存储可执行程序代码;
所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于执行一个或多个实施例所述的方法。
第四方面,本说明书实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现一个或多个实施例所述的方法。
鉴于上述,在本说明书一个或多个实施例中,利用包括图像空间的扩散模型和隐空间的扩散模型的初级模型训练,在减少模型复杂度的情况下,确定支持在prompt下的关联初级模型,并构建双重扩散模型进行模型训练,保证各种路径下的标准图像的生成询过,然后结合资源信息,训练路径权重优化模型,自适应寻优的图像生成路径,得到目标图像。从而能够结合隐空间扩散和图像空间扩散的优势,进行双重训练,并在扩散过程中基于资源信息进行动态的路径选择,从而用较小的资源消耗,达到较好的细节控制效果。
附图说明
为了更清楚地说明本说明书实施例中的技术方案,下面将对实施例中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书一个实施例所应用的***架构的示意图。
图2是本说明书一个实施例提供的一种图像生成方法的流程图。
图3是本说明书一个实施例提供的又一种图像生成方法的流程图。
图4是本说明书一个实施例提供的又一种图像生成方法的流程图。
图5是本说明书一个实施例提供的一种图像生成装置的结构示意图。
图6是本说明书一个实施例提供的一种电子设备的结构示意图。
具体实施方式
现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。例如,所描述的方法可以按照与所描述的顺序不同的顺序来执行,以及各个步骤可以被添加、省略或者组合。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。
如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
本说明书在结合一个或多个实施例对图像口令处理方法进行详细阐述之前,可先简单说明现有技术对AIGC图像的生成方式。
随着互联网的发展,基于扩散模型的图像生成方法在AIGC领域取得了重大突破,图像的AIGC应用有了爆发性增长。无论是国内还是国外都有了很多图像类的AIGC玩法和应用。目前AIGC图像生成方面,主要有两种不同的技术路径。第一种技术方案是基于隐空间扩散的AIGC图像生成方法。这类方法首先通过VAE将高维图像映射到低维隐空间,然后在低维隐空间进行扩散。扩散得到结果后,再利用VAE将隐空间的结果映射到图像空间,得到生成图像。这类方法的优点是在隐空间进行扩散,算法速度快、效率高。缺点是,无法对一些图像细节进行较好的控制。第二种技术方案则是直接在图像空间进行扩散的AIGC图像生成方法。这类方法直接在图像空间进行扩散,扩散结束后,直接得到生成图像。这类方法的优点是可以对图像细节进行良好的控制。但是,在高维图像空间进行扩散,往往需要耗费大量的计算资源和时间。
鉴于上述,本说明书的实施例提出一种图像生成方案。利用包括图像空间的扩散模型和隐空间的扩散模型的初级模型训练,在减少模型复杂度的情况下,确定支持在prompt下的关联初级模型,并构建双重扩散模型进行模型训练,保证各种路径下的标准图像的生成询过,然后结合资源信息,训练路径权重优化模型,自适应寻优的图像生成路径,得到目标图像。从而能够结合隐空间扩散和图像空间扩散的优势,进行双重训练,并在扩散过程中基于资源信息进行动态的路径选择,从而用较小的资源消耗,达到较好的细节控制效果。
下面将结合附图来详细描述根据本说明书实施例的图像生成方案。
请参考图1,图1示出了根据本说明书的实施例的AIGC模型的示例性应用场景。
在图1中,AIGC模型通过服务器/终端训练,并在训练完成后,配置到平台或终端,接收用户的prompt(prompt用户提供给AIGC模型的输入文本或指令。它通常用于指导模型生成特定的图像、场景或其它指令结果。用户可以根据需要提供不同的prompt来产生不同的结果),并生成对应的指令结果。服务器/终端可以是能够训练模型的相关设备,比如专用服务器、图形处理器、云服务器、个人计算机、GPU服务器、边缘设备等或任意组合。
接收用户prompt的平台或终端可以配置AIGC模型,并接收与用户的prompt进行相关任务,可以包括命令行终端、Jupyter Notebook平台,网页应用程序,移动应用程序等或任意组合。
应当理解,图1中所示的所有网络实体都是示例性的,根据具体的应用需求,应用场景中可以涉及任何其它网络实体。
图2示出了根据本说明书的实施例的图像生成过程的流程图,如图2所示,包括:
步骤202,构建图像训练的初级模型,所述初级模型包含图像空间的扩散模型和隐空间的扩散模型。
在步骤202中,以图像空间的扩散模型和隐空间的扩散模型为基础,构建图像训练的初级模型,其中,基于图像空间的扩散模型是指使用图像数据本身作为输入,并通过对图像进行操作或变换来生成新的内容。这种模型通常会利用图像处理的技术,例如卷积神经网络、生成对抗网络(GAN)等,来学习和生成与输入图像相关的内容。这种模型的生成过程主要是在图像空间中进行的,来生成高质量的图像,但往往需要耗费大量的计算资源和时间。基于隐空间的扩散模型是指通过对隐变量进行操作或变换来生成新的内容。隐变量是指潜在的、高维度的向量表示,可以在AIGC模型中起到编码和生成内容的作用。这种模型通常会使用自编码器、变分自编码器(VAE)等技术来学习和操作隐变量,从而生成具有多样性和连续性的内容。这种模型的生成过程主要是在隐空间中进行的,能够生成具有逼真和多样性的图像但无法对一些图像细节进行较好的控制。构建初级模型时,需要对图像空间的扩散模型和隐空间的扩散模型进行配置融合,比如在构建初级模型时,对图像空间的扩散模型和隐空间的扩散模型进行并行融合、串行融合、增强融合等等方法,将对图像空间的扩散模型和隐空间的扩散模型配置为能够互补增强的初级模型。
另外,在配置初级模型时,初级模型的具体构成可以包括大规模模型、基础模型、关联映射模块,其中,大规模模型是指由庞大的数据集训练得到的深度学习模型,通过在大量数据上进行训练来学习数据的潜在模式和规律,生成的内容可能具有多样性和创造性,但大规模的模型会导致大的显存和计算资源消耗;基础模型可以为深度学习模型,比如图像生成模型:用于生成图像内容的基础模型可以是生成对抗网络(GAN)的变种,如DCGAN(Deep Convolutional GAN)或StyleGAN(Style-based GAN)。这些模型可以通过学习真实图像的统计特征和特定图像风格的表示来生成逼真的图像;关联映射模块是建立输入特征与生成器网络之间的关联,以便生成器能够根据输入生成相应的输出,在图像生成中,关联映射模块可以将一个或多个输入特征(如噪声向量、文本描述、条件图像等)与生成器网络的输入层或中间层进行连接。这样,生成器网络可以根据输入的特征来生成与之相关的图像内容。而大规模模型、基础模型分别包括图像空间的扩散模型和隐空间的扩散模型,即初级模型可以由4个模型以及关联映射模块配置而成,其中,4个模型包括基于图像空间和基于隐空间的大规模扩散模型、基于图像空间和基于隐空间的基本扩散模型,而关联映射模块用于对基于图像空间和基于隐空间的基本扩散模型的关联性进行检测。
步骤204,将prompt输入所述初级模型,获取所述初级模型训练过程中的第一损失函数,并以所述第一损失函数作为收敛函数进行训练,得到关联的初级模型。
在步骤204中,将prompt输入初级模型进行训练,在输入prompt时,也可以同时输入原始噪声,然后通过初级模型对prompt、原始噪声进行训练,训练的目的为得到初级模型中图像空间的扩散模型和隐空间的扩散模型之间的关联度,根据图像空间的扩散模型和隐空间的扩散模型之间的关联度得到关联的初级模型,训练的方式可以为迭代训练,对应的收敛函数为初级模型训练过程中产生的第一损失函数,如图3所示,初级模型训练过程可以通过如下步骤实现。
步骤302,将prompt输入大规模模型中的图像空间的扩散模型和隐空间的扩散模型,输出对应的大规模图像。本步骤中,可以将prompt分别输入基于图像空间和基于隐空间的大规模扩散模型,图像空间的大规模扩散模型可以是使用卷积神经网络(CNN)或生成对抗网络(GAN)等技术构建的模型,通过一系列图像处理操作和变换,对输入的prompt和噪声进行处理和生成,输出大规模图像;隐空间的大规模扩散模型通过对隐变量的操作和变换,对输入的prompt和噪声进行编码和解码将prompt和噪声转化为一个潜在的高维向量表示,解码过程将潜在向量转化为大规模图像,大规模图像包括来自图像空间的大规模扩散模型以及隐空间的大规模扩散模型。
步骤304,将prompt输入基础模型中的图像空间的扩散模型和隐空间的扩散模型,输出对应的基础图像。本步骤中,可以将prompt分别输入基于图像空间和基于隐空间的基本扩散模型,基本扩散模型相比于大规模扩散模型,体积和消耗算力大约是大规模扩散模型的15%-25%,图像空间的基本扩散模型通过一系列图像处理操作和变换,对输入的prompt和噪声进行处理和生成,模型将输出一个基础图像,可以是低分辨率的图像或者是满足特定要求的基础图像;隐空间的基本扩散模型可以是使用自编码器(Autoencoder)、变分自编码器(VAE)等技术构建的模型,模型将通过对隐变量的操作和变换,对输入的prompt和噪声进行编码和解码,编码过程将prompt和噪声转化为一个潜在的高维向量表示,解码过程将潜在向量转化为基础图像,基础图像包括图像空间的基本扩散模型以及隐空间的基本扩散模型。
步骤306,将所述大规模图像和基础图像中的隐空间输入所述关联映射模块,输出初级图像。本步骤中,关联映射模块接收大规模图像和基础图像的隐空间向量作为输入。可以采用一组卷积层、全连接层或其他类型的层来进行特征提取和融合操作。通过将大规模图像和基础图像的隐空间向量进行关联和映射,关联映射模块将生成初级图像的表示。具体的初级图像生成过程可以为拟合过程,包括:将大规模图像和基础图像分别通过隐空间编码器,将它们转化为对应的隐空间表示,大规模图像和基础图像的隐空间输出将作为关联映射模块的输入数据,模块可以采用一组卷积层、全连接层或其他类型的层来进行特征提取和融合操作。通过关联映射模块,将大规模图像和基础图像的隐空间输出进行关联和映射,利用关联映射模块生成的关联图像表示,可以使用解码器或逆卷积网络等技术将其转化为初级图像。解码器可以将关联图像的表示转化为像素级别的图像,使其与原始输入的大规模图像和基础图像相匹配。最终输出的拟合后的初级图像将作为模型的输出结果。
另外,在初级模型训练过程中,以产生的第一损失函数作为收敛函数进行训练,其中,第一损失函数可以包括生成图像与目标图像之间差异的扩散损失,生成图像与基础图像之间相似性的蒸馏损失,生成图像与初级图像之间关联程度的关联损失,在迭代训练过程中,以第一损失函数小为迭代目标,并确定在达到迭代目标时,初级模型中对应的图像空间的基本扩散模型和隐空间的基本扩散模型,即为关联的初级模型。
步骤206,对关联的初级模型进行联合训练,得到双重扩散模型。
在步骤206中,确定初级模型中关联的图像空间的基本扩散模型和隐空间的基本扩散模型之后,对基本扩散模型和隐空间的基本扩散模型进行联合训练,比如并行融合、串行融合、增强融合等方法,得到对应的双重扩散模型。
另外,在配置双重扩散模型时,双重扩散模型的具体构成除了包括图像空间的基础扩散模型、隐空间的基础扩散模型外,还包括路径交互模型、融合输出模型,其中,路径交互模型是一种用于图像处理或计算机视觉任务的模型,其目的是通过交互不同路径上的信息来增强特征表示,融合输出模型是一种将多个模型的输出进行融合以产生最终结果的模型。这种模型通常用于集成多个模型的预测或特征表示,以提高整体性能或减少单个模型的偏差。
步骤208,将所述prompt输入双重扩散模型,获取所述双重扩散模型训练过程中的第二损失函数,并以所述第二损失函数作为收敛函数进行训练,得到输出的标准图像。
在步骤208中,将prompt输入双重扩散模型进行训练,在输入prompt时,也可以同时输入原始噪声,然后通过双重扩散模型对prompt、原始噪声进行训练,训练的目的为得到双重扩散模型输出的标准图像,训练的方式可以为迭代训练,对应的收敛函数为初级模型训练过程中产生的第二损失函数,如图4所示,双重扩散模型训练过程可以通过如下步骤实现。
步骤402,将prompt输入所述图像空间的基础扩散模型和隐空间的基础扩散模型进行训练,获取所述图像空间的基础扩散模型和隐空间的基础扩散模型的中间层特征。本步骤中,基于图像空间的基础扩散模型的输入是prompt和随机噪声,输出是对应的生成图像;基于隐空间的基础扩散模型的输入是prompt和随机噪声,输出是对应的生成图像,然后获取图像空间的基础扩散模型和隐空间的基础扩散模型在训练过程中的中间层特征,其中,对于图像空间的基础扩散模型,中间层特征是在图像像素级别上提取的。这些特征可以是卷积层的激活输出,也可以是池化层的池化结果。这些特征捕捉了图像中的局部和全局信息,可以用于图像分类、目标检测等任务;对于隐空间的基础扩散模型,中间层特征是在潜在空间上提取的。这些特征是通过隐空间编码器将输入图像映射到潜在空间得到的。这些特征具有更高层次的语义表示,可以用于图像生成、图像重建等任务,这些中间层特征可以在融合输出模型中进行进一步的特征提取和融合。可以使用卷积层、全连接层或其他类型的层来提取和组合这些特征,以获得更丰富和有用的信息。
步骤404,将所述中间层特征输入所述路径交互模型,输出交互后的中间层特征,并以交互后对的中间层特征替换原中间层特征。本步骤中,将图像空间基础扩散模型和隐空间基础扩散模型的中间层特征作为输入传入路径交互模型,这两个特征将作为路径交互模型的输入,用于进行模型间的交互。路径交互模型通过学习和训练,对输入的中间层特征进行交互,生成交互后的中间层特征,这个交互过程可以是特征的融合、组合或其他形式的交互,具体方法可以根据任务和数据集的需求进行设计。将交互后的中间层特征再次输入到图像空间基础扩散模型和隐空间基础扩散模型中,作为新的中间层特征,这样可以使得基础模型能够利用路径交互模型的输出,进一步提高模型的性能和泛化能力。
步骤406,获取所述图像空间的基础扩散模型和隐空间的基础扩散模型输出的过程图像,并将所述过程图像输入融合输出模型,得到对应的标准图像。在本步骤中,获取在替换新的中间层特征后,图像空间的基础扩散模型和隐空间的基础扩散模型输出的两种过程图像,将两种过程图像进行融合,包括:将图像空间的基础扩散模型的输出图像和隐空间的基础扩散模型的输出图像作为输入传入融合输出模型,可以使用拼接、加权求和或其他融合方法将这两个图像进行融合,得到一个融合后的输入图像。然后通过融合输出模型进行训练:融合输出模型接收融合后的输入图像作为输入,可以使用卷积层、全连接层或其他类型的层来提取特征并进行信息融合,通过模型的学习和训练,将融合后的输入图像转化为最终的输出结果。即为双重扩散模型输出的标准图像。
另外,在双重扩散模型训练过程中,以产生的第二损失函数作为收敛函数进行训练,其中,第一损失函数可以包括标准图像与目标图像之间差异的扩散损失,在迭代训练过程中,以第二损失函数小为迭代目标,并确定在达到迭代目标时,对应输出的标准图像。
步骤210,获取资源信息,结合所述标准图像,资源信息计算所述双重扩散模型的层权重,并以所述层权重对所述双重扩散模型训练过程进行优化,得到优化后的双重扩散模型输出的目标图像。
在步骤210中,在实际的训练过程中,需要分析当前训练环境中的的计算资源信息,并根据计算资源情况来自适应跳过一部分的层,从而达到较好的质量和效率的折衷。通过获取资源信息,结合双重扩散模型训练过程中标准图像的训练结合,确定双重扩散模型中每一层对双重扩散模型训练过程的资源使用权重,确定每一层的权重后,通过层权重对双重扩散模型训练过程进行优化,然后通过优化后的双重扩散模型进行模型训练,得到优化后的标准图像,即为与prompt对应的,输出的目标图像。
另外,具体的双重扩散模型优化过程包括两个模型,训练过程中的双重扩散模型,输入输出均为标准图像;路径权重优化模型,输入是双重扩散模型训练过程中的环境资源信息(CPU、GPU型号、占用情况等等),输出是每一层的权重,其中,路径权重优化模型可以先预定优化目标,比如权重阈值可以设定为0.5,低于0.5的层会被跳过;然后根据优化目标和约束条件,选择合适的优化算法,常见的优化算法包括梯度下降、遗传算法、粒子群优化等,选择合适的算法可以有效地搜索和更新每一层的权重;根据选择的优化算法,使用梯度或其他方法,更新每一层的权重。这个过程可以通过迭代来完成,直到达到优化目标或满足约束条件为止。迭代过程中的收敛函数,可以包括训练过程中的双重扩散模型产生的第二损失函数以及路径权重优化模型产生的权重稀疏损失,以损失函数小为迭代目标,并确定在达到迭代目标时,表明双重扩散模型优化完成。
在本说明书实施例中,实施例的实施目的在于,利用包括图像空间的扩散模型和隐空间的扩散模型的初级模型训练,在减少模型复杂度的情况下,确定支持在prompt下的关联初级模型,并构建双重扩散模型进行模型训练,保证各种路径下的标准图像的生成询过,然后结合资源信息,训练路径权重优化模型,自适应寻优的图像生成路径,得到目标图像。从而能够结合隐空间扩散和图像空间扩散的优势,进行双重训练,并在扩散过程中基于资源信息进行动态的路径选择,从而用较小的资源消耗,达到较好的细节控制效果。
在本说明书一个或多个实施例中,在训练得到优化后的双重扩散模型,将双重扩散模型部署到云端服务器或者终端设备,在部署到云端服务器或者终端设备后,接收用户实时输入到相关平台/APP的内容生成指令(prompt),并实施获取当前云端服务器或者终端设备的资源信息,根据实时资源信息对双重扩散模型进行进一步的实时优化,并将内容生成指令输入至实时优化后的双重扩散模型,输出内容生成指令对应的目标图像。
上述对本说明书特定实施例进行了描述。其他实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
下面将结合附图5,对本申请实施例提供的图像生成装置进行详细介绍。需要说明的是,附图5所示的图像生成装置,用于执行本申请图1所示实施例的方法,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请图5所示的实施例。
请参见图5,图5是本申请实施例提供的一种图像生成装置的结构示意图。如图5所示,所述装置包括:
初级模型构建模块501,配置为构建图像训练的初级模型,所述初级模型包含图像空间的扩散模型和隐空间的扩散模型;
初级模型训练模块502,配置为将prompt输入所述初级模型,获取所述初级模型训练过程中的第一损失函数,并以所述第一损失函数作为收敛函数进行训练,得到关联的初级模型;
联合训练模块503,配置为对关联的初级模型进行联合训练,得到双重扩散模型;
双重扩散模型训练模块504,配置为将所述prompt输入双重扩散模型,获取所述双重扩散模型训练过程中的第二损失函数,并以所述第二损失函数作为收敛函数进行训练,得到输出的标准图像;
双重扩散模型优化模块505,配置为获取资源信息,结合所述标准图像,资源信息计算所述双重扩散模型的层权重,并以所述层权重对所述双重扩散模型训练过程进行优化,得到优化后的双重扩散模型输出的目标图像。
在一些可能的实施例中,图像生成装置至少还包括:
初级模型配置模块,配置为所述初级模型包括大规模模型、基础模型、关联映射模块,所述大规模模型、基础模型分别包括图像空间的扩散模型和隐空间的扩散模型。
在一些可能的实施例中,图像生成装置至少还包括:
大规模图像训练模块,配置为将prompt输入大规模模型中的图像空间的扩散模型和隐空间的扩散模型,输出对应的大规模图像;
基础图像训练模块,配置为将prompt输入基础模型中的图像空间的扩散模型和隐空间的扩散模型,输出对应的基础图像;
初级图像训练模块,配置为将所述大规模图像和基础图像中的隐空间输入所述关联映射模块,输出初级图像。
在一些可能的实施例中,图像生成装置至少还包括:
拟合训练模块,配置为将所述大规模图像和基础图像中的隐空间输出作为所述关联映射模块的输入数据,所述大规模图像和基础图像中的图像空间输出作为拟合对象,输出拟合后的初级图像。
在一些可能的实施例中,图像生成装置至少还包括:
第一损失函数生成模块,配置为获取所述初级模型训练过程中产生的扩散损失、蒸馏损失、关联损失,生成对应的第一损失函数。
在一些可能的实施例中,图像生成装置至少还包括:
双重扩散模型配置模块,配置为所述双重扩散模型包括图像空间的基础扩散模型、隐空间的基础扩散模型、路径交互模型、融合输出模型。
在一些可能的实施例中,图像生成装置至少还包括:
中间层特征获取模块,配置为将prompt输入所述图像空间的基础扩散模型和隐空间的基础扩散模型进行训练,获取所述图像空间的基础扩散模型和隐空间的基础扩散模型的中间层特征;
中间层特征替换模块,配置为将所述中间层特征输入所述路径交互模型,输出交互后的中间层特征,并以交互后对的中间层特征替换原中间层特征;
标准图像输出模块,配置为获取所述图像空间的基础扩散模型和隐空间的基础扩散模型输出的过程图像,并将所述过程图像输入融合输出模型,得到对应的标准图像。
在一些可能的实施例中,图像生成装置至少还包括:
标准图像训练模块,配置为将所述标准图像输入所述双重扩散模型,输出训练后的标准图像,并获取产生的第二损失函数;
权重训练模块,配置为将所述资源信息输入路径权重优化模块,输出层权重,并获取产生的权重稀疏损失;
权重优化模块,配置为以所述第二损失函数和权重稀疏损失作为收敛函数进行训练,直至收敛函数收敛,得到优化后的双重扩散模型。
本领域的技术人员可以清楚地了解到本申请实施例的技术方案可借助软件和/或硬件来实现。本说明书中的“单元”和“模块”是指能够独立完成或与其他部件配合完成特定功能的软件和/或硬件,其中硬件例如可以是现场可编程门阵列(Field-ProgrammableGate Array,FPGA)、集成电路(Integrated Circuit,IC)等。
本申请实施例的各处理单元和/或模块,可通过实现本申请实施例所述的功能的模拟电路而实现,也可以通过执行本申请实施例所述的功能的软件而实现。
参见图6,其示出了本申请实施例所涉及的一种电子设备的结构示意图,该电子设备可以用于实施图1所示实施例中的方法。如图6所示,电子设备600可以包括:至少一个处理器601,至少一个网络接口604,用户接口603,存储器605,至少一个通信总线602。
其中,通信总线602用于实现这些组件之间的连接通信。
其中,用户接口603可以包括显示屏(Display)、摄像头(Camera),可选用户接口603还可以包括标准的有线接口、无线接口。
其中,网络接口604可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器601可以包括一个或者多个处理核心。处理器601利用各种接口和线路连接整个电子设备600内的各个部分,通过运行或执行存储在存储器605内的指令、程序、代码集或指令集,以及调用存储在存储器605内的数据,执行终端600的各种功能和处理数据。可选的,处理器601可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(ProgrammableLogic Array,PLA)中的至少一种硬件形式来实现。处理器601可集成处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作***、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器601中,单独通过一块芯片进行实现。
其中,存储器605可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器605包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器605可用于存储指令、程序、代码、代码集或指令集。存储器605可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作***的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器605可选的还可以是至少一个位于远离前述处理器601的存储装置。如图6所示,作为一种计算机存储介质的存储器605中可以包括操作***、网络通信模块、用户接口模块以及程序指令。
在图6所示的电子设备600中,用户接口603主要用于为用户提供输入的接口,获取用户输入的数据;而处理器601可以用于调用存储器605中存储的基于图像生成的互动应用程序,并具体执行以下操作:构建图像训练的初级模型,初级模型包含图像空间的扩散模型和隐空间的扩散模型;将prompt输入初级模型,获取初级模型训练过程中的第一损失函数,并以第一损失函数作为收敛函数进行训练,得到关联的初级模型;对关联的初级模型进行联合训练,得到双重扩散模型;将prompt输入双重扩散模型,获取双重扩散模型训练过程中的第二损失函数,并以第二损失函数作为收敛函数进行训练,得到输出的标准图像;获取资源信息,结合标准图像,资源信息计算双重扩散模型的层权重,并以层权重对双重扩散模型训练过程进行优化,得到优化后的双重扩散模型输出的目标图像。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。其中,计算机可读存储介质可以包括但不限于任何类型的盘,包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米***(包括分子存储器IC),或适合于存储指令和/或数据的任何类型的媒介或设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通进程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random AccessMemory,RAM)、磁盘或光盘等。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

Claims (18)

1.一种图像生成方法,其中,包括:
构建图像训练的初级模型,所述初级模型包含图像空间的扩散模型和隐空间的扩散模型;
将prompt输入所述初级模型,获取所述初级模型训练过程中的第一损失函数,并以所述第一损失函数作为收敛函数进行训练,得到关联的初级模型;
对关联的初级模型进行联合训练,得到双重扩散模型;
将所述prompt输入双重扩散模型,获取所述双重扩散模型训练过程中的第二损失函数,并以所述第二损失函数作为收敛函数进行训练,得到输出的标准图像;
获取资源信息,结合所述标准图像,资源信息计算所述双重扩散模型的层权重,并以所述层权重对所述双重扩散模型训练过程进行优化,得到优化后的双重扩散模型输出的目标图像。
2.根据权利要求1所述的方法,其中,所述方法还包括:
所述初级模型包括大规模模型、基础模型、关联映射模块,所述大规模模型、基础模型分别包括图像空间的扩散模型和隐空间的扩散模型。
3.根据权利要求2所述的方法,其中,所述初级模型训练过程,包括:
将prompt输入大规模模型中的图像空间的扩散模型和隐空间的扩散模型,输出对应的大规模图像;
将prompt输入基础模型中的图像空间的扩散模型和隐空间的扩散模型,输出对应的基础图像;
将所述大规模图像和基础图像中的隐空间输入所述关联映射模块,输出初级图像。
4.根据权利要求3所述的方法,其中,所述将所述大规模图像和基础图像中的隐空间输入所述关联映射模块,输出初级第一图像,包括:
将所述大规模图像和基础图像中的隐空间输出作为所述关联映射模块的输入数据,所述大规模图像和基础图像中的图像空间输出作为拟合对象,输出拟合后的初级图像。
5.根据权利要求3所述的方法,其中,所述第一损失函数,包括:
获取所述初级模型训练过程中产生的扩散损失、蒸馏损失、关联损失,生成对应的第一损失函数。
6.根据权利要求1所述的方法,其中,所述方法还包括:
所述双重扩散模型包括图像空间的基础扩散模型、隐空间的基础扩散模型、路径交互模型、融合输出模型。
7.根据权利要求6所述的方法,其中,所述双重扩散模型训练过程,包括:
将prompt输入所述图像空间的基础扩散模型和隐空间的基础扩散模型进行训练,获取所述图像空间的基础扩散模型和隐空间的基础扩散模型的中间层特征;
将所述中间层特征输入所述路径交互模型,输出交互后的中间层特征,并以交互后对的中间层特征替换原中间层特征;
获取所述图像空间的基础扩散模型和隐空间的基础扩散模型输出的过程图像,并将所述过程图像输入融合输出模型,得到对应的标准图像。
8.根据权利要求1所述的方法,其中,所述结合所述标准图像,资源信息计算所述双重扩散模型的层权重,并以所述层权重对所述双重扩散模型训练过程进行优化,包括:
将所述标准图像输入所述双重扩散模型,输出训练后的标准图像,并获取产生的第二损失函数;
将所述资源信息输入路径权重优化模块,输出层权重,并获取产生的权重稀疏损失;
以所述第二损失函数和权重稀疏损失作为收敛函数进行训练,直至收敛函数收敛,得到优化后的双重扩散模型。
9.一种图像生成装置,其中,包括:
初级模型构建模块,配置为构建图像训练的初级模型,所述初级模型包含图像空间的扩散模型和隐空间的扩散模型;
初级模型训练模块,配置为将prompt输入所述初级模型,获取所述初级模型训练过程中的第一损失函数,并以所述第一损失函数作为收敛函数进行训练,得到关联的初级模型;
联合训练模块,配置为对关联的初级模型进行联合训练,得到双重扩散模型;
双重扩散模型训练模块,配置为将所述prompt输入双重扩散模型,获取所述双重扩散模型训练过程中的第二损失函数,并以所述第二损失函数作为收敛函数进行训练,得到输出的标准图像;
双重扩散模型优化模块,配置为获取资源信息,结合所述标准图像,资源信息计算所述双重扩散模型的层权重,并以所述层权重对所述双重扩散模型训练过程进行优化,得到优化后的双重扩散模型输出的目标图像。
10.根据权利要求9所述的装置,其中,包括:
初级模型配置模块,配置为所述初级模型包括大规模模型、基础模型、关联映射模块,所述大规模模型、基础模型分别包括图像空间的扩散模型和隐空间的扩散模型。
11.根据权利要求10所述的装置,其中,所述图像增强模块,包括:
大规模图像训练模块,配置为将prompt输入大规模模型中的图像空间的扩散模型和隐空间的扩散模型,输出对应的大规模图像;
基础图像训练模块,配置为将prompt输入基础模型中的图像空间的扩散模型和隐空间的扩散模型,输出对应的基础图像;
初级图像训练模块,配置为将所述大规模图像和基础图像中的隐空间输入所述关联映射模块,输出初级图像。
12.根据权利要求11所述的装置,其中,包括:
拟合训练模块,配置为将所述大规模图像和基础图像中的隐空间输出作为所述关联映射模块的输入数据,所述大规模图像和基础图像中的图像空间输出作为拟合对象,输出拟合后的初级图像。
13.根据权利要求11所述的装置,其中,包括:
第一损失函数生成模块,配置为获取所述初级模型训练过程中产生的扩散损失、蒸馏损失、关联损失,生成对应的第一损失函数。
14.根据权利要求9所述的装置,其中,包括:
双重扩散模型配置模块,配置为所述双重扩散模型包括图像空间的基础扩散模型、隐空间的基础扩散模型、路径交互模型、融合输出模型。
15.根据权利要求14所述的装置,其中,包括:
中间层特征获取模块,配置为将prompt输入所述图像空间的基础扩散模型和隐空间的基础扩散模型进行训练,获取所述图像空间的基础扩散模型和隐空间的基础扩散模型的中间层特征;
中间层特征替换模块,配置为将所述中间层特征输入所述路径交互模型,输出交互后的中间层特征,并以交互后对的中间层特征替换原中间层特征;
标准图像输出模块,配置为获取所述图像空间的基础扩散模型和隐空间的基础扩散模型输出的过程图像,并将所述过程图像输入融合输出模型,得到对应的标准图像。
16.根据权利要求9所述的装置,其中,包括:
标准图像训练模块,配置为将所述标准图像输入所述双重扩散模型,输出训练后的标准图像,并获取产生的第二损失函数;
权重训练模块,配置为将所述资源信息输入路径权重优化模块,输出层权重,并获取产生的权重稀疏损失;
权重优化模块,配置为以所述第二损失函数和权重稀疏损失作为收敛函数进行训练,直至收敛函数收敛,得到优化后的双重扩散模型。
17.一种电子设备,包括处理器以及存储器;
所述处理器与所述存储器相连;
所述存储器,用于存储可执行程序代码;
所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于执行如权利要求1-8中任一项所述的方法。
18.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的方法。
CN202311274061.2A 2023-09-28 2023-09-28 图像生成方法及装置 Pending CN117292007A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311274061.2A CN117292007A (zh) 2023-09-28 2023-09-28 图像生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311274061.2A CN117292007A (zh) 2023-09-28 2023-09-28 图像生成方法及装置

Publications (1)

Publication Number Publication Date
CN117292007A true CN117292007A (zh) 2023-12-26

Family

ID=89240534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311274061.2A Pending CN117292007A (zh) 2023-09-28 2023-09-28 图像生成方法及装置

Country Status (1)

Country Link
CN (1) CN117292007A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117893838A (zh) * 2024-03-14 2024-04-16 厦门大学 应用扩散检测模型的目标检测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117893838A (zh) * 2024-03-14 2024-04-16 厦门大学 应用扩散检测模型的目标检测方法

Similar Documents

Publication Publication Date Title
CN111402143B (zh) 图像处理方法、装置、设备及计算机可读存储介质
US10671889B2 (en) Committed information rate variational autoencoders
WO2024051445A1 (zh) 图像生成方法以及相关设备
CN111819580A (zh) 用于密集图像预测任务的神经架构搜索
CN111401406B (zh) 一种神经网络训练方法、视频帧处理方法以及相关设备
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN113064968B (zh) 一种基于张量融合网络的社交媒体情感分析方法及***
CN116721334B (zh) 图像生成模型的训练方法、装置、设备及存储介质
CN112906721B (zh) 图像处理方法、装置、设备及计算机可读存储介质
CN117292007A (zh) 图像生成方法及装置
CN112581635B (zh) 一种通用的快速换脸方法、装置、电子设备和存储介质
CN117454495B (zh) 一种基于建筑草图轮廓序列的cad矢量模型生成方法及装置
US20230153965A1 (en) Image processing method and related device
JP2023545052A (ja) 画像処理モデルの訓練方法及び装置、画像処理方法及び装置、電子機器並びにコンピュータプログラム
CN116958324A (zh) 图像生成模型的训练方法、装置、设备及存储介质
CN117576248B (zh) 基于姿态引导的图像生成方法和装置
WO2024046144A1 (zh) 一种视频处理方法及其相关设备
CN113762261A (zh) 一种对图像的字符识别方法、装置、设备及介质
CN117541668A (zh) 虚拟角色的生成方法、装置、设备及存储介质
CN117218300A (zh) 三维模型的构建方法、三维构建模型的训练方法及装置
WO2022127603A1 (zh) 一种模型处理方法及相关装置
Xie et al. Design of painting art style rendering system based on convolutional neural network
CN113822790A (zh) 一种图像处理方法、装置、设备及计算机可读存储介质
CN116798052B (zh) 文本识别模型的训练方法和装置、存储介质及电子设备
CN113822959A (zh) 一种国画生成方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination