CN115018954B - 图像生成方法、装置、电子设备和介质 - Google Patents

图像生成方法、装置、电子设备和介质 Download PDF

Info

Publication number
CN115018954B
CN115018954B CN202210941909.1A CN202210941909A CN115018954B CN 115018954 B CN115018954 B CN 115018954B CN 202210941909 A CN202210941909 A CN 202210941909A CN 115018954 B CN115018954 B CN 115018954B
Authority
CN
China
Prior art keywords
noise
image
target
text
adding stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210941909.1A
Other languages
English (en)
Other versions
CN115018954A (zh
Inventor
吴凌翔
王金桥
牛蕴方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Zidong Taichu Beijing Technology Co ltd
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202210941909.1A priority Critical patent/CN115018954B/zh
Publication of CN115018954A publication Critical patent/CN115018954A/zh
Application granted granted Critical
Publication of CN115018954B publication Critical patent/CN115018954B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Processing (AREA)

Abstract

本发明提供一种图像生成方法、装置和电子设备,涉及图像生成技术领域,解决了如何生成与目标文本的文本内容相匹配的目标无噪声图像的问题。该方法包括:可以先获取待处理的噪声图像、噪声图像对应的目标文本、目标加噪阶段和随机非空文本;并基于噪声图像、目标文本、目标加噪阶段以及随机非空文本,对噪声图像进行去噪处理,生成目标无噪声图像;其中,目标无噪声图像的图像内容与目标文本的文本内容的匹配度大于第一阈值。这样将目标文本和随机非空文本作为去噪处理过程中的引导信息,对噪声图像进行去噪处理,可以生成与目标文本的文本内容相匹配的目标无噪声图像,从而提高了生成的目标无噪声图像的准确度。

Description

图像生成方法、装置、电子设备和介质
技术领域
本发明涉及图像生成技术领域,尤其涉及一种图像生成方法、装置和电子设备。
背景技术
在扩散模型场景下的图像去噪采样过程中,通常情况下,扩散模型生成的图像与目标文本的匹配度较差。
因此,如何生成与目标文本的文本内容相匹配的目标无噪声图像,从而提高生成的目标无噪声图像的准确度是本领域技术人员亟待解决的问题。
发明内容
本发明提供一种图像生成方法,可以生成与目标文本的文本内容相匹配的目标无噪声图像,从而提高了生成的目标无噪声图像的准确度。
本发明提供一种图像生成方法,该图像生成方法可以包括:
获取待处理的噪声图像、所述噪声图像对应的目标文本和目标加噪阶段和随机非空文本。
基于所述噪声图像、所述目标文本、所述目标加噪阶段以及所述随机非空文本,对所述噪声图像进行去噪处理,生成目标无噪声图像;其中,所述目标无噪声图像的图像内容与所述目标文本的文本内容的匹配度大于第一阈值。
根据本发明提供的一种图像生成方法,所述基于所述噪声图像、所述目标文本、所述目标加噪阶段以及所述随机非空文本,对所述噪声图像进行去噪处理,得到目标无噪声图像,包括:
S1、将所述噪声图像、所述目标文本以及所述目标加噪阶段输入至扩散模型中的图像去噪模型中,得到第一参数;并将所述噪声图像、所述随机非空文本以及所述目标加噪阶段输入至所述图像去噪模型中,得到第二参数。
S2、根据所述第一参数所述第二参数,生成所述噪声图像在所述目标加噪阶段对应的无噪声图像。
S3、更新所述目标加噪阶段,判断更新后的加噪阶段是否等于第二阈值。
S4、在确定所述更新后的加噪阶段等于第二阈值的情况下,则将所述噪声图像在所述目标加噪阶段对应的无噪声图像,确定为所述目标无噪声图像。
S5、在确定所述更新后的加噪阶段大于所述第二阈值的情况下,则确定所述目标加噪阶段的前一次加噪阶段对应的噪声图像,并将所述前一次加噪阶段对应的噪声图像确定为所述待处理的噪声图像,将所述更新后的加噪阶段确定为所述目标加噪阶段,将新的随机非空文本确定为所述随机非空文本,重复执行上述S1-S5,直至更新后的加噪阶段等于第二阈值,并将所述噪声图像在所述更新后的加噪阶段对应的无噪声图像,确定为所述目标无噪声图像。
根据本发明提供的一种图像生成方法,所述第一参数包括第一均值和第一方差,所述第二参数包括第二均值,所述根据所述第一参数所述第二参数,生成所述噪声图像在所述目标加噪阶段对应的无噪声图像,包括:
对所述第一均值和所述第二均值进行融合,得到对应的目标均值。
根据所述目标均值和所述第一方差,生成所述噪声图像在所述目标加噪阶段对应的无噪声图像。
根据本发明提供的一种图像生成方法,所述对所述第一均值和所述第二均值进行融合,得到对应的目标均值,包括:
确定所述第一均值和所述第二均值的差值,并确定所述差值与其对应的权重之间的乘积。
将所述第二均值与所述乘积的和,确定为所述目标均值。
根据本发明提供的一种图像生成方法,所述确定所述目标加噪阶段的前一次加噪阶段对应的噪声图像,包括:
根据所述噪声图像、所述噪声图像在所述目标加噪阶段对应的无噪声图像以及所述第一参数中的第一方差,生成所述前一次加噪阶段对应的噪声图像。
根据本发明提供的一种图像生成方法,所述根据所述噪声图像、所述噪声图像在所述目标加噪阶段对应的无噪声图像以及所述第一方差,生成所述前一次加噪阶段对应的噪声图像,包括:
根据所述噪声图像、所述噪声图像在所述目标加噪阶段对应的无噪声图像,以及所述第一方差确定第三均值。
基于所述第一方差确定第二方差。
根据所述第三均值和所述第二方差,生成所述前一次加噪阶段对应的噪声图像。
根据本发明提供的一种图像生成方法,所述图像去噪模型是基于多个噪声图像样本、所述多个噪声图像样本各自对应的文本和加噪阶段,对初始扩散模型中的初始图像去噪模型进行训练得到的。
本发明还提供一种图像生成装置,该图像生成装置可以包括:
获取单元,用于获取待处理的噪声图像、所述噪声图像对应的目标文本、目标加噪阶段和随机非空文本。
生成单元,用于基于所述噪声图像、所述目标文本、所述目标加噪阶段以及所述随机非空文本,对所述噪声图像进行去噪处理,生成目标无噪声图像;其中,所述目标无噪声图像的图像内容与所述目标文本的文本内容的匹配度大于第一阈值。
根据本发明提供的一种图像生成装置,所述生成单元,具体用于执行:
S1、将所述噪声图像、所述目标文本以及所述目标加噪阶段输入至扩散模型中的图像去噪模型中,得到第一参数;并将所述噪声图像、所述随机非空文本以及所述目标加噪阶段输入至所述图像去噪模型中,得到第二参数。
S2、根据所述第一参数所述第二参数,生成所述噪声图像在所述目标加噪阶段对应的无噪声图像。
S3、更新所述目标加噪阶段,判断更新后的加噪阶段是否等于第二阈值。
S4、在确定所述更新后的加噪阶段等于第二阈值的情况下,则将所述噪声图像在所述目标加噪阶段对应的无噪声图像,确定为所述目标无噪声图像。
S5、在确定所述更新后的加噪阶段大于所述第二阈值的情况下,则确定所述目标加噪阶段的前一次加噪阶段对应的噪声图像,并将所述前一次加噪阶段对应的噪声图像确定为所述待处理的噪声图像,将所述更新后的加噪阶段确定为所述目标加噪阶段,将新的随机非空文本确定为所述随机非空文本,重复执行上述S1-S5,直至更新后的加噪阶段等于第二阈值,并将所述噪声图像在所述更新后的加噪阶段对应的无噪声图像,确定为所述目标无噪声图像。
根据本发明提供的一种图像生成装置,所述第一参数包括第一均值和第一方差,所述第二参数包括第二均值,所述生成单元,具体用于对所述第一均值和所述第二均值进行融合,得到对应的目标均值;根据所述目标均值和所述第一方差,生成所述噪声图像在所述目标加噪阶段对应的无噪声图像。
根据本发明提供的一种图像生成装置,所述生成单元,具体用于确定所述第一均值和所述第二均值的差值,并确定所述差值与其对应的权重之间的乘积;将所述第二均值与所述乘积的和,确定为所述目标均值。
根据本发明提供的一种图像生成装置,所述生成单元,具体用于根据所述噪声图像、所述噪声图像在所述目标加噪阶段对应的无噪声图像以及所述第一参数中的第一方差,生成所述前一次加噪阶段对应的噪声图像。
根据本发明提供的一种图像生成装置,所述生成单元,具体用于根据所述噪声图像、所述噪声图像在所述目标加噪阶段对应的无噪声图像,以及所述第一方差确定第三均值;基于所述第一方差确定第二方差;根据所述第三均值和所述第二方差,生成所述前一次加噪阶段对应的噪声图像。
根据本发明提供的一种图像生成装置,所述图像去噪模型是基于多个噪声图像样本、所述多个噪声图像样本各自对应的文本和加噪阶段,对初始扩散模型中的初始图像去噪模型进行训练得到的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的图像生成方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的图像生成方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的图像生成方法。
本发明提供的图像生成方法、装置和电子设备,在生成与目标文本的文本内容相匹配的目标无噪声图像时,可以先获取待处理的噪声图像、噪声图像对应的目标文本、目标加噪阶段和随机非空文本;并基于噪声图像、目标文本、目标加噪阶段以及随机非空文本,对噪声图像进行去噪处理,生成目标无噪声图像;其中,目标无噪声图像的图像内容与目标文本的文本内容的匹配度大于第一阈值。这样将目标文本和随机非空文本作为去噪处理过程中的引导信息,对噪声图像进行去噪处理,可以生成与目标文本的文本内容相匹配的目标无噪声图像,从而提高了生成的目标无噪声图像的准确度。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的图像生成方法的流程示意图;
图2为本发明实施例提供的对噪声图像进行去噪处理的过程示意图;
图3为本发明实施例提供的图像去噪模型的训练方法的流程示意图;
图4为本发明实施例提供的图像生成装置的结构示意图;
图5为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。在本发明的文字描述中,字符“/”一般表示前后关联对象是一种“或”的关系。
本发明实施例提供的技术方案可以应用于图像生成场景中,尤其可以应用于扩散模型中的去噪场景中。在扩散模型场景下的图像去噪采样过程中,通常情况下,扩散模型生成的图像与目标文本的匹配度较差。
为了生成与目标文本的文本内容相匹配的目标无噪声图像,从而提高生成的目标无噪声图像的准确度,本发明实施例提供了一种图像生成方法,在图像去噪采样过程中,可以预先确定两个文本,一个文本为基于噪声图像,想要生成的无噪声图像的描述文本,另一个文本为随机选择的一个非空文本,并将该两个文本作为去噪处理过程中的引导信息,对噪声图像进行去噪处理,以生成与目标文本的文本内容相匹配的目标无噪声图像,从而提高了生成的目标无噪声图像的准确度。
下面,将通过下述几个具体的实施例对本发明提供的图像生成方法行详细地说明。可以理解的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图1为本发明实施例提供的图像生成方法的流程示意图,该图像生成方法可以由软件和/或硬件装置执行。示例的,请参见图1所示,该图像生成方法可以包括:
S101、获取待处理的噪声图像、噪声图像对应的目标文本、目标加噪阶段和随机非空文本。
其中,目标文本可以理解为基于噪声图像,想要生成的无噪声图像的描述文本;随机非空文本是随机选择的一个不同于目标文本的非空文本。可以理解的是,在本发明实施例中,噪声图像对应的目标文本可以作为引导条件,随机非空文本可以作为引导基础,即目标文本和随机非空文本共同作为去噪处理过程中的引导信息,以结合该引导信息生成与目标文本的文本内容相匹配的目标无噪声图像。
示例地,在随机选择非空文本时,可以预先指定一个文本集合,该文本集合可以为一个文本训练集合中的全部文本,也可以为一个文本训练集合中的一个文本子集,具体可以根据实际需要进行设置,在此,本发明实施例不做具体限制。需要说明的是,为了保证去噪处理过程中采用的随机非空文本的内容尽可能不同,从而更加有利于辅助进行去噪处理,该文本集合需要有一定大小的规模,即文本集合需要包括一定数量的文本。
示例地,获取待处理的噪声图像时,可以从其他电子设备接收该噪声图像,可以从本地存储中查找获取该噪声图像,或者,也可以从其他第三方数据库中获取该噪声图像等,具体可以根据实际需要进行设置,在此,对于待处理的噪声图像的获取方法,本发明实施例不做具体限制。
其中,噪声图像可以理解为基于目标加噪阶段,对原始干净图像进行加噪处理得到的。假设在扩散模型场景下,设置的扩散步数为T步,目标加噪阶段用t表示,则可以确定加噪阶段范围为0-T,目标加噪阶段t为0-T内的一个随机数。示例地,假设随机确定出的目标加噪阶段为t=5,则扩散模型中的加噪处理算法,可以连续对原始干净图像进行五次加噪处理,其中,第二次加噪处理是在第一次加噪处理得到的噪声图像的基础上执行的,第三次加噪处理是在第二次加噪处理得到的噪声图像的基础上执行的,第四次加噪处理是在第三次加噪处理得到的噪声图像的基础上执行的,第五次加噪处理是在第四次加噪处理得到的噪声图像的基础上执行的,这样通过对原始干净图像进行五次加噪处理,就可以得到原始干净图像在目标加噪阶段t=5时的噪声图像。
示例地,扩散模型中的加噪处理算法,对原始干净图像进行加噪处理时,可以采用余弦方式的噪声添加方法进行逐步加噪处理,这样可以使得噪声的添加过程更平稳,可以在扩散过程中较好地保留原始干净图像的相关信息;当然,也可以采用其他的噪声添加方法进行加噪处理,具体可以根据实际需要进行设置,在此,本发明实施例只是以采用余弦方式的噪声添加方法进行加噪处理为例进行说明,但并不代表本发明实施例仅局限于此。
在分别获取到待处理的噪声图像、噪声图像对应的目标文本、目标加噪阶段和随机非空文本后,就可以执行下述S102:
S102、基于噪声图像、目标文本、目标加噪阶段以及随机非空文本,对噪声图像进行去噪处理,生成目标无噪声图像;其中,目标无噪声图像的图像内容与目标文本的文本内容的匹配度大于第一阈值。
其中,第一阈值的取值可以根据实际需要进行设置,在此,对于第一阈值的具体取值,本发明实施例不做具体限制。
通常情况下,在扩散模型场景下,可以先随机初始化一个符合高斯概率分布的目标加噪阶段,扩散模型中的加噪处理算法基于目标加噪阶段对原始干净图像进行逐步加噪处理,得到噪声图像后,可以通过逆扩散过程逐步对加噪处理得到的噪声图像进行层层去噪处理,以得到预测的目标无噪声图像。示例地,通过逆扩散过程逐步对加噪处理得到的噪声图像进行层层去噪处理时,可以基于目标加噪阶段的取值,对噪声图像进行层层去噪处理,即循环执行去噪处理操作,以得到预测的目标无噪声图像。可以理解的是,本发明实施例中,在基于目标加噪阶段的取值对噪声图像进行层层去噪处理的过程中,不同去噪阶段的噪声图像对应的目标文本为同一文本、但不同去噪阶段对应的随机非空文本不同,这样更加有利于辅助进行去噪处理。
示例地,基于噪声图像、目标文本、目标加噪阶段以及随机非空文本,对噪声图像进行去噪处理时,其去噪处理过程可以包括:
S1、将噪声图像、目标文本以及目标加噪阶段输入至扩散模型中的图像去噪模型中,得到第一参数;并将噪声图像、随机非空文本以及目标加噪阶段输入至图像去噪模型中,得到第二参数,示例地,可参见图2所示,图2为本发明实施例提供的对噪声图像进行去噪处理的过程示意图,在得到第一参数和第二参数后,可执行下述S2:
S2、根据第一参数第二参数,生成噪声图像在目标加噪阶段对应的无噪声图像。
S3、更新目标加噪阶段,判断更新后的加噪阶段是否等于第二阈值。
S4、在确定更新后的加噪阶段等于第二阈值的情况下,则将噪声图像在目标加噪阶段对应的无噪声图像,确定为目标无噪声图像。
S5、在确定更新后的加噪阶段大于第二阈值的情况下,则确定目标加噪阶段的前一次加噪阶段对应的噪声图像,并将前一次加噪阶段对应的噪声图像确定为待处理的噪声图像,将更新后的加噪阶段确定为目标加噪阶段,将新的随机非空文本确定为随机非空文本,重复执行上述S1-S5,直至更新后的加噪阶段等于第二阈值,并将噪声图像在更新后的加噪阶段对应的无噪声图像,确定为目标无噪声图像。
其中,第二阈值的取值可以根据实际需要进行设置。示例地,当加噪阶段范围为0-T时,第二阈值为0。
示例地,图像去噪模型可以为UNet神经网络模型,UNet神经网络模型主要包含输入层、中间层和输出层。其中,输入层主要由若干残差块、注意力块和下采样块堆叠构成,用于提取噪声图像的特征;中间块由一个残差块、注意力块和另一个残差块组成,用于对提取的特征进行进一步的整和处理;输出块由若干残差块、注意力块和上采样块堆叠构成,用于对中间层整和处理的特征进行恢复,从而得到噪声图像所包含噪声的均值和方差。
示例地,图像去噪模型是基于多个噪声图像样本、多个噪声图像样本各自对应的文本和加噪阶段,对初始扩散模型中的初始图像去噪模型进行训练得到的,该初始图像去噪模型的训练过程将在后续进行详细描述。
示例地,在上述S1中,将噪声图像、目标文本以及目标加噪阶段输入至扩散模型中的图像去噪模型中,图像去噪模型可以采用正弦时间编码器,对目标加噪阶段进行编码,将得到的编码特征叠加至图像去噪模型中的各个残差块中,图像去噪模型可以采用分词器对目标文本进行分词并序列化,并将序列化文本特征输入注意力块中,采用注意力机制将文本特征进行融合,最终输出目标加噪阶段对应的噪声图像所包含的均值和方差,即第一参数,第一参数包括均值和方差可对应记为第一均值和第一方差;类似的,将噪声图像、随机非空文本以及目标加噪阶段输入至扩散模型中的图像去噪模型中,图像去噪模型可以采用正弦时间编码器,对目标加噪阶段进行编码,将得到的编码特征叠加至图像去噪模型中的各个残差块中,图像去噪模型可以采用分词器对随机非空文本进行分词并序列化,并将序列化文本特征输入注意力块中,采用注意力机制将文本特征进行融合,最终输出目标加噪阶段对应的噪声图像所包含的均值和方差,即第二参数,第二参数包括均值可对应记为第二均值,鉴于其包括的方差在后续处理过程中暂时未涉及,因此,可先不对其进行区分。
示例地,在上述S2中,根据第一参数和第二参数,生成噪声图像在目标加噪阶段对应的无噪声图像时,扩散模型可以采用随机差分引导的思想,先对第一均值和第二均值进行融合,得到对应的目标均值;再根据融合得到的目标均值和第一方差,生成噪声图像在目标加噪阶段对应的无噪声图像。这样采用采用随机差分引导的思想,生成噪声图像在目标加噪阶段对应的无噪声图像,相比较无引导的生成方法,可以在一定程度上提高生成的无噪声图像的图像质量和准确度。
示例地,对第一均值和第二均值进行融合时,可以先确定第一均值和第二均值的 差值,并确定差值与其对应的权重之间的乘积;将第二均值与乘积的和,确定为目标均值。 为了便于理解,示例地,假设目标加噪阶段为t,
Figure 612608DEST_PATH_IMAGE001
表示目标加噪阶段t的噪声图像,
Figure 368074DEST_PATH_IMAGE002
表 示随机非空文本,
Figure 695151DEST_PATH_IMAGE003
表示目标文本,将目标加噪阶段t的噪声图像
Figure 510660DEST_PATH_IMAGE004
、目标文本
Figure 188766DEST_PATH_IMAGE005
以及目 标加噪阶段t输入至图像去噪模型,其输出的第一均值可记为
Figure 747923DEST_PATH_IMAGE006
,将目标加噪阶 段t的噪声图像
Figure 195085DEST_PATH_IMAGE007
、随机非空文本
Figure 915916DEST_PATH_IMAGE008
以及目标加噪阶段t输入至图像去噪模型,其输出的 第二均值可记为
Figure 81318DEST_PATH_IMAGE009
,则对第一均值
Figure 178587DEST_PATH_IMAGE010
和第二均值
Figure 745835DEST_PATH_IMAGE011
进行 融合,得到目标均值可参见下述公式1:
Figure 371988DEST_PATH_IMAGE012
其中,
Figure 290266DEST_PATH_IMAGE013
表示融合得到的目标均值,
Figure 925647DEST_PATH_IMAGE014
表示第一均值和第二均值的差值 对应的权重。
在对第一均值和第二均值进行融合,得到对应的目标均值后,就可以根据目标均值和第一方差,生成噪声图像在目标加噪阶段对应的无噪声图像,其具体实现可参见现有技术中,基于均值和方差生成噪声图像在加噪阶段对应的无噪声图像的相关方法,在此,本发明实施例不再进行赘述。
在执行上述S2生成噪声图像在目标加噪阶段对应的无噪声图像后,不能直接将该 无噪声图像确定为对噪声图像进行去噪处理最终得到的目标无噪声图像,而是要进一步更 新加噪阶段,例如,每一次更新加噪阶段时,可以将目标加噪阶段的取值减1,得到更新后的 加噪阶段;并判断更新后的加噪阶段是否大于第二阈值,示例地,第二阈值可以设置为0,具 体可以根据实际需要进行设置。在确定更新后的加噪阶段等于第二阈值的情况下,则可以 直接将噪声图像在目标加噪阶段对应的无噪声图像,确定为最终的目标无噪声图像;相反 的,在确定更新后的加噪阶段大于第二阈值的情况下,需要进一步执行上述S5,确定目标加 噪阶段的前一次加噪阶段对应的噪声图像
Figure 347401DEST_PATH_IMAGE015
,并将前一次加噪阶段对应的噪声图像
Figure 410035DEST_PATH_IMAGE016
确定为上述S1中的待处理的噪声图像,将更新后的加噪阶段确定为目标加噪阶段,将 新的随机非空文本确定为随机非空文本,重复执行上述S1-S5,直至更新后的加噪阶段等于 第二阈值,并将噪声图像在更新后的加噪阶段对应的无噪声图像,确定为最终的目标无噪 声图像。
示例地,在上述S5中,确定目标加噪阶段的前一次加噪阶段对应的噪声图像时,可以根据噪声图像、噪声图像在目标加噪阶段对应的无噪声图像以及第一参数中的第一方差,生成前一次加噪阶段对应的噪声图像,从而获取到前一次加噪阶段对应的噪声图像。
示例地,根据噪声图像、噪声图像在目标加噪阶段对应的无噪声图像以及第一方差,生成前一次加噪阶段对应的噪声图像时,可以根据噪声图像、噪声图像在目标加噪阶段对应的无噪声图像,以及第一方差确定第三均值;并基于第一方差确定第二方差;再根据第三均值和第二方差,生成前一次加噪阶段对应的噪声图像。
示例地,根据噪声图像、噪声图像在目标加噪阶段对应的无噪声图像,以及第一方差确定第三均值时,可参见公式2:
Figure 284450DEST_PATH_IMAGE017
其中,
Figure 989100DEST_PATH_IMAGE018
表示第三均值,
Figure 265361DEST_PATH_IMAGE001
表示目标加噪阶段t的噪声图像,
Figure 498896DEST_PATH_IMAGE019
表示 噪声图像
Figure 126187DEST_PATH_IMAGE020
在目标加噪阶段t对应的无噪声图像,
Figure 103370DEST_PATH_IMAGE021
表示目标加噪阶段t的噪声图像
Figure 234137DEST_PATH_IMAGE022
所包含噪声的第一方差,
Figure 915872DEST_PATH_IMAGE023
Figure 764879DEST_PATH_IMAGE024
Figure 280174DEST_PATH_IMAGE025
,s 表示加噪阶段1-t中的第s个加噪阶段,
Figure 796606DEST_PATH_IMAGE026
表示加噪阶段s的噪声图像
Figure 371944DEST_PATH_IMAGE027
所包含噪声的方 差。
示例地,基于第一方差确定第二方差时,可参见公式3:
Figure 973826DEST_PATH_IMAGE028
其中,
Figure 292812DEST_PATH_IMAGE029
表示目标加噪阶段t的噪声图像
Figure 398171DEST_PATH_IMAGE030
所包含噪声的第二方差。
示例地,根据第三均值和第二方差,生成前一次加噪阶段对应的噪声图像
Figure 409990DEST_PATH_IMAGE031
, 可参见公式4:
Figure 968010DEST_PATH_IMAGE032
其中,
Figure 356266DEST_PATH_IMAGE033
表示高斯过程,
Figure 316132DEST_PATH_IMAGE034
表示符合正态分布的随机噪声。
结合上述公式2、公式3以及公式4,就可以生成前一次加噪阶段对应的噪声图像。
可以看出,本发明实施例中,在生成与目标文本的文本内容相匹配的目标无噪声图像时,可以先获取待处理的噪声图像、噪声图像对应的目标文本、目标加噪阶段和随机非空文本;并基于噪声图像、目标文本、目标加噪阶段以及随机非空文本,对噪声图像进行去噪处理,生成目标无噪声图像;其中,目标无噪声图像的图像内容与目标文本的文本内容的匹配度大于第一阈值。这样将目标文本和随机非空文本作为去噪处理过程中的引导信息,对噪声图像进行去噪处理,可以生成与目标文本的文本内容相匹配的目标无噪声图像,从而提高了生成的目标无噪声图像的准确度。
上述图1所示的实施例详细地描述了在图像去噪采样过程中,如何生成与目标文本的文本内容相匹配的目标无噪声图像,下面,将通过下述图3所示的实施例,对如何训练生成图像去噪模型进行详细描述。
图3为本发明实施例提供的图像去噪模型的训练方法的流程示意图,该方法可以由软件和/或硬件装置执行。示例的,请参见图3所示,该图像去噪模型的训练方法可以包括:
S301、获取多个干净图像样本、多个干净图像样本各自对应的文本和加噪阶段。
其中,干净图像样本对应的文本,可以理解为该干净图像样本的描述文本,即干净图像样本的文本描述信息。
示例地,在获取多个干净图像样本和多个干净图像样本各自对应的文本时,可以从其他电子设备接收该多个干净图像样本和多个干净图像样本各自对应的文本,可以从本地存储中查找获取该多个干净图像样本和多个干净图像样本各自对应的文本,或者,也可以从其他第三方数据库中获取该多个干净图像样本和多个干净图像样本各自对应的文本等,具体可以根据实际需要进行设置。
示例地,从其他第三方数据库中获取该多个干净图像样本和多个干净图像样本各自对应的文本时,可以从第三方数据库中下载图像-文本数据集,将下载统一资源定位***(uniform resource locator,url)映射为hash数值,作为干净图像样本的文件名进行保存,为方便读取较大规模数据,提取干净图像样本的文件名和对应文本信息,并存储至文档中,通过加载文档获取所有文件的索引信息以及对应的文本信息,从而获取到多个干净图像样本和多个干净图像样本各自对应的文本。
在获取到多个干净图像样本、多个干净图像样本各自对应的文本和加噪阶段后,可以执行下述S302:
S302、将多个干净图像样本和多个干净图像样本各自对应的加噪阶段输入至初始扩散模型中的加噪处理算法中,得到多个干净图像样本各自在加噪阶段对应的噪声图像样本。
其中,设置的扩散步数为T步,加噪阶段用t表示,则可以确定加噪阶段范围为0-T, 加噪阶段t为0-T内的一个随机数,干净图像样本在加噪阶段t对应的噪声图像样本可记为
Figure 233272DEST_PATH_IMAGE035
示例地,假设某个干净图像样本对应的加噪阶段t=5,则将该干净图像样本和对应的加噪阶段输入至初始扩散模型中的加噪处理算法中,扩散模型中的加噪处理算法可以连续对原始干净图像进行五次加噪处理,其中,第二次加噪处理是在第一次加噪处理得到的噪声图像的基础上执行的,第三次加噪处理是在第二次加噪处理得到的噪声图像的基础上执行的,第四次加噪处理是在第三次加噪处理得到的噪声图像的基础上执行的,第五次加噪处理是在第四次加噪处理得到的噪声图像的基础上执行的,这样通过对干净图像样本连续进行五次加噪处理,就可以得到该干净图像样本在加噪阶段t=5时的噪声图像样本。采用类似的方法,可以得到多个干净图像样本各自在加噪阶段对应的噪声图像样本。
S303、将多个干净图像样本各自在加噪阶段对应的噪声图像样本、目标文本和加噪阶段输入至所述初始扩散模型中的初始图像去噪模型中,得到各干净图像样本在加噪阶段对应的噪声图像所包含噪声的均值和方差。
示例地,初始图像去噪模型可以为UNet神经网络模型,UNet神经网络模型主要包含输入层、中间层和输出层。其中,输入层主要由若干残差块、注意力块和下采样块堆叠构成,用于提取噪声图像样本的特征;中间块由一个残差块、注意力块和另一个残差块组成,用于对提取的特征进行进一步的整和处理;输出块由若干残差块、注意力块和上采样块堆叠构成,用于对中间层整和处理的特征进行恢复,从而得到噪声图像样本所包含噪声的均值和方差。
示例地,在本发明实施例中,输入层可以由15个残差块、9个注意力块和6个下采样块组成;中间层可以由2个残差块和1个注意力块组成;输出层可以由19个残差块、12个注意力块和6个上采样块构成。
示例地,将噪声图像样本、目标文本和加噪阶段输入至扩散模型中的初始图像去噪模型中,初始图像去噪模型可以采用正弦时间编码器,对加噪阶段进行编码,将得到的编码特征叠加至初始图像去噪模型中的各个残差块中,初始图像去噪模型可以采用分词器对目标文本进行分词并序列化,并将序列化文本特征输入注意力块中,采用注意力机制将文本特征进行融合,最终输出加噪阶段对应的噪声图像所包含的均值和方差。
在得到各干净图像样本在加噪阶段对应的噪声图像所包含噪声的均值和方差后,就可以根据各干净图像样本和各干净图像样本在加噪阶段对应的噪声图像所包含噪声的均值和方差,对初始图像去噪模型的模型参数进行更新,即执行下述S304:
S304、根据各干净图像样本和各干净图像样本在加噪阶段对应的噪声图像所包含噪声的均值和方差,对初始图像去噪模型的模型参数进行更新,以得到最终的图像去噪模型。
可以理解的是,在本发明实施例中,对初始扩散模型进行更新时,仅对初始扩散模型中的初始图像去噪模型的模型参数进行更新,对于初始扩散模型中的加噪处理算法和其他计算方法中的参数通常不做更新。
示例地,根据各干净图像样本和各干净图像样本在加噪阶段对应的噪声图像所包含噪声的均值和方差,对初始图像去噪模型的模型参数进行更新时,扩散模型可以根据各干净图像样本在加噪阶段对应的噪声图像所包含噪声的均值和方差,计算生成各干净图像样本在加噪阶段对应的预测干净图像;之后,再根据各干净图像样本和各干净图像样本在加噪阶段对应的预测干净图像,对初始图像去噪模型的模型参数进行更新。
示例地,根据各干净图像样本和各干净图像样本在加噪阶段对应的预测干净图像,对初始图像去噪模型的模型参数进行更新时,针对各干净图像样本,可以根据该干净图像样本和其在加噪阶段对应的预测干净图像,构造该干净图像样本对应的均方差损失和变分下界损失,并根据该干净图像样本对应的均方差损失和变分下界损失确定该干净图像样本对应的目标损失,从而确定出各干净图像样本对应的目标损失;再根据各干净图像样本对应的目标损失,确定多个干净图像样本对应的平均损失,并基于多个干净图像样本对应的平均损失,对初始图像去噪模型的模型参数进行更新,直至更新后的图像去噪模型收敛,并将收敛的图像去噪模型,确定为最终训练得到的图像去噪模型。
可以看出,本发明实施例中,在训练图像去噪模型时,可以先获取多个干净图像样本、多个干净图像样本各自对应的文本和加噪阶段;将多个干净图像样本和多个干净图像样本各自对应的加噪阶段输入至初始扩散模型中的加噪处理算法中,得到多个干净图像样本各自在加噪阶段对应的噪声图像样本;将多个干净图像样本各自在加噪阶段对应的噪声图像样本、目标文本和加噪阶段输入至所述初始扩散模型中的初始图像去噪模型中,得到各干净图像样本对应的噪声图像在加噪阶段所包含噪声的均值和方差;根据各干净图像样本和各干净图像样本对应的噪声图像在加噪阶段所包含噪声的均值和方差,对初始图像去噪模型的模型参数进行更新,以得到最终的图像去噪模型。这样不仅可以提升图像去噪模型的训练效率,而且可以有效加强图像去噪模型的去噪性能。
下面对本发明提供的图像生成装置进行描述,下文描述的图像生成装置与上文描述的图像生成方法可相互对应参照。
图4为本发明实施例提供的图像生成装置40的结构示意图,示例的,请参见图4所示,该图像生成装置40可以包括:
获取单元401,用于获取待处理的噪声图像、噪声图像对应的目标文本、目标加噪阶段和随机非空文本。
生成单元402,用于基于噪声图像、目标文本、目标加噪阶段以及随机非空文本,对噪声图像进行去噪处理,得到目标无噪声图像;其中,目标无噪声图像的图像内容与目标文本的文本内容的匹配度大于第一阈值。
可选地,生成单元402,具体用于执行:
S1、将噪声图像、目标文本以及目标加噪阶段输入至扩散模型中的图像去噪模型中,得到第一参数;并将噪声图像、随机非空文本以及目标加噪阶段输入至图像去噪模型中,得到第二参数。
S2、根据第一参数第二参数,生成噪声图像在目标加噪阶段对应的无噪声图像。
S3、更新目标加噪阶段,判断更新后的加噪阶段是否等于第二阈值。
S4、在确定更新后的加噪阶段等于第二阈值的情况下,则将噪声图像在目标加噪阶段对应的无噪声图像,确定为目标无噪声图像。
S5、在确定更新后的加噪阶段大于第二阈值的情况下,则确定目标加噪阶段的前一次加噪阶段对应的噪声图像,并将前一次加噪阶段对应的噪声图像确定为待处理的噪声图像,将更新后的加噪阶段确定为目标加噪阶段,将新的随机非空文本确定为随机非空文本,重复执行上述S1-S5,直至更新后的加噪阶段等于第二阈值,并将噪声图像在更新后的加噪阶段对应的无噪声图像,确定为目标无噪声图像。
可选地,第一参数包括第一均值和第一方差,第二参数包括第二均值,生成单元402,具体用于对第一均值和第二均值进行融合,得到对应的目标均值;根据目标均值和第一方差,生成噪声图像在目标加噪阶段对应的无噪声图像。
可选地,生成单元402,具体用于确定第一均值和第二均值的差值,并确定差值与其对应的权重之间的乘积;将第二均值与乘积的和,确定为目标均值。
可选地,生成单元402,具体用于根据噪声图像、噪声图像在目标加噪阶段对应的无噪声图像以及第一参数中的第一方差,生成前一次加噪阶段对应的噪声图像。
可选地,生成单元402,具体用于根据噪声图像、噪声图像在目标加噪阶段对应的无噪声图像,以及第一方差确定第三均值;基于第一方差确定第二方差;根据第三均值和第二方差,生成前一次加噪阶段对应的噪声图像。
可选地,图像去噪模型是基于多个噪声图像样本、多个噪声图像样本各自对应的文本和加噪阶段,对初始扩散模型中的初始图像去噪模型进行训练得到的。
本发明实施例提供的图像生成装置40,可以执行上述任一实施例中图像生成方法的技术方案,其实现原理以及有益效果与图像生成方法的实现原理及有益效果类似,可参见图像生成方法的实现原理及有益效果,此处不再进行赘述。
图5为本发明实施例提供的电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行图像生成方法,该方法包括:获取待处理的噪声图像、噪声图像对应的目标文本和目标加噪阶段和随机非空文本;基于噪声图像、目标文本、目标加噪阶段以及随机非空文本,对噪声图像进行去噪处理,生成目标无噪声图像;其中,目标无噪声图像的图像内容与目标文本的文本内容的匹配度大于第一阈值。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的图像生成方法,该方法包括:获取待处理的噪声图像、噪声图像对应的目标文本和目标加噪阶段和随机非空文本;基于噪声图像、目标文本、目标加噪阶段以及随机非空文本,对噪声图像进行去噪处理,生成目标无噪声图像;其中,目标无噪声图像的图像内容与目标文本的文本内容的匹配度大于第一阈值。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的图像生成方法,该方法包括:获取待处理的噪声图像、噪声图像对应的目标文本和目标加噪阶段和随机非空文本;基于噪声图像、目标文本、目标加噪阶段以及随机非空文本,对噪声图像进行去噪处理,生成目标无噪声图像;其中,目标无噪声图像的图像内容与目标文本的文本内容的匹配度大于第一阈值。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种图像生成方法,其特征在于,包括:
获取待处理的噪声图像、所述噪声图像对应的目标文本和目标加噪阶段和随机非空文本;
基于所述噪声图像、所述目标文本、所述目标加噪阶段以及所述随机非空文本,对所述噪声图像进行去噪处理,生成目标无噪声图像;其中,所述目标无噪声图像的图像内容与所述目标文本的文本内容的匹配度大于第一阈值;
其中,所述基于所述噪声图像、所述目标文本、所述目标加噪阶段以及所述随机非空文本,对所述噪声图像进行去噪处理,生成目标无噪声图像,包括:
S1、将所述噪声图像、所述目标文本以及所述目标加噪阶段输入至扩散模型中的图像去噪模型中,得到第一参数;并将所述噪声图像、所述随机非空文本以及所述目标加噪阶段输入至所述图像去噪模型中,得到第二参数;
S2、根据所述第一参数所述第二参数,生成所述噪声图像在所述目标加噪阶段对应的无噪声图像;
S3、更新所述目标加噪阶段,判断更新后的加噪阶段是否等于第二阈值;
S4、在确定所述更新后的加噪阶段等于第二阈值的情况下,则将所述噪声图像在所述目标加噪阶段对应的无噪声图像,确定为所述目标无噪声图像;
S5、在确定所述更新后的加噪阶段大于所述第二阈值的情况下,则确定所述目标加噪阶段的前一次加噪阶段对应的噪声图像,并将所述前一次加噪阶段对应的噪声图像确定为所述待处理的噪声图像,将所述更新后的加噪阶段确定为所述目标加噪阶段,将新的随机非空文本确定为所述随机非空文本,重复执行上述S1-S5,直至更新后的加噪阶段等于第二阈值,并将所述噪声图像在所述更新后的加噪阶段对应的无噪声图像,确定为所述目标无噪声图像。
2.根据权利要求1所述的图像生成方法,其特征在于,所述第一参数包括第一均值和第一方差,所述第二参数包括第二均值,所述根据所述第一参数所述第二参数,生成所述噪声图像在所述目标加噪阶段对应的无噪声图像,包括:
对所述第一均值和所述第二均值进行融合,得到对应的目标均值;
根据所述目标均值和所述第一方差,生成所述噪声图像在所述目标加噪阶段对应的无噪声图像。
3.根据权利要求2所述的图像生成方法,其特征在于,所述对所述第一均值和所述第二均值进行融合,得到对应的目标均值,包括:
确定所述第一均值和所述第二均值的差值,并确定所述差值与其对应的权重之间的乘积;
将所述第二均值与所述乘积的和,确定为所述目标均值。
4.根据权利要求1-3任一项所述的图像生成方法,其特征在于,所述确定所述目标加噪阶段的前一次加噪阶段对应的噪声图像,包括:
根据所述噪声图像、所述噪声图像在所述目标加噪阶段对应的无噪声图像以及所述第一参数中的第一方差,生成所述前一次加噪阶段对应的噪声图像。
5.根据权利要求4所述的图像生成方法,其特征在于,所述根据所述噪声图像、所述噪声图像在所述目标加噪阶段对应的无噪声图像以及所述第一方差,生成所述前一次加噪阶段对应的噪声图像,包括:
根据所述噪声图像、所述噪声图像在所述目标加噪阶段对应的无噪声图像,以及所述第一方差确定第三均值;
基于所述第一方差确定第二方差;
根据所述第三均值和所述第二方差,生成所述前一次加噪阶段对应的噪声图像。
6.根据权利要求1-3任一项所述的图像生成方法,其特征在于,
所述图像去噪模型是基于多个噪声图像样本、所述多个噪声图像样本各自对应的文本和加噪阶段,对初始扩散模型中的初始图像去噪模型进行训练得到的。
7.一种图像生成装置,其特征在于,包括:
获取单元,用于获取待处理的噪声图像、所述噪声图像对应的目标文本、目标加噪阶段和随机非空文本;
生成单元,用于基于所述噪声图像、所述目标文本、所述目标加噪阶段以及所述随机非空文本,对所述噪声图像进行去噪处理,生成目标无噪声图像;其中,所述目标无噪声图像的图像内容与所述目标文本的文本内容的匹配度大于第一阈值;
其中,所述生成单元,具体用于执行:
S1、将所述噪声图像、所述目标文本以及所述目标加噪阶段输入至扩散模型中的图像去噪模型中,得到第一参数;并将所述噪声图像、所述随机非空文本以及所述目标加噪阶段输入至所述图像去噪模型中,得到第二参数;
S2、根据所述第一参数所述第二参数,生成所述噪声图像在所述目标加噪阶段对应的无噪声图像;
S3、更新所述目标加噪阶段,判断更新后的加噪阶段是否等于第二阈值;
S4、在确定所述更新后的加噪阶段等于第二阈值的情况下,则将所述噪声图像在所述目标加噪阶段对应的无噪声图像,确定为所述目标无噪声图像;
S5、在确定所述更新后的加噪阶段大于所述第二阈值的情况下,则确定所述目标加噪阶段的前一次加噪阶段对应的噪声图像,并将所述前一次加噪阶段对应的噪声图像确定为所述待处理的噪声图像,将所述更新后的加噪阶段确定为所述目标加噪阶段,将新的随机非空文本确定为所述随机非空文本,重复执行上述S1-S5,直至更新后的加噪阶段等于第二阈值,并将所述噪声图像在所述更新后的加噪阶段对应的无噪声图像,确定为所述目标无噪声图像。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述的图像生成方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的图像生成方法。
CN202210941909.1A 2022-08-08 2022-08-08 图像生成方法、装置、电子设备和介质 Active CN115018954B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210941909.1A CN115018954B (zh) 2022-08-08 2022-08-08 图像生成方法、装置、电子设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210941909.1A CN115018954B (zh) 2022-08-08 2022-08-08 图像生成方法、装置、电子设备和介质

Publications (2)

Publication Number Publication Date
CN115018954A CN115018954A (zh) 2022-09-06
CN115018954B true CN115018954B (zh) 2022-10-28

Family

ID=83066249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210941909.1A Active CN115018954B (zh) 2022-08-08 2022-08-08 图像生成方法、装置、电子设备和介质

Country Status (1)

Country Link
CN (1) CN115018954B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937033B (zh) * 2022-12-19 2024-02-02 北京字跳网络技术有限公司 图像生成方法、装置及电子设备
CN116450873A (zh) * 2023-02-20 2023-07-18 阿里巴巴达摩院(杭州)科技有限公司 图像生成及扩散模型训练方法、电子设备及存储介质
CN116682110B (zh) * 2023-07-20 2023-10-31 腾讯科技(深圳)有限公司 图像处理方法、装置、设备及介质
CN116645668B (zh) * 2023-07-21 2023-10-20 腾讯科技(深圳)有限公司 图像生成方法、装置、设备以及存储介质
CN116823597B (zh) * 2023-08-02 2024-05-07 北京中科闻歌科技股份有限公司 一种图像生成***
CN116721186B (zh) * 2023-08-10 2023-12-01 北京红棉小冰科技有限公司 绘画图像生成方法、装置、电子设备及存储介质
CN116958131B (zh) * 2023-09-18 2024-01-05 腾讯科技(深圳)有限公司 一种图像处理方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114283080A (zh) * 2021-12-15 2022-04-05 复旦大学 一种多模态特征融合的文本指导图像压缩噪声去除方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110751698B (zh) * 2019-09-27 2022-05-17 太原理工大学 一种基于混和网络模型的文本到图像的生成方法
US11176410B2 (en) * 2019-10-27 2021-11-16 John Snow Labs Inc. Preprocessing images for OCR using character pixel height estimation and cycle generative adversarial networks for better character recognition
US11295155B2 (en) * 2020-04-08 2022-04-05 Konica Minolta Business Solutions U.S.A., Inc. Online training data generation for optical character recognition
US20220005235A1 (en) * 2020-07-06 2022-01-06 Ping An Technology (Shenzhen) Co., Ltd. Method and device for text-based image generation
CN114119949A (zh) * 2021-09-23 2022-03-01 上海仪电人工智能创新院有限公司 一种增强文本合成图像的生成方法和***

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114283080A (zh) * 2021-12-15 2022-04-05 复旦大学 一种多模态特征融合的文本指导图像压缩噪声去除方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks;Tao Xu 等;《2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;IEEE;20181231;第1316-1324页 *
StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks;Han Zhang 等;《2017 IEEE International Conference on Computer Vision》;IEEE;20171231;第5908-5916页 *
基于注意力生成对抗网络的文本生成图像技术研究;田安捷;《中国优秀硕士学位论文全文数据库 信息科技辑》;20210215(第02期);第1-59页 *

Also Published As

Publication number Publication date
CN115018954A (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
CN115018954B (zh) 图像生成方法、装置、电子设备和介质
CN112734634B (zh) 换脸方法、装置、电子设备和存储介质
KR102392094B1 (ko) 컨볼루션 신경망을 이용한 시퀀스 프로세싱
CN115222630A (zh) 图像生成方法、图像去噪模型的训练方法和设备
CN110612538B (zh) 生成输入数据项的离散潜在表示
CN109478204A (zh) 非结构化文本的机器理解
CN112164008B (zh) 图像数据增强网络的训练方法及其训练装置、介质和设备
CN113705589A (zh) 数据处理方法、装置及设备
CN111401037A (zh) 自然语言的生成方法、装置、电子设备及存储介质
CN117496099A (zh) 三维图像编辑方法、***、电子设备及存储介质
CN116955590B (zh) 训练数据筛选方法、模型训练方法、文本生成方法
CN111048065B (zh) 文本纠错数据生成方法及相关装置
CN112307738A (zh) 用于处理文本的方法和装置
CN116090425A (zh) 一种基于词替换的文本生成方法、***及存储介质
KR102393761B1 (ko) 이미지 처리를 위한 인공 신경망 모델 학습 방법 및 시스템
KR20230002041A (ko) 이미지 처리를 위한 인공 신경망 모델 학습 방법 및 시스템
CN113744158A (zh) 图像生成方法、装置、电子设备和存储介质
CN111460105A (zh) 基于短文本的主题挖掘方法、***、设备及存储介质
CN116665012B (zh) 图像字幕自动生成方法、装置及存储介质
CN117093697B (zh) 实时自适应对话方法、装置、设备及存储介质
CN113535887B (zh) 一种公式相似度检测方法及装置
CN118197293A (zh) 一种提升语音情感分类模型正确率的方法及设备
CN117828094A (zh) 用于钢铁领域的知识图谱补全方法、模型、设备及介质
CN114297402A (zh) 面向链接预测的交互式多模态融合方法及装置
CN118114630A (zh) 一种基于大模型TN-Bart的新闻生成方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240620

Address after: 200-19, 2nd Floor, Building B, Wanghai Building, No.10 West Third Ring Middle Road, Haidian District, Beijing, 100036

Patentee after: Zhongke Zidong Taichu (Beijing) Technology Co.,Ltd.

Country or region after: China

Address before: 100190 No. 95 East Zhongguancun Road, Beijing, Haidian District

Patentee before: INSTITUTE OF AUTOMATION, CHINESE ACADEMY OF SCIENCES

Country or region before: China