CN116894778A - 一种用于图像生成的扩散模型采样方法和装置 - Google Patents

一种用于图像生成的扩散模型采样方法和装置 Download PDF

Info

Publication number
CN116894778A
CN116894778A CN202310838378.8A CN202310838378A CN116894778A CN 116894778 A CN116894778 A CN 116894778A CN 202310838378 A CN202310838378 A CN 202310838378A CN 116894778 A CN116894778 A CN 116894778A
Authority
CN
China
Prior art keywords
diffusion
noise
image
time
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310838378.8A
Other languages
English (en)
Inventor
朱军
郑凯文
路橙
陈键飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202310838378.8A priority Critical patent/CN116894778A/zh
Publication of CN116894778A publication Critical patent/CN116894778A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • G06F17/13Differential equations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/60Memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Operations Research (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Image Processing (AREA)

Abstract

本发明提供一种用于图像生成的扩散模型采样方法和装置,包括:对预训练的噪声预测模型进行参数化,得到最优参数化表示;其中,最优参数化表示通过引入线性系数、尺寸系数和偏置系数使最优参数化表示下的扩散常微分方程在求解时具有最小的一阶离散化误差;基于最优参数化表示构建扩散模型采样器;利用扩散模型采样器,对满足第一高斯分布的目标噪声图像进行图像恢复;其中,所述第一高斯分布为前向扩散过程所生成的纯噪声图像所呈现出的分布。本发明通过分析扩散常微分方程求解时离散化误差,设定采样时更优的噪声预测模型参数化方式,并基于此构建更高效的扩散模型采样器,以此在保证扩散模型采样质量的前提下提高散模型采样效率。

Description

一种用于图像生成的扩散模型采样方法和装置
技术领域
本发明涉及机器学习技术领域,尤其涉及一种用于图像生成的扩散模型采样方法和装置。
背景技术
扩散模型是最先进的图像生成器,广泛的应用到文生图任务和生成式人工智能(AIGC)任务等下游任务中。然而,扩散模型的反向扩散过程中不断调用预训练的噪声预测模型来生成高质量图像,这在下游任务中是一个关键障碍。
为了加速扩散模型的采样过程,现有技术将噪声预测模型进行参数化∈θ(预测噪声∈)或者等效参数化xθ(预测原始图像x0),用∈θ或xθ构建采样求解器来替代噪声预测模型以达到在相同步数下采样质量更高的效果。
然而,不同的模型参数化结果构建出的采样求解器在采样时具有不同的性能,而且∈θ和xθ均是通过手动设计得到的,并不能保证是最优的模型参数化。因此如何设计最优的参数化方式,从而构建更高效的扩散模型采样求解器,是仍待解决的问题。
发明内容
为解决上述问题,本发明提供一种用于图像生成的扩散模型采样方法和装置,通过分析扩散常微分方程求解时离散化误差,设定采样时更优的噪声预测模型参数化方式,并基于此构建更高效的扩散模型采样器,以此在保证扩散模型采样质量的前提下提高散模型采样效率。
第一方面,本发明提供一种用于图像生成的扩散模型采样方法,所述方法包括:
对预训练的噪声预测模型进行参数化,得到最优参数化表示;其中,所述最优参数化表示通过引入线性系数、尺寸系数和偏置系数使所述最优参数化表示下的扩散常微分方程在求解时具有最小的一阶离散化误差;
基于所述最优参数化表示构建扩散模型采样器;
利用所述扩散模型采样器,对满足第一高斯分布的目标噪声图像进行图像恢复;
其中,所述噪声预测模型是利用第一样本集训练的;所述第一样本集的每一个样本由前向扩散过程中任一时刻、任一时刻下的噪声图像以及任一时刻下的噪声图像所包含的高斯噪声组成;
所述第一高斯分布为前向扩散过程所生成的纯噪声图像所呈现出的分布。
根据本发明提供的用于图像生成的扩散模型采样方法,所述前向扩散过程,用公式表示为:
xt=αtx0t∈,t∈(0~T)
∈~N(0,I)
上式中,x0为原始图像,xt为t时刻下的噪声图像,∈为t时刻下的噪声图像所包含的高斯噪声,I为单位矩阵,αt为t时刻下的第一超参数,σt为t时刻下的第二超参数,xT为T时刻下的噪声图像,其为纯噪声图像;所述最优参数化表示gθ(xλ,λ)如下所示:
其中:
Nθ(xλ,λ)=σλθ(xλ,λ)-lλxλ
上式中,λ是t的换元,λt=log(αtt),lλ、sλ和bλ分别为λ时刻下的线性系数、尺寸系数和偏置系数,λs为初始时间节点,τ,r∈(λs~λ),为对x求梯度,/>为fθ(xλ,λ)对λ的1阶全导数,∈θ(xλ,λ)为以估算噪声为目的时所述噪声预测模型的参数化表示,记为第一参数化表示,qλ(xλ)为众多原始图像在λ时刻下的噪声图像的集合。
根据本发明提供的用于图像生成的扩散模型采样方法,所述基于所述参数化表示构建扩散模型采样器,包括:
构建所述参数化表示下的扩散常微分方程;
确定所述扩散常微分方程解的表达式:
定义全局扩散采样算法;其中,所述全局扩散采样算法从逆向扩散过程的时间轴离散出多个时间节点,相邻两个时间节点组成一组转移时间对,并在输入噪声图像的基础上递进式的进行多组转移时间对的图像采样从而实现输入噪声图像的恢复;
基于所述扩散常微分方程解的表达式定义局部扩散采样算法;其中,所述局部扩散采样算法,用于实现每一组转移时间对下的图像采样;
将封装了所述全局扩散采样算法和所述局部扩散采样算法的采样器,作为扩散模型采样器。
根据本发明提供的用于图像生成的扩散模型采样方法,所述扩散常微分方程解的表达式如下所示:
其中:
上式中,λu为终止时间节点。
根据本发明提供的用于图像生成的扩散模型采样方法,所述全局扩散采样算法的算法流程,包括:
步骤1:从逆向扩散过程的时间轴离散出时间节点并设输入噪声图像/>为时间节点/>处的噪声图像;
步骤2:初始化i=0,第一缓存器和第二缓存器为空;
步骤3:将时间节点处的噪声图像及其包含的噪声分别缓存至第一缓存器和第二缓存器;
步骤4:基于所述第一缓存器和所述第二缓存器,采用所述局部扩散采样算法进行转移时间对下的图像采样,得到时间节点/>处的噪声图像及其包含的噪声;
步骤5:当i≠M时,令i=i+1并返回步骤3;当i=M时,将时间节点处的噪声图像作为输入噪声图像的恢复图像。
根据本发明提供的用于图像生成的扩散模型采样方法,所述局部扩散采样算法的算法流程,包括:
步骤a:确定转移时间对对应的阶数;其中,所述阶数v=min[(n+1),i+1];
步骤b:从第一缓存器中取出时间节点至时间节点/>处的噪声图像并从第二缓存器中取出时间节点/>至时间节点/>处的噪声图像所包含的噪声/>
步骤c:基于和/>估算
步骤d:基于所述扩散常微分方程解的表达式、以及时间节点/>处的噪声图像/>采样时间节点/>处的噪声图像/>
步骤e:确定所述噪声图像中包含的噪声/>
步骤f:基于和/>估算
步骤g:基于所述扩散常微分方程解的表达式、 以及时间节点/>处的噪声图像/>重新采样时间节点/>处的噪声图像/>
步骤h:重新确定所述噪声图像中包含的噪声/>
根据本发明提供的用于图像生成的扩散模型采样方法,所述步骤d,包括:
确定所述扩散常微分方程解的表达式的泰勒展开式;其中,所述泰勒展开式中的参数包含的v-1阶导数至0阶导数;
视为初始时间节点s,将/>视为中止时间节点t,并利用计算gθ(xs,s)的v-1阶导数至1阶导数;其中,s和t分别能够换元为λs和λt
将gθ(xs,s)的v-1阶导数至1阶导数的计算值、所述和所述/>代入所述泰勒展开式中,得到时间节点/>处的噪声图像/>
第二方面,本发明提供一种用于图像生成的扩散模型采样装置,所述装置包括:
参数化模块,用于对预训练的噪声预测模型进行参数化,得到最优参数化表示;其中,所述最优参数化表示通过引入线性系数、尺寸系数和偏置系数使所述最优参数化表示下的扩散常微分方程在求解时具有最小的一阶离散化误差;
构建模块,用于基于所述最优参数化表示构建扩散模型采样器;
采样模块,用于利用所述扩散模型采样器,对满足第一高斯分布的目标噪声图像进行图像恢复;
其中,所述噪声预测模型是利用第一样本集训练的;所述第一样本集的每一个样本由前向扩散过程中任一时刻、任一时刻下的噪声图像以及任一时刻下的噪声图像所包含的高斯噪声组成;
所述第一高斯分布为前向扩散过程所生成的纯噪声图像所呈现出的分布。
第三方面,本发明提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述用于图像生成的扩散模型采样方法。
第四方面,本发明提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述用于图像生成的扩散模型采样方法。
本发明提供一种用于图像生成的扩散模型采样方法和装置,包括:对预训练的噪声预测模型进行参数化,得到最优参数化表示;其中,所述最优参数化表示通过引入线性系数、尺寸系数和偏置系数使所述最优参数化表示下的扩散常微分方程在求解时具有最小的一阶离散化误差;基于所述最优参数化表示构建扩散模型采样器;利用所述扩散模型采样器,对满足第一高斯分布的目标噪声图像进行图像恢复;其中,所述噪声预测模型是利用第一样本集训练的;所述第一样本集的每一个样本由前向扩散过程中任一时刻、任一时刻下的噪声图像以及任一时刻下的噪声图像所包含的高斯噪声组成;所述第一高斯分布为前向扩散过程所生成的纯噪声图像所呈现出的分布。本发明通过分析扩散常微分方程求解时离散化误差,设定采样时更优的噪声预测模型参数化方式,并基于此构建更高效的扩散模型采样器,以此在保证扩散模型采样质量的前提下提高散模型采样效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的用于图像生成的扩散模型采样方法的流程示意图;
图2是本发明提供的用于图像生成的扩散模型采样装置的结构示意图;
图3是本发明提供的电子设备的结构示意图。
附图标记:
310:处理器;320:通信接口;330:存储器;340:通信总线。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图3描述本发明的用于图像生成的扩散模型采样方法和装置。
扩散模型分为两个部分,(1)前向扩散过程:即向原始图像x0不断地加入高斯噪声得到近似于标准正态分布的噪声图像xT,用公式表示为:
xt=αtx0t∈,t∈(0~T)
∈~N(0,I)
其中,I为单位矩阵,αt为t时刻的噪声图像,∈为与x0维度一致,表示t时刻下的噪声图像所包含的高斯噪声,αt和σt均是标量,αt为t时刻下的第一超参数,σt为t时刻下的第二超参数,αt和σt分别为t时刻α(t)和σ(t)的取值;α(t)和σ(t)是预先设计的关于t的两个函数,α(t)和σ(t)的平方和等于1,α(t)随时间单调递减,σ(t)随时间单调递增,xT为T时刻下的噪声图像,其为纯噪声图像;
经过这一阶段,可以构建一个噪声预测模型,它用于以(xt,t)为输入预测图像噪声,训练时以预测的图像噪声与∈之间差值的二范数为损失优化网络参数,用公式表示训练损失为:
其中,q0为原始图像集,∈θ(xt,t)为噪声预测模型的代指。
(2)反向扩散过程:利用预先训练的噪声预测模型从噪声图像xT中还原原始图像x0
实际上,从噪声图像xT还原x0一般采用离散化方式实现,即xT→xT-1→xT-2→…x1→x0,其中xt→xt-1的转移即在xt的基础上利用噪声预测模型来采样xt-1
可想而知,扩散模型可用于图像生成的下游任务中,因为噪声图像xT近似于服从标准正态分布(准确来说是在αT≈0且σT≈1的加噪状态下噪声图像所服从的高斯分布),因此采样任何一张近似于标准正态分布的噪声图像,并将该噪声图像看作由某个原始图像x0加噪而得到的xT那么即可在该噪声图像的基础上利用噪声预测模型采样出一个高质量图像。
然而,上述扩散模型反向扩散过程的每一步的转移需要调用一次噪声预测模型,这对扩散模型的下游任务而言是一个障碍。为了加速扩散模型的采样过程,一些方法将噪声预测模型中的知识蒸馏到另一个规模差不多的网络中,从而实现在相同转移步数下采样质量更高,另一些方法是对噪声预测模型进行参数化,利用噪声预测模型的参数化结果(即数学表达形式)代替噪声预测模型,以在相同转移步数下采样质量更高。由于重参数化方式无需额外的训练开销且更灵活,因此本发明主要关注这一种。
现实中,最常用的噪声预测模型的参数化方式为以估算噪声为目的对噪声预测模型进行参数化,参数化表示为∈θ(xt,t)(为方便与噪声预测模型的代指一致)。噪声预测模型的参数化表示主要依赖扩散常微分方程(ODE)来体现,也即在这种参数化形式下,扩散常微分方程(后续简称第一ODE)为:
上式是由xt=αtx0t∈,t∈(0~T)变化而来的,λ是t的换元,它们遵从λt=log(αtt),
还有一种常用的噪声预测模型的参数化方式为以估算原始图像x0为目的对噪声预测模型进行参数化,参数化表示为xθ(xt,t)。
事实上,噪声预测模型∈θ(xt,t)等价为用于预测x0的数据预测模型xθ(xt,t),数据预测模型xθ(xt,t)的训练损失为:
故而,xθ(xt,t)等价于∈θ(xt,t)。
由于xt=αtx0t∈,t∈(0~T),可推导x0=(xtt∈)/αt,故而xθ(xλ,λ)=(xλλθ(xλ,λ))/αλ,相应的将xθ(xλ,λ)=(xλλθ(xλ,λ))/αλ代入第一ODE可以得到xθ(xt,t)参数化形式下的扩散常微分方程(后续简称第二ODE)。
因为用指数积分形式表示扩散常微分方程求解时具有更快的收敛速度,并且第一ODE/第二ODE中只有∈θ(xλ,λ)/xθ(xλ,λ)需要被估计,其它项可以被准确计算。因此将第一ODE/第二ODE中的线性项消掉,并将第一ODE/第二ODE的解表示如下:
第一ODE的解:
第二ODE的解:
现实中,常利用第一ODE的解和第二ODE的解构建扩散模型的采样求解器,来实现每一次转移的采样。
θ或xθ被称为模型的参数化,它们可以被互相转换。在实践中,不同的模型参数化导出的采样求解器在采样时具有不同的性能。例如,采用xθ的DPM-Solver++相比采用∈θ的DPM-Solver在相同转移步数下的采样质量更高,尤其是在文生图等条件采样的实验设置下。然而,∈θ和xθ均是通过手动设计得到的,且不能保证是最优的模型参数化。因此如何设计更优的参数化方式,从而以低成本构建更高效的扩散模型采样求解器,是仍待解决的问题。
鉴于此,本发明提供一种用于图像生成的扩散模型采样方法,如图1所示,所述方法包括:
S11、对预训练的噪声预测模型进行参数化,得到最优参数化表示;其中,所述最优参数化表示通过引入线性系数、尺寸系数和偏置系数使所述最优参数化表示下的扩散常微分方程在求解时具有最小的一阶离散化误差;
S12、基于所述最优参数化表示构建扩散模型采样器;
S13、利用所述扩散模型采样器,对满足第一高斯分布的目标噪声图像进行图像恢复;
其中,所述噪声预测模型是利用第一样本集训练的;所述第一样本集的每一个样本由前向扩散过程中任一时刻、任一时刻下的噪声图像以及任一时刻下的噪声图像所包含的高斯噪声组成;
所述第一高斯分布为前向扩散过程所生成的纯噪声图像所呈现出的分布,换句话说,将众多图像从原始状态x0加噪到纯噪声状态xT之后,这些图像共同呈现出来的分布称为第一高斯分布。
本发明提供一种用于图像生成的扩散模型采样方法,通过分析扩散常微分方程求解时离散化误差,设定采样时更优的噪声预测模型参数化方式,并基于此构建更高效的扩散模型采样器,以此在保证扩散模型采样质量的前提下提高散模型采样效率。
具体的,所述S11中的最优参数化表示,如下所示:
其中:
Nθ(xλ,λ)=σλθ(xλ,λ)-lλxλ
上式中,λ是t的换元,λt=log(αtt),lλ、sλ和bλ分别为λ时刻下的线性系数、尺寸系数和偏置系数,λs为初始时间节点,τ,r∈(λs~λ),为对x求梯度,/>为fθ(xλ,λ)对λ的1阶全导数,∈θ(xλ,λ)为以估算噪声为目的时所述噪声预测模型的参数化表示,记为第一参数化表示,qλ(xλ)为众多原始图像在λ时刻下的噪声图像的集合,换句话说,将众多图像从原始状态x0加噪到纯噪声状态xλ之后,这些图像所组成的集合。
在实践中,不同的模型参数化导出的采样求解器在采样时具有不同的性能,因此需要设计一种最优的模型参数化形式,本发明认为最优的模型参数化表示应该为∈θ(xλ,λ)和xλ的线性组合,通过分析,本发明引入被称为经验模型统计量的三种系数lλ、sλ和bλ,从而构建了一种新的参数化gθ(xλ,λ),其表达式为
其中:
Nθ(xλ,λ)=σλθ(xλ,λ)-lλxλ
事实上,∈θ(xλ,λ)和xθ(xλ,λ)都是gθ(xλ,λ)的特殊形式,也即当lλ=0,sλ=-1且bλ=0时gθ(xλ,λ)即为∈θ(xλ,λ),当lλ=1,sλ=0且bλ=0时gθ(xλ,λ)即为xθ(xλ,λ)。lλ的引入受启发于指数积分器中的Rosenbrock-type方法,用于消除噪声预测模型中的线性项。
而后,通过一定的数学证明,本发明发现lλ、sλ和bλ取下列值时,扩散常微分方程求解时的一阶离散化误差是最小的:
相同步数下,离散误差越小,图像采样质量越高。因此,最终得到了所述S11中的gθ(xλ,λ)。
具体的,所述S12包括:
S12.1:构建所述参数化表示下的扩散常微分方程;
S12.2:确定所述扩散常微分方程解的表达式:
S12.3:定义全局扩散采样算法;其中,所述全局扩散采样算法从逆向扩散过程的时间轴离散出多个时间节点,相邻两个时间节点组成一组转移时间对,并在输入噪声图像的基础上递进式的进行多组转移时间对的图像采样从而实现输入噪声图像的恢复;
S12.4:基于所述扩散常微分方程解的表达式定义局部扩散采样算法;其中,所述局部扩散采样算法,用于实现每一组转移时间对下的图像采样;
S12.5:将封装了所述全局扩散采样算法和所述局部扩散采样算法的采样器,作为扩散模型采样器。
具体的,所述S12.2中,在gθ(xλ,λ)这种参数化下,扩散常微分方程的解为:
也即:
其中:
上式中,λu为终止时间节点。
本发明定义局部采样方式为:
(1)输入:转移时间对(s,t),时间节点s处的起始值xs,时间节点s和n个额外的时间节点处的gθ函数值
(gn,…,g1,gs);
(2)输入格式:{tn,gn},…,{t1,g1},{s,xs,gs},t;
(3)确定扩散常微分方程解的(n+1)阶泰勒展开估计式:
(4)预计算A(λs,λt)、
(5)定义δk=λks,则有
(6)将λs、λt以及代入(n+1)阶泰勒展开估计式中,得到扩散常微分方程在时间节点t处的的近似解/>
(7)输出定义全局采样方式为:
(1)输入:时间节点初始值/>
(2)将缓存至Q1;将/>缓存至Q2
(3)m从1到M;
a)第m步的阶v=min[(n+1),m];
b)从Q1中取出从Q2中取出
c)
d)将{tm-v,gm-v},…,{tm-2,gm-2},
输入局部采样方式中,预估
e)计算
f)
g)将{tm-v+1,gm-v+1},…,{tm-2,gm-2},
输入局部采样方式中,预估/>
h)
i)将缓存至Q1;将/>缓存至Q2
(4)输出/>
因此,所述S12.3中全局扩散采样算法的算法流程,包括:
步骤1:从逆向扩散过程的时间轴离散出时间节点并设输入噪声图像/>为时间节点/>处的噪声图像;
步骤2:初始化i=0,第一缓存器和第二缓存器为空;
步骤3:将时间节点处的噪声图像及其包含的噪声分别缓存至第一缓存器和第二缓存器;
步骤4:基于所述第一缓存器和所述第二缓存器,采用所述局部扩散采样算法进行转移时间对下的图像采样,得到时间节点/>处的噪声图像及其包含的噪声;
步骤5:当i≠M时,令i=i+1并返回步骤3;当i=M时,将时间节点处的噪声图像作为输入噪声图像的恢复图像。
所述S12.4中局部扩散采样算法的算法流程,包括:
步骤a:确定转移时间对对应的阶数;其中,所述阶数v=min[(n+1),i+1];
步骤b:从第一缓存器中取出时间节点至时间节点/>处的噪声图像并从第二缓存器中取出时间节点/>至时间节点/>处的噪声图像所包含的噪声/>
步骤c:基于和/>估算
步骤d:基于所述扩散常微分方程解的表达式、以及时间节点/>处的噪声图像/>采样时间节点/>处的噪声图像/>
步骤e:确定所述噪声图像中包含的噪声/>
步骤f:基于和/>估算
步骤g:基于所述扩散常微分方程解的表达式、 以及时间节点/>处的噪声图像/>重新采样时间节点/>处的噪声图像/>
步骤h:重新确定所述噪声图像中包含的噪声
其中,所述步骤d,包括:
确定所述扩散常微分方程解的表达式的泰勒展开式;其中,所述泰勒展开式中的参数包含的v-1阶导数至0阶导数;
视为初始时间节点s,将/>视为终止时间节点t,并利用计算gθ(xs,s)的v-1阶导数至1阶导数;其中,s和t分别能够换元为λs和λt
将gθ(xs,s)的v-1阶导数至1阶导数的计算值、所述和所述/>代入所述泰勒展开式中,得到时间节点/>处的噪声图像/>
与现有技术相比,本发明采用了更优的模型参数化,因此在相同采样步数下的误差更小,采样质量更高。例如在LSUN-Bedroom数据集上,5步时的采样质量(使用FID衡量)相比于之前算法具有显著提升。总体而言,本发明相比于先前最先进的扩散模型采样技术,达到相同的采样质量需要的采样步数减少15%~30%,即采样的时间开销减少15%~30%。
总而言之,本发明在理论上研究了基于指数积分器的扩散常微分方程求解时的参数化问题。其中,通过引入三种系数构建了一种新的参数化形式,并给出了在一阶离散化误差意义下三种系数的最优解。基于这种新的参数化,我们提出了任意阶下的局部估计算法和其基础上的全局估计算法,从而实现了扩散常微分方程的高效求解,降低了扩散模型推理采样的开销。
此外,本发明可以低成本地广泛应用于扩散模型的采样加速,如无条件采样和文生图任务中的条件采样。鉴于文生图大模型已成为生成式人工智能(AIGC)的重要部分,本发明期望能推动相关模型的大规模使用和落地,以及在下游任务中的应用。
第二方面,对本发明提供的用于图像生成的扩散模型采样装置进行描述,下文描述的用于图像生成的扩散模型采样装置与上文描述的用于图像生成的扩散模型采样方法可相互对应参照。图2为用于图像生成的扩散模型采样装置的结构示意图,如图2所述,所述装置包括:
参数化模块21,用于对预训练的噪声预测模型进行参数化,得到最优参数化表示;其中,所述最优参数化表示通过引入线性系数、尺寸系数和偏置系数使所述最优参数化表示下的扩散常微分方程在求解时具有最小的一阶离散化误差;
构建模块22,用于基于所述最优参数化表示构建扩散模型采样器;
采样模块23,用于利用所述扩散模型采样器,对满足第一高斯分布的目标噪声图像进行图像恢复;
其中,所述噪声预测模型是利用第一样本集训练的;所述第一样本集的每一个样本由前向扩散过程中任一时刻、任一时刻下的噪声图像以及任一时刻下的噪声图像所包含的高斯噪声组成;
所述第一高斯分布为前向扩散过程所生成的纯噪声图像所呈现出的分布。
本发明提供一种用于图像生成的扩散模型采样装置,通过分析扩散常微分方程求解时离散化误差,设定采样时更优的噪声预测模型参数化方式,并基于此构建更高效的扩散模型采样器,以此在保证扩散模型采样质量的前提下提高散模型采样效率。
第三方面,图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口820,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行用于图像生成的扩散模型采样方法,该方法包括:对预训练的噪声预测模型进行参数化,得到最优参数化表示;其中,所述最优参数化表示通过引入线性系数、尺寸系数和偏置系数使所述最优参数化表示下的扩散常微分方程在求解时具有最小的一阶离散化误差;基于所述最优参数化表示构建扩散模型采样器;利用所述扩散模型采样器,对满足第一高斯分布的目标噪声图像进行图像恢复;其中,所述噪声预测模型是利用第一样本集训练的;所述第一样本集的每一个样本由前向扩散过程中任一时刻、任一时刻下的噪声图像以及任一时刻下的噪声图像所包含的高斯噪声组成;所述第一高斯分布为前向扩散过程所生成的纯噪声图像所呈现出的分布。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
第四方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的用于图像生成的扩散模型采样方法,该方法包括:对预训练的噪声预测模型进行参数化,得到最优参数化表示;其中,所述最优参数化表示通过引入线性系数、尺寸系数和偏置系数使所述最优参数化表示下的扩散常微分方程在求解时具有最小的一阶离散化误差;基于所述最优参数化表示构建扩散模型采样器;利用所述扩散模型采样器,对满足第一高斯分布的目标噪声图像进行图像恢复;其中,所述噪声预测模型是利用第一样本集训练的;所述第一样本集的每一个样本由前向扩散过程中任一时刻、任一时刻下的噪声图像以及任一时刻下的噪声图像所包含的高斯噪声组成;所述第一高斯分布为前向扩散过程所生成的纯噪声图像所呈现出的分布。
第五方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的用于图像生成的扩散模型采样方法,该方法包括:对预训练的噪声预测模型进行参数化,得到最优参数化表示;其中,所述最优参数化表示通过引入线性系数、尺寸系数和偏置系数使所述最优参数化表示下的扩散常微分方程在求解时具有最小的一阶离散化误差;基于所述最优参数化表示构建扩散模型采样器;利用所述扩散模型采样器,对满足第一高斯分布的目标噪声图像进行图像恢复;其中,所述噪声预测模型是利用第一样本集训练的;所述第一样本集的每一个样本由前向扩散过程中任一时刻、任一时刻下的噪声图像以及任一时刻下的噪声图像所包含的高斯噪声组成;所述第一高斯分布为前向扩散过程所生成的纯噪声图像所呈现出的分布。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种用于图像生成的扩散模型采样方法,其特征在于,所述方法包括:
对预训练的噪声预测模型进行参数化,得到最优参数化表示;其中,所述最优参数化表示通过引入线性系数、尺寸系数和偏置系数使所述最优参数化表示下的扩散常微分方程在求解时具有最小的一阶离散化误差;
基于所述最优参数化表示构建扩散模型采样器;
利用所述扩散模型采样器,对满足第一高斯分布的目标噪声图像进行图像恢复;
其中,所述噪声预测模型是利用第一样本集训练的;所述第一样本集的每一个样本由前向扩散过程中任一时刻、任一时刻下的噪声图像以及任一时刻下的噪声图像所包含的高斯噪声组成;
所述第一高斯分布为前向扩散过程所生成的纯噪声图像所呈现出的分布。
2.根据权利要求1所述的用于图像生成的扩散模型采样方法,其特征在于,所述前向扩散过程,用公式表示为:
xt=αtx0t∈,t∈(0~T)
∈~N(0,I)
上式中,x0为原始图像,xt为t时刻下的噪声图像,∈为t时刻下的噪声图像所包含的高斯噪声,I为单位矩阵,αt为t时刻下的第一超参数,σt为t时刻下的第二超参数,xT为T时刻下的噪声图像,其为纯噪声图像;所述最优参数化表示gθ(xλ,λ)如下所示:
其中:
Nθ(xλ,λ)=σλθ(xλ,λ)-lλxλ
上式中,λ是t的换元,λt=log(αtt),lλ、sλ和bλ分别为λ时刻下的线性系数、尺寸系数和偏置系数,λs为初始时间节点,τ,r∈(λs~λ),为对x求梯度,/>为fθ(xλ,λ)对λ的1阶全导数,∈θ(xλ,λ)为以估算噪声为目的时所述噪声预测模型的参数化表示,记为第一参数化表示,qλ(xλ)为众多原始图像在λ时刻下的噪声图像的集合。
3.根据权利要求2所述的用于图像生成的扩散模型采样方法,其特征在于,所述基于所述参数化表示构建扩散模型采样器,包括:
构建所述参数化表示下的扩散常微分方程;
确定所述扩散常微分方程解的表达式:
定义全局扩散采样算法;其中,所述全局扩散采样算法从逆向扩散过程的时间轴离散出多个时间节点,相邻两个时间节点组成一组转移时间对,并在输入噪声图像的基础上递进式的进行多组转移时间对的图像采样从而实现输入噪声图像的恢复;
基于所述扩散常微分方程解的表达式定义局部扩散采样算法;其中,所述局部扩散采样算法,用于实现每一组转移时间对下的图像采样;
将封装了所述全局扩散采样算法和所述局部扩散采样算法的采样器,作为扩散模型采样器。
4.根据权利要求3所述的用于图像生成的扩散模型采样方法,其特征在于,所述扩散常微分方程解的表达式如下所示:
其中:
上式中,λu为终止时间节点。
5.根据权利要求3或4所述的用于图像生成的扩散模型采样方法,其特征在于,所述全局扩散采样算法的算法流程,包括:
步骤1:从逆向扩散过程的时间轴离散出时间节点并设输入噪声图像/>为时间节点/>处的噪声图像;
步骤2:初始化i=0,第一缓存器和第二缓存器为空;
步骤3:将时间节点处的噪声图像及其包含的噪声分别缓存至第一缓存器和第二缓存器;
步骤4:基于所述第一缓存器和所述第二缓存器,采用所述局部扩散采样算法进行转移时间对下的图像采样,得到时间节点/>处的噪声图像及其包含的噪声;
步骤5:当i≠M时,令i=i+1并返回步骤3;当i=M时,将时间节点处的噪声图像作为输入噪声图像的恢复图像。
6.根据权利要求5所述的用于图像生成的扩散模型采样方法,其特征在于,所述局部扩散采样算法的算法流程,包括:
步骤a:确定转移时间对对应的阶数;其中,所述阶数v=min[(n+1),i+1];
步骤b:从第一缓存器中取出时间节点至时间节点/>处的噪声图像并从第二缓存器中取出时间节点/>至时间节点/>处的噪声图像所包含的噪声/>
步骤c:基于和/>估算
步骤d:基于所述扩散常微分方程解的表达式、以及时间节点/>处的噪声图像/>采样时间节点/>处的噪声图像/>
步骤e:确定所述噪声图像中包含的噪声/>
步骤f:基于和/>估算/>
步骤g:基于所述扩散常微分方程解的表达式、 以及时间节点/>处的噪声图像/>重新采样时间节点/>处的噪声图像/>
步骤h:重新确定所述噪声图像中包含的噪声/>
7.根据权利要求6所述的用于图像生成的扩散模型采样方法,其特征在于,所述步骤d,包括:
确定所述扩散常微分方程解的表达式的泰勒展开式;其中,所述泰勒展开式中的参数包含的v-1阶导数至0阶导数;
视为初始时间节点s,将/>视为终止时间节点t,并利用计算gθ(xs,s)的V-1阶导数至1阶导数;其中,s和t分别能够换元为λs和λt
将gθ(xs,s)的V-1阶导数至1阶导数的计算值、所述和所述/>代入所述泰勒展开式中,得到时间节点/>处的噪声图像/>
8.一种用于图像生成的扩散模型采样装置,其特征在于,所述装置包括:
参数化模块,用于对预训练的噪声预测模型进行参数化,得到最优参数化表示;其中,所述最优参数化表示通过引入线性系数、尺寸系数和偏置系数使所述最优参数化表示下的扩散常微分方程在求解时具有最小的一阶离散化误差;
构建模块,用于基于所述最优参数化表示构建扩散模型采样器;
采样模块,用于利用所述扩散模型采样器,对满足第一高斯分布的目标噪声图像进行图像恢复;
其中,所述噪声预测模型是利用第一样本集训练的;所述第一样本集的每一个样本由前向扩散过程中任一时刻、任一时刻下的噪声图像以及任一时刻下的噪声图像所包含的高斯噪声组成;
所述第一高斯分布为前向扩散过程所生成的纯噪声图像所呈现出的分布。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述用于图像生成的扩散模型采样方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述用于图像生成的扩散模型采样方法。
CN202310838378.8A 2023-07-10 2023-07-10 一种用于图像生成的扩散模型采样方法和装置 Pending CN116894778A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310838378.8A CN116894778A (zh) 2023-07-10 2023-07-10 一种用于图像生成的扩散模型采样方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310838378.8A CN116894778A (zh) 2023-07-10 2023-07-10 一种用于图像生成的扩散模型采样方法和装置

Publications (1)

Publication Number Publication Date
CN116894778A true CN116894778A (zh) 2023-10-17

Family

ID=88313037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310838378.8A Pending CN116894778A (zh) 2023-07-10 2023-07-10 一种用于图像生成的扩散模型采样方法和装置

Country Status (1)

Country Link
CN (1) CN116894778A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117197002A (zh) * 2023-11-07 2023-12-08 松立控股集团股份有限公司 一种基于感知扩散的图像复原方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117197002A (zh) * 2023-11-07 2023-12-08 松立控股集团股份有限公司 一种基于感知扩散的图像复原方法
CN117197002B (zh) * 2023-11-07 2024-02-02 松立控股集团股份有限公司 一种基于感知扩散的图像复原方法

Similar Documents

Publication Publication Date Title
CN113158615B (zh) 量子门的优化方法、装置、设备及存储介质
CN106502985B (zh) 一种用于生成标题的神经网络建模方法及装置
EP3504666B1 (en) Asychronous training of machine learning model
JP7439151B2 (ja) ニューラルアーキテクチャ検索
Hoogeboom et al. Blurring diffusion models
US20200234144A1 (en) Generating training datasets for training neural networks
Huang et al. A provably convergent scheme for compressive sensing under random generative priors
US20210133378A1 (en) Methods and systems for the estimation of the computational cost of simulation
JP7178513B2 (ja) ディープラーニングに基づく中国語単語分割方法、装置、記憶媒体及びコンピュータ機器
JP7179835B2 (ja) モデル生成装置、モデル生成方法、プログラム
Lee et al. Minimizing trajectory curvature of ode-based generative models
Behzadan et al. Mitigation of policy manipulation attacks on deep q-networks with parameter-space noise
CN116894778A (zh) 一种用于图像生成的扩散模型采样方法和装置
CN117011673B (zh) 基于噪声扩散学习的电阻抗层析成像图像重建方法和装置
Zheng et al. Improved techniques for maximum likelihood estimation for diffusion odes
CN111738435A (zh) 一种基于移动设备的在线稀疏训练方法及***
JP2017016384A (ja) 混合係数パラメータ学習装置、混合生起確率算出装置、及び、これらのプログラム
CN113129447A (zh) 基于单张手绘草图的三维模型生成方法、装置和电子设备
CN114936646A (zh) 一种量子化数据处理方法和装置
Hodgkinson et al. Stochastic continuous normalizing flows: training SDEs as ODEs
US11922550B1 (en) Systems and methods for hierarchical text-conditional image generation
Li et al. Efficient quantum algorithms for quantum optimal control
CN111160487B (zh) 人脸图像数据集的扩充方法和装置
CN115577782A (zh) 量子计算方法、装置、设备及存储介质
KR20230083673A (ko) 양자 판독을 위한 신경망을 구축하는 방법, 신경망을 이용하여 양자 판독 오류를 감소시키는 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination