CN116664450A

CN116664450A - 基于扩散模型的图像增强方法、装置、设备及存储介质

Info

Publication number: CN116664450A
Application number: CN202310922672.7A
Authority: CN
Inventors: 王红凯; 徐昱; 毛冬; 戴波; 陈祖歌; 黄建平; 李钟煦; 郑怡; 饶涵宇; 李高磊
Original assignee: State Grid Information and Telecommunication Co Ltd; Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd; PanAn Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: State Grid Information and Telecommunication Co Ltd; Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd; PanAn Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2023-07-26
Filing date: 2023-07-26
Publication date: 2023-08-29

Abstract

本发明公开基于扩散模型的图像增强方法、装置、设备及存储介质，方法包括：获取待增强的目标图像与图像增强指令，编码得到编码特征图和文本编码；将编码特征图和文本编码输入到预先训练好的目标图像增强网络中；按照预设噪声添加规则和预设步数，逐步向编码特征图中添加高斯噪声，得到服从高斯分布的目标噪声图像，并确定每一步添加高斯噪声后的结果图像中的预测噪声；基于交叉注意力机制，对目标噪声图像中与文本编码对应的区域进行图像增强，得到加噪增强图像；按照预设噪声去除规则和预设步数，逐步从加噪增强图像中去除每一步的预测噪声，得到去噪后图像；对去噪后图像进行解码，得到增强后图像。本发明有效地提高了对特征缺失较多的图像的增强效果。

Description

基于扩散模型的图像增强方法、装置、设备及存储介质

技术领域

本发明涉及图像增强的技术领域，尤其涉及基于扩散模型的图像增强方法、装置、设备及存储介质。

背景技术

图像是电子***中最常见的信息载体之一，在医学影像、无人机摄影、安防监控、工业检测等领域中被广泛应用。然而，由于环境条件、设备限制和采集过程中的噪声等因素的影响，导致采集到的许多原始图片在质量、对比度、清晰度和细节表现等方面存在着局限性。图像增强技术是指对图像中的特征进行处理，以改善图像的视觉效果，提高图像的质量的技术。

传统的图像增强方法通常采用图像滤波、直方图均衡化以及图像锐化等技术来改善图像的质量。然而，这些方法在面对复杂场景和特定应用时，对图像的增强效果有限。例如：在医学影像中，传统的图像增强方法无法有效提取病变细节或准确还原图像的组织结构；在无人机摄影中，由于光照条件和拍摄距离的变化，导致拍摄的图像可能存在模糊、噪点和对比度低等问题，采用传统的图像增强方法对拍摄的图像的增强效果有限；在安防监控中，采用传统的图像增强方法无法准确识别和追踪目标物体。

随着深度学习和计算机视觉等领域的快速发展，研究人员提出了基于电子***的图像增强方法来克服上述问题。为了提高图像增强效果，现有的图像增强算法基于神经网络模型实现，具体实现方式包括但不限于以下两种方式：第一种：卷积神经网络（Convolutional Neural Networks，CNN），CNN在训练时使用低质量图像（即需要进行图像增强的图像）作为输入，高质量图像（即不需要进行图像增强的图像）作为训练目标，使用损失函数进行网络的迭代训练。在进行图像增强时，将待进行图像增强的目标图像输入训练后的CNN，输出得到图像增强后的图像。第二种：生成式对抗网络（Generative AdversarialNetworks，GAN），GAN使用低质量图像作为输入，高质量图像作为训练目标，在生成器和鉴别器的对抗中进行迭代训练。在进行图像增强时，将待进行图像增强的目标图像输入训练后的生成器，输出得到图像增强后的图像。

但是，现有的用于进行图像增强的神经网络模型对特征缺失较多的图像的增强效果较差。

发明内容

本发明提供基于扩散模型的图像增强方法、装置、设备及存储介质，解决了现有技术对特征缺失较多的图像增强效果差的问题。

为达到上述目的，本发明采用如下技术方案：

第一方面，本发明提供基于扩散模型的图像增强方法，该方法包括：

获取待增强的目标图像，并通过编码器对所述目标图像进行编码，得到编码特征图；

获取图像增强指令，通过文本编辑器对所述图像增强指令进行编码，得到文本编码；所述图像增强指令包括需要增强的图像的特征和位置；

将所述编码特征图和所述文本编码输入到预先训练好的目标图像增强网络中；

按照预设噪声添加规则和预设步数，逐步向所述编码特征图中添加高斯噪声，得到服从高斯分布的目标噪声图像，并确定每一步添加高斯噪声后的结果图像中的预测噪声；

基于交叉注意力机制，对所述目标噪声图像中与所述文本编码对应的区域进行图像增强，得到加噪增强图像；

按照预设噪声去除规则和所述预设步数，逐步从所述加噪增强图像中去除每一步的所述预测噪声，得到去噪后图像；

通过解码器对所述去噪后图像进行解码，得到增强后图像。

在一种可能的实现方式中，所述预设噪声添加规则是基于去噪扩散概率模型的扩散过程确定的；所述按照预设噪声添加规则和预设步数，逐步向所述编码特征图中添加高斯噪声，得到服从高斯分布的目标噪声图像，具体包括：

按照所述去噪扩散概率模型的扩散过程，在所述扩散过程的每一步，向所述编码特征图中添加高斯噪声；添加的所述高斯噪声的参数值基于预设噪声时间表确定；

根据所述编码特征图和所述噪声时间表，计算所述扩散过程的每一步添加所述高斯噪声后的结果图像，并将所述预设步数对应的结果图像作为目标噪声图像输出。

在一种可能的实现方式中，所述根据所述编码特征图和所述噪声时间表，计算所述扩散过程的每一步添加所述高斯噪声后的结果图像，具体为：

根据如下公式计算所述扩散过程的每一步添加所述高斯噪声后的结果图像：

，

其中，为添加高斯噪声前的编码特征图，/>为加噪至第t时刻对应的加噪结果；

，/>；

为预设噪声时间表，/>包括/>，表示所述扩散过程的每一步添加高斯噪声的参数值，且/>。

在一种可能的实现方式中，所述目标噪声图像包括多个图像通道，所述交叉注意力机制包括通道注意力机制和空间注意力机制；所述基于交叉注意力机制，对所述目标噪声图像中与所述文本编码对应的区域进行图像增强，得到加噪增强图像，具体包括：

通过所述通道注意力机制，对所述目标噪声图像中与所述文本编码对应的区域的每个所述图像通道对应的特征图进行不同图像通道的针对性增强，得到通道注意力特征图；

通过所述空间注意力机制，对所述通道注意力特征图进行不同空间位置的针对性增强，得到加噪增强图像。

在一种可能的实现方式中，所述通过所述通道注意力机制，对所述目标噪声图像中与所述文本编码对应的区域的每个所述图像通道对应的特征图进行不同图像通道的针对性增强，得到通道注意力特征图，具体包括：

对于所述目标噪声图像中与所述文本编码对应的区域的每个图像通道的特征图，根据最大池化和平均池化的方法对所述特征图进行降维处理，得到所述图像通道对应的特征图的全局特征；

通过多层感知器对所述全局特征进行处理，得到所述图像通道的权重系数；

通过所述权重系数对所述图像通道对应的特征图进行加权处理，得到加权后特征图；

对所述加权后特征图与所述目标噪声图像的所述图像通道做乘法处理，得到通道注意力特征图。

在一种可能的实现方式中，通过所述空间注意力机制，对所述通道注意力特征图进行不同空间位置的针对性增强，得到加噪增强图像，具体包括：

根据最大池化和平均池化的方法对所述通道注意力特征图进行处理，得到处理结果；

将所述处理结果基于对应的图像通道进行连接操作，得到连接后特征图；

通过卷积降维处理的方法将所述连接后特征图降维成单通道，得到空间特征图；

对所述空间特征图和所述目标噪声图像做乘法处理，得到加噪增强图像。

在一种可能的实现方式中，所述预设噪声去除规则是基于去噪扩散概率模型的逆向过程确定的；所述按照预设噪声去除规则和所述预设步数，逐步从所述加噪增强图像中去除每一步的所述预测噪声，具体包括：

基于所述去噪扩散概率模型的逆向过程，在所述逆向过程的每一步从所述加噪增强图像中去除与所述逆向过程对应的扩散过程中确定的预测噪声。

在一种可能的实现方式中，在所述将所述编码特征图和所述文本编码输入到预先训练好的目标图像增强网络中之前，所述方法还包括：

对原始的图像增强网络进行训练，得到预测噪声与真实噪声的误差值小于预设损失值的图像增强网络作为目标图像增强网络。

在一种可能的实现方式中，所述对原始的图像增强网络进行训练，得到预测噪声与真实噪声的误差值小于预设损失值的图像增强网络作为目标图像增强网络，具体包括：

获取满足预设质量要求的高质量图像，并通过降采样的方式对所述高质量图像进行处理，得到对应的低质量图像；

通过编码器对所述高质量图像和所述低质量图像进行编码，得到高质量编码图和低质量编码图；

逐步将高斯噪声添加到所述低质量编码图中，并确定每一步添加高斯噪声后的结果图像中的预测噪声；

确定所述预测噪声与噪声真值的误差值，在所述误差值大于预设损失值时，更改所述原始的图像增强网络的参数，直至所述误差值小于所述预设损失值，得到训练好的目标图像增强网络。

第二方面，本发明提供基于扩散模型的图像增强装置，该装置包括：

编码模块，用于获取待增强的目标图像，并通过编码器对所述目标图像进行编码，得到编码特征图；

文本编码模块，用于获取图像增强指令，通过文本编辑器对所述图像增强指令进行编码，得到文本编码；所述图像增强指令包括需要增强的图像的特征和位置；

输入模块，用于将所述编码特征图和所述文本编码输入到预先训练好的目标图像增强网络中；

噪声预测模块，用于按照预设噪声添加规则和预设步数，逐步向所述编码特征图中添加高斯噪声，得到服从高斯分布的目标噪声图像，并确定每一步添加高斯噪声后的结果图像中的预测噪声；

图像增强模块，用于基于交叉注意力机制，对所述目标噪声图像中与所述文本编码对应的区域进行图像增强，得到加噪增强图像；

去噪模块，用于按照预设噪声去除规则和所述预设步数，逐步从所述加噪增强图像中去除每一步的所述预测噪声，得到去噪后图像；

解码模块，用于通过解码器对所述去噪后图像进行解码，得到增强后图像。

进一步的，所述预设噪声添加规则是基于去噪扩散概率模型的扩散过程确定的；在按照预设噪声添加规则和预设步数，逐步向所述编码特征图中添加高斯噪声，得到服从高斯分布的目标噪声图像时，所述噪声预测模块被配置为执行：

进一步的，在根据所述编码特征图和所述噪声时间表，计算所述扩散过程的每一步添加所述高斯噪声后的结果图像时，所述噪声预测模块具体被配置为执行：

，

，/>；

进一步的，所述目标噪声图像包括多个图像通道，所述交叉注意力机制包括通道注意力机制和空间注意力机制；所述图像增强模块包括第一增强单元和第二增强单元；

所述第一增强单元用于，通过所述通道注意力机制，对所述目标噪声图像中与所述文本编码对应的区域的每个所述图像通道对应的特征图进行不同图像通道的针对性增强，得到通道注意力特征图；

所述第二增强单元用于，通过所述空间注意力机制，对所述通道注意力特征图进行不同空间位置的针对性增强，得到加噪增强图像。

进一步的，所述第一增强单元具体被配置为执行：

进一步的，所述第二增强单元具体被配置为执行：

进一步的，所述预设噪声去除规则是基于去噪扩散概率模型的逆向过程确定的；所述去噪模块具体被配置为执行：

进一步的，所述装置还包括模型训练模块，用于在将所述编码特征图和所述文本编码输入到预先训练好的目标图像增强网络中之前，对原始的图像增强网络进行训练，得到预测噪声与真实噪声的误差值小于预设损失值的图像增强网络作为目标图像增强网络。

进一步的，所述模型训练模块具体被配置为执行：

第三方面，本发明提供一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述中任一项所述的基于扩散模型的图像增强方法。

第四方面，本发明提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述任一项所述的基于扩散模型的图像增强方法。

本发明实施例提供的基于扩散模型的图像增强方法，首先，分别通过编码器和文本编辑器分别对获取的待增强的目标图像和图像增强指令进行编码，分别得到编码特征图和文本编码；其次，将编码后的编码特征图和文本编码输入到预先训练好的目标图像增强网络中；之后，逐步向编码特征图中添加高斯噪声，得到服从高斯噪声分别的目标噪声图像，并确定每一步添加高斯噪声后的结果图像中的预测噪声；再之后，基于交叉注意力机制，对目标噪声图像中与图像增强指令对应区域进行图像增强，得到加噪增强图像；之后，与加噪过程对应，逐步从加噪增强图像中去除每一步的预测噪声，得到去噪后图像；最后，通过解码器对去噪后图像进行解码，得到增强后图像。本发明针对特征缺失较多的目标图像，例如：电力业务视觉分析领域中的发电、输电、配电过程中存在特征丢失、不连续的终端采集图像，先通过向目标图像中逐步引入高斯噪声，以衰减图像中的有用信息，使加噪后图像趋向于一个高斯噪声；然后通过逐步去噪去除图像中的噪声来还原原始图像，在消除目标图像中的噪声和干扰的同时增强整个目标图像的细节信号和特征，同时，结合交叉注意力机制对目标图像中与图像增强指令对应的图像区域进行针对性增强，支持对图像纹理、饱和度、色彩等特征的修复，有效地提高对目标图像的增强效果，为后续图像分析提供更高质量的图像数据。

附图说明

图1为本发明实施例提供的基于扩散模型的图像增强方法的步骤流程图；

图2为本发明实施例提供的基于扩散模型的图像增强方法的去噪扩散概率模型的实现原理图；

图3为本发明实施例提供的基于扩散模型的图像增强方法的预测噪声模型的结构示意图；

图4为本发明实施例提供的基于扩散模型的图像增强方法的基于交叉注意力机制进行图像增强的实现原理图；

图5为本发明实施例提供的基于扩散模型的图像增强方法的技术流程图；

图6为本发明实施例提供的基于扩散模型的图像增强装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。另外，“基于”或“根据”的使用意味着开放和包容性，因为“基于”或“根据”一个或多个所述条件或值的过程、步骤、计算或其他动作在实践中可以基于额外条件或超出所述的值。

为了解决现有技术对特征缺失较多的图像增强效果差的问题，本发明实施例提供了基于扩散模型的图像增强方法和装置。

如图1所示，第一方面，本发明实施例提供了基于扩散模型的图像增强方法，该方法包括：

步骤101、获取待增强的目标图像，并通过编码器对目标图像进行编码，得到编码特征图。

其中，待增强的目标图像可以为电力业务视觉分析领域中发电、输电、配电过程中存在的特征丢失、不连续的终端采集图像。

编码器（Encoder）是将信号或数据进行编制、转化为可用以通讯、传输和存储的信号形式的设备。

在本实施例中，通过编码器能够将输入的目标图像压缩成潜在空间表征，得到编码特征图。

步骤102、获取图像增强指令，通过文本编辑器对图像增强指令进行编码，得到文本编码。

其中，图像增强指令包括需要增强的图像的特征和位置。

具体的，需要增强的图像的特征可以为人脸特征、具体背景特征等，需要增强的图像的位置可以为图像的左上角、右上角等。

在本实施例中，文本编辑器为CLIP(Contrastive Language-Image Pre-Training)文本编辑器。通过CLIP文本编辑器将图像和文本映射到同一个向量空间，得到文本编码。

步骤103、将编码特征图和文本编码输入到预先训练好的目标图像增强网络中。

具体的，将步骤101得到的编码特征图和步骤102得到的文本编码均输入到预先训练好的目标图像增强网络中，通过目标图像增强网络对目标图像进行针对性增强。

步骤104、按照预设噪声添加规则和预设步数，逐步向编码特征图中添加高斯噪声，得到服从高斯分布的目标噪声图像，并确定每一步添加高斯噪声后的结果图像中的预测噪声。

具体的，向编码特征图中添加一定量的高斯噪声，得到第一次添加了高斯噪声后的结果图像；之后，向第一次添加了高斯噪声后的结果图像中再次添加一定量的高斯噪声，得到第二次添加了高斯噪声后的结果图像，重复上述添加高斯噪声的步骤预设步数次，可以得到一个趋近于高斯噪声的目标噪声图像。即逐步向编码特征图中添加高斯噪声，使原本的编码特征图变为一个服从标准高斯分布的噪声图。

在逐步添加高斯噪声的过程中，确定每一步的结果图像中包含的预测噪声。

步骤105、基于交叉注意力机制，对目标噪声图像中与文本编码对应的区域进行图像增强，得到加噪增强图像。

注意力机制是注意力计算规则能够应用的深度学习网络的载体。交叉注意力机制可以将模态内部和模态之间的关联特征统一起来进行图文匹配计算。

在本实施例中，应用注意力机制确定图像增强指令和编码特征图的匹配关系，对与图像增强指令匹配的区域进行针对性增强，从而得到加噪增强图像。

步骤106、按照预设噪声去除规则和预设步数，逐步从加噪增强图像中去除每一步的预测噪声，得到去噪后图像。

具体的，与逐步添加高斯噪声的方向相反，逐步从加噪增强图像中去除上一步中的预测噪声，重复上述去躁步骤预设步数次，得到逐步去除了预测噪声后的去噪后图像。

步骤107、通过解码器对去噪后图像进行解码，得到增强后图像。

其中，解码器（Decoder）能够将压缩成潜在空间表征的数据还原为图像，该图像即为增强后图像。

具体的，步骤101和步骤102主要是得到目标图像的编码特征图，以及输入的图像增强指令的文本编码，步骤101和步骤102的执行顺序并不做具体限定，可以异常执行，也可以同步执行，只要在步骤103之前执行完毕即可。

本发明实施例提供的基于扩散模型的图像增强方法，首先，分别通过编码器和文本编辑器分别对获取的待增强的目标图像和图像增强指令进行编码，分别得到编码特征图和文本编码；其次，将编码后的编码特征图和文本编码输入到预先训练好的目标图像增强网络中；之后，逐步向编码特征图中添加高斯噪声，得到服从高斯噪声分别的目标噪声图像，并确定每一步添加高斯噪声后的结果图像中的预测噪声；再之后，基于交叉注意力机制，对目标噪声图像中与图像增强指令对应区域进行图像增强，得到加噪增强图像；之后，与加噪过程对应，逐步从加噪增强图像中去除每一步的预测噪声，得到去噪后图像；最后，通过解码器对去噪后图像进行解码，得到增强后图像。

本发明针对特征缺失较多的目标图像，例如：电力业务视觉分析领域中的发电、输电、配电过程中存在特征丢失、不连续的终端采集图像，先通过向目标图像中逐步引入高斯噪声，以衰减图像中的有用信息，使加噪后图像趋向于一个高斯噪声；然后通过逐步去噪去除图像中的噪声来还原原始图像，在消除目标图像中的噪声和干扰的同时增强整个目标图像的细节信号和特征，同时，结合交叉注意力机制对目标图像中与图像增强指令对应的图像区域进行针对性增强，支持对图像纹理、饱和度、色彩等特征的修复，有效地提高对目标图像的增强效果，为后续图像分析提供更高质量的图像数据。

进一步的，预设噪声添加规则是基于去噪扩散概率模型的扩散过程确定的。

其中，去噪扩散概率模型（Denoising Diffusion Probabilistic Models, DDPM）是一种参数化的马尔科夫链，通过变分推理的方法来训练。去噪扩散概率模型是深度生成模型中的一种，通常包含两个过程，扩散过程和逆向过程。其中，扩散过程也称前向过程、前向扩散过程或加噪过程，逆向过程也称逆向扩散过程或逆向去噪过程。

如图2所示，由到/>的过程为去噪扩散概率模型的扩散过程，由/>到/>的过程为去噪扩散概率模型的逆向过程。

扩散过程是一个逐步加噪的过程，在扩散过程的每一步，在样本图像中添加对角高斯噪声，通过不断地加入高斯噪声，使原有的样本图像的样本数据分布转换为一个简单的服从标准高斯分布的图像。

逆向过程是一个去燥的过程，从服从标准高斯分布的图像中进行采样，每一步去除一小部分高斯噪声，使去噪后的图像逐步贴近真实数据分布，进而得到真实数据分布中的样本图像，实现对样本图像的恢复。

按照预设噪声添加规则和预设步数，逐步向编码特征图中添加高斯噪声，得到服从高斯分布的目标噪声图像，具体包括：

按照去噪扩散概率模型的扩散过程，在扩散过程的每一步，向编码特征图中添加高斯噪声。

其中，添加的高斯噪声的参数值基于预设噪声时间表确定。

具体的，去噪扩散概率模型的扩散过程是一个基于马尔科夫假设的加噪过程。当逐步加噪的步数确定为预设步数T，每一步需要添加的高斯噪声的参数基于预设噪声时间表确定之后，将编码特征图作为，逐步向图片中添加高斯噪声。

根据编码特征图和噪声时间表，计算扩散过程的每一步添加高斯噪声后的结果图像，并将预设步数对应的结果图像作为目标噪声图像输出。

具体的，将编码特征图作为，需要添加噪声的步数为T，每次添加的高斯噪声的参数根据噪声时间表确定，在扩散过程中能够毫无疑义的得到每一步添加噪声后的结果图像，将第T步对应的结果图像作为目标噪声图像。

进一步的，根据编码特征图和噪声时间表，计算扩散过程的每一步添加高斯噪声后的结果图像，具体为：

假设预设步数为T，编码特征图的样本数据的初始分布为，在扩散过程的每一时刻t向编码特征图中加均值和标准差为特定差的高斯噪声，通过如下公式表示：

（1），

（2），

其中，为加噪至t时刻的结果图像，/>为预设噪声时间表，/>包括，表示扩散过程的每一步添加高斯噪声的参数值，且。

由此可得，（3），

其中，，定义变量/>，/>，基于马尔科夫假设，经过不断迭代，可以根据如下公式计算扩散过程的每一步添加高斯噪声后的结果图像：

（4），

也就是说，（5），

由上可知，在整个扩散过程中，对于确定的编码特征图和噪声时间表/>，能够得到任意一步加噪后的结果图像/>，当预设步数T足够大时，最终加噪后的结果图像可视为一个各向同性的高斯分布噪声，即/>。

进一步的，确定每一步添加高斯噪声后的结果图像中的预测噪声具体为：

如图3所示，通过预测噪声模型确定每一步添加高斯噪声后的结果图像中的预测噪声。

其中，预测噪声模型基于输入和输出维度相同的U-Net网络构成，U-Net网络包括收缩路径和扩张路径；收缩路径采用多层下采样结构，多层下采样结构通过第一卷积模块实现；扩张路径采用多层上采样结构，多层上采样结构通过第二卷积模块实现；多层下采样结构与多层上采样结构的层数相同。

在本实施例中，预测噪声模型的输入为单通道128×128的张量、时间t采用Embedding技术进行编码后、合并残差结构。预测噪声模型的输出为/>，其通道数、大小与预测噪声模型的输入相同。

多层下采样结构为4层下采样结构，预测噪声模型的下采样采用卷积核为3×3、步长为2、填充为1的卷积操作。

将加噪后图像作为第一次输入的特征图，利用第一卷积模块在多层下采样结构的每层将输入的特征图减小一半。

利用第二卷积模块通过最临近插值法，在多层上采样结构的每层将输入的特征图增加一倍，并与收缩路径对应的特征图拼接，最终输出加噪后图像的预测噪声。

第一卷积模块包括5个卷积单元，从上至下，五个卷积单元的卷积通道数分别设置为32、64、128、256、512。为了防止梯度消失和梯度***，使用残差结构完成网络的传递和通道数量的扩充缩减。预测噪声模型在输出时将通道数转换为1。

进一步的，目标噪声图像包括多个图像通道。

具体的，图像通道是图像的一个很重要的概念，在RGB色彩模式下，一幅完整的图像由红色、绿色和蓝色三个图像通道组成，三个图像通道共同作用产生了完整的图像。

交叉注意力机制包括通道注意力机制和空间注意力机制。

其中，注意力记载的本质就是定位到图像中用户感兴趣的信息，抑制图像中的无用信息。

基于交叉注意力机制，对目标噪声图像中与文本编码对应的区域进行图像增强，得到加噪增强图像，具体包括：

通过通道注意力机制，对目标噪声图像中与文本编码对应的区域的每个图像通道对应的特征图进行不同图像通道的针对性增强，得到通道注意力特征图。

其中，通道注意力机制包括压缩部分和激励部分，压缩部分主要是对全局空间信息进行压缩，然后在图像通道的维度进行特征学习，形成各个通道的重要性，激励部分是对各个通道分配不同的权重。

通过空间注意力机制，对通道注意力特征图进行不同空间位置的针对性增强，得到加噪增强图像。

其中，空间注意力机制是寻找图片中用户关注的位置，并对该位置进行处理。

进一步的，通过通道注意力机制，对目标噪声图像中与文本编码对应的区域的每个图像通道对应的特征图进行不同图像通道的针对性增强，得到通道注意力特征图，具体包括：

对于目标噪声图像中与文本编码对应的区域的每个图像通道的特征图，根据最大池化和平均池化的方法对特征图进行降维处理，得到图像通道对应的特征图的全局特征。

通过多层感知器对全局特征进行处理，得到图像通道的权重系数。

通过权重系数对图像通道对应的特征图进行加权处理，得到加权后特征图。

对加权后特征图与目标噪声图像的图像通道做乘法处理，得到通道注意力特征图。

在本实施例中，如图4所示，目标噪声图像x中与文本编码对应的区域图像，首先经过自编码器中的编码器处理后得到编码特征f _c，编码特征f _c经自编码器中的解码器处理后得到特征图F，对特征图F进行最大池化和平均池化处理生成一个通道注意力图M _c，将M _c与F做乘法操作，得到通道注意力特征图F’。

通道注意力图M _c的具体计算公式如下：

，

，（6），

其中，AvgPool为全局平均池化；MaxPool为全局最大池化；为对应的权重系数；MLP为多层感知机；/>为减少率；/>为sigmoid函数；/>为通道数；/>和/>分别表示2个权重系数；/>为特征/>经过平均池化后的特征向量，上标/>表示通道注意力模块；/>为特征/>最大池化操作后的向量，2个特征相加后经过sigmoid函数激活生成最终的M _c。

将通道注意力图M _c与F做乘法操作，得到通道注意力特征图F’。

进一步的，通过空间注意力机制，对通道注意力特征图进行不同空间位置的针对性增强，得到加噪增强图像，具体包括：

根据最大池化和平均池化的方法对通道注意力特征图进行处理，得到处理结果。

将处理结果基于对应的图像通道进行连接操作，得到连接后特征图。

通过卷积降维处理的方法将连接后特征图降维成单通道，得到空间特征图。

对空间特征图和目标噪声图像做乘法处理，得到加噪增强图像。

在本实施例中，如图4所示，将通道注意力特征图F’作为空间注意力机制的输入特征图，基于图形通道对通道注意力特征图F’进行最大池化和平均池化处理，并将各图像通道的处理结果进行卷积神经(Conv)连接操作，得到连接后特征图，之后通过一组卷积核降维处理的方法将连接后特征图降维成单通道，激活生成空间特征图M _s；最后，将空间特征图M _s与通道注意力特征图F’做乘法处理，得到空间特征图。

空间特征图M _s的具体计算公式如下：

（7），

（8），

其中，表示/>的卷积操作，上标s表示空间注意力模块。

进一步的，预设噪声去除规则是基于去噪扩散概率模型的逆向过程确定的。

去噪扩散概率模型的逆向过程是从噪声中重建目标图像的过程。

按照预设噪声去除规则和预设步数，逐步从加噪增强图像中去除每一步的预测噪声，具体包括：

基于去噪扩散概率模型的逆向过程，在逆向过程的每一步从加噪增强图像中去除与逆向过程对应的扩散过程中确定的预测噪声。

具体的，去噪扩散概率模型的逆向过程同样可以假设为一个马尔可夫链。逆向过程中的每一步能够精确求得条件概率分布/>，则可以通过反方向上的迭代不断采样求得/>，完成生成任务。但由于/>取决于全部样本的数据分布，所以直接求得是不现实的。因此，采取构建由/>参数化的神经网络来近似其分布，假设/>是逆向过程的概率分布，且服从于高斯分布，其均值/>和方差/>均以/>和/>作为输入参数，具体通过如下公式表示：

（9），

在实际应用中，为了方便后续计算，减小神经网络的训练难度，将方差设定为不需要参与神经网络训练，且与时间常数相关的常数/>。

在训练阶段，仅仅使用神经网络训练均值即可。虽然无法直接计算/>,但可根据/>时刻过程值/>和初始值/>计算出后验条件概率/>。

具体的，应用贝叶斯公式：

（10），

根据（10）与（4）可得：

（11），

其中，（12），/>（13）。

进一步的，根据和/>两者之间的关系，结合（9）与（11）可以确定目标图像增强网络的损失函数。

在使用神经网络训练均值时，对于需预测的量可以有三种选择方式得到训练结果。

第一种：直接预测逆向过程每步高斯噪声的均值；

第二种：预测初始值，将/>代入（12）中，求得均值/>；

第三种：预测噪音，通过结合（4）与（12）消除/>，得到如下公式：

（14），

通过（14）计算，其中/>为噪声z的预测值。

在本实施例中，采用第三种方式进行预测，其损失函数为：

（15），

由于网络优化的最终目的是最大化逆向过程最终结果,从而得到最符合样本的生成结果，因此可以使用变分下界/>来优化其负对数似然函数：/>

（16），

公式（15）可以看作是变分下界损失的重新加权形式,且（15）会产生相较直接优化/>更好的样本质量。

在本实施例中，使用损失函数代替MSE 损失函数，并带入公式（4），得到最终的损失函数如下：

（17）。

如图4所示，进一步的，在将编码特征图和文本编码输入到预先训练好的目标图像增强网络中之前，方法还包括：

具体的，在本发明中应用图像增强网络之前，需要通过训练样本对原始的图像增强网络进行训练，将预测噪声与真实噪声的误差值小于预设损失值的图像增强网络作为训练好的目标图像增强网络。

进一步的，对原始的图像增强网络进行训练，得到预测噪声与真实噪声的误差值小于预设损失值的图像增强网络作为目标图像增强网络，具体包括：

获取满足预设质量要求的高质量图像，并通过降采样的方式对高质量图像进行处理，得到对应的低质量图像。

其中，降采样，又作减采集,是一种多速率数字信号处理的技术或是降低信号采样率的过程，通常用于降低数据传输速率或者数据大小。

降低高质量图像中的数据大小，即可得到对应的低质量图像。

通过编码器对高质量图像和低质量图像进行编码，得到高质量编码图和低质量编码图。

具体的，对应的高质量编码图和低质量编码图组成一个训练图像对，通过自编码器中的编码器将高质量编码图和低质量编码图从像素空间映射到隐层空间。

在本实施例中，若图像的大小为[B，C，H，W]，其中，B表示图像批处理，C表示通道数，H表示图像的高，W表示图像的宽。通过自编码器对图像编码后，得到的编码图的大小为[B，C，H/8，W/8]。

自编码器在应用前需要训练好，并且在后续训练过程中参数固定。也就是说，自编码器的训练可以独立进行，其训练方法此处不做进一步限定，自编码器也可以直接采用训练好的模型。

逐步将高斯噪声添加到低质量编码图中，并确定每一步添加高斯噪声后的结果图像中的预测噪声。

确定预测噪声与噪声真值的误差值，在误差值大于预设损失值时，更改原始的图像增强网络的参数，直至误差值小于预设损失值，得到训练好的目标图像增强网络。

具体的，在训练阶段，根据输入的训练样本图像和模型的损失函数可以计算得到预测噪声，根据预测噪声与噪声真值的误差值与预设损失值的大小可以确定图像增强网络是否训练好。

如图5所示，本发明的基于扩散模型的图像增强方法的工作流程分为训练阶段和生成阶段两部分。

在训练阶段，输入的原始图像为获取的满足预设质量要求的高质量图像和通过降采样的方式对高质量图像进行处理得到的低质量图像。

通过编码器（Encoder）对原始图像进行编码，将原始图像从像素空间映射至隐层空间，得到编码特征图，之后基于去噪扩散概率模型逐步将高斯噪声添加到编码图像中，得到噪声图像。

自定义图像增强选项即自定义的图像增强指令，训练CLIP文本编辑器对图像增强指令进行编辑，得到文本编码。即图中的通过CLIP对自定义的图像增强指令进行编码，生成大小为[B，K，E]的Embedding。其中K表示文本最大编码长度，E表示Embedding的大小。

基于去噪扩散概率模型的扩散过程向编码特征图中逐步添加高斯噪声，之后通过基于U-Net的噪声预测模型确定每一步添加高斯噪声后的结果图像中的预测噪声。同时，基于U-Net的噪声预测模型接收高质量编码图和低质量编码图的特征编码图，以及图像增强指令的文本编码，基于交叉注意力机制训练图像增强指令与图像之间的匹配关系。

基于预测噪声与真实噪声的误差值，与预设损失值的大小，在误差值大于预设损失值时，通过反向传播算法更新U-Net的噪声预测模型的参数，在更新参数的过程中，编码器和CLIP文本编辑器的参数不会被更新。

在生成阶段，通过编码器对输入的低质量图像进行编码，得到隐层图像。

基于去噪扩散概率模型的扩散过程，逐步向编码特征图中添加高斯噪声，得到服从高斯分布的目标噪声图像。

通过基于U-Net网络的去噪模型，基于去噪扩散概率模型的逆向过程，迭代T轮，逐步去除加噪后图像中的噪声，得到去噪后图像。

通过解码器（Decoder）将去噪后图像从隐层空间还原为增强后的高质量图像。

如图6所示，第二方面，本发明提供基于扩散模型的图像增强装置，该装置包括：

编码模块201，用于获取待增强的目标图像，并通过编码器对目标图像进行编码，得到编码特征图；

文本编码模块202，用于获取图像增强指令，通过文本编辑器对图像增强指令进行编码，得到文本编码；图像增强指令包括需要增强的图像的特征和位置；

输入模块203，用于将编码特征图和文本编码输入到预先训练好的目标图像增强网络中；

噪声预测模块204，用于按照预设噪声添加规则和预设步数，逐步向编码特征图中添加高斯噪声，得到服从高斯分布的目标噪声图像，并确定每一步添加高斯噪声后的结果图像中的预测噪声；

图像增强模块205，用于基于交叉注意力机制，对目标噪声图像中与文本编码对应的区域进行图像增强，得到加噪增强图像；

去噪模块206，用于按照预设噪声去除规则和预设步数，逐步从加噪增强图像中去除每一步的预测噪声，得到去噪后图像；

解码模块207，用于通过解码器对去噪后图像进行解码，得到增强后图像。

进一步的，预设噪声添加规则是基于去噪扩散概率模型的扩散过程确定的；在按照预设噪声添加规则和预设步数，逐步向编码特征图中添加高斯噪声，得到服从高斯分布的目标噪声图像时，噪声预测模块204被配置为执行：

按照去噪扩散概率模型的扩散过程，在扩散过程的每一步，向编码特征图中添加高斯噪声；添加的高斯噪声的参数值基于预设噪声时间表确定；

进一步的，在根据编码特征图和噪声时间表，计算扩散过程的每一步添加高斯噪声后的结果图像时，噪声预测模块204具体被配置为执行：

根据如下公式计算扩散过程的每一步添加高斯噪声后的结果图像：

，

，/>；

为预设噪声时间表，/>包括/>，表示扩散过程的每一步添加高斯噪声的参数值，且/>。

进一步的，目标噪声图像包括多个图像通道，交叉注意力机制包括通道注意力机制和空间注意力机制；图像增强模块205包括第一增强单元和第二增强单元；

第一增强单元用于，通过通道注意力机制，对目标噪声图像中与文本编码对应的区域的每个图像通道对应的特征图进行不同图像通道的针对性增强，得到通道注意力特征图；

第二增强单元用于，通过空间注意力机制，对通道注意力特征图进行不同空间位置的针对性增强，得到加噪增强图像。

进一步的，第一增强单元具体被配置为执行：

对于目标噪声图像中与文本编码对应的区域的每个图像通道的特征图，根据最大池化和平均池化的方法对特征图进行降维处理，得到图像通道对应的特征图的全局特征；

通过多层感知器对全局特征进行处理，得到图像通道的权重系数；

通过权重系数对图像通道对应的特征图进行加权处理，得到加权后特征图；

进一步的，第二增强单元具体被配置为执行：

根据最大池化和平均池化的方法对通道注意力特征图进行处理，得到处理结果；

将处理结果基于对应的图像通道进行连接操作，得到连接后特征图；

通过卷积降维处理的方法将连接后特征图降维成单通道，得到空间特征图；

进一步的，预设噪声去除规则是基于去噪扩散概率模型的逆向过程确定的；去噪模块206具体被配置为执行：

进一步的，装置还包括模型训练模块，用于在将编码特征图和文本编码输入到预先训练好的目标图像增强网络中之前，对原始的图像增强网络进行训练，得到预测噪声与真实噪声的误差值小于预设损失值的图像增强网络作为目标图像增强网络。

进一步的，模型训练模块具体被配置为执行：

获取满足预设质量要求的高质量图像，并通过降采样的方式对高质量图像进行处理，得到对应的低质量图像；

通过编码器对高质量图像和低质量图像进行编码，得到高质量编码图和低质量编码图；

逐步将高斯噪声添加到低质量编码图中，并确定每一步添加高斯噪声后的结果图像中的预测噪声；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

第三方面，本发明提供一种电子设备，电子设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述中任一项的基于扩散模型的图像增强方法。

第四方面，本发明提供一种计算机可读存储介质，存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上述任一项的基于扩散模型的图像增强方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质（例如固态硬盘Solid State Disk (SSD)）等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何在本发明揭露的技术范围内的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.基于扩散模型的图像增强方法，其特征在于，所述方法包括：

通过解码器对所述去噪后图像进行解码，得到增强后图像。

2.根据权利要求1所述的图像增强方法，其特征在于，所述预设噪声添加规则是基于去噪扩散概率模型的扩散过程确定的；所述按照预设噪声添加规则和预设步数，逐步向所述编码特征图中添加高斯噪声，得到服从高斯分布的目标噪声图像，具体包括：

3.根据权利要求2所述的图像增强方法，其特征在于，所述根据所述编码特征图和所述噪声时间表，计算所述扩散过程的每一步添加所述高斯噪声后的结果图像，具体为：

，

，/>；

4.根据权利要求1所述的图像增强方法，其特征在于，所述目标噪声图像包括多个图像通道，所述交叉注意力机制包括通道注意力机制和空间注意力机制；所述基于交叉注意力机制，对所述目标噪声图像中与所述文本编码对应的区域进行图像增强，得到加噪增强图像，具体包括：

5.根据权利要求4所述的图像增强方法，其特征在于，所述通过所述通道注意力机制，对所述目标噪声图像中与所述文本编码对应的区域的每个所述图像通道对应的特征图进行不同图像通道的针对性增强，得到通道注意力特征图，具体包括：

6.根据权利要求5所述的图像增强方法，其特征在于，通过所述空间注意力机制，对所述通道注意力特征图进行不同空间位置的针对性增强，得到加噪增强图像，具体包括：

7.根据权利要求2所述的图像增强方法，其特征在于，所述预设噪声去除规则是基于去噪扩散概率模型的逆向过程确定的；所述按照预设噪声去除规则和所述预设步数，逐步从所述加噪增强图像中去除每一步的所述预测噪声，具体包括：

8.根据权利要求1所述的图像增强方法，其特征在于，在所述将所述编码特征图和所述文本编码输入到预先训练好的目标图像增强网络中之前，所述方法还包括：

9.根据权利要求8所述的图像增强方法，其特征在于，所述对原始的图像增强网络进行训练，得到预测噪声与真实噪声的误差值小于预设损失值的图像增强网络作为目标图像增强网络，具体包括：

10.基于扩散模型的图像增强装置，其特征在于，所述装置包括：

11.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-9中任一项所述的基于扩散模型的图像增强方法。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-9中任一项所述的基于扩散模型的图像增强方法。