CN117274115A

CN117274115A - 基于多尺度稀疏Transformer网络的图像增强方法及***

Info

Publication number: CN117274115A
Application number: CN202311557569.3A
Authority: CN
Inventors: 刘寒松; 刘瑞; 王永; 王国强; 董玉超
Original assignee: Sonli Holdings Group Co Ltd
Current assignee: Sonli Holdings Group Co Ltd
Priority date: 2023-11-22
Filing date: 2023-11-22
Publication date: 2023-12-22

Abstract

本发明属于图像处理技术领域，涉及一种基于多尺度稀疏Transformer网络的图像增强方法及***，采用稀疏Transfomer块自适应地保留最有用的自注意力值进行特征聚合，以便聚合的特征更好地促进高质量图像增强，并采用基于多尺度融合的混合前馈网络来生成更好的图像特征，同时配备混合专家特征补偿器，通过合作细化特征和学习丰富的混合特征，完成图像增强，解决了在高位摄像头应用背景下，复杂的雨水影响和眩光噪声导致图像降质的问题，从而提高图像质量，生成清晰的图像。

Description

基于多尺度稀疏Transformer网络的图像增强方法及***

技术领域

本发明属于图像处理技术领域，涉及一种基于多尺度稀疏Transformer网络的图像增强方法及***。

背景技术

随着现代社会车辆数量的不断增加，各种交通问题也随之出现，公共安全需求大幅度增加。在现代公共交通***中，用于交通控制和安全的高位摄像头，因为具有更广泛的视野和监控能力，发挥着重要作用。但是在实际应用过程中高位摄像头面临很多挑战：高位摄像头在雨天拍摄的图像的场景能见度下降明显，并导致视觉***中的许多算法（例如目标检测、跟踪、识别等）的性能显着失效。例如高位摄像头在夜晚下雨情况下，相机对面车辆驶入时，雨滴不可避免地粘附在相机镜头或车辆的挡风玻璃上，这会使一些图像区域被遮挡和变形，导致图像出现降质现象，甚至产生强烈眩光光晕。

单图像去雨眩光光晕算法的目标是从雨天图像输入中进行图像增强，生成清晰的图像，这有利于人类视觉感知质量和许多计算机视觉应用，例如智能车辆、户外安全和监控***、卫星图像等。因此，采用智能化的图像增强技术减少雨水带来的图像眩光影响，提高图像质量，匹配城市管理场景中不同高位摄像头监控视角之下的车辆，是智能城市和智能交通应用驱动的一项主动任务，对公共安全和智慧交通而言意义重大。

目前，采用智能化的图像增强技术减少雨水带来的图像眩光影响面临很多挑战。首先，雨水对图像的影响是复杂的，并且取决于多种因素，如雨滴大小、速度、密度和相机参数，开发准确的物理模型以模拟这些影响是一个挑战；其次，雨水遮挡物体，导致信息丢失的同时引入了复杂的眩光噪声，这会使传统的降噪技术不够有效，需要开发专门的降噪算法，以适应噪声的特性。

为应对这些问题，人们开始关注如何在复杂的雨水影响和眩光噪声中学习图像的多样性和关键性信息，提高图像质量，生成清晰的图像。早期的方法，通常基于雨纹和清晰图像的统计特性施加各种先验。但是手工设计的先验对于复杂且多变的下雨场景并不稳健，限制了除雨性能。近年来，随着深度学习的发展，深度学习技术被广泛应用于图像增强方法。尽管基于卷积神经网络 (CNN) 的方法取得了巨大成功，但是卷积运算的内在特征，即局部感受野和输入内容的独立性，阻碍了模型消除远程降雨退化扰动的能力。

综上所述，在高位摄像头应用背景下，如何在复杂的雨水影响和眩光噪声中学习图像的多样性和关键性信息，提高图像质量，生成清晰的图像是一个值得关注的问题。因此，亟需一种基于多尺度稀疏Transformer网络的图像增强***方法，通过探索和发展不同的深度学习算法和训练手段等方法，提高图像质量，生成清晰的图像，为城市公共安全和智慧交通提供更有效的技术手段。

发明内容

为了解决在高位摄像头应用背景下，复杂的雨水影响和眩光噪声导致图像降质的问题，本发明提出了一种基于多尺度稀疏Transformer网络的图像增强方法，稀疏Transfomer块自适应地保留最有用的自注意力值进行特征聚合，以便聚合的特征更好地促进高质量图像增强，并采用基于多尺度融合的混合前馈网络来生成更好的图像特征，同时配备混合专家特征补偿器，通过合作细化特征和学习丰富的混合特征，完成图像增强。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种基于多尺度稀疏Transformer网络的图像增强方法，包括以下步骤：

S1、图像预处理：对雨天图像使用 3×3 卷积执行重叠图像块嵌入得到预处理后的图像，其中 /> 表示图像特征图的空间分辨率；

S2、基于稀疏注意力的Transformer网络构建：构建的基于稀疏注意力的Transformer网络包括多个稀疏 Transformer 块（STB），每个稀疏 Transformer 块包括基于内容的top-K 稀疏注意力(TKSA)模块和基于多尺度融合的混合前馈网络(MSFN)模块，基于内容的top-K 稀疏注意力(TKSA)模块和基于多尺度融合的混合前馈网络(MSFN)模块前均连接一个归一化层；

S3、图像特征提取：将预处理后的图像输入基于稀疏注意力的Transformer网络进行特征提取得到特征；

S4、混合专家特征补偿器构建：混合专家特征补偿器（MEFC）由多个专家组成，每个专家选择多个稀疏CNN层形成并行层，每个稀疏CNN层包括感受野为的平均池化层、内核大小为/>、/>、/>、/>的可分离卷积层以及内核大小为/>、/>、/>的扩张卷积层；

S5、增强图像生成：使用基于稀疏注意力的Transformer网络的自注意力机制作为不同专家之间的切换器，通过混合专家特征补偿器对提取的图像特征进行细化以实现图像增强。

作为本发明的进一步技术方案，所述稀疏 Transformer 块（STB）的操作过程为：

，

其中，表示层归一化；/> 和/> 表示基于内容的 top-K 稀疏注意力/>模块和基于多尺度融合的混合前馈网络/>模块的输出，/>为第/>图像块的输入特征。

作为本发明的进一步技术方案，所述基于内容的top-K 稀疏注意力模块的工作过程为：

先将输入特征依次进行/>卷积和/>深度卷积编码通道上下文得到重整特征图；

再计算重整特征图的查询Q和键K之间的像素对的最大K相似度分数，屏蔽掉大小为的转置注意力矩阵/>中对应于注意力权重较低的非必要元素，其中K 是一个可调整的参数，通过真分数的加权平均获得的，对/> 范围内的 K值从/>的每一行进行归一化以进行softmax计算，对于小于K的其他元素，使用散布函数在给定索引处将它们的概率替换为0，具体推导如下：

，

其中可是学习的top-K选择算子：/>，

然后将softmax计算结果和注意力权重乘以矩阵M，当使用多头策略时，将多头注意力的所有输出连接起来并通过线性投影得到最终结果即为top-K 稀疏注意力模块的输出/>。

作为本发明的进一步技术方案，所述基于多尺度融合的混合前馈网络模块的工作过程为：

将输入特征在层归一化之后，先利用/>卷积以/>的比例扩展通道维度，然后将其输入两个并行分支进行特征变换，在特征变换过程中，采用/>和/>深度卷积来增强多尺度局部信息提取得到提取的图像特征，表示为：

，

其中是 ReLU 激活，/>表示 1×1 卷积，/> 和 /> 表示/>和/>深度卷积，/>是通道级联。

作为本发明的进一步技术方案，所述混合专家特征补偿器对提取的图像特征进行细化的过程为：

先对特征图采用通道平均来生成/>维通道描述符/>：，其中/>是特征/>的/>位置，

再对应于可学习权重矩阵和/>分配每个专家的系数向量，其中/>是权重矩阵的维数，对每个专家计算的输入特征图进行零填充，第/>个混合专家特征补偿器的输出计算如下：

，

其中和/>分别代表专家操作和专家数量，/> 表示/> 卷积，/> 是ReLU函数，/>是通道级联；增强图像由下式得到：/> =/> +/>，其中/>代表整个网络，整个网络通过最小化以下损失函数来训练：/>，

其中表示真实图像，/> 表示 L1 范数。

第二方面，本发明提供一种基于多尺度稀疏Transformer网络的图像增强***，包括：

图像预处理模块，用于对输入图像进行预处理；

基于稀疏注意力的Transformer网络，包括多个稀疏 Transformer 块（STB），每个稀疏 Transformer 块包括基于内容的top-K 稀疏注意力(TKSA)模块和基于多尺度融合的混合前馈网络(MSFN)模块，基于内容的top-K 稀疏注意力(TKSA)模块和基于多尺度融合的混合前馈网络(MSFN)模块前均连接一个归一化层，用于提取图像特征；

混合专家特征补偿器，对提取的图像特征进行细化以实现图像增强。

第三方面，本发明提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的方法。

第四方面，本发明提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果是：

本发明提出了一种基于多尺度稀疏Transformer网络的图像增强方法及***，以解决在高位摄像头应用背景下，复杂的雨水影响和眩光噪声导致图像降质的问题，从而提高图像质量，生成清晰的图像，具体优点如下：

基于稀疏注意力的Transformer网络可以自适应地维护最有用的自注意力值，享受自然的鲁棒性，对无用的特征干扰不太敏感。

基于多尺度融合的混合前馈网络模块探索图像多尺度表示，其增强局部性的能力能更好地改进图像聚合特征，帮助生成高质量的清晰图像。

混合专家特征补偿器通过对图像退化位置和退化程度的观察，细化图像聚合特征，具有更准确的细节和纹理恢复。

（4）基于内容的top-K 稀疏注意力可以降低计算资源需求，便于网络快速迁移，在各种硬件环境下部署。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本公开，并不构成对本发明的不当限定。

图1为本发明所提供的基于多尺度稀疏Transformer网络的图像增强方法流程示意图。

图2为本发明所提供的基于多尺度稀疏Transformer网络的图像增强***结构框图。

图3为本发明所述稀疏 Transformer 块的结构图。

图4为本发明所述混合专家特征补偿器的结构图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1：

如图1-4所示，本实施例提供一种基于多尺度稀疏Transformer网络的图像增强方法，包括如下步骤：

S3、图像特征提取：将预处理后的图像输入基于稀疏注意力的Transformer网络进行特征提取得到图像特征，具体的，为了解决不相关特征之间的噪声交互，利用稀疏Transformer 块（STB）作为特征提取单元，形式上给定第块的输入特征/>，STB的编码过程定义为：

，

其中，表示层归一化；/> 和/> 表示基于内容的top-K 稀疏注意力/>模块和基于多尺度融合的混合前馈网络/>模块的输出；

S4、混合专家特征补偿器构建：选择多个稀疏CNN层形成并行层，称为专家，每个稀疏CNN层包括感受野为/>的平均池化层、内核大小为/>、/>、/>、/>的可分离卷积层以及内核大小为/>、/>、/>的扩张卷积层；

S5、增强图像生成：使用基于稀疏注意力的Transformer网络的自注意力机制作为不同专家之间的切换器，通过混合专家特征补偿器对提取的图像特征进行细化以实现图像增强，具体的，引入MEFC对联合数据和内容稀疏性进行统一的共同探索，使用自注意力作为不同专家之间的切换器，以根据输入自适应地选择不同表示的重要性，给定输入特征图，首先应用通道平均来生成/>维通道描述符 />：，其中/>是特征/>的/>位置；

然后，对应于可学习权重矩阵和/>分配每个专家的系数向量，其中/>是权重矩阵的维数，为了避免改变其输入和输出的大小，对每个专家计算的输入特征图进行零填充，最后，第/>个/>的输出计算如下：

，

其中和/>分别代表专家操作和专家数量。 /> 表示/> 卷积，/> 是ReLU函数，/>是通道级联，通过这种设计，/>能够自适应地消除不同外观的下雨影响，最终的增强图像由下式得到：/> =/> +/>，其中/>代表整个网络，通过最小化以下损失函数来训练：/>，其中/> 表示真实图像，/> 表示 L1 范数。

本实施例中基于内容的top-K 稀疏注意力模块的工作过程为：

先将输入特征X_(l-1)依次进行1×1卷积和3×3深度卷积编码通道上下文得到重整特征图，通过跨通道而非空间维度去应用自注意力，从而降低时间和内存的复杂度；

再计算重整特征图的查询Q和键K之间的像素对的最大K相似度分数，屏蔽掉大小为的转置注意力矩阵/>中对应于注意力权重较低的非必要元素，这一步/>实现了对top-K 贡献分数的自适应选择，旨在保留最重要的成分并去除无用的成分，K是一个可调整的参数，用于动态控制稀疏度的大小，其形式是通过一些真分数的加权平均获得的，例如 /> ，只有/> 范围内的 top-K 值才会从 />的每一行进行归一化以进行 softmax 计算，对于小于top-K 分数的其他元素，使用散布函数在给定索引处将它们的概率替换为0，这种动态选择使得注意力从密集变为稀疏，其推导如下：/>，

其中是可学习的 top-K 选择算子：/>，

最后，将softmax 计算结果和权重乘以矩阵乘法，当使用多头策略时，我们将多头注意力的所有输出连接起来，然后通过线性投影得到输出结果。

本实施例通过在传输过程中***两个多尺度深度卷积路径来设计基于多尺度融合的混合前馈网络(MSFN)，其中通过跳跃连接来桥接连续的图像中间特征，基于多尺度融合的混合前馈网络(MSFN)的工作过程为：

给定一个输入张量，在层归一化之后，先利用/>卷积以/>的比例扩展通道维度，然后将其输入两个并行分支，在特征变换过程中，采用/>和/>深度卷积来增强多尺度局部信息提取，所述MSFN的整个特征融合过程可以表述为：

，

本实施例采用上述方法进行仿真实验，其结构如表1所示，该实验使用PSNR 和SSIM 作为上述基准的评估指标，进行度量，所使用的数据集中共包含 1,800 个用于训练的合成雨天图像和 200 个用于测试的图像，这些图像是在不同降雨方向和密度水平的合成图像，由表1可以看出，本实施例所述车辆重识别方法极大地提高车辆重识别的准确率。

表1：本实施例与其他算法准确度比较

。

实施例2：

如图2所示，本实施例提供一种基于多尺度稀疏Transformer网络的图像增强***，包括：

图像预处理模块，用于对输入图像进行预处理；

基于稀疏注意力的Transformer网络，包括多个稀疏 Transformer 块（STB），如图3所示，每个稀疏 Transformer 块包括基于内容的top-K 稀疏注意力(TKSA)模块和基于多尺度融合的混合前馈网络(MSFN)模块，基于内容的top-K 稀疏注意力(TKSA)模块和基于多尺度融合的混合前馈网络(MSFN)模块前均连接一个归一化层，用于提取图像特征；

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为***的一部分可以在诸如一组计算机可执行指令的计算机***中执行。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1中所述的方法。

实施例1中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于多尺度稀疏Transformer网络的图像增强方法，其特征在于，包括以下步骤：

S2、基于稀疏注意力的Transformer网络构建：构建的基于稀疏注意力的Transformer网络包括多个稀疏 Transformer 块，每个稀疏 Transformer 块包括基于内容的top-K 稀疏注意力模块和基于多尺度融合的混合前馈网络模块，基于内容的top-K 稀疏注意力模块和基于多尺度融合的混合前馈网络(MSFN)模块前均连接一个归一化层；

S4、混合专家特征补偿器构建：混合专家特征补偿器由多个专家组成，每个专家选择多个稀疏CNN层形成并行层，每个稀疏CNN层包括感受野为的平均池化层、内核大小为、/>、/>、/>的可分离卷积层以及内核大小为/>、/>、/>的扩张卷积层；

2.根据权利要求1所述基于多尺度稀疏Transformer网络的图像增强方法，其特征在于，所述稀疏 Transformer 块的操作过程为：

，

其中，表示层归一化；/> 和/> 表示基于内容的 top-K 稀疏注意力模块和基于多尺度融合的混合前馈网络模块的输出，/>为第/>图像块的输入特征。

3.根据权利要求2所述基于多尺度稀疏Transformer网络的图像增强方法，其特征在于，所述基于内容的top-K 稀疏注意力模块的工作过程为：

再计算重整特征图的查询Q和键K之间的像素对的最大K相似度分数，其中K 是一个可调整的参数，通过真分数的加权平均获得；对范围内的 K值从转置注意力矩阵/>的每一行进行归一化以进行softmax计算，对于小于K的其他元素，使用散布函数在给定索引处将它们的概率替换为0，具体推导如下：

，

其中可是学习的top-K选择算子：/>，

然后将softmax计算结果和注意力权重乘以矩阵M，当使用多头策略时，将多头注意力的所有输出连接起来并通过线性投影得到最终结果即为top-K 稀疏注意力模块的输出。

4.根据权利要求3所述基于多尺度稀疏Transformer网络的图像增强方法，其特征在于，所述基于多尺度融合的混合前馈网络模块的工作过程为：

，

5.根据权利要求4所述基于多尺度稀疏Transformer网络的图像增强方法，其特征在于，所述混合专家特征补偿器对提取的图像特征进行细化的过程为：

，

其中和/>分别代表专家操作和专家数量，/> 表示/> 卷积，/> 是ReLU 函数，是通道级联；增强图像由下式得到：/> =/> +/>，其中/>代表整个网络，整个网络通过最小化以下损失函数来训练：/>，

其中表示真实图像，/> 表示 L1 范数。

6.一种基于多尺度稀疏Transformer网络的图像增强***，其特征在于，能实现如权利要求1-5任一项所述方法，包括：

图像预处理模块，用于对输入图像进行预处理；

基于稀疏注意力的Transformer网络，包括多个稀疏 Transformer 块，每个稀疏Transformer 块包括基于内容的top-K 稀疏注意力模块和基于多尺度融合的混合前馈网络模块，基于内容的top-K 稀疏注意力模块和基于多尺度融合的混合前馈网络模块前均连接一个归一化层，用于提取图像特征；