CN117274115A - 基于多尺度稀疏Transformer网络的图像增强方法及*** - Google Patents
基于多尺度稀疏Transformer网络的图像增强方法及*** Download PDFInfo
- Publication number
- CN117274115A CN117274115A CN202311557569.3A CN202311557569A CN117274115A CN 117274115 A CN117274115 A CN 117274115A CN 202311557569 A CN202311557569 A CN 202311557569A CN 117274115 A CN117274115 A CN 117274115A
- Authority
- CN
- China
- Prior art keywords
- sparse
- image
- network
- attention
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000004927 fusion Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims description 3
- 238000002407 reforming Methods 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 3
- 230000004313 glare Effects 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000015556 catabolic process Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000006731 degradation reaction Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000004438 eyesight Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 125000001475 halogen functional group Chemical group 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/34—Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30236—Traffic on road, railway or crossing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明属于图像处理技术领域,涉及一种基于多尺度稀疏Transformer网络的图像增强方法及***,采用稀疏Transfomer块自适应地保留最有用的自注意力值进行特征聚合,以便聚合的特征更好地促进高质量图像增强,并采用基于多尺度融合的混合前馈网络来生成更好的图像特征,同时配备混合专家特征补偿器,通过合作细化特征和学习丰富的混合特征,完成图像增强,解决了在高位摄像头应用背景下,复杂的雨水影响和眩光噪声导致图像降质的问题,从而提高图像质量,生成清晰的图像。
Description
技术领域
本发明属于图像处理技术领域,涉及一种基于多尺度稀疏Transformer网络的图像增强方法及***。
背景技术
随着现代社会车辆数量的不断增加,各种交通问题也随之出现,公共安全需求大幅度增加。在现代公共交通***中,用于交通控制和安全的高位摄像头,因为具有更广泛的视野和监控能力,发挥着重要作用。但是在实际应用过程中高位摄像头面临很多挑战:高位摄像头在雨天拍摄的图像的场景能见度下降明显,并导致视觉***中的许多算法(例如目标检测、跟踪、识别等)的性能显着失效。例如高位摄像头在夜晚下雨情况下,相机对面车辆驶入时,雨滴不可避免地粘附在相机镜头或车辆的挡风玻璃上,这会使一些图像区域被遮挡和变形,导致图像出现降质现象,甚至产生强烈眩光光晕。
单图像去雨眩光光晕算法的目标是从雨天图像输入中进行图像增强,生成清晰的图像,这有利于人类视觉感知质量和许多计算机视觉应用,例如智能车辆、户外安全和监控***、卫星图像等。因此,采用智能化的图像增强技术减少雨水带来的图像眩光影响,提高图像质量,匹配城市管理场景中不同高位摄像头监控视角之下的车辆,是智能城市和智能交通应用驱动的一项主动任务,对公共安全和智慧交通而言意义重大。
目前,采用智能化的图像增强技术减少雨水带来的图像眩光影响面临很多挑战。首先,雨水对图像的影响是复杂的,并且取决于多种因素,如雨滴大小、速度、密度和相机参数,开发准确的物理模型以模拟这些影响是一个挑战;其次,雨水遮挡物体,导致信息丢失的同时引入了复杂的眩光噪声,这会使传统的降噪技术不够有效,需要开发专门的降噪算法,以适应噪声的特性。
为应对这些问题,人们开始关注如何在复杂的雨水影响和眩光噪声中学习图像的多样性和关键性信息,提高图像质量,生成清晰的图像。早期的方法,通常基于雨纹和清晰图像的统计特性施加各种先验。但是手工设计的先验对于复杂且多变的下雨场景并不稳健,限制了除雨性能。近年来,随着深度学习的发展,深度学习技术被广泛应用于图像增强方法。尽管基于卷积神经网络 (CNN) 的方法取得了巨大成功,但是卷积运算的内在特征,即局部感受野和输入内容的独立性,阻碍了模型消除远程降雨退化扰动的能力。
综上所述,在高位摄像头应用背景下,如何在复杂的雨水影响和眩光噪声中学习图像的多样性和关键性信息,提高图像质量,生成清晰的图像是一个值得关注的问题。因此,亟需一种基于多尺度稀疏Transformer网络的图像增强***方法,通过探索和发展不同的深度学习算法和训练手段等方法,提高图像质量,生成清晰的图像,为城市公共安全和智慧交通提供更有效的技术手段。
发明内容
为了解决在高位摄像头应用背景下,复杂的雨水影响和眩光噪声导致图像降质的问题,本发明提出了一种基于多尺度稀疏Transformer网络的图像增强方法,稀疏Transfomer块自适应地保留最有用的自注意力值进行特征聚合,以便聚合的特征更好地促进高质量图像增强,并采用基于多尺度融合的混合前馈网络来生成更好的图像特征,同时配备混合专家特征补偿器,通过合作细化特征和学习丰富的混合特征,完成图像增强。
为了实现上述目的,本发明采用如下技术方案:
第一方面,本发明提供一种基于多尺度稀疏Transformer网络的图像增强方法,包括以下步骤:
S1、图像预处理:对雨天图像使用 3×3 卷积执行重叠图像块嵌入得到预处理后的图像,其中 /> 表示图像特征图的空间分辨率;
S2、基于稀疏注意力的Transformer网络构建:构建的基于稀疏注意力的Transformer网络包括多个稀疏 Transformer 块(STB),每个稀疏 Transformer 块包括基于内容的top-K 稀疏注意力(TKSA)模块和基于多尺度融合的混合前馈网络(MSFN)模块,基于内容的top-K 稀疏注意力(TKSA)模块和基于多尺度融合的混合前馈网络(MSFN)模块前均连接一个归一化层;
S3、图像特征提取:将预处理后的图像输入基于稀疏注意力的Transformer网络进行特征提取得到特征;
S4、混合专家特征补偿器构建:混合专家特征补偿器(MEFC)由多个专家组成,每个专家选择多个稀疏CNN层形成并行层,每个稀疏CNN层包括感受野为的平均池化层、内核大小为/>、/>、/>、/>的可分离卷积层以及内核大小为/>、/>、/>的扩张卷积层;
S5、增强图像生成:使用基于稀疏注意力的Transformer网络的自注意力机制作为不同专家之间的切换器,通过混合专家特征补偿器对提取的图像特征进行细化以实现图像增强。
作为本发明的进一步技术方案,所述稀疏 Transformer 块(STB)的操作过程为:
,
,
其中,表示层归一化;/> 和/> 表示基于内容的 top-K 稀疏注意力/>模块和基于多尺度融合的混合前馈网络/>模块的输出,/>为第/>图像块的输入特征。
作为本发明的进一步技术方案,所述基于内容的top-K 稀疏注意力模块的工作过程为:
先将输入特征依次进行/>卷积和/>深度卷积编码通道上下文得到重整特征图;
再计算重整特征图的查询Q和键K之间的像素对的最大K相似度分数,屏蔽掉大小为的转置注意力矩阵/>中对应于注意力权重较低的非必要元素,其中K 是一个可调整的参数,通过真分数的加权平均获得的,对/> 范围内的 K值从/>的每一行进行归一化以进行softmax计算,对于小于K的其他元素,使用散布函数在给定索引处将它们的概率替换为0,具体推导如下:
,
其中可是学习的top-K选择算子:/>,
然后将softmax计算结果和注意力权重乘以矩阵M,当使用多头策略时,将多头注意力的所有输出连接起来并通过线性投影得到最终结果即为top-K 稀疏注意力模块的输出/>。
作为本发明的进一步技术方案,所述基于多尺度融合的混合前馈网络模块的工作过程为:
将输入特征在层归一化之后,先利用/>卷积以/>的比例扩展通道维度,然后将其输入两个并行分支进行特征变换,在特征变换过程中,采用/>和/>深度卷积来增强多尺度局部信息提取得到提取的图像特征,表示为:
,
,
,
,
其中是 ReLU 激活,/>表示 1×1 卷积,/> 和 /> 表示/>和/>深度卷积,/>是通道级联。
作为本发明的进一步技术方案,所述混合专家特征补偿器对提取的图像特征进行细化的过程为:
先对特征图采用通道平均来生成/>维通道描述符/>:,其中/>是特征/>的/>位置,
再对应于可学习权重矩阵 和/>分配每个专家的系数向量,其中/>是权重矩阵的维数,对每个专家计算的输入特征图进行零填充,第/>个混合专家特征补偿器的输出计算如下:
,
,
其中和/>分别代表专家操作和专家数量,/> 表示/> 卷积,/> 是ReLU函数,/>是通道级联;增强图像由下式得到:/> =/> +/>,其中/>代表整个网络,整个网络通过最小化以下损失函数来训练:/>,
其中 表示真实图像,/> 表示 L1 范数。
第二方面,本发明提供一种基于多尺度稀疏Transformer网络的图像增强***,包括:
图像预处理模块,用于对输入图像进行预处理;
基于稀疏注意力的Transformer网络,包括多个稀疏 Transformer 块(STB),每个稀疏 Transformer 块包括基于内容的top-K 稀疏注意力(TKSA)模块和基于多尺度融合的混合前馈网络(MSFN)模块,基于内容的top-K 稀疏注意力(TKSA)模块和基于多尺度融合的混合前馈网络(MSFN)模块前均连接一个归一化层,用于提取图像特征;
混合专家特征补偿器,对提取的图像特征进行细化以实现图像增强。
第三方面,本发明提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述的方法。
第四方面,本发明提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
与现有技术相比,本发明的有益效果是:
本发明提出了一种基于多尺度稀疏Transformer网络的图像增强方法及***,以解决在高位摄像头应用背景下,复杂的雨水影响和眩光噪声导致图像降质的问题,从而提高图像质量,生成清晰的图像,具体优点如下:
基于稀疏注意力的Transformer网络可以自适应地维护最有用的自注意力值,享受自然的鲁棒性,对无用的特征干扰不太敏感。
基于多尺度融合的混合前馈网络模块探索图像多尺度表示,其增强局部性的能力能更好地改进图像聚合特征,帮助生成高质量的清晰图像。
混合专家特征补偿器通过对图像退化位置和退化程度的观察,细化图像聚合特征,具有更准确的细节和纹理恢复。
(4)基于内容的top-K 稀疏注意力可以降低计算资源需求,便于网络快速迁移,在各种硬件环境下部署。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本公开,并不构成对本发明的不当限定。
图1为本发明所提供的基于多尺度稀疏Transformer网络的图像增强方法流程示意图。
图2为本发明所提供的基于多尺度稀疏Transformer网络的图像增强***结构框图。
图3为本发明所述稀疏 Transformer 块的结构图。
图4为本发明所述混合专家特征补偿器的结构图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例1:
如图1-4所示,本实施例提供一种基于多尺度稀疏Transformer网络的图像增强方法,包括如下步骤:
S1、图像预处理:对雨天图像使用 3×3 卷积执行重叠图像块嵌入得到预处理后的图像,其中 /> 表示图像特征图的空间分辨率;
S2、基于稀疏注意力的Transformer网络构建:构建的基于稀疏注意力的Transformer网络包括多个稀疏 Transformer 块(STB),每个稀疏 Transformer 块包括基于内容的top-K 稀疏注意力(TKSA)模块和基于多尺度融合的混合前馈网络(MSFN)模块,基于内容的top-K 稀疏注意力(TKSA)模块和基于多尺度融合的混合前馈网络(MSFN)模块前均连接一个归一化层;
S3、图像特征提取:将预处理后的图像输入基于稀疏注意力的Transformer网络进行特征提取得到图像特征,具体的,为了解决不相关特征之间的噪声交互,利用稀疏Transformer 块(STB)作为特征提取单元,形式上给定第块的输入特征/>,STB的编码过程定义为:
,
,
其中,表示层归一化;/> 和/> 表示基于内容的top-K 稀疏注意力/>模块和基于多尺度融合的混合前馈网络/>模块的输出;
S4、混合专家特征补偿器构建:选择多个稀疏CNN层形成并行层,称为专家,每个稀疏CNN层包括感受野为/>的平均池化层、内核大小为/>、/>、/>、/>的可分离卷积层以及内核大小为/>、/>、/>的扩张卷积层;
S5、增强图像生成:使用基于稀疏注意力的Transformer网络的自注意力机制作为不同专家之间的切换器,通过混合专家特征补偿器对提取的图像特征进行细化以实现图像增强,具体的,引入MEFC对联合数据和内容稀疏性进行统一的共同探索,使用自注意力作为不同专家之间的切换器,以根据输入自适应地选择不同表示的重要性,给定输入特征图 ,首先应用通道平均来生成/>维通道描述符 />:,其中/>是特征/>的/>位置;
然后,对应于可学习权重矩阵 和/>分配每个专家的系数向量,其中/>是权重矩阵的维数,为了避免改变其输入和输出的大小,对每个专家计算的输入特征图进行零填充,最后,第/>个/>的输出计算如下:
,
,
其中和/>分别代表专家操作和专家数量。 /> 表示/> 卷积,/> 是ReLU函数,/>是通道级联,通过这种设计,/>能够自适应地消除不同外观的下雨影响,最终的增强图像由下式得到:/> =/> +/>,其中/>代表整个网络,通过最小化以下损失函数来训练:/>,其中/> 表示真实图像,/> 表示 L1 范数。
本实施例中基于内容的top-K 稀疏注意力模块的工作过程为:
先将输入特征X_(l-1)依次进行1×1卷积和3×3深度卷积编码通道上下文得到重整特征图,通过跨通道而非空间维度去应用自注意力,从而降低时间和内存的复杂度;
再计算重整特征图的查询Q和键K之间的像素对的最大K相似度分数,屏蔽掉大小为的转置注意力矩阵/>中对应于注意力权重较低的非必要元素,这一步/>实现了对top-K 贡献分数的自适应选择,旨在保留最重要的成分并去除无用的成分,K是一个可调整的参数,用于动态控制稀疏度的大小,其形式是通过一些真分数的加权平均获得的,例如 /> ,只有/> 范围内的 top-K 值才会从 />的每一行进行归一化以进行 softmax 计算,对于小于top-K 分数的其他元素,使用散布函数在给定索引处将它们的概率替换为0,这种动态选择使得注意力从密集变为稀疏,其推导如下:/>,
其中是可学习的 top-K 选择算子:/>,
最后,将softmax 计算结果和权重乘以矩阵乘法,当使用多头策略时,我们将多头注意力的所有输出连接起来,然后通过线性投影得到输出结果。
本实施例通过在传输过程中***两个多尺度深度卷积路径来设计基于多尺度融合的混合前馈网络(MSFN),其中通过跳跃连接来桥接连续的图像中间特征,基于多尺度融合的混合前馈网络(MSFN)的工作过程为:
给定一个输入张量,在层归一化之后,先利用/>卷积以/>的比例扩展通道维度,然后将其输入两个并行分支,在特征变换过程中,采用/>和/>深度卷积来增强多尺度局部信息提取,所述MSFN的整个特征融合过程可以表述为:
,
,
,
,
其中是 ReLU 激活,/>表示 1×1 卷积,/> 和 /> 表示/>和/>深度卷积,/>是通道级联。
本实施例采用上述方法进行仿真实验,其结构如表1所示,该实验使用PSNR 和SSIM 作为上述基准的评估指标,进行度量,所使用的数据集中共包含 1,800 个用于训练的合成雨天图像和 200 个用于测试的图像,这些图像是在不同降雨方向和密度水平的合成图像,由表1可以看出,本实施例所述车辆重识别方法极大地提高车辆重识别的准确率。
表1:本实施例与其他算法准确度比较
。
实施例2:
如图2所示,本实施例提供一种基于多尺度稀疏Transformer网络的图像增强***,包括:
图像预处理模块,用于对输入图像进行预处理;
基于稀疏注意力的Transformer网络,包括多个稀疏 Transformer 块(STB),如图3所示,每个稀疏 Transformer 块包括基于内容的top-K 稀疏注意力(TKSA)模块和基于多尺度融合的混合前馈网络(MSFN)模块,基于内容的top-K 稀疏注意力(TKSA)模块和基于多尺度融合的混合前馈网络(MSFN)模块前均连接一个归一化层,用于提取图像特征;
混合专家特征补偿器,对提取的图像特征进行细化以实现图像增强。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为***的一部分可以在诸如一组计算机可执行指令的计算机***中执行。
在更多实施例中,还提供:
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1中所述的方法。为了简洁,在此不再赘述。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1中所述的方法。
实施例1中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (6)
1.一种基于多尺度稀疏Transformer网络的图像增强方法,其特征在于,包括以下步骤:
S1、图像预处理:对雨天图像使用 3×3 卷积执行重叠图像块嵌入得到预处理后的图像,其中 /> 表示图像特征图的空间分辨率;
S2、基于稀疏注意力的Transformer网络构建:构建的基于稀疏注意力的Transformer网络包括多个稀疏 Transformer 块,每个稀疏 Transformer 块包括基于内容的top-K 稀疏注意力模块和基于多尺度融合的混合前馈网络模块,基于内容的top-K 稀疏注意力模块和基于多尺度融合的混合前馈网络(MSFN)模块前均连接一个归一化层;
S3、图像特征提取:将预处理后的图像输入基于稀疏注意力的Transformer网络进行特征提取得到特征;
S4、混合专家特征补偿器构建:混合专家特征补偿器由多个专家组成,每个专家选择多个稀疏CNN层形成并行层,每个稀疏CNN层包括感受野为的平均池化层、内核大小为、/>、/>、/>的可分离卷积层以及内核大小为/>、/>、/>的扩张卷积层;
S5、增强图像生成:使用基于稀疏注意力的Transformer网络的自注意力机制作为不同专家之间的切换器,通过混合专家特征补偿器对提取的图像特征进行细化以实现图像增强。
2.根据权利要求1所述基于多尺度稀疏Transformer网络的图像增强方法,其特征在于,所述稀疏 Transformer 块的操作过程为:
,
,
其中,表示层归一化;/> 和/> 表示基于内容的 top-K 稀疏注意力模块和基于多尺度融合的混合前馈网络模块的输出,/>为第/>图像块的输入特征。
3.根据权利要求2所述基于多尺度稀疏Transformer网络的图像增强方法,其特征在于,所述基于内容的top-K 稀疏注意力模块的工作过程为:
先将输入特征依次进行/>卷积和/>深度卷积编码通道上下文得到重整特征图;
再计算重整特征图的查询Q和键K之间的像素对的最大K相似度分数,其中K 是一个可调整的参数,通过真分数的加权平均获得;对 范围内的 K值从转置注意力矩阵/>的每一行进行归一化以进行softmax计算,对于小于K的其他元素,使用散布函数在给定索引处将它们的概率替换为0,具体推导如下:
,
其中可是学习的top-K选择算子:/>,
然后将softmax计算结果和注意力权重乘以矩阵M,当使用多头策略时,将多头注意力的所有输出连接起来并通过线性投影得到最终结果即为top-K 稀疏注意力模块的输出。
4.根据权利要求3所述基于多尺度稀疏Transformer网络的图像增强方法,其特征在于,所述基于多尺度融合的混合前馈网络模块的工作过程为:
将输入特征在层归一化之后,先利用/>卷积以/>的比例扩展通道维度,然后将其输入两个并行分支进行特征变换,在特征变换过程中,采用/>和/>深度卷积来增强多尺度局部信息提取得到提取的图像特征,表示为:
,
,
,
,
其中是 ReLU 激活,/>表示 1×1 卷积,/> 和 /> 表示/>和/>深度卷积,/>是通道级联。
5.根据权利要求4所述基于多尺度稀疏Transformer网络的图像增强方法,其特征在于,所述混合专家特征补偿器对提取的图像特征进行细化的过程为:
先对特征图采用通道平均来生成/>维通道描述符/>:,其中/>是特征/>的/>位置,
再对应于可学习权重矩阵 和/>分配每个专家的系数向量,其中/>是权重矩阵的维数,对每个专家计算的输入特征图进行零填充,第/>个混合专家特征补偿器的输出计算如下:
,
,
其中和/>分别代表专家操作和专家数量,/> 表示/> 卷积,/> 是ReLU 函数,是通道级联;增强图像由下式得到:/> =/> +/>,其中/>代表整个网络,整个网络通过最小化以下损失函数来训练:/>,
其中 表示真实图像,/> 表示 L1 范数。
6.一种基于多尺度稀疏Transformer网络的图像增强***,其特征在于,能实现如权利要求1-5任一项所述方法,包括:
图像预处理模块,用于对输入图像进行预处理;
基于稀疏注意力的Transformer网络,包括多个稀疏 Transformer 块,每个稀疏Transformer 块包括基于内容的top-K 稀疏注意力模块和基于多尺度融合的混合前馈网络模块,基于内容的top-K 稀疏注意力模块和基于多尺度融合的混合前馈网络模块前均连接一个归一化层,用于提取图像特征;
混合专家特征补偿器,对提取的图像特征进行细化以实现图像增强。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311557569.3A CN117274115A (zh) | 2023-11-22 | 2023-11-22 | 基于多尺度稀疏Transformer网络的图像增强方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311557569.3A CN117274115A (zh) | 2023-11-22 | 2023-11-22 | 基于多尺度稀疏Transformer网络的图像增强方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117274115A true CN117274115A (zh) | 2023-12-22 |
Family
ID=89204900
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311557569.3A Pending CN117274115A (zh) | 2023-11-22 | 2023-11-22 | 基于多尺度稀疏Transformer网络的图像增强方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117274115A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117972293A (zh) * | 2024-03-28 | 2024-05-03 | 北京思凌科半导体技术有限公司 | 基于混合专家模型的计算方法、装置、设备及存储介质 |
-
2023
- 2023-11-22 CN CN202311557569.3A patent/CN117274115A/zh active Pending
Non-Patent Citations (1)
Title |
---|
XIANG CHEN 等: "Learning A Sparse Transformer Network for Effective Image Deraining", ARXIV, pages 1 - 10 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117972293A (zh) * | 2024-03-28 | 2024-05-03 | 北京思凌科半导体技术有限公司 | 基于混合专家模型的计算方法、装置、设备及存储介质 |
CN117972293B (zh) * | 2024-03-28 | 2024-06-07 | 北京思凌科半导体技术有限公司 | 基于混合专家模型的计算方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111798400B (zh) | 基于生成对抗网络的无参考低光照图像增强方法及*** | |
CN112329658B (zh) | 一种对于yolov3网络的检测算法改进方法 | |
CN112418027A (zh) | 一种改进U-Net网络的遥感影像道路提取方法 | |
CN112084868B (zh) | 一种基于注意力机制的遥感图像中目标计数方法 | |
CN110222717B (zh) | 图像处理方法和装置 | |
CN113326930B (zh) | 数据处理方法、神经网络的训练方法及相关装置、设备 | |
CN111861925B (zh) | 一种基于注意力机制与门控循环单元的图像去雨方法 | |
CN112634296B (zh) | 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端 | |
CN113065645B (zh) | 孪生注意力网络、图像处理方法和装置 | |
CN111915592A (zh) | 基于深度学习的遥感图像云检测方法 | |
CN112489164B (zh) | 基于改进深度可分离卷积神经网络的图像着色方法 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN113378775B (zh) | 一种基于深度学习的视频阴影检测与消除方法 | |
CN117274115A (zh) | 基于多尺度稀疏Transformer网络的图像增强方法及*** | |
CN110706239A (zh) | 融合全卷积神经网络与改进aspp模块的场景分割方法 | |
CN113408577A (zh) | 一种基于注意力机制的图像分类方法 | |
CN114764856A (zh) | 图像语义分割方法和图像语义分割装置 | |
CN116402679A (zh) | 一种轻量级红外超分辨率自适应重建方法 | |
CN116863194A (zh) | 一种足溃疡图像分类方法、***、设备及介质 | |
CN113919479B (zh) | 一种提取数据特征的方法和相关装置 | |
CN112115786A (zh) | 基于注意力U-net的单目视觉里程计方法 | |
CN111860668A (zh) | 一种针对原始3d点云处理的深度卷积网络的点云识别方法 | |
CN117058235A (zh) | 跨多种室内场景的视觉定位方法 | |
WO2021189321A1 (zh) | 一种图像处理方法和装置 | |
CN113239771A (zh) | 一种姿态估计方法、***及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |