CN116958759A - 图像处理方法、装置、设备、存储介质和程序产品 - Google Patents
图像处理方法、装置、设备、存储介质和程序产品 Download PDFInfo
- Publication number
- CN116958759A CN116958759A CN202210379553.7A CN202210379553A CN116958759A CN 116958759 A CN116958759 A CN 116958759A CN 202210379553 A CN202210379553 A CN 202210379553A CN 116958759 A CN116958759 A CN 116958759A
- Authority
- CN
- China
- Prior art keywords
- information
- feature information
- image
- attention weight
- global
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 45
- 230000004927 fusion Effects 0.000 claims abstract description 110
- 238000012545 processing Methods 0.000 claims abstract description 49
- 238000004364 calculation method Methods 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims description 65
- 238000004590 computer program Methods 0.000 claims description 20
- 238000013139 quantization Methods 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 13
- 230000009467 reduction Effects 0.000 claims description 13
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 230000006835 compression Effects 0.000 claims description 10
- 238000007906 compression Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 11
- 238000011084 recovery Methods 0.000 abstract description 11
- 230000007246 mechanism Effects 0.000 abstract description 9
- 230000005540 biological transmission Effects 0.000 abstract 1
- 238000000034 method Methods 0.000 description 40
- 230000008569 process Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 16
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 14
- 238000005457 optimization Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请实施例提供了一种图像处理方法、装置、设备、存储介质和程序产品,包括:获取压缩图像和对应的编码信息;根据编码信息对压缩图像进行特征提取,得到局部特征信息和全局特征信息;计算出与局部特征信息对应的第一注意力权值和与全局特征信息对应的第二注意力权值;对局部特征信息、全局特征信息、第一注意力权值和第二注意力权值进行加权融合,得到融合特征信息;根据融合特征信息得到图像残差信息,对压缩图像和图像残差信息进行叠加得到重构图像。本申请实施例基于注意力融合机制根据图片特征自适应选择不同区域的融合权重,从而达到更好的恢复效果,而且没有对编码端做改变和引入额外计算,还保证了视频清晰度和减少了视频传输成本。
Description
技术领域
本申请涉及图像处理技术领域,尤其是一种图像处理方法、装置、设备、存储介质和程序产品。
背景技术
对于数据量较大的视频数据,往往会给存储与带宽带来很大的挑战,因此,在实际情况下需要对视频进行压缩处理,但是,经过压缩的视频往往伴随着失真与压缩噪声,相较原视频有一定的质量损失。而目前对视频图像的恢复处理技术有一定的局限性,无法很好地保证重构图像的视觉效果与质量,而且还会可能会对编码端进行改变以引入额外的计算复杂度。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本申请实施例提供了一种图像处理方法、装置、设备、存储介质和程序产品,能够提高编解码后的重构视频图像的视觉效果与质量。
一方面,本申请实施例提供了一种图像处理方法,包括:获取压缩图像和与所述压缩图像对应的编码信息;根据所述编码信息对所述压缩图像进行特征提取,得到局部特征信息和全局特征信息;计算出与所述局部特征信息对应的第一注意力权值和与所述全局特征信息对应的第二注意力权值;对所述局部特征信息、所述全局特征信息、所述第一注意力权值和所述第二注意力权值进行融合,得到融合特征信息;根据所述融合特征信息得到图像残差信息,并对所述压缩图像和所述图像残差信息进行叠加,得到重构图像。
另一方面,本申请实施例还提供了一种图像处理装置,包括:获取单元,用于获取压缩图像和与所述压缩图像对应的编码信息;特征提取单元,用于根据所述编码信息对所述压缩图像进行特征提取,得到局部特征信息和全局特征信息;注意力权值计算单元,用于计算出与所述局部特征信息对应的第一注意力权值和与所述全局特征信息对应的第二注意力权值;特征融合单元,用于对所述局部特征信息、所述全局特征信息、所述第一注意力权值和所述第二注意力权值进行融合,得到融合特征信息;图像叠加单元,用于根据所述融合特征信息得到图像残差信息,并对所述压缩图像和所述图像残差信息进行叠加,得到重构图像。
另一方面,本申请实施例还提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如前面所述的图像处理方法。
另一方面,本申请实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如前面所述的图像处理方法。
另一方面,本申请实施例还提供了一种计算机程序产品,包括计算机程序或计算机指令,所述计算机程序或所述计算机指令存储在计算机可读存储介质中,计算机设备的处理器从所述计算机可读存储介质读取所述计算机程序或所述计算机指令,所述处理器执行所述计算机程序或所述计算机指令,使得所述计算机设备执行如前面所述的图像处理方法。
本申请实施例中,首先,提出一种注意力融合机制,能够对图像的局部特征和全局特征进行加权融合,这种机制能够根据图片特征自适应选择不同区域的融合权重,从而能够取得更好的恢复效果;其次,本申请实施例直接对编解码以后的有损压缩图像进行质量增强,而不需要对编码端过程做任何改变,保证了编码端没有引入额外的计算复杂度,并且比特流也没有发生改变,从而大大增加了框架的灵活性。由于解码视频质量的增强,一方面,保证了相同码率下更高的视频清晰度,另一方面,在保证相同视频质量的条件下,减小了需要传输的码流,从而大大减少传输视频的成本。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1是本申请一个实施例提供的用于执行图像处理方法的电子设备的结构示意图;
图2是本申请一个实施例提供的图像处理方法的流程图;
图3是图2中步骤S200的一个实施例的具体流程图;
图4是图3中步骤S600的一个实施例的具体流程图;
图5是图3中步骤S600的另一个实施例的具体流程图;
图6是图3中步骤S700的一个实施例的具体流程图;
图7是图3中步骤S700的另一个实施例的具体流程图;
图8是图7中步骤S720的一个实施例的具体流程图;
图9是图2中步骤S300的一个实施例的具体流程图;
图10是图2中步骤S300的另一个实施例的具体流程图;
图11是图2中步骤S400的一个实施例的具体流程图;
图12是图2中位于步骤S400之前的对第一注意力权值和第二注意力权值进行归一化处理的具体流程图;
图13是图2中步骤S500中根据融合特征信息得到图像残差信息的一个实施例的具体流程图;
图14是本申请一个实施例提供的结合局部特征提取模块和全局特征提取模块的空间注意力融合模块的结构示意图;
图15是本申请一个实施例提供的局部特征提取模块的结构示意图;
图16是本申请一个实施例提供的全局特征提取模块的结构示意图;
图17是本申请一个实施例提供的结合局部特征提取模块和全局特征提取模块的通道注意力融合模块的结构示意图;
图18是本申请一个实施例提供的残差块的结构示意图;
图19为图14中所示的空间注意力融合模块的详细结构示意图;
图20是本申请一个实施例提供的针对有损压缩图像进行基于注意力机制质量增强的网络示意图;
图21是本申请一个实施例提供的图像处理装置的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
在相关技术中,伴随着互联网的发展以及视频编解码技术的不断进步,视频与图像的应用场景也越来越多,然而未经处理的原始视频数据量巨大,这不仅会给存储与带宽带来很大的挑战。因此,在实际情况下需要对视频进行压缩处理,但是经过压缩的视频往往伴随着失真与压缩噪声,相较原视频有一定的质量损失。对于该情况,可以利用深度学习技术来提高视频的编码效率,但是,在现有的传统编解码框架下,由于编码过程要经过复杂的率失真优化(Rate-Distortion Optimization,RDO)过程,所以通常编码框架本身就有着很高的时间复杂度。如果再将深度网络考虑到整个RDO过程中,这无疑又给视频编码带来了额外的计算负担。
另外,无论是由ISO/IEC和ITU下属的联合专家组(Joint Video Expert Teams,JVET)制定的高性能视频编码(H.265/High Efficiency Video Coding,HEVC)标准和通用视频编码(H.266/Versatile Video Coding,VVC)标准,还是由国内的数字音视频编解码技术标准工作组制定的音视频编解码标准(Audio Video coding Standard,AVS)系列编解码标准,都采用了基于块的混合编码框架,原始视频数据经过图像块划分后,还要进行预测、变换、量化、重建、滤波等多重处理。因为这些处理过程都是针对划分后的图像块进行,不同的图像块之间可能采用的预测方法、变换过程、量化参数等都不完全相同,这可能会导致相邻图像块的边界产生块效应等失真情况。此外,由于人的眼睛对图像的低频特性例如物体的总体亮度之类的信息很敏感,而对图像中的高频细节信息不敏感,因此量化过程通过对低频区的系数进行细量化,高频区的系数进行粗量化,去除了人眼不敏感的高频信息,从而降低信息传送量。其中常见的量化方法为除以量化步长。量化步长可以通过量化参数(Quantization Parameter,QP)来指示,通常QP值越小,对应的量化步长越小,也就是图像压缩损耗越少,而QP值越大,对应的量化步长越大,也就是图像压缩损耗越大,从而也会影响重构图像的质量,如果存在失真的重构图像作为后续编码图像的参考图像,将会进一步影响后续编码图像的准确性。
目前,大部分视频压缩编解码标准中,对重构图像的恢复处理主要采用的是环路滤波技术,包括去方块滤波和样本自适应补偿和自适应环路滤波等,虽然这些传统方法能够在一定程度上消除压缩噪声并提高重构视频图像的质量,但由于其中算法的参数是人为设定的,并不一定能够最大限度的挖掘有损压缩图像与原始图像之间的映射关系。很多研究人员为解决这一问题而对现有编码框架进行了一系列的改进,但是仍然无法消除传统方法的弊端。
另外,随着深度学习的崛起,在诸多领域中体现了其巨大的潜能。与传统方法相比,深度学习技术具有基于大数据的自行学习的能力,可以从大量的数据中训练获得,从数据中学习某种非线性映射关系以达到适配具体任务。同时,随着训练数据量的增大,深度学习算法的效果、鲁棒性以及泛化能力也会随之增强。然而目前用于完成图像恢复任务的神经网络方法都使用卷积层来搭建,它具有权值共享、局部感知的特性,可是卷积操作的感受野局限于卷积核的大小,每一步只能提取邻域信息,忽略了图像中其他长距离位置的信息,所以有一定的局限性。
基于上述情况,本申请实施例提供了一种图像处理方法、装置、设备、存储介质和程序产品,具体包括如下步骤:获取压缩图像和与压缩图像对应的编码信息;根据编码信息对压缩图像进行特征提取,得到局部特征信息和全局特征信息;计算出与局部特征信息对应的第一注意力权值和与全局特征信息对应的第二注意力权值;对局部特征信息、全局特征信息、第一注意力权值和第二注意力权值进行融合,得到融合特征信息;根据融合特征信息得到图像残差信息,并对压缩图像和图像残差信息进行叠加,得到重构图像。根据本申请实施例的技术方案,首先,本申请实施例提出了一种注意力融合机制,能够对图像的局部特征和全局特征进行加权融合,这种机制能够根据图片特征自适应选择不同区域的融合权重,从而能够取得更好的恢复效果;其次,本申请实施例直接对编解码以后的有损压缩图像进行质量增强,而不需要对编码端过程做任何改变,保证了编码端没有引入额外的计算复杂度,并且比特流也没有发生改变,从而大大增加了框架的灵活性。由于解码视频质量的增强,一方面,保证了相同码率下更高的视频清晰度,另一方面,在保证相同视频质量的条件下,减小了需要传输的码流,从而大大减少传输视频的成本。
下面结合附图,对本申请实施例作进一步阐述。
如图1所示,图1是本申请一个实施例提供的用于执行图像处理方法的电子设备的示意图。
在图1的示例中,该电子设备100包括有处理器110和存储器120,其中,处理器110和存储器120之间通信连接。
其中,存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本领域技术人员可以理解的是,该电子设备100可以应用于3G通信网络***、LTE通信网络***、5G通信网络***、6G通信网络***以及后续演进的移动通信网络***等,本实施例对此并不作具体限定。
本领域技术人员可以理解的是,图1中示出的电子设备100并不构成对本申请实施例的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
在图1所示的电子设备100中,处理器110或者存储器120中的处理器可以调用储存在存储器中的图像处理程序,从而执行图像处理方法。
基于上述电子设备100,下面提出本申请的图像处理方法的各个实施例。
如图2所示,图2是本申请一个实施例提供的图像处理方法的流程图,该图像处理方法包括但不限于有步骤S100、步骤S200、步骤S300、步骤S400和步骤S500。
步骤S100、获取压缩图像和与压缩图像对应的编码信息;
步骤S200、根据编码信息对压缩图像进行特征提取,得到局部特征信息和全局特征信息;
步骤S300、计算出与局部特征信息对应的第一注意力权值和与全局特征信息对应的第二注意力权值;
步骤S400、对局部特征信息、全局特征信息、第一注意力权值和第二注意力权值进行加权融合,得到融合特征信息;
步骤S500、根据融合特征信息得到图像残差信息,并对压缩图像和图像残差信息进行叠加,得到重构图像。
根据本申请实施例的技术方案,首先,本申请实施例提出了一种注意力融合机制,能够对图像的局部特征和全局特征进行加权融合,这种机制能够根据图片特征自适应选择不同区域的融合权重,从而能够取得更好的恢复效果;其次,本申请实施例直接对编解码以后的有损压缩图像进行质量增强,而不需要对编码端过程做任何改变,保证了编码端没有引入额外的计算复杂度,并且比特流也没有发生改变,从而大大增加了框架的灵活性。由于解码视频质量的增强,一方面,保证了相同码率下更高的视频清晰度,另一方面,在保证相同视频质量的条件下,减小了需要传输的码流,从而大大减少传输视频的成本。
需要说明的是,有损的压缩图像可以是过编解码压缩后的图像信息,也可以是经过编解码压缩后的视频序列中的图像信息。
另外,需要说明的是,编码信息是指在编码图像时所需要的信息,具体可以是编码单元划分结构信息、量化参数信息或者其他编码信息,本申请实施例对编码信息的类型不做限定。
另外,需要说明的是,第一注意力权值和第二注意力权值可以是空间注意力权值,也可以是通道注意力权值,本申请实施例对第一注意力权值和第二注意力权值的类型不做限定。
另外,如图3所示,图3是图2中步骤S200的一个实施例的具体流程图,包括但不限于有步骤S600和步骤S700。
步骤S600、根据编码信息得到与压缩图像对应的待恢复特征信息;
步骤S700、对待恢复特征信息进行特征提取,得到局部特征信息和全局特征信息。
具体地,关于步骤S200,在对压缩图像进行特征提取之前,本申请实施例还需要先根据编码信息得到与压缩图像对应的待恢复特征信息,再对待恢复特征信息进行特征提取以得到局部特征信息和全局特征信息。
需要说明的是,待恢复特征信息可以是如图4所示有损压缩图像经过卷积层处理后获得的特征,也可以是如图5所示有损压缩图像经过卷积层和至少一个残差块处理后获得的特征,或者是经过卷积层和至少一个融合结构处理后获得的特征,或者是经过卷积层和至少一个残差块和融合结构处理后获得的特征。
如图4所示,图4是图3中步骤S600的一个实施例的具体流程图,包括但不限于有步骤S610。
步骤S610、对压缩图像和编码信息进行卷积操作,得到与压缩图像对应的待恢复特征信息。
具体地,在根据编码信息对压缩图像进行特征提取之前,本申请实施例还需要先将有损压缩图像经过卷积层进行处理,以得到待恢复特征信息。
如图5所示,图5是图3中步骤S600的另一个实施例的具体流程图,包括但不限于有步骤S621和步骤S622。
步骤S621、对压缩图像和编码信息进行卷积操作,得到初始特征信息;
步骤S622、对初始特征信息进行优化处理,得到与压缩图像对应的待恢复特征信息。
具体地,关于上述步骤S622中的优化处理,包括但不限于如下三种情况:
第一种优化处理情况:在根据编码信息对压缩图像进行特征提取之前,本申请实施例还需要先将有损压缩图像经过卷积层进行处理,以得到初始特征信息,接着再将初始特征信息输入至残差块进行优化处理,以得到待恢复特征信息。
第二种优化处理情况:在根据编码信息对压缩图像进行特征提取之前,本申请实施例还需要先将有损压缩图像经过卷积层进行处理,以得到初始特征信息,接着再将初始特征信息输入到至少一个融合结构进行优化处理,以得到待恢复特征信息。
第三种优化处理情况:在根据编码信息对压缩图像进行特征提取之前,本申请实施例还需要先将有损压缩图像经过卷积层进行处理,以得到初始特征信息,接着再将初始特征信息输入到至少一个残差块和融合结构进行优化处理,以得到待恢复特征信息。
需要说明的是,关于上述的融合结构,可以是基于空间注意力的融合结构,也可以是基于通道注意力的融合结构,本申请实施例对融合结构的类型不作限定。
另外,如图6所示,图6是图3中步骤S700的一个实施例的具体流程图。关于步骤S700中的对待恢复特征信息进行特征提取,得到局部特征信息,包括但不限于有步骤S710。
步骤S710、通过至少一对级联的卷积神经网络和激活函数对待恢复特征信息进行特征提取,得到局部特征信息。
具体地,本申请实施例可以将待恢复特征信息输入至局部特征提取模块进行特征提取,其中,局部特征提取模块可以采用任何基于卷积核搭建的网络。若局部特征提取模块采用级联的卷积神经网络结构时,局部特征提取模块由至少一对级联的卷积神经网络和激活函数组成,本申请实施例可以通过至少一对级联的卷积神经网络和激活函数对待恢复特征信息进行特征提取,得到局部特征信息。
另外,如图7所示,图7是图3中步骤S700的另一个实施例的具体流程图。关于步骤S700中的对待恢复特征信息进行特征提取,得到全局特征信息,包括但不限于有步骤S720。
步骤S720、将待恢复特征信息输入至Transformer网络,以使Transformer网络基于待恢复特征信息输出得到全局特征信息。
具体地,本申请实施例可以将待恢复特征信息输入至全局特征提取模块进行特征提取,其中,全局特征提取模块可以采用经典的non-local网络或者基于Transformer网络,或者基于上述两种网络的其他变种网络。若全局特征提取模块采用Transformer网络时,本申请实施例可以将待恢复特征信息输入至Transformer网络,接着Transformer网络会基于待恢复特征信息进行特征提取,最后输出得到全局特征信息。
需要说明的是,Transformer网络能够弥补上述所提及的卷积神经网络的局限性缺陷,Transformer网络的多头注意力机制能够从不同层面发掘特征图的全局相似性,弥补了卷积网络的缺陷。因此结合卷积层与Transformer设计融合网络能够提升网络的建模能力,增强视频帧复原的效果。
另外,如图8所示,图8是图7中步骤S720的一个实施例的具体流程图。关于上述Transformer网络,设置有降维模块、移位窗口和升维模块;具体地,步骤S720包括但不限于有步骤S721、步骤S722和步骤S723。
步骤S721、通过降维模块对待恢复特征信息进行降维处理,得到输入特征信息;
步骤S722、将输入特征信息输入至移位窗口进行特征提取,得到输出特征信息;
步骤S723、通过升维模块对输出特征信息进行升维处理,得到全局特征信息。
具体地,本申请实施例可以通过Transformer网络的移位窗口对有损压缩图像进行分块划分以后进行窗口注意力计算从而获取全局特征信息。示例性地,若移位窗口只能接受二维矢量特征作为输入,因此,本申请实施例需要先通过降维模块对待恢复特征信息进行降维处理,得到二维的输入特征信息;然后才可以通过移位窗口对二维的输入特征信息进行特征提取以得到二维的输出特征信息;最后再通过升维模块对二维的输出特征信息进行升维处理,得到全局特征信息。
需要说明的是,关于上述的输入特征信息和输出特征信息,可以是二维特征信息,也可以是其他维度的特征信息,本申请实施例对输入特征信息和输出特征信息的维度不作限定。
另外,如图9所示,图9是图2中步骤S300的一个实施例的具体流程图,包括但不限于有步骤S810、步骤S820、步骤S830、步骤S840和步骤S850。
步骤S810、对局部特征信息和全局特征信息进行融合提取,得到关键图信息;
步骤S820、对局部特征信息进行提取,得到与局部特征信息对应的第一查询图信息;
步骤S830、对全局特征信息进行提取,得到与全局特征信息对应的第二查询图信息;
步骤S840、对关键图信息和第一查询图信息进行计算,得到与局部特征信息对应的第一空间注意力权值;
步骤S850、对关键图信息和第二查询图信息进行计算,得到与全局特征信息对应的第二空间注意力权值。
具体地,本申请实施例可以采用基于空间注意力的融合结构对第一注意力权值和第二注意力权值进行计算,其中,融合步骤分为三个分支,第一个分支是用于对局部特征信息和全局特征信息进行融合提取,得到关键图信息;第二个分支是用于对局部特征信息进行提取,得到与局部特征信息对应的第一查询图信息;第三个分支是用于对全局特征信息进行提取,得到与全局特征信息对应的第二查询图信息。当得到关键图信息、第一查询图信息和第二查询图信息之后,本申请实施例再根据关键图信息和第一查询图信息进行权值计算,得到第一空间注意力权值;同时,还会根据关键图信息和第二查询图信息进行权值计算,得到第二空间注意力权值。
另外,如图10所示,图10是图2中步骤S300的另一个实施例的具体流程图,包括但不限于有步骤S910、步骤S920、步骤S930和步骤S940。
步骤S910、对局部特征信息和全局特征信息进行拼接,得到拼接特征信息;
步骤S920、对拼接特征信息进行全局池化,得到池化后的拼接特征信息;
步骤S930、将池化后的拼接特征信息通过第一全连接层进行计算,得到与局部特征信息对应的第一通道注意力权值;
步骤S940、将池化后的拼接特征信息通过第二全连接层进行计算,得到与全局特征信息对应的第二通道注意力权值。
具体地,本申请实施例可以采用基于通道注意力的融合结构对第一注意力权值和第二注意力权值进行计算,其中,融合步骤只有一个分支,用于将局部特征信息和全局特征信息经过拼接、全局池化后再分别通过全连接层计算出局部特征信息和全局特征信息各自对应的通道注意力权值。
另外,如图11所示,图11是图2中步骤S400的一个实施例的具体流程图,包括但不限于有步骤S1010、步骤S1020和步骤S1030。
步骤S1010、对局部特征信息和第一注意力权值进行加权计算,得到加权后的局部特征信息;
步骤S1020、对全局特征信息和第二注意力权值进行加权计算,得到加权后的全局特征信息;
步骤S1030、对加权后的局部特征信息和加权后的全局特征信息进行融合,得到融合特征信息。
具体地,本申请实施例可以利用局部特征信息对应的第一注意力权值和全局特征信息对应的第二注意力权值对局部特征信息和全局特征信息加权融合得到高维的融合特征信息。具体为对局部特征信息和全局特征信息分别进行加权计算,得到加权后的局部特征信息和全局特征信息,然后再对加权后的局部特征信息和全局特征信息进行融合,得到高维的融合特征信息。
另外,如图12所示,图12是图2中位于步骤S400之前的对第一注意力权值和第二注意力权值进行归一化处理的具体流程图。具体地,在步骤S400之前,本申请实施例图像处理方法还包括但不限于有步骤S1100。
步骤S1100、对第一注意力权值和第二注意力权值进行归一化处理,以使第一注意力权值和第二注意力权值的空间里每个点对应的权值之和为一。
具体地,在加权融合步骤之前,需要先判断第一注意力权值和第二注意力权值的空间里每个点对应的权值之和是否为一,如果不为一,还需要对第一注意力权值和第二注意力权值进行归一化处理,使得第一注意力权值和第二注意力权值的空间里每个点对应的权值之和为一。
需要说明的是,当第一注意力权值和第二注意力权值为空间注意力权值时,第一注意力权值和第二注意力权值为二维权重值,可以使用Softmax 2D或其他类似方法进行归一化处理;另外,当第一注意力权值和第二注意力权值为通道注意力权值时,第一注意力权值和第二注意力权值为一维权重值,可以使用Softmax或者其他类似方法进行归一化处理。
另外,如图13所示,图13是图2中步骤S500中根据融合特征信息得到图像残差信息的一个实施例的具体流程图。具体地,关于步骤S500中的根据融合特征信息得到图像残差信息,包括但不限于有步骤S1200。
步骤S1200、对融合特征信息进行降维处理,得到图像残差信息。
具体地,由于融合特征信息为高维特征信息,需要经过卷积层或其他类似方法进行降维处理后得到图像恢复残差。
基于上述图2至图13的图像处理方法,下面提出本申请的多个具体的实施例。
在一个实施例中,为了进一步提高经编解码后的重构视频图像的视觉效果与质量,如图14所示,本申请实施例提供了一种结合了局部特征提取模块和全局特征提取模块的空间注意力融合模块的结构示意图。
具体地,图14中所示的空间注意力融合模块主要包括***、融合、选择三个处理步骤:
关于图14中的***步骤,对应的模块包括局部特征提取模块和全局特征提取模块,对输入的特征信息分别提取不同特点的特征作为局部特征信息和全局特征信息。其中,局部特征提取模块可以采用任何基于卷积核搭建的网络,后续实施例中该模块将以级联的卷积神经网络结构为例进行说明。全局特征提取模块可以采用经典的non-local网络或者基于Transformer网络,或者基于上述两种网络的其他变种,后续实施例中全局特征提取模块将以Swin Transformer/Block(Shift Window Transformer/Block)网络结构为例进行说明。
作为一种实现方式,局部特征提取模块可以由至少一对级联的卷积神经网络和激活函数组成,如图15所示,图15以局部特征提取模块包括有三对级联的卷积神经网络和激活函数为例。当激活函数为PReLU激活函数时,局部特征提取对应的公式可以表达为:
Fla=PReLUi-1(Convi-1(...PReLU0(Conv0(Fe)))
其中,Fe为输入的待恢复特征信息,Fla为提取的局部特征信息。
同样,作为一种实现方式,全局特征提取模块中包括两个或多个的整数倍个移位窗口(Swin Transformer/Block),记为SSBs,如图16所示,图16以全局特征提取模块包括有两个Swin Block为例。
Swin Block通过对有损压缩图像进行分块划分以后进行窗口注意力计算从而获取全局特征信息。由于Swin Block只能接受二维矢量特征作为输入,需要先对输入的三维特征Fe利用卷积神经网络进行降采样分块,并对每个块经过Flatten展平和层归一化(Layer Normalization,Layer Norm)处理为二维矢量特征Fpatched,具体公式表示如下:
Fpatched=LayerNorm(Flatten(Conv(Fe)))
反之,全局特征提取模块在输出特征前需要先将二维矢量特征先转换为三维特征再进行上采样得到全局特征信息Fga,作为一种实现方式,其中:二维矢量转换为三维特征可以使用重塑操作View,上采样可以使用Pixel Shuffle、deconvolution、近邻插值或线性插值配合卷积层等方法,具体公式表示如下:
Fga=UpSampler(View(LayerNorm(SSBs(Fpatched))))
需要注意的是,本申请实施例并不限定全局特征提取模块直接对有损压缩图像直接进行全局特征提取。
关于图14中的融合步骤,对应的模块包括查询图提取模块、关键图提取模块和权值计算模块,融合步骤用于分别计算局部特征信息和全局特征信息的空间注意力权值。图14中给出一种融合步骤可能的实现方式,融合步骤分为三个分支:中间的分支将局部特征提取模块、全局特征提取模块输出的特征相加,经过关键图(Key map)提取模块提取整体特征数据的关键图信息Key map;上下两个分支分别通过查询图(Query map)提取模块提取对应于局部特征信息的第一查询图信息Query map和全局特征信息对应的第二查询图信息Query map。权值计算模块用于根据Key map与Query map进行矩阵乘法得到局部特征信息对应的第一空间注意力权值和全局特征信息对应的第二空间注意力权值。
关于图14中的选择步骤,对应的模块包括加权融合模块,通过加权融合模块对局部特征信息和全局特征信息及其各自对应的第一空间注意力权值和第二空间注意力权值分别进行加权融合,输出融合特征信息。
需要说明的是,注意力融合模块除了可以是图14中所示的空间注意力融合模块,还可以是图17中所示的通道注意力融合模块。具体地,图17中所示的通道注意力融合模块和图14中所示的空间注意力融合模块相比,主要的区别在于融合步骤只有一个融合分支,将***步骤提取的局部特征信息和全局特征信息经过拼接、全局池化后再分别通过全连接层计算出局部特征信息对应的第一通道注意力权值和全局特征信息对应的第二通道注意力权值。
另外,需要说明的是,在后续实施例中,融合模块可以是空间注意力融合模块结构,也可以是通道注意力融合模块结构。注意力权值可以对应是空间注意力权值,也可以对应是通道注意力权值。
在一个实施例中,结合图14和图17对图2中的方法步骤进行举行阐述:
关于步骤S100,有损压缩图像,可以是经过编解码压缩后的一幅图像,也可以是经过编解码压缩后的视频序列中的一帧图像。对应的编码信息是指在编码图像时所需要的信息,包括但不限于编码单元划分结构信息、量化参数信息等。后续方案介绍中将以量化参数QP为例进行说明,但本申请实施例的方法对其他编码信息或编码信息的组合将同样适用。
关于步骤S200,对应于图14和图17中的融合模块所包含的***步骤。将输入融合模块的待恢复特征信息Fe分别通过局部特征提取模块Sla和全局特征提取模块Sga得到两种不同方式恢复后的特征图Fla、Fga,分别如下:
Fla=Sla(Fe)
Fga=Sga(Fe)
需要说明的是,在提取局部特征信息和全局特征信息之前,还包括先根据编码信息获得与有损压缩图像对应的待恢复特征信息Fe,待恢复特征信息Fe可以是有损压缩图像经过卷积层处理后获得的特征,也可以是有损压缩图像经过卷积层和至少一个残差块处理后获得的特征。其中,图18为一种实施例的残差块的结构示例。残差块通过对输入特征进行两个卷积层和一个PReLU激活函数,以及残差连接输出有益于融合模块进行图像恢复的特征,其优化处理公式如下:
Fo=Conv1(PReLU(Conv0(Fi)))+Fi
其中:Fi为输入特征,Fo表示输出特征。
另外,需要说明的是,当存在多个残差块时,前一残差块的输出特征将作为后一残差块的输入特征,持续对特征进行优化。
关于步骤S300,对应图14和图17中的融合模块所包含的融合步骤。当融合模块为空间注意力融合模块时,如图14所示,融合步骤分为三个分支,分别获取整体特征数据的Key map,以及局部特征信息和全局特征信息各自的Query map。
其中,图19为图14中所示的空间注意力融合模块的详细结构示意图。具体地,中间分支将局部特征提取模块和全局特征提取模块分别输出的三维、形状为(C,H,W)的局部特征信息Fla和全局特征信息Fga进行相加得到初步融合特征,再使用卷积层Sk将初步融合特征从恢复域转为权值求取域,并使用Flatten操作展平特征形状,得到初步融合特征的二维、形状为(C/2,H*W)的Key map:
Klga=View(Sk(Fla+Fga))
上下两个分支使用卷积层Sqla和Sqga、全局池化Average Pool、转置Transpose、Softmax归一处理来分别提取局部特征信息Fla和全局特征信息Fga对应的形状为(1,C/2)的二维Query map,即Qla、Qga,分别如下:
Qla=Softmax(AvgPool(Sqla(Fla))T)
Qga=Softmax(AvgPool(Sqga(Fga))T)
其中:卷积层用于将局部特征或全局特征从恢复域转为权值求取域,全局池化用于压缩局部特征信息或全局特征信息,由于压缩会导致信息的丢失,因此需要追加Softmax进行归一处理,对信息进行增强。
另外,权值计算模块会根据Key map分别与局部特征信息和全局特征信息Querymap进行矩阵乘法得到局部特征信息对应的空间注意力权重值和全局特征信息对应的空间注意力权重值。
当融合模块为图17中所示的通道注意力融合模块时,将局部特征信息和全局特征信息经过拼接、全局池化后再分别通过全连接层计算出局部特征信息和全局特征信息各自对应的通道注意力权重值。
关于步骤S400,对应图14和图17中的融合模块所包含的选择步骤;利用输出的局部特征信息对应的注意力权重值Wla和全局特征信息对应的注意力权重值Wga对局部特征信息Fla和全局特征信息Fga加权融合得到图像的高维融合特征信息Fgla,具体公式如下:
Fgla=Wla*Fla+Wga*Fga
需要说明的是,在进行本步骤之前,需要先判断Wla和Wga空间里每个点对应的权值之和是否为一,如果不为一,还需要对Wla和Wga进行归一化处理,使得Wla、Wga空间里每个点对应的权值之和为一。
当融合模块为空间注意力融合模块时,Wla和Wga为二维权重值,可以使用Softmax2D或其他类似方法进行归一化处理,使得Wla、Wga空间里每个点对应的权值之和为一;当融合模块为通道注意力融合模块时,Wla和Wga为一维矢量权重值,可以采用Softmax或者其他类似方法进行归一化处理,使得Wla、Wga空间里每个点对应的权值之和为一。
需要说明的是,步骤S200至步骤S400可以设置循环执行多次,当循环执行时,步骤S400中输出的融合特征信息将作为下一轮步骤S200中的输入特征。
关于步骤S500,由于步骤S400中最终获得的融合特征信息Fr是高维特征信息,需要经过卷积层或其他类似方法进行降维处理后得到图像恢复残差,经过卷积层SC得到图像恢复残差。根据图像残差信息和有损压缩图像获得质量增强的重构图像可以是直接将图像恢复残差与有损图像叠加后,得到最终的恢复结果,即质量增强的重构图像。
在一个实施例中,如图20所示,图20是本申请实施例的一种针对有损压缩图像进行基于注意力机制质量增强的网络示意图。
具体地,有损视频图像Ilf和量化参数信息Mqp拼接作为网络的输入信息,并经过一个卷积层SS对输入信息进行升维,具体的表达公式如下:
Fs=Ss(Ilf,Mqp)
维度升高后的特征Fs随后被送入至少一个DFB模块中提取融合特征Fr。DFB模块由残差块和融合模块组成,其中融合模块可以是空间注意力融合模块,也可以是通道注意力融合模块,残差块的结构如图18所示。DFB模块中可以包含0个或至少1个残差块。
其中DFB块的数量记为i,图20中以i=4为例:
Fr=DFBi-1(...DFB0(Fs))
提取融合特征Fr的具体方法介绍参考上述实施例中的步骤S200至步骤S400,当i=4时,表示对上述实施例中的步骤S200至步骤S400需要重复执行4次。
提取到融合特征Fr以后,进一步通过卷积层SC对融合特征Fr进行降维处理,获得图像恢复残差,并将图像恢复残差与有损压缩图像进行叠加后,获得质量增强的重构图像Irf,具体的表达公式如下:
Irf=Ilf+SC(Fr)
基于上述图2至图20的多个实施例,本申请实施例包括但不限于如下技术效果:首先,本申请实施例提出一种注意力融合机制,包括空间注意力融合结构和通道注意力融合结构,能够对图像的局部特征信息和全局特征信息进行加权融合,这种机制能够根据图片特征自适应选择不同区域的融合权重,取得更好的恢复效果。其次,本申请实施例同时使用擅长局部建模的卷积神经网络(Convolutional Neural Network,CNN)和擅长全局建模的Transformer构建恢复网络,使得网络具备更强的图像恢复能力。另外,本申请实施例直接对编解码以后的有损压缩视频图像进行质量增强,而不需要对编码端过程做任何改变,这就保证了编码端没有引入额外的计算复杂度,并且比特流也没有发生改变,这就大大地增加了框架的灵活性。由于解码视频质量的增强,一方面,保证了相同码率下更高的视频清晰度,另一方面,在保证相同视频质量的条件下,减小了需要传输的码流,能够大大减少传输视频的成本。
基于上述的图像处理方法,下面提出本申请的图像处理装置、电子设备、计算机可读存储介质和计算机程序产品的各个实施例。
如图21所示,图21是本申请的一个实施例提供的图像处理装置的结构示意图。本申请实施例的图像处理装置200包括但不限于获取单210元、特征提取单元220、注意力权值计算单元230、特征融合单元240和图像叠加单元250。
具体地,获取单元210用于获取压缩图像和与压缩图像对应的编码信息;特征提取单元220用于根据编码信息对压缩图像进行特征提取,得到局部特征信息和全局特征信息;注意力权值计算单元230用于计算出与局部特征信息对应的第一注意力权值和与全局特征信息对应的第二注意力权值;特征融合单元240用于对局部特征信息、全局特征信息、第一注意力权值和第二注意力权值进行加权融合,得到融合特征信息;图像叠加单元250用于根据融合特征信息得到图像残差信息,并对压缩图像和图像残差信息进行叠加,得到重构图像。
值得注意的是,本申请实施例的图像处理装置的具体实施方式和技术效果,可对应参照上述图像处理方法的具体实施方式和技术效果。
此外,本申请的一个实施例提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述的图像处理方法。
需要说明的是,本实施例中的电子设备,可以对应为如图1所示,此处不再详述。
实现上述实施例的图像处理方法所需的非暂态软件程序以及指令存储在存储器中,当被处理器执行时,执行上述实施例的图像处理方法,例如,执行以上描述的图2至图13中的方法步骤。
值得注意的是,本申请实施例的电子设备的具体实施方式和技术效果,可对应参照上述图像处理方法的具体实施方式和技术效果。
此外,本申请的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,当计算机可执行指令用于执行上述的图像处理方法,例如,执行以上描述的图2至图13中的方法步骤。
此外,本申请的一个实施例还公开了一种计算机程序产品,包括计算机程序或计算机指令,计算机程序或计算机指令存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取计算机程序或计算机指令,处理器执行计算机程序或计算机指令,使得计算机设备执行如前面任意实施例中的图像处理方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、***可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本申请的较佳实施进行了具体说明,但本申请并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请精神的共享条件下还可作出种种等同的变形或替换,这些等同的变形或替换均包括在本申请权利要求所限定的范围内。
Claims (18)
1.一种图像处理方法,包括:
获取压缩图像和与所述压缩图像对应的编码信息;
根据所述编码信息对所述压缩图像进行特征提取,得到局部特征信息和全局特征信息;
计算出与所述局部特征信息对应的第一注意力权值和与所述全局特征信息对应的第二注意力权值;
对所述局部特征信息、所述全局特征信息、所述第一注意力权值和所述第二注意力权值进行加权融合,得到融合特征信息;
根据所述融合特征信息得到图像残差信息,并对所述压缩图像和所述图像残差信息进行叠加,得到重构图像。
2.根据权利要求1所述的图像处理方法,其特征在于,所述根据所述编码信息对所述压缩图像进行特征提取,得到局部特征信息和全局特征信息,包括:
根据所述编码信息得到与所述压缩图像对应的待恢复特征信息;
对所述待恢复特征信息进行特征提取,得到局部特征信息和全局特征信息。
3.根据权利要求2所述的图像处理方法,其特征在于,所述根据所述编码信息得到与所述压缩图像对应的待恢复特征信息,包括:
对所述压缩图像和所述编码信息进行卷积操作,得到与所述压缩图像对应的待恢复特征信息。
4.根据权利要求2所述的图像处理方法,其特征在于,所述根据所述编码信息得到与所述压缩图像对应的待恢复特征信息,包括:
对所述压缩图像和所述编码信息进行卷积操作,得到初始特征信息;
对所述初始特征信息进行优化处理,得到与所述压缩图像对应的待恢复特征信息。
5.根据权利要求2所述的图像处理方法,其特征在于,所述对所述待恢复特征信息进行特征提取,得到局部特征信息,包括:
通过至少一对级联的卷积神经网络和激活函数对所述待恢复特征信息进行特征提取,得到局部特征信息。
6.根据权利要求2所述的图像处理方法,其特征在于,所述对所述待恢复特征信息进行特征提取,得到全局特征信息,包括:
将所述待恢复特征信息输入至Transformer网络,以使所述Transformer网络基于所述待恢复特征信息输出得到全局特征信息。
7.根据权利要求6所述的图像处理方法,其特征在于,所述Transformer网络设置有降维模块、移位窗口和升维模块;所述将所述待恢复特征信息输入至Transformer网络,以使所述Transformer网络基于所述待恢复特征信息输出得到全局特征信息,包括:
通过所述降维模块对所述待恢复特征信息进行降维处理,得到输入特征信息;
将所述输入特征信息输入至所述移位窗口进行特征提取,得到输出特征信息;
通过所述升维模块对所述输出特征信息进行升维处理,得到全局特征信息。
8.根据权利要求1所述的图像处理方法,其特征在于,所述计算出与所述局部特征信息对应的第一注意力权值和与所述全局特征信息对应的第二注意力权值,包括:
对所述局部特征信息和所述全局特征信息进行融合提取,得到关键图信息;
对所述局部特征信息进行提取,得到与所述局部特征信息对应的第一查询图信息;
对所述全局特征信息进行提取,得到与所述全局特征信息对应的第二查询图信息;
对所述关键图信息和所述第一查询图信息进行计算,得到与所述局部特征信息对应的第一空间注意力权值;
对所述关键图信息和所述第二查询图信息进行计算,得到与所述全局特征信息对应的第二空间注意力权值。
9.根据权利要求1所述的图像处理方法,其特征在于,所述计算出与所述局部特征信息对应的第一注意力权值和与所述全局特征信息对应的第二注意力权值,包括:
对所述局部特征信息和所述全局特征信息进行拼接,得到拼接特征信息;
对所述拼接特征信息进行全局池化,得到池化后的拼接特征信息;
将所述池化后的拼接特征信息通过第一全连接层进行计算,得到与所述局部特征信息对应的第一通道注意力权值;
将所述池化后的拼接特征信息通过第二全连接层进行计算,得到与所述全局特征信息对应的第二通道注意力权值。
10.根据权利要求1所述的图像处理方法,其特征在于,所述对所述局部特征信息、所述全局特征信息、所述第一注意力权值和所述第二注意力权值进行加权融合,得到融合特征信息,包括:
对所述局部特征信息和所述第一注意力权值进行加权计算,得到加权后的局部特征信息;
对所述全局特征信息和所述第二注意力权值进行加权计算,得到加权后的全局特征信息;
对所述加权后的局部特征信息和所述加权后的全局特征信息进行融合,得到融合特征信息。
11.根据权利要求1或10所述的图像处理方法,其特征在于,在所述对所述局部特征信息、所述全局特征信息、所述第一注意力权值和所述第二注意力权值进行加权融合,得到融合特征信息之前,所述图像处理方法还包括:
对所述第一注意力权值和所述第二注意力权值进行归一化处理,以使所述第一注意力权值和所述第二注意力权值的空间里每个点对应的权值之和为一。
12.根据权利要求1所述的图像处理方法,其特征在于,所述根据所述融合特征信息得到图像残差信息,包括:
对所述融合特征信息进行降维处理,得到图像残差信息。
13.根据权利要求1至10和12中任意一项所述的图像处理方法,其特征在于,所述压缩图像包括经过编解码压缩后的图像信息或者经过编解码压缩后的视频序列中的图像信息。
14.根据权利要求1至10和12中任意一项所述的图像处理方法,其特征在于,所述编码信息包括编码单元划分结构信息或者量化参数信息。
15.一种图像处理装置,包括:
获取单元,用于获取压缩图像和与所述压缩图像对应的编码信息;
特征提取单元,用于根据所述编码信息对所述压缩图像进行特征提取,得到局部特征信息和全局特征信息;
注意力权值计算单元,用于计算出与所述局部特征信息对应的第一注意力权值和与所述全局特征信息对应的第二注意力权值;
特征融合单元,用于对所述局部特征信息、所述全局特征信息、所述第一注意力权值和所述第二注意力权值进行加权融合,得到融合特征信息;
图像叠加单元,用于根据所述融合特征信息得到图像残差信息,并对所述压缩图像和所述图像残差信息进行叠加,得到重构图像。
16.一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至14中任意一项所述的图像处理方法。
17.一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1至14中任意一项所述的图像处理方法。
18.一种计算机程序产品,包括计算机程序或计算机指令,其特征在于,所述计算机程序或所述计算机指令存储在计算机可读存储介质中,计算机设备的处理器从所述计算机可读存储介质读取所述计算机程序或所述计算机指令,所述处理器执行所述计算机程序或所述计算机指令,使得所述计算机设备执行如权利要求1至14中任意一项所述的图像处理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210379553.7A CN116958759A (zh) | 2022-04-12 | 2022-04-12 | 图像处理方法、装置、设备、存储介质和程序产品 |
PCT/CN2023/080226 WO2023197784A1 (zh) | 2022-04-12 | 2023-03-08 | 图像处理方法、装置、设备、存储介质和程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210379553.7A CN116958759A (zh) | 2022-04-12 | 2022-04-12 | 图像处理方法、装置、设备、存储介质和程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116958759A true CN116958759A (zh) | 2023-10-27 |
Family
ID=88328822
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210379553.7A Pending CN116958759A (zh) | 2022-04-12 | 2022-04-12 | 图像处理方法、装置、设备、存储介质和程序产品 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116958759A (zh) |
WO (1) | WO2023197784A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117809381B (zh) * | 2024-03-01 | 2024-05-14 | 鹏城实验室 | 视频动作分类方法、装置、设备和存储介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108419094B (zh) * | 2018-03-05 | 2021-01-29 | 腾讯科技(深圳)有限公司 | 视频处理方法、视频检索方法、装置、介质及服务器 |
CN110544217B (zh) * | 2019-08-30 | 2021-07-20 | 深圳市商汤科技有限公司 | 一种图像处理方法及装置、电子设备和存储介质 |
CN112950463A (zh) * | 2019-12-11 | 2021-06-11 | 香港理工大学深圳研究院 | 一种图像超分辨率方法、图像超分辨率装置及终端设备 |
CN112261414B (zh) * | 2020-09-27 | 2021-06-29 | 电子科技大学 | 一种以注意力机制融合单元划分的视频编码卷积滤波方法 |
CN112700392A (zh) * | 2020-12-01 | 2021-04-23 | 华南理工大学 | 一种视频超分辨率处理方法、设备及存储介质 |
CN112767251B (zh) * | 2021-01-20 | 2023-04-07 | 重庆邮电大学 | 基于多尺度细节特征融合神经网络的图像超分辨率方法 |
CN112862690B (zh) * | 2021-03-09 | 2022-08-30 | 湖北工业大学 | 一种基于Transformers的低分辨率图像超分辨方法及*** |
CN113781308A (zh) * | 2021-05-19 | 2021-12-10 | 马明才 | 图像超分辨率重建方法、装置、存储介质及电子设备 |
CN113808032B (zh) * | 2021-08-04 | 2023-12-15 | 北京交通大学 | 多阶段渐进式的图像去噪算法 |
CN113709455B (zh) * | 2021-09-27 | 2023-10-24 | 北京交通大学 | 一种使用Transformer的多层次图像压缩方法 |
CN113989593A (zh) * | 2021-10-29 | 2022-01-28 | 北京百度网讯科技有限公司 | 图像处理方法、检索方法、训练方法、装置、设备及介质 |
CN114222123B (zh) * | 2021-12-15 | 2022-11-15 | 华南农业大学 | 一种任意压缩率的加密图像有损压缩与重构***及方法 |
CN114092833B (zh) * | 2022-01-24 | 2022-05-27 | 长沙理工大学 | 遥感图像分类方法、装置、计算机设备和存储介质 |
-
2022
- 2022-04-12 CN CN202210379553.7A patent/CN116958759A/zh active Pending
-
2023
- 2023-03-08 WO PCT/CN2023/080226 patent/WO2023197784A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023197784A1 (zh) | 2023-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112203093B (zh) | 一种基于深度神经网络的信号处理方法 | |
CN109842799B (zh) | 颜色分量的帧内预测方法、装置及计算机设备 | |
TWI834087B (zh) | 用於從位元流重建圖像及用於將圖像編碼到位元流中的方法及裝置、電腦程式產品 | |
CN113766249B (zh) | 视频编解码中的环路滤波方法、装置、设备及存储介质 | |
CN113497941A (zh) | 图像滤波方法、编码方法及相关设备 | |
WO2022068682A1 (zh) | 图像处理方法及装置 | |
CN115606179A (zh) | 用于使用学习的下采样特征进行图像和视频编码的基于学习的下采样的cnn滤波器 | |
EP4365820A1 (en) | Video super-resolution network, and video super-resolution, encoding and decoding processing method and device | |
WO2022155974A1 (zh) | 视频编解码以及模型训练方法与装置 | |
CN111800629A (zh) | 视频解码方法、编码方法以及视频解码器和编码器 | |
US20230076920A1 (en) | Global skip connection based convolutional neural network (cnn) filter for image and video coding | |
WO2023197784A1 (zh) | 图像处理方法、装置、设备、存储介质和程序产品 | |
CN116156202A (zh) | 一种实现视频错误隐藏的方法、***、终端及介质 | |
CN113592746B (zh) | 一种由粗到细地融合时空信息的压缩视频质量增强方法 | |
WO2022266955A1 (zh) | 图像解码及处理方法、装置及设备 | |
CN112601095B (zh) | 一种视频亮度和色度分数插值模型的创建方法及*** | |
CN115604485A (zh) | 视频图像的解码方法及装置 | |
CN115880381A (zh) | 图像处理方法、图像处理装置、模型训练方法 | |
WO2023098688A1 (zh) | 图像编解码方法和装置 | |
CN111080729A (zh) | 基于Attention机制的训练图片压缩网络的构建方法及*** | |
CN115512199A (zh) | 一种基于图注意和非对称卷积网络的图像压缩模型 | |
US6061401A (en) | Method and apparatus for selectively encoding/decoding a video signal | |
CN118020306A (zh) | 视频编解码方法、编码器、解码器及存储介质 | |
CN115511756A (zh) | 视频增强处理方法、装置、电子设备和存储介质 | |
CN117768655A (zh) | 音视频或图像分层压缩方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |