CN113066018A - 一种图像增强方法及相关装置 - Google Patents
一种图像增强方法及相关装置 Download PDFInfo
- Publication number
- CN113066018A CN113066018A CN202110221711.1A CN202110221711A CN113066018A CN 113066018 A CN113066018 A CN 113066018A CN 202110221711 A CN202110221711 A CN 202110221711A CN 113066018 A CN113066018 A CN 113066018A
- Authority
- CN
- China
- Prior art keywords
- image
- network
- sub
- feature
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 203
- 238000012545 processing Methods 0.000 claims abstract description 236
- 238000005070 sampling Methods 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims description 50
- 238000012549 training Methods 0.000 claims description 46
- 230000015654 memory Effects 0.000 claims description 43
- 238000013527 convolutional neural network Methods 0.000 claims description 42
- 238000004590 computer program Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 abstract description 97
- 238000013473 artificial intelligence Methods 0.000 abstract description 15
- 230000002829 reductive effect Effects 0.000 abstract description 9
- 238000013461 design Methods 0.000 abstract description 6
- 238000013528 artificial neural network Methods 0.000 description 45
- 238000010586 diagram Methods 0.000 description 43
- 239000011159 matrix material Substances 0.000 description 32
- 239000013598 vector Substances 0.000 description 22
- 238000011176 pooling Methods 0.000 description 21
- 230000000694 effects Effects 0.000 description 18
- 238000004422 calculation algorithm Methods 0.000 description 17
- 238000005192 partition Methods 0.000 description 17
- 230000001133 acceleration Effects 0.000 description 13
- 230000001537 neural effect Effects 0.000 description 12
- 238000013135 deep learning Methods 0.000 description 11
- 210000002569 neuron Anatomy 0.000 description 9
- 230000004913 activation Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 230000001965 increasing effect Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 238000013500 data storage Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 239000000872 buffer Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000011022 operating instruction Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000007906 compression Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000004148 unit process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请实施例公开了一种图像增强方法,应用于人工智能领域,包括:终端获取第一图像和第二图像,第二图像为对第一图像进行下采样处理得到的;终端通过第一网络对第二图像处理,得到第一特征和第三图像,该第一特征为第一网络提取得到的中间特征,该第三图像的分辨率与第一图像的分辨率相同;终端根据第三图像和第一图像,生成第四图像;终端通过第二网络对第四图像处理,得到目标图像;其中,第一网络和第二网络用于图像增强。通过多层网络的设计,能够在获得较大的感受野的基础上,有效地缩减网络的深度,从而显著地减小网络的规模,使得计算能力较弱的设备上能够部署并运行网络。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种图像增强方法及相关装置。
背景技术
人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
深度学习方法,是近年来人工智能领域发展的一个关键推动力,在计算机视觉的多种任务取得了令人瞩目的效果。在图像增强(也称为图像质量增强)领域,基于深度学习的方法都已经超过了传统方法。
深度学***板电脑等消费级终端产品),受运行速度、运行显存和功耗等因素的限制,通常难以使用复杂的深度学习方法进行图像增强。
因此,目前亟需一种能够在计算能力较弱的设备上执行图像增强的方法。
发明内容
本申请提供了一种图像增强方法,采用了多层网络结构,并由上层网络和下层网络分别处理分辨率逐层递增的图像。并且,上层网络的输出传递给下层网络,由下层网络做进一步的处理。由于上层网络处理低分辨率的图像,因此能够获得比下层网络更大的的感受野,并且由处理高分辨率图像的下层网络对上层网络的输出做进一步处理,从而实现同时兼顾全局信息和局部信息,保证图像增强的质量。通过多层网络分别处理不同分辨率的图像,能够在获得较大的感受野的基础上,有效地缩减网络的深度,从而显著地减小网络的规模,使得计算能力较弱的设备上能够部署并运行网络。
本申请第一方面提供一种图像增强方法,包括:终端获取第一图像和第二图像,所述第二图像为对所述第一图像进行下采样处理得到的。其中,第一图像为待执行图像增强的图像,例如需要去模糊的图像。终端可以通过对第一图像执行下采样处理,得到第二图像,第二图像的分辨率低于第一图像的分辨率。终端通过第一网络对所述第二图像处理,得到第一特征和第三图像,所述第一特征为所述第一网络提取得到的中间特征,所述第三图像的分辨率与所述第一图像的分辨率相同。所述第三图像为对所述第二图像执行图像增强后所得到的图像。终端根据所述第三图像和所述第一图像,生成第四图像。例如,终端对所述第三图像和所述第一图像进行相加处理,得到第四图像。终端通过第二网络对所述第四图像和所述第一特征处理,得到目标图像。其中,第一网络和第二网络可以是用于执行图像增强的网络,例如卷积神经网络。
本方案中,由于对第一图像执行了下采样处理,并且由第一网络对下采样处理得到的第二图像进行处理,能够使得第一网络提取得到的特征图具有更大的感受野。第一网络输出的第三图像与第一图像融合后,再输入至第二网络中进行处理,使得第二网络最终的输出图像能够有更好的图像增强效果,保证增强图像的质量。
可选的,在一种可能的实现方式中,该方法还包括:终端通过所述第三网络对第五图像进行处理,得到第六图像,所述第五图像为对第二图像执行下采样处理后得到的图像。终端通过第一网络对所述第二图像处理,具体包括:终端将第六图像与第二图像融合,例如将第六图像与第二图像相加,得到第七图像;终端通过第一网络对所述第七图像处理,得到所述第三图像。也就是说,在第一网络之上还有其他的网络,终端可以是通过多层不同的网络来逐层处理不同分辨率的图像。
可选的,在一种可能的实现方式中,所述第一网络包括第一子网络和第二子网络,所述第二网络包括第三子网络和第四子网络。终端通过第一网络对所述第二图像处理,得到第一特征和第三图像,包括:终端通过所述第一子网络对所述第二图像处理,得到第一特征;终端通过所述第二子网络对所述第一特征处理,得到所述第三图像。终端通过第二网络对所述第四图像处理,得到目标图像,包括:终端通过所述第三子网络对所述第四图像处理,得到第二特征;终端根据所述第一特征和所述第二特征,生成第三特征;终端通过所述第四子网络对所述第三特征处理,得到所述目标图像。
其中,终端可以是将所述第一特征和所述第二特征融合,以得到第三特征。例如,终端对所述第一特征执行上采样处理,得到上采样处理后的第一特征;然后将所述上采样处理后的第一特征与所述第二特征相加,得到所述第三特征。由于第一特征是基于较低分辨率的第二图像提取得到的,而第二特征是基于较高分辨率的第四图像提取得到的,因此终端在融合所述第一特征和第二特征之前,可以先对第一特征执行上采样处理。例如,终端对所述第一特征执行上采样处理,得到上采样特征,然后终端将上采样特征和所述第二特征执行相加操作,得到第三特征。
本方案中,通过融合上层网络与下层网络提取的特征级别的信息,以及上下层网络间的图像级别的信息,使得下层网络在处理局部信息的同时能够尽可能地兼顾上层网络得到的特征信息,促使各层网络深度设计尽可能简单。
可选的,在一种可能的实现方式中,所述第一子网络和所述第二子网络包括卷积神经网络。
可选的,在一种可能的实现方式中,所述第一网络可以采用编码器-解码器结构来实现。具体地,所述第一子网络包括编码器,所述第一子网络用于获取编码特征。所述第二子网络包括解码器,所述第二子网络用于获取解码图像。其中,编码器能够用于执行特征提取和压缩,通过对输入图像进行特征提取,并将提取到的特征进行压缩,得到编码特征。解码器能够用于执行特征还原操作,通过对编码特征执行上采样以及特征还原,得到解码图像。
可选的,在一种可能的实现方式中,所述编码器包括第一卷积层和通道-空间注意力模块,所述解码器包括第二卷积层和残差模块。
可选的,在一种可能的实现方式中,所述终端通过所述第一子网络对所述第二图像处理,得到第一特征,包括:终端在空间维度对所述第二图像进行分割,得到互不重叠的多个子图像。终端在通道维度对所述多个子图像进行拼接,得到拼接图像,拼接图像的通道数为第二图像的通道数的N倍。终端通过第一卷积神经网络对所述拼接图像进行处理,得到处理特征。终端在通道维度对所述处理特征进行分割,得到多个子处理特征。其中,子处理特征的数量与子图像的数量相同。终端在空间维度对所述多个子处理特征进行拼接,得到所述第一特征。
可选的,在一种可能的实现方式中,终端通过所述第二子网络对所述第一特征处理,得到所述第三图像,包括:终端在空间维度对所述第一特征进行分割,得到多个子特征;终端在通道维度对所述多个子特征进行拼接,得到拼接特征;终端通过第二卷积神经网络对所述拼接特征进行处理,得到处理图像;终端在通道维度对所述处理图像进行分割,得到多个子处理图像;终端在空间维度对所述多个子处理图像进行拼接,得到所述第三图像。
本实施例中,通过引入分区加速方法来对加快编码器和解码器的处理速度,能够在保证增强图像质量不受影响的前提下,提高神经网络的运行效率,在特定场景中取得与原始方法增强质量相当且满足实时处理的效果。此外,在引入分区加速方法后,用于处理不同子图像的分区拥有自学习的差异化卷积核,能够实现差异化学习,从而使得图像局部增强更优。
可选的,在一种可能的实现方式中,所述图像增强方法用于实现以下图像增强任务中的至少一种:图像超分辨率重构、图像去噪、图像去雾、图像去模糊、图像对比度增强、图像去马赛克、图像去雨、图像颜色增强、图像亮度增强、图像细节增强以及图像动态范围增强。
本申请第二方面提供一种模型的训练方法,包括:获取图像样本对,所述图像样本对包括第一图像和所述第一图像对应的增强图像;对所述第一图像进行下采样处理,得到第二图像;通过第一网络对所述第二图像处理,得到第一特征和第三图像,所述第一特征为所述第一网络提取得到的中间特征,所述第三图像的分辨率与所述第一图像的分辨率相同;根据所述第三图像和所述第一图像,生成第四图像;通过第二网络对所述第四图像处理,得到目标图像;根据所述第一图像对应的增强图像和所述目标图像获取损失函数,所述损失函数用于指示所述图像样本对中的增强图像和所述目标图像之间的差异;根据所述损失函数对所述第一网络和所述第二网络进行训练,得到训练后的第一网络和训练后的第二网络;其中,所述第一网络和所述第二网络用于图像增强。
可选的,在一种可能的实现方式中,所述第一网络包括第一子网络和第二子网络,所述第二网络包括第三子网络和第四子网络;通过第一网络对所述第二图像处理,得到第一特征和第三图像,包括:通过所述第一子网络对所述第二图像处理,得到所述第一特征;通过所述第二子网络对所述第一特征处理,得到所述第三图像;通过第二网络对所述第四图像处理,得到目标图像,包括:通过所述第三子网络对所述第四图像处理,得到第二特征;根据所述第一特征和所述第二特征,生成第三特征;通过所述第四子网络对所述第三特征处理,得到所述目标图像。
可选的,在一种可能的实现方式中,所述第一子网络和所述第二子网络包括卷积神经网络。
可选的,在一种可能的实现方式中,所述第一子网络包括编码器,所述第一子网络用于获取编码特征;所述第二子网络包括解码器,所述第二子网络用于获取解码图像。
可选的,在一种可能的实现方式中,所述编码器包括第一卷积层和通道-空间注意力模块,所述解码器包括第二卷积层和残差模块。
可选的,在一种可能的实现方式中,所述通过所述第一子网络对所述第二图像处理,得到第一特征,包括:在空间维度对所述第二图像进行分割,得到多个子图像;在通道维度对所述多个子图像进行拼接,得到拼接图像;通过第一卷积神经网络对所述拼接图像进行处理,得到处理特征;在通道维度对所述处理特征进行分割,得到多个子处理特征;在空间维度对所述多个子处理特征进行拼接,得到所述第一特征。
可选的,在一种可能的实现方式中,终端通过所述第二子网络对所述第一特征处理,得到所述第三图像,包括:终端在空间维度对所述第一特征进行分割,得到多个子特征;终端在通道维度对所述多个子特征进行拼接,得到拼接特征;终端通过第二卷积神经网络对所述拼接特征进行处理,得到处理图像;终端在通道维度对所述处理图像进行分割,得到多个子处理图像;终端在空间维度对所述多个子处理图像进行拼接,得到所述第三图像。
可选的,在一种可能的实现方式中,所述根据所述第三图像和所述第一图像,生成第四图像,包括:对所述第三图像和所述第一图像进行相加处理,得到第四图像。
可选的,在一种可能的实现方式中,所述模型的训练方法用于实现以下图像增强任务中的至少一种:图像超分辨率重构、图像去噪、图像去雾、图像去模糊、图像对比度增强、图像去马赛克、图像去雨、图像颜色增强、图像亮度增强、图像细节增强以及图像动态范围增强。
本申请第三方面提供一种图像处理装置,包括获取单元和处理单元。所述获取单元,用于获取第一图像和第二图像,所述第二图像为对所述第一图像进行下采样处理得到的;所述处理单元,用于通过第一网络对所述第二图像处理,得到第一特征和第三图像,所述第一特征为所述第一网络提取得到的中间特征,所述第三图像的分辨率与所述第一图像的分辨率相同;所述处理单元,还用于根据所述第三图像和所述第一图像,生成第四图像;所述处理单元,还用于通过第二网络对所述第四图像处理,得到目标图像;其中,所述第一网络和所述第二网络用于图像增强。
可选的,在一种可能的实现方式中,所述第一网络包括第一子网络和第二子网络,所述第二网络包括第三子网络和第四子网络;所述处理单元,还用于通过所述第一子网络对所述第二图像处理,得到第一特征;所述处理单元,还用于通过所述第二子网络对所述第一特征处理,得到所述第三图像;所述处理单元,还用于通过所述第三子网络对所述第四图像处理,得到第二特征;所述处理单元,还用于根据所述第一特征和所述第二特征,生成第三特征;所述处理单元,还用于通过所述第四子网络对所述第三特征处理,得到所述目标图像。
可选的,在一种可能的实现方式中,所述根据所述第一特征和所述第二特征,生成第三特征,包括:对所述第一特征执行上采样处理,得到上采样处理后的第一特征;将所述上采样处理后的第一特征与所述第二特征相加,得到所述第三特征。
可选的,在一种可能的实现方式中,所述第一子网络包括编码器,所述第一子网络用于获取编码特征;所述第二子网络包括解码器,所述第二子网络用于获取解码图像。
可选的,在一种可能的实现方式中,所述编码器包括第一卷积层和通道-空间注意力模块,所述解码器包括第二卷积层和残差模块。
可选的,在一种可能的实现方式中,所述处理单元,还用于在空间维度对所述第二图像进行分割,得到多个子图像;所述处理单元,还用于在通道维度对所述多个子图像进行拼接,得到拼接图像;所述处理单元,还用于通过编码器对所述拼接图像进行处理,得到编码特征;所述处理单元,还用于在通道维度对所述编码特征进行分割,得到多个子编码特征;所述处理单元,还用于在空间维度对所述多个子编码特征进行拼接,得到所述第一特征。
可选的,在一种可能的实现方式中,所述处理单元,还用于对所述第三图像和所述第一图像进行相加处理,得到第四图像。
可选的,在一种可能的实现方式中,所述图像处理装置用于实现以下图像增强任务中的至少一种:图像超分辨率重构、图像去噪、图像去雾、图像去模糊、图像对比度增强、图像去马赛克、图像去雨、图像颜色增强、图像亮度增强、图像细节增强以及图像动态范围增强。
本申请第四方面提供一种模型训练装置,包括获取单元和处理单元。所述获取单元,用于获取图像样本对,所述图像样本对包括第一图像和所述第一图像对应的增强图像;所述处理单元,用于对所述第一图像进行下采样处理,得到第二图像;所述处理单元,还用于通过第一网络对所述第二图像处理,得到第一特征和第三图像,所述第一特征为所述第一网络提取得到的中间特征,所述第三图像的分辨率与所述第一图像的分辨率相同;所述处理单元,还用于根据所述第三图像和所述第一图像,生成第四图像;所述处理单元,还用于通过第二网络对所述第四图像处理,得到目标图像;所述处理单元,还用于根据所述第一图像对应的增强图像和所述目标图像获取损失函数,所述损失函数用于指示所述图像样本对中的增强图像和所述目标图像之间的差异;所述处理单元,还用于根据所述损失函数对所述第一网络和所述第二网络进行训练,得到训练后的第一网络和训练后的第二网络;其中,所述第一网络和所述第二网络用于图像增强。
可选的,在一种可能的实现方式中,所述处理单元,还用于通过所述第一网络对所述第二图像处理,得到所述第三图像和第一特征,所述第一特征为所述第一网络提取得到的中间特征;所述处理单元,还用于通过第二网络对所述第四图像和所述第一特征处理,得到目标图像。
可选的,在一种可能的实现方式中,所述第一网络包括第一子网络和第二子网络,所述第二网络包括第三子网络和第四子网络;所述处理单元,还用于通过所述第一子网络对所述第二图像处理,得到所述第一特征;所述处理单元,还用于通过所述第二子网络对所述第一特征处理,得到所述第三图像;所述处理单元,还用于通过所述第三子网络对所述第四图像处理,得到第二特征;所述处理单元,还用于根据所述第一特征和所述第二特征,生成第三特征;通过所述第四子网络对所述第三特征处理,得到所述目标图像。
可选的,在一种可能的实现方式中,根据所述第一特征和所述第二特征,生成第三特征,包括:所述处理单元,还用于:对所述第一特征执行上采样处理,得到上采样处理后的第一特征;将所述上采样处理后的第一特征与所述第二特征相加,得到所述第三特征。
可选的,在一种可能的实现方式中,所述第一子网络包括编码器,所述第一子网络用于获取编码特征;所述第二子网络包括解码器,所述第二子网络用于获取解码图像。
可选的,在一种可能的实现方式中,所述编码器包括第一卷积层和通道-空间注意力模块,所述解码器包括第二卷积层和残差模块。
可选的,在一种可能的实现方式中,所述处理单元,还用于:在空间维度对所述第二图像进行分割,得到多个子图像;在通道维度对所述多个子图像进行拼接,得到拼接图像;通过编码器对所述拼接图像进行处理,得到编码特征;在通道维度对所述编码特征进行分割,得到多个子编码特征;在空间维度对所述多个子编码特征进行拼接,得到所述第一特征。
可选的,在一种可能的实现方式中,所述处理单元,还用于对所述第三图像和所述第一图像进行相加处理,得到第四图像。
可选的,在一种可能的实现方式中,所述模型训练装置用于实现以下图像增强任务中的至少一种:图像超分辨率重构、图像去噪、图像去雾、图像去模糊、图像对比度增强、图像去马赛克、图像去雨、图像颜色增强、图像亮度增强、图像细节增强以及图像动态范围增强。
本申请第五方面提供了一种图像处理装置,可以包括处理器,处理器和存储器耦合,存储器存储有程序指令,当存储器存储的程序指令被处理器执行时实现上述第一方面或第二方面所述的方法。对于处理器执行第一方面或第二方面的各个可能实现方式中的步骤,具体均可以参阅第一方面,此处不再赘述。
本申请第六方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行上述第一方面或第二方面所述的方法。
本申请第七方面提供了一种电路***,所述电路***包括处理电路,所述处理电路配置为执行上述第一方面或第二方面所述的方法。
本申请第八方面提供了一种计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面或第二方面所述的方法。
本申请第九方面提供了一种芯片***,该芯片***包括处理器,用于支持服务器或门限值获取装置实现上述第一方面或第二方面中所涉及的功能,例如,发送或处理上述方法中所涉及的数据和/或信息。在一种可能的设计中,所述芯片***还包括存储器,所述存储器,用于保存服务器或通信设备必要的程序指令和数据。该芯片***,可以由芯片构成,也可以包括芯片和其他分立器件。
附图说明
图1为人工智能主体框架的一种结构示意图;
图2为本申请实施例提供的卷积神经网络的示意图;
图3为本申请实施例提供的卷积神经网络的示意图;
图4为本申请实施例提供的一种***架构的示意图;
图5为本申请实施例提供的一种图像增强方法的流程示意图;
图6为本申请实施例提供的一种图像增强方法的示例图;
图7为本申请实施例提供的一种图像增强方法的另一示例图;
图8为本申请实施例提供的一种RCSA的结构示意图;
图9为本申请实施例提供的一种编码器的结构示意图;
图10为本申请实施例提供的一种残差模块的结构示意图;
图11为本申请实施例提供的一种解码器的结构示意图;
图12为本申请实施例提供的一种分区加速方法的流程示意图;
图13为本申请实施例提供的一种网络架构的示意图;
图14为本申请实施例提供的一种分区加速增强模块500的示意图;
图15为本申请实施例提供的一种用于执行图像去模糊的网络架构的示意图;
图16为本申请实施例提供的一种图像增强方法的效果对比示意图;
图17为本申请实施例提供的一种图像去模糊的效果对比示意图;
图18为本申请实施例提供的另一种图像去模糊的效果对比示意图;
图19为本申请实施例提供的又一种图像去模糊的效果对比示意图;
图20为本申请实施例提供的一种模型训练方法的流程示意图;
图21为本申请实施例提供的一种图像处理装置的结构示意图;
图22为本申请实施例提供的一种模型训练装置的结构示意图;
图23为本申请实施例提供的执行设备的一种结构示意图;
图24为本申请实施例提供的芯片的一种结构示意图。
具体实施方式
下面结合本发明实施例中的附图对本发明实施例进行描述。本发明的实施方式部分使用的术语仅用于对本发明的具体实施例进行解释,而非旨在限定本发明。
下面结合附图,对本申请的实施例进行描述。本领域普通技术人员可知,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、***、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
为便于理解,以下将对本申请实施例所涉及的技术术语进行解释。
峰值信噪比(Peak signal-to-noise ratio,PSNR):一个表示信号最大可能功率和影响它的表示精度的破坏性噪声功率的比值的工程术语。在图像处理领域中,PSNR是用于评价信号重建质量的方法。PSNR通常可以简单地通过均方误差进行定义。一般而言,重建图像的PSNR越高,表征该重建图像与真值图像的差距越小。
结构相似形(Strutral similarity,SSIM):一种用以衡量两张图像相似程度的指标。重建图像的SSIM越高,表征该重建图像与真值图像有更相似的结构。
图像增强:指对图像的亮度、颜色、对比度、饱和度、动态范围等进行处理,满足某种特定指标的技术。
图像分辨率:一张图像的分辨率使用图像横向像素量和纵向像素量进行表示。例如:480P表示640×480像素、960P表示1280×960像素。
感受野(Receptive Field):在卷积神经网络中,感受野是指卷积神经网络每一层输出的特征图(feature map)上的像素点在输入图片上映射的区域大小,即特征图上的点是由输入图像中感受野大小区域的所有像素点计算得到。感受野的值越大表示特征图上的点能接触到的原始图像的范围就越大,也意味着能够获得更为全局,语义层次更高的特征。相反,感受野的值越小则表示特征图上的点所包含的特征越趋向局部和细节。
首先对人工智能***总体工作流程进行描述,请参见图1,图1示出的为人工智能主体框架的一种结构示意图,下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。其中,“智能信息链”反映从数据的获取到处理的一列过程。举例来说,可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中,数据经历了“数据—信息—知识—智慧”的凝练过程。“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到***的产业生态过程,反映人工智能为信息技术产业带来的价值。
(1)基础设施。
基础设施为人工智能***提供计算能力支持,实现与外部世界的沟通,并通过基础平台实现支撑。通过传感器与外部沟通;计算能力由智能芯片(CPU、NPU、GPU、ASIC、FPGA等硬件加速芯片)提供;基础平台包括分布式计算框架及网络等相关的平台保障和支持,可以包括云存储和计算、互联互通网络等。举例来说,传感器和外部沟通获取数据,这些数据提供给基础平台提供的分布式计算***中的智能芯片进行计算。
(2)数据。
基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本,还涉及到传统设备的物联网数据,包括已有***的业务数据以及力、位移、液位、温度、湿度等感知数据。
(3)数据处理。
数据处理通常包括数据训练,机器学习,深度学习,搜索,推理,决策等方式。
其中,机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。
推理是指在计算机或智能***中,模拟人类的智能推理方式,依据推理控制策略,利用形式化的信息进行机器思维和求解问题的过程,典型的功能是搜索与匹配。
决策是指智能信息经过推理后进行决策的过程,通常提供分类、排序、预测等功能。
(4)通用能力。
对数据经过上面提到的数据处理后,进一步基于数据处理的结果可以形成一些通用的能力,比如可以是算法或者一个通用***,例如,翻译,文本的分析,计算机视觉的处理,语音识别,图像的识别等等。
(5)智能产品及行业应用。
智能产品及行业应用指人工智能***在各领域的产品和应用,是对人工智能整体解决方案的封装,将智能信息决策产品化、实现落地应用,其应用领域主要包括:智能终端、智能交通、智能医疗、自动驾驶、智慧城市等。
下面从模型训练侧和模型应用侧对本申请提供的方法进行描述:
本申请实施例提供的模型训练方法,具体可以应用于数据训练、机器学习、深度学习等数据处理方法,对训练数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等,最终得到训练好的神经网络模型(如本申请实施例中的目标神经网络模型);并且目标神经网络模型可以用于进行模型推理,具体可以将输入数据输入到目标神经网络模型中,得到输出数据。
由于本申请实施例涉及大量神经网络的应用,为了便于理解,下面先对本申请实施例涉及的相关术语及神经网络等相关概念进行介绍。
(1)神经网络。
神经网络可以是由神经单元组成的,神经单元可以是指以xs(即输入数据)和截距1为输入的运算单元,该运算单元的输出可以为:
其中,s=1、2、……n,n为大于1的自然数,Ws为xs的权重,b为神经单元的偏置。f为神经单元的激活函数(activation functions),用于将非线性特性引入神经网络中,来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入,激活函数可以是sigmoid函数。神经网络是将多个上述单一的神经单元联结在一起形成的网络,即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连,来提取局部接受域的特征,局部接受域可以是由若干个神经单元组成的区域。
(2)卷积神经网络(Convosutionas Neuras Network,CNN)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器,卷积过程可以看作是使用一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层(例如本实施例中的第一卷积层、第二卷积层)。在卷积神经网络的卷积层中,一个神经元可以只与部分邻层神经元连接。一个卷积层中,通常包含若干个特征平面,每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重,这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是:图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置,我们都能使用同样的学习得到的图像信息。在同一卷积层中,可以使用多个卷积核来提取不同的图像信息,一般地,卷积核数量越多,卷积操作反映的图像信息越丰富。
卷积核可以以随机大小的矩阵的形式初始化,在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外,共享权重带来的直接好处是减少卷积神经网络各层之间的连接,同时又降低了过拟合的风险。
具体的,如图2所示,卷积神经网络(CNN)100可以包括输入层110,卷积层/池化层120,其中池化层为可选的,以及神经网络层130。
其中,卷积层/池化层120以及神经网络层130组成的结构可以为本申请中所描述的第一卷积层以及第二卷积层,输入层110和卷积层/池化层120连接,卷积层/池化层120连接与神经网络层130连接,神经网络层130的输出可以输入至激活层,激活层可以对神经网络层130的输出进行非线性化处理。
卷积层/池化层120。卷积层:如图2所示卷积层/池化层120可以包括如示例121-126层,在一种实现中,121层为卷积层,122层为池化层,123层为卷积层,124层为池化层,125为卷积层,126为池化层;在另一种实现方式中,121、122为卷积层,123为池化层,124、125为卷积层,126为池化层。即卷积层的输出可以作为随后的池化层的输入,也可以作为另一个卷积层的输入以继续进行卷积操作。
以卷积层121为例,卷积层121可以包括很多个卷积算子,卷积算子也称为核,其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器,卷积算子本质上可以是一个权重矩阵,这个权重矩阵通常被预先定义,在对图像进行卷积操作的过程中,权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……这取决于步长stride的取值)的进行处理,从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关,需要注意的是,权重矩阵的纵深维度(depthdimension)和输入图像的纵深维度是相同的,在进行卷积运算的过程中,权重矩阵会延伸到输入图像的整个深度。因此,和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出,但是大多数情况下不使用单一权重矩阵,而是应用维度相同的多个权重矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度。不同的权重矩阵可以用来提取图像中不同的特征,例如一个权重矩阵用来提取图像边缘信息,另一个权重矩阵用来提取图像的特定颜色,又一个权重矩阵用来对图像中不需要的噪点进行模糊化……该多个权重矩阵维度相同,经过该多个维度相同的权重矩阵提取后的特征图维度也相同,再将提取到的多个维度相同的特征图合并形成卷积运算的输出。
这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到,通过训练得到的权重值形成的各个权重矩阵可以从输入图像中提取信息,从而帮助卷积神经网络100进行正确的预测。
当卷积神经网络100有多个卷积层的时候,初始的卷积层(例如121)往往提取较多的一般特征,该一般特征也可以称之为低级别的特征;随着卷积神经网络100深度的加深,越往后的卷积层(例如126)提取到的特征越来越复杂,比如高级别的语义之类的特征,语义越高的特征越适用于待解决的问题。
池化层:由于常常需要减少训练参数的数量,因此卷积层之后常常需要周期性的引入池化层,即如图2中120所示例的121-126各层,可以是一层卷积层后面跟一层池化层,也可以是多层卷积层后面接一层或多层池化层。
神经网络层130:在经过卷积层/池化层120的处理后,卷积神经网络100还不足以输出所需要的输出信息。因为如前所述,卷积层/池化层120只会提取特征,并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的类信息或别的相关信息),卷积神经网络100需要利用神经网络层130来生成一个或者一组所需要的类的数量的输出。因此,在神经网络层130中可以包括多层隐含层(如图2所示的131、132至13n)以及输出层140,该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到,例如该任务类型可以包括图像识别,图像分类,图像超分辨率重建等等。
在神经网络层130中的多层隐含层之后,也就是整个卷积神经网络100的最后层为输出层140,该输出层140具有类似分类交叉熵的损失函数,具体用于计算预测误差,一旦整个卷积神经网络100的前向传播(如图2由110至140的传播为前向传播)完成,反向传播(如图2由140至110的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差,以减少卷积神经网络100的损失及卷积神经网络100通过输出层输出的结果和理想结果之间的误差。
需要说明的是,如图2所示的卷积神经网络100仅作为一种卷积神经网络的示例,在具体的应用中,卷积神经网络还可以以其他网络模型的形式存在,例如,如图3所示的多个卷积层/池化层并行,将分别提取的特征均输入给全神经网络层130进行处理。
(3)深度神经网络。
深度神经网络(Deep Neural Network,DNN),也称多层神经网络,可以理解为具有很多层隐含层的神经网络,这里的“很多”并没有特别的度量标准。从DNN按不同层的位置划分,DNN内部的神经网络可以分为三类:输入层,隐含层,输出层。一般来说第一层是输入层,最后一层是输出层,中间的层数都是隐含层。层与层之间是全连接的,也就是说,第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。虽然DNN看起来很复杂,但是就每一层的工作来说,其实并不复杂,简单来说就是如下线性关系表达式:其中,是输入向量,是输出向量,是偏移向量,W是权重矩阵(也称系数),α()是激活函数。每一层仅仅是对输入向量经过如此简单的操作得到输出向量由于DNN层数多,则系数W和偏移向量的数量也就很多了。这些参数在DNN中的定义如下所述:以系数W为例:假设在一个三层的DNN中,第二层的第4个神经元到第三层的第2个神经元的线性系数定义为上标3代表系数W所在的层数,而下标对应的是输出的第三层索引2和输入的第二层索引4。总结就是:第L-1层的第k个神经元到第L层的第j个神经元的系数定义为需要注意的是,输入层是没有W参数的。在深度神经网络中,更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言,参数越多的模型复杂度越高,“容量”也就越大,也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程,其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。
(4)损失函数。
在训练深度神经网络的过程中,因为希望深度神经网络的输出尽可能的接近真正想要预测的值,所以可以通过比较当前网络的预测值和真正想要的目标值,再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然,在第一次更新之前通常会有初始化的过程,即为深度神经网络中的各层预先配置参数),比如,如果网络的预测值高了,就调整权重向量让它预测低一些,不断的调整,直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此,就需要预先定义“如何比较预测值和目标值之间的差异”,这便是损失函数(loss function)或目标函数(objective function),它们是用于衡量预测值和目标值的差异的重要方程。其中,以损失函数举例,损失函数的输出值(loss)越高表示差异越大,那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。
(5)反向传播算法。
卷积神经网络可以采用误差反向传播(back propagation,BP)算法在训练过程中修正初始的超分辨率模型中参数的大小,使得超分辨率模型的重建误差损失越来越小。具体地,前向传递输入信号直至输出会产生误差损失,通过反向传播误差损失信息来更新初始的超分辨率模型中参数,从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动,旨在得到最优的超分辨率模型的参数,例如权重矩阵。
(6)线性操作。
线性是指量与量之间按比例、成直线的关系,在数学上可以理解为一阶导数为常数的函数,线性操作可以但不限于为加和操作、空操作、恒等操作、卷积操作、批归一化BN操作以及池化操作。线性操作也可以称之为线性映射,线性映射需要满足两个条件:齐次性和可加性,任一个条件不满足则为非线性
其中,齐次性是指f(ax)=af(x);可加性是指f(x+y)=f(x)+f(y);例如,f(x)=ax就是线性的。需要注意的是,这里的x、a、f(x)并不一定是标量,可以是向量或者矩阵,形成任意维度的线性空间。如果x、f(x)为n维向量,当a为常数时,就是等价满足齐次性,当a为矩阵时,则等价满足可加性。相对而言,函数图形为直线的不一定符合线性映射,比如f(x)=ax+b,既不满足齐次性也不满足可加性,因此属于非线性映射。
本申请实施例中,多个线性操作的复合可以称之为线性操作,线性操作中包括的各个线性操作也可以称之为子线性操作。
图4是本申请实施例提供的一种***架构的示意图,在图4中,执行设备110配置输入/输出(input/output,I/O)接口112,用于与外部设备进行数据交互,用户可以通过客户设备140向I/O接口112输入数据。
在执行设备120对输入数据进行预处理,或者在执行设备120的计算模块111执行计算等相关的处理(比如进行本申请中神经网络的功能实现)过程中,执行设备120可以调用数据存储***150中的数据、代码等以用于相应的处理,也可以将相应处理得到的数据、指令等存入数据存储***150中。
最后,I/O接口112将处理结果返回给客户设备140,从而提供给用户。
可选地,客户设备140,例如可以是自动驾驶***中的控制单元、手机终端中的功能算法模块,例如该功能算法模块可以用于实现相关的任务。
值得说明的是,训练设备120可以针对不同的目标或称不同的任务,基于不同的训练数据生成相应的目标模型/规则(例如本实施例中的目标神经网络模型),该相应的目标模型/规则即可以用于实现上述目标或完成上述任务,从而为用户提供所需的结果。
在图4中所示情况下,用户可以手动给定输入数据,该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下,客户设备140可以自动地向I/O接口112发送输入数据,如果要求客户设备140自动发送输入数据需要获得用户的授权,则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果,具体的现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端,采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据,并存入数据库130。当然,也可以不经过客户设备140进行采集,而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果,作为新的样本数据存入数据库130。
值得注意的是,图4仅是本申请实施例提供的一种***架构的示意图,图中所示设备、器件、模块等之间的位置关系不构成任何限制,例如,在图4中,数据存储***150相对执行设备110是外部存储器,在其它情况下,也可以将数据存储***150置于执行设备110中。
深度学习方法,尤其是基于CNN的卷积神经网络方法,是近年来人工智能领域发展的关键推动力,在计算机视觉的多种任务取得了令人瞩目的效果。在图像增强领域,基于深度学习的方法都已经超过了传统方法。
目前,深度学***板电脑等消费级终端产品),受运行速度、运行显存和功耗等因素的限制,通常难以使用复杂的深度学习方法进行图像增强。
有鉴于此,本申请实施例提供了一种网络架构,能够同时兼顾较大的感受野和局部较优的卷积处理,且网络规模远小于传统网络。具体地,该网络架构采用了多层网络结构,并由上层网络和下层网络分别处理低分辨率图像和高分辨率图像。并且,上层网络的输出传递给下层网络,由下层网络做进一步的处理。由于上层网络处理低分辨率的图像,因此能够获得较大的感受野,并且由处理高分辨率图像的下层网络对上层网络的输出做进一步处理,从而实现同时兼顾全局信息和局部信息,保证图像增强的质量。通过多层网络的设计,能够在获得较大的感受野的基础上,有效地缩减网络的深度,从而显著地减小网络的规模,使得计算能力较弱的设备上能够部署并运行网络。
本申请实施例所提供的图像增强方法可以应用于终端上,尤其是计算能力较弱的终端。示例性地,该终端例如可以是数码相机、监控摄像装置、手机(mobile phone)、个人电脑(personal computer,PC)、笔记本电脑、服务器、平板电脑、智慧电视、移动互联网设备(mobile internet device,MID)、可穿戴设备,虚拟现实(virtual reality,VR)设备、增强现实(augmented reality,AR)设备、工业控制(industrial control)中的无线终端、无人驾驶(self driving)中的无线终端、远程手术(remote medical surgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端等。为了便于叙述,以下将以图像增强方法应用于终端为例,对本申请实施例所提供的图像增强方法进行介绍。
应理解,本申请实施例中的图像可以为静态图像(或称为静态画面)或动态图像(或称为动态画面),例如RGB图像、黑白图像或灰度图像等。为了便于描述,本申请在下述实施例中将静态图像或动态图像统一称为图像。
可以参阅图5和图6,图5为本申请实施例提供的一种图像增强方法的流程示意图。图6为本申请实施例提供的一种图像增强方法的示例图。如图5所示,该图像增强方法包括以下的步骤501-504。
步骤501,终端获取第一图像和第二图像,所述第二图像为对所述第一图像进行下采样处理得到的。
本实施例中,该图像增强方法可以应用于实现以下图像增强任务中的至少一种:图像超分辨率重构、图像去噪、图像去雾、图像去模糊、图像对比度增强、图像去马赛克、图像去雨、图像颜色增强、图像亮度增强、图像细节增强以及图像动态范围增强。
其中,第一图像为待执行图像增强的图像,例如需要去模糊的图像。终端可以通过对第一图像执行下采样处理,得到第二图像,第二图像的分辨率低于第一图像的分辨率。终端执行下采样处理的方式可以有多种,包括但不限于双线性插值、三线性插值等方法。在实际应用中,终端根据实际需求选择下采样处理的倍数,例如2倍、3倍或者4倍等倍数。示例性地,在第一图像的分辨率为1000×1000的情况下,终端选择的下采样处理倍数为2倍,则终端对第一图像执行下采样处理后,得到的第二图像的分辨率为500×500。
步骤502,终端通过第一网络对所述第二图像处理,得到第一特征和第三图像,所述第一特征为所述第一网络提取得到的中间特征,所述第三图像的分辨率与所述第一图像的分辨率相同。
其中,第一网络可以是用于执行图像增强的网络,例如卷积神经网络。
步骤503,终端根据所述第三图像和所述第一图像,生成第四图像。
本实施例中,在基于第一网络得到第三图像后,终端可以融合第三图像和第一图像中的信息,以生成第四图像,该第四图像包括第三图像的特征信息以及第一图像的特征信息。
可选的,终端通过第一网络得到的第三图像与第一图像的分辨率可以是一样的。终端可以对所述第三图像和所述第一图像进行相加处理,得到第四图像。示例性地,在第一图像和第三图像的分辨率相同的情况下,终端将第一图像和第三图像上相同位置的像素值相加,得到该位置上新的像素值。通过对第一图像和第三图像各个位置上的像素值进行相加,从而得到第四图像。
步骤504,终端通过第二网络对所述第四图像和第一特征处理,得到目标图像。
其中,所述第二网络可以是用于执行图像增强的网络,例如卷积神经网络。可选的,所述第二网络的结构可以是与第一网络的结构类似或者相同。
本实施例中,由于对第一图像执行了下采样处理,并且由第一网络对下采样处理得到的第二图像进行处理,能够使得第一网络提取得到的特征图具有更大的感受野,即第一网络能够捕获到更多的全局特征信息。第一网络输出的图像信息与第一图像融合后,再输入至第二网络中进行处理,使得第二网络能够基于第一网络全局特征信息捕获局部的特征信息,从而实现同时兼顾全局特征信息和局部特征信息,保证增强图像的质量。
一般来说,传统网络中通过横向增加网络深度的方式来获得较大的感受野,这种方式通常需要很深的网络深度(例如上百层卷积层)才能够获得理想的感受野。而本实施例中通过纵向增加网络层级的方式来获得较大的感受野,仅需数层网络即可获得较大的感受野,能够有效地缩减网络的深度,显著地减小网络的规模,使得计算能力较弱的设备上能够部署并运行用于图像增强的网络。
示例性地,可以参阅图7,图7为本申请实施例提供的一种图像增强方法的另一示例图。如图7所示,所述第一网络包括第一子网络和第二子网络。终端通过第一网络对所述第二图像处理的过程包括:终端通过所述第一子网络对所述第二图像处理,得到第一特征,第一特征即为第一子网络提取得到的中间特征;终端通过所述第二子网络对所述第一特征处理,得到所述第三图像。
所述第二网络包括第三子网络和第四子网络。终端通过第二网络对所述第四图像处理的过程包括:终端通过所述第三子网络对所述第四图像处理,得到第二特征,第二特征即为第三子网络提取得到的子特征。终端根据所述第一特征和所述第二特征,生成第三特征;终端通过所述第四子网络对所述第三特征处理,得到所述目标图像。其中,终端可以是将所述第一特征和所述第二特征融合,以得到第三特征。由于第一特征是基于较低分辨率的第二图像提取得到的,而第二特征是基于较高分辨率的第四图像提取得到的,因此终端在融合所述第一特征和第二特征之前,可以先对第一特征执行上采样处理。例如,终端对所述第一特征执行上采样处理,得到上采样特征,然后终端将上采样特征和所述第二特征执行相加操作,得到第三特征。
本方案中,通过融合上层网络与下层网络提取的特征级别的信息,以及上下层网络间的图像级别的信息,使得下层网络在处理局部信息的同时能够尽可能地兼顾上层网络得到的特征信息,促使各层网络深度设计尽可能简单。
可选的,所述第一网络可以采用编码器-解码器结构来实现。具体地,所述第一子网络包括编码器,所述第一子网络用于通过编码器获取编码特征;所述第二子网络包括解码器,所述第二子网络用于通过解码器获取解码图像。一般来说,编码器能够用于执行特征提取和压缩,通过对输入图像进行特征提取,并将提取到的特征进行压缩,得到编码特征。解码器能够用于执行特征还原操作,通过对编码特征执行上采样以及特征还原,得到解码图像。
示例性地,所述编码器可以包括第一卷积层和通道-空间注意力模块(ResidualChannel Spatial Attention,RCSA)。例如,在所述编码器中,依次连接的第一卷积层和RCSA构成一个编码单元,多个编码单元依次连接以构成所述编码器。可以参阅图8和图9,图8为本申请实施例提供的一种RCSA的结构示意图;图9为本申请实施例提供的一种编码器的结构示意图。如图9所示,编码器中包括三个依次连接的编码单元,每个编码单元包括第一卷积层和RCSA。
示例性地,所述解码器包括第二卷积层和残差模块。例如,在所述解码器中,依次连接的第二卷积层和残差模块构成一个解码单元,多个解码单元依次连接以构成所述解码器。可以参阅图10和图11,图10为本申请实施例提供的一种残差模块的结构示意图;图11为本申请实施例提供的一种解码器的结构示意图。如图11所示,解码器中包括三个依次连接的解码单元,每个解码单元包括残差模块和第二卷积层。
在一个可能的实施例中,为了提高第一子网络和第二子网络的执行效率,本实施例中还提供了一种分区加速方法,能够加快第一子网络和第二子网络的处理速度。在该分区方法中,将输入在空间维度分割为多个不重叠的区域,将分割后的区域在通道维度进行拼接,然后再送入编码器或解码器中并行计算。在获得编码器输出的编码特征或解码器输出的解码特征后,再在通道维度分解进而在空间维度进行维度恢复。通过在多个分区对多个区域进行并行计算,以减少网络的运行速度。
示例性地,所述终端通过所述第一子网络对所述第二图像处理,得到第一特征,包括:终端在空间维度对所述第二图像进行分割,得到互不重叠的多个子图像。终端在通道维度对所述多个子图像进行拼接,得到拼接图像,拼接图像的通道数为第二图像的通道数的N倍。终端通过编码器对所述拼接图像进行处理,得到编码特征。终端在通道维度对所述编码特征进行分割,得到多个子编码特征。其中,子编码特征的数量与子图像的数量相同。终端在空间维度对所述多个子编码特征进行拼接,得到所述第一特征。
例如,假设输入第一子网络的第二图像表示为H×W×C。其中,H和W属于空间维度,H表示第二图像的宽度(Width),W表示第二图像的高度(Height);C属于通道维度,C表示第二图像的通道数。例如,第二图像为RGB图像时,第二图像的通道数为3。
具体地,可以参阅图12,图12为本申请实施例提供的一种分区加速方法的流程示意图。如图12所示,终端通过分区加速方法处理第二图像H×W×C的过程包括以下的步骤S1-S5。
S1、终端在空间维度(H、W维度)对第二图像H×W×C进行不重叠分割,得到多个互不重叠的子图像。例如,将第二图像H×W×C分割为N=2n个区域,第二图像的H维度分割次,第二图像的W维度分割次。例如,如图12中所示,终端将图像分割成四个子图像,得到子图像1、子图像2、子图像3和子图像4。
其中,floor表示向下取整,N=Nh×Nw。这样,分割得到的每个子图像的维度变为H/Nh×W/Nw×C。
S2、终端将得到的多个子图像在通道维度(即C维度)进行拼接,得到拼接图像。其中,由于拼接图像是由N个子图像在通道维度拼接得到的,因此拼接图像的维度为H/Nh×W/Nw×NC。
S3、终端将拼接图像送入编码器中进行编码处理,获得编码特征,该编码特征的维度为其中,编码器所输出的编码特征的维度与编码器的结构相关。在实际应用中,可以根据实际需求设定编码器的结构,从而确定编码特征的维度。
本实施例中,通过引入分区加速方法来对加快编码器和解码器的处理速度,能够在保证增强图像质量不受影响的前提下,提高神经网络的运行效率,在特定场景中取得与原始方法增强质量相当且满足实时处理的效果。此外,在引入分区加速方法后,用于处理不同子图像的分区拥有自学习的差异化卷积核,能够实现差异化学习,从而使得图像局部增强更优。
以上所介绍的实施例中是以网络架构中包括两层网络(即第一网络和第二网络)为例,对本申请实施例所提供的图像增强方法进行了介绍。在实际应用中,网络架构中所包括的网络的层数还可以是大于2层,例如网络的层数为3层或4层等层数。为便于理解,以下将介绍在网络架构包括n层(n>2)网络时,本申请实施例提供的图像增强方法的具体流程。
可以参阅图13,图13为本申请实施例提供的一种网络架构的示意图。
如图13所示,用于执行图像增强方法的网络架构中包括输入图像处理单元100,编码器单元组200,编码特征处理单元组300,解码器单元组400。其中,编码器单元组200和解码器单元组400中还包括有适配的分区加速增强模块500。可以参阅图14,图14为本申请实施例提供的一种分区加速增强模块500的示意图。如图14所示,分区加速增强模块500包括空间维度分割单元、通道维度拼接单元、编码器/解码器、通道维度分割单元和空间维度拼接单元。
在图14中,编码器单元组200包括多个编码器单元,编码特征处理单元组300包括多个编码特征处理单元,解码器单元组400包括多个解码器单元。每层网络包括一个编码器单元、一个编码特征处理单元和一个解码器单元;因此编码器单元组200,编码特征处理单元组300,解码器单元组400构成了多层网络。
在执行图像增强的过程中,输入图像处理单元100接收原始图像I,并采用不同的倍数对原始图像I执行下采样处理,得到多分辨率的输入图像组{I2,I3,…,In}。其中,图像I_2至图像I_n分辨率逐渐递减。例如,假设原始图像I的分辨率为H×W,图像I_2的分辨率可以为H/2×W/2,图像I_n的分辨率可以为H/n×W/n。对于网络架构中的每一层网络,每一层网络的输入图像的分辨率都不相同。并且,从顶层网络至底层网络,输入图像的分辨率逐渐增大。
如图14所示,顶层网络的输入为图像In,图像In依次经过顶层网络中的编码器单元、编码特征处理单元以及解码器单元,输出图像On。其中,输出图像On的分辨率为H/(n-1)×W/(n-1),即输出图像On的分辨率与下一层网络对应的图像In-1的分辨率相同。
在顶层网络输出图像On后,输入图像处理单元100将输出图像On与输入图像In-1相加,并将相加后得到的残差图像输入第二层网络中。在第二层网络中,编码器单元对输入图像进行处理后,得到编码特征,并传给第二层网络的编码特征处理单元。第二层网络中的编码特征处理单元获取第二层网络的编码器处理单元得到的编码特征以及上一层网络(即顶层网络)的编码器处理单元得到的编码特征,并将上一层得到的编码特征执行上采样处理后,将上采样处理得到的特征和当前层得到的编码特征与相加,得到相加后的残差特征。第二层网络中的解码器单元接收并处理相加后的编码特征,得到输出图像On-1。
类似地,在除顶层网络之外的网络中,该层网络中的编码器单元的输入为该层网络的输入图像与上一层网络的输出图像相加后得到的残差图像。该层网络中的编码特征处理单元的输入则是该层网络中的编码器单元输出的编码特征与上一层网络中的编码器单元输出的且经过上采样处理的编码特征相加后得到的残差特征。
这样一来,通过各层网络依次执行图像处理,直至获得底层网络输出最终的输出图像O。
为了测试本申请实施例提供的图像增强方法的增强效果,本申请实施例中以图像去模糊为图像增强任务,采用本申请实施例提供的图像增强方法测试了图像去模糊的效果。
可以参阅图15,图15为本申请实施例提供的一种用于执行图像去模糊的网络架构的示意图。其中,图15中各层网络的位置与图13示意相反,但处理流程一致。图13中是从上层网络往下层网络的方向进行图像处理,图15则是从下层网络往上层网络的方向进行图像处理,但实际上都是从低分辨率图像往高分辨率图像的方向进行处理。
在图15中,用于执行图像去模糊的网络架构一共包括4层网络。从底层网络到顶层网络的方向,每层网络所处理的图像的分辨率以2的倍数递增。并且每层网络包括一个编码器单元、一个编码特征处理单元和一个解码器单元。其中,编码器单元包括三个依次连接的编码单元,每个编码单元包括卷积层和RCSA。解码器单元中则包括三个依次连接的解码单元,每个解码单元包括残差模块和卷积层。
此外,除了处理原始分辨率图像的顶层网络之后,其他的各层网络的编码器单元和解码器单元中包括有分区加速增强模块,用于加快特征处理的速度。其中,由于顶层网络中所处理的图像为原始分辨率,因此为了保证图像处理的连贯性,避免对图像分块后导致图像处理存在割裂,则可以不在顶层网络中采用分区加速增强模块。
可以参阅图16,图16为本申请实施例提供的一种图像增强方法的效果对比示意图。图16中给出了本实施例所提供的图像增强方法与相关技术中的多个主流算法的对比结果。在图16中,纵轴分别代表高分辨率(High Definition,HD)和4K分辨率下的算法PSNR。其中,HD分辨率表示分辨率为720×1280,4K分辨率表示分辨率为3840×2160。横轴代表算法运行时间(Runtime)。由图16可知,本实施例所提供的图像增强方法对应的PSNR高于其他对比算法,且运行时间也远小于其他对比算法。
此外,本次测试在多个数据集上进行了测试。具体地,可以参阅图17-图19,图17为本申请实施例提供的一种图像去模糊的效果对比示意图;图18为本申请实施例提供的另一种图像去模糊的效果对比示意图;图19为本申请实施例提供的又一种图像去模糊的效果对比示意图。
如图17所示,图17中的(a)表示输入图像,图17中的(b)表示真值图像,图17中的(c)-(j)表示相关技术的算法处理得到的图像;图17中的(k)表示本实施例的算法处理得到的图像。通过对比图17中的图像可知,本实施例提供的算法处理具有更好的去模糊效果,得到的图像中的文字边缘和墙面更加清晰,并且图像具有更高的PSNR和SSIM指标。
类似地,图18中的(a)表示输入图像,图18中的(b)表示真值图像,图18中的(c)-(j)表示相关技术的算法处理得到的图像;图18中的(k)表示本实施例的算法处理得到的图像。通过对比图18中的图像可知,本实施例提供的算法处理具有更好的去模糊效果,得到的图像中的墙面纹理细节更加突出以及清晰,并且图像具有更高的PSNR和SSIM指标。
如图19所示,图19中的(a)表示输入图像,图19中的(b)表示真值图像,图19中的(c)-(j)表示相关技术的算法处理得到的图像;图19中的(k)表示本实施例的算法处理得到的图像。通过对比图19中的图像可知,本实施例提供的算法处理具有更好的去模糊效果,得到的图像中的房顶瓦片纹理更加清晰、线条真实,墙面细节更加突出、清晰。
可以参阅图20,图20为本申请实施例提供的一种模型训练方法的流程示意图。如图20所示,本申请实施例提供的一种模型训练方法,包括步骤2001至步骤2007。
步骤2001,获取图像样本对,所述图像样本对包括第一图像和所述第一图像对应的增强图像。
本实施例中,在图像训练装置进行模型训练之前,可以获取用于训练的图像样本对。其中,第一图像和所述第一图像对应的增强图像为同一场景下的两张图像,且所述第一图像对应的增强图像的图像质量高于所述第一图像。图像质量指的是颜色、亮度、饱和度、对比度、动态范围、分辨率、纹理细节、清晰度等中的一种或多种。例如,第一图像为模糊的图像,所述第一图像对应的增强图像为去模糊后的图像。
步骤2002,对所述第一图像进行下采样处理,得到第二图像。
步骤2003,通过第一网络对所述第二图像处理,得到第一特征和第三图像,所述第一特征为所述第一网络提取得到的中间特征,所述第三图像的分辨率与所述第一图像的分辨率相同。
步骤2004,根据所述第三图像和所述第一图像,生成第四图像。
步骤2005,通过第二网络对所述第四图像处理,得到目标图像。
其中,步骤2002至步骤2005与上述的步骤501至步骤504类似,具体可参考步骤501至步骤504,在此不再赘述。
步骤2006,根据所述第一图像对应的增强图像和所述目标图像获取损失函数,所述损失函数用于指示所述图像样本对中的增强图像和所述目标图像之间的差异。
本实施例中,在得到目标图像之后,可以求取所述第一图像对应的增强图像和所述目标图像对应的损失函数,以确定所述图像样本对中的增强图像和所述目标图像之间的差异。
在一种可能的实现方式中,可以是基于重构损失函数(reconstruction loss)和梯度损失函数(gradient loss)来获取所述增强图像和所述目标图像对应的损失函数,以保证增强后的图像能够满足客观指标以及主观指标要求。示例性地,重构损失函数可以是使用L1范式。梯度损失函数可以是表示增强图像和目标图像在x/y方向上的平均梯度的损失。
步骤2007,根据所述损失函数对所述第一网络和所述第二网络进行训练,得到训练后的第一网络和训练后的第二网络。
本实施例中,在得到损失函数后,可以基于损失函数对所述待训练图像处理模型的模型参数进行更新,直至满足模型训练条件(例如损失函数的值小于预设值),得到训练后的第一网络和训练后的第二网络。其中,训练后的第一网络和训练后的第二网络可以参照图5对应的实施例中的描述,这里不再赘述。
可选的,在一种可能的实现方式中,所述第一网络包括第一子网络和第二子网络,所述第二网络包括第三子网络和第四子网络;通过第一网络对所述第二图像处理,得到第一特征和第三图像,包括:通过所述第一子网络对所述第二图像处理,得到第一特征;通过所述第二子网络对所述第一特征处理,得到所述第三图像;通过第二网络对所述第四图像处理,得到目标图像,包括:通过所述第三子网络对所述第四图像处理,得到第二特征;根据所述第一特征和所述第二特征,生成第三特征;通过所述第四子网络对所述第三特征处理,得到所述目标图像。
可选的,在一种可能的实现方式中,所述第一子网络包括编码器,所述第一子网络用于获取编码特征;所述第二子网络包括解码器,所述第二子网络用于获取解码图像。
可选的,在一种可能的实现方式中,所述编码器包括第一卷积层和通道-空间注意力模块,所述解码器包括第二卷积层和残差模块。
可选的,在一种可能的实现方式中,所述通过所述第一子网络对所述第二图像处理,得到第一特征,包括:在空间维度对所述第二图像进行分割,得到多个子图像;在通道维度对所述多个子图像进行拼接,得到拼接图像;通过编码器对所述拼接图像进行处理,得到编码特征;在通道维度对所述编码特征进行分割,得到多个子编码特征;在空间维度对所述多个子编码特征进行拼接,得到所述第一特征。
可选的,在一种可能的实现方式中,所述根据所述第三图像和所述第一图像,生成第四图像,包括:对所述第三图像和所述第一图像进行相加处理,得到第四图像。
可选的,在一种可能的实现方式中,所述模型的训练方法用于实现以下图像增强任务中的至少一种:图像超分辨率重构、图像去噪、图像去雾、图像去模糊、图像对比度增强、图像去马赛克、图像去雨、图像颜色增强、图像亮度增强、图像细节增强以及图像动态范围增强。
可以参阅图21,图21为本申请实施例提供的一种图像处理装置的结构示意图。如图21所示,本申请实施例提供的一种图像处理装置,包括:获取单元2101和处理单元2102。所述获取单元2101,用于获取第一图像和第二图像,所述第二图像为对所述第一图像进行下采样处理得到的;所述处理单元2102,用于通过第一网络对所述第二图像处理,得到第一特征和第三图像;所述处理单元2102,还用于根据所述第三图像和所述第一图像,生成第四图像;所述处理单元2102,还用于通过第二网络对所述第四图像处理,得到目标图像;其中,所述第一网络和所述第二网络用于图像增强。
可选的,在一种可能的实现方式中,所述处理单元2102,还用于通过所述第一网络对所述第二图像处理,得到所述第三图像和第一特征,所述第一特征为所述第一网络提取得到的中间特征;所述处理单元2102,还用于通过第二网络对所述第四图像和所述第一特征处理,得到目标图像。
可选的,在一种可能的实现方式中,所述第一网络包括第一子网络和第二子网络,所述第二网络包括第三子网络和第四子网络;所述处理单元2102,还用于通过所述第一子网络对所述第二图像处理,得到第一特征;所述处理单元2102,还用于通过所述第二子网络对所述第一特征处理,得到所述第三图像;所述处理单元2102,还用于通过所述第三子网络对所述第四图像处理,得到第二特征;所述处理单元2102,还用于根据所述第一特征和所述第二特征,生成第三特征;所述处理单元2102,还用于通过所述第四子网络对所述第三特征处理,得到所述目标图像。
可选的,在一种可能的实现方式中,所述第一子网络包括编码器,所述第一子网络用于获取编码特征;所述第二子网络包括解码器,所述第二子网络用于获取解码图像。
可选的,在一种可能的实现方式中,所述编码器包括第一卷积层和通道-空间注意力模块,所述解码器包括第二卷积层和残差模块。
可选的,在一种可能的实现方式中,所述处理单元2102,还用于在空间维度对所述第二图像进行分割,得到多个子图像;所述处理单元2102,还用于在通道维度对所述多个子图像进行拼接,得到拼接图像;所述处理单元2102,还用于通过编码器对所述拼接图像进行处理,得到编码特征;所述处理单元2102,还用于在通道维度对所述编码特征进行分割,得到多个子编码特征;所述处理单元2102,还用于在空间维度对所述多个子编码特征进行拼接,得到所述第一特征。
可选的,在一种可能的实现方式中,所述处理单元2102,还用于对所述第三图像和所述第一图像进行相加处理,得到第四图像。
可选的,在一种可能的实现方式中,所述图像处理装置用于实现以下图像增强任务中的至少一种:图像超分辨率重构、图像去噪、图像去雾、图像去模糊、图像对比度增强、图像去马赛克、图像去雨、图像颜色增强、图像亮度增强、图像细节增强以及图像动态范围增强。
可以参阅图22,图22为本申请实施例提供的一种模型训练装置的结构示意图。如图22所示,本申请实施例提供的一种模型训练装置,包括:获取单元2201和处理单元2202。所述获取单元2201,用于获取图像样本对,所述图像样本对包括第一图像和所述第一图像对应的增强图像;所述处理单元2202,用于对所述第一图像进行下采样处理,得到第二图像;所述处理单元2202,还用于通过第一网络对所述第二图像处理,得到第一特征和第三图像,所述第一特征为所述第一网络提取得到的中间特征,所述第三图像的分辨率与所述第一图像的分辨率相同;所述处理单元2202,还用于根据所述第三图像和所述第一图像,生成第四图像;所述处理单元2202,还用于通过第二网络对所述第四图像处理,得到目标图像;所述处理单元2202,还用于根据所述第一图像对应的增强图像和所述目标图像获取损失函数,所述损失函数用于指示所述图像样本对中的增强图像和所述目标图像之间的差异;所述处理单元2202,还用于根据所述损失函数对所述第一网络和所述第二网络进行训练,得到训练后的第一网络和训练后的第二网络;其中,所述第一网络和所述第二网络用于图像增强。
可选的,在一种可能的实现方式中,所述处理单元2202,还用于通过所述第一网络对所述第二图像处理,得到所述第三图像和第一特征,所述第一特征为所述第一网络提取得到的中间特征;所述处理单元2202,还用于通过第二网络对所述第四图像和所述第一特征处理,得到目标图像。
可选的,在一种可能的实现方式中,所述第一网络包括第一子网络和第二子网络,所述第二网络包括第三子网络和第四子网络;所述处理单元2202,还用于通过所述第一子网络对所述第二图像处理,得到第一特征;所述处理单元2202,还用于通过所述第二子网络对所述第一特征处理,得到所述第三图像;所述处理单元2202,还用于通过所述第三子网络对所述第四图像处理,得到第二特征;所述处理单元2202,还用于根据所述第一特征和所述第二特征,生成第三特征;通过所述第四子网络对所述第三特征处理,得到所述目标图像。
可选的,在一种可能的实现方式中,所述第一子网络包括编码器,所述第一子网络用于获取编码特征;所述第二子网络包括解码器,所述第二子网络用于获取解码图像。
可选的,在一种可能的实现方式中,所述编码器包括第一卷积层和通道-空间注意力模块,所述解码器包括第二卷积层和残差模块。
可选的,在一种可能的实现方式中,所述处理单元2202,还用于:在空间维度对所述第二图像进行分割,得到多个子图像;在通道维度对所述多个子图像进行拼接,得到拼接图像;通过编码器对所述拼接图像进行处理,得到编码特征;在通道维度对所述编码特征进行分割,得到多个子编码特征;在空间维度对所述多个子编码特征进行拼接,得到所述第一特征。
可选的,在一种可能的实现方式中,所述处理单元2202,还用于对所述第三图像和所述第一图像进行相加处理,得到第四图像。
可选的,在一种可能的实现方式中,所述模型训练装置用于实现以下图像增强任务中的至少一种:图像超分辨率重构、图像去噪、图像去雾、图像去模糊、图像对比度增强、图像去马赛克、图像去雨、图像颜色增强、图像亮度增强、图像细节增强以及图像动态范围增强。
接下来介绍本申请实施例提供的一种执行设备,请参阅图23,图23为本申请实施例提供的执行设备的一种结构示意图,执行设备2300具体可以表现为手机、平板、笔记本电脑、智能穿戴设备、服务器等,此处不做限定。其中,执行设备2300上可以部署有图23对应实施例中所描述的数据处理装置,用于实现图23对应实施例中数据处理的功能。具体的,执行设备2300包括:接收器2301、发射器2302、处理器2303和存储器2304(其中执行设备2300中的处理器2303的数量可以一个或多个,图23中以一个处理器为例),其中,处理器2303可以包括应用处理器23031和通信处理器23032。在本申请的一些实施例中,接收器2301、发射器2302、处理器2303和存储器2304可通过总线或其它方式连接。
存储器2304可以包括只读存储器和随机存取存储器,并向处理器2303提供指令和数据。存储器2304的一部分还可以包括非易失性随机存取存储器(non-volatile randomaccess memory,NVRAM)。存储器2304存储有处理器和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。
处理器2303控制执行设备的操作。具体的应用中,执行设备的各个组件通过总线***耦合在一起,其中总线***除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都称为总线***。
上述本申请实施例揭示的方法可以应用于处理器2303中,或者由处理器2303实现。处理器2303可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器2303中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器2303可以是通用处理器、数字信号处理器(digital signal processing,DSP)、微处理器或微控制器,还可进一步包括专用集成电路(application specific integratedcircuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。该处理器2303可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器2304,处理器2303读取存储器2304中的信息,结合其硬件完成上述方法的步骤。
接收器2301可用于接收输入的数字或字符信息,以及产生与执行设备的相关设置以及功能控制有关的信号输入。发射器2302可用于通过第一接口输出数字或字符信息;发射器2302还可用于通过第一接口向磁盘组发送指令,以修改磁盘组中的数据;发射器2302还可以包括显示屏等显示设备。
本申请实施例中,在一种情况下,处理器2303,用于执行图6对应实施例中的执行设备执行的图像增强方法。
本申请实施例中还提供一种包括计算机程序产品,当其在计算机上运行时,使得计算机执行如前述执行设备所执行的步骤,或者,使得计算机执行如前述训练设备所执行的步骤。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有用于进行信号处理的程序,当其在计算机上运行时,使得计算机执行如前述执行设备所执行的步骤,或者,使得计算机执行如前述训练设备所执行的步骤。
本申请实施例提供的执行设备、训练设备或终端设备具体可以为芯片,芯片包括:处理单元和通信单元,所述处理单元例如可以是处理器,所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令,以使执行设备内的芯片执行上述实施例描述的图像增强方法,或者,以使训练设备内的芯片执行上述实施例描述的图像增强方法。可选地,所述存储单元为所述芯片内的存储单元,如寄存器、缓存等,所述存储单元还可以是所述无线接入设备端内的位于所述芯片外部的存储单元,如只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)等。
具体的,请参阅图24,图24为本申请实施例提供的芯片的一种结构示意图,所述芯片可以表现为神经网络处理器NPU 2400,NPU 2400作为协处理器挂载到主CPU(Host CPU)上,由Host CPU分配任务。NPU的核心部分为运算电路2403,通过控制器2404控制运算电路2403提取存储器中的矩阵数据并进行乘法运算。
在一些实现中,运算电路2403内部包括多个处理单元(Process Engine,PE)。在一些实现中,运算电路2403是二维脉动阵列。运算电路2403还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中,运算电路2403是通用的矩阵处理器。
举例来说,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路从权重存储器2402中取矩阵B相应的数据,并缓存在运算电路中每一个PE上。运算电路从输入存储器2401中取矩阵A数据与矩阵B进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器(accumulator)2408中。
统一存储器2406用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(Direct Memory Access Controller,DMAC)2405,DMAC被搬运到权重存储器2402中。输入数据也通过DMAC被搬运到统一存储器2406中。
BIU为Bus Interface Unit即,总线接口单元2424,用于AXI总线与DMAC和取指存储器(Instruction Fetch Buffer,IFB)2409的交互。
总线接口单元2424(Bus Interface Unit,简称BIU),用于取指存储器2409从外部存储器获取指令,还用于存储单元访问控制器2405从外部存储器获取输入矩阵A或者权重矩阵B的原数据。
DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器2406或将权重数据搬运到权重存储器2402中或将输入数据数据搬运到输入存储器2401中。
向量计算单元2407包括多个运算处理单元,在需要的情况下,对运算电路2403的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。主要用于神经网络中非卷积/全连接层网络计算,如Batch Normalization(批归一化),像素级求和,对特征平面进行上采样等。
在一些实现中,向量计算单元2407能将经处理的输出的向量存储到统一存储器2406。例如,向量计算单元2407可以将线性函数;或,非线性函数应用到运算电路2403的输出,例如对卷积层提取的特征平面进行线性插值,再例如累加值的向量,用以生成激活值。在一些实现中,向量计算单元2407生成归一化的值、像素级求和的值,或二者均有。在一些实现中,处理过的输出的向量能够用作到运算电路2403的激活输入,例如用于在神经网络中的后续层中的使用。
控制器2404连接的取指存储器(instruction fetch buffer)2409,用于存储控制器2404使用的指令;
统一存储器2406,输入存储器2401,权重存储器2402以及取指存储器2409均为On-Chip存储器。外部存储器私有于该NPU硬件架构。
其中,上述任一处提到的处理器,可以是一个通用中央处理器,微处理器,ASIC,或一个或多个用于控制上述程序执行的集成电路。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本申请提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,训练设备,或者网络设备等)执行本申请各个实施例所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
Claims (20)
1.一种图像增强方法,其特征在于,包括:
获取第一图像和第二图像,所述第二图像为对所述第一图像进行下采样处理得到的;
通过第一网络对所述第二图像处理,得到第一特征和第三图像,所述第一特征为所述第一网络提取得到的中间特征,所述第三图像的分辨率与所述第一图像的分辨率相同;
根据所述第三图像和所述第一图像,生成第四图像;
通过第二网络对所述第四图像和所述第一特征处理,得到目标图像;
其中,所述第一网络和所述第二网络用于图像增强。
2.根据权利要求1所述的方法,其特征在于,所述第一网络包括第一子网络和第二子网络,所述第二网络包括第三子网络和第四子网络;
通过第一网络对所述第二图像处理,得到第一特征和第三图像,包括:
通过所述第一子网络对所述第二图像处理,得到所述第一特征;
通过所述第二子网络对所述第一特征处理,得到所述第三图像;
通过第二网络对所述第四图像处理,得到目标图像,包括:
通过所述第三子网络对所述第四图像处理,得到第二特征;
根据所述第一特征和所述第二特征,生成第三特征;
通过所述第四子网络对所述第三特征处理,得到所述目标图像。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一特征和所述第二特征,生成第三特征,包括:
对所述第一特征执行上采样处理,得到上采样处理后的第一特征;
将所述上采样处理后的第一特征与所述第二特征相加,得到所述第三特征。
4.根据权利要求2或3所述的方法,其特征在于,所述第一子网络和所述第二子网络包括卷积神经网络。
5.根据权利要求3至4任意一项所述的方法,其特征在于,所述通过所述第一子网络对所述第二图像处理,得到第一特征,包括:
在空间维度对所述第二图像进行分割,得到多个子图像;
在通道维度对所述多个子图像进行拼接,得到拼接图像;
通过第一卷积神经网络对所述拼接图像进行处理,得到处理特征;
在通道维度对所述处理特征进行分割,得到多个子处理特征;
在空间维度对所述多个子处理特征进行拼接,得到所述第一特征。
6.根据权利要求3至5任意一项所述的方法,其特征在于,所述通过所述第二子网络对所述第一特征处理,得到所述第三图像,包括:
在空间维度对所述第一特征进行分割,得到多个子特征;
在通道维度对所述多个子特征进行拼接,得到拼接特征;
通过第二卷积神经网络对所述拼接特征进行处理,得到处理图像;
在通道维度对所述处理图像进行分割,得到多个子处理图像;
在空间维度对所述多个子处理图像进行拼接,得到所述第三图像。
7.根据权利要求1至6任意一项所述的方法,其特征在于,所述根据所述第三图像和所述第一图像,生成第四图像,包括:
对所述第三图像和所述第一图像进行相加处理,得到第四图像。
8.根据权利要求1至7任意一项所述的方法,其特征在于,所述方法用于实现以下图像增强任务中的至少一种:图像超分辨率重构、图像去噪、图像去雾、图像去模糊、图像对比度增强、图像去马赛克、图像去雨、图像颜色增强、图像亮度增强、图像细节增强以及图像动态范围增强。
9.一种模型的训练方法,其特征在于,包括:
获取图像样本对,所述图像样本对包括第一图像和所述第一图像对应的增强图像;
对所述第一图像进行下采样处理,得到第二图像;
通过第一网络对所述第二图像处理,得到第一特征和第三图像,所述第一特征为所述第一网络提取得到的中间特征,所述第三图像的分辨率与所述第一图像的分辨率相同;
根据所述第三图像和所述第一图像,生成第四图像;
通过第二网络对所述第四图像和所述第一特征处理,得到目标图像;
根据所述第一图像对应的增强图像和所述目标图像获取损失函数,所述损失函数用于指示所述图像样本对中的增强图像和所述目标图像之间的差异;
根据所述损失函数对所述第一网络和所述第二网络进行训练,得到训练后的第一网络和训练后的第二网络;
其中,所述第一网络和所述第二网络用于图像增强。
10.根据权利要求9所述的方法,其特征在于,所述第一网络包括第一子网络和第二子网络,所述第二网络包括第三子网络和第四子网络;
通过第一网络对所述第二图像处理,得到第一特征和第三图像,包括:
通过所述第一子网络对所述第二图像处理,得到所述第一特征;
通过所述第二子网络对所述第一特征处理,得到所述第三图像;
通过第二网络对所述第四图像处理,得到目标图像,包括:
通过所述第三子网络对所述第四图像处理,得到第二特征;
根据所述第一特征和所述第二特征,生成第三特征;
通过所述第四子网络对所述第三特征处理,得到所述目标图像。
11.根据权利要求10所述的方法,其特征在于,所述根据所述第一特征和所述第二特征,生成第三特征,包括:
对所述第一特征执行上采样处理,得到上采样处理后的第一特征;
将所述上采样处理后的第一特征与所述第二特征相加,得到所述第三特征。
12.根据权利要求11所述的方法,其特征在于,所述第一子网络和所述第二子网络包括卷积神经网络。
13.根据权利要求11至12任意一项所述的方法,其特征在于,所述通过所述第一子网络对所述第二图像处理,得到第一特征,包括:
在空间维度对所述第二图像进行分割,得到多个子图像;
在通道维度对所述多个子图像进行拼接,得到拼接图像;
通过编码器对所述拼接图像进行处理,得到编码特征;
在通道维度对所述编码特征进行分割,得到多个子编码特征;
在空间维度对所述多个子编码特征进行拼接,得到所述第一特征。
14.根据权利要求11至13任意一项所述的方法,其特征在于,所述通过所述第二子网络对所述第一特征处理,得到所述第三图像,包括:
在空间维度对所述第一特征进行分割,得到多个子特征;
在通道维度对所述多个子特征进行拼接,得到拼接特征;
通过第二卷积神经网络对所述拼接特征进行处理,得到处理图像;
在通道维度对所述处理图像进行分割,得到多个子处理图像;
在空间维度对所述多个子处理图像进行拼接,得到所述第三图像。
15.根据权利要求9至14任意一项所述的方法,其特征在于,所述根据所述第三图像和所述第一图像,生成第四图像,包括:
对所述第三图像和所述第一图像进行相加处理,得到第四图像。
16.根据权利要求9至15任意一项所述的方法,其特征在于,所述方法用于实现以下图像增强任务中的至少一种:图像超分辨率重构、图像去噪、图像去雾、图像去模糊、图像对比度增强、图像去马赛克、图像去雨、图像颜色增强、图像亮度增强、图像细节增强以及图像动态范围增强。
17.一种图像处理装置,其特征在于,包括存储器和处理器;所述存储器存储有代码,所述处理器被配置为执行所述代码,当所述代码被执行时,所述图像处理装置执行如权利要求1至8任意一项所述的方法。
18.一种模型训练装置,其特征在于,包括存储器和处理器;所述存储器存储有代码,所述处理器被配置为执行所述代码,当所述代码被执行时,所述模型训练装置执行如权利要求9至16任意一项所述的方法。
19.一种计算机存储介质,其特征在于,所述计算机存储介质存储有指令,所述指令在由计算机执行时使得所述计算机实施权利要求1至16任意一项所述的方法。
20.一种计算机程序产品,其特征在于,所述计算机程序产品存储有指令,所述指令在由计算机执行时使得所述计算机实施权利要求1至16任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110221711.1A CN113066018A (zh) | 2021-02-27 | 2021-02-27 | 一种图像增强方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110221711.1A CN113066018A (zh) | 2021-02-27 | 2021-02-27 | 一种图像增强方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113066018A true CN113066018A (zh) | 2021-07-02 |
Family
ID=76559224
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110221711.1A Pending CN113066018A (zh) | 2021-02-27 | 2021-02-27 | 一种图像增强方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113066018A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115482409A (zh) * | 2022-08-15 | 2022-12-16 | 北京数美时代科技有限公司 | 一种图像识别模型训练方法、***、存储介质和电子设备 |
WO2023029418A1 (zh) * | 2021-09-02 | 2023-03-09 | 深圳市中兴微电子技术有限公司 | 图像超分辨率模型训练方法、装置和计算机可读存储介质 |
WO2023060921A1 (zh) * | 2021-10-14 | 2023-04-20 | 荣耀终端有限公司 | 图像处理方法与电子设备 |
-
2021
- 2021-02-27 CN CN202110221711.1A patent/CN113066018A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023029418A1 (zh) * | 2021-09-02 | 2023-03-09 | 深圳市中兴微电子技术有限公司 | 图像超分辨率模型训练方法、装置和计算机可读存储介质 |
WO2023060921A1 (zh) * | 2021-10-14 | 2023-04-20 | 荣耀终端有限公司 | 图像处理方法与电子设备 |
CN115482409A (zh) * | 2022-08-15 | 2022-12-16 | 北京数美时代科技有限公司 | 一种图像识别模型训练方法、***、存储介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112308200B (zh) | 神经网络的搜索方法及装置 | |
WO2022116856A1 (zh) | 一种模型结构、模型训练方法、图像增强方法及设备 | |
WO2022042713A1 (zh) | 一种用于计算设备的深度学习训练方法和装置 | |
CN112418392A (zh) | 一种神经网络构建方法以及装置 | |
CN110222717B (zh) | 图像处理方法和装置 | |
EP4105877A1 (en) | Image enhancement method and image enhancement apparatus | |
CN113066017B (zh) | 一种图像增强方法、模型训练方法及设备 | |
CN111667399A (zh) | 风格迁移模型的训练方法、视频风格迁移的方法以及装置 | |
WO2022134971A1 (zh) | 一种降噪模型的训练方法及相关装置 | |
CN112070664B (zh) | 一种图像处理方法以及装置 | |
CN111914997B (zh) | 训练神经网络的方法、图像处理方法及装置 | |
CN112862828B (zh) | 一种语义分割方法、模型训练方法及装置 | |
CN111402130A (zh) | 数据处理方法和数据处理装置 | |
CN113066018A (zh) | 一种图像增强方法及相关装置 | |
CN113011562A (zh) | 一种模型训练方法及装置 | |
CN112581379A (zh) | 图像增强方法以及装置 | |
CN113191489B (zh) | 二值神经网络模型的训练方法、图像处理方法和装置 | |
CN112257759A (zh) | 一种图像处理的方法以及装置 | |
WO2022021938A1 (zh) | 图像处理方法与装置、神经网络训练的方法与装置 | |
CN111832592A (zh) | Rgbd显著性检测方法以及相关装置 | |
CN114359289A (zh) | 一种图像处理方法及相关装置 | |
WO2024002211A1 (zh) | 一种图像处理方法及相关装置 | |
CN115081588A (zh) | 一种神经网络参数量化方法和装置 | |
CN113284055A (zh) | 一种图像处理的方法以及装置 | |
CN115205150A (zh) | 图像的去模糊方法、装置、设备、介质及计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |