CN113066019A - 一种图像增强方法及相关装置 - Google Patents
一种图像增强方法及相关装置 Download PDFInfo
- Publication number
- CN113066019A CN113066019A CN202110221939.0A CN202110221939A CN113066019A CN 113066019 A CN113066019 A CN 113066019A CN 202110221939 A CN202110221939 A CN 202110221939A CN 113066019 A CN113066019 A CN 113066019A
- Authority
- CN
- China
- Prior art keywords
- image
- network
- features
- tone
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 118
- 238000012545 processing Methods 0.000 claims abstract description 100
- 230000006870 function Effects 0.000 claims description 133
- 230000004927 fusion Effects 0.000 claims description 82
- 238000012549 training Methods 0.000 claims description 55
- 230000015654 memory Effects 0.000 claims description 39
- 238000004590 computer program Methods 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 abstract description 12
- 238000013473 artificial intelligence Methods 0.000 abstract description 10
- 238000000605 extraction Methods 0.000 description 62
- 238000010586 diagram Methods 0.000 description 55
- 238000013528 artificial neural network Methods 0.000 description 36
- 239000011159 matrix material Substances 0.000 description 32
- 238000013527 convolutional neural network Methods 0.000 description 28
- 230000008569 process Effects 0.000 description 25
- 239000000284 extract Substances 0.000 description 23
- 239000013598 vector Substances 0.000 description 22
- 238000011176 pooling Methods 0.000 description 21
- 230000000694 effects Effects 0.000 description 19
- 230000001537 neural effect Effects 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 9
- 210000002569 neuron Anatomy 0.000 description 9
- 230000004913 activation Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 7
- 239000003086 colorant Substances 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 230000009467 reduction Effects 0.000 description 7
- 125000004122 cyclic group Chemical group 0.000 description 6
- 239000011800 void material Substances 0.000 description 6
- 238000013500 data storage Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000005096 rolling process Methods 0.000 description 4
- 239000000243 solution Substances 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 239000000872 buffer Substances 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000011022 operating instruction Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000007670 refining Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 241000272525 Anas platyrhynchos Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 102220645282 Structure-specific endonuclease subunit SLX4_S21P_mutation Human genes 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 239000012086 standard solution Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000004804 winding Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请实施例公开了一种图像增强方法,应用于人工智能领域,包括:终端将第一图像输入第一网络,得到所述第一网络提取的一组或多组中间特征,所述一组或多组中间特征与所述第一图像的增强图像的色调分量相关;终端通过第二网络的处理,输出第二图像,所述第二图像为所述第一图像的增强图像,所述第二网络的输入包括所述第一图像和所述一组或多组中间特征。该方法基于能够充分表征反射层与透射层的差异性的色调分量来定位和分离图像中的反射区域,能够有效地去除图像中的反射现象。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种图像增强方法及相关装置。
背景技术
随着智能手机、平板电脑等终端设备的普及,人们通过终端设备来拍照和拍摄视频已经变得非常普遍。受到拍摄场景的限制,如果用户透过玻璃或窗户拍照,所捕捉到的图像通常会出现不理想的反射现象。这种反射现象通常会导致图像出现背景场景失真、遮挡或模糊等问题,从而降低了图像的质量。图像质量的降低会影响用户的视觉体验,同时也会对后续的计算机视觉任务(如物体检测和语义分割等任务)产生严重的影响。因此,消除图像中的反射现象,恢复出原本的图像内容,可以使成像质量大幅提升,并且有助于提高后期的计算机视觉任务处理准确度。
目前,相关技术中的去反射方法通过手工设计先验信息来辅助去反射,例如手工设计梯度稀疏性、失焦模糊特性、景深特性等信息。由于这些手工设计的先验信息只考虑到了特定场景下的反射特性,因此基于这些先验信息执行去反射时,只能够在特定场景下获得较好的去反射效果。一旦反射的场景违反了既定假设,这些方法便不能正确的去除图像中的反射现象。因此,目前亟需一种能够有效去除图像中的反射现象的方法。
发明内容
本申请提供了一种图像增强方法及相关装置,通过获取第一网络所提取的中间特征,该中间特征与输入图像的增强图像的色调分量相关,并将中间特征输入到用于执行图像增强的第二网络中,从而在第二网络中引入能够充分表征反射层与透射层的差异性的色调分量,能够在图像增强中更准确地定位和分离图像中的反射区域,有效地去除图像中的反射现象。
本申请第一方面提供一种图像增强方法,包括:终端将第一图像输入第一网络,得到所述第一网络提取的一组或多组中间特征。所述第一网络可以为训练好的网络模型,所述第一网络用于预测所述第一图像的增强图像的色调图像。所述色调图像包括色调,饱和度,明度(Hue,Saturation,Value,HSV)颜色空间的色调分量。所述第一图像的增强图像具体为对所述第一图像执行图像增强后所得到的图像。这样,所述第一网络提取得到的一组或多组中间特征与所述第一图像的增强图像的色调分量相关。所述色调分量为色调,饱和度,明度HSV颜色空间中指示颜色信息的分量。
然后,终端通过所述第二网络的处理,输出第二图像,所述第二图像为所述第一图像的增强图像,所述第二网络的输入包括所述第一图像和所述一组或多组中间特征。具体地,在得到第一网络提取得到的一组或多组中间特征之后,终端则将第一图像作为第二网络的原始输入,输入第二网络中;第一网络提取得到的一组或多组中间特征则作为第二网络的中间输入,输入第二网络中。
本方案中,通过获取第一网络所提取的中间特征,该中间特征与输入图像的增强图像的色调分量相关,并将中间特征输入到用于执行图像增强的第二网络中,从而在第二网络中引入能够充分表征反射层与透射层的差异性的色调分量,能够在图像增强中更准确地定位和分离图像中的反射区域,有效地去除图像中的反射现象。
在一种可能的实现方式中,所述终端将第一图像输入第一网络,得到所述第一网络提取的一组或多组中间特征,包括:终端通过所述第一网络中串行的一个或多个第一卷积层提取得到所述一组或多组中间特征。也就是说,第一网络中包括有串行的一个或多个第一卷积层,每个第一卷积层分别用于提取得到一组中间特征,以得到多组不同尺度的中间特征。
在一种可能的实现方式中,所述第一卷积层包括多层串行连接的卷积层。所述第一卷积层例如可以包括多层串行的空洞卷积层。
由于色调图像中包括显著的反射特征,且色调图像中所包括的细节较少,因此第一卷积层使用串行的空洞卷积层结构可以快速提高分层方式的多尺度表达能力,有利于在空间中定位反射区域。
在一种可能的实现方式中,终端通过所述第二网络的处理,输出第二图像,具体包括:通过所述第二网络提取得到所述第一图像的特征;通过所述第二网络融合所述第一图像的特征和所述一组或多组中间特征,得到一组或多组融合特征;通过所述第二网络处理所述一组或多组融合特征,得到所述第二图像。
本方案中,通过由第二网络将第一网络所提取的中间特征与第二网络所提取的第一图像的特征进行融合,能够有效地融合表征反射层与透射层的差异性的色调分量,加强第二网络对显著反射区域的重视,为网络训练提供更准确的优化方向。
在一种可能的实现方式中,所述通过所述第二网络融合所述第一图像的特征和所述一组或多组中间特征,得到融合特征,包括:通过所述第二网络中串行的一个或多个特征单元融合所述第一图像的特征和所述一组或多组中间特征,得到一组或多组融合特征。其中,所述一个或多个特征单元中的每个特征单元包括第二卷积层和特征融合模块,所述每个特征单元中的第二卷积层的输入为前一个特征单元中的特征融合模块所输出的融合特征,所述每个特征单元中的特征融合模块的输入为对应的一组中间特征和同一个特征单元中的第二卷积层的输出,所述一个或多个特征单元中的特征融合模块具有一一对应的一组中间特征。
本方案中,通过由第二网络将第一网络所提取的一组或多组中间特征与第二网络所提取一个或多个第一图像的特征进行融合,能够有效地融合表征反射层与透射层的差异性的色调分量,加强第二网络对显著反射区域的重视,为网络训练提供更准确的优化方向。
在一种可能的实现方式中,所述第二卷积层包括多层并行连接的卷积层。所述第二卷积层例如可以包括多层并行的空洞卷积层。
本方案中,第二卷积层通过采用并行的空洞卷积层来提取图像的特征,能够有效地恢复图像中干净且细节丰富的透射层。
在一种可能的实现方式中,所述第二网络还可以包括卷积块的注意力模块,所述卷积块的注意力模块与所述第二网络中的第一个特征单元连接,所述卷积块的注意力模块用于提取所述第一图像的特征,所述第二网络中的第一个特征单元用于对所述卷积块的注意力模块提取得到的特征进行特征提取。简单来说,在第二网络中所述卷积块的注意力模块位于所述第一个第二特征提取模块之前。所述卷积块的注意力模块对输入第二网络的图像进行特征提取后,再由第二特征提取模块对所述卷积块的注意力模块所提取的特征做进一步的特征提取。
本方案中,通过在第二网络中通过卷积块的注意力模块连续推断空域和通道信息的注意力图,从而能够自适应地提炼特征,以提高图像去反射的效果。
在一种可能的实现方式中,所述方法还包括:终端对所述第一图像进行处理,得到所述第一图像对应的色调图像,所述色调图像包括HSV颜色空间的色调分量;终端将所述第一图像对应的色调图像输入所述第一网络,以与所述第一图像共同经过所述第一网络的处理,得到所述一组或多组中间特征。
在一种可能的实现方式中,所述方法还包括:终端将第一图像输入第一网络,以得到的第一图像的色调图像;将所述色调图像输入所述第一网络,以与所述第一图像共同经过所述第一网络的处理,得到所述一组或多组中间特征,所述色调图像包括HSV颜色空间的色调分量。也就是说,在将第一图像输入第一网络之后,第一网络能够先将第一图像转换为色调图像,并基于所述第一图像和所述第一图像对应的色调图像,处理得到所述一组或多组中间特征。
在一种可能的实现方式中,所述第二网络的输入还包括所述第一图像的语义特征。其中,该语义特征具体可以是指高层特征。高层特征与低层特征相对,低层特征是指图像中具体的轮廓、边缘、颜色、纹理和形状等细节特征。高层特征则是用于描述图像中的物体的特征,能够用于识别并分类图像中的物体。
本方案中,通过引入语义特征,能够提高第二网络的语义理解能力,让第二网络在比较高的维度保证图像去反射后的图像质量,比如图像颜色不出现偏色以及去除大块的反射区域,最终提升去反射结果的整体质量。
在一种可能的实现方式中,所述方法用于实现以下图像增强任务中的至少一种:图像去反射、图像去阴影以及图像去雾。
本申请第二方面提供一种网络模型的训练方法,包括:获取图像样本对,所述图像样本对包括第一图像和所述第一图像的增强图像;将第一图像输入第一网络,得到所述第一网络提取的一组或多组中间特征,所述一组或多组中间特征与所述第一图像的增强图像的色调分量相关,所述色调分量为色调,饱和度,明度HSV颜色空间中指示颜色信息的分量;通过所述第二网络的处理,输出第二图像,所述第二图像为所述第一图像的增强图像,所述第二网络的输入包括所述第一图像和所述一组或多组中间特征;根据所述图像样本对中的增强图像和所述第二图像获取第一损失函数,所述第一损失函数用于指示所述图像样本对中的增强图像和所述第二图像之间的差异;根据所述第一损失函数对所述第一网络和所述第二网络进行训练,得到训练后的第一网络和训练后的第二网络。
在一种可能的实现方式中,所述方法还包括:获取所述第二图像的色调图像和图像样本对中的增强图像的色调图像;根据所述第二图像的色调图像和图像样本对中的增强图像的色调图像获取第二损失函数,所述第二损失函数用于指示所述第二图像的色调图像和图像样本对中的增强图像的色调图像之间的差异;所述根据所述第一损失函数对所述第一网络和所述第二网络进行训练,包括:根据所述第一损失函数和所述第二损失函数对所述第一网络和所述第二网络进行训练。
在一种可能的实现方式中,所述方法还包括:获取图像样本对中的增强图像的色调图像和所述第一网络输出的第三图像;根据所述图像样本对中的增强图像的色调图像和所述第三图像获取第三损失函数,所述第三损失函数用于指示所述图像样本对中的增强图像的色调图像和所述第三图像获取第三损失函数之间的差异;所述根据所述第一损失函数和所述第二损失函数对所述第一网络和所述第二网络进行训练,包括:根据所述第一损失函数、所述第二损失函数和所述第三损失函数对所述第一网络和所述第二网络进行训练。
在一种可能的实现方式中,所述将第一图像输入第一网络,得到所述第一网络提取的一组或多组中间特征,包括:通过所述第一网络中串行的一个或多个第一卷积层提取得到所述一组或多组中间特征。
在一种可能的实现方式中,所述第一卷积层包括多层串行连接的卷积层。
在一种可能的实现方式中,所述通过所述第二网络的处理,输出第二图像,包括:通过所述第二网络提取得到所述第一图像的特征;通过所述第二网络融合所述第一图像的特征和所述一组或多组中间特征,得到一组或多组融合特征;通过所述第二网络处理所述一组或多组融合特征,得到所述第二图像。
在一种可能的实现方式中,所述通过所述第二网络融合所述第一图像的特征和所述一组或多组中间特征,得到融合特征,包括:通过所述第二网络中串行的一个或多个特征单元融合所述第一图像的特征和所述一组或多组中间特征,得到一组或多组融合特征;其中,所述一个或多个特征单元中的每个特征单元包括第二卷积层和特征融合模块,所述每个特征单元中的第二卷积层的输入为前一个特征单元中的特征融合模块所输出的融合特征,所述每个特征单元中的特征融合模块的输入为对应的一组中间特征和同一个特征单元中的第二卷积层的输出,所述一个或多个特征单元中的特征融合模块具有一一对应的一组中间特征。
在一种可能的实现方式中,所述第二卷积层包括多层并行连接的卷积层。
在一种可能的实现方式中,所述方法还包括:对所述第一图像进行处理,得到所述第一图像对应的色调图像,所述色调图像包括HSV颜色空间的色调分量;将所述第一图像对应的色调图像输入所述第一网络,以与所述第一图像共同经过所述第一网络的处理,得到所述一组或多组中间特征。
在一种可能的实现方式中,所述方法还包括:将第一图像输入第一网络,以得到的第一图像的色调图像;将所述色调图像输入所述第一网络,以与所述第一图像共同经过所述第一网络的处理,得到所述一组或多组中间特征,所述色调图像包括HSV颜色空间的色调分量。
在一种可能的实现方式中,所述第二网络的输入还包括所述第一图像的语义特征。
在一种可能的实现方式中,所述方法用于实现以下图像增强任务中的至少一种:图像去反射、图像去阴影以及图像去雾。
本申请第三方面提供一种图像处理装置,包括:处理单元。所述处理单元,用于:将第一图像输入第一网络,得到所述第一网络提取的一组或多组中间特征,所述一组或多组中间特征与所述第一图像的增强图像的色调分量相关,所述色调分量为色调,饱和度,明度HSV颜色空间中指示颜色信息的分量;通过所述第二网络的处理,输出第二图像,所述第二图像为所述第一图像的增强图像,所述第二网络的输入包括所述第一图像和所述一组或多组中间特征。
在一种可能的实现方式中,所述处理单元还用于通过所述第一网络中串行的一个或多个第一卷积层提取得到所述一组或多组中间特征。
在一种可能的实现方式中,所述第一卷积层包括多层串行连接的卷积层。
在一种可能的实现方式中,所述处理单元还用于:通过所述第二网络提取得到所述第一图像的特征;通过所述第二网络融合所述第一图像的特征和所述一组或多组中间特征,得到一组或多组融合特征;通过所述第二网络处理所述一组或多组融合特征,得到所述第二图像。
在一种可能的实现方式中,通过所述第二网络中串行的一个或多个特征单元融合所述第一图像的特征和所述一组或多组中间特征,得到一组或多组融合特征;其中,所述一个或多个特征单元中的每个特征单元包括第二卷积层和特征融合模块,所述每个特征单元中的第二卷积层的输入为前一个特征单元中的特征融合模块所输出的融合特征,所述每个特征单元中的特征融合模块的输入为对应的一组中间特征和同一个特征单元中的第二卷积层的输出,所述一个或多个特征单元中的特征融合模块具有一一对应的一组中间特征。
在一种可能的实现方式中,所述第二卷积层包括多层并行连接的卷积层。
在一种可能的实现方式中,所述处理单元还用于:对所述第一图像进行处理,得到所述第一图像对应的色调图像,所述色调图像包括HSV颜色空间的色调分量;将所述第一图像对应的色调图像输入所述第一网络,以与所述第一图像共同经过所述第一网络的处理,得到所述一组或多组中间特征。
在一种可能的实现方式中,所述处理单元还用于:将第一图像输入第一网络,以得到的第一图像的色调图像;将所述色调图像输入所述第一网络,以与所述第一图像共同经过所述第一网络的处理,得到所述一组或多组中间特征,所述色调图像包括HSV颜色空间的色调分量。
在一种可能的实现方式中,所述第二网络的输入还包括所述第一图像的语义特征。
在一种可能的实现方式中,所述装置用于实现以下图像增强任务中的至少一种:图像去反射、图像去阴影以及图像去雾。
本申请第四方面提供一种训练装置,包括:获取单元和处理单元。所述获取单元,用于获取图像样本对,所述图像样本对包括第一图像和所述第一图像的增强图像;所述处理单元用于:将第一图像输入第一网络,得到所述第一网络提取的一组或多组中间特征,所述一组或多组中间特征与所述第一图像的增强图像的色调分量相关,所述色调分量为色调,饱和度,明度HSV颜色空间中指示颜色信息的分量;通过所述第二网络的处理,输出第二图像,所述第二图像为所述第一图像的增强图像,所述第二网络的输入包括所述第一图像和所述一组或多组中间特征;根据所述图像样本对中的增强图像和所述第二图像获取第一损失函数,所述第一损失函数用于指示所述图像样本对中的增强图像和所述第二图像之间的差异;根据所述第一损失函数对所述第一网络和所述第二网络进行训练,得到训练后的第一网络和训练后的第二网络。
在一种可能的实现方式中,所述获取单元还用于获取所述第二图像的色调图像和图像样本对中的增强图像的色调图像;所述获取单元还用于根据所述第二图像的色调图像和图像样本对中的增强图像的色调图像获取第二损失函数,所述第二损失函数用于指示所述第二图像的色调图像和图像样本对中的增强图像的色调图像之间的差异;所述处理单元还用于根据所述第一损失函数和所述第二损失函数对所述第一网络和所述第二网络进行训练。
在一种可能的实现方式中,所述获取单元还用于获取图像样本对中的增强图像的色调图像和所述第一网络输出的第三图像;所述获取单元还用于根据所述图像样本对中的增强图像的色调图像和所述第三图像获取第三损失函数,所述第三损失函数用于指示所述图像样本对中的增强图像的色调图像和所述第三图像获取第三损失函数之间的差异;所述处理单元还用于根据所述第一损失函数、所述第二损失函数和所述第三损失函数对所述第一网络和所述第二网络进行训练。
在一种可能的实现方式中,所述处理单元还用于通过所述第一网络中串行的一个或多个第一卷积层提取得到所述一组或多组中间特征。
在一种可能的实现方式中,所述第一卷积层包括多层串行连接的卷积层。
在一种可能的实现方式中,所述处理单元还用于通过所述第二网络提取得到所述第一图像的特征;通过所述第二网络融合所述第一图像的特征和所述一组或多组中间特征,得到一组或多组融合特征;通过所述第二网络处理所述一组或多组融合特征,得到所述第二图像。
在一种可能的实现方式中,所述处理单元还用于通过所述第二网络中串行的一个或多个特征单元融合所述第一图像的特征和所述一组或多组中间特征,得到一组或多组融合特征;其中,所述一个或多个特征单元中的每个特征单元包括第二卷积层和特征融合模块,所述每个特征单元中的第二卷积层的输入为前一个特征单元中的特征融合模块所输出的融合特征,所述每个特征单元中的特征融合模块的输入为对应的一组中间特征和同一个特征单元中的第二卷积层的输出,所述一个或多个特征单元中的特征融合模块具有一一对应的一组中间特征。
在一种可能的实现方式中,所述第二卷积层包括多层并行连接的卷积层。
在一种可能的实现方式中,所述处理单元还用于对所述第一图像进行处理,得到所述第一图像对应的色调图像,所述色调图像包括HSV颜色空间的色调分量;将所述第一图像对应的色调图像输入所述第一网络,以与所述第一图像共同经过所述第一网络的处理,得到所述一组或多组中间特征。
在一种可能的实现方式中,所述处理单元还用于将第一图像输入第一网络,以得到的第一图像的色调图像;将所述色调图像输入所述第一网络,以与所述第一图像共同经过所述第一网络的处理,得到所述一组或多组中间特征,所述色调图像包括HSV颜色空间的色调分量。
在一种可能的实现方式中,所述第二网络的输入还包括所述第一图像的语义特征。
在一种可能的实现方式中,所述装置用于实现以下图像增强任务中的至少一种:图像去反射、图像去阴影以及图像去雾。
本申请第五方面提供了一种图像处理装置,可以包括处理器,处理器和存储器耦合,存储器存储有程序指令,当存储器存储的程序指令被处理器执行时实现上述第一方面或第二方面所述的方法。对于处理器执行第一方面或第二方面的各个可能实现方式中的步骤,具体均可以参阅第一方面,此处不再赘述。
本申请第六方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行上述第一方面或第二方面所述的方法。
本申请第七方面提供了一种电路***,所述电路***包括处理电路,所述处理电路配置为执行上述第一方面或第二方面所述的方法。
本申请第八方面提供了一种计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面或第二方面所述的方法。
本申请第九方面提供了一种芯片***,该芯片***包括处理器,用于支持服务器或门限值获取装置实现上述第一方面或第二方面中所涉及的功能,例如,发送或处理上述方法中所涉及的数据和/或信息。在一种可能的设计中,所述芯片***还包括存储器,所述存储器,用于保存服务器或通信设备必要的程序指令和数据。该芯片***,可以由芯片构成,也可以包括芯片和其他分立器件。
附图说明
图1为人工智能主体框架的一种结构示意图;
图2为本申请实施例提供的卷积神经网络的示意图;
图3为本申请实施例提供的卷积神经网络的示意图;
图4为本申请实施例提供的一种***架构的示意图;
图5a为本申请实施例提供的一种图像去除反射前后的对比示意图;
图5b为本申请实施例提供的一种图像去除阴影前后的对比示意图;
图6为本申请实施例提供的一种图像增强方法的流程示意图;
图7为本申请实施例提供的一种HSV颜色空间的模型示意图;
图8a为本申请实施例提供的一种无反射现象的RGB图像与色调图像的对比示意图;
图8b为本申请实施例提供的一种有反射现象的RGB图像与色调图像的对比示意图;
图8c为本申请实施例提供的一种第一网络和第二网络的结构示意图;
图9a为本申请实施例提供的一种第一特征提取模块的结构示意图;
图9b为本申请实施例提供的一种第二特征提取模块的结构示意图;
图9c为本申请实施例提供的一种特征融合模块的结构示意图;
图10为本申请实施例提供的一种卷积块的注意力模块的结构示意图;
图11a为本申请实施例提供的一种第一网络的结构示意图;
图11b为本申请实施例提供的一种第二网络的结构示意图;
图12为本申请实施例提供的一种图像去反射网络的结构示意图;
图13为本申请实施例提供的一种图像去反射网络的输入和输出的对比示意图;
图14为本申请实施例提供的一种网络模型的训练方法的流程示意图;
图15为本申请实施例提供的一种色调图像的距离度量示意图;
图16为本申请实施例提供的网络去反射效果的对比示意图;
图17为本申请实施例提供的引入不同网络的去反射效果的对比示意图;
图18为本申请实施例提供的不同图像去反射方法的去反射效果的对比示意图;
图19为本申请实施例提供的一种图像去反射效果的对比示意图;
图20为本申请实施例提供的另一种图像去反射效果的对比示意图;
图21为本申请实施例提供的一种图像处理装置的结构示意图;
图22为本申请实施例提供的一种模型训练装置的结构示意图;
图23为本申请实施例提供的执行设备的一种结构示意图;
图24为本申请实施例提供的芯片的一种结构示意图。
具体实施方式
下面结合本发明实施例中的附图对本发明实施例进行描述。本发明的实施方式部分使用的术语仅用于对本发明的具体实施例进行解释,而非旨在限定本发明。
下面结合附图,对本申请的实施例进行描述。本领域普通技术人员可知,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、***、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
首先对人工智能***总体工作流程进行描述,请参见图1,图1示出的为人工智能主体框架的一种结构示意图,下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。其中,“智能信息链”反映从数据的获取到处理的一列过程。举例来说,可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中,数据经历了“数据—信息—知识—智慧”的凝练过程。“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到***的产业生态过程,反映人工智能为信息技术产业带来的价值。
(1)基础设施。
基础设施为人工智能***提供计算能力支持,实现与外部世界的沟通,并通过基础平台实现支撑。通过传感器与外部沟通;计算能力由智能芯片(CPU、NPU、GPU、ASIC、FPGA等硬件加速芯片)提供;基础平台包括分布式计算框架及网络等相关的平台保障和支持,可以包括云存储和计算、互联互通网络等。举例来说,传感器和外部沟通获取数据,这些数据提供给基础平台提供的分布式计算***中的智能芯片进行计算。
(2)数据。
基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本,还涉及到传统设备的物联网数据,包括已有***的业务数据以及力、位移、液位、温度、湿度等感知数据。
(3)数据处理。
数据处理通常包括数据训练,机器学习,深度学习,搜索,推理,决策等方式。
其中,机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。
推理是指在计算机或智能***中,模拟人类的智能推理方式,依据推理控制策略,利用形式化的信息进行机器思维和求解问题的过程,典型的功能是搜索与匹配。
决策是指智能信息经过推理后进行决策的过程,通常提供分类、排序、预测等功能。
(4)通用能力。
对数据经过上面提到的数据处理后,进一步基于数据处理的结果可以形成一些通用的能力,比如可以是算法或者一个通用***,例如,翻译,文本的分析,计算机视觉的处理,语音识别,图像的识别等等。
(5)智能产品及行业应用。
智能产品及行业应用指人工智能***在各领域的产品和应用,是对人工智能整体解决方案的封装,将智能信息决策产品化、实现落地应用,其应用领域主要包括:智能终端、智能交通、智能医疗、自动驾驶、智慧城市等。
下面从模型训练侧和模型应用侧对本申请提供的方法进行描述:
本申请实施例提供的模型训练方法,具体可以应用于数据训练、机器学习、深度学习等数据处理方法,对训练数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等,最终得到训练好的神经网络模型(如本申请实施例中的目标神经网络模型);并且目标神经网络模型可以用于进行模型推理,具体可以将输入数据输入到目标神经网络模型中,得到输出数据。
由于本申请实施例涉及大量神经网络的应用,为了便于理解,下面先对本申请实施例涉及的相关术语及神经网络等相关概念进行介绍。
(1)神经网络。
神经网络可以是由神经单元组成的,神经单元可以是指以xs(即输入数据)和截距1为输入的运算单元,该运算单元的输出可以为:
其中,s=1、2、……n,n为大于1的自然数,Ws为xs的权重,b为神经单元的偏置。f为神经单元的激活函数(activation functions),用于将非线性特性引入神经网络中,来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入,激活函数可以是sigmoid函数。神经网络是将多个上述单一的神经单元联结在一起形成的网络,即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连,来提取局部接受域的特征,局部接受域可以是由若干个神经单元组成的区域。
(2)卷积神经网络(Convosutionas Neuras Network,CNN)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器,卷积过程可以看作是使用一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层(例如本实施例中的第一卷积层、第二卷积层)。在卷积神经网络的卷积层中,一个神经元可以只与部分邻层神经元连接。一个卷积层中,通常包含若干个特征平面,每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重,这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是:图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置,我们都能使用同样的学习得到的图像信息。在同一卷积层中,可以使用多个卷积核来提取不同的图像信息,一般地,卷积核数量越多,卷积操作反映的图像信息越丰富。
卷积核可以以随机大小的矩阵的形式初始化,在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外,共享权重带来的直接好处是减少卷积神经网络各层之间的连接,同时又降低了过拟合的风险。
具体的,如图2所示,卷积神经网络(CNN)100可以包括输入层110,卷积层/池化层120,其中池化层为可选的,以及神经网络层130。
其中,卷积层/池化层120以及神经网络层130组成的结构可以为本申请中所描述的第一卷积层以及第二卷积层,输入层110和卷积层/池化层120连接,卷积层/池化层120连接与神经网络层130连接,神经网络层130的输出可以输入至激活层,激活层可以对神经网络层130的输出进行非线性化处理。
卷积层/池化层120。卷积层:如图2所示卷积层/池化层120可以包括如示例121-126层,在一种实现中,121层为卷积层,122层为池化层,123层为卷积层,124层为池化层,125为卷积层,126为池化层;在另一种实现方式中,121、122为卷积层,123为池化层,124、125为卷积层,126为池化层。即卷积层的输出可以作为随后的池化层的输入,也可以作为另一个卷积层的输入以继续进行卷积操作。
以卷积层121为例,卷积层121可以包括很多个卷积算子,卷积算子也称为核,其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器,卷积算子本质上可以是一个权重矩阵,这个权重矩阵通常被预先定义,在对图像进行卷积操作的过程中,权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……这取决于步长stride的取值)的进行处理,从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关,需要注意的是,权重矩阵的纵深维度(depthdimension)和输入图像的纵深维度是相同的,在进行卷积运算的过程中,权重矩阵会延伸到输入图像的整个深度。因此,和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出,但是大多数情况下不使用单一权重矩阵,而是应用维度相同的多个权重矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度。不同的权重矩阵可以用来提取图像中不同的特征,例如一个权重矩阵用来提取图像边缘信息,另一个权重矩阵用来提取图像的特定颜色,又一个权重矩阵用来对图像中不需要的噪点进行模糊化……该多个权重矩阵维度相同,经过该多个维度相同的权重矩阵提取后的特征图维度也相同,再将提取到的多个维度相同的特征图合并形成卷积运算的输出。
这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到,通过训练得到的权重值形成的各个权重矩阵可以从输入图像中提取信息,从而帮助卷积神经网络100进行正确的预测。
当卷积神经网络100有多个卷积层的时候,初始的卷积层(例如121)往往提取较多的一般特征,该一般特征也可以称之为低级别的特征;随着卷积神经网络100深度的加深,越往后的卷积层(例如126)提取到的特征越来越复杂,比如高级别的语义之类的特征,语义越高的特征越适用于待解决的问题。
池化层:由于常常需要减少训练参数的数量,因此卷积层之后常常需要周期性的引入池化层,即如图2中120所示例的121-126各层,可以是一层卷积层后面跟一层池化层,也可以是多层卷积层后面接一层或多层池化层。
神经网络层130:在经过卷积层/池化层120的处理后,卷积神经网络100还不足以输出所需要的输出信息。因为如前所述,卷积层/池化层120只会提取特征,并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的类信息或别的相关信息),卷积神经网络100需要利用神经网络层130来生成一个或者一组所需要的类的数量的输出。因此,在神经网络层130中可以包括多层隐含层(如图2所示的131、132至13n)以及输出层140,该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到,例如该任务类型可以包括图像识别,图像分类,图像超分辨率重建等等。
在神经网络层130中的多层隐含层之后,也就是整个卷积神经网络100的最后层为输出层140,该输出层140具有类似分类交叉熵的损失函数,具体用于计算预测误差,一旦整个卷积神经网络100的前向传播(如图2由110至140的传播为前向传播)完成,反向传播(如图2由140至110的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差,以减少卷积神经网络100的损失及卷积神经网络100通过输出层输出的结果和理想结果之间的误差。
需要说明的是,如图2所示的卷积神经网络100仅作为一种卷积神经网络的示例,在具体的应用中,卷积神经网络还可以以其他网络模型的形式存在,例如,如图3所示的多个卷积层/池化层并行,将分别提取的特征均输入给全神经网络层130进行处理。
(3)深度神经网络。
深度神经网络(Deep Neural Network,DNN),也称多层神经网络,可以理解为具有很多层隐含层的神经网络,这里的“很多”并没有特别的度量标准。从DNN按不同层的位置划分,DNN内部的神经网络可以分为三类:输入层,隐含层,输出层。一般来说第一层是输入层,最后一层是输出层,中间的层数都是隐含层。层与层之间是全连接的,也就是说,第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。虽然DNN看起来很复杂,但是就每一层的工作来说,其实并不复杂,简单来说就是如下线性关系表达式:其中,是输入向量,是输出向量,是偏移向量,W是权重矩阵(也称系数),α()是激活函数。每一层仅仅是对输入向量经过如此简单的操作得到输出向量由于DNN层数多,则系数W和偏移向量的数量也就很多了。这些参数在DNN中的定义如下所述:以系数W为例:假设在一个三层的DNN中,第二层的第4个神经元到第三层的第2个神经元的线性系数定义为上标3代表系数W所在的层数,而下标对应的是输出的第三层索引2和输入的第二层索引4。总结就是:第L-1层的第k个神经元到第L层的第j个神经元的系数定义为需要注意的是,输入层是没有W参数的。在深度神经网络中,更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言,参数越多的模型复杂度越高,“容量”也就越大,也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程,其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。
(4)损失函数。
在训练深度神经网络的过程中,因为希望深度神经网络的输出尽可能的接近真正想要预测的值,所以可以通过比较当前网络的预测值和真正想要的目标值,再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然,在第一次更新之前通常会有初始化的过程,即为深度神经网络中的各层预先配置参数),比如,如果网络的预测值高了,就调整权重向量让它预测低一些,不断的调整,直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此,就需要预先定义“如何比较预测值和目标值之间的差异”,这便是损失函数(loss function)或目标函数(objective function),它们是用于衡量预测值和目标值的差异的重要方程。其中,以损失函数举例,损失函数的输出值(loss)越高表示差异越大,那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。
(5)反向传播算法。
卷积神经网络可以采用误差反向传播(back propagation,S21P000217)算法在训练过程中修正初始的超分辨率模型中参数的大小,使得超分辨率模型的重建误差损失越来越小。具体地,前向传递输入信号直至输出会产生误差损失,通过反向传播误差损失信息来更新初始的超分辨率模型中参数,从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动,旨在得到最优的超分辨率模型的参数,例如权重矩阵。
(6)线性操作。
线性是指量与量之间按比例、成直线的关系,在数学上可以理解为一阶导数为常数的函数,线性操作可以但不限于为加和操作、空操作、恒等操作、卷积操作、批归一化BN操作以及池化操作。线性操作也可以称之为线性映射,线性映射需要满足两个条件:齐次性和可加性,任一个条件不满足则为非线性
其中,齐次性是指f(ax)=af(x);可加性是指f(x+y)=f(x)+f(y);例如,f(x)=ax就是线性的。需要注意的是,这里的x、a、f(x)并不一定是标量,可以是向量或者矩阵,形成任意维度的线性空间。如果x、f(x)为n维向量,当a为常数时,就是等价满足齐次性,当a为矩阵时,则等价满足可加性。相对而言,函数图形为直线的不一定符合线性映射,比如f(x)=ax+b,既不满足齐次性也不满足可加性,因此属于非线性映射。
本申请实施例中,多个线性操作的复合可以称之为线性操作,线性操作中包括的各个线性操作也可以称之为子线性操作。
图4是本申请实施例提供的一种处理***100架构的示意图,在图4中,执行设备110配置输入/输出(input/output,I/O)接口112,用于与外部设备进行数据交互,用户可以通过客户设备140向I/O接口112输入数据。
在执行设备110对输入数据进行预处理,或者在执行设备110的计算模块111执行计算等相关的处理(比如进行本申请中神经网络的功能实现)过程中,执行设备120可以调用数据存储***150中的数据、代码等以用于相应的处理,也可以将相应处理得到的数据、指令等存入数据存储***150中。
最后,I/O接口112将处理结果返回给客户设备140,从而提供给用户。
可选地,客户设备140,例如可以是自动驾驶***中的控制单元、手机终端中的功能算法模块,例如该功能算法模块可以用于实现相关的任务。
值得说明的是,训练设备120可以针对不同的目标或称不同的任务,基于不同的训练数据生成相应的目标模型/规则(例如本实施例中的目标神经网络模型),该相应的目标模型/规则即可以用于实现上述目标或完成上述任务,从而为用户提供所需的结果。
在图4中所示情况下,用户可以手动给定输入数据,该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下,客户设备140可以自动地向I/O接口112发送输入数据,如果要求客户设备140自动发送输入数据需要获得用户的授权,则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果,具体的现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端,采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据,并存入数据库130。当然,也可以不经过客户设备140进行采集,而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果,作为新的样本数据存入数据库130。
值得注意的是,图4仅是本申请实施例提供的一种***架构的示意图,图中所示设备、器件、模块等之间的位置关系不构成任何限制,例如,在图4中,数据存储***150相对执行设备110是外部存储器,在其它情况下,也可以将数据存储***150置于执行设备110中。
为了去除图像中的反射现象,传统的去反射方法通过手工设计先验信息来辅助去反射,例如手工设计梯度稀疏性、失焦模糊特性、景深特性等信息。由于这些手工设计的先验信息只考虑到了特定场景下的反射特性,因此基于这些先验信息执行去反射时,只能够在特定场景下获得较好的去反射效果。一旦反射的场景违反了既定假设,这些方法便不能正确的去除图像中的反射现象。
对于图像去反射任务,广泛使用的成像模型是:反射失真图像I=透射层T+反射层R,即反射失真图像I是透射层T与反射层R的线性组合。去反射就是从反射失真图像I中分离出反射层R,得到想要的透射层T。由于透射层T与反射层R都是未知变量,要想分离出反射层R,需要引入额外的辅助信息。真实场景的反射层来源多样,特性复杂,很难找到一种有效的辅助信息能够实现有效的反射去除。
近年来,随着深度学习和计算机视觉的进步,卷积神经网络已经成为包括图像去反射在内的大部分视觉问题的标准解决方案。卷积神经网络基于大量可训练的卷积核,这些卷积核的参数通过特定损失函数的监督方式进行优化。基于神经网络的方法能够探索不同的辅助信息,例如底层的边缘信息,高层的语义信息等,这些辅助信息联合训练数据帮助网络学习去反射,最终使得去反射性能有了大幅的提升。但是这些辅助信息受限于自身的特性,无法充分地表征反射层和透射层的特性,在一些复杂的反射场景下依然难以做到有效的反射去除。例如,边缘信息作为图像的稀疏特征只考虑相邻像素之间的差异,不能描述更大空间范围的反射,所以对于高亮的区域反射表现较差。
有鉴于此,本申请实施例提供的一种图像增强方法,引入了图像的色调信息作为辅助信息,能够充分地表征反射层与透射层的差异性,帮助定位和分离图像中的反射区域,从而有效地去除图像中的反射现象。
此外,本申请实施例所提供的图像增强方法除了能够用于去除图像中的反射现象之外,还能够用于去除图像中的阴影或去除图像中的雾。简单来说,当图像中存在反射、阴影或者雾的时候,均可以采用本申请实施例所提供的图像增强方法来实现图像增强,从而去除图像中的反射层、阴影层或雾层。为了便于叙述,以下将以图像去反射为例,对本申请实施例所提供的的图像增强方法进行详细的介绍。
示例性地,可以参阅图5a,图5a为本申请实施例提供的一种图像去除反射前后的对比示意图。如图5a所示,在图像去反射前,图像左侧区域存在明显的反射现象,图像中反射层与透射层重叠在一起,导致图像出现了遮挡的问题。在图像去反射后,图像左侧区域的反射现象被消除,图像中的反射层被去除了,因此图像中透射层被遮挡的问题得到了很好的解决。
可以参阅图5b,图5b为本申请实施例提供的一种图像去除阴影前后的对比示意图。如图5b所示,该图像所展现的内容是在太阳照射下的地面的景象。在图像去阴影前,图像上方区域存在明显的阴影,该阴影具体是人在太阳底下撑伞所产生的阴影。在图像中,阴影遮挡了地面的瓷砖,导致了地面被遮挡部分明显存在暗淡层。在图像去阴影后,图像上方区域的阴影现象被消除,图像中的阴影层被去除了,因此图像中地面被遮挡的问题得到了很好的解决。
本申请实施例所提供的图像增强方法可以应用于终端或服务器中。示例性地,该终端例如可以是数码相机、监控摄像装置、手机(mobile phone)、个人电脑(personalcomputer,PC)、笔记本电脑、服务器、平板电脑、移动互联网设备(mobile internetdevice,MID)、可穿戴设备,虚拟现实(virtual reality,VR)设备、增强现实(augmentedreality,AR)设备、工业控制(industrial control)中的无线终端、无人驾驶(selfdriving)中的无线终端、远程手术(remote medical surgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端等。为了便于叙述,以下将以图像增强方法应用于终端为例,对本申请实施例所提供的图像增强方法进行介绍。
可以参阅图6,图6为本申请实施例提供的一种图像增强方法的流程示意图。如图6所示,该图像增强方法包括以下的步骤601-602。
步骤601,将第一图像输入第一网络,得到所述第一网络提取的一组或多组中间特征。
本实施例中,所述一组或多组中间特征与所述第一图像的增强图像的色调分量相关,所述色调分量为HSV颜色空间中指示颜色信息的分量。可选的,所述第一网络可以为训练好的网络模型,所述第一网络用于预测所述第一图像的增强图像的色调图像。所述色调图像包括HSV颜色空间的色调分量。所述第一图像的增强图像具体为对所述第一图像执行图像增强后所得到的图像。这样,所述第一网络提取得到的一组或多组中间特征与所述第一图像的增强图像的色调分量相关。所述色调分量为色调,饱和度,明度HSV颜色空间中指示颜色信息的分量。
示例性地,对图像执行图像增强可以是指对图像进行去反射、去阴影或者去雾操作。也就是说,在本实施例所提供的图像增强方法用于执行图像去反射时,所述第一图像的增强图像可以是指对所述第一图像执行图像去反射后所得到的图像。
其中,所述增强图像的色调图像可以是仅包括HSV颜色空间的色调分量。HSV颜色空间是根据颜色的直观特性所创建的一种颜色空间,也称六角锥体模型(Hexcone Model)。示例性地,可以参阅图7,图7为本申请实施例提供的一种HSV颜色空间的模型示意图。在HSV颜色空间中,颜色的参数分别是:色调(H),饱和度(S),明度(V)。色调具体可以是用角度度量,取值范围为0°~360°,从红色开始按逆时针方向计算,红色为0°,绿色为120°,蓝色为240°。它们的补色是:黄色为60°,青色为180°,紫色为300°。简单来说,色调参数表示色彩信息,即所处的光谱颜色的位置。
可选的,本实施例中的所述第一图像具体可以为RGB图像。RGB图像是指通过三个通道来表示一幅图像,这三个通道分别为红色(Red),绿色(Green)和蓝色(Blue)。这三种颜色的不同组合可以形成几乎所有的其他颜色,因此RGB图像实际上就是通过这三种颜色组合得到的图像。一般来说,RGB图像与HSV图像之间能够相互转换。例如,通过对RGB图像执行颜色空间转换,可以得到对应的HSV图像;通过对HSV图像执行颜色空间转换,则可以得到对应的RGB图像。
对于上述增强图像的色调图像,在增强图像为RGB图像的情况下,该增强图像的色调图像可以理解为对增强图像执行颜色空间转换,得到增强图像对应的HSV图像之后,只保留增强图像对应的HSV图像中的色调分量,从而得到增强图像的色调图像。
可选的,所述第一网络包括一个或多个第一特征提取模块,所述第一网络提取的一组或多组中间特征可以是由一个或多个第一特征提取模块提取的。所述一个或多个第一特征提取模块中的每个第一特征提取模块包括一个第一卷积层,即所述第一网络包括串行的一个或多个第一卷积层。简单来说,在所述第一网络用于预测输入图像对应的增强图像的色调图像的基础上,所述第一网络中的第一特征提取模块则用于提取色调特征,以便于第一网络中的后续模块能够基于第一特征提取模块所提取的色调特征预测得到增强图像的色调图像。
可选的,为了保证所述第一网络的预测准确性,所述第一网络可以是基于第一图像以及第一图像对应的色调图像来进行提取中间特征,从而得到第一图像的增强图像的色调图像。
示例性地,获取第一图像对应的色调图像的方式可以有多种。
在一种可能的实现方式中,在将第一图像输入第一网络之前,终端可以对所述第一图像执行颜色空间转换,得到所述第一图像对应的色调图像。示例性地,终端可以执行颜色空间转换函数(例如RGB>HSV转换函数),转换得到第一图像对应的色调图像。在得到第一图像对应的色调图像之后,将所述第一图像对应的色调图像输入所述第一网络,以与所述第一图像共同经过所述第一网络的处理,得到所述一组或多组中间特征。
在另一种可能的实现方式中,所述第一网络中包括颜色空间转换模块,所述颜色空间转换模块用于将所述第一图像转换为色调图像。也就是说,在将第一图像输入第一网络之后,第一网络能够基于颜色空间转换模块将第一图像转换为色调图像,并基于所述第一图像和所述第一图像对应的色调图像,处理得到所述一组或多组中间特征。
步骤602,通过所述第二网络的处理,输出第二图像,所述第二图像为所述第一图像的增强图像,所述第二网络的输入包括所述第一图像和所述一组或多组中间特征。
在得到第一网络提取得到的中间特征之后,终端则将第一图像作为第二网络的原始输入,输入第二网络中;第一网络提取得到的中间特征则作为第二网络的中间输入,输入第二网络中。其中,第二网络用于提取所输入的第一图像的特征,并将提取得到的特征与输入的所述中间特征融合,从而预测得到所述第一图像的增强图像,即第二图像。
具体地,终端通过所述第二网络提取得到所述第一图像的特征,并通过所述第二网络融合所述第一图像的特征和所述一组或多组中间特征,得到一组或多组融合特征。最后,通过所述第二网络处理所述一组或多组融合特征,得到所述第二图像。
可以参阅图8a,图8a为本申请实施例提供的一种无反射现象的RGB图像与色调图像的对比示意图。如图8a所示,在RGB图像中没有反射现象的情况下,该RGB图像对应的色调图像能够很好地反映RGB图像中的主要物体的轮廓,例如RGB图像中的鸭子和摇篮的轮廓。
可以参阅图8b,图8b为本申请实施例提供的一种有反射现象的RGB图像与色调图像的对比示意图。如图8b所示,在RGB图像中有反射现象的情况下,受到RGB图像中的反射区域的影响,RGB图像对应的色调图像并不能反映RGB图像中的主要物体的轮廓,例如色调图像中并不能很好地呈现RGB图像中的鸭子和摇篮的轮廓。也就是说,在RGB图像对应的色调图像中包括有相应的色调特征信息,这部分色调特征信息与RGB图像中的反射区域具有关联性,基于色调图像中的色调特征信息能够有效定位RGB图像中的反射区域。
因此,在本实施例中,通过获取用于预测色调图像的网络所提取的色调特征,并将色调特征作为辅助信息输入到用于预测增强图像的网络中,从而基于能够充分表征反射层与透射层的差异性的色调特征来定位和分离图像中的反射区域,有效地去除图像中的反射现象。
可选的,所述第二网络包括串行的一个或多个特征单元,每个特征单元包括一个第二特征提取模块和一个特征融合模块。每个第二特征提取模块可以包括一个第二卷积层。所述每个特征单元中的第二卷积层的输入为前一个特征单元中的特征融合模块所输出的融合特征,所述每个特征单元中的特征融合模块的输入为对应的一组中间特征和同一个特征单元中的第二卷积层的输出,所述一个或多个特征单元中的特征融合模块具有一一对应的一组中间特征。
其中,第一网络中的第一特征提取模块与第二网络中的特征单元的数量可以是相同的。例如,第一网络中包括n个第一特征提取模块,第二网络中包括n个第二特征提取模块以及n个特征融合模块。
可以参阅图8c,图8c为本申请实施例提供的一种第一网络和第二网络的结构示意图。如图8c所示,第一网络中包括特征提取模块A1、特征提取模块A2...特征提取模块An共n个特征提取模块;第二网络包括特征提取模块B1、特征提取模块B2...特征提取模块Bn共n个特征提取模块;第二网络包括特征融合模块1、特征融合模块2...特征融合模块n共n个特征融合模块。
第一网络中的n个特征提取模块依次连接,分别提取得到中间特征1、中间特征2...中间特征n。具体地,第一网络中的特征提取模块A1对输入数据进行特征提取,得到中间特征1;特征提取模块A2对中间特征2进行特征提取,得到中间特征2,以此类推,第一网络中的特征提取模块分别提取得到n个中间特征。
第二网络中的特征提取模块和特征融合模块构成一个特征单元,n组特征单元依次连接。第二网络中的第一个特征提取模块的输入为第二网络的输入数据,第二网络的其他特征提取模块的输入数据则为前一个特征融合模块所输出的特征;第二网络中的每一个特征融合模块的输入分别来自于第二网络中的特征提取模块以及第一网络中的特征提取模块,用于对第二网络中的特征提取模块所提取的特征以及第一网络中的特征提取模块所提取的特征进行融合,得到融合特征。
具体地,第二网络中的特征融合模块1、特征融合模块2...特征融合模块n分别与第二网络中的特征提取模块B1、特征提取模块B2...特征提取模块Bn连接。特征提取模块B1对第二网络中的输入数据进行特征提取,特征融合模块1则对特征提取模块B1所提取的特征以及特征提取模块A1所提取的中间特征1进行特征融合,得到融合特征1;特征提取模块B2对融合特征1进行特征提取,特征融合模块2则对特征提取模块B2所提取的特征以及特征提取模块A2所提取的中间特征2进行特征融合,得到融合特征2...以此类推,第二网络中的特征融合模块基于第一网络中的特征提取模块所提取的中间特征以及第二网络中的特征提取模块所提取的特征进行特征融合,第二网络最终基于特征融合模块所融合的特征进行图像预测,预测得到所述第一图像的增强图像。
可选的,所述第一网络中的第一卷积层包括多层串行连接的卷积层,所述第二网络中的第二卷积层包括多层并行连接的卷积层。示例性地,第一卷积层可以包括4层串行的空洞卷积层,这4层空洞卷积层的步长(stride)分别为{2,4,8,4}。可以理解的是,除了作为示例的4层空洞卷积层外,第一卷积层中所包括的卷积层还可以是其他的层数,例如第一卷积层中包括串行的6层或8层卷积层,本实施例不对第一卷积层中所包括的卷积层的层数做具体限定。此外,第一卷积层中的空洞卷积层也可以采用其他的步长,本实施例同样不对第一卷积层中所包括的卷积层的步长做具体限定。
具体地,可以参阅图9a,图9a为本申请实施例提供的一种第一卷积层的结构示意图。如图9a所示,第一卷积层由4层依次连接的空洞卷积层构成。其中,图9a中的D2、D4、D8以及D4分别表示第一层空洞卷积层的步长为2、第二层空洞卷积层的步长为4、第三层空洞卷积层的步长为8、第四层空洞卷积层的步长为4。
由于色调图像中包括显著的反射特征,且色调图像中所包括的细节较少,第一卷积层中使用这种串行的空洞卷积层结构可以快速提高分层方式的多尺度表达能力,有利于在空间中定位反射区域。
示例性地,第二卷积层可以包括3层并行的空洞卷积层,这3层空洞卷积层的步长分别为{4,8,16}。可以理解的是,除了作为示例的3层空洞卷积层外,第二特征模块中所包括的卷积层还可以是其他的层数以及采用其他的步长,例如第二特征模块中包括并行的4层或6层卷积层,本实施例不对第一特征模块中所包括的卷积层的层数以及所包括的步长做具体限定。通过采用并行的空洞卷积层来构成第二卷积层,能够有效地恢复图像中干净且细节丰富的透射层。
具体地,可以参阅图9b,图9b为本申请实施例提供的一种第二卷积层的结构示意图。如图9b所示,第二卷积层由3层并行的空洞卷积层构成,且第二卷积层前以及第二卷积层后分别连接有一层空洞卷积层。其中,第二卷积层所包括的3层空洞卷积层分别表示为D4,D8,D16,以表示这3层空洞卷积层的步长分别为{4,8,16};在第二卷积层之前还连接有一层卷积层,这层卷积层分别与第二卷积层中并行的3层空洞卷积层连接;在第二卷积层之前还连接有一层步长为2的卷积层(即图中的D2),这层卷积层分别与第二卷积层并行的3层空洞卷积层连接。第二卷积层中并行的3层空洞卷积层还连接有拼接模块,该拼接模块用于并行的3层空洞卷积层所提取的特征进行拼接,拼接得到的特征再经过一层步长为2的卷积层进行特征处理。
本实施例中,通过采用多层串行连接的卷积层来构成第一卷积层以及采用多层并行连接的卷积层来构成第二卷积层,能够在更细粒度的层次上提高整体网络的多尺度表示能力,从而有效提高网络的性能,即提高网络的去反射能力。
示例性地,第二网络中的特征融合模块具体可以是用于对第一卷积层所提取的中间特征以及第二卷积层所提取的特征进行特征拼接操作,从而得到拼接后的特征,所述拼接后的特征即为融合特征。此外,特征融合模块中还可以加入强化-操作-减量(Strengthen-Operate-Subtract,SOS)增强策略来增强融合操作,从而有效地利用两种不同的特征信息,得到融合性能较佳的融合特征。示例性地,可以参阅图9c,图9c为本申请实施例提供的一种特征融合模块的结构示意图。如图9c所示,特征1和特征2经过拼接模块进行强化融合后,融合得到的特征经过一个步长为2的卷积层进行处理,卷积层处理得到的特征再与特征2进行减量操作,最终得到融合特征。
可选的,所述第二网络的输入还包括所述第一图像的语义特征。终端将所述第一图像、所述第一图像的语义特征和所述中间特征输入所述第二网络,以得到所述第二网络输出的第二图像。也就是说,终端可以将第一图像以及第一图像的语义特征一并作为第二网络的输入,使得第二网络基于第一图像以及第一图像的语义特征执行图像增强。
通常来说,图像的语义分为低层特征和高层特征。图像底层特征指的是:轮廓、边缘、颜色、纹理和形状特征等细节特征。一般地,图像的低层特征的语义信息比较少,但是目标位置准确。图像的高层特征通常指的是人类所能看到的东西。比如,对一张人脸提取低层特征,可以提取到连着的轮廓、鼻子、眼睛之类的特征信息,那么高层的特征就显示为一张人脸。简单来说,高层特征用于描述图像中的物体的特征,能够用于识别并分类图像中的物体。高层特征的语义信息通常比较丰富,但是目标位置比较粗略。本实施例中,通过引入语义特征,能够提高第二网络的语义理解能力,让第二网络在比较高的维度保证图像去反射后的图像质量,比如图像颜色不出现偏色以及去除大块的反射区域,最终提升去反射结果的整体质量。
本实施例中,终端可以通过预训练网络来提取所述第一图像的语义特征,例如通过视觉几何组网络(Visual Geometry Group Network,VGG)来提取语义特征。在实际应用中,终端也可以采用其他的方式来提取所述第一图像的语义特征,本实施例不对提取语义特征的方式做具体限定。
可选的,所述第二网络还包括卷积块的注意力模块(Convolutional BlockAttentionModule,CBAM),所述卷积块的注意力模块与所述第二网络中的第一个特征单元连接,所述卷积块的注意力模块用于提取所述第一图像的特征,所述第二网络中的第一个特征单元用于对所述卷积块的注意力模块提取得到的特征进行特征提取。简单来说,在第二网络中所述卷积块的注意力模块位于所述第一个第二特征提取模块之前。所述卷积块的注意力模块对输入第二网络的图像进行特征提取后,再由第二特征提取模块对所述卷积块的注意力模块所提取的特征做进一步的特征提取。
可以参阅图10,图10为本申请实施例提供的一种卷积块的注意力模块的结构示意图。如图10所示,卷积块的注意力模块中包括依次连接的通道注意力模块和空间注意力模块。卷积块的注意力模块实际上是一个简单而有效的注意力模块的前馈卷积神经网络。通过给出一个中间特征映射,卷积块的注意力模块能够按照两个独立的维度、通道和空间顺序推断出注意力映射,然后将注意力映射相乘为自适应特征细化的输入特征映射。由于卷积块的注意力模块是一个轻量级和通用的模块,因此卷积块的注意力模块能够无缝地集成到卷积神经网络中,并仅仅是增加微不足道的计算开销。本实施例中,通过在第二网络中在使用卷积块的注意力模块来连续推断空域和通道信息的注意力图,从而能够自适应地提炼特征,以提高图像去反射的效果。
以上介绍了实施例提供的图像增强方法,以下将结合具体例子介绍采用本实施例提供的图像增强方法进行图像去反射的过程。
可以参阅图11a,图11a为本申请实施例提供的一种第一网络的结构示意图。如图11a所示,第一网络的输入为反射失真图像以及所述反射失真图像的色调图像,第一网络中的多个特征模块分别提取得到不同的中间特征,第一网络的输出为反射失真图像去反射后的色调图像。第一网络通过预测反射失真图像的色调图像来提取显著的反射特征作为中间特征,提供给第二网络,以帮助第二网络定位和去除反射区域,从而有效的去除图像中的反射区域,得到高质量的恢复图像。
可以参阅图11b,图11b为本申请实施例提供的一种第二网络的结构示意图。如图11b所示,第二网络的输入为反射失真图及所述反射失真图对应的语义特征,第二网络的输出为所述反射失真图对应的去反射图像。具体地,第二网络的输入部分引入语义特征来提高网络的语义理解能力,然后使用一个轻量级的卷积块的注意力模块来连续推断空域和通道信息的注意力图,从而自适应地提炼特征。提炼得到的特征再经过特征提取模块进行特征的进一步提取,并和第一网络所提供的中间特征进行增强融合,最后经过残差模块进一步精炼特征,从而得到最终的预测结果。
可以参阅图12,图12为本申请实施例提供的一种图像去反射网络的结构示意图。如图12所示,图像去反射网络由上述的第一网络和第二网络构成。第一网络中的特征提取模块与第二网络中的特征提取模块以及特征融合模块共同构成一个基础单元,图像去反射网络中共有n个基础单元。
假设反射失真图为I,反射失真图对应的色调图像为H,反射失真图对应的高层语义特征为G。第一网络所提取的中间特征记为F1、F2…Fn,第一网络的输出为H’。
第一网络以反射失真图I和色调图像H作为输入,经过n个特征提取模块来提取特征。具体地,第一网络通过第1个特征提取模块提取特征F1,并传给第二网络中对应的特征融合模块;第一网络通过第2个特征提取模块提取特征F2,并传给第二网络中对应的特征融合模块;以此类推,直至第一网络通过第n个特征提取模块提取特征Fn,并传给第二网络中最后一个特征融合模块。
假设第二网络中的特征提取模块所提取的特征记为T1、T2…Tn,特征融合模块融合后得到的特征记为S1、S2…Sn,第二网络的输出为T’。具体地,第二网络通过卷积块的注意力模块提炼特征,然后通过第1个特征提取模块提取得到特征T1,并通过特征融合模块1对特征T1和第一网络传递过来的特征F1进行增强融合,得到增强后的特征S1。第二网络再通过第2个特征提取模块对特征S1进行提取,得到特征T2,并通过特征融合模块2对特征T2和第一网络传递过来的特征F2进行增强融合,得到增强后的特征S2。以此类推,第二网络最后通过第n个特征提取模块对特征Sn-1进行提取,得到特征Tn,并通过特征融合模块n对特征Tn和第一网络传递过来的特征Fn进行增强融合,得到增强后的特征Sn。最后,第二网络再经过残差模块精炼特征Sn,得到最终的输出T’。
可以参阅图13,图13为本申请实施例提供的一种图像去反射网络的输入和输出的对比示意图。如图13所示,反射失真图和反射失真图的色调图像作为第一网络的输入,输入到第一网络中,且得到第一网络的输出图像。反射失真图和反射失真图对应的高层语义特征则作为第二网络的输入,输入到第二网络中;第一网络所提取的中间特征1和中间特征2同样输入到第二网络中,最终得到第二网络的输出图像。
以上介绍了本申请实施例提供的图像增强方法,以下将介绍一种网络模型的训练方法。通过该网络模型的训练方法,能够训练得到以上实施例所述的用于执行图像增强的网络。
可以参阅14,图14为本申请实施例提供的一种网络模型的训练方法的流程示意图。如图14所示,本申请实施例提供的一种网络模型的训练方法包括以下的步骤1401-1405。
步骤1401,获取图像样本对,所述图像样本对包括第一图像和所述第一图像的增强图像。
本实施例中,在执行网络模型的训练方法之前,可以预先获取图像样本对集合,所述图像样本对集合中包括多个图像样本对。每个图像样本对中包括一个第一图像以及该所述第一图像对应的的增强图像。示例性地,所述图像样本对中的第一图像可以为反射失真图,所述第一图像的增强图像可以为真值图像,即反射失真图对应的去反射图像。
其中,获取图像样本对集合的方式可以有多种。
在一种可能的实现方式中,通过在不同的情形下对相同的场景采集不同的图像,从而获得图像样本对。以图像样本对为反射失真图像为例,在图像采集的过程中,可以采集正常场景下的图像作为第一图像对应的增强的图像(即去反射图像),并且在具有反射现象的情况采集相同场景下的图像作为第一图像。例如,在通过终端采集完静止场景下的图像作为去反射图像之后,保持终端位置不变,在终端前放置能够反射光线的透明玻璃,通过终端采集相同场景下的图像作为反射失真图像。
在另一种可能的实现方式中,在采集得到无反射现象的图像之后,可以通过特定的算法,在图像上添加噪声,从而得到与该图像对应的失真图像。例如,在对图像添加反射噪声的情况下,添加反射噪声前的图像可以作为第一图像的增强图像,添加反射噪声后的图像则可以作为第一图像。
步骤1402,将第一图像输入第一网络,得到所述第一网络提取的一组或多组中间特征,所述一组或多组中间特征与所述第一图像的增强图像的色调分量相关,所述色调分量为色调,饱和度,明度HSV颜色空间中指示颜色信息的分量。
步骤1403,通过所述第二网络的处理,输出第二图像,所述第二图像为所述第一图像的增强图像,所述第二网络的输入包括所述第一图像和所述一组或多组中间特征。
本实施例中,步骤1402-1403与上述的步骤601-602类似,具体可以参考上述的步骤601-302,在此不再赘述。
步骤1404,根据所述图像样本对中的增强图像和所述第二图像获取第一损失函数,所述第一损失函数用于指示所述图像样本对中的增强图像和所述第二图像之间的差异。
在通过第二网络预测得到第一图像对应的预测图像之后,可以基于图像样本对中的增强图像和得到的预测图像来求取第一损失函数,所述第一损失函数用于指示所述图像样本对中的增强图像和所述第一预测图像之间的差异。
示例性地,所述第一损失函数可以包括内容损失函数、感知损失函数以及对抗损失函数中的一种或多种。其中,内容损失函数用于表示图像的内容保真度。例如,内容损失函数可以采用L1范式来表示。具体地,内容损失函数可以通过公式1来表示。
感知损失函数用于提供与高层语义特征相关的监督约束。示例性地,感知损失函数可以通过公式2来表示。
其中,Lc表示感知损失函数,T表示图像样本对中的增强图像,表示第二网络得到的预测图像,φ1,φ2,φ3分别表示提取VGG-19中的conv1_2层,conv3_2层和conv4_2层所得到的特征;λ1,λ2,λ3分别表示权重系数。
对抗损失函数用于增强所生成的透射层结果的真实性,并抑制偏色和减少伪影。
本实施例中,通过采用内容损失、感知损失以及对抗损失来约束网络,能够提高网络恢复图像的真实性,抑制偏色和减少伪影。
步骤1405,根据所述第一损失函数对所述第一网络和所述第二网络进行训练,得到训练后的第一网络和训练后的第二网络。
步骤1405中训练后得到的第一网络和第二网络可以参照图6对应的实施例中的描述,这里不再赘述。
在一个可能的实施例中,由于第一网络用于预测色调图像,为了保证第一网络的预测准确率,终端可以基于第一网络的输出以及输入获取损失函数,并且基于该损失函数一并对第一网络和第二网络进行训练。
具体地,终端可以获取所述第一预测图像的色调图像和图像样本对中的增强图像的色调图像,并根据所述第一预测图像的色调图像和图像样本对中的增强图像的色调图像获取第二损失函数,所述第二损失函数用于指示所述第一预测图像的色调图像和图像样本对中的增强图像的色调图像之间的差异。最后,终端可以根据所述第一损失函数和所述第二损失函数对所述第一网络和所述第二网络进行训练。
由于第二损失函数实际上是基于两个色调图像来求得的,因此如何准确地度量两个色调图像之间的差异对网络训练至关重要。可以参阅图15,图15为本申请实施例提供的一种色调图像的距离度量示意图。如图15所示,色调在HSV颜色空间中是分布式循环的。对于任意两个色调值,两个色调值之间的夹角在常规情况下小于180°,在两个色调值之间的夹角在最大值的情况下则等于180°。因此对于两个色调图像之间的距离不能够直接用常规的距离度量方式(例如L1距离或L2距离)来进行度量,而是需要针对色调的特性进行相应的调整。
示例性地,本申请实施例中提供了一种循环色调损失,能够对两个色调图像的距离进行度量。具体地,色调图像之间的距离度量方式如公式4和公式5所示。
Mi,j=1 when|Ha i,j-Hb i,j|≤0.5
Mi,j=0 when|Ha i,j-Hb i,j|>0.5 公式5
其中,Ha表示色调图像a中任一位置的色调值,表示色调图像b中同一位置的色调值,Dhue(Ha,Hb)表示色调图像a与色调图像b之间的损失函数。Mi,j表示权重系数。
简单来说,对于两个色调图像中任意一个位置的差值,在夹角小于0.5时取夹角本身,在夹角大于0.5时则取1与夹角之差的绝对值。然后,再对所有位置对应的差值求和,得到两个色调图像的距离,即循环色调损失。
在一个可能的实施例中,由于色调图像能够体现图像中的反射现象,因此为了提高第二网络的预测准确性,保证第二网络预测得到的图像能够准确消除反射现象,还可以引入循环色调损失来约束第二网络。
示例性地,终端可以获取图像样本对中的增强图像的色调图像和所述第一网络输出的第三图像,然后根据所述图像样本对中的增强图像的色调图像和所述第三图像获取第三损失函数,所述第三损失函数用于指示所述图像样本对中的增强图像的色调图像和所述第三图像获取第三损失函数之间的差异。其中,所述第三损失函数的求取方式与第二损失函数的求取方式类似,具体可以参考上述对第二损失函数的介绍,此处不再赘述。最终,终端根据所述第一损失函数、所述第二损失函数和所述第三损失函数对所述第一网络和所述第二网络进行训练。也就是说,终端可以基于所述第一损失函数、所述第二损失函数和所述第三损失函数确定最终的总损失函数,最终根据总损失函数对所述第一网络和所述第二网络进行训练。
示例性地,总损失函数具体如公式6和公式7所示。
L=α1*Lhue+α2*L1+α2*Lc+α3*Ladv 公式6
其中,L表示总损失函数;Lhue表示总色调损失函数,表示第一预测图像的色调图像和图像样本对中的增强图像的色调图像对应的第二损失函数,表示图像样本对中的增强图像的色调图像和第三图像对应的第三损失函数。L1表示内容损失函数。Lc表示感知损失函数。Ladv表示对抗损失函数。α1,α2,α3,β分别为权重系数,其值分别可以为50,0.2,0.01,2。
以本实施例方法用于进行图像去反射为例,本实施例在仿真数据集上进行了测试,以比较本实施方法与现有的图像去反射算法。
首先,本实施例中通过图像合成的方式得到3500对反射图像和真值(GroundTruth,GT)图像。反射图像是指带有反射区域的图像,真值图像则是指反射图像对应的去反射图像。并且,本实施例基于合成得到的图像分出多组测试数据,多组测试数据分别为natural-20、real-20以及wild-55。其中,natural-20包括20对反射图像和GT图像,real-20包括20对反射图像和GT图像,wild-55包括55对反射图像和GT图像。
可以参阅图16,图16为本申请实施例提供的网络去反射效果的对比示意图。如图16所示,本实施例采用相同的三组测试数据分别在传统网络以及本申请提供的网络上进行了测试,并且分别得到传统网络以及本申请提供的网络得到的去反射图像对应的峰值信噪比(Peak signal-to-noise ratio,PPNR)以及结构相似性(Structural SimilarityIndex,SSIM)。其中,PPNR是一个表示信号最大可能功率和影响它的表示精度的破坏性噪声功率的比值的工程术语,能够用于衡量一副图像的质量。SSIM是用于衡量两幅图像相似度的指标,用于评价算法处理的输出图像的质量。通常来说,图像对应的PPNR越大,则图像的质量越高;两幅图像的SSIM越大,则两幅图像的相似度越高。由图16可知,与传统网络相比,本申请提供的网络预测得到的图像具有更大的PPNR以及SSIM,证明本申请实施例提出的色调特征信息能够很好地用于实现图像去反射。
可以参阅图17,图17为本申请实施例提供的引入不同网络的去反射效果的对比示意图。如图17所示,在本申请实施例提供的网络仅包括上述第二网络时,网络的预测效果较差;在本申请实施例提供的网络包括上述的第一网络和第二网络时,网络的预测效果有所提高;在本申请实施例提供的网络包括上述的第一网络和第二网络,且采用循环色调损失来约束网络时,网络的预测效果最佳。也就是说,本申请实施例中所提出的能够提取色调特征信息的第一网络以及用于约束网络的循环色调损失对于图像去反射任务均有正向收益,能够有效提高图像去反射效果。
可以参阅图18,图18为本申请实施例提供的不同图像去反射方法的去反射效果的对比示意图。图18表示的是本申请实施例提供的图像去反射方法与现有的图像去反射方法在公开数据集上的评测结果,其中最后一行的数据表示的是本申请实施例提供的图像去反射方法对应的客观指标。可以看出,本申请实施例提供的图像去反射方法对应的客观指标均超过了现有的图像去反射方法对应的客观指标,即相比于现有的图像去反射方法,本申请实施例提供的图像去反射方法能够具有更佳的图像去反射效果。
可以参阅图19和图20,图19为本申请实施例提供的一种图像去反射效果的对比示意图;图20为本申请实施例提供的另一种图像去反射效果的对比示意图。由图19可以看出,本申请实施例提供的图像去反射方法预测得到的图像的视觉质量更高且与真值图像更加接近,并移除了绝大部分的反射,尤其是密集条纹反射(如第二组图的放大区域)和区域性反射(如第三组图的整体背景)。由图20可以看出,与现有的图像去反射方法相比,本申请实施例提供的图像去反射方法得到的结果去除反射最干净,视觉质量最高,进一步验证了本申请实施例提供的图像去反射方法的优越性。
可以参阅图21,图21为本申请实施例提供的一种图像处理装置的结构示意图。如图21所示,本申请实施例提供的一种图像处理装置,包括:处理单元2101。所述处理单元2101,用于:将第一图像输入第一网络,得到所述第一网络提取的一组或多组中间特征,所述一组或多组中间特征与所述第一图像的增强图像的色调分量相关,所述色调分量为色调,饱和度,明度HSV颜色空间中指示颜色信息的分量;通过所述第二网络的处理,输出第二图像,所述第二图像为所述第一图像的增强图像,所述第二网络的输入包括所述第一图像和所述一组或多组中间特征。
在一种可能的实现方式中,所述处理单元2101还用于通过所述第一网络中串行的一个或多个第一卷积层提取得到所述一组或多组中间特征。
在一种可能的实现方式中,所述第一卷积层包括多层串行连接的卷积层。
在一种可能的实现方式中,所述处理单元2101还用于:通过所述第二网络提取得到所述第一图像的特征;通过所述第二网络融合所述第一图像的特征和所述一组或多组中间特征,得到一组或多组融合特征;通过所述第二网络处理所述一组或多组融合特征,得到所述第二图像。
在一种可能的实现方式中,通过所述第二网络中串行的一个或多个特征单元融合所述第一图像的特征和所述一组或多组中间特征,得到一组或多组融合特征;其中,所述一个或多个特征单元中的每个特征单元包括第二卷积层和特征融合模块,所述每个特征单元中的第二卷积层的输入为前一个特征单元中的特征融合模块所输出的融合特征,所述每个特征单元中的特征融合模块的输入为对应的一组中间特征和同一个特征单元中的第二卷积层的输出,所述一个或多个特征单元中的特征融合模块具有一一对应的一组中间特征。
在一种可能的实现方式中,所述第二卷积层包括多层并行连接的卷积层。
在一种可能的实现方式中,所述处理单元2101还用于:对所述第一图像进行处理,得到所述第一图像对应的色调图像,所述色调图像包括HSV颜色空间的色调分量;将所述第一图像对应的色调图像输入所述第一网络,以与所述第一图像共同经过所述第一网络的处理,得到所述一组或多组中间特征。
在一种可能的实现方式中,所述处理单元2101还用于:将第一图像输入第一网络,以得到的第一图像的色调图像;将所述色调图像输入所述第一网络,以与所述第一图像共同经过所述第一网络的处理,得到所述一组或多组中间特征,所述色调图像包括HSV颜色空间的色调分量。
在一种可能的实现方式中,所述第二网络的输入还包括所述第一图像的语义特征。
在一种可能的实现方式中,所述装置用于实现以下图像增强任务中的至少一种:图像去反射、图像去阴影以及图像去雾。
可以参阅图22,图22为本申请实施例提供的一种模型训练装置的结构示意图。如图22所示,本申请实施例提供的一种模型训练装置,包括:获取单元2201和处理单元2202。所述获取单元2201,用于获取图像样本对,所述图像样本对包括第一图像和所述第一图像的增强图像;所述处理单元2202用于:将第一图像输入第一网络,得到所述第一网络提取的一组或多组中间特征,所述一组或多组中间特征与所述第一图像的增强图像的色调分量相关,所述色调分量为色调,饱和度,明度HSV颜色空间中指示颜色信息的分量;通过所述第二网络的处理,输出第二图像,所述第二图像为所述第一图像的增强图像,所述第二网络的输入包括所述第一图像和所述一组或多组中间特征;根据所述图像样本对中的增强图像和所述第二图像获取第一损失函数,所述第一损失函数用于指示所述图像样本对中的增强图像和所述第二图像之间的差异;根据所述第一损失函数对所述第一网络和所述第二网络进行训练,得到训练后的第一网络和训练后的第二网络。
在一种可能的实现方式中,所述获取单元2201还用于获取所述第二图像的色调图像和图像样本对中的增强图像的色调图像;所述获取单元2201还用于根据所述第二图像的色调图像和图像样本对中的增强图像的色调图像获取第二损失函数,所述第二损失函数用于指示所述第二图像的色调图像和图像样本对中的增强图像的色调图像之间的差异;所述处理单元2202还用于根据所述第一损失函数和所述第二损失函数对所述第一网络和所述第二网络进行训练。
在一种可能的实现方式中,所述获取单元2201还用于获取图像样本对中的增强图像的色调图像和所述第一网络输出的第三图像;所述获取单元2201还用于根据所述图像样本对中的增强图像的色调图像和所述第三图像获取第三损失函数,所述第三损失函数用于指示所述图像样本对中的增强图像的色调图像和所述第三图像获取第三损失函数之间的差异;所述处理单元2202还用于根据所述第一损失函数、所述第二损失函数和所述第三损失函数对所述第一网络和所述第二网络进行训练。
在一种可能的实现方式中,所述处理单元2202还用于通过所述第一网络中串行的一个或多个第一卷积层提取得到所述一组或多组中间特征。
在一种可能的实现方式中,所述第一卷积层包括多层串行连接的卷积层。
在一种可能的实现方式中,所述处理单元2202还用于通过所述第二网络提取得到所述第一图像的特征;通过所述第二网络融合所述第一图像的特征和所述一组或多组中间特征,得到一组或多组融合特征;通过所述第二网络处理所述一组或多组融合特征,得到所述第二图像。
在一种可能的实现方式中,所述处理单元2202还用于通过所述第二网络中串行的一个或多个特征单元融合所述第一图像的特征和所述一组或多组中间特征,得到一组或多组融合特征;其中,所述一个或多个特征单元中的每个特征单元包括第二卷积层和特征融合模块,所述每个特征单元中的第二卷积层的输入为前一个特征单元中的特征融合模块所输出的融合特征,所述每个特征单元中的特征融合模块的输入为对应的一组中间特征和同一个特征单元中的第二卷积层的输出,所述一个或多个特征单元中的特征融合模块具有一一对应的一组中间特征。
在一种可能的实现方式中,所述第二卷积层包括多层并行连接的卷积层。
在一种可能的实现方式中,所述处理单元2202还用于对所述第一图像进行处理,得到所述第一图像对应的色调图像,所述色调图像包括HSV颜色空间的色调分量;将所述第一图像对应的色调图像输入所述第一网络,以与所述第一图像共同经过所述第一网络的处理,得到所述一组或多组中间特征。
在一种可能的实现方式中,所述处理单元2202还用于将第一图像输入第一网络,以得到的第一图像的色调图像;将所述色调图像输入所述第一网络,以与所述第一图像共同经过所述第一网络的处理,得到所述一组或多组中间特征,所述色调图像包括HSV颜色空间的色调分量。
在一种可能的实现方式中,所述第二网络的输入还包括所述第一图像的语义特征。
在一种可能的实现方式中,所述装置用于实现以下图像增强任务中的至少一种:图像去反射、图像去阴影以及图像去雾。
接下来介绍本申请实施例提供的一种执行设备,请参阅图23,图23为本申请实施例提供的执行设备的一种结构示意图,执行设备2300具体可以表现为手机、平板、笔记本电脑、智能穿戴设备、服务器等,此处不做限定。其中,执行设备2300上可以部署有图23对应实施例中所描述的数据处理装置,用于实现图23对应实施例中数据处理的功能。具体的,执行设备2300包括:接收器2301、发射器2302、处理器2303和存储器2304(其中执行设备2300中的处理器2303的数量可以一个或多个,图23中以一个处理器为例),其中,处理器2303可以包括应用处理器23031和通信处理器23032。在本申请的一些实施例中,接收器2301、发射器2302、处理器2303和存储器2304可通过总线或其它方式连接。
存储器2304可以包括只读存储器和随机存取存储器,并向处理器2303提供指令和数据。存储器2304的一部分还可以包括非易失性随机存取存储器(non-volatile randomaccess memory,NVRAM)。存储器2304存储有处理器和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。
处理器2303控制执行设备的操作。具体的应用中,执行设备的各个组件通过总线***耦合在一起,其中总线***除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都称为总线***。
上述本申请实施例揭示的方法可以应用于处理器2303中,或者由处理器2303实现。处理器2303可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器2303中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器2303可以是通用处理器、数字信号处理器(digital signal processing,DSP)、微处理器或微控制器,还可进一步包括专用集成电路(application specific integratedcircuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。该处理器2303可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器2304,处理器2303读取存储器2304中的信息,结合其硬件完成上述方法的步骤。
接收器2301可用于接收输入的数字或字符信息,以及产生与执行设备的相关设置以及功能控制有关的信号输入。发射器2302可用于通过第一接口输出数字或字符信息;发射器2302还可用于通过第一接口向磁盘组发送指令,以修改磁盘组中的数据;发射器2302还可以包括显示屏等显示设备。
本申请实施例中,在一种情况下,处理器2303,用于执行图6对应实施例中的执行设备执行的图像增强方法。
本申请实施例中还提供一种包括计算机程序产品,当其在计算机上运行时,使得计算机执行如前述执行设备所执行的步骤,或者,使得计算机执行如前述训练设备所执行的步骤。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有用于进行信号处理的程序,当其在计算机上运行时,使得计算机执行如前述执行设备所执行的步骤,或者,使得计算机执行如前述训练设备所执行的步骤。
本申请实施例提供的执行设备、训练设备或终端设备具体可以为芯片,芯片包括:处理单元和通信单元,所述处理单元例如可以是处理器,所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令,以使执行设备内的芯片执行上述实施例描述的图像增强方法,或者,以使训练设备内的芯片执行上述实施例描述的图像增强方法。可选地,所述存储单元为所述芯片内的存储单元,如寄存器、缓存等,所述存储单元还可以是所述无线接入设备端内的位于所述芯片外部的存储单元,如只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)等。
具体的,请参阅图24,图24为本申请实施例提供的芯片的一种结构示意图,所述芯片可以表现为神经网络处理器NPU 2400,NPU 2400作为协处理器挂载到主CPU(Host CPU)上,由Host CPU分配任务。NPU的核心部分为运算电路2403,通过控制器2404控制运算电路2403提取存储器中的矩阵数据并进行乘法运算。
在一些实现中,运算电路2403内部包括多个处理单元(Process Engine,PE)。在一些实现中,运算电路2403是二维脉动阵列。运算电路2403还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中,运算电路2403是通用的矩阵处理器。
举例来说,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路从权重存储器2402中取矩阵B相应的数据,并缓存在运算电路中每一个PE上。运算电路从输入存储器2401中取矩阵A数据与矩阵B进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器(accumulator)2408中。
统一存储器2406用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(Direct Memory Access Controller,DMAC)2405,DMAC被搬运到权重存储器2402中。输入数据也通过DMAC被搬运到统一存储器2406中。
BIU为Bus Interface Unit即,总线接口单元2413,用于AXI总线与DMAC和取指存储器(Instruction Fetch Buffer,IFB)2409的交互。
总线接口单元2413(Bus Interface Unit,简称BIU),用于取指存储器2409从外部存储器获取指令,还用于存储单元访问控制器2405从外部存储器获取输入矩阵A或者权重矩阵B的原数据。
DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器2406或将权重数据搬运到权重存储器2402中或将输入数据数据搬运到输入存储器2401中。
向量计算单元2407包括多个运算处理单元,在需要的情况下,对运算电路2403的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。主要用于神经网络中非卷积/全连接层网络计算,如Batch Normalization(批归一化),像素级求和,对特征平面进行上采样等。
在一些实现中,向量计算单元2407能将经处理的输出的向量存储到统一存储器2406。例如,向量计算单元2407可以将线性函数;或,非线性函数应用到运算电路2403的输出,例如对卷积层提取的特征平面进行线性插值,再例如累加值的向量,用以生成激活值。在一些实现中,向量计算单元2407生成归一化的值、像素级求和的值,或二者均有。在一些实现中,处理过的输出的向量能够用作到运算电路2403的激活输入,例如用于在神经网络中的后续层中的使用。
控制器2404连接的取指存储器(instruction fetch buffer)2409,用于存储控制器2404使用的指令;
统一存储器2406,输入存储器2401,权重存储器2402以及取指存储器2409均为On-Chip存储器。外部存储器私有于该NPU硬件架构。
其中,上述任一处提到的处理器,可以是一个通用中央处理器,微处理器,ASIC,或一个或多个用于控制上述程序执行的集成电路。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本申请提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,训练设备,或者网络设备等)执行本申请各个实施例所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
Claims (16)
1.一种图像增强方法,其特征在于,包括:
将第一图像输入第一网络,得到所述第一网络提取的一组或多组中间特征,所述一组或多组中间特征与所述第一图像的增强图像的色调分量相关,所述色调分量为色调,饱和度,明度HSV颜色空间中指示颜色信息的分量;
通过第二网络的处理,输出第二图像,所述第二图像为所述第一图像的增强图像,所述第二网络的输入包括所述第一图像和所述一组或多组中间特征。
2.根据权利要求1所述的方法,其特征在于,所述将第一图像输入第一网络,得到所述第一网络提取的一组或多组中间特征,包括:
通过所述第一网络中串行的一个或多个第一卷积层提取得到所述一组或多组中间特征。
3.根据权利要求2所述的方法,其特征在于,所述第一卷积层包括多层串行连接的卷积层。
4.根据权利要求1-3任意一项所述的方法,其特征在于,所述通过所述第二网络的处理,输出第二图像,包括:
通过所述第二网络提取得到所述第一图像的特征;
通过所述第二网络融合所述第一图像的特征和所述一组或多组中间特征,得到一组或多组融合特征;
通过所述第二网络处理所述一组或多组融合特征,得到所述第二图像。
5.根据权利要求4所述的方法,其特征在于,所述通过所述第二网络融合所述第一图像的特征和所述一组或多组中间特征,得到融合特征,包括:
通过所述第二网络中串行的一个或多个特征单元融合所述第一图像的特征和所述一组或多组中间特征,得到一组或多组融合特征;
其中,所述一个或多个特征单元中的每个特征单元包括第二卷积层和特征融合模块,所述每个特征单元中的第二卷积层的输入为前一个特征单元中的特征融合模块所输出的融合特征,所述每个特征单元中的特征融合模块的输入为对应的一组中间特征和同一个特征单元中的第二卷积层的输出,所述一个或多个特征单元中的特征融合模块具有一一对应的一组中间特征。
6.根据权利要求5所述的方法,其特征在于,所述第二卷积层包括多层并行连接的卷积层。
7.根据权利要求1-6任意一项所述的方法,其特征在于,所述方法还包括:
对所述第一图像进行处理,得到所述第一图像对应的色调图像,所述色调图像包括HSV颜色空间的色调分量;
将所述第一图像对应的色调图像输入所述第一网络,以与所述第一图像共同经过所述第一网络的处理,得到所述一组或多组中间特征。
8.根据权利要求1-6任意一项所述的方法,其特征在于,所述方法还包括:
将第一图像输入第一网络,以得到的第一图像的色调图像;
将所述色调图像输入所述第一网络,以与所述第一图像共同经过所述第一网络的处理,得到所述一组或多组中间特征,所述色调图像包括HSV颜色空间的色调分量。
9.根据权利要求1-8任意一项所述的方法,其特征在于,所述第二网络的输入还包括所述第一图像的语义特征。
10.根据权利要求1-9任意一项所述的方法,其特征在于,所述方法用于实现以下图像增强任务中的至少一种:图像去反射、图像去阴影以及图像去雾。
11.一种网络模型的训练方法,其特征在于,包括:
获取图像样本对,所述图像样本对包括第一图像和所述第一图像的增强图像;
将第一图像输入第一网络,得到所述第一网络提取的一组或多组中间特征,所述一组或多组中间特征与所述第一图像的增强图像的色调分量相关,所述色调分量为色调,饱和度,明度HSV颜色空间中指示颜色信息的分量;
通过所述第二网络的处理,输出第二图像,所述第二图像为所述第一图像的增强图像,所述第二网络的输入包括所述第一图像和所述一组或多组中间特征;
根据所述图像样本对中的增强图像和所述第二图像获取第一损失函数,所述第一损失函数用于指示所述图像样本对中的增强图像和所述第二图像之间的差异;
根据所述第一损失函数对所述第一网络和所述第二网络进行训练,得到训练后的第一网络和训练后的第二网络。
12.根据权利要求11所述的方法,其特征在于,所述方法还包括:
获取所述第二图像的色调图像和图像样本对中的增强图像的色调图像;
根据所述第二图像的色调图像和图像样本对中的增强图像的色调图像获取第二损失函数,所述第二损失函数用于指示所述第二图像的色调图像和图像样本对中的增强图像的色调图像之间的差异;
所述根据所述第一损失函数对所述第一网络和所述第二网络进行训练,包括:
根据所述第一损失函数和所述第二损失函数对所述第一网络和所述第二网络进行训练。
13.根据权利要求12所述的方法,其特征在于,所述方法还包括:
获取图像样本对中的增强图像的色调图像和所述第一网络输出的第三图像;
根据所述图像样本对中的增强图像的色调图像和所述第三图像获取第三损失函数,所述第三损失函数用于指示所述图像样本对中的增强图像的色调图像和所述第三图像获取第三损失函数之间的差异;
所述根据所述第一损失函数和所述第二损失函数对所述第一网络和所述第二网络进行训练,包括:
根据所述第一损失函数、所述第二损失函数和所述第三损失函数对所述第一网络和所述第二网络进行训练。
14.一种图像处理装置,其特征在于,包括存储器和处理器;所述存储器存储有代码,所述处理器被配置为执行所述代码,当所述代码被执行时,所述图像处理装置执行如权利要求1至13任意一项所述的方法。
15.一种计算机存储介质,其特征在于,所述计算机存储介质存储有指令,所述指令在由计算机执行时使得所述计算机实施权利要求1至13任意一项所述的方法。
16.一种计算机程序产品,其特征在于,所述计算机程序产品存储有指令,所述指令在由计算机执行时使得所述计算机实施权利要求1至13任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110221939.0A CN113066019A (zh) | 2021-02-27 | 2021-02-27 | 一种图像增强方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110221939.0A CN113066019A (zh) | 2021-02-27 | 2021-02-27 | 一种图像增强方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113066019A true CN113066019A (zh) | 2021-07-02 |
Family
ID=76559201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110221939.0A Pending CN113066019A (zh) | 2021-02-27 | 2021-02-27 | 一种图像增强方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113066019A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103679657A (zh) * | 2013-12-10 | 2014-03-26 | 三峡大学 | 一种图像对比度增强的方法和装置 |
CN108447036A (zh) * | 2018-03-23 | 2018-08-24 | 北京大学 | 一种基于卷积神经网络的低光照图像增强方法 |
CN109859144A (zh) * | 2019-02-22 | 2019-06-07 | 上海商汤智能科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN110188776A (zh) * | 2019-05-30 | 2019-08-30 | 京东方科技集团股份有限公司 | 图像处理方法及装置、神经网络的训练方法、存储介质 |
CN110796595A (zh) * | 2019-10-31 | 2020-02-14 | 北京大学深圳研究生院 | 一种色调映射方法、装置及电子设备 |
CN111145106A (zh) * | 2019-12-06 | 2020-05-12 | 深圳市雄帝科技股份有限公司 | 一种图像增强方法、装置、介质及设备 |
CN111583161A (zh) * | 2020-06-17 | 2020-08-25 | 上海眼控科技股份有限公司 | 模糊图像的增强方法、计算机设备和存储介质 |
CN111738942A (zh) * | 2020-06-10 | 2020-10-02 | 南京邮电大学 | 一种融合特征金字塔的生成对抗网络图像去雾方法 |
CN112116537A (zh) * | 2020-08-31 | 2020-12-22 | 中国科学院长春光学精密机械与物理研究所 | 图像反射光消除方法及图像反射光消除网络构建方法 |
-
2021
- 2021-02-27 CN CN202110221939.0A patent/CN113066019A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103679657A (zh) * | 2013-12-10 | 2014-03-26 | 三峡大学 | 一种图像对比度增强的方法和装置 |
CN108447036A (zh) * | 2018-03-23 | 2018-08-24 | 北京大学 | 一种基于卷积神经网络的低光照图像增强方法 |
CN109859144A (zh) * | 2019-02-22 | 2019-06-07 | 上海商汤智能科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN110188776A (zh) * | 2019-05-30 | 2019-08-30 | 京东方科技集团股份有限公司 | 图像处理方法及装置、神经网络的训练方法、存储介质 |
CN110796595A (zh) * | 2019-10-31 | 2020-02-14 | 北京大学深圳研究生院 | 一种色调映射方法、装置及电子设备 |
CN111145106A (zh) * | 2019-12-06 | 2020-05-12 | 深圳市雄帝科技股份有限公司 | 一种图像增强方法、装置、介质及设备 |
CN111738942A (zh) * | 2020-06-10 | 2020-10-02 | 南京邮电大学 | 一种融合特征金字塔的生成对抗网络图像去雾方法 |
CN111583161A (zh) * | 2020-06-17 | 2020-08-25 | 上海眼控科技股份有限公司 | 模糊图像的增强方法、计算机设备和存储介质 |
CN112116537A (zh) * | 2020-08-31 | 2020-12-22 | 中国科学院长春光学精密机械与物理研究所 | 图像反射光消除方法及图像反射光消除网络构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110532871B (zh) | 图像处理的方法和装置 | |
CN110222717B (zh) | 图像处理方法和装置 | |
CN111402146B (zh) | 图像处理方法以及图像处理装置 | |
CN111291809B (zh) | 一种处理装置、方法及存储介质 | |
CN112446270A (zh) | 行人再识别网络的训练方法、行人再识别方法和装置 | |
CN111914997B (zh) | 训练神经网络的方法、图像处理方法及装置 | |
CN111667399A (zh) | 风格迁移模型的训练方法、视频风格迁移的方法以及装置 | |
CN113066017B (zh) | 一种图像增强方法、模型训练方法及设备 | |
CN112446834A (zh) | 图像增强方法和装置 | |
CN113284054A (zh) | 图像增强方法以及图像增强装置 | |
CN112446380A (zh) | 图像处理方法和装置 | |
CN112308200A (zh) | 神经网络的搜索方法及装置 | |
CN113705769A (zh) | 一种神经网络训练方法以及装置 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN112598597A (zh) | 一种降噪模型的训练方法及相关装置 | |
CN113191489B (zh) | 二值神经网络模型的训练方法、图像处理方法和装置 | |
CN113326930A (zh) | 数据处理方法、神经网络的训练方法及相关装置、设备 | |
CN113011562A (zh) | 一种模型训练方法及装置 | |
CN111832592A (zh) | Rgbd显著性检测方法以及相关装置 | |
CN112257759A (zh) | 一种图像处理的方法以及装置 | |
CN115311186B (zh) | 一种红外与可见光图像跨尺度注意力对抗融合方法及终端 | |
CN114359289A (zh) | 一种图像处理方法及相关装置 | |
CN113066018A (zh) | 一种图像增强方法及相关装置 | |
CN113536970A (zh) | 一种视频分类模型的训练方法及相关装置 | |
CN113627163A (zh) | 一种注意力模型、特征提取方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |