CN116580269B - 训练模型的方法、处理图像的方法、电子设备及存储介质 - Google Patents
训练模型的方法、处理图像的方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116580269B CN116580269B CN202310854693.XA CN202310854693A CN116580269B CN 116580269 B CN116580269 B CN 116580269B CN 202310854693 A CN202310854693 A CN 202310854693A CN 116580269 B CN116580269 B CN 116580269B
- Authority
- CN
- China
- Prior art keywords
- image
- module
- model
- output
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 187
- 238000012549 training Methods 0.000 title claims abstract description 122
- 238000012545 processing Methods 0.000 title claims abstract description 53
- 238000010586 diagram Methods 0.000 claims abstract description 88
- 230000008569 process Effects 0.000 claims abstract description 81
- 239000011159 matrix material Substances 0.000 claims description 204
- 238000005070 sampling Methods 0.000 claims description 182
- 230000006870 function Effects 0.000 claims description 55
- 238000006731 degradation reaction Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000000926 separation method Methods 0.000 claims description 8
- 230000015556 catabolic process Effects 0.000 claims description 7
- 230000009467 reduction Effects 0.000 description 18
- 230000009286 beneficial effect Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 5
- 230000004927 fusion Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000003708 edge detection Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种训练模型的方法、处理图像的方法、电子设备及存储介质,该方法包括:通过第一编码器得到第一图像的特征图,以及通过第二编码器得到第二图像的第一特征图;对第一图像的特征图和第一噪声图融合,得到融合后的第一结果;将融合后的第一结果和第二图像的第一特征图融合,得到融合后的第二结果;将融合后的第一结果和融合后的第二结果输入至目标模块,得到第一待训练模型输出的第二噪声图;根据第二噪声图与第一噪声图,确定第一待训练模型的目标参数。上述过程中,由于第一图像的特征图和第二图像的第一特征图对应相同的特征空间,能够避免得到的图像颜色改变太大的问题,同时,第二图像能够控制基于模型得到的图像的细节。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种训练模型的方法、处理图像的方法、电子设备及存储介质。
背景技术
随着深度学习技术的不断发展,其应用范围也越来越广,例如,通过对深度学习模型进行训练,利用训练好的模型来提高输入图像的分辨率。
相关技术中存在一种能够提高图像分辨率的模型,然而,通过该模型得到的输出图像相对于原图像,虽然提高了分辨率,但是在图像细节方面、图像颜色方面与原图像存在较大差别。
发明内容
本申请提供一种训练模型的方法、处理图像的方法、电子设备及存储介质,该方法在训练模型过程中,由于第一图像的特征图和第二图像的第一特征图对应相同的特征空间,能够避免得到的图像颜色改变太大的问题,同时,将第二图像作为第二编码器的输入能够控制基于模型得到的图像的细节。
第一方面,提供了一种训练模型的方法,第一待训练模型包括:第一编码器、第二编码器以及目标模块,该方法包括:
通过第一编码器将第一图像从图像空间编码至特征空间,得到第一图像的特征图,以及通过第二编码器将第二图像从图像空间编码至特征空间,得到第二图像的第一特征图,其中,第二图像和第一图像的区别为:第二图像的分辨率低于第一图像的分辨率,第一图像的特征图和第二图像的第一特征图对应相同的特征空间;
对第一图像的特征图和第一噪声图融合,得到融合后的第一结果;
将融合后的第一结果和第二图像的第一特征图融合,得到融合后的第二结果;
将融合后的第一结果和融合后的第二结果输入至目标模块,得到第一待训练模型输出的第二噪声图,其中,目标模块用于预测融合后的第一结果中的噪声;
根据第二噪声图与第一噪声图,确定第一待训练模型的目标参数。
本实施例中,在训练第一待训练模型的过程中,将第一图像的特征图添加噪声后得到的第一结果、第二图像(作为第一待训练模型的控制条件)的第一特征图和第一结果融合后的第二结果输入至目标模块预测第一结果中的噪声,由于第二图像仅分辨率低于第一图像,相比于将第一图像的边缘图、深度图或者分割图等图像作为第一待训练模型的控制条件,第二图像包含了第一图像中的所有图像细节,能够使得在预测第一结果中的噪声,即第二噪声图时,将第二图像的图像细节考虑在内,最终通过第一噪声图与通过目标模块得到的第二噪声图,确定第一待训练模型收敛时的目标参数。
因此,在第一待训练模型收敛之后得到的第一目标模型的应用阶段,可以使得在将输入至第一目标模型的低分辨率图像作为第一目标模型的控制条件时,通过第一目标模型得到的第一目标图像与输入的低分辨率图像的图像细节一致,第一目标图像是通过第一目标模型输出的噪声对输入至第一目标模型的噪声进行多次迭代降噪后得到的结果经过解码器解码后得到的,第一目标模型输出的噪声是第一目标模型基于每次输入的噪声和低分辨率图像得到的,除初始输入至第一目标模型的噪声以外,输入至第一目标模型的其他噪声是每次迭代降噪后得到的结果,解码器与第一编码器相匹配,因此,通过上述过程能够使得第一目标图像相对于低分辨率图像,在提高分辨率的基础上,避免第一目标图像在图像细节方面与低分辨率图像存在较大差别。
此外,通过使基于第一编码器得到的第一图像的特征图和基于第二编码器得到的第二图像的第一特征图对应相同的特征空间,因此,对第一图像的特征图添加噪声后得到的第一结果与第二图像的第一特征图仍对应相同的特征空间,在这种情况下,在第二图像的第一特征图和第一结果的融合过程中,由于二者对应相同的特征空间,即用于表征第一特征图的多个矩阵代表的特征信息与用于表征第一结果的多个矩阵代表的特征信息是一一对应的,在将用于表征第一特征图的多个矩阵与用于表征第一结果的多个矩阵一一对应相加时,能够保证表征同一特征信息的一组矩阵对应相加,从而使得在第一目标模型的应用阶段,能够使得第一目标图像相对于低分辨率图像,在提高分辨率的基础上,能够避免第一目标图像在图像颜色方面与低分辨率图像存在较大差别。
在一种可能的实现方式中,目标模块包括串联在一起的至少一个第一下采样模块、串联在一起的至少一个第一上采样模块、串联在一起的多个第二下采样模块,至少一个第一下采样模块与至少一个第一上采样模块串联,至少一个第一下采样模块、至少一个第一上采样模块各自对应的输出矩阵的最大阶数、最小阶数均相同,多个第二下采样模块对应的输出矩阵的阶数是至少一个第一上采样模块对应的输出矩阵的阶数的子集;
将融合后的第一结果和融合后的第二结果输入至目标模块,得到第一待训练模型输出的第二噪声图,包括:
通过至少一个第一下采样模块依次对上一级模块的输出下采样,得到第一下采样结果,第一下采样结果为至少一个第一下采样模块中输出矩阵的阶数最小的第一下采样模块的输出,其中,至少一个第一下采样模块中输出矩阵的阶数最大的第一下采样模块的输入为融合后的第一结果;
通过多个第二下采样模块依次对上一级模块的输出下采样,得到多个第二下采样结果,其中,多个第二下采样模块中输出矩阵的阶数最大的第二下采样模块的输入为融合后的第二结果;
通过至少一个第一上采样模块依次对各自的输入上采样,得到至少一个第一上采样结果,至少一个第一上采样模块中输出矩阵的阶数最大的第一上采样模块的输出为第二噪声图,或者,多个第二下采样模块中与至少一个第一上采样模块中输出矩阵的最大阶数相同的第二下采样模块的输出与至少一个第一上采样模块中输出矩阵的阶数最大的第一上采样模块的输出相加后的结果为第二噪声图;
其中,至少一个第一上采样模块中输出矩阵的阶数最小的第一上采样模块的输入为第一下采样结果;至少一个第一上采样模块中目标上采样模块的输入为目标上采样模块的上一级模块的输出与多个第二下采样模块中输出矩阵的阶数最小的第二下采样模块的输出相加后的结果,目标上采样模块为至少一个第一上采样模块中输出矩阵的阶数与多个第二下采样模块中输出矩阵的最小阶数相同的第一上采样模块的下一级模块;至少一个第一上采样模块中其他上采样模块的输入为上一级模块的输出,或者,为上一级模块的输出与多个第二下采样模块中与上一级模块的输出矩阵的阶数相同的第二下采样模块的输出相加后的结果。
本实施例中,在预测噪声时,目标模块作为预测噪声的模型,通过目标模块中串联在一起的至少一个第一下采样模块对第一图像的特征图和第一噪声图融合后的第一结果进行下采样,即:对第一结果对应的输出矩阵进行特征提取,将第一结果对应的输出矩阵的阶数不断缩小直到得到最小阶数的输出矩阵(第一下采样结果),通过目标模块中串联在一起的多个第二下采样模块对第一结果和第二图像的第一特征图融合后的第二结果进行下采样,即:对第二结果对应的输出矩阵进行特征提取,将第二结果对应的输出矩阵的阶数不断缩小,得到每个第二下采样模块对应的第二下采样结果;针对目标模块中的至少一个第一上采样模块,将第一下采样结果作为至少一个第一上采样模块中输出矩阵的阶数最小的第一上采样模块的输入,将至少一个第一上采样模块中输出矩阵的阶数与多个第二下采样模块中输出矩阵的最小阶数相同的第一上采样模块的输出与多个第二下采样模块中输出矩阵的阶数最小的第二下采样模块的输出相加,作为目标上采样模块的输入,将上一级模块的输出,或者上一级模块的输出与多个第二下采样模块中与上一级模块的输出矩阵的阶数相同的第二下采样模块的输出相加后的结果作为其他上采样模块的输入,通过至少一个第一上采样模块依次对各自的输入上采样,得到至少一个第一上采样结果,至少一个第一上采样模块中输出矩阵的阶数最大的第一上采样模块的输出为第一待训练模型输出的第二噪声图,或者,多个第二下采样模块中与至少一个第一上采样模块中输出矩阵的最大阶数相同的第二下采样模块的输出与至少一个第一上采样模块中输出矩阵的阶数最大的第一上采样模块的输出相加后的结果为第一待训练模型输出的第二噪声图,上述过程中,通过串联在一起的多个第二下采样模块对第一结果和第二图像的第一特征图融合后的第二结果进行下采样,有利于提取出第二图像更多的特征,将第二下采样结果与至少一个第一上采样模块中对应模块的输出相加,能够将多个第二下采样模块中的至少一个模块和至少一个第一上采样模块进行连接,将第二图像的信息传递给至少一个第一上采样模块,更好的对第一待训练模型进行训练,该目标模块具有较好的生成能力,能够保证第二噪声图的准确性。
在一种可能的实现方式中,根据第二噪声图与第一噪声图,确定第一待训练模型的目标参数,包括:
采用第一预设损失函数,确定第二噪声图与第一噪声图的第一损失值;
根据第一损失值与第一预设阈值的大小关系,确定第一待训练模型的目标参数。
本实施例中,第一预设损失函数为第一待训练模型是否训练合格的衡量标准,能够有效保证训练得到的模型具有较高精度的输出结果。
在一种可能的实现方式中,根据第一损失值与第一预设阈值的大小关系,确定第一待训练模型的目标参数,包括:
在第一损失值大于或等于第一预设阈值的情况下,返回执行:通过第一编码器将第一图像从图像空间编码至特征空间,得到第一图像的特征图,以及通过第二编码器将第二图像从图像空间编码至特征空间,得到第二图像的第一特征图,直至第一损失值小于第一预设阈值,并将第一损失值小于第一预设阈值的情况下对应的第一待训练模型训练过程中使用的参数作为目标参数,其中,第一损失值小于第一预设阈值的情况下对应的第一待训练模型训练过程中使用的参数是对上一次第一待训练模型训练过程中使用的参数调整后获得的。
本实施例中,在第一损失值大于或等于第一预设阈值的情况下,对上一次第一待训练模型训练过程中使用的参数进行调整,并将调整后的参数作为当前第一待训练模型训练过程中使用的参数,对第一待训练模型进行训练,直到第一损失值小于第一预设阈值时停止训练,得到目标参数,通过该过程能够得到较为准确的模型参数,有利于提高模型的性能。
在一种可能的实现方式中,在通过第二编码器将第二图像从图像空间编码至特征空间,得到第二图像的第一特征图之前,该方法还包括:
对第一图像进行退化处理,得到退化处理后的第一图像,并对退化处理后的第一图像进行上采样,得到第二图像;
或者,
将第一图像转化为未经处理的RAW文件,并对RAW文件进行通道分离和插值处理,得到第二图像。
本实施例中,通过上述方式得到第二图像,简单高效,使得第二图像仅在分辨率上低于第一图像,有利于后续第一待训练模型的训练过程。
第二方面,提供了一种训练模型的方法,其特征在于,第二待训练模型包括:第一编码器、第三编码器以及目标模块,该方法包括:
通过第一编码器将第一图像从图像空间编码至特征空间,得到第一图像的特征图,以及通过第三编码器将第二图像从图像空间编码至特征空间,得到第二图像的第二特征图,其中,第二图像和第一图像的区别为:第二图像的分辨率低于第一图像的分辨率,第一图像的特征图和第二图像的第二特征图对应不同的特征空间;
对第一图像的特征图和第一噪声图融合,得到融合后的第一结果;
将融合后的第一结果和第二图像的第二特征图融合,得到融合后的第三结果;
将融合后的第一结果和融合后的第三结果输入至目标模块,得到第二待训练模型输出的第三噪声图,其中,目标模块用于预测融合后的第一结果中的噪声;
根据第三噪声图与第一噪声图,确定第二待训练模型的目标参数。
本实施例中,在训练第二待训练模型的过程中,将第一图像的特征图添加噪声后得到的第一结果、第二图像(作为第二待训练模型的控制条件)的第二特征图和第一结果融合后的第三结果输入至目标模块预测第一结果中的噪声,由于第二图像仅分辨率低于第一图像,相比于将第一图像的边缘图、深度图或者分割图等图像作为第二待训练模型的控制条件,第二图像包含了第一图像中的所有图像细节,能够使得在预测第一结果中的噪声,即第三噪声图时,将第二图像的图像细节考虑在内,最终通过第一噪声图与通过目标模块得到的第三噪声图,确定第二待训练模型收敛时的目标参数。
因此,在第二待训练模型收敛之后得到的第二目标模型的应用阶段,可以使得在将输入至第二目标模型的低分辨率图像作为第二目标模型的控制条件时,通过第二目标模型得到的第二目标图像与输入的低分辨率图像的图像细节一致,第二目标图像是通过第二目标模型输出的噪声对输入至第二目标模型的低分辨率图像去噪后得到的图像对应的特征图与噪声融合后的结果进行多次迭代降噪后得到的结果经过解码器解码后得到的,第二目标模型输出的噪声是第二目标模型基于每次输入的噪声与低分辨率图像去噪后得到的图像对应的特征图融合后的结果、低分辨率图像得到的,除初始与低分辨率图像去噪后得到的图像对应的特征图融合的噪声以外,与低分辨率图像去噪后得到的图像对应的特征图融合的其他噪声是每次迭代降噪后得到的结果,解码器与第一编码器相匹配,因此,通过上述过程能够使得第二目标图像相对于低分辨率图像,在提高分辨率的基础上,避免第二目标图像在图像细节方面与低分辨率图像存在较大差别。
在一种可能的实现方式中,目标模块包括串联在一起的至少一个第一下采样模块、串联在一起的至少一个第一上采样模块、串联在一起的多个第二下采样模块,至少一个第一下采样模块与至少一个第一上采样模块串联,至少一个第一下采样模块、至少一个第一上采样模块各自对应的输出矩阵的最大阶数、最小阶数均相同,多个第二下采样模块对应的输出矩阵的阶数是至少一个第一上采样模块对应的输出矩阵的阶数的子集;
将融合后的第一结果和融合后的第三结果输入至目标模块,得到第二待训练模型输出的第三噪声图,包括:
通过至少一个第一下采样模块依次对上一级模块的输出下采样,得到第一下采样结果,第一下采样结果为至少一个第一下采样模块中输出矩阵的阶数最小的第一下采样模块的输出,其中,至少一个第一下采样模块中输出矩阵的阶数最大的第一下采样模块的输入为融合后的第一结果;
通过多个第二下采样模块依次对上一级模块的输出下采样,得到多个第三下采样结果,其中,多个第二下采样模块中输出矩阵的阶数最大的第二下采样模块的输入为融合后的第三结果;
通过至少一个第一上采样模块依次对各自的输入上采样,得到至少一个第二上采样结果,至少一个第一上采样模块中输出矩阵的阶数最大的第一上采样模块的输出为第三噪声图,或者,多个第二下采样模块中与至少一个第一上采样模块中输出矩阵的最大阶数相同的第二下采样模块的输出与至少一个第一上采样模块中输出矩阵的阶数最大的第一上采样模块的输出相加后的结果为第三噪声图;
其中,至少一个第一上采样模块中输出矩阵的阶数最小的第一上采样模块的输入为第一下采样结果;至少一个第一上采样模块中目标上采样模块的输入为目标上采样模块的上一级模块的输出与多个第二下采样模块中输出矩阵的阶数最小的第二下采样模块的输出相加后的结果,目标上采样模块为至少一个第一上采样模块中输出矩阵的阶数与多个第二下采样模块中输出矩阵的最小阶数相同的第一上采样模块的下一级模块;至少一个第一上采样模块中其他上采样模块的输入为上一级模块的输出,或者,为上一级模块的输出与多个第二下采样模块中与上一级模块的输出矩阵的阶数相同的第二下采样模块的输出相加后的结果。
本实施例中,在预测噪声时,目标模块作为预测噪声的模型,通过目标模块中串联在一起的至少一个第一下采样模块对第一图像的特征图和第一噪声图融合后的第一结果进行下采样,即:对第一结果对应的输出矩阵进行特征提取,将第一结果对应的输出矩阵的阶数不断缩小直到得到最小阶数的输出矩阵(第一下采样结果),通过目标模块中串联在一起的多个第二下采样模块对第一结果和第二图像的第二特征图融合后的第三结果进行下采样,即:对第三结果对应的输出矩阵进行特征提取,将第三结果对应的输出矩阵的阶数不断缩小,得到每个第二下采样模块对应的第三下采样结果;针对目标模块中的至少一个第一上采样模块,将第一下采样结果作为至少一个第一上采样模块中输出矩阵的阶数最小的第一上采样模块的输入,将至少一个第一上采样模块中输出矩阵的阶数与多个第二下采样模块中输出矩阵的最小阶数相同的第一上采样模块的输出与多个第二下采样模块中输出矩阵的阶数最小的第二下采样模块的输出相加,作为目标上采样模块的输入,将上一级模块的输出,或者上一级模块的输出与多个第二下采样模块中与上一级模块的输出矩阵的阶数相同的第二下采样模块的输出相加后的结果作为其他上采样模块的输入,通过至少一个第一上采样模块依次对各自的输入上采样,得到至少一个第二上采样结果,至少一个第一上采样模块中输出矩阵的阶数最大的第一上采样模块的输出为第二待训练模型输出的第三噪声图,或者,多个第二下采样模块中与至少一个第一上采样模块中输出矩阵的最大阶数相同的第二下采样模块的输出与至少一个第一上采样模块中输出矩阵的阶数最大的第一上采样模块的输出相加后的结果为第二待训练模型输出的第三噪声图,上述过程中,通过串联在一起的多个第二下采样模块对第一结果和第二图像的第二特征图融合后的第三结果进行下采样,有利于将第三下采样结果与至少一个第一上采样模块中对应模块的输出相加,能够将多个第二下采样模块中的至少一个模块和至少一个第一上采样模块进行连接,将第二图像的信息传递给至少一个第一上采样模块,更好的对第二待训练模型进行训练,该目标模块具有较好的生成能力,能够保证第三噪声图的准确性。
在一种可能的实现方式中,根据第三噪声图与第一噪声图,确定第二待训练模型的目标参数,包括:
采用第二预设损失函数,确定第三噪声图与第一噪声图的第二损失值;
根据第二损失值与第二预设阈值的大小关系,确定第二待训练模型的目标参数。
本实施例中,第二预设损失函数为第二待训练模型是否训练合格的衡量标准,能够有效保证训练得到的模型具有较高精度的输出结果。
在一种可能的实现方式中,根据第二损失值与第二预设阈值的大小关系,确定第二待训练模型的目标参数,包括:
在第二损失值大于或等于第二预设阈值的情况下,返回执行:通过第一编码器将第一图像从图像空间编码至特征空间,得到第一图像的特征图,以及通过第三编码器将第二图像从图像空间编码至特征空间,得到第二图像的第二特征图,直至第二损失值小于第二预设阈值,并将第二损失值小于第二预设阈值的情况下对应的第二待训练模型训练过程中使用的参数作为目标参数,其中,第二损失值小于第二预设阈值的情况下对应的第二待训练模型训练过程中使用的参数是对上一次第二待训练模型训练过程中使用的参数调整后获得的。
本实施例中,在第二损失值大于或等于第二预设阈值的情况下,对上一次第二待训练模型训练过程中使用的参数进行调整,并将调整后的参数作为当前第二待训练模型训练过程中使用的参数,对第二待训练模型进行训练,直到第二损失值小于第二预设阈值时停止训练,得到目标参数,通过该过程能够得到较为准确的模型参数,有利于提高模型的性能。
在一种可能的实现方式中,在通过第三编码器将第二图像从图像空间编码至特征空间,得到第二图像的第二特征图之前,该方法还包括:
对第一图像进行退化处理,得到退化处理后的第一图像,并对退化处理后的第一图像进行上采样,得到第二图像;
或者,
将第一图像转化为未经处理的RAW文件,并对RAW文件进行通道分离和插值处理,得到第二图像。
本实施例中,通过上述方式得到第二图像,简单高效,使得第二图像仅在分辨率上低于第一图像,有利于后续第二待训练模型的训练过程。
第三方面,提供了一种处理图像的方法,其特征在于,该方法包括:
获取第三图像;
将第三图像和第四噪声图输入至第一目标模型,得到第一目标模型的输出结果,其中,第一目标模型通过上述第一方面中任一项训练模型的方法得到;
将第一目标模型的输出结果输入至解码器,得到第一目标图像,其中,解码器与上述第一方面中的第一编码器相匹配,第一目标图像的分辨率高于第三图像的分辨率。
本实施例中,将第三图像(作为第一目标模型的控制条件)和第四噪声图输入至第一目标模型中,通过第一目标模型输出的噪声对输入至第一目标模型的第四噪声图进行多次迭代降噪后得到不含噪声的第一目标模型的输出结果,通过解码器将第一目标模型的输出结果从特征空间解码至图像空间,得到分辨率高于第三图像的分辨率的第一目标图像,上述过程中,由于第一目标模型是通过对第一待训练模型进行训练得到的,因此,在第一目标模型的应用阶段,能够使得第一目标图像相对于低分辨率图像(即第三图像),在提高分辨率的基础上,避免第一目标图像在图像细节方面、图像颜色方面与第三图像存在较大差别。
第四方面,提供了一种处理图像的方法,该方法包括:
获取第四图像;
对第四图像进行去噪处理,得到第五图像,并通过第四编码器将第五图像从图像空间编码至特征空间,得到第五图像的特征图;
对第五图像的特征图和第五噪声图融合,并将融合后得到的第四结果和第四图像输入至第二目标模型,得到第二目标模型的输出结果,其中,第二目标模型通过上述第二方面中任一项训练模型的方法得到;
将第二目标模型的输出结果输入至解码器,得到第二目标图像,其中,解码器与上述第二方面中的第一编码器相匹配,且解码器与第四编码器相匹配,第二目标图像的分辨率高于第四图像的分辨率。
本实施例中,对第四图像进行去噪处理,避免第四图像自身所带噪声对后续图像生成产生干扰,将去噪处理得到的第五图像通过第四编码器从图像空间编码至特征空间,并对得到的第五图像的特征图与第五噪声图融合,得到第四结果,将第四结果和第四图像(作为第二目标模型的控制条件)作为第二目标模型的输入,通过第二目标模型输出的噪声对第五噪声图与第五图像的特征图融合后得到的第四结果进行多次迭代降噪后得到不含噪声的第二目标模型的输出结果,通过解码器将第二目标模型的输出结果从特征空间解码至图像空间,得到分辨率高于第四图像的分辨率的第二目标图像,上述过程中,由于第二目标模型是通过对第二待训练模型进行训练得到的,因此,在第二目标模型的应用阶段,能够使得第二目标图像相对于低分辨率图像(即第四图像),在提高分辨率的基础上,避免第二目标图像在图像细节方面与第四图像存在较大差别,此外,第二目标模型的输出结果中包含第四图像的特征信息,能够使得第二目标图像的颜色信息来自于第四图像,因此,能够使得基于第二目标模型生成的图像在提高分辨率的基础上,避免第二目标图像在图像颜色方面与第四图像存在较大差别。
第五方面,提供了一种训练模型的装置,该装置包含在电子设备中,该装置具有实现上述的训练模型的方法中电子设备行为的功能。功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块或单元。例如,融合模块或单元、确定模块或单元等。
第六方面,提供了一种处理图像的装置,该装置包含在电子设备中,该装置具有实现上述的处理图像的方法中电子设备行为的功能。功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块或单元。例如,获取模块或单元、输入模块或单元等。
第七方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时执行上述的训练模型的方法,或者处理图像的方法。
第八方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,使处理器执行上述的训练模型的方法,或者处理图像的方法。
第九方面,提供了一种计算机程序产品,计算机程序产品包括:计算机程序代码,当计算机程序代码被电子设备运行时,使得该电子设备执行上述的训练模型的方法,或者处理图像的方法。
其中,第五方面的有益效果可以参照第一方面和第二方面,在此不做赘述。第六方面的有益效果可以参照第三方面和第四方面,在此不做赘述。第七方面至第九方面的有益效果可以参照第一方面至第四方面,在此不做赘述。
附图说明
图1是本申请实施例提供的一种训练模型的方法的流程示意图;
图2是本申请实施例提供的一种第一待训练模型的结构示意图;
图3是本申请实施例提供的一种目标模块的结构示意图;
图4是本申请实施例提供的另一种目标模块的结构示意图;
图5是本申请实施例提供的又一种目标模块的结构示意图;
图6是本申请实施例提供的另一种第一待训练模型的结构示意图;
图7是本申请实施例提供的又一种第一待训练模型的结构示意图;
图8是本申请实施例提供的另一种训练模型的方法的流程示意图;
图9是本申请实施例提供的又一种训练模型的方法的流程示意图;
图10是本申请实施例提供的一种第二待训练模型的结构示意图;
图11是本申请实施例提供的另一种第二待训练模型的结构示意图;
图12是本申请实施例提供的又一种第二待训练模型的结构示意图;
图13是本申请实施例提供的又一种训练模型的方法的流程示意图;
图14是本申请实施例提供的一种处理图像的方法的流程示意图;
图15是本申请实施例提供的基于第一目标模型处理图像的结构示意图;
图16是本申请实施例提供的另一种处理图像的方法的流程示意图;
图17是本申请实施例提供的基于第二目标模型处理图像的结构示意图;
图18是本申请实施例提供的一种自编码器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请的实施方式作进一步地详细描述。以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
相关技术中提供了一种能够提高图像分辨率的模型,该模型中包含Condition(条件)分支,通过条件分支能够控制内容生成,Condition可以为边缘图,深度图或分割图等,进而该模型能够生成符合Condition的图像。例如,利用canny边缘检测(canny edgedetection)算法对原图像(source image)进行边缘检测,生成边缘图(canny edge),将生成的边缘图作为该模型Condition分支的输入,通过施加不同的随机噪声,基于该模型可以生成不同的输出(output)图像,这些图像中物体的轮廓与边缘图中物体的轮廓一致,然而通过该模型得到的输出图像相对于原图像,虽然提高了分辨率,但是在图像细节方面、图像颜色方面与原图像存在较大差别,无法直接用于图像增强任务或者图像超分辨率任务。
基于此,本申请实施例提供了训练模型的方法和处理图像的方法,训练模型的方法用于解决相关技术中模型存在的问题,处理图像的方法用于说明训练好的模型的应用过程。
下面以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以独立实现,也可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
下面对本申请实施例提供的训练模型的方法进行详细介绍。
图1示出了一种训练模型的方法的流程示意图,该方法用于训练第一待训练模型,第一待训练模型包括:第一编码器、第二编码器以及目标模块。
下面以图2中所示的第一待训练模型的结构为例,对第一待训练模型的训练过程进行说明。参考图1,训练模型的方法包括:
S101,通过第一编码器将第一图像从图像空间编码至特征空间,得到第一图像的特征图,以及通过第二编码器将第二图像从图像空间编码至特征空间,得到第二图像的第一特征图。
其中,通过第一编码器得到的第一图像的特征图和通过第二编码器得到的第二图像的第一特征图对应相同的特征空间,即二者所表征的特征信息相同。第一编码器和第二编码器可以采用神经网络结构实现,也可以由第一基础模块堆叠实现,第一基础模块可以从卷积层、激活层、归一化层、注意力机制(attention)层、降采样层以及残差网络等中确定,还可以采用其他结构实现,此处不做限定。第一图像可以从开源高清数据库中获取,也可以通过高清相机获取,第一图像可以为一张图,也可以为多张不同的图,此处对其获取方式和张数不做限定。第一图像的格式可以为:便携式网络图形(portable networkgraphics,PNG)、位图(bitmap,BMP)等,此处不做限定。第二图像可以通过第一图像得到,第二图像和第一图像的区别为:第二图像的分辨率低于第一图像的分辨率。第二图像的张数与第一图像的张数相同。
在一些实施例中,第二编码器和第一编码器可以为相同的编码器(模型结构和模型参数均相同),也可以为不同的编码器,但是,当第二编码器和第一编码器为不同的编码器时,需要保证通过第一编码器得到的第一图像的特征图和通过第二编码器得到的第二图像的第一特征图对应相同的特征空间。当第二编码器和第一编码器为不同的编码器时,第二编码器可以通过以下方式得到:基于图像样本数据(该图像样本数据可以从开源数据库中获取,也可以通过其他方式获取,此处不做限定),预先将第一编码器与解码器一起训练,在训练结束后,将解码器的模型参数进行固定,使其模型参数保持不变,然后基于相同的图像样本数据将第二编码器和模型参数保持不变的解码器一起训练,在训练结束后,就得到了能够保证通过第一编码器得到的第一图像的特征图和通过第二编码器得到的第二图像的第一特征图对应相同的特征空间的第二编码器。
由于第一待训练模型的整个训练过程是在隐空间(latent code,也称特征空间)域进行的,因此需要先将输入的图像从图像域(即图像空间)转化至特征空间域,即:将第一图像输入至第一编码器,通过第一编码器对第一图像进行编码能够将第一图像从图像空间转化至特征空间,得到第一图像的特征图,以及将第二图像输入至第二编码器,通过第二编码器对第二图像进行编码能够将第二图像从图像空间转化至特征空间,得到第二图像的第一特征图,并且通过第一编码器得到的第一图像的特征图和通过第二编码器得到的第二图像的第一特征图对应相同的特征空间。
可以理解的是:通过第一编码器得到的第一图像的特征图和通过第二编码器得到的第二图像的第一特征图均可以由多个n×n的矩阵(即多个n阶矩阵)表征,这里矩阵的个数是指通道数,有几个通道就有几个n×n的矩阵,每个通道对应一个n×n的矩阵。其中,用于表征通过第一编码器得到的第一图像的特征图的矩阵的个数和矩阵的阶数n由第一编码器的模型参数确定,n为大于1的整数,每个矩阵中包含个特征点,多个n阶矩阵中的特征点能够表征第一图像的颜色、形状、细节及纹理等特征信息。用于表征通过第二编码器得到的第二图像的第一特征图的矩阵的个数和矩阵的阶数n由第二编码器的模型参数确定,n为大于1的整数,每个矩阵中包含/>个特征点,多个n阶矩阵中的特征点能够表征第二图像的颜色、形状、细节及纹理等特征。通过第二编码器得到的矩阵的个数、阶数与通过第一编码器得到的矩阵的个数、阶数相同。相应的,通过第一编码器得到的第一图像的特征图和通过第二编码器得到的第二图像的第一特征图对应相同的特征空间,可以理解为:在通过第二编码器得到的矩阵和通过第一编码器得到的矩阵中,相同通道对应的矩阵所表征的特征信息相同。
在一些实施例中,可选的,在S101中通过第二编码器将第二图像从图像空间编码至特征空间,得到第二图像的第一特征图之前,该方法还包括:
对第一图像进行退化处理,得到退化处理后的第一图像,并对退化处理后的第一图像进行上采样,得到第二图像;
或者,
将第一图像转化为未经处理的RAW文件,并对RAW文件进行通道分离和插值处理,得到第二图像。
其中,退化处理可以采用盲图像超分辨率模型(Real-ESRGAN)实现,还可以通过下采样的方式实现,此处不做限定。退化处理可以包括加噪声、加模糊、加压缩等使清晰度变差的操作。插值处理可以为最邻近插值(nearest interpolation)处理,还可以是其他插值处理方法,此处不做限定。
具体的,通过对第一图像执行加噪声、加模糊、加压缩等使清晰度变差的操作进行退化处理,能够得到退化处理后的第一图像。由于退化处理后的第一图像的尺寸信息(即第一图像的长度和宽度)缩小了,因此需要对退化处理后的第一图像进行上采样,将退化处理后的第一图像的尺寸信息恢复成与第一图像的尺寸信息一致,得到第二图像。
为了使得基于本实施例中针对第一待训练模型的训练模型的方法训练后得到的模型能够应用于RAW文件,需要在训练模型的过程中也使用RAW文件,此时,可以通过格式转化等方法能够将第一图像转化为未经处理的RAW文件,并对RAW文件进行通道分离(channelsplit),得到RAW文件对应的红(red,R)、绿(green,G)、蓝(blue,B)三个通道分别对应的图像,然后对这三个通道的图像进行插值处理,例如最邻近插值,就能够得到第二图像。
本实施例中,通过上述方式得到第二图像,简单高效,使得第二图像仅在分辨率上低于第一图像,有利于后续步骤的执行。
S102,对第一图像的特征图和第一噪声图融合,得到融合后的第一结果。
目标模块作为噪声预测模型,其本质是使用深度学***,得到第一噪声图,该第一噪声图也可以由n阶矩阵表征,用于表征第一噪声图的矩阵的阶数和用于表征通过第一编码器得到的第一图像的特征图的矩阵的阶数相同,因此,将第一图像的特征图和第一噪声图融合,是将用于表征第一图像的特征图的每个矩阵分别与用于表征第一噪声图的矩阵中各自对应的元素(即数值)相加,二者相加后就得到了融合后的第一结果,第一结果也可以由n阶矩阵表征,并且用于表征第一结果的矩阵的个数、阶数与用于表征第一图像的特征图的矩阵的个数、阶数相同。
S103,将融合后的第一结果和第二图像的第一特征图融合,得到融合后的第二结果。
具体的,在得到第一结果之后,用于表征第一结果的矩阵的个数、阶数以及矩阵所表征的特征信息与用于表征第一图像的特征图的矩阵的个数、阶数以及矩阵所表征的特征信息相同,用于表征第一图像的特征图的矩阵的个数、阶数以及矩阵所表征的特征信息与用于表征第二图像的第一特征图的矩阵的个数、阶数以及矩阵所表征的特征信息相同,因此,用于表征第一结果的矩阵的个数、阶数以及矩阵所表征的特征信息与用于表征第二图像的第一特征图的矩阵的个数、阶数以及矩阵所表征的特征信息相同,将融合后的第一结果和第二图像的第一特征图进行融合,具体可以为将用于表征第一结果的矩阵和用于表征第二图像的第一特征图的矩阵对应相加,就能得到融合后的第二结果,且用于表征第二结果的矩阵的个数、阶数以及矩阵所表征(即代表)的特征信息与用于表征第一结果的矩阵的个数、阶数以及矩阵所表征的特征信息相同。
示例性的,假设用于表征第一结果的矩阵有4个,分别为通道1对应的矩阵A,通道2对应的矩阵B,通道3对应的矩阵C以及通道4对应的矩阵D,用于表征第二图像的第一特征图的矩阵有4个,分别为通道1对应的矩阵a,通道2对应的矩阵b,通道3对应的矩阵c以及通道4对应的矩阵d,那么将第一结果和第二图像的第一特征图融合,即为将矩阵A与矩阵a(二者表征的特征信息相同)对应相加,矩阵B与矩阵b(二者表征的特征信息相同)对应相加,矩阵C与矩阵c(二者表征的特征信息相同)对应相加,矩阵D与矩阵d(二者表征的特征信息相同)对应相加,得到的第二结果仍为4个矩阵,且这4个矩阵中每个通道对应的矩阵所表征的特征信息与用于表征第一结果的4个矩阵中每个通道对应的矩阵所表征的特征信息相同。
S104,将融合后的第一结果和融合后的第二结果输入至目标模块,得到第一待训练模型输出的第二噪声图。
其中,目标模块用于预测图像中的噪声,可以采用U-Net、VGG(visual geometrygroup)以及残差网络(residual network,ResNet) 等结构,此处不做具体限定。
在得到融合后的第一结果和融合后的第二结果之后,目标模块作为噪声预测模型,将融合后的第一结果和融合后的第二结果输入至目标模块中,通过目标模块对第一结果和第二结果进行作用,能够预测出第一结果中包含的噪声,得到第一待训练模型输出的第二噪声图,并且用于表征第二噪声图的矩阵的个数、阶数与用于表征第一结果的矩阵的个数、阶数相同。
在一些实施例中,目标模块可以包括串联在一起的至少一个第一下采样模块、串联在一起的至少一个第一上采样模块、串联在一起的多个第二下采样模块,其中,至少一个第一下采样模块与至少一个第一上采样模块串联,至少一个第一下采样模块、至少一个第一上采样模块各自对应的输出矩阵的最大阶数、最小阶数均相同,多个第二下采样模块对应的输出矩阵的阶数是至少一个第一上采样模块对应的输出矩阵的阶数的子集,S104可以通过以下方式实现:
通过至少一个第一下采样模块依次对上一级模块的输出下采样,得到第一下采样结果,第一下采样结果为至少一个第一下采样模块中输出矩阵的阶数最小的第一下采样模块的输出,其中,至少一个第一下采样模块中输出矩阵的阶数最大的第一下采样模块的输入为融合后的第一结果;
通过多个第二下采样模块依次对上一级模块的输出下采样,得到多个第二下采样结果,其中,多个第二下采样模块中输出矩阵的阶数最大的第二下采样模块的输入为融合后的第二结果;
通过至少一个第一上采样模块依次对各自的输入上采样,得到至少一个第一上采样结果,至少一个第一上采样模块中输出矩阵的阶数最大的第一上采样模块的输出为第二噪声图,或者,多个第二下采样模块中与至少一个第一上采样模块中输出矩阵的最大阶数相同的第二下采样模块的输出与至少一个第一上采样模块中输出矩阵的阶数最大的第一上采样模块的输出相加后的结果为第二噪声图;
其中,至少一个第一上采样模块中输出矩阵的阶数最小的第一上采样模块的输入为第一下采样结果;至少一个第一上采样模块中目标上采样模块的输入为目标上采样模块的上一级模块的输出与多个第二下采样模块中输出矩阵的阶数最小的第二下采样模块的输出相加后的结果,目标上采样模块为至少一个第一上采样模块中输出矩阵的阶数与多个第二下采样模块中输出矩阵的最小阶数相同的第一上采样模块的下一级模块;至少一个第一上采样模块中其他上采样模块的输入为上一级模块的输出,或者,为上一级模块的输出与多个第二下采样模块中与上一级模块的输出矩阵的阶数相同的第二下采样模块的输出相加后的结果。输出矩阵的最大阶数与第一结果对应的矩阵(即用于表征第一结果的矩阵)的阶数相同,最小阶数小于最大阶数,最小阶数可预先确定,例如,最小阶数可以为最大阶数的小数倍,例如、/>以及/>等,也可视具体情况而定,此处不做具体限定。
具体的,在预测噪声时,目标模块作为预测噪声的模型,通过目标模块中串联在一起的至少一个第一下采样模块对第一图像的特征图和第一噪声图融合后的第一结果进行下采样,即:对第一结果对应的输出矩阵进行特征提取,将第一结果对应的输出矩阵的阶数不断缩小直到得到最小阶数的输出矩阵(第一下采样结果),通过目标模块中串联在一起的多个第二下采样模块对第一结果和第二图像的第一特征图融合后的第二结果进行下采样,即:对第二结果对应的输出矩阵进行特征提取,将第二结果对应的输出矩阵的阶数不断缩小,得到每个第二下采样模块对应的第二下采样结果;针对目标模块中的至少一个第一上采样模块,将第一下采样结果作为至少一个第一上采样模块中输出矩阵的阶数最小的第一上采样模块的输入,将至少一个第一上采样模块中输出矩阵的阶数与多个第二下采样模块中输出矩阵的最小阶数相同的第一上采样模块的输出与多个第二下采样模块中输出矩阵的阶数最小的第二下采样模块的输出相加,作为目标上采样模块的输入,将上一级模块的输出,或者上一级模块的输出与多个第二下采样模块中与上一级模块的输出矩阵的阶数相同的第二下采样模块的输出相加后的结果作为其他上采样模块的输入,通过至少一个第一上采样模块依次对各自的输入上采样,得到至少一个第一上采样结果,至少一个第一上采样模块中输出矩阵的阶数最大的第一上采样模块的输出为第一待训练模型输出的第二噪声图,或者,多个第二下采样模块中与至少一个第一上采样模块中输出矩阵的最大阶数相同的第二下采样模块的输出与至少一个第一上采样模块中输出矩阵的阶数最大的第一上采样模块的输出相加后的结果为第一待训练模型输出的第二噪声图。
上述过程中,通过串联在一起的多个第二下采样模块对第一结果和第二图像的第一特征图融合后的第二结果进行下采样,有利于提取出第二图像更多的特征,将第二下采样结果与至少一个第一上采样模块中对应模块的输出相加,能够将多个第二下采样模块中的至少一个模块和至少一个第一上采样模块进行连接,将第二图像的信息传递给至少一个第一上采样模块,更好的对第一待训练模型进行训练,该目标模块具有较好的生成能力,能够保证第二噪声图的准确性。
以下以图3所示的目标模块包括串联在一起的四个第一下采样模块(编码块1-4)、串联在一起的四个第一上采样模块(解码块1-4)、串联在一起的四个第二下采样模块(编码块5-8)为例,对上述S104的具体实现过程进行具体说明。
其中,编码块可由第一基础模块堆叠实现,第一基础模块可以预先确定,也可以视具体情况而定,编码块还可以采用其他结构实现,此处不做限定;编码块也可以为其他能够下采样的网络或者结构,此处不做限定。解码块可由第二基础模块堆叠实现,第二基础模块可以从卷积层、激活层、归一化层、注意力机制(attention)层、上采样层以及残差网络等中确定,还可以采用其他结构实现,此处不做限定;解码块也可以为其他能够上采样的网络或者结构,此处不做限定。
如图3所示:将第一结果和第二结果均用(M,4,64,64)表示,其中M表示输入图像的张数,在第一待训练模型的训练过程中其数值保持不变,4表示通道数,64和64用于表示第一结果和第二结果对应的矩阵的行数和列数,本实施例中矩阵的行数和列数相同。
通过四个第一下采样模块中输出矩阵的阶数最大的第一下采样模块(如图3中的编码块1,维持矩阵阶数不变的编码块,其输出矩阵的阶数为64)对第一结果进行下采样,得到的输出为64×64的矩阵;通过编码块2对上一级模块的输出(即编码块1的输出)进行下采样,能够将编码块1的输出从64×64的矩阵变成32×32的矩阵,通过编码块3对上一级模块的输出(即编码块2的输出)进行下采样,能够将编码块2的输出从32×32的矩阵变成16×16的矩阵,通过编码块4对上一级模块的输出(即编码块3的输出)进行下采样,能够将编码块3的输出从16×16的矩阵变成8×8的矩阵,四个第一下采样模块中输出矩阵的阶数最小的第一下采样模块(如图3中的编码块4,使矩阵的阶数缩小的编码块,其输出矩阵的阶数为8)的输出为第一下采样结果。其中,图3中编码块1的内部网络结构可以采用2个卷积层+群组归一化(group normalization,GN)层+attention层的结构,2个卷积层的卷积核是3×3,步长是1,编码块2-编码块4的内部网络结构可以采用两个卷积层+ GN层 + attention层+降采样层的结构,卷积层的卷积核是3×3,步长是1,降采样层的卷积核是3×3,步长是2。
通过四个第二下采样模块中输出矩阵的阶数最大的第二下采样模块(如图3中的编码块5,维持矩阵阶数不变的编码块,其输出矩阵的阶数为64)对第二结果进行下采样,得到第二下采样结果(用64×64的矩阵表征),通过编码块6-8依次对上一级模块的输出进行下采样,分别得到三个第二下采样结果,依次为编码块6的输出(用32×32的矩阵表征)、编码块7的输出(用16×16的矩阵表征)以及编码块8的输出(用8×8的矩阵表征),其中,编码块5-8的内部网络结构可以与编码块1-4的内部网络结构相同,也可以不同,此处不做限定。
通过四个第一上采样模块中输出矩阵的阶数最小的第一上采样模块(如图3中的解码块4,维持矩阵阶数不变的编码块,其输出矩阵的阶数为8)对第一下采样结果(即编码块4的输出)进行上采样,得到第一上采样结果(用8×8的矩阵表征);通过四个第一上采样模块中目标上采样模块(如图3中的解码块3,解码块3为四个第一上采样模块中输出矩阵的阶数与四个第二下采样模块中输出矩阵的最小阶数相同的第一上采样模块(即解码块4)的下一级模块)对解码块4的输出与编码块8的输出相加后的结果进行上采样,得到解码块3的输出(用16×16的矩阵表征);解码块2和解码块1为剩余的其他上采样模块,解码块2的输入可以为上一级模块(即解码块3)的输出,或者,为上一级模块(即解码块3)的输出与四个第二下采样模块中与解码块3的输出矩阵的阶数相同的第二下采样模块(即编码块7)的输出相加后的结果,图3中示出的解码块2的输入为解码块3的输出与编码块7的输出相加后的结果,解码块2的另一种输入图3未示出,通过解码块2对其输入进行上采样,得到解码块2的输出(用32×32的矩阵表征);解码块1的输入可以为上一级模块(即解码块2)的输出,或者,为上一级模块(即解码块2)的输出与四个第二下采样模块中与解码块2的输出矩阵的阶数相同的第二下采样模块(即编码块6)的输出相加后的结果,图3中示出的解码块1的输入为解码块2的输出与编码块6的输出相加后的结果,解码块2的另一种输入图3未示出,通过解码块1对其输入进行上采样,得到解码块1的输出(用64×64的矩阵表征)。
在得到四个第一上采样结果(即解码块1-4的输出)之后,四个第一上采样模块中输出矩阵的阶数最大的第一上采样模块(即解码块1)的输出为第二噪声图,或者,四个第二下采样模块中与四个第一上采样模块中输出矩阵的最大阶数相同的第二下采样模块(即编码块5)的输出与四个第一上采样模块中输出矩阵的阶数最大的第一上采样模块(即解码块1)的输出相加后的结果为第二噪声图,图3中示出的第二噪声图为编码块5的输出与解码块1的输出相加后的结果,仍用(M,4,64,64)表示,第二噪声图的另一种实现方式图3未示出。
需要说明的是:上述图3所示的目标模块中包括的第一下采样模块(编码块1-4)的个数、结构,第二下采样模块(编码块5-8)的个数、结构,以及第一上采样模块(解码块1-4)的个数、结构仅用于示例性说明,不用于进行限定。
在一些实施例中,第二下采样模块可以包括一个编码块,且该编码块的输出矩阵的阶数为最大阶数。下面以图4所示的目标模块包括串联在一起的四个第一下采样模块(编码块1-4)、串联在一起的四个第一上采样模块(解码块1-4)、一个第二下采样模块(编码块5)为例,对上述S104的另一实现过程进行说明。
其中,图4所示的编码块1-4、编码块5的作用与图3所示的编码块1-4、编码块5的作用相同,此处不再赘述。
在目标模块中包含一个第二下采样模块,且该第二下采样模块输出矩阵的阶数为最大阶数的情况下,第二下采样模块(如图4中的编码块5)中输出矩阵的阶数最小的模块也为编码块5,因此,编码块5的输出要与四个第一上采样模块中输出矩阵的阶数与编码块5的输出矩阵阶数相同的模块相加,即编码块5的输出需要与解码块1的输出相加,并且该相加结果为第二噪声图,即图4中的输出。
在一些实施例中,串联在一起的至少一个第一下采样模块和串联在一起的至少一个第一上采样模块之间还可以包括中间块,中间块的作用为对第一下采样结果进行特征提取,且中间块的输出矩阵的阶数与四个第一下采样模块中输出矩阵的阶数最小的第一下采样模块的输出矩阵的阶数相同;串联在一起的多个第二下采样模块中最后一级模块也可以与中间块串联,该中间块的输出矩阵的阶数与多个第二下采样模块中最后一级模块的输出矩阵的阶数相同。以下在图3的基础上,以图5所示的目标模块包括串联在一起的四个第一下采样模块(编码块1-4)、中间块1、串联在一起的四个第一上采样模块(解码块1-4)、串联在一起的四个第二下采样模块(编码块5-8)以及中间块2为例,对上述S104的具体实现过程进行具体说明。
其中,中间块1位于编码块4和解码块4之间,中间块2为编码块8的下一级模块。中间块1和中间块2的内部网络结构可以采用卷积层+ attention层+卷积层的结构,2个卷积层的卷积核是3×3,步长是1,还可以采用其他结构,此处不做限定。图5所示的编码块1-4、编码块5-8的作用与图3所示的编码块1-4、编码块5-8的作用相同,此处不再赘述。
如图5所示,在中间块1位于编码块4和解码块4之间,中间块2为编码块8的下一级模块的情况下,中间块2的输出矩阵的阶数与中间块1的输出矩阵的阶数相同,中间块2作为右侧编码块5-中间块2中的最后一级模块,需要与中间块1的输出相加,并将相加结果作为解码块4的输入,解码块4-解码块1的输入可以为上一级模块的输出,或者,为上一级模块的输出与四个第二下采样模块中与上一级模块的输出矩阵的阶数相同的第二下采样模块的输出相加后的结果,图5中所示的解码块4-解码块1的输入均为上一级模块的输出与四个第二下采样模块中与上一级模块的输出矩阵的阶数相同的第二下采样模块的输出相加后的结果,第二噪声图可以为解码块1的输出,或者,解码块1的输出与编码块5的输出相加后的结果,图5中是以解码块1的输出与编码块5的输出相加后的结果作为第二噪声图。
需要说明的是:上述图5所示的目标模块中包括的中间块1的个数、内部网络结构以及中间块2的个数、内部网络结构仅用于示例性说明,不用于进行限定。
在以图5所示的目标模块的结构的基础上,图6示出了另一种第一待训练模型的结构示意图。
如图6所示,将M张、三通道以及尺寸信息(长度和宽度)为512×512的第一图像,即(M,3,512,512)作为第一编码器的输入,将M张、三通道以及尺寸信息为512×512的第二图像,即(M,3,512,512)作为第二编码器的输入,第一编码器对第一图像编码后,图像张数不变,通道数变为4,得到的第一图像的特征图用64×64的矩阵表示,即(M,4,64,64),第二编码器对第二图像编码后,图像张数不变,通道数变为4,输出矩阵变为64×64,即(M,4,64,64),将第一编码器的输出和第一噪声图融合后,得到第一结果,将第一结果和第二编码器的输出进行融合,得到第二结果(M,4,64,64),将第一结果和第二结果输入至目标模块,通过目标模块的作用,得到第二噪声图(M,4,64,64),其中,目标模块中包含的所有块的作用已经在上述实施例中详细说明过,此处不再赘述。
在以图5所示的目标模块的结构的基础上,以新增卷积层、第一零卷积、第二零卷积、第三零卷积、第四零卷积、第五零卷积以及第六零卷积为例,下面对图7示出的又一种第一待训练模型的结构进行说明。
图7所示的目标模块的结构新增了第二零卷积-第六零卷积,第一待训练模型中增加了卷积层和第一零卷积,第一零卷积-第六零卷积可以采用卷积核为1×1的卷积层实现。其中,卷积层为编码块1的上一级模块,用于对第一结果进行卷积操作,提取特征,卷积层的输出可以用(M,320,64,64)表征;第一零卷积为第二编码器的下一级模块,用于对第二编码器的输出进行卷积操作,提取特征,第一零卷积的输出可以用(M,320,64,64)表征,并且用于表征第一零卷积的输出的矩阵的个数、阶数和用于表征卷积层的输出的矩阵的个数、阶数是相同的;第二零卷积与中间块2相连,用于将中间块2的输出经过第二零卷积的卷积操作之后,再与中间块1的输出进行融合;第三零卷积与编码块8相连,用于将编码块8的输出经过第三零卷积的卷积操作之后,再与解码块4的输出进行融合;第四零卷积与编码块7相连,用于将编码块7的输出经过第四零卷积的卷积操作之后,再与解码块3的输出进行融合;第五零卷积与编码块6相连,用于将编码块6的输出经过第五零卷积的卷积操作之后,与解码块2的输出进行融合;以及第六零卷积与编码块5相连,用于将编码块5的输出经过第六零卷积的卷积操作之后,与解码块1的输出进行融合。
第一零卷积-第六零卷积中初始权重值为0,也就是说从第二编码器经过第一零卷积的初始输出为0,编码块5-中间块2的输出经过第二零卷积-第六零卷积的作用后,初始输出也为0,那么在将中间块2的输出经过第二零卷积之后与中间块1的输出相加的结果为中间块1的输出,将编码块8的输出经过第三零卷积之后与解码块4的输出相加的结果为解码块4的输出,以此类推,……,将编码块5的输出经过第六零卷积的卷积操作之后,与解码块1的输出相加后的结果为解码块1的输出,这样对解码块4、解码块3、解码块2以及解码块1的输出是没有影响的,能够确保从编码块1-解码块1的结构的性能,之后对目标模块的训练过程中,第一零卷积-第六零卷积中权重值开始发生变化,则通过第一零卷积至第六零卷积对相应模块的输出的作用,能够使模型训练过程更为稳定,加快模型收敛速度。
示例性的,图7中所示的第二零卷积、第三零卷积、第四零卷积、第五零卷积以及第六零卷积是基于图7中编码块5-中间块2的结构(包括的五个模块)所设定的,在包括的模块的个数发生变化的情况下,零卷积的个数也随之变化,此处不做具体限定。
S105,根据第二噪声图与第一噪声图,确定第一待训练模型的目标参数。
其中,第一待训练模型的目标参数为第一待训练模型收敛时所使用的参数,具体可以由第一待训练模型的结构确定,例如,卷积层权重weight,偏差bias,归一化层的均值mean,方差variance等,此处不做具体限定。
在得到第二噪声图之后,由于第二噪声图是对第一结果中包括的噪声的预测结果,那么根据第二噪声图和第一噪声图,通过计算二者的相似度,即二者的接近程度,能够确定第一待训练模型是否收敛,从而确定出第一待训练模型在收敛时所使用的目标参数。
本实施例中,在训练第一待训练模型的过程中,将第一图像的特征图添加噪声后得到的第一结果、第二图像(作为第一待训练模型的控制条件)的第一特征图和第一结果融合后的第二结果输入至目标模块预测第一结果中的噪声,由于第二图像仅分辨率低于第一图像,相比于将第一图像的边缘图、深度图或者分割图等图像作为第一待训练模型的控制条件,第二图像包含了第一图像中的所有图像细节,能够使得在预测第一结果中的噪声,即第二噪声图时,将第二图像的图像细节考虑在内,最终通过第一噪声图与通过目标模块得到的第二噪声图,确定第一待训练模型收敛时的目标参数。
因此,在第一待训练模型收敛之后得到的第一目标模型的应用阶段,可以使得在将输入至第一目标模型的低分辨率图像作为第一目标模型的控制条件时,通过第一目标模型得到的第一目标图像与输入的低分辨率图像的图像细节一致,第一目标图像是通过第一目标模型输出的噪声对输入至第一目标模型的噪声进行多次迭代降噪后得到的结果经过解码器解码后得到的,第一目标模型输出的噪声是第一目标模型基于每次输入的噪声和低分辨率图像得到的,除初始输入至第一目标模型的噪声以外,输入至第一目标模型的其他噪声是每次迭代降噪后得到的结果,解码器与第一编码器相匹配,因此,通过上述过程能够使得第一目标图像相对于低分辨率图像,在提高分辨率的基础上,避免第一目标图像在图像细节方面与低分辨率图像存在较大差别。
此外,通过使基于第一编码器得到的第一图像的特征图和基于第二编码器得到的第二图像的第一特征图对应相同的特征空间,因此,对第一图像的特征图添加噪声后得到的第一结果与第二图像的第一特征图仍对应相同的特征空间,在这种情况下,在第二图像的第一特征图和第一结果的融合过程中,由于二者对应相同的特征空间,即用于表征第一特征图的多个矩阵代表的特征信息与用于表征第一结果的多个矩阵代表的特征信息是一一对应的,在将用于表征第一特征图的多个矩阵与用于表征第一结果的多个矩阵一一对应相加时,能够保证表征同一特征信息的一组矩阵对应相加,从而使得在第一目标模型的应用阶段,能够使得第一目标图像相对于低分辨率图像,在提高分辨率的基础上,能够避免第一目标图像在图像颜色方面与低分辨率图像存在较大差别。
在一些实施例中,可选的,第一待训练模型中的第一编码器和第二编码器可以是预先训练好的结构,并且保持第一编码器和第二编码器中的参数不变,相应的,在第一待训练模型的训练过程中只需要确定目标模块对应的目标参数,通过该方法能够提升模型训练的效率。
在一些实施例中,可选的,第一待训练模型还包括上采样处理模块,上采样处理模块与第二编码器串联,且上采样处理模块位于第二编码器之前,上采样处理模块用于对第二图像进行上采样,以增大第二图像的尺寸信息。
其中,上采样的倍率可预先设定,该倍率为大于1的正数,例如,1.5或者2等,也可视具体情况而定,此处不做限定。
具体的,图像超分辨率任务中图像的尺寸(即图像的长度和宽度)会变大,为了使得基于本实施例中针对第一待训练模型的训练模型的方法训练后得到的模型能够应用于图像超分辨率任务,需要保证输入至第二编码器的图像的尺寸信息是大于第一尺寸的尺寸信息的,因此,在得到第二图像之后,需要通过上采样模块对第二图像进行上采样,并将上采样后得到的图像输入至第二编码器,通过第二编码器将上采样后得到的图像从图像空间编码至特征空间,得到上采样后得到的图像的特征图。
本实施例中,通过上述过程,使得基于本实施例中针对第一待训练模型的训练模型的方法训练后得到的模型能够应用于图像超分辨率任务。
在一些实施例中,可选的,S105根据第二噪声图与第一噪声图,确定第一待训练模型的目标参数,包括:
采用第一预设损失函数,确定第二噪声图与第一噪声图的第一损失值;
根据第一损失值与第一预设阈值的大小关系,确定第一待训练模型的目标参数。
其中,第一预设损失函数可以为余弦损失函数、联结时序分类(connectionisttemporal classification,CTC)损失函数、多分类交叉熵损失函数以及均方损失函数等,损失函数可以根据实际使用需求确定,此处不做限定。第一预设阈值可以为预先设定的数值,也可以视具体情况而定,此处不做限定。
具体的,在得到第一待训练模型的输出,即第二噪声图之后,根据第二噪声图与第一噪声图,通过第一预设损失函数能够计算出二者对应的第一损失值。基于第一损失值和第一预设阈值之间的大小关系,能够确定是否需要对第一待训练模型的参数进行调整,从而得到第一待训练模型的目标参数。
本实施例中,第一预设损失函数为第一待训练模型是否训练合格的衡量标准,通过第一预设损失函数能够计算第二噪声图与第一噪声图之间的相似性,来验证第一待训练模型的识别精度,能够有效保证训练得到的模型具有较高精度的输出结果。
图8示出了另一种训练模型的方法的流程示意图。
参考图8,该训练模型的方法包括:
S801,通过第一编码器将第一图像从图像空间编码至特征空间,得到第一图像的特征图,以及通过第二编码器将第二图像从图像空间编码至特征空间,得到第二图像的第一特征图。
此步骤的具体实现方式参见上述S101中的描述,为了避免重复,此处不再赘述。
S802,对第一图像的特征图和第一噪声图融合,得到融合后的第一结果。
此步骤的具体实现方式参见上述S102中的描述,为了避免重复,此处不再赘述。
S803,将融合后的第一结果和第二图像的第一特征图融合,得到融合后的第二结果。
此步骤的具体实现方式参见上述S103中的描述,为了避免重复,此处不再赘述。
S804,将融合后的第一结果和融合后的第二结果输入至目标模块,得到第一待训练模型输出的第二噪声图。
此步骤的具体实现方式参见上述S104中的描述,为了避免重复,此处不再赘述。
S805,采用第一预设损失函数,确定第二噪声图与第一噪声图的第一损失值。
S806,确定第一损失值是否小于第一预设阈值。
若是,执行S807;若否,执行S808。
比较第一损失值和第一预设阈值之间的大小关系,从而确定第一损失值是否小于第一预设阈值。
S807,将第一损失值小于第一预设阈值的情况下对应的第一待训练模型训练过程中使用的参数作为目标参数。
若第一损失值小于第一预设阈值,说明第一待训练模型收敛,即第一待训练模型已经训练好了,此时将第一损失值小于第一预设阈值的情况下对应的第一待训练模型训练过程中使用的参数作为目标参数,就得到了第一待训练模型的目标参数。
S808,对本次第一待训练模型训练过程中使用的参数进行调整。
若第一损失值大于或等于第一预设阈值,说明第一待训练模型未收敛,还需要继续训练第一待训练模型,此时,对本次第一待训练模型训练过程中使用的参数进行调整,基于调整后的参数返回执行S801,并按照顺序向下执行,直到第一损失值小于第一预设阈值,并将第一损失值小于第一预设阈值的情况下对应的第一待训练模型训练过程中使用的参数作为目标参数,其中,第一损失值小于第一预设阈值的情况下对应的第一待训练模型训练过程中使用的参数是对上一次第一待训练模型训练过程中使用的参数调整后获得的。
本实施例中,在第一损失值大于或等于第一预设阈值的情况下,对上一次第一待训练模型训练过程中使用的参数进行调整,并将调整后的参数作为当前第一待训练模型训练过程中使用的参数,对第一待训练模型进行训练,直到第一损失值小于第一预设阈值时停止训练,得到目标参数;在第一损失值小于第一预设阈值的情况下,直接将第一损失值小于第一预设阈值的情况下对应的第一待训练模型训练过程中使用的参数作为目标参数,通过该过程能够得到较为准确的模型参数,有利于提高模型的性能。
图9是本申请实施例提供的又一种训练模型的方法的流程示意图,该方法用于训练第二待训练模型,第一待训练模型包括:第一编码器、第三编码器以及目标模块,其中,第二待训练模型中的第一编码器与第一待训练模型中的第一编码器相同,第二待训练模型中的目标模块与第一待训练模型中的目标模块相同。
下面以图10中所示的第二待训练模型的结构为例,对第二待训练模型的训练过程进行说明。参考图9,训练模型的方法包括:
S901,通过第一编码器将第一图像从图像空间编码至特征空间,得到第一图像的特征图,以及通过第三编码器将第二图像从图像空间编码至特征空间,得到第二图像的第二特征图。
其中,第三编码器与第一编码器采用不同的结构,第三编码器的作用也是将第二图像从图像空间编码至特征空间,且通过第一编码器得到的第一图像的特征图和通过第三编码器得到的第二图像的第二特征图对应不同的特征空间。第三编码器可以由第一基础模块堆叠实现,可以采用卷积神经网络结构实现,还可以采用其他结构实现,此处不做限定。
由于第二待训练模型的整个训练过程是在特征空间域进行的,因此需要先将输入的图像从图像域(即图像空间)转化至特征空间域,即:将第一图像输入至第一编码器,通过第一编码器对第一图像进行编码能够将第一图像从图像空间转化至特征空间,得到第一图像的特征图,以及将第二图像输入至第三编码器,通过第三编码器对第二图像进行编码能够将第二图像从图像空间转化至特征空间,得到第二图像的第二特征图。由于第二待训练模型中将第一待训练模型的第二编码器替换为了第三编码器,因此,S901中通过第三编码器得到的特征图与S101中通过第二编码器得到的特征图是不同的,为了区分,将S901中通过第三编码器将第二图像从图像空间编码至特征空间,得到的特征图称为:第二图像的第二特征图,并且由于第三编码器与第一编码器采用不同的结构,所以第一图像的特征图和第二图像的第二特征图对应不同的特征空间。
可以理解的是:通过第三编码器得到的第二图像的第二特征图也可以由多个n阶矩阵表征,这里矩阵的个数是指通道数,有几个通道就有几个n×n的矩阵,每个通道对应一个n×n的矩阵。其中,用于表征通过第三编码器得到的第二图像的第二特征图的矩阵的个数和矩阵的阶数n由第三编码器的模型参数确定,n为大于1的整数,每个矩阵中包含个特征点,多个n阶矩阵中的特征点能够表征第二图像的颜色、形状、细节及纹理等特征。通过第三编码器得到的矩阵的个数、阶数与通过第一编码器得到的矩阵的个数、阶数相同。相应的,通过第一编码器得到的第一图像的特征图和通过第三编码器得到的第二图像的第二特征图对应不同的特征空间,可以理解为:在通过第三编码器得到的矩阵和通过第一编码器得到的矩阵中,相同通道对应的矩阵所表征的信息不同。
在一些实施例中,可选的,在S901中通过第三编码器将第二图像从图像空间编码至特征空间,得到第二图像的第二特征图之前,该方法还包括:
对第一图像进行退化处理,得到退化处理后的第一图像,并对退化处理后的第一图像进行上采样,得到第二图像;
或者,
将第一图像转化为未经处理的RAW文件,并对RAW文件进行通道分离和插值处理,得到第二图像。
本实施例中,通过上述方式得到第二图像,简单高效,使得第二图像仅在分辨率上低于第一图像,有利于后续第二待训练模型的训练过程。
S902,对第一图像的特征图和第一噪声图融合,得到融合后的第一结果。
此步骤的具体实现方式参见上述S102中的描述,为了避免重复,此处不再赘述。
S903,将融合后的第一结果和第二图像的第二特征图融合,得到融合后的第三结果。
具体的,由于S901中得到的是第二图像的第二特征图,用于表征第一结果的矩阵的个数、阶数与用于表征第二图像的第二特征图的矩阵的个数、阶数相同,将融合后的第一结果和第二图像的第二特征图进行融合,具体可以为将用于表征第一结果的矩阵和用于表征第二图像的第二特征图的矩阵对应相加,就能得到融合后的第三结果,且用于表征第三结果的矩阵的个数、阶数与用于表征第一结果的矩阵的个数、阶数相同。
第二待训练模型中将第一待训练模型的第二编码器替换为了第三编码器,因此S901中通过第三编码器得到的第二图像的第二特征图与S101中通过第二编码器得到的第二图像的第一特征图是不同的,因此,S103中将融合后的第一结果和第二图像的第一特征图融合,得到的第二结果与S903中将融合后的第一结果和第二图像的第二特征图融合得到的结果不同,此处为了区分,将S903中融合后得到的称为第三结果。
S904,将融合后的第一结果和融合后的第三结果输入至目标模块,得到第二待训练模型输出的第三噪声图。
具体的,在S903中得到的是第三结果的基础上,将融合后的第一结果和融合后的第三结果输入至目标模块中,通过目标模块对第一结果和第三结果进行作用,能够预测出第一结果中包含的噪声,得到第二待训练模型输出的第三噪声图,并且用于表征第三噪声图的矩阵的个数、阶数与用于表征第一结果的矩阵的个数、阶数相同。
由于第二待训练模型中的目标模块与第一待训练模型中的目标模块相同,在一种可能的实现方式中,以目标模块包括串联在一起的至少一个第一下采样模块、串联在一起的至少一个第一上采样模块、串联在一起的多个第二下采样模块,其中,至少一个第一下采样模块与至少一个第一上采样模块串联,至少一个第一下采样模块、至少一个第一上采样模块各自对应的输出矩阵的最大阶数、最小阶数均相同,多个第二下采样模块对应的输出矩阵的阶数是至少一个第一上采样模块对应的输出矩阵的阶数的子集为例,以下对S904的实现方式进行说明:
通过至少一个第一下采样模块依次对上一级模块的输出下采样,得到第一下采样结果,第一下采样结果为至少一个第一下采样模块中输出矩阵的阶数最小的第一下采样模块的输出,其中,至少一个第一下采样模块中输出矩阵的阶数最大的第一下采样模块的输入为融合后的第一结果;
通过多个第二下采样模块依次对上一级模块的输出下采样,得到多个第三下采样结果,其中,多个第二下采样模块中输出矩阵的阶数最大的第二下采样模块的输入为融合后的第三结果;
通过至少一个第一上采样模块依次对各自的输入上采样,得到至少一个第二上采样结果,至少一个第一上采样模块中输出矩阵的阶数最大的第一上采样模块的输出为第三噪声图,或者,多个第二下采样模块中与至少一个第一上采样模块中输出矩阵的最大阶数相同的第二下采样模块的输出与至少一个第一上采样模块中输出矩阵的阶数最大的第一上采样模块的输出相加后的结果为第三噪声图;
其中,至少一个第一上采样模块中输出矩阵的阶数最小的第一上采样模块的输入为第一下采样结果;至少一个第一上采样模块中目标上采样模块的输入为目标上采样模块的上一级模块的输出与多个第二下采样模块中输出矩阵的阶数最小的第二下采样模块的输出相加后的结果,目标上采样模块为至少一个第一上采样模块中输出矩阵的阶数与多个第二下采样模块中输出矩阵的最小阶数相同的第一上采样模块的下一级模块;至少一个第一上采样模块中其他上采样模块的输入为上一级模块的输出,或者,为上一级模块的输出与多个第二下采样模块中与上一级模块的输出矩阵的阶数相同的第二下采样模块的输出相加后的结果。
具体的,在预测噪声时,目标模块作为预测噪声的模型,通过目标模块中串联在一起的至少一个第一下采样模块对第一图像的特征图和第一噪声图融合后的第一结果进行下采样,即:对第一结果对应的输出矩阵进行特征提取,将第一结果对应的输出矩阵的阶数不断缩小直到得到最小阶数的输出矩阵(第一下采样结果),通过目标模块中串联在一起的多个第二下采样模块对第一结果和第二图像的第二特征图融合后的第三结果进行下采样,即:对第三结果对应的输出矩阵进行特征提取,将第三结果对应的输出矩阵的阶数不断缩小,得到每个第二下采样模块对应的第三下采样结果;针对目标模块中的至少一个第一上采样模块,将第一下采样结果作为至少一个第一上采样模块中输出矩阵的阶数最小的第一上采样模块的输入,将至少一个第一上采样模块中输出矩阵的阶数与多个第二下采样模块中输出矩阵的最小阶数相同的第一上采样模块的输出与多个第二下采样模块中输出矩阵的阶数最小的第二下采样模块的输出相加,作为目标上采样模块的输入,将上一级模块的输出,或者上一级模块的输出与多个第二下采样模块中与上一级模块的输出矩阵的阶数相同的第二下采样模块的输出相加后的结果作为其他上采样模块的输入,通过至少一个第一上采样模块依次对各自的输入上采样,得到至少一个第二上采样结果,至少一个第一上采样模块中输出矩阵的阶数最大的第一上采样模块的输出为第二待训练模型输出的第三噪声图,或者,多个第二下采样模块中与至少一个第一上采样模块中输出矩阵的最大阶数相同的第二下采样模块的输出与至少一个第一上采样模块中输出矩阵的阶数最大的第一上采样模块的输出相加后的结果为第二待训练模型输出的第三噪声图。
本实施例中,通过串联在一起的多个第二下采样模块对第一结果和第二图像的第二特征图融合后的第三结果进行下采样,有利于将第三下采样结果与至少一个第一上采样模块中对应模块的输出相加,能够将多个第二下采样模块中的至少一个模块和至少一个第一上采样模块进行连接,将第二图像的信息传递给至少一个第一上采样模块,更好的对第二待训练模型进行训练,该目标模块具有较好的生成能力,能够保证第三噪声图的准确性。
由于S904中仅是将S104中的第二结果替换为第三结果,通过目标模块得到噪声图的实现方式并未改变,目标模块的其他实现方式可参见S104中的说明,为了避免重复,此处不再赘述。
在以图5所示的目标模块的结构的基础上,以新增卷积层、第一零卷积为例,下面对图11示出的另一种第二待训练模型的结构进行说明。
由于第三编码器与第一编码器的模型结构和模型参数不同,那么第三编码器的输出矩阵的个数与第一结果的输出矩阵的个数可能相同,也可能不同。在第三编码器的输出矩阵的个数(例如为256)与第一结果的输出矩阵的个数(例如为4)不同的情况下,将第一结果用(M,4,64,64)表示,将第三编码器的输出用(M,256,64,64)表示,其中M表示输入图像的张数,在第二待训练模型的训练过程中其数值保持不变,4表示通道数,64和64用于表示第一结果和第三编码器的输出对应的矩阵的行数和列数,本实施例中矩阵的行数和列数相同。在编码块1之前增加卷积层,在编码块5之前增加第一零卷积,通过卷积层对第一结果进行卷积操作,提取特征,将第一结果的输出矩阵的个数从4变为320,以及通过第一零卷积对第三编码器的输出进行卷积操作,提取特征,将第三编码器的输出矩阵的个数从256变为320,使得卷积层的输出和第一零卷积的输出中矩阵个数、阶数相同,即通道数(矩阵个数)都为320,矩阵阶数都为64。将卷积层之后的输出和第一零卷积之后的输出相融合,得到融合结果,将卷积层的输出与该融合结果输入至目标模块中,通过目标模块的作用,得到第三噪声图。图11与与图6相比,图11中除了第三编码器(替换了图6中的第二编码器)、卷积层以及第一零卷积之外的其他结构与图6中的结构相同,为了避免重复,此处不再赘述。
图12示出了又一种第二待训练模型的结构示意图。在图11所示结构的基础上,图12中所示的结构增加了第二零卷积、第三零卷积、第四零卷积、第五零卷积以及第六零卷积,其中,第二零卷积-第六零卷积的作用在图7对应的实现方式中已经描述过,此处不再赘述。
S905,根据第三噪声图与第一噪声图,确定第二待训练模型的目标参数。
其中,第二待训练模型的目标参数为第二待训练模型收敛时所使用的参数,具体可以由第二待训练模型的结构确定,例如,卷积层权重weight,偏差bias,归一化层的均值mean,方差variance等,此处不做具体限定。
在得到第三噪声图之后,由于第三噪声图是对第一结果中包括的噪声的预测结果,那么根据第三噪声图和第一噪声图,通过计算二者的相似度,即二者的接近程度,能够确定第二待训练模型是否收敛,从而确定出第二待训练模型在收敛时所使用的目标参数。
本实施例中,在训练第二待训练模型的过程中,将第一图像的特征图添加噪声后得到的第一结果、第二图像(作为第二待训练模型的控制条件)的第二特征图和第一结果融合后的第三结果输入至目标模块预测第一结果中的噪声,由于第二图像仅分辨率低于第一图像,相比于将第一图像的边缘图、深度图或者分割图等图像作为第二待训练模型的控制条件,第二图像包含了第一图像中的所有图像细节,能够使得在预测第一结果中的噪声,即第三噪声图时,将第二图像的图像细节考虑在内,最终通过第一噪声图与通过目标模块得到的第三噪声图,确定第二待训练模型收敛时的目标参数。
因此,在第二待训练模型收敛之后得到的第二目标模型的应用阶段,可以使得在将输入至第二目标模型的低分辨率图像作为第二目标模型的控制条件时,通过第二目标模型得到的第二目标图像与输入的低分辨率图像的图像细节一致,第二目标图像是通过第二目标模型输出的噪声对输入至第二目标模型的低分辨率图像去噪后得到的图像对应的特征图与噪声融合后的结果进行多次迭代降噪后得到的结果经过解码器解码后得到的,第二目标模型输出的噪声是第二目标模型基于每次输入的噪声与低分辨率图像去噪后得到的图像对应的特征图融合后的结果、低分辨率图像得到的,除初始与低分辨率图像去噪后得到的图像对应的特征图融合的噪声以外,与低分辨率图像去噪后得到的图像对应的特征图融合的其他噪声是每次迭代降噪后得到的结果,解码器与第一编码器相匹配,因此,通过上述过程能够使得第二目标图像相对于低分辨率图像,在提高分辨率的基础上,避免第二目标图像在图像细节方面与低分辨率图像存在较大差别。
在一些实施例中,可选的,第二待训练模型中的第一编码器、第三编码器可以是预先训练好的结构,并且保持第一编码器、第三编码器中的参数不变,相应的,在第二待训练模型的训练过程中只需要确定目标模块的目标参数,能够提升模型训练的效率。
在一些实施例中,可选的,第二待训练模型还包括上采样处理模块,上采样处理模块与第三编码器串联,且上采样处理模块位于第三编码器之前,上采样处理模块用于对第二图像进行上采样,以增大第二图像的尺寸信息;
具体的,为了使得基于本实施例中针对第二待训练模型的训练模型的方法训练后得到的模型能够应用于图像超分辨率任务,需要保证输入至第三编码器的图像的尺寸信息是大于第一尺寸的尺寸信息的,因此,在得到第二图像之后,需要通过上采样模块对第二图像进行上采样,并将上采样后得到的图像输入至第三编码器,以便后续通过第二编码器将上采样后得到的图像从图像空间编码至特征空间,得到上采样后得到的图像的特征图。
本实施例中,通过上述过程,使得基于本实施例中针对第二待训练模型的训练模型的方法训练后得到的模型能够应用于图像超分辨率任务。
在一种可能的实现方式中,S905根据第三噪声图与第一噪声图,确定第二待训练模型的目标参数,包括:
采用第二预设损失函数,确定第三噪声图与第一噪声图的第二损失值;
根据第二损失值与第二预设阈值的大小关系,确定第二待训练模型的目标参数。
其中,第二预设损失函数可以为余弦损失函数、联结时序分类(connectionisttemporal classification,CTC)损失函数、多分类交叉熵损失函数以及均方损失函数等,损失函数可以根据实际使用需求确定,此处不做限定。第二预设损失函数和第一预设损失函数可以相同,也可以不同,此处不做限定。第二预设阈值可以为预先设定的数值,也可以视具体情况而定,此处不做限定。第二预设阈值和第一预设阈值可以相同,也可以不同,此处不做限定。
具体的,在得到第二待训练模型的输出,即第三噪声图之后,根据第三噪声图与第一噪声图,通过第二预设损失函数能够计算出对应的第二损失值。基于第二损失值和第二预设阈值之间的大小关系,能够确定是否需要对第二待训练模型的参数进行调整,从而得到第二待训练模型的目标参数。
本实施例中,第二预设损失函数为第二待训练模型是否训练合格的衡量标准,通过第二预设损失函数能够计算第三噪声图与第一噪声图之间的相似性,来验证第二待训练模型的识别精度,能够有效保证训练得到的模型具有较高精度的输出结果。
图13示出了又一种训练模型的方法的流程示意图。
参考图13,该训练模型的方法包括:
S1301,通过第一编码器将第一图像从图像空间编码至特征空间,得到第一图像的特征图,以及通过第三编码器将第二图像从图像空间编码至特征空间,得到第二图像的第二特征图。
此步骤的具体实现方式参见上述S901中的描述,为了避免重复,此处不再赘述。
S1302,对第一图像的特征图和第一噪声图融合,得到融合后的第一结果。
此步骤的具体实现方式参见上述S902中的描述,为了避免重复,此处不再赘述。
S1303,将融合后的第一结果和第二图像的第二特征图融合,得到融合后的第三结果。
此步骤的具体实现方式参见上述S903中的描述,为了避免重复,此处不再赘述。
S1304,将融合后的第一结果和融合后的第三结果输入至目标模块,得到第二待训练模型输出的第三噪声图。
此步骤的具体实现方式参见上述S904中的描述,为了避免重复,此处不再赘述。
S1305,采用第二预设损失函数,确定第三噪声图与第一噪声图的第二损失值。
S1306,确定第二损失值是否小于第二预设阈值。
若是,执行S1307;若否,执行S1308。
S1307,将第二损失值小于第二预设阈值的情况下对应的第二待训练模型训练过程中使用的参数作为目标参数。
若第二损失值小于第二预设阈值,说明第二待训练模型收敛,即第二待训练模型已经训练好了,此时将第二损失值小于第二预设阈值的情况下对应的第二待训练模型训练过程中使用的参数作为目标参数,就得到了第二待训练模型的目标参数。
S1308,对本次第二待训练模型训练过程中使用的参数进行调整。
若第二损失值大于或等于第二预设阈值,说明第二待训练模型未收敛,还需要继续训练第二待训练模型,此时,对本次第二待训练模型训练过程中使用的参数进行调整,基于调整后的参数返回执行S1301,并按照顺序向下执行,直到第二损失值小于第二预设阈值,并将第二损失值小于第二预设阈值的情况下对应的第二待训练模型训练过程中使用的参数作为目标参数,其中,第二损失值小于第二预设阈值的情况下对应的第二待训练模型训练过程中使用的参数是对上一次第二待训练模型训练过程中使用的参数调整后获得的。
本实施例中,在第二损失值大于或等于第二预设阈值的情况下,对上一次第二待训练模型训练过程中使用的参数进行调整,并将调整后的参数作为当前第二待训练模型训练过程中使用的参数,对第二待训练模型进行训练,直到第二损失值小于第二预设阈值时停止训练,得到目标参数;在第二损失值小于第二预设阈值的情况下,直接将第二损失值小于第二预设阈值的情况下对应的第二待训练模型训练过程中使用的参数作为目标参数,通过该过程能够得到较为准确的模型参数,有利于提高模型的性能。
下面对本申请实施例提供的处理图像的方法进行详细介绍。图14示出了一种处理图像的方法的流程示意图,该方法基于第一目标模型实现,下面以图15所示的基于第一目标模型处理图像的结构示意图为例,对处理图像的过程进行说明。
参考图14,处理图像的方法包括:
S1401,获取第三图像。
其中,第三图像为待提高分辨率的图像,可以从图库中获取,可以从接收的图像所在的目录中获取,也可以为对相机拍摄得到的RAW文件进行通道分离和差值处理后,得到的图像,还可以通过其他方式获取,此处不做限定。
S1402,将第三图像和第四噪声图输入至第一目标模型,得到第一目标模型的输出结果。
其中,第一目标模型通过针对第一待训练模型的训练模型的方法训练后得到。第四噪声图可以通过设定均值和方差,基于噪声生成函数,例如Torch.randn生成,还可以通过其他方式生成,此处不做限定。第四噪声图的步长可以预先设定,也可视具体情况而定,此处不做限定。迭代降噪次数与第四噪声图的步长对应的数值相同。
将第三图像和第四噪声图输入至第一目标模型,通过第一目标模型输出的噪声对输入至第一目标模型的第四噪声图进行多次迭代降噪后,能够得到不含噪声的第一目标模型的输出结果。
示例性的,假设噪声步长为T(T为正整数,且取值较大),该第四噪声图(假设用表示)对应的噪声较大,将第三图像和第四噪声图输入至第一目标模型,得到的输出为预测的一步噪声,通过预测的一步噪声对第四噪声图进行一次迭代降噪,即:将第四噪声图与预测的一步噪声相减,得到相减后的结果(/>),将/>和第三图像输入至第一目标模型,得到的输出为预测的一步噪声,通过预测的一步噪声对/>进行一次迭代降噪,即:将/>与预测的一步噪声相减,得到/>,将/>和第三图像输入至第一目标模型,重复上述过程,经过T次迭代之后,将最后一次输入至第一目标模型的噪声与最后一次第一目标模型输出的噪声相减,即得到第一目标模型的输出结果。
需要说明的是:上述噪声步长T仅用于对迭代降噪过程进行说明,不用于对迭代降噪次数进行限定。
S1403,将第一目标模型的输出结果输入至解码器,得到第一目标图像。
其中,解码器与第一待训练模型中的第一编码器相匹配,第一目标图像的分辨率高于第三图像的分辨率。解码器可由第二基础模块堆叠实现,还可以采用其他结构实现,此处不做限定;解码器也可以为其他能够上采样的网络或者结构,此处不做限定。
由于第一目标模型的输出结果为特征空间中的表示,因此需要将第一目标模型的输出结果输入至解码器中进行解码,从而将第一目标模型的输出结果从特征空间恢复至图像空间,得到第一目标图像。
本实施例中,将第三图像(作为第一目标模型的控制条件)和第四噪声图输入至第一目标模型中,通过第一目标模型输出的噪声对输入至第一目标模型的第四噪声图进行多次迭代降噪后得到不含噪声的第一目标模型的输出结果,通过解码器将第一目标模型的输出结果从特征空间解码至图像空间,得到分辨率高于第三图像的分辨率的第一目标图像,上述过程中,由于第一目标模型是通过对第一待训练模型进行训练得到的,因此,在第一目标模型的应用阶段,能够使得第一目标图像相对于低分辨率图像(即第三图像),在提高分辨率的基础上,避免第一目标图像在图像细节方面、图像颜色方面与第三图像存在较大差别。
在一些实施例中,为了使第一目标模型能够用于图像超分辨率任务,在获取第三图像之后,需要对第三图像进行上采样,以增大第三图像的尺寸信息,将对第三图像进行上采样后的结果和第三噪声图输入至第一目标模型,得到输出结果,以及将输出结果输入至解码器,得到对应的目标图像。
图16示出了另一种处理图像的方法的流程示意图,该方法基于第二目标模型实现,下面以图17所示的基于第二目标模型处理图像的结构示意图为例,对处理图像的过程进行说明。
参考图16,处理图像的方法包括:
S1601,获取第四图像。
其中,第四图像为待提高分辨率的图像,可以从图库中获取,可以从接收的图像所在的目录中获取,也可以为对相机拍摄得到的RAW文件进行通道分离和差值处理后,得到的图像,还可以通过其他方式获取,此处不做限定。第四图像与第三图像可以相同,也可以不同,此处不做限定。
S1602,对第四图像进行去噪处理,得到第五图像,并通过第四编码器将第五图像从图像空间编码至特征空间,得到第五图像的特征图。
其中,第四编码器和第一编码器可以为相同的编码器(模型结构和模型参数均相同),也可以为不同的编码器,但是,当第四编码器和第一编码器为不同的编码器时,需要保证通过第一编码器得到的第一图像的特征图和通过第四编码器得到的第五图像的特征图对应相同的特征空间,即二者的特征图表征的信息相同。
由于第四图像分辨率低,为了避免第四图像中存在的噪声产生干扰,需要对第四图像进行去噪处理,得到第五图像,其中,去噪处理可以通过超分(super resolution,SR)模型,或者去噪(noise reduction,NR)模型实现,也可通过其他模型实现,此处不做限定。将第五图像输入至第四编码器中,通过第四编码器能够将第五图像从图像空间编码至特征空间,得到第五图像的特征图。
S1603,对第五图像的特征图和第五噪声图融合,并将融合后得到的第四结果和第四图像输入至第二目标模型,得到第二目标模型的输出结果。
其中,第五噪声图的生成方式可以与第一噪声图的生成方式相同,也可以采用其他方式生成,此处不做限定。第五噪声图的噪声步长可以根据第四图像的分辨率进行调整,当第四图像的分辨率较低时,可以增加噪声步长。第二目标模型通过针对第二待训练模型的训练模型的方法训练后得到。迭代降噪次数与第五噪声图的步长对应的数值相同。
对第五图像的特征图和第五噪声图融合,得到第四结果,并将第四结果和第四图像输入至第二目标模型中,通过第二目标模型输出的噪声对第五噪声图与第五图像的特征图融合后得到的第四结果进行多次迭代降噪后,能够得到不含噪声的第二目标模型的输出结果。
示例性的,假设第五图像的特征图用x表示,第五噪声图用表示,第四结果用()表示,M表示第五噪声图的步长和迭代降噪次数,将第四结果(/>)和第四图像输入至第二目标模型,得到的输出为预测的一步噪声,通过预测的一步噪声对第四结果进行一次迭代降噪,即:将第四结果与预测的一步噪声相减,第四结果由第五图像的特征图和第五噪声图融合得到,此处相减是将第五噪声图与预测的一步噪声相减,第五图像的特征图保持不变,得到相减后的结果(/>),将(/>)和第四图像输入至第二目标模型,得到的输出为预测的一步噪声,通过预测的一步噪声对(/>)进行一次迭代降噪,即:将(/>)与预测的一步噪声相减,得到(/>),将(/>)和第四图像输入至第二目标模型,重复上述过程,经过M次迭代之后,将最后一次输入至第二目标模型的融合结果与最后一次第二目标模型输出的噪声相减,即得到第二目标模型的输出结果。
需要说明的是:上述噪声步长M仅用于对迭代降噪过程进行说明,不用于对迭代降噪次数进行限定。
S1604,将第二目标模型的输出结果输入至解码器,得到第二目标图像。
其中,解码器与第二待训练模型中的第一编码器相匹配,且解码器与第四编码器匹配,第二目标图像的分辨率高于第四图像的分辨率。
由于第二目标模型的输出结果为特征空间中的表示,因此需要将第二目标模型的输出结果输入至解码器中进行解码,从而将第二目标模型的输出结果从特征空间恢复至图像空间,得到第二目标图像。
本实施例中,对第四图像进行去噪处理,避免第四图像自身所带噪声对后续图像生成产生干扰,将去噪处理得到的第五图像通过第四编码器从图像空间编码至特征空间,并对得到的第五图像的特征图与第五噪声图融合,得到第四结果,将第四结果和第四图像(作为第二目标模型的控制条件)作为第二目标模型的输入,通过第二目标模型输出的噪声对第五噪声图与第五图像的特征图融合后得到的第四结果进行多次迭代降噪后得到不含噪声的第二目标模型的输出结果,通过解码器将第二目标模型的输出结果从特征空间解码至图像空间,得到分辨率高于第四图像的分辨率的第二目标图像,上述过程中,由于第二目标模型是通过对第二待训练模型进行训练得到的,因此,在第二目标模型的应用阶段,能够使得第二目标图像相对于低分辨率图像(即第四图像),在提高分辨率的基础上,避免第二目标图像在图像细节方面与第四图像存在较大差别,此外,第二目标模型的输出结果中包含第四图像的特征信息,能够使得第二目标图像的颜色信息来自于第四图像,因此,能够使得基于第二目标模型生成的图像在提高分辨率的基础上,避免第二目标图像在图像颜色方面与第四图像存在较大差别。
在一些实施例中,为了使第二目标模型能够用于图像超分辨率任务,在获取第四图像之后,需要对第四图像进行上采样,以增大第四图像的尺寸信息,然后对第四图像进行上采样的结果进行去噪处理,得到第六图像,并通过第四编码器将第六图像从图像空间编码至特征空间,得到第六图像的特征图,对第六图像的特征图和第四噪声图融合,并将融合后得到的结果和第四图像进行上采样的结果输入至第二目标模型,得到输出结果,以及将输出结果输入至解码器,得到对应的目标图像。
在一些实施例中,上述训练模型的方法中涉及的第一编码器和上述处理图像的方法中涉及的解码器可以预先训练得到,以下以图18所示的一种自编码器的结构示意图为例,对自编码器的训练过程进行说明,其中,自编码器的结构包括编码器和解码器。具体可通过以下方式训练自编码器:
如图18所示,通过编码器将输入图像(可以采用与第一图像获取方式相同的方法获取输入图像,也可以通过其他方式获取输入图像,此处不做限定)从图像空间编码至特征空间,通过解码器将编码器的输出从特征空间解码至图像空间,得到输出图像;采用第三预设损失函数,确定输入图像和输出图像的第三损失值;根据第三损失值与参考阈值的大小关系,确定编码器和解码器的目标参数。
其中,第三预设损失函数可以为余弦损失函数、联结时序分类(connectionisttemporal classification,CTC)损失函数、多分类交叉熵损失函数以及均方损失函数等,损失函数可以根据实际使用需求确定,此处不做限定。第三预设损失函数和第一预设损失函数可以相同,也可以不同,此处不做限定。第三预设损失函数和第二预设损失函数可以相同,也可以不同,此处不做限定。参考阈值可以预先设定,也可视具体情况而定,此处不做限定。
在训练好自编码器之后,保持其指模型参数不变,训练模型的方法中的第一编码器、第二编码器、以及处理图像的方法中的第四编码器可以直接采用自编码器中编码器的结构和模型参数,处理图像的方法中的解码器可以直接采用自编码器中解码器的结构和模型参数,从而加快训练模型的过程和处理图像的过程。
应理解,上述举例说明是为了帮助本领域技术人员理解本申请实施例,而非要将本申请实施例限于所例示的具体数值或具体场景。本领域技术人员根据所给出的上述举例说明,显然可以进行各种等价的修改或变化,这样的修改或变化也落入本申请实施例的范围内。
本申请实施例还提供一种训练模型的装置,该装置具体可以是芯片,组件或模块,该装置可包括相连的处理器和存储器;其中,存储器用于存储计算机执行指令,当装置运行时,处理器可执行存储器存储的计算机执行指令,以使芯片执行上述各方法实施例中的训练模型的方法。
本申请实施例还提供一种处理图像的装置,该装置具体可以是芯片,组件或模块,该装置可包括相连的处理器和存储器;其中,存储器用于存储计算机执行指令,当装置运行时,处理器可执行存储器存储的计算机执行指令,以使芯片执行上述各方法实施例中的处理图像的方法。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机指令;当所述计算机可读存储介质在训练模型的装置上运行时,使得该训练模型的装置执行如前述所示的训练模型的方法,或者当所述计算机可读存储介质在处理图像的装置上运行时,使得该处理图像的装置执行如前述所示的处理图像的方法。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本申请实施例还提供了一种包含计算机指令的计算机程序产品,当其在训练模型的装置上运行时,使得训练模型的装置可以执行前述所示的训练模型的技术方案,或者当其在处理图像的装置上运行时,使得处理图像的装置可以执行前述所示的处理图像的技术方案。
上述本申请实施例提供的训练模型的装置、处理图像的装置、电子设备、计算机可读存储介质、计算机程序产品均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的相对应方法对应的有益效果,在此不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和电子设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其他的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其他特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,本申请说明书和所附权利要求书中提及的“多个”是指两个或两个以上。在本申请的描述中,除非另有说明,“/”表示或的意思,比如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合,比如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (8)
1.一种训练模型的方法,其特征在于,第一待训练模型包括:第一编码器、第二编码器以及目标模块,所述方法包括:
通过所述第一编码器将第一图像从图像空间编码至特征空间,得到所述第一图像的特征图,以及通过所述第二编码器将第二图像从图像空间编码至特征空间,得到所述第二图像的第一特征图,其中,所述第二图像和所述第一图像的区别为:所述第二图像的分辨率低于所述第一图像的分辨率,所述第一图像的特征图和所述第二图像的第一特征图对应相同的特征空间;
对所述第一图像的特征图和第一噪声图融合,得到融合后的第一结果;
将所述融合后的第一结果和所述第二图像的第一特征图融合,得到融合后的第二结果;
将所述融合后的第一结果和所述融合后的第二结果输入至所述目标模块,得到所述第一待训练模型输出的第二噪声图,其中,所述目标模块用于预测所述融合后的第一结果中的噪声;
根据所述第二噪声图与所述第一噪声图,确定所述第一待训练模型的目标参数。
2.根据权利要求1所述的方法,其特征在于,所述目标模块包括串联在一起的至少一个第一下采样模块、串联在一起的至少一个第一上采样模块、串联在一起的多个第二下采样模块,所述至少一个第一下采样模块与所述至少一个第一上采样模块串联,所述至少一个第一下采样模块、至少一个第一上采样模块各自对应的输出矩阵的最大阶数、最小阶数均相同,所述多个第二下采样模块对应的输出矩阵的阶数是所述至少一个第一上采样模块对应的输出矩阵的阶数的子集;
所述将所述融合后的第一结果和所述融合后的第二结果输入至所述目标模块,得到所述第一待训练模型输出的第二噪声图,包括:
通过所述至少一个第一下采样模块依次对上一级模块的输出下采样,得到第一下采样结果,所述第一下采样结果为所述至少一个第一下采样模块中输出矩阵的阶数最小的第一下采样模块的输出,其中,所述至少一个第一下采样模块中输出矩阵的阶数最大的第一下采样模块的输入为所述融合后的第一结果;
通过所述多个第二下采样模块依次对上一级模块的输出下采样,得到多个第二下采样结果,其中,所述多个第二下采样模块中输出矩阵的阶数最大的第二下采样模块的输入为所述融合后的第二结果;
通过所述至少一个第一上采样模块依次对各自的输入上采样,得到至少一个第一上采样结果,所述至少一个第一上采样模块中输出矩阵的阶数最大的第一上采样模块的输出为所述第二噪声图,或者,所述多个第二下采样模块中与所述至少一个第一上采样模块中输出矩阵的最大阶数相同的第二下采样模块的输出与所述至少一个第一上采样模块中输出矩阵的阶数最大的第一上采样模块的输出相加后的结果为所述第二噪声图;
其中,所述至少一个第一上采样模块中输出矩阵的阶数最小的第一上采样模块的输入为所述第一下采样结果;所述至少一个第一上采样模块中目标上采样模块的输入为所述目标上采样模块的上一级模块的输出与所述多个第二下采样模块中输出矩阵的阶数最小的第二下采样模块的输出相加后的结果,所述目标上采样模块为所述至少一个第一上采样模块中输出矩阵的阶数与所述多个第二下采样模块中输出矩阵的最小阶数相同的第一上采样模块的下一级模块;所述至少一个第一上采样模块中其他上采样模块的输入为上一级模块的输出,或者,为上一级模块的输出与所述多个第二下采样模块中与所述上一级模块的输出矩阵的阶数相同的第二下采样模块的输出相加后的结果。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第二噪声图与所述第一噪声图,确定所述第一待训练模型的目标参数,包括:
采用第一预设损失函数,确定所述第二噪声图与所述第一噪声图的第一损失值;
根据第一损失值与第一预设阈值的大小关系,确定所述第一待训练模型的目标参数。
4.根据权利要求3所述的方法,其特征在于,所述根据第一损失值与第一预设阈值的大小关系,确定所述第一待训练模型的目标参数,包括:
在所述第一损失值大于或等于所述第一预设阈值的情况下,返回执行:通过所述第一编码器将第一图像从图像空间编码至特征空间,得到所述第一图像的特征图,以及通过所述第二编码器将第二图像从图像空间编码至特征空间,得到所述第二图像的第一特征图,直至所述第一损失值小于所述第一预设阈值,并将所述第一损失值小于所述第一预设阈值的情况下对应的所述第一待训练模型训练过程中使用的参数作为所述目标参数,其中,所述第一损失值小于所述第一预设阈值的情况下对应的所述第一待训练模型训练过程中使用的参数是对上一次所述第一待训练模型训练过程中使用的参数调整后获得的。
5.根据权利要求1-4任一项所述的方法,其特征在于,在所述通过所述第二编码器将第二图像从图像空间编码至特征空间,得到所述第二图像的第一特征图之前,所述方法还包括:
对所述第一图像进行退化处理,得到退化处理后的第一图像,并对所述退化处理后的第一图像进行上采样,得到所述第二图像;
或者,
将所述第一图像转化为未经处理的RAW文件,并对所述RAW文件进行通道分离和插值处理,得到所述第二图像。
6.一种处理图像的方法,其特征在于,所述方法包括:
获取第三图像;
将所述第三图像和第四噪声图输入至第一目标模型,得到所述第一目标模型的输出结果,其中,所述第一目标模型通过上述权利要求1至5中任一项所述训练模型的方法得到;
将所述第一目标模型的输出结果输入至解码器,得到第一目标图像,其中,所述解码器与上述权利要求1至5中任一项所述的第一编码器相匹配,所述第一目标图像的分辨率高于所述第三图像的分辨率。
7.一种电子设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的方法,或权利要求6所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,使所述处理器执行如权利要求1至5中任一项所述的方法,或权利要求6所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310854693.XA CN116580269B (zh) | 2023-07-13 | 2023-07-13 | 训练模型的方法、处理图像的方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310854693.XA CN116580269B (zh) | 2023-07-13 | 2023-07-13 | 训练模型的方法、处理图像的方法、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116580269A CN116580269A (zh) | 2023-08-11 |
CN116580269B true CN116580269B (zh) | 2023-09-19 |
Family
ID=87540020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310854693.XA Active CN116580269B (zh) | 2023-07-13 | 2023-07-13 | 训练模型的方法、处理图像的方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116580269B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111091166A (zh) * | 2020-03-25 | 2020-05-01 | 腾讯科技(深圳)有限公司 | 图像处理模型训练方法、图像处理方法、设备及存储介质 |
CN113112536A (zh) * | 2021-03-19 | 2021-07-13 | 北京达佳互联信息技术有限公司 | 图像处理模型训练方法、图像处理方法及装置 |
CN113393410A (zh) * | 2021-07-26 | 2021-09-14 | 浙江大华技术股份有限公司 | 一种图像融合方法、装置、电子设备及存储介质 |
CN113592965A (zh) * | 2021-07-28 | 2021-11-02 | Oppo广东移动通信有限公司 | 图像处理方法、装置、电子设备和计算机可读存储介质 |
CN113781346A (zh) * | 2021-09-13 | 2021-12-10 | Oppo广东移动通信有限公司 | 图像处理方法、装置、电子设备和计算机可读存储介质 |
CN114897756A (zh) * | 2022-05-31 | 2022-08-12 | 中加健康工程研究院(合肥)有限公司 | 模型训练方法、医学图像融合方法、装置、设备和介质 |
WO2023010754A1 (zh) * | 2021-08-02 | 2023-02-09 | 中国科学院深圳先进技术研究院 | 一种图像处理方法、装置、终端设备及存储介质 |
-
2023
- 2023-07-13 CN CN202310854693.XA patent/CN116580269B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111091166A (zh) * | 2020-03-25 | 2020-05-01 | 腾讯科技(深圳)有限公司 | 图像处理模型训练方法、图像处理方法、设备及存储介质 |
CN113112536A (zh) * | 2021-03-19 | 2021-07-13 | 北京达佳互联信息技术有限公司 | 图像处理模型训练方法、图像处理方法及装置 |
CN113393410A (zh) * | 2021-07-26 | 2021-09-14 | 浙江大华技术股份有限公司 | 一种图像融合方法、装置、电子设备及存储介质 |
CN113592965A (zh) * | 2021-07-28 | 2021-11-02 | Oppo广东移动通信有限公司 | 图像处理方法、装置、电子设备和计算机可读存储介质 |
WO2023010754A1 (zh) * | 2021-08-02 | 2023-02-09 | 中国科学院深圳先进技术研究院 | 一种图像处理方法、装置、终端设备及存储介质 |
CN113781346A (zh) * | 2021-09-13 | 2021-12-10 | Oppo广东移动通信有限公司 | 图像处理方法、装置、电子设备和计算机可读存储介质 |
CN114897756A (zh) * | 2022-05-31 | 2022-08-12 | 中加健康工程研究院(合肥)有限公司 | 模型训练方法、医学图像融合方法、装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116580269A (zh) | 2023-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111047516B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN111798400A (zh) | 基于生成对抗网络的无参考低光照图像增强方法及*** | |
CN109949222B (zh) | 基于语义图的图像超分辨率重建方法 | |
CN112598579A (zh) | 面向监控场景的图像超分辨率方法、装置及存储介质 | |
CN111476719A (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
KR20190062283A (ko) | 선택적 손실 함수를 이용한 생성적 적대 네트워크의 학습을 위한 방법 및 장치 | |
CN112381716B (zh) | 一种基于生成式对抗网络的图像增强方法 | |
Wei et al. | Improving resolution of medical images with deep dense convolutional neural network | |
CN115115918B (zh) | 一种基于多知识融合的视觉学习方法 | |
CN114339219A (zh) | 帧间预测方法、装置、编解码方法、编解码器及电子设备 | |
CN116091288A (zh) | 一种基于扩散模型的图像隐写方法 | |
KR20200138079A (ko) | 전역적 문맥을 이용하는 기계 학습 기반의 이미지 압축을 위한 방법 및 장치 | |
Wang et al. | Raw image reconstruction with learned compact metadata | |
Fan et al. | Deep geometry post-processing for decompressed point clouds | |
CN113362239A (zh) | 一种基于特征交互的深度学习图像修复方法 | |
CN116580269B (zh) | 训练模型的方法、处理图像的方法、电子设备及存储介质 | |
Bai et al. | Survey of learning based single image super-resolution reconstruction technology | |
CN116600119A (zh) | 视频编码、解码方法、装置、计算机设备和存储介质 | |
CN116630152A (zh) | 图像分辨率重建方法、装置、存储介质及电子设备 | |
CN114862699B (zh) | 基于生成对抗网络的人脸修复方法、装置及存储介质 | |
Hua et al. | Image super resolution using fractal coding and residual network | |
KR102488037B1 (ko) | 인공 지능에 기반한 실시간 초해상도 구현 방법 및 장치 | |
CN115311138B (zh) | 图像超分辨率方法及装置 | |
CN116912345B (zh) | 一种人像动漫化处理方法、装置、设备和存储介质 | |
CN114580526B (zh) | 一种基于深度学习的建筑物提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |