CN111899161A - 一种超分辨率重建方法 - Google Patents
一种超分辨率重建方法 Download PDFInfo
- Publication number
- CN111899161A CN111899161A CN201910367397.0A CN201910367397A CN111899161A CN 111899161 A CN111899161 A CN 111899161A CN 201910367397 A CN201910367397 A CN 201910367397A CN 111899161 A CN111899161 A CN 111899161A
- Authority
- CN
- China
- Prior art keywords
- network
- super
- training
- picture
- reconstruction method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 105
- 238000012549 training Methods 0.000 claims abstract description 95
- 238000013528 artificial neural network Methods 0.000 claims abstract description 40
- 230000008569 process Effects 0.000 claims abstract description 31
- 238000003062 neural network model Methods 0.000 claims abstract description 25
- 230000006870 function Effects 0.000 claims description 39
- 239000013598 vector Substances 0.000 claims description 28
- 238000009826 distribution Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 abstract description 14
- 230000003044 adaptive effect Effects 0.000 abstract description 5
- 238000001514 detection method Methods 0.000 abstract description 5
- 230000006872 improvement Effects 0.000 abstract description 4
- 230000011218 segmentation Effects 0.000 abstract description 4
- 239000000284 extract Substances 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 12
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000003042 antagnostic effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供了一种超分辨率重建方法,所述方法包括:建立图片数据集;搭建神经网络结构,所述神经网络结构用于在神经网络训练过程中提取所述图片数据集的特征;建立神经网络结构的损失函数,所述损失函数用于指导神经网络训练;对所述图片数据集进行训练得到神经网络模型;使用神经网络模型重建图片,输入低分辨率图片,输出高分辨率图片。将SRGAN(Super‑Resolution Generative Adversarial Network)进行了改进,其中将生成网络G‑NET改变了网络结构,改进了损失函数,由于改进后,生成网络G‑NET提取出更精确的特征,使得超分辨率重建的效果更优,所以在做检测、识别、语义分割时候,可以获得更好效果。
Description
【技术领域】
本发明涉及图像处理技术领域,尤其涉及一种超分辨率重建方法。
【背景技术】
超分辨率(Super-Resolution)即通过硬件或软件的方法提高原有图像的分辨率,通过一系列低分辨率的图像来得到一幅高分辨率的图像过程就是超分辨率重建。高分辨率意味着图像中的像素密度高,能够提供更多的细节,而这些细节在许多实际应用中不可或缺。
当前超分辨率重建的方法,有基于插值法、基于重建的方法和基于学***滑图像;基于重建的方法的性能表现严重依赖施加的高分辨率图像的先验知识,容易导致过平滑,缺失重要的高频细节;基于学习的方法就是基于机器学习理论,尤其是深度学习,近年来出现一些方法,比较有代表性的有SRCNN(Super-ResolutionConvolutional Neural Network)、SRGAN(Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network)等,这些方法虽然在一定程度上弥补了另外两类方法的缺陷,在视觉感官上提高了图像的清晰度,但在细节上,无法控制一些多余的纹路出现。
【发明内容】
本发明所要解决的技术问题是提供一种超分辨率重建方法,将SRGAN(Super-Resolution Generative Adversarial Network)进行了改进,其中将生成网络G-NET改变了网络结构,改进了损失函数,由于改进后,生成网络G-NET提取出更精确的特征,使得超分辨率重建的效果更优,所以在做检测、识别、语义分割时候,可以获得更好的效果。
为解决上述技术问题,本发明一实施例提供了一种超分辨率重建方法,包括:建立图片数据集;搭建神经网络结构,所述神经网络结构用于在神经网络训练过程中提取所述图片数据集的特征;建立神经网络结构的损失函数,所述损失函数用于指导神经网络训练;对所述图片数据集进行训练得到神经网络模型,输出高分辨率图片数据集。
优选地,对所述图片数据集进行训练得到神经网络模型,输出高分辨率图片数据集包括:给神经网络结构赋予初始网络权重;给神经网络结构输入小批量的图片数据集,经过运算后更新网络权重;当损失函数收敛到收敛阈值时,保存神经网络结构和网络权重,得到神经网络模型,输出高分辨率图片数据集。
优选地,所述图片数据集为文件夹。
优选地,所述图片数据集图片格式包括jpg、png、jpeg、tiff。
优选地,对所述图片数据集进行训练得到神经网络模型之前包括:设置网络超参数。
优选地,所述对所述图片数据集进行训练得到神经网络模型包括:启动训练程序,进行训练。
优选地,初始网络权重满足标准正态分布。
优选地,所述收敛阈值为0~0.01。
优选地,所述网络超参数包括:学习率、将训练集训练一遍的次数、在训练中进行一次迭代所用到的数据集的数量、归一化范围。
优选地,所述训练程序包括三个神经网络,分别是生成网络G-NET、对抗网络D-NET和VGG网络VGG-NET。
优选地,进行训练包括:读取训练集图片,打乱训练集次序;保存通过生成网络后获取的图片。
优选地,学习率初始值设置为0.001~0.01。
优选地,将训练集训练一遍的次数设置为300~700。
优选地,设置归一化范围为0~1。
优选地,在训练中进行一次迭代所用到的数据集的数量设置为64~128。
优选地,生成网络和对抗网络交替训练,即先用对抗网络的损失函数训练对抗网络,然后用生成网络的损失函数训练生成网络;在求取生成网络的损失函数时使用VGG网络。
优选地,使用第一均方误差和第二均方误差作为生成网络G-NET的损失函数。
优选地,设置每完成10遍训练集迭代,学习率就更新为当前学习率的0.5~0.8倍。
优选地,所述第一均方误差、第二均方误差均是由输入的三通道图像与真实数据真实标记分别通过VGG网络VGG-NET后,输出的特征向量的均方误差。
与现有技术相比,上述技术方案具有以下优点:将SRGAN(Super-ResolutionGenerative Adversarial Network)进行了改进,其中将生成网络G-NET改变了网络结构,改进了损失函数,由于改进后,生成网络G-NET提取出更精确的特征,使得超分辨率重建的效果更优,所以在做检测、识别、语义分割时候,可以获得更好效果。
【附图说明】
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明超分辨率重建方法的模型训练阶段流程图。
图2是本发明超分辨率重建方法的图片重建阶段流程图。
图3是本发明超分辨率重建方法的残差模块结构示意图。
图4是本发明超分辨率重建方法的对抗网络D-NET的网络结构示意图。
图5是本发明超分辨率重建方法的VGG-16网络结构示意图。
图6是本发明超分辨率重建方法的提取深层信息后计算损失示意图。
【具体实施方式】
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例一
本发明一种超分辨率重建方法,包括步骤:建立图片数据集;搭建神经网络结构,神经网络结构用于在神经网络训练过程中提取图片数据集的特征;建立神经网络结构的损失函数,损失函数用于指导神经网络训练;对图片数据集进行训练得到神经网络模型;使用神经网络模型重建图片,输入低分辨率图片,经神经网络模型运算后,输出高分辨率图片。神经网络模型:包括神经网络接口和神经网络权重。神经网络结构:表示神经网络的连接关系。在训练之前,只有神经网络结构。训练过程中,获得权重,才有了神经网络模型。在超分辨率重建过程中,先搭建神经网络结构,训练神经网络权重获得神经网络模型。在使用过程中,通过使用神经网络模型,做特征提取和图像重建。
对图片数据集进行训练得到神经网络模型包括:给神经网络结构赋予初始网络权重,初始网络权重满足标准正态分布;给神经网络结构输入小批量的图片数据集,经过运算后更新网络权重;当损失函数收敛到收敛阈值时,保存神经网络结构和网络权重,得到神经网络模型,输出高分辨率图片数据集。具体实施时,收敛阈值为0~0.01。
图片数据集为文件夹。具体实施时,文件夹下还可以设置一定数量的子文件夹,数量指的是训练集里人员数量,每个子文件夹保存一个人的所有图片,不同子文件夹代表不同的人。
图片数据集图片格式包括但是不限于jpg、png、jpeg、tiff。
对图片数据集进行训练得到神经网络模型之前包括:设置网络超参数。网络超参数包括:学习率、将训练集训练一遍的次数、在训练中进行一次迭代所用到的数据集的数量、归一化范围。学习率初始值设置为0.001~0.01,具体实施时,可将学习率初始值设置为0.01。将训练集训练一遍的次数设置为300~700。设置每完成10遍训练集迭代,学习率就更新为当前学习率的0.5~0.8倍。设置归一化范围为0~1。在训练中进行一次迭代所用到的数据集的数量设置为64~128。
对图片数据集进行训练得到神经网络模型包括:启动训练程序,进行训练。训练程序包括三个神经网络,分别是生成网络G-NET、对抗网络D-NET和VGG网络VGG-NET。进行训练包括:读取训练集图片,打乱训练集次序;保存通过生成网络后获取的图片。生成网络和对抗网络交替训练,即先用对抗网络的损失函数训练对抗网络,然后用生成网络的损失函数训练生成网络;在求取生成网络的损失函数时使用VGG网络。使用第一均方误差和第二均方误差作为生成网络G-NET的损失函数。第一均方误差、第二均方误差均是由输入的三通道图像与真实数据真实标记分别通过VGG网络VGG-NET后,输出的特征向量的均方误差。
实施例二
图1是本发明超分辨率重建方法的模型训练阶段流程图。图1是训练阶段的流程图,在训练模型时使用,目的是训练后得到生成网络G-NET的模型参数,是超分辨率重建第一个步骤。该方法包括:
S10:表示训练时候的数据集。数据集是一个文件夹,文件夹下存放了高分辨率图片,格式可以是jpg、png、jpeg、tiff等。根据不同场景,使用不同的数据集。
比如:要提升某个摄像头的图像分辨率,那就采集该摄像头拍摄到清晰图片,如果还分不同时段,也应当把不同时段的图片都采集进来。
这里需要注意的是:由于生成网络G-NET没有包含全连接层,所以训练集和测试集的图片大小可以不一致,因为计算差异loss的时候是每张图片和网络输出的特征向量进行比较计算的,两者大小是一致即可。
因此,这也是本发明的一个优势,可以使用不同尺寸的图片作为网络输入,避免放缩输入图片到统一尺寸而造成的图片信息损失。
S20:表示生成网络。在训练过程需要训练的网络之一,在图片重建阶段的作用是提取图片特征进而生成重建后的图片;输入的是一张n×n大小的低清图片,输出的是4n×4n大小的图片,即图片长宽分别放大4倍;
参考标准(ground truth),是正确打标记的数据。通过损失函数,衡量网络输出与参考标准差距。在训练时,需要衡量生成网络输出的特征与参考标准(ground truth)在像素级别上的差异(loss),均方误差(mean-square error,MSE)就可以衡量这种差异,其定义如下:
但对于真实数据和拟合数据是通过网络输出的特征向量(包括三通道图片),求取均方误差MSE的过程,是对应通道的对应位置的像素差的平方和,最后算出平均。首先,对于单通道特征向量(feature maps)的均方误差MSE,定义如下:
其中yij是真实特征向量(feature maps)中第i行j列的像素值的参考标准(groundtruth),是拟合的特征向量(feature maps)中第i行j列的像素值,特征向量(featuremaps)的大小都是n×m阶矩阵。
对于多通道的特征向量(feature maps)的均方误差MSE,求取的过程是分别求取每个通道的均方误差MSE,最后相加求平均。
S30:对抗网络,只在训练中使用,作用是在训练阶段,以生成网络的输出图片作为输入,然后判断该图片是否是真正的高清图片,而非是生成网络的输出图片,然后会产生一个生成损失和一个对抗损失,在训练过程中分别使用这两个损失去优化模型参数,定义如下:
优化对抗网络时:
其中D表示对抗网络的函数表示形式;G表示生成网络的函数表示形式;z表示对抗网络的输入,通常指代白噪声,本发明为像素归一化0到1的低分辨率图片;G(z)表示以z为输入的生成网络输出的特征向量,本发明为生成网络输出的高分辨率三通道图片(像素归一化为0到1);D(G(z)表示生成网络以z为输入得到的输出特征向量,然后将次特征向量输入到对抗网络,经计算得到输出值,输出值是一个0到1的数值;x表示对抗网络输入为真实参考的图片,本发明为真实高清分辨率图片,并经过归一化为0到1;Pdata(x)表示表示真实训练集的分布,本发明表示高分辨率训练集的分布;Pz(z)表示表示白噪声的分布,而本发明为高分辨率做成低分辨率训练集的分布;Ez~Pz(z)[log(1-D(G(z)))]表示在低分辨率训练集上,判别网络的损失;D(x)表示判别成网络以高分辨率训练集为输入得到的输出值,输出值是一个0到1的数值;Ex~Pdata(x)[log(D(x))]表示判别网络在真实的高清训练集上的损失;表示针对D和V两个网络构成,在优化D网络的网络权重时,是以最大化损失函数V(D,G)的形式。公式表达的意思是,对抗网络的损失函数为V(D,G),在模型训练过程中,让对抗网络的损失越来越大,最终当损失达到最大时,说明对抗网络能最精确地辨认输入的图片是真图还是生成网络生成的图片,此时对抗网络的模型参数达到最优,这也是优化对抗网络的过程和目的。
常规方法在优化生成网络时:
其中:D、G表示对抗网络和生成网络的函数表示形式,比如,在D(z)中,z表示对抗网络的输入,而D(z)表示对抗网络的输出,输出的结果一般是“1”或者“0”来判别真假。G(z)表示以z为输入的生成网络输出的特征向量;D(G(z))表示对抗网络是输出结果,输入是G(z),是生成网络输出的特征向量。V(D,G)表示对抗网络D和生成网络D组成的网络结构的损失函数。Pz(z)表示白噪声的分布,而本发明为高分辨率做成低分辨率训练集的分布。
生成网络的目的,就是将输入图片生成一张与真实图片无差别的图片,比如输入一张低清的图片,生成一张高清的图片,而这张高清的图片与真实的自然界中的图片是一致的,而不是糊造的,好比输入的是低清的人脸图片,生成网络输出的高清的人脸图片,而不是高清的风景图片或者纹路随特别而分辨率满足要求的高清图片。
以上是常规生成对抗网络的优化方法,但是,本方法在优化生成网络,还多加四个均方误差损失,即生成网络损失:
g_loss=mse1+mse2+mse1_vgg+mse2_vgg+V(D,G)
式中,mse1表示生成网络中间输出Image1与真实高分辨率图像的均方误差;mse2表示生成网络最终输出Output images与真实高分辨率图像的均方误差;mse1_vgg表示Image1与真实高分辨率图像分别经过VGG网络提取特征后的均方误差;mse2_vgg表示Output images与真实高分辨率图像分别经过VGG网络提取特征后的均方误差,V(D,G)表示生成和对抗网络的损失函数。在优化生成网络的时候,最小化生成网络的损失g_loss,替代常规的损失函数,最终目的让生成网络可以得到更好的超分辨率重建效果。使用的优化方法是随机梯度下降(SGD)方法。
模型训练采用随机梯度下降法,最小化公式生成网络的损失函数g_loss和对抗网络的损失函数V(D,G),即分别让损失函数沿着梯度下降的最快方向找到最小值,以此来调整模型网络初始化权重,得到网络模型最优的权重值。
S40:表示VGG网络。它是提取图片深层特征的工具,只在训练过程中使用,作用是将表征图像关键性特征的关键信息提取出来,进而可以有效避免光照和噪声等因素影响。
在训练时,需要衡量生成网络输出的特征与参考标准(ground truth)在像素级别上的差异(loss),而VGG就是用以提取他们的底层关键特征,之后用均方误差就可以更为准确地衡量这种差异。
为了得到更清晰的重建效果,发明额外还使用两个均方误差作为生成网络的损失函数:mse1_vgg和mse2_vgg。
mse1是G-NET网络层输出Image1与参考标准为输入高清图缩小1/2的图像的均方误差,同理,mse2是G-NET网络层输出图片Outputs images与参考标准为输入高清图的均方误差。
具体实施时,过程是启动训练后,从训练集取一个mini-batch的图片,即输入图片Input images,经过压缩成0.25倍和像素归一化到[-1.1]后,就可以输入到G-NET网络;
G-NET有两个输出,一个是中间网络层输出的Image1,另一个是最后网络层输出的输出图片Output Images,然后可以计算损失生成网络的损失和对抗网络的损失,过程是:两个输出分别与对应的参考标准计算得到两个均方差损失;两个输出分别与对应的参考标准计算通过VGG-NET提取深层特征后计算又得到两个均方差损失;输出图片Output Images输入到D-NET后计算得到一个对抗损失和一个生成损失;
epoch:将所有训练集训练一整遍的次数,n个epoch表示将所有训练集训练n遍。Mini-batch:在训练中进行一次迭代所用到的数据集的数量,一个epoch由多个Mini-batch组成。得到损失后,就可以进行反向传播,生成损失反向传播的对象是G-NET,而对抗损失的是D-NET,两次反向传播先后进行,完成后即可进行下一个mini-batch的训练,以此类推。最终训练达到最大epoch数后,保存神经网络模型网络权重,终止训练。
图2是本发明超分辨率重建方法的图片重建阶段流程图。图2是生成网络G-NET模块在重建阶段的过程,是将训练阶段得到的模型参数,加载进程序中,将输入的低分辨率图片重建,然后输出高分辨率图片,这个过程是超分辨率第二个步骤。该方法包括:
210:是生成网络G-NET模块是输入,即一张三通道彩色图像,长宽相等,但大小没限定,假定大小是n×n。
220:是生成网络G-NET模块的一个卷积层,Conv-BN-ReLU(kernel3-num64-stride1)的含义是,Conv:表示卷积层;BN:表示卷积层后连接一个BN层(Batch Normalization,批量归一化);ReLU:表示卷积层采用的激活函数是ReLU;kernel3:表示卷积核的大小是3×3,同理,如果是kernel5,那么表示卷积核大小是5×5;num64:表示卷积核个数的64,同理,如果是num128,那么卷积核个数是128;stride1:表示卷积过程的步长是1,同理,如果stride2,那么表示卷积过程是2,网络层的结构参数,是根据经验来设定。
230:是生成网络G-NET模块中的一个残差模块,残差模块的结构如图3所示,Residual Block(kernel3-num64-stride1)的含义:Residual Block:表示这是一个残差模块,kernel3:表示卷积核的大小是3×3;num64:表示卷积核个数的64;stride1:表示卷积过程的步长是1。
240:这部分包含6个残差模块,结构完全相同。
250:表示一张三通道的特征,可以理解为一张三通道彩色图片,也就是一张比输入图片稍微清晰的图片,大小也是2n×2n;
260:是生成网络G-NET模块的一个反卷积层,作用是将输入的特征放大。Deconv-BN-ReLU(kernel3-num64-stride2),其中Deconv表示这是一个反卷积层,BN、ReLU、kernel3、num64、stride2的含义与220的相同;
270:表示一张三通道彩色图片,是超分辨率重构后的图片,大小也是4n×4n。具体实施时,过程是输入一张大小是n*n并且像素归一化到[-1.1]的三通道输入图片Inputimages(而在训练过程中是一个mini-batch的图片),然后根据箭头流向,依次通过Conv-BN-ReLU、Residual Block等网络层计算,输出中间特征向量Image1和最终的特征向量Output images。其中中间特征向量Image1是三通道,呈现是图片形式,Outputs images也是如此。
具体实施时,image1是网络层输出的特征向量(feature maps),大小的3×2n×2n(3表示通道数);训练集的高清图压缩1/2后的图片,大小是3×2n×2n;mse1是image1与参考标准(ground truth)为高清图压缩1/2的图片的均方误差;
同理,输出图片output Images是网络层输出的特征向量(feature maps),大小的3×4n×4n(3表示通道数);训练集的高清图压缩1/2后的图片,大小是3×4n×4n;mse2是输出图片output Images与以输入的高清图作为参考标准的均方误差。
训练使用mse1和mse2参与生成网络的损失函数计算。但通过实验发现,单纯使用mse1、mse2,生成的图片虽然色彩丰富度较好,但仍旧不够清晰,于是发明还借用VGG网络(一种常见的深度学习网络),然后用于提取图片的深层特征后再去衡量差异。
图3是本发明超分辨率重建方法的残差模块结构示意图。图3是一个残差模块(Residual Block)也是图2中230的详细结构,是一种常见的神经网络结构。其中:
310:表示残差模块的输入,一般是上一层网络层的输出特征。当残差模块作为第一层,那么输入一般就是图像形式;
320:Conv-ReLU(kernel3-num64-stride1)的含义是,Conv:表示卷积层;ReLU:表示卷积层采用的激活函数是ReLU;kernel3:表示卷积核的大小是3×3,同理,如果是kernel5,那么表示卷积核大小是5×5;num64:表示卷积核个数的64,同理,如果是num128,那么卷积核个数是128;stride1:表示卷积过程的步长是1,同理,如果stride2,那么表示卷积过程是2,网络层的结构参数,是根据经验来设定。
330:表示将残差模块的输入直接输送到残差模块的输出,与网络层的输出合并后,作为残差模块最终的输出,这样做法的目的,最主要是防止在训练过程中出现梯度消失,进而可以使得整个网络层可以更深。
340:表示残差模块的输出。
具体实施时,图3是残差模块结构示意图,本质是卷积计算的过程,输入的x是某一特征向量,然后先后经过两次卷积计算得到特征向量再与输入的x相加,就可以得到残差模块的输出y。
图4是本发明超分辨率重建方法的对抗网络D-NET的网络结构示意图。图4的对抗网络D-NET的网络结构,是在训练中使用,在训练时,用以甄别输入的图片是真实的训练集图片还是生成网络G-NET网络输出的图片。
410:表示此网络是输入,是一张三通道彩色图像,生成网络G-NET的输出直接作为此网络的输入,还有训练集的高清图像也是。
420,表示此网络的输出,是一个0到1之间是数字,本质是一种概率,数字越大,那么表示对抗网络D-NET网络判定输入的图片是真实图像的可能性越大。
具体实施时,图4是D-NET的网络结构示意图,过程是输入的特征向量Inputs先后经过6层卷积网络的计算,最后输出Outputs。
图5是本发明超分辨率重建方法的VGG-16网络结构示意图。图5是经典的VGG-16网络结构,目的为了提取输入图片的深层特征,可以避免光照、噪声等因素的干扰。
510:表示输入,是一张像素归一化到[-1.1]的三通道图片;
520:是一个卷积层,“3×3conv,64”拆解为三部分内容,“3×3”表示卷积核大小,同理1×1、5×5;“conv”表示的是这是一个卷积层;“64”表示卷积核个数,同理128、256、512,都是表示卷积核个数;
530:也表示一个卷积层,只是卷积层比520的卷积层多了一个pooling层,即“pool/2”表示这是一个pooling层,并且经过pooling层后,特征图变为原来大小的一半;
540:表示一个全连接层,“fc,4096”拆解为两部分内容,“fc”指这是一个全连接层;“4096”表示全连接节点的个数。
550:表示网络的输出。
具体实施时,图5是VGG-16网络结构示意图,表示输入一张像素归一化到[-1.1]的三通道图片,根据箭头的方向,先后通过多次卷积层和全连接层计算,得到输出特征向量y。
图6是本发明超分辨率重建方法的提取深层信息后计算损失示意图,展示mse1_vgg和mse2_vgg的计算过程。如图6所示,mse1_vgg和mse2_vgg的计算多了一次VGG提取特征的过程。mse1_vgg是G-NET的特征向量image1与参考标准为高清图缩小1/2的图片,分别通过VGG网络提取特征后,输出特征向量计算均方误差;同理,mse2_vgg是输出图片outputImages与参考标准为高清图分别通过VGG后,输出特征向量计算均方误差。值得注意的是,mse1_vgg和mse2_vgg是本发明独特的地方,也是关键操作,目的再通过这两个损失函数,去控制生成网络的生成过程,让生成的图片逐步达到更为清晰的效果。
其过程是将大小为高清图片1/4的低清输入图片Input images,经过一段网络运算后,生成了大小放大一倍的image1,此时,要求image1与真实高清图片缩小1/2的图片不能差异过大,然后image1又经过一段网络运算,最终的输出图片output images完成重建。mse1_vgg与mse2_vgg相辅相成,共同促进重建效果。
由上述说明可知,使用根据本发明的一种超分辨率重建方法,将SRGAN(Super-Resolution Generative Adversarial Network)进行了改进,其中将生成网络G-NET改变了网络结构,改进了损失函数,由于改进后,生成网络G-NET提取出更精确的特征,使得超分辨率重建的效果更优,所以在做检测、识别、语义分割时候,可以获得更好效果。可有效解决当前基于学习方法难以控制图像细节纹理的问题,让重建的图像更加清晰。在检测识别等应用时,使用本方法可以提高原图的分辨率,进而提升算法效果。
以上对本发明实施例进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。
Claims (19)
1.一种超分辨率重建方法,其特征在于,包括:
建立图片数据集;
搭建神经网络结构,所述神经网络结构用于在神经网络训练过程中提取所述图片数据集的特征;
建立神经网络结构的损失函数,所述损失函数用于指导神经网络训练;
对所述图片数据集进行训练得到神经网络模型;
使用神经网络模型重建图片,输入低分辨率图片,输出高分辨率图片。
2.根据权利要求1所述的超分辨率重建方法,其特征在于,对所述图片数据集进行训练得到神经网络模型,输出高分辨率图片数据集包括:
给神经网络结构赋予初始网络权重;
给神经网络结构输入小批量的图片数据集,经过运算后更新网络权重;
当损失函数收敛到收敛阈值时,保存神经网络结构和网络权重,得到神经网络模型,输出高分辨率图片数据集。
3.根据权利要求1所述的超分辨率重建方法,其特征在于,所述图片数据集为文件夹。
4.根据权利要求1所述的超分辨率重建方法,其特征在于,所述图片数据集图片格式包括jpg、png、jpeg、tiff。
5.根据权利要求1所述的超分辨率重建方法,其特征在于,对所述图片数据集进行训练得到神经网络模型之前包括:设置网络超参数。
6.根据权利要求1所述的超分辨率重建方法,其特征在于,所述对所述图片数据集进行训练得到神经网络模型包括:启动训练程序,进行训练。
7.根据权利要求2所述的超分辨率重建方法,其特征在于,初始网络权重满足标准正态分布。
8.根据权利要求2所述的超分辨率重建方法,其特征在于,所述收敛阈值为0~0.01。
9.根据权利要求5所述的超分辨率重建方法,其特征在于,所述网络超参数包括:学习率、将训练集训练一遍的次数、在训练中进行一次迭代所用到的数据集的数量、归一化范围。
10.根据权利要求6所述的超分辨率重建方法,其特征在于,所述训练程序包括三个神经网络,分别是生成网络G-NET、对抗网络D-NET和VGG网络VGG-NET。
11.根据权利要求6所述的超分辨率重建方法,其特征在于,进行训练包括:读取训练集图片,打乱训练集次序;保存通过生成网络后获取的图片。
12.根据权利要求9所述的超分辨率重建方法,其特征在于,学习率初始值设置为0.001~0.01。
13.根据权利要求9所述的超分辨率重建方法,其特征在于,将训练集训练一遍的次数设置为300~700。
14.根据权利要求9所述的超分辨率重建方法,其特征在于,设置归一化范围为0~1。
15.根据权利要求9所述的超分辨率重建方法,其特征在于,在训练中进行一次迭代所用到的数据集的数量设置为64~128。
16.根据权利要求10所述的超分辨率重建方法,其特征在于,生成网络和对抗网络交替训练,即先用对抗网络的损失函数训练对抗网络,然后用生成网络的损失函数训练生成网络;在求取生成网络的损失函数时使用VGG网络。
17.根据权利要求10所述的超分辨率重建方法,其特征在于,使用第一均方误差和第二均方误差作为生成网络G-NET的损失函数。
18.根据权利要求13所述的超分辨率重建方法,其特征在于,设置每完成10遍训练集迭代,学习率就更新为当前学习率的0.5~0.8倍。
19.根据权利要求17所述的超分辨率重建方法,其特征在于,所述第一均方误差、第二均方误差均是由输入的三通道图像与真实数据真实标记分别通过VGG网络VGG-NET后,输出的特征向量的均方误差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910367397.0A CN111899161A (zh) | 2019-05-05 | 2019-05-05 | 一种超分辨率重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910367397.0A CN111899161A (zh) | 2019-05-05 | 2019-05-05 | 一种超分辨率重建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111899161A true CN111899161A (zh) | 2020-11-06 |
Family
ID=73169067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910367397.0A Pending CN111899161A (zh) | 2019-05-05 | 2019-05-05 | 一种超分辨率重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111899161A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114063168A (zh) * | 2021-11-16 | 2022-02-18 | 电子科技大学 | 一种地震信号人工智能降噪方法 |
-
2019
- 2019-05-05 CN CN201910367397.0A patent/CN111899161A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114063168A (zh) * | 2021-11-16 | 2022-02-18 | 电子科技大学 | 一种地震信号人工智能降噪方法 |
CN114063168B (zh) * | 2021-11-16 | 2023-04-21 | 电子科技大学 | 一种地震信号人工智能降噪方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111639692B (zh) | 一种基于注意力机制的阴影检测方法 | |
CN113240580B (zh) | 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法 | |
CN109949255B (zh) | 图像重建方法及设备 | |
CN108510485B (zh) | 一种基于卷积神经网络的无参照图像质量评估方法 | |
CN108985317B (zh) | 一种基于可分离卷积和注意力机制的图像分类方法 | |
CN110059728B (zh) | 基于注意力模型的rgb-d图像视觉显著性检测方法 | |
CN112489164B (zh) | 基于改进深度可分离卷积神经网络的图像着色方法 | |
CN110689599A (zh) | 基于非局部增强的生成对抗网络的3d视觉显著性预测方法 | |
CN107784288A (zh) | 一种基于深度神经网络的迭代定位式人脸检测方法 | |
CN107506792B (zh) | 一种半监督的显著对象检测方法 | |
CN109447897B (zh) | 一种真实场景图像合成方法及*** | |
CN112862689A (zh) | 一种图像超分辨率重建方法及*** | |
CN114898284B (zh) | 一种基于特征金字塔局部差异注意力机制的人群计数方法 | |
CN112884668A (zh) | 基于多尺度的轻量级低光图像增强方法 | |
CN113256494B (zh) | 一种文本图像超分辨率方法 | |
CN112884758A (zh) | 一种基于风格迁移方法的缺陷绝缘子样本生成方法及*** | |
CN113901928A (zh) | 一种基于动态超分辨率的目标检测方法、输电线路部件检测方法及*** | |
CN115994900A (zh) | 基于迁移学习的无监督缺陷检测方法和***、存储介质 | |
CN114529793A (zh) | 一种基于门控循环特征融合的深度图像修复***及方法 | |
CN111539434B (zh) | 基于相似度的红外弱小目标检测方法 | |
CN111899161A (zh) | 一种超分辨率重建方法 | |
CN113962332B (zh) | 基于自优化融合反馈的显著目标识别方法 | |
CN114708591A (zh) | 基于单字连接的文档图像中文字符检测方法 | |
CN114821368A (zh) | 一种基于强化学习和Transformer的电力缺陷检测方法 | |
CN110827238A (zh) | 一种改进的全卷积神经网络的侧扫声纳图像特征提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |