CN112669210A - 一种基于应用新型ReLU函数的VDSR模型的图像超分辨率方法、设备、存储介质 - Google Patents
一种基于应用新型ReLU函数的VDSR模型的图像超分辨率方法、设备、存储介质 Download PDFInfo
- Publication number
- CN112669210A CN112669210A CN202011576889.XA CN202011576889A CN112669210A CN 112669210 A CN112669210 A CN 112669210A CN 202011576889 A CN202011576889 A CN 202011576889A CN 112669210 A CN112669210 A CN 112669210A
- Authority
- CN
- China
- Prior art keywords
- relu function
- image
- improved
- vdsr
- vdsr model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Image Processing (AREA)
Abstract
本发明涉及一种基于应用新型ReLU函数的VDSR模型的图像超分辨率方法、设备、存储介质,是指:将待处理的图像输入训练好的改进的VDSR模型中,输出得到其高分辨率图像;改进的VDSR模型中新型ReLU函数即自适应学习静态工作点的ReLU函数;受到三极管放大电路的启发,本发明将静态工作点的概念引入到新型ReLU函数中,将传统ReLU函数中的零点作为静态工作点,实现在神经网络训练过程中自适应学习该静态工作点的值。将新型ReLU函数应用在VDSR模型中,在训练网络的过程中采用了数据增广和学习率衰减策略,以避免网络出现过拟合现象。本发明可以有效提高VDSR模型在超分辨任务中的性能。
Description
技术领域
本发明涉及一种基于应用新型ReLU函数的VDSR模型的图像超分辨率方法、设备、存储介质,属于深度学习技术领域。
背景技术
深度学习是一类通过多层非线性变换对高复杂性数据建模算法的合集,深层神经网络凭借其强大的学习和表达能力,成为深度学习领域最重要的研究方向之一,在图像、视频处理等领域得到广泛应用。
神经网络中的每个神经元节点接受上一层神经元的输出值作为本神经元的输入值,并将输入值传递给下一层,输入层神经元节点会将输入属性值直接传递给下一层(隐藏层或输出层)。在多层神经网络中,上层节点的输出和下层节点的输入之间具有一个函数关系,这个函数称为激活函数(又称激励函数)。早期的神经网络模型并未引入激活函数,如多层感知机(MPL),每层神经元都只是对上层神经元输出进行线性变换,这导致任意层的全连接神经网络和单层神经网络模型的表达能力没有任何区别。当引入了激活函数,神经网络模型具有了非线性拟合能力,极大的增强了神经网络的表达能力,几乎可以拟合任意函数。
由于激活函数给神经网络的性能带来的巨大提升,研究人员在激活函数的设计上进行了大量的探索,从早期的Sigmoid函数、Tanh函数到近年来得到广泛应用的ReLU函数,下面将详细介绍几种常用的激活函数。
第一,Sigmoid函数,Sigmoid函数的数学形式如下:
Sigmoid函数图像如图1所示;横、纵坐标分别表示Sigmoid函数的输入、输出,Sigmoid函数将输入映射到(0,1)的区间,在深层神经网络中梯度反向传播时容易导致梯度消失,由于Sigmoid函数的输出不是0均值(即zero-center),会导致模型训练时收敛缓慢,并且其本身含有幂运算导致运算消耗较大。
第二,Tanh函数,Tanh函数的数学形式如下:
Tanh函数图像如图2所示,横、纵坐标分别表示Tanh函数的输入、输出,Tanh函数解决了Sigmoid函数输出非0均值问题,但是梯度消失和幂运算问题依然存在。
第三,ReLU函数,ReLU函数的数学形式如下:
ReLU函数图像如图3所示:横、纵坐标分别表示ReLU函数的输入、输出,ReLU函数其实就是一个取最大值函数。虽然简单,却是近几年的重要成果。和Sigmoid函数、Tanh函数相比,ReLU函数不再包含幂运算,大大降低了运算消耗,并且ReLU函数有效缓解了梯度消失问题。但是,ReLU函数仍然存在输出非零均值的问题,并且在参数初始化不当或初始学习率过高的情况下,会导致网络中某些神经元永远不会被激活。尽管ReLU函数存在这些问题,但依然是目前最受欢迎的激活函数之一,并在后续的研究中出现了Leaky ReLU、RReLU、PReLU等变体。
近年来,卷积神经网络在图像超分辨任务中取得了巨大的进步,研究人员往往通过加深网络模型的深度来提高性能,例如VDSR模型中包含了20层卷积层。如果应用前文中提到的Sigmoid函数或tanh函数作为激活函数层,网络模型的训练将变得不稳定,极易发生梯度消失从而导致无法继续训练。原始的VDSR模型选择了ReLU函数作为激活函数层,取得了比较理想的性能。但是,ReLU函数将小于0的特征数据全部置零,这将限制了模型的表达能力。
发明内容
针对现有技术的不足,本发明提供了一种基于应用新型ReLU函数的VDSR模型的图像超分辨率方法;
本发明还提供了一种计算机设备及一种计算机存储介质。
术语解释:
1、VDSR模型,是一个经典的图像超分辨网络模型,其网络结构如图5所示。其中包含20层卷积层、19层ReLU激活函数层以及残差连接。该模型将低分辨率图像经过bicubic插值后作为输入,通过20层卷积层学习低分辨率图像丢失的高频分量,在网络的末尾将学习到的高频分量与输入进行像素级相加,得到最终的高分辨率图像。
2、公开数据集BSD300,由BerkelyComputer Vision Group提供,数据集中包含200张训练图和100张测试图。
本发明的技术方案为:
一种基于应用新型ReLU函数的改进的VDSR模型的图像超分辨率方法,是指:将待处理的图像输入训练好的改进的VDSR模型中,输出得到其高分辨率图像;
改进的VDSR模型中新型ReLU函数即自适应学习静态工作点的ReLU函数f(x)如式(Ⅰ)所示:
式(Ⅰ)中,Q是指静态工作点,静态工作点是指原始的ReLU函数中的零点,Q通过自适应学习获取,x表示改进的VDSR模型中新型ReLU函数层的输入特征。
Q通过自适应学习获取,是指:将Q设置成一个可学习的参数并初始化为0,x表示改进的VDSR模型中新型ReLU函数层的输入特征,在改进的VDSR模型中的训练过程中,新型ReLU函数层将输入特征中小于Q的值置为0,将大于Q的值置为x-Q,在反向传播过程中不断地更新Q值,在经过大量数据的训练后,VDSR模型中不同位置的新型ReLU函数层将具有不同的Q值。相比原始的ReLU函数,本发明提出的新型ReLU函数将具有更好的非线性拟合能力,原始的ReLU函数是指背景技术中提及的ReLU函数。
静态工作点的概念源于三极管放大原理。三极管有静态和动态两个状态,静态是指三极管在未加信号时直流工作状态,在静态时各电极电压称为静态工作电流,动态是指三极管在加入交流信号时的工作状态,在动态时各电极电流称为动态工作电流。如果三极管直流电路工作不正常,则三极管交流电路就不可能正常工作。静态工作点是指在静态时,电路处于直流工作状态,这些电流、电压的数值可用三极管输入输出曲线上一个确定的点表示,也称Q点。确定放大电路的电压和电流的静态值,选取合适的静态工作点可以防止电路产生非线性失真,保证放大效果。在原始的ReLU函数中,输入大于0的数据输出为其本身,而小于0的输入特征则将输出置0,结合三极管中静态工作点的概念,将原始的ReLU函数中的零点称为激活函数的静态工作点。
根据本发明优选的,所述改进的VDSR模型包括20层卷积层、19层新型ReLU函数层以及残差连接;所述改进的VDSR模型将低分辨率图像经过bicubic插值后作为输入,通过20层卷积层学习低分辨率图像丢失的高频分量,在所述改进的VDSR模型的末尾将学习到的高频分量与输入进行像素级相加,得到最终的高分辨率图像。
改进的VDSR模型在网络结构上与原始的VDSR模型是相同的,只是将原始的ReLU函数替换成本发明提出的新型ReLU函数。
根据本发明优选的,所述改进的VDSR模型的训练过程如下:
(1)数据预处理
选取公开数据集BSD300中若干张图片作为训练集,若干张图片作为测试集;
对训练集中的训练数据进行数据增广(data augment);
(2)搭建改进的VDSR模型
改进的VDSR模型采用原始的VDSR模型的网络结构,将其中原始的ReLU函数替换成新型ReLU函数;
(3)训练步骤
将步骤(1)中处理后的训练集中的训练数据输入步骤(2)搭建好的改进的VDSR模型训练,得到训练好的VDSR模型。
进一步优选的,步骤(3)中,初始学习率设置为0.0001,优化器选择Adam,batchSize设置为16,训练了200个epoch,每进行一个epoch的训练后测试一次。
进一步优选的,数据增广是指:对训练数据进行随机水平翻转、随机亮度调整和随机裁剪,扩大训练集。从而避免网络发生过拟合,提高网络的泛化能力。
根据本发明优选的,输出的高分辨率图像使用峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)作为性能的评价指标,峰值信噪比PSNR通过均方误差(Mean SquareError,MSE)来定义,假设两个尺寸为m*n的单通道图像I和K,二者均方误差的定义如式(Ⅱ)所示:
式(Ⅱ)中,i、j分别表示图像的行和列,I(i,j)、K(i,j)分别表示图像I、图像K第i行第j列位置的像素值;
峰值信噪比PSNR的定义如式(III)所示:
式(III)中,MAXI表示图像中像素点的最大值。如果图像是8位的,则最大值为255。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现基于应用新型ReLU函数的改进的VDSR模型的图像超分辨率方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现基于应用新型ReLU函数的改进的VDSR模型的图像超分辨率方法的步骤。
本发明的有益效果为:
1、本发明提出一种新型ReLU函数,在训练过程中自适应学习静态工作点,提高了卷积神经网络模型的表达能力。
2、与应用原始ReLU函数的VDSR模型相比,应用本发明新型ReLU函数的VDSR模型获得了更高的PSNR值,有效提高在超分辨任务中的性能,验证了本发明的有效性。
3.本发明在训练网络的过程中对数据进行了数据增广,并采用学习率衰减策略,有效避免了网络训练过程中的过拟合现象,提高了网络的泛化能力。
附图说明
图1为现有Sigmoid函数图像示意图;
图2为现有Tanh函数的图像示意图;
图3为原始ReLU函数的图像示意图;
图4为本发明自适应学习静态工作点的ReLU函数的图像示意图;
图5为本发明改进的VDSR模型的网络结构示意图;
图6是2倍超分辨任务实验效果对比结果图;
图7是3倍超分辨任务实验效果对比结果图。
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例1
一种基于应用新型ReLU函数的改进的VDSR模型的图像超分辨率方法,是指:将待处理的图像输入训练好的改进的VDSR模型中,输出得到其高分辨率图像;
如图4所示,改进的VDSR模型中新型ReLU函数即自适应学习静态工作点的ReLU函数f(x)如式(Ⅰ)所示,横、纵坐标分别表示新型ReLU函数的输入、输出:
式(Ⅰ)中,Q是指静态工作点,静态工作点是指原始的ReLU函数中的零点,Q通过自适应学习获取,x表示改进的VDSR模型中新型ReLU函数层的输入特征。
Q通过自适应学习获取,是指:将Q设置成一个可学习的参数并初始化为0,x表示改进的VDSR模型中新型ReLU函数层的输入特征,在改进的VDSR模型中的训练过程中,新型ReLU函数层将输入特征中小于Q的值置为0,将大于Q的值置为x-Q,在反向传播过程中不断地更新Q值,在经过大量数据的训练后,VDSR模型中不同位置的新型ReLU函数层将具有不同的Q值。相比原始的ReLU函数,本发明提出的新型ReLU函数将具有更好的非线性拟合能力,原始的ReLU函数是指背景技术中提及的ReLU函数。
静态工作点的概念源于三极管放大原理。三极管有静态和动态两个状态,静态是指三极管在未加信号时直流工作状态,在静态时各电极电压称为静态工作电流,动态是指三极管在加入交流信号时的工作状态,在动态时各电极电流称为动态工作电流。如果三极管直流电路工作不正常,则三极管交流电路就不可能正常工作。静态工作点是指在静态时,电路处于直流工作状态,这些电流、电压的数值可用三极管输入输出曲线上一个确定的点表示,也称Q点。确定放大电路的电压和电流的静态值,选取合适的静态工作点可以防止电路产生非线性失真,保证放大效果。在原始的ReLU函数中,输入大于0的数据输出为其本身,而小于0的输入特征则将输出置0,结合三极管中静态工作点的概念,将原始的ReLU函数中的零点称为激活函数的静态工作点。
如图5所示,改进的VDSR模型包括20层卷积层、19层新型ReLU函数层以及残差连接;改进的VDSR模型将低分辨率图像经过bicubic插值后作为输入,通过20层卷积层学习低分辨率图像丢失的高频分量,在改进的VDSR模型的末尾将学习到的高频分量与输入进行像素级相加,得到最终的高分辨率图像。
改进的VDSR模型在网络结构上与原始的VDSR模型是相同的,只是将原始的ReLU函数替换成本发明提出的新型ReLU函数。
实施例2
根据实施例1所述的一种基于应用新型ReLU函数的改进的VDSR模型的图像超分辨率方法,其区别在于:改进的VDSR模型的训练过程如下:
(1)数据预处理
选取公开数据集BSD300中200张图片作为训练集,100张图片作为测试集;
对训练集中的训练数据进行数据增广(data augment);
(2)搭建改进的VDSR模型
改进的VDSR模型采用原始的VDSR模型的网络结构,将其中原始的ReLU函数替换成新型ReLU函数;
(3)训练步骤
将步骤(1)中处理后的训练集中的训练数据输入步骤(2)搭建好的改进的VDSR模型训练,得到训练好的VDSR模型。
步骤(3)中,初始学习率设置为0.0001,优化器选择Adam,batchSize设置为16,训练了200个epoch,每进行一个epoch的训练后测试一次。
数据增广是指:对训练数据进行随机水平翻转、随机亮度调整和随机裁剪,扩大训练集。从而避免网络发生过拟合,提高网络的泛化能力。
输出的高分辨率图像使用峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)作为性能的评价指标,峰值信噪比PSNR通过均方误差(Mean Square Error,MSE)来定义,假设两个尺寸为m*n的单通道图像I和K,二者均方误差的定义如式(Ⅱ)所示:
式(Ⅱ)中,i、j分别表示图像的行和列,I(i,j)、K(i,j)分别表示图像I、图像K第i行第j列位置的像素值;
峰值信噪比PSNR的定义如式(III)所示:
式(III)中,MAXI表示图像中像素点的最大值。如果图像是8位的,则最大值为255。
本实施例选取数据集B300中200张图片作为训练数据集,100张图片作为测试数据集,将应用了原始ReLu函数和应用本发明提出的新型ReLU函数的VDSR模型分别进行训练,
图6是2倍超分辨任务实验效果对比结果图;图7是3倍超分辨任务实验效果对比结果图。图6和图7中,横、纵坐标分别表示PSNR(峰值信噪比)和epoch(1个epoch表示过了1遍训练集中的所有样本),三角形标记的数据表示应用本发明新型ReLU函数的改进的VDSR模型的训练结果,圆形标记的数据为应用原始ReLU函数的VDSR模型的训练结果;
由图6和图7可知,在2倍和3倍超分辨任务中,应用本发明提出的新型ReLU函数后,VDSR模型的性能得到提升。
实施例3
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现实施例1或2基于应用新型ReLU函数的改进的VDSR模型的图像超分辨率方法的步骤。
实施例4
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现实施例1或2基于应用新型ReLU函数的改进的VDSR模型的图像超分辨率方法的步骤。
Claims (8)
2.根据权利要求1所述的一种基于应用新型ReLU函数的改进的VDSR模型的图像超分辨率方法,其特征在于,所述改进的VDSR模型包括20层卷积层、19层新型ReLU函数层以及残差连接;所述改进的VDSR模型将低分辨率图像经过bicubic插值后作为输入,通过20层卷积层学习低分辨率图像丢失的高频分量,在所述改进的VDSR模型的末尾将学习到的高频分量与输入进行像素级相加,得到最终的高分辨率图像。
3.根据权利要求1所述的一种基于应用新型ReLU函数的改进的VDSR模型的图像超分辨率方法,其特征在于,所述改进的VDSR模型的训练过程如下:
(1)数据预处理
选取公开数据集BSD300中若干张图片作为训练集,若干张图片作为测试集;
对训练集中的训练数据进行数据增广;
(2)搭建改进的VDSR模型
改进的VDSR模型采用原始的VDSR模型的网络结构,将其中原始的ReLU函数替换成新型ReLU函数;
(3)训练步骤
将步骤(1)中处理后的训练集中的训练数据输入步骤(2)搭建好的改进的VDSR模型训练,得到训练好的VDSR模型。
4.根据权利要求3所述的一种基于应用新型ReLU函数的改进的VDSR模型的图像超分辨率方法,其特征在于,步骤(3)中,初始学习率设置为0.0001,优化器选择Adam,batchSize设置为16,训练了200个epoch,每进行一个epoch的训练后测试一次。
5.根据权利要求1所述的一种基于应用新型ReLU函数的改进的VDSR模型的图像超分辨率方法,其特征在于,数据增广是指:对训练数据进行随机水平翻转、随机亮度调整和随机裁剪,扩大训练集。
7.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1-6任一所述的基于应用新型ReLU函数的改进的VDSR模型的图像超分辨率方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6任一所述的基于应用新型ReLU函数的改进的VDSR模型的图像超分辨率方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011576889.XA CN112669210B (zh) | 2020-12-28 | 2020-12-28 | 一种基于静态工作点的图像超分辨率方法、设备、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011576889.XA CN112669210B (zh) | 2020-12-28 | 2020-12-28 | 一种基于静态工作点的图像超分辨率方法、设备、介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112669210A true CN112669210A (zh) | 2021-04-16 |
CN112669210B CN112669210B (zh) | 2022-06-03 |
Family
ID=75410517
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011576889.XA Active CN112669210B (zh) | 2020-12-28 | 2020-12-28 | 一种基于静态工作点的图像超分辨率方法、设备、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112669210B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109102462A (zh) * | 2018-08-01 | 2018-12-28 | 中国计量大学 | 一种基于深度学习的视频超分辨率重建方法 |
US20190347549A1 (en) * | 2018-05-10 | 2019-11-14 | Microsoft Technology Licensing, Llc | Efficient data encoding for deep neural network training |
CN110599401A (zh) * | 2019-08-19 | 2019-12-20 | 中国科学院电子学研究所 | 遥感图像超分辨率重建方法、处理装置及可读存储介质 |
US20200027015A1 (en) * | 2017-04-07 | 2020-01-23 | Intel Corporation | Systems and methods for providing deeply stacked automated program synthesis |
-
2020
- 2020-12-28 CN CN202011576889.XA patent/CN112669210B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200027015A1 (en) * | 2017-04-07 | 2020-01-23 | Intel Corporation | Systems and methods for providing deeply stacked automated program synthesis |
US20190347549A1 (en) * | 2018-05-10 | 2019-11-14 | Microsoft Technology Licensing, Llc | Efficient data encoding for deep neural network training |
CN109102462A (zh) * | 2018-08-01 | 2018-12-28 | 中国计量大学 | 一种基于深度学习的视频超分辨率重建方法 |
CN110599401A (zh) * | 2019-08-19 | 2019-12-20 | 中国科学院电子学研究所 | 遥感图像超分辨率重建方法、处理装置及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112669210B (zh) | 2022-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gai et al. | New image denoising algorithm via improved deep convolutional neural network with perceptive loss | |
US10552944B2 (en) | Image upscaling with controllable noise reduction using a neural network | |
CN109949255B (zh) | 图像重建方法及设备 | |
CN106991646B (zh) | 一种基于密集连接网络的图像超分辨率方法 | |
Huang et al. | WINNet: Wavelet-inspired invertible network for image denoising | |
WO2019192588A1 (zh) | 图像超分方法及装置 | |
Zuo et al. | Convolutional neural networks for image denoising and restoration | |
US11995801B2 (en) | Image processing method, system, device and storage medium | |
CN110648292A (zh) | 一种基于深度卷积网络的高噪声图像去噪方法 | |
Liu et al. | Learning hadamard-product-propagation for image dehazing and beyond | |
CN111695590A (zh) | 约束优化类激活映射的深度神经网络特征可视化方法 | |
CN111986085A (zh) | 一种基于深度反馈注意力网络***的图像超分辨率方法 | |
US20240054605A1 (en) | Methods and systems for wavelet domain-based normalizing flow super-resolution image reconstruction | |
CN112581397A (zh) | 一种基于图像先验信息的退化图像修复方法及其应用 | |
CN118015123A (zh) | 一种基于循环生成对抗网络的灰度图像彩色化方法 | |
JP6942203B2 (ja) | データ処理システムおよびデータ処理方法 | |
CN112669210B (zh) | 一种基于静态工作点的图像超分辨率方法、设备、介质 | |
Chartier et al. | A sequential dynamic heteroassociative memory for multistep pattern recognition and one-to-many association | |
CN115860113B (zh) | 一种自对抗神经网络模型的训练方法及相关装置 | |
CN116824232A (zh) | 一种数据填充式的深度神经网络图像分类模型对抗训练方法 | |
CN113554104B (zh) | 一种基于深度学习模型的图像分类方法 | |
CN114005157A (zh) | 一种基于卷积神经网络的像素位移向量的微表情识别方法 | |
CN114092763A (zh) | 一种脉冲神经网络模型构建方法 | |
Gangloff et al. | A general parametrization framework for pairwise Markov models: An application to unsupervised image segmentation | |
WO2022208632A1 (ja) | 推論装置、推論方法、学習装置、学習方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |