CN109242919A - 一种图像下采样方法 - Google Patents
一种图像下采样方法 Download PDFInfo
- Publication number
- CN109242919A CN109242919A CN201811145969.2A CN201811145969A CN109242919A CN 109242919 A CN109242919 A CN 109242919A CN 201811145969 A CN201811145969 A CN 201811145969A CN 109242919 A CN109242919 A CN 109242919A
- Authority
- CN
- China
- Prior art keywords
- sampling
- image block
- convolutional neural
- neural networks
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种图像下采样方法,其通过数据驱动的方式训练下采样滤波器,对图像内容具有更强的鲁棒性和适应性,在训练过程中使用的两项损失函数则使得训练出来的下采样滤波器具备多种特性:视觉效果优于一般的下采样滤波器,看起来细节丰富;而相比于一般下采样滤波器,在对下采样图像进行压缩之后造成的码率增加几乎可以忽略;同时,从下采样图像恢复原始图像之后,可以提供更加精确的重建图像。
Description
技术领域
本发明涉及数字图像处理技术领域,尤其涉及一种图像下采样方法。
背景技术
数字图像处理技术在多媒体和计算机视觉任务里发挥了重要作用,常见的数字图像处理技术包括变采样,去噪,超分辨等。数字图像的变采样包括下采样和上采样,其中下采样技术的常见应用场景包括图片重定向和图像压缩。在图片重定向里,输入源图像的分辨率高于目标显示设备,为了能在目标显示设备中显示源图像,需要对其进行下采样。在这个任务里,目标一般是使得下采样之后的低分辨率图像主观质量好,尽量多地保留原图里的细节。而在图像压缩任务里,当给定的信道带宽较低,即可用的码率不足以清晰表示图像里的所有像素时候,为了获得较好的编码性能,通常对待编码图像进行下采样,然后对下采样之后的图像进行编码,最后在解码端通常利用超分辨技术把下采样的重建图像恢复到原始分辨率。在这个任务里,一个比较好的下采样算法需要满足两个要求,一是下采样之后的图像容易压缩,即压缩之后码率低;二是下采样图像包含尽可能多的关于原图的信息,即容易从下采样图像恢复出原图的细节。
以下是一些研究在图片重定向和图像压缩里面使用下采样技术的工作:
1)基于像素缝裁剪的下采样(Avidan S,Shamir A.Seam carving for content-aware image resizing[C]//ACM Transactions on graphics(TOG).ACM,2007,26(3):10)。
2)基于两项L0正则化先验的下采样(Liu J,He S,Lau R W H.L0-RegularizedImage Downscaling[J].IEEE Transactions on Image Processing,2018,27(3):1076-1085)。
3)基于投影的下采样(Tsaig Y,Elad M,Milanfar P,et al.Variableprojection for near-optimal filtering in low bit-rate block coders[J].IEEEtransactions on circuits and systems for video technology,2005,15(1):154-160)。
以上方法的缺陷在于:
1、这些方法中下采样滤波器的设计基于信号处理理论,其最优性的保证需要输入信号平稳的假设,而实际图像信号很难满足这个假设。
2、这些方法中下采样滤波器都是针对单一目标设计,无法同时满足多种应用需求,如基于像素缝裁剪的下采样算法不考虑从下采样图像恢复原图的信息损失,因此只能被用于图像重定向,而不适合用于图像压缩任务。
发明内容
本发明的目的是提供一种图像下采样方法,可以获得更加精确的重建图像,而且视觉效果优于传统方案的结果。
本发明的目的是通过以下技术方案实现的:
一种图像下采样方法,包括:
基于数据驱动训练下采样滤波器:a、通过传统下采样方法对原图像块进行下采样;b、通过卷积神经网络对原图像块像进行下采样;c、对卷积神经网络的下采样结果进行上采样得到重建图像块;d、利用传统下采样方法的下采样结果以及卷积神经网络的下采样结果得到正则化项损失函数,利用重建图像块及相应的原图像块得到重建项损失函数,再结合正则化项损失函数与重建项损失函数获得总的损失函数;e、结合总的损失函数利用反向传播算法更新下采样滤波器参数;
利用训练好的下采样滤波器对输入图像做下采样处理。
由上述本发明提供的技术方案可以看出,通过数据驱动的方式训练下采样滤波器,对图像内容具有更强的鲁棒性和适应性,在训练过程中使用的两项损失函数则使得训练出来的下采样滤波器具备多种特性:视觉效果优于一般的下采样滤波器,看起来细节丰富;而相比于一般下采样滤波器,在对下采样图像进行压缩之后造成的码率增加几乎可以忽略;同时,从下采样图像恢复原始图像之后,可以提供更加精确的重建图像。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种图像下采样方法的流程图;
图2为本发明实施例提供的通过两个损失函数加上基于数据驱动的方式训练下采样滤波器的总体流程图;
图3为本发明实施例提供的卷积神经网络的结构示意图
图4为本发明实施例提供的测试时使用不同方法下采样,然后不同方法上采样重建之后的PSNR结果;
图5为本发明实施例提供的测试时使用不同方法下采样,再使用不同方法上采样的视觉质量的结果;
图6为本发明实施例提供的图片重定向任务的测试结果。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种图像下采样方法,如图1所示,其主要包括:
1、基于数据驱动训练下采样滤波器。
本发明实施例的核心在于训练下采样滤波器,从而增加下采样滤波器的鲁棒性和对图像内容的自适应性,下面针对整个训练过程做详细的介绍。
如图2所示,为通过两个损失函数加上基于数据驱动的方式训练下采样滤波器的总体流程图,主要过程如下:
a、通过传统下采样方法对原图像块进行下采样。
本发明实施例中,下采样滤波器是基于数据训练得到,首先需要产生训练集。所述的原图像块是指对训练集进行预处理后的图像块;所述训练集是指包含图像的数据集,预处理时将每一图像图裁剪成大小相等的图像块,图像块大小灵活,具体根据实际情况决定,本发明实施例中,将第i个图像块记为xi,图像块的总个数记为N。
本领域技术人员可以理解,所述传统下采样方法即为目前常规的传统下采样方法,包括:双三次插值下采样、双线性插值下采样及最近邻下采样等;通常先对原图像块进行低通滤波后再使用传统下采样方法对原图像块进行下采样;将传统下采样方法的映射函数记为F,则传统下采样方法的下采样结果为F(xi),其中的xi表示第i个图像块。
b、通过卷积神经网络对原图像块进行下采样。
利用卷积神经网络对原图像进行下采样,这个过程即为图像降分辨率(Compact-Resolution,CR)。所述卷积神经网络为能够改变图像分辨率的任意结构形式;所述通过卷积神经网络对原图像块像进行下采样时,卷积神经网络将传统下采样方法的下采样结果输入至卷积神经网络的最后一层的输出中,将卷积神经网络的映射函数记为f,参数记为θf,则卷积神经网络的下采样结果为f(xi;θf)。
示例性的,图3给出了卷积神经网络的结构示意图;图3所示的网络结构由10个卷积层组成,每个卷积层的卷积核大小都是3x3,除了最后一层,每个卷积层后面都使用了ReLU激活函数。第一层卷积的步长(Stride)设置成了2。此外,该网络将输入图像块经过双三次插值(Bicubic)下采样之后得到的低分辨率图像添加到网络最后一层的输出中,因此该网络具有残差学习特性。
c、对卷积神经网络的下采样结果进行上采样得到重建图像块。
本步骤中,对卷积神经网络的下采样结果f(xi;θf)进行双线性插值操作,得到重建图像块,将双线性插值操作的映射函数记为g,则重建图像块为g(f(xi;θf))。
d、利用传统下采样方法的下采样结果以及卷积神经网络的下采样结果得到正则化项损失函数,利用重建图像块及相应的原图像块得到重建项损失函数,再结合正则化项损失函数与重建项损失函数获得总的损失函数。
所述利用传统下采样方法的下采样结果以及卷积神经网络的下采样结果得到正则化项损失函数,表示为:
所述利用重建图像块及相应的原图像块得到重建项损失函数,表示为:
总的损失函数为前述两个损失函数的加权和,表示为:
其中,α是一预先给定的加权因子,为正数。例如,本实施例可以取α=0.7。
e、结合总的损失函数利用反向传播算法更新下采样滤波器参数,表示为:
另外,本发明还提供另一实现方式,之前的a~b完全相同;后续的c~e改变了实现方式,记为c'~e':
c'、对卷积神经网络的下采样结果进行上采样得到重建图像块。
本步骤中,使用上采样卷积神经网络重建图像块,上采样卷积神经网络可以是任何可以实现超分辨的网络,把上采样卷积神经网络的映射记为g,参数记为θg,那么经过上采样卷积神经网络得到的重建图像块记为g(f(xi;θf);θg)。
d'、计算总的损失函数。
正则化项损失函数与之前的相同,即:
重建项损失函数为:
总的损失函数是正则化损失函数和重建项损失函数的加权后的结果,表示为:
e'、利用反向传播算法更新下采样滤波器参数,即
实际上,上述两种实现方式的原理相同,区别仅在于上采样的实现方式不同,使得后续损失函数及更新下采样滤波器参数的表达形式存在一定的区别。
2、利用训练好的下采样滤波器对输入图像做下采样处理。
通过前述过程不断训练后可以获得训练好的下采样滤波器,将输入图像直接输入至训练好的下采样滤波器即可。
本发明实施例中,所述训练好的下采样滤波器也即训练好的卷积神经网络,其工作过程与之前的训练过程相同,即训练好的卷积神经网络以一张图像作为输入,并将该图像经过双三次插值下采样的图像也作为输入,直接输出结果。
为了说明本发明实施例上述方案的效果,还进行了相关的测试。
测试条件包括:使用DIV2K数据集作为训练集,使用Caffe深度学习平台训练了神经网络,训练时候使用的优化器是Adam,传统下采样方法选择Bicubic下采样,图像上采样使用了Bilinear,把训练出来的下采样滤波器记为CNN-CRSep,注意CNN-CRSep是用Bilinear上采样训练出来的。
图4给出了使用不同方法下采样,然后不同方法上采样重建之后的PSNR结果,↓、↑分别表示下采样和上采样。图4结果可以看出,当使用Bilinear上采样时,从CNN-CRSep得到的重建图像比从Bicubic得到的重建图像具有更高的PSNR,因此CNN-CRSep比Bicubic下采样包含更多的信息。当使用除了Bilinear以外的其他上采样,如Bicubic、Lanczos进行上采样时,从CNN-CRSep得到的重建图像依然比从Bicubic得到的重建图像具有更高的PSNR,这说明CNN-CRSep包含的信息具有较强的鲁棒性,可以被多种上采样方法使用。
图5给出了使用不同方法下采样,再使用不同方法上采样的视觉质量的结果,其中(a)是原图,(b)是bicubic下采样图像和CNN-CRSep下采样得到图像的差值,为了显示清晰,已经做了归一化处理,(c)是对(a)图中取出的两个局部块进行了放大的结果,(d)左侧图是使用bicubic对(c)下采样得到的图,(d)的右侧图是使用CNN-SR对(d)的左侧图上采样之后的结果,(e)左侧图是使用CNN-CRSep对(c)下采样得到的图,(e)的右侧图是使用CNN-SR对(e)的左侧图上采样之后的结果。可以看出从CNN-CRSep得到的下采样图像比从Bicubic得到的下采样图像包含更多细节,看起来更加逼真。而从CNN-CRSep恢复出来的重建图像比从Bicubic恢复出的重建图像,看起来和原图更加接近,包含了更清晰边缘。
图6给出了在图片重定向任务的测试结果,CNN-CRSep分别和Seam Carving、Bicubic方法进行了对比,并作了主观测试。测试结果表明,从CNN-CRSep得到的重定向图片具有更高的主观得分,即可以达到更加高的视觉质量。
通过以上方案及相关测试结果可见,通过数据驱动的方式训练出来的下采样滤波器对图像内容具有更强的鲁棒性和适应性,在训练过程中使用的两项损失函数则使得训练出来的下采样滤波器具备多种特性:视觉效果优于一般的下采样滤波器,看起来细节丰富;而相比于一般下采样滤波器,在对下采样图像进行压缩之后造成的码率增加几乎可以忽略;从下采样图像恢复原始图像之后,可以提供更加精确的重建。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (7)
1.一种图像下采样方法,其特征在于,包括:
基于数据驱动训练下采样滤波器:a、通过传统下采样方法对原图像块进行下采样;b、通过卷积神经网络对原图像块像进行下采样;c、对卷积神经网络的下采样结果进行上采样得到重建图像块;d、利用传统下采样方法的下采样结果以及卷积神经网络的下采样结果得到正则化项损失函数,利用重建图像块及相应的原图像块得到重建项损失函数,再结合正则化项损失函数与重建项损失函数获得总的损失函数;e、结合总的损失函数利用反向传播算法更新下采样滤波器参数;
利用训练好的下采样滤波器对输入图像做下采样处理。
2.根据权利要求1所述的一种图像下采样方法,其特征在于,所述的原图像块是指对训练集进行预处理后的图像块;所述训练集是指包含图像的数据集,预处理时将每一图像图裁剪成大小相等的图像块。
3.根据权利要求1或2所述的一种图像下采样方法,其特征在于,所述传统下采样方法包括:双三次插值下采样、双线性插值下采样及最近邻下采样;将传统下采样方法的映射函数记为F,则传统下采样方法的下采样结果为F(xi),其中的xi表示第i个图像块。
4.根据权利要求1或2所述的一种图像下采样方法,其特征在于,所述卷积神经网络为能够改变图像分辨率的任意结构形式;所述通过卷积神经网络对原图像块像进行下采样时,卷积神经网络将传统下采样方法的下采样结果输入至卷积神经网络的最后一层的输出中,将卷积神经网络的映射函数记为f,参数记为θf,则卷积神经网络的下采样结果为f(xi;θf),其中的xi表示第i个图像块。
5.根据权利要求1或2所述的一种图像下采样方法,其特征在于,所述对卷积神经网络的下采样结果进行上采样得到重建图像块包括:
对卷积神经网络的下采样结果f(xi;θf)进行双线性插值操作,得到重建图像块,将双线性插值操作的映射函数记为g,则重建图像块为g(f(xi;θf)),其中的xi表示第i个图像块,θf为卷积神经网络的参数。
6.根据权利要求1或2所述的一种图像下采样方法,其特征在于,所述利用传统下采样方法的下采样结果以及卷积神经网络的下采样结果得到正则化项损失函数,表示为:
所述利用重建图像块及相应的原图像块得到重建项损失函数,表示为:
则结合正则化项损失函数与重建项损失函数获得总的损失函数,表示为:
其中,F(xi)、f(xi;θf)、g(f(xi;θf))依次为传统下采样方法的下采样结果、卷积神经网络的下采样结果、重建图像块;xi表示第i个图像块,θf为卷积神经网络的参数,N表示图像块总数,α是一个预先给定的正数。
7.根据权利要求6所述的一种图像下采样方法,其特征在于,所述结合总的损失函数利用反向传播算法更新下采样滤波器参数,表示为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811145969.2A CN109242919A (zh) | 2018-09-29 | 2018-09-29 | 一种图像下采样方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811145969.2A CN109242919A (zh) | 2018-09-29 | 2018-09-29 | 一种图像下采样方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109242919A true CN109242919A (zh) | 2019-01-18 |
Family
ID=65055326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811145969.2A Withdrawn CN109242919A (zh) | 2018-09-29 | 2018-09-29 | 一种图像下采样方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109242919A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110099280A (zh) * | 2019-05-24 | 2019-08-06 | 浙江大学 | 一种无线自组织网络带宽受限下的视频业务质量增强方法 |
WO2020168699A1 (en) * | 2019-02-18 | 2020-08-27 | Boe Technology Group Co., Ltd. | Neural network for enhancing original image, and computer-implemented method for enhancing original image using neural network |
WO2022140138A1 (en) * | 2020-12-23 | 2022-06-30 | Netflix, Inc. | Machine learning techniques for video downsampling |
-
2018
- 2018-09-29 CN CN201811145969.2A patent/CN109242919A/zh not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020168699A1 (en) * | 2019-02-18 | 2020-08-27 | Boe Technology Group Co., Ltd. | Neural network for enhancing original image, and computer-implemented method for enhancing original image using neural network |
US11107194B2 (en) | 2019-02-18 | 2021-08-31 | Boe Technology Group Co., Ltd. | Neural network for enhancing original image, and computer-implemented method for enhancing original image using neural network |
CN110099280A (zh) * | 2019-05-24 | 2019-08-06 | 浙江大学 | 一种无线自组织网络带宽受限下的视频业务质量增强方法 |
CN110099280B (zh) * | 2019-05-24 | 2020-05-08 | 浙江大学 | 一种无线自组织网络带宽受限下的视频业务质量增强方法 |
WO2022140138A1 (en) * | 2020-12-23 | 2022-06-30 | Netflix, Inc. | Machine learning techniques for video downsampling |
US11948271B2 (en) | 2020-12-23 | 2024-04-02 | Netflix, Inc. | Machine learning techniques for video downsampling |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111047516B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
AU2020103715A4 (en) | Method of monocular depth estimation based on joint self-attention mechanism | |
CN111062872B (zh) | 一种基于边缘检测的图像超分辨率重建方法及*** | |
WO2022110638A1 (zh) | 人像修复方法、装置、电子设备、存储介质和程序产品 | |
CN110599401A (zh) | 遥感图像超分辨率重建方法、处理装置及可读存储介质 | |
CN110415170A (zh) | 一种基于多尺度注意力卷积神经网络的图像超分辨率方法 | |
CN111105352A (zh) | 超分辨率图像重构方法、***、计算机设备及存储介质 | |
CN109146788A (zh) | 基于深度学习的超分辨率图像重建方法和装置 | |
CN108428212A (zh) | 一种基于双拉普拉斯金字塔卷积神经网络的图像放大方法 | |
CN108022213A (zh) | 基于生成对抗网络的视频超分辨率重建算法 | |
Zhu et al. | Efficient single image super-resolution via hybrid residual feature learning with compact back-projection network | |
US20100124383A1 (en) | Systems and methods for resolution-invariant image representation | |
CN108965847B (zh) | 一种全景视频数据的处理方法及装置 | |
CN112801901A (zh) | 基于分块多尺度卷积神经网络的图像去模糊算法 | |
CN110070489A (zh) | 一种基于视差注意力机制的双目图像超分辨方法 | |
CN110349087B (zh) | 基于适应性卷积的rgb-d图像高质量网格生成方法 | |
CN109146813B (zh) | 一种多任务图像重建方法、装置、设备和介质 | |
CN111667410B (zh) | 图像分辨率提升方法、装置及电子设备 | |
CN109242919A (zh) | 一种图像下采样方法 | |
CN111681166A (zh) | 一种堆叠注意力机制编解码单元的图像超分辨率重建方法 | |
CN109191411B (zh) | 一种多任务图像重建方法、装置、设备和介质 | |
US11887218B2 (en) | Image optimization method, apparatus, device and storage medium | |
CN111861884A (zh) | 一种基于深度学习的卫星云图超分辨率重建方法 | |
CN108416736A (zh) | 一种基于二次锚点邻域回归的图像超分辨率重建方法 | |
CN112907448A (zh) | 一种任意比率图像超分辨率方法、***、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190118 |