CN113822801B

CN113822801B - 基于多分支卷积神经网络的压缩视频超分辨率重建方法

Info

Publication number: CN113822801B
Application number: CN202110718467.XA
Authority: CN
Inventors: 陈卫刚; 周迪
Original assignee: Zhejiang Uniview Technologies Co Ltd; Zhejiang Gongshang University
Current assignee: Zhejiang Uniview Technologies Co Ltd; Zhejiang Gongshang University
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2023-08-18
Anticipated expiration: 2041-06-28
Also published as: CN113822801A

Abstract

本发明公开了一种基于多分支卷积神经网络的压缩视频超分辨率重建方法，对每一帧待处理的图像，以块处理的形式在间隔相近的帧内编码帧中搜索近似块，由近似块形成对应当前待处理图像的预测图像，分别以预测图像和待处理图像作为各个分支网络的输入，且融合这些分支网络的输出作为最终的高分辨率重建结果。本发明提供的采用多分支卷积神经网络的压缩视频超分辨率重建方法能够有效地利用视频序列所存在的帧间冗余信息，特别地，利用压缩视频中的帧内编码帧具有较好视觉质量的特点，从而使得重建的超分辨率图像具有更好的质量。

Description

基于多分支卷积神经网络的压缩视频超分辨率重建方法

技术领域

本发明涉及计算机视觉领域，尤其涉及一种基于多分支卷积神经网络的压缩视频超分辨率重建方法。

背景技术

随着高分辨率显示设备的不断普及和新的视频应用的持续涌现，市场对4K或8K等超高清视频的需求越来越多。与此同时，作为公共资源的网络带宽的增长始终无法跟上传输高质量视频要求的步伐。在上述背景下，视频图像超分辨率重建可作为一种图像增强技术运行于解码端，从而为上述矛盾提供了一种可行的解决方案。

中国专利CN101345870B公开了一种通过编码装置利用带超分辨率重构的预解码闭环反馈构造出少量的超分辨率重构辅助码流，同时利用编码模块中的人眼感兴趣分析模块，进一步地对解码端的超分辨率重构进行引导和矫正，以提高视频解码输出的分辨率和主观质量。中国专利CN103475876B公开了一种基于学习的低比特率压缩图像超分辨率重建方法，该方法的离线部分将低分辨率图像按其失真程度分类建立样本库，对每类样本训练各自的超分辨率模型；在线部分则判别输入图像的失真类别，选取不同的模型实现超分辨率重建。中国专利CN101605260B公开了一种基于最大后验概率估计MAP的压缩视频超分辨率重建方法，将MAP重建代价函数定义为重建误差项、包含量化前DCT系数分布参数的正则约束项和一般约束项三个部分，通过引入DCT系数分布模型提高压缩视频超分辨率重建的质量。

与单帧图像和视频图像超分辨率重建不同，压缩视频图像超分辨率重建***以存在压缩损失的图像为输入。有损视频压缩编码***中的量化过程将引入量化误差，这种误差更多地表现为频率域高频成分的损失，使得压缩后的图像呈现出细节丢失、边缘模糊等特点。以这些存在细节丢失、边缘模糊等缺陷的低分辨率图像为输入重建高分辨率图像，势必将对超分辨率重建***提出更大的挑战。

发明内容

本发明的目的在于充分利用视频序列的帧间冗余信息，特别地，利用压缩视频中的帧内编码帧具有较好的视觉质量的特点，提供一种基于多分支卷积神经网络的压缩视频超分辨率重建方法。

本发明具体采用的技术方案如下：一种基于多分支卷积神经网络的压缩视频超分辨率重建方法，该方法具体步骤如下

(1)用于压缩视频超分辨率重建的多分支卷积神经网络包括三个分支，其中第二分支网络Sub-B和第三分支网络Sub-C以压缩视频的当前解码帧I为输入；以间隔帧数为依据，在位于I帧之前和之后的两个帧内编码帧中选择离I帧相对较近的作为参考图像，以块处理的形式对当前解码帧I中每一个块图像在参考图像中寻找具有最大相似度的块，由这些相似块构成重建图像，作为第一分支网络Sub-A的输入；

(2)第一分支网络和第二分支网络具有相同的结构，按数据前向传播时的数据流向，输入数据首先经过一个包含32个3×3卷积核、卷积步长为1的卷积层，接在上述卷积层之后的为依次连接的N个残差块；第一分支网络的最后一个残差块的输出特征图和第二分支网络的最后一个残差块的输出特征图经通道合并操作形成一个包含2N_C个通道的特征图，其中第一分支网络和第二分支网络的输出特征图的通道数各为N_C；

(3)步骤(2)中所述经通道合并形成的特征图，经过一个包含r²个3×3卷积核、卷积步长为1的卷积层，经卷积运算产生的输出以周期筛选的方式得到上采样的图像H₁，其中r为上采样因子；

(4)第三分支网络的输入经过一个包含r²个3×3卷积核、卷积步长为1的卷积层，该卷积层的输出以周期筛选的方式得到上采样的图像H₂，其中r为上采样因子；

(5)对上述经上采样的图像H₁和H₂进行逐个对应像素的求和运算，产生的输出作为结果图像，即为压缩视频中的超分辨率重建后的图像。

进一步地，所述以块处理的形式对当前解码帧中每一个块图像在参考图像中寻找具有最大相似度的块，由这些相似块构成重建图像，作为第一分支网络Sub-A的输入，具体过程包括：

2.1设当前解码图像的高和宽分别为H和W，初始化重建图像I_p的大小为H×W，且所有像素值为0，初始化权值矩阵C的大小为H×W且所有元素的初值为0；

2.2分别以s₁和s₂为扫描步长等间隔地从左到右、从上到下扫描参考图像和当前解码图像，在每个扫描位置(u,v)，以该位置为左上角，提取大小的图像块，对每个图像块减去其灰度均值，以行优先的形式转换成一个包含d个元素的行向量；来自参考图像的每个行向量加入到矩阵T，作为T中一行，来自当前解码图像的每个行向量加入到矩阵Q，作为Q中一行；

2.3对矩阵Q中的行向量q，以欧氏距离为相似性度量，以k-近邻算法在T中查找最为相似的行向量，记作t，若向量t和q的欧氏距离小于一个预先设定的阈值e，则依次取t中的个元素作为矩阵的一行，共/>行形成一个/>大小的矩阵，作为目标块，否则依次取q中的/>个元素作为矩阵的一行，共/>行形成/>大小的矩阵，作为目标块；目标块中每个像素值加上对应q的灰度均值；

2.4设矩阵Q中的行向量q所对应的图像块的扫描位置为(u,v)，按步骤2.3所得的目标块为b，则重建图像I_p中以(u,v)为左上角、大小为的子块，每个像素加上目标块中对应元素的值，权值矩阵C中以(u,v)为左上角、大小为/>的子块，每个元素值加1；

2.5对矩阵Q中的所有行向量重复步骤2.3和2.4，得到重建图像I_p；

2.6重建图像I_p中每个像素的值除以权值矩阵C中对应元素的值作为最终的重建图像。

进一步地，所述第一分支网络和第二分支网络中依次连接的N个残差块，每个残差块具有相同的结构，包括两个卷积层和一个ReLU层，按数据前向传播时的流向，依次为包含128 个3×3卷积核、卷积步长为1的卷积层，ReLU层和包含32个3×3卷积核、卷积步长为1的卷积层；设任意一个残差块的输入为x，上述两个卷积层和ReLU层将该输入映射为f(x)，最后以f(x)+x作为残差块的输出。

进一步地，所述卷积层的输出以周期筛选的方式得到上采样的图像，包括：设卷积层的输出为一个H×W×r²的特征图，取坐标为(x,y)位置所有通道的r²个元素形成一个向量，依次取该向量的r个元素作为矩阵的一行，共r行形成一个r×r大小的矩阵，置于上采样图像中的(rx,ry)位置；对特征图的所有坐标位置重复上述过程形成上采样图像。

进一步地，所述多分支卷积神经网络的各个层次的参数以学习的方式确定，包括：

A、准备训练样本：设I为压缩视频中的当前解码帧，I_o是与I对应的未经压缩编码的原始图像，I_p为构建的重建图像，用于训练多分支卷积神经网络的样本集中的第i个样本形如其中，/>和y_i分别为来自I、I_p和I_o中的相同位置，且大小相同的图像块；

B、训练：批量加载训练样本集中的样本，将输入到所述第二分支网络和第三分支网络，/>输入到第一分支网络，按如下的优化过程寻求最优的网络参数：

其中为由多分支卷积神经网络产生的对应/>的输出，||.||₁表示1 范数；训练过程中，以Adam优化算法更新网络各层的权值，以分段下降的方式调整学习率，具体地，将总的训练周期数分为四个阶段，后一个阶段的学习率等于前一个阶段的学习率的二分之一。

本发明的有益技术效果：本发明提供的采用多分支卷积神经网络的压缩视频超分辨率重建方法能够有效地利用视频序列所存在的帧间冗余信息，特别地，利用压缩视频中的帧内编码帧具有较好视觉质量的特点，从而使得重建的超分辨率图像具有更好的质量。

附图说明

图1为本发明多分支卷积神经网络结构示意图；

图2为残差块网络结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步阐述，以便本领域技术人员更好地理解本发明的实质。

如图1所示，本发明提供一种基于多分支卷积神经网络的压缩视频超分辨率重建方法，具体步骤如下：

(1)用于压缩视频超分辨率重建的多分支卷积神经网络包括三个分支，其中第二分支网络Sub-B和第三分支网络Sub-C以压缩视频的当前解码帧I为输入；以间隔帧数为依据，在位于I帧之前和之后的两个帧内编码帧中选择离当前帧相对较近的作为参考图像，以块处理的形式对当前解码帧中每一个块图像在参考图像中寻找具有最大相似度的块，由这些相似块构成重建图像，作为第一分支网络Sub-A的输入；

所述以块处理的形式对当前解码帧中每一个块图像在参考图像中寻找具有最大相似度的块，由这些相似块构成重建图像，作为第一分支网络Sub-A的输入，包括：

步骤1A、设当前解码图像的高和宽分别为H和W，初始化重建图像I_p的大小为H×W，且所有像素值为0，初始化权值矩阵C的大小为H×W，且所有元素的初值为0；

步骤1B、分别以s₁和s₂为扫描步长等间隔地从左到右、从上到下扫描参考图像和当前解码图像，在每个扫描位置(u,v)，以该位置为左上角，提取大小的图像块，对每个图像块减去其灰度均值，以行优先的形式转换成一个包含d个元素的行向量；来自参考图像的每个行向量加入到矩阵T，作为T中一行，来自当前解码图像的每个行向量加入到矩阵Q，作为Q中一行；其中d可为36或64，s₁可为1或2，s₂可为/>

步骤1C、对矩阵Q中的行向量q，以欧氏距离为相似性度量，以k-近邻算法在T中查找最为相似的行向量，记作t，若向量t和q的欧氏距离小于一个预先设定的阈值e，则依次取t中的个元素作为矩阵的一行，共/>行形成一个/>大小的矩阵作为目标块，否则依次取q中的/>个元素作为矩阵的一行，共/>行形成一个/>大小的矩阵作为目标块；目标块中每个像素值加上对应q的灰度均值；

步骤1D、设矩阵Q中的行向量q所对应的图像块的扫描位置为(u,v)，按步骤1C所得的目标块为b，则重建图像I_p中以(u,v)为左上角、大小为的块，每个像素加上目标块b中对应元素的值，权值矩阵C中以(u,v)为左上角、大小为/>的块，每个元素值加1；

步骤1E、对矩阵Q中的所有行向量重复步骤1C和1D；

步骤1F、重建图像I_p中每个像素的值除以权值矩阵C中对应元素的值作为最终的重建图像。

(2)第一分支网络和第二分支网络具有相同的结构，按数据前向传播时的数据流向，输入数据首先经过一个包含32个3×3卷积核、卷积步长为1的卷积层，接在上述卷积层之后的为依次连接的N个残差块，其中N可取大于10、小于18的整数；第一分支网络的最后一个残差块的输出特征图和第二分支网络的最后一个残差块的输出特征图经通道合并操作形成一个包含2N_C个通道的特征，其中第一分支网络和第二分支网络输出特征图的通道数各为N_C；

所述依次连接的N个残差块，每个残差块具有相同的结构，参见图2，该结构包括两个卷积层和一个ReLU层，按数据前向传播时的流向，依次为包含128个3×3卷积核、卷积步长为1的卷积层，ReLU层和包含32个3×3卷积核、卷积步长为1的卷积层；设任意一个残差块的输入为x，上述两个卷积层和ReLU层将该输入映射为f(x)，最后以f(x)+x作为残差块的输出。

(3)前一步骤所述经通道合并形成的特征图，经过一个包含r²个3×3卷积核、卷积步长为1的卷积层，经卷积运算产生的输出以周期筛选的方式得到上采样图像H₁，其中r为上采样因子；

所述经卷积运算产生的输出以周期筛选的方式得到上采样的图像，设卷积层的输出为一个H×W×r²的特征图，取坐标为(x,y)位置所有通道的r²个元素形成一个向量，依次取该向量的r个元素作为矩阵的一行，共r行形成一个r×r大小的矩阵，置于上采样图像中的(rx,ry) 位置；对特征图的所有坐标位置重复上述过程形成上采样图像；

(4)第三分支的输入经过一个包含r²个3×3卷积核、卷积步长为1的卷积层，该卷积层的输出以周期筛选的方式得到上采样的图像H₂，其中r为上采样因子；

(5)对上述经上采样的图像H₁和H₂进行逐个对应像素的求和运算，产生的输出作为结果图像。

本发明技术方案(1)中所述的多分支卷积神经网络各个层次的参数以学习的方式确定，包括：

5A、准备训练样本：设I为压缩视频中的一帧，I_o是与该帧对应的未经压缩编码的原始图像，I_p为按步骤1A至1F所述构建的重建图像，用于训练多分支卷积神经网络模型的样本集中的第i个样本形如其中，/>和y_i分别为来自I、I_p和I_o中的相同位置，且大小相同的图像块；

5B、训练：批量加载训练样本集中的样本，将输入到所述第二和第三分支网络，输入到第一分支网络，按如下的优化过程寻求最优的网络参数：

其中为由多分支卷积神经网络模型产生的对应/>的输出，||.||₁表示1 范数；训练过程中，以Adam优化算法更新网络各层的权值，可选地，学习率的初始值可置为0.001～0.005之间的值，以分段下降的方式调整学习率，具体地，将总的训练周期数分为四个阶段，后一个阶段的学习率等于前一个阶段的学习率的二分之一。

本发明实施例提供的方法针对HEVC编码的视频进行了测试；采用HEVC参考软件HM16.0作为压缩工具，分别以量化参数QP＝27，32，37，42对原始尺寸的测试视频和宽、高方向分别缩小为原尺寸1/2的视频进行压缩编码；设置帧内编码帧间隔为32，帧内编码帧的QP值偏移为-7，其余参数设置保留encoder_lowdelay_P_main.cfg配置文件的设置；对原始尺寸的压缩视频，记录其码率和以原始未压缩视频为参照的峰值信噪比PSNR，对缩小后压缩编码的视频，记录其码率，并且采用本发明实施例提供的模型将其重建为原始尺寸的视频，计算重建后视频与以未压缩视频为参照的峰值信噪比PSNR；以原始尺寸压缩的视频为基准，采用BD-rate为衡量准则给出了在同样客观质量下，本发明提供方法的码率节省情况；以 BD-PSNR为衡量准则给出了在同等码率的情况下，本发明提供方法的PSNR增益，结果罗列于表1；由表可知，在给出同样的客观质量的情况下，本发明提供的方法平均节省约14％的码率，在给出同等码率的情况下，平均提供约0.77dB的PSNR增益。

表1本发明实施例的实验结果

以上所述仅为本发明的较佳实施例，但本发明的保护范围并不局限于此，凡在本发明的精神和原则之内，所做的任何修改或替换等，都应涵盖在本发明的保护范围内。

Claims

1.一种基于多分支卷积神经网络的压缩视频超分辨率重建方法，其特征在于：该方法具体步骤如下

(5)对上述经上采样的图像H₁和H₂进行逐个对应像素的求和运算，产生的输出作为结果图像，即为压缩视频图像的超分辨率重建后的图像。

2.根据权利要求1所述的基于多分支卷积神经网络的压缩视频超分辨率重建方法，其特征在于，所述以块处理的形式对当前解码帧中每一个块图像在参考图像中寻找具有最大相似度的块，由这些相似块构成重建图像，作为第一分支网络Sub-A的输入，具体过程包括：

3.根据权利要求1所述的基于多分支卷积神经网络的压缩视频超分辨率重建方法，其特征在于，所述第一分支网络和第二分支网络中依次连接的N个残差块，每个残差块具有相同的结构，包括两个卷积层和一个ReLU层，按数据前向传播时的流向，依次为包含128个3×3卷积核、卷积步长为1的卷积层，ReLU层和包含32个3×3卷积核、卷积步长为1的卷积层；设任意一个残差块的输入为x，上述两个卷积层和ReLU层将该输入映射为f(x)，最后以f(x)+x作为残差块的输出。

4.根据权利要求1所述的基于多分支卷积神经网络的压缩视频超分辨率重建方法，其特征在于，所述卷积层的输出以周期筛选的方式得到上采样的图像，包括：设卷积层的输出为一个H×W×r²的特征图，取坐标为(x,y)位置所有通道的r²个元素形成一个向量，依次取该向量的r个元素作为矩阵的一行，共r行形成一个r×r大小的矩阵，置于上采样图像中的(rx,ry)位置；对特征图的所有坐标位置重复上述过程形成上采样图像。

5.根据权利要求1所述的基于多分支卷积神经网络的压缩视频超分辨率重建方法，其特征在于，所述多分支卷积神经网络的各个层次的参数以学习的方式确定，包括：

其中为由多分支卷积神经网络产生的对应/>的输出，||.||₁表示1范数；训练过程中，以Adam优化算法更新网络各层的权值，以分段下降的方式调整学习率，具体地，将总的训练周期数分为四个阶段，后一个阶段的学习率等于前一个阶段的学习率的二分之一。