CN112381866B

CN112381866B - 一种基于注意力机制的视频比特增强方法

Info

Publication number: CN112381866B
Application number: CN202011166047.7A
Authority: CN
Inventors: 刘婧; 杨紫雯; 于洁潇
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2022-12-13
Anticipated expiration: 2040-10-27
Also published as: CN112381866A

Abstract

一种基于注意力机制的视频比特增强方法：建立基于注意力机制的视频比特增强模型；从图像增强数据库中随机选取设定数目的具有高比特深度的原始视频序列组构建训练数据集；用构建的训练数据集对基于注意力机制的视频比特增强模型进行训练；从图像增强数据库选择视频序列组构成测试集，对训练好的基于注意力机制的视频比特增强模型进行测试；将需要增强的视频信号应用零填充算法得到高比特深度视频信号，再以5帧为一组依次输入到测试好的基于注意力机制的视频比特增强模型，将其输出结果与对应输入的视频序列组的中间帧相加从而依次对应得到增强后的中间帧。本发明在特征层面生成与目标特征图相关的语义注意力矩阵，提高了感知视觉质量。

Description

一种基于注意力机制的视频比特增强方法

技术领域

本发明涉及一种视频比特增强方法。特别是涉及一种基于注意力机制的视频比特增强方法。

背景技术

图像和视频等多媒体资源承载着丰富的信息，人们通过图像和视频可以快速了解外界所发生的事情。自从摄录设备和显示设备诞生以来，人们就一直致力于研究如何获得和显示更高质量的图像和视频。为了追求更好的视觉体验，人们提出了高动态范围(HighDynamic Range,HDR)这一技术，采用更高的动态范围和更多的比特深度(通常为10或12比特)来表示一个像素。具有高动态范围的图像和视频可以展示出更丰富的色彩，更细腻的颜色过渡，和更真实的纹理细节。目前随着技术的发展，超高清显示器和HDR显示器正在成为大家普遍的选择。然而，以前用旧摄录设备所捕获的大量的图像和视频只有8比特的位深，当它们呈现在HDR显示器上时，就会出现伪轮廓和色彩失真^[1]等对人的视觉体验不友好的现象。因此，对低比特深度的图像和视频进行比特深度增强对于提高人的感官体验具有非常重要的意义和价值。

早期的比特深度增强方法，比如零填充法(Zero Padding,ZP)、理想增益乘积法(Multiplication by an Ideal Gain,MIG)和位复制算法(Bit Replication,BR)^[2]等，都是基于独立像素做的比特增强方法，虽然它们计算简便快速，但是伪轮廓效应依然明显。后来，一些基于差值的方法被提出，比如轮廓区域重建算法(Contour RegionReconstruction,CRR)^[3]、内容自适应图像比特深度增强算法(Content Adaptive ImageBit-Depth Expansion,CA)^[4]和利用亮度势能进行自适应地反量化算法(IntensityPotential for Adaptive Dequantization,IPAD)^[5]等。以上方法考虑了像素周围的上下文信息，能够较好地消除伪轮廓效应，但是它们重建出的图像内容会出现模糊和细节丢失等现象。近年来，神经网络在计算机视觉领域取得了引人注目的成就，对特定任务表现出了较强的学习能力和自适应能力。因此深度学习也被引入比特深度增强领域，基于卷积神经网络的图像比特深度增强算法(Bit-Depth Enhancement via Convolutional NeuralNetwork,BE-CNN)^[6]，通过级联DNN所有层次特征图的比特深度增强算法(BE-CALF:Bit-depth Enhancement by Concatenating All Level Features of DNN)^[7]和基于学习的比特深度增强方法(BitNet:Learning-based bit-depth expansion)^[8]都取了较好的性能。

以上的比特增强方法都是面向图像的，如果将其应用于低比特深度的视频序列，视频前后帧冗余的信息就不能得到很好的利用，而且产生的高比特视频序列会出现帧间闪烁等现象。

发明内容

本发明所要解决的技术问题是，提供一种可以快速地重建出主观质量和客观质量较好的高比特中间帧的基于注意力机制的视频比特增强方法。

本发明所采用的技术方案是：一种基于注意力机制的视频比特增强方法，包括如下步骤：

1)首先将需要增强的视频信号的比特深度称为低比特深度，增强后的的视频信号的比特深度称为高比特深度，将高比特深度图像与对低比特深度图像应用零填充算法后得到的高比特深度图像的差称为残差图，建立基于注意力机制的视频比特增强模型；

2)从图像增强数据库中随机选取设定数目的具有高比特深度的原始视频序列组构建训练数据集；

3)用构建的训练数据集对基于注意力机制的视频比特增强模型进行训练；

4)从图像增强数据库选择视频序列组构成测试集，对训练好的基于注意力机制的视频比特增强模型进行测试；

5)将需要增强的视频信号应用零填充算法得到高比特深度视频信号，然后将应用零填充算法得到的高比特深度视频信号以5帧为一组依次输入到测试好的基于注意力机制的视频比特增强模型，将基于注意力机制的视频比特增强模型的输出结果与对应输入的视频序列组的中间帧相加从而依次对应得到增强后的中间帧。

本发明的一种基于注意力机制的视频比特增强方法，有益效果是：

1、本发明以编解码器网络作为网络的骨架，在编码器网络之前添加了全局注意力对齐模块，该模块可以计算视频序列帧间的相关性生成注意力图，放大相关性高的特征点，隐性地进行视频对齐。

2、本发明在编码器和解码器网络之间加入了目标引导的语义注意力模块，该模块以目标帧的特征图为指导，在特征层面生成与目标特征图相关的语义注意力矩阵，提高了感知视觉质量。

附图说明

图1是本发明一种基于注意力机制的视频比特增强方法的框图；

图2是网络总体框架；

图3是全局注意力对齐模块；

图4是目标引导的语义注意力模块。

具体实施方式

下面结合实施例和附图对本发明一种基于注意力机制的视频比特增强方法的做出详细说明。

如图1所示，本发明的一种基于注意力机制的视频比特增强方法，包括如下步骤：

所述的基于注意力机制的视频比特增强模型，包括依次连接的：全局注意力对齐模块1、编码器2、目标引导的语义注意力模块3和解码器4，其中，

所述全局注意力对齐模块1的输入端接收5帧连续的视频帧，用于捕获帧间和帧内的长距离依赖，输出经过隐式对齐后的5帧连续的视频帧；

所述的编码器2接收隐式对齐后的5帧连续的视频帧，分别同时对每一帧提取空间特征，分别输出含有对应帧的帧内空间信息的特征图；

所述的目标引导的语义注意力模块3接收编码器2输出的5个特征图，进行时空特征融合，得到含有时空特征信息的特征图，并从该特征图中获取与编码器2输出的中间帧的特征图相似的特征信息输出至解码器4；

所述的解码器4将接收到的特征信息逐步重建成残差图。

其中，

如图3所示，所述的全局注意力对齐模块1包括：

(1.1)将5帧连续的视频帧在通道方向级联得到维度为TC×H×W的信号，表示为

其中，T表示连续的帧数，C表示每一帧的通道数，H、W表示输入视频帧的高和宽；

(1.2)将

分别送入3个1×1的卷积核进行线性变换，得到的线性变换后的信号，记为

再将

重新排列成维度为TC×HW的二维矩阵，记为

上标2表示该特征图维度为2；

(1.3)对

通过如下公式进行变换：

其中，

表示矩阵乘法，(·)^T表对矩阵进行转置；

得到的是

和

的相似性矩阵，

表示加权求和后的

维度为HW×TC；将

转置然后重新排列成维度为TC×H×W的矩阵，记为

(1.4)将

经过一个1×1的卷积核重新排列到T×C×H×W维度，然后与输入的5帧连续的视频帧进行残差连接，得到经过隐式对齐后的5帧连续的视频帧。

如图2所示，所述的编码器2包括有与5帧连续的视频帧对应的5个卷积支路，每个卷积支路就由5个卷积层依次串联构成，每个卷积层包含有相连接的一个3×3的卷积核以及PReLU激活函数。

如图4所示，所述的目标引导的语义注意力模块3包括有：

(3.1)接收编码器2输出的5个特征图，每个特征图的维度为Ch×H×W，其中，Ch表示每一个特征图的通道数，H、W表示特征图的高和宽，将5个特征图在通道方向级联起来，变成维度为5Ch×H×W的特征图；

(3.2)然后经过一个3×3的卷积核进一步地融合时空信息，得到新的特征图

该特征图的维度为Ch×H×W；

(3.3)将新的特征图

重新排列为二维矩阵，记为

维度为Ch×HW，令从编码器2接收的5个特征图的中间特征图为

并重新排列成二维矩阵，记为

维度为Ch×HW；

(3.4)对

和

进行以下操作：

其中，

表示矩阵乘法，(·)^T表对矩阵进行转置；

得到的是

和

的相似性矩阵，

表示加权求和后的

维度为HW×Ch，经过转置再重新排列成Ch×H×W的维度，记为

表示加权求和后的

(3.5)将

与

进行残差连接后，再送入一个3×3的卷积核提取特征。

如图1所示，所述的解码器4是由5个转置卷积层依次串联构成，每个转置卷积层都包含有一个转置卷积核和一个PReLU激活函数，其中，第二个转置卷积层的输入是第一个转置卷积层的输出与编码器2的每个支路中第四个卷积层的输出的和，第四个转置卷积层的输入是第三个卷积层的输出与编码器2的每个支路中第二个卷积层的输出的和。

2)从图像增强数据库中随机选取设定数目的具有高比特深度的原始视频序列组构建训练数据集；包括将原始视频序列组量化到低比特深度，其中每个视频序列组包含5帧连续的视频帧，对低比特深度的视频序列组应用零填充算法扩展成高比特深度的视频序列，将原始视频序列组的中间帧与零填充算法扩展的高比特深度的视频序列的中间帧作差，得到真实的残差图构成训练数据集。

3)用构建的训练数据集对基于注意力机制的视频比特增强模型进行训练；所述的训练中，网络的输入是训练数据集中对低比特深度的视频序列组应用零填充算法扩展成高比特深度的视频序列，输出是残差图；采用均方误差损失(Mean Square Error,MSE)作为网络生成的残差图和真实残差图的损失函数，使用Adam优化器对基于注意力机制的视频比特增强模型进行优化。

4)从图像增强数据库中选择视频序列组构成测试集，对训练好的基于注意力机制的视频比特增强模型进行测试；包括将构成测试集的视频序列组量化到低比特的深度，再应用零填充算法扩展成高比特深度的视频序列，将所述的高比特深度的视频序列输入到训练好的基于注意力机制的视频比特增强模型中，得到该模型预测的中间帧的残差图，将残差图与零填充算法扩展的高比特深度的视频序列的中间帧相加，得到重建的高比特深度中间帧，并采用评估方法对重建的高比特深度中间帧的质量进行评估。所述的评估方法是采用峰值信噪比(Peak Signal to Noise Ratio，PSNR)和结构相似性指数(StructuralSimilarity Index，SSIM)两种方法。

实施例1

本发明实施例包括以下步骤：

101：从16比特的Sintel数据库^[9]中随机选取原始的1000组视频序列，每组5帧视频帧，并将其量化到4比特深度，对4比特深度的视频序列应用零填充算法将4比特的视频序列扩展成16比特深度视频序列，将应用零填充算法扩展成的16比特深度的视频帧称为粗糙的高比特深度视频帧；

102：本实施例以编解码器作为网络基本架构，在编码器头部加入全局注意力对齐模块，该模块可以通过计算视频序列帧内和帧间的相关性捕获长距离依赖，进行隐式的运动估计和运动补偿(Motion Estimation and Motion Compensation,ME&MC)；在编码器和解码器连接处加入目标指导的语义注意力模块，该模块将编码器提取的空间特征进行融合，然后将中间帧作为指导特征，与融合后的充满时空语义特征的特征图做相关，得到语义注意力矩阵。将语义注意力矩阵与充满时空语义特征的特征图进行矩阵相乘，得到变换后的特征图。该模块可以帮助网络在语义层面更加关注于与目标帧有关的信息，提高感知质量。

103：将粗糙的高比特深度视频序列输入到网络中，生成残差图。对原始高比特深度视频序列中间帧和粗糙的高比特深度视频中间帧做差，得到真实的残差图。使用均方误差损失(Mean Square Error,MSE)作为网络生成的残差图和真实残差图的损失函数，使用Adam优化器^[11]对基于注意力机制的视频比特增强模型进行优化。

104：在测试阶段，从Sintel数据集中随机选取50组与训练集不同的16比特深度的视频序列，从Tears of Steel(TOS)数据集^[9]中选取30组16比特深度的视频序列。将测试集量化到4比特深度，然后使用零填充算法反量化为粗糙的高比特深度视频序列。将基于注意力机制的视频比特增强模型加载训练好的模型参数，然后将粗糙的高比特深度视频序列输送到模型中生成残差图，将残差图与粗糙的高比特深度视频中间帧相加得到重建的高比特深度图。使用峰值信噪比(Peak signal-to-noise Ratio,PSNR)和结构相似性(StructuralSimilarity Index,SSIM)^[12]这两种客观评价标准对测试结果进行评价以验证该发明的有效性。

综上所述，本发明实施例通过步骤101至步骤104设计一种基于注意力机制的视频比特深度增强方法。在经典的编解码网络上引入了全局注意力对齐模块，添加了目标指导的语义注意力模块。全局注意力模块与运动估计和运动补偿具有相同的作用，可以捕获长距离依赖，从视频序列中获取对目标帧重建有用的辅助信息。该方法可以避免运动估计和运动补偿这种两阶段的处理，且具有较低的计算复杂度和运算时间。目标指导的语义注意力模块可以在语义层面以目标帧的特征图为指导，生成与目标帧特征图高度相关的时空特征图。本发明可以实现一阶段的端到端的视频比特深度增强，避免了运动补偿的高计算复杂度，具有较好的重建质量。

实施例2

下面结合具体的实验数据对实施例1方案进行效果评估，详见下文描述：

301：数据组成

测试集由Sintel数据库中随机抽取的与训练集不重复的50组16比特深度的连续视频帧和TOS数据库中随机抽取的30组16比特深度的连续视频帧构成，每组包含5帧图像。

302：评估准则

本发明主要采用两种评价指标对重建的高比特深度视频帧的质量进行评估：

峰值信噪比(Peak Signal to Noise Ratio，PSNR)是一种普遍使用的评鉴图像好坏的客观图像质量评估方法。

结构相似性指数(Structural Similarity Index，SSIM)^[12]是一种衡量两幅图像结构相似性的指标。该指标分别从图像的亮度，对比度和结构三种角度对度量两幅图像的相似性，该方法更符合人眼的视觉特性，更能体现图像的主观效果。该评价指标的范围为0到1，得分越高，表明重建的高比特图像越与原高比特图像相似，重建质量越好。

303:对比算法

本发明实施例与10种比特深度增强算法进行比较，其中包含8种传统图像比特增强方法，1种基于神经网络的图像比特增强方法，1种基于神经网络的视频比特增强方法。

8种传统图像比特增强方法包括：1)零填充算法(Zero Padding,ZP)；2)理想增益乘积算法(Multiplication by an Ideal Gain,MIG)；3)位复制算法(Bit Replication,BR)^[2]；4)基于最小风险分类算法(Minimum Risk based Classification,MRC)^[10]；5)轮廓区域重建算法(Contour Region Reconstruction,CRR)^[3]；6)内容自适应图像比特深度增强算法(Content Adaptive Image Bit-Depth Expansion,CA)^[4]；7)最大后验估计交流信号算法(Maximum a Posteriori Estimation of AC Signal,ACDC)^[14]；8)利用亮度势能进行自适应地反量化算法(Intensity Potential for Adaptive Dequantization,IPAD)^[5]。

基于神经网络的图像比特增强方法是基于卷积神经网络的图像比特深度增强算法(Bit-Depth Enhancement via Convolutional Neural Network,BE-CNN)^[6]。

基于神经网络的视频比特增强方法是基于时空对称卷积神经网络的视频比特深度增强算法(Spatiotemporal Symmetric Convolutional NeuralNetwork for VideoBit-Depth Enhancement,VBDE)^[13]。

表1列出了本方法与其他十种对比方法在Sintel测试集和TOS测试集上的测试结果。本方法在Sintel测试上PSNR高达41.5293，SSIM达到了0.9672，明显高于其他方法的性能。TOS数据集与Sintel数据集是截然不同的两种数据集，他们的内容差别较大，且TOS数据集包含更多更复杂的场景和内容。本方法在TOS测试集上PSNR达到了39.3155，SSIM达到了0.9572，具有较好的普适性。该测试充分证明了本方法的有效性。

表1

参考文献

[1]Wan P,Au O C,Tang K,et al.From 2d extrapolation to 1dinterpolation:Content adaptive image bit-depth expansion[C]//2012IEEEInternational Conference on Multimedia and Expo.IEEE,2012:170-175..

[2]Ulichney R A,Cheung S.Pixel bit-depth increase by bit replication[C]//Color Imaging:Device-Independent Color,Color Hardcopy,and Graphic ArtsIII.International Society for Optics and Photonics,1998,3300:232-241.

[3]Cheng C H,Au O C,Liu C H,et al.Bit-depth expansion by contourregion reconstruction[C]//2009IEEE International Symposium on Circuits andSystems.IEEE,2009:944-947.

[4]Wan P,Au O C,Tang K,et al.From 2d extrapolation to 1dinterpolation:Content adaptive image bit-depth expansion[C]//2012IEEEInternational Conference on Multimedia and Expo.IEEE,2012:170-175.

[5]Liu J,Zhai G,Liu A,et al.IPAD:Intensity potential for adaptive de-quantization[J].IEEE Transactions on Image Processing,2018,27(10):4860-4872.

[6]Liu J,Sun W,Liu Y.Bit-depth enhancement via convolutional neuralnetwork[C]//International Forum on Digital TV and Wireless MultimediaCommunications.Springer,Singapore,2017:255-264.

[7]Liu J,Sun W,Su Y,et al.BE-CALF:bit-depth enhancement byconcatenating all level features of DNN[J].IEEE Transactions on ImageProcessing,2019,28(10):4926-4940.

[8]Byun J,Shim K,Kim C.BitNet:Learning-Based Bit-Depth Expansion[C]//Asian Conference on Computer Vision.Springer,Cham,2018:67-82.

[9]Foundation X.Xiph.Org,https://www.xiph.org/,2016.

[10]Mittal G,Jakhetiya V,Jaiswal S P,et al.Bit-depth expansion usingminimum risk based classification[C]//2012Visual Communications and ImageProcessing.IEEE,2012:1-5.

[11]Kingma D P,Ba J.Adam:A method for stochastic optimization[J].arXiv preprint arXiv:1412.6980,2014.[12]ZEILER M D,KRISHNAN D,TAYLOR G W,etal.Deconvolutional networks；proceedings of the Computer Vision and PatternRecognition,F,2010[C].

[12]Wang Z,Bovik AC,Sheikh H R,et al.Image quality assessment:fromerror visibility to structural similarity[J].IEEE transactions on imageprocessing,2004,13(4):600-612.

[13]Liu J,Liu P,Su Y,et al.Spatiotemporal symmetric convolutionalneural network for video bit-depth enhancement[J].IEEE Transactions onMultimedia,2019,21(9):2397-2406.

[14]Wan P,Cheung G,Florencio D,et al.Image bit-depth enhancement viamaximum a posteriori estimation of AC signal[J].IEEE Transactions on ImageProcessing,2016,25(6):2896-2909.

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于注意力机制的视频比特增强方法，其特征在于，包括如下步骤：

所述的基于注意力机制的视频比特增强模型，包括依次连接的：全局注意力对齐模块(1)、编码器(2)、目标引导的语义注意力模块(3)和解码器(4)，其中，

所述全局注意力对齐模块(1)的输入端接收5帧连续的视频帧，用于捕获帧间和帧内的长距离依赖，输出经过隐式对齐后的5帧连续的视频帧；

所述的编码器(2)接收隐式对齐后的5帧连续的视频帧，同时分别对每一帧提取空间特征，分别输出含有对应帧的帧内空间信息的特征图；

所述的目标引导的语义注意力模块(3)接收编码器(2)输出的5个特征图，进行时空特征融合，得到含有时空特征信息的特征图，并从该特征图中获取与编码器( 2) 输出的中间帧的特征图相似的特征信息输出至解码器( 4) ；

所述的解码器(4)将接收到的特征信息逐步重建成残差图；

所述的全局注意力对齐模块(1)包括：

(1.2)将

再将

重新排列成维度为TC×HW的二维矩阵，记为

上标2表示该二维矩阵维度为2；

(1.3)对

通过如下公式进行变换：

其中，

表示矩阵乘法，(·)^T表对矩阵进行转置；

得到的是

和

的相似性矩阵，

表示加权求和后的

维度为HW×TC；将

转置然后重新排列成维度为TC×H×W的矩阵，记为

(1.4)将

经过一个1×1的卷积核重新排列到T×C×H×W维度，然后与输入的5帧连续的视频帧进行残差连接，得到经过隐式对齐后的5帧连续的视频帧；

所述的目标引导的语义注意力模块(3)包括有：

(3.1)接收编码器( 2) 输出的5个特征图，每个特征图的维度为Ch×H×W，其中，Ch表示每一个特征图的通道数，H、W表示特征图的高和宽，将5个特征图在通道方向级联起来，变成维度为5Ch×H×W的特征图；

该特征图的维度为Ch×H×W；

(3.3)将新的特征图

重新排列为二维矩阵，记为

维度为Ch×HW，令从编码器(2)接收的5个特征图的中间特征图为

并重新排列成二维矩阵，记为

维度为Ch×HW；

(3.4)对

和

进行以下操作：

其中，

表示矩阵乘法，(·)^T表对矩阵进行转置；

得到的是

和

的相似性矩阵，

表示加权求和后的

维度为HW×Ch，经过转置再重新排列成Ch×H×W的维度，记为

表示加权求和后的

(3.5)将

与

进行残差连接后，再送入一个3×3的卷积核提取特征；

2.根据权利要求1所述的一种基于注意力机制的视频比特增强方法，其特征在于，所述的编码器(2)包括有与5帧连续的视频帧对应的5个卷积支路，每个卷积支路就由5个卷积层依次串联构成，每个卷积层包含有相连接的一个3×3的卷积核以及PReLU激活函数。

3.根据权利要求1所述的一种基于注意力机制的视频比特增强方法，其特征在于，所述的解码器(4)是由5个转置卷积层依次串联构成，每个转置卷积层都包含有一个转置卷积核和一个PReLU激活函数，其中，第二个转置卷积层的输入是第一个转置卷积层的输出与编码器( 2) 的每个支路中第四个卷积层的输出的和，第四个转置卷积层的输入是第三个卷积层的输出与编码器( 2) 的每个支路中第二个卷积层的输出的和。

4.根据权利要求1所述的一种基于注意力机制的视频比特增强方法，其特征在于，步骤2)包括将原始视频序列组量化到低比特深度，其中每个视频序列组包含5帧连续的视频帧，对低比特深度的视频序列组应用零填充算法扩展成高比特深度的视频序列，将原始视频序列组的中间帧与零填充算法扩展的高比特深度的视频序列的中间帧作差，得到真实的残差图构成训练数据集。

5.根据权利要求1所述的一种基于注意力机制的视频比特增强方法，其特征在于，步骤3)所述的训练中，网络的输入是训练数据集中对低比特深度的视频序列组应用零填充算法扩展成高比特深度的视频序列，输出是残差图；采用均方误差损失作为网络生成的残差图和真实残差图的损失函数，使用Adam优化器对基于注意力机制的视频比特增强模型进行优化。

6.根据权利要求1所述的一种基于注意力机制的视频比特增强方法，其特征在于，步骤4)包括将构成测试集的视频序列组量化到低比特的深度，再应用零填充算法扩展成高比特深度的视频序列，将所述的高比特深度的视频序列输入到训练好的基于注意力机制的视频比特增强模型中，得到该模型预测的中间帧的残差图，将残差图与零填充算法扩展的向比特深度的视频序列的中间帧相加，得到重建的高比特深度中间帧，并采用评估方法对重建的高比特深度中间帧的质量进行评估。

7.根据权利要求6所述的一种基于注意力机制的视频比特增强方法，其特征在于，所述的评估方法是采用峰值信噪比和结构相似性指数两种方法。