CN112381866A - 一种基于注意力机制的视频比特增强方法 - Google Patents

一种基于注意力机制的视频比特增强方法 Download PDF

Info

Publication number
CN112381866A
CN112381866A CN202011166047.7A CN202011166047A CN112381866A CN 112381866 A CN112381866 A CN 112381866A CN 202011166047 A CN202011166047 A CN 202011166047A CN 112381866 A CN112381866 A CN 112381866A
Authority
CN
China
Prior art keywords
video
bit depth
frames
attention mechanism
model based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011166047.7A
Other languages
English (en)
Other versions
CN112381866B (zh
Inventor
刘婧
杨紫雯
于洁潇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202011166047.7A priority Critical patent/CN112381866B/zh
Publication of CN112381866A publication Critical patent/CN112381866A/zh
Application granted granted Critical
Publication of CN112381866B publication Critical patent/CN112381866B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Processing (AREA)

Abstract

一种基于注意力机制的视频比特增强方法:建立基于注意力机制的视频比特增强模型;从图像增强数据库中随机选取设定数目的具有高比特深度的原始视频序列组构建训练数据集;用构建的训练数据集对基于注意力机制的视频比特增强模型进行训练;从图像增强数据库选择视频序列组构成测试集,对训练好的基于注意力机制的视频比特增强模型进行测试;将需要增强的视频信号应用零填充算法得到高比特深度视频信号,再以5帧为一组依次输入到测试好的基于注意力机制的视频比特增强模型,将其输出结果与对应输入的视频序列组的中间帧相加从而依次对应得到增强后的中间帧。本发明在特征层面生成与目标特征图相关的语义注意力矩阵,提高了感知视觉质量。

Description

一种基于注意力机制的视频比特增强方法
技术领域
本发明涉及一种视频比特增强方法。特别是涉及一种基于注意力机制的视频比特增强方法。
背景技术
图像和视频等多媒体资源承载着丰富的信息,人们通过图像和视频可以快速了解外界所发生的事情。自从摄录设备和显示设备诞生以来,人们就一直致力于研究如何获得和显示更高质量的图像和视频。为了追求更好的视觉体验,人们提出了高动态范围(HighDynamic Range,HDR)这一技术,采用更高的动态范围和更多的比特深度(通常为10或12比特)来表示一个像素。具有高动态范围的图像和视频可以展示出更丰富的色彩,更细腻的颜色过渡,和更真实的纹理细节。目前随着技术的发展,超高清显示器和HDR显示器正在成为大家普遍的选择。然而,以前用旧摄录设备所捕获的大量的图像和视频只有8比特的位深,当它们呈现在HDR显示器上时,就会出现伪轮廓和色彩失真[1]等对人的视觉体验不友好的现象。因此,对低比特深度的图像和视频进行比特深度增强对于提高人的感官体验具有非常重要的意义和价值。
早期的比特深度增强方法,比如零填充法(Zero Padding,ZP)、理想增益乘积法(Multiplication by an Ideal Gain,MIG)和位复制算法(Bit Replication,BR)[2]等,都是基于独立像素做的比特增强方法,虽然它们计算简便快速,但是伪轮廓效应依然明显。后来,一些基于差值的方法被提出,比如轮廓区域重建算法(Contour RegionReconstruction,CRR)[3]、内容自适应图像比特深度增强算法(Content Adaptive ImageBit-Depth Expansion,CA)[4]和利用亮度势能进行自适应地反量化算法(IntensityPotential for Adaptive Dequantization,IPAD)[5]等。以上方法考虑了像素周围的上下文信息,能够较好地消除伪轮廓效应,但是它们重建出的图像内容会出现模糊和细节丢失等现象。近年来,神经网络在计算机视觉领域取得了引人注目的成就,对特定任务表现出了较强的学习能力和自适应能力。因此深度学习也被引入比特深度增强领域,基于卷积神经网络的图像比特深度增强算法(Bit-Depth Enhancement via Convolutional NeuralNetwork,BE-CNN)[6],通过级联DNN所有层次特征图的比特深度增强算法(BE-CALF:Bit-depth Enhancement by Concatenating All Level Features of DNN)[7]和基于学习的比特深度增强方法(BitNet:Learning-based bit-depth expansion)[8]都取了较好的性能。
以上的比特增强方法都是面向图像的,如果将其应用于低比特深度的视频序列,视频前后帧冗余的信息就不能得到很好的利用,而且产生的高比特视频序列会出现帧间闪烁等现象。
发明内容
本发明所要解决的技术问题是,提供一种可以快速地重建出主观质量和客观质量较好的高比特中间帧的基于注意力机制的视频比特增强方法。
本发明所采用的技术方案是:一种基于注意力机制的视频比特增强方法,包括如下步骤:
1)首先将需要增强的视频信号的比特深度称为低比特深度,增强后的的视频信号的比特深度称为高比特深度,将高比特深度图像与对低比特深度图像应用零填充算法后得到的高比特深度图像的差称为残差图,建立基于注意力机制的视频比特增强模型;
2)从图像增强数据库中随机选取设定数目的具有高比特深度的原始视频序列组构建训练数据集;
3)用构建的训练数据集对基于注意力机制的视频比特增强模型进行训练;
4)从图像增强数据库选择视频序列组构成测试集,对训练好的基于注意力机制的视频比特增强模型进行测试;
5)将需要增强的视频信号应用零填充算法得到高比特深度视频信号,然后将应用零填充算法得到的高比特深度视频信号以5帧为一组依次输入到测试好的基于注意力机制的视频比特增强模型,将基于注意力机制的视频比特增强模型的输出结果与对应输入的视频序列组的中间帧相加从而依次对应得到增强后的中间帧。
本发明的一种基于注意力机制的视频比特增强方法,有益效果是:
1、本发明以编解码器网络作为网络的骨架,在编码器网络之前添加了全局注意力对齐模块,该模块可以计算视频序列帧间的相关性生成注意力图,放大相关性高的特征点,隐性地进行视频对齐。
2、本发明在编码器和解码器网络之间加入了目标引导的语义注意力模块,该模块以目标帧的特征图为指导,在特征层面生成与目标特征图相关的语义注意力矩阵,提高了感知视觉质量。
附图说明
图1是本发明一种基于注意力机制的视频比特增强方法的框图;
图2是网络总体框架;
图3是全局注意力对齐模块;
图4是目标引导的语义注意力模块。
具体实施方式
下面结合实施例和附图对本发明一种基于注意力机制的视频比特增强方法的做出详细说明。
如图1所示,本发明的一种基于注意力机制的视频比特增强方法,包括如下步骤:
1)首先将需要增强的视频信号的比特深度称为低比特深度,增强后的的视频信号的比特深度称为高比特深度,将高比特深度图像与对低比特深度图像应用零填充算法后得到的高比特深度图像的差称为残差图,建立基于注意力机制的视频比特增强模型;
所述的基于注意力机制的视频比特增强模型,包括依次连接的:全局注意力对齐模块1、编码器2、目标引导的语义注意力模块3和解码器4,其中,
所述全局注意力对齐模块1的输入端接收5帧连续的视频帧,用于捕获帧间和帧内的长距离依赖,输出经过隐式对齐后的5帧连续的视频帧;
所述的编码器2接收隐式对齐后的5帧连续的视频帧,分别同时对每一帧提取空间特征,分别输出含有对应帧的帧内空间信息的特征图;
所述的目标引导的语义注意力模块3接收编码器2输出的5个特征图,进行时空特征融合,得到含有时空特征信息的特征图,并从该特征图中获取与编码器2输出的中间帧的特征图相似的特征信息输出至解码器4;
所述的解码器4将接收到的特征信息逐步重建成残差图。
其中,
如图3所示,所述的全局注意力对齐模块1包括:
(1.1)将5帧连续的视频帧在通道方向级联得到维度为TC×H×W的信号,表示为
Figure BDA0002745813920000031
其中,T表示连续的帧数,C表示每一帧的通道数,H、W表示输入视频帧的高和宽;
(1.2)将
Figure BDA0002745813920000032
分别送入3个1×1的卷积核进行线性变换,得到的线性变换后的信号,记为
Figure BDA0002745813920000033
再将
Figure BDA0002745813920000034
重新排列成维度为TC×HW的二维矩阵,记为
Figure BDA0002745813920000035
上标2表示该特征图维度为2;
(1.3)对
Figure BDA0002745813920000036
通过如下公式进行变换:
Figure BDA0002745813920000037
Figure BDA0002745813920000038
其中,
Figure BDA0002745813920000039
表示矩阵乘法,(·)T表对矩阵进行转置;
Figure BDA00027458139200000310
得到的是
Figure BDA00027458139200000311
Figure BDA00027458139200000312
的相似性矩阵,
Figure BDA00027458139200000313
表示加权求和后的
Figure BDA00027458139200000314
维度为HW×TC;将
Figure BDA00027458139200000315
转置然后重新排列成维度为TC×H×W的矩阵,记为
Figure BDA00027458139200000316
(1.4)将
Figure BDA00027458139200000317
经过一个1×1的卷积核重新排列到T×C×H×W维度,然后与输入的5帧连续的视频帧进行残差连接,得到经过隐式对齐后的5帧连续的视频帧。
如图2所示,所述的编码器2包括有与5帧连续的视频帧对应的5个卷积支路,每个卷积支路就由5个卷积层依次串联构成,每个卷积层包含有相连接的一个3×3的卷积核以及PReLU激活函数。
如图4所示,所述的目标引导的语义注意力模块3包括有:
(3.1)接收编码器2输出的5个特征图,每个特征图的维度为Ch×H×W,其中,Ch表示每一个特征图的通道数,H、W表示特征图的高和宽,将5个特征图在通道方向级联起来,变成维度为5Ch×H×W的特征图;
(3.2)然后经过一个3×3的卷积核进一步地融合时空信息,得到新的特征图
Figure BDA00027458139200000318
该特征图的维度为Ch×H×W;
(3.3)将新的特征图
Figure BDA00027458139200000319
重新排列为二维矩阵,记为
Figure BDA00027458139200000320
维度为Ch×HW,令从编码器2接收的5个特征图的中间特征图为
Figure BDA00027458139200000321
并重新排列成二维矩阵,记为
Figure BDA00027458139200000322
维度为Ch×HW;
(3.4)对
Figure BDA00027458139200000323
Figure BDA00027458139200000324
进行以下操作:
Figure BDA00027458139200000325
Figure BDA0002745813920000041
其中,
Figure BDA0002745813920000042
表示矩阵乘法,(·)T表对矩阵进行转置;
Figure BDA0002745813920000043
得到的是
Figure BDA0002745813920000044
Figure BDA0002745813920000045
的相似性矩阵,
Figure BDA0002745813920000046
表示加权求和后的
Figure BDA0002745813920000047
维度为HW×Ch,经过转置再重新排列成Ch×H×W的维度,记为
Figure BDA0002745813920000048
表示加权求和后的
Figure BDA0002745813920000049
(3.5)将
Figure BDA00027458139200000410
Figure BDA00027458139200000411
进行残差连接后,再送入一个3×3的卷积核提取特征。
如图1所示,所述的解码器4是由5个转置卷积层依次串联构成,每个转置卷积层都包含有一个转置卷积核和一个PReLU激活函数,其中,第二个转置卷积层的输入是第一个转置卷积层的输出与编码器2的每个支路中第四个卷积层的输出的和,第四个转置卷积层的输入是第三个卷积层的输出与编码器2的每个支路中第二个卷积层的输出的和。
2)从图像增强数据库中随机选取设定数目的具有高比特深度的原始视频序列组构建训练数据集;包括将原始视频序列组量化到低比特深度,其中每个视频序列组包含5帧连续的视频帧,对低比特深度的视频序列组应用零填充算法扩展成高比特深度的视频序列,将原始视频序列组的中间帧与零填充算法扩展的高比特深度的视频序列的中间帧作差,得到真实的残差图构成训练数据集。
3)用构建的训练数据集对基于注意力机制的视频比特增强模型进行训练;所述的训练中,网络的输入是训练数据集中对低比特深度的视频序列组应用零填充算法扩展成高比特深度的视频序列,输出是残差图;采用均方误差损失(Mean Square Error,MSE)作为网络生成的残差图和真实残差图的损失函数,使用Adam优化器对基于注意力机制的视频比特增强模型进行优化。
4)从图像增强数据库中选择视频序列组构成测试集,对训练好的基于注意力机制的视频比特增强模型进行测试;包括将构成测试集的视频序列组量化到低比特的深度,再应用零填充算法扩展成高比特深度的视频序列,将所述的高比特深度的视频序列输入到训练好的基于注意力机制的视频比特增强模型中,得到该模型预测的中间帧的残差图,将残差图与零填充算法扩展的高比特深度的视频序列的中间帧相加,得到重建的高比特深度中间帧,并采用评估方法对重建的高比特深度中间帧的质量进行评估。所述的评估方法是采用峰值信噪比(Peak Signal to Noise Ratio,PSNR)和结构相似性指数(StructuralSimilarity Index,SSIM)两种方法。
5)将需要增强的视频信号应用零填充算法得到高比特深度视频信号,然后将应用零填充算法得到的高比特深度视频信号以5帧为一组依次输入到测试好的基于注意力机制的视频比特增强模型,将基于注意力机制的视频比特增强模型的输出结果与对应输入的视频序列组的中间帧相加从而依次对应得到增强后的中间帧。
实施例1
本发明实施例包括以下步骤:
101:从16比特的Sintel数据库[9]中随机选取原始的1000组视频序列,每组5帧视频帧,并将其量化到4比特深度,对4比特深度的视频序列应用零填充算法将4比特的视频序列扩展成16比特深度视频序列,将应用零填充算法扩展成的16比特深度的视频帧称为粗糙的高比特深度视频帧;
102:本实施例以编解码器作为网络基本架构,在编码器头部加入全局注意力对齐模块,该模块可以通过计算视频序列帧内和帧间的相关性捕获长距离依赖,进行隐式的运动估计和运动补偿(Motion Estimation and Motion Compensation,ME&MC);在编码器和解码器连接处加入目标指导的语义注意力模块,该模块将编码器提取的空间特征进行融合,然后将中间帧作为指导特征,与融合后的充满时空语义特征的特征图做相关,得到语义注意力矩阵。将语义注意力矩阵与充满时空语义特征的特征图进行矩阵相乘,得到变换后的特征图。该模块可以帮助网络在语义层面更加关注于与目标帧有关的信息,提高感知质量。
103:将粗糙的高比特深度视频序列输入到网络中,生成残差图。对原始高比特深度视频序列中间帧和粗糙的高比特深度视频中间帧做差,得到真实的残差图。使用均方误差损失(Mean Square Error,MSE)作为网络生成的残差图和真实残差图的损失函数,使用Adam优化器[11]对基于注意力机制的视频比特增强模型进行优化。
104:在测试阶段,从Sintel数据集中随机选取50组与训练集不同的16比特深度的视频序列,从Tears of Steel(TOS)数据集[9]中选取30组16比特深度的视频序列。将测试集量化到4比特深度,然后使用零填充算法反量化为粗糙的高比特深度视频序列。将基于注意力机制的视频比特增强模型加载训练好的模型参数,然后将粗糙的高比特深度视频序列输送到模型中生成残差图,将残差图与粗糙的高比特深度视频中间帧相加得到重建的高比特深度图。使用峰值信噪比(Peak signal-to-noise Ratio,PSNR)和结构相似性(StructuralSimilarity Index,SSIM)[12]这两种客观评价标准对测试结果进行评价以验证该发明的有效性。
综上所述,本发明实施例通过步骤101至步骤104设计一种基于注意力机制的视频比特深度增强方法。在经典的编解码网络上引入了全局注意力对齐模块,添加了目标指导的语义注意力模块。全局注意力模块与运动估计和运动补偿具有相同的作用,可以捕获长距离依赖,从视频序列中获取对目标帧重建有用的辅助信息。该方法可以避免运动估计和运动补偿这种两阶段的处理,且具有较低的计算复杂度和运算时间。目标指导的语义注意力模块可以在语义层面以目标帧的特征图为指导,生成与目标帧特征图高度相关的时空特征图。本发明可以实现一阶段的端到端的视频比特深度增强,避免了运动补偿的高计算复杂度,具有较好的重建质量。
实施例2
下面结合具体的实验数据对实施例1方案进行效果评估,详见下文描述:
301:数据组成
测试集由Sintel数据库中随机抽取的与训练集不重复的50组16比特深度的连续视频帧和TOS数据库中随机抽取的30组16比特深度的连续视频帧构成,每组包含5帧图像。
302:评估准则
本发明主要采用两种评价指标对重建的高比特深度视频帧的质量进行评估:
峰值信噪比(Peak Signal to Noise Ratio,PSNR)是一种普遍使用的评鉴图像好坏的客观图像质量评估方法。
结构相似性指数(Structural Similarity Index,SSIM)[12]是一种衡量两幅图像结构相似性的指标。该指标分别从图像的亮度,对比度和结构三种角度对度量两幅图像的相似性,该方法更符合人眼的视觉特性,更能体现图像的主观效果。该评价指标的范围为0到1,得分越高,表明重建的高比特图像越与原高比特图像相似,重建质量越好。
303:对比算法
本发明实施例与10种比特深度增强算法进行比较,其中包含8种传统图像比特增强方法,1种基于神经网络的图像比特增强方法,1种基于神经网络的视频比特增强方法。
8种传统图像比特增强方法包括:1)零填充算法(Zero Padding,ZP);2)理想增益乘积算法(Multiplication by an Ideal Gain,MIG);3)位复制算法(Bit Replication,BR)[2];4)基于最小风险分类算法(Minimum Risk based Classification,MRC)[10];5)轮廓区域重建算法(Contour Region Reconstruction,CRR)[3];6)内容自适应图像比特深度增强算法(Content Adaptive Image Bit-Depth Expansion,CA)[4];7)最大后验估计交流信号算法(Maximum a Posteriori Estimation of AC Signal,ACDC)[14];8)利用亮度势能进行自适应地反量化算法(Intensity Potential for Adaptive Dequantization,IPAD)[5]
基于神经网络的图像比特增强方法是基于卷积神经网络的图像比特深度增强算法(Bit-Depth Enhancement via Convolutional Neural Network,BE-CNN)[6]
基于神经网络的视频比特增强方法是基于时空对称卷积神经网络的视频比特深度增强算法(Spatiotemporal Symmetric Convolutional NeuralNetwork for VideoBit-Depth Enhancement,VBDE)[13]
表1列出了本方法与其他十种对比方法在Sintel测试集和TOS测试集上的测试结果。本方法在Sintel测试上PSNR高达41.5293,SSIM达到了0.9672,明显高于其他方法的性能。TOS数据集与Sintel数据集是截然不同的两种数据集,他们的内容差别较大,且TOS数据集包含更多更复杂的场景和内容。本方法在TOS测试集上PSNR达到了39.3155,SSIM达到了0.9572,具有较好的普适性。该测试充分证明了本方法的有效性。
表1
Figure BDA0002745813920000061
参考文献
[1]Wan P,Au O C,Tang K,et al.From 2d extrapolation to 1dinterpolation:Content adaptive image bit-depth expansion[C]//2012IEEEInternational Conference on Multimedia and Expo.IEEE,2012:170-175..
[2]Ulichney R A,Cheung S.Pixel bit-depth increase by bit replication[C]//Color Imaging:Device-Independent Color,Color Hardcopy,and Graphic ArtsIII.International Society for Optics and Photonics,1998,3300:232-241.
[3]Cheng C H,Au O C,Liu C H,et al.Bit-depth expansion by contourregion reconstruction[C]//2009IEEE International Symposium on Circuits andSystems.IEEE,2009:944-947.
[4]Wan P,Au O C,Tang K,et al.From 2d extrapolation to 1dinterpolation:Content adaptive image bit-depth expansion[C]//2012IEEEInternational Conference on Multimedia and Expo.IEEE,2012:170-175.
[5]Liu J,Zhai G,Liu A,et al.IPAD:Intensity potential for adaptive de-quantization[J].IEEE Transactions on Image Processing,2018,27(10):4860-4872.
[6]Liu J,Sun W,Liu Y.Bit-depth enhancement via convolutional neuralnetwork[C]//International Forum on Digital TV and Wireless MultimediaCommunications.Springer,Singapore,2017:255-264.
[7]Liu J,Sun W,Su Y,et al.BE-CALF:bit-depth enhancement byconcatenating all level features of DNN[J].IEEE Transactions on ImageProcessing,2019,28(10):4926-4940.
[8]Byun J,Shim K,Kim C.BitNet:Learning-Based Bit-Depth Expansion[C]//Asian Conference on Computer Vision.Springer,Cham,2018:67-82.
[9]Foundation X.Xiph.Org,https://www.xiph.org/,2016.
[10]Mittal G,Jakhetiya V,Jaiswal S P,et al.Bit-depth expansion usingminimum risk based classification[C]//2012Visual Communications and ImageProcessing.IEEE,2012:1-5.
[11]Kingma D P,Ba J.Adam:A method for stochastic optimization[J].arXiv preprint arXiv:1412.6980,2014.[12]ZEILER M D,KRISHNAN D,TAYLOR G W,etal.Deconvolutional networks;proceedings of the Computer Vision and PatternRecognition,F,2010[C].
[12]Wang Z,Bovik AC,Sheikh H R,et al.Image quality assessment:fromerror visibility to structural similarity[J].IEEE transactions on imageprocessing,2004,13(4):600-612.
[13]Liu J,Liu P,Su Y,et al.Spatiotemporal symmetric convolutionalneural network for video bit-depth enhancement[J].IEEE Transactions onMultimedia,2019,21(9):2397-2406.
[14]Wan P,Cheung G,Florencio D,et al.Image bit-depth enhancement viamaximum a posteriori estimation of AC signal[J].IEEE Transactions on ImageProcessing,2016,25(6):2896-2909.
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于注意力机制的视频比特增强方法,其特征在于,包括如下步骤:
1)首先将需要增强的视频信号的比特深度称为低比特深度,增强后的的视频信号的比特深度称为高比特深度,将高比特深度图像与对低比特深度图像应用零填充算法后得到的高比特深度图像的差称为残差图,建立基于注意力机制的视频比特增强模型;
2)从图像增强数据库中随机选取设定数目的具有高比特深度的原始视频序列组构建训练数据集;
3)用构建的训练数据集对基于注意力机制的视频比特增强模型进行训练;
4)从图像增强数据库选择视频序列组构成测试集,对训练好的基于注意力机制的视频比特增强模型进行测试;
5)将需要增强的视频信号应用零填充算法得到高比特深度视频信号,然后将应用零填充算法得到的高比特深度视频信号以5帧为一组依次输入到测试好的基于注意力机制的视频比特增强模型,将基于注意力机制的视频比特增强模型的输出结果与对应输入的视频序列组的中间帧相加从而依次对应得到增强后的中间帧。
2.根据权利要求1所述的一种基于注意力机制的视频比特增强方法,其特征在于,步骤1)所述的基于注意力机制的视频比特增强模型,包括依次连接的:全局注意力对齐模块1、编码器2、目标引导的语义注意力模块3和解码器4,其中,
所述全局注意力对齐模块1的输入端接收5帧连续的视频帧,用于捕获帧间和帧内的长距离依赖,输出经过隐式对齐后的5帧连续的视频帧;
所述的编码器2接收隐式对齐后的5帧连续的视频帧,同时分别对每一帧提取空间特征,分别输出含有对应帧的帧内空间信息的特征图;
所述的目标引导的语义注意力模块3接收编码器2输出的5个特征图,进行时空特征融合,得到含有时空特征信息的特征图,并从该特征图中获取与编码器2输出的中间帧的特征图相似的特征信息输出至解码器4;
所述的解码器4将接收到的特征信息逐步重建成残差图。
3.根据权利要求2所述的一种基于注意力机制的视频比特增强方法,其特征在于,所述的全局注意力对齐模块1包括:
(1.1)将5帧连续的视频帧在通道方向级联得到维度为TC×H×W的信号,表示为
Figure FDA0002745813910000011
其中,T表示连续的帧数,C表示每一帧的通道数,H、W表示输入视频帧的高和宽;
(1.2)将
Figure FDA0002745813910000012
分别送入3个1×1的卷积核进行线性变换,得到的线性变换后的信号,记为
Figure FDA0002745813910000013
再将
Figure FDA0002745813910000014
重新排列成维度为TC×HW的二维矩阵,记为
Figure FDA0002745813910000015
上标2表示该特征图维度为2;
(1.3)对
Figure FDA0002745813910000016
通过如下公式进行变换:
Figure FDA0002745813910000017
Figure FDA0002745813910000021
其中,
Figure FDA0002745813910000022
表示矩阵乘法,(·)T表对矩阵进行转置;
Figure FDA0002745813910000023
得到的是
Figure FDA0002745813910000024
Figure FDA0002745813910000025
的相似性矩阵,
Figure FDA0002745813910000026
表示加权求和后的
Figure FDA0002745813910000027
维度为HW×TC;将
Figure FDA0002745813910000028
转置然后重新排列成维度为TC×H×W的矩阵,记为
Figure FDA0002745813910000029
(1.4)将
Figure FDA00027458139100000210
经过一个1×1的卷积核重新排列到T×C×H×W维度,然后与输入的5帧连续的视频帧进行残差连接,得到经过隐式对齐后的5帧连续的视频帧。
4.根据权利要求2所述的一种基于注意力机制的视频比特增强方法,其特征在于,所述的编码器(2)包括有与5帧连续的视频帧对应的5个卷积支路,每个卷积支路就由5个卷积层依次串联构成,每个卷积层包含有相连接的一个3×3的卷积核以及PReLU]激活函数。
5.根据权利要求2所述的一种基于注意力机制的视频比特增强方法,其特征在于,所述的目标引导的语义注意力模块3包括有:
(3.1)接收编码器2输出的5个特征图,每个特征图的维度为Ch×H×W,其中,Ch表示每一个特征图的通道数,H、W表示特征图的高和宽,将5个特征图在通道方向级联起来,变成维度为5Ch×H×W的特征图;
(3.2)然后经过一个3×3的卷积核进一步地融合时空信息,得到新的特征图
Figure FDA00027458139100000211
该特征图的维度为Ch×H×W;
(3.3)将新的特征图
Figure FDA00027458139100000212
重新排列为二维矩阵,记为
Figure FDA00027458139100000213
维度为Ch×HW,令从编码器(2)接收的5个特征图的中间特征图为
Figure FDA00027458139100000214
并重新排列成二维矩阵,记为
Figure FDA00027458139100000215
维度为Ch×HW;
(3.4)对
Figure FDA00027458139100000216
Figure FDA00027458139100000217
进行以下操作:
Figure FDA00027458139100000218
Figure FDA00027458139100000219
其中,
Figure FDA00027458139100000220
表示矩阵乘法,(·)T表对矩阵进行转置;
Figure FDA00027458139100000221
得到的是
Figure FDA00027458139100000222
Figure FDA00027458139100000223
的相似性矩阵,
Figure FDA00027458139100000224
表示加权求和后的
Figure FDA00027458139100000225
维度为HW×Ch,经过转置再重新排列成Ch×H×W的维度,记为
Figure FDA00027458139100000226
表示加权求和后的
Figure FDA00027458139100000227
(3.5)将
Figure FDA00027458139100000228
Figure FDA00027458139100000229
进行残差连接后,再送入一个3×3的卷积核提取特征。
6.根据权利要求2所述的一种基于注意力机制的视频比特增强方法,其特征在于,所述的解码器4是由5个转置卷积层依次串联构成,每个转置卷积层都包含有一个转置卷积核和一个PReLU激活函数,其中,第二个转置卷积层的输入是第一个转置卷积层的输出与编码器2的每个支路中第四个卷积层的输出的和,第四个转置卷积层的输入是第三个卷积层的输出与编码器2的每个支路中第二个卷积层的输出的和。
7.根据权利要求1所述的一种基于注意力机制的视频比特增强方法,其特征在于,步骤2)包括将原始视频序列组量化到低比特深度,其中每个视频序列组包含5帧连续的视频帧,对低比特深度的视频序列组应用零填充算法扩展成高比特深度的视频序列,将原始视频序列组的中间帧与零填充算法扩展的高比特深度的视频序列的中间帧作差,得到真实的残差图构成训练数据集。
8.根据权利要求1所述的一种基于注意力机制的视频比特增强方法,其特征在于,步骤3)所述的训练中,网络的输入是训练数据集中对低比特深度的视频序列组应用零填充算法扩展成高比特深度的视频序列,输出是残差图;采用均方误差损失作为网络生成的残差图和真实残差图的损失函数,使用Adam优化器对基于注意力机制的视频比特增强模型进行优化。
9.根据权利要求1所述的一种基于注意力机制的视频比特增强方法,其特征在于,步骤4)包括将构成测试集的视频序列组量化到低比特的深度,再应用零填充算法扩展成高比特深度的视频序列,将所述的高比特深度的视频序列输入到训练好的基于注意力机制的视频比特增强模型中,得到该模型预测的中间帧的残差图,将残差图与零填充算法扩展的向比特深度的视频序列的中间帧相加,得到重建的高比特深度中间帧,并采用评估方法对重建的高比特深度中间帧的质量进行评估。
10.根据权利要求9所述的一种基于注意力机制的视频比特增强方法,其特征在于,所述的评估方法是采用峰值信噪比和结构相似性指数两种方法。
CN202011166047.7A 2020-10-27 2020-10-27 一种基于注意力机制的视频比特增强方法 Active CN112381866B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011166047.7A CN112381866B (zh) 2020-10-27 2020-10-27 一种基于注意力机制的视频比特增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011166047.7A CN112381866B (zh) 2020-10-27 2020-10-27 一种基于注意力机制的视频比特增强方法

Publications (2)

Publication Number Publication Date
CN112381866A true CN112381866A (zh) 2021-02-19
CN112381866B CN112381866B (zh) 2022-12-13

Family

ID=74576777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011166047.7A Active CN112381866B (zh) 2020-10-27 2020-10-27 一种基于注意力机制的视频比特增强方法

Country Status (1)

Country Link
CN (1) CN112381866B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113066022A (zh) * 2021-03-17 2021-07-02 天津大学 一种基于高效时空信息融合的视频比特增强方法
CN113313682A (zh) * 2021-05-28 2021-08-27 西安电子科技大学 基于时空多尺度分析的无参考视频质量评价方法
CN113507607A (zh) * 2021-06-11 2021-10-15 电子科技大学 一种无需运动补偿的压缩视频多帧质量增强方法
CN113592746A (zh) * 2021-07-07 2021-11-02 电子科技大学 一种由粗到细地融合时空信息的压缩视频质量增强方法
CN114582029A (zh) * 2022-05-06 2022-06-03 山东大学 一种非专业舞蹈运动序列增强方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111008938A (zh) * 2019-11-25 2020-04-14 天津大学 一种基于内容和连续性引导的实时多帧比特增强方法
CN111031315A (zh) * 2019-11-18 2020-04-17 复旦大学 基于注意力机制和时间依赖性的压缩视频质量增强方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111031315A (zh) * 2019-11-18 2020-04-17 复旦大学 基于注意力机制和时间依赖性的压缩视频质量增强方法
CN111008938A (zh) * 2019-11-25 2020-04-14 天津大学 一种基于内容和连续性引导的实时多帧比特增强方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JING LIU ET AL.: "Spatiotemporal symmetric convolutional neural network for video bit-depth enhancement", 《IEEE TRANSACTIONS ON MULTIMEDIA》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113066022A (zh) * 2021-03-17 2021-07-02 天津大学 一种基于高效时空信息融合的视频比特增强方法
CN113066022B (zh) * 2021-03-17 2022-08-16 天津大学 一种基于高效时空信息融合的视频比特增强方法
CN113313682A (zh) * 2021-05-28 2021-08-27 西安电子科技大学 基于时空多尺度分析的无参考视频质量评价方法
CN113313682B (zh) * 2021-05-28 2023-03-21 西安电子科技大学 基于时空多尺度分析的无参考视频质量评价方法
CN113507607A (zh) * 2021-06-11 2021-10-15 电子科技大学 一种无需运动补偿的压缩视频多帧质量增强方法
CN113507607B (zh) * 2021-06-11 2023-05-26 电子科技大学 一种无需运动补偿的压缩视频多帧质量增强方法
CN113592746A (zh) * 2021-07-07 2021-11-02 电子科技大学 一种由粗到细地融合时空信息的压缩视频质量增强方法
CN113592746B (zh) * 2021-07-07 2023-04-18 电子科技大学 一种由粗到细地融合时空信息的压缩视频质量增强方法
CN114582029A (zh) * 2022-05-06 2022-06-03 山东大学 一种非专业舞蹈运动序列增强方法及***
CN114582029B (zh) * 2022-05-06 2022-08-02 山东大学 一种非专业舞蹈运动序列增强方法及***

Also Published As

Publication number Publication date
CN112381866B (zh) 2022-12-13

Similar Documents

Publication Publication Date Title
CN112381866B (zh) 一种基于注意力机制的视频比特增强方法
Liang et al. Vrt: A video restoration transformer
CN111028150B (zh) 一种快速时空残差注意力视频超分辨率重建方法
CN109309834B (zh) 基于卷积神经网络和hevc压缩域显著信息的视频压缩方法
US10805629B2 (en) Video compression through motion warping using learning-based motion segmentation
CN111008938B (zh) 一种基于内容和连续性引导的实时多帧比特增强方法
CN113066022B (zh) 一种基于高效时空信息融合的视频比特增强方法
CN111260560B (zh) 一种融合注意力机制的多帧视频超分辨率方法
CN110751597B (zh) 基于编码损伤修复的视频超分辨方法
CN106911930A (zh) 一种基于递归卷积神经网络进行压缩感知视频重建的方法
CN110852964A (zh) 一种基于深度学习的图像比特增强方法
EP4365820A1 (en) Video super-resolution network, and video super-resolution, encoding and decoding processing method and device
CN110177282B (zh) 一种基于srcnn的帧间预测方法
CN108289224B (zh) 一种视频帧预测方法、装置及自动补偿神经网络
CN111031315B (zh) 基于注意力机制和时间依赖性的压缩视频质量增强方法
Agustsson et al. Extreme learned image compression with gans
CN114757828A (zh) 基于Transformer的视频时空超分辨率方法
CN116703752A (zh) 融合近红外的Transformer结构的图像去雾方法及装置
Wu et al. Virtual reality video quality assessment based on 3d convolutional neural networks
JP7482232B2 (ja) 時間変形可能畳み込みによるディープループフィルタ
Liu et al. Gated context model with embedded priors for deep image compression
Li et al. Extreme underwater image compression using physical priors
CN116012272A (zh) 一种基于重建流场的压缩视频质量增强方法
CN112866668B (zh) 一种基于gan潜码的多视点视频重建方法
CN113507607B (zh) 一种无需运动补偿的压缩视频多帧质量增强方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant