CN108900848B - 一种基于自适应可分离卷积的视频质量增强方法 - Google Patents
一种基于自适应可分离卷积的视频质量增强方法 Download PDFInfo
- Publication number
- CN108900848B CN108900848B CN201810603510.6A CN201810603510A CN108900848B CN 108900848 B CN108900848 B CN 108900848B CN 201810603510 A CN201810603510 A CN 201810603510A CN 108900848 B CN108900848 B CN 108900848B
- Authority
- CN
- China
- Prior art keywords
- convolution
- layer
- image
- video
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
- H04N19/86—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving reduction of coding artifacts, e.g. of blockiness
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/577—Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开一种基于自适应可分离卷积的视频质量增强方法,将自适应可分离卷积作为第一个模块应用于网络模型当中,将每个二维卷积转化为一对水平方向和垂直方向的一维卷积核,参数量由n2变为n+n。第二,利用网络对于不同输入学习出来的自适应变化的卷积核以实现运动矢量的估计,通过选取连续的两帧作为网络输入,对于每两张连续输入可以得到一对可分离的二维卷积核,而后该2维卷积核被展开成四个1维卷积核,得到的1维卷积核随输入的改变而改变,提高网络自适应性。本发明用一维卷积核取代二维卷积核,使得网络训练模型参数减少,执行效率高。
Description
技术领域
本发明涉及图像处理领域与深度学习技术,尤其涉及一种基于自适应可分离卷积的视频
质量增强方法。
背景技术
去图像和视频的压缩伪影是计算机视觉中的经典问题。该问题的目标是从压缩图像和视频中估计出无损的图像。在这个信息***的时代,互联网和手机上传播的图像和视频日益增多,有损压缩方式如JPEG、WebP等技术被广泛应用于新闻网站、微信、微博等平台以减少视频文件的大小,以节省带宽和传输时间。网页中使用的图像和视频需要尽可能压缩,以加快页面加载速度从而改善用户体验。但是这些压缩算法通常会引入压缩伪影,例如阻塞,后凸,轮廓,模糊和振铃效应等。一般来说,压缩因子越大,由这些伪影引起的视频劣化越严重,导致了视频信息的丢失,直接影响了用户的视觉体验。因此,如何恢复视觉上质量较高的无伪像图像和视频已经引起越来越多的关注。
近年来,随着深度学习的发展,越来越多技术开始应用于如何提高压缩图像和视频的视觉质量上。例如,Dong[1]等人提出利用3层卷积神经网络(ARCNN)来去除JPEG压缩图像的伪影,并取得了较好的图像去压缩伪影效果。继而yang等人提出了DS-CNN[2,3]用于视频质量增强。但是,上述所提及的这些视频质量增强方法都没有利用相邻帧之间的信息,因此其网络性能在很大程度上受到限制。直到最近,yang等人继续提出MFQE算法[4],其认为在压缩视频中,由于每帧的质量起伏很大,因此可以使用高质量帧中的信息来增强其相邻低质量帧的质量。但是该方法依赖于光流估计网络估计帧与帧之间的运动,由于光流估计法中很难获取运动估计的ground-truth值,导致效果不突出。
发明内容
本发明的目的在于针对视频高度压缩所产生的伪影问题提供一种基于自适应可分离卷积的视频质量增强方法,有效地去除压缩视频中的各种伪影,显著提高视频质量与视觉效果。
本发明采用的技术方案是:
一种基于自适应可分离卷积的视频质量增强方法,采用***网络包括一自适应可分离卷积网络和一残差网络,自适应可分离卷积网络用于获取运动补偿帧,残差网络用于去除视频帧的压缩伪影,从而增强视频质量;视频质量增强方法具体步骤如下:
步骤1,挑选高质量视频,形成视频数据库[4,5,6]。
步骤7:基于总体代价函数不断更新并优化获得最优的卷积权值参数和偏置参数直到获得最佳效果。
进一步地,步骤2具体包括以下步骤:
步骤2-1,根据最新的HEVC标准,设定质量系数qp,使用ffmpeg命令对原始视频进行压缩,使得每一个高清视频都有相对应的具有压缩伪影的视频;
步骤2-2,分别对高清视频和压缩视频进行抽帧,得到高清图像集和对应的压缩图像集;
步骤2-5,随机打乱配对集中的视频帧顺序,得到网络模型的训练数据集。
进一步地,步骤3中可分离卷积神经网络包括五个编码模块、四个解码模块、一个分离卷积模块和一个图像预测模块;
进一步地,步骤3具体包括以下步骤:
步骤3.1,每个编码模块包括三个卷积层和一个平均池化层,
卷积层的计算公式是:
其中xi,j表示图像的第i行第j列像素,wm,n表示滤波器的第m行第n列权重,wb表示滤波器的偏置项,ai,j表示得到的特征图的第i行第j列像素,用f表示激活函数relu;
平均池化层的公式如下:
其中αi表示所取邻域内第i个像素点的值,归一化之后αi取值范围为0-1,N表示邻域内像素点的总个数。hm表示取该邻域内所有像素点做池化操作后的结果;
步骤3.2,每个解码模块依次包含三个卷积层和一个双线性上采样层,最后一个编码模块的输出作为第一个解码模块的输入,之后则是上一个解码模块的输出作为下一个解码模块的输入;解码模块的卷积层的计算公式与编码模块的卷积层的计算公式一样;
双线性上采样层的计算过程如下:
步骤3.2.1,对于每张得到的特征图,要想得到未知函数f在点p=(x,y)的值,首先在x方向进行线性插值,得到:
其中Q11=(x1,y1),Q12=(x1,y2),Q21=(x2,y1),Q22=(x2,y2)为已知的四个点,f为双线性插值函数;
步骤3.2.2,对y方向进行线性插值:
这样就可以得到所要的插值结果:
得到要预测的像素点p=(x,y)经过双线性插值函数f后特征图的中像素点的值,即f(x,y)。
步骤3.3,在解码器和编码器之间增加跳跃式连接:分别将第2,3,4,5个编码模块的第三层卷积层与对应的第4,3,2,1个解码模块的双线性上采样层采取跳跃式连接,将编码模块和解码模块的输出特征相加得到结合的特征;
步骤3.4,可分离卷积模块包括四个子网络,其中每个子网络由三个卷积层和一个双线性上采样层构成;具体步骤如下:
步骤3.4.1,将步骤3.1-3.3的输出展开成两个自适应卷积核以分别对连续两帧输入进行卷积操作:
其中K1(x,y)和K2(x,y)分别表示基于可分离卷积模型预测出来的两个二维卷积核,P1(x,y)和P2(x,y)表示两连续输入帧的像素值,*表示卷积操作;
步骤3.4.2,将每个二维自适应卷积核沿水平和垂直方向展开成2个一维卷积核<K1_v(x,y),K1_h(x,y)>和<K2_v(x,y),K2_h(x,y)>,得到四个自适应一维卷积核,
步骤3.4.3,两个一维卷积核的卷积可近似一个二维卷积核:
K1(x,y)≈K1_h(x,y)*K1_v(x,y)
K2(x,y)≈K2_h(x,y)*K2_v(x,y) (8)
步骤3.4.4,由分离卷积模块得到的这两组一维核<k1_h,k1_v>和<k2_h,k2_v>作为图像预测模块的卷积核,两组卷积核先后对输入的当前帧I1和后一帧I2进行卷积操作,最后得到的两者相加作为输出结果,其为后一帧的补偿图像;
步骤3.5,由原始输入的当前帧图像P1(x,y)、第二帧图像P2(x,y)与自适应可分离卷积模块的输出的卷积核进行卷积操作得到图像预测模块得到的预测图像Igt:
Igt=k1_h(x,y)*k1_v(x,y)*P1(x,y)+k2_h(x,y)*k2_v(x,y)*P2(x,y) (9)
进一步地,步骤4的具体步骤分别为:
步骤4.1,将图像每个像素值除以255,使得每个像素介于[0,1]之间,得到处理后的图像;
步骤4.2,取归一化后的RGB图像,根据公式
Y=0.257R+0.564G+0.098B+16
得到Y通道图像。
进一步地,步骤5中残差网络分别包括初始卷积模块、残差卷积模块和图像重建模块;
进一步地,步骤5包括以下处理步骤:
步骤5.1,初始卷积阶段包含一个卷积层和激活层,通过学习得到底层特征F1;
其中W1和B1为初始卷积模块的权重和偏置参数,Frelu表示relu激活函数;
步骤5.2,每个残差卷积模块依次包含一个卷积层,一个非线性激活层,一个卷积层和一个特征结合层;特征结合层通过跳跃式连接将该层的输出特征Fk与该层后两层卷积层的输出特征Fk+2相加,并得到结合的特征Fk,k+2;
Fk=Wk(Frelu(Wk-1Fk-2+Bk-1)+Fk-2 (11)
Fk,k+2=Fk+Fk+2 (12)
FK-2是第k-2层卷积层的输出特征图,Frelu表示relu激活函数,Wk表示第k层卷积层权重,Wk-1和Bk-1表示第k-1层卷积模块的权重和偏置参数,Fk,k+2是特征层Fk和Fk+2得到的高层结合特征。
步骤5.3,利用得到的高层特征Fk,k+2执行图像重建层;
Fg=WM(Frelu(WM-1Fk,k+2+BM-1)+F1 (13)
F1是由(10)得到的底层特征,Frelu表示relu激活函数,Fk,k+2是通过(12)得到的高层结合特征,WM表示第M层卷积层权重,WM-1和BM-1表示第M-1层卷积模块的权重和偏置参数。进一步地,步骤6的总代价函数的计算包括以下步骤:
Num表示每一帧图像中的所有像素块的数目。
Num表示每一帧图像中的所有像素块的数目。
步骤6.3,将两个损失函数相加得到总体代价函数:
Total_loss=Mse_loss+Charbonnier_loss (16)。
本发明采用以上技术方案,通过一个自适应可分离卷积网络获取运动补偿帧的同时,再通过一个残差网络去除视频帧的压缩伪影,从而增强视频质量。本发明的一种基于自适应可分离卷积网络的模型的视频去压缩伪影方法,可以有效地去除压缩视频中的各种伪影,显著提高视频质量与视觉效果。
附图说明
以下结合附图和具体实施方式对本发明做进一步详细说明;
图1为本发明一种基于自适应可分离卷积的视频质量增强方法的原理结构示意图;
图2为本发明方法与现有技术MFQE在JCT-VC,HEVC标准测试序列中“vidyo3”的图像的去伪影效果比较图,根据最新的HEVC标准对测试视频进行压缩,设置质量系数QP为37。
具体实施方式
如图1-2之一所示,本发明提出了一种基于可分离卷积网络的视频增强方法。该网络由两部分组成:第一部分是一个可分离卷积网络,目的是获取运动补偿帧,第二个网络是一个残差网络,目的是去除视频帧的压缩伪影,从而增强视频质量。整体网络模型均采用Adam优化方式,除了可分离卷积模块中的4个子网络中使用大小为51的卷积核,其余所有卷积层均使用3*3大小的卷积核,其具体步骤如下:
步骤1,挑选高质量视频,形成视频数据库。训练数据图片共有7000余张。
步骤2,对视频数据库进行预处理,形成训练数据集。根据最新的HEVC标准,设定质量系数qp,使用ffmpeg命令对原始视频进行压缩,使得每一个高清视频都有相对应的具有压缩伪影的视频。接着再分别对高清视频和压缩视频进行抽帧,得到高清图像集和对应的压缩图像集。既然是去视频的压缩伪影,故而应该考虑帧间相似性。每次取压缩图像集中的前一张和后一张图像按d*d大小截取视频帧It c和It+1 c,同时在高清图像集中取对应的两张图像执行相同操作,得到视频帧It gt和It+1 gt,形成若干个视频帧的配对集{It c,It+1 c,It gt,It +1 gt}。随机打乱配对集中的视频帧顺序,得到网络模型的训练数据集。训练数据集共包含7000余张图片。
步骤3,利用可分离卷积网络,输入连续两张压缩的视频帧It c,It+1 c(分别表示当前帧和后一帧),得到后一帧It+1 c的预测结果It+1’ c。其中,可分离卷积神经网络包括五个编码模块,四个解码模块,一个分离卷积模块和一个图像预测模块。每个编码模块包括三个卷积层和一个平均池化层。卷积层的计算公式是:
其中xi,j表示图像的第i行第j列像素,wm,n表示滤波器的第m行第n列权重,wb表示滤波器的偏置项,ai,j表示得到的特征图的第i行第j列像素,用f表示激活函数relu。在编解码模块中设置卷积核的大小为3*3。
平均池化层的作用是对输出的特征图进行下采样,通过除去特征图中不重要的样本进一步减少参数量,在本发明中采用平均池化,也即取各样本的均值,池化操作不改变特征图数量,只将特征图的尺寸减小为原来的一半。
接着,编码模块的输出作为解码模块的输入,每个解码模块依次包含三个卷积层和一个双线性上采样层,有点像解码模块的逆过程,其中双线性上采样层的计算公式为:对于每张得到的特征图,在x方向进行线性插值,得到:
其中Q11=(x1,y1),Q12=(x1,y2),Q21=(x2,y1),Q22=(x2,y2)为已知的四个点,f双线性插值函数。随后,再对y方向进行线性插值:
这样可得到经过双线性插值后特征图的每个像素点的值,其中p=(x,y)为要预测的像素点。
卷积层的计算公式如前。
与此同时,还增加一个特征结合层,作为连接解码器和编码器的桥梁,以避免细节信息丢失。具体操作如下:分别将第2,3,4,5个编码模块的第三层卷积层与解码模块对应的第4,3,2,1个双线性上采样层通过跳跃式连接(skip connection)起来,将编码模块和解码模块的输出特征相加得到结合的特征FK。
分离卷积模块由四个子网络(sub-network)组成,其中每个子网络由三个卷积层和一个双线性上采样层构成,但此时,每个卷积层的二维卷积核都被两个一维卷积核取代,两个一维卷积核分别是该二维卷积核的水平和垂直表示,具体过程如下:由分离卷积模块得到的两组一维核<k1_h,k1_v>和<k2_h,k2_v>作为图像预测模块的卷积核,这两组卷积核分别对输入的当前帧I1和后一帧I2进行卷积操作,最后将得到的两者相加作为输出结果,也即对后一帧的预测图像,其具体操作如下所述:
最终的预测图像Igt可由原始输入的当前帧图像的像素P1(x,y)、第二帧图像的像素点P2(x,y)与网络分别对这两张图像学习到的卷积核做卷积操作得到:
Igt=K1(x,y)*P1(x,y)+K2(x,y)*P2(x,y) (5)
将用水平方向的一维卷积核与竖直方向的一维卷积核的卷积结果近似表示式(6)中的二维卷积核K1(x,y)和K2(x,y):
K1(x,y)=k1_h(x,y)*v1_v(x,y)
K2(x,y)=k2_h(x,y)*k2_v(x,y) (6)
可得到
Igt=k1_h(x,y)*k1_v(x,y)*P1(x,y)+k2_h(x,y)*k2_v(x,y)*P2(x,y) (7)
步骤4,对可分离卷积网络得到的预测帧It+1’ c与训练集中对应的该帧的原始压缩图像It+1 c和未压缩图像It+1 gt同时进行归一化和y通道处理,具体步骤分别为:
步骤4.1,将图像每个像素值除以255,使得每个像素介于[0,1]之间,得到处理后的图像;
步骤4.2,取归一化后的RGB图像,根据公式
Y=0.257R+0.564G+0.098B+16
得到Y通道图像。
步骤5,再利用残差网络模型,输入压缩的视频帧It+1 c和预测压缩视频帧It+1’ c,得到模型预测的图像It+1’ gt。其中,残差网络分别包括初始卷积模块、残差卷积模块和图像重建模块。每个残差卷积模块依次包含一个卷积层,一个非线性激活层,一个卷积层和一个特征结合层,特征结合层通过跳跃式连接将该层的输出特征Fk与该层后两层卷积层的输出特征Fk+2相加,并得到结合的特征Fk,k+2。
步骤5.1,初始卷积阶段包含一个卷积层和激活层,通过学习得到底层特征F1;
其中W1和B1为初始卷积模块的权重和偏置参数,Frelu表示relu激活函数;
步骤5.2,每个残差卷积模块依次包含一个卷积层,一个非线性激活层,一个卷积层和一个特征结合层;特征结合层通过跳跃式连接将该层的输出特征Fk与该层后两层卷积层的输出特征Fk+2相加,并得到结合的特征Fk,k+2;
Fk=Wk(Frelu(Wk-1Fk-2+Bk-1)+Fk-2 (9)
Fk,k+2=Fk+Fk+2 (10)
FK-2是第k-2层卷积层的输出特征图,Frelu表示relu激活函数,WK表示第K层卷积层权重,WK-1和BK-1表示第K-1层卷积模块的权重和偏置参数,Fk,k+2是特征层Fk和Fk+2得到的高层结合特征。
步骤5.3,利用得到的高层特征Fk,k+2执行图像重建层;
Fg=WM(Frelu(WM-1Fk,k+2+BM-1)+F1 (11)
F1是由(9)得到的底层特征,Frelu表示relu激活函数,Fk,k+2是通过(10)得到的高层结合特征,WM表示第M层卷积层权重,WM-1和BM-1表示第M-1层卷积模块的权重和偏置参数。
步骤6:计算总体代价函数;
步骤6.1,在可分离卷积网络中,比较后一帧的预测图像It+1’ c和后一帧原始图像It +1 c,计算两者之间的欧氏距离。
步骤6.2,在去视频帧压缩伪影网络中,将网络预测图像It+1’ gt与原始视频帧It+1 gt进行比较,计算Charbonnier惩罚函数。
步骤6.3,将两个损失函数相加得到总体代价函数。
Total_loss=Mse_loss+Charbonnier_loss (14)
步骤7:基于总体代价函数不断更新并优化获得最优的卷积权值参数和偏置参数直到获得最佳效果。
Seq. | AR-CNN[1] | DCAD[7] | DSCNN[2] | MFQE[4] | 本发明 |
1 | 0.13 | 0.14 | 0.48 | 0.77 | 2.56 |
2 | 0.07 | 0.04 | 0.42 | 0.60 | 2.25 |
3 | 0.11 | 0.11 | 0.24 | 0.47 | 2.51 |
4 | 0.13 | 0.08 | 0.32 | 0.44 | 1.37 |
5 | 0.19 | 0.23 | 0.33 | 0.55 | 1.00 |
6 | 0.15 | 0.16 | 0.37 | 0.60 | 1.32 |
7 | 0.14 | 0.18 | 0.28 | 0.39 | 1.20 |
8 | 0.13 | 0.19 | 0.28 | 0.48 | 1.34 |
9 | 0.16 | 0.22 | 0.27 | 0.39 | 1.46 |
10 | 0.15 | 0.20 | 0.25 | 0.40 | 1.80 |
Ave. | 0.14 | 0.16 | 0.32 | 0.51 | 1.68 |
表1本发明与现有技术对于QP=37时在各测试集上的结果比较
本发明采用以上技术方案,能够对视频在高度压缩中产生的伪影进行有效消除。本发明的创新性主要体现在两个方面:第一,用一维卷积核取代二维卷积核,使得网络训练模型参数减少,执行效率高。本发明运用了最新的深度学***方向和垂直方向的一维卷积核,通过这种方法,参数量由n2变为n+n,大大降低了计算代价,节约内存。第二,与大多数采用光流图对连续视频帧做运动补偿的方式不同,本发明利用网络对于不同输入学习出来的自适应变化的卷积核以实现运动矢量的估计。在光流图估计运动偏移的过程中,由于缺乏光流图(flow map)的真实值(ground-truth),这种方法常常导致运动补偿的不准确性。在本发明中,通过选取连续的两帧作为网络输入,对于每两张连续输入可以得到一对可分离的二维卷积核,而后该2维卷积核被展开成四个1维卷积核,得到的1维卷积核会随着输入的改变而改变,这大大提高了网络的自适应性,是一种data-drive(driven)的方式。本发明通过一个自适应可分离卷积网络获取运动补偿帧的同时,再通过一个残差网络去除视频帧的压缩伪影,从而增强视频质量。本发明的一种基于自适应可分离卷积网络的模型的视频去压缩伪影方法,可以有效地去除压缩视频中的各种伪影,显著提高视频质量与视觉效果。
本发明涉及的参考文献如下:
[1]Chao Dong,Yubin Deng,Chen Change Loy,Xiaoou Tang.CompressionArtifacts Reduction by a Deep Convolutional Network,in Proceedings ofInternational Conference on Computer Vision(ICCV),2015.
[2]Yang R,Xu M,Wang Z.Decoder-side HEVC quality enhancement withscalable convolutional neural network[C]//IEEE International Conference onMultimedia and Expo.IEEE,2017:817-822.
[3]Yang R,Xu M,Wang Z,et al.Enhancing Quality for HEVC CompressedVideos[J].2017.
[4]Yang R,Xu M,Wang Z,et al.Multi-Frame Quality Enhancement forCompressed Video[J].2018.
[5]Xiph.org,Xiph.org Video Test Media,https://media.xiph.org/video/derf/(2017).[6]VQEG,VQEG video datasets and organizations,https://www.its.bldrdoc.gov/vqeg/video-datasets-and-organizations.aspx
[7]Wang T,Chen M,Chao H.A Novel Deep Learning-Based Method ofImproving Coding Efficiency from the Decoder-End for HEVC[C]//DataCompression Conference.IEEE,2017.
Claims (8)
1.一种基于自适应可分离卷积的视频质量增强方法,其特征在于:采用***网络包括一自适应可分离卷积网络和一残差网络,自适应可分离卷积网络用于获取运动补偿帧,残差网络用于去除视频帧的压缩伪影;视频质量增强方法具体步骤如下:
步骤1,挑选高质量视频,形成视频数据库;
步骤7:基于总体代价函数不断更新并优化获得最优的卷积权值参数和偏置参数。
3.根据权利要求1所述的一种基于自适应可分离卷积的视频质量增强方法,其特征在于:可分离卷积神经网络包括五个编码模块、四个解码模块、一个分离卷积模块和一个图像预测模块。
4.根据权利要求3所述的一种基于自适应可分离卷积的视频质量增强方法,其特征在于:步骤3具体包括以下步骤:
步骤3.1,每个编码模块包括三个卷积层和一个平均池化层,
卷积层的计算公式是:
其中xi,j表示图像的第i行第j列像素,wm,n表示滤波器的第m行第n列权重,wb表示滤波器的偏置项,ai,j表示得到的特征图的第i行第j列像素,用f表示激活函数relu;
平均池化层的公式如下:
其中αi表示所取邻域内第i个像素点的值,归一化之后αi取值范围为0-1,N表示邻域内像素点的总个数;hm表示取该邻域内所有像素点做池化操作后的结果;
步骤3.2,每个解码模块依次包含三个卷积层和一个双线性上采样层,最后一个编码模块的输出作为第一个解码模块的输入,之后则是上一个解码模块的输出作为下一个解码模块的输入;解码模块的卷积层的计算公式与编码模块的卷积层的计算公式一样;
双线性上采样层的计算过程如下:
步骤3.2.1,对于每张得到的特征图,要想得到未知函数f在点p=(x,y)的值,首先在x方向进行线性插值,得到:
其中Q11=(x1,y1),Q12=(x1,y2),Q21=(x2,y1),Q22=(x2,y2)为已知的四个点,f为双线性插值函数;
步骤3.2.2,对y方向进行线性插值:
这样就可以得到所要的插值结果:
得到要预测的像素点p=(x,y)经过双线性插值函数f后特征图的中像素点的值,即f(x,y);
步骤3.3,在解码器和编码器之间增加跳跃式连接:分别将第2,3,4,5个编码模块的第三层卷积层与对应的第4,3,2,1个解码模块的双线性上采样层采取跳跃式连接,将编码模块和解码模块的输出特征相加得到结合的特征;
步骤3.4,可分离卷积模块包括四个子网络,其中每个子网络由三个卷积层和一个双线性上采样层构成;具体步骤如下:
步骤3.4.1,将步骤3.1-3.3的输出展开成两个自适应卷积核以分别对连续两帧输入进行卷积操作:
其中K1(x,y)和K2(x,y)分别表示基于可分离卷积模型预测出来的两个二维卷积核,P1(x,y)和P2(x,y)表示两连续输入帧的像素值,*表示卷积操作;
步骤3.4.2,将每个二维自适应卷积核分别沿水平和垂直方向展开成2个一维卷积核<K1_v(x,y),K1_h(x,y)>和<K2_v(x,y),K2_h(x,y)>,得到四个自适应一维卷积核,
步骤3.4.3,两个一维卷积核的卷积可近似一个二维卷积核:
K1(x,y)≈K1_h(x,y)*K1_v(x,y)
K2(x,y)≈K2_h(x,y)*K2_v(x,y) (8)
步骤3.4.4,由分离卷积模块得到的这两组一维核<k1_h,k1_v>和<k2_h,k2_v>作为图像预测模块的卷积核,两组卷积核先后对输入的当前帧I1和后一帧I2进行卷积操作,最后得到的两者相加作为输出结果,其为后一帧的补偿图像;
步骤3.5,根据上式(7)(8),由原始输入的当前帧图像P1(x,y)、第二帧图像P2(x,y)与自适应可分离卷积模块的输出的卷积核进行卷积操作得到图像预测模块得到的预测图像Igt:
Igt=k1_h(x,y)*k1_v(x,y)*P1(x,y)+k2_h(x,y)*k2_v(x,y)*P2(x,y) (9)
5.根据权利要求1所述的一种基于自适应可分离卷积的视频质量增强方法,其特征在于:步骤4的具体步骤分别为:
步骤4.1,将图像每个像素值除以255,使得每个像素介于[0,1]之间,得到处理后的图像;
步骤4.2,取归一化后的RGB图像,根据公式
Y=0.257R+0.564G+0.098B+16
得到Y通道图像。
6.根据权利要求1所述的一种基于自适应可分离卷积的视频质量增强方法,其特征在于:步骤5中残差网络分别包括初始卷积模块、残差卷积模块和图像重建模块。
7.根据权利要求6所述的一种基于自适应可分离卷积的视频质量增强方法,其特征在于:步骤5包括以下处理步骤:
步骤5.1,初始卷积阶段包含一个卷积层和激活层,通过学习得到底层特征F1;
步骤5.2,每个残差卷积模块依次包含一个卷积层,一个非线性激活层,一个卷积层和一个特征结合层;特征结合层的输出特征Fk与特征结合层的后两层卷积层的输出特征Fk+2通过跳跃式连接相加,并得到结合的特征Fk,k+2;
Fk=Wk(Frelu(Wk-1Fk-2+Bk-1)+Fk-2 (11)
Fk,k+2=Fk+Fk+2 (12)
Fk-2是第k-2层卷积层的输出特征图,Frelu表示relu激活函数,Wk表示第k层卷积层权重,Wk-1和Bk-1表示第k-1层卷积模块的权重和偏置参数,Fk,k+2是特征层Fk和Fk+2得到的高层结合特征;
步骤5.3,利用得到的高层特征Fk,k+2执行图像重建层;
Fg=WM(Frelu(WM-1Fk,k+2+BM-1)+F1 (13)
F1是由(9)得到的底层特征,Frelu表示relu激活函数,Fk,k+2是通过(12)得到的高层结合特征,WM表示第M层卷积层权重,WM-1和BM-1表示第M-1层卷积模块的权重和偏置参数。
8.根据权利要求1所述的一种基于自适应可分离卷积的视频质量增强方法,其特征在于:总代价函数的计算包括以下步骤:
num表示每一帧图像中的所有像素块的数目;
num表示每一帧图像中的所有像素块的数目,ε是为了保留图像边缘而使用的正则化项,基于经验设置ε为1E-3;
步骤6.3,将两个损失函数相加得到总体代价函数:
Total_loss=Mse_loss+Charbonnier_loss (16)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810603510.6A CN108900848B (zh) | 2018-06-12 | 2018-06-12 | 一种基于自适应可分离卷积的视频质量增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810603510.6A CN108900848B (zh) | 2018-06-12 | 2018-06-12 | 一种基于自适应可分离卷积的视频质量增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108900848A CN108900848A (zh) | 2018-11-27 |
CN108900848B true CN108900848B (zh) | 2021-03-02 |
Family
ID=64344922
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810603510.6A Active CN108900848B (zh) | 2018-06-12 | 2018-06-12 | 一种基于自适应可分离卷积的视频质量增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108900848B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109451308B (zh) * | 2018-11-29 | 2021-03-09 | 北京市商汤科技开发有限公司 | 视频压缩处理方法及装置、电子设备及存储介质 |
CN110677651A (zh) * | 2019-09-02 | 2020-01-10 | 合肥图鸭信息科技有限公司 | 一种视频压缩方法 |
CN110610467B (zh) * | 2019-09-11 | 2022-04-15 | 杭州当虹科技股份有限公司 | 一种基于深度学习的多帧视频去压缩噪声方法 |
CN113727141B (zh) * | 2020-05-20 | 2023-05-12 | 富士通株式会社 | 视频帧的插值装置以及方法 |
CN113761983B (zh) * | 2020-06-05 | 2023-08-22 | 杭州海康威视数字技术股份有限公司 | 更新人脸活体检测模型的方法、装置及图像采集设备 |
CN112257847A (zh) * | 2020-10-16 | 2021-01-22 | 昆明理工大学 | 一种基于CNN和LSTM预测地磁Kp指数的方法 |
RU2764395C1 (ru) | 2020-11-23 | 2022-01-17 | Самсунг Электроникс Ко., Лтд. | Способ и устройство для совместного выполнения дебайеризации и устранения шумов изображения с помощью нейронной сети |
CN112801266B (zh) * | 2020-12-24 | 2023-10-31 | 武汉旷视金智科技有限公司 | 神经网络构建方法、装置、设备及介质 |
CN115442613A (zh) * | 2021-06-02 | 2022-12-06 | 四川大学 | 一种利用gan的基于帧间信息的噪声去除方法 |
CN114339030B (zh) * | 2021-11-29 | 2024-04-02 | 北京工业大学 | 一种基于自适应可分离卷积的网络直播视频稳像方法 |
CN114820350A (zh) * | 2022-04-02 | 2022-07-29 | 北京广播电视台 | 逆色调映射***、方法及其神经网络*** |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103366389A (zh) * | 2013-04-27 | 2013-10-23 | 中国人民解放军北京军区总医院 | Ct图像重建方法 |
CN107871332A (zh) * | 2017-11-09 | 2018-04-03 | 南京邮电大学 | 一种基于残差学习的ct稀疏重建伪影校正方法及*** |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060062478A1 (en) * | 2004-08-16 | 2006-03-23 | Grandeye, Ltd., | Region-sensitive compression of digital video |
WO2016132151A1 (en) * | 2015-02-19 | 2016-08-25 | Magic Pony Technology Limited | Enhancing visual data using strided convolutions |
CN106131443A (zh) * | 2016-05-30 | 2016-11-16 | 南京大学 | 一种基于块匹配动态估计去鬼影的高动态范围视频合成方法 |
CN106791836A (zh) * | 2016-12-02 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于一对多网络的减少图像压缩效应的方法 |
CN106709875B (zh) * | 2016-12-30 | 2020-02-18 | 北京工业大学 | 一种基于联合深度网络的压缩低分辨率图像复原方法 |
CN107145846B (zh) * | 2017-04-26 | 2018-10-19 | 贵州电网有限责任公司输电运行检修分公司 | 一种基于深度学习的绝缘子识别方法 |
CN107392868A (zh) * | 2017-07-21 | 2017-11-24 | 深圳大学 | 基于全卷积神经网络的压缩双目图像质量增强方法及装置 |
CN107463989B (zh) * | 2017-07-25 | 2019-09-27 | 福建帝视信息科技有限公司 | 一种基于深度学习的图像去压缩伪影方法 |
CN107507148B (zh) * | 2017-08-30 | 2018-12-18 | 南方医科大学 | 基于卷积神经网络去除磁共振图像降采样伪影的方法 |
-
2018
- 2018-06-12 CN CN201810603510.6A patent/CN108900848B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103366389A (zh) * | 2013-04-27 | 2013-10-23 | 中国人民解放军北京军区总医院 | Ct图像重建方法 |
CN107871332A (zh) * | 2017-11-09 | 2018-04-03 | 南京邮电大学 | 一种基于残差学习的ct稀疏重建伪影校正方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN108900848A (zh) | 2018-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108900848B (zh) | 一种基于自适应可分离卷积的视频质量增强方法 | |
Zhang et al. | DMCNN: Dual-domain multi-scale convolutional neural network for compression artifacts removal | |
CN111866521A (zh) | 一种运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法 | |
Sun et al. | Reduction of JPEG compression artifacts based on DCT coefficients prediction | |
CN111047532B (zh) | 一种基于3d卷积神经网络的低照度视频增强方法 | |
Yu et al. | Quality enhancement network via multi-reconstruction recursive residual learning for video coding | |
CN111031315B (zh) | 基于注意力机制和时间依赖性的压缩视频质量增强方法 | |
CN113055674B (zh) | 一种基于两阶段多帧协同的压缩视频质量增强方法 | |
CN112218094A (zh) | 一种基于dct系数预测的jpeg图像去压缩效应方法 | |
CN112188217B (zh) | 结合dct域和像素域学习的jpeg压缩图像去压缩效应方法 | |
CN113810715B (zh) | 一种基于空洞卷积神经网络的视频压缩参考图像生成方法 | |
US20230110503A1 (en) | Method, an apparatus and a computer program product for video encoding and video decoding | |
CN112601095B (zh) | 一种视频亮度和色度分数插值模型的创建方法及*** | |
Ho et al. | SR-CL-DMC: P-frame coding with super-resolution, color learning, and deep motion compensation | |
CN113822801B (zh) | 基于多分支卷积神经网络的压缩视频超分辨率重建方法 | |
CN115243044A (zh) | 参考帧选择方法及装置、设备、存储介质 | |
WO2022211657A9 (en) | Configurable positions for auxiliary information input into a picture data processing neural network | |
EP4272437A1 (en) | Independent positioning of auxiliary information in neural network based picture processing | |
Jia et al. | Deep convolutional network based image quality enhancement for low bit rate image compression | |
Mishra et al. | Edge-aware image compression using deep learning-based super-resolution network | |
CN114862687B (zh) | 深度去块算子驱动的自适应压缩图像复原方法 | |
CN112243132A (zh) | 结合非局部先验与注意力机制的压缩视频后处理方法 | |
CN114071166B (zh) | 一种结合qp检测的hevc压缩视频质量提升方法 | |
Zhao et al. | BoostNet: A Structured Deep Recursive Network to Boost Image Deblocking | |
CN117061748A (zh) | 一种基于卷积神经网络的视频编码优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: 350000 Unit 01, 16th Floor, TB # Office Building, Phase III, CR MIXC, Hongshanyuan Road, Hongshan Town, Gulou District, Fuzhou City, Fujian Province Patentee after: Fujian Deshi Technology Group Co.,Ltd. Address before: 350000 area B, 5th floor, building 2, Yunzuo, 528 Xihong Road, Gulou District, Fuzhou City, Fujian Province Patentee before: FUJIAN IMPERIAL VISION INFORMATION TECHNOLOGY CO.,LTD. |