CN110958417A

CN110958417A - 一种基于语音线索的视频通话类视频去除压缩噪声的方法

Info

Publication number: CN110958417A
Application number: CN201911294549.5A
Authority: CN
Inventors: 贲晛烨; 翟鑫亮; 李玉军; 魏文辉; 王丹凤; 任家畅
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2020-04-03
Anticipated expiration: 2039-12-16
Also published as: CN110958417B

Abstract

本发明涉及一种基于语音线索的视频通话类视频去除压缩噪声的方法，包括：A、构建数据集和数据预处理；B、建立基于语音线索的视频压缩噪声去除模型：构建语音特征编码器模型、带有语音线索的生成式视频压缩噪声去除模型、图像真实性判别器、视频连续性判别器；构造整体损失函数以进行后续模型优化；C、训练基于语音线索的视频压缩噪声去除模型；D、测试基于语音线索的视频压缩噪声去除模型的去噪效果，根据训练好的去噪模型，将低码率低质量的视频通话类视频及对应语音信号输入到模型当中，输出去除了压缩噪声高质量视频。本发明将语音信号作为视频通话类视频去压缩噪声重要线索，得到更好的视频恢复效果。

Description

一种基于语音线索的视频通话类视频去除压缩噪声的方法

技术领域

本发明涉及一种基于语音线索的视频通话类视频去除压缩噪声的方法，属于视频恢复和视频增强技术领域。

背景技术

视频压缩噪声是指由于数据压缩技术对原始视频进行有损压缩而产生的模糊效应、振铃效应、色块效应等影响用户观感体验的噪声。目前常见的数据压缩方法有JPEG，WebP和HEVC-MSP等，这类方法使用不精确的近似表示来编码数据以达到节省传输带宽和空间存储的目的。为了在使用了压缩技术的情况下提高视频的质量，保证用户体验，研究人员们针对压缩噪声的去除进行了很多研究工作。然而，对于视频通话这类特殊的视频压缩噪音的去除工作却没有，而且对于自然视频和图像的恢复效果也有待提高。

视频通话类视频指日常生活中人们通过手机和电脑上的摄像头，进行一对一、一对多或者多对多的远程聊天视频，视频中往往只出现人的正面头部或者上半身。这类视频不单单来源于日常视频通话，如微信视频通话、QQ视频通话、FaceTime视频通话等等，还来源于现在非常流行的网络直播行业。这些视频通话和网络直播所产生的流量十分巨大，传输和存储都需要消耗大量成本，而采取压缩技术虽然节省了传输和存储成本，但会严重影响人们的视频通话或者网络直播的实时体验。目前，对于压缩噪声的去除工作主要集中在针对单帧图像或者自然视频，并没有将视频通话类视频做专门研究。而这类视频往往具有比自然视频更多的先验信息，因为人类讲话和人脸变化尤其是嘴部的运动具有极强的相关性。所以，将语音作为线索对视频通话类视频进行去噪和增强在理论上是完全可行且有必要的。

基于深度卷积神经网络(DCNN)的去除压缩噪声模型是将低质量的视频或者图像作为输入，端到端式地输出对应的高质量的视频或者图像。深度卷积神经网络，是多层感知器的正规化版本。它是由一个输入层和一个输出层以及多个隐藏层组成。每层隐藏层通常包括卷积操作和激活操作，可以表示为σ(w*x+b)，其中*表示卷积操作，w、x和b分别表示该层卷积核参数、该层输出和该层的偏置项，σ(·)表示激活函数。在优化阶段，深度卷积神经网络通常通过反向传播来优化每层的参数。随着视频通话和网络直播的发展，人们对视频质量的要求越来越高，而现有的基于深度神经网络的视频增强恢复技术忽视了语音的作用。所以，如何借助语音线索，去除视频通话类视频中的压缩噪声成为了一个亟待解决的问题。尤其是在带宽严重不足和存储空间非常有限的严峻情况下保证用户的体验，那么借助语音线索进行视频增强至关重要。

发明内容

针对现有技术的缺失和不足，本发明提供了一种基于语音线索的视频通话类视频去除压缩噪声的方法。

发明概述：

一种基于语音线索的视频通话类视频去除压缩噪声的方法，包括构建数据集和数据预处理、建立基于语音线索的视频压缩噪声去除模型、训练基于语音线索的视频压缩噪声去除模型和测试基于语音线索的视频压缩噪声去除模型的去噪效果四个部分。

为了训练通用的去噪模型，要进行数据采集和预处理，将采集到的人的讲话视频进行裁剪和有损压缩等操作建立数据集。为了将语音信息引入作为视频恢复的先验知识，建立基于语音线索的视频通话类视频去除压缩噪声的生成式模型。为了求解优化模型的未知参数，对模型进行迭代交替训练。

术语解释：

1、GAN，是指Generative Adversarial Network，即生成对抗网络。GAN是一种深度学习模型，是近年来复杂分布上无监督学习最具前景的方法之一。它至少包含两个模块：生成器(Generator)和判别器(Discriminator)。二者的相互对抗学习会产生越来越接近真实分布的输出。原始GAN理论中，并不要求生成器和判别器都是神经网络，只需要是能拟合相应生成和判别的函数即可。

2、MFCC，是指Mel-scale Frequency Cepstral Coefficients，即梅尔倒谱系数，也称作梅尔频率倒谱系数。MFCC是在Mel标度频率域提取出来的倒谱参数，Mel标度描述了人耳频率的非线性特性。它衍生自音讯片段的倒频谱，梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的，它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉***。这样的非线性表示，可以对声音信号有更好的表达，通常作为语音信息的特征表达。

3、H.264，是国际标准化组织(ISO)和国际电信联盟(ITU)共同提出的继MPEG4之后的新一代数字视频压缩算法，是以H.26x系列为名称命名的视频编解码技术标准之一。H.264是现在所有视频压缩技术中使用最广泛、最流行的视频压缩算法算法。

4、低码率视频，是指视频码率(单位时间传送的数据位数)较低且影响人观看体验的视频，一般视频码率的单位是kbps即千位每秒。码率越高，视频质量越好，码率越低则视频质量越差。例如，本发明实施实例2中所采用的低码率视频的码率为90kbps，这已经严重影响用户的视觉体验，视频质量极差。

5、高质量图像，是指基本不存在或者只存在较少色块效应(blockingartifacts)、模糊(Blurring)和振铃效应(Ringing effect)等噪声影响的图像，一般指未经过有损压缩或者压缩程度较小的图像。

6、非同步更新法则，是指在GAN训练时，生成器和判别器的更新不是同步进行的，而是先更新判别器多次，得到较好的判别器后再更新一次生成器。

本发明的技术方案如下：

一种基于语音线索的视频通话类视频去除压缩噪声的方法，包括步骤如下：

A、构建数据集和数据预处理

1)搜集包含人的头部的讲话视频，构建视频通话类视频数据集；

2)对步骤1)搜集的人的头部的讲话视频即原始视频依次进行压缩、分帧，对所述原始视频中的语音信号进行特征提取，构建训练集和测试集；

B、建立基于语音线索的视频压缩噪声去除模型

基于语音线索的视频压缩噪声去除模型包括语音特征编码器模型、图像特征编码器、生成器网络模型、图像真实性判别器及视频连续性判别器；语音特征编码器模型用来编码语音特征；图像特征编码器用来编码图像特征；生成器网络模型是将语音特特征和图像特征作为输入并经过生成操作得到所恢复的高质量图像；图像真实性判别器的输出和视频连续性判别器的输出作为优化语音特征编码器模型、图像特征编码器和生成器网络模型的两个指标；包括步骤如下：

3)构建语音特征编码器模型；

4)构建生成器网络模型；

5)构建图像真实性判别器；

6)构建视频连续性判别器；

7)构造整体损失函数以进行后续模型优化；

C、训练基于语音线索的视频压缩噪声去除模型

8)建立基于语音线索的视频压缩噪声去除模型的迭代优化策略，以更好地优化基于语音线索的视频压缩噪声去除模型参数；

D、测试基于语音线索的视频压缩噪声去除模型的去噪效果

根据训练好的基于语音线索的视频压缩噪声去除模型，将低码率、低质量的视频通话类视频及对应语音信号输入到基于语音线索的视频压缩噪声去除模型当中，输出去除了压缩噪声的高质量的视频。

本发明对视频通话类视频压缩噪声的去除包括二个部分，其中第一部分将低码率视频的语音信号进行MFCC特征提取；第二部分将第一部分提取的语音特征和低码率低质量视频一起输入到训练好的带有语音线索的生成式视频压缩噪声去除模型，完成消除压缩噪声的任务，达到视频增强和视频恢复的目的，提升用户体验。

根据本发明所优选的，所述步骤A，构建数据集和数据预处理，视频通话类视频数据集即原始视频

包括从互联网上挑选并下载了大量包含人的头部的讲话视频，设定共N段，即

V_i表示第i段视频，包括步骤如下：

a、读取N段视频，提取出语音信号，并将语音信号标准化为相同频率的单声道语音文件；

b、对步骤a得到的处理后的单声道语音文件进行MFCC特征提取，每个单声道语音文件的每个采样区间提取到m维MFCC特征，每个单声道语音文件对应提取到一个n列m行的MFCC特征矩阵A，

n是指每个单声道语音文件的采样区间个数，m是指每个采样区间计算得到的MFCC特征的维数；

c、读取N段视频，采用H.264视频压缩算法对每段视频进行压缩，得到N段低码率低质量的视频，构成集合

表示第i段视频低码率低质量的视频；

d、将原始视频

和上述步骤c得到的低码率低质量的视频

分别进行分帧处理，每一段视频被分成多帧图像保存在一个文件夹当中。

根据本发明所优选的，所述步骤B，建立基于语音线索的视频压缩噪声去除模型，包括：

e、经过步骤b得到MFCC特征后，将视频的第t帧图像所对应的长度为L的MFCC特征片段

进行语音特征编码，公式如下：

式(Ⅰ)中，

表示第t帧图像对应的MFCC特征，

滞后长度为L，a_t指MFCC特征矩阵A的第t个列向量；f_audio(·)表示语音特征编码器模型，是由长短期记忆网络(Long Short-Term Memory，LSTM)和一系列神经网络的全连接层和反卷积层构成。

表示输出C₁个大小为W×H的特征图矩阵；所述语音特征编码器模型包括依次连接的LSTM、全连接层、变形层、第一转置卷积层、第一泄漏修正线性单元、第二转置卷积层、第二泄漏修正线性单元，语音特征编码器模型中，MFCC特征先经过LSTM进行时序特征提取后，再经过全连接层(Fully Connected Layer，FC)和变形层(Reshape Layer，Reshape)规范特征图尺寸，第一转置卷积层(Transposing Convolutional Layer，ConvTrans)、第一泄漏修正线性单元的激活函数(Leaky Rectified Linear Unit，LeakyRelu)、第二转置卷积层(Transposing Convolutional Layer，ConvTrans)、第二泄漏修正线性单元的激活函数(Leaky Rectified Linear Unit，LeakyRelu)进一步学习语音特征；

f、将低码率低质量视频的第t帧图像

以及其前、后两帧图像

和

在通道的维度拼接在一起，然后通过图像编码器得到C₂张大小为W×H的特征图

公式如下：

式(Ⅱ)中，

f_image(·)表示由两个卷积层(ConvolutionalLayer)构成的图像编码器；这两个卷积层用于初步提取图像浅层特征，并都以LeakyRelu作为激活函数；

g、将步骤e和步骤f得到的两种特征

和

送入生成器网络模型G，生成器网络模型G包括依次连接的第一二维卷积层、第三泄漏修正线性单元、5个残差模块、第二二维卷积层、第四泄漏修正线性单元、像素打散层、第三二维卷积层，生成器网络模型先将两种特征

和

在通道的维度拼接在一起，将得到的总的特征图x_t，

先送入第一二维卷积层(Conv2d)，经过第三泄漏修正线性单元的激活函数(LeakyRelu)激活后，再由5个残差模块(ResBlock)进行卷积处理，然后经过第二二维卷积层(Conv2d)、第四泄漏修正线性单元的激活函数(LeakyRelu)、像素打散层(Pixel Shuffle Layer)和第三二维卷积层(Conv2d)后，得到去掉压缩噪音后的第t帧图像

公式表示如下：

h、从步骤d得到的每个视频的图像序列中随机抽取高质量图像I^high，将步骤g得到的第t帧图像

与高质量图像I^high一同输入到由一系列二维卷积和激活操作构成的图像真实性判别器D^image当中，用来判别输入的图像是来自高质量图像I^high还是步骤g所生成的图像；图像真实性判别器由5层二维卷积层构成，激活函数采用LeakyRelu，最后一层采用一个平均池化(Average Pooling)操作将输出规整为一个标量，以表示真假；公式表示如下：

y＝D^image(x_in) (Ⅳ)

式(Ⅳ)中，x_in表示图像真实性判别器D^image的输入图像，

是图像真实性判别器的输出；

i、从步骤d得到的每个视频的图像序列中随机抽取连续三帧高质量图像序列

将步骤g得到的连续三帧生成图像序列

与连续三帧高质量图像序列

一同输入到由一系列三维卷积和激活操作构成的视频连续性判别器D^video当中，用来判别输入的三帧短视频是来自真实的高清视频还是步骤g所生成的视频；视频连续性判别器由8层三维卷积层构成，激活函数采用LeakyRelu，最后一层采用一个平均池化(Average Pooling)操作将输出规整为一个标量，以表示真假，公式表示如下：

式(V)中，

表示视频连续性判别器D^video的输入视频，

是视频连续性判别器D^video的输出；

j、将步骤g得到的生成图像

和与其对应的真实的高清图像

之间计算像素级别差异的l₁范数，公式如下：

式(Ⅵ)中，T表示一个批次中生成图像的帧数，||·||₁表示l₁范数即每个像素点之间差的绝对值的平均，

表示像素级别的损失；

k、将步骤h、步骤i和步骤j得到的损失结合起来，得到总的优化目标函数即整体损失函数，公式如下：

式(Ⅶ)中，

表示对中括号内的变量取均值，α、β、γ、η、λ表示权重因子；

根据本发明所优选的，所述步骤C，训练基于语音线索的视频压缩噪声去除模型，包括如下步骤：

l、根据步骤k所得到的整体损失函数，随机初始化模型参数，即：分别设置带有语音线索的生成式视频压缩噪声去除模型G、图像真实性判别器D^image和视频连续性判别器D^video的学习率为lr₁、lr₂和lr₃，分别设置带有语音线索的生成式视频压缩噪声去除模型G、图像真实性判别器D^image和视频连续性判别器D^video的优化器为Optimizer1、Optimizer2和Optimizer3，设置迭代次数为M；

m、根据步骤k所得到的整体损失函数和根据l所设置的模型参数，带有语音线索的生成式视频压缩噪声去除模型G、图像真实性判别器D^image和视频连续性判别器D^video采用非同步更新法则，图像真实性判别器D^image和视频连续性判别器D^video每更新k次，带有语音线索的生成式视频压缩噪声去除模型G更新1次。

根据本发明所优选的，所述步骤D，测试基于语音线索的视频压缩噪声去除模型的去噪效果，包括如下步骤：

n、根据步骤C得到的训练好的基于语音线索的视频压缩噪声去除模型，将测试视频或者实际待去噪视频及其对应的语音特征MFCC输入到训练好的基于语音线索的视频压缩噪声去除模型当中，输出去噪后的增强的高质量视频，如果是测试视频，计算SSIM指标以定量衡量视频恢复的效果，公式如下：

式(Ⅷ)中，SSIM全称为Structural Similarity，即结构相似性，用来衡量经过基于语音线索的视频压缩噪声去除模型去噪后的视频V^x与其真实高清视频V^y的相似性，其中F表示视频包含的帧数，S表示每张图像中所截取滑窗的个数，

表示去噪后的视频V^x的第i帧图像的第j个滑窗内像素值的均值，

表示真实高清视频V^y的第i帧图像的第j个滑窗内像素值的均值，

表示去噪后的视频V^x的第i帧图像的第j个滑窗内像素值的方差，

表示真实高清视频V^y的第i帧图像的第j个滑窗内像素值的方差，

表示去噪后的视频V^x和真实高清视频V^y在第i帧图像的第j个滑窗内像素值的协方差，c₁和c₂是两个常数，避免产生除零异常。

本发明的有益效果为：

1、本发明将人讲话的语音信号作为视频通话类视频去压缩噪声的重要线索，能够将语音和人脸变化特别是嘴型变化联系起来，得到更好的视频恢复效果。

2、本发明设计了语音编码器，能够很好地将语音特征和图像特征融合在一起，共同作为视频去噪的先验知识。

3、本发明设计了生成式的恢复网络，不仅构建了图片真实性判别器保证恢复单张图片的真实性，而且还构建了视频连续性判别器来保持恢复视频的连续性，这使得恢复的视频更自然更符合人类视觉体验。

附图说明：

图1为本发明基于语音线索的视频通话类视频去除压缩噪声的方法的整体流程图；

图2为本发明语音特征编码器模型内部结构图；

图3为本发明带有生成器网络模型内部结构图；

图4为本发明图像真实性判别器的内部实现结构图；

图5为本发明视频连续性判别器的内部实现结构图；

图6为本发明基于语音线索的视频压缩噪声去除模型的组成框图；

图7(a)为固定码率为90kbps的低码率低质量视频片段示意图；

图7(b)为本发明一种基于语音线索的视频通话类视频去除压缩噪声的生成式方法对图7(a)的去噪结果展示图；

图7(c)为图7(a)对应的真实的高码率高质量视频片段示意图。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

一种基于语音线索的视频通话类视频去除压缩噪声的方法，如图1所示，包括步骤如下：

A、构建数据集和数据预处理

B、建立基于语音线索的视频压缩噪声去除模型

如图6所示，基于语音线索的视频压缩噪声去除模型包括语音特征编码器模型、图像特征编码器、生成器网络模型、图像真实性判别器及视频连续性判别器；语音特征编码器模型用来编码语音特征；图像特征编码器用来编码图像特征；生成器网络模型是将语音特特征和图像特征作为输入并经过生成操作得到所恢复的高质量图像；图像真实性判别器的输出和视频连续性判别器的输出作为优化语音特征编码器模型、图像特征编码器和生成器网络模型的两个指标；包括步骤如下：

3)构建语音特征编码器模型；

4)构建生成器网络模型；

5)构建图像真实性判别器；

6)构建视频连续性判别器；

7)构造整体损失函数以进行后续模型优化；

C、训练基于语音线索的视频压缩噪声去除模型

D、测试基于语音线索的视频压缩噪声去除模型的去噪效果

根据训练好的基于语音线索的视频压缩噪声去除模型，将低码率、低质量的视频通话类视频及对应语音信号输入到基于语音线索的视频压缩噪声去除模型当中，如图1所示虚线框内流程所示，输出去除了压缩噪声的高质量的视频。

实施例2

根据实施例1所述的一种基于语音线索的视频通话类视频去除压缩噪声的方法，其区别在于：

步骤A，构建数据集和数据预处理，视频通话类视频数据集即原始视频

V_i表示第i段视频，包括步骤如下：

表示第i段视频低码率低质量的视频；

d、将原始视频

和上述步骤c得到的低码率低质量的视频

步骤B，建立基于语音线索的视频压缩噪声去除模型，包括：

进行语音特征编码，公式如下：

式(Ⅰ)中，

表示第t帧图像对应的MFCC特征，

表示输出C₁个大小为W×H的特征图矩阵；所述语音特征编码器模型包括依次连接的LSTM、全连接层、变形层、第一转置卷积层、第一泄漏修正线性单元、第二转置卷积层、第二泄漏修正线性单元，如图2所示的语音特征编码器模型中，MFCC特征先经过LSTM进行时序特征提取后，再经过全连接层(Fully Connected Layer，FC)和变形层(ReshapeLayer，Reshape)规范特征图尺寸，第一转置卷积层(Transposing Convolutional Layer，ConvTrans)、第一泄漏修正线性单元的激活函数(Leaky Rectified Linear Unit，LeakyRelu)、第二转置卷积层(Transposing Convolutional Layer，ConvTrans)、第二泄漏修正线性单元的激活函数(Leaky Rectified Linear Unit，LeakyRelu)进一步学习语音特征；

f、将低码率低质量视频的第t帧图像

以及其前、后两帧图像

和

公式如下：

式(Ⅱ)中，

g、将步骤e和步骤f得到的两种特征

和

送入生成器网络模型G，生成器网络模型G包括依次连接的第一二维卷积层、第三泄漏修正线性单元、5个残差模块、第二二维卷积层、第四泄漏修正线性单元、像素打散层、第三二维卷积层，如图3所示生成器网络模型先将两种特征

和

在通道的维度拼接在一起，将得到的总的特征图x_t，

公式表示如下：

与高质量图像I^high一同输入到由一系列二维卷积和激活操作构成的图像真实性判别器D^image当中，用来判别输入的图像是来自高质量图像I^high还是步骤g所生成的图像；如图4所示，图像真实性判别器由5层二维卷积层构成，激活函数采用LeakyRelu，最后一层采用一个平均池化(Average Pooling)操作将输出规整为一个标量，以表示真假；公式表示如下：

y＝D^image(x_in) (Ⅳ)

式(Ⅳ)中，x_in表示图像真实性判别器D^image的输入图像，

是图像真实性判别器的输出；

将步骤g得到的连续三帧生成图像序列

与连续三帧高质量图像序列

一同输入到由一系列三维卷积和激活操作构成的视频连续性判别器D^video当中，用来判别输入的三帧短视频是来自真实的高清视频还是步骤g所生成的视频；如图5所示，视频连续性判别器由8层三维卷积层构成，激活函数采用LeakyRelu，最后一层采用一个平均池化(Average Pooling)操作将输出规整为一个标量，以表示真假，公式表示如下：

式(V)中，

表示视频连续性判别器D^video的输入视频，

是视频连续性判别器D^video的输出；

j、将步骤g得到的生成图像

和与其对应的真实的高清图像

之间计算像素级别差异的l₁范数，公式如下：

表示像素级别的损失；

式(Ⅶ)中，

步骤C，训练基于语音线索的视频压缩噪声去除模型，包括如下步骤：

步骤D，测试基于语音线索的视频压缩噪声去除模型的去噪效果，包括如下步骤：

图7(a)为固定码率为90kbps的低码率低质量视频片段示意图；图7(b)为本发明一种基于语音线索的视频通话类视频去除压缩噪声的生成式方法对图7(a)的去噪结果展示图；图7(c)为图7(a)对应的真实的高码率高质量视频片段示意图。

从图7(b)可以看出，本发明的方法可以很好的消除压缩噪音的影响。去噪后的输出视频在视觉体验上比附图7(a)所展示的原始视频有明显提升，并且图像锐度较高，没有模糊效果。

与附图7(c)所展示的真实的高清视频对比，本发明的方法保留了原始视频的图像真实性和视频连续性。通过计算SSIM指标，得到将原始高清视频压缩到码率为90kbps的视频与原始高清视频的SSIM指标为0.7395，本发明去噪后的视频与原始视频的SSIM指标为0.7645，说明本发明能够明显改善原始低码率视频的质量，提升用户体验。

Claims

1.一种基于语音线索的视频通话类视频去除压缩噪声的方法，其特征在于，包括步骤如下：

A、构建数据集和数据预处理

B、建立基于语音线索的视频压缩噪声去除模型

3)构建语音特征编码器模型；

4)构建生成器网络模型；

5)构建图像真实性判别器；

6)构建视频连续性判别器；

7)构造整体损失函数以进行后续模型优化；

C、训练基于语音线索的视频压缩噪声去除模型

D、测试基于语音线索的视频压缩噪声去除模型的去噪效果

2.根据权利要求1所述的一种基于语音线索的视频通话类视频去除压缩噪声的方法，其特征在于，所述步骤A，构建数据集和数据预处理，视频通话类视频数据集即原始视频

V_i表示第i段视频，包括步骤如下：

V_i ^low表示第i段视频低码率低质量的视频；

d、将原始视频

和上述步骤c得到的低码率低质量的视频

3.根据权利要求2所述的一种基于语音线索的视频通话类视频去除压缩噪声的方法，其特征在于，所述步骤B，建立基于语音线索的视频压缩噪声去除模型，包括：

进行语音特征编码，公式如下：

式(Ⅰ)中，

表示第t帧图像对应的MFCC特征，

滞后长度为L，a_t指MFCC特征矩阵A的第t个列向量；f_audio(·)表示语音特征编码器模型，

表示输出C₁个大小为W×H的特征图矩阵；所述语音特征编码器模型包括依次连接的LSTM、全连接层、变形层、第一转置卷积层、第一泄漏修正线性单元、第二转置卷积层、第二泄漏修正线性单元，语音特征编码器模型中，MFCC特征先经过LSTM进行时序特征提取后，再经过全连接层和变形层规范特征图尺寸，第一转置卷积层、第一泄漏修正线性单元的激活函数、第二转置卷积层、第二泄漏修正线性单元的激活函数进一步学习语音特征；

f、将低码率低质量视频的第t帧图像

以及其前、后两帧图像

和

公式如下：

式(Ⅱ)中，

f_image(·)表示由两个卷积层构成的图像编码器；

g、将步骤e和步骤f得到的两种特征

和

和

在通道的维度拼接在一起，将得到的总的特征图x_t，

先送入第一二维卷积层，经过第三泄漏修正线性单元的激活函数激活后，再由5个残差模块进行卷积处理，然后经过第二二维卷积层、第四泄漏修正线性单元的激活函数、像素打散层和第三二维卷积层后，得到去掉压缩噪音后的第t帧图像

公式表示如下：

与高质量图像I^high一同输入到由一系列二维卷积和激活操作构成的图像真实性判别器D^image当中，用来判别输入的图像是来自高质量图像I^high还是步骤g所生成的图像；图像真实性判别器由5层二维卷积层构成，激活函数采用LeakyRelu，最后一层采用一个平均池化操作将输出规整为一个标量，以表示真假；公式表示如下：

y＝D^image(x_in) (Ⅳ)

式(Ⅳ)中，x_in表示图像真实性判别器D^image的输入图像，