CN110958417A - 一种基于语音线索的视频通话类视频去除压缩噪声的方法 - Google Patents

一种基于语音线索的视频通话类视频去除压缩噪声的方法 Download PDF

Info

Publication number
CN110958417A
CN110958417A CN201911294549.5A CN201911294549A CN110958417A CN 110958417 A CN110958417 A CN 110958417A CN 201911294549 A CN201911294549 A CN 201911294549A CN 110958417 A CN110958417 A CN 110958417A
Authority
CN
China
Prior art keywords
video
image
voice
compression noise
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911294549.5A
Other languages
English (en)
Other versions
CN110958417B (zh
Inventor
贲晛烨
翟鑫亮
李玉军
魏文辉
王丹凤
任家畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201911294549.5A priority Critical patent/CN110958417B/zh
Publication of CN110958417A publication Critical patent/CN110958417A/zh
Application granted granted Critical
Publication of CN110958417B publication Critical patent/CN110958417B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/21Circuitry for suppressing or minimising disturbance, e.g. moiré or halo

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明涉及一种基于语音线索的视频通话类视频去除压缩噪声的方法,包括:A、构建数据集和数据预处理;B、建立基于语音线索的视频压缩噪声去除模型:构建语音特征编码器模型、带有语音线索的生成式视频压缩噪声去除模型、图像真实性判别器、视频连续性判别器;构造整体损失函数以进行后续模型优化;C、训练基于语音线索的视频压缩噪声去除模型;D、测试基于语音线索的视频压缩噪声去除模型的去噪效果,根据训练好的去噪模型,将低码率低质量的视频通话类视频及对应语音信号输入到模型当中,输出去除了压缩噪声高质量视频。本发明将语音信号作为视频通话类视频去压缩噪声重要线索,得到更好的视频恢复效果。

Description

一种基于语音线索的视频通话类视频去除压缩噪声的方法
技术领域
本发明涉及一种基于语音线索的视频通话类视频去除压缩噪声的方法,属于视频恢复和视频增强技术领域。
背景技术
视频压缩噪声是指由于数据压缩技术对原始视频进行有损压缩而产生的模糊效应、振铃效应、色块效应等影响用户观感体验的噪声。目前常见的数据压缩方法有JPEG,WebP和HEVC-MSP等,这类方法使用不精确的近似表示来编码数据以达到节省传输带宽和空间存储的目的。为了在使用了压缩技术的情况下提高视频的质量,保证用户体验,研究人员们针对压缩噪声的去除进行了很多研究工作。然而,对于视频通话这类特殊的视频压缩噪音的去除工作却没有,而且对于自然视频和图像的恢复效果也有待提高。
视频通话类视频指日常生活中人们通过手机和电脑上的摄像头,进行一对一、一对多或者多对多的远程聊天视频,视频中往往只出现人的正面头部或者上半身。这类视频不单单来源于日常视频通话,如微信视频通话、QQ视频通话、FaceTime视频通话等等,还来源于现在非常流行的网络直播行业。这些视频通话和网络直播所产生的流量十分巨大,传输和存储都需要消耗大量成本,而采取压缩技术虽然节省了传输和存储成本,但会严重影响人们的视频通话或者网络直播的实时体验。目前,对于压缩噪声的去除工作主要集中在针对单帧图像或者自然视频,并没有将视频通话类视频做专门研究。而这类视频往往具有比自然视频更多的先验信息,因为人类讲话和人脸变化尤其是嘴部的运动具有极强的相关性。所以,将语音作为线索对视频通话类视频进行去噪和增强在理论上是完全可行且有必要的。
基于深度卷积神经网络(DCNN)的去除压缩噪声模型是将低质量的视频或者图像作为输入,端到端式地输出对应的高质量的视频或者图像。深度卷积神经网络,是多层感知器的正规化版本。它是由一个输入层和一个输出层以及多个隐藏层组成。每层隐藏层通常包括卷积操作和激活操作,可以表示为σ(w*x+b),其中*表示卷积操作,w、x和b分别表示该层卷积核参数、该层输出和该层的偏置项,σ(·)表示激活函数。在优化阶段,深度卷积神经网络通常通过反向传播来优化每层的参数。随着视频通话和网络直播的发展,人们对视频质量的要求越来越高,而现有的基于深度神经网络的视频增强恢复技术忽视了语音的作用。所以,如何借助语音线索,去除视频通话类视频中的压缩噪声成为了一个亟待解决的问题。尤其是在带宽严重不足和存储空间非常有限的严峻情况下保证用户的体验,那么借助语音线索进行视频增强至关重要。
发明内容
针对现有技术的缺失和不足,本发明提供了一种基于语音线索的视频通话类视频去除压缩噪声的方法。
发明概述:
一种基于语音线索的视频通话类视频去除压缩噪声的方法,包括构建数据集和数据预处理、建立基于语音线索的视频压缩噪声去除模型、训练基于语音线索的视频压缩噪声去除模型和测试基于语音线索的视频压缩噪声去除模型的去噪效果四个部分。
为了训练通用的去噪模型,要进行数据采集和预处理,将采集到的人的讲话视频进行裁剪和有损压缩等操作建立数据集。为了将语音信息引入作为视频恢复的先验知识,建立基于语音线索的视频通话类视频去除压缩噪声的生成式模型。为了求解优化模型的未知参数,对模型进行迭代交替训练。
术语解释:
1、GAN,是指Generative Adversarial Network,即生成对抗网络。GAN是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。它至少包含两个模块:生成器(Generator)和判别器(Discriminator)。二者的相互对抗学习会产生越来越接近真实分布的输出。原始GAN理论中,并不要求生成器和判别器都是神经网络,只需要是能拟合相应生成和判别的函数即可。
2、MFCC,是指Mel-scale Frequency Cepstral Coefficients,即梅尔倒谱系数,也称作梅尔频率倒谱系数。MFCC是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性。它衍生自音讯片段的倒频谱,梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的,它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉***。这样的非线性表示,可以对声音信号有更好的表达,通常作为语音信息的特征表达。
3、H.264,是国际标准化组织(ISO)和国际电信联盟(ITU)共同提出的继MPEG4之后的新一代数字视频压缩算法,是以H.26x系列为名称命名的视频编解码技术标准之一。H.264是现在所有视频压缩技术中使用最广泛、最流行的视频压缩算法算法。
4、低码率视频,是指视频码率(单位时间传送的数据位数)较低且影响人观看体验的视频,一般视频码率的单位是kbps即千位每秒。码率越高,视频质量越好,码率越低则视频质量越差。例如,本发明实施实例2中所采用的低码率视频的码率为90kbps,这已经严重影响用户的视觉体验,视频质量极差。
5、高质量图像,是指基本不存在或者只存在较少色块效应(blockingartifacts)、模糊(Blurring)和振铃效应(Ringing effect)等噪声影响的图像,一般指未经过有损压缩或者压缩程度较小的图像。
6、非同步更新法则,是指在GAN训练时,生成器和判别器的更新不是同步进行的,而是先更新判别器多次,得到较好的判别器后再更新一次生成器。
本发明的技术方案如下:
一种基于语音线索的视频通话类视频去除压缩噪声的方法,包括步骤如下:
A、构建数据集和数据预处理
1)搜集包含人的头部的讲话视频,构建视频通话类视频数据集;
2)对步骤1)搜集的人的头部的讲话视频即原始视频依次进行压缩、分帧,对所述原始视频中的语音信号进行特征提取,构建训练集和测试集;
B、建立基于语音线索的视频压缩噪声去除模型
基于语音线索的视频压缩噪声去除模型包括语音特征编码器模型、图像特征编码器、生成器网络模型、图像真实性判别器及视频连续性判别器;语音特征编码器模型用来编码语音特征;图像特征编码器用来编码图像特征;生成器网络模型是将语音特特征和图像特征作为输入并经过生成操作得到所恢复的高质量图像;图像真实性判别器的输出和视频连续性判别器的输出作为优化语音特征编码器模型、图像特征编码器和生成器网络模型的两个指标;包括步骤如下:
3)构建语音特征编码器模型;
4)构建生成器网络模型;
5)构建图像真实性判别器;
6)构建视频连续性判别器;
7)构造整体损失函数以进行后续模型优化;
C、训练基于语音线索的视频压缩噪声去除模型
8)建立基于语音线索的视频压缩噪声去除模型的迭代优化策略,以更好地优化基于语音线索的视频压缩噪声去除模型参数;
D、测试基于语音线索的视频压缩噪声去除模型的去噪效果
根据训练好的基于语音线索的视频压缩噪声去除模型,将低码率、低质量的视频通话类视频及对应语音信号输入到基于语音线索的视频压缩噪声去除模型当中,输出去除了压缩噪声的高质量的视频。
本发明对视频通话类视频压缩噪声的去除包括二个部分,其中第一部分将低码率视频的语音信号进行MFCC特征提取;第二部分将第一部分提取的语音特征和低码率低质量视频一起输入到训练好的带有语音线索的生成式视频压缩噪声去除模型,完成消除压缩噪声的任务,达到视频增强和视频恢复的目的,提升用户体验。
根据本发明所优选的,所述步骤A,构建数据集和数据预处理,视频通话类视频数据集即原始视频
Figure BDA0002320147790000041
包括从互联网上挑选并下载了大量包含人的头部的讲话视频,设定共N段,即
Figure BDA0002320147790000042
Vi表示第i段视频,包括步骤如下:
a、读取N段视频,提取出语音信号,并将语音信号标准化为相同频率的单声道语音文件;
b、对步骤a得到的处理后的单声道语音文件进行MFCC特征提取,每个单声道语音文件的每个采样区间提取到m维MFCC特征,每个单声道语音文件对应提取到一个n列m行的MFCC特征矩阵A,
Figure BDA0002320147790000043
n是指每个单声道语音文件的采样区间个数,m是指每个采样区间计算得到的MFCC特征的维数;
c、读取N段视频,采用H.264视频压缩算法对每段视频进行压缩,得到N段低码率低质量的视频,构成集合
Figure BDA0002320147790000044
Figure BDA0002320147790000045
表示第i段视频低码率低质量的视频;
d、将原始视频
Figure BDA0002320147790000046
和上述步骤c得到的低码率低质量的视频
Figure BDA0002320147790000047
分别进行分帧处理,每一段视频被分成多帧图像保存在一个文件夹当中。
根据本发明所优选的,所述步骤B,建立基于语音线索的视频压缩噪声去除模型,包括:
e、经过步骤b得到MFCC特征后,将视频的第t帧图像所对应的长度为L的MFCC特征片段
Figure BDA0002320147790000048
进行语音特征编码,公式如下:
Figure BDA0002320147790000049
式(Ⅰ)中,
Figure BDA00023201477900000410
表示第t帧图像对应的MFCC特征,
Figure BDA00023201477900000411
滞后长度为L,at指MFCC特征矩阵A的第t个列向量;faudio(·)表示语音特征编码器模型,是由长短期记忆网络(Long Short-Term Memory,LSTM)和一系列神经网络的全连接层和反卷积层构成。
Figure BDA00023201477900000412
表示输出C1个大小为W×H的特征图矩阵;所述语音特征编码器模型包括依次连接的LSTM、全连接层、变形层、第一转置卷积层、第一泄漏修正线性单元、第二转置卷积层、第二泄漏修正线性单元,语音特征编码器模型中,MFCC特征先经过LSTM进行时序特征提取后,再经过全连接层(Fully Connected Layer,FC)和变形层(Reshape Layer,Reshape)规范特征图尺寸,第一转置卷积层(Transposing Convolutional Layer,ConvTrans)、第一泄漏修正线性单元的激活函数(Leaky Rectified Linear Unit,LeakyRelu)、第二转置卷积层(Transposing Convolutional Layer,ConvTrans)、第二泄漏修正线性单元的激活函数(Leaky Rectified Linear Unit,LeakyRelu)进一步学习语音特征;
f、将低码率低质量视频的第t帧图像
Figure BDA0002320147790000051
以及其前、后两帧图像
Figure BDA0002320147790000052
Figure BDA0002320147790000053
在通道的维度拼接在一起,然后通过图像编码器得到C2张大小为W×H的特征图
Figure BDA0002320147790000054
公式如下:
Figure BDA0002320147790000055
式(Ⅱ)中,
Figure BDA0002320147790000056
fimage(·)表示由两个卷积层(ConvolutionalLayer)构成的图像编码器;这两个卷积层用于初步提取图像浅层特征,并都以LeakyRelu作为激活函数;
g、将步骤e和步骤f得到的两种特征
Figure BDA0002320147790000057
Figure BDA0002320147790000058
送入生成器网络模型G,生成器网络模型G包括依次连接的第一二维卷积层、第三泄漏修正线性单元、5个残差模块、第二二维卷积层、第四泄漏修正线性单元、像素打散层、第三二维卷积层,生成器网络模型先将两种特征
Figure BDA0002320147790000059
Figure BDA00023201477900000510
在通道的维度拼接在一起,将得到的总的特征图xt
Figure BDA00023201477900000511
先送入第一二维卷积层(Conv2d),经过第三泄漏修正线性单元的激活函数(LeakyRelu)激活后,再由5个残差模块(ResBlock)进行卷积处理,然后经过第二二维卷积层(Conv2d)、第四泄漏修正线性单元的激活函数(LeakyRelu)、像素打散层(Pixel Shuffle Layer)和第三二维卷积层(Conv2d)后,得到去掉压缩噪音后的第t帧图像
Figure BDA00023201477900000512
公式表示如下:
Figure BDA00023201477900000513
h、从步骤d得到的每个视频的图像序列中随机抽取高质量图像Ihigh,将步骤g得到的第t帧图像
Figure BDA00023201477900000514
与高质量图像Ihigh一同输入到由一系列二维卷积和激活操作构成的图像真实性判别器Dimage当中,用来判别输入的图像是来自高质量图像Ihigh还是步骤g所生成的图像;图像真实性判别器由5层二维卷积层构成,激活函数采用LeakyRelu,最后一层采用一个平均池化(Average Pooling)操作将输出规整为一个标量,以表示真假;公式表示如下:
y=Dimage(xin) (Ⅳ)
式(Ⅳ)中,xin表示图像真实性判别器Dimage的输入图像,
Figure BDA00023201477900000515
是图像真实性判别器的输出;
i、从步骤d得到的每个视频的图像序列中随机抽取连续三帧高质量图像序列
Figure BDA00023201477900000516
将步骤g得到的连续三帧生成图像序列
Figure BDA00023201477900000517
与连续三帧高质量图像序列
Figure BDA0002320147790000061
一同输入到由一系列三维卷积和激活操作构成的视频连续性判别器Dvideo当中,用来判别输入的三帧短视频是来自真实的高清视频还是步骤g所生成的视频;视频连续性判别器由8层三维卷积层构成,激活函数采用LeakyRelu,最后一层采用一个平均池化(Average Pooling)操作将输出规整为一个标量,以表示真假,公式表示如下:
Figure BDA0002320147790000062
式(V)中,
Figure BDA0002320147790000063
表示视频连续性判别器Dvideo的输入视频,
Figure BDA0002320147790000064
是视频连续性判别器Dvideo的输出;
j、将步骤g得到的生成图像
Figure BDA0002320147790000065
和与其对应的真实的高清图像
Figure BDA0002320147790000066
之间计算像素级别差异的l1范数,公式如下:
Figure BDA0002320147790000067
式(Ⅵ)中,T表示一个批次中生成图像的帧数,||·||1表示l1范数即每个像素点之间差的绝对值的平均,
Figure BDA0002320147790000068
表示像素级别的损失;
k、将步骤h、步骤i和步骤j得到的损失结合起来,得到总的优化目标函数即整体损失函数,公式如下:
Figure BDA0002320147790000069
式(Ⅶ)中,
Figure BDA00023201477900000610
表示对中括号内的变量取均值,α、β、γ、η、λ表示权重因子;
根据本发明所优选的,所述步骤C,训练基于语音线索的视频压缩噪声去除模型,包括如下步骤:
l、根据步骤k所得到的整体损失函数,随机初始化模型参数,即:分别设置带有语音线索的生成式视频压缩噪声去除模型G、图像真实性判别器Dimage和视频连续性判别器Dvideo的学习率为lr1、lr2和lr3,分别设置带有语音线索的生成式视频压缩噪声去除模型G、图像真实性判别器Dimage和视频连续性判别器Dvideo的优化器为Optimizer1、Optimizer2和Optimizer3,设置迭代次数为M;
m、根据步骤k所得到的整体损失函数和根据l所设置的模型参数,带有语音线索的生成式视频压缩噪声去除模型G、图像真实性判别器Dimage和视频连续性判别器Dvideo采用非同步更新法则,图像真实性判别器Dimage和视频连续性判别器Dvideo每更新k次,带有语音线索的生成式视频压缩噪声去除模型G更新1次。
根据本发明所优选的,所述步骤D,测试基于语音线索的视频压缩噪声去除模型的去噪效果,包括如下步骤:
n、根据步骤C得到的训练好的基于语音线索的视频压缩噪声去除模型,将测试视频或者实际待去噪视频及其对应的语音特征MFCC输入到训练好的基于语音线索的视频压缩噪声去除模型当中,输出去噪后的增强的高质量视频,如果是测试视频,计算SSIM指标以定量衡量视频恢复的效果,公式如下:
Figure BDA0002320147790000071
式(Ⅷ)中,SSIM全称为Structural Similarity,即结构相似性,用来衡量经过基于语音线索的视频压缩噪声去除模型去噪后的视频Vx与其真实高清视频Vy的相似性,其中F表示视频包含的帧数,S表示每张图像中所截取滑窗的个数,
Figure BDA0002320147790000072
表示去噪后的视频Vx的第i帧图像的第j个滑窗内像素值的均值,
Figure BDA0002320147790000073
表示真实高清视频Vy的第i帧图像的第j个滑窗内像素值的均值,
Figure BDA0002320147790000074
表示去噪后的视频Vx的第i帧图像的第j个滑窗内像素值的方差,
Figure BDA0002320147790000075
表示真实高清视频Vy的第i帧图像的第j个滑窗内像素值的方差,
Figure BDA0002320147790000076
表示去噪后的视频Vx和真实高清视频Vy在第i帧图像的第j个滑窗内像素值的协方差,c1和c2是两个常数,避免产生除零异常。
本发明的有益效果为:
1、本发明将人讲话的语音信号作为视频通话类视频去压缩噪声的重要线索,能够将语音和人脸变化特别是嘴型变化联系起来,得到更好的视频恢复效果。
2、本发明设计了语音编码器,能够很好地将语音特征和图像特征融合在一起,共同作为视频去噪的先验知识。
3、本发明设计了生成式的恢复网络,不仅构建了图片真实性判别器保证恢复单张图片的真实性,而且还构建了视频连续性判别器来保持恢复视频的连续性,这使得恢复的视频更自然更符合人类视觉体验。
附图说明:
图1为本发明基于语音线索的视频通话类视频去除压缩噪声的方法的整体流程图;
图2为本发明语音特征编码器模型内部结构图;
图3为本发明带有生成器网络模型内部结构图;
图4为本发明图像真实性判别器的内部实现结构图;
图5为本发明视频连续性判别器的内部实现结构图;
图6为本发明基于语音线索的视频压缩噪声去除模型的组成框图;
图7(a)为固定码率为90kbps的低码率低质量视频片段示意图;
图7(b)为本发明一种基于语音线索的视频通话类视频去除压缩噪声的生成式方法对图7(a)的去噪结果展示图;
图7(c)为图7(a)对应的真实的高码率高质量视频片段示意图。
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例1
一种基于语音线索的视频通话类视频去除压缩噪声的方法,如图1所示,包括步骤如下:
A、构建数据集和数据预处理
1)搜集包含人的头部的讲话视频,构建视频通话类视频数据集;
2)对步骤1)搜集的人的头部的讲话视频即原始视频依次进行压缩、分帧,对所述原始视频中的语音信号进行特征提取,构建训练集和测试集;
B、建立基于语音线索的视频压缩噪声去除模型
如图6所示,基于语音线索的视频压缩噪声去除模型包括语音特征编码器模型、图像特征编码器、生成器网络模型、图像真实性判别器及视频连续性判别器;语音特征编码器模型用来编码语音特征;图像特征编码器用来编码图像特征;生成器网络模型是将语音特特征和图像特征作为输入并经过生成操作得到所恢复的高质量图像;图像真实性判别器的输出和视频连续性判别器的输出作为优化语音特征编码器模型、图像特征编码器和生成器网络模型的两个指标;包括步骤如下:
3)构建语音特征编码器模型;
4)构建生成器网络模型;
5)构建图像真实性判别器;
6)构建视频连续性判别器;
7)构造整体损失函数以进行后续模型优化;
C、训练基于语音线索的视频压缩噪声去除模型
8)建立基于语音线索的视频压缩噪声去除模型的迭代优化策略,以更好地优化基于语音线索的视频压缩噪声去除模型参数;
D、测试基于语音线索的视频压缩噪声去除模型的去噪效果
根据训练好的基于语音线索的视频压缩噪声去除模型,将低码率、低质量的视频通话类视频及对应语音信号输入到基于语音线索的视频压缩噪声去除模型当中,如图1所示虚线框内流程所示,输出去除了压缩噪声的高质量的视频。
本发明对视频通话类视频压缩噪声的去除包括二个部分,其中第一部分将低码率视频的语音信号进行MFCC特征提取;第二部分将第一部分提取的语音特征和低码率低质量视频一起输入到训练好的带有语音线索的生成式视频压缩噪声去除模型,完成消除压缩噪声的任务,达到视频增强和视频恢复的目的,提升用户体验。
实施例2
根据实施例1所述的一种基于语音线索的视频通话类视频去除压缩噪声的方法,其区别在于:
步骤A,构建数据集和数据预处理,视频通话类视频数据集即原始视频
Figure BDA0002320147790000091
包括从互联网上挑选并下载了大量包含人的头部的讲话视频,设定共N段,即
Figure BDA0002320147790000092
Vi表示第i段视频,包括步骤如下:
a、读取N段视频,提取出语音信号,并将语音信号标准化为相同频率的单声道语音文件;
b、对步骤a得到的处理后的单声道语音文件进行MFCC特征提取,每个单声道语音文件的每个采样区间提取到m维MFCC特征,每个单声道语音文件对应提取到一个n列m行的MFCC特征矩阵A,
Figure BDA0002320147790000093
n是指每个单声道语音文件的采样区间个数,m是指每个采样区间计算得到的MFCC特征的维数;
c、读取N段视频,采用H.264视频压缩算法对每段视频进行压缩,得到N段低码率低质量的视频,构成集合
Figure BDA0002320147790000094
Figure BDA0002320147790000095
表示第i段视频低码率低质量的视频;
d、将原始视频
Figure BDA0002320147790000096
和上述步骤c得到的低码率低质量的视频
Figure BDA0002320147790000097
分别进行分帧处理,每一段视频被分成多帧图像保存在一个文件夹当中。
步骤B,建立基于语音线索的视频压缩噪声去除模型,包括:
e、经过步骤b得到MFCC特征后,将视频的第t帧图像所对应的长度为L的MFCC特征片段
Figure BDA0002320147790000098
进行语音特征编码,公式如下:
Figure BDA0002320147790000101
式(Ⅰ)中,
Figure BDA0002320147790000102
表示第t帧图像对应的MFCC特征,
Figure BDA0002320147790000103
滞后长度为L,at指MFCC特征矩阵A的第t个列向量;faudio(·)表示语音特征编码器模型,是由长短期记忆网络(Long Short-Term Memory,LSTM)和一系列神经网络的全连接层和反卷积层构成。
Figure BDA0002320147790000104
表示输出C1个大小为W×H的特征图矩阵;所述语音特征编码器模型包括依次连接的LSTM、全连接层、变形层、第一转置卷积层、第一泄漏修正线性单元、第二转置卷积层、第二泄漏修正线性单元,如图2所示的语音特征编码器模型中,MFCC特征先经过LSTM进行时序特征提取后,再经过全连接层(Fully Connected Layer,FC)和变形层(ReshapeLayer,Reshape)规范特征图尺寸,第一转置卷积层(Transposing Convolutional Layer,ConvTrans)、第一泄漏修正线性单元的激活函数(Leaky Rectified Linear Unit,LeakyRelu)、第二转置卷积层(Transposing Convolutional Layer,ConvTrans)、第二泄漏修正线性单元的激活函数(Leaky Rectified Linear Unit,LeakyRelu)进一步学习语音特征;
f、将低码率低质量视频的第t帧图像
Figure BDA0002320147790000105
以及其前、后两帧图像
Figure BDA0002320147790000106
Figure BDA0002320147790000107
在通道的维度拼接在一起,然后通过图像编码器得到C2张大小为W×H的特征图
Figure BDA0002320147790000108
公式如下:
Figure BDA0002320147790000109
式(Ⅱ)中,
Figure BDA00023201477900001010
fimage(·)表示由两个卷积层(ConvolutionalLayer)构成的图像编码器;这两个卷积层用于初步提取图像浅层特征,并都以LeakyRelu作为激活函数;
g、将步骤e和步骤f得到的两种特征
Figure BDA00023201477900001011
Figure BDA00023201477900001012
送入生成器网络模型G,生成器网络模型G包括依次连接的第一二维卷积层、第三泄漏修正线性单元、5个残差模块、第二二维卷积层、第四泄漏修正线性单元、像素打散层、第三二维卷积层,如图3所示生成器网络模型先将两种特征
Figure BDA00023201477900001013
Figure BDA00023201477900001014
在通道的维度拼接在一起,将得到的总的特征图xt
Figure BDA00023201477900001015
先送入第一二维卷积层(Conv2d),经过第三泄漏修正线性单元的激活函数(LeakyRelu)激活后,再由5个残差模块(ResBlock)进行卷积处理,然后经过第二二维卷积层(Conv2d)、第四泄漏修正线性单元的激活函数(LeakyRelu)、像素打散层(Pixel Shuffle Layer)和第三二维卷积层(Conv2d)后,得到去掉压缩噪音后的第t帧图像
Figure BDA00023201477900001016
公式表示如下:
Figure BDA00023201477900001017
h、从步骤d得到的每个视频的图像序列中随机抽取高质量图像Ihigh,将步骤g得到的第t帧图像
Figure BDA0002320147790000111
与高质量图像Ihigh一同输入到由一系列二维卷积和激活操作构成的图像真实性判别器Dimage当中,用来判别输入的图像是来自高质量图像Ihigh还是步骤g所生成的图像;如图4所示,图像真实性判别器由5层二维卷积层构成,激活函数采用LeakyRelu,最后一层采用一个平均池化(Average Pooling)操作将输出规整为一个标量,以表示真假;公式表示如下:
y=Dimage(xin) (Ⅳ)
式(Ⅳ)中,xin表示图像真实性判别器Dimage的输入图像,
Figure BDA00023201477900001113
是图像真实性判别器的输出;
i、从步骤d得到的每个视频的图像序列中随机抽取连续三帧高质量图像序列
Figure BDA0002320147790000112
将步骤g得到的连续三帧生成图像序列
Figure BDA0002320147790000113
与连续三帧高质量图像序列
Figure BDA0002320147790000114
一同输入到由一系列三维卷积和激活操作构成的视频连续性判别器Dvideo当中,用来判别输入的三帧短视频是来自真实的高清视频还是步骤g所生成的视频;如图5所示,视频连续性判别器由8层三维卷积层构成,激活函数采用LeakyRelu,最后一层采用一个平均池化(Average Pooling)操作将输出规整为一个标量,以表示真假,公式表示如下:
Figure BDA0002320147790000115
式(V)中,
Figure BDA0002320147790000116
表示视频连续性判别器Dvideo的输入视频,
Figure BDA0002320147790000117
是视频连续性判别器Dvideo的输出;
j、将步骤g得到的生成图像
Figure BDA0002320147790000118
和与其对应的真实的高清图像
Figure BDA0002320147790000119
之间计算像素级别差异的l1范数,公式如下:
Figure BDA00023201477900001110
式(Ⅵ)中,T表示一个批次中生成图像的帧数,||·||1表示l1范数即每个像素点之间差的绝对值的平均,
Figure BDA00023201477900001111
表示像素级别的损失;
k、将步骤h、步骤i和步骤j得到的损失结合起来,得到总的优化目标函数即整体损失函数,公式如下:
Figure BDA00023201477900001112
式(Ⅶ)中,
Figure BDA0002320147790000121
表示对中括号内的变量取均值,α、β、γ、η、λ表示权重因子;
步骤C,训练基于语音线索的视频压缩噪声去除模型,包括如下步骤:
l、根据步骤k所得到的整体损失函数,随机初始化模型参数,即:分别设置带有语音线索的生成式视频压缩噪声去除模型G、图像真实性判别器Dimage和视频连续性判别器Dvideo的学习率为lr1、lr2和lr3,分别设置带有语音线索的生成式视频压缩噪声去除模型G、图像真实性判别器Dimage和视频连续性判别器Dvideo的优化器为Optimizer1、Optimizer2和Optimizer3,设置迭代次数为M;
m、根据步骤k所得到的整体损失函数和根据l所设置的模型参数,带有语音线索的生成式视频压缩噪声去除模型G、图像真实性判别器Dimage和视频连续性判别器Dvideo采用非同步更新法则,图像真实性判别器Dimage和视频连续性判别器Dvideo每更新k次,带有语音线索的生成式视频压缩噪声去除模型G更新1次。
步骤D,测试基于语音线索的视频压缩噪声去除模型的去噪效果,包括如下步骤:
n、根据步骤C得到的训练好的基于语音线索的视频压缩噪声去除模型,将测试视频或者实际待去噪视频及其对应的语音特征MFCC输入到训练好的基于语音线索的视频压缩噪声去除模型当中,输出去噪后的增强的高质量视频,如果是测试视频,计算SSIM指标以定量衡量视频恢复的效果,公式如下:
Figure BDA0002320147790000122
式(Ⅷ)中,SSIM全称为Structural Similarity,即结构相似性,用来衡量经过基于语音线索的视频压缩噪声去除模型去噪后的视频Vx与其真实高清视频Vy的相似性,其中F表示视频包含的帧数,S表示每张图像中所截取滑窗的个数,
Figure BDA0002320147790000123
表示去噪后的视频Vx的第i帧图像的第j个滑窗内像素值的均值,
Figure BDA0002320147790000124
表示真实高清视频Vy的第i帧图像的第j个滑窗内像素值的均值,
Figure BDA0002320147790000125
表示去噪后的视频Vx的第i帧图像的第j个滑窗内像素值的方差,
Figure BDA0002320147790000126
表示真实高清视频Vy的第i帧图像的第j个滑窗内像素值的方差,
Figure BDA0002320147790000127
表示去噪后的视频Vx和真实高清视频Vy在第i帧图像的第j个滑窗内像素值的协方差,c1和c2是两个常数,避免产生除零异常。
图7(a)为固定码率为90kbps的低码率低质量视频片段示意图;图7(b)为本发明一种基于语音线索的视频通话类视频去除压缩噪声的生成式方法对图7(a)的去噪结果展示图;图7(c)为图7(a)对应的真实的高码率高质量视频片段示意图。
从图7(b)可以看出,本发明的方法可以很好的消除压缩噪音的影响。去噪后的输出视频在视觉体验上比附图7(a)所展示的原始视频有明显提升,并且图像锐度较高,没有模糊效果。
与附图7(c)所展示的真实的高清视频对比,本发明的方法保留了原始视频的图像真实性和视频连续性。通过计算SSIM指标,得到将原始高清视频压缩到码率为90kbps的视频与原始高清视频的SSIM指标为0.7395,本发明去噪后的视频与原始视频的SSIM指标为0.7645,说明本发明能够明显改善原始低码率视频的质量,提升用户体验。

Claims (5)

1.一种基于语音线索的视频通话类视频去除压缩噪声的方法,其特征在于,包括步骤如下:
A、构建数据集和数据预处理
1)搜集包含人的头部的讲话视频,构建视频通话类视频数据集;
2)对步骤1)搜集的人的头部的讲话视频即原始视频依次进行压缩、分帧,对所述原始视频中的语音信号进行特征提取,构建训练集和测试集;
B、建立基于语音线索的视频压缩噪声去除模型
基于语音线索的视频压缩噪声去除模型包括语音特征编码器模型、图像特征编码器、生成器网络模型、图像真实性判别器及视频连续性判别器;语音特征编码器模型用来编码语音特征;图像特征编码器用来编码图像特征;生成器网络模型是将语音特特征和图像特征作为输入并经过生成操作得到所恢复的高质量图像;图像真实性判别器的输出和视频连续性判别器的输出作为优化语音特征编码器模型、图像特征编码器和生成器网络模型的两个指标;包括步骤如下:
3)构建语音特征编码器模型;
4)构建生成器网络模型;
5)构建图像真实性判别器;
6)构建视频连续性判别器;
7)构造整体损失函数以进行后续模型优化;
C、训练基于语音线索的视频压缩噪声去除模型
8)建立基于语音线索的视频压缩噪声去除模型的迭代优化策略,以更好地优化基于语音线索的视频压缩噪声去除模型参数;
D、测试基于语音线索的视频压缩噪声去除模型的去噪效果
根据训练好的基于语音线索的视频压缩噪声去除模型,将低码率、低质量的视频通话类视频及对应语音信号输入到基于语音线索的视频压缩噪声去除模型当中,输出去除了压缩噪声的高质量的视频。
2.根据权利要求1所述的一种基于语音线索的视频通话类视频去除压缩噪声的方法,其特征在于,所述步骤A,构建数据集和数据预处理,视频通话类视频数据集即原始视频
Figure FDA0002320147780000011
包括从互联网上挑选并下载了大量包含人的头部的讲话视频,设定共N段,即
Figure FDA0002320147780000012
Vi表示第i段视频,包括步骤如下:
a、读取N段视频,提取出语音信号,并将语音信号标准化为相同频率的单声道语音文件;
b、对步骤a得到的处理后的单声道语音文件进行MFCC特征提取,每个单声道语音文件的每个采样区间提取到m维MFCC特征,每个单声道语音文件对应提取到一个n列m行的MFCC特征矩阵A,
Figure FDA0002320147780000021
n是指每个单声道语音文件的采样区间个数,m是指每个采样区间计算得到的MFCC特征的维数;
c、读取N段视频,采用H.264视频压缩算法对每段视频进行压缩,得到N段低码率低质量的视频,构成集合
Figure FDA0002320147780000022
Vi low表示第i段视频低码率低质量的视频;
d、将原始视频
Figure FDA0002320147780000023
和上述步骤c得到的低码率低质量的视频
Figure FDA0002320147780000024
分别进行分帧处理,每一段视频被分成多帧图像保存在一个文件夹当中。
3.根据权利要求2所述的一种基于语音线索的视频通话类视频去除压缩噪声的方法,其特征在于,所述步骤B,建立基于语音线索的视频压缩噪声去除模型,包括:
e、经过步骤b得到MFCC特征后,将视频的第t帧图像所对应的长度为L的MFCC特征片段
Figure FDA0002320147780000025
进行语音特征编码,公式如下:
Figure FDA0002320147780000026
式(Ⅰ)中,
Figure FDA0002320147780000027
表示第t帧图像对应的MFCC特征,
Figure FDA0002320147780000028
滞后长度为L,at指MFCC特征矩阵A的第t个列向量;faudio(·)表示语音特征编码器模型,
Figure FDA0002320147780000029
表示输出C1个大小为W×H的特征图矩阵;所述语音特征编码器模型包括依次连接的LSTM、全连接层、变形层、第一转置卷积层、第一泄漏修正线性单元、第二转置卷积层、第二泄漏修正线性单元,语音特征编码器模型中,MFCC特征先经过LSTM进行时序特征提取后,再经过全连接层和变形层规范特征图尺寸,第一转置卷积层、第一泄漏修正线性单元的激活函数、第二转置卷积层、第二泄漏修正线性单元的激活函数进一步学习语音特征;
f、将低码率低质量视频的第t帧图像
Figure FDA00023201477800000210
以及其前、后两帧图像
Figure FDA00023201477800000211
Figure FDA00023201477800000212
在通道的维度拼接在一起,然后通过图像编码器得到C2张大小为W×H的特征图
Figure FDA00023201477800000213
公式如下:
Figure FDA00023201477800000214
式(Ⅱ)中,
Figure FDA00023201477800000215
fimage(·)表示由两个卷积层构成的图像编码器;
g、将步骤e和步骤f得到的两种特征
Figure FDA00023201477800000216
Figure FDA00023201477800000217
送入生成器网络模型G,生成器网络模型G包括依次连接的第一二维卷积层、第三泄漏修正线性单元、5个残差模块、第二二维卷积层、第四泄漏修正线性单元、像素打散层、第三二维卷积层,生成器网络模型先将两种特征
Figure FDA0002320147780000031
Figure FDA0002320147780000032
在通道的维度拼接在一起,将得到的总的特征图xt
Figure FDA0002320147780000033
先送入第一二维卷积层,经过第三泄漏修正线性单元的激活函数激活后,再由5个残差模块进行卷积处理,然后经过第二二维卷积层、第四泄漏修正线性单元的激活函数、像素打散层和第三二维卷积层后,得到去掉压缩噪音后的第t帧图像
Figure FDA0002320147780000034
公式表示如下:
Figure FDA0002320147780000035
h、从步骤d得到的每个视频的图像序列中随机抽取高质量图像Ihigh,将步骤g得到的第t帧图像
Figure FDA0002320147780000036
与高质量图像Ihigh一同输入到由一系列二维卷积和激活操作构成的图像真实性判别器Dimage当中,用来判别输入的图像是来自高质量图像Ihigh还是步骤g所生成的图像;图像真实性判别器由5层二维卷积层构成,激活函数采用LeakyRelu,最后一层采用一个平均池化操作将输出规整为一个标量,以表示真假;公式表示如下:
y=Dimage(xin) (Ⅳ)
式(Ⅳ)中,xin表示图像真实性判别器Dimage的输入图像,
Figure FDA0002320147780000037
是图像真实性判别器的输出;
i、从步骤d得到的每个视频的图像序列中随机抽取连续三帧高质量图像序列
Figure FDA0002320147780000038
将步骤g得到的连续三帧生成图像序列
Figure FDA0002320147780000039
与连续三帧高质量图像序列
Figure FDA00023201477800000310
一同输入到由一系列三维卷积和激活操作构成的视频连续性判别器Dvideo当中,用来判别输入的三帧短视频是来自真实的高清视频还是步骤g所生成的视频;视频连续性判别器由8层三维卷积层构成,激活函数采用LeakyRelu,最后一层采用一个平均池化操作将输出规整为一个标量,以表示真假,公式表示如下:
Figure FDA00023201477800000311
式(V)中,
Figure FDA00023201477800000312
表示视频连续性判别器Dvideo的输入视频,
Figure FDA00023201477800000313
是视频连续性判别器Dvideo的输出;
j、将步骤g得到的生成图像
Figure FDA00023201477800000314
和与其对应的真实的高清图像
Figure FDA00023201477800000315
之间计算像素级别差异的l1范数,公式如下:
Figure FDA00023201477800000316
式(Ⅵ)中,T表示一个批次中生成图像的帧数,||·||1表示l1范数即每个像素点之间差的绝对值的平均,
Figure FDA0002320147780000041
表示像素级别的损失;
k、将步骤h、步骤i和步骤j得到的损失结合起来,得到总的优化目标函数即整体损失函数,公式如下:
Figure FDA0002320147780000042
式(Ⅶ)中,
Figure FDA0002320147780000043
表示对中括号内的变量取均值,α、β、γ、η、λ表示权重因子。
4.根据权利要求3所述的一种基于语音线索的视频通话类视频去除压缩噪声的方法,其特征在于,所述步骤C,训练基于语音线索的视频压缩噪声去除模型,包括如下步骤:
l、根据步骤k所得到的整体损失函数,随机初始化模型参数,即:分别设置带有语音线索的生成式视频压缩噪声去除模型G、图像真实性判别器Dimage和视频连续性判别器Dvideo的学习率为lr1、lr2和lr3,分别设置带有语音线索的生成式视频压缩噪声去除模型G、图像真实性判别器Dimage和视频连续性判别器Dvideo的优化器为Optimizer1、Optimizer2和Optimizer3,设置迭代次数为M;
m、根据步骤k所得到的整体损失函数和根据l所设置的模型参数,带有语音线索的生成式视频压缩噪声去除模型G、图像真实性判别器Dimage和视频连续性判别器Dvideo采用非同步更新法则,图像真实性判别器Dimage和视频连续性判别器Dvideo每更新k次,带有语音线索的生成式视频压缩噪声去除模型G更新1次。
5.根据权利要求1-4任一所述的一种基于语音线索的视频通话类视频去除压缩噪声的方法,其特征在于,所述步骤D,测试基于语音线索的视频压缩噪声去除模型的去噪效果,包括如下步骤:
n、根据步骤C得到的训练好的基于语音线索的视频压缩噪声去除模型,将测试视频或者实际待去噪视频及其对应的语音特征MFCC输入到训练好的基于语音线索的视频压缩噪声去除模型当中,输出去噪后的增强的高质量视频,如果是测试视频,计算SSIM指标以定量衡量视频恢复的效果,公式如下:
Figure FDA0002320147780000044
式(Ⅷ)中,SSIM全称为Structural Similarity,即结构相似性,用来衡量经过基于语音线索的视频压缩噪声去除模型去噪后的视频Vx与其真实高清视频Vy的相似性,其中F表示视频包含的帧数,S表示每张图像中所截取滑窗的个数,
Figure FDA0002320147780000051
表示去噪后的视频Vx的第i帧图像的第j个滑窗内像素值的均值,
Figure FDA0002320147780000052
表示真实高清视频Vy的第i帧图像的第j个滑窗内像素值的均值,
Figure FDA0002320147780000053
表示去噪后的视频Vx的第i帧图像的第j个滑窗内像素值的方差,
Figure FDA0002320147780000054
表示真实高清视频Vy的第i帧图像的第j个滑窗内像素值的方差,
Figure FDA0002320147780000055
表示去噪后的视频Vx和真实高清视频Vy在第i帧图像的第j个滑窗内像素值的协方差,c1和c2是两个常数,避免产生除零异常。
CN201911294549.5A 2019-12-16 2019-12-16 一种基于语音线索的视频通话类视频去除压缩噪声的方法 Active CN110958417B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911294549.5A CN110958417B (zh) 2019-12-16 2019-12-16 一种基于语音线索的视频通话类视频去除压缩噪声的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911294549.5A CN110958417B (zh) 2019-12-16 2019-12-16 一种基于语音线索的视频通话类视频去除压缩噪声的方法

Publications (2)

Publication Number Publication Date
CN110958417A true CN110958417A (zh) 2020-04-03
CN110958417B CN110958417B (zh) 2020-12-08

Family

ID=69981850

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911294549.5A Active CN110958417B (zh) 2019-12-16 2019-12-16 一种基于语音线索的视频通话类视频去除压缩噪声的方法

Country Status (1)

Country Link
CN (1) CN110958417B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116074577A (zh) * 2022-12-23 2023-05-05 北京生数科技有限公司 视频处理方法、相关装置及存储介质
CN118101988A (zh) * 2024-04-26 2024-05-28 荣耀终端有限公司 一种视频处理方法、***及电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103281526A (zh) * 2011-12-15 2013-09-04 弗莱克斯电子有限责任公司 网络图像/视频处理***
US20140362159A1 (en) * 2013-06-07 2014-12-11 Apple Inc. Adaptive post-processing for mobile video calling system
CN104766289A (zh) * 2015-03-20 2015-07-08 华南理工大学 一种图像去噪和压缩处理方法
CN105745931A (zh) * 2013-11-24 2016-07-06 Lg电子株式会社 使用自适应采样编码和解码视频信号的方法和装置
CN106899820A (zh) * 2015-12-17 2017-06-27 中国电信股份有限公司 用于视频通话过程中实时去噪的方法、装置和终端设备
CN109102462A (zh) * 2018-08-01 2018-12-28 中国计量大学 一种基于深度学习的视频超分辨率重建方法
CN110097512A (zh) * 2019-04-16 2019-08-06 四川大学 基于Wasserstein生成对抗网络的三维MRI图像去噪模型的构建方法及应用
CN110111251A (zh) * 2019-04-22 2019-08-09 电子科技大学 一种结合深度监督自编码和感知迭代反投影的图像超分辨率重建方法
CN110458189A (zh) * 2019-06-29 2019-11-15 天津大学 压缩感知和深度卷积神经网络电能质量扰动分类方法
CN110458784A (zh) * 2019-08-31 2019-11-15 杭州当虹科技股份有限公司 一种基于图像感知质量的去压缩噪声方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103281526A (zh) * 2011-12-15 2013-09-04 弗莱克斯电子有限责任公司 网络图像/视频处理***
US20140362159A1 (en) * 2013-06-07 2014-12-11 Apple Inc. Adaptive post-processing for mobile video calling system
CN105745931A (zh) * 2013-11-24 2016-07-06 Lg电子株式会社 使用自适应采样编码和解码视频信号的方法和装置
CN104766289A (zh) * 2015-03-20 2015-07-08 华南理工大学 一种图像去噪和压缩处理方法
CN106899820A (zh) * 2015-12-17 2017-06-27 中国电信股份有限公司 用于视频通话过程中实时去噪的方法、装置和终端设备
CN109102462A (zh) * 2018-08-01 2018-12-28 中国计量大学 一种基于深度学习的视频超分辨率重建方法
CN110097512A (zh) * 2019-04-16 2019-08-06 四川大学 基于Wasserstein生成对抗网络的三维MRI图像去噪模型的构建方法及应用
CN110111251A (zh) * 2019-04-22 2019-08-09 电子科技大学 一种结合深度监督自编码和感知迭代反投影的图像超分辨率重建方法
CN110458189A (zh) * 2019-06-29 2019-11-15 天津大学 压缩感知和深度卷积神经网络电能质量扰动分类方法
CN110458784A (zh) * 2019-08-31 2019-11-15 杭州当虹科技股份有限公司 一种基于图像感知质量的去压缩噪声方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
KONSTANTINOS VOUGIOUKAS, STAVROS PETRIDIS, AND MAJA PANTIC: "End-to-End Speech-Driven Facial Animation with Temporal GANs", 《ELECTRICAL ENGINEERING AND SYSTEMS SCIENCE》 *
YEHUDA DAR, ALFRED M. BRUCKSTEIN, MICHAEL ELAD, FELLOW, IEEE, AN: "Postprocessing of Compressed Images via", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 *
刘世豪,李军: "基于改进的深度卷积神经网络的单图像超分辨率重建", 《青岛大学学报》 *
徐忠强,朱秀昌: "基于噪声分布特性的压缩视频超分辨率重建", 《电子与信息学报》 *
李浩,鲍鸿,张晶: "基于深度神经网络的说话人识别模型研究", 《电脑与信息技术》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116074577A (zh) * 2022-12-23 2023-05-05 北京生数科技有限公司 视频处理方法、相关装置及存储介质
CN116074577B (zh) * 2022-12-23 2023-09-26 北京生数科技有限公司 视频处理方法、相关装置及存储介质
CN118101988A (zh) * 2024-04-26 2024-05-28 荣耀终端有限公司 一种视频处理方法、***及电子设备

Also Published As

Publication number Publication date
CN110958417B (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
Zhou et al. Vision-infused deep audio inpainting
CN104966517B (zh) 一种音频信号增强方法和装置
US10375534B2 (en) Video transmission and sharing over ultra-low bitrate wireless communication channel
CN112151030B (zh) 一种基于多模态的复杂场景语音识别方法和装置
CN109785847B (zh) 基于动态残差网络的音频压缩算法
JP7405989B2 (ja) マシン向け映像符号化における方法及び装置
CN113077470B (zh) 一种横竖屏转换画面的裁剪方法、***、装置及介质
CN112381040B (zh) 一种基于语音和人脸图像的跨模态生成方法
CN110958417B (zh) 一种基于语音线索的视频通话类视频去除压缩噪声的方法
CN111862934A (zh) 语音合成模型的改进方法和语音合成方法及装置
CN116939320B (zh) 一种生成式多模态互利增强视频语义通信方法
CN116233445B (zh) 视频的编解码处理方法、装置、计算机设备和存储介质
CN117911588A (zh) 虚拟对象脸部驱动及模型训练方法、装置、设备和介质
CN117478886A (zh) 多媒体数据编码方法、装置、电子设备及存储介质
CN115052147B (zh) 基于生成模型的人体视频压缩方法、***
CN115690238A (zh) 图像生成及模型训练方法、装置、设备和存储介质
CN113936680B (zh) 基于多尺度信息感知卷积神经网络的单通道语音增强方法
CN113593587B (zh) 语音分离方法及装置、存储介质、电子装置
Srikotr et al. Vector quantization of speech spectrum based on the vq-vae embedding space learning by gan technique
CN109040116B (zh) 一种基于云端服务器的视频会议***
CN115798497B (zh) 一种时延估计***及装置
CN113888515B (zh) 基于深度学习和人类视觉特性的双通道立体图像质量评价方法
CN115457985B (zh) 基于卷积神经网络的可视化音频隐写方法
CN115880737B (zh) 一种基于降噪自学习的字幕生成方法、***、设备及介质
CN113688694B (zh) 基于非配对学习的提升视频清晰度的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant