CN114885178A - 基于双向帧预测的极低码率人脸视频混合压缩方法及*** - Google Patents

基于双向帧预测的极低码率人脸视频混合压缩方法及*** Download PDF

Info

Publication number
CN114885178A
CN114885178A CN202210423557.0A CN202210423557A CN114885178A CN 114885178 A CN114885178 A CN 114885178A CN 202210423557 A CN202210423557 A CN 202210423557A CN 114885178 A CN114885178 A CN 114885178A
Authority
CN
China
Prior art keywords
key
key frame
frame
image
reconstructed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210423557.0A
Other languages
English (en)
Inventor
宋利
唐安妮
解蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202210423557.0A priority Critical patent/CN114885178A/zh
Publication of CN114885178A publication Critical patent/CN114885178A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/004Predictors, e.g. intraframe, interframe coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种针对人脸视频的双向帧预测方法,包括:在时域上采样人脸视频的三帧图像;获得所述三帧图像各自对应的关键点热力图;结合所述三帧图像和所述关键点热力图,重建出中间帧图像。本发明有助于合成时域上光滑流畅的视频,提升观者的主观体验;本发明还公开了基于上述方法的一种极低码率的人脸视频混合压缩方法,将传统编码技术能够进行像素级精确恢复的优势与深度学习技术能够基于简略信息进行高质量重建的优势相结合,达到了在极低码率下合成高质量人脸视频的目的。

Description

基于双向帧预测的极低码率人脸视频混合压缩方法及***
技术领域
本发明涉及人脸视频压缩领域,特别涉及一种基于双向帧预测的极低码率人脸视频混合压缩方法及***。
背景技术
视频通话是人们日常交流的常见途径,视频通话的使用场景日益增多。在网络质量较差的情况下,视频通话往往会被迫中断,严重影响使用者的通话体验。因此,如何在网络质量较差的情况下,实现稳定的超低码率视频通话是一个研究热点,对人脸视频压缩技术的研究变得日益重要。现有的人脸视频压缩方法可分为两大类:传统的编码方法和基于深度学习的方法。
传统的视频编码方法具有像素级精确恢复的优势,其中VVC是最先进的标准。与HEVC相比,VVC在保持相同视觉质量的同时节省了约50%的比特率。然而,以VVC为代表的这些传统方法并没有对视频内容进行区分,而是对所有视频进行了相同方式的压缩,尽管实际上人脸视频的压缩应该有更大的潜力。
深度学习具有基于简略信息的生成能力,因此在人脸视频压缩中具有很大的潜力。研究人员提出了一些基于深度学习的方法来实现人脸视频压缩。这些方法往往传输部分视频帧作为参考帧,再结合传输的人脸简略表征,采用深度学习的方法来合成完整的人脸视频帧,从而在大幅降低视频码流的同时,保证了视频画面的高质量重建。这些方法有的采用静态参考帧,导致在场景切换或大的姿态变换情况下难以保证良好的性能,无法实现高保真恢复;有的将合成帧加入参考帧池中,这容易造成错误积累,无法进行像素级的精确恢复,而这恰好是传统编码方法的强项。此外,现有的基于深度学习的人脸视频压缩方法大多难以实现比特率的动态调整,限制了其实用性。
发明内容
本发明提供一种针对人脸视频的双向帧预测方法及一种极低码率的人脸视频混合压缩方法及***。
根据本发明的第一方面,本发明提供一种针对人脸视频的双向帧预测方法,包括:
在时域上采样人脸视频的三帧图像;
获得所述三帧图像各自对应的关键点热力图;
结合所述三帧图像和所述关键点热力图,重建出中间帧图像。
优选地,所述在时域上采集人脸视频的三帧图像,包括:
采集头尾两帧为关键帧图像,表示为Fk1、Fk2;
用Fk1和Fk2预测间隔在两帧之间的中间帧,即非关键帧图像Ft;
所述获得所述三帧图像各自对应的关键点热力图,包括:
对于在两帧关键帧之间的非关键帧图像Ft,利用基于卷积神经网络的关键点提取器提取到的关键点坐标,生成关键点热力图Ht;
对于所述关键帧图像Fk1、Fk2,使用基于卷积神经网络的关键点提取器得到关键点热力图Hk1、Hk2;
结合所述三帧图像和所述关键点热力图,重建出中间帧图像,包括:
所述关键帧图像Fk1、所述关键帧图像Fk1的关键点热力图Hk1以及所述非关键帧图像Ft的关键点热力图Ht输入到基于卷积神经网络的稠密运动网络中,得到稠密光流 Tk1和遮挡图Ok1;
将所述关键帧图像Fk1、所述稠密光流Tk1和所述遮挡图Ok1输入到基于卷积神经网络的生成器中得到利用关键帧图像Fk1重建的非关键帧图像Ft1’;
所述关键帧图像Fk2、所述关键帧图像Fk2的关键点热力图Hk2以及所述非关键帧图像Ft的关键点热力图Ht输入到基于卷积神经网络的稠密运动网络中,得到稠密光流 Tk2和遮挡图Ok2;
将所述关键帧图像Fk2、所述稠密光流Tk2和所述遮挡图Ok2输入到基于卷积神经网络的生成器中得到利用关键帧图像Fk2重建的非关键帧图像Ft2’;
将非关键帧图像Ft的关键点热力图Ht、关键帧图像Fk1的关键点热力图Hk1和关键帧图像Fk2的关键点热力图Hk2输入到基于卷积神经网络的掩膜预测器得到人脸掩膜 Mt;
将人脸掩膜Mt加权作用于所述非关键帧重建图像Ft1’、Ft2’上,得到最终重建的的非关键帧重建图像Ft’。
优选地,所述关键点热力图Ht、Hk1和Hk2的获取,包括:
分别将所述非关键帧图像Ft和所述关键帧图像Fk1、Fk2作为基于卷积神经网络的关键点提取器的输入;
所述关键点提取器通过卷积神经网络提取输入图像的稀疏关键点信息,并生成所述输入图像对应的关键点热力图Ht、Hk1、Hk2。
优选地,所述将关键帧图像Fk1、所述稠密光流Tk1和所述遮挡图Ok1输入到基于卷积神经网络的生成器中得到利用关键帧图像Fk1重建的非关键帧图像Ft1’,
或,
将关键帧图像Fk2、稠密光流Tk2和遮挡图Ok2输入到基于卷积神经网络的生成器中得到利用关键帧图像Fk2重建的非关键帧图像Ft2’;
包括:
生成器网络提取关键帧图像的特征;
利用稠密光流Tk1扭曲关键帧图像的特征;
将扭曲后的特征与遮挡图相乘;
解码经扭曲和遮挡处理后的特征得到最终的非关键帧图像。
优选地,所述非关键帧重建图像Ft’的获取,包括:
掩膜预测器利用关键帧图像Fk1、Fk2和非关键帧图像Ft的关键点热力图Hk1、Hk2和Ht预测得到一个人脸掩膜Mt;
Mt表征分别用两个关键帧图像重建得到的非关键帧图像对最终的非关键帧重建图像的贡献程度;
Mt的尺寸与重建图像相同,加权公式如下:
F’t=Mt*F’t1+(1-Mt)*F’t2
根据本发明的第二个方面,提供一种极低码率的人脸视频混合压缩方法,包括:
从发送端的完整视频序列中获取码流1和码流2;
将所述码流1和所述码流2传输到接收端;
所述码流1进行解码,得到重建后的关键帧;
对所述码流2进行无损解码得到非关键帧的关键点数据,结合所述重建后的关键帧,利用权利要求1-5任一项所述的双向帧预测方法对非关键帧进行重建;
将所述重建后的关键帧与重建后的非关键帧按时序排列,得到最终的视频序列。
优选地,所述从发送端的完整视频序列中获取码流1和码流2,包括:
对于发送端的完整视频序列,设定采样间隔N,即每N帧采样一帧作为关键帧,将采样出的关键帧看成一个新的视频序列并用VVenC的编码器对其进行编码,得到码流1;
利用所述的基于卷积神经网络的关键点提取器,检测出未被采样到的每个非关键帧的若干个Uint8类型的关键点,并对检测出的Uint8类型的关键点数据进行无损编码,得到码流2。
优选地,所述无损编码方法,即利用帧内预测来消除空间冗余,利用帧间预测来消除时域冗余,包括:
对于第一个非关键帧,采用帧内预测去除空间冗余,即使用第(N-1)个关键点来预测第N个关键点;
帧间预测即使用第(K-1)帧中的关键点来预测第K帧中相应的关键点,对第(K-1)帧和第K帧的关键点数据值的残差进行编码。
优选地,所述对所述码流2进行无损解码得到非关键帧的关键点数据,结合所述重建后的关键帧,利用所述的双向帧预测方法对非关键帧进行重建,包括:
接收端收到所述码流2后,对其进行解码得到非关键帧的Uint8类型的关键点数据;
所述的双向帧预测方法根据所述重建出的两个相邻关键帧以及所述解码出的中间某个非关键帧的关键点数据,预测出相应的非关键帧的图像,即完成对非关键帧的重建。
根据本发明的第三个方面,提供一种极低码率的人脸视频混合压缩***,包括:
发送模块,对完整的视频序列采样出关键帧,然后对采样得到的关键帧用VVenC进行编码得到所述码流1,并提取非关键帧的关键点数据并进行无损编码得到所述码流2;
接收模块,对收到的所述码流1利用VVenC的解码器进行解码,得到重建出的关键帧;对收到的所述码流2进行解码得到非关键帧的关键点数据,再结合所述重建后的关键帧,利用所述的双向帧预测方法对非关键帧进行重建;
最后将所述重建后的关键帧与重建后的非关键帧按时序排列,得到最终的视频序列。
优选地,所述发送模块,包括:
关键帧采样单元,所述关键帧采样单元按采样间隔N对完整的视频序列进行采样,即每N帧采样一帧作为关键帧;
视频编码单元,所述视频编码单元将采样出的关键帧看成一个新的视频序列并用VVenC的编码器对其进行编码,得到码流1;
关键点提取单元,所述关键点提取单元利用所述基于卷积神经网络的关键点提取器,提取出每个非关键帧的若干个Uint8类型的关键点;
关键点编码单元,所述关键点编码单元对所述提取出的Uint8类型的关键点数据,利用所述的无损编码方案进行编码,得到码流2。
优选地,所述接收模块,包括:
视频解码单元,所述视频解码单元利用VVenC的解码器对所述码流1进行解码,得到重建后的关键帧;
关键点解码单元,所述关键点解码单元对所述码流2进行解码得到非关键帧的Uint8类型的关键点数据;
非关键帧重建单元,所述非关键帧重建单元利用所述解码得到的非关键帧的关键点数据,结合所述重建后的关键帧,利用所述的双向帧预测方法对非关键帧进行重建。
排序单元,所述排序单元将所述重建后的关键帧与重建后的非关键帧按时序排列,得到最终的视频序列。
与现有技术相比,本发明的技术方案具有如下有益效果:
本发明实施例中的一种针对人脸视频的双向帧预测方法,利用前后两个关键帧以及中间非关键帧的关键点联合预测中间的非关键帧,解决了单向帧预测时非关键帧与关键帧在时域上的抖动问题,有助于合成时域上光滑流畅的视频,提升观者的主观体验;
本发明实施例中的一种极低码率的人脸视频混合压缩方法,将传统编码技术能够进行像素级精确恢复的优势与深度学习技术能够基于简略信息进行高质量重建的优势相结合,达到了在极低码率下合成高质量人脸视频的目的;
本发明实施例中的基于针对人脸视频的双向帧预测方法的人脸视频混合压缩***,可以根据网络状况动态调节关键帧的采样间隔或调节使用VVenC编码关键帧时采用的QP值,从而实现码率的动态可调。同时,该***适用于任何现有编码器或配置以满足不同的编码需求。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例的针对人脸视频的双向帧预测方法的流程示意图;
图2为本发明实施例的针对人脸视频的双向帧预测方法的结构示意图;
图3为本发明实施例的极低码率人脸视频混合压缩方法的流程示意图;
图4为本发明实施例的极低码率人脸视频混合压缩方法的架构示意图;
图5为本发明实施例的极低码率人脸视频混合压缩***的组成模块和架构示意图;
图6为本发明实施例的极低码率人脸视频混合压缩方法与VVenC的性能对比图;
图7为本发明实施例的双向帧预测方法合成的人脸图像帧的效果示意图;
图8为本发明实施例的极低码率人脸视频混合压缩方法与VVenC的生成结果对比图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
针对现有技术中存在的缺陷,急需提出一种将传统编码技术与深度生成技术相结合的混合编码方案,充分发挥传统编码能够进行像素级精确恢复的优势与深度学习能够基于简略信息进行高质量重建的优势,从而实现极低码率下的人脸视频高质量重建。此外,可以根据实时的网络带宽动态调整比特率,也是目前亟待解决的一个重大挑战。
基于上述原因,本发明提供一个实施例,一种针对人脸视频的双向帧预测方法,包括:
在时域上采样人脸视频的三帧图像;
获得三帧图像各自对应的关键点热力图;
结合三帧图像和关键点热力图,重建出三帧图像各自对应的非关键帧图像。
图1为基于上述实施例进一步优化的针对人脸视频的双向帧预测方法的流程示意图,图2为本实施例的针对人脸视频的双向帧预测方法的结构示意图。
针对人脸视频的双向帧预测方法包括:
S101:针对由一系列的连续帧组成的人脸视频,在时域上采样出三帧图像,头尾两帧为关键帧图像,表示为Fk1、Fk2,用Fk1和Fk2预测间隔在两帧之间的中间帧,即非关键帧图像Ft。对于在两帧关键帧之间的非关键帧图像Ft,利用设计的基于卷积神经网络的关键点提取器提取到的关键点坐标,生成关键点热力图Ht。对于关键帧图像Fk1、Fk2,同样使用基于卷积神经网络的关键点提取器得到关键点热力图Hk1、Hk2
S102:以关键帧图像Fk1为例,将关键帧图像Fk1、关键帧图像Fk1的关键点热力图Hk1以及非关键帧图像Ft的关键点热力图Ht输入到基于卷积神经网络的稠密运动网络中,得到稠密光流Tk1和遮挡图Ok1。再将关键帧图像Fk1、稠密光流Tk1和遮挡图Ok1输入到基于卷积神经网络的生成器中得到利用关键帧图像Fk1重建的非关键帧图像Ft1’。同样的,可以得到利用关键帧图像Fk2得到重建的非关键帧图像Ft2’;
S103:与此同时,将非关键帧图像Ft的关键点热力图Ht、关键帧图像Fk1的关键点热力图Hk1和关键帧图像Fk2的关键点热力图Hk2输入到基于卷积神经网络的掩膜预测器得到人脸掩膜Mt。将人脸掩膜Mt加权作用于分别利用关键帧图像Fk1、Fk2得到的非关键帧重建图像Ft1’、Ft2’上得到最终重建的的非关键帧重建图像Ft’。
在本发明的一个优选实施例中执行S101,基于卷积神经网络的关键点提取器是UNet 模型的变体。该关键点提取器的输入是任意一张人脸图像,输出为从该图像提取出的若干个Uint8类型的关键点数据。每帧图像提取出的关键点个数是自定义的,典型的,关键点个数可以设为10,即每帧图像提取10个关键点。在这一步中,利用关键点提取器得到关键帧图像Fk1、Fk2和非关键帧图像Ft的关键点坐标。再利用关键点坐标生成关键点热力图,作为后续模块的输入。这一步最终得到两张关键帧图像和一张非关键帧图像的三张关键点热力图。
在本发明的一个优选实施例中执行S102,基于卷积神经网络的稠密运动网络的输入是关键帧图像Fk1、关键帧图像Fk1的关键点热力图Hk1以及非关键帧图像Ft的关键点热力图Ht。该稠密运动网络估计出从非关键帧图像到关键帧图像的稠密光流Tk1和遮挡图Ok1
利用关键帧图像生成非关键帧图像时,图像中某些区域可以从关键帧图像中扭曲得到,而另一部分需要使用后续的生成器模块生成。稠密光流Tk1用于扭曲关键帧图像的特征。而遮挡图Ok1中被遮挡的部分表示需要利用生成器生成的区域,未被遮挡的部分则表示可以通过扭曲关键帧图像来得到的区域。
基于卷积神经网络的生成器网络首先提取关键帧图像的特征,再利用稠密光流Tk1扭曲关键帧图像的特征,并将扭曲后的特征与遮挡图相乘,最后解码经扭曲和遮挡处理后的特征得到最终的非关键帧图像。这一步中需要利用关键帧图像Fk1和Fk2分别得到重建的非关键帧图像Ft1’和Ft2’。
在本发明的一个优选实施例中执行S103,基于卷积神经网络的掩膜预测器利用关键帧图像Fk1、Fk2和非关键帧图像Ft的关键点热力图Hk1、Hk2和Ht预测得到一个人脸掩膜Mt。Mt表征分别用两个关键帧图像重建得到的非关键帧图像Ft1’和Ft2’对最终的非关键帧重建图像Ft’的贡献程度。Mt的尺寸与重建图像相同,加权公式如下:
F’t=Mt*F’t1+(1-Mt)*F’t2
基于相同的发明构思,发明实施例还提供一种极低码率的人脸视频混合压缩方法,该方法流程图如图3所示,包括:
S301:对于发送端的完整视频序列,按照一定的采样间隔N采样关键帧,并利用VVenC的编码器来编码这些关键帧,得到码流1;
S302:对于未被采样到的非关键帧,利用基于卷积神经网络的关键点提取器,检测出每个非关键帧的若干个关键点,并对检测出的关键点进行无损编码,得到码流2;
S303:将码流1和码流2传输到接收端;
S304:利用VVenC的解码器对码流1进行解码,得到重建后的关键帧;
S305:对码流2进行无损解码得到非关键帧的关键点数据,结合重建后的关键帧,利用双向帧预测方法对非关键帧进行重建;
S306:将重建后的关键帧与重建后的非关键帧按时序排列,得到最终的视频序列。
图4为本发明实施例的极低码率人脸视频混合压缩方法的架构示意图。本实施例中,对于发送端一段待压缩的人脸视频,采用传统编码与深度学习相结合的混合压缩方案。即将所有视频帧分为关键帧与非关键帧,用传统编码方法VVenC编码关键帧,然后基于非关键帧的关键点,用深度学习的方法来重建出非关键帧。
作为优选实施例执行S301,每隔一定的采样间隔N采样一帧作为关键帧,将采样出的关键帧看成一个新的视频序列并用VVenC的编码器对其进行编码,得到码流1。其中,VVenC是目前最新的编码标准VVC的开源实现,混合编码方法允许将VVenC替换为H.265、H.264等任意的传统视频编码方法。
作为优选实施例执行S302,对于未被采样到的非关键帧,在发送端传输这些非关键帧的关键点数据来取代传输完整的视频帧,在接收端根据这些非关键帧的关键点数据来重建非关键帧,以达到降低码率的目的。具体来说,利用基于卷积神经网络的关键点提取器,提取出每个非关键帧的若干个Uint8类型的关键点数据,并对提取出的Uint8类型的关键点数据进行无损编码,得到码流2。
无损编码方法,即利用帧内预测来消除空间冗余,利用帧间预测来消除时域冗余。具体地,对于第一个非关键帧,采用帧内预测去除空间冗余,即使用第(N-1)个关键点来预测第N个关键点。帧间预测即使用第(K-1)帧中的关键点来预测第K帧中相应的关键点,这意味着不直接对第K帧的关键点值进行编码,而是对第(K-1)帧和第K帧的关键点数据值的残差进行编码。由于相邻帧间的关键点变化较小,残差值较小,很好地符合指数哥伦布编码(一种变长编码算法)的特点,因此使用零阶指数哥伦布编码算法对残差值进行编码。此外,使用自适应二进制算术编码算法(一种熵编码算法)进一步降低比特率。
作为优选实施例执行S303,将关键帧的码流1和非关键帧的码流2传输到接收端;
作为优选实施例执行S304,接收端收到传输过来的关键帧码流1后,利用VVenC 的解码器对码流1进行解码,得到重建后的关键帧;
作为优选实施例执行S305,接收端收到传输过来的非关键帧码流2后,对其进行相应的无损解码后得到非关键帧的Uint8类型的关键点数据。双向帧预测方法可以根据两个相邻关键帧以及中间某个非关键帧的关键点数据,预测出相应的非关键帧的图像。因此,本实施例中,利用S304中从码流1重建出来的两个相邻关键帧,结合从码流2中解码出来的中间某个非关键帧的关键点数据,使用双向帧预测方法即可完成对中间某个非关键帧的重建。对每个非关键帧图像重复上述操作,最终重建出所有非关键帧图像。
作为优选实施例执行S306,需要对码流1重建出的关键帧与码流2重建出的非关键帧进行时域的排序,从而输出最后的视频序列。
基于相同的发明构思,本发明实施例还提供一种极低码率的人脸视频混合压缩***,包括:
发送模块,对完整的视频序列采样出关键帧,然后对采样得到的关键帧用VVenC进行编码得到码流1,并提取非关键帧的关键点数据并进行无损编码得到码流2;
接收模块,对收到的码流1利用VVenC的解码器进行解码,得到重建出的关键帧。对收到的码流2进行解码得到非关键帧的关键点数据,再结合重建后的关键帧,利用双向帧预测方法对非关键帧进行重建。最后将重建后的关键帧与重建后的非关键帧按时序排列,得到最终的视频序列。
图5为整个***的组成模块和架构图,***主要由发送模块和接收模块组成。每个模块的作用可以参见上述的极低码率的人脸视频混合压缩方法的实施,此处不再赘述。在实际应用中,关键帧的采样间隔N与VVenC的编码参数都是可以调节的。固定VVenC 的编码参数,关键帧的采样间隔N越大,最终的码率越低,最终人脸视频的合成质量也相应下降;固定关键帧的采样间隔N,可以根据需求改变VVenC的编码参数(如编码模式、QP值等)。对于要求低延迟的场景,可以采用VVenC的LowDelay模式对关键帧进行编码;对于没有延迟要求的场景(如离线视频存储),可以采用VVenC的Random模式对关键帧进行编码。利用VVenC对关键帧进行编码时,需要指定编码的QP值,QP值越大,压缩率越小,在接收端重建出的关键帧质量越差;反之,QP值越小,压缩率越大,在接收端重建出的关键帧质量越好。因此在本实施例中,需要根据当前场景的编码需求、网络状况等选择合适的关键帧采样间隔N与VVenC编码参数,以达到最佳的效果。
下面对上述实施例的极低码率的人脸视频混合压缩方法的结果进行评估,选择了VoxCeleb2数据集测试集的15个视频序列作为测试序列,每个测试序列包含约300帧图像。使用VVenC作为当前最先进的传统编码方法,与本发明上述实施例的人脸视频混合压缩方法进行了定量和定性的比较。
关于定量评估,对实验结果分别进行了客观和主观的评价。在客观评价中,所用的客观指标为图像YUV格式下Y通道的峰值信噪比(Y-PSNR),其值越大,图像失真越少。在主观评价中,邀请了10位志愿者来对视频的保真度和美感进行打分,使用保真度得分来反映重建图片的细节保留度,使用美感得分来反映视频整体的视觉质量。具体地,同时播放VVenC编码的视频和人脸视频混合压缩方法编码的视频,并告诉志愿者分别在保真度和美感上选择表现更好的视频,因此得分实际上是用户偏好百分比。
表1展示了VVenC与本发明上述实施例方法的定量比较结果,加粗数字表示最佳性能。其中,bpp(bits-per-pixel)表示每个像素需要的比特数,KB/s(KBytes-per-second)表示每秒需要的字节数,“VVenC-QP62”表示用VVenC编码所有帧且QP值为62时的性能表现,“本实施例方法-QP34-N10”表示使用本实施例方法采样间隔为10且用VVenC 压缩关键帧时的QP取值为34时的性能表现。从表一中可以看到,码率相近时,本实施例方法取得的主客观表现明显优于仅用VVenC编码的方法;PSNR值表现相近时,本实施例方法需要的比特率明显低于仅用VVenC编码的方法,且主观质量明显优于VVenC。表 1中的所有实验结果均是在图像分辨率为256×256上的序列上测出的。表2还展示了在图像分辨率为512×512的序列上进行测试的结果。从表2可以看出无论是在256×256 分辨率还是512×512分辨率上,本实施例方法的编码表现都明显优于仅用VVenC编码的方法。
表一VVenC与本实施例方法的定量比较结果
Figure BDA0003607508210000101
Figure BDA0003607508210000111
表二在不同分辨率的视频下的测试结果
Figure BDA0003607508210000112
图6为本发明实施例的人脸视频混合压缩方法与VVenC的性能对比图,分别展示了在LowDelay(LDP)模式和RandomAccess(RA)模式下的性能对比。可以看到,在LDP模式下,BR-rate达到了-43.12%;在RA模式下,BR-rate达到了-58.48%。这意味着本实施例提供的人脸视频混合压缩方法可以在保持重建视频质量不变的同时,极大地降低码率。
图7为本发明实施例的双向帧预测方法合成的人脸图像帧的效果示意图。在图7中,将人脸掩膜Mt加权作用于分别利用关键帧图像Fk1、Fk2得到的非关键帧重建图像Ft1’、Ft2’上,得到最终重建的的非关键帧重建图像Ft’。其中Et1为Ft与Ft1’之间的误差图,Et2为 Ft与Ft2’之间的误差图。可以看出预测的掩膜表征了分别用两个关键帧图像重建得到的非关键帧图像对最终的非关键帧重建图像的贡献程度。图8为本发明实施例的极低码率人脸视频混合压缩方法与VVenC的生成结果对比图。可以看到,在相同的码率下,本实施例的人脸视频混合压缩方法在接收端重建出的图像质量明显优于VVenC在相同码率下的重建质量。
本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。上述各优选特征在互不冲突的情况下,可以任意组合使用。

Claims (10)

1.一种针对人脸视频的双向帧预测方法,其特征在于,包括:
在时域上采样人脸视频的三帧图像;
获得所述三帧图像各自对应的关键点热力图;
结合所述三帧图像和所述关键点热力图,重建出中间帧图像。
2.根据权利要求1所述的一种针对人脸视频的双向帧预测方法,其特征在于,
所述在时域上采集人脸视频的三帧图像,包括:
采集头尾两帧为关键帧图像,表示为Fk1、Fk2
用Fk1和Fk2预测间隔在两帧之间的中间帧,即非关键帧图像Ft
所述获得所述三帧图像各自对应的关键点热力图,包括:
对于在两帧关键帧之间的非关键帧图像Ft,利用基于卷积神经网络的关键点提取器提取到的关键点坐标,生成关键点热力图Ht
对于所述关键帧图像Fk1、Fk2,使用基于卷积神经网络的关键点提取器得到关键点热力图Hk1、Hk2
结合所述三帧图像和所述关键点热力图,重建出中间帧图像,包括:
所述关键帧图像Fk1、所述关键帧图像Fk1的关键点热力图Hk1以及所述非关键帧图像Ft的关键点热力图Ht输入到基于卷积神经网络的稠密运动网络中,得到稠密光流Tk1和遮挡图Ok1
将所述关键帧图像Fk1、所述稠密光流Tk1和所述遮挡图Ok1输入到基于卷积神经网络的生成器中得到利用关键帧图像Fk1重建的非关键帧图像Ft1’;
所述关键帧图像Fk2、所述关键帧图像Fk2的关键点热力图Hk2以及所述非关键帧图像Ft的关键点热力图Ht输入到基于卷积神经网络的稠密运动网络中,得到稠密光流Tk2和遮挡图Ok2
将所述关键帧图像Fk2、所述稠密光流Tk2和所述遮挡图Ok2输入到基于卷积神经网络的生成器中得到利用关键帧图像Fk2重建的非关键帧图像Ft2’;
将非关键帧图像Ft的关键点热力图Ht、关键帧图像Fk1的关键点热力图Hk1和关键帧图像Fk2的关键点热力图Hk2输入到基于卷积神经网络的掩膜预测器得到人脸掩膜Mt
将人脸掩膜Mt加权作用于所述非关键帧重建图像Ft1’、Ft2’上,得到最终重建的的非关键帧重建图像Ft’。
3.根据权利要求2所述的一种针对人脸视频的双向帧预测方法,其特征在于,所述将关键帧图像Fk1、所述稠密光流Tk1和所述遮挡图Ok1输入到基于卷积神经网络的生成器中得到利用关键帧图像Fk1重建的非关键帧图像Ft1’,
或,
将关键帧图像Fk2、稠密光流Tk2和遮挡图Ok2输入到基于卷积神经网络的生成器中得到利用关键帧图像Fk2重建的非关键帧图像Ft2’;
包括:
生成器网络提取关键帧图像的特征;
利用稠密光流Tk1扭曲关键帧图像的特征;
将扭曲后的特征与遮挡图相乘;
解码经扭曲和遮挡处理后的特征得到最终的非关键帧图像。
4.根据权利要求2所述的一种针对人脸视频的双向帧预测方法,其特征在于,所述非关键帧重建图像Ft’的获取,包括:
掩膜预测器利用关键帧图像Fk1、Fk2和非关键帧图像Ft的关键点热力图Hk1、Hk2和Ht预测得到一个人脸掩膜Mt
Mt表征分别用两个关键帧图像重建得到的非关键帧图像对最终的非关键帧重建图像的贡献程度;
Mt的尺寸与重建图像相同,加权公式如下:
F’t=Mt*F’t1+(1-Mt)*F’t2
5.一种极低码率的人脸视频混合压缩方法,其特征在于,包括:
从发送端的完整视频序列中获取码流1和码流2;
将所述码流1和所述码流2传输到接收端;
所述码流1进行解码,得到重建后的关键帧;
对所述码流2进行无损解码得到非关键帧的关键点数据,结合所述重建后的关键帧,利用权利要求1-5任一项所述的双向帧预测方法对非关键帧进行重建;
将所述重建后的关键帧与重建后的非关键帧按时序排列,得到最终的视频序列。
6.根据权利要求5所述的一种极低码率的人脸视频混合压缩方法,其特征在于,
所述从发送端的完整视频序列中获取码流1和码流2,包括:
对于发送端的完整视频序列,设定采样间隔N,即每N帧采样一帧作为关键帧,将采样出的关键帧看成一个新的视频序列并用VVenC的编码器对其进行编码,得到码流1;
利用所述的基于卷积神经网络的关键点提取器,检测出未被采样到的每个非关键帧的若干个Uint8类型的关键点,并对检测出的Uint8类型的关键点数据进行无损编码,得到码流2;
所述对所述码流2进行无损解码得到非关键帧的关键点数据,结合所述重建后的关键帧,利用所述的双向帧预测方法对非关键帧进行重建,包括:
接收端收到所述码流2后,对其进行解码得到非关键帧的Uint8类型的关键点数据;
所述的双向帧预测方法根据所述重建出的两个相邻关键帧以及所述解码出的中间某个非关键帧的关键点数据,预测出相应的非关键帧的图像,即完成对非关键帧的重建。
7.根据权利要求6所述的一种极低码率的人脸视频混合压缩方法,其特征在于,
所述无损编码方法,即利用帧内预测来消除空间冗余,利用帧间预测来消除时域冗余,包括:
对于第一个非关键帧,采用帧内预测去除空间冗余,即使用第(N-1)个关键点来预测第N个关键点;
帧间预测即使用第(K-1)帧中的关键点来预测第K帧中相应的关键点,对第(K-1)帧和第K帧的关键点数据值的残差进行编码。
8.一种极低码率的人脸视频混合压缩***,其特征在于,包括:
发送模块,对完整的视频序列采样出关键帧,对所述关键帧用VVenC进行编码得到所述码流1,并提取非关键帧的关键点数据并进行无损编码得到所述码流2;
接收模块,对收到的所述码流1利用VVenC的解码器进行解码,得到重建出的关键帧;对收到的所述码流2进行解码得到非关键帧的关键点数据,结合所述重建后的关键帧,利用所述的双向帧预测方法对非关键帧进行重建;将所述重建后的关键帧与重建后的非关键帧按时序排列,得到最终的视频序列。
9.权利要求8所述的一种极低码率的人脸视频混合压缩***,其特征在于,所述发送模块,包括:
关键帧采样单元,所述关键帧采样单元按采样间隔N对完整的视频序列进行采样,即每N帧采样一帧作为关键帧;
视频编码单元,所述视频编码单元将采样出的关键帧看成一个新的视频序列并用VVenC的编码器对其进行编码,得到码流1;
关键点提取单元,所述关键点提取单元利用所述基于卷积神经网络的关键点提取器,提取出每个非关键帧的若干个Uint8类型的关键点;
关键点编码单元,所述关键点编码单元对所述提取出的Uint8类型的关键点数据,利用所述的无损编码方案进行编码,得到码流2。
10.根据权利要求8所述的一种极低码率的人脸视频混合压缩***,其特征在于,所述接收模块,包括:
视频解码单元,所述视频解码单元利用VVenC的解码器对所述码流1进行解码,得到重建后的关键帧;
关键点解码单元,所述关键点解码单元对所述码流2进行解码得到非关键帧的Uint8类型的关键点数据;
非关键帧重建单元,所述非关键帧重建单元利用所述解码得到的非关键帧的关键点数据,结合所述重建后的关键帧,利用所述的双向帧预测方法对非关键帧进行重建;
排序单元,所述排序单元将所述重建后的关键帧与重建后的非关键帧按时序排列,得到最终的视频序列。
CN202210423557.0A 2022-04-21 2022-04-21 基于双向帧预测的极低码率人脸视频混合压缩方法及*** Pending CN114885178A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210423557.0A CN114885178A (zh) 2022-04-21 2022-04-21 基于双向帧预测的极低码率人脸视频混合压缩方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210423557.0A CN114885178A (zh) 2022-04-21 2022-04-21 基于双向帧预测的极低码率人脸视频混合压缩方法及***

Publications (1)

Publication Number Publication Date
CN114885178A true CN114885178A (zh) 2022-08-09

Family

ID=82671753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210423557.0A Pending CN114885178A (zh) 2022-04-21 2022-04-21 基于双向帧预测的极低码率人脸视频混合压缩方法及***

Country Status (1)

Country Link
CN (1) CN114885178A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152658A (zh) * 2023-05-10 2023-12-01 瀚博半导体(上海)有限公司 用于视频处理的方法、装置、***、设备和介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152658A (zh) * 2023-05-10 2023-12-01 瀚博半导体(上海)有限公司 用于视频处理的方法、装置、***、设备和介质

Similar Documents

Publication Publication Date Title
Chen et al. An overview of coding tools in AV1: the first video codec from the alliance for open media
US9071841B2 (en) Video transcoding with dynamically modifiable spatial resolution
CN100518315C (zh) 采用清晰度增强技术的空间可缩放的压缩方案的编解码器及方法
US20180131953A1 (en) Training end-to-end video processes
KR100781524B1 (ko) 확장 매크로블록 스킵 모드를 이용한 인코딩/디코딩 방법및 장치
JP2020010331A (ja) 画質を向上させる方法
US11770510B2 (en) Video information compression using sketch-video
US20210398257A1 (en) Method and device for mapping ldr video into hdr video
EP3343923B1 (en) Motion vector field coding method and decoding method, and coding and decoding apparatuses
WO2023016155A1 (zh) 图像处理方法、装置、介质及电子设备
CN111464815B (zh) 一种基于神经网络的视频编码方法及***
CN111277826A (zh) 一种视频数据处理方法、装置及存储介质
CN110177282B (zh) 一种基于srcnn的帧间预测方法
KR100878809B1 (ko) 비디오 신호의 디코딩 방법 및 이의 장치
CN110225340B (zh) 一种视频编码的控制方法及装置、计算设备和存储介质
GB2512827A (en) Method and device for classifying samples of an image
CN114885178A (zh) 基于双向帧预测的极低码率人脸视频混合压缩方法及***
Zhang et al. Enhanced video compression based on effective bit depth adaptation
Tang et al. Generative compression for face video: A hybrid scheme
CN113747242A (zh) 图像处理方法、装置、电子设备及存储介质
EP0893923A1 (en) Video communication system
CN112004084B (zh) 一种利用量化参数排序的码率控制优化方法及***
KR20060043050A (ko) 영상 신호의 인코딩 및 디코딩 방법
CN114302175A (zh) 视频处理方法及装置
KR20060059770A (ko) 영상신호의 엔코딩/디코딩시에 영상블록을 위한 모션벡터를베이스 레이어 픽처의 모션벡터로부터 유도하는 방법 및장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination