CN111937385B - 基于帧级超分辨率的视频编码 - Google Patents

基于帧级超分辨率的视频编码 Download PDF

Info

Publication number
CN111937385B
CN111937385B CN201980023891.3A CN201980023891A CN111937385B CN 111937385 B CN111937385 B CN 111937385B CN 201980023891 A CN201980023891 A CN 201980023891A CN 111937385 B CN111937385 B CN 111937385B
Authority
CN
China
Prior art keywords
blocks
original
frame
prediction
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980023891.3A
Other languages
English (en)
Other versions
CN111937385A (zh
Inventor
A·达西尔瓦普拉塔斯加布里尔
E·托马斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO
Koninklijke KPN NV
Original Assignee
Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO
Koninklijke KPN NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO, Koninklijke KPN NV filed Critical Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO
Publication of CN111937385A publication Critical patent/CN111937385A/zh
Application granted granted Critical
Publication of CN111937385B publication Critical patent/CN111937385B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/11Selection of coding mode or of prediction mode among a plurality of spatial predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

描述了一种将视频帧编码为比特流的方法,该方法包括:将下采样方案应用于具有第一分辨率的原始视频帧,以确定第一低分辨率LR原始帧和一个或多个第二原始LR帧,该第一LR原始帧和该一个或多个第二LR原始帧具有低于该第一分辨率的第二分辨率;将该第一LR原始帧分割为第一原始块,并且将该一个或多个第二LR帧分割为第二原始块;使用预测方法来确定第一预测块,这些第一预测块限定了对该第一LR原始帧的第一原始块的预测;基于这些第一预测块和这些第一原始块确定第一残差块,并且随后基于这些第一残差块和这些第一预测块确定第一重构块;基于这些第一重构块确定第二预测块,这些第二预测块限定了对该一个或多个第二LR原始帧的第二原始块的预测;基于这些第二预测块和这些第二原始块确定第二残差块;以及将这些第一残差块和这些第二残差块变换成比特流,该比特流包括用于向解码器装置发信号通知在编码期间使用了下采样方案来对该视频帧进行下采样的元数据。

Description

基于帧级超分辨率的视频编码
技术领域
本发明涉及基于超分辨率的视频编码预测,并且具体地但非排他地,涉及用于基于超分辨率的视频编码预测的方法和***、一种包括用于基于超分辨率的预测视频编码的模块的编码器装置和解码器装置、以及一种用于执行这种方法的计算机程序产品。
背景技术
在视频编码标准化中,MPEG和ITU联合小组传统上采用混合视频编码***(例如AVC和HEVC)。混合***包括运动预测和基于视频块的变换编码的组合。在此,视频块(或简称为块)是指视频标准的基本处理单元。在不同的编码标准中,视频块以不同方式命名,例如,在H.264/AVC中,块被称为宏块,在HEVC中,块被称为编码树单元(CTU),并且在VP9和AV1中,编码块被称为超级块。混合视频编码***旨在利用视频帧中视频样本的冗余。特别地,运动预测利用连续帧之间的时间冗余和给定帧内像素的空间相关性,而所谓的变换编码对信号分量进行去相关。与前几代的其他编码标准(诸如H.264/AVC(MPEG-4部分10))相比,现有技术的编码标准(诸如HEVC、AV1和当前开发的VVC(多功能视频编码))具有显著更高的压缩效率。
在某些情况下,例如,在视频序列的第一帧的情况下,在帧是关键帧(即可以在经压缩比特流的中间从其开始解码的帧)的情况下,或者在两个帧之间的相关性太小(例如,突然的场景变化)的情况下,不能使用时间预测。在这些情况下,可以使用帧内预测方案来对视频序列的该位置处的帧进行压缩。帧内预测基于当前帧中先前编码的块以及相邻像素之间的预先假定的强相关性(即像素之间的“空间冗余”)。在视频帧的亮度信息和色度信息两者中都可以存在此空间冗余。例如,在足球比赛图像中,绿色像素的邻近像素也将主要是绿色的。而且,通常,与暗像素邻近的像素也将是暗的,例如在阴影区域中。
通常,视频帧中的块以光栅扫描顺序开始(即,逐行地)从视频帧左上角的块开始被处理。因此,将基于相邻块(通常是定位在当前块的上方和/或左侧的块)的先前编码的样本来预测当前块的像素。HEVC和AV1具有可用于宏块的不同类型的帧内预测方法,每种类型都具有其自己的模式。例如,对于亮度信息,存在不同类型的帧内预测:针对16×16块(整个宏块)的预测方法、针对8×8块(每个宏块四个)的预测方法或针对4×4块(每个宏块十六个)的预测方法。对于色度信息,存在一种基于该宏块的一个块来进行预测的方法。
此外,根据预测方法的类型,可以使用不同的模式:针对8×8或4×4亮度预测的不同模式,以及针对16×16亮度预测和针对色度信息的不同模式。每种模式都精确地确定如何基于需要被编码的当前块附近的较早经编码像素值来预测该当前块中像素的值。由于(宏)块的编码顺序,仅位于当前块左侧或上方的块的像素是可用的。当编码器决定基于帧内预测来预测当前块时,编码器将选择某种类型的帧内预测以及属于该帧内预测类型的模式之一。编码器将使用预测块来确定残差块,该残差块与有关帧内预测类型和相关联模式的信息一起被编码器发送给解码器。
由编码器决定选择哪种类型的帧内预测以及使用哪种模式。
虽然在预测过程中使用较小的块大小可能将导致更准确的预测,但由于编码器需要为比特流中的更多数量的块发送信号通知所选模式,因此开销也更大。通常,对于更均匀的区域,通常将基于较大的块(诸如16×16的块、64×64的块或者甚至128×128的块)进行预测,而对于细节更多的区域,通常将基于较小的块进行预测。
然而,在某些情况下,相邻像素之间视频信号的强相关性的假设不再成立。例如对于360度视频可能就是这种情况,在这样的视频中,由于在2D表面(EPR或立方体)上的投影(诸如几何接缝,即,布置成网格的立方体面)的影响,这种空间相关性不再存在或至少显著降低。而且在常规的2D视频编码中,视频信号可能自然而然地具有低相关性,例如具有大纹理的自然场景(草、沙、植被等)、视频中的噪声、降低到两个相邻像素之间的相关性的每种现象。因此,在这种情况下,I帧(的视频块)不能被准确地预测并因此被高效地压缩。这可能会严重降低视频信号的整体压缩效率,因为I帧可能代表比特流中总数据的很大一部分,有时甚至高达80%。
更一般地,对于视频帧的某个区域中需要被压缩的视频信号的某种相关性,帧内预测将提供高效的压缩,一直到该区域中视频信号的预测视频块的特定大小为止,因为相关性随着两个像素之间距离的增大而减小。
因此,从上面可以看出,在本领域中需要改进的编码方案,该改进的编码方案能够进行高效的视频块编码,特别是针对高分辨率视频的高效视频块编码。
发明内容
如本领域技术人员将认识到的,本发明的各方面可以实施为***、方法或计算机程序产品。因此,本发明的各方面可以采取完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或者在本文中通常可以被称为“电路”、“模块”或者“***”的组合软件和硬件方面的实施例的形式。本披露内容中描述的功能可以实施为由计算机的微处理器执行的算法。此外,本发明的各方面可以采取在具有在其上实施的、例如存储的计算机可读程序代码的一种或多种计算机可读介质中实施的计算机程序产品的形式。
可以利用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是例如但不限于电子、磁、光、电磁、红外、或半导体***、装置或设备,或上述的任何合适的组合。计算机可读存储介质的更具体的示例(非穷举列表)将包括以下各项:具有一个或多个导线的电连接装置、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储设备、磁存储设备、或者上述的任何合适的组合。在本文献的上下文中,计算机可读存储介质可以是可包含或存储用于由指令执行***、装置或设备使用或与指令执行***、装置或设备结合使用的程序的任何有形介质。
计算机可读信号介质可以包括具有在其中(例如,在基带中或作为载波的一部分)实施的计算机可读程序代码的传播数据信号。这种传播信号可以采取各种形式中的任何一种,包括但不限于,电磁的、光的或其任何合适的组合。计算机可读信号介质可以是不是计算机可读存储介质并且可以通信、传播、或传输程序(以用于由指令执行***、装置或设备使用或与指令执行***、装置或设备结合使用)的任何计算机可读介质。
可以使用任何适当的介质传输在计算机可读介质上实施的程序代码,这种介质包括但不限于无线、有线、光纤、电缆、RF等,或上述的任何合适的组合。用于执行本发明的各方面的操作的计算机程序代码可以以一种或多种编程语言的任何组合编写,所述一种或多种编程语言包括诸如Java(TM)、Smalltalk、C++等面向对象的编程语言等和诸如“C”编程语言或相似的编程语言等常规过程编程语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为独立软件包执行、部分地在用户计算机上执行并部分地在远程计算机上执行、或完全地在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过包括局域网(LAN)或广域网(WAN)的任何类型网络连接到用户计算机,或可以进行与外部计算机的连接(例如,使用互联网服务提供商、通过互联网)。
下面将参考根据本发明的实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解的是流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机程序指令实施。可以将这些计算机程序指令提供给通用计算机、专用计算机、或其他可编程数据处理装置的处理器,具体是微处理器或中央处理单元(CPU)以产生机器,使得经由计算机或其他可编程数据处理装置或其他设备的处理器执行的指令创建用于实施流程图和/或框图的一个或多个框中指定的功能/动作的装置。
这些计算机程序指令还可以存储在计算机可读介质中,所述计算机可读介质可以指导计算机、其他可编程数据处理装置、或其他设备以用特殊的方式发挥功能,从而使得存储在所述计算机可读介质中的指令产生制造的包括指令的物品,这些指令实施流程图和/或框图的一个或多个框中指定的功能/动作。
计算机程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上,以引起在计算机、其他可编程装置或其他设备上执行一系列操作步骤以产生计算机实施的过程,从而使得在计算机或其他可编程装置上执行的指令提供用于实施在流程图和/或框图的一个或多个框中指定的功能/动作的过程。
附图中的流程图和框图展示了根据本发明的各实施例的***、方法和计算机程序产品的可能实施方式的体系架构、功能和操作。关于此,流程图或框图中的每个框可以表示包括用于实施(多个)特定逻辑功能的一个或多个可执行指令的代码的模块、片段或部分。还应该指出的是,在一些替代性实施方式中,框中标明的功能可以不按图中标记的顺序发生。例如,根据涉及的功能,连续示出的两个框实际上可被大体同时执行,或者这些框可能有时以相反的顺序被执行。还将指出的是,可以通过执行特定功能或动作的基于专用硬件的***或专用硬件和计算机指令的组合来实施框图和/或流程图的每个框及框图和/或流程图中框的组合。
在一个方面,本发明涉及一种将视频帧编码为比特流的方法,其中,该方法可以包括:编码装置的处理器将下采样方案应用于具有第一分辨率的原始视频帧,以确定第一低分辨率LR原始帧和一个或多个第二原始LR帧,该第一LR原始帧和该一个或多个第二LR原始帧具有低于该第一分辨率的第二分辨率;该处理器将该第一LR原始帧分割为第一原始块,并且将该一个或多个第二LR帧分割为第二原始块;该处理器使用预测方法来确定第一预测块,这些第一预测块限定了对该第一LR原始帧的第一原始块的预测;该处理器基于这些第一预测块和这些第一原始块确定第一残差块,并且随后基于这些第一残差块和这些第一预测块确定第一重构块;
该处理器基于这些第一重构块确定第二预测块,这些第二预测块限定了对该一个或多个第二LR原始帧的第二原始块的预测;该处理器基于这些第二预测块和这些第二原始块确定第二残差块;以及该处理器将这些第一残差块和这些第二残差块变换成比特流,该比特流包括用于向解码器装置发信号通知在编码期间使用了下采样方案来对该视频帧进行下采样的元数据。
因此,本发明涉及一种编码方法,在该编码方法中,在帧级使用超分辨率技术来对多个低分辨率版本的原始视频帧进行空间二次采样。可以对低分辨率版本之一进行编码和解码以确定重构低分辨率帧,该重构低分辨率帧用作用于确定对其他低分辨率版本的预测的参考帧。该编码方法在视频帧包括具有低空间相关性的像素值的情况下尤其高效。
在实施例中,该视频帧可以是I帧,其中,确定这些第一预测块可以包括:使用帧内预测方法来确定这些第一预测块。在实施例中,该视频帧可以是P帧或B帧,其中,确定这些第一预测块可以包括:使用帧间预测方法来确定这些第一预测块。因此,该编码方法可以应用于I帧或者P帧或B帧。
在实施例中,这些第一重构块可以限定第一LR重构帧,该第一LR重构帧限定了用于确定这些第二预测块的参考帧。
在实施例中,可以使用块匹配预测方法来确定这些第二预测块。在实施例中,该块匹配预测方法可以基于以下方法:基于帧内区域的模板匹配方法或帧内复制块方法。因此,可以使用通常用于帧间预测的称为块匹配技术的技术来确定这些预测。从HEVC屏幕内容编码扩展已知的帧内块复制(IBC)预测模式。可以使用的另一种块匹配技术是基于帧内区域的模板匹配技术。
在实施例中,与该第一LR原始帧相关联的第一残差块和与该一个或多个第二LR原始帧相关联的第二残差块可以限定数据结构、优选地子图片组(sub GOP),优选地,该数据结构与用于该sub-GOP的元数据相关联。sub GOP是这样的图片组,其是指同一超帧的图片。在这种情况下,sub GOP将不同的LR帧限定为不同的帧,其中第一LR帧表示I帧,并且其他LR帧可以是已知类型(例如P或B)、或者是要定义的新类型。
在实施例中,该下采样方案可以是多相下采样方案,该下采样方案包括多个空间下采样点阵、优选地四个下采样点阵。只要向解码器发信号通知所执行的下采样操作,就可以使用任何下采样滤波器,使得可以优化对高分辨率帧的重构。在特定情况下,下采样滤波器可以是多相下采样。多相下采样具有以下优点:从高分辨率原始视频帧产生的4个帧包含整个源信息。该操作不会导致任何数据丢失。
在实施例中,该第一LR原始帧和该一个或多个第二LR原始帧可以被空间复用为具有该第一分辨率的复用视频帧。可以将LR帧空间复用为一个帧,从而可以将关于块分割的元数据减少到与第一LR帧相对应的区域(例如,在多相下采样的情况下为左上块)。其他LR帧的块分割可以被认为与第一LR帧的情况相同。
因此,可以将经多相器下采样的原始视频帧的四个LR帧视为分辨率等于HR帧的单个帧,或者可以将四个相视为分辨率为HR帧的1/4的四个(低分辨率)帧。
在实施例中,该元数据可以包括一个或多个第一参数,用于向该解码器装置发信号通知该编码器装置所使用的下采样方案类型。在实施例中,该元数据可以包括一个或多个第二参数,用于向该解码器装置发信号通知用于预测这些第一预测块所使用的预测类型。在实施例中,该元数据可以包括一个或多个第三参数,用于向该解码器装置发信号通知用于预测这些第二预测块所使用的预测类型。对于每个帧,可以在比特流中用信号表示原始视频帧被分解为不同的低分辨率帧以及如何分解的事实。例如,在实施例中,可以定义切片片段头(HEVC)或图块组头(VVC)中的标志以表达4个多相相中的下采样。在其他实施例中,信令可以表达下采样类型以及所产生的相的数量,使得解码器可以还原操作。
在一个方面,本发明可以涉及一种将比特流解码为视频帧的方法,其中,该方法可以包括:解码装置的处理器接收比特流,该比特流包括与第一低分辨率LR原始帧相关联的第一经编码残差块和与一个或多个第二LR原始帧相关联的第二经编码残差块;该处理器接收与这些第一经编码残差块和这些第二经编码残差块相关联的元数据,该元数据向该解码器装置发信号通知编码器装置使用了下采样方案来将具有第一分辨率的原始帧下采样为该第一LR原始帧和该一个或多个第二LR原始帧,该第一LR原始帧和该一个或多个第二LR原始帧具有低于该第一分辨率的第二分辨率;该处理器使用预测方法来确定第一预测块,这些第一预测块限定了对该第一LR原始帧的第一原始块的预测;该处理器将这些第一经编码残差块变换成第一残差块,并且基于这些第一残差块和这些第一预测块确定第一重构块,这些第一重构块限定了第一LR重构帧;该处理器基于这些第一重构块确定第二预测块,这些第二预测块限定了对该一个或多个第二LR原始帧的第二原始块的预测;该处理器将这些第二经编码残差块变换成第二残差块,并且基于这些第二残差块和这些第二预测块确定第二重构块,这些第二重构块限定了一个或多个第二LR重构帧;以及该处理器基于该第一LR重构帧和该一个或多个第二LR重构帧确定重构原始视频帧。
在实施例中,确定这些重构块可以包括:对该第一LR重构帧和该一个或多个第二LR重构帧进行上采样,优选地,该上采样基于与该下采样方案相关联的上采样方案;以及将经上采样的第一LR重构帧和经上采样的第二LR重构帧组合为重构原始视频帧。
在实施例中,可以使用块匹配预测方法来确定这些第二预测块,优选地,该块匹配预测方法基于以下方法:基于帧内区域的模板匹配方法或帧内复制块方法。
在实施例中,该比特流可以是基于高效视频编码HEVC的比特流、基于开放媒体联盟视频AV1的比特流或基于多功能视频编码VVC的比特流。
在一个方面,本发明可以涉及一种用于将视频帧编码为比特流的装置,其中,该装置可以包括:计算机可读存储介质,该计算机可读存储介质具有用其体现的程序的至少一部分;以及计算机可读存储介质,该计算机可读存储介质具有用其体现的计算机可读程序代码;以及处理器,优选地微处理器,该处理器耦合至该计算机可读存储介质,其中,响应于执行该计算机可读程序代码,该处理器被配置成执行可执行操作,这些可执行操作可以包括:将下采样方案应用于具有第一分辨率的原始视频帧,以确定第一低分辨率LR原始帧和一个或多个第二原始LR帧,该第一LR原始帧和该一个或多个第二LR原始帧具有低于该第一分辨率的第二分辨率;将该第一LR原始帧分割为第一原始块,并且将该一个或多个第二LR帧分割为第二原始块;使用预测方法来确定第一预测块,这些第一预测块限定了对该第一LR原始帧的第一原始块的预测;基于这些第一预测块和这些第一原始块确定第一残差块,并且随后基于这些第一残差块和这些第一预测块确定第一重构块;基于这些第一重构块确定第二预测块,这些第二预测块限定了对该一个或多个第二LR原始帧的第二原始块的预测;基于这些第二预测块和这些第二原始块确定第二残差块;以及将这些第一残差块和这些第二残差块变换成比特流,该比特流包括用于向解码器装置发信号通知在编码期间使用了下采样方案来对该视频帧进行下采样的元数据。
在一个方面,本发明可以涉及一种用于将比特流解码为视频帧的装置,其中,该装置可以包括:计算机可读存储介质,该计算机可读存储介质具有用其体现的程序的至少一部分;以及计算机可读存储介质,该计算机可读存储介质具有用其体现的计算机可读程序代码;以及处理器,优选地微处理器,该处理器耦合至该计算机可读存储介质,其中,响应于执行该计算机可读程序代码,该处理器被配置成执行可执行操作,这些可执行操作包括:接收比特流,该比特流包括与第一低分辨率LR原始帧相关联的第一经编码残差块和与一个或多个第二LR原始帧相关联的第二经编码残差块;接收与这些第一经编码残差块和这些第二经编码残差块相关联的元数据,该元数据向该解码器装置发信号通知编码器装置使用了下采样方案来将具有第一分辨率的原始帧下采样为该第一LR原始帧和该一个或多个第二LR原始帧,该第一LR原始帧和该一个或多个第二LR原始帧具有低于该第一分辨率的第二分辨率;使用预测方法来确定第一预测块,这些第一预测块限定了对该第一LR原始帧的第一原始块的预测;将这些第一经编码残差块变换成第一残差块,并且基于这些第一残差块和这些第一预测块确定第一重构块,这些第一重构块限定了第一LR重构帧;基于这些第一重构块确定第二预测块,这些第二预测块限定了对该一个或多个第二LR原始帧的第二原始块的预测;将这些第二经编码残差块变换成第二残差块,并且基于这些第二残差块和这些第二预测块确定第二重构块,这些第二重构块限定了一个或多个第二LR重构帧;以及基于该第一LR重构帧和该一个或多个第二LR重构帧确定重构原始视频帧。
在一个方面,本发明涉及一种编码器装置,该编码器装置被配置成执行如参考本申请中描述的实施例所描述的将视频数据编码为比特流的方法。
在一个方面,本发明涉及一种解码器装置,该解码器装置被配置成执行如参考本申请中描述的实施例所描述的将比特流解码为视频数据的方法。
本发明可以进一步涉及一种计算机程序产品,该计算机程序产品包括软件代码部分,这些软件代码部分被配置成当在计算机的存储器中运行时执行根据上述方法步骤中任一项所述的方法步骤。
将参考附图进一步说明本发明,附图将示意性地示出根据本发明的实施例。将理解的是,本发明不以任何方式局限于这些具体实施例。
附图说明
图1描绘了可以在本披露内容中描述的实施例中使用的空间二次采样方案的示例。
图2是可以在本披露内容中描述的实施例中使用的多相二次采样方案的示例。
图3描绘了根据本发明的实施例的编码过程的一部分。
图4A至图4C示意性地描绘了根据本发明的实施例的低分辨率重构视频块的形成。
图5示意性地描绘了根据本发明的实施例的包括sub-GOP结构的GOP结构。
图6描绘了根据本发明的实施例的用于基于空间采样方案对视频帧进行编码的编码过程的一部分。
图7描绘了根据本发明的实施例的基于块的编码过程。
图8描绘了根据本发明的实施例的基于块的解码过程。
图9描绘了框图,该框图展示了根据本发明的实施例的编码器装置。
图10描绘了框图,该框图展示了根据本发明的实施例的解码器装置。
图11描绘了可以在本披露内容中描述的实施例中使用的分辨率分量格式的示例。
图12描绘了可以使用本申请中描述的实施例的视频编码和解码***的示意图。
具体实施方式
本申请中的实施例的目的是使用超分辨率技术来压缩并编码视频帧。可以在环内编码过程期间使用超分辨率技术,使得编码器可以对原始视频帧的经下采样帧进行编码。因此,在环内编码过程期间,编码器可以对分辨率比原始视频帧的分辨率低的帧进行编码。可以基于编码器的率失真优化(RDO)环路中的成本函数来评估编码器是否使用超分辨率技术的决策。这样,对高分辨率视频帧、特别是高分辨率帧内编码(I)视频帧以及包括表示难以使用常规压缩来压缩的某些场景的视频样本的视频帧进行高效编码。这种视频包括例如360度视频。可以在比特流中用信号表示超分辨率技术的激活,以便解码器可以正确地解码比特流,并基于经解码的低分辨率视频块重构原始视频帧。
在本披露内容中,超分辨率过程通常可以指用于基于一组低分辨率(LR)观察结果(例如,图像)获得高分辨率(HR)图像或HR图像序列的图像处理方案。这些图像可以在时间上连贯,也可以不连贯。例如,在视频帧序列中,可以使用具有第一分辨率(例如,标准清晰度或高分辨率)的先前和后续的视频帧来重构视频序列中具有第二分辨率(例如,超分辨率或4K)的视频帧的图像。当在几乎没有关于LR观察结果的生成的先验知识的情况下生成LR观察结果时,主要使用超分辨率过程来提高空间和时间分辨率。例如,两个LR观察结果之间的空间位移可能是未知的,并且需要进行估计。但是,也可以在受控且准确限定的环境中使用超分辨率过程。例如,在编码期间,可以使用预定的下采样方案(例如,多相下采样)对视频帧进行下采样,并且可以使用超分辨率技术通过对低分辨率帧进行上采样并将经上采样的低分辨率帧组合为高分辨率视频帧来构建高分辨率图像。在这种情况下,由于LR观察结果的特性及其空间关系和时间关系是已知的并且不需要进行估计,因此超分辨率过程可以达到最佳效果。
图1和图2描绘了可以在本披露内容中描述的实施例中使用的空间二次采样方案的示例。图1描绘了视频帧102的可以通过基于(正则)采样点阵(例如,视频样本的高分辨率点阵或阵列)对连续图像的一部分进行采样而形成的一部分(例如,视频块)。在此,采样点阵中的每个采样点可以形成高分辨率视频帧中的一个视频样本。视频样本可以表示RGB或YCbCr颜色方案中的特定颜色分量。例如,三个RGB视频样本可以形成视频帧中的一个彩色像素。通过使用不同的低分辨率采样点阵1041-4,可以基于高分辨率视频信号的高分辨率帧来形成不同类型的低分辨率视频帧。通常,低分辨率采样点阵的采样密度低于高分辨率视频帧的采样点阵的采样密度。在从例如可伸缩视频编码标准(诸如AVC的可伸缩视频编码(SVC)和可伸缩HEVC(SHVC))已知的下采样操作中,基于原始高分辨率视频信号的视频帧中的像素值的集合来计算经下采样视频信号的视频帧的新像素值。
然而,某些下采样方案不会更改像素值。这种方案在下文中可以被称为空间二次采样方案。这种空间二次采样方案仅从形成图像帧的一组像素值中选择像素值的子集。空间二次采样方案允许非常高效地重构原始视频信号或其低分辨率版本。另外,分辨率分量的经空间二次采样视频帧允许使用超分辨率技术来构建高分辨率视频帧。应该注意,图1所示的采样点阵应被认为是可以在本披露内容的实施例中使用的大量不同采样点阵的示例。
由这种低分辨率采样点阵产生的视频帧可以表示分辨率分量的视频帧。可以通过基于不同的采样点阵对高分辨率视频帧进行二次采样来形成不同的分辨率分量。可以将一组采样点阵选择为使得基于该组采样点阵生成的分辨率分量可以用于重构原始高分辨率视频信号,即,重构与原始高分辨率视频信号相同或几乎相同的视频信号。此外,可以将一个或多个空间采样点阵选择为使得基于该一个或多个采样点阵生成的分辨率分量可以用于构建高分辨率视频信号的低分辨率版本。
在一些实施例中,用于对高分辨率视频帧进行二次采样的采样点阵可以具有相同的采样密度。在这种采样点阵上生成的分辨率分量具有相同的分辨率。在其他实施例中,采样点阵(中的一些)可以具有不同的采样密度。在这种情况下,分辨率分量(中的一些)具有不同的分辨率。此外,如图1所示,在一些实施例中,采样点阵可以具有重叠,即,一个或多个采样点是共用的。在其他实施例中,采样点阵之间没有重叠。
因此,可以基于如图1所描绘的空间二次采样来生成多组分辨率分量。可以使用该组中的所有分辨率分量来重构原始高分辨率视频信号,并且可以使用该组中的分辨率分量中的一些来构建高分辨率视频信号的一个或多个低分辨率版本。
图2描绘了空间二次采样方案的示例。特别地,该图描绘了用于基于具有第二分辨率的视频帧的像素202生成具有第一分辨率的多个视频帧(在该示例中为四个)的多相二次采样方案,其中,该第二分辨率高于该第一分辨率。在多相二次采样中,可以将4×4像素矩阵二次采样为四个2×2分辨率分量2031-4,其中,在4×4像素矩阵中,每个分辨率分量表示空间上移位的2×2像素矩阵2061-4。这四个分辨率分量可以形成可以由解码器用来重构原始(高分辨率)视频信号的一组分辨率分量(分辨率分量组)。
高分辨率视频可以具有YUV类型的颜色格式(例如,YUV 4:2:0颜色格式),每个帧具有1920×1088的像素分辨率和每秒24帧(fps)的帧速率。对此高分辨率视频帧执行因子为2(应用于Y、U和V)的多相空间二次采样过程将产生YUV 4:2:0颜色格式的四个低分辨率视频帧,其中,每个帧具有960×544的像素分辨率和24fps的帧速率。
如图2所描绘的多相二次采样方案提供以下优点:其允许在编码器侧和解码器侧都非常快速地进行操作,其中,像素值不变。然而,如果原始信号包含的频率大于二次采样频率的两倍,则可能会由于空间混叠效应而引入视觉伪像。在这种情况下,这四个低分辨率分量中的任何一个都不适合进行渲染。为了减轻这种效应,可以应用后滤波操作来增强分辨率分量的输出帧并尽可能多地消除这些视觉伪像。而且,可以应用预滤波并在后滤波操作中将其还原到某种程度,该后滤波操作可以在知道预滤波步骤中所应用的降级的情况下被高效地应用。
例如,在实施例中,可以在对高分辨率帧的低通滤波之后执行多相二次采样。这样,可以消除由于混叠效应引起的视觉伪像。当进行低通滤波时,需要后处理步骤以在渲染之前恢复原始图像。否则,在最好的情况下,重构信号也只是输入信号的低通版本。在无损编码中,利用诸如维纳逆滤波器等技术,还原低通滤波器以恢复HR图像在某种程度上是可行的。在有损编码中,低通滤波可能会引入一些困难,尤其是在低比特率编码中,当重构信号已经被压缩严重破坏时。这种后处理恢复方案仅可以提供对已通过低通滤波器去除的高频率的估计,而不能真正恢复原始信号。也就是说,它们不会逐像素逆转降级。
尽管参考多相二次采样描述了空间分量的生成,但是也可以使用其他类型的空间二次采样方案。这种方案的示例包括梅花形二次采样和六角形二次采样或其衍生物。基于这种空间二次采样方案,可以形成分辨率分量并将其用于重构高分辨率视频。
根据高分辨率帧x(具有N个像素(矩阵N×1))、一组K个低分辨率帧y(k)(每个帧具有M个像素(矩阵M×1)),M<N。对于每个第k个低分辨率帧y(k),对HR帧的滤波由矩阵H(维度N×N)描述,并且二次采样由矩阵A(维度M×N)限定。因此,生成的模型可以表示为:
y(k)=A(k)Hx
在此,可以假设将相同的预滤波应用于上述HR帧。在另一实施例中,每个第k个分解可以具有矩阵H。在又一实施例中,一个分辨率分量可以具有矩阵HLP,该矩阵是HR帧的低通滤波器(因此避免了如莫尔效应的视觉伪像),而其他分辨率分量具有相同的矩阵HI,该矩阵是单位矩阵,这意味着不对HR帧进行滤波,而是执行纯多相二次采样。
基于上述生成的模型,可以应用许多重构方法来产生对HR帧x的估计使用例如如下的SungCheolPark等人的文章中所描述的已知的超分辨率技术:“Super-Resolutionimage reconstruction:a technicaloverview[超分辨率图像重构:技术概述]”,IEEE信号处理杂志,2003年5月,第21-36页,该文章通过引用并入本文。此文章中描述的可以用于重构HR视频帧的超分辨率图像重构算法的示例包括非均匀插值、频域中的重构、正则化超分辨率重构,凸集投影重构、ML-POCS混合重构、迭代反向投影重构、自适应滤波重构和静止超分辨率重构。
在实施例中,可以使用如图1和图2中所描述的多相二次采样操作将原始高分辨率视频帧分解为多个低分辨率帧。在这种情况下,重新组合经二次采样低分辨率视频帧的过程比在更一般的情况下更简单。重新组合过程归结为根据低分辨率视频帧在原始高分辨率信号中的位置将每个低分辨率视频帧映射到重新组合的图片上。此重新组合过程包括:通过零填充对低分辨率视频帧中的每一个进行上采样,并通过使矩阵元素在空间上移位以匹配经上采样低分辨率视频帧在原始高分辨率视频帧的视频帧中的位置来组合经上采样低分辨率视频帧。
应该注意,以上参考图1和图2描述的二次采样方案可以应用于各种视频信号,包括(但不限于)整个视频帧或其一部分,例如在视频编码期间使用的视频样本的一个或多个块,即视频块。
在本申请中,描述了用于基于超分辨率方法对视频帧进行编码的新的编码模式。在此,视频块是由视频编码器或视频解码器中的功能元件作为一个单元进行处理的视频样本的块。在本申请中,术语“视频块”和“块”具有相同的含义,除非另有明确说明。如果在编码期间,编码器决定根据超分辨率模式对视频帧进行压缩和编码,则解码器需要知道何时应激活这些模式。超分辨率模式的激活可以在比特流中用信号表示为元数据,并且可以采取多种形式。例如,在实施例中,与视频帧相关联的标志可以向解码器发信号通知是否针对视频帧激活了超分辨率模式。
在传统的编码器中,视频某一帧的给定帧类型取决于在图片组(GOP)数据结构(例如,IPBBP…)中的位置。基于内容分析,编码器(尤其是专业级编码器)可以覆写GOP中具有不同帧类型的预定序列。例如,当发生场景转换时,优选地从I帧开始,因为P帧或B帧的编码将更昂贵,这是因为先前的帧在场景变化时将显著不同。
常规的帧类型包括I型帧、P型帧和B型帧,其中,I帧是帧内编码的,并且其中,P型和B型是时间预测的(分别为仅向后时间预测、向后和向前时间预测)。在每个视频帧内,每个视频块可以进一步定义为两种类型:帧内块和帧间块。(在一帧内)使用空间预测方案对帧内块进行编码,而使用基于不同视频帧的预测方案对帧间块进行编码。在I帧内,所有视频块都是帧内编码的。在P帧和B帧内,可能会发生因为在参考帧中未找到其他区域来高效地预测视频块而对该视频块进行帧内编码的情况。例如,在视频中突然出现一个对象的情况下,或者在一般球面视频数据中有360度或更大视频的经投影视频帧的情况下,可能就是这种情况。
基于球面视频数据形成2D矩形图像帧或图片通常可以包括将球面视频数据投影到几何对象(具有直边的对象)的表面上,并且将投影表面映射到矩形形状上。对于编码球面视频内容,2D矩形视频帧是用作对编码器装置的输入的最方便的形式,因为它不需要修改现有的视频编码标准。诸如等距柱状投影(ERP)、立方体或棱锥体投影模型等不同的投影模型是已知的。在ERP的情况下,使用极角作为水平和竖直坐标,将球体投影到矩形上。在这种情况下,当EPR投影直接产生矩形形状时,将映射合并到投影步骤中。等距柱状和其他投影格式都可以使用诸如H.264/AVC、HEVC、AV1或VVC等编码方案直接编码。
进一步提出,如果率失真优化(RDO)分析表明超分辨率模式在编码效率方面是有益的,则将超分辨率模式应用于整个视频帧(即视频帧的所有块)不仅允许使用超分辨率方法对I帧进行编码,而且可以使用超分辨率方法对P帧和B帧进行编码。
图3描绘了根据本发明的实施例的编码过程的一部分。该过程可以由编码器装置执行。如此图所示,该过程可以开始将空间二次采样方案304(例如多相下采样方案)应用于具有第一分辨率(例如高分辨率(HR)类型,诸如超高分辨率或4K分辨率)的原始视频帧302。在此,原始视频帧可以是任何类型的帧,包括但不限于I帧、P帧、B帧或超帧。
空间二次采样的应用可以产生具有低于第一分辨率的第二分辨率的多个低分辨率(LR)原始视频帧306。该多个LR原始帧可以包括第一LR原始帧和一个或多个第二LR原始帧。然后,可以确定对该多个LR原始视频帧中的第一LR原始视频帧的预测310。此预测步骤可以包括使用已知的预测方法(例如,在I帧的情况下为帧内预测方法,或者在P帧或B帧的情况下为帧间预测方法)来确定第一LR原始帧的原始块的预测块。
在实施例中,原始块可以被单独处理。在实施例中,该第一LR原始帧和该一个或多个第二LR原始帧可以被空间复用为具有该第一分辨率的复用视频帧。结果,复用视频帧将具有与原始视频帧的分辨率相同的第一分辨率。复用视频帧可以被分为四个部分,其中,左上部分可以包括第一原始块的样本,并且其中,其他部分(右上部分、左下部分、右下部分)可以包括三个(在多相下采样的情况下)第二原始块的样本。
可以使用预测块和原始块来确定LR重构帧312的重构块314。可以通过基于原始块和预测块确定残差块、应用量化和变换步骤、随后进行逆变换和量化步骤以产生LR重构残差块来确定重构块。使用重构残差块和预测块来确定LR重构帧312的重构块。此帧的重构可以通过编码器装置中的解码器环路来实现。
然后,在确定对一个或多个第二LR原始帧的预测时,LR重构帧312可以用作LR参考帧。在这种情况下,可以使用块匹配预测方案316来确定对该一个或多个第二LR原始帧的预测,在这种情况下为LR预测帧318。块匹配预测方法是指任何基于块的预测方法,在该基于块的预测方法中,在来自与当前块紧密匹配的一个(或多个)参考帧的一个(或多个)块的基础上预测该当前块。这种块匹配预测方案可以用于基于LR重构帧(参考帧)的重构块314以及可选地已解码的一个或多个第二LR原始帧之一中的重构块来确定该一个或多个第二LR原始帧的预测块。
在实施例中,块匹配预测方案可以基于G.Venugopal、H.Schwarz、D.Marpe和T.Wiegand的如下文章中所描述的所谓的基于帧内区域的模板匹配技术:“Intra Region-based TemplateMatching[基于帧内区域的模板匹配],JVET-J0039”,美国圣地亚哥,2018年,该文章在此通过引用并入本申请中。在另一实施例中,块匹配预测方案可以基于用于预测原始块的样本的帧内块复制技术。这种帧内复制块模式的示例在X.Xu等人的如下文章中进行了描述:“Intra Block Copy in HEVC Screen Content CodingExtensions[HEVC屏幕内容编码扩展中的帧内块复制]”,IEEE期刊:《电路与***中的新兴和精选主题》,第6卷,第4期,第409-419页,2016年12月,doi:10.1109/JETCAS.2016.2597645,该文章在此通过引用并入本申请中。
这样产生的对LR原始帧306的LR预测312、318可以用于确定被量化、变换和熵编码为比特流的残差块。如图3所示,LR重构帧和一个或多个LR预测帧可以形成可以被称为子图片组320(sub-GOP)的数据结构。与sub GOP相关联的元数据可以包括空间二次采样的类型、sub-GOP中的LR帧的数量、针对第一LR原始帧的块分割、用于确定对第一LR原始帧的预测的预测方法以及用于确定对一个或多个第二LR原始帧的预测的块匹配预测方法。这些元数据可以被包括在比特流中。
参考图3描述的预测过程可以被称为超分辨率预测模式、特别是帧级超分辨率预测模式,其指示在编码过程中使用下采样方案来将原始视频帧下采样为LR帧,并且在解码过程中使用上采样方案对经解码的LR帧进行上采样,并将经上采样的经解码的LR帧组合为重构原始视频帧。可以使用超分辨率预测模式来高效地压缩使用常规预测过程难以压缩的帧。
图4A至图4C更详细地示意性地描绘了如参考图3所描述的LR重构帧的重构块的形成。图4A描绘了LR原始帧的原始块和LR预测帧的预测块。如参考图3所描述的,可以使用已知的预测方法来预测原始块的样本。例如,这些样本可以基于参考样本(即,已经被编码的块的重构样本)来预测。例如,在原始视频帧是I帧的情况下,可以如图4B所示的那样使用帧内预测方法,在该帧内预测方法中,可以基于已经被编码的块(通常是定位于与当前块接近或与之接界的块)的参考样本(重构样本)来预测当前块418。可以使用任何类型的帧内预测方法,例如,从诸如HEVC、AV1或任何其他已知或未来的视频编码标准等视频编码标准已知的帧内预测模式。可替代地,在原始视频帧是P帧或B帧的情况下,可以如图4C所示的那样使用已知的帧间预测方法,在该已知的帧间预测方法中,基于一个或多个已经编码的参考帧中的一个或多个块(例如参考帧426的块428)的重构样本来预测原始视频帧422的当前块424。使用运动矢量430来确定块在参考帧中的位置。尽管图4C描绘了使用一个参考帧来预测当前块的情况,但是已知可以使用多个参考帧中的多个块来确定对当前块的预测。
可以将残差块406确定为原始块402的原始样本与预测块404的预测样本之差。可以将量化和变换步骤应用于残差样本以确定LR经量化且经变换的残差块408的样本,随后进行逆量化和变换步骤以确定重构残差块410的样本。在实施例中,可以将环内滤波步骤应用于LR重构残差块,以便去除或至少减少可能因基于块的变换步骤而产生的伪像。然后可以基于重构残差块和预测块的样本来确定重构块414的样本。将此方案应用于LR原始帧的所有块产生了如参考图3所描述的可以用作用于预测一个或多个第二LR原始帧的参考帧的LR重构帧。
图5示意性地描绘了根据本发明的实施例的包括sub-GOP结构的GOP结构。如此图所示,常规GOP结构500可以包括被用作预定数量的B帧和P帧的参考帧的I帧。I帧、P帧和/或B帧中的一者或多者可以基于如本申请中所描述的超分辨率预测模式进行编码。在图5所示的示例中,基于超分辨率预测模式对I帧进行编码,这可以产生低分辨率参考帧和在该低分辨率参考帧的基础上构建的多个低分辨率帧。如参考图3和图4所描述的,可以基于以下操作来确定低分辨率参考帧:将原始(当前)帧下采样为多个LR原始帧,基于预测方法(在这种情况下,为帧内预测方法)确定LR预测帧,并基于LR预测帧和LR原始帧确定LR重构帧,其中,LR重构帧用作用于在块匹配预测方法的基础上确定对一个或多个第二LR原始帧的预测的参考帧。这些预测可以形成一个或多个第二LR预测帧。
因此,低分辨率重构帧可以限定sub-GOP的低分辨率I帧。并且基于该低分辨率I帧而预测的一个或多个第二低分辨率预测帧可以限定sub-GOP的低分辨率P帧和/或B帧。在多相下采样方案的情况下,sub-GOP包括在sub-GOP的低分辨率I帧的基础上得出的三个低分辨率帧。如图5所示,根据块匹配预测方法,可以构建不同的sub-GOP结构。在实施例中,sub-GOP 504可以包括一个低分辨率I帧和多个低分辨率B帧,其中,每个B帧可以取决于该低分辨率I帧和(至少)一个其他低分辨率B帧(如小图510的箭头508所示)。在另一实施例中,sub-GOP 506可以包括一个低分辨率I帧和多个低分辨率P帧,其中,每个低分辨率P帧仅取决于该低分辨率I帧(如由图中的特征510所示)。提出的是,图5中的sub-GOP结构是在不脱离本发明的情况下可以存在的许多不同的sub-GOP结构的非限制性示例,包括包含一个或多个低分辨率I帧和一个或多个P帧和/或B帧的sub-GOP结构。
图6描绘了根据本发明的实施例的用于基于空间采样方案(包括基于多个空间采样点阵的空间下采样和空间上采样)对视频帧进行编码的编码过程的一部分。此过程可以包括编码器装置将高分辨率视频帧下采样为第一低分辨率(LR)帧和一个或多个第二LR帧,其中,第一LR帧和第二LR帧的分辨率(步骤602)。在该步骤中,可以使用任何空间下采样滤波器,例如,如参考图1和图2所描述的空间下采样方案,只要解码器装置知道编码器装置所使用的下采样操作(明确地发信号通知或得出)使得可以在低分辨率视频块的基础上实现对一个或多个原始(高分辨率)视频块的重构即可。在实施例中,空间下采样滤波器可以被配置成执行多相下采样。在这种情况下,可以通过应用众所周知的多相分解操作来产生四个低分辨率帧。该实施例提供以下优点:从高分辨率视频块产生的这四个低分辨率视频块包含整个源信息。换句话说,多相下采样不会导致任何数据丢失。
此后,可以使用第一LR帧来确定准确预测。为此,如参考图3和图4所详细描述的,可以基于帧内预测或帧间预测来确定对第一LR帧的第一(初始)预测(步骤604)。此后,可以通过基于第一(初始)预测确定第一LR重构帧来改善初始预测。随后可以将第一LR重构帧用作用于确定对一个或多个第二LR视频帧的预测的参考(步骤606)。图6中描绘的预测过程尤其适用于以下情况:视频帧具有几乎没有相关性的大量像素值而使得常规预测方法将不会产生足够高的编码效率。
可以使用基于块的视频编码方案来实施参考图3至图6所描述的编码过程。因此,在对高分辨率视频帧进行下采样之后,可以将第一LR原始帧分割为多个块,例如,从HEVC已知的编码树块或从其他编码标准已知的类似块。在此过程期间,将使用某种算法来找到帧的最佳块分割。由于一个或多个第二LR原始帧是从同一高分辨率原始帧得出的,因此预期这些帧的块分割与第一LR原始帧的块分割相同。因此,在以比特流传输至解码器装置的元数据中,可以用信号表示针对第一LR原始帧的块分割,并且可以将该块分割重新用于sub-GOP中的其他LR帧。与为sub-GOP中的每个LR帧确定并且然后用信号表示该元数据相比,这将节省大量的比特和编码时间。由于sub-GOP结构中的LR帧之间的紧密关系,其他类型的元数据也可以用于sub-GOP中的LR帧。例如,与残差块的残差样本的量化步骤有关的量化信息或者与用于确定第一LR重构帧的预测方法和用于确定对一个或多个第二LR帧的预测的预测方法有关的信息。
如图3至图6所展示的编码方法可以用于高效地编码和解码视频帧。以下,更详细地描述了这种编码和解码过程以及用于执行这种过程的装置的示例。
图7描绘了根据本发明的实施例的基于块的编码过程。该过程可以包括以下步骤(步骤702):将下采样方案应用于具有第一分辨率的原始视频帧,以确定第一LR原始帧和一个或多个第二LR原始帧。该下采样方案可以包括如参考图1和图2所描述的多个空间下采样点阵。可以基于块分割算法将第一LR原始帧分割为第一原始块。此外,可以将该一个或多个第二LR原始帧(中的每一个)分割为第二原始块(步骤704)。可以使用预测方法、优选地帧内预测或帧间预测来确定用于预测第一LR原始帧的第一原始块的第一预测块(步骤706)。然后,基于第一预测块和第一原始块确定第一残差块。然后,可以基于第一残差块和第一预测块确定第一重构块(步骤708)。可以将第一重构块用作用于确定第二预测块的参考,其中,这些第二预测块限定了对一个或多个第二LR原始帧的第二原始块的预测(步骤710)。可以基于第二预测块和第二原始块确定第二残差块(步骤712)。可以将第一残差块和第二残差块变换成比特流,并且可以将元数据***到该比特流中,该元数据用于向解码器装置发信号通知在对视频帧的编码期间使用了下采样方案(步骤714)。
图8描绘了根据本发明的实施例的基于块的解码过程。该过程可以包括以下步骤(步骤802):接收比特流(的一部分),该比特流包括与第一LR原始帧相关联的经编码的第一残差块和与一个或多个第二LR原始帧相关联的经编码的第二残差块。经编码的第一残差块和经编码的第二残差块可以是如本申请的各种实施例中所描述的sub-GOP结构的一部分。此外,可以接收元数据以向解码器装置发信号通知(在编码期间)使用了下采样方案来将原始帧下采样为第一LR原始帧和一个或多个第二LR帧(步骤804)。因此,在这种情况下,解码器被告知,为了重构原始视频帧,该解码器需要使用上采样方案来对低分辨率帧进行上采样并且将经上采样的低分辨率帧组合为原始视频帧的重构帧。
可以使用帧内预测方法来确定第一预测块,其中,这些第一预测块限定了对第一LR原始帧的第一原始块的预测(步骤806)。此后,将经编码的第一残差块变换成第一残差块,并基于这些第一残差块和第一预测块来确定第一重构块(步骤808)。
然后,使用第一重构块来确定第二预测块,其中,这些第二预测块限定了对一个或多个第二LR原始帧的第二原始块的预测(步骤810)。将经编码的第二残差块变换成第二残差块,并基于这些第二残差块和第二预测块来确定第二重构块(步骤812)。最后,基于由第一重构块限定的第一LR重构帧和由第二重构块限定的一个或多个第二LR重构帧,确定重构原始视频帧(步骤814)。在该步骤中,可以通过使用上采样方案来确定重构原始视频帧,在该上采样方案中,对第一LR重构帧和一个或多个第二LR重构帧进行上采样并且将其组合为具有第一分辨率的重构原始视频帧。
图9描绘了框图,该框图展示了根据本发明的实施例的编码器装置。编码器装置900可以对视频帧或其部分(例如,视频切片)内的块执行帧内预测和帧间预测。帧内预测依赖于空间预测来减少或去除给定图片或视频帧内视频中的空间冗余。在本申请中,帧间预测依赖于预测来减少或去除相邻图片或视频序列的图片内视频中的冗余。该帧间预测包括常规的基于块的帧间预测方法,这些方法依赖于GOP内的块预测。另外,该帧间预测还包括块匹配预测方法,如本申请的实施例中所描述的,该块匹配预测方法可以用于预测sub-GOP中的LR帧的块。帧内模式(I模式)可以指几种基于帧内预测的压缩模式中的任何一种。帧间模式(诸如单向预测(P模式)或双向预测(B模式))可以指几种基于帧间预测的压缩模式中的任何一种。
视频编码器可以包括用于接收呈需要被编码的视频帧序列形式的视频数据的输入端901。在图9的示例中,编码器装置可以包括下采样单元902、分割单元904、模式选择单元904、求和器906、变换单元908、量化单元910、熵编码单元912和参考图片存储器914。模式选择单元904进而可以包括运动估计单元916、帧间预测单元920和帧内预测单元922。对于视频块重构,编码器装置还可以包括逆量化单元924、逆变换单元926以及求和器928。还可以包括诸如去块滤波器918等滤波器以从重构视频帧中滤除伪像。除了去块滤波器之外,还可以使用附加的环路滤波器(环路内的或环路后的)。
如图9所示,编码器可以包括控制器910,该控制器控制编码过程并且收集需要被编码到由编码器装置生成的比特流中的相关联元数据。由控制器控制的选择器905可以确定是否使用下采样单元902。如果不使用下采样单元,则编码器装置的输入端处的视频数据将被发送到分割单元,以将视频帧分割为多个块。
模式选择单元可以被配置成例如基于误差结果选择几种编码模式(诸如帧内预测或帧间预测)中的一种,并且将得到的帧内编码块或帧间编码块提供给求和器906以生成残差视频数据的块,并且将得到的帧内编码块或帧间编码块提供给求和器928以重构经编码块以用作参考图片。在编码过程期间,编码器装置可以接收要被编码的图片或切片。图片或切片可以被分为多个视频块。模式选择单元中的帧间预测单元可以相对于一个或多个参考图片中的一个或多个块来对接收到的视频块执行帧间预测编码,以提供时间压缩。此外,模式选择单元中的帧内预测单元可以相对于与要被编码的块在同一图片或切片中的一个或多个相邻块来对接收到的视频块执行帧内预测编码,以提供空间压缩。编码器装置可以执行多次编码过程(例如,在率失真优化(RDO)方案中),以便为视频数据的每个块选择适当的编码模式。
分割单元可以基于对先前编码过程中的先前分割方案的评估,将视频数据的块分割为子块。例如,分割单元可以基于率失真分析(例如,率失真优化)初始地将图片或切片分割为LCU,并且将LCU中的每一个分割为子CU。分割单元可以进一步产生指示将LCU分割为子CU的四叉树数据结构。四叉树的叶节点CU可以包括一个或多个PU和一个或多个TU。
运动矢量(MV)估计单元916可以执行计算视频块的运动矢量的过程。运动矢量例如可以指示当前图片内的视频块的预测块(预测单位或PU)相对于参考图片(或其他编码单位)内的预测块的位移,该参考图片内的预测块相对于当前块在当前图片(或其他编码单位)内被编码。运动矢量估计单元可以通过将帧间编码切片中的视频块的PU的位置与近似于视频块的像素值的参考图片的预测块的位置进行比较来确定该PU的运动矢量。因此,通常,运动矢量的数据可以包括参考图片列表、对参考图片列表的索引(ref_idx)、水平分量和竖直分量。可以从第一参考图片列表(列表0)和第二参考图片列表(列表1)中选择参考图片,这些参考图片列表中的每一个都标识存储在参考图片存储器914中的一个或多个参考图片。
MV运动估计单元可以生成标识参考图片的预测块的运动矢量并将该运动矢量发送到熵编码单元912和帧间预测单元920。即,运动估计单元可以生成并发送运动矢量数据,该运动矢量数据标识:包含预测块的参考图片列表、到标识该预测块的图片的参考图片列表的索引以及用于在标识的图片内定位预测块的水平分量和竖直分量。
在一些示例中,代替发送当前PU的实际运动矢量,运动矢量预测单元(未示出)可以预测运动矢量以进一步减少传送运动矢量所需的数据量。在这种情况下,代替对运动矢量本身进行编码和传送,运动矢量预测单元可以生成相对于已知(或可知)运动矢量的运动矢量差(MVD)。
运动矢量预测单元可以建立运动矢量预测值候选项列表,该运动矢量预测值候选项列表包括在空间方向和/或时间方向上的几个相邻块作为MVP的候选项。当多个运动矢量预测值候选项可用(来自多个候选块)时,运动矢量预测单元可以根据预定选择标准来确定当前块的运动矢量预测值。例如,运动矢量预测单元可以基于对编码速率和失真的分析(例如,使用率失真优化方案或其他编码效率分析),从候选集中选择最准确的预测值。在其他示例中,运动矢量预测单元916可以生成运动矢量预测值候选项的平均值。用于选择运动矢量预测值的其他方法也是可能的。
在选择了运动矢量预测值之后,运动矢量预测单元可以确定运动矢量预测值索引(mvp_flag),该索引可以用于通知视频解码器将MVP定位在包含MVP候选块的参考图片列表中的什么位置。运动矢量预测单元916还可以确定当前块与所选MVP之间的MVD。可以使用MVP索引和MVD来重构运动矢量。
通常,分割单元和模式选择单元(包括帧内预测单元和帧间预测单元、运动矢量估计单元)可以高度集成,但是出于概念性目的而单独展示。
编码器装置的加法器906可以用于通过从正被编码的原始视频块中减去从模式选择单元904接收到的预测视频块(由运动矢量标识)来形成残差视频块。
变换处理单元908可以用于将诸如离散余弦变换(DCT)或概念上类似的变换等变换应用于残差视频块,以便形成具有残差变换系数值的块。变换处理单元可以用于执行在概念上类似于DCT的其他变换。也可以使用小波变换、整数变换、子带变换或其他类型的变换。在任何情况下,变换处理单元可以将变换应用于残差块,从而产生具有残差变换系数的块。变换可以将残差信息从像素值域转换到变换域(诸如频域)。变换处理单元可以将得到的变换系数发送到量化单元,该量化单元对变换系数进行量化以进一步降低比特率。量化过程可以减小与这些系数中的一些或所有系数相关联的位深度。可以通过调整量化参数来修改量化程度。
控制器910可以将诸如运动矢量、帧内模式指示符、分割信息和其他这种语法信息等语法元素(元数据)提供给熵编码单元912。然后,熵编码单元可以对经量化变换系数和语法元素进行编码。例如,熵编码单元可以执行上下文自适应可变长度编码(CAVLC)、上下文自适应二元算术编码(CABAC)、基于语法的上下文自适应二元算术编码(SBAC)、概率区间分割熵(PIPE)编码或另一种熵编码技术。在基于上下文的熵编码的情况下,上下文可以基于相邻块。在通过熵编码单元进行熵编码之后,可以将经编码比特流传输到另一设备(例如,视频解码器),或者将经编码比特流进行存储以用于稍后的传输或检索。
逆量化和逆变换单元916分别应用逆量化和逆变换,以在像素域中重构残差块,例如,以供稍后用作参考块。帧间预测单元可以通过将残差块添加到参考图片存储器914中的图片之一的预测块来计算参考块。帧间预测单元还可以将一个或多个插值滤波器应用于重构残差块,以计算用于运动估计的分段整数像素值。重构残差块被添加到由帧间预测单元920产生的预测块,以产生重构视频块以存储在参考图片存储器914中。运动矢量估计单元和帧间预测单元可以将重构视频块用作参考块,以对后续图片中的块进行帧间编码。
当在超分辨率模式下使用编码器装置时,编码器装置的控制器被配置成根据如参考图7所描述的过程步骤对视频帧进行编码。因此,在这种情况下,编码器装置能够对原始视频帧的经下采样的LR帧进行编码。
编码器装置的输入端处的视频帧可以由下采样单元下采样为第一LR原始帧和一个或多个第二LR原始帧。第一LR原始帧可以被转发到分割单元以用于分割为多个块。可以将对第一LR原始帧的分割应用于一个或多个第二LR原始帧,因此在一些实施例中,一个或多个第二LR帧不由分割单元处理(如虚线903示意性地描绘的)。然后,根据视频帧是I帧还是P帧或B帧,可以通过帧内预测单元的帧内预测方法或者通过帧间预测单元的帧间预测方法来确定第一预测块,其中,这些第一预测块形成对第一原始帧的第一原始块的预测。
可以使用第一预测块和第一原始块来确定第一残差块,这些第一残差块可以由变换和量化单元以及逆量化和变换单元进行处理以便确定第一重构残差块。然后,可以通过使用求和器928来确定第一重构块,该求和器将第一重构残差块添加到第一预测块。第一重构块限定了第一LR重构视频帧,该第一LR重构视频帧可以被存储为用于确定对一个或多个第二LR原始帧的预测的参考帧。
如以上已经参考图8所描述的,可以使用可以在帧间预测单元中实施的合适的块匹配预测方法来确定用于预测一个或多个第二LR原始帧的第二原始块的第二预测块。可以将第一LR重构帧的第一重构块用作参考来确定对一个或多个第二LR原始帧的第二原始块的预测。可以使用第一预测块和第二预测块以及第一原始块和第二原始块来确定sub-GOP数据结构的第一残差块和第二残差块,这些第一残差块和这些第二残差块被变换和量化然后被熵编码器变换成比特流。控制器收集与sub-GOP数据结构相关联的元数据,其中,元数据可以包括关于以下各项的信息:下采样方案、分割、用于确定用于预测第一LR原始帧的第一原始块的第一预测块的预测类型、以及用于确定用于预测一个或多个第二原始LR帧的第二原始块的第二预测块的预测类型。在熵编码过程期间,元数据被编码并***到比特流中。
编码器可以执行已知的率失真优化(RDO)过程,以便为图片中的编码块找到最佳编码参数。在此,最佳编码参数(包括模式决策;帧内预测模式;帧间预测模式或超分辨率模式;以及量化)是指提供用于编码块的比特数与通过使用这些比特数进行编码所引入的失真之间的最佳折衷的参数集。术语率失真优化有时也被称为RD优化或简称为“RDO”。适用于AVC和HEVC型编码标准的RDO方案也是已知的,参见例如,Sze,Vivienne,MadhukarBudagavi和Gary J.Sullivan,“High efficiency video coding[高效视频编码](HEVC)”,Integrated Circuit and Systems,Algorithms and Architectures[集成电路和***、算法以及架构],施普林格出版社(2014):1-375;章节:9.2.7RD优化。RDO可以采用许多方式实施。在一个众所周知的实施方式中,RDO问题可以表示为关于拉格朗日乘数λ最小化拉格朗日成本函数J::在此,参数R表示率(即编码所需的比特数),并且参数D表示与某一率R相关联的视频信号的失真。失真D可以被视为对视频质量的度量。用于客观地确定质量的已知度量(客观地,从该度量与内容无关的意义上来说)包括均方误差(MSE)、峰值信噪比(PSNR)和绝对差值之和(SAD)。
在HEVC的背景下,率失真成本可能要求视频编码器使用可用的预测模式(包括如本申请描述的超分辨率模式)中的每一个来计算预测视频块。编码器装置然后确定预测块中的每一个与当前块之间的差(即,残差视频帧的残差块),并将残差块中的每一个从空间域变换到频域。接下来,编码器装置可以量化变换后的残差块中的每一个,以生成相应的经编码视频块。编码器装置可以对经编码视频块进行解码,并将经解码视频块中的每一个与当前块进行比较,以确定失真度量D。此外,这种全率失真分析涉及计算预测模式中的每一个的率R,即用信号表示每个经编码视频块所用的比特数。然后,将这样确定的RD成本用于选择块,该块提供用于编码一个块的比特数与通过使用该比特数进行编码所引入的失真之间的最佳折衷。
图10描绘了框图,该框图展示了根据本发明的实施例的解码器装置。在图10的示例中,解码器装置可以包括熵解码单元1004、解析器1006、预测单元1018、逆量化和逆变换单元1008、求和器1009和参考图片存储器1016。预测单元可以包括运动矢量(MV)估计单元1020、帧间预测单元1022和帧内预测单元1024。
在解码过程期间,视频解码器1000从编码器装置接收表示经编码视频切片的视频块和相关联语法元素的经编码视频比特流1002。熵解码单元可以对比特流进行解码以生成经量化系数、运动矢量和其他语法元素。解析器单元1006将运动矢量和其他语法元素(元数据)转发到预测单元1018。
可以在视频切片级和/或视频块级接收到语法元素。例如,作为背景,视频解码器1000可以接收经压缩视频数据,该经压缩视频数据已被压缩以经由网络传输到所谓的网络抽象层(NAL)单元中。每个NAL单元可以包括头,该头标识存储到NAL单元的数据的类型。有两种类型的数据共同存储到NAL单元。存储到NAL单元的第一种类型数据是视频编码层(VCL)数据,该数据包括经压缩视频数据。存储到NAL单元的第二种类型数据被称为非VCL数据,该数据包括其他信息,诸如限定了大量NAL单元共有的头数据的参数集以及补充增强信息(SEI)。
当向解码器发信号通知视频帧的块被编码为帧内编码(I)块时,帧内预测单元可以基于用信号表示的帧内预测模式以及来自当前图片的先前解码块的数据(例如来自定位于与原始块接近的先前解码块的参考像素)来为原始(当前)视频帧的原始块生成预测数据,即预测块。
类似地,当向解码器装置发信号通知视频帧的块是基于超分辨率模式被编码时,解码器可以确定比特流中的sub-GOP结构,其中,该sub-GOP结构与在空间下采样方案的基础上被编码的原始帧相关联。基于元数据,解码器装置可以确定(在编码期间)使用了下采样方案来将原始帧下采样为第一LR原始帧和一个或多个第二LR原始帧。此外,在这种情况下,解码器装置知道其需要使用上采样方案来将LR重构帧上采样为重构原始视频帧。
基于元数据,解码器装置可以将表示sub-GOP的比特流部分熵解码为与第一LR原始帧相关联的第一残差块的第一经量化系数和与一个或多个第二个LR原始帧相关联的一个或多个第二残差块的第二经量化系数。这些经量化系数可以随后被逆变换和逆量化为与第一LR原始帧相关联的第一残差块和与一个或多个第二LR原始帧相关联的第二残差块。此外,可以使用预测方法来确定第一预测块,这些第一预测块限定了对第一LR原始帧的第一原始块的预测。基于第一预测块和第一残差块,可以确定第一重构块。第一重构块可以限定第一LR重构帧,该第一LR重构帧可以在由帧间预测单元执行的块匹配预测方法中用作用于确定第二预测块的参考,这些第二预测块限定了对一个或多个第二LR原始帧的第二原始块的预测。然后,可以使用第一预测块和第二预测块以及第一残差块和第二残差块来确定第一LR重构帧和一个或多个第二LR重构帧,该第一LR重构帧和该一个或多个第二LR重构帧随后被用于确定重构原始视频帧。重构原始视频帧的生成可以由解码器装置的上采样和组合单元1013执行。该过程可以包括:对第一LR重构帧和第二LR重构帧进行上采样,以及将经上采样的第一LR重构帧和第二LR重构帧进行组合。在此,上采样过程可以逆转编码期间使用的下采样过程。
当图片是基于帧间预测被编码时,预测单元的帧间预测单元1022基于从熵解码单元1004接收的运动矢量和其他语法元素来产生当前视频切片的视频块的预测块。预测块可以根据参考图片列表之一内的参考图片之一产生。视频解码器可以基于存储在参考图片存储器1016中的参考图片,使用公知的构建技术来构建参考图片。
帧间预测单元可以通过解析运动矢量和其他语法元素来确定针对当前视频切片的视频块的预测信息,并使用该预测信息来产生正在解码的当前视频块的预测块。例如,帧间预测单元可以使用接收到的语法元素中的一些来确定用于对视频切片的视频块进行编码的预测模式(例如,帧内预测或帧间预测)、帧间预测切片类型(例如,B切片、P切片或GPB切片)、该切片的参考图片列表中的一个或多个参考图片列表的构建信息、该切片的每个帧间编码视频块的运动矢量、该切片的每个帧间编码视频块的帧间预测状态以及用于对当前视频切片中的视频块进行解码的其他信息。在一些示例中,帧间预测单元可以从运动矢量预测单元(未示出)接收某些运动信息。
运动矢量预测单元可以使用MVP或索引来标识用于预测当前块的运动矢量的运动信息。运动矢量预测单元可将所标识的MVP与接收到的MVD相组合以确定当前块的运动矢量。在确定当前块的运动信息之后,运动矢量预测单元可以生成当前块的预测块。
逆量化和逆变换单元1008对比特流中提供的并由熵解码单元解码的经量化变换系数进行逆量化,即,去量化。逆量化过程可以包括使用由视频编码器针对视频切片中的每个视频块计算的量化参数来确定量化程度,并且同样地确定应该应用的逆量化程度。该逆量化和逆变换单元可以进一步将逆变换(例如逆DCT、逆整数变换或概念上类似的逆变换过程)应用于变换系数,以便在像素域中产生残差块。
在帧间预测单元1022基于运动矢量和其他语法元素生成当前视频块的预测块之后,视频解码器通过对由逆变换过程确定的残差块与由帧间预测单元1020生成的相应预测块进行求和而形成经解码视频块。加法器1009表示执行此求和操作的一个或多个部件。如果需要,还可以应用去块滤波器来对经解码块进行滤波,以去除成块(blocking)伪像。还可以使用其他环路滤波器(在编码环路中或在编码环路之后)来平滑像素过渡,或以其他方式提高视频质量。然后,将给定图片中的经解码视频块存储在参考图片存储器1016中,该参考图片存储器存储用于后续运动预测的参考图片。参考图片存储器1016还存储经解码视频,以供稍后在显示设备上呈现。
因此,图9和图10的编码器装置和解码器装置各自可以支持超分辨率预测模式,该超分辨率预测模式可以使用下采样方案来将原始视频帧下采样为低分辨率视频帧并且将低分辨率视频帧上采样为原始视频帧。
可以使用第一参数(例如标志)来用信号表示超分辨率模式。仅在使用了下采样方案的情况下才可能存在第二参数。此第二参数可以限定所使用的下采样方案的类型,例如多相下采样。应该注意,语法仅是示例,并且可以使用许多其他替代方案,例如仅一个标志、更长或更短的位深度等。另外和/或可替代地,还可以在新SEI消息中***信令。
图11描绘了可以在本披露内容中描述的实施例中使用的分辨率分量类型的示例。例如,4:2:0格式对应于多相二次采样方案,在该方案中,分辨率分量的一个样本最多可以贡献高分辨率视频块的4个像素(1到4取决于所应用的下采样操作,例如,多相为1)。类似地,4:4:4格式对应于分辨率分量和高分辨率视频块具有相同分辨率的情况。在这种情况下,没有空间二次采样。如果比特流包含采用4:4:4格式的多个分辨率分量,则这与SNR可伸缩性相似,在SNR可伸缩性中,重构输出帧受益于更好的PSNR而不是更高的分辨率。对于每种分辨率分量格式,与没有空间二次采样(4:4:4)的情况一样,给定数量的分辨率分量预期传达相同的全视频信号。
上表给出了预期数量的分辨率分量,这些预期数量的分辨率分量可以形成可以用于重构原始(高分辨率)视频信号的一组分辨率分量。比特流表示的视频源是按解码顺序的图片序列,其中,源图片和经解码图片可以各自包括一个分辨率分量阵列,其中,每个分辨率分量阵列可以包括一个或多个颜色样本阵列:仅亮度(Y)(单色);亮度和两种色度(YCbCr或YCgCo);绿色、蓝色和红色(GBR,也称为RGB);或表示其他未指定的单色或三刺激颜色采样的阵列(例如,YZX,也称为XYZ)。
在另一实施例中,空间二次采样方案不是预定义的或不是完全预定义的。在这种情况下,需要向解码器发信号通知放大滤波器、LR视频帧中像素的位置以及用于计算HR视频帧中的像素的算法。以通用的方式,此信息可以例如基于每个分辨率分量的矢量在解码器信息中用信号表示。在实施例中,可以以子像素准确性定义此信息,从而指示分辨率分量相对于原点(例如,左上原点(0,0))的位移(以像素为单位)以及用于基于低分辨率分量的视频帧的重新组合来计算HR帧中的每个像素值的算法。在这种情况下,重新组合过程可以是如本披露内容中所提及的超分辨率图像重构技术。
图12描绘了可以使用本申请中描述的实施例的视频编码和解码***的示意图。如图12所示,***1200可以包括第一视频处理设备1202(例如,视频捕获设备等),该第一视频处理设备被配置成生成可以由第二视频处理设备1204(例如,视频播放设备)解码的经编码视频数据。第一视频处理设备和第二视频处理设备可以包括多种设备中的任何一种,包括台式计算机、笔记本计算机(即,膝上型计算机)、平板计算机、机顶盒、电话手机(诸如所谓的“智能”电话)、所谓的“智能”pad、电视、相机、显示设备、数字媒体播放器、视频游戏控制台、视频流式传输设备等。在一些情况下,视频处理设备可能配备用于无线通信。
第二视频处理设备可以通过传输信道1206或能够将经编码视频数据从第一视频处理设备移动到第二视频处理设备的任何类型的介质或设备来接收要被解码的经编码视频数据。在一个示例中,传输信道可以包括通信介质,该通信介质用于使第一视频处理设备能够将经编码视频数据直接实时地传输到第二视频处理设备。可以基于诸如无线通信协议等通信标准将经编码视频数据传输到第二视频处理设备。通信介质可以包括任何无线或有线通信介质,诸如射频(RF)频谱或一条或多条物理传输线路。通信介质可以形成诸如局域网、广域网或全球网络(诸如互联网)等基于分组的网络的一部分。通信介质可以包括路由器、交换机、基站、服务器或可以有助于促进第一视频处理设备与第二视频处理设备之间的通信的任何其他设备。
可替代地,可以经由第一视频处理设备的I/O接口1208将经编码数据发送到存储设备1210。可以通过输入第二视频处理设备的I/O接口1212来访问经编码数据。存储设备1210可以包括各种分布式或本地访问的数据存储介质中的任何一种,诸如硬盘驱动器、蓝光光盘、DVD、CD-ROM、闪速存储器、易失性或非易失性存储器或用于存储经编码视频数据的任何其他合适的数字存储介质。在又一示例中,存储设备可以对应于可以保存由第一视频处理设备生成的经编码视频的文件服务器或另一中间存储设备。第二视频处理设备可以经由流式传输或下载来从存储设备访问所存储的视频数据。文件服务器可以是能够存储经编码视频数据并将该经编码视频数据传输到第二视频处理设备的任何类型的服务器。示例文件服务器包括web服务器(例如,用于网站)、FTP服务器、网络附加存储(NAS)设备或本地磁盘驱动器。第二视频处理设备可以通过任何标准数据连接(包括互联网连接)访问经编码视频数据。这种连接可以包括适合于访问存储在文件服务器上的经编码视频数据的无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等)或这两者的组合。来自存储设备36的经编码视频数据的传输可以是流式传输、下载传输或这两者的组合。
本披露内容的技术不必限于无线应用或设置。这些技术可以应用于视频编码,以支持各种多媒体应用中的任何一种,诸如空中电视广播、有线电视传输、***传输、流式视频传输(例如,经由互联网)、对用于存储在数据存储介质上的数字视频的编码、对存储在数据存储介质上的数字视频的解码或其他应用。在一些示例中,***1200可以被配置成支持单向或双向视频传输,以支持诸如视频流式传输、视频回放、视频广播和/或视频电话等应用。
在图12的示例中,第一视频处理设备可以进一步包括视频源1214和视频编码器1216。在一些情况下,I/O接口1208可以包括调制器/解调器(调制解调器)和/或发射器。视频源可以包括任何类型的源,诸如视频捕获设备(例如,摄像机)、包含先前捕获的视频的视频档案库、用于从视频内容提供者接收视频的视频馈送接口和/或用于生成计算机图形数据作为源视频的计算机图形***或这样的源的组合。如果视频源1214是摄像机,则第一视频处理设备和第二视频处理设备可以形成所谓的相机电话或视频电话。然而,本披露内容中描述的技术通常可以应用于视频编码,并且可以应用于无线应用和/或有线应用。
捕获的、预捕获的或计算机生成的视频可以由视频编码器1216进行编码。经编码视频数据可以经由I/O接口1208直接传输到第二视频处理设备。经编码视频数据还可以(或可替代地)存储到存储设备1210上,以供第二视频处理设备或其他设备稍后访问,以进行解码和/或回放。
第二视频处理设备可以进一步包括视频解码器1218和显示设备1220。在一些情况下,I/O接口1212可以包括接收器和/或调制解调器。第二视频处理设备的I/O接口1212可以接收经编码视频数据。通过通信信道传送的或存储设备1210上提供的经编码视频数据可以包括由视频编码器1216生成的各种语法元素,以供视频解码器(诸如视频解码器1218)在解码视频数据时使用。这种语法元素可以被包括在在通信介质上传输、存储在存储介质上或存储在文件服务器上的经编码视频数据中。
显示设备1220可以与第二视频处理设备集成在一起或在第二视频处理设备外部。在一些示例中,第二视频处理设备可以包括集成显示设备,并且还被配置成与外部显示设备接口连接。在其他示例中,第二视频处理设备可以是显示设备。通常,显示设备将经解码视频数据显示给用户,并且可以包括各种显示设备中的任何一种,诸如液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一种类型的显示设备。
视频编码器1216和视频解码器1218可以根据诸如高效视频编码(HEVC)、VP9或AV1等视频压缩标准来操作。可替代地,视频编码器1216和视频解码器1218可以根据其他专有标准或行业标准(诸如ITU-T H.264标准(可替代地称为MPEG-4部分10高级视频编码(AVC)),或这种标准的扩展)来操作。然而,本披露内容的技术不限于任何特定的编码标准。
尽管未在图12中示出,但在一些方面,视频编码器1216和视频解码器1218可以各自与音频编码器和音频解码器集成在一起,并且可以包括适当的MUX-DEMUX单元或其他硬件和软件,以处理对共同数据流或单独数据流中的音频和视频两者的编码。如果适用,在一些示例中,MUX-DEMUX单元可以符合ITU H.223多路复用器协议或其他协议,诸如用户数据报协议(UDP)。
视频编码器1216和视频解码器1218可以各自实施为各种合适的编码器电路***中的任何一种,诸如一个或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当这些技术部分地以软件实施时,设备可以将针对软件的指令存储在合适的非暂态计算机可读介质中,并使用一个或多个处理器以硬件方式执行指令以执行本披露内容的技术。视频编码器1216和视频解码器1218中的每一者可以被包括在一个或多个编码器或解码器中,该编码器或解码器中的任一个可以作为组合编码器/解码器(CODEC)的一部分被集成在对应设备中。
本披露内容通常可以涉及视频编码器将某些信息“发信号通知”给另一设备(诸如视频解码器)。术语“发信号通知”通常可以是指对用于解码经压缩视频数据的语法元素和/或其他数据(元数据)的传送。这种传送可以实时或近实时地发生。可替代地,这种传送可以在一定时间跨度内发生,诸如可能在编码时将语法元素以经编码比特流的形式存储到计算机可读存储介质中时发生,然后,这些语法元素可以在被存储到此介质之后的任何时间由解码设备检索。
本披露内容的技术可以在包括无线手持机、集成电路(IC)或一组IC(例如,芯片组)的各种设备或装置中实施。在本披露内容中描述了各种部件、模块或单元以强调被配置成执行所披露技术的设备的功能方面,但不一定需要由不同硬件单元来实现。而是,如上所述,各种单元可以组合在编解码器硬件单元中,或者由互操作硬件单元(包括如上所述的一个或多个处理器)的集合结合合适的软件和/或固件来提供。
本文所使用的术语仅用于描述特定实施例,并且不旨在限制本发明。如本文所使用的,单数形式“一个(a)”、“一种(an)”和“该(the)”旨在同样包括复数形式,除非上下文以其他方式清晰表明之外。将进一步理解的是,当在本说明书中使用术语“包括(comprises)”和/或“包括(comprising)”时,其指定陈述的特征、整数、步骤、操作、元件和/或部件的存在,但不排除一个或多个其他特征、整数、步骤、操作、元件、部件和/或它们的组的存在或添加。
以下权利要求中所有装置或步骤加上功能元件的对应结构、材料、动作和等同物旨在包括用于与如具体要求保护的其他要求保护的元件结合执行功能的任何结构、材料或动作。已经出于说明和描述的目的而呈现本发明的描述,但是该描述并不旨在穷举本发明或将本发明限于所披露的形式。在不脱离本发明的范围和精神的情况下,很多修改和变化对本领域普通技术人员都将是明显的。实施例的选择和描述是为了最佳地解释本发明的原理和实际应用,并且当适合于所构想的特定用途时,使得本领域的其他普通技术人员能够针对具有各种修改的各个实施例理解本发明。

Claims (16)

1.一种将视频帧编码为比特流的方法,该方法包括:
编码装置的处理器在环内编码过程期间根据所述编码装置的率失真优化环路中的成本函数确定是否使用超分辨率技术;
基于确定使用超分辨率技术,所述处理器将下采样方案应用于具有第一分辨率的原始视频帧,以确定第一低分辨率原始帧和一个或多个第二低分辨率原始帧,该第一低分辨率原始帧和该一个或多个第二低分辨率原始帧具有低于该第一分辨率的第二分辨率;
该处理器将该第一低分辨率原始帧分割为第一原始块,并且将该一个或多个第二低分辨率原始帧分割为第二原始块;
该处理器使用预测方法来确定第一预测块,这些第一预测块限定了对该第一低分辨率原始帧的第一原始块的预测;
该处理器基于这些第一预测块和这些第一原始块确定第一残差块,并且随后基于这些第一残差块和这些第一预测块确定第一重构块;
该处理器基于这些第一重构块确定第二预测块,这些第二预测块限定了对该一个或多个第二低分辨率原始帧的第二原始块的预测;
该处理器基于这些第二预测块和这些第二原始块确定第二残差块;以及
该处理器将这些第一残差块和这些第二残差块变换成比特流,该比特流包括用于向解码器装置发信号通知在编码期间使用了下采样方案来对该视频帧进行下采样的元数据。
2.根据权利要求1所述的方法,其中,该视频帧是I帧,并且其中,确定这些第一预测块包括:
使用帧内预测方法来确定这些第一预测块;
或者,其中,该视频帧是P帧或B帧,并且其中,确定这些第一预测块包括:
使用帧间预测方法来确定这些第一预测块。
3.根据权利要求1或2所述的方法,其中,这些第一重构块限定了第一低分辨率重构帧,该第一低分辨率重构帧限定了用于确定这些第二预测块的参考帧。
4.根据权利要求3所述的方法,其中,使用块匹配预测方法来确定这些第二预测块,该块匹配预测方法基于以下方法:基于帧内区域的模板匹配方法或帧内复制块方法。
5. 根据权利要求1所述的方法,其中,与该第一低分辨率原始帧相关联的第一残差块和与该一个或多个第二低分辨率原始帧相关联的第二残差块限定了数据结构、子图片组sub -GOP,该数据结构与用于该sub-GOP的元数据相关联。
6.根据权利要求1所述的方法,其中,该下采样方案是多相下采样方案,该下采样方案包括多个空间下采样点阵。
7.根据权利要求6所述的方法,其中,该下采样方案包括四个下采样点阵。
8.根据权利要求1所述的方法,其中,该第一低分辨率原始帧和该一个或多个第二低分辨率原始帧被空间复用为具有该第一分辨率的复用视频帧。
9.根据权利要求1所述的方法,其中,该元数据包括一个或多个第一参数,用于向该解码器装置发信号通知该编码装置所使用的下采样方案类型;和/或,其中,该元数据包括一个或多个第二参数,用于向该解码器装置发信号通知用于预测这些第一预测块所使用的预测类型;和/或,其中,该元数据包括一个或多个第三参数,用于向该解码器装置发信号通知用于预测这些第二预测块所使用的预测类型。
10.一种将比特流解码为视频帧的方法,该方法包括:
解码装置的处理器接收比特流,该比特流包括与第一低分辨率原始帧相关联的第一经编码残差块和与一个或多个第二低分辨率原始帧相关联的第二经编码残差块;
该处理器接收与这些第一经编码残差块和这些第二经编码残差块相关联的元数据,该元数据向该解码装置发信号通知编码器装置使用了下采样方案来将具有第一分辨率的原始帧下采样为该第一低分辨率原始帧和该一个或多个第二低分辨率原始帧,该第一低分辨率原始帧和该一个或多个第二低分辨率原始帧具有低于该第一分辨率的第二分辨率;
该处理器使用预测方法来确定第一预测块,这些第一预测块限定了对该第一低分辨率原始帧的第一原始块的预测;
该处理器将这些第一经编码残差块变换成第一残差块,并且基于这些第一残差块和这些第一预测块确定第一重构块,这些第一重构块限定了第一低分辨率重构帧;
该处理器基于这些第一重构块确定第二预测块,这些第二预测块限定了对该一个或多个第二低分辨率原始帧的第二原始块的预测;
该处理器将这些第二经编码残差块变换成第二残差块,并且基于这些第二残差块和这些第二预测块确定第二重构块,这些第二重构块限定了一个或多个第二低分辨率重构帧;以及
该处理器基于该第一低分辨率重构帧和该一个或多个第二低分辨率重构帧确定重构原始视频帧。
11.根据权利要求10所述的方法,其中,确定这些重构块包括:
对该第一低分辨率重构帧和该一个或多个第二低分辨率重构帧进行上采样,该上采样基于与该下采样方案相关联的上采样方案;以及
将经上采样的第一低分辨率重构帧和经上采样的第二低分辨率重构帧组合为重构原始视频帧。
12.根据权利要求10或11所述的方法,其中,使用块匹配预测方法来确定这些第二预测块,该块匹配预测方法基于以下方法:基于帧内区域的模板匹配方法或帧内复制块方法。
13.根据权利要求1或10所述的方法,其中,该比特流是基于高效视频编码HEVC的比特流、基于开放媒体联盟视频AV1的比特流、或基于多功能视频编码VVC的比特流。
14.一种用于将视频帧编码为比特流的装置,该装置包括:
计算机可读存储介质,该计算机可读存储介质具有用其体现的程序的至少一部分;以及计算机可读存储介质,该计算机可读存储介质具有用其体现的计算机可读程序代码;以及处理器,该处理器耦合至该计算机可读存储介质,其中,响应于执行该计算机可读程序代码,该处理器被配置成执行可执行操作,这些可执行操作包括:
在环内编码过程期间根据所述编码装置的率失真优化环路中的成本函数确定是否使用超分辨率技术;
基于确定使用超分辨率技术,将下采样方案应用于具有第一分辨率的原始视频帧,以确定第一低分辨率原始帧和一个或多个第二低分辨率原始帧,该第一低分辨率原始帧和该一个或多个第二低分辨率原始帧具有低于该第一分辨率的第二分辨率;
将该第一低分辨率原始帧分割为第一原始块,并且将该一个或多个第二低分辨率原始帧分割为第二原始块;
使用预测方法来确定第一预测块,这些第一预测块限定了对该第一低分辨率原始帧的第一原始块的预测;
基于这些第一预测块和这些第一原始块确定第一残差块,并且随后基于这些第一残差块和这些第一预测块确定第一重构块;
基于这些第一重构块确定第二预测块,这些第二预测块限定了对该一个或多个第二低分辨率原始帧的第二原始块的预测;
基于这些第二预测块和这些第二原始块确定第二残差块;以及
将这些第一残差块和这些第二残差块变换成比特流,该比特流包括用于向解码器装置发信号通知在编码期间使用了下采样方案来对该视频帧进行下采样的元数据。
15.一种用于将比特流解码为视频帧的装置,该装置包括:
计算机可读存储介质,该计算机可读存储介质具有用其体现的程序的至少一部分;以及计算机可读存储介质,该计算机可读存储介质具有用其体现的计算机可读程序代码;以及处理器,该处理器耦合至该计算机可读存储介质,其中,响应于执行该计算机可读程序代码,该处理器被配置成执行可执行操作,这些可执行操作包括:
接收比特流,该比特流包括与第一低分辨率原始帧相关联的第一经编码残差块和与一个或多个第二低分辨率原始帧相关联的第二经编码残差块;
接收与这些第一经编码残差块和这些第二经编码残差块相关联的元数据,该元数据向解码器装置发信号通知编码器装置使用了下采样方案来将具有第一分辨率的原始帧下采样为该第一低分辨率原始帧和该一个或多个第二低分辨率原始帧,该第一低分辨率原始帧和该一个或多个第二低分辨率原始帧具有低于该第一分辨率的第二分辨率;
使用预测方法来确定第一预测块,这些第一预测块限定了对该第一低分辨率原始帧的第一原始块的预测;
将这些第一经编码残差块变换成第一残差块,并且基于这些第一残差块和这些第一预测块确定第一重构块,这些第一重构块限定了第一低分辨率重构帧;
基于这些第一重构块确定第二预测块,这些第二预测块限定了对该一个或多个第二低分辨率原始帧的第二原始块的预测;
将这些第二经编码残差块变换成第二残差块,并且基于这些第二残差块和这些第二预测块确定第二重构块,这些第二重构块限定了一个或多个第二低分辨率重构帧;以及
基于该第一低分辨率重构帧和该一个或多个第二低分辨率重构帧确定重构原始视频帧。
16.根据权利要求14或15所述的装置,其中,所述处理器为微处理器。
CN201980023891.3A 2018-04-13 2019-04-12 基于帧级超分辨率的视频编码 Active CN111937385B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18167361.7 2018-04-13
EP18167361 2018-04-13
PCT/EP2019/059534 WO2019197661A1 (en) 2018-04-13 2019-04-12 Frame-level super-resolution-based video coding

Publications (2)

Publication Number Publication Date
CN111937385A CN111937385A (zh) 2020-11-13
CN111937385B true CN111937385B (zh) 2024-04-16

Family

ID=62002029

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201980023251.2A Active CN111937401B (zh) 2018-04-13 2019-04-12 基于块级超分辨率的视频编码的方法和装置
CN201980023891.3A Active CN111937385B (zh) 2018-04-13 2019-04-12 基于帧级超分辨率的视频编码

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201980023251.2A Active CN111937401B (zh) 2018-04-13 2019-04-12 基于块级超分辨率的视频编码的方法和装置

Country Status (5)

Country Link
US (2) US11438610B2 (zh)
EP (2) EP3777166A1 (zh)
JP (1) JP7269257B2 (zh)
CN (2) CN111937401B (zh)
WO (2) WO2019197674A1 (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10474458B2 (en) 2017-04-28 2019-11-12 Intel Corporation Instructions and logic to perform floating-point and integer operations for machine learning
US10687083B2 (en) * 2018-06-06 2020-06-16 Intel Corporation Loop restoration filtering for super resolution video coding
US10645409B2 (en) * 2018-06-26 2020-05-05 Google Llc Super-resolution loop restoration
WO2020179205A1 (ja) * 2019-03-01 2020-09-10 株式会社ソニー・インタラクティブエンタテインメント 画像送受信システム、画像送信装置、画像受信装置、画像送受信方法及びプログラム
US11934342B2 (en) 2019-03-15 2024-03-19 Intel Corporation Assistance for hardware prefetch in cache access
KR20210136994A (ko) 2019-03-15 2021-11-17 인텔 코포레이션 매트릭스 가속기 아키텍처 내에서의 시스톨릭 분리
BR112021016111A2 (pt) 2019-03-15 2021-11-09 Intel Corp Dispositivo de computação, unidade de processamento paralelo, núcleo de unidade de processamento gráfico de propósito geral e multiprocessador gráfico
CN110662071B (zh) * 2019-09-27 2023-10-24 腾讯科技(深圳)有限公司 视频解码方法和装置、存储介质及电子装置
US11663746B2 (en) * 2019-11-15 2023-05-30 Intel Corporation Systolic arithmetic on sparse data
WO2021112652A1 (ko) * 2019-12-05 2021-06-10 한국전자통신연구원 영역 차등적 영상 부호화/복호화를 위한 방법, 장치 및 기록 매체
US12008732B2 (en) 2020-04-02 2024-06-11 Sony Group Corporation Super-resolution of block-compressed texture for texture mapping applications
WO2021249867A1 (en) * 2020-06-12 2021-12-16 Interdigital Vc Holdings France, Sas A method and apparatus for encoding and decoding volumetric video as partitioned patch atlases
CN113810763A (zh) * 2020-06-15 2021-12-17 深圳市中兴微电子技术有限公司 一种视频处理方法、设备及存储介质
CN111738924A (zh) * 2020-06-22 2020-10-02 北京字节跳动网络技术有限公司 图像处理方法及装置
WO2022016389A1 (en) * 2020-07-21 2022-01-27 Siemens Aktiengesellschaft Multi-parameter dynamic sampling method and multi-parameter dynamic sampling device
US11962784B2 (en) * 2020-09-23 2024-04-16 Ofinno, Llc Intra prediction
US20220201307A1 (en) * 2020-12-23 2022-06-23 Tencent America LLC Method and apparatus for video coding
WO2022144262A1 (en) * 2020-12-29 2022-07-07 Koninklijke Kpn N.V. Adaptive resolution coding for video coding
US11924408B2 (en) * 2021-01-14 2024-03-05 Tencent America LLC Method and apparatus for video coding
CN112950471A (zh) * 2021-02-26 2021-06-11 杭州朗和科技有限公司 视频超分处理方法、装置、超分辨率重建模型、介质
WO2023274406A1 (en) * 2021-07-01 2023-01-05 Beijing Bytedance Network Technology Co., Ltd. Super resolution upsampling and downsampling
US12041248B2 (en) * 2021-08-02 2024-07-16 Mediatek Singapore Pte. Ltd. Color component processing in down-sample video coding
CN114067258B (zh) * 2022-01-18 2022-05-03 电子科技大学 一种面部通话视频的分层编码方法
CN115082322B (zh) * 2022-07-26 2022-11-15 腾讯科技(深圳)有限公司 图像处理方法和装置、图像重建模型的训练方法和装置
CN116797462B (zh) * 2023-08-18 2023-10-24 深圳市优森美科技开发有限公司 基于深度学习的实时视频超分辨率重建方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6104434A (en) * 1996-10-24 2000-08-15 Fujitsu Limited Video coding apparatus and decoding apparatus
CN101710993A (zh) * 2009-11-30 2010-05-19 北京大学 基于块的自适应超分辨率视频处理方法及***
CA2727119A1 (en) * 2010-01-08 2011-07-08 Research In Motion Limited Method and device for motion vector prediction in video transcoding using full resolution residuals
CN102196256A (zh) * 2010-03-11 2011-09-21 中国科学院微电子研究所 一种视频编码方法及装置
CA2763489A1 (en) * 2011-01-19 2012-07-19 Research In Motion Limited Method and device for improved multi-layer data compression
US8780976B1 (en) * 2011-04-28 2014-07-15 Google Inc. Method and apparatus for encoding video using granular downsampling of frame resolution
WO2017129568A1 (en) * 2016-01-25 2017-08-03 Koninklijke Kpn N.V. Spatial scalable video coding

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9154808B2 (en) * 2005-01-14 2015-10-06 Thomson Licensing Method and apparatus for INTRA prediction for RRU
US8488680B2 (en) * 2008-07-30 2013-07-16 Stmicroelectronics S.R.L. Encoding and decoding methods and apparatus, signal and computer program product therefor
US20110002391A1 (en) * 2009-06-11 2011-01-06 Motorola, Inc. Digital image compression by resolution-adaptive macroblock coding
WO2011090790A1 (en) 2010-01-22 2011-07-28 Thomson Licensing Methods and apparatus for sampling -based super resolution vido encoding and decoding
US9699452B2 (en) * 2011-09-15 2017-07-04 Vid Scale, Inc Systems and methods for spatial prediction
JP5860337B2 (ja) * 2012-04-25 2016-02-16 日本電信電話株式会社 映像符号化方法及び装置
MY178305A (en) 2013-10-11 2020-10-07 Vid Scale Inc High level syntax for hevc extensions
US9589206B2 (en) 2013-12-05 2017-03-07 Hochschule Pforzheim Optimizing an image filter
US20160127728A1 (en) * 2014-10-30 2016-05-05 Kabushiki Kaisha Toshiba Video compression apparatus, video playback apparatus and video delivery system
CN104702962B (zh) 2015-03-03 2019-04-16 华为技术有限公司 帧内编解码方法、编码器和解码器
CN107155107B (zh) 2017-03-21 2018-08-03 腾讯科技(深圳)有限公司 视频编码方法和装置、视频解码方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6104434A (en) * 1996-10-24 2000-08-15 Fujitsu Limited Video coding apparatus and decoding apparatus
CN101710993A (zh) * 2009-11-30 2010-05-19 北京大学 基于块的自适应超分辨率视频处理方法及***
CA2727119A1 (en) * 2010-01-08 2011-07-08 Research In Motion Limited Method and device for motion vector prediction in video transcoding using full resolution residuals
CN102196256A (zh) * 2010-03-11 2011-09-21 中国科学院微电子研究所 一种视频编码方法及装置
CA2763489A1 (en) * 2011-01-19 2012-07-19 Research In Motion Limited Method and device for improved multi-layer data compression
US8780976B1 (en) * 2011-04-28 2014-07-15 Google Inc. Method and apparatus for encoding video using granular downsampling of frame resolution
WO2017129568A1 (en) * 2016-01-25 2017-08-03 Koninklijke Kpn N.V. Spatial scalable video coding

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Intra Block Copy in HEVC Screen Content Coding Extensions;Xiaozhong Xu;IEEE JOURNAL ON EMERGING AND SELECTED TOPICS IN CIRCUITS AND SYSTEMS;第6卷(第4期);引言部分第5段 *
Overview of the High Efficiency Video Coding (HEVC) Standard;Gary J. Sullivan,;IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY;第22卷(第12期);1650页右栏第1段 *

Also Published As

Publication number Publication date
EP3777189A1 (en) 2021-02-17
CN111937385A (zh) 2020-11-13
CN111937401B (zh) 2022-08-16
WO2019197674A1 (en) 2019-10-17
US11330280B2 (en) 2022-05-10
JP2021520741A (ja) 2021-08-19
EP3777166A1 (en) 2021-02-17
WO2019197661A1 (en) 2019-10-17
CN111937401A (zh) 2020-11-13
US20210099722A1 (en) 2021-04-01
US11438610B2 (en) 2022-09-06
US20210211643A1 (en) 2021-07-08
JP7269257B2 (ja) 2023-05-08

Similar Documents

Publication Publication Date Title
CN111937385B (zh) 基于帧级超分辨率的视频编码
US11064199B2 (en) Method and system for generating a transform size syntax element for video decoding
CN105379284B (zh) 动态图像编码装置及其动作方法
US20140198846A1 (en) Device and method for scalable coding of video information
KR102558495B1 (ko) Hls를 시그널링하는 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 컴퓨터 판독 가능한 기록 매체
KR20230150284A (ko) 효율적인 비디오 인코더 아키텍처
US20240064317A1 (en) Adaptive resolution coding for video coding
WO2021244182A1 (zh) 视频编码方法、视频解码方法及相关设备
JP2023553882A (ja) 拡張補間フィルタを使用したイントラ予測
WO2024011065A1 (en) Non-separable transform for inter-coded blocks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant