CN113556567A - 帧间预测的方法和装置 - Google Patents
帧间预测的方法和装置 Download PDFInfo
- Publication number
- CN113556567A CN113556567A CN202010330793.9A CN202010330793A CN113556567A CN 113556567 A CN113556567 A CN 113556567A CN 202010330793 A CN202010330793 A CN 202010330793A CN 113556567 A CN113556567 A CN 113556567A
- Authority
- CN
- China
- Prior art keywords
- motion field
- prediction
- frame
- resolution
- residual error
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
- H04N19/91—Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/593—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/80—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
- H04N19/82—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请涉及人工智能领域中的视频编解码技术,提供了一种帧间预测方法,包括:获取预测运动场和运动场残差,所述预测运动场是参考帧的运动场,所述运动场残差的分辨率小于所述参考帧的分辨率;根据所述预测运动场和所述运动场残差生成重建运动场;对所述重建运动场进行上采样生成目标运动场;根据所述目标运动场生成预测帧。由于分辨率较低的运动场残差所含的信息较少,因此,在后续对运动场残差进行熵编码或熵解码的过程中,分辨率较低的运动场残差的熵编码或熵解码的效率更高。此外,上采样能够提高重建运动场的分辨率,从而使预测帧的分辨率与编码图像的分辨率相同。因此,上述方法能够在不影响帧间预测效果的同时提高编码效率和解码效率。
Description
技术领域
本申请涉及人工智能中的视频编解码技术,具体涉及一种帧间预测的方法和装置。
背景技术
视频编码能够减小视频数据中的冗余信息,因此,视频编码对于提高视频的存储效率和传输效率有着重要意义。端到端视频编码是一种新的视频编码方法,其利用神经网络建立重建视频与原始视频的全局优化模型,从而突破了传统视频编码模型只能在局部进行优化的限制。
在端到端视频编码中,编码端对原始视频编码后,需要向解码端传输包含编码结果的码流;解码端收到码流后,需要对码流进行解码,恢复出编码信息,并根据编码信息重建视频。现有的编码效率和解码效率有待提高。
发明内容
本申请提供一种帧间预测的方法和装置,能够提高运动场的编码效率和解码效率。
第一方面,提供了一种帧间预测的方法,包括:获取预测运动场和运动场残差,所述预测运动场是参考帧的运动场,所述运动场残差的分辨率小于所述参考帧的分辨率;根据所述预测运动场和所述运动场残差生成重建运动场;对所述重建运动场进行上采样生成目标运动场;根据所述目标运动场生成预测帧。
上述方法可以由编码端或解码端执行。对于编码端,运动场残差的分辨率小于当前帧的分辨率,并且,运动场残差的分辨率小于参考帧的分辨率;对于解码端,运动场残差的分辨率小于参考帧的分辨率。由于分辨率较低的运动场残差所含的信息比分辨率较高的运动场残差所含的信息少,因此,在后续对运动场残差进行熵编码的过程中,使用分辨率较低的运动场残差进行熵编码的编码效率更高;相应地,使用分辨率较低的运动场残差进行熵解码的解码效率也更高。此外,上采样能够提高重建运动场的分辨率,从而提高了预测帧的分辨率,例如,使预测帧的分辨率与编码图像的分辨率相同。因此,上述方法能够在不影响帧间预测效果的同时提高编码效率和解码效率。
可选地,所述获取预测运动场和运动场残差,包括:获取真实运动场和所述预测运动场,其中,所述真实运动场是当前帧的运动场,所述真实运动场的分辨率小于所述当前帧的分辨率;根据所述真实运动场和所述预测运动场生成运动场残差。
该可选的实施方式由编码端执行,能够在不影响帧间预测效果的同时提高编码效率。
可选地,所述获取预测运动场和运动场残差,包括:从码流中获取所述运动场残差。
该可选的实施方式由解码端执行,能够在不影响帧间预测效果的同时提高解码效率。
可选地,所述真实运动场的分辨率是所述当前帧的分辨率的四分之一,和/或,所述预测运动场的分辨率是所述参考帧的分辨率的四分之一。
当真实运动场的高和宽分别为H/2和W/2时,真实运动场的分辨率为当前帧的分辨率的四分之一;当预测运动场的高和宽分别为H/2和W/2时,预测运动场的分辨率为参考帧的分辨率的四分之一。相比于使用其它分辨率的运动场,本实施例可以取得更好的压缩效果。
第二方面,本申请提供了一种帧间预测装置,包括用于实施第一方面的任意一种方法的若干个功能单元。例如,帧间预测装置可以包括:
获取单元,用于获取预测运动场和运动场残差,所述预测运动场是参考帧的运动场,所述运动场残差的分辨率小于所述参考帧的分辨率;
重建单元,用于根据所述预测运动场和所述运动场残差生成重建运动场;
上采样单元,用于对所述重建运动场进行上采样生成目标运动场;
帧间预测单元,用于根据所述目标运动场生成预测帧。
第三方面,本申请提供了一种视频编码器,该视频编码器包括:
第二方面所述的帧间预测装置,该帧间预测装置用于生成所述运动场残差;
变换神经网络,用于对所述运动场残差进行变换编码,输出变换运动场残差;
量化模块,用于对所述变换运动场残差进行量化,输出量化后的变换运动场残差;
熵编码模块,用于对所述量化后的变换运动场残差进行熵编码,输出码流;
反量化模块,用于对所述量化后的变换运动场残差进行反量化,输出恢复的变换运动场残差;
反变换神经网络,用于对所述恢复的变换运动场残差进行反变换,输出恢复的运动场残差;
所述帧间预测装置还用于根据所述恢复的运动场残差生成所述预测帧。
第四方面,本申请提供了一种视频解码器,所述视频解码器包括:
熵解码模块,用于从码流中解码出量化后的变换运动场残差;
反量化模块,用于对所述量化后的变换运动场残差进行反量化,输出恢复的变换运动场残差;
反变换神经网络,用于对所述恢复的变换运动场残差进行反变换,输出恢复的运动场残差;;
第二方面所述的帧间预测装置,用于根据所述恢复的运动场残差和所述预测运动场生成所述预测帧。
第五方面,本申请提供一种用于编码设备,所述编码设备包括相互耦合的非易失性存储器和处理器,所述处理器调用存储在所述非易失性存储器中的程序代码以执行第一方面的任意一种方法的部分或全部步骤。
第六方面,本申请提供一种用于解码设备,所述解码设备包括相互耦合的非易失性存储器和处理器,所述处理器调用存储在所述非易失性存储器中的程序代码以执行第一方面的任意一种方法的部分或全部步骤。
第七方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质存储了程序代码,其中,所述程序代码包括用于执行第一方面的任意一种方法的部分或全部步骤的指令。
第八方面,本申请实施例提供一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。
附图说明
图1是一种适用于本申请的视频编码***的示意图;
图2是一种适用于本申请的视频解码***的示意图;
图3是本申请提供的一种帧间预测方法的示意图;
图4是本申请提供的一种用于视频编码的神经网络的示意图;
图5是几种视频编码方法的编码效果的示意图;
图6是本申请提供的一种帧间预测装置的示意图;
图7是本申请提供的一种视频编码设备或视频解码设备的示意图。
具体实施方式
下面将结合附图,对本申请中的技术方案进行描述。
图1是一种适用于本申请的视频编码***(也可称为编码器)。
该视频编码***包括帧内预测(intra prediction)、帧间预测(interprediction)、变换(transform)、量化(quantization)、熵编码(entropy encode)、环内滤波(in-loop filtering)等模块。
视频由多个原始帧组成,该多个原始帧包括待编码的当前帧(Fn)。当前帧输入视频编码***后基于预测模式被输入帧内预测神经网络或帧间预测神经网络,随后进行帧内预测或者帧间预测。图1中,P表示预测信息,Dn表示当前帧的残差信息(如运动场残差和图像残差),uFn'表示滤波前的重建信息,Dn'表示恢复的残差信息。
帧内预测是指利用当前帧的已重建区域内的像素点的像素值对当前帧内待重建区域的像素点的像素值进行预测。其中,可以对实现帧内编码、帧内预测和帧内解码的神经网络进行联合训练。联合训练从已有模块的权重为初始点进行迁移学习,可大幅减少模型训练的时间。
帧间预测是指利用已重建的帧(即,参考帧)对当前帧内像素点的像素值进行预测,例如,可以利用上一个重建帧Fn-1'作为当前帧Fn的参考帧进行帧间预测。可选地,可以利用深度神经网络(deep neural networks,DNN)进行帧间预测。例如,可以将当前帧和参考帧分别输入DNN(如Flownet)得到当前帧的运动场和参考帧的运动场,基于该两个运动场生成运动场残差。可以通过当前帧的运动场与参考帧的运动场直接相减的方式得到运动场残差,也可以通过其它方式得到运动场残差。随后,可以利用神经网络对运动场残差进行变换编码,再对变换编码后的运动场残差进行量化、熵编码等操作,最终得到码流。
在编码端的处理过程中,还可以对量化后的运动场残差进行反量化得到恢复的变换运动场残差,可以通过神经网络对恢复的变换运动场残差进行反变换编码,获得恢复的运动场残差。恢复的运动场残差可以与预测运动场共同生成重建的预测帧,重建的预测帧在通过神经网络的环路滤波处理后用于重建当前帧Fn',Fn'可以作为后续的帧间编码(如原始帧Fn+1的帧间编码)的参考帧。
解码端对码流的处理类似于编码端对图像进行编码的逆过程,图2示出了适用于本申请的视频解码***(也可称为解码器)。
如图2所示,解码端首先通过熵解码从码流中获取量化后的变换运动场残差,变换运动场残差经过反量化生成恢复的变换运动场残差,恢复的变换运动场残差经过神经网络的反变换编码得到恢复的运动场残差,解码端可以通过恢复的运动场残差可以与预测运动场(基于上一次解码过程中重建的参考帧生成的)生成重建的预测帧,再利用预测帧得到滤波前的重建信息uFn'。对于帧内预测,预测信息P可以是当前帧的已重建区域内像素点的像素值;对于帧间预测,预测信息P即重建的预测帧。
uFn'经过神经网络环路滤波处理便可以得到当前帧的重建信息,即重建帧Fn',Fn'可以作为后续的帧间预测的参考帧。
由图1和图2可知,编码端对原始视频编码后,需要向解码端传输包含运动场残差的码流;解码端根据运动场残差进行帧间预测,并生成预测帧。图3是本申请提供的一种帧间预测帧方法,该方法可以由编码端或解码端执行。方法300包括:
S310,获取预测运动场和运动场残差,所述预测运动场是参考帧的运动场,所述运动场残差的分辨率小于所述参考帧的分辨率。
当S310由编码端执行时,编码端可以根据当前帧生成真实运动场,并根据参考帧生成预测运动场,随后根据真实运动场和预测运动场生成运动场残差,下文将详细描述编码端如何生成运动场残差。
当S310由解码端执行时,解码端可以接收码流,对码流进行熵解码后生成运动场残差;预测运动场可以通过神经网络处理参考帧获得。
运动场与图像的像素相关,因此,也可以用分辨率来描述运动场。在方法300中,真实运动场的分辨率小于当前帧的分辨率,并且,预测运动场的分辨率小于参考帧的分辨率,因此,基于上述真实运动场和上述预测运动场生成的运动场残差的分辨率也小于当前帧的分辨率,由于分辨率较低的运动场残差所含的信息比分辨率较高的运动场残差所含的信息少,因此,在后续对运动场残差和预测运动场进行熵编码的过程中,使用分辨率较低的运动场残差进行熵编码的编码效率更高;相应地,使用分辨率较低的运动场残差进行熵解码的解码效率也更高。
下面介绍编码端获取真实运动场和预测运动场的方法。
编码端可以将视频分为图像组(group of pictures,GOP),对GOP中的第一帧进行图像编码,对GOP中除第一帧以外的帧进行帧间编码,其中,该第一帧指的是第一个被编码的帧,其可以是GOP中时刻最早的帧,也可以不是GOP中时刻最早的帧。
在对第一帧进行图像编码后,可以从GOP中未编码的原始帧中确定一个帧作为当前帧,可以将第一帧作为当前帧的参考帧对当前帧进行帧间预测。
可以通过图4所示的神经网络分别对当前帧和参考帧进行处理,得到真实运动场和预测运动场,图4中生成预测运动场和真实运动场的神经网络是一个训练完成的自编码器(该自编码器例如是Flownet),自编码器的神经网络层之间的箭头表示跳跃连接;卷积层和反卷积层下面的数字表示该神经网络层所包含的卷积核的数量。图4所示的神经网络是适用于本申请的一个示例,能够生成真实运动场和预测运动场的神经网络不限于此。
真实运动场和预测运动场例如是逐个像素(pixel-wise)的光流场。运动场是描述物体在空间中的运动的概念,但是难以从组成视频的图像中直接得到运动场。光流场(optical flow field)是一个二维矢量场,它反映了图像上每个像素点的灰度的变化趋势,可以看成是带有灰度的像素点在图像平面上运动而产生的瞬时速度场,因此,可以用光流场表示运动场。
可选地,若当前帧和参考帧的维度为H×W,则真实运动场和预测运动场的维度可以为(H/2)×(W/2),H表示高度,W表示宽度。当真实运动场的高和宽分别为H/2和W/2时,真实运动场的分辨率为当前帧的分辨率的四分之一;当预测运动场的高和宽分别为H/2和W/2时,预测运动场的分辨率为参考帧的分辨率的四分之一。表1给出了本实施例相比于其它方案的效果。
表1
编码端获取真实运动场和预测运动场之后,可以通过真实运动场与预测运动场直接相减的方式得到运动场残差,也可以通过其它方式得到运动场残差。可选地,编码端可以通过图4所示的神经网络对运动场残差进行压缩和量化后,再进行熵编码生成码流;相应地,解码端接收码流后,需要进行熵解码、解压缩和反量化以获取运动场残差。
获取运动场残差后,编码端或解码端还可以执行下列步骤。
S320,根据所述预测运动场和所述运动场残差生成重建运动场;
S330,对所述重建运动场进行上采样生成目标运动场;
S340,根据所述目标运动场生成预测帧。
编码端或解码端可以对运动场残差与预测运动场直接进行相加处理,生成重建运动场,并对重建运动场进行上采样,生成目标运动场,随后,可以对目标运动场进行扭曲(warp)处理生成预测帧。
上述上采样可以是最邻近(nearest neighbor)插值法,也可以是其它上采样方法,本申请对此不做限定。
上采样能够提高重建运动场的分辨率,从而提高了预测帧的分辨率,例如,使预测帧的分辨率与编码图像的分辨率相同。因此,方法300能够在不影响帧间预测效果的同时提高编码效率和解码效率。
图5示出了方法300与其它几种视频编码方法的编码效果。由图5可以看出,方法300的峰值信噪比(peak signal to noise ratio,PSNR)略大于HM-16.9的PSNR,并且,远大于x264、x265和16×16运动矢量(motion vector,MV)块的PSNR。
上文详细介绍了本申请提供的帧间预测方法的示例。可以理解的是,相应的装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请可以根据上述方法示例对装置进行功能单元的划分,例如,可以将各个功能划分为各个功能单元,也可以将两个或两个以上的功能集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图6示出了本申请提供的一种帧间预测装置的结构示意图。装置600包括获取单元610、重建单元620、上采样单元630和帧间预测单元640。
获取单元610用于获取预测运动场和运动场残差,所述预测运动场是参考帧的运动场,所述运动场残差的分辨率小于所述参考帧的分辨率;
重建单元620用于根据所述预测运动场和所述运动场残差生成重建运动场;
上采样单元630用于对所述重建运动场进行上采样生成目标运动场;
帧间预测单元640用于根据所述目标运动场生成预测帧。
可选地,所述获取单元610具体用于:获取真实运动场和所述预测运动场,其中,所述真实运动场是当前帧的运动场,所述真实运动场的分辨率小于所述当前帧的分辨率;根据所述真实运动场和所述预测运动场生成运动场残差。
可选地,所述真实运动场的分辨率是所述当前帧的分辨率的四分之一,并且,所述预测运动场的分辨率是所述参考帧的分辨率的四分之一。
可选地,所述获取单元可选地具体用于:从所述码流中获取所述运动场残差。
装置600执行帧间预测方法的具体方式以及产生的有益效果可以参见方法实施例中的相关描述。
图7示出了本申请提供的一种编码设备或解码设备的结构示意图。图7中的虚线表示该单元或该模块为可选的。设备700可用于实现上述方法实施例中描述的方法。设备700可以是终端设备或服务器或芯片。
设备700包括一个或多个处理器701,该一个或多个处理器701可支持设备700实现方法实施例中的方法。处理器701可以是通用处理器或者专用处理器。例如,处理器701可以是中央处理器(central processing unit,CPU)。CPU可以用于对设备700进行控制,执行软件程序,处理软件程序的数据。设备700还可以包括通信单元705,用以实现信号(如码流)的输入(接收)和输出(发送)。
例如,设备700可以是芯片,通信单元705可以是该芯片的输入和/或输出电路,或者,通信单元705可以是该芯片的通信接口,该芯片可以作为终端设备或网络设备或其它电子设备的组成部分。
又例如,设备700可以是终端设备或服务器,通信单元705可以是该终端设备或该服务器的收发器,或者,通信单元705可以是该终端设备或该服务器的收发电路。
设备700中可以包括一个或多个存储器702,其上存有程序704,程序704可被处理器701运行,生成指令703,使得处理器701根据指令703执行上述方法实施例中描述的方法。可选地,存储器702中还可以存储有数据(如待编码的视频或者码流)。可选地,处理器701还可以读取存储器702中存储的数据,该数据可以与程序704存储在相同的存储地址,该数据也可以与程序704存储在不同的存储地址。
处理器701和存储器702可以单独设置,也可以集成在一起,例如,集成在终端设备的***级芯片(system on chip,SOC)上。
处理器701执行方法实施例的具体方式可以参见方法实施例中的相关描述。
应理解,上述方法实施例的各步骤可以通过处理器701中的硬件形式的逻辑电路或者软件形式的指令完成。处理器701可以是CPU、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其它可编程逻辑器件,例如,分立门、晶体管逻辑器件或分立硬件组件。
本申请还提供了一种计算机程序产品,该计算机程序产品被处理器701执行时实现本申请中任一方法实施例所述的方法。
该计算机程序产品可以存储在存储器702中,例如是程序704,程序704经过预处理、编译、汇编和链接等处理过程最终被转换为能够被处理器701执行的可执行目标文件。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机执行时实现本申请中任一方法实施例所述的方法。该计算机程序可以是高级语言程序,也可以是可执行目标程序。
该计算机可读存储介质例如是存储器702。存储器702可以是易失性存储器或非易失性存储器,或者,存储器702可以同时包括易失性存储器和非易失性存储器。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmableROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(randomaccess memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamicRAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
本领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和设备的具体工作过程以及产生的技术效果,可以参考前述方法实施例中对应的过程和技术效果,在此不再赘述。
在本申请所提供的几个实施例中,所揭露的***、装置和方法,可以通过其它的方式实现。例如,以上所描述的方法实施例的一些特征可以忽略,或不执行。以上所描述的装置实施例仅仅是示意性的,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,多个单元或组件可以结合或者可以集成到另一个***。另外,各单元之间的耦合或各个组件之间的耦合可以是直接耦合,也可以是间接耦合,上述耦合包括电的、机械的或其它形式的连接。
应理解,在本申请的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请的实施例的实施过程构成任何限定。
另外,本文中术语“***”和“网络”在本文中常被可互换使用。本文中的术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
总之,以上所述仅为本申请技术方案的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (13)
1.一种帧间预测方法,其特征在于,包括:
获取预测运动场和运动场残差,所述预测运动场是参考帧的运动场,所述运动场残差的分辨率小于所述参考帧的分辨率;
根据所述预测运动场和所述运动场残差生成重建运动场;
对所述重建运动场进行上采样生成目标运动场;
根据所述目标运动场生成预测帧。
2.根据权利要求1所述的方法,其特征在于,所述获取预测运动场和运动场残差,包括:
获取真实运动场和所述预测运动场,其中,所述真实运动场是当前帧的运动场,所述真实运动场的分辨率小于所述当前帧的分辨率;
根据所述真实运动场和所述预测运动场生成运动场残差。
3.根据权利要求2所述的方法,其特征在于,所述真实运动场的分辨率是所述当前帧的分辨率的四分之一,并且,所述预测运动场的分辨率是所述参考帧的分辨率的四分之一。
4.根据权利要求1所述的方法,其特征在于,所述获取预测运动场和运动场残差,包括:
从码流中获取所述运动场残差。
5.一种帧间预测装置,其特征在于,包括:
获取单元,用于获取预测运动场和运动场残差,所述预测运动场是参考帧的运动场,所述运动场残差的分辨率小于所述参考帧的分辨率;
重建单元,用于根据所述预测运动场和所述运动场残差生成重建运动场;
上采样单元,用于对所述重建运动场进行上采样生成目标运动场;
帧间预测单元,用于根据所述目标运动场生成预测帧。
6.根据权利要求5所述的装置,其特征在于,所述获取单元具体用于:
获取真实运动场和所述预测运动场,其中,所述真实运动场是当前帧的运动场,所述真实运动场的分辨率小于所述当前帧的分辨率;
根据所述真实运动场和所述预测运动场生成运动场残差。
7.根据权利要求6所述的装置,其特征在于,所述真实运动场的分辨率是所述当前帧的分辨率的四分之一,并且,所述预测运动场的分辨率是所述参考帧的分辨率的四分之一。
8.根据权利要求5所述的装置,其特征在于,所述获取单元具体用于:
从码流中获取所述运动场残差。
9.一种视频编码器,其特征在于,包括:
如权利要求5至7中任一项所述的帧间预测装置,用于生成所述运动场残差;
变换神经网络,用于对所述运动场残差进行变换编码,输出变换运动场残差;
量化模块,用于对所述变换运动场残差进行量化,输出量化后的变换运动场残差;
熵编码模块,用于对所述量化后的变换运动场残差进行熵编码,输出码流;
反量化模块,用于对所述量化后的变换运动场残差进行反量化,输出恢复的变换运动场残差;
反变换神经网络,用于对所述恢复的变换运动场残差进行反变换,输出恢复的运动场残差;
所述帧间预测装置还用于根据所述恢复的运动场残差生成所述预测帧。
10.一种视频解码器,其特征在于,包括:
熵解码模块,从码流中解码出量化后的变换运动场残差;
反量化模块,用于对所述量化后的变换运动场残差进行反量化,输出恢复的变换运动场残差;
反变换神经网络,用于对所述恢复的变换运动场残差进行反变换,输出恢复的运动场残差;
如权利要求5所述的帧间预测装置,用于根据所述恢复的运动场残差和所述预测运动场生成所述预测帧。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储了计算机程序,当所述计算机程序被处理器执行时,使得处理器执行权利要求1至4中任一项所述的方法。
12.一种编码设备,其特征在于,所述设备包括处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于从所述存储器中调用并运行所述计算机程序,使得所述设备执行权利要求1至3中任一项所述的方法。
13.一种解码设备,其特征在于,所述设备包括处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于从所述存储器中调用并运行所述计算机程序,使得所述设备执行权利要求1或4所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010330793.9A CN113556567B (zh) | 2020-04-24 | 2020-04-24 | 帧间预测的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010330793.9A CN113556567B (zh) | 2020-04-24 | 2020-04-24 | 帧间预测的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113556567A true CN113556567A (zh) | 2021-10-26 |
CN113556567B CN113556567B (zh) | 2022-11-25 |
Family
ID=78129524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010330793.9A Active CN113556567B (zh) | 2020-04-24 | 2020-04-24 | 帧间预测的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113556567B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107318024A (zh) * | 2017-06-27 | 2017-11-03 | 北京奇艺世纪科技有限公司 | 基于运动场的视频编码方法及装置 |
CN107852500A (zh) * | 2015-08-24 | 2018-03-27 | 华为技术有限公司 | 运动矢量场编码方法和解码方法、编码和解码装置 |
CN109600615A (zh) * | 2018-11-12 | 2019-04-09 | 建湖云飞数据科技有限公司 | 一种基于运动信息对视频进行解码的方法 |
US20190158873A1 (en) * | 2017-11-20 | 2019-05-23 | Google Llc | Motion field-based reference frame rendering for motion compensated prediction in video coding |
CN110909658A (zh) * | 2019-11-19 | 2020-03-24 | 北京工商大学 | 一种基于双流卷积网络的视频中人体行为识别方法 |
-
2020
- 2020-04-24 CN CN202010330793.9A patent/CN113556567B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107852500A (zh) * | 2015-08-24 | 2018-03-27 | 华为技术有限公司 | 运动矢量场编码方法和解码方法、编码和解码装置 |
CN107318024A (zh) * | 2017-06-27 | 2017-11-03 | 北京奇艺世纪科技有限公司 | 基于运动场的视频编码方法及装置 |
US20190158873A1 (en) * | 2017-11-20 | 2019-05-23 | Google Llc | Motion field-based reference frame rendering for motion compensated prediction in video coding |
CN109600615A (zh) * | 2018-11-12 | 2019-04-09 | 建湖云飞数据科技有限公司 | 一种基于运动信息对视频进行解码的方法 |
CN110909658A (zh) * | 2019-11-19 | 2020-03-24 | 北京工商大学 | 一种基于双流卷积网络的视频中人体行为识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113556567B (zh) | 2022-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI709329B (zh) | 用於視訊編碼的神經網絡方法和裝置 | |
Liu et al. | Neural video coding using multiscale motion compensation and spatiotemporal context model | |
TWI729378B (zh) | 視訊編解碼的神經網路方法和裝置 | |
JP6761033B2 (ja) | 前フレーム残差を用いた動きベクトル予測 | |
CN104685874A (zh) | 用于在高效率视频编解码中处理分区模式的设备和方法 | |
US8594189B1 (en) | Apparatus and method for coding video using consistent regions and resolution scaling | |
JP6042899B2 (ja) | 映像符号化方法および装置、映像復号方法および装置、それらのプログラム及び記録媒体 | |
CN110740319B (zh) | 视频编解码方法、装置、电子设备及存储介质 | |
US8077991B2 (en) | Spatially enhanced transform coding | |
CN110741638A (zh) | 使用残差块能量分布的运动矢量代码化 | |
TWI779161B (zh) | 用於視訊編解碼的分組類神經網路的方法以及裝置 | |
Ayzik et al. | Deep image compression using decoder side information | |
CN113766249A (zh) | 视频编解码中的环路滤波方法、装置、设备及存储介质 | |
US20170150166A1 (en) | System and method for efficient multi-bitrate and multi-spatial resolution media encoding | |
CN113068026A (zh) | 解码预测方法、装置及计算机存储介质 | |
CN115604485A (zh) | 视频图像的解码方法及装置 | |
CN113556567B (zh) | 帧间预测的方法和装置 | |
CN115643406A (zh) | 视频解码方法、视频编码方法、装置、存储介质及设备 | |
US20140118460A1 (en) | Video Coding | |
CN108432254B (zh) | 图像编码和解码方法、装置以及计算机存储介质 | |
CN114422805B (zh) | 一种视频编解码方法、装置及设备 | |
US20240089457A1 (en) | Coding a merged block that overlaps a reference block in intra block copy mode | |
Brand et al. | Generalized difference coder: a novel conditional autoencoder structure for video compression | |
Dhungel et al. | An Efficient Video Compression Network | |
US20240137577A1 (en) | Super Resolution Upsampling and Downsampling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |