CN112640452A - 用于基于仿射运动模型的视频译码的自适应运动向量精度 - Google Patents

用于基于仿射运动模型的视频译码的自适应运动向量精度 Download PDF

Info

Publication number
CN112640452A
CN112640452A CN201980055939.9A CN201980055939A CN112640452A CN 112640452 A CN112640452 A CN 112640452A CN 201980055939 A CN201980055939 A CN 201980055939A CN 112640452 A CN112640452 A CN 112640452A
Authority
CN
China
Prior art keywords
motion vector
precision
motion
affine
pel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980055939.9A
Other languages
English (en)
Other versions
CN112640452B (zh
Inventor
贺玉文
修晓宇
叶艳
罗健康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vid Scale Inc
Original Assignee
Vid Scale Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vid Scale Inc filed Critical Vid Scale Inc
Publication of CN112640452A publication Critical patent/CN112640452A/zh
Application granted granted Critical
Publication of CN112640452B publication Critical patent/CN112640452B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/109Selection of coding mode or of prediction mode among a plurality of temporal predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/192Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding the adaptation method, adaptation tool or adaptation type being iterative or recursive
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/523Motion estimation or motion compensation with sub-pixel accuracy
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based
    • H04N19/54Motion estimation other than block-based using feature points or meshes

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

描述了用于使用具有自适应精度的仿射运动模型进行视频译码的***和方法。在一示例中,使用仿射运动模型将视频块编码于比特流中,其中所述仿射运动模型由至少两个运动向量表征。为每个所述运动向量选择一精度,并且在所述比特流中用信号发送所选择的精度。在一些实施例中,通过在所述比特流中包含标识选定预定精度集合中的多个元素中的一者的信息来用信号发送所述精度。所标识的元素指示表征所述仿射运动模型的所述运动向量中的每一者的所述精度。在一些实施例中,明确地在所述比特流中用信号发送待使用的精度集合;在其它实施例中,可例如从块大小、块形状或时间层推断所述精度集合。

Description

用于基于仿射运动模型的视频译码的自适应运动向量精度
相关申请的交叉引用
本申请是非临时申请,并根据35U.S.C.§119(e),要求以下申请的权益:美国临时专利申请No.62/724,500(2018年8月29日递交)、美国临时专利申请No.62/773,069(2018年11月29日递交)和美国临时专利申请No.62/786,768(2018年12月31日递交),所有这些申请的标题都是“用于基于仿射运动模型的视频译码的自适应运动向量精度(Adaptive MotionVector Precision for Affine Motion Model Based Video Coding)”,它们的全部内容通过引用而被并入本文。
背景技术
视频译码***广泛用于压缩数字视频信号,以减少这种信号的存储需要和/或传输带宽。在各种类型的视频译码***(例如,基于块、基于小波和基于对象的***)中,现今基于块的混合视频译码***被最广泛地使用和部署。基于块的视频译码***的示例包括国际视频译码标准,例如MPEG1/2/4第2部分、H.264/MPEG-4第10部分AVC、VC-1,和称为高效视频译码(HEVC)的最新视频译码标准,其由ITU-T/SG16/Q.6/VCEG和ISO/IEC/MPEG的JCT-VC(视频译码联合合作团队)开发。
所述HEVC标准的第一版本在2013年10月完成,其与前一代视频译码标准H.264/MPEG AVC相比,提供了大约50%的比特率节省或等效的感知质量。尽管HEVC标准提供了优于其前身的显著译码改进,但有证据表明,可以利用额外的译码工具实现优于HEVC的译码效率。基于此,VCEG和MPEG都开始探索新的译码技术,以用于未来的视频译码标准化。在2015年10月,ITU-T VECG和ISO/IEC MPEG形成联合视频探索小组(JVET)以开始对先进技术的重要研究,所述先进技术可使得译码效率能够相对于HEVC得到实质性增强。在同一个月,为将来的视频译码探索工作建立了被称为联合探索模型(JEM)的软件代码库。JEM参考软件基于HEVC测试模型(HM),其由JCT-VC开发用于HEVC。任何另外提出的译码工具可以被集成到所述JEM软件中,并且使用JVET公共测试条件(CTC)来测试。
在2017年10月,ITU-T和ISO/IEC提出了关于具有超出HEVC的能力的视频压缩的联合提案(CfP)。在2018年年4月,在第10次JVET会议时接收和评估了针对标准动态范围类别的22个CfP响应,证明了相对于HEVC的压缩效率增益为约40%。基于这样的评估结果,联合视频专家组(JVET)发起了新项目来开发被称为通用视频译码(VVC)的下一代视频译码标准。在同一个月,建立称为VVC测试模型(VTM)的参考软件代码库,用于演示所述VVC标准的参考实现。对于初始VTM-1.0,除了在VTM中使用基于多类型树的块划分结构之外,包括帧内预测、帧间预测、变换/逆变换和量化/去量化以及环内滤波器的大多数译码模块遵循现有HEVC设计。同时,为了便于新译码工具的评估,还生成了称为基准集(BMS)的另一参考软件库。在BMS代码库中,从JEM继承的译码工具的列表提供了更高的译码效率和适中的实现复杂度,该列表被包括在VTM之上,并且在VVC标准化过程期间评估类似的译码技术时被用作基准。具体地,在BMS-1.0中集成了9个JEM译码工具,这其中包括65个角度帧内预测方向、修改的系数译码、高级多重变换(AMT)+4×4不可分离的二次变换(NSST)、仿射运动模型、广义自适应环路滤波器(GALF)、高级时间运动向量预测(ATMVP)、自适应运动向量精度、解码器侧运动向量细化(DMVR)和线性模型(LM)色度模式。
发明内容
本文描述的实施例包括在视频编码和解码(统称为“译码”)中使用的方法。在一些实施例中,提供了一种从比特流解码视频的方法,其中该方法包括,对于视频中的至少一个当前块:从所述比特流读取标识至少第一运动向量预测值(predictor)及第二运动向量预测值的信息;从所述比特流读取标识预定精度集合中的多个精度中的一者的信息;从所述比特流读取至少第一运动向量差及第二运动向量差,所述第一及第二运动向量差具有所述所标识的精度;至少(i)根据所述第一运动向量预测值和所述第一运动向量差,生成第一控制点运动向量,以及(ii)根据所述第二运动向量预测值和所述第二运动向量差,生成第二控制点运动向量;以及使用仿射运动模型,生成关于所述当前块的预测,所述仿射运动模型由至少所述第一控制点运动向量和所述第二控制点运动向量表征。
所述预定精度集合中的所述多个精度可以包括1/4像素(-pel)、1/16像素和1像素精度。所述预定精度集合不同于用于相同视频中的非仿射帧间译码的预定精度集合。
所述仿射运动模型可为四参数运动模型或六参数运动模型。在所述仿射运动模型是六参数运动模型的情况下,所述方法可进一步包含:从所述比特流读取标识第三运动向量预测值的信息;从所述比特流读取具有所述所标识的精度的第三运动向量差;以及根据第三运动向量预测值和第三运动向量差来生成第三控制点运动向量;其中所述仿射运动模型由所述第一控制点运动向量、所述第二控制点运动向量和所述第三控制点运动向量表征。
可以在逐块的基础上从所述比特流中读取标识多个精度中的一者的所述信息,从而允许图片内的不同块使用不同的精度。
在一些实施例中,将所述运动向量预测值舍入到所标识的精度。可以通过将对应的运动向量差与相应的运动向量预测值相加来生成每个所述控制点运动向量。
在一些实施例中,通过以下步骤生成关于所述当前块的预测:使用所述仿射运动模型,确定所述当前块的多个子块中的每一者的相应子块运动向量;以及使用所述相应子块运动向量,生成关于每个所述子块的帧间预测。
在一些实施例中,该方法还包括:从所述比特流读取所述当前块的残差;以及通过将所述残差加到关于所述当前块的所述预测来重构所述当前块。
还描述用于自适应地选择仿射运动向量的精度且用于针对仿射运动模型执行运动估计的***和方法。
在另外的实施例中,提供编码器和解码器***以执行本文描述的方法。编码器或解码器***可以包括处理器和存储用于执行本文描述的方法的指令的非暂时性计算机可读介质。进一步的实施例包括一种非暂时性计算机可读存储介质,其存储使用本文公开的任何方法编码的视频。
附图说明
图1A是示出了其中可以实施一个或多个所公开的实施例的示例性通信***的***示意图。
图1B是示出了根据实施例的可以在图1A所示的通信***内部使用的示例性无线发射/接收单元(WTRU)的***示意图。
图2A是基于块的视频编码器(例如,用于VVC的编码器)的功能框图。
图2B是基于块的视频解码器(例如,用于VVC的解码器)的功能框图。
图3A-3E示出了多类型树结构中的块划分:四元划分(图3A);垂直二元划分(图3B);水平二元划分(图3C);垂直三元划分(图3D);水平三元划分(图3E)。
图4A到4B示出了四参数仿射运动模型。图4A示出了仿射模型。图4B示出了用于仿射块的子块级运动导出。
图5示出了仿射合并候选。候选可用性检查顺序是N0,N1,N2,N3,N4
图6示出了用于仿射运动模型的控制点处的运动向量导出。
图7示出了从块{A,B,C}、{D,E}和{F,G}中的运动向量构造仿射运动向量预测值。
图8示出了用于仿射MV预测值生成的运动向量(MV)时间缩放的示例。
图9示出了用于块BC的上下文导出的相邻块。
图10示出了用于无拆分的CU译码的模式决策方法。
图11示出了用于不同于默认精度(平移运动模型为1/4-pel,仿射运动模型为(1/4-pel,1/4-pel)的精度的运动模型和精度选择方法。
图12示出了(p0-pel,p1-pel)精度的仿射运动估计方法。
图13示出使用最近的8个位置细化MV0。步骤1:选择{P1,P2,P3,P4}中的最佳位置;步骤2:如果在步骤1中更新MV0,则从两个相邻者中选择最佳者。
图14示出了六参数仿射模式:V0、V1和V2是控制点;(MVx,MVy)是以位置(x,y)为中心的子块的运动向量。
图15是示出一译码比特流结构的示例的图。
图16是示出示例通信***的图。
图17示出了8×4译码单元的子块的运动向量导出。
图18示出了一些实施例中由解码器执行的方法。
用于实施例的实现的示例网络
图1A是示出了可以实施所公开的一个或多个实施例的示例性通信***100的示意图。该通信***100可以是为多个无线用户提供诸如语音、数据、视频、消息传递、广播等内容的多址接入***。该通信***100可以通过共享包括无线带宽在内的***资源而使多个无线用户能够访问此类内容。举例来说,通信***100可以使用一种或多种信道接入方法,例如码分多址(CDMA)、时分多址(TDMA)、频分多址(FDMA)、正交FDMA(OFDMA)、单载波FDMA(SC-FDMA)、零尾唯一字DFT-扩展OFDM(ZT UW DTS-s OFDM)、唯一字OFDM(UW-OFDM)、资源块过滤OFDM以及滤波器组多载波(FBMC)等等。
如图1A所示,通信***100可以包括无线发射/接收单元(WTRU)102a、102b、102c、102d、RAN 104、CN 106、公共交换电话网络(PSTN)108、因特网110以及其他网络112,然而应该了解,所公开的实施例设想了任意数量的WTRU、基站、网络和/或网络部件。WTRU 102a、102b、102c、102d每一者可以是被配置成在无线环境中工作和/或通信的任何类型的设备。举例来说,WTRU 102a、102b、102c、102d任何一者都可以被称为“站”和/或“STA”,其可以被配置成发射和/或接收无线信号,并且可以包括用户设备(UE)、移动站、固定或移动订户单元、基于签约的单元、寻呼机、蜂窝电话、个人数字助理(PDA)、智能电话、膝上型计算机、上网本、个人计算机、无线传感器、热点或Mi-Fi设备、物联网(IoT)设备、手表或其他可穿戴设备、头戴显示器(HMD)、运载工具、无人机、医疗设备和应用(例如远程手术)、工业设备和应用(例如机器人和/或在工业和/或自动处理链环境中工作的其他无线设备)、消费类电子设备、以及在商业和/或工业无线网络上工作的设备等等。WTRU102a、102b、102c、102d中的任何一者可被可交换地称为UE。
所述通信***100还可以包括基站114a和/或基站114b。基站114a、114b的每一者可以是被配置成通过以无线方式与WTRU 102a、102b、102c、102d中的至少一者无线对接来促使其接入一个或多个通信网络(例如CN 106、因特网110、和/或其他网络112)的任何类型的设备。例如,基站114a、114b可以是基地收发信台(BTS)、节点B、e节点B、家庭节点B、家庭e节点B、gNB、新无线电(NR)节点B、站点控制器、接入点(AP)、以及无线路由器等等。虽然基站114a、114b的每一者都被描述成了单个部件,然而应该了解,基站114a、114b可以包括任何数量的互连基站和/或网络部件。
基站114a可以是RAN 104的一部分,并且该RAN还可以包括其他基站和/或网络部件(未显示),例如基站控制器(BSC)、无线电网络控制器(RNC)、中继节点等等。基站114a和/或基站114b可被配置成在名为小区(未显示)的一个或多个载波频率上发射和/或接收无线信号。这些频率可以处于授权频谱、未授权频谱或是授权与未授权频谱的组合之中。小区可以为相对固定或者有可能随时间变化的特定地理区域提供无线服务覆盖。小区可被进一步分成小区扇区。例如,与基站114a相关联的小区可被分为三个扇区。由此,在一个实施例中,基站114a可以包括三个收发信机,即,每一个收发信机都对应于小区的一个扇区。在实施例中,基站114a可以使用多输入多输出(MIMO)技术,并且可以为小区的每一个扇区使用多个收发信机。例如,通过使用波束成形,可以在期望的空间方向上发射和/或接收信号。
基站114a、114b可以通过空中接口116来与WTRU 102a、102b、102c、102d中的一者或多者进行通信,其中所述空中接口可以是任何适当的无线通信链路(例如射频(RF)、微波、厘米波、毫米波、红外线(IR)、紫外线(UV)、可见光等等)。空中接口116可以使用任何适当的无线电接入技术(RAT)来建立。
更具体地说,如上所述,通信***100可以是多址接入***,并且可以使用一种或多种信道接入方案,例如CDMA、TDMA、FDMA、OFDMA以及SC-FDMA等等。例如,RAN 104中的基站114a与WTRU 102a、102b、102c可以实施某种无线电技术,例如通用移动电信***(UMTS)陆地无线电接入(UTRA),其中所述技术可以使用宽带CDMA(WCDMA)来建立空中接口116。WCDMA可以包括如高速分组接入(HSPA)和/或演进型HSPA(HSPA+)之类的通信协议。HSPA可以包括高速下行链路(DL)分组接入(HSDPA)和/或高速UL分组接入(HSUPA)。
在实施例中,基站114a和WTRU 102a、102b、102c可以实施某种无线电技术,例如演进型UMTS陆地无线电接入(E-UTRA),其中所述技术可以使用长期演进(LTE)和/或先进LTE(LTE-A)和/或先进LTE Pro(LTE-A Pro)来建立空中接口116。
在实施例中,基站114a和WTRU 102a、102b、102c可以实施某种可以使用新无线电(NR)建立空中接口116的无线电技术,例如NR无线电接入。
在实施例中,基站114a和WTRU 102a、102b、102c可以实施多种无线电接入技术。例如,基站114a和WTRU 102a、102b、102c可以共同实施LTE无线电接入和NR无线电接入(例如使用双连接(DC)原理)。由此,WTRU102a、102b、102c使用的空中接口可以通过多种类型的无线电接入技术和/或向/从多种类型的基站(例如,eNB和gNB)发送的传输来表征。
在其他实施例中,基站114a和WTRU 102a、102b、102c可以实施以下的无线电技术,例如IEEE 802.11(即,无线高保真(WiFi))、IEEE 802.16(即,全球微波接入互操作性(WiMAX))、CDMA2000、CDMA2000 1X、CDMA2000EV-DO、临时标准2000(IS-2000)、临时标准95(IS-95)、临时标准856(IS-856)、全球移动通信***(GSM)、用于GSM演进的增强数据速率(EDGE)、以及GSM EDGE(GERAN)等等。
图1A中的基站114b可以例如是无线路由器、家庭节点B、家庭e节点B或接入点,并且可以使用任何适当的RAT来促成局部区域中的无线连接,例如营业场所、住宅、运载工具、校园、工业设施、空中走廊(例如供无人机使用)以及道路等等。在一个实施例中,基站114b与WTRU 102c、102d可以通过实施IEEE 802.11之类的无线电技术来建立无线局域网(WLAN)。在实施例中,基站114b与WTRU 102c、102d可以通过实施IEEE 802.15之类的无线电技术来建立无线个人局域网(WPAN)。在另一实施例中,基站114b和WTRU 102c、102d可通过使用基于蜂窝的RAT(例如WCDMA、CDMA2000、GSM、LTE、LTE-A、LTE-A Pro、NR等等)来建立微微小区或毫微微小区。如图1A所示,基站114b可以直连到因特网110。由此,基站114b不需要经由CN 106来接入因特网110。
RAN 104可以与CN 106进行通信,所述CN可以是被配置成向WTRU102a、102b、102c、102d的一者或多者提供语音、数据、应用和/或借助网际协议语音(VoIP)服务的任何类型的网络。该数据可以具有不同的服务质量(QoS)需求,例如不同的吞吐量需求、延时需求、容错需求、可靠性需求、数据吞吐量需求、以及移动性需求等等。CN 106可以提供呼叫控制、记账服务、基于移动位置的服务、预付费呼叫、因特网连接、视频分发等等,和/或可以执行用户认证之类的高级安全功能。虽然在图1A中没有显示,然而应该了解,RAN 104和/或CN 106可以直接或间接地和其他那些与RAN 104使用相同RAT或不同RAT的RAN进行通信。例如,除了与使用NR无线电技术的RAN 104相连之外,CN 106还可以与使用GSM、UMTS、CDMA2000、WiMAX、E-UTRA或WiFi无线电技术的别的RAN(未显示)通信。
CN 106还可以充当供WTRU 102a、102b、102c、102d接入PSTN 108、因特网110和/或其他网络112的网关。PSTN 108可以包括提供简易老式电话服务(POTS)的电路交换电话网络。因特网110可以包括使用了公共通信协议(例如传输控制协议/网际协议(TCP/IP)网际协议族中的TCP、用户数据报协议(UDP)和/或IP)的全球性互联计算机网络设备***。所述网络112可以包括由其他服务提供方拥有和/或运营的有线或无线通信网络。例如,所述网络112可以包括与一个或多个RAN相连的另一个CN,其中所述一个或多个RAN可以与RAN 104使用相同RAT或不同RAT。
通信***100中的一些或所有WTRU 102a、102b、102c、102d可以包括多模能力(例如WTRU 102a、102b、102c、102d可以包括在不同无线链路上与不同无线网络通信的多个收发信机)。例如,图1A所示的WTRU 102c可被配置成与使用基于蜂窝的无线电技术的基站114a通信,以及与可以使用IEEE 802无线电技术的基站114b通信。
图1B是示出了示例性WTRU 102的***示意图。如图1B所示,WTRU102可以包括处理器118、收发信机120、发射/接收部件122、扬声器/麦克风124、数字键盘126、显示器/触摸板128、不可移除存储器130、可移除存储器132、电源134、全球定位***(GPS)芯片组136和/或周边设备138。应该了解的是,WTRU 102还可以包括前述部件的任何子组合,同时保持与实施例相一致。
处理器118可以是通用处理器、专用处理器、常规处理器、数字信号处理器(DSP)、多个微处理器、与DSP核心关联的一个或多个微处理器、控制器、微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)电路、其他任何类型的集成电路(IC)以及状态机等等。处理器118可以执行信号译码、数据处理、功率控制、输入/输出处理、和/或其他任何能使WTRU102在无线环境中工作的功能。处理器118可以耦合至收发信机120,收发信机120可以耦合至发射/接收部件122。虽然图1B将处理器118和收发信机120描述成单独分量,然而应该了解,处理器118和收发信机120也可以一起集成在一电子分量或芯片中。
发射/接收部件122可被配置成经由空中接口116来发射或接收去往或来自基站(例如,基站114a)的信号。举个例子,在一个实施例中,发射/接收部件122可以是被配置成发射和/或接收RF信号的天线。作为示例,在实施例中,发射/接收部件122可以是被配置成发射和/或接收IR、UV或可见光信号的放射器/检测器。在另一实施例中,发射/接收部件122可被配置成发射和/或接收RF和光信号。应该了解的是,发射/接收部件122可以被配置成发射和/或接收无线信号的任何组合。
虽然在图1B中将发射/接收部件122描述成是单个部件,但是WTRU102可以包括任何数量的发射/接收部件122。更具体地说,WTRU 102可以使用MIMO技术。由此,在一个实施例中,WTRU 102可以包括两个或更多个通过空中接口116来发射和接收无线信号的发射/接收部件122(例如多个天线)。
收发信机120可被配置成对发射/接收部件122所要传送的信号进行调制,以及对发射/接收部件122接收的信号进行解调。如上所述,WTRU 102可以具有多模能力。因此,收发信机120可以包括允许WTRU 102借助多种RAT(例如NR和IEEE 802.11)来进行通信的多个收发信机。
WTRU 102的处理器118可以耦合到扬声器/麦克风124、数字键盘126和/或显示器/触摸板128(例如液晶显示器(LCD)显示单元或有机发光二极管(OLED)显示单元),并且可以接收来自这些部件的用户输入数据。处理器118还可以向扬声器/麦克风124、键盘126和/或显示器/触摸板128输出用户数据。此外,处理器118可以从诸如不可移除存储器130和/或可移除存储器132之类的任何适当的存储器中存取信息,以及将信息存入这些存储器。不可移除存储器130可以包括随机存取存储器(RAM)、只读存储器(ROM)、硬盘或是其他任何类型的记忆存储设备。可移除存储器132可以包括订户身份模块(SIM)卡、记忆棒、安全数字(SD)记忆卡等等。在其他实施例中,处理器118可以从那些并非实际位于WTRU 102的存储器存取信息,以及将数据存入这些存储器,作为示例,此类存储器可以位于服务器或家庭计算机(未显示)。
处理器118可以接收来自电源134的电力,并且可被配置分发和/或控制用于WTRU102中的其他分量的电力。电源134可以是为WTRU 102供电的任何适当设备。例如,电源134可以包括一个或多个干电池组(如镍镉(Ni-Cd)、镍锌(Ni-Zn)、镍氢(NiMH)、锂离子(Li-ion)等等)、太阳能电池以及燃料电池等等。
处理器118还可以耦合到GPS芯片组136,该GPS芯片组可被配置成提供与WTRU 102的当前位置相关的位置信息(例如经度和纬度)。作为来自GPS芯片组136的信息的补充或替换,WTRU 102可以经由空中接口116接收来自基站(例如基站114a、114b)的位置信息,和/或根据从两个或更多个附近基站接收的信号定时来确定其位置。应该了解的是,WTRU 102可以借助任何适当的定位方法来获取位置信息,同时保持与实施例相一致。
处理器118还可以耦合到其他周边设备138,其中所述周边设备可以包括提供附加特征、功能和/或有线或无线连接的一个或多个软件和/或硬件模块。例如,所述周边设备138可以包括加速度计、电子指南针、卫星收发信机、数码相机(用于照片和/或视频)、通用串行总线(USB)端口、振动设备、电视收发信机、免提耳机、
Figure BDA0002951830190000121
模块、调频(FM)无线电单元、数字音乐播放器、媒体播放器、视频游戏机模块、因特网浏览器、虚拟现实和/或增强现实(VR/AR)设备、以及活动***等等。所述周边设备138可以包括一个或多个传感器,所述传感器可以是以下的一者或多者:陀螺仪、加速度计、霍尔效应传感器、磁强计、方位传感器、邻近传感器、温度传感器、时间传感器、地理位置传感器、高度计、光传感器、触摸传感器、磁力计、气压计、手势传感器、生物测定传感器和/或湿度传感器等。
WTRU 102可以包括全双工无线电设备,其中对于该无线电设备来说,一些或所有信号(例如与用于UL(例如对传输而言)和下行链路(例如对接收而言)的特定子帧相关联)的接收或传输可以是并发和/或同时的。全双工无线电设备可以包括借助于硬件(例如扼流线圈)或是凭借处理器(例如单独的处理器(未显示)或是凭借处理器118)的信号处理来减小和/或基本消除自干扰的干扰管理单元。在实施例中,WTRU 102可以包括传送和接收一些或所有信号(例如与用于UL(例如对传输而言)或下行链路(例如对接收而言)的特定子帧相关联)的半双工无线电设备。
虽然在图1A-1B中将WTRU描述成了无线终端,然而应该想到的是,在某些代表性实施例中,此类终端与通信网络可以使用(例如临时或永久性)有线通信接口。
在代表性实施例中,所述其他网络112可以是WLAN。
有鉴于图1A-1B以及相应描述,在这里描述的一个或多个或所有功能可以由一个或多个仿真设备(未显示)来执行。这些仿真设备可以是被配置成模拟这里描述的一个或多个或所有功能的一个或多个设备。举例来说,这些仿真设备可用于测试其他设备和/或模拟网络和/或WTRU功能。
所述仿真设备可被设计成在实验室环境和/或运营商网络环境中实施关于其他设备的一项或多项测试。例如,所述一个或多个仿真设备可以在被完全或部分作为有线和/或无线通信网络一部分实施和/或部署的同时执行一个或多个或所有功能,以便测试通信网络内部的其他设备。所述一个或多个仿真设备可以在被临时作为有线和/或无线通信网络的一部分实施或部署的同时执行一个或多个或所有功能。所述仿真设备可以直接耦合到别的设备以执行测试,和/或可以使用空中无线通信来执行测试。
所述一个或多个仿真设备可以在未被作为有线和/或无线通信网络一部分实施或部署的同时执行包括所有功能在内的一个或多个功能。例如,该仿真设备可以在测试实验室和/或未被部署(例如测试)的有线和/或无线通信网络的测试场景中使用,以便实施关于一个或多个分量的测试。所述一个或多个仿真设备可以是测试设备。所述仿真设备可以使用直接的RF耦合和/或借助RF电路(例如,该电路可以包括一个或多个天线)的无线通信来发射和/或接收数据。
具体实施方式
基于块的视频译码
与HEVC类似,VVC建立在基于块的混合视频译码框架上。图2A给出了基于块的混合视频编码***的示例的框图。输入视频信号103被逐块(称为译码单元(CU))处理。在VTM-1.0中,CU可以高达128×128像素。然而,与仅基于四叉树来划分块的HEVC不同,在VTM-1.0中,一个译码树单元(CTU)被划分成多个CU以适应基于四叉树/二叉树/三叉树的变化的局部特性。另外,去除了HEVC中多划分单元类型的概念,即,VVC-1.0中不再存在CU、预测单元PU和变换单元TU的分离;相反,每一CU始终用作预测和变换两者的基本单元,而无需进一步划分。在所述多类型树结构中,首先通过四叉树结构来划分一个CTU。然后,每个四叉树叶节点可以进一步由二叉树和三叉树结构划分。如图3A-3E中所示,存在五种拆分类型,四元划分、水平二元划分、垂直二元划分、水平三元划分和垂直三元划分。在图2A中,可以执行空间预测(160)和/或时间预测(162)。空间预测(或“帧内预测”)使用来自同一视频图片/切片中的已译码相邻块的样本(其被称为参考样本)的像素来预测当前视频块。空间预测减少了视频信号中固有的空间冗余。时间预测(也称为“帧间预测”或“运动补偿预测”)使用来自已译码视频图片的经重构像素来预测当前视频块。时间预测减少了视频信号中固有的时间冗余。用于给定CU的时间预测信号通常由指示当前CU与其时间参考之间的运动量和方向的一个或一个以上运动向量(MV)用信号发送。此外,如果支持多个参考图片,则另外发送一个参考图片索引,其用于标识所述时间预测信号来自参考图片存储库(164)中的哪个参考图片。在空间和/或时间预测之后,编码器中的模式决策框(180)例如基于速率失真优化方法来选择最佳预测模式。然后从当前视频块中减去所述预测块(117);并且使用变换(105)对预测残差去相关并量化(107)。量化的残差系数被逆量化(111)和逆变换(113)以形成重构的残差,然后将该重构的残差加回到所述预测块(127)以形成所述CU的重构信号。在将经重构CU放入参考图片存储库(164)中且用于译码未来视频块之前,可对其应用(166)进一步环路内滤波,例如解块滤波器。为了形成输出视频比特流121,译码模式(帧间或帧内)、预测模式信息、运动信息和量化的残差系数都被发送到熵译码单元(109),以被进一步压缩和打包以形成所述比特流。
图2B给出基于块的视频解码器的示例的框图。视频比特流202首先在熵解码单元208处被解包和熵解码。所述译码模式和预测信息被发送到空间预测单元260(如果是帧内编码的)或时间预测单元262(如果是帧间译码的)以形成所述预测块。将残差变换系数发送到逆量化单元210和逆变换单元212以重构残差块。然后在226将预测块和残差块加在一起。在将所述重构块存储在参考图片存储库264中之前,可以进一步对其进行环内滤波。然后,将参考图片存储库中的重构视频发送出去以驱动显示设备,以及用于预测未来的视频块。
如前所述,BMS-1.0遵守与图2A和2B所示的VTM-1.0相同的编码/解码工作流程。然而,进一步扩展和增强了若干译码模块,尤其是与时间预测相关联的译码模块。下面,简要描述作为包括在BMS-1.0或先前JEM中的一个帧间译码工具的仿射运动补偿。
仿射模式
在HEVC中,仅平移运动模型被应用于运动补偿预测。另一方面,在真实世界中,存在许多种运动,例如放大/缩小、旋转、透视运动和其它不规则运动。在BMS中,应用简化仿射变换运动补偿预测。用信号发送用于每一经帧间译码的CU的标志,以指示所述平移运动或所述仿射运动模型是否应用于帧间预测。
所述简化仿射运动模型是四参数模型:用于在水平和垂直方向上的平移运动的两个参数、用于缩放运动的一个参数、以及用于旋转运动的一个参数。水平缩放参数等于垂直缩放参数。水平旋转参数等于垂直旋转参数。使用在当前CU的左上角和右上角界定的两个控制点位置处的两个运动向量作为一对而在BMS中对所述四参数仿射运动模型进行译码。如图4A中所示,块的仿射运动字段由两个控制点运动向量(V0,V1)描述。基于该控制点运动,仿射译码块的运动场(vx,vy)被描述为:
Figure BDA0002951830190000161
其中(v0x,v0y)是左上角控制点的运动向量,(v1x,v1y)是右上角控制点的运动向量,如图4A所示。另外,当以仿射模式对块进行译码时,基于子块的粒度导出其运动场。具体而言,为了导出各子块的运动向量,各子块的中心样本的运动向量(如图4B所示)根据(1)而被计算并被舍入到1/16像素精度。然后,在运动补偿阶段使用所导出的运动向量来生成当前块内部的每个子块的预测信号。另外,应用于仿射运动补偿的子块大小被计算为:
Figure BDA0002951830190000162
其中(v2x,v2y)是左下控制点的运动向量,w和h是CU宽度和CU高度,如按照(1)所计算的;M和N是导出的子块大小的宽度和高度。
可迭代地估计所述四个仿射模型参数。将步骤k的MV对表示为
Figure BDA0002951830190000163
原始亮度信号I(i,j)、预测亮度信号I′k(i,j)。空间梯度gx(i,j)和gy(i,j)是利用分别在水平和垂直方向上应用于预测信号I′k(i,j)的Sobel滤波器导出的。公式(1)的倒数是:
Figure BDA0002951830190000171
其中(a,b)是增量平移参数,而(c,d)是步骤k的增量缩放和旋转参数。
Figure BDA0002951830190000172
Figure BDA0002951830190000173
基于光流公式,亮度变化与空间梯度和时间移动之间的关系被公式化为:
Figure BDA0002951830190000174
用公式(1)取代
Figure BDA0002951830190000175
Figure BDA0002951830190000176
我们得到参数(a,b,c,d)的公式。
Figure BDA0002951830190000177
因为CU中的所有样本满足公式(7),参数集(a,b,c,d)可以使用最小二乘法来求解。可以用公式(4)以及(5)求解在步骤(k+1)中的两个控制点的
Figure BDA0002951830190000178
并且它们被舍入到指定精度(即,1/4pel)。通过使用所述迭代,两个控制点处的MV可以被细化(refine),直到当参数(a,b,c,d)全为零或迭代次数满足预定限制时其收敛。
如图14中所示,存在用于6参数仿射译码CU的三个控制点:左上、右上和左下。左上控制点的运动是平移运动,右上控制点的运动与水平方向的旋转和缩放运动相关,左下控制点的运动与垂直方向的旋转和缩放运动相关。对于4参数仿射运动模型,水平和垂直中的旋转和缩放运动是相同的。每个子块的运动向量(MVx,MVy)是使用控制点处的三个MV来导出的,如下:
Figure BDA0002951830190000181
Figure BDA0002951830190000182
其中(x,y)为子块的中心位置,w和h为CU的宽度和高度。
仿射合并模式
如果以仿射模式对CU进行译码,那么用预测性译码来用信号发送那两个控制点对于每一参考列表的两组运动向量。MV与其预测值之间的差异被无损译码,并且该信令开销不是微不足道的,尤其是在低比特率时。为了减少所述信令开销,通过考虑运动场的局部连续性,仿射合并模式也被应用于BMS。当前CU的两个控制点处的运动向量是用从其相邻块中选择的其仿射合并候选的仿射运动导出的。如果当前CU是以仿射合并模式译码,那么如图5中所示,存在五个相邻块,其是以从N0到N4的次序检查。并且第一仿射译码的相邻块将被用作仿射合并候选。举例来说,如图6中所示,将当前CU译码为仿射合并模式,且选择其左下相邻块(N0)作为仿射合并候选。包含块N0的CU的宽度和高度表示为nw和nh。当前CU的宽度和高度表示为cw和ch。Pi位置的MV表示为(vix,viy)。在控制点P0的MV(v0x,v0y)被推导如下:
Figure BDA0002951830190000183
Figure BDA0002951830190000191
在控制点P1的MV(v1x,v1y)被推导如下:
Figure BDA0002951830190000192
Figure BDA0002951830190000193
在控制点P2的MV(v2x,v2y)被推导如下:
Figure BDA0002951830190000194
Figure BDA0002951830190000195
在导出两个控制点(P0和P1)处的MV之后,如上所述导出当前CU内的每个子块的MV,并且该导出的子块MV可以用于基于子块的运动补偿和用于未来图片译码的时间运动向量预测。
仿射MV预测
对于那些非合并仿射译码的CU,关于在控制点处的MV的信令是昂贵的,并且预测译码用于减少信令开销。在BMS中,仿射MV预测值是从其相邻译码块的运动产生的。对于仿射译码的CU的MV预测,有两种预测值:(a)从控制点的相邻块产生的仿射运动;(b)用于传统MV预测的平移运动,并且其仅当由(a)得到的仿射预测值的数量不足(在BMS中小于2)时才被使用。
使用三个MV集合来产生多个仿射运动预测值。如图7所示,三个MV集合是:(1)来自角落P0的相邻块{A,B,C}的MV由集合S1组成,被表示为{MVA,MVB,MVC};(2)来自角落P1的相邻块{D,E}的MV由集合S2组成,被表示为{MVD,MVE};(3)来自角落P2的相邻块{F,G}的MV由集合S3组成,被表示为{MVF,MVG}。来自相邻块的MV以下面的方式被导出。首先检查空间相邻块;若该相邻块为帧间译码块,则直接使用该MV,且该相邻块的参考图片与该当前译码单元的参考图片相同;或者,若相邻块的参考图片与当前译码单元的参考图片不同,则根据时间距离,缩放所述MV。如图8所示,目前图片与目前CU的参考图片之间的时间距离被表示为TB,且目前图片与相邻块的参考图片之间的时间距离被表示为TD。相邻块的MV1被缩放为:
Figure BDA0002951830190000201
MV2用于运动向量集合。
如果所述相邻块不是帧间译码块,则将检查共位(collocated)参考图片中的共位块。如果该时间共位块是帧间译码块,则基于时间距离,利用公式(18)缩放所述MV。如果该时间共位块不是帧间译码块,则将该相邻块中的MV被设置为零。
在获得三个MV集合之后,通过从该三个MV集合的每一个中选择一个MV来产生所述仿射MV预测值。S1、S2和S3的大小分别为3、2、2。总之,我们可以得到12(3×2×2)个组合。在BMS中,如果由三个MV表示的缩放或旋转相关参数大于预定阈值,则将丢弃所述候选。对于CU的三个角落:左上、右上和左下,将一个组合表示为(MV0,MV1,MV2)。检查以下条件。
Figure BDA0002951830190000211
其中T是(1/2)。如果满足该条件,这意味着所述缩放或旋转太大,则丢弃所述候选。
所有剩余的候选在BMS中被排序。三个MV的三元组表示包括水平和垂直方向上的平移、缩放和旋转的6参数运动模型。排序标准是该6参数运动模型和由(MV0,MV1)表示的4参数运动模型之间的差。具有较小差异的候选将在经排序的候选列表中具有较小索引。用公式(18)估计由(MV0,MV1,MV2)表示的仿射运动和由(MV0,MV1)表示的仿射运动模型之间的差。
D=|(v1x-v0x)*h-(v2y-v0y)*w|+|(v1y-v0y)*h+(v2x-v0x)*w| (18)
仿射MV编码
如果CU经译码为仿射模式,那么其可为仿射合并模式或仿射非合并模式。对于仿射合并模式,如上所述,在那些控制点处的仿射MV是从其相邻仿射译码CU的仿射MV导出的。因此,不需要用信号发送所述仿射合并模式的MV信息。对于仿射非合并模式,用差分译码对控制点处的MV进行译码。如上所述,使用相邻MV生成所述MV预测值,并且对当前MV与其预测值之间的差进行译码。将用信号发送的MV差被称为MVD。仿射四参数模型具有两个控制点,因此两个MVD用于单预测的信令,且四个MVD用于双预测的信令。仿射六参数模型具有三个控制点,因此三个MVD用于用信号发送单预测,且六个MVD用于用信号发送双预测。所述MVD难以压缩,因为它是二维向量(水平和垂直分量)并且是无损译码的。在当前的VVC设计(VTM-1.0/BMS-1.0)中,用于信号发送的MVD的精度是四分之一像素精度。
自适应MVD精度
对于被译码为非合并和非仿射帧间模式的CU,当前CU的MV与其预测值之间的MVD可以不同分辨率被译码。它可以是1/4像素、1像素或4像素精度。1/4像素是分数精度。1像素和4像素都属于整数精度。每一CU用两个标志用信号发送所述精度以指示所述MVD精度。第一标志用于指示精度是否是1/4像素。如果精度不是1/4像素,则发信号通知第二标记以指示它是1像素或4像素精度。在运动估计中,通常将在被视为起始位置的初始MV周围搜索增量MV。可以从其空间和时间预测值中选择所述起始位置。为了易于实施,将起始MV舍入到MVD信令的精度,然后仅搜索具有期望精度的那些MVD候选。MV预测值也被舍入到MVD精度。在VTM/BMS参考软件中,编码器将检查不同MVD精度的速率失真(RD)成本,并选择具有最小RD成本的最佳MVD精度。RD成本是通过样本值失真与译码速率的加权和来计算的,并且它是译码性能的度量。具有较低RD成本的译码模式将给出更好的整体译码性能。为了减少信令开销,仅当用信号发送的MVD不为零时,用信号发送所述MVD精度相关标志。如果用信号发送的MVD为零,则推断为1/4像素精度。
MVD译码
在VVC中,MVD熵译码方法对于仿射和非仿射译码模式两者是相同的。它独立地译码两个分量。每一分量的MVD的符号用1比特来译码。绝对值被译码成两部分:(1)值0和1用标志来译码。第一标志用于指示绝对值是否大于0;如果该值大于0,则第二标志指示所述绝对值是否大于1。(2)如果绝对值v大于1,则剩余部分(v-2)用一阶指数-Golomb(EG)码二进制化,并且这些二进制化的二进制位(bins)以固定长度译码方式被译码。例如,使用一阶EG码的剩余部分(v-2)二进制化在表1中被列出。
表1.使用一阶EG码对一个分量的MVD的绝对值进行二值化
绝对值(v-2) 二进制化,以用于译码
0 00
1 01
2 1000
3 1001
4 1010
5 1011
6 110000
对于要译码的相同值,具有不同阶数的EG码的码字长度可以不同。阶数较小,对于小值的码字长度通常较短,而对于大值的码字长度较长。对于仿射译码模式,那些控制点的MVD可具有不同统计。具有相同阶数的EG码对于所有控制点的MVD译码而言可能不是最佳的。
在一些实施例中解决的问题
如上文所描述,与用平移运动模型译码的帧间CU相比,MVD信令给显式仿射译码CU带来非一般的信令开销,因为其具有更多的MVD要用信号发送:用于4参数仿射模型的两组MVD和用于6参数仿射模型的3MVD。用于信令的自适应MVD精度有助于在运动补偿的效率与信令开销之间获得较好的折衷。然而,仿射模型中控制点处的运动向量的使用不同于常规平移运动模型的运动向量:控制点处的MV不直接用于运动补偿;它们用于导出子块的MV,并且该子块的MV用于该子块的运动补偿。
上述仿射运动模型的运动估计(ME)过程不同于VTM/BMS中的传统平移运动模型的运动搜索方法。用于在两个控制点寻找最佳MV的ME过程基于光流场估计。对于每次迭代,从光流估计导出的增量MV是不同的,并且难以控制每次迭代中的步长。相反,平移运动模型为译码块找到最佳MV的ME通常是在一定范围内逐个位置搜索的方法。在起始MV周围的搜索范围内,它可评估并比较诸如全搜索方案中的每个可能位置的ME成本,然后选择具有最小ME成本的最佳位置。ME成本通常被评估为预测误差和用于包括参考图片索引和MVD的MV相关信令的比特的加权和。所述预测误差可以通过译码块的原始信号和预测信号之间的绝对差之和(SAD)来测量。
在平移运动模型的这种确定性ME过程中,存在许多快速搜索方法以在迭代期间自适应地调整搜索步长。例如,所述搜索可以以搜索窗口内的粗略步长开始。一旦它以粗略的步长获得最佳位置,则该步长可以被减小,并且所述搜索窗口也被减小到以从前一搜索窗口获得的最后最佳位置为中心的较小窗口。当搜索步长被减小到不大于预定义阈值的值时,或者当总搜索时间满足预定义阈值时,可以终止该迭代搜索。
仿射模型的ME过程不同于转换模型的ME过程。本发明描述用于不同MVD精度的仿射模型的ME方法。
一些实施例的概述
为了提供仿射模型的运动估计,本发明描述用以改进仿射运动模型的译码效率的自适应MVD精度方法。一些实施例提供了信令和运动补偿预测效率之间的改进的折衷。亦提出适应性MVD精度之确定方法。
在一些实施例中,仿射模型的MVD精度是从针对两个控制点的多精度集合自适应地选择。在不同控制点处MVD的精度可以不同。
在一些实施例中,提出了用于不同MVD精度的仿射模型的MV搜索方法,以提高准确性并降低译码复杂性。
在一些实施例中,仿射控制点运动向量预测值(MVP)和MV被保持高精度,但MVD被舍入到低精度。这允许提高使用高精度MV的运动补偿的精度。
为了便于解释,在下面的讨论中,作为例子给出了4参数仿射运动模型的使用。但是所提出的方法也可直接扩展到6参数仿射运动模型。
仿射模型的自适应MVD精度
在VTM/BMS中,总是在1/4点精度处用信号发送仿射模型的控制点处的MVD。固定精度不能提供MVD信令开销与仿射运动补偿效率之间的良好折衷。通过增加那些控制点处的MVD的精度,从公式(1)导出的每个子块的MV将更精确。因此,可以改善运动预测。但是它将使用更多的比特用于MVD信令。在本发明中,提出用于控制点处的自适应MVD精度的方法。左上控制点的运动与所述CU内的每一子块的平移运动相关,且两个控制点之间的运动差与每一子块的缩放和旋转运动相关。用仿射运动模型译码的那些块可具有不同运动特性。一些仿射块可以具有高精度的平移和旋转运动,并且一些仿射块可以具有低精度的平移运动。在一些实施例中,仿射块的平移运动和旋转/缩放运动可具有不同精度。基于此,一些示例实施例用信号发送在不同控制点处的MVD译码的不同精度。
单独地用信号发送每一控制点的精度将增加仿射译码CU的信令开销。一个实施例是联合地用信号发送两个控制点的精度。只有那些频繁使用的组合才会被用信号发送。例如,精度对(prec0,prec1)可以用于指示用于左上控制点的精度“prec0”和用于右上控制点的精度“prec1”。示例实施例使用以下四个精度集合:
S1{(1-pel,1/4-pel),(1/4-pel,1/4-pel)},
S2{(1-pel,1/4-pel),(1/4-pel,1/4-pel),(1/4-pel,1/8-pel)},
S3{(1-pel,1/4-pel),(1/4-pel,1/4-pel),(1/8-pel,1/8-pel)},以及
S4{(1-pel,1/4-pel),(1/4-pel,1/4-pel),(1/4-pel,1/8-pel),(1/8-pel,1/8-pel)}。
(1/4像素,1/4像素)精度作为正常精度用于仿射模块。(1-pel,1/4-pel)用于具有低精度的平移运动的仿射模块,但是旋转/缩放仍然具有正常的精度。(11/4-pel,1/8-pel)用于具有高精度旋转/缩放的仿射模块。(1/8-pel,1/8-pel)用于具有平移运动和高精度旋转/缩放的仿射模块。例如,可在序列参数集、图片参数集或切片头部处用信号发送所述精度集合。
在一些实施例中,如果当前仿射CU是以双预测模式译码,那么一个控制点的精度将应用于两个列表中的MVD。在一些实施例中,为了减少信令冗余,仅在所述控制点处的MVD不为零的情况下用信号发送所述精度。如果MVD在所述控制点处为零,那么不需要发信号发送所述控制点的精度信息,因为该精度对零MVD没有任何影响。例如,如果左上MVD为零,则(1-pel,1/4-pel)精度对于当前CU将无效。因此,在这种情况下,如果精度集合是S1,则存在附加精度信令。如果精度集合是S3,(1/4-pel,1/4-pel)和(1/8-pel,1/8-pel)是有效的。零MVD的精度可以推断为默认精度,例如(1/4-pel,1/4-pel)。另一实施例即使在MVD为零时也可总是用信号发送精度,因为它可从其预测值得到高精度MV。例如,MV预测值是从邻近仿射译码CU导出的。高精度将导致高精度MV预测值,因此最终MV精度是高的。
表2、表3、表4和表5是针对那些精度集合的二进制化而提出的,并且将对二进制化的二进制化位进行译码。
表2.S1的二进制化
Figure BDA0002951830190000271
表3.S2的二进制化
Figure BDA0002951830190000272
表4.S3的二进制化
Figure BDA0002951830190000273
表5.S4的二进制化
Figure BDA0002951830190000274
对于精度译码,我们使用S3作为例子。根据表4,在二进制化之后,对于S3集合有两个二进制位要被译码,仅当第一二进制位为0时,第二二进制位被译码。该二进制位将用上下文自适应二进制算术译码(CABAC)来译码。CABAC中一个二进制位的上下文被用于记录零或一的概率。第一二进制位的上下文可以从其左上相邻者导出,如图9所示。我们定义两个函数:(1)Model(CU),其用以指示CU的运动模型是否为仿射模型;(2)Prec(CU),用于指示精度(1-pel,1/4-pel)是否用于所述CU。
Figure BDA0002951830190000281
Figure BDA0002951830190000282
我们比较相邻CU和当前CU的精度,并得到两个标志:equalPrec(BL),equalPrec(BA),如用公式(21)、(22)评价的。
Figure BDA0002951830190000283
Figure BDA0002951830190000284
第一二进制位的上下文的索引被构造为公式(23)。
Context_idx(BC)=equalPrec(BA)+equalPrec(BL) (23)
可使用一个固定上下文来译码第二二进制位。或者它可以用1比特固定长度译码来译码。
作为替代,用于左上控制点的1像素精度可由上述基于精度对的信令方案中的1/2像素精度代替。
另一实施例是单独地用信号发送每一控制点的精度。例如,我们将用信号发送从集合{1-pel,1/4-pel,1/8-pel}中选择的用于左上控制点的一个精度,并且用信号发送从集合{1/2-pel,1/4-pel,1/8-pel}中选择的用于右上控制点的一个精度。两个控制点的精度集合不同的原因在于:1像素精度对于与旋转和缩放运动相关的右上MV来说太粗糙,因为旋转和缩放运动具有比平移运动更复杂的扭曲效应。如果仿射模块具有低精度的平移运动,则左上控制点可以选择1像素精度;如果所述仿射模块具有高精度的平移运动,则左上控制点可以选择1/8像素精度。如果所述仿射模块具有高精度的旋转或缩放运动,则右上控制点可以选择1/8像素精度。基于统计,以下二进制表(表6,表7)可以用于对为两个控制点选择的精度进行译码。二进制码是码字,并且它们可以用不同的熵译码方法(诸如CABAC)来译码。在解码器端,在每一控制点的仿射MV预测值可被舍入到MVD具有的精度,然后被缩放到MV字段存储的高精度(例如VVC中的1/16-pel)。首先,解码后的MVD首先依据其精度而被缩放到用于MV字段存储的高精度。然后该缩放的MVD被添加到MV预测值,以获得用于运动场存储的精度的重构MV。利用公式(1),在控制点处重建的MV将用于导出每个子块的MV,以便用于每个子块的运动补偿,从而获得该子块的样本值预测。
表6.左上控制点的精度译码的二进制化
Figure BDA0002951830190000291
表7.右上控制点的精度译码的二进制化
Figure BDA0002951830190000292
在另一实施例中,用于两个控制点的精度集合可以是相同的,诸如{1/2-pel,1/4-pel,1/8-pel},但是用于两个控制点的精度编码的二进制化可以是不同的。在表8中提出了用于两个控制点的精度编码的二进制化的示例。
表8.控制点的精度编码的二进制化
Figure BDA0002951830190000301
在一些实施例中,对控制点的精度控制仅应用于那些大CU以节省信令开销,因为仿射运动模型通常更频繁地用于大CU。例如,在一些实施例中,控制点的MVD精度可仅在CU具有大于阈值(例如,16x16)的区域时被用信号发送。对于小CU,对于两个控制点,所述精度可以被推断为(1/4-pel)。
在一些实施例中,所述精度集合在图片级改变。在随机接入配置中,存在不同的时间层,并且在不同的层处可以使用不同的量化参数(QP)。例如,对于具有小QP的低时间层图片,其可以具有更多的精度选项,并且可以优选诸如1/8-pel的高精度。并且我们可以使用精度集合{1/2-pel,1/4-pel,1/8-pel}。对于具有大QP的高时间层图片,其可具有较少精度选项且可优选低精度,例如1像素。并且我们可以使用精度集合{1-pel,1/4-pel}或{1-pel,1/2-pel,1/4-pel}。
对于6参数仿射模型,左上处的运动与平移运动相关,右上与左上之间的运动差与水平方向上的旋转和缩放相关,并且左下与左上之间的运动差与垂直方向上的旋转和缩放相关。我们为6参数仿射模型指定三元组精度(p0,p1,p2),其中p0和p1以及p2是左上、右上和左下控制点的精度。一个实施例是在右上和左下控制点处为MVD信令设置相同的精度。例如,三个控制点的精度可以是集合{(1-pel,1/4-pel,1/4-pel),(1/4-pel,1/4-pel,1/4-pel),(1/8-pel,1/8-pel,1/8-pel)}之一。另一实施例是为右上和左下控制点设置不同的精度。为了节省信令开销,最好尽可能减少精度设置的选项。在一些实施例中,基于CU的形状选择所述精度集合。如果宽度等于高度(即,正方形CU),则右上和左下的精度可以相同,例如,精度集合为{(1-pel,1/4-pel,1/4-pel),(1/4-pel,1/4-pel,1/4-pel),(1/8-pel,1/8-pel,1/8-pel)}。如果宽度大于高度(即,长CU),则右上控制点的精度可以等于或高于左下控制点的精度,例如,精度集合为{(1-pel,1/4-pel,1/4-pel),(1/4-pel,1/4-pel,1/4-pel),(1/8-pel,1/8-pel,1/4-pel)}。如果宽度小于高度(即,高CU),右上控制点的精度可以等于或低于左下控制点的精度,例如,精度集合为{(1-pel,1/4-pel,1/4-pel),(1/4-pel,1/4-pel,1/4-pel),(1/8-pel,1/4-pel,1/8-pel)}。
在一些实施例中,由解码器执行的方法的示例在图18中示出。解码器接收比特流(框1802)并从比特流读取:标识至少第一运动向量预测值(框1804)和第二运动向量预测值(框1806)的信息、标识预定精度集合中的多个精度中的一者的信息(框1808)以及至少第一运动向量差(框1810)和第二运动向量差(框1812)。所述第一和第二运动向量差具有由在框1808处读取的信息所标识的精度。通过其在比特流中译码所述信息的语法和语义对于不同的实施例可以不同。解码器至少根据第一运动向量预测值和第一运动向量差生成第一控制点运动向量(框1814),并且根据第二运动向量预测值和第二运动向量差生成第二控制点运动向量(框1816)。解码器然后使用仿射运动模型来生成关于当前块的预测(框1818)。所述仿射运动模型的特征在于至少所述第一控制点运动向量和所述第二控制点运动向量。
用于具有自适应MVD精度的仿射运动模型的运动估计
当将自适应MVD精度应用于两个仿射控制点时,编码器操作以确定最优精度,其将影响仿射运动模型的译码性能。所述编码器还操作以应用具有给定精度的良好运动估计方法来确定仿射模型参数。
在VVC中,CU模式决策的流程图在图10中示出,其中编码器将检查不同的译码模式并选择具有最小RD成本的最佳译码模式。对于具有不同精度的显式帧间模式,对于转换模型,存在三种RD成本检查过程:1/4像素、1像素、4像素。为了降低所述编码复杂性,仅当1-pel精度的RD成本小于或相当于1/4-pel的RD成分时,才计算基于4-pel精度的RD成本。在1/4点精度的RD成本计算过程中,编码器将比较平移模型和仿射运动模型的运动估计的成本,并选择具有最小ME成本的运动模型。仿射运动模型的精度对于两个控制点是(1/4-pel,1/4-pel)。
在一些实施例中,对于仿射运动模型的自适应MVD精度,引入更多精度。例如,除了精度(1/4-pel,1/4-pel)之外,对于仿射模型添加(1-pel,1/4-pel)、(1/8-pel,1/8-pel)。以下论述将仿射模型的这三个精度用作示例。然而,其它实施例可以使用其它精度或更多精度的组合。仿射模型的(1/4-pel,1/4-pel)精度可以用作默认精度。为了降低复杂度,我们保持1/4-pel RD成本检查过程,其中将评估具有(1/4-pel,1/4-pel)精度的仿射模型。我们将剩余的仿***度检查加到1-pel精度的RD成本检查。
图11示出了使用具有1-pel精度的RD成本检查的实施例的流程图。分别执行精度为1-pel的平移模型的一个运动估计(框1102),以及精度为(1-pel,1/4-pel)和(1/8-pel,1/8-pel)的两个仿射运动估计(框1104)(框1106)。通过比较运动模型和相应精度的ME成本来选择运动模型和相应精度(框1108)。为了降低编码复杂性,仅当编码器已经检查了仿射模型的(1/4-pel,1/4-pel)精度之后当前最佳模式是具有仿射运动模型的帧间译码模式时,才执行在那两个精度的仿射运动估计。原因是不同的仿射模型精度仅在当前CU具有仿射运动时有效。为了进一步降低编码复杂性,在一些实施例中,编码器可仅在当前最佳译码模式为仿射非合并模式或当前最佳译码模式为仿射非跳过模式时,检查仿射模型的那些ME成本,因为所述合并和跳过模式指示了当前CU已被高效地译码且改进可能非常有限。
所述(1-pel,1/4-pel)和(1/2-pel,1/4-pel)精度低于默认精度(1/4-pel,1/4-pel)。可以观察到,基于光流的迭代搜索方法是不够的,因为左上控制点的精度是粗糙的,并且编码器更容易得到局部最小值。这里,我们提出了一种针对这种低精度的组合搜索方法。图12是搜索方法的一个示例的流程图。
首先应用上述“仿射模式”部分中的基于光流的迭代搜索。然后我们得到(MV0,MV1)作为下一步的输入,其中MV0是在左上控制点的MV,MV1是在右上控制点的MV(框1202)。下一步是通过检查其最近的8个相邻位置来细化MV0(框1204)。图13示出了一个示例。如果P0是MV0指向的位置,则它具有8个最近的相邻位置。P0与P4、P1之间的距离为MV0的精度,例如1-pel或1/2-pel。当MV0被改变为指向相邻位置时,使用基于光流的搜索方法估计相应的MV1,并且使用更新的(MV0,MV1)计算ME成本。这8个相邻点被分组为两组。第一组是其最近的4个相邻者{P1,P2,P3,P4},而{P5,P6,P7,P8}是第二组。最初,我们比较位置P0处的ME成本和来自{P1,P2,P3,P4}的相邻者的ME成本。如果P0具有最小成本,则MV0的细化停止。如果来自第一组的某相邻者具有比P0处更低的ME成本,则来自{P5,P6,P7,P8}的其它两个相邻者将被进一步比较。例如,如果P2在第一轮中具有最小成本,则将进一步检查P5和P6。这样,成本检查的最大次数是6而不是8。
一旦确定了MV0,则进一步细化MV1(框1204)。所述细化是利用正方形图案的迭代搜索。对于每次迭代,存在作为最后迭代的最佳位置的中心位置。编码器将计算在其8个相邻位置处的ME成本,并与当前最佳ME成本进行比较,并且将所述中心位置移动到在中心和8个相邻位置之中具有最小ME成本的新位置。如果在先前的迭代中已经检查了相邻位置,则在当前迭代中将跳过该位置检查。如果在当前迭代中没有更新,这意味着所述中心是最佳位置,则搜索将终止。或者如果搜索次数满足预定义阈值(例如8或16),则搜索将终止。
对于6参数仿射模型,可以扩展为4参数仿射模型提出的搜索方法。假设希望搜索6参数仿射运动的(MV0,MV1,MV2)。可以使用至少三个步骤来执行搜索:初始运动搜索、平移运动参数细化、旋转和缩放运动参数细化。第一步骤和第二步骤与4参数仿射搜索中的那些步骤相同。第三步是细化MV1和MV2。为了降低搜索复杂度,我们可以使用迭代细化来细化这两者。举例来说,我们固定MV0,MV2,并使用与4参数仿射模型的MV1细化相同的方案来细化MV1。在细化MV1之后,我们固定MV0,MV1,并使用相同的方案来细化MV2。然后我们再次细化MV1。这样,我们可以迭代地细化与旋转和缩放运动相关的这两个MV,直到一个MV没有改变或者迭代次数满足所述预定阈值。为了快速收敛,可以在该迭代细化方案中以如下方式选择用于细化的起始MV。首先选择用于细化的MV1或MV2可取决于它们自己的精度。通常,首先对具有较低精度的MV进行细化。如果它们具有相同的精度,则我们可以选择其控制点具有到左上控制点的更大距离的MV。
为了进一步降低编码复杂性,当编码器在控制点处测试各种精度以用于基于仿射模型的译码时,可考虑CU大小及时间层。精度决策可以仅对大CU执行。例如,示例精度确定方法可以仅应用于具有大于预定义阈值(例如,16x16)的区域的那些CU。对于区域小于所述阈值的那些CU,(1/4-pel,1/4-pel)精度被用于两个控制点。对于具有不同QP设置的不同时间层图片,编码器可仅测试每一时间层处的那些可能精度。例如,对于较高时间层图片(例如,最高时间层图片),可以仅测试(1-pel,1/4-pel)(1/4-pel,1/4-pel)。并且对于较低时间层图片(例如最低时间层图片)可以只测试(1/4-pel,1/4-pel)(1/8-pel,1/8-pel)。对于那些中间层图片,可测试完整精度集合。
基于子块的仿射运动补偿和估计
仿射运动估计是迭代估计过程。在每次迭代中,原始信号与使用当前运动向量、空间梯度和局部仿射参数(公式(3)中的a、b、c、d)的运动补偿预测信号之间的时间差之间的关系由公式(7)表示,其基于光流公式。然而,为了减少解码器侧的存储器存取带宽,仿射运动补偿预测是基于子块(例如,4×4)而不是基于样本。原因是当运动向量指向分数位置时,通常将存在内插滤波器以导出运动补偿时的样本值。与直接使用其最近相邻整数位置处的样本值的方法相比,该内插过程可以极大地改进所述预测。但是内插涉及整数位置处的多个相邻样本。给定控制点处的MV,每个子块的MV可以通过使用公式(1)基于该子块的中心位置而被导出。如果子块大小是1×1,这意味着运动补偿是基于样本的,并且每个样本可以具有不同的运动。假设我们具有抽头长度为N的可分离内插滤波器,并且子块大小为SxS。对于一个样本,其操作以提取MV指向的参考位置周围的(S+N-1)x(S+N-1)个整数样本以用于水平和垂直方向上的内插。平均起来,它在每个样本的整数位置处获取((S+N-1)x(S+N-1)/(SxS))个参考样本。对于基于样本的仿射运动补偿,其中S等于1,它是NxN。例如,在HEVC和VTM中N是8,如果子块大小是4×4,则每个样本的存储器存取是(121/16)。而对于基于样本的内插,每样本的存储器存取量是64,其与基于4×4子块的运动补偿相比是8.5倍。因此,基于子块的运动补偿用于仿射运动预测。在“仿射模式”部分中描述的仿射运动估计方法中,使用基于样本的预测,并且不考虑该基于子块的运动补偿。从公式(3)我们知道,给定这些仿射参数,每个位置的增量运动与其在CU内的位置相关。因此,如果我们使用子块的中心位置来利用公式(3)导出一个子块内的所有样本的运动,那么属于一个子块的这些样本将具有相同的增量运动。举例来说,如果样本位置是CU内的(i,j),那么其所属的子块的中心位置被评估为公式(24)。
Figure BDA0002951830190000351
然后,公式(3)通过用(ib,jb)取代(i,j)而被改变为公式(25)。
Figure BDA0002951830190000361
使用公式(25)来取代公式(6)中的使用
Figure BDA0002951830190000362
Figure BDA0002951830190000363
然后我们得到公式(26)。
Figure BDA0002951830190000364
在一些实施方案中,公式(26)被用于使用最小二乘法来估计最优仿射参数(a,b,c,d)。在用于运动估计的这样的实施例中,属于一个子块的那些样本的增量运动是相同的。因此,与使用公式(7)的基于样本的估计方法相比,对于基于子块的运动补偿预测,控制点处的最终MV将更准确。
在仿射运动补偿中,用于CU内的子块的MV导出的位置可不为该子块的实际中心位置。如图17所示,仿射CU是8x4,且运动补偿的子块大小是4x4。给定样本位置(i,j),用于子块MV导出的位置可以用公式(24)计算。对于左4x4子块和右4x4子块,这些位置分别是P0和P1。基于P0和P1的坐标,用公式(1)导出MV用于4参数仿射模型,用公式公式(8)、(9)导出MV用于6参数仿射模型。然而,使用公式(24),P0和P1不是这两个子块的中心。MV0和MV1可能对于子块运动补偿预测不准确。在一个实施例中,我们提出使用公式(27)计算该子块MV导出的位置。
Figure BDA0002951830190000365
利用公式(27),P0将被P0’取代,而P0’是左4x4子块的中心。因此,相应的MV0’比MV0更精确。在此描述的仿射运动估计方法中,公式(27)可以代替公式(24),以提高仿射运动估计的精度。给定仿射译码CU的控制点处的MV,色度分量的子块的MV可重用亮度分量的MV,或他们可通过使用公式(27)而被单独导出。
仿射MVD舍入
在仿射运动补偿的一些实现中,尽管由控制点MV导出的子块MV是1/16-pel精度,但是该控制点MV被舍入到1/4-pel精度。通过将MVD添加到MV预测值来导出所述控制点MV。在1/4像素精度中用信号发送所述MVD。所述MV预测值在被用于导出所述控制点MV之前,被舍入到1/4像素精度。利用自适应仿射MVD精度,用于导出当前译码块的控制点MV的MV预测值可以具有比当前CU的MV精度更高的精度。在这种情况下,所述MV预测值将被舍入到较低的精度。该舍入将导致信息丢失。在这里提出的一些实施例中,所述控制点MV和MV预测值被保持在最高精度,例如1/16-pel,而所述MVD被舍入到期望精度。
在仿射运动估计中,可迭代地估计所述仿射参数。对于每次迭代,可以使用如公式(4)和(5)中描述的光流方法来导出所述增量控制点MV。在VTM中的实现中,步骤k的控制点MV通过以下公式来更新:
Figure BDA0002951830190000371
其中i是控制点MV的索引。该函数
Figure BDA0002951830190000372
用于舍入
Figure BDA0002951830190000373
到期望的精度preci。并且,
Figure BDA0002951830190000374
初始控制点MV被舍入到所述期望的精度。因此
Figure BDA0002951830190000375
也是在所述期望的精度内。
在这里提出的方法的示例实施例中,通过以下步骤来更新步骤k的控制点MV。根据公式(29)-(31)来更新左上控制点MV。
Figure BDA0002951830190000376
Figure BDA0002951830190000377
Figure BDA0002951830190000381
对于i为1或2,根据公式Eq.(32)-(33)来更新右上和左下控制点MV。
Figure BDA0002951830190000382
Figure BDA0002951830190000383
Figure BDA0002951830190000384
在公式(29)-(34),
Figure BDA0002951830190000385
是高精度的步骤k的MVD。然后,如公式(30)和(33)所示,将该高精度MVD舍入到期望的精度。在公式(31)和公式(34)中导出步骤k处的控制点MV。
因为MVPi是1/16像素精度,
Figure BDA0002951830190000386
也是1/16像素精度。用信号发送的MVD(其在公式(33)以及(34)中被导出)处于期望的精度(例如,低精度)。以此方式,即使用信号发送的MVD处于低精度,也保持MV的精度。因此,提高了使用MV的运动补偿预测的精度。
自适应仿射MVD译码
具有不同精度的仿射MVD可具有不同特性。控制点MVD可以具有不同的物理意义。例如,对于(1/8-pel,1/8-pel,1/8-pel)或(1/16-pel,1/16-pel,1/16-pel)精度与(1/4-pel,1/4-pel,1/4-pel)精度相比,MVD的绝对值平均可以更小。如上面“MVD译码”一节中所述,具有不同阶数的EG码的长度是不同的。一般而言,如果EG的阶数较小,则对于较小值的EG码的长度将较短,而对于较大值的EG码的长度将较长。一些实施例采用自适应EG阶数用于MVD译码,以考虑MVD精度及其物理运动含义(例如,旋转、在不同方向缩放)。在一些实施例中,左上MVD(MVD0x,MVD0y)具有与非仿射MVD译码相同的EG阶数,因为MVD分量MVD0x和MVD0y用于平移运动。对于6参数仿射模型,MVD分量MVD1y和MVD2x与旋转运动相关,且MVD分量MVD1x和MVD2y与缩放运动相关。对于4参数仿射模型,MVD分量MVD1y与旋转运动相关,MVD分量MVD1x与缩放运动相关。
在一些实施例中,由于MVD值具有不同的特性,所以对于不同的MVD译码,EG码的阶数是不同的。在一些实施例中,对于平移运动相关的MVD(MVD0x,MVD0y),不用信号发送EG阶数;相反,此MVD可使用与非仿射MVD译码相同的EG阶数(例如,1)。
在一些实施例中,EG阶数是针对指数哥伦布(Exponential-Golomb)码而被用信号发送,所述指数哥伦布码用于与非平移运动相对应的不同MVD分量,例如表9中针对三个MVD精度而列出的那些MVD分量。在表9的实施例中,在比特流中用信号发送六个EG阶数(EG-阶数[0]至EG-阶数[5])。EG阶数范围是从0到3,其使用2个比特进行译码。MVD精度指示符指示不同的MVD精度。例如,MVD精度指示符“0”是针对(1/4-pel,1/4-pel,1/4-pel)精度;MVD精度指示符“1”用于(1/16-pel,1/16-pel,1/16-pel)精度;MVD精度指示符“2”用于(1-pel,1-pel,1-pel)精度。那些用信号发送的EG阶数将指示用于具有不同MVD精度的不同MVD分量的EG二值化的EG阶数。例如,EG-阶数[0]将用于MVD分量MVD1y和MVD2x,其中MVD精度指示符是“0”(即,(1/4-pel,1/4-pel,1/4-pel)精度集)。对于4参数仿射模型,MVD2x和MVD2y不需要经译码,且在表9中仅MVD1x和MVD1y经译码。
表9.用于后续MVD分量的指数哥伦布码的EG阶数信令
Figure BDA0002951830190000401
关于EG阶数的信令可以在例如图片参数集或切片头部中执行。在其中在切片头部处用信号发送EG阶数的实施例中,编码器可基于同一时间层处的先前经译码图片来选择EG阶数。在对每个帧间图片进行译码之后,编码器可以针对该类别中的所有MVD,将使用具有不同阶数的不同EG码的二进制位的总数进行比较。例如,对于MVD精度为“0”的所有MVD1y和MVD2x,编码器将具有EG阶数0、EG阶数1、EG阶数2和EG阶数3的总数二进制位进行比较,并选择具有总数二进制位的最小值的阶数。然后,所选择的阶数将用于在相同时间层的随后图片译码,并且所选择的阶数也将在相同时间层的随后图片的切片头部处被译码。
进一步的实施例
在一些实施例中,提供了一种从比特流解码视频的方法。该方法包括,对于所述视频中的至少一个块:从所述比特流读取标识选定预定精度集合中的多个元素中的一者的信息,其中所述选定预定精度集合的所述所标识元素指示至少选定第一精度和选定第二精度;以及使用仿射运动模型来解码所述块,所述仿射运动模型的特征在于至少具有所述选定第一精度的第一运动向量和具有所述选定第二精度的第二运动向量。所述方法可包含从所述比特流读取指示所述第一运动向量及所述第二运动向量的信息。所述指示第一运动向量和第二运动向量的信息可以包括第一运动向量差和第二运动向量差。
在一些实施例中,标识所述多个元素中的一者的所述信息是在逐块的基础上从所述比特流读取的。
在一些实施例中,所述第一运动向量与所述块的第一控制点相关联,并且所述第二运动向量与所述块的第二控制点相关联。
在一些实施例中,所述选定预定精度集合的所述元素中的每一者包含可用的第一精度和可用的第二精度。所述可用的第二精度可以不低于所述可用的第一精度。
在一些实施例中,从所述比特流读取标识来自多个可用预定精度集合的所述选定预定精度集合的信息。在一些此类实施例中,在图片参数集中、在序列参数集中或在切片头部中用信号发送所述标识所述选定预定精度集合的信息。预定位置集合的示例包括:
{(1-pel,1/4-pel),(1/4-pel,1/4-pel)},
{(1-pel,1/4-pel),(1/4-pel,1/4-pel),(1/4-pel,1/8-pel)},
{(1-pel,1/4-pel),(1/4-pel,1/4-pel),(1/8-pel,1/8-pel)},以及
{(1-pel,1/4-pel),(1/4-pel,1/4-pel),(1/4-pel,1/8-pel),(1/8-pel,1/8-pel)}。
在一些实施例中,所述仿射运动模型的特征进一步在于具有选定第三精度的第三运动向量,其中所述选定预定精度集合的所标识的元素进一步指示所述选定第三精度。
在一些实施例中,使用上下文自适应二进制算术译码在所述比特流中对所述标识所述多个元素中的一个元素的信息进行译码。
在一些实施例中,确定所述块的大小是否大于阈值大小,其中仅在所述块的所述大小大于所述阈值大小的情况下才从所述比特流读取标识所述多个元素中的一者的所述信息。
在一些实施例中,基于包含所述块的图片的时间层来选择所述选定预定精度集合。
在一些实施例中,基于所述块的形状来选择所述选定预定精度集合。
在一些实施例中,提供了一种对比特流中的视频进行解码的方法。该方法包括,对于所述视频中的至少一个块:从所述比特流中读取(i)指示第一预定集合的可用精度中的第一精度的第一信息和(ii)指示第二预定集合的可用精度中的第二精度的第二信息;使用仿射运动模型来解码所述块,所述仿射运动模型的特征在于至少具有所述选定第一精度的第一运动向量及具有所述选定第二精度的第二运动向量;以及在所述比特流中用信号发送(i)指示来自所述第一预定的可用精度集合中的所述第一精度的第一信息和(ii)指示来自所述第二预定的可用精度集合中的所述第二精度的第二信息。所述第一预定集合和第二预定集合可以不同。
在一些实施例中,第一预定集合是{1-pel,1/4-pel,1/8-pel},而所述第二预定集合是{1/2-pel,1/4-pel,1/8-pel}。
在一些实施例中,所述第一运动向量与所述块的第一控制点相关联,并且所述第二运动向量与所述块的第二控制点相关联。
在一些实施例中,提供了一种用于在比特流中对视频进行编码的方法。该方法包括,对于视频中的至少一个块:使用仿射运动模型来编码所述块,所述仿射运动模型的特征在于至少具有选定第一精度的第一运动向量及具有选定第二精度的第二运动向量;以及在所述比特流中用信号发送标识选定预定精度集合中的多个元素中的一者的信息,其中所述选定预定精度集合的所述所标识元素指示至少所述选定第一精度和所述选定第二精度。所述方法可进一步包含在所述比特流中用信号发送指示所述第一运动向量及所述第二运动向量的信息。指示所述第一运动向量和所述第二运动向量的所述信息可以包括第一运动向量差和第二运动向量差。
在一些实施例中,标识所述多个元素中的一个的所述信息是在逐块的基础上发送的。
在一些实施例中,所述第一运动向量与所述块的第一控制点相关联,并且所述第二运动向量与所述块的第二控制点相关联。
在一些实施例中,所述选定预定精度集合的所述元素中的每一者包含可用的第一精度和可用的第二精度。在一些实施例中,所述可用的第二精度不低于所述可用的第一精度。
在一些实施例中,所述方法包含在所述比特流中用信号发送标识来自多个可用预定精度集合的所述选定预定精度集合的信息。标识所述选定预定精度集合的所述信息可在(例如)图片参数集、序列参数集或切片头部中用信号发送。
预定位置集合的示例包括:
{(1-pel,1/4-pel),(1/4-pel,1/4-pel)},
{(1-pel,1/4-pel),(1/4-pel,1/4-pel),(1/4-pel,1/8-pel)},
{(1-pel,1/4-pel),(1/4-pel,1/4-pel),(1/8-pel,1/8-pel)},以及
{(1-pel,1/4-pel),(1/4-pel,1/4-pel),(1/4-pel,1/8-pel),(1/8-pel,1/8-pel)}。
在一些实施例中,所述仿射运动模型的特征进一步在于具有选定第三精度的第三运动向量,且所述选定预定精度集合的所标识元素进一步指示所述选定第三精度。
在一些实施例中,使用上下文自适应二进制算术译码在所述比特流中对标识所述多个元素中的一个元素的所述信息进行译码。
在一些实施例中,所述方法包含确定所述块的大小是否大于阈值大小,且仅在所述块的所述大小大于所述阈值大小的情况下才在所述比特流中用信号发出标识所述多个元素中的一者的所述信息。
在一些实施例中,基于包含所述块的图片的时间层来选择所述选定预定精度集合。
在一些实施例中,基于所述块的形状来选择所述选定预定精度集合。
在一些实施例中,提供了一种用于在比特流中对视频进行编码的方法。该方法包括,对于视频中的至少一个块:使用仿射运动模型来编码所述块,所述仿射运动模型的特征在于至少具有选定第一精度的第一运动向量及具有选定第二精度的第二运动向量;以及在所述比特流中用信号发送(i)指示来自第一预定的可用精度集合中的第一精度的第一信息和(ii)指示来自第二预定的可用精度集合中的第二精度的第二信息。所述第一预定集合和所述第二预定集合可以不同。
在一些实施例中,所述第一预定集合是{1-pel,1/4-pel,1/8-pel},而所述第二预定集合是{1/2-pel,1/4-pel,1/8-pel}。
在一些实施例中,所述第一运动向量与所述块的第一控制点相关联,并且所述第二运动向量与所述块的第二控制点相关联。
一些实施例包含一种在比特流中编码视频的方法,其中所述方法包含针对所述视频中的至少一个块:确定使用平移运动模型来编码所述块的第一速率失真成本;确定使用具有第一仿射模型精度集合的仿射预测模型来编码所述块的第二速率失真成本;确定所述第二速率失真成本是否小于所述第一速率失真成本;响应于确定所述第二速率失真成本小于所述第一速率失真成本,确定使用具有第二仿射模型精度集合的仿射预测模型来编码所述块的至少第三速率失真成本;以及使用与最低确定的率失真成本相关联的编码模型来编码所述比特流中的所述块。
在一些实施例中,响应于确定所述第二速率失真成本小于所述第一速率失真成本,确定使用具有第四仿射模型精度集合的仿射预测模型来编码所述块的第四速率失真成本。
在一些实施例中,提供了一种在比特流中对视频进行编码的方法。该方法包括,对于视频中的至少一个块:使用以下公式确定仿射参数a、b、c和d:
I′k(i,j)-I(i,j)=(gx(i,j)*ib+gy(i,j)*jb)*c+(-gx(i,j))*jb+gy(i,j)*ib)*d
其中,I(i,j)是原始亮度信号,I′k(i,j)是预测亮度信号,并且gx(i,j)以及gy(i,j)是施加在I′k(i,j)上的空间梯度,以及
Figure BDA0002951830190000451
其中S是大于一的子块大小;以及使用所确定的仿射参数a、b、c和d来编码所述比特流中的所述块。
在一些实施例中,提供了一种对视频进行译码的方法。该方法包括,对于所述视频中的至少一个块:标识至少一个控制点的运动向量预测值(MVP),所述运动向量预测值具有第一精度;标识所述控制点的运动向量差(MVD)值,所述运动向量差值具有低于所述第一精度的第二精度;通过至少将所述运动向量差值与所述运动向量预测值相加来计算所述控制点的运动向量,所述计算出的运动向量具有所述第一精度;以及使用针对所述至少一个控制点计算的运动向量,利用仿射预测来预测所述块。所述运动向量差值可由编码器在比特流中用信号发送或由解码器从比特流解析。
在一些实施例中,所述方法由编码器执行,并且标识运动向量差包括迭代地:基于初始运动向量,确定所述控制点的运动向量增量;基于所述运动向量增量,更新所述运动向量差;将所述运动向量差舍入到所述第二精度;以及将所述经舍入的运动向量差添加到所述运动向量预测值以产生经更新的运动向量,所述运动向量预测值和所述经更新的运动向量具有所述第一精度。
在一些实施例中,所述第一精度是1/16像素精度,所述第二精度是1/4像素精度。
在一些实施例中,利用仿射预测来预测所述块通过使用两个控制点而被执行,其中针对每个控制点标识相应运动向量差,并且其中每个相应运动向量差具有所述第二精度。
在一些实施例中,利用仿射预测来预测所述块通过使用三个控制点而被执行,其中针对每个控制点标识相应运动向量差,并且其中每个相应运动向量差具有所述第二精度。
在一些实施例中,提供了一种从比特流解码视频的方法。该方法包括,对于所述视频中的至少一个块:至少部分基于在所述比特流中译码的信息,确定多个运动向量差(MVD)分量中的每一者的相应译码阶数;使用所述相应的所确定的译码阶数从所述比特流读取所述MVD分量中的每一者;以及使用仿射运动模型来解码所述块,所述仿射运动模型至少部分地由所述MVD分量表征。
在一些实施例中,所述方法包含从所述比特流读取标识所述MVD分量的相应精度的信息,其中部分地基于所述相应精度来确定所述MVD分量的所述译码阶数。可使用指数-哥伦布译码来译码所述MVD分量,且所述译码阶数可为指数-哥伦布译码阶数。
一些实施例包括一种从比特流解码视频的方法。该方法包括,对于所述视频中的至少一个块:确定多个运动向量差(MVD)分量中的每一者的相应译码阶数,其中用于MVD分量的所述相应译码阶数是基于(i)所述MVD分量的精度及(ii)所述分量是与旋转运动还是缩放运动相关而被确定的;使用所述相应的所确定的译码阶数从所述比特流读取所述MVD分量中的每一者;以及使用仿射运动模型来解码所述块,所述仿射运动模型至少部分地由所述MVD分量表征。
一些实施例还包括从所述比特流读取阶数信息,其中该阶数信息标识:
与(i)1/4-pel精度和(ii)旋转运动相关联的第一译码阶数;
与(i)1/4-pel精度和(ii)缩放运动相关联的第二译码阶数;
与(i)1/16-pel精度和(ii)旋转运动相关联的第三译码阶数;
与(i)1/16-pel精度和(ii)缩放运动相关联的第四译码阶数;
与(i)1-pel精度和(ii)旋转运动相关联的第五译码阶数;以及
与(i)1-pel精度和(ii)缩放运动相关联的第六译码阶数。
使用所述阶数信息执行相应的译码阶数。所述阶数信息可在(例如)图片参数集或切片头部中被译码。
在一些实施例中,使用指数-哥伦布译码来译码所述MVD分量,且所述译码阶数为指数-哥伦布译码阶数。
在一些实施例中,提供了一种用于对比特流中的视频进行编码的方法,该方法包括,针对所述视频中的至少一个块:选择阶数信息,其中所述阶数信息基于(i)运动向量差(MVD)分量的精度及(ii)所述分量是与旋转运动还是缩放运动相关来标识所述MVD分量的译码阶数;将所述阶数信息编码在所述比特流中;以及使用仿射运动模型来编码所述块,所述仿射运动模型至少部分地由多个MVD分量表征,其中使用由所述阶数信息确定的译码阶数在所述比特流中编码所述多个MVD分量中的每一者。
在一些实施例中,所述阶数信息标识:
与(i)1/4-pel精度和(ii)旋转运动相关联的第一译码阶数;
与(i)1/4-pel精度和(ii)缩放运动相关联的第二译码阶数;
与(i)1/16-pel精度和(ii)旋转运动相关联的第三译码阶数;
与(i)1/16-pel精度和(ii)缩放运动相关联的第四译码阶数;
与(i)1-pel精度和(ii)旋转运动相关联的第五译码阶数;以及
与(i)1-pel精度和(ii)缩放运动相关联的第六译码阶数。
可使用所述阶数信息来执行确定相应译码阶数。所述阶数信息可在(例如)图片参数集或切片头部中被译码。
在一些实施例中,使用指数-哥伦布译码来译码所述MVD分量,且所述译码阶数为指数-哥伦布译码阶数。
一些实施例包括存储使用本文公开的任何方法编码的视频的非暂时性计算机可读存储介质。一些实施例包括存储指令的非暂时性计算机可读存储介质,所述指令可操作以执行本文公开的任何方法。
译码的比特流结构
图15是示出译码的比特流结构的示例的图。译码的比特流1300由多个NAL(网络抽象层)单元1301组成。NAL单元可以包含译码的的样本数据,例如译码的切片1306;或者高级语法元数据,例如参数集数据、切片头部数据1305或补充增强信息数据1307(其可以被称为SEI消息)。参数集是含有基本语法元素的高级语法结构,所述基本语法元素可应用于多个比特流层(例如,视频参数集1302(VPS)),或可应用于一个层内的经译码视频序列(例如,序列参数集1303(SPS)),或可应用于一个经译码视频序列内的若干经译码图片(例如,图片参数集1304(PPS))。所述参数集可以与所述视频比特流的所述译码的图片一起发送,或者通过其它方式(包括使用可靠信道的带外传输、硬译码等)发送。切片头部1305也是高级语法结构,其可以包含一些图片相关信息,该信息相对较小或者仅与某些切片或图片类型相关。SEI消息1307携带解码过程可能不需要但可用于各种其它目的信息,例如图片输出定时或显示以及丢失检测和隐藏。
通信设备和***
图16是示出了通信***的示例的图。该通信***1400可以包括编码器1402、通信网络1404和解码器1406。所述编码器1402可以经由连接1408与网络1404通信,该连接可以是有线连接或无线连接。所述编码器1402可类似于图2A的基于块的视频编码器。所述编码器1402可以包括单层编解码器(例如,图2A)或多层编解码器。所述解码器1406可以经由连接1410与网络1404通信,该连接可以是有线连接或无线连接。所述解码器1406可类似于图2B的基于块的视频解码器。所述解码器1406可包括单层编解码器(例如,图2B)或多层编解码器。
所述编码器1402和/或所述解码器1406可并入到各种各样的有线通信装置和/或无线发射/接收单元(WTRU)中,例如(但不限于)数字电视、无线广播***、网络元件/终端、服务器(例如,内容或网络服务器(例如,例如超文本传送协议(HTTP)服务器))、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、数码相机、数字记录设备、视频游戏控制台、蜂窝式或卫星无线电电话、数字媒体播放器和/或类似设备。
所述通信网络1404可以是合适类型的通信网络。例如,所述通信网络1404可以是向多个无线用户提供诸如语音、数据、视频、消息收发、广播等内容的多址***。所述通信网络1404可以使多个无线用户能够通过共享包括无线带宽的***资源来访问这样的内容。例如,所述通信网络1404可以采用一种或多种信道接入方法,例如码分多址(CDMA)、时分多址(TDMA)、频分多址(FDMA)、正交FDMA(OFDMA)、单载波FDMA(SC-FDMA)和/或类似方法。所述通信网络1404可以包括多个连接的通信网络。所述通信网络1404可包括因特网和/或一个或多个专用商业网络,诸如蜂窝网络、WiFi热点、和/或因特网服务提供商(ISP)网络等。
注意,所描述的一个或多个实施例的各种硬件元件被称为“模块”,其执行(即,实施、运行等)在此结合相应模块描述的各种功能。如本文所使用的,模块包括相关领域的技术人员认为适合于给定实现的硬件(例如,一个或多个处理器、一个或多个微处理器、一个或多个微控制器、一个或多个微芯片、一个或多个专用集成电路(ASIC)、一个或多个现场可编程门阵列(FPGA)、一个或多个存储器设备)。每个所描述的模块还可以包括可执行用于执行被描述为由相应模块执行的一个或多个功能的指令,并且注意,这些指令可以采取硬件(即,硬连线的)指令、固件指令、和/或软件指令等的形式或包括它们,并且可以存储在任何适当的非暂时性计算机可读介质或媒体中,诸如通常被称为RAM、ROM等。
尽管上述按照特定组合描述了特征和元素,但是本领域技术人员将理解的是每个特征或元素可以被单独使用或以与其它特征和元素的任何组合来使用。此外,于此描述的方法可以在嵌入在计算机可读介质中由计算机或处理器执行的计算机程序、软件或固件中实施。计算机可读存储媒体的示例包括但不限于只读存储器(ROM)、随机存取存储器(RAM)、寄存器、缓冲存储器、半导体存储设备、诸如内部硬盘和可移除磁盘之类的磁媒体、磁光媒体、以及诸如CD-ROM碟片和数字多用途碟片(DVD)之类的光媒体。与软件相关联的处理器可以用于实施在WTRU、UE、终端、基站、RNC或任意主计算机中使用的射频收发信机。

Claims (11)

1.一种从比特流解码视频的方法,所述方法包括:对于所述视频中的至少一个当前块,
从所述比特流读取标识至少第一运动向量预测值及第二运动向量预测值的信息;
从所述比特流读取至少第一运动向量差及第二运动向量差,所述第一及第二运动向量差具有一精度;
从所述比特流读取标识预定精度集合中的多个精度中的一者的信息,所述所标识的精度指示所述第一和第二运动向量差的所述精度;
至少(i)根据所述第一运动向量预测值和所述第一运动向量差,生成第一控制点运动向量,以及(ii)根据所述第二运动向量预测值和所述第二运动向量差,生成第二控制点运动向量;以及
使用仿射运动模型,生成关于所述当前块的预测,所述仿射运动模型由至少所述第一控制点运动向量及所述第二控制点运动向量表征。
2.根据权利要求1所述的方法,其中在所述预定精度集合中的所述多个精度包括1/4像素精度、1/16像素精度和1像素精度。
3.根据权利要求1或2所述的方法,其中所述仿射运动模型为四参数运动模型。
4.根据权利要求1或2所述的方法,其中所述仿射运动模型为六参数运动模型,所述方法进一步包括:
从所述比特流读取标识第三运动向量预测值的信息;
从所述比特流读取具有所述所标识的精度的第三运动向量差;以及
根据所述第三运动向量预测值和所述第三运动向量差,生成第三控制点运动向量;
其中所述仿射运动模型由所述第一控制点运动向量、所述第二控制点运动向量和所述第三控制点运动向量表征。
5.根据权利要求1-4中的任一项所述的方法,其中标识所述多个精度中的一者的所述信息是在逐块的基础上从所述比特流读取的。
6.根据权利要求1到5中任一权利要求所述的方法,其进一步包括:将所述运动向量预测值中的至少一者舍入到所述所标识的精度。
7.根据权利要求1-6中任一项所述的方法,其中所述控制点运动向量中的每一者通过将所述对应的运动向量差与所述相应运动向量预测值相加而被生成。
8.根据权利要求1至7中任一项所述的方法,其中所述预定精度集合不同于用于所述视频中的非仿射帧间译码的预定精度集合。
9.根据权利要求1至8中任一项所述的方法,其中生成关于所述当前块的预测包括:
使用所述仿射运动模型,确定所述当前块的多个子块中的每一者的相应子块运动向量;以及
使用所述相应子块运动向量,生成关于所述子块中的每一者的帧间预测。
10.根据权利要求1至9中任一项所述的方法,还包括:
从所述比特流读取所述当前块的残差;以及
通过将所述残差加到关于所述当前块的所述预测来重构所述当前块。
11.一种用于从比特流解码视频的***,所述***包括处理器和存储指令的非暂时性计算机可读介质,所述指令操作以执行功能,所述功能包括:对于所述视频中的至少一个当前块,
从所述比特流读取标识至少第一运动向量预测值及第二运动向量预测值的信息;
从所述比特流读取至少第一运动向量差及第二运动向量差,所述第一及第二运动向量差具有一精度;
从所述比特流读取标识预定精度集合中的多个精度中的一者的信息,所述所标识的精度指示所述第一和第二运动向量差的所述精度;
至少(i)根据所述第一运动向量预测值和所述第一运动向量差,生成第一控制点运动向量,以及(ii)根据所述第二运动向量预测值和所述第二运动向量差,生成第二控制点运动向量;以及
使用仿射运动模型,生成关于所述当前块的预测,所述仿射运动模型由至少所述第一控制点运动向量及所述第二控制点运动向量表征。
CN201980055939.9A 2018-08-29 2019-08-28 用于基于仿射运动模型的视频译码的自适应运动向量精度 Active CN112640452B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201862724500P 2018-08-29 2018-08-29
US62/724,500 2018-08-29
US201862773069P 2018-11-29 2018-11-29
US62/773,069 2018-11-29
US201862786768P 2018-12-31 2018-12-31
US62/786,768 2018-12-31
PCT/US2019/048615 WO2020047132A1 (en) 2018-08-29 2019-08-28 Adaptive motion vector precision for affine motion model based video coding

Publications (2)

Publication Number Publication Date
CN112640452A true CN112640452A (zh) 2021-04-09
CN112640452B CN112640452B (zh) 2024-06-18

Family

ID=67928909

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980055939.9A Active CN112640452B (zh) 2018-08-29 2019-08-28 用于基于仿射运动模型的视频译码的自适应运动向量精度

Country Status (5)

Country Link
US (2) US11582458B2 (zh)
EP (1) EP3844955A1 (zh)
JP (1) JP2021536686A (zh)
CN (1) CN112640452B (zh)
WO (1) WO2020047132A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024104483A1 (en) * 2022-11-18 2024-05-23 Douyin Vision Co., Ltd. Method, apparatus, and medium for video processing

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102591095B1 (ko) * 2017-09-28 2023-10-19 삼성전자주식회사 부호화 방법 및 그 장치, 복호화 방법 및 그 장치
CN116347099A (zh) 2018-06-19 2023-06-27 北京字节跳动网络技术有限公司 没有运动矢量预测截断的选择的运动矢量差精度
KR20210038846A (ko) 2018-06-29 2021-04-08 브이아이디 스케일, 인크. Affine motion 모델 기반 비디오 코딩을 위한 적응형 제어 포인트 선택
CN116546213A (zh) 2018-09-19 2023-08-04 北京字节跳动网络技术有限公司 具有自适应运动矢量分辨率的仿射模式的语法重用
WO2020060366A1 (ko) * 2018-09-22 2020-03-26 엘지전자 주식회사 인터 예측을 기반으로 비디오 신호를 처리하기 위한 방법 및 장치
EP3834418A1 (en) * 2018-09-23 2021-06-16 Beijing Bytedance Network Technology Co. Ltd. Modification of motion vector with adaptive motion vector resolution
CN111357294B (zh) * 2018-10-23 2022-12-30 北京字节跳动网络技术有限公司 基于子块的运动信息列表的简化熵编解码
KR20210121021A (ko) 2019-01-31 2021-10-07 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 어파인 모드 적응적 움직임 벡터 해상도 코딩 문맥
JP7215243B2 (ja) * 2019-03-08 2023-01-31 株式会社Jvcケンウッド 画像符号化装置
SG11202109233PA (en) * 2019-03-12 2021-09-29 Tencent America LLC Method and apparatus for video encoding or decoding
WO2021047540A1 (en) 2019-09-09 2021-03-18 Beijing Bytedance Network Technology Co., Ltd. Coefficient scaling for high precision image and video coding
EP4018648A4 (en) 2019-09-21 2022-11-23 Beijing Bytedance Network Technology Co., Ltd. HIGH PRECISION TRANSFORMATION AND QUANTIZATION FOR IMAGE AND VIDEO CODING
US11758151B2 (en) * 2020-12-29 2023-09-12 Qualcomm Incorporated Template matching in video coding
US11936877B2 (en) * 2021-04-12 2024-03-19 Qualcomm Incorporated Template matching based affine prediction for video coding
US11979596B2 (en) 2022-02-07 2024-05-07 Tencent America LLC Joint coding for adaptive motion vector difference resolution
US20240089487A1 (en) * 2022-09-09 2024-03-14 Tencent America LLC Systems and methods for subblock motion vector coding

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201739252A (zh) * 2016-03-15 2017-11-01 聯發科技股份有限公司 具有仿射運動補償的視訊編碼的方法以及裝置
US20180098089A1 (en) * 2016-10-04 2018-04-05 Qualcomm Incorporated Adaptive motion vector precision for video coding
CN108432250A (zh) * 2016-01-07 2018-08-21 联发科技股份有限公司 用于视频编解码的仿射帧间预测的方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10638152B2 (en) * 2016-03-15 2020-04-28 Mediatek Inc. Method and apparatus of video coding with affine motion compensation
US10462462B2 (en) * 2016-09-29 2019-10-29 Qualcomm Incorporated Motion vector difference coding technique for video coding
CN109391814B (zh) * 2017-08-11 2023-06-06 华为技术有限公司 视频图像编码和解码的方法、装置及设备
JP7488249B2 (ja) * 2018-07-11 2024-05-21 華為技術有限公司 ビデオ・エンコーダ、ビデオ・デコーダおよび対応する方法
US11076169B2 (en) * 2019-05-14 2021-07-27 Qualcomm Incorporated Switchable interpolation filtering (SIF) for video coding

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108432250A (zh) * 2016-01-07 2018-08-21 联发科技股份有限公司 用于视频编解码的仿射帧间预测的方法及装置
TW201739252A (zh) * 2016-03-15 2017-11-01 聯發科技股份有限公司 具有仿射運動補償的視訊編碼的方法以及裝置
US20180098089A1 (en) * 2016-10-04 2018-04-05 Qualcomm Incorporated Adaptive motion vector precision for video coding

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Y. CHEN 等: "Description of SDR, HDR and 360° video coding technology proposal by Qualcomm and Technicolor – low and high complexity versions", 《JOINT VIDEO EXPLORATION TEAM (JVET) OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11》, pages 17 - 20 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024104483A1 (en) * 2022-11-18 2024-05-23 Douyin Vision Co., Ltd. Method, apparatus, and medium for video processing

Also Published As

Publication number Publication date
US11582458B2 (en) 2023-02-14
EP3844955A1 (en) 2021-07-07
JP2021536686A (ja) 2021-12-27
CN112640452B (zh) 2024-06-18
WO2020047132A1 (en) 2020-03-05
US20210203947A1 (en) 2021-07-01
US20230136599A1 (en) 2023-05-04

Similar Documents

Publication Publication Date Title
CN112640452B (zh) 用于基于仿射运动模型的视频译码的自适应运动向量精度
TWI805788B (zh) 降低解碼器側運動精化的寫碼潛時的方法及裝置
JP7311589B2 (ja) 双方向オプティカルフローのための複雑性低減およびビット幅制御
KR102612975B1 (ko) 광류를 사용한 인터 예측 개선을 위한 시스템, 장치 및 방법
US20240107024A1 (en) Affine motion model derivation method
US20240196004A1 (en) Affine motion estimation for affine model-based video coding
EP3987778B1 (en) Precision refinement for motion compensation with optical flow
RU2803479C2 (ru) Адаптивная точность вектора движения для кодирования видеосигналов на основе аффинной модели движения
RU2811563C2 (ru) Системы, устройства и способы для уточнения интерпрогнозирования с помощью оптического потока
US20220132136A1 (en) Inter prediction bandwidth reduction method with optical flow compensation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant