CN113545067A

CN113545067A - 仿射运动模型推导方法

Info

Publication number: CN113545067A
Application number: CN202080018733.1A
Authority: CN
Inventors: 罗健聪; 贺玉文; 陈伟
Original assignee: Vid Scale Inc
Current assignee: Vid Scale Inc
Priority date: 2019-03-05
Filing date: 2020-02-28
Publication date: 2021-10-22
Also published as: EP3935849A1; US11870997B2; KR20210142610A; US20220150506A1; US20240107024A1; WO2020180704A1

Abstract

描述了用于使用仿射运动预测的视频译码的***和方法。在示例方法中，从与当前块相邻的多个相邻子块的相应运动向量，确定运动向量梯度。基于所述运动向量梯度，确定所述当前块的至少一个仿射参数的估计。至少部分基于所述所估计的仿射参数(一个或多个)，确定仿射运动模型，且使用所述仿射运动模型产生所述当前块的预测。所估计的参数(一个或多个)可用于仿射运动模型本身中。或者，所估计的参数(一个或多个)可用于所述仿射运动模型的预测中。在一些实施例中，仅所述当前块上方和/或左侧的相邻子块用于估计所述仿射参数(一个或多个)。

Description

仿射运动模型推导方法

相关申请的交叉引用

本申请是2019年3月5日提交的题为“Affine Motion Model Derivation Method(仿射运动模型推导方法)”的美国临时专利申请No.62/814，125的非临时申请，并且按照35U.S.C.§119(e)要求其权益，该申请通过引用而被整体结合到本文中。

背景技术

视频译码***广泛用于压缩数字视频信号，以减少这种信号的存储需要和/或传输带宽。在各种类型的视频译码***(例如，基于块、基于小波和基于对象的***)中，现今基于块的混合视频译码***被最广泛地使用和部署。基于块的视频译码***的示例包括国际视频译码标准，例如MPEG-1/2/4第2部分、H.264/MPEG-4第10部分AVC、VC-1和称为高效视频译码(HEVC)的最新视频译码标准，其由ITU-T/SG16/Q.6/VCEG和ISO/IEC/MPEG的JCT-VC(视频译码联合合作团队)开发。

在2017年10月，ITU-T和ISO/IEC提出了关于具有超出HEVC的能力的视频压缩的联合提案(CfP)。在2018年年4月，在第10次JVET会议时接收和评估了针对标准动态范围类别的22个CfP响应，证明了相对于HEVC的压缩效率增益为约40％。基于这样的评估结果，联合视频专家组(JVET)发起了新项目来开发被称为通用视频译码(VVC)的新一代视频译码标准。在同一个月，建立一个称为VVC测试模型(VTM)的参考软件代码库，用于演示所述VVC标准的参考实现。对于初始VTM-1.0，除了在VTM中使用基于多类型树的块划分结构之外，包括帧内预测、帧间预测、变换/逆变换和量化/去量化以及环内滤波器的大多数译码模块遵循现有HEVC设计。同时，为了便于新译码工具的评估，还生成了称为基准集(BMS)的另一参考软件库。在BMS代码库中，从JEM继承的译码工具的列表提供了更高的译码效率和适中的实现复杂度，该列表被包括在VTM之上，并且在VVC标准化过程期间评估类似的译码技术时被用作基准。具体地，在BMS-1.0中集成了9个JEM译码工具，这其中包括65个角度帧内预测方向、修改的系数译码、高级多重变换(AMT)+4×4不可分离的二次变换(NSST)、仿射运动模型、广义自适应环路滤波器(GALF)、高级时间运动向量预测(ATMVP)、自适应运动向量精度、解码器侧运动向量细化(DMVR)和线性模型(LM)色度模式。

发明内容

本文描述的实施例包括在视频编码(encoding)和解码(decoding)(统称为“译码(coding)”)中使用的方法。

在一些实施例中，一种方法包括：针对视频中的至少一个当前块，从与所述当前块相邻的多个相邻子块的相应运动向量确定至少一个运动向量梯度；基于所述至少一个运动向量梯度，确定所述当前块的至少一个仿射参数的估计；至少部分基于所述仿射参数的所述所确定的估计，确定仿射运动模型；以及使用仿射运动模型产生所述当前块的预测。

在一些实施例中，确定仿射运动模型包括：确定所述仿射运动模型的多个仿射参数，且所确定的估计被用作所述多个仿射参数中的至少一者。

在一些实施例中，确定仿射运动模型包括：确定仿射运动模型预测子(predictor)的多个仿射参数，其中所述所确定的估计被用作所述仿射运动模型预测子的所述多个仿射参数中的至少一者；其中所述仿射运动模型通过使用所述仿射运动模型预测子来预测。

在一些实施例中，确定仿射运动模型包括：使用所述仿射参数的所确定的估计来确定初始运动模型；提供所述初始运动模型作为基于光流的仿射模型细化(refinement)过程的输入；以及使用所述仿射模型细化过程产生所述仿射运动模型。

在一些实施例中，产生所述当前块的预测包含：基于所述仿射运动模型，确定所述当前块中的至少一个子块的子块运动向量。

在一些实施例中，至少一个子块的所述子块运动向量根据以下而被确定：

以及

其中所确定的估计被用作值a_xx，a_xy，a_yx或a_yy中的至少一者。

以及

其中所确定的估计被用作值a_xx，a_xy，a_yx或a_yy中的至少一者的预测子。

在一些实施例中，该方法还包括在编码器处：计算表示输入块与所述当前块的所述预测之间的差的残差；以及在比特流中编码所述残差。

在一些实施例中，该方法还包括在解码器处：从比特流解码与所述当前块相关联的残差；以及通过将所述残差加到所述仿射预测来重构所述当前块。

在一些实施例中，所述仿射参数是a_pq，其中p和q每一者是从包括x和y的组中选择的方向，并且其中所确定的a_pq的估计是所述多个相邻子块的运动向量的p分量的q方向梯度的平均值。

在另外的实施例中，提供了编码器和解码器装置以执行本文描述的方法。编码器或解码器设备可包含经配置以执行本文描述的方法的处理器。该装置可以包括存储用于执行本文描述的方法的指令的计算机可读介质(例如，非暂时性介质)。在一些实施例中，计算机可读介质(例如，非暂时性介质)存储使用本文描述的任何方法编码的视频。

附图说明

图1A是示出了其中可以实施一个或多个所公开的实施例的示例性通信***的***示意图。

图1B是示出了根据实施例的可以在图1A所示的通信***内部使用的示例性无线发射/接收单元(WTRU)的***示意图。

图2A是基于块的视频编码器(例如，用于VVC的编码器)的功能框图。

图2B是基于块的视频解码器(例如，用于VVC的解码器)的功能框图。

图3A到3B示出了四参数仿射运动模型，其包含仿射模型(图3A)和用于仿射块的子块级运动推导(图3B)。

图4示出了六参数仿射运动模型。V0、V1和V2是控制点，而(MVx，MVy)是以位置(x，y)为中心的子块的运动向量。

图5A示出了在RMVF运动参数推导中使用的相邻运动向量。

图5B示出了用于RMVF运动参数推导的缩减的相邻运动向量候选。

图6为一当前块(当前CU)以及多个相邻子块的示意图。

图7是示出了译码比特流结构的示例的图。

图8是示出了示例通信***的图。

图9A-9B是示出了在一些实施例中执行的视频编码(9A)和解码(9B)方法的流程图。

用于实施例的实现的示例网络

图1A是示出了可以实施所公开的一个或多个实施例的示例性通信***100的示意图。该通信***100可以是为多个无线用户提供诸如语音、数据、视频、消息传递、广播等内容的多址接入***。该通信***100可以通过共享包括无线带宽在内的***资源而使多个无线用户能够访问此类内容。举例来说，通信***100可以使用一种或多种信道接入方法，例如码分多址(CDMA)、时分多址(TDMA)、频分多址(FDMA)、正交FDMA(OFDMA)、单载波FDMA(SC-FDMA)、零尾唯一字DFT-扩展OFDM(ZT UW DTS-s OFDM)、唯一字OFDM(UW-OFDM)、资源块过滤OFDM以及滤波器组多载波(FBMC)等等。

如图1A所示，通信***100可以包括无线发射/接收单元(WTRU)102a、102b、102c、102d、RAN 104、CN 106、公共交换电话网络(PSTN)108、因特网110以及其他网络112，然而应该了解，所公开的实施例设想了任意数量的WTRU、基站、网络和/或网络部件。WTRU 102a、102b、102c、102d每一者可以是被配置成在无线环境中工作和/或通信的任何类型的设备。举例来说，WTRU 102a、102b、102c、102d任何一者都可以被称为“站”和/或“STA”，其可以被配置成发射和/或接收无线信号，并且可以包括用户设备(UE)、移动站、固定或移动订户单元、基于签约的单元、寻呼机、蜂窝电话、个人数字助理(PDA)、智能电话、膝上型计算机、上网本、个人计算机、无线传感器、热点或Mi-Fi设备、物联网(IoT)设备、手表或其他可穿戴设备、头戴显示器(HMD)、运载工具、无人机、医疗设备和应用(例如远程手术)、工业设备和应用(例如机器人和/或在工业和/或自动处理链环境中工作的其他无线设备)、消费类电子设备、以及在商业和/或工业无线网络上工作的设备等等。WTRU 102a、102b、102c、102d中的任何一者可被可交换地称为UE。

所述通信***100还可以包括基站114a和/或基站114b。基站114a、114b的每一者可以是被配置成通过以无线方式与WTRU 102a、102b、102c、102d中的至少一者无线对接来促使其接入一个或多个通信网络(例如CN 106、因特网110、和/或其他网络112)的任何类型的设备。例如，基站114a、114b可以是基地收发信台(BTS)、节点B、e节点B、家庭节点B、家庭e节点B、gNB、新无线电(NR)节点B、站点控制器、接入点(AP)、以及无线路由器等等。虽然基站114a、114b的每一者都被描述成了单个部件，然而应该了解，基站114a、114b可以包括任何数量的互连基站和/或网络部件。

基站114a可以是RAN 104的一部分，并且该RAN还可以包括其他基站和/或网络部件(未显示)，例如基站控制器(BSC)、无线电网络控制器(RNC)、中继节点等等。基站114a和/或基站114b可被配置成在名为小区(未显示)的一个或多个载波频率上发射和/或接收无线信号。这些频率可以处于授权频谱、未授权频谱或是授权与未授权频谱的组合之中。小区可以为相对固定或者有可能随时间变化的特定地理区域提供无线服务覆盖。小区可被进一步分成小区扇区。例如，与基站114a相关联的小区可被分为三个扇区。由此，在一个实施例中，基站114a可以包括三个收发信机，即，每一个收发信机都对应于小区的一个扇区。在实施例中，基站114a可以使用多输入多输出(MIMO)技术，并且可以为小区的每一个扇区使用多个收发信机。例如，通过使用波束成形，可以在期望的空间方向上发射和/或接收信号。

基站114a、114b可以通过空中接口116来与WTRU 102a、102b、102c、102d中的一者或多者进行通信，其中所述空中接口可以是任何适当的无线通信链路(例如射频(RF)、微波、厘米波、毫米波、红外线(IR)、紫外线(UV)、可见光等等)。空中接口116可以使用任何适当的无线电接入技术(RAT)来建立。

更具体地说，如上所述，通信***100可以是多址接入***，并且可以使用一种或多种信道接入方案，例如CDMA、TDMA、FDMA、OFDMA以及SC-FDMA等等。例如，RAN 104中的基站114a与WTRU 102a、102b、102c可以实施某种无线电技术，例如通用移动电信***(UMTS)陆地无线电接入(UTRA)，其中所述技术可以使用宽带CDMA(WCDMA)来建立空中接口116。WCDMA可以包括如高速分组接入(HSPA)和/或演进型HSPA(HSPA+)之类的通信协议。HSPA可以包括高速下行链路(DL)分组接入(HSDPA)和/或高速UL分组接入(HSUPA)。

在实施例中，基站114a和WTRU 102a、102b、102c可以实施某种无线电技术，例如演进型UMTS陆地无线电接入(E-UTRA)，其中所述技术可以使用长期演进(LTE)和/或先进LTE(LTE-A)和/或先进LTE Pro(LTE-A Pro)来建立空中接口116。

在实施例中，基站114a和WTRU 102a、102b、102c可以实施某种可以使用新无线电(NR)建立空中接口116的无线电技术，例如NR无线电接入。

在实施例中，基站114a和WTRU 102a、102b、102c可以实施多种无线电接入技术。例如，基站114a和WTRU 102a、102b、102c可以共同实施LTE无线电接入和NR无线电接入(例如使用双连接(DC)原理)。由此，WTRU 102a、102b、102c使用的空中接口可以通过多种类型的无线电接入技术和/或向/从多种类型的基站(例如，eNB和gNB)发送的传输来表征。

在其他实施例中，基站114a和WTRU 102a、102b、102c可以实施以下的无线电技术，例如IEEE 802.11(即，无线高保真(WiFi))、IEEE 802.16(即，全球微波接入互操作性(WiMAX))、CDMA2000、CDMA2000 1X、CDMA2000 EV-DO、临时标准2000(IS-2000)、临时标准95(IS-95)、临时标准856(IS-856)、全球移动通信***(GSM)、用于GSM演进的增强数据速率(EDGE)、以及GSM EDGE(GERAN)等等。

图1A中的基站114b可以例如是无线路由器、家庭节点B、家庭e节点B或接入点，并且可以使用任何适当的RAT来促成局部区域中的无线连接，例如营业场所、住宅、运载工具、校园、工业设施、空中走廊(例如供无人机使用)以及道路等等。在一个实施例中，基站114b与WTRU 102c、102d可以通过实施IEEE 802.11之类的无线电技术来建立无线局域网(WLAN)。在实施例中，基站114b与WTRU 102c、102d可以通过实施IEEE 802.15之类的无线电技术来建立无线个人局域网(WPAN)。在另一实施例中，基站114b和WTRU 102c、102d可通过使用基于蜂窝的RAT(例如WCDMA、CDMA2000、GSM、LTE、LTE-A、LTE-A Pro、NR等等)来建立微微小区或毫微微小区。如图1A所示，基站114b可以直连到因特网110。由此，基站114b不需要经由CN 106来接入因特网110。

RAN 104可以与CN 106进行通信，所述CN可以是被配置成向WTRU 102a、102b、102c、102d的一者或多者提供语音、数据、应用和/或借助网际协议语音(VoIP)服务的任何类型的网络。该数据可以具有不同的服务质量(QoS)需求，例如不同的吞吐量需求、延时需求、容错需求、可靠性需求、数据吞吐量需求、以及移动性需求等等。CN 106可以提供呼叫控制、记账服务、基于移动位置的服务、预付费呼叫、因特网连接、视频分发等等，和/或可以执行用户认证之类的高级安全功能。虽然在图1A中没有显示，然而应该了解，RAN 104和/或CN106可以直接或间接地和其他那些与RAN 104使用相同RAT或不同RAT的RAN进行通信。例如，除了与使用NR无线电技术的RAN104相连之外，CN 106还可以与使用GSM、UMTS、CDMA 2000、WiMAX、E-UTRA或WiFi无线电技术的别的RAN(未显示)通信。

CN 106还可以充当供WTRU 102a、102b、102c、102d接入PSTN 108、因特网110和/或其他网络112的网关。PSTN 108可以包括提供简易老式电话服务(POTS)的电路交换电话网络。因特网110可以包括使用了公共通信协议(例如传输控制协议/网际协议(TCP/IP)网际协议族中的TCP、用户数据报协议(UDP)和/或IP)的全球性互联计算机网络设备***。所述网络112可以包括由其他服务提供方拥有和/或运营的有线或无线通信网络。例如，所述网络112可以包括与一个或多个RAN相连的另一个CN，其中所述一个或多个RAN可以与RAN 104使用相同RAT或不同RAT。

通信***100中的一些或所有WTRU 102a、102b、102c、102d可以包括多模能力(例如WTRU 102a、102b、102c、102d可以包括在不同无线链路上与不同无线网络通信的多个收发信机)。例如，图1A所示的WTRU 102c可被配置成与使用基于蜂窝的无线电技术的基站114a通信，以及与可以使用IEEE 802无线电技术的基站114b通信。

图1B是示出了示例性WTRU 102的***示意图。如图1B所示，WTRU 102可以包括处理器118、收发信机120、发射/接收部件122、扬声器/麦克风124、数字键盘126、显示器/触摸板128、不可移除存储器130、可移除存储器132、电源134、全球定位***(GPS)芯片组136和/或周边设备138。应该了解的是，WTRU 102还可以包括前述部件的任何子组合，同时保持与实施例相一致。

处理器118可以是通用处理器、专用处理器、常规处理器、数字信号处理器(DSP)、多个微处理器、与DSP核心关联的一个或多个微处理器、控制器、微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)电路、其他任何类型的集成电路(IC)以及状态机等等。处理器118可以执行信号译码、数据处理、功率控制、输入/输出处理、和/或其他任何能使WTRU102在无线环境中工作的功能。处理器118可以耦合至收发信机120，收发信机120可以耦合至发射/接收部件122。虽然图1B将处理器118和收发信机120描述成单独分量，然而应该了解，处理器118和收发信机120也可以一起集成在一电子分量或芯片中。

发射/接收部件122可被配置成经由空中接口116来发射或接收去往或来自基站(例如，基站114a)的信号。举个例子，在一个实施例中，发射/接收部件122可以是被配置成发射和/或接收RF信号的天线。作为示例，在实施例中，发射/接收部件122可以是被配置成发射和/或接收IR、UV或可见光信号的放射器/检测器。在另一实施例中，发射/接收部件122可被配置成发射和/或接收RF和光信号。应该了解的是，发射/接收部件122可以被配置成发射和/或接收无线信号的任何组合。

虽然在图1B中将发射/接收部件122描述成是单个部件，但是WTRU 102可以包括任何数量的发射/接收部件122。更具体地说，WTRU 102可以使用MIMO技术。由此，在一个实施例中，WTRU 102可以包括两个或更多个通过空中接口116来发射和接收无线信号的发射/接收部件122(例如多个天线)。

收发信机120可被配置成对发射/接收部件122所要传送的信号进行调制，以及对发射/接收部件122接收的信号进行解调。如上所述，WTRU 102可以具有多模能力。因此，收发信机120可以包括允许WTRU 102借助多种RAT(例如NR和IEEE 802.11)来进行通信的多个收发信机。

WTRU 102的处理器118可以耦合到扬声器/麦克风124、数字键盘126和/或显示器/触摸板128(例如液晶显示器(LCD)显示单元或有机发光二极管(OLED)显示单元)，并且可以接收来自这些部件的用户输入数据。处理器118还可以向扬声器/麦克风124、键盘126和/或显示器/触摸板128输出用户数据。此外，处理器118可以从诸如不可移除存储器130和/或可移除存储器132之类的任何适当的存储器中存取信息，以及将信息存入这些存储器。不可移除存储器130可以包括随机存取存储器(RAM)、只读存储器(ROM)、硬盘或是其他任何类型的记忆存储设备。可移除存储器132可以包括订户身份模块(SIM)卡、记忆棒、安全数字(SD)记忆卡等等。在其他实施例中，处理器118可以从那些并非实际位于WTRU 102的存储器存取信息，以及将数据存入这些存储器，作为示例，此类存储器可以位于服务器或家庭计算机(未显示)。

处理器118可以接收来自电源134的电力，并且可被配置分发和/或控制用于WTRU102中的其他分量的电力。电源134可以是为WTRU 102供电的任何适当设备。例如，电源134可以包括一个或多个干电池组(如镍镉(Ni-Cd)、镍锌(Ni-Zn)、镍氢(NiMH)、锂离子(Li-ion)等等)、太阳能电池以及燃料电池等等。

处理器118还可以耦合到GPS芯片组136，该GPS芯片组可被配置成提供与WTRU 102的当前位置相关的位置信息(例如经度和纬度)。作为来自GPS芯片组136的信息的补充或替换，WTRU 102可以经由空中接口116接收来自基站(例如基站114a、114b)的位置信息，和/或根据从两个或更多个附近基站接收的信号定时来确定其位置。应该了解的是，WTRU 102可以借助任何适当的定位方法来获取位置信息，同时保持与实施例相一致。

处理器118还可以耦合到其他周边设备138，其中所述周边设备可以包括提供附加特征、功能和/或有线或无线连接的一个或多个软件和/或硬件模块。例如，所述周边设备138可以包括加速度计、电子指南针、卫星收发信机、数码相机(用于照片和/或视频)、通用串行总线(USB)端口、振动设备、电视收发信机、免提耳机、

模块、调频(FM)无线电单元、数字音乐播放器、媒体播放器、视频游戏机模块、因特网浏览器、虚拟现实和/或增强现实(VR/AR)设备、以及活动***等等。所述周边设备138可以包括一个或多个传感器，所述传感器可以是以下的一者或多者：陀螺仪、加速度计、霍尔效应传感器、磁强计、方位传感器、邻近传感器、温度传感器、时间传感器、地理位置传感器、高度计、光传感器、触摸传感器、磁力计、气压计、手势传感器、生物测定传感器和/或湿度传感器等。

WTRU 102可以包括全双工无线电设备，其中对于该无线电设备来说，一些或所有信号(例如与用于UL(例如对传输而言)和下行链路(例如对接收而言)的特定子帧相关联)的接收或传输可以是并发和/或同时的。全双工无线电设备可以包括借助于硬件(例如扼流线圈)或是凭借处理器(例如单独的处理器(未显示)或是凭借处理器118)的信号处理来减小和/或基本消除自干扰的干扰管理单元。在实施例中，WTRU 102可以包括传送和接收一些或所有信号(例如与用于UL(例如对传输而言)或下行链路(例如对接收而言)的特定子帧相关联)的半双工无线电设备。

虽然在图1A-1B中将WTRU描述成了无线终端，然而应该想到的是，在某些代表性实施例中，此类终端与通信网络可以使用(例如临时或永久性)有线通信接口。

在代表性实施例中，所述其他网络112可以是WLAN。

有鉴于图1A-1B以及相应描述，在这里描述的一个或多个或所有功能可以由一个或多个仿真设备(未显示)来执行。这些仿真设备可以是被配置成模拟这里描述的一个或多个或所有功能的一个或多个设备。举例来说，这些仿真设备可用于测试其他设备和/或模拟网络和/或WTRU功能。

所述仿真设备可被设计成在实验室环境和/或运营商网络环境中实施关于其他设备的一项或多项测试。例如，所述一个或多个仿真设备可以在被完全或部分作为有线和/或无线通信网络一部分实施和/或部署的同时执行一个或多个或所有功能，以便测试通信网络内部的其他设备。所述一个或多个仿真设备可以在被临时作为有线和/或无线通信网络的一部分实施或部署的同时执行一个或多个或所有功能。所述仿真设备可以直接耦合到别的设备以执行测试，和/或可以使用空中无线通信来执行测试。

所述一个或多个仿真设备可以在未被作为有线和/或无线通信网络一部分实施或部署的同时执行包括所有功能在内的一个或多个功能。例如，该仿真设备可以在测试实验室和/或未被部署(例如测试)的有线和/或无线通信网络的测试场景中使用，以便实施关于一个或多个分量的测试。所述一个或多个仿真设备可以是测试设备。所述仿真设备可以使用直接的RF耦合和/或借助RF电路(例如，该电路可以包括一个或多个天线)的无线通信来发射和/或接收数据。

具体实施方式

基于块的视频译码

与HEVC类似，VVC建立在基于块的混合视频译码框架上。图2A给出了基于块的混合视频编码***200的框图。可以设想该编码器200的变型，但是为了清楚起见，下面描述编码器200，而没有描述所有预期的变型。

在被编码之前，视频序列可以经历预编码处理(204)，例如，对输入颜色图片应用颜色变换(例如，从RGB 4:4:4到YCbCr 4:2:0的转换)，或者执行输入图片分量的重新映射，以便获得对压缩更有弹性的信号分布(例如，使用颜色分量之一的直方图均衡)。元数据可以与所述预处理相关联并且被附加到比特流。

包括要编码的图片的输入视频信号202被以例如CU为单位逐块地分区(206)和处理。不同的CU可以具有不同的大小。在VTM-1.0中，CU可以高达128×128像素。然而，与仅基于四叉树来对块进行分区的HEVC不同，在VTM-1.0中，译码树单元(CTU)被划分成CU以适应基于四叉树/二叉树/三叉树的变化的局部特性。另外，去除了HEVC中多个分区单元类型的概念，使得VVC-1.0中不再存在CU、预测单元PU和变换单元TU的分离；相反，每一CU始终用作预测和变换两者的基本单元，而无需进一步分区。在多类型树结构中，首先通过四叉树结构来对CTU进行分区。然后，每个四叉树叶节点可以进一步由二叉树和三叉树结构来进行分区。可使用不同的划分类型，例如四元分区、垂直二元分区、水平二元分区、垂直三元分区和水平三元分区。

在图2A的编码器中，可以执行空间预测(208)和/或时间预测(210)。空间预测(或“帧内预测”)使用来自同一视频图片/切片中的已译码相邻块的样本(其被称为参考样本)的像素来预测当前视频块。空间预测减少了视频信号中固有的空间冗余。时间预测(也称为“帧间预测”或“运动补偿预测”)使用来自已译码视频图片的经重构像素来预测当前视频块。时间预测减少了视频信号中固有的时间冗余。可通过指示当前CU与其时间参考之间的运动的量和方向的一个或一个以上运动向量(MV)，用信号发送给定CU的时间预测信号。此外，如果支持多个参考图片，则可以附加地发送参考图片索引，该参考图片索引用于标识所述时间预测信号来自参考图片存储库(212)中的哪个参考图片。

编码器中的模式决策框(214)例如基于速率失真优化方法来选择最佳预测模式。该选择可以在执行空间和/或时间预测之后进行。帧内/帧间判定可以由例如预测模式标志来指示。从当前视频块中减去预测块(216)以生成预测残差。使用变换(218)对预测残差去相关并量化(220)。(对于一些块，编码器可绕过变换和量化两者，在此情况下，可直接译码残差而不应用变换或量化过程)。将经量化的残差系数逆量化(222)和逆变换(224)以形成经重构残差，接着将所述经重构残差加回到预测块(226)以形成CU的经重构信号。在将经重构CU放入参考图片存储库(212)中且将其用于译码未来视频块之前，可对经重构CU应用(228)例如解块/SAO(样本自适应偏移)滤波等进一步环路内滤波，以减少编码假象。为了形成输出视频比特流230，译码模式(帧间或帧内)、预测模式信息、运动信息和量化的残差系数都被发送到熵译码单元(108)，以被进一步压缩和打包以形成比特流。

图2B给出基于块的视频解码器250的框图。在解码器250中，如下所述，由解码器元件解码比特流。视频解码器250通常执行与如图2A中所描述的编码经过互逆的解码经过。编码器200通常也执行视频解码作为编码视频数据的一部分。

具体地，解码器的输入包括视频比特流252，其可以由视频编码器200生成。视频比特流252首先在熵解码单元254被解包和熵解码以获得变换系数、运动向量和其它译码信息。图片分区信息指示图片如何被分区。解码器因此可以根据解码的图片分区信息来划分(256)图片。所述译码模式和预测信息被发送到空间预测单元258(如果是帧内译码的)或时间预测单元260(如果是帧间译码的)以形成预测块。将残差变换系数发送到逆量化单元262和逆变换单元264以重构残差块。然后在266将预测块和残差块加在一起以生成重构块。该重构块在其被存储在参考图片存储库270中以用于预测未来视频块之前，可进一步经历环内滤波268。

经解码图片272可进一步经历解码后处理(274)，例如，逆颜色变换(例如，从YCbCr4:2:0到RGB 4:4:4的转换)或执行在预编码处理(204)中执行的重新映射过程的逆重新映射。所述解码后处理可以使用在预编码处理中导出并且在比特流中用信号通知的元数据。经解码、处理的视频可被发送到显示设备276。显示设备276可以是与解码器250分离的设备，或者解码器250和显示设备276可以是同一设备的组件。

本发明中描述的各种方法和其它方面可用于修改视频编码器200或解码器250的模块。此外，本文公开的***和方法不限于VVC或HEVC，并且可以应用于例如其他标准和建议(无论是预先存在的还是将来开发的)以及任何这样的标准和建议的扩展(包括VVC和HEVC)。除非另外指出或在技术上排除，否则本公开中描述的方面可以单独或组合使用。

仿射模式

在HEVC中，仅平移运动模型被应用于运动补偿预测，而在现实世界中，存在许多种运动：例如放大/缩小、旋转、透视运动和其它不规则运动。在VTM-2.0中，应用仿射运动补偿预测。仿射运动模型是4参数或6参数的。用于每一经帧间译码的CU的第一标志被用信号发送，以指示平移运动模型或仿射运动模型是否应用于帧间预测。如果是仿射运动模型，则发送第二标志以指示其是4参数还是6参数模型。

具有四个参数的仿射运动模型可具有以下参数：两个参数用于水平和垂直方向上的平移运动的、一个参数用于两个方向上的缩放运动、并且一个参数用于两个方向上的旋转运动。水平缩放参数等于垂直缩放参数。水平旋转参数等于垂直旋转参数。使用在当前CU的左上角和右上角处界定的两个控制点位置处的两个运动向量在VTM中对四参数仿射运动模型进行译码。如图3A中所示，所述块的仿射运动场由两个控制点运动向量(V₀，V₁)描述。基于该控制点运动，仿射译码块的运动场(v_x，v_y)可以被描述为

其中(v_0x，v_0y)为左上角控制点的运动向量，(v_1x，v_1y)为右上角控制点的运动向量，如图3A所示，w为CU的宽度。在VTM-2.0中，在4×4块级别处导出仿射译码CU的运动场；也就是说，对于当前CU内的每一4×4块，导出(v_x，v_y)且将其应用于对应的4×4块，如图3B中所示。

在一些译码技术中，迭代地估计所述4参数仿射模型的所述四个参数。将步骤k处的MV对表示为

将原始亮度信号表示为I(i，j)，以及将预测亮度信号表示为I′_k(i，j)。空间梯度g_x(i，j)和g_y(i，j)可以分别通过在水平和垂直方向上对预测信号I′_k(i，j)应用Sobel滤波器来导出。等式(1)的导数可以表示为：

其中(a，b)是增量平移参数，并且(c，d)是步骤k的增量缩放和旋转参数。所控制点处的增量MV能够利用等式(3)和(4)通过其坐标而被导出。例如，(0，0)、(w，0)分别是左上和右上控制点的坐标。

基于光流方程，亮度变化与空间梯度和时间移动之间的关系被公式化为：

用方程(2)取代

和

我们得到参数(a，b，c，d)的方程。

因为CU中的所有样本满足方程(6)，参数集(a，b，c，d)可以使用最小二乘法求解。在步骤(k+1)中，可以用方程(3)以及(4)求解两个控制点处的运动向量

并且它们被舍入到特定精度(即，1/4像素)。使用迭代，可以细化两个控制点处的MV，直到当参数(a，b，c，d)全为零或者迭代次数满足预定限制时，MV收敛。

具有六个参数的仿射运动模型可具有以下参数：两个参数用于水平和垂直方向上的平移运动，一个参数用于水平方向上的缩放运动，一个参数用于水平方向上的旋转运动，一个参数用于垂直方向上的缩放运动，一个参数用于垂直方向上的旋转运动。6参数仿射运动模型可用在三个控制点处的三个MV来译码。如图4中所示，可在CU的左上角、右上角和左下角界定6参数仿射译码CU的三个控制点。左上角控制点处的运动与平移运动相关，右上角控制点处的运动与水平方向上的旋转和缩放运动相关，并且左下角控制点处的运动与垂直方向上的旋转和缩放运动相关。对于6参数仿射运动模型，水平方向上的旋转和缩放运动可与垂直方向上的那些运动不同。每个子块的运动向量(v_x，v_y)是使用控制点处的三个MV来导出的，如下：

其中(v_2x，v_2y)为左下角控制点的运动向量，(x，y)为子块的中心位置，w和h为CU的宽度和高度。

可以类似方式估计6参数仿射模型的六个参数。方程(2)被如下改变。

其中(a，b)是在步骤k处的增量平移参数，(c，d)是在步骤k处的水平方向的增量缩放和旋转参数，以及(e，f)是在步骤k处的垂直方向的增量缩放和旋转参数。相应地改变方程(8)。

通过考虑CU内的所有样本，可以使用最小二乘法来求解参数集(a，b，c，d，e，f)。左上角控制点的

可以用方程(3)计算。右上角控制点的

可以用方程(11)计算。右上角控制点的

可以用方程(12)计算。

基于回归的运动向量场

为了提供块内运动向量的精细粒度，在以下中提出了基于回归的运动向量场(RMVF)工具：R.Ghaznavi-Youvalari，A.Aminlou，J.Lainema，“CE4-related：Merge modewith Regression based Motion Vector Field(RMVF)(CE4相关：基于回归的运动向量场(RMVF)合并模式(RMVF))”，JVET-L0171，2018年10月，中国澳门。该工具试图基于空间相邻的运动向量在子块级别上对每个块的运动向量进行建模。

图5A示出了用于所提议RMVF方法的运动参数导出的相邻4×4运动块。如所看到的，在回归过程中使用来自块的每侧的以4×4子块(及其中心位置)为基础的一行和一行紧邻的运动向量。

为了减少用于RMVF参数导出的相邻运动信息的数量，使用图5B的方法，其中几乎一半的相邻4×4运动块用于运动参数导出。

当收集用于运动参数导出的运动信息时，使用如图5A和5B所示的五个常规区域(左下角、左侧、左上角、顶部、右上角)。右上和左下角参考运动区域被限制为当前块的相应宽度或高度的仅一半。

在RMVF模式中，块的运动由6参数运动模型定义。这些参数a_xx，a_xy，a_yx，a_yy，b_x和b_y通过求解均方误差(MSE)意义上的线性回归模型来计算。回归模型的输入由如上定义的可用相邻4×4子块的中心位置(x，y)和运动向量(mv_x和mv_y)组成。

然后，中心位置在(X_subPU，Y_subPU)的8×8子块的运动向量(MV_{X_subPU}，MV_{Y_subPU})被计算为：

相对于每个子块的中心位置，为8×8子块计算运动向量。因此，在RMVF模式中，还应用8×8子块精度的运动补偿。

为了对运动向量场进行有效的建模，仅在来自至少三个候选区的至少一个运动向量可用的情况下，应用所述RMVF工具。

在JVET-L0171的设计中，采用了最小均方误差法以解决线性回归问题。这个过程的复杂性很高。本文描述的实施例可以降低复杂度。

示例仿射模型参数估计技术

如上文所描述，基于回归的运动向量场方法通过解析具有最小均方(LMS)误差的线性回归来获得所述仿射模型参数，其中输入为来自相邻4×4子块的运动向量。由于密集的乘法，LMS误差方法在计算上是昂贵的。为了降低计算复杂性，本文所描述的实施例操作以基于相邻子块MV来估计所述仿射模型参数，而不需要LMS误差方法。假定方程(13)中定义的仿射模型，位置(x，y)处的MV可以通过下式计算：

而且，与两个方向上的缩放和旋转相关的仿射参数a_xx，a_xy，a_yx，a_yy可以通过以下而被获取：

在一些实施例中，偏导数由相邻运动向量的梯度来近似，且所估计的仿射参数a′_xx，a′_xy，a′_yx或a′_yy中的一者或多者或者可以根据以下方程来导出：

其中MV^T和MV^L为分别来自当前CU的上方和左侧相邻块的4×4块的运动向量。N和M是上方和左侧相邻者的数量。并且g_x和g_y分别是水平和垂直方向上的梯度。图6示出了将使用仿射运动模型而被预测的当前CU 600的示例。用于估计仿射参数的值MV^T可包含沿着当前CU 600的顶部边缘与其相邻的4×4块606、608、610和612的运动向量的值。在一些实施例中，用于估计仿射参数的值MV^T可进一步包含与块606、608、610及612在同一行中的额外块，例如(尤其)额外块602、604、614。用于估计仿射参数的值MV^L可包含沿着当前CU 600的左边缘相邻所述当前CU的4×4块616、618、620和622的运动向量的值。在一些实施例中，用于估计仿射参数的值MV^L可进一步包含与块616、618、620及622在相同列中的额外块，例如额外块604及624。

在一些情况下，译码单元可包含多个子块。在其它示例中，根据本文所述的实施例，译码单元本身可被认为是单个子块，并且该译码单元的运动向量可被用作子块运动向量。

仿射参数a_xx，a_xy，a_yx和a_yy可以表示为a_pq，其中p表示x或y方向并且q表示x或y方向。与方程(16)一致，每个参数a_pq的估计可以被描述为所述多个相邻子块的运动向量的p分量的q方向梯度的平均值。

可以以不同的方式估计梯度g_x和g_y。在一个实施例中，用来自当前CU上方的相邻块的运动向量来估计g_x，且用来自当前CU左侧的相邻块的运动向量来估计g_y，如以下方程中所示：

在一些实施例中，参数b_x和b_x的估计如下执行：

其中，

和

是具有运动信息的每个相邻4×4块的MV_x，MV_y，x和y的平均值。

在其它实施例中，参数b_x和b_y的估计如下执行：

其中MV^TL是左上角相邻运动向量，并且x^TL和y^TL是左上角相邻运动向量的位置。

在一些实施例中，可能需要使用4参数仿射模型而不是6参数仿射模型。在4参数仿射模型中：

在一些实施例中，通过仅使用来自当前CU上方的相邻块的运动向量或仅使用来自当前CU左侧的相邻块的运动向量来导出4参数仿射模型。

在一些实施例中，仅使用来自当前CU上方的相邻块的运动向量来估计所述仿射参数，具体如下：

a′_yy＝a′_xx

a′_xy＝-a′_yx

在其它实施例中，仅使用来自当前CU左侧的相邻块的运动向量来估计所述仿射参数，具体如下：

a′_xx＝a′_yy

a′_yx＝-a′_xy

在一些实施例中，2参数平移运动模型的参数通过假设参数a_xx，a_xy，a_yx和a_yy为零来导出。参数b_x和b_y可以通过平均相邻MV来估计。

在另一实施例中，导出从上方或左侧相邻块导出的6参数仿射模型、4参数仿射模型和2参数平移模型，且选择其中之一。一种方法是选择具有最小模型拟合误差的模型作为最优模型。该模型拟合误差可以通过由模型候选者导出的MV与每个子块的其实际MV之间的距离之和来计算。该距离可以通过绝对差的加权和(SAD)或平方差的加权和(SSD)来测量。例如，给定模型参数(a_xx，a_xy，a_yx，a_yy，b_x，b_y)，中心在(x，y)的第i个相邻块的导出MV′_i(MVx′_i，MVy′_i)可以用方程(14)来计算。所导出的MV′_i和第i相邻块的MV_i之间的距离被计算如下。

其中W_i是第i个相邻块的权重。其是通过相邻块与当前CU之间的距离来测量的。如果相邻块更靠近当前CU，那么该权重较大。与RMVF相比，本文所述的用于估计仿射运动模型的一个或多个参数的技术可降低仿射运动模型导出的复杂性。

RMVF模式的自适应子块大小

使用所估计的仿射模型参数，可根据方程(14)导出当前CU内的子块的运动向量。(14)。在一些实施例中，可根据当前CU的形状，自适应地确定子块的大小。在一个实施例中，所述子块具有与当前CU的纵横比相同的纵横比。最小横向大小可设定为4或8。例如，假设当前CU的CU宽度与CU高度之间的比率为2∶1。然后，在此示例中，若最小横向尺寸等于4，则子块的宽度为8，高度为4，为了节省存储器存取带宽，最小横向大小可由使用单向预测或双向预测来决定。如果所述当前CU是经单向预测的，那么所述最小横向大小可设定为4；如果当前CU是双向预测的，那么最小横向大小可设定为8。

所估计的仿射运动参数的使用

根据这里描述的方法估计的仿射参数可以在不同实施例中以不同方式使用。在一些实施例中，使用由所估计的仿射参数中的一或多者界定的仿射运动模型来产生当前块的预测。例如，可以使用所确定的用于定义所述运动模型的参数a′_xx，a′_xy，a′_yx，a′_yy，b′_x和/或b′_y的估计来生成所述预测。

在一些实施例中，所估计的参数a′_xx，a′_xy，a′_yx，a′_yy，b′_x和/或b′_y用作仿射运动模型的预测子。举例来说，可估计参数a′_xx，a′_xy，a′_yx，a′_yy，b′_x和/或b′_y中的一者或多者，且可在比特流中用信号发送一或多个参数差值da_xx，da_xy，da_yx，da_yy，db_x和/或db_y。然后可使用仿射运动模型产生当前块的预测，其中

a_xx＝a′_xx+da_xx，a_xy＝a′_xy+da_xy，

a_yx＝a′_yx+da_yx，a_yy＝a′_yy+da_yy，

b_x＝b′_x+db_x，和b_y＝b′_y+db_y.

在其中所估计的参数a′_xx，a′_xy，a′_yx，a′_yy，b′_x和/或b′_y用作仿射运动模型的预测子的实施例的另一示例中，那些参数用于产生所预测控制点运动向量，且在比特流中用信号发送运动向量差MVD值。将MVD值加到所预测的控制点运动向量，且所得控制点运动向量界定用于产生当前块的预测的仿射运动模型。

从相邻译码块的运动向量而估计的仿射模型可用作将要针对当前CU估计的仿射模型的预测子。由于大大减少了仿射运动模型参数的推导，因此可以改进仿射运动估计而不会过多地增加复杂度。在仿射模型预测子选择之后，可以应用基于光流的估计或细化。

图9A和9B中示出了根据一些实施例的示例方法。在一些实施例中，例如由编码器执行如图9A所示的方法，以便在比特流中对视频进行编码。根据图9A的方法，对于要编码的视频中的当前块，根据与当前块相邻的多个相邻子块的相应运动向量，确定(902)至少一个运动向量梯度。基于运动向量梯度(一个或多个)，确定(904)当前块的至少一个仿射参数的估计。至少部分基于所述仿射参数的所确定的估计，确定(906)仿射运动模型。使用所述仿射运动模型，产生(908)所述当前块的预测。在902、904、906、908处说明的功能可由(例如)图2A的运动预测模块210执行。在其中图9A的方法由编码器执行的实施例中，可通过从视频的输入块减去所述预测来计算(910)残差，且可在比特流中编码(912)所述残差(在一些情况下，在变换和量化之后)。

在一些实施例中，例如通过解码器执行如图9B所示的方法，以从比特流解码视频。根据图9B的方法，对于要解码的视频中的当前块，根据与所述当前块相邻的多个相邻子块的相应运动向量确定(914)至少一个运动向量梯度。基于所述运动向量梯度(一个或多个)，确定(916)所述当前块的至少一个仿射参数的估计。至少部分基于所述仿射参数的所确定的估计，确定(918)仿射运动模型。使用该仿射运动模型产生(920)所述当前块的预测。914、916、918、920处所说明的功能可由(例如)图2B的运动补偿预测模块260执行。在图9B的方法由解码器执行的实施例中，可从比特流解码(922)与所述当前块相关联的残差(在一些情况下，包含逆量化及逆变换)。可通过将所述残差加到所述当前块的仿射预测来重构(924)所述当前块。

如图9中说明，一些示例实施例允许使用所估计的仿射参数来编码和解码视频。在没有仿射参数的明确信令的情况下，可减少用于编码视频的位的数目。

所译码的比特流结构

图7是示出译码的比特流结构的示例的图。译码的比特流1300由多个NAL(网络抽象层)单元1301组成。NAL单元可以包含译码的的样本数据，例如译码的切片1306；或者高级语法元数据，例如参数集数据、切片头部数据1305或补充增强信息数据1307(其可以被称为SEI消息)。参数集是含有基本语法元素的高级语法结构，所述基本语法元素可应用于多个比特流层(例如，视频参数集1302(VPS))，或可应用于一个层内的经译码视频序列(例如，序列参数集1303(SPS))，或可应用于一个经译码视频序列内的若干经译码图片(例如，图片参数集1304(PPS))。所述参数集可以与所述视频比特流的所述译码的图片一起发送，或者通过其它方式(包括使用可靠信道的带外传输、硬译码等)发送。切片头部1305也是高级语法结构，其可以包含一些图片相关信息，该信息相对较小或者仅与某些切片或图片类型相关。SEI消息1307携带解码过程可能不需要但可用于各种其它目的信息，例如图片输出定时或显示以及丢失检测和隐藏。

通信设备和***

图8是示出了通信***的示例的图。该通信***1400可以包括编码器1402、通信网络1404和解码器1406。所述编码器1402可以经由连接1408与网络1404通信，该连接可以是有线连接或无线连接。所述编码器1402可类似于图2A的基于块的视频编码器。所述编码器1402可以包括单层编解码器(例如，图2A)或多层编解码器。所述解码器1406可以经由连接1410与网络1404通信，该连接可以是有线连接或无线连接。所述解码器1406可类似于图2B的基于块的视频解码器。所述解码器1406可包括单层编解码器(例如，图2B)或多层编解码器。

所述编码器1402和/或所述解码器1406可并入到各种各样的有线通信装置和/或无线发射/接收单元(WTRU)中，例如(但不限于)数字电视、无线广播***、网络元件/终端、服务器(例如，内容或网络服务器(例如，例如超文本传送协议(HTTP)服务器))、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、数码相机、数字记录设备、视频游戏控制台、蜂窝式或卫星无线电电话、数字媒体播放器和/或类似设备。

所述通信网络1404可以是合适类型的通信网络。例如，所述通信网络1404可以是向多个无线用户提供诸如语音、数据、视频、消息收发、广播等内容的多址***。所述通信网络1404可以使多个无线用户能够通过共享包括无线带宽的***资源来访问这样的内容。例如，所述通信网络1404可以采用一种或多种信道接入方法，例如码分多址(CDMA)、时分多址(TDMA)、频分多址(FDMA)、正交FDMA(OFDMA)、单载波FDMA(SC-FDMA)和/或类似方法。所述通信网络1404可以包括多个连接的通信网络。所述通信网络1404可包括因特网和/或一个或多个专用商业网络，诸如蜂窝网络、WiFi热点、和/或因特网服务提供商(ISP)网络等。

进一步的实施例

描述了用于使用仿射运动预测的视频译码的***和方法。在对比特流中的视频进行译码的示例方法中，对于当前视频块，从与所述当前块相邻的子块的相应运动向量，确定至少一个运动向量梯度。基于所述运动向量梯度，确定所述当前块的至少一个仿射参数的估计。在一些实施例中，通过使用仿射参数的所确定的估计，用仿射运动模型来预测所述当前块。在一些实施例中，使用所估计的仿射参数来产生第一仿射运动模型，且将所述第一仿射运动模型用作最终用于预测所述当前块的第二仿射运动模型的预测子。在一些实施例中，所估计的仿射参数用作仿射运动细化过程(例如，基于光流)的输入。在一些实施例中，在估计所述仿射参数(一个或多个)时，仅使用当前块上方的相邻子块。在一些实施例中，仅当前块左侧的相邻子块用于估计所述仿射参数(一个或多个)。在一些实施例中，当前块左侧的子块用于估计一个或多个仿射参数，而所述当前块上方的子块用于估计一个或多个其它仿射参数。

在一些实施例中，提供一种用于在比特流中译码视频的方法，所述方法包含，对于视频的至少一个当前块：从与所述当前块相邻的多个相邻子块的相应运动向量，确定至少一个运动向量梯度；以及基于所述至少一个运动向量梯度，确定所述当前块的至少一个仿射参数的估计。

在一些实施例中，所述方法进一步包含：使用所确定的所述仿射参数的估计，用仿射运动模型产生所述当前块的预测。

在一些实施例中，该方法还包括：使用所确定的所述仿射参数的估计，确定第一仿射运动模型；使用所述第一仿射运动模型作为第二仿射运动模型的预测子；以及使用所述第二仿射运动模型产生所述当前块的预测。

在一些实施例中，该方法包括：使用所确定的所述仿射参数的估计，确定第一仿射运动模型；提供所述第一仿射运动模型作为仿射模型细化过程的输入；使用所述仿射模型细化过程产生第二仿射运动模型；以及使用所述第二仿射运动模型产生所述当前块的预测。在一些此类实施例中，所述仿射模型细化过程是基于光流的。

在一些实施例中，所述相邻子块仅包括所述当前块上方的子块。在一些实施例中，所述相邻子块仅包括所述当前块左侧的子块。

在一些实施例中，所述仿射参数是a′_xx，并且a′_xx被估计为所述多个相邻子块的运动向量的x分量的x方向梯度的平均值。在一些实施例中，所述仿射参数是a′_xy，并且a′_xy被估计为所述多个相邻子块的运动向量的x分量的y方向梯度的平均值。在一些实施例中，所述仿射参数是a′_yx，并且a′_yx被估计为所述多个相邻子块的运动向量的y分量的x方向梯度的平均值。在一些实施例中，所述仿射参数是a′_yy，并且a′_yy被估计为所述多个相邻子块的运动向量的y分量的y方向梯度的平均值。

一些实施例还包括使用以下来确定仿射参数b′_x和b′_y：

其中，

和

是多个相邻子块的MV_x，MV_y，x和y的平均值。

一些实施例还包括使用以下来确定仿射参数b′_x和b′_y：

其中，V^TL，x^TL和y^TL是左上角相邻子块的运动向量和位置。

一些实施例进一步包含：确定所述当前块中的多个子块的子块运动向量。

一些实施例包含：基于所述当前块的大小，自适应地确定所述当前块内的子块的大小。在一些此类实施例中，选择所述当前块内的子块的大小，使得所述子块具有与所述当前块相同的纵横比。在一些实施例中，选择所述当前块内的所述子块的大小以具有最小横向大小，其中基于所述当前块是单向预测还是双向预测来确定所述最小横向大小。

在一些实施例中，该方法还包括在编码器处：计算表示所述当前块的仿射预测与输入块之间的差的残差；以及在所述比特流中编码所述残差。

在一些实施例中，该方法还包括在解码器处：从所述比特流解码表示所述当前块的仿射预测与所述输入块之间的差的残差；以及通过将所述残差加到所述仿射预测来重构所述当前块。

一些实施例包括处理器和存储指令的计算机可读介质(例如，非暂时性介质)，所述指令操作以执行本文描述的任何方法。

一些实施例包括存储使用本文描述的任何方法编码的视频的计算机可读介质(例如，非暂时性介质)。

本公开描述了各种方面，这其中包括工具、特征、实施例、模型、方法等。这些方面中的许多方面被描述为具有特异性，并且至少为了示出个体特性，通常以可能听起来受限的方式来描述。然而，这是为了描述清楚的目的，并且不限制那些方面的公开或范围。实际上，所有不同的方面可以组合和互换以提供另外的方面。此外，这些方面也可以与在较早的文档中描述的方面组合和互换。

本公开中描述和设想的方面可以以许多不同的形式来实现。虽然具体示出了一些实施例，但是可以设想其他实施例，并且对特定实施例的讨论不限制实现的广度。至少一个方面一般涉及视频编码和解码，并且至少一个其它方面一般涉及传送所生成或编码的比特流。这些和其它方面可以实现为方法、装置、其上存储有用于根据所描述的任何方法来编码或解码视频数据的指令的计算机可读存储介质、和/或其上存储有根据所描述的任何方法生成的比特流的计算机可读存储介质。

在本发明中，术语“重构”和“解码”可互换使用，术语“像素”和“样本”可互换使用，术语“图像”、“图片”和“帧”可互换使用。通常，但不是必须的，术语“重构”在编码器侧使用，而“解码”在解码器侧使用。

本文描述了各种方法，并且每种方法包括用于实现所描述的方法的一个或多个步骤或动作。除非该方法的正确操作需要特定顺序的步骤或动作，否则可修改或组合特定步骤和/或动作的顺序和/或使用。另外，诸如“第一”、“第二”等术语可在各种实施例中用于修改元件、组件、步骤、操作等，诸如例如“第一解码”和“第二解码”。除非特别要求，否则这些术语的使用并不意味着对修改后的操作的排序。因此，在该示例中，第一解码不需要在第二解码之前执行，并且可以例如在第二解码之前、期间或在与第二解码重叠的时间段中发生。

例如，在本公开中可以使用各种数值。具体值是出于示例目的，并且所描述的方面不限于这些具体值。

这里描述的实施例可以通过由处理器或其他硬件实现的计算机软件来实现，或者通过硬件和软件的组合来实现。作为非限制性示例，实施例可以由一个或多个集成电路实现。所述处理器可以是适合于技术环境的任何类型，并且作为非限制性示例，可以包含微处理器、通用计算机、专用计算机和基于多核架构的处理器中的一个或多个。

各种实现方式涉及解码。如本公开中所使用的，“解码”可以包括例如对接收到的编码序列执行的全部或部分过程，以便产生适合于显示的最终输出。在各种实施例中，此类过程包括通常由解码器执行的过程中的一个或多个，例如熵解码、逆量化、逆变换和差分解码。在各种实施例中，此些过程还或替代地包含由本发明中所描述的各种实施方案的解码器执行的过程，例如，从图块化(封装)图片提取图片，确定要使用的上采样滤波器以及接着对图片进行上采样，以及将图片翻转回其既定定向。

作为进一步的示例，在一个实施例中，“解码”仅指熵解码，在另一实施例中，“解码”仅指差分解码，并且在另一实施例中，“解码”指熵解码和差分解码的组合。基于具体描述的上下文，短语“解码过程”是旨在具体地指代操作的子集还是一般地指代更广泛的解码过程将是清楚的。

各种实现涉及编码。以与以上关于“解码”的讨论类似的方式，如在本公开中使用的“编码”可以包括例如对输入视频序列执行的以便产生编码比特流的过程的全部或部分。在各种实施例中，此类过程包括通常由编码器执行的一个或多个过程，例如，分区、差分编码、变换、量化和熵编码。在各种实施例中，此类过程还或替代地包含由本发明中描述的各种实施方案的编码器执行的过程。

作为进一步的示例，在一个实施例中，“编码”仅指熵编码，在另一实施例中，“编码”仅指差分编码，而在另一实施例中，“编码”指差分编码和熵编码的组合。基于具体描述的上下文，短语“编码过程”是旨在具体地指代操作的子集还是一般地指代更广泛的编码过程将是清楚的。

当附图被呈现为流程图时，应当理解，它还提供了对应装置的框图。类似地，当附图被呈现为框图时，应当理解，它还提供了对应的方法/过程的流程图。

各种实施例涉及速率失真优化。特别地，在编码过程期间，通常考虑速率和失真之间的平衡或折衷，通常给出计算复杂度的约束。速率失真优化通常被公式化为最小化速率失真函数，该速率失真函数是速率和失真的加权和。存在不同的方法来解决速率失真优化问题。例如，这些方法可以基于对所有编码选项的广泛测试，这其中包括所有考虑的模式或译码参数值，在译码和解码之后对它们的译码成本和重构信号的相关失真进行完整评估。还可以使用更快的方法来节省编码复杂度，特别是基于预测或预测残差信号而不是重构信号来计算近似失真。也可以使用这两种方法的混合，例如通过仅对一些可能的编码选项使用近似失真，而对其它编码选项使用完全失真。其它方法仅评估可能的编码选项的子集。更一般地，许多方法采用各种技术中的任何一种来执行优化，但是该优化不一定是对译码成本和相关失真这两者的完整评估。

本文描述的实现方式和方面可以在例如方法或过程、装置、软件程序、数据流或信号中实现。即使仅在单一形式的实现的上下文中讨论(例如，仅作为方法讨论)，所讨论的特征的实现也可以以其他形式(例如，装置或程序)来实现。例如，可以以适当的硬件、软件和固件来实现装置。所述方法可以在例如处理器中实现，所述处理器通常指处理设备，这其中包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备，例如计算机、蜂窝电话、便携式/个人数字助理(“PDA”)和便于终端用户之间的信息通信的其他设备。

对“一个实施例”或“一实施例”或“一个实现”或“一实现”以及其它变化形式的提及意味着结合实施例描述的特定特征、结构、特性等被包含于至少一个实施例中。因此，在本公开中的各个地方出现的短语“在一个实施例中”或“在一实施例中”或“在一个实现中”或“在一实现中”以及任何其他变型的出现不一定都指同一实施例。

另外，本公开可以涉及“确定”各种信息。确定该信息可以包括例如估计该信息、计算该信息、预测该信息或从存储器检索该信息中的一个或多个。

此外，本公开可以涉及“访问”各种信息。访问该信息可以包括例如接收该信息、检索该信息(例如，从存储器)、存储该信息、移动该信息、复制该信息、计算该信息、确定该信息、预测该信息或估计该信息中的一个或多个。

另外，本公开可以涉及“接收”各种信息。如同“访问”一样，接收旨在是广义的术语。接收该信息可以包括例如访问该信息或(例如从存储器)检索该信息中的一个或多个。此外，在诸如存储该信息、处理该信息、发送该信息、移动该信息、复制该信息、擦除该信息、计算该信息、确定该信息、预测该信息或估计该信息的操作期间，通常以一种方式或另一种方式涉及“接收”。

应当理解，例如在“A/B”、“A和/或B”以及“A和B中的至少一者”的情况下，使用以下“/”、“和/或”以及“中的至少一者”中的任何一个旨在涵盖仅对第一列出的选项(A)的选择、或仅对第二列出的选项(B)的选择、或对两个选项(A和B)的选择。作为进一步的示例，在“A、B和/或C”和“A、B和C中的至少一者”的情况下，这样的措词旨在包括仅选择第一个列出的选项(A)，或者仅选择第二个列出的选项(B)，或者仅选择第三个列出的选项(C)，或者仅选择第一个和第二个列出的选项(A和B)，或者仅选择第一个和第三个列出的选项(A和C)，或者仅选择第二个和第三个列出的选项(B和C)，或者选择所有三个选项(A和B和C)。这可以扩展到所列的尽可能多的项目。

此外，如本文所使用的，词语“信号”尤其是指向对应的解码器指示某物。例如，在某些实施例中，编码器用信号发送用于去伪影滤波的基于区域的滤波器参数选择的多个参数中的特定一个。这样，在一个实施例中，在编码器侧和解码器侧使用相同的参数。因此，例如，编码器可以向解码器发送(显式信令)特定参数，使得解码器可以使用相同的特定参数。相反，如果解码器已经具有特定参数以及其它参数，则可以使用信令而不进行发送(隐式信令)，以简单地允许解码器知道并选择所述特定参数。通过避免任何实际功能的传输，在各种实施例中实现了比特节省。应当理解，可以以各种方式来实现信令。例如，在各种实施例中，一个或多个语法元素、标志等被用于将信息用信号发送给对应的解码器。虽然前述内容涉及词语“信号”的动词形式，但是词语“信号”在本文中也可以用作名词。

实现方式可以产生被格式化为携带例如可以被存储或发送的信息的各种信号。该信息可以包括例如用于执行方法的指令，或者由所描述的实现方式之一产生的数据。例如，信号可以被格式化以携带所描述的实施例的比特流。这种信号可以被格式化为例如电磁波(例如，使用频谱的无线电频率部分)或基带信号。所述格式化可以包括例如对数据流进行编码并且利用编码的数据流对载波进行调制。所述信号携带的信息可以是例如模拟或数字信息。如已知的，所述信号可以通过各种不同的有线或无线链路来传输。该信号可以存储在处理器可读介质上。

注意，所描述的一个或多个实施例的各种硬件元件被称为“模块”，其执行(即，实施、运行等)在此结合相应模块描述的各种功能。如本文所使用的，模块包括认为适合于给定实现的硬件(例如，一个或多个处理器、一个或多个微处理器、一个或多个微控制器、一个或多个微芯片、一个或多个专用集成电路(ASIC)、一个或多个现场可编程门阵列(FPGA)、一个或多个存储器设备)。每个所描述的模块还可以包括可执行用于执行被描述为由相应模块执行的一个或多个功能的指令，并且注意，这些指令可以采取硬件(即，硬连线的)指令、固件指令、和/或软件指令等的形式或包括它们，并且可以存储在任何适当的非暂时性计算机可读介质或媒体中，诸如通常被称为RAM、ROM等。

尽管上述按照特定组合描述了特征和元素，但是每个特征或元素可以被单独使用或以与其它特征和元素的任何组合来使用。此外，于此描述的方法可以在嵌入在计算机可读介质中由计算机或处理器执行的计算机程序、软件或固件中实施。计算机可读存储媒体的示例包括但不限于只读存储器(ROM)、随机存取存储器(RAM)、寄存器、缓冲存储器、半导体存储设备、诸如内部硬盘和可移除磁盘之类的磁媒体、磁光媒体、以及诸如CD-ROM碟片和数字多用途碟片(DVD)之类的光媒体。与软件相关联的处理器可以用于实施在WTRU、UE、终端、基站、RNC或任意主计算机中使用的射频收发信机。

Claims

1.一种方法，包括：

针对视频中的至少一个当前块，从与所述当前块相邻的多个相邻子块的相应运动向量确定至少一个运动向量梯度；

基于所述至少一个运动向量梯度，确定所述当前块的至少一个仿射参数的估计；

至少部分基于所述仿射参数的所述所确定的估计，确定仿射运动模型；以及

使用所述仿射运动模型产生所述当前块的预测。

2.根据权利要求1所述的方法，其中确定仿射运动模型包括：确定所述仿射运动模型的多个仿射参数，且其中所述所确定的估计用作所述多个仿射参数中的至少一者。

3.根据权利要求1所述的方法，其中确定仿射运动模型包括：

确定仿射运动模型预测子的多个仿射参数，其中所述所确定的估计用作所述仿射运动模型预测子的所述多个仿射参数中的至少一者；

其中所述仿射运动模型是使用所述仿射运动模型预测子而被预测的。

4.根据权利要求1所述的方法，其中确定仿射运动模型包括：

使用所述仿射参数的所确定的估计，确定初始运动模型；

提供所述初始运动模型作为基于光流的仿射模型细化过程的输入；以及

使用所述仿射模型细化过程，产生所述仿射运动模型。

5.根据权利要求1到4中任一权利要求所述的方法，其中产生所述当前块的所述预测包括：基于所述仿射运动模型，确定所述当前块中的至少一个子块的子块运动向量。

6.根据权利要求5所述的方法，其中，至少一个子块的所述子块运动向量根据以下而被确定：

以及

其中所确定的估计被用作值a_xx,a_xy,a_yx或a_yy中的至少一者。

7.根据权利要求5所述的方法，其中，至少一个子块的所述子块运动向量根据以下而被确定：

以及

其中所确定的估计被用作值a_xx,a_xy,a_yx或a_yy中的至少一者的预测子。

8.根据权利要求1-7中任一项所述的方法，还包括：在编码器处，

计算表示输入块与所述当前块的所述预测之间的差的残差；以及

将所述残差编码在比特流中。

9.根据权利要求1-7中任一项所述的方法，还包括：在解码器处，

从比特流解码与所述当前块相关联的残差；以及

通过将所述残差加到所述仿射预测来重构所述当前块。

10.根据权利要求1-9中任一项所述的方法，其中所述仿射参数是a_pq，其中p和q每一者是从包括x和y的组中选择的方向，并且其中所确定的a_pq的估计是所述多个相邻子块的运动向量的p分量的q方向梯度的平均值。

11.一种装置，包括：

处理器，被配置为至少执行：

使用所述仿射运动模型，产生所述当前块的预测。

12.根据权利要求11所述的装置，其中确定仿射运动模型包括：确定多个仿射参数，且其中所述所确定的估计被用作所述多个仿射参数中的至少一者。

13.根据权利要求11-12中任一项所述的装置，其中所述处理器还被配置为使用包括以下步骤的方法来执行编码：

将所述残差编码在比特流中。

14.根据权利要求11-12中任一项所述的装置，其中所述处理器还被配置为使用包括以下步骤的方法来执行解码：

从比特流解码与所述当前块相关联的残差；以及

通过将所述残差加到所述仿射预测来重构所述当前块。

15.根据权利要求11-14中任一项所述的装置，其中所述仿射参数是a_pq，其中p和q每一者是从包括x和y的组中选择的方向，并且其中所确定的a_pq的估计是所述多个相邻子块的运动向量的p分量的q方向梯度的平均值。