CN118020290A

CN118020290A - 用存储器高效预测模式选择来编码和解码视频的***和方法

Info

Publication number: CN118020290A
Application number: CN202280060223.XA
Authority: CN
Inventors: 哈利·卡瓦; 菲力博·阿兹克; 博里约夫·福尔特
Original assignee: Op Solutions Co
Current assignee: Op Solutions Co
Priority date: 2021-07-06
Filing date: 2022-06-30
Publication date: 2024-05-10
Also published as: WO2023283095A1; US20240137502A1; EP4367880A1

Abstract

一种存储器高效预测模式选择的方法包括：由编码器接收包括当前帧的编码比特流；由编码器确定第一预测模式和第二预测模式的成本，其中，确定还包括：针对第一预测模式确定第一比特成本和第一存储器成本，并且针对第二预测模式确定第二比特成本和第二存储器成本；由编码器根据第一比特成本、第一存储器成本、第二比特成本和第二存储器成本来选择第一预测模式和第二预测模式中的当前预测模式；以及由编码器使用当前预测模式来编码当前帧。可以通过从解码器接收的至少一个参数来通知预测模式。

Description

用存储器高效预测模式选择来编码和解码视频的***和方法

相关申请的交叉引用

本申请要求于2021年7月6日提交的标题为“SYSTEMS AND METHODS FOR MEMORY-EFFICIENT PREDICTION MODE SELECTION”的美国临时申请第63/218,732号的优先权权益，该美国临时申请的全部内容以引用的方式并入本文。

技术领域

本发明总体上涉及视频编码和解码领域。具体地，本发明涉及用于组织和搜索视频数据库的***和方法。

背景技术

视频编解码器可以包括压缩或解压缩数字视频的电子电路或软件。视频编解码器可以将未压缩的视频转换为压缩格式，反之亦然。在视频压缩领域中，用于压缩视频(和/或执行其某一功能)的设备通常可被称为编码器，而用于解压缩视频(和/或执行其某一功能)的设备可被称为解码器。

压缩数据的格式可以符合标准视频压缩规范。压缩可能是有损的，因为压缩视频缺少原始视频中存在的一些信息。这样的后果可能包括解压缩视频可能具有比原始未压缩视频低的质量，因为没有足够的信息来准确地重建原始视频。

在视频质量、用于表示视频的数据量(例如由比特率确定)、编码和解码算法的复杂度、对数据丢失和错误的敏感性、编辑的容易性、随机访问、端到端延迟(例如时延)等之间可能存在复杂的关系。

运动补偿可以包括一种给定参考帧(例如先前帧和/或将来帧)通过考虑相机和/或视频中对象的运动来预测视频帧或其一部分的方法。运动补偿可以在用于视频压缩的视频数据的编码和解码中采用，例如在使用运动图像专家组(MPEG)的高级视频编码(AVC)标准(也称为H.264)的编码和解码中采用。运动补偿可以根据参考图片到当前图片的变换来描述图片。与当前图片比较时，参考图片可以在时间上是先前的图片，或与当前图片比较时，参考图片可以在时间上是将来的图片。当可以根据先前传输和/或存储的图像精确地合成图像时，可以提高压缩效率。

发明内容

提供了一种配置有存储器高效预测模式选择的视频编码器。该编码器包括被编程为执行编码操作的处理器。编码器被配置为接收包括当前帧的输入视频。编码器确定第一预测模式和第二预测模式的成本。优选地，确定操作还可包括针对第一预测模式确定第一比特成本和第一存储器成本，并且针对第二预测模式确定第二比特成本和第二存储器成本。编码器根据第一比特成本、第一存储器成本、第二比特成本和第二存储器成本来选择第一预测模式和第二预测模式中的当前预测模式。可使用当前预测模式来编码当前帧。

在一些实施例中，确定第一存储器成本还可以包括检索表示第一存储器成本的存储值。类似地，在某些实施例中，确定第二存储器成本还包括检索表示第二存储器成本的存储值。在另一些实施例中，确定第一存储器成本还可以包括从解码器接收处理器架构数据，并且根据处理器架构数据确定第一存储器成本。在另外实施例中，确定第二存储器成本还可以包括从解码器接收处理器架构数据，并且从处理器架构数据确定第二存储器成本。

在一些编码器实施例中，选择还可以包括基于第一存储器成本和第二存储器成本确定阈值，并且根据阈值进行选择。选择操作还可包括将第一比特成本和第二比特成本之间的差值与阈值进行比较。

在一个编码器实施例中，第一预测模式是垂直帧内预测，第二预测模式是水平帧内预测。

提供了一种视频解码器，其被配置为与具有存储器高效预测模式的编码器一起操作。解码器可以被配置为向编码器提供指示解码器的至少一个参数的信号。解码器接收以第一预测模式和第二预测模式中的至少一者编码的视频信号，其中，预测模式是在编码器处基于至少部分基于解码器的至少一个参数针对比特流确定的比特成本和存储器成本中的至少一者确定的。至少一个参数可以是解码器的处理器架构数据，并且编码器可以至少部分地根据处理器架构数据来确定第一存储器成本。由解码器提供的至少一个参数可以指示将减少解码器处的功耗的预测模式。在一些实施例中，第一预测模式可以是垂直帧内预测，第二预测模式可以是水平帧内预测。

解码器能够对包括编码视频和特征分量的比特流进行解码。解码器可以包括接收比特流并提供编码的视频输出流和编码的特征分量输出流的解复用器。可以提供第一解码模块以接收编码的视频输出流，并对视频输出流进行解码以用于人类使用。解码器可以包括第二解码模块，其接收编码的特征流并且对特征分量进行解码以用于机器使用。

在结合附图查阅本发明的特定非限制性实施例的以下描述之后，本发明的非限制性实施例的这些和其它方面和特征对于本领域技术人员是明了的。

附图说明

为了说明本发明，附图示出了本发明的一个或多个实施例的方面。然而，应当理解，本发明不限于附图所示的精确布置和手段，附图中：

图1是例示了视频编码***的示例性实施例的框图；

图2是例示了用于机器视频编码***的示例性实施例的框图；

图3是例示了水平和垂直解码方法的示意图；

图4是例示了存储器高效预测模式选择的方法的示例性实施例的流程图；

图5是例示了视频解码器的示例性实施例的框图；

图6是例示了视频编码器的示例性实施例的框图；以及

图7是可用于实现本文所公开的任何一个或多个方法及其任何一个或多个部分的计算***的框图。

附图未必是等比例绘制的，并且可由虚线、图解表示和片段视图来例示。在某些情况下，可能已省略对于理解实施例并非必需或致使其它细节难以理解的细节。

具体实施方式

在许多应用中，例如具有多个相机的监控***、智能交通、智慧城市应用和/或智能工业应用中，传统视频编码可能需要压缩来自相机的大量视频并通过网络传输到机器和用于人类使用。随后，在机器站点，通常可以使用卷积神经网络或深度学习技术(包括对象检测、事件动作识别、姿态估计等)来应用用于特征提取的算法。图1示出了应用于机器的标准VVC编码器的示例性实施例。然而，常规方法需要来自多个相机的大量视频传输，这将花费大量时间来实现高效且快速的实时分析和决策。在实施例中，VCM方法可以通过在发送器站点处对视频进行编码和提取一些特征并随后将所得编码比特流发送到VCM解码器来解决该问题。在解码器站点处，可以针对人类视觉对视频进行解码，并且可以针对机器对特征进行解码。

现在参考图2，其例示了用于机器视频编码(VCM)的***的示例性实施例。该***包括VCM编码器200，其可以使用包括但不限于数字和/或模拟电路的任何电路来实现。VCM编码器200可以使用硬件配置、软件配置、固件配置和/或其任意组合来配置。VCM编码器200可以被实现为计算设备和/或计算设备的组件，其可以包括但不限于如下所述的任何计算设备。在一个实施例中，VCM编码器200可被配置为接收输入视频，且生成输出比特流。输入视频的接收可以以下面描述的任何方式来完成。比特流可包括但不限于如下所述的任何比特流。VCM编码器210可以包括但不限于预处理器205、视频编码器210、特征提取器215、特征编码器220、优化器230和/或复用器225。

预处理器205可以接收输入视频流，并解析出该流的视频、音频和元数据子流。预处理器205可以包括解码器和/或与解码器通信，如以下进一步详细描述的；换言之，预处理器205可以具有解码输入流的能力。在非限制性示例中，这可以允许对输入视频进行解码，这可以促进下游像素域分析。

进一步参考图2，VCM编码器200可以在混合模式和/或视频模式下操作；当处于混合模式时，VCM编码器200可以被配置为对旨在用于人类使用者的视觉信号进行编码，对旨在用于机器使用者的特征信号进行编码；机器使用者可包括但不限于任何设备和/或组件，包括但不限于如以下进一步详细描述的计算设备。例如，当处于混合模式时，输入信号可以通过预处理器。

仍然参考图2，视频编码器200可以包括但不限于任何视频编码器，如以下进一步详细描述的。当VCM编码器处于混合模式时，VCM编码器可以将未修改的输入视频发送到视频编码器，并且将相同的输入视频的副本和/或已经以某种方式修改的输入视频发送到特征提取器。对输入视频的修改可以包括任何缩放、变换或本领域技术人员在查阅本发明的全部内容之后可以想到的其他修改。例如但不限于，可以将输入视频的大小调整到较小的分辨率，可以丢弃输入视频中的图片序列中的一定数量的图片(从而降低输入视频的帧率)，可以修改颜色信息，例如但不限于可以通过将RGB视频转换为灰度视频等。

仍然参考图2，视频编码器210和特征提取器215优选可操作地耦合，并且可以在两个方向上交换有用信息。例如但不限于，视频编码器210可以将运动估计信息传送到特征提取器215，反之亦然。视频编码器210可以向特征提取器提供基于视频编码器和/或特征提取器可以识别的感兴趣区域(ROI)的量化映射和/或描述其的数据，反之亦然。视频编码器可以向特征提取器提供描述基于输入视频、输入信号和/或其任何帧和/或子帧中存在和/或识别的特征的一个或多个分割决策的数据；特征提取器可以向视频编码器提供描述基于在输入视频、输入信号和/或其任何帧和/或子帧中存在和/或识别的特征的一个或多个分割决策的数据。视频编码器210和特征提取器215可以共享和/或向彼此发送用于最佳图片组(GOP)决策的时间信息。这些技术和/或过程中的每一者都可以被执行而没有限制，如以下进一步详细描述的。

继续参考图2，特征提取器215可以在离线模式或在线模式下操作。特征提取器215可以识别和/或以其他方式作用于和/或操纵特征。如本发明中使用的“特征”是数据的特定结构和/或内容属性。特征的示例可以包括SIFT、音频特征、颜色直方图、运动直方图、语音电平、响度级等。特征可以被标记有时间戳。各个特征可以与帧组中的单个帧相关联。特征可以包括高级内容特征，例如时间戳、视频中人和对象的标签、对象和/或感兴趣区域的坐标、基于区域的量化的帧掩模和/或本领域技术人员在查阅本发明的全部内容之后可以想到的任何其他特征。作为另外的非限制性示例，特征可以包括描述帧或帧组的空间和/或时间特性的特征。描述空间和/或时间特性的特征的示例可以包括运动、纹理、颜色、亮度、边缘计数、模糊、块效应等。当处于离线模式时，如以下进一步详细描述的所有机器模型可存储在编码器处和/或存储在编码器的存储器中和/或可由编码器访问。这种模型的示例可包括但不限于整体或部分卷积神经网络、关键点提取器、边缘检测器、显著性图构建器等。当处于在线模式时，一个或多个模型可以由远程机器实时地或在提取之前的某一点传送到特征提取器。

仍然参考图2，特征编码器被配置用于对例如但不限于由特征提取器生成的特征信号进行编码。在一个实施例中，在提取特征之后，特征提取器可以将所提取的特征传递到特征编码器。特征编码器可以使用熵编码和/或类似技术(例如但不限于如下所述)来产生特征流，该特征流可以被传递到复用器。视频编码器和/或特征编码器可以经由优化器230连接。优化器230可以在这些视频编码器210与特征编码器220之间交换有用信息。例如但不限于，与熵编码的码字构建和/或长度相关的信息可以经由优化器交换和重新使用，以用于最佳压缩。

在一个实施例中，继续参考图2，视频编码器210可以产生编码视频流；视频流可以被传递到复用器225。复用器225可以将视频流与由特征编码器生成的特征流复用；替代性地或另外，视频和特征比特流可通过不同信道、不同网络和/或在不同时间或时间间隔(时间复用)发送到不同设备。视频流和特征流中的每一者可以以适合于实现如本发明所描述的任何比特流的任何方式来实现。在一个实施例中，复用的视频流和特征流可以产生混合比特流，其可以如以下进一步详细描述的发送。

仍然参考图2，在VCM编码器200处于视频模式的情况下，VCM编码器可以使用视频编码器210来进行视频和特征编码两者。特征提取器215可以将特征发送到视频编码器210。视频编码器210可以将特征编码到可以由对应的视频解码器解码的视频流中。应当注意，VCM编码器可以使用单个视频编码器来进行视频编码和特征编码两者，在这种情况下，它可以将不同的参数集用于视频和特征。替代性地，VCM编码器200可以包括两个独立的视频编码器，其可以并行操作。

仍然参考图2，***可以包括VCM解码器240和/或与其通信。VCM解码器240和/或其元件可以使用适合于如上所述的VCM编码器200的配置的任何电路和/或配置类型来实现。VCM解码器240可以包括但不限于解复用器245。如果如上所述被复用，则解复用器245可以操作为解复用比特流；例如但不限于，解复用器可以将包含一个或多个视频比特流和一个或多个特征比特流的复用比特流分离成单独的视频和特征比特流。

继续参考图2，VCM解码器240可以包括视频解码器250。视频解码器可以以适于解码器的任何方式来实现而没有限制，如以下进一步详细描述的。在一个实施例中但不限于，视频解码器可以生成输出视频，该输出视频可以由人或具有视觉感觉能力的其他生物和/或设备观看。仍然参考图2，VCM解码器可以包括特征解码器255。在一个实施例中但不限于，特征解码器可被配置为向机器提供一个或多个解码的数据。一个或多个机器可以包括但不限于如下所述的任何计算设备，包括但不限于任何微控制器、处理器、嵌入式***、片上***、网络节点等。一个或多个机器可以操作、存储、训练机器模型、从机器模型接收输入、对于机器模型产生输出和/或以其他方式与机器模型交互，如以下进一步详细描述的。机器可以被包括在物联网(IOT)中，物联网被定义为具有处理和通信组件的对象的网络，其中一些组件可以不是例如台式计算机、膝上型计算机和/或移动设备的常规计算设备。IoT中的对象可包括但不限于具有嵌入式微处理器和/或微控制器以及用于与局域网(LAN)和/或广域网(WAN)接口连接的一个或多个组件的任何设备；一个或多个组件可包括但不限于例如在2.4-2.485GHz范围内通信的无线收发器(如遵循如由华盛顿州柯克兰的蓝牙SIG公司发布的协议的蓝牙收发器)、和/或根据由法国的吕埃尔-马尔迈松的施耐德电气SE发布的MODBUS协议和/或由电子与电气工程师协会(IEEE)发布的IEEE 802.15.4标准的ZIGBEE规范操作的网络通信组件。在查阅本发明的全部内容之后，本领域技术人员将意识到可以与本发明一致地采用的各种替代或额外通信协议和支持这样的协议的设备，其每一者都被认为在本发明的范围内。

继续参考图2，VCM编码器200和/或VCM解码器240中的每一者可以被设计和/或配置为以任何顺序和以任何重复程度执行本发明中描述的任何实施例中的任何方法、方法步骤或方法步骤序列。例如，VCM编码器和/或VCM解码器中的每一者可以被配置为重复地执行单个步骤或序列，直到实现期望或命令的结果；步骤或步骤序列的重复可以迭代地和/或递归地执行，其使用先前重复的输出作为后续重复的输入，聚合重复的输入和/或输出以产生聚合结果，从而减少或减缩一个或多个变量(例如全局变量)和/或将较大处理任务划分为迭代寻址的较小处理任务的集合。VCM编码器和/或VCM解码器中的每一者可以并行地执行如本发明所描述的任何步骤或步骤序列，例如使用两个或更多个并行线程、处理器核心等同时和/或大致同时执行步骤两次或更多次；可以根据适合于在迭代之间划分任务的任何协议来执行并行线程和/或进程之间的任务划分。在查阅本发明的全部内容之后，本领域技术人员将意识到步骤、步骤序列、处理任务和/或数据可以被细分、共享或以其他方式使用迭代、递归和/或并行处理来处理的各种方式。

仍然参考图2，视频解码可以是具有高CPU利用率和大量存储器访问的计算机密集过程。VVC比特流中的复杂编码模式可能占用更多的计算资源并增加功耗。在一般计算设备中，到存储器和/或从存储器的数据移动将是视频解码过程所消耗的总功率的重要部分。在编码器处选择提高解码器处的高速缓存效率的视频编码模式可导致由视频解码过程消耗的总功率减少。

仍然参考图2，在本发明中提及VCM和VVC标准、协议和技术仅用于示例性目的；本发明中公开的任何或所有实施例、组件和/或方法步骤可以应用于视频存储、传输、编码和/或解码的任何标准和/或协议，或者应用于任何其他相关技术领域。

现在参考图3，其例示了水平帧内预测和垂直帧内预测的比较的示例性实施例。在水平预测中，可以从左列315的参考样本中的一个像素310预测行305中的所有像素。预测像素的后续行可使用紧接在先前参考像素下方的行中的参考像素。给定参考图片的行线存储器存储，在水平预测中读取各个参考像素可能导致末级高速缓存(LLC)未命中，并且导致对高速缓存行的存储器访问。

读取各个后续参考像素可能导致LLC未命中和从主存储器读取的新的高速缓存行。从存储器读取将增加时延，并且相关联的总线事务可能例如由于开关电容、总线事务和/或相关联的功率使用而导致功耗。

继续参考图3，在垂直预测中，可以从顶行的参考样本中的一个像素预测列中的所有像素。预测像素的后续列可使用紧接先前参考像素的列中的参考像素。给定参考图片的行线存储器存储，在垂直预测中读取第一参考像素可导致整个高速缓存行和所有参考像素被读取到高速缓存中。可以根据高速缓存命而满足读取各个后续参考像素，而不需要从主存储器读取。

因此，垂直预测将是更存储高效的，这可以导致从主存储器的少得多的读取。功率优化编码器因此可以针对相同的比特流大小来选择垂直预测而不是水平预测。对于功率效率，权衡比特率和/或输出比特流大小也是有益的。例如，即使当水平预测的比特成本较低时，编码器也可以选择垂直预测而不是水平预测，以便产生更高速缓存和功率高效的比特流，并且实现低功率解码器。例如，在B(Pv)是垂直预测的比特成本(bit cost)并且B(Ph)是水平预测的比特成本的情况下，编码器可确定和/或使用Bt，即用于选择垂直预测的阈值比特成本。在这种情况下，如果B(Pv)＜B(Ph)，那么编码器可选择垂直预测。在一个实施例中，如果B(Pv)＞B(Ph)且如果B(Pv)-B(Ph)＜Bt，那么编码器可选择垂直预测；否则编码器可选择水平预测。

总体上并且仍然参考图3，垂直预测可以是存储器高效和功率高效的，并且可以优于其它模式。总体上，编码器可被配置为找到最低成本模式且随后与垂直帧内预测模式进行比较。例如且不限于，在B(Pv)表示垂直预测的比特成本、B(Pm)表示在评估可用模式之后获得的最低成本预测模式的比特成本、且Bt表示用于选择垂直预测的阈值比特成本的情况下，编码器可比较此些值。作为示例，如果B(Pv)＜B(Pm)，那么编码器可选择垂直预测。如果B(Pv)＞B(Pm)，如果B(Pv)-B(Pm)＜Bt，那么编码器可以选择垂直预测；否则，编码器可以选择最低成本预测模式Pm。

继续参考图3，高速缓存效率可以取决于处理器架构。编码器可以基于来自解码器的输入来优化功率。例如，在视频会议类型的应用中，解码器和/或接收器可以与编码器共享其处理器、存储器和/或功耗信息。编码器然后可以做出使解码器处的存储器读取最小化的编码决策。当特定解码器架构信息不可用时，编码器可针对典型处理器进行编码且仍产生功率高效比特流。

例如且仍然参考图3，对于编码模式m，C(m)可表示使用该模式的存储器成本。在该示例中，C(m)可以表示由于使用模式m而在解码器处从主存储器读取的高速缓存行的数量、给定高速缓存级的高速缓存未命中率、由效率和/或未命中的高速缓存的层级来加权的不同级的高速缓存未命中率的加权和等。在一个实施例中，M可表示可在给定压缩视频比特流中使用的所有可用编码模式的集合。模式可包括但不限于帧间或帧内预测模式。模式还可包括其它编码模式，例如块分割、运动向量模式和/或合并模式。在查阅本发明的全部内容之后，本领域技术人员将意识到可以考虑的各种编码和/或解码模式。

在一个实施例中，对于给定的处理器和/或存储器架构，编码器可以计算模式i的存储器成本C(i)，其中，i表示一个可用模式M的索引。这些模式成本可以独立于内容并且被计算一次。B(i)可以表示使用模式i的比特成本。在一个实施例中，对于可用模式M集合中的模式i和j，如果B(i)＜B(j)，并且如果C(i)＜C(j)，则编码器可以选择模式i。替代性地，如果B(i)＜B(j)，并且如果C(i)＞C(j)，则编码器可以确定是否B(i)-B(j)＜Bt，其中，Bt是用于比特成本的阈值，并且如果是，则编码器可以选择模式I；否则编码器可以选择模式j。作为另外示例，如果B(i)＞B(j)，则编码器可确定是否C(i)-C(j)＜Ct，其中，Ct为给定架构的存储器访问的阈值；如果是，则编码器可选择模式i；否则，编码器可选择模式j。

仍然参考图3，可确定其它编码模式的识别模式与存储器效率，并且编码器可选择减少存储器访问且减少功耗的模式。

现在参考图4，其例示了存储器高效预测模式选择的方法400的示例性实施例。在步骤405，编码器接收包括当前帧的输入视频。

仍然参考图4，在步骤410，编码器确定第一预测模式和第二预测模式的成本；这可以以本发明中描述的任何方式无限制地执行。确定成本可包括但不限于针对第一预测模式确定第一比特成本和/或第一存储器成本，和/或针对第二预测模式确定第二比特成本和/或第二存储器成本。在一个实施例中，确定第一存储器成本可以包括检索表示第一存储器成本的存储值。确定第二存储器成本可以包括检索表示第二存储器成本的存储值。

确定第一存储器成本可以包括从解码器接收处理器架构数据，并且根据处理器架构数据确定第一存储器成本。确定第二存储器成本可以包括从解码器接收处理器架构数据，并且从处理器架构数据确定第二存储器成本。

在步骤415，并且进一步参考图4，编码器根据第一比特成本、第一存储器成本、第二比特成本和第二存储器成本来选择第一预测模式和第二预测模式中的当前预测模式；这可以不受限制地执行，如下面进一步详细描述的。在步骤420，并且仍然参考图4，编码器使用当前预测模式来编码当前帧。

图5是例示了示例解码器500的***框图。解码器500可以包括熵解码器处理器504、逆量化和逆变换处理器508、去块滤波器512、帧缓冲器516、运动补偿处理器520和/或帧内预测处理器524。

在操作中，仍然参考图5，比特流528可以由解码器500接收并输入到熵解码器处理器504，其可以将比特流的部分熵解码为量化系数。量化系数可以被提供给逆量化和逆变换处理器508，其可以执行逆量化和逆变换以创建残差信号，该残差信号可以根据处理模式被添加到运动补偿处理器520或帧内预测处理器524的输出。运动补偿处理器520和帧内预测处理器524的输出可以包括基于先前解码的块的块预测。预测与残差的和可由去块滤波器512处理并存储在帧缓冲器516中。

在一个实施例中，仍然参考图5，解码器500可以包括被配置为以任何顺序和以任何重复程度实现如上所述的任何实施例中的如上所述的任何操作的电路。例如，解码器500可以被配置为重复地执行单个步骤或序列，直到实现期望或命令的结果；步骤或步骤序列的重复可以迭代地和/或递归地执行，其使用先前重复的输出作为后续重复的输入，聚合重复的输入和/或输出以产生聚合结果，从而减少或减缩一个或多个变量(例如全局变量)和/或将较大处理任务划分为迭代寻址的较小处理任务的集合。解码器可以并行地执行如本发明所描述的任何步骤或步骤序列，例如使用两个或更多个并行线程、处理器核心等同时和/或大致同时执行步骤两次或更多次；可以根据适合于在迭代之间划分任务的任何协议来执行并行线程和/或进程之间的任务划分。在查阅本发明的全部内容之后，本领域技术人员将意识到步骤、步骤序列、处理任务和/或数据可以被细分、共享或以其他方式使用迭代、递归和/或并行处理来处理的各种方式。

图6是例示了能够进行视频和/或特征编码的示例编码器600的***框图。示例视频编码器600可以接收输入视频604，其可以初始地根据例如树结构宏块分割方案(例如四叉树加二叉树)的处理方案来分割或划分。树结构宏块分割方案的示例可以包括将图片帧分割为称为编码树单元(CTU)的大块元素。在一些实现方式中，各个CTU可进一步分割一次或多次，分成称为编码单元(CU)的多个子块。该分割的最终结果可包括可称为预测单元(PU)的一组子块。也可以利用变换单元(TU)。

仍然参考图6，示例视频编码器600可以包括：帧内预测处理器608；运动估计/补偿处理器612，其也可以被称为帧间预测处理器，能够构建运动向量候选列表，包括将全局运动向量候选添加到运动向量候选列表；变换/量化处理器616；逆量化/逆变换处理器620；环内滤波器624；解码图片缓冲器628；和/或熵编码处理器632。比特流参数可以被输入到熵编码处理器632以便包括在输出比特流636中。

在操作中，继续参考图6，对于输入视频的帧的各个块，可以确定是经由图片内预测还是使用运动估计/补偿来处理块。块可被提供到帧内预测处理器608或运动估计/补偿处理器612。如果将经由帧内预测来处理块，则帧内预测处理器608可执行处理以输出预测值。如果将经由运动估计/补偿来处理块，则运动估计/补偿处理器612可执行包括构建运动向量候选列表的处理，该构建包括在适用的情况下将全局运动向量候选添加到运动向量候选列表。

进一步参考图6，可以通过从输入视频中减去预测值来形成残差。残差可由变换/量化处理器616接收，该变换/量化处理器可执行变换处理(例如离散余弦变换(DCT))以产生可被量化的系数。量化的系数和任何相关联信令信息可以提供到熵编码处理器632以用于熵编码和包括在输出比特流636中。熵编码处理器632可支持与编码当前块相关的信令信息的编码。另外，量化的系数可提供到可再现像素的逆量化/逆变换处理器620，像素可与预测值组合且由环内滤波器624处理，其输出可存储在解码图片缓冲器628中以供运动估计/补偿处理器612使用，该运动估计/补偿处理器812能够构建运动向量候选列表，包括将全局运动向量候选添加到运动向量候选列表。

继续参考图6，尽管上面已经详细描述了一些变化，但是其它修改或添加也是可能的。例如，在一些实现方式中，当前块可包括任何对称块(8×8、16×16、32×32、64×64、128×128等)以及任何不对称块(8×4、16×8等)。

在一些实现方式中，仍然参考图6，可以实现四叉树加二叉决策树(QTBT)。在QTBT中，在编码树单元层，可以动态地导出QTBT的分区参数，以适应于局部特性，而不发送任何开销。随后，在编码单元层，联合分类器决策树结构可以消除不必要的迭代并控制错误预测的风险。在一些实现方式中，LTR帧块更新模式可用作在QTBT的每个叶节点处可用的额外选项。

在一些实现方式中，仍然参考图6，可在比特流的不同层级处用信号发送额外语法元素。例如，可通过包括在序列参数集(SPS)中编码的启用标志来为整个序列启用标志。进一步地，可以在编码树单元(CTU)层编码CTU标志。

一些实施例可以包括存储指令的非瞬态计算机程序产品(即，物理地具体实施的计算机程序产品)，指令在由一个或多个计算***的一个或多个数据处理器执行时使得至少一个数据处理器执行本文的操作。

仍然参考图6，编码器600可以包括被配置为以任何顺序和以任何重复程度实现任何实施例中的如上所述的任何操作的电路。例如，编码器600可以被配置为重复地执行单个步骤或序列，直到实现期望或命令的结果；步骤或步骤序列的重复可以迭代地和/或递归地执行，其使用先前重复的输出作为后续重复的输入，聚合重复的输入和/或输出以产生聚合结果，从而减少或减缩一个或多个变量(例如全局变量)和/或将较大处理任务划分为迭代寻址的较小处理任务的集合。编码器600可以并行地执行如本发明所描述的任何步骤或步骤序列，例如使用两个或更多个并行线程、处理器核心等同时和/或大致同时执行步骤两次或更多次；可以根据适合于在迭代之间划分任务的任何协议来执行并行线程和/或进程之间的任务划分。在查阅本发明的全部内容之后，本领域技术人员将意识到步骤、步骤序列、处理任务和/或数据可以被细分、共享或以其他方式使用迭代、递归和/或并行处理来处理的各种方式。

继续参考图6，非瞬态计算机程序产品(即，物理地具体实施的计算机程序产品)可以存储指令，指令在由一个或多个计算***的一个或多个数据处理器执行时，使得至少一个数据处理器执行本发明中描述的操作和/或其步骤，包括但不限于上面描述的任何操作和/或解码器900和/或编码器600可以被配置为执行的任何操作。类似地，还描述了可以包括一个或多个数据处理器和耦合到该一个或多个数据处理器的存储器的计算机***。存储器可以临时或永久地存储指令，指令使得至少一个处理器执行本文描述的一个或多个操作。另外，可以由单个计算***内的或分布在两个或更多个计算***之间的一个或多个数据处理器来实现方法。这样的计算***可以经由一个或多个连接来连接并且可以交换数据和/或命令或其他指令等，该一个或多个连接包括通过网络(例如因特网、无线广域网、局域网、广域网、有线网络等)、经由多个计算***中的一者或多者之间的直接连接等的连接。

应当注意，如计算机领域的普通技术人员将清楚的，可以使用根据本说明书的教导编程的一个或多个机器(例如用作电子文档的用户计算设备的一个或多个计算设备、例如文档服务器的一个或多个服务器设备等)来方便地实现本文描述的任何一个或多个方面和实施例。如软件领域的普通技术人员将清楚的，基于本发明的教导，熟练的程序员可以容易地准备适当的软件编码。以上讨论的采用软件和/或软件模块的方面和实现方式还可以包括用于辅助实现软件和/或软件模块的机器可执行指令的适当硬件。

这种软件可以是采用机器可读存储介质的计算机程序产品。机器可读存储介质可以是能够存储和/或编码由机器(例如计算设备)执行并且使机器执行本文描述的方法和/或实施例中的任何一者的指令序列的任何介质。机器可读存储介质的示例包括但不限于磁盘、光盘(例如CD、CD-R、DVD、DVD-R等)、磁光盘、只读存储器“ROM”设备、随机存取存储器“RAM”设备、磁卡、光卡、固态存储器设备、EPROM、EEPROM及其任意组合。如本文所用的机器可读介质旨在包括单个介质以及物理上分离的介质的集合，例如压缩盘或者与计算机存储器组合的一个或多个硬盘驱动器的集合。如本文所用的，机器可读存储介质不包括瞬时形式的信号传输。

这种软件还可以包括作为数据信号承载在例如载波的数据载体上的信息(例如数据)。例如，机器可执行信息可以被包括作为数据承载信号，该数据承载信号在数据载体中具体实施，在数据载体中，该信号对由机器(例如计算设备)执行的指令序列或其一部分以及使得机器执行本文描述的方法和/或实施例中的任何一者的任何相关信息(例如数据结构和数据)进行编码。

计算设备的示例包括但不限于电子书阅读设备、计算机工作站、终端计算机、服务器计算机、手持式设备(例如平板计算机、智能电话等)、网络电器、网络路由器、网络交换机、网桥、能够执行指定要由该机器采取的动作的指令序列的任何机器、及其任何组合。在一个示例中，计算设备可以包括信息亭和/或被包括在信息亭中。

图7示出了计算机***700的示例性形式的计算设备的一个实施例的图解表示，在该计算设备内可以执行用于使得控制***执行本发明的方面和/或方法中的任何一者或多者的指令集。还设想可利用多个计算设备来实现用于使得一个或多个设备执行本发明的方面和/或方法中的任何一者或多者的专门配置的指令集。计算机***700包括处理器704和存储器708，它们经由总线712彼此通信，并且与其它组件通信。总线712可以包括若干类型的总线结构中的任何一种，包括但不限于使用各种总线架构中的任何一种的存储器总线、存储器控制器、***总线、局部总线及其任何组合。

处理器704可以包括任何合适的处理器，例如但不限于并入有用于执行算术和逻辑运算的逻辑电路(例如算术和逻辑单元(ALU))的处理器，其可以用状态机来调节并且由来自存储器和/或传感器的操作输入来引导；作为非限制性示例，处理器704可以根据冯诺伊曼和/或哈佛架构来组织。处理器704可以包括、并入有和/或并入在但不限于微控制器、微处理器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)、图形处理单元(GPU)、通用GPU、张量处理单元(TPU)、模拟或混合信号处理器、可信平台模块(TPM)、浮点单元(FPU)和/或片上***(SoC)中。存储器708可以包括各种组件(例如，机器可读介质)，包括但不限于随机存取存储器组件、只读组件及其任何组合。在一个示例中，包括例如在启动期间帮助在计算机***700内的元件之间传送信息的基本例程的基本输入/输出***716(BIOS)可以存储在存储器708中。存储器708还可以包括(例如存储在一个或多个机器可读介质上)具体实施本发明的方面和/或方法中的任何一者或多者的指令(例如软件)720。在另一示例中，存储器708还可以包括任何数量的程序模块，包括但不限于操作***、一个或多个应用程序、其他程序模块、程序数据及其任何组合。

计算机***700还可以包括存储设备724。存储设备(例如存储设备724)的示例包括但不限于硬盘驱动器、磁盘驱动器、光盘驱动器与光学介质的组合、固态存储器设备、及其任何组合。存储设备724可以通过适当的接口(未示出)连接到总线712。示例接口包括但不限于SCSI、高级技术附件(ATA)、串行ATA、通用串行总线(USB)、IEEE 1394(FIREWIRE)及其任意组合。在一个示例中，存储设备724(或其一个或多个组件)可以可移除地与计算机***700接口连接(例如经由外部端口连接器(未示出))。特别地，存储设备724和相关联的机器可读介质728可以提供用于计算机***700的机器可读指令、数据结构、程序模块和/或其他数据的非易失性和/或易失性存储。在一个示例中，软件720可以完全或部分地驻留在机器可读介质728内。在另一个示例中，软件720可以完全或部分地驻留在处理器704内。

计算机***700还可以包括输入设备732。在一个示例中，计算机***700的用户可以经由输入设备732向计算机***700中录入命令和/或其他信息。输入设备732的示例包括但不限于字母数字输入设备(例如键盘)、定点设备、操纵杆、游戏手柄、音频输入设备(例如麦克风、语音响应***等)、光标控制设备(例如鼠标)、触摸板、光学扫描仪、视频捕捉设备(例如静态相机、摄像机)、触摸屏及其任何组合。输入设备732可以经由各种接口(未示出)中的任何接口来接口连接到总线712，接口包括但不限于串行接口、并行接口、游戏端口、USB接口、FIREWIRE接口、到总线712的直接接口及其任何组合。输入设备732可以包括触摸屏界面，其可以是显示器736的一部分或与之分离，在以下进一步讨论。输入设备732可以用作用户选择设备，其用于选择如上所述的图形界面中的一个或多个图形表示。

用户还可以经由存储设备724(例如可移动磁盘驱动器、闪存驱动器等)和/或网络接口设备740向计算机***700输入命令和/或其他信息。例如网络接口设备740的网络接口设备可以用于将计算机***700连接到例如网络744的各种网络中的一者或多者以及连接到其的一个或多个远程设备748。网络接口设备的示例包括但不限于网络接口卡(例如移动网络接口卡、LAN卡)、调制解调器及其任何组合。网络的示例包括但不限于广域网(例如因特网、企业网)、局域网(例如与办公室、建筑物、校园或其他相对较小的地理空间相关联的网络)、电话网络、与电话/语音提供商相关联的数据网络(例如移动通信提供商数据和/或语音网络)、两个计算设备之间的直接连接、及其任何组合。例如网络744的网络可以采用有线和/或无线通信模式。通常，可以使用任何网络拓扑。信息(例如数据、软件720等)可以经由网络接口设备740传送到计算机***700和/或从其传送。

计算机***700还可以包括用于将可显示图像传送到例如显示设备736的显示设备的视频显示适配器752。显示设备的示例包括但不限于液晶显示器(LCD)、阴极射线管(CRT)、等离子体显示器、发光二极管(LED)显示器及其任意组合。

显示适配器752和显示设备736可以与处理器704组合使用以提供本发明的各方面的图形表示。除了显示设备之外，计算机***700还可以包括一个或多个其他***输出设备，包括但不限于音频扬声器、打印机及其任何组合。这样的***输出设备可以经由***接口756连接到总线712。***接口的示例包括但不限于串行端口、USB连接、FIREWIRE连接、并行连接及其任意组合。

上文是本发明的说明性实施例的详细描述。在不背离本发明的精神和范围的情况下，可以进行各种修改和添加。上述各个实施例中的每一者的特征可以与其它所述实施例的特征适当地组合，以便在相关联的新实施例中提供多种特征组合。此外，虽然上文描述了多个单独的实施例，但本文所描述的内容仅仅是对本发明原理的应用的说明。另外，尽管本文的特定方法可以被例示和/或描述为以特定顺序执行，但是在实现根据本发明的方法、***和软件的普通技术内，该排序是高度可变的。因此，本说明书仅作为示例，而不是以其他方式限制本发明的范围。

示例性实施例已经在上面公开并在附图中例示。本领域技术人员应当理解，在不背离本发明的精神和范围的情况下，可以对本文具体公开的内容进行各种改变、省略和添加。

Claims

1.一种配置有存储器高效预测模式选择的视频编码器，所述编码器具有被编程为执行操作的处理器，所述操作包括：

接收包括当前帧的输入视频；

确定第一预测模式和第二预测模式的成本，其中，确定还包括：

针对所述第一预测模式确定第一比特成本和第一存储器成本；以及

针对所述第二预测模式确定第二比特成本和第二存储器成本；

根据所述第一比特成本、所述第一存储器成本、所述第二比特成本和所述第二存储器成本来选择所述第一预测模式和所述第二预测模式中的当前预测模式；以及

使用所述当前预测模式来编码所述当前帧。

2.根据权利要求1所述的编码器，其中，确定所述第一存储器成本还包括检索表示所述第一存储器成本的存储值。

3.根据权利要求1所述的编码器，其中，确定所述第二存储器成本还包括检索表示所述第二存储器成本的存储值。

4.根据权利要求1所述的编码器，其中，确定所述第一存储器成本还包括从解码器接收处理器架构数据，并且根据所述处理器架构数据确定所述第一存储器成本。

5.根据权利要求1所述的编码器，其中，确定所述第二存储器成本还包括从解码器接收处理器架构数据，并且根据所述处理器架构数据确定所述第二存储器成本。

6.根据权利要求1所述的编码器，其中，选择还包括基于所述第一存储器成本和所述第二存储器成本确定阈值，并且根据所述阈值进行选择。

7.根据权利要求6所述的编码器，其中，选择还包括将所述第一比特成本和所述第二比特成本之间的差值与所述阈值进行比较。

8.根据权利要求1所述的编码器，其中，所述第一预测模式是垂直帧内预测，所述第二预测模式是水平帧内预测。

9.一种视频解码器，其被配置为与具有存储器高效预测模式的编码器一起操作，所述解码器被配置为：

向所述编码器提供指示所述解码器的至少一个参数的信号；

接收以第一预测模式和第二预测模式中的至少一者编码的视频信号，其中，所述预测模式是在所述编码器处基于比特成本和存储器成本中的至少一者确定的，所述比特成本和所述存储器成本是至少部分基于所述解码器的所述至少一个参数针对比特流确定的。

10.根据权利要求10所述的解码器，其中，所述至少一个参数是所述解码器的处理器架构数据，并且所述编码器根据所述处理器架构数据确定第一存储器成本。

11.根据权利要求11所述的解码器，其中，所述编码器根据所述处理器架构数据确定第二存储器成本。

12.根据权利要求10所述的解码器，其中，所述至少一个参数指示将减少所述解码器处的功耗的预测模式。

13.根据权利要求10所述的解码器，其中，所述第一预测模式是垂直帧内预测，所述第二预测模式是水平帧内预测。

14.根据权利要求10所述的解码器，其中，所述比特流包括编码视频和特征分量，所述解码器还包括：

解复用器，所述解复用器接收所述比特流并提供编码的视频输出流和编码的特征分量输出流；

第一解码模块，所述第一解码模块接收所述编码的视频输出流，并对所述视频输出流解码以用于人类使用；和

第二解码模块，所述第二解码模块接收所述编码的特征流，并所述特征分量解码以用于机器使用。

15.根据权利要求13所述的解码器，其中，所述至少一个参数是所述解码器的处理器架构数据，并且所述编码器根据所述处理器架构数据确定第一存储器成本。

16.根据权利要求14所述的解码器，其中，所述编码器根据所述处理器架构数据确定第二存储器成本。

17.根据权利要求13所述的解码器，其中，所述第一预测模式是垂直帧内预测，所述第二预测模式是水平帧内预测。

18.根据权利要求13所述的解码器，其中，所述至少一个参数指示将减少所述解码器处的功耗的预测模式。