CN102318202B

CN102318202B - 用于可缩放与非可缩放视频编解码器之间的译码的***和方法

Info

Publication number: CN102318202B
Application number: CN200780011922.0A
Authority: CN
Inventors: A·埃尔夫瑟里阿迪斯; D·洪; O·夏皮罗; T·维格安德
Original assignee: Vidyo Inc
Current assignee: Vidyo Inc
Priority date: 2006-03-29
Filing date: 2007-03-29
Publication date: 2014-06-04
Anticipated expiration: 2027-03-29
Also published as: CA2647723A1; JP2009544176A; CN102318202A

Abstract

本发明提供了用于在使用可缩放视频编码的视频通信***中执行译码的***和方法。此***和方法被用于将具有特定特性的输入信号译码或转换成具有不同特性要求的期望输出信号。取决于输入和期望输出信号的具体特性，这些***和方法是基于压缩域处理、部分解码-重编码、或使用辅助信息的全解码-重编码的。

Description

用于可缩放与非可缩放视频编解码器之间的译码的***和方法

相关申请的交叉引用

本申请要求2006年3月29日提交的美国临时专利申请S/N.60/786,997的权益。此外，本申请涉及并要求国际专利申请No.PCT/US06/28365、PCT/US06/028366、PCT/US06/028367、PCT/US06/028368、PCT/US06/061815、PCT/US06/62569、PCT/US07/62357和PCT/US07/63335的权益。所有前述优先权以及共同转让的相关申请由此通过引用全部结合于此。

发明领域

本发明涉及视频数据通信***。本发明尤其涉及用于将经编码的数字视频从一种可缩放视频编码格式转换成另一种、或者在可缩放与其它非可缩放视频编码格式之间进行转换的技术。

发明背景

数字视频通信***可采用一种——且有时候多种——数字视频编码格式进行视频的编码、存储和输送。例如，在传统视频会议***中，使用H.261和H.263视频编码标准两者，而在数字电视***中，利用MPEG-2/H.262视频编码。更新近的***在视频会议和广播设置两者中使用H.264视频。

对在视频通信***中使用不同编码格式的这种需求是在不同应用域内存在不同操作方案的直接结果。注意：即使相同的编码格式被用在两个不同应用域中——如同在视频会议、移动、和广播电视应用中使用H.264的情形中——在这两个不同应用域中所用的格式的具体方式可以是不同的。结果，在一个应用域中创建的内容可能不能被另一个域的***直接解码。要求信号更改。甚至在的确使用相同编码格式的实例中，常常有经编码的视频信号的比特率高于特定应用环境中能使用的比特率并因此需要被缩减的的情形。当可在整体***中获得率失真改进时，也可采用译码。

在实际应用中，对内容互操作性的需求造成若干情况：期望有效地在不同视频编码格式之间以及在相同格式的不同参数设置(诸如比特率)之间转换。这些技术统称为‘译码’技术。

对比特流格式转换的一个示例是在使用新编解码器的应用中支持传承编解码器。例如，当参与者使用不能被另一参与者解码的比特流格式连接到视频会议时，译码可被用于格式转换。

可能期望给定编码格式内的译码来执行空间分辨率中的变化，以便适应接收器的可用显式尺寸、比特率、处理功率或功耗，或通用编码效率考虑。类似地，可能还期望改变时间分辨率以适应接收器的可用比特率、处理功率和功耗，或出于通用编码效率考虑。另一种转换通常期望改变比特流大小、或比特率以适应接收器在比特率、处理功率或功耗方面的能力。

对译码的需求的另一个示例是用于更改比特流特性，例如，用于差错弹性或编码效率。比特流的更改可包括譬如内宏块的编码决策的变化。

译码可能还涉及一个或多个前述变化的组合。

已开发了用于标准视频编解码器的译码技术来满足例如MPEG-2与H.264之间的特定应用环境，以允许广播电视视频到适于IP电视和移动电视应用的格式的转换。这些译码技术针对使用现行单层编码技术编码的视频。

除传统的单层编解码器之外，分层或可缩放编码可用于视频编码。可缩放编码用于生成以比特率效率方式共同代表给定视频信号的两个或多个“经缩放”比特流。可缩放性可以多个不同维度——即时间、空间和质量(也称为SNR“信噪比”可缩放性或保真度可缩放性)——来提供。取决于编解码器的结构，空间分辨率和帧率的任何组合可从编解码器比特流获得。例如，视频信号可以CIF或QCIF分辨率且每秒7.5、15和30帧(fps)的帧率下的不同层来可缩放地编码。与不同层相对应的比特可作为单独的比特流传送(即，每层一个流)或它们可在一个或多个比特流中被复用在一起。为了便于本文的描述，与给定层相对应的经编码比特可称为该层的比特流，即使各个层被复用且在单个比特流中传送。

专门设计成提供可缩放性特征的编解码器包括例如MPEG-2(也称为ITU-T H.262的ISO/IEC13818-2)和目前开发的SVC(称为ITU-T H.264AnnexG或MPEG-4第10部分SVC)。在共同转让的国际专利申请No.PCT/US06/028365——“SYSTEM AND METHOD FOR SCALABLE ANDLOW-DELAY VIDEOCONFERENCING USING SCALABLE VIDEO CODING(用于使用可缩放视频编码的可缩放和低延迟视频会议的***和方法)”——中描述了为视频通信专门设计的可缩放编码技术。注意，即使并非专门设计成可缩放的编解码器也可以在时间维度呈现可缩放性的特性。例如，考虑MPEG-2Main Profile(主型)编解码器——DVD和数字TV环境中使用的非可缩放编解码器。此外，假定以30fps操作的编解码器以及使用IBBPBBPBBPBBPBB(周期N＝15帧)的画面组(GOP)结构。通过连续消去B画面，接着消去P画面，得到总共三个时间分辨率——30fps(包括所有画面类型)、10fps(仅有I和P)以及2fps(仅有I)——是可能的。连续消去过程导致可解码的比特流，因为MPEG-2Main Profile编解码器被设计成使得P画面的编码不依赖于B画面，并且类似的I画面的编码不依赖于其它P或B画面。在以下，具有时间可缩放性特征的单层编解码器被认为是可缩放视频编码的特例，因此被包括在术语可缩放视频编码中，除非另外明确指明。

可缩放编解码器通常具有锥形比特流结构，其中组成比特流之一(称为“基层”)在恢复某种基本质量的原始媒体时是必需的。连同基层一起使用剩余比特流(称为“增强层”)的一个或多个提升了所恢复的媒体的质量。

对于诸如多点视频会议的交互式视频通信应用，可缩放视频编码是特别有效的编码技术。共同转让的国际专利申请No.PCT/US06/28366和No.PCT/US06/62569分别描述了与传统多点控制单元(MCU)用于相同用途的“Scalable Video Communication Server(可缩放视频通信服务器)”(SVCS)和“Compositing Scalable Video Communication Server(合成可缩放视频通信服务器)”(CSVCS)架构，但是具有显著缩减的复杂度和改进的功能。类似地，共同转让的国际专利申请No.PCT/US06/061815和PCT/US07/63335描述了用于改进此类***中的差错弹性、随机接入和率控制的机制。

可缩放视频中的译码共享单层译码的若干特性，但是具有对于可缩放视频应用或需求而言唯一的附加特性。视频会议设置中需要可缩放编码格式之间的译码的环境可包括：

-多方视频会议中的参与者要求一视频信号特性，该视频信号特性在与其它会议参与者要求的比特流的视频信号特性联用的特定可缩放视频编码格式中不能被有效地表示。一个示例是结合对与其它要求的视频分辨率略微不同的视频分辨率的要求使用CSVCS。需要译码来提供略微不同的视频分辨率。-参与者具有倾向于比其他参与者的传输信道有更多差错的传输信道。需要译码来***多个切片和内宏块以补偿所增加的差错。

-译码成相关单层格式以支持传承端点(例如，从H.264SVC到AVC)。

-译码成非相关单层格式以支持传承端点(例如，从H.264SVC到H.263、MPEG2、H.261、MPEG-4的任一种，或除H.264和SVC之外的任何其他视频比特流格式)。

参照以上所提及的后两种情况，注意：与可缩放视频编码格式相比，相关和非相关单层编码格式之间的差别是显著的。例如，SVC是H.264AVC的扩展，因此共享许多公共要素，诸如高层语法、运动补偿、变换编码和去块滤波器。因此，这两种格式之间的变换更易于以计算效率方式来执行。

现在考虑使用可缩放视频编码的视频通信***中的译码。关注用于可缩放与非可缩放比特流之间——在双向上——的译码的技术。合需的译码技术对视频信号的质量将具有最小的影响，且具有较高的计算效率。

发明概要

提供了用于在使用可缩放视频编码的视频通信***中执行译码的***和方法。此***和方法被用于将具有特定特性的输入信号译码或转换成具有不同特性要求的期望输出信号。

文本描述了六种不同示例性译码转换类别。在三种示例性类别中，期望输出具有特定时间、质量或空间分辨率要求。在另外三种示例性类别中，期望输出具有质量和时间、空间和时间的组合、或结合空间、质量和时间的分辨率要求。在每种类别内，提供了用于从H.264SVC到AVC、从AVC到SVC、以及从SVC到SVC的转换的特定***和方法。取决于输入和期望输出信号的具体特性，这些***和方法是基于压缩域处理、空间解码重编码、或使用辅助信息的全解码-重编码的。

附图说明

根据以下优选实施例的详细描述以及附图，本发明的其它特征、性质和各个优点将变得更显而易见，在附图中：

图1是示出根据本发明的原理的译码***的整体架构的框图；

图2是示出根据本发明的原理的使用全解码和重编码的示例性译码***的框图；

图3是示出根据本发明的原理的使用部分解码和重编码的示例性译码***的框图；

图4是示出根据本发明的原理的使用压缩域操作的示例性译码***的示图；

图5是示出根据本发明的原理的将经转换的SVC运动矢量构造成基层运动矢量与增强层运动矢量的矢量和的示例性过程的示图；

图6是示出根据本发明的原理的将经转换的SVC变换系数构造成基层变换系数与增强层变换系数的相加的示例性过程的示图；

贯穿附图中相同附图标记用于指代所例示的实施例的类似特征、元件、组件或部分，除非另外声明。此外，在现在将参照附图详细描述本发明时，是结合示例性实施例进行的。

发明详细描述

图1示出了包括可用在视频通信***中的译码器110的示例性译码***100。输入视频编码器120产生具有一组特定特性(例如，格式和/或参数特性)的输入视频比特流。译码器100转换或更改输入视频比特流的特性以生成具有一组不同的期望或目标特性的输出视频流。不同组的特性可对应于输出视频解码器130所期望或要求的信号特性。输出视频流被提供给输出视频解码器130。

在图1中，编码器120和解码器130被示为连接到译码器100，例如在现场视频通信***中将是这种情形。然而，注意：译码器110的操作不依赖于信号编码和解码操作发生的精确时间。类似地，藉由其使得输入视频比特流可为译码器100所用的机制或者藉由其使得输出视频比特流可为解码器130所用的机制不对译码器100的操作产生影响，也与之不相关。实际上，例如，输入视频比特流或输出视频比特流中的任一个可被存储在硬盘、RAM或其他存储装置中。编码器120也可由通过网络连接传送预编码视频的服务器来替代。类似地，解码器130可由存储输出视频比特流以备稍后解码或其它用途的服务器来替代。使得输入视频比特流可为译码器110所用、或使用译码器110的输出视频比特流的其它机制是可能的。在此描述的译码技术可独立于输入和输出比特流的源、递送机制或者使用而被应用于所有情形中。

响应于输入和输出信号上的给定率约束，译码器110的译码操作可以是无损或有损的。无损译码意味着虽然输入和输出信号都服从给定率约束，但两者是相同的。有损译码意味着虽然输入和输出信号都服从给定率约束，但两者是不同的。

H.264SVC标准(参见例如通过引用全部结合于此的Wiegand、G.Sullivan、J.Reichel、H.Schwarz、M.Wien等人的“Joint Draft5：Scalable Video Coding(联合草案5：可缩放视频编码)”，联合视频小组，Doc.JVT-R201，曼谷，泰国，2005年1月)提供了经编码视频比特流中的时间、SNR和空间可缩放性。对于译码自输入SVC比特流，对输出视频格式考虑以下示例性情形：

-译码成SVC比特流

-译码成H.264比特流

-译码成H.263、MPEG2、H.261、MPEG4或任何其它视频比特流格式(除H.264和SVC之外)。

对于译码成输出SVC比特流，对输入视频格式考虑以下示例性情形：

-译码自SVC比特流

-译码自H.264比特流

-译码自H.263、MPEG2、H.261、MPEG4或任何其它视频比特流格式(除H.264和SVC之外)。

对译码器110的设计和操作的关键考虑在于，在虑及后继译码过程的情况下，编码器(例如，编码器120)是否能够预计并准备输入比特流。对于本文的描述，通常假定在SVC编码的情形中，输入视频比特流是如此准备好的，而在H.264编码的情形中，通常是未被如此准备好的。对于H.263、MPEG2、H.261、MPEG4或任何其它视频比特流格式(除H.264和SVC之外)，假定此输入视频流未被如此准备好。注意：由于这些标准之间的迥然不同，并不期望编码器的译码过程预计实现简化的译码过程。

在图2中示出了可被译码器110采用的译码方法或技术(“全解码/重编码译码(FDRT)200”)。FDRT技术200涉及比特流中画面的完全解码和完全重编码(即，在输入视频解码器210处从输入比特流产生经解码的画面，以及在输出视频编码器220处编码它们以产生输出比特流)。与本文所述的其它译码技术(图3-7等)相比，此技术是复杂的，并导致较大的延迟。由于这种延迟特性，对于大多数应用而言，优选地避免FDRT技术。然而，当输入视频信号仅可在有给定比特率约束内的较大差异的情况下由输出视频比特流表示时，可能需要使用FDRT技术200。当两个有关的编解码器(输入和输出比特流)的解码过程的较大部分不同时，或者当输入和输出比特流特性(例如，空间分辨率、SNR分辨率、编码决策)基本上不同时，可能有这种情况发生。在此情形中，全或完全解码/重编码过程可能是必需的或可取的，因为输入视频编码器与输出视频解码器之间的显著漂移会因译码操作而被引入。这种漂移对视频质量产生极大影响，并且必需被控制以便使视频信号可用。对漂移的全控制(即，用于调节所涉及的所有输出比特流编码参数的能力)仅在使用全解码/重编码译码技术的情况下才可用。

如图2中所示，在FDRT200中，译码***100可在解码器210与编码器220之间有益地使用辅助信息来提升输出视频编码。此辅助信息可包括用在输入比特流中的宏块模式判决、量化器值、参考画面和/或运动矢量。例如，使用辅助信息中的运动矢量不仅可在FDRT200中有益地消去或减少与视频编码相关联的复杂度，而且在本文所描述的运动矢量被用于补偿信号转换过程的所有其它译码过程中也是如此。

在图3中示出了发明译码方法或技术(“部分解码/重编码译码(PDRT)300”)。PDRT技术300涉及输入视频解码器310处输入比特流中的画面的部分解码，以及输出视频解码器320处使用从该输入比特流获得的辅助信息的重编码。在PDRT技术300中，输入比特流被解析和更改，并且仅输入编解码器的解码过程和输出编解码器的编码过程的一部分——而非完全链——被调用。PDRT技术300潜在可能地复杂度较低，并且潜在可能导致比PDRT技术200更少的延迟。改进的程度可能依赖于相关编解码器的解码过程的相似度以及输入视频信号特性与输出视频信号特性之间的变化量。PDRT技术300可被有益地用在其中输入视频信号由输出视频比特流近似表示的实例中。在此情形中，由译码引入的漂移可能是足够小的，以致仅通过调节输出视频比特流中的编码决策的部分、通过输入视频编码器预计译码操作或者两者就可控制它。

如图3中所示，在FDRT300中，译码***100可在解码器310与编码器320之间有益地使用辅助信息来提升输出视频编码。此辅助信息可包括用在输入比特流中的宏块模式判决、量化器值、参考画面和运动矢量。

在图4中示出了另一发明译码技术(“压缩域译码(CDT)400”)。CDT技术300涉及在输入视频比特流解析器410处解析输入视频比特流的经编码数据(输入视频语法元素)，以及在输出视频比特流生成器420处将它们映射到输出视频流的经编码数据。输入比特流被解析并更改，但是既不调用输入编解码器的解码过程也不调用输出编解码器的解码过程。与FDRT技术200和PDRT技术300相比，CDT技术400复杂度较低，且通常导致更少的延迟。CDT技术400可被有益地用在其中输入视频信号由输出视频比特流精确表示的实例中。在此情形中，可能没有漂移或者译码仅引入极小的漂移，该极小的漂移可通过由输入视频编码器预计译码操作来控制。

如图4中所示，在CDT300中，可在解析器410与生成器420之间有益地使用辅助信息来提升输入视频语法元素的映射。该辅助信息可包括输入比特流的所有语法元素的全部或部分。

一般而言，输入视频比特流中包括丢弃整个分组的更改或变化不被认为是译码技术。例如，在媒体网关处消去SVC流中与接收器不期望的时间层相对应的分组不被认为是译码操作，而被认为是直接使用比特流的可缩放性特征。一个例外是在提取SVC流的基层并将其转换成AVC兼容流时的情形。基层分组可被封装成AVC兼容NAL单元或SVC兼容NAL单元并且在经编码的数据中没有变化。SVC封装无法通过纯AVC(AVC-only)接收器来解码，因此必须被转换。在此情形中，译码器100可使用合适的高级译码技术“传输层译码”(TLT)。

将SVC比特流译码成H.263、MPEG2、H.261、MPEG4或任何其它视频比特流格式(除H.264和SVC之外)通常要求译码使用FDRT技术来进行。类似地，将H.263、MPEG2、H.261、MPEG4或任何其它视频比特流格式(除H.264和SVC之外)译码成SVC比特流通常要求译码使用FDRT技术来进行。

在以下描述了用于SVC到H.264的译码、H.264到SVC的译码、以及SVC到SVC的译码的技术。译码操作是由对输出比特流中某些特性的要求来引导的。考虑以下译码类型，其中括号中的符号被用于标识每种类型：

-给定所请求的时间分辨率(T)

-给定所请求的质量分辨率(Q)

-给定空间分辨率(S)

-给定质量和时间分辨率的组合(Q/T)

-给定空间和时间分辨率的组合(S/T)

-给定空间、质量和时间分辨率的组合(Q/S/T)

对于这些类型的每一种，本文描述了从H.264到SVC(标示为类型“+”)、从SVC到H.264(标示为类型“-”)、以及从SVC到SVC(标示为类型“＝”)的格式转换。转换类型符号(+、-或＝)以及译码类型符号(T、Q、S、Q/T、S/T和Q/S/T)可被组合以唯一地标识本文所描述的各种转换情形和译码类型组合。例如，符号‘Q/T+’指在给定所请求的组合质量和时间分辨率的情况下从H.264到SVC的译码。

首先，考虑在特定所请求的输出视频信号的时间分辨率的情况下译码成输出比特流的情形(译码类型T)。当译码成SVC时，请求译码成帧间预测(时间可缩放性)的特定依存性结构。空间和SNR分辨率被认为在输入与输出比特流之间相同。H.264和SVC为表示视频信号的时间分辨率和帧间预测的依存性结构提供了相同的基本能力。结果，关于转换类型+、-和＝以及译码类型T的译码过程选项是相对简单的，且在本领域中是公知的。

对于从SVC到H.264的译码(情形‘T-’)，除可缩放内容结构的附加信令之外，时间可缩放性与H.264是后向兼容的。此外，当SVC编码器例如通过时间可缩放性预计所请求的输出视频分辨率时，译码过程可使用或者CDT400或者TLT。时间可缩放性是通过帧间预测参考的依存性结构来实现的。对于译码，无需用于其它画面的解码的画面可被丢弃。情形‘T-’的译码选项在本领域中是众所周知的。

对于从H.264到SVC的译码(情形‘T+’)，如果H.264编码器不能虑及译码，则通常必须使用FDRT200或PDRT300技术。当H.264编码器输入的时间预测结构与输出中期望的时间预测结构(藉由其实现时间可缩放性)不匹配时，就是这种情形。当输入视频信号的某些时间层与输出信号的那些相匹配但是两种信号中的较高时间层的结构不同时，可使用PDRT300技术。在此情形中，匹配的较低层可在未经更改的情况下被使用，但是必须执行较高层画面的解码和重编码。如果H.264编码器输入的时间预测结构是期望的输出时间分辨率的子集，则译码器可***预编码画面数据(例如，跳跃画面或跳跃宏块数据)以按需形成附加时间可缩放性层，并消去输入视频信号中输出视频信号所不期望的时间层。这是其中在译码器处生成附加数据的CDT400的一种形式。如果H.264编码器可预计并虑及后续译码操作，以使得输入时间分辨率与输出所期望的时间分辨率完全匹配，则可采用其中没有生成附加数据的CDT400技术。

对于从SVC到SVC译码(情形‘T＝’)，当SVC编码器预计所请求的输出视频分辨率时，可使用如情形‘T+’中所描述的CDT400技术来进行译码。如果编码器不预计所请求的输出分辨率，则必须如在情形‘T+’中那样来使用FDRT。

现在，考虑在特定所请求的输出视频信号的SNR分辨率的情况下译码成输出比特流的情形(译码类型‘Q’)。所请求的输出视频信号的SNR分辨率可被假定为低于或等于输入视频SNR分辨率。当译码成SVC时，还可请求译码成一组较低的SNR分辨率(对于SNR可缩放性)。时间和空间分辨率被认为在输入与输出比特流之间相同。

注意：SVC中SNR分辨率的表示可通过两种机制——粗粒度可缩放性(CGS)或细粒度可缩放性(FGS)——中的任一种来实现。在两种机制中，附加“增强”信号被传送以提升基信号的视频质量。此增强过程可被重复以使得第一增强信号变成基信号，且第二附加增强信号被传送以提升第一增强/基信号。所重复的增强可以是或者运动矢量改进或者残余信号改进(对于或者帧间或者帧内宏块)，或两者。注意：还可从较低层宏块预测宏块类型。

运动矢量改进由可被添加到先前所传送的基运动矢量中从而导致可使用H.264语法准确地表示的总计或组合运动矢量的、所传送的附加运动矢量构成。例如，如图5中所示，基层运动矢量52添加到增强层运动矢量54导致了组合的总计运动矢量56，该运动矢量56可使用H.264语法来准确表示。

残余信号改进由被添加到先前所传送的基变换系数从而导致可用H.264语法来近似表示的变换系数的、所传送的附加变换系数构成。例如，如图6中所示，分别添加经量化的基和增强层变换系数62和64导致了SVC变换系数幅度。特定QP(X)幅度值可在H.264中被准确或不被准确地表示。仅对于QP的特定选择，组合SVC变换系数值才可被准确表示。例如，图6示出了当量化值如在附图的右侧的标度上所指示的为5时的准确表示QP(X’)。对于另一QP(QP(X))选择，如附图的左侧中所示的，组合SVC变换系数值落在量化值2与3之间。帧间宏块的残余信号与运动信息彼此相关联，即，特定运动矢量必须与特定残余信号相组合。

对于在给定所期望的输出SNR分辨率的情形下从SVC到H.264的译码(情形‘Q-’)，译码通常必须使用PDRT300技术。然而，当组合SVC变换系数水平合计达可由比特率约束内的H.264变换系数水平来表示的值时，译码可使用CDT400技术。这种状况——可由SVC编码器强制实施——允许更简单的译码器操作。

与所请求的SNR分辨率相对应的SVC运动矢量被构造(通过将基和增强层运动矢量相加)并由输出比特流编码器来重编码。SVC运动矢量构造和重编码可使用CDT技术400来有益地执行并且不引入差错。

SVC残余变换系数，即与所请求的SNR分辨率相对应的SVC变换系数被构造(通过将基和增强层变换系数相加)并由输出比特流编码器来重编码。此外，如果对SVC编码器的控制可用，则在CGS与FGS之间进行区分是有益的。仅在使用CGS且对SVC编码器的控制可用的情形中，可作出量化变换系数的选择以使得它们具有H.264语法中的对应物。这种对应通常是H.264和SVC中的量化器值的差异为6或6的整数倍时的情形。因此，对于量化器值的这种差异，可使用CDT400技术进行译码。在一种办法中，可通过以增加H.264比特流的比特流为代价适当地选择H.264的量化参数以准确地表示SVC中的变换系数水平来避免译码漂移。在另一种用于避免漂移的办法中，SVC中的变换系数重构规则可被更改以便以增加SVC中的比特率为代价实现H.264中的比特率的高效表示。在两种办法中，没有产生漂移，并且译码可使用CDT400来执行。如果不使用这两种办法中的任一种，则SVC系数与H.264系数之间的差异通常是给定的，且所引入的漂移需要被跟踪。这可使用PDRT300技术来进行。以下进一步例示了以上所考虑的情形。

如果输出比特流编码器可准确地表示SVC变换系数(例如，使用如图6中所示的QP(X’))，则输入视频编码器与输出视频解码器之间没有发生漂移。准确表示可通过或者选择量化参数以使得增强层QP与基层QP之间的差异为6的整数倍、或者通过选择满足其准确表示条件的另一组SVC和H.264量化参数、或者通过更改SVC重构规则(即，确定如何从基和增强层变换系数确定最后的变换系数的规则)来实现。规则的更改必须如此进行：在给定比特率约束内使用H.264的反向缩放方法来无差错地表示结果SVC变换系数。

否则，如果输出比特流编码器不能准确地表示SVC变换系数(例如，使用如图6中所示的QP(X))，则发生非期望的漂移。然而，漂移可由输入视频编码器通过预计译码操作和该译码操作所引入的可能的偏差、或通过适当的参考画面选择或帧内编码来控制。对于PDRT300和CDT400技术应用，由输入视频编码器进行的漂移控制可能是较佳的。译码操作的预计可导致输入视频编码器选择可使用H.264变换系数语法来准确表示的变换系数。或者，译码操作的预计能够使得输入视频编码器选择可使用H.264变换系数语法来表示的具有较小误差的变换系数。出于这个目的，SVC编码器知道用所允许的量化器参数可表示哪些水平。注意：这组允许值是由译码比特率约束给出的。量化器参数的较小值允许SVC变换系数的更精确表示，但是增加了H.264输出比特流的比特流。SVC编码器常常需要选择使用哪些量化器值以及使用哪种改进。此类SVC编码器可有益地作出选择以便仅具有很小的偏差。

共同转让的国际专利申请No.PCT/US06/028365“System and Method forScalable and Low-Delay Videoconferencing Using Scalable Video Coding(用于使用可缩放视频编码的可缩放和低延迟视频会议的***和方法)”介绍了作为实现时间可缩放性的手段的时间预测结构中的线程化。此外，共同转让的国际专利申请No.PCT/US06/061815“Systems and Method for Error Resilience andRandom Access in Video Communication Systems(用于视频通信***中的差错弹性和随机接入的***和方法)”描述了一般使用可缩放视频编码且特别使用线程化预测结构的视频通信***中的改进的差错弹性和随机接入。后一申请具体描述了‘LR’画面，该画面是与经可缩放编码的视频信号的最低时间层相对应的画面，并且使用诸如重传等适当的传输层技术被可靠地传送给接收器。

通过预计潜在可能的译码，所描述或类似的视频通信***中的编码器可选择约束与较高时间层画面(L1、L2、...、LN画面)不同的LR画面的SVC比特流。对于LR画面，译码方法较佳地被选择成没有漂移发生，从而允许压缩域译码操作(CDT400)。此选择会导致对LR画面的某些约束和比特率开销。或者，如果SVC比特流被构造成导致漂移发生，则漂移必须在PDRT300中被确定并被减轻。

对于并非LR画面的画面，编码器可自由地选择比特流的构造，并且通常无需强制变换系数水平的SVC表示被准确表示或使得没有漂移发生。这个原因在于，因为这些(非LR)画面在时间上是嵌套的，它们的空时差错传播是非常有限的。换言之，用于译码的方法(FDRT、PDRT、CDT)可以逐画面为基础来选择。此选择还可依赖于画面是LR还是非LR画面、或者画面是否为空间或SNR分辨率下的增强而作出。

当使用PDRT300技术时，译码器(例如，译码器110)还可自身控制漂移。对于这种控制，译码器可通过使用当前画面的运动矢量来监视累积的漂移，并根据经译码的(输出视频信号)参考画面与输入视频参考画面之间的差异进行运动补偿。在近似当前画面的SVC变换系数时，通过由译码器将此运动补偿差分信号添加到输入视频信号的SVC变换系数来计及这些运动补偿差分信号。此漂移控制方法在本领域中是众所周知的。

对于从H.264到SVC的译码(情形‘Q+’)，译码通常必须使用PDRT300技术来进行。在此情形中，可假定除最大输出视频质量之外，还请求较低输出视频质量。对于译码，H.2***矢量可被划分成各个SVC运动矢量：SVC比特流的基层、增强层和(可能的)剩余运动向量。划分成多个分量可或者在空间上、或者以使得所有SVC运动矢量分量的和提供H.2***矢量的形式、或者两者相组合进行。剩余运动矢量不被作为SVC比特流的部分来传送。

或者，H.264变换系数可被划分成各个SVC变换系数：SVC比特流的基层、增强层和(可能的)剩余变换系数。划分成分量可或者在频率上、或者以使得全部SVC变换系数分量的和提供H.264变换系数的方式、或者两者相组合进行。剩余系数不被作为SVC比特流的部分来发送。

以上两种情形的具体划分可作为在以下描述的决策率-失真最优化算法的部分。

率-失真最优化算法可为具有比输入H.264比特流低的SNR的所有重构点确定有效的划分。在画面内，译码可能会影响帧内编码部分和可能的帧间编码部分。对于帧内编码部分，残余变换系数可被划分成基层和增强层变换系数。注意：对于具有与H.264输入比特流相等的增强层的两层示例，基层系数较佳地由相对于H.264量化器值而言增大6的量化器值来编码。这些系数是通过使用增大6的量化器值来量化H.264输入变换系数来获得的。通常，在SVC中对量化器值的选择是由称为“率-失真最优化”(RDO)的过程来决定的。在此过程中，量化器值可通过使D+λ*R最小化来选择。在此，对于译码，D对应于H.264输入与SVC输出之间的漂移，R对应于SVC输出的率，而λ是提供D与R之间的权衡的拉格朗日参数(正值)。因此，译码器可通过D+λ*R的最小化——这是在输出表示的各种选项上进行的——来操作。在SVC中，当仅在SVC的基层中进行帧内预测时，帧内译码产生漂移。用于避免这种漂移的选项是将SVC中的帧内预测改变成也使用增强层中的参考样本。

用于帧间编码的率-失真最优化算法中的这种办法类似于帧内编码中需要控制漂移的译码情形。对于帧间编码，D+λ*R的最小化还包括一组运动矢量。残余变换系数被划分成基层和增强层变换系数。注意：对于具有与H.264输入比特流相等的增强层的两层示例，基层系数通常由相对于H.264量化器值而言增大6的量化器值来编码。这些是通过使用增大6的量化器值来量化H.264输入变换系数来获得的。运动矢量还被划分成基层和增强层运动矢量。如前所述，对量化器值的选择是通过RDO过程来决定的，其中量化器值通过最小化D+λ*R来选择。在此，对于译码，D对应于H.264输入与SVC输出之间的漂移，R对应于SVC输出的率，而λ是提供D与R之间的权衡的拉格朗日参数(正值)。因此，译码器可通过使D+λ*R最小化的办法——这是在输出表示的各种选项上进行的——来操作。

总言之，为了准备进行译码，SVC编码器需要闭合针对输出所请求的、与H.264输入分辨率不同的各种SNR分辨率的混合式编码环路。各种SNR分辨率对应于划分H.2***矢量和H.264变换系数。因此，对于特定SNR分辨率(其与输入分辨率不相等)，在运动补偿SNR分辨率与当前SNR分辨率之间产生漂移。此漂移归咎于错失SVC变换系数，该漂移将被跟踪并被补偿以避免视频失真。此外，可调节SVC编码器中去块滤波器的使用以最小化漂移。在本发明中，跟踪是在每个层内执行的，且率-失真最优化被用于最优化性能。

对于从SVC到SVC的译码(情形‘Q＝’)，译码必须使用PDRT300。可假定除比最大输入视频质量低的最大输出视频质量之外，还请求较低的输出视频质量。当较低输出视频质量与较低输入视频质量相同时，最高视频质量的译码类似于率成形或者以上针对从H.264到SVC译码(情形‘Q+’)所提及的最优化算法。情形‘′Q＝’中的不同之处在于，H.264的变换系数或变换系数预测差错还可包括最高层的系数改进，并且类似地，H.264的运动矢量和运动矢量预测差错也可包括最高层的运动矢量改进。在SVC到SVC的所有其它译码情形中存在类似不同点。注意：如果输出视频信号的要求是需要在译码之前丢弃输入视频信号的多个较高层(例如，期望比最高时间可缩放性层低)，则译码器也可如此进行。

现在，考虑在特定所请求的输出视频信号的分辨率的情况下译码成输出比特流的情形(译码类型‘S’)。可假定当译码成SVC时，还可能请求译码成一组较低的空间分辨率(对于空间可缩放性)。时间和SNR分辨率可被认为在输入与输出比特流之间相同。

在SVC中多个空间分辨率的表示是以与SNR可缩放性类似的方式实现的(即，通过宏块类型、运动矢量、帧内内容和帧间编码残余的预测)。多个空间分辨率的表示中仅仅不同之处在于，经编码的较低层的数据需要被缩放或上采样至期望的较高分辨率以便被使用。宏块类型和运动矢量预测是设计成缩减比特率的无损方法，并且可使用H.264语法来准确表示。运动矢量改进由可被添加到先前被传送并缩放的基运动矢量从而导致可使用H.264语法准确地表示的运动矢量的、所传送的附加运动矢量构成。帧内内容预测上采样来自基层的经帧内编码的信号；基层信号可以是遵循H.264的内宏块的预测，或者它可以是遵循SVC的内宏块的表示，如以下所述的。

注意：遵循H.264的内宏块包括或者基于4x4、8x8或者16x16亮度(luma)像素块大小操作的、跟随有经编码的残余信号、任选地跟随有内宏块的去块的空间预测器(predictor)。遵循SVC的内宏块包括跟随有作为SNR增强添加到由经上采样的遵循H.264或遵循SVC的内宏块形成的预测器的残余信号的遵循H.264的内宏块。使用来自或者遵循H.264或者遵循SVC的内宏块的预测编码的遵循SVC的宏块的变换系数可使用H.264语法来近似地表示。

帧间编码残余预测上采样来自基层的、跟随有作为SNR增强被添加到预测器的残余信号的帧内编码残余。

对于从SVC到H.264的译码(情形‘S-’)，译码通常必须使用PDRT300技术来进行。对于译码，最接近所请求的H.264空间分辨率的SVC空间层被从比特流提取。如果此SVC层的空间分辨率与所请求的H.264空间分辨率相等(可由预计译码的SVC编码器来确定)，则译码可使用PDRT300技术。否则，如果两个层的空间分辨率不相同，则译码可能需要全解码/重编码操作。

对于使用部分解码/重编码操作(例如使用PDRT300技术)的译码的情形，不能使用H.264语法表示的宏块需要被译码。这些宏块主要是具有Intra BL(内块)预测和残余预测的那些。结果变换系数需要使用H.264语法来逼近。此外，对于此情形，漂移需要由译码器来控制。这可以与以上针对给定输出质量分辨率(情形‘Q-’)的从SVC到H.264的译码所描述的那些相类似的方式来进行。对于控制漂移，输入与输出之间的差分可针对给定率约束通过对每个层应用的率-失真最优化算法来最小化。这些算法可类似于以上所描述的算法，并且可能的变量通常是量化参数(对于帧间和帧内编码)和运动矢量(对于仅帧间编码)。

对于从H.264到SVC的译码(情形‘S+’)，译码必须使用FDRT200过程来进行。然而，来自H.264的某些运动矢量可被重用以提升译码过程。

当进行从SVC到SVC的译码(情形‘S＝’)时，可使用FDRT200或在可能情况下使用PDRT300过程来进行。可假定在此情形中，所请求的输出视频分辨率可比可用输入视频分辨率小或大(例如，将CSVCS中的一个视频信号的画面大小增大20％)。形成译码的基础的输入空间分辨率被选择成使得对于所请求的输出分辨率而言它是最接近的较低空间分辨率。译码过程包括以根据该较低分辨率的适当缩放因子(例如，20％)创建预测器。要被编码的原始信号或者是经上采样的较低分辨率信号或者是经下采样的较高分辨率信号(如果可用)。SVC重编码可通过重用较低层预测信息和被编码以补偿漂移的残余来实现。通常，可避免运动估计。

现在，考虑在特定所请求的输出视频信号的SNR和时间分辨率的情况下译码成输出比特流的情形(译码类型‘Q/T’)。可假定在此情形中，当译码成SVC时，可请求译码成一组较低的SNR和时间分辨率(对于SNR和时间可缩放性)。空间分辨率可被认为在输入与输出比特流之间相同。

对于从SVC到H.264的译码(情形‘Q/T-’)，可假定SVC编码器预计所请求的时间输出分辨率。用于译码情形‘Q-’的方法和技术由此可在情形‘Q/T-’中应用。

对于从H.264到SVC的译码(情形‘Q/T+’)，译码必须使用FDRT200操作来进行，除非在H.264输入比特流中使用分层时间预测结构。如果使用分层时间预测结构，则适用于Q+译码情形的译码方法和技术可被应用，包括PDRT300技术，或逐画面切换地应用各译码技术。如果没有分层时间预测结构被使用，则译码器可***这种分层时间预测结构，因为它提升了SNR可缩放性的编码效率。

对于从SVC到SVC的译码(情形‘Q/T＝’)，可假定SVC编码器预计所请求的时间输出分辨率。用于情形‘Q＝’的方法由此可在情形‘Q/T＝’中应用。

当使用可缩放时间层时，译码技术的混合——压缩域实施例(例如CDT400技术)和全解码/重编码实施例/部分解码/重编码实施例(例如，FRDT200和PRDT300技术)——可能是实用的且是可取的。例如，来自SVC的时间基层可被复制，且时间增强层可用部分解码/重编码实施例/压缩域实施例来译码，或者用诸如跳跃画面的其它预编码比特流来替代。

现在，考虑在特定所请求的输出视频信号的空间和时间分辨率的情况下译码成输出比特流的情形(译码类型‘S/T’)。可假定当译码成SVC时，还可能请求译码成一组较低的空间和时间分辨率(对于空间和时间可缩放性)。SNR分辨率可被认为在输入与输出比特流之间相同。

对于从SVC到H.264的译码(情形‘S/T-’)，可假定SVC编码器预计所请求的时间输出分辨率。适用于情形‘S-’的译码方法由此可应用于情形‘S/T-’。

对于从H.264到SVC的译码(情形‘S/T+’)，译码必须使用FDRT200操作来进行。

对于从SVC到SVC的译码(情形‘S/T＝’)，可假定SVC编码器预计所请求的时间输出分辨率。适用于情形‘S＝’的译码方法由此可应用于情形‘S/T＝’。

最后，考虑译码情形‘S/Q/T’。根据本发明的原理，这种情形的译码可作为类型‘Q/T’、继之以‘S’或‘S/T’、继之以‘Q’的组合应用来解决。已在本文中描述了情形‘Q/T’、‘S’、‘S/T’和‘Q’的情形。因此，出于简便起见，不再重复情形‘S/Q/T’的译码的描述。

所有所描述的组合的译码器可***作以使得其***增大或降低比特流的差错弹性的语法元素。这些语法元素可包括宏块模式(帧内、帧间)、帧内预测信号、运动矢量或残余变换系数。此外，译码器可将切片添加到比特流或从其移除切片。

用于所有所描述组合的译码器可调节要通过不同网络传送的比特流。这些网络包括RTP/IP、ISDN和H.324M电路交换网络。译码器可针对语法元素而调节差错弹性、更改切片大小以调节MTU大小约束或传输差错，或者出于其它原因而进行更改。

用于所有所描述组合的译码器可调节比特流以遵循SVC和H.264的不同概况。

当输出比特流遵循SVC标准时，译码器还可与CSVCS功能(在共同转让的国际专利申请No.PCT/US06/62569中描述)组合。在此配置中，译码器可通过接收多个输入比特流(经H.261、H.263、H.264或SVC编码的)并在使用标准CSVCS技术将它们合成为单个SVC输出比特流之前应用本文所描述的所有所述转换技术(T+、Q+、S+、Q/T+、S/T+、S/Q/T+)来操作。

尽管本文描述的优选实施例使用H.264SVC草案标准，但是对于本领域技术人员而言，这些技术可直接应用于提供空间、质量、时间可缩放性的任何编码结构是显而易见的。

应当理解，根据本发明，本文所描述的译码技术可使用硬件和软件的任何合适组合来实现。用于实现和操作前述译码技术的软件(即，指令)可被设置在计算机可读介质上，这些计算机可读介质可包括但不限于：固件、存储器、存储设备、微控制器、微处理器、集成电路、ASICS、可在线下载的媒体以及其它可用介质。

Claims

1.一种数字视频信号处理***，包括：

具有至少一个数字视频信号输入和至少一个数字视频信号输出的译码器，

其中所述译码器的所述输入视频编码格式是SVC，而所述译码器的所述输出视频编码格式是H.264，

其中所述至少一个数字视频信号输入被配置成使得对于包含在经SVC编码的数据中的至少一个画面，所述经SVC编码的数据可通过H.264准确表示，

其中所述至少一个数字视频信号输入还被配置成使得连续SVC层中块的变换系数数据中的QP差为6的倍数，并且

其中所述译码器被配置成解码和组合被单独编码在不同层中的所述至少数字视频信号输入的各个层编码参数，以及将所述经组合的参数编码成所述至少一个输出数字视频信号上的单一值，以使得所述至少一个数字视频信号输出具有低于或等于所述输入质量分辨率的期望质量分辨率。

2.如权利要求1所述的***，其特征在于，所述各个层编码参数包括所述变换系数数据。

3.如权利要求1所述的***，其特征在于，所述各个层编码参数包括运动矢量数据。

4.如权利要求1所述的***，其特征在于，为了使译码漂移最小化，周期性内宏块和线程化时间预测结构中的至少一个被用在所述输入视频信号的编码中。

5.一种数字视频信号处理***，包括：

具有至少一个数字视频信号输入和至少一个数字视频信号输出的译码器；

至少一个输入视频编码器；以及

电子通信网络，它链接所述至少一个输入视频编码器与所述译码器，

其中所述输入视频编码器的所述视频编码格式是SVC，所述译码器的所述输入视频编码格式是SVC，而所述译码器的所述输出视频编码格式是H.264，

其中所述输入视频编码器还被配置成使得对于包含在经SVC编码的数据中的至少一个画面，所述经SVC编码的数据可通过H.264准确表示，

其中所述输入视频编码器还被配置成使得连续SVC层中块的变换系数数据中的QP差为6的倍数，并且

其中所述译码器还被配置成解码和组合被单独编码在不同层中的所述至少一个输入信号的各个层编码参数，以及将所述经组合的参数编码成所述至少一个输出视频信号上的单一值，以使得所述至少一个输出视频信号具有低于或等于所述输入质量分辨率的期望质量分辨率。

6.如权利要求5所述的***，其特征在于，所述各个层编码参数包括所述变换系数数据。

7.如权利要求5所述的***，其特征在于，所述各个层编码参数包括运动矢量数据。

8.如权利要求5所述的***，其特征在于，所述输入视频编码器还被配置成使得对于至少最低时间层（LR）画面，经SVC编码的数据可通过H.264准确表示。

9.一种用于译码至少一个数字视频信号输入和至少一个数字视频信号输出的方法，其中所述输入视频编码格式是SVC，而所述输出视频编码格式是H.264，其中所述至少一个数字视频信号输入被配置成使得对于包含在经SVC编码的数据中的至少一个画面，所述经SVC编码的数据可通过H.264准确表示，且其中所述至少一个数字视频信号输入还被配置成使得连续SVC层中块的变换系数数据中的QP差为6的倍数，所述方法包括：

解码和组合被单独编码在不同层中的所述至少一个数字视频信号输入的各个层编码参数；以及

将所述经组合的参数编码成所述至少一个输出视频信号中的单一值，以使得所述至少一个数字视频信号输出具有低于或等于输入质量分辨率的期望质量分辨率。

10.如权利要求9所述的方法，其特征在于，所述各个层编码参数包括所述变换系数数据。

11.如权利要求9所述的方法，其特征在于，所述各个层编码参数包括运动矢量数据。

12.如权利要求9所述的方法，其特征在于，还包括：在所述输入视频信号的编码中使用周期性内宏块和线程化时间预测结构中的至少一个以使译码漂移最小化。

13.一种用于编码通往用于在译码器处译码成至少一个数字视频信号输出的所述译码器的电子通信网络上的至少一个数字视频信号输入的方法，其中所述输入视频编码格式是SVC，而所述输出视频编码格式是H.264，所述方法包括：

针对包含在经SVC编码的数据中的至少一个画面，将所述至少一个数字视频信号输入编码成可通过H.264准确表示的经SVC编码的数据且使得连续SVC层中块的变换系数数据中的QP差为6的倍数；以及

在所述译码器处解码和组合被单独编码在不同层中的所述至少一个输入信号的各个层编码参数，以及将所述经组合的参数组合成所述至少一个输出视频信号中的单一值，以使得所述至少一个输出视频信号具有低于或等于所述输入质量分辨率的期望质量分辨率。

14.如权利要求13所述的方法，其特征在于，所述各个层编码参数包括所述变换系数数据。

15.如权利要求13所述的方法，其特征在于，所述各个层编码参数包括运动矢量数据。

16.如权利要求13所述的方法，其特征在于，还包括编码成使得对于至少最低时间层（LR）画面，经SVC编码的数据可通过H.264准确表示。