CN1839629A

CN1839629A - 用于在双通道编码中选择扫描模式的方法与设备

Info

Publication number: CN1839629A
Application number: CNA2004800230544A
Authority: CN
Inventors: 何勇; 胡少伟
Original assignee: General Instrument Corp
Current assignee: Ai Ruishi Technology Co; Arris Enterprises LLC
Priority date: 2003-08-12
Filing date: 2004-08-10
Publication date: 2006-09-27
Anticipated expiration: 2024-08-10
Also published as: CN100571365C; CA2533885A1; WO2005017699A2; EP1661398A4; EP1661398A2; WO2005017699A3; US20050036549A1; KR20060071393A; KR101263813B1

Abstract

本发明公开一种***(100)与方法，其用于基于输入图像序列的内容，自适应地选择扫描模式。在一个实施例中，采用两个编码器(110、120)。第一编码器(110)接收输入图像序列并使用至少两种不同的扫描模式(例如，Z字形扫描模式或交替扫描模式，其遵照MPEG－2标准等)编码图像序列的每一帧。特别地，将使用不同的扫描模式扫描每一帧的不同部分。此第一编码提供前视信息，使得第二编码器能够以更有效率的扫描顺序分配DCT量化系数，从而减少编码比特和/或改善图像质量。

Description

用于在双通道编码中选择扫描模式的方法与设备

本申请要求编号No.60/494,515、于2003年8月12日提交的美国临时申请的权益，其通过引用集成于此。

技术领域

一般地，本发明的实施例涉及编码***。更具体地，本发明涉及双通道编码***，其中可自适应地选择扫描模式。

背景技术

对更低比特率与更高视频质量的需求要求有效使用带宽。为实现这些目标，运动图像专家组(MPEG)创建ISO/IEC国际标准11172(1991)(一般称为MPEG-1格式)与13818(1995)(一般称为MPEG-2格式)，其通过引用完整地集成于此。这些标准的一个目标是建立具有充分灵活性的标准编码/解码策略，以适应多种不同的应用与服务，例如桌面视频发布、视频电话、视频会议、数字存储媒体与电视广播。

尽管MPEG标准规定生成符合MPEG的比特流的一般编码方法与语法，也允许赋予许多参数的值的许多变化，从而支持宽广范围的应用与互操作性。实际上，MPEG不定义产生有效比特流所需的特定算法。进一步地，在诸如图像预处理、运动估计、编码模式决策、可扩展性、码率控制与扫描模式决策等领域中，MPEG编码器设计者在开发与实现其自己的MPEG专用算法时获得很大的灵活性。然而，MPEG编码器设计者的公共目标是最小化对于给定比特率与操作延时约束的主观失真。

在扫描模式决策领域中，可以以多种不同的扫描模式扫描量化的离散余弦变换(“DCT”)块，例如，Z字形(zigzag)或交替(alternative)顺序，以便于进行后面的游程长度(run-length)编码。依据呈现的视频内容，一种扫描模式可能产生比另一扫描模式更佳的压缩效率，或者反之亦然。

为阐释起见，在MPEG-2标准中，在每一图像的头字段中有一个一比特标志，以通告DCT扫描模式。一旦选定扫描模式，整个图像必须使用同一DCT扫描模式。然而，不同帧之间像素的竖直相关与水平相关是变化的。

一些编码器使用帧/场运动预测模式来确定DCT扫描模式，例如，如果将帧编码为帧预测(例如电影)，选择Z字形扫描，而对于正常的隔行视频，选择交替扫描。然而，有时最佳的帧/场运动预测模式不能产生最佳的DCT扫描模式。例如，使用帧预测与Z字形DCT扫描可更好地压缩竖线的静态图像，而使用帧预测与交替的DCT扫描可更好地压缩横线的静态图像。

因此，本领域中存在对这样的编码***与方法的需要，其可选择适宜的扫描模式，以获得更好的压缩效率，同时维持或改善图像质量。

发明内容

在一个实施例中，本发明公开一种***与方法，其用于基于输入图像序列的内容，自适应地选择扫描模式。也就是说，内容自适应的扫描模式选择能够以更有效率的扫描顺序分配DCT量化系数，从而减少编码比特并改善图像质量。

在一个实施例中，采用两个编码器。第一编码器接收输入图像序列并使用至少两种不同的扫描模式(例如，Z字形扫描模式或交替扫描模式，其遵照MPEG-2标准等)编码图像序列的每一帧。特别地，将使用不同的扫描模式扫描每一帧的不同部分。

例如，不同部分可包括宏块的切片、宏块、或宏块之内的子块等。为阐释起见，可将具有480行的图像划分为30个宏块切片。使用第一扫描模式(例如，Z字形扫描模式)编码奇数宏块切片，而使用第二扫描模式(例如，交替扫描模式)编码偶数宏块切片。一旦编码了每一帧，编码器将能够确定哪一扫描模式实际上将更有效率和/或将改善图像质量。将此信息提供给第二编码器，其将能够自适应地选择适宜的扫描模式，以实际编码输入图像序列。通过使用适宜的DCT扫描模式，第二通路编码器能够在每一单个帧或图像上实现更佳的编码效率。

附图说明

为了更详细地理解上面陈述的本发明的特性，可通过参考各实施例来获得对上面简要小结的本发明的更具体的描述，一些实施例阐释在所附绘图中。然而，需要注意的是，所附绘图仅阐释本发明的典型实施例，因此不应被视为是对其范围的限制，因为本发明可容许其它同样有效的实施例。

图1阐释本发明的双通道编码***；

图2阐释本发明的运动补偿编码器；

图3阐释Z字形扫描模式；

图4阐释遵照MPEG-2的交替扫描模式；

图5阐释本发明的扫描模式的自适应选择的方法，其基于输入图像序列的内容；和

图6阐释使用通用计算机实现的本发明。

为便于理解，尽可能使用相同的参考标号来表示各图形公共的相同的组件。

具体实施方式

图1阐释本发明的双通道编码***100。双通道编码***100包括第一编码器110与第二编码器120。在操作中，第一编码器110实现自适应扫描模式编码，其中使用至少两种扫描模式来编码路径105上的输入图像序列中的每一图像。其后，将基于所述至少两种扫描模式产生的每一帧的编码效率信息(例如，每一扫描模式所用的编码比特数)提供给第二编码器120。该信息允许第二编码器120选择适宜的扫描模式，以将输入图像序列105实际编码为路径125上的符合标准的(例如，符合MPEG的)编码流。

需要注意的是，第一编码器110无须为符合标准的编码器，例如，MPEG编码器。其原因在于第一编码器实际上并未将图像序列编码为最终的符合标准的编码流。第一编码器的主要目的是将不同的扫描模式施行于输入图像序列之内的每一图像。例如，使用Z字形扫描模式(图3中显示)扫描每一图像之内的奇数切片(slice)，而使用交替扫描模式(图4中显示)扫描每一图像之内的偶数切片。基于每一所选扫描模式的结果，可容易地确定编码图像的效率和/或质量，例如通过比较奇数切片与偶数切片的效率。第二编码器可有效地利用路径107上的此信息，以适当地选择扫描模式来实际编码图像序列。这样，第一编码器可以是不符合标准的编码器或符合标准的编码器，而第二编码器是符合标准的编码器。

需要注意的是，尽管在MPEG-2环境内描述本发明，但本发明并不受限于此。也就是说，符合标准的编码器可以是符合MPEG-2的编码器或符合任何其它压缩标准(例如，MPEG-4、H.261、H.263等)的编码器。换言之，本发明可应用到任何其它允许多种扫描模式决策的压缩标准。

图2阐释本发明的示例性运动补偿编码器200(例如，图1的符合标准的编码器120)的框图。在本发明的一个实施例中，设备200是编码器，或者更复杂的基于可变块的运动补偿编码***的一部分。设备200包括可变块运动估计模块240、运动补偿模块250、码率控制模块230、离散余弦变换(DCT)模块260、量化(Q)模块270、变长编码(VLC)模块280、缓冲器(BUF)290、反量化(Q^-1)模块275、反DCT(DCT^-1)变换模块265、减法器215与加法器255。尽管设备200包括多个模块，本领域技术人员将认识到，不必将各种模块执行的功能分隔到分立的模块，如图2中所示的那样。比如说，包括运动补偿模块250、反量化模块275与反DCT模块265的模块集一般称为“内嵌解码器”。

图2阐释路径210上的输入视频图像(图像序列)，其被数字化并表示为一个亮度与两个色差信号(Y，C_r，C_b)，其遵照MPEG标准。将这些信号进一步划分为多个层(序列、图像组、图像、切片与块)，使得每一图像(帧)由具有不同大小的多个块表示。将图像划分为块单元改善了辨别两连续图像之间的变化的能力，并通过消除低幅度变换系数(下面讨论)改善了图像压缩。可选地，可对数字化的信号进行预处理，例如格式转换，以选择适宜的窗口、分辨率与输入格式。

将路径210上的输入视频图像接收到可变块运动估计模块240，以估计运动矢量。来自可变块运动估计模块240的运动矢量由运动补偿模块250接收，以改善样本值预测的效率。运动补偿涉及预测，其使用运动矢量来提供到过去的和/或未来的参考帧的位移，这些参考帧包括先前解码的样本值，其被用于形成预测误差。也就是说，运动补偿模块250使用先前解码的帧与运动矢量来构造当前帧的估计。

而且，在进行给定块的运动补偿预测之前，必须选择编码模式。在编码模式决策的领域中，MPEG提供多种不同的编码模式。一般地，这些编码模式被分组为两大类别：间编码模式与内编码模式。内编码模式涉及使用仅来自该块或图像的信息编码块或图像。相反，间编码模式涉及使用来自其自身以及来自发生在不同时间的块与图像的信息编码块或图像。具体地，MPEG-2提供编码模式，包括内模式，无运动补偿模式(无MC)，帧/场/双基(dual-prime)运动补偿间模式，前向/后向/平均间模式，以及场/帧DCT模式。对于每一块的编码模式的适宜选择将改善编码性能。再一次地，编码器设计者可使用目前可获得的各种方法来实现编码模式决策。

一旦选定编码模式，运动补偿模块250产生路径252上的块内容的运动补偿预测(预测图像)，其基于过去的和/或未来的参考图像。在当前块中，经由减法器215从路径210上的视频图像减去该路径252上的运动补偿预测，以形成路径253上的误差信号或预测残余信号。预测残余信号的形成有效地去除了输入视频图像中的冗余信息。也就是说，不是经由传输信道传输实际视频图像，而是仅传输生成视频图像的预测所必需的信息以及这些预测的误差，从而显著减少了需要传输的数据的量。为进一步减小比特率，将路径253上的预测残余信号传递给DCT模块260以进行编码。

DCT模块260其后对预测残余信号的每一块应用前向离散余弦变换过程，以产生一组八(8)乘八(8)的DCT系数块。8×8的DCT系数块的数目将取决于每一块的大小。离散余弦变换是可逆的、离散的正交变换，其中DCT系数表示一组余弦基函数的幅度。离散余弦变换的一个优点是DCT系数是不相关的。DCT系数的不相关对于压缩而言是重要的，这是因为可独立地处理每一系数而不损失压缩效率。进一步地，DCT基函数或子带分解允许有效使用视觉心理学(psychovisual)标准，其对于下一步的量化而言是重要的。

产生的8×8的DCT系数块由量化模块270接收，其中量化DCT系数。量化过程减少了精确度，使用该量化过程，通过将DCT系数除以一组量化值，并适宜地舍入(round)以形成整数值，来表示DCT系数。可使用基于基函数的视觉标准为每一DCT系数单独地设置量化值(称为视觉加权的量化)。也就是说，量化值对应于给定基函数的视觉门限，即，人眼恰好可检测的系数幅度。通过以该值量化DCT系数，将许多DCT系数转化为值“零”，从而改善了图像压缩效率。量化过程是关键操作，并且是实现视频质量和控制编码器将其输出匹配到给定比特率(码率控制)的重要工具。由于可将不同的量化值应用到每一DCT系数，一般建立“量化矩阵”作为参考表，例如，亮度量化表或色度量化表。这样，编码器选择这样的量化矩阵，其确定如何量化变化块中的每一频率系数。

接着，产生的8×8的量化DCT系数块由变长编码模块280经由信号连接271接收，其中使用特定扫描模式(例如，图3的“Z字形”顺序或图4的“交替”扫描顺序，其遵照MPEG-2)扫描量化系数的两维块，以将其转化为量化DCT系数的一维串。例如，Z字形扫描顺序是DCT系数从最低空间频率到最高空间频率的大致顺序排序。由于量化一般将高空间频率的DCT系数减少到零，因而量化DCT系数的一维串典型地由多个整数继之以一串零表示。

在一个实施例中，变长编码(VLC)模块280中适宜扫描模式的选择由路径107上的信息确定。也就是说，可基于第一编码器110供应的每一所选扫描模式的结果，容易地确定每一编码图像的效率和/或质量，例如，通过比较奇数切片与偶数切片的编码效率。为阐释起见，在开始编码该帧之前，第二通路编码器120可比较Z字形扫描与交替的扫描模式的复杂度(所用比特)，其后选择生成较少编码比特的扫描模式。这样，第二编码器可有效利用路径107上的信息，以适宜地选择扫描模式来实际编码图像序列。

变长编码(VLC)模块280其后编码量化DCT系数串以及块的所有边信息，例如块类型与运动矢量。VLC模块280利用变长编码与游程长度编码来有效地改善编码效率。变长编码是可逆编码过程，其中将较短的码字分配给频繁的事件，而将较长的码字分配给较不频繁的事件，而游程长度编码通过对具有单一符号的符号游程进行编码来增加编码效率。这些编码方案是本领域众所周知的，当使用整数长度的码字时，常常称为Huffman编码。这样，VLC模块280进行将输入视频图像转化为有效数据流的最终步骤。

将数据流接收到“先进先出”(FIFO)缓冲器290。使用不同图像类型与变长编码的一个后果是进入FIFO的总比特率是变化的。也就是说，用来编码每一帧的比特数可以是不同的。在涉及固定速率信道的应用中，使用FIFO缓冲器来将编码器输出匹配到信道，以平滑比特率。这样，FIFO缓冲器290的输出信号是输入视频图像210的压缩表示，其中将其送往路径295上的存储媒体或电信信道。

码率控制模块230监控和调节进入FIFO缓冲器290的数据流的比特率，以防止数据流传输后解码器端(在接收器或目标存储设备之内，未显示)的上溢与下溢。假定固定速率信道以恒定速率将比特放置到解码器之内的输入缓冲器中。在由图像速率确定的规则间隔，解码器瞬时地从其输入缓冲器去除下一图像的所有比特。如果输入缓冲器中比特太少，即，尚未收到下一图像的所有比特，则输入缓冲器下溢，导致错误。类似地，如果输入缓冲器中比特太多，即，在图像开始之间超过输入缓冲器的容量，则输入缓冲器上溢，导致上溢错误。这样，码率控制模块230的任务是监控缓冲器290的状态，以控制由编码器生成的比特数目，从而防止上溢与下溢状况。码率控制算法在影响图像质量与压缩效率中扮演了重要角色。

图5阐释本发明的一种方法500，其用于基于输入图像序列的内容自适应地选择扫描模式。具体地，在一个实施例中，本发明带来一种方法与设备，以依据视频内容选择MPEG-2中合适的DCT扫描模式，以改善视频质量。

在一个实施例中，本发明在第一通路编码器上将每一锚帧编码为P帧。在第一通路编码器上将P帧中的交替切片交替地编码为I切片与P切片。使用Z字形扫描顺序与交替的扫描模式将每一I与P切片对的DCT量化系数排序。这样，计算出Z字形与交替扫描模式的复杂性(所用比特)，而无需将扫描模式在同一帧上应用两次。此安排允许第二通路编码器选择使用较少编码比特的扫描模式。

在双通道编码***中，第一通路编码器在一锚帧上计算I与P复杂度一次，其通过将每隔一切片分别编码为I与P切片。第二通路编码器将利用此前视信息来相应地决定图像编码类型。必须在开始编码图像之前确定扫描模式。为了不将同一帧使用不同扫描模式编码两次，第一通路编码器将每一相邻I与P切片分组为一对，而每一I/P切片对的DCT量化系数分别使用Z字形或交替扫描模式排序。累积不同扫描模式所用的比特，作为第二通路编码器扫描模式决策的参考。

当第一通路编码器上的编码帧不是锚帧(例如，B帧)时，第一通路编码器上B帧中交替切片的DCT量化系数分别使用Z字形或交替扫描模式排序。这样，计算出每一扫描模式所用的比特，而无需将同一帧编码两次。累积不同扫描模式所用的比特，作为第二通路编码器扫描模式决策的参考。现在参照图5描述上面描述的用于为图像序列中的每一图像自适应地选择扫描模式的方法的一个示例。

方法500开始于步骤505，并进行到步骤510，其中第一编码器接收帧或图像。在步骤510，方法500查询所接收的帧是否是锚帧。如果查询结果为是，则方法500进行到步骤520。如果查询结果为否，则方法500进行到步骤550。

在步骤520，方法500查询当前切片是否为I切片。如果查询结果为是，则方法500进行到步骤530。如果查询结果为否(例如，当前切片为P切片)，则方法500进行到步骤540。

在步骤530，方法500查询该I切片是否为第一I切片。如果查询结果为是，则方法500进行到步骤532。如果查询结果为否，则方法500进行到步骤535。

在步骤532，方法500以Z字形顺序分配DCT量化系数。接下来，在步骤534，方法500累积使用Z字形扫描的编码比特。

在步骤535，方法500查询前一I切片是否为Z字形顺序。如果查询结果为是，则方法500进行到步骤536。如果查询结果为否，则方法500进行到步骤542。

在步骤536，方法500以交替顺序分配DCT量化系数。接下来，在步骤538，方法500累积使用交替扫描的编码比特。

在步骤542，方法500以Z字形顺序分配DCT量化系数。接下来，在步骤544，方法500累积使用Z字形扫描的编码比特。

在步骤539，方法500查询帧中是否存在另一需要编码的切片。如果查询结果为是，则方法500返回到步骤520，这里重复各个步骤，直到处理完整个帧。如果查询结果为否，则方法500进行到步骤560。

在步骤550，方法500查询该B切片是否为第一B切片。如果查询结果为是，则方法500进行到步骤551。如果查询结果为否，则方法500进行到步骤553。

在步骤551，方法500以Z字形顺序分配DCT量化系数。接下来，在步骤552，方法500累积使用Z字形扫描的编码比特。

在步骤553，方法500查询前一B切片是否为Z字形顺序。如果查询结果为是，则方法500进行到步骤554。如果查询结果为否，则方法500进行到步骤556。

在步骤554，方法500以交替顺序分配DCT量化系数。接下来，在步骤555，方法500累积使用交替扫描的编码比特。

在步骤556，方法500以Z字形顺序分配DCT量化系数。接下来，在步骤557，方法500累积使用Z字形扫描的编码比特。

在步骤559，方法500查询帧中是否存在另一需要编码的切片。如果查询结果为是，则方法500返回到步骤550，这里重复各个步骤，直到处理完整个帧。如果查询结果为否，则方法500进行到步骤560。

在步骤560，方法500查询是否总的Z字形扫描编码比特大于总的交替扫描编码比特。如果查询结果为是，则方法500进行到步骤565，其中向第二编码器发送信息，通知第二编码器为当前图像选择交替扫描模式。如果查询结果为否，则方法500进行到步骤567，其中向第二编码器发送信息，通知第二编码器为当前图像选择Z字形扫描模式。

尽管上面按照以不同扫描模式编码帧的交替切片来描述本发明，本发明并不受限于此。作为可供选择的另一替代方案，第一通路编码器中可每隔一宏块以Z字形与交替DCT扫描顺序进行编码，并类似地累积用于Z字形与交替扫描顺序的比特，并将其用于第二通路编码器扫描模式决策。事实上，可使用帧的任何交替“部分”，其中可基于应用要求来选择该部分的大小(例如，切片组、切片、宏块、子块等)。

作为可供选择的另一替代方案，还可在第一通路编码器中使用Z字形扫描与交替的扫描宏块的棋盘模式。

图6是本双通道编码***的框图，其使用通用计算机实现。在一个实施例中，双通道编码***600使用通用计算机或任何其它等价硬件实现。更具体地，双通道编码***600包括处理器(CPU)610、存储器620(例如，随机存取存储器(RAM)和/或只读存储器(ROM))、第一编码器622、第二编码器624、与各种输入/输出设备630(例如，存储设备，包括但不限于，磁带驱动器、软盘驱动器、硬盘驱动器或光盘驱动器，接收器，发射器，扬声器，显示器，输出端口，用户输入设备(例如键盘、小键盘、鼠标、等等)，或用于采集语音命令的麦克风)。

应该理解的是，第一编码器622与第二编码器624可作为物理设备或子***实现，其通过通信信道连接到CPU 610。

作为可供选择的另一替代方案，第一编码器622与第二编码器624可表示为一或多个软件应用(或者甚至是软件与硬件的集合，例如，使用专用集成电路(ASIC))，其中软件从存储媒体(例如，磁性或光学驱动器或磁带)载入到电脑的存储器620中并由CPU操作。这样，可将本发明的第一编码器622与第二编码器624(包括相关联的数据结构)存储在计算机可读的媒体或载体上，例如，RAM存储器、磁性或光学驱动器或磁带等等。

尽管前面指引到本发明的实施例，可设计本发明的其它以及进一步的实施例，而不偏离其基本范围，并且其范围由权利要求书确定。

Claims

1.一种用于为图像序列中的图像选择扫描模式的方法，其包括：

在第一编码器中使用至少两种扫描模式编码所述图像；

确定关于所述至少两种扫描模式的编码效率信息；和

基于所述编码效率信息，选择所述至少两种扫描模式之一，以在第二编码器中编码所述图像。

2.如权利要求1所述的方法，其中所述第二编码器是符合标准的编码器，其遵照压缩标准。

3.如权利要求2所述的方法，其中所述压缩标准是运动图像专家组(MPEG)-2。

4.如权利要求1所述的方法，其中所述至少两种扫描模式包括Z字形扫描模式与交替模式。

5.如权利要求1所述的方法，其中所述图像被划分为各个部分，其中使用来自所述至少两种扫描模式的不同扫描模式编码不同部分。

6.如权利要求5所述的方法，其中所述各个部分包括切片、宏块与子块中的至少一个。

7.如权利要求6所述的方法，其中如果所述图像是锚帧，则将所述图像的不同部分编码为交替的I部分或P部分。

8.一种用于为图像序列中的图像选择扫描模式的设备(100)，其包括：

第一编码器(110)，其用于使用至少两种扫描模式编码所述图像；和

第二编码器(120)，其用于基于从所述第一编码器接收的关于所述至少两种扫描模式的编码效率信息，选择所述至少两种扫描模式之一来编码所述图像。

9.如权利要求8所述的设备，其中所述第二编码器(120)是符合标准的编码器，其遵照运动图像专家组(MPEG)-2。

10.如权利要求8所述的设备，其中所述至少两种扫描模式包括Z字形扫描模式与交替模式。