CN1366775A

CN1366775A - 压缩视频的代码转换方法

Info

Publication number: CN1366775A
Application number: CN01800896A
Authority: CN
Inventors: A·维特罗; A·迪瓦卡兰; H·孙
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2000-04-11
Filing date: 2001-03-23
Publication date: 2002-08-28
Also published as: EP1195992A1; US6574279B1; WO2001078398A1; JP4650868B2

Abstract

对压缩视频进行代码转换的方法将压缩视频分割为层级(900),从各个层级(900)中提取特征(901－904)。根据从层级中提取出的特征,选择代码转换器的多个变换模式中的一个。然后,根据选择出的变换模式对压缩视频进行代码转换(905－908)。

Description

压缩视频的代码转换方法

技术领域

本发明涉及信息传递***，特别涉及使信息适合网络可用比特率的传递***。

背景技术关联申请的相互参照

这是Vetro等在2000年2月14日申请的美国专利申请第09/504,323号“Object-Based Bitstream Transcoder(基于对象的比特流代码转换器)”的部分继续美国专利申请、Vetro等在2000年2月2日申请的美国专利申请第09/496,706号“Adaptable CompressedBitstream Transcoder(适应性压缩比特流代码转换器)”的部分继续美国专利申请。

发明的背景

近年来，为了进行编码过的信息的通信，开发出多种标准。对于视频序列，使用最广的标准有MPEG-1(用于运动图像的存储及检索)、MPEG-2(用于数字电视)及H.263。请参照ISO/IEC JTC1 CD 11172，MPEG，“Information Technology-Coding of Moving Pictures andAssociated Audio for Digital Storage Media up to about 1.5Mbit/s-Part 2：Coding of Moving Pictures Information(信息技术-用于约1.5M比特/s以下数字存储媒体的运动图像和关联音频的编码-第2部分：运动图像信息的编码)”，1991、LeGall的“MPEG：A Video Compression Standard for Multimedia Applications(MPEG：用于多媒体应用的视频压缩标准)”，Communications of theACM，Vol.34，No.4，pp.46-58，1991、ISO/IEC DIS 13818-2，MPEG-2，“Information Technology-Generic Coding of MovingPictures and Associated Audio Information-Part 2：Video(信息技术-运动图像和关联音频信息的通用编码-第2部分：视频)”，1994、ITU-T SG XV，DRAFT H.263，“Video Coding for Low BitrateCommunication(用于低比特率通信的视频编码)”，1996、ITU-T SGXVI，DRAFT13 H.263+Q15-A-60 rev.0，“Video Coding for LowBitrate Communication(用于低比特率通信的视频编码)”，1997。

这些标准是主要进行视频序列的空间及时间压缩的比较低级的规格。作为共同的特征，这些标准都以各帧为单位来执行压缩。通过这些标准，能够对范围很广的应用实现高压缩率。

通过MPEG-4(用于多媒体应用)等(请参照“InformationTechnology-Generic coding of audio/visual objects(信息技术-音频/视频对象的通用编码)”，ISO/IEC FDIS 14496-2(MPEG4Visual)，Nov.1998)更新的视频编码标准，能够将任意形状的对象作为单独的视频对象平面(VOP)来进行编码、解码。对象可以是视频、音频、自然、合成、原语、复合或它们的组合。视频对象被综合起来，形成复合对象或“景物(scene)”。

新的MPEG-4标准旨在实现交互式视频等综合了自然材料和合成材料而且访问是通用的多媒体应用。通过MPEG-4，能够进行基于内容的交互性。例如，有时希望将正在移动的图形或对象从某个视频“剪贴”到另一个视频。在这种类型的应用中，假定多媒体内容中的对象通过某种类型的分割处理来识别。例如，请参照Lin等在1999年6月4日申请的美国专利申请第09/326,750号“Method for OrderingImage Spaces to Search for Object Surfaces(用于对图像空间进行排序以搜索对象表面的方法)”。

在发送视频的情况下，需要这些压缩标准来降低网络要求的带宽量(可用比特率)。网络可以表示无线信道或因特网。不管在哪种情况下，网络的容量都是有限的，在需要发送内容时，必须解决对其资源的竞争。

多年来，对于能够使装置稳健地发送内容、能够使内容的品质适合可用的网络资源的体系结构及处理，付出了非常多的努力。在内容已经被编码的情况下，为了使流例如适应可用比特率的降低，有时需要在通过网络来发送前对已经压缩过的比特流进一步进行变换。

比特流变换、即“代码转换(transcoding)”可以分类为比特率变换、分辨率变换及句法变换。比特率变换包含比特率缩放及固定比特率(CBR)和可变比特率(VBR)之间的变换。比特率缩放的基本功能是接受输入比特流，生成符合接收机新的负载制约的缩放过的输出比特流。比特流缩放器是使发送端的比特流和接收端的负载相匹配的代码转换器或滤波器。

如图1所示，缩放一般可以由代码转换器100来实现。在蛮干(brute force)的情况下，代码转换器包含解码器110和编码器120。压缩输入比特流101以输入速率Rin被完全解码后，通过以新的输出速率Rout 102进行编码而成为输出比特流103。通常，输出速率低于输入速率。然而，实际上，由于解码过的比特流的编码的复杂度高，所以代码转换器不进行完全的解码及完全的编码。

对MPEG-2代码转换的早期研究由Sun等发表在“Architecturesfor MPEG compressed bitstream scaling(用于MPEG压缩比特流缩放的体系结构)”，IEEE Transactions on Circuits and Systems forVideo Technology，April 1996上。其中，提出了复杂度及体系结构不同的降低速率的4种方法。

图2示出作为一例的方法。在该体系结构中，视频比特流只部分地被解码。更详细地说，输入比特流201的宏块被可变长解码(VLD)210。此外，输入比特流通过被延迟220、逆量化(IQ)230，来产生离散余弦变换(DCT)系数。给出期望的输出比特率后，分析240部分地解码过的数据，在250中对DCT块应用新的量化器组。然后，这些重新量化的块被可变长编码(VLC)260，可以形成低速率的新输出比特流203。这种方式重用运动矢量，无需逆DCT操作，所以比图1所示的方式简单得多。

Assuncao等更新的研究是在“A frequency domain videotranscoder for dynamic bit-rate reduction of MPEG-2bitstreams(用于动态降低MPEG-2比特流的比特率的频域视频代码转换器)”，IEEE Transactions on circuits and Systems for VideoTechnology，pp.953-957，December 1998中论述了用于相同任务的简化体系结构。他们使用运动补偿(MC)环在频域中进行漂移补偿。为了在频域中高速计算MC块，导出近似矩阵。为了计算对代码转换最佳的量化器尺度，使用拉格朗日最优化。

Sorial等的另一研究是在“Joint transcoding of multipleMPEG video bitstreams(多个MPEG视频比特流的联合代码转换)”，Proceedings of the International Symposium on Circuits andSystems，Can 1999中，提出对多个MPEG-2比特流联合进行代码转换的方法。也请参照Vetro等在1999年10月1日申请的美国专利申请第09/410,552号“Estimating Rate-DistortionCharacteristics of Binary Shape Data(二进制形状数据的速率-失真特性估计)”。

根据现有技术的压缩标准，为了对纹理信息进行编码而分配的比特数由量化参数(QP)来控制。上述论文在根据原来的比特流中包含的信息变更QP来降低纹理比特速率这一点上是相同的。为了有效的实现，信息通常在压缩域中被直接提取，可以包含与宏块的运动或DCT块的剩余能量关联的测度。这种类型的分析在比特分配分析器中进行。

虽然有时可以对比特流进行预处理，但是即使这样，代码转换器实时操作仍很重要。因此，不能容许对比特流有大幅度的处理延迟。例如，代码转换器从1组帧中提取信息，然后根据该先行信息对内容进行代码转换，这是不可行的。这对现场转播或电视会议是不行的。由于更适当地进行比特分配，所以可以在品质这一意义上得到更适当的代码转换结果，但是对于实时应用，这种实现是不实用的。

此外，值得注意的是代码转换的经典方法降低比特率的能力是有限的。换言之，在只变更输出视频的QP的情况下，能够将速率降低多少是有限度的。降低的限度依赖于所考虑的比特流。将QP变更为最大值通常会使比特流的内容大幅度恶化。降低空间品质的另一替代方案是降低时间品质，即丢弃(drop)或跳越帧。在此情况下，也会由于跳越太多帧而使品质大幅度恶化。在考虑两种降低的情况下，代码转换器要面临空间与时间品质的折衷。

此外，有时在编码器中也考虑该空间-时间折衷的概念。然而，不一定所有视频编码标准都支持帧跳越。例如，在MPEG-1及MPEG-2中，预先决定了画面组(Group of Picture(GOP))结构，即，帧内编码帧(Intra frame)周期及锚帧间的距离是固定的。其结果是，必须对所有图像进行编码。为了应付该时间制约，根据句法，可以跳越宏块。在跳越帧中所有宏块的情况下，实质上跳越了该帧。为了表示该跳越，对帧中的各宏块使用至少1比特。这对有些比特率是效率很低的。

根据H.263及MPEG-4标准，可以跳越帧。两个标准都支持可以指定基准的句法。然而，跳越帧主要是为了满足缓冲器制约而使用的。换言之，在缓冲器占有率过高而有溢出危险的情况下，编码器通过跳越帧来减少流入缓冲器的比特，使得缓冲器在适当的时间送出其当前比特。

通过巧妙使用该句法，能够在非紧急情况下进行空间-时间折衷，即，以低的空间品质对多的帧进行编码，或者以高的空间品质对少的帧进行编码。因内容的复杂度而异，哪种方法都有可能改善整体品质。在MPEG-4基于对象的编码器中控制该折衷的方法论述于1999年10月19日授予Sun等的美国专利第5,969,764号“Adaptivevideo coding method(自适应视频编码方法)”、和Vetro等的“MPEG-4rate control for multiple video objects(用于多个视频对象的MPEG-4速率控制)”，IEEE Trans.on Circuits and Systems forVideo Technology，February 1999。这里，导入2个操作模式、即高模式(HighMode)及低模式(LowMode)。根据由输出的时间分辨率所决定的当前操作模式，来调整分配比特的方法。

除了上述研究，控制该空间-时间折衷的方法只引起很小的注意。再者，在代码转换器中进行这种判断可用的信息与编码器中的信息非常不同。以下，说明用于在代码转换器中进行这种折衷的方法。

其结果是，为了适应可用比特率的降低，代码转换器必须寻找一些其他替代手段来发送比特率中包含的信息。

MPEG标准委员会进行的最近的标准化的努力是MPEG-7、正式称为“多媒体内容描述接口(Multimedia Content DescriptionInterface)”。请参照“MPEG-7 Context，Objectives and TechicalRoadmap(MPEG-7背景、目标和技术历程)”，ISO/IEC N2861，July1999。实质上，该标准企图包括可以用于描述各种类型多媒体内容的一组描述符及描述方式。描述符及描述方式与内容本身相关联，可以高速而且有效地搜索对特定用户来说重要的材料。值得注意的是，该标准不是试图取代以前的编码标准，而是基于其他标准表现、特别是MPEG-4表现，因为可以将多媒体内容分解为各种对象，而且可以为各对象分配独特的一组描述符。此外，该标准与存储内容的格式无关。

MPEG-7的主要应用预计是搜索及检索应用。请参照“MPEG-7Applications(MPEG-7应用)”，ISO/IEC N2861，July 1999。在简单的应用环境下，用户可以指定特定对象的一些属性。在该低级表现中，这些属性可以包含描述特定对象的纹理、运动及形状的描述符。表现并比较形状的方法论述于Lin等在1999年6月4日申请的美国专利申请第09/326,759号“Method for Ordering Image Space toRepresent Object Shapes(对图像空间进行排序以表现对象形状的方法)”，而描述运动活动性的方法论述于Divakaran等在1999年9月27日申请的美国专利申请第09/406,444号“ActivityDescriptor for Video Sequence(用于视频序列的活动性描述符)”。为了得到更高级的表现，可以考虑结合几个低级描述符的更巧妙的描述方式。事实上，这些描述方式甚至可以包含其他描述方式。请参照“MPEG-7 Multimedia Description Schemes WD(V1.0)”，ISO/IECN3113，December 1999及Lin等在1999年8月30日申请的美国专利申请第09/385,169号“Method for representing and comparingmultimedia content(用于表现和比较多媒体内容的方法)”。

通过MPEG-7标准提供的这些描述符及描述方式，可以访问代码转换器不能导出的视频内容特性。例如，这些特性可以表现被认为是代码转换器不能访问的先行信息。代码转换器能够访问这些特性的唯一理由是因为这些特性是在更早的阶段从内容中导出的，即，内容被预处理并与其关联的参数一起存储在数据库中。

信息本身可以是句法性的，也可以是语义性的。在此情况下，句法信息是指内容的物理及逻辑信号方面，而语义信息是指内容的概念意义。对于视频序列，句法要素可以指特定对象的颜色、形状及运动。而语义要素可以指视频序列中的事件的时间及地点或某个人的名字等不能从低级描述符中提取出的信息。

考虑到代码转换的现有方法的背景及MPEG-7标准的现状，需要规定利用来自两方面的信息的改进的代码转换***。

发明内容

对压缩视频进行代码转换的方法将压缩视频分割为层级，从该各个层级中提取特征。根据从层级中提取出的特征，选择代码转换器的多个变换模式中的一个。然后，根据选择出的变换模式对压缩视频进行代码转换。

附图的简单说明

图1是现有技术的代码转换器的方框图；

图2是现有技术的部分编码器/解码器的方框图；

图3是本发明的适应性比特流传递***的方框图；

图4是适应性代码转换器及代码转换器管理器的方框图；

图5是图4的代码转换器及管理器可以使用的代码转换函数的曲线图；

图6是基于对象的比特流缩放的方框图；

图7是搜索空间的曲线图；

图8是本发明的基于对象的代码转换器的细节的方框图；

图9是根据提示等级(キュ一レベル)进行的特征提取的方框图；

图10是三级视频内容分类器的方框图；

图11是描述符方式的方框图；

图12是根据图11(a)的描述符方式进行的代码转换的方框图；

图13是根据图11(b)的描述符方式进行的代码转换的方框图；

图14是生成内容提要及内容随内容提要的变化(バリエ一シヨン)的***的方框图；

图15是基于图14的内容提要及内容变化的代码转换函数的曲线图。

实施发明的最好形式概论

下面说明一种视频传递***，该视频传递***通过变换、即“缩放”压缩过的输入比特流，能够将其变为目标速率、即网络的可用比特率(ABR)的压缩过的输出比特流。此外，说明传递压缩过的输入比特流的变化的传递***。再者，说明基于比特流的低级特征及标识符方式的代码转换。本发明的目的是在使速率-品质(rate-quality(RQ))特性最大的同时执行代码转换。

通常，输出比特流的目标速率低于输入比特流的速率。换言之，由于通常网络资源或终端用户装置的接收机负载的制约，所以本发明的代码转换器的任务是进一步压缩比特流。下面说明用于各级视频的基于内容的代码转换技术，该各级包括节目级、镜头级、帧级及视频对象级、以及子区域级。

本发明的***能够克服现有代码转换器的缺点、即特别是实时应用中速率变换的限制。现有代码转换技术虽然能够充分降低速率，但是内容的品质通常严重恶化。用降低了比特率的比特流传输的信息常常完全丢失。以往，比特流“品质”是作为输入比特流和输出比特流之间的每个比特之差来测定的。

下面说明能够在维持比特流内容的品质的同时达到目标速率的代码转换技术。连续变换

现有基于帧的代码转换技术可以定义为连续变换。现有技术试图连续地维持空间与时间品质的最佳折衷，所以输出始终是最好表现输入序列的帧序列。如果为了符合对速率的制约而跳越特定帧，则不考虑跳越的帧内包含的信息。在跳越许多帧的情况下，接收的比特流对用户来说是无意义的，或者最好也不能令人满意。品质失真量度

现有连续变换代码转换器对空间及时间品质的折衷在速率-失真这个意义上进行最佳判断。在这种代码转换器中，失真通常为峰值信噪比(PSNR)等某个经典失真量度。必须强调，在这种变换中，失真不是比特流的内容被何等适当地传输的测度，而是原来的输入比特流和重构的输出比特流之间的比特与比特之差、即品质的测度。比特流的保真度

在对低比特率制约下的比特流序列进行代码转换的一个实施例中，用少数帧对比特流的内容进行提要。在此情况下，不使用将焦点集中在品质上的经典失真量度。而是采用称为“保真度(fidelity)”的新测度。保真度考虑内容的语义及句法。语义及句法不是指比特或像素，而是指例如词、声音、视频的幽默及活动的级别、视频对象等由比特表示的对人来说有意义的概念。

保真度可以用多种方法来定义。然而，在本说明书的定义中，保真度与现有的定量品质、例如每个比特之差无关。本发明的保真度测定1个帧或多个帧传输原始图像序列中包含的信息——即内容或传输的信息的更高级的意义、而不是原始数据——的程度。离散提要代码转换器

保真度是比现有失真量度更主观或重视语义的测度。然而，在本发明的***中，保真度是对测定非惯用的代码转换器的性能很有用的测度。本发明一实施例的代码转换器的输出是试图对整个比特序列进行提要的比较高品质帧的有限集，所以将这种类型的代码转换器称为“离散提要代码转换器”。

例如，在低比特率下，选择少数高品质帧来表现视频。在此情况下，保持比特流的语义“意义”。可以说，该离散提要代码转换器执行输入比特流的高级语义采样，而连续代码转换器只是在空间及时间域定量地对像素进行采样。这里，在严格限制比特率的状态下，为了保持比特流中编码过的内容的保真度，对“丰富的”帧进行采样。

由于选择性地对丰富的帧进行采样，所以有可能丢失比特流的一个方面、即运动。最好，只在连续变换代码转换器的速率-失真性能严重恶化、或者不能实现目标速率的情况下，再诉诸离散提要代码转换。在这些状况下，由于帧速率很低，以致于信息传递速率不稳定，使用户感到困惑，所以现有连续变换代码转换器丧失流畅的运动。

离散提要代码转换与现有连续变换代码转换相比，其主要优点在于，严格速率制约下的连续变换代码转换器会丢弃信息丰富的帧，而离散提要代码转换器试图选择信息丰富的帧。

为了控制哪个代码转换器对规定的状况是最佳的，说明内容-网络-装置(CND)管理器。CND管理器的目的是选择使用哪个代码转换器。选择基于根据内容、网络、用户装置特性而取得的数据。此外，为了生成以后的传递所用的比特流的变化，也可以在“离线(off-line)”模式下模拟这些装置特性。适应性比特流传递***

如图3所示，适应性比特流传递***300包含4个主要构成要素，即内容分类器310、模型预测器320、内容-网络-装置管理器330及可切换代码转换器340。

***300的目的是将包含信息内容的压缩比特流301通过网络350传递给用户装置360。比特流的内容可以是视频、音频、文本、自然、合成、原语、数据、符合或它们的组合。网络可以是无线、分组交换、或具有不能预测的操作特性的其他网络。用户装置可以是视频接收机、固定型或移动型无线接收机、或有有可能使比特流的高品质接收困难的有内部资源制约的其他同样的用户装置。

作为优点，本***即使在为了满足网络及用户装置特性而需要进一步压缩比特流的情况下，也能维持内容的语义保真度。

输入压缩比特流被传至代码转换器及内容分类器。代码转换器最终能够降低经网络传至用户装置的输出压缩比特流309的速率。

内容分类器310为管理器从输入比特流中提取内容信息(CI)302。内容分类器的主要功能是将运动活动性、视频变化信息及纹理等内容特性的语义特征映射(相关联)为内容-网络管理器进行速率-品质折衷所用的一组参数。为了支持该映射功能，内容分类器也可以接受元数据信息303。元数据可以是低级及高级的。元数据的例子包含新的MPEG-7标准指定的描述符及描述方式。

在该体系结构中，模型预测器320提供与网络350的动态特性及用户装置360可能有的制约特性有关的实时反馈321。例如，预测器报告网络拥塞及可用比特率(ABR)。此外，预测器接收并变换对网络内的分组丢失率的反馈。预测器估计当前网络状态和长期网络预测321。典型地，用户装置的资源有可能受限制。例如，处理功率、存储器及显示器制约。例如，在用户装置是便携电话的情况下，显示器有可能被制约为文本信息或低分辨率图像，或者更坏的是只有音频。此外，这些特性有可能影响代码转换模态。

除了接收元数据303外，管理器330还从内容分类器310及模型预测器320两者接收输入。CND将来自这2个信息源的输出数据结合在一起，以便决定对可切换代码转换器340最佳的代码转换策略。内容分类器

在模式(バタ一ン)分析及识别领域，分类可以通过从各级视频中提取特征来实现。例如，节目特征、镜头特征、帧特征及帧内的子区域的特征。特征本身可以用高性能的变换或简单的局部算子来提取。不管特征如何提取，如果给出N维特征空间，则各模式可以表现为该特征空间的点。

习惯上，提供各种不同的训练模式作为该提取处理的输入，并且在特征空间绘制结果。如果特征集及训练模式适当，则将观测到称为“类”的点的一些群集(クラスタ)。通过这些类，可以识别不同模式，对同样的模式进行分组，可以决定观测到的类间的边界。通常，类间的边界与分类错误的代价密切相关，试图使整体错误最小。

识别出适当的类、划定类间的适当边界后，可以在比特流中对新的模式迅速进行分类。因问题而异，这可以用神经网络或支持矢量机(Support Vector Machine)等其他公知分类技术来实现。请参照Cristianini等的“An Introduction to Support Vector Machine，(and other kernel-based learning methods)(支持矢量机(及其他基于内核的学习方法)入门)”，Cambridge University Press，2000。

内容分类器310以3个阶段(I、II、III 311～313)来操作。第1，对比特率内容进行分类，以便能够推导高级语义，第2，使分类出的内容适应网络及用户装置特性。

在第1阶段(I)311中，用现有技术从压缩过的比特流中提取多个低级特征，例如运动活动性、纹理或DCT系数等。此外，也可以访问MPEG-7描述符及描述方式等元数据303。在可得到元数据的情况下，需要对压缩过的比特流执行的作业少。作为该第1阶段的最终结果，预定的内容特征集被映射为语义类或高级元数据的有限集。进而，在各语义类内根据编码的复杂度来进行识别。即，复杂度取决于语义类及网络特性、和可能有的装置特性。

该内容的高级理解作为内容信息(CI)302被交给CND管理器330。CI 302部分地表征可切换代码转换器的本实施例的潜在的性能。

上述分类在内容的理解及最终离散提要代码转换这一意义上是有用的，而作为中间阶段的结果也是有用的。实质上，有新的类的集合起到作为分类的第2阶段II 312的输入的作用。在分类的第2阶段中，将本发明的语义类映射为网络及装置特性的特征。这些特征在开发代码转换策略时有助于决定支持***的速率-品质函数的特性。换言之，在可以估计由于对象的移动或视频的变化而使某个语义类由突发数据来表征的情况下，在估计网络应提供多少资源的情况下，应该说明这一点。第3阶段313将结合其他实施例在后面进行说明。内容-网络-装置管理器

图4更详细地示出内容-网络-装置(CND)管理器330及代码转换器340。CND管理器包含离散-连续控制器431和内容-网络-装置(CND)统合器(インテグレ一タ)432。代码转换器340包含多个代码转换器441～443。

控制器431使用开关450，其责任是决定输入压缩比特流301应如何例如由离散提要代码转换器441、连续变换代码转换器442、或其他代码转换器443进行代码转换。此外，网络内容管理器动态适应代码转换器的目标速率，考虑网络及用户装置的资源制约特性。这2个非常重要的项目由控制器431来决定。

为了更好地理解控制器如何进行最佳的选择决定，图5用曲线图示出与速率501及品质502刻度关联的速率-品质函数。连续变换代码转换器442的一个速率-品质函数由凸函数503来表示。离散提要代码转换器441的速率-品质曲线由线性函数504来表示。其他代码转换器有可能具有不同的函数。

应该注意，这些曲线是为了例示的目的而绘制的。特定代码转换器的函数的真正形态有可能根据内容、内容如何被分类、及可能根据网络及装置制约特性的当前状态来变化。显然，在低比特率下，连续变换代码转换器因上述理由而使品质急速恶化。最佳品质函数505由粗线表示。该函数将对规定比特率及用户装置能够实现的最佳品质最好地模型化了。

在代码转换技术中，在速率＝T 506处有交叉点。大于T的速率对使用连续变换代码转换器是最佳的，而小于T的速率对使用离散提要代码转换器是最佳的。当然，交叉点随着内容及网络特性的变化而动态变化。

如上所述，连续变换代码转换器通常采用PSNR等经典失真量度。这种量度不适用于本发明的离散提要代码转换器，所以将经典失真量度映射为“保真度”更有意义。保真度不是定量的每个比特之差，而是测定内容被何等适当地提要为语义。如果给出相同的品质量度，则在决定最佳代码转换策略时可防止发生任何矛盾。内容-网络-装置统合器

再次参照图4，CND统合器432是将来自内容分类器310的内容信息302和来自模型预测器的网络-装置预测321结合在一起的CND管理器的一部分。管理器的该部分生成表现为图5所示的速率-品质函数或者作为其他同样的最优化函数的模型。为了形成最佳操作模型321，CND统合器检查来自内容分类器的映射CI和从可切换代码转换器340输出的比特率反馈351。统合器用该信息来选择具有几个模型参数的最佳建模函数505。为了动态地使参数更精密，使用速率反馈351。在知道选择出的模型不是最佳的情况下，统合器可以决定动态切换速率-品质函数。此外，统合器可以对不同对象或不同比特流跟踪几个函数，分别或一起考虑这些函数。网络预测的影响

网络预测321可以通过用某种方法调整最佳曲线505的某些部分来影响这些特性函数。例如，在可用更高比特率的情况下，最需要注意。网络模型使得可以在特定时刻消耗许多比特，但是由长期的结果可知，有可能急速造成拥塞，因此本***可以选择进行抑制，以更低速率继续进行操作。这样，可防止发生与可用比特率急剧降低关联的问题。这些类型的特性可以通过调整本发明的代码转换器的曲线来考虑。装置制约的影响

此外，也需要考虑装置特性。移动型装置具有与固定型装置不同的操作特性，例如有可能由于多普勒扩展而在高可用比特率下使性能恶化。因此，必须选择低比特率。装置的处理、存储及显示能力有可能受限制，这有可能影响代码转换器。例如，将视频传递给只有音频的装置也没有意义。事实上，可切换代码转换器可以包含将语音变换为文本、或者将数据变换为语音等的另一代码转换器443。重要的是，本可切换代码转换器考虑比特流内容的语义及目的装置，而大多数现有技术的代码转换器只考虑可用比特率。基于帧的代码转换器

进行基于帧的代码转换的多种代码转换器的细节在现有技术中是公知的。例如，请参照以下等美国专利申请，即第5,991,716号“Transcoder with prevention of tandem coding of speech(防止语音级联编码的代码转换器)”、第5,940,130号“Videotranscoder with by-pass transfer of extracted motioncompensation data(旁路传送提取出的运动补偿数据的视频代码转换器)”、第5,768,278号“N：1 Transcoder(N：1代码转换器)”、第5,764,298号“Digital data transcoder with relaxed internaldecoder/coder interface frame jitter requirements(放宽内部解码器/编码器接口帧抖动要求的数字数据代码转换器)”、第5,526,397号“Switching transcoder(切换代码转换器)”、第5,334,977号“ADPCM transcoder wherein different bit numbers are usedin code conversion(在代码转换中使用不同比特数的ADPCM代码转换器)”等专利中的任一个。它们都没有说明本发明的根据比特流的语义内容及网络特性来选择特定代码转换策略的技术。以下，说明可以选择的基于对象的比特流代码转换器。

本实施例的重要性是，能够动态选择最佳传递比特流的语义内容的代码转换策略，而不是如何执行实际的代码转换。

以上，说明了包含连续变换代码转换器及离散提要代码转换器的可切换代码转换器能够进行的各种类型的折衷。在这些代码转换器中分别估计最佳速率-品质曲线。基于对象的代码转换

这里，详细说明如何导出连续变换代码转换器的速率-品质曲线、及如何决定QP及帧跳越量等适当的编码参数。此外，将该作业也扩展到MPEG-4环境下。下面说明根据可用比特率及各视频对象的复杂度对视频或景物中的对象自适应地进行代码转换或缩放的框架。

本发明的方式在可根据输入速率与输出速率之比来采用各种技术以降低速率这一点上是自适应的。本发明的目的是提供对复杂度不同的对象最佳的整体品质，所以各对象的恶化不必相同。如上所述，在本说明书中，基于对象、而不是帧。

本***的新颖性是，能够对复杂度及尺寸不同的多个对象进行代码转换，但是更重要的是，本***能够进行空间-时间折衷，以便使视频的整体品质最优化。由于其更大的灵活性，所以将焦点集中在基于对象的比特流上。此外，说明为了操纵特定对象的品质而可用的各种手段。

应注意的要点是，对象本身无需以均一的品质进行代码转换。例如，某个对象的纹理数据可以减少，而原封不动地维持其形状信息，但是其他对象的形状信息可以减少，而原封不动地维持其纹理信息。此外，也可以考虑包含帧丢弃的其他多种组合。例如，在新闻剪辑中，可以原封不动地维持前景的与新闻广播员有关的信息，而对背景降低纹理及形状比特以及帧速率。基于对象的代码转换的比特流品质

如上所述，现有的基于帧的代码转换器能够充分降低比特率。然而，内容的品质有可能严重恶化，用降低了比特率的比特流传输的信息有可能完全丢失。习惯上，比特流“品质”是作为输入比特流和输出比特流之间的每个比特之差来测定的。

然而，在本发明的基于对象的代码转换中，没有操纵整个视频的制约。对分解为有意义的视频对象的比特流进行代码转换。可以理解，各对象的品质以及各对象的传递对品质有不同的整体影响。本发明的基于对象的方式具有该更精密的访问级别，能够降低一个对象的空间-时间品质的级别，而不会对整个流的品质影响很大。这是与现有的基于帧的代码转换器使用的策略完全不同的策略。

和现有的与内容无关地测定整个视频的每个比特之差的比特流品质形成对照，导入“感知视频品质(perceptual video quality)”的概念。感知视频品质与传输期望的信息的视频中的对象的品质相关联。例如，视频的背景可以完全丢失，而不会影响更重要的前景对象的感知视频品质。基于对象的代码转换框架

图6示出本发明的另一实施例的基于对象的代码转换器600的高级方框图。代码转换器600包含分用器601、复用器602及输出缓冲器603。此外，代码转换器600包含1个或多个基于对象的代码转换器800，该基于对象的代码转换器800由代码转换控制单元(TCU)610根据控制信息604来操作。单元610包含形状、纹理、时间及空间分析器611～614。

在输入到代码转换器600中的输入压缩比特流605中，包含1个或多个基于对象的基本比特流。基于对象的比特流可以是串行的，也可以是并行的。比特流605的合计比特率是R_in。来自代码转换器600的输出压缩比特流606具有R_out＜R_in的合计比特率R_out。

复用器601向各个基于对象的代码转换器800提供1个或多个基本比特流，基于对象的代码转换器800向TCU 610提供对象数据607。代码转换器800缩放基本比特流。缩放过的比特流在被交给输出缓冲器603前由复用器602综合，从输出缓冲器603发送到接收机。此外，缓冲器606向TCU提供速率反馈信息608。

如上所述，交给各个代码转换器800的控制信息604由TCU提供。如图6所示，TCU的责任是分析时间及空间分辨率以及纹理及形状数据。通过所有这些新的自由度，基于对象的代码转换框架对网络应用是非常独特的，而且是理想的。与MPEG-2及H.263编码标准同样，MPEG-4使用运动补偿及DCT来利用视频的空间-时间冗余性。其结果是，本发明的基于对象的代码转换器800的中心是上述MPEG-2代码转换器的改进。主要的差别是，这里，形状信息被包含在比特流内，而对于纹理编码，则提供工具来预测帧内编码块(Intra blocks)的DC及AC。

此外，值得注意的是，纹理的代码转换实际上依赖于形状数据。换言之，形状数据不能简单地进行句法分析(parse)来去除并忽略。即，符合句法的(compliant)比特流的句法取决于解码过的形状数据。

显然，本发明的基于对象的输入及输出比特流601，602与现有的基于帧的视频节目完全不同。此外，MPEG-2不能动态跳越帧。因此，通常GOP结构及基准帧是固定的。纹理模型

编码器中使用纹理模型来进行速率控制，这在现有技术中论述得很多。例如，请参照Vetro等的“MPEG-4 rate control for multiplevideo objects(用于多个视频对象的MPEG-4速率控制)”，IEEETrans.on Circuits and Systems for Video Technology，February1999及其参考文献。

在基于对象的代码转换器800使用的纹理模型中，变量R表示视频为对象(VO)花费的纹理比特，变量Q表示量化参数QP，变量(X₁，X₂)是1阶及2阶模型参数，变量S表示差分绝对值之和等编码复杂度。R和Q的关系由下式给出。

R = S \cdot (\frac{X_{1}}{Q} + \frac{X_{2}}{Q^{2}})

如果给出分配给VO的目标比特量和S的当前值，则Q的值取决于(X₁，X₂)的当前值。VO被编码后，知道花费的比特的实际数，可以更新模型参数。这可以使用先前n帧的结果通过线性回归来进行。纹理分析

在已经给出Q、即原始QP的集合和比特的实际数这一点上，代码转换问题不同。此外，不是从空间域来计算编码复杂度S，而必须定义新的基于DCT的复杂度测度该测度如下定义。

\tilde{S} = \frac{1}{M_{C}} \underset{m &Element; M}{Σ} Σ_{i = 1}^{63} ρ (i) \cdot {| B_{m} (i) |}^{2}

这里，B_m(i)是块的AC系数，m是编码块的集合M中的宏块下标，M_c是该集合中的块数，ρ(i)是依赖于频率的加权。复杂度测度表示AC系数的能量，其中高频分量的贡献由加权函数降低。该加权函数可以选择得模仿MPEG量化矩阵的加权函数。

可以根据用比特流发送的数据和来自过去的视频对象的数据来决定模型参数，可以持续进行更新。实际上，可以对每个代码转换过的VOP将模型更新2次，即，在使用比特流数据进行代码转换前将模型更新1次，然后在用QP的新集合Q’对纹理进行编码后再次更新模型。这样，由于数据点数增大，所以模型参数更稳健，收敛更快。

本发明的纹理分析的主要目的是一边使失真最小，一边选择满足速率制约的Q’。然而，值得注意的是，最佳度由Q决定。因此，必须注意失真如何被量化。以下，由于依赖于Q，所以将该失真称为条件失真。

决定Q’的一个方法是利用与速率控制问题中使用的方法论相同的方法论。在该方法中，首先在特定时刻估计所有VOP的预算，考虑缓冲器当前的水平来调整目标，使该比特的合计分布到各对象中。如果给出这些基于对象的目标比特率，则可以根据本发明的纹理模型来决定QP的新集合。该方法的主要问题是，指望比特的分布是稳健的。通常，由于新的QP是与原来的QP无关来计算的，所以分布不稳健，丧失了控制本发明的条件失真的能力。条件失真

为了克服该问题，以及为了试图用依赖于Q的某种方法来解Q’，说明基于动态规划的方法。为了维持与原来的品质尽可能近的品质，各对象的QP的变化必须尽可能少。有鉴于此，条件失真可以如下定义。

D ({\underset{&OverBar;}{Q}}^{'} | \underset{&OverBar;}{Q}) = \underset{k &Element; K}{Σ} α_{k} [D (Q_{k}^{'}) - D (Q_{k})]

这里，k表示VOP的集合K中的VOP下标，α_k表示对象k的视觉意义或优先级。D(Q)虽然未明确指定，但是可知与Q成正比。视觉意义可以是对象的相对尺寸及复杂度的函数。QP搜索空间

值得注意，对于所有k＞，Q’_k≥Q_k。因此，解空间被限制在图7所示的有效空间内。在图7中，x轴表示视频对象，701及y轴表示QP。此外，该图示出有效搜索空间710、受制约的搜索空间711、有效路径712及无效路径713。

如果给出对条件失真的上述量化，则通过图7的格子搜索最佳路径来解决本问题。在图7中，有效QP是格子的节点，各节点与估计出的速率及条件失真相关联。问题可以用公式如下表示。

min D(Q’|Q)这里R_TOTAL≤R_BUDGET

通过将受制约的问题转变为不受制约的问题而解决了该问题。这里，速率及失真经拉格朗日乘数λ被合并。对于所有λ≥0，始终可以找到最佳解。为了决定满足对速率的制约的λ值，可以使用公知的二分搜索算法。请参照Ramchandran及Vetterli的“Best waveletpacket bases in the rate-distortion sense(速率-失真意义上的最佳小波包基)”，IEEE Trans.Image Processing，April 1993。

值得强调的是，考虑的搜索空间比在MPEG-2代码转换算法中看到的小得多。在那里，试图对所有宏块找到量化的最佳集合。这里，形成对照，只搜索基于对象的量化器。因此，本发明的方法是非常实用的。时间分析

通常，跳越帧的目的是降低缓冲器占有水平，以便防止缓冲器溢出及最终防止分组的丢失。跳越帧的另一理由是可以进行空间品质和时间品质的折衷。在该方法中，编码的帧变少，但是它们被更高品质地编码。因此，在缓冲器没有溢出危险的情况下，用于跳越帧的判断被包括在QP选择处理中。

根据搜索有效解空间来寻找QP’的集合的、用于选择QP而提出的技术来构造，通过制约解空间来实现该空间-时间折衷。如图7所示，有效路径落在Q的所有元素制约的区域中。如果这些元素之一落在该区域外，则由于路径不能维持空间品质的某个指定的水平而无效。空间品质由条件失真来隐含。

为了决定特定对象的最大QP，可以使用不同基准。例如，最大值可以是对象复杂度的函数或只是输入QP的百分数。在最大值基于复杂度的情况下，由于它们对空间品质的影响最严重，所以代码转换器实质上将具有高复杂度的那些对象限制为更小的QP。另一方面，限制基于输入QP的复杂度意味着代码转换器维持与最初编码过的比特流同样的QP分布。两种方法都是有效的。对各对象决定限制QP的最佳方法所用的折衷有可能取决于空间品质和时间品质的折衷。

当然，处理基于对象的数据的优点之一是某个对象的空间品质与其他对象不同。在该方法中，例如通过跳越静止的墙等背景对象，可以节约比特。然而，对象常常是分散的，所以通过降低某个对象的时间分辨率，有可能在构成的视频中造成空穴。通过施加所有VOP具有相同的时间分辨率这一制约，可以减少该问题。形状分析

为了说明对视频对象的形状数据进行代码转换时的问题，回忆纹理信息如何被代码转换。纹理的速率可以通过数据的部分解码来降低，这是公知的。在大多数情况下，在该部分解码中，至少需要执行可变长解码(VLD)操作。逆量化及逆DCT可以省略。

然而，对形状数据则不然。在MPEG-4中，形状数据通过所谓的基于上下文的算术编码以各块为单位来编码。请参照Brady的“MPEG-4 standardization methods for the compression ofarbitrarily shaped objects(任意形状对象的MPEG-4标准化压缩方法)”，IEEE Trans Circuits and Systems for Video Technology，December 1999。用该算法，按照选择出的模式，根据9比特或10比特的因果(causal)模板，计算各像素的上下文。该上下文被用来访问概率查找表，以便块内的概率序列驱动算术编码器。

与纹理形成对照，在像素区域和比特流之间没有中间表现，形状的部分解码是不可能的。因此，为了操纵形状数据的分辨率，数据必须被完全解码。解码后，可以使用Vetro等在1999年10月1日申请的美国专利申请第09/410,552号“Estimating Rate-DistortionCharacteristics of Binary Shape Data(估计二进制形状数据的速率-失真特性)”中论述的模型来评价形状的速率-失真特性。空间分析

降低速率的另一手段是通过二次采样(サブサンプリンダ)来降低分辨率。在MPEG-4标准的版本2中，采用称为动态分辨率变换(DRC)的工具。可以用该工具来一边维持其他更重要的或者空间上活动的对象的分辨率，一边降低某个对象的分辨率、即空间品质。体系结构

图8示出本发明的基于对象的代码转换器800的构成要素。与现有技术的代码转换体系结构同样，编码标准的句法大致描述代码转换器800的体系结构。这里，参照MPEG-4标准来说明本发明的代码转换器的主要特征，将这些特征与现有的基于帧的代码转换进行对比。

代码转换器800包含VOL/VOP句法分析器810、形状缩放器820、MB首标句法分析器830、运动句法分析器840及纹理缩放器850。此外，代码转换器包含总线860，该总线860将基本比特流801的所有部分传送到比特流存储器870。从该全局存储器，基本比特流构成单元880可以形成符合MPEG-4标准的速率降低了的压缩比特流。输出基本比特流809被提供给图6的复用器。

在MPEG-4中，各对象的基本比特流与其他比特流无关。其结果是，各对象与视频对象层(VOL)及视频对象平面(VOP)首标相关联。VOP首标包含用于对对象进行编码而使用的量化参数(QP)。各对象的QP在以后被用于纹理信息的建模及分析。其他所有比特被存储在比特流存储器870中，直至构成图6的输出比特流606的时间。

与其他标准的最大差别是，MPEG-4可以对对象的形状进行编码。从VOP层可知VOP包含形状信息(二进制)、还是不包含(矩形)812。在是矩形VOP的情况下，对象只是矩形框，无需分析形状比特。在二进制形状的情况下，需要决定宏块是否透明813。透明的块位于对象的边界框内，但是处于对象边界的外侧，所以没有与其关联的运动或纹理信息。

形状缩放器820由3个下级构成要素、即形状解码器/句法分析器821、形状降低采样器(ダウンサンプラ)822及形状编码器823构成。在比特流的形状信息未被缩放的情况下，形状解码器/句法分析器只是形状句法分析器。这由代码转换器控制单元610的R-D形状分析611接收到的控制信息604来表示。此外，在此情况下，禁止形状降低采样器822及形状编码器823。在形状信息被缩放时，形状解码器/句法分析器821必须首先对形状信息进行解码，变为其像素域表现。为了降低形状的速率，块可以用形状降低采样器822以系数2或4进行降低采样(ダウンサンプル)，然后用形状编码器823进行重新编码。变换的比例由R-D形状分析611决定。不管形状比特只是被句法分析还是缩放，形状缩放器820的输出都经比特流总线860传送到比特流存储器870。

除了形状比特，MPEG-4句法的其余部分除了一些例外，与MPEG-2的句法大体类似。在宏块(MB)层中，存在包含编码块图案(CBP)的比特。CBP被用来向解码器通知宏块的哪个块至少包含1个AC系数。CBP不仅影响比特流的结构，而且影响帧内(Intra)AC/DC预测。代码转换器必须关心该参数的理由是因为，CBP随着DCT块的重新量化而变化。由于该理由，在块被重新量化后重新计算CBP，即，纹理缩放器的CBP重新计算单元856实现该功能。单元856通过经比特流总线860将可变长码(VLC)855发送到比特流存储器870，来置换输入比特流中存在的首标。

为了提取适当的解码参数而对基本比特流进行句法分析后，接着对纹理块进行部分解码851。该处理的结果是DCT块系数。在可以进行空间(重定尺寸)分析的情况下，对象可以以系数2或4来进行降低采样。对块进行降低采样的能力由代码转换控制单元610来表示，降低采样系数由空间分析614来表示。再者，为了避免IDCT/DCT操作，该降低采样在DCT域中执行。请参照1998年11月10日授予Bao等的美国专利第5,855,151号“Method and apparatus for down-converting a digital signal(用于对数字信号进行降频的方法和装置)”。然后，DCT块被暂时存储到系数存储器853中。从该存储器将块发送到量化器854，量化器854根据从R-D纹理分析612发送的QP对块进行量化。它使用本发明所述的技术以满足新的目标速率。

为了跳越对象，空间分析613向比特流构成单元880指示应该构成并送出哪些比特、及丢弃哪些比特。用该方法，可能写入到该存储器中的部分比特流只是由下一个视频对象的数据覆盖。实现及处理

对于特定的实施形态，应该注意，代码转换器800的体系结构示出用于1个对象的构成要素。在极端的情况下，如图6所示，可以用多个代码转换器对多个对象进行缩放。在考虑多线程执行的软件实现中，这可能是最有效的方法。软件实现中的挑战是对考虑的各对象分配适当量的CPU处理。

然而，对于硬件实现，情况大不相同。硬件设计者通常喜欢用1块逻辑来处理特定的功能。例如，硬件设计包含以某个速度操作的1个运动句法分析器，使得能够在规定的时刻对多个对象进行句法分析，而不是对能够接收的最多M个对象实现M个运动句法分析器。当然，在对象数超过句法分析器的吞吐量的情况下，也可以使用并行句法分析器。要点是可以使要求的句法分析器数少于接收的总对象，计算被分布在并行句法分析器间。该概念适用于代码转换器800的所有子模块。分层提示级

这里，说明根据从视频的各级提取出的特征来进行代码转换的***。通常，如图9所示，视频可以分割为由粗至精(course-to-fine)层次900。视频节目或会话(セツシヨン)910被看作层次900的最高级。该级可以表示来自广播通信网络的30分新闻节目或一整天的节目播出。节目910包含镜头Shot-1、…、Shot-n 911～919的序列。

下一级920被分割为镜头。“镜头”可以是帧组(GOF)、或视频对象平面组(GOV)921～929。该级表示从摄像机打开开始、持续到摄像机关闭的视频的更小段。为了避免任何混乱，将该级只称为镜头级920。

镜头由最基本的单位构成，即在GOF的情况下由帧930构成，而在GOV的情况下则由视频对象平面(VOP)931构成。此外，在其下也可以考虑其他级，这是帧或VOP的子区域941～942。

在视频节目层级900的各级中，对各个级的视频数据应用特征提取处理901～904。当然，各级的数据是以不同方法来配置的，适当的特征因级而异，所以对各级应用不同的特征提取技术。即，节目级的特征用与帧的特征不同的方法来提取。

在本发明的代码转换器的情况下，这些特征表示可以应用于代码转换***的“暗示(ヒント)”或“提示(キュ一)”905～908。这些暗示可以是语义性的，也可以是句法性的，可以表现高级或低级元数据中的任一个。

必须理解，对任何规定级中的代码转换都可以应用元数据。通常，镜头级等更高级的数据的元数据在考虑该特定镜头及其他镜头间的分类、比特分配及速率-品质时被使用。在此情况下，元数据对代码转换器的用处是有限的，但是对决定全部输出内容间的代码转换策略的图3的CND管理器330非常有用。与此相对，对象级等低级数据的元数据对代码转换器340本身支持动态比特分配可能更有用，因为在这样低的级中难以对输出内容进行分类、管理。

以下，说明低级特征如何能够被聚类(分类)、映射为与速率-品质折衷关联的有意义的参数。在说明这些聚类方法时，主要将焦点集中在内容的高级分类上，但是也可以包含低级分类。接着，说明混合离散提要及连续变换代码转换器。再主要将焦点集中在CND管理器使用高级(镜头级)元数据上，来说明本技术。然而，在离散提要代码转换器中也可以考虑这种元数据。最后，说明如何用元数据来管理代码转换。如上所述，这可以同样应用于管理阶段及代码转换阶段。内容分类器：阶段III

如对图3所述，内容分类器310的主要功能是，将活动性、视频改变信息及纹理等内容特性的特征映射为进行速率-品质折衷所用的一组参数。为了支持该映射功能，内容分类器还接受元数据信息303。在元数据的例子中，包含新的MPEG-7标准指定的描述符及描述方式(DS)。

在内容分类器310的阶段III 313中，这种低级元数据被映射为只依赖于内容的速率-品质特性。这被示于图10。速率-品质特性进而影响图5所示的速率-品质函数。

内容分类器310接收低级元数据303。阶段I 311提取高级元数据或类1001。阶段II 312使用预测321来决定依赖于内容、网络及装置的速率-品质(R-Q)特性。阶段III 313提取只依赖于低级元数据的R-Q特性1003。

作为例子，说明MPEG-7中的运动活动性描述符的空间分布参数如何使得能够将节目的视频段分类为同样的运动活动性及空间分布的范畴。

考虑新闻节目。新闻节目包含主持人及与整个新闻有关的各种其他镜头。

图11(a)～(b)、图12及图13所示的例子考虑新闻节目1200，包含3个镜头1201～1203，即主持人镜头、现场记者镜头及警察追踪镜头。为了简化例子，将全部新闻节目镜头只分类为3个范畴，但是应该理解，在实际应用的情况下，范畴数及种类不同。

第1类1101表示内容的时间品质没有空间品质重要的镜头。第2类1102表示内容的空间品质更重要的镜头，第3类1103表示镜头的空间及时间品质同等重要的镜头。

该类的集合被称为SET-1(集合1)1110。这种类显然是速率及品质的特性。内容分类器的阶段III 313的目的是处理低级特征，将这些低级特征映射为这些类中的最适当的类。应该注意，空间及时间品质的重要性也可以以1～10的刻度或实数间隔0.0～1.0来评价。

为了进一步说明这些速率-品质类，考虑图11(b)所示的3个明确的类的另一集合。第1类1121表示镜头压缩非常简单，即对规定的失真容易实现大的压缩率。第3类1123表示完全相反，即，由于大的/复杂的运动或空间活动的景物，镜头内容压缩非常困难。第2类1122位于第1类和第3类之间的某处。该类的集合被称为SET-2(集合2)1120。与类的另一集合1110同样，这些类1120也表示内容分类对CND管理器330进行的速率-品质判断、和可切换代码转换器如何操作可能造成的影响。如上所述，压缩难度可以由数值刻度来分类。应该理解，对其他类型的视频节目可以定义其他类的集合。

以上，说明了速率-品质类的2个例子，即SET-1及SET-2。内容根据从低级元数据303中提取出的特征被分为这些类。以下，说明如何能够根据运动活动性来导出这些类。

对于大多数新闻节目，通过分析所有主持人镜头，可望生成隐含比较低运动的、同样的运动活动性参数。如果给出该数据、并采用SET-1 1110，则可以将这种内容分类为第2类1102(空间品质的重要性＞时间品质的重要性)。进而，所有警察追踪及同样的镜头可望被分类为第1类1101(时间品质的重要性＞空间品质的重要性)。最后，根据现场记者的背景活动性，这种类型的镜头也可以分类为3个可用的类中的某一个。为了说明例子，该镜头被分类为第3类。

图12示出基于SET-1分类的代码转换策略。主持人镜头1201用离散提要代码转换器进行代码转换。请参照图4的模块441。该代码转换器将整个镜头1201减少到1个帧1211、即主持人的静止图像。在镜头的持续时间内，提供说话的主持人的全部音频部分。

为了使背景的运动对观众不失去意义，现场记者镜头1202以5帧/秒1211被连续变换，带有全部音频。

此外，警察追踪镜头1203以30帧/秒1231被连续变换。

不管在哪种情况下，不管内容分类器能够访问描述内容的元数据、还是从内容本身直接导出数据，该信息的有用性都可以根据CND管理器最终必须进行的速率-品质折衷来直接理解。

与上述例子形成对照，在采用相同的节目1200和SET-2 1120分类的情况下，如图13所示，分类结果有可能被不同地解释。通过使用SET-2，由于主持人镜头1201没有运动，段可以非常容易地压缩，因此，它被分类为SET-2的第1类1121。该镜头以30帧/秒1241用高压缩率被连续变换1240。然而，警察追踪镜头1203包含高运动，压缩更困难。因此，它被分类为SET-2的第3类1123。它以7.5帧/秒1261被连续变换。又一次，根据包含现场记者的镜头1202的特性，它可以被归入3个类中的某一个。为了说明例子，它被分配到第2类，以15帧/秒1251被连续变换。

应该注意，暗示可以生成固定或可变比特率流(CBR或VBR)。例如，在分类基于压缩难度的情况下(SET-2)，在对难以压缩的帧序列施加低比特率的情况下，可以生成CBR比特流，而在分配更多比特的情况下，可以生成VBR比特流。

在以下的段落中，说明为了生成代码转换策略，可以如何使用这些不同的分类。混合连续变换及离散提要代码转换

应该强调，各类意味着的速率-品质映射可以根据特定应用而作很大变更。在上述例子中，空间及时间品质有可能受压缩视频的难度、或分配给空间及时间品质的优先级影响。两种分类都是从低级特征导出的。

对于CND管理器330，这些分类启示了可以操纵内容的方法。实际上，分类可以大幅度减少考虑的方案数。例如，在CND管理器在规定的时刻必须对多个比特流(帧或对象)考虑速率-品质折衷的情况下，CND管理器可以考虑将代码转换的责任分布在连续变换和离散提要代码转换之间的最佳方法。此外，也可以不是对考虑的所有段选择1种方法，而是考虑混合方式。节目的优先级、或基于其低级特征的压缩难度是进行这种判断可以使用的有用的参数的例子。

图12及图13示出SET-1 1110及SET-2 1120的分类如何影响CND管理器决定的策略及代码转换器操纵原始数据的方法。图12中特别重要的是采用混合代码转换方式。

返回到新闻节目1200的例子，如果考虑SET-1分类，则可以对主持人镜头分配比警察追踪更低的优先级。在处理基于对象的视频的情况下，代码转换的另一方法是对镜头1201的背景分配比前景的主持人更低的优先级。这都可以例如通过对象级运动活动性参数的分类来实现。

这里，用运动活动性来表示这些概念。然而，应该理解，也可以使用形状参数、纹理信息等其他低级特征或MPEG-7描述符。低级特征不管是分别考虑、还是组合考虑，都可以用来将视频内容有效地聚类及分类为支持CND管理器及代码转换器的有意义的参数。

CND分类器310及CND管理器330看起来与图6的TCU 610矛盾，但是事实上不是这样的。分类器及CND管理器试图对代码转换器340预先选择最佳的策略。如果管理器给出该策略及指令，则代码转换器有责任用可能的最佳方法来操纵内容。其结果是，由于错误的预测或CND管理器的选择，代码转换器有时不能满足要求，还需要空间分析等应付这种状况的机制。因此，在TCU中，还可以使用元数据。然而，元数据对TCU的目的与对分类器及CND管理器的目的不同。元数据对代码转换的影响

元数据可以影响代码转换的方法有2种。两者都与上述比特分配问题直接关联。第1方法是在CND管理器330中，其中使用比特分配来导出策略并最终导出对如何使用离散提要及连续变换代码转换器441～442提供的功能的判断。用这种方法，为了进行判断，使用图5的速率-品质函数。第2方法是在代码转换器340本身中。为了进行估计，还是使用元数据，但是不是为了进行策略的判断，而是为了对满足比特率目的可以使用的编码参数进行实时判断，而使用元数据。用这种方法，选择编码参数，以便代码转换器实现图5的最佳的速率-品质函数。

通常，低级及高级元数据提供用于执行离散提要及连续变换代码转换的暗示。这些暗示对CND管理器和代码转换器两者都是有用的。为了例示，首先考虑与内容关联的高级语义信息。语义信息可以自动地或通过手工注释而与内容相关联。

考虑数据库存储多个视频节目的情况。视频根据各种范畴、例如“活动”的级别来分级。在多个用户提示请求各种镜头的应用中，CND管理器330必须决定对各镜头分配多大的速率。在离散提要代码转换器441中，该速率可以对应于发送的帧数，而在连续变换代码转换器442中，速率可以对应于可容许的目标帧速率。在活动的级别表示时间活动性的某个级别的情况下，比特可以根据内容的描述按每个帧序列来分配。对于高活动的镜头，CND管理器决定：连续变换代码转换器不容许比预定的级别低的帧速率；通过用离散提要代码转换器对内容进行提要，可以传递更好品质的镜头。

在离散提要代码转换器内，为了达到合适级别的感知品质，还可以考虑可容许的帧数。返回到低级运动活动性描述符，可以推论出：具有表示低运动强度的关联活动性参数的视频序列可以以比具有表示高运动强度的活动性参数的那些镜头少的帧来提要。作为对此的扩展，容易理解，在对象级也可以同样应用这种比特分配。根据低级元数据来生成高级元数据

根据低级元数据来生成高级元数据的处理可以定义为元数据编码。这种编码处理可以在本发明的代码转换***的内容分类器的阶段I 311中考虑。

再者，该高级生成处理可以在独立***中使用。这种独立***的例子是将MPEG-7标准指定的描述方式实例化的***。可以将这种***称为MPEG-7高级元数据编码器。

在现行的MPEG-7工作草案中，有占据着各种类型元数据的位置的高级描述方式。应该注意，标准的规范性(normative)部分明确定义了对实现来说不可缺少的必要条件，而参考信息性(informative)部分只是提出了可能的技术或进行某事的一个方法。在MPEG-2中，决定适当的运动矢量或量化参数是编码器的问题，因此被认为是标准的参考信息性部分。标准指定了用于运动矢量的可变长编码(VLC)表和用于量化参数的5比特字段。如何使用这些字段严格来说是编码器的问题，与标准、从而与参考信息性部分无关。

在MPEG-7中，各种描述方式的规范性字段及参考信息性字段处于同样的状况。这些字段虽然被指定了，但是对这些字段如何生成数据是参考信息性的。对代码转换及提要，作为追加的描述符方式，考虑MPEG-7工作草案中指定的各种描述方式，例如提要(Summary)DS、变化(Variation)DS、分层提要(Hierarchical Summary)DS、重点段(Highlight Segment)DS、群集(Cluster)DS及分类符(Classifier)DS。请参照ISO/IEC JTC N3113、“MPEG-7 MultimediaDescriptor Schemes WD(MPEG-7多媒体描述符工作草案)”，December 1999。

例如，为了指定内容浏览及导航最初使用的内容的视觉抽象，使用提要DS，为了指定内容的变化，使用变化DS。通常，变化可以用多种方法来生成，反映原始数据的修正及操纵。然而，提要DS及变化DS等的描述方式不描述如何对内容的变化进行提要或生成。

这些描述方式只包含将与下述等有关的信息提供给***的、信息的标记或字段：提要出的内容或变化数据的“特性(property)”、“在哪里(where)”能够找到内容、及对其进行什么“(what)”操作。这意味着在发送之前进行所有操纵。在存在这种字段的情况下，向管理器提交具有可用的提要或关联特性的预代码转换过的数据的列表，所以CND管理器的任务被简化了。

使该信息可被利用的优点是简化了CND管理器及代码转换器等，但是有2个主要问题。第1个主要问题是，必须在对原始视频的任何请求之前生成这些变化。其结果是，与生成内容的多个变化关联的延迟过长，因此不能选择实时发送。第2个主要问题是网络特性有可能在某个期间变化。因此，在当前网络状态下在某个时刻选择特定的预代码转换过的变化不能在整个持续时间内持续。

尽管有这些缺点，标准也不指定在这些描述方式中如何填充字段。这些是MPEG-7标准的编码器问题。

下面设想非实时发送应用，来说明用低级描述符来生成描述方式句法中的高级字段的内容的***。内容的变化

本质上，对实时代码转换所用的相同的方法也可以用来生成特定视频的提要及变化。可以离线模拟各种网络状态，可以根据各种模拟状态对节目内容进行代码转换。结果得到的内容可以存储到数据库中。在执行该预代码转换时，不应只注意可用带宽等网络状态，***还必须注意操纵数据的方法。这种类型的信息占有描述方式的字段。视频节目的高级元数据编码器

与对应的描述方式的关联的实例化一起生成提要及变化的编码器的一例示于图14。编码器的构成要素与图3的适应性代码转换***300的构成要素类似。然而，不同点在于，编码器不被连接到网络上以便在代码转换中实时进行发送接收。而是编码器被连接到存储视频的数据库上。编码器为了以后的实时传递，离线生成视频的各种变化。

如图13所示，适应性比特流视频传递***1300包含5个主要构成要素，即内容分类器1310、网络-装置(ND)产生器1320、CND管理器1330、可切换代码转换器1340及DS实例化器1350。***1300具有连接到数据库1360上的输入端及输出端。此外，***1300还包含连接到网络及数据库1360上的选择器1370。

传递***1300的目的是根据原始压缩过的比特流(视频输入)1301来生成变化及/或提要比特流1308。比特流的内容可以是视频、音频、文本、自然、合成、原语、数据、复合或它们的组合。

如上所述，视频传递***1300类似于适应性代码转换***300。主要的差别是，它不经图3的网络350连接到用户装置360上，不实时执行代码转换。ND产生器1350取代装置及网络。

本质上，产生器的责任是模拟实时操作中存在的网络及装置(ND)制约。例如，ND产生器可以模拟64kbps、128kbps及512kbps的CBR信道或VBR信道。再者，产生器可以模拟可用带宽降低了的信道。该损耗可以是线性的，可以是二次的，也可以非常尖锐。可以同样考虑其他多种典型状态，有些状态可能涉及显示能力的限制等用户装置的制约。

这些各种状态中的各个状态都有可能带来原始输入视频1301的不同的变化。本质上，数据库存储输入比特流1301的非常多的变化，因此，将来某个实时操作状态的比特流可容易地供下游代码转换器使用。变化比特流可以是CBR和VBR两者。

ND产生器1320的目的是模拟各种网络-装置状态、和根据这些状态来自动生成原始内容1301的变化/提要1308。在此期间，***进行对应的描述方式1309的实例化。描述方式(例如，变化DS及提要DS)的字段需要填充变化比特流1308的特性及施加的操纵其的方法，所以CND管理器必须将该信息交给DS实例化器1350。在变化被实例化后，对应的描述方式可以由例如上述的实时代码转换器300来访问、使用。速率-品质函数

如图15所示，***1300生成的变化及/或提要1308是最佳速率-品质函数1401上的点V(1)、…、V(5)的子集。在图15中，示出有限个点。这些点表示特定变化的最佳工作点。各变化具有关联的实例化过的描述方式(DS)1309。变化比特流1308和实例化过的描述方式1309两者都与原始视频流1301一起被保存到数据库1360中。

在典型应用中，***1300的选择器1370接收对特定视频节目的请求。作为响应，选择器提供数据库1360中存储的与可用的变化及关联的DS有关的信息。代码转换器300的CND管理器使用该预代码转换过的数据。代码转换器可以根据高级元数据将请求的视频的特定变化与当前实时网络及装置制约相关联。在找到适当匹配的情况下，CND管理器请求用选择器通过网络350来发送特定的变化。在找到适当匹配的情况下，代码转换器340可以按旁路模式来操作。在找到近似匹配的情况下，代码转换器340可以更高效地操作。产业上的可利用性

这只是一个实际例子的应用。为了增加与当前网络及装置制约之间的匹配，还可以进一步操纵、变更已经操纵过的比特流1308。这变为下述问题：生成覆盖几个最一般状态的少量预代码转换过的比特流，还是生成覆盖非常宽范围的大量预代码转换过的比特流。通常，宽松的时间制约下的传递***1300进行的代码转换会导致品质更好的视频，所以可以从各方法中期待各种级别的品质。

本发明是作为优选实施例来说明的，但是必须理解，在本发明的精神及范围内，可以进行其他各种改进及变更。因此，所附的权利要求的目的是覆盖本发明的真正精神及范围内的所有变化及变更。

Claims

1、一种对压缩视频进行代码转换的方法，包括下述步骤：

将该压缩视频分割为多个层级；

从该多个层级的各个中提取特征；

根据从该多个层级的各个中提取出的该特征来选择代码转换器的多个变换模式中的一个；

根据该选择出的变换模式对上述压缩视频进行代码转换。

2、如权利要求1所述的方法，其特征在于，上述多个层级包含节目级，镜头级、帧级、子区域级。

3、如权利要求1所述的方法，其特征在于，上述帧级包含视频对象平面。

4、如权利要求1所述的方法，其特征在于，上述特征依赖于上述压缩视频的语义及句法。

5、如权利要求1所述的方法，其特征在于，

上述压缩视频包含低级元数据；

还包括下述步骤：根据该视频的内容将该低级元数据映射为速率-品质特性。

6、如权利要求5所述的方法，其特征在于，上述速率-品质特性被分割为多个类。

7、如权利要求6所述的方法，其特征在于，包括：空间品质低于时间品质的第1类、空间品质高于时间品质的第2类、以及空间品质等于时间品质的第3类。

8、如权利要求7所述的方法，其特征在于，上述第1类的内容由离散提要代码转换器进行代码转换，上述第2类的内容由连续变换代码转换器以相对低的帧速率进行代码转换，而上述第3类的内容由该连续变换代码转换器以相对高的帧速率进行代码转换。

9、如权利要求8所述的方法，其特征在于，上述相对低的帧速率低于10帧/秒，而上述相对高的帧速率高于20帧/秒。

10、如权利要求6所述的方法，其特征在于，包含：内容压缩容易的第1类、内容压缩是中等难度的第2类、以及内容压缩困难的第3类。

11、如权利要求10所述的方法，其特征在于，上述第1类的内容由连续变换代码转换器以相对高的帧速率进行代码转换，上述第2类的内容由连续变换代码转换器以中等帧速率进行代码转换，而上述第3类的内容由该连续变换代码转换器以相对低的帧速率进行代码转换。

12、如权利要求11所述的方法，其特征在于，上述相对高的帧速率高于20帧/秒，上述中等帧速率在20帧/秒和10帧/秒之间，而相对低的帧速率低于10帧/秒。

13、如权利要求5所述的方法，其特征在于，上述低级元数据基于上述视频内容的优先级。

14、如权利要求5所述的方法，其特征在于，上述低级元数据基于上述视频内容的形状参数。

15、如权利要求5所述的方法，其特征在于，上述低级元数据基于上述视频内容的纹理。

16、如权利要求5所述的方法，其特征在于，上述低级元数据基于上述视频内容的运动活动性。

17、如权利要求5所述的方法，其特征在于，上述低级元数据基于上述视频内容的DCT系数。

18、如权利要求5所述的方法，其特征在于，高级元数据是根据低级元数据进行编码而得到的。

19、如权利要求6所述的方法，其特征在于，上述多个类按数值尺度来排序。

20、如权利要求1所述的方法，其特征在于，上述代码转换生成CBR比特流。

21、如权利要求1所述的方法，其特征在于，上述代码转换生成VBR比特流。

22、如权利要求1所述的方法，还包括下述步骤：

根据上述低级元数据来生成描述符方式；

根据上述描述符方式来生成上述压缩过的输入比特流的变化。

23、如权利要求1所述的方法，其特征在于，上述代码转换基于从上述层级中选择出的1个级中提取出的特征。

24、如权利要求23所述的方法，其特征在于，上述特征依赖于空间重要性。

25、如权利要求23所述的方法，其特征在于，上述特征依赖于时间重要性。

26、如权利要求23所述的方法，其特征在于，上述特征依赖于压缩难度。