CN107667400B

CN107667400B - 片段对准的音频编码

Info

Publication number: CN107667400B
Application number: CN201680028019.4A
Authority: CN
Inventors: 贝恩德·切尔汗; 哈拉尔德·福克斯; 英戈·霍夫曼; 赫伯特·托马; 斯蒂芬·施耐纳
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2015-03-09
Filing date: 2016-03-08
Publication date: 2020-12-18
Anticipated expiration: 2036-03-08
Also published as: US20200177936A1; CA2978835A1; MX363719B; US20220167031A1; CN107667400A; WO2016142380A1; EP3269147A1; BR112017019053A2; JP2018514976A; US11218754B2; US20170366830A1; US10595066B2; KR102041140B1; EP3269147B1; US20230388565A1; CA2978835C; JP6707556B2; ES2733858T3; US11765415B2; KR20170134474A

Abstract

通过将片段网格和帧网格视为独立值，音频视频同步和对准、或者音频与一些其他外部时钟的对准呈现为更有效或更简单，但是对于每个片段，帧网格与相应的片段的开头对准。当适当地选择片段大小时，可以将压缩效率损失保持较低。另一方面，帧网格与片段开头的对准实现了与例如并行音频视频流、比特率自适应流等相关联地处理片段的容易且片段同步的方式。

Description

片段对准的音频编码

技术领域

本申请涉及适合于例如与编码视频并行使用的音频编解码器。

背景技术

当以固定或可变比特率在传输通道上传送音频和视频内容时，一个目标是确保音频视频同步和实现高级用例(如拼接)。

音频和视频同步和对准一直是构建音频视频***的关键部分。通常，音频和视频编解码器不使用相同的帧持续时间。因此，如今的音频编解码器不是帧对准的。例如，广泛使用的AAC系列也是如此。该示例基于DVB标准，其中使用1024帧大小和48kHz的采样频率。这产生持续时间为

的音频帧。相比之下，视频的常见DVB刷新率为25Hz或50Hz，这分别产生0.02秒或0.04秒的视频帧持续时间。

特别是当改变音频流的配置或改变程序时，必须再次对准视频和音频。今天的***将在相应视频之前或之后稍微改变音频配置，因为人类无法识别音频和视频同步中的细小区别。

遗憾的是，在国家性的广告被地区广告替代时，由于被替代的视频流也必须在该小偏移量下开始，所以这增加了拼接的复杂度。此外，新的标准要求更精确的视频音频同步以提高总的用户体验。

因此，最近的音频编解码器可以处理各种各样可能的帧大小以匹配视频帧大小。这里的问题在于，除了解决对准问题，还对编码效率和性能还有很大影响。

在广播环境下进行流传输带来了特别的问题。

最近进展表明，“自适应”流传输甚至被认为是用于线性广播的传输层。为了匹配在顶层应用和空中应用上有细微区别的所有要求，已经对自适应流传输进行了优化。这里，我们着重讨论一个具体的自适应流传输技术，但是所给出的所有示例也适用于其它基于文件的技术，例如MMT。

图7示出了当前处于开发的ATSC 3.0标准的提案。在该提案中，MPEG-DASH的优化版本被认为是在固定速率广播信道上使用。由于DASH是针对可变速率的单播信道设计的，例如LTE、3G或宽带因特网，所以一些调整是必要的，该提案已经涵盖这些。与常规DSAH用例的主要区别是，广播信道的接收机没有返回信道，并且接收单播。通常，客户端可以在接收和解析MPD后提取初始化段的位置。此后，客户端能够一个接一个地对段进行解码，或者可以搜寻到给定的时间戳。如上图所示，该方法在广播环境中是完全不可能的。相反，MPD和初始化段有规律地重复。然后，接收机能够在其接收到MPD和所有必需的初始化段后收听(tune-in)。

这就涉及了短收听时间和少量开销之间的折衷。对于常规广播器，段长度约1秒看起来是可行的。这意味着在两个MPD之间有一个音频一个视频段(如果程序仅包含音频和视频)，并且两者都具有约1秒的长度。

对于音频和视频对准，当使用DASH时，以上提到的方案也适用。此外，音频段必须略长或略短，以使音频和视频对准，如图8所示。

如果触发了音频或视频配置改变，该改变必须发生在段边界，因为没有其他方法来发送更新后的初始化段。为此，对视频和音频进行填充(用黑帧或静寂帧)以充满整个段。但是，这并没有解决视频音频不对准的问题。对于拼接和程序变化，根据当前段持续时间漂移，可能存在较小的音频视频不匹配。

发明内容

本发明的目的在于，提供一种音频编解码器，其使得例如音频视频同步和对准的任务更高效，例如，更容易基于现有的音频压缩技术来实现。

该目的通过未决独立权利要求的主题来实现。

本申请的基本思想是，当片段网格和帧网格被视为独立值，但是对于每个片段来说，帧网格都与相应片段的开头对准时，音频视频同步和对准、或者音频与一些其他外部时钟的对准可以变得更高效或更容易。当适当地选择片段大小时，可以将压缩效率损耗保持得较低。另一方面，帧网格与片段开头对准实现了一种处理与例如并行音频视频流传输、比特率自适应流传输等有关的片段的容易的片段同步的方式。

附图说明

有利的实施方式是从属权利要求的主题。以下参考附图来描述本申请的优选实施例，附图中：

图1示出了根据本申请实施例的包含将视频和音频片段时间对准的视频和音频的时间片段的示意图；

图2示出了根据实施例的编码器以及由其编码的音频内容和由其生成的编码数据流的半示意框图；

图3示出了根据实施例的与图2的编码器适配的解码器的半示意框图；

图4示出了根据实施例的在编码/解码处理中涉及的窗口、时域部分的示意图，根据该实施例，使用基于变换的编码/解码，即通过应用重叠变换来对帧进行编码/解码；

图5示出了根据实施例的生成即时播放信息的示意图；

图6示出了说明根据实施例的音频内容的配置改变的情况的示意图，所述实施例示出了在例如相应的时间片段的开头处的配置改变的情况下，或者替代地，该时间片段的即时播放信息对零样本进行编码时，即时播放信息可能丢失；

图7示出了根据[1]在ROUTE上传输的分组化DASH段以便比较；以及

图8示出了根据当前片段概念的携带音频和视频的两个连续片段，根据当前片段概念，音频片段包括不同的片段持续时间。

具体实施方式

在描述本申请的各个实施例、其所提供的优点以及基本构思之前，首先描述这些实施例。具体地，设想要对音频内容进行编码以便伴随由视频帧序列组成的视频帧。如本申请的引言部分所述，问题在于如今的音频编解码器基于样本和帧来操作，但是样本和帧不是视频帧速率的整分数或整倍数。因此，下文描述的实施例使用以“普通”帧为单位的编码/解码级，其中针对“普通”帧，对所述编码/解码级进行了优化。另一方面，音频内容被音频编解码器控制，音频编解码器包含这些以时间片段为单位的编码/解码级，时间片段可以是一个或多个，优选一个到五个，或者更优选地一个或两个视频帧长。对于每个这样的时间片段，选择帧网格，其对准到相应的时间片段的开头。换句话说，下面描述的实施例的基本思想是产生与对应的视频帧完全一样长的音频片段，这种方法具有两个好处：

1)音频编码器仍然可以在优化/原始帧持续时间上工作，并且不必将其帧网格留在片段边界上。

2)可以通过使用时间片段的编码表示的即时播放信息来补偿任何音频延迟。拼接可能发生在每个片段边界处。这大大降低了广播设备的整体复杂度。

图1示出了根据以下示例所述方式生成的音频片段的示例，其中，所述音频片段伴随对应的视频片段。以对应于图B的方式示出了视频片段和音频片段。也就是说，在2处，即图1的顶行，图1示出了视频片段由数量为N的帧4(即视频帧)组成，其中所述帧被示为按照如时间轴t所示的它们的时间播放顺序从左到右沿着行方向顺序布置的方块。帧0的左侧边缘和帧59的右侧边缘被示为在帧的开头和结尾处配准，这意味着片段的时间长度T_fragment是视频帧长度的整数倍，这里，整数倍N例如是60。图2示出了与视频片段2时间对准的音频片段10，所述音频片段中以帧或访问单元12为单位编码有伴随视频片段2的音频内容，这里被示为沿水平方向(即时间)以应示出其时间帧长度的时间间距延伸的矩形，遗憾的是，该音频帧长度使得音频片段10的时间长度T_fragment不是该帧长T_frame的整数倍。例如，帧长度T_frame和对应的视频帧的帧长度T_videoframe之间的关系可以使得它们的比是无理数或者它们的比可以由适当的完全约分的分数来表示，其中，分子乘以分母大于例如1000，使得将会是视频帧长度T_{video frame}和音频帧长度T_frame二者倍数的片段长度将不利地很大。

因此，图1示出了时间上覆盖超出音频片段10的尾端的音频内容的时间部分的最后一帧或尾部帧(即访问单元46)。稍后，将示出可以在播放时在解码器侧截断或忽视超出尾端14或在尾端14后的部分16，或者，整个尾部帧实际上未被编码，解码器仅仅刷新其内部状态以便填充尾部帧的部分的“时间孔”，直至与时间片段10重叠。

用于说明目的，图1在其下半部，即16处，示出了可用于由视频和音频组成的时间片段的比特预算(即T_fragment·R，其中R是比特率)可用于承载编码有片段2的视频帧4的视频数据18、编码有音频片段10的音频内容的音频数据20、相应的二者的头部22和24、指示例如空间分辨率、时间分辨率等的用于将视频帧4编码成数据18的配置数据26、以及用于将片段2的音频帧12编码成数据20的信道数量的配置，以及在这里示意性被包括在共同对准片段2和10的数据中的表现或媒体呈现描述，以便指示例如视频和音频的可用版本和比特率不同的版本。应当理解，图1的示例仅是示意性的，以下描述的实施例不限于用于比特率自适应流传输和向客户端发送表现等。图1应仅示出了以下说明的实施例的共同构思，根据所述实施例，通过将音频帧12与片段10的开头30对准而片段10进而被选择为例如与视频帧4完全对准，音频片段被呈现为与视频片段完全对准。

因此，图1示出了音频和视频片段，二者以所描述的方式对准。在图1的示例中，视频片段和音频片段被选择为具有恒定时长T_fragment，

其等同于NTSC的59.94Hz帧率下的60个视频帧。

每个音频片段的最后一个音频帧，这里为AU 46，例如被截断以匹配片段持续时间。在给出的示例中，最后的音频帧涉及从样本47104到48127，其中，选择了基于0的编号，即片段中的第一个音频样本被编号为0。这使得多个样本的片段大小稍大于所需，即48128，而不是48048。因此，正好在第944个样本后切断最后一帧。这可以通过使用例如包含在例如头部数据24或配置数据26中的编辑列表来完成。例如，可以用较低的质量对截断部分16进行编码。备选地，有可能不发送所有的音频帧12，而是忽略例如最后一帧(这里，例如AU 46)的编码，因为解码器通常可以根据音频配置来被刷新。

在以下描述的实施例中，示出了可以采取措施来应对如下问题，例如，对重叠窗口函数进行操作的解码器将丢失其历史并且无法产生后续片段的第一帧的完全信号。因此，第一帧(例如图1的AU 0)被编码为允许即时播放的IPF帧(IPF＝即时播放帧)。将其正好分别放置在相应的片段和任意音频片段的开头处。类似地，第一视频帧4可以是IDR(即时解码刷新)帧。

表1：比特率开销

上表给出了在不应用优化的情况下的预期比特率开销的示例。可以看出，开销与所使用的片段持续时间T_ffagment强相关。根据广播器的要求，分别仅对准每第二或第三个片段，即，将音频片段选择得更长是可行的。

图2示出了用于以片段网格32的时间片段10为单位将音频内容编码成编码数据流34的编码器。编码器总体上如附图标记20所示，包括编码级36和片段提供器38。编码级36被配置为以帧网格的帧12为单位对音频内容进行编码，并且片段提供器38被配置为以时间片段10为单位向编码级提供音频内容31，使得每个时间片段由编码级36编码成相应的时间片段10的编码表示38，其中，所述片段提供器38被配置为以时间片段10为单位向编码级36提供音频内容31，使得帧12的相应帧网格的每个时间片段在时间上与相应的时间片段10的开头30对准，使得开头30与帧12的相应帧网格的帧边界42重合。即，如下文进一步描述，片段提供器38可以按照时间片段36向编码级36提供音频内容31的部分44，所述部分44包括当前提供的时间片段10、可选地包括时间上在当前时间片段10之前的音频内容31的部分46以及时间上在当前时间片段10之后的部分48。在向编码级36提供当前部分44时，片段提供器38将当前时间片段10在时间上对准，使得帧边界42包括与当前时间片段10的开头30重合的一个帧边界。如上参考图1所述，由于时间片段10的时间长度是帧12的时间长度的非整数倍这一事实，尾部帧12a仅仅部分覆盖了时间片段10或者与时间片段10在时间上重叠，其一部分16覆盖音频内容的后续部分48。

在详细描述图2的编码器的功能之前，参考图3，图3示出了根据实施例的对应的解码器。图3的解码器总体上如附图标记60所示，并被配置为以时间片段10为单位从编码数据流34中解码音频内容31。解码器60包括接收时间片段的编码表示的输入接口62。如图3使用阴影线所示以及已参考图2的描述，对于每个时间片段10，在数据流34中存在每个时间片段10的编码表示。每个编码表示40中以上述帧12为单位编码有其相关联的时间片段10，所述帧12在时间上与相应的时间片段10的开头30对准，使得开头30与帧网格的帧边界42重合。

解码器60还包括被配置为从编码表示40中解码时间片段10的重构版本66的解码级64。即，解码级64针对每个时间片段40输出由相应编码表示40所属的时间片段10覆盖的音频内容的重构版本66。

解码器60还包括为了播放将时间片段10的重构版本66连接在一起的连接器68，本质上对准时间片段的重构版本66的开头，以便与片段网格的片段边界重合，即重叠在片段网格的开头30处，因为片段10的各个帧网格在此配准。

因此，图2和图3的编码器20和解码器60操作如下。编码器20将每个时间片段10编码成对应的编码表示40，使得帧12的帧网格与对应的时间片段10的开头30对准，使得第一或最前面的帧12_b在开头30处立即开始，即，时间片段10的开头与第一帧12_b重合。以下阐述编码级36如何处理仅与时间片段10部分重叠的尾部帧12_a的问题，其可以以不同方式来解决。此外，由于编码级36针对每个时间片段10重新对准其帧网格，所以编码级36以完全自包含，即与其他时间片段独立的方式将时间片段10编码成它们的对应编码表示40。然而，编码级36将时间片段10编码成它们的对应编码表示40，使得允许针对每个时间片段在解码侧进行即时播放。以下阐述可能的实施方式细节。相应地，解码器60从每个解码表示40重构对应的时间片段10的重构版本66。重构版本66可以与对应的时间片段10一样长。为此，如下进一步所述，解码级64可以执行刷新，以便将重构版本66的时间长度延长为时间片段10的时间长度，或者，解码级64和连接器66可以如下文讨论那样进行协作，以便截断或忽视原本超出时间片段的时间长度的重构版本66的时间部分。解码级64在对编码表示40进行解码时还使用帧网格，即，以帧12为单位进行解码，并且实质上执行编码处理的逆处理。

以下讨论这种可能，编码级36还参与将尾部帧12a编码为对应的编码表示40，并且解码器参与截断重构版本66中对应的凸出部分。具体地，根据该示例，编码级36和片段提供器38可以进行协作，使得针对当前的时间片段10，一直将时间片段10编码为编码表示40直至超出当前时间片段10的尾端70(就考虑尾部帧12a而言)。即，编码级36还将音频内容的凸出部分16编码成编码表示。然而，当这么做时，编码级36可以使用于将该尾部帧12a编码为编码表示所花费的比特率从凸出部分16改变为尾部帧12a的剩余部分，即与当前时间片段10在时间上重叠的部分。例如，编码级36可以使凸出部分16被编码成编码表示40的质量比尾部帧12a的其他部分(即属于当前时间片段10的部分)被编码成编码表示40的质量更低。在这种情况下，解码级64将相应地从该编码表示40中解码出对应的时间片段10的重构版本66，所述重构版本在时间上超过时间片段10的时间长度，即，就考虑尾部帧12a的凸出部分16而言。连接器68在将重构版本66与片段网格对准，即与片段开头30对准时，将在凸出部分16处截断重构版本66。即，连接器68将在播放时忽视重构版本66的该部分16。因此，如上所述的该部分16可能以较低质量被编码这一事实对于重构音频内容31’的收听者来说是透明的，这是在输出连接器68处连接重构版本66的结果，因为在播放时该部分被下一个时间片段10的重构版本的开头替换。

备选地，编码器20可以用于在对当前时间片段10进行编码时忽略尾部帧12a。替代地，解码器可以通过刷新其内部状态来填充时间片段10的非编码部分，即尾部帧12a与其部分重叠的部分，以下用示例进一步描述。即，编码级36和片段提供器38可以进行协作，使得对于当前时间片段10，该时间片段被编码成其编码表示的编码操作在紧邻尾部帧12a的前一帧12处被抓住。编码级可以通过将编码器的内部状态刷新为表明其本身到达紧邻尾部帧12a的前一帧12，在编码表示40内示出刷新信号，来指示解码器填充剩余的因而是时间片段10的未编码部分，即与尾部帧12_a重叠的部分。在解码器侧，编码级64可以响应于该刷新信号，以便在解码对应的编码表示40时，通过将解码级64的内部状态刷新为表明其本身到达紧邻尾部帧12_a的前一帧12，在时间片段10和尾部帧12a重叠的部分内生成与该编码表示40对应的时间片段10的重构版本。

为更详细地示出刷新过程，参考图4，图4示出了基于变换编解码器操作的编码级和解码级的示例性情况下的生成重构版本66的非编码剩余部分的情况。例如，重叠变换可以用于对帧进行编码。即，编码级36使用多个窗口中的一个窗口72，以便对音频内容的对应间隔74进行加权，并使用频率分解变换例如MDCT等在频谱上分解所得到的窗口部分。窗口部分74覆盖并且在时间上延伸超出当前帧12’的边界。例如，图4示出了窗口72或窗口部分74与在当前帧12’前的两个帧12，在当前帧12’后的两个帧处重叠。因此，当前时间片段10的编码表示40包括窗口部分74的变换编码，因为该编码76是帧12’的编码表示。解码级64执行逆操作，以便重构时间片段10的帧12：其通过例如熵解码对变换76进行解码，执行逆变换以便得到覆盖变换76所属的当前帧12’的窗口部分74，但是解码级64还执行连续的窗口部分74之间的重叠加法处理，以便获得音频内容31’的最终重构。重叠加法处理可以由连接器68执行。这意味着如下：图4例如假设当前帧12’是紧邻当前时间片段10的尾部帧12_a之前的倒数第二帧。解码级64通过执行上文概述的变换76的逆变换来重构被该倒数第二帧12’覆盖的音频内容，以便获得窗口部分74内的时域部分76。如上所述，该时域部分76与当前帧12’在时间上重叠。然而，通过当前帧12’的时间相邻帧的逆变换编码变换获得的其他时域部分也与当前帧12’在时间上重叠。

图4中针对属于当前帧12’的两个在前帧的窗口部分和所示的附图标记78和80进行说明。然而，通过重叠加法处理来获得帧12’的完全重构，所述重叠加法处理将通过应用于帧12’及其相邻帧(与当前帧12’时间上重叠)的编码变换76上的逆变换而得到的所有时域部分76、78和80的部分相加。对于最后一帧或尾部帧12_a，这意味着如下：即使编码级36没有把该尾部帧12_a的窗口部分的变换编码为编码表示40，解码器也能够通过将与尾部帧12_a时间上重叠的所有时域部分相加来获得该尾部帧12a内的音频内容的估计，所述时域部分通过根据窗口大小(相比图4可以变化)对一个或多个在先帧，即帧12’和可选的在倒数第二帧12’之前的一个或多个帧12的编码变换的逆变换而获得。例如，窗口大小可以使得与时间上的在先帧的时间重叠大于与在后帧的时间重叠。此外，时间重叠可以仅包括紧邻当前编码帧的前一帧和/或后一帧。

存在关于向解码器通知凸出部分16的大小的方式的不同可能。例如，解码器60可以被配置为通过包括帧长度值和片段长度值的截断信息，在数据流34内传送与该大小有关的截断信息。帧长度值可以指示T_frame，片段长度值指示T_fragment。另一种可能是，截断长度值指示凸出部分16自身的时间长度或者时间片段10和尾部帧12_a时间重叠的部分的时间长度。为了实现每个时间片段10的重构版本66的即时播放，编码级36和片段提供器38可以进行协作，使得对于每个时间片段10，编码表示40还被提供有与时间上在相应的时间片段10之前的部分46有关的即时播放信息。例如，设想图4中所提到的重叠变换是引入混叠的重叠变换，例如MDCT。在这种情况下，在没有在先部分46的变换编码版本的情况下，解码器将无法在当前时间片段10的开头处，例如在无混叠的情况下在前一个或多个帧12内，重构当前时间片段10。因此，为了通过重叠加法处理来执行时域混叠消除，在编码表示40内传送的即时播放信息可以涉及在先部分46的变换编码版本，其中，编码级和解码级使用如已参考图4所示的重叠变换编码处理。

尽管上文中未详细讨论，需要注意的是，编码级36和/或解码级64可以由两个或更多个核组成。例如，图2示出了编码级可以包括第一编码核90和第二编码核92，并且类似地、附加地或备选地，图3示出了解码级64可以包括第一解码核94和第二解码核96。针对这些时间片段10和编码表示40对中的每一对执行的编码/解码过程可以以流水线方式执行，交替地使核94和96(以及90和92)分别对时间片段10和编码表示40的序列进行解码/编码，而不是顺序地对时间片段10和对应的编码表示40进行编码/解码。

因此，根据图2的实施例，音频编码器将第一音频帧12_b与相应的时间片段10的开头30对准。为了在解码器侧实现该时间片段10的相应构建版本66的无缝或即时播放而没有听得到的伪象，上述编码器对片段边界处的两个不同帧网格进行操作或工作。还要提及的是，为了实现片段开头30处的各个重构版本66的即时播放，根据编码级/解码级的基本音频编解码器，可以在编码表示内传送即时播放信息。例如，每个时间片段的第一帧12_b可以被编码为即时播放帧IPF。该IPF被置于每个新的时间片段的开头处，例如可以覆盖整个解码器延迟。为了再次进行说明，参考图5，其示出了两个时间片段10a和10b之间的片段边界附近的音频内容中的一部分。图5还示出了帧12，以帧12为单位将时间片段10_a和10_b进行了编码/解码。具体地，图5示出了时间片段10_a的尾部帧12_a与帧网格的帧的第一帧12_b时间上重叠，所述帧网格用于对时间片段10_b进行编码和解码。具体地，部分16延伸超出了时间片段10_a的尾端和尾部帧12_a的时间片段10_b的开头30，并且所述开头30与时间片段10_b的第一帧12_b时间上重叠。在对第一帧12_b进行编码时，编码状态另外被编码成时间片段10_b即时播放信息98的编码表示40，即，这里对帧网格的五个预滚帧12的示例性编码100，以便对第一帧12_b之前的时间片段10_b进行编码/解码，所述预滚帧由图1中的“AU-5”至“AU-1”指示。因此，这些预滚帧在上述在先部分46上扩展。如上参考图4所概述的编码100可以与预滚帧内的音频内容的变换编码版本有关，以便允许解码器侧使用在这些预滚帧附近的时域部分，使用逆变换，并且使用它们延伸到时间片段10_b中的部分来执行时域混叠消除，以便在重叠加法处理中执行时域混叠消除。

编码器知道确切的片段持续时间。如上所述，根据实施例，重叠音频部分16可以用不同的帧网格进行两次编码。

针对将各个时间片段10编码成它们的编码表示40的“自包含方式”，进行简要阐述。尽管这种自包含方式还可能与配置数据有关，例如，与较少改变的数据有关的编码参数，比如编码音频信道的数量等，使得每个编码表示40可以包括该配置数据，备选地，有可能将该较少改变的数据，即配置数据，在带外而不在每个编码数据表示40内(而不是包括在每个编码表示40中)传送到解码侧。如果被包括在编码表示中，则配置数据可以在另一个传输层中传输。例如，可以在初始化段中传输配置，并且每个时间片段的IPF帧12_b可以不再携带配置数据信息。

就考虑解码侧而言，上述图3的描述披露了解码器被配置为针对每个时间片段对预滚帧(即，在第一帧12_b之前的帧)进行解码。解码器可以参与这种解码，而不考虑所述配置是否从前一时间片段改变为当前时间片段。这必然影响解码器的整体性能，但有利的是，解码器已经可能必须满足以下要求，根据该要求，例如，解码器能够依据最差自适应流传输使用情况对每个片段边界上的IPF进行解码，使得在这种情况下不造成额外的要求。就上述考虑截断信息而言，需要注意的是，可以在比特流级别或者在一些其他传输层(例如用***级工具)完成其信令。

最后，图6示出了要编码的音频内容31示出配置改变的情况，例如，某个时间点110处(即，两个时间片段10之间的片段边界处)的音频信道数量的改变。例如，紧邻时刻110之前，应用第一配置，例如立体声，而在时刻110之后，音频内容31是例如五信道音频场景。音频数据流34包括配置数据信息。因此，根据数据流34可以知道，在时刻110之前的时间片段10的数据流编码表示是根据第一配置来编码的，并且第二配置用于对在时刻110之后的时间片段10进行编码。图6还示出了编码表示40的即时播放信息98。对于在时刻110之前的时间片段10的情况，可以例如如上文参考图5描述的那样来导出即时播放信息98。然而，对于在时刻110立即开始的时间片段10来说，情况则不同。这里，音频内容39不允许形成在时刻110处立即开始的时间片段的编码表示40的即时播放信息98，因为第二配置中的音频内容39在时刻110之前的时间是不可提升的。替代地，针对在时刻110处开始的该时间片段10，零信号可以被编码为即时播放信息98。即，在配置改变的情况下，编码器可以对零样本进行编码，因为例如当从单声道切换到5.1声道等时，不存在过去可用的实际音频信号。可能的优化可以是在解码器侧生成该零帧，即零预滚帧，并且仅发送对第一时间片段的第一帧12_b的编码。也就是说，在这种情况下，可以完全离开即时播放信息98。

因此，上述实施例允许在固定或可变比特率传输信道上传送音频和视频内容，具体地，允许音频视频同步并实现高级用例，例如拼接。如上所述，如上编码的编码数据流还可以呈现为更容易与其他时钟同步，例如其他媒体信号规定的时钟。上述编码器允许对现有音频帧长度进行调整。时间片段的长度可以根据应用的需要来设置。编码器实施例可以以时间片段的编码表示为单位形成编码数据流，所述时间片段的编码表示可以例如但并非独有地通过使用这些片段作为媒体表示的片段而成为自适应流传输的主题。也就是说，由所得到的片段组成的编码数据流可以由服务器经由自适应流传输协议被提供给客户端，并且客户端可以通过协议来获取其中可能***了附加部分的数据流片段，并将其转发给解码器进行解码。但这不是必须的。相反，通过形成甚至在其他应用场景中的具有创造性的编码数据流，可以有利地影响拼接。上述实施例可以实现或用于其中的音频帧是MPEG-H音频帧的MPEG-H编解码器，但是上述实施例不限于这种解码器的使用，而可以适用于所有的(现代)音频编解码器。

虽然已经在装置的上下文中描述了一些方面，但是将清楚的是，这些方面还表示对应方法的描述，其中，块或设备对应于方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中描述的方面也表示对相应块或项或者相应装置的特征的描述。可以由(或使用)硬件装置(诸如，微处理器、可编程计算机或电子电路)来执行一些或全部方法步骤。在一些实施例中，可以由这种装置来执行最重要方法步骤中的某一个或多个方法步骤。

新颖的拼接或可拼接的音频数据流可以存储在数字存储介质上，或者可以在诸如无线传输介质或有线传输介质(例如，互联网)等的传输介质上传输。

取决于某些实现要求，可以在硬件中或在软件中实现本发明的实施例。可以使用其上存储有电子可读控制信号的数字存储介质(例如，软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行所述实施方式，该电子可读控制信号与可编程计算机***协作(或者能够与之协作)从而执行相应方法。因此，数字存储介质可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，该电子可读控制信号能够与可编程计算机***协作从而执行本文所述的方法之一。

通常，本发明的实施例可以实现为具有程序代码的计算机程序产品，程序代码用于在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。

其他实施例包括存储在机器可读载体上的计算机程序，该计算机程序用于执行本文所述的方法之一。

换言之，本发明方法的实施例因此是具有程序代码的计算机程序，该程序代码用于当计算机程序在计算机上运行时执行本文所述的方法之一。

因此，本发明方法的另一实施例是包括其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质)，该计算机程序用于执行本文所述的方法之一。数据载体、数字存储介质或记录介质通常是有形的和/或非瞬时性的。

因此，本发明方法的另一实施例是表示计算机程序的数据流或信号序列，所述计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如，经由互联网)传递。

另一实施例包括处理装置，例如，计算机或可编程逻辑器件，所述处理装置被配置为或适于执行本文所述的方法之一。

另一实施例包括其上安装有计算机程序的计算机，该计算机程序用于执行本文所述的方法之一。

根据本发明的另一实施例包括被配置为向接收机(例如，以电子方式或以光学方式)传输计算机程序的装置或***，该计算机程序用于执行本文所述的方法之一。接收机可以是例如计算机、移动设备、存储设备等。装置或***可以例如包括用于向接收机传送计算机程序的文件服务器。

在一些实施例中，可编程逻辑器件(例如，现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部。在一些实施例中，现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常，方法优选地由任意硬件装置来执行。

本文描述的装置可以使用硬件装置，或使用计算机，或者使用硬件装置和计算机的组合来实现。

本文描述的方法可以使用硬件装置，或使用计算机，或者使用硬件装置和计算机的组合来执行。

上述实施例对于本发明的原理仅是说明性的。应当理解的是：本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此，旨在仅由即将到来的专利权利要求的范围来限制而不是借助对本文的实施例的描述和解释所给出的具体细节来限制。

定义和缩写

AAC 高级音频编码

ATSC 高级电视***委员会

AU 音频访问单元

DASH 基于HTTP的动态自适应流传输

DVB 数字视频广播

IPF 即时播放帧

MPD 媒体呈现描述

MPEG 运动图像专家组

MMT MPEG媒体传输

NTSC 国家电视***委员会

PAL 相交流线路Verfahren

参考文献

[1]“Delivery/Sync/FEC-Evaluation Criteria Report”，ROUTE/DASH

[2]ISO/IEC 23008-3，“Information technology-High efficiency coding andmedia delivery in heterogeneous environments-Part 3：3D audio”

[3]ISO/IEC 23009-1，“Information technology-Dynamic adaptive streamingover HTTP(DASH)一Part l：Media presentation description and segment formats”

[4]ISO/IEC 23008-1，“Information technology--High efficiency codingand media delivery in heterogeneous environments--Part 1：MPEG media transport(MMT)”

Claims

1.一种用于将音频内容编码成编码数据流(34)的编码器(20)，包括：

编码级(36)，被配置为以音频帧(12)为单位对音频内容进行编码；以及

片段提供器(38)，被配置为以时间片段(10)为单位将音频内容(31)提供给编码级(36)，其中，针对当前提供的时间片段，向编码级(36)提供包括所述当前提供的时间片段在内的所述音频内容(31)的一部分，

其中所述编码器被配置为以音频帧(12)为单位将每个时间片段(10)编码成相应的时间片段的编码表示(40)，并且所述片段提供器被配置为向所述编码级(36)提供所述音频内容(31)，使得所述音频帧(12)与相应的时间片段(10)对准，使得对于每个时间片段(10)第一音频帧的开头与相应的时间片段的开头(30)重合，以及

其中所述时间片段(10)的编码表示被包括在所述编码数据流中，并且所述时间片段(10)的时间长度是所述音频帧的时间长度的非整数倍，

其中所述编码器被配置为在所述编码数据流内示出用于识别对所述时间片段进行编码时作为单位的所述音频帧中的尾部音频帧的一部分的截断信息，所述尾部音频帧的所述一部分超出所述时间片段的尾端并且与片段网格中紧随在后的时间片段在时间上重叠，其中所述截断信息包括：

帧长度值，指示所述音频帧的时间长度；和片段长度值，指示所述时间片段的时间长度，和/或

截断长度值，指示对所述时间片段进行编码时作为单位的所述音频帧中的尾部音频帧的一部分的时间长度，所述尾部音频帧的所述一部分超出所述时间片段的尾端并且与紧随在后的时间片段在时间上重叠，或者指示所述尾部音频帧的所述一部分的时间长度和所述尾部音频帧的时间长度之间的差。

2.根据权利要求1所述的编码器(20)，其中，所述编码级(36)和片段提供器(38)协作使得对于预定时间片段，将所述预定时间片段编码为相应的时间片段的编码表示(40)的编码操作停止在紧邻对所述预定时间片段进行编码时作为单位的所述音频帧中的所述尾部音频帧的前一音频帧处，所述尾部音频帧超出所述预定时间片段的尾端并且与片段网格中紧随在后的时间片段在时间上重叠。

3.根据权利要求2所述的编码器(20)，其中，所述编码级(36)被配置为在所述预定时间片段的编码表示(40)内示出刷新信号，所述刷新信号指示解码器基于将所述解码器的内部状态刷新为表明其到达紧邻所述尾部音频帧的前一音频帧，来填充所述预定时间片段被所述尾部音频帧覆盖的部分。

4.根据权利要求1所述的编码器(20)，其中，所述编码级(36)和片段提供器(38)协作使得对于预定时间片段，将所述预定时间片段编码为相应的时间片段的编码表示的编码操作一直进行至超出对所述预定时间片段进行编码时作为单位的所述音频帧(12)的尾部音频帧内的所述预定时间片段的尾端，所述尾部音频帧超出所述预定时间片段的尾端并且与片段网格中紧随在后的时间片段在时间上重叠。

5.根据权利要求4所述的编码器(20)，其中，所述编码级(36)被配置为对所述尾部音频帧超出所述预定时间片段的尾端且与紧随在后的时间片段在时间上重叠的部分内的音频内容(31)进行编码，且质量低于所述预定时间片段内的质量。

6.根据权利要求1所述的编码器(20)，其中，所述编码级(36)和片段提供器(38)协作使得对于预定时间片段，将所述预定时间片段编码为相应的时间片段的编码表示的编码操作包括：从紧邻将所述预定时间片段编码成相应的时间片段的编码表示(40)时作为单位的所述音频帧中的第一音频帧之前的音频内容的一个或多个预滚(pre-roll)音频帧中导出即时播放信息(98)，并且将所述即时播放信息编码到所述预定时间片段的编码表示中。

7.根据权利要求6所述的编码器(20)，其中，所述编码级(36)被配置为使用基于混叠引入重叠变换的变换编码来执行编码操作，并且通过将基于混叠引入重叠变换的变换编码应用于所述一个或多个预滚音频帧处的音频内容来导出即时播放信息。

8.根据权利要求1所述的编码器，其中，所述编码级(36)包括：

第一编码核(90)和第二编码核(92)，

其中，所述片段提供器(38)被配置为使第一编码核(90)对音频内容的第一时间片段进行编码以便输出所述第一时间片段的编码表示，所述第一编码核(90)被配置为以音频帧为单位对音频内容的第一时间片段进行编码，其中将所述音频帧与所述第一时间片段的开头在时间上对准，使得对所述音频内容的第一时间片段进行编码时作为单位的所述音频帧中的第一音频帧在所述第一时间片段的开头处立即开始；并且所述片段提供器(38)被配置为使第二编码核对紧随在所述第一时间片段后的音频内容的第二时间片段进行编码以便输出所述第二时间片段的编码表示，所述第二编码核(92)被配置为以音频帧为单位对音频内容的第二时间片段进行编码，其中将所述音频帧与所述第二时间片段的开头在时间上对准，使得对所述音频内容的第二时间片段进行编码时作为单位的所述音频帧中的第一音频帧在所述第二时间片段的开头处立即开始，

其中所述提供器被配置为使所述第一编码核(90)还对所述音频内容的第三时间片段进行编码。

9.根据权利要求8所述的编码器(20)，其中，所述片段提供器(38)被配置为使所述第一编码核和第二编码核交替地对所述音频内容的时间片段进行编码。

10.一种解码器(60)，用于从编码数据流中解码音频内容，所述解码器包括：

输入接口(62)，被配置为接收所述音频内容的时间片段的编码表示，每个编码表示中以音频帧为单位编码有相应的时间片段，所述音频帧与相应的时间片段的开头在时间上对准，使得所述相应的时间片段的开头与所述音频帧中的第一音频帧的开头重合；

解码级(64)，被配置为从音频内容的时间片段的编码表示中解码所述时间片段的重构版本(66)；以及

连接器(68)，被配置将音频内容的时间片段的重构版本连接在一起以便播放，

其中片段网格的片段边界之间的时间长度是所述音频帧的时间长度的非整数倍，

其中所述连接器(68)被配置为：在将预定时间片段编码为所述预定时间片段的编码表示时作为单位的所述音频帧中的尾部音频帧的一部分处将所述预定时间片段的重构版本(66)截断，所述尾部音频帧的所述一部分在时间上超出所述预定时间片段的尾端且与紧随在后的时间片段的重构版本在时间上重叠，

其中所述解码器被配置为基于所述编码数据流中的截断信息来确定所述尾部音频帧的所述一部分，其中所述截断信息包括：

帧长度值，指示将所述预定时间片段编码为所述预定时间片段的编码表示时作为单位的所述音频帧的时间长度；以及片段长度值，指示从所述预定时间片段的重构版本的开头到与在后时间片段的重构版本的开头重合的片段边界的所述预定时间片段的时间长度，和/或

截断长度值，指示所述尾部音频帧的所述一部分的时间长度、或者所述尾部音频帧的所述一部分的时间长度和所述尾部音频帧的时间长度之间的差。

11.根据权利要求10所述的解码器(60)，其中，所述解码级(64)被配置为：在从预定时间片段的编码表示中解码所述预定时间片段时，产生将所述预定时间片段编码为所述预定时间片段的编码表示时作为单位的所述音频帧中的尾部音频帧的一部分内的所述预定时间片段的重构版本，其中，通过将所述解码级的内部状态刷新为表明其到达紧邻尾部音频帧的前一音频帧，所述尾部音频帧的所述一部分从所述尾部音频帧的前端起延伸到在后时间片段的重构版本的片段边界。

12.根据权利要求10所述的解码器(60)，其中，所述解码级(64)被配置为从预定时间片段的编码表示中导出即时播放信息，所述即时播放信息与时间上在所述预定时间片段的开头之前的音频内容的一个或多个预滚音频帧处的音频内容有关，并且使用所述即时播放信息，以便重构所述预定时间片段中紧随在所述时间片段的开头后的一个或多个音频帧处的音频内容。

13.根据权利要求12所述的解码器(60)，其中，所述解码级(64)被配置为使得所述即时播放信息是所述一个或多个预滚音频帧处的音频内容的重构。

14.根据权利要求12所述的解码器(60)，其中，所述解码级(64)被配置为使用所述即时播放信息来重构所述预定时间片段中紧随在所述时间片段的开头后的所述一个或多个音频帧处的音频内容，用于时域混叠消除。

15.根据权利要求10所述的解码器，其中，所述解码级(64)被配置为使用逆重叠变换对音频帧进行分别解码，导致混叠并产生延伸超过帧边界的变换窗。

16.根据权利要求10所述的解码器，其中，所述解码级(64)包括：

第一解码核(94)，被配置为以音频帧为单位从音频内容的第一时间片段的编码表示中解码所述第一时间片段的重构版本，使得所述第一时间片段的重构版本在所述第一时间片段的音频帧中的第一音频帧的前端处开始；

第二解码核(96)，被配置为以音频帧为单位从音频内容中紧随在所述第一时间片段后的第二时间片段的编码表示中解码所述第二时间片段的重构版本，使得所述第二时间片段的重构版本在所述第二时间片段的音频帧中的第一音频帧的前端处开始配准；

其中所述连接器(68)被配置为将所述第一时间片段的重构版本(66)和所述第二时间片段的重构版本连接在一起。

17.根据权利要求16所述的解码器，其中，所述第一解码核被配置为还从所述编码数据流中解码音频内容的第三时间片段的重构版本。

18.根据权利要求16所述的解码器，其中，所述第一解码核和所述第二解码核被配置为交替地参与从音频内容的时间片段的编码表示中解码所述时间片段的重构版本。

19.一种用于使用编码级(36)将音频内容编码成编码数据流(34)的方法(20)，所述编码级被配置为以帧(12)为单位对所述音频内容进行编码，所述方法包括：

以时间片段(10)为单位将音频内容(31)提供给编码级(36)，其中，针对当前提供的时间片段，向编码级(36)提供包括所述当前提供的时间片段在内的所述音频内容(31)的一部分，

由所述编码级执行以音频帧(12)为单位将每个时间片段(10)编码成相应的时间片段的编码表示(40)，其中，所述音频内容(31)被提供给所述编码级(36)，使得所述音频帧(12)与相应的时间片段(10)对准，使得对于每个时间片段(10)，将相应的时间片段(10)编码为相应的时间片段的编码表示(40)时作为单位的所述音频帧中的第一音频帧的开头与相应的时间片段的开头(30)重合，

其中所述时间片段(10)的编码表示被包括在所述编码数据流中，并且所述时间片段(10)的时间长度是所述帧的时间长度的非整数倍，

其中所述方法包括在所述编码数据流内示出用于识别对时间片段进行编码时作为单位的所述音频帧中的尾部音频帧的一部分的截断信息，所述尾部音频帧的所述一部分超出所述时间片段的尾端并且与片段网格中紧随在后的时间片段在时间上重叠，其中所述截断信息包括：

截断长度值，指示对所述时间片段进行编码时作为单位的所述音频帧中的尾部音频帧的一部分的时间长度，所述尾部音频帧的所述一部分超出所述时间片段的尾端并且与片段网格中紧随在后的时间片段在时间上重叠，或者指示所述尾部音频帧的所述一部分的时间长度和所述尾部音频帧的时间长度之间的差。

20.一种用于以片段网格的时间片段为单位从编码数据流中解码音频内容的方法(60)，包括：

接收所述音频内容的时间片段的编码表示，每个编码表示中以音频帧为单位编码有相应的时间片段，所述音频帧与所述相应的时间片段的开头在时间上对准，使得所述相应的时间片段的开头与所述音频帧中的第一音频帧的开头重合；

从音频内容的时间片段的编码表示中解码所述时间片段的重构版本(66)；以及

将所述音频内容的时间片段的重构版本连接在一起以便播放，

其中，所述连接(68)包括：在将所述预定时间片段编码为所述预定时间片段的编码表示时作为单位的所述音频帧中的尾部音频帧的一部分处将所述预定时间片段的重构版本(66)截断，所述尾部音频帧的所述一部分在时间上超出所述预定时间片段的尾端且与紧随在后的时间片段的重构版本在时间上重叠，

其中所述方法还包括基于所述编码数据流中的截断信息来确定所述尾部音频帧的所述一部分，

其中所述截断信息包括：

21.一种存储具有程序代码的计算机程序的计算机可读存储介质，当在计算机上运行所述程序代码时，执行根据权利要求19或20所述的方法。