CN103748628B

CN103748628B - 解码装置和方法以及编码装置和方法

Info

Publication number: CN103748628B
Application number: CN201380002770.3A
Authority: CN
Inventors: 畠中光行; 知念彻
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-07-02
Filing date: 2013-06-24
Publication date: 2017-12-22
Anticipated expiration: 2033-06-24
Also published as: AU2013284703B2; EP2741285A4; CA2843263A1; BR112014004127A2; RU2649944C2; US10083700B2; JP2018116312A; EP2741285B1; KR20150032649A; US20140214432A1; EP2741285A1; JPWO2014007095A1; RU2014106517A; CN103748628A; WO2014007095A1; AU2013284703A1; JP6331094B2; JP6504420B2

Abstract

本技术涉及一种解码装置和方法以及编码装置和方法。所述技术使得能够实现更具现场感的高质量声音。编码装置将扬声器映射信息存储在编码比特流的PCE中的注释字段中，并且还将同步字和标识信息存储在注释字段中，使得可以对在注释字段中所存储的其他一般注释与扬声器映射信息进行区分。在编码比特流的解码期间，使用在注释字段中所记录的同步字和标识信息来确定是否存储了扬声器映射信息，并且依照基于确定结果的扬声器映射来输出编码比特流中所包含的音频数据。本技术可以应用到编码装置。

Description

解码装置和方法以及编码装置和方法

技术领域

本技术涉及一种解码装置、解码方法、编码装置、编码方法以及程序，并且更具体地，涉及一种可以获得高质量真实感声音的解码装置、解码方法、编码装置、编码方法以及程序。

背景技术

近年，世界上所有的国家引入了运动图像分发服务、数字电视广播、以及下一代归档。除了根据现有技术的立体声广播之外，开始引入与多通道(诸如，5.1通道)相对应的声音广播。

为了进一步改进图像质量，已经推进了具有更大的像素数量的下一代高清晰度电视。随着对下一代高清晰度电视的推进，期望在声音处理领域中为了实现真实感的声音、在水平方向和垂直方向上将通道扩展为多于5.1通道的多通道。

作为与音频数据的编码有关的技术，已经提出了下述一种技术：该技术将来自不同通道的多个窗口分组到一些图块(tile)中，以改进编码效率(例如，参见专利文献1)。

引用列表

专利文献

专利文献1：JP 2010-217900 A

发明内容

本发明要解决的问题

然而，在以上提及的技术中，难以获得高质量真实感的声音。

例如，在基于作为国际标准的运动图像专家组-2先进音频编码(MPEG-2AAC)标准和MPEG-4AAC标准的多通道编码中，仅限定了在水平方向上扬声器的布置和关于从5.1通道到立体声通道的降混的信息。因此，难以对在平面上和垂直方向上通道的扩展作出充分地响应。

鉴于以上提及的问题提出了本技术，并且本技术可以获得高质量真实感的声音。

要解决的问题

根据本技术的第一方面的解码装置包括：标识信息检测单元，从能够存储编码比特流的任意数据的区域读出用于标识是否存在预定信息的标识信息；以及读出单元，基于多个标识信息、从能够存储任意数据的区域读出预定信息。

可以将预定第一标识信息和基于预定信息计算出的第二标识信息作为标识信息存储在能够存储任意数据的区域中。

当在能够存储任意数据的区域中所包括的第一标识信息是预定特定信息、并且从能够存储任意数据的区域所读出的第二标识信息与基于所读出的预定信息计算出的第二标识信息相同时，读出单元可以确定预定信息是有效信息。

当所读出的第一标识信息是预定特定信息时，读出单元可以开始读出布置在能够存储任意数据的区域中的第一标识信息之后的预定信息。

可以基于通过对于包括预定信息的信息执行字节对齐所获得的信息，计算第二标识信息。

在能够存储任意数据的区域中可以包括在预定范围中的任意数量的预定信息。当通过字节对齐所获得的信息不具有预定大小时，读出单元可以确定预定信息是无效信息。

预定信息可以是与音频数据有关的信息。解码装置还可以包括解码单元，其对在编码比特流中所包括的音频数据进行解码。

根据本技术的第一方面的解码方法或程序包括下述步骤：从能够存储编码比特流的任意数据的区域读出用于标识是否存在预定信息的标识信息的步骤；以及基于多个标识信息、从能够存储任意数据的区域读出预定信息的步骤。

在本技术的第一方面中，从能够存储编码比特流的任意数据的区域读出用于标识是否存在预定信息的标识信息；以及，基于多个标识信息、从能够存储任意数据的区域读出预定信息。

根据本技术的第二方面的编码装置包括：编码单元，对用于标识是否存在预定信息的多个标识信息和预定信息进行编码；以及打包单元，将编码预定信息和编码标识信息存储在能够存储任意数据的区域中，并且生成编码比特流。

当在能够存储任意数据的区域中所包括的第一标识信息是预定特定信息、并且从能够存储任意数据的区域所读出的第二标识信息与基于所读出的预定信息计算出的第二标识信息相同时，预定信息可以被确定为有效信息。

预定信息可以布置在能够存储任意数据的区域中的第一标识信息之后。当所读出的第一标识信息是预定特定信息时，可以开始读出预定信息。

可以进一步将如下信息存储在能够存储任意数据的区域中：用于指示执行用于包括预定信息的信息的字节对齐的信息、和用于指示在基于通过字节对齐所获得的信息计算出的第二标识信息与在能够存储任意数据的区域中所存储的第二标识信息之间进行比较的信息。

在能够存储任意数据的区域中可以存储在预定范围中的任意数量的预定信息。当通过字节对齐所获得的信息不具有预定大小时，预定信息可以被确定为无效信息。

预定信息可以是与音频数据有关的信息。编码单元可以对音频数据进行编码，并且打包单元可以将编码音频数据存储在编码比特流中。

根据本技术的第二方面的编码方法或程序包括下述步骤：对用于标识是否存在预定信息的多个标识信息和预定信息进行编码的步骤；以及将编码预定信息和编码标识信息存储在能够存储任意数据的区域中、并且生成编码比特流的步骤。

在本技术的第二方面中，对用于标识是否存在预定信息的多个标识信息和预定信息进行编码。将编码预定信息和编码标识信息存储在能够存储任意数据的区域中、并且生成编码比特流。

发明的效果

根据本技术的第一方面和第二方面，可以获得高质量真实感的声音。

附图说明

图1是示出扬声器的布置的图。

图2是示出扬声器映射的示例的图。

图3是示出编码比特流的图。

图4是示出height_extension_element的语法的图。

图5是示出扬声器的布置高度的图。

图6是示出MPEG4辅助数据的语法的图。

图7是示出bs_info()的语法的图。

图8是示出ancillary_data_status()的语法的图。

图9是示出downmixing_levels_MPEG4()的语法的图。

图10是示出audio_coding_mode()的语法的图。

图11是示出MPEG4_ext_ancillary_data()的语法的图。

图12是示出ext_ancillary_data_status()的语法的图。

图13是示出ext_downmixing_levels()的语法的图。

图14是示出应用了每个系数的对象的图。

图15是示出ext_downmixing_global_gains()的语法的图。

图16是示出ext_downmixing_lfe_level()的语法的图。

图17是示出降混(downmixing)的图。

图18是示出针对dmix_lfe_idx所确定的系数的图。

图19是示出针对dmix_a_idx和dmix_b_idx所确定的系数的图。

图20是示出drc_presentation_mode的语法的图。

图21是示出drc_presentation_mode的图。

图22是示出编码装置的结构的示例的图。

图23是示出编码处理的流程图。

图24是示出解码装置的结构的示例的图。

图25是示出解码处理的流程图。

图26是示出编码装置的结构的示例的图。

图27是示出编码处理的流程图。

图28是示出解码装置的示例的图。

图29是示出降混处理单元的结构的示例的图。

图30是示出降混单元的结构的示例的图。

图31是示出降混单元的结构的示例的图。

图32是示出降混单元的结构的示例的图。

图33是示出降混单元的结构的示例的图。

图34是示出降混单元的结构的示例的图。

图35是示出降混单元的结构的示例的图。

图36是示出解码处理的流程图。

图37是示出重排(rearrangement)处理的流程图。

图38是示出重排处理的流程图。

图39是示出降混处理的流程图。

图40是示出计算机的结构的示例的图。

具体实施方式

在下文中，将参照附图描述应用了本技术的实施例。

<第一实施例>

[本技术的概要]

首先，将描述本技术的概要。

本技术涉及对音频数据的编码和解码。例如，在基于MPEG-2AAC或MPEG-4AAC标准的多通道编码中，难以获得用于在水平平面上和在垂直方向上进行通道扩展的信息。

在多通道编码中，不存在通道扩展内容的降混信息，并且通道的适当的混合比例是未知的。因此，具有很小数量的再现通道的便携式设备难以对声音进行再现。

本技术可以使用下面的特征(1)至特征(4)来获得高质量真实感的声音。

(1)将关于在垂直方向上的扬声器的布置的信息记录在由现有的AAC标准所限定的PCE(Program_config_element)中的注释区域中。

(2)在特征(1)的情况下，为了区分公用(public)注释与在垂直方向上的扬声器布置信息，编码装置对两个标识信息(即，同步字和CRC校验码(check code))进行编码，并且解码装置将两个标识信息进行比较。当两个标识信息彼此相同时，解码装置获取扬声器布置信息。

(3)将音频数据的降混信息记录在辅助数据区域(DSE(data_stream_element))中。

(4)从6.1通道或7.1通道到2通道的降混是两阶段处理，其包括从6.1通道或7.1通道到5.1通道的降混以及从5.1通道到2通道的降混。

同样地，关于在垂直方向上的扬声器的布置的信息的使用使得除了可以对在平面内的声音图像进行再现之外、还可以对在垂直方向上的声音图像进行再现，并且可以相比根据现有技术的平面多通道、再现更具真实感的声音。

另外，当传送关于从6.1通道或7.1通道到5.1通道或2通道的降混的信息时，单个编码数据的使用使得可以以最适合每个再现环境的通道数量来对声音进行再现。在根据不对应于本技术的现有技术的解码装置中，忽略作为公用注释的垂直方向上的信息，并且对音频数据进行解码。因此，不损坏兼容性。

[扬声器的布置]

接下来，将描述对音频数据进行再现时的扬声器的布置。

例如，如图1所示假定用户从正面观看诸如电视机的显示装置的显示屏幕TVS。即，假定用户置于图1中的显示屏幕TVS的前方。

在这种情况下，假定布置有13个扬声器Lvh、Rvh、Lrs、Ls、L、Lc、C、Rc、R、Rs、Rrs、Cs以及LFE，以便环绕用户。

在下文中，由扬声器Lvh、Rvh、Lrs、Ls、L、Lc、C、Rc、R、Rs、Rrs、Cs以及LFE所再现的音频数据(声音)的通道分别地称为Lvh、Rvh、Lrs、Ls、L、Lc、C、Rc、R、Rs、Rrs、Cs以及LFE。

如图2所示，通道L是“左前方”，通道R是“右前方”、以及通道C是“正前方”。

另外，通道Ls是“左环绕”，通道Rs是“右环绕”，通道Lrs是“左后方”、通道Rrs是“右后方”，以及通道Cs是“正后方”。

通道Lvh是“左前方高处”，通道Rvh是“右前方高处”，以及通道LEF是“低频音效”。

返回到图1，扬声器Lvh和扬声器Rvh布置在用户的左前方上方和右前方上方。布置有扬声器Rvh和Lvh的层是“顶部层”。

扬声器L、C、以及R布置在用户的左侧、中心以及右侧。扬声器Lc和Rc分别地布置在扬声器L与扬声器C之间以及扬声器R与扬声器C之间。另外，扬声器Ls和扬声器Rs分别地布置在用户的左侧和右侧，以及扬声器Lrs、Rrs以及Cs分别地布置在用户的左后方、右后方、以及后方。

扬声器Lrs、Ls、L、Lc、C、Rc、R、Rs、Rrs、以及Cs布置在基本上放置在用户的耳朵的高度处的平面中，以便环绕用户。布置有这些扬声器的层被称为“中间层”。

扬声器LFE布置在用户的前方下侧，并且布置有扬声器LEF的层被称为“LFE层”。

[编码比特流]

例如，当对每个通道的音频数据进行编码时，获得了图3所示的编码比特流。即，图3示出了AAC帧的编码比特流的语法。

图3所示的编码比特流包括“数据头/边信息(sideinfo)”、“PCE”、“SCE”、“CPE”、“LFE”、“DSE”、“FIL(DRC)”、以及“FIL(END)”。在此示例中，编码比特流包括三个“CPE”。

例如，“PCE”包括关于音频数据的每个通道的信息。在此示例中，“PCE”包括:“矩阵降混”，其为关于音频数据的降混的信息；以及“高度信息”，其为关于扬声器的布置的信息。另外，“PCE”包括“comment_field_data”，其为可以存储自由注释(free comment)的注释区域(注释字段)，并且“comment_field_data”包括“height_extension_element”，其为扩展区域。注释区域可以存储任意数据，诸如公用注释。“height_extension_element”包括“高度信息”，其为关于扬声器的布置的高度的信息。

“SCE”包括单一通道的音频数据，“CPE”包括通道对(即，两个通道)的音频数据，以及“LFE”包括例如通道LFE的音频数据。例如，“SCE”存储通道C或Cs的音频数据，并且“CPE”包括通道L或R或通道Lvh或Rvh的音频数据。

另外，“DSE”是辅助数据区域。“DSE”存储自由数据。在此示例中，“DSE”包括作为关于音频数据的降混的信息的“将5.1通道降混到2通道”、“动态范围控制”、“DRC呈现模式”、“将6.1通道和7.1通道降混到5.1通道”、“全局增益降混”以及“LFE降混”。

另外，“FIL(DRC)”包括关于声音的动态范围控制的信息。例如，“FIL(DRC)”包括“程序参考等级”和“动态范围控制”。

[注释字段]

如上所述，“PCE”的“comment_field_data”包括“height_extension_element”。因此，根据关于在垂直方向上的扬声器的布置的信息来实现多通道再现。即，通过在每个高度的层(诸如“顶部层”或“中间层”)中所布置的扬声器来对高质量真实感的声音进行再现。

例如，如图4所示，“height_extension_element”包括用于与其他公用注释进行区分的同步字。即，图4是示出“height_extension_element”的语法的图。

在图4中，“PCE_HEIGHT_EXTENSION_SYNC”指示同步字。

另外，“front_element_height_info[i]”、“side_element_height_info[i]”、以及“back_element_height_info[i]”指示布置在观看者的前方、侧方以及后方的扬声器(即，层)的高度。

此外，“byte_alignment()”指示字节对齐，并且“height_info_crc_check”指示被用作标识信息的CRC校验码。另外，基于在“PCE_HEIGHT_EXTENSION_SYNC”与“byte_alignment()间所读出的信息(即，同步字、关于每个扬声器的布置的信息(关于每个通道的信息)、以及字节对齐)来计算CRC校验码。然后，确定所计算出的CRC校验码是否与由“height_info_crc_check”所指示的CRC校验码相同。当CRC校验码彼此相同时，确定正确地读出了关于每个扬声器的布置的信息。另外，“crc_cal()！＝height_info_crc_check”指示CRC校验码之间的比较。

例如，如图5所示地设置作为关于声音源的位置(即，扬声器的布置(高度))的信息的“front_element_height_info[i]”、“side_element_height_info[i]”、以及“back_element_height_info[i]”。

即，当关于“front_element_height_info[i]”、“side_element_height_info[i]”、以及“back_element_height_info[i]”的信息为“0”、“1”、以及“2”时，扬声器的高度分别地为“正常高度”、“顶部扬声器”、以及“底部扬声器”。即，布置有扬声器的层为“中间层”、“顶部层”、以及“LFE层”。

[DSE]

接下来，将描述作为在“DSE”(即“data_stream_element()”的“data_stream_byte[]”)中所包括的辅助数据区域的“MPEG4辅助数据”。可以根据“MPEG4辅助数据”执行用于从6.1通道或7.1通道到5.1通道或2通道的音频数据的降混DRC控制。

图6是示出了“MPEG4辅助数据”的语法的图。“MPEG4辅助数据”包括“bs_info()”、“ancillary_data_status()”、“downmixing_levels_MPEG4()”、“audio_coding_mode()”、“Compression_value”、以及“MPEG4_ext_ancillary_data()”。

在此，“Compression_value”对应于图3所示的“动态范围控制”。另外，“bs_info()”、“ancillary_data_status()”、“downmixing_levels_MPEG4()”、“audio_coding_mode()”以及MPEG4_ext_ancillary_data()的语法分别地如图7至图11所示。

例如，如图7所示，“bs_info()”包括“mpeg_audio_type”、“dolby_surround_mode”、“drc_presentation_mode”、以及“pseudo_surround_enable”。

另外，“drc_presentation_mode”对应于图3所示的“DRC呈现模式”。此外，“pseudo_surround_enable”包括指示从5.1通道到2通道的降混的过程的信息，即，指示要被用于降混的多个降混方法中的一个的信息。

例如，处理依赖于图8所示的“ancillary_data_status()”中所包括的“ancillary_data_extension_status”是0还是1而变化。当“ancillary_data_extension_status”为1时，执行对图6所示的“MPEG4辅助数据”中的“MPEG4_ext_ancillary_data()”的存取，并且执行降混DRC控制。另一方面，当“ancillary_data_extension_status”为0时，执行根据现有技术的处理。以这种方式，可以确保与现有标准的兼容性。

另外，图8所示的“ancillary_data_status()”中所包括的“downmixing_levels_MPEG4_status”是用于指定被用于将5.1通道降混到2通道的系数(混合比例)的信息。即，当“downmixing_levels_MPEG4_status”为1时，由图9所示的“downmixing_levels_MPEG4()”中所存储的信息所确定的系数被用于降混。

此外，图9所示的“downmixing_levels_MPEG4()”包括作为用于指定降混系数的信息的“center_mix_level_value”和“surround_mix_level_value”。例如，与“center_mix_level_value”和“surround_mix_level_value”相对应的系数值由以下将描述的图19所示的表确定。

另外，图9中所示的“downmixing_levels_MPEG4()”对应于图3所示的“将5.1通道降混到2通道”。

此外，图11中所示的“MPEG4_ext_ancillary_data()”包括“ext_ancillary_data_status()”、“ext_downmixing_levels()”、“ext_downmixing_global_gains()”、以及“ext_downmixing_lfe_level()”。

对通道的数量进行扩展以使得5.1通道的音频数据扩展到7.1通道或6.1通道的音频数据所需要的信息被存储在“MPEG4_ext_ancillary_data()”中。

具体地，“ext_ancillary_data_status()”包括指示是否将大于5.1通道的通道降混到5.1通道的信息(标志)、指示在降混期间是否执行增益控制的信息、以及指示在降混期间是否使用LFE通道的信息。

用于指定在降混期间所使用的系数(混合比例)的信息被存储在“ext_downmixing_levels()”中，并且与增益调整期间的增益有关的信息被包括在“ext_downmixing_global_gains()”中。另外，用于指定在降混期间所使用的LEF通道的系数(混合比例)的信息被存储在“ext_downmixing_lef_level()”中。

具体地，例如，“ext_ancillary_data_status()”的语法如图12所示。在“ext_ancillary_data_status()”中，“ext_downmixing_levels_status”指示是否将6.1通道或7.1通道降混到5.1通道。即，“ext_downmixing_levels_status”指示“是否存在ext_downmixing_levels()”。“ext_downmixing_levels_status”对应于图3中所示的“将6.1通道和7.1通道降混到5.1通道”。

另外，“ext_downmixing_global_gains_status”指示是否执行全局增益控制，并且对应于图3所示的“全局增益降混”。即，“ext_downmixing_global_gains_status”指示是否存在“ext_downmixing_global_gains()”。另外，“ext_downmixing_lfe_level_status”指示当将5.1通道降混到2通道时是否使用LFE通道，并且对应于图3所示的“LFE降混”。

图11所示的“MPEG4_ext_ancillary_data()”中的“ext_downmixing_levels()”的语法如图13所示，并且图13所示的“dmix_a_idx”和“dmix_b_idx”是指示降混期间混合比例(系数)的信息。

图14示出了由“ext_downmixing_levels()”所确定的“dmix_a_idx”和“dmix_b_idx”与当对7.1通道的音频数据进行降混时应用了“dmix_a_idx”和“dmix_b_idx”的分量之间的对应关系。

图11所示的“MPEG4_ext_ancillary_data()”中的“ext_downmixing_global_gains()”和“ext_downmixing_lfe_level()”的语法如图15和图16所示。

例如，图15所示的“ext_downmixing_global_gains()”包括指示在降混到5.1通道期间增益的符号的“dmx_gain_5_sign”、增益“dmx_gain_5_idx”、指示在降混到2通道期间增益的符号的“dmx_gain_2_sign”、以及增益“dmx_gain_2_idx”。

另外，图16所示的“ext_downmixing_lfe_level()”包括“dmix_lfe_idx”，并且“dmix_lfe_idx”是指示在降混期间LEF通道的混合比例(系数)的信息。

[降混]

另外，图7所示的“bs_info()”的语法中的“pseudo_surround_enable”指示降混处理的过程，并且该处理的过程如图17所示。在此，图17示出了当“pseudo_surround_enable”为0时和当“pseudo_surround_enable”为1时的两个过程。

接下来，将描述音频数据降混处理。

首先，将描述从5.1通道到2通道的降混。在这种情况下，当降混之后的L通道和R通道分别为L’通道和R’通道时，执行下面的处理。

即，当“pseudo_surround_enable”为0时，根据下面的表达式(1)来计算L’通道和R’通道的音频数据。

L’＝L+C×b+Ls×a+LFE×c

R’＝R+C×b+Rs×a+LFE×c…(1)

当“pseudo_surround_enable”为1时，根据下面的表达式(2)来计算L’通道和R’通道的音频数据。

L’＝L+C×b–a×(Ls+Rs)+LFE×c

R’＝R+C×b+a×(Ls+Rs)+LFE×c…(2)

在表达式(1)和表达式(2)中，L、R、C、Ls、Rs、以及LFE是构成5.1通道的通道，并且分别地指示参照图1和图2所描述的通道L、R、C、Ls、Rs、以及LFE。

在表达式(1)和表达式(2)中，“c”是根据图16所示的“ext_downmixing_lfe_level()”中所包括的“dmix_lfe_idx”的值所确定的常数。例如，与“dmix_lfe_idx”的每个值相对应的常数c的值如图18所示。具体地，当图12所示的“ext_ancillary_data_status()”中的“ext_downmixing_lfe_level_status”为0时，在使用表达式(1)和表达式(2)进行的计算中未使用LEF通道。当“ext_downmixing_lfe_level_status”为1时，基于图18所示的表来确定与LFE通道相乘的常数c的值。

在表达式(1)和表达式(2)中，“a”和“b”是根据图13所示的“ext_downmixing_levels()”中所包括的“dmix_a_idx”和“dmix_b_idx”的值所确定的常数。另外，在表达式(1)和表达式(2)中，“a”和“b”可以是根据图9所示的“downmixing_levels_MPEG4()”中的“center_mix_level_values”和“surround_mix_level_value”的值确定的常数。

例如，关于“dmix_a_idx”和“dmix_b_idx”的值或关于“center_mix_level_value”和“surround_mix_level_value”的值的常数a和b的值如图19所示。在此示例中，因为“dmix_a_idx”和“dmix_b_idx”与“center_mix_level_value”和“surround_mix_level_value”参考同一个表，所以用于降混的常数(系数)a和b具有相同的值。

然后，将描述从7.1通道或6.1通道到5.1通道的降混。

当包括布置在用户的后方的扬声器Lrs和Rrs的通道的通道C、L、R、Ls、Rs、Lrs、Rrs、以及LFE的音频数据被转换为包括通道C’、L’、R’、Ls’、Rs’、以及LFE’的5.1通道的音频数据时，根据下面的表达式(3)执行计算。在此，通道C’、L’、R’、Ls’、Rs’以及LFE’分别地指示降混之后的通道C、L、R、Ls、Rs以及LFE。另外，在表达式(3)中，C、L、R、Ls、Rs、Lrs、Rrs、以及LFE指示通道C、L、R、Ls、Rs、Lrs、Rrs、以及LFE的音频数据。

C’＝C

L’＝L

R’＝R

Ls’＝Ls×d1+Lrs×d2

Rs’＝Rs×d1+Rrs×d2

LFE’＝LFE…(3)

在表达式(3)中，d1和d2是常数。例如，针对图19所示的“dmix_a_idx”和“dmix_b_idx”的值确定常数d1和d2。

当包括布置在用户的前方的扬声器Lc和Rc的通道的通道C、L、R、Lc、Rc、Ls、Rs、以及LFE的音频数据被转换为包括通道C’、L’、R’、Ls’、Rs’、以及LFE’的5.1通道的音频数据时，根据下面的表达式(4)执行计算。在此，通道C’、L’、R’、Ls’、Rs’以及LFE’分别地指示降混之后的通道C、L、R、Ls、Rs以及LFE。在表达式(4)中，C、L、R、Lc、Rc、Ls、Rs、以及LFE指示通道C、L、R、Lc、Rc、Ls、Rs、以及LFE的音频数据。

C’＝C+e1×(Lc+Rc)

L’＝L+Lc×e2

R’＝R+Rc×e2

Ls’＝Ls

Rs’＝Rs

LFE’＝LFE…(4)

在表达式(4)中，e1和e2是常数。例如，针对图19所示的“dmix_a_idx”和“dmix_b_idx”的值确定常数e1和e2。

当包括布置在用户的前方上方侧的扬声器Lvh和Rvh的通道的通道C、L、R、Lvh、Rvh、Ls、Rs、以及LFE的音频数据被转换为包括通道C’、L’、R’、Ls’、Rs’、以及LFE’的5.1通道的音频数据时，根据下面的表达式(5)执行计算。在此，通道C’、L’、R’、Ls’、Rs’以及LFE’分别地指示降混之后的通道C、L、R、Ls、Rs以及LFE。在表达式(5)中，C、L、R、Lvh、Rvh、Ls、Rs、以及LFE指示通道C、L、R、Lvh、Rvh、Ls、Rs、以及LFE的音频数据。

C’＝C

L’＝L×f1+Lvh×f2

R’＝R×f1+Rvh×f2

Ls’＝Ls

Rs’＝Rs

LFE’＝LFE…(5)

在表达式(5)中，f1和f2是常数。例如，针对图19所示的“dmix_a_idx”和“dmix_b_idx”的值确定常数f1和f2。

当执行从6.1通道到5.1通道的降混时，执行下面的处理。即，当将通道C、L、R、Ls、Rs、Cs、以及LFE的音频数据转换为包括通道C’、L’、R’、Ls’、Rs’、以及LFE’的5.1通道的音频数据时，根据下面的表达式(6)执行计算。在此，通道C’、L’、R’、Ls’、Rs’、以及LFE’分别地指示降混之后的通道C、L、R、Ls、Rs、以及LFE。在表达式(6)中，C、L、R、Ls、Rs、Cs、以及LFE指示通道C、L、R、Ls、Rs、Cs、以及LFE的音频数据。

C’＝C

L’＝L

R’＝R

Ls’＝Ls×g1+Cs×g2

Rs’＝Rs×g1+Cs×g2

LFE’＝LFE…(6)

在表达式(6)中，g1和g2是常数。例如，针对图19所示的“dmix_a_idx”和“dmix_b_idx”的值确定常数g1和g2。

接下来，将描述在降混期间用于音量校正的全局增益。

全局降混增益被用来对通过降混而增加或降低的声音音量进行校正。在此，dmx_gain5指示用于从7.1通道或6.1通道到5.1通道的降混的校正值，并且dmx_gain2指示用于从5.1通道到2通道的降混的校正值。另外，dmx_gain2支持不对应于7.1通道的解码装置或编码比特流。

其应用和操作类似于DRC深度压缩。另外，编码装置可以针对音频帧较长的时间段或音频帧过短的时间段适当地执行选择性评估，以确定全局降混增益。

在从7.1通道到2通道的降混期间，应用组合增益，即(dmx_gain5+dmx_gain2)。例如，6位无符号整数被用作dmx_gain5和dmx_gain2，并且以0.25dB的间隔对dmx_gain5和dmx_gain2进行量化。

因此，当将dmx_gain5与dmx_gain2彼此组合时，组合增益在±15.75dB的范围中。将该增益值应用到解码当前帧的音频数据的采样中。

具体地，在到5.1通道的降混期间，执行下面的处理。即，当针对通过降混所获得的通道C’、L’、R’、Ls’、Rs’以及LFE’的音频数据执行增益校正以获得通道C”、L”、R”、Ls”、Rs”以及LFE”的音频数据时，根据下面的表达式(7)执行计算。

L”＝L’×dmx_gain5

R”＝R’×dmx_gain5

C”＝C’×dmx_gain5

Ls”＝Ls’×dmx_gain5

Rs”＝Rs’×dmx_gain5

LFE”＝LFE’×dmx_gain5…(7)

在此，dmx_gain5是标量值，并且是根据下面的表达式(8)、由图15所示的“dmx_gain_5_sign”和“dmx_gain_5_idx”所计算出的增益值。

如果dmx_gain_5_sign＝＝1，则dmx_gain5＝10^{(dmx_gain_5_idx/20)}

如果dmx_gain_5_sign＝＝0，则dmx_gain5＝10^{(-dmx_gain_5_idx/20)}

…(8)

类似地，在到2通道的降混期间，执行下面的处理。即，当针对通过降混所获得的通道L’和R’的音频数据执行增益校正以获得通道L”和R”的音频数据时，根据下面的表达式(9)执行计算。

L”＝L’×dmx_gain2

R”＝R’×dmx_gain2…(9)

在此，dmx_gain2是标量值，并且是根据下面的表达式(10)、由图15所示的“dmx_gain_2_sign”和“dmx_gain_2_idx”所计算出的增益值。

如果dmx_gain_2_sign＝＝1，则dmx_gain2＝10^{(dmx_gain_2_idx/20)}

如果dmx_gain_2_sign＝＝0，则dmx_gain2＝10^{(-dmx_gain_2_idx/20)}

…(10)

在从7.1通道降混到2通道期间，在从7.1通道降混到5.1通道以及从5.1通道降混到2通道之后，可以针对所获得的信号(数据)执行增益调整。在这种情况下，如在下面的表达式(11)中所描述地，可以通过将dmx_gain5与dmx_gain2进行组合而获得被应用到音频数据的增益值dmx_gain7to2。

dmx_gain7to2＝dmx_gain_2×dmx_gain_5…(11)

与从7.1通道到2通道的降混类似地执行从6.1通道到2通道的降混。

例如，在从7.1通道到2通道的降混期间，当根据表达式(7)或表达式(9)在两阶段中执行增益校正时，可以输出5.1通道的音频数据和2通道的音频数据。

[DRC呈现模式]

另外，图7所示的“bs_info()”中所包括的“drc_presentation_mode”如图20所示。即，图20是示出“drc_presentation_mode”的语法的图。

当“drc_presentation_mode”为“01”时，模式为“DRC呈现模式1”。当“drc_presentation_mode”为“10”时，模式为“DRC呈现模式2”。在“DRC呈现模式1”和“DRC呈现模式2”中，如图21所示地执行增益控制。

[编码装置的示例结构]

接下来，将描述应用了本技术的具体的实施例。

图22是示出根据应用了本技术的实施例的编码装置的结构的示例的图。编码装置11包括输入单元21、编码单元22、以及打包单元23。

输入单元21从外部获取音频数据和关于该音频数据的信息，并且将音频数据和信息提供给编码单元22。例如，获取关于扬声器的布置(布置高度)的信息作为关于音频数据的信息。

编码单元22对从输入单元21所提供的音频数据和关于该音频数据的信息进行编码，并且将编码音频数据和信息提供给打包单元23。打包单元23对从编码单元22所提供的音频数据或关于该音频数据的信息进行打包，以生成图3所示的编码比特流并且输出编码比特流。

[编码处理的说明]

接下来，将参照图23所示的流程图描述编码装置的编码处理。

在步骤S11中，输入单元21获取音频数据和关于该音频数据的信息，并且将音频数据和信息提供给编码单元22。例如，获取7.1通道中每个通道的音频数据和关于要存储在图4所示的“height_extension_element”中的扬声器的布置的信息(在下文中，被称为扬声器布置信息)。

在步骤S12中，编码单元22对从输入单元21所提供的每个通道的音频数据进行编码。

在步骤S13中，编码单元22对从输入单元21所提供的扬声器布置信息进行编码。在这种情况下，编码单元22生成要存储在图4所示的“height_extension_element”中所包括的“PCE_HEIGHT_EXTENSION_SYNC”中的同步字、或生成作为要存储在“height_info_crc_check”中的标识信息的CRC校验码，并且将同步字或CRC校验码以及编码扬声器布置信息提供给打包单元23。

另外，编码单元22生成了对于生成编码比特流所需要的信息，并且将所生成的信息和编码音频数据或扬声器布置信息提供给打包单元23。

在步骤S14中，打包单元23针对从编码单元22所提供的音频数据或扬声器布置信息执行比特打包，以生成图3所示的编码比特流。在这种情况下，例如，打包单元23将扬声器布置信息或同步字以及CRC校验码存储在“PCE”中，并且将音频数据存储在“SCE”或“CPE”中。

当输出编码比特流时，编码处理结束。

以这种方式，编码装置11将作为关于每个层中扬声器的布置的信息的扬声器布置信息***到编码比特流中，并且输出编码音频数据。同样地，当使用关于在垂直方向上的扬声器的布置的信息时，除了可以对平面内的声音图像进行再现之外还可以对在垂直方向上的声音图像进行再现。因此，可以对更具真实感的声音进行再现。

[解码装置的示例结构]

接下来，将描述接收从编码装置11所输出的编码比特流并且对编码比特流进行解码的解码装置。

图24是示出解码装置的结构的示例的图。解码装置51包括分离单元61、解码单元62、以及输出单元63。

分离单元61接收从编码装置11所传送的编码比特流，针对编码比特流执行比特解包(bit unpacking)，以及将解包后的编码比特流提供给解码单元62。

例如，解码单元62对从分离单元61所提供的编码比特流(即，每个通道的音频数据或扬声器布置信息)进行解码，并且将解码音频数据提供给输出单元63。例如，如果需要，解码单元62对音频数据进行降混。

输出单元63基于由解码单元62所指定的扬声器的布置(扬声器映射)将从解码单元62所提供的音频数据输出。将从输出单元63所输出的每个通道的音频数据提供给每个通道的扬声器，并且然后对其进行再现。

[解码操作的说明]

接下来，将参照图25所示的流程图描述解码装置51的解码处理。

在步骤S41中，解码单元62对音频数据进行解码。

即，分离单元61接收从编码装置11所传送的编码比特流，并且针对编码比特流执行比特解包。然后，分离单元61将通过比特解包所获得的音频数据和诸如扬声器布置信息的各种信息提供给解码单元62。解码单元62对从分离单元61所提供的音频数据进行解码，并且将解码音频数据提供给输出单元63。

在步骤S42中，解码单元62在从分离单元61所提供的信息中检测同步字。具体地，从图4所示的“height_extension_element”中检测同步字。

在步骤S43中，解码单元62确定是否检测到同步字。当在步骤S43中确定检测到同步字时，解码单元62在步骤S44中对扬声器布置信息进行解码。

即，解码单元62从图4所示的“height_extension_element”中读出诸如“front_element_height_info[i]”、“side_element_heigth_info[i]”、以及“back_element_height_info[i]”的信息。以这种方式，可以找到可以以高质量对每个音频数据进行再现的扬声器的位置(通道)。

在步骤S45中，解码单元62生成标识信息。即，解码单元62基于在“height_extension_element”中的“PCE_HEIGHT_EXTENSION_SYNC”与“byte_alignment()”之间所读出的信息(即，同步字、扬声器布置信息、以及字节对齐)来计算CRC校验码，并且获得标识信息。

在步骤S46中，解码单元62将在步骤S45中所生成的标识信息与在图4所示的“height_extension_element”的“height_info_crc_check”中所包括的标识信息进行比较，并且确定标识信息是否彼此相同。

当在步骤S46中确定标识信息彼此相同时，解码单元62将解码音频数据提供给输出单元63，并且基于所获得的扬声器布置信息指示音频数据的输出。然后，处理继续到步骤S47。

在步骤S47中，输出单元63基于由解码单元62所指示的扬声器布置(扬声器映射)将从解码单元62所提供的音频数据输出。然后，解码处理结束。

另一方面，当在步骤S43中确定未检测到同步字时，或当在步骤S46中确定标识信息彼此不同时，输出单元63在步骤S48中基于预定的扬声器布置输出音频数据。

即，当从“height_extension_element”正确地读出扬声器布置信息时，执行步骤S48中的处理。在这种情况下，解码单元62将音频数据提供给输出单元63，并且指示音频数据的输出，以使得由每个预定通道的扬声器对每个通道的音频数据进行再现。然后，输出单元63响应于来自解码单元62的指示输出音频数据，并且解码处理结束。

以这种方式，解码装置51对在编码比特流中所包括的音频数据或扬声器布置信息进行解码，并且基于扬声器布置信息输出音频数据。因为扬声器布置信息包括关于在垂直方向上的扬声器布置的信息，所以除了可以对在平面内的声音图像进行再现之外还可以对在垂直方向上的声音图像进行再现。因此，可以对更具真实感的声音进行再现。

具体地，当对音频数据进行解码时，例如，如果需要，还可以执行对音频数据进行降混的处理。

在这种情况下，例如，当图6所示的“MPEG4辅助数据”的“ancillary_data_status()”中的“ancillary_data_extension_status”为“1”时，解码单元62读出“MPEG4_ext_ancillary_data()”。然后，解码单元62读出图11所示的“MPEG4_ext_ancillary_data()”中所包括的每个信息，并且执行音频数据降混处理或增益校正处理。

例如，解码单元62将7.1通道或6.1通道的音频数据降混到5.1通道的音频数据，或进一步将5.1通道的音频数据降混到2通道的音频数据。

在这种情况下，如果需要，解码单元62使用LFE通道的音频数据用于降混。参照图13所示的“ext_downmixing_levels()”或图16所示的“ext_downmixing_lfe_level()”确定与每个通道相乘的系数。另外，参照图15所示的“ext_downmixing_global_gains()”执行降混期间的增益校正。

[编码装置的示例结构]

接下来，将描述以上提及的编码装置和解码装置的详细结构的示例以及这些装置的详细操作。

图26是示出了编码装置的详细结构的示例的图。

编码装置91包括输入单元21、编码单元22、以及打包单元23。在图26中，采用相同的附图标记表示与图22所示的那些组件相对应的组件，并且将不再重复对其的说明。

编码单元22包括PCE编码单元101、DSE编码单元102、以及音频要素(element)编码单元103。

PCE编码单元101基于从输入单元21所提供的信息对PCE进行编码。即，如果需要，PCE编码单元101在对每个信息进行编码的同时生成要存储在PCE中的每个信息。PCE编码单元101包括同步字编码单元111、布置信息编码单元112、以及标识信息编码单元113。

同步字编码单元111对同步字进行编码，并且使用编码同步字作为要存储在PCE的注释区域中所包括的扩展区域中的信息。布置信息编码单元112对指示用于每个音频数据的扬声器的高度(层)的并且从输入单元21所提供的扬声器布置信息进行编码，以及使用编码扬声器布置信息作为要存储在注释区域的扩展区域中的信息。

标识信息编码单元113对标识信息进行编码。例如，如果需要，标识信息编码单元113基于同步字和扬声器布置信息生成CRC校验码作为标识信息，并且使用CRC校验码作为要存储在注释区域的扩展区域中的信息。

DSE编码单元102基于从输入单元21所提供的信息对DSE进行编码。即，如果需要，DSE编码单元102在对每个信息进行编码的同时生成要存储在DSE中的每个信息。DSE编码单元102包括扩展信息编码单元114和降混信息编码单元115。

扩展信息编码单元114对指示在作为DSE的扩展区域的“MPEG4_ext_ancillary_data()”中是否包括扩展信息的信息(标志)进行编码。降混信息编码单元115对关于音频数据的降混的信息进行编码。音频要素编码单元103对从输入单元21所提供的音频数据进行编码。

编码单元22将通过对每个类型的数据进行编码所获得的、要被存储在每个要素中的信息提供给打包单元23。

[编码处理的说明]

接下来，将参照图27所示的流程图描述编码装置91的编码处理。该编码处理比参照图23所示的流程图所描述的处理更加详细。

在步骤S71中，输入单元21获取音频数据和对音频数据进行编码所需要的信息，并且将音频数据和信息提供给编码单元22。

例如，输入单元21获取作为音频数据的每个通道的脉冲编码调制(PCM)数据、指示每个通道扬声器的布置的信息、用于指定降混系数的信息、以及指示编码比特流的比特率的信息。在此，用于指定降混系数的信息是指示在从7.1通道或6.1通道到5.1通道的降混以及从5.1通道到2通道的降混期间与每个通道的音频数据相乘的系数的信息。

另外，输入单元21获取要获得的编码比特流的文件名称。该文件名称由编码装置适当地使用。

在步骤S72中，音频要素编码单元103对从输入单元21所提供的音频数据进行编码，并且编码音频数据被存储在诸如SCE、CPE、以及LFE的每个要素中。在这种情况下，以由从输入单元21提供给编码单元22的比特率和除了音频数据之外的信息的码数量所确定的比特率对音频数据进行编码。

例如，要对C通道或Cs通道的音频数据进行编码，并且将其存储在SCE中。要对L通道或R通道的音频数据进行编码，并且将其存储在CPE中。另外，要对LFE通道的音频数据进行编码，并且将其存储在LFE中。

在步骤S73中，同步字编码单元111基于从输入单元21所提供的信息对同步字进行编码，并且编码同步字是要存储在图4所示的“height_extension_element”的“PCE_HEIGHT_EXTENSION_SYNC”中的信息。

在步骤S74中，布置信息编码单元112对从输入单元21所提供的每个音频数据的扬声器布置信息进行编码。

以打包单元23中的声音源位置，即以与扬声器的布置相对应的顺序，将编码扬声器布置信息存储在“height_extension_element”中。即，将指示由布置在用户前方的扬声器所再现的每个通道的扬声器高度(声音源的高度)的扬声器布置信息存储为“height_extension_element”中的“front_element_height_info[i]”。

另外，在“front_element_height_info[i]”之后，将指示由布置在用户侧方的扬声器所再现的每个通道的扬声器高度的扬声器布置信息存储为“height_extension_element”中的“side_element_height_info[i]”。然后，在“side_element_height_info[i]”之后，将指示由布置在用户后方的扬声器所再现的每个通道的扬声器高度的扬声器布置信息存储为“height_extension_element”中的“back_element_height_info[i]”。

在步骤S75中，标识信息编码单元113对标识信息进行编码。例如，如果需要，标识信息编码单元113基于同步字和扬声器布置信息生成CRC校验码作为标识信息。CRC校验码是要存储在“height_extension_element”的“height_info_crc_check”中的信息。同步字和CRC校验码是用于标识在编码比特流中是否存在扬声器布置信息的信息。

另外，标识信息编码单元113生成指示执行字节对齐的信息作为要存储在“height_extension_element”的“byte_alignment()”中的信息。标识信息编码单元113生成指示对标识信息进行比较的信息作为要存储在“height_extension_element”的“if(crc_cal()！＝height_info_crc_check)”中的信息。

通过从步骤S73至步骤S75的处理，生成要存储在PCE的注释区域中所包括的扩展区域(即，“height_extension_element”)中的信息。

在步骤S76中，PCE编码单元101例如基于从输入单元21所提供的信息或在扩展区域中所存储的所生成的信息，对PCE进行编码。

例如，PCE编码单元101生成指示由前方、侧方以及后方的扬声器所再现的通道数量的信息、或指示每个音频数据属于C、L、以及R通道中的哪个的信息作为要存储在PCE中的信息。

在步骤S77中，扩展信息编码单元114基于从输入单元21所提供的信息、对指示在DSE的扩展区域中是否包括扩展信息的信息进行编码，并且编码信息要存储在图8所示的“ancillary_data_status()”的“ancillary_data_extension_status”中。例如，“0”或“1”作为指示是否包括扩展信息的信息、即指示是否存在扩展信息的信息，要存储在“ancillary_data_extension_status”中。

在步骤S78中，降混信息编码单元115基于从输入单元21所提供的信息来对关于音频数据的降混的信息进行编码。

例如，降混信息编码单元115对于用于指定从输入单元21所提供的降混系数的信息进行编码。具体地，降混信息编码单元115对指示在从5.1通道到2通道的降混期间与每个通道的音频数据相乘的系数的信息进行编码，并且要作为在图9所示的“downmixing_levels_MPEG4()”中所存储的“center_mix_level_value”和“surround_mix_level_value”。

另外，降混信息编码单元115对指示在从5.1通道到2通道的降混期间与LFE通道的音频数据相乘的系数的信息进行编码，并且要作为在图16所示的“ext_downmixing_lfe_level()”中所存储的“dmix_lfe_idx”。类似地，降混信息编码单元115对从输入单元21所提供的指示降混到2通道的过程的信息进行编码，并且要作为在图7所示的“bs_info()”中所存储的“pseudo_surround_enable”。

降混信息编码单元115对指示在从7.1通道或6.1通道到5.1通道的降混期间与每个通道的音频数据相乘的系数的信息进行编码，并且要作为图13所示的“ext_downmixing_levels”中所存储的“dmix_a_idx”和“dmix_b_idx”。

降混信息编码单元115对指示在从5.1通道到2通道的降混期间是否使用LFE通道的信息进行编码。编码信息要被存储在作为扩展区域的图11所示的“ext_ancillary_data_status()”中所包括的图12所示的“ext_downmixing_lfe_level_status”中。

降混信息编码单元115对在降混期间用于增益调整所需要的信息进行编码。编码信息要被存储在图11所示的“MPEG4_ext_ancillary_data()”中的“ext_downmixing_global_gains”中。

在步骤S79中，DSE编码单元102基于从输入单元21所提供的信息或所生成的关于降混的信息来对DSE进行编码。

通过以上所提及的处理获得了在诸如PCE、SCE、CPE、LFE、以及DSE的每个要素中要存储的信息。编码单元22将要存储在每个要素中的信息提供给打包单元23。另外，如果需要，编码单元22生成诸如“头数据/边信息”、“FIL(DRC)”、以及“FIL(END)”的要素，并且将所生成的要素提供给打包单元23。

在步骤S80中，打包单元23针对从编码单元22所提供的音频数据或扬声器布置信息执行比特打包、以生成图3所示的编码比特流，并且输出编码比特流。例如，打包单元23将从编码单元22所提供的信息存储在PCE或DSE中以生成编码比特流。当输出编码比特流时，编码处理结束。

以这种方式，编码装置91将例如扬声器布置信息、关于降混的信息、以及指示在扩展区域中是否包括扩展信息的信息***到编码比特流中，并且输出编码音频数据。同样地，当将扬声器布置信息和关于降混的信息存储在编码比特流中时，可以在编码比特流的解码侧获得高质量真实感的声音。

例如，当将关于在垂直方向上扬声器的布置的信息存储在编码比特流中时，在解码侧，可以对在平面内的声音图像以及在垂直方向上的声音图像进行再现。因此，可以对真实感的声音进行再现。

另外，为了标识在注释区域的扩展区域中所存储的信息是扬声器布置信息还是诸如其他注释的文本信息，编码比特流包括用于标识扬声器布置信息的多个标识信息(标识码)。在本实施例中，编码比特流包括紧接扬声器布置信息之前而布置的同步字以及由诸如扬声器布置信息的所存储的信息的内容所确定的CRC校验码作为标识信息。

当在编码比特流中包括两个标识信息时，可以可靠地指定在编码比特流中所包括的信息是否是扬声器布置信息。作为结果，可以使用所获得的扬声器布置信息获得高质量真实感的声音。

另外，在编码比特流中，在DSE中包括“pseudo_surround_enable”作为用于对音频数据进行降混的信息。此信息使得可以将多个方法中的任一个指定为将通道从5.1通道降混到2通道的方法。因此，可以在解码侧改进音频数据的灵活性。

具体地，在本实施例中，作为将通道从5.1通道降混到2通道的方法，存在使用表达式(1)的方法和使用表达式(2)的方法。例如，在解码侧，通过降混所获得的2通道的音频数据被传送到再现装置，并且再现装置将2通道的音频数据转换为5.1通道的音频数据，以及对所转换的音频数据进行再现。

在这种情况下，在使用表达式(1)的方法和使用表达式(2)的方法中，不太可能从根据两个方法中的任一个所获得的音频数据获得对5.1通道的最终音频数据进行再现时预先假定的适当的声学效果。

然而，在由编码装置91所获得的编码比特流中，可以由“pseudo_surround_enable”来指定能够在解码侧获得所假定的声学效果的降混方法。因此，可以在解码侧获得高质量真实感的声音。

另外，在编码比特流中，将指示是否包括扩展信息的信息(标志)存储在“ancillary_data_extension_status”中。因此，可以参照此信息，指定在作为扩展区域的“MPEG4_ext_ancillary_data()”中是否包括扩展信息。

例如，在本示例中，如果需要，将“ext_ancillary_data_status()”、“ext_downmixing_levels()”、“ext_downmixing_global_gains”、以及“ext_downmixing_lfe_level()”作为扩展信息存储在扩展区域中。

当可以获得扩展信息时，可以改进音频数据的降混的灵活性，并且在解码侧可以获得各种音频数据。作为结果，可以获得高质量真实感的声音。

[解码装置的示例结构]

接下来，将描述解码装置的详细结构。

图28是示出解码装置的详细结构的示例的图。在图28中，采用相同的附图标记表示与图24所示的那些组件相对应的组件，并且将不再重复对其的说明。

解码装置41包括分离单元61、解码单元62、切换单元51、降混处理单元152、以及输出单元63。

分离单元61接收从编码装置91所输出的编码比特流，对编码比特流进行解包、以及将编码比特流提供给解码单元62。另外，分离单元61获取降混形式参数和音频数据的文件名称。

降混形式参数是在解码装置141中指示编码比特流中所包括的音频数据的降混形式的信息。例如，作为降混形式参数，包括：指示从7.1通道或6.1通道到5.1通道的降混的信息、指示从7.1通道或6.1通道到2通道的降混的信息、指示从5.1通道到2通道的降混的信息、或指示未执行降混的信息。

将由分离单元61所获取的降混形式参数提供给切换单元51和降混处理单元152。另外，在解码装置141中适当地使用由分离单元61所获取的文件名称。

解码单元62对从分离单元61所提供的编码比特流进行解码。解码单元62包括PCE解码单元161、DSE解码单元162、以及音频要素解码单元163。

PCE解码单元161对在编码比特流中所包括的PCE进行解码，并且将通过解码所获得的信息提供给降混处理单元152和输出单元63。PCE解码单元161包括同步字检测单元171和标识信息计算单元172。

同步字检测单元171从PCE的注释区域中的扩展区域中检测同步字，并且读出同步字。标识信息计算单元172基于从PCE的注释区域中的扩展区域中所读出的信息来计算标识信息。

DSE解码单元162对在编码比特流中所包括的DSE进行解码，并且将通过解码所获得的信息提供给降混处理单元152。DSE解码单元162包括扩展检测单元173和降混信息解码单元174。

扩展检测单元173检测在DSE的“MPEG4_ancillary_data()”中是否包括扩展信息。降混信息解码单元174对在DSE中所包括的关于降混的信息进行解码。

音频要素解码单元163对在编码比特流中所包括的音频数据进行解码，并且将音频数据提供给切换单元151。

切换单元151基于从分离单元61所提供的降混形式参数，将从解码单元62所提供的音频数据的输出目的地改变为降混处理单元152或输出单元63。

降混处理单元152基于来自分离单元61的降混形式参数和来自解码单元62的信息对从切换单元151所提供的音频数据进行降混，并且将降混后的音频数据提供给输出单元63。

输出单元63基于从解码单元62所提供的信息、输出从切换单元151或降混处理单元152所提供的音频数据。输出单元63包括重排处理单元181。重排处理单元181基于从PCE解码单元161所提供的信息对从切换单元151所提供的音频数据进行重排，并且输出音频数据。

[降混处理单元的结构的示例]

图29示出了图28所示的降混处理单元152的详细结构。即，降混处理单元152包括切换单元211、切换单元212、降混单元213-1至213-4、切换单元214、增益调整单元215、切换单元216、降混单元217-1、降混单元217-2、以及增益调整单元218。

切换单元211将从切换单元151所提供的音频数据提供给切换单元212或切换单元216。例如，当音频数据是7.1通道或6.1通道的数据时、音频数据的输出目的地是切换单元212，并且当音频数据是5.1通道的数据时、音频数据的输出目的地是切换单元216。

切换单元212将从切换单元211所提供的音频数据提供给降混单元213-1至降混单元213-4中的任一个。例如，当音频数据是6.1通道的数据时，切换单元212将音频数据输出到降混单元213-1。

当音频数据是通道L、Lc、C、Rc、R、Ls、Rs、以及LFE的数据时，切换单元212将来自切换单元211的音频数据提供给降混单元213-2。当音频数据是通道L、R、C、Ls、Rs、Lrs、Rrs、以及LFE的数据时，切换单元212将来自切换单元211的音频数据提供给降混单元213-3。

当音频数据是通道L、R、C、Ls、Rs、Lvh、Rvh、以及LFE的数据时，切换单元212将来自切换单元211的音频数据提供给降混单元213-4。

降混单元213-1至降混单元213-4将从切换单元212所提供的音频数据降混为5.1通道的音频数据，并且将音频数据提供给切换单元214。在下文中，当降混单元213-4至213-4不需要彼此特别地区分时，其被简称为降混单元213。

切换单元214将从降混单元213所提供的音频数据提供给增益调整单元215或切换单元216。例如，当在编码比特流中所包括的音频数据被降混到5.1通道的音频数据时，切换单元214将音频数据提供给增益调整单元215。另一方面，当在编码比特流中所包括的音频数据被降混到2通道的音频数据时，切换单元214将音频数据提供给切换单元216。

增益调整单元215对从切换单元214所提供的音频数据的增益进行调整，并且将音频数据提供给输出单元63。

切换单元216将从切换单元211或切换单元214所提供的音频数据提供给降混单元217-1或降混单元217-2。例如，切换单元216依赖于在编码比特流的DSE中所包括的“pseudo_surround_enable”的值来改变音频数据的输出目的地。

降混单元217-1和降混单元217-2将从切换单元216所提供的音频数据降混到2通道的数据，并且将数据提供给增益调整单元218。在下文中，当降混单元217-1和降混单元217-2不需要彼此特别地区分时，其被简称为降混单元217。

增益调整单元218对从降混单元217所提供的音频数据的增益进行调整，并且将音频数据提供给输出单元63。

[降混单元的结构的示例]

接下来，将描述图29所示的降混单元213和降混单元217的详细结构的示例。

图30是示出图29所示的降混单元213-1的结构的示例的图。

降混单元213-1包括输入端子241-1至241-7、乘法单元242至244、加法单元245、加法单元246、以及输出端子247-1至247-6。

将通道L、R、C、Ls、Rs、Cs、以及LFE的音频数据从切换单元212提供给输入端子241-1至241-7。

输入端子241-1至241-3将从切换单元212所提供的音频数据通过输出端子247-1至247-3提供给切换单元214，而不对音频数据进行任何改变。即，对被提供给降混单元213-1的通道L、R、以及C的音频数据进行降混，并且将其作为降混之后的通道L、R、以及C的音频数据输出到下一阶段。

输入端子241-4至241-6将从切换单元212所提供的音频数据提供给乘法单元242至244。乘法单元242将从输入端子241-4所提供的音频数据与降混系数相乘，并且将音频数据提供给加法单元245。

乘法单元243将从输入端子241-5所提供的音频数据与降混系数相乘，并且将音频数据提供给加法单元246。乘法单元244将从输入端子241-6所提供的音频数据与降混系数相乘，并且将音频数据提供给加法单元245和加法单元246。

加法单元245将从乘法单元242所提供的音频数据与从乘法单元244所提供的音频数据相加，并且将相加后的音频数据提供给输出端子247-4。输出端子247-4将从加法单元245所提供的音频数据作为降混之后的Ls通道的音频数据提供给切换单元214。

加法单元246将从乘法单元243所提供的音频数据与从乘法单元244所提供的音频数据相加，并且将相加后的音频数据提供给输出端子247-5。输出端子247-5将从加法单元246所提供的音频数据作为降混之后的Rs通道的音频数据提供给切换单元214。

输入端子241-7将从切换单元212所提供的音频数据通过输出端子247-6提供给切换单元214，而不对音频数据进行任何改变。即，将被提供给降混单元213-1的LFE通道的音频数据作为降混之后的LFE通道的音频数据输出到下一阶段，而不进行任何改变。

在下文中，当输入端子241-1至241-7不需要彼此特别地区分时，其被简称为输入端子241。当输出端子247-1至247-6不需要彼此特别地区分时，其被简称为输出端子247。

同样地，在降混单元213-1中，执行与使用以上提及的表达式(6)进行的计算相对应的处理。

图31是示出图29所示的降混单元213-2的结构的示例的图。

降混单元213-2包括输入端子271-1至271-8、乘法单元272至275、加法单元276、加法单元277、加法单元278、以及输出端子279-1至279-6。

将通道L、Lc、C、Rc、R、Ls、Rs、以及LFE的音频数据从切换单元212分别地提供给输入端子271-1至271-8。

输入端子271-1至271-5将从切换单元212所提供的音频数据分别地提供给加法单元276、乘法单元272和273、加法单元277、乘法单元274和275、以及加法单元278。

乘法单元272和乘法单元273将从输入端子271-2所提供的音频数据与降混系数相乘，并且将音频数据分别地提供给加法单元276和加法单元277。乘法单元274和乘法单元275将从输入端子271-4所提供的音频数据与降混系数相乘，并且将音频数据分别地提供给加法单元277和加法单元278。

加法单元276将从输入端子271-1所提供的音频数据与从乘法单元272所提供的音频数据相加，并且将相加后的音频数据提供给输出端子279-1。输出端子279-1将从加法单元276所提供的音频数据作为降混之后L通道的音频数据提供给切换单元214。

加法单元277将从输入端子271-3所提供的音频数据、从乘法单元273所提供的音频数据、以及从乘法单元274所提供的音频数据相加，并且将相加后的音频数据提供给输出端子279-2。输出端子279-2将从加法单元277所提供的音频数据作为降混之后C通道的音频数据提供给切换单元214。

加法单元278将从输入端子271-5所提供的音频数据与从乘法单元275所提供的音频数据及相加，并且将相加后的音频数据提供给输出端子279-3。输出端子279-3将从加法单元278所提供的音频数据作为降混之后R通道的音频数据提供给切换单元214。

输入端子271-6至271-8将从切换单元212所提供的音频数据通过输出端子279-4至279-6提供给切换单元214，而不对音频数据进行任何改变。即，将从降混单元213-1所提供的通道Ls、Rs、以及LFE的音频数据作为降混之后的通道Ls、Rs、以及LFE的音频数据输出到下一阶段，而不进行任何改变。

在下文中，当输入端子271-1至271-8不需要彼此特别地区分时，其被简称为输入端子271。当输出端子279-1至279-6不需要彼此特别地区分时，其被简称为输出端子279。

同样地，在降混单元213-2中，执行与使用以上提及的表达式(4)进行的计算相对应的处理。

图32是示出图29所示的降混单元213-3的结构的示例的图。

降混单元213-3包括输入端子301-1至301-8、乘法单元302至305、加法单元306、加法单元307、以及输出端子308-1至308-6。

将通道L、R、C、Ls、Rs、Lrs、Rrs、以及LFE的音频数据从切换单元212分别地提供给输入端子301-1至301-8。

输入端子301-1至301-3将从切换单元212所提供的音频数据分别地通过输出端子308-1至308-3提供给切换单元214，而不对音频数据进行任何改变。即，将被提供给降混单元213-3的通道L、R、以及C的音频数据作为降混之后的通道L、R、以及C的音频数据输出到下一阶段。

输入端子301-4至301-7将从切换单元212所提供的音频数据分别地提供给乘法单元302至305。乘法单元302至305将从输入端子301-4至301-7所提供的音频数据与降混系数相乘，并且将音频数据分别地提供给加法单元306、加法单元307、加法单元306、以及加法单元307。

加法单元306将从乘法单元302所提供的音频数据与从乘法单元304所提供的音频数据相加，并且将音频数据提供给输出端子308-4。输出端子308-4将从加法单元306所提供的音频数据作为降混之后的Ls通道的音频数据提供给切换单元214。

加法单元307将从乘法单元303所提供的音频数据与从乘法单元305所提供的音频数据相加，并且将音频数据提供给输出端子308-5。输出端子308-5将从加法单元307所提供的音频数据作为降混之后的Rs通道的音频数据提供给切换单元214。

输入端子301-8将从切换单元212所提供的音频数据通过输出端子308-6提供给切换单元214，而不对音频数据进行任何改变。即，将被提供给降混单元213-3的LFE通道的音频数据作为降混之后的LFE通道的音频数据输出到下一阶段，而不进行任何改变。

在下文中，当输入端子301-1至301-8不需要彼此特别地区分时，其被简称为输入端子301。当输出端子308-1至308-6不需要彼此特别地区分时，其被简称为输出端子308。

同样地，在降混单元213-3中，执行与使用以上提及的表达式(3)进行的计算相对应的处理。

图33是示出图29所示的降混单元213-4的结构的示例的图。

降混单元213-4包括输入端子331-1至331-8、乘法单元332至335、加法单元336、加法单元337、以及输出端子338-1至338-6。

将通道L、R、C、Ls、Rs、Lvh、Rvh、以及LFE的音频数据从切换单元212分别地提供给输入端子331-1至331-8。

输入端子331-1和输入端子331-2将从切换单元212所提供的音频数据分别地提供给乘法单元332和乘法单元333。输入端子331-6和输入端子331-7将从切换单元212所提供的音频数据分别地提供给乘法单元334和乘法单元335。

乘法单元332至335将从输入端子331-1、输入端子331-2、输入端子331-6、以及输入端子331-7所提供的音频数据与降混系数相乘，并且将音频数据分别地提供给加法单元336、加法单元337、加法单元336、以及加法单元337。

加法单元336将从乘法单元332所提供的音频数据与从乘法单元334所提供的音频数据相加，并且将音频数据提供给输出端子338-1。输出端子338-1将从加法单元336所提供的音频数据作为降混之后的L通道的音频数据输出到切换单元214。

加法单元337将从乘法单元333所提供的音频数据与从乘法单元335所提供的音频数据相加，并且将音频数据提供给输出端子338-2。输出端子338-2将从加法单元337所提供的音频数据作为降混之后的R通道的音频数据提供给切换单元214。

输入端子331-3至331-5和输入端子331-8将从切换单元212所提供的音频数据分别地通过输出端子338-3至338-5和输出端子338-6提供给切换单元214，而不对音频数据进行任何改变。即，将被提供给降混单元213-4的通道C、Ls、Rs以及LFE的音频数据作为降混之后的通道C、Ls、Rs以及LFE的音频数据输出到下一阶段，不进行任何改变。

在下文中，当输入端子331-1至331-8不需要彼此特别地区分时，其被简称为输入端子331。当输出端子338-1至338-6不需要彼此特别地区分时，其被简称为输出端子338。

同样地，在降混单元213-4中，执行与使用以上提及的表达式(5)进行的计算相对应的处理。

然后，将描述图29所示的降混单元217的详细结构的示例。

图34是示出图29所示的降混单元217-1的结构的示例的图。

降混单元217-1包括输入端子361-1至361-6、乘法单元362至365、加法单元366至371、输出端子372-1、以及输出端子372-2。

将通道L、R、C、Ls、Rs、以及LFE的音频数据从切换单元216分别地提供给输入端子361-1至361-6。

输入端子361-1至361-6将从切换单元216所提供的音频数据分别地提供给加法单元366、加法单元369、以及乘法单元362至365。

乘法单元362至365将从输入端子361-1至361-6所提供的音频数据与降混系数相乘，并且将音频数据分别地提供给加法单元366和369、加法单元367、加法单元370、以及加法单元368和371。

加法单元366将从输入端子361-1所提供的音频数据与从乘法单元362所提供的音频数据相加，并且将相加后的音频数据提供给加法单元367。加法单元367将从加法单元366所提供的音频数据与从乘法单元363所提供的音频数据相加，并且将相加后的音频数据提供给加法单元368。

加法单元368将从加法单元367所提供的音频数据与从乘法单元365所提供的音频数据相加，并且将相加后的音频数据提供给输出端子372-1。输出端子372-1将从加法单元368所提供的音频数据作为降混之后L通道的音频数据提供给增益调整单元218。

加法单元369将从输入端子361-2所提供的音频数据与从乘法单元362所提供的音频数据相加，并且将相加后的音频数据提供给加法单元370。加法单元370将从加法单元369所提供的音频数据与从乘法单元364所提供的音频数据相加，并且将相加后的音频数据提供给加法单元371。

加法单元371将从加法单元370所提供的音频数据与从乘法单元365所提供的音频数据相加，并且将相加后的音频数据提供给输出端子372-2。输出端子372-2将从加法单元371所提供的音频数据作为降混之后R通道的音频数据提供给增益调整单元218。

在下文中，当输入端子361-1至361-6不需要彼此特别地区分时，其被简称为输入端子361。当输出端子372-1和372-2不需要彼此特别地区分时，其被简称为输出端子372。

同样地，在降混单元217-1中，执行与使用以上提及的表达式(1)进行的计算相对应的处理。

图35是示出图29所示的降混单元217-2的结构的示例的图。

降混单元217-2包括输入端子401-1至401-6、乘法单元402至405、加法单元406、减法单元407、减法单元408、加法单元409至413、输出端子414-1以及输出端子414-2。

将通道L、R、C、Ls、Rs、以及LFE的音频数据从切换单元216分别地提供给输入端子401-1至401-6。

输入端子401-1至401-6将从切换单元216所提供的音频数据分别地提供给加法单元406、加法单元410、以及乘法单元402至405。

乘法单元402至405将从输入端子401-3至401-6所提供的音频数据与降混系数相乘，并且将音频数据分别地提供给加法单元406和410、减法单元407和加法单元411、减法单元408和加法单元412、以及加法单元409和413。

加法单元406将从输入端子401-1所提供的音频数据与从乘法单元402所提供的音频数据相加，并且将相加后的音频数据提供给减法单元407。减法单元407将从加法单元406所提供的音频数据中减去从乘法单元403所提供的音频数据，并且将相减后的音频数据提供给减法单元408。

减法单元408将从减法单元407所提供的音频数据中减去从乘法单元404所提供的音频数据，并且将相减后的音频数据提供给加法单元409。加法单元409将从减法单元408所提供的音频数据与从乘法单元405所提供的音频数据相加，并且将相加后的音频数据提供给输出端子414-1。输出端子414-1将从加法单元409所提供的音频数据作为降混之后L通道的音频数据提供给增益调整单元218。

加法单元410将从输入端子401-2所提供的音频数据与从乘法单元402所提供的音频数据相加，并且将相加后的音频数据提供给加法单元411。加法单元411将从加法单元410所提供的音频数据与从乘法单元403所提供的音频数据相加，并且将相加后的音频数据提供给加法单元412。

加法单元412将从加法单元411所提供的音频数据与从乘法单元404所提供的音频数据相加，并且将相加后的音频数据提供给加法单元413。加法单元413将从加法单元412所提供的音频数据与从乘法单元405所提供的音频数据相加，并且将相加后的音频数据提供给输出端子414-2。输出端子414-2将从加法单元413所提供的音频数据作为降混之后R通道的音频数据提供给增益调整单元218。

在下文中，当输入端子401-1至401-6不需要彼此特别地区分时，其被简称为输入端子401。当输出端子414-1和414-2不需要彼此特别地区分时，其被简称为输出端子414。

同样地，在降混单元217-2中，执行与使用以上提及的表达式(2)进行的计算相对应的处理。

[解码操作的描述]

接下来，将参照图36所示的流程图来描述解码装置141的解码处理。

在步骤S111中，分离单元61获取从编码装置91所输出的编码比特流和降混形式参数。例如，从包括解码装置的信息处理装置获取降混形式参数。

分离单元61将所获取的降混形式参数提供给切换单元151和降混处理单元152。另外，如果需要，分离单元61获取音频数据的输出文件名称，并且适当地使用输出文件名称。

在步骤S112中，分离单元61对编码比特流进行解包，并且将通过解包所获得的每个要素提供给解码单元62。

在步骤S113中，PCE解码单元161对从分离单元61所提供的PCE进行解码。例如，PCE解码单元161从PCE的注释区域中读取作为扩展区域的“height_extension_element”或从PCE中读出关于扬声器的布置的信息。在此，作为关于扬声器的布置的信息，读出例如由布置在用户的前方、侧方、以及后方的扬声器所再现的通道的数量、或指示每个音频数据属于C、L、以及R通道中的哪个的信息。

在步骤S114中，DSE解码单元162对从分离单元61所提供的DSE进行解码。例如，DSE解码单元162从DSE中读出“MPEG4辅助数据”或从“MPEG4辅助数据”中读出需要的信息。

具体地，例如，DSE解码单元162的降混信息解码单元174从图9所示的“downmixing_levels_MPEG4()”读出“center_mix_level_value”或“surround_mix_level_value”作为用于指定用于降混的系数的信息，并且将所读出的信息提供给降混处理单元152。

在步骤S115中，音频要素解码单元163对从分离单元61所提供的、在SCE、CPE、以及LFE的每个中所存储的音频数据进行解码。以这种方式，获得每个通道的PCM数据作为音频数据。

例如，可以通过诸如存储音频数据的SCE的要素或通过DSE的解码所获得的关于扬声器的布置的信息，指定解码音频数据的通道(即，在水平平面上的布置位置)。然而，此时，因为未读出作为关于扬声器的布置高度的信息的扬声器布置信息，所以未指定每个通道的高度(层)。

音频要素解码单元163将通过解码所获得的音频数据提供给切换单元151。

在步骤S116中，切换单元151基于从分离单元61所提供的降混形式参数来确定是否对音频数据进行降混。例如，当降混形式参数指示未执行降混时，切换单元151确定不执行降混。

在步骤S116中，当确定未执行降混时，切换单元151将从解码单元62所提供的音频数据提供给重排处理单元181并且处理继续到步骤S117。

在步骤S117中，解码装置141基于扬声器的布置来执行对每个音频数据进行重排的重排处理，并且输出音频数据。当输出音频数据时，解码处理结束。另外，以下将详细地描述重排处理。

另一方面，当在步骤S116中确定执行降混时，切换单元151将从解码单元62所提供的音频数据提供给降混处理单元152的切换单元211，并且处理继续到步骤S118。

在步骤S118中，解码装置141执行将每个音频数据降混到与由降混形式参数所指示的通道的数量相对应的音频数据的降混处理，并且输出音频数据。当输出音频数据时，解码处理结束。另外，以下将详细描述降混处理。

以这种方式，解码装置141对编码比特流进行解码，并且输出音频数据。

[重排处理的描述]

接下来，将参照图37和图38所示的流程图来描述与图36的步骤S117中的处理相对应的重排处理。

在步骤S141中，同步字检测单元171设置用于从PCE的注释区域(扩展区域)中读出同步字的参数cmt_byte，使得cmt_byte等于PCE的注释区域中字节的数量。即，将注释区域中字节的数量设置为参数cmt_byte的值。

在步骤S142中，同步字检测单元171从PCE的注释区域中读出与预定同步字的数据量相对应的数据。例如，在图4所示的示例中，因为作为同步字的“PCE_HEIGHT_EXTENSION_SYNC”为8比特(即，1字节)，所以从PCE的注释区域的头部中读出1字节数据。

在步骤S143中，PCE解码单元161确定在步骤S142中所读出的数据与同步字是否相同。即，确定所读出的数据是否为同步字。

当在步骤S143中确定所读出的数据与同步字不同时，在步骤S144中，同步字检测单元171将参数cmt_byte的值减少与所读出的数据量相对应的值。在这种情况下，参数cm_byte的值减少1字节。

在步骤S145中，同步字检测单元171确定参数cmt_byte的值是否大于0。即，确定参数cmt_byte的值是否大于0，也即，确定是否读出了注释区域中的所有数据。

当在步骤S145中确定参数cmt_byte的值大于0时，则未读出注释区域中的所有数据，并且处理返回到步骤S142。然后，重复以上提及的处理。即，在从注释区域中所读出的数据之后，读出与同步字的数据量相对应的数据，并且将其与同步字进行比较。

另一方面，当在步骤S145中确定参数cmt_byte的值不大于0时，处理继续到步骤S146。同样地，当读出了注释区域中的所有数据但是未从注释区域中检测到同步字时，处理继续到步骤S146，。

在步骤S146中，PCE解码单元161确定不存在扬声器布置信息，并且将指示不存在扬声器布置信息的信息提供给重排处理单元181。处理继续到步骤S164。同样地，因为同步字被布置在紧接“height_extension_element”中的扬声器布置信息之前，所以也可以简单地并且可靠地指定在注释区域中所包括的信息是否是扬声器布置信息。

当在步骤S143中确定从注释区域中所读出的数据与同步字相同时，检测到同步字。因此，为了读出紧接在同步字之后的扬声器布置信息，处理继续到步骤S147。

在步骤S147中，PCE解码单元161将用于读出由布置在用户前方的扬声器所再现的音频数据的扬声器布置信息的参数num_fr_elem的值，设置为属于前方的要素的数量。

在此，属于前方的要素的数量是由布置在用户前方的扬声器所再现的音频数据的数量(通道的数量)。要素的数量被存储在PCE中。因此，参数num_fr_elem的值为从“height_extension_element”所读出的、并且由布置在用户前方的扬声器所再现的音频数据的扬声器布置信息的数量。

在步骤S148中，PCE解码单元161确定参数num_fr_elem的值是否大于0。

当在步骤S148中确定参数num_fr_elem的值大于0时，因为未读出所有扬声器布置信息，所以处理继续到步骤S149。

在步骤S149中，PCE解码单元161读出与布置在注释区域中的同步字之后的一个要素相对应的扬声器布置信息。在图4所示的示例中，因为一个扬声器布置信息是2比特，所以紧接在从注释区域所读出的数据之后布置的2比特的数据被读出作为扬声器布置信息。

例如，可以基于“height_extension_element”中的扬声器布置信息的布置位置或诸如SCE的存储音频数据的要素，指定关于音频数据的每个扬声器布置信息。

在步骤S150中，因为读出了一个扬声器布置信息，所以PCE解码单元161将参数num_fr_elem的值减少1。在对参数num_fr_elem进行更新之后，处理返回到步骤S148，并且重复以上提及的处理。即，读出下一个扬声器布置信息。

当在步骤S148中确定参数num_fr_elem不大于0时，因为读出了关于前方要素的所有扬声器布置信息，所以处理继续到步骤S151。

在步骤S151中，PCE解码单元161将用于读出由布置在用户侧方的扬声器所再现的音频数据的扬声器布置信息的参数num_side_elem的值，设置为属于侧方的要素的数量。

在此，属于侧方的要素的数量是由布置在用户侧方的扬声器所再现的音频数据的数量。要素的数量被存储在PCE中。

在步骤S152中，PCE解码单元161确定参数num_side_elem的值是否大于0。

当在步骤S152中确定参数num_side_elem的值大于0时，PCE解码单元161在步骤S153中读出与一个要素相对应的、并且布置在从注释区域中所读出的数据之后的扬声器布置信息。在步骤S153中所读出的扬声器布置信息是在用户侧方的通道的扬声器布置信息，即“side_element_height_info[i]”。

在步骤S154中，PCE解码单元161将参数num_side_elem的值减少1。在对参数num_side_elem进行更新之后，处理返回到步骤S152，并且重复以上提及的处理。

另一方面，当在步骤S152中确定参数num_side_elem的值不大于0时，因为读出了侧方要素的所有扬声器布置信息，所以处理继续到步骤S155。

在步骤S155中，PCE解码单元161将用于读出由布置在用户后方的扬声器所再现的音频数据的扬声器布置信息的参数num_back_elem的值，设置为属于后方的要素的数量。

在此，属于后方的要素的数量是由布置在用户后方的扬声器所再现的音频数据的数量。要素的数量被存储在PCE中。

在步骤S156中，PCE解码单元161确定参数num_back_elem的值是否大于0。

当在步骤S156中确定参数num_back_elem的值大于0时，PCE解码单元161在步骤S157中读出与一个要素相对应的、并且布置在从注释区域中所读出的数据之后的扬声器布置信息。在步骤S157中所读出的扬声器布置信息是布置在用户后方的通道的扬声器布置信息，即“back_element_height_info[i]”。

在步骤S158中，PCE解码单元161将参数num_back_elem的值减少1。在对参数num_back_elem进行更新之后，处理返回到步骤S156，并且重复以上提及的处理。

当在步骤S156中确定参数num_back_elem的值不大于0时，因为读出了关于后方要素的所有扬声器布置信息，所以处理继续到步骤S159。

在步骤S159中，标识信息计算单元172执行字节对齐。

例如，在图4所示的“height_extension_element”中的扬声器布置信息之后存储用于指示执行字节对齐的信息“byte_alignment()”。因此，当读出此信息时，标识信息计算单元172执行字节对齐。

具体地，标识信息计算单元172将预定数据加到紧接在“height_extension_element”中的“PCE_HEIGHT_EXTENSION_SYNC”与“byte_alignment()”之间所读出的信息之后，使得所读出的信息的数据量是8比特的整数倍数。即，执行字节对齐，使得所读出的同步字、扬声器布置信息、以及相加的数据的数据总量为8比特的整数倍数。

在此示例中，音频数据的通道的数量(即，在比编码比特流中所包括的扬声器布置信息的数量)在预定范围中。因此，通过字节对齐所获得的数据(即，包括同步字、扬声器布置信息、以及相加的数据的一个数据(在下文中，也被称为对齐数据))必定是预定的数据量。

换言之，对齐数据的量必定是预定的数据量，而与在“height_extension_element”中所包括的扬声器布置信息的数量(即，音频数据的通道数量)无关。因此，如果生成对齐数据时，对齐数据的量不是预定的数据量，则PCE解码单元161确定所读出的扬声器布置信息不是正确的扬声器布置信息，即，所读出的扬声器布置信息无效。

在步骤S160中，标识信息计算单元172读出“height_extension_element”中的、在步骤S159中所读出的“byte_alignment”之后的标识信息(即，“heigh_info_crc_check”中所存储的信息)。在此，例如，CRC校验码被读出作为标识信息。

在步骤S161中，标识信息计算单元172基于在步骤S159中所获得的对齐数据来计算标识信息。例如，将CRC校验码计算为标识信息。

在步骤S162中，PCE解码单元161确定在步骤S160中所读出的标识信息是否与在步骤S161中所计算出的标识信息相同。

当对齐数据的量不是预定的数据的量时，PCE解码单元161不执行步骤S160和步骤S161，并且在步骤S162中确定标识信息彼此不同。

当在步骤S162中确定标识信息彼此不同时，PCE解码单元161使得所读出的扬声器布置信息无效，并且在步骤S163中将指示所读出的扬声器信息无效的信息提供给重排处理单元181和降混处理单元152。然后，处理继续到步骤S164。

当执行步骤S163中的处理或步骤S146中的处理时，重排处理单元181在步骤S164中按照预定的扬声器布置输出从切换单元151所提供的音频数据。

在这种情况下，例如，重排处理单元181基于从PCE解码单元161所提供的以及从PCE所读出的关于扬声器布置的信息，确定每个音频数据的扬声器布置。由重排处理单元181所使用以确定扬声器的布置的信息的参考目的地依赖于使用音频数据的服务或应用，并且是基于音频数据的通道数量而预定的。

当执行步骤S164中的处理时，重排处理结束。然后，图36的步骤S117中的处理结束。因此，解码处理结束。

另一方面，当在步骤S162中确定标识信息彼此相同时，在步骤S165中，PCE解码单元161使得所读出的扬声器布置信息有效，并且将扬声器布置信息提供给重排处理单元181和降混处理单元152。在这种情况下，PCE解码单元161还将从PCE所读出的关于扬声器的布置的信息提供给重排处理单元181和降混处理单元152。

在步骤S166中，重排处理单元181根据例如由从PCE解码单元161所提供的扬声器布置信息所确定的扬声器的布置，输出从切换单元151所提供的音频数据。即，按照例如由扬声器布置信息所确定的顺序重排每个通道的音频数据，并且然后将其输出到下一个阶段。当执行步骤S166中的处理时，重排处理结束。然后，图36所示的步骤S117中的处理结束。因此，解码处理结束。

以这种方式，解码装置141从PCE的注释区域中检查同步字或CRC校验码，读出扬声器布置信息，以及根据与扬声器布置信息相对应的布置输出解码音频数据。

同样地，因为读出了扬声器布置信息并且确定了扬声器的布置(声音源的位置)，所以可以在垂直方向上对声音图像进行再现，并且可以获得高质量真实感的声音。

另外，因为使用同步字和CRC校验码读出扬声器布置信息，所以可以可靠地从注释区域中读出扬声器布置信息，在注释区域中，例如很可能存储有其他文本信息。即，可以可靠地区分扬声器布置信息与其他信息。

具体地，解码装置141使用三个要素(即，同步字的一致、CRC校验码的一致、以及对齐数据量的一致)来区分扬声器布置信息与其他信息。因此，可以防止扬声器布置信息的检测的错误。同样地，因为防止了扬声器布置信息的检测的错误，所以可以根据正确的扬声器的布置对音频数据进行再现，并且可以获得高质量真实感的声音。

[降混处理的说明]

接下来，将参照图39所示的流程图来描述与图36的步骤S118中的处理相对应的降混处理。在这种情况下，将每个通道的音频数据从切换单元151提供给降混处理单元152的切换单元211。

在步骤S191中，DSE解码单元162的扩展检测单元173从DSE的“MPEG4_ancillary_data()”中的“ancillary_data_status()”中读出“ancillary_data_extension_status”。

在步骤S192中，扩展检测单元173确定所读出的“ancillary_data_extension_status”是否为1。

当在步骤S192中确定“ancillary_data_extension_status”不为1、即，“ancillary_data_extension_status”为0时，降混处理单元152在步骤S193中使用预定方法来对音频数据进行降混。

例如，降混处理单元152使用由从降混信息解码单元174所提供的“center_mix_level_value”或“surround_mix_level_value”所确定的系数，对从切换单元151所提供的音频数据进行降混，并且将音频数据提供给输出单元63。

当ancillary_data_extension_status”为0时，可以根据任一方法执行降混处理。

在步骤S194中，输出单元63将从降混处理单元152所提供的音频数据输出到下一阶段，而不对音频数据进行任何改变。然后，降混处理结束。以这种方式，图36的步骤S118中的处理结束。因此，解码处理结束。

另一方面，当在步骤S192中确定“ancillary_data_extension_status”为1时，处理继续到步骤S195。

在步骤S195中，降混信息解码单元174读出图11所示的“MPEG4_ext_ancillary_data()”的“ext_downmixng_levels()”中的信息，并且将所读出的信息提供给降混处理单元152。以这种方式，例如，读出图13所示的“dmix_a_idx”和“dmix_b_idx”。

当图12所示的、在“MPEG4_ext_ancillary_data()”中所包括的“ext_downmixng_levels_status”为0时，不执行“dmix_a_idx”和“dmix_b_idx”的读出。

在步骤S196中，降混信息解码单元174读出“MPEG4_ext_ancillary_data()”的“ext_downmixng_global_gains()”中的信息，并且将所读出的信息输出到降混处理单元152。以这种方式，例如，读出图15所示的信息，即“dmx_gain5_sign”、“dmx_gain_5_idx”、“dmx_gain_2_sign”、以及“dmx_gain_2_idx”。

当图12所示的、在“MPEG4_ext_ancillary_data()”中所包括的“ext_downmixng_global_gains_status”为0时，不执行信息的读出。

在步骤S197中，降混信息解码单元174读出“MPEG4_ext_ancillary_data()”的“ext_downmixng_lfe_level()”中的信息，并且将所读出的信息提供给降混处理单元152。以这种方式，例如，读出图16所示的“dmix_lfe_idx”。

具体地，降混信息解码单元174读出图12所示的“ext_downmixng_lfe_level_status”，并且基于“ext_downmixng_lfe_level_status”的值读出“dmix_lfe_idx”。

即，当“MPEG4_ext_ancillary_data()”中所包括的“ext_downmixng_lfe_level_status”为0时，不执行“dmix_lfe_idx”的读出。以这种方式，在以下将描述的、从5.1通道到2通道的音频数据的降混中不使用LFE通道的音频数据。即，与LFE通道的音频数据相乘的系数为0。

在步骤S198中，降混信息解码单元174从图7所示的“MPEG4辅助数据”的“bs_info()”中读出在“pseudo_surround_enable”中所存储的信息，并且将所读出的信息提供给降混处理单元152。

在步骤S199中，降混处理单元152基于从分离单元61所提供的降混形式参数，确定是否从2通道输出音频数据。

例如，当降混形式参数指示从7.1通道或6.1通道到2通道的降混或从5.1通道到2通道的降混时，确定从2通道输出音频数据。

当在步骤S199中确定音频数据是来自2通道的输出时，处理继续到步骤S200。在这种情况下，将切换单元214的输出目的地改变为切换单元216。

在步骤S200中，降混处理单元152基于从分离单元61所提供的降混形式参数，确定音频数据的输入是否是5.1通道。例如，当降混形式参数指示从5.1通道到2通道的降混时，确定输入是5.1通道。

当在步骤S200中确定输入不是5.1通道时，处理继续到步骤S201，并且执行从7.1通道或6.1通道到2通道的降混。

在这种情况下，切换单元211将从切换单元151所提供的音频数据提供给切换单元212。切换单元212基于从PCE解码单元161所提供的、关于扬声器布置的信息，将从切换单元211所提供的音频数据提供给降混单元213-1至213-4中的任一个。例如，当音频数据是6.1通道的数据时，将每个通道的音频数据提供给降混单元213-1。

在步骤S201中，降混单元213基于从降混信息解码单元174所提供的以及从“ext_downmixng_levels()”所读出的“dmix_a_idx”和“dmix_b_idx”，执行到5.1通道的降混。

例如，当将音频数据提供给降混单元213-1时，降混单元213-1参照图19所示的表、将针对“dmix_a_idx”和“dmix_b_idx”的值所确定的常数分别地设置为常数g1和g2。然后，降混单元213-1分别地使用常数g1和g2作为在乘法单元242和243以及乘法单元244中所使用的系数，使用表达式(6)生成5.1通道的音频数据，以将音频数据提供给切换单元214。

类似地，当将音频数据提供给降混单元231-2时，降混单元213-2将针对dmix_a_idx”和“dmix_b_idx”的值所确定的常数分别地设置为常数e1和e2。然后，降混单元213-2分别地使用常数e1和e2作为在乘法单元273和274以及乘法单元272和275中所使用的系数，使用表达式(4)生成5.1通道的音频数据，以及将所获得的5.1通道的音频数据提供给切换单元214。

当将音频数据提供给降混单元213-3时，降混单元213-3将针对“dmix_a_idx”和“dmix_b_idx”的值所确定的常数分别地设置为常数d1和d2。然后，降混单元213-3分别地使用常数d1和d2作为在乘法单元302和303以及乘法单元304和305中所使用的系数，使用表达式(3)生成音频数据，以及将所获得的音频数据提供给切换单元214。

当将音频数据提供给降混单元213-4时，降混单元213-4将针对“dmix_a_idx”和“dmix_b_idx”的值所确定的常数分别地设置为常数f1和f2。然后，降混单元213-4分别地使用常数f1和f2作为在乘法单元332和333以及乘法单元334和335中所使用的系数，使用表达式(5)生成音频数据，以及将所获得的音频数据提供给切换单元214。

当将5.1通道的音频数据提供给切换单元214时，切换单元214将从降混单元213所提供的音频数据提供给切换单元216。切换单元216基于从降混信息解码单元174所提供的“pseudo_surround_enable”的值，将从切换单元214所提供的音频数据提供给降混单元217-1或降混单元217-2。

例如，当“pseudo_surround_enable”的值为0时，将音频数据提供给降混单元217-1。当“pseudo_surround_enable”的值为1时，将音频数据提供给降混单元217-2。

在步骤S202中，降混单元217基于从降混信息解码单元174所提供的关于降混的信息，执行将从切换单元216所提供的音频数据降混到2通道的处理。即，基于“downmixing_levels_MPEG4()”中的信息和“ext_downmixing_lfe_level()”中的信息执行到2通道的降混。

例如，当将音频数据提供给降混单元217-1时，降混单元217-1参照图19所示的表、将针对“center_mix_level_value”和“surround_mix_level_value”的值所确定的常数分别地设置为常数a和b。另外，降混单元217-1参照图18所示的表、将针对“dmix_lfe_idx”的值所确定的常数设置为常数c。

然后，降混单元217-1分别地使用常数a、b、以及c作为在乘法单元363和364、乘法单元362、以及乘法单元365中所使用的系数，使用表达式(1)生成音频数据、以及将所获得的2通道的音频数据提供给增益调整单元218。

当将音频数据提供给降混单元217-2时，降混单元217-2与降混单元217-1类似地确定常数a、b、以及c。然后，降混单元217-2分别地使用常数a、b、以及c作为在乘法单元403和404、乘法单元402以及乘法单元405中所使用的系数，使用表达式(2)生成音频数据，以及将所获得的音频数据提供给增益调整单元218。

在步骤S203中，增益调整单元218基于从降混信息解码单元174所提供的以及从“ext_downmixing_global_gains()”中所读出的信息，调整来自降混单元217的音频数据的增益。

具体地，增益调整单元218基于从“ext_downmixing_global_gains()”所读出的“dmx_gain5_sign”、“dmx_gain_5_idx”、“dmx_gain_2_sign”、以及“dmx_gain_2_idx”来计算表达式(11)，并且计算增益值dmx_gain_7to2。然后，增益调整单元218将每个通道的音频数据乘以增益值dmx_gain_7to2，并且将音频数据提供给输出单元63。

在步骤S204中，输出单元63将从增益调整单元218所提供的音频数据输出到下一阶段，而不对音频数据进行任何改变。然后，降混处理结束。以这种方式，图36的步骤S118中的处理结束。因此，结束解码处理。

当从重排处理单元181输出音频数据时以及当从降混处理单元152输出音频数据而不进行任何改变时，从输出单元63输出音频数据。在输出单元63之后的阶段中，可以预定要使用的音频数据的两个输出中的一个。

当在步骤S200中确定输入是5.1通道时，处理继续到步骤S205，并且执行从5.1通道到2通道的降混。

在这种情况下，切换单元211将从切换单元151所提供的音频数据提供给切换单元216。切换单元216基于从降混信息解码单元174所提供的“pseudo_surround_enable”的值，将从切换单元211所提供的音频数据提供给降混单元217-1或降混单元217-2。

在步骤S205中，降混单元217基于从降混信息解码单元174所提供的关于降混的信息，执行将从切换单元216所提供的音频数据降混到2通道的处理。另外，在步骤S205中，执行与步骤S202中的处理相同的处理。

在步骤S206中，增益调整单元218基于从降混信息解码单元174所提供的以及从“ext_downmixing_global_gains()”所读出的信息，调整从降混单元217所提供的音频数据的增益。

具体地，增益调整单元218基于从“ext_downmixing_global_gains()”所读出的“dmx_gain_2_sign”和“dmx_gain_2_idx”计算表达式(9)，并且将通过计算所获得的音频数据提供给输出单元63。

在步骤S207中，输出单元63将从增益调整单元218所提供的音频数据输出到下一阶段，而不对音频数据进行任何改变。然后降混处理结束。以这种方式，图36的步骤S118中的处理结束。因此，解码处理结束。

当在步骤S199中确定音频数据不是来自2通道的输出时，即，音频数据是来自5.1通道的输出时，处理继续到步骤S208，并且执行从7.1通道或6.1通道到5.1通道的降混。

在这种情况下，切换单元211将从切换单元151所提供的音频数据提供给切换单元212。切换单元212基于从PCE解码单元161所提供的关于扬声器布置的信息，将从切换单元211所提供的音频数据提供给降混单元213-1至213-4中的任一个。另外，切换单元214的输出目的地是增益调整单元215。

在步骤S208中，降混单元213基于从降混信息解码单元174所提供的以及从“ext_downmixing_levels()”所读出的“dmix_a_idx”和“dmix_b_idx”执行到5.1通道的降混。在步骤S208中，执行与步骤S201中的处理相同的处理。

当执行到5.1通道的降混并且将音频数据从降混单元213提供给切换单元214时，切换单元214将所提供的音频数据提供给增益调整单元215。

在步骤S209中，增益调整单元215基于从降混信息解码单元174所提供的以及从“ext_downmixing_global_gains()”所读出的信息，调整从切换单元214所提供的音频数据的增益。

具体地，增益调整单元215基于从“ext_downmixing_global_gains()”所读出的“dmx_gain_5_sign”和“dmx_gain_5_idx”来计算表达式(7)，并且将通过计算所获得的音频数据提供给输出单元63。

在步骤S210中，输出单元63将从增益调整单元215所提供的音频数据输出到下一阶段，而不对音频数据进行任何改变。然后，降混处理结束。以这种方式，图36的步骤S118中的处理结束。因此，解码处理结束。

以这种方式，解码装置141基于从编码比特流所读出的信息对音频数据进行降混。

例如，在编码比特流中，因为“pseudo_surround_enable”包括在DSE中，所以可以使用在多种方法中最适合音频数据的方法来执行从5.1通道到2通道的降混处理。因此，可以在解码侧获得高质量真实感的声音。

另外，在编码比特流中，将指示是否包括扩展信息的信息存储在“ancillary_data_extension_status”中。因此，可以参考该信息来指定在扩展区域中是否包括扩展信息。当可以获得扩展信息时，可以改进音频数据的降混的灵活性。因此，可以获得高质量真实感的声音。

以上提及的处理系列可以由硬件或软件执行。当由软件执行处理系列时，构成软件的程序被安装在计算机中。在此，计算的示例包括专用硬件中所包含的计算机、以及其中安装有各种程序并且可以执行各种功能的通用个人计算机。

图40是示出运行程序以执行以上提及的处理系列的计算机的硬件结构的示例的框图。

在计算机中，中央处理单元(CPU)501、只读存储器(ROM)502、以及随机存取存储器(RAM)503通过总线504彼此连接。

输入/输出接口505连接到总线504。输入单元506、输出单元507、记录单元508、通信单元509、以及驱动器510连接到输入/输出接口505。

输入单元506包括例如键盘、鼠标、麦克风、以及成像元件。输出单元507包括例如显示器和扬声器。记录单元508包括硬盘和非易失性存储器。通信单元509是例如网络接口。驱动器510驱动诸如磁盘、光盘、磁光盘、或半导体磁存储的可移除介质511。

在具有以上提及的结构的计算机中，例如，CPU 501将在记录单元508上所记录的程序通过输入/输出接口505和总线504载入到RAM 503。然后，执行以上提及的处理系列。

由计算机(CPU 501)所运行的程序可以记录在作为封装介质的可移除介质511上，并且然后被提供。替选地，可以经由有线的或无线的传输介质(诸如局域网、互联网、或数字卫星广播)来提供该程序。

在计算机中，可移除介质511可以***到驱动器510中，以通过输入/输出接口505将程序安装到记录单元508中。另外，程序可以由通信单元509通过有线的或无线的传输介质所接收，并且然后安装在记录单元508中。替选地，程序可以预先地安装在ROM 502或记录单元508中。

要由计算机所运行的程序可以是用于依照在本说明书中所描述的序列、按照时间顺序执行操作的程序，或可以是用于并行地执行操作或当需要时(诸如当存在调用时)执行操作的程序。

本技术的实施例不限于以上所述的实施例，而且还可以在不背离本技术的范围和精神的情况下对实施例进行各种修改和改变。

例如，本技术可以具有云计算结构，在云计算结构中，由多个装置通过网络分担一个功能，并且由多个装置协作地处理该一个功能。

在以上所述的实施例中，由一个装置执行在以上提及的流程图中所描述的每个步骤。然而，可以由多个装置分担并且执行每个步骤。

在以上所述的实施例中，当一个步骤包括多个处理时，在一个步骤中所包括的多个处理由一个装置执行。然而，该多个处理可以由多个装置分担并且执行。

另外，本技术可以具有下面的结构。

[1].一种解码装置，包括：

标识信息检测单元，从能够存储编码比特流的任意数据的区域读出用于标识是否存在预定信息的标识信息；以及

读出单元，基于多个所述标识信息、从能够存储所述任意数据的区域读出所述预定信息。

[2].根据[1]所述的解码装置，将预定第一标识信息和基于所述预定信息计算出的第二标识信息作为所述标识信息存储在能够存储所述任意数据的区域中。

[3].根据[2]所述的解码装置，当在能够存储所述任意数据的区域中所包括的所述第一标识信息是预定特定信息、并且从能够存储所述任意数据的区域所读出的所述第二标识信息与基于所读出的预定信息计算出的所述第二标识信息相同时，所述读出单元确定所述预定信息是有效信息。

[4].根据[2]或[3]所述的解码装置，当所读出的第一标识信息是预定特定信息时，所述读出单元开始读出布置在能够存储所述任意数据的区域中的所述第一标识信息之后的所述预定信息。

[5].根据[2]至[4]中任一项所述的解码装置，基于通过对于包括所述预定信息的信息执行字节对齐所获得的信息，计算所述第二标识信息。

[6].根据[5]所述的解码装置，在能够存储所述任意数据的区域中包括在预定范围中的任意数量的所述预定信息，以及当通过所述字节对齐所获得的信息不具有预定大小时，所述读出单元确定所述预定信息是无效信息。

[7].根据[1]至[6]中任一项所述的解码装置，所述预定信息是与音频数据有关的信息，以及所述解码装置还包括解码单元，其对在所述编码比特流中所包括的所述音频数据进行解码。

[8].一种解码方法，包括：

从能够存储编码比特流的任意数据的区域读出用于标识是否存在预定信息的标识信息的步骤；以及

基于多个所述标识信息、从能够存储所述任意数据的区域读出所述预定信息的步骤。

[9].一种使得计算机执行处理的程序，所述处理包括：

[10].一种编码装置，包括：

编码单元，对用于标识是否存在预定信息的多个标识信息和所述预定信息进行编码；以及

打包单元，将编码预定信息和编码标识信息存储在能够存储任意数据的区域中，并且生成编码比特流。

[11].根据[10]所述的编码装置，将预定第一标识信息和基于所述预定信息计算出的第二标识信息作为所述标识信息存储在能够存储所述任意数据的区域中。

[12].根据[11]所述的编码装置，当在能够存储所述任意数据的区域中所包括的所述第一标识信息是预定特定信息、并且从能够存储所述任意数据的区域所读出的所述第二标识信息与基于所读出的预定信息计算出的所述第二标识信息相同时，所述预定信息被确定为有效信息。

[13].根据[11]或[12]所述的编码装置，所述预定信息布置在能够存储所述任意数据的区域中的所述第一标识信息之后，以及当所读出的第一标识信息是预定特定信息时，开始读出所述预定信息。

[14].根据[11]至[13]中任一项所述的编码装置，进一步将如下信息存储在能够存储所述任意数据的区域中：用于指示执行用于包括所述预定信息的信息的字节对齐的信息、和用于指示在基于通过所述字节对齐所获得的信息计算出的所述第二标识信息与在能够存储所述任意数据的区域中所存储的所述第二标识信息之间进行比较的信息。

[15].根据[14]所述的编码装置，在能够存储所述任意数据的区域中存储在预定范围中的任意数量的所述预定信息，以及当通过所述字节对齐所获得的信息不具有预定大小时，所述预定信息被确定为无效信息。

[16].根据[10]至[15]所述的编码装置，所述预定信息是与音频数据有关的信息，所述编码单元对所述音频数据进行编码，以及所述打包单元将编码音频数据存储在所述编码比特流中。

[17].一种编码方法，包括：

对用于标识是否存在预定信息的多个标识信息和所述预定信息进行编码的步骤；以及

将编码预定信息和编码标识信息存储在能够存储任意数据的区域中、并且生成编码比特流的步骤。

[18].一种使得计算机执行处理的程序，所述处理包括：

附图标记列表

11 编码装置

21 输入单元

22 编码单元

23 打包单元

51 解码装置

61 分离单元

62 解码单元

63 输出单元

91 编码装置

101 PCE编码单元

102 DSE编码单元

103 音频要素编码单元

111 同步字编码单元

112 布置信息编码单元

113 标识信息编码单元

114 扩展信息编码单元

115 降混信息编码单元

141 解码装置

152 降混处理单元

161 PCE解码单元

162 DSE解码单元

163 音频要素解码单元

171 同步字检测单元

172 标识信息计算单元

173 扩展检测单元

174 降混信息解码单元

181 重排处理单元

Claims

1.一种解码装置，包括：

标识信息检测单元，其读出标识信息，所述标识信息用于标识在根据先进音频编码AAC标准的AAC帧的编码比特流的程序配置元素字段的注释区域中是否存在预定信息；以及

读出单元，其基于多个所述标识信息、从所述注释区域读出所述预定信息，

其中，将预定第一标识信息和基于所述预定信息计算出的第二标识信息作为所述标识信息存储在所述注释区域中，

当在所述注释区域中所包括的所述第一标识信息是预定特定信息、并且从所述注释区域所读出的所述第二标识信息与基于所读出的预定信息计算出的所述第二标识信息相同时，所述读出单元确定所述预定信息是有效信息，以及

所述预定信息是关于在垂直方向上的扬声器的布置的信息。

2.根据权利要求1所述的解码装置，

其中，当所读出的第一标识信息是预定特定信息时，所述读出单元开始读出布置在所述注释区域中的所述第一标识信息之后的所述预定信息。

3.根据权利要求2所述的解码装置，

其中，基于通过对于包括所述预定信息的信息执行字节对齐所获得的信息，计算所述第二标识信息。

4.根据权利要求3所述的解码装置，

其中，在所述注释区域中包括在预定范围中的任意数量的所述预定信息，以及

当通过所述字节对齐所获得的信息不具有预定大小时，所述读出单元确定所述预定信息是无效信息。

5.根据权利要求4所述的解码装置，

其中，所述预定信息是与音频数据有关的信息，以及

所述解码装置还包括解码单元，其对在所述编码比特流中所包括的所述音频数据进行解码。

6.一种解码方法，包括：

读出标识信息的步骤，所述标识信息用于标识在根据先进音频编码AAC标准的AAC帧的编码比特流的程序配置元素字段的注释区域中是否存在预定信息；以及

基于多个所述标识信息、从所述注释区域读出所述预定信息的步骤，

当在所述注释区域中所包括的所述第一标识信息是预定特定信息、并且从所述注释区域所读出的所述第二标识信息与基于所读出的预定信息计算出的所述第二标识信息相同时，确定所述预定信息是有效信息，以及

所述预定信息是关于在垂直方向上的扬声器的布置的信息。

7.一种编码装置，包括：

打包单元，将编码预定信息和编码标识信息存储在根据先进音频编码AAC标准的AAC帧的编码比特流的程序配置元素字段的注释区域中，并且生成编码比特流，

当在所述注释区域中所包括的所述第一标识信息是预定特定信息、并且从所述注释区域所读出的所述第二标识信息与基于所读出的预定信息计算出的所述第二标识信息相同时，所述预定信息被确定为有效信息，以及

所述预定信息是关于在垂直方向上的扬声器的布置的信息。

8.根据权利要求7所述的编码装置，

其中，所述预定信息布置在所述注释区域中的所述第一标识信息之后，以及

当所读出的第一标识信息是预定特定信息时，开始读出所述预定信息。

9.根据权利要求8所述的编码装置，

其中，进一步将如下信息存储在所述注释区域中：用于指示执行用于包括所述预定信息的信息的字节对齐的信息、和用于指示在基于通过所述字节对齐所获得的信息计算出的所述第二标识信息与在所述注释区域中所存储的所述第二标识信息之间进行比较的信息。

10.根据权利要求9所述的编码装置，

其中，在所述注释区域中存储在预定范围中的任意数量的所述预定信息，以及

当通过所述字节对齐所获得的信息不具有预定大小时，所述预定信息被确定为无效信息。

11.根据权利要求10所述的编码装置，

其中，所述预定信息是与音频数据有关的信息，

所述编码单元对所述音频数据进行编码，以及

所述打包单元将编码音频数据存储在所述编码比特流中。

12.一种编码方法，包括：

将编码预定信息和编码标识信息存储在根据先进音频编码AAC标准的AAC帧的编码比特流的程序配置元素字段的注释区域中、并且生成编码比特流的步骤，

所述预定信息是关于在垂直方向上的扬声器的布置的信息。