CN116917985A - 用于处理多通道音频信号的装置和方法 - Google Patents

用于处理多通道音频信号的装置和方法 Download PDF

Info

Publication number
CN116917985A
CN116917985A CN202280011393.9A CN202280011393A CN116917985A CN 116917985 A CN116917985 A CN 116917985A CN 202280011393 A CN202280011393 A CN 202280011393A CN 116917985 A CN116917985 A CN 116917985A
Authority
CN
China
Prior art keywords
audio
channel
audio signal
signal
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280011393.9A
Other languages
English (en)
Inventor
李泰美
高祥铁
金敬来
金善民
金正奎
南佑铉
孙允宰
郑铉权
黄盛熙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020210140579A external-priority patent/KR20220107913A/ko
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Priority claimed from PCT/KR2022/001314 external-priority patent/WO2022158943A1/ko
Publication of CN116917985A publication Critical patent/CN116917985A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Stereophonic System (AREA)

Abstract

根据本公开的多种实施例,音频处理装置包括至少一个处理器,该处理器被配置为执行一个或多个指令以从至少一个第一音频信号获得下混的第二音频信号,获得与至少一个第一音频信号的误差消除相关的信息,从下混的第二音频信号解混至少一个第一音频信号,以及通过将与至少一个第一音频信号的误差消除相关的信息应用于从第二音频信号中解混的至少一个第一音频信号来重构至少一个第一音频信号。使用至少一个第一音频信号的原始信号功率或解码后的至少一个第一音频信号的第二信号功率中的至少一个来生成与误差消除相关的信息。

Description

用于处理多通道音频信号的装置和方法
技术领域
本公开涉及处理多通道音频信号的领域。具体而言,本公开涉及在听众前方从多通道音频信号处理三维(3D)音频通道布局的音频信号的领域。
背景技术
音频信号通常是二维(2D)音频信号,如2通道音频信号、5.1通道音频信号、7.1通道音频信号和9.1通道音频信号。
然而,由于音频信息在高置方向(height direction)上的不确定性,2D音频信号可能需要生成三维(3D)音频信号(例如,n通道音频信号或多通道音频信号,其中n是大于2的整数)来提供声音的空间3D效果。
在用于3D音频信号的传统通道布局中,通道被全方向地布置在听众周围。然而,根据机顶箱子(OTT)服务的扩展、电视(TV)分辨率的增加以及如平板电脑的电子设备屏幕的扩大,对于想要体验沉浸式声音(如家庭环境中的影院内容)的观众来说,需求日益增长。因此,需要处理3D音频通道布局(例如,在听众前方的3D音频通道布局)的音频信号,其中,考虑到对象(例如,声源)在屏幕上的声像表现,将通道布置在听众前方。
此外,在传统的3D音频信号处理***的情况下,已经对3D音频信号的每个独立通道的独立音频信号进行了编码/解码,并且具体地,为了在重构3D音频信号之后恢复二维(2D)音频信号,如传统的立体声音频信号,需要对重构的3D音频信号进行下混(down-mix)。
发明内容
技术问题
本公开的一个或多个实施例提供了对多通道音频信号的处理,用于支持听众前方的三维(3D)音频通道布局。
技术方案
为了克服技术问题,本公开的各种实施例提供了一种音频处理方法,该方法包括通过下混至少一个第一音频信号来生成第二音频信号。
音频处理方法还包括使用至少一个第一音频信号的原始信号功率或解码后的至少一个第一音频信号的第二信号功率中的至少一个,生成与至少一个第一音频信号的误差消除(error removal)相关的第一信息。
音频处理方法还包括传输与至少一个第一音频信号的误差消除相关的第一信息和下混的第二音频信号。
在一些实施例中,与至少一个第一音频信号的误差消除相关的第一信息可以包括关于用于误差消除的因子的第二信息。在这样的实施例中,生成与至少一个第一音频信号的误差消除相关的第一信息可以包括当至少一个第一音频信号的原始信号功率小于或等于第一值时,生成关于用于误差消除的因子的第二信息。在这样的实施例中,第二信息可以指示用于误差消除的因子的值是0。在其他实施例中,与至少一个第一音频信号的误差消除相关的第一信息可以包括关于用于误差消除的因子的第二信息。在这样的实施例中,生成与至少一个第一音频信号的误差消除相关的第一信息可以包括当至少一个第一音频信号的原始信号功率与第二音频信号的原始信号功率的第一比小于第二值时,基于至少一个第一音频信号的原始信号功率和解码后的至少一个第一音频信号的第二信号功率,生成关于用于误差消除的因子的第二信息。在其他实施例中,生成关于用于误差消除的因子的第二信息可以包括生成关于用于误差消除的因子的第二信息。在这样的实施例中,第二信息可以指示用于误差消除的因子的值是至少一个第一音频信号的原始信号功率与解码后的至少一个第一音频信号的第二信号功率的第二比。
在其他实施例中,生成关于用于误差消除的因子的第二信息可以包括,
当至少一个第一音频信号的原始信号功率与解码后的至少一个第一音频信号的第二信号功率的第二比大于1时,生成关于用于误差消除的因子的第二信息。在这样的实施例中,第二信息可以指示误差消除的因子的值是1。在其他实施例中,与至少一个第一音频信号的误差消除相关的第一信息可以包括关于用于误差消除的因子的第二信息。在这样的实施例中,生成与至少一个第一音频信号的误差消除相关的第一信息可以包括,当至少一个第一音频信号的原始信号功率与第二音频信号的原始信号功率的比大于或等于第二值时,生成关于用于误差消除的因子的第二信息。在这样的实施例中,第二信息可以指示用于误差消除的因子的值是1。
在其他实施例中,生成关于用于误差消除的因子的第二信息可以包括为第二音频信号的每一帧生成与至少一个第一音频信号的误差消除相关的第一信息。
在其他实施例中,下混的第二音频信号可以包括基本通道组的第三音频信号和从属通道组的第四音频信号。在这样的实施例中,从属通道组的第四音频信号可以包括第一从属通道的第五音频信号,该第一从属通道的第五音频信号包括听众前方的第一3D音频通道中包括的独立通道的第六音频信号。在这样的实施例中,通过混合第一从属通道的第五音频信号,可以获得在听众的侧方和后方的第二3D音频通道的第七音频信号。
在其他实施例中,基本通道组的第三音频信号可以包括第二通道的第八音频信号和第三通道的第九音频信号。在这样的实施例中,第二通道的第八音频信号可能已经通过在听众前方将左立体声通道的第十音频信号与中央通道的解码音频信号混合而生成。在这样的实施例中,第三通道的音频第九信号可能已经通过在听众前方将右立体声通道的第十一音频信号与中央通道的解码音频信号混合而生成。
在其他实施例中,下混的第二音频信号可以包括基本通道组的第三音频信号和从属通道组的第四音频信号。在这样的实施例中,发送与至少一个第一音频信号的误差消除相关的第一信息和下混的第二音频信号可以包括生成比特流,该比特流包括与至少一个第一音频信号的误差消除相关的第一信息和关于下混的第二音频信号的第二信息。传输与至少一个第一音频信号的误差消除相关的第一信息和下混的第二音频信号可以进一步包括传输比特流。
在这样的实施例中,比特流可以包括多个音频轨道的文件流。在这样的实施例中,比特流的生成可以包括生成包含基本通道组的压缩的第三音频信号的第一音频轨道的第一音频流。比特流的生成还可以包括生成包含从属通道音频信号标识信息的第二音频轨道的第二音频流,第二音频轨道与第一音频轨道相邻。比特流的生成可以进一步包括:当对应于基本通道组的第三音频信号的从属通道组的第四音频信号存在时,生成指示从属通道组的第四音频信号存在的从属通道音频信号标识信息。
在其他实施例中,当从属通道音频信号标识信息指示从属通道组的第四音频信号存在时,第二音频轨道的第二音频流可以包括从属通道组的压缩的第四音频信号。
在其他实施例中,当从属通道音频信号标识信息指示从属通道组的第四音频信号不存在时,第二音频轨道的第二音频流可以包括基本通道组的下一个轨道的第五音频信号。
在其他实施例中,下混的第二音频信号可以包括基本通道组的第三音频信号和从属通道组的第四音频信号。在这样的实施例中,基本通道组的第三音频信号可以包括立体声通道的第五音频信号。在这样的实施例中,传输与至少一个第一音频信号的误差消除相关的第一信息和下混的第二音频信号可以包括生成包含与至少一个第一音频信号的误差消除相关的第一信息和下混的第二音频信号的第二信息的比特流,并传输该比特流。在这样的实施例中,比特流的生成可以包括生成包含立体声通道的压缩的第五音频信号的基本通道音频流。该生成可以进一步包括生成包含多个从属通道组的多个音频信号的多个从属通道音频流。多个从属通道音频流可以包括第一从属通道音频流和第二从属通道音频流。在这样的实施例中,当对于用于生成基本通道音频流和第一从属通道音频流的第一多通道音频信号,环绕通道的第一数量是Sn-1,低音炮通道的第二数量是Wn-1,高置通道的第三数量是Hn-1,并且对于用于生成第一从属通道音频流和第二从属通道音频流的第二多通道音频信号,环绕通道的第四数量是Sn,低音炮通道的第五数量是Wn,高置通道的第六数量是Hn,Sn-1可以小于或等于Sn,Wn-1可以小于或等于Wn,Hn-1可以小于或等于Hn,但是Sn-1、Wn-1和Hn-1中的所有可以分别不等于Sn、Wn和Hn
在其他实施例中,音频处理方法还可以包括在听众前方生成3D音频通道的音频对象信号,该音频对象信号指示音频信号、音频对象的位置或方向中的至少一个。在这样的实施例中,传输与至少一个第一音频信号的误差消除相关的第一信息和下混的第二音频信号可以包括生成比特流,该比特流包括与至少一个第一音频信号的误差消除相关的第一信息、听众前方的3D音频通道的音频对象信号以及关于下混的第二音频信号的第二信息。
传输与至少一个第一音频信号的误差消除相关的第一信息和下混的第二音频信号可以进一步包括传输比特流。
为了克服该技术问题,本公开的各种实施例提供了一种音频处理方法,该方法包括从比特流中获得从至少一个第一音频信号下混的第二音频信号。音频处理方法还包括从比特流中获得与至少一个第一音频信号的误差消除相关的第一信息。音频处理方法还包括从下混的第二音频信号中解混至少一个第一音频信号。音频处理方法还包括通过将与至少一个第一音频信号的误差消除相关的第一信息混合到解混的至少一个第一音频信号来重构至少一个第一音频信号。使用至少一个第一音频信号的原始信号功率或解码后的至少一个第一音频信号的第二信号功率中的至少一个生成与至少一个第一音频信号的误差消除有关的第一信息。在一些实施例中,与至少一个第一音频信号的误差消除相关的第一信息可以包括关于用于误差消除的因子的第二信息。在这样的实施例中,误差消除的因子可以大于或等于0,并且可以小于或等于1。
在其他实施例中,重构至少一个第一音频信号可以包括重构至少一个第一音频信号,以具有等于解混的至少一个第一音频信号的第四信号功率和用于误差消除的因子的乘积的第三信号功率。
在其他实施例中,比特流可以包括关于基本通道组的第三音频信号的第二信息和关于从属通道组的第四音频信号的第三信息。在这样的实施例中,基本通道组的第三音频信号可能已经通过解码比特流中包括的关于基本通道组的第三音频信号的第二信息而获得,而没有与另一个通道组的另一个音频信号解混。该音频处理方法还可以包括使用从属通道组的第四音频信号,通过与基本通道组的第三音频信号解混来重构包括至少一个上混通道的上混通道组的第五音频信号。
在其他实施例中,从属通道组的第四音频信号可以包括第一从属通道音频信号和第二从属通道音频信号。在这样的实施例中,第一从属通道音频信号可以包括听众前方的独立通道的第六音频信号,第二从属通道音频信号可以包括听众侧方和后面的通道的音频信号的混合音频信号。
在其他实施例中,基本通道组的第三音频信号可以包括第一通道的第六音频信号和第二通道的第七音频信号。在这样的实施例中,第一通道的第六音频信号可能已经通过在听众前方将左立体声通道的第八音频信号和中央通道的解码音频信号以及第二通道的第七音频信号混合而生成
可能已经通过在听众前方将右立体声通道的第九音频信号和中央通道的压缩和解压缩音频信号混合而生成。
在其他实施例中,基本通道组可以包括单通道或立体声通道,并且至少一个上混通道可以是离散音频通道,该离散音频通道是除了在听众前方的3D音频通道或位于听众周围全方向的3D音频通道当中的基本通道组的通道之外的至少一个通道。
在其他实施例中,听众前方的3D音频通道可以是3.1.2通道。3.1.2通道可以包括听众前方的三个环绕通道、听众前方的一个低音炮通道和两个高置通道。位于听众周围全方向的3D音频通道可以包括5.1.2通道或7.1.4通道中的至少一个。5.1.2通道可以包括位于听众前方的三个环绕通道、位于听众侧方和后方的两个环绕通道、位于听众前方的一个低音炮通道以及位于听众前方的两个高置通道。7.1.4通道可以包括听众前方的三个环绕通道、听众侧方和后面的四个环绕通道、听众前方的一个低音炮通道、听众前方的两个高置通道以及听众侧方和后面的两个高置通道。
在其他实施例中,解混的第一音频信号可以包括至少一个上混通道的第六音频信号和独立通道的第七音频信号。在这样的实施例中,独立通道的第七音频信号可以包括基本通道组的第三音频信号的第一部分和从属通道组的第四音频信号的第二部分。
在其他实施例中,比特流可以包括多个音频轨道的文件流,该多个音频轨道包括彼此相邻的第一音频轨道和第二音频轨道。在这样的实施例中,基本通道组的第三音频信号可能已经从第一音频轨道获得,并且从属通道音频信号标识信息可能已经从第二音频轨道获得。
在其他实施例中,当所获得的从属通道音频信号标识信息指示从属通道音频信号存在于第二音频轨道中时,从属通道组的第四音频信号可能已经从第二音频轨道中获得。
在其他实施例中,当所获得的从属通道音频信号标识信息指示第二音频轨道中不存在从属通道音频信号时,基本通道组的下一个轨道的第四音频信号可能已经从第二音频轨道获得。
在其他实施例中,比特流可以包括基本通道音频流和多个从属通道流。多个从属通道音频流可以包括第一从属通道音频流和第二从属通道音频流。基本通道音频流可以包括立体声通道的音频信号。在这样的实施例中,当对于通过基本通道音频流和第一从属通道音频流重构的多通道第一音频信号,环绕通道的第一数量是Sn-1,低音炮通道的第二数量是Wn-1,高置通道的第三数量是Hn-1,并且对于通过第一从属通道音频流和第二从属通道音频流重构的多通道第二音频信号,多通道音频信号的环绕通道的第四数量是Sn,低音炮通道的第五数量是Wn,高置通道的第六数量是Hn,Sn-1可以小于或等于Sn,Wn-1可以小于或等于Wn,Hn-1可以小于或等于Hn,但是Sn-1、Wn-1和Hn-1中的所有可以分别不等于Sn、Wn和Hn
在其他实施例中,音频处理方法还可以包括从比特流中获得听众前方的3D音频通道的音频对象信号,该音频对象信号指示音频信号、音频对象的位置或方向中的至少一个。听众前方的3D音频通道的音频信号可能已经基于听众前方的3D音频通道的第六音频信号和听众前方的3D音频通道的音频对象信号而被重构,该第六音频信号从基本通道组的第三音频信号和从属通道组的第四音频信号生成。
在其他实施例中,音频处理方法可以进一步包括从比特流获得多通道音频相关附加信息,其中多通道音频相关附加信息可以包括如下中的至少一个:关于包含基本通道音频流和从属通道音频流的音频流的总数、下混增益信息、通道映射表信息、音量信息、低频效果(LFE)增益信息、动态范围控制(DRC)信息、通道布局渲染信息的第二信息、关于耦合的音频流的数量的第三信息、指示多通道布局的第四信息、关于音频信号中是否存在对话以及对话水平的第五信息、指示是否输出LFE的第六信息、关于屏幕上是否存在音频对象的第七信息、关于连续通道音频信号存在还是离散通道音频信号存在的第八信息、或者包括用于生成多通道音频信号的解混矩阵的至少一个解混参数的解混信息。
为了克服该技术问题,本公开的各种实施例提供了一种音频处理装置,该音频处理装置包括存储一个或多个指令的存储器和至少一个处理器,该至少一个处理器通信地耦合到存储器,并且被配置为执行该一个或多个指令以从比特流中获得从至少一个第一音频信号下混的第二音频信号。
至少一个处理器可以进一步被配置以从比特流获得与至少一个第一音频信号的误差消除相关的信息。该至少一个处理器还可以被配置为从下混的第二音频信号中解混至少一个第一音频信号。至少一个处理器还可以被配置成通过将与至少一个第一音频信号的误差消除相关的信息应用于从第二音频信号中解混的至少一个第一音频信号来重构至少一个第一音频信号。可能已经使用至少一个第一音频信号的原始信号功率或解码后的至少一个第一音频信号的第二信号功率中的至少一个生成了与至少一个第一音频信号的误差消除相关的信息。
为了克服该技术问题,本公开的各种实施例提供了一种音频处理方法,该方法包括通过下混至少一个第一音频信号来生成第二音频信号。音频处理方法还包括使用第二音频信号的原始信号功率或解码后的至少一个第一音频信号的第二信号功率中的至少一个来生成与至少一个第一音频信号的误差消除相关的信息。该音频处理方法还包括,对于与误差消除相关的信息,使用用于生成LFE通道的音频信号的神经网络来生成低频效果(LFE)通道的音频信号。该音频处理方法还包括传输下混的第二音频信号和LFE通道的音频信号。
为了克服该技术问题,本公开的各种实施例提供了一种音频处理方法,该方法包括从比特流中获得从至少一个第一音频信号下混的第二音频信号。音频处理方法还包括从比特流中获得LFE通道的音频信号。该音频处理方法还包括对于所获得的LFE通道的音频信号,使用用于获得附加信息的神经网络来获得与至少一个第一音频信号的误差消除相关的信息。音频处理方法还包括通过将与误差消除相关的信息应用于从第二音频信号上混的至少一个第一音频信号来重构至少一个第一音频信号。可能已经使用至少一个第一音频信号的原始信号功率或解码后的至少一个第一音频信号的第二信号功率中的至少一个生成了与误差消除相关的信息。
为了克服技术问题,本公开的各种实施例提供了一种存储指令的计算机可读存储介质,所述指令当由音频处理装置的至少一个处理器执行时,使得音频处理装置执行音频处理方法。
有益效果
利用根据本公开的多种实施例的用于处理多通道音频信号的方法和装置,在支持与传统立体声(例如,2通道)音频信号的向后兼容性的同时,可以对听众前方的3D音频通道布局的音频信号进行编码,并且可以对听众周围全方向的3D音频通道布局的音频信号进行编码。
利用根据本公开的多种实施例的用于处理多通道音频信号的方法和装置,在支持与传统立体声(例如,2通道)音频信号的向后兼容性的同时,可以对听众前方的3D音频通道布局的音频信号进行解码,并且可以对听众周围全方向的3D音频通道布局的音频信号进行解码。
然而,通过根据本公开的多种实施例的用于处理多通道音频信号的装置和方法实现的效果不限于上述那些,并且本公开所属领域的普通技术人员将从以下描述中清楚地理解未提及的其他效果。
附图说明
图1a是用于描述根据本公开的多种实施例的可缩放通道布局结构的视图。
图1b是用于描述详细的可缩放音频通道布局结构的示例的视图。
图2a是根据本公开的多种实施例的音频编码装置的结构的框图。
图2b是根据本公开的多种实施例的音频编码装置的结构的框图。
图2c是根据本公开的多种实施例的多通道音频信号处理器的结构的框图。
图2d是用于描述根据本公开的多种实施例的音频信号分类器的详细操作的示例的视图。
图3a是根据本公开的多种实施例的多通道音频解码器的结构的框图。
图3b是根据本公开的多种实施例的多通道音频解码器的结构的框图。
图3c是根据本公开的多种实施例的多通道音频信号重构器的结构的框图。
图3d是根据本公开的多种实施例的上混通道组音频生成器的结构的框图。
图4a是根据本公开的多种实施例的音频编码装置的框图。
图4b是根据本公开的多种实施例的重构器的结构框图。
图5a是根据本公开的多种实施例的音频解码装置的结构的框图。
图5b是根据本公开的多种实施例的多通道音频信号重构器的结构的框图。
图6是示出根据本公开的多种实施例的文件结构的视图。
图7a是用于描述根据本公开的多种实施例的文件的详细结构的视图。
图7b是根据图7a的文件结构通过音频解码装置再现音频信号的方法的流程图。
图7c是用于描述根据本公开的多种实施例的文件的详细结构的视图。
图7d是根据图7c的文件结构通过音频解码装置再现音频信号的方法的流程图。
图8a是用于描述根据本公开的多种实施例的文件结构的视图。
图8b是根据图8a的文件结构通过音频解码装置再现音频信号的方法的流程图。
图9a是用于描述根据图7a的文件结构的音频轨道包的视图。
图9b是用于描述根据图7c的文件结构的音频轨道包的视图。
图9c是用于描述根据图8a的文件结构的音频轨道包的视图。
图10是用于描述根据本公开的多种实施例的元数据头/元数据音频包的附加信息的视图。
图11是用于描述根据本公开的多种实施例的音频编码装置的视图。
图12是用于描述根据本公开的多种实施例的元数据生成器的视图。
图13是用于描述根据本公开的多种实施例的音频解码装置的视图。
图14是用于描述根据本公开的多种实施例的3.1.2通道音频渲染单元、5.1.2通道音频渲染单元和7.1.4通道音频渲染单元的视图。
图15a是用于描述根据本公开的多种实施例的由音频编码装置确定用于误差消除的因子的过程的流程图。
图15b是用于描述根据本公开的多种实施例的由音频编码装置确定Ls5信号的比例因子的过程的流程图。
图15c是用于描述根据本公开的多种实施例的基于音频编码装置的误差消除的因子生成Ls5_3信号的过程的流程图。
图16a是用于描述根据本公开的多种实施例的用于通道布局扩展的比特流的配置的视图。
图16b是用于描述根据本公开的多种实施例的用于通道布局扩展的比特流的配置的视图。
图16c是用于描述根据本公开的多种实施例的用于通道布局扩展的比特流的配置的视图。
图17是用于描述根据本公开的多种实施例的添加到用于通道布局扩展的3.1.2通道布局的音频信号的环绕立体声音频信号的视图。
图18是用于描述根据本公开的多种实施例的基于3.1.2通道布局的音频信号和声源对象信息,由音频解码装置在屏幕上生成对象音频信号的过程的视图。
图19是用于描述根据本公开的多种实施例的音频编码装置在每个通道组中的音频流的传输顺序和规则的视图。
图20a是根据本公开的多种实施例的第一音频处理方法的流程图。
图20b是根据本公开的多种实施例的第二音频处理方法的流程图。
图20c是根据本公开的多种实施例的第三音频处理方法的流程图。
图20d是根据本公开的多种实施例的第四音频处理方法的流程图。
图21是用于描述根据本公开的多种实施例的音频编码装置使用第一神经网络通过低频效果(LFE)信号传输元数据以及使用第二神经网络从LFE信号获得元数据的过程的视图。
图22a是根据本公开的多种实施例的第五音频处理方法的流程图。
图22b是根据本公开的多种实施例的第六音频处理方法的流程图。
图23示出了根据本公开的多种实施例的环绕通道和高置通道的逐步下混的机制。
具体实施方式
在整个公开内容中,表述“a、b或c中的至少一个”和“a、b和c中的至少一个”表示仅a、仅b、仅c、a和b两者、a和c两者、b和c两者、a、b和c的全部或其变体。
本公开可以具有对其的各种修改和本公开的各种实施例,因此本公开的特定实施例将在附图中示出并在详细描述中详细描述。然而,应该理解的是,这并不旨在将本公开限制于本公开的特定实施例,并且应该理解为包括落入本公开的精神和范围内的所有变化、等同物和替代物。
在描述本公开的实施例时,当确定相关技术的详细描述不必要地模糊了主题时,将省略其详细描述。此外,数量(例如,第一、第二等)仅仅是用于将一个组件与另一个组件区分开的标识符号。
此外,在本文中,当提到一个组件“连接”或“耦合”到另一个组件时,它可以直接连接或直接耦合到另一个组件,但是除非另有说明,否则应该理解,该组件也可以经由其间的另一个组件连接或耦合到另一个组件。
此外,对于由“单元”、“模块”等表示的组件,两个或更多个组件可以被集成到一个组件中,或者一个组件可以被分成两个或更多个用于每个详细功能。除了组件的主要功能之外,下面要描述的每个组件可以附加的执行负责其他组件的一些或所有功能的功能,并且组件的一些主要功能可以专用于其他组件并由其他组件执行。
这里,“深度神经网络(DNN)”可以是模拟大脑神经的人工神经网络模型的代表性示例,并且不限于使用特定算法的人工神经网络模型。
这里,“参数”可以是在构成神经网络的每层的操作过程中使用的值,并且可以包括例如在将输入值应用于预定计算公式时使用的权重(和偏差)。该参数可以以矩阵的形式表示。该参数可以是作为训练结果而设置的值,并且可以根据需要通过单独的训练数据来更新。
这里,“多通道音频信号”可以指n个通道的音频信号(其中n是大于2的整数)。“单通道音频信号”可以是一维(1D)音频信号,“立体声通道音频信号”可以是二维(2D)音频信号,而“多通道音频信号”可以是三维(3D)音频信号。
这里,“通道(或扬声器)布局”可以表示至少一个通道的组合,并且可以指定通道(或扬声器)的空间排列。这里使用的通道是通过其实际输出音频信号的通道,因此可以被称为呈现通道。
例如,通道布局可以是“X.Y.Z通道布局”。这里,X可以是环绕通道的数量,Y可以是低音炮通道的数量,Z可以是高置通道的数量。通道布局可以指定环绕通道/低音炮通道/高置通道的空间位置。
“通道(或扬声器)布局”的示例可以包括1.0.0通道(或单通道)布局、2.0.0通道(或立体声通道)布局、5.1.0通道布局、5.1.2通道布局、5.1.4通道布局、7.1.0布局、7.1.2布局和3.1.2通道布局,但是通道布局不限于此,并且可以有各种其他通道布局。
由通道(或扬声器)布局指定的通道可以被称为各种名称,但是为了便于解释,可以统一命名。
构成通道(扬声器)布局的通道可以基于通道各自的空间位置来命名。
例如,1.0.0通道布局的第一环绕通道可以被命名为单通道。对于2.0.0通道布局,第一环绕通道可以被命名为L2通道,第二环绕通道可以被命名为R2通道。
这里,“L”表示位于听众左侧的通道,“R”表示位于听众右侧的通道,“2”表示环绕通道的数量为2。
对于5.1.0通道布局,第一环绕通道可以命名为L5通道,第二环绕通道可以命名为R5通道,第三环绕通道可以命名为C通道,第四环绕通道可以命名为Ls5通道,第五环绕通道可以命名为Rs5通道。这里,“C”表示位于听众中央的通道,“s”表示位于一侧的通道。5.1.0通道布局的第一个低音炮通道可以命名为低频效果(LFE)通道。这里,LFE可以指低频效果。换句话说,LFE通道可以是用于输出低频效果声音的通道。
5.1.2通道布局和5.1.4通道布局的环绕声通道可以与5.1.0通道布局的环绕声通道命名相同。类似地,5.1.2通道布局和5.1.4通道布局的低音炮通道可以与5.1.0通道布局的低音炮通道命名相同。
5.1.2通道布局的第一高置通道可以被命名为Hl5通道。第二高置通道可以被命名为Hr5通道。这里,“H”表示高置通道,“l”表示位于听众左侧的通道,“r”表示位于听众右侧的通道。
对于5.1.4通道布局,第一高置通道可以命名为Hfl通道,第二高置通道可以命名为Hfr通道,第三高置通道可以命名为Hbl通道,第四高置通道可以命名为Hbr通道。这里,“f”表示相对于听众的前通道,“b”表示相对于听众的后通道。
对于7.1.0通道布局,第一环绕通道可以命名为L通道,第二环绕通道可以命名为R通道,第三环绕通道可以命名为C通道,第四环绕通道可以命名为Ls通道,第五环绕通道可以命名为Rs通道,第六环绕通道可以命名为Lb通道,第七环绕通道可以命名为Rb通道。
7.1.2通道布局和7.1.4通道布局的环绕声通道可以与7.1.0通道布局的环绕声通道同名。类似地,7.1.2通道布局和7.1.4通道布局的各个低音炮通道可以与7.1.0通道布局的低音炮通道相同地命名。
对于7.1.2通道布局,第一高置通道可命名为Hl7通道,第二高置通道可命名为Hr7通道。
对于7.1.4通道布局,第一高置通道可以命名为Hfl通道,第二高置通道可以命名为Hfr通道,第三高置通道可以命名为Hbl通道,第四高置通道可以命名为Hbr通道。
对于3.1.2通道布局,第一环绕通道可以被命名为L3通道,第二环绕通道可以被命名为R3通道,第三环绕通道可以被命名为C通道。3.1.2通道布局的第一个低音炮通道可以被命名为LFE通道。对于3.1.2通道布局,第一高置通道可以被命名为Hfl3通道(或Tl通道),第二高置通道可以被命名为Hfr3通道(或Tr通道)。
这里,根据通道布局,一些通道可以被不同地命名,但是可以表示相同的通道。例如,Hl5通道和Hl7通道可以是相同的通道。同样,Hr5通道和Hr7通道可以是相同的通道。
在一些实施例中,通道不限于上述通道名称,并且可以使用各种其他通道名称。
例如,L2通道可命名为L”通道,R2通道可命名为R”通道,L3通道可命名为ML3(或L’)通道,R3通道可命名为MR3(或R’)通道,Hfl3通道可命名为MHL3通道,Hfr3通道可命名为MHR3通道,Ls5通道可命名为MSL5(或Ls’)通道,Rs5通道可以命名为MSR5通道,Hl5通道可以命名为MHL5(或Hl’)通道,Hr5通道可以命名为MHR5(或Hr’)通道,C通道可以命名为MC通道。
用于上述布局的通道布局的通道可以如表1中那样命名。
[表1]
通道布局 通道名称
1.0.0 单通道
2.0.0 L2/R2
5.1.0 L5/C/R5/Ls5/Rs5/LFE
5.1.2 L5/C/R5/Ls5/Rs5/Hl5/Hr5/LFE
5.1.4 L5/C/R5/Ls5/Rs5/Hfl/Hfr/Hbl/Hbr/LFE
7.1.0 L/C/R/Ls/Rs/Lb/Rb/LFE
7.1.2 L/C/R/Ls/Rs/Lb/Rb/Hl7/Hr7/LFE
7.1.4 L/C/R/Ls/Rs/Lb/Rb/Hfl/Hfr/Hbl/Hbr/LFE
3.1.2 L3/C/R3/Hfl3/Hfr3/LFE
“传输通道”是用于传输压缩音频信号的通道,并且“传输通道”的一部分可以与“呈现通道”相同,但不限于此,“传输通道”的另一部分可以是音频信号的通道(混合通道),其中混合了呈现通道的音频信号。换句话说,“传输通道”可以是包含“呈现通道”的音频信号的通道,但是也可以是一部分与呈现通道相同而剩余部分是与呈现通道不同的混合通道的通道。“传输通道”可以被命名为区别于“呈现通道”。例如,当传输通道是A/B通道时,A/B通道可以包含L2/R2通道的音频信号。当传输通道是T/P/Q通道时,T/P/Q通道可以包含C/LFE/Hfl3和Hfr3通道的音频信号。当传输通道是S/U/V通道时,S/U/V通道可以包含L、R/Ls、Rs/Hfl和Hfr通道的音频信号。在本公开中,“3D音频信号”可以指用于检测3D空间中的声音分布和声源位置的音频信号。
在本公开中,“听众前方3D音频通道”可以指基于听众前方的音频通道布局的3D音频通道。“听众前方3D音频通道”可以被称为“前方3D音频通道”。具体而言,“听众前方3D音频通道”可以被称为“屏幕中央3D音频通道”,因为“听众前方3D音频通道”是基于围绕位于听众前方的屏幕布置的音频通道布局的3D音频通道。
在本公开中,“听众全方向3D音频通道”可以指基于围绕听众全方向布置的音频通道布局的3D音频通道。“听众全方向3D音频通道”可以被称为“全3D音频通道”。这里,全方向可以指包括前、侧和后所有方向的方向。具体而言,“听众全方向3D音频通道”也可以被称为“以听众为中央的3D音频通道”,因为“听众全方向3D音频通道”是基于围绕听众全方向布置的音频通道布局的3D音频通道。
在本公开中,作为一种数据单元的“通道组”可以包括至少一个通道的音频信号。
在一些实施例中,包括在通道组中的至少一个通道的音频信号可以被压缩。例如,通道组可以包括独立于另一个通道组的基本通道组或从属于至少一个通道组的从属通道组中的至少一个。在这种情况下,从属通道组所从属的目标通道组可以是另一个从属通道组,并且可以是与下部通道布局相关的从属通道组。可选地或附加地,从属通道组所从属的通道组可以是基本通道组。“通道组”可以被称为“编码组”,因为它包括通道组的数据。用于从包括在基本通道组中的通道进一步扩展通道数量的从属通道组可以被称为可缩放通道组或扩展通道组。
“基本通道组”的音频信号可以包括单通道的音频信号或立体声通道的音频信号。不限于此,“基本通道组”的音频信号可以包括听众前方3D音频通道的音频信号。
例如,“从属通道组”的音频信号可以包括在听众前方3D音频通道的音频信号和听众全方向3D音频通道的音频信号之间的除了“基本通道组”的音频信号之外的通道的音频信号。在这种情况下,另一个通道的音频信号的一部分可以是音频信号(例如,混合了至少一个通道的音频信号的混合通道的音频信号)。
例如,“基本通道组”的音频信号可以是单通道的音频信号或立体声通道的音频信号。基于“基本通道组”和“从属通道组”的音频信号重构的“多通道音频信号”可以是听众前方3D音频通道的音频信号或听众全方向3D音频通道的音频信号。
在本公开中,“上混(up-mixing)”可以指这样的操作:通过解混,与输入音频信号的呈现通道的数量相比,输出音频信号的呈现通道的数量增加。
在本公开中,“解混”可以指将特定通道的音频信号与其中混合了各种通道的音频信号的音频信号(例如,混合通道的音频信号)分离的操作,并且可以指混合操作之一。在这种情况下,“解混”可以被实现为使用“解混矩阵”(或与其对应的“下混矩阵”)的计算,并且“解混”矩阵可以包括至少一个“解混权重参数”(或与其对应的“下混权重参数”)作为解混矩阵(或与其对应的“下混矩阵”)的系数。可选地或附加地,可以将“解混”实现为基于“解混矩阵”(或与其对应的“下混矩阵”)的一部分的算术计算,并且可以以各种方式实现,而不限于此。如上所述,“解混”可能与“上混”相关。
这里,“混合”可以指通过将多个通道的每个音频信号乘以相应的权重(例如,通过混合多个通道的音频信号)而获得的值相加来生成新通道(例如,混合通道)的音频信号的任何操作。
这里,“混合”可以分为由狭义的音频编码装置执行的“混合”和由音频解码装置执行的“解混”。
这里,在音频编码装置中执行的“混合”可以被实现为使用“(下)混合矩阵”的计算,并且“(下)混合矩阵”可以包括至少一个“(下)混合权重参数”作为(下)混合矩阵的系数。可选地或附加地,可以将“(下)混合”实现为基于“(下)混合矩阵”的一部分的算术计算,并且可以以各种方式实现,而不限于此。
在本公开中,“上混通道组”可以指包括至少一个上混通道的组,并且“上混通道”可以指相对于编码/解码通道的音频信号通过解混而分离的解混通道。狭义上的“上混通道组”可以包括“上混通道”。然而,广义上的“上混通道组”可以进一步包括“编码/解码通道”以及“上混通道”。这里,“编码/解码通道”可以指编码(压缩)并包括在比特流中的音频信号的独立通道,或者通过从比特流解码获得的音频信号的独立通道。在这种情况下,为了获得编码/解码通道的音频信号,不需要单独的混合和/或解混操作。
广义上的“上混通道组”的音频信号可以是多通道音频信号,并且输出多通道音频信号可以是作为通过如扬声器的设备输出的音频信号的至少一个多通道音频信号(例如,至少一个上混通道组的音频信号)之一。
在本公开中,“下混”可以指这样的操作:通过混合,与输入音频信号的呈现通道的数量相比,输出音频信号的呈现通道的数量减少。
在本公开中,“误差消除的因子”(或误差消除因子(ERF))可以是用于消除由于有损编码而出现的音频信号误差的因子。
由于有损编码而出现的音频信号的误差可以包括例如由基于心理声学特征的编码(量化)引起的误差等。“误差消除的因子”可以称为“编码误差消除(CER)因子”、“误差消除率”等。特别地,因为误差消除操作基本上对应于缩放操作,所以“误差消除的因子”可以被称为“缩放因子”。
在下文中,详细描述根据本公开的技术精神的本公开的实施例。
图1a是用于描述根据本公开的多种实施例的可缩放通道布局结构的视图。
传统的3D音频解码装置从比特流中接收特定通道布局的独立通道的压缩音频信号。传统的3D音频解码装置使用从比特流接收的独立通道的压缩音频信号来重构听众全方向3D音频通道的音频信号。在这种情况下,只有特定通道布局的音频信号可以被重构。
可选地或附加地,传统的3D音频解码装置从比特流接收特定通道布局的独立通道(例如,第一独立通道组)的压缩音频信号。例如,特定通道布局可以是5.1通道布局,并且在这种情况下,第一独立通道组的压缩音频信号可以是五个环绕通道和一个低音炮通道的压缩音频信号。
这里,为了增加通道的数量,传统的3D音频解码装置还接收独立于第一独立通道组的其他通道(第二独立通道组)的压缩音频信号。例如,第二独立通道组的压缩音频信号可以是两个高置通道(height channel)的压缩音频信号。
即,传统的3D音频解码装置使用从比特流接收的第二独立通道组的压缩音频信号来重构听众全方向3D音频通道的音频信号,该从比特流接收的第二独立通道组的压缩音频信号独立于从比特流接收的第一独立通道组的压缩音频信号。因此,重构了数量增加的通道的音频信号。这里,听众全方向3D音频通道的音频信号可以是5.1.2通道的音频信号。
另一方面,仅支持立体声通道的音频信号的再现的传统音频解码装置不能适当地处理包括在比特流中的压缩音频信号。
支持3D音频信号再现的传统3D音频解码装置首先解压缩(例如,解码)第一独立通道组和第二独立通道组的压缩音频信号,以再现立体声通道的音频信号。然后,传统的3D音频解码装置对通过解压缩生成的音频信号进行上混。然而,为了再现立体声通道的音频信号,必须执行如上混的操作。
因此,需要一种能够在传统音频解码装置中处理压缩音频信号的可缩放通道布局结构。可选地或附加地,根据本公开的多种实施例,在分别支持3D音频信号再现的图3a和图5a的音频解码装置300和500中,需要能够根据支持再现的3D音频通道布局来处理压缩音频信号的可缩放通道布局结构。这里,可缩放的通道布局结构可以指通道的数量可以从基本通道布局自由增加的布局结构。
根据本公开的多种实施例,音频解码装置300和500可以从比特流重构可缩放通道布局结构的音频信号。利用根据本公开的多种实施例的可缩放通道布局结构,通道的数量可以从立体声通道布局100增加到听众前方的3D音频通道布局110(或者听众前方的3D音频通道布局110)。此外,利用可缩放的通道布局结构,通道的数量可以从听众前方3D音频通道布局110增加到位于听众周围全方向的3D音频通道布局120(或听众全方向3D音频通道布局120)。例如,听众前方3D音频通道布局110可以是3.1.2通道布局。听众全方向3D音频通道布局120可以是5.1.2或7.1.2通道布局。然而,可以在本公开中实现的可缩放通道布局不限于此。
作为基本通道组,传统立体声通道的音频信号可以被压缩。传统音频解码装置可以从比特流中解压缩基本通道组的压缩音频信号,从而平滑地再现传统立体声通道的音频信号。
可选地或附加地,作为从属通道组,可以压缩多通道音频信号中除了传统立体声通道的音频信号之外的通道的音频信号。
然而,在增加通道数量的过程中,通道组的音频信号的一部分可以是其中混合了特定通道布局的音频信号的一些独立通道的信号的音频信号。
因此,在音频解码装置300和500中,基本通道组的音频信号的一部分和从属通道组的音频信号的一部分可以被解混,以生成包括在特定通道布局中的上混通道的音频信号。
在一些实施例中,可以存在一个或多个从属通道组。例如,可以将听众前方3D音频通道布局110的音频信号中除立体声通道的音频信号之外的通道的音频信号压缩为第一从属通道组的音频信号。
在听众全方向3D音频通道布局120的音频信号中,除了从基本通道组和第一从属通道组重构的通道的音频信号之外的通道的音频信号可以被压缩为第二从属通道组的音频信号。
根据本公开的多种实施例的音频解码装置300和500可以支持听众全方向3D音频通道布局120的音频信号的再现。
因此,根据本公开的多种实施例的音频解码装置300和500可以基于基本通道组的音频信号以及第一从属通道组和第二从属通道组的音频信号来重构听众全方向3D音频通道布局120的音频信号。
传统的音频信号处理设备可以忽略不能从比特流重构的从属通道组的压缩音频信号,并再现从比特流重构的立体声通道的音频信号。
类似地,音频解码装置300和500可以处理基本通道组和从属通道组的压缩音频信号,以从可缩放通道布局中重构可支持通道布局的音频信号。音频解码装置300和500可以不从比特流重构关于不支持的上部通道布局的压缩音频信号。因此,可支持通道布局的音频信号可以从比特流重构,同时忽略与音频解码装置300和500不支持的上部通道布局相关的压缩音频信号。
具体地,传统的音频编码和解码设备压缩和解压缩特定通道布局的独立通道的音频信号。因此,有限通道布局的音频信号的压缩和解压缩是可能的。
然而,根据本公开的多种实施例,分别通过图2a和图4a的音频编码装置200和400以及音频解码装置300和500,其支持可缩放的通道布局,立体声通道的音频信号的传输和重构是可能的。根据本公开的多种实施例,利用音频编码装置200和400以及音频解码装置300和500,听众前方3D通道布局的音频信号的传输和重构是可能的。此外,利用根据本公开的多种实施例的音频编码装置200和400以及音频解码装置300和500,可以传输和重构听众全方向3D通道布局的音频信号。
即,根据本公开的多种实施例,音频编码装置200和400以及音频解码装置300和500可以根据立体声通道的布局传输和重构音频信号。此外,根据本公开的多种实施例,音频编码装置200和400以及音频解码装置300和500可以自由地将当前通道布局的音频信号转换成另一种通道布局的音频信号。通过包括在不同通道布局中的通道的音频信号之间的混合/解混,通道布局之间的转换是可能的。根据本公开的多种实施例,音频编码装置200和400以及音频解码装置300和500可支持各种通道布局之间的转换,并因此传输和再现各种3D通道布局的音频信号。即,在听众前通道布局和听众全方向通道布局之间或者在立体声通道布局和立体声前通道布局之间,不保证通道从属性,但是通过音频信号的混合/解混自由转换是可能的。
根据本公开的多种实施例,音频编码装置200和400以及音频解码装置300和500支持对听众前通道布局的音频信号的处理,并因此传输和重构与布置在屏幕周围的扬声器相对应的音频信号,从而改善听众的沉浸感。
参照图2a至图5b描述根据本公开的多种实施例的音频编码装置200和400以及音频解码装置300和500的详细操作。
图1b是用于描述根据本公开的多种实施例的详细的可缩放音频通道布局结构的示例的视图。
参照图1b,为了传输立体声通道布局160的音频信号,音频编码装置200和400可以通过压缩L2/R2信号来生成基本通道组的压缩音频信号(A/B信号)。
在这种情况下,音频编码装置200和400可以通过压缩L2/R2信号来生成基本通道组的音频信号。
此外,为了传输作为听众前方3D音频通道之一的3.1.2通道的布局170的音频信号,音频编码装置200和400可以通过压缩C、LFE、Hfl3和Hfr3信号来生成从属通道组的压缩音频信号。音频解码装置300和500可以通过解压缩基本通道组的压缩音频信号来重构L2/R2信号。音频解码装置300和500可以通过解压缩从属通道组的压缩音频信号来重构C、LFE、Hfl3和Hfr3信号。
音频解码装置300和500可以通过解混L2信号和C信号来重构3.1.2通道布局170的L3信号(图1b的操作1)。音频解码装置300和500可以通过解混R2信号和C信号来重构3.1.2通道布局170的R3信号(操作2)。
因此,音频解码装置300和500可以输出L3、R3、C、Lfe、Hfl3和Hfr3信号作为3.1.2通道布局170的音频信号。
在一些实施例中,为了传输听众全方向前置5.1.2通道布局180的音频信号,音频编码装置200和400可以进一步压缩L5和R5信号以生成第二从属通道组的压缩音频信号。
如上所述,音频解码装置300和500可以通过解压缩基本通道组的压缩音频信号来重构L2/R2信号,并通过解压缩第一从属通道组的压缩音频信号来重构C、LFE、Hfl3和Hfr3信号。可选地或附加地,音频解码装置300和500可以通过解压缩第二从属通道组的压缩音频信号来重构L5和R5信号。此外,如上所述,音频解码装置300和500可以通过解混一些解压缩的音频信号来重构L3和R3信号。
可选地或附加地,音频解码装置300和500可以通过解混L3和L5信号来重构Ls5信号(操作3)。音频解码装置300和500可以通过解混R3和R5信号来重构Rs5信号(操作4)。
音频解码装置300和500可以通过解混Hfl3和Ls5信号来重构Hl5信号(操作5)。
音频解码装置300和500可以通过解混Hfr3和Rs5信号来重构Hr5信号(操作6)。Hfr3和Hr5是高置通道中的右前通道。
因此,音频解码装置300和500可以输出Hl5、Hr5、LFE、L、R、C、Ls5和Rs5信号作为5.1.2通道布局180的音频信号。
在一些实施例中,为了传输7.1.4通道布局190的音频信号,音频编码装置200和400可以进一步压缩Hfl、Hfr、Ls和Rs信号作为第三从属通道组的音频信号。
如上所述,音频解码装置300和500可以解压缩基本通道组的压缩音频信号、第一从属通道组的压缩音频信号和第二从属通道组的压缩音频信号,并通过解混重构Hl5、Hr5、LFE、L、R、C、Ls5和Rs5信号(操作1至6)。
可选地或附加地,音频解码装置300和500可以通过解压缩第三从属通道组的压缩音频信号来重构Hfl、Hfr、Ls和Rs信号。音频解码装置300和500可以通过解混Ls5信号和Ls信号来重构7.1.4通道布局190的Lb信号(操作7)。
音频解码装置300和500可以通过解混Rs5信号和Rs信号来重构7.1.4通道布局190的Rb信号(操作8)。
音频解码装置300和500可以通过解混Hfl信号和Hl5信号来重构7.1.4通道布局190的Hbl信号(操作9)。
音频解码装置300和500可以通过解混Hfr信号和Hr5信号来重构7.1.4通道布局190的Hbr信号(操作10)。
因此,音频解码装置300和500可以输出Hfl、Hfr、LFE、C、L、R、Ls、Rs、Lb、Rb、Hbl和Hbr信号作为7.1.4通道布局190的音频信号。
因此,音频解码装置300和500可以通过支持其中通道数量通过解混操作而增加的可缩放通道布局,来重构听众前方3D音频通道的音频信号和听众全方向3D音频通道的音频信号以及传统立体声通道布局的音频信号。
以上参照图1b详细描述的可缩放的通道布局结构仅仅是一个示例,并且通道布局结构可以被可缩放地实现为包括多种通道布局。
图2a是根据本公开的多种实施例的音频编码装置的框图。
音频编码装置200可以包括存储器210和处理器230。音频编码装置200可以被实现为能够执行音频处理的装置,如服务器、电视(TV)、相机、蜂窝电话、平板个人计算机(PC)、膝上型计算机等。
虽然在图2a中分开示出了存储器210和处理器230,但是存储器210和处理器230可以通过一个硬件模块(例如,芯片)来实现。
处理器230可以被实现为用于基于神经网络的音频处理的专用处理器。可选地或附加地,处理器230可以通过软件和通用处理器的组合来实现,通用处理器例如是应用处理器(AP)、中央处理单元(CPU)或图形处理单元(GPU)。专用处理器可以包括用于实现本公开的各种实施例的存储器或者用于使用外部存储器的存储处理器。
处理器230可以包括多个处理器。在这种情况下,处理器230可以被实现为专用处理器的组合,并且通过软件和多个通用处理器(如AP、CPU或GPU)的组合来实现。
存储器210可以存储一个或多个用于音频处理的指令。在本公开的各种实施例中,存储器210可以存储神经网络。当神经网络以用于人工智能的专用硬件芯片的形式或者作为现有通用处理器(例如,CPU或AP)或图形专用处理器(例如,GPU)的一部分来实现时,神经网络可以不存储在存储器210中。神经网络可以由外部设备(例如,服务器)实现,在这种情况下,音频编码装置200可以从外部设备请求和接收基于神经网络的结果信息。
处理器230可以根据存储在存储器210中的指令顺序地处理连续的帧,并获得连续的编码(压缩)帧。连续帧可以指构成音频的帧。
处理器230可以以原始音频信号作为输入来执行音频处理操作,并输出包括压缩音频信号的比特流。在这种情况下,原始音频信号可以是多通道音频信号。压缩音频信号可以是多通道音频信号,其通道数小于或等于原始音频信号的通道数。
在这种情况下,比特流可以包括基本通道组,此外还包括n个从属通道组(其中n是大于或等于1的整数)。因此,根据从属通道组的数量,通道的数量可以自由增加。
图2b是根据本公开的多种实施例的音频编码装置的框图。
参照图2b,音频编码装置200可以包括多通道音频编码器250、比特流生成器280和附加信息生成器285。多通道音频编码器250可以包括多通道音频信号处理器260和压缩器270。
返回参考图2a,如上所述,音频编码装置200可以包括存储器210和处理器230,并且用于实现图2b的组件250、260、270、280和285的指令可以存储在图2a的存储器210中。处理器230可以执行存储在存储器210中的指令。
多通道音频信号处理器260可以从原始音频信号中获得基本通道组的至少一个音频信号和至少一个从属通道组的至少一个音频信号。例如,当原始音频信号是7.1.4通道布局的音频信号时,多通道音频信号处理器260可以获得2通道(立体声通道)的音频信号,作为7.1.4通道布局的音频信号中的基本通道组的音频信号。
多通道音频信号处理器260可以从3.1.2通道布局的音频信号中获得除了2-通道的音频信号之外的通道的音频信号作为第一从属通道组的音频信号,以重构3.1.2通道布局的音频信号,该音频信号是听众前方3D音频通道之一。在这种情况下,第一从属通道组的一些通道的音频信号可以被解混以生成解混通道的音频信号。
多通道音频信号处理器260可以从5.1.2通道布局的音频信号中获得除了基本通道组的音频信号和第一从属通道组的音频信号之外的通道的音频信号作为第二从属通道组的音频信号,以重构5.1.2通道布局的音频信号,该音频信号是听众前和后3D音频通道之一。在这种情况下,第二从属通道组的一些通道的音频信号可以被解混以生成解混通道的音频信号。
多通道音频信号处理器260可以从7.1.4通道布局的音频信号中获得除了第一从属通道组的音频信号和第二从属通道组的音频信号之外的通道的音频信号作为第三从属通道组的音频信号,以重构7.1.4通道布局的音频信号,该音频信号是听众全方向3D音频通道之一。同样,第三从属通道组的一些通道的音频信号可以被解混以获得解混通道的音频信号。
参考图2c描述多通道音频信号处理器260的详细操作。
压缩器270可以压缩基本通道组的音频信号和从属通道组的音频信号。即,压缩器270可以压缩基本通道组的至少一个音频信号,以获得基本通道组的至少一个压缩的音频信号。这里,压缩可以指基于各种音频编解码器的压缩。例如,压缩可以包括变换和量化过程。
这里,基本通道组的音频信号可以是单通道或立体声信号。可选地或附加地,基本通道组的音频信号可以包括通过将左立体声通道的音频信号L与C_1混合而生成的第一通道的音频信号。这里,C_1可以是在压缩之后解压缩的听众前方的中央通道的音频信号。在音频信号的名称(“X_Y”)中,“X”可以表示通道的名称,而“Y”可以表示被解码、被上混、被应用的误差消除的因子(例如,被缩放)、或者被应用的LFE增益。例如,解码信号可以被表示为“X_1”,通过上混解码信号生成的信号(上混信号)可以被表示为“X_2”。可选地或附加地,LFE增益被应用于解码的LFE信号的信号也可以被表示为“X_2”。对上混信号应用了误差消除的因子的信号(例如,缩放信号)可以被表示为“X_3”。
基本通道组的音频信号可以包括通过将右立体声通道的音频信号R与C_1混合而生成的第二通道的音频信号。
压缩器270可以通过压缩至少一个从属通道组的至少一个音频信号来获得至少一个从属通道组的至少一个压缩音频信号。
附加信息生成器285可以基于原始音频信号、基本通道组的压缩音频信号或从属通道组的压缩音频信号中的至少一个来生成附加信息。在这种情况下,附加信息可以是与多通道音频信号相关的信息,并且包括用于重构多通道音频信号的各种信息。
例如,附加信息可以包括听众前方3D音频通道的音频对象信号,其指示音频对象(例如,声源)的音频信号、位置、形状、区域或方向中的至少一个。可选地或附加地,附加信息可以包括关于音频流总数的信息,该音频流包括基本通道音频流和从属通道音频流。附加信息可以包括下混增益信息。附加信息可以包括通道映射表信息。附加信息可以包括音量信息。附加信息可以包括LFE增益信息。附加信息可以包括动态范围控制(DRC)信息。附加信息可以包括通道布局渲染信息。附加信息还可以包括耦合的音频流的数量的信息、指示多通道布局的信息、关于音频信号中是否存在对话和对话水平的信息、指示是否输出LFE的信息、关于屏幕上是否存在音频对象的信息、关于连续音频通道的音频信号(或基于场景的音频信号或环绕立体声音频信号)的存在或不存在的信息、以及关于离散音频通道的音频信号(或基于对象的音频信号或空间多通道音频信号)的存在或不存在的信息。附加信息可以包括关于解混的信息,包括用于重构多通道音频信号的解混矩阵的至少一个解混权重参数。解混和(下)混合可以彼此对应,使得关于解混的信息可以对应于关于(下)混合的信息,和/或关于解混的信息可以包括关于(下)混合的信息。例如,关于解混的信息可以包括(下)混合矩阵的至少一个(下)混合权重参数。可以基于(下)混合权重参数来获得解混权重参数。
附加信息可以是上述信息的各种组合。换句话说,附加信息可以包括前述信息中的至少一条。
例如,当存在对应于基本通道组的至少一个音频信号的从属通道的音频信号时,附加信息生成器285可以生成指示从属通道的音频信号存在的从属通道音频信号标识信息。
比特流生成器280可以生成包括基本通道组的压缩音频信号和从属通道组的压缩音频信号的比特流。比特流生成器280可以生成进一步包括由附加信息生成器285生成的附加信息的比特流。
例如,比特流生成器280可以生成基本通道音频流和从属通道音频流。基本通道音频流可以包括基本通道组的压缩音频信号,从属通道音频流可以包括从属通道组的压缩音频信号。
比特流生成器280可以生成包括基本通道音频流和多个从属通道音频流的比特流。多个从属通道音频流可以包括n个从属通道音频流(其中n是大于1的整数)。在这种情况下,基本通道音频流可以包括单通道的音频信号或立体声通道的压缩音频信号。
例如,在从基本通道音频流和第一从属通道音频流重构的第一多通道布局的通道中,环绕通道的数量可以是Sn-1,低音炮通道的数量可以是Wn-1,高置通道的数量可以是Hn-1。在从基本通道音频流、第一从属通道音频流和第二从属通道音频流重构的第二多通道布局中,环绕通道的数量可以是Sn,低音炮通道的数量可以是Wn,高置通道的数量可以是Hn
在这种情况下,Sn-1可以小于或等于Sn,Wn-1可以小于或等于Wn,Hn-1可以小于或等于Hn。这里,可以排除Sn-1等于Sn、Wn-1等于Wn以及Hn-1等于Hn的情况。即,Sn-1、Wn-1和Hn-1中的所有可能分别不等于Sn、Wn和Hn
即,第二多通道布局的环绕通道的数量需要大于第一多通道布局的环绕通道的数量。可选地或附加地,第二多通道布局的低音炮通道的数量需要大于第一多通道布局的低音炮通道的数量。可选地或附加地,第二多通道布局的高置通道的数量需要大于第一多通道布局的高置通道的数量。
此外,第二多通道布局的环绕通道的数量可以不小于第一多通道布局的环绕通道的数量。同样,第二多通道布局的低音炮通道的数量可以不小于第一多通道布局的低音炮通道的数量。第二多通道布局的高置通道的数量可以不小于第一多通道布局的高置通道的数量。
可选地或附加地,不存在第二多通道布局的环绕通道的数量等于第一多通道布局的环绕通道的数量并且第二多通道布局的低音炮通道的数量等于第一多通道布局的低音炮通道的数量并且第二多通道布局的高置通道的数量等于第一多通道布局的高置通道的数量的情况。即,第二多通道布局的所有通道可以不同于第一多通道布局的所有通道。
具体地,例如,当第一多通道布局是5.1.2通道布局时,第二多通道布局可以是7.1.4通道布局。
可选地或附加地,比特流生成器280可以生成包括附加信息的元数据。
因此,比特流生成器280可以生成包括基本通道音频流、从属通道音频流和元数据的比特流。
比特流生成器280可以以通道数量可以从基本通道组自由增加的形式生成比特流。
即,可以从基本通道音频流重构基本通道组的音频信号,并且可以从基本通道音频流和从属通道音频流重构其中通道数量从基本通道组增加的多通道音频信号。
在一些实施例中,比特流生成器280可以生成具有多个音频轨道的文件流。比特流生成器280可以生成包括至少一个基本通道组的压缩音频信号的第一音频轨道的音频流。比特流生成器280可以生成包括从属通道音频信号标识信息的第二音频轨道的音频流。在这种情况下,跟随第一音频轨道的第二音频轨道可以与第一音频轨道相邻。
在其他实施例中,当存在对应于基本通道组的至少一个音频信号的从属通道音频信号时,比特流生成器280可以生成包括至少一个从属通道组的至少一个压缩音频信号的第二音频轨道的音频流。
在其他实施例中,当不存在对应于基本通道组的至少一个音频信号的从属通道音频信号时,比特流生成器280可以生成第二音频轨道的音频流,该第二音频轨道包括基本通道组的相对于基本通道组的第一音频轨道的音频信号的下一音频信号。
图2c是根据本公开的多种实施例的音频编码装置200的多通道音频信号处理器260的结构的框图。
参考图2c,多通道音频信号处理器260可以包括通道布局标识器261、下混通道音频生成器262和音频信号分类器266。
通道布局标识器261可以从原始音频信号中标识至少一个通道布局。在这种情况下,至少一个通道布局可以包括多个分层通道布局。通道布局标识器261可以标识原始音频信号的通道布局。通道布局标识器261可以标识比原始音频信号的通道布局更低的通道布局。例如,当原始音频信号是7.1.4通道布局的音频信号时,通道布局标识器261可以标识7.1.4通道布局并标识5.1.2通道布局、3.1.2通道布局、2通道布局等,其低于7.1.4通道布局。上部通道布局可以指其中环绕通道/低音炮通道/高置通道中的至少一个的数量大于下部通道布局的数量的布局。取决于环绕通道的数量是大还是小,可以确定上部/下部通道布局,并且对于相同数量的环绕通道,可以取决于低音炮通道的数量是大还是小来确定上部/下部通道布局。对于相同数量的环绕通道和低音炮通道,可以取决于高置通道的数量是大还是小来确定上部/下部通道布局。
可选地或附加地,所标识的通道布局可以包括目标通道布局。目标通道布局可以指包括在最终输出比特流中的音频信号的最高通道布局。目标通道布局可以是原始音频信号的通道布局或者比原始音频信号的通道布局更低的通道布局。
例如,从原始音频信号标识的通道布局可以从原始音频信号的通道布局分层确定。在这种情况下,通道布局标识器261可以标识预定通道布局当中的至少一个通道布局。例如,通道布局标识器261可以从原始音频信号的布局中标识一些预定的通道布局,7.1.4通道布局、5.1.4通道布局、5.1.2通道布局、3.1.2通道布局和2通道布局。
通道布局标识器261可以基于所标识的通道布局,将控制信号传输到与第一下混通道音频生成器263和第二下混通道音频生成器264至第n下混通道音频生成器265中所标识的至少一个通道布局相对应的下混通道音频生成器,并且基于由通道布局标识器261标识的至少一个通道布局,从原始音频信号生成下混通道音频。下混通道音频生成器262可以使用包括至少一个下混权重参数的下混矩阵从原始音频信号生成下混通道音频。
例如,当原始音频信号的通道布局是预定通道布局中按升序排列的第n个通道布局时,下混通道音频生成器262可以从原始音频信号生成直接低于原始音频信号的通道布局的第(n-1)个通道布局的下混通道音频。通过重复该过程,下混通道音频生成器252可以生成比当前通道布局更低的通道布局的下混通道音频。
例如,下混通道音频生成器262可以包括第一下混通道音频生成器263和第二下混通道音频生成器264至第(n-1)下混通道音频生成器(未示出)。在一些实施例中,(n-1)可以小于或等于n。
在这种情况下,第(n-1)下混通道音频生成器(未示出)可以从原始音频信号生成第(n-1)通道布局的音频信号。可选地或附加地,第(n-2)下混通道音频生成器(未示出)可以从原始音频信号生成第(n-2)通道布局的音频信号。以这种方式,第一下混通道音频生成器263可以从原始音频信号生成第一通道布局的音频信号。在这种情况下,第一通道布局的音频信号可以是基本通道组的音频信号。
在一些实施例中,每个下混通道音频生成器263和264至265可以以级联方式连接。即,下混通道音频生成器263和264至265可以被连接,使得上部下混通道音频生成器的输出变成下部下混通道音频生成器的输入。例如,第(n-1)通道布局的音频信号可以以原始音频信号作为输入从第(n-1)下混通道音频生成器(未示出)输出,并且第(n-1)通道布局的音频信号可以输入到第(n-2)下混通道音频生成器(未示出),并且第(n-2)下混通道音频可以从第(n-2)下混通道音频生成器(未示出)生成。以这种方式,下混通道音频生成器263和264至265可以被连接以输出每个通道布局的音频信号。
基于至少一个通道布局的音频信号,音频信号分类器266可以获得基本通道组的音频信号和从属通道组的音频信号。在这种情况下,音频分类器266可以通过混合单元267混合包括在至少一个通道布局的音频信号中的至少一个通道的音频信号。音频分类器266可以将混合音频信号分类为基本通道组的音频信号或从属通道组的音频信号中的至少一个。
图2d是用于描述根据本公开的多种实施例的音频信号分类器的详细操作的示例的视图。
参照图2d,图2c的下混通道音频生成器262可以从7.1.4通道布局290的原始音频信号获得5.1.2通道布局291的音频信号、3.1.2通道布局292的音频信号、2通道布局293的音频信号和单通道布局294的音频信号,它们是下部通道布局的音频信号。下混通道音频生成器263、264和下混通道音频生成器262的至265以级联方式连接,使得可以从当前通道布局到下部通道布局顺序地获得音频信号。
图2c的音频信号分类器266可以将单通道布局294的音频信号分类为基本通道组的音频信号。
音频信号分类器266可以将作为2通道布局293的音频信号的一部分的L2通道的音频信号分类为从属通道组#1 296的音频信号。在一些实施例中,L2通道的音频信号和R2通道的音频信号被混合以生成单通道布局294的音频信号,使得反过来,音频解码装置300和500可以解混单通道布局294的音频信号和L2通道的音频信号以重构R2通道的音频信号。因此,R2通道的音频信号不能被分类为单独通道组的音频信号。
音频信号分类器266可以将3.1.2通道布局292的音频信号当中的Hfl3通道的音频信号、C通道的音频信号、LFE通道的音频信号和Hfr3通道的音频信号分类为从属通道组#2297的音频信号。通过混合L3通道的音频信号和Hfl3通道的音频信号来生成L2通道的音频信号,使得反过来,音频解码装置300和500可以重构从属通道组#1 296的L2通道的音频信号和从属通道组#2297的Hfl3通道的音频信号。
因此,3.1.2通道布局292的音频信号当中的L3通道的音频信号可以不被分类为特定通道组的音频信号。
出于同样的原因,R3通道可以不被分类为特定通道组的音频信号。
音频信号分类器266可以将作为5.1.2通道布局291的一些通道的音频信号的L通道的音频信号和R通道的音频信号作为从属通道组#3 298的音频信号传输,以便传输5.1.2通道布局291的音频信号。在一些实施例中,Ls5、Hl5、Rs5和Hr5通道之一的音频信号可以是5.1.2通道布局291的音频信号之一,但是可以不被分类为单独的从属通道组的音频信号。这是因为Ls5、Hl5、Rs5和Hr5通道的信号可能不是听众前方通道音频信号,而可能是其中7.1.4通道布局290的音频信号当中的听众前方、旁边和后面的音频通道中的至少一个的音频信号可以被混合的信号。通过从原始音频信号中压缩听众前方的音频通道的音频信号,而不是将混合信号分类为从属通道组的音频信号并对其进行压缩,可以提高听众前方的音频通道的音频信号的声音质量。因此,听众可以感觉到再现的音频信号的声音质量得到改善。
然而,根据情况,代替L的Ls5或Hl5可以被分类为从属通道组#3 298的音频信号,代替R的Rs5或Hr5可以被分类为从属通道组#3 298的音频信号。
音频信号分类器266可以将7.1.4通道布局290的音频信号当中的Ls、Hfl、Rs或Hfr通道的音频信号分类为从属通道组#4 299的音频信号。在这种情况下,代替Ls的Lb、代替Hfl的Hbl、代替Rs的Rb和代替Hfr的Hbr可以不被分类为从属通道组#4 299的音频信号。通过压缩靠近听众前方的侧音频通道的音频信号,而不是将7.1.4通道布局290的音频信号中的听众后方的音频通道的音频信号分类为通道组的音频信号并对其进行压缩,可以提高靠近听众前方的侧音频通道的音频信号的声音质量。因此,听众可以感觉到再现的音频信号的声音质量得到改善。然而,根据情况,可以将代替Ls的Lb、代替Hfl的Hbl、代替Rs的Rb和代替Hfr的Hbr分类为从属通道组#4 299的音频信号。
因此,图2c的下混通道音频生成器262可以基于从原始音频信号布局标识的多个下部布局来生成多个下部布局的音频信号(下混通道音频)。图2c的音频信号分类器266可以对基本通道组的音频信号和从属通道组#1、#2、#3和#4的音频信号进行分类。根据每个通道布局,通道的分类音频信号可以将每个通道的音频信号中的独立通道的音频信号的一部分分类为通道组的音频信号。音频解码装置300和500可以通过解混来重构未被音频信号通道分类器266分类的音频信号。在一些实施例中,当相对于听众的左通道的音频信号被分类为特定通道组的音频信号时,对应于左通道的右通道的音频信号可以被分类为对应通道组的音频信号。即,耦合的通道的音频信号可以被分类为一个通道组的音频信号。
当立体声通道布局的音频信号被分类为基本通道组的音频信号时,耦合通道的音频信号都可以被分类为一个通道组的音频信号。然而,如上参考图2d所述,当单通道布局的音频信号被分类为基本通道组的音频信号时,例外地,立体声通道的音频信号之一可以被分类为从属通道组#1的音频信号。然而,对通道组的音频信号进行分类的方法可以是多种多样的,而不限于参照图2d进行的描述。即,当通道组的分类的音频信号被解混,并且没有被分类为通道组的音频信号的通道的音频信号可以从解混的音频信号重构时,通道组的音频信号可以以各种形式被分类。
图3a是根据本公开的多种实施例的多通道音频解码装置的结构的框图。
音频解码装置300可以包括存储器310和处理器330。音频解码装置300可以被实现为能够进行音频处理的装置,如服务器、电视、相机、移动电话、计算机、数字广播终端、平板PC、膝上型计算机等。
尽管在图3a中分开示出了存储器310和处理器330,但是存储器310和处理器330可以通过一个硬件模块(例如,芯片)来实现。
处理器330可以被实现为用于基于神经网络的音频处理的专用处理器。可选地或附加地,处理器230可以通过如AP、CPU或GPU的通用处理器和软件的组合来实现。专用处理器可以包括用于实现本公开的各种实施例的存储器或者用于使用外部存储器的存储处理器。
处理器330可以包括多个处理器。在这种情况下,处理器330可以被实现为专用处理器的组合,或者可以通过软件和多个通用处理器(如AP、CPU或GPU)的组合来实现。
存储器310可以存储一个或多个用于音频处理的指令。根据本公开的多种实施例,存储器310可以存储神经网络。当神经网络以用于人工智能(AI)的专用硬件芯片的形式实现或者实现为现有通用处理器(例如,CPU或AP)或图形专用处理器(例如,GPU)的一部分时,神经网络可以不存储在存储器310中。神经网络可以被实现为外部装置(例如,服务器)。在这种情况下,音频解码装置300可以从外部装置请求基于神经网络的结果信息,并从外部装置接收基于神经网络的结果信息。
处理器330可以根据存储在存储器310中的指令顺序地处理连续的帧,以获得连续的重构帧。连续帧可以指构成音频的帧。
处理器330可以通过对输入比特流执行音频处理操作来输出多通道音频信号。比特流可以以可缩放的形式实现,以增加来自基本通道组的通道数量。例如,处理器330可以从比特流中获得基本通道组的压缩音频信号,并且可以通过解压缩基本通道组的压缩音频信号来重构基本通道组的音频信号(例如,立体声通道音频信号)。可选地或附加地,处理器330可以通过从比特流中解压缩从属通道组的压缩音频信号来重构从属通道组的音频信号。处理器330可以基于基本通道组的音频信号和从属通道组的音频信号来重构多通道音频信号。
在一些实施例中,处理器330可以通过从比特流中解压缩第一从属通道组的压缩音频信号来重构第一从属通道组的音频信号。处理器330可以通过解压缩第二从属通道组的压缩音频信号来重构第二从属通道组的音频信号。
处理器330可以基于基本通道组的音频信号以及第一和第二从属通道组的相应音频信号来重构数量增加的通道的多通道音频信号。类似地,处理器330可以解压缩n个从属通道组(其中n是大于2的整数)的压缩音频信号,并且可以基于基本通道组的音频信号和n个从属通道组的设备的相应音频信号来重构进一步增加通道数量的多通道音频信号。
图3b是根据本公开的多种实施例的多通道音频解码装置的结构的框图。
参照图3b,音频解码装置300可以包括信息获取器350和多通道音频解码器360。多通道音频解码器360可以包括解压缩器370和多通道音频信号重构器380。
音频解码装置300可以包括图3a的存储器310和处理器330,并且用于实现图3a的组件350、360、370和380的指令可以存储在存储器310中。处理器330可以执行存储在存储器310中的指令。
信息获取器350可以从比特流中获取基本通道组的压缩音频信号。即,信息获取器350可以对包括来自比特流的基本通道组的至少一个压缩音频信号的基本通道音频流进行分类。
信息获取器350还可以从比特流中获取至少一个从属通道组的至少一个压缩音频信号。即,信息获取器350可以对来自比特流的包括从属通道组的至少一个压缩音频信号的至少一个从属通道音频流进行分类。
在一些实施例中,比特流可以包括基本通道音频流和多个从属通道流。多个从属通道音频流可以包括第一从属通道音频流和第二从属通道音频流。
在这种情况下,描述了通过基本通道音频流和第一从属通道音频流重构的多通道第一音频信号以及通过基本通道音频流、第一从属通道音频流和第二从属通道音频流重构的多通道第二音频信号的通道限制。
例如,在从基本通道音频流和第一从属通道音频流重构的第一多通道布局的通道当中,环绕通道的数量可以是Sn-1,低音炮通道的数量可以是Wn-1,高置通道的数量可以是Hn-1。在从基本通道音频流、第一从属通道音频流和第二从属通道音频流重构的第二多通道布局中,环绕通道的数量可以是Sn,低音炮通道的数量可以是Wn,高置通道的数量可以是Hn。在这种情况下,Sn-1可以小于或等于Sn,Wn-1可以小于或等于Wn,Hn-1可以小于或等于Hn。这里,可以排除Sn-1等于Sn、Wn-1等于Wn以及Hn-1等于Hn的情况。即,Sn-1、Wn-1和Hn-1中的所有可能分别不等于Sn、Wn和Hn
即,第二多通道布局的环绕通道的数量需要大于第一多通道布局的环绕通道的数量。可选地或附加地,第二多通道布局的低音炮通道的数量需要大于第一多通道布局的低音炮通道的数量。可选地或附加地,第二多通道布局的高置通道的数量需要大于第一多通道布局的高置通道的数量。
此外,第二多通道布局的环绕通道的数量可以不小于第一多通道布局的环绕通道的数量。同样,第二多通道布局的低音炮通道的数量可以不小于第一多通道布局的低音炮通道的数量。第二多通道布局的高置通道的数量可以不小于第一多通道布局的高置通道的数量。
可选地或附加地,不存在第二多通道布局的环绕通道的数量等于第一多通道布局的环绕通道的数量并且第二多通道布局的低音炮通道的数量等于第一多通道布局的低音炮通道的数量并且第二多通道布局的高置通道的数量等于第一多通道布局的高置通道的数量的情况。即,第二多通道布局的所有通道可以不同于第一多通道布局的所有通道。
具体地,例如,当第一多通道布局是5.1.2通道布局时,第二多通道布局可以是7.1.4通道布局。
在一些实施例中,比特流可以包括具有包括第一音频轨道和第二音频轨道的多个音频轨道的文件流。下面描述信息获取器350根据包括在音频轨道中的附加信息获取至少一个从属通道组的至少一个压缩音频信号的过程。
信息获取器350可以从第一音频轨道获取基本通道组的至少一个压缩音频信号。
信息获取器350可以从与第一音频轨道相邻的第二音频轨道获取从属通道音频信号标识信息。
当从属通道音频信号标识信息指示从属通道音频信号存在于第二音频轨道中时,信息获取器350可以从第二音频轨道中获取至少一个从属通道组的至少一个音频信号。
当从属通道音频信号标识信息指示第二音频轨道中不存在从属通道音频信号时,信息获取器350可以从第二音频轨道中获取基本通道组的下一音频信号。
信息获取器350可以从比特流中获取与多通道音频的重构相关的附加信息。即,信息获取器350可以对包括来自比特流的附加信息的元数据进行分类,并从分类的元数据中获取附加信息。
解压缩器370可以通过解压缩基本通道组的至少一个压缩音频信号来重构基本通道组的音频信号。
解压缩器370可以通过解压缩至少一个从属通道组的至少一个压缩音频信号来重构至少一个从属通道组的至少一个音频信号。
在这种情况下,解压缩器370可以包括单独的第一至第n解压缩器(未示出),用于解码每个通道组(n个通道组)的压缩音频信号。在这种情况下,第一至第n解压缩器(未示出)可以彼此并行操作。
多通道音频信号重构器380可以基于基本通道组的至少一个音频信号和至少一个从属通道组的至少一个音频信号来重构多通道音频信号。
例如,当基本通道组的音频信号是立体声通道的音频信号时,多通道音频信号重构器380可以基于基本通道组的音频信号和第一从属通道组的音频信号重构听众前方3D音频通道的音频信号。例如,听众前方3D音频通道可以是3.1.2通道。
可选地或附加地,多通道音频信号重构器380可以基于基本通道组的音频信号、第一从属通道组的音频信号和第二从属通道组的音频信号来重构听众全方向音频通道的音频信号。例如,听众全方向3D音频通道可以是5.1.2通道或7.1.4通道。
多通道音频信号重构器380不仅可以基于基本通道组的音频信号和从属通道组的音频信号,还可以基于附加信息来重构多通道音频信号。在这种情况下,附加信息可以是用于重构多通道音频信号的附加信息。多通道音频信号重构器380可以输出重构的至少一个多通道音频信号。
根据本公开的多种实施例的多通道音频信号重构器380可以从基本通道组的至少一个音频信号和至少一个从属通道组的至少一个音频信号生成听众前方3D音频通道的第一音频信号。多通道音频信号重构器380可以基于听众前方3D音频通道的第一音频信号和音频对象信号,重构包括听众前方3D音频通道的第二音频信号的多通道音频信号。在这种情况下,音频对象信号可以指示音频对象(声源)的音频信号、形状、面积、位置或方向中的至少一个,并且可以从信息获取器350获得。
参照图3c描述多通道音频信号重构器380的详细操作。
图3c是根据本公开的多种实施例的多通道音频信号重构器的结构的框图。
参照图3c,多通道音频信号重构器380可以包括上混通道组音频生成器381和渲染单元386。
上混通道组音频生成器381可以基于基本通道组的音频信号和从属通道组的音频信号来生成上混通道组的音频信号。在这种情况下,上混通道组的音频信号可以是多通道音频信号。可选地或附加地,可以基于附加信息(例如,关于动态解混权重参数的信息)来生成多通道音频信号。
上混通道组音频生成器381可以通过解混基本通道组的音频信号和从属通道组的一些音频信号来生成上混通道的音频信号。例如,解混通道(或上混通道)的音频信号L3和R3可以通过解混基本通道组的音频信号L和R以及从属通道组的一部分音频信号C来生成
上混通道组音频生成器381可以通过旁路关于从属通道组的一些音频信号的解混操作来生成多通道音频信号的一些通道的音频信号。例如,上混通道组音频生成器381可以通过旁路关于作为从属通道组的一些音频信号的C、LFE、Hfl3和Hfr3通道的音频信号的解混操作,来生成多通道音频信号的C、LFE、Hfl3和Hfr3通道的音频信号。
因此,上混通道组音频生成器381可以基于通过解混生成的上混通道的音频信号和解混操作被旁路的从属通道组的音频信号来生成上混通道组的音频信号。例如,上混通道组音频生成器381可以基于作为解混通道的音频信号的L3和R3通道的音频信号以及作为从属通道组的音频信号的C、LFE、Hfl3和Hfr3通道的音频信号,生成作为3.1.2通道的音频信号的L3、R3、C、LFE、Hfl3和Hfr3通道的音频信号。
参考图3d描述上混通道组音频生成器381的详细操作。
渲染单元386可以包括音量控制器388和限制器389。输入到渲染单元386的多通道音频信号可以是至少一个通道布局的多通道音频信号。输入到渲染单元386的多通道音频信号可以是脉冲编码调制(PCM)信号。
在一些实施例中,可以基于ITU-R BS.1770来测量每个通道的音频信号的音量(响度),这可以通过比特流的附加信息来信令通知。
音量控制器388可以基于通过比特流信令通知的音量信息,将每个通道的音频信号的音量控制到目标音量(例如,-24LKFS)。
在一些实施例中,可以基于ITU-R BS.1770来测量真实峰值
限制器389可以在音量控制之后限制音频信号的真实峰值电平(例如,限制到1dBTP)。
尽管到目前为止已经描述了包括在渲染单元386中的后处理组件388和389,但是可以省略至少一个组件,并且可以根据情况改变每个组件的顺序,而不限于此。
多通道音频信号输出单元390可以输出后处理的至少一个多通道音频信号。例如,多通道音频信号输出单元390可以根据目标通道布局,将多通道音频信号的每个通道的音频信号输出到对应于每个通道的音频输出设备,将后处理的多通道音频信号作为输入。音频输出设备可以包括各种类型的扬声器。
图3d是根据本公开的多种实施例的上混通道组音频生成器的结构的框图。
参照图3d,上混通道组音频生成器381可以包括解混单元382。解混单元382可以包括第一解混单元383和第二解混单元384至第n解混单元385。
解混单元382可以从基本通道组的音频信号和从属通道组的音频信号中的一些通道(例如,解码通道)的音频信号获得新通道的音频信号(例如,上混通道或解混通道)。即,解混单元382可以从混合了几个通道的至少一个音频信号中获得一个上混通道的音频信号。解混单元382可以输出特定布局的音频信号,其包括上混通道的音频信号和解码通道的音频信号。
例如,可以在解混单元382中旁路解混操作,使得基本通道组的音频信号可以作为第一通道布局的音频信号输出。
第一解混单元383可以将一些通道的音频信号与基本通道组的音频信号和第一从属通道组的音频信号解混作为输入。在这种情况下,可以生成解混通道(或上混通道)的音频信号。第一解混单元383可以通过旁路关于其他通道的音频信号的混合操作来生成独立通道的音频信号。第一解混单元383可以输出第二通道布局的音频信号,该音频信号是包括上混通道的音频信号和独立通道的音频信号的信号。
第二解混单元384可以通过解混第二通道布局的音频信号和第二从属通道的音频信号当中的一些通道的音频信号来生成解混通道(或上混通道)的音频信号。第二解混单元384可以通过旁路关于其他通道的音频信号的混合操作来生成独立通道的音频信号。第二解混单元384可以输出第三通道布局的音频信号,其包括上混通道的音频信号和独立通道的音频信号。
类似于第二解混单元384的操作,第n解混单元(未示出)可以基于第(n-1)通道布局的音频信号和第(n-1)从属通道组的音频信号输出第n通道布局的音频信号。n可以小于或等于N。
第N解混单元385可以基于第(N-1)通道布局的音频信号和第(N-1)从属通道组的音频信号输出第N通道布局的音频信号。
尽管示出了下部通道布局的音频信号被直接输入到相应的解混单元383和384至385,但是通过图3c的渲染单元386输出的通道布局的音频信号可以被输入到解混单元383和384至385中的每一个。即,下部通道布局的后处理音频信号可以被输入到解混单元383和384至385中的每一个。
参考图3d,描述了解混单元383和384至385可以以级联方式连接,以输出每个通道布局的音频信号。
然而,在不以级联方式连接解混单元383和384至385的情况下,可以从基本通道组的音频信号和至少一个从属通道组的音频信号中输出特定布局的音频信号。
在一些实施例中,通过在音频编码装置200和400中混合几个通道的信号而生成的音频信号可以使用下混增益来降低电平以防止削波(clipping)。音频解码装置300和500可以基于通过混合生成的信号的相应下混增益,将音频信号的电平与原始音频信号的电平匹配。
在其他实施例中,可以为每个通道或通道组执行基于上述下混增益的操作。音频编码装置200和400可以通过每个通道或每个通道组的比特流的附加信息来信令通知关于下混增益的信息。因此,音频解码装置300和500可以从每个通道或每个通道组的比特流的附加信息中获得关于下混增益的信息,并基于下混增益执行上述操作。
在其他实施例中,解混单元382可以基于解混矩阵的动态解混权重参数(对应于下混矩阵的下混权重参数)来执行解混操作。在这种情况下,音频编码装置200和400可以通过比特流的附加信息用信号通知与其对应的动态解混权重参数或动态下混权重参数。一些解混权重参数可能不会被信令通知,并且具有固定值。
因此,音频解码装置300和500可以从比特流的附加信息中获得关于动态解混权重参数的信息(或关于动态下混权重参数的信息),并基于获得的关于动态解混权重参数的信息(或关于动态下混权重参数的信息)执行解混操作。
图4a是根据本公开的多种实施例的音频编码装置的框图。
参照图4a,音频编码装置400可以包括多通道音频编码器450、比特流生成器480和误差消除相关信息生成器490。多通道音频编码器450可以包括多通道音频信号处理器460和压缩器470。
图4a的组件450、460、470、480和490可以由图2a的存储器210和处理器230来实现。
图4a的多通道音频编码器450、多通道音频信号处理器460、压缩器470和比特流生成器480的操作分别对应于多通道音频编码器250、多通道音频信号处理器260、压缩器270和比特流生成器280的操作,因此其详细描述由图2b的描述代替。
误差消除相关信息生成器490可以被包括在图2b的附加信息生成器285中,但是也可单独存在,不限于此。
误差消除相关信息生成器490可以基于第一功率值和第二功率值确定误差消除的因子(例如,比例因子)。在这种情况下,第一功率值可以是原始音频信号的一个通道的能量值,或者是通过从原始音频信号下混获得的一个通道的音频信号。第二功率值可以是作为上混通道组的音频信号之一的上混通道的音频信号的功率值。上混通道组的音频信号可以是通过解混基本通道重构信号和从属通道重构信号而获得的音频信号。
误差消除相关信息生成器490可以确定每个通道的误差消除的因子。
误差消除相关信息生成器490可以生成包括关于确定的误差消除的因子的信息的误差消除相关信息(或误差消除相关信息)。比特流生成器480可以生成进一步包括误差消除相关信息的比特流。参照图4b描述误差消除相关信息生成器490的详细操作。
图4b是根据本公开的多种实施例的重构器的结构框图。
参照图4b,误差消除相关信息生成器490可以包括解压缩器492、解混单元494、均方根(RMS)值确定单元496和误差消除的因子确定单元498。
解压缩器492可以通过解压缩基本通道组的压缩音频信号来生成基本通道重构信号。可选地或附加地,解压缩器492可以通过解压缩从属通道组的压缩音频信号来生成从属通道重构信号。
解混单元494可以解混基本通道重构信号和从属通道重构信号,以生成上混通道组的音频信号。例如,解混单元494可以通过解混基本通道组和从属通道组的音频信号中的一些通道的音频信号来生成上混通道(或解混通道)的音频信号。解混单元494可以旁路关于基本通道组和从属通道组的音频信号当中的一些音频信号的解混操作。
解混单元494可以获得包括上混通道的音频信号和解混操作被旁路的音频信号的上混通道组的音频信号。
RMS值确定单元496可以确定上混通道组的一个上混通道的第一音频信号的RMS值。RMS值确定单元496可以确定原始音频信号的一个通道的第二音频信号的RMS值或从原始音频信号下混的音频信号的一个通道的第二音频信号的RMS值。在这种情况下,第一音频信号的通道和第二音频信号的通道可以指示通道布局中的相同通道。
误差消除的因子确定单元498可以基于第一音频信号的RMS值和第二音频信号的RMS值来确定误差消除的因子。例如,可以获得通过将第一音频信号的RMS值除以第二音频信号的RMS值生成的值,作为误差消除的因子的值。误差消除的因子确定单元498可以生成关于确定的误差消除的因子的信息。误差消除的因子确定单元498可以输出包括关于误差消除的因子的信息的误差消除相关信息。
图5a是根据本公开的多种实施例的音频解码装置的结构的框图。
参照图5a,音频解码装置500可以包括信息获取器550、多通道音频解码器560、解压缩器570、多通道音频信号重构器580和误差消除相关信息获取器555。图5a的组件550、555、560、570和580可以由图3a的存储器310和处理器330来实现。
用于实现图5a的组件550、555、560、570和580的指令可以存储在图3a的存储器310中。处理器330可以执行存储在存储器310中的指令。
图5a的信息获取器550、解压缩器570和多通道音频信号重构器580的操作分别包括图3b的信息获取器350、解压缩器370和多通道音频信号重构器380的操作,因此多余的描述被参考图3b的描述代替。在下文中,提供了对图3b的描述没有冗余的描述。
信息获取器550可以从比特流中获取元数据。
误差消除相关信息获取器555可以从包括在比特流中的元数据获得误差消除相关信息。这里,包括在误差消除相关信息中的关于误差消除的因子的信息可以是上混通道组的一个上混通道的音频信号的误差消除的因子。误差消除相关信息获取器555可以包括在信息获取器550中。
多通道音频信号重构器580可以基于基本通道的至少一个音频信号和至少一个从属通道组的至少一个音频信号生成上混通道组的音频信号。上混通道组的音频信号可以是多通道音频信号。多通道音频信号重构器580可以通过将误差消除的因子应用于包括在上混通道组中的一个上混通道的音频信号来重构一个上混通道的音频信号。
多通道音频信号重构器580可以输出包括一个上混通道的重构音频信号的多通道音频信号。
图5b是根据本公开的多种实施例的多通道音频信号重构器的结构的框图。
多通道音频信号重构器580可以包括上混通道组音频生成器581和渲染单元583。渲染单元583可以包括误差消除单元584、音量控制器585、限制器586和多通道音频信号输出单元587。
图5b的上混通道组音频生成器581、误差消除单元584、音量控制器585、限制器586和多通道音频信号输出单元587可以包括图3c的上混通道组音频生成器381、音量控制器388、限制器389和多通道音频信号输出单元390的操作,因此冗余的描述被参考图3c的描述代替。在下文中,描述对于图3c不是多余的部分。
误差消除单元584可以基于多通道音频信号的上混通道组的第一上混通道的音频信号和第一上混通道的误差消除的因子来重构第一通道的误差消除音频信号。在这种情况下,误差消除的因子可以是基于原始音频信号或从原始音频信号下混的音频信号的第一通道的音频信号的RMS值以及上混通道组的第一上混通道的音频信号的RMS值的值。第一通道和第一上混通道可以指示通道布局的相同通道。误差消除单元584可以通过使当前上混通道组的第一上混通道的音频信号的RMS值为原始音频信号或从原始音频信号下混的音频信号的第一通道的音频信号的RMS值来消除由编码引起的误差。
在一些实施例中,相邻音频帧之间的误差消除的因子可以不同。在这种情况下,在前一帧的结束部分和下一帧的开始部分,音频信号可能由于用于误差消除的不连续因子而跳动(bounce)。
因此,误差消除单元584可以通过对误差消除的因子执行平滑来确定在帧边界相邻区间中使用的误差消除的因子。帧边界相邻部分可指相对于边界的前一帧的结束部分和相对于边界的下一帧的第一部分。每个部分可以包括一定数量的样本。
这里,平滑可指将相邻音频帧之间的不连续误差消除的因子转换成帧边界部分中的连续误差消除的因子的操作。
多通道音频信号输出单元588可以输出包括一个通道的误差消除的音频信号的多通道音频信号。
在一些实施例中,包括在渲染单元583中的后处理组件585和586中的至少一个组件可以被省略,并且包括误差消除单元584的后处理组件584、585和586的顺序可以根据情况而改变。
如上所述,音频解码装置200和400可以生成比特流。音频编码装置200和400可以传输生成的比特流。
在这种情况下,比特流可以以文件流的形式生成。音频解码装置300和500可接收比特流。音频解码装置300和500可以基于从接收的比特流获得的信息重构多通道音频信号。在这种情况下,比特流可以被包括在特定的文件容器中。例如,文件容器可以是运动图像专家组(MPEG)-4媒体容器,用于压缩各种多媒体数字数据,如MPEG-4部分14(MP4)等。
在下文中,参考图6,描述了根据本公开的多种实施例的文件结构。
参照图6,文件600可以包括元数据箱子610和媒体数据箱子620。
例如,元数据箱子610可以是MP4文件容器的moov箱子,媒体数据箱子620可以是MP4文件容器的mdat箱子。
元数据箱子(box)610可以位于文件600的头部分。元数据箱子610可以是存储媒体数据的元数据的数据箱子。例如,元数据箱子610可以包括上述附加信息615。
媒体数据箱子620可以是存储媒体数据的数据箱子。例如,媒体数据箱子620可以包括基本通道音频流或从属通道音频流625。
在基本通道音频流或从属通道音频流625中,基本通道音频流可以包括基本通道组的压缩音频信号。
在基本通道音频流或从属通道音频流625之外,从属通道音频流可以包括从属通道组的压缩音频信号。
媒体数据箱子620可以包括附加信息630。附加信息630可以被包括在媒体数据箱子620的头部分中。不限于此,附加信息630可以被包括在基本通道音频流或从属通道音频流625的头(header)部分中。具体而言,附加信息630可以被包括在从属通道音频流625的头部分中。
音频解码装置300和500可以获得包括在文件600的各个部分中的附加信息615和630。音频解码装置300和500可以基于基本通道组的音频信号、从属通道组的音频信号以及附加信息615和630来重构多通道音频信号。这里,可以从基本通道音频流中获得基本通道组的音频信号,并且可以从从属通道音频流中获得从属通道组的音频信号。
图7a是用于描述根据本公开的多种实施例的文件的详细结构的视图。
参照图7a,文件700可以包括元数据箱子710和媒体数据箱子730。
文件700可以包括元数据箱子710和媒体数据箱子730。元数据箱子710可以包括至少一个音频轨道的元数据箱子。
例如,元数据箱子710可以包括音频轨道#n的元数据箱子715(其中n是大于或等于1的整数)。例如,音频轨道#n的元数据箱子715可以是MP4容器的轨道箱子。
音频轨道#n的元数据箱子715可以包括附加信息720。
在一些实施例中,媒体数据箱子730可以包括至少一个音频轨道的媒体数据箱子。例如,媒体数据箱子730可以包括音频轨道#n的媒体数据箱子735(其中n是大于或等于1的整数)。音频轨道#n的元数据箱子715中包括的位置信息可以指示媒体数据箱子730中音频轨道#n的媒体数据箱子735的位置。音频轨道#n的媒体数据箱子735可以基于包括在音频轨道#n的元数据箱子710中的位置信息来标识
音频轨道#n的媒体数据箱子735可以包括基本通道音频流和从属通道音频流740以及附加信息745。附加信息745可以位于音频轨道#n的媒体数据箱子的头部分中。可选地或附加地,附加信息745可以被包括在基本通道音频流或从属通道音频流740中的至少一个的头部分中。
图7b是根据图7a的文件结构通过音频解码装置再现音频信号的方法的流程图。
在操作S700,音频解码装置300和500可以从包括在元数据中的附加信息获得音频轨道#n的标识信息。
在操作S705,音频解码装置300和500可以标识音频轨道#n的标识信息是否指示基本通道组的音频信号,或者音频轨道#n的标识信息是否指示基本/从属通道组的音频信号。
例如,包括在OPUS音频格式的文件中的音频轨道#n的标识信息可以是通道映射族(CMF,channel mapping family)。当CMF为1时,音频解码装置300和500可以标识基本通道组的音频信号包括在当前音频轨道中。例如,基本通道组的音频信号可以是立体声通道布局的音频信号。当CMF为4时,音频解码装置300和500可以标识基本通道组的音频信号和从属通道组的音频信号包括在当前音频轨道中。
在操作S710,当音频轨道#n的标识信息指示基本通道组的音频信号时,音频解码装置300和500可以获得音频轨道#n的媒体数据箱子中包括的基本通道组的压缩音频信号。音频解码装置300和500可以解压缩基本通道组的压缩音频信号。
在操作S720,音频解码装置300和500可以再现基本通道组的音频信号。
在操作S730,当音频轨道#n的标识信息指示基本/从属通道组的音频信号时,音频解码装置300和500可以获得音频轨道#n的媒体数据箱子中包括的基本通道组的压缩音频信号。音频解码装置300和500可以解压缩获得的基本通道组的压缩音频信号。
在操作S735,音频解码装置300和500可以获得包括在音频轨道#n的媒体数据箱子中的从属通道组的压缩音频信号
音频解码装置300和500可以解压缩获得的从属通道组的压缩音频信号。
在操作S740,音频解码装置300和500可以基于基本通道组的音频信号和从属通道组的音频信号生成至少一个上混通道组的音频信号。
音频解码装置300和500可以通过旁路关于基本通道组的音频信号和从属通道组的音频信号中的一些的解混操作来生成至少一个独立通道的音频信号。音频解码装置300和500可以生成包括至少一个上混通道的音频信号和至少一个独立通道的音频信号的上混通道组的音频信号。
在操作S745,音频解码装置300和500可以再现多通道音频信号。在这种情况下,多通道音频信号可以是至少一个上混通道组的音频信号之一。
在操作S750,音频解码装置300和500可以标识是否需要处理下一音频轨道。当音频解码装置300和500标识出需要处理下一音频轨道时,音频解码装置300和500可以获得下一音频轨道#n+1的标识信息,并执行上述操作S705至S750。即,音频解码装置300和500可以将变量n增加1以确定新的n,获得音频轨道#n的标识信息,并执行上述操作S705至S750。
如上参考图7a和图7b所述,可以生成包括基本通道组的压缩音频信号和从属通道组的压缩音频信号的一个音频轨道。然而,当音频轨道的标识信息指示基本/从属通道组的音频信号时,传统的音频解码装置可能无法从相应的音频轨道获得基本通道组的压缩音频信号。即,参照图7a和图7b,不支持与如立体声音频信号的基本通道组的音频信号的向后兼容性。
图7c是用于描述根据本公开的多种实施例的文件的详细结构的视图。
参照图7c,文件750可以包括元数据箱子760和媒体数据箱子780。元数据箱子760可以包括至少一个音频轨道的元数据箱子。例如,元数据箱子760可以包括音频轨道#n(其中n是大于或等于1的整数)的元数据箱子765和音频轨道#n+1的元数据箱子770。音频轨道#n的元数据箱子770可以包括附加信息775。
媒体数据箱子780可以包括音频轨道#n的媒体数据箱子782。音频轨道#n的媒体数据箱子782可以包括基本通道音频流784。
媒体数据箱子780可以包括音频轨道#n+1的媒体数据箱子786。音频轨道#n+1的媒体数据箱子786可以包括从属通道音频流788。音频轨道#n+1的媒体数据箱子786可以包括上述附加信息790。在这种情况下,附加信息790可以被包括在音频轨道#n+1的媒体数据箱子786的头部分中,但不限于此。
音频轨道#n的元数据箱子765中包括的位置信息可以指示媒体数据箱子780中音频轨道#n的媒体数据箱子782的位置。音频轨道#n的媒体数据箱子782可以基于音频轨道#n的元数据箱子765中包括的位置信息来标识。同样,音频轨道#n+1的媒体数据箱子786可以基于音频轨道#n+1的元数据箱子770中包括的位置信息来标识。
图7D是根据图7c的文件结构通过音频解码装置再现音频信号的方法的流程图。
参照图7D,在操作S750,音频解码装置300和500可以从包括在元数据箱子中的附加信息获得音频轨道#n的标识信息。
在操作S755,音频解码装置300和500可以标识获得的音频轨道#n的标识信息是指示基本通道组的音频信号还是从属通道组的音频信号。
在操作S760,当音频轨道#n的标识信息指示基本通道组的音频信号时,音频解码装置300和500可以解压缩音频轨道#n中包括的基本通道组的压缩音频信号。
在操作S765,音频解码装置300和500可以再现基本通道组的音频信号。
在操作S770,当音频轨道#n的标识信息指示从属通道组的音频信号时,音频解码装置300和500可以获得音频轨道#n的从属通道组的压缩音频信号。音频解码装置300和500可以解压缩音频轨道#n的从属通道组的压缩音频信号。对应于从属通道组的音频信号的基本通道组的音频信号的音频轨道可以是音频轨道#n-1。即,基本通道组的压缩音频信号可以被包括在包括从属通道的压缩音频信号的音频轨道之前的音频轨道中。例如,基本通道组的压缩音频信号可以被包括在与先前音频轨道当中包括从属通道的压缩音频信号的音频轨道相邻的音频轨道中。因此,在操作S770之前,音频解码装置300和500可以获得音频轨道#n-1的基本通道组的压缩音频信号。可选地或附加地,音频解码装置300和500可以解压缩获得的基本通道组的压缩音频信号。
在操作S775,音频解码装置300和500可以基于基本通道组的音频信号和从属通道组的音频信号生成至少一个上混通道组的音频信号。
在操作S780,音频解码装置300和500可以再现作为至少一个上混通道组的音频信号之一的多通道音频信号。
在操作S785,音频解码装置300和500可以标识是否需要处理下一音频轨道。当音频解码装置300和500标识出需要处理下一音频轨道时,音频解码装置300和500可以获得下一音频轨道#n+1的标识信息,并执行上述操作S755至S785。即,音频解码装置300和500可以将变量n增加1以确定新的n,获得音频轨道#n的标识信息,并执行上述操作S755至S785。
如上参考图7c和图7D所述,与包括基本通道组的压缩音频信号的音频轨道分开,可以生成包括从属通道组的压缩音频信号的音频轨道。当音频轨道的标识信息指示从属通道组的音频信号时,传统的音频解码装置可能无法从相应的音频轨道获得从属通道组的压缩音频信号。然而,与前方参照图7a和图7b所作的描述不同,传统的音频解码装置可以解压缩包括在先前音频轨道中的基本通道组的压缩音频信号,以再现基本通道组的音频信号。
因此,参照图7c和图7D,可以支持与立体声音频信号(例如,基本通道组的音频信号)的向后兼容性。
音频解码装置300和500可以获得包括在单独音频轨道中的基本通道组的压缩音频信号和从属通道组的压缩音频信号。音频解码装置300和500可以解压缩从第一音频轨道获得的基本通道组的压缩音频信号。音频解码装置300和500可以解压缩从第二音频轨道获得的从属通道组的压缩音频信号。音频解码装置300和500可以基于基本通道组的音频信号和从属通道组的音频信号再现多通道音频信号。
在一些实施例中,对应于基本通道组的从属通道组的数量可以是多个。在这种情况下,可以生成包括至少一个从属通道组的音频信号的多个音频轨道。例如,可以生成包括至少一个从属通道组#1的音频信号的音频轨道#n。可以生成包括至少一个从属通道组#2的音频信号的音频轨道#n+1。像音频轨道#n+1一样,可以生成包括至少一个从属通道组#3的音频信号的音频轨道#n+2。类似于前面的描述,可以生成包括至少一个从属通道组#m的音频信号的音频轨道#n+m-1。音频解码装置300和500可以获得包括在音频轨道#n、#n+1、...、#n+m-1中的从属通道组#1、#2、...、#m的压缩音频信号,并解压缩所获得的从属通道组#1、#2、...、#m的压缩音频信号。音频解码装置300和500可以基于基本通道组的音频信号和从属通道组#1、#2、...、#m的音频信号来重构多通道音频信号。
音频解码装置300和500可以根据支持的通道布局获得包括支持的通道布局的音频信号的音频轨道的压缩音频信号。音频解码装置300和500可能不会获得包括不支持的通道布局的音频信号的音频轨道的压缩音频信号。音频解码装置300和500可以根据支持的通道布局获得一些总音频轨道的压缩音频信号,并解压缩包括在一些音频轨道中的至少一个从属通道的压缩音频信号。因此,音频解码装置300和500可以根据支持的通道布局重构多通道音频信号。
图8a是用于描述根据本公开的多种实施例的文件结构的视图。
参照图8a,附加信息820可以被包括在元数据容器轨道#n+1的元数据箱子810中,而不是图7c的音频轨道#n+1的元数据箱子中。可选地或附加地,从属通道音频流840可以被包括在元数据容器轨道#n+1的媒体数据箱子830中,而不是音频轨道#n+1的媒体数据箱子中。即,附加信息820可以被包括在元数据容器轨道中,而不是音频轨道中。然而,元数据容器轨道和音频轨道可以在同一轨道组中管理,使得当基本通道音频流的音频轨道具有#n时,元数据容器轨道可以具有从属通道音频流的#n+1。
图8b是根据图8a的文件结构通过音频解码装置再现音频信号的方法的流程图。
音频解码装置300和500可以标识每个轨道的类型。
在操作S800,音频解码装置300和500可以标识是否存在跟踪对应于音频轨道#n的音频轨道#n+1的元数据容器。即,音频解码装置300和500可以标识音频轨道#n是音频轨道之一,并可以标识音频轨道#n+1。音频解码装置300和500可以标识轨道#n+1是否是对应于音频轨道#n的元数据容器轨道
在操作S810,当音频解码装置300和500标识出与音频轨道#n对应的元数据容器轨道#n+1轨道不存在时,音频解码装置300和500可以解压缩基本通道组的压缩音频信号。
在操作S820,音频解码装置300和500可以再现基本通道组的解压缩的音频信号。
在操作S830,当音频解码装置300和500标识出存在与音频轨道#n对应的元数据容器轨道#n+1轨道时,音频解码装置300和500可以解压缩基本通道组的压缩音频信号。
在操作S840,音频解码装置300和500可以解压缩元数据容器轨道的从属通道组的压缩音频信号。
在操作S850,音频解码装置300和500可以基于基本通道组的解压缩音频信号和至少一个上混通道组的解压缩音频信号生成至少一个上混通道组的音频信号。
在操作S860,音频解码装置300和500可以再现作为至少一个上混通道组的音频信号之一的多通道音频信号。
在操作S870,音频解码装置300和500可以标识是否需要处理下一音频轨道。当存在与音频轨道#n对应的元数据容器轨道#n+1时,音频解码装置300和500可以标识轨道#n+2是否作为下一轨道存在,并且当轨道#n+2存在时,音频解码装置300和500可以获得轨道#n+2和#n+3的标识信息,并执行上述操作S800至S870。即,音频解码装置300和500可以将变量n增加2以确定新的n,获得轨道#n和#n+1的标识信息,并执行上述操作S800至S870。
当对应于音频轨道#n的元数据容器音频轨道#n+1不存在时,音频解码装置300和500可以标识音频轨道#n+1是否作为下一个音频轨道存在,当音频轨道#n+1存在时,音频解码装置300和500可以获得音频轨道#n+1和#n+2的标识信息,并执行上述操作S800至S870。即,音频解码装置300和500可以将变量n增加1以确定新的n,获得轨道#n+1和#n+2的标识信息,并执行上述操作S800至S870。
图9a是用于描述根据图7a的文件结构的音频轨道包的视图。
如上参考图7a所述,音频轨道#n的媒体数据箱子735可以包括基本通道音频流或从属通道音频流740。
参照图9a,音频轨道#n包900可以包括元数据头910、基本通道音频包920和从属通道音频包930。基本通道音频分组920可以包括基本通道音频流的一部分,而从属通道音频分组930可以包括从属通道音频流的一部分。元数据头910可位于音频轨道#n包900的头部分。元数据头910可以包括附加信息。然而,不限于此,附加信息可以位于从属通道音频包930的头部分中。
图9b是用于描述根据图7c的文件结构的音频轨道分组的视图。
如参考图7c所述,音频轨道#n的媒体数据箱子762可以包括基本通道音频流764,音频轨道#n+1的媒体数据箱子786可以包括从属通道音频流788。
参考图9b,音频轨道#n分组940可以包括基本通道音频分组945。音频轨道#n+1分组950可以包括元数据头955和从属通道音频分组960。元数据头955可位于音频轨道#n+1包950的头部分。元数据头955可以包括附加信息。
然而,不限于此,可以有一个或多个从属通道音频分组960。附加信息可以被包括在一个或多个从属通道音频分组960的头部分中。
图9c是用于描述根据图8a的文件结构的音频轨道包的视图。
如参考图8a所述,音频轨道#n的媒体数据箱子850可以包括基本通道音频流860,元数据容器音频轨道#n+1的媒体数据箱子830可以包括从属通道音频流840。
除了图9b的音频轨道#n+1包950被图9c的元数据容器轨道#n+1包(packet)980代替之外,图9b和图9c彼此相同,从而参照图9c的描述被图9b的描述代替。
图10是用于描述根据本公开的多种实施例的元数据头/元数据音频包的附加信息的视图。
参照图10,元数据头/元数据音频包1000可以包括编码类型信息1005、语音存在信息1010、语音规范信息1015、LFE存在信息1020、LFE增益信息1025、顶部音频存在信息1030、比例因子存在信息1035、比例因子信息1040、屏幕上音频对象存在信息1050、离散通道音频流存在信息1055或连续通道音频流存在信息1060中的至少一个。
编码类型信息1005可以是用于标识与元数据头/元数据音频包1000相关的媒体数据中的编码音频信号的信息。即,编码类型信息1005可以是用于标识基本通道组的编码结构和从属通道组的编码结构的信息。
例如,当编码类型信息1005的值是0x00时,它可以指示编码的音频信号是3.1.2通道布局的音频信号。当编码类型信息1005的值是0x00时,音频解码装置300和500可以标识包括在编码音频信号中的基本通道组的压缩音频信号是2通道布局的音频信号A/B,并且标识其他从属通道组的压缩音频信号是T、P和Q信号。当编码类型信息1005的值是0x01时,它可以指示编码的音频信号是5.1.2通道布局的音频信号。当编码类型信息1005的值是0x01时,音频解码装置300和500可以标识包括在编码音频信号中的基本通道组的压缩音频信号是2通道布局的音频信号A/B,并且标识其他从属通道组的压缩音频信号是T、P、Q和S信号。
当编码类型信息1005的值是0x02时,可以判断编码的音频信号是否是7.1.4通道布局的音频信号。当编码类型信息1005的值是0x02时,音频解码装置300和500可以标识包括在编码音频信号中的基本通道组的压缩音频信号是2通道布局的音频信号A/B,并且标识其他从属通道组的压缩音频信号是T、P、Q、S、U和V信号。
当编码类型信息1005的值是0x03时,它可以指示编码的音频信号包括3.1.2通道布局的音频信号和环绕立体声音频信号。当编码类型信息1005的值是0x03时,音频解码装置300和500可以标识包括在编码音频信号中的基本通道组的压缩音频信号是2通道布局的音频信号A/B,并且标识其他从属通道组的压缩音频信号是T、P和Q信号以及W、X、Y和Z信号。
当编码类型信息1005的值是0x04时,它可以指示编码的音频信号包括7.1.4通道布局的音频信号和环绕立体声音频信号。当编码类型信息1005的值是0x04时,音频解码装置300和500可以标识包括在编码音频信号中的基本通道组的压缩音频信号是2通道布局的音频信号A/B,并且标识其他从属通道组的压缩音频信号是T、P、Q、S、U和V信号以及W、X、Y和Z信号。
语音存在信息101可以是用于标识在与元数据头/元数据音频包1000相关的媒体数据中包括的中央通道的音频信号中是否存在对话信息的信息。语音规范信息1015可以指示包括在中央通道的音频信号中的对话的规范值。音频解码装置300和500可以基于语音正常信息1015控制语音信号的音量。即,音频解码装置300和500可以不同地控制环境声音的音量水平和对话声音的音量水平。因此,可以重构更清晰的对话声音。可选地或附加地,音频解码装置300和500可以基于语音规范信息1015将包括在几个音频信号中的语音的音量水平统一设置为目标音量,并顺序再现几个音频信号。
LFE存在信息1020可以是用于标识在与元数据头/元数据音频包1000相关的媒体数据中是否存在LFE的信息。
根据内容制造商的意图,示出LFE的音频信号可以被包括在指定的音频信号部分中,而不被分配给中央通道。因此,当LFE存在信息开启时,可以重构LFE通道的音频信号。
当LFE存在信息开启时,LFE增益信息1025可以是指示LFE通道的音频信号的增益的信息。音频解码装置300和500可以根据基于LFE增益信息1025的LFE增益输出LFE的音频信号。
顶部音频存在信息1030可以指示顶前(top front)通道的音频信号是否存在于与元数据头/元数据音频包1000相关的媒体数据中。这里,顶前通道可以是3.1.2通道布局的Hfl3通道(顶前左(TFL)通道)和Hfr3通道(顶前右(TFR)通道)。
比例因子存在信息1035和比例因子信息1040可以包括在关于图5a的比例因子的信息中。比例因子存在信息1035可以是指示特定通道的音频信号的RMS比例因子是否存在的信息。当比例因子存在信息1035指示特定通道的音频信号的RMS比例因子存在时,比例因子信息1040可以是指示特定通道的RMS比例因子的值的信息。
屏幕上音频对象存在信息1050可以是指示音频对象是否存在于屏幕上的信息。当屏幕上音频对象信息1050打开时,音频解码装置300和500可以标识屏幕上存在音频对象,将基于基本通道组的音频信号和从属通道组的音频信号重构的多通道音频信号转换成听众前中(front-centered)3D音频通道的音频信号,并输出该音频信号。
离散通道音频流存在信息1055可以是指示离散通道的音频流是否包括在与元数据头/元数据音频包1000相关的媒体数据中的信息。在这种情况下,离散通道可以是5.1.2通道或7.1.4通道。
连续通道音频流存在信息1060可以是指示连续通道的音频信号(WXYZ值)的音频流是否包括在与元数据头/元数据音频包1000相关的媒体数据中的信息。在这种情况下,音频解码装置300和500可以基于如WXYZ值的环绕立体声通道的音频信号,将音频信号转换成各种通道布局的音频信号,而不管通道布局如何。
可选地或附加地,当屏幕上音频对象存在信息1050打开时,音频解码装置300和500可以转换WXYZ值,以在3.1.2通道布局的音频信号中强调屏幕上的音频信号。
在下文中,表7包括关于音频数据结构的伪码(伪码1)。
[表7]
/>
/>
metadata_version[4比特]、metadata_header_length[9比特]等可以被顺序地包括在伪码1的元数据头的结构中。metadata_version可以表示元数据的版本,metadata_header_length可以指示元数据头的长度。speech_exist可以指示中央通道中是否存在对话音频。speech_norm可以指示通过测量对话音频的音量而获得的规范值。lfe_exist可以指示lfe通道的音频信号是否存在于中央通道中。lfe_gain可以指示lfe通道的音频信号的增益。
on_screen_audio_object_exist可以指示屏幕上是否存在音频对象。object_S可以在屏幕上指示音频对象的3.1.2音频通道中的通道的混合水平。object_G可以基于屏幕上音频对象的中央来指示屏幕上对象的面积和形状。object_V可以指示一个音频帧中对象在屏幕上的移动矢量(dx,dy)。object_L可以指示一个音频帧中对象在屏幕上的位置坐标(x,y)。
audio_meta_data_exist可以是指示基本元数据是否存在、离散通道的音频元数据是否存在以及连续通道的音频元数据是否存在的信息。
discrete_audio_metadata_offset可以指示当离散通道的音频元数据存在时的离散通道的音频元数据的地址。
continuous_audio_metadata_offset可以指示当连续通道的音频元数据存在时的连续通道的音频元数据的地址。
coding_type[8比特]等可以被顺序地包括在伪码1的元数据音频包的结构中。
编码类型(coding type)可以指示音频信号的编码结构的类型。
如取消误差比存在等的信息可以被顺序地包括。
取消误差比存在(cancelation error ratio exist)(3.1.2通道)可以指示3.1.2通道布局的音频信号的取消误差比(CER)是否存在。取消误差比(3.1.2通道)可以指示3.1.2通道布局的音频信号的CER。同样,取消误差比(5.1.2通道)、取消误差比(5.1.2通道)、取消误差比存在(7.1.4通道)和取消误差比(7.1.4通道)可以存在。
discrete_audio_channel_data可以指示离散通道的音频通道数据。离散通道的音频通道数据可以包括base_audio_channel_data和dependent_audio_channel_data。
当discrete_audio_level_audio_exist的值为1时,base_audio_channel_data_length、dependent_audio_channel_data_length等可以被顺序地包括在元数据音频包中。
base_audio_channel_data_length可以指示基本音频通道数据的长度。dependent_audio_channel_data_length可以指示从属音频通道数据的长度。
可选地或附加地,base_audio_channel_data可以指示基本音频通道数据。
dependent_audio_channel_data可以指示从属音频通道数据。
continouous_audio_channel_data可以指示连续通道的音频通道数据。
图11是用于描述根据本公开的多种实施例的音频编码装置的视图。
音频编码装置200和400可以包括解混单元1105、音频信号分类器110、压缩器1115、解压缩器1120和元数据生成器1130。
解混单元1105可以通过解混原始音频信号来获得下部通道布局的音频信号。在这种情况下,原始音频信号可以是7.1.4通道布局的音频信号,并且下部通道布局的音频信号可以是3.1.2通道布局的音频信号。
音频信号分类器1110可以从至少一个通道布局的音频信号中分类要用于压缩的音频信号。混合单元1113可以通过混合一些通道的音频信号来生成混合通道音频信号。音频信号分类器1110可以输出混合通道音频信号。
例如,混合单元1113可以将3.1.2通道布局的音频信号L3和R3与3.1.2通道布局的中央通道信号C_1混合。在这种情况下,可以生成新的混合通道的音频信号A和B。C_1可以是通过解压缩3.1.2通道布局的音频信号中的中央通道的压缩信号C而获得的信号。
即,3.1.2通道布局的音频信号中的中央通道的信号C可以被分类为T信号。压缩器1115的第二压缩器1117可以通过压缩T信号来获得T压缩音频信号。解压缩器1120可以通过解压缩T压缩音频信号来获得C_1。
压缩器1115可以压缩由音频信号分类器1110分类的至少一个音频信号。压缩器1115可以包括第一压缩器1116、第二压缩器1117和第三压缩器1118。第一压缩器1116可以压缩基本通道组的音频信号A和B,并生成包括压缩的音频信号A和B的基本通道音频流1142。第二压缩器1117可以压缩第一从属通道组的音频信号T、P、Q1和Q2,以生成包括压缩的音频信号T、P、Q1和Q2的从属通道音频流1144。
第三压缩器1118可以压缩第二从属通道组的音频信号S1、S2、U1、U2、V1和V2,以生成包括压缩的音频信号S1、S2、U1、U2、V1和V2的从属通道音频流1144。
在这种情况下,通过将7.1.4通道布局的音频信号当中靠近屏幕的L、R、C、Lfe、Ls、Rs、Hfl和Hfr通道的音频信号分类为音频信号S1、S2、U1、U2、V1和V2并将其压缩,可以提高屏幕中央的音频通道的声音质量。
元数据生成器1130可以基于音频信号或压缩的音频信号中的至少一个生成包括附加信息的元数据。音频信号可以包括原始音频信号和通过下混原始音频信号生成的下部通道布局的音频信号。元数据可以被包括在比特流1140的元数据头1146中。
混合单元1113可以通过将未压缩的音频信号C与L3和R3混合来混合生成音频信号A和音频信号B。然而,当音频解码装置300和500通过对与非压缩音频信号C混合的音频信号A和B进行解混来获得L3_1和R3_1时,声音质量比原始音频信号L3和R3降级更多。
混合单元1113可以通过混合通过解压缩压缩的C而获得的C_1而不是C来生成音频信号A和音频信号B。在这种情况下,当音频解码装置300和500通过解混与音频信号C1混合的音频信号A和B来生成L3_1和R3_1时,L3_1和R3_1与混合音频信号C的L3_1和R3_1相比可具有改善的声音质量。
图12是用于描述根据本公开的多种实施例的元数据生成器的视图。
参照图12,元数据生成器1200可以用原始音频信号、压缩音频信号A/B以及压缩音频信号T/P/Q和S/U/V作为输入来生成元数据1250(如用于用于误差消除的因子信息等)。
解压缩器1210可以解压缩压缩的音频信号A/B、T/P/Q和S/U/V。上混单元1215可以通过解混音频信号A/B、T/P/Q和S/U/V中的一些来重构原始通道音频信号的下部通道布局的音频信号。
下混单元1220可以通过混合原始音频信号来生成下部通道布局的音频信号。在这种情况下,可以生成与由上混单元1215重构的音频信号具有相同通道布局的音频信号。
RMS测量单元1230可以测量由上混单元1215重构的每个上混通道的音频信号的RMS值。RMS测量单元1230可以测量从下混单元1220生成的每个通道的音频信号的RMS值。
RMS比较器1235可以对每个通道将由上混单元1215重构的上混通道的音频信号的RMS值与由下混单元1220生成的通道的音频信号的RMS值进行一对一的比较,以生成每个上混通道的误差消除的因子。
元数据生成器1200可以生成元数据1250,该元数据1250包括关于每个上混通道的误差消除的因子的信息。
语音检测器1240可以从包括在原始音频信号中的中央通道的音频信号C中标识是否存在语音。元数据生成器1200可以基于语音检测器1240的标识结果生成包括语音存在信息的元数据1250。
语音测量单元1242可以从包括在原始音频信号中的中央通道的音频信号C测量语音的规范值。元数据生成器1200可以基于语音测量单元1242的测量结果生成包括语音规范信息的元数据1250。
LFE检测器1244可以从包括在原始音频信号中的LFE通道的音频信号中检测LFE。元数据生成器1200可以基于LFE检测器1244的检测结果生成包括LFE存在信息的元数据1250。
LFE振幅测量单元1246可以测量包括在原始音频信号中的LFE通道的音频信号的振幅。元数据生成器1200可以基于LFE幅度测量单元1246的测量结果生成包括LFE增益信息的元数据1250。
图13是用于描述根据本公开的多种实施例的音频解码装置的视图。
参照图13,音频解码装置300和500可以以比特流1300作为输入来重构至少一个通道布局的音频信号。
第一解压缩器1305可以通过解压缩包括在比特流中的基本通道音频1301的压缩音频信号来重构A_1(L2_1)和B_1(R2_1)信号。2-通道音频渲染单元1320可以基于重构的A_1和B_1信号L2_1和R2_1来重构2通道(立体声通道)布局的音频信号L2_1和R2_1。
第二解压缩器1310可以通过解压缩包括在比特流中的相关通道音频1302的压缩音频信号来重构C_1、LFE_1、Hfl3_1和Hfr3_1信号。
音频解码装置300和500可以通过解混C_1和A_1信号来生成L3_2信号。音频解码装置300和500可以通过解混C_1和B_1信号来生成R3_2信号。
3.1.2通道音频渲染单元1325可以输出具有L3_2、R3_2、C_1、LFE_1、Hfl3_1和Hfr3_1信号作为输入的3.1.2通道布局的音频信号。3.1.2通道音频渲染单元1325可以基于包括在元数据头1303中的元数据重构3.1.2通道布局的音频信号。
第三解压缩器1315可以通过解压缩包括在比特流1300中的相关通道音频1302的压缩音频信号来重构L_1和R_1信号。
音频解码装置300和500可以通过解混L3_2和L_1信号来生成Ls5_2信号。
音频解码装置300和500可以通过解混R3_1和R_1信号来生成Rs5_2信号。
音频解码装置300和500可以通过解混Hfl3_1和Ls5_2信号来生成Hl5_2信号。音频解码装置300和500可以通过解混Hfr3_1和Rs_2信号来生成Hr5_2信号。
5.1.2通道音频渲染单元1330可以输出具有C_1、LFE_1、L_1、R_1、Ls5_2、Rs5_2、Hl5_2和Hr5_2信号作为输入的5.1.2通道布局的音频信号。5.1.2通道音频渲染单元1330可以基于包括在元数据头1303中的元数据重构5.1.2通道布局的音频信号。
第三解压缩器1315可以通过解压缩包括在比特流1300中的相关通道音频1302的压缩音频信号来重构Ls_1、Rs_1、Hfl_1和Hfr_1信号。
音频解码装置300和500可以通过解混Ls5_2和Ls信号来生成Lb_2信号。音频解码装置300和500可以通过解混Rs5_2和Rs信号来生成Rb_2信号。音频解码装置300和500可以通过解混Hl5_2和Hfl_1信号来生成Hbl_2信号。音频解码装置300和500可以通过解混MHR_2和Hfr_1信号来生成Hbr_2信号。
7.1.4通道音频渲染单元1335可以利用L_1、R_1、C_1、LFE_2、Ls、Rs、HFL_1、Hfr_1、Lb_2、Rb_2、Hbl_2和Hbr_2信号作为输入来输出7.1.4通道布局的音频信号。
7.1.4通道音频渲染单元1335可以基于包括在元数据头1303中的元数据重构7.1.4通道布局的音频信号。
图14是用于描述根据本公开的多种实施例的3.1.2通道音频渲染单元1410、5.1.2通道音频渲染单元1420和7.1.4通道音频渲染单元1430的视图。
参照图14,3.1.2通道音频渲染单元1410可以使用L3_2信号和包括在元数据中的L3_2误差消除的因子(ERF)来生成L3_3信号。3.1.2通道音频渲染单元1410可以使用包括在元数据中的R3_2信号和R3_2ERF来生成R3_3信号。
3.1.2通道音频渲染单元1410可以使用包括在元数据中的LFE_1信号和LFE增益来生成LFE_2信号。
3.1.2通道音频渲染单元1410可以重构包括L3_3、R3_3、C_1、LFE_3、Hfl3_1和Hfr3_1信号的3.1.2通道音频信号。
5.1.2通道音频渲染单元1420可以使用包括在元数据中的Ls5_2信号和Ls5_3ERF来生成Ls5_3。
5.1.2通道音频渲染单元1420可以使用包括在元数据中的Rs5_2信号和Rs5_3ERF来生成Rs5_3。5.1.2通道音频渲染单元1420可以使用包括在元数据中的Hl5_2信号和Hl5_2ERF来生成Hl5_3。5.1.2通道音频渲染单元1420可以使用Hr5_2信号和Hr5_2ERF生成Hr5_3。
5.1.2通道音频渲染单元1420可以重构包括Ls5_3、Rs5_3、Hl5_3、Hr5_3、L_1、R_1、C_1和LFE_2信号的5.1.2通道音频信号。
7.1.4通道音频渲染单元1430可以使用Lb_2信号和Lb_2ERF生成Lb_3。
7.1.4通道音频渲染单元1430可以使用Rb_2信号和Rb_2ERF生成Rb_3。
7.1.4通道音频渲染单元1430可以使用Hbl_2信号和Hbl_2ERF生成Hbl_3。
7.1.4通道音频渲染单元1430可以使用Hbr_2信号和Hbr_2ERF生成Hbr_3。
7.1.4通道音频渲染单元1430可以重构包括Lb_3、Rb_3、Hbl_3、Hbr_3、L_1、R_1、C_1、LFE_2、Ls_1、Rs_1、HFL_1和Hfr_1信号的7.1.4通道音频信号。
图15a是用于描述根据本公开的多种实施例的由音频编码装置400确定用于消除误差的因子的过程的流程图。
在操作S1502,音频编码装置400可以确定第一音频信号的原始信号功率是否小于第一值。这里,原始信号功率可以指原始音频信号的信号功率或者从原始音频信号下混的音频信号的信号功率。即,第一音频信号可以是原始音频信号的至少一些通道的音频信号或者从原始音频信号下混的音频信号。
在操作S1504,当第一音频信号的原始信号功率小于第一值(是)时,音频编码装置400可以将第一音频信号的误差消除的因子的值确定为0。
在操作S1506,当第一音频信号的原始信号功率等于或大于第一值时(否),音频编码装置400可以确定第一音频信号与第二音频信号的原始信号功率比是否小于第二值。
在操作S1508,当第一音频信号的原始信号功率小于第二值时(是),音频编码装置400可以基于第一音频信号的原始信号功率和解码后的第一音频信号的信号功率来确定误差消除的因子。
在操作S1510,音频编码装置400可以确定误差消除的因子的值是否大于1。
在操作S1512,当第一音频信号和第二音频信号的信号功率比等于或大于第二值时(否),音频编码装置400可以将第一音频信号的误差消除的因子的值确定为1。
可选地或附加地,在操作S1510中,当误差消除的因子的值大于1时(是),音频编码装置400可以将第一音频信号的误差消除的因子的值确定为1。
图15b是用于描述根据本公开的多种实施例的由音频编码装置400确定Ls5信号的比例因子的过程的流程图。
参照图15b,在操作S1514,音频编码装置400可以确定Ls5信号的功率20log(RMS(Ls5))是否小于-80dB。这里,可以以帧为单位计算RMS值。例如,一帧可以包括但不限于960个样本的音频信号,并且一帧可以包括多个样本的音频信号。X的均方根值RMS(X)可以通过等式1计算。这里,N表示样本的数量。
在操作S1516,当Ls5信号的功率小于-80dB时,音频编码装置400可以将Ls5_2信号的误差消除的因子确定为0。
在操作S1518,音频编码装置400可以确定一帧的Ls5信号的功率与L3信号的功率之比20log(RMS(Ls5)/RMS(L3))是否小于-6dB。
在操作S1520,当一帧的Ls5信号的功率与L3信号的功率之比20log(RMS(Ls5)/RMS(L3))小于-6dB时(是),音频编码装置400可以生成L3_2信号。例如,音频编码装置400可以通过下混原始音频信号来压缩C信号和L2信号以获得C_1信号和L2_1信号,并通过解压缩压缩的C信号和L2信号来获得C_1信号和L2_1信号。音频编码装置400可以通过解混C1和L2_1信号来生成L3_2信号。
在操作S1522,音频编码装置400可以通过解压缩压缩的L信号来获得L_1信号。
在操作S1524,音频编码装置400可以基于L3_2信号和L_1信号生成Ls5_2信号。
在操作S1526,音频编码装置400可以基于Ls5的功率值RMS(Ls5)和Ls5_2的功率值RMS(Ls5_2)确定误差消除的因子RMS(Ls5)/RMS(Ls5_2)。
在操作S1528,音频编码装置400可以确定误差消除的因子的值是否大于1。
在操作S1530,当误差消除的因子的值大于1时(是),音频编码装置400可以将误差消除的因子的值确定为1。
在操作S1532,音频编码装置400可以存储并输出Ls5_2信号的误差消除的因子。音频编码装置400可以生成包括关于误差消除的因子的信息的误差消除相关信息,并生成包括误差消除相关信息的附加信息。音频编码装置400可以生成并输出包括附加信息的比特流。
图15c是用于描述根据本公开的多种实施例的由音频编码装置500基于用于误差消除的因子生成Ls5_3信号的过程的流程图。
在操作S1535,音频解码装置500可以生成L3_2信号。
例如,音频解码装置500可以通过解压缩压缩的C信号和L2信号来获得C_1信号和L2_1信号。音频编码装置400可以通过解混C1和L2_1信号来生成L3_2信号。
在操作S1540,音频解码装置500可以通过解压缩压缩的L信号来获得L_1信号。
在操作S1545,音频解码装置500可以基于L3_2信号和L_1信号生成Ls5_2信号。即,音频解码装置500可以通过解混L3_2信号和L_1信号来生成Ls5_2信号。
在操作S1550,音频解码装置500可以获得Ls_2信号的误差消除的因子。
在操作S1555,音频解码装置500可以通过将误差消除的因子应用于Ls5_2信号来生成Ls5_3信号。可以生成具有RMS值(例如,RMS值几乎等于Ls5的RMS值)的Ls5_3信号,该RMS值是Ls5_2的RMS值和误差消除的因子的乘积。
在对通过混合多个音频通道的音频信号而获得的混合通道音频信号执行有损编码的过程中,音频信号中可能出现误差。例如,在关于音频信号的量化过程中,编码误差可能出现在音频信号中。
具体而言,使用基于心理听觉特性的模型,在关于音频信号的编码过程(例如,量化)中可能出现编码误差。例如,当在相邻频率上同时生成强音和弱音时,可能会出现掩蔽特征,这是一种听众可能听不到弱音的现象。即,由于相邻频率的强中断声音,弱目标声音的最小听觉极限增加。
因此,当音频编码装置400对弱声音的频带使用心理声学模型执行量化时,弱声音的频带中的音频信号可以不被编码。
例如,当Ls5信号中存在被掩蔽的声音(例如,弱声音)并且L信号中存在掩蔽声音(例如,强声音)时,由于掩蔽特性,L3_2信号可能是从混合了被掩蔽的声音和掩蔽声音的信号(L3信号)中基本上消除了被掩蔽的声音的信号。
在一些实施例中,当通过解混L3_2信号和L_1信号来生成Ls5_2时,由于基于掩蔽特性的编码误差,Ls5_2信号可能以噪声形式包括能量非常小的掩蔽声音。
包括在Ls5_2信号中的掩蔽声音与现有的掩蔽声音相比可能具有非常小的能量,但是可能具有比被掩蔽的声音更大的能量。在这种情况下,在要输出被掩蔽的声音的Ls5_2通道中,可以输出具有更大能量的掩蔽声音。因此,为了减少Ls5_2通道中的噪声,Ls5_2信号可以被缩放以具有与包括被掩蔽的声音的Ls5信号相同的信号功率,由有损编码引起的误差可以被消除。在这种情况下,缩放操作的因子(例如,比例因子)可以是误差消除的因子。误差消除的因子可以被表示为音频信号的原始信号功率与音频信号解码后的信号功率之比,并且音频解码装置500可以通过基于比例因子对解码的信号执行缩放操作来重构具有与原始信号功率相同的信号功率的音频信号。
因此,随着特定通道中以噪声形式输出的掩蔽声音的能量降低,听众可以期望声音质量的改善。
在一些实施例中,当通过比较被掩蔽的声音和掩蔽声音的原始信号功率,被掩蔽的声音的信号功率比掩蔽声音的信号功率小某个值时,可以标识出发生了由掩蔽现象引起的编码误差,并且误差消除因子可以被确定为0和1之间的值。例如,作为误差消除的因子的值,可以确定原始信号功率与解码后的信号功率之比。然而,取决于情况,当比大于1时,误差消除的因子的值可以被确定为1。即,对于大于1的误差消除的因子的值,解码信号的能量可能增加,但是当其中以噪声的形式***掩蔽声音的解码信号的能量增加时,噪声可能进一步增加。
因此,在这种情况下,误差消除的因子的值可以被确定为1,以保持解码信号的当前能量。
当被掩蔽的声音的信号功率与掩蔽声音的信号功率之比大于或等于某个值时,可以标识出没有发生由掩蔽现象引起的编码误差,并且可以将误差消除因子的值确定为1,以保持解码信号的当前能量。
因此,音频编码装置200可以基于音频信号的信号功率生成误差消除的因子,并将关于误差消除的因子的信息传输到音频解码装置300。音频解码装置300可以通过基于关于误差消除的因子的信息将误差消除的因子应用于上混通道的音频信号,来降低噪声形式的掩蔽声音的能量,以匹配目标声音的被掩蔽的声音的能量。
图16a是用于描述根据本公开的多种实施例的用于通道布局扩展的比特流的配置的视图。
参照图16a,比特流6000可以包括基本通道音频流1605、从属通道音频流#1 1610和从属通道音频流#2 1615。基本通道音频流1605可以包括A信号和B信号。音频解码装置300和500可以解压缩包括在基本通道音频流1605中的A信号和B信号,并基于解压缩的A信号和B信号重构2-通道布局的音频信号(L2信号和R2信号)。
除了3.1.2通道的重构的2-通道之外,从属通道音频流#1 1610可以包括其他4通道音频信号T、P、Q1和Q2。音频解码装置300和500可以解压缩包括在从属通道音频流#11610中的音频信号T、P、Q1和Q2,并基于解压缩的音频信号T、P、Q1和Q2以及现有的解压缩的A信号和B信号重构3.1.2通道布局的音频信号(L3、R3、C、LFE、Hfl3和Hfr3信号)。
可选地或附加地,从属通道音频流#2 1615可以包括除了7.1.4通道的重构的3.1.2通道之外的其他6个通道的音频信号S1、S2、U1、U2、V1和V2。音频解码装置300和500可以基于包括在从属通道音频流#2 1615中的音频信号S1、S2、U1、U2、V1和V2以及先前重构的3.1.2通道布局的音频信号,重构5.1.2通道布局的音频信号(L5、R5、Ls5、Rs5、C、LFE、Hl5和Hr5信号)。
如上所述,从属通道音频流#2 1615可以包括离散通道的音频信号。为了扩展通道的数量,数量等于通道数量的音频信号可以被压缩并被包括在音频流#2 1615中。因此,随着通道数量的增加,包括在从属通道音频流#2 1615中的数据量会增加。
图16b是用于描述根据本公开的多种实施例的用于通道布局扩展的比特流的配置的视图。
参考图16b,比特流1620可以包括基本通道音频流1625、从属通道音频流#1 1630和从属通道音频流#2 1635。
与图16a的从属通道音频流#2 1615不同,图16b的从属通道音频流#21635可以包括WXYZ通道的音频信号,该音频信号是环绕立体声音频信号。环绕立体声音频信号是连续通道的音频流,并且即使当通道的扩展数量很大时,也可以被表达为WXYZ通道的音频信号。因此,随着扩展的通道数量增加或者各种通道布局的音频信号被重构,从属通道音频流#21630可以包括环绕立体声音频信号。如上所述,音频编码装置200和400可以生成附加信息,包括指示离散通道的音频流(例如,图16a的从属通道音频流#2 1615)是否存在的信息和指示连续通道的音频流(例如,图16b的从属通道音频流#2 1635)是否存在的信息。因此,通过考虑通道数量的扩展程度,音频编码装置200和400可以选择性地生成各种形式的比特流。
图16c是用于描述根据本公开的多种实施例的用于通道布局扩展的比特流的配置的视图。
参照图16c,比特流1640可以包括基本通道音频流1645、从属通道音频流#1 1650、从属通道音频流#2 1655和从属通道音频流#3 1660。图16c的基本通道音频流1645、从属通道音频流#1 1650和从属通道音频流#2 1655的配置可以与图16a的基本通道音频流1605、从属通道音频流#1 1610和从属通道音频流#2 1615的配置相同。因此,音频解码装置300和500可以基于基本通道音频流1645、从属通道音频流#1 1650和从属通道音频流#2 1655重构7.1.4通道布局的音频信号。
可选地或附加地,音频编码装置200和400可以生成包括从属通道音频流#3 1660的比特流1640,从属通道音频流#31660包括环绕立体声音频信号。因此,音频编码装置200和400可以重构独立于通道布局的自由通道布局的音频信号。音频编码装置200和400可以将重构的自由通道布局的音频信号转换成各种离散通道布局的音频信号。
即,音频编码装置200和400可以通过生成包括从属通道音频流#3 1660的比特流来自由地重构各种通道布局的音频信号,该从属通道音频流#3 1660还包括环绕立体声音频信号。
图17是用于描述根据本公开的多种实施例的添加到用于通道布局扩展的3.1.2通道布局的音频信号的环绕立体声音频信号的视图。
音频编码装置200和400可以压缩环绕立体声音频信号,并生成包括压缩的环绕立体声音频信号的比特流。因此,根据环绕立体声音频信号,通道布局可以从3.1.2通道布局扩展。
例如,参照图17,3.1.2通道布局的音频信号可以是位于听众1700前方的通道的音频信号。音频编码装置200和400可以使用如环绕立体声麦克风的环绕立体声音频信号捕获装置获得环绕立体声音频信号作为听众1700后面的音频信号。可选地或附加地,音频编码装置200和400可以基于听众1700后面的通道的音频信号获得作为听众1700后面的音频信号的环绕立体声音频信号。
例如,Ls信号、Rs信号、Lb信号、Rb信号、Hbl信号和Hbr信号可以由theta、phi和音频信号S来定义,如下文提供的等式2所示。theta和phi如图17所示。
Ls(theta,phi,S)=(100,0,SLs) [等式2]
Rs(theta,phi,S)=(250,0,SRs)
Lb(theta,phi,S)=(150,0,SLb)
Rb(theta,phi,S)=(210,0,SRb)
Hbl(theta,phi,S)=(140,45,SHbl)
Hbr(theta,phi,S)=(220,135,SHbr)
音频编码装置200和400可以基于下文提供的等式3生成信号W、X、Y和Z。这里,N1、N2、N3和N4可以是归一化因子,SX=cos(theta)*cos(phi)*S,Sy=sin(theta)*cos(phi)*S,Sz=sin(phi)*S
音频编码装置200和400可以压缩环绕立体场音频信号W、X、Y和Z,并生成包括压缩的环绕立体声音频信号W、X、Y和Z的比特流。
音频解码装置300和500可以获得包括3.1.2通道布局的压缩音频信号和压缩的环绕立体声音频信号的比特流。音频解码装置300和500可以基于3.1.2通道布局的压缩音频信号和压缩的环绕立体声音频信号生成5.1.2通道布局的音频信号。
音频解码装置300和500可以基于压缩的环绕声音频信号,根据下文提供的等式4生成听众身后的通道的音频信号。
Ls_1=cos(100)*cos(0)*X+sin(100)*cos(0)*Y+sin(0)*Z+W [等式4]
Rs_1=cos(250)*cos(0)*X+sin(250)*cos(0)*Y+sin(0)*Z+W
Lb_1=cos(150)*cos(0)*X+sin(150)*cos(0)*Y+sin(0)*Z+W
Rb_1=cos(210)*cos(0)*X+sin(210)*cos(0)*Y+sin(0)*Z+W
Hbl_1=cos(140)*cos(45)*X+sin(140)*cos(45)*Y+sin(45)*Z+W
Hbr_1=cos(220)*cos(220)*X+sin(220)*cos(135)*Y+sin(135)*Z+W
音频解码装置300和500可以使用3.1.2通道布局的C和LFE信号生成5.1.2通道布局的音频信号中的C和LFE信号。
音频解码装置300和500可以根据等式5生成5.1.2通道布局的音频信号中的H15、Hr5、L、R、Ls5和Rs5信号。
Hl5=Hfl3-0.649(Ls_1+0.866xLb_1) [等式5]
Hr5=Hfr3-0.649(Rs_1+0.866xRb_1)
L=L3-0.866(Ls_1+0.866xLb_1)
R=R3-0.866(Ls_1+0.866xLb_1)
Ls5=Ls_1+0.866xLb_1
Rs5=Rs_1+0.866xRb_1
音频解码装置300和500可以使用3.1.2通道布局的C和LFE信号生成7.1.4通道布局的音频信号中的C和LFE信号。
除了3.1.2通道布局的压缩音频信号之外,音频解码装置300和500可以使用从压缩的环绕立体声音频信号获得的Ls_1、Rs_1、Lb_1、Rb_1、Hbl_1和Hbr_1来生成7.1.4通道布局的音频信号当中的Ls、Rs、Lb、Rb、Hbl和Hbr信号。
音频解码装置300和500可以根据等式6在7.1.4通道布局的音频信号当中生成Hfl、Hfr、L和R信号。
Hfl=Hl5-Hbl_1 [等式6]
Hfr=Hr5-Hbr_1
L=L3-0.866(Ls_1+0.866xLb_1)
R=R3-0.866(Ls_1+0.866xLb_1)
除了3.1.2通道布局的压缩音频信号之外,音频解码装置300和500可以使用压缩的环绕立体声音频信号从3.1.2通道布局重构扩展通道布局的音频信号。
图18是用于描述由音频解码装置1800基于3.1.2通道布局的音频信号和声源对象信息在屏幕上生成对象音频信号的处理的视图。
音频编码装置200和400可以基于声源对象信息将空间上的音频信号转换成屏幕上的音频信号。这里,声源对象信息可以包括指示屏幕上的对象的混合水平信号object_S、对象的大小/形状object_G、对象的位置object_L和对象的方向object_V的声源对象信息。
声源对象信号生成器1810可以从音频信号W、X、Y、Z、L3、R3、C、LFE、Hfl3和Hfr3生成S、G、V和L信号。
/>
声源对象信号生成器1810可以基于声源对象3.1.2通道布局的音频信号S、G、V和L以及声源对象信息,生成关于屏幕上再生的声源对象的信号。
重新混合单元1820可以基于3.1.2通道布局的音频信号L3、R3、C、LFE、Hfl3和Hfr3以及关于屏幕上再生的声源对象的信号,生成重新混合的对象音频信号(屏幕上的音频信号)S11至Snm。
即,声源对象信号生成器1810和重新混合单元1820可以根据下文提供的等式8基于声源对象信息在屏幕上生成音频信号。
音频解码装置1800可以基于声源对象信息和S、G、V和L信号,通过将关于屏幕上再生的声源对象的信号与3.1.2通道布局的重构音频信号重新混合,来改善屏幕上声源对象的声像。
图19是用于描述根据本公开的各个实施例的音频编码装置200和400在每个通道组中的音频流的传输顺序和规则的视图。
在可缩放格式中,每个通道组中的音频流的传输顺序和规则可以如下所述。
音频编码装置200和400可以首先传输耦合流,然后传输非耦合流。
音频编码装置200和400可以首先传输环绕通道的耦合流,然后传输高置通道的耦合流。
音频编码装置200和400可以首先传输前方通道的耦合流,然后传输侧方通道或后方通道的耦合流。
对于非耦合流传输,音频编码装置200和400可以首先传输用于中央通道的流,然后传输用于LFE通道和另一个通道的流。这里,当基本通道组包括单通道信号时,可以存在另一个通道。在这种情况下,另一个通道可以是立体声通道的左通道L2或右通道R2之一。
音频编码装置200和400可以将耦合的通道的音频信号压缩成一对。音频编码装置200和400可以首先传输包括压缩成一对的音频信号的耦合流。例如,耦合通道可以指左右对称通道,例如L/R、Ls/Rs、Lb/Rb、Hfl/Hfr、Hbl/Hbr通道等。
在下文中,根据每个通道组中的流的上述传输顺序和规则,描述情况1的比特流1910中的每个通道组的流配置。
参照图19,例如,音频编码装置200和400可以压缩作为2通道音频信号的L1和R1信号,压缩的L1和R1信号可以被包括在基本通道组(BCG)的C1比特流中。
紧接着基本通道组,音频编码装置200和400可以将4-通道音频信号压缩成从属通道组#1的音频信号。
音频编码装置200和400可以压缩Hfl3信号和Hfr3信号,压缩的Hfl3信号和Hfr3信号可以被包括在从属通道组#1的比特流的C2比特流中。
音频编码装置200和400可以压缩C信号,压缩的C信号可以被包括在从属通道组#1的比特流的M1比特流中。
音频编码装置200和400可以压缩LFE信号,压缩的LFE信号可以被包括在从属通道组#1的比特流的M2比特流中。
音频解码装置300和500可以基于基本通道组和从属通道组#1的压缩音频信号来重构3.1.2通道布局的音频信号。
紧接着从属通道组#2,音频编码装置200和400可以将6-通道音频信号压缩成从属通道组#2的音频信号。
音频编码装置200和400可以首先压缩L信号和R信号,压缩的L信号和R信号可以被包括在从属通道组#2的比特流的C3比特流中。
紧接着C3比特流,音频编码装置200和400可以压缩Ls信号和Rs信号,压缩的Ls信号和Rs信号可以被包括在从属通道组#2的比特流的C4比特流中。
紧接着C4比特流,音频编码装置200和400可以压缩Hfl信号和Hfr信号,并且压缩的Hfl和Hfr信号可以被包括在从属通道组#2的比特流的C5比特流中。
音频解码装置300和500可以基于基本通道组、从属通道组#1和从属通道组#2的压缩音频信号来重构7.1.4通道布局的音频信号。
在下文中,根据每个通道组中的流的上述传输顺序和规则,描述情况2的比特流1920中的每个通道组的流配置。
音频编码装置200和400可以压缩作为2通道音频信号的L2信号和R2信号,压缩的L2信号和R2信号可以被包括在基本通道组的比特流的C1比特流中。
紧接着基本通道组,音频编码装置200和400可以将6-通道音频信号压缩成从属通道组#1的音频信号。
音频编码装置200和400可以首先压缩L信号和R信号,压缩的L信号和R信号可以被包括在从属通道组#1的比特流的C2比特流中。
音频编码装置200和400可以压缩Ls信号和Rs信号,压缩的Ls信号和Rs信号可以被包括在从属通道组#1的比特流的C3比特流中。
音频编码装置200和400可以压缩C信号,压缩的C信号可以被包括在从属通道组#1的比特流的M1比特流中。
音频编码装置200和400可以压缩LFE信号,压缩的LFE信号可以被包括在从属通道组#1的比特流的M2比特流中。
音频编码装置200和400可以基于基本通道组和从属通道组#1的压缩音频信号来重构7.1.0通道布局的音频信号。
紧接着从属通道组#1,音频编码装置200和400可以将4-通道音频信号压缩成从属通道组#2的音频信号。
音频编码装置200和400可以压缩Hfl信号和Hfr信号,并且压缩的Hfl信号和Hfr信号可以被包括在从属通道组#2的比特流的C4比特流中。
音频编码装置200和400可以压缩Hbl信号和Hbr信号,并且压缩的Hfl信号和Hfr信号可以被包括在从属通道组#2的比特流的C5比特流中。
音频解码装置300和500可以基于基本通道组、从属通道组#1和从属通道组#2的压缩音频信号来重构7.1.4通道布局的音频信号。
在下文中,根据每个通道组中的流的上述传输顺序和规则,描述情况3的比特流1930中的每个通道组的流配置。
音频编码装置200和400可以压缩作为2-通道音频信号的L2信号和R2信号,压缩的L2信号和R2信号可以被包括在基本通道组的比特流的C1比特流中。
紧接着基本通道组,音频编码装置200和400可以将10-通道音频信号压缩成从属通道组#1的音频信号。
音频编码装置200和400可以首先压缩L信号和R信号,压缩的L信号和R信号可以被包括在从属通道组#1的比特流的C2比特流中。
音频编码装置200和400可以压缩Ls信号和Rs信号,压缩的Ls信号和Rs信号可以被包括在从属通道组#1的比特流的C3比特流中。
音频编码装置200和400可以压缩Hfl信号和Hfr信号,并且压缩的Hfl信号和Hfr信号可以被包括在从属通道组#1的比特流的C4比特流中。
音频编码装置200和400可以压缩Hbl信号和Hbr信号,并且压缩的Hfl信号和Hfr信号可以被包括在从属通道组#1的比特流的C5比特流中。
音频编码装置200和400可以压缩C信号,压缩的C信号可以被包括在从属通道组#1的比特流的M1比特流中。
音频编码装置200和400可以压缩LFE信号,压缩的LFE信号可以被包括在从属通道组#1的比特流的M2比特流中。
音频编码装置200和400可以基于基本通道组和从属通道组#1的压缩音频信号来重构7.1.4通道布局的音频信号。
在一些实施例中,音频解码装置300和500可以使用至少一个上混单元以逐步的方式执行解混。可以基于包括在至少一个通道组中的通道的音频信号来执行解混。
例如,1.x到2.x上混单元(第一上混单元)可以从作为混合右通道的单通道的音频信号中解混右通道的音频信号。
可选地或附加地,2.x到3.x上混单元(第二上混单元)可以从对应于混合的中央通道的L2和R2通道的音频信号中解混中央通道的音频信号。可选地或附加地,2.x到3.x上混单元(第二上混单元)可以从混合的L3和R3通道的L2和R2通道的音频信号以及C通道的音频信号中解混L3通道的音频信号和R3通道的音频信号。
3.x到5.x上混单元(第三上混单元)可以从对应于Ls5/Rs5混合通道的L3、R3、L(5)和R(5)通道的音频信号中解混Ls5通道和Rs5通道的音频信号。
5.x到7.x上混单元(第四上混单元)可以从与混合的Lb/Rb通道对应的Ls5、Ls7和Rs7通道的音频信号中解混Lb通道的音频信号和Rb通道的音频信号。
x.x.2(FH)到x.x.2(H)上混单元(第四上混单元)可以从对应于混合的Ls/Rs通道的Hfl3、Hfr3、l3、L5、r3和R5通道的音频信号中解混Hl通道和Hr通道的音频信号。
x.x.2(H)到x.x.4上混单元(第五上混单元)可以从对应于混合的Hbl/Hbr通道的Hl、Hr、Hfl和Hfr通道的音频信号中解混Hbl通道和Hbr通道的音频信号。
例如,音频解码装置300和500可以使用第一上混单元对3.2.1通道布局执行解混。
音频解码装置300和500可以使用用于环绕通道的第二上混单元和第三混合单元以及用于高置通道的第四上混单元和第五上混单元对7.1.4通道布局执行解混。
可选地或附加地,音频解码装置300和500可以使用第一混合单元、第二混合单元和第三混合单元对7.1.0通道布局执行解混。音频解码装置300和500可以不执行从7.1.0通道布局到7.1.4通道布局的解混。
可选地或附加地,音频解码装置300和500可以使用第一混合单元、第二混合单元和第三混合单元对7.1.4通道布局执行解混。音频解码装置300和500可以不对高置通道执行解混。
在下文中,描述用于通过音频编码装置200和400生成通道组的规则。对于可缩放格式的通道布局Cli(其中I是从0到n的整数,CLi表示Si、Wi和Hi),Si+Wi+Hi可以指通道组#i的通道数量。通道组#i的通道数量可以大于通道组#i-1的通道数量。
通道组#i可以包括尽可能多的Cli(显示通道)原始通道。原始通道可以遵循下面描述的优先级。
当Hi-1为0时,高置通道的优先级可能高于其他通道的优先级。中央通道和LFE通道的优先级可以在其他通道之前。
高置前通道的优先级可以在侧方通道和高置后方通道的优先级之前。
侧方通道的优先级可以在后方通道的优先级之前。此外,左通道的优先级可以在右通道的优先级之前。
例如,当n是4,CL0是立体声通道,CL1是3.1.2通道,CL2是5.1.2通道,CL3是7.1.4通道时,可以如下所述生成通道组。
音频编码装置200和400可以生成包括A(L2)和B(R2)信号的基本通道组。音频编码装置200和400可以生成包括Q1(Hfl3)、Q2(Hfr3)、T(=C)和P(=LFE)信号的从属通道组#1。音频编码装置200和400可以生成包括S1(=L)和S2(=R)信号的从属通道组#2。
音频编码装置200和400可以生成包括V1(Hfl)、V2(Hfr)、U1(Ls)和U2(Rs)信号的从属通道组#3。
在一些实施例中,音频解码装置300和500可以使用下混矩阵从解压缩的音频信号中重构7.1.4通道的音频信号。在这种情况下,下混矩阵可以包括例如下文提供的表2中的下混权重参数。
[表2]
/>
这里,cw表示中央权重,当基本通道组的通道布局是3.1.2通道布局时,该中央权重可以是0,当基本通道组的通道布局是2-通道布局时,该中央权重可以是1。w可以表示环绕高度混合权重。α、β、γ和δ可以指示下混权重参数,并且可以是可变的。音频编码装置200和400可以生成包括如α、β、γ、δ和w的下混权重参数信息的比特流,音频解码装置300和500可以从比特流获得下混权重参数信息。另一方面,缩减混合矩阵(或解混矩阵)的权重参数信息可以是索引的形式。例如,下混矩阵(或解混矩阵)的权重参数信息可以是指示多个下混(或解混)权重参数集中的一个下混(或解混)权重参数集的索引信息,并且对应于一个下混(或解混)权重参数集的至少一个下混(或解混)权重参数可以以查找表(LUT)的形式存在。例如,下混(或解混)矩阵的权重参数信息可以是指示多个下混(或解混)权重参数集当中的一个下混(或解混)权重参数集的信息,并且α、β、γ、δ或w中的至少一个可以在对应于该一个下混(或解混)权重参数集的LUT中预定义。因此,音频解码装置300和500可以获得对应于一个下混(解混)权重参数集的α、β、γ、δ和w。用于从第一通道布局下混到第二通道布局的矩阵可以包括多个矩阵。例如,该矩阵可以包括用于从第一通道布局下混到第三通道布局的第一矩阵和用于从第三通道布局下混到第二通道布局的第二矩阵。具体地,例如,用于从7.1.4通道布局的音频信号下混到3.1.2通道布局的音频信号的矩阵可以包括用于从7.1.4通道布局的音频信号下混到5.1.4通道布局的音频信号的第一矩阵和用于从5.1.4通道布局的音频信号下混到3.1.2通道布局的音频信号的第二矩阵。
表3和表4示出了用于基于基于内容的下混参数和基于环绕高度的权重从7.1.4通道布局的音频信号下混到3.1.2通道布局的音频信号的第一矩阵和第二矩阵。
[表3]
[表4]
这里,α、β、γ或δ表示下混参数之一,w表示环绕高度权重。这里,A、B或C表示下混参数之一,w表示环绕高度权重。对于从5.x通道到7.x通道的上混(或解混),可以使用解混权重参数α和β。对于从x.x.2(H)通道到x.x.4通道的上混,可以使用解混权重参数Y。
对于从3.x通道到5.x通道的上混,可以使用解混权重参数δ。
对于从x.x.2(FH)通道到x.x.2(H)通道的上混,可以使用解混权重参数w和δ。
对于从2.x通道到3.x通道的上混,可以使用-3dB的解混权重参数。即,解混权重参数可以是固定值,并且可以不用信号通知。
此外,对于上混到1.x通道和2.x通道,可以使用-6dB的解混权重参数。即,解混权重参数可以是固定值,并且可以不用信号通知。在一些实施例中,用于解混的解混权重参数可以是包括在多种类型之一中的参数。例如,类型1的解混权重参数α、β、γ和δ可以是0dB、0dB、-3dB和-3dB。类型2的解混权重参数α、β、γ和δ可以是-3dB、-3dB、-3dB和-3dB。类型3的解混权重参数α、β、γ和δ可以是0dB、-1.25dB、-1.25dB和-1.25dB。
类型1可以是指示音频信号是普通音频信号的情况的类型,类型2可以是指示音频信号中包括对话的情况的类型(对话类型),类型3可以是指示音频信号中存在声音效果的情况的类型(声音效果类型)。
音频编码装置200和400可以分析音频信号和根据分析的音频信号的多种类型之一。音频编码装置200和400可以使用确定类型的解混权重参数对原始音频执行下混,以生成下部通道布局的音频信号。
音频编码装置200和400可以生成包括指示多种类型之一的索引信息的比特流。音频解码装置300和500可以从比特流获得索引信息,并基于获得的索引信息标识多种类型之一。音频解码装置300和500可以使用标识类型的解混权重参数来上混解压缩的通道组的音频信号,以重构特定通道布局的音频信号。
可选地或附加地,根据下混生成的音频信号可以表示为下文提供的等式9。即,可以基于使用一次多项式形式的等式的运算来执行下混,并且可以生成每个下混的音频信号。
Ls5=α×Ls7+β×Lb7 [等式9]
Rs5=α×Rs7+β×Rb7
L3=L5+δ×Ls5
R3=R5+δ×Rs5
L2=L3+p2×C
R2=R3+p2×C
Mono=p1×(L2+R2)
Hl=Hfl+γ×Hbl
Hr=Hfr+γ×Hbr
Hfl3=Hl×w′×δ×Ls5
Hfr3=Hr×w′×δ×Rs5
这里,p1可以是大约0.5(例如-6dB),p2可以是大约0.707(例如-3dB)。α和β可以是用于将环绕通道的数量从7通道下混到5通道的值。例如,α或β可以是1(例如0dB)、0.866(例如-1.25dB)和0.707(例如-3dB)。γ可以是用于将高置通道的数量从4个通道下混到5个通道的值。例如,γ可以是0.866或0.707中的一个。δ可以是用于将环绕通道的数量从5个通道下混到3个通道的值。δ可以是0.866或0.707中的一个。w’可以是用于从H2(例如,5.1.2通道布局或7.1.2通道布局的高置通道)到Hf2(3.1.2通道布局的高置通道)的下混的值。
同样,通过解混生成的音频信号可以表示为等式10。即,可以基于使用一次多项式形式的方程的运算,以逐步的方式(每个方程的运算过程对应于一个解混过程)执行解混,而不限于使用解混矩阵的运算,并且可以生成每个解混的音频信号。
R3=R2-p2×C
Hl=Hfl3-w′×(L3-L5)
Hr=Hfr3-w′×(R3-R5)
w’可以是用于从H2(例如,5.1.2通道布局或7.1.2通道布局的高置通道)下混到Hf2(3.1.2通道布局的高置通道)或者用于从Hf2(3.1.2通道布局的高置通道)解混到H2(例如,5.1.2通道布局或7.1.2通道布局的高置通道)的值。
对应的sumw和w’的值可以根据w来更新。w可以是大约-1或1,并且可以针对每一帧来传输。
例如,sumw的初始值可以是0,并且当对于每一帧w是1时,sumw的值可以增加1,并且当对于每一帧w是-1时,sumw的值可以减少1。当sumw的值增加或减少1时,当sumw的值在0-10的范围之外时sumw的值可以保持为0或10。显示w’和sumw之间的关系的表5可以如下。即,对于每一帧,w’可以逐渐更新,因此可以用于从Hf2到H2的解混。
[表5]
sumw 0 1 2 3 4 5
w′ 0 0.0179 0.0391 0.0658 0.1038 0.25
sumw 6 7 8 9 10
w′ 0.3962 w′ 0.4609 0.4821 0.5
不限于此,可以通过整合多个解混过程来执行解混。例如,来自L2和R2的2个环绕通道解混的Ls5通道或Rs5通道的信号可以被表示为等式11,其排列等式10的第二至第五等式。
从L2和R2的2个环绕通道解混的H1通道或Hr通道的信号可以表示为等式12,其排列了等式10的第二和第三等式以及第八和第九等式。
在一些实施例中,环绕通道和高置通道的逐步下混可以具有如图23所示的机制。
下混相关信息(或解混相关信息)可以是指示基于预设下混权重参数(或解混权重参数)的组合的多种模式之一的索引信息。例如,如表7所示,可以预先确定对应于多个模式的下混权重参数。
[表7]
模式 下混权重参数(α,β,γ,δ,w)(或解混权重参数)
1 (1,1,0.707,0.707,-1)
2 (0.707,0.707,0.707,0.707,-1)
3 (1,0.866,0.866,0.866,-1)
4 (1,1,0.707,0.707,1)
5 (0.707,0.707,0.707,0.707,1)
6 (1,0.866,0.866,0.866,1)
图20a是根据本公开的多种实施例的音频处理方法的流程图。在操作S2002,音频解码装置500可以从比特流获得基本通道组的至少一个压缩音频信号。在操作S2004,音频解码装置500可以从比特流中获得至少一个从属通道组的至少一个压缩音频信号。
在操作S2006,音频解码装置500可以从比特流获得关于上混通道组的一个上混通道的误差消除的因子的信息。
在操作S2008,音频解码装置500可以通过解压缩基本通道组的至少一个压缩的音频信号来重构基本通道组的音频信号。
在操作S2010,音频解码装置500可以通过解压缩至少一个从属通道组的至少一个压缩音频信号来重构至少一个从属通道组的至少一个音频信号。
在操作S2012,音频解码装置500可以基于基本通道的至少一个音频信号和至少一个从属通道组的至少一个音频信号生成上混通道组的音频信号。
在操作S2014,音频解码装置500可以基于上混通道组的一个上混通道的音频信号和误差消除的因子来重构一个上混通道的音频信号。
音频解码装置500可以重构多通道音频信号,该多通道音频信号包括通过应用误差消除的因子重构的上混通道组的一个上混通道的至少一个音频信号,以及上混通道组的其他通道的音频信号。即,误差消除的因子可能不适用于其他通道的一些音频信号。
图20b是根据本公开的多种实施例的音频处理方法的流程图。
在操作S2022,音频解码装置500可以从比特流中获得从至少一个第一音频信号下混的第二音频信号。
在操作S2024,音频解码装置500可以从比特流获得第一音频信号的误差消除相关信息。
在操作S2026,音频解码装置500可以通过将误差消除相关信息应用到上混的第一音频信号来重构第一音频信号。
图20c是根据本公开的多种实施例的音频处理方法的流程图。
在操作S2052,音频编码装置400可以通过基于特定通道布局下混原始音频信号来获得基本通道组的至少一个音频信号和至少一个从属通道组的音频信号。
在操作S2054,音频编码装置400可以通过压缩基本通道组的至少一个音频信号来生成基本通道组的至少一个压缩音频信号。
在操作S2056,音频编码装置400可以通过压缩至少一个从属通道组的至少一个音频信号来生成至少一个从属通道组的至少一个压缩音频信号。
在操作S2058,音频编码装置400可以通过解压缩基本通道组的至少一个压缩音频信号来生成基本通道重构信号。
在操作S2060,音频编码装置400可以通过解压缩至少一个从属通道组的至少一个音频信号来生成从属通道重构信号。
在操作S2062,音频编码装置400可以通过上混基本通道重构信号和从属通道重构信号来获得上混通道组的一个上混通道的第一音频信号。
在操作S2064,音频编码装置400可以从原始音频信号获得第二音频信号,或者通过下混原始音频信号获得一个通道的第二音频信号。
在操作S2066,音频编码装置400可以基于第一音频信号的功率值和第二音频信号的功率值获得一个上混通道的比例因子。这里,第一音频信号的上混通道和第二音频信号的通道可以指示特定通道布局中的相同通道。
在操作S2068,音频编码装置400可以生成包括基本通道组的至少一个压缩音频信号、至少一个从属通道组的至少一个压缩音频信号和一个上混通道的误差消除相关信息的比特流。
图20d是根据本公开的多种实施例的音频处理方法的流程图。
在操作S2072,音频编码装置400可以通过下混至少一个第一音频信号来生成第二音频信号。
在操作S2074,音频编码装置400可以使用第二音频信号的原始信号功率或解码后的第一音频信号的信号功率中的至少一个来生成第一音频信号的误差消除相关信息。
在操作S2076,音频编码装置400可以传输第一音频信号和下混的第二音频信号的误差消除相关信息。
图21是用于描述根据本公开的多种实施例的由音频编码装置使用第一神经网络通过LFE信号传输元数据并由音频解码装置使用第二神经网络从LFE信号获得元数据的过程的视图。
参照图21,音频编码装置2100可以通过使用下混单元2105基于混合相关信息(下混相关信息)下混通道信号L/R/C/Ls/Rs/Lb/Rb/Hfl/Hfr/Hbl/Hbr/W/X/Y/Z来获得A/B/T/Q/S/U/V音频信号。
音频编码装置2100可以使用具有LFE信号和元数据作为输入的第一神经网络2110来获得P信号。即,可以使用第一神经网络将元数据包括在LFE信号中。这里,元数据可以包括语音规范信息、关于误差消除的因子(例如,CER)的信息、屏幕上的对象信息和混合相关信息。
音频编码装置2100可以使用第一压缩器2115以A/B/T/Q/S/U/V音频信号作为输入来生成压缩的A/B/T/Q/S/U/V信号。
音频编码装置2100可以使用第二压缩器2115以P信号作为输入来生成压缩的P信号。
音频编码装置2100可以使用打包器2120生成包括压缩的A/B/T/Q/S/U/V信号和压缩的P信号的比特流。在这种情况下,比特流可以被打包。音频编码装置2100可以将打包的比特流传输到音频解码装置2150。
音频解码装置2150可以从音频编码装置2100接收打包的比特流。
音频解码装置2150可以使用解包器2155从打包的比特流中获得压缩的A/B/T/Q/S/U/V信号和压缩的P信号。
音频解码装置2150可以使用第一解压缩器2160从压缩的A/B/T/Q/S/U/V信号获得A/B/T/Q/S/U/V信号。
音频解码装置2150可以使用第二解压缩器2165从压缩的P信号中获得P信号。
音频解码装置2150可以使用上混单元2170基于(解)混合相关信息从A/B/T/Q/S/U/V信号重构通道信号。通道信号可以是L/R/C/Ls/Rs/Lb/Rb/Hfl/Hfr/Hbl/Hbr/W/X/Y/Z信号中的至少一个。可以使用第二神经网络2180来获得(解)混合相关信息。
音频解码装置2150可以使用低通滤波器2175从P信号获得LFE信号。
音频解码装置2150可以使用高频检测器2185从P信号获得使能信号。
音频解码装置2150可以基于使能信号确定是否使用第二神经网络2180。
当确定使用第二神经网络2180时,音频解码装置2150可以使用第二神经网络2180从P信号获得元数据。元数据可以包括语音规范信息、关于误差消除的因子(例如,CER)的信息、屏幕上的对象信息和(解)混合相关信息。
第一神经网络2110和第二神经网络2180的参数可以通过独立训练获得,也可以通过联合训练获得,但不限于此。预训练的第一神经网络2110和第二神经网络2180的参数信息可以从单独的训练设备接收,并且第一神经网络2110和第二神经网络2180可以基于参数信息分别设置。
第一神经网络2110和第二神经网络2180中的每一个可以选择多个训练参数集中的一个。例如,第一神经网络2110可以基于从多个训练参数集当中选择的一个参数集来设置。音频编码装置2100可以将指示从第一神经网络2110的多个参数集当中选择的一个参数集的索引信息传输到音频解码装置2150。音频解码装置2150可以基于索引信息从第二神经网络2180的多个参数集当中选择一个参数集。由音频解码装置2150为第二神经网络2180选择的参数集可以对应于由音频编码装置2100为第一神经网络2110选择的参数集。第一神经网络的多个参数集和第二神经网络2180的多个参数集可以具有一对一的对应关系,但是也可以具有一对多或多对一的对应关系,不限于此。在一对多对应的情况下,可以从音频编码装置2100传输附加索引信息。可选地或附加地,音频编码装置2100可以传输指示第二神经网络2180的多个参数集之一的索引信息,来代替指示第一神经网络2110的多个参数集之一的索引信息。
图22a是根据本公开的多种实施例的音频处理方法的流程图。
在操作S2205,音频解码装置2150可以从比特流中获得从至少一个第一音频信号下混的第二音频信号。
在操作S2210,音频解码装置2150可以从比特流获得LFE通道的音频信号。
在操作S2215,对于获得的LFE通道的音频信号,音频解码装置2150可以使用用于获得附加信息的神经网络(例如,第二神经网络2180)获得与第一音频信号的误差消除相关的音频信息。
在操作S2220,音频解码装置2150可以通过将误差消除相关信息应用于从第二音频信号上混的第一音频信号来重构第一音频信号。
图22b是根据本公开的多种实施例的音频处理方法的流程图。
在操作S2255,音频编码装置2100可以通过下混至少一个第一音频信号来生成第二音频信号。
在操作S2260,音频编码装置2100可以使用第二音频信号的原始信号功率或解码后的第一音频信号的信号功率中的至少一个来生成第一音频信号的误差消除相关信息。
在操作S2265,对于误差消除相关信息,音频编码装置2100可以使用LFE通道的音频信号的神经网络(例如,第一神经网络2110)来生成LFE通道的音频信号。
在操作S2270,音频编码装置2100可以传输下混的第二音频信号和LFE通道的音频信号。
根据本公开的多种实施例,音频编码装置可以基于音频信号的信号功率生成误差消除的因子,并将关于误差消除的因子的信息传输到音频解码装置。通过基于关于误差消除的因子的信息将误差消除的因子应用于上混通道的音频信号,音频解码装置可以降低以噪声形式的掩蔽声音的能量,以匹配目标声音的被掩蔽的声音的能量。
在一些实施例中,本公开的上述实施例可以被写成可在计算机上执行的程序或指令,并且该程序或指令可以被存储在存储介质中。
机器可读存储介质可以以非暂时性存储介质的形式提供。其中,术语“非暂时性存储介质”仅仅意味着存储介质是有形设备,并且不包括信号(例如,电磁波),但是该术语不区分数据半永久性地存储在存储介质中的位置和数据临时存储在存储介质中的位置。例如,“非暂时性存储介质”可以包括临时存储数据的缓冲器。
根据本公开的多种实施例,根据本文公开的各种实施例的方法可以包括在计算机程序产品中并在其中提供。计算机程序产品可以作为产品在卖方和买方之间交易。计算机程序产品可以以机器可读存储介质(例如,光盘只读存储器(CD-ROM))的形式分发,或者经由应用商店(例如,PlayStoreTM)在线分发(例如,下载或上传),或者直接在两个用户设备(例如,智能电话)之间分发。当在线分发时,计算机程序产品的至少一部分(例如,可下载的应用)可以至少临时存储或临时生成在机器可读存储介质中,例如制造商的服务器的存储器、应用商店的服务器或中继服务器。
在一些实施例中,与上述神经网络相关联的模型可以实现为软件模块。当实现为软件模块(例如,包括指令的程序模块)时,神经网络模型可以存储在计算机可读记录介质上。
可选地或附加地,神经网络模型可以以硬件芯片的形式集成,并且可以是上述装置和显示设备的一部分。例如,神经网络模型可以以用于人工智能的专用硬件芯片形式制成,或者作为常规通用处理器(例如,CPU或AP)或图形专用处理器(例如,GPU)的一部分制成。
可选地或附加地,神经网络模型可以以可下载软件的形式提供。计算机程序产品可以包括通过制造商或电子市场以电子方式分发的软件程序形式的产品(例如,可下载的应用程序)。对于电子分发,软件程序的至少一部分可以存储在存储介质中或者临时生成。在这种情况下,存储介质可以是制造商或电子市场的服务器,或者是中继服务器的存储介质。
参考示例性实施例详细描述了本公开的技术精神,但是本公开的技术精神不限于上述实施例,并且本领域普通技术人员可以在本公开的技术精神内对本公开的技术精神进行各种改变和修改,而不限于前述实施例。

Claims (15)

1.一种音频处理方法,包括:
通过下混至少一个第一音频信号来生成第二音频信号;
使用所述至少一个第一音频信号的原始信号功率或解码后的所述至少一个第一音频信号的第二信号功率中的至少一个,生成与所述至少一个第一音频信号的误差消除相关的第一信息;以及
传输与所述至少一个第一音频信号的误差消除相关的第一信息和下混的第二音频信号。
2.根据权利要求1所述的音频处理方法,其中,与所述至少一个第一音频信号的误差消除相关的第一信息包括关于用于误差消除的因子的第二信息,并且
其中,生成与所述至少一个第一音频信号的误差消除相关的第一信息包括,当所述至少一个第一音频信号的原始信号功率小于或等于第一值时,生成关于用于误差消除的因子的第二信息,第二信息指示误差消除的因子的值为0。
3.根据权利要求1所述的音频处理方法,其中,与所述至少一个第一音频信号的误差消除相关的第一信息包括关于用于误差消除的因子的第二信息,并且
其中,生成与所述至少一个第一音频信号的误差消除相关的第一信息包括:当所述至少一个第一音频信号的原始信号功率与第二音频信号的原始信号功率的第一比小于第二值时,基于所述至少一个第一音频信号的原始信号功率和解码后的所述至少一个第一音频信号的第二信号功率,生成关于用于误差消除的因子的第二信息。
4.根据权利要求3所述的音频处理方法,其中,生成关于用于误差消除的因子的第二信息包括生成关于用于误差消除的因子的第二信息,第二信息指示用于误差消除的因子的值是所述至少一个第一音频信号的原始信号功率与解码后的所述至少一个第一音频信号的第二信号功率的第二比。
5.根据权利要求4所述的音频处理方法,其中,生成关于用于误差消除的因子的第二信息包括:当所述至少一个第一音频信号的原始信号功率与解码后的所述至少一个第一音频信号的第二信号功率的第二比大于1时,生成关于用于误差消除的因子的第二信息,第二信息指示用于误差消除的因子的值为1。
6.根据权利要求1所述的音频处理方法,其中,与所述至少一个第一音频信号的误差消除相关的第一信息包括关于用于误差消除的因子的第二信息,并且
其中,生成与所述至少一个第一音频信号的误差消除相关的第一信息包括,当所述至少一个第一音频信号的原始信号功率与第二音频信号的原始信号功率的比大于或等于第二值时,生成关于用于误差消除的因子的第二信息,第二信息指示用于误差消除的因子的值为1。
7.根据权利要求1所述的音频处理方法,其中,生成关于用于误差消除的因子的第二信息包括,
针对所述第二音频信号的每一帧,生成与所述至少一个第一音频信号的误差消除相关的第一信息。
8.根据权利要求1所述的音频处理方法,其中,下混的第二音频信号包括基本通道组的第三音频信号和从属通道组的第四音频信号,
其中,从属通道组的第四音频信号包括第一从属通道的第五音频信号,其包括在听众前方的第一三维(3D)音频通道中包括的独立通道的第六音频信号,并且
其中,在听众的侧方和后方的第二3D音频通道的第七音频信号已经通过混合第一从属通道的第五音频信号被获得。
9.根据权利要求8所述的音频处理方法,其中,基本通道组的第三音频信号包括第二通道的第八音频信号和第三通道的第九音频信号,
其中,第二通道的第八音频信号已经通过在听众前方将左立体声通道的第十音频信号与中央通道的解码音频信号混合而被生成,并且
其中,第三通道的第九音频信号已经通过在听众前方将右立体声通道的第十一音频信号与中央通道的解码音频信号混合而被生成。
10.根据权利要求1所述的音频处理方法,其中,下混的第二音频信号包括基本通道组的第三音频信号和从属通道组的第四音频信号,
其中,基本通道组的第三音频信号包括立体声通道的第五音频信号,
其中,传输与所述至少一个第一音频信号的误差消除相关的第一信息和下混的第二音频信号包括:
生成比特流,所述比特流包括与所述至少一个第一音频信号的误差消除相关的第一信息和关于下混的第二音频信号的第二信息,以及
传输所述比特流,以及
其中,所述比特流的生成包括:
生成包括立体声通道的压缩的第五音频信号的基本通道音频流,以及
生成包括多个从属通道组的多个音频信号的多个从属通道音频流,以及
其中,所述多个从属通道音频流包括第一从属通道音频流和第二从属通道音频流,并且
其中,当对于用于生成基本通道音频流和第一从属通道音频流的第一多通道音频信号,环绕通道的第一数量是Sn-1,低音炮通道的第二数量是Wn-1,高置通道的第三数量是Hn-1,并且对于用于生成第一从属通道音频流和第二从属通道音频流的第二多通道音频信号,环绕通道的第四数量是Sn,低音炮通道的第五数量是Wn,高置通道的第六数量是Hn
Sn-1小于或等于Sn,Wn-1小于或等于Wn,Hn-1小于或等于Hn,但是Sn-1、Wn-1和Hn-1的所有分别不等于Sn、Wn和Hn
11.一种音频处理方法,包括:
从比特流中获得从至少一个第一音频信号下混的第二音频信号;
从所述比特流中获得与所述至少一个第一音频信号的误差消除相关的第一信息;
从下混的第二音频信号中解混所述至少一个第一音频信号;以及
通过将与所述至少一个第一音频信号的误差消除相关的第一信息混合到解混的所述至少一个第一音频信号来重构所述至少一个第一音频信号,
其中,已经使用所述至少一个第一音频信号的原始信号功率或解码后的所述至少一个第一音频信号的第二信号功率中的至少一个,生成了与所述至少一个第一音频信号的误差消除相关的第一信息。
12.根据权利要求11所述的音频处理方法,其中,与所述至少一个第一音频信号的误差消除相关的第一信息包括关于用于误差消除的因子的第二信息,并且
其中,用于误差消除的所述因子大于或等于0且小于或等于1。
13.根据权利要求11所述的音频处理方法,其中,所述至少一个第一音频信号的重构包括重构所述至少一个第一音频信号,以具有第三信号功率,所述第三信号功率等于所述解混的至少一个第一音频信号的第四信号功率与误差消除的因子的乘积。
14.根据权利要求11所述的音频处理方法,其中,所述比特流包括关于基本通道组的第三音频信号的第二信息和关于从属通道组的第四音频信号的第三信息,
其中,基本通道组的第三音频信号是通过解码比特流中包括的关于基本通道组的第三音频信号的第二信息而获得的,而没有与另一个通道组的另一个音频信号解混,并且
其中,所述音频处理方法还包括使用从属通道组的第四音频信号,通过与基本通道组的第三音频信号解混来重构包括至少一个上混通道的上混通道组的第五音频信号。
15.一种音频处理设备,包括:
存储器,存储一个或多个指令;以及
至少一个处理器,其通信地耦合到所述存储器,并且被配置为执行所述一个或多个指令以:
从比特流中获得从至少一个第一音频信号下混的第二音频信号,
从所述比特流中获得与所述至少一个第一音频信号的误差消除相关的信息,
从下混的第二音频信号中解混所述至少一个第一音频信号,以及
通过将与所述至少一个第一音频信号的误差消除相关的信息应用于从第二音频信号解混的所述至少一个第一音频信号,来重构所述至少一个第一音频信号,以及
其中,已经使用所述至少一个第一音频信号的原始信号功率或解码后的所述至少一个第一音频信号的第二信号功率中的至少一个,生成了与所述至少一个第一音频信号的误差消除相关的信息。
CN202280011393.9A 2021-01-25 2022-01-25 用于处理多通道音频信号的装置和方法 Pending CN116917985A (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
KR10-2021-0010435 2021-01-25
KR10-2021-0011914 2021-01-27
KR10-2021-0069531 2021-05-28
KR10-2021-0072326 2021-06-03
KR10-2021-0140579 2021-10-20
KR1020210140579A KR20220107913A (ko) 2021-01-25 2021-10-20 다채널 오디오 신호 처리 장치 및 방법
PCT/KR2022/001314 WO2022158943A1 (ko) 2021-01-25 2022-01-25 다채널 오디오 신호 처리 장치 및 방법

Publications (1)

Publication Number Publication Date
CN116917985A true CN116917985A (zh) 2023-10-20

Family

ID=88361356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280011393.9A Pending CN116917985A (zh) 2021-01-25 2022-01-25 用于处理多通道音频信号的装置和方法

Country Status (1)

Country Link
CN (1) CN116917985A (zh)

Similar Documents

Publication Publication Date Title
JP6778781B2 (ja) エンコードされたオーディオ拡張メタデータベースのダイナミックレンジ制御
US9761229B2 (en) Systems, methods, apparatus, and computer-readable media for audio object clustering
JP6239110B2 (ja) 効率的なオブジェクト・メタデータ符号化の装置と方法
US9479886B2 (en) Scalable downmix design with feedback for object-based surround codec
US7848931B2 (en) Audio encoder
US10075802B1 (en) Bitrate allocation for higher order ambisonic audio data
JP2008517339A (ja) 空間音声パラメータの効率的符号化のためのエネルギー対応量子化
KR20100024477A (ko) 오디오 신호 처리방법 및 장치
US20220286799A1 (en) Apparatus and method for processing multi-channel audio signal
CN108780647B (zh) 用于音频信号译码的方法和设备
US20200120438A1 (en) Recursively defined audio metadata
US20190392846A1 (en) Demixing data for backward compatible rendering of higher order ambisonic audio
CN114945982A (zh) 空间音频参数编码和相关联的解码
US11538489B2 (en) Correlating scene-based audio data for psychoacoustic audio coding
CN115580822A (zh) 空间音频捕获、传输和再现
JP6686015B2 (ja) オーディオ信号のパラメトリック混合
US20240087580A1 (en) Three-dimensional audio signal coding method and apparatus, and encoder
US20230360665A1 (en) Method and apparatus for processing audio for scene classification
US10224043B2 (en) Audio signal processing apparatuses and methods
CN114005454A (zh) 实现低复杂度格式转换的内部声道处理方法和装置
KR20220107913A (ko) 다채널 오디오 신호 처리 장치 및 방법
CN112823534B (zh) 信号处理设备和方法以及程序
CN114008704A (zh) 编码已缩放空间分量
US20240153512A1 (en) Audio codec with adaptive gain control of downmixed signals
CN116917985A (zh) 用于处理多通道音频信号的装置和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination