CN118314908A - 场景音频解码方法及电子设备 - Google Patents

场景音频解码方法及电子设备 Download PDF

Info

Publication number
CN118314908A
CN118314908A CN202310614158.7A CN202310614158A CN118314908A CN 118314908 A CN118314908 A CN 118314908A CN 202310614158 A CN202310614158 A CN 202310614158A CN 118314908 A CN118314908 A CN 118314908A
Authority
CN
China
Prior art keywords
audio signal
signal
order
scene
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310614158.7A
Other languages
English (en)
Inventor
刘帅
高原
李佳蔚
夏丙寅
王喆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to PCT/CN2023/141753 priority Critical patent/WO2024146408A1/zh
Publication of CN118314908A publication Critical patent/CN118314908A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Stereophonic System (AREA)

Abstract

本申请提供一种场景音频解码方法及电子设备。该解码方法包括:接收第一码流;解码第一码流,以得到第一重建信号、目标虚拟扬声器的属性信息和高阶能量增益编码结果,第一重建信号是场景音频信号中第一音频信号的重建信号;基于目标虚拟扬声器的属性信息和第一音频信号,生成目标虚拟扬声器对应的虚拟扬声器信号;基于目标虚拟扬声器的属性信息和虚拟扬声器信号进行重建,以得到第一重建场景音频信号;根据高阶能量增益编码结果对第一重建场景音频信号进行调整,以得到重建后的场景音频信号。相对于现有技术而言,本申请在达到同等质量的前提下解码码率更低。此外,本申请能够提高音频信号的解码质量。

Description

场景音频解码方法及电子设备
本申请要求于2023年1月6日提交中国专利局、申请号为202310030731.X、发明名称为“一种三维音频信号的处理方法和装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请实施例涉及音频解码领域,尤其涉及一种场景音频解码方法及电子设备。
背景技术
三维音频技术是通过计算机、信号处理等方式对真实世界中声音事件和三维声场信息进行获取、处理,传输和渲染回放的音频技术。三维音频使声音具有强烈的空间感、包围感及沉浸感,给人以“声临其境”的非凡听觉体验。其中,HOA(Higher Order Ambisonics,高阶立体混响)技术具有在录制、编码与回放阶段与扬声器布局无关的性质以及HOA格式数据的可旋转回放特性,在进行三维音频回放时具有更高的灵活性,因而也得到了更为广泛的关注和研究。
对于N阶HOA信号来说,其对应的通道数为(N+1)2。随着HOA阶数的增加,HOA信号中用于记录更详细的声音场景的信息也会随之增加;但HOA信号的数据量也会随之增多,大量的数据造成传输和存储的困难,因此需要对HOA信号进行编解码。然而,现有技术对HOA信号的重建存在准确率低的问题。
发明内容
本申请提供一种场景音频编解码方法及电子设备。
第一方面,本申请实施例提供一种场景音频编码方法,该方法包括:获取待编码的场景音频信号,所述场景音频信号包括C1个通道的音频信号,C1为正整数;获取所述场景音频信号对应的目标虚拟扬声器的属性信息;获取所述场景音频信号的高阶能量增益;对所述高阶能量增益进行编码,以得到高阶能量增益编码结果;编码所述场景音频信号中第一音频信号、所述目标虚拟扬声器的属性信息和所述高阶能量增益编码结果,以得到第一码流;其中,所述第一音频信号为所述场景音频信号中K个通道的音频信号,K为小于或等于C1的正整数。
一种可能的方式中,所述场景音频信号为N1阶高阶立体混响HOA信号,所述N1阶HOA信号包括第二音频信号,所述第二音频信号为所述N1阶HOA信号中除所述第一音频信号之外的音频信号,C1等于(N1+1)的平方;所述获取所述场景音频信号的高阶能量增益,包括:根据所述第二音频信号的特征信息和所述第一音频信号的特征信息获取所述高阶能量增益。
示例性的,N1阶HOA信号包括第二音频信号,可以理解为N1阶HOA信号仅包括第二音频信号。
示例性的,N1阶HOA信号包括第二音频信号,可以理解为N1阶HOA信号包括第二音频信号和其他音频信号。
示例性的,第一音频信号可以称为场景音频信号的低阶部分,第二音频信号可以称为场景音频信号的高阶部分。也就是说,可以编码场景音频信号的低阶部分与场景音频信号的高阶部分中的一部分。
应该理解的是,相对于N1阶HOA信号包括第二音频信号而言,N1阶HOA信号仅包括第一音频信号时,编码的N1阶HOA信号的通道数更少,对应的码率更低。
一种可能的方式中,所述根据所述第二音频信号的特征信息和所述第一音频信号的特征信息获取所述高阶能量增益,包括:获取所述第一音频信号的能量增益和所述第二音频信号的能量增益;根据所述第一音频信号的能量增益和所述第二音频信号的能量增益获取所述高阶能量增益。
一种可能的方式中,所述根据所述第一音频信号的能量增益和所述第二音频信号的能量增益获取所述高阶能量增益,包括:通过如下方式获取所述高阶能量增益Gain’(i,b):
Gain’(i,b)=10*log10(E(i,b)/E(1,b));
其中,log10表示对数函数log,*表示相乘运算,E(1,b)为所述第一音频信号的第b个频带的通道能量,E(i,b)为所述第二音频信号的第b个频带的第i个通道能量,i为所述第二音频信号的第i个通道的编号,b为所述第二音频信号的频带序号。
一种可能的方式中,所述对所述高阶能量增益进行编码,以得到高阶能量增益编码结果,包括:对所述高阶能量增益进行量化,以得到量化后的高阶能量增益;对所述量化后的高阶能量增益进行熵编码,以得到所述高阶能量增益编码结果。
需要说明的是,目标虚拟扬声器的位置与场景音频信号中声源的位置相匹配;根据目标虚拟扬声器的属性信息和场景音频信号中第一音频信号,可以生成目标虚拟扬声器对应的虚拟扬声器信号;根据虚拟扬声器信号和高阶能量增益编码结果,可以重建出该场景音频信号。因此,编码端将场景音频信号中第一音频信号、目标虚拟扬声器的属性信息和高阶能量增益编码结果一起编码后发送给解码端,解码端可以基于解码得到第一重建信号(即场景音频信号中第一音频信号的重建信号)、目标虚拟扬声器的属性信息和高阶能量增益编码结果,重建出该场景音频信号。
相对于现有技术中其他重建场景音频信号的方法而言,基于虚拟扬声器信号重建出的场景音频信号的音频质量更高;因此当K等于C1时,在同等码率下,本申请的重建出的场景音频信号的音频质量更高。
当K小于C1时,相对于现有技术而言,本申请编码的音频信号的通道数更少,且目标虚拟扬声器的属性信息的数据量,远小于一个通道的音频信号的数据量;因此在达到同等质量的前提下,本申请编码码率更低。
此外,现有技术是将场景音频信号转换为虚拟扬声器信号和残差信号后再编码,而本申请编码端直接编码场景音频信号中第一音频信号,无需计算虚拟扬声器信号和残差信号,编码端的编码复杂度更低。
示例性的,本申请实施例涉及的场景音频信号,可以是指用于描述声场的信号;其中,场景音频信号可以包括:HOA信号(其中,HOA信号可以包括三维HOA信号和二维HOA信号(也可以称为平面HOA信号))和三维音频信号;三维音频信号可以是指场景音频信号中除HOA信号之外的其他音频信号。
一种可能的方式中,当N1等于1时,K可以等于C1;当N1大于1时,K可以小于C1。应该理解的是,当N1等于1时,K也可以小于C1。
示例性的,编码场景音频信号中第一音频信号和目标虚拟扬声器的属性信息的过程可以包括:下混、变换、量化以及熵编码等操作,本申请对此不作限制。
示例性的,第一码流可以包括场景音频信号中第一音频信号的编码数据,以及目标虚拟扬声器的属性信息的编码数据。
一种可能的方式中,可以基于场景音频信号,从多个候选虚拟扬声器中,选取目标虚拟扬声器,再确定目标虚拟扬声器的属性信息。示例性的,虚拟扬声器(包括候选虚拟扬声器和目标虚拟扬声器)是虚拟的扬声器,不是真实存在的扬声器。
示例性的,多个候选虚拟扬声器可以均匀的分布在球面上,目标虚拟扬声器的数量可以为一个或多个。
一种可能的方式中,可以获取预先设定的目标虚拟扬声器,再确定目标虚拟扬声器的属性信息。
应该理解的是,本申请不限制确定目标虚拟扬声器的方式。
第二方面,本申请实施例提供一种场景音频解码方法,该场景音频解码方法包括:接收第一码流;解码所述第一码流,以得到第一重建信号、目标虚拟扬声器的属性信息和高阶能量增益编码结果,所述第一重建信号是场景音频信号中第一音频信号的重建信号,所述场景音频信号包括C1个通道的音频信号,所述第一音频信号为场景音频信号中K个通道的音频信号,C1为正整数,K为小于或等于C1的正整数;基于所述目标虚拟扬声器的属性信息和所述第一音频信号,生成所述目标虚拟扬声器对应的虚拟扬声器信号;基于所述目标虚拟扬声器的属性信息和所述虚拟扬声器信号进行重建,以得到第一重建场景音频信号;所述第一重建场景音频信号包括C2个通道的音频信号,C2为正整数;根据所述高阶能量增益编码结果对所述第一重建场景音频信号进行调整,以得到重建后的场景音频信号。
一种可能的方式中,所述场景音频信号为N1阶高阶立体混响HOA信号,所述N1阶HOA信号包括第二音频信号,所述第二音频信号为所述N1阶HOA信号中除所述第一音频信号之外的音频信号,C1等于(N1+1)的平方;和/或,所述第一重建场景音频信号为N2阶HOA信号,所述N2阶HOA信号包括第三音频信号,所述第三音频信号为所述N2阶HOA信号中与所述第二音频信号的各通道对应的重建信号,C2等于(N2+1)的平方。
一种可能的方式中,所述根据所述高阶能量增益编码结果对所述第一重建场景音频信号进行调整,以得到重建后的场景音频信号包括:对所述高阶能量增益编码结果进行熵解码,以得到熵解码后的高阶能量增益;对所述熵解码后的高阶能量增益进行反量化,以得到高阶能量增益;根据所述第二音频信号的特征信息和所述第一音频信号的特征信息对所述高阶能量增益进行调整,以得到调整后的解码高阶能量增益;根据所述调整后的解码高阶能量增益对所述N2阶HOA信号中的第三音频信号进行调整,以得到调整后的第三音频信号,所述调整后的第三音频信号属于所述重建后的场景音频信号。在上述方案中,解码端从第一码流中获取高阶能量增益编码结果,利用高阶能量增益编码结果对N2阶HOA信号中的第三音频信号进行能量调整。解码端利用高阶能量增益编码结果调节第三音频信号的高阶通道能量,使第三音频信号的解码质量更高。
一种可能的方式中,所述根据所述第二音频信号的特征信息和所述第一音频信号的特征信息对所述高阶能量增益进行调整,包括:根据所述第一音频信号的通道能量和所述高阶能量增益获取所述第二音频信号的高阶能量;根据所述第三音频信号的通道能量和所述第二音频信号的高阶能量获取解码能量比例因子;根据所述第三音频信号的通道能量和所述第一音频信号的通道能量获取所述第三音频信号的解码高阶能量增益;根据所述解码能量比例因子对所述第三音频信号的解码高阶能量增益进行调整,以得到所述调整后的解码高阶能量增益。
一种可能的方式中,所述根据所述解码能量比例因子对所述第三音频信号的解码高阶能量增益进行调整,以得到所述调整后的解码高阶能量增益,包括:
通过如下方式获取所述调整后的解码高阶能量增益Gain_dec’(i,b):
Gain_dec’(i,b)=w*min(g(i,b),Gain_dec(i,b))+(1-w)*g(i,b);
其中,g(i,b)表示所述解码能量比例因子,Gain_dec(i,b)表示所述第三音频信号的解码高阶能量增益,i为所述第三音频信号的第i个通道的编号,b为所述第三音频信号的频带序号,w为预设的调节比例阈值,min表示取最小值运算,*表示相乘运算。
一种可能的方式中,所述根据所述调整后的解码高阶能量增益对所述N2阶HOA信号中的第三音频信号进行调整,包括:根据所述第三音频信号所在的频带序号获取衰减因子;根据所述调整后的解码高阶能量增益和所述衰减因子对所述第三音频信号进行调整。在上述方案中,获取到调整后的解码高阶能量增益之后,可以对当前帧的第三音频信号的增益进行加权处理,增益随着第三音频信号所在的频带序号进行衰减,可以先根据第三音频信号所在的频带序号获取衰减因子,然后将调整后的解码高阶能量增益作用于当前帧重建的第三音频信号的高阶通道,使得高阶通道能量更加均匀和平滑,提高重建的音频信号的质量。
一种可能的方式中,所述根据所述高阶能量增益编码结果对所述第一重建场景音频信号进行调整之后,所述方法还包括:获取所述调整后的第三音频信号对应的第四音频信号的通道能量,所述第三音频信号包括当前帧的音频信号,所述第四音频信号包括所述当前帧的在先帧的音频信号;根据所述第四音频信号的通道能量对所述调整后的第三音频信号再次进行调整。在上述方案中,解码端还可以利用第三音频信号的在先帧对当前帧的调整后的第三音频信号再次进行调整,以使得重建的音频信号的质量提高。
一种可能的方式中,所述根据所述第四音频信号的通道能量对所述调整后的第三音频信号再次进行调整,包括:获取所述第四音频信号的通道能量平均值和所述调整后的第三音频信号的通道能量;根据所述第四音频信号的通道能量平均值和所述调整后的第三音频信号的通道能量获取能量平均阈值;根据所述能量平均阈值对所述第四音频信号的通道能量平均值和所述调整后的第三音频信号的通道能量进行加权平均计算,以得到目标能量;根据所述目标能量和所述调整后的第三音频信号的通道能量获取能量平滑因子;根据所述能量平滑因子对所述调整后的第三音频信号再次进行调整。
一种可能的方式中,所述根据所述第三音频信号所在的频带序号获取衰减因子,包括:
通过如下方式获取衰减因子g’(i,b):
或,
其中,i为所述第三音频信号的第i个通道的编号,b为所述第三音频信号的频带序号,p为预设的衰减阈值。
在上述方案中,通过上述衰减因子g’(i,b)的计算方式,b为第三音频信号的频带序号,通过上述参数可以准确计算出衰减因子,使得该衰减因子和调整后的解码高阶能量增益用于调整第三音频信号时,提高重建音频信号的质量。
一种可能的方式中,所述根据所述第四音频信号的通道能量平均值和所述调整后的第三音频信号的通道能量获取能量平均阈值,包括:
通过如下方式获取能量平均阈值k:
其中,E_mean(i,b)表示所述第四音频信号的通道能量平均值,E’_dec(i,b)表示所述调整后的第三音频信号的能量。
一种可能的方式中,所述根据所述目标能量和所述调整后的第三音频信号的通道能量获取能量平滑因子,包括:
通过如下方式获取能量平滑因子q(i,b):
q(i,b)=sqrt(E_target(i,b))/sqrt(E’_dec(i,b));
其中,E_target(i,b)表示所述目标能量,E’_dec(i,b)表示所述调整后的第三音频信号的能量。
一种可能的方式中,所述根据所述解码能量比例因子对所述第三音频信号的解码高阶能量增益进行调整,以得到所述调整后的解码高阶能量增益,包括:
通过如下方式获取所述调整后的解码高阶能量增益Gain_dec’(i,b):
Gain_dec’(i,b)=w*min(g(i,b),Gain_dec(i,b))+(1-w)*g(i,b);
其中,g(i,b)表示所述解码能量比例因子,Gain_dec(i,b)表示所述第三音频信号的解码高阶能量增益,w为预设的调节比例阈值,min表示取最小值运算,*表示相乘运算。
相对于现有技术中其他重建场景音频信号的方法而言,基于虚拟扬声器信号重建出的场景音频信号的音频质量更高;因此当K等于C1时,在同等码率下,本申请的重建出的场景音频信号的音频质量更高。
当K小于C1时,在对场景音频信号编码的过程中,本申请编码的音频信号的通道数,小于现有技术编码的音频信号的通道数,且目标虚拟扬声器的属性信息的数据量,远小于一个通道的音频信号的数据量;因此在同等码率的前提下,本申请解码得到重建场景音频信号的音频质量更高。
其次,由于现有技术编码传输的虚拟扬声器信号和残差信息是通过原始音频信号(即待编码的场景音频信号)转换而来的,并不是原始音频信号,会引入误差;而本申请编码了部分原始音频信号(即待编码的场景音频信号中的K个通道的音频信号),避免了误差的引入,进而能够提高解码得到重建场景音频信号的音频质量;且还能够避免解码得到重建场景音频信号的重建质量的波动,稳定性高。
此外,由于现有技术编码以及传输的是虚拟扬声器信号,而虚拟扬声器信号的数据量较大,因此现有技术选取的目标虚拟扬声器的数量受到带宽限制较大。本申请编码以及传输的是虚拟扬声器的属性信息,属性信息的数据量远小于虚拟扬声器信号的数据量;因此本申请选取的目标虚拟扬声器的数量受到带宽限制较小。而选取的目标虚拟扬声器的数量越多,基于目标虚拟扬声器的虚拟扬声器信号,重建出的场景音频信号的质量也就越高。因此,相对于现有技术而言,在同等码率的情况下,本申请可以选取数量更多的目标虚拟扬声器,这样,本申请解码得到重建场景音频信号的质量也就更高。
此外,综合编码端和解码端,相对于现有技术的编码端和解码端而言,本申请的编码端和解码端无需进行残差和叠加操作,因此本申请编码端和解码端的综合复杂度,低于现有技术编码端和解码端的综合复杂度。
应该理解的是,当编码端对场景音频信号中第一音频信号进行的是有损压缩时,解码端解码得到的第一重建信号和编码端编码的第一音频信号存在差异。当编码端对第一音频信号进行的是无损压缩时,解码端解码得到的第一重建信号和编码端编码的第一音频信号相同。
应该理解的是,当编码端对目标虚拟扬声器的属性信息进行的是有损压缩时,解码端解码得到的属性信息和编码端编码的属性信息存在差异。当编码端对虚拟扬声器的属性信息进行的是无损压缩时,解码端解码得到的属性信息和编码端编码的属性信息相同。其中,本申请对编码端编码的属性信息和解码端解码得到的属性信息,未从名称上进行区分。
第二方面以及第二方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第二方面以及第二方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果,此处不再赘述。
第三方面,本申请实施例提供一种码流生成方法,该方法可以根据如第一方面及第一方面的任意一种实现方式生成码流。
第三方面以及第三方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第三方面以及第三方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果,此处不再赘述。
第四方面,本申请实施例提供一种场景音频编码装置,该装置包括:
获取模块,用于获取待编码的场景音频信号,所述场景音频信号包括C1个通道的音频信号,C1为正整数;
所述获取模块,还用于获取所述场景音频信号对应的目标虚拟扬声器的属性信息;
所述获取模块,还用于获取所述场景音频信号的高阶能量增益;
编码模块,用于对所述高阶能量增益进行编码,以得到高阶能量增益编码结果;
所述编码模块,还用于编码所述场景音频信号中第一音频信号、所述目标虚拟扬声器的属性信息和所述高阶能量增益编码结果,以得到第一码流;其中,所述第一音频信号为所述场景音频信号中K个通道的音频信号,K为小于或等于C1的正整数。
第四方面的场景音频编码装置,可以执行第一方面以及第一方面的任意一种实现方式中的步骤,在此不再赘述。
第四方面以及第四方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第四方面以及第四方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果,此处不再赘述。
第五方面,本申请实施例提供一种场景音频解码装置,该装置包括:
码流接收模块,用于接收第一码流;
解码模块,用于解码所述第一码流,以得到第一重建信号、目标虚拟扬声器的属性信息和高阶能量增益编码结果,所述第一重建信号是场景音频信号中第一音频信号的重建信号,所述场景音频信号包括C1个通道的音频信号,所述第一音频信号为场景音频信号中K个通道的音频信号,C1为正整数,K为小于或等于C1的正整数;
虚拟扬声器信号生成模块,用于基于所述目标虚拟扬声器的属性信息和所述第一音频信号,生成所述目标虚拟扬声器对应的虚拟扬声器信号;
场景音频信号重建模块,用于基于所述目标虚拟扬声器的属性信息和所述虚拟扬声器信号进行重建,以得到第一重建场景音频信号;所述第一重建场景音频信号包括C2个通道的音频信号,C2为正整数;
场景音频信号调整模块,用于根据所述高阶能量增益编码结果对所述第一重建场景音频信号进行调整,以得到重建后的场景音频信号。
第五方面的场景音频解码装置,可以执行第二方面以及第二方面的任意一种实现方式中的步骤,在此不再赘述。
第五方面以及第五方面的任意一种实现方式分别与第二方面以及第二方面的任意一种实现方式相对应。第五方面以及第五方面的任意一种实现方式所对应的技术效果可参见上述第二方面以及第二方面的任意一种实现方式所对应的技术效果,此处不再赘述。
第六方面,本申请实施例提供一种电子设备,包括:存储器和处理器,存储器与处理器耦合;存储器存储有程序指令,当程序指令由处理器执行时,使得电子设备执行第一方面或第一方面的任意可能的实现方式中的场景音频编码方法。
第六方面以及第六方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第六方面以及第六方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果,此处不再赘述。
第七方面,本申请实施例提供一种电子设备,包括:存储器和处理器,存储器与处理器耦合;存储器存储有程序指令,当程序指令由处理器执行时,使得电子设备执行第二方面或第二方面的任意可能的实现方式中的场景音频解码方法。
第七方面以及第七方面的任意一种实现方式分别与第二方面以及第二方面的任意一种实现方式相对应。第七方面以及第七方面的任意一种实现方式所对应的技术效果可参见上述第二方面以及第二方面的任意一种实现方式所对应的技术效果,此处不再赘述。
第八方面,本申请实施例提供一种芯片,包括一个或多个接口电路和一个或多个处理器;接口电路用于从电子设备的存储器接收信号,并向处理器发送信号,信号包括存储器中存储的计算机指令;当处理器执行计算机指令时,使得电子设备执行第一方面或第一方面的任意可能的实现方式中的场景音频编码方法。
第八方面以及第八方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第八方面以及第八方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果,此处不再赘述。
第九方面,本申请实施例提供一种芯片,包括一个或多个接口电路和一个或多个处理器;接口电路用于从电子设备的存储器接收信号,并向处理器发送信号,信号包括存储器中存储的计算机指令;当处理器执行计算机指令时,使得电子设备执行第二方面或第二方面的任意可能的实现方式中的场景音频解码方法。
第九方面以及第九方面的任意一种实现方式分别与第二方面以及第二方面的任意一种实现方式相对应。第九方面以及第九方面的任意一种实现方式所对应的技术效果可参见上述第二方面以及第二方面的任意一种实现方式所对应的技术效果,此处不再赘述。
第十方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,当计算机程序运行在计算机或处理器上时,使得计算机或处理器执行第一方面或第一方面的任意可能的实现方式中的场景音频编码方法。
第十方面以及第十方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第十方面以及第十方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果,此处不再赘述。
第十一方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,当计算机程序运行在计算机或处理器上时,使得计算机或处理器执行第二方面或第二方面的任意可能的实现方式中的场景音频解码方法。
第十一方面以及第十一方面的任意一种实现方式分别与第二方面以及第二方面的任意一种实现方式相对应。第十一方面以及第十一方面的任意一种实现方式所对应的技术效果可参见上述第二方面以及第二方面的任意一种实现方式所对应的技术效果,此处不再赘述。
第十二方面,本申请实施例提供一种计算机程序产品,计算机程序产品包括软件程序,当软件程序被计算机或处理器执行时,使得计算机或处理器执行第一方面或第一方面的任意可能的实现方式中的场景音频编码方法。
第十二方面以及第十二方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第十二方面以及第十二方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果,此处不再赘述。
第十三方面,本申请实施例提供一种计算机程序产品,计算机程序产品包括软件程序,当软件程序被计算机或处理器执行时,使得计算机或处理器执行第二方面或第二方面的任意可能的实现方式中的场景音频解码方法。
第十三方面以及第十三方面的任意一种实现方式分别与第二方面以及第二方面的任意一种实现方式相对应。第十三方面以及第十三方面的任意一种实现方式所对应的技术效果可参见上述第二方面以及第二方面的任意一种实现方式所对应的技术效果,此处不再赘述。
第十四方面,本申请实施例提供一种存储码流的装置,该装置包括:接收器和至少一个存储介质,接收器用于接收码流;至少一个存储介质用于存储码流;码流是根据第一方面以及第一方面的任意一种实现方式生成的。
第十四方面以及第十四方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第十四方面以及第十四方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果,此处不再赘述。
第十五方面,本申请实施例提供一种传输码流的装置,该装置包括:发送器和至少一个存储介质,至少一个存储介质用于存储码流,码流是根据第一方面以及第一方面的任意一种实现方式生成的;发送器用于从存储介质中获取码流并将码流通过传输介质发送给端侧设备。
第十五方面以及第十五方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第十五方面以及第十五方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果,此处不再赘述。
第十六方面,本申请实施例提供一种分发码流的***,该***包括:至少一个存储介质,用于存储至少一个码流,至少一个码流是根据第一方面以及第一方面的任意一种实现方式生成的,流媒体设备,用于从至少一个存储介质中获取目标码流,并将目标码流发送给端侧设备,其中,流媒体设备包括内容服务器或内容分发服务器。
第十六方面以及第十六方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第十六方面以及第十六方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果,此处不再赘述。
附图说明
图1a为示例性示出的应用场景示意图;
图1b为示例性示出的应用场景示意图;
图2a为示例性示出的编码过程示意图;
图2b为示例性示出的候选虚拟扬声器分布示意图;
图3为示例性示出的解码过程示意图;
图4为示例性示出的编码过程示意图;
图5为示例性示出的解码过程示意图;
图6a为示例性示出的编码端的结构示意图;
图6b为示例性示出的解码端的结构示意图;
图7为示例性示出的场景音频编码装置的结构示意图;
图8为示例性示出的场景音频解码装置的结构示意图;
图9为示例性示出的装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
本申请实施例的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一目标对象和第二目标对象等是用于区别不同的目标对象,而不是用于描述目标对象的特定顺序。
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,除非另有说明,“多个”的含义是指两个或两个以上。例如,多个处理单元是指两个或两个以上的处理单元;多个***是指两个或两个以上的***。
为了下述各实施例的描述清楚简洁,首先给出相关技术的简要介绍。
声音(sound)是由物体振动产生的一种连续的波。产生振动而发出声波的物体称为声源。声波通过介质(如:空气、固体或液体)传播的过程中,人或动物的听觉器官能感知到声音。
声波的特征包括音调、音强和音色。音调表示声音的高低。音强表示声音的大小。音强也可以称为响度或音量。音强的单位是分贝(decibel,dB)。音色又称为音品。
声波的频率决定了音调的高低。频率越高音调越高。物体在一秒钟之内振动的次数称为频率,频率单位是赫兹(hertz,Hz)。人耳能识别的声音的频率在20Hz~20000Hz之间。
声波的幅度决定了音强的强弱。幅度越大音强越大。距离声源越近,音强越大。
声波的波形决定了音色。声波的波形包括方波、锯齿波、正弦波和脉冲波等。
根据声波的特征,声音可以分为规则声音和无规则声音。无规则声音是指声源无规则地振动发出的声音。无规则声音例如是影响人们工作、学习和休息等的噪声。规则声音是指声源规则地振动发出的声音。规则声音包括语音和乐音。声音用电表示时,规则声音是一种在时频域上连续变化的模拟信号。该模拟信号可以称为音频信号。音频信号是一种携带语音、音乐和音效的信息载体。
由于人的听觉具有辨别空间中声源的位置分布的能力,则听音者听到空间中的声音时,除了能感受到声音的音调、音强和音色外,还能感受到声音的方位。
随着人们对听觉***体验的关注和品质要求与日俱增,为了增强声音的纵深感、临场感和空间感,则三维音频技术应运而生。从而听音者不仅感受到来自前、后、左和右的声源发出的声音,而且感受到自己所处空间被这些声源产生的空间声场(简称“声场”(sound field))所包围的感觉,以及声音向四周扩散的感觉,营造出一种使听音者置身于影院或音乐厅等场所的“身临其境”的音响效果。
本申请实施例涉及的场景音频信号,可以是指用于描述声场的信号;其中,场景音频信号可以包括:HOA信号(其中,HOA信号可以包括三维HOA信号和二维HOA信号(也可以称为平面HOA信号))和三维音频信号;三维音频信号可以是指场景音频信号中除HOA信号之外的其他音频信号。以下以HOA信号为例进行说明。
众所周知,声波在理想介质中传播,波数为k=w/c,角频率为w=2πf,其中,f为声波频率,c为声速。声压p满足公式(1,b),为拉普拉斯算子。
假设人耳以外的空间***是一个球形,听音者处于球的中心,从球外传来的声音在球面上有一个投影,过滤掉球面以外的声音,假设声源分布在这个球面上,用球面上的声源产生的声场来拟合原始声源产生的声场,即三维音频技术就是一个拟合声场的方法。具体地,在球坐标系下求解公式(1,b)等式方程,在无源球形区域内,该公式(1,b)方程解为如下公式(2)。
其中,r表示球半径,θ表示水平角信息(或者称为方位角信息),表示俯仰角信息(或称为仰角信息),k表示波数,s表示理想平面波的幅度,m表示HOA信号的阶数序号(或称为HOA信号的阶数序号)。表示球贝塞尔函数,球贝塞尔函数又称为径向基函数,其中,第一个j表示虚数单位,不随角度变化。表示θ,方向的球谐函数,表示声源方向的球谐函数。HOA信号满足公式(3)。
将公式(3)代入公式(2),公式(2)可以变形为公式(4)。
其中,将m截断到第N项,即m=N,以作为对声场的近似描述;此时,可以称为HOA系数(可以用于表示N阶HOA信号)。声场是指介质中有声波存在的区域。N为大于或等于1的整数。
场景音频信号是一种携带声场中声源的空间位置信息的信息载体,描述了空间中听音者的声场。公式(4)表明声场可以在球面上按球谐函数展开,即声场可以分解为多个平面波的叠加。因此,可以将HOA信号描述的声场使用多个平面波的叠加来表达,并通过HOA系数重建声场。
本申请的实施例涉及的待编码的HOA信号可以是指N1阶HOA信号,可以采用HOA系数或Ambisonic(立体声混响)系数表示,N1为大于或等于1的整数(其中,当N1等于时,1阶HOA信号,可以称为FOA(First Order Ambisonic,一阶立体混响)信号)。其中,N1阶HOA信号包括(N1+1)2个通道的音频信号。
图1a为示例性示出的应用场景示意图。在图1a示出的是场景音频信号的编解码场景。
参照图1a,示例性的,第一电子设备可以包括第一音频采集模块、第一场景音频编码模块、第一信道编码模块、第一信道解码模块、第一场景音频解码模块和第一音频回放模块。应该理解的是,第一电子设备可以包括比图1a所示的更多或更少的模块,本申请对此不作限制。
参照图1a,示例性的,第二电子设备可以包括第二音频采集模块、第二场景音频编码模块、第二信道编码模块、第二信道解码模块、第二场景音频解码模块和第二音频回放模块。应该理解的是,第二电子设备可以包括比图1a所示的更多或更少的模块,本申请对此不作限制。
示例性的,第一电子设备编码并传输场景音频信号至第二电子设备,由第二电子设备解码以及音频回放的过程可以如下:第一音频采集模块可以进行音频采集,输出场景音频信号至第一场景音频编码模块。接着,第一场景音频编码模块可以对场景音频信号进行编码,输出码流至第一信道编码模块。之后,第一信道编码模块可以对码流进行信道编码,并将信道编码后的码流通过无线或有线网络通信设备传输到第二电子设备。然后,第二电子设备的第二信道解码模块可以对接收到的数据进行信道解码,以得到码流并将码流输出至第二场景音频解码模块。接着,第二场景音频解码模块可以对该码流进行解码,以得到重建场景音频信号;然后将该重建场景音频信号输出至第二音频回放模块,由第二音频回放模块进行音频回放。
需要说明的是,第二音频回放模块可以对重建场景音频信号进行后处理(如音频渲染(例如,可以将包含(N1+1)2个通道音频信号的重建场景音频信号,转换为与第二电子设备中扬声器数量相同通道数的音频信号)、响度归一化、用户交互、音频格式转换或去噪声等),以将重建场景音频信号转换为适应于第二电子设备中扬声器播放的音频信号。
应该理解的是,第二电子设备编码并传输场景音频信号至第一电子设备,由第一电子设备解码以及音频回放的过程,与上述第一电子设备传输场景音频信号至第二电子设备,由第二电子设备进行音频回放的过程类似,在此不再赘述。
示例性的,第一电子设备和第二电子设备均可以包括但不限于:个人计算机、计算机工作站、智能手机、平板电脑、服务器、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴设备、机顶盒、游戏机等。
示例性的,本申请具体可以应用于VR(Virtual Reality,虚拟现实)/AR(Augmented Reality,增强现实)场景。一种可能的方式中,第一电子设备为服务器,第二电子设备为VR/AR设备。一种可能的方式中,第二电子设备为服务器,第一电子设备为VR/AR设备。
示例性的,第一场景音频编码模块和第二场景音频编码模块,可以是场景音频编码器。第一场景音频解码模块和第二场景音频解码模块,可以是场景音频解码器。
示例性的,当由第一电子设备编码场景音频信号,第二电子设备重建场景音频信号时,第一电子设备可以称为编码端,第二电子设备可以称为解码端。当由第二电子设备编码场景音频信号,第一电子设备重建场景音频信号时,第二电子设备可以称为编码端,第一电子设备可以称为解码端。
图1b为示例性示出的应用场景示意图。在图1b示出的是场景音频信号的转码场景。
参照图1b(1),示例性的,无线或核心网设备可以包括:信道解码模块、其他音频解码模块、场景音频编码模块和信道编码模块。其中,无线或核心网设备可以用于音频转码。
示例性的,图1b(1)的具体应用场景可以是:在第一电子设备未设有场景音频编码模块,仅设有其他音频编码模块;而第二电子设备仅设有场景音频解码模块,未设有其他音频解码模块的情况下,为了实现第二电子设备能够解码并回放第一电子设备采用其他音频编码模块编码场景音频信号,可以使用无线或核心网设备进行转码。
具体的,第一电子设备采用其他音频编码模块对场景音频信号进行编码,得到第一码流;并将第一码流进行信道编码后发送给无线或核心网设备。接着,无线或核心网设备的信道解码模块可以进行信道解码,将信道解码出的第一码流输出至其他音频解码模块。之后,其他音频解码模块对第一码流进行解码,得到场景音频信号并将场景音频信号输出至场景音频编码模块。然后,场景音频编码模块可以对场景音频信号进行编码,以得到第二码流并将第二码流输出至信道编码模块,由信道编码模块对第二码流进行信道编码后,发送至第二电子设备。这样,第二电子设备可以调用场景音频解码模块,对信道解码得到第二码流进行解码,得到重建场景音频信号;后续即可对重建场景音频信号进行音频回放。
参照图1b(2),示例性的,无线或核心网设备可以包括:信道解码模块、场景音频解码模块、其他音频编码模块和信道编码模块。其中,无线或核心网设备可以用于音频转码。
示例性的,图1b(2)的具体应用场景可以是:在第一电子设备仅设有场景音频编码模块,未设有其他音频编码模块;而第二电子设备未设有场景音频解码模块,仅设有其他音频解码模块的情况下,为了实现第二电子设备能够解码并回放第一电子设备采用场景音频编码模块编码场景音频信号,可以使用无线或核心网设备进行转码。
具体的,第一电子设备采用场景音频编码模块对场景音频信号进行编码,得到第一码流;并将第一码流进行信道编码后发送给无线或核心网设备。接着,无线或核心网设备的信道解码模块可以进行信道解码,将信道解码出的第一码流输出至场景音频解码模块。之后,场景音频解码模块对第一码流进行解码,得到场景音频信号并将场景音频信号输出至其他音频编码模块。然后,其他音频编码模块可以对场景音频信号进行编码,以得到第二码流并将第二码流输出至信道编码模块,由信道编码模块对第二码流进行信道编码后,发送至第二电子设备。这样,第二电子设备可以调用其他音频解码模块,对信道解码得到第二码流进行解码,得到重建场景音频信号;后续即可对重建场景音频信号进行音频回放。
以下对场景音频信号的编解码过程进行说明。
图2a为示例性示出的编码过程示意图。
S201,获取待编码的场景音频信号,场景音频信号包括C1个通道的音频信号,C1为正整数。
示例性的,当场景音频信号为HOA信号时,该HOA信号可以为N1阶HOA信号,也就是N1项的上述公式(3)中的
示例性的,N1阶HOA信号可以包括C1个通道的音频信号,C1=(N1+1)2。例如,N1=3时,N1阶HOA信号包括16个通道的音频信号;N1=4时,N1阶HOA信号包括25个通道的音频信号。
S202,获取场景音频信号对应的目标虚拟扬声器的属性信息。
基于场景音频信号,从多个候选虚拟扬声器中选取目标虚拟扬声器,获取目标虚拟扬声器的属性信息。
S203,获取场景音频信号的高阶能量增益。
示例性的,从待编码的HOA信号获取HOA信号的特征信息,通过HOA信号的特征信息获取高阶能量增益,高阶能量增益可用于指示场景音频信号的高阶通道信号的能量增益。
示例性的,场景音频信号包括C1个通道的音频信号,第一音频信号为场景音频信号中K个通道的音频信号,K为小于或等于C1的正整数,对于K的取值不做限定。
场景音频信号为N1阶HOA信号,N1阶HOA信号包括第一音频信号和第二音频信号,第二音频信号为N1阶HOA信号中除第一音频信号之外的音频信号,C1等于(N1+1)的平方。
一种可能的方式中,假设N1=3,C1=10。N1阶HOA信号包括第1至第16通道音频信号,第一音频信号为N1阶HOA信号中第1至第10通道音频信号,第二音频信号为N1阶HOA信号中第11至第16通道音频信号。
示例性的,N1=3,C1=9。N1阶HOA信号包括第1至第16通道音频信号,第一音频信号为N1阶HOA信号中第1至第9通道音频信号,第二音频信号为N1阶HOA信号中第10至第16通道音频信号。
示例性的,N1=3,C1=8。N1阶HOA信号包括第1至第16通道音频信号,第一音频信号为N1阶HOA信号中第1至第6和第8、第9通道音频信号,第二音频信号为N1阶HOA信号中第7和第10至第16通道音频信号。
一种可能实现方式中,获取场景音频信号的高阶能量增益,包括:
根据第二音频信号的特征信息和第一音频信号的特征信息获取高阶能量增益。
其中,场景音频信号包括第一音频信号和第二音频信号,分别获取第二音频信号的特征信息和第一音频信号的特征信息,场景音频信号所对应的特征信息包括但不限于:增益信息和扩散信息。根据第二音频信号的特征信息和第一音频信号的特征信息可以获取场景音频信号的高阶能量增益。
示例性的,可以参照如下公式,计算场景音频信号中第二音频信号的增益信息Gain(i,b):
Gain(i,b)=E(i,b)/E(1,b)
其中,i为场景音频信号中第二音频信号包含的第i个通道的编号,编号又可以称为通道号,b为第二音频信号的频带序号,E(i,b)为所述第二音频信号的第b个频带的第i个通道能量,E(1,b)为所述第一音频信号的第b个频带的通道能量,例如第一音频信号的通道具体可以是N1阶HOA信号的第1通道。
以下步骤可以在一帧信号内执行,也可以在子帧上执行。以下步骤可以在全频带执行,也可以在子带上执行。
示例性的,在计算得到Gain(i,b)之后,通过如下方式计算Gain’(i,b):
Gain’(i,b)=10*log10(Gain(i,b))。
S204,对高阶能量增益进行编码,以得到高阶能量增益编码结果。
编码端获取到场景音频信号的高阶能量增益之后,可以对该高阶能量增益进行编码,生成高阶能量增益编码结果。高阶能量增益的作用是在解码端调节高阶通道能量,使HOA信号编解码质量更高。
S205,编码场景音频信号中第一音频信号和目标虚拟扬声器的属性信息和高阶能量增益编码结果,以得到第一码流;其中,第一音频信号为场景音频信号中K个通道的音频信号,K为小于或等于C1的正整数。
示例性的,虚拟扬声器是虚拟的扬声器,不是真实存在的扬声器。
示例性的,基于上述可知,场景音频信号可以使用多个平面波的叠加来表达,进而可以确定用于来模拟场景音频信号中声源的目标虚拟扬声器;这样,后续在解码过程中,采用目标虚拟扬声器对应的虚拟扬声器信号,来重建该场景音频信号。
一种可能的方式中,可以在球面上设置位置不同的多个候选虚拟扬声器;接着,可以从这多个候选虚拟扬声器中,选取位置与场景音频信号中声源位置相匹配的目标虚拟扬声器。
图2b为示例性示出的候选虚拟扬声器分布示意图。在图2b中,多个候选虚拟扬声器可以均匀的分布在球面上,球面上一个点,代表一个候选虚拟扬声器。
需要说明的是,本申请对候选虚拟扬声器的数量以及分布不作限制,可以按照需求设置,具体在后续进行说明。
示例性的,可以基于场景音频信号,从这多个候选虚拟扬声器中,选取位置与场景音频信号中声源位置对应的目标虚拟扬声器;其中,目标虚拟扬声器的数量可以是一个,也可以是多个,本申请对此不作限制。
一种可能的方式中,可以预先设定目标虚拟扬声器。
应该理解的是,本申请不限制确定目标虚拟扬声器的方式。
示例性的,一种可能的方式中,在解码过程中,可以根据虚拟扬声器信号来重建场景音频信号;但是直接传输目标虚拟扬声器的虚拟扬声器信号,会增加码率;而目标虚拟扬声器的虚拟扬声器信号可以基于目标虚拟扬声器的属性信息和部分或全部通道的场景音频信号来生成;因此可以获取目标虚拟扬声器的属性信息,以及获取场景音频信号中的K个通道的音频信号,作为第一音频信号;然后对第一音频信号、目标虚拟扬声器的属性信息和高阶能量增益编码结果进行编码,以得到第一码流。
示例性的,可以对第一音频信号和目标虚拟扬声器的属性信息进行下混、变换、量化以及熵编码等操作,以得到第一码流,另外,还可以将高阶能量增益编码结果写入到第一码流中。也就是说,该第一码流中可以包括场景音频信号中第一音频信号的编码数据,以及目标虚拟扬声器的属性信息的编码数据,以及高阶能量增益编码结果。
相对于现有技术中其他重建场景音频信号的方法而言,基于虚拟扬声器信号重建出的场景音频信号的音频质量更高;因此当K等于C1时,在同等码率下,本申请重建出的场景音频信号的音频质量更高。
当K小于C1时,在对场景音频信号编码的过程中,本申请编码的音频信号的通道数,小于现有技术编码的音频信号的通道数,且目标虚拟扬声器的属性信息的数据量,也远小一个通道的音频信号的数据量;因此在达到同等质量的前提下,本申请编码码率更低。
此外,现有技术是将场景音频信号转换为虚拟扬声器信号和残差信号后再编码,而本申请编码端直接编码场景音频信号中部分通道的音频信号,无需计算虚拟扬声器信号和残差信号,编码端的编码复杂度更低。
图3为示例性示出的解码过程示意图。图3为与图2的编码过程所对应的解码过程。
S301,接收第一码流。
S302,解码第一码流,以得到第一重建信号和目标虚拟扬声器的属性信息。
示例性的,可以对第一码流包含的场景音频信号中第一音频信号的编码数据进行解码,可以得到第一重建信号;也就是说,第一重建信号是第一音频信号的重建信号。以及可以对第一码流包含的目标虚拟扬声器的属性信息的编码数据进行解码,可以得到目标虚拟扬声器的属性信息。
应该理解的是,当编码端对场景音频信号中第一音频信号进行的是有损压缩时,解码端解码得到的第一重建信号和编码端编码的第一音频信号存在差异。当编码端对第一音频信号进行的是无损压缩时,解码端解码得到的第一重建信号和编码端编码的第一音频信号相同。
应该理解的是,当编码端对目标虚拟扬声器的属性信息进行的是有损压缩时,解码端解码得到的属性信息和编码端编码的属性信息存在差异。当编码端对虚拟扬声器的属性信息进行的是无损压缩时,解码端解码得到的属性信息和编码端编码的属性信息相同。其中,本申请对编码端编码的属性信息和解码端解码得到的属性信息,未从名称上进行区分。
S303,基于目标虚拟扬声器的属性信息和第一重建信号,生成目标虚拟扬声器对应的虚拟扬声器信号。
S304,基于目标虚拟扬声器的属性信息和虚拟扬声器信号进行重建,以得到第一重建场景音频信号。第一重建场景音频信号包括C2个通道的音频信号,C2为正整数。
示例性的,可以基于虚拟扬声器信号,来重建场景音频信号;进而可以先基于目标虚拟扬声器的属性信息和第一重建信号,生成目标虚拟扬声器对应虚拟扬声器信号。其中,一个目标虚拟扬声器对应一路虚拟扬声器信号,虚拟扬声器信号是平面波。接着,再基于目标虚拟扬声器的属性信息和虚拟扬声器信号进行重建,生成第一重建场景音频信号。
示例性的,当场景音频信号为HOA信号时,重建得到的第一重建场景音频信号也可以为HOA信号,该HOA信号可以是N2阶HOA信号,N2为正整数。示例性的,N2阶HOA信号可以包括C2个通道的音频信号,C2=(N2+1)2
示例性的,第一重建场景音频信号的阶数N2,可以大于或等于图2a实施例中场景音频信号的阶数N1;对应的,第一重建场景音频信号包括的音频信号的通道数C2,可以大于或等于图2a实施例中场景音频信号包括的音频信号的通道数C1。
示例性的,场景音频信号为N1阶HOA信号,N1阶HOA信号包括第二音频信号,第二音频信号为N1阶HOA信号中除第一音频信号之外的音频信号,C1等于(N1+1)的平方;和/或,
第一重建场景音频信号为N2阶HOA信号,N2阶HOA信号包括第三音频信号,第三音频信号为N2阶HOA信号中与第二音频信号的各通道对应的重建信号,C2等于(N2+1)的平方。
一种可能的方式中,可以直接将第一重建场景音频信号,作为最终的解码结果。
S305,根据高阶能量增益编码结果对第一重建场景音频信号进行调整,以得到重建后的场景音频信号。
其中,解码端从第一码流中获取高阶能量增益编码结果,利用高阶能量增益编码结果对第一重建场景音频信号进行能量调整。解码端利用高阶能量增益编码结果调节第一重建场景音频信号的高阶通道能量,使场景音频信号的解码质量更高。
相对于现有技术中其他重建场景音频信号的方法而言,基于虚拟扬声器信号重建出的场景音频信号的音频质量更高;因此当K等于C1时,在同等码率下,本申请的重建出的场景音频信号的音频质量更高。
当K小于C1时,在对场景音频信号编码的过程中,本申请编码的音频信号的通道数,小于现有技术编码的音频信号的通道数,且目标虚拟扬声器的属性信息的数据量,远小于一个通道的音频信号的数据量;因此在同等码率的前提下,本申请解码得到重建场景音频信号的音频质量更高。
其次,由于现有技术编码传输的虚拟扬声器信号和残差信息是通过原始音频信号(即待编码的场景音频信号)转换而来的,并不是原始音频信号,会引入误差;而本申请编码了部分原始音频信号(即待编码的场景音频信号中K个通道的音频信号),避免了误差的引入,进而能够提高解码得到重建场景音频信号的音频质量;且还能够避免解码得到重建场景音频信号的重建质量的波动,稳定性高。
此外,由于现有技术编码以及传输的是虚拟扬声器信号,而虚拟扬声器信号的数据量较大,因此现有技术选取的目标虚拟扬声器的数量受到带宽限制较大。本申请编码以及传输的是虚拟扬声器的属性信息,属性信息的数据量远小于虚拟扬声器信号的数据量;因此本申请选取的目标虚拟扬声器的数量受到带宽限制较小。而选取的目标虚拟扬声器的数量越多,基于目标虚拟扬声器的虚拟扬声器信号,重建出的场景音频信号的质量也就越高。因此,相对于现有技术而言,在同等码率的情况下,本申请可以选取数量更多的目标虚拟扬声器,这样,本申请解码得到重建场景音频信号的质量也就更高。
此外,综合编码端和解码端,相对于现有技术的编码端和解码端而言,本申请的编码端和解码端无需进行残差和叠加操作,因此本申请编码端和解码端的综合复杂度,低于现有技术编码端和解码端的综合复杂度。由于编码端发送的第一码流中包括高阶能量增益编码结果,因此高阶能量增益可用于在解码端调节高阶通道能量,使场景音频信号的编解码质量更高。
以下对编码过程中高阶能量增益的编码过程,以及解码过程中高阶能量增益对音频信号的调整过程进行说明。
图4为示例性示出的编码过程示意图。
S401,获取待编码的场景音频信号,场景音频信号包括C1个通道的音频信号,C1为正整数。
示例性的,S401可以参照上述S201的描述,在此不再赘述。
S402,获取场景音频信号对应的目标虚拟扬声器的属性信息。
一种可能的方式中,基于目标虚拟扬声器的位置信息,生成目标虚拟扬声器的属性信息。其中,一种可能的方式中,可以将目标虚拟扬声器的位置信息(包括俯仰角信息和水平角信息),作为目标虚拟扬声器的属性信息。一种可能的方式中,将目标虚拟扬声器的位置信息对应的位置索引(包括俯仰角索引(可以用于唯一标识俯仰角信息)和水平角索引(可以用于唯一标识水平角信息)),作为目标虚拟扬声器的属性信息。
一种可能的方式中,可以将目标虚拟扬声器的虚拟扬声器索引(例如,虚拟扬声器标识),作为目标虚拟扬声器的属性信息。其中,虚拟扬声器索引与位置信息一一对应。
一种可能的方式中,可以将目标虚拟扬声器的虚拟扬声器系数,作为目标虚拟扬声器的属性信息。示例性的,可以确定目标虚拟扬声器的C2个虚拟扬声器系数,将目标虚拟扬声器的C2个虚拟扬声器系数,作为目标虚拟扬声器的属性信息;其中,目标虚拟扬声器的C2个虚拟扬声器系数与第一重建场景音频信号包括的C2个通道数的音频信号一一对应。
需要说明的是,虚拟扬声器系数的数据量,远大于位置信息、位置信息的索引和虚拟扬声器索引的数据量;可以根据带宽,决策采用位置信息、位置信息的索引、虚拟扬声器索引和虚拟扬声器系数中的哪种信息,作为目标虚拟扬声器的属性信息。例如,当带宽较大时,可以将虚拟扬声器系数,作为目标虚拟扬声器的属性信息;这样,无需解码端计算目标虚拟扬声器的虚拟扬声器系数,可以节省解码端的算力。当带宽较小时,可以将位置信息、位置信息的索引、虚拟扬声器索引中的任一种,作为目标虚拟扬声器的属性信息;这样,可以节省码率。应该理解的是,也可以预先设置采用位置信息、位置信息的索引、虚拟扬声器索引和虚拟扬声器系数中的哪种信息,作为目标虚拟扬声器的属性信息;本申请对此不作限制。
S403、获取第一音频信号的能量增益和第二音频信号的能量增益。
场景音频信号所对应的特征信息包括增益信息,场景音频信号包括第一音频信号和第二音频信号,分别计算第一音频信号的能量增益E(1,b)和第二音频信号的能量增益E(i,b)。
S404、根据第一音频信号的能量增益和第二音频信号的能量增益获取高阶能量增益。
编码端获取到场景音频信号的高阶能量增益之后,可以对该高阶能量增益进行编码,生成高阶能量增益编码结果。高阶能量增益的作用是在解码端调节高阶通道能量,使HOA信号编解码质量更高。
示例性的,根据第一音频信号的能量增益和第二音频信号的能量增益获取高阶能量增益,包括:
通过如下方式获取高阶能量增益Gain’(i,b):
Gain’(i,b)=10*log10(E(i,b)/E(1,b));
其中,log10表示对数函数log,*表示相乘运算,E(1,b)为第一音频信号的通道能量,E(i,b)为第二音频信号的各通道能量,i为第二音频信号的第i个通道的编号,b为第二音频信号的频带序号。
示例性的,第二音频信号的特征信息可以为N1阶HOA信号的高阶能量增益,具体为第二音频信号的各个通道与W通道(N1阶HOA信号的第1通道)的能量比例,该W通道具体可以是第一音频信号的通道。
示例性的,可以参照如下步骤获取第二音频信号的特征信息:
对N1阶HOA信号进行时频变换,将时域N1阶HOA信号变换得到频域N1阶HOA信号。
计算W通道能量E(1,b)和第二音频信号的各通道能量E(i,b),其中,i为第二音频信号的通道编号。
计算高阶能量增益Gain’(i,b)可以采用以下公式:
Gain(i,b)=E(i,b)/E(1,b);
Gain’(i,b)=10*log10(Gain(i,b))。
S405、对高阶能量增益进行量化,以得到量化后的高阶能量增益。
S406、对量化后的高阶能量增益进行熵编码,以得到所述高阶能量增益编码结果。
其中,获取场景音频信号中第二音频信号的特征信息,通过第二音频信号的特征信息得到场景音频信号的高阶能量增益,对高阶能量增益依次进行量化和熵编码。
示例性的,可以采用标量量化对高阶能量增益量化。
对量化后的高阶能量增益进行熵编码。熵编码方法不做限定。
示例性的,对高阶能量增益进行差分编码,然后估计熵编码的比特数,如果估计比特数小于定长编码,对高阶能量增益进行变长编码,例如哈夫曼编码;否则对高阶能量增益进行定长编码。
在得到高阶能量增益编码结果之后,将编码结果写入码流。
S407,编码场景音频信号中第一音频信号和目标虚拟扬声器的属性信息和高阶能量增益编码结果,以得到第一码流。
应该理解的是,第一音频信号所包括的音频信号的通道数,可以按照需求以及带宽确定,本申请对此不作限制。
示例性的,S401可以参照上述S201的描述,在此不再赘述。
本申请实施例中,编码端可以计算高阶通道与W通道的能量比,从而得到高阶能量增益编码结果,然后根据子帧间差分结果的比特数预估,选择哈夫曼编码,或直接编码。从而使得编码端发送的第一码流中包括高阶能量增益编码结果,因此高阶能量增益可用于在解码端调节高阶通道能量,使场景音频信号的编解码质量更高。
图5为示例性示出的解码过程示意图。图5为与图4编码过程中对应的解码过程。
S501,接收第一码流。
S502,解码第一码流,以得到第一重建信号和目标虚拟扬声器的属性信息和高阶能量增益编码结果。
S503,基于目标虚拟扬声器的属性信息和第一音频信号,生成所述目标虚拟扬声器对应的虚拟扬声器信号;
S504,基于目标虚拟扬声器的属性信息和所述虚拟扬声器信号进行重建,以得到第一重建场景音频信号;所述第一重建场景音频信号包括C2个通道的音频信号,C2为正整数
示例性的,S501~S504,可以参照S301~S304的描述,在此不再赘述。
示例性的,上述S306可以参照S505~S508的描述。
S505,对高阶能量增益编码结果进行熵解码,以得到熵解码后的高阶能量增益。
S506,对熵解码后的高阶能量增益进行反量化,以得到高阶能量增益。
示例性的,从第一码流中读取高阶能量增益编码结果。对高阶能量增益编码结果进行熵解码。熵解码方法为编码端熵编码的逆过程。
示例性,如果编码端采用定长编码,则解码端使用与之对应的定长解码,如果编码端采用编码编码,则解码端使用与之对应的边长解码,例如哈夫曼解码。
对熵解码结果进行反量化,反量化方法为编码端量化方法的逆过程。
S507,根据第二音频信号的特征信息和第一音频信号的特征信息对高阶能量增益进行调整,以得到调整后的解码高阶能量增益。
其中,解码端进行信号重建,得到第一重建场景音频信号之后,从第一重建场景音频信号中确定第一音频信号和第三音频信号,第三音频信号为N2阶HOA信号中与第二音频信号的各通道对应的重建信号,根据第三音频信号的特征信息确定第二音频信号的特征信息,最后根据第二音频信号的特征信息和第一音频信号的特征信息对高阶能量增益进行调整,以得到调整后的解码高阶能量增益,对高阶能量增益进行调整,使得高阶通道能量更加均匀和平滑,重建出的音频信号的质量更优。
示例性的,S507根据第二音频信号的特征信息和第一音频信号的特征信息对高阶能量增益进行调整,包括:
S5071,根据第一音频信号的通道能量和高阶能量增益获取第二音频信号的高阶能量;
其中,解码端从第一码流中获取高阶能量增益编码结果,对高阶能量增益编码结果进行熵解码,反量化,得到高阶能量增益。再根据第一音频信号的通道能量和高阶能量增益对第二音频信号的能量进行估计,以确定第二音频信号的高阶能量。
示例性的,第一重建场景音频信号为N2阶HOA信号,对N2阶HOA信号进行时频变换,将时域N2阶HOA信号变换得到频域N2阶HOA信号。
计算第二音频信号的高阶能量E_Ref(i,b),可以采用以下公式:
E_Ref(i,b)=E_dec(1,b)*10^(Gain’(i,b)/10)
其中,E_dec(1,b)为N2阶HOA信号中第一音频信号的第b个频带的通道能量,i为第二音频信号对应的通道编号,Gain’(i,b)为高阶能量增益,b为第一音频信号的频带序号。
S5072,根据第三音频信号的通道能量和第二音频信号的高阶能量获取解码能量比例因子。
具体的,第三音频信号为N2阶HOA信号中与第二音频信号的各通道对应的重建信号,通过第三音频信号和第二音频信号进行能量比例计算,得到解码能量比例因子。
示例性的,计算解码能量比例因子g(i,b),可以采用以下公式:
g(i,b)=sqrt(E_Ref(i,b))/sqrt(E_dec(i,b))
其中,sqrt()为开方运算,E_dec(i,b)为第三音频信号的第b个频带的通道能量,i为第三音频信号对应的通道编号,E_Ref(i,b)为第二音频信号的第b个频带的高阶能量。
S5073,根据第三音频信号的通道能量和第一音频信号的通道能量获取第三音频信号的解码高阶能量增益。
其中,以第一音频信号的通道能量为基准,对第三音频信号的通道能量进行增益计算,以得到第三音频信号的解码高阶能量增益。
示例性的,计算解码高阶能量增益Gain_dec(i,b),可以采用以下公式:
Gain_dec(i,b)=E_dec(i,b)/E_dec(1,b)
其中,E_dec(1,b)为N2阶HOA信号中第一音频信号的第b个频带的通道能量,E_dec(i,b)为第三音频信号的第b个通道的通道能量。
S5074,根据解码能量比例因子对第三音频信号的解码高阶能量增益进行调整,以得到调整后的解码高阶能量增益。
具体的,为使得高阶通道的能量更加均匀和平滑,使用解码能量比例因子对第三音频信号的解码高阶能量增益进行调整,确定调整后的解码高阶能量增益。使用解码能量比例因子调整之后,高阶通道的能量更加均匀和平滑,重建出的音频信号的质量更优。
示例性的,根据解码能量比例因子对第三音频信号的解码高阶能量增益进行调整,以得到调整后的解码高阶能量增益,包括:
通过如下方式获取调整后的解码高阶能量增益Gain_dec’(i,b):
Gain_dec’(i,b)=w*min(g(i,b),Gain_dec(i,b))+(1-w)*g(i,b);
其中,g(i,b)表示解码能量比例因子,Gain_dec(i,b)表示第三音频信号的第b个频带的解码高阶能量增益,i为所述第三音频信号的第i个通道的编号,b为所述第三音频信号的频带序号,w为预设的调节比例阈值,min表示取最小值运算,*表示相乘运算。
示例性的,min(a,b)为取得a和b中的最小值,w为调节比例阈值,w的取值方式有多种,例如w的取值为0.25。
S508,根据调整后的解码高阶能量增益对N2阶HOA信号中的第三音频信号进行调整,以得到调整后的第三音频信号。
其中,解码端从第一码流中获取高阶能量增益编码结果,利用高阶能量增益编码结果对N2阶HOA信号中的第三音频信号进行能量调整。解码端利用高阶能量增益编码结果调节第三音频信号的高阶通道能量,使第三音频信号的解码质量更高。
其中,第三音频信号为N2阶HOA信号中与第二音频信号各通道对应的通道音频信号。
示例性的,可以基于N1阶HOA信号中的第二音频信号所对应的特征信息,对第三音频信号进行调整,以提升N2阶HOA信号的质量。
示例性的,S508根据调整后的解码高阶能量增益对N2阶HOA信号中的第三音频信号进行调整,包括:
S5081,根据第三音频信号所在的频带序号获取衰减因子。
示例的,解码端可以根据第三音频信号所在的频带序号获取衰减因子,衰减因子可以根据重建信号的频带序号进行衰减,该衰减因子可用于对第一重建场景音频信号进行调整,以使得重建场景音频信号的质量更高。
S5082,根据调整后的解码高阶能量增益对第三音频信号进行调整,得到调整后的第三音频信号,所述调整后的第三音频信号属于所述重建后的场景音频信号。
其中,获取到调整后的解码高阶能量增益之后,可以对当前帧的第三音频信号的增益进行加权处理,增益随着第三音频信号所在的频带序号进行衰减,可以先根据第三音频信号所在的频带序号获取衰减因子,然后将调整后的解码高阶能量增益作用于当前帧重建的第三音频信号的高阶通道,使得高阶通道能量更加均匀和平滑,提高重建的音频信号的质量。
示例性的,使用调整后的解码高阶能量增益Gain_dec’(i,b)对第三音频信号进行调整。
示例性的,可以参照如下公式进行调整:
X’(i,b)=X(i,b)*Gain_dec’(i,b)*g’(i,b);
其中,X(i,b)为调整前的第三音频信号,X’(i,b)为调整后的第三音频信号。
一种可能的方式中,S5081根据所述第三音频信号所在的频带序号获取衰减因子,包括:
通过如下方式获取衰减因子g’(i,b):
或,
其中,i为第三音频信号的第i个通道的编号,b为第三音频信号的频带序号,
p为预设的衰减阈值,*表示相乘运算。
示例性的,b为第三音频信号的频带序号,频带序号又可以称为子带序号,b=0,1,2,…,11。p为衰减阈值,例如设P为0.99。
通过上述衰减因子g’(i,b)的计算方式,b为第三音频信号的频带序号,通过上述参数可以准确计算出衰减因子,使得该衰减因子和调整后的解码高阶能量增益用于调整第三音频信号时,提高重建音频信号的质量。
示例性的,S5082根据调整后的解码高阶能量增益对N2阶HOA信号中的第三音频信号进行调整之后,所述方法还包括:
S5083,获取调整后的第三音频信号对应的第四音频信号的通道能量,第三音频信号包括当前帧的音频信号,第四音频信号包括当前帧的在先帧的音频信号;
S5084,根据第四音频信号的通道能量对调整后的第三音频信号再次进行调整。
其中,解码端还可以利用第三音频信号的在先帧对当前帧的调整后的第三音频信号再次进行调整,以使得重建的音频信号的质量提高。第三音频信号包括当前帧的音频信号,第四音频信号包括当前帧的在先帧的音频信号,例如在先帧是可以与当前帧相邻的之前帧的音频信号,或者在先帧也可以是不与当前帧相邻的之前帧的音频信号,该第四音频信号的通道能量可用于调整第三音频信号。例如,解码端将第三音频信号的当前帧的高阶通道和前2帧的高阶通道对应子带做线性加权,得到能量平滑后的当前帧的高阶通道。
示例性的,S5084根据第四音频信号的通道能量对第三音频信号进行调整,包括:
S50841,获取第四音频信号的通道能量平均值和调整后的第三音频信号的通道能量;
其中,第四音频信号的通道能量平均值可以是第四音频信号的所有通道能量的平均值。
S50842,根据第四音频信号的通道能量平均值和第三音频信号的通道能量获取能量平均阈值。
能量平均阈值是对第三音频信号和第四音频信号各自的通道能量进行计算得到的阈值。
示例性的,根据第四音频信号的通道能量平均值和第三音频信号的通道能量获取能量平均阈值,包括:
通过如下方式获取能量平均阈值k:
可以采用以下公式:
其中,E_mean(i,b)表示所述第四音频信号的通道能量平均值,E’_dec(i,b)表示所述调整后的第三音频信号的能量。
S50843、根据能量平均阈值对第四音频信号的通道能量平均值和调整后的第三音频信号的通道能量进行加权平均计算,以得到目标能量;
计算目标能量E_target(i,b),可以采用以下公式:
E_target(i,b)=k*E_mean(i,b)+(1-k)*E’_dec(i,b);
其中,E_mean(i,b)为在先帧能量的平均值,E’_dec(i,b)为调整后的第三音频信号的能量。
S50844,根据目标能量和调整后的第三音频信号的通道能量获取能量平滑因子;
能量平滑因子可以用于对第三音频信号的调整,使得第三音频信号的解码质量更高。
示例性的,根据目标能量和调整后的第三音频信号的通道能量获取能量平滑因子,包括:
通过如下方式获取能量平滑因子q(i,b):
q(i,b)=sqrt(E_target(i,b))/sqrt(E’_dec(i,b));
其中,E_target(i,b)表示目标能量,E’_dec(i,b)表示第三音频信号的能量。
S50845,根据能量平滑因子对调整后的第三音频信号再次进行调整。
用能量平滑因子q(i,b)对调整后的第三音频信号再次调整,进一步提高第三音频信号的解码质量。
示例性的,可以参照如下公式对第三音频信号进行调整:
X”(i,b)=X’(i,b)*q(i,b);
示例性的,在得到调整后的第三音频信号之后,还可以用调整后的第三音频信号的能量更新在先帧能量的平均值。
举例说明如下,编码端中的输入信号为3阶HOA信号,该3阶HOA信号共包括16个通道的音频信号,第一音频信号为第1至5通道、第7通道、第9至第10通道的音频信号,第二音频信号为第6通道、第8通道、第11至16通道的音频信号。对于编码端编码的码流有如下三种实现方式:1、编码得到的码流中不包括高阶能量增益编码结果。2、编码得到的码流中包括高阶能量增益编码结果。对于解码端执行的场景音频解码方法,有如下三种实现方式:1、在接收到的码流中不包括高阶能量增益编码结果时,解码端对码流中的场景音频信号进行重建。2、在接收到的码流中包括高阶能量增益编码结果时,解码端对码流中的场景音频信号进行重建,并根据高阶能量增益编码结果对重建场景音频信号进行调整,以得到重建后的场景音频信号。3、本申请实施例中,在接收到的码流中包括高阶能量增益编码结果时,解码端对码流中的场景音频信号进行重建,并根据高阶能量增益编码结果对重建场景音频信号进行调整,以得到重建后的场景音频信号。
通过对重建场景音频信号的信号质量进行分析可知,没有携带高阶能量增益编码结果的解码HOA信号,质量很差。有携带高阶能量增益编码结果的解码HOA信号,但没有通过衰减因子进行重建场景音频信号的调整,质量中等。有携带高阶能量增益编码结果的解码HOA信号,有通过衰减因子进行重建场景音频信号的调整,质量最优。
通过上述分析可知,本申请实施例中解码端可以根据高阶能量增益编码结果对重建场景音频信号进行调整,从而得到重建后的场景音频信号的高阶通道能量更加均匀和平滑,重建后的场景音频信号的质量更优。例如,该衰减因子可以随重建场景音频信号的频带和Ambisonic阶数两个因素衰减,有效提升了HOA信号的编解码质量。
图6a为示例性示出的编码端的结构示意图。
参数图6a,示例性的,编码端可以包括配置单元、虚拟扬声器生成单元、目标扬声器生成单元、核心编码器。应该理解的是,图6a仅是本申请的一个示例,本申请的编码端可以包括比图6a示出的更多或更少的模块,在此不再赘述。
示例性的,配置单元,可以用于确定候选虚拟扬声器的配置信息。
示例性的,虚拟扬声器生成单元,可以用于根据候选虚拟扬声器的配置信息,生成多个候选虚拟扬声器以及确定各候选虚拟扬声器对应的虚拟扬声器系数。
示例性的,目标扬声器生成单元,可以用于根据基于场景音频信号和多组虚拟扬声器系数,从多个候选虚拟扬声器中选取目标虚拟扬声器以及确定目标虚拟扬声器的属性信息。
示例性的,核心编码器,可以用于获取场景音频信号的高阶能量增益,以及获取高阶能量增益编码结果;对场景音频信号中第一音频信号、目标虚拟扬声器的属性信息和高阶能量增益编码结果进行编码。
示例性的,上述图1a和图1b中的场景音频编码模块可以包括图6a的配置单元、虚拟扬声器生成单元、目标扬声器生成单元、核心编码器;或者,仅包括核心编码器。
图6b为示例性示出的解码端的结构示意图。
参数图6b,示例性的,解码端可以包括核心解码器、虚拟扬声器系数生成单元、虚拟扬声器信号生成单元、重建单元和信号调整单元。应该理解的是,图6b仅是本申请的一个示例,本申请的解码端可以包括比图6b示出的更多或更少的模块,在此不再赘述。
示例性的,核心解码器,可以用于解码第一码流,以得到第一重建信号、目标虚拟扬声器的属性信息和高阶能量增益编码结果。
示例性的,虚拟扬声器系数生成单元,可以用于基于目标虚拟扬声器的属性信息,确定虚拟扬声器系数。
示例性的,虚拟扬声器信号生成单元,可以用于基于第一重建信号和虚拟扬声器系数,生成虚拟扬声器信号。
示例性的,重建单元,可以用于基于虚拟扬声器信号和属性信息进行重建,以得到第一重建场景音频信号。
示例性的,信号调整单元,可以用于根据第一重建场景音频信号中的重建信号的频带序号和/或第一重建场景音频信号的阶数确定衰减因子;根据高阶能量增益编码结果对第一重建场景音频信号进行调整,以得到重建后的场景音频信号。
示例性的,上述图1a和图1b中的场景音频解码模块可以包括图6b的核心解码器、虚拟扬声器系数生成单元、虚拟扬声器信号生成单元、重建单元和信号调整单元;或者,仅包括核心解码器。
图7为示例性示出的场景音频编码装置的结构示意图。图7中的场景音频编码装置可以用于执行前述实施例的编码方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。其中,场景音频编码装置可以包括:
获取模块701,用于获取待编码的场景音频信号,所述场景音频信号包括C1个通道的音频信号,C1为正整数;
所述获取模块,还用于获取所述场景音频信号对应的目标虚拟扬声器的属性信息;
所述获取模块,还用于获取所述场景音频信号的高阶能量增益;
编码模块702,用于对所述高阶能量增益进行编码,以得到高阶能量增益编码结果;
所述编码模块,还用于编码所述场景音频信号中第一音频信号、所述目标虚拟扬声器的属性信息和所述高阶能量增益编码结果,以得到第一码流;其中,所述第一音频信号为所述场景音频信号中K个通道的音频信号,K为小于或等于C1的正整数。
图8为示例性示出的场景音频解码装置的结构示意图。图8中的场景音频解码装置可以用于执行前述实施例的解码方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。其中,场景音频解码装置可以包括:
码流接收模块801,用于接收第一码流;
解码模块802,用于解码所述第一码流,以得到第一重建信号、目标虚拟扬声器的属性信息和高阶能量增益编码结果,第一重建信号是场景音频信号中第一音频信号的重建信号,场景音频信号包括C1个通道的音频信号,第一音频信号为场景音频信号中K个通道的音频信号,C1为正整数,K为小于或等于C1的正整数;
虚拟扬声器信号生成模块803,用于基于所述属性信息和所述第一音频信号,生成所述目标虚拟扬声器对应的虚拟扬声器信号;
场景音频信号重建模块804,用于基于所述目标虚拟扬声器的属性信息和所述虚拟扬声器信号进行重建,以得到第一重建场景音频信号;所述第一重建场景音频信号包括C2个通道的音频信号,C2为正整数;
场景音频信号调整模块805,用于根据所述高阶能量增益编码结果对所述第一重建场景音频信号进行调整,以得到重建后的场景音频信号。
一个示例中,图9示出了本申请实施例的一种装置900的示意性框图装置900可包括:处理器901和收发器/收发管脚902,可选地,还包括存储器903。
装置900的各个组件通过总线904耦合在一起,其中总线904除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图中将各种总线都称为总线904。
可选地,存储器903可以用于存储前述方法实施例中的指令。该处理器901可用于执行存储器903中的指令,并控制接收管脚接收信号,以及控制发送管脚发送信号。
装置900可以是上述方法实施例中的电子设备或电子设备的芯片。
其中,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
本实施例还提供一种芯片,该芯片包括一个或多个接口电路和一个或多个处理器;接口电路用于从电子设备的存储器接收信号,并向处理器发送信号,信号包括存储器中存储的计算机指令;当处理器执行计算机指令时,使得电子设备执行上述实施例中的方法。其中,接口电路可以是指图9中的收发器902。
本实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机指令,当该计算机指令在电子设备上运行时,使得电子设备执行上述相关方法步骤实现上述实施例中的场景音频编解码方法。
本实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述相关步骤,以实现上述实施例中的场景音频编解码方法。
本实施例还提供了一种存储码流的装置,该装置包括:接收器和至少一个存储介质,接收器用于接收码流;至少一个存储介质用于存储码流;码流是根据上述实施例中的场景音频编方法生成的。
本申请实施例提供一种传输码流的装置,该装置包括:发送器和至少一个存储介质,至少一个存储介质用于存储码流,码流是根据上述实施例中的场景音频编方法生成的;发送器用于从存储介质中获取码流并将码流通过传输介质发送给端侧设备。
本申请实施例提供一种分发码流的***,该***包括:至少一个存储介质,用于存储至少一个码流,至少一个码流是根据上述实施例中的场景音频编方法生成的,流媒体设备,用于从至少一个存储介质中获取目标码流,并将目标码流发送给端侧设备,其中,流媒体设备包括内容服务器或内容分发服务器。
另外,本申请的实施例还提供一种装置,这个装置具体可以是芯片,组件或模块,该装置可包括相连的处理器和存储器;其中,存储器用于存储计算机执行指令,当装置运行时,处理器可执行存储器存储的计算机执行指令,以使芯片执行上述各方法实施例中的场景音频编解码方法。
其中,本实施例提供的电子设备、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
通过以上实施方式的描述,所属领域的技术人员可以了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本申请各个实施例的任意内容,以及同一实施例的任意内容,均可以自由组合。对上述内容的任意组合均在本申请的范围之内。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
结合本申请实施例公开内容所描述的方法或者算法的步骤可以硬件的方式来实现,也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(Random Access Memory,RAM)、闪存、只读存储器(Read Only Memory,ROM)、可擦除可编程只读存储器(Erasable Programmable ROM,EPROM)、电可擦可编程只读存储器(Electrically EPROM,EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD-ROM)或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机可读存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (14)

1.一种场景音频解码方法,其特征在于,所述方法包括:
接收第一码流;
解码所述第一码流,以得到第一重建信号、目标虚拟扬声器的属性信息和高阶能量增益编码结果,所述第一重建信号是场景音频信号中第一音频信号的重建信号,所述场景音频信号包括C1个通道的音频信号,所述第一音频信号为场景音频信号中K个通道的音频信号,C1为正整数,K为小于或等于C1的正整数;
基于所述目标虚拟扬声器的属性信息和所述第一音频信号,生成所述目标虚拟扬声器对应的虚拟扬声器信号;
基于所述目标虚拟扬声器的属性信息和所述虚拟扬声器信号进行重建,以得到第一重建场景音频信号;所述第一重建场景音频信号包括C2个通道的音频信号,C2为正整数;
根据所述高阶能量增益编码结果对所述第一重建场景音频信号进行调整,以得到重建后的场景音频信号。
2.根据权利要求1所述的方法,其特征在于,
所述场景音频信号为N1阶高阶立体混响HOA信号,所述N1阶HOA信号包括第二音频信号,所述第二音频信号为所述N1阶HOA信号中除所述第一音频信号之外的音频信号,C1等于(N1+1)的平方;和/或,
所述第一重建场景音频信号为N2阶HOA信号,所述N2阶HOA信号包括第三音频信号,所述第三音频信号为所述N2阶HOA信号中与所述第二音频信号的各通道对应的重建信号,C2等于(N2+1)的平方。
3.根据权利要求2所述的方法,其特征在于,所述根据所述高阶能量增益编码结果对所述第一重建场景音频信号进行调整,以得到重建后的场景音频信号包括:
对所述高阶能量增益编码结果进行熵解码,以得到熵解码后的高阶能量增益;
对所述熵解码后的高阶能量增益进行反量化,以得到高阶能量增益;
根据所述第二音频信号的特征信息和所述第一音频信号的特征信息对所述高阶能量增益进行调整,以得到调整后的解码高阶能量增益;
根据所述调整后的解码高阶能量增益对所述N2阶HOA信号中的第三音频信号进行调整,以得到调整后的第三音频信号,所述调整后的第三音频信号属于所述重建后的场景音频信号。
4.根据权利要求3所述方法,其特征在于,所述根据所述第二音频信号的特征信息和所述第一音频信号的特征信息对所述高阶能量增益进行调整,包括:
根据所述第一音频信号的通道能量和所述高阶能量增益获取所述第二音频信号的高阶能量;
根据所述第三音频信号的通道能量和所述第二音频信号的高阶能量获取解码能量比例因子;
根据所述第三音频信号的通道能量和所述第一音频信号的通道能量获取所述第三音频信号的解码高阶能量增益;
根据所述解码能量比例因子对所述第三音频信号的解码高阶能量增益进行调整,以得到所述调整后的解码高阶能量增益。
5.根据权利要求4所述的方法,其特征在于,所述根据所述解码能量比例因子对所述第三音频信号的解码高阶能量增益进行调整,以得到所述调整后的解码高阶能量增益,包括:
通过如下方式获取所述调整后的解码高阶能量增益Gain_dec’(i,b):
Gain_dec’(i,b)=w*min(g(i,b),Gain_dec(i,b))+(1-w)*g(i,b);
其中,g(i,b)表示所述解码能量比例因子,Gain_dec(i,b)表示所述第三音频信号的解码高阶能量增益,i为所述第三音频信号的第i个通道的编号,b为所述第三音频信号的频带序号,w为预设的调节比例阈值,min表示取最小值运算,*表示相乘运算。
6.根据权利要求3至5中任一项所述的方法,其特征在于,所述根据所述调整后的解码高阶能量增益对所述N2阶HOA信号中的第三音频信号进行调整,包括:
根据所述第三音频信号所在的频带序号获取衰减因子;
根据所述调整后的解码高阶能量增益和所述衰减因子对所述第三音频信号进行调整。
7.根据权利要求3至6中任一项所述的方法,其特征在于,所述根据所述高阶能量增益编码结果对所述第一重建场景音频信号进行调整之后,所述方法还包括:
获取所述调整后的第三音频信号对应的第四音频信号的通道能量,所述第三音频信号包括当前帧的音频信号,所述第四音频信号包括所述当前帧的在先帧的音频信号;
根据所述第四音频信号的通道能量对所述调整后的第三音频信号再次进行调整。
8.根据权利要求7所述的方法,其特征在于,所述根据所述第四音频信号的通道能量对所述调整后的第三音频信号再次进行调整,包括:
获取所述第四音频信号的通道能量平均值和所述调整后的第三音频信号的通道能量;
根据所述第四音频信号的通道能量平均值和所述调整后的第三音频信号的通道能量获取能量平均阈值;
根据所述能量平均阈值对所述第四音频信号的通道能量平均值和所述调整后的第三音频信号的通道能量进行加权平均计算,以得到目标能量;
根据所述目标能量和所述调整后的第三音频信号的通道能量获取能量平滑因子;
根据所述能量平滑因子对所述调整后的第三音频信号再次进行调整。
9.根据权利要求6所述的方法,其特征在于,所述根据所述第三音频信号所在的频带序号获取衰减因子,包括:
通过如下方式获取衰减因子g’(i,b):
或,
其中,i为所述第三音频信号的第i个通道的编号,b为所述第三音频信号的频带序号,p为预设的衰减阈值。
10.一种场景音频解码装置,其特征在于,所述装置包括:
码流接收模块,用于接收第一码流;
解码模块,用于解码所述第一码流,以得到第一重建信号、目标虚拟扬声器的属性信息和高阶能量增益编码结果,所述第一重建信号是场景音频信号中第一音频信号的重建信号,所述场景音频信号包括C1个通道的音频信号,所述第一音频信号为场景音频信号中K个通道的音频信号,C1为正整数,K为小于或等于C1的正整数;
虚拟扬声器信号生成模块,用于基于所述目标虚拟扬声器的属性信息和所述第一音频信号,生成所述目标虚拟扬声器对应的虚拟扬声器信号;
场景音频信号重建模块,用于基于所述目标虚拟扬声器的属性信息和所述虚拟扬声器信号进行重建,以得到第一重建场景音频信号;所述第一重建场景音频信号包括C2个通道的音频信号,C2为正整数;
场景音频信号调整模块,用于根据所述高阶能量增益编码结果对所述第一重建场景音频信号进行调整,以得到重建后的场景音频信号。
11.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器与所述处理器耦合;
所述存储器存储有程序指令,当所述程序指令由所述处理器执行时,使得所述电子设备执行权利要求1至权利要求9中任一项所述的场景音频解码方法。
12.一种芯片,其特征在于,包括一个或多个接口电路和一个或多个处理器;所述接口电路用于从电子设备的存储器接收信号,并向所述处理器发送所述信号,所述信号包括存储器中存储的计算机指令;当所述处理器执行所述计算机指令时,使得所述电子设备执行权利要求1至权利要求9中任一项所述的场景音频解码方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序运行在计算机或处理器上时,使得所述计算机或所述处理器执行如权利要求1至权利要求9中任一项所述的场景音频解码方法。
14.一种计算机程序产品,其特征在于,所述计算机程序产品包含软件程序,当所述软件程序被计算机或处理器执行时,使得权利要求1至9任一项所述的方法的步骤被执行。
CN202310614158.7A 2023-01-06 2023-05-27 场景音频解码方法及电子设备 Pending CN118314908A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/CN2023/141753 WO2024146408A1 (zh) 2023-01-06 2023-12-26 场景音频解码方法及电子设备

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202310030731 2023-01-06
CN202310030731X 2023-01-06

Publications (1)

Publication Number Publication Date
CN118314908A true CN118314908A (zh) 2024-07-09

Family

ID=91730974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310614158.7A Pending CN118314908A (zh) 2023-01-06 2023-05-27 场景音频解码方法及电子设备

Country Status (2)

Country Link
CN (1) CN118314908A (zh)
WO (1) WO2024146408A1 (zh)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BRPI0713236B1 (pt) * 2006-07-07 2020-03-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Conceito para combinação de múltiplas fontes de áudio parametricamente codificadas
KR101646650B1 (ko) * 2009-10-15 2016-08-08 오렌지 최적의 저-스루풋 파라메트릭 코딩/디코딩
CN103366748A (zh) * 2010-02-12 2013-10-23 华为技术有限公司 立体声编码的方法、装置
CN104299614B (zh) * 2013-07-16 2017-12-29 华为技术有限公司 解码方法和解码装置
EP3046105B1 (en) * 2013-09-13 2020-01-15 Samsung Electronics Co., Ltd. Lossless coding method
JP6734394B2 (ja) * 2016-04-12 2020-08-05 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 高位周波数帯域における検出されたピークスペクトル領域を考慮してオーディオ信号を符号化するオーディオ符号器、オーディオ信号を符号化する方法、及びコンピュータプログラム
US10609503B2 (en) * 2018-04-08 2020-03-31 Dts, Inc. Ambisonic depth extraction
JP7213364B2 (ja) * 2018-10-31 2023-01-26 ノキア テクノロジーズ オーユー 空間オーディオパラメータの符号化及び対応する復号の決定
CN114582356A (zh) * 2020-11-30 2022-06-03 华为技术有限公司 一种音频编解码方法和装置

Also Published As

Publication number Publication date
WO2024146408A1 (zh) 2024-07-11

Similar Documents

Publication Publication Date Title
US9516446B2 (en) Scalable downmix design for object-based surround codec with cluster analysis by synthesis
KR101358700B1 (ko) 오디오 인코딩 및 디코딩
KR101143225B1 (ko) 오디오 인코더 및 오디오 디코더에서의 컴퓨터 구현 방법및 컴퓨터 판독 가능 매체
CN112997248A (zh) 确定空间音频参数的编码和相关联解码
WO2020008112A1 (en) Energy-ratio signalling and synthesis
US20240087580A1 (en) Three-dimensional audio signal coding method and apparatus, and encoder
US9311925B2 (en) Method, apparatus and computer program for processing multi-channel signals
CN112005560B (zh) 使用元数据处理音频信号的方法和设备
WO2022262576A1 (zh) 三维音频信号编码方法、装置、编码器和***
CN118314908A (zh) 场景音频解码方法及电子设备
CN118136027A (zh) 场景音频编码方法及电子设备
CN118138980A (zh) 场景音频解码方法及电子设备
US20240079017A1 (en) Three-dimensional audio signal coding method and apparatus, and encoder
US20240087578A1 (en) Three-dimensional audio signal coding method and apparatus, and encoder
WO2022242483A1 (zh) 三维音频信号编码方法、装置和编码器
WO2022257824A1 (zh) 一种三维音频信号的处理方法和装置
TW202425670A (zh) 場景音訊編碼方法及電子設備
TW202424960A (zh) 場景音訊解碼方法及電子設備
CN115346537A (zh) 一种音频编码、解码方法及装置

Legal Events

Date Code Title Description
PB01 Publication