CN112365896B

CN112365896B - 一种基于栈式稀疏自编码器的面向对象编码方法

Info

Publication number: CN112365896B
Application number: CN202011102043.2A
Authority: CN
Inventors: 胡瑞敏; 吴玉林; 王晓晨; 胡晨昊; 李罡; 陈玮; 柯善发; 张灵鲲; 刘文可
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2022-06-14
Anticipated expiration: 2040-10-15
Also published as: CN112365896A

Abstract

本发明涉及数字音频信号处理技术，具体涉及一种基于栈式稀疏自编码器的面向对象编码方法，包括利用栈式稀疏自编码器的编码模块对音频对象边信息进行降维表达，然后利用稀疏自编码器中的解码模块从音频对象边信息的低维结构中重构原始高维的边信息数据。该方法利用栈式稀疏自动编码器(Stacked Sparse Autoencoder,SSAE)中的级联模块，每个模块都从其前一个模块中提取了边信息的有效特征。可以减少边信息参数的维数以节省比特率，并很好地重建音频对象。因此，能在相同的比特率下获得最佳的音频对象信号音质，以满足用户对音频对象个性化控制的需求。同时全面提升了音频对象信号的编码质量，提高编码效率。

Description

一种基于栈式稀疏自编码器的面向对象编码方法

技术领域

本发明属于数字音频信号处理技术领域，尤其涉及一种基于栈式稀疏自编码器的面向对象编码方法。

背景技术

三维(3D)音频表示具有3个自由度(例如方位角，仰角和距离)的音频对象。它可以在3D空间中的任何位置形成声音图像。随着3D音频和视频的发展，对交互式和个性化收听体验的需求迅速增长。常规的基于通道的音频编码技术受到通道数量的限制，并且不能满足用户的个性化重建需求，尤其是在沉浸式场景中，例如数字互动剧院和虚拟现实游戏。基于对象的编码方法作为沉浸式音频的重要表示，结合个性化的渲染***，可以在各种回放配置中实现生动的内容创建和最佳再现。而且基于对象的编码框架已成功用于商业案例。

国际上许多学者和科研机构都已开展音频对象编码的研究工作，并提出了多种音频对象编码方法。其中最具有代表性的两种方法是德国知名研究机构Fraunhofer提出的空间音频对象编码技术(Spatial Audio Object Coding,SAOC)[文献1]-[文献3]以及由武汉大学提出的基于最佳参数频率分辨率的音频对象编码方法(Audio object coding basedon optimal parameter frequency resolution,SVD-based SAOC)[文献4]。

空间音频对象编码(SAOC)起源于空间音频编码(Spatial Audio Coding,SAC)[文献5]。SAOC的核心思想是对多个音频对象进行下混，并仅传输每个对象提取的边信息以压缩信号，因此可以实现以低比特率编码多个音频对象。与单独传输所有对象相比，SAOC框架的比特率要低得多。但是，当音频对象的数量增加且代码比特率受到限制时，SAOC重建的音频对象将带来频谱混叠。

SVD-based SAOC方法针对SAOC所存在的问题进行了进一步研究。该方法不仅根据信号失真确定最佳子带数量，而且使用奇异值分解(singular value decomposition,SVD)来减小细分的子带下传输参数的维数，并且可以减少混叠。然而重构的音频对象的质量会受到SVD算法的限制，在较低码率时重建的音频对象质量不佳。

发明内容

针对背景技术存在的问题，本发明提供一种基于栈式稀疏自编码器的面向对象编码方法，

为解决上述技术问题，本发明采用如下技术方案：一种基于栈式稀疏自编码器的面向对象编码方法，包括利用栈式稀疏自编码器的编码模块对音频对象边信息进行降维表达，利用稀疏自编码器中的解码模块从音频对象边信息的低维结构中重构原始高维的边信息数据；

其中，对音频对象边信息进行降维表达具体步骤如下：

步骤11、对输入的J个独立音频信号S₁，S₂，…，S_J通过改进离散余弦变换MDCT进行时域-频域变换，得到对象信号的频谱O₁，O₂，…，O_J；

步骤12、对步骤11得到的频谱O₁，O₂，…，O_J每帧数据进行精细的子带划分；

步骤13、对步骤12中的子带，计算所有对象的下混信号，获得下混信号码流；

步骤14、对步骤12中的子带，计算每个对象的边信息OLD，得到边信息矩阵G₁，G₂，…，G_J；

步骤15、将步骤14得到的边信息矩阵G₁，G₂，…，G_J传入栈式稀疏自编码器的编码器模块中，得到音频对象边信息的低维特征表达结果R，获得边信息码流；

步骤16、步骤13和步骤15得到的码流合成输出码流，传输到解码端；

其中，从音频对象边信息的低维结构中重构原始高维的边信息数据，具体步骤如下：

步骤21、分解接收到的码流，得到下混信号码流和边信息码流；

步骤22、步骤21得到的下混信号码流经过AAC解码得到下混信号；

步骤23、步骤21得到的边信息码流经过去量化操作得到边信息；

步骤24、将步骤23得到的边信息输入栈式稀疏自编码器的解码器模块中，得到重建后的音频对象边信息

步骤25、根据步骤22得到的下混信号和步骤24得到的对象边信息，得到重建的音频对象频谱

步骤26、根据步骤25得到的音频对象频谱

进行逆改进离散余弦变换IMDCT处理，得到重建的单个对象的时域信号

在上述的基于栈式稀疏自编码器的面向对象编码方法中，步骤11中通过2048点改进离散余弦变换MDCT对时域的音频对象信号进行时域-频域变换，得到单个对象信号的频谱。

在上述的基于栈式稀疏自编码器的面向对象编码方法中，步骤12中根据子带数量对频谱混叠失真的影响，确定精细的子带划分的数量。

在上述的基于栈式稀疏自编码器的面向对象编码方法中，步骤13中将所有对象的频谱信息进行矩阵相加，得到下混信号数据，并作为传输码流进行传输；

下混信号的计算如下式所示：

其中sign()为符号函数，用于获取变量的符号。

在上述的基于栈式稀疏自编码器的面向对象编码方法中，在步骤14中，所述参数OLD的计算方式如下，

其中P_j(i，b)和P_max(i，b)分别表示对象j在子带(i，b)的能量与子带(i，b)中能量最大的对象能量，I是总帧数，J是对象的个数，B是子带数量。

在上述的基于栈式稀疏自编码器的面向对象编码方法中，在步骤15中，利用栈式稀疏自编码器对边信息进行降维表达，根据查表法对边信息值进行量化，将对应的量化索引形成码流输出。

在上述的基于栈式稀疏自编码器的面向对象编码方法中，在步骤16中，采用AAC编码器将步骤13输出的下混信号进行编码，得到下混信号码流。

在上述的基于栈式稀疏自编码器的面向对象编码方法中，在步骤21中，根据解码端接收到的码流，利用码流解析得到下混信号码流和边信息码流。

在上述的基于栈式稀疏自编码器的面向对象编码方法中，在步骤24中，将步骤23得到的边信息输入到栈式稀疏自编码的解码部分，从低维的边信息结构中重建出高维边信息数据。

在上述的基于栈式稀疏自编码器的面向对象编码方法中，在步骤25中，重建的音频对象频谱具体实现方法如下：

其中

是重建的音频对象j的(频域)，

是经过编解码的下混信号，

是去量化的边信息；m是频点的序号，A_b-1和A_b-1代表子带b的开始频点和结束频点。

本发明的有益效果：与现有的音频对象编码相比优势在于：利用栈式稀疏自动编码器(Stacked Sparse Autoencoder,SSAE)中的级联模块，每个模块都从其前一个模块中提取了边信息的有效特征。然后，我们可以减少边信息参数的维数以节省比特率，并很好地重建音频对象。因此，本发明可以在相同的比特率下获得最佳的音频对象信号音质，以满足用户对音频对象个性化控制的需求。同时全面提升了音频对象信号的编码质量，提高编码效率。

附图说明

图1为本发明一个实施例的编码流程图；

图2为本发明一个实施例的解码流程图。

具体实施方式

下面将结合本发明实施例对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合具体实施例对本发明作进一步说明，但不作为本发明的限定。

本实施例在现有音频对象编码方法的基础上开展研究，提出了一种基于栈式稀疏自编码的面向对象编码方法。首先利用栈式稀疏自编码器中的编码模块对边信息进行降维表达，然后利用稀疏自编码器中的解码模块从边信息的低维结构中重构原始高维的边信息数据，从而实现边信息的高效压缩，达到降低码率的目的。

如图1所示，本实施例提出一种基于栈式稀疏自编码器的面向对象的编码方法，包括以下步骤：

输入为多个音频对象的时域信号S₁，S₂，...，S_J，如贝斯、人声、钢琴等不同种类的音频对象信号，其采样频率是44.1kHz，位深度是16位，音频格式是wav格式。

步骤A1：对输入的J个独立音频信号S₁，S₂，...，S_J通过改进离散余弦变换MDCT进行时域-频域变换，得到对象信号的频谱O₁，O₂，...，O_J；

对时域的音频对象信号进行分帧加窗，每帧长度是1024，采用50％重叠的hanning窗，通过2048点改进离散余弦变换MDCT对时域的音频对象信号进行时域-频域变换，得到单个对象的频谱矩阵，矩阵的行数(列数)等于帧数，列数(行数)等于频点数。

步骤A2：对步骤A1得到的频谱O₁，O₂，...，O_J对每帧数据进行精细的子带划分；

由于ERB将每帧信号划分为28个子带，所以在ERB子带的基础上，每个子带均匀细分为4个子带。

步骤A3：对步骤A2中的子带，计算所有对象的下混信号，获得下混信号码流；

将所有对象的频谱信息进行矩阵相加，得到下混信号数据，下混信号的计算如下式所示：

其中sign()为符号函数，用于获取变量的符号。

下混信号采用AAC 128k编码器进行编码，得到下混信号码流；

步骤A4：对步骤A2中的子带，计算每个对象的边信息OLD，得到边信息矩阵G₁，G₂，...，G_J；

所述参数OLD的计算方式如下，

步骤A5：对A3得到的边信息矩阵G₁，G₂，...，G_J，传入栈式稀疏自编码器的编码器模块中，得到音频对象边信息的低维特征表达结果R，获得边信息码流；

利用栈式稀疏自编码器对边信息进行降维表达，从而减少边原始信息的数据量。然后根据查表法对边信息值进行量化，最后把对应的量化索引形成码流输出。

步骤A6：步骤A3和步骤A5得到的码流合成输出码流，传输到解码端。

合成输出码流指将最终下混信号的码流与边信息码流进行整合。最终下混信号码流指经AAC编码后的输出码流，边信息码流指栈式稀疏自编码器输出的量化索引码流。

如图2所示，本实施例提出一种基于栈式稀疏自编码器的面向对象解码方法，具体包括以下步骤：

步骤B1：分解接收到的码流，得到下混信号码流和边信息码流；

根据解码端接收到的码流，利用码流解析得到下混信号码流和边信息码流。

步骤B2：步骤B1得到的下混信号码流经过AAC解码得到下混信号；

利用AAC解码下混信号码流，得到编码前的下混信号；

步骤B3：步骤B1得到的边信息码流经过去量化操作得到边信息；

对边信息码流去量化操作后可得到编码前的边信息；

步骤B4：将步骤B3得到的边信息输入栈式稀疏自编码器的解码器模块中，得到重建后的音频对象边信息

将解码后的边信息输入到栈式稀疏自编码的解码部分，从低维的边信息结构中重建出高维边信息数据。

步骤B5：根据B2得到的下混信号和B4得到的对象边信息，得到重建的音频对象频谱

重建的音频对象频谱具体实现方法如下式所示：

其中

是重建的音频对象j的(频域)，

是经过编解码的下混信号，

是去量化的边信息。m是频点的序号，A_b-1和A_b-1代表子带b的开始频点和结束频点。

步骤B6：根据B5得到的音频对象频谱

由于重建的音频对象信号是频域信号，因此需要利用逆改进离散余弦变换IMDCT进行频域-时域变换，最终得到重建的音频对象的时域信号，方便对单个对象的渲染和个性化控制。

与现有音频对象编码方法相比，本实施例具有的优势及特点是：

本实施例利用栈式稀疏自编码器实现对音频对象边信息的高效压缩，，在同等码率下全面提升音频对象信号的编码质量，提高编码效率。满足用户对音频对象个性化控制的需求。

本说明书未详细阐述的部分均属于现有技术。

以上仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

文献1:Herre,J.,Purnhagen,H.,Koppens,J.,Hellmuth,O.,Engdegrd,J.,Hilper,J.:Valero ML(2012)MPEG Spatial audio object coding-the ISO/MPEGstandard for efficient coding of interactive audio scenes.J Audio Eng Soc 60(9),pp.655-673(2012).

文献2:Herre,J.,Hilpert,J.,Kuntz,A.,Plogsties,J.:Mpeg-h 3D audio{thenew standard for coding of immersive spatial audio.IEEE J.Sel.Top.SignalProcess.9(5),pp.770-779(2015).

文献3:Herre,J.,Disch,S.:(2007)New concepts in parametric coding ofspatial audio:from SAC to SAOC.IEEE International Conference on Multimediaand Expo(ICME).IEEE,pp.1894{1897(2007).

文献4:Wu,T.,Hu,R.,Wang,X.,Ke,S.:Audio object coding based on optimalparameter frequency resolution.Multimedia Tools and Appl.78(15),pp.20723{20738(2019).

文献5:Herre,J.,Faller,C.,Disch,S.,Ertel,C.,Hilpert,J.,Hoelzer,A.,Linzmeier,K.,Spenger,C.,Kroon,P.:Spatial Audio Coding:Next-GenerationEfficient and Compatible Coding of Multichannel Audio.In:Audio EngineeringSociety Convention 117(2004).