CN106023999A

CN106023999A - 用于提高三维音频空间参数压缩率的编解码方法及***

Info

Publication number: CN106023999A
Application number: CN201610541939.8A
Authority: CN
Inventors: 胡瑞敏; 杨乘; 王晓晨; 杜鹏慧; 苏柳月; 武庭照; 陈玮; 杨玉红
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2016-07-11
Filing date: 2016-07-11
Publication date: 2016-10-12
Anticipated expiration: 2036-07-11
Also published as: CN106023999B

Abstract

本发明提供了用于提高三维音频空间参数压缩率的编解码方法及***，本发明在编码时输入三维音频的音频信号、三维音频的空间边信息和空间参数所属音频对象的编号，编码时依次对空间参数进行聚类、量化、帧内编码、帧间差分编码；解码时依次进行帧间差分解码、帧内解码、反量化、空间参数映射；本发明基于同一声源同一帧内的不同子带空间参数具有相似性的特点，采用空间参数聚类的方法来提高三维音频的空间参数的压缩率，可以得到更高的三维音频空间参数压缩率。

Description

用于提高三维音频空间参数压缩率的编解码方法及***

技术领域

本发明涉及数字音频领域，针对提高三维音频空间参数压缩率的需求，尤其涉及一种提高三维音频空间参数压缩率的编解码方法及***。

背景技术

2009年底，三维电影《阿凡达》在全球三十多个国家登上票房榜首，到2010年9月初，全球累计票房超过27亿美元。《阿凡达》之所以能取得如此辉煌的票房成绩，在于它所采用的全新的三维特效制作技术带给人们感官上的震撼效果。

为了给听音者提供3D空间中一种更加沉浸的感觉以及一种更加真实的声场，空间音频对象编码(SAOC)，方向音频编码(DirAC)以及空间压榨音频编码(S3AC)被提出。随着3D空间分辨率的提高以及越来越多的声道或者对象，空间参数的比特率也急剧地提高。比如，在S3AC编码的空间定位量化点(SLQP)方法中，空间参数的比特率是18kbps/对象，那么对于16个声源对象，空间参数需要288kbps的比特率。因此，减少3D音频编码中的空间参数的比特率非常急迫。

空间参数的压缩方法BCC,MPEG Surround以及S3AC考虑了相邻帧之间的特性，则空间参数的比特率可以通过差分编码来减少。这些方法可以除去同一频带中相邻帧之间空间参数的帧间冗余，但是同一帧内同一声源不同频带之间空间参数的帧内冗余仍然存在。若能想办法除去这些帧内冗余，则空间参数比特率可以被进一步压缩。

发明内容

本发明的目的在于针对上述现有技术在压缩3D音频空间参数上存在的不足，提供一种新的针对3D音频录制的基于对象的空间参数压缩方法；该方法基于同一声源在同一帧内的不同频带具有相同的空间参数的特性，可以高比率地移除已有的空间参数压缩方法中未考虑的空间参数的帧内冗余，从而进一步压缩空间参数比特率。

本发明的技术方案提供一种用于提高三维音频空间参数压缩率的编解码方法，包括编码过程和解码过程，所述编码过程包括以下步骤：

步骤C1，输入包括包含n个对象的三维音频信号、三维音频空间参数以及空间参数所属音频对象的编号，将三维音频时域信号变换到频域，具体如下，

设三维音频的时域信号为s(t)，所述的s(t)包括s₁(t)、s₂(t)、s_k(t)…、s_K(t)，三维音频的空间参数所述的包括空间参数所属音频对象的编号为Index(n,f)；将三维音频的时域信号s(t)变换到频域，得到三维音频的频域信号S(n,f)，所述的S(n,f)包括S₁(n,f)、S₂(n,f)、S_k(n,f)…、S_K(n,f)；其中，s_k(t)为第k个有向性音频信号的时域表达，t表示时间；S_k(n,f)为第k个有向性音频信号的频域表达；表示第k个有向性音频信号对应的空间参数，θ为水平角，为高度角，r为距离边信息；k的取值为1,2,…,K，K为原有的有向性音频信号的总数；Index(n,f)的值为空间参数所属音频对象的编号；n代表帧索引，f代表频率索引；

步骤C2，对输入的空间参数进行帧内编码，实现如下，对同一帧内属于同一音频对象的不同频带的空间参数进行聚类；对聚类后的空间参数进行量化；对量化后的空间参数进行帧内编码；

步骤C3，对空间参数进行帧间编码，生成三维音频编码码流，编码方法为差分编码；

所述解码过程包括以下步骤；

步骤D1，对空间参数进行帧间解码，解码方法为差分解码；

步骤D2，对空间参数进行帧内解码，实现如下，对空间参数进行帧内解码；对帧内解码后的空间参数进行反量化；还原原始的空间参数

步骤D3，将音频信号的频域表达S’(n,f)变换到时域，得到音频信号的时域表达s’(t)，缩所述的S’(n,f)是S(n,f)经过编解码后的信号，所述的s’(t)是s(t)经过编解码后的信号；包含n个对象的音频信号的时域表达s’(t)和步骤D2所得空间参数以及原始的空间参数所属音频对象的编号Index(n,f)构成解码后的包含n个对象的三维音频的音频信号，空间参数以及空间参数所属音频对象的编号。

进一步的，所述的步骤C2中，是对同一帧内属于同一音频对象的不同频带的空间参数进行聚类，即对于n相同，Index(n,f)的值相同但f不同的空间参数进行聚类，生成聚类后的空间参数

进一步的，所述的步骤D2中，是将已经聚类的属于同一帧的同一音频对象的不同频带的空间参数映射至它们相应的频带，还原成原始的空间参数

进一步的，所述的步骤C2中，对聚类后的空间参数进行量化，所述的量化是感知量化或直接量化；对量化后的空间参数进行帧内编码，所述的编码是感知编码或直接编码。

进一步的，所述的步骤D2中，对空间参数进行帧内解码，所述的解码是感知解码或直接解码；对帧内解码后的空间参数进行反量化，所述的反量化是针对于感知量化的反量化或是针对于直接量化的反量化。

一种用于提高三维音频空间参数压缩率的编解码***，包括编码器和解码器；

所述编码器包括以下模块：

时频变换模块，用于输入包括包含n个对象的三维音频信号、三维音频空间参数以及空间参数所属音频对象的编号，将三维音频时域信号变换到频域，具体是设三维音频的时域信号为s(t)，所述的s(t)包括s₁(t)、s₂(t)、s_k(t)…、s_K(t)，三维音频的空间参数所述的包括空间参数所属音频对象的编号为Index(n,f)；将三维音频的时域信号s(t)变换到频域，得到三维音频的频域信号S(n,f)，所述的S(n,f)包括S₁(n,f)、S₂(n,f)、S_k(n,f)…、S_K(n,f)；其中，s_k(t)为第k个有向性音频信号的时域表达，t表示时间；S_k(n,f)为第k个有向性音频信号的频域表达；表示第k个有向性音频信号对应的空间参数，θ为水平角，为高度角，r为距离边信息；k的取值为1,2,…,K，K为原有的有向性音频信号的总数；Index(n,f)的值为空间参数所属音频对象的编号；n代表帧索引，f代表频率索引；

帧内编码模块，用于对输入的空间参数进行帧内编码，包括用于对同一帧内属于同一音频对象的不同频带的空间参数进行聚类；对聚类后的空间参数进行量化；对量化后的空间参数进行帧内编码；

帧间编码模块，对空间参数进行帧间编码，生成三维音频编码码流，编码方法为差分编码；

所述解码器包括以下模块：

帧间解码模块，用于对空间参数进行帧间解码，解码方法为差分解码；

帧内解码模块，用于对空间参数进行帧内解码，包括用于对空间参数进行帧内解码；对帧内解码后的空间参数进行反量化；还原原始的空间参数

时频反变换模块，用于将音频信号的频域表达S’(n,f)变换到时域，得到音频信号的时域表达s’(t)，缩所述的S’(n,f)是S(n,f)经过编解码后的信号，所述的s’(t)是s(t)经过编解码后的信号；包含n个对象的音频信号的时域表达s’(t)和步骤D2所得空间参数以及原始的空间参数所属音频对象的编号Index(n,f)构成解码后的包含n个对象的三维音频的音频信号，空间参数以及空间参数所属音频对象的编号。

进一步的，所述的帧内编码模块包括聚类模块，所述的聚类模块用于对同一帧内属于同一音频对象的不同频带的空间参数进行聚类，即对于n相同，Index(n,f)的值相同但f不同的空间参数进行聚类，生成聚类后的空间参数

进一步的，所述的帧内解码模块包括还原模块，所述的还原模块用于将已经聚类的属于同一帧的同一音频对象的不同频带的空间参数映射至它们相应的频带，还原成原始的空间参数

进一步的，所述的帧内编码模块包括量化模块，所述的量化模块用于对聚类后的空间参数进行量化，所述的量化是感知量化或直接量化；对量化后的空间参数进行帧内编码，所述的编码是感知编码或直接编码。

进一步的，所述的帧内解码模块包括反量化模块，所述的反量化模块用于对空间参数进行帧内解码，所述的解码是感知解码或直接解码；对帧内解码后的空间参数进行反量化，所述的反量化是针对于感知量化的反量化或是针对于直接量化的反量化。

本发明的有益效果是：本发明基于同一帧内同一声源的不同频带有相同的空间参数，在编码端通过空间参数聚类、空间参数量化、空间参数帧内编码，然后进行空间参数帧间差分编码，进一步压缩三维音频空间参数比特率，提高空间参数压缩率。解码端对三维音频码流进行解码，包括对空间参数进行帧间差分解码，空间参数帧内解码，对帧内解码后的空间参数进行反量化，并将聚类的空间参数进行映射，得到三维音频的音频信号、空间参数以及空间参数所属音频对象的编号。因此，本发明通过增加帧内编解码，解决了以往只已有的空间参数压缩方法中未考虑空间参数帧内冗余的缺陷，可以进一步压缩三维音频空间参数比特率，提高空间参数压缩率。

附图说明

图1是本发明实施例的编码端的流程图；

图2是本发明实施例的解码端的流程图。

具体实施方式

以下结合附图和实施例详细说明本发明技术方案(其中步骤C1至步骤C3为编码过程，步骤D1至步骤D3为解码过程)。

参见图1，本发明实施例的编码端执行以下流程：

步骤C1，将三维音频的时域信号s(t)变换到频域，得到三维音频的频域信号S(n,f)。

编码端的输入为：包含n个对象的三维音频信号、三维音频空间参数以及空间参数所属音频对象的编号。三维音频的音频信号的时域表达为s(t)，s(t)由s₁(t)、s₂(t)、…、s_K(t)构成，t表示时间；三维音频的空间参数，也即每个时频点对应的空间参数由构成；空间参数所属音频对象的编号，用Index(n,f)表达。其中，s_k(t)为第k个有向性音频信号的时域表达，表示第k个有向性音频信号对应的空间参数，空间参数由方位参数(水平角θ，高度角)和距离参数r构成。k的取值为1,2,…,K，K为原有的有向性音频信号的总数。

将三维音频的时域信号变换到频域，可以将三维音频的时域信号s(t)采用短时傅里叶变换(STFT)变换到频域，得到三维音频的频域信号S(n,f)，S(n,f)由S₁(n,f)、S₂(n,f)、…、S_K(n,f)。其中，S_k(n,f)为第k个有向性音频信号的频域表达，n代表帧索引，f代表频率索引。具体实施时，也可采用MDCT或希尔伯特黄等其他方法进行变换。

实施例中K＝8，f＝1,2,…,40。8个有向性音频信号s₁(t)、s₂(t)、…、s₈(t)的频域信号为(S₁(n,f),S₂(n,f),…,S₈(n,f))，它们对应的空间参数为而这些空间参数所属对象的编号为Index(n,f)。

步骤C2，对空间参数进行帧内编码，实施例进行步骤C3时，具体执行了以下步骤：

C21：对同一帧内属于同一音频对象的不同频带的空间参数进行聚类，即对于n相同，Index(n,f)的值相同但f不同的空间参数进行聚类，生成聚类后的空间参数

C22：对聚类后的空间参数进行量化，可以是感知量化或直接量化；

C23：对量化后的空间参数进行帧内编码，可以是感知编码或直接编码；

步骤C3，对空间参数进行帧间编码，生成三维音频编码码流，实施例进行步骤C3时，编码方法为差分编码。

参见图2，本发明实施例的解码端执行以下流程：

步骤D1，对空间参数进行帧间解码，实施例进行步骤D1时，解码方法为差分解码。

步骤D2，对空间参数进行帧内解码，实施例进行步骤D2时，具体执行了以下步骤：

D21：对空间参数进行帧内解码，可以是感知解码或直接解码；

D22：对帧内解码后的空间参数进行反量化，可以是针对于感知量化的反量化或是针对于直接量化的反量化；

D23：将已经聚类的属于同一帧的同一音频对象的不同频带的空间参数映射至它们相应的频带，还原成原始的空间参数

步骤D3，将音频信号的频域表达S’(n,f)变换到时域，得到音频信号的时域表达s’(t)，S’(n,f)是S(n,f)经过编解码后的信号，s’(t)是s(t)经过编解码后的信号；包含n个对象的音频信号的时域表达s’(t)和步骤D2所得空间参数以及原始的空间参数所属音频对象的编号Index(n,f)构成解码后的包含n个对象的三维音频的音频信号，空间参数以及空间参数所属音频对象的编号。具体实施时可以据此采用不同配置的扬声器或耳机来重建三维音频声场，即可还原原始的三维音频。

实施例将编解码后的8个有向性音频信号(S’₁(n,f),S’₂(n,f),…,S’₈(n,f))变换到时域，得到8个有向性音频信号s’₁(t),s’₂(t),…,s’₈(t)与已解码空间参数以及原始的空间参数所属音频对象的编号Index(n,f)构成解码后的包含n个对象的三维音频的音频信号，空间参数以及空间参数所属音频对象的编号。本实施例采用耳机来实现带距离边信息的三维音频信号的重放，为了实现耳机的三维音频重现，需要用到头相关传递函数(HRTF)库，PKU&IOA HRTF库对远场和近场都做了测量，距离r从20cm变化到160cm，水平角和高度角的分辨率分别是5⁰和10⁰，我们选择PKU&IOA HRTF库来完成进行了帧内压缩和帧间压缩的三维音频重建。

通过实验对比，增加了帧内编码的三维音频压缩方法比原有的只有帧间编码的三维音频压缩方法的压缩效果好，压缩率更高且重建音频质量仍然被保持。由于增加了帧内编码，可以消除帧内冗余，因此本方法在保证重建三维音频质量的基础上提高了三维空间参数压缩率，降低了空间参数比特率。

本发明所提供方法可以采用软件技术实现自动运行，也可实现为相应的模块化***。本发明提供的一种用于提高三维音频空间感距离感的参数编解码***，包括编码器和解码器，所述编码器包括以下模块，

所述解码器包括以下模块：

帧内编码模块包括聚类模块，所述的聚类模块用于对同一帧内属于同一音频对象的不同频带的空间参数进行聚类，即对于n相同，Index(n,f)的值相同但f不同的空间参数进行聚类，生成聚类后的空间参数

帧内解码模块包括还原模块，所述的还原模块用于将已经聚类的属于同一帧的同一音频对象的不同频带的空间参数映射至它们相应的频带，还原成原始的空间参数

帧内编码模块包括量化模块，所述的量化模块用于对聚类后的空间参数进行量化，所述的量化是感知量化或直接量化；对量化后的空间参数进行帧内编码，所述的编码是感知编码或直接编码。

帧内解码模块包括反量化模块，所述的反量化模块用于对空间参数进行帧内解码，所述的解码是感知解码或直接解码；对帧内解码后的空间参数进行反量化，所述的反量化是针对于感知量化的反量化或是针对于直接量化的反量化。

各模块具体实现与方法步骤相应，本发明不予赘述。

本文中所描述的具体实施例仅仅是对本发明内容作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的内容或者超越所附权利要求书所定义的范围。

Claims

1.一种用于提高三维音频空间参数压缩率的编解码方法，其特征在于，包括编码过程和解码过程，所述编码过程包括以下步骤：

所述解码过程包括以下步骤；

步骤D1，对空间参数进行帧间解码，解码方法为差分解码；

2.根据权利要求1所述用于提高三维音频参数压缩率的编解码方法，其特征在于：

所述的步骤C2中，是对同一帧内属于同一音频对象的不同频带的空间参数进行聚类，即对于n相同，Index(n,f)的值相同但f不同的空间参数进行聚类，生成聚类后的空间参数

3.根据权利要求1所述用于提高三维音频参数压缩率的编解码方法，其特征在于：

所述的步骤D2中，是将已经聚类的属于同一帧的同一音频对象的不同频带的空间参数映射至它们相应的频带，还原成原始的空间参数

4.根据权利要求1所述用于提高三维音频参数压缩率的编解码方法，其特征在于：

所述的步骤C2中，对聚类后的空间参数进行量化，所述的量化是感知量化或直接量化；对量化后的空间参数进行帧内编码，所述的编码是感知编码或直接编码。

5.根据权利要求1所述用于提高三维音频参数压缩率的编解码方法，其特征在于：

所述的步骤D2中，对空间参数进行帧内解码，所述的解码是感知解码或直接解码；对帧内解码后的空间参数进行反量化，所述的反量化是针对于感知量化的反量化或是针对于直接量化的反量化。

6.一种用于提高三维音频空间参数压缩率的编解码***，其特征在于：包括编码器和解码器，所述编码器包括以下模块，

所述解码器包括以下模块：

时频反变换模块，用于将音频信号的频域表达S’(n,f)变换到时域，得到音频信号的时域表达s’(t)，缩所述的S’(n,f)是S(n,f)经过编解码后的信号，所述的s’(t)是s(t)经过编解码后的信号；包含n个对象的音频信号的时域表达s’(t)和帧内解码模块所得空间参数以及原始的空间参数所属音频对象的编号Index(n,f)构成解码后的包含n个对象的三维音频的音频信号，空间参数以及空间参数所属音频对象的编号。

7.根据权利要求6所述用于提高三维音频参数压缩率的编解码***，其特征在于：所述的帧内编码模块包括聚类模块，所述的聚类模块用于对同一帧内属于同一音频对象的不同频带的空间参数进行聚类，即对于n相同，Index(n,f)的值相同但f不同的空间参数进行聚类，生成聚类后的空间参数

8.根据权利要求6所述用于提高三维音频参数压缩率的编解码***，其特征在于：所述的帧内解码模块包括还原模块，所述的还原模块用于将已经聚类的属于同一帧的同一音频对象的不同频带的空间参数映射至它们相应的频带，还原成原始的空间参数

9.根据权利要求6所述用于提高三维音频参数压缩率的编解码***，其特征在于：所述的帧内编码模块包括量化模块，所述的量化模块用于对聚类后的空间参数进行量化，所述的量化是感知量化或直接量化；对量化后的空间参数进行帧内编码，所述的编码是感知编码或直接编码。

10.根据权利要求6所述用于提高三维音频参数压缩率的编解码***，其特征在于：所述的帧内解码模块包括反量化模块，所述的反量化模块用于对空间参数进行帧内解码，所述的解码是感知解码或直接解码；对帧内解码后的空间参数进行反量化，所述的反量化是针对于感知量化的反量化或是针对于直接量化的反量化。