CN106023999A - 用于提高三维音频空间参数压缩率的编解码方法及*** - Google Patents
用于提高三维音频空间参数压缩率的编解码方法及*** Download PDFInfo
- Publication number
- CN106023999A CN106023999A CN201610541939.8A CN201610541939A CN106023999A CN 106023999 A CN106023999 A CN 106023999A CN 201610541939 A CN201610541939 A CN 201610541939A CN 106023999 A CN106023999 A CN 106023999A
- Authority
- CN
- China
- Prior art keywords
- spatial parameter
- audio
- decoding
- coding
- dimensional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000007906 compression Methods 0.000 title claims abstract description 33
- 230000006835 compression Effects 0.000 title claims abstract description 33
- 230000005236 sound signal Effects 0.000 claims abstract description 60
- 238000013139 quantization Methods 0.000 claims abstract description 50
- 230000008447 perception Effects 0.000 claims description 18
- 238000011084 recovery Methods 0.000 claims description 6
- 241000406668 Loxodonta cyclotis Species 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明提供了用于提高三维音频空间参数压缩率的编解码方法及***,本发明在编码时输入三维音频的音频信号、三维音频的空间边信息和空间参数所属音频对象的编号,编码时依次对空间参数进行聚类、量化、帧内编码、帧间差分编码;解码时依次进行帧间差分解码、帧内解码、反量化、空间参数映射;本发明基于同一声源同一帧内的不同子带空间参数具有相似性的特点,采用空间参数聚类的方法来提高三维音频的空间参数的压缩率,可以得到更高的三维音频空间参数压缩率。
Description
技术领域
本发明涉及数字音频领域,针对提高三维音频空间参数压缩率的需求,尤其涉及一种提高三维音频空间参数压缩率的编解码方法及***。
背景技术
2009年底,三维电影《阿凡达》在全球三十多个国家登上票房榜首,到2010年9月初,全球累计票房超过27亿美元。《阿凡达》之所以能取得如此辉煌的票房成绩,在于它所采用的全新的三维特效制作技术带给人们感官上的震撼效果。
为了给听音者提供3D空间中一种更加沉浸的感觉以及一种更加真实的声场,空间音频对象编码(SAOC),方向音频编码(DirAC)以及空间压榨音频编码(S3AC)被提出。随着3D空间分辨率的提高以及越来越多的声道或者对象,空间参数的比特率也急剧地提高。比如,在S3AC编码的空间定位量化点(SLQP)方法中,空间参数的比特率是18kbps/对象,那么对于16个声源对象,空间参数需要288kbps的比特率。因此,减少3D音频编码中的空间参数的比特率非常急迫。
空间参数的压缩方法BCC,MPEG Surround以及S3AC考虑了相邻帧之间的特性,则空间参数的比特率可以通过差分编码来减少。这些方法可以除去同一频带中相邻帧之间空间参数的帧间冗余,但是同一帧内同一声源不同频带之间空间参数的帧内冗余仍然存在。若能想办法除去这些帧内冗余,则空间参数比特率可以被进一步压缩。
发明内容
本发明的目的在于针对上述现有技术在压缩3D音频空间参数上存在的不足,提供一种新的针对3D音频录制的基于对象的空间参数压缩方法;该方法基于同一声源在同一帧内的不同频带具有相同的空间参数的特性,可以高比率地移除已有的空间参数压缩方法中未考虑的空间参数的帧内冗余,从而进一步压缩空间参数比特率。
本发明的技术方案提供一种用于提高三维音频空间参数压缩率的编解码方法,包括编码过程和解码过程,所述编码过程包括以下步骤:
步骤C1,输入包括包含n个对象的三维音频信号、三维音频空间参数以及空间参数所属音频对象的编号,将三维音频时域信号变换到频域,具体如下,
设三维音频的时域信号为s(t),所述的s(t)包括s1(t)、s2(t)、sk(t)…、sK(t),三维音频的空间参数所述的包括 空间参数所属音频对象的编号为Index(n,f);将三维音频的时域信号s(t)变换到频域,得到三维音频的频域信号S(n,f),所述的S(n,f)包括S1(n,f)、S2(n,f)、Sk(n,f)…、SK(n,f);其中,sk(t)为第k个有向性音频信号的时域表达,t表示时间;Sk(n,f)为第k个有向性音频信号的频域表达;表示第k个有向性音频信号对应的空间参数,θ为水平角,为高度角,r为距离边信息;k的取值为1,2,…,K,K为原有的有向性音频信号的总数;Index(n,f)的值为空间参数所属音频对象的编号;n代表帧索引,f代表频率索引;
步骤C2,对输入的空间参数进行帧内编码,实现如下,对同一帧内属于同一音频对象的不同频带的空间参数进行聚类;对聚类后的空间参数进行量化;对量化后的空间参数进行帧内编码;
步骤C3,对空间参数进行帧间编码,生成三维音频编码码流,编码方法为差分编码;
所述解码过程包括以下步骤;
步骤D1,对空间参数进行帧间解码,解码方法为差分解码;
步骤D2,对空间参数进行帧内解码,实现如下,对空间参数进行帧内解码;对帧内解码后的空间参数进行反量化;还原原始的空间参数
步骤D3,将音频信号的频域表达S’(n,f)变换到时域,得到音频信号的时域表达s’(t),缩所述的S’(n,f)是S(n,f)经过编解码后的信号,所述的s’(t)是s(t)经过编解码后的信号;包含n个对象的音频信号的时域表达s’(t)和步骤D2所得空间参数以及原始的空间参数所属音频对象的编号Index(n,f)构成解码后的包含n个对象的三维音频的音频信号,空间参数以及空间参数所属音频对象的编号。
进一步的,所述的步骤C2中,是对同一帧内属于同一音频对象的不同频带的空间参数进行聚类,即对于n相同,Index(n,f)的值相同但f不同的空间参数进行聚类,生成聚类后的空间参数
进一步的,所述的步骤D2中,是将已经聚类的属于同一帧的同一音频对象的不同频带的空间参数映射至它们相应的频带,还原成原始的空间参数
进一步的,所述的步骤C2中,对聚类后的空间参数进行量化,所述的量化是感知量化或直接量化;对量化后的空间参数进行帧内编码,所述的编码是感知编码或直接编码。
进一步的,所述的步骤D2中,对空间参数进行帧内解码,所述的解码是感知解码或直接解码;对帧内解码后的空间参数进行反量化,所述的反量化是针对于感知量化的反量化或是针对于直接量化的反量化。
一种用于提高三维音频空间参数压缩率的编解码***,包括编码器和解码器;
所述编码器包括以下模块:
时频变换模块,用于输入包括包含n个对象的三维音频信号、三维音频空间参数以及空间参数所属音频对象的编号,将三维音频时域信号变换到频域,具体是设三维音频的时域信号为s(t),所述的s(t)包括s1(t)、s2(t)、sk(t)…、sK(t),三维音频的空间参数所述的包括空间参数所属音频对象的编号为Index(n,f);将三维音频的时域信号s(t)变换到频域,得到三维音频的频域信号S(n,f),所述的S(n,f)包括S1(n,f)、S2(n,f)、Sk(n,f)…、SK(n,f);其中,sk(t)为第k个有向性音频信号的时域表达,t表示时间;Sk(n,f)为第k个有向性音频信号的频域表达;表示第k个有向性音频信号对应的空间参数,θ为水平角,为高度角,r为距离边信息;k的取值为1,2,…,K,K为原有的有向性音频信号的总数;Index(n,f)的值为空间参数所属音频对象的编号;n代表帧索引,f代表频率索引;
帧内编码模块,用于对输入的空间参数进行帧内编码,包括用于对同一帧内属于同一音频对象的不同频带的空间参数进行聚类;对聚类后的空间参数进行量化;对量化后的空间参数进行帧内编码;
帧间编码模块,对空间参数进行帧间编码,生成三维音频编码码流,编码方法为差分编码;
所述解码器包括以下模块:
帧间解码模块,用于对空间参数进行帧间解码,解码方法为差分解码;
帧内解码模块,用于对空间参数进行帧内解码,包括用于对空间参数进行帧内解码;对帧内解码后的空间参数进行反量化;还原原始的空间参数
时频反变换模块,用于将音频信号的频域表达S’(n,f)变换到时域,得到音频信号的时域表达s’(t),缩所述的S’(n,f)是S(n,f)经过编解码后的信号,所述的s’(t)是s(t)经过编解码后的信号;包含n个对象的音频信号的时域表达s’(t)和步骤D2所得空间参数以及原始的空间参数所属音频对象的编号Index(n,f)构成解码后的包含n个对象的三维音频的音频信号,空间参数以及空间参数所属音频对象的编号。
进一步的,所述的帧内编码模块包括聚类模块,所述的聚类模块用于对同一帧内属于同一音频对象的不同频带的空间参数进行聚类,即对于n相同,Index(n,f)的值相同但f不同的空间参数进行聚类,生成聚类后的空间参数
进一步的,所述的帧内解码模块包括还原模块,所述的还原模块用于将已经聚类的属于同一帧的同一音频对象的不同频带的空间参数映射至它们相应的频带,还原成原始的空间参数
进一步的,所述的帧内编码模块包括量化模块,所述的量化模块用于对聚类后的空间参数进行量化,所述的量化是感知量化或直接量化;对量化后的空间参数进行帧内编码,所述的编码是感知编码或直接编码。
进一步的,所述的帧内解码模块包括反量化模块,所述的反量化模块用于对空间参数进行帧内解码,所述的解码是感知解码或直接解码;对帧内解码后的空间参数进行反量化,所述的反量化是针对于感知量化的反量化或是针对于直接量化的反量化。
本发明的有益效果是:本发明基于同一帧内同一声源的不同频带有相同的空间参数,在编码端通过空间参数聚类、空间参数量化、空间参数帧内编码,然后进行空间参数帧间差分编码,进一步压缩三维音频空间参数比特率,提高空间参数压缩率。解码端对三维音频码流进行解码,包括对空间参数进行帧间差分解码,空间参数帧内解码,对帧内解码后的空间参数进行反量化,并将聚类的空间参数进行映射,得到三维音频的音频信号、空间参数以及空间参数所属音频对象的编号。因此,本发明通过增加帧内编解码,解决了以往只已有的空间参数压缩方法中未考虑空间参数帧内冗余的缺陷,可以进一步压缩三维音频空间参数比特率,提高空间参数压缩率。
附图说明
图1是本发明实施例的编码端的流程图;
图2是本发明实施例的解码端的流程图。
具体实施方式
以下结合附图和实施例详细说明本发明技术方案(其中步骤C1至步骤C3为编码过程,步骤D1至步骤D3为解码过程)。
参见图1,本发明实施例的编码端执行以下流程:
步骤C1,将三维音频的时域信号s(t)变换到频域,得到三维音频的频域信号S(n,f)。
编码端的输入为:包含n个对象的三维音频信号、三维音频空间参数以及空间参数所属音频对象的编号。三维音频的音频信号的时域表达为s(t),s(t)由s1(t)、s2(t)、…、sK(t)构成,t表示时间;三维音频的空间参数,也即每个时频点对应的空间参数由构成;空间参数所属音频对象的编号,用Index(n,f)表达。其中,sk(t)为第k个有向性音频信号的时域表达,表示第k个有向性音频信号对应的空间参数,空间参数由方位参数(水平角θ,高度角)和距离参数r构成。k的取值为1,2,…,K,K为原有的有向性音频信号的总数。
将三维音频的时域信号变换到频域,可以将三维音频的时域信号s(t)采用短时傅里叶变换(STFT)变换到频域,得到三维音频的频域信号S(n,f),S(n,f)由S1(n,f)、S2(n,f)、…、SK(n,f)。其中,Sk(n,f)为第k个有向性音频信号的频域表达,n代表帧索引,f代表频率索引。具体实施时,也可采用MDCT或希尔伯特黄等其他方法进行变换。
实施例中K=8,f=1,2,…,40。8个有向性音频信号s1(t)、s2(t)、…、s8(t)的频域信号为(S1(n,f),S2(n,f),…,S8(n,f)),它们对应的空间参数为而这些空间参数所属对象的编号为Index(n,f)。
步骤C2,对空间参数进行帧内编码,实施例进行步骤C3时,具体执行了以下步骤:
C21:对同一帧内属于同一音频对象的不同频带的空间参数进行聚类,即对于n相同,Index(n,f)的值相同但f不同的空间参数进行聚类,生成聚类后的空间参数
C22:对聚类后的空间参数进行量化,可以是感知量化或直接量化;
C23:对量化后的空间参数进行帧内编码,可以是感知编码或直接编码;
步骤C3,对空间参数进行帧间编码,生成三维音频编码码流,实施例进行步骤C3时,编码方法为差分编码。
参见图2,本发明实施例的解码端执行以下流程:
步骤D1,对空间参数进行帧间解码,实施例进行步骤D1时,解码方法为差分解码。
步骤D2,对空间参数进行帧内解码,实施例进行步骤D2时,具体执行了以下步骤:
D21:对空间参数进行帧内解码,可以是感知解码或直接解码;
D22:对帧内解码后的空间参数进行反量化,可以是针对于感知量化的反量化或是针对于直接量化的反量化;
D23:将已经聚类的属于同一帧的同一音频对象的不同频带的空间参数 映射至它们相应的频带,还原成原始的空间参数
步骤D3,将音频信号的频域表达S’(n,f)变换到时域,得到音频信号的时域表达s’(t),S’(n,f)是S(n,f)经过编解码后的信号,s’(t)是s(t)经过编解码后的信号;包含n个对象的音频信号的时域表达s’(t)和步骤D2所得空间参数以及原始的空间参数所属音频对象的编号Index(n,f)构成解码后的包含n个对象的三维音频的音频信号,空间参数以及空间参数所属音频对象的编号。具体实施时可以据此采用不同配置的扬声器或耳机来重建三维音频声场,即可还原原始的三维音频。
实施例将编解码后的8个有向性音频信号(S’1(n,f),S’2(n,f),…,S’8(n,f))变换到时域,得到8个有向性音频信号s’1(t),s’2(t),…,s’8(t)与已解码空间参数 以及原始的空间参数所属音频对象的编号Index(n,f)构成解码后的包含n个对象的三维音频的音频信号,空间参数以及空间参数所属音频对象的编号。本实施例采用耳机来实现带距离边信息的三维音频信号的重放,为了实现耳机的三维音频重现,需要用到头相关传递函数(HRTF)库,PKU&IOA HRTF库对远场和近场都做了测量,距离r从20cm变化到160cm,水平角和高度角的分辨率分别是50和100,我们选择PKU&IOA HRTF库来完成进行了帧内压缩和帧间压缩的三维音频重建。
通过实验对比,增加了帧内编码的三维音频压缩方法比原有的只有帧间编码的三维音频压缩方法的压缩效果好,压缩率更高且重建音频质量仍然被保持。由于增加了帧内编码,可以消除帧内冗余,因此本方法在保证重建三维音频质量的基础上提高了三维空间参数压缩率,降低了空间参数比特率。
本发明所提供方法可以采用软件技术实现自动运行,也可实现为相应的模块化***。本发明提供的一种用于提高三维音频空间感距离感的参数编解码***,包括编码器和解码器,所述编码器包括以下模块,
时频变换模块,用于输入包括包含n个对象的三维音频信号、三维音频空间参数以及空间参数所属音频对象的编号,将三维音频时域信号变换到频域,具体是设三维音频的时域信号为s(t),所述的s(t)包括s1(t)、s2(t)、sk(t)…、sK(t),三维音频的空间参数所述的包括空间参数所属音频对象的编号为Index(n,f);将三维音频的时域信号s(t)变换到频域,得到三维音频的频域信号S(n,f),所述的S(n,f)包括S1(n,f)、S2(n,f)、Sk(n,f)…、SK(n,f);其中,sk(t)为第k个有向性音频信号的时域表达,t表示时间;Sk(n,f)为第k个有向性音频信号的频域表达;表示第k个有向性音频信号对应的空间参数,θ为水平角,为高度角,r为距离边信息;k的取值为1,2,…,K,K为原有的有向性音频信号的总数;Index(n,f)的值为空间参数所属音频对象的编号;n代表帧索引,f代表频率索引;
帧内编码模块,用于对输入的空间参数进行帧内编码,包括用于对同一帧内属于同一音频对象的不同频带的空间参数进行聚类;对聚类后的空间参数进行量化;对量化后的空间参数进行帧内编码;
帧间编码模块,对空间参数进行帧间编码,生成三维音频编码码流,编码方法为差分编码;
所述解码器包括以下模块:
帧间解码模块,用于对空间参数进行帧间解码,解码方法为差分解码;
帧内解码模块,用于对空间参数进行帧内解码,包括用于对空间参数进行帧内解码;对帧内解码后的空间参数进行反量化;还原原始的空间参数
时频反变换模块,用于将音频信号的频域表达S’(n,f)变换到时域,得到音频信号的时域表达s’(t),缩所述的S’(n,f)是S(n,f)经过编解码后的信号,所述的s’(t)是s(t)经过编解码后的信号;包含n个对象的音频信号的时域表达s’(t)和步骤D2所得空间参数以及原始的空间参数所属音频对象的编号Index(n,f)构成解码后的包含n个对象的三维音频的音频信号,空间参数以及空间参数所属音频对象的编号。
帧内编码模块包括聚类模块,所述的聚类模块用于对同一帧内属于同一音频对象的不同频带的空间参数进行聚类,即对于n相同,Index(n,f)的值相同但f不同的空间参数进行聚类,生成聚类后的空间参数
帧内解码模块包括还原模块,所述的还原模块用于将已经聚类的属于同一帧的同一音频对象的不同频带的空间参数映射至它们相应的频带,还原成原始的空间参数
帧内编码模块包括量化模块,所述的量化模块用于对聚类后的空间参数进行量化,所述的量化是感知量化或直接量化;对量化后的空间参数进行帧内编码,所述的编码是感知编码或直接编码。
帧内解码模块包括反量化模块,所述的反量化模块用于对空间参数进行帧内解码,所述的解码是感知解码或直接解码;对帧内解码后的空间参数进行反量化,所述的反量化是针对于感知量化的反量化或是针对于直接量化的反量化。
各模块具体实现与方法步骤相应,本发明不予赘述。
本文中所描述的具体实施例仅仅是对本发明内容作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的内容或者超越所附权利要求书所定义的范围。
Claims (10)
1.一种用于提高三维音频空间参数压缩率的编解码方法,其特征在于,包括编码过程和解码过程,所述编码过程包括以下步骤:
步骤C1,输入包括包含n个对象的三维音频信号、三维音频空间参数以及空间参数所属音频对象的编号,将三维音频时域信号变换到频域,具体如下,
设三维音频的时域信号为s(t),所述的s(t)包括s1(t)、s2(t)、sk(t)…、sK(t),三维音频的空间参数所述的包括 空间参数所属音频对象的编号为Index(n,f);将三维音频的时域信号s(t)变换到频域,得到三维音频的频域信号S(n,f),所述的S(n,f)包括S1(n,f)、S2(n,f)、Sk(n,f)…、SK(n,f);其中,sk(t)为第k个有向性音频信号的时域表达,t表示时间;Sk(n,f)为第k个有向性音频信号的频域表达;表示第k个有向性音频信号对应的空间参数,θ为水平角,为高度角,r为距离边信息;k的取值为1,2,…,K,K为原有的有向性音频信号的总数;Index(n,f)的值为空间参数所属音频对象的编号;n代表帧索引,f代表频率索引;
步骤C2,对输入的空间参数进行帧内编码,实现如下,对同一帧内属于同一音频对象的不同频带的空间参数进行聚类;对聚类后的空间参数进行量化;对量化后的空间参数进行帧内编码;
步骤C3,对空间参数进行帧间编码,生成三维音频编码码流,编码方法为差分编码;
所述解码过程包括以下步骤;
步骤D1,对空间参数进行帧间解码,解码方法为差分解码;
步骤D2,对空间参数进行帧内解码,实现如下,对空间参数进行帧内解码;对帧内解码后的空间参数进行反量化;还原原始的空间参数
步骤D3,将音频信号的频域表达S’(n,f)变换到时域,得到音频信号的时域表达s’(t),缩所述的S’(n,f)是S(n,f)经过编解码后的信号,所述的s’(t)是s(t)经过编解码后的信号;包含n个对象的音频信号的时域表达s’(t)和步骤D2所得空间参数以及原始的空间参数所属音频对象的编号Index(n,f)构成解码后的包含n个对象的三维音频的音频信号,空间参数以及空间参数所属音频对象的编号。
2.根据权利要求1所述用于提高三维音频参数压缩率的编解码方法,其特征在于:
所述的步骤C2中,是对同一帧内属于同一音频对象的不同频带的空间参数进行聚类,即对于n相同,Index(n,f)的值相同但f不同的空间参数进行聚类,生成聚类后的空间参数
3.根据权利要求1所述用于提高三维音频参数压缩率的编解码方法,其特征在于:
所述的步骤D2中,是将已经聚类的属于同一帧的同一音频对象的不同频带的空间参数映射至它们相应的频带,还原成原始的空间参数
4.根据权利要求1所述用于提高三维音频参数压缩率的编解码方法,其特征在于:
所述的步骤C2中,对聚类后的空间参数进行量化,所述的量化是感知量化或直接量化;对量化后的空间参数进行帧内编码,所述的编码是感知编码或直接编码。
5.根据权利要求1所述用于提高三维音频参数压缩率的编解码方法,其特征在于:
所述的步骤D2中,对空间参数进行帧内解码,所述的解码是感知解码或直接解码;对帧内解码后的空间参数进行反量化,所述的反量化是针对于感知量化的反量化或是针对于直接量化的反量化。
6.一种用于提高三维音频空间参数压缩率的编解码***,其特征在于:包括编码器和解码器,所述编码器包括以下模块,
时频变换模块,用于输入包括包含n个对象的三维音频信号、三维音频空间参数以及空间参数所属音频对象的编号,将三维音频时域信号变换到频域,具体是设三维音频的时域信号为s(t),所述的s(t)包括s1(t)、s2(t)、sk(t)…、sK(t),三维音频的空间参数所述的包括空间参数所属音频对象的编号为Index(n,f);将三维音频的时域信号s(t)变换到频域,得到三维音频的频域信号S(n,f),所述的S(n,f)包括S1(n,f)、S2(n,f)、Sk(n,f)…、SK(n,f);其中,sk(t)为第k个有向性音频信号的时域表达,t表示时间;Sk(n,f)为第k个有向性音频信号的频域表达;表示第k个有向性音频信号对应的空间参数,θ为水平角,为高度角,r为距离边信息;k的取值为1,2,…,K,K为原有的有向性音频信号的总数;Index(n,f)的值为空间参数所属音频对象的编号;n代表帧索引,f代表频率索引;
帧内编码模块,用于对输入的空间参数进行帧内编码,包括用于对同一帧内属于同一音频对象的不同频带的空间参数进行聚类;对聚类后的空间参数进行量化;对量化后的空间参数进行帧内编码;
帧间编码模块,对空间参数进行帧间编码,生成三维音频编码码流,编码方法为差分编码;
所述解码器包括以下模块:
帧间解码模块,用于对空间参数进行帧间解码,解码方法为差分解码;
帧内解码模块,用于对空间参数进行帧内解码,包括用于对空间参数进行帧内解码;对帧内解码后的空间参数进行反量化;还原原始的空间参数
时频反变换模块,用于将音频信号的频域表达S’(n,f)变换到时域,得到音频信号的时域表达s’(t),缩所述的S’(n,f)是S(n,f)经过编解码后的信号,所述的s’(t)是s(t)经过编解码后的信号;包含n个对象的音频信号的时域表达s’(t)和帧内解码模块所得空间参数以及原始的空间参数所属音频对象的编号Index(n,f)构成解码后的包含n个对象的三维音频的音频信号,空间参数以及空间参数所属音频对象的编号。
7.根据权利要求6所述用于提高三维音频参数压缩率的编解码***,其特征在于:所述的帧内编码模块包括聚类模块,所述的聚类模块用于对同一帧内属于同一音频对象的不同频带的空间参数进行聚类,即对于n相同,Index(n,f)的值相同但f不同的空间参数进行聚类,生成聚类后的空间参数
8.根据权利要求6所述用于提高三维音频参数压缩率的编解码***,其特征在于:所述的帧内解码模块包括还原模块,所述的还原模块用于将已经聚类的属于同一帧的同一音频对象的不同频带的空间参数映射至它们相应的频带,还原成原始的空间参数
9.根据权利要求6所述用于提高三维音频参数压缩率的编解码***,其特征在于:所述的帧内编码模块包括量化模块,所述的量化模块用于对聚类后的空间参数进行量化,所述的量化是感知量化或直接量化;对量化后的空间参数进行帧内编码,所述的编码是感知编码或直接编码。
10.根据权利要求6所述用于提高三维音频参数压缩率的编解码***,其特征在于:所述的帧内解码模块包括反量化模块,所述的反量化模块用于对空间参数进行帧内解码,所述的解码是感知解码或直接解码;对帧内解码后的空间参数进行反量化,所述的反量化是针对于感知量化的反量化或是针对于直接量化的反量化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610541939.8A CN106023999B (zh) | 2016-07-11 | 2016-07-11 | 用于提高三维音频空间参数压缩率的编解码方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610541939.8A CN106023999B (zh) | 2016-07-11 | 2016-07-11 | 用于提高三维音频空间参数压缩率的编解码方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106023999A true CN106023999A (zh) | 2016-10-12 |
CN106023999B CN106023999B (zh) | 2019-06-11 |
Family
ID=57108555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610541939.8A Active CN106023999B (zh) | 2016-07-11 | 2016-07-11 | 用于提高三维音频空间参数压缩率的编解码方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106023999B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020043935A1 (en) | 2018-08-31 | 2020-03-05 | Nokia Technologies Oy | Spatial parameter signalling |
WO2020089523A1 (en) * | 2018-11-01 | 2020-05-07 | Nokia Technologies Oy | Apparatus, methods and computer programs for encoding spatial metadata |
CN108206022B (zh) * | 2016-12-16 | 2020-12-18 | 南京青衿信息科技有限公司 | 利用aes/ebu信道传输三维声信号的编解码器及其编解码方法 |
WO2021032909A1 (en) * | 2019-08-16 | 2021-02-25 | Nokia Technologies Oy | Quantization of spatial audio direction parameters |
RU2763155C2 (ru) * | 2017-11-17 | 2021-12-27 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Устройство и способ кодирования или декодирования параметров направленного кодирования аудио с использованием квантования и энтропийного кодирования |
WO2022129672A1 (en) * | 2020-12-15 | 2022-06-23 | Nokia Technologies Oy | Quantizing spatial audio parameters |
CN115662448A (zh) * | 2022-10-17 | 2023-01-31 | 深圳市超时代软件有限公司 | 音频数据编码格式转换的方法及装置 |
US12020713B2 (en) | 2019-08-16 | 2024-06-25 | Nokia Technologies Oy | Quantization of spatial audio direction parameters |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20070025907A (ko) * | 2005-08-30 | 2007-03-08 | 엘지전자 주식회사 | 멀티채널 오디오 코딩에서 효과적인 채널변환모듈에 적용될파라미터 밴드 수 비트스트림 구성방법 |
CN101521013A (zh) * | 2009-04-08 | 2009-09-02 | 武汉大学 | 空间音频参数双向帧间预测编解码装置 |
CN101609674A (zh) * | 2008-06-20 | 2009-12-23 | 华为技术有限公司 | 编解码方法、装置和*** |
US7974287B2 (en) * | 2006-02-23 | 2011-07-05 | Lg Electronics Inc. | Method and apparatus for processing an audio signal |
CN102177542A (zh) * | 2008-10-10 | 2011-09-07 | 艾利森电话股份有限公司 | 能量保留多通道音频编码 |
CN103165134A (zh) * | 2013-04-02 | 2013-06-19 | 武汉大学 | 音频信号高频参数编解码装置 |
CN103400582A (zh) * | 2013-08-13 | 2013-11-20 | 武汉大学 | 面向多声道三维音频的编解码方法与*** |
CN103928030A (zh) * | 2014-04-30 | 2014-07-16 | 武汉大学 | 基于子带空间关注测度的可分级音频编码***及方法 |
CN104064194A (zh) * | 2014-06-30 | 2014-09-24 | 武汉大学 | 用于提高三维音频空间感距离感的参数编解码方法及*** |
-
2016
- 2016-07-11 CN CN201610541939.8A patent/CN106023999B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20070025907A (ko) * | 2005-08-30 | 2007-03-08 | 엘지전자 주식회사 | 멀티채널 오디오 코딩에서 효과적인 채널변환모듈에 적용될파라미터 밴드 수 비트스트림 구성방법 |
US7974287B2 (en) * | 2006-02-23 | 2011-07-05 | Lg Electronics Inc. | Method and apparatus for processing an audio signal |
CN101609674A (zh) * | 2008-06-20 | 2009-12-23 | 华为技术有限公司 | 编解码方法、装置和*** |
CN102177542A (zh) * | 2008-10-10 | 2011-09-07 | 艾利森电话股份有限公司 | 能量保留多通道音频编码 |
CN101521013A (zh) * | 2009-04-08 | 2009-09-02 | 武汉大学 | 空间音频参数双向帧间预测编解码装置 |
CN103165134A (zh) * | 2013-04-02 | 2013-06-19 | 武汉大学 | 音频信号高频参数编解码装置 |
CN103400582A (zh) * | 2013-08-13 | 2013-11-20 | 武汉大学 | 面向多声道三维音频的编解码方法与*** |
CN103928030A (zh) * | 2014-04-30 | 2014-07-16 | 武汉大学 | 基于子带空间关注测度的可分级音频编码***及方法 |
CN104064194A (zh) * | 2014-06-30 | 2014-09-24 | 武汉大学 | 用于提高三维音频空间感距离感的参数编解码方法及*** |
Non-Patent Citations (1)
Title |
---|
胡瑞敏等: "AVS-P10移动音频编解码标准与关键技术", 《电视技术》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108206022B (zh) * | 2016-12-16 | 2020-12-18 | 南京青衿信息科技有限公司 | 利用aes/ebu信道传输三维声信号的编解码器及其编解码方法 |
US11783843B2 (en) | 2017-11-17 | 2023-10-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding or decoding directional audio coding parameters using different time/frequency resolutions |
RU2763155C2 (ru) * | 2017-11-17 | 2021-12-27 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Устройство и способ кодирования или декодирования параметров направленного кодирования аудио с использованием квантования и энтропийного кодирования |
RU2763313C2 (ru) * | 2017-11-17 | 2021-12-28 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Устройство и способ кодирования или декодирования параметров направленного кодирования аудио с использованием различных частотно-временных разрешений |
US11367454B2 (en) | 2017-11-17 | 2022-06-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding or decoding directional audio coding parameters using quantization and entropy coding |
CN112970062A (zh) * | 2018-08-31 | 2021-06-15 | 诺基亚技术有限公司 | 空间参数信令 |
WO2020043935A1 (en) | 2018-08-31 | 2020-03-05 | Nokia Technologies Oy | Spatial parameter signalling |
WO2020089523A1 (en) * | 2018-11-01 | 2020-05-07 | Nokia Technologies Oy | Apparatus, methods and computer programs for encoding spatial metadata |
JP2022506581A (ja) * | 2018-11-01 | 2022-01-17 | ノキア テクノロジーズ オーユー | 空間メタデータを符号化するための装置、方法およびコンピュータプログラム |
JP7208385B2 (ja) | 2018-11-01 | 2023-01-18 | ノキア テクノロジーズ オーユー | 空間メタデータを符号化するための装置、方法およびコンピュータプログラム |
US12027174B2 (en) | 2018-11-01 | 2024-07-02 | Nokia Technologies Oy | Apparatus, methods, and computer programs for encoding spatial metadata |
US12020713B2 (en) | 2019-08-16 | 2024-06-25 | Nokia Technologies Oy | Quantization of spatial audio direction parameters |
WO2021032909A1 (en) * | 2019-08-16 | 2021-02-25 | Nokia Technologies Oy | Quantization of spatial audio direction parameters |
WO2022129672A1 (en) * | 2020-12-15 | 2022-06-23 | Nokia Technologies Oy | Quantizing spatial audio parameters |
CN115662448B (zh) * | 2022-10-17 | 2023-10-20 | 深圳市超时代软件有限公司 | 音频数据编码格式转换的方法及装置 |
CN115662448A (zh) * | 2022-10-17 | 2023-01-31 | 深圳市超时代软件有限公司 | 音频数据编码格式转换的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106023999B (zh) | 2019-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106023999B (zh) | 用于提高三维音频空间参数压缩率的编解码方法及*** | |
ES2899286T3 (es) | Configuración de envolvente temporal para codificación espacial de audio usando filtrado de Wiener de dominio de frecuencia | |
CN104064194B (zh) | 用于提高三维音频空间感距离感的参数编解码方法及*** | |
CN111226442B (zh) | 配置用于视频压缩的变换的方法及计算机可读存储介质 | |
CN102270452B (zh) | 近透明或透明的多声道编码器/解码器方案 | |
AU2014295360B2 (en) | Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals | |
CN106415714A (zh) | 译码环境高阶立体混响系数的独立帧 | |
CN106463121A (zh) | 较高阶立体混响信号压缩 | |
HRP20140400T1 (hr) | Dekodiranje višekanalnog audio kodiranog toka bitova pomoä†u adaptivne hibridne transformacije | |
CN103108187B (zh) | 一种三维视频的编码方法、解码方法、编码器和解码器 | |
JP2013513330A5 (zh) | ||
CN109996073B (zh) | 一种图像压缩方法、***、可读存储介质及计算机设备 | |
TW200935403A (en) | Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs | |
CN101371447A (zh) | 使用扩展带频率编码的复变换信道编码 | |
US11776552B2 (en) | Methods and apparatus for decoding encoded audio signal(s) | |
TWI702594B (zh) | 用於音訊信號之高頻重建技術之回溯相容整合 | |
CN109887517A (zh) | 对音频场景进行解码的方法、解码器及计算机可读介质 | |
CN107610710B (zh) | 一种面向多音频对象的音频编码及解码方法 | |
TW201503113A (zh) | 編碼裝置及方法、解碼裝置及方法、以及程式 | |
JP2020074052A (ja) | オーディオ信号の高周波再構成のための高調波転換器の後方互換な統合 | |
CN110739000A (zh) | 一种适应于个性化交互***的音频对象编码方法 | |
CN103065634A (zh) | 基于感知特性的三维音频空间参数的量化方法 | |
WO2015096789A1 (zh) | 一种用于音频信号的矢量量化编解码方法及装置 | |
JP6094322B2 (ja) | 直交変換装置、直交変換方法及び直交変換用コンピュータプログラムならびにオーディオ復号装置 | |
CN104347077B (zh) | 一种立体声编解码方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |