CN103650036A - 对多声道数字音频编码的方法 - Google Patents

对多声道数字音频编码的方法 Download PDF

Info

Publication number
CN103650036A
CN103650036A CN201280000959.4A CN201280000959A CN103650036A CN 103650036 A CN103650036 A CN 103650036A CN 201280000959 A CN201280000959 A CN 201280000959A CN 103650036 A CN103650036 A CN 103650036A
Authority
CN
China
Prior art keywords
frequency band
whole frequency
layer
data frame
primary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280000959.4A
Other languages
English (en)
Other versions
CN103650036B (zh
Inventor
闫建新
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Guangsheng Research And Development Institute Co ltd
Original Assignee
Shenzhen Rising Source Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Rising Source Technology Co ltd filed Critical Shenzhen Rising Source Technology Co ltd
Publication of CN103650036A publication Critical patent/CN103650036A/zh
Application granted granted Critical
Publication of CN103650036B publication Critical patent/CN103650036B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提出一种对多声道数字音频编码的方法,包括:对多声道音频分为一基本层及至少一增强层;对一基本层及至少一增强层分别配置字节数;对一基本层及至少一增强层分别编码。本发明在一定程度上既避免了精细分层引起的编码效率下降,同时又满足一些领域的应用,如数字音频广播等。本发明实现简单,通过灵活控制每层声道的质量,获取最佳综合声音质量,易于满足信道编码要求,并且不需要精细分层时的各种限制条件,保证更高效率的压缩。

Description

对多声道数字音频编码的方法 技术领域
本发明涉及音频编码处理领域,特别是涉及一种对多声道数字音频编码的方法。
背景技术
在对多声道数字音频分层音频编码领域,已经存在通过精细分层方式进行有损数字音频编码方法及无损音频编码技术,如ISO/IEC 14496-3 MPEG-4 BSAC(Bit sliced arithmetic coding)比特片算术编码、在AVS(Audio Video coding Standard Workgroup of China)中采用的类似于MPEG-4 BSAC编码方法以及MPEG-4 SLS(Scalable Lossless Coding)的无损增强层方式都可实现对音频进行精细分层,对每一层分别编码。但精细分层方式存在分层过细,需要许多辅助信息,编码效率低、结构复杂、处理逻辑复杂度高等缺点。
现有技术中还有一种非精细分层的编码方案:在MPEG-4第三部分和MPEG-2第七部分中都提供了可伸缩采样率编码算法 AAC-SSR(Advanced Audio Coding-Scalable Sampling Rate),首先是由Sony提出的,编码架构也类似于其独有的ARTAC(Adaptive Transform Acoustic Coding)编码。该编码方案首先将输入的数字音频信号通过4带的多相正交滤波器组(PQF,Polyphase Quadrature Filter)分割成4个频带,然后这4个频带分别进行1个256点MDCT(512样点窗长)或8个32点(64样点窗长)MDCT。该编码方案还可通过去除高PQF带的方式降低数据率,通过减少频带的方式实现比特流分层,从而获得不同比特率和采样率。这种编码方案的好处是在每个频带内可以独立选择长块或短块MDCT,因此对高频可使用短块编码增强时间分辨率;而对低频使用长块编码获得高频率分辨率。但是由于4个PQF带间存在混迭,因此相邻部分的变换域系数编码效率会下降。
发明内容
为解决上述技术问题,本发明提出一种对多声道数字音频编码的方法,包括:对多声道音频分为一基本层及至少一增强层;对一基本层及至少一增强层分别配置字节数;对一基本层及至少一增强层分别编码。
优选地,将多声道音频信号分为一基本层和一增强层;其中基本层包含至少一全频带声道,增强层包含至少一全频带声道;基本层包含的全频带声道不大于增强层包含的全频带声道数。
优选地,对于基本层包含的全频带声道小于增强层包含的全频带声道数 情况,还包括:对基本层配置字节数为数据帧总字节数/2,基本层每声道的字节数为数据帧总字节数/2*基本层包含的全频带声道数;对增强层配置字节数为数据帧总字节数/2;增强层每声道的字节数为数据帧总字节数/2*增强层包含的全频带声道数。
优选地,对于基本层包含的全频带声道等于增强层包含的全频带声道数情况,还包括:对基本层配置的字节数大于数据帧总字节数/2;对增强层配置的字节数小于数据帧总字节数/2。
优选地,还包括:对每一全频带声道配置同样多的字节数,均为数据帧总字节数/(基本层包含的全频带声道数+增强层包含的全频带声道数)。
优选地,还包括:对基本层中每个全频带声道配置的字节数为数据帧总字节数/基本层包含的全频带声道数,且(数据帧总字节数/2)>(数据帧总字节数/基本层包含的全频带声道数)>(数据帧总字节数/(基本层包含的全频带声道数+增强层包含的全频带声道数));对于增强层的某声道配置的字节数大于数据帧总字节数*(1-1/基本层包含的全频带声道数)/增强层包含的全频带声道数,而对其余至少一声道配置的字节数小于数据帧总字节数*(1-1/基本层包含的全频带声道数)/增强层包含的全频带声道数。
优选地,根据每一传输帧中LDPC编码的块大小、信道编码条件、所述基本层的特性和/或所述增强层的特性,对所述基本层和增强层分别配置字节数。
优选地,将多声道音频信号分为一基本层和多个增强层;其中基本层包含至少一全频带声道,多个增强层分别包含至少一全频带声道;基本层包含的全频带声道少于所有增强层包含的全频带声道数之和。
优选地,对基本层配置的字节数为数据帧总字节数/2,基本层每声道的字节数为数据帧总字节数/2*基本层包含的全频带声道数;至少一增强层配置的字节数之和为数据帧总字节数/2,其中第一增强层的每个全频带声道的字节数大于数据帧总字节数/2(增强层包含的全频带声道数+基本层包含的全频带声道数), 其余至少一增强层的每个全频带声道的字节数小于数据帧总字节数/2(增强层包含的全频带声道数+基本层包含的全频带声道数)。
优选地,对每一全频带声道配置同样多的字节数,均为数据帧总字节数/(基本层包含的全频带声道数+所有增强层包含的全频带声道数之和)。
优选地,对基本层中每个全频带声道配置字节数为数据帧总字节数/基本层包含的全频带声道数,且(数据帧总字节数/2)>(数据帧总字节数/基本层包含的全频带声道数)>(数据帧总字节数/(基本层包含的全频带声道数+所有增强层包含的全频带声道数之和));对于第一增强层的某声道配置的字节数大于数据帧总字节数*(1-1/基本层包含的全频带声道数)/所有增强层包含的全频带声道数之和,而对其余至少一声道配置的字节数小于数据帧总字节数*(1-1/基本层包含的全频带声道数)/所有增强层包含的全频带声道数之和。
优选地,根据每一传输帧中LDPC编码的块大小、信道编码条件、基本层的特性和/或增强层的特性,对基本层和至少一增强层分别配置字节数。
优选地,还包括:对一基本层及至少一增强层分别采用DRA编码算法编码。
优选地,还包括:对基本层和\或至少一增强层分别进行带宽扩展。
本发明还提出一种对多声道数字音频编码的方法,包括:将多声道音频信号分为一基本层和一增强层,其中基本层包含至少一全频带声道,增强层包含至少一全频带声道;基本层包含的全频带声道数不大于增强层包含的全频带声道数;对基本层及增强层分别配置字节数;其中,对基本层中每个全频带声道配置的字节数为数据帧总字节数/基本层包含的全频带声道数,且(数据帧总字节数/2)>(数据帧总字节数/基本层包含的全频带声道数)>(数据帧总字节数/(基本层包含的全频带声道数+增强层包含的全频带声道数));对增强层的某声道配置的字节数大于数据帧总字节数*(1-1/基本层包含的全频带声道数)/增强层包含的全频带声道数,而对其余至少一声道配置的字节数小于数据帧总字节数*(1-1/基本层包含的全频带声道数)/增强层包含的全频带声道数;对所述基本层及增强层分别采用DRA编码算法编码。
本发明还提出一种对多声道数字音频编码的方法,包括:将多声道音频信号分为一基本层和多个增强层;其中基本层包含至少一全频带声道,多个增强层分别包含至少一全频带声道;基本层包含的全频带声道数不大于所有增强层包含的全频带声道数之和;对一基本层及至少一增强层分别配置字节数;其中对基本层中每个全频带声道配置字节数为数据帧总字节数/基本层包含的全频带声道数,且(数据帧总字节数/2)>(数据帧总字节数/基本层包含的全频带声道数)>(数据帧总字节数/(基本层包含的全频带声道数+所有增强层包含的全频带声道数之和));对于第一增强层的某声道配置的字节数大于数据帧总字节数*(1-1/基本层包含的全频带声道数)/所有增强层包含的全频带声道数之和,而对其余至少一声道配置的字节数小于数据帧总字节数*(1-1/基本层包含的全频带声道数)/所有增强层包含的全频带声道数之和;对一基本层及至少一增强层分别采用DRA编码算法编码。
本发明在一定程度上既避免了精细分层引起的编码效率下降,同时又满足一些领域的应用,如数字音频广播等。本发明实现简单,通过灵活控制每层声道的质量,获取最佳综合声音质量,易于满足信道编码要求,并且不需要精细分层时的各种限制条件,保证更高效率的压缩。
附图说明
图1为本发明一实施例的流程示意图;
图2为本发明一实施例的多声道数字音频二层结构示意图;
图3为本发明一实施例多声道数字音频多层结构示意图;
图4为本发明一实施例立体声左右声道二分层结构示意图;
图5为本发明一实施例立体声和差声道二分层结构示意图;
图6为本发明一实施例环绕声二分层结构示意图;
图7为本发明一实施例示出的环绕声二分层结构示意图;
图8为本发明一实施例环绕声三分层结构示意图;
图9为本发明一实施例环绕声三分层结构示意图;
图10为本发明一实施例DRA & DRA+ 环绕声分层结构示意图。
具体实施方式
为详细说明本发明的技术内容、构造特征、所达成的目的及效果,下面将结合实施例并配合附图予以详细说明。
请参阅图1示出的流程示意图,本发明第一实施例对多声道数字音频编码方法包括:
步骤S1、对多声道音频分为一基本层及至少一增强层;
步骤S2、对一基本层及至少一增强层分别配置字节数;
步骤S3、对一基本层及至少一增强层分别编码。
结合图2示出的多声道数字音频二层结构示意图,本发明第二实施例提出对将多声道音频信号分为一基本层和一增强层的二层结构,其中基本层包含至少一全频带声道,增强层包含至少一全频带声道;基本层包含的全频带声道不大于增强层包含的全频带声道数。
设基本层包含k个全频带声道,增强层设置为包含m个全频带声道。配置基本层包含的全频带声道不大于增强层包含的全频带声道数,即k<=m,配置基本层编码相对少的声道,从而保证其质量更高。
关于各分层间有效载荷即字节数的配置方案,在总载荷(即字节数)一定的前提下本发明提出多种实施例。
第三实施例为基本层强调配置方案。由于基本层较为重要,而增强层对整体声音质量的贡献相对次之,因此有必要将净载荷分成大致对等的两部分。特别是由于信道等原因需要丢弃或无法正确得到增强层而重视基本层质量的应用场景。
对于基本层包含的全频带声道小于增强层包含的全频带声道数情况,本实施例对基本层配置的字节数为数据帧总字节数/2,基本层每声道的字节数为数据帧总字节数/2*基本层包含的全频带声道数;对增强层配置的字节数为数据帧总字节数/2;增强层每声道的字节数为数据帧总字节数/2*增强层包含的全频带声道数。
设一个数据帧总字节数为D,当k<m时,则分给基本层和增强层的字节数都为D/2,基本层每个声道的有效字节数为D/2*k,增强层每个声道的字节数为D/2*m。
而对于基本层包含的全频带声道等于增强层包含的全频带声道数情况,本实施例对基本层配置的字节数大于数据帧总字节数/2;对增强层配置的字节数小于数据帧总字节数/2。
即当k=m时可配置给基本层大于D/2的字节数,比如3*D/5,增强层则配置2*D/5,还可采用其他比例。
这样基本层的每个声道相对增强层的每个声道可用更多字节表示,从而获得保证基本层每个声道的声音质量更好。
第四实施例为k:m配置方案,或称均匀配置方案。上述第一实施例突出了基本层的重要性;而从多声道整体方面考虑,对每个全频带声道给予平等的重视就更加合理,这样在由于某种信道等因素造成只能正确解码基本层时,所获得的声音质量较第一实施例的配置方案略差,但当基本层和增强层都能够解码时,总体多声道质量会比第一实施例更优。
本实施例对每一全频带声道配置同样多的字节数,均为数据帧总字节数/(基本层包含的全频带声道数+增强层包含的全频带声道数)设一个音频帧的总字节数为D,每个全频带声道的字节数为D/(k+m),对每个全频带声道用同样字节数表示即编码,使得每个全频带声道具有同样的声音质量。
第五实施例为近k:m配置方案,非基本层强调配置,亦非均匀配置。上述第一实施例突出了基本层的重要性,但是当一般情况下k<m时,基本层强调配置可能过度强调基本层的质量。第二实施例则又将基本层全频带声道作为一个普通全频带声道一样看待;因此应根据多声道具体情况给予最合理配置即接近k:m配置。本实施例认为基本层中的每个全频带声道要比增强层全频带声道重要,应给予多于均匀配置且少于第一种配置的字节数;而对于增强层中的m个全频带声道,也需要分别考虑,特别对于典型多声道环绕声5.1情况,电影音频***中的中央声道一般设定为配音,应比两个环绕声道给予更高的重视。这种配置能够提供比前两种配置更好的多声道质量。
本方案对基本层中每个全频带声道配置的字节数为数据帧总字节数/基本层包含的全频带声道数,且(数据帧总字节数/2)>(数据帧总字节数/基本层包含的全频带声道数)>(数据帧总字节数/(基本层包含的全频带声道数+增强层包含的全频带声道数));对于增强层的某声道配置的字节数大于数据帧总字节数*(1-1/基本层包含的全频带声道数)/增强层包含的全频带声道数,而对其余至少一声道配置的字节数小于数据帧总字节数*(1-1/基本层包含的全频带声道数)/增强层包含的全频带声道数。
即设一个音频帧的总字节数为D,对基本层中每个全频带声道配置的字节数为D/k,且D/2>D/k>D/(k+m);对于增强层也根据增强层中各个全频带声道的特性给予适当的配置。例如5.1环绕声时,中央声道应配置多于D(1-1/k)/m字节,而左右环绕声对中的每个声道配置少于D(1-1/k)/m字节。
第六实施例为受限配置方案,依赖于信道编码条件的要求。由于信道编码如LDPC(Low Density Parity Check)编码是分组编码,并且两个分层要采用不同保护等级,因此分层编码的每一层需要根据每个传输帧中LDPC编码的块大小、并综合考虑多声道基本层和增强层的特性,给出最合理地安排和配置。对于受限配置情况,一般基本层和增强层的字节数分配与第三实施例类似,但考虑传输帧中每层LDPC编码块总容量。
本方案根据每一传输帧中LDPC编码的块大小、信道编码条件、基本层的特性和/或增强层的特性,对基本层和增强层分别配置字节数。
结合图3示出的多声道数字音频多层结构示意图,本发明还提出多分层方案。将多声道音频信号分为一基本层和多个增强层;其中基本层包含至少一全频带声道,多个增强层分别包含至少一全频带声道;基本层包含的全频带声道少于所有增强层包含的全频带声道数之和。
本发明基于多分层方案提出,第七实施例为基本层强调配置方案,基本层占据一半或以上的有效载荷。该方案的理由和特点与第三实施例相似,故不赘述。本方案对基本层配置的字节数为数据帧总字节数/2,基本层每声道的字节数为数据帧总字节数/2*基本层包含的全频带声道数;至少一增强层配置的字节数之和为数据帧总字节数/2,其中第一增强层的每个全频带声道的字节数大于数据帧总字节数/2(所有增强层包含的全频带声道数之和+基本层包含的全频带声道数), 其余至少一增强层的每个全频带声道的字节数小于数据帧总字节数/2(所有增强层包含的全频带声道数之和+基本层包含的全频带声道数)。
以一基本层二增强层的三层结构为例,设一个音频帧总字节数为D,基本层包含k个全频带声道,第一增强层设置为包含m个全频带声道,第二增强层设置为包含n个全频带声道。则配置给基本层的字节数都为D/2,基本层每个声道的有效字节数为D/2k。两个增强层字节数之和也为D/2,但是第一增强层的每个全频带声道的字节数大于D/2(m+n),第二增强层的每个全频带声道的字节数小于于D/2(m+n),这样每个基本层声道相对两个增强层声道可用更多字节表示,从而获得保证基本层每个声道的声音质量更好;同时第一增强层也会比第二增强层得到更高质量的编码。如果增强层为三个或以上,那么第一增强层的每个全频带声道的字节数大于D/2(m+n), 第二增强层、第三增强层至第N增强层的每个全频带声道的字节数之和小于D/2(m+n)。
第八实施例为k:m:n配置,或称均匀配置方案,配置的理由和特点与第四实施例相似,故不赘述。
本方案对每一全频带声道配置同样多的字节数,均为数据帧总字节数/(基本层包含的全频带声道数+所有增强层包含的全频带声道数之和)。设一个音频帧的总字节数为D,基本层包含k个全频带声道,第一增强层设置为包含m个全频带声道,第二增强层设置为包含n个全频带声道。此时每个全频带声道的字节数为D/(k+m+n),这时每个全频带声道用同样字节数表示(编码),因此每个全频带声道具有同样的声音质量。
第九实施例为近k:m:n配置,介于第七实施例和第八实施例提供的两种配置方案的中间状态,配置的理由和特点与第五实施例相似,故不赘述。
本方案对基本层中每个全频带声道配置字节数为数据帧总字节数/基本层包含的全频带声道数,且(数据帧总字节数/2)>(数据帧总字节数/基本层包含的全频带声道数)>(数据帧总字节数/(基本层包含的全频带声道数+所有增强层包含的全频带声道数之和));对于第一增强层的某声道配置的字节数大于数据帧总字节数*(1-1/基本层包含的全频带声道数)/所有增强层包含的全频带声道数之和,而对其余至少一声道配置的字节数小于数据帧总字节数*(1-1/基本层包含的全频带声道数)/所有增强层包含的全频带声道数之和。
以一基本层二增强层的三层结构为例,设一个音频帧的总字节数为D,此时基本层中每个全频带声道的字节数为D/k,且D/2>D/k>D/(k+m+n);对于第一增强层中的全频带声道比第二增强层中的全频带给予更多的分配,例如5.1环绕声时,第一增强层传输中央声道和超重低音声道,第二增强层传输左环绕和右环绕声道,此时m=1,n=2。对全频带的中央声道应配置多于D(1-1/k)/3字节,而左右环绕声对中的每个声道配置少于D(1-1/k)/3字节;而第二增强层的左右环绕声道给予同样的分配(或者作为一个声道对同一编码)。
第十实施例为受限配置,依赖于信道编码条件所要求,配置的理由和特点与第六实施例相似,故不赘述。本方案根据每一传输帧中LDPC编码的块大小、信道编码条件、基本层的特性和/或增强层的特性,对基本层和至少一增强层分别配置字节数。
本发明提出,上述各实施例对一基本层及至少一增强层分别采用DRA编码算法编码。还可采用带宽扩展增强编码工具对基本层和\或至少一增强层分别进行带宽扩展。
以下是本发明结合不同类型音频信号提出的分层及编码方案应用实例。
参照图 4示出的立体声左右声道二分层结构示意图,立体声音频信号仅存在两个独立全频带声道,因此基本层传输左声道,增强层传输右声道。对此种情况一般两层的配置应该采用均匀配置方式,即左右声道配置同样的声音质量,即配置同样的字节数。基本层和增强层分别可采用带宽扩展增强编码工具进行带宽扩展,图中以虚线框示例。
参照图5示出的立体声和差声道二分层结构示意图,本实例中仅有二全频带声道,因此仅存在二分层方案。对于立体声信号,在编码时为了提高编码效率通常都要进行和差编码。由于在立体声信号的两个声道间存在一定的相关性,因此差信号在概率上具有比右声道更小的动态范围,因此编码需要更少的数据表示。此外对于一些应用,如卡拉OK的立体声信号,一个声道是伴音,一个声道歌词(语音),和声道由于将两个声道混合在一起,能够表示出两个声道的信息。根据以上两种分析,应当将和声道(及可能的带宽扩展)作为基本层,差声道(及可能的带宽扩展)作为增强层,并且应当采用采用基本层强调配置模式。此应用实例在仅仅能够正确解码基本层时,将比左右声道分层更好。
以下给出集中对5.1环绕声情况的实施例。参照图6示出的环绕声二分层结构示意图,本实施例为5.1环绕声,其中5个全频带声道,1个超重低音声道。在基本层传输立体声左声道(图示为L)和右声道(图示为R);在增强层传输其他声道,在增强声道中声道的排列顺序为中央声道(图示为C)、超重低音声道(图示为LFE)、左环绕和右环绕声道(图示分别LS和RS)。当然每个全频带声道可选用带宽扩展增强工具(图中用虚线表示),提高编码效率;此外对每个声道对(图示分别为L&R和LS&RS)还可进一步选择采用参数立体声编码工具降低信息冗余度,此时相应的声道对应缩混为单声道(图示分别为M0和M1)进行基本编码。可采用二分层的基本层强调配置和近k:m配置两种方式。
参照图7示出的环绕声二分层结构示意图,音频分层结构与上一实施例类似,只是增强层可以将声道排列顺序调整为首选编码左环绕和右环绕声道,然后是中央声道和超重低音声道。
参照图8示出的环绕声三分层结构示意图,在本实例中,5.1声道被分成三层来编码,其中基本层编码左右声道(L和R),可选择使用带宽扩展增强工具和参数立体声编码工具,提高编码效率;第一增强层编码中央声道(C),并可选使用带宽扩展增强工具,然后是超重低音声道(LFE)编码;第二增强层传输左环绕和右环绕声道(LS和RS),可选带宽扩展和参数立体声增强工具。如果选择参数立体声增强工具则立体声对的基本编码应修改成对立体声对缩混后的单声道编码,如L&R缩混为M0,LS&RS缩混为M1。本应用实例宜采用数据结构为近k:m:n配置方式。
参照图9示出的环绕声三分层结构示意图,音频分层结构与上一实施例类似,但第一增强层和第二增强层互换。
参照图10示出的DRA & DRA+ 环绕声分层结构示意图,采用环绕声二分层的结构,形成基本层和增强层。在基本层中采用DRA(Digital Rise Audio)对左声道和右声道组成的立体声对进行立体声编码,并且可选带宽扩展SBR(Spectral Band Replication)技术和参数立体声编码PS(Parametric Stereo)技术。当然如果选择参数立体声编码技术,则DRA编码部分将修改为仅对缩混的单声道进行编码,而如果选择使用SBR技术,则DRA编码部分进一步修改为仅对缩混后的单声道的低频带部分编码;在增强层中,首先对中央声道C进行DRA编码,可选采用SBR带宽扩展技术,然后对超重低音声道LFE采用DRA编码,最后对左右环绕声道(LS和RS)进行立体声对DRA编码,可选带宽扩展SBR和参数立体声编码PS,提高对环绕声对的编码效率。本实例宜采用的数据结构为近k:m:n设置,或者当应用于数字音频广播时采用受限设置。
本发明提出,上述各实施例对一基本层及至少一增强层分别采用DRA编码算法编码。
本发明可以对音频信号进行四层甚至更多分层,但一般采用二至三层分层结构,易于实现。基于声道进行分层,通过灵活控制每层声道的质量,获取最佳综合声音质量。易于满足信道编码要求:由于LDPC信道编码要求每个编码块有固定大小,通过基于声道的粗分层,可以合理安排满足信道要求。不需要精细分层时的各种限制条件,如MPEG AAC-BSAC音频编码中要求MDCT系数每32个一组进行算术编码及相关辅助数据等,影响整体编码效率,因此粗分层可保证更高效率的压缩。
本发明的对多声道数字音频编码的方法由上述揭露的方法,可以达到所述目的和效果,然而以上所揭露仅为本发明的较佳实施例,自不能以此限定本发明的权利范围,至于本发明的其它等效修饰或变化,均应涵盖在本发明的权利要求范围内。

Claims (15)

1、一种对多声道数字音频编码的方法,其特征在于,包括:
将多声道音频分为一基本层及至少一增强层;
对所述一基本层及至少一增强层分别配置字节数;
对所述一基本层及至少一增强层分别编码。
2、根据权利要求1所述的对多声道数字音频编码的方法,其特征在于:
将多声道音频信号分为一基本层和一增强层;
其中基本层包含至少一全频带声道,增强层包含至少一全频带声道;
所述基本层包含的全频带声道不大于所述增强层包含的全频带声道数。
3、根据权利要求2所述的对多声道数字音频编码的方法,其特征在于,对于基本层包含的全频带声道小于增强层包含的全频带声道数情况,还包括:
对所述基本层配置字节数为数据帧总字节数/2,基本层每声道的字节数为数据帧总字节数/2*基本层包含的全频带声道数;
对所述增强层配置字节数为数据帧总字节数/2;增强层每声道的字节数为数据帧总字节数/2*增强层包含的全频带声道数。
4、根据权利要求2所述的对多声道数字音频编码的方法,其特征在于,对于基本层包含的全频带声道等于增强层包含的全频带声道数情况,还包括:
对所述基本层配置的字节数大于数据帧总字节数/2;
对所述增强层配置的字节数小于数据帧总字节数/2。
5、根据权利要求2所述的对多声道数字音频编码的方法,其特征在于,还包括:
对每一全频带声道配置同样多的字节数,均为数据帧总字节数/(基本层包含的全频带声道数+增强层包含的全频带声道数)。
6、根据权利要求2所述的对多声道数字音频编码的方法,其特征在于,还包括:
对所述基本层中每个全频带声道配置的字节数为数据帧总字节数/基本层包含的全频带声道数,且(数据帧总字节数/2)>(数据帧总字节数/基本层包含的全频带声道数)>(数据帧总字节数/(基本层包含的全频带声道数+增强层包含的全频带声道数));
对于增强层的某声道配置的字节数大于数据帧总字节数*(1-1/基本层包含的全频带声道数)/增强层包含的全频带声道数,而对其余至少一声道配置的字节数小于数据帧总字节数*(1-1/基本层包含的全频带声道数)/增强层包含的全频带声道数。
7、根据权利要求2所述的对多声道数字音频编码的方法,其特征在于:
根据每一传输帧中LDPC编码的块大小、信道编码条件、所述基本层的特性和/或所述增强层的特性,对所述基本层和增强层分别配置字节数。
8、根据权利要求1所述的对多声道数字音频编码的方法,其特征在于,将多声道音频信号分为一基本层和多个增强层;
其中基本层包含至少一全频带声道,多个增强层分别包含至少一全频带声道;
所述基本层包含的全频带声道少于所有增强层包含的全频带声道数之和。
9、根据权利要求8所述的对多声道数字音频编码的方法,其特征在于:
对所述基本层配置的字节数为数据帧总字节数/2,基本层每声道的字节数为数据帧总字节数/2*基本层包含的全频带声道数;
所述至少一增强层配置的字节数之和为数据帧总字节数/2,其中第一增强层的每个全频带声道的字节数大于数据帧总字节数/2(增强层包含的全频带声道数+基本层包含的全频带声道数), 其余至少一增强层的每个全频带声道的字节数小于数据帧总字节数/2(增强层包含的全频带声道数+基本层包含的全频带声道数)。
10、根据权利要求8所述的对多声道数字音频编码的方法,其特征在于:
对每一全频带声道配置同样多的字节数,均为数据帧总字节数/(基本层包含的全频带声道数+所有增强层包含的全频带声道数之和)。
11、根据权利要求8所述的对多声道数字音频编码的方法,其特征在于:
对所述基本层中每个全频带声道配置字节数为数据帧总字节数/基本层包含的全频带声道数,且(数据帧总字节数/2)>(数据帧总字节数/基本层包含的全频带声道数)>(数据帧总字节数/(基本层包含的全频带声道数+所有增强层包含的全频带声道数之和));
对于第一增强层的某声道配置的字节数大于数据帧总字节数*(1-1/基本层包含的全频带声道数)/所有增强层包含的全频带声道数之和,而对其余至少一声道配置的字节数小于数据帧总字节数*(1-1/基本层包含的全频带声道数)/所有增强层包含的全频带声道数之和。
12、根据权利要求8所述的对多声道数字音频编码的方法,其特征在于:根据每一传输帧中LDPC编码的块大小、信道编码条件、所述基本层的特性和/或所述增强层的特性,对所述基本层和至少一增强层分别配置字节数。
13、根据权利要求1至12任意一项所述的对多声道数字音频编码的方法,其特征在于,还包括:对所述一基本层及至少一增强层分别采用DRA编码算法编码。
14、一种对多声道数字音频编码的方法,其特征在于,包括:
将多声道音频信号分为一基本层和一增强层;其中基本层包含至少一全频带声道,增强层包含至少一全频带声道;所述基本层包含的全频带声道数不大于所述增强层包含的全频带声道数;
对所述基本层及增强层分别配置字节数;其中对所述基本层中每个全频带声道配置的字节数为数据帧总字节数/基本层包含的全频带声道数,且(数据帧总字节数/2)>(数据帧总字节数/基本层包含的全频带声道数)>(数据帧总字节数/(基本层包含的全频带声道数+增强层包含的全频带声道数));对增强层的某声道配置的字节数大于数据帧总字节数*(1-1/基本层包含的全频带声道数)/增强层包含的全频带声道数,而对其余至少一声道配置的字节数小于数据帧总字节数*(1-1/基本层包含的全频带声道数)/增强层包含的全频带声道数;
对所述基本层及增强层分别采用DRA编码算法编码。
15、一种对多声道数字音频编码的方法,其特征在于,包括:
将多声道音频信号分为一基本层和多个增强层;其中基本层包含至少一全频带声道,多个增强层分别包含至少一全频带声道;所述基本层包含的全频带声道数不大于所有增强层包含的全频带声道数之和;
对所述一基本层及至少一增强层分别配置字节数;其中对所述基本层中每个全频带声道配置字节数为数据帧总字节数/基本层包含的全频带声道数,且(数据帧总字节数/2)>(数据帧总字节数/基本层包含的全频带声道数)>(数据帧总字节数/(基本层包含的全频带声道数+所有增强层包含的全频带声道数之和));对于第一增强层的某声道配置的字节数大于数据帧总字节数*(1-1/基本层包含的全频带声道数)/所有增强层包含的全频带声道数之和,而对其余至少一声道配置的字节数小于数据帧总字节数*(1-1/基本层包含的全频带声道数)/所有增强层包含的全频带声道数之和;
对所述一基本层及至少一增强层分别采用DRA编码算法编码。
CN201280000959.4A 2012-07-06 2012-07-06 对多声道数字音频编码的方法 Active CN103650036B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2012/078306 WO2014005327A1 (zh) 2012-07-06 2012-07-06 对多声道数字音频编码的方法

Publications (2)

Publication Number Publication Date
CN103650036A true CN103650036A (zh) 2014-03-19
CN103650036B CN103650036B (zh) 2016-05-11

Family

ID=49881272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280000959.4A Active CN103650036B (zh) 2012-07-06 2012-07-06 对多声道数字音频编码的方法

Country Status (2)

Country Link
CN (1) CN103650036B (zh)
WO (1) WO2014005327A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10573326B2 (en) * 2017-04-05 2020-02-25 Qualcomm Incorporated Inter-channel bandwidth extension

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1756086A (zh) * 2004-07-14 2006-04-05 三星电子株式会社 多通道音频数据编码/解码方法和设备
CN101908938A (zh) * 2010-07-27 2010-12-08 北京海尔集成电路设计有限公司 车载广播设备
WO2011080916A1 (ja) * 2009-12-28 2011-07-07 パナソニック株式会社 音声符号化装置および音声符号化方法
CN102272829A (zh) * 2008-12-29 2011-12-07 摩托罗拉*** 用于在多声道音频编码***内生成增强层的方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100908117B1 (ko) * 2002-12-16 2009-07-16 삼성전자주식회사 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치
KR100818268B1 (ko) * 2005-04-14 2008-04-02 삼성전자주식회사 오디오 데이터 부호화 및 복호화 장치와 방법
CN101206860A (zh) * 2006-12-20 2008-06-25 华为技术有限公司 一种可分层音频编解码方法及装置
KR101336891B1 (ko) * 2008-12-19 2013-12-04 한국전자통신연구원 G.711 코덱의 음질 향상을 위한 부호화 장치 및 복호화 장치
US8386266B2 (en) * 2010-07-01 2013-02-26 Polycom, Inc. Full-band scalable audio codec

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1756086A (zh) * 2004-07-14 2006-04-05 三星电子株式会社 多通道音频数据编码/解码方法和设备
CN102272829A (zh) * 2008-12-29 2011-12-07 摩托罗拉*** 用于在多声道音频编码***内生成增强层的方法和装置
WO2011080916A1 (ja) * 2009-12-28 2011-07-07 パナソニック株式会社 音声符号化装置および音声符号化方法
CN101908938A (zh) * 2010-07-27 2010-12-08 北京海尔集成电路设计有限公司 车载广播设备

Also Published As

Publication number Publication date
WO2014005327A1 (zh) 2014-01-09
CN103650036B (zh) 2016-05-11

Similar Documents

Publication Publication Date Title
CN103400581B (zh) 使用高效下混合的音频解码器和解码方法
CN1756086B (zh) 多通道音频数据编码/解码方法和设备
CN101484936B (zh) 音频解码
US11676612B2 (en) Determination of spatial audio parameter encoding and associated decoding
EP1393303B1 (en) Inter-channel signal redundancy removal in perceptual audio coding
JP4772279B2 (ja) オーディオ信号のマルチチャネル/キュー符号化/復号化
CN1922657B (zh) 用于可变块尺寸信号的解码方案
US8175729B2 (en) Preserving matrix surround information in encoded audio/video system and method
RU2323551C1 (ru) Частотно-ориентированное кодирование каналов в параметрических системах многоканального кодирования
CN1179074A (zh) 利用两个扬声器再现多声道声音的装置及其方法
KR20160099531A (ko) 오디오 신호들의 파라메트릭 재구성
US20230047237A1 (en) Spatial audio parameter encoding and associated decoding
CN103262160A (zh) 用于对多通道音频信号进行缩混的方法和设备
CN103650036A (zh) 对多声道数字音频编码的方法
WO2019001142A1 (zh) 一种声道间相位差参数的编码方法及装置
US20050141722A1 (en) Signal processing
CN104170007A (zh) 对单声道或立体声进行编码的方法
McGrath et al. Immersive audio coding for virtual reality using a metadata-assisted extension of the 3gpp evs codec
CN103165135B (zh) 一种数字音频粗分层编码方法和装置
JP2002162996A (ja) オーディオ信号符号化方法、オーディオ信号符号化装置、音楽配信方法、および、音楽配信システム
EP3648102B1 (en) Method and apparatus for improving the coding of side information required for coding a higher order ambisonics representation of a sound field
CN1065400C (zh) 兼容ac-3和mpeg-2的音频编解码器
WO2024021732A1 (zh) 音频编解码方法、装置、存储介质及计算机程序产品
CN1281328A (zh) 音频信号处理器
EP4174851A1 (en) Audio encoding method, audio decoding method, related apparatus and computer-readable storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220524

Address after: 510530 No. 10, Nanxiang 2nd Road, Science City, Luogang District, Guangzhou, Guangdong

Patentee after: Guangdong Guangsheng research and Development Institute Co.,Ltd.

Address before: 518057 6th floor, software building, No. 9, Gaoxin Zhongyi Road, high tech Zone, Nanshan District, Shenzhen, Guangdong Province

Patentee before: SHENZHEN RISING SOURCE TECHNOLOGY Co.,Ltd.