CN101562015A - 音频处理方法及装置 - Google Patents
音频处理方法及装置 Download PDFInfo
- Publication number
- CN101562015A CN101562015A CNA2008100875949A CN200810087594A CN101562015A CN 101562015 A CN101562015 A CN 101562015A CN A2008100875949 A CNA2008100875949 A CN A2008100875949A CN 200810087594 A CN200810087594 A CN 200810087594A CN 101562015 A CN101562015 A CN 101562015A
- Authority
- CN
- China
- Prior art keywords
- subband
- bit number
- bit
- value
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 33
- 238000013139 quantization Methods 0.000 claims description 44
- 238000000034 method Methods 0.000 claims description 37
- 238000012937 correction Methods 0.000 claims description 11
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 description 20
- 230000000873 masking effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 5
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- OVOUKWFJRHALDD-UHFFFAOYSA-N 2-[2-(2-acetyloxyethoxy)ethoxy]ethyl acetate Chemical compound CC(=O)OCCOCCOCCOC(C)=O OVOUKWFJRHALDD-UHFFFAOYSA-N 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明实施例公开一种音频处理方法及装置。所述音频处理方法包括:根据子带的频域包络值、子带内包含的修正离散余弦变换MDCT系数个数确定分配给每个子带的比特数初始值;将所述分配给每个子带的比特数初始值与量化比特分配表中的数值进行匹配,从所述量化比特分配表中确定分配给每个子带的比特数。相应的,本发明实施例提供一种音频处理装置。本发明实施例提供的技术方案能够降低比特分配的复杂度。
Description
技术领域
本发明涉及音频处理技术领域,具体涉及一种音频处理方法及装置。
背景技术
目前的音频处理技术中主要采用了感知编码方法,这种编码方法利用人耳的掩蔽效应,省略不必要的信息,压缩信息量。这里所说的音频,是一个广义概念,包含语音、音乐等信号。所谓人耳的掩蔽效应,就是如果两个声音在时间或者频率上比较接近,那么较弱的声音就会被较强的声音所遮盖,这时人耳将只能听到较强的那个声音。根据掩蔽效应的性质,在音频编码的量化过程中可以人为构造误差信号,只要保证量化误差带来的等效噪声或者失真不超过掩蔽阈值,人就无法觉察到。
音频处理中的比特分配机制就是在心理声学模型的基础上,根据掩蔽阈值的大小进行比特资源的配置。掩蔽阈值高的部分可以分配较少的比特数,掩蔽阈值低的部分需要分配较多的比特。通过比特分配机制,可以有效地利用比特资源,在不影响人耳听觉效果的基础上尽可能的减小编码码率,实现高效率的编码。
现有技术提出一种比特分配方法,在TDAC(Time Domain AliasCancelling,时域混叠消除)进行编码时,将0~7000Hz频带内的MDCT(Modified Discrete Cosine Transform,修正离散余弦变换)系数分成了18个子带,按照每个子带的频域包络值的大小进行感知重要性排序,频域包络值越大(即能量越大),感知重要性越重要,然后根据感知重要性排序进行比特分配,利用反向填水原则的二分搜索法实现比特分配。具体过程如下:
1)按感知重要性对子带排序,每个子带的感知重要性定义为 其中rms_indx(j)是子带j的频域包络值的量化能量对应的编码索引值,也表示了子带能量的大小。
2)利用反向填水原则的二分搜索法实现比特分配:
a、通过二分搜索法发现“水位”λopt,以使
其中,nbit(j)为第j个子带分配比特数,nb_coef(j)为第j个子带内包含的MDCT系数的个数,nb_bits_max为最大可用于MDCT系数编码的比特数,R是一个量化比特分配表。
具体搜索过程为:λopt的搜索范围为λ0=max(ip(j)),λ1=min(ip(j))-4,搜索次数为10次。首先令 将其作为λopt代入公式1,然后,如果
∑nbit(j)<nb_bits_max,则λ0=λ,再循环进行本步骤;如果
∑nbit(j)>nb_bits_max,则λ1=λ,再循环进行本步骤。
b、找到“水位”λopt后,根据公式1计算每个子带分配的比特数。
3)如果对所有子带按照步骤2)分配比特完成后仍有比特资源剩余,再根据子带的感知重要性从高到低选择子带,为选择的子带再进行比特分配,确定该子带的最终比特数。
在对现有技术的研究和实践过程中,发明人发现现有技术存在以下问题:
现有技术方案通过反向填水原则的二分搜索法进行比特分配时,需要通过多次循环多次搜索达到比特的最优分配,复杂度高。
发明内容
本发明实施例要解决的技术问题是提供一种音频处理方法及装置,能够降低比特分配的复杂度。
为解决上述技术问题,本发明所提供的实施例是通过以下技术方案实现:
本发明实施例提供一种音频处理方法,包括:根据子带的频域包络值、子带内包含的修正离散余弦变换MDCT系数个数确定分配给每个子带的比特数初始值;将所述分配给每个子带的比特数初始值与量化比特分配表中的数值进行匹配,从所述量化比特分配表中确定分配给每个子带的比特数。
本发明实施例提供一种音频处理装置,包括:初始值确定单元,用于根据子带的频域包络值、子带内包含的修正离散余弦变换MDCT系数个数确定分配给每个子带的比特数初始值;分配单元,用于将所述分配给每个子带的比特数初始值与量化比特分配表中的数值进行匹配,从所述量化比特分配表中确定分配给每个子带的比特数。
上述技术方案可以看出,本发明实施例方案根据子带本身的包络特征确定分配给每个子带的比特数初始值后,利用已知的量化比特分配表,将所述分配给每个子带的比特数初始值与已知的量化比特分配表中的数值进行匹配,从而可以大大减小比特分配的复杂度,并且延时小,占用***资源少。
附图说明
图1是本发明实施例一音频处理方法中的比特分配流程图;
图2是本发明实施例二音频处理方法中在编码端的比特分配流程图;
图3是本发明实施例三音频处理方法中在解码端的比特分配流程图;
图4是本发明实施例音频处理装置结构示意图。
具体实施方式
本发明实施例提供了一种音频处理方法,用于在编码或解码过程中降低比特分配的复杂度。
请参阅图1,是本发明实施例一音频处理方法中的比特分配流程图,包括:
101、将音频的子带按照子带的频域包络值进行感知重要性排序;
102、根据子带的频域包络值、子带内包含的MDCT系数个数确定分配给每个子带的比特数初始值;
103、将所述分配给每个子带的比特数初始值与已知的量化比特分配表中的数值进行匹配,从所述量化比特分配表中确定分配给每个子带的比特数。
需要说明的是,实施例一中也可以不进行感知重要性排序。
在编码或解码的过程中,都可以采用上述的比特分配方法,以下内容对编码端和解码端分开说明。在编码端和解码端,都已经含有预先设置好的量化编码比特表。
本发明实施例比特分配方法中在编码端的过程主要包括:
(1)、对每个子带频域包络值进行预处理;
子带的频域包络值和子带的能量值是相对应的。该步骤中,对编码得到的每个子带频域包络值进行预处理,按照频带的递增,对频域包络值做一个微小量的递减,即作一个减量处理,所述减量的绝对值按子带序号的增加而递增。预处理的目的是为了确保当低频子带和高频子带有相同的原始能量时,低频部分比高频部分有更高的重要性。需要说明的是,也可以不进行预处理。
(2)、根据预处理后的频域包络值对子带进行感知重要性排序;
对预处理后的频域包络值按从大到小进行排序,频域包络值越大,感知重要性越重要。
(3)、初步确定分配给每个子带的比特数;
根据每个子带频域包络值、子带内包含的MDCT系数的个数和已知的可用于MDCT系数编码的比特数,初步确定分配给每个子带的比特数,并且根据感知加权因子调整感知重要的子带和感知不重要的子带之间的相对比特分配。
需要说明的是,可以不考虑已知的可用于MDCT系数编码的比特数,也可以不考虑加权因子。
(4)、将初步确定的每个子带的比特数与已知的量化编码比特表格中的数值相匹配,找到最接近初步确定的比特数的数值;
(5)、若进行量化比特匹配之后还有剩余的比特资源,再根据子带的感知重要性,进行再分配,确定每个子带的最终比特数。
按上述过程得到最终的比特分配结果后,对每个子带按照比特分配的结果,进行量化编码;将经过量化编码的频域包络值信息输入码流,将量化编码后的子带MDCT系数信息按重要性从高到低输入码流,进行传输。
本发明实施例方法中在解码端进行比特分配的过程与编码端的处理过程基本相同,主要包括:
(1)、从码流中解码获得子带的频域包络值;
(2)、采用与前面编码端的流程中的(1)~(5)步骤相同的方法进行比特分配;
(3)、根据比特分配的结果,从码流中相应的读取出每个子带的MDCT系数信息。
以下进一步介绍本发明实施例方案。
请参阅图2,是本发明实施例二音频处理方法中在编码端的比特分配流程图。
在编码端,通过编码流程得到的一组M点MDCT系数被划分为N个子带band(i),每个子带内包含的MDCT系数的个数为nb_coef(i), 每个子带的频域包络值为log_rms(i),频域包络值和本子带的能量值相对应,编码端可用于MDCT系数量化的比特数为nb_bits_max。
图2中包括:
201、对编码后得到的每个子带频域包络值进行预处理;
对编码后得到的每个子带的频域包络值进行预处理:
log_rms(i)=log_rms(i)-ε,其中ε是一个和i相关的递增微小量,本实施例中设为ε=i2×0.002,需说明的是,此处ε取值只是举例说明但不局限于此。
预处理的目的是为了确保当低频子带和高频子带有相同的原始能量时,低频部分比高频部分有更高的重要性。本发明实施例中预处理是以对频域包络值做一个微量的递减举例说明,也可以通过其他方式确保当低频子带和高频子带有相同的原始能量时,低频部分比高频部分有更高的重要性。
需要说明的是,也可以不进行预处理。
202、根据预处理后的频域包络值对子带进行感知重要性排序;
根据预处理后的频域包络值,按从大到小的顺序对子带进行排序,每个子带相应的排序结果为ord[i],频域包络值越大,相应的ord[i]越小,感知重要性越重要。
如果没有进行预处理,则直接根据频域包络值,按从大到小的顺序对子带进行排序。
203、初步确定分配给每个子带的比特数;
首先,子带内每个MDCT系数理论上应分配的比特数直接由该子带的频域包络值所决定,每个子带理论上应分配的比特数为:bit_rms(i)=over_rmsg×log_rms(i)×nb_coef(i),其中over_rmsg是感知加权因子,该值越大则比特分配方案越趋于极端,即感知重要性越重要的子带所分配的比特数相对越多,感知重要性越不重要的子带分配的比特数相对越少;该值越小则比特分配方案越趋于平均,当该值等于极端情况0时,感知重要性为重要和不重要的子带所分配的比特数相同,即整个比特分配方案不考虑感知重要性,进行了平均分配。本实施例中以over_remsg=0.75为例说明但不局限于此。需要说明的是,此时也可以不考虑感知加权因子。
其次,考虑实际应用情况,计算每个子带实际可分配的比特数,作为初步确定分配给每个子带的比特数:
该式中考虑了实际可用于MDCT系数量化的比特数和理论上应分配的比特数,因此更为实用。观察该式,可以发现∑bat_opt(i)=nb_bits_max,既充分利用了可分配的比特资源,又考虑到了每个子带不同的感知重要性,而且可以利用感知加权因子over_rmsg对感知重要性为重要和不重要的子带的相对比特分配进行调整,确保在感知重要性重要的子带已经分配了足够的比特资源之后不再占用更多的比特资源,而感知重要性略不重要的子带也能分配到一定的比特资源,从而较好解决现有技术中存在的比特分配不当的问题。需要说明的是,计算实际可分配的比特数时也可以不考虑感知加权因子。另外,也可以直接采用每个子带理论上应分配的比特数作为初步确定的每个子带的比特数。
此时,计算得到的每个子带的比特数是一个实数。
204、将初步确定的每个子带的比特数与量化编码比特分配表匹配,确定每个子带的比特分配数;
在编码端,已经预先设置有固定的量化编码比特表,即已知一个可能的比特分配集合R={q_bit0,q_bit1,Λ},其中q_bit0<q_bit1<Λ。那么,通过前面步骤初步确定每个子带的比特数后,在该集合中搜索与初步确定的比特数最接近的数值,将该数值作为确定的子带的比特分配数。
进行比特分配表匹配之后,每个子带分配的比特数为:bat_bit(i)=q_bitk,其中 则已消耗的比特资源allocatedbits=∑bat_bit(i),且满足allocatedbits≤nb_bits_max。
205、如果还有比特资源剩余,将剩余的比特资源按子带的感知重要性进行再分配,确定子带的最终比特分配数。
如进行了比特分配表匹配之后,还有比特资源剩余,则将剩余的比特资源按子带的感知重要性进行再分配,步骤205的过程如下:
如果allocatedbits<nb_bits_max且0≤i<N,则重复进行以下步骤:
2051、按照感知重要性从重要到不重要的顺序选择子带band(ord[i]);
2052、已知该子带已分配的比特数为bat_bit(ord[i])=q_bitk,则如果增加其分配的比特数,考虑到已知的可能比特分配集合R,该子带分配的比特数应为q_bitk+1,且满足以下条件:如果allocatedbits+q_bitsk+1-q_bitsk≤nb_bits_max,则bat_bit(ord[i])=q_bitk+1,allocatedbits=allocatedbits+q_bitsk+1-q_bitsk,否则bat_bit(ord[i])=q_bitk。
按上述过程得到最终的比特分配结果bat_bit(i)后,对每个子带的一组MDCT系数进行量化编码,将量化编码后的频域包络值信息加入编码码流,将MDCT系数的量化编码信息按照重要性从高到低的顺序加入编码码流。
图2主要描述的是编码端的方法,对于解码端而言,其解码后的比特分配也是相同的原理,过程与编码端的处理过程类似。
请参阅图3,是本发明实施例三音频处理方法中在解码端的比特分配流程图,包括:
301、对解码后得到的每个子带频域包络值进行预处理;
从接收到的码流中读取频域包络值信息,解码得到一组频域包络值log_rms(i),已知可用于MDCT系数量化的比特数为nb_bits_max。
对解码后得到的每个子带的频域包络值进行预处理:log_rms(i)=log_rms(i)-ε,其中ε是一个和i相关的递增微小量,本实施例中设为ε=i2×0.002,需说明的是,此处ε取值只是举例说明但不局限于此。
预处理的目的是为了确保当低频子带和高频子带有相同的原始能量时,低频部分比高频部分有更高的重要性。本发明实施例中预处理是以对频域包络值做一个微量的递减举例说明,也可以通过其他方式确保当低频子带和高频子带有相同的原始能量时,低频部分比高频部分有更高的重要性。
需要说明的是,也可以不进行预处理。
302、根据预处理后的频域包络值对子带进行感知重要性排序;
根据预处理后的频域包络值,按从大到小的顺序对子带进行排序,每个子带相应的排序结果为ord[i],频域包络值越大,相应的ord[i]越小,感知重要性越重要。
如果没有进行预处理,则直接根据频域包络值,按从大到小的顺序对子带进行排序。
303、初步确定分配给每个子带的比特数;
首先,子带内每个MDCT系数理论上应分配的比特数直接由该子带的频域包络值所决定,每个子带理论上应分配的比特数为:bit_rms(i)=over_rmsg×log_rms(i)×nb_coef(i),其中over_rmsg是感知加权因子,该值越大则比特分配方案越趋于极端,即感知重要性越重要的子带所分配的比特数相对越多,感知重要性越不重要的子带分配的比特数相对越少;该值越小则比特分配方案越趋于平均,当该值等于极端情况0时,感知重要性为重要和不重要的子带所分配的比特数相同,即整个比特分配方案不考虑感知重要性,进行了平均分配。本实施例中以over_remsg=0.75为例说明但不局限于此。需要说明的是,此时也可以不考虑感知加权因子。
其次,考虑实际应用情况,计算每个子带实际可分配的比特数,作为初步确定分配给每个子带的比特数:
该式中考虑了实际可用于MDCT系数量化的比特数和理论上应分配的比特数,因此更为实用。观察该式,可以发现∑bat_opt(i)=nb_bits_max,既充分利用了可分配的比特资源,又考虑到了每个子带不同的感知重要性,而且可以利用感知加权因子over_rmsg对感知重要性为重要和不重要的子带的相对比特分配进行调整,确保在感知重要性重要的子带已经分配了足够的比特资源之后不再占用更多的比特资源,而感知重要性略不重要的子带也能分配到一定的比特资源,从而较好解决现有技术中存在的比特分配不当的问题。需要说明的是,计算实际可分配的比特数时也可以不考虑感知加权因子。另外,也可以直接采用每个子带理论上应分配的比特数作为初步确定的每个子带的比特数。
此时,计算得到的每个子带的比特数是一个实数。
304、将初步确定的每个子带的比特数与量化编码比特分配表匹配,确定每个子带的比特分配数;
在解码端,与在编码端一样,已经预先设置有固定的量化编码比特表,即已知一个可能的比特分配集合R={q_bit0,q_bit1,Λ},其中q_bit0<q_bit1<Λ。那么,通过前面步骤初步确定每个子带的比特数后,在该集合中搜索与初步确定的比特数最接近的数值,将该数值作为确定的子带的比特分配数。
进行比特分配表匹配之后,每个子带分配的比特数为:bat_bit(i)=q_bitk,其中 则已消耗的比特资源allocatedbits=∑bat_bit(i),且满足allocatedbits≤nb_bits_max。
305、如果还有比特资源剩余,将剩余的比特资源按子带的感知重要性进行再分配,确定子带的最终比特分配数。
如进行了比特分配表匹配之后,还有比特资源剩余,则将剩余的比特资源按子带的感知重要性进行再分配,步骤305的过程如下:
如果allocatedbits<nb_bits_max且0≤i<N,则重复进行以下步骤:
3051、按照感知重要性从重要到不重要的顺序选择子带band(ord[i]);
3052、已知该子带已分配的比特数为bat_bit(ord[i])=q_bitk,则如果增加其分配的比特数,考虑到已知的可能比特分配集合R,该子带分配的比特数应为q_bitk+1,且满足以下条件:如果allocatedbits+q_bitsk+1-q_bitsk≤nb_bits_max,则bat_bit(ord[i])=q_bitk+1,allocatedbits=allocatedbits+q_bitsk+1-q_bitsk,否则bat_bit(ord[i])=q_bitk。
当得到最终的每个子带分配的比特数后,根据得到的最终的每个子带分配的比特数bat_bit(i)和子带的感知重要性排序ord[i],依次从接收到的码流中读取每个子带的MDCT系数量化编码的结果,对其进行解码得到MDCT系数。
上述内容详细介绍了本发明实施例音频处理方法,相应的,本发明实施例提供一种音频处理装置。
请参阅图4,是本发明实施例音频处理装置结构示意图。
如图4所示,音频处理装置包括:初始值确定单元402、分配单元403。
初始值确定单元402,用于根据子带的频域包络值、子带内包含的MDCT系数个数确定分配给每个子带的比特数初始值。
分配单元403,用于将所述分配给每个子带的比特数初始值与已知的量化比特分配表中的数值进行匹配,从所述量化比特分配表中确定分配给每个子带的比特数。
音频处理装置进一步包括排序单元401,用于将子带按照子带的频域包络值进行感知重要性排序。
音频处理装置进一步包括:预处理单元404。
预处理单元404,用于将子带的频域包络值作一个减量处理,所述减量的绝对值按子带序号的增加而递增;所述排序单元401从所述预处理单元404获取子带的频域包络值。
音频处理装置的初始值确定单元402可以是包括:第一计算单元4021、第一处理单元4022。
第一计算单元4021,根据子带的频域包络值、子带内包含的修正离散余弦变换MDCT系数个数确定比特数理论值。
第一处理单元4022,用于将所述比特数理论值作为分配给每个子带的比特数初始值。
音频处理装置的初始值确定单元402可以是包括:第二计算单元4023、第二处理单元4024。
第二计算单元4023,用于根据子带的频域包络值、子带内包含的MDCT系数个数确定比特数理论值,根据所述比特数理论值及可用于分配的比特数确定比特数实际值。
第二处理单元4024,用于将所述比特数实际值作为分配给每个子带的比特数初始值。初始值确定单元402进一步包括:加权因子调整单元4025。
加权因子调整单元4025,用于通过加权因子调整分配给每个子带的比特数初始值。加权因子调整单元4025具体可以在上述的第一计算单元4021或第二计算单元4023的计算过程中,通过加权因子调整分配给每个子带的比特数初始值。
所述分配单元403包括:搜索单元4031、分配值确定单元4032。
搜索单元4031,用于从所述量化比特分配表中搜索与所述分配给每个子带的比特数初始值最接近的数值。
分配值确定单元4032,用于将搜索得到的数值确定为分配给子带的比特数。
音频处理装置进一步包括:调整单元405。
调整单元405,用于发现还有比特资源剩余时,按感知重要性从高到低从所述排序单元401中选择子带,为所述选择的子带进行比特再分配,确定每个子带的最终比特数,具体为:在所述已知的量化比特分配表中,为所述选择的子带重新搜索分配给该子带的比特数,所述重新搜索分配给该子带的比特数与所述分配单元403已分配给该子带的比特数的差值小于或等于可用于分配的比特数与已分配比特数的差值。
所述音频处理装置可以设置在编码器进行比特分配,也可以是设置在解码器中进行比特分配。
综上所述,本发明实施例方案根据子带本身的包络特征确定分配给每个子带的比特数初始值后,利用已知的量化比特分配表,将所述分配给每个子带的比特数初始值与已知的量化比特分配表中的数值进行匹配,从而可以大大减小比特分配的复杂度,并且延时小,占用***资源少。
进一步的,本发明实施例方案中确定分配给每个子带的比特数初始值时综合考虑了子带的频域包络值、子带内包含的MDCT系数个数、可用于分配的比特数及用于调整的加权因子,既充分利用了可分配的比特资源,又考虑到了每个子带不同的感知重要性,利用加权因子对感知重要性为重要和不重要的子带的相对比特分配进行调整,从而较好解决现有技术中存在的比特分配不当的问题。
进一步的,本发明实施例方案中对子带的频域包络值进行预处理,确保当低频子带和高频子带有相同的原始能量时,低频部分比高频部分有更高的重要性。
另外,实现本发明实施例的软件可以存储于一计算机可读存储介质中,该软件在执行时,包括以下步骤:根据子带的频域包络值、子带内包含的修正离散余弦变换MDCT系数个数确定分配给每个子带的比特数初始值;将所述分配给每个子带的比特数初始值与量化比特分配表中的数值进行匹配,从所述量化比特分配表中确定分配给每个子带的比特数。所述的存储介质可以为Rom/Ram,磁盘,光盘等。
以上对本发明实施例所提供的一种音频处理方法及装置进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (19)
1、一种音频处理方法,其特征在于,包括:
根据子带的频域包络值、子带内包含的修正离散余弦变换MDCT系数个数确定分配给每个子带的比特数初始值;
将所述分配给每个子带的比特数初始值与量化比特分配表中的数值进行匹配,从所述量化比特分配表中确定分配给每个子带的比特数。
2、根据权利要求1所述的音频处理方法,其特征在于,所述确定分配给每个子带的比特数初始值之前进一步包括:
将子带按照子带的频域包络值进行感知重要性排序。
3、根据权利要求2所述的音频处理方法,其特征在于,所述将子带按照子带的频域包络值进行感知重要性排序之前进一步包括:
将子带的频域包络值作一个减量处理,所述减量的绝对值按子带序号的增加而递增。
4、根据权利要求2所述的音频处理方法,其特征在于,所述根据子带的频域包络值、子带内包含的修正离散余弦变换MDCT系数个数确定分配给每个子带的比特数初始值具体为:
根据子带的频域包络值、子带内包含的修正离散余弦变换MDCT系数个数确定比特数理论值,将所述比特数理论值作为分配给每个子带的比特数初始值。
5、根据权利要求2所述的音频处理方法,其特征在于,所述根据子带的频域包络值、子带内包含的修正离散余弦变换MDCT系数个数确定分配给每个子带的比特数初始值具体为:
根据子带的频域包络值、子带内包含的MDCT系数个数确定比特数理论值,根据所述比特数理论值及可用于分配的比特数确定比特数实际值,将所述比特数实际值作为分配给每个子带的比特数初始值。
6、根据权利要求4或5所述的音频处理方法,其特征在于:
进一步包括通过加权因子调整分配给每个子带的比特数初始值。
7、根据权利要求1所述的音频处理方法,其特征在于,所述将分配给每个子带的比特数初始值与量化比特分配表中的数值进行匹配,从所述量化比特分配表中确定分配给每个子带的比特数具体为:
从所述量化比特分配表中搜索与所述分配给每个子带的比特数初始值最接近的数值,将搜索得到的数值确定为分配给子带的比特数。
8、根据权利要求2所述的音频处理方法,其特征在于,确定分配给每个子带的比特数后进一步包括:
若发现还有比特资源剩余,则按感知重要性从高到低选择子带;
为所述选择的子带进行比特再分配,确定每个子带的最终比特数。
9、根据权利要求8所述的音频处理方法,其特征在于,所述为选择的子带进行比特再分配,确定每个子带的最终比特数具体为:
在所述量化比特分配表中,为所述选择的子带重新搜索分配给该子带的比特数,所述重新搜索分配给该子带的比特数与已分配给该子带的比特数的差值小于或等于可用于分配的比特数与已分配比特数的差值。
10、根据权利要求1所述的音频处理方法,其特征在于:
所述子带的频域包络值通过编码过程得到;或者,
所述子带的频域包络值通过解码过程得到。
11、一种音频处理装置,其特征在于,包括:
初始值确定单元,用于根据子带的频域包络值、子带内包含的修正离散余弦变换MDCT系数个数确定分配给每个子带的比特数初始值;
分配单元,用于将所述分配给每个子带的比特数初始值与量化比特分配表中的数值进行匹配,从所述量化比特分配表中确定分配给每个子带的比特数。
12、根据权利要求11所述的音频处理装置,其特征在于,进一步包括:
排序单元,用于将子带按照子带的频域包络值进行感知重要性排序。
13、根据权利要求12所述的音频处理装置,其特征在于,进一步包括:
预处理单元,用于将子带的频域包络值作一个减量处理,所述减量的绝对值按子带序号的增加而递增;
所述排序单元从所述预处理单元获取子带的频域包络值。
14、根据权利要求11所述的音频处理装置,其特征在于,所述初始化值确定单元包括:
第一计算单元,根据子带的频域包络值、子带内包含的修正离散余弦变换MDCT系数个数确定比特数理论值;
第一处理单元,用于将所述比特数理论值作为分配给每个子带的比特数初始值。
15、根据权利要求11所述的音频处理装置,其特征在于,所述初始值确定单元包括:
第二计算单元,用于根据子带的频域包络值、子带内包含的MDCT系数个数确定比特数理论值,根据所述比特数理论值及可用于分配的比特数确定比特数实际值;
第二处理单元,用于将所述比特数实际值作为分配给每个子带的比特数初始值。
16、根据权利要求14或15所述的音频处理装置,其特征在于,所述初始值确定单元进一步包括:
加权因子调整单元,用于通过加权因子调整分配给每个子带的比特数初始值。
17、根据权利要求11所述的音频处理装置,其特征在于,所述分配单元包括:
搜索单元,用于从所述量化比特分配表中搜索与所述分配给每个子带的比特数初始值最接近的数值;
分配值确定单元,用于将搜索得到的数值确定为分配给子带的比特数。
18、根据权利要求12所述的音频处理装置,其特征在于,进一步包括:
调整单元,用于发现还有比特资源剩余时,按感知重要性从高到低从所述排序单元中选择子带,为所述选择的子带进行比特再分配,确定每个子带的最终比特数。
19、根据权利要求11所述的音频处理装置,其特征在于:
所述音频处理装置设置在编码器或解码器中。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008100875949A CN101562015A (zh) | 2008-04-18 | 2008-04-18 | 音频处理方法及装置 |
PCT/CN2009/070712 WO2009127133A1 (zh) | 2008-04-18 | 2009-03-10 | 音频处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008100875949A CN101562015A (zh) | 2008-04-18 | 2008-04-18 | 音频处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101562015A true CN101562015A (zh) | 2009-10-21 |
Family
ID=41198777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2008100875949A Pending CN101562015A (zh) | 2008-04-18 | 2008-04-18 | 音频处理方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN101562015A (zh) |
WO (1) | WO2009127133A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011063694A1 (zh) * | 2009-11-27 | 2011-06-03 | 中兴通讯股份有限公司 | 一种可分层音频编码、解码方法及*** |
US8145695B2 (en) | 2009-06-24 | 2012-03-27 | Huawei Technologies Co., Ltd. | Signal processing method and data processing method and apparatus |
CN102081926B (zh) * | 2009-11-27 | 2013-06-05 | 中兴通讯股份有限公司 | 格型矢量量化音频编解码方法和*** |
CN104681028A (zh) * | 2013-12-02 | 2015-06-03 | 华为技术有限公司 | 一种编码方法及装置 |
CN105637582A (zh) * | 2013-10-17 | 2016-06-01 | 株式会社索思未来 | 音频编码装置及音频解码装置 |
WO2022156556A1 (zh) * | 2021-01-21 | 2022-07-28 | 华为技术有限公司 | 音频对象的比特分配方法和装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3134455B2 (ja) * | 1992-01-29 | 2001-02-13 | ソニー株式会社 | 高能率符号化装置及び方法 |
CN100481734C (zh) * | 2002-08-21 | 2009-04-22 | 广州广晟数码技术有限公司 | 用于从音频数据码流中解码重建多声道音频信号的解码器 |
KR100477701B1 (ko) * | 2002-11-07 | 2005-03-18 | 삼성전자주식회사 | Mpeg 오디오 인코딩 방법 및 mpeg 오디오 인코딩장치 |
JP4273062B2 (ja) * | 2004-09-09 | 2009-06-03 | ティーオーエー株式会社 | 符号化方法、符号化装置、復号化方法及び復号化装置 |
SG136836A1 (en) * | 2006-04-28 | 2007-11-29 | St Microelectronics Asia | Adaptive rate control algorithm for low complexity aac encoding |
-
2008
- 2008-04-18 CN CNA2008100875949A patent/CN101562015A/zh active Pending
-
2009
- 2009-03-10 WO PCT/CN2009/070712 patent/WO2009127133A1/zh active Application Filing
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8145695B2 (en) | 2009-06-24 | 2012-03-27 | Huawei Technologies Co., Ltd. | Signal processing method and data processing method and apparatus |
US8554818B2 (en) | 2009-06-24 | 2013-10-08 | Huawei Technologies Co., Ltd. | Signal processing method and data processing method and apparatus |
CN102081926B (zh) * | 2009-11-27 | 2013-06-05 | 中兴通讯股份有限公司 | 格型矢量量化音频编解码方法和*** |
US8694325B2 (en) | 2009-11-27 | 2014-04-08 | Zte Corporation | Hierarchical audio coding, decoding method and system |
WO2011063694A1 (zh) * | 2009-11-27 | 2011-06-03 | 中兴通讯股份有限公司 | 一种可分层音频编码、解码方法及*** |
CN105637582A (zh) * | 2013-10-17 | 2016-06-01 | 株式会社索思未来 | 音频编码装置及音频解码装置 |
CN105637582B (zh) * | 2013-10-17 | 2019-12-31 | 株式会社索思未来 | 音频编码装置及音频解码装置 |
WO2015081699A1 (zh) * | 2013-12-02 | 2015-06-11 | 华为技术有限公司 | 一种编码方法及装置 |
CN104681028B (zh) * | 2013-12-02 | 2016-12-21 | 华为技术有限公司 | 一种编码方法及装置 |
US9754594B2 (en) | 2013-12-02 | 2017-09-05 | Huawei Technologies Co., Ltd. | Encoding method and apparatus |
RU2636697C1 (ru) * | 2013-12-02 | 2017-11-27 | Хуавэй Текнолоджиз Ко., Лтд. | Устройство и способ кодирования |
US10347257B2 (en) | 2013-12-02 | 2019-07-09 | Huawei Technologies Co., Ltd. | Encoding method and apparatus |
CN104681028A (zh) * | 2013-12-02 | 2015-06-03 | 华为技术有限公司 | 一种编码方法及装置 |
US11289102B2 (en) | 2013-12-02 | 2022-03-29 | Huawei Technologies Co., Ltd. | Encoding method and apparatus |
WO2022156556A1 (zh) * | 2021-01-21 | 2022-07-28 | 华为技术有限公司 | 音频对象的比特分配方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2009127133A1 (zh) | 2009-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7177185B2 (ja) | 信号分類方法および信号分類デバイス、ならびに符号化/復号化方法および符号化/復号化デバイス | |
US10546592B2 (en) | Audio signal coding and decoding method and device | |
US7181404B2 (en) | Method and apparatus for audio compression | |
CN101521014B (zh) | 音频带宽扩展编解码装置 | |
CN101968781B (zh) | 在音频编码过程中根据mdct数据进行视窗类型判定的方法 | |
CN106941004B (zh) | 音频信号的比特分配的方法和装置 | |
CN101925953A (zh) | 编码装置、解码装置以及其方法 | |
MX2011000557A (es) | Metodo y aparato de codificacion y decodificacion de señal de audio/voz. | |
CN101562015A (zh) | 音频处理方法及装置 | |
US20080140428A1 (en) | Method and apparatus to encode and/or decode by applying adaptive window size | |
CN101521010B (zh) | 一种音频信号的编解码方法和装置 | |
CN103778918A (zh) | 音频信号的比特分配的方法和装置 | |
CN103971694A (zh) | 带宽扩展频带信号的预测方法、解码设备 | |
CN101281748B (zh) | 用编码索引实现的空缺子带填充方法及编码索引生成方法 | |
CN103971693A (zh) | 高频带信号的预测方法、编/解码设备 | |
CN101105940A (zh) | 音频编解码的量化方法、反变换方法及音频编解码装置 | |
EP1175670B1 (en) | Using gain-adaptive quantization and non-uniform symbol lengths for audio coding | |
CN102737636B (zh) | 一种音频编码方法及装置 | |
AU2014286765B2 (en) | Signal encoding and decoding methods and devices | |
CN100574114C (zh) | 编码方法和设备以及解码方法和设备 | |
CN101800050A (zh) | 基于感知自适应比特分配的音频精细分级编码方法及*** | |
CN105096957A (zh) | 处理信号的方法及设备 | |
CN101989428B (zh) | 比特分配方法、编码方法、解码方法、编码器及解码器 | |
CN101308657A (zh) | 一种基于先进音频编码器的码流合成方法 | |
CN101685637B (zh) | 音频编码方法及装置和音频解码方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Open date: 20091021 |