CN103069484B - 时/频二维后处理 - Google Patents
时/频二维后处理 Download PDFInfo
- Publication number
- CN103069484B CN103069484B CN201180018941.2A CN201180018941A CN103069484B CN 103069484 B CN103069484 B CN 103069484B CN 201180018941 A CN201180018941 A CN 201180018941A CN 103069484 B CN103069484 B CN 103069484B
- Authority
- CN
- China
- Prior art keywords
- energy
- gain
- frequency
- frequency band
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012805 post-processing Methods 0.000 title claims abstract description 12
- 230000005236 sound signal Effects 0.000 claims abstract description 59
- 238000000034 method Methods 0.000 claims abstract description 56
- 238000004458 analytical method Methods 0.000 claims abstract description 11
- 238000012937 correction Methods 0.000 claims description 20
- SYHGEUNFJIGTRX-UHFFFAOYSA-N methylenedioxypyrovalerone Chemical compound C=1C=C2OCOC2=CC=1C(=O)C(CCC)N1CCCC1 SYHGEUNFJIGTRX-UHFFFAOYSA-N 0.000 claims description 13
- 238000013459 approach Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 2
- 230000006978 adaptation Effects 0.000 claims 1
- 230000015572 biosynthetic process Effects 0.000 abstract 1
- 238000012986 modification Methods 0.000 abstract 1
- 230000004048 modification Effects 0.000 abstract 1
- 238000003786 synthesis reaction Methods 0.000 abstract 1
- 238000001228 spectrum Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 5
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
根据一个实施例,提供一种用于提高已解码音频信号的感知质量的时频后处理方法,所述方法包括:确定音频信号的时频表示(例如,滤波器组分析与综合);估计来自时频滤波器组的音频信号的时频能量分布;计算每个时频表示点的修正增益以获得修正的时频表示;以及从修正的时频表示输出音频信号。
Description
本申请要求2010年4月14日递交的申请号为61/323,873、主题为“时/频二维后处理”的美国临时申请的优先权,该临时申请全文作为参考引入本申请。
技术领域
本发明涉及音频/语音处理,更具体地,涉及一种用于音频/语音编码、解码和后处理的***和方法。
背景技术
在现代音频/语音数字信号通信***中,数字信号在编码器中进行压缩(编码);已压缩的信息(比特流)可以被打包,并通过通信信道逐帧发送到解码器。编码器和解码器共同组成的***称为编解码器。语音/音频压缩可以减少表示语音/音频信号的比特数,从而减小传输所需的带宽(比特率)。然而,语音/音频压缩可能导致解压缩的信号质量降低。通常,比特率越高,质量越高,而比特率越低,质量越低。
基于滤波器组技术的音频编码已得到广泛应用。在信号处理中,滤波器组是一组带通滤波器,用于将输入信号分成多个部分,其中每个部分携载原始信号的单个频率子带。滤波器组所执行的分解过程称为分析,且滤波器组分析的输出为具有与滤波器组中的滤波器数量相同的子带的子带信号。重建过程称为滤波器组合成。在数字信号处理中,术语“滤波器组”也常应用于一组接收器组。不同之处在于,接收器还将子带变频转换成较低中心频率,从而能够以较低的速率进行重新采样。通过对带通子带进行欠采样,有时也可实现相同的结果。滤波器组分析的输出可以采用复系数的形式;每个复系数包含实部和虚部,所述实部和虚部分别表示滤波器组的每个子带的余弦项和正弦项。
在用于信号压缩的滤波器组的应用中,一些频率相对于其他频率更为重要。在完成分解后,重要频率可以采用高分别率进行编码。这些频率上的较小差异较为重要,需要使用编码方案来保持这些差异。另一方面,并不重要的频率不必过于精确;因此,可以使用较为粗糙的编码方案,但是某些细微细节将在编码过程中丢失。典型较为粗糙的编码方案基于广泛使用的带宽扩展(BWE)概念。这种技术概念有时也称为高频带扩展(HBE)、子带复制(SBR)或频谱带复制(SBR)。尽管名称可能不同,但均具有相似含义,即使用较少比特率预算(甚至0比特率预算)或者显著低于一般编码/解码方法的比特率,对一些频率子带(通常是高频带)进行编码/解码。借助SBR技术,即可从低频带复制用于高频带的频谱精细结构,并可增加若干随机噪声;随后,使用从编码器传输到解码器的边信息形成高频带中的频谱包络。
在一些应用中,解码器侧上的后处理用于提高采用较低比特率和SBR编码进行编码的信号的感知质量。
发明内容
一个实施例提供一种生成已编码音频信号的方法,该方法包括:估计来自时频滤波器组的音频信号的时频能量阵列;分别计算时间方向和频率方向的二维能量估计包络形状(two dimension energy evaluation envelope shape);根据所述二维能量估计包络形状确定二维后处理方法。
另一个实施例提供一种生成已编码音频信号的方法,包括接收包括输入音频信号的时频(T/F)表示的帧,所述T/F表示包括多个时隙,其中每个时隙包括多个子带。所述方法还包括:估计所述时隙的子带中的能量;估计多个时隙之间的时间能量估计包络形状;估计多个频率子带之间的频率估计包络形状;确定每个时频(T/F)点的能量修正因子(增益);以及针对每个时频(T/F)点应用能量修正因子(增益)。
另一个实施例提供一种接收已编码音频信号的方法,所述方法包括接收已编码音频信号,所述已编码音频信号包括输入音频信号的编码表示以及基于一个音频信号分类的控制代码。所述方法进一步包括:对所述音频信号进行解码;在所述控制代码指明所述音频信号类属于一种音频分类的情况下,采用第一模式对已解码音频信号实施T/F二维后处理;以及在所述控制代码指明所述音频信号类属于另一种音频分类的情况下,采用第二模式对所述已解码音频信号实施T/F二维后处理。所述方法进一步包括基于经过T/F二维后处理的已解码音频信号,生成输出音频信号。
另一个实施例提供一种用于生成已编码音频信号的***,所述***包括:低频带信号参数编码器,用于对输入音频信号的低频带部分进行编码;以及高频带时频分析滤波器组,用于从输入音频信号产生高频带边参数。所述***还包括:使用侵略性较高的参数对所述高频带实施较强T/F二维后处理;以及使用侵略性较低的参数对所述低频带进行较弱T/F二维后处理。
根据另一个实施例,非易失性的计算机可读媒介上存储有可执行程序,其中所述程序指示微处理器对已编码音频信号进行解码,从而产生解码的音频信号,其中所述已编码音频信号包括输入音频信号的编码表示。所述程序还指示微处理器采用T/F二维后处理方法对已解码音频信号进行后处理。
上文已相当广泛地概述了本发明实施例的特征,以有助于更好地理解下文对本发明的详细说明。下文将说明本发明各项实施例的其他特征和优点,这些特征和优点构成本发明的权利要求书的标的物。所属领域的技术人员应了解,可轻易地基于所揭示的概念和具体实施例,修改或设计用于实现本发明的相同目的的其他结构或过程。所属领域的技术人员还应意识到,此类等效结构并不脱离所附权利要求书中界定的本发明的精神和范围。
附图说明
为了更完整地了解本发明的各项实施例以及相应优势,现结合附图来参考以下说明,其中:
图1,其中包括图1a和1b,图示了使用T/F后处理的滤波器组编码器和解码器原理,其中图1a图示了使用T/F后处理的滤波器组编码器原理,以及图1b图示了使用T/F后处理的滤波器组解码器原理。
图2,其中包括图2a和2b,图示了使用SBR和T/F后处理的滤波器组编码器和解码器,其中低频带使用基于滤波器组的方法进行编码/解码。具体而言,图2a图示了使用SBR和T/F后处理的滤波器组编码器原理,其中低频带使用基于滤波器组的方法进行编码/解码;以及图2b图示了使用SBR和T/F后处理的滤波器组解码器原理,其中低频带使用基于滤波器组的方法进行编码/解码。
图3,其中包括图3a和3b,图示了使用SBR和T/F后处理的滤波器组编码器和解码器的一般原理,其中低频带无需使用基于滤波器组的方法进行编码/解码。具体而言,图3a图示了使用SBR和T/F后处理的编码器的一般原理;以及图3b图示了使用SBR和T/F后处理的解码器的一般原理。
图4图示了应用于特定解码器的T/F后处理。
图5图示了进行T/F后处理之前和之后的时间能量包络对比。
图6图示了进行T/F后处理之前和之后的频谱能量包络对比。
图7图示了本发明的通信***一个实施例。
具体实施方式
下文将详细讨论对各项实施例的实施和使用。但应了解,本发明提供可在各种具体上下文中体现的许多适用发明概念。所述具体实施例仅仅说明用以实施和使用本发明的具体方式,而不限制本发明的范围。
本发明将参考具体上下文中的各项实施例、一种用于音频编码和解码的***和方法来进行描述。本发明的实施例还可应用于其他类型的信号处理,例如,用于医疗装置中的心电图传输或其他类型的医疗信号的信号处理。
本发明介绍了一种时/频二维后处理方法,简称“T/F后处理”。所述T/F后处理应用于从滤波器组分析中输出的系数,换言之,来自滤波器组分析的输出在进行滤波器组综合之前,由T/F后处理进行修正。T/F后处理的目的在于以较低比特率提高音频编码的听觉感知质量,因为进行T/F后处理的成本极低。在解码侧,时/频二维后处理块模块位于滤波器组合成之前;此T/F后处理模块的准确位置取决于编码/解码方案。图1、图2、图3和图4所示为实施T/F二维后处理的一些典型示例。
在图1中,编码器中的原始音频信号101通过滤波器组分析进行转换。从滤波器组分析得到的输出系数102进行量化并通过比特流信道103传输到解码器。在解码器中,量化滤波器组系数105通过对来自传输信道的比特流104进行解码获得;随后,对这些系数进行后处理以获取后处理滤波器组系数106,然后进行滤波器组合成以产生输出音频信号107。
在图2中,低频带信号采用与图1所示类似的方式进行编码/解码。编码器中的原始音频信号201通过滤波器组分析进行转换;对滤波器组分析得到的低频带输出系数202进行量化并通过比特流信道203传输到解码器。高频带信号使用SBR技术进行编码/解码;仅高频带边信息204进行量化并通过比特流信道205传输到解码器。在解码器中,已量化的低频带滤波器组系数207通过使用来自传输信道的比特流206进行解码获得。通过使用SBR技术以及从比特流210进行解码的边信息,生成高频带滤波器组系数211。低频带和高频带滤波器组系数均进行后处理。通常,与低频带中的普通编码相比,高频带中的SBR编码较为粗糙,因此,高频带中应进行较强后处理,而低频带中应进行较弱后处理。组合经过后处理的低频带滤波器组系数208和经过后处理的高频带滤波器组系数212,然后送入滤波器组合成,从而产生输出音频信号209。
在图3中,假设低频带信号使用任何编码方案进行编码/解码,而高频带信号使用低比特率SBR方案进行编码/解码。编码器上的原始低频带音频信号301经过编码以产生相应低频带参数302,所述参数随后进行量化并通过比特流信道303传输到解码器。高频带信号304使用SBR技术进行编码/解码;仅高频带边信息305进行量化并通过比特流信道306传输到解码器。在解码器上,低频带比特流307使用任何编码方案进行解码以获取低频带信号308,所述低频带信号通过滤波器组分析再转换成低频带滤波器组输出系数309。高频带侧比特流311经过解码以产生高频带边参数312,所述参数通常包含高频带频谱包络。高频带滤波器组系数313通过以下方式生成:复制低频带滤波器组系数;使用已接收的边信息定形高频带频谱能量包络;以及适当增加随机噪声。低频带和高频带滤波器组系数均会进行后处理。通常,高频带中的后处理应当较强,而低频带中的后处理应当较弱。组合经过后处理的低频带滤波器组系数310和经过后处理的高频带滤波器组系数314,然后送入滤波器组综合,从而产生输出音频信号315。
在图4中,低频带信号使用时间域编码方案进行编码/解码,而高频带信号使用低比特率SBR频率域编码方案进行编码/解码。编码器上对的原始低频带音频信号进行编码产生相应低频带参数,对相应低频带参数进行量化并通过比特流信道传输到解码器。在解码器中,已接收的比特流401包括两个主要部分,一个是用于低频带信号的部分402,另一个是用于高频带信号的部分403。低频带比特流402使用时域编码方案进行解码以获取低频带信号404,所述低频带信号通过滤波器组分析再转换成滤波器组输出系数407。高频带信号使用某种SBR技术进行编码/解码。对高频带边信息进行量化并通过比特流403传输到解码器,所述比特流主要包含高频带频谱包络信息。对高频带频谱包络405使用霍夫曼(Huffman)解码方案反量化。高频带边比特流还包含其他信息,用于控制高频带生成和T/F后处理,其中使用比特noise_flag412激活/停止T/F后处理。主要高频带滤波器组系数406主要通过复制低频带滤波器组系数生成,并使用接收的边信息定形高频带频谱能量包络405形成已定形的高频带滤波器组系数410。通过增加适当谐波和随机噪声408,形成并控制高频带滤波器组系数409的另一部分。低频带滤波器组系数407和高频带滤波器组总系数411均分别进行后处理。通常,高频带中的后处理应当较强,而低频带中的后处理应当较弱。经过后处理的低频带滤波器组系数413和经过后处理的高频带滤波器组系数414会送入滤波器组合成,从而产生输出音频信号415。
低比特率音频编码始终存在某些失真。在频率域中,与高能峰区域相比,低能谷区域通常失真程度较高。在时域上,失真通常表现为原始信号中的较快时间包络变化变为解码信号中的较慢时间包络变化。滤波器组系数的能量阵列通常可以表示时间方向上和频率方向上的二维能量变化。因此,滤波器组系数的T/F后处理能够更改时间和频率方向的能量估计包络形状。因此,在进行后处理之后,时间能量包络估计将更快速地变化(更接近原始形状),失真程度较高区域中的能量降低,且高质量区域中的能量增加以确保整体能量不发生变化。图5阐释了进行T/F后处理之前的时间能量包络形状501和进行T/F后处理之后的时间能量包络形状502的示例。图6所示为进行T/F后处理之前的频谱包络形状601和进行T/F后处理之后的频谱包络形状602的示例。
以下T/F后处理算法是基于图3和图4的一个示例。该示例涉及MPEG-4技术。所述算法可概括为以下步骤。
针对解码器上的2048个输出样本的长帧,根据可用滤波器组复系数估计T/F能量阵列:
X(l,k)={Sr[l][k],Si[l][k]}; (1)
l=0,1,2,…31;k=0,1,…Klow-1; (2)
l=0,1,2,…31;k=Klow,…Ktotal-1; (3)
X(l,k)是滤波器组复系数,Sr[l][k]是X(l,k)的实部, Si[l][k]是X(l,k)的虚部。Klow表示低频带中的子带数量;Ktotal表示低频带和高频带的子带总数;Klow和Ktotal的值取决于比特率。l是时间分段,当采样率为25600Hz时,12kbps编解码器的l为每拍(step)2.5ms;当采样率为19200Hz时,8kbps编解码器的l为每拍3.335ms;k是频率分段,12kbps编解码器的k为每拍200Hz,8kbps编解码器的k为每拍150Hz。Sr[l][k]和Si[l][k]均为解码器上的可用滤波器组复系数。TF_energy_low[l][k]表示时/频二维中低频带的能量分布;TF_energy_high[l][k]表示高频带(或称为SBR频带)的能量分布。在以下描述中,参数TF_energy_low[l][k]和TF_energy_high[l][k]将简化标记为TF_energy[l][k],因为低频带和高频带将使用同一后处理算法,而对于低频带和高频带而言,只有后处理算法的控制参数将不同;通常,低频带进行较弱后处理,且高频带进行较强后处理,因为SBR频带的噪声大于低频带。
通过均分频率方向能量,估计时间方向能量分布:
对于低频带而言,K0=0且K1=Klow;对于高频带而言,K0=Klow且K1=Ktotal。
除了能量剧烈变化的情况(未在较大能量变化点上进行平滑处理),可使T_energy[l]在前一时间指标和当前时间指标之间做平滑处理;如果平滑T_energy[l]标记为T_energy_sm[l],则T_energy_sm[l]的示例可表示为:
If((T_energy[l]>T_energy_sm[l-1]*8)or
(T_energy[l]<T_energy_sm[l-1]/16))
{
T_energy_sm[l]=T_energy[l];
}
or else((T_energy[l]>T_energy_sm[l-1]*4)or
(T_energy[l]<T_energy_sm[l-1]/8))
{
T_energy_sm[l]=(T_energy_sm[l-1]+T_energy[l])/2;
}
else{
T_energy_sm[l]=(3*T_energy_sm[l-1]+T_energy[l])/4;
}
通过平均时间方向能量,估计频率方向能量分布:
将一个帧或一个块定义为包含l=L0到l=L1,这通常会持续20毫秒。可使F_energy[k]从之前时间块平滑到当前时间块;如果当前时间块中的平滑F_energy[k]标记为F_energy_sm(current)[k],则F_energy_sm(current)[k]的示例可表示为:
F_energy_sm(current)[k]=(F_energy_sm(previous)[k]+F_energy[k])/2 (6)
通过计算以下初始增益,估计时间方向能量修正增益:
Gain_t[l]=pow(T_energy_sm[l],t_control)
=(T_energy_sm[l])t_control (7)
t_control是常数,通常在0.05和0.15之间。t_control=0表示不执行任何后处理。用于低频带的t_control的示例性值为0.05,用于高频带的t_control的示例性值为0.1。如果t_control针对较高程度的噪声或平稳信号设置为0,且针对清晰语音信号设置为0.1,则针对介于噪声和清晰信号之间的一些信号t_control的值可设置为0.05。较弱后处理(t_control较为接近0且增益值较为接近1)适用于编码质量较高的频带或帧;较强后处理(t_control较大且增益值不为1)适用于编码质量较低的频带或帧。
通过将较强平滑原始能量与加入初始增益后的较强平滑能量进行对比,初始增益Gain_t[l]可以在每个时间分段上实现能量归一化:
T_energy_0_sm[l]
=(31·T_energy_0_sm[l-1]+T_energy[l])/32 (8)
T_energy_1_sm[l]
=(31·T_energy_1_sm[l-1]+T_energy[l]·(Gain_t[l])2)/32 (9)
归一化增益Gain_f_norm[l]针对每个时间分段应用于初始增益,以获取最终时间方向修正增益:
将所述增益限制在特定变化范围内。典型限制可为
0.6≤Gain_t[l]≤1.1 (12)
通过计算初始增益,估计频率方向能量修正增益:
Gain_f[k]=pow(F_energy_sm(current)[k],f_control)
=(F_energy_sm(current)[k])f_control (13)
f_control是常数,通常在0.05和0.15之间。f_control=0表示不实施任何后处理。用于低频带的f_control的示例性值为0.05,用于高频带的f_control的示例性值为0.1。如果f_control针对噪声或平稳信号设置为0,且针对清晰语音信号设置为0.1,则针对介于噪声和清晰信号之间的一些信号f_control的值可设置为0.05。较弱后处理(f_control较为接近0且增益值较为接近1)适用于编码质量较高的频带或帧;较强后处理(f_control较大且增益值不为1)适用于编码质量较低的频带或帧。
可针对初始增益增加一些简单倾斜补偿,以避免出现特定信号的高频能量可能过低的情况,例如,
在(15)中,W是常数值,具体取决于频率区域的位置。
通过将原始能量与加入初始增益后的能量进行对比,初始增益Gain_f[k]可以在每个时间分段上实现能量归一化:
在每个时间分段上将归一化增益Gain_f_norm[l]应用到初始增益,以获取最终频率方向修正增益:
将该增益限制在特定变化范围内。典型限制可为
0.6≤Gain_f[k]≤1.1 (22)
针对T/F阵列中的每个T/F点,估计最终二维能量修正增益:
Gain_tf[l][k]=Gain_t[l]·Gain_f[k] (23)
将所述增益限制在特定变化范围内。典型限制可为
0.6≤Gain_tf[l][k]≤1.1 (24)
可以进一步增加能量归一化。为了减少平方根和除运算的次数,则可在最终步骤中估计并组合应用归一化因数(10)和(20)以获得最终增益:
将最终T/F增益应用到每个相应T/F滤波器组复系数,得到已修正的滤波器组复系数,然后将修正的滤波器组复系数送入滤波器组进行合成:
或
图7图示了根据本发明的一项实施例的通信***10。通信***10具有经由通信链路38和40连接到网络36的音频接入装置6和8。在一个实施例中,音频接入装置6和8是互联网协议电话(VOIP)装置,网络36是广域网(WAN)、公共电话交换网(PSTN)和/或互联网。在另一个实施例中,音频接入装置6是音频接收装置,且音频接入装置8是音频传输装置,用于传输广播级高度保真音频数据、流式音频数据和/或伴有视频节目的音频。通信链路38和40是有线/无线宽带连接。在一个替代实施例中,音频接入装置6和8是蜂窝或移动电话,链路38和40是无线移动电话信道,网络36表示移动电话网络。
音频接入装置6使用麦克风12将声音,例如,音乐或人的语音转换成模拟音频输入信号28。麦克风接口16将模拟音频输入信号28转换成数字音频信号32,从而输入编解码器20的编码器22中。根据本发明的实施例,编码器22产生已编码音频信号TX,所述已编码音频信号TX经由网络接口26传输到网络26中。编解码器20中的解码器24经由网络接口26从网络36接收已编码音频信号RX,并将已编码音频信号RX转换成数字音频信号34。扬声器接口18将数字音频信号34转换成适合于扬声器14输出的音频信号30。
在本发明的实施例中,音频接入装置6是VOIP装置,所述音频接入装置6内的部分或所有部件可实施在手机中。不过,在一些实施例中,麦克风12和扬声器14是单独单元,且麦克风接口16、扬声器接口18、编解码器20和网络接口26可以实施在个人计算机中。编解码器20可以实施在计算机或专用处理器上所运行的软件中,也可通过,例如,专用集成电路(ASIC)上的专用硬件实施。麦克风接口16通过模数(A/D)转换器以及位于手机和/或计算机内的其他接口电路实施。同样地,扬声器接口18通过模数转换器和位于手机和/或计算机内的其他接口电路实施。在进一步实施例中,音频接入装置6可采用现有技术中已知的其他方式实施和划分。
在本发明的实施例中,音频接入装置6是蜂窝或移动电话,所述音频接入装置6中的元件实施在蜂窝手机中。编解码器20通过在手机中的处理器上运行的软件实施,或者通过专用软件实施。在本发明的进一步实施例中,音频接入装置可实施在其他装置中,所述其他装置例如,对等有线和无线数字通信***,例如,对讲机和无线手机。在诸如客户音频装置等应用中,音频接入装置可包含仅带有编码器22或解码器24的编解码器,例如,数字麦克风***或音乐播放装置。在本发明的其他实施例中,编解码器20无需麦克风12和扬声器14即可使用,例如,在接入PSTN的蜂窝基站中。
各项实施例的优势包括以较低比特率以及较低成本来提高已接收声音的主观质量。
尽管详细描述了各项实施例及其优势,但应了解,在不脱离由随附的权利要求书界定的本发明的精神和范围的情况下,可对本文做各种更改、替代和变化。此外,本申请案的范围不应限于说明书所述的过程、机器、制造、物质成分、构件、方法和步骤的特定实施例。所属领域的一般技术人员将从本发明的揭示内容中容易了解到,可根据本发明利用目前存在或以后将开发的、执行与本文所述对应实施例大致相同的功能或实现与本文所述对应实施例大致相同的效果的过程、机器、制造、物质成分、构件、方法或步骤。因此,所附权利要求书应在其范围内包括此类过程、机器、制造、物质成分、构件、方法或步骤等。
Claims (22)
1.一种生成解码音频信号的后处理方法,所述方法包括:
估计来自时频滤波器组的解码音频信号的时频能量阵列;
通过均分频率方向能量,估计时间方向能量分布;
通过均分时间方向能量,估计频率方向能量分布;
根据所述时间方向能量分布,估计时间方向能量修正增益;
根据所述频率方向能量分布,估计频率方向能量修正增益;
针对所述时频滤波器组的每个时/频T/F点,估计最终二维能量修正增益;
针对所述时频滤波器组的每个T/F点,应用对应的最终二维能量修正增益以获取修正的滤波器组系数,然后将所述系数送入滤波器组进行合成;
所述滤波器组合成后输出最终音频信号。
2.根据权利要求1所述的方法,其中估计时频能量阵列包括根据时频滤波器组复系数估计所述能量阵列。
3.根据权利要求1所述的方法,其中估计时间方向能量分布包括估计从一个时间分段到下一时间分段的平滑时间方向能量分布。
4.根据权利要求1所述的方法,其中估计频率方向能量分布包括估计从一个时间块到下一时间块的平滑频率方向能量分布。
5.根据权利要求1所述的方法,其中估计时间方向能量修正增益包括估计初始时间方向增益:
Gain_t[l]=pow(T_energy_sm[l],t_control)
=(T_energy_sm[l])t_control
其中T_energy_sm[l]表示时间方向能量分布,l是时间分段;t_control是控制参数,为常数。
6.根据权利要求5所述的方法,其中对于低频带,t_control的值为0.05;对于高频带,t_control的值为0.1。
7.根据权利要求1所述的方法,其中估计时间方向能量修正增益包括将能量归一化因子应用到初始时间方向增益:
其中,通过将较强平滑原始能量T_energy_0_sm[l]与加入所述初始增益后的较强平滑能量T_energy_1_sm[l]进行对比,从而获得所述能量归一化因子Gain_t_norm[l]:
其中,l是时间分段。
8.根据权利要求1所述的方法,其中估计频率方向能量修正增益包括估计初始频率方向增益:
Gain_f[k]=pow(F_energy_sm(current)[k],f_control)
=(F_energy_sm(current)[k])f_control
其中F_energy_sm(current)[k]表示频率方向能量分布,k是频率分段;f_control是控制参数,为常数。
9.根据权利要求8所述的方法,其中对于低频带,f_control的值为0.05;对于高频带,f_control的值为0.1。
10.根据权利要求1所述的方法,其中估计频率方向能量修正增益包括进行倾斜补偿以避免出现特定信号的高频能量可能过低的情况。
11.根据权利要求10所述的方法,其中估计频率方向能量修正增益包括使用以下公式:
其中Tilt是自适应系数,用以控制所述倾斜补偿,对于低频带而言,K0=0且K1=Klow;对于高频带而言,K0=Klow且K1=Ktotal,Klow表示低频带中的子带数量;Ktotal表示低频带和高频带的子带总数,k是频率分段。
12.根据权利要求1所述的方法,其中估计频率方向能量修正增益包括将能量归一化因子应用到初始频率方向增益:
其中通过将原始能量F_energy_0[l]与加入所述初始增益后的能量F_energy_1[l]进行对比,从而获得能量归一化因数Gain_f_norm[l]:
其中,l是时间分段,k是频率分段。
13.根据权利要求1所述的方法,其中针对滤波器组T/F阵列的每个T/F点,估计所述最终二维能量修正增益:
Gain_tf[l][k]=Gain_t[l]·Gain_f[k]
其中所述最终二维能量修正增益限制在特定变化范围内,Gain_t[l]表示初始时间方向增益,Gain_f[k]表示初始频率方向增益,l是时间分段,k是频率分段。
14.根据权利要求13所述的方法,其中所述特定变化范围符合以下标准:
0.6≤Gain_tf[l][k]≤1.1;
其中,l是时间分段,k是频率分段。
15.根据权利要求1所述的方法,其中估计所述最终二维能量修正增益包括将归一化因子Gain_t_norm[l]和归一化因子Gain_f_norm[l]组合为Gain_tf_norm[l],并在最终步骤中将所述Gain_tf_norm[l]应用到最终增益:
其中,l是时间分段,k是频率分段。
16.根据权利要求13所述的方法,其中应用所述最终二维能量修正增益包括使最终二维能量修正增益Gain_tf[l][k]与时频滤波器组复系数X(l,k)相乘:
或
其中,X(l,k)是滤波器组复系数,Sr[l][k]是X(l,k)的实部,Si[l][k]是X(l,k)的虚部,l是时间分段,k是频率分段。
17.一种生成解码音频信号的后处理方法,所述方法包括:
接收包括输入音频信号的时频T/F表示的帧,所述T/F表示具有时隙,每个时隙具有频率子带;
估计所述时隙和所述频率子带中的能量分布;
根据所述能量分布,估计时隙和频率子带的每个T/F点的后处理修正增益;
减小低能量T/F点处的所述修正增益;
使进行T/F后处理之后的整体能量等于所述T/F后处理之前的整体能量;
针对每个T/F点估计最终二维能量修正增益,将最终二维能量修正增益应用到每个相应T/F点,以获取修正的T/F表示;以及
从所述修正的T/F表示中输出最终音频信号。
18.根据权利要求17所述的方法,进一步包括产生所述输入音频信号的编码表示,产生所述输入音频信号的所述编码表示包括:
从所述输入音频信号产生低频带信号;
从所述低频带信号产生低频带参数;
从所述输入音频信号产生所述输入音频信号的所述T/F表示;以及
从所述输入音频信号的所述T/F表示产生高频带参数,其中所述输入音频信号的所述编码表示包括所述低频带参数以及所述高频带参数。
19.根据权利要求17所述的方法,其中所述输入音频信号的编码表示包括低频带比特流和高频带比特流,以及其中对所述音频信号进行解码包括:
对所述低频带比特流进行解码以产生低频带信号,
通过对所述低频带信号执行时频滤波器组分析,从而产生低频带系数,
对所述高频带比特流进行解码以产生高频带边参数,
根据所述高频带边参数和当前产生的低频带系数,生成高频带系数;
对所述解码音频信号进行后处理包括修正所述低频带系数和所述高频带系数以修正音频编码效应,从而产生修正的低频带系数以及修正的高频带系数;以及
产生所述音频信号包括对所述修正的低频带系数以及所述修正的高频带系数执行时频滤波器组合成。
20.根据权利要求17所述的方法,其中针对低频带实施较弱后处理,针对高频带实施较强后处理,其中与所述较强后处理的增益值相比,所述较弱后处理增益值更接近1。
21.根据权利要求17所述的方法,其中针对具有较高编码质量的频带实施较弱后处理,针对具有较低编码质量的频带实施较强后处理,其中与所述较强后处理的增益值相比,所述较弱后处理增益值更接近1。
22.根据权利要求17所述的方法,其中针对具有较高编码质量的帧实施较弱后处理,针对具有较低编码质量的帧实施较强后处理,其中与所述较强后处理的增益值相比,所述较弱后处理增益值更接近1。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US32387310P | 2010-04-14 | 2010-04-14 | |
US61/323,873 | 2010-04-14 | ||
PCT/CN2011/072811 WO2011127832A1 (en) | 2010-04-14 | 2011-04-14 | Time/frequency two dimension post-processing |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103069484A CN103069484A (zh) | 2013-04-24 |
CN103069484B true CN103069484B (zh) | 2014-10-08 |
Family
ID=44788885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180018941.2A Active CN103069484B (zh) | 2010-04-14 | 2011-04-14 | 时/频二维后处理 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8793126B2 (zh) |
CN (1) | CN103069484B (zh) |
WO (1) | WO2011127832A1 (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5754899B2 (ja) | 2009-10-07 | 2015-07-29 | ソニー株式会社 | 復号装置および方法、並びにプログラム |
JP5850216B2 (ja) | 2010-04-13 | 2016-02-03 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
JP5609737B2 (ja) | 2010-04-13 | 2014-10-22 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
WO2011127832A1 (en) | 2010-04-14 | 2011-10-20 | Huawei Technologies Co., Ltd. | Time/frequency two dimension post-processing |
US8886523B2 (en) * | 2010-04-14 | 2014-11-11 | Huawei Technologies Co., Ltd. | Audio decoding based on audio class with control code for post-processing modes |
US9047875B2 (en) * | 2010-07-19 | 2015-06-02 | Futurewei Technologies, Inc. | Spectrum flatness control for bandwidth extension |
JP6075743B2 (ja) | 2010-08-03 | 2017-02-08 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
JP5707842B2 (ja) | 2010-10-15 | 2015-04-30 | ソニー株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
KR101617816B1 (ko) | 2011-02-14 | 2016-05-03 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 스펙트럼 도메인 잡음 형상화를 사용하는 선형 예측 기반 코딩 방식 |
TWI476760B (zh) | 2011-02-14 | 2015-03-11 | Fraunhofer Ges Forschung | 用以使用暫態檢測及品質結果將音訊信號的部分編碼之裝置與方法 |
JP5712288B2 (ja) | 2011-02-14 | 2015-05-07 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 重複変換を使用した情報信号表記 |
TWI469136B (zh) * | 2011-02-14 | 2015-01-11 | Fraunhofer Ges Forschung | 在一頻譜域中用以處理已解碼音訊信號之裝置及方法 |
SG192734A1 (en) | 2011-02-14 | 2013-09-30 | Fraunhofer Ges Forschung | Apparatus and method for error concealment in low-delay unified speech and audio coding (usac) |
AU2012217184B2 (en) | 2011-02-14 | 2015-07-30 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. | Encoding and decoding of pulse positions of tracks of an audio signal |
AU2014248232B2 (en) * | 2013-04-05 | 2015-09-24 | Dolby International Ab | Companding apparatus and method to reduce quantization noise using advanced spectral extension |
US9666202B2 (en) * | 2013-09-10 | 2017-05-30 | Huawei Technologies Co., Ltd. | Adaptive bandwidth extension and apparatus for the same |
WO2015041070A1 (ja) | 2013-09-19 | 2015-03-26 | ソニー株式会社 | 符号化装置および方法、復号化装置および方法、並びにプログラム |
BR112016014476B1 (pt) | 2013-12-27 | 2021-11-23 | Sony Corporation | Aparelho e método de decodificação, e, meio de armazenamento legível por computador |
JP6401521B2 (ja) * | 2014-07-04 | 2018-10-10 | クラリオン株式会社 | 信号処理装置及び信号処理方法 |
PT3417544T (pt) * | 2016-02-17 | 2020-03-02 | Fraunhofer Ges Forschung | Pós-processador, pré-processador, codificador de áudio, descodificador de áudio e métodos relacionados para aprimoramento do processamento de transiente |
EP3382700A1 (en) * | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for post-processing an audio signal using a transient location detection |
CN110870006B (zh) * | 2017-04-28 | 2023-09-22 | Dts公司 | 对音频信号进行编码的方法以及音频编码器 |
US11830507B2 (en) | 2018-08-21 | 2023-11-28 | Dolby International Ab | Coding dense transient events with companding |
CN112863525B (zh) * | 2019-11-26 | 2023-03-21 | 北京声智科技有限公司 | 一种语音波达方向的估计方法、装置及电子设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101138274A (zh) * | 2005-04-15 | 2008-03-05 | 编码技术股份公司 | 去相干信号的包络整形 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4630305A (en) * | 1985-07-01 | 1986-12-16 | Motorola, Inc. | Automatic gain selector for a noise suppression system |
US5651071A (en) * | 1993-09-17 | 1997-07-22 | Audiologic, Inc. | Noise reduction system for binaural hearing aid |
SE9903553D0 (sv) * | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
AUPQ366799A0 (en) * | 1999-10-26 | 1999-11-18 | University Of Melbourne, The | Emphasis of short-duration transient speech features |
US6377637B1 (en) * | 2000-07-12 | 2002-04-23 | Andrea Electronics Corporation | Sub-band exponential smoothing noise canceling system |
SE0004818D0 (sv) * | 2000-12-22 | 2000-12-22 | Coding Technologies Sweden Ab | Enhancing source coding systems by adaptive transposition |
US7013011B1 (en) * | 2001-12-28 | 2006-03-14 | Plantronics, Inc. | Audio limiting circuit |
US20030187663A1 (en) * | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
CA2388352A1 (en) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for frequency-selective pitch enhancement of synthesized speed |
EP1543307B1 (en) * | 2002-09-19 | 2006-02-22 | Matsushita Electric Industrial Co., Ltd. | Audio decoding apparatus and method |
US8078475B2 (en) * | 2004-05-19 | 2011-12-13 | Panasonic Corporation | Audio signal encoder and audio signal decoder |
US7742914B2 (en) * | 2005-03-07 | 2010-06-22 | Daniel A. Kosek | Audio spectral noise reduction method and apparatus |
WO2007107670A2 (fr) * | 2006-03-20 | 2007-09-27 | France Telecom | Procede de post-traitement d'un signal dans un decodeur audio |
US8352257B2 (en) * | 2007-01-04 | 2013-01-08 | Qnx Software Systems Limited | Spectro-temporal varying approach for speech enhancement |
DE602007008429D1 (de) * | 2007-10-01 | 2010-09-23 | Harman Becker Automotive Sys | Effiziente Audiosignalverarbeitung im Subbandbereich, Verfahren, Vorrichtung und dazugehöriges Computerprogramm |
CN101587711B (zh) | 2008-05-23 | 2012-07-04 | 华为技术有限公司 | 基音后处理方法、滤波器以及基音后处理*** |
WO2011127832A1 (en) | 2010-04-14 | 2011-10-20 | Huawei Technologies Co., Ltd. | Time/frequency two dimension post-processing |
-
2011
- 2011-04-14 WO PCT/CN2011/072811 patent/WO2011127832A1/en active Application Filing
- 2011-04-14 US US13/086,905 patent/US8793126B2/en active Active
- 2011-04-14 CN CN201180018941.2A patent/CN103069484B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101138274A (zh) * | 2005-04-15 | 2008-03-05 | 编码技术股份公司 | 去相干信号的包络整形 |
Also Published As
Publication number | Publication date |
---|---|
US20110257979A1 (en) | 2011-10-20 |
CN103069484A (zh) | 2013-04-24 |
WO2011127832A1 (en) | 2011-10-20 |
US8793126B2 (en) | 2014-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103069484B (zh) | 时/频二维后处理 | |
US10339938B2 (en) | Spectrum flatness control for bandwidth extension | |
US10217470B2 (en) | Bandwidth extension system and approach | |
US9646616B2 (en) | System and method for audio coding and decoding | |
US8560330B2 (en) | Energy envelope perceptual correction for high band coding | |
JP5013863B2 (ja) | 符号化装置、復号化装置、通信端末装置、基地局装置、符号化方法及び復号化方法 | |
RU2585990C2 (ru) | Устройство и способ для выполнения кодирования методом хаффмана | |
US10762912B2 (en) | Estimating noise in an audio signal in the LOG2-domain | |
CN101192410B (zh) | 一种在编解码中调整量化质量的方法和装置 | |
KR101386645B1 (ko) | 모바일 기기에서 지각적 오디오 코딩 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |