CN1729509A - 在音频编码中正弦波选择 - Google Patents
在音频编码中正弦波选择 Download PDFInfo
- Publication number
- CN1729509A CN1729509A CNA2003801068251A CN200380106825A CN1729509A CN 1729509 A CN1729509 A CN 1729509A CN A2003801068251 A CNA2003801068251 A CN A2003801068251A CN 200380106825 A CN200380106825 A CN 200380106825A CN 1729509 A CN1729509 A CN 1729509A
- Authority
- CN
- China
- Prior art keywords
- candidate
- sinusoidal wave
- sine wave
- wave
- amplitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 35
- 230000008569 process Effects 0.000 claims description 5
- 230000008447 perception Effects 0.000 claims description 4
- 230000001052 transient effect Effects 0.000 description 19
- 239000000203 mixture Substances 0.000 description 15
- 230000003595 spectral effect Effects 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 235000017060 Arachis glabrata Nutrition 0.000 description 3
- 241001553178 Arachis glabrata Species 0.000 description 3
- 235000010777 Arachis hypogaea Nutrition 0.000 description 3
- 235000018262 Arachis monticola Nutrition 0.000 description 3
- 239000002609 medium Substances 0.000 description 3
- 235000020232 peanut Nutrition 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- LTXREWYXXSTFRX-QGZVFWFLSA-N Linagliptin Chemical compound N=1C=2N(C)C(=O)N(CC=3N=C4C=CC=CC4=C(C)N=3)C(=O)C=2N(CC#CC)C=1N1CCC[C@@H](N)C1 LTXREWYXXSTFRX-QGZVFWFLSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000012526 feed medium Substances 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/093—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种通过由多个正弦波表示(12)至少部分音频信号编码(1)所述音频信号(x(t))的方法,所述方法包含以下步骤:在所述音频信号的第一段上执行分析;基于所述分析选择候选正弦波;为候选正弦波的至少其中一个定义在所述候选正弦波的频率周围的本振频率带;在所述本振频率带内组合频率成分的振幅,其中排除在所述本振频率带内的候选正弦波的至少其中一个;以及依赖于振幅的组合,选择所述候选正弦波作为选择正弦波。根据本发明的正弦波的选择将产生对于给定音频质量编码较小数目的正弦波,这在给定音频质量的比特率方面是有利的。
Description
本发明涉及音频信号的编码,其中选择与再现音频信号相关的正弦波并且编码其参数。
在正弦波音频编码器中,至少部分音频信号由多个正弦波表示,正弦波通常由其频率、振幅和任选的相位来描述。在编码过程中,以时间段分割音频信号,在它们的频率内容方面分析时间段。典型地,在音频编码器中使用的段大小是在5-60毫秒范围内。对于每一段,选择若干正弦波,随后编码正弦波的参数。为了最小化给定音频质量的比特率,仅仅需要选择和编码相关的正弦波,即仅仅需要在可接受的感知质量中再现编码音频信号的那些正弦波。
R.McAulay和T.Quartieri在1986年声学、语音和信号处理的IEEE学报43期:第744-754页:《基于正弦波表示的语音分析/合成》公开了选择正弦波的方法,该方法称为峰值检出法(Peak Picking)。峰值检出法(Peak Picking)包含选择具有振幅谱峰值的那些频率。选择正弦波的另一个方法是迭代过程,称为匹配跟踪法(matchingpursuit),该方法在2002年Orlando(美国)的声学、语音和信号处理的Proc.IEEE Int.Conf.R.Heusdens和S.van de Par的文章“使用心理声学匹配跟踪的音频和语音的速率失真最佳正弦波模型”公开。每次迭代,含有振幅谱最高峰值的频率被选择并且随后从信号中减去该频率。在接下来的迭代中使用剩余的信号。当选择固定数目的正弦波时,通常停止该过程。
由峰值检出法产生的问题是因为选择了所有的峰值所以预先不知道要估计多少正弦波。特别是,当振幅谱是噪声时,则选择了太多的正弦波。与峰值检出法相反,在匹配跟踪法中选择的正弦波的数目是固定的。结果,为了保证选择所有相关的正弦波,这个固定数应该设置的高。将再次选择太多的正弦波。太多的正弦波的选择导致高的比特率,因为所有这些正弦波必须被编码。另一个缺点是在处理时间上有额外的花费。例如感知模拟是在许多音频编码器中使用的过程,以便仅仅编码人耳朵可以听到的部分音频信号。这个模拟是一个昂贵的过程。结果,不希望必须分析的正弦波数目巨大。
本发明的目的是提供音频编码,该音频编码在给定音频质量的比特率方面是有优势的。为此,本发明提供一种编码方法、音频编码器和音频***,如在所附权利要求中所定义的。在所附的权利要求中定义了有利的实施例。
本发明的第一方面是提供一种通过由多个正弦波表示至少部分音频信号来编码所述音频信号的方法。该方法包含以下步骤:在音频信号的第一段执行分析;基于所述分析选择候选正弦波;为候选正弦波的至少其中一个定义在所述候选正弦波的频率周围的本振频率带;在所述本振频率带内组合频率成分的振幅,其中排除在所述本振频率带内的候选正弦波的至少其中一个;依赖于振幅的组合,选择所述候选正弦波作为选择的正弦波。用于选择候选正弦波的所述分析通常是频率分析。这样的频率分析例如在传统的正弦波选择技术中使用,例如峰值检出法或匹配跟踪法。对于在所述候选正弦波应用的选择程序,在音频信号的第二段执行分析。通常,第二段等于在候选正弦波的选择中使用的第一段,但这不是必需的情况。通过在所述本振频率带内组合频率成分的振幅,其中排除在所述本振频率带内的候选正弦波的至少其中一个,获得用于在所述候选正弦波的本振频率带内的背景频率成分的一个量度(measure)。通过使用这个量度,做出较好的选择。仅仅编码选择的正弦波。结果,选择程序将导致对于给定音频质量编码较小数目的正弦波,这在给定音频质量的比特率方面是有优势的。
根据本发明的另一个方面,依赖于所述候选正弦波的频率,定义在所述候选正弦波的频率周围的所述本振频率带的带宽。因为依赖于所述候选正弦波的频率,所以可以调整选择程序以适合于不同的频率。
根据本发明的再一个另外的方面,对所述候选正弦波的频率的所述依赖是基于人对音频的感知。这样一种依赖的例子是由巴克(Bark)带宽定义。巴克(Bark)是感知频率的单位,这在本领域是已知的。另外的例子是Mel标度(scale)和ERB标度,这在本领域也是已知的。通过考虑人对音频的感知,做出较好的决定来选择候选正弦波作为选择正弦波。
在本发明的一个实施例中,当关于振幅的所述组合,其振幅是很重要时,选择所述候选正弦波作为选择正弦波,其重要性通过阈值处理(thresholding)在所述候选正弦波的振幅和在所述候选正弦波的本振频率带内的频率成分的加权平均振幅之间的差值来估计,其中排除在所述本振频率带内的候选正弦波的至少其中一个。通过阈值处理(thresholding)所述差值,获得适合的方法用于确定候选正弦波的峰值。
在本发明的另一个实施例中,所述候选正弦波振幅的所述重要性由阈值处理(thresholding)以下比率来估计:
-在所述候选正弦波的振幅和在所述候选正弦波的本振频率带内的频率成分的加权平均振幅之间的差值,其中排除在所述本振频率带内的候选正弦波的至少其中一个;以及
-在所述本振频率带内的频率成分振幅的加权偏差,其中排除在所述本振频率带内的候选正弦波的至少其中一个。
对于所述偏差,例如可以使用标准偏差的定义。通过阈值处理所述比率,获得另外一个合适方法用于确定候选正弦波的峰值。
在本发明的再一个另外的实施例中,将另一个选择程序应用于选择的正弦波上。这另一个选择程序包含以下步骤:为选择正弦波的至少其中一个确定相位一致性,该一致性由一个范围所定义,该范围是在某一时刻所述选择的正弦波的及时相位由在另外的时刻确定的所述选择的正弦波的及时相位来预测的范围;当所述选择的正弦波的相位一致性高于预定的阀值时,选择所述的选择正弦波作为另一个选择正弦波。在某一时刻所述选择正弦波的及时相位由在另外的时刻确定的所述选择的正弦波的及时相位来预测,因为它的频率和在预测的时间和确定的时间之间的差值是已知的。本发明是基于一种洞察力:当正弦波在解码器中被合成以再生编码的音频信号时,正弦波的相位将是一致的。通过选择那些正弦波用于编码其中相位一致的正弦波,做出较好的选择。所述另外的选择是基于正弦波的相位,所述相位独立于正弦波的振幅。因此,另外的选择可导致另外选择正弦波的数目相比于先前的选择程序选择的选择正弦波的数目再次减少。仅另外选择的正弦波将必须被编码。结果,另外选择程序将导致对于给定音频质量编码较少数目的正弦波,这在给定音频质量的比特率方面是有优势的。因为在基于振幅的选择程序和基于相位一致性的另外选择程序之间的独立性,所以可并行的执行两个选择程序。这两个选择程序在候选正弦波范围之外进行选择,之后其结果被组合。
在本发明的又一个另外的实施例中,通过以下步骤来确定所述选择正弦波的相位一致性:将音频信号的第三段分割为至少第一和第二部分;确定在至少第一和第二部分的所述选择正弦波的实际相位;使用在第一部分的实际相位当作输入用于预测在第二部分的实际相位;以及基于在第二部分中的实际相位和预测相位之间的预测误差确定所述选择正弦波的相位一致性。通常,第三段将等于在先前选择程序中使用的第二段,但是这也不是必需的情况。这个实施例的优点是,通过执行频率分析,像FFT程序,可以容易地确定所述选择正弦波的实际相位,因为分析需要作为输入的一部分音频信号。
结合下文描述的实施例,本发明的上述和其他方面将显而易见,并且结合下文描述的实施例说明本发明的上述和其他方面。
在附图中
图1显示了根据本发明的音频编码器的实施例;
图2显示了表示根据本发明应用于候选正弦波的选择程序的方块图;
图3显示了分割音频段为较小部分以确定选择正弦波的相位一致性的例子;
图4显示了根据本发明的音频***的实施例。
附图仅仅显示了对于理解本发明必需的那些部分。
图1显示了根据本发明的音频编码器1的实施例,包含用于获得输入音频信号x(t)的输入单元10。音频编码器1将输入信号分成三个成分:瞬态信号成分、正弦信号成分和噪音信号成分。音频编码器1包含瞬态编码器11、正弦波编码器12和噪音分析器13。
瞬态编码器11包含瞬态检测器(TD)110、瞬态分析器(TA)111和瞬态合成器(TS)112。首先,信号x(t)进入瞬态检测器110、瞬态分析器111和减法器15。瞬态检测器110估计是否有瞬态信号成分以及在哪个位置。将这个信息送到瞬态分析器111中。也可以在正弦波分析器(SA)120或噪声分析器(NA)13使用这个信息来获得有利的感应信号段。瞬态分析器111设法提取(主要部分的)瞬态信号成分。这一点例如通过给信号段匹配形状函数和确定形状函数下面的内容,例如正弦波的(小)数目来完成。这个信息包含在瞬态码CT中。将瞬态码CT提供给瞬态合成器112和多路复用器14中。在减法器15中从输入信号x(t)中减去合成瞬态信号成分,产生信号x1,将信号x1提供给正弦波分析器120和另一个减法器16。正弦波分析器120确定正弦波信号成分。这个信息包含在正弦波码CS中,将正弦波码CS提供给正弦波合成器(SS)121和多路复用器14中。从正弦波码CS,由正弦波合成器21重建正弦波信号成分。在减法器16中从输入信号x1减去这个信号。剩余信号x2缺少(大)的瞬态信号成分和(主要)的正弦波信号成分,因此,剩余信号x2假设主要由噪音组成。因此,将信号x2提供给噪声分析器13,其中在其频谱和时间包络方面分析该信号。这个信息包含在噪声码CN.中。在多路复用器14中,组成包含码CT、CS和CN.的音频流AS。将音频流AS提供给例如数据总线、天线***、存储介质等。
接下来,将讨论根据本发明实施例在正弦波分析器120中的正弦波的选择。还可能在瞬态分析器111中使用正弦波选择程序,尽管实际上很少做,因为在那里仅分析小数目的正弦波。
在执行正弦波的实际选择之前,首先选择候选正弦波的数目。在音频信号的第一段执行分析,从分析中选择候选正弦波。这个选择例如可由传统的技术像峰值检出法或匹配跟踪法来执行,在第一段使用频率分析。结果将有适合于较多特定正弦波选择程序的候选正弦波的数目。图2显示了表示根据本发明应用于候选正弦波的选择过程的方块图。这些候选正弦波的频率存储在具有R个候选正弦波的Fq=(f1,f2,...,fR)中并且频率fi被定义为赫兹(Hz)。第二段可被窗处理适合于频率分析,这产生窗口段xw。第二段通常等于在候选正弦波的选择中使用的第一段,而且可以使用不同的第二段。首先,执行预处理阶段(PP)。在(I)中,对于Fq:的每个频率fi,合成候选正弦波并从窗口段xw中减去候选正弦波。在(II)中,最后所得到的段xws是零填充到长度P(zero-padded to length P)并且例如通过FFT程序对于其频率成分分析xws。最后所得到的振幅谱由|XS|.表示。第二,在(III)中,段xw是零填充到长度P并且对于其频率成分分析段xw而不减去导致振幅谱|X|.的频率。在预处理阶段后,对于具有在(IV)初始化的Fq:中的频率fi的选择正弦波的至少其中一个开始选择程序。在(V)中,在所述频率fi周围确定本振频率带。为了定义本振频率带,可以使用不同的定义。在这个情况下,选择使用例如由临界带宽定义的巴克(Bark)带宽:
b(fi)=25+75·(1+1.4·10-6·fi 2)0.69 (1)
从赫兹(Hz)定义的临界带宽b(fi)中,由下式确定边界频率fa和fb:
频谱用符号ispect来指示,ispect根据下式相对于频率fspect从0-(P-1)连续(running):
其中Fs是采样频率(例如44.1kHz)。因此,相应于边界频率fa和fb的频谱中的符号ia和ib由下式表示:
其中round(r)表示对r取整为最接近的整数。现在定义本振频率带,在来自|XS|.的(VI)中由下式计算候选正弦波的频率带mi的平均振幅:
其中AS(k)是符号K上的振幅谱|XS|.中频谱成分的振幅以及Wi(k)是依赖于符号k的加权系数。加权系数对于所有k是恒量。然而,例如加权系数对于离边界频率符号ia或ib之一较近的符号k可减少,以便减少边界效应。依赖在候选正弦波的本振频率带的其他振幅,候选正弦波将被选择为选择正弦波。因此,选择候选正弦波作为选择正弦波的方法是使用基于在(5)中计算的候选正弦波的频率带
mi的加权平均振幅和候选正弦波Ai=A(ifi)i的振幅的标准,其中在振幅谱中的符号ifi由下式确定:
在本发明的另一个实施例中,在选择程序中使用的标准也包含候选正弦波的本振频率带的标准偏差σi,σi在(VI)中由下式计算:
其中W2(k)是依赖于符号k的另一个加权系数。所述另一个加权系数对于所有k是恒量。然而,例如所述另一个加权系数对于离边界频率符号ia或ib之一较近的符号k可减少,以便减少边界效应。W2(k)被选择等于在(5)中使用的W1(k),但这不是必需的情况。从候选正弦波Ai的振幅、平均振幅
mi和候选正弦波的频率带的标准偏差σi中定义比率ri,ri是候选正弦波的峰值的一个量度。
在选择标准(VIII)中,将这个比率ri与阀值Ti.比较。阈值Ti.例如是固定的阈值或依赖于某些参数的阈值,所述参数像候选正弦波fi:的频率、在频谱中的频率的符号ifi和/或用于频率分析的采样数目P。对于阈值Ti.的定义的一个例子是:
如果比率ri高于阈值Ti.,则为编码(S)保持频率fi的候选正弦波。否则,拒绝(NS)候选正弦波。
在本发明的再一个另外的实施例中,执行选择正弦波的另一个选择。因此,基于先前选择程序的选择正弦波的频率被存储在具有L个选择正弦波的F=(f1,f2,...,fL),中并且频率fi被定义为赫兹(Hz)。在选择正弦波的至少之一上,另外选择程序将被应用,该选择程序是基于选择正弦波的相位一致性的。选择正弦波的相位一致性由一个范围来定义,该范围为在某一时刻所述选择的正弦波的及时相位由在另外的时刻确定的所述选择的正弦波的及时相位来预测的范围。其次,当所述相位一致性高于预确定的阈值时所述选择的正弦波被再次选择为另外的选择正弦波
在本发明的下一个实施例中,通过首先分割音频信号的第三段为较小的部分来确定选择的正弦波的相位一致性。这第三段将通常等于先前选择程序中使用的第二段,而且可以使用不同的第三段。两个或更较小的部分必须可用于确定选择的正弦波的相位一致性。较小的部分可能相互重叠,但这不是必需的情况。例如第三段xs可分割为三个重叠的较小部分,如图3所示。如果N是第三段xs采样数目并且N是偶数,则较小部分如下式定义:
其中M=N/2和l≤k≤M。较小部分xs1、xs2和xs3的每个具有长度M。在每个这些三个较小部分上,确定具有F中频率fi的选择正弦波的实际相位。为了这个目的,较小部分可被窗处理适合于频率分析,之后执行频率分析,像FFT程序。在图3中显示了由1:、2和3相位确定的位置的例子。其次,在这种情况下从较小部分1到2、从2到3和从1到3预测相位。实际和预测相位之间的差值导致选择的正弦波的以下预测误差:
E1,2=(1-(2-T/2·2π·fi))mod(2π)
E2,3=(3-(2+T/2·2π·fi))mod(2π) (11)
E1,3=(3-(1+T·2π·fi))mod(2π)其中预测误差是模数检验(modulo sense)(mod(2π)),相位1:、2和3以弧度形式给出,T以秒的形式给出并且由T=M/Fs来定义。基于这些预测误差E使用某种标准,选择正弦波进一步选择为另外的选择正弦波。如果下面条件至少其中一个是真,测试可能的标准。
|E1,2|<c
|E2,3|<c (12)
|E1,3|<2·c其中c通常是依赖于第三段xs的采样数目N和较小部分xs1、xs2和xs3的采样数目M。对于c定义的一个例子是:
图4显示了根据本发明的音频***的实施例,该音频***包含在图1中所示的音频编码器1。这样一个***提供记录和/或传输特征。通过音频信号获得装置41例如音频播放器、麦克风或音频输入连接器等获得音频信号x(t)。音频信号x(t)用作音频编码器1的输入,如图1所示。将来自音频编码器1的输出音频流AS提供给格式化装置42,所述装置为通信信道43合适地格式化音频流AS,所述通信信道43可以是无线连接、数据总线或存储介质。假设通信信道43是存储介质,所述存储介质可以固定在***中或也可以是可移动的磁盘、记忆棒(memory stick)等。通信信道43是音频***的一部分,但是通常在音频***的外部。
应当指出的是,上述的实施例表示了本发明而不是限制了本发明。本领域的技术人员将能够设计许多可替换的实施例而不脱离所附权利要求的范围。在权利要求中,在括号之间的任何参考标记不应该解释为限制了权利要求。词“包含”没有排除除了权利要求中列出的其他元件或步骤的存在。借助包含不同的元件的硬件和借助适当可编程的计算机执行本发明。在列举几种装置的设备权利要求中,通过硬件的一个和相同的项目实施这些装置的几个。事实仅仅是:在相互不同的从属权利要求中限定的一些方案并不表示不能使用这些方案的组合来获益。
总之,本发明提供一种通过由多个正弦波表示至少部分所述音频信号来编码音频信号的方法,该方法包含以下步骤:在音频信号的第一段执行分析;基于所述分析选择候选正弦波;为候选正弦波的至少其中一个定义在所述候选正弦波的频率周围的本振频率带;在所述本振频率带内组合频率成分的振幅,其中排除在所述本振频率带内的候选正弦波的至少其中一个;在依赖于振幅的组合的情况下,选择所述候选正弦波作为选择的正弦波。根据本发明正弦波的选择将产生对于给定音频质量编码较小数目的正弦波,这在给定音频质量的比特率方面是有利的。
Claims (10)
1.一种通过由多个正弦波表示至少部分音频信号来编码音频信号的方法,该方法包含以下步骤:
-在所述音频信号的第一段上执行分析;
-基于所述分析选择候选正弦波;
-为候选正弦波的至少其中一个定义在所述候选正弦波的频率周围的一个本振频率带;
-在所述本振频率带内组合多个频率成分的振幅,由此排除在所述本振频率带内的候选正弦波的至少之一;以及
-依赖振幅的组合,选择所述候选正弦波作为选择正弦波。
2.如权利要求1所述的方法,其中依赖所述候选正弦波的频率定义在所述候选正弦波的频率周围的所述本振频率带的带宽。
3.如权利要求2所述的方法,其中对所述候选正弦波的频率的所述依赖是基于人对音频的感知。
4.如权利要求1所述的方法,其中当针对振幅的所述组合所述候选正弦波的振幅很重要时,选择所述候选正弦波作为选择正弦波,其重要性通过阈值处理在所述候选正弦波的振幅和在所述候选正弦波的本振频率带内的频率成分的加权平均振幅之间的差值来估计的,由此排除在所述本振频率带内的候选正弦波的至少其中一个。
5.如权利要求1所述的方法,其中当针对振幅的所述组合所述候选正弦波的振幅很重要时,选择所述候选正弦波作为选择的正弦波,其重要性是由阈值处理以下比率来估计:
-在所述候选正弦波的振幅和在所述候选正弦波的本振频率带内的频率成分的加权平均振幅之间的差值,其中排除在所述本振频率带内的候选正弦波的至少其中一个;以及
-在所述本振频率带内的频率成分振幅的加权偏差,其中排除在所述本振频率带内的候选正弦波的至少其中一个。
6.如权利要求1所述的方法,其中该方法进一步包含在选择正弦波范围外的另外的选择,其包含以下步骤:
-为选择正弦波的至少其中一个确定相位一致性,该一致性由一个范围来定义,该范围是在某一时刻所述选择正弦波的及时相位由在另外的时刻确定的所述选择正弦波的相位来预测的范围;以及
-当其相位一致性高于预确定的阈值时,再次选择所述的选择正弦波作为另一个选择正弦波。
7.如权利要求6所述的方法,其中所述选择正弦波的相位一致性的确定包含以下步骤:
-分割所述音频信号的第三段为至少第一和第二部分;
-确定在至少第一和第二部分的所述选择的正弦波的实际相位;
-使用在第一部分的实际相位当作输入用于预测在第二部分的实际相位;以及
-基于在第二部分的实际相位和预测相位之间的预测误差,确定所述选择正弦波的相位一致性。
8.一个用于通过由多个正弦波表示至少部分所述音频信号来编码音频信号的音频编码器,音频编码器包含:
-用于在所述音频信号的第一段执行分析的装置;
-用于基于所述分析选择候选正弦波的装置;
-用于为候选正弦波的至少其中一个在所述候选正弦波的频率周围定义本振频率带的装置;
-用于组合在所述本振频率带内的频率成分的振幅的装置,其中排除在所述本振频率带内的候选正弦波的至少其中一个;
-用于依赖于振幅的组合选择所述候选正弦波作为选择正弦波的装置。
9.如权利要求8所述的音频编码器,其中进一步构思音频编码器执行在选择正弦波之外的另外的选择,对于所述另外的选择,音频编码器进一步包含:
-用于为选择正弦波的至少其中一个确定相位一致性的装置,该一致性由一个范围来定义,该范围是在某一时刻所述选择的正弦波的及时相位由在另外的时刻确定的所述选择的正弦波的及时相位来预测的范围;以及
-用于当其相位一致性高于预确定的阈值时,再次选择所述的选择正弦波作为另一个选择正弦波的装置。
10.一种音频***,包含用于获得音频信号的装置,如权利要求8或9所述的用于编码音频信号以获得编码的音频信号的音频编码器,以及用于将编码的音频信号格式化为适合存储和/或传输的格式的格式化单元。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP02080420 | 2002-12-19 | ||
EP02080420.9 | 2002-12-19 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1729509A true CN1729509A (zh) | 2006-02-01 |
CN100559468C CN100559468C (zh) | 2009-11-11 |
Family
ID=32668778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2003801068251A Expired - Fee Related CN100559468C (zh) | 2002-12-19 | 2003-11-20 | 在音频编码中正弦波选择 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20070112573A1 (zh) |
EP (1) | EP1576583A2 (zh) |
JP (1) | JP2006510938A (zh) |
KR (1) | KR101008529B1 (zh) |
CN (1) | CN100559468C (zh) |
AU (1) | AU2003295178A1 (zh) |
WO (1) | WO2004057575A2 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105940380A (zh) * | 2014-02-28 | 2016-09-14 | 谷歌公司 | 跨缺失数据的正弦内插 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2005267955C1 (en) * | 2004-08-05 | 2009-02-19 | Lg Electronics Inc. | Interrupting use of frequency layer convergence scheme |
CA2672165C (en) | 2006-12-12 | 2014-07-29 | Ralf Geiger | Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream |
KR101413967B1 (ko) * | 2008-01-29 | 2014-07-01 | 삼성전자주식회사 | 오디오 신호의 부호화 방법 및 복호화 방법, 및 그에 대한 기록 매체, 오디오 신호의 부호화 장치 및 복호화 장치 |
KR101441898B1 (ko) * | 2008-02-01 | 2014-09-23 | 삼성전자주식회사 | 주파수 부호화 방법 및 장치와 주파수 복호화 방법 및 장치 |
US9055374B2 (en) * | 2009-06-24 | 2015-06-09 | Arizona Board Of Regents For And On Behalf Of Arizona State University | Method and system for determining an auditory pattern of an audio segment |
US9020080B2 (en) * | 2011-06-16 | 2015-04-28 | Lockheed Martin Corporation | Method and system to adaptively cancel sinusoidal interference from a signal processing system |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5054072A (en) * | 1987-04-02 | 1991-10-01 | Massachusetts Institute Of Technology | Coding of acoustic waveforms |
JP3134455B2 (ja) * | 1992-01-29 | 2001-02-13 | ソニー株式会社 | 高能率符号化装置及び方法 |
WO1994028633A1 (fr) * | 1993-05-31 | 1994-12-08 | Sony Corporation | Appareil et procede de codage ou decodage de signaux, et support d'enregistrement |
DE60113034T2 (de) * | 2000-06-20 | 2006-06-14 | Koninkl Philips Electronics Nv | Sinusoidale kodierung |
WO2004057576A1 (en) * | 2002-12-19 | 2004-07-08 | Koninklijke Philips Electronics N.V. | Sinusoid selection in audio encoding |
-
2003
- 2003-11-20 JP JP2004561746A patent/JP2006510938A/ja not_active Withdrawn
- 2003-11-20 KR KR1020057011277A patent/KR101008529B1/ko not_active IP Right Cessation
- 2003-11-20 WO PCT/IB2003/005346 patent/WO2004057575A2/en not_active Application Discontinuation
- 2003-11-20 CN CNB2003801068251A patent/CN100559468C/zh not_active Expired - Fee Related
- 2003-11-20 EP EP03786180A patent/EP1576583A2/en not_active Withdrawn
- 2003-11-20 US US10/539,318 patent/US20070112573A1/en not_active Abandoned
- 2003-11-20 AU AU2003295178A patent/AU2003295178A1/en not_active Abandoned
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105940380A (zh) * | 2014-02-28 | 2016-09-14 | 谷歌公司 | 跨缺失数据的正弦内插 |
Also Published As
Publication number | Publication date |
---|---|
KR101008529B1 (ko) | 2011-01-14 |
CN100559468C (zh) | 2009-11-11 |
EP1576583A2 (en) | 2005-09-21 |
US20070112573A1 (en) | 2007-05-17 |
AU2003295178A1 (en) | 2004-07-14 |
AU2003295178A8 (en) | 2004-07-14 |
WO2004057575A2 (en) | 2004-07-08 |
KR20050085744A (ko) | 2005-08-29 |
WO2004057575A3 (en) | 2004-09-30 |
JP2006510938A (ja) | 2006-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1172293C (zh) | 有效频谱包络编码方法及其编解码设备 | |
CN101223577B (zh) | 对低比特率音频信号进行编码/解码的方法和设备 | |
CN1270292C (zh) | 语音带宽扩展装置及语音带宽扩展方法 | |
JP6530449B2 (ja) | 符号化モード決定方法及び該装置、オーディオ符号化方法及び該装置、並びにオーディオ復号化方法及び該装置 | |
EP1982329B1 (en) | Adaptive time and/or frequency-based encoding mode determination apparatus and method of determining encoding mode of the apparatus | |
CN1205755C (zh) | 以少量计算恢复高频分量的音频解码方法和装置 | |
US5774836A (en) | System and method for performing pitch estimation and error checking on low estimated pitch values in a correlation based pitch estimator | |
CA1243122A (en) | Processing of acoustic waveforms | |
CN103714821A (zh) | 基于位置的混合域数据包丢失隐藏 | |
CA2016462A1 (en) | Hybrid switched multi-pulse/stochastic speech coding technique | |
CN101622665A (zh) | 编码装置以及编码方法 | |
EP0766230B1 (en) | Method and apparatus for coding speech | |
CN1188832C (zh) | 过滤语言帧的多脉冲内插编码 | |
CN1229502A (zh) | 码激励线性预测(celp)编码器中搜索激励代码簿的方法和装置、 | |
AU643769B2 (en) | Coding of acoustic waveforms | |
CN1717718A (zh) | 正弦波音频编码 | |
CN1729509A (zh) | 在音频编码中正弦波选择 | |
CN102160114B (zh) | 用于对数字音频信号中的前回声进行衰减的方法和装置 | |
Zhu et al. | Sound texture modeling and time-frequency LPC | |
Gomez et al. | Recognition of coded speech transmitted over wireless channels | |
CN1320257A (zh) | 带有改进的编码器的音频传输*** | |
CN1729510A (zh) | 音频编码中的正弦波选择 | |
CN1849649A (zh) | 瞬态音频信号分量的编码 | |
CN1335979A (zh) | 具有改进的编码器和解码器的传输*** | |
CN1934618A (zh) | 恢复声音信号的谐频的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20091111 Termination date: 20121120 |