CN102177544B - 具有预测编码器的临界采样编码 - Google Patents
具有预测编码器的临界采样编码 Download PDFInfo
- Publication number
- CN102177544B CN102177544B CN200980140384.4A CN200980140384A CN102177544B CN 102177544 B CN102177544 B CN 102177544B CN 200980140384 A CN200980140384 A CN 200980140384A CN 102177544 B CN102177544 B CN 102177544B
- Authority
- CN
- China
- Prior art keywords
- coding
- sampling
- decoding
- subsequence
- sequences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005070 sampling Methods 0.000 title claims description 149
- 238000000034 method Methods 0.000 claims abstract description 50
- 230000005236 sound signal Effects 0.000 claims abstract description 4
- 230000007704 transition Effects 0.000 claims description 71
- 238000006243 chemical reaction Methods 0.000 claims description 46
- 230000009466 transformation Effects 0.000 claims description 44
- 230000015572 biosynthetic process Effects 0.000 claims description 33
- 238000003786 synthesis reaction Methods 0.000 claims description 32
- 238000007634 remodeling Methods 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000005284 excitation Effects 0.000 description 5
- 230000007774 longterm Effects 0.000 description 5
- 101710084218 Master replication protein Proteins 0.000 description 3
- 101710112083 Para-Rep C1 Proteins 0.000 description 3
- 101710112078 Para-Rep C2 Proteins 0.000 description 3
- 102100022881 Rab proteins geranylgeranyltransferase component A 1 Human genes 0.000 description 3
- 102100022880 Rab proteins geranylgeranyltransferase component A 2 Human genes 0.000 description 3
- 101710119887 Trans-acting factor B Proteins 0.000 description 3
- 101710119961 Trans-acting factor C Proteins 0.000 description 3
- 239000002131 composite material Substances 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 241001362574 Decodes Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- BHTRKEVKTKCXOH-UHFFFAOYSA-N Taurochenodesoxycholsaeure Natural products OC1CC2CC(O)CCC2(C)C2C1C1CCC(C(CCC(=O)NCCS(O)(=O)=O)C)C1(C)CC2 BHTRKEVKTKCXOH-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000005086 pumping Methods 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- AWDRATDZQPNJFN-VAYUFCLWSA-N taurodeoxycholic acid Chemical compound C([C@H]1CC2)[C@H](O)CC[C@]1(C)[C@@H]1[C@@H]2[C@@H]2CC[C@H]([C@@H](CCC(=O)NCCS(O)(=O)=O)C)[C@@]2(C)[C@@H](O)C1 AWDRATDZQPNJFN-VAYUFCLWSA-N 0.000 description 1
- 229950005578 tidiacic Drugs 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
- G10L19/107—Sparse pulse excitation, e.g. by using algebraic codebook
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及一种用于数字音频信号编码和解码的方法,所述方法包括步骤:根据变换编码对数字信号采样的第一序列进行编码;根据预测编码对数字信号采样的第二序列进行编码;其中第二序列起始于第一序列末端之前,第一序列和第二序列所共有的子序列因此同时由预测编码和变换编码进行编码。
Description
本发明涉及数字信号编码的领域。
本发明可有利应用于语音和音乐交替呈现的声音编码。
为了高效编码语音声音,推荐使用CELP(码激励线性预测)类型的技术。另一方面,为了高效编码音乐声音,推荐使用变换编码的技术。
CELP类型的编码器是预测编码器。它们旨在根据不同的要素模拟语音产生:在发声过程中模拟声带振动的长期预测、随机激励(白噪声,代数激励(algebraic excitation)以及对模拟声道校正的短期预测。
变换编码器使用临界采样变换来压缩在变换域中的信号。在变换域中的系数个数等于数字化声音的系数个数的变换被称之为“临界采样变换”。
一种高效编码包含这两类内容信号的解决方法包含在时间问题上选择最佳技术的时间过程。尤其是,这类解决方法得到了3GPP(“第三代移动通信伙伴项目”)标准化组织的推荐,并且提出一种名为AMR WB+的技术。
该技术基于AMR WB类型的CELP技术和基于重叠傅里叶变换的变换编码。
该解决方法在音乐中的质量不高。这个缺点具体是源于变换编码。实际上,重叠傅里叶变换不是一种临界采样变换,因此它不是最理想的。
此外,在这样的编码器中使用的窗口在涉及能量集中方面不是最佳的:这些窗口的频率形式是相对固定的。
临界采样变换是众所周知的。例如,MP3和AAC类型的音乐编码器所使用的变换。这些变换依赖于称之为TDAC(时域混叠消除)的形式。
TDAC的使用使之有可能在音乐中获得非常好的质量。然而,该方法也存在着引入暂时混叠的缺点,这会阻碍CELP类型技术的结合。
实际上,在TDAC至CELP类型的过渡过程中,TDAC部分的暂时混叠没有被CELP所产生的信号相抵消,后者没有任何的混叠。
本发明的目的在于提出一种有可能通过交替变换编码技术(例如使用临界采样)和预测编码技术(例如CELP类型)来重构具有高质量的音频信号的技术。
为此目的,本发明提出一种编码数字信号的方法,包括步骤:
-编码步骤,根据变换编码对数字信号采样的第一序列进行编码;
-编码步骤,根据预测编码对数字信号采样的第二序列进行编码;
并且其中,第二序列起始于第一序列末端之前,因此第一和第二序列所共有的子序列在同一时间采用预测编码和转换编码进行编码。
因此,在数字音频信号的解码过程中,由第一序列的子序列编码所产生的混叠可以籍助于第二序列的子序列解码所产生的该子序列采样来消除。此外,第二序列可以从用于预测解码但不包含混叠的先前采样开始解码。
有利的是,变换编码是临界采样变换编码。
例如,变换编码是TDAC类型的变换编码。
例如,预测编码是CELP类型的编码。
在优选的实施例中,第一序列的变换编码包括分析窗口的应用,使得有可能从用于数字信号的完整重构关系中推导合成窗口,其至少包括三部分:
-第一标称部分;
-第二大致为零的末端部分;
-第三在第一和第二部分之间大致连续的中间部分;
因此,至少将可能分别推导出合成窗口的第二和第三部分的所述分析窗口的部分应用于两个序列所共有子序列。
术语“大致连续”可以理解为可使得在第一和第二部分之间不存在任何间断的第三部分的情况。实际上,这类间断通过增加解码噪声来降低解码质量。
这样的完整重构关系规定了分析窗口与合成窗口之间的形式的关系。此外,在变换编码和预测编码之间进行切换时,有可能采用等效的方式来描述分析窗口或合成窗口。实际上,在这种情况下,重构关系在这两种类型之间存在着直接的联系。
因此,选择分析窗口(及其合成窗口)时,就有可能降低解码第一序列时所出现混叠的区域。
于是,定义窗口时,就可能降低为解码传输的第二序列(预测编码)的采样个数。
此外,增加采样的个数与中间部分的大小相关。
例如,中间部分为正弦弧。再例如,中间部分为″Kaiser-Bessel″推导的函数。此外,也可由窗口优化计算来产生且不具有任何确定的表达式。
例如,合成窗口是不对称窗口。
于是,合成窗口(及其分析窗口)的特性有可能适用于第一序列之后或之前的序列的编码。
在优选的实施例中,合成窗口还可以包括第四初始化部分,其在大致为零数值与第一部分非零数值之间是连续的。
因此,有可能最小化在变换编码中的变换编码与预测编码之间过渡的影响。
例如,合成窗口的第四部分是初始数值与标称部分数值之间的平坦过渡的,第三部分是标称部分数值与大致为零部分数值之间的急剧过渡。
这就使得频域中的信号能量可以更好的集中,从而提高变换部分编码的效率。
可以使得第一和第二序列属于数字信号的同一帧中。
因此,有可能使用第一序列的编码作为变换编码的帧编码之后的过渡编码。这就有可能在不影响该帧的情况下改善编码的效率。
本发明还提供一种用于解码数字信号的方法,包括步骤:
-接收根据变换编码对数字信号采样第一序列进行编码的变换矢量;
-接收根据预测编码对数字信号采样第二序列进行编码的预测矢量;
其中,第二序列起始于第一序列末端之前,因此接收由预测编码和变换编码在同一时间编码的第一和第二序列所共有的子序列,并且还进一步包括步骤:
a)对变换矢量应用变换编码的逆变换,解码不是由预测编码进行编码的第一序列的子序列;
b)根据至少一个由步骤a)产生的采样,至少在预测矢量中采用预测解码对第一和第二序列所共有的子序列进行解码;
c)根据由步骤a)或步骤b)之一所产生的至少一个采样,在预测矢量中采用预测解码对不是由变换编码进行编码的第二序列的子序列进行解码。
因此,有可能通过使用由预测解码进行解码的采样来消除在解码的子序列中所存在的混叠。
在优选的实施例中,步骤b)包括子步骤:
b1)根据在步骤a)产生的至少一个采样,在预测矢量中采用预测解码对第一和第二序列所共有的子序列进行解码;
b2)对变换矢量应用变换编码的逆变换,解码第一和第二序列所共有的子序列;以及,
b3)通过使用组合由步骤b1)产生的至少一个采样与从步骤b2)产生的对应采样,对第一和第二序列所共有的子序列进行解码。
例如,这种组合是线性的组合。因此,通过组合采样,可获得更鲁棒的解码。
在另一个优选的实施例中,步骤b)包括子步骤:
b4)根据由步骤a)产生的至少一个采样,在预测矢量中采用预测解码对的第一和第二序列所共有的子序列进行解码;
b5)根据由步骤b4)产生的至少一个采样来产生包含等于在变换解码之后的变换编码的混叠的采样;
b6)对变换矢量应用变换编码的逆变换,解码对第一和第二序列所共有的子序列;以及,
b7)通过使用由步骤b5)产生的至少一个采样与从步骤b6)产生的对应采样的组合,对第一和第二序列所共有的子序列进行解码。
因此,由步骤b5)产生的混叠完全对应于在已解码子序列中存在的混叠。
这种混叠的产生可由表示正变换操作和逆变换操作的矩阵来实施。这样的矩阵等效于变换解码后紧跟着变换编码的应用。
当然,有可能对所有的采样使用同一预测编码。
同样的,有可能每次执行这样的编码/解码时可以使用具有相同分析和合成窗口的相同变换的编码/解码。
在一个实施例中,步骤a)包括合成窗口的应用包括至少三部分:
-第一标称部分;
-第二大致为零的末端部分;
-第三在第一和第二部分之间大致连续的中间部分;
并且至少第二和第三部分应用于对两个序列所共有的子序列进行编码的采样。
本发明提供一种计算机程序,当该程序由处理器执行时,所述程序包括用于执行上述编码方法的指令。
此外,本发明旨在一种可由计算机读取的介质,这类计算机程序记录在所述介质上。
本发明还提供一种计算机程序,当该程序由处理器执行时,所述程序包括用于执行上述解码方法的指令。
此外,本发明旨在一种可由计算机读取的介质,这类计算机程序记录在所述介质上。
本发明提供一种适用于实施上述编码方法的编码实体。
这类用于数字音频信号的编码实体包括:
-变换编码器,用于根据变换编码对数字音频信号采样的第一序列进行编码;
-预测编码器,用于根据预测编码发对数字音频信号采样的第二序列进行编码;
其中,第二序列起始于第一序列末端之前,第一和第二序列所共 有的子序列因此由预测编码和变换编码在同一时间进行编码。
本发明提供一种适用于实施上述解码方法的解码实体。
这类用于数字音频信号的解码实体包括接收装置,用于:
-根据变换编码,接收数字信号采样的第一序列编码的变换矢量;以及,
-根据预测编码,接收数字信号采样的第二序列编码的预测矢量;
其中,第二序列起始于第一序列末端之前,第一和第二序列所共有的子序列因此由预测编码和变换编码在同一时间进行编码;并且其还包括:
-第一解码器,用于对变换矢量应用变换编码的逆变换,从而解码对不是由预测编码进行编码的第一序列的子序列;
-第二解码器,用于根据至少一个由第一变换解码器产生的采样,至少在预测矢量中对至少采用预测解码对第一和第二序列所共有子序列解码;以及,
-第三预测解码器,用于根据由第一或第二解码器之一所产生的至少一个采样,在预测矢量中采用预测解码对不是由变换编码进行编码的第二序列的子序列进行解码。
在优选的实施中,第二解码器包括:
-第一装置,用于根据由第一变换解码器产生的至少一个采样,在预测矢量中采用预测解码对第一和第二序列中所共有的子序列进行解码;
-第二装置,用于对变换矢量应用变换编码的逆变换,从而对第一和第二序列所共有的子序列进行解码;以及,
-第三装置,用于通过使用组合由第一装置产生的至少一个 采样与第二装置产生的对应采样,对第一和第二序列所共有的子序列进行解码。
在一个优选的实施例中,第二解码器包括:
-第一装置,用于根据由第一变换解码器所产生的至少一个采样,在预测矢量中采用预测解码对第一和第二序列所共有的子序列进行解码;
-第四装置,用于根据第一装置产生的至少一个采样来产生等于在变换解码之后的变换编码混叠的采样;
-第五装置,用于对变换矢量应用变换编码的逆变换,解码对第一和第二序列所共有的子序列;以及,
-第六装置,用于通过使用组合由第四装置产生的至少一个采样与第五装置产生的对应采样,对第一和第二序列所共有部分的子序列进行解码。
当然,执行同一类型的编码或解码的所有装置(基于预测或变换)都可以合成在同一个单元中。
同样的,有可能提供单一的单元(用于编码或解码)以分别执行基于预测和变换的编码或解码。
当然,上述的编码器/解码器可以包括信号处理器、存储器件、以及这些器件之间的通讯装置。
因此,本发明有可能随时交替使用基于变换的编码技术(例如使用TDAC类型的临界采样)和预测编码技术(例如CELP类型),以便获得良好的重构质量。
为此目的,本发明提供了这两类编码之间的特定的瞬时关系: CELP帧和变换的瞬时位置可随时移动。
在优选的实施例中,本发明还提出了在变换过渡到CELP的过程中,通过重叠来延长由CELP编码所包括的帧或序列的持续时间。如果变换需要较好的频率集中度,则这个过程可随着时间进行变化。
CELP编码使用的过程对各帧可以不相同,使得编码技术能够快速适应声音属性的变化。
根据本发明的优点,M个采样的帧可以再细分为多个子帧,将CELP-编码部分与在变换域中的其它相融合。
本发明可应用于声音编码***中,特别适用于标准化语音编码器,尤其是适用于编码包括语音信号的通用声音的ITU(***国际电信联盟)或ISO(国际标准化组织)标准。
本发发明的其他特性和优点将通过下文和附图的阐述变得明晰,附图包括:
-图1示出变换编码的两个合成窗口;
-图2示出本发明实施例的合成窗口;
-图3示出由合成窗口处理的数据帧;
-图4示出应用合成窗口所获得的采样矢量;
-图5示出在ARM WB编码之后的TDAC编码,并且随后为根据本发明一个实施例的TDAC编码的情况;
-图6示出具有优选不对称窗口的编码的相同情况;
-图7示出由本发明解决这类问题的通常情况;
-图8示出由本发明解决这类问题的框图;
-图9示出根据本发明编码方法的实施的步骤;
-图10示出了根据本发明一实施例的合成窗口的构成;
-图11示出了根据本发明解码方法的实施步骤;
-图12示出了在解码方法中使用的优选解码;
-图13示出了该优选解码的变化例;
-图14示出了根据本发明一实施例的编码器;
-图15示出了根据本发明一实施例的解码器;
-图16示出了适用于实施根据本发明实施例一种模式的编码器或解码器的硬件器件(implementation)。
下文将阐述完整重构TDAC变换并且将提及一种能与临界采样相兼容的技术。最后,本文将阐述一种CELP编码以及该编码与TDAC编码的组合。
TDCA以及完整的重构:
我们考虑根据周期为 的采样进行数字化的声音信号(Fe为采样频率)。对索引为t的给定帧而言,对各个时刻n+tM的采样标记为xn+tM。
在编码帧上,对TDAC变换的表达式可表示为:
-M表示变换的长度;
-Xt,k表示帧t在频域中的采样;
- 是变换的基础函数;
其中:
-ha(n)项称为原型滤波器或“分析加权窗口”并且覆盖2M个采样;以及,
-Cn,k项定义了调制;
为了重新获得初始瞬时采样,在解码时应用下述逆变换,以便重 构位于两个连续变换重叠区域的0≤n<M的采样。因此,解码采样表示为:
式中 表示合成变换,合成加权窗口标记为hs(n)并且覆盖2M个采样。
给出解码采样的重构等式也可表示为如下的形式:
这样的重构等式的其他表达式考虑到了两个逆余弦变换可能在变换域Xt,k和Xt+1,k中的采样中连续执行的情况,它们的结果随后通过加权和加法操作进行组合。
两个连续帧的叠加使得有可能消除称为变换的混叠分量。实际上,如果对t=0和t=1的帧可以由矩阵方式来表示的正变换和逆变换操作,则可获得:
合成后可得到:
并且具有:
-IM为大小为M的矩形恒等矩阵;
-JM为大小为M的矩形反恒等矩阵,其为增加索引的数值的序列,通过索引递减返回至相同数值序列;
-0M为只包括数值零的大小为M的矩形矩阵。
因此,它可以遵循:
并且通过使用t=1的帧进行分析:
因此,如果将 和 逐项叠加在一起,则可获得:
如果需要保证 并且因此获得完整的重构,可获得下述在分析和合成滤波器中的必要的条件:
即:
式中:
D(n)=ha0(n+M)·ha1(M-1-n)+ha1(n)·ha0(2M-1-n)
很显然,为了保证完整的重构,分析和合成形式可由时间反转以及加权进行构建。因此,如果hs在n位置包含零,那么ha在M/2附近的对称部分将包含它们,即在索引M-1-n处。
图1所示的实例说明了合成。在该实例中,大小为M的变换hs0和hs1被设置为相互跟随。
为了重构在M与2M-1间的采样,将由hs0与hs1之间共有部分所包含的采样叠加在一起。如果该窗口满足上述的重构条件,则重构是完整的。
因此,重构的通常情况是发生在当解码器接收到由直接变换所产生的例如Xt和Xt+1的两个连续频谱并且当对它们使用逆变换以便分别获得 和 时。通过将第一集合的最后M个采样与第二集合的开始M个采样叠加在一起就能完整地重构原始信号。
还需要考虑的是,仅仅只传输Xt。如果获知构建信号 的方法,则可获得完整的重构。如果获知采样xM至采样x2M-1,则也有可能进行完整的重构。采用这样的方式,就有可能通过窗口hs1和ha1的加权构建来消除由矢量 产生的混叠的矢量。
在上文中,认为信号Xt和xM至x2M-1都是有效的。
如果考虑到在频域(Xt+2)中传输随后的帧,则不能消除位于x2M至x3M-1之间的混叠。相应地,就需要预先接收这些采样。然而,从临界采样的观点来看,这种简单的解决方案最佳方法。
下文将阐述一种缓解这类缺点的方法。
有效的时间编码
当要求任何情况下不丢失临界采样(即传输和重构采样的数量相同)时,可以选择特殊的窗口来传输时间编码信号。这种情况如图2所示:
通过重构,如图2所示,我们可以选择:
当n位于M+(M+Mo)/2和2M-1之间时,则选择hs0=0;
当n位于0和(M-Mo)/2之间时,则选择hs1=0;
式中,Mo为位于1至M-1之间的整数。
例如,在M+M/2的采样附近hs0和hs1的上升和下降部分包括由等式给出正弦弧,等式为:
当n在(M-Mo)/2和(M+Mo)/2之间时,hs1(n)=sin(pi*(0.5+n-((M-Mo)/2))/2/Mo)。
hs0(n)可在hs1区域中采取对称类型,以获得完整重构。
hs1可同样由诸如AAC类型编码器所使用的″Kaiser Bessel″推导函数来定义。
因此,这样的定义,hs0和hs1的形式可使得保证完整重构变为可能。
如图3所示,第一帧T30(由hs0进行窗口操作)与帧T31(由hs1进行窗口操作)的组合,从而具有重构从M至2M-1的片段可能性,以及帧T31和T33有可能具有获得采样2M至3M-1的可能性,等等。
在帧T31信号采用频率自动控制方式进行传输的情况中,由于分析和合成滤波器满足必要的条件,则可以保持临界采样并且在这个范围内的重构是完整的。
对采样x3M/2+n(n<Mo/2)而言,在帧T31中进行传输,然后可根据获知的由帧T30产生的 来获得采样x3M/2-1-n。这可根据关系式:
当n=M/2时,则
然后,可获得:
这种方法是可以重复使用的,从而重新获得在重叠区域(即在(M-Mo)/2采样和M/2采样之间)的采样。
通过使用预先定义的关系式:
因为hs0在M+(M+Mo)/2和2M-1之间包含零,则ha1在0和(M-Mo)/2之间包含零。
同样,因为hs1在0和(M-Mo)/2之间仅包含零,则ha0在M+(M+Mo)/2和2M-1之间仅包括零。
当n=M+(M+Mo)/2...2M-1时,hs0=0;
当n=0...(M-Mo)/2时,hs1=0;
当n=0...(M-Mo)/2时,ha1=0;
当n=M+(M+Mo)/2以及2M-1,ha0=0。
因此,如图4所示,矢量 包括3个区域:
-当n=(M+Mo)/2...M-1时,
- 在n=0和n=(M-Mo)/2之间不存在任何混叠的分量;以及,
-当存在混叠分量时,则中心区域在M+M/2附近。
同样:
-当在n=0与n=(M-Mo)/2之间时,
- 在(M+Mo)/2和M-1之间不存在任何混叠的分量;以及,
-当存在混叠分量,则中心区域M/2附近。
通过这些特性的优点,因而可以重新获得片段xM...x2M-1,同时保证完整的重构。
这类完整的重构通过下述方法获得:
-通过在矢量X1的变换域中传输;
-通过在采样x3M/2...x5M/2-1的时间域中传输。
根据上述方法,现在有可能实施临界采样的TDAC编码,同时可避免与混叠相关的问题。下文将阐述CELP编码,其有利于允许与上述TDAC编码进行组合。
TDAC+CELP
很显然,所采用的架构为AMR WB+规范所表述的操作类型的架构。使用TDCA变换类型的编码与包括CELP编码器的时间类型编码(例如根据AMR WB的推荐)相互交替。
参考图5,我们选择了不丧失一般性的情况,由TDAC对帧T51(由h51进行窗口操作)进行编码,随后由AMR WB对帧T52(由h52进行窗口操作)进行编码,然后再由TDAC(由h53进行窗口操作)对帧T53进行编码。
为了重构采样,AMR WB编码是基于信号周期性的预测,称为长期预测。以这种方法,可以通过下述方法对其采样进行构建:
rn=a·rn-T+b·wn
信号r的构建可涉及:选自由增益a加权的上行T个采样,并进行传输以及周期性的更新;以及由增益b设置的称为随机部分的wn,并且进行同样的传输以及周期性的更新。T表示“音阶”。AMR WB编码器评估分量a,b和T,以及根据考虑流量所增加的wn部分。
因此,为了有效地实施长期预期,CELP解码器调用不应该具有混叠的先前采样。现在,因为帧T51以TDAC进行编码,那么只要不能重新获得能够消除帧T51的混叠的混叠的帧T52,则在M+(M-Mo)/2和M+(M+Mo)/2之间的帧将存在着一些混叠。
为了允许重构没有混叠且以CELP来编码帧T52的采样,采用这种编码方法所传输的采样覆盖的区域拓展至整个初始过渡区域。
CELP的持续过程拓展索引M+(M-Mo)/2...5M/2的内容。
在这种情况下,由预测编码进行编码的部分就不进行临界采样。
另一方面,限制了区域Mo的持续时间,使之能够避免传输过多的附加信息。
例如,对对应于20ms持续时间的M帧而言,Mo大约为1至2ms。采样的数量由采样频率函数计算。也有可能选择Mo/2作为与CELP子帧成正比的持续时间,即音阶/增益和随机矢量的数值更新的通常持续时间,或者采用有效方法来搜寻对随机矢量及其传输所使用的快速算法的大小。例如,选择为2的幂。
为了重构M和2M-1之间区域的采样,通过使用在帧T51之前的帧T50(未示出)的逆变换,预先重构M和(M-Mo)/2之间的时间段。随后,仅仅使用CELP来重构M+(M-Mo)/2和M-1之间的区域, 这可以基于由变换部分重新获得的采样的长期部分。
为了获得位于M+(M-Mo)/2和M+(M+Mo)/2-1之间的采样的变化实例包括CELP采样与包含由帧T51产生混叠的采样的组合。在这种情况下,可以将CELP所产生的采样与预先确定的等式进行线性组合,
根据下述模型实施线性组合的操作:
式中:αn为小于或等于1的正或零系数集。
2M,...3M-1的部分使用在索引2M和5M/2之间所传输的CELP采样末端进行解码。随后,根据这个解码结果,重构在重叠区域中由随后变换所产生的采样,其包含在帧T51和T52之间重叠区域以相似方法所产生的混叠。实际上,与其他过渡情况的差异在于CELP不能提供变换过渡区域中的所有采样,仅仅只能提供一半数量的采样(即,在M′o=M/4过渡大小的实施例中,M′o/2=M/8)。然而,为了能够消除变换的瞬时混叠仅仅只需要一半的过渡区域。
窗口h51可以是对称的。因此,在CELP和TDAC部分的重叠区域(表示为Mo′)可以和Mo相互区分。
CELP传输:
下文将阐述传输CELP帧的几种选择。
在一个实施例中,CELP帧覆盖了M+Mo/2大小的持续时间,如图4所示。参照AMR WB标准,该帧可分成大小为如图5中以Mc表示的多个子帧,并且允许对参数进行经常性的更新,使合成质量的CELP信号。因此,音阶、增益和随机部分的数值可以进行初始传输以及选择性的更新。
如果需要使用该标准使用的Mc实施的标准化CELP编码器所具有的任意长度Mo′,则紧接着变换之后的第一子片段(Mc′)的长度可以不同。
这个音阶可以在索引为M+(M-Mo)/2采样之前在解码部分中进行预测。因此,可以避免传输初始的音阶,并仅传输根据在AMR WB推荐中所示相同情况所预测的音阶中的增益。
在这类实施例的变化例中,这个音阶增益不被传输。它在变换部分中解码信号进行预测。
在另一个实施例中,音阶的预测可以由包括混叠分量的M+(M-Mo)/2至M+(M+Mo)/2时间段来实施。
随机部分作为前导码进行传输,或者可以忽略。尤其是,如果不考虑其较低能量,则可进行这样的操作,或者如果在重构中,使用权重αn的形式可以作为基础。
实际上,随机部分隐含在从变换部分中获得的混叠分量所产生的信号中。
因此,由CELP包含的持续时间Mo/2的部分可以是一个特定的部 分,在这样的情况下,有利于从由在前传输产生部分的完整解码中获得的信息。
如果考虑到具备与现有的编码器的兼容性,则Mo/2等于Mc。例如,在包括AMR WB类型的CELP实施例的架构中,有可能选择Mo/2=Mc=5ms。
图6示出了另一变化实施。在该实施例中,CELP编码包含小于大小为M的基帧的长度。采样M+(M-M/2)/2至2M+M/16包含的部分可籍助于小于原始大小(M/2)的变换进行编码。
在图6中,只有帧T63采用CELP编码。帧T61、T62和T64显示在TDAC变换域中。帧T61和T64由长度为M的变换(窗口h61和h64)进行编码,帧T62由大小为M/2的变换进行编码。
因为窗口h61是相对通用的,所以该编码能够有效,且具有在频域中获得较集中能量的可能。另一方面,窗口h62在采样2M的相邻区域中呈现出较大(steeper)的过渡,但这种急剧转变的窗口不会过多地损害编码的质量,因为设置的瞬时持续的时间是较短的。T63由上述的CELP进行编码,其中Mo=M/8。
因此,长度为M的帧可分成由不同大小的CELP或TDAC编码的子部分。
一旦,在时域中重新获得采样,则只要合适就可选择性地应用LPC合成滤波器来重新获得声音信号。
在特定的实施例中,在加权域中实施变换,即该变换在由W(z)=A(z/γ1)Hde-emph(z)的加权滤波器进行滤波的信号上实施,其中,A(z) 为线性预测滤波器(LPC)并且γ为该滤波器的平坦因子,滤波器Hde-emph(z)为不强调(de-emphasizing)高频的滤波器。该CELP编码器可自身进行操作,即激励信号rn实际上在线性预测滤波器A(z)的其它域中进行计算。需要特别注意的是,为了保证在一个敏感加权域中由第一逆变换合成的信号返回至CELP激励的域中,使得能够计算CELP激励的长期部分。
下文将对编码方法的实施例进行阐述。
参考图7,图示说明了在变换类型的编码与预测类型的编码之间的切换问题。
讨论一个先进行编码并随后进行解码的信号x。可以认为0至3M-1的采样必须为变换编码的,同时3M至4M-1的采样必须为预测编码进行编码的,如由双箭头T和P所指示的。
根据现有技术,0至2M-1的采样为根据变换矢量 编码的变换编码。
该变换矢量的解码给出解码信号 的0至2M-1的采样。该解码引起一些混叠REP1产生,特别是在M至2M-1的采样中。
此外,在M至3M-1之间的采样为由变换矢量 编码的变换编码。
该变换矢量的解码给出解码信号 的M至3M-1之间的采样。与在 解码中相似的,该解码使得在采样M至2M-1中存在着具有与REP1相反符号的一些混叠。其还使得在 的2M至3M-1之间的采样中也存在混叠REP2。
因此,通过由 和 解码分别产生的M至2M-1采样的组合,就有可能消除(SUPPR_REP)混叠REP1。
随后,3M至4M-1中的x个采样由根据预测矢量 的预测编码进行编码。
为了解码的目的,该矢量需要获知先前的采样,即2M至3M-1之间的采样。这些采样在解码 中是有效的,但是在存在混叠REP2的情况下则无法使用。
因此, 不可解码。
此外,消除混叠REP2需要获知2M至3M-1的x个采样,用于重新产生混叠并且通过组合加以消除。在此,这些采样在解码中都是无效的。
因此,不终止 的解码。
为了解决这些问题,现有技术提出除了由变换和预测部分产生的矢量以外,还需要告知解码器所述采样。但是,从流量的观点而言,这种解决方法不是最优选的。
本发明提出的解决方法如图8所示。
该图图示说明了信号x、变换矢量 以及预测矢量
但是,根据本发明,预测矢量 对包括由 编码的采样部分的数量为M的采样进行编码。
这就有可能根据解码来重构信号x。
实际上,在由解码 产生的混叠REP之前的采样用于解码第一采样,其可通过 的解码获得。也就是说,那些与 具有相同的条件。
因此,获得有可能重新产生混叠REP的x个采样。例如,在解码后,对应于REP的x个采样实施编码,该编码与对M至3M-1的采样所实施的那些编码是一致的。
因此,所产生的混叠与由 解码产生的采样所存在的混叠进行组合,并且 因此可以进行完整的解码。
然后,使用M至3M-1的完整解码采样对 解码。
下文参考图9阐述使用上述原理的编码方法。
在步骤S90中,接收将进行编码的信号的采样。然后,在步骤S91中,划分两个采样的序列,使第二序列起始于第一序列的末端之前。因此获得第一序列SEQ1和第二序列SEQ2。
随后,对各个序列进行编码,在步骤S93中,对SEQ1根据变换编码进行编码;在步骤S94中,对SEQ2根据预测编码进行编码。
参考图10阐述由使用分析窗口实施变换编码的实施例,其籍助于完整重构关系从而有可能确定适用于当前解码的合成窗口。
分析窗口和合成窗口由完整的重构关系相互关联,它们是相互等效的。
在图10中,阐述了合成窗口H。该窗口包括四个特定的部分。
INIT对应于滤波器的初始部分,该部分可以由先前采样编码的函数来选择。例如,这里H使得可能重构SEQ1的部分(0至M-1的采样)。如果,在SEQ1之前的采样为变换编码,则INIT可优选作为平坦过渡。因此,这样可以从而可避免影响到这些先前的采样。
NOMI对应于标称部分。优选的,该部分选择基本不变的数值。
NL对应于窗口基本为零的部分。NL的持续时间(或NL系数的数量)可以优选作为NOMI的持续时间(或系数的数量)的函数。
最后,INTER部分为在NOMI与NL之间的连续部分。这个部分可以具有一个适用于SEQ1变换编码和SEQ2预测编码之间的过渡。例如,这是一个相对急剧的过渡。
因此,INIT和NOMI用于SEQ1的子序列S-SEQ1,其不包括S-SEQ的任何采样,子序列为SEQ1和SEQ2所共有。将INTER应用于S-SEQ。并且将NL应用于S-SEQ2,SEQ2的子序列不包括任何的S-SEQ的采样。
参考图11阐述根据上述原理用于数字信号解码的优选解码方法。
在步骤S110和S111中,分别接收包括编码S-SEQ1的采样S-SEQ1*的变换矢量和编码S-SEQ的采样S-SEQ*以及编码S-SEQ2的采样S-SEQ2*的预测矢量。
在步骤S112中,对采样SEQ1*使用逆变换。例如,这种方法需要H类型的窗口。例如,还可能提供包括对S-SEQ1进一步解码操作的步骤S113。
在步骤S114中,接收由步骤S113解码的S-SEQ1以及S-SEQ*,然后,至少采用预测解码对S-SEQ进行解码。
最后,在步骤S115中,接收在步骤S114中解码的S-SEQ和S-SEQ2*,并随后采用预测解码来解码S-SEQ2。如果需要,还可引用在步骤S113中解码的S-SEQ1。
步骤S114实施例的模型参考图12进行阐述。
在实施例的模型中,变换解码和预测解码可在同一时间中同时引入。
在步骤S120中,接收S-SEQ1(S114产生)和S-SEQ*,并随后由预测解码对S-SEQ进行解码。获得S-SEQ′。
在步骤S121中,对S-SEQ1*使用逆变换(例如已应用于S-SEQ1*以便获得S-SEQ1)。获得S-SEQ″。
最后,在步骤S122中,实施采样S-SEQ′和S-SEQ″的线性组合,以便获得S-SEQ。
参考图13阐述步骤S114实施例的另一模型。
在实施例的这一模式中,根据由预测解码所解码的S-SEQ*,重新产生由S-SEQ*(S-SEQ″)变换解码所产生的相反符号的混叠。
因此,在实施例的这一模式中,对在步骤S130中接收到的S-SEQ1和S-SEQ*,并随后对S-SEQ解码。获得S-SEQ′。
随后,在步骤S131中,产生相同的混叠,如同在S-SEQ′中的S-SEQ″。为此目的,应用上文提及的矩阵S。
S-SEQ″对应于在步骤S132中S-SEQ*的变换解码。
最后,在步骤S133中对S-SEQ″′和S-SEQ″进行组合,以获得S-SEQ。
参考图14阐述适用于实施上述编码方法的编码实体COD。
该编码实体包括适用于接收数字信号SIG和确定采样的两个序列的处理单元140:第一序列包括两个序列共有的子序列S-SEQ和子序列S-SEQ1,其中第二序列起始于第一序列的末端之前且其包括S-SEQ和子序列S-SEQ2。
编码实体还包括变换编码器141和预测编码器142。这些编码器适用于实施上述编码方法的步骤,并且分别传输编码第一序列的变换矢量V_T和编码第二序列的预测矢量V_P。
为实现编码器之间交换信号,提供通讯装置(未示出)。
参考图15阐述实施上述解码方法的解码实体。
该解码实体DECOD包括接收单元150和151,用于分别接收包括S-SEQ1编码的采样S-SEQ1*的变换矢量V_T以及包括S-SEQ编码的采样S-SEQ*和编码S-SEQ2的采样S-SEQ2*的预测矢量V_P。
单元150将S-SEQ1*提供至逆变换应用单元152。此外,可以提供单元152将结果传输至变换解码单元153,以执行附加的解码操作和提供S-SEQ1。
一旦通过单元153的解码,解码单元154接收由单元153解码的S-SEQ1,以及由单元151提供的S-SEQ*。单元154对至少通过预测解码S-SEQ进行解码并提供S-SEQ。
最后,DECOD包括预测解码单元155,用于接收由单元154提供的S-SEQ和由单元151提供的S-SEQ2*,以及然后采用预测解码对S-SEQ2进行解码和提供S-SEQ2。如果必要,单元153还提供先前由单元153解码的S-SEQ1。
根据图9所示的通用算法,建立包括用于执行上述编码方法的指令的计算机程序。
该计算机程序可以在诸如上述编码实体的处理器中执行,以至少通过由所述编码方法所提供的相同优势对信号进行编码。
在相同的方法中,根据图11所阐述的通用算法,建立包括执行上述解码方法的指令的计算机程序。
该计算机程序可以在诸如上述解码实体的处理器中执行,以至少通过由所述解码方法所提供的相同优势对信号进行解码。
参考图16阐述执行根据本发明实施例的一种模型的编码器或解码器的硬件装置。
该装置DISP包括用于接收数字信号SIG的输入E。该装置还包括数字信号处理器PROC,具体适用于在从输入E中产生的信号上执行编码/解码操作。该处理器连接着一个或多个存储单元MEM,其用于存储用于驱动涉及编码/解码的装置的必要信息。例如,这些存储单元包括用于实施上述编码/解码方法的指令。这些存储单元还包括计算参数或其他信息。该存储单元还适用于在这些存储单元中存储结果。最后,该装置包括用于连接着处理器的输出S,用于提供输出信号SIG*。
当然,有利于组合上述一个或多个特性。
Claims (11)
1.一种编码数字音频信号的方法,包括步骤:
-编码步骤(S93),根据变换编码对数字音频信号采样第一序列(SEQ1)进行编码;
-编码步骤(S94),根据预测编码对数字音频信号采样第二序列(SEQ2)进行编码;
其特征在于,第二序列(SEQ2)起始于第一序列(SEQ1)的末端之前,因此第一和第二序列所共有的子序列(S-SEQ)在同一时间采用预测编码和转换编码进行编码,
所述第一序列的变换编码包括分析窗口(H),以便于从用于数字音频信号的完整重构关系中推导出合成窗口,所述合成窗口包括至少三个部分:
-第一大致不变的标称部分(NOMI);
-第二大致为零的末端部分(NL);
-第三在第一和第二部分之间连续的中间部分(INTER);
其中,至少将所述分析窗口的部分应用于两个序列所共有子序列,其中,所述分析窗口能分别推导出合成窗口的第二和第三部分。
2.根据权利要求1所述的方法,其特征在于,所述变换编码是临界采样编码。
3.根据权利要求1所述的方法,其特征在于,所述合成窗口还包括在初始数值与大致不变的标称部分数值之间的平坦过渡的第四部分,以及第三部分为大致不变的标称部分的数值和大致为零部分数值之间的急剧过渡。
4.根据权利要求1所述的方法,其特征在于,所述第一和第二序列属于数字音频信号的同一帧。
5.一种用于解码数字音频信号的方法,包括步骤:
-接收步骤(S110),用于接收根据变换编码对数字音频信号采样第一序列进行编码的变换矢量;
-接收步骤(S101),用于接收根据预测编码对数字音频信号采样第二序列进行编码的预测矢量;
其特征在于,所述第二序列起始于所述第一序列末端之前,因此接收由预测编码和变换编码在同一时间编码的第一和第二序列所共有子序列;并且还进一步包括步骤:
a)应用步骤(S112),对变换矢量应用变换编码的逆变换,解码不是由预测编码进行编码的第一序列的子序列;
b)解码步骤(S114),根据至少一个由步骤a)产生的采样,至少在预测矢量中采用预测解码对第一和第二序列所共有的子序列进行解码;
c)解码步骤(S115),根据由步骤a)或步骤b)之一所产生的至少一个采样,在预测矢量中采用预测解码对不是由变换编码进行编码的第二序列的子序列进行解码,
其中,在所述步骤a)包括合成窗口的应用,所述合成窗口包括至少三部分:
-第一大致不变的标称部分;
-第二大致为零的末端部分;
-第三在第一和第二区域之间连续的中间部分;
其中,至少所述合成窗口的第二和第三部分应用于对两个序列的共有子序列进行编码的采样。
6.根据权利要求5所述的方法,其特征在于,所述步骤b)中包括子步骤:
b1)解码步骤(S120),根据在步骤a)产生的至少一个采样,在预测矢量中采用预测解码对第一和第二序列所共有的子序列进行解码;
b2)应用步骤(S121),对变换矢量应用变换编码的逆变换,解码第一和第二序列所共有的子序列;以及,
b3)解码步骤(S122),通过使用组合由步骤b1)产生的至少一个采样与从步骤b2)产生的对应采样,对第一和第二序列所共有的子序列进行解码。
7.根据权利要求5所述的方法,其特征在于,所述步骤b)包括子步骤:
b4)解码步骤(S130),根据由步骤a)产生的至少一个采样,在预测矢量中采用预测解码对第一和第二序列所共有的子序列进行解码;
b5)产生步骤(S131),根据由步骤b4)产生的至少一个采样来产生在变换解码之后包含相当于变换编码的混叠的采样;
b6)应用步骤(S132),对变换矢量应用变换编码的逆变换,解码第一和第二序列所共有的子序列;以及,
b7)解码步骤(S133),通过使用组合由步骤b5)产生的至少一个采样与从步骤b6)产生的对应采样,对第一和第二序列所共有的子序列进行解码。
8.一种用于数字音频信号(SIG)的编码设备(COD),包括:
-变换编码器(141),用于根据变换编码对数字音频信号采样的第一序列进行编码;
-预测编码器(142),用于根据预测编码对数字音频信号采样的第二序列进行解码;
所述编码设备的特征在于,所述第二序列起始于所述第一序列末端之前,第一和第二序列所共有的子序列(S-SEQ)因此由预测编码和变换编码在同一时间进行编码;
所述第一序列的变换编码包括分析窗口(H),以便于从用于数字音频信号的完整重构关系中推导出合成窗口,所述合成窗口包括至少三个部分:
-第一大致不变的标称部分(NOMI);
-第二大致为零的末端部分(NL);
-第三在第一和第二部分之间连续的中间部分(INTER);
其中,至少将所述分析窗口的部分应用于两个序列所共有子序列,其中,所述分析窗口能分别推导出合成窗口的第二和第三部分。
9.一种用于数字音频信号的解码设备(DECOD),包括接收装置(150,151),用于:
-根据变换编码,接收数字音频信号采样的第一序列编码的变换矢量(V_T);
-根据预测编码,接收数字音频信号采样的第二序列编码的预测矢量(V_P);
所述解码设备的特征在于,第二序列起始于第一序列末端之前,第一和第二序列所共有的子序列因此由预测编码和变换编码在同一时间进行编码;并且其还包括:
-第一解码器(152,153),用于对变换矢量应用变换编码的逆变换,来解码不是由预测编码进行编码的第一序列的子序列;
-第二解码器(154),用于根据至少一个由第一解码器产生的采样,至少在预测矢量中至少采用预测解码对第一和第二序列所共有的子序列解码;
-第三预测解码器(155),用于根据由第一或第二解码器所产生的至少一个采样,在预测矢量中采用预测解码对不是由变换编码进行编码的第二序列的子序列进行解码;
其中,所述第一解码器还应用于合成窗口,所述合成窗口包括至少三个部分:
-第一大致不变的标称部分;
-第二大致为零的末端部分;
-第三在第一和第二部分之间连续的中间部分;
其中,至少所述合成窗口的第二和第三部分应用于对两个序列所共有子序列进行编码的采样。
10.根据权利要求9所述的解码设备,其特征在于,所述第二解码器包括:
-第一装置,用于根据由第一解码器所产生的至少一个采样,在预测矢量中采用预测解码对第一和第二序列中共有子序列进行解码;
-第二装置,用于对变换矢量应用变换编码的逆变换来解码第一和第二序列所共有的子序列;以及,
-第三装置,用于通过使用组合由第一装置产生的至少一个采样与第二装置产生的对应采样,对第一和第二序列所共有的子序列进行解码。
11.根据权利要求9所述的解码设备,其特征在于,所述第二解码器包括:
-第一装置,用于根据由第一解码器所产生的至少一个采样,在预测矢量中采用预测解码对第一和第二序列所共有的子序列进行解码;
-第四装置,用于根据由第一装置所产生的至少一个采样来产生在变换解码之后相当于变换编码的混叠;
-第五装置,用于对变换矢量应用变换编码的逆变换来解码第一和第二序列所共有的子序列;以及,
-第六装置,用于通过使用组合由第四装置产生的至少一个采样与第五装置产生的对应采样,对第一和第二序列所共有的子序列进行解码。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0856822A FR2936898A1 (fr) | 2008-10-08 | 2008-10-08 | Codage a echantillonnage critique avec codeur predictif |
FR0856822 | 2008-10-08 | ||
PCT/FR2009/051888 WO2010040937A1 (fr) | 2008-10-08 | 2009-10-05 | Codage a echantillonnage critique avec codeur predictif |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102177544A CN102177544A (zh) | 2011-09-07 |
CN102177544B true CN102177544B (zh) | 2014-07-09 |
Family
ID=40457007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200980140384.4A Active CN102177544B (zh) | 2008-10-08 | 2009-10-05 | 具有预测编码器的临界采样编码 |
Country Status (6)
Country | Link |
---|---|
US (1) | US8880411B2 (zh) |
EP (1) | EP2345029B1 (zh) |
CN (1) | CN102177544B (zh) |
ES (1) | ES2542067T3 (zh) |
FR (1) | FR2936898A1 (zh) |
WO (1) | WO2010040937A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4372742A2 (en) * | 2010-07-08 | 2024-05-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Coder using forward aliasing cancellation |
FR2969805A1 (fr) * | 2010-12-23 | 2012-06-29 | France Telecom | Codage bas retard alternant codage predictif et codage par transformee |
FR2992766A1 (fr) * | 2012-06-29 | 2014-01-03 | France Telecom | Attenuation efficace de pre-echos dans un signal audionumerique |
CN105229735B (zh) * | 2013-01-29 | 2019-11-01 | 弗劳恩霍夫应用研究促进协会 | 用于编码模式切换补偿的技术 |
FR3024582A1 (fr) * | 2014-07-29 | 2016-02-05 | Orange | Gestion de la perte de trame dans un contexte de transition fd/lpd |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0932141A2 (en) * | 1998-01-22 | 1999-07-28 | Deutsche Telekom AG | Method for signal controlled switching between different audio coding schemes |
US6658383B2 (en) * | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
CN101025918A (zh) * | 2007-01-19 | 2007-08-29 | 清华大学 | 一种语音/音乐双模编解码无缝切换方法 |
CN101221766A (zh) * | 2008-01-23 | 2008-07-16 | 清华大学 | 音频编码器切换的方法 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6134518A (en) * | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
WO1999010719A1 (en) * | 1997-08-29 | 1999-03-04 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
US6947888B1 (en) * | 2000-10-17 | 2005-09-20 | Qualcomm Incorporated | Method and apparatus for high performance low bit-rate coding of unvoiced speech |
US6785645B2 (en) * | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
US20030220800A1 (en) * | 2002-05-21 | 2003-11-27 | Budnikov Dmitry N. | Coding multichannel audio signals |
WO2004029935A1 (en) * | 2002-09-24 | 2004-04-08 | Rad Data Communications | A system and method for low bit-rate compression of combined speech and music |
FR2867649A1 (fr) * | 2003-12-10 | 2005-09-16 | France Telecom | Procede de codage multiple optimise |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
MXPA06012578A (es) * | 2004-05-17 | 2006-12-15 | Nokia Corp | Codificacion de audio con distintos modelos de codificacion. |
US7596486B2 (en) * | 2004-05-19 | 2009-09-29 | Nokia Corporation | Encoding an audio signal using different audio coder modes |
US7751572B2 (en) * | 2005-04-15 | 2010-07-06 | Dolby International Ab | Adaptive residual audio coding |
US7418394B2 (en) * | 2005-04-28 | 2008-08-26 | Dolby Laboratories Licensing Corporation | Method and system for operating audio encoders utilizing data from overlapping audio segments |
US20070297624A1 (en) * | 2006-05-26 | 2007-12-27 | Surroundphones Holdings, Inc. | Digital audio encoding |
JP2008096906A (ja) * | 2006-10-16 | 2008-04-24 | Matsushita Electric Ind Co Ltd | オーディオ信号復号装置およびリソースアクセス制御方法 |
CN101589623B (zh) * | 2006-12-12 | 2013-03-13 | 弗劳恩霍夫应用研究促进协会 | 对表示时域数据流的数据段进行编码和解码的编码器、解码器以及方法 |
WO2008072670A1 (ja) * | 2006-12-13 | 2008-06-19 | Panasonic Corporation | 符号化装置、復号装置、およびこれらの方法 |
CN101231850B (zh) * | 2007-01-23 | 2012-02-29 | 华为技术有限公司 | 编解码方法及装置 |
MY152252A (en) * | 2008-07-11 | 2014-09-15 | Fraunhofer Ges Forschung | Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme |
-
2008
- 2008-10-08 FR FR0856822A patent/FR2936898A1/fr not_active Withdrawn
-
2009
- 2009-10-05 US US13/120,473 patent/US8880411B2/en active Active
- 2009-10-05 WO PCT/FR2009/051888 patent/WO2010040937A1/fr active Application Filing
- 2009-10-05 ES ES09755960.3T patent/ES2542067T3/es active Active
- 2009-10-05 CN CN200980140384.4A patent/CN102177544B/zh active Active
- 2009-10-05 EP EP09755960.3A patent/EP2345029B1/fr active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0932141A2 (en) * | 1998-01-22 | 1999-07-28 | Deutsche Telekom AG | Method for signal controlled switching between different audio coding schemes |
US6658383B2 (en) * | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
CN101025918A (zh) * | 2007-01-19 | 2007-08-29 | 清华大学 | 一种语音/音乐双模编解码无缝切换方法 |
CN101221766A (zh) * | 2008-01-23 | 2008-07-16 | 清华大学 | 音频编码器切换的方法 |
Non-Patent Citations (1)
Title |
---|
3GPP.Extended AMR Wideband codec.《Extended AMR Wideband codec》.2004, * |
Also Published As
Publication number | Publication date |
---|---|
CN102177544A (zh) | 2011-09-07 |
EP2345029A1 (fr) | 2011-07-20 |
ES2542067T3 (es) | 2015-07-30 |
EP2345029B1 (fr) | 2015-04-22 |
US8880411B2 (en) | 2014-11-04 |
FR2936898A1 (fr) | 2010-04-09 |
WO2010040937A1 (fr) | 2010-04-15 |
US20110178809A1 (en) | 2011-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101878504B (zh) | 使用时间分辨率能选择的低复杂性频谱分析/合成 | |
CN100583241C (zh) | 音频编码设备、音频解码设备、音频编码方法和音频解码方法 | |
EP1527441B1 (en) | Audio coding | |
CN102623015B (zh) | 可变速率语音编码 | |
CN101496100B (zh) | 用于对无效帧进行宽带编码和解码的***、方法和设备 | |
CN101925950B (zh) | 音频编码器和解码器 | |
CN102770912B (zh) | 使用线性预测滤波的前向时域混叠消除 | |
CN102150205B (zh) | 用于编码和解码统合的语音与音频的设备 | |
CN103384900A (zh) | 在预测编码与变换编码之间交替的低延迟声音编码 | |
EP3693964A1 (en) | Simultaneous time-domain and frequency-domain noise shaping for tdac transforms | |
CN103559891B (zh) | 改进的谐波转置 | |
CN101496098A (zh) | 用于以与音频信号相关联的帧修改窗口的***及方法 | |
EP2037451A1 (en) | Method for improving the coding efficiency of an audio signal | |
CN101622665B (zh) | 编码装置以及编码方法 | |
CN102177544B (zh) | 具有预测编码器的临界采样编码 | |
EP1982329A1 (en) | Adaptive time and/or frequency-based encoding mode determination apparatus and method of determining encoding mode of the apparatus | |
CN1188832C (zh) | 过滤语言帧的多脉冲内插编码 | |
WO2008035886A1 (en) | Method and apparatus to encode and decode audio signal by using bandwidth extension technique | |
US6778953B1 (en) | Method and apparatus for representing masked thresholds in a perceptual audio coder | |
CN1134764C (zh) | 语音编码的方法和装置 | |
CN106233112A (zh) | 信号编码方法和设备以及信号解码方法和设备 | |
JP3670217B2 (ja) | 雑音符号化装置、雑音復号装置、雑音符号化方法および雑音復号方法 | |
CN101611440B (zh) | 一种使用加权窗的低延时变换编码的方法 | |
Eriksson et al. | On waveform-interpolation coding with asymptotically perfect reconstruction | |
KR100682966B1 (ko) | 주파수 크기데이터 양자화/역양자화 방법 및 장치와 이를이용한 오디오 부호화/복호화 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |