CN100409308C - 语音编码方法和装置以及语音解码方法和装置 - Google Patents
语音编码方法和装置以及语音解码方法和装置 Download PDFInfo
- Publication number
- CN100409308C CN100409308C CNB961219424A CN96121942A CN100409308C CN 100409308 C CN100409308 C CN 100409308C CN B961219424 A CNB961219424 A CN B961219424A CN 96121942 A CN96121942 A CN 96121942A CN 100409308 C CN100409308 C CN 100409308C
- Authority
- CN
- China
- Prior art keywords
- coding
- voice signal
- short
- term forecasting
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 239000013598 vector Substances 0.000 claims description 226
- 238000013139 quantization Methods 0.000 claims description 189
- 239000011159 matrix material Substances 0.000 claims description 75
- 238000004458 analytical method Methods 0.000 claims description 68
- 239000002131 composite material Substances 0.000 claims description 55
- 230000035807 sensation Effects 0.000 claims description 46
- 238000001228 spectrum Methods 0.000 claims description 39
- 230000004044 response Effects 0.000 claims description 35
- 238000011002 quantification Methods 0.000 claims description 25
- 230000009466 transformation Effects 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 23
- 238000001914 filtration Methods 0.000 claims description 21
- 238000006243 chemical reaction Methods 0.000 claims description 16
- 238000010189 synthetic method Methods 0.000 claims description 14
- 230000015572 biosynthetic process Effects 0.000 claims description 13
- 230000005540 biological transmission Effects 0.000 claims description 10
- 238000003786 synthesis reaction Methods 0.000 claims description 10
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 230000004069 differentiation Effects 0.000 claims description 3
- 230000035939 shock Effects 0.000 claims 2
- 230000001052 transient effect Effects 0.000 abstract description 2
- 239000002360 explosive Substances 0.000 abstract 1
- 230000003595 spectral effect Effects 0.000 description 32
- 230000008569 process Effects 0.000 description 23
- 238000004364 calculation method Methods 0.000 description 17
- 238000005070 sampling Methods 0.000 description 14
- 238000003825 pressing Methods 0.000 description 12
- 238000013519 translation Methods 0.000 description 12
- 238000007493 shaping process Methods 0.000 description 11
- 230000007704 transition Effects 0.000 description 10
- 239000000203 mixture Substances 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000005284 excitation Effects 0.000 description 6
- 238000005259 measurement Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000002829 reductive effect Effects 0.000 description 5
- 230000001944 accentuation Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000005162 X-ray Laue diffraction Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000005755 formation reaction Methods 0.000 description 3
- 238000006386 neutralization reaction Methods 0.000 description 3
- 230000000630 rising effect Effects 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000013604 expression vector Substances 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 241001522296 Erithacus rubecula Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000000266 injurious effect Effects 0.000 description 1
- 229920006008 lipopolysaccharide Polymers 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 238000005086 pumping Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000007086 side reaction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种语音编码方法和装置,其中输入的语音信号按照作为编码单位的数据块或帧划分并按照编码单位进行编码,其中***音和摩擦音可以逼真地重现,同时在发浊音的(V)和发清辅音的(UV)部分之间的过渡部分没有产生外来音的危险,这样可以产生没有堵塞感觉的高清晰度的声音。编码装置包括:第一编码单元110,和第二编码单元120,第一编码单元110和第二编码单元120分别用于对输入信号的发声(V)部分和不发声(UV)部分进行编码。
Description
本发明涉及一种语音编码方法,该方法将输入的语音信号划分为作为编码单位的数据块或帧并按照编码单位进行解码,本发明还涉及一种解码方法,对经编码的信号进行解码,以及涉及一种语音编码/解码方法。
迄今为止已有各种用于对声音信号(包括语音和音响信号)进行编码的编码方法,按照时域和频域以及人耳的心理声学特性,通过利用信号的统计特性进行信号压缩。编码方法可以粗分为时域编码、频域编码和分析/合成编码。
高效的语音信号编码的实例包括正弦分析编码,例如谐波编码或多频带激励(MBE)编码、副频带编码(SBC)、线性预测编码(LPC)、离散余弦变换(DCT)、改进的DCT(MDCT)和快速傅里叶变换(FFT)。
按照常规的MBE编码或谐波编码,利用噪声发生电路产生不发清辅音的语音部分。然而,这种方法存在的缺点是不能逼真地产生***(辅)音例如P、K或t,或者各摩擦(辅)音。
此外,如果将具有完全不同特性的编码参数例如线性频谱对,内插在发声(V)部分和不发声(UV)部分之间的过渡部分处,往往会产生无关的外部声音。
此外,利用常规的正弦合成编码,低音调的语音,首先是男人的声音会变成失真的“被堵塞的”语音。
因此,本发明的一个目的是提供一种语音编码方法和装置以及语音解码方法和装置,因此能逼真地重现***音和摩擦音,不会在发声语声和不发声语声之间的过渡部分处产生奇异声音,从而,可以重现具有高清晰度而无“堵塞”感的语声。
根据本发明的语音编码方法,其中输入语音信号被沿时间轴划分成预定的编码单位并按照预定的编码单位顺序地进行编码,求出该输入语声信号的短期预测余部,将如此求出的短期预测余部利用正弦分解编码进行编码,使输入语音信号利用波形编码方法编码。
对输入语音信号进行鉴别,以便确认是发声部分还是不发声部分。根据鉴别的结果,对于判别为发声输入语音信号部分利用正弦分解编码进行编码,而对于判别为不发声部分利用分析与合成方法通过沿时间轴的波形的矢量量化进行处理。
对于正弦分析编码,最好利用按听觉加权的矢量或矩阵量化来对短期预测的余部进行量化,并且对于这种按听觉加权的矢量或矩阵量化,根据由加权传递函数的脉冲响应派生的参数的正交变换的结果来计算加权。
根据本发明,求出输入语音信号的短期预测的余部,例如LPC余部,并且利用合成的正弦波重现该短期预测的余部部分,同时,利用输入语音信号的相位传输的波形编码对输入语音信号进行编码,因此实现高效编码。
此外,对输入语音信号进入鉴别,以便确认是发声还是不发声部分,根据鉴别的结果,对判别为发声输入语音信号部分利用正弦分析编码进行编码,同时对于判别为不发声输入语音信号部分利用分析与合成方法,通过对最佳矢量的闭环查找,借助对沿时间轴的波形的矢量量化进行处理,因此,改进了不发声部分的表达能力,产生具有高清晰度的重现的语声。特别是,通过提升速率使这种效果增强。还能够防止在发声和不发声部分之间的过渡部分处产生额外的声音,在发声部分处不准确的合成语音被减少了,从而产生更自然的合成语声。
根据由加权传递函数的脉冲响应派生的参数的正交变换的结果,通过计算在被变换为频阈信号的输入信号的参数的加权的矢量量化时的(加)权重,可以将处理的数量降低到一零头值,因此,简化了结构或加速了处理操作。
图1是表示用于实施本发明的编码方法的语音信号编码装置(编码器)的基本结构的方块图。
图2是表示用于实施本发明的解码方法的语音信号解码装置(解码器)的基本结构的方块图。
图3是表示图1所示的语音信号编码器的更具体的结构的方块图。
图4是表示图2所示的语音信号解码器的更详细的结构的方块图。
图5是表示LPC量化器基本结构的方块图。
图6是表示LPC量化器的更详细结构的方块图。
图7是表示矢量量化器的基本结构的方块图。
图8是表示矢量量化器的更详细的结构的方块图。
图9是用于描述计算矢量量化所用的加权权重的操作顺序的一个特定实例的流程图。
图10是表示本发明的语音信号编码器的CELP编码部分(第二编码部分)的具体结构的方块电路图。
图11是描述图10所示装置中的处理流程的流程图。
图12表示高斯噪声和在不同阈值处进行限限之后的噪声的状态。
图13是表示在通过学习产生波形(shope)代码本时的处理流程的流程图。
图14描述通过10阶LPC分析得到α参数派生的10阶线性频谱对。
图15描述从UV帧到V帧的增益变化方式。
图16描述频谱的内插的方式和逐帧合成的波形。
图17描述在发声(V)部分和不发声(UV)部分之间的结合部处重叠的方式。
图18描述在合成发浊音的声音(部分)时的噪声添加操作。
图19描述在合成发浊音的声音(部分)时添加的噪声的幅值计算的实例。
图20描述一个后置滤波器构成的实例。
图21描述增益刷新周期和后置滤波器的滤波器系数刷新周期。
图22描述在后置滤波器的增益和滤波器系数的帧边界的结合部的处理过程。
图23是表示采用本发明的语音信号编码器的便携式终端的发送侧结构的方块图。
图24是表示采用本发明的语音信号解码器的便携式终端的接收侧结构的方块图。
下面,参照附图将详细解释本发明的各优选实施例。
图1表示用于实施本发明的语音编码方法的编码装置(编码器)的基本结构。
构成图1所示的语音信号编码器的基本概念在于,该编码器具有第一编码单元110和第二编码单元120,第一编码单元110用于求出输入语音信号的短期预测的余部,例如线性预测编码(LPC)的余部,以便进行正弦分析,第二编码单元120用于利用具有相位再现能力的波形编码对输入语音信号进行编码;还在于第一编码单元110和第二编码单元120分别用于对输入信号的发声(V)语音进行编码和对于输入信号的不发声(UV)部分进行编码。
第一编码单元110采用正弦分析编码,例如谐波编码或多频带激励(MBE)编码例如对LPC的余部进行编码的结构。第二编码单元120通过进行闭环查找以及还例如利用合成法分析,通过闭环查找最佳矢量利用矢量量化,采用实施代码激励的线性预测(CELP)的结构。
在图1所示的实施例中,传送到输入端101的语音信号被送到LPC反变换滤波器111和LPC分析和第一编码单元110的量化单元113。利用LPC分析量化单元113得到的LPC系数或所谓的α参数送到第一编码单元110的反变换滤波器111。从LPC反变换滤波器111取得输入语音信号的线预测余部(LPC余部)。由LPC分析量化单元113取得各线性频谱对的量化输出(LSPs)并传送到输出端102(下文将解释)。来自LPC反变换滤波器111的LPC的余部传送到正弦分析编码单元114。正弦分析编码单元114进行音调检测和计算频谱包络线的幅值,并且利用V/UV鉴别单元115进行V/UV鉴别。来自正弦分析编码单元114的频谱包络线幅值的数据送到矢量量化单元116。来自矢量量化单元116的代码本索引作为频谱包络线的矢量量化的输出经过开关117送到输出端103,而正弦分析编码单元114的输出经过开关118送到输出端104。V/UV鉴别单元115的V/UV鉴别输出送到输出端115,并作为一个控制信号送到开关117、118。假如输入语音信号是发声(V)部分,则分别在输出端103、104选择该索引和音调并取出。
在本实施例中,图1所示的第二编码单元120具有一种代码激励的线性预测编码(CELP编码)结构,并采用合成法分析利用闭环查找对时域波形进行矢量量化,按照合成法,利用加权的合成滤波器合成噪声代码本121的输出,所形成的加权处理的语音送到减法器123,在经加权处理的语音和提供到输入端101上的语音信号之间的并因此经过按听觉加权滤波器125取出一个误差,将因此求出的误差送到距离计算电路124,以便进行有效计算和利用噪声代码本121查找使误差最小的一个矢量。这样的CELP编码用于对不发声语音部分进行编码,正如前面所解释的。代码本索引作为来自噪声代码本121的UV数据经过开关127在输出端107取出,该开关127当V/UV鉴别的结果为不发声(UV)部分时接通。
图2是表示用于实施本发明的语音解码方法的,作为图1所示的语音信号编码器的对应装置的语音信号解码器的基本结构的方块图。
参照图2,代码本索引作为来自图1所示的输出端102的线性频谱对(LPSs)的量化输出送到输入端202。图1中的输出端103、104、105的输出即音调、V/UV鉴别输出和索引数据,作为包络线量化输出数据分别提供到输入端203到205。用作为不发声数据的索引数据由图1中的输出端107提供到输入端207。
作为输入端203的包络线量化输出的索引送到一用于反矢量量化的反矢量量化单元212,以便求出LPC余部的频谱包络线,该包络线再送到发声(部分)语音合成器211。发声部分的语音合成器211利用正弦合成来合成发声语音部分的线性预测编码(LPC)的余部。合成器211还被提供来自输入端204、205的音调和V/UV鉴别输出。来自发声部分的语音合成器的发声部分的语音的LPC的余部送到LPC合成滤波器204。来自输入端207的UV数据的索引数据送到不发声(部分)的声音合成单元220,在该单元为了取出不发声部分的LPC的余部,必须参照噪声代码本。在LPC合成滤波器214中,利用LPC合成对发声部分的LPC的条件和不发声的LPC余部进行处理。另外,可以利用LPC合成对发声部分的LPC的余部和不发声部分的LPC的余部之和进行处理。来自输入端202的LSP索引数据送到LPC参数重现单元213,在其中取出LPC的α参数并送到LPC合成滤波器214。在输出端201取出由LPC合成滤波器214合成的语音信号。
参照图3,下面解释图1中所示的语音信号编码器的更详细的结构。在图3中,与图1中所示的元件相似的使用相同的数字符号来标注。
在图3所示的语音信号编码器中,提供到输入端101上的语音信号利用高通滤波器HPF109进行滤波,以便除去不需要范围的信号并从该滤波器提供到LPC分析/量化单元113的LPC分析电路132和反变换LPC滤波器111。
LPC分析/量化单元113的LPC分析电路132提供一汉明窗口,顺序的256个采样的输入信号波形的长度作为一个数据块,并利用自相关法求出线性预测系数,即所谓的α系数。作为一个数据输出单位的帧的间隔设定接近160采样点。如果采样频率fs例如为8千赫,一帧间隔则为20毫秒或160采样点。
来自LPC分析电路132的α参数送到α-LSP变换电路133,以便变换成线性频谱对(LSP)参数。当利用直接型滤波器系数求出时将该α参数例如变换为10个即5对LSP参数。这种变换例如利用牛顿一拉普松法来实现。α参数变换成LSP参数的理由是按照α参数的内插特性,该LSP参数是更优异的。
来自α-LSP变换电路133的LSP参数由LSP量化器134进行矩阵或矢量量化。可以在进行矢量量化之前取逐帧的差,或者汇集多个帧,以便进行矩阵量化。按照本实例,每20毫秒计算出LSP参数的,每个长20毫秒的两个帧一起利用矩阵量化和矢量量化进行处理。
在连接端102取出量化器134的量化输出,即LSP量化的索引数据,同时将量化的LSP矢量送到LSP内插电路136。
LSP内插电路136对每20毫秒或40毫秒量化的LSP矢量进行内插,以便提供8元组速率。即每2.5毫秒刷新LSP矢量。原因在于,如果利用谐波编码/解码方法通过分析/合成处理该余部的波形,合成的波形的包络线呈现为极为平滑的波形,这样,如果LPC系数每20毫秒急剧地变化,很可能产生外部的噪声。即如果LPC系数每2.5毫秒逐渐地变化,可以防止这种外部噪声的产生。
由于利用每2.5毫秒产生的内插的LSP矢量对输入的语声进行反变换滤波,LSP参数利用一个由LSP向α变换电路137变换为α参数,它们是例如为10阶直接式滤波器的滤波器系数。由LSP向α变换电路137的输出送到LPC反变换滤波器电路111,该电路然后利用每2.5毫秒刷新的α参数进行反变换滤波,以便产生平滑的输出。反LPC滤波器111的输出送到正弦分析编码单元114(例如谐波编码电路)的正交变换电路(例如DCT电路)。
来自LPC分析/量化单元113的LPC分析电路132的α参数送到一按听觉加权的滤波计算电路139,在其中求出用于按听觉加权的系数。这些加权的数据送到按听觉加权的矢量量化器116,第二编码单元120中的按听觉加权的滤波器125和按听觉加权的合成滤波器122。
谐波编码电路的正弦分析编码电路114利用谐波编码法分析反变换LDC滤波器111的输出。即进行音调检测、各个谐波的幅值Am的计算和发声部分(V)/不发声部分(UV)的鉴别,并利用维的变换使各个谐波的随音调变化的幅值Am或包络线的数码恒定。
在图3所示的正弦分析编码单元114的说明性的实例中,使用备忘录式谐波编码。特别是按照多频带激励(MBE)编码,在模型化时假定,在同一时间点(相同的数据块或帧),发声部分和不发声部分出现在每个频域或频带中。按照另一种谐波编码技术,单一地判别在一数据块或一个帧中的语音是发声部分还是不发声部分。在下面的介绍中,如果所有的频带都是UV的,则一个指定的帧判别为UV,就MBE编码而论是这样的。如上所述对于MBE的分析合成法的技术的特定实例可以在以本申请的受让人的姓名申请的序号为4-91442的日本专利申请中查到。
分别将来自输入端101的输入语音信号和来自高通滤波器(HPF)109的信号提供到图3中所示的正弦分析编码单元114的开环音调查找单元141和过零计数器142。来自反变换LPC滤波器111的LPC的余部或线性预测的余部提供到正弦分析编码单元114的正交变换电路145。开环音调查找单元141取出输入信号中的LPC的余部,以便通过开环查找进行相对粗略的音调查找。利用闭环查找所抽取的粗略音调数据送到细微音调查找单元146,下面将进行解释。由开环音调查找单元141取出通过使LPC的余部的自相关的最大值归一化得到的经归一化的自相关值rp的最大值连同该粗略音调数据,以便送到V/UV鉴别单元115。
正交变换电路145进行正交变换,例如离散博里叶变换(DFT),以便将沿时间轴的LPC的余部变换为沿频率轴的频谱幅值数据。正交变换电路145的输出送到细微音调查找单元146和用于计算频谱幅值或包络线的频谱计算单元148。
向细微音调查找单元146提供由开环音调查找单元141抽取的相对粗略的音调数据和由正交变换单元145得到的频域数据。细微音调查找单元146以0.2到0.5的速率通过±几个采样使音调数据围绕作为中心的该粗略音调值数据使该音调数据摆动,以便无限接近有最佳十进制点(浮点)。将利用合成法进行的分析用作选择出一个音调的细微查找技术,以便使功率频谱会接近原有声音的功率频谱。来自闭环细微音调查找单元146的音调数据经过开关118送到输出端104。
在频谱计算装置148中,每个谐波的幅值和作为各谐波之和的频谱包络线根据频谱幅值和作为LPC的余部的正交变换输出的音调进行计算,并送到细微音调查找单元146、V/UV鉴别单元115和按听觉加权的矢量量化单元116。
V/UV鉴别单元115根据正交变换电路145的输出、来自细微音调查找单元146的最佳音调、来自频谱计算单元148的频谱幅值数据,来自开环音调查找单元141的归一化自相关值r(P)以及来自过零记数器142的过零计数值来鉴别一个帧的V/UV。此外,对于MBE的V/UV基本频带鉴别的边界位置还可以用作V/UV基带的鉴别条件。在输出端105取出V/UV鉴别单元115的鉴别输出。
频谱计算单元148的输出单元或矢量量化单元116的输入单元设有一些数据变换单元(一种进行采样速率变换的单元),考虑到沿频率轴的频带划分的数目和数据的数目与音调不同,数据变换单元的数目用于将包络线的幅值数据1Am1设定为一个恒定的数值。即如果有效的频带高达3400千赫,则该有效的频带可以根据音调划分为8到63个频带。由逐个频带得到的幅值数据1Am1的mMx+1的数目在从8到63的范围内改变。因此,数据数目变换单元将可变数目mMX+1的幅值数据变换为预置数目的数据,例如44个数据。
来自数据数目变换单元的,在频谱计算单元148的输出单元处或在矢量量化单元116的输入单元处提供的预置数目M例如4 4的幅值数据或包络线数据,根据预置数目的数据,例如44个数据作为一个单元,利用矢量量化单元116通过进行加权的矢量的量化一起进行处理。由按听觉加权的滤波器计算电路139的输出提供这种加权权重。经过开关117在输出端103由矢量量化器116取出包络线的索引。在加权的矢量量化之前,可以利用对于由预设数目的数据构成的一个矢量适用的“泄漏”系数得出帧内的差值。
下面解释第二编码单元120。第二编码单元120具有一个所谓的CELP编码结构,并专门用于对输入的语音信号的不发声部分进行编码。在用于输入语音信号的不发声部分的LELP编码结构中,作为噪声代码本或所谓的随机的代码本121的代表性的输出值的,与不发声语音部分的LPC的余部相对应的噪声输出经过增益控制电路126送到按听觉加权的合成滤波器122。该加权的合成滤波器122LPC利用LPC合成法对输入的噪声合成并将所产生的加权的不发声(部分)的信号送到减法器123。向减法器123由输入端101经过高通滤波器(HPF)109提供的并由按听觉加权的滤波器125经过按听觉加权的信号。减法器求出该信号和来自合成滤波器122的信号之间的差或误差。同时,由按听觉加权的滤波器输出端125的输出中预先减去按听觉加权的合成滤波器的零输入灵敏度。这一误差送到一个距离计算电路124,以便计算距离。在噪声代码本121中查找到使该误差成为最小的一个代表性的矢量值。上述是通过利用合成法分析采用闭环查找的时域波形的矢量量化的概括。
作为来自采用CELP编码结构的第二编码器120的不发声(UV)部分的数据,由噪声代码本121取出代码本的波形索引和由增益电路126取出代码本的增益增益。作为来自噪声代码本121的UV数据的波形索引,经过开关127S送到输出端107S,而作为增益电路126的UV数据的增益索引经过开关127g送到输出端107g。
这些开关127S、127g和开关117、118取决于来自V/UV鉴别单元115的V/UV鉴别结果接通和断开。具体地说,如果现时传输的帧的语声信号的V/UV鉴别结果表明为发声部分(V),开关117和118接通,而如果现时传输的帧的语声信号为不发声部分(UV),则开关127S、127g接通。
图4表示图2中所示的语音信号解码器的更详细的结构。在图14中,使用相同的数码标注与图2中所示相对应的部分。
在图4中,对应于图1和3的输出端的LSP的矢量量化输出即代码本索引提供到输入端202。
LSP索引送到用于LPC参数重现单元213的LSP的反矢量量化器231,以便对线性频谱对(LSP)数据进行反矢量量化,然后再提供到用于内插的LSP内插电路232、233。所形成的内插数据利用从LSP向α变换电路234、235变换为α参数,再送到LPC合成滤波器214。LSP内插电路232和从LSP向α变换电路234是为发声(V)语音(部分)设计的,而LSP内插电路233和从LSP向α变换电路235是为不发声(UV)语音部分设计的。LPC合成滤波器214由发声语音部分的LPC合成滤波器236和不发清辅音的语音部分的LPC合成滤波器237构成。即,对于发声语音部分和不发声语音部分独立地进行LPC系数内插,用以抑制有害的影响,否则在从发声语音部分到不发声语音部分或者相反的转变过渡部分中由于内插具有完全不同性质的LSP很可能产生这种影响。
向图4所示的输入端203提供与对应于图1和3中的编码器的连接端103的输出的相对应的加权的矢量量化的频谱包络线Am的代码索引数据,向输入端204提供来自图1和图3中的连接端104的音调数据,并且向输入端205提供来自图1和图3中的连接端105的V/UV鉴别数据。
来自输入端203的频谱包络线Am的矢量量化索引数据送到用于进行反矢量量化的反矢量量化器212,在其中进行与数据数目变换相反的变换。所形成的频谱包络线数据送到一正弦合成电路215。
如果在编码过程中在对频谱进行矢量量化之前求出帧内的差值,则在反矢量量化之后对帧内的差值进行解码,以便产生频谱的包络线数据。
向正弦合成电路215提供来自输入端204的音调和来自输入端205的V/UV鉴别数据。由正弦合成电路215取出与图1和3所示的LPC反变换滤波器111的输出相对应的LPC的余部数据并送到加法器218。正弦合成的具体技术公开在例如由本受让人提出的序号为4-91442和6-198451的日本专利申请中。
反矢量量化器212的包络线数据和来自输入端204、205的音调和V/UV鉴别数据送到用于对发声部分(V)添加噪声的噪声合成电路216。噪声合成电路216的输出经过加权叠加的和添加电路217送到加法器218。具体地说,考虑到如果通过正弦波合成产生作为向发声语音部分的LPC合成滤波器的输入的激励作用,将该噪声加入到LPC余部信号的发声部分,则会产生处在低音调的声音的感觉,例如男人的语音,并在发声语音部分和不发声语音部分之间突然产生变化,产生不自然的听觉。这种噪声考虑到与语声编码数据有关的参数,例如音调、频谱包络线的幅值、在一帧中的最大幅值或余部的信号的电平,与发声语音部分的LPC合成滤波器输入相关连,即与激励作用相关连。
加法器218的相加结果送到用于LPC合成滤波器214的发声语音部分的合成滤波器236,在其中进行LPC合成,产生随时间的波形数据,然后利用一用于发声语音部分的后置滤波器238V进行滤波,再送到加法器239。
向图4中的输入端207S和207g分别提供作为来自图3中的输出端107S和107g的UV数据的波形索引和增益索引,从该输入端提供到不发声语音部分的合成单元220。来自连接端207s的波形索引送到不发声语音部分的合成单元220的噪声代码本221,而来自连接端207g的增益索引送到增益电路222。由噪声代码本221读出的代表性的数值输出是与不发声语音部分的LPC的余部相对应的噪声信号分量。其在增盖电路222中变为预置的增益幅值并送到窗口电路223,以便形成用于平滑到发声语音部分的结合部的窗口。
窗口电路223的输出送到用于LPC合成滤波器214的不发声(UV)语音部分的合成滤波器237。送到合成滤波器237的数据利用LPC合成进行处理,变成用于不发声部分的随时间的波形数据。在送到加法器239之前,利用一用于不发声部分238u的后置滤波器对不发声部分的随时间的波形数据进行滤波。
在加法器239中,将来自用于发声语音部分的后置滤波器238V的随时间的波形信号和来自用于不发声语音部分的后置滤波器238u的对于不发声语音部分的随时间的波形信号彼此相加,在输出端201取出所形成的求和数据。
上述的语音信号编码器可以根据所要求的声音质量输出具有不同比特速率的数据。即,可以利用可变的比特速率输出该输出数据。例如,如果低的比特速率是2千比特/秒,高的比特速率是6千比特/秒,则输出的数据是具有如在表1中所示的如下比特速率的数据。
表1
来自输出端104的音调数据对于发声语音部分始终按照8比特/20毫秒的比特速率输出,而来自输出端105的V/UV鉴别输出始终为1比特/20毫秒。用于LSP量化的由输出端102输出的索引在32比特/40毫秒和48比特/40毫秒之间进行转换。另一方面,在由输出端103输出发声(V)语音部分过程中的索引在15比特/20毫秒和87比特/20毫秒之间进行转换。用于不发声部分(UV)的由输出端107S和107g输出的索引在11比特/10毫秒和23比特/5毫秒之间进行转换。对于不发声(UV)语音部分的输出数据对于2千比特/秒为40比特/20毫秒,对于6千比特/秒为120千比特/20毫秒。另一方面,对于发声(V)部分的输出数据,对于2千比特/秒为39比特/20毫秒,对于6千比特/秒为117千比特/20毫秒。
下面联系相关部分的装置解释用于LSP量化的索引、用于发声(V)语音部分的索引和用于发清辅间的(UV)语音部分的索引。
参阅图5和6,详细解释在LSP量化器134中的矩阵量化和矢量量化。
来自LPC分析电路132的α参数送到用于变换为LSP参数的α-LSP电路133。如果在LPC分析电路132中进行P阶的LPC分析,则计算出Pα参数。这些Pα参数变换成保存在缓冲器610中的LSP参数。
缓冲器610输出2帧的LSP参数。利用由第一矩阵量化器6201和第二距阵量化器6202构成的矩阵量化器620对两帧的LSP参数进行矩阵量化。在第一矩阵量化器6201中被矩阵量化的两帧LSP参数以及所形成的量化误差进一步在第二矩阵量化器6202中被矩阵量化。矩阵量化在时间轴和频率轴两者都利用相关处理。用于两帧的来自矩阵量化器6202的量化误差输入到由第一矢量量化器6401和第二矢量量化器6402构成的矢量量化单元640中。第一矢量量化器6401由两个矢量量化部分650和660构成,而第二矢量量化器6402由两个矢量量化部分670和680构成。来自矩阵量化单元620的量化误差利用第一量化器6401的矢量量化部分650、660以帧为基准进行量化。所形成的量化误差矢量进一步利用第二矢量量化器6402的矢量量化部分670、680进行矢量量化。上述矢量量化利用沿频率轴的相关处理。
执行如上所述的矩阵量化的矩阵量化单元620包括至少一个用于实施第一矩阵量化步骤的第一矩阵量化器6201和用于实施第二矩阵量化步骤的第二矩阵量化器6202,以便对由第一矩阵量化产生的量化误差进行矩阵量化。执行上述矢量量化的矢量量化单元640包括至少一个用于实施第一矢量量化步骤的第一矢量量化器6401和用于实施第二矩阵量化步骤的第二矢量量化器6402,以便将由第一矢量量化产生的量化误差进行矩阵量化。
下面将详细解释矩阵量化和矢量量化。
在缓冲器600中存储的用于两个帧的LSP参数,即为一个10×2的矩阵的参数送到第一矩阵量化器6201。第一矩阵量化器6201将用于两个帧的LSP参数经过LSP参数加法器621送到一个加权的距离计算单元623,用于求出最小值的加权距离。
在由第一矩阵量化器6201进行代码本查找的过程中,由方程(1)给出失真测量值:
其中X1是LSP参数,X1′是量化值,t和i是p维的数目。
利用方程(2)给出加权权重,其中没有考虑沿频率轴和沿时间轴的权重限制:
其中X(t,O)=0,X(t,P+1)=π,不论t何值。
方程(2)中的权重W还用于下游侧矩阵量化和矢量量化。
所计算的加权的距离送到用于矩阵量化的矩阵量化器MQ1 622。通过这种量化输出的8比特的索引送到信号转换器690。在加法器621中由来自缓冲器610的两个帧的LSP参数减去利用矩阵量化得到的量化值。加权的距离计算单元623计算每两个帧的加权的距离,以便在矩阵量化单元622中进行矩阵量化。此外,选择使加权的距离最小的量化值。加法器621的输出送到第二矩阵量化器6202的加法器631中。
与第一矩阵量化器6201相似,第二矩阵量化器6202进行矩阵量化。加法器621的输出经过加法器631送到一个加权的距离计算单元633,在其中计算最小的加权的距离。
利用方程(3)给出由第二矩阵量化器6202进行代码本查找的过程中的失真的量值dMQ2:
该加权的距离送到用于进行矩阵量化的矩阵量化单元(MQ2)632。通过矩阵量化输出的一个8比特的索引送到信号转换器690。该加权的距离计算单元633接着利用加法器631的输出计算加权的距离。选择使加权的距离最小的量化值。加法器631的输出逐帧地送到第一矢量量化器6401的加法器651、661。
第一矢量量化器6401逐帧地进行矢量量化。加法器631的输出逐帧地经过加法器651、661送到每个加权的距离计算单元653、663。
量化误差X2和量化误差X2′之间的差是一个(10×2)的矩阵。如果该差用X2-X2′=[X3-1,X3-2]表示,则利用方程(4)和(5)给出在由第一量化器6401的矢量量化单元652、662进行代码本查找的过程中的失真测量值dVQ1,dVQ2:
该加权的距离送到用于进行矢量量化的矢量量化单元VQ1652和矢量量化单元VQ2662。经这种矢量量化输出的每8比特的索引送到信号转换器690。利用加法器651、661由输入的两个帧的量化误差矢量减去该量化值。加权的距离计算单元653、663利用加法器651、661的输出顺序地计算加权的距离,以便选择使加权的距离最小的量化值。加法器651、661的输出送到第二矢量量化器6402的加法器671、681。
在由第二矢量量化器6402的矢量量化器672,682进行代码本查找的过程中对于
X4-1=X3-1-X3-1’
X4-2=X3-2-X3-2’
的失真测量值dVQ3,dVQ4由方程(6)和(7)给出:
这些加权的距离送到用于矢量量化的矢量量化器(VQ3)672和矢量量化器(VQ4)682。利用加法器671、681由对于两个帧的输入量化误差矢量减去经矢量量化得到的8比特的输出索引数据。加权的距离计算单元673、683利用加法器671、681的输出顺序地计算加权的距离,以便选择使加权的距离最小的量化值。
在代码本查找的过程中,根据各个失真测量值,利用通用的劳埃德算法进行学习。
在代码本查找的过程中和在学习的过程中的失真测量值可以具有不同的数值。
来自矩阵量化单元622、632和矢量量化单元652、662、672和682的8比特索引数据由信号转换器690进行转换并在输出端691输出。
具体地说,对于低的比特速率,取出实施第一矩阵量化步骤的第一矩阵量化器6201的输出、实施第二矩阵量化步骤的第二矩阵量化器6202的输出和实施第一矢量量化步骤的第一矢量量化器6401的输出,而对于高的比特速率,将低比特速率的输出加到实施第二矢量量化步骤的第二量化器6402的输出上,然后输出所形成的和。
这样对于2kbps(千比特/秒)和6kbps分别输出32比特/40毫秒的索引和48比特/40毫秒的索引。
矩阵量化单元620和矢量量化单元640按照代表LPC系数的参数的特征沿频率轴和/或时间轴限定的加权。
首先解释按照LSP参数的特征沿频率轴限定的加权。如果阶数P=10,LSP参数X(i)按照低、中和高范围被分组成为:
L1={X(i)|1≤i≤2}
L2={X(i)|3≤i≤6}
L3={X(i)|7≤i≤10}
如果各组L1、L2和L3的权重分别为1/4、1/2、1/4,则由方程(8)、(9)和(10)给出仅沿频率轴限定的权重:
仅按每组的方式进行各个LSP参数的加权并且对于每一个组通过加权限定这些权重。
分析沿时间轴方向的情况,各帧的和的总数必定为1,这样沿时间轴方向的限制是以帧为基准的。利用方程(11)给出仅沿时间轴方向限定的权重:
其中1≤i≤10和0≤t≤1。
利用这一方程(11),在具有的帧数为t=0和t=1的两个帧之间进行非限定沿频率轴方向的加权。这种加权是仅在利用矩阵量化处理的两个帧之间进行沿时间轴方向限定的加权。
在学习过程中,根据方程(12)对用作学习数据的具有总数为T的各帧的全体进行加权:
其中1≤i≤10,0≤t≤T。
下面解释沿频率轴方向和沿时间轴方向限定的加权。如阶数P=10,LSP参数X(i,t)对于低、中和高的三个范围被分组成为:
L1={X(i,t)|1≤i≤2,0≤t≤1}
L2={X(i,t)|3≤i≤6,0≤t≤1}
L3={X(i,t)|7≤i≤10,0≤t≤1}
如果对于各组L1、L2和L3的权重为1/4、1/2和1/4,利用方程(13)、(14)和(15)给出仅沿频率轴限定的加权:
利用这些方程(13)到(15),进行沿时间轴方向的每3个帧限定的和经过利用矩阵量化处理的两个帧的加权。这在代码本查找过程和学习过程中两者都是有效的。
在学习过程中,是对全体数据的各帧的总体进行加权。LSP参数X(i,t)对于低、中和高各范围分组成为:
L1={X(i,t)|1≤i≤2,0≤t≤T}
L2={X(i,t)|3≤i≤6,0≤t≤T}
L3={X(i,t)|7≤i≤10,0≤t≤T}
如果各组L1、L2和L3的权重分别为1/4、1/2和1/4,利用方程(16)、(17)和(18)给出对于各组L1、L2和L3仅沿频率轴方向限定的加权:
利用这些方程(16)到(18),可以对于3个范围沿频率轴方向和经过沿时间轴方向各帧的全体进行加权。
此外,矩阵量化单元620和矢量量化单元640根据LSP参数变化的幅值进行加权。在从V到UV或从UV到V的过渡区内,这个区代表在语音各帧全体中的少数帧,由于在辅音和元音之间的频率响应的差,各LSP参数明显变化。因此,可以将由方程(19)表示的权重和权重W’(i,t)相乘,进行在过渡区中置入重音的加权。
如下的方法(20):
可以替代方程(19)使用。
因此,LSP量化单元134进行两级矩阵量化和两级矢量量化,以便提供输出索引变量的比特数。
图7表示了矢量量化单元116的基本结构,而图8表示了图7中所示的矢量量化单元116的更详细的结构。下面解释在矢量量化单元116中的对于频谱包络线Am的加权的矢量量化的说明性的结构。
首先,在图3所示的语声信号编码装置中,对数据数目变换的说明性的配置进行解释,这种配置用于在频谱计算单元148的输入侧或在矢量量化单元116的输入侧提供恒定数目的频谱包络线的幅值的数据。
用于这种数据数目变换的可以有各种方法。在本实施例中,将在一数据块中从最后的数据到该数据块中的第一个数据内插各个值的伪数据,或者预置的数据例如在一个数据块中的重复最后的数据或第一个数据的数据附加到沿频率轴的有效频带的一个数据块的幅值数据上,用于提高用于NF的数据的数目,利用O元组,例如8元组限定带宽式的额外采样,求出数目等于各过0次数的例如8次的幅值数据。该((mMx+1)×Os)幅值数据进行线性内插,用以扩展到一个较大的NM数目,例如2048。这样NM数据进行再取样,以便变换为上述预置数目M的数据,例如44个数据。实际上,不需要求出所有的上述NM数据,通过额外采样和线性内插仅计算用于对最终所需M数据进行公式化所需的数据。
用于实行图7中的加权的矢量量化的矢量量化单元116至少包括:用于实施第一矢量量化步骤的第一矢量量化单元500和用于实施第二矢量量化步骤的第二矢量量化单元510,该第二单元510用于对利用第一矢量量化单元500在第一矢量量化的过程中产生的量化误差向量进行量化。该第一矢量量化单元500是所谓的第一级矢量量化单元,而第二矢量量化单元510是所谓的第二级矢量量化单元。
频谱计算单元148的输出矢量X即具有预置数目M的包络线数据输入到第一矢量量化单元500的输入端501。这一输出的矢量X利用矢量量化单元502通过加权的矢量量化进行量化。因此,由矢量量化单元502输出的波形索引在输出端503输出,而在输出端504输出量化的数值X0’并送到加法器505、513。加法器505由源矢量X减去量化的数值X0’,提供一个多阶的量化误差矢量V。
量化误差矢量V送到在第二矢量量化装置510中的矢量量化单元511。这个第二矢量量化单元511由多个矢量量化器或图7中所示的两个矢量量化器5111、5112构成。量化误差矢量V被按维进行划分,以便在两个矢量量化器5111、5112中通过加权的矢量量化方式进行量化。由这些矢量量化器5111、5112输出的波形索引在输出端5121、5122输出,而量化的数值y 1 ’,y 2 ’沿该维方向连通,并送到加法器513。加法器513将量化的数值y 1 ’、y 2 ’加到量化的数值X 0 ’上,以便产生量化的数值X 1 ’,在输出端514上输出。
因此,对于低的比特速率,取出利用第一矢量量化单元500实施第一矢量量化步骤得到的输出,而对于高的比特速率,实施第一矢量量化步骤的输出和利用第二量化单元510实施第二量化步骤得到的输出都被输出。
具体地说,如图8所示,在矢量量化部分116中的第一矢量量化单元500的矢量量化器502具有一L阶例如44-维的两级结构。
即,将代码本容量为32乘以增益gi的44维的矢量量化代码本的各输出矢量的和用作该44维的频谱包络线矢量X的量化数值X 0 ’。即如图8所示,两个代码本是CB0和CB1,而输出的矢量是S 1i、S 1j,其中0≤i和31≤j。另一方面,增益代码本CBg的输出是gl,其中0≤l≤31,其中gl是一个标量,极值输出X 0 ’是gl(S 1i +S 1j )。
通过上述LPC的余部的MBE分析得到的和变换为预置维的频谱包络线Am为X。关键的问题是X怎样有效地被量化。
量化误差能量E由下式限定
E=‖W{Hx-Hgl((S 0i+S 1j)}‖2
=‖WH{x-g1(S 0i+S 1j)}‖2
...(21)
其中H表示沿LPC合成滤波器的频率轴的特征,W为用于加权的矩阵,表示沿频率轴按感觉加权的特征。
如果利用现时帧的LPC分析结果将α参数标注为αi(1≤i≤p),由方程(22)的频率响应对L维的,例如44维的对应点的数值进行取样:
对于各计算值,将各个O接着数据串1,α1,α2…αp填入,以便提供数据串1,α1,α2,…αp,0,0,…0,提供例如256点的数据。然后利用256点FET,对于与从0到π的范围相关的各点计算(re 2+im2)1/2并求出各结果的倒数。这些倒数再按L点取样,例如44点,使这些L点作为对角线的各基元形成一个矩阵:
由方程(23)给出一个按听觉加权的矩阵W:
其中αi是LPC分析的结果,λa,λb是常数,如λa=0.4,λb=0.9。
由上述方程(23)的频率响应可以计算矩阵W。例如,根据256点的数据1,α1λb、α2λb2,…αpλbP,O、O,…O进行FFT,以便求出对于从0到π的一个域的(re 2[i]+Im 2[i])1/2,其中0≤i≤128。对于从0到π的一个域,对1,α1λa,α2λa2…,αpλaP,O,O,…O,在128个点上,利用256点的FFT求出该分母的频率响应,求出(r′e 2[i]+im′2[i]1/2,其中O≤i≤128。
利用下式可以求出方程(23)的频率响应:
其中0≤i≤128,利用如下的方法对于每个相关的点,例如44-维的矢量求出这样的频率响应。更准确地说应当采用线性内插。然而,在如下的实例中,代之以使用最接近的点。即,
ω[i]=ω0[nint{128i/L)],其中,1≤i≤L
在该方程中,ninT(X)是一个函数,其再现一个最接近X的数值。
正如对H一样,利用相似的方法求出h(1),h(2),…h(L)。即
按照另一个实例,首先求出H(Z)W(Z),并且为了降低FFT的次数,然后求出频率响应。即方程(25)的分母
展开为:
例如,利用数据序列1,β1,β2,…β2p,0,0,…0产生256点的数据。然后进行256点FFT,幅值的频率响应为:
其中0≤i≤128由此
其中0≤i≤128。对于L-维的矢量的每一个对应的点求出这种频率响应。如果FFT的点数很少,应使用线性内插。然而,这里利用下式求出最接近的数值:
其中1≤i≤L。如果具有这些数值作为对角线的基元的矩阵是W’,
方程(26)是与上述方程(24)相同的矩阵。另外,可以对于ω≡iπ,由方程(25)直接计算|H(exp(jω))W(exp(jω))|,其中1≤i≤,以便用作wh[i]。
另外,可以求出适当长度的例如40个点的方程(25)的脉冲响应并进行FFT化,以便求出所采用的幅值的频率响应。
下面解释用于降低计算按听觉加权的滤波器的特性时的处理量的方法和LPC合成滤波器。
在方程(25)中的H(Z)W(Z)为Q(Z),即,
以便求出设定到9(h)的脉冲响应Q(Z),其中0≤n≤Limp,Limp是脉冲响应长度,例如Limp=40。
在本实施例中,由于p=10,方程(a1)代表具有30个系数的20阶的无限脉冲响应(IIR)滤波器。通过近似地使Limp×3p=1200乘积求和运算,可以求出方程(a1)的脉冲响应q(n)的Limp个采样。通过在q(n),中填加一些0,可以产生q’(n),其中0≤n≤2m。如m=7,2m-Limp=128-40=88,将一些0附加到q(n)(0填入值),以便产生q’(n)。
这-q’(n)按照2m(=128点)被FFT化。FFT的结果的实部和虚部分别是re[i]和im[i],其中0≤is≤2m-1。由此,
这是由2m-1个点表示的Q(Z)的幅值频率响应。通过对rm[i]的各邻近值进行线性内插,利用2m个点表示频率响应。虽然可以用较高程度的内插来代替线性内插,但处理量会相应增加。如通过这样的内插得到的数组是Wlpc[i],其中0≤i≤2m,
wplpc[2i]=rm[i],其中0≤i≤2m-1
…(a3)
wlpc[2i+1]=(rm[i]+rm[i+1])/2,其中
0≤i≤2m-1
…(a4)
这样就提供Jwlpc[i],其中0≤i≤2m-1。
由于,利用下式可以产生wh[i]:
wh[i]=wlpc[nint(1281i/L)],其中1≤i≤1
…(a5)
其中nint(X)是一个函数,其再现一个最接近X的整数。这表明,通过执行一种128点FFT运算,可以求出方程(26)中的W’。
对于N点FFT所需的处理量通常是(N/2)log2N虚数相乘和Nlog2N复数相加,等效于(N/2)log2N×4次实数相乘和Nlog2N×2次实数相加。
利用这种方法,用于求出上述脉冲响应9(n)的乘积求和运算的数量是1200。另一方面,对于N=27=128的FFT的处理量近似为128/2×7×4=1792和128×7×2=1792。如乘积求和运算的次数是1,则处理量约是1792。如对方程(a2)进行处理一样,处理量约为3的平方和运算以及处理量约为50的平方根运算要执行2m-1=26=64次,这样对于方程(a2)的处理量为;
64×(3+50)=3392
另一方面,方程(a4)的内插数量级为64×2=128。
因此,按求和的总数方面,处理量等于1200+1792+3392+128=6512
由于按W’TW的方式使用权重矩阵W,可以仅求出rm2[i]并使用,不必对平方根进行处理。在这种情况下,上述方程(a3)和(a4)对于rm2[i]而不是对于rm[i]进行处理,同时利用上述方程(a5)求出的不是wh[i],而是wh2[i]。在这种情况下,用于求出rm2[i]的处理量是192,这样,在求和的总数方面,处理量变得等于:
1200+1792+192+128=3312
如果直接对由方程(25)到方程(26)进行处理,处理量中的求和的总次数约为2160。即对方程(25)的分子和分母两者都进行256点FFT。这种256点FFT运算次数数量级为256/2×8×4=4096。另一方面,对于who[i]的处理包含:两次平方和运算,每个处理量为3;处理量约为25的除法;以及处理量约为50的平方和运算。假如按照上述的方式略去平方根计算,处理量的数量级为128×(3+3+25)=3968。因此求和的总次数方面,处理量等于4096×2+3968=12160。
因此,如果直接计算上述方程(25),以便求出who 2[i]而不是who[i],所需处理量数量级为12160,而如果由方程(a1)到方程(a5)进行计算,所需处理量约为3312,这意味着处理量可以降低到四分之一。利用经降低处理量的加权计算程序概括表示在图9所示的流程图中。
参阅图9,在第一步骤Sa1产生加权传递函数的上述方程(a1),在下一步骤Sa2,产生(a1)的脉冲响应。在步骤Sa3对这一脉冲响应进行0附加(0填加)以后,在步骤Sa4进行FFT。如果产生长度等于乘方2的脉冲响应,则可直接进行设有O填加的FFT。在步骤Sa5,求出幅值的频率特性或幅值的平方。在下一个步骤Sa6,进行线性内插,以便增加频率特性的点数。
这些用于求出加权的矢量量化值的计算不仅可适用于语声编码,而且还适用于可发浊音的信号例如音响信号的编码。即按照可发浊音的信号编码方面,其中利用DFT系数、DCT系数或MDCT系数作为频域参数,或由这些参数产生的参数例如各谐波的幅值或LPC的余部的谐波幅值来表示语音或音响信号,通过对加权传递函数的脉冲响应或中途中断和填加O的脉冲响应进行FFT以及根据FFT的结果计算加权,通过加权的矢量量化可以将这些参数量化。在这种情况下,最好在对加权的脉冲响应进行FFT之后,对FFT系数本身(re,im)(其中re和im分别代表系数的实部和虚部,该系数为re2+im2或(re2+im2)1/2进行内插并用作权重。
如利用上述方程(26)的矩阵W’改写方程(21),即加权的合成滤波器的频率响应,得到
E=‖W′k(x-gk(S 0c+S lk))‖2
下面解释用于学习波形代码本和增益代码本的方法。
对于所有的帧K使失真的预期数值最小,为此,选择一个代码矢量S0c用作CB0。如果有M个这样的帧,如
是最小的,则可满足。在方程(28)中,Wk’、Xk,gk和Sik分别代表第K’帧的权重,到第K’帧的输入,第K’帧的增益和对于第K’帧的代码本CB1的输出。
为使方程(28)数值最小化,
因此,
这样,
其中()代表反相矩阵,Wk’T代表Wk’的换位矩阵。
接着,考虑增益最优化。
利用下式通过选择增益的码字gc给出与第k’帧相关的失真的预期的数值:
解:
我们得到
上述方程(31)和(32)对于波形S 0i,S ij和对于0≤i≤31,0≤j≤31和0≤1≤31的增益提供最佳矩心条件,即最佳解码器输出。同时,可以按与S 0i相同的方式求出S 1j。
下面讨论最佳编码条件即最接近的邻近条件。
为了求出失真测量值,即每次求出使等式E=‖W′(X-g1(S 0i+S 1j))‖2最小值化的S 0i和S 1j,对于上述方程(27)给定输入X和加权矩阵W′,即在逐帧的基础上求解。
本质上讲,对于g1(0≤1≤31)、S 0i(0≤i≤31)和S 1j(0≤j≤31)的所有组合,即32×32×32=32768都是根据圆形罗宾构造round robin fashion求出E的,以便求出该组的将会得出E的最小值的S 0i,S ij。然而,由于这样需要大量的计算,在本实施例要顺序地查找该波形和增益。同时,对于S 0i和S 1j的组合采用圆形罗宾查找。对于S 0i和S 1j有32×32=1024种组合。在下面的介绍中,为了简化将S 0i+S 1j表示为S m。
上述方式(27)变为E=‖W′(X-g1Sm)‖2。如进一步简化,会Xw=W’X和Sw=W’Sm′,得到:
E=‖x w-gl s w‖2
...(33)
因此,如果gl可以足够精确地产生,则可以按如下两步进行查找:
(1)对将达最大值的S w进行查找:
和(2)对最接近下式的g1进行查找:
假如利用原来的标注对上述表达式改写,则
(1)’对于将达到最大值的一组S0i和S1i进行查找,
和(2)’对于最接近下式的g1进行查找:
上述方程(35)代表了最佳编码条件(最接近的邻近条件)。
利用方程(31)和(32)的条件(矩心条件)和方程(35)的条件,通过利用所谓的广义的劳埃德算法(GLA)可以同时将代码本(CBO、CB1和CBg)排成序列。
在本实施例中,将由输入的X的范数(norm)相除的W’用作W’。即在方程(31)、(32)和(35)中用W’/11×11代替W’。
另外,利用上述方程(26)确定在由矢量量化器116进行矢量量化时用于按感觉加权时的加权权重W’。然而,还可以通过求出已经考虑了过去的W’的现时权重W’来找出考虑暂时隐蔽的权重W’。
在上述方程(26)中的按在时间n即在第n帧求出的wh(1),wh(2),…wh(L)的数值分别表示为whn(1),whn(2),…whn(L)。
如果将在时间n已考虑了先前数值的各权重定义为An(i),其中1≤i≤L,
An(i)=λAn-1(i)+(1-λ)whn(i),(whn(i)≤An-1(i))
=whn(i),(whn(i)>An-1(i))
其中λ可以例如设定λ=0.2。在An(i)中,1≤i≤L,因此求出的具有这一An(i)作为对角线基片的矩阵可以用作上述加权权重。
按照这种方式通过矢量量化得的波形索引值S 0i,S 1j分别在输出端520,522输出,而增益索引gl在输出端521输出。此外,量化的数值X′0的输出端504输出,同时送到加法器505。
加法器505将频谱包络线矢量X减去该量化值,产生一量化误差矢量V。具体地说,将这一量化误差矢量V送到矢量量化单元511,以使沿各维进行划分,并利用矢量量化器5111到5118通过加权的矢量量化处理进行量化。
第二矢量量化单元510采用比第一矢量量化单元500更多的比特数。因而,代码本的存储容量和对代码本查找的操作量(复杂程度)都明显地增加了。因此,不可能按照44维(与第一矢量量化单元500相同)实施矢量量化。所以,在第二矢量量化单元510中的矢量量化单元511由多个矢量量化器构成,输入的经量化的数值按各维被划分成为用于进行加权的矢量量化的多个低维数的矢量。
在下表2中表示了在矢量量化器5111到5118中所采用的量化的数值y0到y7、维数和比特数之间的相互关系。
表2
量化的数值 | 维数 | 比特数 |
y0 | 4 | 10 |
y1 | 4 | 10 |
y2 | 4 | 10 |
y3 | 4 | 10 |
y4 | 4 | 9 |
y5 | 8 | 8 |
y6 | 8 | 8 |
y7 | 8 | 7 |
由矢量量化器5111到5118输出索引值Idvq0到Idvq7在输出端5231到5238输出。这些索引数据的比特的和为72。
假如通过结合沿该维方向的矢量量化器5111到5118的输出的量化的数值y 0’到y 7’得到的一个数值,则利用加法器513将量化的数值y′和X′0求和,以便提供一个量化的数值X′1。因此,由下式表达该量化的数值:
X 1’=X 0’+y’
=X-y+y’
即极值量化误差矢量是y’-y。
如果来自第二矢量量化器510的量化的数值x’,要被解码,语声信号解码装置不需要来自第一量化单元500的量化的数值X’1。然而,它需要来自第一量化单元500和第二量化单元510的索引数据。
下文将解释在矢量量化部分511中的学习方法和代码本查找。
像对于学习方法一样,利用如表2所示的8个W’,将量化误差矢量y分成为8个低维的矢量y 0到y 7。假如权重W’是一个具有44点的再采样的数值作为对角线上的基元的矩阵:
该权重W’被分成如下的8个矩阵:
这样按低维数分开的y和W’被分别命为Yi和W′i,其中1≤i≤8。
失真的量值E定义如下:
E=‖Wi′(y i-s)‖2
...(37)
代码本矢量S是对yi量化的结果。对这种使失真的量值E变为最小的代码本的代码矢量进行查找。
在代码本学过程中,还利用广义的劳埃德算法(GLA)进行加权。首先解释用于学习的量佳矩心条件。假如有M个已经选择代码矢量S作为最佳量化结果的输入矢量,以序列的数据为yk,利用方程(38)提供失真了的顶期的数值,使对所有帧K进行加权时使失真的中心偏移最小:
求解
得到:
取两侧的换位的数值,得到
在上述方程(39)中,S是有代表性的最佳矢量,表示最佳的矩心条件。
像对最佳编码条件一样,其足以查找到使‖W′i(yi-S)‖2的数值变为最小的S。在查找过程中的W′i不必与在学习过程中的W’i相同,并且可以是一未加权的矩阵:
通过利用两级矢量量化单元构成在语音信号编码器中的矢量量化单元116,能够使得输出的索引比特数是可变的。
采用本发明的上述CELP编码器结构的第二编码单元120由多级矢量量化处理器组成,如图9所示。这些多级矢量量化处理器在图9所示实施例中是按照两级编码单元1201、1202组成的,其中表示了倘若传输比特速率可以在2Kbps和6Kbps之间转换时的按照6kbps的传输比特速率进行变换的配置。此外,波形和增益索引输出可以在23比特/5毫秒与15比特/5毫秒之间转换。在图11中表示了在图10中的配置的处理流程图。
参阅图10,图10中的第一编码单元300等效于图3中的第一编码单元113,图10中的LPC分析电路302对应于图3中所示的LPC分析电路132,而LSP参数量化电路303对应于图3中的从α到LSP变换电路133到LSP到α变换电路137的结构,图10中的按听觉加权的滤波器304对应于图3中的按听觉加权的滤波器计算电路139和按听觉加权的滤波器125。因而,在图10中,与图3中的第一编码单元113的由LSP向α变换电路137的输出相同的输出提供到连接端305,而与图3中的按听觉加权的滤波器计算电路139的输出相同的输出提供到连接端307,以及与图3中的按听觉加权的滤波器125的输出相同的输出提供到连接端306。然而,除了由按听觉加权的滤波器125之外,图10中的按感觉加权的滤波器304,即利用输入的语音数据和预量化α参数,而不是利用LSP-α变换电路137的输出来产生按听觉加权的信号,即与图3中的按听觉加权的滤波器125的输出相同的信号。
在图10所示的两级第二编码单元1201和1202中,减法器313和323对应于图3中的减法器123,而距离计算电路314、324对应于图3中的距离计算电路124。此外,增益电路311、321对应于图3中的增益电路126,同时,随机的代码本310、320和增益代码本315、325对应于图3中的噪声代码本121。
在图10所示的结构中,在图11中的步骤处的LPC分析电路302将由连接端301提供的输入语音数据X像上述一样划分成各帧,以便为了求出α参数进行LPC划分。LSP参数量化电路303将来自LPC分析电路302的α参数变换为LSP参数,以便量化LSP参数。对量化的LSP参数进行内插并变换为α参数。LSP参数量化电路303由量化的LSP参数变换的α参数即量化的LSP参数产生一种LPC合成滤波器函数1/H(Z),并将所产生的LPC合成滤波器LSP函数1/H(Z)经过连接端305送到第一级第二编码单元1201的按听觉加权的合成滤波器312。
按听觉加权的滤波器304由LPC分析电路302的α参数即预量化的α参数求出用于按听觉加权的数据,该数据与由图3中的按听觉加权的滤波器计算电路139产生的数据相同。这些加权的数据经过连接端307提供到第一级第二编码单元1201的按听觉加权合成滤波器312。该按听觉加权的滤波器304由输入的语音数据和预量化的α参数,如在图11中的步骤SZ所示的产生按听觉加权的信号,即与图3中的按感觉加权滤波器125输出信号相同的信号。即首先由预量化α参数产生LPC合成滤波器函数W(Z)。因此产生的滤波器函数W(Z)适用于输入的语音数据X,以便产生XW,该XW作为按听觉加权的信号经过连接端306提供到第一级第二编码单元1201的减法器313。在第一级第二编码单元1201中,9比特波形索引输出的随机代码本310的代表性的值输出提供到增益电路311,该电路则将来自随机的代码本310的代表性的输出与来自6比特增益索引输出的增益代码本315的增益(标量)相乘。由增益电路311将乘以该增益的代表性的值输出送到利用1/A(Z)=(1/H(Z)xW(Z)的按听觉加权的合成滤波器312。加权的合成滤波器312将该1/A(Z)的零输入响应输出送到减法器313,如在图11中的步骤S3所示。减法器313将按听觉加权的合成滤波器312的零输入响应输出与来自按听觉加权的滤波器304的按听觉加权的信号xW相减,并取出形成的差或误差作为参考矢量r,在第一级第二编码单元1201处进行查找的过程中,这个参考矢量r送到距离计算电路314,在其中计算该距离并且查找使量化误差能量E最小的波形矢量s和增益g,如在图11中的步骤S4所示。这里,1/A(Z)处于零状态。即如果在利用处于零状态的1/A(Z)合成的代码本中的波形矢量S为Ssyn,则查找使等式(40)的E数值最小的波形矢量s和增益g
虽然,可以对使量化误差能量E最小的S和g进行充分地查找,仍可采用如下的方法来降低计算量。
第一种方法为了查找使利用如下的方程(41)定义的Es变为最小的波形矢量:
根据由第一种方法得到的S,利用方程(42)表示理想的增益:
因此,按照第二方法,对使等式(43)中的Eg最小的这样的g进行查找:
Eg=(gref-g)2
…(43)
由于E是g的平方函数,使Eg最小的这样一个g将Eg降至最小。
根据利用第一和第二方法得到的S和g,利用如下的方程(44)可以计算量化误差矢量e:
e=r-gs syn
…(44)
像在第一级中一样,按照第二级第二编码单元1202的参考值,进行这一矢量e的量化。
即,提供到连接端305和307的信号直接由第一级第二编码单元1201的按听觉加权的合成滤波器312提供到第二级第二编码单元120L的按听觉加权的合成滤波器322。由第一级第二编码单元1201求出的量化误差矢量e提供到第二级第二编码单元1202的减法器323。
在图11中的步骤S5,在第二级第二编码单元1202中进行的操作与在第一级中进行的相似,即,由5比特波形索引输出的随机代码本320输出的一代表性的数值送到增益电路321,在其中代码本320的代表性的数值输出与来自3比特增益索引输出的增益代码本325的增益相乘。加权的合成滤波器322的输出送到减法器323,在其中求出按听觉加权的合成滤波器322的输出与第一级量化误差矢量e之间的差。这个差送到用于距离计算的距离计算电路324,以便查找使量化误差能量E变为最小的波形矢量S和增益g。
随机代码本310的波形索引输出和第一级第二编码单元1201的增益代码本315的输出以及随机的代码本320的索引输出和第二级第二编码单元1202的增益代码本325的索引输出都送到索引输出转换电路330。如果由第二编码单元120输出23比特,则对随机的代码本310、320的索引数据和第一级和第二级第二编码单元1201、1202的增益代码本315和325的索引数据求和并输出。如果输出15比特,则输出随机的代码本310的索引数据和第一级第二编码单元1201的增益代码本315的索引数据。
然后如在步骤S6所示,刷新滤波器状态,以便计算零输入响应输出。
在本实施例中,对于波形矢量第二级第二编码单元1202的索引比特数很小为5,而对于增益也很小为3。假如在这种情况下在代码本中没有出现适合的波形和增益,量化误差很可能增加而不是减少。
虽然,为了防止这个问题产生,可以规定增益为0,但时该增益仅有3比特。假如,这些增益的其中之一设定为0,量化功能会明显恶化。根据这种考虑,对于波形矢量提供全为0的矢量,这一矢量已被分配较大的比特数。排除该全为0的矢量进行上述查找,并且假如量化误差已经很大增加,选择出该全为0的矢量。增益是任选的。这样就使得能够防止在第二级第二编码单元1202中的量化误差增加。
虽然,上面已经介绍了两级配置,但级数可以大于2。在这种情况下,假如通过第一级闭环查找,矢量量化已经接近终止,则利用第(N-1)级的量化误差作为一个参考输入进行第N’级的量化,并且将第N’级的量化误差用作一参考值输入到第(N+1)级。
由图10和11可以看出,通过采用多级矢量量化器作为第二编码单元,与按照相同比特数或利用对偶的代码本,通过利用纯粹矢量量化的计算量相比,降低了计算量。特别是,在CELP编码时,其中利用合成法分析通过采用闭环查找来进行沿时间轴的波形的矢量量化,进行较少次数的查找操作是很重要的。此外,通过在采用二级第二编码单元1201、1202两者的索引输出和仅采用第一级第二编码单元1201的输出而没有采用第二级第二编码单元1202的输出之间进行转换,可以易于转换比特数。假如将第一级和第二级第二编码单元1201、1202的索引输出综合并输出,解码器可以利用选择其中一个索引输出的结构易于进行交换。即利用一种按照2Kbps操作的解码器,借助对例如按照6Kbps编码的数据进行解码的结构,使解码器可以易于交换。此外,如在第二级第二编码单元1202的波形代码本中包含零矢量,就能够防止量化误差增加,而比假如将0添加到增益中性能劣化得较少。
例如利用如下的方法可以产生随机的代码本的代码矢量(波形矢量)。
随机的代码本的代码矢量例如可以通过对所谓的高斯噪声进行限制来产生。具体地说,通过产生高斯噪声,利用一个适当的阈值对高斯噪声进行限制和对已限制的高斯噪声进行归一化,可以产生该代码本。
然而,在语音方面有多样性。例如,高斯噪声可以与接近噪声的谐音的语音,例如“Sa,shi,Su,Se和So”相适当,同时,高斯噪声不能与剧烈上升音例如“Pa,Pi,Pa,Pe和Po”的语音相适应。
根据本发明,高斯噪声应用于某些代码矢量,而代码矢量的其余部分通过学习来处理,这样,就可以使具有急剧上升的辅音与接近噪声的辅音相适应,若例如阈值增加,得到具有几个大的峰值的这样的矢量,而若阈值降低,则代码矢量接近高斯噪声。因此,通过增加限制用阈值的变化,能够适应具有急剧上升部分的辅音,例如“Pa,Pi,Pu,Pe和Po”或接近噪声的辅音,例如“Sa,shi,Su,Se和So”,因此增加了清晰度。图12分别利用实线和虚线表示高斯噪声和经限制的噪声的分布状态。图12A和12B表示对于限制用的域值等于1.0的噪声,即具有较高阈值的噪声以及具有等于0.4的限制用的阈值即具有较小阈值的噪声。由图12A和12B可以看出,如阈值选择得较高,得到具有几个较大峰值的矢量,而如果阈值选择得较低,噪声则接近高斯噪声本身。
为了实现这一点,通过对高斯噪声进行限制来准备起始的代码本和设定适当数量的非学习的代码矢量。为了消除接近噪声的辅音,例如“Sa,shi,Su,Se和So”,按照逐渐增加的变化值的顺序选择非学习的代码矢量·利用用于学习的LBG算法,通过学习求出各矢量。在最接近的邻近条件下的编码采用固定的代码矢量和通过学习得到的代码矢量。在该矩心条件下,仅要进行学习的代码矢量要刷新。因此,代码要学习的代码矢量可以适应急剧上升的辅音,例如“Pa,Pi,Pu,Pe和Po”。
通过通常的学习可以查找用于这些代码矢量的量佳增益。
图13表示对于通过对高斯噪声进行限制构成代码本的处理操作流程图。
在图13中,为了起动在步骤S10将学习的次数n设定,使n=0。由于误差D0=∞,设定学习的最大次数nmax和设定阈值ε,该阈值ε设定学习结束条件。
在下一步骤S11,通过限制高斯噪声产生起始代码本。在步骤S12,固定部分的代码矢量作为非学习的代码矢量。
在下一步骤S13,依据上述声音代码本完成编码。在步骤S14,计算误差。在步骤S15,判断是不是(Dn-1-Dn)/Dn<ε,或n=nmax,如果结果是YES(是),操作终止。如果结果是NO(否),操作转换到步骤S16。
在步骤S16,处理未被用于编码的代码矢量。在下一步骤S17,刷新代码本。在步骤S18,在返回到步骤S13之前,递增学习的次数n。
在图3所示的语音编码器中,下面解释发声/不发声鉴别单元115的具体实例。根据正交变换电路145的输出,来自高精度音调查找单元146的最佳音调、来自频谱计算单元148的频谱幅值数据,来自开环音调查找单元141的最大归一化的自相关值r(p)和来自过零计数器412的过零计数值,V/UV鉴别单元115对所处理的一个帧进行V/UV鉴别。V/UV鉴定的基带结果的边界位置,类似于用于MBE的,还用作对于所处理的帧的其中一个条件。
下面解释采用按基带的V/UV鉴别结果的,用于对MBE进行V/UV鉴别的条件。
在MBE的实例中代表第m次谐波的幅值的参数或幅值|Am|可以用下式来表示:
∴
在这个方程中,|S(j)|是根据对LPC的余部进行DFT得到的频谱|E(j)|是该基本信号的频谱,具体地说,是一256点的汉明窗口,而am、bm是对应于第m个频带的接着对应于第m次谐波的频率的较低和较高的极限值,用索引j来表示。为了按基带进行V/UV鉴别,使用信噪比(NSR)。第m个频带的NSR用下式表示:
如果NSR值大于再设的阈值,例如0.3,即如果误差较大,就可以判别,|S(j)|没有很好地近似所处理的频带中的|Am||E(j)|,即该激励信号|E(j)|不适合作为基准。因此鉴别出所处理的频带是不发声部分的(UV)。如相反,就可判别出已很好地近似,因此确定是发浊音的部分(V)。
应注意,各个频带(谐波)的NSR反映了从一个谐波到另一个谐波的各谐波的相似性。NSR的各经增益加权的谐波的和定义为NSRall,如下:
NSRall=(∑m|Am|NSRm)/(∑m|Am|)
根据这一频谱相似性是大于还是小于某一阈值,确定用于V/UV鉴别的规则基准。在这里设定这一阈值,使ThNSR=0.3。这一规则基准与LPC的余部的自相关最大值、帧的基数(power)和过零点相关,在用于NSRall<ThNSR的规则基准的情况下,如果该规则适用和如果没有适用的规则,则所处理的帧就分别是V和UV。
具体的规则如下:
对于NSRall<ThNSR,
如果numO XP<24,frm POW>340和ro>0.32,则所处理的帧为V;
对于NSRall≥ThNSR,
如果num O XP>30,frm Pow<900和ro>0.23,则所处理的帧为UV;
其中各个变量定义如下:
mum O×P:每帧过零的数目,
frm pow:帧源
ro:自相关最大值
用一组特定的规则例如上述的规则表示的规则用于进行V/UV鉴别时参照。
下面将更详细地解释图4中的语音信号解码器的基本部分的结构和工作情况。
如前所述,LPC合成滤波器214分为用于发声语音部分(V)的合成滤波器236和用于不发声语音部分(UV)的合成滤波器237。如果对各LSP连续地按每20个采样即每2.5毫秒进行内插,而不区分合成滤波器,也不考虑V/UV的区别,在从V到UV或从UV到V的过渡部分内插具有完全不同特性的LSP。其结果是,UV和V的LPC分别被用作V和UV的各余部,这样往往会产生奇异的声音。为了防止这种不正常的效果产生,LPC合成滤波器分成V和UV部分,对V和UV部分独立地进行LPC系数内插。
下面解释在这种情况下用于LPC滤波器236、237的系数内插的方法。具体地说,根据V/UV状态,转换进行LSP内插,如在表3中所示。
表3
取一个10阶的LPC分析的实例,等间隔的LSP为对应于用于平坦滤波器特性的α参数的LSP,增益等于单位值即α0=1,α1=α2=…=α10=0,0≤α≤10。
这种10阶LPC分析,即10阶LSP是与完全平坦的频谱相对应的LSP,各LSP在0到π之间按11个均匀隔开的位置即按相等的间隔排列。在这种情况下,合成滤波器的整个频带增益这时具有最小通过特性。
图15示意表示增益改变的方式,具体地说,图15表示在从发清辅音的(UV)部分向发浊音的(V)部分转变的过程中,1/HUV(Z)的增益和1/HV(Z)的增益是如何变化的。
像对于内插的单位一样,对于1/HV(Z)的系数为2.5毫秒(20个采样),而对于1/HUV(Z)的系数,对2Kbps的比特速率为10毫秒(80个采样),以及对6kbps的比特速率为5毫秒(40个采样)。对于UV,由于第二编码单元120利用合成法进行分析,实现波形匹配,可以利用邻近V的部分的LSP进行内插,而不是按照相等间隔的LSP进行内插。应注意,在第二编码部分120中的UV部分进行编码时,在从V到UV的过渡部分通过清除1/A(Z)加权的合成滤波器122的内部状态,将零输入的响应置为O。
这些LPC合成滤波器236、237的输出送到各个独立设置的后置滤波器238u、238v。将后置滤波器的强度和频率响应对于V和UV部分设定为不同的数值,以便将后置滤波器的强度的频率响应对于V和UV部分设定为不同的数值。
下面解释在LPC的余部信号的V和UV部分之间的结合部的窗口,即按照LPC合成滤波器输入进行的激励。利用发声语音合成单元211的正弦合成电路215和利用不发声语音合成单元的窗口电路223进行开窗口。在本受让人提出的序号为4-91422的日本专利申请中详细地解释了用于对该激励的V部分进行合成的方法,与之相似在由本受让人提出的序号为6-198451的日本专利申请中详细地解释了用于对该激励的V部分进行快速合成的方法。在本说明性的实施例中,利用这种快速合成法产生V部分的激励作用。
在发声(V)部分中,其中利用相邻的各帧的频谱通过内插进行正弦合成,可以产生在第n和第(n+1)帧之间的所有波形。然而,对于跨在V和UV部分的信号部分,例如图16中所示的第(n+1)帧和第(n+2)帧,或对于跨在UV部分和V部分的信号部分,仅对±80个采样(160个采样的总和等于一个帧间隔)该UV部分进行编码和解码。其结果是在V侧的邻近的各帧之间的中心点CN之外进行开窗口,同时远至在UV侧的中心点CN开窗口,以便使结合部重叠,如图17所示。对于UV到V的过渡部分采用相反的操作程序。还可以如在图17中以虚线表示,在V侧开窗口。
下面解释在发声(V)部分的噪声合成和噪声添加。这些操作利用噪声合成电路216、加权叠加和添加电路217和图4所示的加法器,通过将考虑了如下的参数的噪声添加到LPC的余部信号的发声部分,并结合作为LPC合成滤波器输入的发声部分的激励作用来完成的。
即上述参数列举如下:音调滞后Pch、发声声音部分的频谱幅值Am|i|、在一帧中的最大频谱幅值Amax以及余部信号电平lev。音调滞后pch是对于预置的采样频率f3,例如fs=84赫,在一个音调周期的采样数,而在频谱幅值Am|i|中的i是一个整数,对于在等于I=pch/2的fs/2的频带的各谐波数O≤i≤I。
按与例如通过多带编码(MB E)进行的不发声声音部分的合成中非常相同的方式,利用这种噪声合成电路216进行操作处理。图18表示了噪声合成电路216的一个特定实施例。
即,参照图18,白噪声发生器401输出高斯噪声,然后利用STFT处理器402通过短时的傅里叶变换处理该高斯噪声,以便产生沿频率轴的噪声的功率谱。高斯噪声是时域的白噪声信号波形,利用适当的窗函数形成窗口,例如具有的预置长度例如为256个采样的汉明窗口。来自STFT处理器402的功率谱为了进行幅值处理送到乘法器403,以便与噪声幅值控制电路40的输出相乘。乘法器403的输出送到反STET(ISTFT)处理器404,在该处理利用原有的白噪声的相位按照该相位进行ISTFT处理,用以变换成时域信号。ISTFT处理器404的输出送到加权叠加一加法电路217。
在图18中的实施例中,由白噪声发生器401产生时域噪声并利用正交变换例如STFT进行处理,以便产生频域噪声。另外,还可以利用噪声发生器直接产生频域噪声。通过直接产生频域噪声,可以取消正交变换处理操作,例如STFT或ISTFT。
具体地说,可以使用在±X的范围内产生随机数码和按照FFT谱的实部和虚部处理所产生的随机数的方法、或者一种在从0到最大数(max)范围内产生正的随机数的方法,按照FFT谱的幅值处理它们和在-π到+π范围内产生随机数和按照FFT谱的相位处理这些随机数的方法。
这就使得能够取消图18中的STFT处理器402,简化结构或减少处理量。
噪声幅值控制电路410具有例如在图19中所示的基本结构,根据由图4中的频谱包络线的量化器212经过连接端411提供的发浊音的(V)声音部分的频谱幅值Am[i],通过在乘法器403控制倍乘系数,求出合成的噪声幅值Am-噪声[i]。即,在图19中,利用噪声加权电路417对最佳噪声、混合值计算电路416的输出进行加权,频谱幅值Am[i]和音调滞后Pch输入到该计算电路416,并且所形成的输出送到乘法器418,以便与频谱幅值Am[i]相乘,产生噪声幅值Am-noise[i]。作为第一个用于噪声合成和添加的特定实施例,下面介绍这种一个实例,其中噪声幅值Am-noise[i]变为上述4个参数中的两个参数即音调滞后Pch和频谱幅值Am[i]的函数。
在这些函数中,f1(Pch,Am[i])为:
f1(Pch,Am[i]=0,其中0<i<Noise-b×I),
f1(Pch,Am[i])=Am[i]×noise_mix,其Noise_b×I<i<I,以及
noise_mix=k×Pch/2.0(译注Noise为噪声)
应注意,noise_max的最大值是noise_mix max,在该值下被截止。例如,K=0.02,noise_mix max=0.3和Noise_b=0.7,其中Noise_b是恒定的,其决定这一噪声要添加在整个频带的哪一部分。在本实施例中,在高于70%-位置的频率范围内添加噪声,即如fs=8千赫,在从4000×0.7=2800千赫远至4000千赫的范围内添加噪声。
下面解释用于噪声合成和添加的第二特定实施例,其中噪声幅值Am_noise[i]是四个参数的三个的函数f2(Pch,Am[i],Amax),即音调滞后Pch、频谱幅值Am[i]和最大频谱幅值Amax。
在这些函数中,f2(Pch,Am[i],Amax)为:f2(Pch,Am[i],Amax)=0,其中0<i<Noise_b×I),
f1(Pch,Am[i],Amax)=Am[i]×noise_mix,其中Noise_b×I≤i≤I,以及
noise_mix=K×Pch/2.0
应注意,noise_mis的最大值是noise_mix-max,并且作为一个实例,k=0.02,noise_mix_max=0.3和Noise_b=0.7。
如Am[i]×noise_mix>Amax×C×noise_mix,f2(Pch,Am[i],Amax)=Amax×C×noise-mix,其中常数C设定为0.3(C=0.3)。由于利用条件方程可以限制该电平避免过份大,K的上述数值和noise_mix_max还可以增加,如果高范围区的电平较高,还可以增加噪声电平。
按照噪声合成和添加的第三个特定实施例,上述噪声幅值Am_noise[i]可以是所有上述4个参数的函数,即f3(Pch,Am[i],Amax,Lev)。
函数f3(Phc,Am[i],Amax,Lev)的各特定实施例基本上与上述函数f2(Pch,Am[i],Amax)的各实施例基本相似。余部的信号电平Lev是频谱幅值Am[i]的均方根值(RMS)或者是按照沿时间轴测量的信号电平。与第二特定实施例的差别在于,K的数值和noise_mix_max是作为Lev的函数设定的。即如果Lev越小(或越大),则K的数值和noise_mix_max分别的设定值大(或越小)。另外,可以将Lev的数值设定得与K的数值和noise_mix_max成反比。
下面解释后置滤波器238V、238u。
图20表示一个后置滤波器,它可用作图4所示实施例中的后置滤波器238u、238V。作为后置滤波器的一个基本部分的频谱整形滤波器440由主峰段加重滤波器441和高范围区加重滤波器442构成。频谱整形滤波器440的输出送到一个适于校正由于频谱整形引起的增益变化的增益调节电路443。增益调节电路443本身的增益G由增益控制电路445,通过将输入X和频谱整形滤波器的输出y比较来确定,用以对计算的校正数值的增益变化进行计算。
如果LPC合成滤波器的分母HV(Z)和HUV(Z)的系数,即11-参数用αi来代表,则频谱整形滤波器440的特性PF(Z)可以用下式来表达:
这个方程的分数部分表示主峰段加重滤波器的特性,而(1-KZ-1)部分代表高范围区加重滤波器的特性。β,γ和k是常数,例如β=0.6,γ=0.8和k=0.3
增益调节电路443的增益由上式给定。
在上述方程中,x(i)和y(i)分别表示频谱整形滤波器440的输入和输出。
应注意,虽然频谱整形滤波器440的系数刷新周期是20采样或2.5毫秒,像对于α参数的刷新周期一样,该α参数是LSP合成滤波器的系数,增益调节电路443的增益G的刷新周期是160采样或20毫秒。
通过将频谱整形滤波器443的系数刷新周期设定得长于作为后置滤波器的频谱整形滤波器440的系数刷新周期,使得能够防止由于增益调节波动所引起的不利影响。
即,在一通用的后置滤波器中,将频谱整形滤波器的系数刷新周期设定得等于增益刷新周期,并且如果将增益刷新周期选择为20个采样和2.5毫秒,甚至在一个音调周期内也会引起增益数值的变化,因此产生“卡搭”噪声。在本实施例中,由于将增益转换周期设定得较长,例如等于1帧或160采样或20毫秒,可以防止产生急剧的增益数值的变化。相反,如果频谱整形滤波器系数的刷新周期为160个采样或20毫秒,可能产生滤波器特性的不平坦的变化,因此,对合成的波形产生不良的影响,然而,通过将滤波器系数刷新周期设定为比20个采样或2.5毫秒为短的数值,就能够实现更有效的后置滤波。
通过在相邻的各帧之间进行增益结合部处理,将先前帧和现时帧的滤波器系数和增益用下式:
w(i)=i/20(0≤i≤20)
和1-w(i)表示的三角形窗口相乘,其中0≤i≤20,用以淡入和淡出和将所形成的乘积加在一起。图22表示先前帧的增益G1怎样过渡到现时帧的增益G1。具体地说,利用先前帧的增益和滤波器系数的比例逐渐降低,而利用现时帧的增益和滤波器系数的比例逐渐增加。对于现时帧的滤波器的内部状态和对于先前帧的滤波器的内部状态。在图22中的时间点T都由相同的状态开始,即由先前帧的最终状态开始。
上述信号编码和信号解码装置可以用作一个语音代码本,例如用在如图23和24所示的便携式通信终端或便携式电话装置。
图23表示采用如图1和3所示语音编码单元160构成的便携式终端的发送方。利用放大器162放大由拾音器161获取的语音信号并利用模/数(A/D)变换器163变换为数字信号,再送到按照图1和3所示构成的语音编码单元160。来自A/D变换器163的数字信号提供到输入端101。语音编码单元160按照联系图1和图3所介绍的原理进行编码。图1和3中的输出端的输出信号作为语音编码单元160的输出信号送到传输通道编码单元164,该单元再根据所提供的信号进行通道编码。传输通道编码单元164的输出信号送到用于调制的调制电路165,并由此经过数/模(D/A)变换器166和RF放大器167提供到天线。
图24表示采用按图4所示构成的语音解码单元260的便携式终端的接收方、由图14中的天线261接收的语音信号由RF放大器262放大并经模/数(A/D)变换器263送到解调电路263,再由此将经解调的信号送到传输通道解码单元265。解码单元265的输出信号提供按图2和4所示构成的语音解码单元260。语音解码单元260按照图2和4所解释的方式对该信号进行解码。在图2和4中的输出端处的输出信号作为语音解码单元260的信号送到数/模(D/A)变换器266。来自D/A变换器266的模拟语音信号送到扬声器。
本发明并不限于上述实施例,例如作为硬件的上述图1和图3中的语音分解部(编码器)或图2和4中的语音合成部(解码器),可以利用例如一个数字信号处理器(DSP)来操作的软件程序来实现。在解码部的合成滤波器236、237或后置238V、238U可以设计作为专用的LPC合成滤波器或专用的后置滤波器,不必对于发声语音部分或发清辅音的语音部分而将其分开。本发明也不局限于传输或记录/重现,可以适用于各种用途,例如音调变换、速度变换、计算的语音的合成或噪声抑制。
Claims (26)
1. 一种语音编码方法.其特征在于将输入的语音信号按照预定的编码单位沿时间轴进行分析并按照预定的编码单位进行编码,包含的步骤有:
求出输入的语音信号的短期预测的余部;
通过正弦分析编码对上述求出的短期预测的余部进行编码;以及
通过波形编码对输入的语音信号进行编码。
2. 如权利要求1所述的语音编码方法,其特征在于利用谐波编码作为正弦分析编码。
3. 如权利要求1所述的语音编码方法,其特征在于检测输入的语音信号中呈现的发声/不发声的语音状态,以便将输入的语音信号分为第一模式和第二模式,并且其中通过正弦分析编码对判别为第一模式的一部分输入的语音信号进行编码,同时利用合成法分析对于最佳矢量进行闭环查找,以对时域波形的矢量量化对判别为第二模式的另一部分输入的语音信号进行处理。
4. 如权利要求1所述的语音编码方法,其特征在于将按听觉加权的矢量量化或矩阵量化用于该短期预测的余部的正弦分析编码参数的量化。
5. 如权利要求4所述的语音编码方法,其特征在于根据由加权传递函数的冲击响应产生的参数的正交变换的结果,在进行所述的按听觉加权的矩阵量化或矢量量化时计算各权重。
6. 一种语音编码装置,其特征在于按照预定的编码单元对输入的语音信号沿时间轴进行划分并按照预定的编码单位进行编码,该装置包括:
用于求出输入的语音信号的短期预测的余部的装置;
用于通过正弦分析编码对上述求出的短期预测的余部进行编码的装置;
用于通过波形编码对输入的语音信号进行编码的装置。
7. 如权利要求6所述的语音编码装置,其特征在于将谐波编码用作正弦分析编码。
8. 如权利要求6所述的语音编码装置,其特征在于还包含用于鉴别输入的语音信号是发声语音部分还是不发声语音部分的装置;
其中,作为所述波形编码装置,使用了代码激励的线性预测编码装置,该代码激励的线性预测编码装置利用合成法分析通过闭环查找最佳矢量进行矢量量化,以及
其中,在判别为发声输入语音信号部分和判别为不发声部分中,根据由所述鉴别装置产生的鉴别结果,将由所述正弦分析编码装置产生的编码输出,以及由所述代码激励的残性预测编码装置产生的编码输出分别取出。
9. 如权利要求6所述的语音编码装置,其特征在于所述的正弦分析编码装置利用按听觉加权的矢量或矩阵量化,以便对所述短期预测的编码参数的正弦分析编码参数进行量化。
10. 如权利要求9所述的语音编码装置,其特征在于所述的正弦分析编码装置根据由加权传递函数的冲击响应产生的参数的正交变换结果,在进行所述按听觉加权的矩阵或矢量量化时计算各权重。
11. 一种语音解码方法,用于对经编码的语音信号进行解码,该经编码的语音信号是通过求出短期预测的余部、利用正弦分析编码对输入的语音信号的发声部分进行编码,以及通过采用短期预测的余部的另一种编码对输入的语音信号的不发声部分进行编码而得到的,该方法包括:
对于利用正弦合成编码的语音信号的发声语音部分来求出短期预测的余部的步骤;
对于经编码的语音信号的不发声语音部分求出短期预测的余部的步骤;以及
预测合成滤波的步骤,用于根据上述求出的发声和不发声语音部分的短期预测的余部,对沿时间轴的波形进行合成。
12. 如权利要求11所述的语音解码方法,其特征在于所述的预测合成滤波步骤包括:根据上述求出的发声语音部分的短期预测的余部,对发声部分的沿时间轴的波形进行合成的第一预测滤波的子步骤,以及
根据上述求出的不发声语声部分的短期预测的余部,对不发声部分的沿时间轴的波形进行合成的第二预测滤波的子步骤。
13. 如权利要求11所述的语音解码方法,还包含对第一预测合成滤波器的输出进行后置滤波的第一后置滤波步骤,以及对第二预测合成滤波器的输出进行后置滤波的第二后置滤波步骤。
14. 如权利要求11所述的语音解码方法,其特征在于按听觉加权的矢量或矩阵量化被用于对所述短期预测的余部的正弦合成参数进行量化。
15. 一种语音解码装置,用于对经编码的语音信号进行解码,该经编码的语音信号是通过利用正弦合成编码求出短期预测的余部对输入的语音信号的发声部分进行编码,以及通过采用短期预测的余部的另一种编码对输入的语音信号的不发声部分进行编码得到的,该装置包含:
用于利用正弦分析编码对输入的语音信号的发声部分求出短期预测的余部的装置;
一个装置,用于对所述编码的语音信号的不发声部分求出短期预测的余部,以及预测合成滤波装置,用于根据上述求出的发声和不发声的语音部分的所述短期预测的余部,合成沿时间轴的波形。
16. 如权利要求11所述的语音解码装置,其特征在于所述的预测合成滤波装置包括:
第一预测滤波装置,根据上述求出的发声语音部分的短期预测的余部合成发声部分的沿时间轴的波形,以及
第二预测滤波装置,根据上述求出的不发声语音部分的短期预测的余部合成不发声语声部分的沿时间轴的波形。
17. 一种语音解码方法,用于对经编码的语音信号进行解码,该经编码的语音信号是通过求出输入的语音信号的短期预测的余部并通过利用正弦分析编码对所形成的预测的余部进行编码得到的,该方法包含:
正弦合成步骤,利用正弦合成求出经编码的语音信号的短期预测的余部;
噪声添加步骤,将根据所述经编码的语音信号可控幅值的噪声添加到所述短期预测的余部上;以及
预测合成滤波步骤,根据添加嗓声的短期预测的余部合成时域波形。
18. 如权利要求17所述的语音解码方法,其特征在于所述噪声添加步骤添加由所述经编码的语音信号的音调和频谱包络线控制的噪声。
19. 如权利要求17所述的语音解码方法,其特征在于所述噪声添加步骤添加具有预定上限值的噪声。
20. 如权利要求17所述的语音解码方法,其特征在于所述的正弦分析编码是对所述输入的语音信号的发声部分的短期预测的余部进行的。
21. 一种语音解码装置,用于对经编码的语音信号进行解码,该经编码的语音信号是通过求出输入的语音信号的短期预测的余部和利用正弦分析编码对所形成的预测的余部编码得到的,该装置包含:
正弦合成装置,用于利用正弦合成求出经编码的语音信号的短期预测的余部;
噪声添加装置,用于将根据所述经编码的语音信号控制幅值的噪声添加到所述短期预测的余部;以及
预测合成滤波装置,用于根据已添加噪声的短期预测的余部,合成时间域波形。
22. 如权利要求21所述的语音解码装置,其特征在于所述的噪声添加装置添加根据由所述经编码的语音信号得到的音调和频谱包络线控制的噪声。
23. 如权利要求21所述的语音解码装置,其特征在于所述的噪声添加装置添加具有预定上限值的噪声。
24. 如权利要求21所述的语音解码装置,其特征在于所述的正弦分析编码是对所述的输入的语音信号的发声部分的短期预测的余部进行的。
25. 一种便携式无线电终端,包含:
放大装置,用于放大输入的语音信号;
A/D变换装置,用于对所述放大装置的输出信号进行模/数变换;
语音编码装置,用于对所述A/D变换装置的输出信号进行语音编码;
传输通道编码装置,用于对所述语音编码装置的输出信号进行通道编码;
调制装置,用于对所述传输通道编码装置的输出信号进行调制;
D/A变换装置,用于对所述调制装置的输出信号进行数模变换;以及
放大装置,用于放大所述D/A变换装置的输出信号,并将所形成的放大信号提供到一个天线;
其中所述的语音编码装置包含:
预测编码装置,用于求出输入的语音信号的短期预测余部;
正弦分析编码装置,利用正弦分析编码对所述求出的短期预测余部进行编码;以及
波形编码装置,用于对所述输入的语音信号进行波形编码。
26. 一种便携的无线电终端装置,包含:
放大装置,用于放大所接收的信号;
解调装置,用于对所述放大装置的输出信号进行模/数变换和用于解调所形成的信号;
语音解码装置,用于对传输通道解码装置的输出信号进行语音解码;以及
D/A变换装置,用于对所述解调装置的输出信号进行数/模变换;
其中所述语音解码装置包含:
正弦合成装置,用于利用正弦合成求出经编码的信号的短期预测的余部;
噪声添加装置,用于将根据所述经编码的语音信号控制幅值的噪声添加到所述短期预测的余部;以及
预测合成滤波器,用于根据添加有噪声的短期预测的余部合成时间域波形。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP302129/95 | 1995-10-26 | ||
JP30212995A JP3707116B2 (ja) | 1995-10-26 | 1995-10-26 | 音声復号化方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1156303A CN1156303A (zh) | 1997-08-06 |
CN100409308C true CN100409308C (zh) | 2008-08-06 |
Family
ID=17905273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB961219424A Expired - Lifetime CN100409308C (zh) | 1995-10-26 | 1996-10-26 | 语音编码方法和装置以及语音解码方法和装置 |
Country Status (10)
Country | Link |
---|---|
US (1) | US7454330B1 (zh) |
EP (3) | EP0770990B1 (zh) |
JP (1) | JP3707116B2 (zh) |
KR (1) | KR100427754B1 (zh) |
CN (1) | CN100409308C (zh) |
AU (1) | AU725140B2 (zh) |
CA (1) | CA2188493C (zh) |
DE (3) | DE69634179T2 (zh) |
MX (1) | MX9605122A (zh) |
RU (1) | RU2233010C2 (zh) |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10124092A (ja) | 1996-10-23 | 1998-05-15 | Sony Corp | 音声符号化方法及び装置、並びに可聴信号符号化方法及び装置 |
KR100429978B1 (ko) * | 1996-12-26 | 2004-07-27 | 엘지전자 주식회사 | 음성합성시스템의음질저하방지장치 |
DE19706516C1 (de) * | 1997-02-19 | 1998-01-15 | Fraunhofer Ges Forschung | Verfahren und Vorricntungen zum Codieren von diskreten Signalen bzw. zum Decodieren von codierten diskreten Signalen |
JPH11122120A (ja) * | 1997-10-17 | 1999-04-30 | Sony Corp | 符号化方法及び装置、並びに復号化方法及び装置 |
US7072832B1 (en) | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
CN100343893C (zh) * | 2002-09-17 | 2007-10-17 | 皇家飞利浦电子股份有限公司 | 用于稳定音信号合成的方法和文本到语音转换的合成*** |
US7876966B2 (en) * | 2003-03-11 | 2011-01-25 | Spyder Navigations L.L.C. | Switching between coding schemes |
JP3827317B2 (ja) * | 2004-06-03 | 2006-09-27 | 任天堂株式会社 | コマンド処理装置 |
EP1798724B1 (en) * | 2004-11-05 | 2014-06-18 | Panasonic Corporation | Encoder, decoder, encoding method, and decoding method |
US9886959B2 (en) * | 2005-02-11 | 2018-02-06 | Open Invention Network Llc | Method and system for low bit rate voice encoding and decoding applicable for any reduced bandwidth requirements including wireless |
KR100707184B1 (ko) * | 2005-03-10 | 2007-04-13 | 삼성전자주식회사 | 오디오 부호화 및 복호화 장치와 그 방법 및 기록 매체 |
EP1864281A1 (en) | 2005-04-01 | 2007-12-12 | QUALCOMM Incorporated | Systems, methods, and apparatus for highband burst suppression |
PL1875463T3 (pl) | 2005-04-22 | 2019-03-29 | Qualcomm Incorporated | Układy, sposoby i urządzenie do wygładzania współczynnika wzmocnienia |
KR100713366B1 (ko) * | 2005-07-11 | 2007-05-04 | 삼성전자주식회사 | 모폴로지를 이용한 오디오 신호의 피치 정보 추출 방법 및그 장치 |
JP2007150737A (ja) * | 2005-11-28 | 2007-06-14 | Sony Corp | 音声信号ノイズ低減装置及び方法 |
US9454974B2 (en) | 2006-07-31 | 2016-09-27 | Qualcomm Incorporated | Systems, methods, and apparatus for gain factor limiting |
WO2008045846A1 (en) * | 2006-10-10 | 2008-04-17 | Qualcomm Incorporated | Method and apparatus for encoding and decoding audio signals |
KR101097640B1 (ko) | 2006-11-06 | 2011-12-22 | 콸콤 인코포레이티드 | 무선 통신 시스템에서 계층 치환을 이용한 mimo 전송을 위한 방법 및 장치 |
US8005671B2 (en) | 2006-12-04 | 2011-08-23 | Qualcomm Incorporated | Systems and methods for dynamic normalization to reduce loss in precision for low-level signals |
US20080162150A1 (en) * | 2006-12-28 | 2008-07-03 | Vianix Delaware, Llc | System and Method for a High Performance Audio Codec |
WO2009110738A2 (ko) * | 2008-03-03 | 2009-09-11 | 엘지전자(주) | 오디오 신호 처리 방법 및 장치 |
MY154452A (en) * | 2008-07-11 | 2015-06-15 | Fraunhofer Ges Forschung | An apparatus and a method for decoding an encoded audio signal |
ES2379761T3 (es) | 2008-07-11 | 2012-05-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Proporcinar una señal de activación de distorsión de tiempo y codificar una señal de audio con la misma |
FR2938688A1 (fr) * | 2008-11-18 | 2010-05-21 | France Telecom | Codage avec mise en forme du bruit dans un codeur hierarchique |
US8948297B2 (en) * | 2009-08-17 | 2015-02-03 | Alcatel Lucent | Method of maintaining coherency of a precoding channel in a communication network and associated apparatus |
GB2473267A (en) * | 2009-09-07 | 2011-03-09 | Nokia Corp | Processing audio signals to reduce noise |
RU2546602C2 (ru) * | 2010-04-13 | 2015-04-10 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Способ и кодер и декодер для воспроизведения без промежутка аудио сигнала |
IL295473B2 (en) * | 2010-07-02 | 2023-10-01 | Dolby Int Ab | After–selective bass filter |
RU2445718C1 (ru) * | 2010-08-31 | 2012-03-20 | Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) | Способ выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале |
KR101826331B1 (ko) * | 2010-09-15 | 2018-03-22 | 삼성전자주식회사 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
WO2012037515A1 (en) | 2010-09-17 | 2012-03-22 | Xiph. Org. | Methods and systems for adaptive time-frequency resolution in digital data coding |
CA2929800C (en) | 2010-12-29 | 2017-12-19 | Samsung Electronics Co., Ltd. | Apparatus and method for encoding/decoding for high-frequency bandwidth extension |
US20120197643A1 (en) * | 2011-01-27 | 2012-08-02 | General Motors Llc | Mapping obstruent speech energy to lower frequencies |
US10121481B2 (en) | 2011-03-04 | 2018-11-06 | Telefonaktiebolaget Lm Ericsson (Publ) | Post-quantization gain correction in audio coding |
US8838442B2 (en) | 2011-03-07 | 2014-09-16 | Xiph.org Foundation | Method and system for two-step spreading for tonal artifact avoidance in audio coding |
WO2012122297A1 (en) | 2011-03-07 | 2012-09-13 | Xiph. Org. | Methods and systems for avoiding partial collapse in multi-block audio coding |
US9009036B2 (en) * | 2011-03-07 | 2015-04-14 | Xiph.org Foundation | Methods and systems for bit allocation and partitioning in gain-shape vector quantization for audio coding |
PL2880654T3 (pl) * | 2012-08-03 | 2018-03-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Dekoder i sposób realizacji uogólnionej parametrycznej koncepcji kodowania przestrzennych obiektów audio dla przypadków wielokanałowego downmixu/upmixu |
CN104584123B (zh) * | 2012-08-29 | 2018-02-13 | 日本电信电话株式会社 | 解码方法、以及解码装置 |
CN105190748B (zh) * | 2013-01-29 | 2019-11-01 | 弗劳恩霍夫应用研究促进协会 | 音频编码器、音频解码器、***、方法及存储介质 |
US20140358565A1 (en) | 2013-05-29 | 2014-12-04 | Qualcomm Incorporated | Compression of decomposed representations of a sound field |
CN107818789B (zh) * | 2013-07-16 | 2020-11-17 | 华为技术有限公司 | 解码方法和解码装置 |
US9224402B2 (en) | 2013-09-30 | 2015-12-29 | International Business Machines Corporation | Wideband speech parameterization for high quality synthesis, transformation and quantization |
PT3136384T (pt) | 2014-04-25 | 2019-04-22 | Ntt Docomo Inc | Dispositivo de conversão do coeficiente de previsão linear e método de conversão do coeficiente de previsão linear |
US9697843B2 (en) * | 2014-04-30 | 2017-07-04 | Qualcomm Incorporated | High band excitation signal generation |
US10770087B2 (en) * | 2014-05-16 | 2020-09-08 | Qualcomm Incorporated | Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals |
EP2980797A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition |
US10741192B2 (en) * | 2018-05-07 | 2020-08-11 | Qualcomm Incorporated | Split-domain speech signal enhancement |
US11280833B2 (en) * | 2019-01-04 | 2022-03-22 | Rohde & Schwarz Gmbh & Co. Kg | Testing device and testing method for testing a device under test |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5067158A (en) * | 1985-06-11 | 1991-11-19 | Texas Instruments Incorporated | Linear predictive residual representation via non-iterative spectral reconstruction |
US4912764A (en) * | 1985-08-28 | 1990-03-27 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech coder with different excitation types |
US4797926A (en) | 1986-09-11 | 1989-01-10 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech vocoder |
US5125030A (en) * | 1987-04-13 | 1992-06-23 | Kokusai Denshin Denwa Co., Ltd. | Speech signal coding/decoding system based on the type of speech signal |
US5228086A (en) * | 1990-05-18 | 1993-07-13 | Matsushita Electric Industrial Co., Ltd. | Speech encoding apparatus and related decoding apparatus |
JPH0491442A (ja) | 1990-08-02 | 1992-03-24 | Fujitsu Ltd | 結晶製造装置 |
EP0500961B1 (en) * | 1990-09-14 | 1998-04-29 | Fujitsu Limited | Voice coding system |
US5138661A (en) * | 1990-11-13 | 1992-08-11 | General Electric Company | Linear predictive codeword excited speech synthesizer |
US5537509A (en) * | 1990-12-06 | 1996-07-16 | Hughes Electronics | Comfort noise generation for digital communication systems |
US5127053A (en) * | 1990-12-24 | 1992-06-30 | General Electric Company | Low-complexity method for improving the performance of autocorrelation-based pitch detectors |
US5487086A (en) * | 1991-09-13 | 1996-01-23 | Comsat Corporation | Transform vector quantization for adaptive predictive coding |
JP3343965B2 (ja) * | 1992-10-31 | 2002-11-11 | ソニー株式会社 | 音声符号化方法及び復号化方法 |
JP2878539B2 (ja) | 1992-12-08 | 1999-04-05 | 日鐵溶接工業株式会社 | チタンクラッド鋼の溶接方法 |
FR2702590B1 (fr) * | 1993-03-12 | 1995-04-28 | Dominique Massaloux | Dispositif de codage et de décodage numériques de la parole, procédé d'exploration d'un dictionnaire pseudo-logarithmique de délais LTP, et procédé d'analyse LTP. |
JP3137805B2 (ja) * | 1993-05-21 | 2001-02-26 | 三菱電機株式会社 | 音声符号化装置、音声復号化装置、音声後処理装置及びこれらの方法 |
US5479559A (en) * | 1993-05-28 | 1995-12-26 | Motorola, Inc. | Excitation synchronous time encoding vocoder and method |
US5684920A (en) * | 1994-03-17 | 1997-11-04 | Nippon Telegraph And Telephone | Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein |
US5701390A (en) * | 1995-02-22 | 1997-12-23 | Digital Voice Systems, Inc. | Synthesis of MBE-based coded speech using regenerated phase information |
JP3653826B2 (ja) * | 1995-10-26 | 2005-06-02 | ソニー株式会社 | 音声復号化方法及び装置 |
-
1995
- 1995-10-26 JP JP30212995A patent/JP3707116B2/ja not_active Expired - Lifetime
-
1996
- 1996-10-22 CA CA002188493A patent/CA2188493C/en not_active Expired - Fee Related
- 1996-10-23 AU AU70372/96A patent/AU725140B2/en not_active Ceased
- 1996-10-24 US US08/736,546 patent/US7454330B1/en not_active Expired - Fee Related
- 1996-10-25 KR KR1019960048690A patent/KR100427754B1/ko not_active IP Right Cessation
- 1996-10-25 DE DE69634179T patent/DE69634179T2/de not_active Expired - Lifetime
- 1996-10-25 EP EP96307740A patent/EP0770990B1/en not_active Expired - Lifetime
- 1996-10-25 RU RU96121146/09A patent/RU2233010C2/ru not_active IP Right Cessation
- 1996-10-25 MX MX9605122A patent/MX9605122A/es unknown
- 1996-10-25 EP EP01121725A patent/EP1164578B1/en not_active Expired - Lifetime
- 1996-10-25 DE DE69625875T patent/DE69625875T2/de not_active Expired - Lifetime
- 1996-10-25 EP EP01121726A patent/EP1164579B1/en not_active Expired - Lifetime
- 1996-10-25 DE DE69634055T patent/DE69634055T2/de not_active Expired - Lifetime
- 1996-10-26 CN CNB961219424A patent/CN100409308C/zh not_active Expired - Lifetime
Non-Patent Citations (4)
Title |
---|
HARMONIC AND NOISE CODING OF LPC RESIDUALSWITH CLASSIFIED VECTOR QUANTIZATION. NISHIGUCHI M ET AL.PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON ACOUSTICS,SPEECH, AND SIGNAL PROCESSING(ICASSP)。 DETROIT, MAY 9-12,1995, SPEECH,NEW YORK, IEEE,US,Vol.1 . 1995 |
HARMONIC AND NOISE CODING OF LPC RESIDUALSWITH CLASSIFIED VECTOR QUANTIZATION. NISHIGUCHI M ET AL.PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON ACOUSTICS,SPEECH, AND SIGNAL PROCESSING(ICASSP)。 DETROIT, MAY 9-12,1995, SPEECH,NEW YORK, IEEE,US,Vol.1 . 1995 * |
TRANSFORM CODING OF SPEECH USING A WEIGHTEDVECTOR QUANTIZER. MORIYA T ET AL.IEEE JOURNAL ON SELECTED AREAS IN COMMUNICATIONS,IEEE INC。 NEW YORK,US,Vol.6 No.2. 1988 |
TRANSFORM CODING OF SPEECH USING A WEIGHTEDVECTOR QUANTIZER. MORIYA T ET AL.IEEE JOURNAL ON SELECTED AREAS IN COMMUNICATIONS,IEEE INC。 NEW YORK,US,Vol.6 No.2. 1988 * |
Also Published As
Publication number | Publication date |
---|---|
EP1164578B1 (en) | 2005-01-12 |
CA2188493A1 (en) | 1997-04-27 |
DE69634179T2 (de) | 2006-03-30 |
DE69634179D1 (de) | 2005-02-17 |
EP1164579A2 (en) | 2001-12-19 |
DE69625875T2 (de) | 2003-10-30 |
KR100427754B1 (ko) | 2004-08-11 |
DE69634055D1 (de) | 2005-01-20 |
EP1164578A2 (en) | 2001-12-19 |
MX9605122A (es) | 1998-05-31 |
EP0770990A2 (en) | 1997-05-02 |
AU725140B2 (en) | 2000-10-05 |
KR970024628A (ko) | 1997-05-30 |
US7454330B1 (en) | 2008-11-18 |
JP3707116B2 (ja) | 2005-10-19 |
JPH09127991A (ja) | 1997-05-16 |
CA2188493C (en) | 2009-12-15 |
DE69625875D1 (de) | 2003-02-27 |
DE69634055T2 (de) | 2005-12-22 |
RU2233010C2 (ru) | 2004-07-20 |
EP1164579A3 (en) | 2002-01-09 |
EP0770990B1 (en) | 2003-01-22 |
EP0770990A3 (en) | 1998-06-17 |
EP1164578A3 (en) | 2002-01-02 |
AU7037296A (en) | 1997-05-01 |
EP1164579B1 (en) | 2004-12-15 |
CN1156303A (zh) | 1997-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100409308C (zh) | 语音编码方法和装置以及语音解码方法和装置 | |
CN100414605C (zh) | 语音编码方法和装置 | |
CN1307614C (zh) | 合成语音的方法和装置 | |
Kroon et al. | A class of analysis-by-synthesis predictive coders for high quality speech coding at rates between 4.8 and 16 kbit/s | |
KR100487136B1 (ko) | 음성복호화방법및장치 | |
JP3707153B2 (ja) | ベクトル量子化方法、音声符号化方法及び装置 | |
JP3707154B2 (ja) | 音声符号化方法及び装置 | |
EP1339040B1 (en) | Vector quantizing device for lpc parameters | |
EP0770989B1 (en) | Speech encoding method and apparatus | |
US6871106B1 (en) | Audio signal coding apparatus, audio signal decoding apparatus, and audio signal coding and decoding apparatus | |
US6532443B1 (en) | Reduced length infinite impulse response weighting | |
KR20000010994A (ko) | 오디오 신호 부호화 방법 및 복호화 방법, 오디오 신호 부호화장치 및 복호화 장치 | |
JPH10214100A (ja) | 音声合成方法 | |
JPH1124698A (ja) | 信号識別装置、コードブツク切換装置、信号識別方法及びコードブツク切換方法 | |
JP3174733B2 (ja) | Celp型音声復号化装置、およびcelp型音声復号化方法 | |
JP3916934B2 (ja) | 音響パラメータ符号化、復号化方法、装置及びプログラム、音響信号符号化、復号化方法、装置及びプログラム、音響信号送信装置、音響信号受信装置 | |
JP3252285B2 (ja) | 音声帯域信号符号化方法 | |
JPH08194497A (ja) | 音響信号変換符号化方法及びその復号化方法 | |
Hagen | Robust LPC spectrum quantization-vector quantization by a linear mapping of a block code | |
JP3675054B2 (ja) | ベクトル量子化方法、音声符号化方法及び装置、並びに音声復号化方法 | |
JP3174782B2 (ja) | Celp型音声復号化装置及びcelp型音声復号化方法 | |
JP3174779B2 (ja) | 拡散音源ベクトル生成装置及び拡散音源ベクトル生成方法 | |
JP3174783B2 (ja) | Celp型音声符号化装置及びcelp型音声符号化方法 | |
JPH09127997A (ja) | 音声符号化方法及び装置 | |
JPH07212239A (ja) | ラインスペクトル周波数のベクトル量子化方法および装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CX01 | Expiry of patent term |
Granted publication date: 20080806 |
|
EXPY | Termination of patent right or utility model |