CN1155725A - 语音编码方法和装置 - Google Patents

语音编码方法和装置 Download PDF

Info

Publication number
CN1155725A
CN1155725A CN96121992A CN96121992A CN1155725A CN 1155725 A CN1155725 A CN 1155725A CN 96121992 A CN96121992 A CN 96121992A CN 96121992 A CN96121992 A CN 96121992A CN 1155725 A CN1155725 A CN 1155725A
Authority
CN
China
Prior art keywords
vector
coding
signal
output
vector quantization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN96121992A
Other languages
English (en)
Other versions
CN100414605C (zh
Inventor
西口正之
饭岛和幸
松本淳
大森士郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN1155725A publication Critical patent/CN1155725A/zh
Application granted granted Critical
Publication of CN100414605C publication Critical patent/CN100414605C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

一种语声编码方法和装置,其中编码数据的比特速率是可变的。利用第一矢量量化单元500的矢量量化单元502对输出的矢量X进行加权的矢量量化。在输出端503输出波形索引,在加法器505由源矢量X减去量化值X o ’。形成的量化误差矢量Y利用第二矢量量化单元510按维进行划分。在输出端5121,5122输出形成的加权的矢量量化的波形索引数据。量化值Y1′Y2′按维组合并利用加法器513相加到量化值X o ’上。输出形成的量化值X o ’。

Description

语音编码方法和装置
本发明涉及一种语音编码方法和装置,其中输入的语音信号按数据块划分并以所形成的数据块作为一个单位进行编码。
迄今为止已有对于声音信号(包括语音和音响信号)编码的各种编码方法,利用在时域和在频域中的信号的统计特性和人耳的心理声学特性进行压缩。编码方法可以粗分为时域编码、频域编码和分析/合成编码。
对语音信号高效编码的实例包括正弦分析编码,例如谐波编码、多频带激励(MBE)编码、副频带编码(SBT)、线性预测编码(LPC)、离散余弦变换(DCT)、改进的DCT(MDCT)和快速傅里叶变换(FFT)。
利用正弦分析编码,利用采用对语音信号的高效编码的语音信号编码装置,对于短期预测的余部,例如线性预测的编码(LPC)的余部进行编码,并且所形成的频谱包络线的幅值数据进行矢量量化,用以输出代码本索引(index)数据。
利用上述语音信号编码装置,包括矢量量化的代码本索引的编码数据的比特速率维持恒定,而且不能改变。
此外,如果编码数据是,例如M比特的,则用于将编码数据解码的语音信号解码装置必须是M比特的解码装置。就是说,利用这种语音信号解码装置,只能得到与编码数据具有相同比特数的解码数据,同时解码数据的比特数是不能改变的。
因此,本发明的目的是提供一种语音编码方法和装置,利用它们可以改变编码数据的比特速率。
利用本发明的语音编码方法和装置,至少对于输入的语音信号的发声部分求出短期预测的余部,并根据该短期预测的余部求出正弦分析编码参数。利用按听觉加权的矢量量化对这些正弦分析编码参数进行量化。利用具有相位再现性的波形编码对输入的语音信号的不发声部分进行编码。按照按听觉加权的矢量量化,首先进行第一矢量量化,然后通过第二矢量量化,对在第一矢量量化时产生量化误差矢量进行量化。按照这种方式,输出的已编码的数据的比特数可以根据数据传输通道的容量简便地进行转换,使得可以适应各种数据比特速率,此外,可以产生这样一种编码数据序列,这种序列可以易于适应解码器方,即使在编码器和解码器之间的比特传输速率不同。
图1是表示语音信号编码方法和用以实施本发明的编码方法的语音信号编码装置(编码器)的基本结构的方块图。
图2是表示语音信号解码装置(解码器)的基本结构的方块图,该装置是针对图1所示装置的解码装置(解码器)。
图3是表示图1中所示的语音信号编码器的更详细的结构的方块图。
图4是表示图2中所示的语音信号编码器的更详细的结构的方块图。
图5是表示LPC量化器的基本结构的方块图。
图6是表示LPC量化器的更详细的结构的方块图。
图7是表示矢量量化器的基本结构的方块图。
图8是表示矢量量化器的更详细的结构的方块图。
图9是表示本发明的语音信号编码器的CELP编码部分(第二编码单元)的更详细的结构的示意电路方块图。
图10是描述在图9所示配置中的处理程序的流程图。
图11A和11B表示按照不同的阈值进行限制之后的高斯噪声。
图12是表示通过学习在产生波形(shape)代码本时的处理程序的流程图。
图13是表示采用按本发明体现的语音信号编码器的便携式终端的发送侧的结构的方块图。
图14是表示采用与图13所示的装置成对的语音信号解码器的便携式终端的接收侧的结构的方块图。
图15是表示在本发明的语音信号编码器中对于不同的比特速率的输出数据。
下面参照附图,详细介绍本发明的各优选实施例。
图1表示用于实施本发明的语音编码方法的语音信号编码器的基本结构的方块图。该语音信号编码器包括:一反变换LPC滤波器11,作为用于求出输入的语音信号的短期预测的余部的装置,以及正弦分析编码器114,作为用于从短期预测的余部求出正弦分析编码的参数的装置。该语音信号编码器还包括:矢量量化单元116,作为用于根据正弦分析编码参数进行按听觉加权的矢量量化的装置,以及第二编码单元120,作为用于利用相位传输波形编码对输入的语音信号进行编码的装置。
图2是表示与在图1中所示的编码装置(编码器)配套的语音解码装置(解码器),图3是表示图1中所示的语音信号编码器的更详细的结构的方块图,图4是表示图2中所示的语音解码器的更详细的结构的方块图。
下面解释图1到图4各方块图的结构。
图1中所示的语音信号编码器的基本概念在于,该编码器具有第一编码单元110,用于求出输入的语音信号的短期预测的余部,例如线性预测编码(LPC)的余部,以便进行正弦分析编码、例如谐波编码;以及第二编码单元120,用于利用具有相位再现性的波形编码对输入的语声信号进行编码,以及第一和第二编码单元110、120分别用于对输入信号的发声部分和不发声部分进行编码。
第一编码单元110具有利用正弦分析编码,例如谐波编码或多频带编码(MBE)对LPC的余部进行编码的结构。第二编码单元120具有利用合成法进行分析,通过闭环查找最佳矢量,采用矢量量化的代码激励线性预测的结构。
在该实施例中,传送到输入端101上的语音信号被送到第一编码单元110的反变换LPC滤波器111和LPC分析/量化单元113。由LPC分析/量化单元113得到的LPC系数或所谓的α参数送到反变换LPC滤波器111,用以利用反变换LPC滤波器111取出输入的语音信号的线性预测的余部(LPC余部)。由LPC合成/量化单元113取出线性频谱对(LSP)的量化输出并送到输出端102。来自反变换LPC滤波器111的LPC的余部送到正弦分析编码单元114。正弦分析编码单元114进行音调检测,频谱包络线幅值计算和利用发声(V)/不发声(UV)鉴别单元115进行V/UV鉴别。来自正弦分析编码单元114的频谱包络线幅值数据送到矢量量化单元116。来自矢量量化单元116的作为频谱包络线的矢量量化输出的代码本索引经过开关117送到输出端103,而正弦分析编码单元114的输出经过开关118送到输出端104。来自V/UV鉴别单元115的V/UV鉴别输出送到输出端105和作为转换控制信号送到开关117、118。对于发声(V)信号,选择索引和音调,以便在输出端103、104取出。
在本实施例中,图1中的第二编码单元120具有一种代码激励线性预测(CELP)编码结构,利用合成法进行分析采用闭环查找对时域的波形进行矢量量化。其中噪声代码本121的输出由加权的合成滤波器122合成,所形成的加权的语音信号送到减法器123,取出在加权的语音信号和传送到输入端101并通过按听觉加权滤波器125的语音信号之间的差,送到距离计算电路124,以便进行距离计算和利用噪声代码本121查找使误差最小的一个矢量,这种CELP编码用于对如上所述的不发声部分进行编码。在输出端107经过开关127取出来自噪声代码本121的作为UV数据的代码本索引,开关127当来自V/UV鉴别单元115表明为不发声(UV)声音部分的V/UV鉴别结果时接通。
图2是表示作为图1中的语音信号编码器的配套装置的语音信号解码器的基本结构的方块图,用于实施本发明的语音解码方法。
参阅图2,来自图1中的输出端102的作为线性频谱对(LSP)的量化输出传送到输入端202。图1中的输出端103、104和105的输出即作为包络线量化输出的索引数据、音调和V/UV鉴别输出分别传输到输入端203到205。作为用于不发声部分的数据的索引数据由图1中的输出端107提供到输入端207。
作为输入端203的量化输出的索引送到用于反矢量量化的反矢量量化单元212,以便求出LPC的余部的频谱包络线,该包络线再送到发声部分的语音合成器211。发声部分的语音合成器211利用正弦合成对发声语言部分的线性预测编码(LPC)的余部进行合成。还由输入端204、205向发声部分的语音合成器211提供音调和V/UV鉴别输出,来自发声部分语音合成单元211的发声部分语音的LPC的余部送到LPC合成滤波器214。来自输入端207的UV数据的索引数据送到不发声部分的声音合成单元220,在其中必须参照一噪声代码本,用于取出不发声部分的LPC的余部。
这些LPC的余部还送到LPC合成滤波器214。在LPC合成滤波器214中,通过LPC合成对发声部分的LPC的余部和不发声部分的LPC的余部进行处理。另外,发声部分的LPC余部和不发声部分的LPC余部一起求和,也可以利用LPC合成进行处理。来自输入端202的LSP索引数据送到LPC参数再现单元213,在其中取出LPC的α参数并送到LPC合成滤波器214。在输出端201取出利用LPC合成滤波器214合成的语音信号。参阅图3,下面解释图1中所示的语音信号编码器的更详细的结构。在图3中与图1中所示相似的部分使用相同的标号来标注。
在图3中所示的语音编码器中,提供到输入端101的语音信号利用一用于除去不需要的范围的信号的高通滤波器进行滤波,并由其再提供到LPC分析/量化单元113的LPC分析电路132和提供到反变换LPC滤波器111。LPC分析/量化单元113的LPC分析电路132提供一个输入信号波形长度为按照256个采样量级作为一个数据块的汉明窗口,并利用自相关法求出线性预测系数即所谓的α参数。将作为数据输出单元的帧形成间隔设定接近160个采样。如果采样频率fs为8KHz(千赫),对于160个采样一帧间隔为20ms(毫秒)。
来自LPC分析电路132的α参数送到α-LSP变换电路133,用以变换为线性频谱对(LSP)参数。该数电路将α参数例如由直接型滤波器系数求出的变换为10个即5对LSP参数。例如利用牛顿—拉普松方法进行这种变换。将α参数变换为LSP参数的原因在于,LSP参数在内插特性方面比α参数更优越。
来自α-LSP变换电路133的LSP参数利用LSP量化器134进行矩阵或矢量量化。可以在进行矢量量化之前取得帧与帧的差,或者汇集多个帧,以便进行矩阵量化。在本实例中,取得每20ms计算的LSP参数的2个帧(20ms)并按照矩阵量化和矢量量化进行处理。
在连接端102取出量化器134的量化输出即LSP量化数据,同时将量化的LSP矢量送到LSP内插电路136。
LSP内插电路136内插每20ms或40ms量化的LSP矢量,以便提供8倍的速率。即LSP每2.5ms刷新LSP矢量。原因在于,如果利用谐波编码/解码法通过分析/合成对余部的波形进行处理,则合成波形的包络线表示极为平滑的波形,使得如果每20ms LPC系数急剧地改变,很可能会产生额外的噪声。即如果每2.5ms LPC系数逐渐地改变,就可防止这样额外的噪声产生。
由于利用每2.5ms产生的内插的LSP矢量对输入的语音进行反变换滤波,利用一个由LSP向α变换电路137将LSP参数变换为α参数,作为例如10阶直接型滤波器的参数。由LSP向α变换电路137的输出送到LPC反变换滤波器电路111,该电路然后利用每2.5ms刷新的α参数进行反变换滤波,用以产生平滑的输出。反变换LPC滤波器111的输出送到例如为谐波编码电路的正弦分析编码单元114的正交变换电路145,例如DCT电路。
来自LPC分析/量化单元113的LPC分析电路132的α参数送到接听觉加权的滤波器计算电路139,在其中求出用于按听觉加权的数据。这些加权的数据送到按听觉加权的矢量量化器116,第二编码单元120的按听觉加权的滤波器125和按听觉加权的合成滤波器122。
谐波编码电路的正弦分析编码单元114利用谐波编码法分析反变换LPC滤波器111的输出。即进行音调检测,各个谐波的幅值Am的计算和发声(V)/不发声(UV)部分的鉴别,并且利用维的变换使随音调变化的各幅值Am的数目或各个谐波包络线的数目是恒定的。
在图3中所示的正弦分析编码单元114的说明性的实例中,采用平常的谐波编码。按照多频带激励(MBE)编码,在模型化时假设,发声部分和不发声部分出现在相同时间点(在相同的数据块或帧中)的频率范围或频带中。按照另一种谐波编码技术,按单值方式判别在一数据块中或一帧中的语音是发声部分还是不发声部分。在如下的介绍中,如果频带的总体是UV部分,则指定的帧判别为UV部分,这是就MBE编码而论的。
分别将来自输入端101的输入的语音信号和来自高通滤波器(HPF)109的信号提供到图3中的正弦分析编码单元114的开环音调查找单元141和过零计数量142。由反变换LPC滤波器111向正弦分析编码单元114的正交变换电路提供LPC的余部或线性预测的余部。开环音调查找单元141取得输入信号的LPC的余部,以便通过开环进行相对粗略音调查找。抽取的粗略音调数据送到下文将要介绍的通过闭环工作的细微音调查找单元146。由开环音调查找单元114取出通过使LPC余部的自相关最大值连同粗略音调数据归一化得到的归一化的自相关的r(p)的最大值以便粗略音调数据一道送到V/UV鉴别单元115。
正交变换电路145进行正交变换,例如离散的傅里叶变换,用以将沿时间轴的LPC的余部变换成沿频率轴的频谱幅值数据。正交变换电路145的输出送到细微音调查找单元146和用于计算频谱幅值或包络线的频谱计算单元148。
向细微音调查找单元146提供有由开环音调查找单元141抽取的相对粗略的音调数据和利用正交变换单元145通过DFT得到的频域数据。细微音调查找单元146使该音调数据按照0.2到0.5的速率按中心围绕该粗略音调值数据摆动±几个采样,以便最大到达具有一个最佳十进制点(浮点)的细微音调数据的数值。将合成法分析用作为用于选择一个音调的细微查找技术,以便使该功率谱最接近原有信号的功率谱,来自闭环细微音调查找单元146的音调数据经开关118送到输出端104。
在频谱计算单元148,根据作为LPC余部的正交变换输出的频谱幅值和音调,计算每个谐波的幅值和作为各谐波之和的频谱包络线,并关到细微音调查找单元(46、V/UV鉴别单元115和按听觉加权的矢量量化单元116。
V/UV鉴别电路115根据正交变换电路145的输出、来自细微音调查找单元146的最佳音调、来自频谱计算单元148的频谱幅值数据、来自开环音调查找单元141的归一化的自相关的r(p)和来自过零计数器142的过零计数值鉴别一个帧的V/UV部分。此外,还可以将对于MBE的以频带为基准的V/UV鉴别的边界位置用作V/UV鉴别的条件。在输出端105取出V/UV鉴别单元115的鉴别输出。
向频谱计算单元148中的输出单元或矢量量化单元116的输入单元提供一个数据数目变换单元(进行一种采样速率变换的单元)。数据数目变换单元用于设定包络线的幅值数据|Am|,在于考虑到这样一个事实,频带的数目沿频率轴划分以及数据的数目与音调不同。即如果有效的频带高达3400千赫,该有效频带可以根据音调划分为8到63个频带。由逐个频带得到的幅值数据|Am|的数目mMX+1在从8到63的范围内变化。因此,数据数目变化单元将可变数目mMX+1的幅值数据变化为预置数目M的数据,例如44个数据。
按照预置的数目的数据例如44个数据作为单位,利用矢量量化单元116通过进行加权的矢量量化,由设在频谱计算单元148的输出单元或在矢量量化单元116的输入单元的数据数目变化单元获得预定数目例如44个幅值数据或包络线数据。利用按听觉加权的滤波计算电路139的输出端提供这种加权权重。经过开关117在输出端103取出来自矢量量化器116的包络线索引。在加权的矢量量化之前,利用对于由预置数目的数据构成的矢量的适当的泄漏系数适当取得帧内的差值。
下面解释第二编码单元120。第二编码单元120具有所谓的CELP编码结构并特定用在对输入的语音信号的不发声部分进行编码。在用于输入的语音信号的不发声部分的CELP编码结构中,与发清辅音的声音部分的LPC余部相对应的作为噪声代码本或所谓的随机代码本121的代表性数值输出的噪声输出经过增益控制电路126送到按听觉加权的合成滤波器122。加权的合成滤波器122对输入的噪声进行LPC合成并将所产生的加权的不发声部分的信号送到减法器123。由输入端101经过高通滤波器(HPF)109向减法器123提供一个信号,该信号经过按听觉加权的滤波器125已进行按听觉加权,取出该信号和来自合成滤波器122的信号之间的差或误差。同时由按听觉加权的滤波器125的输出端预先减去按听觉加权的合成滤波器的零输入响应。这一误差被送到用于计算距离的距离计算电路124。在噪声代码本121查找使误差最小的一个代表性的矢量数值。上述就是采用闭环查找接着采用合成法分析对时域波形进行矢量量化的概要。
像对于来自采用CELP编码结构的第二编码器120的不发声(UV)部分的数据一样,取出来自噪声代码本121的代码本的波形索引和来自增益电路126的代码本的增益索引。将作为来自噪声代码本的UV数据的波形索引和作为增益电路126的UV数据的增益索引经过开关127g送到输出端107g。
这些开关127s、127g和开关117、118根据来自V/UV鉴别单元115的V/UV鉴别结果接通或者断开。具体地说,现时传输的帧的语音信号的V/UV鉴别结果表明为发声(V)部分,则开关117和118接通,而当现时传输的帧的语音信号如为不发声(UV)部分时,开关127s、127g接通。
图4表示图2中所示语音信号解码器的更详细的结构。在图4中,使用的数码标注与图2中相对应的元件。
在图4中,与图1和图3的输出端102相对应的LSP的矢量量化输出即代码本索引提供到输入端202。
LSP索引送到属于LPC参数重现单元213的反矢量量化器231,以便对线性频谱对(LPS)数据进行反矢量量化,再提供到用于内插的LSP内插电路232、233。利用由LSP向α变换电路将所形成的内插的数据变换成α参数,再送到LPC合成滤波器214。LSP内插电路232和由LSP向α变换电路234设计用于发声部分(V)的声音,而LSP内插电路233和由LPS向α变换电路235设计用于不发声部分(UV)的声音。LPC合成滤波器214分为发浊音的语音部分的LPC合成滤波器236和发清辅音的语音部分的LPC合成滤波器237。即,对于发浊音的语音部分和发清辅音的语音部分独立地进行LPC系数内插,用于抑制在从发浊音的语音部分到发清辅音的语音部分或者相反的过渡部分由于内插具有完全不特征的LSP可能产生的不利影响。
向图4中的输入端203提供与图1和图3中的解码器的连接端103的输出相应的加权的矢量量化的频谱包络线相对应的代码索引数据。向输入端204提供来自图1和图3中的连接端104的音调数据,向输入端205提供来自图1和3中的连接端105的V/UV鉴别数据。
来自输入端203的频谱包络线Am的矢量量化的索引数据送到用于反矢量量化的反矢量量化器212,在其中对于数据数目变换进行反变换。形成的频谱包络线数据送到正弦合成电路215。
如果在对编码过程中的频谱进行矢量量化之前求出帧内的差,在用于产生频谱包络线数据的反矢量量化之后对该帧内差进行解码。
向正弦合成电路215提供来自输入端204的音调和来自输入端205的V/UV鉴别数据。由正弦合成电路215取出与在图1和图3中所示的LPC反变换滤波器111的输出相对应的LPC余部数据并送到加法器218。
反矢量量化器212的包络线数据和来自输出端204、205的V/UV鉴别数据送到用于对发声部分(V)添加噪声的噪声合成电路216。噪声合成电路216的输出经过加权叠加一加法电路217送到加法器218。具体地说,考虑到这样一个事实,如果利用正弦波合成产生作为发声声音部分的LPC合成滤波器的输入的激励信号,则在低音调声音例如男人的声音中产生堵塞的感觉,并且在发声部分的声音和不发声部分的声音之间声音质量急剧变化,因此产生不自然的听觉,故要将噪声添加到LPC余部信号的发声部分。这种噪声考虑到与语声编码数据,例如音调、频谱包络线的幅值、帧内的最大幅值或余部信号电平相关的参数,并与发浊音的语声部分的LPC合成滤波输入即激励信号相结合。
加法器218的加法输出送到用于LPC合成滤波器214的发声声音部分的合成滤波器236,在其中进行LPC合成,以便形成时间或波形数据,再由用于发声语声部分的后置滤波器238V进行滤波并送到加法器239。
来自图3中的输出端107s和107g的作为UV数据的波形索引和增益索引,提供到图4中的输入端207sa和207g,并由其再提供到不发声部分的语音合成单元220。来自连接端207s的波形索引送到不发声部分的语音合成单元220的噪声代码本221,而来自连接端207g的增益索引送到增益电路222。由噪声代码本221读出的代表性的数值输出是与不发声部分的语音的LPC余部相对应的噪声信号分量。这一数值变为在增益电路222中的预置的增益幅值并送到窗口形成电路223,以便形成用于平滑到发声语音部分的结合部的窗口。
窗口形成电路223的输出送到属于不发声(UV)的语音部分的LPC合成滤波器214的合成滤波器237。送到合成滤波器237的数据利用LPC合成进行处理,以便变成不发声部分的时间波形数据。在送到加法器239前,利用一个用于不发声部分的后置滤波器对不发声部分的时间波形数据进行滤波。
在加法器239,来自用于发声部分的后置滤波器238v的时间波形信号和来自用于发清辅音的语音部分的后置滤波器238u的发清辅音的语音部分的时间波形数据彼此相加,在输出端201取出形成的求和数据。
上述语音编码器根据所要求的声音质量可以输出不同比特速率的数据。即输出的数据可以按照可变的比特速率输出。例如,如低的比特速率为2kbps(千比特/秒),以及高的比特速率为6kbps,则输出的数据如图15所示为具有如下比特速率的数据。
                               表1
      2kbps     6kbps
 UV鉴别输出 1比特/20毫秒 1比特/20毫秒
LSP量化索引 32比特/40毫秒 48比特/40毫秒
  对于发声的语音部分(V) 音调数据8比特/20毫秒 音调数据8比特/20毫秒
索引15比特/20毫秒 音调数据8比特/20毫秒
波形(对于第一级)5+5比特/20毫秒增益5比特/20毫秒 波形(对于第一级)5+5比特/20毫秒增益5比特/20毫秒增益(对于第二级)72比特/20毫秒
对于不发声的语声部分(UV) 索引11比特/10毫秒   索引23比特/5毫秒
  波形(对于第一级)7比特/10毫秒增益,4比特/10毫秒   波形(对第一级)9比特/5毫秒增益6比特/5毫秒波形(对于第二级)5比特/5毫秒增益3比特/5毫秒
对于发浊音的语声部分   40比特/20毫秒   120比特/20毫秒
对于不发声的语声部分   39比特/20毫秒   117比特/20毫秒
来自输出端104的音调数据对于发声部分的语音按照8比特/20毫秒的比特速率在a1各时间点输出,来自输出端105的V/UV鉴别输出按照1比特在所有的时间点上输出。用于LSP量化、由输出端102输出的索引在32比特/40毫秒和48比特/40毫秒之间转换。另一方面,在由输出端103输出发声语声部分过程中的索引在15比特/20毫秒和87比特/20毫秒之间转换。由输出端107s和107g输出的发清辅音的语声部分的索引在11比特/10毫秒和23比特/5毫秒之间转换。对于发浊音的声音部分(UV)的输出数据对于2kbps和40比特/20毫秒,对于6kbps为120kpbs/20毫秒。另一方面,对于发浊音的声音部分(UV)的输出数据对于2kbps为39比特/20毫秒和对于6kbps为117kbps/20毫秒。
下面结合相关部分的配置解释用于LSP量化的索引、用于发声语声部分(V)的索引和用于不发声语声部分(UV)的索引。
参阅图5和6,详细解释在LSP量化器134中的矩阵量化和矢量量化。
来自LPC分析电路132的α参数送到用于进行由α向LSP参数变换的α-LSP电路133。如在LPC分析电路132中进行P阶LPC分析,则计算P阶的α参数,这P阶的α参数变换为LSP参数,并存储在缓冲器610。
缓冲器610输出2帧的LSP参数,该两帧LSP参数利用由第一矩阵量化器6201和第二矩阵量化器6202构成的矩阵量化器620进行矩阵量化。在第一矩阵量化器6201中对两帧的LSP参数进化矩阵量化,所形成的量化误差在第二矩阵量化器6202中进一步进行矩阵量化。矩阵量化利用了沿时间轴和在频率轴的变换。
来自矩阵量化器6202的对于2个帧的量化误差输入到由第一矢量量化器6401和第二矢量量化器6402构成的矢量量化单元640。第一矢量量化器6401由两个矢量量化部分650、660构成,而第二矢量量化器6402由两个矢量量化部分670、680构成。来自矩阵量化单元620的量化误差利用第一矢量量化器6401的矢量化器部分650、660按帧进行量化。所形成的量化误差矢量利用第二矢量量化器6402的矢量量化部分670、680进一步进行矢量量化。上述的矢量量化利用了沿频率轴的变换。
执行如上所述矩阵量化的矩阵量化单元620至少包括用于实施第一矩阵量化步骤的第一矩阵量化器6201和用于实施对于由第一矩阵量化产生的量化误差进行矩阵量化的第二矩阵量化步骤的第二矩阵量化器6202。执行上述矢量量化的矢量量化单元640至少包括用于实施第一矢量量化步骤的第一矢量量化器6401和用于实施对于由第一矢量量化产生的量化误差进行矩阵量化的第二矩阵量化步骤的第二矢量量化器6402
下面详细地解释矩阵量化和矢量量化。
存储在缓冲器600中的用于两个帧的LSP参数,即一个10×2的矩阵送到第一矩阵量化器6201。第一矩阵量化器6201将用于2个帧的LSP参数经过LSP参数加法器621送到加权的距离计算单元623,用以求出最小值的加权距离。
利用方程(1)给出利用第一矩阵量化器6201进行代码本查找的过程中的失真的量值dMQ1: d MQ 1 ( X 1 , X 1 ′ ) = Σ t = 0 I Σ i = 1 P w ( t , i ) ( x 1 ( t , i ) - x 1 ′ ( t , i ) ) 2
                                       …(1)其中X1是LSP参数,X1′是量化值,t和i是P维的数目。
利用方程(2)给出设有考虑沿频率轴和沿时间轴的加权权重限制的加权函数W(i,t): W ( t , i ) = 1 X ( t , i + 1 ) - X ( t , i ) + 1 X ( t , i ) - X ( t , i - 1 ) 其中x(t,0)=0,x(t,p+1)=π与-无关。
方程(2)中的加权函数用于下游侧的矩阵量化和矢量量化。
计算的加权距离送到用于矩阵量化的矩阵量化器MQ1 622。由这一矩阵量化输出的8比特索引送到信号转换器690。在加法器620中由用于二个帧的LSP参数减去通过矩阵量化得到的量化值。加权的距离计算单元623顺序地计算每2个帧的加权的距离,以便在矩阵量化单元622中进行矩阵量化。此外,选择使加权的距离为最小的量化值。加法器621的输出送到第二矩阵量化器6202的加法器631。
与第一矩阵量化器6201相似,第二矩阵量化器6202进行矩阵量化。加法器621的输出经过加法器631送到加权的距离计算单元633,在其中计算最小的加权距离。
利用方程(3)给出由第二矩阵量化器6202进行代码本查找的过程中的失真的量值: d MQ 2 ( X 2 , X 2 ′ ) = Σ t = 0 1 Σ i = 1 P w ( t , i ) ( x 2 ( t , i ) - x 2 ′ ( t , i ) ) 2
                                         ...(3)其中X2和X2′分别是来自第一矩阵量化器6201的量化误差和量化值。
加权的距离送到用于进行矩阵量化的矩阵量化单元(MQ2)632。在加法器631由两帧的量化误差减去通过矩阵量化输出的8比特索引。加权的距离计算单元633顺序地利用加法器631的输出计算加权的距离。选择使加权的距离为最小的量化值。加法器631的输出逐帧地送到第一矢量量化器6401中的加法器651、661。
第一矢量量化器6401逐帧地进行矢量量化。加法器631的输出逐帧地经过加法器651、661送到每个加权的距离计算单元653、663,用于计算最小的加权距离。
量化误差X2和量化误差X2′之间的差为一个(10×2)的矩阵。如果该距离按照X2-X2′=[X3-1,X3-2]来表示,利用方程(4)和(5)给出利用第一矢量量化器6401的矢量量化单元652、662进行代码本查找的过程中的失真的量值dVQi,dVQ2 d VQ 1 ( x 3 - 1 , x 3 - 1 ′ ) = Σ i = 1 P w ( 0 , i ) ( x 3 - 1 ( 0 , i ) - x 3 - 1 ′ ( 0 , i ) ) 2 d VQ 2 ( x 3 - 2 , x 3 - 2 ′ ) = Σ i = 1 P w ( 1 , i ) ( x 3 - 2 ( 1 , i ) - x 3 - 2 ′ ( 1 , i ) ) 2
加权的距离送到用于进行矢量量化的矢量量化单元XQ1 652和矢量量化单元VQ2 662,由这种矢量量化输出的8比特的索引送到信号转换器690。利用加法器651、661由输入的两帧的量化误差矢量减去量化值。加权的距离计算单元653、663顺序地利用加法器651、661的输出计算加权的距离,用以选择使加权的距离为最小的量化值。加法器651、661的输出送到第二矢量量化器6402的加法器671、681。
利用方程(6)和(7): d VQ 3 ( x 4 - 1 , x 4 - 1 ′ ) = Σ i = 1 P w ( 0 , i ) ( x 4 - 1 ( 0 , i ) - x 4 - 1 ′ ( 0 , i ) ) 2 ...(6) d VQ 4 ( x 4 - 2 , x ′ 4 - 2 ) = Σ i = 1 P w ( 1 , i ) ( x 4 - 2 ( 1 , i ) - x ′ 4 - 2 ( 1 , i ) ) 2 ...(7)给出对于
X4-1=X3-1-X3-1
X4-2=X3-2-X3-2′利用第二矢量量化器6402的矢量量化器672、682进行代码本查找的过程中的失真的量值。
这些加权的距离送到用于矢量量化的矢量量化器(VQ3)672和矢量量化器(VQ4)682。利用加法器671、681由对于两帧的输入的量化误差矢量减去来自矢量量化器的8比特输出的索引数据。加权的距离计算单元673、683利用加法器671、682的输出顺序地计算加权的距离,用以选择使加权的距离为最小的量化值。
在学习代码本的过程中,根据各个失真的量值利用通用的劳埃德算法进行“学习”。
在代码本查找过程中和学习过程中的失真的量值可能具有不同的数值。
来自矩量化单元622、632和矢量量化单元652、662、672和682的8位的索引数据利用信号转换器690进行转换并在输出端691输出。
具体地说,对于低的比特速率,取出执行第一矩阵量化步骤的第一矩阵量化器6201的输出、执行第二矩阵量化步骤的第二矩阵量化器6202的输出以及执行第一矢量量化步骤的第一矢量量化器6401的输出,而对于高的比特速率,则将按低比特速率的输出加到执行第二矢量量化步骤的第二矢量量化器6402的输出上,并取出所形成的和。
这样就分别对于2kbps和6kbps输出32比特/40毫秒的索引和48比特/40毫秒的索引。
矩阵量化单元620和矢量量化单元640依照代表LPC系数的参数的特征进行限于沿频率轴和/或时间轴的加权。
首先解释按照LSP参数的特征限于频率轴的加权。如阶数P=10,LSP参数X(i)按低、中和高范围的3个范围分组为:
     L1={X(i)|1≤i≤2}
     L2={X(i)|3≤i≤6}
     L3={X(i)|7≤i≤10}如果各组L1、L2、L3的权重为1/4、1/2、1/4,利用方程(8)、(9)、(10)输出仅限于沿频率轴的加权函数: w ′ ( i ) = w ( i ) Σ j = 1 2 w ( j ) × 1 4 ...(8) w ′ ( i ) = w ( i ) Σ j = 3 6 w ( j ) × 1 2 ...(9) w ′ ( i ) = w ( i ) Σ j = 7 10 w ( j ) × 1 4 ...(10)
仅按每组进行各个LSP参数的加权,并对每组通过加权限定权重。
分析沿时间轴方向的情况,设各个帧的总和为1,这样沿时间轴方向的限定是以帧为基准的。利用方程(11)给出仅沿时间轴方向限定的权重: w ′ ( i , t ) = w ( i , t ) Σ j = 1 10 Σ s = 0 1 w ( j , s ) ...(11)其中1≤i≤10和0≤t≤1。
利用这一方程(11),在帧号为t=0和t=1的两帧之间进行不限定沿频率轴方向的加权。在利用矩阵量化处理的两帧之间进行这种仅沿时间轴方向限定的加权。
在学习过程中,用作学习数据的总数为T的各帧的总体根据方程(12)进行加权。 w ′ ( i , t ) = w ( i , t ) Σ j = 1 1 0 Σ s = 0 T w ( j , s ) ...(12)其中1≤i≤10和0≤t≤T。
下面解释限定在沿频率轴方向和沿时间轴方向的加权。如果阶数P=10、LSP参数按照低、中和高范围的三个范围分组为:
          L1={X(i,t)|1≤i≤2,0≤t≤1}
          L2={X(i,t)|3≤i≤6,0≤t≤1}
          L3={X(i,t)|7≤i≤10,0≤t≤1}如果各组的权重分别为1/4、1/2、1/4,则利用方程(13)、(14)和(15)给出仅沿频率轴方向限定的加权函数: w ′ ( i , t ) = w ( i , t ) Σ j = 1 2 Σ s = 0 1 w ( j , s ) × 1 4 ...(13) w ′ ( i , t ) = w ( i , t ) Σ j = 3 6 Σ s = 0 1 w ( j , s ) × 1 2 ...(14) w ′ ( i , t ) = w ( i , t ) Σ j = 7 10 Σ s = 0 1 w ( j , s ) × 1 4 ...(15)
利用这些方程(13)到(15),进行每3个帧沿频率轴方向限定的加权和遍布利用矩阵量化处理的两个帧的加权。在代码本查找的过程中和学习的过程中都是有效的。
在学习的过程中,对全体数据的各帧的总体进行加权。对于低、中和高范围,将LSP参数X(i,t)分组为:
          L1={X(i,t)|1≤i≤2,0≤t≤T}
          L2={X(i,t)|3≤i≤6,0≤t≤T}
          L3={X(i,t)|7≤i≤10,0≤t≤T}如果各组L1、L2和L3的权重为1/4、1/2和1/4,则利用方程(16)、(17)和(18)给出仅沿频率轴限定的对于各组L1、L2和L3的加权函数: w ′ ( i , t ) = w ( i , t ) Σ j = 1 2 Σ s = 0 T w ( j , s ) × 1 4 ...(16) w ′ ( i , t ) = w ( i , t ) Σ j = 3 6 Σ s = 0 T w ( j , s ) × 1 2 ...(17) w ′ ( i , t ) = w ( i , t ) Σ j = 7 10 Σ s = 0 T w ( j , s ) × 1 4 ...(18)
利用这些方程(16)到(18),可以对沿频率轴的三个范围和遍布沿时间轴的各帧的总体进行加权。
此外,根据LSP参数的变化幅度,矩阵量化单元620和矢量量化单元640进行加权。在从V到UV或从UV到V的过渡部分,在全部语音各帧中它们占少部分的帧,由于在浊音和清辅音之间的频率响应的差别,LSP参数明显变化。因此,由方程(19)表示的加权函数可以乘以加权函数W′(i,t),用以在该过渡部分中重点加权。 wd ( t ) = Σ i = 1 10 | x 1 ( i , t ) - x 1 ( i , t - 1 ) | 2 ...(19)如下的方程(20): wd ( t ) = Σ i = 1 10 | x 1 ( i , t ) - x 1 ( i , t - 1 ) | ...(20)
可以替代方程(19)。
因此,LSP量化单元134实行两级矩阵量化和两级矢量量化,以便使输出索引的比特数是可变的。
在图7中表示矢量量化单元116的基本结构,而在图8中表示图7中所示的矢量量化单元116的更详细的结构。下面解释在矢量量化单元116中对于频谱包络线Am进行加权的矢量量化的说明性的结构。
首先,在图3所示的语音信号编码装置中,解释用于在频谱计算单元的输出侧或在矢量量化单元116的输入侧提供恒定数量的频谱包络线幅值数据的进行数据数目变换的说明性的配置。
对于这种数据数目变换可以考虑采用各种不同的方法。在本实施例中,将从一个数据块中的最后的数据到该数据块中的第一个数据内插一些值的伪数据,或者其它预置数据例如重复在一数据块中的最后的数据或第一个数据附加到沿频率轴的一个有效频带的一个数据块的幅值数据,用以提高到NF的数据数目,通过例如利用FIR滤波器进行限定带宽方式的Os-Fold(Os倍)例如8倍普通采样(oversampling)求出数目为Os倍例如为8倍的幅值数据。为了扩展到较大的NM数目例如2048,线性内插(mMx+1)×Os个幅值数据。对这一NM数据再采样,用以变换为上述预置数目M个数据,例如44个数据。
实际上,通过普遍采样和线性内插计算为了表示最需要的M数据所需的数据,不必求出上述NM数据。
用于实现图7中的加权的矢量量化的矢量量化单元116至少包括用于进行第一矢量量化步骤的第一矢量量化单元500和用于进行对由第一矢量量化单元500进行第一矢量量化的过程中产生的量化误差矢量进行量化的第二矢量量化步骤的第二矢量量化单位510。这一第一矢量量化单元500是所谓的第一级矢量量化单元,而第二矢量量化单元510是所谓的第二级矢量量化单元。
频谱计算单元148的输出矢量X,即预置数目M的包络线数据输入到第一矢量量化单元500的输入端501。这一输出矢量X由矢量量化单元502通过加权的矢量量化进行量化。因此,在输出端503输出由矢量量化单元502输出的波形索引,而在输出端504输出量化的数值X0′,并送到加法器505、513。加法器505由源矢量X减去量化值X0′,提供一多阶的量化误差矢量Y。
量化的矢量误差Y送到在第二矢量量化单元510中的矢量量化单元511。这一第二矢量量化单元511由多个矢量量化单元构成,或如在图7中由两个矢量量化器5111、5112构成。量化误差矢量Y按维划分,以便在两个矢量量化器5111、5122中利用加权的矢量量化进行量化。在输出端511、5112输出由这些矢量量化器5111、5112输出的波形索引,同时量化的数值Y’、Y’2沿该维的方向接续并送到加法器513。加法器513将量化值Y’1、Y’2加到量化值X′0上,以产生一个在输出端514输出的量化值X′1。
因此,对于低的比特速率,取出利用第一矢量量化单元500执行第一矢量量化步骤产生的输出,而对于高的比特速率,输出利用第二量化单元510执行第二量化步骤产生的输出。
具体地说,矢量量化部分116中的第一矢量量化单元500中的矢量量化器502具有如图8中所示的L阶,例如44阶的两级结构。
即,将代码本容量为32乘以增益g1的44阶矢量量化代码本的输出矢量之和用作44阶频谱包络线矢量X的量化值X′0。因此,如图8所示,两个代码本为CB0和CB1、而输出的矢量为S1i、S1j,其中0≤i和j<31。另一方面,增益代码本CBg的输出为gl,其中0≤≤31,gl是一个标量。极值输出X′0为ge(S1i+S1j)。
通过LPC的余部的上述的MBE分析得到的并变换为预置阶的频谱包络Am为X。关键的是怎样有效地对X进行量化。量化误差能量(energy)E按下式确定:
         E=‖W{Hx-Hgl((S0i+S1j)}‖2
          =‖WH{X-{X-g1(S0i+S1j)}‖2          (21)其中H标注沿LPC合成滤波器的频率轴的特征,和W为对所代表的特征进行加权的矩阵,用以沿频率轴进行按听觉加权。
假如由现时帧的LPC分析的结果得到的α参数表示为αi(1≤i≤p),根据方程(22) H ( z ) = 1 1 + Σ i = 1 P α 1 z - i
                                              ...(22)的频率响应对L阶例如44阶对应点的数值进行采样。
为了计算,将各个O接着序列1、α1、α2、…αp填加,以便提供序列1、α、α2…αp,0,0…,0,提供256点的数据。然后,利用256点的FFT,对于与从0到π的范围相关的点计算(re2+im2)1/2,并求出各结果值的倒数。这些导数按L点再取样(例如44点),并形成一个将这些L点作为对角线基元的矩阵:
Figure A9612199200262
利用方程(23)给出按听觉加权的矩阵W: W ( z ) = 1 + Σ i = 1 P α i λ b ′ z - i 1 + Σ i = 1 P α i λ a ′ z - i                                                 ...(23)其中α1是LPC分析的结果,λa、λb是常数、例λa=0.4和λb=0.9。
矩阵W可以由上述方程(23)的频率响应计算。例如,按照256点的数据1,α1λb,α2λb2,…αpλbp,0,0…0完成FFT,以便对由0到π的域求(re2[i]+Im2[i])1/2,其中0≤i≤128。对于从0到π的域,对1,α1λa,α2λa2,…αpλaP,0,0…0,在128点上,利用256点FFT求出分析的频率响应。以便求出(re′2[i]+im′2[i])1/2,其中0≤i≤128。利用 w 0 [ i ] = re 2 [ i ] + im 2 [ i ] re ′ 2 [ i ] + im ′ 2 [ i ] 可以求出方程(23)的频率响应,其中0≤i≤128。对于例如44阶矢量的每一个相关的点利用如下的方法求出该频率响应。更确切地说,应当采用线性内插。然而,在如下的实例中,代之以使用最接近的点。即ω[i]=ω0[nint{128i/L)],其中1≤i≤L。
在该方程中,nint(X)是一个函数,重现一个最接近X的数值。
正如对H一样,利用相似的方法求出h(1),h(2),…h(L),即
Figure A9612199200281
Figure A9612199200282
...(24)
作为另一个实例,首先求出H(Z)W(Z),然后求出频率响应,用以降低FFT的次数。即方程(25): H ( z ) W ( z ) = 1 1 + Σ i = 1 P α i z - i · 1 + Σ i = 1 P α i λ b i z - i 1 + Σ i = 1 P α i λ a i z - i ...(25)的分母展开为 ( 1 + Σ i = 1 P α i z - i ) ( 1 + Σ i = 1 P α a i λ a i z - i ) = 1 + Σ i = 1 2 P β i z - i 利用序列1,β1,β2…β2P,0,0,…0,例如产生256点的数据。然后利用幅值为
rms [ i ] = re ′ ′ 2 [ i ] + im ′ ′ 2 [ i ] 的频率响应,完成256点FFT,其中0≤i≤128。由此
wh o [ i ] = re 2 [ i ] + im 2 [ i ] re ′ ′ 2 [ i ] + im ′ ′ 2 [ i ] 其中0≤i≤128。对于L维矢量的每一个各对应点求出这一数值。如果FFT的点数少,应当采用线性内插。然而,在这里利用: wh [ i ] = w h o [ n int ( 128 L · i ) ] 求出最接近的数值,其中1≤i≤L。如果以这些数值作为对角线基元的矩阵为W’,则
                                             (26)
Figure A9612199200294
方程(26)表示与方程(24)相同的矩阵。
另外,|H(exp(jω)W(exp(jω))|可以按ω=i/Lλ直接由方程(25)直接求出,以便用作于wh[i]。再者,按另外一种方式,求出适当长度例如64个点的方程(25)的脉冲响应并进行FFT,以便求出然后可用于wh[i]的幅值频率特性。
利用这一矩阵重新表示方程(21),即加权的合成滤波器的频率响应,我们得到方程(27):
             E=‖W′(X-g1((S0i+S1j))‖2
                                                        ...(27)
下面解释用于学习波形代码本和增益代码本的方法。
对于所有的帧K使所希望失真值最小,对于这些帧选择用于CB0’的代码矢量SOC。如有M个这样的帧,若使 J = 1 M Σ k = 1 M | | W k ′ ( x - g k ( s 0 c + s 1 k ) ) | | 2
                                              ...(28)数值最小,帧数M就足够了。在方程(28)中,Wk′、Xk,gk和Sik分别代表用于第K帧的权重,第k′帧的一个输入,第K′帧的增益和用于第K′帧的代码本CB1的输出。
为使方程(28)的J最小, J = 1 M Σ k = 1 M { ( x k T - g k ( s 0 c T + s 1 k T ) ) W k ′ T W k ′ ( x k - g k ( s 0 c + s 1 k ) ) } = 1 M Σ k = 1 M { x k T W k ′ T W k ′ x k - 2 g k ( s 0 c T + s 1 k T ) W k ′ T W k ′ x k + g k 2 ( s 0 c T + s 1 k T ) W k ′ T W k ′ ( s 0 c + s 1 k ) } = 1 M Σ k = 1 M { x k T W k ′ T W k ′ x k - 2 g k ( s 0 c T + s 1 k T ) W k ′ T W k ′ x k + g k 2 s 0 c T W k ′ T W k ′ s 0 c + 2 g k 2 s 0 c T W k ′ T W k ′ s 1 k + g k 2 s 1 k T W k ′ T W k ′ s 1 k } …(29) ∂ J ∂ s 0 c = 1 M Σ k = 1 M ( - 2 g k W k ′ T W k ′ x k + 2 g k 2 W k ′ T W k ′ s 0 c + 2 g k 2 W k ′ T W k ′ s 1 k ) } = 0 …(30)因此, Σ k = 1 M ( g k W k ′ T W k ′ x k - g k 2 W k ′ T W k ′ s 1 k ) = Σ k = 1 M g k 2 W k ′ T W k ′ s 0 c 这样 s 0 c = { Σ k = 1 M g k 2 W k ′ T W k ′ } - 1 · { Σ k = 1 M g k W k ′ T W k ′ ( x - g k s 1 k ) } …(31)其中()表示一逆矩阵,Wk ′T表示Wk′的换位矩阵。
下面讨论增益最优化问题。
利用下式给出选择增益为代码字gc的与第k′帧相关的失真的预期的数值,该式为: J g = 1 M Σ k = 1 N | | W k ′ ( x k - g c ( s 0 k + s 1 k ) ) | | 2 = 1 M Σ k = 1 M { x k T W k ′ T W k ′ x k - 2 g c x k T W k ′ T W k ′ ( s 0 k + s 1 k ) - g c 2 ( s 0 k T + s 1 k T ) W k ′ T W k ′ ( s 0 k + s 1 k ) } 解: ∂ J g ∂ g c = 1 M Σ k = 1 M ( - 2 x k T W k ′ T W k ′ ( s 0 k + s 1 k ) ) - 2 g c ( s 0 k T + s 1 k T ) W k ′ T W k ′ ( s 0 k + s 1 k ) } = 0 得到: Σ k = 1 M x k T W k ′ T W k ′ ( s 0 k + s 1 k ) = Σ k = 1 M g c ( s 0 k T + s 1 k T ) W k ′ T W ′ ( s 0 k + s 1 k ) 以及 g c = Σ k = 1 M x k T W k ′ T W k ′ ( s 0 k + s 1 k ) Σ k = 1 M ( s 0 k T + s 1 k T ) W k ′ T W ′ ( s 0 k + s 1 k ) …(32)
上述方程(31)和(32)对于波形S0i,S1i的最佳的矩心条件,以及对于0≤i≤31的增益gi,即最佳解码输出。同时,可以按对S0i相同的方式求出S1i
下面讨论最佳编码条件,即最接近的邻近条件。
上述方程(27)用于求出失真量值,即每次求出使得方程E=‖W′(X-g1(S1i+S1j))‖2最小的S0i和S1j,逐帧给出输入X和加权矩阵W′。
实质上,对于g1(0≤1≤31),S0i(0≤i≤31),和S0j(0≤i≤31)的所有组合根据rownd robin fashion(图形罗宾方式)求出E,即32×32×32=32768,以便求出成组的S0i,S1i,它们会给出E的最小值。然而,由于这要求进行大量的计算,在本实施例中要顺序地查找波形和增益。同时将round robin查找用于S0i和S1i的组合。对于S0i和S1i有32×32=1024个组合。在如下的介绍中,为了简化,将S1i+S1j表示为Sm
上述方程(27)变为E=‖W′(X-glsm)‖2。如果为了进一步简化,Xw=W’x和Sw=W’Sm,得到:E=‖Xw=g1Sw2                                  ...(33) E = | | x w | | 2 + | | s w | | 2 ( g 1 - x w T · s w | | s w | | 2 ) 2 - ( x W T · s w ) 2 | | s w | | 2
                                              ...(34)因此,g1可以足够精确地得到,可以按这样两步进行查找,这两步是:(1)对于Sw进行查找,该Sw将使下式最小: ( X T w • S w ) 2 | | S w | | 2 及(2)对于g1进行查找,该g1最接近: X T w • S w | | S w | | 2 如果利用原有的符号重写上式,
(1′)对于一组S0i和S0j进行查找,该组S0i,S1j将会使下式达到最大值: ( x T W ′ T W ′ ( s 0 i + s 1 j ) ) 2 | | W ′ ( s 0 i + s 1 j ) | | 2 (2′)对g1进行查找,该g1最接近下式: x T W ′ T W ′ ( s 0 i + s 1 j ) | | W ′ ( s 0 i + s 1 j ) | | 2
                                                ...(35)
上述(35)代表最佳编码条件(最接近的邻近条件)。
利用方程(31)和(32)的条件(矩心条件)(cenfroid)和上式(35)的条件,通过使用所谓广义的劳埃德算法(GLA)可以同时将代码本(CB0、CB1和CBg)排成序列。
在本实施例中,将利用输入的X的范数(norm)相除的W′作为W′。即将W′/‖X‖替代在方程(31)、(32)和(35)中的W′。
另外,利用上述方程(26)确定该用于在利用矢量量化器116进行矢量量化时按听觉加权的加权W′。然而,还可以通过求出考虑了刚才的W′的现时的加权W′,来求出考虑了暂进掩蔽的加权W′。
将当在时间n,即在第n帧求出在上述方程(26)中的wh(1),wh(2),…wh(L)的数值分别表示为whn(1),whn(2),…whn(L),
如果将在时间t的考虑了刚才的数值的权重定义为An(i),其中1≤i≤L,则
         An(i)=λAn-1(i)+(1-λ)whn(i),(whn(i)≤An-1(i))
              =whn(i),(whn(i)>An-1(i))其中λ例如可设定等于0.2。在An(i)中,1≤i≤L,将这样求出的令这样的An(i)作为对角线上的基元的矩阵可以用作上述加权权重。
在输出端520、522分别输出按这样的方式通过加权的矢量量化得到的波形索引数值S0i,S1j,同时在输出端521输出增益索引g1。此外,在输出端504输出的量化值X0’送到加法器505。
加法器505由频谱包络线矢量X减去量化值,产生量化误差矢量Y。具体地说,这种量化误差矢量Y送到矢量量化单元511,以便按维划分并利用矢量量化器5111到5118通过加权的矢量量化方式进行量化。
第二矢量量化单元510使用的比特数大于第一矢量量化单元500。随之,代码本的存储容量和用于代码本查找的处理工作量(复杂程度)明显增加。因此,变得不可能按照44阶正如与第一矢量量化单元500一样来进行矢量量化。所以,第二矢量量化单元510中的矢量量化单元511由多个矢量量化器构成,并且输入的量化值按维分成为多个低维的矢量,用以进行加权的矢量量化。
在表2中表示了在量化值Y0,到Y7(用在矢量量化器5111到5118中的)、维数和比特数之间的相互关系。
                                  表2
量化值     维数     比特数
  Y0     4     10
  Y1     4     10
  Y2     4     10
  Y3     4     10
  Y4     4     9
  Y5     8     8
  Y6     8     8
  Y7     8     7
在输出端5231到5238输出由矢量量化器5111到5118输出的索引值Idvq0到Idvq7。这些索引数据的比特数之和为72。
如果由沿该维方向的矢量量化器5111到5118输出的量化值Y′0到Y′7得到的一个值为Y’,则由加法器513对量化值Y′和X′0求和,以提供量化值X′1。因此,量化值X′1由下式表示:
               X1′=X0′+Y′
                   =X-Y+Y′即极值的量化误差矢量为Y′-Y。
假如,来自第二矢量量化器510的量化值X1′要进行解码,语音信号解码装置不需要来自第一量化单元500的量化值X1′。然而,它需要来自第一量化单元500和第二量化单元510的索引数据。
下文解释在矢量量化部分中的学习方法和代码本查找。
像按学习方法一样,利用在表2中表示的权重W′,量化误差矢量Y被划分为8个低阶的矢量Y0到Y7。如果权重W′是一个令44点再取样的值作为沿对角线上的基元的矩阵:
Figure A9612199200381
                                         ...(36)该权重W′被分成如下8个矩阵:
Figure A9612199200391
Figure A9612199200392
Figure A9612199200393
Figure A9612199200394
Figure A9612199200396
Figure A9612199200398
因此分成低维的Y和W′分别被称为Yi和Wi′,其中1≤i≤8。
失真量值E定义如下:
                E=‖Wi′(Yi-S)‖2              ...(37)
代码本矢量S是Yi量化的结果。查找使失真量值E为最小的代码本的这样的代码矢量。
在代码本学习过程中,还利用通用的劳埃德算法(GLA)完成加权。首先解释用于学习的最佳矩心条件。如果有M个已选择代码矢量S作为最佳量化结果的输入矢量Y,并且形成序列的数据为Yk,利用方程(38)给出失真了的所希望的数值,使对于所有帧K加权产生的失真的中心值最小: J = 1 M Σ k - 1 M | | W k ′ ( y k - s ) | | 2 = 1 M Σ k - 1 M ( y k - s ) T W k ′ T W k ′ ( y k - s ) = 1 M Σ k - 1 M y k T W k ′ T W k ′ y k - 2 y k T W k ′ T W k ′ s +sTWk ′TWk′s...(38) ∂ J ∂ s = 1 M Σ k - 1 M ( - 2 y k T W k ′ T W k ′ + 2 s T W k ′ T W k ′ ) = 0 求解,得到: Σ k = 1 M y k T W k ′ T W k ′ = Σ k = 1 M s T W k ′ T W k ′ 两侧数值换位,得到: Σ k = 1 M W k ′ T W k ′ y k = Σ k = 1 M W k ′ T W k ′ s 因此, s = ( Σ k = 1 M W k ′ T W k ′ ) - 1 Σ k = 1 M W k ′ T W k ′ y k
                                                ...(39)
在上述方程(39)中,S是一最佳代表性的矢量并代表最佳矩心条件。
正如对于最佳编码条件一样,它对于查找使‖Wi′(Yi-S)‖2的数值为最小的S足够了。在查找过程中的Wi′不少与在学习过程中的Wi′一样)可以是一个未加权的矩阵:
Figure A9612199200414
由于利用两级矢量量化单元构成在语音信号编码器中的矢量量化单元116,变得能够使输出的索引数目是可变的。
采用本发明的上述CELP编码器结构的第二编码单元120由多级矢量量化处理器构成,如图9所示。这些多级矢量量化处理器在图9所示实施例中是按照两级编码单元1201、1202构成的,其中表示了适合用6kbps的传输比特速率的配置,还可以使传输比特速率例如在2kbps和2kbps之间进行转换。此外,波形和增益索引输出可以在23比特/5毫秒和15比特/5毫秒之间转换,图10中表示了按图9中的配置进行的处理流程图。
参照图9,图9中的LPC分析电路302对应于图3中所示的LPC分析电路132,而LSP参数量化电路303对应于图3中的α向LSP变换电路133到从LSP向α变换电路137组成的结构,以及按听觉加权的滤波器304对应于图3中的按听觉加权的滤波器计算电路139和按听觉加权的滤波器125。因此,在图9中,与图3中的第一编码单元113中的由LSP向α变换电路137的输出相同的输出提供到连接端305,与图3中的按听觉加权的滤波器计算电路139的输出相同的输出提供到连接端307和与图3中的按听觉加权的滤波器125的输出相同的输出提供到连接端306。然而,与按听觉加权的滤波器125不同,图9中的按听觉加权的滤波器304利用输入的语声数据和预量化的α参数而不是利用LSP-α变换电路137的输出,产生按听觉加权的语声信号,即为与图3中的按听觉加权的滤波器125的输出相同的信号。
在图9中所示的两级第二编码单元1201和1202中,减法器313和323对应于图3中的减法器123,而距离计算电路314、324对应于图3中的距离计算电路124。此外,增益电路311、321对应于图3中的增益电路126,同时,随机的代码本310、320和增益代码本315、325对应于图3中的噪声代码本121。
在图9所示的结构中,LPC分析电路302在图10中的步骤S1将由连接端301提供的输入的语音数据分成如上所述的各帧,以便进行LPC分析,求出α参数。LSP参数量化电路303将来自LPC分析电路302的α参数变换为LSP参数,以便量化LSP参数。对量化的LSP参数内插并变换为α数。LSP参数量化电路303由该从量化的LSP参数变换的α参数,即经变换的α参数产生LPC合成滤波器函数1/H(Z),并将所产生的LPC合成滤波器函数1/H(Z)经过连接端305送到第一级第二编码单元1201的按听觉加权的合成滤波器312。
按听觉加权的滤波器304由来自LPC分析电路302的α参数即预量化的α参数,求出用于按听觉加权的,与用图3中的按听觉加权的滤波器计算电路139产生的参数相同的参数。这些加权的数据经过连接端307提供到第一级第二编码单元1201的按听觉加权的合成滤波器312。按照在图10中的步骤SZ,按加觉加权的滤波器304由输入的语音数据和预量化的α参数,产生按听觉加权的信号,该信号与图3中的按听觉加权的滤波器125输出的信号相同。即首先由预量化的α参数产生LPC合成滤波器函数W(Z)。经此产生的滤波器函数W(Z)应用于输入的语声数据X,产生XW,再经过连接端306作为按听觉加权的信号提供到第一级第二编码单元1201中的减法器303。
在第一级第二编码单元1201中,9比特波形索引输出的随机代码本310的代表性的数值输出送到增益电路311,在其中将来自随机的代码本310的代表性的输出与来自6比特增益索引输出的增益代码表315的增益(标量)相乘。利用增益电路311与增益相乘的该有代表性的数值输出送到按照1/A(Z)=(1/H(Z)*WZ滤波的按听觉加权的合成滤波器312。加权的合成滤波器312将1/A(Z)零输入响应输出送到减法器313,如在图10中的步骤S3所指示的。减法器313对按听觉加权的合成滤波器312的零输入响应输出和来自按听觉加权的滤波器304的按听觉加权的信号XW进行减法运算,并取出所形成的差或误差作为一个参考矢量上。在第一级第二编码单元1201中进行查找的过程中,这一参考矢量上送到距离计算电路314,在其中计算距离和查找使量化误差能量E为最小值的波形矢量和增益g,如按照图10中的步骤S4所示。这里,1/A(Z)处于零状态。即如果在利用处于零状态的1/A(Z)合成的代码本中的波形矢量为Ssyn,查找使方程(40)的E为最小的波形矢量S和增益g,方程(40)如下: E = Σ n = 0 N - 1 ( r ( n ) - g s syn ( n ) ) 2 ...(40)
虽然,可以全面查找使量化矢量能量E为最小值的S和g,但可采用如下的方法,以便降低计算量。
第一种方法用于查找使ES最小的波形矢量S,ES由如下方程(41)确定: E s = Σ n = 0 N - 1 r ( n ) s syn ( n ) Σ n = 0 N - 1 s syn ( n ) 2
                                               ...(41)
根据利用第一种方法得到的S,利用方程(42)表示理想的增益: g ref = Σ n = 0 N - 1 r ( n ) s syn ( n ) Σ n = 0 N - 1 s syn ( n ) 2
                                               ...(42)
因此,按照第二种方法,查找使方程(43)的Eg为最小值的g,方程(4
3)为:
                     Eg=(gref-g)2            ...(43)由于E是g的平方函数,这样的g(使Eg最小)使E为最小值。
根据利用第一种和第二种方法得到的S和g,利用如下方程(44)可以计算量化误差矢量e,方程(44)为:
                      e=r-gSsyn              ...(44)
按第二级第二编码单元1202的像第一级中一样的一个参考值进行这种量化。
即,提供到连接端305和307上的信号直接由第一级第二编码单元1201的按加觉加权的合成滤波器312提供到第二级第二编码单元1202的按听觉加权的合成滤波器222。由第一级第二编码单元1201求出的量化误差矢量e提供到第二级第二编码单元1202中的减法器323。
按照图10中的步骤S5,在第二级第二编码单元1202中进行的处理与在第一级中进行的相似。即,由5比特波形索引输出的随机的代码本320输出的代表性的数值送到增益电路321。在其中代码本320的代表性的数值输出与来自按3比特增益索引输出的增益代码本325的增益相乘。加权的合成滤波器322的输出送到减法器323,在其中求出在按听觉加权的合成滤波器322的输出与第一级量化误差矢量之间的差。这个差送到用于距离计算的距离计算电路324,以便查找使量化误差能量E为最小值的波形矢量S和增益g。
随机的代码本310的波形索引输出和第一级第二编码单元1201的增益代码本315的索引输出、随机的代码本320的索引输出和第二级第二编码单元1202的增益代码本325的索引输出都送到索引输出转换电路330。如果由第二编码单元120输出23比特,对第一级和第二级第二编码单元1201、1202的随机的代码本310、320的索引数据和增益代码本315、325的索引数据求和并输出。假如输出15比特,输出第一级第二编码单元1201的随机的代码本310和增益代码本315的索引数据。
然后,如在步骤S6所示,刷新滤波器的状态。
在本实施例中,对于波形矢量,第二级第二编码单元1202的索引比特数是小的为5,同对于增益的索引比特数也是小的为3。如果在这种情况下在代码本中没有出现适当的波形和增益,则量化误差很可能增加而不是降低。
虽然为了防止这种缺陷,可以使增益规定为0,对于增益仅有3比特。如果将其中之一设定为0,则量化器性能明显劣化。考虑到这一点,将已经分配较大比特数的波形矢量设置为全-0的矢量,除了全-0矢量以外,进行上述查找,并且如果量化误差已经很大地增加,则选择该全-0矢量。增益是任选的。这样就使得能够在第二级第二编码单元1202中防止量化误差增加。
虽然上面已经介绍了两级配置,但级数可以大于2。在这种情况下,如果通过第一级闭环查找矢量量化已接近终止。利用第(N-1)级的量化误差作为参考输入进行了第N级的量化,其中2<N,并将第N级的量矢误差用作一个参考值输入到第(N+1)级。
由图9和图10可以看出,对于第二编码单元通过采用多级矢量量化器,与利用具有相同比特数的纯粹的矢量量化或者利用对偶(conjugate)的代码本相比较,计算量被降低。特别是,在进行CELP编码时,其中通过合成法分析采用闭环查找进行沿时间轴的波形的矢量量化,减少查找操作次数是很关键的。此外,通过来自在两级第二编码单元1201,1202的两方的索引输出和仅采用第一级第二编码单元1201的输出而没有采用第二级第二编码单元1202的输出之间进行转换,可以易于转换比特数。如果将第一级和第二级第二编码单元1201,1202的索引输出组合并输出,解码器易于适应选择其中之一的索引输出的结构。即解码器易于适应利用按2kbps操作的解码器对利用6kbps进行编码的数据来解码。此外,如果在第二级第二编码单元1202的波形代码本中包含零矢量,与假如将0添加到增益中相比,就变得能够在使性能较少劣化的情况下,防止量化误差增加。
随机的代码本的代码矢量例如可以通过对所谓的高斯噪声进行限制来产生。具体地说,通过产生高斯噪声、利用适当的阈值限制该高斯噪声以及使经限制的高斯噪声归一化可以形成该代码本。
然而,有不各类型的语音。例如,高斯噪声可以与接近噪声的例如“Sa,shi,Su,Se和So”的辅音的声语相适应,而该噪声不能与急剧上升的辅音的语音例如“Pa,Pi,Pu,Pe和Po”相适应。根据本发明,高斯噪声适用于某些代码矢量,而代码矢量的其余部分通过学习来处理,使可以适应具有明显上升的辅音和接近噪声的音这两者。假如例如阈值增加,得到具有几个较大峰值的这种矢量,而如果阈值降低,代码矢量接近高斯噪声。因此通过增加限制用的阈值的变化,变得能够适应具有明显升高部分的谐音,例如“Pa,Pi,Pu,Pe和Po”或者接近噪声的辅音,例如“Sa,Shi,Su,Se和So”,因此,提高清晰度。图11分别用实线和虚线表示高斯噪声和经限制的噪声的状态特性。图11A和11B表示利用等于1的限制用的阈值即较大的阈值限制的噪声和利用等于0.4的限制用的阈值即较小的阈值限制的噪声。由图11A和11B可以看出,如果阈值选择得较大,得到具有几个较大峰值的矢量,而如果阈值选择得较小,则噪声接近高斯噪声本身。
为了实现这一点,通过限制高斯噪声和设定适当数目的非学习型的代码矢量来准备起始的代码本。按照递增的方差值的顺序选择非学习型的代码矢量,用以适应于接近噪声的辅音例如“Sa,shi,Su,Se和So”。通过学习得到的矢量将LBG算法用于学习。按照最接近的邻近条件编码采用了固定的代码矢量和通过学习得到代码矢量。在矩心条件下,仅刷新为了学习而设定的代码矢量。因此,为了学习而设定的代码矢量能够适应于急剧上升的辅音,例如“Pa,Pi,Pu,Pe和Po”。
利用常规的学习方式,对于这些代码矢量可以得到最佳增益。
图12表示通过限制高斯噪声来构成代码本的处理流程图。
在图12中,为了起始化,在步骤S10将学习的次数n设定为n=0。利用误差D0=∞,设定学习的最大次数nmax,并设定一个确定学习结束条件的阈值∈。
在下一个步骤S11,通过限制高斯噪声形成起始代码本。在步骤S12,将部分的代码矢量固定作为非学习型的代码矢量。
在下一个步骤S13,利用上述代码本完成编码。在步骤S14,计算误差。在步骤S15,判别是(Dn-1-Dn)/Dn<∈还是n=nmax。如果结果是YES,过程终止。如果结果是No,过程转换到步骤S16。
在步骤S16,处理设有用于编码的代码矢量。在下一个步骤S17,刷新代码本,在步骤S18,在返回到步骤S13之前,递增学习的次数。
上述信号编码和信号解码装置可以用作例如用在便携式通信终端或便携式电话装置中的语音代码本,如图14所示。
图13表示采用图1和图3中所示结构的语音编码单元160的便携式终端的发送侧。由拾音器161获得的语音信号利用放大器162放大并利用模/数(A/D)变换器163变换为数字信号,再送到按图1和图3所示构成的语音编码单元160。来自A/D变换器163的数字信号提供到输入端101。语音编码单元160按照结合图1和3所解释的方式进行编码。图1和3中的输出端的输出信号作为语音编码单元160的输出信号送到传输通道编码单元164,然后在其中对所提供的信号进行通道编码。传输通道编码单元164的输出信号送到用于调制的调制电路165,并由此经过数/模(D/A)变换器166和RF放大器167提供到天线168。
图14表示采用按照图4所示构成的语音解码单元260的便携式终端的接收侧。由图14中的天线261接受的语音信号由RF放大器262放大,并经过模/数(D/A)变换器263送到解调电路264,再由此将解调的信号送到传输通道解码单元265。解码单元265的输出信号提供到按图2和4所示构成的语声解码单元260。语声解码单元260按照结合图2和4所解释的方式对信号进行解码。在图2和4的输出端的输出信号作为语声解码单元260的信号送到数/模(D/A)变换器266。来自D/A变换器266的模拟语音信号送到扬声器268。

Claims (9)

1.一种语音编码方法,用于将输入的语音信号沿时间轴分成作为单位的数据块并对所形成的信号进行编码,包含的步骤的:
至少对于输入的语音信号的发声部分求出短期预测的余部;
根据经此求出的短期预测的误差求出正弦分析编码的参数;
根据正弦分析编码的参数进行按听觉加权的矢量量化;以及
利用波形编码对输入的语音信号的不发声部分编码。
2.如权利要求1所述的语音信号编码方法,其中判别输入的语音信号是发声还是不发声部分,根据判别的结果,对发现是输入的语音信号的发声部分利用所述的正弦分析编码进行处理,并且对发现是输入的语音信号不发声部分利用合成法分析通过闭环查找最佳矢量进行矢量量化。
3.如权利要求1所述的语音信号编码方法,其中对代表频谱包络线即用作正弦分析参数的数据进行所述按听觉加权的矢量量化。
4.一种语音编码装置,用于将输入的语音信号沿时间轴分成作为单位的数据块,并且对形成的信号进行编码,包含:
一个装置,用于求出至少输入的语音信号的短期预测的余部;
一个装置,用于根据经此求出的短期预测的余部求出正弦分析编码的参数;
一个装置,用于根据正弦分析编码的参数进行按听觉加权的矢量量化;以及
一个装置,用于通过波形编码对输入的语音信号的不发声部分进行编码。
5.一种语音信号编码方法,用于将输入的语音信号沿时间轴分成作为单位的数据块,并对形成的信号进行编码,包含的步骤是:
至少对于输入的语音信号的发声部分求出短期预测的余部;
根据经此求出的短期预测的误差求出正弦分析编码的参数;以及
根据正弦分析编码的参数进行按听觉加权的矢量量化。
6.如权利要求5所述的语音编码方法,至少包含:
第一矢量量化步骤;以及
第二矢量量化步骤,对在所述第一矢量量化时产生的量化误差矢量进行量化。
7.如权利要求6所述的语音信号编码方法,其中对于低的比特速率,取出在第一矢量量化步骤中的输出,并且对于高的比特速率,取出所述第一矢量量化步骤的输出和所述第二矢量量化步骤的输出。
8.一种语音编码装置,用于将输入的语音信号沿时间轴分成作为单位的数据块并对形成的信号进行编码,包含:
一个装置,用于求出输入的语音信号的短期预测的余部。
一个装置,用于根据经此求出的短期预测的误差求出正弦分析编码的参数;以及
一个装置,根据正弦分析编码的参数,进行按听觉加权的多级矢量量化。
9.一种便携式无线电终端装置,包含:
放大装置,用于放大输入的语音信号;
A/D变换装置,用于对所述的放大信号进行A/D变换;
语声编码装置,用于对所述A/D变换装置的语音输出信号进行编码;
传输通道编码装置,用于对形成的编码信号进行通道编码;
调制装置,用于调制所述传输通道编码装置的输出进行调制;
D/A变换装置,用于对形成的调制信号进行D/A变换;以及
放大装置,用于放大来自所述D/A变换装置的信号,将所形成的放大信号送到天线;
所述语音编码装置还包含:
一个装置,用于求出所述输入的语音信号的短期预测的余部;
一个装置,用于根据经此求出的短期预测的余部求出正弦分析编码的参数;
一个装置,用于根据所述的正弦分析编码的参数进行按听觉加权的矢量量化;以及
一个装置,用于利用波形编码对所述输入的语音信号进行编码。
CNB961219920A 1995-10-26 1996-10-26 语音编码方法和装置 Expired - Lifetime CN100414605C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP27941295A JP4005154B2 (ja) 1995-10-26 1995-10-26 音声復号化方法及び装置
JP279412/95 1995-10-26

Publications (2)

Publication Number Publication Date
CN1155725A true CN1155725A (zh) 1997-07-30
CN100414605C CN100414605C (zh) 2008-08-27

Family

ID=17610739

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB961219920A Expired - Lifetime CN100414605C (zh) 1995-10-26 1996-10-26 语音编码方法和装置

Country Status (6)

Country Link
US (1) US5848387A (zh)
EP (1) EP0772186B1 (zh)
JP (1) JP4005154B2 (zh)
KR (1) KR100469224B1 (zh)
CN (1) CN100414605C (zh)
DE (1) DE69625880T2 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030377B (zh) * 2007-04-13 2010-12-15 清华大学 提高声码器基音周期参数量化精度的方法
CN101075436B (zh) * 2007-06-26 2011-07-13 北京中星微电子有限公司 带补偿的音频编、解码方法及装置
CN101887726B (zh) * 2004-04-05 2013-11-20 皇家飞利浦电子股份有限公司 立体声编码和解码的方法
CN101903945B (zh) * 2007-12-21 2014-01-01 松下电器产业株式会社 编码装置、解码装置以及编码方法

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2729246A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
JP4040126B2 (ja) * 1996-09-20 2008-01-30 ソニー株式会社 音声復号化方法および装置
JP3849210B2 (ja) * 1996-09-24 2006-11-22 ヤマハ株式会社 音声符号化復号方式
JPH10124092A (ja) * 1996-10-23 1998-05-15 Sony Corp 音声符号化方法及び装置、並びに可聴信号符号化方法及び装置
EP0925580B1 (en) * 1997-07-11 2003-11-05 Koninklijke Philips Electronics N.V. Transmitter with an improved speech encoder and decoder
JPH11224099A (ja) * 1998-02-06 1999-08-17 Sony Corp 位相量子化装置及び方法
JPH11331305A (ja) 1998-05-08 1999-11-30 Sony Corp 送信装置および送信方法、受信装置および受信方法、並びに提供媒体
TW376611B (en) 1998-05-26 1999-12-11 Koninkl Philips Electronics Nv Transmission system with improved speech encoder
JP4131052B2 (ja) 1998-07-17 2008-08-13 ソニー株式会社 撮像装置
US6199040B1 (en) * 1998-07-27 2001-03-06 Motorola, Inc. System and method for communicating a perceptually encoded speech spectrum signal
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
US6278385B1 (en) * 1999-02-01 2001-08-21 Yamaha Corporation Vector quantizer and vector quantization method
JP2000305599A (ja) * 1999-04-22 2000-11-02 Sony Corp 音声合成装置及び方法、電話装置並びにプログラム提供媒体
US6298322B1 (en) * 1999-05-06 2001-10-02 Eric Lindemann Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal
FI116992B (fi) * 1999-07-05 2006-04-28 Nokia Corp Menetelmät, järjestelmä ja laitteet audiosignaalin koodauksen ja siirron tehostamiseksi
JP3365360B2 (ja) * 1999-07-28 2003-01-08 日本電気株式会社 音声信号復号方法および音声信号符号化復号方法とその装置
US6574593B1 (en) 1999-09-22 2003-06-03 Conexant Systems, Inc. Codebook tables for encoding and decoding
WO2001033548A1 (fr) * 1999-10-29 2001-05-10 Fujitsu Limited Dispositif et procede de reglage du debit dans un systeme de codage de la parole a debit variable
JP2003514263A (ja) * 1999-11-10 2003-04-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マッピング・マトリックスを用いた広帯域音声合成
US6499010B1 (en) * 2000-01-04 2002-12-24 Agere Systems Inc. Perceptual audio coder bit allocation scheme providing improved perceptual quality consistency
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
KR100348899B1 (ko) * 2000-09-19 2002-08-14 한국전자통신연구원 캡스트럼 분석을 이용한 하모닉 노이즈 음성 부호화기 및부호화 방법
JP3997522B2 (ja) * 2000-12-14 2007-10-24 ソニー株式会社 符号化装置および方法、復号装置および方法、並びに記録媒体
JP3404016B2 (ja) * 2000-12-26 2003-05-06 三菱電機株式会社 音声符号化装置及び音声符号化方法
JP3636094B2 (ja) * 2001-05-07 2005-04-06 ソニー株式会社 信号符号化装置及び方法、並びに信号復号装置及び方法
KR100668300B1 (ko) * 2003-07-09 2007-01-12 삼성전자주식회사 비트율 확장 음성 부호화 및 복호화 장치와 그 방법
EP1496500B1 (en) 2003-07-09 2007-02-28 Samsung Electronics Co., Ltd. Bitrate scalable speech coding and decoding apparatus and method
US7523032B2 (en) * 2003-12-19 2009-04-21 Nokia Corporation Speech coding method, device, coding module, system and software program product for pre-processing the phase structure of a to be encoded speech signal to match the phase structure of the decoded signal
US7805314B2 (en) * 2005-07-13 2010-09-28 Samsung Electronics Co., Ltd. Method and apparatus to quantize/dequantize frequency amplitude data and method and apparatus to audio encode/decode using the method and apparatus to quantize/dequantize frequency amplitude data
KR100883652B1 (ko) * 2006-08-03 2009-02-18 삼성전자주식회사 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템
KR101740359B1 (ko) * 2011-01-25 2017-05-26 니폰 덴신 덴와 가부시끼가이샤 부호화 방법, 부호화 장치, 주기성 특징량 결정 방법, 주기성 특징량 결정 장치, 프로그램, 기록 매체
EP3079151A1 (en) * 2015-04-09 2016-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and method for encoding an audio signal
JP6730580B2 (ja) * 2016-01-06 2020-07-29 株式会社Jvcケンウッド 帯域拡張装置および帯域拡張方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5067158A (en) * 1985-06-11 1991-11-19 Texas Instruments Incorporated Linear predictive residual representation via non-iterative spectral reconstruction
US4797926A (en) * 1986-09-11 1989-01-10 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech vocoder
CA2054849C (en) * 1990-11-02 1996-03-12 Kazunori Ozawa Speech parameter encoding method capable of transmitting a spectrum parameter at a reduced number of bits
DE69233502T2 (de) * 1991-06-11 2006-02-23 Qualcomm, Inc., San Diego Vocoder mit veränderlicher Bitrate
JPH05265496A (ja) * 1992-03-18 1993-10-15 Hitachi Ltd 複数のコードブックを有する音声符号化方法
JP3297749B2 (ja) * 1992-03-18 2002-07-02 ソニー株式会社 符号化方法
US5495555A (en) * 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
JP2746039B2 (ja) * 1993-01-22 1998-04-28 日本電気株式会社 音声符号化方式
US5774844A (en) * 1993-11-09 1998-06-30 Sony Corporation Methods and apparatus for quantizing, encoding and decoding and recording media therefor

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887726B (zh) * 2004-04-05 2013-11-20 皇家飞利浦电子股份有限公司 立体声编码和解码的方法
CN101030377B (zh) * 2007-04-13 2010-12-15 清华大学 提高声码器基音周期参数量化精度的方法
CN101075436B (zh) * 2007-06-26 2011-07-13 北京中星微电子有限公司 带补偿的音频编、解码方法及装置
CN101903945B (zh) * 2007-12-21 2014-01-01 松下电器产业株式会社 编码装置、解码装置以及编码方法

Also Published As

Publication number Publication date
JP4005154B2 (ja) 2007-11-07
CN100414605C (zh) 2008-08-27
JPH09127989A (ja) 1997-05-16
EP0772186A2 (en) 1997-05-07
US5848387A (en) 1998-12-08
EP0772186B1 (en) 2003-01-22
DE69625880T2 (de) 2003-10-30
KR970022701A (ko) 1997-05-30
KR100469224B1 (ko) 2005-06-27
DE69625880D1 (de) 2003-02-27
EP0772186A3 (en) 1998-06-24

Similar Documents

Publication Publication Date Title
CN1155725A (zh) 语音编码方法和装置
CN1096148C (zh) 信号编码方法和装置
CN1156872A (zh) 语音编码的方法和装置
CN1264138C (zh) 复制语音信号、解码语音、合成语音的方法和装置
CN1172292C (zh) 在编码宽带信号中用于适应性带宽音调搜寻的方法与设备
CN1200403C (zh) 线性预测编码参数的矢量量化装置
CN1158648C (zh) 语音可变速率编码方法与设备
CN1240978A (zh) 音频信号编码装置、解码装置及音频信号编码、解码装置
CN1202514C (zh) 编码和解码语音及其参数的方法、编码器、解码器
CN1161751C (zh) 语音分析方法和语音编码方法及其装置
CN1220178C (zh) 在码本中进行搜索以对声音信号编码的方法和设备
CN1156303A (zh) 语音编码方法和装置以及语音解码方法和装置
CN1391689A (zh) 宽带语音和音频信号解码器中的增益平滑
CN1145512A (zh) 再现语音信号的方法和装置以及传输该信号的方法
CN1689069A (zh) 声音编码设备和声音编码方法
CN1193158A (zh) 语音编码方法和装置以及声音信号编码方法和装置
CN1161750C (zh) 语音编码译码方法和装置、电话装置、音调变换方法和介质
CN1457425A (zh) 用于语音编码的码本结构与搜索
CN1910657A (zh) 声频信号编码方法、声频信号解码方法、发送器、接收器和无线传声***
CN101057275A (zh) 矢量变换装置以及矢量变换方法
CN1677493A (zh) 一种增强音频编解码装置及方法
CN1128462A (zh) 矢量量化装置
CN1261713A (zh) 接收装置和方法,通信装置和方法
CN1293535C (zh) 声音编码设备和方法以及声音解码设备和方法
CN1144178C (zh) 音频信号编码装置和译码装置以及音频信号编码和译码方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term

Granted publication date: 20080827

EXPY Termination of patent right or utility model