CN1252681C - 一种码激励线性预测语音编码器的增益量化 - Google Patents

一种码激励线性预测语音编码器的增益量化 Download PDF

Info

Publication number
CN1252681C
CN1252681C CNB018090850A CN01809085A CN1252681C CN 1252681 C CN1252681 C CN 1252681C CN B018090850 A CNB018090850 A CN B018090850A CN 01809085 A CN01809085 A CN 01809085A CN 1252681 C CN1252681 C CN 1252681C
Authority
CN
China
Prior art keywords
gain
vector
subframe
quantized
coding system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB018090850A
Other languages
English (en)
Other versions
CN1468427A (zh
Inventor
高阳
艾迪尔·班尼亚辛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ohen Sound Co ltd
Mindspeed Technologies LLC
Original Assignee
Conexant Systems LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Conexant Systems LLC filed Critical Conexant Systems LLC
Publication of CN1468427A publication Critical patent/CN1468427A/zh
Application granted granted Critical
Publication of CN1252681C publication Critical patent/CN1252681C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Analogue/Digital Conversion (AREA)

Abstract

把语音的每一帧分解并分类成类周期语音或非类周期语音的编码器,这里给语音编码器依据语音是否是周期性的进行不同的增益量化过程。如果语音是周期性的,改进的语音编码器从未量化的加权语音信号中获得音调增益并在子帧处理开始前为该帧的每一子帧进行自适应码本增益GP的预矢量量化和固定码本增益GC的闭环延迟判定矢量量化。如果语音的帧是非周期性的,语音编码器可以使用任一已知增益量化方法。以这一方式对周期语音的增益量化的结果可使表示量化的增益信息所要求的比特数减少,对周期性语音,引起使用量化的音调增益为当前的子帧搜寻固定码本找到为当前的子帧找到固定码本激励矢量的能力的降低。另外,仅用于周期信号的新增益量化方法也可以用于非周期信号。第二方案导致比用于周期信号的方案稍高的比特率,该周期性信号使用新增益量化方案,但仍低于现有技术的比特率。然而,另一选择是对所有的语音信号使用新的增益量化方法而不区分周期和非周期信号。

Description

一种码激励线性预测语音编码器的增益量化
下面的美国专利申请全部作为参考并将其作为本申请的一部分:
美国专利申请序列号09/156,650,名为“使用将开环和闭环增益相结合的增益量化语音编码器”,Conexant Docket第98RSS399号,于1998年9月18日提出申请;
临时美国专利申请序列号60/155,321,名为“4kbits/s语音编(译)码,”Conexant Docket第99RSS485号,于1999年9月22日提出申请。
背景技术
本发明的技术领域广泛涉及话音通信***中的语音编(译)码,尤其涉及一种改进的码激励线性预测编(译)***和用较少的字节对语音信号的增益量化参数进行编(译)码的方法。
为了模拟基本的语音,对语音信号随时间进行采样并作为离散波形按帧存储以备数字处理。然而,为了提高语音通信带宽的利用效率,在语音被传输前尤其是当要将语音在有限的带宽限制下传输时,需要对语音进行编码。对语音编码的多个方面已经提出了很多算法。语音编码算法的目的在于,需要较小的带宽就能描述语音信号的特性。例如,语音编码算法试图去除语音信号中的冗余。第一步骤是去除信号的短期相关。信号编码技术的一类型是线性预测编码(LPC)。在LPC方法中,任一特定点的语音信号值由其前面的信号值通过一种线性函数关系得到。LPC方法可以去除信号的短期相关,在LPC方法中,通过估计并应用某些预测参数来表示信号,从而可以实现有效的语音信号表示法。去除语音信号中的短期相关后,还有残留信号。残留信号含有需要模拟的周期信息。去除语音中冗余的第二个步骤是模拟周期信息。通过使用音调预测可以模仿周期信息。语音信号有些部分具有周期性而另一些则没有。例如,声音“aah”有周期信息而声音“shhh”则没有周期信息。
在应用LPC技术时,利用传统的信源编码器通过通信信道抽取需进行编码的语音信号的模型和参数信息(modeling and parameterinformation)。对模型和参数信息进行编码,使之成为少量信息的一个方法是量化。对参数进行量化是指在表格或码本中选择最接近该参数的值来表示该参数。例如,如果码本含有0,0.1,0.2,0.3,等,参数0.125被表示为0.1。量化包括标量量化和矢量量化。标量量化是在表格或码本中选择最接近某参数的值以代表该参数。相反,矢量量化将同时考虑两个或多个参数,然后在表格或码本中选择最接近该矢量的值。例如,矢量量化可以在码本中选择与矢量间的差值最近的值。如果同时对两个参数进行矢量量化,码本被称为二维码本。一个n维码本可以同时量化n个参数。
在CELP(码激励线性预测)语音编码中,有两种类型的增益。第一种类型是音调增益Gp,也称作自适应码本增益。包括这里,自适应码本增益有时也用下标“a”表示,不用“p”。增益的第二类型是固定码本增益Gc。语音编(译)码算法对包括自适应码本增益和固定码本增益的参数进行量化。一旦经过编码,代表输入语音信号的参数就被传送到收发信机。
在收发信机处,译码器接收已编码的信息。因为译码器端事先经过设置,知道编码器端所采用的对语音信号进行编码的方式,因此,译码器可以对已编码的信息进行译码,重新构成一个信号,将该信号如同原音一样重放给人耳。
因此,将已编码的模型和参数信息传输到译码器需要一定量的宝贵的通信通道带宽。为了提高带宽的有效利用,必须改善模型和参数信息编码的方式。编(译)码算法需要减少必须在通信通道中传输的比特数。然而,设计编码算法时需要折中考虑两方面的因素,即不仅要必须在通信通道中传输的比特数,而且要保持高质量的再生语音。
发明内容
本发明的多个不同的方面可以在利用分析-综合编(译)码方法对语音信号进行编译码的语音编码***和方法中找到。语音编码***有一编码处理器和产生激励矢量的多个码本。语音编码器分析语音的每一帧并将其分类成类周期语音或非类周期语音。为简单起见,本申请和权利要求自始至终,类周期信号和周期信号被称为“周期”信号而非周期语音被称为“非周期”或“不是周期”信号。
如下所述至少有三种主要的可供选择的实施例。第一实施例对周期语音使用新的增益量化方案,对非周期语音使用已知的增益量化方法。第二实施例对周期语音和非周期语音都使用新的增益量化方案,在该方案中对非周期语音的比特率(每秒的比特数)大于对周期语音的比特率,但少于产生于已知的增益量化方法比特率。第三实施例对所有的语音都使用新的增益量化方案,这样产生和对第二实施例的非周期语音相等的比特率。
下面首先描述第一实施例,接着描述第二和第三实施例。如果语音是周期性的,在闭环子帧处理开始之前,从初始的未量化加权的语音信号中得到音调增益。这不同于传统的从音调增益闭环子帧处理得到音调增益的方法。“闭环”处理方法在产生合成语音的码本中寻找矢量,该合成语音感性上最接近初始的输入语音。相反,“开环”处理方法在最接近增益矢量(或已转化的增益矢量,如增益矢量的对数值)的码本中寻找矢量。在开环处理中,两个矢量的接近不依赖于合成语音在感性上如何接近于初始语音。语音编码器依据语音是否是周期性的进行不同的增益量化处理。如果是周期性的,改进的语音编码器进行下列两个增益量化:(1)对该帧的每一子帧进行自适应码本增益Gp的预矢量量化,该帧基于初始未量化的加权语音;在闭环子帧处理开始前进行这一量化;(2)在该子帧处理的末尾进行固定码本增益Gc的闭环延迟判定矢量量化。
本发明的第一不同方面是语音编码器,该编码器将语音分类,分为类周期和非类周期语音,并对类周期语音与非类周期语音的增益量化进行不同的处理。
本发明的第二不同方面是语音编码器,该编码器对周期语音的每一帧进行该帧的每一子帧Gp的预矢量量,并且进行Gc的闭环延迟判定矢量量化。
本发明的第三不同方面是语音编码器,该编码器对周期语音进行Gc的闭环延迟判定矢量量化。
本发明的第四不同方面是语音编码器,该编码器减少在周期语音中矢量量化增益信息所要求的比特数。
本发明的第五不同方面是语音编码器,该编码器对语音信号进行基于帧的处理,然后进行方式相关子帧处理。
本发明的第六不同方面是语音编码器,该编码器为当前的子帧从先于闭环子帧处理的预矢量量化处理中获得量化音调增益,这样当前子帧的量化音调增益可用于为当前的子帧在固定码本中搜寻固定码本激励矢量。
本发明的第七不同方面是语音编码器,如果语音是周期性的,该编码器在闭环子帧处理开始前从初始未量化的加权语音信号中获取音调增益。
本发明的第八不同方面是语音编码器,该编码器仅对周期信号使用新的增益量化处理而对非周期信号使用传统的增益量化处理。
本发明的第九不同方面是语音编码器,该编码器区别周期和非周期信号并对周期信号和非周期信号使用新的增益量化方法,这里分配给非周期信号的增益量化比特比周期信号多。
本发明的第十个不同方面是语音编码器,该编码器不区别周期性和非周期性信号并对所有的信号都使用新的增益量化方法。
本发明的第十一个不同方面是,上述语音编码器采取的不同方面中的任何一个,该编码器区分周期性和非周期性信号,并对周期性的信号和非周期信号采用新的增益量化方法,这里分配给非周期信号的增益比特比周期信号多。
本发明的第十二个不同方面是,上面语音编码器采取的不同方面中的任何一个,该编码器不区分周期性和非周期性信号,并对所有的信号使用新的增益量化方法。
本发明的进一步的不同方面也可在用于以很少的字节对语音信号的增益量化参数编码的方法中找到。
本发明的第十三个不同方面是对语音信号的增益信息进行量化的方法,该方法将语音信号以一段段(segment-by-segment)之分段方式归类为类周期和非类周期语音,而且对类周期语音的增益量化与对非类周期语音的量化进行不同的处理。
本发明的第十四个不同方面是对语音信号的增益信息进行量化的方法,该方法对周期语音的每一帧进行该帧的每一子帧Gp的预矢量量化,并且进行Gc的闭环延迟判定矢量量化。
本发明的第十五个不同方面是对语音信号中的增益信息进行量化的方法,该方法在子帧处理之后对周期语音进行Gc的闭环延迟判定矢量量化。
本发明的第十六个不同方面是对语音信号中的增益信息进行量化的方法,该方法减少周期语音中的增益信息矢量量化所需要的比特数。
本发明的第十七个不同方面是对语音信号的增益信息进行量化的方法,该方法对语音信号进行基于帧的处理,然后进行模相关子帧处理。
本发明的第十八个不同方面是对语音信号中的增益信息的进行量化方法,该方法先于闭环子帧处理为当前的子帧从预矢量量化过程中获得音调增益,这样当前子帧的量化音调增益可以用于在固定码本中为当前子帧搜寻固定码本激励矢量。
本发明的第十九个不同方面是对语音信号的增益信息进行量化的方法,如果该语音是周期性的,该方法在闭环子帧处理开始前从初始的未量化加权语音信号中获得音调增益。
本发明的第二十个不同方面是对语音信号的增益信息进行量化的方法,该方法区分周期和非周期信号,并将该新的量化方法用于周期信号和非周期信号,在此分配给非周期信号的增益量化比特比周期信号多。
本发明的第二十一个不同方面是对语音信号的增益信息进行量化的方法,该方法不区分周期性和非周期性信号并对所有的信号使用新的增益量化方法。
本发明的第二十二个不同方面是上面采纳用于对语音信号中的增益信息进行量化的方法的不同方面的任一方面,该方法区分周期性信号和非周期信号,并对周期信号和非周期信号使用新的增益量化处理,在此分配给非周期信号的增益量化比特比周期信号多。
本发明的第二十三个不同方面是语音信号中上面采纳用于对语音信号中的增益信息进行量化的方法的不同方面的任一方面,该方法不区分周期性信号和非周期信号并对所有信号使用该新的增益量化处理。
本发明的第二十四个不同方面是上面不同方面的任意一个,或单独或某种结合。
通过对一优选实施例进行详细说明并结合附图,本发明的其它方面,优点和新颖性将变得非常明显。
附图说明
图1是一语音通信***功能框图,该***具有一源编码器和源译码器。
图2是图1的语音通信***更详细的功能框图。
图3是图1的源编码器的示范性的第一阶段,语音预处理器的功能框图,该源编码器在图1的语音通信***的一实施例使用。
图4是一功能框图,说明图1的语音通信***的一实施例使用的源编码器的示范性的第二阶段。
图5是一功能框图,说明图1的语音通信***的一实施例使用的源编码器的示范性的第三阶段。
图6是一功能框图,说明源编码器的示范性的第四阶段,该源编码器被图1的语音传输***的一实施例用于处理非周期性语音(方式0)。
图7是一功能框图,说明源编码器的示范性的第四阶段,该源编码器被图1的语音传输***的一实施例用于处理周期性语音(方式1)。
图8是一功能框图,说明一帧和子帧。
图9是用于对自适应码本增益和固定码本增益进行量化的二维码本的一例。
图10是一表,说明依照本发明构造的语音编码算法一个作为例子的实施例的按比特的参数分配。
图11是一语音译码器的实施例的功能框图,该译码器用于处理来自根据本发明构建的语音编码器的已编码的信息。
图12a-12c是根据本发明构建的语音编码器的三个可供选择的实施例的示意图。
具体实施方式
首先概括地描述全部的语音编码和译码算法,然后提供本发明的一具体实施例。
图1是一语音通信***的示意框图,说明语音通信***中的语音编码器和译码器的一般用途。语音通信***100通过通信信道103传输并再生语音。虽然它可能含有例如电线、光纤或光链路,但该传输通道103一般包括,至少部分地包括:一射频链路,该连接总是必须支持要求共享带宽资源的多路同步语音交换,这样的带宽资源可以借助于蜂窝电话找到。
存储装置可以耦合到通信信道103以暂时存储语音信息用作延迟再生或还音,例如,进行应答机器功能,有声电子邮件等。同样,传输通道103可以用传输***100实施例中的单一装置中的存储装置来替代,例如,只记录并存储语音用作随后的还音。
尤其是,话筒111实时产生语音信号。话筒111将该语音信号送到A/D(analog to digital,模拟到数字)转换器115。A/D转换器115将模拟语音信号转换成数字形式然后将数字化的语音信号送到语音编码器117。
语音编码器117使用多个编码方式中被选择的一种对数字化的语音进行编码。编码方式的每一种使用试图优化最后再生语音的特殊技术。当以任一方式工作时,语音编码器117产生一系列的模型和参数信息(例如,“语音参数”)并将该语音参数送到一任选的信道编码器119。
该任选的信道编码器119和信道译码器131一起将语音参数在通信信道103中传送。信道译码器131将语音参数转发到语音译码器133。在以和语音编码器117方式相对应的方式工作时,语音译码器133试图尽可能准确地从语音参数中再造原始的语音。语音译码器133将再生的语音送到一D/A(数字到模拟)转换器135,这样可通过一扬声器137听到再生的语音。
图2是一功能框图,说明图一的示范性的通信装置。通信装置151包括用于语音同时捕捉和再生的语音编码和译码器。一般地在单一机壳内,通信装置151可以,例如,包括一蜂窝电话、手提电话、计算***或一些其它通信装置。换句话说,如果记忆元件用于存储已编码的语音信息,通信装置151可以包括一应答机器、一录音机、有声邮件***或其它通信记忆装置。
话筒155和A/D转换器157将一数字声音信号送到编码***159。编码***159完成语音编码并将合成的语音参数信息送到通信信道。发送的语音参数信息可以被指定到远处的另一通信装置(未示出)。
当收到语音参数信息时,译码***165进行语音译码。该译码***将语音参数信息送到D/A转换器167,在此模拟语音输出可以通过扬声器169播出。最后的结果是和原来被捕捉的语音尽可能类似的声音得到再生。
译码***159既包括进行语音编码的语音处理电路185,又包括进行任选信道编码的任选信道处理电路187。类似地,译码***165既包括进行语音译码的处理电路189,又包括进行信道译码的任选信道处理电路191。
虽然分别说明语音处理电路185和任选信道处理电路187,但是它们可以部分或整体结合成一个单元。例如,语音处理电路185和信道处理电路187可以共享单一DSP(数字信号处理器)和/或其它处理电路。类似地,语音处理电路189和任选信道处理电路191可以完全分离或部分地或整体地结合。而且,整体或部分地结合可用于语音处理电路185和189,信道处理电路187和191,处理电路185,187,189和191,或另外适当电路。
编码***159和译码***165两者使用一个存储器161。语音处理电路185在源译码期间使用语音存储器177的固定码本181和自适应码本183。类似地,语音处理电路189在源译码期间使用固定码本181和自适应码本183。
虽然上述语音存储器177由语音处理电路185和189共享,但一个或多个分离的语音存储器可以分配给每一个处理电路185和189。存储器161也含有处理电路185,187,189和191使用的软件以进行源编码和译码过程中需求的各种功能。
在讨论语音编码改进的实施例之前,在此先总览整个语音编码算法。在本说明中所指的改进的语音编码算法可以是,例如,基于CELT方式的eX-CELP(扩展的CELP)算法。转让给同一受让人的美国专利申请,Conexant Systems,Inc.,中讨论了eX-CELP算法的细节,在此提前引入作为参考:临时美国专利申请序列号60/155.321名为“4kbits/s语音编码,”Conexant Docket第99RSS485号,于1999年9月22日提出申请。
为了在低比特率下获得长途质量(比如4千比特每秒),改进的语音编码算法与传统的CELP算法的精确波形匹配规范有点背离,并尽力捕捉输入信号的感性上的重要特征。为了做到这点,改进的语音编码算法根据一定的特征,如类噪音成分的多少,类尖音成分的多少,话音成分多少,非话音成分多少,幅度谱演化,能量等高线演化,周期演化等,来分析输入信号,并在编码和量化处理期间利用这些信息去控制加权。原则是准确表示感性上的重要特征并在较不重要的方面允许相对大的误差。结果,改进的语音编码算法集中在感性上的匹配而非波形匹配。集中在感性匹配因为假定在4千比特每秒下产生令人满意的语音再生,波形匹配并不够准确以完全捕捉输入信号中的所有信息。所以,改进的语音编码器进行优先次序的排列以取得改进的结果。
在一个特殊的实施方案中,改进的语音编码器使用20毫秒,或每秒160个样值的帧大小,每一帧被分为或两个或三个子帧。子帧的数目依赖于子帧处理方式。在这个特殊的实施例里,对语音的每一子帧可以选择两方式之一:方式0和方式1。重要的是,处理子帧的方式依赖于该方式。在这一特殊实施方案中,方式0使用每帧两个子帧,其中每帧的大小为期10毫秒,或包含80个样值。同样,在这一实施例中,方式1使用每帧三个子帧,其中第一和第二子帧为期6.625毫秒,或包含53个样值,第三子帧为期6.75毫秒,或包含54个样。在这两种方式中,可以使用15毫秒的准备时间。对方式0和方式1,可以使用十分之一级的线性预测(LP)方式去表示信号谱的包络。使用一延迟判定,交换两阶段预测矢量量化方案,LP方式可以在线谱频率(LSF)域中编码。
方式0进行诸如CELP算法的传统的语音编码算法。然而,方式0不用于语音的所有的帧。相反地,选择方式0去处理“类周期”以外的语音的帧,下面将详细讨论。为方便起见,在此将“类周期和周期”语音称为周期语音,所有其它语音是“非周期”语音。这样的“非周期”语音包括在该过渡帧处诸如音调相关和音调延迟的典型参数迅速变化的过渡帧和其信号主要是类噪音的帧。方式0将每一帧分为两子帧。方式0每子帧一次对调延迟编码并有一个二维的矢量量化器以便共同对音调增益(即,自适应码本增益)和固定码本增益每子帧一次进行编码。本实施例中,固定码本含有两个脉冲分码本和一个高斯分码本;这两个脉冲分码本分别有两个和三个脉冲。
方式1和传统的CELP算法不同。方式1处理含有周期语音的帧,该周期语音一般具有高周期性并总能由平缓的音调轨迹很好地表示。在这一特殊的实施例中,方式1使用每帧三个子帧。对音调延迟先于子帧处理进行每帧一次编码作为音调预处理的一部分,并且以内插值替换的音调轨迹取自这一延迟。该子帧的这三个音调增益表现出非常稳定的特性并且使用先于闭环子帧处理的基于均方根误差判据的预矢量量化共同对其量化。这未量化的三个参考音调增益来自加权的语音且是基于帧的音调预处理的副产品。使用预量化音调增益,除了这三个固定码本增益留下未量化,进行传统的CELP子帧处理。使用自动的平均能量预测在基于延迟判断方法后的子帧处理后对这三个固定码本共同量化。随后这三个子帧用完全量化参数合成。
对语音的每一帧选择处理方式的方式基于含在该帧的语音的分类,处理周期语音的新方式考虑到以相当少的字节而没有语音的感性品质的任何大的损耗的增益量化。下面具体介绍处理语音的这一方式。
图3-7是功能框图,说明图1和2所示的语音编码器的一实施例使用的多级编码方法。尤其是,图3是说明语音预处理器193功能的框图,该处理器包括该多级编码方法的第一级;图4是说明第二级的功能框图;图5和6是描述第三级的方式0的功能框图。图7是第三级的方式1的功能框图。含有编码处理电路的语音编码器,一般在软件的指令下工作完成下面的功能。
输入语音被读到并缓冲到帧。来看图3的语音预处理器193,输入语音192的一帧被传送到静音增强器195,它确定该语音帧是否是纯静音,即,仅存在“静噪音”。
语音增强器195依据帧自适应地探测当前的帧是否是纯“静噪音”。如果信号192是“静噪音”,语音增强器195将该信号降至信号192的零级。否则,如果信号192不是“静噪音”,语音增强器195不改变信号192。语音增强器195将纯洁语音的静音部分清理干净用作低水平的噪音,这样增强了纯洁语音的感性质量。当输入语音出自A-规律源时,语音增强功能的效果变得尤其明显;即,输入先于当前的语音编码算法处理立即通过A-规律编码和译码。因为A-规律将0周围的样值(即-1,0,+1)放大为-8或+8,A-规律的放大可以将一非听觉静噪声转变为一清晰的听觉噪声。经语音增强器195处理后,语音信号被传输到一高通滤波器197。
高通滤波器197除去低于一定截止频率的频率并允许高于截止频率的频率通过噪音衰减器199。在这一特殊的实施例中,高通滤波器197和ITU-T的G729语音编码标准的输入高通滤波器相同。即,它是具有140赫兹(Hz)截止频率的二级极点-零点滤波器。当然,高通滤波器197不必是这样的滤波器并可以构造为熟练的普通技术人员所知的适当滤波器的任一种。
噪音衰减器199执行噪音压缩算法。在这一特殊实施例中,为了用语音编码算法改善该参数的估计,噪音衰减器199完成环境噪音5分贝(5dB)的最大值的弱噪音衰减。这些增强静音的特定方法,建立了一高通滤波器197并衰减了噪音,可以使用熟练的普通技术人员所知的技术的任何一种。语音预处理器193的输出是预处理的语音200。
当然,静音增强器195,高通滤波器197和噪音衰减器199可以用任何其它的装置代替或用熟练的普通技术人员所知的方式改变并可适于特殊的用途。
来看图4,提供了一语音信号的普通的基于帧的处理功能框图。换句话说,图4所示为语音信号一帧一帧的处理。在方式相关处理250前进行该帧处理而不考虑方式(即方式0或1)。预处理过的语音200被一感性加权滤波器252接收,该滤波器工作以加强谷区域并减弱预处理语音信号200的峰区域。感性加权滤波器252可以用任何其它装置代替或熟练的普通技术人员所知的方式改变并适用于特殊的用途。
LPC分析器260接收已预处理的语音信号200并估计语音信号200的短期谱包络线。LPC分析器260从确定语音信号200的特性中提取LPC系数。在一实施例中,对每一帧进行十分之三级LPC分析。它们被集中在该帧的中三分,后三分和先行段。当该LPC分析集中在该帧的前三分时,为下一帧重复对先行段的LPC分析。这样,对每一子帧,产生四组LPC参数。LPC分析器260也能进行LPC系数的量化成为,例如,线谱频(LSF)域。LPC系数的量化可以是标量或矢量量化,也可以以该技术领域中已知的方式以任意适当的域进行。
分类器270通过查看,例如,帧的绝对最大值,反射系数,预测误差,来自LPC分析器260的LSF矢量,第十级自相关,最近的音调延迟和最近的音调增益获得关于预处理的语音200的特性信息。这些参数,本领域的普通技术人员皆知,故在此不做进一步的解释。分类器270利用信息控制编码器的其它方面,如信噪比的估计,音调估计,分类,谱平滑,能量平滑和增益标准化。再一次说明,这些方面普通的技术人员熟知,由此,在此不做进一步的解释。下面简述分类算法。
分类器270,借助于音调预处理器254,根据每帧主要的特征将每该帧分成六类。它们是:(1)无声/背景噪音;(2)噪音/类清语音;(3)清音;(4)变调(包括节音辅音);(5)不稳定的浊音;(6)稳定浊音。分类器270可以使用任何方法将输入信号分为周期信号和非周期信号。例如,分类器270可以使用任何方法把输入信号分为周期信号和非周期信号。例如,分类器270可以把预处理的语音信号,该帧第二半的音调延迟和相关,以及其它信息作为输入参数。
可以使用不同标准去判断语音是否被确信是周期的。例如,如果语音是稳定的浊音信号,可以认为语音是周期性的。一些人可能认为周期性的语音含有稳定的浊音和不稳定的浊音,但是为了说明起见,周期性的语音包括稳定的浊音。而且,周期性的语音可以是平滑和稳定的语音。当语音信号在一帧内改变不大于一定量时,该语音被认为是“稳定的”。该语音信号更可能有一确定很好的能量等值轮廓。如果语音信号的自适应码本增益Gp大于门限值,那么语音信号是“平滑的”。例如,如果门限值是0.7,如果其自适应码本增益大于0.7,一子帧内的语音信号被认为是平滑的。非周期性的语音,或非浊音,包括清音(例如,诸如“唦唦”的摩擦音),变调(例如,节音辅音,偏移),背景噪音和无声。
更特别的,在该范例实施例中,语音编码器最初得到下列参数:谱倾斜(每帧四次第一反射系数的估计):
κ ( K ) = Σ n = 1 L - 1 s k ( n ) · s k ( n - 1 ) Σ n = 1 L - 1 s k ( n ) 2 , k = 0,1 , · · · 3 , · · · ( 1 )
这里L=80是计算反射系数的窗口,Sk(n)是由
sκ(n)=s(k·40-20+n)·wn(n)   n=0,1,…..79                  (2)
得出的kth
这里Wn(n)是一80样海明窗口,S(0),S(1),….S(159)是该预处理的语音信号的当前帧。
绝对最大值(绝对信号最大值的迹,每帧8个估计值):
x(k)=max{s(n)|,n=nk(k),nk(k)+1,...nk(k)-1},k=0,1…,7   (3)
这里ns(k)和ne(k)分别是开始点和结束点,为了在该帧的次数k·160/8采样寻找kth最大值。一般地,该节的长度是音调周期和节重叠的1.5倍。这样,可以得到振幅包络的平缓轮廓。
谱倾斜,绝对最大值,和音调相关参数形成分类的基础。然而,先于分类判定进行参数的额外处理和分析。参数处理最初这三个参数加权。通过从背景噪音中减去该成分加权在某些意义上去除这些参数中的背景噪音成分。这提供不依赖于任何背景噪音且由此更均匀的参数空间并改善了分类对背景噪音的强度。
根据下面的方程,方程4-7,噪音音调周期能量的连续平均,噪音的谱倾斜,噪音的绝对最大值,和噪音的音调相关每帧被更新八次。由方程4-7确定的下面参数每帧估计/取样八次,假定该参数空间有好的时间分辨率。
噪音音调周期能量的连续平均:
        <EN,P(K)>=α1<EN,P(K-1)>+(1-α1)EP(K),      (4)
这里EN,p(k)是在该帧的160/8样值音调周期标准化能量。因为音调周期一般超过20样值(160样/8),计算该能量依据的节可以重叠。
噪音谱倾斜的连续平均:
        <κN(k)>=α1·<κN(k-1)>+(1-α1)·κ(k mod 2). (5)
噪音绝对最大值的连续平均
        <xN(k)>=α1·<XN(k-1)>+(1-α1)·x(k).          (6)
噪音音调相关的连续平均
        <RN,P(K)>=α1·<RN,P(K-1)>+(1-α1)·Rp       (7)
这里Rp是该帧的第二半的输入音调相关。虽然典型值是α1=0.99,但适应常数α1是自适应的。
背景噪音对信号的比根据
&gamma; ( k ) = < E N , P ( K ) > E p ( K ) &CenterDot; &CenterDot; &CenterDot; ( 8 )
计算。
参数噪音衰减被限制到30dB,即,
        γ(k)={γ(k)>0.968?0.968:γ(k)}             (9)
根据下面的方程10-12,通过去除噪音分量得到参数(已加权的参数)的噪音自由设置:
已加权的谱倾斜估计
κw(k)=κ(k mod 2)-γ(k)·<κN(k)>.              (10)
已加权的绝对最大值估计
xw(K)=x(K)-y(K)·<xN(K)>.                        (11)
加权的音调相关估计
Rw,p(k)=Rp-γ(K)·<RN,P(K)>                    (12)
加权倾斜和加权最大值的展开分别根据下面的方程13和14计算,作为第一级近似的斜率:
&PartialD; &kappa; w ( k ) = &Sigma; l = 1 7 l &CenterDot; ( &chi; w ( k - 7 + l ) - &chi; w ( k - 7 ) ) &Sigma; l = 1 7 l 2 &CenterDot; &CenterDot; &CenterDot; ( 13 )
&PartialD; &kappa; W ( K ) = &Sigma; l = 1 7 l &CenterDot; ( &kappa; W ( K - 7 + l ) - &kappa; W ( K - 7 ) ) &Sigma; l = 1 7 l 2 &CenterDot; &CenterDot; &CenterDot; ( 14 )
一旦方程4到14的参数被更新为该帧的八个样点,从方程4-14的参数计算下面的基于帧的参数:
最大加权音调相关:
R w , p max = max { R w , p ( k - 7 + l ) p l = 0,1 , &CenterDot; &CenterDot; &CenterDot; 7 } &CenterDot; &CenterDot; &CenterDot; ( 15 )
平均加权音调相关:
R w , p avg = 1 8 &Sigma; l = 0 7 R w , p ( K - 7 + l ) &CenterDot; &CenterDot; &CenterDot; ( 16 )
平均加权的音调相关的连续平均:
< R w , p avg ( m ) > = &alpha; 2 &CenterDot; < R w , p avg ( m - 1 ) > + ( 1 - &alpha; 2 ) &CenterDot; R w , p avg , &CenterDot; &CenterDot; &CenterDot; ( 17 )
这里m是帧数,α2=0.75是自适应常数。音调延迟的校正的标准偏差:
&sigma; L p ( m ) = 1 &mu; L p ( m ) &Sigma; l = 0 2 L p ( m - 2 + 1 ) - &mu; L p ( m ) ) 2 3 &CenterDot; &CenterDot; &CenterDot; ( 18 )
这里Lp(m)是输入音调延迟,μLp(m)是
&mu; L p ( m ) = 1 3 &Sigma; l = 0 2 L p ( m - 2 + 1 ) &CenterDot; &CenterDot; &CenterDot; ( 19 )
给出的过去的三帧的音调延迟的平均值。
最小加权的谱倾斜:
K n min = min { &kappa; w ( k - 7 + l ) , l = 0,1 , &CenterDot; &CenterDot; &CenterDot; 7 } &CenterDot; &CenterDot; &CenterDot; ( 20 )
最小加权的谱倾斜的连续平均:
< &kappa; W min ( m ) > = &alpha; 2 &CenterDot; < &kappa; W min ( m - 1 ) > + ( 1 - &alpha; 2 ) &CenterDot; &kappa; W min &CenterDot; &CenterDot; &CenterDot; ( 21 )
平均加权谱倾斜:
&kappa; w avg = 1 8 &Sigma; l = 0 7 &kappa; w ( k - 7 + l ) &CenterDot; &CenterDot; &CenterDot; ( 22 )
加权倾斜的最小斜率:
&PartialD; &kappa; w min = min { &PartialD; &kappa; w ( k - 7 + l ) , l = 0,1 , &CenterDot; &CenterDot; &CenterDot; , 7 , &CenterDot; &CenterDot; &CenterDot; ( 23 )
加权谱倾斜的累计斜率:
&PartialD; &kappa; w acc = &Sigma; l = 0 7 &PartialD; &kappa; w ( k - 7 + l ) . &CenterDot; &CenterDot; &CenterDot; ( 24 )
加权最大值的最大斜率
&PartialD; &chi; w max = max { &PartialD; &chi; w ( k - 7 + l ) , l = 0,1 , &CenterDot; &CenterDot; &CenterDot; , 7 &CenterDot; &CenterDot; &CenterDot; ( 25 )
加权最大值的累计斜率
&PartialD; &chi; w acc = &Sigma; l = 0 7 &PartialD; &chi; w ( k - 7 + l ) &CenterDot; &CenterDot; &CenterDot; ( 26 )
方程23,25,和26给出的参数用于标记一帧是否可能含有一节首辅音,由方程16-18,20-22给出的参数用于标记一帧是否可能被浊音所支配。基于最初的标记,过去的标记和其它信息,将该帧分成六类之一。
分类器270将预处理的语音200分类的方式的详细说明在转让给同一受让人,ConexantsSystems,Inc.,的美国专利申请中描述,在此预先引入作为参考:
临时美国专利申请序列号60/155,321名为“4千比特/秒速度编码,”Conexant Kocket第99RSS485号,于1999年9月22日申请。
LSF量化器267接收到来自LPC量化器260的LPC系数并量化该LPC系数。LSF量化的的目的,是用较少的字节表示该系数,这种量化可以是包括标量和矢量量化的任何已知的量化方法。在这一特殊的实施例中,LSP量化器267对十分之一级LPC模型量化。为了减少LPC合成滤波器的谱包络的不期望的波动,LSF量化器267也可以消除LSFs。LSF量化器267将量化了的系数Aq(z)268发送到语音编码器的子帧处理部分250。语音编码器的子帧处理部分是模相关(mode dependent)的。虽然优选LSF,但是量化器267可以将LPC系数量化为一个非LSF域的域。
如果选择音调预处理,那么加权语音信号256被送到音调预处理器254。为了变更加权的语音256,这样它的音调信息可以被更精确地量化,音调预处理器254协同开环音调估计器272共同工作。音调预处理器254可以,例如,对音调循环使用压缩或膨胀技术以便提高语音编码器的对音调增益的量化能力。换句话说,音调预处理器254修改加权的语音信号256以便更好地匹配已估计的音调轨迹,并且由此当产生感性上的不可区分的再生语音时更精确地适合编码方式。如果编码处理电路选择音调预处理方式,音调预处理器254进行加权语音信号256的音调预处理。音调预处理器254扭曲加权的语音信号256以便匹配将由译码处理电路产生的内插音调值。当应用音调预处理时,扭曲的信号被称为修改的加权语音信号258。如果不使用音调预处理方式,加权的语音信号256通过音调预处理器254而没有经过音调预处理(为方便起见,仍称为“修改的加权语音信号”258)。音调预处理器254可以包括一波形内插器,它的功能和实现方法为普通的技术人员所熟悉。波形内插器使用已知的向前一向后波形内插技术可以修改一定的不规律的变调节以便增强规律性并抑制语音信号的不规律性。加权信号256的音调增益和音调相关由音调预处理器254估计。开环音调估计器272从加权语音256中提取关于音调特性的信息。音调信息包括音调延迟和音调增益信息。
音调预处理器254也通过开环音调估计器272和分类器270相互作用改善由分类器270对语音信号的分类。因为音调预处理器254得到关于该语音信号的额外信息,所以,额外的信息可以被分类器270使用以便精细地调整该语音信号的分类。当进行音调预处理后,该音调预处理器254将音调轨迹信息284和未量化的音调增益286输出到语音编码器的方式相关子帧处理部分250。
一旦分类器270将预处理过的语音200分为多个可能类的一类时,预处理的语音信号200的分类数目被送到方式选择器274和方式相关子帧处理器250作为控制信息280。方式选择器274使用分类数目以选择操作方式。在这一特殊的实施例中,分类器270将预处理的语音信号200分为六种可能的类之一。如果预处理的语音信号200是平稳的浊音(如,称为“周期”语音),方式选择器274将方式282设置为方式1。否则,方式选择器274将方式282设置为方式0。方式信号282被送到语音编码器的方式相关子帧处理部分250。方式信息282被加到传送到译码器的比特流。
在这一特殊的实施例中,该语音信号标记为“周期”和“非周期”应该小心解释。例如,使用方式1编码的帧是那些通过基于来自每帧仅七个比特的音调轨迹284保持高调相关和高调增益的帧。因此,选择方式0而非方式1是由于仅用七个字节不能精确地表示音调轨迹284,而不是由于缺乏周期性。因此,虽然不能用每帧仅七个字节表示音调轨迹,但是使用方式0编码的信号可能很好地包含周期性。所以,方式0用每帧七个比特对音调轨迹编码两次,每帧共十四次,以便更好地表示音调轨迹。
如期望的那样图3-4的每一功能框图,和本说明中的其它图,不必是分散的结构并可以和其它一个或多个功能框结合。
语音编码器的方式相关子帧处理部分250以方式0和方式1两个方式工作。图5-6所示为方式0子帧处理的功能框图,而图7所示为语音编码器的第三阶段的方式1子帧处理的功能框图。
来看图5,来自自适应码本290的选择的激励矢量291被送到乘法器294,在此该矢量和量化调增益Gp相乘以产生增益刻度自适应码本基值293。类似地,来自固定码本292的选择的激励矢量295被送到乘法器296,在此,该矢量和量化的固定码本增益Gc相乘以产生增益刻度固定码本基值297。增益刻度自适应码本基值293和增益刻度固定码本基值297被加法器298加起来以产生合信号299。合信号299由执行和量化LPC分析相反功能的综合滤波器301处理。同样地,加权滤波器303执行和感性加权滤波器252相反的功能。换句话说,合成滤波器301和加权滤波器303作用以便从合信号299再次合成语音信号304。使用来自量化信息的被合信号299,综合滤波器301和加权滤波器303试图制作该语音信号的拷贝,例如,再次合成语音信号304。理想地,该再合成语音信号304和目标信号(例如,修改的加权的信号258)完全一样。然而,因为受量化的影响,再合成的语音信号304并不和目标修改的加权信号258完全一样。为了将该自适应码本增益Gp和固定码本增益Gc的量化中的误差最小化,图5中的方式0子帧处理器通过从修改的加权信号258中减去再合成语音信号304来确定该误差。实际上,减法器309从修改的加权信号258中减去再合成的语音信号304以便产生能量信号307。最小化器300接收代表音调基值的量化中的误差的信号307。基于信号307,最小化器控制来自自适应码本290和固定码本292中的激励矢量的选择以便减少误差。该过程重复进行直到最小化器300已经选择了来自自适应码本290和固定码本292的最好的激励矢量,这两个码本将再合成语音信号304中的误差最小化用于每帧。当然,合成滤波器301,加权滤波器303和最小化器300可以用任何其它装置取代,或以为一般的技术人员熟知的方式修改并适用于特殊的用途。
如图5中虚线所形成的框288所示,自适应和固定码本增益共同矢量量化。在这一特别的作为例子的实施例中,自适应码本和固定码本增益依照在G.729中详述的方法以每子帧七比特共同量化。竭尽全力地搜寻用于对自适应码本和固定码本增益共同量化的二维码本作为将目标语音信号258和再构语音信号304之间的的均方根误差最小化的入口,即,最小化
E = &Sigma; n = 0 79 ( t ( n ) - ( g ^ p v p ( n ) * h ( n ) + g ^ c v c ( n ) * h ( n ) ) ) 2 &CenterDot; &CenterDot; &CenterDot; ( 27 )
这里量化的自适应和固定码本增益来自七比特码本。代之使码本含有自适应码本增益和固定码本增益,码本可以含有自适应码本增益和用作预测固定码本增益的修正因数(该因数表示固定码本增益)。固定码本增益的预测基于固定码本能量的二级移动平均预测。修正系数γk和量化的固定码本增益之间的关系由 g ^ &CenterDot; c = &gamma; k &CenterDot; g ^ &CenterDot; c 给出,这里
Figure C0180908500413
是量化的固定码本增益,
Figure C0180908500414
是预测的码本增益。预测的固定码本增益由下式给出:
g ~ &CenterDot; c = 10 1 20 ( E ~ k - E c + E ~ &CenterDot; ~ ) , 这里
Figure C0180908500416
是平均能量,(28)
E c = 10 log 10 ( 1 80 &Sigma; n = 0 79 v c ( n ) 2 ) &CenterDot; &CenterDot; &CenterDot; ( 29 )
E ~ = &Sigma; i = 1 2 b i &CenterDot; ( 20 log 10 &gamma; k - 1 ) &CenterDot; &CenterDot; &CenterDot; ( 30 )
移动平均预测的预测系数是{b1b2}={0.6,0.3}。处理子帧方式0的方式普通的技术人员皆知并可以适当地以该技术领域中皆知的方式修改。
图6所示为图5的方式0子帧处理器的更详细的框图。三个截然不同的步骤出现在图6中。第一个步骤是用分析综合方法从自适应码本290中选择最好的激励矢量Vp。使用来自音调预处理器254的音调轨迹信息284从自适应码本290中选择最初的激励矢量。乘法器406用来自增益码本460的量化的自适应码本增益Gp乘以激励矢量402,并将一乘得的信号404传到综合滤波器408。综合滤波器408接收来自LSF量化器267的量化的LPC系数Aq(z)268,并和感性加权滤波器410一起,创造一个再合成的语音信号414。减法器从目标修正加权信号258中减去该再合成的语音信号414以便产生信号416。最小化器420接收表示在对自适应码本增益量化中的误差的信号416。最小化器420控制来自自适应码本290的激励矢量的选择以便减少该误差。该过程重复进行直到最小化器420为每一子帧从自适应码本290中选择了最好的激励矢量,该子帧将再合成语音信号414中的误差最小化。在从自适应码本290中选择了最好的音调基值之后,剩余的信号416是减去音调基值的修改的加权语音信号258。在从固定码本292中选择最好的激励矢量的第二步骤中使用这一剩余的信号416,该固定码本将再综合的语音信号436中的误差最小化。
现详细介绍第二步。从固定码本292中选择一激励矢量。乘法器用来自增益码本460的量化固定码本增益Gc乘以激励矢量425,并将一乘得的信号428送到合成滤波器430。合成滤波器430接收来自LSF量化器267的量化的LPC系数Aq(z)268,并和感性加权滤波器434一起,产生一再合成的语音信号436。减法器440将再合成语音信号436从目标信号中减去以产生第二剩余信号438。为了减小误差最小化器444使用语音信号438以控制来自固定码本292的激励矢量的选择。最小化器444接收控制信息280(该信息包括语音信号的分类数目)并依靠该分类,改变它如何控制来自固定码本292的激励矢量的选择。该过程重复直到最小化器444从固定码本292中为每一子帧选择了最好的激励矢量,该子帧将再合成语音信号436中的误差最小化。因为我们假设方式0工作在这一点,所以方式0子帧处理器从自适应码本290和固定码本292找到了最好的激励矢量。
现在介绍由图6的方式0子帧处理器进行的第三步骤。在此,已经找到用于自适应码本和固定码本的最好的矢量。它们的各自的增益共同矢量量化。从二维矢量量化增益码本460中选择表示自适应码本增益和固定码本增益的共同矢量量化的增益码本矢量并将其传递到乘法器266,268。乘法器466将已量化的自适应码本增益Gp462和来自自适应码本的最好的激励矢量Vc402相乘以形成信号446。乘法器468将已量化的固定码本增益Gc464和来自固定码本的最好的激励矢量Vc425相乘以形成信号448。注意到方式0子帧处理期间已经找到选择的激励矢量Vp402和Vc425作为的第一和第二步骤最好的激励值。加法器480将信号446和448相加以形成加信号450。加信号450通过综合器滤波器482和感性加权滤波器486的共同再合成为加信号450以形成合成语音信号454。综合滤波器408和430,综合滤波器482接收PLC系数Aq(z)268。减法器512从目标修正加权的语音信号258中减去再合成的语音信号454以产生第三剩余信号456。最小化器520接收表示误差的第三信号456,该误差产生自由二维矢量量化增益码本460决定的固定码本增益和自适应码本增益的共同量化。最小化器520使用信号456控制来自二维矢量量化增益码本460的激励矢量的选择以便减小误差。该过程重复进行直到最小化器520从二维矢量量化增益码本460中为每子帧选择了最好的激励矢量,该子帧将再合成语音信号454中的误差最小化。一旦误差被最小化,来自二维矢量量化增益码本460的量化的增益Gp和Gc被图5中的乘法器294,296所使用。
此外,综合滤波器408,430和482,加权滤波器410,434和486,最小化器420,430和520,乘法器406,427和468,加法器480,减法器412,440和512(以及任何其它本申请中描述的滤波器,最小化器,乘法器,加法器和减法器)可由任何其它的器件所取代或以熟练的普通技术人员熟知的方式修改并适用于特殊的用途。
既然已经详细描述了方式0子帧处理,那么将讨论方式1子帧处理。图7所示为方式相关子帧处理器250的方式1子帧处理器部分的功能框图。音调轨迹284从自适应码本290中选择自适应码本增益矢量588。自适应码本作用基于过去的激励和来自音调预处理器254的音调轨迹284且没有要求对码本290仔细搜寻一遍。根据来自音调预处理器254的内插的音调轨迹Lp(n),使用第21级海明加权Sinc窗口通过对过去激励的内插获得自适应码本激励的每一样值:
v p ( n ) = &Sigma; i = 10 10 w s ( f ( L p ( n ) ) , i ) &CenterDot; e ( n - i ) ( L p ( n ) ) , &CenterDot; &CenterDot; &CenterDot; ( 31 )
这里e(n)是过去的激励,I(Lp(n))和f(Lp(n))分别是音调延迟的整数和分数部分,ws(f,i)是海明加权Sinc窗口。为了将初始和再构语音间的加权均方误差最小化调增益中的最佳的加权均方根误差根据
g = &Sigma; n = 0 N - 1 t ( n ) &CenterDot; ( v p ( n ) * h ( n ) ) &Sigma; n = 0 N - 1 ( v P ( n ) * h ( n ) ) 2 , 0.0 &le; g &le; 1.2 &CenterDot; &CenterDot; &CenterDot; ( 32 )
估计。方程32中的“N”是每一帧中的子帧可变数目。根据下面的最佳音调增益的计算非量化音调增益
g p = [ 1 2 R n + 1 2 ] &CenterDot; g , &CenterDot; &CenterDot; &CenterDot; ( 33 )
这里标准化的交叉相关数由
R n = &Sigma; n = 0 N - 1 t ( n ) &CenterDot; ( v p ( n ) * h ( n ) ) [ &Sigma; n = 0 N - 1 t ( n ) 2 ] &CenterDot; [ &Sigma; n = 0 N - 1 v p ( n ) * h ( n ) ) 2 ] &CenterDot; &CenterDot; &CenterDot; ( 34 )
给出。这加权先于固定码本搜寻不强调来自自适应码本的音调基值,在目标信号中留下更多的音调信息用作固定码本搜寻。
来自语音编码器的基于帧的处理部分的非量化的音调增益286提供给一n维预矢量量化器580。如果,例如,每一帧被分为三子帧,该n维矢量量化器580便是将有矢量量化调增益582输出给乘法器592的三维的矢量量化器。乘法器592将自适应码本增益矢量588和量化的音调增益矢量582相乘并将一结果584送到合成滤波器600。合成滤波器600也接收来自LSF量化器267的量化的LPC系数Aq(z)268并将它的输出586送到感性加权滤波器602。合成滤波器600和感性加权滤波器602一起产生一再合成的语音信号587,该信号由减法器604从修正的加权语音信号258中减去。然后微分信号589被送到另一减法器614。
固定码本292将固定码本增益矢量590送到乘法器594。乘法器594将固定码本增益矢量590和计算好的固定码本增益矢量gc k相乘。乘得的信号595被送到合成滤波器610。合成滤波器610也接收量化的LPC系数Aq(z)268并将它的输出596送到感性加权滤波器612。合成滤波器610和感性加权滤波器612共同产生再合成语音信号597,该信号被减法器614从微分信号589中减去以产生另一微分信号599。微分信号589代表量化自适应码本增益中的误差。微分信号599表示量化固定码本增益中的误差。微分信号599被最小化器620接收,然后最小化器620控制来自固定码本292中的激励矢量的选择以便减小该误差。最小化器也接收来自语音编码器的基于帧的处理部分的控制信息280,即,帧的分类数。更特别地,在这一作为例子的实施例中,固定码本有三个分脉冲码本:一个2-脉冲码本,一个3-脉冲码本和一个6-脉冲码本。用去除的零响应从加权的预处理语音258计算用于固定码本292的最初目标,即,根据
      t′(n)=t(n)-gp·(vp(n)*h(n))                     (35)
用于自适应码本290,和最佳自适应码本激励和增益的目标。
最终的固定码本激励的选择包括根据分类280比较施加适当的加权后出自固定码本292中的每一分码本的最好侯选者的加权均方根误差599。最终的固定码本激励表示为
Figure C0180908500461
或vc(n)。
固定码本增益矢量选择过程重复直到最小化器620从固定码本292中为每一帧选择了最好的激励矢量,该帧将再合成语音信号597中的误差最小化。从固定码本292选择了最好的激励矢量后,已选择的自适应码本增益矢量588和已选择的固定码本增益矢量590和修正的加权语音信号258一起送到缓冲器642。
在方式1中,帧被分为n个子帧,这里在这一特殊的作为例子的实施例中,n是3。在框575中进行的处理基于一子帧实现。框575外的剩余功能基于帧实现。由于将子帧和基于帧的处理混合,直到其它功能结束一定的功能才能完成。因此,用于n(例如,3)子帧的一定的参数必须储存在子帧和基于帧的处理边界的缓冲器642中。缓冲的参数可能包括,例如,预量化的调增益,量化的自适应和固定码本矢量,目标矢量和其它参数。然后已缓冲的信息被送到减法器644。
乘法器将n个自适应码本增益矢量660和n个音调增益矢量662相乘以产生相乘的信号666。然后相乘的信号666被送到加法器670。n维矢量量化增益码本680提供将被乘法器684和固定码本增益矢量672相乘的量化的固定码本增益矢量。乘法器668被送到加法器670。加法器670将自适应信号669送到合成滤波器690。合成滤波器690接收量化的LPC系数Aq(z)268。合成滤波器690和感性加权滤波器694共同作用以产生有再合成的语音信号696。再合成语音信号696被加法器644从修正的加权语音信号258中减去。表示将固定码本增益量化过程中误差的微分信号698被送到最小化器678。最小化器678从n维矢量量化器680中选择另一固定码本增益矢量以便将这一误差最小化。
特别是,在这一作为例子的实施例中,在调预处理中得到的三个音调增益被一四比特三维矢量量化器根据下式预矢量量化
{ g ^ p 1 , g ^ p 2 g ^ p 3 } = arg
min { [ &Sigma; l = 1 3 g p 1 - g ^ p 2 ] 2 } &CenterDot; { g ^ p 1 , g ^ p 2 , g ^ p 3 } &Element; { { g ^ p l , 1 , g ^ p l , 2 , g ^ p l , 3 } l = 0,1,2 &CenterDot; &CenterDot; &CenterDot; 15 } &CenterDot; &CenterDot; &CenterDot; ( 36 )
这一音调增益的预矢量量化在环路子帧处理开始之前进行。方式1的子帧处理和非量化固定码本增益一起进行。激励增益矢量588和590和目标信号在子帧处理期间被缓冲在缓冲器642中并被用于和一个八比特矢量量化器680一起进行这三个固定码本增益延迟的共同量化。用于每一子帧的最好的码本增益矢量
Figure C0180908500481
被保留在缓冲器642中。
为了完全使语音编码和译码同步以及正确地更新滤波器600,610的滤波记忆,一旦被延迟三个固定码本增益的矢量量化完成对所有子帧的合成被完全量化参数所重复。
为了将
E = &Sigma; n = 0 L 1 = 1 ( t 1 ( n ) - ( g ^ p 1 v p 1 ( n ) * h ( n ) + g ^ c 1 v c 1 ( n ) * h ( n ) ) 2
+ &Sigma; n = 0 L 2 = 1 ( t 2 ( n ) - ( g ^ p 2 v p 2 ( n ) * h ( n ) + g ^ c 2 v c 2 ( n ) * h ( n ) ) 2 &CenterDot; &CenterDot; &CenterDot; ( 37 )
+ &Sigma; n = 0 L 3 = 1 ( t 3 ( n ) - g p 3 v p 3 ( n ) * h ( n ) + g ^ c 3 v c 3 ( n ) * h ( n ) ) 2
最小化,搜寻n维码本680(这里,n=3),这里L1,L2和L3是方式1中每一子帧的长度。量化的音调增益
Figure C0180908500485
源自初始的基于帧的处理,{t1(n),t2(n),t3(n)},{va 1(n),va 2(n),va 3(n)),和{vc 1(n),vc 2(n),vc 3(n))在子帧处理期间被缓冲,这里上标表示第一,第二和第三子帧(不是指数)。
最好的固定码本增益
Figure C0180908500486
选自八比特码本680,在此,码本的入***有一用于预测固定码本增益的三维的校正因数。固定码本增益的预测基于固定码本能量的移动平均预测。
校正因数γk j和量化固定码本增益之间的关系由
g ^ c j = k j &CenterDot; g ~ c j &CenterDot; &CenterDot; &CenterDot; ( 38 )
给出,这里 是量化的固定码本增益, 是帧k的第j个子帧的预测固定码本增益。
预测固定码本增益基于由
g ~ c j = 10 1 20 ( E &OverBar; k j + E c j - E &OverBar; ) &CenterDot; &CenterDot; &CenterDot; ( 39 )
给出的固定码本能量移动平均预测,这里 E=34dB是平均能量,
E c j = 10 log 10 [ 1 N &Sigma; n = 0 N - 1 v c j ( n ) 2 ] , &CenterDot; &CenterDot; &CenterDot; ( 40 )
E ~ k j = &Sigma; i = j 3 b j &CenterDot; ( 20 log 101 / k - 1 ) k &CenterDot; &CenterDot; &CenterDot; ( 41 )
用于移动平均预测的预测系数是{b1,b2,b3}={0.6,0.3,0.1}。来自更远的上一步的能量预测有较大的泄露以便适应和该预测相联系的较大的不稳定性。这用于由于共同量化尚未得到最近的记载的第二和第三子帧,预测的其它类型是可能的,它们对每一子帧可以使用不同的预测系数。
并在固定码本中的激励矢量搜寻的特征是已选择的固定码本激励矢量被滤波穿过自适应预滤波器P(z),它提高了谐分量以便改善再构语音的质量。滤波器,例如,可以进行下面的功能:
P ( z ) = 1 / ( 1 - &beta; z - T ) &CenterDot; &CenterDot; &CenterDot; ( 42 )
这里T是当前子帧的音调延迟的整数分量,β是依赖于该帧在方式0中处理还是在方式1中处理的音调增益。在方式0中,β是来自原先子帧的量化的音调增益,因为尚未得到用于当前子帧的量化的音调增益,使用来自原先子帧的量化的音调增益去搜寻该固定码本找到用于当前子帧的固定码本激励矢量。在方式1中,β是用于当前子帧的量化的音调增益,因为从先于闭环子帧处理的预矢量量化可得到量化的音调增益,使用用于当前子帧的量化的音调增益去搜寻固定码本找到用于当前子帧的固定码本激励矢量。
这样,概括起来,在使用音调预测模拟语音信号的一定部分的周期性信息过程中,使用一自适应码本。这里得到音调增益Gp。使用音调预测模拟周期性的信息后,第二剩余信号保留下来。
然后用固定码本对第二剩余信号矢量量化。此矢量被该固定码本增益Gc定标。自适应码本增益Gp和固定码本增益Gc通常基于子帧得到。在图8所示的例子中,一帧分为四个子帧。每一子帧有和它相联系的一自适应码本增益Gp和一固定码本增益Gc。例如,如图8所示,第一子帧和自适应码本增益Gp1和一固定码本增益Gc1相关;第二子帧和自适应码本增益Gp2和一固定码本增益Gc2相联系;第三子帧和自适应码本增益Gp3和一固定码本增益Gc3相联系;第四子帧和自适应码本增益Gp4和一固定码本增益Gc4相联系;在这一点上,第一现有技术方法通过使用标量量化可以分别将自适应码本增益Gp和固定码本增益Gc量化。因为标量量化不比矢量量化有效,所以,有更好的现有技术将使用Gp和Gc增益值的闭环矢量量化。在第二现有技术方法中,使用Gp和Gc码本,诸如示于图9中的码本,以提供Gp和Gc结合的矢量量化。
然而,根据本发明构建的语音编码器,引入将自适应码本增益Gp和固定码本增益Gc量化的第三方法。第一,引入两个工作方式:方式0和方式1。第二,根据语音是否是“周期性的”来分析和分类语音的每一帧。如果该帧含有“周期性的”语音,在闭环子帧处理开始之前,从初始的未量化的加权语音信号得到音调增益。这一改善的增益量化方法在进行确定固定码本增益和激励矢量的子帧处理之前,进行该帧中所有子帧的自适应码本增益GP’S(例如,GP1,GP2,GP3,GP4)的预矢量量化。当语音是周期性的,这一改善的增益量化方法能有很少的比特将增益参数量化而不遭受话音质量的大的降低。如果语音不是周期性的,有时通过普通的技术人员熟知的方法可以修改该语音以表现出好象是周期性的。
自适应码本增益GP’S的预矢量量化试图找到非量化自适应码本增益GP’S和码本矢量之间的最接近的匹配。既然自适应码本增益GP’S已被量化,现在我们讨论固定码本增益GC’s
如果当前帧的语音信号是周期性的,实践本发明的改进的增益量化方法进行固定码本增益Gc’s的闭环,延迟判定矢量量化。这一过程发生在子帧处理完成之后。注意到这一矢量量化不必在传统的规定码本增益Gc’s下进行,因为它可以进行在预测的GC’S,变换的GC’S,和其它GC’S变化和修改下。如上说关于自适应码本增益GP’S,如果语音是非周期性的,有时可以修改该语音以表现出它好象是周期性的,这可导致转化了的GC’S和转化的GP’s。类似地,GC’S和/或GP’s。可以是预测的值。另外,熟练的普通技术人员也能意识到将语音转换成周期性的并预测GC,S和/或GP’s。的方法。如上所述,固定码本增益GC’S的矢量量化的“延迟判定”本质上意味着每一Gc分别并连续地得到然后使用它们以形成被量化的矢量。因为在GC’S的矢量量化前该过程必须等待以得到一帧中所有的GC’S该判定被延迟。这样,改进的增益量化方法进行自适应码本增益GP’S的预矢量量化,但在用于周期语音的延迟判定,闭环方式中进行固定码本增益GC’S的矢量量化。
进行GP’S和GC’S的联合矢量量化的第一现有技术方法是从该帧中的每一Gp/Gc矢量对中产生一矢量(例如,(Gp1/Gc1),(Gp2/Gc2),(Gp3,/Gc3),(Gp4/Gc4)用于具有四个子帧的一帧)然后使用码本,不用矢量判定对每一矢量量化。这第一现有技术方法可以再生高质量的语音,但只在高比特率下。
第二现有技术方法和延迟判定方法一起联合对该帧中的所有的GP’S和GP’C量化(例如,Gp1,Gp2,Gp3,Gp4,Gc1,Gc2,Gc3,Gc4)对于具有四子帧的一帧)。第二现有技术方法导致低质量的语音再生。
改进的增益量化方法进行下面的两个增益量化:(1)如果语音是周期性的,在闭环子帧处理前对该帧的每一子帧进行Gp的矢量量化;(2)进行Gc的闭环延迟判定矢量量化。如普通的技术人员所知的那样,闭环矢量量化在矢量码本中没找到最好的匹配,但找到语音的最好的匹配。在该改进的增益量化方法中,只在固定码本GC’S中进行矢量量化延迟判定性质并增加压缩而不损失语音质量。这样,改进的语音编码器甚至以低的比特率再生高质量的语音。自适应码本增益GP’S的矢量量化不要求它在闭环方式下进行。因为改进的方法进行自适应码本增益GP’S的预矢量量化,所以GP’S的量化更稳定。
改进的语音编码器具有许多其它优点。例如,该改进的语音编码器在获得固定码本增益GC(它在闭环子帧处理期间获得)前能获得量化自适应码本增益Gp’s对于一帧中的所有子帧;而上述第二现有技术方法直到编码器处理该帧的最后一帧后才得到量化的Gp和Gc。结果,因为该改进的语音编码器在开始子帧处理前获得了量化的Gp,Gp的值不影响搜寻最好的固定码本增益。在第二现有技术方法中,Gp值的任何误差也影响固定码本处理。而且,因为在使用该自适应码本前获得量化的Gp,Gp值的任何误差可以被固定码本处理纠正。换句话说,对该固定码本的搜寻将考虑到Gp的优先量化和对Gp值的任何误差的纠正。现有技术方法不能做到这点。
虽然改进的语音编码器只对周期语音运行方式1,但周期语音包含通常语音的大约60-70%。所以,改进的语音编码器的方式1将对用于增益量化的比特的减少有巨大的影响。理论上,该改进的语音编码器能提供比特减少的大的改进。例如,假定80比特大小的一帧有四子帧并有4千比特的数据通道,现有技术方法要求每帧四子帧,每一子帧7比特,总共28比特,以表示增益信息。相反,该改进的语音编码器可以能用大约14比特,如图10所示的50%改进,表示同样的信息。
在这一特殊的实施例中,将每帧80比特从编码器传到译码器。译码器将这80比特映射回编码器的参数。来自这些参数的语音的合成是直接的并类似于G.729的合成。后置滤波器基本上和G729相同并有长期的(音调)和短期的(LPC)后处理。
图11所示为相应于改进的语音编码器的语音译码器的框图。该语音译码器进行比特流的相反的映射给一方式依赖合成紧随其后的算法参数。自适应码本290接收音调轨迹信息284(它是译码器从编码器中被送到穿过信息通道的信息再生的)。依赖方式282,自适应码本290将量化的自适应码本矢量 vp902提供给乘法器904。乘法器904将量化的自适应码本矢量 vp902和音调增益矢量910相乘。音调增益矢量910的选择依赖于方式282。如果方式是0,二维矢量量化器码本460将音调增益矢量910提供给乘法器904。码本460是二维的因为它提供音调增益矢量910给乘法器904以及一固定码本增益矢量924给乘法器922。依赖方式282,固定码本292提供一量化的固定码本矢量 vc920给乘法器922。乘法器922将量化的固定码本矢量 vc920和量化的固定码本增益矢量924相乘。如果方式是1,n维矢量量化器增益码本580(这里n是每帧的子帧数)将音调增益矢量910提供给乘法器904。同样,n维矢量量化器增益码本680(这里n是每帧的子帧数)将增益矢量924提供给乘法器922。乘法器904将它乘得的信号906送给加法器930,在此处乘得的信号906被加到来自乘法器922的乘得的信号926。乘得的信号932被送到也接收量化的LPC系数Aq(z)268的(译码器得自由语音编码器跨过信息通道送给它的信息)合成滤波器940和后处理器944一起从加得的信号932产生一再构的语音信号950。
如上所述,音调增益可得自初始的未量化的加权语音信号。然而,在闭环子帧处理之前,音调增益也可得自未量化的LPC剩余信号,初始未量化的语音信号,或未量化修正的语音信号。图12a所示为第一可选择的实施例的框图,该实施例根据信号是周期性的还是非周期性的(或类周期对非类周期)应用两个增益量化处理方法。该新的增益量化处理只被用于示于图12a框951中的周期性信号,传统的增益量化处理被用于示于图12a框953中的非周期信号。例如,如果传统的增益量化处理被用到具有四子帧的帧,28比特可以分配用作增益量化。对周期信号的新的增益量化处理可以,例如,只要求16比特被分配。这样,在这一例子中,新的量化增益方案为周期信号的一帧节省12比特,比特可用于其它目的如果期望的话。
下面参考上面的说明讨论第二可选的实施例。来看图12b,只被用于周期性信号的新的增益量化过程(框951)也可以扩充到非周期信号。这第二实施方案产生比用于使用新量化方案的周期信号的实施方案稍高的比特率,但是它仍比现有技术的比特率低。和周期性信号相比,使第二方案中的比特率的增加的目的是更好地应对非周期信号增益参数的可变性。用于第一实施例的上面描述的同样的增益量化过程951可以用于第二实施例中的非周期性信号,除非分配更多的比特用以表示非周期性信号的增益量化。例如,如果每一子帧有四个子帧,用于周期信号的新的增益量化处理可以需要仅16比特而用于非周期信号的同样的方法可以需要仅22比特。这样,在本例子中,新的增益量化方案在一帧内为周期信号节省12比特为非周期性信号节省6比特。
参考上面的说明下面讨论第三可选择的实施例。来看图12c,对新的增益量化过程951可以用于所有的语音信号的增益量化过程,周期性信号和非周期性信号的区别可以被消除。这里,描述的用作图2b的第二实施例中的非周期信号的新的增益量化过程951可以用作包括周期信号的所有的信号。然而,可以分配更多比特以表示这些信号的增益量化。例如,如果每一帧有四子帧,新的增益量化方案可需要仅22比特,每帧节省12比特。
虽然已经示出并描述了本发明的实施例和实现方法,但更多的实施例和实现方法在本发明的范围内应当是明显的。因此,除非考虑到权利要求及其它们的同等东西,本发明不受限制。

Claims (75)

1、一接收语音信号的语音编码***,该语音编码***包括:
(a)一个处理该语音信号的一帧的帧处理器,包括:
一个得自未量化音调增益的音调增益发生器;一个接收未量化的音调增益并产生量化的音调增益的第一矢量量化器;
(b)一个在音调增益发生器已得到该未量化的音调增益并且第一矢量量化器已产生了量化的音调增益之后开始子帧处理的子帧处理器,该子帧处理器包括一产生未量化固定码本增益的闭环路发生器。
(c)一个在子帧处理器的子帧处理后的一延迟判定闭环路中,接收未量化的固定码本增益并产生量化的固定码本增益的第二矢量量化器。
(d)一个确定语音信号是否是周期性的周期信号检测器,其中,如果语音信号是周期性的,在音调增益发生器已经得到未量化的音调增益和第一矢量量化器产生了量化的音调增益后,音调增益发生器得到未量化的音调增益并且子帧处理器开始子帧处理。
2、如权利要求1所述的语音编码***,其特征在于,不管语音信号是周期性的还是不是周期性的,在音调增益发生器已经得到未量化的音调增益并且第一矢量量化器产生了量化的音调增益后,音调增益发生器得到未量化的音调增益并且子帧处理器开始子帧处理。
3、如权利要求1所述的语音编码***,其特征在于,对于所有的语音信号,在音调增益发生器已经得到未量化的音调增益并且第一矢量量化器产生了量化的音调增益后,音调增益发生器得到未量化的音调增益并且子帧处理器开始子帧处理。
4、如权利要求1所述的语音编码***,进一步包括将语音信号修改为未量化的加权语音信号或未量化的线性预测编码剩余语音信号的滤波器。
5、如权利要求1所述的语音编码***,其特征在于,语音信号是未量化的初始语音信号。
6、如权利要求1所述的语音编码***,其特征在于,语音信号是未量化的修改的语音信号。
7、如权利要求1所述的语音编码***,进一步包括:
一个第一码本,产生一自适应码本激励矢量;
一个第一乘法器,将该自适应码本激励矢量和量化了的音调增益相乘以产生一刻度自适应码本增益矢量。
一个第二码本,产生固定码本激励矢量;
一个第二乘法器,将该固定码本激励矢量和固定码本增益相乘以产生一刻度固定码本增益矢量。
一个加法器,将该刻度自适应码本增益矢量和刻度固定码本增益矢量相加。
8、如权利要求1所述的语音编码***,其特征在于,第一矢量量化器在闭环路发生器产生未量化的固定码本增益前进行自适应码本增益的矢量量化。
9、如权利要求1所述的语音编码***,其特征在于,第二矢量量化器在延迟判定,闭环路中进行固定码本增益的矢量量化。
10、如权利要求1所述的语音编码***,还包括第三矢量量化器,在闭环中进行自适应码本增益和固定码本增益的联合量化。
11、如权利要求7所述的语音编码***,其特征在于,闭环路发生器产生未量化的固定码本增益之前,第一矢量量化器进行自适应码本增益的矢量量化。
12、如权利要求7所述的语音编码***,其特征在于,第二矢量量化器在延迟判定,闭环路中进行固定码本增益的矢量量化。
13、如权利要求8所述的语音编码***,进一步包括第三矢量量化器,它在闭环路中进行自适应码本增益和固定码本增益的联合矢量量化。
14、如权利要求7所述的语音编码***,其特征在于,帧包括一当前帧,并且每一帧含有多个子帧,每个子帧包括一个当前子帧和前一子帧,第二码本对当前子帧使用量化了的音调增益为当前的子帧产生固定码本激励矢量。
15、如权利要求1所述的语音编码***,进一步包括一滤波器,它将语音信号修改为未量化的加权语音信号或未量化的线性预测编码剩余语音信号。
16、如权利要求1所述的语音编码***,其特征在于,语音信号是未量化的初始语音信号。
17、如权利要求1所述的语音编码***,其特征在于,语音信号是未量化的修改了的语音信号。
18、如权利要求1所述的语音编码***,进一步包括:
一个第一码本,产生自适应码本激励矢量;
一个第一乘法器,将自适应码本激励矢量和量化音调增益相成以产生刻度自适应码本增益矢量;
一个第二码本,产生一固定码本激励矢量;
一个第二乘法器,将固定码本激励矢量和固定码本增益相乘以产生刻度固定码本增益矢量;
一个加法器,将刻度自适应码本增益矢量和刻度固定码本增益矢量相加。
19、如权利要求1所述的语音编码***,其特征在于,如果语音信号是周期性的,第一矢量量化器在闭环路发生器产生未量化的固定码
本增益前进行自适应码本增益的矢量量化。
20、如权利要求1所述的语音编码***,其特征在于,如果语音信号是周期性的,第二矢量量化器在延迟判定,闭环路中进行固定码本增益的矢量量化。
21、如权利要求1所述的语音编码***,其特征在于,进一步包括第三矢量量化器,如果语音信号不是周期性的,在闭环路中进行自适应码本增益和固定码本增益的联合矢量量化。
22、如权利要求18所述的语音编码***,其特征在于,如果语音信号是周期性的,第一矢量量化器在闭环路发生器产生未量化的固定码本增益之前进行自适应码本增益的矢量量化。
23、如权利要求18所述的语音编码***,其特征在于,如果语音信号是周期性的,第二矢量量化器在延迟判定,闭环路中进行固定码本增益的矢量量化。
24、如权利要求19所述的语音编码***,进一步包括第三矢量量化器,如果语音信号不是周期性的,在闭环路中进行自适应码本增益和固定码本增益的联合矢量量化。
25、如权利要求18所述的语音编码***,其特征在于,帧包括一当前帧并且每一帧含有多个子帧,每个子帧包括一当前子帧和前一子帧,第二码本对当前子帧使用量化了的音调增益为当前的子帧产生固定码本激励矢量。
26、如权利要求2所述的语音编码***,进一步包括一滤波器,将语音信号修改为未量化的加权语音信号或未量化的线性预测编码
剩余语音信号。
27、如权利要求2所述的语音编码***,其特征在于,语音信号是未量化的初始语音信号。
28、如权利要求2所述的语音编码***,其特征在于,语音信号是未量化的修改的语音信号。
29、如权利要求2所述的语音编码***,进一步包括:
一个第一码本,产生自适应码本激励矢量;
一个第一乘法器,将自适应码本激励矢量和量化了的音调增益相乘以产生刻度自适应码本增益矢量;
一个第二码本,产生固定码本激励矢量;
一个第二乘法器,将固定码本激励矢量和固定码本增益相乘以产生刻度固定码本增益矢量;
一个加法器,将刻度自适应码本增益矢量和刻度固定码本增益矢量相加。
30、如权利要求2所述的语音编码***,其特征在于,第一矢量量化器在闭环路发生器产生未量化的固定码本增益之前进行自适应码本增益的矢量量化。
31、如权利要求2所述的语音编码***,其特征在于,第二矢量量化器在延迟判定,闭环路中进行固定码本增益的矢量量化。
32、如权利要求30所述的语音编码***,其特征在于,语音信号是周期性的或非周期性的信号。
33、如权利要求31所述的语音编码***,其特征在于,语音信号
是周期性的或非周期性的信号。
34、如权利要求29所述的语音编码***,其特征在于,第一矢量量化器在闭环发生器产生未量化的固定码本增益之前进行自适应码本增益的矢量量化。
35、如权利要求29所述的语音编码***,其特征在于,第二矢量量化器在延迟判定,闭环路中进行固定码本增益的矢量量化。
36、如权利要求29所述的语音编码***,其特征在于,帧包括一当前帧并且每一帧含有多个子帧,每个子帧包括一当前子帧和前一子帧,第二码本对当前子帧使用量化了的音调增益为当前的子帧产生固定码本激励矢量。
37、如权利要求3所述的语音编码***,其特征在于,语音信号是未量化的初始语音信号。
38、如权利要求3所述的语音编码***,其特征在于,语音信号是未量化的修改的语音信号。
39、如权利要求3所述的语音编码***,进一步包括:
一个第一码本,产生自适应码本激励矢量;
一个第一乘法器,将自适应码本激励矢量和量化的音调增益相乘以产生刻度自适应码本增益矢量;
一个第二码本,产生固定码本激励矢量;
一个第二乘法器,将自固定码本激励矢量和固定码本增益相乘以产生刻度固定码本增益矢量;
一个加法器,将刻度自适应码本增益矢量和刻度固定码本增益矢量相加。
40、如权利要求3所述的语音编码***,其特征在于,第一矢量量化器在闭环路发生器产生未量化固定码本增益之前进行自适应码本增益的矢量量化。
41、如权利要求3所述的语音编码***,其特征在于,第二矢量量化器在延迟判定,闭环路中进行固定码本增益的矢量量化。
42、如权利要求40所述的语音编码***,其特征在于,语音信号是周期或非周期信号。
43、如权利要求41所述的语音编码***,其特征在于,语音信号是周期或非周期信号。
44、如权利要求39所述的语音编码***,其特征在于,第一矢量量化器在闭环发生器产生未量化的固定码本增益之前进行自适应码本增益的矢量量化。
45、如权利要求39所述的语音编码***,其特征在于,第二矢量量化器在延迟判定,闭环路中进行固定码本增益的矢量量化。
46、如权利要求39所述的语音编码***,其特征在于,帧包括一当前帧并且每一帧含有多个子帧,每个子帧包括一当前子帧和前一子帧,第二码本对当前子帧使用量化了的音调增益为当前的子帧产生固定码本激励矢量。
47、通信***中对语音编码的方法,该方法包括下面的步骤:
(a)一帧一帧地提供语音信号,这里帧包括一当前帧并且每一帧包括多个子帧,每个子帧含有一当前帧和前一子帧。
(b)确定语音信号的当前帧是否是周期性的;
(c)获得未量化的音调增益;
(d)对音调增益进行矢量量化,以产生量化的音调增益;
(e)如果语音信号的当前帧是周期性的,在步骤(c)和(d)完成之后进行子帧处理,其中子帧处理包括步骤:
(1)在闭环路中产生未量化的固定码本增益;
(2)在子帧处理的末尾对未量化的固定码本增益进行矢量量化,以在延迟判定闭环路中产生量化了的固定码本增益。
48、如权利要求47所述的对语音编码的方法,进一步包括下述步骤:
产生自适应码本激励矢量;
将自适应码本激励矢量和量化的音调增益相乘以产生刻度自适应码本增益矢量;
产生固定码本激励矢量;
将固定码本激励矢量和固定码本增益相乘以产生刻度固定码本增益矢量;
将刻度自适应码本增益矢量和刻度固定码本增益矢量相加。
49、如权利要求48所述的对语音编码的方法,其特征在于,产生一固定码本激励矢量的步骤包括:对当前子帧使用量化了的音调增益,
为当前子帧获得固定码本激励矢量。
50、如权利要求48所述的对语音编码的方法,其特征在于,如果语音信号不是周期性信号,步骤(c)和(d)已经完成之后进行子帧处理的步骤包括:
(1)在闭环路中产生未量化的固定码本增益;
(2)在该子帧处理的末尾对未量化的固定码本增益进行矢量量化,以在延迟判定闭环路中产生量化了的固定码本增益。
51、通信***中对语音编码的方法,该方法包括下述步骤:
(a)一帧一帧地提供语音信号,这里帧包括一当前帧并且每一帧含有包括多个子帧,每个子帧包括一个当前子帧和前一子帧;
(b)获得未量化的音调增益;
(c)对未量化的音调增益进行矢量量化,以产生量化的音调增益;
(d)步骤(b)和(c)完成后进行子帧处理,其中子帧处理包括下述步骤:
(1)在一闭环中产生一未量化的固定码本增益;
(2)在子帧处理的末尾对未量化的音调增益进行矢量量化,以在一延迟判定闭环路中产生量化的固定码本增益。
52、如权利要求51所述的对语音编码的方法,进一步包括下述步骤:
产生一自适应码本激励矢量;
将自适应码本激励矢量和量化了的音调增益相乘以产生一刻度自适应码本增益矢量;
产生一固定码本激励矢量;
将固定码本激励矢量和固定码本增益相乘,以产生一刻度固定码本增益矢量;
将刻度自适应码本增益矢量和刻度固定码本增益矢量相加。
53、如权利要求52所述的对语音编码的方法,其特征在于,产生固定码本激励矢量的步骤包括对当前子帧使用量化的音调增益以获得固定码本激励矢量用于当前子帧。
54、如权利要求51所述的对语音编码的方法,其特征在于,语音信号是周期性信号。
55、如权利要求51所述的对语音编码的方法,其特征在于,语音信号是非周期信号。
56、一种语音编码***,接收包括具有多个子帧的一个帧的语音信号,所述语音编码***包括:
一个音调增益发生器,得自该帧的每个子帧的未量化音调增益;
一个接收未量化的音调增益并产生量化的音调增益的第一矢量量化器;
一个在音调增益发生器已得到该未量化的音调增益并且第一矢量量化器已产生了量化的音调增益之后开始子帧处理的子帧处理器,该子帧处理器包括一产生未量化固定码本增益的闭环路发生器;
一个接收未量化的固定码本增益并产生量化固定码本增益的第二矢量量化器。
57、权利要求56所述的语音编码***还包括一个确定语音信号是否是周期性的周期信号检测器。
58、如权利要求57所述的语音编码***,其特征在于,如果语音信号是周期性的,在音调增益发生器已经得到未量化的音调增益和第一矢量量化器产生了量化的音调增益后,音调增益发生器得到未量化的音调增益并且子帧处理器开始子帧处理。
59、如权利要求56所述的语音编码***,其特征在于,在音调增益发生器已经得到未量化的音调增益并且第一矢量量化器产生了量化的音调增益后,音调增益发生器得到未量化的音调增益并且子帧处理器开始子帧处理。
60、如权利要求56所述的语音编码***,其特征在于,在子帧处理器进行子帧处理后,在一延迟判断闭环路中,第二矢量量化器产生量化的固定码本增益。
61、一接收语音信号的语音编码***,该语音编码***包括:
(a)一个处理该语音信号的一帧的帧处理器,包括:
一个得自未量化音调增益的音调增益发生器;一个接收未量化的音调增益并产生量化的音调增益的第一矢量量化器;
(b)一个在音调增益发生器已得到该未量化的音调增益并且第一矢量量化器已产生了量化的音调增益之后开始子帧处理的子帧处理器,该子帧处理器包括一产生未量化固定码本增益的闭环路发生器。
(c)一个在子帧处理器的子帧处理后的一延迟判定闭环路中,接收未量化的固定码本增益并产生量化的固定码本增益的第二矢量量化器。
其中,對于所有的语音信号,在音调增益发生器已经得到未量化的音调增益和第一矢量量化器产生了量化的音调增益后,音调增益发生器得到未量化的音调增益并且子帧处理器开始子帧处理。
62、如权利要求61所述的语音编码***,其特征在于,语音信号是未量化的初始语音信号。
63、如权利要求61所述的语音编码***,其特征在于,语音信号是未量化的修改的语音信号。
64、如权利要求61所述的语音编码***,进一步包括:
一个第一码本,产生一自适应码本激励矢量;
一个第一乘法器,将该自适应码本激励矢量和量化了的音调增益相乘以产生一刻度自适应码本增益矢量。
一个第二码本,产生固定码本激励矢量;
一个第二乘法器,将该固定码本激励矢量和固定码本增益相乘以产生一刻度固定码本增益矢量。
一个加法器,将该刻度自适应码本增益矢量和刻度固定码本增益矢量相加。
65、如权利要求61所述的语音编码***,其特征在于,第一矢量量化器在闭环路发生器产生未量化的固定码本增益前进行自适应码本增益的矢量量化。
66、如权利要求61所述的语音编码***,其特征在于,第二矢量量化器在延迟判定,闭环路中进行固定码本增益的矢量量化。
67、如权利要求66所述的语音编码***,其特征在于,语音信号是周期性的或非周期性的信号。
68、如权利要求66所述的语音编码***,其特征在于,语音信号是周期性的或非周期性的信号。
69、如权利要求64所述的语音编码***,其特征在于,第一矢量量化器在闭环发生器产生未量化的固定码本增益之前进行自适应码本增益的矢量量化。
70、如权利要求64所述的语音编码***,其特征在于,第二矢量量化器在延迟判定,闭环路中进行固定码本增益的矢量量化。
71、如权利要求64所述的语音编码***,其特征在于,帧包括一当前帧并且每一帧含有多个子帧,每个子帧包括一当前子帧和前一子帧,第二码本对当前子帧使用量化了的音调增益为当前的子帧产生固定码本激励矢量。
72、一接收语音信号的语音编码***,该语音编码***包括:
(a)一个处理该语音信号的一帧的帧处理器,包括:
一个得自未量化音调增益的音调增益发生器;一个接收未量化的音调增益并产生量化的音调增益的第一矢量量化器;
(b)一个在音调增益发生器已得到该未量化的音调增益并且第一矢量量化器已产生了量化的音调增益之后开始子帧处理的子帧处理器,该子帧处理器包括一产生未量化固定码本增益的闭环路发生器。
(c)一个在子帧处理器的子帧处理后的一延迟判定闭环路中,接收未量化的固定码本增益并产生量化的固定码本增益的第二矢量量化器。
(d)一个第一码本,产生一自适应码本激励矢量;
(e)一个第一乘法器,将该自适应码本激励矢量和量化了的音调增益相乘以产生一刻度自适应码本增益矢量。
(f)一个第二码本,产生固定码本激励矢量;
(g)一个第二乘法器,将该固定码本激励矢量和固定码本增益相乘以产生一刻度固定码本增益矢量。
(h)一个加法器,将该刻度自适应码本增益矢量和刻度固定码本增益矢量相加。
73、如权利要求72所述的语音编码***,其特征在于,第一矢量量化器在闭环路发生器产生未量化的固定码本增益之前进行自适应码本增益的矢量量化。
74、如权利要求72所述的语音编码***,其特征在于,第二矢量量化器在延迟判定,闭环路中进行固定码本增益的矢量量化。
75、如权利要求72所述的语音编码***,其特征在于,帧包括一当前帧并且每一帧含有多个子帧,每个子帧包括一当前子帧和前一子帧,第二码本对当前子帧使用量化了的音调增益为当前的子帧产生固定码本激励矢量。
CNB018090850A 2000-05-19 2001-04-16 一种码激励线性预测语音编码器的增益量化 Expired - Fee Related CN1252681C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/574,396 US6782360B1 (en) 1999-09-22 2000-05-19 Gain quantization for a CELP speech coder
US09/574,396 2000-05-19

Publications (2)

Publication Number Publication Date
CN1468427A CN1468427A (zh) 2004-01-14
CN1252681C true CN1252681C (zh) 2006-04-19

Family

ID=24295936

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB018090850A Expired - Fee Related CN1252681C (zh) 2000-05-19 2001-04-16 一种码激励线性预测语音编码器的增益量化

Country Status (11)

Country Link
US (4) US6782360B1 (zh)
EP (1) EP1338003B1 (zh)
JP (1) JP2004510174A (zh)
KR (1) KR100546444B1 (zh)
CN (1) CN1252681C (zh)
AT (1) ATE343199T1 (zh)
AU (2) AU2001255422B2 (zh)
BR (1) BR0110831A (zh)
DE (1) DE60123999D1 (zh)
RU (2) RU2262748C2 (zh)
WO (2) WO2001022402A1 (zh)

Families Citing this family (105)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
JP2001175298A (ja) * 1999-12-13 2001-06-29 Fujitsu Ltd 騒音抑圧装置
US7127390B1 (en) * 2000-02-08 2006-10-24 Mindspeed Technologies, Inc. Rate determination coding
DE10124420C1 (de) * 2001-05-18 2002-11-28 Siemens Ag Verfahren zur Codierung und zur Übertragung von Sprachsignalen
US6871176B2 (en) * 2001-07-26 2005-03-22 Freescale Semiconductor, Inc. Phase excited linear prediction encoder
US7302387B2 (en) * 2002-06-04 2007-11-27 Texas Instruments Incorporated Modification of fixed codebook search in G.729 Annex E audio coding
CA2392640A1 (en) 2002-07-05 2004-01-05 Voiceage Corporation A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems
US8090577B2 (en) * 2002-08-08 2012-01-03 Qualcomm Incorported Bandwidth-adaptive quantization
US7657427B2 (en) 2002-10-11 2010-02-02 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
CA2501368C (en) * 2002-10-11 2013-06-25 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
US20040167772A1 (en) * 2003-02-26 2004-08-26 Engin Erzin Speech coding and decoding in a voice communication system
US7231346B2 (en) * 2003-03-26 2007-06-12 Fujitsu Ten Limited Speech section detection apparatus
KR100546758B1 (ko) * 2003-06-30 2006-01-26 한국전자통신연구원 음성의 상호부호화시 전송률 결정 장치 및 방법
KR100668300B1 (ko) * 2003-07-09 2007-01-12 삼성전자주식회사 비트율 확장 음성 부호화 및 복호화 장치와 그 방법
US7792670B2 (en) 2003-12-19 2010-09-07 Motorola, Inc. Method and apparatus for speech coding
US7668712B2 (en) * 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
US20070011009A1 (en) * 2005-07-08 2007-01-11 Nokia Corporation Supporting a concatenative text-to-speech synthesis
US9058812B2 (en) * 2005-07-27 2015-06-16 Google Technology Holdings LLC Method and system for coding an information signal using pitch delay contour adjustment
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
JPWO2008007698A1 (ja) * 2006-07-12 2009-12-10 パナソニック株式会社 消失フレーム補償方法、音声符号化装置、および音声復号装置
US9454974B2 (en) * 2006-07-31 2016-09-27 Qualcomm Incorporated Systems, methods, and apparatus for gain factor limiting
JP5281575B2 (ja) * 2006-09-18 2013-09-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオオブジェクトのエンコード及びデコード
KR101406113B1 (ko) * 2006-10-24 2014-06-11 보이세지 코포레이션 스피치 신호에서 천이 프레임을 코딩하기 위한 방법 및 장치
KR100862662B1 (ko) 2006-11-28 2008-10-10 삼성전자주식회사 프레임 오류 은닉 방법 및 장치, 이를 이용한 오디오 신호복호화 방법 및 장치
CN103383846B (zh) * 2006-12-26 2016-08-10 华为技术有限公司 改进语音丢包修补质量的语音编码方法
US8688437B2 (en) 2006-12-26 2014-04-01 Huawei Technologies Co., Ltd. Packet loss concealment for speech coding
US20080249783A1 (en) * 2007-04-05 2008-10-09 Texas Instruments Incorporated Layered Code-Excited Linear Prediction Speech Encoder and Decoder Having Plural Codebook Contributions in Enhancement Layers Thereof and Methods of Layered CELP Encoding and Decoding
CA2701757C (en) * 2007-10-12 2016-11-22 Panasonic Corporation Vector quantization apparatus, vector dequantization apparatus and the methods
US8527265B2 (en) * 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
CN101335004B (zh) * 2007-11-02 2010-04-21 华为技术有限公司 一种多级量化的方法及装置
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
WO2009090875A1 (ja) * 2008-01-16 2009-07-23 Panasonic Corporation ベクトル量子化装置、ベクトル逆量子化装置、およびこれらの方法
CN101499281B (zh) * 2008-01-31 2011-04-27 华为技术有限公司 一种语音编码中的增益量化方法及装置
PT2301021T (pt) * 2008-07-10 2017-09-22 Voiceage Corp Dispositivo e método para quantizar e quantizar de modo inverso filtros lpc num super-frame
KR101400513B1 (ko) 2008-07-11 2014-05-28 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 시간 워프 활성 신호의 제공 및 이를 이용한 오디오 신호의 인코딩
AU2009267525B2 (en) 2008-07-11 2012-12-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio signal synthesizer and audio signal encoder
PL2346029T3 (pl) 2008-07-11 2013-11-29 Fraunhofer Ges Forschung Koder sygnału audio, sposób kodowania sygnału audio i odpowiadający mu program komputerowy
JP5628163B2 (ja) * 2008-07-11 2014-11-19 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 帯域幅拡張出力データを生成するための装置および方法
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
JP2010079275A (ja) * 2008-08-29 2010-04-08 Sony Corp 周波数帯域拡大装置及び方法、符号化装置及び方法、復号化装置及び方法、並びにプログラム
WO2010028299A1 (en) * 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Noise-feedback for spectral envelope quantization
WO2010028297A1 (en) * 2008-09-06 2010-03-11 GH Innovation, Inc. Selective bandwidth extension
WO2010028292A1 (en) * 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Adaptive frequency prediction
WO2010028301A1 (en) * 2008-09-06 2010-03-11 GH Innovation, Inc. Spectrum harmonic/noise sharpness control
WO2010031003A1 (en) 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
US8577673B2 (en) * 2008-09-15 2013-11-05 Huawei Technologies Co., Ltd. CELP post-processing for music signals
JP2010122617A (ja) 2008-11-21 2010-06-03 Yamaha Corp ノイズゲート、及び収音装置
CN101604525B (zh) * 2008-12-31 2011-04-06 华为技术有限公司 基音增益获取方法、装置及编码器、解码器
GB2466675B (en) 2009-01-06 2013-03-06 Skype Speech coding
GB2466671B (en) 2009-01-06 2013-03-27 Skype Speech encoding
GB2466673B (en) 2009-01-06 2012-11-07 Skype Quantization
GB2466672B (en) 2009-01-06 2013-03-13 Skype Speech coding
GB2466674B (en) 2009-01-06 2013-11-13 Skype Speech coding
EP2234103B1 (en) * 2009-03-26 2011-09-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Device and method for manipulating an audio signal
MY167980A (en) 2009-10-20 2018-10-09 Fraunhofer Ges Forschung Multi- mode audio codec and celp coding adapted therefore
RU2464651C2 (ru) * 2009-12-22 2012-10-20 Общество с ограниченной ответственностью "Спирит Корп" Способ и устройство многоуровневого масштабируемого устойчивого к информационным потерям кодирования речи для сетей с коммутацией пакетов
CN102844810B (zh) 2010-04-14 2017-05-03 沃伊斯亚吉公司 用于在码激励线性预测编码器和解码器中使用的灵活和可缩放的组合式创新代码本
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
RU2562422C2 (ru) 2010-07-02 2015-09-10 Долби Интернешнл Аб Избирательный басовый постфильтр
US9047875B2 (en) 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
US20120029926A1 (en) 2010-07-30 2012-02-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dependent-mode coding of audio signals
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
US9082416B2 (en) * 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag
KR102564590B1 (ko) 2010-09-16 2023-08-09 돌비 인터네셔널 에이비 교차 곱 강화된 서브밴드 블록 기반 고조파 전위
KR20120032444A (ko) 2010-09-28 2012-04-05 한국전자통신연구원 적응 코드북 업데이트를 이용한 오디오 신호 디코딩 방법 및 장치
WO2012044067A1 (ko) * 2010-09-28 2012-04-05 한국전자통신연구원 적응 코드북 업데이트를 이용한 오디오 신호 디코딩 방법 및 장치
US9626982B2 (en) 2011-02-15 2017-04-18 Voiceage Corporation Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a CELP codec
LT2676271T (lt) * 2011-02-15 2020-12-10 Voiceage Evs Llc Prietaisas ir metodas adaptacinio fiksuoto sužadinimo prieaugio kiekiui įvertinti mobiliojo celp kodeke
CN103827965B (zh) * 2011-07-29 2016-05-25 Dts有限责任公司 自适应语音可理解性处理器
IN2014CN02539A (zh) * 2011-10-19 2015-08-07 Koninkl Philips Nv
WO2013062370A1 (ko) * 2011-10-28 2013-05-02 한국전자통신연구원 통신 시스템에서 신호 코덱 장치 및 방법
KR102138320B1 (ko) 2011-10-28 2020-08-11 한국전자통신연구원 통신 시스템에서 신호 코덱 장치 및 방법
CN104254886B (zh) * 2011-12-21 2018-08-14 华为技术有限公司 自适应编码浊音语音的基音周期
CN103187065B (zh) 2011-12-30 2015-12-16 华为技术有限公司 音频数据的处理方法、装置和***
EP2828854B1 (en) 2012-03-23 2016-03-16 Dolby Laboratories Licensing Corporation Hierarchical active voice detection
ES2960582T3 (es) * 2012-03-29 2024-03-05 Ericsson Telefon Ab L M Cuantificador vectorial
EP2682941A1 (de) * 2012-07-02 2014-01-08 Technische Universität Ilmenau Vorrichtung, Verfahren und Computerprogramm für frei wählbare Frequenzverschiebungen in der Subband-Domäne
US9589570B2 (en) * 2012-09-18 2017-03-07 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
ES2720253T3 (es) * 2012-10-01 2019-07-19 Nippon Telegraph & Telephone Método de codificación, codificador, programa, y medio de grabación
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
CN103137135B (zh) * 2013-01-22 2015-05-06 深圳广晟信源技术有限公司 Lpc系数量化方法和装置及多编码核音频编码方法和设备
JP6082126B2 (ja) 2013-01-29 2017-02-15 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 音声信号を合成するための装置及び方法、デコーダ、エンコーダ、システム及びコンピュータプログラム
CN105210364A (zh) * 2013-02-25 2015-12-30 视听公司 在视频回放期间的动态音频空间感改变
KR102148407B1 (ko) * 2013-02-27 2020-08-27 한국전자통신연구원 소스 필터를 이용한 주파수 스펙트럼 처리 장치 및 방법
US9769586B2 (en) 2013-05-29 2017-09-19 Qualcomm Incorporated Performing order reduction with respect to higher order ambisonic coefficients
PT3011555T (pt) 2013-06-21 2018-07-04 Fraunhofer Ges Forschung Reconstrução de uma estrutura de discurso
EP4375993A2 (en) * 2013-06-21 2024-05-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for improved concealment of the adaptive codebook in acelp-like concealment employing improved pitch lag estimation
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
WO2015025454A1 (ja) * 2013-08-22 2015-02-26 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声符号化装置およびその方法
CN104637486B (zh) * 2013-11-07 2017-12-29 华为技术有限公司 一种数据帧的内插方法及装置
US9489955B2 (en) * 2014-01-30 2016-11-08 Qualcomm Incorporated Indicating frame parameter reusability for coding vectors
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9626983B2 (en) * 2014-06-26 2017-04-18 Qualcomm Incorporated Temporal gain adjustment based on high-band signal characteristic
CN106486129B (zh) * 2014-06-27 2019-10-25 华为技术有限公司 一种音频编码方法和装置
FR3024581A1 (fr) * 2014-07-29 2016-02-05 Orange Determination d'un budget de codage d'une trame de transition lpd/fd
CN106797512B (zh) 2014-08-28 2019-10-25 美商楼氏电子有限公司 多源噪声抑制的方法、***和非瞬时计算机可读存储介质
WO2016142002A1 (en) * 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
WO2016162283A1 (en) * 2015-04-07 2016-10-13 Dolby International Ab Audio coding with range extension
KR102169435B1 (ko) 2016-03-21 2020-10-23 후아웨이 테크놀러지 컴퍼니 리미티드 가중된 행렬 계수의 적응형 양자화
KR20200055726A (ko) 2017-09-20 2020-05-21 보이세지 코포레이션 씨이엘피 코덱에 있어서 비트-예산을 효율적으로 분배하는 방법 및 디바이스
CN114650103B (zh) * 2020-12-21 2023-09-08 航天科工惯性技术有限公司 一种泥浆脉冲数据传输方法、装置、设备及存储介质

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4720861A (en) * 1985-12-24 1988-01-19 Itt Defense Communications A Division Of Itt Corporation Digital speech coding circuit
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
US5307441A (en) * 1989-11-29 1994-04-26 Comsat Corporation Wear-toll quality 4.8 kbps speech codec
US5293449A (en) * 1990-11-23 1994-03-08 Comsat Corporation Analysis-by-synthesis 2,4 kbps linear predictive speech codec
CA2483322C (en) 1991-06-11 2008-09-23 Qualcomm Incorporated Error masking in a variable rate vocoder
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
US5495555A (en) * 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5745523A (en) * 1992-10-27 1998-04-28 Ericsson Inc. Multi-mode signal processing
JP2746039B2 (ja) 1993-01-22 1998-04-28 日本電気株式会社 音声符号化方式
IT1270438B (it) * 1993-06-10 1997-05-05 Sip Procedimento e dispositivo per la determinazione del periodo del tono fondamentale e la classificazione del segnale vocale in codificatori numerici della voce
EP0699334B1 (en) 1994-02-17 2002-02-20 Motorola, Inc. Method and apparatus for group encoding signals
TW271524B (zh) * 1994-08-05 1996-03-01 Qualcomm Inc
US5751903A (en) * 1994-12-19 1998-05-12 Hughes Electronics Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset
US5701390A (en) 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
US5664055A (en) * 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
US5732389A (en) * 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
JP3616432B2 (ja) * 1995-07-27 2005-02-02 日本電気株式会社 音声符号化装置
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
EP0763818B1 (en) * 1995-09-14 2003-05-14 Kabushiki Kaisha Toshiba Formant emphasis method and formant emphasis filter device
US5864798A (en) * 1995-09-18 1999-01-26 Kabushiki Kaisha Toshiba Method and apparatus for adjusting a spectrum shape of a speech signal
CA2185745C (en) * 1995-09-19 2001-02-13 Juin-Hwey Chen Synthesis of speech signals in the absence of coded parameters
JP3196595B2 (ja) * 1995-09-27 2001-08-06 日本電気株式会社 音声符号化装置
US6014622A (en) * 1996-09-26 2000-01-11 Rockwell Semiconductor Systems, Inc. Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization
FI113903B (fi) * 1997-05-07 2004-06-30 Nokia Corp Puheen koodaus
DE19729494C2 (de) * 1997-07-10 1999-11-04 Grundig Ag Verfahren und Anordnung zur Codierung und/oder Decodierung von Sprachsignalen, insbesondere für digitale Diktiergeräte
US6058359A (en) 1998-03-04 2000-05-02 Telefonaktiebolaget L M Ericsson Speech coding including soft adaptability feature
US6029125A (en) * 1997-09-02 2000-02-22 Telefonaktiebolaget L M Ericsson, (Publ) Reducing sparseness in coded speech signals
US6470309B1 (en) * 1998-05-08 2002-10-22 Texas Instruments Incorporated Subframe-based correlation
CA2239294A1 (en) 1998-05-29 1999-11-29 Majid Foodeei Methods and apparatus for efficient quantization of gain parameters in glpas speech coders
US6240386B1 (en) 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
US6507814B1 (en) * 1998-08-24 2003-01-14 Conexant Systems, Inc. Pitch determination using speech classification and prior pitch estimation
JP3343082B2 (ja) * 1998-10-27 2002-11-11 松下電器産業株式会社 Celp型音声符号化装置
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6775649B1 (en) * 1999-09-01 2004-08-10 Texas Instruments Incorporated Concealment of frame erasures for speech transmission and storage system and method
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US6782360B1 (en) 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6804218B2 (en) * 2000-12-04 2004-10-12 Qualcomm Incorporated Method and apparatus for improved detection of rate errors in variable rate receivers
US6738739B2 (en) * 2001-02-15 2004-05-18 Mindspeed Technologies, Inc. Voiced speech preprocessing employing waveform interpolation or a harmonic model
US7054807B2 (en) * 2002-11-08 2006-05-30 Motorola, Inc. Optimizing encoder for efficiently determining analysis-by-synthesis codebook-related parameters
US7613606B2 (en) * 2003-10-02 2009-11-03 Nokia Corporation Speech codecs
US20050258983A1 (en) * 2004-05-11 2005-11-24 Dilithium Holdings Pty Ltd. (An Australian Corporation) Method and apparatus for voice trans-rating in multi-rate voice coders for telecommunications

Also Published As

Publication number Publication date
BR0110831A (pt) 2004-12-07
AU5542201A (en) 2001-12-03
US7660712B2 (en) 2010-02-09
DE60123999D1 (de) 2006-11-30
EP1338003B1 (en) 2006-10-18
US6782360B1 (en) 2004-08-24
JP2004510174A (ja) 2004-04-02
AU2001255422B2 (en) 2004-11-04
US10181327B2 (en) 2019-01-15
EP1338003A1 (en) 2003-08-27
WO2001091112A1 (en) 2001-11-29
US20040260545A1 (en) 2004-12-23
KR100546444B1 (ko) 2006-01-26
ATE343199T1 (de) 2006-11-15
US7260522B2 (en) 2007-08-21
US20070255559A1 (en) 2007-11-01
WO2001022402A1 (en) 2001-03-29
RU2262748C2 (ru) 2005-10-20
CN1468427A (zh) 2004-01-14
RU2257556C2 (ru) 2005-07-27
KR20030001523A (ko) 2003-01-06
US20090177464A1 (en) 2009-07-09

Similar Documents

Publication Publication Date Title
CN1252681C (zh) 一种码激励线性预测语音编码器的增益量化
CN1212606C (zh) 处理丢失帧的语音通信***及方法
CN1172292C (zh) 在编码宽带信号中用于适应性带宽音调搜寻的方法与设备
CN1240049C (zh) 语音编码***
CN100338648C (zh) 在基于线性预测的语音编码解码器中有效帧删除隐藏的方法和器件
CN1158648C (zh) 语音可变速率编码方法与设备
CN1618093A (zh) 有效编码语音信号的信号修改方法
CN1202514C (zh) 编码和解码语音及其参数的方法、编码器、解码器
CN1161751C (zh) 语音分析方法和语音编码方法及其装置
CN1703737A (zh) 在自适应多速率宽带(amr-wb)和多模式可变比特率宽带(vmr-wb)编解码器之间互操作的方法
CN1097396C (zh) 声音编码装置和方法
CN1890714A (zh) 一种优化的复合编码方法
CN1591575A (zh) 合成语音的方法和装置
CN1391689A (zh) 宽带语音和音频信号解码器中的增益平滑
CN1977311A (zh) 语音编码装置、语音解码装置及其方法
CN1274456A (zh) 语音编码器
CN1156872A (zh) 语音编码的方法和装置
CN1145512A (zh) 再现语音信号的方法和装置以及传输该信号的方法
CN1507618A (zh) 编码设备和解码设备
CN1957399A (zh) 语音/音频解码装置以及语音/音频解码方法
CN101057275A (zh) 矢量变换装置以及矢量变换方法
CN1122256C (zh) 用前向和反向线性预测编码分析编码音频信号的方法和装置
CN1435817A (zh) 语音编码转换方法和装置
CN1947173A (zh) 分层编码装置及分层编码方法
CN1261713A (zh) 接收装置和方法,通信装置和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: O'HEARN VOICE CO., LTD.

Free format text: FORMER OWNER: MINDSPEED TECHNOLOGIES, INC.

Effective date: 20130104

Owner name: MINDSPEED TECHNOLOGIES, INC.

Free format text: FORMER OWNER: CONEXANT SYSTEMS INC

Effective date: 20130104

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20130104

Address after: Delaware

Patentee after: Ohen Sound Co.,Ltd.

Address before: California, USA

Patentee before: Mindspeed Technologies, Inc.

Effective date of registration: 20130104

Address after: California, USA

Patentee after: Mindspeed Technologies, Inc.

Address before: california

Patentee before: CONEXANT SYSTEMS, Inc.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20060419

Termination date: 20200416

CF01 Termination of patent right due to non-payment of annual fee