CN1240049C - 语音编码*** - Google Patents

语音编码*** Download PDF

Info

Publication number
CN1240049C
CN1240049C CNB018156398A CN01815639A CN1240049C CN 1240049 C CN1240049 C CN 1240049C CN B018156398 A CNB018156398 A CN B018156398A CN 01815639 A CN01815639 A CN 01815639A CN 1240049 C CN1240049 C CN 1240049C
Authority
CN
China
Prior art keywords
pulse
track
codebook
pos
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB018156398A
Other languages
English (en)
Other versions
CN1457425A (zh
Inventor
Y·高
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HTC Corp
Original Assignee
Conexant Systems LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Conexant Systems LLC filed Critical Conexant Systems LLC
Publication of CN1457425A publication Critical patent/CN1457425A/zh
Application granted granted Critical
Publication of CN1240049C publication Critical patent/CN1240049C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0007Codebook element generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

提供了一种带有特别的固定码本结构和新的搜索例行程序的语音压缩***,用于语音编码。该***能够把语音信号编码为位流,在此之后对其进行解码以产生合成语音。码本结构使用多个子码本。每一子码本被设计为适配特定的语音信号组。对每一子码本计算基准值以便在作为编码***一部分的最小环中使误差信号最小化。一外部信号设置最大位流速率,用于把编码的语音传送到通信***中。该语音压缩***包括全速率编解码器、半速率编解码器、四分之一速率编解码器和八分之一编解码器。每一编解码器有选择地被激活以便以不同的位速率对语音信号编码和解码,以便在有限的平均位速率下提高合成语音的整体质量。

Description

语音编码***
与相关申请的交叉参考
本申请是在1998年9月18日提交的、申请号为No.09/156,814、标题为“用于语音编码器的完整的固定的码本”、并转让给本发明的受让人的申请的部分继续申请,该申请的公开被结合作为参考。以下的申请被整体结合以作为参考并构成本申请的一部分:
美国临时申请No.60/097,569(代理人文档号No.98RSS325),标题为“自适应性速率语音编/解码”,1998年8月24日提交;
美国专利申请No.09/154,675(代理人文档号No.97RSS383),标题为“在长期预处理中使用连续扭曲的语音编码器”,1998年9月18日提交;
美国专利申请No.09/156,649(代理人文档号No.95EO20),标题为“组合码本结构”,1998年9月18日提交;
美国专利申请No.09/156,648(代理人文档号No.98RSS228),标题为“低复杂性的随机码本结构”,1998年9月18日提交;
美国专利申请No.09/156,650(代理人文档号No.98RSS343),标题为“使用组合开环和闭环增益的增益规一化的语音编码器”,1998年9月18日提交;
美国专利申请No.09/156,832(代理人文档号No.97RSS039),标题为“使用话音活动检测编码噪声的语音编码器”,1998年9月18日提交;
美国专利申请No.09/154,654(代理人文档号No.98RSS344),标题为“使用语音分类和现有音调估计的音调确定”,1998年9月18日提交;
美国专利申请No.09/154,657(代理人文档号No.98RSS328),标题为“使用平滑噪声编码的分类器的语音编码器”,1998年9月18日提交;
美国专利申请No.09/156,826(代理人文档号No.98RSS382),标题为“用于合成语音残留的自适应性倾斜补偿”,1998年9月18日提交;
美国专利申请No.09/154,662(代理人文档号No.98RSS383),标题为“码本搜索中使用的语音分类和参数加权”,1998年9月18日提交;
美国专利申请No.09/154,653(代理人文档号No.98RSS406),标题为“使用语音参数的合成编码器-解码器帧隐蔽”,1998年9月18日提交;
美国专利申请No.09/154,663(代理人文档号No.98RSS345),标题为“自适应性降低增益以产生固定的码本目标信号”,1998年9月18日提交;
美国专利申请No.09/154,660(代理人文档号No.98RSS384),标题为“自适应性应用音调长期预测和带有连续扭曲的音调预处理的语音编码器”,1998年9月18日提交。
以下共同未决的共同转让的美国专利申请已经在本申请同一天提交。所有这些申请与本申请中公开的实施例相关并进一步描述了其它方面,并一并结合以资参考。
美国专利申请号____,“向用于低位速率CELP的脉冲激励注入高频噪声”,代理人参考号:00CXT0065D(10508.5),2000年9月15日提交,且现在是美国专利号____。
美国专利申请号____,“CELP语音编码中的短期增强”,代理人参考号:00CXT0666N(10508.6),2000年9月15日提交,且现在是美国专利号____。
美国专利申请号____,“用于语音编码中的脉冲样激励的动态脉冲位置跟踪***”,代理人参考号:00CXT0537N(10508.7),2000年9月15日提交,且现在是美国专利号____。
美国专利申请号____,“带有时域噪声衰减的语音编码***”代理人参考号:00CXT0554N(10508.8),2000年9月15日提交,且现在是美国专利号____。
美国专利申请号____,“用于自适应性激励语音编码模式的***”代理人参考号:98RSS366(10508.9),2000年9月15日提交,且现在是美国专利号____。
美国专利申请号____,“使用带有不同分辩级别的自适应性码本编码语音信息的***”,代理人参考号:00CXT0670N(10508.13),2000年9月15日提交,且现在是美国专利号____。
美国专利申请号____,“用于编码和解码的码本表”,代理人参考号:00CXT0669N(10508.14),2000年9月15日提交,且现在是美国专利号____。
美国专利申请号____,“用于传输编码的语音信号的比特流协议”,代理人参考号:00CXT0668N(10508.15),2000年9月15日提交,且现在是美国专利号____。
美国专利申请号____,“用于过滤语音编码信号的内容的***”,代理人参考号:00CXT0667N(10508.16),2000年9月15日提交,且现在是美国专利号____。
美国专利申请号____,“对语音信号进行编码和解码的***”,代理人参考号:00CXT0665N(10508.17),2000年9月15日提交,且现在是美国专利号____。
美国专利申请号____,“具有自适应性帧结构的编码***”,代理人参考号:00CXT0384CIP(10508.18),2000年9月15日提交,且现在是美国专利号____。
美国专利申请号____,“改进使用带有子码本的音调增强的***”代理人参考号:00CXT0569N(10508.19),2000年9月15日提交,且现在是美国专利号____。
技术领域
本发明涉及语音通信***,并特别涉及用于数字语音编码的***和方法。
背景技术
人类通信的一种流行的方式涉及通信***的使用。通信***包括有线和无线电***。无线通信***与陆地线路***电连接,并使用射频(RF)与移动通信装置通信。当前,例如在蜂窝式***中通信可用的射频是大约以900MHz为中心的频率范围,并在个人通信服务(PCS)频率范围大约以1900MHz为中心。由于诸如蜂窝式电话等无线通信装置不断地普及引起的增加的通信量,于是希望能够降低无线***内的传输带宽。
无线电远程通信中的数字传输,由于其抗噪声性、可靠性、设备的小型化、以及能够使用数字技术实现复杂的信号处理功能的能力,而正在不断广泛地用于话音和数据两者。语音信号的数字传输涉及这样的步骤:使用模拟-数字转换器对模拟语音波形采样、语音压缩(编码)、传输、语音解压缩(解码)、数字到模拟的转换、以及向耳机或扬声器重放。使用模拟到数字转换器的模拟语音波形的采样生成数字信号。然而,在数字信号中用来表示模拟语音波形的位数生成了相当大的带宽。例如,以8000Hz(每0.125ms一次)速率其中每一采样由16位表示的采样的语音信号,将有每秒128,000(16x8000)位或128kbps(千位每秒)的位速率。
语音压缩可降低表示语音信号的位数,这样就降低了传输所需的带宽。然而,语音压缩可能造成解压缩的语音质量的劣化。一般来说,较高的位速率会产生较高的质量,而较低的位速率会产生是较低的质量。然而语音压缩技术,诸如编码技术,能够以相对低的位速率产生相对高质量的解压缩语音。一般来说,在保留或不保留实际的语音波形下,低位速率编码技术试图表示语音信号感知上的重要特征。
典型地,对适当感知表示比较困难或比较重要的语音信号部分(诸如浊音语音,***音或浊音启动)使用较高位数编码并传输。对适当感知表示不很困难或不很重要的语音信号部分(诸如非浊音,或词句之间的寂静)使用较低位数编码。由此产生的语音信号的平均位速率将相对低于提供类似质量解压缩语音的固定位速率的情形。
这些语音压缩技术结果降低了用来传输语音信号的带宽量。然而,对于大量用户的通信***进一步降低带宽是重要的。因而,需要这样语音编码***和方法,它们能够尽量降低语音表示所需的平均位速率,同时提供高质量解压缩语音。
发明内容
本发明提供了构成有效码本结构的方法及快速搜索方法,其一个例子用于SMV***。SMV***使通信装置中的编码和解码速率变化,所述通信装置例如是移动电话,蜂窝式电话,便携式无线收发信机或其它无线或有线通信装置。所公开的实施例描述了这样一种***,它根据来自外部源,诸如移动装置与其相互作用的通信***的信号,来变化速率和相关带宽。在各实施例中,通信***使用该***为通信设备选择一种方式,而且根据该方式来处理语音。
语音压缩***的一个实施例包括全速率编解码器、半速率编解码器、四分之一速率编解码器和八分之一速率编解码器,每一个都能够对语音信号编码和解码。语音压缩***基于语音信号逐个帧进行速率选择,以便选择编解码器之一。然后语音压缩***采用带有多个子码本的固定码本结构。搜索例行程序在编码和解码语音时从码本之中选择最佳代码向量。搜索例行程序基于迭代方式中使误差函数最小化。
于是,语音编码器能够有选择地激活编解码器,以便使重构的语音信号整体质量最高,同时保持所希望的平均位速率。在研究了以下的附图和详细说明时,对于业内专业人员本发明的其它的***、方法、特征和优点是显而易见的。应当注意,包含在本说明中的所有附加的***、方法、特征和优点是在本发明的范围内,并受到所附权利要求的保护。
附图说明
附图中的组件不一定是按比例的,而重点在于说明本发明的原理。此外在附图中,在所有不同的图示中相同的标号指示对应的部件。
图1是在一时间周期上语音模式的的图形表示。
图2是语音编码***一实施例的的框图。
图3是图2中所示的语音编码***展开的框图。
图4是图2中所示的解码***展开的框图。
图5是表示固定码本的框图。
图6是语音编码***展开的框图。
图7是用于查找固定子码本过程的流程图。
图8是用于查找固定子码本过程的流程图。
图9是语音编码***展开的框图。
图10是一子码本结构示意图。
图11是一子码本结构示意图。
图12是一子码本结构示意图。
图13是一子码本结构示意图。
图14是一子码本结构示意图。
图15是一子码本结构示意图。
图16是一子码本结构示意图。
图17是一子码本结构示意图。
图18是一子码本结构示意图。
图19是一子码本结构示意图。
图20是图2的解码***展开的框图。
图21是一语音编码***的框图。
具体实施方式
语音压缩***(编解码器)包括编码器和解码器,并可用来降低数字语音信号的位速率。对于降低数字编码原始语音所需的位数同时力图保持重构语音质量的语音编解码器,已经研发了许多算法。如在标题为“Code-Excited Linear Prediction:High-Quality Speech at Very LowRates,”M.R.Schroeder和B.S.Atal,Proc.ICASSP-85,P937-940的文章中讨论的代码-激励线性预测(CELP)编码技术,提供了一种有效的语音编码算法。基于可变速率CELP的语音编码器的一个例子是TIA(远程通信业协会)IS-127标准,这是为CDMA(码分多址)应用设计的。CELP编码技术采用几种预测技术从语音信号中去除冗余。CELP编码方法向采样块(称作帧)存储采样的输入语音信号。然后处理数据帧以便生成数字形式的压缩的语音信号。其它实施例可包括子帧处理以及,或者帧处理。
图1描绘了CELP语音编码中使用的波形。输入的语音信号2具有某些可预测性或周期性4的度量。CELP编码方法使用两种类型的预测器,即短期预测器和长期预测器。通常在应用长期预测器之前应用短期预测器。从短期预测器推导出的预测误差被称为短期残留,而从长期预测器推导出的预测误差被称为长期残留。使用CELP编码,第一预测误差被称为短期或LPC残留6。第二预测误差称为音调残留8。
可使用包括多个固定码本项或向量的固定码本对长期残留编码。可选择一项并乘以固定码本增益来表示长期残留。也可从自适应码本计算滞后和增益,并用来对语音编码和解码。短期预测器也称为LPC(线性预测编码)或谱包络表示,并且一般包括10个预测参数。每一滞后参数也可称为音调滞后,并且每一长期预测器增益参数也可称为自适应码本增益。滞后参数定义了自适应码本中的一项或向量。
CELP编码器进行LPC分析以确定短期预测器参数。在LPC分析之后,可确定长期预测参数。此外,发生的是最佳表示长期残留的固定码本项和固定码本增益的确定。在CELP编码中采用通过综合的分析(ABS),即反馈。在ABS方法中,来自固定码本、固定码本增益和长期预测器的贡献,可通过使用反向预测滤波器的合成及施加感知加权度量找出。然后可对短期(LPC)预测系数、固定码本增益、以及滞后参数和长期增益参数进行量化。可从编码器向解码器发送量化指标以及固定码本指标。
CELP解码器使用固定码本指标从固定码本抽取向量。向量可乘以固定码本增益,以便生成固定码本贡献。长期预测器贡献可添加到固定码本贡献,以生成被称为激励的合成的激励。长期预测器的贡献包括乘以长期预测器增益的来自过去的激励。另外长期预测器贡献的添加也可看作自适应码本贡献,或长期(音调)滤波。短期激励可通过使用由编码器量化的短期(LPC)预测系数的短期反向预测滤波器(LPC),以便产生合成语音。然后合成语音通过降低感知编码噪声的后置滤波器。
图2是可使用自适应和固定码本的语音压缩***10的一个实施例的框图。具体来说,该***可采用包括多个子码本的固定码本,用于按照由外部信号所设置的方式及语音的特性以不同位速率进行编码。语音压缩***10包括如图所示可被连接的编码***12、通信介质14及解码***16。语音压缩***10可以是任何能够接收和编码语音信号18并然后将其解码以生成后处理的合成语音20的编码装置。
语音压缩***10操作接收语音信号18。由发送器(未示出)发送的语音信号18例如可以通过话筒俘获并通过模拟到数字转换器(未示出)数字化。发送器可以是人嗓、乐器或任何其它能够发出模拟信号的装置。
编码***12操作以便对语音信号18编码。编码***12把语音信号18分段为帧以便产生位流。语音压缩***10的一实施例使用包括160个采样的帧,这以8000Hz的采样速率对应于每帧20毫秒。由位流表示的帧可提供给通信介质14。
通信介质14可以是任何传输机制,诸如通信信道、无线电波、有线传输、光纤传输、或任何能够携带由编码***12产生的位流的介质。通信介质14也可以是存储机制,诸如存储器装置,存储介质或其它能够存储和检索由编码***12产生的位流的装置。通信介质14操作以便向解码***16产生由编码***12传输的位流。
解码***16从通信介质14接收位流。解码***16操作以便对位流解码并产生数字信号形式的后处理合成语音20。然后由数字到模拟转换器(未示出)将后处理的合成语音20转换为模拟信号。数字到模拟转换器的模拟输出可由一接收器(未示出)接收,接收器可以是人耳,磁带录音机,或任何其它能够接收模拟信号的装置。另外,后处理合成语音20可由数字记录装置、语音识别装置、或任何其它能够接收数字信号的装置接收。
语音压缩***10的一个实施例还包括模式线21。模式线21携带指示位流所希望的平均位速率的模式信号。模式信号可由一控制通信介质的***,例如无线远程通信***,在外部产生。编码***12可确定多个编解码器中哪个在编码***12内是激活的,或如何响应模式信号操作编解码器。
编解码器包括分别位于编码***12和解码***16内的编码器部分和解码器部分。在语音压缩***10的一个实施例中有四个编解码器,即:全速率编解码器22、半速率编解码器24、四分之一速率编解码器26、及八分之一速率编解码器28。每一编解码器22、24、26和28可操作以便产生位流。由每一编解码器22、24、26和28产生的位流的大小是不同的,因而通过通信介质14对其进行传输所需的带宽是不同的。
在一个实施例中,全速率编解码器22、半速率编解码器24、四分之一速率编解码器26、及八分之一速率编解码器28每帧分别产生170位、80位、40位和16位。每一帧的位流大小对应于位速率,即对于全速率编解码器22是8.5Kbps,对于半速率编解码器24是4.0Kbps,对于四分之一速率编解码器26是2.0Kbps,以及对于八分之一速率编解码器28是0.8Kbps。然而在另外的实施例中,可以有或更多或更少的编解码器以及其它的位速率。通过以各种编解码器处理语音信号18的帧,实现平均位速率或位流。
编码***12基于帧的特性,并基于由模式信号所提供的所需的平均位速率,确定编解码器22、24、26和28哪一个可用来对特定的帧编码。帧特性是基于包含在特定帧中的语音信号18的部分的。例如,帧可被刻画为驻定浊音、非驻定浊音、浊音、非浊音,启动,背景噪声,寂静等。
一个实施例中的模式信号线21上的模式信号识别模式0,模式1,和模式2。三个模式每一个提供不同的所需的平均位速率,用于改变每一编解码器22、24、26和28的使用百分率。模式0可称为高级模式,其中大多数帧可使用全速率编解码器22编码;较少的帧可使用半速率编解码器24编码;包括寂静和背景噪声的帧可使用四分之一速率编解码器26和八分之一速率编解码器28编码。模式1可称为标准模式,其中带有诸如启动和某些浊音帧的高级信息内容的帧可使用全速率编解码器22编码。此外,其它的浊音和非浊音帧可使用半速率编解码器24编码,某些非浊音帧可使用四分之一速率编解码器26编码,以及寂静和驻定的背景噪声帧可使用八分之一编解码器28编码。
模式2可称为经济型模式,其中只有少量高级信息内容的帧可使用全速率编解码器22编码。除去某些可使用四分之一速率编解码器26编码的非浊音帧之外,模式2中大部分帧可使用半速率编解码器24编码。在模式2中寂静和驻定背景噪声帧可使用八分之一速率编解码器2编码。因而,通过改变选择编解码器22、24、26和28,语音压缩***10可以按所需的平均位速率提供重构语音,同时力图保持最高可能的质量。附加的模式,诸如模式3操作在超经济模式或半速率最大模式,其中被激活的最大值编解码器是半速率编解码器24,这在另外的实施例中是可能的。
语音压缩***10的进一步的控制也可由半速率信号线30提供。半速率信号线30提供半速率传信标志。半速率传信标志可通过外部源诸如无线远程通信***提供。当被激活时,半速率传信标志指引语音压缩***10使用半速率编解码器24作为最大速率。在另一实施例中,半速率传信标志指引语音压缩***10使用一个编解码器22、24、26或28代替另一个,或标识不同的编解码器22、26、28作为最大或最小速率。
在语音压缩***10的一个实施例中,全和半速率编解码器22和24可基于eX-CELP(扩展的CELP)方法,以及四分之一速率和八分之一速率编解码器26和28可基于感知匹配方法。eX-CELP方法扩展了感知匹配与传统的CELP波形匹配之间的传统的平衡。特别地,eX-CELP方法使用速率选择及稍后将要说明的类型划分对帧进行分类。在不同的帧类别内,可采用不同的编码方法,它们具有不同感知匹配、不同波形匹配、和不同位分配。四分之一速率编解码器26和八分之一速率编解码器28的感知匹配方法不使用波形匹配,而是在对帧编码时集中于感知方面。
基于包含在特定的帧中语音信号部分,由语音信号每一帧的特性来确定速率选择。例如,帧可以由数个途径刻画,诸如驻定浊音语音,非驻定浊音语音,非浊音,背景噪声,寂静等。此外,速率选择受到语音压缩***正在使用的模式的影响。编解码器被设计为在语音信号不同的特性内优化编码。优化的编码平衡了希望提供最高感知质量的合成语音,同时保持所需的平均位流速率。这允许最大使用可用带宽。在操作期间,语音压缩***基于每一帧的模式以及特性有选择地激活编解码器,以便优化语音的感知质量。
可基于把帧划分为多个子帧,使用eX-CELP方法或感知匹配方法对每一帧编码。对于每一编解码器22、24、26和28,子帧的大小和数量可以不同,并可在一个编解码器内变化。在子帧内,对语音参数和波形可使用几种预测和非预测标量和向量量化技术编码。在标量量化中,语音参数或元素可由标量的代表性表中最接近的项的指标位置表示。在向量量化中,几种语音参数可被分组以形成向量。向量可通过向量的代表性表中最接近的项的指标位置表示。
在预测编码中,可从过去预测元素。元素可以是标量或向量。然后,可使用标量表(标量量化)或向量表(向量量化)对预测误差量化。类似于传统的CELP,eX-CELP编码方法使用通过合成分析的(ABS)方案选择对于一些参数来说是最好的表示。特别地,参数可包含在自适应码本或固定码本内,或包含在这两者内,并可进而对两者包括增益。ABS方案使用反向预测滤波器和感知加权度量来选择最好的码本项。
图3是图2中所示的编码***12更详细的框图。编码***12的一个实施例包括如图所示连接的预处理模块34、全速率编码器36、半速率编码器38、四分之一速率编码器40及八分之一速率编码器42。速率编码器36、38、40和42包括初始帧处理模块44和激励处理模块54。
由编码***12接收的语音信号18由预处理模块34在帧等级上处理。预处理模块34可操作以提供语音信号18的初始处理。初始处理可包括滤波、信号增强、噪声去除、放大和其它类似的能够为后继编码优化语音信号18的技术。
全、半、四分之一及八分之一速率编码器36、38、40和42分别是全、半、四分之一及八分之一速率编解码器22、24、26和28的编码部分。初始帧处理模块44进行初始帧处理、语音参数提取、并确定由哪一个速率编码器36、38、40和42对具体的帧编码。初始帧处理模块44可以是如图所示被子划分为多个初始帧处理模块,即初始全帧处理模块46,初始半帧处理模块48,初始四分之一帧处理模块50和初始八分之一帧处理模块52。初始帧处理模块44进行共同的处理,以确定激活速率编码器36、38、40和42之一的速率选择。
在一个实施例中,速率选择基于语音信号18的帧特性和语音压缩***10的模式。速率编码器36、38、40和42之一的激活对应地激活初始帧处理模块46、48、50和52之一。特定的初始帧处理模块46、48、50或52被激活,以便对语音信号18对整个帧共同的方面编码。通过初始帧处理模块44的编码把包含在帧中的语音信号18的参数量化。量化的参数将产生位流的一部分。该模块还可进行初始分类,按以下所讨论的指出帧是类型0还是类型1。类型分类和速率选择可用来通过对应于全和半速率编码器36、38的激励处理模块54的部分优化编码。
激励处理模块54的一个实施例可被子划分为全速率模块56、半速率模块58、四分之一速率模块60及八分之一速率模块62。模块56、58、60和62对应于编码器36、38、40和42。一个实施例的全和半速率模块56和58都包含多个帧处理模块,及多个子帧处理模块,如以下将讨论的它们提供本质上不同的编码。
对于全速率和半速率编码器36和38的激励处理模块54部分包括类型选择器模块、第一子帧处理模块、第二子帧处理模块、第一帧处理模块和第二帧处理模块。更具体来说,全速率模块56包括F类型选择器模块68、F0子帧处理模块70、F1第一帧处理模块72、F1第二帧处理模块74和F1第二帧处理模块76。术语“F”指示全速率,“H”指示半速率,以及“0”和“1”分别表示类型0和类型1。类似地,半速率模块58包括H类型选择器模块78、H0子帧处理模块80、H1第一帧处理模块82、H1子帧处理模块84和H1第二帧处理模块86。
F和H类型选择器模块68和78指引语音信号18的处理,以便基于类型分类进一步优化编码过程。分类为类型1指示帧包含非快速变化的谐波结构和共振峰结构,诸如驻定浊音语音。所有其它的帧可被分类为类型0,例如快速变化的谐波结构和共振峰结构,或帧呈现驻定非浊音或噪声状特性。对于分类为类型0的帧的位分配后来可被调节,以便更好地表示和说明这一行为。
在全速率模块56中类型0分类激活F0第一子帧处理模块70,以便基于子帧处理帧。当被处理的帧被分类为类型1时,F1第一帧处理模块72,F1子帧处理模块74,和F1第二帧处理模块76组合产生位流部分。类型1分类涉及全速率模块56内子帧和帧处理两者。
类似地,对于半速率模块58,当被处理的帧被分类为类型0时,H0子帧处理模块80基于子帧产生部分位流。进而当被处理的帧被分类为类型1时,H1第一帧处理模块82,H1子帧处理模块84,和H1第二帧处理模块86组合产生部分位流。如同在全速率模块56中那样,类型1分类涉及子帧和帧处理两者。
四分之一和八分之一速率模块60和62分别是四分之一和八分之一速率编码器40和42的一部分,且不包含类型分类。不包含类型分类是由于被处理的帧的性质。当被激活时四分之一和八分之一速率模块60和62分别基于子帧和帧产生部分位流。
速率模块56、58、60和62产生部分位流,该部分位流与由初始帧处理模块46、48、50和52产生的各部分位流组合,以便生成帧的数字表示。例如,由初始全速率帧处理模块46和全速率模块56产生的部分位流可被组合,而形成当全速率编码器36被激活对帧编码时所产生的位流。来自每一个编码器36、38、40和42的位流可进而组合以形成表示语音信号18的多个帧的位流。由编码器36、38、40和42产生的位流通过解码***16解码。
图4是图2所示的解码***16展开的框图。解码***16的一实施例包括全速率解码器90、半速率解码器92、四分之一速率解码器94、及八分之一速率解码器96、合成滤波器模块98及后处理模块100。全、半、四分之一及八分之一速率解码器90、92、94和96、合成滤波器模块98及后处理模块100是全、半、四分之一、及八分之一速率编解码器22、24、26和28的解码部分。
解码器90、92、94和96接收位流,并对数字信号解码以便重构语音信号18不同的参数。解码器90、92、94和96可被激活以便基于速率的选择对每一帧解码。通过单独的信息传输机制,诸如无线远程通信***中的控制信道,可将速率选择从编码***12提供给解码***16。另外,速率选择包含在被编码的语音传输内(由于每一帧被分开编码),或从一外部源传送。
合成滤波器98和后处理模块100是用于每一解码器90、92、94和96解码过程的一部分。使用合成滤波器98组合由解码器90、92、94和96解码的语音信号18的参数,产生非滤波的合成语音。非滤波的合成语音通过后处理模块100而生成后处理的合成语音20。
全速率解码器90的一实施例包括F类型选择器102和多个激励重构模块。激励重构模块包括F0激励重构模块104和F1激励重构模块106。此外,全速率解码器90包括线性预测系数(LPC)重构模块107。LPC重构模块107包括F0LPC重构模块108和F1LPC重构模块110。
类似地,半速率解码器92的一实施例包括H类型选择器112和多个激励重构模块。激励重构模块包括H0激励重构模块114和H1激励重构模块116。此外,半速率解码器92包括作为H LPC重构模块118的线性预测系数(LPC)重构模块。虽然在概念上类似,但全和半速率解码器90和92设计为分别对来自对应的全和半速率编码器36和38的位流解码。
F和H类型选择器102和112按照类型分类有选择地激活全和半速率解码器90和92各部分。当类型分类为类型0时,F0或H0激励重构模块104或114被激活。反之,当类型分类为类型1时,F1或H1激励重构模块106或116被激活。F0或F1 LPC重构模块108或110分别由类型0和类型1类型分类激活。H LPC重构模块118只基于速率选择被激活。
四分之一速率解码器94包括激励重构模块120和LPC重构模块122。类似地,八分之一速率解码器96包括激励重构模块124和LPC重构模块126。各激励重构模块120或124及各LPC重构模块122或126都只基于速率选择被激活,但可提供其它激活输入。
每一激励重构模块可操作地在被激活时在短期激励线128上提供短期激励。类似地,每一LPC重构模块可操作地在短期预测系数线130上产生短期预测系数。将短期激励和短期预测系数提供给合成滤波器98。此外,在一实施例中,将短期预测系数提供给如图3所示的后处理模块100。
后处理模块100可包含滤波、信号增强、噪声修改、放大、倾斜校正和其它能够增加合成语音感知质量的类似的技术。降低可听噪声可通过增强合成语音的共振峰结构,或通过只抑制感知上对合成语音无关的频率范围中的噪声来实现。由于可听噪声在较低位速率变得更明显,后处理模块100的一实施例可被激活,以便按速率选择不同地提供合成语音的后处理。后处理模块100的另一实施例可操作地基于速率选择对解码器90、92、94和96不同的组提供不同的后处理。
在操作期间,图3所示的初始帧处理模块44分析语音信号18以便确定速率选择,并激活编解码器22、24、26和28之一。例如如果全速率编解码器22被激活以便基于速率选择处理帧,初始全速率帧处理模块46对于帧确定类型分类,并产生部分位流。全速率模块56基于类型分类,对于帧产生位流的其余部分。
位流可由全速率解码器90基于速率选择接收并解码。全速率解码器90使用在编码期间确定的类型分类对位流解码。合成滤波器98和后处理模块100使用从位流解码的参数产生后处理的合成语音20。由每一编解码器22、24、26或28产生的位流包含明显不同的位分配以强调帧内语音信号18不同的参数和/或特征。
固定码本结构
在一实施例中固定码本结构允许对语音的编码和解码有平滑的功能。正如业内所熟知及上述的说明,编解码器还包括有助于尽量减少短期和长期残留的自适应和固定码本。根据本发明已经发现一定的码本结构是当编码和解码时所需要的。这些结构主要涉及固定码本结构,并特别是包含多个子码本的固定码本。在一实施例中,搜索多个固定子码本以求得最好的子码本,并然后在选择的子码本内求得码向量。
图5是一实施例中描绘固定码本和子码本结构的框图。对于F0编解码器的固定码本包括三个(不同的)子码本161、163、165,它们每一个有5个脉冲。对于F1编解码器的固定码本是单个的8-脉冲子码本162。对于半速率编解码器,固定码本178包括用于H0的三个子码本、2-脉冲的子码本192、3-脉冲的子码本194以及带有高斯噪声的第三码本196。在H1编解码器中,固定码本包括2-脉冲子码本193、3-脉冲的子码本195及5-脉冲的子码本197。在另一实施例中,H1编解码器只包括2-脉冲的子码本193和3-脉冲的子码本195。
在选择固定子码本和码向量中的加权因子
低位速率编码使用感知加权的重要概念以确定语音编码。这里我们引入一种专用的加权因子,它不同于先前在闭环分析中对于感知加权滤波器所描述的因子。这一专用加权因子是通过采用语音一定的特征产生的,并在以多个子码本为特色的码本中偏好一特定子码本时作为基准值应用。对于某些特定的语音信号,诸如噪声状非浊音语音,一个子码本可能比其它子码本更被看重。用来计算加权因子的特征包括但不限于噪声对信号比(NSR)、语音的锐度、音调滞后、音调相关性以及其它特征。在定义语音特征时用于每一语音帧的分类***也是重要的。
NSR是传统的失真准则,它可作为帧的背景噪声能量的估计与帧能量之间的比值计算。NSR计算的一实施例通过使用修改的话音活动判断保证只有真实的背景噪声纳入该比值。此外,也可使用先前计算的参数,例如它们表示由反射系数表达的频普、音调相关性Rp、NSR、帧能量、先前的帧能量、残留锐度及加权语音锐度。锐度定义为语音采样的绝对值的平均与语音采样的绝对值最大值的比值。此外,在固定码本搜索之前,从帧类决策和其它语音参数获得一种加细的子帧搜索分类决策。
音调相关性
用于时间扭曲的目标信号的一实施例是从由s`w(n)表示的修改的加权语音及由LP(n)表示的音调轨迹348推导的当前段的一种合成。根据音调轨迹348LP(n),目标信号s`w(n),n=0,…,Ns-1的每一采样值可通过使用21阶汉明加权Sinc窗口修改的加权语音的内插获得,
s w t ( n ) = Σ i = - 10 10 w s ( f ( L p ( n ) ) , i ) · s w t ( n - I ( L p ( n ) ) + i ) , for n = 0 , . . . , N , - 1 (方程式1)
其中I(Lp(n))和f(Lp(n))分别是音调滞后的整数和分数部分;ws(f,i)是汉明加权Sinc窗口,且Ns是段的长度。加权目标swwt(n)是由swwt(n)=we(n)·s`w(n)给出的。加权函数we(n)可以是两-件线性函数,它强调音调的复合并弱化音调复合之间的“噪声”。加权根据分类对于较高周期性段通过增加对音调复合的强调而适配。
信号扭曲
对于段修改的加权语音可根据由以下给出的映射重构
Figure C0181563900222
(方程式2)
以及
(方程式3)
其中τc是定义扭曲函数的参数。一般来说,τc规定音调复合的开始。由方程式2给出的映射规定了时间扭曲,而由方程式3给出的映射规定了时间偏移(非扭曲)。两者都可使用汉明加权Sinc窗口函数进行。
音调增益和音调相关性估计
音调增益和音调相关性可基于音调周期估计,并分别由方程式2和3定义。估计音调增益是为了尽量降低由方程式1定义的目标st w(n)与由方程式2和3定义的最终修改的信号s`w(n)之间的均方误差,并可由以下给出
g a = Σ n = 0 N s - 1 s w t ( n ) · s w t ( n ) Σ n = 0 N s - 1 s w t ( n ) 2 . (方程式4)
音调增益作为非量化的音调增益提供给激励处理模块54。音调相关性可由以下给出
R a = Σ n = 0 N s - 1 s w t ( n ) · s w t ( n ) ( Σ n = 0 N s - 1 s w t ( n ) 2 ) · ( Σ n = 0 N s - 1 s w t ( n ) 2 ) . (方程式5)
两个参数都是基于音调周期可得的并可被线性内插。
对于类型0帧的固定码本编码
图6包括F0和H0子帧处理模块70和80,包含自适应码本部分362、固定码本部分364及增益量化部分366。自适应码本部分368接收在计算自适应码本区域中有用的音调轨迹348,以便搜索自适应码本向量va382(滞后)。自适应码本还进行搜索以便对每一子帧确定并存储最好的滞后向量va。自适应增益ga384也是在语音***的这部分中计算。这里的讨论将集中在固定码本部分,特别是其中包含的固定子码本。图6描绘了固定码本部分364,包括固定码本390、乘法器392、合成滤波器394、感知加权滤波器396、减法器398及最小化模块400。对于由固定码本部分364提供的固定码本的搜索类似于在自适应码本部分362内的搜索。增益量化部分366可包括2D VQ增益码本412、第一乘法器414及第二乘法器416、加法器418、合成滤波器420、感知加权滤波器422、减法器424及最小化模块426。增益量化部分使用在固定码本部分产生的第二重新合成语音406,并且还产生第三重新合成语音438。
从固定码本390提供表示子帧的长期残留的固定码本向量(vc)402。乘法器392使固定码本向量(vc)402乘以增益(gc)404。增益(gc)404是非量化的并且是可如稍后所述计算的固定码本增益的初始值表示。将产生的信号提供给合成滤波器394。合成滤波器394接收量化的LPC系数Aq(z)342,并与感知加权滤波器396一同生成重新合成的语音信号406。减法器398从长期误差信号388中减去重新合成的语音信号406,以产生固定码本误差信号408。
最小化模块400接收表示由固定码本390量化长期残留中的误差的固定码本误差信号408。最小化模块400使用固定码本误差信号408,并特别是被称为加权均方误差(WMSE)的固定码本误差信号408的能量,控制从固定码本292中选择用于固定码本向量(vc)402的向量,以便降低误差。最小化模块400还接收可能包括每一帧的最终特性的控制信息356。
包含在控制信息356中最终特性类别控制最小化模块400如何从固定码本390中选择用于固定码本向量(vc)402的向量。该过程重复,直到由第二最小化模块400进行的搜索已经对于每一子帧从固定码本390选择固定码本向量(vc)402的最佳向量。固定码本向量(vc)402的最佳向量使第二重新合成的语音信号406中的误差对于长期误差信号388最小化。该指标标识了固定码本向量(vc)402的最佳向量,并如先前的讨论,可用来形成固定码本组件146a和178a。
全速率编解码器的类型0的固定码本搜索
类型0分类的帧的固定码本组件146a可使用三个不同的5-脉冲子码本160表示全速率编解码器22的四个子帧的每一个。当搜索启动时,可使用由以下表示的误差信号388确定在固定码本390中固定码本向量(vc)402的向量:
t ′ ( n ) = t ( n ) - g a · ( e ( n - L p opl ) * h ( n ) ) . (方程式6)
其中t`(n)是固定码本搜索的目标,t(n)是初始目标信号,ga是自适应码本增益,e(n)是过去激励以产生自适应码本贡献,Lp opt是优化的滞后,并且h(n)是感知加权LPC合成滤波器的脉冲响应。
在搜索期间音调加强可在前向或后向施加到固定码本390内的5-脉冲子码本161、163、165。搜索是从固定码本求得最佳向量的迭代的、受控的复杂性搜索。对于由增益(gc)404表示的固定码本增益的初始值可通过该搜索同时找到。
图7和8示出用来在固定码本中搜索最佳指标的过程。在一实施例中,固定码本有k个子码本。在其它实施例可以使用更多或更少的子码本。为了简化迭代搜索过程的说明,以下的例子首先表征包含N个脉冲的信号子码本。脉冲可能的位置由轨迹上多个位置定义。在第一搜索回合中,编码器处理电路从第一脉冲633(PN=1)到下一个脉冲635顺序搜索脉冲位置,直到最后的脉冲637(PN=N)。第一次之后对于每一脉冲,当前脉冲位置的搜索通过考虑来自先前定位的脉冲的影响进行。影响是希望尽量减小固定子码本误差信号408的能量。在第二搜索回合中,编码器处理电路考虑所有其它脉冲的影响,再次是从第一脉冲639到最后脉冲641相继校正每一脉冲位置。在后继的回合中,重复第二或后继搜索回合的功能,直到达到最后回合643。如果允许增加复杂性可采用进一步的回合。遵循这一过程直到k个回合完成645并对子码本计算出值。
图8是图7所描述的方法的流程图,用于搜索包括多个子码本的固定码本。第一回合由搜索第一子码本653开始651,并以图7所描述的相同的方式搜索其它子码本655,并保持最佳结果657,直到搜索到最后的子码本659。如果需要,也可以迭代方式使用第二回合661或后继回合663。在某些实施例中,为了最小化复杂性和缩短搜索,在结束第一搜索回合之后一般选择固定码本中的子码本之一。进一步的搜索回合只就选择的子码本进行。在另外的实施例中,只是在第二搜索回合之后或在此之后可选择子码本之一,如果这样作处理资源允许。希望有最小复杂性的计算,特别是因为在添加如这里所述的增强之前,计算多达两次或三次脉冲,而不是一个脉冲。
在一个示例性实施例中,对固定码本向量(vc)402搜索最佳向量是在三个5-脉冲码本160的每一个中完成的。在三个5-脉冲码本160每一个内的搜索过程结束时,标识固定码本向量(vc)402的最佳候选向量。从将被使用的哪一个5-脉冲码本160选择哪一个候选最佳向量可被确定,它将使对应的的固定码本误差信号408对三个最佳向量的每一个最小化。为这一决策之目的,三个候选子码本的每一个的对应的固定码本误差信号408将被称为第一、第二和第三固定子码本误差信号。
来自第一、第二和第三固定码本误差信号的加权均方误差(WMSE)的最小化,在数学上与基准值最大化等价,该基准值可通过乘以加权因子首先被修改,以便最佳选择一个特别的子码本。在用于分类为类型0的帧的全速率编解码器22中,来自第一、第二和第三固定码本误差信号的基准值可通过基于子码本的加权度量被加权。可使用残留信号的锐度度量、话音活动决策模块、噪声对信号比值(NSR)以及规一化的音调相关性估计该加权因子。其它实施例可使用其它的加权因子度量。基于加权并且基于最大基准值,可选择三个5-脉冲固定码本160之一,及该子码本中的最佳候选向量。
然后所选的5-脉冲码本161、163、165可被细搜索对于固定码本向量(vc)402的最终决策最佳向量。使用所选择的最佳候选向量作为初始启动向量,在选择的5-脉冲码本160中对向量进行细搜索。标识来自固定码本向量的最佳向量(最大基准值)的指标在位流中传输给解码器。
在一实施例中,对于4-子帧全速率编码器的固定码本激励由每子帧22位表示。这些位可表示几种可能的脉冲分布、符号及位置。半速率2-子帧编码器的固定码本激励,由每帧15位表示,也是表示为脉冲分布、符号、位置、以及可能的随机激励。这样,对于全速率编码器中的固定激励使用88位,并对于半速率编码器中的固定激励使用30位。在一实施例中,如图5中所示的不同子码本的数目包括固定码本。使用搜索例行程序,并只对进一步的处理从一子码本选择最佳匹配向量。
对于类型0(F0)的帧对全速率编解码器的四个子帧的每一个,以22位表示固定码本激励。如图5所示,对于类型0的固定码本,全速率码本160具有三个子码本。第一码本161有5个脉冲和221项。第二码本163也有5个脉冲和220项,而第三固定子码本165使用5个脉冲并有220项。脉冲位置的分布在每一子码本中是不同的。一位用来在第一码本或第二或第三码本之间进行区分,另一位用来在第二和第三码本之间进行区分。
F0编解码器的第一子码本具有21位结构(连同用来区分哪一子码本的第22位),其中5-脉冲码本对三个轨迹的每一个轨迹使用4位(16个位置),且对于2轨迹的每一个轨迹使用3位,于是21位表示脉冲的位置(三位用于符号、3个轨迹×4位+2轨迹×3位=18位)。一个5-脉冲的例子,对于每一子帧21位固定子码本编码方法如下:
脉冲1:{0,5,10,15,20,25,30,35,2,7,12,17,22,27,32,37}
脉冲2:{1,6,11,16,21,26,31,36,3,8,13,18,23,28,33,38}
脉冲3:{4,9,14,19,24,29,34,39}
脉冲4:{1,6,11,16,21,26,31,36,3,8,13,18,23,28,33,38}
脉冲5:{4,9,14,19,24,29,34,39},
其中数字表示子帧中的位置。
注意两个轨迹是带有8个非零位置的“3-位”,而其它三个是带有16个位置的“4-位”。注意第二脉冲的轨迹与第四脉冲的轨迹相同,而第三脉冲的轨迹与第五脉冲的轨迹相同。然而,第二脉冲的位置不必与第四脉冲的位置相同,且第三脉冲的位置不必与第五脉冲的位置相同。例如,第二脉冲可在位置16,而第四脉冲可在位置28。由于对于脉冲1、脉冲2和脉冲4有16个可能的位置,故每一个由4位表示。由于对于脉冲3和脉冲5有8个可能的位置,故每一个由3位表示。一位用来表示脉冲1的符号;1位用来表示脉冲2和脉冲4的组合符号;并且1位用来表示脉冲3和脉冲5的组合符号。组合符号使用脉冲位置中的信息冗余。例如,在位置11处放置脉冲2,并且在位置36处放置脉冲4,与在位置36处放置脉冲2并且在位置11处放置脉冲4是相同的。这一冗余等价于1位,因而传输两个不同的符号与用于脉冲2和脉冲4以及用于脉冲3和脉冲5的一位。这一码本的整个位流包括1+1+1+4+4+3+4+3=21位。这一固定子码本结构示于图10中。
一种用于第二5-脉冲子码本163的结构,该结构带有220个项,可表示为五个轨迹的一矩阵。20位足够表示5-脉冲子码本,对每一位置需要三位(每轨迹8个位置),5x3=15位,且5位用于符号。(如以上所指出,每子帧总共22位,其它2位指示使用三个子码本中哪一个。)
脉冲1:{0,1,2,3,4,6,8,10}
脉冲2:{5,9,13,16,19,22,25,27}
脉冲3:{7,11,15,18,21,24,28,32}
脉冲4:{12,14,17,20,23,26,30,34}
脉冲5:{29,31,33,35,36,37,38,39}
其中数字表示子帧内的位置。由于每一轨迹有八个可能的位置,每一脉冲的位置使用3位来传输。一位用来指示每一脉冲的符号。因而,这一码本的整个位流由1+3+1+3+1+3+1+3+1+3=20位组成。这一结构示于图11。
在相同的20位环境中固定码本的第三个5-脉冲子码本165的结构为
脉冲1:{0,1,2,3,4,5,6,7}
脉冲2:{8,9,10,11,12,13,14,15}
脉冲3:{16,17,18,19,20,21,22,23}
脉冲4:{24,25,26,27,28,29,30,31}
脉冲5:{32,33,34,35,36,37,38,39}
其中数字表示子帧内的位置。由于每一轨迹有8个可能的位置,每一脉冲的位置使用3位来传输。一位用来指示每一脉冲的符号。因而,这一码本的整个位流由1+3+1+3+1+3+1+3+1+3=20位组成。这一结构示于图12。
在F0编解码器中,每一搜索回合产生来自每一子码本的候选向量,及对应的的基准值,这是加权的均方误差的函数,结果来自使用所选择的候选向量。注意,基准值为使得基准值的最大化从而加权均方误差(WMSE)最小化。首先使用第一回合(然后添加脉冲)及第二回合(脉冲位置的另一加细)搜索第一子码本。然后仅使用第一回合搜索第二子码本。如果来自第二子码本的基准值大于来自第一子码本的基准值,则暂时选择第二子码本,否则,暂时选择第一子码本。然后使用音调相关性、加细的子帧类别决策、残留锐度及NSR,修改暂时选择的子码本基准值。使用第一回合随后是第二回合搜索第三子码本。如果来自第三子码本的基准值大于暂时选择的子码本的修改基准值,则选择第三子码本作为最终子码本,否则,暂时选择的子码本(第一或第二子码本)是最终子码本。基准值的修改有助于选择第三子码本(它更适用于噪声的表示),即使第三子码本的基准值稍微小于第一或第二子码本的基准值。
如果将第一或第三子码本选择为最终子码本,则进而使用第三回合搜索最终子码本,或者如果将第二子码本选择为最终子码本则使用第二回合,以便选择最终子码本中最佳脉冲位置。
用于半速率编解码器的类型0固定码本
类型0的半速率编解码器的固定码本激励,使用15位用于半速率编解码器帧的两个子帧的每一个。码本有三个子码本,其中两个是脉冲码本,并且第三个是高斯码本。类型0帧使用3个码本用于两个子帧的每一个。第一码本192有2个脉冲,第二码本194有3个脉冲,而第三码本196包括随机激励,使用高斯分布(高斯码本)预先确定的。由增益(gc)404表示的固定码本增益的初始目标可类似于全速率编解码器22来确定。此外,可类似于全速率编解码器22对在固定码本390内搜索固定码本向量(vc)402加权。在半速率编解码器24中,加权可施加于来自每一脉冲码本192、194以及高斯码本196的最佳向量。施加加权以便从感知观点确定最适合的固定码本向量(vc)402。
此外,在半速率编解码器中加权被加权的均方误差可进一步被增强以便强调感知的观点。进一步的增强可通过在加权中包含附加的参数实现。附加的因子可以是闭环音调滞后和规一化自适应码本相关性。其它的特性可对语音的感知质量提供进一步的增强。
对于80个采样的每一子帧以15位编码所选择的码本、脉冲位置和用于脉冲码本或高斯码本的高斯激励脉冲符号。位流中的第一位指示使用哪一个码本。如果第一位设置为‘1’,则使用第一码本,并且如果第一位设置为‘0’,则使用第二码本或第三码本。如果第一位设置为‘1’,所有其余14位用来对第一码本描述脉冲位置和符号。如果第一位设置为‘0’,则第二位指示是使用第二码本还是使用第三码本。如果第二位设置为‘1’,则使用第二码本,并且如果第二位设置为‘0’,则使用第三码本。其余的13位用来描述第二码本的脉冲位置和符号,或对于第三码本的高斯激励。
2-脉冲子码本的轨迹具有80个位置,并由以下给出:
脉冲1:
0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,
32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,
48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,
64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79
脉冲2:
0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,
32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,
48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,
64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79
由于log2(80)=6.322…,小于6.5,两个脉冲的位置可被组合并使用2x6.5=13位编码。第一个指标乘以80,第二个指标加到结果上。其结果是小于213=8192的组合的指标数,并且能够由13位表示。在解码器处,第一个指标是通过组合的指标数除以80取整获得的,第二个指标是通过组合的指标数除以80的余数获得的。由于两个脉冲的轨迹重叠,故只用1位表示两个符号。因而,对于这一码本的整个的位流包括1+13=14位。这一结构示于图13。
对于3-脉冲子码本,每一脉冲的位置限制为特定的轨迹,它们通过三脉冲组的一般的位置(由开始点定义)和三脉冲每一个对一般位置的各相对位移的组合产生。一般的位置(称为“相位”)由4位定义,而每一脉冲的相对位移由每脉冲2位定义。三个附加的位定义三个脉冲的符号。相位(放置三个脉冲的开始点)和脉冲的相对位置由以下给出:
脉冲1:{0,4,8,12,16,20,24,28,33,38,43,48,53,58,63,68}
脉冲1:0,3,6,9
脉冲2:1,4,7,10
脉冲3:2,5,8,11
以下的例子示出相位如何与相对位置组合。对于相位指标7,相位是28(第8位置,由于指标从0开始)。然后第一脉冲只能够在位置28、31、34、或37,第二脉冲只能够在位置29、32、35或38,第三脉冲只能在位置30、33、36或39。码本的整个位流包括1+2+1+2+1+2+4=13位,按脉冲1相关符号和位置、脉冲2相关符号和位置、脉冲3相关符号和位置、相位位置的顺序。这3-脉冲固定子码本结构示于图14。
在另一实施例中,带有3脉冲的第二子码本,类型0的帧每一脉冲的位置限制在特定的轨迹。第一脉冲的位置以固定轨迹编码,而其余两个脉冲的位置以相对于第一脉冲选择的位置动态轨迹编码。第一脉冲的固定轨迹和其它两个轨迹的相对轨迹定义如下:
脉冲1:0,5,10,15,20,25,30,35,40,45,50,55,60,65,70,75.
脉冲2:Pos1-7,Pos1-5,Pos1-3,Pos1-1,Pos1+1,Pos1+3,Pos1+5,Pos1+7.
脉冲3:Pos1-6,Pos1-4,Pos1-3,Pos1,Pos1+2,Pos1+4,Pos1+6,Pos1+8.
当然,动态轨迹必须限制在子码本范围。用于该第二子码本的总位数是13位=4(脉冲1)+3(脉冲2)+3(脉冲3)+3(符号)。
最后使用基于两个正交基向量的快速搜索例行程序搜索高斯码本。来自三个码本的加权均方误差(WMSE)在感知上对于码本的最后选择和码本指标被加权。对于半速率编解码器,类型0,有两个子帧,并且15位用来刻画每一子帧。高斯码本使用从高斯分布产生的预定随机数的一个表。该表包含每向量中40个随机数的32个向量。使用两个向量子帧被填充80个采样,第一个向量填充偶数位置,而第二向量填充奇数位置。每一向量乘以由1位表示的符号。
从存储的32个向量中产生45个随机向量。前32个向量与存储的32个向量相同。最后13个随机向量从表中13个首先存储的向量中产生,其中每一向量循环向左位移。左循环位移是通过向向量中第一位置移动每一向量中的第二随机数而实现的,第三随机数向第二位置位移等等。为了完成左循环位移,第一随机数放置在向量的末端。由于log2(45)=5.492…小于5.5,故两个随机向量的指标可被组合,并使用2×5.5=11位编码。第一指标乘以45,并加到第二指标上。该结果是小于211=2048的组合指标,并能够以11位表示。这样高斯码本可产生并使用比码本本身内包含的更多的向量。
在解码器中,第一指标通过组合指标数除45以取整获得,且第二指标通过组合指标数除以45的余数获得。两个向量的符号也按顺序被编码。因而,对于这一码本的整个位流包括1+1+11=13位。该高斯固定子码本的结构示于图15。
对于H0编解码器,首先使用第一回合(顺序加脉冲)和第二回合(脉冲位置的另一加细)搜索第一子码本。然后使用音调滞后和音调相关性修改第一子码本的基准值。然后以两个步骤搜索第二子码本。在第一步骤中,找到代表可能的中心的位置。然后搜索并确定围绕该中心的三个脉冲位置。如果来自第二子码本的基准值大于来自第一子码本修改的基准值,则暂时选择第二子码本,并如果不是,则暂时选择第一子码本。进而使用加细的子帧类别决策、音调相关性、残留锐度、音调滞后和NSR修改暂时选择的子码本的基准值。然后搜索高斯子码本。如果来自高斯子码本搜索的基准值大于暂时选择的子码本的修改的基准值,则选择高斯子码本作为最终子码本。如果不是,则暂时选择的子码本(第一或第二)是最终子码本。基准值的修改有助于选择高斯子码本(它更适合于表示噪声),即便高斯子码本的基准值稍微小于第一子码本的修改的基准值或第二子码本的基准值。使用在最终子码本中选择的向量,而没有进一步的加细搜索。
在另一实施例中,使用子码本既不是高斯也不是脉冲类型。这一子码本可通过不同于高斯方法的普通方法构成,其中子码本内至少20%的位置是非零位置。除了高斯方法之外可使用任何构成方法。
第一类型1帧的固定码本编码
现在参见图9,F1和H1第一帧处理模块72和82包括3D/4D开环VQ模块454。F1和H1子帧处理模块74和84包含自适应码本368,固定码本390、第一乘法器456、第二乘法器458、第一合成滤波器460及第二合成滤波器462。此外,F1和H1子帧处理模块74和84包含第一感知加权滤波器464、第二感知加权滤波器466、第一减法器468、第二减法器470、第一最小化模块472和能量调节模块474。F1和H1第二帧处理模块76和86包括第三乘法器476、第四乘法器478、加法器480、第三合成滤波器482、第三感知加权滤波器484、第三减法器486、缓冲模块488、第二最小化模块490和3D/4D VQ增益码本492。
在激励-处理模块54内被分类为类型1的帧的处理提供了基于帧以及子帧两者的处理。为了简洁的目的,以下的讨论涉及全速率编解码器22内的模块。除非具体指出,半速率编解码器24中的模块被认为功能类似。通过F1第一帧处理模块72量化自适应码本增益产生自适应增益成分148b。F1子帧处理模块74和F1第二帧处理模块76分别如前所述操作,以确定固定码本向量和对应的固定码本增益。F1子帧处理模块74使用如前面所讨论的轨迹表,产生如图6所示的固定码本成分146b。
F1第二帧处理模块76量化固定码本增益以产生固定增益成分150b。在一实施例中,全速率编解码器22使用10位来量化4个固定码本增益,而半速率编解码器24使用8位来量化3个固定码本增益。量化可以使用移动平均预测进行。一般来说在进行预测和量化之前,预测状态被转换为适当的维数。
在全速率编解码器中,通过使用以分贝(dB)为单位的多个固定码本能量表示固定码本增益,而产生类型1的固定码本增益成分150b。固定码本能量被量化而产生多个量化的固定码本能量,然后它们被转换而生成多个量化的固定码本增益。此外,从先前的帧的量化的固定码本能量误差预测固定码本能量,以产生多个预测的固定码本能量。预测的固定码本能量与固定码本能量之间的差是多个预测的固定码本能量误差。不同的预测系数用于每一子帧。第一、第二、第三和第四子帧的预测的固定码本能量,是分别使用系数集{0.7,0.6,0.4,0.2},{0.4,0.2,0.1,0.05},{0.3,0.2,0.075,0.025},及{0.2,0.075,0.025,0.0},从先前帧的4个量化的固定码本能量误差中预测出的。
第一帧处理模块
3D/4D开环VQ模块454从音调预处理模块(未示出)接收非量化音调增益352。非量化音调增益352表示对于开环音调滞后的自适应码本增益。3D/4D开环VQ模块454量化非量化音调增益352以产生表示对每一子帧最佳量化音调增益的量化的音调增益(gk a)496,其中k是子帧数。在一实施例中,对于全速率编解码器22有四个子帧,并对于半速率编解码器24有三个子帧,它们分别对应于每一子帧的四个量化增益(g1 a,g2 a,g3 a和g4 a)和三个量化增益(g1 a,g2 a和g3 a)。在预增益量化表内量化的音调增益(gk a)496的指标位置表示对于全速率编解码器22的自适应增益成分148b,及对于半速率编解码器24的自适应增益成分180b。量化的音调增益(gk a)496提供给F1第二子帧处理模块74或H1第二子帧处理模块84。
子帧处理模块
F1或H1子帧处理模块74或84使用音调轨迹348标识自适应码本向量(vk a)498。自适应码本向量(vk a)498表示对每一子帧的自适应码本,其中k是子帧数。在一实施例中,对全速率编解码器22有四个子帧,并对半速率编解码器24有三个子帧,它们分别对应于用于自适应码本对每一子帧贡献的四个向量(v1 a,v2 a,v3 a和v4 a)及三个向量(v1 a,v2 a和v3 a)。
自适应码本向量(vk a)498和量化的音调增益
Figure C0181563900341
496以第一乘法器456相乘。第一乘法器456产生由第一重新合成滤波器460和第一感知加权滤波器模块464处理的信号,以提供第一合成的语音信号500。作为处理的一部分,第一重新合成滤波器460从LSF量化模块(未示出)接收量化的LPC系数Aq(z)342。第一减法器468从由音调预处理模块(未示出)提供的修改的加权语音350减去第一重新合成的语音信号500,以产生长期误差信号502。
F1或H1子帧处理模块74或84还对固定码本贡献进行搜索,这类似于先前讨论的由F0和H0子帧处理模块70和80所进行的搜索。表示子帧长期误差的固定码本向量(vk c)的向量是在搜索期间从固定码本390中选择的。第二乘法器458使固定码本向量(vk c)504乘以增益(gk c)506,其中k等于子帧数。增益(gk c)506是非量化的,并表示每一子帧的固定码本增益。所得的信号由第二合成滤波器462及第二感知加权滤波器466处理,以产生第二重新合成语音信号508。第二减法器470从长期误差信号502中减去第二重新合成语音信号508以产生固定码本误差信号510。
固定码本误差信号510与控制信息356一同由第一最小化模块472接收。第一最小化模块472以先前讨论的图6中所示第二最小化模块400相同的方式操作。搜索处理重复进行,直到第一最小化模块472已经对于每一子帧从固定码本390中选择了用于固定码本向量(vk c)504的最佳向量。用于固定码本向量(vk c)504的最佳向量使固定码本误差信号510的能量最小化。如先前所讨论,该指标标识用于固定码本向量(vk c)504的最佳向量,并形成固定码本成分146b和178b。
全速率编解码器的类型1固定码本搜索
在一实施例中,全速率编解码器22将图4中所示的8-脉冲的码本162用于类型1的帧的四个子帧的每一个。固定码本向量(vk c)504的目标是长期误差信号502。由t`(n)表示的长期误差信号502是基于由t(n)表示的修改的加权语音350确定的,根据以下从初始帧处理模块44去除自适应目标贡献:
t′(n)=t(n)-ga·(va(n)*h(n)).      (方程式7)
其中 v a ( n ) = Σ i = - 10 10 w s ( f ( L p ( n ) ) , I ) · e ( n - I ( L p ( n ) ) + I )
以及其中t`(n)是固定码本搜索的目标,t(n)是目标信号,ga是自适应码本增益,h(n)是感知加权合成滤波器的脉冲响应,e(n)是过去的激励,I(Lp(n))是音调滞后的整数部分,并且f(Lp(n))是音调滞后的分数部分,以及ws(f,i)是汉明加权Sinc窗口。
带有230项的8脉冲单码本用于类型1的帧由全速率编解码器编码的四个子帧的每一个。在这一例子中,有6个轨迹对于每一轨迹带有8个可能的位置(每个3位),并且两个轨迹对于每个轨迹有16个可能的位置(每个4位)。4位用于符号。对类型-1的全速率编解码器处理的每一子帧提供30位。在40-采样子帧中每一脉冲能够被放置的位置限于轨迹。8脉冲的轨迹由以下给出:
脉冲1:{0,5,10,15,20,25,30,35,2,7,12,17,22,27,32,37}
脉冲2:{1,6,11,16,21,26,31,36}
脉冲3:{3,8,13,18,23,28,33,38}
脉冲4:{4,9,14,19,24,29,34,39}
脉冲5:{0,5,10,15,20,25,30,35,2,7,12,17,22,27,32,37}
脉冲6:{1,6,11,16,21,26,31,36}
脉冲7:{3,8,13,18,23,28,33,38}
脉冲8:{4,9,14,19,24,29,34,39}
第1脉冲的轨迹与第5脉冲的轨迹相同,第2脉冲的轨迹与第6脉冲的轨迹相同,第3脉冲的轨迹与第7脉冲的轨迹相同,第4脉冲的轨迹与第8脉冲的轨迹相同。类似于对类型0帧第一子码本讨论,选择的脉冲位置通常是不相同的。由于脉冲1和脉冲5有16个可能的位置,每一个以4位表示。由于脉冲2到8有8个可能的位置,故每一个以3位表示。一位用来表示脉冲1和脉冲5的组合符号(脉冲1和脉冲5有相同的绝对量值,且它们的选择的位置能够被交换)。1位用来表示脉冲2和脉冲6的组合符号,1位用来表示脉冲3和脉冲7的组合符号,1位用来表示脉冲4和脉冲8的组合符号。组合符号使用脉冲位置中信息的冗余。因而,这一码本整个的位流由1+1+1+1+4+3+3+3+4+3+3+3=30位组成。这一子码本结构示于图16。
半速率编解码器的类型1固定码本搜索
在一实施例中,对半速率编解码器24分类为类型1的帧的三个子帧的每一个,长期误差信号由13位表示。长期误差信号可按类似于全速率编解码器22的固定码本搜索方式来确定。类似于对于类型0的帧的半速率编解码器24的固定码本搜索,将高频噪声注入、通过先前子帧中的高相关性确定的添加脉冲、及微弱短期谱滤波器引入到第二合成滤波器462的脉冲响应中。此外,音调增强也可引入到第二合成滤波器462的脉冲响应中。
在半速率类型一编解码器中,自适应和固定码本增益成分180b和182b也可类似于全速率编解码器22使用多维向量量化器产生。在一实施例中,将三维预向量量化器(3D预VQ)和三维延迟向量量化器(3D延迟VQ)分别用于自适应和固定增益成分180b和182b。在一实施例中对于分类为类型1的帧的每一子帧,每一多维增益表包括3个元素。类似于全速率编解码器,用于自适应增益成分180b的预向量量化器直接量化自适应增益,并且类似地用于固定增益成分182b的延迟向量量化器量化固定码本能量预测误差。使用不同的预测系数来对每一子帧预测固定码本能量。第一、第二和第三子帧的预测的固定码本能量是分别使用系数集{0,6,0.3,0.1},{0.4,0.25,0.1}和{0.3,0.15,0.075}从先前帧的3个量化的固定码本能量误差中预测的。
在一实施例中,H1编解码器使用两个子码本,并在另一实施例中使用三个子码本。前两个子码本在两个实施例中是相同的。对于半速率编解码器类型1的帧的三个子帧每一个,固定码本激励以13位表示。第一码本有2个脉冲、第二码本有3个脉冲、第三码本有5个脉冲。对每一子帧以13位编码码本、脉冲位置和脉冲符号。前两个子帧的大小是53个采样,最后子帧的大小是54个采样。位流中的第一位指示是使用第一码本(12位),还是使用第二或第三子码本(每个11位)。如果第一位设置为‘1’,则使用第一码本,如果第一位设置为‘0’,则使用第二码本或第三码本。如果第一位设置为‘1’,所有其余12位用来对第一码本描述脉冲位置和符号。如果第一位设置为‘0’,第二位指示是使用第二码本还是使用第三码本。如果第二位设置为‘1’,使用第二码本,并如果第二位设置为‘0’,则使用第三码本。在两种情形下,其余的11位都用来描述第二码本或第三码本的脉冲位置和符号。如果没有第三子码本,则第二位总设置为“1”。
对于212项的2-脉冲子码本193(从图5),每一脉冲限制为一个轨迹,其中5位规定轨迹中的位置,1位规定脉冲符号。对于2脉冲的轨迹由以下给出
脉冲1:{0,1,2,3,4,5,6,7,8,9,10,12,14,16,18,20,22,24,26,28,30,32,34,36,38,40,42,44,46,48,50,52}
脉冲2:{1,3,5,7,9,11,12,13,14,15,16,17,18,19,20,21,22,23,25,27,29,31,33,35,37,39,41,43,45,47,51}
用于位置数是32,可使用5位对每一脉冲编码。两位对每一位定义符号。因而,这一码本的整个位流由1+5+1+5=12位组成(脉冲1符号、脉冲1位置、脉冲2符号、脉冲2位置)。这一结构示于图17。
对于第二子码本,212项的3-脉冲子码本195(从图5),对于类型1的帧的3-脉冲码本中三个脉冲的每一个的位置限制为特定的轨迹。对于三个脉冲的每一个脉冲和各相对位移的组合产生轨迹。相位由3位定义,每一脉冲的相对位移由每脉冲2位定义。相位(用于放置3个脉冲的开始点)和脉冲的相对位置由以下给出:
相位:0,5,11,17,23,29,35,41。
脉冲1:0,3,6,9
脉冲2:1,4,7,10
脉冲3:2,5,8,11
第一子码本被全搜索,随之是第二子码本全搜索。选择其结果是最大基准值的子码本和向量。该第二码本的整个位流包括3(相位)+2(脉冲1)+2(脉冲2)+2(脉冲3)+3(符号位)=12位,其中三个脉冲及它们的符号位领先于4位的相位位置。图18示出这一子码本结构。
在另一实施例中,我们把以上第二码本再划分两个子码本。就是说,第二子码本和第三子码本分别有211项。现在,对于带有3脉冲的第二子码本,类型1的帧的每一脉冲的位置限制为特定的轨迹。第一脉冲的位置以固定轨迹编码,且其余两个脉冲的位置以动态轨迹编码,它们与选择的第一脉冲的位置相关。第一脉冲的固定轨迹和其它两个轨迹的相关轨迹定义如下:
脉冲1:3,6,9,12,15,18,21,24,27,30,33,36,39,42,45,48.
脉冲2:Pos1-3,Pos1-1,Pos1+1,Pos1+3
脉冲3:Pos1-2,Pos1,Pos1+2,Pos1+4
当然,动态轨迹必须限制在子帧范围。
第三子码本包括5个脉冲,每一个被限制在一固定轨迹,且每一脉冲具有唯一的符号。这5个脉冲的轨迹为:
脉冲1:0,15,30,45
脉冲2:0,5
脉冲3:10,20
脉冲4:25,35
脉冲5:40,50
该第三子码本的整个位流包括11位=2(脉冲1)+1(脉冲2)+1(脉冲3)+1(脉冲4)+1(脉冲5)+5(符号)。这一结构示于图19。
在一实施例中,如图5所示全搜索对2-脉冲子码本193、3-脉冲子码本195及5-脉冲子码本197进行。在另一实施例中,也可使用先前描述的快速搜索方法。选择脉冲码本和对于使固定码本误差510最小化的固定码本向量(vk c)504的最佳向量,以便对每一子帧表示长期残留。此外,由增益(gk c)506表示的初始固定码本增益可在类似于全速率编解码器22的搜索期间确定。这些指标标识固定码本向量(vk c)504的最佳向量,并形成固定码本成分178b。
解码***
现在参见图20,一功能框图表示图3的全和半速率解码器90和92。全和半速率解码器90和92包括激励重构模块104、106、114和116,及线性预测系数(LPC)重构模块107和118。激励重构模块104、106、114和116的一个实施例包括自适应码本368、固定码本390、2D VQ增益码本412、3D/4D开环VQ码本454及3D/4D VQ增益码本492。激励重构模块104、106、114和116还包括第一乘法器530、第二乘法器532和加法器534。在一实施例中,LPC重构模块107和118包括LSF解码模块536和LSF转换模块538。此外,半速率编解码器24包括预测开关模块336,并且全速率编解码器22包括内插模块338。
解码器90、92、94和96接收如图4的位流,并且把信号解码以便重构用于信号18的不同的参数。解码器按速率选择和分类函数对每一帧解码。由无线远程通信***控制信道中的外部信号将速率选择从编码***提供给解码***16。
图20中还示出合成滤波器模块98和后处理模块100。在一实施例中,后处理模块100包括短期滤波器模块540、长期滤波器模块542、倾斜补偿滤波器模块544和自适应增益控制模块546。根据速率选择,位流可被解码以产生后处理的合成语音20。解码器90和92进行位流成分向算法参数的逆映射。逆映射可跟随与全和半速率编解码器22和24内合成相关的类型分类。
四分之一速率编解码器26和八分之一速率编解码器28的解码类似于全和半速率编解码器22和24。然而,四分之一和八分之一速率编解码器26和28如前所述,使用类似的但是随机数和能量增益向量,而不是自适应和固定码本368和390及相关增益。随机数和能量增益可用来重构表示帧短期激励的激励能量。除了预测器开关模块336和内插模块338之外,LPC重构模块122和126也类似于全和半速率编解码器22和24。
在全和半速率解码器90和92内,激励重构模块104、106、114和116的操作极大地依赖于由类型成分142和174提供的类型分类。自适应码本368接收音调轨迹348。音调轨迹348通过解码***16从位流中由编码***12提供的自适应码本成分144和176重构。取决于由类型成分142和174提供的类型分类,自适应码本368向乘法器530提供量化的自适应码本向量(vk a)550。乘法器530使量化的自适应码本向量(vk a)550乘以增益向量(gk a)552。增益向量(gk a)552的选择也依靠由类型成分142和174提供的类型分类。
在一示例性实施例中,如果帧被分类为全速率编解码器22中的类型0,则2D VQ增益码本412向乘法器530提供自适应码本增益(gk a)552。自适应码本增益(gk a)552是从自适应和固定码本增益成分148a和150a中确定的。自适应码本增益(gk a)552与由先前所讨论的F0子帧处理模块70的增益和量化部分366确定的量化增益向量
Figure C0181563900401
433的部分最佳向量相同。量化的自适应码本向量(vk a)550从闭环自适应码本成分144b中确定。类似地,量化的自适应码本向量(vk a)550与由子帧处理模块70确定的自适应码本向量(va)382的最佳向量相同。
2D VQ增益码本412是二维的,并向乘法器530提供自适应码本增益(gk a)552,以及向乘法器532提供固定码本增益(gk c)554。固定码本增益(gk c)554类似地从自适应和固定码本增益成分148a和150a中确定,并且是量化增益向量 433的部分最佳向量。还是基于类型分类,固定码本390向乘法器532提供量化的固定码本向量(vk c)556。量化的固定码本向量(vk c)556从由固定码本成分146a提供的码本标识、脉冲位置及脉冲符号,或半速率编解码器的高斯码本重构。量化的固定码本向量(vk c)556与先前讨论的F0子帧处理模块70确定的固定码本向量(vc)402的最佳向量相同。乘法器532使量化的固定码本向量(vk c)556乘以固定码本增益(gk c)554。
如果帧的类型分类是类型0,多维向量量化器向乘法器530提供自适应码本增益(gk a)552。其中多维向量量化器的维数依赖于子帧数。在一实施例中,多维向量量化器可以是3D/4D开环VQ454。类似地,多维向量量化器向乘法器532提供固定码本增益(gk c)554。自适应码本增益(gk a)552和固定码本增益(gk c)554由增益成分147和179提供,并且分别与量化的音调增益
Figure C0181563900412
496及量化的固定码本增益
Figure C0181563900413
513相同。
在被分类为类型0或类型1的帧中,来自第一乘法器530的输出由加法器534接收,并加到第二乘法器532的输出上。乘法器534的输出是短期激励。将该短期激励提供给短期激励线128上的合成滤波器模块98。
解码器90和92中短期(LPC)预测系数的产生类似于编码***12中的处理。LSF解码模块536从LFS成分140和172重构量化的LSFs。LFS解码模块536使用由编码***12使用的相同的量化表和LFS预测器系数表。对于半速率编解码器24,预测器开关模块336选择预测器系数集合之一,以便计算预测的由LSF成分140和172指示的LSF。使用与在编码***12中使用的相同的线性内插路径来进行量化的LSF的内插。对于被分类为类型0帧的全速率编解码器22,内插模块338选择在编码***12中由LSF成分140和172指示的相同的内插路径之一。量化的LSF的加权之后是在LSF转换模块538内转换为量化的LPC系数Aq(z)342。量化的LPC系数Aq(z)342是提供给在短期预测系数线130上的合成滤波器98的短期预测系数。
量化的LPC系数Aq(z)342可由合成滤波器98使用,以便对短期预测系数滤波。合成滤波器98是短期逆向预测滤波器,它产生不被后处理的合成语音。然后非后处理的合成语音可通过后处理模块100。还将短期预测系数提供给后处理模块100。
长期滤波器模块542对于合成语音中的音调周期进行细调节搜索。在一实施例中,细调节搜索使用音调相关性和速率相关增益控制的谐波滤波器进行。谐波滤波对于四分之一速率编解码器26及八分之一速率编解码器28是不可用的。后滤波以自适应增益控制模块546结束。自适应增益控制模块546把已经在后处理模块100内处理的合成语音的能级带到非滤波合成语音的水平。在自适应增益控制模块546内还可进行某些级别的平滑和适应。后处理模块100滤波的结果是合成语音20。
实施例
语音压缩***10的实施例的一种实现可以是在数字信号处理(DSP)芯片中。DSP芯片可以用源代码编程。可首先将源代码转换到固定点,然后转换为DSP专用的编程语言。然后转换的源代码下载到DSP并在这里运行。
图21是根据使用音调增益、固定子码本及至少一个用于编码的附加的因子的实施例的语音编码***100的框图。语音编码***100包括通过通信介质110操作连接到第二通信装置115的第一通信装置105。语音编码***100可以是任何蜂窝式电话、射频或其它能够对语音信号145编码并解码编码的信号以生成合成语音150的远程通信***。通信装置105、115可以是蜂窝式电话、便携式无线收发信机等。
通信介质110可包括使用任何传输机制的***,包括无线电波、红外线、陆地波、光纤和任何其它能够传输数字信号(有线或电缆)的介质,或任何它们的组合。通信介质110还可以包括存储介质,包括存储器装置、存储介质或任何其它能够存储并检索数字信号的装置。在使用中,通信介贡110在第一和第二通信装置105、115之间传输数字位流。
第一通信装置105包括如图所示连接的模拟到数字转换器120、预处理器125及编码器130。第一通信装置105可具有天线或其它通信介质接口(未示出),用于与通信装置110发送和接收数字信号。第一通信装置105还可有其它业内已知的用于通信装置的组件,诸如解码器或数字到模拟转换器。
第二通信装置115包括如图所示连接的解码器135和数字到模拟转换器140。虽然未示出,但第二通信装置115可具有一个或多个合成滤波器、后处理器及其它组件。第二通信装置115还可具有一天线或其它通信介质接口(未示出)用于与通信介质发送和接收数字信号。预处理器125、编码器130、及解码器135包括处理器、数字信号处理器(DSPs)应用专用集成电路,或其它数字装置,用于实现这里所讨论的编码和算法。预处理器125和编码器130可包括分开的组件或同一组件。
在使用中,模拟到数字转换器120从话筒(未示出)或其它信号输入装置接收语音信号145。语音信号可以是话音语音、音乐、或其它模拟信号。模拟到数字转换器120数字化语音信号,向预处理器125提供数字化的语音信号。预处理器125使数字化的信号通过高通滤波器(未示出),其截止频率最好大约为60-80Hz。预处理器125可进行其它处理诸如噪声抑制,以改进用于编码的数字化信号。编码器130使用音调滞后、固定码本、固定码本增益、LPC参数、及其它参数对语音编码。代码在通信介质110中传输。
解码器135从通信介质110接收位流。解码器操作以便对位流解码并以数字信号的形式产生合成语音信号150。合成语音信号150由数字到模拟转换器140转换为模拟信号。编码器130和解码器135使用通常称为编解码器的语音压缩***,降低噪声抑制数字化语音信号的位速率。例如,代码激励线性预测(CELP)编码技术采样几种预测技术,以便从语音信号中去除冗余。
虽然本发明的实施例包括如上所述的特定模式,但本发明不限于这一实施例。这样,可从多于三个模式和少于三个模式之中选择一个模式。例如,另一实施例可从五个模式中:模式0、模式1、模式2、以及模式3以及半速率最大模式中进行选择。本发明的又另一实施例,当传输电路正被全容量使用时,可包括非传输模式。虽然最好在G.729标准环境中实现,但本发明可包括其它的实施例和实现方式。
虽然已经描述了本发明的各种实施例,但对业内专业人员明显的是,在本发明的范围内可有更多的实施例和实现方式。于是,本发明除了所附权利要求及其等价物之外不受限制。

Claims (19)

1.一种语音编码***,包括:
语音处理电路,配置为接收语音波形,
其中语音处理电路包括具有多个子码本的码本,至少两个子码本不同;
其中每一子码本包括多个脉冲位置,用于响应语音波形产生至少一个码向量;
其中多个子码本包括具有随机脉冲位置的随机子码本,其中至少20%随机脉冲位置是非零的,并且
其中所述语音处理电路使用所述码本,基于音调相关性、残留锐度、噪声对信号比值及音调滞后中至少之一产生码向量。
2.根据权利要求1的语音编码***,其中至少一个码向量是脉冲状和噪声状之一。
3.根据权利要求1的语音编码***,其中多个子码本还包括:
第一子码本,提供包括第一脉冲和第二脉冲的第一码向量;以及
第二子码本,提供包括第三脉冲、第四脉冲和一第五脉冲的第二码向量。
4.根据权利要求3的语音编码***,其中多个子码本进一步包括:
第三子码本,提供包括第六脉冲、第七脉冲、第八脉冲、第九脉冲和第十脉冲的第三码向量。
5.根据权利要求4的语音编码***,
其中第一子码本包括第一轨迹和第二轨迹,其中第一脉冲从第一轨迹中选择,且第二脉冲从第二轨迹中选择;
其中第二子码本包括第三轨迹、第四轨迹和第五轨迹,其中第三脉冲从第三轨迹中选择,第四脉冲从第四轨迹中选择,且第五脉冲从第五轨迹中选择;以及
其中第三子码本包括第六轨迹、第七轨迹、第八轨迹、第九轨迹和第十轨迹,其中第六脉冲从第六轨迹中选择,第七脉冲从第七轨迹中选择,第八脉冲从第八轨迹中选择,第九脉冲从第九轨迹中选择,且第十脉冲从第十轨迹中选择。
6.根据权利要求5的语音编码***,
其中第一轨迹包括脉冲位置
0,1,2,3,4,5,6,7,8,9,10,12,14,16,18,20,22,24,26,28,30,32,34,36,38,40,42,44,46,48,50,52;
其中第二轨迹包括脉冲位置
1,3,5,7,9,11,12,13,14,15,16,17,18,19,20,21,22,23 25,27,29,31,33,35,37,39,41,43,45,47,49,51;
其中第三轨迹包括脉冲位置
3,6,9,12,15,18,21,24,27,30,33,36,39,42,45,48;
其中第四轨迹包括脉冲位置
Pos1-2,Pos1,Pos1+2,Pos1+4;
其中第五轨迹包括脉冲位置
Pos1-3,Pos1-1,Pos1+1,Pos1+3;
其中第六轨迹包括脉冲位置
0,15,30,45;
其中第七轨迹包括脉冲位置
0,5;
其中第八轨迹包括脉冲位置
10,20;
其中第九轨迹包括脉冲位置
25,35;以及
其中第十轨迹包括脉冲位置
40,50,
其中第四和第五轨迹相对于Pos1是动态的,Pos1是第三脉冲的确定的位置并限制在子帧内。
7.根据权利要求5的语音编码***,其中第四轨迹和第五轨迹的脉冲候选位置分别有相对于第三脉冲确定的位置的相对位移。
8.根据权利要求7的语音编码***,其中相对位移包括2位且第三脉冲的位置包括4位。
9.根据权利要求8的语音编码***,其中第三脉冲的位置包括3,6,9,12,15,18,21,24,27,30,33,36,39,42,45,48。
10.根据权利要求3的语音编码***,
其中第一子码本包括第一轨迹和第二轨迹,其中第一脉冲选自第一轨迹且第二脉冲选自第二轨迹;以及
第二子码本包括第三轨迹、第四轨迹和第五轨迹,其中第三脉冲选自第三轨迹,第四脉冲选自第四轨迹,第五脉冲选自第五轨迹。
11.根据权利要求10的语音编码***,
其中第一轨迹包括脉冲位置
0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79;
其中第二轨迹包括脉冲位置
0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79;
其中第三轨迹包括脉冲位置
0,5,10,15,20,25,30,35,40,45,50,55,60,65,70,75;
其中第四轨迹包括脉冲位置
Pos1-8,Pos1-6,Pos1-4,Pos1-2,Pos1+2,Pos1+4,Pos1+6,Pos1+8;
其中第五轨迹包括脉冲位置
Pos1-7,Pos1-5,Pos1-3,Pos1-1,Pos1+1,Pos1+3,Pos1+5,Pos1+7,
其中第四和第五轨迹相对于Pos1是动态的,Pos1是第三脉冲确定的位置并限于子帧内。
12.根据权利要求10的语音编码***,其中第四轨迹和第五轨迹的脉冲位置每一个相对于第三脉冲确定的位置具有相对位移。
13.根据权利要求12的语音编码***,其中相对位移包括3位,且第三脉冲确定的位置包括4位。
14.权利要求13的语音编码***,其中第三脉冲确定的位置包括0,5,10,15,20,25,30,35,40,45,50,55,60,65,70,75。
15.根据权利要求1、3或4的语音编码***,其中语音处理电路使用基准值选择子码本之一,以提供码向量之一。
16.根据权利要求15的语音编码***,其中基准值响应自适应加权因子。
17.根据权利要求16的语音编码***,其中自适应加权因子从音调相关性、残留锐度、噪声对信号比值及音调滞后中至少之一计算。
18.根据权利要求1、3或4的语音编码***,其中语音处理电路包括编码器和解码器至少之一。
19.根据权利要求1、3或4的语音编码***,其中语音处理电路包括至少一个数字信号处理器芯片。
CNB018156398A 2000-09-15 2001-09-17 语音编码*** Expired - Lifetime CN1240049C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/663,242 US6556966B1 (en) 1998-08-24 2000-09-15 Codebook structure for changeable pulse multimode speech coding
US09/663,242 2000-09-15

Publications (2)

Publication Number Publication Date
CN1457425A CN1457425A (zh) 2003-11-19
CN1240049C true CN1240049C (zh) 2006-02-01

Family

ID=24660996

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB018156398A Expired - Lifetime CN1240049C (zh) 2000-09-15 2001-09-17 语音编码***

Country Status (8)

Country Link
US (1) US6556966B1 (zh)
EP (1) EP1317753B1 (zh)
KR (1) KR20030046451A (zh)
CN (1) CN1240049C (zh)
AT (1) ATE344519T1 (zh)
AU (1) AU2001287969A1 (zh)
DE (1) DE60124274T2 (zh)
WO (1) WO2002025638A2 (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6704701B1 (en) * 1999-07-02 2004-03-09 Mindspeed Technologies, Inc. Bi-directional pitch enhancement in speech coding systems
US6959274B1 (en) 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US7013268B1 (en) 2000-07-25 2006-03-14 Mindspeed Technologies, Inc. Method and apparatus for improved weighting filters in a CELP encoder
FR2813722B1 (fr) * 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
JP3558031B2 (ja) * 2000-11-06 2004-08-25 日本電気株式会社 音声復号化装置
US7505594B2 (en) * 2000-12-19 2009-03-17 Qualcomm Incorporated Discontinuous transmission (DTX) controller system and method
JP3404016B2 (ja) * 2000-12-26 2003-05-06 三菱電機株式会社 音声符号化装置及び音声符号化方法
JP3566220B2 (ja) * 2001-03-09 2004-09-15 三菱電機株式会社 音声符号化装置、音声符号化方法、音声復号化装置及び音声復号化方法
US6996522B2 (en) * 2001-03-13 2006-02-07 Industrial Technology Research Institute Celp-Based speech coding for fine grain scalability by altering sub-frame pitch-pulse
FI119955B (fi) * 2001-06-21 2009-05-15 Nokia Corp Menetelmä, kooderi ja laite puheenkoodaukseen synteesi-analyysi puhekoodereissa
US7133485B1 (en) * 2001-06-25 2006-11-07 Silicon Laboratories Inc. Feedback system incorporating slow digital switching for glitch-free state changes
DE10140507A1 (de) * 2001-08-17 2003-02-27 Philips Corp Intellectual Pty Verfahren für die algebraische Codebook-Suche eines Sprachsignalkodierers
ATE322069T1 (de) * 2002-08-08 2006-04-15 Cit Alcatel Verfahren zur signalkodierung mittels einer vektorquantisierung
US7698132B2 (en) * 2002-12-17 2010-04-13 Qualcomm Incorporated Sub-sampled excitation waveform codebooks
WO2004090864A2 (en) * 2003-03-12 2004-10-21 The Indian Institute Of Technology, Bombay Method and apparatus for the encoding and decoding of speech
KR100546758B1 (ko) * 2003-06-30 2006-01-26 한국전자통신연구원 음성의 상호부호화시 전송률 결정 장치 및 방법
US7792670B2 (en) * 2003-12-19 2010-09-07 Motorola, Inc. Method and apparatus for speech coding
EP1944758A3 (en) * 2004-04-05 2014-09-10 Koninklijke Philips N.V. Method of coding data
US7860710B2 (en) * 2004-09-22 2010-12-28 Texas Instruments Incorporated Methods, devices and systems for improved codebook search for voice codecs
SG123639A1 (en) * 2004-12-31 2006-07-26 St Microelectronics Asia A system and method for supporting dual speech codecs
US7571094B2 (en) * 2005-09-21 2009-08-04 Texas Instruments Incorporated Circuits, processes, devices and systems for codebook search reduction in speech coders
CN101371297A (zh) * 2006-01-18 2009-02-18 Lg电子株式会社 用于编码和解码信号的设备和方法
US7342460B2 (en) * 2006-01-30 2008-03-11 Silicon Laboratories Inc. Expanded pull range for a voltage controlled clock synthesizer
WO2008002098A1 (en) * 2006-06-29 2008-01-03 Lg Electronics, Inc. Method and apparatus for an audio signal processing
US8010351B2 (en) * 2006-12-26 2011-08-30 Yang Gao Speech coding system to improve packet loss concealment
US8688437B2 (en) 2006-12-26 2014-04-01 Huawei Technologies Co., Ltd. Packet loss concealment for speech coding
KR101398836B1 (ko) * 2007-08-02 2014-05-26 삼성전자주식회사 스피치 코덱들의 고정 코드북들을 공통 모듈로 구현하는방법 및 장치
KR20100006492A (ko) 2008-07-09 2010-01-19 삼성전자주식회사 부호화 방식 결정 방법 및 장치
US7898763B2 (en) * 2009-01-13 2011-03-01 International Business Machines Corporation Servo pattern architecture to uncouple position error determination from linear position information
US8924207B2 (en) * 2009-07-23 2014-12-30 Texas Instruments Incorporated Method and apparatus for transcoding audio data
US8260220B2 (en) * 2009-09-28 2012-09-04 Broadcom Corporation Communication device with reduced noise speech coding
US9728200B2 (en) * 2013-01-29 2017-08-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding
CN111862998A (zh) * 2013-06-21 2020-10-30 弗朗霍夫应用科学研究促进协会 利用改进的音调滞后估计的似acelp隐藏中的自适应码本的改进隐藏的装置及方法
US20150025894A1 (en) * 2013-07-16 2015-01-22 Electronics And Telecommunications Research Institute Method for encoding and decoding of multi channel audio signal, encoder and decoder
US9418671B2 (en) 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4868867A (en) * 1987-04-06 1989-09-19 Voicecraft Inc. Vector excitation speech or audio coder for transmission or storage
US5701392A (en) 1990-02-23 1997-12-23 Universite De Sherbrooke Depth-first algebraic-codebook search for fast coding of speech
JP2841765B2 (ja) * 1990-07-13 1998-12-24 日本電気株式会社 適応ビット割当て方法及び装置
EP0500961B1 (en) * 1990-09-14 1998-04-29 Fujitsu Limited Voice coding system
JPH06138896A (ja) 1991-05-31 1994-05-20 Motorola Inc 音声フレームを符号化するための装置および方法
DE69309557T2 (de) 1992-06-29 1997-10-09 Nippon Telegraph & Telephone Verfahren und Vorrichtung zur Sprachkodierung
CA2108623A1 (en) 1992-11-02 1994-05-03 Yi-Sheng Wang Adaptive pitch pulse enhancer and method for use in a codebook excited linear prediction (celp) search loop
DE4330243A1 (de) * 1993-09-07 1995-03-09 Philips Patentverwaltung Sprachverarbeitungseinrichtung
FR2729245B1 (fr) 1995-01-06 1997-04-11 Lamblin Claude Procede de codage de parole a prediction lineaire et excitation par codes algebriques
CA2213909C (en) * 1996-08-26 2002-01-22 Nec Corporation High quality speech coder at low bit rates
GB9700776D0 (en) * 1997-01-15 1997-03-05 Philips Electronics Nv Method of,and apparatus for,processing low power pseudo-random code sequence signals
US6041297A (en) * 1997-03-10 2000-03-21 At&T Corp Vocoder for coding speech by using a correlation between spectral magnitudes and candidate excitations
US5970444A (en) * 1997-03-13 1999-10-19 Nippon Telegraph And Telephone Corporation Speech coding method
US5924062A (en) * 1997-07-01 1999-07-13 Nokia Mobile Phones ACLEP codec with modified autocorrelation matrix storage and search
JP3199020B2 (ja) * 1998-02-27 2001-08-13 日本電気株式会社 音声音楽信号の符号化装置および復号装置
JP3180762B2 (ja) * 1998-05-11 2001-06-25 日本電気株式会社 音声符号化装置及び音声復号化装置
US6014618A (en) * 1998-08-06 2000-01-11 Dsp Software Engineering, Inc. LPAS speech coder using vector quantized, multi-codebook, multi-tap pitch predictor and optimized ternary source excitation codebook derivation
US6173257B1 (en) 1998-08-24 2001-01-09 Conexant Systems, Inc Completed fixed codebook for speech encoder
JP4173940B2 (ja) * 1999-03-05 2008-10-29 松下電器産業株式会社 音声符号化装置及び音声符号化方法

Also Published As

Publication number Publication date
ATE344519T1 (de) 2006-11-15
DE60124274D1 (de) 2006-12-14
KR20030046451A (ko) 2003-06-12
AU2001287969A1 (en) 2002-04-02
EP1317753B1 (en) 2006-11-02
WO2002025638A2 (en) 2002-03-28
WO2002025638A3 (en) 2002-06-13
CN1457425A (zh) 2003-11-19
DE60124274T2 (de) 2007-06-21
US6556966B1 (en) 2003-04-29
EP1317753A2 (en) 2003-06-11

Similar Documents

Publication Publication Date Title
CN1240049C (zh) 语音编码***
CN1165892C (zh) 对宽带信号进行解码时的周期性增强的方法和设备
CN1229775C (zh) 宽带语音和音频信号解码器中的增益平滑
CN100338648C (zh) 在基于线性预测的语音编码解码器中有效帧删除隐藏的方法和器件
CN1252681C (zh) 一种码激励线性预测语音编码器的增益量化
CN1245706C (zh) 多模式语音编码器
CN1091535C (zh) 将语音信号压缩成可变速率数据的方法、设备和电路
CN1158648C (zh) 语音可变速率编码方法与设备
CN1131507C (zh) 音频信号编码装置、解码装置及音频信号编码·解码装置
CN1205603C (zh) 在用于宽带信号编码的代数码本中索引脉冲位置和符号的方法和设备
CN1187735C (zh) 多模式话音编码装置和解码装置
CN1703736A (zh) 用于源控制可变比特率宽带语音编码的方法和装置
CN1248195C (zh) 语音编码转换方法和装置
CN1156872A (zh) 语音编码的方法和装置
CN1331826A (zh) 可变速率语音编码
CN1097396C (zh) 声音编码装置和方法
CN1331825A (zh) 周期性语音编码法
CN1890714A (zh) 一种优化的复合编码方法
CN1957398A (zh) 在基于代数码激励线性预测/变换编码激励的音频压缩期间低频加重的方法和设备
CN1947173A (zh) 分层编码装置及分层编码方法
CN1193158A (zh) 语音编码方法和装置以及声音信号编码方法和装置
CN1667703A (zh) 编码域中的音频增强

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MINDSPEED TECHNOLOGIES INC.

Free format text: FORMER OWNER: CONEXANT SYSTEMS, INC.

Effective date: 20100910

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20100910

Address after: American California

Patentee after: Mindspeed Technologies Inc.

Address before: American California

Patentee before: Conexant Systems, Inc.

ASS Succession or assignment of patent right

Owner name: HONGDA INTERNATIONAL ELECTRONICS CO LTD

Free format text: FORMER OWNER: MINDSPEED TECHNOLOGIES INC.

Effective date: 20101216

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: CALIFORNIA STATE, USA TO: TAOYUAN COUNTY, TAIWAN PROVINCE, CHINA

TR01 Transfer of patent right

Effective date of registration: 20101216

Address after: China Taiwan Taoyuan County

Patentee after: Hongda International Electronics Co., Ltd.

Address before: American California

Patentee before: Mindspeed Technologies Inc.

CX01 Expiry of patent term

Granted publication date: 20060201

CX01 Expiry of patent term