CN1355915A - 过滤语言帧的多脉冲内插编码 - Google Patents

过滤语言帧的多脉冲内插编码 Download PDF

Info

Publication number
CN1355915A
CN1355915A CN00808763A CN00808763A CN1355915A CN 1355915 A CN1355915 A CN 1355915A CN 00808763 A CN00808763 A CN 00808763A CN 00808763 A CN00808763 A CN 00808763A CN 1355915 A CN1355915 A CN 1355915A
Authority
CN
China
Prior art keywords
sample
frame
subclass
language
transition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN00808763A
Other languages
English (en)
Other versions
CN1188832C (zh
Inventor
A·达斯
S·曼尤纳特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN1355915A publication Critical patent/CN1355915A/zh
Application granted granted Critical
Publication of CN1188832C publication Critical patent/CN1188832C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Analogue/Digital Conversion (AREA)

Abstract

一种过渡语言帧用的多脉冲内插编码器,包含配置成用帧的样本子集表示过渡语言样本的第1帧的提取装置。该编码器还包含配置成内插所述样本子集和从更早接收到的帧提取的样本子集以合成第1帧中未包含在子集内的其它样本用的内插装置。样本子集通过从子集中选择一组脉冲并将零值分配给未选择的脉冲得到简化。在一替换例中,可对一部分未选择的脉冲进行量化。该组脉冲可以是子集中绝对值相对最高的那些脉冲。在一替换例中,该组脉冲可以是子集中对理解是最重要的那些脉冲。

Description

过渡语言帧的多脉冲内插编码
                       发明背景
一.发明领域
本发明一般涉及语言处理领域,具体涉及对过渡语言帧进行多脉冲内插编码。
二.背景技术
利用数字技术发送语音已经变得相当普遍,特别是在长距离和数字无线电话应用中。而本身又有利于确定能在信道上发送的最小信息量,同时能保持感觉得到的重建语言的质量。如果利用简单采样和数字化发送语言,则要求有每秒64K比特量级的数据速率来获得传统模拟电话的语言质量。但是,在适当的编码后使用语言分析,发送,并在接收机再合成,这样能明显降低数据速率。
采用相应技术通过提取与人类语言产生模型相关的参数来压缩语言的装置称为语言编码器。语言编码器将输入的语言信号分成时间块或分析帧。典型的语言编码器包含编码器和解码器。编码器分析输入的语言帧,提取某种有关的参数,再将参数量化为二进制表示,即,量化为一组比特或二进制数据包。该数据包经通信信道发送到接收机和解码器。解码器处理该数据包,对它们去量化,产生参数,并使用该去量化的参数重新合成语言帧。
语言编码器的功能是通过去除语言中所有原来的自然冗余语句将数字化的语言信号压缩成低比特率的信号。数字压缩是通过用一组参数表示输入语言帧和采用量化利用一组比特表示该参数来进行的。如果输入语言帧有Ni比特数目和语言编码器产生的数据包有No比特数目,则该语言编码器得到的压缩因子为Cr=Ni/No。面临的问题是,既要保持解码后语言的高语音质量又要获得目标压缩因子。语言编码器的性能取决于:(1)语言模型或上述分析和合成处理相结合完成的好坏,和(2)以每帧目标比特速率No执行参数量化处理的好坏。因而,语言模型的目的是使用各帧较小的一组参数获取语言信号的实质或目标语音质量。
语言编码器可构成时域编码器,它采用高时间分辨处理,每次对小语言段(典型为5毫秒(ms)的子帧)进行编码。利用本领域中已知的各种搜索算法从码本空间寻找各子帧的高精度表示。另外,语言编码器可构成频域编码器,它用一组参数(分析)获取输入语言帧的短期语言频谱并用对应的合成处理根据该频谱参数重建语言波形。参数量化器根据已知的量化技术用存储的码矢量表示来表示这些参数,从而保存这些参数。这种已知的量化技术例如由Gersho和R.M.Gray等人在“Quantization and Signal Compression(量化和信号压缩)”(1992)中进行了描述。
周知的时域语言编码器是码激励线性预测(CELP)编码器,例如L.B.Rabiner和R.W.Schafer等人在“Digital Processing of Speech Signals(语言信号的数字处理)”(1978)中第396-453页中对这种编码器进行了描述,通过引用将其完全结合于此。在CELP编码器中,利用线性预测(LP)分析找到短期共振峰滤波器的系数,滤除语言信号中的短期相关或冗余。将短期预测滤波器应用于输入语言帧,产生LP剩余信号,再用长期预测滤波参数和随后的随机码本将该LP剩余信号作成模型和量化。于是,CELP编码将编码时域语言波形的任务划分成编码LP短期滤波器系数和编码LP剩余信号的各自任务。时域编码能以固定的速率(即,对各帧使用相同的比特数No)或可变速率(其中,对不同类型的帧内容使用不同的比特率)进行。可变速率编码器只使用将编码解码器参数编码到能获得目标质量的大小所需的比特量。在美国专利No.5,414,796中描述了可变速率CELP编码器的典型例,该专利已转让给本发明的受让人,这里通过引用完全加以结合。
时域编码器,例如CELP编码器,依靠每帧大量的比特数No,以便保持时域语言波形的精度。如果每帧的比特数No相当大(例如,8kbps或更高),则该编码器通常能传递极好的语音质量。然而,在低比特率(4kbps或更低时),时域编码器因有限的可用比特数而不能保持高质量和稳健的性能。低速率时,有限的码本空间限制了在高速率商用中得到广泛成功应用的传统时域编码器的波形匹配能力。
当前,研究兴趣的浪潮和强烈的商业需求在于开发一种高质量语言编码器,能工作在中等至低比特率(即,在2.4至4kbps范围或更低)。应用范围包括无线电话学、卫星通信、英特网电话学、各种多媒体和语音流应用、语音邮件、和其它语音存储***。推动力是需要高容量和信息包丢失状态下需要稳健的性能。新近各种语言编码标准化的努力是另一方向的推动力,推动研究和开发低速率语言编码算法。低速率语言编码器对每个允许应用的带宽产生更多的信道或用户,低速率语言编码器与附加的适当信道编码层次结合一起能适合编码器规范中整个比特预算(bit-budget),在信道出错情况下传送稳健的性能。
低比特率有效编码语言的有效技术之一是多模式编码。在“Speech Coding andSynthesis”ch.7(W.B.Kleijn & K.K.Paliwal eds.,1995)中由Amitava Das等人著“多模式和可变速率语言编码(Multimode and Variable-Rate Coding ofSpeech)”一文中揭示了典型的多模式编码技术例。传统的多模式编码器将不同的模式或编解算法用于不同类型的输入语言帧。各模式或编解码处理由用户定制,按照最有效方式表示某种最佳类型的语言段,诸如语音化语言、未语音化语言、过渡语言(例如,介于语音化和未语音化之间)和背景噪声(非语言)等。一种外部的开环模式判决机构检查输入语言帧并对什么模式用于该语言帧作出判决。开环模式判决一般是从输入帧提取若干参数,估计与某些时间和频谱的特性相关的参数,并根据该估计建立模式判决。因此,模式判决无需预先知道输出语言的准确状态,即,输出语言按照语音质量或其它性能测量将会怎样接近输入语言。
为了保持高语音质量,关键在于正确地表示过渡语言帧。对于每帧使用有限比特量的低比特率语言编码器,已经证明传统技术要这样做是困难的。因此,需要正确表示低比特率编码的过渡语言帧的语言编码器。
                      发明概述
本发明提供一种正确提供低比特率编码的过渡语言帧的语言编码器。因此,按照本发明的一个方面是一种编码过渡语言帧的方法,最好包含以下步骤:用第1帧的第1样本子集表示过渡语言样本的第1帧;内插所述第1样本子集和从更早接收到的过渡语言样本的第2帧提取的第2样本子集,合成第1帧中未包含在第1子集内的其它样本。
按照本发明的另一方面是一种编码传统语言帧的语言编码器,最好包含:用第1帧的第1样本子集表示过渡语言样本的第1帧用的装置;内插所述第1样本子集和从更早接收到的过渡语言样本的第2帧提取的第2样本子集以合成第1帧中未包含在第1子集内的其它样本用的装置。
按照本发明的再一方面是一种编码传统语言帧的语言编码器,最好包含:配置成用第1帧的第1样本子集表示过渡语言样本的第1帧的提取装置;与所述提取装置耦连并配置成内插所述第1样本子集和从更早接收到的过渡语言样本的第2帧提取的第2样本子集以合成第1帧中未包含在第1子集内的其它样本的内插装置。
附图概述
图1为用语言编码器端接在各端的通信信道的框图。
图2为编码器的框图。
图3为解码器的框图。
图4为说明语言编码判决过程的流程图。
图5A为语言信号幅值相对于时间的曲线图,图5B为线性预测(LP)剩余幅值相对于时间的曲线图。
图6为说明过渡语言帧用多脉冲内插编码过程的流程图。
图7为滤除LP剩余域信号以产生语言域信号或反滤除语言域信号以产生LP剩余域信号用的***框图。
图8A-D是分别用于原始过渡语言、未编码剩余、编码/量化剩余和解码/重构语言的信号幅值相对于时间的曲线图。
              较佳实施例的详细说明
图1中,第1编码器10接收数字化语言样本s(n)并对其编码,在传输媒体或通信信道12上将其发送到第1解码器14。解码器14解码该编码后的语言样本并合成输出语言信号SSYNTH(n)。
语言样本s(n)表示按照本领域中已知各种方法的任一种已经数字化和量化的语言信号,这些方法包含,例如脉冲编码调制(P(M)),压缩扩展μ-律,或A-律。如本领域中所知,语言样本s(n)组成输入数据的帧,其中,各帧包含预定数量的数字化语言样本s(n)。在一典型实施例中,采样率为8kHz,各20ms的帧包含160个样本。在下面描述的实施例中,数据传输速率最好在帧到帧基础上可变,从13.2kbps(全速率)到6.2kbps(半速率)到2.6kbps(1/4速率)到lkbps(1/8速率)变化。改变数据传输速率的好处是因为可选择较低比特率用于包含语言信息相对少的帧。本领域中普通技术人员应当知道,也可以使用其它采样速率、帧大小、和数据传输速率。
第1编码器10和第2解码器20一起包含第1语言编码器或语言编码解码器。同样,第2编码器16和第1解码器14一起包含第2语言编码器。本领域中普通技术人员知道,语音编码器可用数字信号处理器(DSP)、应用专用的集成电路(ASIC)、分立门逻辑电路、固件、或任何常规的可编程软件模块和微处理器等构成。软件模块可驻留在RAM、快闪存储器、寄存器、或本领域中已知的任何其它形式的可写存储媒体中。另外,任何常规的处理器、控制器或状态机可用来替换微处理器。在美国专利No.5,727,123及1994年2月16日的题为“声码器ASIC”的美国专利申请No.08/197,417中描述了专门为语言编码而设计的典型ASIC,该专利及专利申请已转让给本发明的受让人,这里通过引用完全加以结合。
图2中,编码器100,可用于语言编码器,包含模式判决模块102、基音估算(pitchestimation)模块104、LP分析模块106、LP分析滤波器108、LP量化模块110、和剩余量化模块112。输入语言帧s(n)加到模式判决模块102、基音估算模块104、LP分析模块106、和LP分析滤波器108。模式判决模块102产生模式指数IM和基于各输入语言帧s(n)周期的模式M。题为“执行减少速率可变速率声音编码用的方法和装置(Method and Apparatus for Performing Reduced Rate VariableRate Vocoding)”的美国专利申请No.08/815,354(1997年3月11日申请)描述了按照周期对语言帧进行分类的各种方法,通过引用在此完全加以结合。这些方法也写入了电信工业协会暂定标准TIA/EIA IS-127和TIA/EIA IS-733中。
基音估计模块104产生基音指数IP和基于各输入语言帧s(n)的滞后值P0。LP分析模块106对各输入语言帧s(n)执行线性预测分析,产生LP参数a。该参数a加给LP量化模块110。LP量化模块110也接收模式M,由此,以依赖模式的方式完成量化过程。LP量化模块110产生LP指数ILP和经量化的LP参数
Figure A0080876300091
。LP分析滤波器108除了接收输入语言帧s(n)外,还接收量化后的LP参数
Figure A0080876300092
。LP分析滤波器108产生LP剩余信号R[n],该LP剩余信号R[n]代表输入语言帧s(n)与根据量化后线性预测参数 重建的语言之间的误差。LP剩余R[n],模式M和量化后的LP参数
Figure A0080876300094
加给剩余量化模块112。剩余量化模块112根据这些值产生剩余指数IR和经量化后的剩余信号
图3中,可用于语言编码器的解码器200包含LP参数解码模块202、剩余解码模块204、模式解码模块206、和LP合成滤波器208。模式解码模块206接收和解码模式指数IM,从其产生模式M。LP参数解码模块202接收模式M和LP指数ILP。LP参数解码模块202解码所接收到的值,产生量化后的LP参数
Figure A0080876300096
。剩余解码模块204接收剩余指数IR、基音指数IP、和模式指数IM。剩余解码模块204解码所接收到的值,产生量化后的剩余信号 。量化后的剩余信号 和量化后的LP参数 加到LP合成滤波器208,在此合成解码后的输出语言信号
Figure A0080876300102
操作和执行图2中编码器100和图3中的解码器200的各种模块是本领域中已知的,在前面提到的美国专利No.5,414,796和L.B.Rabiner & R.W.Schaferr的“语言信号的数字处理(Digital Processing of Speech Signals)”第396-453页(1978年)中有描述。
如图4流程图所示,根据一实施例的语言编码器遵循了一组用于传输的处理语言样本的步骤。在步骤300,语言编码器接收连续帧中语言信号的数字样本。一旦接收到给定的帧,语言编码器进入到步骤302,检测帧的能量。能量是帧的语言活动的量度。将数字化语言样本的幅值平方后相加的合成能量与阈值比较,执行语言检测。在一实施例中,阈值根据背景噪声的电平变化调整。在前面提到的美国专利No.5,414,796中描述了典型的可变阈值语言活动检测器。某些非语音语言的声音能是极低能量的样本,可能错误地编码成背景噪声。为避免这种情况,低能量样本的谱斜度可用来区分非语音语言与背景噪声,如前面所述美国专利No.5,414,796中所描述。
在检测帧的能量后,语言编码器前进到步骤304。步骤304,语言编码器确定所检测到帧的能量是否足以把帧按包含语言信息加以分类。如果检测到帧的能量低于预定的阈值大小,则语言编码器前进到步骤306,在步骤306,语言编码器将帧编码成背景噪声(即,无语言或静音)。在一实施例中,背景噪声以1/8速率或1kbps进行编码。如果在步骤304,检测到的帧能量大于预定阈值能量,则帧被分类为语言,且语言编码器进入到步骤308。
在步骤308,语言编码器确定帧是否是非语音语言,即,语言语言编码器检查帧的周期。各种已知的周期确定方法包含,例如,使用过零和使用归一化自相关函数(NACF)。具体而言,在美国专利申请No.08/815,354(申请日为1997年3月11日,题为“Method and Apparatus for Performing Reduced Rate Variable RateVocoding”)中描述了使用过零和NACF检测周期,该申请已转让给本发明的受让人,在此通过参考完全加以结合。此外,上述用于区分语音语言和非语音语言的方法编入了电信工业协会暂定标准TIA/EIA IS-127和TIA/EIA IS-733中。如果在步骤308检测到帧是非语音语言,则语言编码器进入步骤310,将帧编码成非语音语言。在一实施例中,非语音语言帧以1/4速率或2.6kbps编码。如果在步骤308帧确定为不是非语音语言,则语言编码器进入到步骤312。
在步骤312,语言编码器使用本领域中已知的周期检测方法(如在前述美国专利申请No.08/815,354中所描述的)确定帧是否是过渡语言。如果帧确定为是过渡语言,则语言编码器进入步骤314,将帧编码成过渡语言(即,从非语音语言过渡到语音语言)。在一实施例中,过渡语言帧按照多脉冲内插编码方法(下面参见图6的描述)进行编码。
如果在步骤312,语言编码器确定帧不是过渡语言,则语言编码器进入步骤316,将帧编码成语音语言。在一实施例中,语音语言帧可以全速率或13.2kbps进行编码。
技术人员会看到,可用图4所示步骤编码语言信号或对应的LP剩余。噪声、非语音、过渡、和语音语言的波形特征可认为是图5A曲线中的时间函数。噪声、非语音、过渡、和语音LP剩余的波形特征可认为是图5B曲线中的时间函数。
在一实施例中,语言编码器使用多脉冲内插编码算法按照图6流程所示方法步骤对过渡语言帧编码。在步骤400,语言编码器估算当前K-样本LP语言剩余帧S[n]的基音周期M(其中,n=1,2,……K),和帧S[n]的紧接下一个邻帧。在一实施例中,LP语言剩余帧S[n]包含160个样本(即,K=160)。基音周期M是给定帧内重复的基本周期。然后,语言编码器进入步骤402,提取具有当前剩余帧的最后M个样本的基音原型X。基音原型X最好是帧S[n]中最后的基音周期(M个样本)。在一变化例中,基音原型X可以是帧S[n]的任何基音周期M。然后,语言编码器进入步骤404。
在步骤404,语言编码器从M-样本基音原型X的位置Pi选择具有幅值Qi和符号Si的N个重要样本或脉冲,其中,I=1,2,……N。于是,从该M-样本基音原型X已选择了N个“最佳”样本,并在该基音原型X中剩下未选择的M-N个样本。语言编码器再进入步骤406,用Bp位比特对脉冲位置进行编码。然后进入到步骤408,用Bs位比特对脉冲符号进行编码。之后进入到步骤410,用Ba位比特对脉冲的幅值进行编码。量化后的N个脉冲幅值Qi表示为Zi,其中,i=1,2,……N。语言编码器再进入步骤412。
在步骤412,语言编码器提取脉冲。在一实施例中,对全部M个脉冲按照绝对值(即,无符号)大小排序,再选择N个最高的脉冲(即,具有最大绝对值的N个脉冲),由此进行脉冲提取步骤。在另一变化实施例中,脉冲提取步骤是按照下面的描述从可理解的重要性观点出发选择N个“最佳”脉冲。
如图7所示,语言信号可利用滤波从LP剩余域变换到语言域。相反,语言信号可利用反滤波从语言域变换到LP剩余域。如图7所示,按照一实施例,基音原型X输入到标注为H(z)的第1LP合成滤波器500。第1LP合成滤波500产生该基音原型X的感觉得到的加权语言域版本(标注为S(n))。形状码本502产生形状矢量值,加给乘法器504。增益码本506产生增益矢量,也加给乘法器504。乘法器504将形状矢量值与增益矢量值相乘,产生形状-增益积的值。该形状-增益积的值提供给第1加法器508。数量为N的脉冲(数量N如下文所述,是使基音原型X与模式原型e_mod[n]间形状-增益误差E最小的样本数)也加到第1加法器508。第1加法器508将N个脉冲加到形状-增益积值上,产生模式原型e_mod[n]。模式原型e_mod[n]提供给第2 LP合成滤波器510(也标注为H(z))。第2 LP滤波器510产生模式原型e_mod[n]的可理解的加权语言域版本(标注为Se(n))。语言域值S(n)和Se(n)提供给第2加法器512。第2加法器512从Se(n)减去S(n),将差值提供给平方和计算器514,在此计算该差值的平方,产生能量或误差值E。
按照上述图6涉及的变换实施例,对于当前过渡语言帧的LP合成滤波器H(z)或可理解的加权LP合成滤波器H(z/α)的脉冲响应(未图示)记为H(n)。基音原型X的模式记为e_mod[n]。可理解的加权语言域的误差E可按照下式定义: E = Σ n = 1 M ( Se ( n ) - S ( n ) ) 2 其中,Se(n)=H(n)*e_mod[n],和S(n)=H(n)*X,
这里如本领域中所知,“*”表示合适的滤波或卷积操作,Se(n)和S(n)分别表示基音原型e_mod[n]和X的可理解的加权语言域版本。在所述的替换实施例中,从基音原型X的M个样本可选择N个最佳样本如下:这N个样本可表示为可能的MCN个组合中的第j组,最好选择以产生模式e_modj[n],使得误差Ej对所有的j(j=1,2,3……,MCN)最小,其中Ej按照下式定义: E j = Σ n = 1 M ( Sej ( n ) - S ( n ) ) 2
Sej(n)=H(n)*e_modj[n]。
在提取脉冲后,语言编码器进入步骤414,基音原型X中剩余的M-N个样本可按照替换例相关的两种可能方法之一加以表示。在一实施例中,基音原型X中剩余的M-N个样本可用零值替换这M-N个样本进行选择。在替换例中,基音原型X中剩余的M-N个样本可用带有Rs位比特的码本的形状矢量和带有Rg位比特的码本的增益替代这M-N个样本进行选择。因此,增益和形状矢量表示这M-N个样本。增益g和形状矢量H具有按照使失真Ejk最小从码本选择的分量值gj和Hk。失真Ejk由下式给出: E jk = Σ n = 1 M ( Sejk ( n ) - S ( n ) ) 2
Sejk(n)=H(n)*e_modjk[n],
其中,模式原型e_modjk[n]由上述M个脉冲和用第j个增益码字gj和第k个形状码字Hk表示的M-N个样本构成。因此,选择最好是按照共同最佳方式通过选择传递Ejk最小值的组合(j,k)进行。之后,语言编码器进入到步骤416。
在步骤416,计算编码后的基音原型Y。该编码后的基音原型Y通过将N个脉冲放回到位置Pi、用Si*Zi替代幅值Qi,和用零(在一实施例中)或上述的来自所选增益-形状表示的样本(在一替换例中),做成原始基音原型X。该编码后的基音原型Y对应于重建或合成的N个“最好”样本加上重建或合成的剩余的M-N个样本之和。然后,语言编码器进入步骤418。
在步骤418,语言编码器从过去(即,刚过去)解码后的剩余帧提取M-样本“过去原型”W。从过去解码后的剩余帧中取最后M个样本,依此提取过去原型W。假定基音原型X取自当前帧中另一组M个样本,则过去原型W可由过去帧中对应组的M个样本构成。然后,语言编码器进入步骤420。
在步骤420,语言编码器重建解码后剩余SSYNTH[n]的当前帧的全部K个样本。重建最好按照任何已有内插方法进行,其中,最后的M个样本按照重建的基音原型Y形成,而起始的K-M个样本通过内插过去的原型W和当前编码后的基音原型Y形成。在一实施例中,内插可按照下面步骤进行:
对W和Y进行最佳排列,导出最佳相对位置和用于内插的平均基音周期。旋转当前基音原型Y使之对应于旋转后的Y与W最大互相关,从而获得排列A*。各可能的排列A处的互相关C[A],取0到M-1的值或范围0到M-1的子集,依次可按照下式计算: C [ A ] = Σ n = 0 M - 1 Y [ ( n + A ) % M ] W 然后,按照下式计算平均基音周期Lav:
Lav=(160-M)M/(MNp-A*),其中
Np=四舍五入{A*/M+(160-M)/M}按照下式进行内插计算起始K-M个样本:
SSYNTH={(160-n-M)W[(nα)%M]+nY[(nα+A*)%M]}/(160-M),其中,α=M/Lav,且指数n’(=nα或nα+A*)的非整数值的样本使用传统内插方法根据n’小数部分所需精度进行计算。上面等式中的舍入运算和模运算(用符号%表示)是本领域中公知的。在图8A-D中分别描述了原始过渡语言、未编码的剩余、编码后的/量化过的剩余、和解码后的/重建后的语言相对于时间的曲线。
在一实施例中,编码后的过渡剩余帧可按照闭环技术计算。因此,按照上面所述计算编码后的过渡剩余帧。然后,对整个帧计算可理解的信号-噪声比(PSNR)。如果PSNR上升到预定阈值以上,那么可使用合适的高速率、高精度波形编码方法(例如,CELP方法)对帧进行编码。在题为“闭环多模混合域线性预测(MDLP)语言编码器”的美国专利申请No.09/259,151(申请日为1999年2月26日)中描述了这种技术。该申请已转让给本发明的受让人,由于尽可能使用如上所述低比特率语言编码方法和当低比特率语言编码方法未能传送失真度量的目标值时替换为高速率CELP语言编码方法,因而当使用低的平均编码速率时能以相当高的质量(例如用阈值或常用的失真度量进行确定)对过渡语言帧进行编码。
如此,已经描述了一种新颖的过渡语言帧用多脉冲内插编码器。本领域中普通技术人员知道,这里结合实施例所描述的各种说明性逻辑框图和算法步骤可用数字信号处理器(DSP)、应用专用的集成电路(ASIC)、分立门或晶体管逻辑、分立硬件元件(例如,寄存器和FIFO)、执行一组固件指令的处理器、或任何传统可编程软件模块和处理器等执行。处理器最好可以是微处理器,但也可替代是任何传统的处理器、控制器、微控制器、或状态机。软件模块可驻留在RAM存储器、快闪存储器、寄存器、或本领域中已知的任何其它形式的可写存储媒体中。本领域中普通技术人员进一步看到,在整个上面说明涉及的数据、指令、命令、信息、信号、比特、符号、和码元最好用电压、电流、电磁波、磁场或粒子、光场或粒子、或它们的任何组合进行表示。
如此,已经示出和描述了本发明的较佳实施例。然而,对本领域中普通技术人员显而易见的是,对这里揭示的实施例可进行大量的变换而不脱离本发明的实质范围。因此,本发明除了按照下面的权利要求书外,不受任何限定。

Claims (24)

1.一种编码过渡语言帧的方法,包含以下步骤:
用第1帧的第1样本子集表示过渡语言样本的第1帧;
内插第1样本子集和从更早接收到的过渡语言样本的第2帧提取的第2样本子集,合成第1帧中未包含在第1子集内的其它样本。
2.如权利要求1所述的方法,其特征在于,还包含在完成表示步骤后发送第1样本子集的步骤,和在完成内插步骤前接收第1样本子集的步骤。
3.如权利要求1所述的方法,其特征在于,还包含简化第1样本子集的步骤。
4.如权利要求3所述的方法,其特征在于,其中,简化步骤包含从第1样本子集选择对理解重要的样本的步骤,和分配零值给所有未选择的样本的步骤。
5.如权利要求3所述的方法,其特征在于,其中,简化步骤包含从第1样本子集选择带有绝对幅值相对高的样本的步骤,和分配零值给所有未选择的样本的步骤。
6.如权利要求4所述的方法,其特征在于,其中,所述对理解重要的样本是通过选择使过渡语言样本的第1帧与过渡语言样本的合成后的第1帧间的可理解加权的语言域的误差最小的样本。
7.如权利要求3所述的方法,其特征在于,其中,简化步骤包含从第1样本子集中选择对理解重要的样本的步骤,和对所有未选择样本的一部分进行量化的步骤。
8.如权利要求3所述的方法,其特征在于,其中,简化步骤包含从第1样本子集中选择绝对幅值相对高的样本的步骤,和对所有未选择样本的一部分进行量化的步骤。
9.如权利要求7所述的方法,其特征在于,其中,对理解重要的样本是通过选择使过渡语言样本的第1帧与过渡语言样本的合成后的第1帧间的增益和形状误差最小的样本。
10.一种编码过渡语言帧的语言编码器,其特征在于,包含:
用第1帧的第1样本子集表示过渡语言样本的第1帧的装置;和
内插第1样本子集和从更早接收到的过渡语言样本的第2帧提取的第2样本子集以合成第1帧中未包含在第1子集内的其它样本的装置。
11.如权利要求10所述的语言编码器,其特征在于,还包含简化第1样本子集的装置。
12.如权利要求11所述的语言编码器,其特征在于,其中,简化装置包含从第1样本子集选择对理解重要的样本的装置,和分配零值给所有未选择的样本的装置。
13.如权利要求11所述的语言编码器,其特征在于,其中,简化装置包含从第1样本子集选择带有绝对幅值相对高的样本的装置,和分配零值给所有未选择的样本的装置。
14.如权利要求12所述的语言编码器,其特征在于,其中,所述对理解重要的样本是通过选择使过渡语言样本的第1帧与过渡语言样本的合成后的第1帧间的可理解加权的语言域的误差最小的样本。
15.如权利要求11所述的语言编码器,其特征在于,其中,简化装置包含从第1样本子集中选择对理解重要的样本的装置,和对所有未选择样本的一部分进行量化的装置。
16.如权利要求11所述的语言编码器,其特征在于,其中,简化装置包含从第1样本子集中选择绝对幅值相对高的样本的装置,和对所有未选择样本的一部分进行量化的装置。
17.如权利要求15所述的语言编码器,其特征在于,其中,对理解重要的样本是通过选择使过渡语言样本的第1帧与过渡语言样本的合成后的第1帧间的增益和形状误差最小的样本。
18.一种编码过渡语言帧的语言编码器,其特征在于,包含:
配置成用第1帧的第1样本子集表示过渡语言样本的第1帧的提取装置;
与所述提取装置耦连并配置成内插所述第1样本子集和从更早接收到的过渡语言样本的第2帧提取的第2样本子集以合成第1帧中未包含在第1子集内的其它样本的内插装置。
19.如权利要求18所述的语言编码器,其特征在于,还包含配置成从第1样本子集中选择对理解重要的样本的选择器,其中,将零值分配给所有未选择的样本。
20.如权利要求18所述的语言编码器,其特征在于,还包含配置成从第1样本子集中选择绝对幅值相对高的样本的选择器,其中,零值分配给所有未选择的样本。
21.如权利要求19所述的语言编码器,其特征在于,其中,所述对理解重要的样本是通过选择使过渡语言样本的第1帧与过渡语言样本的合成后的第1帧间的可理解加权的语言域的误差最小的样本。
22.如权利要求18所述的语言编码器,其特征在于,还包含配置成从第1样本子集中选择对理解重要的样本的选择器,其中,所有未选择的样本的一部分被量化。
23.如权利要求18所述的语言编码器,其特征在于,还包含配置成从第1样本子集中选择绝对幅值相对高的样本的选择器,其中,所有未选择的样本的一部分被量化。
24.如权利要求22所述的语言编码器,其特征在于,所述对理解重要的样本是通过选择使过渡语言样本的第1帧与过渡语言样本的合成后的第1帧间的增益和形状误差最小的样本。
CNB008087636A 1999-05-07 2000-05-08 过滤语言帧的多脉冲内插编码 Expired - Fee Related CN1188832C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/307,294 US6260017B1 (en) 1999-05-07 1999-05-07 Multipulse interpolative coding of transition speech frames
US09/307,294 1999-05-07

Publications (2)

Publication Number Publication Date
CN1355915A true CN1355915A (zh) 2002-06-26
CN1188832C CN1188832C (zh) 2005-02-09

Family

ID=23189096

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB008087636A Expired - Fee Related CN1188832C (zh) 1999-05-07 2000-05-08 过滤语言帧的多脉冲内插编码

Country Status (11)

Country Link
US (1) US6260017B1 (zh)
EP (1) EP1181687B1 (zh)
JP (1) JP4874464B2 (zh)
KR (1) KR100700857B1 (zh)
CN (1) CN1188832C (zh)
AT (1) ATE310303T1 (zh)
AU (1) AU4832200A (zh)
DE (1) DE60024080T2 (zh)
ES (1) ES2253226T3 (zh)
HK (1) HK1044614B (zh)
WO (1) WO2000068935A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102598124A (zh) * 2009-10-30 2012-07-18 松下电器产业株式会社 编码装置、解码装置及其方法

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
US6681203B1 (en) * 1999-02-26 2004-01-20 Lucent Technologies Inc. Coupled error code protection for multi-mode vocoders
GB2355607B (en) * 1999-10-20 2002-01-16 Motorola Israel Ltd Digital speech processing system
US6757301B1 (en) * 2000-03-14 2004-06-29 Cisco Technology, Inc. Detection of ending of fax/modem communication between a telephone line and a network for switching router to compressed mode
US7606703B2 (en) * 2000-11-15 2009-10-20 Texas Instruments Incorporated Layered celp system and method with varying perceptual filter or short-term postfilter strengths
US20050234712A1 (en) * 2001-05-28 2005-10-20 Yongqiang Dong Providing shorter uniform frame lengths in dynamic time warping for voice conversion
US20040199383A1 (en) * 2001-11-16 2004-10-07 Yumiko Kato Speech encoder, speech decoder, speech endoding method, and speech decoding method
KR101019936B1 (ko) * 2005-12-02 2011-03-09 퀄컴 인코포레이티드 음성 파형의 정렬을 위한 시스템, 방법, 및 장치
KR100883652B1 (ko) * 2006-08-03 2009-02-18 삼성전자주식회사 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템
CN101540612B (zh) * 2008-03-19 2012-04-25 华为技术有限公司 编码、解码***、方法及装置
US8195452B2 (en) * 2008-06-12 2012-06-05 Nokia Corporation High-quality encoding at low-bit rates
WO2010007211A1 (en) * 2008-07-17 2010-01-21 Nokia Corporation Method and apparatus for fast nearestneighbor search for vector quantizers
CN101615911B (zh) * 2009-05-12 2010-12-08 华为技术有限公司 一种编解码方法和装置
KR20110001130A (ko) * 2009-06-29 2011-01-06 삼성전자주식회사 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법
CN102222505B (zh) * 2010-04-13 2012-12-19 中兴通讯股份有限公司 可分层音频编解码方法***及瞬态信号可分层编解码方法
US8990094B2 (en) * 2010-09-13 2015-03-24 Qualcomm Incorporated Coding and decoding a transient frame
US11270721B2 (en) * 2018-05-21 2022-03-08 Plantronics, Inc. Systems and methods of pre-processing of speech signals for improved speech recognition

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4441201A (en) * 1980-02-04 1984-04-03 Texas Instruments Incorporated Speech synthesis system utilizing variable frame rate
CA1255802A (en) 1984-07-05 1989-06-13 Kazunori Ozawa Low bit-rate pattern encoding and decoding with a reduced number of excitation pulses
CA1252568A (en) 1984-12-24 1989-04-11 Kazunori Ozawa Low bit-rate pattern encoding and decoding capable of reducing an information transmission rate
JP2707564B2 (ja) 1987-12-14 1998-01-28 株式会社日立製作所 音声符号化方式
JPH01207800A (ja) 1988-02-15 1989-08-21 Nec Corp 音声合成方式
JPH02160300A (ja) * 1988-12-13 1990-06-20 Nec Corp 音声符号化方式
JP3102015B2 (ja) * 1990-05-28 2000-10-23 日本電気株式会社 音声復号化方法
CA2483322C (en) 1991-06-11 2008-09-23 Qualcomm Incorporated Error masking in a variable rate vocoder
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
US5884253A (en) 1992-04-09 1999-03-16 Lucent Technologies, Inc. Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter
US5784532A (en) 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
TW271524B (zh) * 1994-08-05 1996-03-01 Qualcomm Inc
JP3747492B2 (ja) * 1995-06-20 2006-02-22 ソニー株式会社 音声信号の再生方法及び再生装置
SE506341C2 (sv) * 1996-04-10 1997-12-08 Ericsson Telefon Ab L M Metod och anordning för rekonstruktion av en mottagen talsignal
JPH10214100A (ja) * 1997-01-31 1998-08-11 Sony Corp 音声合成方法
US6029133A (en) * 1997-09-15 2000-02-22 Tritech Microelectronics, Ltd. Pitch synchronized sinusoidal synthesizer
EP1424346A4 (en) * 2001-07-31 2008-05-07 Mitsubishi Chem Corp POLYMERIZATION PROCESS AND NOZZLE FOR USE IN THE POLYMERIZATION PROCESS

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102598124A (zh) * 2009-10-30 2012-07-18 松下电器产业株式会社 编码装置、解码装置及其方法
CN102598124B (zh) * 2009-10-30 2013-08-28 松下电器产业株式会社 编码装置、解码装置及其方法

Also Published As

Publication number Publication date
DE60024080T2 (de) 2006-08-03
EP1181687A1 (en) 2002-02-27
ATE310303T1 (de) 2005-12-15
KR100700857B1 (ko) 2007-03-29
EP1181687B1 (en) 2005-11-16
JP2002544551A (ja) 2002-12-24
US6260017B1 (en) 2001-07-10
WO2000068935A1 (en) 2000-11-16
HK1044614B (zh) 2005-07-08
ES2253226T3 (es) 2006-06-01
CN1188832C (zh) 2005-02-09
DE60024080D1 (de) 2005-12-22
JP4874464B2 (ja) 2012-02-15
KR20010112480A (ko) 2001-12-20
HK1044614A1 (en) 2002-10-25
AU4832200A (en) 2000-11-21

Similar Documents

Publication Publication Date Title
USRE49363E1 (en) Variable bit rate LPC filter quantizing and inverse quantizing device and method
CN1188832C (zh) 过滤语言帧的多脉冲内插编码
CN100369112C (zh) 可变速率语音编码
US8346544B2 (en) Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision
US10431233B2 (en) Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
CN1266674C (zh) 闭环多模混合域线性预测语音编解码器和处理帧的方法
US8090573B2 (en) Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision
US6754630B2 (en) Synthesis of speech from pitch prototype waveforms by time-synchronous waveform interpolation
CN1432176A (zh) 用于预测量化有声语音的方法和设备
CN1347550A (zh) Celp转发
EP1328925A2 (en) Method and apparatus for coding of unvoiced speech
US6678649B2 (en) Method and apparatus for subsampling phase spectrum information
CN1262991C (zh) 跟踪准周期性信号的相位的方法和设备
JP3984048B2 (ja) 音声/音響信号の符号化方法及び電子装置
KR100757366B1 (ko) Zinc 함수를 이용한 음성 부호화기 및 그의 표준파형추출 방법
Parvez et al. A speech coder for PC multimedia net‐to‐net communication
CN1189665A (zh) 改进的多模态编码激励线性预测编码器和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20050209

Termination date: 20190508