CN1241169C - 语音中非话音部分的低数据位速率编码 - Google Patents
语音中非话音部分的低数据位速率编码 Download PDFInfo
- Publication number
- CN1241169C CN1241169C CNB99815573XA CN99815573A CN1241169C CN 1241169 C CN1241169 C CN 1241169C CN B99815573X A CNB99815573X A CN B99815573XA CN 99815573 A CN99815573 A CN 99815573A CN 1241169 C CN1241169 C CN 1241169C
- Authority
- CN
- China
- Prior art keywords
- energy
- speech
- residual
- voice
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims abstract description 34
- 239000013598 vector Substances 0.000 claims abstract description 12
- 238000005070 sampling Methods 0.000 claims description 24
- 238000011002 quantification Methods 0.000 claims description 16
- 238000013139 quantization Methods 0.000 claims description 16
- 238000005259 measurement Methods 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims 1
- 238000012805 post-processing Methods 0.000 abstract 1
- 238000007493 shaping process Methods 0.000 abstract 1
- 230000005540 biological transmission Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 206010038743 Restlessness Diseases 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Error Detection And Correction (AREA)
- Detection And Correction Of Errors (AREA)
Abstract
一种用于语音的非话音部分的低数据速率编码方案,它包括这样一些步骤:从语音帧获取高时间分辨率能量系数、使能量系数量化、从量化的能量系数中产生高时间分辨率的能量包络,以及用能量包络的量化值形成随机产生的噪声矢量从而重新构筑残留信号。能量包络可以采用线性***技术来产生。可以获得后处理测量,并将其与预定的阈值比较,以确定编码规则是否执行恰当。
Description
发明背景
I.发明领域
本发明总的涉及语音处理领域,本发明尤其涉及语音中非话音部分的低数据位速率编码的方法和装置。
II.技术背景
采用数字技术进行话音传输已经非常广泛,尤其是在长途和数字无线电话应用领域更是这样。接着,这又在确定可以在信道上发送的最少信息量并同时保持重新构筑的语音感觉质量方面,引起了人们的兴趣。如果发送信息是通过简单地进行取样和数字化来进行的,则为实现传统的模拟电话语音质量时需要每秒64千位(kbps)数量级的数据速率。然而,通过采用语音分析,随后采用适当的编码、传输,再在接收机处重新合成,可以大大减小数据速率。
我们把采用获取与人的语音发生模型有关的参数对语音进行压缩的技术的装置称为语音编码器。语音编码器将输入的语音信号分为一些时间段,或者是一些分析帧。语音编码器通常包括编码器或译码器,或编码译码器。编码器对输入的语音帧进行分析,并获取某些相关的参数,随后将这些参数量化成二进制表述,即,量化成一组数据位或二进制的数据包。这些数据包在通信信道上传送到接收机和译码器。译码器对数据包进行处理,并将它们解量化,产生参数,随后再用这些解量化的参数,对这些语音帧进行重新合成。
语音编码器的作用是通过去除语音中所有固有的自然冗余,将数字化的语音信号压缩成低数据位速率的信号。数字压缩是通过用一组参数来代表输入的语音帧并用量化来代表具有一组数据位的参数来实现的。如果输入的语音帧的数据位数是Ni,而由语音编码器所产生的数据包的数据位数是N。,那么由语音编码器所实现的压缩倍数是Cr=Ni/No。我们所面临的挑战是在实现目标压缩倍数的同时,保持高话音质量的译码语音。语音编码器的性能取决于(1)上述语音模型或分析及合成处理过程的组合的良好程度,以及(2)在每帧的目标数据位速率No时,参数量化过程进行的量化程度。所以,语音模型的目标是用每帧较少的一组参数,来捕获语音信号的基本部分或目标话音质量。
在低数据位速率下有效地对语音进行编码的一种有效的技术是多模式编码。多模式编码对不同类型的输入语音帧实施不同的模式规则或编译码规则。每一种模式或编译码过程以最有效的方式来表达某种类型的语音段(即,发声的、不发声的,或者是背景噪声)。采用一种外部模式决定机构来检查输入的语音帧,并对采用什么模式用于该帧作出决定。通常,通过从输入的帧中取出几个参数,并对它们进行评估,而作出采用哪一种模式的决定,以开环方式决定所采用的模式。所以,模式决定是在事先不知道输出语音的准确情况即按照语音质量或其他的特性测量来说输出语音与输入的语音有多大的相似程度而作出的。语音编译码器的一种典型的开环模式决定见美国专利5,414,796,该专利已转让给本发明的受让人。
多模式编码可以是固定速率的,对每一帧采用相同数量的数据位No;也可以采用变速率的,这时,不同的模式采用不同的数据位速率。变速率编码仅采用将编译码器参数编码成适合获得目标质量水平的数据位数。因此,采用变数据位速率(VBR)技术,在明显较低的平均速率下,可以得到与固定速率、更高速率编码器相同的目标话音质量。典型的变速率语音编码器见美国专利5,414,796,该专利已转让给本发明的受让人。
目前,人们无论是在商业上还是在研究兴趣上都强烈地希望开发一种能在中等的到较低数据位速率(在2.4到4kbps或以下的范围内)下工作的高质量的语音编码器。其应用范围包括无线电话、卫星通信、互联网电话、各种多媒体和话音流应用、话音邮件以及其他的话音储存***。其驱动力是在数据包丢失的情况下,需要具有高容量,以及对较强性能的要求。近来建立各种语音编码标准的努力是推动低速语音编码规则的研究和开发的另一直接的驱动力。低速语音编码器在每一许可的应用带宽下生成更多的信道或用户,并且与合适信道编码附加层耦合的低速语音编码器可以适合编码器技术规范的整个数据位预算,并在信道出现差错的情况下,仍具有较强的性能。
所以,多模式VBR语音编码是一种在低数据位速率下对语音进行编码的有效的机制。传统的多模式技术需要对各个语音段(如,非话音的、话音的以及过渡部分)设计有效的编码方案或模式以及用于背景噪声或无声的模式。语音编码器的全部性能取决于每一种模式工作的良好程度,而编码器的平均速率取决于用于非话音的、话音的、以及语音其他部分不同模式的数据位速率。为了实现低平均速率下的目标质量,必须设计一些有效的、高性能的模式,并且其中的某些模式必须在较低的数据位速率下工作。通常,话音的和非话音的语音段是在高数据速率下捕获的,而背景噪声和无声部分是用在明显较低的速率下工作的模式来代表的。所以,需要有一种低数据速率的编码技术,在采用每一帧最少数量的数据位的时候能够捕获语音的非话音部分。
发明概述
本发明是一种采用每一帧最少数量的数据位准确捕获语音的非话音部分的低数据速率编码技术。因此,按照本发明对语音的非话音部分进行编码的方法最好包括这样一些步骤,即,从一个语音帧中获取高时间分辨率的能量系数;对高时间分辨率的能量系数进行量化处理;从经量化的能量系数中产生高时间分辨率的能量包;并且通过使随机生成的噪声矢量具有能量包络的量化值来重新构筑残留的信号。
本发明还提供了一种对语音的非话音部分进行编码的语音编码器,它包括从一个帧的语音中获取高时间分辨率的能量系数的装置;使高时间分辨率的能量系数量化的装置;从量化的能量系数中产生高时间分辨率的能量包络的装置;以及通过使随机产生的噪声矢量具有量化的能量包络值来重新构筑残留信号的装置。
本发明还提供了对语音的非话音部分进行编码的语音编码器,它最好包括从一个帧的语音中获取高时间分辨率的能量系数的模块;使高时间分辨率的能量系数量化的模块;从量化的能量系数中产生高时间分辨率的能量包络的模块;以及通过使随机产生的噪声矢量具有量化的能量包络值来重新构筑残留信号的模块。
附图简述
图1是由语音编码器在每一端处终断的通信信道的方框图。
图2是一编码器的方框图。
图3是一译码器的方框图。
图4是描述对用于语音的非话音部分进行低数据速率编码的技术的步骤的流程图。
图5A-E给出的是信号幅度对于离散时间的关系。
图6是描绘锥形进位矢量量化编码过程的功能方框图。
较佳实施例的详细描述
图1中,第一编码器10接收数字化的语音取样s(n),并对取样信号s(n)进行编码,用于在传输介质12或通信信道12上传输到第一译码器14。译码器14对经编码的语音取样信号进行译码,并合成输出语音信号s合成(n)。对于沿相反方向上进行的传输,第二编码器16对数字化的语音取样信号s(n)进行编码,而该取样信号是在通信信道18上传输的。第二译码器20接收经编码的语音取样信号,并对其进行译码,产生经合成的输出语音信号s合成(n)。
语音取样信号S(n)代表已经按照本领域方法(如,脉冲编码调制(PCM)、压扩μ律或A律)中的任何一种方法数字化和量化的语音信号。
正如本领域中人们所知道的那样,语音取样信号S(n)被组织成输入数据帧,其中,每一帧包含预定数量的数字化语音取样信号s(n)。在一种典型的实施例中,采用8kHz的取样速率,这时,每一20毫秒的帧包含160个取样信号。在下面描述的实施例中,从8kbps(全速率)到4kbps(二分之一速率)到2kbps(四分之一速率)到1kbps(八分之一),数据传输的速率在逐个帧的基础上是可变的。最好数据传输速率是可变的,这是因为对于包含相对较少语音信息的数据帧来说,可以有选择地采用较低的数据速率。正如本领域中的普通技术人员所了解的那样,也可以采用其他的取样速率、帧大小和数据传输速率。
第一编码器10和第二译码器20一起包含一个第一语音编码器或语音编译码器。同样,第二编码器16和第一译码器14一起包含一个第二语音编码器。本领域中的技术人员能够理解,语音编码器能够用数字信号处理器(DSP)、专用集成电路(ASIC)、离散电路的逻辑门电路、固件或传统的可编程软件模块和微处理器来构成。软件模块可以做在RAM存储器、按块擦除存储器、寄存器、或本领域中已知的其他形式的可写储存介质。也可以用任何一种传统的处理器、控制器或状态机来代替微处理器。特别设计用于语音编码的专用集成电路见美国专利5,727,123和申请日为1994年2月16日、标题为“声码器专用集成电路”的美国专利申请08/197,417,二者均已转让给本发明的受让人。
图2中,可以用在语音编码器中的编码器100包括:模式决定模块102、基音估计模块104、LP分析模块106、LP分析滤波器108、LP量化模块110和残留量化模块112。输入语音帧s(n)被提供到模块决定模块102、基音估计模块104、LP分析模块106以及LP分析滤波器108。模式决定模块102根据每一输入语音帧s(n)的周期性,产生模式索引IM和模式M。按照周期性对语音帧进行分类的各种方法见申请日为1997年3月11日、标题是“METHOD AND APPARATUS FOR PERFORMING REDUCEDRATE VARIABLE RATE VOCODING”的美国专利申请08/815,354,该专利申请已转让给本发明的受让人。这些方法也已并入电信行业协会行业暂行标准TIA/EIA IS-127和TIA/EIA IS-733。
基音估计模块104根据每一输入的语音帧s(n)产生基音索引IP和滞后值P0。LP分析模块106对每一输入的语音帧s(n)执行线性预测分析,产生LP参数a。LP参数a被提供到LP量化模块110。LP量化模块110还接收模式M。LP量化模块110产生LP索引ILP以及经量化的参数。LP分析滤波器108除了输入语音帧s(n)以外还接收经量化的LP参数。LP分析滤波器108产生LP残留信号R[n],它代表输入语音帧s(n)和量化的线性预测参数之间的误差。LP残留R[n]、模式M和量化LP参数被提供到残留量化模块112。根据这些值,残留量化模块112产生残留索引IR和经量化的残留信号
图3中,语音编码器中可以使用的译码器200包括LP参数译码模块202、残留译码模块204、模式译码模块206以及LP合成滤波器208。模式译码模块206接收模式索引IM并对其进行译码,由此产生模式M。LP参数译码模块202接收模式M,和LP索引ILP。LP参数译码模块202对接收值进行译码,以产生经量化的LP参数。残留译码模块204接收残留索引IR、基音索引IP和模式索引IM。残留译码模块204对接收值进行译码,产生量化的残留信号
经量化的残留信号
和经量化的LP参数被提供到LP合成滤波器208,由它来合成经译码的输出语音信号[n]。
图2所示编码器100各种模块的操作和构成以及图3中所示译码器是本领域中已知的,其详细描述见L.B Rabiner和R.W.Schafer的Digital Processing ofSpeech Signal,396-453(1978)。典型的编码器和典型的译码器见美国专利5,414,796。
图4中的流程图描述了一种按照一种实施例用于语音的非话音段低数据速率编码技术。图4中所示的低速率非话音编码模式提供了一种在更低平均数据速率下的多模式语音编码器,通过准确捕获每一帧数量较少的数据位的非话音部分,它保留了整体较高的话音质量。
在步骤300,编码器对非话音的以及不是非话音的输入语音帧执行外部数量确定和识别。速率的确定是通过考虑到从语音帧S[n]获取的几个参数来完成的,这里,n=1,2,3,…,N,比如,帧的能量(E)、帧的周期(Rp)以及频谱倾斜(Ts)。将这些参数与一组预定的阈值比较。根据比较的结果,判断当前帧是否是非话音的。如下所述,如果当前帧是非话音的,则将其编码为非话音的帧。
按照下面的等式,可以确定帧的能量:
按照下面的等式,可以决定帧的周期:
这里,
是x的自相关函数。按照下面的等式,可以确定频谱倾斜:
Ts=(Eh/El)
这里,Eh和El是Sl[n]和Sh[n]的能量值,Sl和Sh是原始语音帧S[n]的低通和高通分量,它们可以由一组低通滤波器和高通滤波器来产生。
在步骤302,进行LP分析,产生非话音帧的线性预测残留。线性预测(LP)是采用本领域中众所周知的技术来完成的,详见美国专利5,414,796,和L.B.Rabiher与R.W.Schafer的Digital Processing of Speech Signals 396-458(1978)。N取样的非话音LP残留R[n]是从输入语音帧S[n]中产生的,这里,n=l,2,…,N。正如在上面对比文献中所描述的那样,采用已知的LSP量化技术,在线性频谱对(LSP)域中使LP参数量化。原始语音信号幅度与离散时间索引之间的关系见图5A中所示。经量化的非话音语音信号幅度与离散时间索引之间的关系见图5B所示。原始非话音残留信号幅度与离散时间索引之间的关系见图5C所示。能量包络幅度与离散时间索引之间的关系见图5D所示。经量化的非话音残留信号幅度与离散时间索引之间的关系见图5E所示。
在步骤304,获取非话音残留信号的精细时间分辨率能量参数。执行下面的步骤,从非话音残留R[n]中获取几个(M)本地能量参数Ei,这里,i=1,2,…,M。将N个取样残留R[n]分成(M-2)子块Xi,这里,i=1,2,3,…,M-1,每一块Xi的长度是L=N/(M-2)。从前一帧的过去(past)量化残留中得到L个取样的过去残留块X1。(L个取样的过去残留块X1含有最后语音帧N个取样残留的最后L个取样)。从下一个帧的LP残留中得到L个取样的将来残留块XM。(L个取样的将来残留块XM含有下一个语音帧N取样LP残留开头的L个取样。)按照下面的等式,从M个块Xi中的每一个中产生M个本地能量参数Ei,这里,i=1,2,…,M。
在步骤306,按照锥形进位矢量量化(PVQ)方法,用Nr个数据位,对M个能量参数进行编码。所以,用Nr个数据位对M-1个本地能量值Ei进行编码,形成量化的能量值Wi,这里,i=2,3,…,M。采用数据位N1,N2,…,NK的K个步骤的PVQ编码方案,从而N1+N2+…+NK=Nr,即,用于量化非话音残留R[n]的数据位总数。对于k个级(stage)中的每一个级,执行下面的步骤(这里,k=1,2,…,K)。对于第一级(即,k=1),将频带数设置在Bk=B1=1,并且频带长度设置在Lk=1。对于每一频带Bk,按照下面的等式,设置平均值meanj,这里,j=1,2,…,Bk:
用Nk=N1将Bk平均值meanj量化,而形成平均值qmeanj的量化组,这里,j=1,2,…,Bk。将属于每一频带Bk的能量除以相关量化的平均值qmeanj,而产生新的一组能量值{Ek,i}={E1,j},这里,i=1,2,…,M。在第一级的情况下(即,对于k=1),对于每一i,(i=1,2,…,M):
E1.l=Ei/qmeans1
分成子频带、获取每一频带的平均值、用每一级的数据位使平均值量化,并且随后将子频带的分量除以子带的量化平均值,对于每一以后的级k,重复这一过程,这里k=2,3,…,K-1。
在第k级,采用全部Nk个数据位,用为每一频带而设计的各个VQ,使Bk子频带中每一个的分矢量量化。M=8以及级=4的PVQ编码过程是通过图6中所示的例子来描述的。
在步骤308,形成M个量化的能量矢量。通过用最终残留的分矢量和量化平均值最终使上述PVQ编码过程反向,从编码簿(codebook)和代表PVQ信息的Nr个数据位中形成M个量化的能量矢量。图7中通过举例,描述了M=3以及级k=3时的PVQ译码过程。正如本领域中的普通技术人员能够理解的那样,非话音的(UV)增益可以用任何一种传统的编码技术来量化。编码技术方案并非仅限于图4-7中所描述的实施例的PVQ方案。
在步骤310,形成高分辨率的能量包络。按照下面计算,从经译码的能量值Wi,形成N个取样(即,语音帧的长度),高时间分辨率的能量包络ENV[n],这里,n=1,2,3,…,N,i=1,2,3,…,M。M个能量值代表语音当前残留M-2个子帧的能量,每一子帧的长度L=N/M。W1和WM的值分别代表最后的残留帧的过去的L个取样,和下一个残留帧未来L个取样的能量。
如果Wm-1、Wm和Wm+1分别代表第m-1个、第m个和第m+1个子带的能量,那么对于n=m*L-L/2至n=m*L+L/2,代表第m个子帧的能量包络ENV[n]的采样计算如下:对于n=m*L-L/2,一直到n=m*L,
并且对于n=m*L,一直到n=m*L+L/2,
假设m=2,3,4,…,M,对于M-1个频带中的每一个频带,重复对能量包络ENV[n]进行计算的步骤,以计算整个能量包络ENV[n],这里,对于当前残留帧,n=1,2,…,N。
在步骤312,通过使能量包络ENV[n]对随机噪声进行着色,形成量化后的非话音残留信号。按照下面的等式,形成量化后的非话音残留qR[n]:
qR[n]=噪声[n]*ENV[n],n=1,2,…,N
这里,噪声[n]是具有单位方差的随机白噪声信号,它是由与编码器和译码器同步的随机数发生器模拟产生的。
在步骤314,形成量化的非话音语音帧。正如在本领域中以及在上述美国专利5,414,796中以及L.B.Rabiner与R.W.Schafer在Digital Processing of SdeechSignal,396-458(1978)中所描述的那样,采用传统的LP合成技术,通过将量化后的非话音语音进行逆向LP滤波,产生量化的非话音残留qS[n]。
在一种实施例中,通过测量感测的(perceptual))误差测量如感测的信噪比(PSNR),可以执行质量控制步骤,而PSNR定义如下:
这里,x[n]=h[n]*R[n],而e(n)=h[n]*qR[n],“*”表示卷积或滤波操作,h(n)是感测的加权LP滤波器,而R[n]和qR[n]分别是原始的和量化的非话音残留。将PSNR与一预定的阈值比较。如果PSNR小于该阈值,则非话音编码方案就不会进行恰当地得到执行,并且可以执行更高速率的编码方式,代替更精确地捕获当前帧。另一方面,如果PSNR超过预定的阈值,则非话音的编码方案就得到了很好的执行,并保留该模式判断。
上文中已经描述了本发明的较佳实施例。然而,对本领域中普通技术人员而言,在不偏离本发明的精神和范围的情况下,还可以对这些实施例作各种各样的修正。所以,本发明并非仅限于这些实施例,而应当以权利要求书来限定本发明。
Claims (13)
1.一种对语音的非话音部分进行编码的方法,其特征在于,它包含下述步骤:
从语音帧的时域表述中获取能量系数,其中,预定数量的子帧含有语音的话音及非话音部分;
使所述能量系数量化;
从所述量化的能量系数,插值形成能量包络;以及
通过用重新构筑的能量包络形成随机产生的噪声矢量,重新构成残留信号。
2.如权利要求1所述的方法,其特征在于,按照锥形进位矢量量化方案,执行所述量化步骤。
3.如权利要求1所述的方法,其特征在于,所述产生步骤是用线性***的方法来完成的。
4.如权利要求1所述的方法,其特征在于,它还包含这样一些步骤,即,获得后处理性能测量,并且将所述后处理性能测量与一预定的阈值比较。
5.如权利要求1所述的方法,其特征在于,所述产生步骤包含产生能量包络,包括前一帧残留预定个数的过去取样的能量表述。
6.如权利要求1所述的方法,其特征在于,所述产生步骤包含产生能量包络,包括下一帧残留预定个数的未来取样的能量表述。
7.一种对语音的非话音部分进行编码的语音编码器,其特征在于,它包含:
从一个语音帧的时域表述中获取能量系数的线性预测分析滤波器(108),其中,预定数量的子帧含有语音的话音及非话音部分;
对所述能量系数进行量化处理的残留量化器(112);
从所述量化的能量系数中重新构筑光滑的能量包络的残留译码器(204);以及
用所述重新构筑的光滑能量包络形成随机产生的噪声矢量从而重新构筑残留信号的线性预测合成滤波器(208)。
8.如权利要求7所述的语音编码器,其特征在于,所述用于量化的残留量化器包含按照锥形进位矢量量化方案进行量化的装置。
9.如权利要求7所述的语音编码器,其特征在于,所述用于产生的残留译码器包含一个线性***模块。
10.如权利要求7所述的语音编码器,其特征在于,它还包含获得后处理性能测量的装置和将所述后处理性能测量与一预定阈值比较的装置。
11.如权利要求7所述的语音编码器,其特征在于,所述用于产生的残留译码器包含产生能量包络的装置,所述能量包络包括前一残留帧的预定数量的过去取样的能量表述。
12.如权利要求7所述的语音编码器,其特征在于,所述用于产生的残留译码器装置包含产生能量包络的装置,所述能量包络包括下一个残留帧的预定数量的未来取样的能量表述。
13.如权利要求7所述的语音编码器,其特征在于,所述的获取能量系数的线性预测分析滤波器被配置为获取高时间分辨率能量系数。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/191,633 US6463407B2 (en) | 1998-11-13 | 1998-11-13 | Low bit-rate coding of unvoiced segments of speech |
US09/191,633 | 1998-11-13 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200410045610XA Division CN1815558B (zh) | 1998-11-13 | 1999-11-12 | 语音中非话音部分的低数据位速率编码 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1342309A CN1342309A (zh) | 2002-03-27 |
CN1241169C true CN1241169C (zh) | 2006-02-08 |
Family
ID=22706272
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200410045610XA Expired - Lifetime CN1815558B (zh) | 1998-11-13 | 1999-11-12 | 语音中非话音部分的低数据位速率编码 |
CNB99815573XA Expired - Lifetime CN1241169C (zh) | 1998-11-13 | 1999-11-12 | 语音中非话音部分的低数据位速率编码 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200410045610XA Expired - Lifetime CN1815558B (zh) | 1998-11-13 | 1999-11-12 | 语音中非话音部分的低数据位速率编码 |
Country Status (11)
Country | Link |
---|---|
US (3) | US6463407B2 (zh) |
EP (1) | EP1129450B1 (zh) |
JP (1) | JP4489960B2 (zh) |
KR (1) | KR100592627B1 (zh) |
CN (2) | CN1815558B (zh) |
AT (1) | ATE286617T1 (zh) |
AU (1) | AU1620700A (zh) |
DE (1) | DE69923079T2 (zh) |
ES (1) | ES2238860T3 (zh) |
HK (1) | HK1042370B (zh) |
WO (1) | WO2000030074A1 (zh) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6463407B2 (en) * | 1998-11-13 | 2002-10-08 | Qualcomm Inc. | Low bit-rate coding of unvoiced segments of speech |
US6937979B2 (en) * | 2000-09-15 | 2005-08-30 | Mindspeed Technologies, Inc. | Coding based on spectral content of a speech signal |
US6947888B1 (en) * | 2000-10-17 | 2005-09-20 | Qualcomm Incorporated | Method and apparatus for high performance low bit-rate coding of unvoiced speech |
KR20020075592A (ko) * | 2001-03-26 | 2002-10-05 | 한국전자통신연구원 | 광대역 음성 부호화기용 lsf 양자화기 |
JP2004519738A (ja) * | 2001-04-05 | 2004-07-02 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 決定された信号型式に固有な技術を適用する信号の時間目盛修正 |
US7162415B2 (en) * | 2001-11-06 | 2007-01-09 | The Regents Of The University Of California | Ultra-narrow bandwidth voice coding |
US6917914B2 (en) * | 2003-01-31 | 2005-07-12 | Harris Corporation | Voice over bandwidth constrained lines with mixed excitation linear prediction transcoding |
KR100487719B1 (ko) * | 2003-03-05 | 2005-05-04 | 한국전자통신연구원 | 광대역 음성 부호화를 위한 엘에스에프 계수 벡터 양자화기 |
CA2475283A1 (en) * | 2003-07-17 | 2005-01-17 | Her Majesty The Queen In Right Of Canada As Represented By The Minister Of Industry Through The Communications Research Centre | Method for recovery of lost speech data |
US20050091044A1 (en) * | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for pitch contour quantization in audio coding |
US20050091041A1 (en) * | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for speech coding |
US8219391B2 (en) * | 2005-02-15 | 2012-07-10 | Raytheon Bbn Technologies Corp. | Speech analyzing system with speech codebook |
US8032369B2 (en) * | 2006-01-20 | 2011-10-04 | Qualcomm Incorporated | Arbitrary average data rates for variable rate coders |
US8090573B2 (en) * | 2006-01-20 | 2012-01-03 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision |
US8346544B2 (en) * | 2006-01-20 | 2013-01-01 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision |
RU2426179C2 (ru) * | 2006-10-10 | 2011-08-10 | Квэлкомм Инкорпорейтед | Способ и устройство для кодирования и декодирования аудиосигналов |
AU2007318506B2 (en) * | 2006-11-10 | 2012-03-08 | Iii Holdings 12, Llc | Parameter decoding device, parameter encoding device, and parameter decoding method |
GB2466666B (en) * | 2009-01-06 | 2013-01-23 | Skype | Speech coding |
US20100285938A1 (en) * | 2009-05-08 | 2010-11-11 | Miguel Latronica | Therapeutic body strap |
US9570093B2 (en) * | 2013-09-09 | 2017-02-14 | Huawei Technologies Co., Ltd. | Unvoiced/voiced decision for speech processing |
EP3111560B1 (en) | 2014-02-27 | 2021-05-26 | Telefonaktiebolaget LM Ericsson (publ) | Method and apparatus for pyramid vector quantization indexing and de-indexing of audio/video sample vectors |
US10586546B2 (en) | 2018-04-26 | 2020-03-10 | Qualcomm Incorporated | Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding |
US10573331B2 (en) * | 2018-05-01 | 2020-02-25 | Qualcomm Incorporated | Cooperative pyramid vector quantizers for scalable audio coding |
US10734006B2 (en) | 2018-06-01 | 2020-08-04 | Qualcomm Incorporated | Audio coding based on audio pattern recognition |
CN113627499B (zh) * | 2021-07-28 | 2024-04-02 | 中国科学技术大学 | 基于检查站柴油车尾气图像的烟度等级估算方法及设备 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4731846A (en) * | 1983-04-13 | 1988-03-15 | Texas Instruments Incorporated | Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal |
EP0163829B1 (en) * | 1984-03-21 | 1989-08-23 | Nippon Telegraph And Telephone Corporation | Speech signal processing system |
IL95753A (en) * | 1989-10-17 | 1994-11-11 | Motorola Inc | Digits a digital speech |
JP2841765B2 (ja) * | 1990-07-13 | 1998-12-24 | 日本電気株式会社 | 適応ビット割当て方法及び装置 |
US5226108A (en) * | 1990-09-20 | 1993-07-06 | Digital Voice Systems, Inc. | Processing a speech signal with estimated pitch |
DE69232202T2 (de) | 1991-06-11 | 2002-07-25 | Qualcomm Inc | Vocoder mit veraendlicher bitrate |
US5255339A (en) * | 1991-07-19 | 1993-10-19 | Motorola, Inc. | Low bit rate vocoder means and method |
WO1993018505A1 (en) * | 1992-03-02 | 1993-09-16 | The Walt Disney Company | Voice transformation system |
US5734789A (en) * | 1992-06-01 | 1998-03-31 | Hughes Electronics | Voiced, unvoiced or noise modes in a CELP vocoder |
US5381512A (en) * | 1992-06-24 | 1995-01-10 | Moscom Corporation | Method and apparatus for speech feature recognition based on models of auditory signal processing |
US5517595A (en) * | 1994-02-08 | 1996-05-14 | At&T Corp. | Decomposition in noise and periodic signal waveforms in waveform interpolation |
US5742734A (en) * | 1994-08-10 | 1998-04-21 | Qualcomm Incorporated | Encoding rate selection in a variable rate vocoder |
US5839102A (en) * | 1994-11-30 | 1998-11-17 | Lucent Technologies Inc. | Speech coding parameter sequence reconstruction by sequence classification and interpolation |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
US6463407B2 (en) * | 1998-11-13 | 2002-10-08 | Qualcomm Inc. | Low bit-rate coding of unvoiced segments of speech |
US6754624B2 (en) * | 2001-02-13 | 2004-06-22 | Qualcomm, Inc. | Codebook re-ordering to reduce undesired packet generation |
-
1998
- 1998-11-13 US US09/191,633 patent/US6463407B2/en not_active Expired - Lifetime
-
1999
- 1999-11-12 ES ES99958940T patent/ES2238860T3/es not_active Expired - Lifetime
- 1999-11-12 EP EP99958940A patent/EP1129450B1/en not_active Expired - Lifetime
- 1999-11-12 CN CN200410045610XA patent/CN1815558B/zh not_active Expired - Lifetime
- 1999-11-12 AU AU16207/00A patent/AU1620700A/en not_active Abandoned
- 1999-11-12 AT AT99958940T patent/ATE286617T1/de not_active IP Right Cessation
- 1999-11-12 KR KR1020017006085A patent/KR100592627B1/ko active IP Right Grant
- 1999-11-12 CN CNB99815573XA patent/CN1241169C/zh not_active Expired - Lifetime
- 1999-11-12 DE DE69923079T patent/DE69923079T2/de not_active Expired - Lifetime
- 1999-11-12 JP JP2000583003A patent/JP4489960B2/ja not_active Expired - Fee Related
- 1999-11-12 WO PCT/US1999/026851 patent/WO2000030074A1/en active IP Right Grant
-
2002
- 2002-05-30 HK HK02104019.7A patent/HK1042370B/zh not_active IP Right Cessation
- 2002-07-17 US US10/196,973 patent/US6820052B2/en not_active Expired - Lifetime
-
2004
- 2004-09-29 US US10/954,851 patent/US7146310B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
ES2238860T3 (es) | 2005-09-01 |
JP2002530705A (ja) | 2002-09-17 |
US6820052B2 (en) | 2004-11-16 |
ATE286617T1 (de) | 2005-01-15 |
HK1042370B (zh) | 2006-09-29 |
WO2000030074A1 (en) | 2000-05-25 |
US20020184007A1 (en) | 2002-12-05 |
US20050043944A1 (en) | 2005-02-24 |
DE69923079T2 (de) | 2005-12-15 |
US6463407B2 (en) | 2002-10-08 |
EP1129450B1 (en) | 2005-01-05 |
DE69923079D1 (de) | 2005-02-10 |
AU1620700A (en) | 2000-06-05 |
KR20010080455A (ko) | 2001-08-22 |
CN1815558B (zh) | 2010-09-29 |
CN1342309A (zh) | 2002-03-27 |
KR100592627B1 (ko) | 2006-06-23 |
US7146310B2 (en) | 2006-12-05 |
HK1042370A1 (en) | 2002-08-09 |
CN1815558A (zh) | 2006-08-09 |
EP1129450A1 (en) | 2001-09-05 |
JP4489960B2 (ja) | 2010-06-23 |
US20010049598A1 (en) | 2001-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1241169C (zh) | 语音中非话音部分的低数据位速率编码 | |
CN1266674C (zh) | 闭环多模混合域线性预测语音编解码器和处理帧的方法 | |
CN1154086C (zh) | Celp转发 | |
CN100350453C (zh) | 强壮语音分类方法和装置 | |
CN1223989C (zh) | 可变速率语音编码器中的帧擦除补偿法及用该方法的装置 | |
CN1302459C (zh) | 用于编码和解码非话音语音的方法和设备 | |
CN1158647C (zh) | 话音编码设备的频谱幅度量化 | |
CN102985969B (zh) | 编码装置、解码装置和编码方法、解码方法 | |
CN1161749C (zh) | 保持语言编码中目标比特率的方法和装置 | |
CN1432176A (zh) | 用于预测量化有声语音的方法和设备 | |
CN1212607C (zh) | 使用编码方案选择模型以减少对帧差错敏感性的预测语音编码器 | |
CN1922659A (zh) | 编码模式选择 | |
CN1133151C (zh) | 纠正传输差错的声频信号解码方法 | |
CN1292914A (zh) | 语音编码 | |
CN1348582A (zh) | 音调原型波形借助于时间同步波形内插的语音合成 | |
CN1739143A (zh) | 用于分布式语音识别***内语音重构的方法和设备 | |
CN1290077C (zh) | 用来对相位谱信息进行子抽样的方法和设备 | |
CN1447963A (zh) | 语音编码中噪音鲁棒分类方法 | |
CN101783142B (zh) | 转码方法、装置和通信设备 | |
CN1355915A (zh) | 过滤语言帧的多脉冲内插编码 | |
CN1104010A (zh) | 产生用于话音编码器的频谱噪音加权滤波器的方法 | |
CA2293165A1 (en) | Method for transmitting data in wireless speech channels | |
CN1262991C (zh) | 跟踪准周期性信号的相位的方法和设备 | |
CN1815894A (zh) | 一种音频信号编码的方法和设备 | |
CN1275223C (zh) | 一种低比特变速率语言编码器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CX01 | Expiry of patent term | ||
CX01 | Expiry of patent term |
Granted publication date: 20060208 |