CN1470051A - 非话音语音的高性能低比特率编码方法和设备 - Google Patents

非话音语音的高性能低比特率编码方法和设备 Download PDF

Info

Publication number
CN1470051A
CN1470051A CNA018174140A CN01817414A CN1470051A CN 1470051 A CN1470051 A CN 1470051A CN A018174140 A CNA018174140 A CN A018174140A CN 01817414 A CN01817414 A CN 01817414A CN 1470051 A CN1470051 A CN 1470051A
Authority
CN
China
Prior art keywords
subframe
gain
random noise
directional scaling
subframes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA018174140A
Other languages
English (en)
Other versions
CN1302459C (zh
Inventor
黄鹏俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN1470051A publication Critical patent/CN1470051A/zh
Application granted granted Critical
Publication of CN1302459C publication Critical patent/CN1302459C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Analogue/Digital Conversion (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种用于非话音的语音片段的低比特率编码技术。一组增益在由一个线性预测滤波器白化语音信号以后从一个残余信号获得。然后这些增益被量化并被应用到一个随机产生的稀疏的激励上。该激励被滤波,其频谱特性被分析并且和初始的残余信号的频谱特性进行比较。在该分析的基础上选择一个滤波器以成形该激励的频谱特性而达到最佳的性能。

Description

非话音语音的高性能低比特率编码方法和设备
                            背景
发明领域
所揭示的实施例涉及语音处理领域。更具体地说,所揭示的实施例涉及一种新颖的和经改进的非话音语音段的低比特率编码的方法和设备。
背景
通过数字技术传输话音已经得到广泛应用,尤其是在长距离的和数字的无线电电话应用方面。反过来,它在确定能通过一个信道发送的最少的信息量而同时保持经重新构造的语音的能被感知到的质量方面引起了兴趣。如果语音通过简单的采样和数字化传输,需要每秒64k比特(kbps)数量级的数据速率才能达到常规的模拟电话的语音质量。然而,通过使用语音分析,再跟以适当的编码,传输和在接收器上再综合,数据速率的显著减小是能够达到的。
应用通过提取涉及人类语音生成模型的参数而压缩语音的技术的设备被叫做语音编码器。语音编码器把输入的语音信号分成几个时间大块,或分析帧。语音编码器通常包括一个编码器和一个解码器,或者一个编码解码器。编码器分析输入的语音帧以提取一定的相关参数,然后将这些参数量化为两进制的表示,即变为一组比特或一个两进制数据包。数据包通过通信信道传输到接收器和解码器。解码器处理该数据包,将其解量化以产生参数,然后用这些解量化的参数再综合成语音帧。
语音编码器的功能是通过去除所有语音内在多余的自然信息而将数字化的语音信号压缩为低比特率的信号。数字化的压缩通过用一组参数表示输入的语音帧以及应用量化来用一组比特表示这些参数而达到。如果该输入的语音帧有一个比特数Ni,以及由语音编码器产生的数据包有一个比特数No,由语音编码器得到的压缩因子Cr=Ni/No。挑战是既要保留经解码的语音的高语音质量,又要达到目标的压缩因子。语音编码器的性能取决于(1)语音模式,或上述分析和综合处理的结合进行得怎样好,和(2)在每帧No比特的目标比特率上参数量化处理进行得怎样好。语音模式的目标是对于每一个帧用一个小的参数组就能够捕获到语音信号的本质或目标语音质量。
语音编码器可以被作为时域的编码器实施,它试图通过应用高时间分辨率的处理来捕获时域的语音波形而一次编码一个小的语音片段(通常是5毫秒(ms)的子帧)。对于每一个子帧,来自一个编码本空间的高精确度表示通过在技术上已知的各种算法***而被找到。或者,语音编码器可以被作为频域的编码器实施,它试图用一组参数(分析)捕获输入语音帧的短期语音频谱以及应用一个相应综合处理从该频谱参数重新创立语音波形。参数量化器根据在A.Gersho & R.M.Gray的著作“矢量量化和信号压缩”(1992)中叙述的已知的量化技术,通过用储存的编码矢量对它们的描绘而保存这些参数。
一种众所周知的时域语音编码器是在L.B.Rabiner & R.W.Schafer的著作“语音信号的数字处理”396-453(1978)中叙述的代码激励线性预测(CELP)编码器,该文通过引用而全部被结合在本文中。在CELP编码器中,语音信号的短期相关,或冗余,通过一个线性预测(LP)分析而去除,从中发现一个短期共振峰滤波系数。将短期滤波应用到输入的语音帧产生一个LP残余信号,该信号用长期预测滤波参数和一个后续的随机码本进一步模式化和量化。这样,CELP编码将编码时域的语音波形的任务分解为独立的编码LP短时间滤波系数和编码LP残余的任务。时域编码能以一个固定速率(即对每一个帧用相同的比特数N0)或以一个变化的速率(对不同类型的帧内容用不同的比特率)实行。可变速率编码器试图只用将编码解码参数编码到一个适合于获得目标质量的水平所需要的比特数量。一个示例的可变速率CELP编码器在美国专利号No.5414796中作过叙述,它被转让给本揭示的实施例的受让人并且通过引用而完全结合在本文中。
诸如CELP编码器的时域编码器通常依赖于每帧高数量的比特数No来保持时域语音波形的精确度。这样的编码器通常传递由相对大(例如8kbps或以上)的每帧比特数N0提供的优秀的语音质量。然而,在低比特率(4kbps或以下)时由于受到可得到的比特数的限制,时域编码器就不能保持高质量和稳健的性能。在低比特率时,受限制的码本空间降低了常规的时域编码器在高速率商业应用中成功施展的波形匹配能力。
通常,CELP方案应用一个短期预测(STP)滤波和一个长期预测(LTP)滤波。一种通过综合的分析(AbS)方法被用在编码器上以发现LTP延时和增益以及最佳的随机码本增益和指数。当前的最新技术编码器诸如增强的可变速率编码器(EVRC)能在大约每秒8k比特的数据速率上达到综合后的语音的优良质量。
大家也知道,非话音的语音是不能显示其周期性的。在常规的CELP方案中编码LTP滤波消耗的带宽对于非话音语音是不象语音的周期性强因而LTP滤波才有意义的话音语音那样被有效率地利用。因此,对于非话音语音就需要一种更高效率(即更低的比特率)的编码方案。
对于在低比特率上编码,发展了各种语音的频谱的或频域的编码方法,在这些方法中,语音信号被分析作为一个频谱的时间变化的演变。例如参看“语音编码和综合”第四章(M.B.Kleijn & K.K.Paliwal,1995版)中R.J.McAulay& T.F.Quatieri的“正弦编码”。在频谱编码器中,目标将用一组频谱参数来建模或预测每个语音的输入帧的短期语音频谱,而不是去精确地模仿时间变化的语音波形。然后频谱参数被编码,并且语音的一个输出帧被用经解码的参数创立。结果的综合的语音和初始的输入语音波形不匹配,但提供了相似的感觉质量。在技术上众所周知的频域编码器的实例包括多频带激励编码器(MBEs),正弦变换编码器(STCs),以及谐波编码器(HCs)。这样的频域编码器提供了一种高质量的参数模型,该参数模型具有一组能用在低比特率下得到的低比特数精确量化的紧凑的参数。
然而,低比特率编码带来了一个有限的编码分辨率或有限的码本空间的重大约束,它限制了单个的编码机制的有效性,使编码器不能在各种背景条件下用相同的精确度描绘各种类型的语音片段。例如,常规的低比特率频域编码器不传递语音帧的相位信息。代之以的是,相位信息要通过用一个随机的人工产生的初始相位值和线性内插法技术重新构成。例如参看在“29电子通信”856-57(1993年5月)中H.Yang等人的“在MBE模型中的对于话音语音综合的二次阶段内插法”。因为相位信息是人工产生的,即使正弦曲线的振幅由量化-非量化处理完全保持,由频域编码器产生的输出语音将和初始的输入语音不对齐(即主要的节奏将不同步)。因此已经证实,在频域编码器中,采用任何闭环性能测试,诸如信-噪比(SNR)或感觉SNR等是困难的。
一个在低比特率条件下高效地对语音编码的有效技术是多模式编码。多模式编码技术已经和一种开环模式判决处理相结合而用于进行低速率语音编码。一种这样的多模式编码技术在“语音编码和综合”第七章(M.B.Kleijn &K.K.Paliwal,1995版)中Amitava Das等人的“语音的多模式和可变速率编码”中叙述过。常规的多模式编码器将不同的模式,或编码-解码算法应用到输入语音帧的不同类型。每一个模式,或编码-解码处理都以最有效率的方式定制成描绘一个语音片段的一定的类型,诸如有话音语音,非话音语音,或背景噪声(无话音)。一个外部的开环模式判决机制审查了输入语音帧并且作出将哪一种模式应用到该帧的决定。该开环模式判决通常通过从输入帧提取一定数目的参数进行,对该参数关于一定的时间的和频谱的特征进行评估,并将模式判决基于该评估的基础之上。这样,模式判决的作出就不需要事先知道输出语音的精确条件,即根据声音质量或其他性能度量,输出语音将怎样接近于输入语音。一种对于一个语音的编码解码的实例的开环模式判决在美国专利号5414796中叙述过,它被转让给本揭示的实施例的受让人并且通过引用而完全结合在本文中。
多模式编码可以是固定速率的,对每一个帧使用同一个比特数N0,或者是可变速率的,对不同的模式使用不同的比特率。在可变速率编码中的目标是只使用将编码解码器参数编码到一个适合于获得目标质量的水平所需要的比特数量。结果,就能应用可变比特速率(VBR)技术在一个相当低的平均速率上获得和固定速率的,更高速率的编码器一样的目标声音质量。一种实例的可变速率语音编码器在美国专利号5414796中叙述过,它被转让给本揭示的实施例的受让人并且通过引用而完全结合在本文中。
目前,存在一个研究发展在中等到低比特率(即在2.4到4kbps和以下的范围)上工作的高质量语音编码器的利益和强大的商业需求的浪潮。该应用领域包括无线电话,卫星通信,互联网电话,各种多媒体和语音流应用,话音邮件,和其他话音储存***。驱动力就是对高容量的需要和对在数据包丢失情况下的稳健性能的要求。对各种当前的语音编码的标准化的努力是另一个直接驱动力,推进了低速率语音编码算法的研究和发展。低速率语音编码器创立了每个可允许应用带宽更多的通道或用户,和一个附加的合适的信道编码层耦合的低速率语音编码器能够适合编码器规范的总体的比特预算量,并在信道误差条件下传递稳健的性能。
因此,多模式VBR语音编码是一种在低比特率下编码语音的有效的机构。常规的多模式方案对于各种语音片段(非话音,话音,过渡)以及背景噪声或静音的模式需要高效率的编码方案的结构或模式。语音编码器的总体性能取决于每一个模式进行得怎样好,编码器的平均速率取决于非话音的,话音的和其他语音片段的不同模式的比特率。为了在低平均速率下达到目标质量,必须设计高效率的高性能的模式,其中一些模式必须在低比特率下工作。通常,话音的和非话音的语音片段在高比特率下被捕获,背景噪声和静音片段用在一个相当低的速率下工作的模式描绘。这样,就存在一个对精确捕获一个高百分比的非话音的语音片段,同时每帧只使用最小数目的比特的高性能低比特率编码的需要。
概述
本揭示的实施例致力于一种精确捕获非话音的语音片段,同时每帧只使用最小数目的比特的高性能低比特率编码技术。因而,在本发明的一个实施例中,一种解码非话音语音片段的方法包括用接收到的多个子帧的指数来恢复一组经量化的增益;对多个子帧中的每一个子帧,产生一个包括随机数的随机噪声信号;对多个子帧中的每一个子帧,选择随机噪声信号的一个预定百分比的最高振幅随机数;由对每一个子帧恢复的增益按比例缩放经选择的最高振幅随机数,以产生一个按比例缩放的随机噪声信号;带通滤波和成形该按比例缩放的随机噪声信号;以及基于所接收到的滤波器选择指示,选择一个第二滤波器,以及用选择的滤波器进一步成形所述按比例缩放的随机噪声信号。
附图简述
通过在下文中结合附图进行的详尽叙述,本揭示的实施例的特征,目的和优点将变得更加清楚。在附图中,相同的参考标号始终对应相同的部件。附图中:
图1是用语音编码器终止在通信信道的每一端的框图;
图2A是能在高性能低比特率语音编码器中使用的一种编码器的框图;
图2B是能在高性能低比特率语音编码器中使用的一种解码器的框图;
图3描绘了一种能在图2A的编码器中使用的高性能低比特率非话音语音编码器;
图4描绘了一种能在图2B的解码器中使用的高性能低比特率非话音语音解码器;
图5是描绘非话音语音的高性能低比特率编码技术的编码步骤的流程图;
图6是描绘非话音语音的高性能低比特率编码技术的解码步骤的流程图;
图7A是在带能分析中应用的低通滤波的频率响应的曲线图;
图7B是在带能分析中应用的高通滤波的频率响应的曲线图;
图8A是在感觉滤波中应用的带通滤波的频率响应的曲线图;
图8B是在感觉滤波中应用的初始成形滤波的频率响应的曲线图;
图8C是可在最后的感觉滤波中应用的一个成形滤波的频率响应的曲线图;
图8D是可在最后的感觉滤波中应用的另一个成形滤波的频率响应的曲线图;
较佳实施例的详细描述
本揭示的实施例为非话音语音的高性能低比特率编码提供了一种方法和设备。非话音信号被数字化和转换成采样的帧。非话音信号的每一帧由一个短期预测滤波器滤波以产生短期信号块。每一个帧被分解为多个子帧。然后为每一个子帧计算一个增益。这些增益被相继量化并传输。然后,产生一个随机噪声块并由下文详尽叙述的方法滤波。该经滤波的随机噪声由量化的子帧增益按比例缩放以形成一个表示该短期信号的量化的信号。在解码器处产生一个随机噪声帧,并且以和编码器处的随机噪声相同的方式滤波。然后解码器处的经滤波的随机噪声由接收到的子帧增益按比例缩放,并经过一个短期预测滤波,以形成一个表示初始采样的综合的语音帧。
揭示的实施例对各种非话音语音提出了一种新颖的编码技术。在每秒2k比特的速率下,经综合的非话音语音的质量在感觉上相当于需要高得多的数据速率的常规的CELP方案产生的质量。根据本揭示的实施例,能够编码一个高百分比(大约为百分之二十)的非话音语音片段
在图1中,第一编码器10接收数字化的语音采样s(n)并对该采样s(n)进行编码,以便于在传媒12或通信信道12上传递到第一解码器14。解码器14对经编码的采样进行解码并对输出的语音信号SSYNTH(n)进行综合。为了在相对的方向进行传输,第二编码器16对在通信信道18上传输的数字化的语音采样s(n)进行编码。第二解码器20接收并解码该经编码的语音采样,产生一个综合的输出语音信号SSYNTH(n)。
语音采样s(n)表示了已经根据技术上已知的各种方法数字化和量化的语音信号,这些方法包括例如脉冲编码调制(PCM)压扩μ律或A律。如在技术上已知的,语音采样s(n)被组织成输入数据帧,其中每一个帧都包括一个预定数目的数字化语音采样s(n)。在一个示例实施例中,应用了8kHz的采样速率,每20ms帧包括160采样。在下文叙述的实施例中,数据传输的速率可以在帧到帧的基础上从8kbps(全速率)到4kbps(半速率)到2kbps(四分之一速率)到1kbps(八分之一速率)变化。或者可以用其他的数据速率。如在本文中所用的那样,术语“全速率”或“高速率”通常是指大于或等于8kbps的数据速率,术语“半速率”或“低速率”通常是指小于或等于4kbps的数据速率。变化数据传输速率是有利的,因为较低的比特率可以有选择地应用于包含相对较少语音信息的帧上。如在本技术领域熟悉的人士所理解的那样,也可以应用其他的采样速率,帧尺寸和数据传输速率。
第一编码器10和第二解码器20一起构成第一语音编码器或语音编码解码器。相似地,第二编码器16和第一解码器14一起构成第二语音编码器。在本技术领域熟悉的人士能够理解的是,语音编码器可以用数字信号处理器(DSP),专用集成电路(ASIC),分立门逻辑,固件,或任何常规的可编程软件模块和微处理器实施。软件模块可以驻留在RAM存储器,闪速存储器,寄存器,以及在技术上已知的任何其他形式的可写储存媒介中。或者,任何常规的处理器,控制器,或状态机能够被用来代替微处理器。专门为语音编码设计的示例的ASIC在美国专利号5727123中叙述过,它被转让给本揭示的实施例的受让人并且通过引用而完全结合在本文中。该示例也在题为“用于在移动电话***中进行快速语音压缩的专用集成电路(ASIC)”的美国专利号5784532中叙述过,它被转让给本揭示的实施例的受让人并且通过引用而完全结合在本文中。
图2A是图1描绘的可以应用本揭示的实施例的编码器(10,16)的框图。由一个短期预测滤波器200滤波一个语音信号s(n)。该语音本身s(n)和/或在短期预测滤波器200的输出处的线性预测残余信号r(n)向语音分类器202提供输入。
语音分类器202的输出向开关203提供输入,使开关203能够以语音的经分类的模式为基础选择相应的模式编码器(204,206)。在本技术领域熟悉的人士将理解,语音分类器202不限制于话音的和非话音的语音分类,也可以分类过渡,背景噪声(静音),或其他类型的语音。
话音语音编码器204通过任何常规的诸如CELP或原型波形内插法(PWI)的方法编码话音语音。
非话音语音编码器205根据下文叙述的实施例编码低比特率的非话音语音。根据一个实施例参考图3的细节叙述非话音语音编码器206。
由编码器204或编码器206编码以后,多路复用器208形成一个包括数据包,语音模式和其他经编码的参数的数据包比特流,以用于传输。
图2B是图1描绘的可以应用本揭示的实施例的解码器(14,20)的框图。
除多路复用器210接收一个包比特流,从该比特流多路分解出数据,并且恢复数据包,语音模式,和其他经编码的参数。
多路分解器210的输出向开关211提供输入,使开关211能够以语音的经分类的模式为基础选择相应的模式解码器(212,214)。在本技术领域熟悉的人士将理解,开关211不限制于话音的和非话音的语音模式,并且也可以识别过渡,背景噪声(静音),或其他类型的语音。
话音语音解码器212通过进行话音编码器204的反向操作对话音语音进行解码。
在一个实施例中,如下文参考图4详尽叙述的那样,非话音语音解码器214对以低比特率传输的非话音语音进行解码。
解码器212或解码器214解码以后,综合的线性预测残余信号被短期预测滤波器216滤波。短期预测滤波器216的输出处的综合的语音被通向一个后滤波处理器218以产生最后的输出语音。
图3是图2描绘的高性能低比特率非话音语音编码器206的详尽框图。图3详尽描绘了非话音编码器的一个实施例的装置和操作顺序。
数字化的语音采样s(n)被输入到线性预测编码(LPC)分析器302和LPC滤波器304。LPC分析器302产生数字化语音采样的线性预测(LP)系数。LPC滤波器304产生被输入到增益计算部件306和非按比例缩放的带能分析器314的语音残余信号r(n)。
增益计算部件306将每一个数字化语音采样帧分解成子帧,为每一个子帧计算一组下文被称作增益或指数的码本增益,将增益分解成子组,并且使每一个子组的增益标准化。语音残余信号r(n),n=0,…,N-1,被分段成K个子帧,其中N是一个帧中残余采样的数目。在一个实施例中,K=10以及N=160。增益G(i),i=0,…,K-1,对于每一个子帧以如下方法计算: G ( i ) = Σ k = 0 N / K - 1 r ( i × N / K + k ) 2 , i = 0 , . . . , K - 1 , 以及 G ( i ) G ( i ) N / K
增益量化器308将K增益量化,对于增益的增益码本指数相继被传输。量化可以用常规的线性的或矢量的量化方案或者用任何其他变型进行。一个具体化的方案是多级矢量量化。
来自LPC滤波器304的残余信号输出r(n)通过在非按比例缩放带能分析器314中的一个低通滤波器和一个高通滤波器。对于残余信号r(n)计算出r(n),E1,Elp1,和Ehp1的能量值。E1是残余信号r(n)中的能量,Elp1是残余信号r(n)中的低带能量,Ehp1是残余信号r(n)中的高带能量。在一个实施例中,非按比例缩放带能分析器314的低通滤波器和高通滤波器的频率响应分别在图7A和图7B中显示。能量值E1,Elp1,和Ehp1的计算如下: E 1 = Σ i = 0 N - 1 r 2 ( n ) , r lp ( n ) = Σ i = 1 M Ip - 1 r lp ( n - i ) × a lp ( i ) + Σ j = 0 N Ip - 1 ( n - j ) × b lp ( j ) , n = 0 , . . . , N - 1 , r hp ( n ) = Σ i = 1 M hp - 1 r hp ( n - i ) × a hp ( i ) + Σ j = 0 N hp - 1 r ( n - j ) × b hp ( j ) , n = 0 , . . . , N - 1 , E lpI = Σ I = 0 N - 1 r lp 2 ( i ) , 以及 E hp 1 = Σ i = 0 N - 1 r hp 2 ( i )
能量值E1,Elp1和Ehp1在后面被用来选择最后成形滤波器316中的成形滤波器,用以处理随机噪声信号,因此随机噪声信号能最接近地类似于初始的噪声信号。
对于LPC分析器302输出的每一K个子帧,随机数产生器310产生单位方差在-1和+1之间均匀分布的随机数字。随机数选择器312相对于每一个子帧中的大多数低振幅随机数进行选择。对每一个子帧,最高振幅随机数的一部分被保留。在一个实施例中,被保留的随机数的一部分占25%。
然后每一个子帧的来自随机数选择器312的随机数输出由乘法器307用从增益量化器308输出的子帧的各自的量化增益相乘。然后乘法器307的按比例缩放的随机信号输出 由感觉滤波处理。
为了提高量化的非话音语音的感觉质量和保持其自然特征,在按比例缩放的随机信号
Figure A0181741400227
上进行两步的感觉滤波处理。
在感觉滤波处理的第一步,按比例缩放的随机信号被通过感觉滤波器318中的两个固定滤波器。感觉滤波器318的第一个固定滤波器是一个带通滤波器320,它从 消除了低端和高端频率以产生信号
Figure A0181741400229
在一个实施例中,带通滤波器320的频率响应由图8A描绘。感觉滤波器318的第二个固定滤波器是感觉成形滤波器322。由元件320计算的信号
Figure A01817414002210
被通过感觉成形滤波器322以产生信号 在一个实施例中,感觉成形滤波器322的频率响应由图8B描绘。
由元件320计算的信号
Figure A01817414002212
和由元件322计算的信号 的计算方法如下: r ^ 2 ( n ) = Σ i = 1 M bp - 1 r ^ 2 ( n - i ) × a bp ( i ) + Σ j = 0 N bp - 1 r ^ 1 ( n - j ) × b bp ( j ) , n = 0 , . . . , N - 1 , 以及 r ^ 3 ( n ) = Σ i = 1 M bp - 1 r ^ 3 ( n - i ) * a sp 1 ( i ) + Σ j = 0 N sp 1 - 1 r ^ 2 ( n - j ) * b sp 1 ( j ) , n = 0 , . . . , N - 1 . 信号
的能量分别被计算成E2和E3。E2和E3的计算方法如下: E 2 = Σ i - 0 N - 1 r ^ 2 2 ( n ) , 以及 E 3 = Σ i = 0 N - 1 r ^ 3 2 ( n ) .
在感觉滤波处理的第二步,从感觉成形滤波器322输出的信号
Figure A0181741400237
被按比例缩放成以E1和E2为基础具有和从LPC滤波器304输出的初始的残余信号r(n)相同的能量。
在按比例缩放的带能分析器324中,由元件322计算的按比例缩放的和经滤波的随机信号
Figure A0181741400238
经受和先前在初始的残余信号r(n)上由非按比例缩放的带能分析器314进行的相同的带能分析。
由元件322计算的信号
Figure A0181741400239
的计算方法如下: r ^ 3 ( n ) = E 1 E 2 r ^ 3 ( n ) , n = 0 , . . . , N - 1 .
Figure A01817414002311
的低通带能用Elp2表示,
Figure A01817414002312
的高通带能用Ehp2表示。将
Figure A01817414002313
的高带和低带能和r(n)的高带和低带能比较以确定在最后成形滤波器316中使用的下一个成形滤波器。以r(n)和
Figure A01817414002314
的比较为基础,或者不用另外的滤波,或者挑选两个固定成形滤波器中的一个滤波器以在r(n)和 之间产生最紧密的匹配。最后的滤波成形(或没有额外的滤波)由将初始信号的带能和随机信号的带能比较而确定。
初始信号的低带能和按比例缩放的经预先滤波的随机信号的低带能的比例Rl的计算方法如下:
Rl=10*log10(Elp1/Elp2)。
初始信号的高带能和按比例缩放的经预先滤波的随机信号的高带能的比例Rh的计算方法如下:
Rh=10*log10(Ehp1/Ehp2)。
如果比例Rl小于-3,则高通最后成形滤波器(滤波器2)被用来进一步处理 以产生
Figure A0181741400242
如果比例Rh小于-3,则低通最后成形滤波器(滤波器3)被用来进一步处理 以产生
否则,对 不进行任何进一步处理,因此 r ^ ( n ) = r ^ 3 ( n ) .
从最后成形滤波器316的输出是量化的随机残余信号 信号
Figure A0181741400248
被按比例缩放使其具有和 相同的能量。
图8C显示了高通最后成形滤波器(滤波器2)的频率响应。图8D显示了低通最后成形滤波器(滤波器3)的频率响应。
产生一个滤波器选择指示以指出为最后滤波选择哪一个滤波器(滤波器2,滤波器3或没有滤波器)。滤波器选择指示被相继传输,因此解码器能够复制最后滤波。在一个实施例中,滤波器选择指示由两个比特构成。
图4是图2描绘的高性能低比特率非话音语音解码器214的详尽框图。图4详尽描绘了非话音语音解码器的一个实施例的装置和操作顺序。非话音语音解码器接收非话音数据包,通过进行和图2中描绘的非话音语音编码器206反向的操作从数据包综合非话音语音。
非话音数据包被输入到增益去量化器406。增益去量化器406进行和图3中描绘的非话音编码器中的增益量化器308相反的操作。增益去量化器406的输出是K个量化的非话音增益。
随机数产生器402和随机数选择404进行图3的非话音编码器中的随机数产生器310和随机数选择器310完全相同的操作。
然后每一个子帧的从随机数选择器404输出的随机数字由乘法器405用从增益去量化器406输出的子帧的各自的量化增益相乘。然后乘法器405的按比例缩放的随机信号输出
Figure A01817414002410
由感觉滤波处理。
进行一个和图3中的非话音编码器的感觉滤波处理相同的两步感觉滤波处理。感觉滤波器408进行和图3中的非话音编码器中的感觉滤波器318完全相同的操作。随机信号
Figure A01817414002411
被通过感觉滤波器408中的两个固定滤波器。带通滤波器407和初始成形滤波409和图3的非话音编码器中的感觉滤波器318中使用的带通滤波器320和初始成形滤波器322完全相同。带通滤波器407和初始成形滤波器409以后的输出分别被表示为
Figure A0181741400251
Figure A0181741400252
信号
Figure A0181741400254
如图3的非话音编码器中一样进行计算。
信号
Figure A0181741400255
在最后成形滤波410中滤波。最后成形滤波器410和图3的非话音编码器中的最后成形滤波器316相同。如由图3的非话音编码器处产生的滤波器选择指示所确定的和解码器214处的数据比特包中接收的那样,最后成形滤波器410进行或者是高通最后成形滤波,低通最后成形滤波,或者是不进行最后滤波。从最后成形滤波器410输出的量化残余信号r(n)被按比例缩放使其具有和
Figure A0181741400256
相同的能量。
量化的随机信号
Figure A0181741400257
由LPC综合滤波器412滤波以产生综合的语音信号_(n)。
一个后续的后滤波器414可以被应用到综合的语音信号_(n)以产生最后的输出语音。
图5是描绘用于非话音语音的高性能低比特率编码技术的编码步骤的流程图。
在步骤502,向一个非话音语音编码器(未显示)提供一个非话音数字化语音采样帧。每20毫秒提供一个新帧。在一个以每秒8k比特的速率采样非话音语音的实施例中,一个帧包含160个采样。控制流程进行到步骤504。
在步骤504,由LPC滤波器滤波数据帧,产生一个残余信号帧。控制流程进行到步骤506。
步骤506-516描述增益计算和残余信号帧的量化的方法步骤。
在步骤506,残余信号帧被分解成子帧。在一个实施例中,每一个帧被分解成十个每一个有十六采样的子帧。控制流程进行到步骤508。
在步骤508,对每一个子帧计算增益。在一个实施例中,计算十个子帧增益。控制流程进行到步骤510。
在步骤510,子帧增益被分解成子组。在一个实施例中,10个子帧增益被分解成每一个有五个子帧增益的两个子组。控制流程进行到步骤512。
在步骤512,每一个子组的增益被标准化,以便于对每一个子组产生一个标准化因子。在一个实施例中,为每一个有五个增益的两个子组产生了两个标准化因子。控制流程进行到步骤514。
在步骤514,步骤512中产生的标准化因子被转换到对数域或指数形式,然后被量化。在一个实施例中,产生一个量化的标准化因子,在下文中将被称为指数1。控制流程进行到步骤516。
在步骤516,步骤512中产生的每一个子组的标准化增益被量化。在一个实施例中,两个子组被量化,以产生两个量化增益值,在下文中将被称为指数2和指数3。控制流程进行到步骤518。
步骤518-520叙述了产生一个随机量化非话音语音信号的方法步骤。
在步骤518,为每一个子帧产生一个随机噪声信号。对每一个子帧选择一个所产生的预定百分比的最高振幅随机数。未被选择的数被置零。在一个实施例中,被选择的随机数的百分比为25%。控制流程进行到步骤520。
在步骤520,由步骤516中产生的每一个子帧的量化增益按比例缩放被选择的随机数。控制流程进行到步骤522。
步骤522-528叙述了感觉滤波随机信号的方法步骤。步骤522-528的感觉滤波提高了感觉质量并且保持了随机的量化非话音语音信号的自然属性。
在步骤522,随机的量化非话音语音信号被带通滤波以消除高端和低端成分。控制流程进行到步骤524。
在步骤524,将一个固定的初步成形滤波器应用到随机的量化非话音语音信号。控制流程进行到步骤526。
在步骤526,分析随机信号和初始的残余信号的低带能和高带能。控制流程进行到步骤528。
在步骤528,将初始残余信号的能量分析和随机信号的能量分析比较,以确定随机信号的进一步滤波是否必要。以该分析为基础,或者不滤波,或者选择两个预定的最后滤波器中的一个滤波器以进一步滤波随机信号。两个预定的最后滤波器是一个高通最后成形滤波器和一个低通最后成形滤波器。产生一个滤波器选择指示信息以向解码器指出哪一个最后滤波器(或没有滤波器)被应用。在一个实施例中,滤波器选择指示信息是2比特。控制流程进行到步骤530。
在步骤530,传输用于步骤514中产生的量化标准化因子的一个指数,用于步骤516中产生的量化子组增益的指数以及步骤528中产生的滤波器选择指示信息。在一个实施例中,传输指数1,指数2,指数3和一个2比特最后滤波器选择指示。包括传输量化LPC参数指数所需要的比特,一个实施例的比特率为每秒2k比特。(LPC参数的量化不在本揭示的实施例的范围之内。)
图6是描绘非话音语音的高性能低比特率编码技术的解码步骤的流程图。
在步骤602,为一个非话音语音帧接收一个标准化因子指数,量化子组增益指数,和一个最后滤波器选择指示。在一个实施例中,接收指数1,指数2,指数3和一个2比特最后滤波器选择指示。控制流程进行到步骤604。
在步骤604,用标准化因子指数从查找表中恢复标准化因子。标准化因子从对数域或指数形式转换到线性形式。控制流程进行到步骤606。
在步骤606,用增益指数从查找表中恢复增益。恢复的增益由恢复的标准化因子按比例缩放以恢复初始帧的每一个子组的量化增益。控制流程进行到步骤608。
在步骤608中,完全如在编码中一样,为每一个子帧产生一个随机噪声信号。对每一个子帧选择一个所产生的预定百分比的最高振幅随机数。未选择的数被置零。在一个实施例中,被选择的随机数的百分比为25%。控制流程进行到步骤610。
在步骤610中,选择的随机数由步骤606中恢复的每一个子帧的量化增益按比例缩放。
步骤612-616叙述了用于感觉滤波随机信号的解码方法步骤。
在步骤612,随机量化非话音语音信号被带通滤波以消除高端和低端成分。带通滤波器和在编码中使用的带通滤波器完全一样。控制流程进行到步骤614。
在步骤614中,将一个固定的初步成形滤波器应用到随机的量化非话音语音信号。固定的初步成形滤波器和在编码中使用的固定的初步成形滤波器完全一样。控制流程进行到步骤616。
在步骤616中,以滤波器选择指示信息为基础,或者不滤波,或者选择两个预定的最后滤波器中的一个滤波器以在最后成形滤波中进一步滤波随机信号。最后成形滤波器的两个预定的滤波器是一个高通最后成形滤波器(滤波器2)和一个低通最后成形滤波器(滤波器3),和编码器的高通最后成形滤波器和低通最后成形滤波器完全一样。从最后成形滤波器输出的量化随机信号被按比例缩放,使其具有和带通滤波器的信号输出相同的能量。量化的随机信号由一个LPC综合滤波器滤波以产生一个综合的语音信号。可以对该综合的语音信号应用一个后续的后滤波器以产生最后的经解码的输出语音。
图7A是标准化的频率相对于带能分析(314,324)中的低通滤波器的振幅频率响应的曲线图,该带能分析器被用于分析在从编码器的LPC滤波器(304)输出的残余信号r(n),以及从编码器的初步成形滤波器(322)输出的按比例缩放和经滤波的随机信号
Figure A0181741400281
中的低带能。
图7B是标准化的频率相对于带能分析器(314,324)中的高通滤波器的振幅频率响应的曲线图,该带能分析器被用于分析在从编码器的LPC滤波器(304)输出的残余信号r(n),以及从编码器的初步成形滤波器(322)输出的按比例缩放和经滤波的随机信号 中的高带能。
图8A是标准化的频率相对于带通滤波器(320,407)中的低带通最后成形滤波器的振幅频率响应的曲线图,该带通滤波器被用于成形从编码器和解码器的乘法器(307,405)输出的按比例缩放的随机信号
Figure A0181741400283
图8B是标准化的频率相对于初步成形滤波器(322,409)中的高带通成形滤波器的振幅频率响应的曲线图,该初步成形滤波器被用于成形从编码器和解码器的带通滤波器(320,407)输出的按比例缩放的随机信号
图8C是标准化的频率相对于最后成形滤波器(316,410)中的高带通最后成形滤波器的振幅频率响应的曲线图,该最后成形滤波器被用于成形从编码器和解码器的初步成形滤波器(322,409)输出的按比例缩放和经滤波的随机信号
图8D是标准化的频率相对于最后成形滤波器(316,410)中的低带通最后成形滤波器的振幅频率响应的曲线图,该最后成形滤波器被用于成形从编码器和解码器的初步成形滤波器(322,409)输出的按比例缩放和经滤波的随机信号
Figure A0181741400286
前面对优选实施例的叙述被提供来使在本技术领域熟练的任何人士都能实施或利用本揭示的实施例。对于这些技术上熟练的人士而言,对这些实施例进行各种修改将是容易和显而易见的,并且本文中定义的通用原理也可以不再需要用创造才能而被应用到其他实施例中。这样,本揭示的实施例不希望仅被限制于本文显示的实施例,而应有和本文中揭示的原理和新颖特征相符合的宽范围。

Claims (65)

1.一种编码非话音语音片段的方法,其特征在于,该方法包括:
将一个残余信号帧划分成多个子帧;
通过为多个子帧中的每一个子帧计算一个码本增益而建立一组子帧增益;
将该子帧增益组分解成子帧增益子组;
标准化子帧增益子组以产生多个标准化因子,其中多个标准化因子的每一个因子都和子帧增益的标准化子组之一相关联;
将多个标准化因子的每一个因子都转换成指数形式并且将经转换的多个标准化因子量化;
将标准化的子帧增益子组量化,以产生多个量化码本增益,其中码本增益的每一个增益都和多个子组之一的一个码本增益指数相关联;
对多个子帧中的每一个子帧产生一个包括随机数的随机噪声信号;
对多个子帧中的每一个子帧选择一预定百分比的随机噪声信号的最高振幅随机数;
对每一个子帧由量化的码本增益按比例缩放经选择的最高振幅随机数以产生一个按比例缩放的随机噪声信号;
带通滤波和成形该按比例缩放的随机噪声信号;
分析残余信号帧的能量和按比例缩放的随机信号的能量以产生能量分析;
在能量分析的的基础上选择第二滤波器并用该选择的滤波器进一步成形按比例缩放的随机噪声信号;以及
产生一个第二滤波器选择指示以识别该选择的滤波器。
2.如权利要求1所述的方法,其特征在于,其中将一个残余信号帧划分成多个子帧的步骤包括将一个残余信号帧划分成10个子帧。
3.如权利要求1所述的方法,其特征在于,其中将该子帧增益组分解成子帧增益子组的步骤包括将一组十个子帧增益划分成两组,每组五个子帧增益。
4.如权利要求1所述的方法,其特征在于,其中残余信号帧包括以每秒八千赫兹采样20毫秒所得的每帧160个采样。
5.如权利要求1所述的方法,其特征在于,其中预定的最高振幅随机数的百分比为百分之二十五。
6.如权利要求1所述的方法,其特征在于,其中两个标准化因子是为两个子组产生的,该两个子组每一个都有五个子帧码本增益。
7.如权利要求1所述的方法,其特征在于,其中量化子帧增益是用多级矢量量化进行的。
8.一种编码非话音语音片段的方法,其特征在于,该方法包括:
将一个残余信号帧划分成子帧,每一个子帧有一个与其相关的码本增益;
量化增益以产生指数;
通过与子帧相关联的指数按比例缩放和每一个子帧相关联的某一百分比的随机噪声;
对按比例缩放的随机噪声进行一次第一滤波;
将经滤波的噪声和残余信号比较;
以该比较为基础对随机噪声进行一次第二滤波;
产生一个第二滤波器选择指示以识别所进行的第二滤波。
9.如权利要求8所述的方法,其特征在于,其中将一个残余信号帧划分成子帧的步骤包括将一个残余信号帧划分成10个子帧。
10.如权利要求8所述的方法,其特征在于,其中残余信号帧包括以每秒八千赫兹采样20毫秒所得的每帧160个采样。
11.如权利要求8所述的方法,其特征在于,其中随机噪声的百分比为百分之二十五。
12.如权利要求8所述的方法,其特征在于,其中量化增益以产生指数是用多级矢量量化进行的。
13.一种用于编码非话音语音片段的语音编码器,其特征在于,该编码器包括:
将一个残余信号帧划分成多个子帧的装置;
通过为多个子帧中的每一个子帧计算一个码本增益而建立一组子帧增益的装置;
将该子帧增益组分解成子帧增益子组的装置;
标准化子帧增益子组以产生多个标准化因子的装置,其中多个标准化因子的每一个因子都和子帧增益的标准化子组之一相关联;
将多个标准化因子的每一个因子都转换成指数形式并且将经转换的多个标准化因子量化的装置;
将标准化的子帧增益子组量化,以产生多个量化码本增益的装置,其中码本增益的每一个增益都和多个子组之一的一个码本增益指数相关联;
对多个子帧中的每一个子帧产生一个包括随机数的随机噪声信号的装置;
对多个子帧中的每一个子帧选择一预定百分比的随机噪声信号的最高振幅随机数的装置;
对每一个子帧由量化的码本增益按比例缩放经选择的最高振幅随机数以产生一个按比例缩放的随机噪声信号的装置;
带通滤波和成形该按比例缩放的随机噪声信号的装置;
分析残余信号帧的能量和按比例缩放的随机信号的能量以产生能量分析的装置;
在能量分析的的基础上选择第二滤波器并用该选择的滤波器进一步成形按比例缩放的随机噪声信号的装置;以及
产生一个第二滤波器选择指示以识别该选择的滤波器的装置。
14.如权利要求13所述的语音编码器,其特征在于,其中将一个残余信号帧划分成多个子帧的装置包括将一个残余信号帧划分成10个子帧的装置。
15.如权利要求13所述的语音编码器,其特征在于,其中将该组子帧增益划分成子组的装置包括将一组十个子帧增益划分成两个组,其中每个组为五个子帧增益的装置。
16.如权利要求13所述的语音编码器,其特征在于,其中选择一预定百分比的最高振幅随机数的装置包括选择百分之二十五的最高振幅随机数的装置。
17.如权利要求13所述的语音编码器,其特征在于,其中标准化子组的装置包括为两组,每一组为五个子帧码本增益的子组产生两个标准化因子的装置。
18.如权利要求13所述的语音编码器,其特征在于,其中量化子帧增益的装置包括进行多级矢量量化的装置。
19.一种编码非话音语音片段的语音编码器,其特征在于,该编码器包括:
将一个残余信号帧划分成子帧的装置,每一个子帧有一个与其相关的码本增益;
量化增益以产生指数的装置;
通过与子帧相关联的指数按比例缩放和每一个子帧相关联的某一百分比的随机噪声的装置;
对按比例缩放的随机噪声进行一次第一滤波的装置;
将经滤波的噪声和残余信号比较的装置;
以该比较为基础对随机噪声进行一次第二滤波的装置;
产生一个第二滤波器选择指示以识别所进行的第二滤波的装置。
20.如权利要求19所述的语音编码器,其特征在于,其中将一个残余信号帧划分成子帧的装置包括将一个残余信号帧划分成10个子帧的装置。
21.如权利要求19所述的语音编码器,其特征在于,其中按比例缩放某一百分比的随机噪声的装置包括一个按比例缩放百分之二十五的最高振幅随机噪声的装置。
22.如权利要求19所述的语音编码器,其特征在于,其中量化增益以产生指数的装置包括进行多级矢量量化的装置。
23.一种编码非话音语音片段的语音编码器,其特征在于,该编码器包括:
一个增益计算部件,该部件配置成将一个残余信号帧划分成多个子帧,通过为多个子帧中的每一个子帧计算一个码本增益建立一组子帧增益,将该组子帧增益划分成子帧增益子组,标准化子帧增益子组以产生多个标准化因子,其中多个标准化因子中的每一个因子都和标准化的子帧增益子组中的一个子组相关联,以及将多个标准化因子中的每一个因子都转换成指数形式;一个增益量化器,该量化器配置成量化经转换的多个标准化因子以产生量化的标准化因子指数,以及量化标准化的子帧增益子组以产生多个量化的码本增益,其中码本增益中的每一个增益都和多个子组中的一个子组的一个码本增益指数相关联;
一个随机数产生器,该产生器配置成对多个子帧中的每一个子帧产生一个包括随机数的随机噪声信号;
一个随机数选择器,该选择器配置成对多个子帧中的每一个子帧选择一预定百分比的随机噪声信号的最高振幅随机数;
一个乘法器,该乘法器配置成为每一个子帧用量化的码本增益按比例缩放经选择的最高振幅随机数,以产生按比例缩放的随机噪声信号;
一个用于从按比例缩放的随机噪声信号中消除低端和高端频率的带通滤波器;
一个用于感觉滤波按比例缩放的随机噪声信号的第一成形滤波器;
一个非按比例缩放的带能分析器,该分析器配置成分析残余信号的能量;
一个按比例缩放的带能分析器,该分析器配置成分析按比例缩放的随机信号的能量,以及产生一个和按比例缩放的随机信号的能量相比较的残余信号能量的相关能量分析;
一个第二成形滤波器,该滤波器配置成在相关能量分析的基础上选择一个第二滤波器,用该选择的滤波器进一步成形按比例缩放的随机噪声信号,并且产生一个第二滤波器选择指示以识别该选择的滤波器。
24.如权利要求23所述的语音编码器,其特征在于,其中带通滤波器和第一成形滤波器是固定的滤波器。
25.如权利要求23所述的语音编码器,其特征在于,其中第二成形滤波器用两个固定的成形滤波器配置。
26.如权利要求23所述的语音编码器,其特征在于,其中配置成产生一个第二滤波器选择指示以识别该选择的滤波器的第二成形滤波器被进一步配置成产生一个两比特滤波器选择指示。
27.如权利要求23所述的语音编码器,其特征在于,其中配置成将一个残余信号帧划分成多个子帧的增益计算部件被进一步配置成将残余信号帧划分成十个子帧。
28.如权利要求23所述的语音编码器,其特征在于,其中配置成将该组子帧增益划分成子组的增益计算部件被进一步配置成将该组十个子帧增益划分成两个组,其中每组为五个子帧增益。
29.如权利要求23所述的语音编码器,其特征在于,其中配置成选择一预定百分比的最高振幅随机数的随机数选择器被进一步配置成选择百分之二十五的最高振幅随机数。
30.如权利要求23所述的语音编码器,其特征在于,其中配置成标准化子组的增益计算部件被进一步配置成为每一个为五个子帧码本增益的两个子组产生两个标准化因子。
31.如权利要求23所述的语音编码器,其特征在于,其中增益量化器被进一步配置成进行多级矢量量化。
32.一种编码非话音的语音片段的语音编码器,其特征在于,该编码器包括:
一个增益计算部件,该元件配置成将一个残余信号帧划分成多个子帧,每一个子帧都有一个与其相关联的码本增益;
一个增益量化器,该量化器配置成量化增益以产生指数;
一个随机数选择器和乘法器,被配置成通过和子帧有关的指数按比例缩放一个和每一个子帧有关的某一百分比的随机噪声;
一个第一感觉滤波器,该感觉滤波器配置成对按比例缩放的随机噪声进行第一滤波;
一个带能分析器,该分析器配置成将滤波的噪声和残余信号进行比较;
一个第二成形滤波器,该滤波器配置成在该比较的基础上对随机噪声进行第二滤波,并且产生一个第二滤波器选择指示以识别所进行的第二滤波。
33.如权利要求32所述的语音编码器,其特征在于,其中被配置成将残余信号帧划分成子帧的增益计算部件被进一步配置成将残余信号帧划分成十个子帧。
34.如权利要求32所述的语音编码器,其特征在于,其中被配置成按比例缩放某一百分比的随机噪声的随机噪声选择器和乘法器被进一步配置成按比例缩放百分之二十五的最高振幅随机噪声。
35.如权利要求32所述的语音编码器,其特征在于,其中被配置成量化增益以产生指数的增益量化器被进一步配置成进行多级矢量量化。
36.如权利要求32所述的语音编码器,其特征在于,其中被配置成对按比例缩放的随机噪声进行第一滤波的第一感觉滤波器被进一步配置成用一个固定的带通滤波器和一个固定的成形滤波器对按比例缩放的随机噪声进行滤波。
37.如权利要求32所述的语音编码器,其特征在于,其中被配置成对随机噪声进行第二滤波的第二成形滤波器被进一步配置成具有两个固定的滤波器。
38.如权利要求32所述的语音编码器,其特征在于,其中被配置成产生一个第二滤波器选择指示的第二成形滤波器被进一步配置成产生一个两比特滤波器选择指示。
39.一种解码非话音语音片段的方法,其特征在于,该方法包括:
用接收到的多个子帧的指数恢复一组量化增益;
对多个子帧中的每一个子帧产生一个包括随机数的随机噪声信号;
对多个子帧中的每一个子帧选择一个随机噪声信号的预定百分比的最高振幅随机数;
对每一个子帧用被恢复的增益按比例缩放经选择的最高振幅随机数以产生一个按比例缩放的随机噪声信号;
带通滤波和成形该按比例缩放的随机噪声信号;以及
在一个接收到的滤波器选择指示的基础上选择第二滤波器并且用选择的滤波器进一步成形经比例缩放的随机噪声信号。
40.如权利要求39所述的方法,其特征在于,该方法进一步包括进一步滤波按比例缩放的随机噪声。
41.如权利要求39所述的方法,其特征在于,其中多个子帧包括经编码的非话音语音的每帧十个子帧的划分。
42.如权利要求39所述的方法,其特征在于,其中多个子帧包括经划分成子组的子帧增益的划分。
43.如权利要求42所述的方法,其特征在于,其中子组包括将一个十个子帧增益的组划分成两个组,每组为五个子帧增益。
44.如权利要求41所述的方法,其特征在于,其中经编码的非话音语音帧包括以每秒八千赫兹采样20毫秒所得的每帧160个采样。
45.如权利要求39所述的方法,其特征在于,其中预定百分比的最高振幅随机数为百分之二十五。
46.如权利要求43所述的方法,其特征在于,其中为每一组为五个子帧增益的两个子组恢复两个标准化因子。
47.如权利要求1所述的方法,其特征在于,其中恢复一组量化增益是用多级矢量量化进行的。
48.一种解码非话音语音片段的方法,其特征在于,该方法包括:
从接收到的和每一个子帧有关的指数恢复划分成子帧增益的量化增益;
通过和每一个子帧有关的指数按比例缩放和每一个子帧有关的某一百分比的随机噪声;
对按比例缩放的随机噪声进行第一滤波;
对随机噪声进行由一个滤波器选择指示确定的第二滤波。
49.如权利要求48所述的方法,其特征在于,该方法包括进一步滤波按比例缩放的随机噪声。
49.如权利要求48所述的方法,其特征在于,其中子帧增益包括经编码的非话音语音的每帧十个子帧增益的划分。
50.如权利要求49所述的方法,其特征在于,其中经编码的非话音语音帧包括以每秒八千赫兹采样20毫秒所得的每帧160个采样。
51.如权利要求48所述的方法,其特征在于,其中随机噪声的百分比是百分之二十五。
52.如权利要求48所述的方法,其特征在于,其中恢复的量化增益是通过多级矢量量化进行量化的。
53.一种解码非话音语音片段的解码器,其特征在于,该解码器包括:
用接收到的多个子帧的指数恢复一组量化增益的装置;
对多个子帧中的每一个子帧产生一个包括随机数的随机噪声信号的装置;
对多个子帧中的每一个子帧选择一个随机噪声信号的预定百分比的最高振幅随机数的装置;
对每一个子帧用被恢复的增益按比例缩放经选择的最高振幅随机数以产生一个按比例缩放的随机噪声信号的装置;
带通滤波和成形该按比例缩放的随机噪声信号的装置;以及
在一个接收到的滤波器选择指示的基础上选择第二滤波器并且用选择的滤波器进一步成形经比例缩放的随机噪声信号的装置。
54.如权利要求53所述的编码器,其特征在于,该编码器包括进一步滤波按比例缩放的随机噪声的装置。
55.如权利要求53所述的编码器,其特征在于,其中用于选择随机噪声信号的预定百分比的最高振幅随机数的装置进一步包括用于选择百分之二十五的最高振幅随机数的装置。
56.一种解码非话音的语音片段的解码器,其特征在于,该解码器包括:
一个配置成用接收到的多个子帧的指数恢复一组量化增益的增益去量化器;
一个配置成对多个子帧中的每一个子帧产生一个包括随机数的随机噪声信号的随机数产生器;
一个配置成对多个子帧中的每一个子帧选择随机噪声信号的预定百分比的最高振幅随机数的随机数选择器;
一个配置成通过恢复的每一个帧的增益按比例缩放经选择的最高振幅随机数以产生一个按比例缩放的随机噪声信号的随机数选择器和乘法器;
一个滤波和成形按比例缩放的随机噪声信号的带通滤波器和第一成形滤波器;以及
一个配置成在一个接收到的滤波器选择指示的基础上选择第二滤波器并且用选择的滤波器进一步成形按比例缩放的随机噪声信号的第二成形滤波器。
57.如权利要求56所述的语音编码器,其特征在于,该编码器进一步包括一个配置成进一步滤波按比例缩放的随机噪声的后滤波器。
58.如权利要求56所述的语音编码器,其特征在于,其中配置成选择随机噪声信号的预定百分比的最高振幅随机数的随机数选择器被进一步配置成选择百分之二十五的最高振幅随机数。
58.一种解码非话音语音片段的语音编码器,其特征在于,该编码器包括:
从接收到的和每一个子帧有关的指数恢复划分成子帧增益的量化增益的装置;
通过和每一个子帧有关的指数按比例缩放和每一个子帧有关的某一百分比的随机噪声的装置;
对按比例缩放的随机噪声进行第一滤波的装置;
对随机噪声进行由一个滤波器选择指示确定的第二滤波的装置。
59.如权利要求58所述的语音编码器,其特征在于,该编码器包括进一步滤波按比例缩放的随机噪声的装置。
60.如权利要求58所述的语音编码器,其特征在于,其中按比例缩放和每一个子帧有关的一个百分比的随机噪声的装置进一步包括按比例缩放和每一个子帧有关的25%的随机噪声的装置。
61.一种解码非话音的语音片段的语音编码器,其特征在于,该编码器包括:
一个被配置成从接收到的和每一个子帧有关的指数恢复被分解成子帧增益的量化增益的增益去量化器;
一个被配置成通过和子帧有关的指数按比例缩放和每一个子帧有关的一个百分比的随机噪声的随机数选择器和乘法器;
一个被配置成对按比例缩放的随机噪声进行一个第一感觉滤波的第一成形滤波器;
一个被配置成对随机噪声进行一个由一个滤波器选择指示确定的第二滤波的第二成形滤波器。
62.如权利要求61所述的语音编码器,其特征在于,该编码器包括一个进一步滤波按比例缩放的随机噪声的后滤波器。
63.如权利要求61所述的语音编码器,其特征在于,其中配置成按比例缩放一个和每一个子帧有关的某一百分比的随机噪声的随机数选择器和乘法器进一步配置成按比例缩放和每一个子帧有关的25%的随机噪声。
CNB018174140A 2000-10-17 2001-10-06 用于编码和解码非话音语音的方法和设备 Expired - Lifetime CN1302459C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/690,915 2000-10-17
US09/690,915 US6947888B1 (en) 2000-10-17 2000-10-17 Method and apparatus for high performance low bit-rate coding of unvoiced speech

Publications (2)

Publication Number Publication Date
CN1470051A true CN1470051A (zh) 2004-01-21
CN1302459C CN1302459C (zh) 2007-02-28

Family

ID=24774477

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB018174140A Expired - Lifetime CN1302459C (zh) 2000-10-17 2001-10-06 用于编码和解码非话音语音的方法和设备

Country Status (13)

Country Link
US (3) US6947888B1 (zh)
EP (2) EP1912207B1 (zh)
JP (1) JP4270866B2 (zh)
KR (1) KR100798668B1 (zh)
CN (1) CN1302459C (zh)
AT (2) ATE549714T1 (zh)
AU (1) AU1345402A (zh)
BR (1) BR0114707A (zh)
DE (1) DE60133757T2 (zh)
ES (2) ES2302754T3 (zh)
HK (1) HK1060430A1 (zh)
TW (1) TW563094B (zh)
WO (1) WO2002033695A2 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009115038A1 (zh) * 2008-03-21 2009-09-24 华为技术有限公司 一种背景噪声激励信号的生成方法及装置
CN101136204B (zh) * 2006-08-30 2010-05-19 富士通株式会社 信号处理方法和设备
CN101180677B (zh) * 2005-04-01 2011-02-09 高通股份有限公司 用于宽频带语音编码的***、方法和设备
CN101609674B (zh) * 2008-06-20 2011-12-28 华为技术有限公司 编解码方法、装置和***
CN101971251B (zh) * 2008-03-14 2012-08-08 杜比实验室特许公司 像言语的信号和不像言语的信号的多模式编解码方法及装置
CN106157966A (zh) * 2015-04-15 2016-11-23 宏碁股份有限公司 语音信号处理装置及语音信号处理方法
CN116052700A (zh) * 2022-07-29 2023-05-02 荣耀终端有限公司 声音编解码方法以及相关装置、***

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7257154B2 (en) * 2002-07-22 2007-08-14 Broadcom Corporation Multiple high-speed bit stream interface circuit
US20050004793A1 (en) * 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
SE0402649D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
US20060190246A1 (en) * 2005-02-23 2006-08-24 Via Telecom Co., Ltd. Transcoding method for switching between selectable mode voice encoder and an enhanced variable rate CODEC
KR100956877B1 (ko) * 2005-04-01 2010-05-11 콸콤 인코포레이티드 스펙트럼 엔벨로프 표현의 벡터 양자화를 위한 방법 및장치
PT1875463T (pt) 2005-04-22 2019-01-24 Qualcomm Inc Sistemas, métodos e aparelho para nivelamento de fator de ganho
KR101200615B1 (ko) 2006-04-27 2012-11-12 돌비 레버러토리즈 라이쎈싱 코오포레이션 청각 이벤트 검출에 기반한 비-라우드니스를 이용한 자동 이득 제어
US9454974B2 (en) * 2006-07-31 2016-09-27 Qualcomm Incorporated Systems, methods, and apparatus for gain factor limiting
KR101299155B1 (ko) * 2006-12-29 2013-08-22 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
KR101435411B1 (ko) * 2007-09-28 2014-08-28 삼성전자주식회사 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화간격을 결정하는 방법과 이를 이용한 오디오 신호의부호화/복호화 방법 및 그 장치
US20090094026A1 (en) * 2007-10-03 2009-04-09 Binshi Cao Method of determining an estimated frame energy of a communication
KR101756834B1 (ko) 2008-07-14 2017-07-12 삼성전자주식회사 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치
FR2936898A1 (fr) * 2008-10-08 2010-04-09 France Telecom Codage a echantillonnage critique avec codeur predictif
CN101615395B (zh) * 2008-12-31 2011-01-12 华为技术有限公司 信号编码、解码方法及装置、***
US8670990B2 (en) * 2009-08-03 2014-03-11 Broadcom Corporation Dynamic time scale modification for reduced bit rate audio coding
ES2564504T3 (es) * 2010-12-29 2016-03-23 Samsung Electronics Co., Ltd Aparato de codificación y aparato de descodificación con una ampliación de ancho de banda
CN104978970B (zh) 2014-04-08 2019-02-12 华为技术有限公司 一种噪声信号的处理和生成方法、编解码器和编解码***
TWI566239B (zh) * 2015-01-22 2017-01-11 宏碁股份有限公司 語音信號處理裝置及語音信號處理方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62111299A (ja) * 1985-11-08 1987-05-22 松下電器産業株式会社 音声信号特徴抽出回路
JP2898641B2 (ja) * 1988-05-25 1999-06-02 株式会社東芝 音声符号化装置
US5293449A (en) * 1990-11-23 1994-03-08 Comsat Corporation Analysis-by-synthesis 2,4 kbps linear predictive speech codec
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
US5734789A (en) 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
JPH06250697A (ja) * 1993-02-26 1994-09-09 Fujitsu Ltd 音声符号化方法及び音声符号化装置並びに音声復号化方法及び音声復号化装置
US5615298A (en) * 1994-03-14 1997-03-25 Lucent Technologies Inc. Excitation signal synthesis during frame erasure or packet loss
JPH08320700A (ja) * 1995-05-26 1996-12-03 Nec Corp 音声符号化装置
JP3522012B2 (ja) * 1995-08-23 2004-04-26 沖電気工業株式会社 コード励振線形予測符号化装置
JP3248668B2 (ja) * 1996-03-25 2002-01-21 日本電信電話株式会社 ディジタルフィルタおよび音響符号化/復号化装置
JP3174733B2 (ja) * 1996-08-22 2001-06-11 松下電器産業株式会社 Celp型音声復号化装置、およびcelp型音声復号化方法
JPH1091194A (ja) * 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
JP4040126B2 (ja) * 1996-09-20 2008-01-30 ソニー株式会社 音声復号化方法および装置
US6148282A (en) * 1997-01-02 2000-11-14 Texas Instruments Incorporated Multimodal code-excited linear prediction (CELP) coder and method using peakiness measure
EP0922278B1 (en) * 1997-04-07 2006-04-05 Koninklijke Philips Electronics N.V. Variable bitrate speech transmission system
FI113571B (fi) * 1998-03-09 2004-05-14 Nokia Corp Puheenkoodaus
US6480822B2 (en) * 1998-08-24 2002-11-12 Conexant Systems, Inc. Low complexity random codebook structure
US6463407B2 (en) * 1998-11-13 2002-10-08 Qualcomm Inc. Low bit-rate coding of unvoiced segments of speech
US6453287B1 (en) * 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
US6324505B1 (en) * 1999-07-19 2001-11-27 Qualcomm Incorporated Amplitude quantization scheme for low-bit-rate speech coders
JP2007097007A (ja) * 2005-09-30 2007-04-12 Akon Higuchi 複数人用ポータブルオーディオ
JP4786992B2 (ja) * 2005-10-07 2011-10-05 クリナップ株式会社 厨房家具のビルトイン機器およびこれを有する厨房家具

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101180677B (zh) * 2005-04-01 2011-02-09 高通股份有限公司 用于宽频带语音编码的***、方法和设备
CN101136204B (zh) * 2006-08-30 2010-05-19 富士通株式会社 信号处理方法和设备
CN101971251B (zh) * 2008-03-14 2012-08-08 杜比实验室特许公司 像言语的信号和不像言语的信号的多模式编解码方法及装置
WO2009115038A1 (zh) * 2008-03-21 2009-09-24 华为技术有限公司 一种背景噪声激励信号的生成方法及装置
CN101339767B (zh) * 2008-03-21 2010-05-12 华为技术有限公司 一种背景噪声激励信号的生成方法及装置
US8370154B2 (en) 2008-03-21 2013-02-05 Huawei Technologies Co., Ltd. Method and apparatus for generating an excitation signal for background noise
CN101609674B (zh) * 2008-06-20 2011-12-28 华为技术有限公司 编解码方法、装置和***
CN106157966A (zh) * 2015-04-15 2016-11-23 宏碁股份有限公司 语音信号处理装置及语音信号处理方法
CN106157966B (zh) * 2015-04-15 2019-08-13 宏碁股份有限公司 语音信号处理装置及语音信号处理方法
CN116052700A (zh) * 2022-07-29 2023-05-02 荣耀终端有限公司 声音编解码方法以及相关装置、***
CN116052700B (zh) * 2022-07-29 2023-09-29 荣耀终端有限公司 声音编解码方法以及相关装置、***

Also Published As

Publication number Publication date
EP1912207A1 (en) 2008-04-16
US7191125B2 (en) 2007-03-13
JP4270866B2 (ja) 2009-06-03
JP2004517348A (ja) 2004-06-10
US20070192092A1 (en) 2007-08-16
CN1302459C (zh) 2007-02-28
ES2302754T3 (es) 2008-08-01
BR0114707A (pt) 2004-01-20
AU1345402A (en) 2002-04-29
ATE393448T1 (de) 2008-05-15
US20050143980A1 (en) 2005-06-30
US6947888B1 (en) 2005-09-20
HK1060430A1 (en) 2004-08-06
EP1328925A2 (en) 2003-07-23
US7493256B2 (en) 2009-02-17
KR100798668B1 (ko) 2008-01-28
ATE549714T1 (de) 2012-03-15
TW563094B (en) 2003-11-21
EP1912207B1 (en) 2012-03-14
KR20030041169A (ko) 2003-05-23
WO2002033695A3 (en) 2002-07-04
WO2002033695A2 (en) 2002-04-25
EP1328925B1 (en) 2008-04-23
ES2380962T3 (es) 2012-05-21
DE60133757D1 (de) 2008-06-05
DE60133757T2 (de) 2009-07-02

Similar Documents

Publication Publication Date Title
CN1302459C (zh) 用于编码和解码非话音语音的方法和设备
CN100350453C (zh) 强壮语音分类方法和装置
CN1154086C (zh) Celp转发
CN1266674C (zh) 闭环多模混合域线性预测语音编解码器和处理帧的方法
CN1241169C (zh) 语音中非话音部分的低数据位速率编码
CN1121683C (zh) 语音编码
CN1922658A (zh) 音频信号的分类
CN1655236A (zh) 用于预测量化有声语音的方法和设备
CN1922659A (zh) 编码模式选择
CN103050121A (zh) 线性预测语音编码方法及语音合成方法
CN1692408A (zh) 码分多址无线***的可变比特率宽带语音编码中的有效带内半空白-突发序列信令及半速率最大操作的方法和装置
CN1290077C (zh) 用来对相位谱信息进行子抽样的方法和设备
CN108231083A (zh) 一种基于silk的语音编码器编码效率提高方法
CN1188832C (zh) 过滤语言帧的多脉冲内插编码
CN1402869A (zh) 使用编码方案选择模型以减少对帧差错敏感性的预测语音编码器
CN1841499A (zh) 代码转换装置和方法
CN1262991C (zh) 跟踪准周期性信号的相位的方法和设备
JP2002073097A (ja) Celp型音声符号化装置とcelp型音声復号化装置及び音声符号化方法と音声復号化方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1060430

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20070228