CN1486486A - 用于编码和解码声学参数的方法、设备和程序及用于编码和解码语音的方法、设备和程序 - Google Patents

用于编码和解码声学参数的方法、设备和程序及用于编码和解码语音的方法、设备和程序 Download PDF

Info

Publication number
CN1486486A
CN1486486A CNA018218296A CN01821829A CN1486486A CN 1486486 A CN1486486 A CN 1486486A CN A018218296 A CNA018218296 A CN A018218296A CN 01821829 A CN01821829 A CN 01821829A CN 1486486 A CN1486486 A CN 1486486A
Authority
CN
China
Prior art keywords
vector
code
code book
acoustic
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA018218296A
Other languages
English (en)
Other versions
CN1202514C (zh
Inventor
间野一则
佑介
日和崎佑介
江原宏幸
安永和敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Panasonic Holdings Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Matsushita Electric Industrial Co Ltd filed Critical Nippon Telegraph and Telephone Corp
Publication of CN1486486A publication Critical patent/CN1486486A/zh
Application granted granted Critical
Publication of CN1202514C publication Critical patent/CN1202514C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0007Codebook element generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

在编码和解码声学参数中,通过将在过去帧中输出的代码矢量和在当前帧中选择的代码矢量分别乘以从系数代码本选择的各权重系数并将所述乘积彼此相加而产生加权矢量。

Description

用于编码和解码声学参数的方法、设备和程序 及用于编码和解码语音的方法、设备和程序
技术领域
本发明涉及编码和解码移动通信***和因特网中的低位率声信号的方法,其中如语音信号和音乐信号的声学(acoustic)信号被编码和传输,还涉及声学参数编码和解码方法及应用该方法的设备,以及由计算机执行这些方法的程序。
背景技术
在数字移动通信和语音存储领域中,为了有效利用无线电波和存储介质,已使用语音编码设备,其中语音信息被高效压缩和编码。在这些语音编码设备中,为了甚至在低位率表达高质量的语音信号,已有使用适于表达语音信号的模型的***被采用。作为实际已在低位率、4kbit/s到8kbit/s范围广泛应用的***,例如,可命名CELP(代码激励线性预测:代码激励线性预测编码)***。CELP技术已经公开于M.R.Schroeder和B.S.Atal的“Code-Excited Linear Prediction(CELP):High-quality Speech at Very Low BitRates,Proc.ICASSP-85,25.1.1,pp.937-940,1985”。
CELP型语音编码***基于对应人类的声道(vocal tract)机制的语音合成模型,和基于由指示声道特性的线性预测系数表示的滤波器和驱动滤波器合成语音的激励信号。更具体地,数字化的语音信号由每个确定长度的帧(约5ms到50ms)划界以对每个帧执行语音信号的线性预测,所以,通过使用由已知波形和固定代码矢量组成的自适应(adaptive)代码矢量来编码预测残留误差(激励信号)。自适应代码矢量存储于自适应代码本中作为表示在过去产生的驱动声源信号的矢量,并被用于表示语音信号的周期分量。固定代码矢量存储于固定代码本中作为预先准备并具有预定数量波形的矢量,且固定代码矢量主要被用于表示不能由自适应代码本表示的非周期分量。作为存储于固定代码本中的矢量,使用由随机噪声序列和表示为几个脉冲的组合的矢量组成的矢量。
作为由几个脉冲的组合表示固定代码矢量的固定代码本的代表示例,存在代数固定代码本。代数固定代码本的更具体内容在“ITU-TRecommendation G.729”等中说明。
在传统的语音编码***中,将语音的线性预测系数转换为如部分自相关(PARCOR)系数和线谱对(LSP:线谱对,也称为线谱频率),并进一步量化转换为数字代码,然后存储或发送它们。这些方法的细节在如Sadaoki Furui所著的“Digital Speech Processing”(Tokai University Press)中说明。
在线性预测系数的编码中,作为编码LSP参数的方法,当前帧的量化参数表示为加权矢量,在加权矢量中从过去的一或多个帧的矢量代码本输出的代码矢量乘以从权重系数代码本选择的权重系数,或者将其中预先得到的整体语音信号中LSP参数的平均矢量加到该矢量的矢量,并且选择应该由矢量代码本输出的代码矢量和应该由权重系数代码本输出的一组权重系数,以使量化参数中关于从输入语音得到LSP参数的失真,即量化失真变得最小或足够小。然后,输出它们作为LSP参数的代码。
这一般称为权重系数量化,或假定权重系数被看作来自过去的预测系数,就称为运动平均(MA)预测矢量量化。
在解码方面,将从接收的矢量代码和权重系数代码、当前帧的代码矢量和过去的代码矢量乘以权重系数,或者将其中进一步增加预先得到的整体语音信号中LSP参数的平均矢量的矢量,输出作为当前帧的量化矢量。
作为在每一帧输出代码矢量的的矢量代码本可配置基本的一阶段矢量量化器、其中将矢量维分割的分离矢量量化器、具有两个以上的多阶段矢量量化器或其中组合多阶段矢量量化器和分离矢量量化器的多阶段和分离矢量量化器。
在前述的传统LSP参数的编码器和解码器中,因为在无声间隔或平稳噪声间隔的帧数大,而且因为编码处理和解码处理配置在多阶段,可能不总是输出如可平滑改变对应无声间隔或平稳噪声间隔而合成的参数这样的矢量。这是因为下面的原因。通常,用于编码的矢量代码本通过学***稳噪声间隔,所以对应无声间隔或平稳噪声间隔的矢量不总是足够反映以供学习,或者如果给予量化器的比特数小,不可能设计包括对应非语音间隔的足够量化矢量的代码本。
在这些LSP参数的编码和解码器中,在实际通信时的编码时,在非语音间隔期间的量化性能不能全面展示,而作为再现声音的品质劣化是必然的。而且,这些问题不仅出现在相当于表示语音信号的谱包络的线性预测系数的声学参数的编码中,而且出现在关于音乐信号的类似编码中。
鉴于前述各点做出本发明,而本发明的目的是提供声学参数编码和解码方法和设备,其中利用输出相当于无声间隔和平稳噪声间隔的矢量以便在这些间隔相当于表示声信号的谱包络的线性预测系数的声学参数的传统的编码和解码中,品质劣化是稀有的,并且还提供使用前述的方法和设备的声信号编码和解码方法和设备,以及用于由计算机执行这些方法的程序。
发明内容
本发明的主要特征在于:在相当于显示声信号的谱包络的线性预测系数的声学参数的编码和解码中,即如LSP参数、α参数或PARCOR参数等这样的参数(此后简称为声学参数),将对应无声间隔或平稳噪声间隔的实质上平坦的谱包络的声学参数矢量代码,它不能通过代码本的学***坦的谱包络的声学参数矢量的分量的矢量,并存储为矢量代码本的矢量之一,并且在多阶段量化配置和分离矢量量化配置中,输出前述的代码矢量。
根据本发明的一种声学参数编码方法,包括:
(a)步骤,用于对预定时间长度的每一帧计算相当于线性预测系数的声学参数,所述线性预测系数显示声信号的谱包络特性;
(b)步骤,用于将在最近的过去的至少一帧中输出的代码矢量和在当前帧中选择的代码矢量分别乘以一组权重系数,前一个代码矢量从用于存储多个与表示所述各代码矢量的索引一致的代码矢量的矢量代码本中选择,而所述各权重系数从用于存储一或多组与表示所述各权重系数的索引一致的权重系数的系数代码本选择,其中将相乘的各结果加起来产生加权矢量,并且求得包括所述加权矢量的分量的矢量作为对该当前帧的所述声学参数的侯选量化声学参数;以及
(c)步骤,用于通过使用关于所述计算的声学参数的所述侯选量化声学参数的失真最小化的规范(criterion),确定所述矢量代码本的所述代码矢量和所述系数代码本的所述权重系数组,其中表示所述确定的代码矢量和所述确定的权重系数组的索引被确定并作为所述声学参数的量化代码输出;以及
所述矢量代码本包括具有声学参数矢量的分量的矢量作为所述存储的代码矢量之一,该声学参数矢量显示前述实质上平坦的谱包络。
根据本发明的一种声学参数解码方法,包括:
(a)步骤,用于输出对应由来自矢量代码本和系数代码本的为每一帧输入的代码和一组权重系数表示的索引的代码矢量,所述矢量代码本存储与表示所述代码矢量的索引一致的相当于显示声信号的谱包络特性的线性预测系数的声学参数的多个代码矢量,所述系数代码本存储一或多组与表示所述各组的索引一致的权重系数;以及
(b)步骤,用于将在最近的过去的至少一帧中从所述矢量代码本输出的代码矢量和当前帧中从所述矢量代码本输出的代码矢量分别乘以所述输出的所述权重系数组,并且将相乘的各结果加起来以产生加权矢量,其中将包括所述加权矢量的分量的矢量输出作为该当前帧的解码量化矢量;以及
所述矢量代码本包括具有声学参数矢量的分量的矢量作为存储在其中的所述代码矢量之一,该声学参数矢量显示实质上平坦的谱包络。
根据本发明的一种声学参数编码设备,包括:
参数计算装置,用于对每一帧分析输入声信号,并计算相当于线性预测系数的声学参数,所述线性预测系数显示所述声信号的谱包络特性;
矢量代码本,用于存储多个与表示所述各矢量的索引一致的代码矢量;
系数代码本,用于存储一或多组与表示所述各系数的索引一致的权重系数;
量化参数生成装置,用于将从所述矢量代码本输出的关于当前帧的代码矢量和在最近的过去的至少一帧中输出的代码矢量分别乘以从所述系数代码本选择的所述组的所述权重系数,所述量化参数生成装置将各结果加在一起,从而产生加权矢量,所述量化参数生成装置输出包括所述产生的加权矢量的分量的矢量作为关于该当前帧的所述声学参数的侯选量化声学参数;
失真计算部件,用于计算关于在所述参数计算装置计算的所述声学参数的所述量化声学参数的失真;以及
将其配置为代码本搜索控制部件,用于通过使用所述失真变小的规范而确定所述矢量代码本的所述代码矢量和所述系数代码本的所述组的所述权重系数,所述代码本搜索控制部件输出分别表示所述确定的代码矢量和所述组的所述权重系数的各索引作为所述声学参数的各代码;以及
所述矢量代码本包括具有显示实质上平坦的谱包络的声学参数矢量的分量的矢量。
根据本发明的一种声学参数解码设备,配置为包括:
矢量代码本,用于存储与表示所述各矢量的索引一致的相当于线性预测系数的声学参数的多个代码矢量,所述线性预测系数显示声信号的谱包络特性;
系数代码本,用于存储一或多组与表示所述各权重系数的索引一致的权重系数;
量化参数生成装置,用于从所述矢量代码本输出与显示为每一帧输入的代码的索引一致的一个代码矢量,从而从所述系数代码本输出一组权重系数,所述量化参数生成装置将在当前帧中输出的所述代码矢量和在所述最近的过去的至少一帧中输出的代码矢量分别乘以在所述当前帧中输出的所述组的所述权重系数,所述量化参数生成装置将各相乘结果加在一起,从而产生加权矢量,并输出包括所述产生的加权矢量的分量的矢量作为所述当前帧的解码的量化声学参数;以及
所述矢量代码本存储包括显示实质上平坦的谱包络的声学参数的分量的矢量作为所述代码矢量之一。
根据本发明的一种用于编码输入声信号的声信号编码设备,配置为包括:
用于通过使用前述的声学参数编码方法,对输入声信号的谱特性进行编码的装置;
自适应代码本,用于在其中保持显示所述输入声信号的各周期分量的各自适应代码矢量;
固定代码本,用于在其中存储多个固定矢量;
过滤装置,用于输入根据来自所述自适应代码本的所述自适应代码矢量和来自所述固定代码本的所述固定矢量产生的声源矢量作为激励信号,所述过滤装置通过使用基于所述量化声学参数的过滤系数而合成合成的声信号;以及
用于确定从所述固定代码本和所述自适应代码本分别选择的自适应代码矢量和固定代码矢量的装置,使得所述合成的声信号对所述输入声信号的失真变小,所述装置输出自适应代码和固定代码分别对应于所述确定的自适应代码矢量和所述固定矢量。
根据本发明的一种用于解码输入代码和输出声信号的声信号解码设备,配置为包括:
用于通过使用前述的声学参数解码方法,从输入代码解码声学参数的装置,所述声学参数相当于显示谱包络特性的线性预测系数;
固定代码本,用于在其中存储多个固定矢量;
自适应代码本,用于在其中保持显示合成声信号的各周期分量的各自适应代码矢量;
用于通过输入的自适应代码和输入的固定代码、从所述固定代码本取出对应固定矢量和从所述自适应代码本取出对应自适应代码矢量的装置,所述装置合成所述各矢量并产生激励矢量;以及
过滤装置,用于根据所述声学参数设置过滤系数并通过所述激励矢量再现声信号。
根据本发明的一种用于编码输入声信号的声信号编码方法,包括:
(A)步骤,用于通过使用前述的声学参数编码方法,对输入声信号的谱特性进行编码;
(B)步骤,用于使用根据来自自适应代码本的自适应代码矢量和来自固定代码本的固定矢量产生的声源矢量作为激励信号,通过基于所述量化声学参数的过滤系数,执行合成过滤处理,从而产生合成声信号,所述自适应代码本用于在其中保持显示输入声信号的各周期分量的各自适应代码矢量,所述固定代码本用于在其中存储多个固定矢量;以及
(C)步骤,用于确定从所述固定代码本和所述自适应代码本选择的自适应代码矢量和固定矢量,使得所述合成的声信号对所述输入声信号的失真变小,并且输出自适应代码和固定代码分别对应所述确定的自适应代码矢量和所述固定矢量。
根据本发明的一种用于解码各输入代码和输出声信号的声信号解码方法,包括:
(A)步骤,用于通过使用前述的声学参数解码方法,从各输入代码解码相当于显示谱包络特性的线性预测系数的声学参数;
(B)步骤,用于通过输入的自适应代码和输入的固定代码,从自适应代码本取出自适应代码矢量,从固定代码本取出对应固定矢量,并合成所述自适应代码矢量和所述固定矢量,从而产生激励矢量,所述自适应代码本用于在其中保持显示输入声信号的各周期分量的各自适应代码矢量,所述固定代码本用于在其中存储多个固定矢量;以及
(C)步骤,用于通过使用根据所述声学参数的过滤系数执行所述激励矢量的合成过滤处理,并再现合成的声信号。
前述发明可以可在计算机中执行的程序形式提供。
根据本发明,在加权矢量量化器(或MA预测矢量量化器)中,因为包括显示实质上平坦的谱的声学参数矢量的分量的矢量被求得并存储为矢量代码本的代码矢量,可输出相当于对应无声间隔或平稳噪声间隔的量化矢量。
此外,根据本发明的另一个实施方式,作为包括在声学参数编码设备和解码设备中的矢量代码本的配置,在使用多阶段矢量代码本的情形,包括显示实质上谱包络的声学参数矢量的分量的矢量被存储其一阶段的代码本,而零矢量被存储在其它阶段的代码本中。由此,可输出相当于对应无声间隔或平稳噪声间隔的声学参数。
存储零矢量不总是必要的。在不存储零矢量的情形,当从一阶段的代码本选择包括显示实质上平坦的谱包络的声学参数矢量的分量的矢量时,能够将包括显示实质上平坦的谱包络的声学参数矢量的分量的矢量输出为当前帧的侯选代码矢量。
此外,在矢量代码本包括分离矢量代码本的情形,使用多个分离矢量,在该分离矢量中,包括显示实质上平坦的谱包络的声学参数矢量的分量的各矢量的维数被分割,并通过分开地逐个将这些分离矢量分别存储在多个分离矢量代码本中,当在各分离矢量代码本中搜索时,选择各分离矢量,并且可将通过集成这些分离矢量的矢量输出为相当于对应无声间隔或平稳噪声间隔的量化矢量。
此外,矢量量化器可能形成以具有多阶段和分离量化配置,并且通过结合前述多阶段矢量量化配置和分离矢量量化配置的技术,可输出为与对应无声间隔或平稳噪声间隔一致的相当于声学参数的量化矢量。
在代码本被构造为多阶段配置的情形,与第一阶段的代码本的各代码矢量一致,提供分别对应第二阶段及其后的阶段的代码本的比例系数作为比例系数代码本。对应在第一阶段的代码本选择的代码矢量的各比例系数从各比例系数代码本读出,并乘以分别从第二阶段的代码本选择的各代码矢量,于是可实现具有非常小的量化失真的编码。
如上所述,可提供声学参数编码和解码方法和设备,其中在前述间隔中品质劣化是稀有的,即本发明的目的。
在本发明的声信号编码设备中,在线性预测系数的量化中,在相当于线性预测系数的声学参数区域使用前述参数编码设备的任何一个。根据该配置,可获得与前述配置同样的操作和效果。
在本发明的声信号解码设备中,在线性预测系数的解码中,在相当于线性预测系数的声学参数区域使用前述参数编码设备的任何一个。根据该配置,可获得与前述配置同样的操作和效果。
附图说明
图1是显示了将根据本发明的代码本应用于声学参数编码设备的功能配置的方框图。
图2是显示了将根据本发明的代码本应用于声学参数解码设备的功能配置的方框图。
图3显示了用于LSP参数编码和解码的根据本发明的矢量代码本的配置的例图。
图4显示了在一个多阶段构造的情况下根据本发明的矢量代码本配置例图。
图5显示了在由分离矢量代码本形成的情况下根据本发明的矢量代码本的配置例图。
图6显示了在多阶段矢量代码本中采用比例系数的情况下根据本发明的矢量代码本的配置例图。
图7显示了在第二阶段代码本由分离矢量代码本形成的情况下根据本发明的矢量代码本的配置例图。
图8显示了在图7的代码本中的两个分离矢量代码本中分别采用比例系数的情况下的矢量代码本的配置例图。
图9显示了在图4的多阶段代码本中的每阶段被构造为分离矢量代码本的情况下的矢量代码本的配置的例图。
图10A是显示了将根据本发明的编码方法应用于语音信号发送设备的配置的示例的方框图。
图10B是显示了将根据本发明的解码方法应用于语音信号接收设备的配置的示例的方框图。
图11是显示了将根据本发明的编码方法应用于语音信号编码设备的功能配置图。
图12是显示了将根据本发明的解码方法应用于语音信号解码设备的功能配置图。
图13是显示了在根据本发明的编码设备和解码设备由计算机实现的情况下的配置的例图。
图14是说明本发明的效果的图表。
具体实施方式
第一实施方式
下一步,将参照附图说明本发明的各实施方式。
图1是显示了应用根据本发明的线性预测参数代码方法的声学参数编码设备的实施方式的配置示例的方框图。该编码设备包括:线性预测分析部件12;LSP参数计算部件13;和参数编码部件10,由代码本14、量化参数生成部件15、失真计算部件16和代码本搜索控制部件17形成。在该图中,例如,一系列数字化语音信号取样,从输入端T1输入。在线性预测分析部件12中,存储在内部缓冲区中的每一帧的语音信号取样经过线性预测分析,以计算一对线性预测系数。现在,假设线性预测分析的阶是p维,在LSP参数计算部件13中从p维线性预测系数计算得出该p维等价LSP(线谱对)参数。其处理方法的细节在上述Furui所著文献中说明。该pLSP参数如下表示为矢量。
     f(n)=(f1(n),f2(n),…,fp(n))        (1)这里,整数n表示某帧编号n,在下文中该编号的该帧称为帧n。
代码本14装备有矢量代码本14A,它存储表示通过学***均矢量yave从寄存器15C加到加法器15D。如上所述,候选量化矢量,即LSP参数的候选y(n)从加法器15D产生。作为平均矢量yave,可能使用在语音部分的平均矢量,或者如下所述可能使用零矢量。
当从矢量代码本14A选择的代码矢量x(n)对当前帧n被替代为
x(n)=(x1(n),x2(n),…,xp(n))          (2)然后,类似地,先前确定一帧的代码矢量被替代为x(n-1);先前确定2帧的代码矢量被替代为x(n-2);而先前确定m帧的代码矢量被替代为x(n-m);当前帧的量化矢量候选,即
y(n)=(y1(n),y2(n),…,yp(n))          (3)如下表示:
y(n)=w0·x(n)+∑j=1 mwj·x(n-j)+yave    (4)这里,m值越大,量化效率越好。不过,出现代码误差时的影响扩展到m帧后的部分,而且,如果从其中间再现该编码并存储的语音,有必要返回到过去的m帧。因此,m适当选择为偶然需求。对语音通信,在一帧20ms的情形,m值为6或更多是足够的,甚至1到3的值也足够了。数m也被称为移动平均预测的阶。
如上所述获得的量化候选y(n)被发送到失真计算部件16,而对在LSP参数计算部件13计算的LPS参数f(n)的量化失真进行计算。失真d由加权欧几里得(Euclidean)距离如下定义。
d=∑i=1 pri(fi(n)-yi(n))2               (5)顺便说,ri,i=1,…,p是由LSP参数f(n)求得的权重系数,而如果它们设置为权重以便强调谱的共振峰(formant)上和周围的频率,那么性能变得优良。
在代码本搜索部件17中,给予代码本14的各对索引Ix(n)和Iw(n)顺序改变,并对于各对索引重复如公式(5)所述的失真d的计算,于是,从代码本14中的矢量代码本14A的该代码矢量和矢量代码本14A的该组权重系数,搜索使失真d作为从失真计算部件16的输出而变得最小或足够小的其中一对,而且从T2端送出这些索引Ix(n)和Iw(n)作为输入LSP参数的各代码。从T2端送出的代码Ix(n)和Iw(n)经过传输通道被发送到解码器或存储在存储器中。
当确定当前帧的输出代码矢量x(n)时,将过去帧(n-j)缓冲部件15Bj中的代码矢量x(n-j),j=1,…,m-1顺序发送到下一个缓冲部件15Bj+1,而将当前帧n的代码矢量x(n)输入缓冲15B1
本发明的特征在于,作为由通过如上所述的LSP参数的加权矢量量化或运动平均矢量量化编码中使用的矢量代码本14A中存储的一个代码矢量,在平均矢量yave是0的情形,存储对应无声间隔或平稳噪声间隔的LSP参数矢量F,或者在yave不是0的情形,存储通过从LSP参数矢量F减去yave求得的矢量C0。即,在yave不是0的情形,对应无声间隔或平稳噪声间隔的LSP参数矢量组成:
F=(F1,F2,…,Fp)而应该存储在图1中矢量代码本14A中的代码矢量C0如下计算:
C0=F-yave在在无声间隔或平稳噪声间隔通过运动平均预测进行的编码中,当遍及m帧连续选择C0时,量化矢量y(n)如下得出:
y(n)=w0·x(n)+∑j=1 mwj·x(n-j)+yave
    =w0·C0+∑j=1 mwj·C0+yave
    =(w0+∑j=1 mwj)·C0+yave这里,假定从w0到wm的权重系数的和是1或接近它的值,可输出y(n)作为在无声间隔或平稳噪声间隔从LSP参数求得的量化矢量F,所以,可改进在无声间隔或平稳噪声间隔的编码性能。通过如上所述的配置,包括矢量F的分量的矢量存储为矢量代码本14A中的代码矢量之一。作为包括矢量F的分量的代码矢量,在量化参数生成部件15生成包括平均矢量yave的分量的量化矢量y(n)的情形,使用了通过从矢量F减去平均矢量yave求得的矢量,而在量化参数生成部件15生成不包括平均矢量yave的分量的量化矢量y(n)的情形,使用矢量F自身。
图2是应用了本发明一种实施方式的解码设备的配置的例子,所述解码设备由代码本24和量化参数生成部件25组成。这些代码本24和量化参数生成部件25构造得分别类似于图1的代码本14和量化参数生成部件15。输入作为从图1的编码设备发送的参数代码的索引Ix(n)和Iw(n),而对应索引Ix(n)的代码矢量x(n)从矢量代码本24A输出,并且对应索引Iw(n)的权重系数组w0,w1,…,wm从系数代码本24B输出。每帧从矢量代码本24A分别输出的代码矢量x(n)顺序输入串联的缓冲部件25B1,…,25Bm。当前帧n的代码矢量x(n)和缓冲部件25B1,…,25Bm的过去帧1,…,m的代码矢量x(n-1),…,x(n-m)在乘法器25A0,25A1,…,25Am中乘以权重系数w0,w1,…,wm,并且这些乘法结果在加法器25D上加在一起。而且,预先保存在寄存器25C中的整体语音信号中的LSP参数的平均矢量yave加到加法器25D,输出由此得到的量化矢量y(n)作为解码LSP参数。矢量yave可以是语音部分的平均矢量,或者可以是零矢量z。
在本发明中,也在解码设备中,如图1所示的编码设备,通过在矢量代码本24A中存储矢量C0作为代码矢量之一,可输出在声信号的无声间隔或平稳噪声间隔求得的LSP参数矢量F。
如果平均矢量yave在图1的加法器15D和图2的加法器25D不加,代替矢量C0,在矢量代码本14A和24A中存储对应无声间隔和平稳噪声间隔的LSP参数矢量F。在下面的说明中,存储在各自的矢量代码本14A和24A中的LSP参数矢量F或矢量C0表示为和称为矢量C0
在图3中,显示了图1的矢量代码本14A或矢量代码本24A的配置的例子,作为矢量代码本4A。该例子用于一阶段矢量代码本41的情形。存储N片代码矢量x1,…,xN如同其在矢量代码本41中一样,并且对应该输入索引Ix(n),选择和输出N个代码矢量的任何一个。在本发明中,代码矢量C0用作代码矢量x之一。虽然如在常规中通过学习形成矢量代码本41中的N个代码矢量,但是,例如在本发明中,作为这些矢量中最类似(失真最小)矢量C0的一个矢量由C0替换,或者简单加上C0
有几种方法求得矢量C0。作为其一,因为输入声信号的谱包络通常在无声间隔或平稳噪声间隔变得平坦,所以在p维LSP参数矢量F的情形,例如,将0到π平分p+1份,而间隔大小实质相等的p值,如π/(1+p),2π/(1+p),…,π/(1+p),可用作为LSP参数矢量。可替代地,从在无声间隔和平稳噪声间隔的实际LSP参数矢量F,可通过C0=F-yave求得。或者,在输入白噪声或Hoth噪声的情形的LSP参数可用作为参数矢量F,以求得C0=F-yave。顺便说,一般地,整体语音信号中的LSP参数的平均矢量yave求得为在学***均矢量。
下表1显示10维矢量C0、yave和F的各示例,其中,当p=10维LSP参数用作为声学参数时,在无声间隔或平稳噪声间隔的LSP参数在0到π之间标准化。
[表1]
 p        C0      y ave   F
 1  0.0498613038  0.250504841  0.300366
 2  0.196914087  0.376541460  0.573456
 3  0.274116971  0.605215652  0.879333
 4  0.222466032  0.923759106  1.146225
 5  0.192227464  1.24066692  1.432894
 6  0.170497624  1.54336668  1.713864
 7  0.139565958  1.85979861  1.999365
 8  0.177638442  2.10739425  2.285031
 9  0.165183997  2.40568568  2.570870
 10  0.250504841  2.68495222  2.856472
矢量F是写入根据本发明的代码本的表示无声间隔和平稳噪声间隔的LSP参数的代码矢量示例。该矢量的各元素值在实质上恒定的间隔增加,而且这意味着频谱实质上是平坦的。
第二实施方式
图4显示了如果使用2阶段矢量代码本的代码本4A所示,图1的LSP参数编码器的矢量代码本14A或图2的LSP参数解码设备的矢量代码本24A的配置的另一个示例。第一阶段代码本41存储N片p维代码矢量x11,…,x1N,而第二阶段代码本42存储N’片p维代码矢量x21,…,x2N’。
首先,当输入指定代码矢量的索引Ix(n)时,在代码分析部件43分析索引Ix(n),从而得到在第一阶段指定代码矢量的索引Ix(n)1和在第二阶段指定代码矢量的索引Ix(n)2。然后,分别对应各自阶段的索引Ix(n)1和Ix(n)2的第i和第i’个代码矢量x1i和x2i’从第一阶段代码本41和第二阶段代码本42读出,并且各代码矢量在相加部件44加在一起,并从而输出相加结果作为代码矢量x(n)。
在2阶段构造的矢量代码本的情况下,通过对从具有最小量化失真的代码矢量顺序开始的预定数量的候选代码矢量仅使用第一阶段代码本41来执行代码矢量搜索。该搜索通过结合图1所示的系数代码本14B的权重系数组进行。然后,将第一阶段代码矢量的组合看成第二阶段代码本的各自代码矢量和各自候选者,就搜索到量化失真最小的代码矢量的组合。
如果通过如上所述将第一阶段代码本41进行优先排列而搜索代码矢量,则代码矢量C0(或F)预存为多阶段矢量代码本4A的第一阶段代码本41中的一个代码矢量,而且零矢量z预存为第二阶段代码本42中的一个代码矢量。由此,如果从代码本41选择代码矢量C0,则从代码本42选择零矢量z。结果,本发明实现了该结构:其中在对应无声间隔或平稳噪声间隔的情形,代码矢量C0可从加法器44输出为代码本4A的输出。也可这样构造:如果未存储零矢量z而从代码本41选择代码矢量C0,则不执行从代码本42的选择和添加。
如果对第一阶段代码本41中的各代码矢量和第二阶段代码本中的各代码矢量的所有组合执行搜索,则代码矢量C0和零矢量z可存储在任何代码本中,只要它们存储在彼此分离的代码本中。非常可能在无声间隔或平稳噪声间隔同时选择代码矢量C0和零矢量z,但是对于计算误差等它们可能不总是同时被选择。在各阶段代码本中,代码矢量C0或零矢量z成为与其它代码矢量相同的选择。
零矢量可能不存储在第二阶段代码本42中。在此情形,如果从第一阶段代码本41选择矢量C0,就不执行从第二阶段代码本42选择代码矢量,并且将能够如来自加法器44一样输出代码本41的代码C0
通过由如图4所示的多阶段代码本形成代码本4A,这个构造与下面构造一样有效,即其中仅在几个选择的代码矢量的组合中提供代码矢量,因此,与如图3所示的仅由单阶段代码本组成的情形比较,具有可减小代码本的大小(这里是代码矢量总数)的优点。虽然图4显示由2阶段矢量代码本41和42形成的配置的情形,但是如果阶段数是3或更多,将能够:可添加仅对应添加阶段的数量的代码本,并通过对应各阶段的索引从各自的代码本选择代码矢量,从而执行这些矢量的矢量合成。因而,可容易地进行扩展。
第三实施方式
图5显示了下面的情形:在图4的实施方式的矢量代码本中,对第一阶段代码本41的每个代码矢量,预定的比例系数乘以从第二阶段代码本42选择的代码矢量,并且将相乘结果加到来自第一阶段代码本41的代码矢量以输出。提供比例系数代码本45存储比例系数S1,…,SN,例如,在大约0.5到2的范围,通过根据各矢量x11,…,C0,…,x1N预先学习而确定,并通过与第一阶段代码本41相同的索引Ix(n)1而访问。
首先,当输入指定代码索引的索引Ix(n)时,在代码分析部件43分析索引Ix(n),于是得到指定第一阶段的代码矢量的索引Ix(n)1和指定第二阶段的代码矢量的索引Ix(n)2。对应Ix(n)1的代码矢量x1i从第一阶段代码本41读出。而且,从比例系数代码本45,比例系数Si对应读出的索引Ix(n)1。然后,对应Ix(n)2的代码矢量x2i,从第二阶段代码本42读出,并且在乘法器46中,比例系数Si乘以来自第二阶段代码本42的代码矢量x2i’。通过乘法得到的矢量和来自第一阶段代码本41的代码矢量x1i在相加部件44加在一起,并且输出相加结果作为来自代码本4A的代码矢量x(n)。
此外,在本实施方式中,在搜索代码矢量时,首先仅使用第一阶段代码本41搜索从具有最小量化失真的代码矢量顺序开始的预定数量的候选代码矢量。然后,关于各自候选代码矢量和第二阶段代码本42的各自代码矢量的组合,搜索到量化失真最小的代码矢量的组合。在此情形,对具有比例系数的多阶段矢量代码本4A,矢量C0预存为第一阶段代码本41中的一个代码矢量,而零矢量z也预存为第二阶段代码本42中的一个代码矢量。类似图4的情形,如果对两个代码本41和42的各代码矢量之间的所有组合执行搜索,代码矢量C0和零矢量z可存储在任一代码本中,只要它们存储在彼此分离的代码本中。可替换地,如在前述的各实施方式中,可不存储零矢量z。在那情形,如果选择代码矢量C0,就不执行从代码本42的选择和添加。
如上所述,在对应无声间隔或平稳噪声间隔的情形可输出代码矢量。虽然非常可能在无声间隔或平稳噪声间隔同时选择代码矢量C0和零矢量z,但是对于计算误差等它们可能不总是同时被选择。在各阶段代码本中,代码矢量C0或零矢量z成为与其它代码矢量相同的选择。如在图5的实施方式中,通过使用比例系数代码本45,这个构造与下面构造一样有效,即其中仅提供比例系数的数量N的第二阶段代码本,因此,具有可实现更小量化失真的编码的优点。
第四实施方式
图6是下面的情形:其中图1的参数编码设备的矢量代码本14A或图2的参数解码设备的矢量代码本24A形成为应用本发明的分离矢量代码本4A。虽然图6的代码本由半分离矢量代码本形成,但是如果分割数为3或更多,可以类似地扩展,于是实现了分割数为2的情形,将在这里说明。
代码本4A包括:低阶矢量代码本41L,存储N片低阶代码矢量xL1,…,xLN;和高阶矢量代码本41H,存储N’片高阶代码矢量xH1,…,xHN’。假定输出代码矢量是x(n),在低阶和高阶代码本41L和41H中,1到k阶定义为低阶,而k+1阶到p阶定义为p阶中的高阶,于是代码本由各维数编号的矢量分别形成。即,低阶代码本41L的第i个矢量表示为:
xLi=(xLi1,xLi2,…,xLik)(9)而高阶矢量代码本41H的第i’个矢量表示为:
xHi’=(xHi’k+1,xHi’k+2,…,xHi’p)(10)输入索引Ix(n)分割为Ix(n)L和Ix(n)H,并且对应这些Ix(n)L和Ix(n)H,低阶和高阶分离矢量xLi和xHi’从各代码本41L和41H分别选择,这些分离矢量xLi和xHi’在集成部件47集成,从而生成输出代码矢量x(n)。换句话说,假定从集成部件47输出的代码矢量是x(n),则表示为
x(n)=(xLi1,xLi2,…,xLik|xHi’k+1,xHi’k+2,…,xHi’p)
在此实施方式中,矢量C0的低阶矢量C0L存储为低阶代码本41L的一个矢量,而矢量C0的高阶矢量C0H存储为高阶代码本41H的一个矢量。如上所述,实现了结构:在对应无声间隔或平稳噪声间隔的情形,可输出以下作为代码矢量:
C0=(C0L|C0H)此外,依据该情形,可输出该矢量作为C0L和另外的高阶矢量的组合,或另外的低阶矢量和C0H的组合。如果如图6所示提供分离矢量代码本41L和41H,这相当于提供两个分离矢量之间的组合数量的代码矢量,具有可减小每个分离矢量代码本的大小的优点。
第五实施方式
图7显示了图1的声学参数编码设备的矢量代码本14A或图2的声学参数解码设备的矢量代码本24A的配置的另一个示例,其中代码本4A形成为多阶段和分离矢量代码本4A。代码本4A这样构造:在图4的代码本4A中,第二阶段代码本42由与图6一样的半分离矢量代码本形成。
第一阶段代码本41存储N片代码矢量x11,…,x1N,第二阶段低阶代码本42L存储N’片低阶代码矢量x2L1,…,x2LN’,而第二阶段高阶代码本42H,存储N”片高阶代码矢量x2H1,…,x2HN”
在代码分析部件431中,分析输入的索引Ix(n)得到指定第一阶段代码矢量的索引Ix(n)1和指定第二阶段代码矢量的索引Ix(n)2。然后,对应第一阶段索引Ix(n)1的第i个代码矢量x1i从第一阶段代码本41读出。而且,分析第二阶段索引Ix(n)2得到Ix(n)2L和Ix(n)2H,而通过Ix(n)2L和Ix(n)2H,选择第二阶段低阶分离矢量代码本42L和第二阶段高阶分离矢量代码本42H的各自第i’和第i”个分离矢量x2Li’和x2Hi”,并在集成部件47集成这些选择的分离矢量,从而生成第二阶段代码矢量x2i’i”。在相加部件44,将第一阶段代码矢量x1i和第二阶段集成矢量x2i’i”加在一起,以便输出作为代码矢量x(n)。
在此实施方式中,如在图4和图5的实施方式中,矢量C0存储为第一阶段代码本41的一个矢量,而分离零矢量zL和zH也分别存储为第二阶段分离代码本42的低阶分离矢量代码本42L的一个矢量和第二阶段分离代码本42的高阶分离矢量代码本42H的一个矢量。如上构造,在对应无声间隔或平稳噪声间隔的情形,实现了输出代码矢量的结构。代码本的阶段数量可为3或更多。而且,分离矢量代码本可用于任何阶段,并且每个阶段分离代码本的数量不限于2。此外,如果对第一阶段代码本41和第二阶段代码本42L和42H之间的所有组合的各代码矢量执行搜索,矢量C0和分离零矢量zL和zH可存储在阶段彼此不同的任一代码本中。可替换地,如在第二和第三实施方式中,可省略存储分离零矢量。如果不存储它们,在选择矢量C0时,不执行从代码本42L和42H的选择和添加。
第六实施方式
图8是应用了本发明的具有比例系数的多阶段和分离矢量代码本4A,其中图7的实施方式的矢量代码本4A中的分离矢量代码本42的低阶代码本42L和高阶代码本42H提供了类似图5的实施方式中比例系数代码本45的比例系数代码本45L和45H。作为低阶和高阶分离矢量分别与其相乘的系数,例如,大约0.5到2的值的N片系数被存储在低阶比例系数代码本45L和高阶比例系数代码本45H中。
在分析部件431,分析输入的索引Ix(n)得到指定第一阶段代码矢量的索引Ix(n)1和指定第二阶段代码矢量的索引Ix(n)2。首先,从第一阶段代码本41得到对应索引Ix(n)1的代码矢量x1i。而且,与索引Ix(n)1一致,分别从低阶比例系数代码本45L和高阶比例系数代码本45H读出低阶比例系数SLi和高阶比例系数SHi。然后,在分析部件432分析索引Ix(n)2得到索引Ix(n)2L和索引Ix(n)2H,并且通过这些索引Ix(n)2L和Ix(n)2H,选择第二阶段低阶分离矢量代码本42L和第二阶段高阶分离矢量代码本42H的各自分离矢量x2Li’和x2Hi”。在乘法器46L和46H将这些选择的分离矢量乘以低阶和高阶比例系数SLi和SHi,并在集成部件47集成该得到的相乘矢量,从而生成第二阶段代码矢量x2i’i”。在相加部件44,将第一阶段代码矢量x1i和第二阶段集成矢量x2i’i”加在一起,并输出相加结果作为代码矢量x(n)。
在此实施方式的具有比例系数的多阶段和分离矢量代码本4A中,矢量C0存储为第一阶段代码本41中的一个代码矢量,而分离零矢量zL和zH也分别存储为第二阶段分离矢量代码本的低阶分离矢量代码本42L和高阶分离矢量代码本42H的各分离矢量。由此,在对应无声间隔或平稳噪声间隔的情形,实现了输出代码矢量的结构。代码本的阶段数量可为3或更多。在此情形,第二阶段以后的2个或更多阶段可由分离矢量代码本分别形成。而且,在任何一种情形,不限于每阶段分离矢量代码本的数量。
第七实施方式
图9说明图1的声学参数编码设备的矢量代码本4A或图2的声学参数解码设备的矢量代码本24A的配置的另一个示例,而图7的实施方式的第一阶段代码本41还由图6的实施方式中的分离矢量代码本形成。在此实施方式中,N片高阶分离矢量x1L1,…,x1LN存储在第一阶段低阶代码本41L中,而N’片高阶分离矢量x1H1,…,xHN’存储在第一阶段高阶代码本41H中。N”片低阶分离矢量x2L1,…,x2LN”存储在第二阶段低阶代码本42L中,而N片高阶分离矢量x2H1,…,x2HN存储在第二阶段高阶代码本42H中。
在代码分析部件43中,分析输入的索引Ix(n)得到指定第一阶段代码矢量的索引Ix(n)1和指定第二阶段代码矢量的索引Ix(n)2。分别选择第一阶段分离矢量代码本41L和第一阶段高阶代码本41H的第i个和第i’个分离矢量x1Li和x1Hi’,作为对应第一阶段索引Ix(n)1的矢量,并在集成部件471集成该选择的矢量,从而生成第一阶段集成矢量x1ii’
此外,类似第一阶段,对第二阶段索引Ix(n)2,分别选择第二阶段分离矢量代码本42L和第二阶段高阶代码本42H的第i”个和第i个分离矢量x2Li”和x2Hi,并在集成部件472集成该选择的矢量,从而生成第二阶段集成矢量x2i”i。在相加部件44,将第一阶段集成矢量x1ii’和第二阶段集成矢量x2i”i加在一起,并输出相加结果作为代码矢量x(n)。
在此实施方式中,类似图6分离矢量代码本的配置,在第一阶段,矢量C0的低阶分离矢量C0L存储为第一阶段低阶代码本41L的一个矢量,而矢量C0的高阶分离矢量C0H存储为第一阶段高阶代码本41H的一个矢量。此外,分离零矢量zL和zH也分别存储为第二阶段分离矢量代码本42的低阶分离矢量代码本42L和第二阶段的高阶分离矢量代码本42H的各个矢量。根据此配置,在对应无声间隔或平稳噪声间隔的情形,实现了允许输出代码矢量的配置。而且在此情形,多阶段的数量不限于2,并且每阶段分离矢量代码本的数量不限于2。
第八实施方式
图10是显示应用了本发明的语音信号发送设备和接收设备的配置的方框图。
语音信号101通过输入设备102转换为电信号,并输出给A/D转换器103。该A/D转换器将从输入设备102输出的(模拟)信号转换为数字信号,并将其输出给语音编码设备104。语音编码设备104使用后面说明的语音编码方法将从A/D转换器103输出的数字语音信号编码,并将编码信息输出给RF调制器105。RF调制器105将从语音编码设备104输出的语音编码信息转换为通过放置于如无线电波这样的传播介质上将要发送出去的信号,并将该信号输出给发送天线106。发送天线106将从RF调制器105输出的输出信号作为无线电波(RF信号)107发送。前述的是语音信号发送设备的配置和操作。
发送的无线电波(RF信号)108由接收天线109接收,并输出给RF解调器110。顺便说,图中的无线电波(RF信号)108从接收侧看构成无线电波(RF信号)107,而如果在传播信道中没有信号的衰减或噪声的迭加,无线电波108构成与无线电波(RF信号)107完全一样的无线电波。RF解调器110从由接收天线109输出的RF信号解调语音编码信息,并将其输出给语音解码设备111。语音解码设备111使用后面说明的语音解码方法解码该来自语音编码信息的语音信号,并将其输出给D/A转换器112。D/A转换器112将从语音解码设备111输出的数字语音信号转换为模拟电信号并将其输出给输出设备113。输出设备113将电信号转换为空气振动,并作为声波114输出使得人能通过耳朵听到。前述的是语音信号接收设备的配置和操作。
通过前述的语音信号发送设备和接收设备的至少之一,可在移动通信***中配置基站和移动终端。
前述的语音信号发送设备的特征在于,语音编码设备104。图11是显示语音编码设备104的配置的方框图。
输入语音信号形成从图10中的A/D转换器103输出的信号,并被输入预处理部件200。在预处理部件200中,进行波形整形处理和预加重处理,这可能联系到用于去除DC分量的高通滤波处理或后续编码处理的性能改善,并且将处理后的信号Xin输出给LPC分析部件201和加法器204,然后输出给参数确定部件212。LPC分析进行对Xin的线性预测分析,并将分析的结果(线性预测系数)输出给LPC量化部件202。LPC量化部件202包括LSP参数计算部件13、参数编码部件10、解码部件18和参数转换部件19。参数编码部件10具有与图1中的参数编码部件10同样的配置,它应用了根据图3到9的实施方式之一的本发明的矢量代码本。此外,解码部件18具有与图2中的解码设备同样的配置,它应用了图3到9的代码本之一。
从LPC分析部件201输出的线性预测系数(LPC)在LSP参数计算部件13转换为LSP参数,并在参数编码部件10将得到的LSP参数如参考图1说明的一样进行编码。矢量Ix(n)和Iw(n)通过编码得到,即将显示量化LPC的代码L输出给多路复用部件213。同时,将这些代码Ix(n)和Iw(n)在解码部件18解码以获得量化LSP参数,并将量化LSP参数在参数转换部件19再次转换为LPC参数,结果,将得到的量化LPC参数供给合成滤波器203。通过使量化LPC作为滤波系数,合成滤波器203通过对从加法器210输出的驱动声源信号的滤波处理来合成声信号,并将合成的信号输出给加法器204。
加法器204计算前述Xin和前述合成信号之间的误差信号ε,并将其输出给感觉加权部件211。感觉加权部件211对从加法器204输出的误差信号ε进行感觉加权,并在感觉加权区域计算合成信号对Xin的失真,从而将其输出给参数确定部件212。参数确定部件212确定应该由自适应代码本205、固定代码本207和量化增益生成部件206产生的信号,以使从感觉加权部件211输出的编码失真变得最小。顺便说,不仅最小化从感觉加权部件211输出的编码失真,而且通过使用前述Xin来使用最小化另一个编码失真的方法,从而确定从前述三个装置产生的信号,可以进一步改善编码性能。
自适应代码本205执行先前帧n-1的声源信号的缓冲,该先前帧在过去当最小化失真时从加法器210输出,并从由其自适应矢量代码A指定的位置切掉声音矢量,该自适应矢量代码A从参数确定部件212输出,从而重复地连接它直到它成为一帧的长度,结果产生了包括期望周期分量的自适应矢量并将其输出给乘法器208。在固定代码本207中,存储与各固定矢量代码一致的每个具有一帧长度的多个固定矢量,并将固定矢量输出给乘法器209,该固定矢量的形式由从参数确定部件212输出的固定矢量代码F指定。
量化增益生成部件206分别向乘法器208和209提供由从参数确定部件212输出的增益代码G指定的自适应矢量,对固定矢量的量化自适应矢量增益gA和量化自适应矢量增益gF。在乘法器208中,从量化增益生成部件206输出的量化自适应矢量增益gA乘以从自适应代码本205输出的自适应矢量,并且将相乘的结果输出给加法器210。在乘法器209中,从量化增益生成部件206输出的量化固定矢量增益gF乘以从固定代码本207输出的固定矢量,并且将相乘的结果输出给加法器210。
在加法器210中,乘以增益后的自适应矢量和固定矢量加在一起,并将相加结果输出给合成滤波器203和自适应代码本205。最后,在多路复用部件213中,指示量化LPC的代码L从LPC量化部件202输入;指示自适应矢量的自适应矢量代码A、指示固定矢量的固定矢量代码F和指示各量化增益的增益代码G从参数确定部件212输入;并且将这些代码多路复用以作为编码信息输出给发送路径。
图12是显示图10的语音解码设备111的配置的方框图。
在该图中,对于从RF解调器110输出的编码信息,多路复用的编码信息通过多路复用分离部件1301分离为单独的代码L。A、F和G。分离的LPC代码L供给LPC解码部件1302;分离的自适应矢量代码A供给自适应代码本1305;分离的增益代码G供给量化增益生成部件1306;分离的固定矢量代码F供给固定代码本1307。LPC解码部件1302由与图2相同的配置的解码部件1302A和参数转换部件1302B构成。由多路复用分离部件1301提供的代码L=(Ix(n),Iw(n))在LSP参数区域由如图2所示的解码部件1302A解码,并转换为LPC,从而输出给合成滤波器1303。
自适应代码本1305从由自适应矢量代码A指定的位置取出自适应矢量,该自适应矢量代码A从多路复用分离部件1301输出,并将其输出给乘法器1308。固定代码本1307产生由从多路复用分离部件1301输出的固定矢量代码F指定的固定矢量,并将其输出给乘法器1309。量化增益生成部件1306将从多路复用分离部件1301输出的增益代码G指定的自适应矢量增益gA和固定矢量增益gF解码,并分别将其输出给乘法器1308和1309。在乘法器1308中,自适应代码矢量乘以前述的自适应代码矢量增益gA,并将乘积结果输出给加法器1310。在乘法器1309中,固定代码矢量乘以前述的固定代码矢量增益gF,并将乘积结果输出给加法器1310。在加法器1310中,乘以增益后从乘法器1308和1309的自适应矢量和固定矢量加在一起,并将相加结果输出给合成滤波器1303。在合成滤波器1303中,通过使从加法器1310输出的矢量作为驱动声源信号,通过使用由LPC解码部件1302解码的过滤系数进行过滤合成,并将合成的信号输出给后处理部件1304。后处理部件1304进行改进如共振峰加重或音调加重这样的语音主观质量的处理,或进行改进平稳噪声的主观质量的处理,随后作为最后的解码语音信号输出。
虽然LSP参数用作为等价于前述说明中的指示谱包络的线性预测系数的参数,还可用如α参数、PARCOR系数等这样的其它参数。在使用这些参数的情形,因为谱包络也在无声间隔或平稳噪声间隔变得平坦,在这些间隔的参数计算可容易地进行,而例如在p阶α参数的情形,能够使0阶是1.0而1到p阶是0.0。甚至在使用其它声学参数的情形,能够确定声学参数矢量来指示实质上平坦的谱包络。顺便说,LSP参数是实用的,因为其量化效率良好。
在前述说明中,在矢量代码本构造为多阶段配置的情形,矢量C0可表示为2个合成矢量,例如,C0=C01+C02,而C01和C02可存储在彼此不同阶段的代码本中。
此外,本发明不仅应用于语音信号的编码和解码,而且应用于一般声信号的编码和解码,如音乐信号。
而且,本发明的设备可通过由计算机运行程序而实现执行声信号的编码和解码。图13显示了一个实施方式,其中计算机管理使用图3到9的代码本之一的图1和2的声学参数编码设备和解码设备,以及应用了其编码方法和解码方法的图11和12的声信号编码设备和解码设备。
实现本发明的计算机包括:调制解调器410,连接到通信网络;输入和输出接口420,用于输入和输出声信号;缓冲存储器430,用于暂时存储数字声信号或声信号;随机访问存储器(RAM)440,用于在其中执行编码和解码处理;中央处理单元(CPU)450,用于控制数据的输入和输出以及程序执行;硬盘460,其中存储编码和解码程序;驱动470,用于驱动记录介质470M。这些部件通过公用总线480连接。
作为记录介质470M,可用任何类型的记录介质,如光盘CD、数字化视频光盘DVD、磁-光盘MO、存储卡等。在硬盘460中,存储着程序,其中在图11和12的声信号编码设备和解码设备中执行的编码方法和解码方法被表示为计算机的步骤。该程序包括作为子程序的用于执行图1和2的声学参数编码和解码的程序。
在编码输入声信号的情形,CPU 450从硬盘460将声信号编码程序装载入RAM 440;输入缓冲存储器430的声信号根据编码程序通过执行RAM 440中每帧的处理进行编码;而得到的代码经过调制解调器410作为编码的声信号数据发送出去给如通信网络。可替换地,数据暂时存储在硬盘460中。或者,通过记录介质驱动470,数据被写在记录介质470M上。
在解码输入编码声信号的情形,CPU 450从硬盘460将声信号解码程序装载入RAM 440。然后,从通信网络经过调制解调器410将声学代码数据下载到缓冲存储器430上,或通过驱动470从记录介质470M装载入缓冲存储器430。CPU 440根据解码程序处理RAM 440中每帧声学代码数据,并将得到的声信号数据从输入和输出接口420输出。
发明效果
图14的表1显示了在根据本发明将无声间隔上的零矢量C0和零矢量z嵌入代码本中的情形,以及如在常规代码本中一样在代码本中不嵌入矢量C0的情形以下声学参数编码设备的量化性能。表1中,坐标轴是对应对数谱失真的对数倒频谱失真,以分贝(dB)显示。对数倒频谱失真越小,量化性能越好。而且,对于计算失真的各语音间隔,各平均失真在所有间隔(总计)的平均、在语音的非无声间隔和平稳间隔的间隔(模式0)以及在语音的平稳间隔(模式1)求得。无声间隔存在其中的间隔是模式0,并且对于其中的失真,所提出的代码本的失真要低于0.11dB,而且可知,通过***无声和零矢量可产生这样的效果。此外,对于总计的对数倒频谱失真,在使用所提出的代码本的情形的失真比较低,而且因为在语音平稳间隔没有劣化,根据本发明的代码本的有效性是显而易见的。
如上所述,根据本发明,在其中等价于线性预测系数的参数由当前帧的代码矢量和过去输出的代码矢量的加权和进行量化的编码中,或者在其中将上述和与预先求得的平均矢量加在一起的矢量中,作为存储在矢量代码本中的矢量,对应无声间隔或平稳噪声间隔的参数矢量、或在其中从参数矢量减去了前述的平均矢量的矢量被选择为代码矢量,并且可输出其代码。因此,可提供其编码和解码方法和设备,其中在这些间隔的品质劣化是稀有的。

Claims (41)

1.一种声学参数编码方法,包括:
(a)步骤,用于对预定时间长度的每一帧计算相当于线性预测系数的声学参数,所述线性预测系数显示声信号的谱包络特性;
(b)步骤,用于将在最近的过去的至少一帧中输出的代码矢量和在当前帧中选择的代码矢量分别乘以一组权重系数,前一个代码矢量从用于存储多个与表示所述各代码矢量的索引一致的代码矢量的矢量代码本中选择,而所述各权重系数从用于存储一或多组与表示所述各权重系数的索引一致的权重系数的系数代码本选择,其中将相乘的各结果加起来产生加权矢量,并且求得包括所述加权矢量的分量的矢量作为对该当前帧的所述声学参数的侯选量化声学参数;以及
(c)步骤,用于通过使用关于所述计算的声学参数的所述侯选量化声学参数的失真最小化的规范,确定所述矢量代码本的所述代码矢量和所述系数代码本的所述权重系数组,其中表示所述确定的代码矢量和所述确定的权重系数组的索引被确定并作为所述声学参数的量化代码输出;
其中所述矢量代码本包括具有声学参数矢量的分量的矢量作为所述存储的代码矢量之一,该声学参数矢量显示实质上平坦的谱包络。
2.根据权利要求1的编码方法,所述矢量代码本由多阶段的代码本组成,其每个存储多个与表示所述各矢量的索引一致的矢量,所述多阶段的代码本的一个阶段的一个代码本存储包括显示所述实质上平坦的谱包络的所述声学参数矢量的分量的所述矢量作为所述存储的矢量之一,所述多阶段的代码本的另一个阶段的另一个代码本存储零矢量作为所述存储的矢量之一,并且所述步骤(b)包括步骤:分别从所述多阶段的所述代码本选择矢量,以及将所述选择的矢量加在一起,从而输出相加结果作为在所述当前帧中选择的所述矢量。
3.根据权利要求1的编码方法,所述矢量代码本由多阶段的代码本组成,其每个存储多个与表示所述各矢量的索引一致的矢量,所述多阶段的代码本的一个阶段的一个代码本存储包括显示所述实质上平坦的谱的所述声学参数矢量的分量的所述矢量作为所述存储的矢量之一,所述步骤(b)还包括步骤:当从所述多阶段的所述代码本的所述一个阶段的所述代码本选择不同于包括所述参数矢量的所述矢量的代码矢量时,分别从所述多阶段的所述代码本选择矢量,以及将所述选择的矢量加在一起,从而输出相加结果作为在所述当前帧中选择的所述代码矢量,其中如果从所述一个阶段的所述代码本选择包括显示所述实质上平坦的谱包络的所述声学参数矢量的所述分量的所述矢量,则将包括显示所述实质上平坦的谱包络的所述声学参数矢量的所述分量的所述矢量输出作为在所述当前帧中选择的所述矢量。
4.根据权利要求2或3的编码方法,所述多阶段的所述代码本的至少一个所述阶段的代码本包括:多个分离矢量代码本,用于分开地存储其中将代码矢量的维数分割为多个的多个分离矢量;以及集成部件,用于集成从所述多个分离矢量代码本输出的所述分离矢量,从而将其输出为所述相应阶段的所述代码本的输出矢量。
5.根据权利要求2或3的编码方法,包括显示所述实质上平坦的谱包络的所述声学参数矢量的所述分量的所述矢量,是从相当于所述线性预测系数的所述参数矢量减去相当于预先得到的整体语音信号中所述线性预测系数的参数的平均矢量产生的矢量。
6.根据权利要求1的编码方法,所述矢量代码本包括每个存储多个代码矢量的多阶段的代码本,和对第二阶段和该第二阶段后的各阶段的所述各代码本分别提供的比例系数代码本,每个所述比例系数代码本存储根据第一阶段的代码本的各代码矢量、预先确定的各比例系数,
所述多阶段的所述代码本的所述一个阶段的一个代码本存储包括显示所述实质上平坦的谱的所述声学参数矢量的所述分量的所述矢量作为所述存储的矢量之一,所述剩余阶段的每个其它代码本存储零矢量,
其中所述步骤(b)包括步骤:
从所述第二阶段及其后阶段的所述比例代码本读出与所述第一阶段选择的代码矢量一致的比例系数,并且将在所述第一阶段选择的所述代码矢量乘以每个所述选择的代码矢量,从而输出相乘结果作为所述各阶段的矢量;以及
将所述各阶段的所述输出矢量加在所述第一阶段的所述矢量上,从而输出相加结果作为来自所述矢量代码本的代码矢量。
7.根据权利要求2、3和5中的任何一个的编码方法,所述步骤(b)和(c)共同包括步骤:首先搜索预定数量的代码矢量以使由于从所述一个阶段的所述代码本选择的所述代码矢量而产生的失真最小,随后找出对于所述预定数量的所述代码矢量和每个从所述剩余阶段的代码本逐个选择出的各代码矢量之间的所有组合的所述失真,从而确定其中所述失真成为最小的组合的代码矢量。
8.根据权利要求6的编码方法,所述多阶段的所述代码本中的所述第二阶段及其后阶段的至少一个阶段的代码本包括存储多个分离矢量的分离矢量代码本,在所述分离矢量中,所述代码矢量的维数被分割为多个,
对应所述至少一个阶段的所述代码本的所述比例系数代码本包括:用于对所述多个分离矢量代码本提供的所述各分离矢量的多个比例系数代码本,和用于各分离矢量的各比例系数,其中,用于所述各分离矢量的所述各比例系数代码本的每个代码矢量对于所述第一阶段的所述代码本的每个所述代码矢量预先求得,其中所述步骤(b)包括步骤:
读出用于与在所述第一阶段的所述代码本选择的所述矢量的所述索引一致的分离矢量的比例系数,,并且将所述读出的比例系数分别乘以从所述至少一个阶段的所述多个分离矢量代码本分别选择的各分离矢量;以及
集成通过所述相乘得到的各分离矢量,从而输出各集成结果作为所述各阶段的所述各代码本的输出矢量。
9.根据权利要求1的编码方法,所述矢量代码本包括:多个分离矢量代码本,其中所述代码矢量的维数被分割为多个,以及集成部件,用于集成从所述各分离矢量代码本输出的各分离矢量,从而输出结果作为一个代码矢量,包括显示所述实质上平坦的谱包络的所述声学参数矢量的所述分量的所述矢量作为分离矢量被分开存储在所述多个分离矢量代码本的每个中。
10.根据权利要求1的编码方法,包括显示所述实质上平坦的谱包络的所述声学参数矢量的所述分量的所述矢量,是通过从表示所述线性预测系数的所述声学参数矢量中减去所述平均矢量产生的矢量,并且所述步骤(b)包括步骤:将所述加权矢量加到相当于在预先求得的所述声信号的整体中的所述线性预测系数的参数的平均矢量,从而产生包括所述加权矢量的所述分量的所述矢量。
11.根据权利要求1的编码方法,相当于所述线性预测系数的所述参数构成LSP参数。
12.一种声学参数解码方法,包括:
(a)步骤,用于输出对应由来自矢量代码本和系数代码本的为每一帧输入的代码和一组权重系数表示的索引的代码矢量,所述矢量代码本存储与表示所述代码矢量的索引一致的相当于显示声信号的谱包络特性的线性预测系数的声学参数的多个代码矢量,所述系数代码本存储一或多组与表示所述各组的索引一致的权重系数;以及
(b)步骤,用于将在最近的过去的至少一帧中从所述矢量代码本输出的代码矢量和当前帧中从所述矢量代码本输出的代码矢量分别乘以所述输出的所述权重系数组,并且将相乘的各结果加起来以产生加权矢量,其中将包括所述加权矢量的分量的矢量输出作为该当前帧的解码量化矢量;
其中所述矢量代码本包括具有声学参数矢量的分量的矢量作为存储在其中的所述代码矢量之一,该声学参数矢量显示实质上平坦的谱包络。
13.根据权利要求12的解码方法,所述矢量代码本包括多阶段的代码本,其每个存储多个与表示所述各矢量的索引一致的矢量,多阶段的所述代码本的一个阶段的一个代码本存储包括显示所述实质上平坦的谱包络的所述声学参数矢量的所述分量的所述矢量,所述其它阶段的各代码本存储各零矢量作为所述矢量之一,并且所述步骤(b)包括步骤:分别输出由表示为来自所述多阶段的所述各代码本的所述输入代码的所述索引指定的各矢量,其中将所述各输出矢量相加,并将相加结果输出作为所述当前帧中的代码矢量。
14.根据权利要求12的解码方法,所述矢量代码本包括多阶段的代码本,其每个存储多个与表示所述各矢量的索引一致的矢量,多阶段的所述代码本的一个阶段的一个代码本存储包括显示所述实质上平坦的谱包络的所述声学参数矢量的所述分量的所述矢量作为所述矢量之一,所述步骤(b)包括步骤:当从所述多阶段的所述代码本的所述一个阶段的所述代码本选择不同于包括显示所述实质上平坦的谱包络的所述声学参数矢量的所述分量的所述矢量的代码矢量时,分别从所述多阶段的所述代码本选择矢量,以及将所述选择的矢量加在一起,从而输出相加结果作为在所述当前帧中选择的所述代码矢量,其中如果从所述一个阶段的所述代码本选择包括显示所述实质上平坦的谱包络的所述声学参数矢量的所述分量的所述矢量,将包括显示所述实质上平坦的谱包络的所述声学参数矢量的所述分量的所述矢量输出作为所述当前帧的所述矢量。
15.根据权利要求13或14的解码方法,所述多阶段的所述代码本的至少一个所述阶段的代码本包括:多个分离矢量代码本,用于分开地存储其中将代码矢量的维数分割为多个的多个分离矢量;以及集成部件,用于集成从所述多个分离矢量代码本输出的所述分离矢量,从而将其输出为所述相应阶段的所述代码本的输出矢量。
16.根据权利要求13或14的解码方法,包括相当于所述线性预测系数的所述参数矢量的所述分量的所述矢量,是从相当于所述线性预测系数的所述参数矢量减去相当于预先得到的整体语音信号中所述线性预测系数的参数的平均矢量而产生的矢量。
17.根据权利要求12的解码方法,所述矢量代码本包括每个存储多个代码矢量的多阶段的代码本,和对第二阶段和该第二阶段后的各阶段的所述各代码本分别提供的比例系数代码本,每个所述比例系数代码本存储与第一阶段的代码本的各代码矢量一致的预先确定的各比例系数,
所述多阶段的所述代码本的所述一个阶段的一个代码本存储包括显示所述实质上平坦的谱的所述声学参数矢量的所述分量的所述矢量作为所述存储的矢量之一,所述剩余阶段的每个其它代码本存储零矢量,
其中所述步骤(b)包括步骤:
从所述第二阶段及其后阶段的所述比例代码本读出与所述第一阶段选择的代码矢量一致的比例系数,并且将在所述第一阶段选择的所述代码矢量乘以每个所述选择的代码矢量,从而输出相乘结果作为所述各阶段的矢量;以及
将所述各阶段的所述输出矢量加在所述第一阶段的所述矢量上,从而输出相加结果作为来自所述矢量代码本的代码矢量。
18.根据权利要求17的解码方法,所述多阶段的所述代码本中的所述第二阶段及其后阶段的至少一个阶段的代码本包括分开存储多个分离矢量的分离矢量代码本,在所述分离矢量中,所述代码矢量的维数被分割为多个,
对应所述至少一个阶段的所述代码本的所述比例系数代码本包括:用于对所述多个分离矢量代码本提供所述各分离矢量的多个比例系数代码本,用于分离矢量的所述比例系数代码本存储多个与所述第一阶段的所述代码本的所述各代码矢量一致的用于分离矢量的比例系数,
其中所述步骤(b)包括步骤:
读出用于分离矢量的与所述第一阶段的所述代码本选择的所述矢量的所述索引一致的比例系数,并且将所述读出的比例系数分别乘以从所述至少一个阶段的所述多个分离矢量代码本分别选择的各分离矢量,以及
集成通过所述相乘得到的各分离矢量,从而输出各集成结果作为所述各阶段的所述各代码本的各输出矢量。
19.根据权利要求12的解码方法,所述矢量代码本包括:其中所述代码矢量的维数被分割为多个的多个分离矢量代码本,以及集成部件,用于集成从所述各分离矢量代码本输出的各分离矢量,从而输出结果作为一个代码矢量,
包括显示所述实质上平坦的谱包络的所述声学参数矢量的所述分量的所述矢量被分割为分离矢量,以分开存储在所述多个分离矢量代码本的每个中作为分离矢量。
20.根据权利要求12的解码方法,包括显示所述实质上平坦的谱包络的所述声学参数矢量的所述分量的所述矢量,是通过从表示所述线性预测系数的所述声学参数矢量中减去所述平均矢量而预先产生的,并且所述步骤(b)包括步骤:将所述加权矢量与相当于在预先求得的所述声信号的整体中的所述线性预测系数的参数的平均矢量加到一起,从而产生包括所述加权矢量的所述分量的所述矢量。
21.根据权利要求12的解码方法,其中相当于所述线性预测系数的所述参数构成LSP参数。
22.一种声学参数编码设备,包括:
参数计算装置,用于对每一帧分析输入声信号,并计算相当于线性预测系数的声学参数,所述线性预测系数显示所述声信号的谱包络特性;
矢量代码本,用于存储多个与表示所述各矢量的索引一致的代码矢量;
系数代码本,用于存储一或多组与表示所述各系数的索引一致的权重系数;
量化参数生成装置,用于将从所述矢量代码本输出的关于当前帧的代码矢量和在最近的过去的至少一帧中输出的代码矢量分别乘以从所述系数代码本选择的所述组的所述权重系数,所述量化参数生成装置将各结果加在一起,从而产生加权矢量,所述量化参数生成装置输出包括所述产生的加权矢量的分量的矢量作为关于该当前帧的所述声学参数的侯选量化声学参数;
失真计算部件,用于计算关于在所述参数计算装置计算的所述声学参数的所述量化声学参数的失真;以及
代码本搜索控制部件,用于通过使用所述失真变小的规范、确定所述矢量代码本的所述代码矢量和所述系数代码本的所述组的所述权重系数,所述代码本搜索控制部件输出分别表示所述确定的代码矢量和所述组的所述权重系数的各索引作为所述声学参数的各代码;
其中所述矢量代码本包括具有显示实质上平坦的谱包络的声学参数矢量的分量的矢量。
23.根据权利要求22的编码设备,所述矢量代码本包括:多阶段的代码本,其每个存储多个与表示所述各矢量的索引一致的矢量;和加法器,用于将从所述多阶段的所述代码本输出的所述各矢量相加,从而输出所述代码矢量,
所述多阶段的所述代码本的一个阶段的一个代码本存储包括显示所述实质上平坦的谱包络的所述声学参数矢量的所述分量的所述矢量,而所述其它阶段的其它代码本存储零矢量作为所述代码矢量之一。
24.根据权利要求23的编码设备,所述多阶段的所述代码本中的至少一个阶段的所述代码本包括:多个分离矢量代码本,用于分开地存储与表示所述各分离矢量的所述索引一致的在其中将所述代码矢量的维数分割为多个的多个分离矢量,以及集成部件,用于集成从所述多个所述分离矢量代码本输出的所述各分离矢量,从而作为所述阶段的所述代码本的输出矢量输出结果。
25.根据权利要求22的编码设备,所述矢量代码本包括:
多阶段的代码本,每个存储多个与表示所述各矢量的索引一致的代码矢量;
在所述第二阶段及其后阶段的各代码本提供的比例系数代码本,存储通过对应所述第一阶段的所述代码本的所述各代码矢量而预先确定的与表示所述各系数的索引一致的各比例系数;
乘法装置,用于从关于所述第二及其后阶段的所述代码本的所述比例代码本读出对应比例系数,所述乘法装置将在所述第一阶段选择的所述代码矢量乘以从所述第二及其后阶段的所述各代码本分别选择的所述代码矢量,从而输出各相乘结果作为所述各阶段的各矢量;以及
加法器,用于将从所述乘法装置输出的所述各阶段的各矢量加在所述第一阶段的所述矢量上,所述加法器输出相加结果作为来自所述矢量代码本的所述代码矢量;
其中所述多阶段的所述代码本的一个阶段的一个代码本存储包括显示所述实质上平坦的谱包络的所述声学参数矢量的所述分量的所述矢量,所述剩余阶段的代码本存储零矢量。
26.根据权利要求25的编码设备,所述多阶段的所述代码本中的所述第二及其后阶段的至少一个阶段的代码本包括分开存储多个分离矢量的多个分离矢量代码本,在所述分离矢量中,所述代码矢量的维数被分割为多个,
其中对应所述至少一个阶段的所述代码本的所述比例系数代码本包括:
用于分离矢量的多个比例系数代码本,存储多个与所述第一阶段的所述各代码矢量一致的用于分离矢量的比例系数,提供多个该分离矢量以对应所述多个所述分离矢量代码本;
乘法装置,用于通过从用于分离矢量的所述各比例系数代码本读出所述比例系数,将从所述至少一个阶段的所述多个分离矢量代码本分别输出的各分离矢量分别乘以用于分离矢量的所述比例系数,所述比例系数对应在所述第一阶段的所述代码本选择的所述矢量的所述索引;以及
集成部件,用于集成各相乘结果,从而输出结果作为所述对应阶段的所述代码本的输出矢量。
27.根据权利要求22的编码设备,所述矢量代码本包括:多个分离矢量代码本,用于分开存储其中所述代码矢量的维数被分割为多个的多个分离矢量,和集成部件,用于集成从所述各分离矢量代码本输出的各分离矢量,并输出结果作为一个代码矢量;以及
包括显示所述实质上平坦的谱包络的所述声学参数矢量的所述分量的所述矢量被分割为分离矢量,以逐个存储为在所述多个所述分离矢量代码本中的所述各分离矢量。
28.一种声学参数解码设备,包括:
矢量代码本,用于存储与表示所述各矢量的索引一致的相当于线性预测系数的声学参数的多个代码矢量,所述线性预测系数显示声信号的谱包络特性,
系数代码本,用于存储一或多组与表示所述各权重系数的索引一致的权重系数,以及
量化参数生成装置,用于从所述矢量代码本输出与显示为每一帧输入的代码的索引一致的一个代码矢量,从而从所述系数代码本输出一组权重系数,所述量化参数生成装置将在当前帧中输出的所述代码矢量和在所述最近的过去的至少一帧中输出的代码矢量分别乘以在所述当前帧中输出的所述组的所述权重系数,所述量化参数生成装置将各相乘结果加在一起,从而产生加权矢量,所述量化参数生成装置输出包括所述产生的加权矢量的分量的矢量作为所述当前帧的解码的量化声学参数;
其中所述矢量代码本存储包括显示实质上平坦的谱包络的声学参数的分量的矢量作为所述代码矢量之一。
29.根据权利要求28的解码设备,所述矢量代码本包括:多阶段的代码本,其每个存储多个与表示所述多个矢量的索引一致的矢量;和加法器,用于将从所述多阶段的所述代码本输出的所述各矢量相加,从而输出代码矢量,和
所述多阶段的所述代码本的一个阶段的一个代码本存储包括显示所述实质上平坦的谱包络的所述声学参数矢量的所述分量的所述矢量作为所述矢量之一,而其它各阶段的各代码本存储零矢量作为所述代码矢量之一。
30.根据权利要求29的解码设备,所述多阶段的所述代码本中的至少一个阶段的所述代码本包括:多个分离矢量代码本,用于分开地存储在其中将所述代码矢量的维数分割为多个的多个分离矢量,以及集成部件,用于集成从所述多个分离矢量代码本输出的各分离矢量,从而作为对应阶段的代码本的输出矢量输出结果。
31.根据权利要求28的解码设备,所述矢量代码本包括:
多阶段的代码本,每个存储多个与表示所述各代码矢量的索引一致的代码矢量;
对第二及其后阶段的各代码本提供的比例代码本,存储通过第一阶段的所述代码本的各代码矢量而预先确定与表示所述各比例系数的索引一致的各比例系数;
乘法装置,用于从关于所述第二及其后阶段的所述代码本的所述比例代码本读出对应比例系数以对应在所述第一阶段选择的所述代码矢量,所述乘法装置将从所述第二及其后阶段的所述各代码本分别选择的所述各代码矢量乘以所述读出的比例系数,从而输出各相乘结果作为所述各阶段的各矢量;和
加法器,用于将从所述乘法装置输出的所述各阶段的所述各输出矢量加在所述第一阶段的所述矢量上,从而输出相加结果作为来自所述矢量代码本的代码矢量;
其中所述多阶段的所述代码本中的一个阶段的一个代码本存储包括显示所述实质上平坦的谱包络的所述声学参数矢量的所述分量的所述矢量,而所述剩余阶段的各代码本存储零矢量。
32.根据权利要求31的解码设备,所述多阶段的所述代码本中的所述第二及其后阶段的至少一个阶段的代码本包括分开存储多个分离矢量的多个分离代码本,在所述分离矢量中,所述代码矢量的维数被分割为多个,以及
对应所述至少一个阶段的所述代码本的所述比例系数代码本包括:
用于分离矢量的多个比例系数代码本,存储多个用于分离矢量的比例系数以分别对应所述第一阶段中的各代码矢量,提供多个该分离矢量以对应所述多个分离矢量代码本;
乘法装置,用于从用于所述分离矢量的所述各比例系数代码本读出对应在所述第一阶段的所述代码本选择的所述矢量的索引的分离矢量的各比例系数,所述乘法装置将从所述至少一个阶段的所述多个分离矢量代码本分别输出的各分离矢量分别乘以用于分离矢量的所述各比例系数;以及
集成部件,用于集成各相乘结果,并输出结果作为对应阶段的代码本的输出矢量。
33.根据权利要求28的解码设备,所述矢量代码本包括:多个分离矢量代码本,用于分开存储其中代码矢量的维数被分割为多个的多个分离矢量,和集成部件,用于集成从所述各分离矢量代码本输出的各分离矢量,从而输出结果为一个代码矢量,其中:
包括显示所述实质上平坦的谱包络的所述声学参数矢量的所述分量的所述矢量被分割为分离矢量,每个分离矢量分开存储在所述多个矢量代码本的每个中。
34.一种用于编码输入声信号的声信号编码设备,包括:
用于通过使用根据权利要求1的声学参数编码方法,对输入声信号的谱特性进行编码的装置;
自适应代码本,用于在其中保持显示所述输入声信号的各周期分量的各自适应代码矢量;
固定代码本,用于在其中存储多个固定矢量;
过滤装置,用于输入根据来自所述自适应代码本的所述自适应代码矢量和来自所述固定代码本的所述固定矢量产生的声源矢量作为激励信号,所述过滤装置通过使用基于所述量化声学参数的过滤系数,合成合成的声信号;以及
用于确定从所述固定代码本和所述自适应代码本分别选择的自适应代码矢量和固定代码矢量的装置,使得所述合成的声信号对所述输入声信号的失真变小,所述装置输出自适应代码和固定代码分别对应于所述确定的自适应代码矢量和所述固定矢量。
35.一种用于解码输入代码和输出声信号的声信号解码设备,包括:
用于通过使用根据权利要求12的声学参数解码方法,从输入代码解码声学参数的装置,所述声学参数相当于显示谱包络特性的线性预测系数;
固定代码本,用于在其中存储多个固定矢量;
自适应代码本,用于在其中保持显示合成声信号的各周期分量的各自适应代码矢量;
用于通过输入的自适应代码和输入的固定代码,从所述固定代码本取出对应固定矢量和从所述自适应代码本取出对应自适应代码矢量的装置,所述装置合成所述各矢量并产生激励矢量;以及
过滤装置,用于根据所述声学参数设置过滤系数并通过所述激励矢量再现声信号。
36.一种用于编码输入声信号的声信号编码方法,包括:
(A)步骤,用于通过使用根据权利要求1的声学参数编码方法,对输入声信号的谱特性进行编码;
(B)步骤,用于使用根据来自自适应代码本的自适应代码矢量和来自固定代码本的固定矢量产生的声源矢量作为激励信号,通过基于所述量化声学参数的过滤系数,执行合成过滤处理,从而产生合成声信号,所述自适应代码本用于在其中保持显示输入声信号的各周期分量的各自适应代码矢量,所述固定代码本用于在其中存储多个固定矢量;以及
(C)步骤,用于确定从所述固定代码本和所述自适应代码本选择的自适应代码矢量和固定矢量,使得所述合成的声信号对所述输入声信号的失真变小,并且输出自适应代码和固定代码分别对应所述确定的自适应代码矢量和所述固定矢量。
37.一种用于解码各输入代码和输出声信号的声信号解码方法,包括:
(A)步骤,用于通过使用根据权利要求12的声学参数解码方法,从各输入代码解码相当于显示谱包络特性的线性预测系数的声学参数;
(B)步骤,用于通过所述各输入代码中的自适应代码和固定代码,从自适应代码本取出对应自适应代码矢量,从固定代码本取出对应固定矢量,并合成所述自适应代码矢量和所述固定矢量,从而产生激励矢量,所述自适应代码本用于在其中保持显示输入声信号的各周期分量的各自适应代码矢量,所述固定代码本用于在其中存储多个固定矢量;以及
(C)步骤,用于通过使用根据所述声学参数的过滤系数执行所述激励矢量的合成过滤处理,并再现合成的声信号。
38.一种程序,用于由计算机执行根据权利要求1至11的任何一个的声学参数编码方法。
39.一种程序,用于由计算机执行根据权利要求12至21的任何一个所述的声学参数解码方法。
40.一种声信号发送设备,包括:
声学输入设备,用于将声信号转换为电信号;
A/D转换器,用于将从所述声学输入设备输出的所述信号转换为数字信号;
根据权利要求34的声信号解码设备,用于解码从所述加转换器输出的所述数字信号;
RF调制器,用于对从所述声信号编码设备输出的编码的信息进行调制处理等;以及
发送天线,用于将从所述RF调制器输出的所述信号转换为无线电波并将其发送。
41.一种声信号接收设备,包括:
接收天线,用于接收接收无线电波;
RF解调器,用于对由所述接收天线接收的所述信号进行解调处理;
根据权利要求35的声信号解码设备,用于对通过所述RF解调器得到的信息进行解码处理;
D/A转换器,用于转换由所述声信号解码设备解码的数字声信号;以及声信号输出设备,用于将由所述D/A转换器输出的电信号转换为声信号。
CNB018218296A 2000-11-27 2001-11-27 编码和解码语音及其参数的方法、编码器、解码器 Expired - Fee Related CN1202514C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP359311/2000 2000-11-27
JP2000359311 2000-11-27

Publications (2)

Publication Number Publication Date
CN1486486A true CN1486486A (zh) 2004-03-31
CN1202514C CN1202514C (zh) 2005-05-18

Family

ID=18831092

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB018218296A Expired - Fee Related CN1202514C (zh) 2000-11-27 2001-11-27 编码和解码语音及其参数的方法、编码器、解码器

Country Status (9)

Country Link
US (1) US7065338B2 (zh)
EP (1) EP1353323B1 (zh)
KR (1) KR100566713B1 (zh)
CN (1) CN1202514C (zh)
AU (1) AU2002224116A1 (zh)
CA (1) CA2430111C (zh)
CZ (1) CZ304212B6 (zh)
DE (1) DE60126149T8 (zh)
WO (1) WO2002043052A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103401658A (zh) * 2006-07-14 2013-11-20 诺基亚公司 数据处理方法、数据传输方法、数据接收方法、设备、代码本、计算机程序产品以及计算机程序分发介质
CN103474075A (zh) * 2013-08-19 2013-12-25 安徽科大讯飞信息科技股份有限公司 语音信号发送方法及***、接收方法及***
CN105431902A (zh) * 2013-06-10 2016-03-23 弗朗霍夫应用科学研究促进协会 用于通过应用分布量化和编码建模累积和表示的音频信号包络编码、处理和解码的装置和方法
CN107210042A (zh) * 2015-01-30 2017-09-26 日本电信电话株式会社 编码装置、解码装置、它们的方法、程序以及记录介质
CN110415714A (zh) * 2014-01-24 2019-11-05 日本电信电话株式会社 线性预测分析装置、方法、程序以及记录介质

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7315815B1 (en) * 1999-09-22 2008-01-01 Microsoft Corporation LPC-harmonic vocoder with superframe structure
KR100527002B1 (ko) * 2003-02-26 2005-11-08 한국전자통신연구원 음성 신호의 에너지 분포 특성을 고려한 쉐이핑 장치 및 방법
US7463172B2 (en) * 2004-03-03 2008-12-09 Japan Science And Technology Agency Signal processing device and method, signal processing program, and recording medium where the program is recorded
US7668712B2 (en) * 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
JPWO2007129726A1 (ja) * 2006-05-10 2009-09-17 パナソニック株式会社 音声符号化装置及び音声符号化方法
US20090198491A1 (en) * 2006-05-12 2009-08-06 Panasonic Corporation Lsp vector quantization apparatus, lsp vector inverse-quantization apparatus, and their methods
US8036767B2 (en) * 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
US8055192B2 (en) * 2007-06-25 2011-11-08 Samsung Electronics Co., Ltd. Method of feeding back channel information and receiver for feeding back channel information
CN101335004B (zh) * 2007-11-02 2010-04-21 华为技术有限公司 一种多级量化的方法及装置
CN100578619C (zh) * 2007-11-05 2010-01-06 华为技术有限公司 编码方法和编码器
US20090123523A1 (en) * 2007-11-13 2009-05-14 G. Coopersmith Llc Pharmaceutical delivery system
US20090129605A1 (en) * 2007-11-15 2009-05-21 Sony Ericsson Mobile Communications Ab Apparatus and methods for augmenting a musical instrument using a mobile terminal
EP2246845A1 (en) * 2009-04-21 2010-11-03 Siemens Medical Instruments Pte. Ltd. Method and acoustic signal processing device for estimating linear predictive coding coefficients
KR101387195B1 (ko) * 2009-10-05 2014-04-21 하만인터내셔날인더스트리스인코포레이티드 오디오 신호의 공간 추출 시스템
CN102623012B (zh) 2011-01-26 2014-08-20 华为技术有限公司 矢量联合编解码方法及编解码器
US9407631B1 (en) * 2013-12-31 2016-08-02 Emc Corporation Multi-server passcode verification for one-time authentication tokens with auxiliary channel compatibility
US9454654B1 (en) * 2013-12-31 2016-09-27 Emc Corporation Multi-server one-time passcode verification on respective high order and low order passcode portions
US9432360B1 (en) * 2013-12-31 2016-08-30 Emc Corporation Security-aware split-server passcode verification for one-time authentication tokens
US9602127B1 (en) * 2016-02-11 2017-03-21 Intel Corporation Devices and methods for pyramid stream encoding
CN113593527B (zh) * 2021-08-02 2024-02-20 北京有竹居网络技术有限公司 一种生成声学特征、语音模型训练、语音识别方法及装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4896361A (en) * 1988-01-07 1990-01-23 Motorola, Inc. Digital speech coder having improved vector excitation source
JPH0451199A (ja) * 1990-06-18 1992-02-19 Fujitsu Ltd 音声符号化・復号化方式
US5323486A (en) * 1990-09-14 1994-06-21 Fujitsu Limited Speech coding system having codebook storing differential vectors between each two adjoining code vectors
US5271089A (en) * 1990-11-02 1993-12-14 Nec Corporation Speech parameter encoding method capable of transmitting a spectrum parameter at a reduced number of bits
JP3151874B2 (ja) * 1991-02-26 2001-04-03 日本電気株式会社 音声パラメータ符号化方式および装置
JP3194481B2 (ja) 1991-10-22 2001-07-30 日本電信電話株式会社 音声符号化法
US5396576A (en) * 1991-05-22 1995-03-07 Nippon Telegraph And Telephone Corporation Speech coding and decoding methods using adaptive and random code books
JPH0573097A (ja) 1991-09-17 1993-03-26 Nippon Telegr & Teleph Corp <Ntt> 低遅延符号駆動形予測符号化方法
JP2853824B2 (ja) 1992-10-02 1999-02-03 日本電信電話株式会社 音声のパラメータ情報符号化法
JP3148778B2 (ja) 1993-03-29 2001-03-26 日本電信電話株式会社 音声の符号化方法
US5717824A (en) 1992-08-07 1998-02-10 Pacific Communication Sciences, Inc. Adaptive speech coder having code excited linear predictor with multiple codebook searches
US5457783A (en) * 1992-08-07 1995-10-10 Pacific Communication Sciences, Inc. Adaptive speech coder having code excited linear prediction
JP3255189B2 (ja) 1992-12-01 2002-02-12 日本電信電話株式会社 音声パラメータの符号化方法および復号方法
SG43128A1 (en) * 1993-06-10 1997-10-17 Oki Electric Ind Co Ltd Code excitation linear predictive (celp) encoder and decoder
JP3224955B2 (ja) 1994-05-27 2001-11-05 株式会社東芝 ベクトル量子化装置およびベクトル量子化方法
EP0788091A3 (en) * 1996-01-31 1999-02-24 Kabushiki Kaisha Toshiba Speech encoding and decoding method and apparatus therefor
KR100900113B1 (ko) 1997-10-22 2009-06-01 파나소닉 주식회사 확산 펄스 벡터 생성 장치 및 방법
JP3175667B2 (ja) 1997-10-28 2001-06-11 松下電器産業株式会社 ベクトル量子化法
US6240386B1 (en) 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
DE69943018D1 (de) * 1998-10-09 2011-01-20 Sony Corp Lernvorrichtung und -verfahren, erkennungsvorrichtung und verfahren, und aufnahme-medium

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103401658A (zh) * 2006-07-14 2013-11-20 诺基亚公司 数据处理方法、数据传输方法、数据接收方法、设备、代码本、计算机程序产品以及计算机程序分发介质
CN103401658B (zh) * 2006-07-14 2017-09-15 诺基亚技术有限公司 数据处理方法、数据传输方法、数据接收方法、设备、代码本、计算机程序产品以及计算机程序分发介质
CN105431902A (zh) * 2013-06-10 2016-03-23 弗朗霍夫应用科学研究促进协会 用于通过应用分布量化和编码建模累积和表示的音频信号包络编码、处理和解码的装置和方法
CN105431902B (zh) * 2013-06-10 2020-03-31 弗朗霍夫应用科学研究促进协会 用于音频信号包络编码、处理和解码的装置和方法
US10734008B2 (en) 2013-06-10 2020-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for audio signal envelope encoding, processing, and decoding by modelling a cumulative sum representation employing distribution quantization and coding
CN103474075A (zh) * 2013-08-19 2013-12-25 安徽科大讯飞信息科技股份有限公司 语音信号发送方法及***、接收方法及***
CN103474075B (zh) * 2013-08-19 2016-12-28 科大讯飞股份有限公司 语音信号发送方法及***、接收方法及***
CN110415714A (zh) * 2014-01-24 2019-11-05 日本电信电话株式会社 线性预测分析装置、方法、程序以及记录介质
CN110415714B (zh) * 2014-01-24 2022-11-25 日本电信电话株式会社 线性预测分析装置、线性预测分析方法以及记录介质
CN107210042A (zh) * 2015-01-30 2017-09-26 日本电信电话株式会社 编码装置、解码装置、它们的方法、程序以及记录介质

Also Published As

Publication number Publication date
KR20030062354A (ko) 2003-07-23
AU2002224116A1 (en) 2002-06-03
CN1202514C (zh) 2005-05-18
EP1353323A1 (en) 2003-10-15
US20040023677A1 (en) 2004-02-05
DE60126149T8 (de) 2008-01-31
EP1353323A4 (en) 2005-06-08
CA2430111C (en) 2009-02-24
CZ20031465A3 (cs) 2003-08-13
US7065338B2 (en) 2006-06-20
DE60126149D1 (de) 2007-03-08
DE60126149T2 (de) 2007-10-18
CZ304212B6 (cs) 2014-01-08
WO2002043052A1 (en) 2002-05-30
CA2430111A1 (en) 2002-05-30
EP1353323B1 (en) 2007-01-17
KR100566713B1 (ko) 2006-04-03

Similar Documents

Publication Publication Date Title
CN1202514C (zh) 编码和解码语音及其参数的方法、编码器、解码器
CN1264138C (zh) 复制语音信号、解码语音、合成语音的方法和装置
CN1158648C (zh) 语音可变速率编码方法与设备
CN1096148C (zh) 信号编码方法和装置
CN1200403C (zh) 线性预测编码参数的矢量量化装置
CN1252681C (zh) 一种码激励线性预测语音编码器的增益量化
CN1689069A (zh) 声音编码设备和声音编码方法
CN1161751C (zh) 语音分析方法和语音编码方法及其装置
CN1097396C (zh) 声音编码装置和方法
CN1507618A (zh) 编码设备和解码设备
CN1156872A (zh) 语音编码的方法和装置
CN1795495A (zh) 音频编码设备、音频解码设备、音频编码方法和音频解码方法
CN1155725A (zh) 语音编码方法和装置
CN101057275A (zh) 矢量变换装置以及矢量变换方法
CN1161750C (zh) 语音编码译码方法和装置、电话装置、音调变换方法和介质
CN1174457A (zh) 语音信号传输方法及语音编码和解码***
CN1293535C (zh) 声音编码设备和方法以及声音解码设备和方法
CN1282952A (zh) 语音编码方法和装置,输入信号判别方法,语音解码方法和装置以及程序提供介质
CN1849648A (zh) 编码装置和译码装置
CN1751338A (zh) 用于语音编码的方法和设备
CN107945813B (zh) 解码方法、解码装置、和计算机可读取的记录介质
CN1841499A (zh) 代码转换装置和方法
JPH04344699A (ja) 音声符号化・復号化方法
CN1475988A (zh) 声音编码装置和声音译码装置
CN1664930A (zh) 音调周期搜索范围设置装置和音调周期搜索装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20050518

Termination date: 20141127

EXPY Termination of patent right or utility model