CN1145512A - 再现语音信号的方法和装置以及传输该信号的方法 - Google Patents

再现语音信号的方法和装置以及传输该信号的方法 Download PDF

Info

Publication number
CN1145512A
CN1145512A CN96111042A CN96111042A CN1145512A CN 1145512 A CN1145512 A CN 1145512A CN 96111042 A CN96111042 A CN 96111042A CN 96111042 A CN96111042 A CN 96111042A CN 1145512 A CN1145512 A CN 1145512A
Authority
CN
China
Prior art keywords
coding parameter
parameter
voice
input speech
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN96111042A
Other languages
English (en)
Other versions
CN1154976C (zh
Inventor
西口正之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN1145512A publication Critical patent/CN1145512A/zh
Application granted granted Critical
Publication of CN1154976C publication Critical patent/CN1154976C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0012Smoothing of parameters of the decoder interpolation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Telephone Function (AREA)

Abstract

一编码单元2将在输入端10输入的语音信号分成格并将根据格分离的信号进行编码以输出编码参数,如线谱对,(Lsp)参数,波距,语音的(V)/非语音的(UV)或频谱幅值Am。修正编码参数运算单元3对编码参数插值,以计算出与所要求时点相关的修正编码系数。解码单元6根据修正编码参数合成正弦波和杂波并在输出端37输出合成语音信号。速度控制可在较宽范围以任意速率在保持语音和波距不变的情况下容易地实现并具有高质量语音。

Description

再现语音信号的方法和装 置以及传输该信号的方法
本发明涉及一种再现语音信号的方法及其装置,在该装置中将输入的语音信号分成多格单元并编码以确定编码参数,根据该参数至少可以合成正弦波以再现该语音信号。本发明还涉及一种用于传递由对编码参数插值获得的修正编码参数的方法。
目前已经有了多种压缩信号的编码方法,这些方法是利用声频信号的时域和频域中的统计特性及人听觉***的心理声学特性来实现的,声频信号包括语音信号及声信号。这些编码方法大致分为时域编码,频域编码及分解/合成编码。
同时,随着在时间轴处理信号的高效语音编码方法的发展,如激励线性预测(CELP),由于大量信号输出操作由解码器实现,因此在时间轴的速度转换方面遇到了困难。
另外,上述方法不能用于如波距速率的转换,因为速度控制是在解码线性范围内实现的。
如前所述,本发明的目的是提供一种重现语音信号的方法和装置以及传输该语音信号的方法,其大范围内任意变化率的速度控制可在音素和波距保持不变的情况下高质方便地实现。
一方面,本发明提供了一种再现输入语音信号的方法,该方法基于通过在时间轴上根据预设定的格分离输入的语音信号获得编码参数,包括如下步骤:对编码参数插值处理以获得与所要求的时点相关联的修正编码参数;在修正编码参数基础上产生一个与输入的语音信号不同速率的修正语音信号。这样在大范围内任意变化率的速度控制就可以在语音和波距保持不变的情况下方便地实现并获得高质的语音信号。
另一方面,本发明提供了一种重现语音信号的装置,该装置中,基于通过在时间轴预设定的格分离输入的语音信号并对该分离的输入语音信号根据格进行编码以获得编码参数,而还原输入的语言信号,包括对编码参数插值以确定与所要求时点相关的修正编码参数的插值装置以及用于根据修正编码参数由输入语音信号产生不同速率的修正语音信号的语音信号发生装置。这样可对传输比特速率进行调节。在很宽范围内任意变化率的速度控制就可在保持语音和波距不变的情况下方便地实现并获得高质的语音信号。
此外,本发明提供一种传输语音信号的方法,该方法通过在时轴上根据预定的格单元分解输入语音信号并对根据从该格分解的输入语音信号进行编码来获得编码参数。该编码参数再经插值而得到与所要求的时点相关的修正编码参数,这些修正编码参数再经传输,这样传输比特率可调。
通过在时轴上根据预定的格将输入语音信号分解并对该以格分解的信号进行编码以确定编码参数,对编码参数插值以确定修正编码参数以及根据修正编码参数至少合成正弦波以重现语音信号,这样,速度控制可在任意速率实现。
图1为本发明第一实施例语音信号重现装置的结构的简要框图。
图2为图1所示语音信号重现装置结构简要框图。
图3为图1所示语音信号重现装置的编码器框图。
图4是作为编码器的谐波/杂波编码回路原理示例的多频带激励(MBE)分析回路的结构框图。
图5表示矢量量化器的结构。
图6是语音、非语音和语音及非语音集合的输入平均值X的曲线图。
图7为语音、非语音和语音及非语音集合的加权平均值W′/‖X‖的曲线图。
图8为语音、非语音和语音及非语音集合的矢量量化译码本排列方式的曲线图。
图9为图1所示语音信号重现装置中修正编码参数运算回路的简要操作流程图。
图10为时轴上由修正参数运算回路获得修正编码参数的简要示意图。
图11为图1所示语音信号重现装置中修正参数运算回路详细操作的流程图。
图12A、12B、12C是修正参数运算回路操作原理示意简图。
图13A、13B、13C是修正编码参数运算回路另一种操作原理示意简图。
图14是语音信号重现装置中解码器的工作回路简要框图。
图15是上述解码器中作为谐波/杂波示例的一多频段激励(MBE)分析回路结构的框图。
图16为本发明第二实施例语音信号传输装置简要框图。
图17为上述语音信号传输装置传输过程操作的流程图。
图18A、18B、18C是语音信号传输操作的示意图。
参照附图对本发明的语音信号重现方法和装置以及语音信号传输方法的最佳实施例进行详细说明。
首先说明语音信号重现装置,其中包括语音信号重现方法和装置。图1所示为一语音信号重现装置的结构,该装置中将输入的语音信号根据在时轴上预定的格单元进行分解,并根据该格编码以确定编码参数,根据这些编码参数对正弦波和杂波进行合成,以重现语音信号。
特别地,由上述语音信号装置1对编码参数进行插值,以获得与所要求的时点相关联的编码修正参数,该正弦波和杂波根据修正编码参数进行合成。尽管正弦波和杂波根据修正编码参数合成,但亦有可能至少合成正弦波。
具体地说,声频信号重现装置1包括一编码单元2,用于将进入输入端10的语音信号分离成格单元,并将基于该格的语音信号进行编码以输出编码参数,输出编码参数如线谱对(LSP)参数,波距,语音的(V)/非语音的(UV)或频谱幅值Am。声频信号重现装置1还包括运算单元3,用于对编码参数插值以获得与所要求的时点相关的修正编码参数;还包括一解码单元6,用于根据修正编码参数合成正弦波和杂波,以在输出端37输出合成的语音参数。该编码单元2、用于运算修正编码参数的运算单元3以及解码单元6,由控制器进行控制,该控制器在图中未表示。
语音信号重现装置1中用于运算修正编码参数的运算单元3包括一周期修正回路4,用于压缩/延长由每一预定格获得的编码参数的时轴以修正该编码参数的输出周期;还包括一插值回路5,用于对修正的周期参数插值来重现与基于格的时点相关的修正编码参数,如图2所示。用于运算修正编码参数的运算单元3随后进行说明。
首先,已经说明了编码单元,该编码单元2和解码单元6根据谐波编码和杂波给出短期预测余项,如线性预测编码(LPC)余项。另一,编码单元3和解码单元6实现多宽带激励(MBE)编码或多宽带激励(MBE)分析。
采用由线性预测(CELP)编码激励的普通编码时,该LPC余项随时间波形直接进行矢量量化。由于进行谐波编码或MBE分析的编码单元2对余项进行编码,故较平滑的合成波形可通过具有较小比特数的谐波的频谱包络线幅值进行矢量量化获得,而一滤波器的合成LPC波形的输出也具有极好的音质。同时,频谱包络线幅值用维数转换技术或本发明人在日本专利特许公报JP-A-51800中提出的维数转换技术或数据数转换技术进行量化处理,这样频谱包络线幅值就可以按设定的矢量维数进行矢量量化。
图3给出了编码单元2的结构示图。供给输入端10的语音信号由滤波器11滤去不需要的频率范围,然后传送到一线性预测编码(LPC)分析回路12和一后级滤波回路21。
LPC分析回路12以每段256采样点的长度给输入信号波形加上汉宁窗(Hamming Window)为的是通过自相关法得到线性预测常数,即所谓α参数。作为数据输出单元的格的间隔采用160采样点。如果采样频率fs是8′KHz,则160个采样点格的间隔为20毫秒(msec)。
由LPC分析回路12得到的α参数传送到一个α-到-LSP的转换回路13,以转换为线谱对(LSP)参数。也就是将作为直接型滤波器系数的α参数转换为10个,即为5对LSP参数。这种转换用如Newto-Raphson之类的方法来完成。将α参数转换成LSP参数的原因在于LSP参数的插值特性优于α参数。
由α到LSP参数的转换回路13输出的LSP参数在LSP矢量量化器14中进行矢量量化,这时,在矢量量化前,格之间的差别可识别出来。另外,多格可以集合并由矩阵量化形式量化。在量化过程中,每20msecs运算的LSP参数是由20msecs-格进行矢量量化。
由LSP矢量量化器14的量化输出表示LSP矢量量化的信号传输至端口15。已进行LSP矢量量化的信号输入LSP插值运算回路16。
LSP插值回路16对每20毫秒矢量化一次的LSP矢量进行插值,得到8倍的压缩比,就是说,形成LSP矢量为2.5毫秒一次。这样做的原因是,如果余项的波形由MBE编码/解码法进行分析/合成处理,合成波形的包络线会非常光滑,因此如果LPC系数每20毫秒剧变一次,就会产生一些特殊的声音,如果LPC系数每2.5毫秒渐变一次,就可以避免产生这些特殊的声音。
因后滤波输入语音信号采用2.5毫秒间隔的LSP矢量,这样经插值后,LSP参数经LSP到α转换回路17转换成α参数,该α参数是直接型滤波器如10级的常数。LSP到α转换回路17的输出信号传至后滤波器回路21,为的是以2.5msecs间隔更新的α参数进行后滤波,以获得一个平稳输出。后滤波器21的输出输入谐波/杂波编码回路22,尤其是多频带激励(MBE)分析回路。
谐波/杂波编码回路(MBE分析回路)22以类似于MBE分析的方法对后滤波器21的输出信号分析。就是说,谐波/杂波编码回路22检测波距并计算每个谐波的波幅Am。谐波/杂波编码回路22还完成语音(V)/非语音(UV)识别,并通过维数转换将随波距改变的谐波波幅数值转换成一常数。对于波距检测,如下文所述,输入LPC余项的自相关应用于波距检测中。
参照图4,详细说明作为谐波/杂波编码回路22示例的多频带激励(MBE)分析回路的示意图。
如图4所示的MBE分析回路,回路模式的设计基于假设在同一时点的频段中即同一格或区段中存在语音信号成分和非语音信号成分。
从后滤波回路21给出的LPC余项或线性预测编码余项(LPC)经图4所示的输入端111输入。MBE分析回路完成MBE分析和对输入的LPC余项编码。
进入输入端111的LPC余项传输至波距信号提取单元113及将在后面给予说明的开窗口单元114和子区段幂运算单元126。
由于输入波距信号提取单元113的信号是LPC的余项,波距检测可通过检测该余项的自相关最大值来实现。波距信号提取单元113通过开路搜索完成波距检测。提取的波距数传给精确波距搜索单元116,精确波距搜索由闭路波距搜索完成。
开窗口单元114具有预设窗口的功能,如汉宁窗,对每N样块预设窗口,以L样框间隔沿时轴移动窗口。由开窗口单元114得到的时域数据经正交变换单元115处理,正交变换单元115可进行快速傅氏变换(FFT)。
如果取样窗口的所有频带均为非语音信号(UV),子区段幂运算单元126就提取取样窗口中作语音信号的时间波形包络线的特性参数。
精确波距搜索单元116接收到由波距提取单元113提取的粗略的整数波距数据和由正交变换单元115通过FFT产生的频域数据。精确波距搜索单元116引起±样本相对于作为中心值的粗测波距数据以0.2至0.5的间隔摆动,从而获得精确的具有最优十进制小数点(浮点)的波距数据。精确搜索技术应用合成法进行分析并选择可提供合成功率谱的波距,该功率谱与原始功率谱最接近。
波距高于和低于粗测波距的波距值以0.25的间隔提供,该粗测波距由波距提取单元113得到并作为摆动中心值。这些波距值彼此存在细微差别,所以会有累加误差∑∈m。在这种情况下,如果波距设定、频带宽设定,则采用频域数据的功率谱和提取信号频谱,就会发现有误差∑∈m。这样就会有整个频带的误差∑∈m。对于每一个波距值都有累积误差∑∈m,故选择累积误差最小的波距作为最优波距。这样,具有0.25间隔的最优精确波距由精确波距搜索单元得到,并且确定了最优波距的波幅|Am|,该波幅值由语音波幅运算单元118V运算得到。
在上述对精确波距搜索的说明中,整个频带假定为语音信号的,但是由于应用于MBE分析/合成***的模型是一个在同一时点有非语音区域出现在频率轴上的模型,故有必要频带间的语音/非语音进行识别。
从精确波距搜索单元116得到的最优波距和由语音波幅测定单元118V得到的波幅数据|Am|传输到语音/非语音区分单元117中,这里语音/非语音识别是对各频带的识别。该识别中采用信噪比(NSR)。
同时,由于基于基础波距频率来分离的频带数,即谐波数,是在8至63范围内波动,取决于声音的波距,在每一频带的U/V特征值都呈类似的波动。这样,在本发明的实施例中,U/V识别的结果对每个固定频带宽的预定频带是成组的或递减的。特别地,将预定频率范围如0到4000Hz范围内,包括听觉范围,分成NB频带,如12个频带,每个频带的NSR值的加权平均值由预定的判断各频带U/V值的阈值Th2来区分。
非语音波幅测定单元118U由正交变换单元115提供频域数据,由波距搜索单元116提供精确的波距数据,由语音波幅测定单元118V提供波幅|Am|数据,以及由语音/非语音识别单元117提供语音/非语音(V/UV)区分数据。同一频带由语音/非语音识别单元117通过重测波幅确定为非语音(UV)频带,一非语音波幅测定单元118U再次确定该波幅。非语音波幅测定单元118U直接输出来自语音波幅测定单元118V的输入值,这是因为已确定频带为语音的(V)。
来自非语音波幅测定单元118U的数据传输给数据数值转换单元119,该转换单元是一种采样连率转换器。考虑到频带数是来自频谱分离;并且数据数值,尤其是波幅数据数值延迟于波距,采用数据数值单元119再现数据常数的值。如果有效的频率范围高达3400Hz,则根据波距将该有效频率范围分离成8至63频带,使得波幅数据的数据数为1nMX+1,包括UV频带的波幅|Am|UV,在8至63频带范围内变化。这样,数据数值转换单元119将具有变化的mMX+1数据数值的波幅数据转换成一数据常数M,比如44。
数据数值转换单元119相应于频率轴上一有效区段对波幅数据添加样本数据,该样本数据从区段的最末数据到该区段的第一数据进行插值,以将数据数值扩大到NF。然后,数据数值转换单元119实现具有对采样Os的带宽限制型的过采样,如Os为8,以确定波幅数据的O3倍数。对该波幅数据的Os倍数((mMX+1)×Os)进行线性插值,以较大数据数值NM,如数据2048,对该数据数值NM分样以转换为预定的常数M,如数据44。
将由数据数值转换单元119传递的数据(具有预定常数M的波幅数据)传输给矢量量化器23,以提供一具有数据数值M的矢量,或者将该数据合成为一具有预定数据数值的矢量。
由精确波距搜索单元116传递的波距数据经转换开关27的固定端a传输给一输出端28。由日本专利申请No.5-185325(1993)公开的这一技术包括从表示非语音信号时间波形的特性值的信息到波距信息的转换,如果区段中的全部频带都是非语音(UV)的,那么波距信息就设有必要了。
这些数据通过处理N个数的数据,如256个样本而获得,由于区段根据上述L样本格单元在时轴上先划分好了,故根据格单元可得到传输数据。则波距数据、U/V区分数据和波幅数据在格区间进行修正。作为来自V/UV区分单元117的V/UV区分数据,有可能采用已减少或降低到12的频带数据数值,或采用在整个频域里的语音(V)和非语音(UV)区域之间确定划分一个或多个位点(S)的数据。另外,整个频带可以表示为语音的(V)和非语音的(UV),或者说V/UV区分可在格单元基础上实现。
如果一区段的整个范围内均已确定为非语音的(UV),一个有256样本的区段可再分成多个子区段,每个子区段包括32个样本,这些样本传输给子区段功率计算单元126。
子区段功率计算单元126计算一个区段内全部样本如256个样本的平均功率或均方根值(RMS值)对子区段内每一样本的平均功率或均方根值(RMS值)的比率或比值。
也就是说,如果第K个子区段的平均功率或者整个区段的平均功率可确定,则整个区段平均功率对子区段第K个平均功率P(K)的比值的平方根就可计算出来。
这样确定的平方根值可看作是一预定维的矢量,其目的在于在矢量量化器127中进行矢量量化处理,该矢量量化器127接在子区段功率计算单元之后。
矢量量化器127完成8维8比特直线矢量量化(编码簿样本容量为256)。该矢量量化的输出指标UV-E是典型的矢量编码,将其传输给转换开关27的固定端上。转换开关27的固定端a输入由精确波距搜索单元116输出的波距数据,转换开关27的输出信号传递给输出端28。
转换开关27的开关控制由从语音/非语音识别单元117输出的识别信号控制,因此,使得当确定区段内至少有一个频带为语音的(V)以及当确定整个频带为语音的(V)时,转换开关27的可动触片相应与固定端 ab接触。
这样基于子区段的标准化RMS值的矢量量化输出经***一通道中进行传输,该通道本来用于传输波距信息。就是说,如果确定区段内整个频带都是非语音的(UV),也就无需波距信息。这样,如果经确定从V/UV区分单元117中输出的识别信号表明整个频带为UV(非语音的),矢量量化指标UV_E就代替波距信息被传输。
参照附图3,对矢量量化器23中频谱包络线(Am)的加权矢量量化过程进行说明。
矢量量化器23为2级L维,如44维形态。
来自矢量量化编码本的输出矢量的总和经增益gi放大(该编码本为44维并且其容量为32),产生的结果作为44维频谱包络线矢量X的一个量化值。参照图5CB0,CB1表示两个形式编码本,其各自输出矢量分别为 S0i和 S1j,这里0≤i且j≤31。增益编码本CBg的输出为g1,这是一个标量值,0≤1≤31。最终输出为gi( S 0i+S1j)。
设由LPC余项的MBE分析得到的并被转换成预定维数的频谱包络Am为 X,如何有效地量化 X很关键。
量化误差能量E定义为:
           E=‖W{H x-Hg1(S0iS 1j)}‖2    …(1)
            =‖WH{ x-g1(S0iS 1j)}‖2这里H和W分别代表LPC合成滤波器的频轴特性和频轴上听觉加权特性的加权矩阵。
量化误差能量由对应来自下式频率特性的L维点进行取样得到。 H ( z ) = 1 1 + Σ i = 1 P α i z - i 这里α1表示由当前格段的LPC分析获得的α参数,1≤i≤P。
计算过程中,将1,α1,α2,…,αp的值赋给Os以提供1,α1,α2,…2p,0,0,…0共256样点数据,对256个样点进行FFT,相对应于0~π的点计算(re 2+Im 2)1/2的值。然后,取(re2+Im2)1/2计算值的倒数并分成44点。对角元素对应于上述倒数的矩阵如下:
Figure A9611104200171
听觉加权矩阵W如下: W ( z ) = 1 + Σ i P α i λ b i z - i i + Σ i P α i λ a i z - i … ( 3 ) 这里αi是输入信号LPC分析的结果,λa、λb为常数,例如λa=0.4,λb=0.9。
矩阵W可由方程(3)的频率特性得到。例如提供1,α1λb2,α2λb2,…,αpbP,0,0,…,0作为256点数据,对这些数据进行FFT以得到(re 2[1]+Im 2[i])1/2,这里0≤i≤128。然后,再采用1,α1λa,α2λa2,…,αpap,0,0,…0并对0~π范围在128点计算256点FFT分母的频率特性,其计算结果是(re′2[i]+Im′2[i])1/2,0≤i≤128。
上述方程(3)的频率特性如下式: wo [ i ] = re 2 [ i ] + Im 2 [ i ] re 2 [ i ] + Im 2 [ i ] 这里0≤i≤128。
相应于44维矢量点的频率特性由下述方法得到。尽管需要采用线性插值以获得更精确的结果,但在下面例子中采用最近点的值作为代替。
即,
        ω[i]=ω0[nint(128i/L)]这里1≤i≤L,nint(X)是返回最接近X的整数的函数。
由类似方法得到H,h(1),h(2),…h(L)。即:
Figure A9611104200191
作为改进的实施例,在第一次取得减少FFT操作时间的H(Z)W(Z)后可确定频率特性。
即, H ( z ) W ( z ) = 1 1 + Σ i = 1 2 α i z - i · 1 + Σ i = 1 P α i λ b i z - i 1 + Σ i = 1 P α i λ a i z - i … ( 5 ) 方程(5)的分母可扩展为: ( 1 + Σ i = 1 P α i z - i ) ( 1 + Σ i = 1 P α i λ a i z - i ) = 1 + Σ i = 1 2 P β i z - i
通过设定1,β1,β2,…,b2P,0,0,…,0,可以形成256点数据。进行256点FFT可得到波幅的频率特性。如下式, Ims [ i ] = re ′ ′ 2 [ i ] + Im ′ ′ 2 [ i ] 这里0≤i≤128。由此得到下列方程: wo [ i ] = re 2 [ i ] + Im 2 [ i ] re ′ ′ 2 [ i ] + Im ′ ′ 2 [ i ] 这里0≤i≤128。
对于每个L维矢量的相应点均可得到该结果。如果FFT的点数较小,应采用线性插值。然后此处采用最接近的值。即, wh = [ i ] = wh 0 [ nint ( 128 L · i ) ] - - - - 1 ≤ i ≤ L 这里1≤i≤L。
以最近的值作为对角线项的矩阵W′如下
Figure A9611104200211
上述方程(6)与方程(4)的矩阵相同。
应用这矩阵,即加权合成滤波器的频率特性,方程(1)可重写为,
        E=‖W′( x-g1( S 0iS ij))‖2    …(7)
明确形式编码本和增益编码本的方法说明如下。
首先,对于所有选择有关CBO的编码矢量 Soc的格段,预期的失真值减至最小。如果有M个这样的格段,它足够小, J = 1 M Σ k = 1 M | | W k ′ ( s - oc - 8 k ( s - oc + s - 1 k ) | | 2 - - - ( 8 )
在方程(8)中,W′KX K,gkS ik分别表示第K个格段的权重,第K个格段的一项输入,第K个格段的增益和第K个格段的编码本CB1的一项输出。
用于最小化等式(8), J = 1 M Σ k = 1 m { ( x - k T - g k ( s - oc T + s - 1 k T ) ) W k ′ T W k ′ ( x - k - g k ( s - oc + s - 1 k ) ) } = 1 M Σ k = 1 m { x - k T W k ′ T W k ′ x - k - 2 g k ( s - oc T + s - 1 k T ) W k ′ T W k ′ x - k } + g k 2 ( s - oc T + s - 1 k T ) W k ′ T W k ( s - oc + s - 1 k ) } = 1 M Σ k = 1 M { x - k T W k ′ T W k ′ x - k - 2 g k ( s - oc T + s - 1 k T ) W k ′ T W k ′ x - k + g k 2 s - oc T W k ′ T W k s - oc + 2 g k 2 s - oc T W k ′ T W k ′ s - 1 k + g k 2 s - 1 k T W k ′ T W k ′ s - 1 k } … ( 9 ) ∂ J ∂ s oc = 1 M Σ k = 1 M { - 2 g k w k ′ T w k ′ x - k + 2 g k 2 w k ′ T w k s - oc + 2 g k 2 W k ′ T W k s - 1 k } = 0 … ( 10 ) 故, Σ k = m ( g k W k ′ T W k ′ x - k - g k 2 W k ′ T W k s - 1 k ) = Σ k = 1 m g k 2 W k ′ T W k s - oc 且, S - oc = { Σ k = 1 m g k 2 W k ′ T W k } - 1 · { Σ k = 1 m g k W k ′ T W k ( x - k - g k s - 1 k ) }
                                              ...(11)这里{  }-1表示逆矩阵,WK ′T表示WK′的转置矩阵。
接着,考虑关于增益的最优化。
对于第K个区段选择增益的代码gc的预期失真值Jg由解下列方程得到: J g = 1 M Σ k = 1 M | | W k ′ ( x - k - g c ( s - oc + s - 1 k ) ) | | 2 可以得到, = 1 M Σ k = 1 M { x - k T w k ′ T w k ′ x - k - 2 g c x - k T w k ′ T W k ′ ( S - 0 k + s - 1 k ) + g c 2 ( s - 0 k T + s - 1 k T ) W k ′ T W k ′ ( s - 0 k + s - 1 k ) } ∂ J g ∂ g c = 1 M Σ k = 1 M { - 2 x - k T w k ′ T W k ′ ( s - 0 k + s - 1 k ) + 2 g c ( S - 0 k T + S - 1 k T ) W k ′ T W k ′ ( S - 0 k + S - 1 k ) = 0 Σ k = 1 M x - k T W k ′ T W k ′ ( s - 0 k + s - 1 k ) = Σ k = 1 M g c ( s - 0 k T + s - 1 k T ) W k ′ T W k ′ ( s - 0 k + s - 1 k ) g c = Σ k = 1 M x - k T W k ′ T W k ′ ( s - 0 k + s - 1 k ) Σ k = 1 M ( s - 0 k T + s - 1 k T ) W k ′ T W k ′ ( s - 0 k + s - 1 k ) … ( 12 )
上述方程给出了形式量 S 0iS 1i和增益gi的最佳矩心条件,这里0≤i≤31,这是最佳解码输出。 S 1iS 0i一样,故可类似得到最佳解码输出。
接下来,考虑最佳编码条件(最临近条件)。
为测量失真而最小化方程(7)的形式量 S 0iS 1i,E=‖W′(X-g1(S 0iS 1j))‖2,对于每一格段每给一个输入 X和加权矩阵W′即确定一次。
对于所有g1(0≤1≤31), S 0i(0≤i≤31)和 S 1j(0≤j≤31)的组合确定E,在一系列循环组合中有32×32×32种组合方式,目的是为了获得能给出最小E值的一组 S 0iS ij。但是由于这会导致大量算术运算,故编码单元2要对形态和增益进行连续搜索。一系列的搜索应该是对 S 0iS ij的32×32=1024种组合方式进行的搜索。在下述说明中, S 0iS 1i简写为 Sm。
上述方程可简化为E=||w′( X-g1Sm)||2。为更进一步简化,通过设定 Xw=W′ XSm=W′Sm可以得到,
            E=|| X w-g1 S w||2...(13) E = | | x - w | | 2 | | s - w | | 2 ( g 1 - x - w T · s - w | | s - w | | 2 ) 2 - ( x - w T · s - w ) 2 | | s - w | | 2 ...(14)这样,假定g1保证有足够精度,搜索可由两步完成。(1)搜索使下述值最大化的 Sw, ( X T w • · Sw ) 2 | | S - w | | 2 (2)搜索最接近下述值的g1 X T w • S - w | | S - w | | 2
如果上述方程是根据原始表达式进行改写的,搜索可由两步完成,(1)搜索使下述值最大化的一组 S 0iS 1j X T W ′ T W ′ ( S - oi + S - 1 j ) | | W ′ ( S - oi + S - 1 j | | 2 … ( 15 ) (2)搜索最接近下述值的gi X T W ′ T W ′ ( S - oi + S - 1 j ) | | W ′ ( S - oi + S - 1 j | | 2
方程(5)给出了最优编码条件(最临近条件)。
应用方程(11)和(12)的矩心条件以及方程(15)的条件,编码本CB0,CB1和CBg可同时通过广义劳氏算法(GLA)进行排序。
参照图3,矢量量化器23经转换开关24与语言译码本25V和非语言译码本25U相连接。通过来自谐波杂波编码回路22的V/UV区分信号输出来控制转换开关24的切换,分别应用语音编码本25V和非语音编码本25U对语音和非语音进行矢量量化。
依靠语音(V)/非语音(UV)判断来切换编码本的原因在于,因W′K和g1的加权平均处理是根据方程(11)、(12)在计算新的矩心时完成的,故不希望对在数值上差别很大的W′K和g1进行平均。
同时,编码单元2采用由输入 X的标准划分的W′。即,在方程(11),(12)和(15)处理过程中首先用W′/‖ X‖代替W′。
当根据V/UV区分信号在编码本间进行切换时,为布置语音编码本和非语音编码本,排序数据以类似的方式分配。
为减小V/UV的比特数,编码单元2应用单频带激励(SBE),如果V的比率超过50%或相反,相应认为某一给定的格段为一语音(V)格段或一非语音(UV)格段。
图6和图7表示语音、非语音和语音与非语音信号组合的输入 X的平均值和加权平均值,该组合没有考虑区分语音和非语音。
由图6可以看到,尽管U和UV的增益(‖ X‖的平均值之间差别很大,但U和UV的输入 X在频轴上的能量分配变化不大。但是,从图7明显看到,V和UV间的权重形态是不同的,在低频范围内,V的权重分配比特数较UV高,这说明,通过分别对V和UV间隔排序可获得性能较好的编码本表示的可能性。
图8是三个样例的排序方式,即包括语音(V),非语音(UV)和语音及非语音组合的排序方式。也就是说,图8中曲线 abc分别表示V、UV和V及UV组合的排序方式,曲线 abc的终值分别为3.72、7.011和6.25。
由图8可以看到,V编码本及UV编码本的排序间隔导致输出失真预期值的减少。尽管UV曲线 b的预期值状态随曲线稍稍变差,但是由于V的范围大于UV的范围,总体上看预期值是改善的。通过V和UV发生频率的一个例子看,对排序数据长度为1的V和UV范围长度的测量值分别是0.538和0.462。这样,由图8所示的曲线 a和b的终值来看,总体失真的预期值可为,
                3.72×0.538+7.011×0.462=5.24这表示与V及UV组合的排序的失真预期值6.25相比,失真预期值大约改善了0.76dB。
从排序方式看,预期值的改善大约为0.76dB。但是,已经知道,如果为在没有完成矢量化的的情况下确定SN比率(SNR),而对排序以外的四名男性成员及四名女性成员的语音取样进行处理,将V和UV分隔开会部分改善SNR大约1.3dB,原因大概在于V的比率稍高于UV。
应指出的是,当由矢量量化器23在矢量量化的听觉加权中采用的权重W′是由上述方程(6)定义时,通过考虑以前权重W′来确定当前权重W′,可获得涉及瞬时遮掩的权重W′。
对于上述方程(6)中wh(1),wh(2)…,wh(L),在时刻n计算的值,即对第n′的格段,表示为whn(1),whn(2),…,whn(L)。
考虑过去值的在时刻n的权重定义为An(i),这里1≤i≤L,则,
An(i)=λAn-1(i)+(1-λ)whn(i)(whn(i)≤An-1(i))
     whn(i)                       (whn(i)>An-1(i))这里λ可设定,例如λ=0.2,An(i)(这里1≤i≤L)即为上述权重可作为矩阵的对角项。
参照图1,说明修正编码参数的运算单元3。语音信号重现装置1对编码参数进行修正,并对该修正编码参数进行解码,其中由修正编码运算单元3将由编码单元2的输出信号进行快速修正编码运算,由以两倍于实时速度重现紧密存储信息的解码单元6对修正的编码参数进行解码。由于尽管重现速度较高,波距和音素保持不变,故即使提高重现速度也能叫到存储信息。
由于高速修正编码参数,修正编码参数运算单元3不进行下述的解码和输出处理,而是用类似算法以不固定的速率进行计算。
参照图9和11中的流程图,详细说明语音信号重现装置1中修正编码参数运算单元3的操作过程。如图2所示,修正编码参数运算单元3由周期修正回路4和插值回路5组成。
首先,在图9中的步骤S1,编码参数如LSP、波距、V/UV或Am,由输入端15、28、29和26输入给周期修正回路4。波距设定为Pcn[n],V/UV设定为VUv[n],Am设为am[n][1],LSP设为LSP[n][i]。由修正编码参数运算单元3运算后的修正编码参数分别设定为mod_Pch[m]、mod_UVv[m],mod_am[m][l]modlsp[m][i],这里1表示谐波数,i表示LSP序数, nm依次表示对应于在时间轴转换之前或之后的时间轴指标的格段数。同时0≤n<N1并且0≤m≤N2作为格段指标的 nm,其格段间隔为20毫秒(msec)。
如上所述, l表示谐波数。上述设定可在谐波数恢复到真实的谐波数am[n][l]后完成,或者可在am[n][l](1=0~43)状态完成。就是说,数值数据的转换可在解码器解码之前或之后完成。
在步骤S2,周期修正回路4设定相当于初始持续时间长的格段数为N1,设定相当于后改变持续时间长的格段数为N2。在步骤S3中,周期修正回路4压缩时间轴使N1的语音压缩为N2的速度。即,由周期修正回路4得到的时间轴压缩速度的比率spd为N2/N1
在步骤S4中,插值回路5设定 m格段数为2,该格段数 m相当于时间轴转换之后的时间轴指标。
在步骤5中,插值回路5得到两个格fr0和fr1,并确定在两路fr0和fr1与m/spd间"左段"和"右段"的差值。如果编码参数Pcn、VUv、am和lsp表示为*,则mod_*[m]可由下面一般公式表达,
          mod_*[m]=*[m/spd]这里0≤m<N2。但是,由于m/spd不是整数,故由从两个格fr0=Lm/spd和fr1=f0+1的插值中得到m/spd修正编码数。需指出的是,格fr0,m/spd和fr1间的关系如图10所示,可表示如下,
            左段=m/spd-fr0
            右段=fr1-m/spd
图10中的m/spd编码参数为修正编码参数,由步骤6所示的插值运算得到。可由简单的线性插取得该修正编码参数,即,
    mod_*[m]=*[fr0]×right+*[fr1]*left
然而,如果在fr0和fr1间插值,而这两格在V/UV上不同,即两者之一是V,另一个是UV,则上述一般公式就不适用了。因此,插值回路5要进行关于两格fr0和fr1的语音和非语音特性的编码参数确定方式的修正,由图11的步骤S11表示。
首先判断是否两个格fr0和fr1为语音的(V)或非语音的(UV)。如两个格fr0及fr1都是语音的,程序转到步骤S12,在步骤S12中对所有参数进行线性插值,修正编码参数表示如下:
     mod_Pch[m]=Pch[fr0]×right+Pch[fr1]×left
     mod_am[m][l]=am[fr0][l]×right+am[fr1][l]×left这里0≤l<L,L表示最大可能的谐波数,并且当没有谐波时am[n][l]中填入"0"。如果fr0和fr1间的谐波数不同,在进行插值时假设两者之一的谐波值为零。在通过数据数值转换单元前,L的值可确定,如L=43,0≤l<L。
此外,修正编码参数还可表示如下:
mod_lsp[m][i]=lsp[fr0][i]×right+lsp[fr1][i]×left这里0≤i<I,I表示Lsp序数,通常等于10;以及,
        mod_VUv[m]=1
在V/UV识别中,1和0分别表示语音的(V)和非语音的(UV)。
如果在步骤S11中判断两个格fr0和fr1都不是语音的(V),在步骤S13中给出类似于上述的判断,即判断是否两个格fr0和fr1为非语音的(UV)。如果判断结果为"是",即如果两个格都是非语音的(UV),则插值回路5将Pch设定为一固定值,通过线性插值得到am及lsp如下:
        mod_Pch[m]=Maxpitch以将itch定为一固定值,如一最大值,对于非语音的,Maxpitch=148;
    mod_am[m][l]=am[fr0][l]×right+am[fr1][l]×left这里0≤l<Maxpitch;
    mod_lsp[m][l]=lsp[fr0][i]×right+lsp[fr1[i]×left这里0≤i<I;且
        mod_VUv[m]=0。
如果两个格fr0和fr1都不是非语音的,则程序转到步骤S15,在步骤S15,判断是否fr0为语音的(V)且fr1为非语音的(UV)。如果判断结果为"是",即fr0为语音的(V)且fr1为非语音的(UV),则程序转到步骤S16;如果判断结果为"否",即fr0是非语音的(UV),而fr1是语音的(V),则程序转到步骤S17。
步骤S16的处理过程涉及这样的情况:fr0和fr1对于V/UV是不同的,即两者之一为语音的,而另一个为非语音的。考虑这样的事实,即fr0和fr1的V/UV不同对于在该两者间插值不重要。这样,不用进行插值即采用较接近时间m/spd的一格的参数值。
如果fr0是语音的(V)且fr1是非语音的(UV),程序转到步骤S16,该步骤对如图10所示的"左段"(=m/spd-fr0)和"右段"(=fr1-m/spd)之间的大小进行互相比较。这里判断fr0和fr1哪一个最接近m/spd。要采用最接近m/spd的格的参数来计算修正编码参数。
如果步骤S16的判断结果为"是",则表示"右段"较大,此时格fr1离m/spd更远。这样在步骤S18中采用最接近m/spd的fr0的参数来确定修正编码参数如下:
        mod_Pch[m]=Pch[fr0]
        mod_am[m][l]=am[fr0][l](这里0≤l<L)
        mod_lsp[m][i]=lsp[fr0][i](这里0≤i<L)
        mod_VUv[m]=1
如果步骤S16的判断结果为"非",左段≥右段,此时fr1离m/spd更近,故程序转到步骤S19,在该步骤中将波距值最大化,采用格fr1的参数来确定修正编码参数,则,
        mod_Pch[m]=Maxpitch
        mod_am[m][l]=am[fr1][l](这里0≤l<Maxpitch/2)
        mod_lsp[m][i]=Lsp[fr1][i](这里0≤i<L)
        mod_VUv[m]=0
于是在步骤S17中,相应于步骤S15的判断结果即fr0是非语音的(UV)且fr1是语音的(V),进行类似于步骤S16的判断。在这种情况下,不进行插值而直接采用最接近时间m/spd的格的参数值。
如果步骤S17的判断结果为"是",在步骤S20中,将波距值最大化,并采用更近的格fr0的参数确定修正编码参数,则,
        mod_Pch[m]=Maxpitch
        mod_am[m][l]=am[fr0][l](这里0≤l<Maxpitch)
        mod_lsp[m][i]=lsp[fr0][i](这里0≤i<I)
        mod_VUv[m]=0
如果步骤S17的判断结果为"非",左段≥右段,这时格fr1最接近m/spd,程序转到步骤S21,采用格fr1的参数来确定修正编码参数,则,
        mod_Pch[m]=Pch[fr1]
        mod_am[m][l]=am[fr1][l](这里0≤l<L)
        mod_Lsp[m][i]=lsp[fr1][i](这里0≤l<L)
        mod_VUv[m]=1
以这种方式,在图9中的步骤S6,根据格fr0和fr1间的语音(V)和非语音(UV)特性关系,插值回路5进行不同的插值运算操作。在步骤S6完成插值操作后,程序转到步骤S7,在该步骤中,对 m的值进行递增,对步骤S5和S6进行重复操作,直到 m的值等于N2
此外,UV部分的短期rms序数通常用于杂波增益控制。但是,这里该参数设为1。
图12为修正编码参数运算单元3运算操作的示意图。图12A表示编码单元2每20ms对编码参数采样一次。如图12B所示,修正编码参数运算单元3的周期修正回路4设定周期为15ms,并设时轴进行压缩,根据如前所述的格fr0和fr1的V/UV状态,如图12C所示,由插值运算操作对修正编码参数进行插值运算。
修正编码参数运算单元3可能会对序数进行反转,由周期修正回路4和插值回路5完成该操作,即如图13B所示,执行由图13A所示的编码参数的插值运算,以及如图13C所示,执行对修正编码参数的压缩运算。
由修正编码参数运算回路3输出的修正编码参数传给图1所示的解码回路6,解码回路6根据修正编码参数合成正弦波和杂波,并将合成音由输出端37输出。
参照图14和15说明解码单元6。为便于说明,假定传给解码单元6的参数为通常的编码参数。
参照图14,LSP的矢量量化输出,即相当于图3所示的端点15的所谓指标的输出,传给端点31。
输入信号输入给逆LSP矢量量化器32,进行逆矢量量化后得到线谱对(LBP)数据,将该数据传给LSP插值回路33进行LSP插值运算。插值数据结果由LSP至α转换回路32转换成线性预测编码(LPS)的α参数。
对应于图3所示的编码器的端点26的输出,向如图14所示的端点41输入频谱包络(Am)的加权矢量量化编码的指标数据。向端点43输入由图3中的端点28传递的波距信息和表示一UV区段内时间波形特性参数的数据,向端点46输入由图3中的点29传递的V/UV识别数据。
由端点41输入的波幅(Am)的矢量量化数据传输给逆矢量量化器42进行逆矢量量化。频谱包络数据结果传递给谐波/杂波回路或多频带激励(MBE)合成回路45。由端点43传递的数据输入给合成回路45,该端点43由转换开关44在波距数据和根据V/UV识别数据表示的UV格波形特性值数据之间进行切换。由端点46传递的V/UV识别数据也输入合成回路45。
MBE合成回路的安排,即合成回路45的组成图示说明,将参照图15进行解释。
由合成回路45得到与图3中逆滤波回路21的输出相对应的LPC余数,该余数传给合成回路35,在合成回路35中进行LPC合成,以形成时间波形数据,该时间波形数据由后滤波器36进行滤波,最后重现的时域波形信号由端点37输出。
MBE合成回路示例,即合成回路45的示例将参照图15进行说明。
参照图15,由逆矢量量化器42(如图14所示)传递的频谱包络数据,即LPC余项的频谱包络数据传给端点131。传给端点43、46的数据与如图14所示的数据相同。传给端点43的数据由转换开关44进行选择,以使波距数据和表示UV波形的特性参数分别传给语音合成单元137和逆矢量量化器152。
由端点131传递的LPC余项的频谱波幅数据输入给数据数值后转换回路136进行后转换。数据数值后转换回路136进行后转换,即由数据数值转换单元119进行逆转换。逆幅数据结果传给语音合成单元137和非语音合成单元138。由端点43传递的波距数据经由转换开关44的固定端a传给合成单元137、138。由端点46传递的V/UV识别信号也传给合成单元137、138。
语音合成单元137通过合成余弦或正弦波来合成语音时域波形,而非语音合成单元138通过带通滤波器滤去白噪声,以合成非语音时域波形由加法器141将语音波形和非语音波形相加后传给输出端142。
如果V/UV编码是作为V/UV识别数据进行传输的,则全部频带由单个界点分成语音(V)区和非语音(UV)区,基于频带的V/UV识别数据可根据这个界点获得。如果在分析(编码)中频带数减小到一常数如12频带,可给变化的频带数一相应于原始波距的带宽,使减小的频带数得以抵消。
对由非语音合成单元138进行的非语音合成操作给予说明。
由白噪声发生器143产生的时域白噪声信号波形传给开窗口单元144加上有合适窗函数的窗口,如汉宁窗,该窗口预定长度为256样本。加了窗口的信号波形传给短期傅氏变换(STFT)单元145进行STFT以形成白噪声的频率功率谱。由STFT单元145传递的功率再传给频带波幅处理单元146,在单元146中,作为UV的频带用波幅加倍为|Am|UV,而其它作为V的频带宽被设定为0。频带波幅处理单元146接收到波幅数据、波距数据和V/UV识别数据。
频带波幅处理单元146的输出传给ISTFT单元147,在单元147中,来用原始白噪声相位进行逆STFT转换,以获得时域信号。ISTFT单元的输出经功率分布整形单元156及乘法器157传给叠加一和一相加单元148,在单元148中,叠加一和一相加在时轴上以合适的加权进行迭代,从而保证恢复原始连续波形。这样,通过合成获得连续的时域波形。叠加一和一相加单元148的输出传给加法器141。
如果在区段中至少有一个频带是语音的(V),则上述操作由相应的合成单元137、138完成。如果区段中的全部频带为UV,则将转换开关44的可动触片44与固定端上接触,使时间波形信息代替波距信息传给逆矢量量化单元152。
于是,传给矢量量化单元152的数据是相应于由矢量量化单元127(如图4所示)传递的数据。
ISTFT单元147的输出在传给乘法器157前具有经功率分布整形单元156调整的时域能量分布。乘法器157用由矢量量化单元152获得的经滤波单元153传递的信号对ISTFT单元147的输出进行倍乘。比较粗糙的快速增益变化可由滤波单元153进行抑制。
这样合成的非语音信号由非语音合成单元138传出,并传递给加法器141,由加法器141将该信号与从语音信号合成单元137传递的信号相加,最后作为MBE合成输出的LPC余项信号由输出端142传出。
这些LPC余项信号传递给合成滤波器35(如图14)以形成终点重现语音信号。
语音信号重现装置1中由修正编码参数运算单元3对修正编码参数进行运算,该运算是在控制器(图中未示)的控制下进行的,并且运算单元3还借助修正编码参数对语音进行合成,该语音是已压缩的时轴原始语音信号。
这样,采用由修正编码参数运算单元3传递的mod_lsp[m][i]来代替LSP逆矢量量化回路32的输出。采用修正编码参数mod_lsp[m][i]代替原矢量逆量化值。将修正编码参数mod_lsp[m][i]传给LSP插值回路33进行Lsp插值,然后再传给Lsp-至-α转换单元34,将其转换成线性预测编码(Lpc)的α参数,将α参数传给合成滤波器35。
另一方面,采用修正编码参数am[m][l]代替数据编码转换单元136的输出或输入。将mod_Pch[m]和mod_VUv[m]分别传给端点43、46。
将修正编码参数mod_am[m][l]作为频谱包络数据传给谱波/杂波合成回路45。由端点43传递的mod_Pch[m]及由端点46传递的mod_VUv[m]经根据识别数据进行切换的转换开关44传递给合成;因45。
被压缩的时轴的原始语音信号由图15所示的上述结构通过利用上述修正编码参数进行合成,并在输出端37输出。
语音信号重现装置1对一组代替序号*[n](0≤n<N1)的修正编码参数mod_*[m](0≤m<N2)进行解码。在解码时,格的间隔可通常定为20msec。这样,如果N2<N1或N2>N1,则相应有时轴压缩速度提高或时轴扩张速度降低。
如果根据如上所述进行时轴修正,则瞬时频谱和波距保持不变。这样,尽管在0.5≤spd≤2范围进行有效修正,但是几乎没有失真。
由于采用这一***将最终得到的参数列在原20msec间隔里排列后进行解码,故任意提高或降低速度的控制是容易实现的。另一方面,不转变界点由同一操作可实现速度的升高或降低。
这样,实体存储的信息可在两倍于实时速度的速度下实现。由于尽管重放速度提高了,波距和语音依然保持不变,故,如果在高速下进行重现,可收到实体存储的信息,另一方面,采用CELP编码所需的辅助操作,如解码并输出以后的算术操作可省去。
尽管在上述第一实施例中修正编码参数运算单元3与解码单元6是相互独立的,但是也可在解码单元6中装有运算单元3。
在由语音信号重现装置1中的修正编码参数运算单元3对参数进行运算时,对am的插值运算操作是通过对一矢量量化值或一逆矢量量化值操作完成的。
根据本发明的用于实现语音信号传输方法的语音信号传输装置50将在下面给予说明,参照图16,语音信号传输装置50包括一传输器51,用于将输入语音信号根据时域格单元进行分离,并在格的基础上对输入语音信号进行编码以确定编码参数,然后,对编码参数进行插值以确定修正编码参数,并将该修正编码参数传输出去。语音信号传输装置还包括一接收器56,用于接收修正编码参数并合成正弦波和杂波。
转输器51包括一编码器53,用于将输入语音信号根据预定时域格单元进行分离并根据格对输入语音信号进行编码以确定编码参数;包括一插值单元54,用于对编码参数进行插值以确定修正编码参数;还包括一传输单元55,用于传输修正编码参数。接收器56包括一接收单元57,一对修正编码参数进行插值的插值单元58和一解码单元59,解码单元59用于根据经插值的参数合成正弦波和杂波以在输出端60输出合成的语音信号。
编码单元53和解码单元59的基本操作与语音信号重现装置1相同,为了简便起见,就不进行详细说明了。
参照图17所示的流程图,对传输器51的操作进行说明,该流程图对编码单元53的解码操作和插值单元54的插值运算操作合并表示。
编码单元53在步骤S31和S33中提取编码参数Lsp、波距Pch、V/UV和am。尤其,Lsp在步骤S31由插值单元54进行插值和重整并在步骤S32进行量化,而波距Pch、V/UV和am在步骤S34进行插值和重整并在步骤S35进行量化。这些经量化的数据经传输器55传输给接收器56。
接收器56中,经接收单元57接收的量化数据传输插值单元58,在步骤S36中由插值单元58对参数进行插值和重整。在步骤S37由解码单元59对数据进行合成。
这样,为了通过时间轴压缩提高速度,语音信号传输装置50在传输时对参数进行插值并修正参数的格间隔。同时,由于重现是在接收中通过在固定的格间隔确定参数来完成的。故速度控制算法可直接应用于比特速率转换。
假设,如果参数插值用于速度控制,则参数插值在解码器中进行。但是,如果该操作在解码器中进行对时轴压缩(分样)的数据编码,并由解码器扩大时轴(插值),那么,传输比特速率可调整在比率spd。
如果传输速率为1.975Kbps,并在设定的两倍速度即spd=0.5进行编码,由于是在0.5秒的速度编码而不是原来的10秒,故传输速度变为1.975×0.5Kbps。
由编码单元53得到的编码参数(如图18A所示)由插值器54以任意的时间间隔如为30ms进行插值和重整,如图18B所示。在接收器56的插值器58中将编码参数插值和重整到20ms,如图18C所示,然后由解码单元59对参数进行合成。
如果解码器有类似组成,就可将速度恢复为原始值,并可接收到高速或低速的语音,即,可采用变化的比特速率的速度控制。

Claims (12)

1.一种重现输入语音信号的方法,该方法基于通过将输入语音信号在时轴上分成预定长度的格并根据格对输入语音信号编码来确定编码参数,包括以下步骤:
对编码参数进行插值以确定与所要求的时点相关的修正编码参数;以及
根据修正编码参数产生速率与输入语音信号不同的修正语音信号。
2.如权利要求1所述的重现输入语音信号的方法,其特征在于,所述修正语音信号是通过至少合成与修正编码参数相关的正弦波来产生的。
3.如权利要求2所述的重现输入语音信号的方法,其特征在于,所述参数周期的改变是通过在插值之前或之后压缩或扩展参数实现的。
4.如权利要求1所述的重现输入语音信号的方法,其特征在于,所述编码参数的插值是指对包括在编码参数中的线谱对参数、波距和余项频谱包络的线性插值。
5.如权利要求1所述的重现输入语音信号的方法,其特征在于,所采用的编码参数是通过由输入语音信号的短期预测余项表示合成的正弦波和杂波并通过对每一合成的正弦波和杂波的频谱信息编码来确定的。
6.一种重现语音信号的装置,该装置中,输入语音信号的重现是基于通过将输入语音信号在时轴上分成具有预定长度的格并根据格对输入语音信号编码,该装置包括,
插值装置,用于对编码参数插值以确定与所要求的时点相关的修正编码参数;以及
语音信号发生装置,用于根据修正的编码参数产生速率与输入语音信号不同的修正语音信号。
7.如权利要求6所述的重现语音信号的装置,其特征在于所述语音信号发生装置通过根据修正编码参数至少合成正弦波来产生所述修正语音信号。
8.如权利要求7所述的重现语音信号的装置,其特征在于进一步包括周期转换装置,该周期转换装置装在所述插值装置前端或后端,用于压缩或扩展参数以变换参数的周期。
9.如权利要求6所述的重现语音信号的装置,其特征在于,所述插值装置完成对包括在编码参数中的线谱对参数,波距和余项频谱包络的线性插值。
10.如权利要求6所述的重现语音信号的装置,其特征在于,所采用的编码参数是通过由输入语音信号的短期预测余项表示合成的正弦波和杂波并通过对每一合成的正弦波和杂波的频谱信息进行编码来确定的。
11.一种传输语音信号的方法,包括如下步骤:
通过在时轴上将输入语音信号分成具有预定长度的格并根据格对输入语音信号编码而确定编码参数;
对编码参数插值以确定与所要求的时点相关的修正编码参数,并,
传输该修正编码参数。
12.如权利要求11所述的传输语音信号的方法,其特征在于,所采用的编码参数是通过由输入语音信号的短期预测余项表示合成的正弦波和杂波,并通过对每一合成的正弦波和杂波的频谱信息进行编码来确定的。
CNB961110422A 1995-06-20 1996-06-19 再现语音信号的方法和装置以及传输该信号的方法 Expired - Lifetime CN1154976C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP15372395A JP3747492B2 (ja) 1995-06-20 1995-06-20 音声信号の再生方法及び再生装置
JP153723/1995 1995-06-20
JP153723/95 1995-06-20

Publications (2)

Publication Number Publication Date
CN1145512A true CN1145512A (zh) 1997-03-19
CN1154976C CN1154976C (zh) 2004-06-23

Family

ID=15568696

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB961110422A Expired - Lifetime CN1154976C (zh) 1995-06-20 1996-06-19 再现语音信号的方法和装置以及传输该信号的方法

Country Status (17)

Country Link
US (1) US5926788A (zh)
EP (1) EP0751493B1 (zh)
JP (1) JP3747492B2 (zh)
KR (1) KR100472585B1 (zh)
CN (1) CN1154976C (zh)
AT (1) ATE205011T1 (zh)
AU (1) AU721596B2 (zh)
BR (1) BR9602835B1 (zh)
CA (1) CA2179228C (zh)
DE (1) DE69614782T2 (zh)
ES (1) ES2159688T3 (zh)
MX (1) MX9602391A (zh)
MY (1) MY116532A (zh)
RU (1) RU2255380C2 (zh)
SG (1) SG54343A1 (zh)
TR (1) TR199600519A2 (zh)
TW (1) TW412719B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101023472B (zh) * 2004-09-06 2010-06-23 松下电器产业株式会社 可扩展编码装置和可扩展编码方法
CN102246229B (zh) * 2009-04-03 2013-03-27 华为技术有限公司 频域脉冲解码的预测方法和预测装置及解码器
CN106067996A (zh) * 2015-04-24 2016-11-02 松下知识产权经营株式会社 语音再现方法、语音对话装置
CN108899008A (zh) * 2018-06-13 2018-11-27 中国人民解放军91977部队 一种对空语音通信杂音模拟干扰方法和***
CN109997358A (zh) * 2016-11-28 2019-07-09 索尼公司 用于自由视点视频流式传输的以解码器为中心的uv编解码器
CN114511474A (zh) * 2022-04-20 2022-05-17 天津恒宇医疗科技有限公司 血管内超声图像的降噪方法、***、电子设备及存储介质

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3707153B2 (ja) * 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
US6202046B1 (en) 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
JP4308345B2 (ja) * 1998-08-21 2009-08-05 パナソニック株式会社 マルチモード音声符号化装置及び復号化装置
US6188980B1 (en) * 1998-08-24 2001-02-13 Conexant Systems, Inc. Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6353808B1 (en) * 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
US6260009B1 (en) * 1999-02-12 2001-07-10 Qualcomm Incorporated CELP-based to CELP-based vocoder packet translation
JP2000305599A (ja) * 1999-04-22 2000-11-02 Sony Corp 音声合成装置及び方法、電話装置並びにプログラム提供媒体
US6260017B1 (en) * 1999-05-07 2001-07-10 Qualcomm Inc. Multipulse interpolative coding of transition speech frames
FR2796191B1 (fr) * 1999-07-05 2001-10-05 Matra Nortel Communications Procedes et dispositifs de codage et de decodage audio
US7092881B1 (en) * 1999-07-26 2006-08-15 Lucent Technologies Inc. Parametric speech codec for representing synthetic speech in the presence of background noise
US6535843B1 (en) * 1999-08-18 2003-03-18 At&T Corp. Automatic detection of non-stationarity in speech signals
DE10197182B4 (de) * 2001-01-22 2005-11-03 Kanars Data Corp. Verfahren zum Codieren und Decodieren von Digital-Audiodaten
JP4680429B2 (ja) * 2001-06-26 2011-05-11 Okiセミコンダクタ株式会社 テキスト音声変換装置における高速読上げ制御方法
JP4106624B2 (ja) * 2001-06-29 2008-06-25 株式会社ケンウッド 信号の周波数成分を補間するための装置および方法
US6907632B2 (en) * 2002-05-28 2005-06-21 Ferno-Washington, Inc. Tactical stretcher
US7523032B2 (en) * 2003-12-19 2009-04-21 Nokia Corporation Speech coding method, device, coding module, system and software program product for pre-processing the phase structure of a to be encoded speech signal to match the phase structure of the decoded signal
TWI497485B (zh) * 2004-08-25 2015-08-21 Dolby Lab Licensing Corp 用以重塑經合成輸出音訊信號之時域包絡以更接近輸入音訊信號之時域包絡的方法
CN101203907B (zh) 2005-06-23 2011-09-28 松下电器产业株式会社 音频编码装置、音频解码装置以及音频编码信息传输装置
JP2007150737A (ja) 2005-11-28 2007-06-14 Sony Corp 音声信号ノイズ低減装置及び方法
US8296158B2 (en) 2007-02-14 2012-10-23 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
MX2009009229A (es) * 2007-03-02 2009-09-08 Panasonic Corp Dispositivo de codificacion y metodo de codificacion.
US8620645B2 (en) * 2007-03-02 2013-12-31 Telefonaktiebolaget L M Ericsson (Publ) Non-causal postfilter
US8401865B2 (en) 2007-07-18 2013-03-19 Nokia Corporation Flexible parameter update in audio/speech coded signals
BRPI0908929A2 (pt) * 2008-03-14 2016-09-13 Panasonic Corp dispositivo de codificação, dispositivo de decodificação, e método dos mesmos
JP4999757B2 (ja) * 2008-03-31 2012-08-15 日本電信電話株式会社 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体
CN101582263B (zh) * 2008-05-12 2012-02-01 华为技术有限公司 语音解码中噪音增强后处理的方法和装置
US20100191534A1 (en) * 2009-01-23 2010-07-29 Qualcomm Incorporated Method and apparatus for compression or decompression of digital signals
EP2242045B1 (en) * 2009-04-16 2012-06-27 Université de Mons Speech synthesis and coding methods
JP5316896B2 (ja) * 2010-03-17 2013-10-16 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
CA2927716C (en) 2013-10-18 2020-09-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information
BR112016008544B1 (pt) 2013-10-18 2021-12-21 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Codificador para codificar e decodificador para decodificar um sinal de áudio, método para codificar e método para decodificar um sinal de áudio.
CN107369455B (zh) 2014-03-21 2020-12-15 华为技术有限公司 语音频码流的解码方法及装置
JP6891662B2 (ja) * 2017-06-23 2021-06-18 富士通株式会社 音声評価プログラム、音声評価方法および音声評価装置
KR101971478B1 (ko) 2018-09-27 2019-04-23 박기석 차량용 차광막 장치
KR102150192B1 (ko) 2019-04-04 2020-08-31 박기석 차량용 차광막 장치
KR20230114981A (ko) 2022-01-26 2023-08-02 주식회사 스마트름뱅이 차량용 태양광 차단 및 발전 수행 장치

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8400728A (nl) * 1984-03-07 1985-10-01 Philips Nv Digitale spraakcoder met basisband residucodering.
JPH07117562B2 (ja) * 1988-10-18 1995-12-18 株式会社ケンウッド スペクトラムアナライザ
JP2823023B2 (ja) * 1990-09-10 1998-11-11 富士通株式会社 リンク配線用マトリクスプリント板におけるコネクタ接続方法
US5226108A (en) * 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
US5371853A (en) * 1991-10-28 1994-12-06 University Of Maryland At College Park Method and system for CELP speech coding and codebook for use therewith
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
US5351338A (en) * 1992-07-06 1994-09-27 Telefonaktiebolaget L M Ericsson Time variable spectral analysis based on interpolation for speech coding
US5479559A (en) * 1993-05-28 1995-12-26 Motorola, Inc. Excitation synchronous time encoding vocoder and method
US5602961A (en) * 1994-05-31 1997-02-11 Alaris, Inc. Method and apparatus for speech compression using multi-mode code excited linear predictive coding
US5729694A (en) * 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
FR2863874B1 (fr) * 2003-12-18 2006-03-17 Oreal Composition demaquillante

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101023472B (zh) * 2004-09-06 2010-06-23 松下电器产业株式会社 可扩展编码装置和可扩展编码方法
CN102246229B (zh) * 2009-04-03 2013-03-27 华为技术有限公司 频域脉冲解码的预测方法和预测装置及解码器
CN106067996A (zh) * 2015-04-24 2016-11-02 松下知识产权经营株式会社 语音再现方法、语音对话装置
CN106067996B (zh) * 2015-04-24 2019-09-17 松下知识产权经营株式会社 语音再现方法、语音对话装置
CN109997358A (zh) * 2016-11-28 2019-07-09 索尼公司 用于自由视点视频流式传输的以解码器为中心的uv编解码器
CN109997358B (zh) * 2016-11-28 2022-02-22 索尼公司 用于自由视点视频流式传输的以解码器为中心的uv编解码器
CN108899008A (zh) * 2018-06-13 2018-11-27 中国人民解放军91977部队 一种对空语音通信杂音模拟干扰方法和***
CN108899008B (zh) * 2018-06-13 2023-04-18 中国人民解放军91977部队 一种对空语音通信杂音模拟干扰方法和***
CN114511474A (zh) * 2022-04-20 2022-05-17 天津恒宇医疗科技有限公司 血管内超声图像的降噪方法、***、电子设备及存储介质

Also Published As

Publication number Publication date
KR100472585B1 (ko) 2005-06-21
JP3747492B2 (ja) 2006-02-22
ATE205011T1 (de) 2001-09-15
EP0751493B1 (en) 2001-08-29
RU2255380C2 (ru) 2005-06-27
KR970003109A (ko) 1997-01-28
MX9602391A (es) 1997-02-28
TW412719B (en) 2000-11-21
BR9602835B1 (pt) 2009-05-05
DE69614782T2 (de) 2002-05-02
JPH096397A (ja) 1997-01-10
CA2179228C (en) 2004-10-12
CN1154976C (zh) 2004-06-23
ES2159688T3 (es) 2001-10-16
EP0751493A2 (en) 1997-01-02
MY116532A (en) 2004-02-28
US5926788A (en) 1999-07-20
BR9602835A (pt) 1998-04-22
AU5605496A (en) 1997-01-09
DE69614782D1 (de) 2001-10-04
TR199600519A2 (tr) 1997-01-21
CA2179228A1 (en) 1996-12-21
SG54343A1 (en) 1998-11-16
EP0751493A3 (en) 1998-03-04
AU721596B2 (en) 2000-07-06

Similar Documents

Publication Publication Date Title
CN1145512A (zh) 再现语音信号的方法和装置以及传输该信号的方法
CN1127055C (zh) 用于对宽带声音信号进行有效的编码的感觉加权设备与方法以及使用该设备的蜂窝通信***
CN1096148C (zh) 信号编码方法和装置
CN1158648C (zh) 语音可变速率编码方法与设备
CN1200403C (zh) 线性预测编码参数的矢量量化装置
CN1161751C (zh) 语音分析方法和语音编码方法及其装置
CN1252681C (zh) 一种码激励线性预测语音编码器的增益量化
CN1156872A (zh) 语音编码的方法和装置
CN1104710C (zh) 在语音数字传输***中产生悦耳噪声的方法与装置
CN1229775C (zh) 宽带语音和音频信号解码器中的增益平滑
CN1308916C (zh) 采用频带复现增强源编码
KR100769508B1 (ko) Celp 트랜스코딩
CN1155725A (zh) 语音编码方法和装置
CN1591575A (zh) 合成语音的方法和装置
CN1457425A (zh) 用于语音编码的码本结构与搜索
CN1871501A (zh) 频谱编码装置、频谱解码装置、音响信号发送装置、音响信号接收装置及其使用方法
CN1097396C (zh) 声音编码装置和方法
CN1274456A (zh) 语音编码器
CN101076853A (zh) 宽带编码装置、宽带线谱对预测装置、频带可扩展编码装置以及宽带编码方法
CN1218334A (zh) 可伸缩的立体声音频编码/解码方法和装置
CN1161750C (zh) 语音编码译码方法和装置、电话装置、音调变换方法和介质
CN1890714A (zh) 一种优化的复合编码方法
CN1193158A (zh) 语音编码方法和装置以及声音信号编码方法和装置
CN1677493A (zh) 一种增强音频编解码装置及方法
CN1435817A (zh) 语音编码转换方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term

Granted publication date: 20040623

EXPY Termination of patent right or utility model