CN101057275A - 矢量变换装置以及矢量变换方法 - Google Patents

矢量变换装置以及矢量变换方法 Download PDF

Info

Publication number
CN101057275A
CN101057275A CNA2005800380550A CN200580038055A CN101057275A CN 101057275 A CN101057275 A CN 101057275A CN A2005800380550 A CNA2005800380550 A CN A2005800380550A CN 200580038055 A CN200580038055 A CN 200580038055A CN 101057275 A CN101057275 A CN 101057275A
Authority
CN
China
Prior art keywords
vector
code
mentioned
unit
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005800380550A
Other languages
English (en)
Other versions
CN101057275B (zh
Inventor
森井利幸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
III Holdings 12 LLC
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN101057275A publication Critical patent/CN101057275A/zh
Application granted granted Critical
Publication of CN101057275B publication Critical patent/CN101057275B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

公开了矢量变换装置,对用于输入矢量量化的参照矢量进行变换以提高包含语音在内的信号质量。在该矢量变换装置中,矢量量化单元(902)从存储在代码本(903)内的所有代码矢量中,取得对应于窄带的解码LPC参数的代码矢量的号码。矢量逆量化单元(904)参照由矢量量化单元(902)求出的代码矢量的号码,从代码本(905)中选择代码矢量。变换处理单元(906)通过使用从上采样处理单元(901)得到的经采样调整的解码LPC参数、以及从矢量逆量化单元(904)得到的代码矢量进行运算,从而得到宽带的解码LPC参数。

Description

矢量变换装置以及矢量变换方法
技术领域
本发明涉及对用于矢量量化的参照矢量进行变换的矢量变换装置及矢量变换方法。
背景技术
在无线通信等领域中,为了实现语音或者视频信号的实时传输,使用压缩技术。矢量量化技术在语音、视频的数据压缩上是一种有效的方法。
在专利文献1中,公开了使用矢量量化技术,由窄带的语音信号生成宽带的语音信号的技术。在专利文献1中,使用窄带代码本,对输入窄带语音信号经LPC分析的结果进行矢量量化,使用宽带代码本解码该矢量,并将该结果的代码进行LPC合成,从而得到宽带语音信号。
【专利文献1】日本专利申请特开平6-118995号公报
发明内容
发明所要解决的问题
但是,上述专利文献1公开的技术的目的在于,以将窄带语音信号变换为宽带语音信号,原本就没有设想“经编码的输入语音、输入矢量”的存在,只是为了在听觉上能听到较宽的频带,而对频谱参数进行操作,所以,根据这种以往的示例,不能够得到接近输入语音的合成音。
作为提高包含语音在内的质量的方法,需要提高矢量量化的性能,可以考虑使用参照矢量,对输入矢量进行量化/逆量化。然而,上述专利文献1的目的仅在于将窄带语音信号变换为宽带语音信号,目前尚未发现公开了研究参照矢量和输入矢量的统计学上的特征,变换参照矢量变换并用于矢量量化的文献。
本发明旨在提供一种矢量变换装置以及矢量变换方法,能够对用于输入矢量量化的参照矢量进行变换,以提高包含语音在内的信号质量。
用于解决问题的方案
本发明的矢量变换装置,对用于输入矢量的量化的参照矢量进行变换,采用的结构包括:第一代码本,存储通过对矢量空间进行分群而求出的多个第一代码矢量;矢量量化单元,从存储在上述第一代码本内的第一代码矢量中,取得对应于参照矢量的代码矢量的号码;第二代码本,对每一个上述号码存储第二代码矢量,该第二代码矢量是对每一个上述号码,对与多个学习用输入矢量对应的多个学习用参照矢量进行统计处理而得到的;矢量逆量化单元,从存储在上述第二代码本内的第二代码矢量中,取得对应于由上述矢量量化单元取得的号码的代码矢量;以及,变换处理单元,对由上述矢量逆量化单元取得的第二代码矢量进行变换,从而取得变换后的参照矢量。
另外,本发明的矢量变换方法,对用于输入矢量的量化的参照矢量进行变换,包括:第一存储步骤,将通过对矢量空间进行分群而求出的多个第一代码矢量存储到第一代码本中;矢量量化步骤,从存储在上述第一代码本内的第一代码矢量中,取得对应于参照矢量的代码矢量的号码;第二存储步骤,对每一个上述号码将第二代码矢量存储到第二代码本,该第二代码矢量是对每一个上述号码,对与学习用输入矢量对应的多个学习用参照矢量进行统计处理而得到的;矢量逆量化步骤,从存储在上述第二代码本内的第二代码矢量中,取得对应于由上述矢量量化步骤取得的号码的代码矢量;以及,变换处理步骤,对由上述矢量逆量化步骤取得的第二代码矢量进行变换,从而取得变换后的参照矢量。
根据本发明,实施使用了代码本映射的变换处理,通过使用该变换结果的矢量量化来提高量化性能,从而能够提高包含语音在内的信号质量,上述代码本映射使用与输入矢量相关的某一参照矢量。
附图说明
图1是CELP的编码装置的方框图;
图2是CELP的解码装置的方框图;
图3是表示本发明的一个实施方式的可扩展编解码器的编码装置结构的方框图;
图4是表示上述实施方式的可扩展编解码器的解码装置结构的方框图;
图5是表示上述实施方式的可扩展编解码器的编码装置的扩展编码器的内部结构的方框图;
图6是表示图5的LPC分析单元的内部结构的方框图;
图7是表示上述实施方式的可扩展编解码器的解码装置的扩展解码器的内部结构的方框图;
图8是表示图7的参数解码单元的内部结构的方框图;
图9是表示图6和图8的参数变换单元的内部结构的方框图;
图10是说明图6和图8的参数变换单元的处理的图;
图11是表示图6和图8的参数变换单元的内部结构的方框图;以及
图12是表示图6和图8的参数变换单元的内部结构的方框图。
具体实施方式
在以下说明中,说明将本发明的矢量变换装置适用于分层型编码的编码器和解码器的例子。所谓分层型编码是指:首先,用核心编码器进行编码来求代码;接着,用扩展编码器进行扩展代码的编码而求代码,以对核心编码器的代码加上该代码而使音质变得更好,并将该处理阶段性地叠加,以提高比特速率。例如,若有3个编码器(核心编码器为4kbps、扩展编码器A为3kbps、扩展编码器B为2.5kbps),就能以4kbps、7kbps、9.5kbps等3种比特速率输出声音。即使在传输的途中也能输出声音,即能够在传输3个编码器的共计9.5kbps的代码的途中,只对核心编码器的4kbps的代码进行解码而发出声音;还能够只对核心编码器+扩展编码器A的7kbps的代码进行解码而发出声音。因而,通过分层型编码,如果传输容量较大,能够进行高质量的语音服务;如果在传输中传输容量突然变小,利用代码的抽出也能够继续进行传输,并能够进行中等质量的语音服务。因此,利用分层型编码,能够不通过转换编解码器,保持质量地进行不同种类网络间的通信。
另外,作为用于核心层或者扩展层的各编码器、解码器的编码方式,使用CELP。以下,使用图1、图2说明作为编码/解码的基本算法的CELP。
首先,使用图1说明CELP的编码装置的算法。图1是CELP方式的编码装置的方框图。
首先,在LPC分析单元102中,对输入语音101进行自相关分析和LPC分析而得到LPC系数,进行LPC系数的编码而得到LPC代码,并对LPC代码进行解码而得到解码LPC系数。该编码在多数的情况下,变换为称作PARCOR系数或者LSP或者ISP的易于量化的参数后,通过使用过去的解码参数进行预测或者通过使用矢量量化进行量化来完成。
接着,取出存储在自适应代码本103和概率代码本104的音源样本(分别称为“自适应代码矢量”或者“自适应音源”、“概率代码矢量”或者“概率音源”)中所指定的音源样本,在增益调整单元105中,将每个音源样本乘以指定的增益后,通过相加得到音源矢量。
接着,在LPC合成单元106中,通过使用LPC参数的全极型滤波器,对由增益调整单元105得到的音源矢量进行合成,从而得到合成音。但是,在实际的编码中,对于增益调整前的两个音源矢量(自适应音源、概率音源),则是利用由LPC分析单元102求出的解码LPC系数进行滤波,从而得到两个合成音。这是为了更有效地对音源进行编码。
接着,在比较单元107中,通过计算由LPC合成单元106求出的合成音和输入语音101的距离,并控制来自两个代码本的输出矢量和在增益调整单元105相乘的增益,由此寻找距离成为最小的两个音源的代码的组合。
但是,在实际的编码中,一般情况下,对由LPC合成单元106得到的两个合成音和输入语音的关系进行分析,求出两个合成音的最佳值(最佳增益)的组合,将利用该最佳增益经增益调整单元105进行增益调整的各个合成音相加,从而得到总合成音,计算该总合成音和输入语音的距离。然后,计算多个的合成音和输入语音的距离,从而求出距离为最小的音源样本的索引,所述多个的合成音是对自适应代码本103和概率代码本104的所有的音源样本,使用增益调整单元105、LPC合成单元106而得到的。由此,能够高效率地搜索两个代码本的音源的代码。
另外,在这种音源搜索中,同时要对自适应代码本和概率代码本进行最优化,由于所需的计算量庞大,事实上是不可能实现的,所以,一般情况下是进行所谓的逐个决定代码的开环(open loop)搜索。也就是说,对只有自适应音源的合成音和输入语音进行比较,由此求出自适应代码本的代码,接着固定来自该自适应代码本的音源,从而控制来自概率代码本的音源样本,并利用最佳增益的组合求出多个的总合成音,通过对其和输入语音进行比较来决定概率代码本的代码。按照以上的步骤,能够实现利用现有的小型处理器(DSP等)的搜索。
然后,比较单元107将两个代码本的索引(代码)、以及对应于该索引的两个合成音和输入语音输出到参数编码单元108。
参数编码单元108使用两个合成音和输入语音之间的相关进行增益的编码而得到增益代码。然后,汇总LPC代码、两个代码本的音源样本的索引(音源的代码),并输出到传输路径109。另外,根据对应于增益代码和音源的代码的两个音源样本,对音源信号进行解码,并将其存储到自适应代码本103。这时候,丢弃旧的音源样本。也就是说,将自适应代码本103的解码音源数据,从新到旧进行存储移位(memory shift),并丢弃从存储器移动出来的旧数据,将通过解码生成的音源信号存储在新的空余的部分。该处理称为自适应代码本的状态更新(update)。
另外,LPC合成单元106的音源搜索时的LPC合成中,一般情况下使用听觉加权滤波器,这种滤波器采用了线性预测系数、或者高音增强滤波器、或者长期预测系数(通过进行输入语音的长期预测分析而得到的系数)。还有,自适应代码本103和概率代码本104的音源搜索,往往在将分析区间(称为帧)更细地划分的区间中(称为副帧)进行。
在这里,如上述说明中所论述的那样,在比较单元107中,对于由增益调整单元105得到的自适应代码本103、概率代码本104的所有的音源,为了以能够实现的计算量来进行搜索,而对两个音源(自适应代码本103和概率代码本104)以开环方式进行搜索。这时,各块(部分)的作用变得比上述说明更为复杂。因此,这里就有关处理步骤进行更详细的论述。
(1)首先,增益调整单元105只从自适应代码本一个一个地传送音源样本(自适应音源),使用LPC合成单元106求合成音,并将其传送到比较单元107,与输入语音进行比较,并选择最佳的自适应账本103的代码。另外,假设此时的增益为使编码失真成为最少的值(最佳增益)而进行搜索。
(2)然后,固定自适应代码本103的代码,从自适应代码本103对相同的音源样本一个接一个地进行选择;也从概率代码本104中一个一个地选择对应于比较单元107的代码的音源样本(概率音源),并将其传输到LPC合成单元106。LPC合成单元106求两个合成音,由比较单元107对两个合成音之和与输入语音进行比较,从而决定概率代码本104的代码。还有,与上述相同,假设此时的增益为使编码失真成为最少的值(最佳增益)而进行选择。
另外,在上述开环搜索中,不使用增益调整单元105的增益调整功能和相加功能。
这种运算法则虽然与搜索各个代码本的所有的音源组合的方法相比,编码性能稍有下降,但是能够大幅度地削减计算量,使其成为可以实现的范围。
这样,CELP是按人的语音的发声过程(声带波=音源、声道=LPC合成滤波器)的模型的编码,作为基本算法,通过使用CELP,能够以比较少的计算量得到良好音质的语音。
接下来,使用图2说明CELP的解码装置的算法。图2是CELP方式的解码装置的方框图。
参数解码单元202对通过传输路径201传送的LPC代码进行解码而得到合成用LPC参数,并将其输出到LPC合成单元206。另外,参数解码单元202将通过传输路径201传送来的两个音源代码传送到自适应代码本203以及概率代码本204,并指定输出的音源样本。另外,参数解码单元202对通过传输路径201传送来的增益代码进行解码而得到增益参数,并将其输出到增益调整单元205。
接着,自适应代码本203和概率代码本204输出由两个音源代码所指定的音源样本,并输出到增益调整单元205。增益调整单元205通过将从两个音源代码本得到的音源样本乘以从参数解码单元202得到的增益参数,然后相加,从而求音源矢量,并将其输出到LPC合成单元206。
LPC合成单元206对音源矢量利用合成用LPC参数进行滤波而求出合成音,将其作为输出语音207。另外,在该合成之后,大多使用后置滤波器(postfilter),进行使用合成用参数的极限增强、高域增强等。
以上是有关基本算法CELP的说明。
接下来,使用附图详细地说明本发明的实施方式涉及的可扩展编解码器的编码装置/解码装置的结构。
还有,在本实施方式中,以多级型的可扩展编解码器为例进行说明。另外,作为分层数,对于核心和扩展的两层的情况进行说明。
另外,作为决定可扩展编解码器的音质的编码方式,在加入核心层和扩展层的情况下,以语音的音响频带不同的频带扩展为例进行说明。该方式仅在核心编解码器中,对于得到音响频带窄的语音,如果加载扩展单元的代码,就能够得到更宽带的高质量的语音。还有,为了实现“频带扩展”,使用对输入语音或者合成音的采样频率进行变换的频率调整单元。
以下,使用图3详细地说明本发明的实施方式涉及的可扩展编解码器的编码装置的结构。另外,在以下的说明中,作为可扩展编解码器的一个方面,以在提高比特速率的过程中,将编码对象的语音信号的频带从窄带改变为宽带的、称为“频带扩展”的可扩展编解码器为例。
频率调整单元302对输入语音301进行下采样,并将得到的窄带语音信号输出到核心编码器303。下采样的方法有很多种,作为一例,可列举使用低通(Low-pass)滤波器进行所谓稀疏的方法。例如,当将16kHz采样的输入语音变换为8kHz采样时,使用将4kHz以上(8kHz采样的尼奎斯特频率)的频率分量变为极小的低通滤波器,然后对信号每隔一个地拾取(两个中稀疏一个)并存储到存储器,由此得到8kHz采样的信号。
接着,核心编码器303对窄带的语音信号进行编码,并将得到的代码输出到传输路径304和核心解码器305。
核心解码器305使用由核心编码器303得到的代码进行解码,并将得到的合成音输出到频率调整单元306。另外,核心解码器305将在解码过程中得到的参数根据需要输出到扩展编码器307。
频率调整单元306对由核心解码器305得到的合成音进行上采样,直至达到输入语音301的采样率为止,并将其输出到加法单元309。上采样的方法有很多种,作为一例可列举以下的方法,在样本之间***0而增加样本数量,经低通滤波器进行频率分量调整后,调整功率。例如,将对8kHz采样进行上采样到16kHz采样的情况下,如以下算式(1)那样,首先,每隔一个位置***0而得到信号Yj,并且求每一个样本的振幅p。
【算式1】
Xi(i=1~I):核心解码器A15的输出序列(合成音)
Figure A20058003805500101
p = Σ I = 1 I Xi × Xi / I
接着,将Yj通过低通滤波器,将大于等于8kHz的频率分量减少到极小。对得到的16kHz采样的信号Zi,如以下算式(2)那样,求Zi的每一个样本的振幅q,平滑地调整增益,以使其接近算式(1)求出的值,并得到合成音Wi。
【算式2】
q = Σ I = 1 2 I Zi × Zi / 2 I
对i=1~2I进行以下处理。
g = ( g × 0.99 ) + ( q / p × 0.01 ) Wi = Zi × g
另外,作为上述中的g的初始值,预先规定适当的常数(例如0)。
还有,作为在频率调整单元302、核心编码器303、核心解码器305、频率调整单元306中使用的滤波器,使用相位分量偏移的滤波器时,在频率调整单元306中需要进行调整,以使相位分量也和输入语音301相匹配。关于该方法,可以预先计算至此为止的滤波器的相位分量的偏移,将该反特性乘以Wi,而使相位匹配。通过使相位保持匹配,能够求出与输入语音的单纯的差分信号,能够由扩展编码器307进行高效率的编码。
加法单元309反转由频率调整单元306得到的合成音的代码,并与输入语音301相加,也就是说,从输入语音301中减去合成音。加法单元309将在该处理中得到的语音信号的差分信号308,输出到扩展编码器307。
扩展编码器307将输入语音301和差分信号308输入,利用由核心解码器305得到的参数,对差分信号308进行高效率的编码,并将得到的代码输出到传输路径304。
以上是与本实施方式有关的可扩展编解码器的编码装置的说明。
接下来,使用图4详细地说明本发明的实施方式涉及的可扩展编解码器的解码装置的结构。
核心解码器402从传输路径401取得解码所需的代码,对其进行解码而得到合成音。核心解码器402具有和图3的编码装置的核心解码器305同样的解码功能。另外,核心解码器402还根据需要输出合成音406。还有,为了在听觉上易于听到而对该合成音406进行调整是有效的。作为示例,这里列举使用后置滤波器,这种后置滤波器使用经核心解码器402解码的参数。另外,核心解码器402根据需要,将合成音输出到频率调整单元403。还有,将在解码过程中得到的参数根据需要输出到扩展解码器404。
频率调整单元403对从核心解码器402得到的合成音进行上采样,将上采样后的合成音输出到加法单元405。还有,频率调整单元403的功能和图3的频率调整单元306相同,所以省略其说明。
扩展解码器404对从传输路径401取得的代码进行解码而得到合成音。然后,扩展解码器404将得到的合成音输出到加法单元405。在该解码时,通过利用由核心解码器402在解码过程中得到的参数进行解码,能够得到质量良好的合成音。
加法单元405将由频率调整单元403得到的合成音和由扩展解码器404得到的合成音相加,从而输出合成音407。另外,为了在听觉上易于听到而对该合成音407进行调整是有效的。作为示例,这里列举使用后置滤波器,这种后置滤波器使用经扩展解码器404解码的参数。
如上所述,图4的解码装置能够输出合成音406和合成音407的两个合成音。合成音406是仅从核心层得到的代码,而合成音407则是从核心层和扩展层的代码得到的质量更好的合成语音。到底利用哪一种,能够由使用该可扩展编解码器的***确定。还有,如果在***中只利用核心层的合成音406,则可以省略编码装置的核心解码器305、频率调整单元306、加法单元309、扩展编码器307、解码装置的频率调整单元403、扩展解码器404、加法单元405等。
以上是可扩展编解码器的解码装置的说明。
接下来,详细地说明在本实施方式的编码装置/解码装置中,扩展编码器以及扩展解码器利用从核心解码器得到的参数的方法。
首先,使用图5,详细地说明本实施方式涉及的编码装置的扩展编码器,利用从核心解码器得到的参数的方法。图5是表示图3的可扩展编解码器的编码装置的扩展编码器307的结构的方框图。
LPC分析单元501对输入语音301,通过进行自相关分析和LPC分析而得到LPC系数;另外,对得到的LPC系数进行编码而得到LPC代码;还有,对得到的LPC代码进行解码而得到解码LPC系数。另外,LPC分析单元501使用从核心解码器305得到的合成LPC参数,进行高效率的量化。有关LPC分析单元501的内部结构的详细情况,将在后面论述。
自适应代码本502和概率代码本503将由两个音源代码指定的音源样本输出到增益调整单元504。
增益调整单元504对每个音源样本乘以增益后相加而得到音源矢量,然后将其输出到LPC合成单元505。
LPC合成单元505通过对由增益调整单元504得到的音源矢量进行使用了LPC参数的滤波而得到合成音。但是,在实际编码中,对增益调整前的两个音源矢量(自适应音源、概率音源),一般是利用由LPC分析单元501得到的解码LPC系数进行滤波,从而得到两个合成音,并将其输出到比较单元506。这是为了更有效地进行音源的编码。
比较单元506计算由LPC合成单元505得到的合成音和差分信号308的距离,控制由增益调整单元504与来自两个代码本的音源样本相乘的增益,寻找使距离成为最近的两个音源的代码的组合。但是,在实际的编码中,一般是对由LPC合成单元505得到的两个合成音和差分信号308的关系进行分析,求两个合成音的最佳值(最佳增益)的组合,将根据该最佳增益经增益调整单元504进行了增益调整的各个合成音相加,从而得到总合成音,再计算该总合成音和差分信号308的距离。然后,计算多个合成音和差分信号308的距离,比较得出的距离而求出距离成为最小的两个音源样本的索引,所述多个合成音是对自适应代码本502和概率代码本503的所有的音源样本,使用增益调整单元504、LPC合成单元505而得到的。如此,能够更加高效率地求两个代码本的音源的代码。
另外,在该音源搜索中,同时要对自适应代码本和概率代码本进行最佳化,这通常在计算量上是不可能的,为此,更加一般的办法,是进行逐个决定代码的开环搜索。也就是说,对只有自适应音源的合成音和差分信号308进行比较而得到自适应代码本的代码,接着固定来自该自适应代码本的音源,从而控制来自概率代码本的音源样本,并利用最佳增益的组合得到多个综合合成音,通过对其和差分信号进行比较来决定概率代码本的代码。通过以上的步骤,就能够用比较现实的计算量来实现搜索。
然后,将两个代码本的索引(代码)、以及对应于该索引的两个合成音和差分信号308输出到参数编码单元507。
参数编码单元507使用两个合成音和差分信号308的相关进行最佳增益的编码而得到增益代码。然后,汇总LPC代码、两个代码本的音源样本的索引(音源的代码),并输出到传输路径304。另外,根据增益代码和对应于音源代码的两个音源样本,对音源信号进行解码,并将其存储到自适应代码本502。这时,丢弃旧的音源样本。也就是说,将自适应代码本502的解码音源数据从新到旧进行存储移位,丢弃旧的数据,将通过解码生成的音源信号存储到新的空余的部分。该处理称为自适应代码本的状态更新(update)。
接下来,使用图6的方框图,详细地说明LPC分析单元501的内部结构。LPC分析单元501主要由分析单元601、参数变换单元602、以及量化单元603构成。
分析单元601对输入语音301进行分析并求参数。在以CELP为基本方式的情况下,进行线性预测分析而求参数。然后,变换为易于量化的LSP、PARCOR、ISP等的参数矢量,并输出到量化单元603。将输出到该量化单元603的参数矢量称为“目标矢量(target vector)”。参数矢量如果是能由矢量量化(VQ)高效率地完成量化的参数矢量的话,则在解码时,能够合成产生质量更佳的语音。另外,这时,如果目标矢量如果和解码LPC参数是相同种类、相同长度的参数矢量,则在参数变换单元602能够省略对参数的种类或者长度进行变换的处理。还有,作为分析对象,也可以使用差分信号308来代替输入语音301。
参数变换单元602将解码LPC参数变换为对量化有效的参数。这里将得到的矢量称为“宽带的解码LPC参数”。还有,当该参数和在分析单元601得到的参数是不同种类、或者不同长度的参数矢量时,在处理的最后需要进行变换处理,以使得种类或者长度相匹配。另外,有关该参数变换单元602的内部处理的详细情况,将在后面论述。
量化单元603使用宽带的解码LPC参数,对从分析单元601得到的目标矢量进行量化而得到LPC代码。
下面,作为使用解码LPC参数的量化的例子,说明以下的两个量化方式。还有,在以下的说明中,以目标矢量和宽带的解码LPC参数是相同种类、相同长度的参数矢量为前提进行说明。
(1)对与核心系数的差进行编码时
(2)包含核心系数利用预测VQ进行编码时
首先,有关(1)的量化方式进行说明。
首先,将量化对象的LPC系数变换为易于量化的参数(以下,简称为“目标系数”)。接着,从目标系数减去核心系数。还有,因为两者都是矢量,所以是作为矢量的减法运算。然后,对得到的差分矢量通过矢量量化(预测VQ、***(split)VQ、多段VQ)而进行量化。这时,虽然只求差分的方法也是有效的,但是如果不只是求差分,而且用矢量的各元素进行与其相关对应的减法运算,则能够完成更高精度的量化。以下的算式(3)表示一例。
【算式3】
Di=Xi-βi·Yi
Di:差分矢量、Xi:目标系数、Yi:核心系数、βi:相关系数
在上述算式(3)中,事先存储预先统计性求出的βi,并使用它。还有,也有固定为βi=1.0的方法,但是这种情况成为单纯的差分。相关度的决定通过预先对多个语音的数据使用可扩展编解码器的编码装置,对输入到扩展编码器307的LPC分析单元501的多个目标系数和核心系数进行相关分析来完成。这能够通过求使以下算式(4)的误差功率E成为最小的βi来实现。
【算式4】
E = Σ i Σ i Dt , i 2 = Σ i Σ i ( Xt , i - βi · Yt , i ) 2 t:样本号
然后,将上述最小化的βi,根据以βi对E进行偏微分的算式所具有的对所有的i都为0的性质,利用以下算式(5)得到。
【算式5】
βi=∑Xt,i·Yt,i/∑Yt,i·Yt,i
因此,如果使用上述的βi而取差分的话,就能够实现精度更高的量化。
接着,说明(2)的量化方式。
预测VQ是和上述差分后的矢量量化相同,对目标系数与使用以前的多个解码参数以固定的预测系数而取得的积和之间的差分进行矢量量化。将该差分矢量表示为以下的算式(6)。
【数6】
Di = Xi - Σ m δm , i · Ym , i
Di:差分矢量、Xi:目标系数、Ym,i:以前的解码参数、δm,i:预测系数(固定)
作为上述的“以前的解码参数”,有使用解码后的矢量本身的方法以及使用在矢量量化中的形心(centroid)的两种方法。前者预测能力虽强,但由于差错的传播遍及较长期间,所以后者不容易发生比特差错。
因此,如果在该Ym,i中一定包含核心系数的话,则核心系数在该时间参数中的相关度也较高,所以能够得到良好的预测能力,比起上述(1)的量化方式能够以更高的精度进行量化。例如,使用形心时,在预测次数为4的情况下,就成为如下的算式(7)。
【算式7】
Y0,i:核心系数
Y1,i:前一个的形心(或归一化后的形心)
Y2,i:前两个的形心(或归一化后的形心)
Y3,i:前三个的形心(或归一化后的形心)
归一化:为了使动态范围一致,乘以
另外,预测系数δm,i和(1)的量化方式的βi相同,根据使有关多个数据的误差功率以各个预测系数进行偏微分的算式的值为0而求。这种情况下,通过解有关m的联立一次方程式而求。
如以上所述,通过使用由核心层得到的核心系数,就能完成高效率的LPC参数的编码。
还有,作为预测VQ的方式,还有在预测的积和中包含形心的情形。其方法用括号表示在算式(7)中,所以省略说明。
另外,在上述分析单元601的说明中,将分析对象规定作为输入语音301,但即使使用差分信号308,通过同样的方法,也能够实现参数的提取和编码。其算法与使用输入语音301的情况相同,所以省略说明。
以下,说明使用解码LPC参数进行量化。
接下来,使用图7详细地说明本实施方式的解码装置的扩展解码器利用由核心解码器得到的参数的方法。图7是表示图4的可扩展编解码器的解码装置的扩展解码器404的结构的方框图。
参数解码单元701对LPC代码进行解码而得到合成用LPC参数,并将其输出到LPC合成单元705。另外,参数解码单元701将两个音源代码传送到自适应代码本702以及概率代码本703,并指定被输出的音源样本。另外,参数解码单元701根据由增益代码和核心层得到的增益参数,进行最终的增益参数的解码,并输出到增益调整单元704。
自适应代码本702和概率代码本703将由两个音源索引指定的音源样本输出到增益调整单元704。增益调整单元704将从两个音源代码本得到的音源样本乘以从参数解码单元701得到的增益参数后相加而得到总音源,并将其输出到LPC合成单元705。另外,增益调整单元704将总音源存储到自适应代码本702。这时,丢弃旧的音源样本。也就是说,将自适应代码本702的解码音源数据,从新到旧进行存储移位,并丢弃未存入到存储器中的旧的数据,将通过解码所生成的总音源存储到新的空余的部分。该处理称之为自适应代码本的状态更新。
LPC合成单元705从参数解码单元701得到了最终解码后的LPC参数,并对总音源使用LPC参数进行滤波而得到合成音。得到的合成音被输出到加法单元405。还有,在该合成之后,为了易于听到语音,一般情况下使用后置滤波器,这种后置滤波器采用相同的LPC参数。
图8是表示在本实施方式涉及的参数解码单元701的内部结构中,有关LPC参数的解码功能的结构的方框图。使用该图说明解码LPC参数的利用方法。
参数变换单元801将解码LPC参数变换为对解码有效的参数。这里将得到的矢量称为“宽带的解码LPC参数”。还有,当该参数和在逆量化单元802从LPC代码得到的参数,是不同种类、或者不同长度的参数矢量时,在处理的最后,需要进行变换处理以使种类或者长度相匹配变换。另外,有关该参数变换单元801的内部处理的详细情况,将在后面论述。
逆量化单元802使用参照LPC代码从代码本得到的形心和宽带的解码LPC参数进行解码,得到解码LPC参数。LPC代码如同在编码器端的说明所论述的那样,是利用矢量量化(VQ)等对输入信号进行分析而得到的PARCOR或者LSP等易于量化的参数进行量化所得到的代码,并进行对应于该编码的解码。这里作为例子,说明与编码器端相同的以下的两个解码方式。
(1)对与核心系数的差进行编码时
(2)包含核心系数利用预测VQ进行编码时
首先,在(1)的量化方式中,将核心系数与经编码LPC代码(用VQ、预测VQ、***VQ、多段VQ进行编码的代码的解码)而得到的差分矢量相加,由此进行解码。这时,只做加法运算的方法也是有效的,但是利用矢量的各元素通过对应于其相关的减法运算而进行量化时,就要进行与其对应的加法运算。用以下的算式(8)来表示一个示例。
【算式8】
Oi=Di+βi·Yi
Oi:解码矢量、Di:经解码的差分矢量、Yi:核心系数
βi:相关度
在上述算式(8)中,事先存储统计性求出的βi,并使用它。该相关度是和编码装置相同的值。因此,该求取的方法也和在LPC分析单元501中说明的情况完全相同,所以省略对其说明。
另外,在(2)的量化方式中,使用以前的多个解码参数以固定的预测系数取得积和,并与解码后的差分矢量相加。将该加法运算表示为算式(9)。
【数9】
Oi = Di + Σ m δm , i · Ym , i
Oi:解码矢量、Di:经解码的差分矢量、
Ym,i:以前的解码参数、δm,i:预测系数(固定)
作为上述的“以前的解码参数”,有使用在以前解码过的解码矢量本身的方法以及使用在矢量量化中的形心(这时,是以前解码的差分矢量)的两种方法。因此,与编码器同样,如果在该Ym,i中一定包含核心系数的话,则核心系数在该时间参数中的相关度也较高,所以能够得到良好的预测能力,能够比(1)的量化方式以更高精度进行矢量解码。例如,使用形心时,在预测次数4的情况下,成为如编码装置(LPC分析单元501)的说明中所使用的算式(7)。
这样,通过使用在核心层得到的核心系数,能够进行高效率的LPC参数的解码。
接下来,使用图9的方框图说明图6、图8的参数变换单元602、801的详情。还有,参数变换单元602和参数变换单元801具有完全相同的功能,将窄带的解码LPC参数(参照矢量)变换为宽带的解码参数(变换后的参照矢量)。
在本实施方式的说明中,以频带扩展的情况为例进行说明。另外,作为改变频率分量的方法,论述使用采样率的变换的情况。另外,作为具体示例,论述使采样率为两倍的情况。
上采样处理单元901对窄带的解码LPC参数进行上采样。作为该方法的一个例子论述以下的方法:因为称为PARCOR、LSP、ISP的LPC参数和自相关系数是可逆的,利用这一点在自相关系数上进行上采样,进而通过再次分析而返回到原来的参数。(矢量的次数一般会增多)
首先,将解码LPC参数变换为线性预测分析中的α参数。α参数通常根据自相关分析,利用Levinson-Durbin算法来求,而利用该渐进式的处理是可逆的,α参数能够通过逆变换而变换为自相关系数。因此,只要在该自相关系数上实现上采样就可以了。
设求自相关函数的原信号为Xi,自相关函数Vj能够用以下的算式(10)来求。
【算式10】
Vj = Σ i Xi · Xi - j
设上述的Xi为偶数号码的样本时,能够写成如下的算式(11)。
【算式11】
Vj = Σ i X 2 i · X 2 i - 2 j
在此,设扩大为两倍的采样时的自相关函数为Wj时,偶数和奇数的次数不相同,成为如下的算式(12)。
【算式12】
W 2 j = Σ i X 2 i · X 2 i - 2 j + Σ i X 2 i + 1 · X 2 i + 1 - 2 j
W 2 j + 1 = Σ i X 2 i · X 2 i - 2 j - 1 + Σ i X 2 i + 1 · X 2 i + 1 - 2 j - 1
在此,为了插补奇数号码的X而使用多层滤波器Pm时,上述两个算式(11)、(12)能够变形为如下的算式(13),多层滤波器能够利用偶数号码的X的线性和而插补其间的奇数号码的值。
【算式13】
W 2 j = Σ I X 2 i · X 2 i - 2 j + Σ I ( Σ m Pm · X 2 ( i + m ) ) · ( Σ n Pn · X 2 ( i + n ) - 2 )
= Vj + Σ m Σ n Vj + m - n
W 2 j + 1 = Σ I X 2 i · Σ m Pm · X 2 ( i + m ) - 2 ( j + 1 ) + Σ I Σ m Pn · X 2 ( i + m ) · X 2 i - 2 j
= Σ m Pm ( Vj + 1 - m + Vj + m )
因而,如果原来的自相关函数Vj具有所需的次数部分,则利用插补就能够变换为两倍采样的自相关函数Wj。因此,对于得到的Wj,再次适用Levison-Durbin法的算法,由此能够得到α参数,所述α参数为接受了在扩展层能够使用的采样率调整的α参数。这里称之为“采样调整过的解码LPC参数”。
矢量量化单元902从存储在代码本903的所有的代码矢量中,取得对应于窄带的解码LPC参数的代码矢量的号码。具体地说,矢量量化单元902求出存储在代码本903的所有的代码矢量和经矢量量化的窄带的解码LPC参数的欧几里德距离(矢量的各元素的差的2次方和),并求出该值成为最小的代码矢量的号码。
矢量逆量化单元904参照由矢量量化单元902求出的代码矢量的号码,从代码本905中,对代码矢量(也称为“作用代码矢量”)进行选择,并将其输出到变换处理单元906。这时候,其性能因代码本905所存储的代码矢量而发生变化,有关这方面的内容将在后面论述。
变换处理单元906通过使用由上采样处理单元901得到的经采样调整的解码LPC参数、以及由矢量逆量化单元904得到的作用代码矢量进行运算,得到宽带的解码LPC参数。这里,有关两个矢量的运算,因作用代码矢量的性质而有所不同。有关这方面的内容也将在后面论述。
在此,作为存储在代码本905的代码矢量的例子,有关“差分矢量”的情况,将在下面详细地表示,即:由矢量逆量化单元904从代码本905选择的作用代码矢量、变换处理单元906的功能及其效果、还有代码本903、905的生成方法。
当代码矢量为差分矢量时,由变换处理单元906将经采样调整的解码LPC参数和作用代码矢量相加,由此得到宽带的解码LPC参数。
该方法能够得到与在频谱上的插补相同的效果。设编码前的开始的输入信号(宽带)的频率分量如图10(A)所示,核心层因为在该输入前接受频率调整(下采样),所以成为窄带。因此,解码LPC参数的频率分量如图10(B)所示。当对该参数进行上采样处理时(在本实施方式中为两倍),成为如图10(C)所示的频谱。频率带宽成为两倍,而频率分量本身并不变化,所以,在高频不存在频率分量。在这里,根据低频的频率分量能够在某种程度上预测高频的分量的性质,已经众所周知,因而能够通过某些变换,如图10(D)所示,对高频进行预测和插补。该方法称为“宽带化”,MPEG的标准频带扩展方式的SBR(Spector Band Replication,频带复制)是其中的一种方法。本发明的参数变换单元602、801构思在于将上述频谱上的方法与参数矢量本身相对应而适用,其效果根据以上的说明是显而易见的。图6的LPC分析单元501的对应关系分别表示如下,图10(A)与输入到量化单元603的量化对象的LPC参数相对应;图10(B)与窄带的解码LPC参数相对应;图10(C)与上采样处理单元901的输出的经采样调整的解码LPC参数相对应;图10(D)与变换处理单元906的输出的宽带的解码LPC参数相对应。
接下来,论述代码本903的生成方法。存储在代码本903的代码矢量是表示被输入的解码LPC参数整体的空间的代码矢量。首先,对于多个学习用的输入数据,通过使用编码器得到多个解码LPC参数。接着,对于该数据库,利用LBG(Linde-Buzo-Gray)算法等的分群算法,求指定数目的代码矢量。然后,存储该代码矢量而生成代码本903。还有,发明人通过实验确认了当代码矢量数目为128以上时,就能够收到本发明的效果。
接下来,论述代码本905的生成方法。存储在代码本905的代码矢量为,对每一个存储到代码本903的代码矢量,利用统计方法来求作为误差为最少的差分矢量。首先,对于多个学***均值,将其作为该号码的代码矢量。然后,存储该代码矢量而生成代码本905。该代码矢量在学习数据中,是“采样调整过的解码LPC参数”成为最接近于“量化对象的LPC参数”的差分矢量的集合。
利用以上的两个代码本,能够求误差少的宽带的解码LPC参数,在量化单元603或者逆量化单元802能够进行高效率的编码/解码。
还有,在上述说明中,虽然将作用代码矢量设为“差分矢量”,然而,当其不为差分时,也就是说,作用代码矢量和“宽带的解码LPC参数”是同维、同类型的矢量,即使变换处理单元906在使用其生成宽带的解码LPC参数时,本发明也是有效的。这种情况下,如图11所示,对于图9,不再需要上采样处理单元901,通过变换处理单元906不仅单纯地进行加法运算,而且进行使用作用代码矢量的运算(作用代码矢量的通过、线性预测运算、非线性预测运算等)。
此时,存储到代码本905的代码矢量为,对每一个存储在代码本903中的代码矢量,误差成为最少而根据统计方法求出的与“宽带的解码LPC参数”为同维、同类型的矢量。首先,对于多个学***均值,将其作为该号码的代码矢量。然后,存储该代码矢量而生成代码本905。该代码矢量的集合,在学习数据中,是“采样调整过的解码LPC参数”,成为最接近于“量化对象的LPC参数”的矢量的集合。
上述的情况下,特别是在“作用代码矢量的通过”时,如图11所示,对于图9不再需要上采样处理单元901。
在此,以数值来表示实际的编码/解码的效果。进行了将从多个语音数据得到的LSP参数矢量量化的实验。该实验条件为:矢量量化为预测VQ,在参数变换单元602、801中代码本903、905的大小为128,将差分矢量存储在代码本905中。其结果,在未适用本发明的条件下,利用CD(倒频谱距离)只能得到1.0~1.3dB的性能的量化,而利用本发明,则可以确认到0.1dB左右的较大的提高。由此也可验证本发明是很有效的。
如上所述,根据本实施方式,准备保有代码矢量的两个不同的代码本,使用窄带的解码LPC参数和代码矢量进行运算,由此能够得到高精度的宽带的解码LPC参数,因而,能够进行高性能的频带可扩张性编码、解码。
还有,本发明并不限定于多级型,即使是组合型,也能够利用下位层的信息。这是因为本发明不受的输入种类的差异的影响。
另外,本发明即使在不是频带扩展的情况时(频率无变化的情况),也是有效的。如果频率相同,则无需频率调整单元302、306或者LPC的采样变换。该实施方式能够容易地根据上述说明进行类推。图12表示去除上采样处理单元901的参数变换单元602、801的情形。这种情况时的代码本905的生成方法表示如下。
代码本905中所存储的代码矢量为,对每一个存储在代码本903中的代码矢量,以使其误差成为最少而统计地求出的差分矢量。首先,对于多个学***均值,并使该值成为该号码的代码矢量。然后,存储该代码矢量而生成代码本905。该代码矢量的集合,在学习数据中,是“解码LPC参数”成为最接近于“量化对象的LPC参数”的差分矢量的集合。另外,变换处理单元906也可以进行使用作用代码矢量的加权运算,而不仅单纯地进行加法运算。
另外,本发明也能够适用于CELP以外的方式。例如,在ACC、Twin-VQ、MP3等的音频编解码器的分层化、MPLPC等的语音编解码器的分层化的情况下,在后者中作为参数是同样的参数,所以与说明也是相同的;而对前者而言,在频带功率的编码中,与本发明的增益参数的编码/解码的说明也是相同的。
另外,本发明能够适用于作为分层数在两层以上的可扩展编解码器。还有,即使是由核心层得到LPC、自适应代码本的信息、增益的信息以外的信息的情况,也能够适用本发明。例如,SC的音源矢量的信息由核心层得到时,核心层的音源乘以固定系数,并和音源候补相加,将由此得到的音源作为候补,进行合成搜索、编码即可,这一点也是显而易见的。
还有,在本实施方式中,作为输入信号,说明了将语音信号作为对象的情况,但本发明能够与语音信号以外的信号(音乐或者噪声、环境音、影像、以及指纹或者虹彩等的生物信号等)完全对应。
本说明书是根据2004年11月4日申请的日本专利申请第2004-321248号。其内容全部包含于此作为参考。
工业实用性
本发明能够通过提高矢量量化的性能来提高包含语音在内的信号质量,适用于通信装置以及识别装置等的信号处理。

Claims (7)

1.一种矢量变换装置,对用于输入矢量的量化的参照矢量进行变换,它包括:
第一代码本,存储通过对矢量空间进行分群而求出的多个第一代码矢量;
矢量量化单元,从存储在上述第一代码本内的第一代码矢量中,取得对应于参照矢量的代码矢量的号码;
第二代码本,对每一个上述号码存储第二代码矢量,该第二代码矢量是对每一个上述号码,对与多个学习用输入矢量对应的多个学习用参照矢量进行统计处理而得到的;
矢量逆量化单元,从存储在上述第二代码本内的第二代码矢量中,取得对应于由上述矢量量化单元取得的号码的代码矢量;以及,
变换处理单元,对由上述矢量逆量化单元取得的第二代码矢量进行变换,从而取得变换后的参照矢量。
2.如权利要求1所述的矢量变换装置,其中,
上述第二代码本将差分矢量作为第二代码矢量存储,该差分矢量是对于每个上述号码,使上述学习用的输入矢量和上述学习用的参照矢量之间的差分成为最小地进行统计处理而得到的;
上述变换处理单元将由上述矢量逆量化单元取得的第二代码矢量和参照矢量相加,从而取得变换后的参照矢量。
3.如权利要求1所述的矢量变换装置,还包括:
上采样处理单元,对参照矢量进行上采样,
上述变换处理单元将由上述矢量逆量化单元取得的第二代码矢量和经上采样的参照矢量相加,从而取得变换后的参照矢量。
4.如权利要求2所述的矢量变换装置,对第二代码矢量和参照矢量进行加权加法运算,从而取得变换后的参照矢量。
5.如权利要求1所述的矢量变换装置,其中,
统计处理是平均处理。
6.一种量化装置,使用由权利要求1所述的矢量变换装置得到的变换后的参照矢量,对输入矢量进行量化。
7.一种矢量变换方法,是对用于输入矢量的量化的参照矢量进行变换的矢量变换方法,它包括:
第一存储步骤,将通过对矢量空间进行分群而求出的多个第一代码矢量存储在第一代码本中;
矢量量化步骤,从上述第一代码本内所存储的第一代码矢量中,取得对应于参照矢量的代码矢量的号码;
第二存储步骤,对每一个上述号码将第二代码矢量存储在第二代码本中,该第二代码矢量是对每一个上述号码,对与学习用输入矢量对应的多个学习用参照矢量进行统计处理而得到的;
矢量逆量化步骤,从存储在上述第二代码本内的第二代码矢量中,取得对应于由上述矢量量化步骤取得的号码的代码矢量;以及,
变换处理步骤,对由上述矢量逆量化步骤取得的第二代码矢量进行变换,从而取得变换后的参照矢量。
CN2005800380550A 2004-11-04 2005-11-01 矢量变换装置以及矢量变换方法 Expired - Fee Related CN101057275B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP321248/2004 2004-11-04
JP2004321248A JP4871501B2 (ja) 2004-11-04 2004-11-04 ベクトル変換装置及びベクトル変換方法
PCT/JP2005/020129 WO2006049179A1 (ja) 2004-11-04 2005-11-01 ベクトル変換装置及びベクトル変換方法

Publications (2)

Publication Number Publication Date
CN101057275A true CN101057275A (zh) 2007-10-17
CN101057275B CN101057275B (zh) 2011-06-15

Family

ID=36319184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005800380550A Expired - Fee Related CN101057275B (zh) 2004-11-04 2005-11-01 矢量变换装置以及矢量变换方法

Country Status (9)

Country Link
US (1) US7809558B2 (zh)
EP (1) EP1796084B1 (zh)
JP (1) JP4871501B2 (zh)
KR (1) KR20070083957A (zh)
CN (1) CN101057275B (zh)
BR (1) BRPI0517778A (zh)
CA (1) CA2586251A1 (zh)
RU (1) RU2007116804A (zh)
WO (1) WO2006049179A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104299618A (zh) * 2008-07-14 2015-01-21 韩国电子通信研究院 统合地编码语音信号和音频信号的编码方法和解码方法
CN114171035A (zh) * 2020-09-11 2022-03-11 海能达通信股份有限公司 抗干扰方法及装置

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7610195B2 (en) 2006-06-01 2009-10-27 Nokia Corporation Decoding of predictively coded data using buffer adaptation
JP4871894B2 (ja) * 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
US8620648B2 (en) * 2007-07-27 2013-12-31 Panasonic Corporation Audio encoding device and audio encoding method
EP2045800A1 (en) * 2007-10-05 2009-04-08 Nokia Siemens Networks Oy Method and apparatus for transcoding
ES2650492T3 (es) 2008-07-10 2018-01-18 Voiceage Corporation Dispositivo y método de cuantificación de filtro LPC de múltiples referencias
JPWO2011048810A1 (ja) * 2009-10-20 2013-03-07 パナソニック株式会社 ベクトル量子化装置及びベクトル量子化方法
JP5746974B2 (ja) * 2009-11-13 2015-07-08 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 符号化装置、復号装置およびこれらの方法
EP2515299B1 (en) * 2009-12-14 2018-06-20 Fraunhofer Gesellschaft zur Förderung der Angewand Vector quantization device, voice coding device, vector quantization method, and voice coding method
MX2012011943A (es) * 2010-04-14 2013-01-24 Voiceage Corp Libro de códigos de innovacion combinado, flexible y escalable para uso en codificador y decodificador celp.
JP5711733B2 (ja) * 2010-06-11 2015-05-07 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 復号装置、符号化装置及びこれらの方法
US8924200B2 (en) * 2010-10-15 2014-12-30 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
US8868432B2 (en) * 2010-10-15 2014-10-21 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
CN102783034B (zh) * 2011-02-01 2014-12-17 华为技术有限公司 用于提供信号处理系数的方法和设备
JP5817499B2 (ja) * 2011-12-15 2015-11-18 富士通株式会社 復号装置、符号化装置、符号化復号システム、復号方法、符号化方法、復号プログラム、及び符号化プログラム
US20150170655A1 (en) * 2013-12-15 2015-06-18 Qualcomm Incorporated Systems and methods of blind bandwidth extension

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4926488A (en) * 1987-07-09 1990-05-15 International Business Machines Corporation Normalization of speech by adaptive labelling
JP2779886B2 (ja) * 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
JP3483958B2 (ja) * 1994-10-28 2004-01-06 三菱電機株式会社 広帯域音声復元装置及び広帯域音声復元方法及び音声伝送システム及び音声伝送方法
US6889182B2 (en) * 2001-01-12 2005-05-03 Telefonaktiebolaget L M Ericsson (Publ) Speech bandwidth extension
US6895375B2 (en) * 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
US7752052B2 (en) * 2002-04-26 2010-07-06 Panasonic Corporation Scalable coder and decoder performing amplitude flattening for error spectrum estimation
JP2003323199A (ja) * 2002-04-26 2003-11-14 Matsushita Electric Ind Co Ltd 符号化装置、復号化装置及び符号化方法、復号化方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104299618A (zh) * 2008-07-14 2015-01-21 韩国电子通信研究院 统合地编码语音信号和音频信号的编码方法和解码方法
CN114171035A (zh) * 2020-09-11 2022-03-11 海能达通信股份有限公司 抗干扰方法及装置

Also Published As

Publication number Publication date
EP1796084A1 (en) 2007-06-13
EP1796084A4 (en) 2008-07-02
JP2006133423A (ja) 2006-05-25
CA2586251A1 (en) 2006-05-11
KR20070083957A (ko) 2007-08-24
BRPI0517778A (pt) 2008-10-21
US20080126085A1 (en) 2008-05-29
EP1796084B1 (en) 2014-06-04
JP4871501B2 (ja) 2012-02-08
CN101057275B (zh) 2011-06-15
WO2006049179A1 (ja) 2006-05-11
RU2007116804A (ru) 2008-11-20
US7809558B2 (en) 2010-10-05

Similar Documents

Publication Publication Date Title
CN101057275A (zh) 矢量变换装置以及矢量变换方法
CN1158648C (zh) 语音可变速率编码方法与设备
CN1202514C (zh) 编码和解码语音及其参数的方法、编码器、解码器
CN1165892C (zh) 对宽带信号进行解码时的周期性增强的方法和设备
CN1200403C (zh) 线性预测编码参数的矢量量化装置
CN1288625C (zh) 音频编码与解码设备及其方法
CN1252681C (zh) 一种码激励线性预测语音编码器的增益量化
CN1264138C (zh) 复制语音信号、解码语音、合成语音的方法和装置
CN1324558C (zh) 编码设备,解码设备以及音频数据分配***
CN1240978A (zh) 音频信号编码装置、解码装置及音频信号编码、解码装置
CN1689069A (zh) 声音编码设备和声音编码方法
CN1233163C (zh) 多声道数字音频信号的压缩编码和解码设备及其方法
CN1890714A (zh) 一种优化的复合编码方法
CN1156872A (zh) 语音编码的方法和装置
CN1457425A (zh) 用于语音编码的码本结构与搜索
CN1159691A (zh) 用于声频信号线性预测分析的方法
CN1391689A (zh) 宽带语音和音频信号解码器中的增益平滑
CN1154013A (zh) 信号编码方法和装置
CN101076853A (zh) 宽带编码装置、宽带线谱对预测装置、频带可扩展编码装置以及宽带编码方法
CN1155725A (zh) 语音编码方法和装置
CN1297222A (zh) 信息处理设备、方法和记录媒体
CN1741393A (zh) 一种音频编码中比特分配的方法
CN1702974A (zh) 用于对数字信号编码/解码的方法和设备
CN1950686A (zh) 编码装置、解码装置以及编码/解码方法
CN1751338A (zh) 用于语音编码的方法和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20140716

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140716

Address after: California, USA

Patentee after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Osaka Japan

Patentee before: Matsushita Electric Industrial Co.,Ltd.

TR01 Transfer of patent right

Effective date of registration: 20170524

Address after: Delaware

Patentee after: III Holdings 12 LLC

Address before: California, USA

Patentee before: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110615

Termination date: 20181101

CF01 Termination of patent right due to non-payment of annual fee