CN1222997A - 音频信号编码方法、解码方法,及音频信号编码装置、解码装置 - Google Patents

音频信号编码方法、解码方法,及音频信号编码装置、解码装置 Download PDF

Info

Publication number
CN1222997A
CN1222997A CN97195785A CN97195785A CN1222997A CN 1222997 A CN1222997 A CN 1222997A CN 97195785 A CN97195785 A CN 97195785A CN 97195785 A CN97195785 A CN 97195785A CN 1222997 A CN1222997 A CN 1222997A
Authority
CN
China
Prior art keywords
mentioned
frequency
vector
quantization
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN97195785A
Other languages
English (en)
Other versions
CN1156822C (zh
Inventor
则松武志
宫阪修二
中藤良久
津岛峰生
石川智一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1222997A publication Critical patent/CN1222997A/zh
Application granted granted Critical
Publication of CN1156822C publication Critical patent/CN1156822C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

为了使用矢量量化方法把音频信号进行编码,减少信息量,在编码单元1中进行编码时,选择把输入矢量进行分割生成的子矢量与发送侧代码薄29003中的各音频代码之间的听觉距离中具有最小距离的音频代码,对于与听觉重要度高的子矢量的要素相当的部分,在音频代码选择单元2900102中忽略表示其相位信息的正负符号进行处理,相对于发送侧代码薄29003中的音频代码进行比较检索,在所得到的结果上另外添加由相位信息抽取单元2900107抽取的与上述子矢量的要素部分对应的相位信息作为代码索引进行输出,由此能够不降低解码时音频信号的听觉品质,减少矢量量化的代码检索中的计算量,减少代码薄的代码数。

Description

音频信号编码方法、解码方法, 及音频信号编码装置、解码装置
技术领域
本发明涉及使用把从声音信号和音乐信号等的音频信号得到的特征量特别是音频信号用正交变换等方法从时域信号变换为频域信号,把该变换了的信号与源音频信号进行比较,以尽可能少的符号序列进行表现的有效的编码装置和方法,以及具有能够作为用被编码信号的编码序列的全部或者只是其中的一部分进行高品质和宽带音频信号解码的结构的解码装置以及方法。
技术背景
当前提出了把音频信号有效地进行编码以及解码的种种方法。特别是近年来音乐信号等具有20KHz以上频带的音频信号有MPEG方式等。MPEG方式中代表性的编码方式是把时间轴的数字音频信号使用余弦变换等的正交变换变换为频率轴上的数据,利用人的听觉的灵敏特性把该频率轴上的信息中在听觉上重要的信息进行编码,而听觉上不重要的信息和冗余信息不进行编码的方式。对于源数字信号的信息量,在要以相当少的信息量进行表现的情况下,有使用了矢量量化方法的TC-WVQ等的编码方式。MPEG音频以及TC-WVQ分别在ISO/IEC标准IS-11172-3,以及T.Moriya,H.Suga:An 8 K比特transform coderfor noisy channels,Proc.ICASSP 89,pp 196-199等中叙述。这里使用图37说明现有的音频编码装置的结构。图37中,1601是把输入信号进行频率变换的FFT单元,1602是把进行了频率变换的输入信号中的特定频带进行编码的自适应比特分配计算单元,1603是把输入信号分割为多个频带的子带分割单元,1604是把被分割为多个的频带成分进行正规化的比例因子正规化单元,1605是标量量化单元。
其次说明其动作。输入信号输入到FFT单元1601和子带分割单元1603中。在FFT单元1601中,把输入信号进行频率变换,输入到自适应比特分割单元1602中。在自适应比特分割单元1602中对于根据人的听觉特性所定义的最小可听限度和以掩蔽特性为基础的频带成分,计算出应该提供多少信息量,把各频带的信息量分配作为索引(index)进行编码。
另一方面,在子带分割单元1603中,把输入信号例如分割为32个频带后输出。而且在比例因子正规化单元1604中,对于在上述子带分割单元1603中被分割了的各个频带成分,用某个代表值进行正规化。正规化的值作为索引进行量化。在标量量化单元1605中,根据在上述自适应比特计算单元1602中计算出来的比特分配,把比例因子正规化单元1604的输出进行标量量化,把其量化值作为索引进行编码。
另外,还提出了把音响信号进行有效编码的种种方法。特别是近年来可以举出使用MPEG音频方式等把音乐信号等具有20KHz左右带宽的信号进行编码的方法。MPEG方式中代表的方式是使用正交变换把时间轴的数字音频信号变换到频率轴上,考虑人的听觉灵敏度特性把其频率轴上的信息优先根据听觉上重要的信息提供信息量的方式。对于源数字信号的信息量,在要以尽量少的信息量进行表现的情况下,有使用TCWVQ(Transform Coding for Weighted Vector Quantization)等的矢量量化的方法。MPEG音频以及TCWVQ分别ISO/IEC标准IS-11172-3以及T.Moriya,H.Suga:“An 8K比特transform coder for noisychannels,”Proc.ICASSP’89,PP196-199等中叙述。
以往的音频信号编码装置如以上那样构成,MPEG音频方式一般使用每一个通道以64000比特/秒以上的信息量进行编码的方法,在低于该信息量时,有时可再生的频带带宽和被解码的音频信号主观上看品质显著恶化。这是因为如图37所示的例那样,被编码的信息大致由比特分配,频带代表值,量化值等3个构成,而在高压缩率的情况下,在量化值上不能够充分地进行分配。另外,在以往的音频信号的编码装置中,一般是把编码信息量和解码信息量取为相同,构成编码装置以及解码装置。例如,在1秒钟以128000比特的信息量进行编码的方法中,在其解码装置中构成为以128000比特的信息量进行解码。
然而,如从以上情况可知,在以往的音频信号编码装置和解码装置中,为了得到良好的音质必须以固定的信息量进行编码以及解码,不能够以高压缩率得到高品质的音质。
本发明是为解决上述问题点而产生的,目的在于提供即使以很低的信息量进行编码以及解码,也能够得到高品质和宽再生频带,并且并不是以固定值进行编码和解码而是能够使编码以及解码时的信息量变化的音频信号编码装置以及解码装置,进而还提供音频信号编码·解码方法。
另外,在以往的音频信号编码装置中,通过输出与代码薄所具有的各代码和音频特征矢量的听觉距离为最小的代码相对应的代码索引进行量化,然而,在代码薄具有的代码很多的情况下,存在检索最佳代码时计算量非常大的问题,还有,在代码薄具有的数据量很多的情况下,存在用硬件构成时需要大量的存储器因而不经济的问题。另外,在接收一侧,也存在着需要对应于代码索引的检索以及存储量的问题。
本发明是鉴于上述这样的问题点而产生的,目的在于提供能够削减代码检索数,以代码数少的代码薄有效地量化音频信号的音频信号编码装置以及能够进行解码的音频信号解码装置。
发明的公开
本发明(权项1)的音频信号编码方法,是使用具有把输入音频信号进行频率变换得到的频率特性信号序列进行矢量量化的初级矢量量化处理和把前级矢量量化处理中的量化误差成分进行矢量量化的第2级以后的矢量量化处理的多级量化方法,进行矢量量化以及信息量的编码的音频信号编码方法,该方法在基于上述多级量化方法的多级量化处理内的至少一个矢量量化处理中,把根据输入音频信号的频谱和作为人的听觉性质的听觉灵敏特性计算出来的频率上的加权系数用作为量化的加权系数,进行矢量量化。
本发明(权项2)的音频信号编码方法,是使用具有把输入音频信号进行频率变换得到的频率特性信号序列进行矢量量化的第1矢量量化处理和把第1矢量量化处理中的量化误差成分进行矢量量化的第2矢量量化处理的多级量化方法,进行矢量量化以及信息量的编码的音频信号编码方法,该方法根据输入音频信号的频谱和作为人的听觉性质的听觉灵敏特性,选择上述第1矢量量化处理中的量化误差成分的频段中量化的重要度高的频段,在上述第2矢量量化处理中,对于上述被选择的频段进行上述第1量化处理的量化误差成分的量化。
本发明(权项3)的音频信号编码方法,是使用具有把输入音频信号进行频率变换得到的频率特性信号序列进行矢量量化的初级矢量量化处理和把前级矢量量化处理中的量化误差成分进行矢量量化的第2级以后的矢量量化处理的多级量化方法,进行矢量量化以及信息量的编码的音频信号编码方法,该方法在基于上述多级量化方法的多级量化处理内的至少一个矢量量化处理中,把根据输入音频信号的频谱和作为人的听觉性质的听觉灵敏特性计算出来的频率上的加权系数用作为量化的加权系数,进行矢量量化,而且,该方法还根据输入音频信号的频谱和作为人的听觉性质的听觉灵敏特性,选择上述初级矢量量化处理中的量化误差成分的频段中量化的重要度高的频段,在上述第2级矢量量化处理中,对于上述被选择的频段进行上述初级量化处理的量化误差成分的量化。
本发明(权项4)的音频信号编码装置具有:把输入的音频信号变换为频域信号的时间频率变换单元;计算出上述被输入的音频信号的频谱包络的频谱包络运算单元;把在上述时间频率变换单元得到频域信号用上述频谱包络运算单元得到的频谱包络进行正规化获得残差信号的正规化单元;把上述残差信号用能量进行正规化的能量正规化单元;根据上述被输入的音频信号的频谱和作为人的听觉性质的听觉灵敏特性计算频率上的加权系数的听觉加权计算单元;包括输入上述由上述能量正规化单元正规化了的上述残差信号的连接成纵列的多级矢量量化单元,并且其中至少一个矢量量化单元使用在上述听觉加权计算单元得到的加权系数进行量化的多级量化单元。
本发明(权项5)的音频信号编码装置在上述权项4中记述的音频信号编码装置中,上述多级量化单元的上述多级内的多个量化单元是使用在上述听觉加权计算单元得到的加权系数进行量化的单元,而且,上述听觉加权计算单元计算出上述多个量化单元的每一个所使用的各加权系数。
本发明(权项6)的音频信号编码装置在上述权项4中记述的音频信号编码装置中,上述多级量化单元还具有:第1级量化单元,用于以在上述频谱包络运算单元得到的频谱包络作为各频域的加权系数把在上述能量正规化单元中正规化了的上述残差信号的进行量化;第2级量化单元,用于以根据上述频谱包络与上述第1级量化单元的量化误差信号的相关性计算出来的加权系数作为各频域的加权系数进行上述第1级量化单元的量化误差信号的量化;第3级量化单元,用于把在上述听觉加权计算单元中根据在时间频率变换单元中被变换为频域信号的输入信号和听觉特性计算出来的加权系数根据上述频谱包络、上述第2级量化单元的量化误差信号以及在上述正规化单元中被正规化了的上述残差信号调整后求出的加权系数,作为各频域的加权系数进行上述第2级量化单元的量化误差信号的量化。
本发明(权项7)的音频信号编码装置具有:把输入的音频信号变换为频域信号的时间频率变换单元;计算上述被输入的音频信号的频谱包络的频谱包络运算单元;把在上述时间频率变换单元得到的频域信号用在上述频谱包络运算单元得到的频谱包络进行正规化后获得残差信号的正规化单元;把上述残差信号用能量进行正规化的能量正规化单元;进行在该能量正规化单元中被正规化了的残差信号的量化的第1矢量量化器;根据输入音频信号的频谱和作为人的听觉性质的听觉灵敏特性,选择上述第1矢量量化器内的量化误差成分的频段中量化的重要度高的频段的听觉选择装置;对于用该听觉选择装置选择了的频段进行上述第1矢量量化器的量化误差成分的量化的第2量化器。
本发明(权项8)的音频信号编码装置在上述权项7中记述的音频信号编码装置中,上述听觉选择装置把上述第1矢量量化器的量化误差成分、在上述频谱包络运算单元得到的频谱包络信号以及最小可听限度特性的逆特性进行相乘得到的值用作为要量化的重要度的尺度,选择频段。
本发明(权项9)的音频信号编码装置在上述权项7中记述的音频信号编码装置中,上述听觉选择装置把在上述频谱包络运算单元得到的频谱包络信号以及最小可听限度特性的逆特性进行相乘得到的值用作为要量化的重要度的尺度,选择频段。
本发明(权项10)的音频信号编码装置在上述权项7中记述的音频信号编码装置中,上述听觉选择装置把上述第1矢量量化器的量化误差成分、在上述频谱包络运算单元得到的频谱包络信号以及把最小可听限度特性与从输入信号计算的掩蔽特性相加了的特性的逆特性进行相乘得到的值用作为要量化的重要度的尺度,选择频段。
本发明(权项11)的音频信号编码装置在上述权项7中记述的音频信号编码装置中,上述听觉选择装置把上述第1矢量量化器的量化误差成分、在上述频谱包络运算单元得到的频谱包络信号、把最小可听限度特性与在从输入信号计算的掩蔽特性上根据在上述能量正规化单元被正规化了的残差信号在上述频谱包络运算单元得到的频谱包络信号以及上述第1矢量量化器的量化误差成分进行校正了的特性相加了的特性的逆特性进行相乘了的值用作为要量化的重要度的尺度,选择频段。
本发明(权项12)的音频信号编码装置是使用具有把输入音频信号进行频率变换得到的频率特性信号序列进行矢量量化的第1矢量量化器和把第1矢量量化器中的量化误差成分进行矢量量化的第2矢量量化器的多级量化装置,进行矢量量化以及信息量的编码的音频信号编码装置,上述多级量化装置对于上述频率特性信号序列,分为与至少分割为2个以上频带的频带相当的系数序列的同时,使上述矢量量化器对应于各个系数序列并且用所准备的多个分割矢量量化器独立地进行量化。
本发明(权项13)的音频信号编码装置在上述权项12记述的音频信号编码装置,还具有把上述频率特性信号序列进行正规化的正规化装置。
本发明(权项14)的音频信号编码装置在上述权项12记述的音频信号编码装置中,上述量化装置适当地选择量化误差的能量累加和大的频带把要量化的频率特性信号序列的频带进行量化。
本发明(权项15)的音频信号编码装置在上述权项12记述的音频信号编码装置中,上述量化装置根据作为人的听觉性质的听觉灵敏特性,适当地选择在其重要度高的频带中加权了大值的量化误差能量累加和大的频带,把要量化的频率特性信号序列进行量化。
本发明(权项16)的音频信号编码装置在上述权项12记述的音频信号编码装置中,上述量化装置具有把要量化的频率特性信号序列的频带至少进行一次全部量化的构成全频带量化单元的矢量量化器。
本发明(权项17)的音频信号编码装置在上述权项12记述的音频信号编码装置中,上述量化装置构成为前级矢量量化器使用运用了代码薄的矢量量化方法计算出矢量量化中的量化误差,对于该计算出的量化误差后级的量化单元进一步进行矢量量化。
本发明(权项18)的音频信号编码装置在上述权项17记述的音频信号编码装置中,作为上述矢量量化方法,在代码检索时使用矢量的符号全部或者其中一部分反转了的代码矢量。
本发明(权项19)的音频信号编码装置在上述权项17记述的音频信号编码装置中,还具有把频率特性信号序列进行正规化的正规化装置,在检索矢量量化中的最佳代码时使用的距离计算中,把由上述正规化装置处理了的输入信号的正规化成分作为权值计算距离,抽取给出最小距离的代码。
本发明(权项20)的音频信号编码装置在上述权项19记述的音频信号编码装置中,把考虑了由上述正规化装置处理了的频率特性信号序列的正规化成分和作为人的听觉性质的听觉灵敏特性的两者的值作为权值计算距离,抽取给出最小距离的代码。
本发明(权项21)的音频信号编码装置在上述权项13记述的音频信号编码装置中,上述正规化装置具有把频率特性信号序列的概形大致进行正规化的频率概形正规化单元。
本发明(权项22)的音频信号编码装置在上述权项13记述的音频信号编码装置中,上述正规化装置具有把频率特性信号序列分为多个连续的单位频带的成分,通过用一个值除各个单位频带进行正规化的频带振幅正规化单元。
本发明(权项23)的音频信号编码装置在上述权项12记述的音频信号编码装置中,上述量化装置具有使用分割矢量量化器把频率特性信号序列分割为各个系数序列独立地进行量化的矢量量化器,同时还具有把要量化的输入信号的频带至少进行一次全部量化的构成全频带量化单元的矢量量化器。
本发明(权项24)的音频信号编码装置在上述权项23记述的音频信号编码装置中,上述量化装置具有由低频区分割矢量量化器,中频区分割矢量量化器,高频区分割矢量量化器组成的第1矢量量化器,连接在其后级的第2矢量量化器,连接在该第2矢量量化器后级的第3矢量量化器,把输入到该矢量量化装置中的频率特性信号序列分割为3个频带,分别独立地用上述低频区分割矢量量化器进行该3个频带中的低频成分的频率特性信号序列的量化,用上述中频区分割矢量量化器进行3个频带中的中频成分的频率特性信号序列的量化,用上述高频区分割矢量量化器进行3个频带中的高频成分的频率特性信号序列的量化,用构成上述第1矢量量化器的各个分割矢量量化器计算出对于频率特性信号序列的量化误差,把该误差值作为向后级的上述第2矢量量化器的输入,在上述第2矢量量化器中,进行该第2矢量量化器要量化的带宽的量化,计算出对于该第2矢量量化器的输入的量化误差并且把该误差值作为向上述第3矢量量化器的输入,在上述第3矢量量化器中,进行该第3矢量量化器要量化的带宽的量化。
本发明(权项25)的音频信号编码装置在上述权项24记述的音频信号编码装置中,在构成上述量化装置的第1矢量量化器和第2矢量量化器之间设置第1量化频带选择单元,同时,在上述第2矢量量化器和上述第3矢量量化器之间设置第2量化频带选择单元,把上述第1矢量量化器的输出作为对上述第1量化频带选择单元的输入,在该第1量化频带选择单元中选择上述第2矢量量化器要量化的频带,在上述第2矢量量化器中,对于上述第1量化频带选择单元决定了的上述第1级3矢量量化器的量化误差,进行上述第2矢量量化器要量化带宽的量化,计算出对于上述第2矢量量化器的输入的量化误差并且将该误差作为向上述第2量化频带选择单元的输入,在上述第2量化频带选择单元中,选择上述第3矢量量化器要量化的频带,在上述第3矢量量化器中,对于上述第2量化频带选择单元决定了的频带进行量化。
本发明(权项26)的音频信号编码装置在上述权项24记述的音频信号编码装置中,使用上述低频区分割矢量量化器,中频区分割矢量量化器和高频区分割矢量量化器构成上述第2矢量量化器或者第3矢量量化器,而不是构成上述第1矢量量化器。
本发明(权项27)的音频信号解码装置是把来自作为上述权项12记述的音频信号编码装置的输出的代码作为输入,将其进行解码,输出与原始输入音频信号相当的信号的音频信号解码装置,具有:
使用至少一部分上述音频信号编码装置的量化装置输出的代码进行逆量化的逆量化单元;使用作为该逆量化单元的输出的频率特性信号序列,把频率特性信号序列变换为与原始音频输入信号相当的信号的逆频率变换单元。
本发明(权项28)的音频信号解码装置是把来自作为权项13记述的音频信号编码装置的输出的代码作为输入,将其进行解码,输出与原始输入音频信号相当的信号的音频信号解码装置,具有:
再生频率特性信号序列的逆量化单元;使用作为该逆量化单元的输出的频率特性信号序列,与作为上述音频信号编码装置的输出的代码一起再生正规化成分,把上述频率特性信号序列与正规化成分进行乘法运算后输出的逆正规化单元;接受该逆正规化单元的输出,把频率特性信号序列变换为与原始音频信号相当的信号的逆频率变换单元。
本发明(权项29)的音频信号解码装置是把来自作为上述权项23记述的音频信号编码装置的输出的代码作为输入,将其进行解码,输出与原始输入音频信号相当的信号的音频信号解码装置,具有:
即使在构成上述音频信号编码装置中的量化装置的矢量量化器的全部或者一部分输出了代码的情况下,也使用所输出的代码进行逆量化的逆量化单元。
本发明(权项30)的音频信号解码装置在上述权项29记述的音频信号解码装置中,上述逆量化单元是对于预定频带的量化代码的逆量化,交替地进行后级的量化代码的逆量化和与上述预定频带不同的频带的量化代码的逆量化的装置,在上述逆量化时不存在后级的量化代码的情况下,继续进行上述不同频带量化代码的逆量化,在上述不同频带的量化代码不存在的情况下继续进行上述后级的量化代码的逆量化。
本发明(权项31)的音频信号解码装置是把来自作为上述权项24记述的音频信号编码装置的输出的代码作为输入,将其进行解码,输出与原始输入音频信号相当的信号的音频信号解码装置,具有即使从构成上述音频信号编码装置中的第1矢量量化器的3个分割矢量量化器的全部或者一部分输出了代码的情况下,也仅使用来自构成上述第1矢量量化器的低频区分割矢量量化器的代码进行量化的逆量化单元。
本发明(权项32)的音频信号解码装置在上述权项31记述的音频信号解码装置中,上述逆量化单元使用来自构成上述第1矢量量化器的低频区分割矢量量化器的代码和来自上述第2矢量量化器的代码进行逆量化。
本发明(权项33)的音频信号解码装置在上述权项32记述的音频信号解码装置中,上述逆量化单元使用来自构成上述第1矢量量化单元的低频区分割矢量量化器的代码和来自上述第2矢量量化器的代码,以及来自构成上述第1矢量量化器的中频区分割矢量量化器的代码进行逆量化。
本发明(权项34)的音频信号解码装置在上述权项33记述的音频信号解码装置中,上述逆量化单元使用来自构成上述第1矢量量化器的低频区分割矢量量化器的代码,来自上述第2矢量量化器的代码,来自构成上述第1矢量量化器的中频区分割矢量量化器的代码以及来自上述第3矢量量化器的代码进行逆量化。
本发明(权项35)的音频信号编码装置在上述权项34记述的音频信号编码装置中,上述逆量化单元使用构成上述第1矢量量化器的低频区分割矢量量化器的代码,来自上述第2矢量量化器的代码,来自构成上述第1矢量量化器的中频区分割矢量量化器的代码,来自上述第3矢量量化器的代码,以及来自构成上述第1矢量量化器的高频区分割矢量量化器的代码进行逆量化。
本发明(权项39)的音频信号编码装置,具有:把输入音频信号进行频率变换后得到的频率特性信号序列作为输入信号,抽取该频率特性信号序列中的属于预定频带的信号的相位信息的相位信息抽取单元;存储多个作为上述频率特性信号序列的代表值的音频代码的代码薄,其中该音频代码把对应于上述抽取出的相位信息的要素部分形成为绝对值化了的状态;计算上述频率特性信号序列和上述代码薄中的各个音频代码之间的听觉距离,选择出具有最小距离的音频代码的同时,把来自上述相位信息抽取单元的输出用作为辅助信息添加到对应于具有该最小距离的音频代码的相位信息上,把对应于具有该最小距离的音频代码的代码索引作为其输出信号进行输出的音频代码选择单元。
本发明(权项40)的音频信号编码装置在上述权项39记述的音频信号编码装置中,上述相位信息抽取单元抽取被输入的频率特性信号序列中的低频区信号组成的预定个数要素的相位信息。
本发明(权项41)的音频信号编码装置在上述权项39记述的音频信号编码装置中,还具有作为考虑了人的听觉心理特性的相对于各频率的听觉心理量的表的听觉心理权矢量表,上述相位信息抽取单元抽取被输入的频率特性信号序列中与存储在上述听觉心理权矢量表的矢量一致的要素的相位信息。
本发明(权项42)的音频信号编码装置在上述权项39记述的音频信号编码装置中,还具有使用平滑矢量通过矢量要素之间的除法运算把上述频率特性信号序列进行平滑的平滑单元;上述音频代码选择单元选择具有上述最小距离的音频代码,把相位信息添加到该被选出的音频代码之前,使用从上述平滑单元输出的平滑处理信息,把上述被选出的音频代码变换为没有进行平滑处理的音频代码,把对应于该音频代码的代码索引作为其输出信号进行输出。
本发明(权项43)的音频信号编码装置在上述权项39记述的音频信号编码装置中,具有:作为考虑了人的听觉心理特性的相对于各频率的听觉心理量的表的听觉心理权矢量表;使用平滑矢量通过矢量要素之间的除法运算把上述频率特性信号序列进行平滑的平滑单元;按照听觉重要度高的顺序选择出多个把上述听觉心理权矢量表的值和上述平滑矢量表的值进行相乘得到的值,将该值输出到上述音频代码选择单元的分类单元。
本发明(权项44)的音频信号编码装置在上述权项40记述的音频信号编码装置中,作为上述频率特性信号序列,使用把上述音频信号进行频率变换了的系数作为要素的矢量。
本发明(权项45)的音频信号编码装置在上述权项41记述的音频信号编码装置中,作为上述频率特性信号序列,使用把上述音频信号进行频率变换了的系数作为要素的矢量。
本发明(权项46)的音频信号编码装置在上述权项42记述的音频信号编码装置中,作为上述频率特性信号序列,使用把上述音频信号进行频率变换了的系数作为要素的矢量。
本发明(权项47)的音频信号编码装置在上述权项40记述的音频信号编码装置中,作为上述频率特性信号序列,使用把上述音频信号进行了MDCT变换(改进离散余弦变换)的系数作为要素的矢量。
本发明(权项48)的音频信号编码装置在上述权项41记述的音频信号编码装置中,作为上述频率特性信号序列,使用把上述音频信号进行了MDCT变换(改进离散余弦变换)的系数作为要素的矢量。
本发明(权项49)的音频信号编码装置在上述权项42记述的音频信号编码装置中,作为上述频率特性信号序列,使用把上述音频信号进行了MDCT变换(改进离散余弦变换)的系数作为要素的矢量。
本发明(权项50)的音频信号编码装置在上述权项42记述的音频信号编码装置中,作为上述平滑矢量,使用把音频信号进行线性预测计算出线性预测系数,从该计算出的上述线性预测系数计算出相对于各频率的频率响应,把该相对于各频率的频率响应作为要素的矢量。
本发明(权项51)的音频信号编码装置在上述权项43记述的音频信号编码装置中,作为上述平滑矢量,使用把音频信号进行线性预测计算出线性预测系数,从该计算出的上述线性预测系数计算出相对于各频率的频率响应,把该相对于各频率的频率响应作为要素的矢量。
本发明(权项52)的音频信号解码装置,具有:把作为音频信号的特征量的频率特性信号序列进行量化得到的代码索引作为输入信号,抽取该代码索引中与预定的频带相当的要素的相位信息的相位信息抽取单元;存储多个作为上述频率特性信号序列的代表值的音频代码的代码薄,其中该音频代码中对应于上述抽取出的相位信息的要素部分形成为绝对值化了的状态;计算上述代码索引和上述代码薄中的频率特性信号序列的听觉距离,选择出具有最小距离的频率特性信号序列,同时,把来自上述相位信息抽取单元的输出用作为辅助信息添加到对应于具有该最小距离的频率特性信号序列的相位信息上,把对应于作为上述输入信号的代码索引的频率特性信号序列作为其输出信号进行输出的音频代码选择单元。
附图的简单说明
图1示出本发明实施形态1的音频信号编码装置以及解码装置的总体结构。
图2是示出构成上述音频信号编码装置的正规化单元一例的结构图。
图3是示出构成上述音频信号编码装置的频率概形正规化单元一例的结构图。
图4示出编码装置中的量化单元的详细结构。
图5是示出本发明实施形态2的音频信号编码装置结构的框图。
图6是示出本发明实施形态3的音频信号编码装置结构的框图。
图7是示出图6所示的音频信号编码装置的各级量化单元以及听觉选择单元的详细结构的框图。
图8用于说明矢量量化器中的量化动作。
图9示出误差信号zi,频谱包络I1以及最小可听限度特性hi。
图10是示出图6所示的音频信号编码装置的各量化单元以及听觉选择单元的其它例的详细结构的框图。
图11是示出图6所示的音频信号编码装置的各量化单元以及听觉选择单元的又一例的详细结构的框图。
图12是示出图6所示的音频信号编码装置的各量化单元以及听觉选择单元的再一例的详细结构的框图。
图13示出选择重要度最高的频段(长度W)的一例。
图14是示出本发明实施形态4的音频信号编码装置结构的框图。
图15是示出本发明实施形态5的音频信号编码装置结构的框图。
图16是示出本发明实施形态6的音频信号编码装置结构的框图。
图17是示出本发明实施形态7的音频信号编码装置结构的框图。
图18是示出本发明实施形态8的音频信号编码装置结构的框图。
图19用于说明上述实施形态1至8的上述编码装置1中各量化单元的量化方法的详细动作。
图20用于说明本发明实施形态9的音频信号解码装置。
图21用于说明本发明实施形态9的音频信号解码装置。
图22用于说明本发明实施形态9的音频信号解码装置。
图23用于说明本发明实施形态9的音频信号解码装置。
图24用于说明本发明实施形态9的音频信号解码装置。
图25用于说明本发明实施形态9的音频信号解码装置。
图26用于说明构成音频信号解码装置的逆量化单元的详细动作。
图27用于说明构成音频信号解码装置的逆正规化单元的详细结构。
图28用于说明构成音频信号解码装置的频率概形逆正规化单元的详细结构。
图29示出本发明实施形态10的音频信号解码装置的结构。
图30用于说明上述实施形态10中的音频信号编码装置的音频特征矢量的结构。
图31用于说明上述实施形态10的音频信号编码装置的处理。
图32示出本发明实施形态11的音频信号编码装置的详细结构以及听觉心理权矢量表的一例。
图33示出本发明实施形态12的音频信号编码装置的详细结构以及用于说明平滑单元中的处理。
图34示出本发明实施形态13的音频信号编码装置的详细结构。
图35示出本发明实施形态14的音频信号编码装置的详细结构。
图36示出本发明实施形态15的音频信号解码装置的结构。
图37示出以往的音频信号编码装置的结构。
实施发明的最佳形态
实施形态1
图1示出本发明实施形态1的音频信号编码装置以及解码装置的总体结构。图1中,1是编码装置,2是解码装置。在编码装置1中,101是把输入信号分割为预定的帧数的帧分割单元,102是在时间轴上把输入信号和窗函数进行相乘的加窗单元,103是进行把时间轴上的信号时间频率变换为频率轴上的信号的改进离散余弦变换(Modifieddiscrete cosine transform)的MDCT单元,104是把作为来自帧分割单元101的输出的时间轴的信号和作为来自MDCT单元103的输出的MDCT系数这两者作为输入并且把MDCT系数进行正规化的正规化单元,105是以被正规化了的MDCT系数作为输入进行量化的量化单元。另外,这里作为时间频率变换说明使用了MDCT的情况,然而也可以使用离散傅立叶变换(DFT:Discrete Fourier Transform)。
解码装置2中,106是接受从编码装置1输出的信号并将其进行逆量化的逆量化单元,107是把逆量化单元106的输出进行逆正规化的逆正规化单元,108是把逆正规化单元107的输出进行改进离散余弦变换的逆MDCT单元,109是加窗单元,110是帧合成单元。
以下说明以上结构的音频信号编码装置以及解码装置的动作。
假设输入到编码装置1中的信号是时间连续的数字信号序列。例如,假设是抽样频率为48KHz,量化为16比特的数字信号。输入信号在帧分割单元101中进行存储直到达到某个预定的抽样数,被存储的抽样数如果达到规定帧长度则进行输出。这里,帧分割单元101的帧长度例如是128、256、512、1024、2048、4096个样本等。在帧分割单元101中,还能够根据输入信号的特征使帧长度可变地进行输出。另外,帧分割单元101是在每个某移位长度进行输出的结构,例如,在把帧长度取为4096个样本的情况下,如果设定移位长度为帧长度一半,则具有在每次与帧长度达到2048样本的相当的时间,输出最新的4096样本等的结构。当然,即使改变帧长度和抽样频率,也同样地能够具有把移位长度设定为帧长度的一半的结构。
而且,来自该帧分割单元101的输出分别输入到后级的加窗单元102和正规化单元104中。在加窗单元102中,对于来自上述帧分割单元101的输出信号,在时间轴上乘以窗函数,作为加窗单元102的输出。其情况,例如由公式(1)所示。
h×i=hi·xi    i=1,2,…,N hi = sin ( π N ( i + 0.5 ) ) - - - ( 1 )
其中,xi是来自帧分割单元101的输出,hi是窗函数,hxi是来自加窗单元102的输出。另外,i是时间的下标。还有,公式(1)中所示的窗函数hi是一个例子,窗函数不一定是公式(1)的函数。窗函数的选择依赖于输入到加窗单元102中的信号的特征,帧分割单元101的帧长度,在时间上位于前后位置的帧中的窗函数的形状。例如,进行如下的选择,作为输入到加窗单元102中的信号的特征,把帧分割单元101的帧长度取为N的情况下,计算在每一个N/4输入的信号的平均能量,在该平均能量变动非常大的情况下,把帧长度缩短为小于N进行公式(1)所示的运算等。另外,最好根据前一时刻的帧的窗函数的形状和后面的帧的窗函数的形状,适宜地进行选择使得在当前时刻的帧的窗函数的形状上没有畸变。
其次,来自加窗单元102的输出被输入到MDCT单元103中,在这里实施改进离散余弦变换,输出MDCT系数。改进离散余弦变换的一般公式用公式(2)表述。 y k = Σ n = 0 N - 1 hx n · cos ( 2 π ( k + 1 / 2 ) ( n + n 0 ) N ) - - - ( 2 ) n0=N/4+1/2    (k=0,1,…,N/2-1)
这样,如果作为MDCT单元103的输出的MDCT系数用公式(2)的yk表示,则MDCT单元103的输出表示出频率特性,yk的变数k越接近0则低频成分0越与N/2-1的高频成分线性对应。在正规化单元104中,把作为来自帧分割单元101的输出的时间轴信号和作为来自MDCT单元103的输出的MDCT系数这两者作为输入,使用若干个参数,把MDCT系数进行正规化。这里,所谓MDCT系数的正规化指的是抑制在低频成分和高频成分的大小方面存在非常大差别的MDCT系数大小的偏差。例如,在低频成分相对于高频成分非常大的情况下,在低频成分选择大值,在高频成分选择小值,从而选出参数,通过用这些值进行除法运算,抑制MDCT系数大小的偏差。另外在正规化单元104中,把表现正规化中使用的参数的索引进行编码。
在量化单元105中,把在正规化单元104中正规化了的MDCT系数作为输入,进行MDCT系数的量化,而且量化单元105把表现量化中使用的参数的索引进行编码。
另一方面,在解码装置2中,使用来自编码装置1的正规化单元104的索引和来自量化单元105的索引进行解码。在逆量化单元106中,使用来自量化单元105的索引进行被正规化了的MDCT系数的再生。在逆量化单元106中,既可以使用全部索引,也可以使用其中的一部分进行MDCT系数的量化。当然,来自正规化单元104的输出和逆量化单元106的输出由于伴随量化单元105进行量化时产生的量化误差因此不一定必须与量化前的状态一致。
在逆正规化单元107中,根据来自编码装置1的正规化单元104的索引,在编码装置1中将正规化所使用的参数复原,把逆量化单元106的输出和该参数进行相乘运算,进行MDCT系数的复原。在逆MDCT单元108中,根据作为来自逆正规化单元107的输出的MDCT系数进行逆MDCT,进行从频域信号向时域信号的复原。上述逆MDCT计算例如用公式(3)表示。 xx ( n ) = 2 N Σ k = 0 N - 1 yy k cos ( 2 π ( k + 1 / 2 ) ( n + n 0 ) N ) - - - ( 3 ) n0=N/4+1/2
这里,yyk是在逆正规化单元107中被复原了的MDCT系数,xx(k)是逆MDCT系数,把该值作为逆MDCT单元108的输出。
在加窗单元109中,使用来自逆MDCT单元108的输出xx(k)进行加窗。加窗使用编码装置1的加窗单元102中所用的窗口,例如,进行由公式(4)所表示的处理。
z(i)=xx(i)×hi(4)
这里,zi是加窗单元109的输出。
在帧合成单元110中,使用来自加窗单元109的输出,再生音频信号。来自加窗单元109的输出由于成为时间上重复的信号,所以在帧合成单元110中,例如使用公式(5)生成解码装置B2的输出信号。
out(i)=zm(i)+zm-1(i+SHIFT)    (5)
这里,zm(i)是m时刻帧的第i个加窗单元109的输出信号Z(i),zm-1(i)是m-1时刻帧的第i个加窗单元109的输出信号,SHIFT是与编码装置的移位长度相当的样本数,out(i)作为帧合成单元110的m时刻帧中的解码装置2的输出信号。
其次使用图2,说明上述正规化单元104的详细的一例。图2中,201是接受帧分割单元101和MDCT单元103的输出的频率概形正规化单元,202是接收上述频率概形正规化单元201的输出,参考频带表203进行正规化的频带振幅正规化单元。
其次说明其动作。在频率概形正规化单元201中,使用来自帧分割单元101的时间轴上的数据输出,计算作为大致的频率概形的频率概形,与作为来自MDCT单元103的输出的MDCT系数进行除法运算。把用于表现频率概形的参数作为索引进行编码。在频带振幅正规化单元202中,把来自频率概形正规化单元201的输出信号作为输入,在每一个频带表203中所示的频带进行正规化。例如,作为频率概形正规化单元201的输出的MDCT系数取为dct(i)(i=0~2047),频带表203例如是表1所示那样的表,则使用公式(6)等计算出每个频带的振幅的平均值。
(表1)
Figure A9719578500311
(6)
Figure A9719578500321
这里,bjlow、bjhigt分别表示频带表203中表示的第j个频带中的dct(i)所属的最低频带的索引i和最高频带的索引i。另外,p是在距离计算中的范数,最好是2。avej是各频带编号j中振幅的平均值。在频带振幅正规化单元202中,把avej进行量化,计算出qavej,例如,使用公式(7)进行正规化。
n_dct(i)=dct(i)/gavej
bjlow≤i≤bjhigh(7)
avej的量化既可以使用标量量化也可以使用代码薄进行矢量量化。在频带振幅正规化单元202中,把用于表现qavej的参数的索引进行编码。
另外,编码装置1中的正规化单元104的结构示出使用了图2的频率概形正规化单元201和频带振幅正规化单元202这两者的结构,然而也可以是仅使用频率概形正规化单元201的结构,还可以是仅使用频带振幅正规化单元202的结构。进而,在从MDCT单元103输出的MDCT系数的低频成分和高频成分之间不存在很大的偏差的情况下,也可以采取不使用上述两者的结构,而构成为直接把MDCT单元103的输出信号输入到量化单元105。
其次使用图3,说明图2的频率概形正规化单元201的详细情况。图3中,301是接受帧分割单元101的输出进行线性预测分析的线性预测分析单元,302是把在线性预测分析单元301中得到的系数进行量化的概形量化单元,303是使用频谱包络把MDCT系数进行正规化的包络特性正规化单元。
其次说明上述频率概形正规化单元201的动作。在上述线性预测分析单元301中,把来自帧分割单元101的时间轴上的音频信号作为输入,进行线性预测(LPC:Linear Predictive Coding)分析,计算出线性预测系数(LPC系数)。线性预测系数通过计算被加窗了汉明窗等的信号的自相关函数,求解标准方程式等一般能够计算出来。计算出的线性预测系数变换为线谱对系数(LSP系数),在概形量化单元302中进行量化。作为这里的量化方法既可以使用矢量量化,也可以使用标量量化。而且在包络特性正规化单元303中计算出表现在概形量化单元302中被量化了的参数的频率传递特性(频谱包络),通过用该值除作为来自MDCT单元103的输出的MDCT系数进行正规化。作为具体的运算例,如果把与在概形量化单元302中量化了的参数等价的线性预测系数记为qlpc(i),在包络特性正规化单元303中计算的上述频率传递特性能够用公式(8)求出。
Figure A9719578500331
env(i)=1/fft(li)
这里,ORDER最好是10~40左右。fft()意指快速付立叶变换。使用计算出的频率传递特性env(i),在包络特性正规化单元303中,例如使用下述所示的公式(9)进行正规化。
fact(i)=mdct(i)/env(i)    (9)
这里mdct(i)是来自MDCT单元103的输出信号,fdct(i)是被正规化了的来自包络特性正规化单元303的输出信号。通过以上的动作,结束MDCT系数序列的正规化处理。
其次使用图4,说明编码装置1中的量化单元105的详细情况。4005是把在正规化单元104中平坦了的频率特性信号序列(MDCT系数序列)进行矢量量化的多级量化单元。多级量化单元4005包括连接成纵列的第1级量化器40051、第2级量化器40052、……、第N级量化器40053。4006是把从MDCT单元103输出的MDCT系数和在包络特性正规化单元303中求出的频谱包络作为输入,根据听觉灵敏特性,求出在多级量化单元4005的量化中使用的加权系数的听觉加权计算单元。
在听觉加权计算单元4006中,输入从MDCT单元103输出的MDCT系数序列和在包络特性正规化单元303中求出的LPC频谱包络,对于从MDCT单元103输出的频率特性信号序列的频谱,根据最小可听限度特性和听觉掩蔽特性等的作为人的听觉性质的听觉灵敏特性,计算出考虑了该听觉灵敏特性的特性信号,进而根据该特性信号和频谱包络求出在量化中使用的加权系数。
从正规化单元104输出的正规化MDCT系数在多级量化单元4005的第1级量化单元40051中使用由听觉加权计算单元4006求出的加权系数进行量化,由第1级量化单元40051的量化产生的量化误差等在多级量化单元4005的第2级量化单元40052中使用由听觉加权计算单元4006求出的加权系数进行量化,以下同样地在多级量化单元的每一个中,进行由前一级量化单元的量化产生的量化误差成分的量化。而且,在第N级量化单元40053中使用由听觉加权计算单位4006求出的加权系数把在第N-1级量化单元中的量化产生的量化误差成分进行量化,由此结束音频信号的编码。
这样,如果依据本实施形态1的音频信号编码装置则由于构成在多级量化装置4005的多级量化单元40051至40053中,使用在听觉加权计算单元4006中根据输入音频信号的频谱、作为人的听觉性质的听觉灵敏特性以及LPC频谱包络计算出来的频率的加权系数用作量化时的权值进行矢量量化,所以能够利用人的听觉性质进行高效的量化。
另外,在图4的音频信号编码装置中,采取了听觉加权计算单元4006进行加权系数的计算中还使用LPC频谱包络的结构,而也可以构成为仅使用输入音频信号的包络和作为人的听觉性质的听觉灵敏特性计算加权系数。
另外,在图4的音频信号编码装置中,多级量化装置4005的多级矢量量化器的全部都使用在听觉加权计算单元4006中求出的基于听觉灵敏特性的加权系数进行量化,而如果是多级量化装置4005的多级矢量量化器的某一个使用基于听觉灵敏特性的加权系数进行量化的结构,则与不使用这种基于听灵敏特性的加权系数的情况相比较,也能够进行高效的量化。
实施形态2
图5是示出本发明实施形态2的音频信号编码装置结构的框图。本实施形态中,由于只是编码装置1中的量化单元105的结构与上述实施例形态不同,因此在这里仅说明量化单元的结构。50061是根据输入音频信号频谱、作为人的听觉性质的听觉灵敏特性以及LPC频谱包络,求出多级量化装置4005的第1级量化单元40051使用的加权系数的第1听觉加权计算单元,50062是根据同样的输入音频信号的频谱、作为人的听觉性质的听觉灵敏特性以及LPC频谱包络,求出多级量化装置4005的第2级量化单元40052使用的加权系数的第2听觉加权系数计算单元,50063是根据同样的输入音频信号的频谱、作为人的听觉性质的听觉灵敏特性以及LPC频谱包络,求出多级量化装置4005的第N级量化单元40053使用的加权系数的第3听觉加权计算单元。
在上述实施形态1的音频信号编码装置中,多级量化装置4005的多级矢量量化器的全部都使用在听觉加权计算单元4006中求出的相同的加权系数进行量化,与此不同,在本实施形态2的音频信号编码装置中,构成为多级量化装置4005的多级矢量量化单元分别使用在第1至第3听觉加权计算单元50061、50062、50063中求出的各个加权系数进行量化。在这样的本实施形态2的音频信号编码装置中,能够进行基于根据在听觉加权计算单元50061至50063中求出的听觉性质的频率加权特性的加权的量化,使得在多级量化装置4005的各级中由量化产生的误差为最小。例如,在第1听觉加权计算单元50061中以频谱包络为主体计算加权系数,在第2听觉加权计算单元50062中以最小可听限度特性为主体计算加权系数,在第3听觉加权计算单元50063中以听觉掩蔽特性为主体计算加权系数。
这样,如果依据本实施形态2的音频信号编码装置,则由于采用多级量化单元4005的上述多级量化单元的多个量化器40051至40053使用分别在听觉加权计算单元50061至50063中得到的各个加权系数进行量化的结构,因此能够更有效地利用人的听觉特性进行高效的量化。
实施形态3
图6是示出本发明实施形态3的音频信号编码装置结构的框图。本实施形态中,由于只是编码装置1中的量化单元105的结构与上述实施形态不同,因此在这里仅说明量化单元的结构。60021是把正规化了的MDCT信号进行矢量量化的第1级量化单元,60023是把在第1级量化单元60021中的量化产生的量化误差信号进行量化的第2级量化单元,60022是根据考虑了听觉灵敏特性的基准选择在第2级量化单元60023中要量化的重要度高的频带的听觉选择装置。
其次说明动作。被正规化了的MDCT系数在第1级量化单元60021中进行矢量量化。听觉选择装置60022中,根据听觉的尺度判别在矢量量化中的误差信号大的频带,抽取出其频段。在第2级矢量量化单元60023中对于被选择的频段部分的误差信号进行量化。而且各量化单元的结果作为索引进行输出。
图7是示出图6所示的音频信号编码装置的多级量化单元以及听觉选择单元的详细结构的框图。图7中,70031是把被正规化了的MDCT系数进行矢量化的第1矢量量化器,70032是把第1量化器70031的量化结果进行逆量化的逆量化器,通过取该逆量化器70032的输出和残差信号si的差分得到由第1量化器70031的量化产生的量化误差信号zi。70033是示出人的听觉性质的听觉灵敏特性hi,这里使用最小可听限度特性。70035是在由第1量化器70031的量化产生的量化误差信号zi中,选择在第2矢量量化器70036中要量化的频带的选择器。70034是根据误差信号zi、LPC频谱包络Li以及听觉灵敏特性hi计算选择器70035的选择动作中的选择尺度的选择尺度计算单元。
其次详细地说明由听觉选择单元进行的选择动作。
在第1矢量量化器70031中,首先如图8(a)所示,把由N个要素构成的1帧内的残差信号在第1矢量量化器70031内的矢量分割单元中分割为多个子矢量,在第1矢量量化器70031内的N个量化器1~N中把各个子矢量进行矢量量化。矢量分割以及量化方法例如如图8(b)所示,把从频率低的一侧顺序排列的N个要素等间隔地分割为NS个子频带,如分别仅收集了子频带的第1要素的子矢量,仅收集了第2要素的子矢量那样,生成用N/NS个要素构成的NS个子矢量,按各个子矢量实行矢量量化。分割数等根据所要求的编码率决定。
矢量量化以后,使用逆量化器70032把量化代码进行逆量化取与输入信号的差,由此,得到图9(a)所示的第1矢量量化器70031中的误差信号zi。
接着,在选择器70035中根据在选择尺寸计算单元70034中选择了的结果,选择误差信号zi中要用第2量化器70036进一步精确地量化的频段。
在选择尺度计算单元70034中,使用误差信号zi、在LPC分析单元中得到的图9(b)所示那样的LPC频谱包络li以及听觉灵敏特性hi,对于在时间轴上被分割为N个要素的帧的每一个要素计算
g=(zi≠li)/hi
作为听觉灵敏特性hi,例如使用图9(c)所示所谓的最小可听限度特性。这是实验地求出的表示人原本不能够听到的范围的特性。从而,该听觉灵敏特性hi的倒数1/hi可以说表示了人的听觉的重要性。而且,把误差信号zi、频谱包络li以及听觉灵敏特性hi的倒数相乘得到的值g可以说表示了在其频率下的要更精确地进行量化的重要度。
另外,图10是示出图6所示的音频信号编码装置的各量化单元以及听觉选择单元的其它例的详细结构的框图。图10中,与图7相同的符号是相同或者相当的部分。图10所示的例中,不使用误差信号zi而使用频谱包络li和听觉灵敏特性hi计算并求出选择尺度(重要度)g
g=li/hi
另外,图11是示出图6所示的音频信号编码装置的各量化单元以及听觉选择单元又一例的详细结构的框图。图11中,与图7相同的符号表示相同或者相当的部分,110042是从在时间频率变换单元中进行了MDCT变换了的输入音频频率的频谱使用听觉掩蔽特性计算被掩蔽的量的掩蔽量运算单元。
在图11所示的例中,如以下那样按照各帧顺序求出听觉灵敏特性hi。即,从输入信号的频谱分布计算掩蔽特性,通过在该掩蔽特性上加入最小可听限度特性,能够求出该帧的听觉灵敏特性hi。选择尺度运算单元70034的动作与图10的动作相同。
另外,图12是示出图6所示的音频信号编码装置的各量化单元以及听觉选择单元的再一例的详细结构的框图。图中,与图7相同的符号表示相同或者相当的部分,120043是使用频谱包络li、残差信号si以及误差信号zi校正在掩蔽量运算单元10042中得到的掩蔽特性的掩蔽量校正单元。
在图12所示的例中,如以上那样按照各帧顺序地求出听觉灵敏特性hi。首先,根据输入信号的频谱分布在掩蔽量运算单元110042中计算掩蔽特性。接着,在掩蔽量校正单元120043中,根据频谱包络li、残差信号si以及误差信号zi,校正上述计算出来的掩蔽特性。通过在该校正了的掩蔽特性上加入最小可听限度特性,能够求出该帧的听觉灵敏特性hi。这里,示出校正掩蔽特性的方法的一例。
首先,求出已经计算出来的掩蔽量Mi的特性表示出最大值的频率(fm)。接着从输入时的频率fm的频谱强度和量化误差频谱的大小求出以何种程度的正确性再生该频率fm的信号。例如,
γ=1-(fm的量化误差的增益)/(fm的输入时的增益)
如果该γ值接近1,则没有必要把已经求出的掩蔽特性进行变形,然而如果接近0,则要在减小的方向进行校正。例如像,
hi=Miγ(31)
这样,通过把掩蔽特性进行以系数γ为指数的幂乘运算,能够进行校正。
其次说明选择器70035的动作。
在选择器70035中按照每个帧内的连续要素进行加窗(设长度W),选择把该窗口内的重要度g的值累加了的值G表示最大值的频段。图13示出选择了重要度最高的频段(长度W)的一例。窗口的长度为了简单起见可以设定为N/NS的整倍数(图13中示出不是整倍数的情况)。如果把该窗口按照对于各N/NS个进行移动,则计算该窗框内的重要度g的累加值G选择给出该最大值的长度W的频段。
对于被选择的窗框内的频段,在第2矢量量化器70032中进行矢量量化。第2矢量量化器70032的动作与第1矢量量化器70031相同,如上所述由于只是把误差信号zi中用选择器70035选择的频段进行量化,所以被矢量量化的帧内的要素的数目很少。
最终,在使用频谱包络系数的代码、作为各矢量量化器的量化结果的各个代码以及用图7、图11和图12所示结构求出的选择尺度g的情况下,由选择器70035输出作为索引的选择了从哪一个要素开始的频段的信息。
另一方面,使用由图10所示的结构求出的选择尺度g的情况下,由于仅使用频谱包络li和听觉灵敏特性hi,因此在逆量化时,能够从频谱包络系数的代码和已知的听觉灵敏特性hi求出选择了从哪个要素开始的频段的信息,因此不需要作为索引输出频段的选择信息,在压缩率方面有利。
这样,如果依据本实施形态3的音频信号编码装置,则根据输入音频信号的频谱和作为人的听觉性质的听觉灵敏特性,选择第1矢量量化器中的量化误差成分的频段中量化的重要度高的频段,在第2矢量量化器中,对于上述被选择的频段进行上述第1量化器的量化误差成分的量化,因此能够利用人的听觉性质进行高效的量化。另外,在图7、图11以及图12所示的结构中,由于构成为在选择量化的重要度高的频段时根据第1矢量量化器中的量化误差计算重要度,因此能够防止第1矢量量化器中量化良好的部分被再次量化反而产生误差的情况,能够进行保持了高品质的量化。
另外,在用图10所示的结构求出重要度g的情况下,与用图7、图11以及图12所示的结构求出重要度g的情况相比,能够减小要输出的索引,能够提高压缩率。
另外,在上述实施形态3中,说明了量化单元采用第1级量化单元60021、第2级量化单元60023的2级结构,并且在该第1级量化单元60021和第2级量化单元60023之间设置了听觉选择装置60022的情况,然而也可以采取把量化单元设置为3级以上的多级结构,在各量化单位之间分别设置听觉选择装置的结构,在采用这样结构的情况下,也与上述实施形态3相同,能够利用人的听觉性质进行高效的量化。
实施形态4
图14是示出本发明实施形态4的音频信号编码装置结构的框图。本实施形态中,由于只是编码装置1中的量化单元105的结构与上述实施形态不同,因此在这里仅说明量化单元的结构。140011是以频谱包络的值li作为加权系数把从正规化单元104输出的MDCT信号si进行矢量量化的第1级量化器,140012是把第1级量化器140011的量化结果进行逆量化的逆量化器,通过取该逆量化器140012的输出和从正规化单元104输出的残差信号的差分可以得到第1级量化器140011的量化产生的量化误差信号zi。140013是以后述的权值计算单元140017的计算结果作为加权系数把第1级量化器140011的量化产生的量化误差信号进行矢量量化的第2级量化器,140014是把第2级量化器140013的量化结果进行逆量化的逆量化器,通过取该逆量化器140014的输出和第1级量化器140011的量化产生的量化误差信号的差分能够得到第2级量化器140013的量化产生的量化误差信号z2i。140015是以听觉权值计算单元4006的计算结果作为加权系数把第2级量化器140013的量化产生的量化误差信号z2i进行矢量量化的第3级量化器。140016是计算第1级量化器140011的量化产生的量化误差信号zi与频谱包络的值li的相关性的相关计算单元,140017是根据相关计算单元的计算结果和频谱包络的值li计算第2级量化器140013的量化中的加权系数的权值计算单元。
其次说明动作。本实施形态4的音频信号解码装置使用3级量化量,在各个量化器中以不同的权值进行矢量量化。
首先在第1级量化器140011中,以由概形量化单元302求出的LPC频谱包络的值li作为加权系数对于输入的残差信号si实行矢量量化。由此,通过在频谱的能量大的(集中的)部分实行加权,使得听觉上重要的部分进行更高精度量化。该第1级矢量量化器140011例如可以使用与实施形态3中的第1矢量量化器70031相同的量化器。
量化结果在逆量化器140012中被逆量化,根据其结果和原来的输入残差信号si的差分可以得到量化产生的误差信号zi。
该误差信号zi在第2级量化器140013中被进一步矢量量化。这里,根据LPC频谱包络li和误差信号zi的相关性,在相关计算单元140016以及权值计算单元140017中计算出加权系数。
具体地讲,在相关计算单元140016中计算
α=(∑li≠zi)/(∑li≠li)
该α取0<α<1的值,表示两者的相关度。α接近于0时,表示根据频谱包络的加权更高精度地进行第1级量化,α接近于1时表示还不能够进行高精度的量化。因而,根据该值α,作为调整频谱包络li的加权程度的系数,求出
liα
作为矢量量化时的加权系数。这样根据第1级量化的精度再次以频谱的包络进行加权、量化,由此提高量化精度。
第2级量化器140013的量化结果也同样在逆量化器140014中被逆量化,抽取出误差信号z2i,该误差信号z2i在第3级量化器140015中进行矢量量化。这时的听觉加权系数在听觉权值计算单元14006的权值计算单元A19中进行计算。例如,使用误差信号z2i、LPC频谱包络li以及残差信号si,求出
N=∑z2i≠li
S=∑si≠li
β=1-(N/S)
另一方面,在听觉加权计算单元14006的听觉掩蔽计算单元140018中,例如根据MPEG音频标准方式中使用的听觉模式,计算听觉掩蔽特性mi。在该值上迭加上述的最小可听限度特性hi求出最终的掩蔽特性Mi。
而且,以在权值计算单元140019中计算的系数β为指数把该最终的掩蔽特性进行幂乘了的值的倒数和1的积
1/Miβ(33)
用作为计算第3级矢量量化时的加权系数。
这样,如果依据本实施形态4的音频信号编码装置,则由于采取多级量化器140011、140013、140015使用包含考虑了听觉灵敏特性的加权的各个不同加权系数进行量化的结构,因此能够更有效地利用人的听觉性质进行高效量化。
实施形态5
图15是示出本发明实施形态5的音频信号编码装置结构的框图。
本实施形态5的音频信号编码装置是把图2所示的实施形态3和图4所示的实施形态1进行组合了的装置,在图6所示的实施形态3的音频信号编码装置中,在各量化单元进行量化时,使用在听觉权值计算单元4006中根据听觉灵敏特性求出的加权系数。本实施形态5的音频信号编码装置中,通过采取这样的结构,能够得到由上述实施形态1和实施形态3得到的两方面的效果。
另外,同样,也能够在图6所示实施形态3上组合实施形态2或者实施形态4的结构,根据各个组合得到的音频信号编码装置是能够分别获得由实施形态2和实施形态3得到的两方效果以及由实施形态4和实施形态3得到的两方效果的装置。
还有,在上述实施形态1至5中多级量化单元示出了量化单元的级数为2级或者3级的结构,当然也可以把量化单元的级数取为4级以上的多级结构。
另外,多级量化单元的各级中的矢量量化时使用的加权系数的顺序并不限定于上述实施形态所示的情况,例如,也可以构成为在第1级中使用考虑了听觉灵敏特性的权值,在第2级以后使用LPC频谱包络。
实施形态6
图16是示出本发明实施形态6的音频信号编码装置结构的框图。本实施形态中由于只是编码装置1中的量化单元105的结构与上述实施形态不同,因此在这里仅说明量化单元的结构。
图16中,401是第1小量化单元,402是接受第1小量化单元401的输出的第2小量化单元,403是接受第2小量化单元402的输出的第3小量化单元。
其次说明上述量化单元105的动作。输入到上述第1小量化单元401中的信号是来自编码装置的正规化单元104的输出,是被正规化了的MDCT系数。在不具有正规化单元104的结构中是MDCT单元103的输出。在第1小量化单元401中,把输入的MDCT系数进行标量量化或者矢量量化,把表现量化中使用的参数的索引进行编码。另外,计算出对于量化的输入MDCT系数的量化误差,把该值输出到第2小量化单元402中。在第1小量化单元401中,既可以把全部的MDCT系数进行量化,也可以只把其中一部分进行量化。当然,在只把一部分进行量化的情况下,在第1小量化单元401中没有被量化的频带的量化误差成为没有被量化的频带的输入MDCT系数。
接着,在第2小量化单元402中,把第1小量化单元401的MDCT系数的量化误差作为输入,进一步进行量化。这时的量化也与第1小量化单元401相同,既可以使用标量量化也可以使用矢量量化。而且,在第2小量化单元402中,把表现量化所使用的参数的索引进行编码。另外,计算量化的量化误差,并将其输入到第3小量化单元403中。该第3小量化单元403是与上述第2小量化单元相同的结构。
这里,上述第1小量化单元401、第2小量化单元402、第3小量化单元403并不需要相同的量化的MDCT系数的个数,即,带宽不一定一致。另外,量化的频带也不一定需要相同。这时,如果考虑到人的听觉特性,则最好进行设定使得与第2小量化单元402、第3小量化单元403一起量化表示低频频率成分的MDCT系数的频带。
这样如果依据本实施形态6,则在进行量化时,分层地设置量化单元,通过使前级和后级的量化单元量化的带宽发生变化,把输入MDCT系数中的任意的频带,例如,构成把与对于人来讲在听觉方面重要的低电平频率成分相当的系数进行量化,因此既使以低比特率即高压缩率把音频信号进行编码,在接收侧也能够进行高品质的声音的再生。
实施形态7
其次使用图17说明本发明实施形态7的音频信号编码装置。本实施形态中,由于只是编码装置1中的量化单元105的结构与上述实施形态不同,因此在这里仅说明量化单元的结构。图17中,501是第1小量化单元(矢量量化器),502是第2小量化单元,503是第3小量化单元。与上述实施形态6的结构上的不同点在于第1小量化单元501把输入MDCT系数分割为3个频带独立地进行量化。一般使用矢量量化的方法进行量化的情况下,可以从输入MDCT系数抽取出若干个要素,构成矢量,进行矢量量化。在本实施形态7的第1小量化单元501中,在从输入MDCT系数抽取出若干个要素构成矢量时,成为低频的量化只使用低频的要素进行量化的结构,中频的量化只使用中频的要素,高频的量化只使用高频的要素分别进行量化的结构,上述第1小量化单元501外观上由3个分割矢量量化器构成。
另外,本实施形态7中,作为一例说明了在量化时分割为低频、中频、高频3个频带的方法,然而分割的频带数也可以是3以外的数。还有,对于第2小量化单元502、第3小量化单元503也能够与第1小量化单元501一样采取把频带分割为若干个部分进行量化的结构。
这样如果依据本实施形态7,则由于在进行量化时,把输入MDCT系数分割为3个频带独立地进行量化,因此在第1次量化时能够进行把听觉上重要的频带优先进行量化等的处理,在后级的量化单元502、503中,通过进一步分级地进行该频带的MDCT系数的量化,能够进一步降低量化误差,在接收侧,能够进行更高品质的音质的再生。
实施形态8
其次使用图18说明本发明实施形态8的音频信号编码装置。本实施形态8中,由于只是编码装置1中的量化单元105的结构与上述实施例形态1不同,因此在这里仅说明量化单元的结构。图18中,601是第1小量化单元,602是第1量化频带选择单元,603是第2小量化单元,604是第2量化频带选择单元,605是第3小量化单元。与上述实施形态6以及7的结构上的不同点在于添加了第1量化频带选择单元602和第2量化频带选择单元604。
以下说明动作。在上述第1量化频带选择单元602中,使用作为第1小量化单元601的量化误差的输出,计算在第2小量化单元602中要量化哪一个频带的MDCT系数。例如,计算把在公式(10)中给出的esum(j)取为最大的j,可以从j*OFFSET开始把j*OFFSET+BANDWIDTH的频带进行量化。 esum ( j ) = Σ i = j · OFFSET j · OFFSET + BANDWIDTH fd ct err ( i ) 2 - - - ( 10 )
这里,OFFSET是常数,BANDWIDTH是与第2小量化单元603要量化的带宽相当的总取样。在第1量化频带选择单元602中,例如,把在公式(10)中给出了最大值的j等进行编码并且作为索引。在第2小量化单元603中,把用第1量化频带选择单元602选择了的频带进行量化。第2量化频带选择单元604的输入是作为第2小量化单元603的量化误差的输出,除去第2量化频带选择单元604选择的频带输入到第3小量化单元605中以外,能够以相同的结构实现。
另外,以上说明了在第1量化频带选择单元602以及第2量化频带选择单元604中,使用公式(10)选择下一个量化单元要量化的频带的结构,然而也可以使用把公式(11)的在正规化单元104中正规化所使用的值以及考虑了对于人的频率的相对听觉灵敏特性的值进行乘法运算后的值进行计算。 esum ( j ) = Σ i = j · OFFSET j · OFFSET + BANDWIDTH { fdct err ( i ) · evn ( i ) · zxc ( i ) } 2 - - - ( 11 )
这里,env(i)是用正规化单元104的输出除MDCT单元103的输出的值,zxc(i)是考虑了对于人的频率的相对听觉灵敏特性的表,表2中示出其一例。另外,也可以是在公式(11)中不考虑对于人的频率的相对听觉灵敏特性zxc(i)都取为1的结构。
(表2)
进而,量化频带选择单元也可以不设置多个,而构成仅使用上述第1量化频带选择单元602的结构,或者仅使用第2量化频带选择单元604的结构。
这样如果依据本实施形态8,在进行多级量化时,通过在前级的量化单元与后级的量化单元之间设置量化频带选择单元,能够使得要量化的频带可变,由此能够根据输入信号适宜地使要量化的频带发生变化,能够提高量化的自由度。
以下,使用图1以及图19,说明上述实施形态1至8的上述编码装置1中的各个量化单元的量化方法的详细动作。对于输入到各小量化单元的被正规化了的MDCT系数1401从MDCT系数1401根据规则抽取出若干个构成音源子矢量1403。同样,在把作为正规化单元104的输入的MDCT系数用在正规化单元104中正规化的MDCT系数1041进行分割了的系数序列作为正规化成分1402时,使用与从MDCT系数1401抽取时的相同规则,可以从正规化成分1402抽取出音源子矢量1403,构成加权子矢量1404。从MDCT系数1401以及正规化成分1402分别抽取音源子矢量1403以及加权子矢量1404的规则例如有公式(14)所示的方法。
Figure A9719578500471
这里,第i个音源子矢量的第j个要素是subvector(j),MDCT系数1401是vector(),MDCT系数1401的总要素数是TOTAL,音源子矢量1403的要素数是CR,进行设定使得VTOTAL是与TOTAL相同的值或者比其大的值,VTOTAL/TOTAL成为整数值。例如,当TOTAL是2048时,CR是19则VTOTAL是2052,CR是23则VTOTAL是2070,CR是21则VTOTAL是2079等。加权子矢量1404也能够按照公式(14)的顺序进行抽取。在矢量量化器1405中,从代码薄1409中的代码矢量中,搜索与音源子矢量1403的距离用加权子矢量1404进行加权并且成为最小的值,输出给出其最小距离的代码矢量的索引、给出了最小距离的代码矢量和与输入音源子矢量1403的量化误差相当的残差子矢量1410。实际的计算顺序例,说明了矢量量化器1405由距离计算装置1406、代码决定装置1407、残差生成装置1408这3个要素构成的情况,在距离计算装置1406中,例如使用公式(15)计算第i个音源子矢量1403与代码薄1409的第k个代码矢量之间的距离。 dik = Σ j = 0 CR - 1 w j R ( subvecto r i ( j ) - C k ( j ) ) S - - - ( 15 )
这里wj是加权子矢量的第j个要素,ck(j)是第k个代码矢量的第j个要素,R,S是距离计算的范数,作为R,S的值最好是1、1.5、2等。另外,该上述的R和S并不需要是相同的值。dik意指相对于第i个音源子矢量的第k个代码矢量的距离。在代码决定装置1407中,选择用公式(15)等计算出来的距离中的成为最小的代码矢量,把其索引进行编码。例如,在diu是最小值的情况下,对于第i个子矢量的被编码了的索引成为u。在残差生成装置1408中,使用由代码决定装置1407选择出的代码矢量,使用公式(16),生成残差子矢量1410。
resi(j)=subvectori(j)-Cu(j)
(16)
这里,第i个残差子矢量1410的第j个要素是resi(j),把由代码决定装置1407选择出来的代码矢量的第j个要素记为cu(j)。残差子矢量1410用公式(14)的逆过程等,作为其以后的小量化单元的量化对象的MDCT系数保持。其中,把某个频带的量化没有给随后的小量化单元带来影响的频带进行量化时,即以后的小量化单元不需要进行量化时,不需要残差生成装置1408生成残差矢量1410、MDCT1411。另外,代码薄1409具有的代码矢量的个数也可以是若干个,然而如果考虑到存储容量,计算时间,最好取为64个这样的程度。
另外,作为上述矢量量化器1405的其它实施形态也能够采用以下的结构。即,在距离计算装置1406中,使用公式(17)计算距离。
Figure A9719578500482
其中,K是代码薄1409的代码检索中使用的代码矢量的总数。
在代码决定装置1407中,选择用公式(17)计算出来的给出距离dik的最小值的k,把其索引进行编码。其中,k成为从0到2K-1的值。在残差生成装置1408中,使用公式(18)生成残差子矢量1410。
Figure A9719578500491
代码薄1409具有的代码矢量的个数也可以是若干个,但如果考虑到存储容量,计算时间等,最好为64个这样的程度。
还有,作为加权矢量1404,叙述了仅由正规化成分1402生成的结构,但也能够在加权子矢量1404上乘以考虑了人的听觉特性的权值生成加权子矢量。
实施形态9
其次,使用图1,图20~图24,说明本发明实施形态9的音频信号解码装置。作为来自编码装置1的输出的索引大致分为正规化单元104输出的索引和量化单元105输出的索引。正规化单元104输出的索引在逆正规化单元107中解码,量化单元105输出的索引在逆量化单元106中解码。这里在逆量化单元106中,还能够仅使用量化单元105输出的索引中的一部分进行解码。
即,说明在把量化单元105的结构构成为图17所示的结构时,使用具有图20结构的逆量化单元进行逆量化的情况。图20中,701是第1低频成分的逆量化单元。在该第1低频成分的逆量化单元701中仅使用第1小量化单元501的低频成分的索引进行解码。
通过这样做,能够与从编码装置1发送来的信息量无关,把被编码了的音频信号的任意信息量部分进行解码,能够把编码信息量和解码信息量取为不同的值。能够根据接收者侧的通信环境等,使解码的信息量变化,例如,在利用通常的公共电话网的情况下,也能够得到稳定的高品质的音质。
图21示出以2级进行逆量化时的音频信号解码装置的逆量化单元的结构,图21中,704是第2逆量化单元。在该第2逆量化单元704中,使用第2小量化单元的502的索引进行解码。从而,把来自第1低频成分的逆量化单元701的输出与来自第2逆量化单元704的输出的加法运算结果作为逆量化单元106的输出进行输出。其中,这里的加法运算是在量化时,在与各个小量化单元量化了的频带相同的频带中进行相加。
这样,在用第1低频成分的逆量化单元701对第1小量化单元(低频)的索引进行解码的同时,把第2小量化单元的索引进行量化时,进行加入上述第1低频成分的逆量化单元701的输出的运算,由此能够以2级进行逆量化,能够正确地解码多级量化了的音频信号,从而得到更高品质的音质。
另外,图22示出在以2级进行量化时,把作为对象的频带扩展进行量化的音频信号解码装置的逆量化单元的结构,图22中,702是第1中频成分的逆量化单元。在该第1中频成分的逆量化单元702中,使用第1小量化单元501的中频成分的索引进行解码。从而,把来自第1低频成分的逆量化单元701的输出、来自第2逆量化单元704的输出与来自第1中频成分的逆量化单元702输出的加法运算结果作为逆量化单元106的输出进行输出。其中,这里的加法运算是在量化时,在与各个小量化单元量化了的频带相同的频带中进行相加。通过这样做,能够扩展被再生了的声音的频带,能够进行更高品质的音频信号的再生。
另外,图23示出在具有图22结构的逆量化单元中,以3级进行逆量化的音频信号解码装置的逆量化单元的结构,图23中,705是第3逆量化单元。在该第3逆量化单元705中,使用第3小量化单元503的索引进行解码。从而,把来自第1低频成分的逆量化单元701的输出、来自第2逆量化单元704的输出、来自第1中频成分的逆量化单元702的输出和来自第3逆量化单元705的输出的加法运算结果作为逆量化单元106的输出进行输出。其中,这里的加法运算是在量化时,在与各个小量化单元量化了的频带相同的频带中进行相加。
进而,图24示出在具有图23结构的逆量化单元中,以3级进行量化时,把作为对象的频带扩展后进行量化的音频信号解码装置的逆量化单元的结构,图24中,703是第1高频成分的逆量化单元。在该第1高频成分的逆量化单元703中,使用第1小量化单元501的高频成分的索引进行解码,从而,把来自第1低频成分的逆量化单元701的输出、来自第2逆量化单元704的输出、来自第1中频成分的逆量化单元702的输出、来自第3逆量化单元705的输出和来自第1高频成分的逆量化单元703的输出的加法运算结果作为逆量化单元106的输出进行输出。其中,这里的加法运算是在量化时,在与各个小量化单元量化了的频带相同的频带中进行相加。
另外,在上述实施形态9中,举例说明了解码单元106把由具有图17的结构的量化单元105量化了的信息进行量化的情况,然而量化单元105的结构即使是图16和图18所示的结构也同样能够进行上述动作。
另外,在作为量化单元使用上述图17所示结构的量化单元进行编码,作为其逆量化单元使用图24所示结构的逆量化单元进行解码时,如图25所示,在把第1小量化单元的低频的索引进行了逆量化以后,把下一级的第2小量化单元502的索引进行逆量化,然后再次把第1小量化单元的中频索引进行逆量化,这样交替反复进行用于扩展频带的逆量化和用于减少量化误差的逆量化,在把用图16所示结构的量化单元编码了的信号使用具有图24所示结构的量化单元进行解码时,由于不存在被分割的频带,因此顺序地在下一级的逆量化单元中进行把被量化了的系数进行解码的处理。
其次,使用图1以及图26说明构成上述音频信号解码装置2的逆量化单元107的详细动作。逆量化单元107,例如在具有图20所示的逆量化单元的情况下,由第1低频的逆量化单元701构成,在具有图21所示的逆量化单元的情况下,由第1低频的逆量化单元701和第2逆量化单元704这2个逆量化单元构成。
矢量逆量化器1501使用来自矢量量化器105的索引进行MDCT系数的再生。小量化单元具有图20所示结构时的逆量化,把索引编号进行解码,从代码薄1502选择出该编号的代码矢量。代码矢量1502取为与编码装置的代码薄相同内容的矢量。该被选择出的代码矢量作为再生矢量1503,成为在公式(14)的逆过程中被逆量化了的MDCT系数1504。
另外,小量化单元具有图21所示结构时的逆量化,把索引编号k进行解码,从代码薄1502选择出用公式(19)计算出来的编号u的代码矢量。
Figure A9719578500521
再生子矢量使用公式(20)生成。
Figure A9719578500522
这里第i个再生子矢量的第j个要素取为resi(j)。
其次,使用图1以及图27说明构成音频信号解码装置2的逆正规化单元107的详细结构。图27中,1201是频率概形逆正规化单元,1202是频带振幅逆正规化单元,1203是频带表。频率概形逆正规化单元1201把来自频率概形正规化单元1201的索引作为输入,再生频率概形,把上述频率概形与来自逆量化单元106的输出进行相乘运算后输出。在频带振幅逆正规化单元1202中,把来自频带振幅正规化单元1202的索引作为输入,通过乘法运算复原频带表1203所示的各频带中的振幅值。使用来自频带振幅正规化单元1202的索引进行复原了的各频带的值如果记为gavej,则频带振幅逆正规化单元1202的运算由公式(12)给出。
dct(i)=n-dct(i)*gavej
bjlow≤i≤bjhigh(12)
这里,把频率概形逆正规化单元1201的输出记为n-dct(i),把频带振幅逆正规化单元1202的输出记为dct(i)。另外,频带表1203与图2的频带表203相同。
其次,使用图28说明构成音频信号解码装置2的频率概形逆正规化单元1201的详细结构。图28中,1301是概形逆量化单元,1302是包络特性逆量化单元。在概形逆量化单元1301中,使用来自编码装置中的概形量化单元301的索引复原表示频率概形的参数,例如线性预测系数等。如果该复原的系数是线性预测系数,则例如,通过进行与公式(8)同样的计算,复原被量化的包络特性。在被复原的系数不是线性预测系数的情况下,例如,是LSP系数等的情况下也变换为频率特性复原包络特性。在包络特性逆量化单元1302中,如用公式(13)所示那样把被复原了的包络特性和来自逆量化单元106的输出相乘后作为输出。
mdct(i)=fdct(i)*env(i)(13)
实施形态10
以下,参照附图说明本发明实施形态10的音频信号编码装置。图29示出本发明本实施形态10的音频信号编码装置的详细结构,在这些图中,29003是具有多个作为音频信号特征量的代表值的音频代码的发送侧代码薄,2900102是音频代码选择单元,2900107是相位信息抽取单元。
以下说明其动作。
这里,作为输入信号考虑MDCT系数,然而如果是被进行了时间频率变换了的信号,使用DFT(离散傅立叶变换)系数等当然也不会存在问题。
如图30所示,在把频率轴上的数据视为一个音源矢量的情况下,形成从该音源矢量抽取出若干个要素的子矢量,并且在把该子矢量作为图29的输入矢量时,音频代码选择单元2900102计算出发送侧代码薄的29003中的各代码与上述输入矢量之间的距离,选择其距离为最小的代码,输出该被选择的代码的发送侧代码薄29003中的代码索引。
使用图29以及图31说明上述编码装置的详细动作。这里,假设为了把20KHz作为对象以10位进行编码的情况。另外,在相位信息抽取单元2900107中,把抽出的相位设为对于从频率低的一侧起的第2个要素,即2比特部分。上述音频代码选择单元1900102的输入在把进行了MDCT变换得到的系数作为一个矢量时,把该矢量分割后的若干要素,例如,20左右个要素作为一个子矢量。这时,矢量记为X0~X19,X的脚注数字越小的子矢量的要素,则越对应于具有低频成分的MDCT系数。这里低频成分对于人来讲是听觉方面重要的信息,从而,通过优先进行对于这些要素的编码,则再生时对于人将难以感觉到音质的恶化。
在音频代码选择单元2900102中,计算出上述特征矢量与发送侧代码薄29003的各个代码之间的距离。例如,在把代码索引记为i的情况下,用公式(21)能够计算出代码索引i的代码中的距离Di。 D i = Σ i = 0 N Σ j = 0 M { abs ( Cij ) - abs ( Xj ) } p + Σ i = 0 N Σ j = M + 1 19 { Cij - Xj } p - - - ( 21 )
这里在上述公式(21)中,N是发送侧代码薄29003中的全部代码的个数,Cij是代码索引I中的第j个要素的值。M在本实施形态10的情况下是小于19的数字,例如是1等。P是距离计算中的范数,例如是2等。另外,abs()表示绝对值运算。
在相位信息抽取单元2900107中,输出给出最小距离Di的代码索引和M个相位信息Ph(j)(j=0~M)。相位信息Ph(j)如公式(22)所示。
在输入矢量是把声音信号进行了MDCT变换了的矢量的子矢量的情况下,一般Xj的下标j越小则系数的听觉重要度越高,因此,依据本结构,对于与各子矢量的低频成分要素相对应的相位(正负)在代码检索时不考虑这些信息,而在检索之后另外进行添加。即,如图31(a)所示,被子矢量化了的输入矢量忽略低频侧的2比特部分的要素的正负符号,与发送侧的代码薄29003所具有的代码进行图形比较。例如,这里预先存储与低频侧的2比特要素一起都作为“正”存储的256个代码,在音频代码选择单元2900102中,进行被输入的子矢量和上述发送侧代码薄29003所具有的256个代码的检索。而且对于所得到的代码,作为该子矢量的低频侧的2比特的正负符号,添加用相位信息抽取单元2900107抽取出的图31(b)所示组合中的某一个,作为总计10比特的代码索引进行输出。
通过这样做,从主音频解码装置输出的代码索引与以往一样仍然是10位(1024个),存储在发送侧代码薄29003中的代码能够设为8位(256个),把与相位信息的信息量之和取为与公式(23)的距离计算的代码索引信息量相同的情况下,如果把用下述公式(23)解码了的声音与本结构的合成声音进行比较,则能够得到几乎相同的主观评价结果。 D i = Σ i = 0 N Σ j = 0 19 { Cij - Xj } p - - - ( 23 )
这里表3中示出本结构和使用了公式(22)情况下的计算量以及存储量的关系。本实施例的结构情况下代码薄是4分之1大小,计算量方面,以往需要1024种检索处理,而本实施例的结构可以只进行256种检索处理以及对于检索结果添加2个符号的处理,由此可知能够大幅度削减计算量以及存储量。
(表3)
       方式     依据公式3     依据公式1
    传送信息量     9比特  9(比特)
    代码薄(代码数)     512(比特)  64(6比特)
    符号传送的信息        0  3符号(3比特)
    计算量     512代码检索  64检索+3符号添力
这样,如果依据本实施形态10,则在把输入矢量进行分割生成的子矢量与发送侧代码薄29003中的各音频代码的听觉距离中选择具有最小距离的音频代码时,在音频代码选择单元2900102中能够忽略表示其相位信息的正负符号处理与听觉重要度高的子矢量的要素相当的部分,进行与发送侧代码薄29003的音频代码的比较检索,在所得到的结果上另外添加与用相位信息检索单元2900107抽取出的上述子矢量的要素部分相对应的相位信息作为代码索引进行输出,因此能够不导致身体感觉到的音质的恶化,减少音频代码选择单元2900102中的计算量,另外还能够减少代码薄29003中所需要的代码数。
实施形态11
以下,参照附图说明本实施形态11的音频信号编码装置。图32(a)示出本发明实施形态11的音频信号编码装置的结构,图32中,3200103是存储考虑了人的听觉心理特性的各频率的相对听觉心理量的表的听觉心理权矢量表。
以下,说明其动作。与上述实施形态10的区别在于本实施形态是新添加了听觉心理权矢量表3200103的结构。所谓听觉心理权矢量,是根据人的听觉心理模式,作为对于频率的听觉的灵敏特性而定义的听觉灵敏表等,因此是对于本实施形态的输入矢量各要素汇集并量化了相同频段的要素的表。这里例如,如图32(b)所示,在频率2.5KHz左右具有峰值,由此可知位于频率最低位置处的不一定在人的听觉方面是重要的。
即,本实施形态中,在把MDCT系数作为对于音频代码选择单元2900102的输入矢量,把听觉心理权矢量表3200103作为代码选择时的权值,计算发送侧代码薄29003中的各代码与输入矢量的听觉距离。在把代码索引记为i的情况下音频代码选择单元2900102中代码选择时的距离尺寸Di例如成为 D i = Σ i = 0 N Σ j = 0 M Wj { abs ( Cij ) - abs ( Xj ) } p + Σ i = 0 N Σ j = M + 1 19 Wj { Cij - Xj } p - - - ( 24 )
这里,N是发送侧代码薄29003中的全部代码的个数,Cij是代码索引i中的第j个要素的值。M在本实施例的情况下,是小于19的数,例如是1等。P是距离计算中的范数,例如,是2等。Wj是听觉心理权矢量表3200103中的第j个要素。另外,abs()表示绝对值运算。
在相位信息抽取单元2900107中,判断从听觉心理权矢量表3200103抽取出与哪个频率的音频特性矢量相当的要素的相位信息,输出在其范围内给出最小的Di的代码索引I和M个相位信息Ph(j)(j=0~M)。相位信息Ph(j)同样用公式(22)定义。
这样,如果依据本实施形态11,则在把输入矢量分割生成的子矢量与发送侧代码薄29003中的各音频矢量的听觉距离中选择具有最小距离的矢量代码时,在音频代码选择单元2900102中忽略表示其相位信息的正负符号,处理与听觉重要度高的子矢量要素相当的部分,进行与发送侧代码薄C3的音频代码的比较检索,在所得到的结果上另外添加与用相位信息抽取单元2900107抽取的上述子矢量的要素部分对应的相位信息作为代码索引进行输出,因此能够不导致身体感觉到的音质的恶化,能够削减音频代码选择单元2900102中的计算量,还能够削减代码薄29003中所需要的代码数。
另外,通过使用考虑了人的听觉心理特性存储各频率的相对听觉心理量的表的听觉心理权矢量表3200103,加权选择在上述音频代码选择单元2900102中忽略表示使其相位信息的正负符号而处理的音频特征矢量,像上述实施形态10那样只是与从低频区选择预定个数的矢量相比较,能够进行身体感觉到的音质更出色的量化。
实施形态12
以下,参照附图说明本发明实施形态12的音频信号编码装置。图33(a)示出本实施形态12的音频信号量化装置的结构,图中,3300104是平滑矢量表,实际上存储着除法曲线等的数据。3300105是使用存储在平滑矢量表3300104中的平滑矢量通过矢量要素之间的除法运算把输入矢量进行平滑的平滑单元。
以下,说明其动作。如同上述实施形态10以及实施形态11中音频信号编码装置一样,MDCT系数等作为输入矢量输入到上述平滑单元3300105中,在该平滑单元3300105中使用存储在平滑矢量表3300104中的作为平滑矢量的除法曲线,在输入矢量上进行平滑运算。该平滑运算,例如,在把输入矢量记为X,把平滑矢量3400104记为F,把平滑矢量单元3300105的输出记为Y,把各个矢量的第i个要素记为Xi、Fi、Yi的情况下,进行用公式(25)表示的处理。
Yi=Xi/Fi(25)
平滑矢量表3300104在输入矢量是MDCT系数的情况下,是使MDCT系数的偏差减少的值。图33(b)模式地示出上述平滑处理,通过从被子矢量化了的要素中的低频侧对于2个要素进行除法处理,能够缩小各个频率的信息量的级差(范围)。
而且,平滑单元3300105的输出作为音频代码选择单元2900102的输入,在代码选择单元2900102中与上述实施形态10相同,被平滑化了的输入矢量在相位信息抽取单元2900107中,对于从频率低的一侧到第2个要素抽取其相位信息,另一方面,在音频代码选择单元2900102中,进行与存储在发送侧代码薄330031中的256个代码的检索。这时,由于如果直接输出与获得的检索结果对应的代码索引(8比特)则不能够得到正确的检测结果,所以从平滑矢量表3300104接受平滑处理时的信息,在调整比例的基础上,进行对应于该检索结果的代码索引(8比特)的选择,在这样的的结果上添加2比特的相位信息输出10比特的代码索引I。
这时的输入矢量和存储在发送侧代码薄330031中的代码之间的距离Di,例如,把平滑矢量表了3300104各第i个要素记为Fi,则如公式(26)所示。 D i = Σ i = 0 N Σ j = 0 M Fj { abs ( Cij ) - abs ( Xj ) } p + Σ i = 0 N Σ j = M + 1 19 Fj { Cij - Xj } p - - - ( 26 )
这里,N是发送侧代码薄330031中的所有代码的个数,Cij是代码索引i中的第j个要素的值。M在本实施形态的情况下,是小于19的数,例如,是1等。P是距离计算中的范数,例如是2等。Wj是听觉心理权矢量表3200103中的第j个要素。另外,abs()表示绝对值运算。在相位信息抽取单元2900107中,输出给出最小的Di的代码索引i和M个相位信息Ph(j)(j=0~M)。相位信息Ph(j)同样用公式(22)定义。
这样,如果依据本实施形态12,则在把输入矢量分割生成的子矢量与发送侧代码薄330031中的各音频矢量的听觉距离中选择具有最小距离矢量代码时,在音频代码选择单元2900102中忽略表示其相位信息的正负符号,处理与听觉重要度高的子矢量要素相当的部分,进行与发送侧代码薄330031的音频代码的比较检索,在所得到的结果上另外添加与用相位信息抽取单元2900107抽取的上述子矢量的要素部分对应的相位信息作为代码索引进行输出,因此能够不导致身体感觉到的音质的恶化,能够削减音频代码选择单元2900102中的计算量,还能够削减代码薄330031中所需要的代码数。
另外,由于使用平滑矢量表3300104、平滑矢量单元3300105把输入矢量进行平滑,所以能够总体地减少在音频代码选择单元2900102中进行检索时参考的预先存储在发送侧代码薄330031中的代码薄的各频率的信息量。
实施形态13
以下,参照附图说明本发明实施形态13的音频信号编码装置。图34示出本发明实施形态13的音频信号编码装置的结构,图中,与图33所示的实施形态12的不同之处在于,在音频代码选择单元2900102中选择代码时,在平滑矢量表3300104的基础上,还使用在实施形态11中使用的听觉心理权矢量表3200103。
以下,说明其动作。与上述实施形态10相同,MDCT系数等作为输入矢量输入到平滑单元3300105中,该平滑单元3300105的输出成为音频代码选择单元2900102的输入,在音频代码选择单元2900102中,根据从平滑矢量表3300104输出的平滑处理时的信息,考虑了平滑处理时的定标的同时进行听觉心理权矢量表3200103的听觉心理权矢量的加权,计算发送侧代码薄330031中的各代码与上述平滑单元3300105的输出的距离。使用与上述实施形态10、11相同的表示,距离Di例如如公式(27)所示。 D i = Σ i = 0 N Σ j = 0 M WjFj { abs ( Cij ) - abs ( Xj ) } p + Σ i = 0 N Σ j = M + 1 19 WjFj { Cij - Xj } p - - - ( 27 )
这里,N是发送侧代码薄330031中的所有代码的个数,Cij是代码索引i中的第j个要素的值。M在本实施形态的情况下,是小于19的数,例如,是1等。P是距离计算中的范数,例如是2等。Wj是听觉心理权矢量表3200103中的第j个要素。另外,abs()表示绝对值运算。在相位信息抽取单元2900107中,输出给出最小的Di的代码索引i和M个相位信息Ph(j)(j=0~M)。相位信息Ph(j)同样用公式(22)定义。
这样,如果依据本实施形态13,则在把输入矢量分割生成的子矢量与发送侧代码薄330031中的各音频矢量的听觉距离中选择具有最小距离矢量代码时,在音频代码选择单元2900102中忽略表示其相位信息的正负符号,处理与听觉重要度高的子矢量要素相当的部分,进行与发送侧代码薄330031的音频代码的比较检索,在所得到的结果上另外添加与用相位信息抽取单元2900107抽取的上述子矢量的要素部分对应的相位信息作为代码索引进行输出,因此能够不导致身体感觉到的音质的恶化,能够削减音频代码选择单元2900102中的计算量,还能够减少代码薄330031中所需要的代码数。
另外,通过使用考虑了人的听觉心理特性存储各频率相对听觉心理量的表的听觉心理权矢量表3200103,加权选择在上述音频代码选择单元2900102中忽略表示其相位信息的正负符号而处理的特征矢量,与像上述实施形态10那样只是从低频区选择预定个数的矢量相比较,能够进行身体感觉到的音质更出色的量化。
另外,由于使用平滑矢量表3300104、平滑矢量单元3300105把输入矢量进行平滑,所以能够总体地减少在音频代码选择单元2900102中进行检索时参考的预先存储在发送侧代码薄330031中的代码薄的各频率的信息量。
实施形态14
以下,参照附图说明本发明实施形态14的音频信号编码装置。图35示出本发明实施形态14的音频信号编码装置的结构,图中,3500106是分类单元,接受听觉心理权矢量表3200103的输出和平滑矢量表3300104的输出,选择多个计算出的矢量中的最大的要素并将其进行输出。
以下,说明其动作。本实施形态14与上述实施形态13结构上的不同在于添加了分类单元3500106,另外在音频代码选择单元2900102选择并输出代码索引的方法方面也不相同。
即,在分类单元3500106中,把听觉心理权矢量表3200103和平滑矢量表3300104的输出作为输入,例如,如果把矢量WF的第j个要素定义为WFj,则如以下公式(28)所示。
WFj=abs(Wj*Fj)(28)
而且,在该分类单元3500106中,从矢量WF的各要素WFj中计算出最大的R个要素,把该R个要素编号作为分类单元3500106的输出。在音频代码选择单元2900102中,与上述各实施形态相同,计算距离Di。距离Di例如用下面的公式(29)表示。 D i = Σ i = 0 N Σ j = 0 19 FUNCW
Figure A9719578500612
这里,Rj根据分类单元3500106,如果被输出的是要素编号则Rj是1,如果被输出的不是要素编号则Rj是0。N是发送侧代码薄330031中的所有代码的个数,Cij是代码索引i中的第j个要素的值。M在本实施形态的情况下,是小于19的数,例如,是1等。P是距离计算中的范数,例如是2等。Wj是听觉心理权矢量表3200103中的第j个要素。另外,abs()表示绝对值运算。在相位信息抽取单元2900107中,输出给出最小的Di的代码索引i和M个相位信息Ph(j)(j=0~R)。相位信息Ph(j)同样用公式(30)定义。
Figure A9719578500621
式中,Ph(j)是仅对应于在分类单元3500106中输出的要素编号的信息计算的结果。本实施例中是(R+1)。在使用本实施形态14的结构的情况下,在把该索引进行解码时,也需要具有分类单元3500106的结构。
这样,如果依据本实施形态14,则由于上述实施形态13中,接受平滑矢量表3300104的输出和听觉心理权矢量表3200103的输出,从它们的输出结果,选择矢量中最大的要素,即,权绝对值大的要素,并且将其输出到音频代码选择单元2900102中,因此,能够考虑对于人的听觉特性意义大的要素和物理上重要的要素这两方面计算代码索引,能够进行更高品质的音频信号编码。
另外,本实施形态14中,把从考虑了平滑矢量3300104和听觉心理权矢量表3200103这两者的权绝对值大的要素中选择的要素的个数取为R个,然而,也可以是与上述实施形态10~13中使用的M相同的数值。
实施形态15
以下,参照附图说明本发明实施形态15的音频信号解码装置。图36示出本发明实施形态15的音频信号解码装置的结构。图36中,360021是解码单元,由解码侧代码薄360061和代码解码单元360051构成,进而,代码解码单元360051由音频代码选择单元2900102和相位信息抽取单元2900107构成。
以下,说明其动作。本实施形态15中,接收代码索引进行解码时,在应用了上述实施形态10~14所示的编码方法的装置,即,在音频代码选择单元2900102中,例如,除去所接收的10比特的代码索引中从人的听觉方面重要度高的低频侧的2比特要素,对于剩余的8比特要素,进行与存储在接收侧代码薄360061中的代码的比较检索,对于上述除此之外的2比特要素的相位信息,使用相位信息抽取单元2900107进行抽取,对于上述检索结果添加该信息,由此再生音频特征矢量,即进行逆量化。
通过这样做,作为上述接收侧代码薄,可以只存储对应于8比特要素的256个代码,能够减少存储在接收侧代码薄360061中的数据,另外,音频代码选择单元2900102中的运算成为256次代码检索和对于检索结果添加2个符号的处理,能够大幅度地削减运算量。
另外,本实施形态15中,示出了把实施形态10的结构应用到接收侧的结构中的情况,然而也可以应用实施形态2~5所示的结构,另外,通过在接收侧不是单独使用,而是与上述实施形态10至14的某一个实施形态组合使用,能够构筑顺利地进行音频信号的压缩、扩张的音频数据发送接收***。
产业上的可利用性
如上所述,依据本发明权项1的音频信号编码方法,则由于这是使用具有把输入音频信号进行频率变换得到的频率特性信号序列进行矢量量化的初级矢量量化处理,和把前级矢量量化处理中的量化误差成分进行矢量量化的第2级以后的矢量量化处理的多级量化方法,进行矢量量化以及信息量的编码的音频信号编码方法,该方法在基于上述多级量化方法的多级量化处理内的至少一个矢量量化处理中,把根据输入音频信号的频谱和作为人的听觉性质的听觉灵敏特性计算出来的频率上的加权系数用作为量化的加权系数,进行矢量量化,所以具有能够利用人的听觉特性进行高效量化的效果。
依据本发明权项2的音频信号编码方法,则由于这是使用具有把输入音频信号进行频率变换得到的频率特性信号序列进行矢量量化的第1矢量量化处理,和把第1矢量量化处理中的量化误差成分进行矢量量化的第2矢量量化处理的多级量化方法,进行矢量量化以及信息量的编码的音频信号编码方法,该方法根据输入音频信号的频谱和作为人的听觉性质的听觉灵敏特性,选择上述第1矢量量化处理中的量化误差成分的频段中量化的重要度高的频段,在上述第2矢量量化处理中,对于上述被选择的频段进行上述第1量化处理的量化误差成分的量化,所以具有能够利用人的听觉特性进行高效量化的效果。
依据本发明权项3的音频信号编码方法,则由于这是使用具有把输入音频信号进行频率变换得到的频率特性信号序列进行矢量量化的初级矢量量化处理和把前级矢量量化处理中的量化误差成分进行矢量量化的第2级以后的矢量量化处理的多级量化方法,进行矢量量化以及信息量的编码的音频信号编码方法,该方法在基于上述多级量化方法的多级量化处理内的至少一个矢量量化处理中,把根据输入音频信号的频谱和作为人的听觉性质的听觉灵敏特性计算出来的频率上的加权系数用作为量化的加权系数,进行矢量量化,而且,根据输入音频信号的频谱和作为人的听觉性质的听觉灵敏特性,选择上述初级矢量量化处理中的量化误差成分的频段中量化的重要度高的频段,在上述第2级矢量量化处理中,对于上述被选择的频段进行上述初级量化处理的量化误差成分的量化,所以具有能够利用人的听觉特性进行高效量化的效果。
依据本发明权项4的音频信号编码装置,则由于构成为具有:把输入的音频信号变换为频带信号的时间频率变换单元;计算出上述被输入的音频信号的频谱包络的频谱包络运算单元;把在上述时间频率变换单元得到频带信号用上述频谱包络运算单元得到的频谱包络进行正规化获得残差信号的正规化单元;把上述残差信号用能量进行正规化的能量正规化单元;根据上述被输入的音频信号的频谱和作为人的听觉性质的听觉灵敏特性计算频率上的加权系数的听觉加权计算单元;包括输入由上述能量正规化单元正规化了的上述残差信号,连接成纵列的多级矢量量化单元,并且其中至少一个矢量量化单元使用在上述听觉加权计算单元得到的加权系数进行量化的多级量化单元,所以具有能够利用人的听觉特性进行高效量化的效果。
依据本发明权项5的音频信号编码装置,则由于在上述权项4记述的音频信号编码装置中,上述多级量化单元的上述多级内的多个量化单元是使用在上述听觉加权计算单元得到的加权系数进行量化的单元,而且,上述听觉加权计算单元计算出上述多个量化单元的每一个所使用的各加权系数,所以具有能够更有效地利用人的听觉特性进行高效量化的效果。
依据本发明权项6的音频信号编码装置,则由于在上述权项5记述的音频信号编码装置中,上述多级量化单元还具有:第1级量化单元,用于以在上述频谱包络运算单元得到的频谱包络作为各频带的加权系数,把在上述能量正规化单元中正规化了的上述残差信号进行量化;第2级量化单元,用于以根据上述频谱包络与上述第1级量化单元的量化误差信号的相关性计算出来的加权系数作为各频带的加权系数,进行上述第1级量化单元的量化误差信号的量化;第3级量化单元,用于把在上述听觉加权计算单元中根据在时间频率变换单元中被变换为频带信号的输入信号和听觉特性计算出来的加权系数,根据上述频谱包络、上述第2级量化单元的量化误差信号以及在上述能量正规化单元中正规化了的上述残差信号调整后求出的加权系数,作为各频带的加权系数进行上述第2级量化单元的量化误差信号的量化,所以具有能够利用人的听觉特性进行高效量化的效果。
依据本发明权项7的音频信号编码装置,则由于构成为具有:把输入的音频信号变换为频带信号的时间频率变换单元;计算上述被输入的音频信号的频谱包络的频谱包络运算单元;把在上述时间频率变换单元得到的频带信号用在上述频谱包络运算单元得到的频谱包络进行正规化后获得残差信号的正规化单元;把上述残差信号用能量进行正规化的能量正规化单元;进行在该能量正规化单元中正规化了的残差信号的量化的第1矢量量化器;根据输入音频信号的频谱和作为人的听觉性质的听觉灵敏特性,选择上述第1矢量量化器内的量化误差成分的频段中量化的重要度高的频段的听觉选择装置;对于用该听觉选择装置选择了的频段进行上述第1矢量量化器的量化误差成分的量化的第2量化器,所以具有能够有效地利用人的听觉特性进行高效量化的效果。
依据本发明权项8的音频信号编码装置,则由于在上述权项7记述的音频信号编码装置中,上述听觉选择装置把上述第1矢量量化器的量化误差成分、在上述频谱包络运算单元得到的频谱包络信号以及最小可听限度特性的逆特性进行相乘的值用作为要量化的重要度的尺度选择频段,所以具有能够有效地利用人的听觉特性进行高效量化,而且,能够防止第1矢量量化器中的量化良好的部分被再次量化反而产生误差,能够进行保持了高品质的量化的效果。
依据本发明权项9的音频信号编码装置,则由于在上述权项7记述的音频信号编码装置中,上述听觉选择装置把在上述频谱包络运算单元得到的频谱包络信号以及最小可听限度特性的逆特性进行相乘的值用作为要量化的重要度的尺度选择频段,所以具有能够有效地利用人的听觉特性进行高效量化,而且,能够减少量化所需要的代码,能够提高压缩率的效果。
依据本发明权项10的音频信号编码装置,则由于在上述权项7记述的音频信号编码装置中,上述听觉选择装置把上述第1矢量量化器的量化误差成分、在上述频谱包络运算单元得到的频谱包络信号以及把最小可听限度特性与从输入信号计算的掩蔽特性相加了的特性的逆特性进行相乘的值用作为要量化的重要度的尺度选择频段,所以具有能够有效地利用人的听觉特性进行高效量化,而且,能够防止第1矢量量化器中的量化良好的部分被再次量化反而产生误差,能够进行保持了高品质的量化的效果。
依据本发明权项11的音频信号编码装置,则由于在上述权项7记述的音频信号编码装置中,上述听觉选择装置把上述第1矢量量化器的量化误差成分、在上述频谱包络运算单元得到的频谱包络信号、把最小可听限度特性与在从输入信号计算的掩蔽特性上根据在上述能量正规化单元被正规化了的残差信号、在上述频谱包络运算单元得到的频谱包络信号以及上述第1矢量量化器的量化误差成分进行校正了的特性相加了的特性的逆特性进行相乘运算了的值用作为要量化的重要度的尺度选择频段,所以具有能够有效地利用人的听觉特性进行高效量化,而且,能够防止第1矢量量化器中的量化良好的部分被再次量化反而产生误差,能够进行保持了高品质的量化的效果。
依据本发明权项12至38的音频信号编码装置的音频信号解码装置,则在具有量化时使用矢量量化方法以高信息压缩率也能够进行量化的结构,同时,量化时的信息量分配采用交替分配对于扩张再生频带起作用的信息和提高音质起作用的信息这两种信息的结构,首先在编码装置中,作为第1级,把输入的音频信号变换为频域的信号,把变换了的频率信号的一部分进行编码,在第2级,把没有被编码的频率信号的一部分和第1级的编码误差信号进行编码,添加到第1级的代码上,在第3级,进而把没有被编码的频率信号的一部分和第1级以及第2级的编码误差信号进行编码,添加到第1级,第2级的代码上,同样进而重复分级进行编码,另一方面,在解码装置中,仅使用第1级被编码的代码进行解码,使用第1级和第2级被编码的代码进行解码,使用从第1级开始第1级以上各级的被编码的代码进行解码,解码的顺序是交替地把在扩展频带方面起作用的代码和提高品质方面起作用的代码进行解码,由于采用这样的结构,因此不以固定的信息量进行编码以及解码也能够得到良好的音质,还能够以高压缩率得到高品质的声音。
本发明权项39的音频信号编码装置,则具有:把输入音频信号进行频率变换后得到的频率特性信号序列作为输入信号,抽取该频率特性信号序列中的属于预定频带的信号的相位信息的相位信息抽取单元;存储多个作为上述频率特性信号序列的代表值的音频代码的代码薄,其中该音频代码是把对应于上述抽取出的相位信息的要素部分形成为绝对值化了的状态;计算上述频率特性信号序列和上述代码薄中的各个音频代码之间的听觉距离,选择出具有最小距离的音频代码的同时,把来自上述相位信息抽取单元的输出用作为辅助信息添加到具有该最小距离的音频代码的相位信息上,把对应于具有该最小距离的音频代码的代码索引作为其输出信号进行输出的音频代码选择单元,所以具有能够不导致身体感觉到的音质的恶化,可以减少音频代码选择单元中的计算量,还可以减少应存储在代码薄中的代码数的效果。
依据本发明权项41的音频信号量化装置,则由于在上述权项39记述的音频信号量化装置中,还具有作为考虑了人的听觉心理特性的各频率的相对听觉心理量的表的听觉心理权矢量表,上述相位信息抽取单元抽取被输入的频率特性信号序列中与存储在上述听觉心理权矢量表的矢量一致的要素的相位信息,所以具有能够进行身体感觉到的更出色音质的量化这样的效果。
依据本发明权项42的音频信号量化装置,则由于在上述权项39记述的音频信号量化装置中,还具有使用平滑矢量通过矢量要素之间的除法运算把上述频率特性信号序列进行平滑的平滑单元,使上述音频代码选择单元构成为选择具有上述最小距离的音频代码,把相位信息添加到该被选出的音频代码之前,使用从上述平滑单元输出的平滑处理信息,把上述被选出的音频代码变换为没有进行平滑处理的音频代码,把对应于该音频代码的代码索引作为其输出信号进行输出,所以具有能够总体地减少用音频代码选择单元进行检索时参考的预先存储在代码薄中的代码薄的各频率的信息量这样的效果。
依据本发明权项43的音频信号量化装置,则由于在上述权项39记述的音频信号量化装置中具有:作为考虑了人的听觉心理特性的各频率的相对听觉心理量的表的听觉心理权矢量表;使用平滑矢量通过矢量要素之间的除法运算把上述频率特性信号序列进行平滑的平滑单元;按照听觉重要度高的顺序选择出多个把上述听觉心理权矢量表的值和上述平滑矢量表的值进行相乘得到的值,将该值输出到上述音频代码选择单元的分类单元,所以具有能够综合对于人的听觉特性意义大的要素和物理上重要的要素这两个方面计算出代码索引,能够进行更高品质的音频信号的压缩这样的效果。
依据本发明权项47的音频信号逆量化装置,则由于具有:把作为音频信号的特征量的频率特性信号序列进行量化得到的代码索引作为输入信号,抽取该代码索引中与预定的频带相当的要素的相位信息的相位信息抽取单元;存储多个作为上述频率特性信号序列的代表值的音频代码的代码薄,其中该音频代码把对应于上述抽取出的相位信息的要素部分形成为绝对值化了的状态;计算上述代码索引和上述代码薄中的频率特性信号序列的听觉距离,选择出具有最小距离的频率特性信号序列,同时,把来自上述相位信息抽取单元的输出用作为辅助信息添加到对于具有该最小距离的频率特性信号序列的相位信息上,把对应于作为上述输入信号的代码索引的频率特性信号序列作为其输出信号进行输出的音频代码选择单元,所以具有能够减少存储在接收侧使用的代码薄中的数据量,还能够大幅度减少接收侧的运算量的效果。

Claims (52)

1.一种音频信号编码方法,使用具有把输入音频信号进行频率变换得到的频率特性信号序列进行矢量量化的初级矢量量化处理和把前级矢量量化处理中的量化误差成分进行矢量量化的第2级以后的矢量量化处理的多级量化方法,进行矢量量化以及信息量的编码,其特征在于:
在基于上述多级量化方法的多级量化处理内的至少一个矢量量化处理中,把根据输入音频信号的频谱和作为人的听觉性质的听觉灵敏特性计算出来的频率上的加权系数用作为量化的加权系数,进行矢量量化。
2.一种音频信号编码方法,使用具有把输入音频信号进行频率变换得到的频率特性信号序列进行矢量量化的第1矢量量化处理和把第1矢量量化处理中的量化误差成分进行矢量量化的第2矢量量化处理的多级量化方法,进行矢量量化以及信息量的编码,其特征在于:
根据输入音频信号的频谱和作为人的听觉性质的听觉灵敏特性,选择上述第1矢量量化处理中的量化误差成分的频段中量化的重要度高的频段,在上述第2矢量量化处理中,对于上述被选择的频段进行上述第1量化处理的量化误差成分的量化。
3.一种音频信号编码方法,使用具有把输入音频信号进行频率变换得到的频率特性信号序列进行矢量量化的初级矢量量化处理和把前级矢量量化处理中的量化误差成分进行矢量量化的第2级以后的矢量量化处理的多级量化方法,进行矢量量化以及信息量的编码,其特征在于:
在基于上述多级量化方法的多级量化处理内的至少一个矢量量化处理中,把根据输入音频信号的频谱和作为人的听觉性质的听觉灵敏特性计算出来的频率上的加权系数用作为量化的加权系数,进行矢量量化,
而且,根据输入音频信号的频谱和作为人的听觉性质的听觉灵敏特性,选择上述初级矢量量化处理中的量化误差成分的频段中量化的重要度高的频段,在上述第2级矢量量化处理中,对于上述被选择的频段进行上述初级量化处理的量化误差成分的量化。
4.一种音频信号编码装置,其特征在于具有:
把输入的音频信号变换为频域信号的时间频率变换单元;
计算出上述被输入的音频信号的频谱包络的频谱包络运算单元;
把在上述时间频率变换单元得到频域信号用上述频谱包络运算单元得到的频谱包络进行正规化获得残差信号的正规化单元;
根据上述被输入的音频信号的频谱和作为人的听觉性质的听觉灵敏特性计算频率上的加权系数的听觉加权计算单元;
包含有输入上述正规化了的上述残差信号,连接成纵列的多级矢量量化单元,并且其中至少一个矢量量化单元使用在上述听觉加权计算单元得到的加权系数进行量化的多级量化单元。
5.如权项4所述的音频信号编码装置,其特征在于:
上述多级量化单元的上述多级内的多个量化单元是使用在上述听觉加权计算单元得到的加权系数进行量化的单元,而且,上述听觉加权计算单元计算出上述多个量化单元的每一个所使用的各加权系数。
6.如权项5所述的音频信号编码装置,其特征在于:
上述多级量化单元还具有:
第1级量化单元,用于以在上述频谱包络运算单元得到的频谱包络作为各频域的加权系数把在上述正规化单元中正规化了的上述残差信号的进行量化;
第2级量化单元,用于以根据上述频谱包络与上述第1级量化单元的量化误差信号的相关性计算出来的加权系数作为各频域的加权系数进行上述第1级量化单元的量化误差信号的量化;
第3级量化单元,用于把在上述听觉加权计算单元中根据在时间频率变换单元中被变换为频域信号的输入信号和听觉特性计算出来的加权系数根据上述频谱包络、上述第2级量化单元的量化误差信号以及在上述正规化单元中被正规化了的上述残差信号调整后求出的加权系数,作为各频率区域的加权系数进行上述第2级量化单元的量化误差信号的量化。
7.一种音频信号编码装置,其特征在于具有:
把输入的音频信号变换为频域信号的时间频率变换单元;
计算上述被输入的音频信号的频谱包络的频谱包络运算单元;
把在上述时间频率变换单元得到的频域信号用在上述频谱包络运算单元得到的频谱包络进行正规化后获得残差信号的正规化单元;
进行在该正规化单元中被正规化了的残差信号的量化的第1矢量量化器;
根据输入音频信号的频谱和作为人的听觉性质的听觉灵敏特性,选择上述第1矢量量化器内的量化误差成分的频段中量化的重要度高的频段的听觉选择装置;
对于用该听觉选择装置选择了的频段进行上述第1矢量量化器的量化误差成分的量化的第2量化器。
8.如权项7所述的音频信号编码装置,其特征在于:
上述听觉选择装置把上述第1矢量量化器的量化误差成分、在上述频谱包络运算单元得到的频谱包络信号以及最小可听限度特性的逆特性进行相乘得到的值用作为要量化的重要度的尺度,选择频段。
9.如权项7所述的音频信号编码装置,其特征在于:
上述听觉选择装置把在上述频谱包络运算单元得到的频谱包络信号以及最小可听限度特性的逆特性进行相乘得到的值用作为要量化的重要度的尺度,选择频段。
10.如权项7所述的音频信号编码装置,其特征在于:
上述听觉选择装置把上述第1矢量量化器的量化误差成分、在上述频谱包络运算单元得到的频谱包络信号以及把最小可听限度特性与从输入信号计算的掩蔽特性相加了的特性的逆特性进行相乘运算了的值用作为要量化的重要度的尺度,选择频段。
11.如权项7所述的音频信号编码装置,其特征在于:
上述听觉选择装置把上述第1矢量量化器的量化误差成分、在上述频谱包络运算单元得到的频谱包络信号、最小可听限度特性与在从输入信号计算的掩蔽特性上根据在上述正确化单元中正规化的残差信号在上述频谱包络运算单元得到的频谱包络信号以及上述第1矢量量化器的量化误差成分进行校正了的特性相加了的特性的逆特性进行相乘了的值用作为要量化的重要度的尺度,选择频段。
12.一种音频信号编码装置,使用具有把输入音频信号进行频率变换得到的频率特性信号序列进行矢量量化的第1矢量量化器和把第1矢量量化器中的量化误差成分进行矢量量化的第2矢量量化器的多级量化装置,进行矢量量化以及信息量的编码的音频信号编码装置,其特征在于:
上述多级量化装置对于上述频率特性信号序列,分为与至少分割为2个以上频带的频带相当的系数序列的同时,使上述矢量量化器对应于各个系数序列并且用所准备的多个分割矢量量化器独立地进行量化。
13.如权项12所述的音频信号编码装置,其特征在于:
还具有把上述频率特性信号序列进行正规化的正规化装置。
14.如权项12所述的音频信号编码装置,其特征在于:
上述量化装置适当地选择量化误差的能量累加和大的频带把要量化的频率特性信号序列的频带进行量化。
15.如权项12所述的音频信号编码装置,其特征在于;
上述量化装置根据作为人的听觉性质的听觉灵敏特性,适当地选择在其重要度高的频带中加权了大值的量化误差能量累加和大的频带,把要量化的频率特性信号序列进行量化。
16.如权项12所述的音频信号编码装置,其特征在于:
上述量化装置具有把要量化的频率特性信号序列的频带至少进行一次全部量化的构成全频带量化单元的矢量量化器。
17.如权项12所述的音频信号编码装置,其特征在于:
上述量化装置构成为前级矢量量化器使用运用了代码薄的矢量量化方法计算出矢量量化中的量化误差,对于该计算出的量化误差后级的量化单元进一步进行矢量量化。
18.如权项17所述的音频信号编码装置,其特征在于:
作为上述矢量量化方法,在代码检索时使用矢量的符号全部或者其中一部分反转了的代码矢量。
19.如权项17所述的音频信号编码装置,其特征在于:
还具有把频率特性信号序列进行正规化的正规化装置,在检索矢量量化中的最佳代码时使用的距离计算中,把由上述正规化装置处理了的输入信号的正规化成分作为权值计算距离,抽取给出最小距离的代码。
20.如权项19所述的音频信号编码装置,其特征在于:
把考虑了由上述正规化装置处理了的频率特性信号序列的正规化成分和作为人的听觉性质的听觉灵敏特性的两者的值作为权值计算距离,抽取给出最少距离的代码。
21.如权项13所述的音频信号编码装置,其特征在于:
上述正规化装置具有把频率特性信号序列的概形大致进行正规化的频率概形正规化单元。
22.如权项13所述的音频信号编码装置,其特征在于:
上述正规化装置具有把频率特性信号序列分为多个连续的单位频带的成分,通过用一个值除各个单位频带进行正规化的频带振幅正规化单元。
23.如权项12所述的音频信号编码装置,其特征在于:
上述量化装置具有使用分割矢量量化器把频率特性信号序列分为各个系数序列独立地进行量化的矢量量化器,同时还具有把要量化的输入信号的频带至少进行一次全部量化的构成全频带量化单元的矢量量化器。
24.如权项23所述的音频信号编码装置,其特征在于:
上述量化装置具有由低频区分割矢量量化器,中频区分割矢量量化器,高频区分割矢量量化器组成的第1矢量量化器,连接在其后级的第2矢量量化器,连接在该第2矢量量化器后级的第3矢量量化器,
把输入到该矢量量化装置中的频率特性信号序列分割为3个频带,分别独立地用上述低频带分割矢量量化器进行该3个频带中的低频成分的频率特性信号序列的量化,用上述中频区分割矢量量化器进行3个频带中的中频成分的频率特性信号序列的量化,用上述高频区分割矢量量化器进行3个频带中的高频成分的频率特性信号序列的量化,
用构成上述第1矢量量化器的各个分割矢量量化器计算出对于频率特性信号序列的量化误差,把该误差值作为向后级的上述第2矢量量化器的输入,
在上述第2矢量量化器中,进行该第2矢量量化器要量化的带宽的量化,计算出对于该第2矢量量化器的输入的量化误差并且把该误差值作为向上述第3矢量量化器的输入,
在上述第3矢量量化器中,进行该第3矢量量化器要量化的带宽的量化。
25.如权项24所述的音频信号编码装置,其特征在于:
在构成上述量化装置的第1矢量量化器和第2矢量量化器之间设置第1量化频带选择单元,同时,在上述第2矢量量化器和上述第3矢量量化器之间设置第2量化频带选择单元,
把上述第1矢量量化器的输出作为对上述第1量化频带选择单元的输入,在该第1量化频带选择单元中选择上述第2矢量量化器要量化的频带,
在上述第2矢量量化器中,对于上述第1量化频带选择单元决定了的上述第1级3矢量量化器的量化误差,进行上述第2矢量量化器要量化带宽的量化,计算出对于上述第2矢量量化器的输入的量化误差并且将该误差作为向上述第2量化频带选择单元的输入,
在上述第2量化频带选择单元中,选择上述第3矢量量化器要量化的频带,
在上述第3矢量量化器中,对于上述第2量化频带选择单元决定了的频带进行量化。
26.如权项24所述的音频信号编码装置,其特征在于:
使用上述低频区分割矢量量化器,中频区分割矢量量化器和高频区分割矢量量化器构成上述第2矢量量化器或者第3矢量量化器,而不是构成上述第1矢量量化器。
27.一种音频信号解码装置,这是把来自作为权项12所述的音频信号编码装置的输出的代码作为输入,将其进行解码,输出与原始输入音频信号相当的信号的音频信号解码装置,其特征在于具有:
使用至少一部分上述音频信号编码装置的量化装置输出的代码进行逆量化的逆量化单元;
使用作为该逆量化单元的输出的频率特性信号序列,把频率特性信号序列变换为与原始音频输入信号相当的信号的逆频率变换单元。
28.一种音频信号解码装置,这是把来自作为权项13所述的音频信号编码装置的输出的代码作为输入,将其进行解码,输出与原始输入音频信号相当的信号的音频信号解码装置,其特征在于具有:
再生频率特性信号序列的逆量化单元;
使用作为该逆量化单元的输出的频率特性信号序列,与作为上述音频信号编码装置的输出的代码一起再生正规化成分,把上述频率特性信号序列与正规化成分进行乘法运算后输出的逆正规化单元;
接受该逆正规化单元的输出,把频率特性信号序列变换为与原始音频信号相当的信号的逆频率变换单元。
29.一种音频信号解码装置,这是把来自作为权项23所述的音频信号编码装置的输出的代码作为输入,将其进行解码,输出与原始输入音频信号相当的信号的音频信号解码装置,其特征在于具有:
即使在构成上述音频信号编码装置中的量化装置的矢量量化器的全部或者一部分输出了代码的情况下,也可以使用所输出的代码进行逆量化的逆量化单元。
30.如权项29所述的音频信号解码装置,其特征在于:
上述逆量化单元是对于预定频带的量化代码的逆量化,交替地进行后级的量化代码的逆量化和与上述预定频带不同的频带的量化代码的逆量化的装置,
在上述逆量化时不存在后级的量化代码的情况下,继续进行上述不同频带量化代码的逆量化,
在上述不同频带的量化代码不存在的情况下继续进行上述后级的量化代码的逆量化。
31.一种音频信号解码装置,这是把来自作为权项24所述的音频信号编码装置的输出的代码作为输入,将其进行解码,输出与原始输入音频信号相当的信号的音频信号解码装置,其特征在于具有:
即使从构成上述音频信号编码装置中的第1矢量量化器的3个分割矢量量化器的全部或者一部分输出了代码的情况下,也仅使用来自构成上述第1矢量量化器的低频区分割矢量量化器的代码进行量化的逆量化单元。
32.如权项31所述的音频信号解码装置,其特征在于:
上述逆量化单元使用来自构成上述第1矢量量化器的低频区分割矢量量化器的代码和来自上述第2矢量量化器的代码进行逆量化。
33.如权项32所述的音频信号解码装置,其特征在于:
上述逆量化单元使用来自构成上述第1矢量量化单元的低频区分割矢量量化器的代码和来自上述第2矢量量化器的代码,以及来自构成上述第1矢量量化器的中频区分割矢量量化器的代码进行逆量化。
34.如权项33所述的音频信号解码装置,其特征在于:
上述逆量化单元使用来自构成上述第1矢量量化器的低频区分割矢量量化器的代码,来自上述第2矢量量化器的代码,来自构成上述第1矢量量化器的中频区分割矢量量化器的代码以及来自上述第3矢量量化器的代码进行逆量化。
35.如权项34所述的音频信号解码装置,其特征在于:
上述逆量化单元使用构成上述第1矢量量化器的低频区分割矢量量化器的代码,来自上述第2矢量量化器的代码,来自构成上述第1矢量量化器的中频区分割矢量量化器的代码,来自上述第3矢量量化器的代码,以及来自构成上述第1矢量量化器的高频区分割矢量量化器的代码进行逆量化。
36.一种音频信号编码·解码方法,在接受把输入音频信号进行频率变换得到频率特性信号序列,把该序列进行编码后输出,把该输出的代码信号作为输入,将其解码后再生为与原始输入音频信号相当的信号的音频信号编码·解码方法中,其特征在于:
对于频率特性信号序列,分为与至少分割成2个以上频带的频带相当的系数序列分别独立地进行量化后输出,
通过从所接收的量化完毕的信号,把与上述被分割的频带相当的任意频带的数据进行逆量化,再生与原始音频输入信号相当的信号。
37.如权项36所述的音频信号编码·解码方法,其特征在于:
分阶进行上述量化,使得进一步量化计算出的量化误差,
上述逆量化反复交替地进行扩展频带方向的量化和使上述量化时的量化阶段加深的方向的量化。
38.如权项37所述的音频信号编码·解码方法,其特征在于:
扩展上述频带的方向的逆量化以考虑了人的听觉心理特性的顺序进行。
39.一种音频信号编码装置,其特征在于具有:
把输入音频信号进行频率变换后得到的频率特性信号序列作为输入信号,抽取该频率特性信号序列中的属于预定频带的信号的相位信息的相位信息抽取单元;
存储多个作为上述频率特性信号序列的代表值的音频代码的代码薄,其中该音频代码中对应于上述抽取出的相位信息的要素部分形成为绝对值化了的状态;
计算上述频率特性信号序列和上述代码薄中的各个音频代码之间的听觉距离,选择出具有最小距离的音频代码的同时,把来自上述相位信息抽取单元的输出作为辅助信息添加到对应于具有该最小距离的音频代码的相位信息上,把对应于具有该最小距离的音频代码的代码索引作为其输出信号进行输出的音频代码选择单元。
40.如权项39所述的音频信号编码装置,其特征在于:
上述相位信息抽取单元抽取被输入的频率特性信号序列中的低频区信号组成的预定个数要素的相位信息。
41.如权项39所述的音频信号编码装置,其特征在于:
还具有作为考虑了人的听觉心理特性的各频率的相对听觉心理量的表的听觉心理权矢量表,
上述相位信息抽取单元抽取被输入的频率特性信号序列中与存储在上述听觉心理权矢量表的矢量一致的要素的相位信息。
42.如权项39所述的音频信号编码装置,其特征在于:
还具有使用平滑矢量通过矢量要素之间的除法运算把上述频率特性信号序列进行平滑的平滑单元;
上述音频代码选择单元选择具有上述最小距离的音频代码,把相位信息添加到该被选出的音频代码之前,使用从上述平滑单元输出的平滑处理信息,把上述被选出的音频代码变换为没有进行平滑处理的音频代码,把对应于该音频代码的代码索引作为其输出信号进行输出。
43.如权项39所述的音频信号编码装置,其特征在于具有:
作为考虑了人的听觉心理特性的各频率的相对听觉心理量的表的听觉心理权矢量表;
使用平滑矢量通过矢量要素之间的除法运算把上述频率特性信号序列进行平滑的平滑单元;
按照听觉重要度高的顺序选择出多个把上述听觉心理权矢量表的值和上述平滑矢量表的值进行相乘得到的值,将该值输出到上述音频代码选择单元的分类单元。
44.如权项40所述的音频信号编码装置,其特征在于:
作为上述频率特性信号序列,使用把上述音频信号进行频率变换了的系数作为要素的矢量。
45.如权项41所述的音频信号编码装置,其特征在于:
作为上述频率特性信号序列,使用把上述音频信号进行频率变换了的系数作为要素的矢量。
46.如权项42所述的音频信号编码装置,其特征在于:
作为上述频率特性信号序列,使用把上述音频信号进行频率变换了的系数作为要素的矢量。
47.如权项40所述的音频信号编码装置,其特征在于:
作为上述频率特性信号序列,使用把上述音频信号进行了MDCT变换(改进离散余弦变换)的系数作为要素的矢量。
48.如权项41所述的音频信号编码装置,其特征在于:
作为上述频率特性信号序列,使用把上述音频信号进行了MDCT变换(改进离散余弦变换)的系数作为要素的矢量。
49.如权项42所述的音频信号编码装置,其特征在于:
作为上述频率特性信号序列,使用把上述音频信号进行了MDCT变换(改进离散余弦变换)的系数作为要素的矢量。
50.如权项42所述的音频信号编码装置,其特征在于:
作为上述平滑矢量,使用把音频信号进行线性预测计算出线性预测系数,从该计算出的上述线性预测系数计算出各频率的相对的频率响应,把该各频率的相对的频率响应作为要素的矢量。
51.如权项43所述的音频信号编码装置,其特征在于:
作为上述平滑矢量,使用把音频信号进行线性预测计算出线性预测系数,从该计算出的上述线性预测系数计算出对于各频率的频率响应,把该各频率的相对的频率响应作为要素的矢量。
52.一种音频信号解码装置,其特征在于具有:
把作为音频信号的特征量的频率特性信号序列进行量化得到的代码索引作为输入信号,抽取该代码索引中与预定的频带相当的要素的相位信息的相位信息抽取单元;
存储多个作为上述频率特性信号序列的代表值的音频代码的代码薄,其中该音频代码中对应于上述抽取出的相位信息的要素部分形成为绝对值化了的状态;
计算上述代码索引和上述代码薄中的频率特性信号序列的听觉距离,选择出具有最小距离的频率特性信号序列,同时,把来自上述相位信息抽取单元的输出作为辅助信息添加到对应于具有该最小距离的频率特性信号序列的相位信息上,把对应于作为上述输入信号的代码索引的频率特性信号序列作为其输出信号进行输出的音频代码选择单元。
CNB971957851A 1996-07-01 1997-07-01 音频信号编码方法、解码方法,及音频信号编码装置、解码装置 Expired - Fee Related CN1156822C (zh)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
JP171296/1996 1996-07-01
JP171296/96 1996-07-01
JP17129696A JP3246715B2 (ja) 1996-07-01 1996-07-01 オーディオ信号圧縮方法,およびオーディオ信号圧縮装置
JP9240697 1997-04-10
JP92406/1997 1997-04-10
JP92406/97 1997-04-10
JP125844/1997 1997-05-15
JP12584497 1997-05-15
JP125844/97 1997-05-15

Publications (2)

Publication Number Publication Date
CN1222997A true CN1222997A (zh) 1999-07-14
CN1156822C CN1156822C (zh) 2004-07-07

Family

ID=27307035

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB971957851A Expired - Fee Related CN1156822C (zh) 1996-07-01 1997-07-01 音频信号编码方法、解码方法,及音频信号编码装置、解码装置

Country Status (8)

Country Link
US (1) US6826526B1 (zh)
EP (1) EP0910067B1 (zh)
JP (1) JP3246715B2 (zh)
KR (1) KR100283547B1 (zh)
CN (1) CN1156822C (zh)
DE (1) DE69724126T2 (zh)
ES (1) ES2205238T3 (zh)
WO (1) WO1998000837A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005027094A1 (fr) * 2003-09-17 2005-03-24 Beijing E-World Technology Co.,Ltd. Procede et dispositif de quantification de vecteur multi-resolution multiple pour codage et decodage audio
CN1809872B (zh) * 2003-06-25 2010-06-02 科丁技术公司 编码音频信号的设备和方法及解码已编码音频信号的设备和方法
CN101283407B (zh) * 2005-10-14 2012-05-23 松下电器产业株式会社 变换编码装置和变换编码方法
CN103714822A (zh) * 2013-12-27 2014-04-09 广州华多网络科技有限公司 基于silk编解码器的子带编解码方法及装置
CN104347079A (zh) * 2010-08-24 2015-02-11 Lg电子株式会社 处理音频信号的方法和设备
CN106415716A (zh) * 2014-03-14 2017-02-15 弗劳恩霍夫应用研究促进协会 编码器、解码器以及用于编码和解码的方法
CN106847295A (zh) * 2011-09-09 2017-06-13 松下电器(美国)知识产权公司 编码装置和编码方法
CN110033779A (zh) * 2014-02-27 2019-07-19 瑞典爱立信有限公司 用于棱椎矢量量化编索引和解索引的方法和装置
CN111477245A (zh) * 2013-06-11 2020-07-31 弗朗霍弗应用研究促进协会 语音信号解码装置和语音信号编码装置

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3344944B2 (ja) * 1997-05-15 2002-11-18 松下電器産業株式会社 オーディオ信号符号化装置,オーディオ信号復号化装置,オーディオ信号符号化方法,及びオーディオ信号復号化方法
JP3246715B2 (ja) 1996-07-01 2002-01-15 松下電器産業株式会社 オーディオ信号圧縮方法,およびオーディオ信号圧縮装置
US6904404B1 (en) 1996-07-01 2005-06-07 Matsushita Electric Industrial Co., Ltd. Multistage inverse quantization having the plurality of frequency bands
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6370502B1 (en) 1999-05-27 2002-04-09 America Online, Inc. Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec
KR100363259B1 (ko) * 2000-05-16 2002-11-30 삼성전자 주식회사 인지 특성 가중 함수를 이용한 음성신호의 위상 양자화장치 및 방법
GB2396538B (en) * 2000-05-16 2004-11-03 Samsung Electronics Co Ltd An apparatus and method for quantizing phase of speech signal using perceptual weighting function
JP3426207B2 (ja) 2000-10-26 2003-07-14 三菱電機株式会社 音声符号化方法および装置
WO2002049001A1 (fr) * 2000-12-14 2002-06-20 Sony Corporation Dispositif d'extraction d'informations
US7016502B2 (en) 2000-12-22 2006-03-21 Sony Corporation Encoder and decoder
DE10102159C2 (de) 2001-01-18 2002-12-12 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erzeugen bzw. Decodieren eines skalierbaren Datenstroms unter Berücksichtigung einer Bitsparkasse, Codierer und skalierbarer Codierer
CN1209744C (zh) * 2001-11-02 2005-07-06 松下电器产业株式会社 编码装置和解码装置
JP4609097B2 (ja) * 2005-02-08 2011-01-12 ソニー株式会社 音声符号化装置及び方法、並びに音声復号装置及び方法
JP4761506B2 (ja) * 2005-03-01 2011-08-31 国立大学法人北陸先端科学技術大学院大学 音声処理方法と装置及びプログラム並びに音声システム
US8484036B2 (en) 2005-04-01 2013-07-09 Qualcomm Incorporated Systems, methods, and apparatus for wideband speech coding
PT1875463T (pt) 2005-04-22 2019-01-24 Qualcomm Inc Sistemas, métodos e aparelho para nivelamento de fator de ganho
JP4635709B2 (ja) * 2005-05-10 2011-02-23 ソニー株式会社 音声符号化装置及び方法、並びに音声復号装置及び方法
CN100370834C (zh) * 2005-08-08 2008-02-20 北京中星微电子有限公司 多模图像编解码芯片中的系数缩放计算模块
JPWO2007114290A1 (ja) * 2006-03-31 2009-08-20 パナソニック株式会社 ベクトル量子化装置、ベクトル逆量子化装置、ベクトル量子化方法及びベクトル逆量子化方法
WO2008047795A1 (fr) * 2006-10-17 2008-04-24 Panasonic Corporation Dispositif de quantification vectorielle, dispositif de quantification vectorielle inverse et procédé associé
US8886612B2 (en) * 2007-10-04 2014-11-11 Core Wireless Licensing S.A.R.L. Method, apparatus and computer program product for providing improved data compression
ATE518224T1 (de) * 2008-01-04 2011-08-15 Dolby Int Ab Audiokodierer und -dekodierer
US8306817B2 (en) * 2008-01-08 2012-11-06 Microsoft Corporation Speech recognition with non-linear noise reduction on Mel-frequency cepstra
JP5262171B2 (ja) * 2008-02-19 2013-08-14 富士通株式会社 符号化装置、符号化方法および符号化プログラム
US9031243B2 (en) * 2009-09-28 2015-05-12 iZotope, Inc. Automatic labeling and control of audio algorithms by audio recognition
US20110145325A1 (en) * 2009-12-16 2011-06-16 Alcatel-Lucent Usa Inc. Running an interactive multi-user application at a mobile terminal
US20110145341A1 (en) * 2009-12-16 2011-06-16 Alcatel-Lucent Usa Inc. Server platform to support interactive multi-user applications for mobile clients
US8654859B1 (en) * 2009-12-17 2014-02-18 Ambarella, Inc. Low cost rate-distortion computations for video compression
JP5809066B2 (ja) * 2010-01-14 2015-11-10 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 音声符号化装置および音声符号化方法
KR20130112869A (ko) * 2010-09-17 2013-10-14 파나소닉 주식회사 양자화 장치 및 양자화 방법
KR101747917B1 (ko) * 2010-10-18 2017-06-15 삼성전자주식회사 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법
WO2012144128A1 (ja) 2011-04-20 2012-10-26 パナソニック株式会社 音声音響符号化装置、音声音響復号装置、およびこれらの方法
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
CN110853659B (zh) 2014-03-28 2024-01-05 三星电子株式会社 用于对音频信号进行编码的量化装置
EP4375992A3 (en) 2014-05-07 2024-07-10 Samsung Electronics Co., Ltd. Method and device for quantizing linear predictive coefficient, and method and device for dequantizing same
GB2538315A (en) * 2015-05-15 2016-11-16 Horseware Products Ltd A closure system for the front end of a horse rug
JP6475273B2 (ja) * 2017-02-16 2019-02-27 ノキア テクノロジーズ オーユー ベクトル量子化
CN109036457B (zh) * 2018-09-10 2021-10-08 广州酷狗计算机科技有限公司 恢复音频信号的方法和装置
WO2020146868A1 (en) * 2019-01-13 2020-07-16 Huawei Technologies Co., Ltd. High resolution audio coding
KR20210133554A (ko) * 2020-04-29 2021-11-08 한국전자통신연구원 선형 예측 코딩을 이용한 오디오 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화기 및 복호화기

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03228433A (ja) 1990-02-02 1991-10-09 Fujitsu Ltd 多段ベクトル量子化方式
JP3114197B2 (ja) 1990-11-02 2000-12-04 日本電気株式会社 音声パラメータ符号化方法
JPH0815261B2 (ja) 1991-06-06 1996-02-14 松下電器産業株式会社 適応変換ベクトル量子化符号化法
JP3088163B2 (ja) 1991-12-18 2000-09-18 沖電気工業株式会社 Lsp係数の量子化方法
JPH05257498A (ja) * 1992-03-11 1993-10-08 Mitsubishi Electric Corp 音声符号化方式
JPH0677840A (ja) 1992-08-28 1994-03-18 Fujitsu Ltd ベクトル量子化装置
JPH06118998A (ja) * 1992-10-01 1994-04-28 Matsushita Electric Ind Co Ltd ベクトル量子化装置
JP3239488B2 (ja) 1992-11-30 2001-12-17 三菱電機株式会社 画像帯域分割符号化装置および画像帯域分割符号化方法
US5398069A (en) * 1993-03-26 1995-03-14 Scientific Atlanta Adaptive multi-stage vector quantization
WO1994028633A1 (fr) * 1993-05-31 1994-12-08 Sony Corporation Appareil et procede de codage ou decodage de signaux, et support d'enregistrement
JPH0764599A (ja) 1993-08-24 1995-03-10 Hitachi Ltd 線スペクトル対パラメータのベクトル量子化方法とクラスタリング方法および音声符号化方法並びにそれらの装置
JPH07160297A (ja) * 1993-12-10 1995-06-23 Nec Corp 音声パラメータ符号化方式
US5684920A (en) 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
JPH08123494A (ja) 1994-10-28 1996-05-17 Mitsubishi Electric Corp 音声符号化装置、音声復号化装置、音声符号化復号化方法およびこれらに使用可能な位相振幅特性導出装置
JPH08137498A (ja) * 1994-11-04 1996-05-31 Matsushita Electric Ind Co Ltd 音声符号化装置
JP3186013B2 (ja) * 1995-01-13 2001-07-11 日本電信電話株式会社 音響信号変換符号化方法及びその復号化方法
JP3537008B2 (ja) 1995-07-17 2004-06-14 株式会社日立国際電気 音声符号化通信方式とその送受信装置
JPH09127987A (ja) 1995-10-26 1997-05-16 Sony Corp 信号符号化方法及び装置
JP3159012B2 (ja) * 1995-10-26 2001-04-23 日本ビクター株式会社 音響信号の符号化装置及び復号化装置
JPH09281995A (ja) 1996-04-12 1997-10-31 Nec Corp 信号符号化装置及び方法
US5809459A (en) * 1996-05-21 1998-09-15 Motorola, Inc. Method and apparatus for speech excitation waveform coding using multiple error waveforms
JP3246715B2 (ja) 1996-07-01 2002-01-15 松下電器産業株式会社 オーディオ信号圧縮方法,およびオーディオ信号圧縮装置

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1809872B (zh) * 2003-06-25 2010-06-02 科丁技术公司 编码音频信号的设备和方法及解码已编码音频信号的设备和方法
WO2005027094A1 (fr) * 2003-09-17 2005-03-24 Beijing E-World Technology Co.,Ltd. Procede et dispositif de quantification de vecteur multi-resolution multiple pour codage et decodage audio
CN101283407B (zh) * 2005-10-14 2012-05-23 松下电器产业株式会社 变换编码装置和变换编码方法
CN102623014A (zh) * 2005-10-14 2012-08-01 松下电器产业株式会社 变换编码装置和变换编码方法
CN104347079A (zh) * 2010-08-24 2015-02-11 Lg电子株式会社 处理音频信号的方法和设备
CN104347079B (zh) * 2010-08-24 2017-11-28 Lg电子株式会社 处理音频信号的方法和设备
CN106847295B (zh) * 2011-09-09 2021-03-23 松下电器(美国)知识产权公司 编码装置和编码方法
CN106847295A (zh) * 2011-09-09 2017-06-13 松下电器(美国)知识产权公司 编码装置和编码方法
CN111477245A (zh) * 2013-06-11 2020-07-31 弗朗霍弗应用研究促进协会 语音信号解码装置和语音信号编码装置
CN111477245B (zh) * 2013-06-11 2024-06-11 弗朗霍弗应用研究促进协会 语音信号解码装置和方法、语音信号编码装置和方法
CN103714822A (zh) * 2013-12-27 2014-04-09 广州华多网络科技有限公司 基于silk编解码器的子带编解码方法及装置
CN103714822B (zh) * 2013-12-27 2017-01-11 广州华多网络科技有限公司 基于silk编解码器的子带编解码方法及装置
CN110033779A (zh) * 2014-02-27 2019-07-19 瑞典爱立信有限公司 用于棱椎矢量量化编索引和解索引的方法和装置
CN110033779B (zh) * 2014-02-27 2023-11-17 瑞典爱立信有限公司 用于棱椎矢量量化编索引和解索引的方法和装置
US10586548B2 (en) 2014-03-14 2020-03-10 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoder, decoder and method for encoding and decoding
CN106415716B (zh) * 2014-03-14 2020-03-17 弗劳恩霍夫应用研究促进协会 编码器、解码器以及用于编码和解码的方法
CN106415716A (zh) * 2014-03-14 2017-02-15 弗劳恩霍夫应用研究促进协会 编码器、解码器以及用于编码和解码的方法

Also Published As

Publication number Publication date
EP0910067B1 (en) 2003-08-13
KR100283547B1 (ko) 2001-04-02
JPH1020898A (ja) 1998-01-23
EP0910067A1 (en) 1999-04-21
US6826526B1 (en) 2004-11-30
KR20000010994A (ko) 2000-02-25
CN1156822C (zh) 2004-07-07
EP0910067A4 (en) 2000-07-12
DE69724126D1 (de) 2003-09-18
WO1998000837A1 (fr) 1998-01-08
ES2205238T3 (es) 2004-05-01
JP3246715B2 (ja) 2002-01-15
DE69724126T2 (de) 2004-06-09

Similar Documents

Publication Publication Date Title
CN1156822C (zh) 音频信号编码方法、解码方法,及音频信号编码装置、解码装置
CN1131507C (zh) 音频信号编码装置、解码装置及音频信号编码·解码装置
CN1112673C (zh) 可变速率声码器
CN1296888C (zh) 音频编码装置以及音频编码方法
CN1229775C (zh) 宽带语音和音频信号解码器中的增益平滑
CN1324558C (zh) 编码设备,解码设备以及音频数据分配***
CN1154976C (zh) 再现语音信号的方法和装置以及传输该信号的方法
CN1163870C (zh) 声音编码装置和方法,声音译码装置,以及声音译码方法
CN1248195C (zh) 语音编码转换方法和装置
CN1096148C (zh) 信号编码方法和装置
CN1632864A (zh) 扩散矢量生成方法及扩散矢量生成装置
CN1245706C (zh) 多模式语音编码器
CN1160703C (zh) 语音编码方法和装置以及声音信号编码方法和装置
CN101067931A (zh) 一种高效可配置的频域参数立体声及多声道编解码方法与***
CN1156872A (zh) 语音编码的方法和装置
CN1331826A (zh) 可变速率语音编码
CN1331825A (zh) 周期性语音编码法
CN101061534A (zh) 音频信号编码装置及方法
CN1950686A (zh) 编码装置、解码装置以及编码/解码方法
CN1898723A (zh) 信号解码装置以及信号解码方法
CN1302457C (zh) 信号处理***、信号处理设备和方法
CN1144178C (zh) 音频信号编码装置和译码装置以及音频信号编码和译码方法
CN1898724A (zh) 语音/乐音编码设备及语音/乐音编码方法
CN1216367C (zh) 数据处理装置
CN1925597A (zh) 图像处理设备、图像处理方法及程序

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20040707

Termination date: 20120701