CN1898724A - 语音/乐音编码设备及语音/乐音编码方法 - Google Patents

语音/乐音编码设备及语音/乐音编码方法 Download PDF

Info

Publication number
CN1898724A
CN1898724A CNA2004800389917A CN200480038991A CN1898724A CN 1898724 A CN1898724 A CN 1898724A CN A2004800389917 A CNA2004800389917 A CN A2004800389917A CN 200480038991 A CN200480038991 A CN 200480038991A CN 1898724 A CN1898724 A CN 1898724A
Authority
CN
China
Prior art keywords
voice
unit
code
characteristic value
auditory masking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2004800389917A
Other languages
English (en)
Inventor
山梨智史
佐藤薰
森井利幸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1898724A publication Critical patent/CN1898724A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

提供了一种语音/乐音编码设备,其能够通过考虑到人的听觉特性进行矢量量化而进行高质量的编码。在该语音/乐音编码设备中,正交转换处理单元(201)将语音/乐音信号从时间分量向频率分量转换。听觉掩蔽特性值计算单元(203)从语音/乐音信号计算听觉掩蔽特性值。矢量量化单元(202)基于听觉掩蔽特性值,改变从预定的码本求得的代码矢量和频率分量之间的距离计算方法,进行矢量量化。

Description

语音/乐音编码设备及语音/乐音编码方法
技术领域
本发明涉及一种语音/乐音编码装置及语音/乐音编码方法,其能够在以互联网络通信为代表的分组通信***、或移动通信***等中进行语音/乐音信号的传输。
背景技术
当在以互联网络通信为代表的分组通信***、或移动通信***等中传输语音信号时,为提高传输效率,使用压缩和编码技术。到现在为止,已经开发出多种语音编码方式,而在近年开发出的低比特速率语音编码方法中,多数是以下方式:将语音信号分离为谱信息和详细的谱结构信息,并对于分离了的项分别进行压缩和编码。
而且,随着以IP电话为代表的互联网络上的语音通话环境正在得到加强,对于有效地将语音信号压缩并传输的技术,需求越来越高。
特别是有关使用人的听觉掩蔽特性的语音编码的各种方案,正在研究中。所谓听觉掩蔽,是指当存在包含于某频率的较强信号分量时,变得听不到毗连的频率分量的现象,并期望使用这个特性提高质量。
作为与此相关的技术,存在诸如专利文献1中揭示的那样的方法,在矢量量化的距离计算中使用听觉掩蔽特性。
专利文献1中的使用听觉掩蔽特性的语音编码方法是如下的计算方法:在输入的信号的频率分量和码本表示的代码矢量的双方处于听觉掩蔽区域时,将矢量量化时的距离设为0。据此,由于听觉掩蔽区域外的距离的权重相对地变大,从而可以更有效地进行语音编码。
【专利文献1】日本专利特开平8-123490号公报(第3页、第1图)
发明内容
发明所要解决的问题
但是,专利文献1中所示的以往方法只能适用于限定了输入信号及代码矢量的情况,于是音质性能不充分。
本发明是在考虑上述问题的情况下做出的,而且本发明旨在提供一种选择适合于抑制对听觉影响较大的信号恶化的代码矢量的、高质量的语音/乐音编码装置及语音/乐音编码方法。
为解决问题采用的方案
为解决上述课题,本发明的语音/乐音编码装置包括:正交转换处理单元,将语音/乐音信号从时间分量转换成频率分量;听觉掩蔽特性值计算单元,从上述语音/乐音信号求出听觉掩蔽特性值;以及矢量量化单元,基于上述听觉掩蔽特性值,改变从预先设定了的码本求得了的代码矢量和上述频率分量之间的距离计算方法而进行矢量量化。
发明的效果
根据本发明,通过基于听觉掩蔽特性值而改变输入信号和代码矢量之间的距离计算方法而进行量化,可选择适合于抑制对听觉影响较大的信号恶化的代码矢量,从而可以提高输入信号的再现性、获得良好的解码语音。
附图说明
图1是本发明实施方式1涉及的包含语音/乐音编码装置及语音/乐音解码装置的整个***的方框结构图;
图2是本发明实施方式1涉及的语音/乐音编码装置的方框结构图;
图3是本发明实施方式1涉及的听觉掩蔽特性值计算单元的方框结构图;
图4是示出本发明实施方式1涉及的临界带宽的结构例子的图;
图5是本发明实施方式1涉及的矢量量化单元的流程图;
图6是说明本发明实施方式1涉及的听觉掩蔽特性值、编码值和修正离散余弦转换(MDCT)系数的相对位置关系的图;
图7是本发明实施方式1涉及的语音/乐音解码装置的方框结构图;
图8是本发明实施方式2涉及的语音/乐音编码装置及语音/乐音解码装置的方框结构图;
图9是本发明实施方式2涉及的码激励线性预测器(CELP)类型语音编码装置的结构概要图;
图10是本发明实施方式2涉及的CELP类型语音解码装置的结构概要图;
图11是本发明实施方式2涉及的增强层编码单元的方框结构图;
图12是本发明实施方式2涉及的矢量量化单元的流程图;
图13是说明本发明实施方式2涉及的听觉掩蔽特性值、编码值和MDCT系数的相对位置关系的图;
图14是本发明实施方式2涉及的解码单元的方框结构图;
图15是本发明实施方式3涉及的语音信号发送装置以及语音信号接收装置的方框结构图;
图16是本发明实施方式1涉及的编码单元的流程图;以及
图17是本发明实施方式1涉及的听觉掩蔽值计算单元的流程图。
具体实施方式
下面,参照附图就本发明实施方式进行详细说明。
(实施方式1)
图1是表示本发明实施方式1涉及的包含语音/乐音编码装置及语音/乐音解码装置的整个***的结构方框图。
此***包括:将输入信号编码的语音/乐音编码装置101、传输路径103和对接收的信号进行解码的语音/乐音解码装置105。
另外,传输路径103既可是无线局域网(LAN)或携带式终端的分组通信、蓝牙(Bluetooth)等无线传输路径,也可以是非对称数字用户线(ADSL)、光纤到户(FTTH)等有线传输路径。
语音/乐音编码装置101对输入信号100进行编码,将该结果作为编码信息102输出到传输路径103。
语音/乐音解码装置105通过传输路径103接收编码信息102并执行解码,并且将该结果作为输出信号106而输出。
接着,参照图2的方框图说明语音/乐音编码装置101的结构。在图2中,语音/乐音编码装置101主要包括:正交转换处理单元201,将输入信号100从时间分量转换成频率分量;听觉掩蔽特性值计算单元203,从输入信号100计算出听觉掩蔽特性值;形状码本204,示出索引和标准化了的代码矢量之间的对应;增益码本205,对应于形状码本204的标准化了的各代码矢量,并示出其增益;以及矢量量化单元202,使用上述听觉掩蔽特性值、上述形状码本及增益码本,将上述转换成频率分量的输入信号矢量量化。
接着,按照图16流程图的程序,详细说明语音/乐音编码装置101的动作。
首先,就输入信号的采样处理加以说明。语音/乐音编码装置101将输入信号100按每N个采样进行划分(N为自然数),并将N个采样作为1帧,并逐帧地进行编码。此处,将成为编码对象的输入信号100设为以xn(n=0、Λ、N-1)表示。n指示是包括上述被划分了的输入信号的信号要素的第N+1个。
输入信号xn100被输入到正交转换处理单元201,以及听觉掩蔽特性计算单元203。
接着,正交转换处理单元201对应于上述信号要素在内部具有缓冲器bufn(n=0、Λ、N-1),根据等式(1)分别将0作为初始值而对其进行初始化。
【等式1】
bufn=0(n=0,…,N-1)             …(1)
接着,关于正交转换处理(步骤S1601),就有关正交转换处理单元201的计算程序和向内部缓冲器的数据输出,加以说明。
正交转换处理单元201对输入信号xn100进行修正离散余弦转换(MDCT),通过等式(2)求取MDCT系数Xk
【等式2】
X k = 2 N Σ n = 0 2 N - 1 x ′ n cos [ ( 2 n + 1 + N ) ( 2 k + 1 ) π 4 N ] ( k = 0 , · · · , N - 1 ) - - - ( 2 )
此处,k表示于一个帧中的各采样的下标。正交转换处理单元201通过等式(3)求使输入信号xn100和缓冲器bufn结合的矢量的xn′。
【等式3】
x ′ n = buf n ( n = 0 , · · · N - 1 ) x n - N ( n = N , · · · 2 N - 1 ) - - - ( 3 )
接着,正交转换处理单元201通过等式(4)更新缓冲器bufn
【等式4】
bufn=xn(n=0,…N-1)               ………(4)
接着,正交转换处理单元201将MDCT系数Xk输出到矢量量化单元202。
接着,参照图3的方框图,就图2的听觉掩蔽特性值计算单元203的结构加以说明。
在图3中,听觉掩蔽特性值计算单元203包括:傅里叶转换单元301,对输入信号进行傅里叶转换;功率谱计算单元302,根据上述傅里叶转换的输入信号计算出功率谱;最小可听阈值计算单元304,从输入信号计算出最小可听阈值;存储缓冲器305,缓冲上述计算出的最小可听阈值;以及听觉掩蔽值计算单元303,从上述算出了的功率谱和上述缓冲了的最小可听阈值计算听觉掩蔽值。
接着,参照图17的流程图,就有关上述配置的听觉掩蔽特性值计算单元203的听觉掩蔽特性值计算处理(步骤S1602)的动作,加以说明。
另外,关于听觉掩蔽特性值的计算方法,已经披露在Johnston等的论文(J.Johnston,″Estimation of perceptual entropy using noise maskingcriteria)″,in Proc.ICASSP-88,May 1988,pp.2524-2527)中。
首先,就有关傅里叶转换处理(步骤S1701)说明傅里叶转换单元301的动作。
傅里叶转换单元301把输入信号xn100作为输入,并将其通过等式(5),转换为频域的信号Fk。此处,e为自然对数的底数,k为一个帧中的各采样的下标。
【等式5】
F k = Σ n = 0 N - 1 x n e - j 2 πkn N ( k = 0 , · · · , N - 1 ) - - - ( 5 )
接着,傅里叶转换单元301将获得了的Fk输出到功率谱计算单元302。
接着,就功率谱计算处理(步骤S1702)加以说明。
功率谱计算单元302,将从上述傅里叶转换单元301输出了的频域的信号Fk作为输入,通过等式(6)求Fk的功率谱Pk。其中,k是于一个帧的各采样的下标。
【等式6】
P k = ( F k Re ) 2 + ( F k Im ) 2 ( k = 0 , · · · , N - 1 ) - - - ( 6 )
另外,在等式(6)中,Fk Re为频域信号Fk的实部,功率谱计算单元302通过等式(7)求Fk Re
【等式7】
F k Re = Σ n = 0 N - 1 [ x n cos ( 2 πkn N ) ] ( k = 0 , · · · , N - 1 ) - - - ( 7 )
此处,Fk Im是频域信号Fk的虚部,功率谱计算单元302通过等式(8)求Fk Im
【等式8】
F k Im = - Σ n = 0 N - 1 [ x n sin ( 2 πkn N ) ] ( k = 0 , · · · , N - 1 ) - - - ( 8 )
接着,功率谱计算单元302将所获得的功率谱Pk输出到听觉掩蔽值计算单元303。
接着,就最小可听阈值计算处理(步骤S1703)加以说明。
最小可听阈值计算单元304仅在第一帧,通过等式(9)求最小可听阈值athk
【等式9】
ath k = 3.64 ( k / 100 ) - 0.8 - 6.5 e - 0.6 ( k / 100 - 3.3 ) 2 + 10 - 3 ( k / 100 ) 4 ( k = 0 , · · · , N - 1 ) - - - ( 9 )
接着,就有关向存储缓冲器的存储处理(步骤S1704)加以说明。
最小可听阈值计算单元304,将最小可听阈值athk输出到存储缓冲器305。存储缓冲器305将输入了的最小可听阈值athk,输出到听觉掩蔽值计算单元303。所谓最小可听阈值athk是基于人的听觉对于各频率分量而定,而等于或小于athk的分量是在听觉上无法知觉的值。
接着,关于听觉掩蔽值计算处理(步骤S1705),就听觉掩蔽值计算单元303的动作加以说明。
听觉掩蔽值计算单元303输入从功率谱计算单元302输出的功率谱Pk,并按m的临界带宽分割功率光Pk。此处,所谓临界带宽,是指即使增加带域噪音,掩蔽其中心频率的纯音的量也不增加的限界的带宽。又如,图4示出临界带宽的结构例。在图4中,m是临界带宽的总数,功率谱Pk按m的临界带宽被分割。另外,i是临界带宽的下标,取0~m-1的值。此外,bhi和bli是各临界带宽i的最小频率下标及最大频率下标。
接着,听觉掩蔽值计算单元303输入从功率谱计算单元302输出了的功率谱Pk,通过等式(10),求取按每临界带宽计算的功率谱Bi
【等式10】
B i = Σ k = bl i bh i P k ( i = 0 , · · · , m - 1 ) - - - ( 10 )
接着,听觉掩蔽值计算单元303,通过等式(11),求取扩展函数SF(t)(Spreading Function)。所谓扩展函数SF(t),是指用于对于各频率分量计算出该频率分量波及到邻近频率的影响(同时掩蔽效果)的函数。
【等式11】
SF ( t ) = 15.81139 + 7.5 ( t + 0.474 ) - 17.5 1 + ( t + 0.474 ) 2 ( t = 0 , · · · , N t - 1 ) - - - ( 11 )
此处,Nt为常数,在满足等式(12)的条件的范围内预先设定。
【等式12】
0≤Nt≤m    …(12)
接着,听觉掩蔽值计算单元303,通过等式(13),使用按每个临界带宽相加了的功率谱Bi和扩展函数SF(t),求常数Ci
【等式13】
C i = &Sigma; t = N T - i N t B i &CenterDot; SF ( t ) ( i < N t ) &Sigma; t = 0 N t B i &CenterDot; SF ( t ) ( N t &le; i &le; N - N t ) &Sigma; t = 0 N - i t B i &CenterDot; SF ( t ) ( i > N - N t ) - - - ( 13 )
接着,听觉掩蔽值计算单元303通过等式(14)求几何平均值μi g
【等式14】
&mu; i g = 10 log ( &Pi; k = bh i bl i P k ) bl i - bh i ( i = 0 , &CenterDot; &CenterDot; &CenterDot; , m - 1 ) - - - ( 14 )
接着,听觉掩蔽值计算单元303通过等式(15)求算术平均值μi a
【等式15】
&mu; i a = &Sigma; k = bh i bl i P k / ( bl i - bh i ) ( i = 0 , &CenterDot; &CenterDot; &CenterDot; , m - 1 ) - - - ( 15 )
接着,听觉掩蔽值计算单元303通过等式(16)求SFMi(谱均匀性测量:Spectral Flatness Measure)。
【等式16】
SFM i = &mu; i g / &mu; i a ( i = 0 , &CenterDot; &CenterDot; &CenterDot; , m - 1 ) - - - ( 16 )
接着,听觉掩蔽值计算单元303通过等式(17)求常数αi
【等式17】
&alpha; i = min ( 10 &CenterDot; log 10 SFM i - 60 , 1 ) ( i = 0 , &CenterDot; &CenterDot; &CenterDot; , m - 1 ) - - - ( 17 )
接着,听觉掩蔽值计算单元303通过等式(18)求每个临界带宽的偏移值Oi
【等式18】
Oi=αi·(14.5+i)+5.5·(1-αi)(i=0,…,m-1)  …(18)
接着,听觉掩蔽值计算单元303通过等式(19)求取在每个临界带宽的听觉掩蔽值Ti
【等式19】
T i = 10 log 10 ( C i ) - ( O i / 10 ) / ( bl i - bh i ) ( i = 0 , &CenterDot; &CenterDot; &CenterDot; , m - 1 ) - - - ( 19 )
接着,听觉掩蔽值计算单元303根据从存储缓冲器305输出的最小可听阈值athk,通过等式(20)求听觉掩蔽特性值Mk,并将其输出到矢量量化单元202。
【等式20】
Mk=max(athk,Ti)(k=bhi,…,bli,i=0,…,m-1)    …(20)
接着,参照图5的处理流程,详细说明在矢量量化单元202中的码本取得处理(步骤S1603)、以及矢量量化处理(步骤S1604)。
矢量量化单元202使用形状码本204及增益码本205,根据从正交转换处理单元201输出的MDCT系数Xk和从上述听觉掩蔽特性值计算单元203输出的听觉掩蔽特性值,进行MDCT系数Xk的矢量量化,将获得了的编码信息102输出到图1的传输路径103。
接着,就码本加以说明。
形状码本204包括:预先创建了的Nj种类、N维的代码矢量codek j(j=0、Λ、Nj-1,k=0、Λ、N-1);而增益码本205包括:预先创建了的Nd种类增益代码gaind(j=0、Λ,Nd-1)。
在步骤501中,把0代入在形状码本204的代码矢量下标j中,把充分大的值代入最小误差DistMIN中,进行初始化。
步骤502中,从形状码本204读N维的代码矢量codek j(k=0、Λ、N-1)。
步骤503中,输入从正交转换处理单元201输出的MDCT系数Xk,然后通过等式(21),求取在步骤502的形状码本204读取的代码矢量codek j(k=0、Λ、N-1)的增益Gain。
【等式21】
Gain = &Sigma; k = 0 N - 1 X k &CenterDot; code k j / &Sigma; k = 0 N - 1 code k j 2 - - - ( 21 )
步骤504中,将0代入表示步骤505执行次数的calc_count。
步骤505中,输入从听觉掩蔽特性值计算单元203输出的听觉掩蔽特性值Mk,通过等式(22)求取临时增益tempk(k=0、Λ、N-1)。
【等式22】
temp k = code k j ( | code k j &CenterDot; Gain | &GreaterEqual; M k ) 0 ( | code k j &CenterDot; Gain | < M k ) ( k = 0 , &CenterDot; &CenterDot; &CenterDot; , N - 1 ) - - - ( 22 )
此外,在等式(22)中,当k满足|codek j·Gain|≥Mk的条件时,codek j被代入临时增益tempk;而当k满足|codek j·Gain|<Mk的条件时,0被代入临时增益tempk
接着,在步骤505中,通过等式(23)求取对于大于或等于听觉掩蔽值的要素的增益Gain。
【等式23】
Gain = &Sigma; k = 0 N - 1 X k &CenterDot; temp k / &Sigma; k = 0 N - 1 temp k 2 ( k = 0 , &CenterDot; &CenterDot; &CenterDot; , N - 1 ) - - - ( 23 )
此处,在对于全部的k临时增益tempk都为0的情况下,将0代入增益Gain。另外,通过等式(24),从增益Gain和codek j求取编码值Rk
【等式24】
R k = Gain &CenterDot; code k j ( k = 0 , &CenterDot; &CenterDot; &CenterDot; , N - 1 ) - - - ( 24 )
步骤506中,在calc_count上,加上1。
步骤507中,将calc_count和预先确定好的非负整数Nc相比较,当calc_count小于Nc值时,处理流程返回步骤505,当calc_count大于或等于Nc时,前进到步骤508。这样,通过反复求取增益Gain,可将增益Gain收敛到合适的值。
步骤508中,将0代入积累误差Dist,同时,将0代入采样下标k。
接着,在步骤509、511、512及514,关于听觉掩蔽特性值Mk、编码值Rk和MDCT系数Xk间的相对位置关系进行情况区分,对应于情况区分的结果,分别在步骤510、513、515或516进行距离计算。
图6示出根据此相对位置关系的情况区分。在图6中,白圆圈记号(○)表示输入信号的MDCT系数Xk,黑圆圈记号(●)表示编码值Rk。另外,图6所示的内容,示出本发明的特定特征,将在听觉掩蔽特性值计算单元203求出了的听觉掩蔽特性值+Mk~0~-Mk区域,称为听觉掩蔽区域。通过改变输入信号的MDCT系数Xk或编码值Rk存在于该听觉掩蔽区域时的距离计算方法而进行计算,可以获得更接近于听觉的高质量的结果。
此处,参照图6,对于本发明矢量量化时的距离计算方法,加以说明。如图6的“情况1”中所示的那样,输入信号的MDCT系数Xk(○)和编码值Rk(●)的任意一个都不在听觉掩蔽区域,且MDCT系数Xk和编码值Rk的正负号相同时,单纯计算输入信号的MDCT系数Xk(○)和编码值Rk(●)之间的距离D11。又,如图6的“情况3”、“情况4”中表示的那样,输入信号的MDCT系数Xk(○)和编码值Rk(●)的任意一个在听觉掩蔽区域时,将听觉掩蔽区域内的位置校正为Mk值(根据情况有时为-Mk值),作为D31或D41计算。又,如图6的“情况2”中表示的那样,当输入信号的MDCT系数Xk(○)和编码值Rk(●)跨越听觉掩蔽区域而存在时,将听觉掩蔽区域间的距离计算为β·D23(β为任意系数)。如图6的“情况5”中表示的那样,当输入信号的MDCT系数Xk(○)和编码值Rk(●)都在听觉掩蔽区域内时,将距离D51设定为0而进行计算。
接着,就步骤509~步骤517的各种情况的处理,加以说明。
在步骤509,通过等式(25)的条件表达式判决听觉掩蔽特性值Mk、编码值Rk和MDCT系数Xk间的相对位置关系是否对应于图6的“情况1”。
【等式25】
(|Xk|≥Mk)和(|Rk|≥Mk)和(Xk·Rk≥0)        …(25)
等式(25)表示MDCT系数Xk的绝对值、和编码值Rk的绝对值都大于或等于听觉掩蔽特性值Mk,且MDCT系数Xk和编码值Rk的正负号相同的情况。如果听觉掩蔽特性值Mk、MDCT系数Xk、和编码值Rk满足了等式(25)的条件表达式,则处理流程前进到步骤510,如果未满足等式(25)条件表达式时,处理前进到步骤511。
步骤510中,通过等式(26)求编码值Rk和MDCT系数Xk间的误差Dist1,对积累误差Dist加上误差Dist1,处理流程前进到步骤517。
【等式26】
Dist1=D11
     =|Xk-Rk|                               …(26)
步骤511中,通过等式(27)的条件表达式判决听觉掩蔽特性值Mk、编码值Rk和MDCT系数Xk间的相对位置关系是否对应于图6的“情况5”。
【等式27】
(|Xk|≥Mk)和(|Rk|≥Mk)和(Xk·Rk<0)          …(27)
等式(27)表示MDCT系数Xk的绝对值、和编码值Rk的绝对值都在小于或等于听觉掩蔽特性值Mk的情况。当听觉掩蔽特性值Mk、MDCT系数Xk和编码值Rk满足了等式(27)中的条件表达式时,将编码值Rk和MDCT系数Xk之间的误差设为0,对积累误差Dist什么也不加,并且处理流程前进到步骤517;而当未满足等式(27)的条件表达式时,处理流程前进到步骤512。
步骤512中,通过等式(28)的条件表达式,判定听觉掩蔽特性值Mk、编码值Rk和MDCT系数Xk的相对位置关系是否对应于图6的“情况2”。
【等式28】
Dist2=D21+D22+β*D23             …(28)
等式(28)表示MDCT系数Xk的绝对值、和编码值Rk的绝对值都大于或等于听觉掩蔽特性值Mk,且MDCT系数Xk和编码值Rk的正负号不同的情况。听觉掩蔽特性值Mk、MDCT系数Xk和编码值Rk满足了等式(28)条件表达式时,前进到步骤513;未满足等式(28)条件表达式时,前进到步骤514。
步骤513中,通过等式(29)求编码值Rk和MDCT系数Xk的误差Dist2,对积累误差Dist加上误差Dist2,并且处理流程前进到步骤517。
【等式29】
D21=|Xk|-Mk                      …(29)
此处,β是对应于MDCT系数Xk、编码值Rk及听觉掩蔽特性值Mk而适当设定的值。设定为1或1以下的值合适,也可以采用根据被验者的评估实验性求得的数值。比如,D21,D22及D23分别通过等式(30)、等式(31)及等式(32)求得。
【等式30】
D22=|Rk|-Mk                      …(30)
【等式31】
D23=Mk·2                   …(31)
【等式32】
(|Xk|≥Mk)和(|Rk|<Mk)        …(32)
步骤514中,通过等式(33)的条件表达式,判定听觉掩蔽特性值Mk、编码值Rk和MDCT系数Xk间的相对位置关系是否对应于图6中的“情况3”。
【等式33】
Dist3=D31
     =|Xk|-Mk                …(33)
等式(33)表示MDCT系数Xk的绝对值为大于或等于听觉掩蔽特性值Mk,且编码值Rk小于听觉掩蔽特性值Mk的情况。当听觉掩蔽特性值Mk、MDCT系数Xk和编码值Rk满足了等式(33)条件表达式时,处理流程前进到步骤515;而当它们不满足等式(33)条件表达式时,处理流程前进到步骤516。
步骤515中,通过等式(34)求编码值Rk和MDCT系数Xk间的误差Dist3,对积累误差Dist加上误差Dist3,处理流程前进到步骤517。
【等式34】
(|Xk|<Mk)和(|Rk|≥Mk)        …(34)
步骤516,听觉掩蔽特性值Mk、编码值Rk和MDCT系数Xk间的相对位置关系对应于图6的“情况4”,并满足等式(35)的条件表达式。
【等式35】
(|Xk|<Mk)和(|Rk|≥Mk)        …(35)
等式(35)是表示MDCT系数Xk的绝对值小于听觉掩蔽特性值Mk,且编码值Rk为大于或等于听觉掩蔽特性值Mk的情况。此时,步骤516中,通过等式(36),求编码值Rk和MDCT系数Xk间的误差Dist4,对积累误差Dist加上误差Dist4,处理流程前进到步骤517。
【等式36】
Dist4=D41
     =|Rk|-Mk                    …(36)
步骤517中,对k加上1。
步骤518中,比较N和k,当k为小于N的值时,处理流程返回到步骤509;当k为和N相同的值时,且处理流程前进到步骤519。
步骤519中,比较积累误差Dist和最小误差DistMIN,当积累误差Dist为小于最小误差DistMIN的值时,处理流程前进到步骤520;而当积累误差Dist大于或等于最小误差DistMIN时,且处理流程前进到步骤521。
步骤520中,将积累误差Dist代入最小误差DistMIN,将j代入code_indexMIN,将增益Gain代入误差最小增益DistMIN,且处理流程前进到步骤521。
在步骤521中,对j加上1。
在步骤522中,比较代码矢量的总数Nj和j,当j为小于Nj的值时,处理流程返回到步骤502。当j大于或等于Nj时,处理流程前进到步骤523。
在步骤523中,从增益码本205读取Nd种的增益编码gaind(d=0、Λ、Nd-1),对于全部的d,通过等式(37)求量化增益误差gainerrd(d=0、Λ、Nd-1)。
【等式37】
gainerrd=|GainMIN-gaind|(d=0,…,Nd-1)      …(37)
接着,在步骤523中,求取使量化增益误差gainerrd(d=0、Λ、Nd-1)成为最小的d,并将求出的d代入gain_indexMIN
在步骤524中,把积累误差Dist成为最小的代码矢量的下标code_indexMIN和在步骤523求得的gain_indexMIN作为编码信息102,输出到图1的传输路径103,并结束处理。
以上为编码单元101处理过程的说明。
接着,参照图7的详细方框图,就图1的语音/乐音解码装置105加以说明。
形状码本204、增益码本205,分别和在图2所示的相同。
矢量解码单元701将通过传输路径103传输过来的编码信息102作为输入,使用编码信息code_indexMIN和gain_indexMIN,从形状码本204读取代码矢量codekcode_indexMIN(k=0、Λ、N-1),且从增益码本205读取增益编码gaingain_indexMIN。接着,矢量解码单元701将gaingain_indexMIN乘以codekcode_indexMIN(k=0、Λ、N-1),将相乘的结果获得的gaingain_indexMIN×codekcode_indexMIN(k=0、Λ、N-1)作为解码MDCT系数,输出到正交转换处理单元702。
正交转换处理单元702在内部具有缓冲器bufk′,通过等式(38)初始化这个缓冲器。
【等式38】
bufk′=0(k=0,…,N-1)                …(38)
接着,将从MDCT系数解码单元701输出的解码MDCT系数gaingain_indexMIN×codekcode_indexMIN(k=0、Λ、N-1)作为输入,通过等式(39)求解码信号Yn
【等式39】
y n = 2 N &Sigma; k = 0 2 N - 1 X &prime; k cos [ ( 2 n + 1 + N ) ( 2 k + 1 ) &pi; 4 N ] ( n = 0 , &CenterDot; &CenterDot; &CenterDot; , N - 1 ) - - - ( 39 )
此处,Xk′是使解码MDCT系数gaingain_indexMIN×codekcode_indexMIN(k=0、Λ、N-1)和缓冲器bufk′结合的矢量,并通过等式(40)来求取。
【等式40】
X &prime; k = buf &prime; k ( k = 0 , &CenterDot; &CenterDot; &CenterDot; N - 1 ) gain gain _ index MIN &CenterDot; code k - N code _ index MIN ( k = N , &CenterDot; &CenterDot; &CenterDot; 2 N - 1 ) - - - ( 40 )
接着,通过等式(41)更新缓冲器bufk′。
【等式41】
buf &prime; k = gain gain _ index MIN &CenterDot; code k code _ index MIN ( k = 0 , &CenterDot; &CenterDot; &CenterDot; N - 1 ) - - - ( 41 )
接着,将解码信号yn作为输出信号106输出。
这样,通过设置:正交转换处理单元,求输入信号的MDCT系数;听觉掩蔽特性值计算单元,求听觉掩蔽特性值;以及矢量量化单元,进行使用了听觉掩蔽特性值的矢量量化,并根据听觉掩蔽特性值、MDCT系数和量化了的MDCT系数间的相对位置关系,而进行矢量量化的距离计算,可选择适合于抑制对听觉影响较大的信号恶化的代码矢量,从而可以获得更高质量的输出信号。
另外,也可以通过在矢量量化单元202对于从上述情况1到情况5的各距离计算,施加听觉加权滤波器而进行量化。
此外,在本实施方式中,就进行MDCT系数的编码的情况进行了说明,但本发明也可适用于使用傅里叶转换、离散余弦转换(DCT)或者正交镜像滤波器(QMF)等正交转换,进行转换后的信号(频率参数)编码的情况,可获得和本实施方式相同的作用和效果。
还有,在本实施方式中,就通过矢量量化进行编码的情况进行了说明,本发明对编码方法并无限制,也可以例如通过分割矢量量化、多阶段矢量量化进行编码。
此外,语音/乐音编码装置101也可以设定为使计算机执行图16中的流程图所示的进程。
如以上说明了的那样,从输入信号计算出听觉掩蔽特性值,全面考虑输入信号的MDCT系数、编码值和听觉掩蔽特性值的相对位置关系,通过应用合适于人的听觉的距离计算方法,可选择适合于抑制对听觉影响较大的信号恶化的代码矢量,即使在将输入信号以低比特速率解码时,也可以获得更良好的高质量解码语音。
此外,专利文献1中仅揭示了图6的“情况5”,本发明中除此之外,如“情况2”、“情况3”及“情况4”所示的那样,通过对于全部的组合关系采用考虑了听觉掩蔽特性值的距离计算方法,全面考虑输入信号的MDCT系数、编码值及听觉掩蔽特性值的相对位置关系,以应用合适于听觉的距离计算方法,即使在将输入信号以低比特速率量化时,也可以获得更良好的高质量的编码语音。
还有,在本发明是基于这样的事实而做出的:当输入信号的MDCT系数或编码值存在于该听觉掩蔽区域时,或者隔着听觉掩蔽区域而存在时,如果就那样进行距离计算、进行矢量量化,则实际的听觉不同。因此,通过改变矢量量化时的距离计算的方法,可给予更自然的听觉。
(实施方式2)
本发明实施方式2中,就将在实施方式1说明的听觉掩蔽特性值的矢量量化应用于可伸缩性编码(scalable coding)的例子,而加以说明。
以下,本实施方式中,对于以基本层和增强层而构成的两层语音编码和解码方法,在增强层进行使用了听觉掩蔽特性值执行矢量量化的情况,加以说明。
所谓可伸缩性语音编码方法,是指基于频率特性将语音信号分解为多个层并执行编码的方法。具体而言,使用代表下位层的输入信号和下位层的输出信号之间的差的残余信号,计算出各层的信号。在解码方将这些各层的信号相加,并将语音信号解码。通过此技术,除了可以对音质进行灵活控制之外,还可以传输对噪声的抗性较大的语音信号。
本实施方式中,是以基本层执行CELP类型的语音编码和解码的情况为例,加以说明的。
图8是表示使用了本发明实施方式2涉及的MDCT系数矢量量化方法的编码装置及解码装置的结构的方框图。另外,在图8中,编码装置包括基本层编码单元801、基本层解码单元803、以及增强层编码单元805,而解码装置包括基本层解码单元808、增强层解码单元810、及相加单元812。
基本层编码单元801使用CELP类型的语音编码方法对输入信号800进行编码,计算基本层编码信息802的同时,将其经由基本层解码单元803及传输路径807而输出到基本层解码单元808。
基本层解码单元803使用CELP类型的语音解码方法,而对基本层编码信息802进行解码,计算出基本层解码信号804的同时,将其输出到增强层编码单元805。
增强层编码单元805输入从基本层解码单元803输出的基本层解码信号804和输入信号800,通过使用了听觉掩蔽特性值的矢量量化,对输入信号800和基本层解码信号804之间的残余信号进行编码,并通过传输路径807而将通过量化而求得的增强层编码信息806输出到增强层解码单元810。关于增强层编码单元805,在后面还要详细叙述。
基本层解码单元808使用CELP类型的语音解码方法,对基本层编码信息802进行解码,并将通过解码而求得的基本层解码信号809输出到相加单元812。
增强层解码单元810对增强层编码信息806进行解码,并将通过解码而求得的增强层解码信号811输出到相加单元812。
相加单元812将从基本层解码单元808输出了的基本层解码信号809,与从增强层解码单元810输出了的增强层解码信号811相加,并将相加结果的语音/乐音信号作为输出信号813输出。
接着,参照图9的方框图,就基本层编码单元801加以说明。
将基本层编码单元801的输入信号800输入到预处理单元901。预处理单元901进行删除了DC分量的高通滤波器处理和牵涉后续的编码处理的性能改善的波形整形处理和预加重处理,并将这些处理后的信号(Xin),输出到LPC分析单元902及相加单元905。
LPC分析单元902使用Xin进行线形预测分析,将分析结果(线形预测系数)输出到LPC量化单元903。LPC量化单元903进行从LPC分析单元902输出了的线形预测系数(LPC)的量化处理,在将量化LPC输出到合成滤波器904的同时,将表示量化LPC的代码(L)输出到多路复用单元914输出。
合成滤波器904通过使用根据量化LPC的滤波器系数,对于从后述的相加单元911输出的驱动声源进行滤波器合成而生成合成信号,并将合成信号输出到相加单元905。
相加单元905通过使合成信号的极性反转并再加上Xin,计算出误差信号,并将误差信号输出到听觉加权单元912输出。
自适应声源码本906,将通过相加单元911输出的驱动声源存储在缓冲器中,从根据参数确定单元913输出了的信号被特定的过去的驱动声源中提取一帧的采样作为自适应声源矢量,并将其输出到相乘单元909。
量化增益生成单元907,将根据从参数确定单元913输出的信号指定的量化自适应声源增益和量化固定声源增益,分别输出到相乘单元909和相乘单元910。
固定声源码本908,将通过对具有根据从参数确定单元913输出的信号指定的形状的脉冲声源矢量乘以扩展矢量,并将获得的固定声源矢量输出到相乘单元910。
相乘单元909,将从量化增益生成单元907输出的量化自适应声源增益,乘以从自适应声源码本906输出了的自适应声源矢量,并将相乘结果输出到相加单元911。相乘单元910,将从量化增益生成单元907输出了的量化固定声源增益,乘以从固定声源码本908输出了的固定声源矢量,并将相乘结果输出到相加单元911。
相加单元911具有分别来自相乘单元909和相乘单元910的增益相乘后的自适应声源矢量和固定声源矢量作为输入,并将这些矢量相加,将作为相加结果的驱动声源输出到合成滤波器904及自适应声源码本906。另外,输入到自适应声源码本906的驱动声源被存储在缓冲器中。
听觉加权单元912对于从相加单元905输出了的误差信号进行听觉性加权,并将结果作为编码失真输出到参数确定单元913。
参数确定单元913分别从自适应声源码本906、固定声源码本908和量化增益生成单元907选择将使从听觉加权单元912输出了的编码失真最小的自适应声源矢量、固定声源矢量及量化增益,并将表示选择结果的自适应声源矢量代码(A)、声源增益代码(G)及固定声源矢量代码(F)输出到多路复用单元914。
多路复用单元914具有从LPC量化单元903输入的表示量化LPC的代码(L);从参数确定单元913输入的表示自适应声源矢量的代码(A)、表示固定声源矢量的代码(F)以及表示量化增益的代码(G),将这些信息多路复用,并作为基本层编码信息802而输出该多路复用结果。
接着,参照图10就基本层解码单元803(808)加以说明。
在图10,输入到了基本层解码单元803(808)的基本层编码信息802是通过解多路复用单元1001而分离为各个代码(L、A、G、F)。分离了的LPC代码(L)被输出到LPC解码单元1002;分离了的自适应声源矢量代码(A)被输出到自适应声源码本1005;分离了的声源增益代码(G)被输出到量化增益生成单元1006;以及分离了的固定声源矢量代码(F)被输出到固定声源码本1007。
LPC解码单元1002由从解多路复用单元1001输出的代码(L)解码量化LPC,并输出到合成滤波器1003。
自适应声源码本1005从输出自解多路复用单元1001的代码(A)所指定的过去的驱动声源中,提取将1帧大小的采样作为自适应声源矢量,并将其输出到相乘单元1008。
量化增益生成单元1006对从解多路复用单元1001输出了的声源增益代码(G)所指定的量化自适应声源增益和量化固定声源增益进行解码,并将其输出到相乘单元1008及相乘单元1009。
固定声源码本1007生成从解多路复用单元1001输出了的代码(F)所指定的固定声源矢量,并将其输出到相乘单元1009。
相乘单元1008将自适应声源矢量乘以量化自适应声源增益,并将相乘结果输出到相加单元1010。
相乘单元1009将固定声源矢量乘以量化固定声源增益,并将相乘结果输出到相加单元1010。
相加单元1010将从相乘单元1008和相乘单元1009输出的增益相乘后的自适应声源矢量和固定声源矢量相加,生成驱动声源,并将其输出到合成滤波器1003及自适应声源码本1005。
合成滤波器1003使用由LPC解码单元1002解码的滤波器系数,进行从相加单元1010输出了的驱动声源的滤波器合成,并将合成的信号输出到后处理单元1004。
后处理单元1004对于从合成滤波器1003输出的信号,实施诸如共振峰加强或间距加强等改善语音的主观性质量的处理,或者改善稳定噪音的主观性音质的处理等,并将该结果生成的信号作为基本层解码信号804(810)输出。
接着,参照图11就增强层编码单元805加以说明。
图11的增强层编码单元805和图2相比,除了向正交转换处理单元1103输入基本层解码信号804和输入信号800之间的差分信号1102以外,其它都是相同的。在听觉掩蔽特性值计算单元203标注了与图2相同的代码,并省略其说明。
增强层编码单元805和实施方式1的编码单元101一样,将输入信号800按每N个采样进行划分(N为自然数),将N个采样作为一个帧,并逐帧地进行编码。此处,设定将成为编码对象的输入信号800表示为xn(n=0、Λ、N-1)。
输入信号xn800被输入到听觉掩蔽特性值计算单元203及相加单元1101。另外,从基本层解码单元803输出的基本层解码信号804被输入到相加单元1101和正交转换处理单元1103。
相加单元1101通过等式(42),求取残余信号1102xresidn(n=0、Λ、N-1),并将求得的残余信号xresidn 1102输出到正交转换处理单元1103。
【等式42】
xresidn=xn-xbasen(n=0,…,N-1)        …(42)
此处,xbasen(n=0、Λ、N-1)是基本层解码信号804。接着,就有关正交转换处理单元1103的处理,加以说明。
正交转换处理单元1103在内部具有基本层解码信号xbasen804处理时使用的缓冲器bufbasen(n=0、Λ、N-1);和残余信号xresidn1102处理时使用的缓冲器bufresidn(n=0、Λ、N-1),并将通过等式(43)及等式(44)分别初始化这些缓冲器。
【等式43】
bufbasen=0(n=0,…,N-1)               …(43)
【等式44】
bufresidn=0(n=0,…,N-1)              …(44)
接着,正交转换处理单元1103,通过对基本层解码信号xbasen804和残余信号xresidn1102进行修正离散余弦转换(MDCT),分别求取基本层正交转换系数xbasek1104和残余正交转换系数xresidk1105。此处,基本层正交转换系数xbasek1104是通过等式(45)而求得的。
【等式45】
xbase k = 2 N &Sigma; n = 0 2 N - 1 xbase &prime; n cos [ ( 2 n + 1 + N ) ( 2 k + 1 ) &pi; 4 N ] ( k = 0 , &CenterDot; &CenterDot; &CenterDot; , N - 1 ) - - - ( 45 )
此处,xbasen′是将基本层解码信号xbasen804和缓冲器bufbasen结合的矢量,正交转换处理单元1103通过等式(46)求xbasen′。另外,k是于-个帧中的各采样的下标。
【等式46】
xbase &prime; n = bufbase n ( n = 0 , &CenterDot; &CenterDot; &CenterDot; N - 1 ) xbase n - N ( n = N , &CenterDot; &CenterDot; &CenterDot; 2 N - 1 ) - - - ( 46 )
接着,正交转换处理单元1103通过等式(47)更新缓冲器bufbasen
【等式47】
bufbasen=xbasen(n=0,…N-1)        …(47)
另外,正交转换处理单元1103通过等式(48)求取残余正交转换系数xresidk1105。
【等式48】
xresid k = 2 N &Sigma; n = 0 2 N - 1 xresid &prime; n cos [ ( 2 n + 1 + N ) ( 2 k + 1 ) &pi; 4 N ] ( k = 0 , &CenterDot; &CenterDot; &CenterDot; , N - 1 ) - - - ( 48 )
此处,xresidn′是将残余信号xresidn1102和缓冲器bufresidn结合的矢量,正交转换处理单元1103通过等式(49)求xresidn′。此外,k是于一个帧中的各采样的下标。
【等式49】
xresid &prime; n = bufresid n ( n = 0 , &CenterDot; &CenterDot; &CenterDot; N - 1 ) xresid n - N ( n = N , &CenterDot; &CenterDot; &CenterDot; 2 N - 1 ) - - - ( 49 )
接着,正交转换处理单元1103通过等式(50)更新缓冲器bufresidn
【等式50】
bufresidn=xresidn(n=0,…N-1)       …(50)
然后,正交转换处理单元1103将基本层正交转换系数xbasek1104和残余正交转换系数Xresidk1105,输出到矢量量化单元1106。
矢量量化单元1106,从正交转换处理单元1103输入基本层正交转换系数xbasek1104和残余正交转换系数xresidk1105;从听觉掩蔽特性值计算单元203输入听觉掩蔽特性值Mk 1107;再使用形状码本1108和增益码本1109、根据使用了听觉掩蔽特性值的矢量量化进行残余正交转换系数xresidk 1105的编码,并输出通过编码而获得的增强层编码信息806。
此处,形状码本1108包括预先创建的Ne种N维代码矢量coderesidk e(e=0、Λ、Ne-1,k=0、Λ、N-1),并且在上述矢量量化单元1106中将残余正交转换系数xresidk1105矢量量化时使用。
还有,增益码本1109包括预先创建的Nf种残余增益编码gainresidf(f=0、Λ、Nf-1),并且在上述矢量量化单元1106中,将残余正交转换系数xresidk1105矢量量化时使用。
接着,参照图12,详细说明矢量量化单元1106的处理。步骤1201中,通过将0代入形状码本1108的代码矢量下标e、并将最小误差DistMIN代入充分大的值,进行初始化。
步骤1202中,从图11的形状码本1108读取N维的代码矢量coderesidk e(k=0、Λ、N-1)。
步骤1203中,输入从正交转换处理单元1103输出的残余正交转换系数xresidk,并通过等式(51)求出在步骤1202读取的代码矢量coderesidk e(k=0、Λ、N-1)的增益Gainresid。
【等式51】
Gainresid = &Sigma; k = 0 N - 1 Xresid k &CenterDot; coderesid k e / &Sigma; k = 0 N - 1 coderesid k e 2 - - - ( 51 )
步骤1204中,将0代入表示步骤1205的实行次数的calc_countresid
步骤1205中,从听觉掩蔽特性值计算单元203输出的听觉掩蔽特性值Mk作为输入,并通过等式(52)求临时增益temp2k(k=0、Λ、N-1)。
【等式52】
( temp 2 k = ) coderesid k e ( | codreesid k e &CenterDot; Gainresid + Xbase k | &GreaterEqual; M k ) 0 ( | coderesid k e &CenterDot; Gainresid + Xbase k | < M k ) ( k = 0 , &CenterDot; &CenterDot; &CenterDot; , N - 1 ) - - - ( 52 )
这里,在等式(52)中,当k满足|coderesidk e·Gainresid+xbasek|≥Mk的条件时,将coderesidk e代入临时增益temp2k;并且当k满足|coderesidk e·Gainresid+xbasek|<Mk的条件时,将0代入temp2k。这里,k是于1帧的各采样的下标。
接着,在步骤1205中,通过等式(53)求增益Gainresid。
【等式53】
Gainresid = &Sigma; k = 0 N - 1 Xresid k &CenterDot; temp 2 k / &Sigma; k = 0 N - 1 temp 2 k 2 ( k = 0 , &CenterDot; &CenterDot; &CenterDot; , N - 1 ) - - - ( 53 )
此处,当临时增益temp2k对于全部的k都为0时,将0代入增益Gainresid中。而且,通过等式(54)从增益Gainresid和代码矢量coderesidk e求残余编码值Rresidk
【等式54】
Rresid k = Gainresid &CenterDot; coderesid k e ( k = 0 , &CenterDot; &CenterDot; &CenterDot; , N - 1 ) - - - ( 54 )
另外,通过等式(55)从残余编码值Rresidk和基本层正交转换系数Xbasek,求加法编码值Rplusk
【等式55】
Rplusk=Rresidk+Xbasek(k=0,…,N-1)      …(55)
步骤1206中,对calc_countresid加上1。
步骤1207中,比较calc_countresid和预定的非负整数Nresidc,并且,如果calc_countresid为小于Nresidc的值,则处理流程返回到步骤1205;或者如果calc_countresid大于或等于Nresidc,则前进到步骤1208。
步骤1208中,将0代入积累误差Distresid,另外,将0代入k。而且,在步骤1208中,通过等式(56)求加法MDCT系数Xplusk
【等式56】
Xplusk=Xbasek+Xresidk  (k=0,…,N-1)       …(56)
接着,在步骤1209、1211、1212及1214中,对听觉掩蔽特性值Mk1107、加法运算编码值Rplusk和加法MDCT系数Xplusk间的相对位置关系进行情况区分,对应于情况区分的结果,分别在步骤1210、1213、1215及1216进行距离计算。图13表示根据此相对位置关系的情况区分。在图13中,白圆圈记号(○)表示加法MDCT系数Xplusk,黑圆圈记号(●)表示Rplusk。图13的构思方法与在实施方式1的图6中说明的构思方法相同。
步骤1209中,通过等式(57)的条件表达式,确定听觉掩蔽特性值Mk、加法运算编码值Rplusk和加法运算MDCT系数Xplusk间的相对位置关系是否符合图13的“情况1”。
【等式57】
(|Xplusk|≥Mk)and(Rplusk|≥Mk)and(Xplusk·Rplusk≥0)   …(57)
等式(57)表示加法MDCT系数Xplusk的绝对值和加法编码值Rplusk的绝对值都大于或等于听觉掩蔽特性值Mk,且加法MDCT系数Xplusk和加法编码值Rplusk的正负号相同的情况。如果听觉掩蔽特性值Mk、加法MDCT系数Xplusk和加法编码值Rplusk满足等式(57)的条件表达式,则处理流程前进到步骤1210;如果它们不满足等式(57)的条件表达式,则处理流程前进到步骤1211。
步骤1210中,通过等式(58)求Rplusk和加法MDCT系数Xplusk间的误差Distresid1,对积累误差Distresid加上误差Distresid1,处理流程前进到步骤1217。
【等式58】
Distresid1=Dresid11
          =|Xresidk-Rresidk|                 …(58)
步骤1211中,通过等式(59)的条件表达式确定听觉掩蔽特性值Mk、加法编码值Rplusk和加法MDCT系数Xplusk间的相对位置关系是否符合图13的“情况5”。
【等式59】
(|Xplusk|<Mk)和(|Rplusk|<Mk)          …(59)
等式(59)表示加法MDCT系数Xplusk的绝对值和加法编码值Rplusk的绝对值都小于听觉掩蔽特性值Mk的情况。当听觉掩蔽特性值Mk、加法编码值Rplusk和加法MDCT系数Xplusk满足等式(59)的条件表达式时,加法编码值Rplusk和加法MDCT系数Xplusk间的误差设为0,对积累误差Distresid什么也不加,并且处理流程前进到步骤1217。而当听觉掩蔽特性值Mk、加法编码值Rplusk和加法MDCT系数Xplusk不满足等式(59)的条件表达式时,处理流程前进到步骤1212。
步骤1212中,通过等式(60)的条件表达式判决听觉掩蔽特性值Mk、加法编码值Rplusk和加法MDCT系数Xplusk间的相对位置关系是否符合图13的“情况2”。
【等式60】
(|Xplusk|≥Mk)和(|Rplusk|≥Mk)和(Xplusk·Rplusk<0)    …(60)
等式(60)表示加法MDCT系数Xplusk的绝对值和加法编码值Rplusk的绝对值都大于或等于听觉掩蔽特性值Mk,且加法MDCT系数Xplusk和加法编码值Rplusk的正负号不同的情况。当听觉掩蔽特性值Mk、加法MDCT系数Xplusk和加法编码值Rplusk满足了等式(60)的条件表达式时,处理流程前进到步骤1213,当它们不满足等式(60)的条件表达式时,处理流程前进到步骤1214。
步骤1213中,通过等式(61)求加法编码值Rplusk和加法MDCT系数Xplusk间的误差Distresid2,对积累误差Distresid加上误差Distresid2,并且处理流程前进到步骤1217。
【等式61】
Distresid2=Dresid21+Dresid22resid*Dresid23     …(61)
此处,βresid是根据加法MDCT系数Xplusk、加法编码值Rplusk及听觉掩蔽特性值Mk适当设定的值,适合于βresid的值是1或小于1的值。而且,Dresid21,Dresid22及Dresid23分别通过等式(62)、等式(63)及等式(64)求得。
【等式62】
Dresid21=|Xplusk|-Mk           …(62)
【等式63】
Dresid22=|Rplusk|-Mk           …(63)
【等式64】
Dresid23=Mk·2                 …(64)
步骤1214中,通过等式(65)的条件表达式来确定听觉掩蔽特性值Mk、加法编码值Rplusk和加法MDCT系数Xplusk间的相对位置关系是否符合图13的“情况3”。
【等式65】
(|Xplusk|≥Mk)和(|Rplusk|<Mk)     …(65)
等式(65)表示加法MDCT系数Xplusk的绝对值大于或等于听觉掩蔽特性值Mk,而加法编码值Rplusk小于听觉掩蔽特性值Mk的情况。当听觉掩蔽特性值Mk、加法MDCT系数Xplusk和加法编码值Rplusk满足了等式(65)的条件表达式时,处理流程前进到步骤1215;当它们不满足等式(65)的条件表达式时,处理流程前进到步骤1216。
步骤1215中,通过等式(66)求取加法编码值Rplusk和加法MDCT系数Xplusk间的误差Distresid3,对积累误差Distresid加上误差Distresid3,且处理流程前进到步骤1217。
【等式66】
Distresid3=Dresid31
          =|Xplusk|-Mk                 …(66)
步骤1216中,听觉掩蔽特性值Mk、加法编码值Rplusk和加法MDCT系数Xplusk间的相对位置关系符合于图13的“情况4”,且满足等式(67)的条件表达式。
【等式67】
(|Xplusk|<Mk)and(|Rplusk|≥Mk)          …(67)
等式(67)表示加法MDCT系数Xplusk的绝对值小于听觉掩蔽特性值Mk,且加法编码值Rplusk大于或等于听觉掩蔽特性值Mk的情况。在步骤1216中,通过等式(68)求取加法编码值Rplusk和加法MDCT系数Xplusk间的误差Distresid4,对积累误差Distresid加上误差Distresid4,且处理流程前进到步骤1217。
【等式68】
Distresid4=Dresid41
          =|Rplusk|-Mk                           …(68)
步骤1217中,对k加上1。
步骤1218中,比较N和k,如果k为小于N的值,则处理流程返回到步骤1209;如果k大于或等于N,则处理流程前进到步骤1219。
在步骤1219中,比较积累误差Distresid和最小误差DistresidMIN,并且如果积累误差Distresid为小于最小误差DistresidMIN的值,则处理流程前进到步骤1220;而如果积累误差Distresid大于或等于最小误差DistresidMIN,则处理流程前进到步骤1221。
在步骤1220中,将积累误差Distresid代入最小误差DistresidMIN,将e代入gainresid_indeXMIN,将增益Distresid代入误差最小增益DistresidMIN,并且处理流程前进到步骤1221。
步骤1221中,对e加上1。
步骤1222中,比较代码矢量的总数Ne和e,如果e为小于Ne的值,则处理流程返回到步骤1202;如果e大于或等于Ne时,则处理流程前进到步骤1223。
步骤1223中,从图11的增益码本1109读取Nf种残余增益编码gainresidf(f=0、Λ、Nf-1),并通过等式(69)对于全部f求取量化残余增益误差gainresiderrf(f=0、Λ、Nf-1)。
【等式69】
gainresiderrf=|GainresidMIN-gainresidf|(f=0,…,Nf-1)    …(69)
接着,在步骤1223中,求取使量化残余增益误差gainresiderrf(f=0、Λ、Nf-1)成为最小的f,将求得的f代入gainresid_indexMIN
在步骤1224中,将使得积累误差Distresid成为最小的代码矢量下标的coderesid_indexMIN、及在步骤1223求得的gainresid_indexMIN作为增强层编码信息806,输出到传输路径807,并结束处理。
接着,参照图14的方框图就增强层解码单元810加以说明。形状码本1403以与形状码本1108相同的方式包括Ne种N维代码矢量gainresidk e(e=0、Λ、Ne-1,k=0、Λ、N-1)。而且,增益码本1404以与增益码本1109相同的方式包括Nf种残余增益编码gainresidf(f=0、Λ、Nf-1)。
矢量解码单元1401将通过传输路径807而传输的增强层编码信息806作为输入,并使用编码信息coderesid_indexMIN和gainresid_indexMIN,从形状码本1403读取代码矢量coderesidk coderesid_indexMIN(k=0、Λ、N-1),并从增益码本1404读取编码gainresidgainresid_indexMIN。接着,矢量解码单元1401将gainresidgainresid_indexMIN乘以coderesidk coderesid_indexMIN(k=0、Λ、N-1),将相乘后得到的gainresidgainresid_indexMIN·coderesidk coderesid_indexMIN(k=0、Λ、N-1),作为解码残余正交转换系数输出到残余正交转换处理单元1402。
接下来,就残余正交转换处理单元1402的处理,加以说明。
残余正交转换处理单元1402,在内部具有缓冲器bufresidk′,并根据等式(70)对该缓冲器进行初始化。
【等式70】
bufresid′k=0(k=0,…,N-1)         …(70)
输入从残余正交转换系数解码单元1401输出的解码残余正交转换系数gainresidgainresid_indexMIN·coderesidk coderesid_indexMIN(k=0、Λ、N-1),并通过等式(71)求增强层解码信号yresidn811。
【等式71】
yresid n = 2 N &Sigma; k = 0 2 N - 1 Xresid &prime; k cos [ ( 2 n + 1 + N ) ( 2 k + 1 ) &pi; 4 N ] ( n = 0 , &CenterDot; &CenterDot; &CenterDot; , N - 1 ) - - - ( 71 )
此处,Xresidk′是使解码残余正交转换系数gainresidgainresid_indexMIN·coderesidk coderesid_indexMIN(k=0、Λ、N-1)和缓冲器bufresidk′结合的矢量,通过等式(72)而求得。
【等式72】
Xresid &prime; k = bufresid &prime; k ( k = 0 , &CenterDot; &CenterDot; &CenterDot; N - 1 ) gainresid gainresid _ index MIN &CenterDot; coderesid k - N coderesid _ index MIN ( k = N , &CenterDot; &CenterDot; &CenterDot; 2 N - 1 ) - - - ( 72 )
接着,通过等式(73)更新缓冲器bufresidk′。
【等式73】
bufresid &prime; k = gainresid gainresid _ index MIN &CenterDot; coderesid k coderesid _ index MIN ( k = 0 , &CenterDot; &CenterDot; N - 1 ) - - - ( 73 )
然后,输出增强层解码信号yresidn811。
另外,本发明关于可伸缩性编码层并无限制,对于大于或等于三层的层级性语音编码和解码方法中的上层进行使用了听觉掩蔽特性值的矢量量化的情况也可适用。
在矢量量化单元1106,也可以通过对于上述情况1到情况5的各距离计算应用听觉加权滤波器而执行量化。
本实施方式中,作为基本层编码单元和解码单元的语音编码和解码方法是以CELP类型的语音编码和解码方法为例进行了说明,但是也可以使用其他语音编码和解码方法。
此外,在本实施方式中,给出了分别发送基本层编码信息和增强层编码信息的例子,但也可以将各层的编码信息复用并发送,并在接收方执行解多路复用,以便将各层的编码信息解码。
这样,即使对于可伸缩性编码方式,也可以通过应用使用本发明的听觉掩蔽特性值的矢量量化,而选择适合于抑制对听觉影响较大的信号恶化的代码矢量,从而可以获得更高质量的输出信号。
(实施方式3)
图15是示出本发明实施方式3的包括上述实施方式1、2中说明了的编码装置及解码装置的语音信号发送装置及语音信号接收装置的结构的方框图。作为更具体性应用,可适用于携带式电话、汽车导航***等。
图15中,输入装置1502将语音信号1500模拟/数字(A/D)转换为数字信号,并将该信号输出到语音/乐音编码装置1503。语音/乐音编码装置1503安装有图1所示的语音/乐音编码装置101,对从输入装置1502输出的数字信号进行编码,将编码信息输出到RF调制装置1504。RF调制装置1504将从语音/乐音编码装置1503输出的语音编码信息,转换成可在电波等传播介质上传送的信号,并将该信号从发送天线1505送出。发送天线1505将从RF调制装置1504输出的输出信号作为无线电波(RF信号)送出。另外,图中的RF信号1506表示从发送天线1505送出的无线电波(RF信号)。以上是语音信号发送装置的结构及动作。
RF信号1507通过接收天线1508而被接收,并被输出到RF解调装置1509。而且,图中的RF信号1507表示被接收天线1508接收的无线电波,并且只要在传播通路上没有信号的衰减或噪音的重叠,则RF信号1507和RF信号1506完全相同。
RF解调装置1509对来自从接收天线1508输出的RF信号的语音编码信息进行解调,将结果输出到语音/乐音解码装置1510输出。语音/乐音解码装置1510安装有图1所示的语音/乐音解码装置105,并从输出自RF解调装置1509的语音编码信息中解码语音信号,输出装置1511将解码了的数字语音信号数字/模拟(D/A)转换为模拟信号,将电信号转换为空气的振动,并输出可以使人的耳朵听到的音波。
这样,对于语音信号发送装置及语音信号接收装置,也可以获得高质量的输出信号。
本申请是根据2003年12月26日提交的日本专利申请第2003-433160号。该内容全部包含在此作为参考。
【工业适用性】
本发明具有如下优点:通过应用使用了听觉掩蔽特性值的矢量量化,可以选择适合于抑制对听觉影响较大的信号恶化的代码矢量,并可获得更高质量的输出信号的效果。此外,本发明可适用于以互联网通信为代表的分组通信***、以及诸如移动电话和汽车导航***等移动通信***的领域。

Claims (9)

1.一种语音和乐音编码装置,包括:
正交转换处理单元,将语音和乐音信号从时间分量转换到频率分量;
听觉掩蔽特性值计算单元,其从所述语音和乐音信号求出听觉掩蔽特性值;以及
矢量量化单元,其基于所述听觉掩蔽特性值,改变从预先设定了的码本求得的代码矢量和上述频率分量之间的距离计算方法,进行矢量量化。
2.一种语音和乐音编码装置,包括:
基本层编码单元,对语音和乐音信号进行编码,并生成基本层编码信息;
基本层解码单元,对所述基本层编码信息进行解码,并生成基本层解码信号;以及
增强层编码单元,对所述语音和乐音信号与所述基本层解码信号之间的差分信号进行编码,并生成增强层编码信息;
其中,所述增强层编码单元包括:
听觉掩蔽特性值计算单元,其从所述语音和乐音信号中求出听觉掩蔽特性值;
正交转换处理单元,将所述差分信号从时间分量转换为频率分量;以及
矢量量化单元,基于所述听觉掩蔽特性值,改变从预先设定了的码本求得的代码矢量和上述频率分量之间的距离计算方法,进行矢量量化。
3.根据权利要求1的语音和乐音编码装置,其中:
当所述语音和乐音信号的频率分量和所述代码矢量的任一个处于所述听觉掩蔽特性值所指示的听觉掩蔽区域内时,所述矢量量化单元基于所述听觉掩蔽特性值,改变所述语音和乐音信号的频率分量与所述代码矢量间的距离计算方法,进行矢量量化。
4.根据权利要求1的语音和乐音编码装置,其中:
所述矢量量化单元基于从形状码本求得的代码矢量和从增益码本求得了的代码矢量执行矢量量化。
5.根据权利要求1所述的语音和乐音信号编码装置,其中:
所述正交转换处理单元,根据修正离散余弦转换(MDCT)、离散余弦转换(DCT)、傅里叶转换或正交镜像滤波器(QMF)中的任一个,将所述语音和乐音信号从时间分量转换为频率分量。
6.根据权利要求2的语音和乐音编码装置,还包括:
至少一个增强层编码单元,其中所述增强层编码单元对上位增强层编码单元的输入信号与所述上位增强层编码单元所生成的增强层编码信息的解码信号之间的差进行编码,并生成增强层编码信息。
7.根据权利要求2的语音和乐音信号编码装置,其中所述基本层编码单元通过码激励线性预测器类型的语音和乐音信号编码对输入信号进行编码。
8.一种语音和乐音编码方法,包括:
正交转换处理步骤,将语音和乐音信号从时间分量转换为频率分量;
听觉掩蔽特性值计算步骤,从所述语音和乐音信号求出听觉掩蔽特性值;以及
矢量量化步骤,基于所述听觉掩蔽特性值,改变从预定的码本求得的代码矢量和所述频率分量之间的距离计算方法,进行矢量量化。
9.一种语音和乐音编码程序,其使电子计算机起到如下单元的作用:
正交转换处理单元,将语音和乐音信号从时间分量转换为频率分量;
听觉掩蔽特性值计算单元,从所述语音和乐音信号求出听觉掩蔽特性值;以及
矢量量化单元,基于所述听觉掩蔽特性值,改变从预定的码本求得的代码矢量和所述频率分量之间的距离计算方法,进行矢量量化。
CNA2004800389917A 2003-12-26 2004-12-20 语音/乐音编码设备及语音/乐音编码方法 Pending CN1898724A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003433160 2003-12-26
JP433160/2003 2003-12-26

Publications (1)

Publication Number Publication Date
CN1898724A true CN1898724A (zh) 2007-01-17

Family

ID=34736506

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2004800389917A Pending CN1898724A (zh) 2003-12-26 2004-12-20 语音/乐音编码设备及语音/乐音编码方法

Country Status (7)

Country Link
US (1) US7693707B2 (zh)
EP (1) EP1688917A1 (zh)
JP (1) JP4603485B2 (zh)
KR (1) KR20060131793A (zh)
CN (1) CN1898724A (zh)
CA (1) CA2551281A1 (zh)
WO (1) WO2005064594A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102414990A (zh) * 2009-05-29 2012-04-11 日本电信电话株式会社 编码装置、解码装置、编码方法、解码方法及其程序
US9361895B2 (en) 2011-06-01 2016-06-07 Samsung Electronics Co., Ltd. Audio-encoding method and apparatus, audio-decoding method and apparatus, recoding medium thereof, and multimedia device employing same
CN103854656B (zh) * 2012-12-06 2017-01-18 富士通株式会社 音频信号编码装置和方法、传输***和方法以及解码装置
CN109215670A (zh) * 2018-09-21 2019-01-15 西安蜂语信息科技有限公司 音频数据的传输方法、装置、计算机设备和存储介质

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7693707B2 (en) * 2003-12-26 2010-04-06 Pansonic Corporation Voice/musical sound encoding device and voice/musical sound encoding method
WO2006104017A1 (ja) * 2005-03-25 2006-10-05 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
BRPI0611430A2 (pt) * 2005-05-11 2010-11-23 Matsushita Electric Ind Co Ltd codificador, decodificador e seus métodos
CN1889172A (zh) * 2005-06-28 2007-01-03 松下电器产业株式会社 可增加和修正声音类别的声音分类***及方法
KR20070046752A (ko) * 2005-10-31 2007-05-03 엘지전자 주식회사 신호 처리 방법 및 장치
EP2116996A4 (en) * 2007-03-02 2011-09-07 Panasonic Corp CODING DEVICE AND CODING METHOD
JP4871894B2 (ja) 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
CN101350197B (zh) * 2007-07-16 2011-05-11 华为技术有限公司 立体声音频编/解码方法及编/解码器
US8527265B2 (en) * 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
KR101221919B1 (ko) * 2008-03-03 2013-01-15 연세대학교 산학협력단 오디오 신호 처리 방법 및 장치
AU2009220341B2 (en) * 2008-03-04 2011-09-22 Lg Electronics Inc. Method and apparatus for processing an audio signal

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US173677A (en) * 1876-02-15 Improvement in fabrics
US80091A (en) * 1868-07-21 keplogley of martinsbukg
US44727A (en) * 1864-10-18 Improvement in sleds
US5502789A (en) * 1990-03-07 1996-03-26 Sony Corporation Apparatus for encoding digital data with reduction of perceptible noise
WO1992005541A1 (fr) * 1990-09-14 1992-04-02 Fujitsu Limited Systeme de codage de la parole
KR950010340B1 (ko) * 1993-08-25 1995-09-14 대우전자주식회사 시간 매스킹 현상을 이용한 오디오 신호의 왜곡 측정장치
JPH07160297A (ja) 1993-12-10 1995-06-23 Nec Corp 音声パラメータ符号化方式
KR970005131B1 (ko) * 1994-01-18 1997-04-12 대우전자 주식회사 인간의 청각특성에 적응적인 디지탈 오디오 부호화장치
JPH08123490A (ja) * 1994-10-24 1996-05-17 Matsushita Electric Ind Co Ltd スペクトル包絡量子化装置
US5864797A (en) * 1995-05-30 1999-01-26 Sanyo Electric Co., Ltd. Pitch-synchronous speech coding by applying multiple analysis to select and align a plurality of types of code vectors
TW321810B (zh) * 1995-10-26 1997-12-01 Sony Co Ltd
KR100361883B1 (ko) 1997-10-03 2003-01-24 마츠시타 덴끼 산교 가부시키가이샤 오디오신호압축방법,오디오신호압축장치,음성신호압축방법,음성신호압축장치,음성인식방법및음성인식장치
JP3351746B2 (ja) * 1997-10-03 2002-12-03 松下電器産業株式会社 オーディオ信号圧縮方法、オーディオ信号圧縮装置、音声信号圧縮方法、音声信号圧縮装置,音声認識方法および音声認識装置
KR100938017B1 (ko) 1997-10-22 2010-01-21 파나소닉 주식회사 벡터 양자화 장치 및 방법
JP4327420B2 (ja) * 1998-03-11 2009-09-09 パナソニック株式会社 オーディオ信号符号化方法、及びオーディオ信号復号化方法
KR100304092B1 (ko) 1998-03-11 2001-09-26 마츠시타 덴끼 산교 가부시키가이샤 오디오 신호 부호화 장치, 오디오 신호 복호화 장치 및 오디오 신호 부호화/복호화 장치
JP3515903B2 (ja) * 1998-06-16 2004-04-05 松下電器産業株式会社 オーディオ符号化のための動的ビット割り当て方法及び装置
US6353808B1 (en) * 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
CN1242379C (zh) 1999-08-23 2006-02-15 松下电器产业株式会社 音频编码装置
JP4438144B2 (ja) * 1999-11-11 2010-03-24 ソニー株式会社 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置
JP2002268693A (ja) * 2001-03-12 2002-09-20 Mitsubishi Electric Corp オーディオ符号化装置
JP2002323199A (ja) 2001-04-24 2002-11-08 Matsushita Electric Ind Co Ltd 液化石油ガス気化装置
US7027982B2 (en) * 2001-12-14 2006-04-11 Microsoft Corporation Quality and rate control strategy for digital audio
JP2003323199A (ja) 2002-04-26 2003-11-14 Matsushita Electric Ind Co Ltd 符号化装置、復号化装置及び符号化方法、復号化方法
WO2003091989A1 (en) 2002-04-26 2003-11-06 Matsushita Electric Industrial Co., Ltd. Coding device, decoding device, coding method, and decoding method
WO2004097796A1 (ja) 2003-04-30 2004-11-11 Matsushita Electric Industrial Co., Ltd. 音声符号化装置、音声復号化装置及びこれらの方法
US7693707B2 (en) * 2003-12-26 2010-04-06 Pansonic Corporation Voice/musical sound encoding device and voice/musical sound encoding method

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102414990A (zh) * 2009-05-29 2012-04-11 日本电信电话株式会社 编码装置、解码装置、编码方法、解码方法及其程序
US9361895B2 (en) 2011-06-01 2016-06-07 Samsung Electronics Co., Ltd. Audio-encoding method and apparatus, audio-decoding method and apparatus, recoding medium thereof, and multimedia device employing same
TWI562134B (en) * 2011-06-01 2016-12-11 Samsung Electronics Co Ltd Audio encoding method and non-transitory computer-readable recording medium
US9589569B2 (en) 2011-06-01 2017-03-07 Samsung Electronics Co., Ltd. Audio-encoding method and apparatus, audio-decoding method and apparatus, recoding medium thereof, and multimedia device employing same
TWI601130B (zh) * 2011-06-01 2017-10-01 三星電子股份有限公司 音訊編碼裝置
US9858934B2 (en) 2011-06-01 2018-01-02 Samsung Electronics Co., Ltd. Audio-encoding method and apparatus, audio-decoding method and apparatus, recoding medium thereof, and multimedia device employing same
CN103854656B (zh) * 2012-12-06 2017-01-18 富士通株式会社 音频信号编码装置和方法、传输***和方法以及解码装置
CN109215670A (zh) * 2018-09-21 2019-01-15 西安蜂语信息科技有限公司 音频数据的传输方法、装置、计算机设备和存储介质
CN109215670B (zh) * 2018-09-21 2021-01-29 西安蜂语信息科技有限公司 音频数据的传输方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CA2551281A1 (en) 2005-07-14
US7693707B2 (en) 2010-04-06
EP1688917A1 (en) 2006-08-09
WO2005064594A1 (ja) 2005-07-14
JP4603485B2 (ja) 2010-12-22
KR20060131793A (ko) 2006-12-20
JPWO2005064594A1 (ja) 2007-07-19
US20070179780A1 (en) 2007-08-02

Similar Documents

Publication Publication Date Title
CN1296888C (zh) 音频编码装置以及音频编码方法
CN1156822C (zh) 音频信号编码方法、解码方法,及音频信号编码装置、解码装置
CN100346392C (zh) 编码设备、解码设备、编码方法和解码方法
CN1131507C (zh) 音频信号编码装置、解码装置及音频信号编码·解码装置
CN1160703C (zh) 语音编码方法和装置以及声音信号编码方法和装置
CN1245706C (zh) 多模式语音编码器
CN1145142C (zh) 矢量量化方法和语音编码方法及其装置
CN1898724A (zh) 语音/乐音编码设备及语音/乐音编码方法
CN1229775C (zh) 宽带语音和音频信号解码器中的增益平滑
CN1205603C (zh) 在用于宽带信号编码的代数码本中索引脉冲位置和符号的方法和设备
CN101067931A (zh) 一种高效可配置的频域参数立体声及多声道编解码方法与***
CN1265355C (zh) 音源矢量生成装置及语音编码/解码装置
CN101048649A (zh) 可扩展解码装置及可扩展编码装置
CN101061534A (zh) 音频信号编码装置及方法
CN1632864A (zh) 扩散矢量生成方法及扩散矢量生成装置
CN1338096A (zh) 用于分析-合成celp型语音编码的自适应窗
CN1926607A (zh) 多信道音频编码
CN1156303A (zh) 语音编码方法和装置以及语音解码方法和装置
CN1898723A (zh) 信号解码装置以及信号解码方法
CN1208288A (zh) 用于视听设备的信号处理及声象定位装置和方法
CN1110486A (zh) 传输误差的隐蔽
CN1918633A (zh) 使用从mdct系数导出的估计频谱幅值和相位的改进编码技术
CN1922660A (zh) 通信装置和信号编码/解码方法
CN101059957A (zh) 一种语音编码选择性加密方法
CN1650561A (zh) 音频数据编码转换发送方法以及编码转换接收方法、设备、***和程序

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20070117