CN101620854B - 频带扩展的方法、***和设备 - Google Patents

频带扩展的方法、***和设备 Download PDF

Info

Publication number
CN101620854B
CN101620854B CN 200810130702 CN200810130702A CN101620854B CN 101620854 B CN101620854 B CN 101620854B CN 200810130702 CN200810130702 CN 200810130702 CN 200810130702 A CN200810130702 A CN 200810130702A CN 101620854 B CN101620854 B CN 101620854B
Authority
CN
China
Prior art keywords
excitation spectrum
feature parameter
tonality feature
frequency
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 200810130702
Other languages
English (en)
Other versions
CN101620854A (zh
Inventor
张德明
张立斌
张琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingjiang City Huaxin Technology Park Co ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN 200810130702 priority Critical patent/CN101620854B/zh
Priority to PCT/CN2009/072371 priority patent/WO2010000179A1/zh
Publication of CN101620854A publication Critical patent/CN101620854A/zh
Application granted granted Critical
Publication of CN101620854B publication Critical patent/CN101620854B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种频带扩展方法。本发明实施例还提供相应的***和设备。获取音调特征参数和原始高带信号;根据所述音调特征参数生成激励谱;根据所述激励谱和所述原始高带信号中的轮廓信息生成重构高带信号。本发明技术方案由于采用在编码端提取原始高带信号的关键特征参数,解码端,根据该音调特征参数进行高带信号的重构;重构的高带信号除了轮廓和原始高带信号接近之外,在细节上有较好的匹配,通过较少的比特资源消耗就能达到较好的听觉效果。

Description

频带扩展的方法、***和设备
技术领域
本发明涉及信号承载技术领域,具体涉及频带扩展的方法、***和设备。
背景技术
现有承载技术中,宽带、超宽带部分资源受限制的情况下,通常只能对宽带、超宽带部分的频谱包络、时域包络、部分谱系数进行编码,然后在解码端通过这些参数方法进行频带扩展,重构宽带、超宽带部分的信号。
现有的频带扩展的方法主要以AMRWB+(Adaptive multi-rate wide bandplus自适应多速率宽带编码+)为代表的,利用窄带的激励信号和高带的合成滤波器生成高带信号,实现频带扩展。。
在对现有技术的研究和实践过程中,本发明的发明人发现,现有技术需要消耗较多的比特资源来描述高带合成滤波器参数,存在着消耗比特资源多,在比特资源有限的情况下不适用或重构的效果不好的问题。
发明内容
本发明实施例提供一种频带扩展的方法、***和设备,解决现有技术存在的消耗比特资源多的问题。
一种音频信号解码方法,包括:
获取音调特征参数和原始高带信号;
根据所述音调特征参数生成激励谱;
根据所述激励谱和所述原始高带信号中的轮廓信息生成重构高带信号;
其中,所述根据所述音调特征参数生成激励谱包括:生成初始激励谱;对所述初始激励谱进行音调整形得到音调整形后的激励谱。
一种音频信号编码方法,包括:
对超宽带部分的频域信号进行音调特征分析提取音调特征参数;
将所述音调特征参数进行量化编码;
其中,所述对超宽带部分的频域信号进行音调特征分析提取音调特征参数包括:通过计算超宽带部分频域信号的自相关函数得到所述音调特征参数;
或者,所述对超宽带部分的频域信号进行音调特征分析提取音调特征参数包括:
计算每个子带频域信号音调特征参数;
综合提取出表征整个超宽带部分音调特征的音调特征参数。
一种频带扩展***,包括:
编码端,用于发送原始高带信号和音调特征参数;
解码端,用于接收编码端发送的音调特征参数和原始高带信号;根据所述音调特征参数生成激励谱;根据所述激励谱和所述原始高带信号中的轮廓信息生成重构高带信号;
其中,所述根据所述音调特征参数生成激励谱包括:生成初始激励谱;对所述初始激励谱进行音调整形得到音调整形后的激励谱。
一种解码端,包括:
接收单元,用于接收音调特征参数和原始高带信号;
激励谱生成单元,用于根据所述音调特征参数生成激励谱;
高带信号生成单元,用于根据所述激励谱和所述原始高带信号中的轮廓信息生成重构高带信号;
其中,所述激励谱整形单元具体用于生成初始激励谱,对所述初始激励谱进行音调整形得到音调整形后的激励谱。
一种编码端,包括:
音调特征参数提取单元,用于对超宽带部分的频域信号进行音调特征分析提取音调特征参数;
量化单元,用于将所述音调特征参数进行量化编码;
其中,所述音调特征参数提取单元包括:
自相关函数单元,用于通过计算超宽带部分频域信号的自相关函数得到所述音调特征参数;
或者,所述音调特征参数提取单元包括:
计算单元,用于计算每个子带频域信号音调特征参数;
提取单元,综合提取出表征整个超宽带部分音调特征的音调特征参数。
本发明实施例采用在编码端提取原始高带信号的关键特征参数:音调特征参数,用极少的比特资源进行编码传输。在解码端,根据音调特征参数生成激励谱,并根据原始高带信号的轮廓信息最终生成重构的高带信号,实现频带扩展。由于在解码端进行高带信号的重构时,基于原始高带信号的细节特征进行操作,重构的高带信号除了轮廓和原始高带信号接近之外,在细节上有较好的匹配,通过较少的比特资源消耗就能达到较好的听觉效果。
附图说明
图1是本发明一种解码方法的第一个实施例的流程图;
图2是本发明一种解码方法的第二个实施例的流程图;
图3是本发明一种编码方法的一个实施例的流程图;
图4是本发明一种频带扩展***的一个实施例的结构图;
图5是本发明一种频带扩展解码端的一个实施例的结构图;
图6是本发明一种频带扩展编码端的一个实施例的结构图。
具体实施方式
请参阅图1为本发明一种解码方法的第一个实施例的信令流程图。
本发明实施例运用在超宽带编解码器中。编码器的输入信号是32kHz采样率,处理帧长为20ms。对输入信号进行分频带、下采样处理后,对应于0~8kHz频带的信号有320个采样点,对应于8~16kHz频带的信号有320个采样点。其中0~8kHz频带内的信号由核心编码器处理,核心编码器可以是G.729.1编解码器,也可以是其它宽带信号编解码器。
对于8~16kHz频带内的时域信号{y_hi(0),y_hi(1),……,y_hi(319)},经过MDCT变换后得到了一组MDCT系数,即该频带对应的频域信号{y_swb(0),y_swb(1),……,y_swb(319)},由于超宽带部分仅处理8~14kHz频带内的信号,所以对频域信号仅处理{y_swb(0),y_swb(1),……,y_swb(239)}。在编码端会将这组频域信号分为N个子带,提取每个子带的频域包络并量化,得到一组量化后的频域包络{spec_env(0),spec_env(1),……,spec_env},这组包络经过编码传输到解码端。
对于宽带核心编码器G.729.1,7~8kHz部分信号已不在其处理范围之内,为了确保在解码端解码信号频谱的连续性,在编码端需要提取7~8kHz部分信号的特征参数。由于G.729.1编码器对4~8kHz的信号进行了MDCT变换,对应的频域信号{y_wb(0),y_wb(1),……,y_wb(159)},其中7~8kHz对应的频域信号为{y_wb(120),y_wb(121),……,y_wb(159)},在编码端将其分为M个子带,提取每个子带的频域包络并量化,得到一组量化后的频域包络{spec_env_extra(0),spec_env_extra(1),……,spec_env_extra
Figure GDA0000097192810000041
},这组包络经过编码传输到解码端。在本实施例中N=15,M=3。
本频带扩展方法实施例包括编码方法和解码方法:先由编码端提取音调特征参数,并发送给解码端,由解码端根据音调特征参数和原始高带信号的轮廓信息重构高带信号。具体包括以下步骤:
步骤101:编码端发送提取的音调特征参数到解码端;
对超宽带部分的频域信号{spec(0),spec(1),……,spec(239)}进行音调特征分析,提取音调特征参数,并将所述音调特征参数进行量化编码,将编码传输到解码端。
具体步骤如下:
1a、计算超宽带部分频域信号的自相关函数
Figure GDA0000097192810000042
nP[MIN,MAX],在本实施例中MIN=5MAX=70。
1b、超宽带部分的音调特征参数为
Figure GDA0000097192810000043
1c、将音调特征参数tona量化,得到量化后的音调特征参数tonaq,将其编码传输至解码端。
步骤102:解码端解码得到音调特征参数;
解码端对接收到的编码进行解码后得到音调特征参数tonaq
步骤103:解码端根据音调特征参数生成激励谱;
具体可以包括以下步骤:
步骤103A:解码端生成初始激励谱;
具体为解码端根据解码重构的窄带谱和宽带谱生成初始激励谱;生成初始激励谱时可以加入随机噪声得到
Figure GDA0000097192810000051
步骤103B:解码端可以对初始激励谱进行白化,使初始激励谱的能量分布均衡;
解码端提取初始激励谱E的谱包络后,对初始激励谱进行白化,具体步骤如下:
a将初始激励谱分为7个子带,计算每个子带的平均能量,即谱包络,
Figure GDA0000097192810000052
b为了使白化后的初始激励谱有更好的连续性,对谱包络还可以进行平滑内插,得到一组归一化因子{β(0),β(1),…β(279)}。平滑内插的过程如下:
Figure GDA0000097192810000053
其中w为一个40点对称窗函数。
c对初始激励谱进行白化,白化后的初始激励谱为:
Figure GDA0000097192810000054
白化过程为:
Figure GDA0000097192810000055
103C:解码端根据原始频带信号谱对初始激励谱进行音调整形得到激励谱;需要说明的是如果初始激励谱经过了103B的白化操作,该步骤输入的初始激励谱是白化后的初始激励谱。
具体步骤如下:
a根据公式
Figure GDA0000097192810000056
由E’计算出初始激励谱的伪谱
Figure GDA0000097192810000057
b采用如下的方法计算初始激励谱的伪谱SE的音调特征参数T。
计算伪谱SE频域信号的自相关函数
Figure GDA0000097192810000061
nP[MIN,MAX],在本实施例中MIN=5MAX=70。
初始激励谱的伪谱SE的音调特征参数
Figure GDA0000097192810000062
c计算音调整形因子
Figure GDA0000097192810000064
在本实施例中
Figure GDA0000097192810000065
d利用音调整形因子对初始激励谱进行调整。具体为:如果
Figure GDA0000097192810000066
即tonaq TMT,即原始超宽带频谱的音调特性比初始激励谱的音调特性要强,则对初始激励谱进行锐化调整,即
Figure GDA0000097192810000067
得到音调整形后的激励谱
Figure GDA0000097192810000068
如果α}0,即tonaq μT,即原始超宽带频谱的音调特性比初始激励谱的音调特性要弱,则对初始激励谱自适应的加入噪声,进行平滑调整,调整过程如下:
生成随机噪声Noise={noise(0),noise(1),……,noise(279)}。
计算激励信号和噪声信号的能量,
Figure GDA0000097192810000069
根据下式对激励信号进行音调调整,
Figure GDA00000971928100000611
得到音调整形后的激励谱
Figure GDA00000971928100000612
音调整形后的激励谱的音调特性和原始超宽带信号谱的音调特性更加匹配。
步骤104:解码端可以对最终生成的激励谱进行频带调整,以获得频带更加精确的激励谱;
具体步骤如下:
Figure GDA0000097192810000071
Figure GDA0000097192810000072
对应于7~8kHz的激励信号。
Figure GDA0000097192810000073
Figure GDA0000097192810000074
对应于8~14kHz的激励信号。其中START为激励信号起始位置参数,在本实施例中START=30。
步骤105:解码端根据所述激励谱和原始高带信号中的轮廓信息(如频域包络信息)生成重构高带信号。即对激励谱进行能级匹配调整得到重构高带信号;具体步骤如下:
5a获取激励谱的频域包络(本实施例中为频域能量),即按照和编码端相同的子带划分,提取激励谱的子带能量,7~8kHz部分的激励谱子带能量为:
{excit_energy_extra(0),excit_energy_extra(1),excit_energy_extra(2)},8~14kHz部分的激励谱子带能量为{excit_energy(0),excit_energy(1),……,excit_energy(14)}。子带能量的计算过程为:
Figure GDA0000097192810000075
即对每个子带内的频谱系数求平方和。
5b解码得到原始高带信号的频域包络信息:
{spec_env_extra(0),spec_env_extra(1),spec_env_extra(2)}和{spec_env(0),spec_env(1),……,spec_env(14)}。由于频域包络代表了本子带的平均能量,所以将频域包络乘以本子带内的频谱系数的个数可以得到原始高带信号的频域能量:{orig_energy_extra(0),orig_energy_extra(1),orig_energy_extra(2)}和{orig_energy(0),orig_energy(1),……,orig_energy(14)}。
5c可以对激励谱的频域能量和原始高带信号的频域能量,按照原始高带信号的音调特征参数进行平滑处理,得到平滑后的激励谱的频域能量{excit_energy_extra_sm(0),excit_energy_extra_sm(1),excit_energy_extra_sm(2)}、{excit_energy_sm(0),excit_energy_sm(1),……,excit_energy_sm(14)}和原始高带信号的频域能量
{orig_energy_extra_sm(0),orig_energy_extra_sm(1),orig_energy_extra_sm(2)}、{orig_energy_sm(0),orig_energy_sm(1),……,orig_energy_sm(14)}。
5d根据平滑后的频域能量计算每个子带的能级匹配增益因子
Figure GDA0000097192810000081
当然,如果没有进行平滑处理,输入的为5a、5b中的频域能量。
5e对激励谱进行能级匹配整形:对每个子带的激励谱的谱系数乘以本子带相应的能级匹配增益因子,即
Figure GDA0000097192810000082
得到重构的高带激励谱,包括7~8kHz部分的重构谱{y_re_extra(0),y_re_extra(1),…,y_re_extra(39)},8~14kHz部分的重构谱{y_re(0),y_re(1),…,y_re(239)},即最终的重构高带信号,完成频带的扩展。
解码端对激励谱进行能级匹配调整,使合成谱的能量包络和原始超宽带谱相接近。
本发明实施例采用在编码端提取原始高带信号的关键特征参数:音调特征参数,用极少的比特资源进行编码传输。在解码端,根据音调特征参数生成控制重构高带信号的激励谱,并根据原始高带信号的轮廓信息(例如频域包络)最终生成重构的高带信号,实现频带扩展。由于在解码端进行高带信号的重构时,基于原始高带信号的细节特征即音调特征参数进行操作,重构的高带信号除了轮廓和原始高带信号接近之外,在细节上有较好的匹配,通过较少的比特资源消耗就能达到较好的听觉效果。
请参阅图2为本发明一种解码方法的第二个实施例的信令流程图。
本发明实施例运用在超宽带编解码器中。编码器的输入信号是32kHz采样率,处理帧长为20ms。对输入信号进行分频带、下采样处理后,对应于0~8kHz频带的信号有320个采样点,对应于8~16kHz频带的信号有320个采样点。其中0~8kHz频带内的信号由核心编码器处理,核心编码器可以是G.729.1编解码器,也可以是其它宽带信号编解码器。
对于8~16kHz频带内的时域信号{y_hi(0),y_hi(1),……,y_hi(319)},经过MDCT变换后得到了一组MDCT系数,即该频带对应的频域信号{y_swb(0),y_swb(1),……,y_swb(319)},由于超宽带部分仅处理8~14kHz频带内的信号,所以对频域信号仅处理{y_swb(0),y_swb(1),……,y_swb(239)}。在编码端会将这组频域信号分为N个子带,提取每个子带的频域包络并量化,得到一组量化后的频域包络{spec_env(0),spec_env(1),……,spec_env
Figure GDA0000097192810000091
},这组包络经过编码传输到解码端。
对于宽带核心编码器G.729.1,7~8kHz部分信号已不在其处理范围之内,为了确保在解码端解码信号频谱的连续性,在编码端需要提取7~8kHz部分信号的特征参数。由于G.729.1编码器对4~8kHz的信号进行了MDCT变换,对应的频域信号{y_wb(0),y_wb(1),……,y_wb(159)},其中7~8kHz对应的频域信号为{y_wb(120),y_wb(121),……,y_wb(159)},在编码端将其分为M个子带,提取每个子带的频域包络并量化,得到一组量化后的频域包络
{spec_env_extra(0),spec_env_extra(1),……,spec_env_extra
Figure GDA0000097192810000092
},这组包络经过编码传输到解码端。在本实施例中N=15,M=3。
本频带扩展方法实施例包括编码方法和解码方法:先由编码端提取音调特征参数,并发送给解码端,由解码端根据音调特征参数和原始高带信号的轮廓信息重构高带信号。具体包括以下步骤:
步骤201:编码端发送提取的音调特征参数到解码端;
对超宽带部分的频域信号{spec(0),spec(1),……,spec(239)}进行音调特征分析,提取音调特征参数,并将该参数量化编码,传输到解码端。
具体的提取过程如下:
(1)计算每个子带的音调特征参数
A(1)将频域信号{spec(0),spec(1),……,spec(239)}均分为K个子带,在本实施例中,K=4,第i组频域信号为:
B(1)搜索每组频域信号中的最大值并记录最大值所在位置pi
C(1)计算pioL范围内的频域包络的均值,即:
Figure GDA0000097192810000101
在本实施例中L=7。
D(1)本子带的音调特征参数为
Figure GDA0000097192810000102
(2)综合提取出表征整个超宽带部分音调特征的G个音调特征参数,在本实施例中G=2。具体为
Figure GDA0000097192810000103
其中tona0对应于{spec(0),spec(1),……,spec(119)}部分的音调特征,tona1对应于{spec(120),spec(121),……,spec(239)}部分的音调特征。
(3)将音调特征参数tonai量化,得到量化后的音调特征参数,将其编码传输至解码端。
编码端对tonai量化时,对其取值范围可以限定在1.125~4.5范围之内。
在编码端提取音调特征参数时,利用到的参数可以有多种来源,具体参数的计算也可以有多种计算方法。例如:
A其中超宽带部分的频域信号{spec(0),spec(1),……,spec(239)}可以是对原始频域信号直接取绝对值得到的{|y_swb(0)|,|y_swb(1)|,……,|y_swb(239)|},也可以是由原始频域信号经过下面的公式(1)计算得到的伪谱信号{s(0),s(1),……,s(239)}:
Figure GDA0000097192810000105
B在步骤(1)中,均值的计算也可以是根据下式计算得到
Figure GDA0000097192810000106
在步骤(1)中,子带音调特征参数的计算也可以是根据下式计算得到
Figure GDA0000097192810000107
C在步骤(2)中,音调特征参数的综合也可以根据下式计算得到
Figure GDA0000097192810000111
在步骤(2)中,音调特征参数的综合也可以根据下式计算得到
Figure GDA0000097192810000112
步骤202:解码端解码得到音调特征参数;
解码音调特征参数得到如果在编码端对tonai量化时,对其取值范围限定在1.125~4.5范围之内,在解码端可以按下式对其进行非线性的增强,
Figure GDA0000097192810000115
在本实施例中
Figure GDA0000097192810000116
通过对音调特征参数的非线性增强,可以更好的控制超宽带谱的合成。当然也可以不进行非线性增强。
步骤203:解码端根据音调特征参数生成激励谱;具体可以包括以下步骤:
步骤203A:解码端生成初始激励谱;
在解码端可以通过多种方式生成激励谱
Figure GDA0000097192810000117
可以采用例如以下方式得到激励谱:
对解码端重构的0~4kHz频带内的时域信号做MDCT变换,得到0~4kHz频带内的频域信号{y_lo(0),y_lo(1),……,y_lo(159)},以及解码得到的4~7kHz频带内的频域信号{y_h(0),y_h(1),……,y_h(119)},将这两部分谱组合构成原始激励谱{y_lo(0),y_lo(1),……,y_lo(159),y_h(0),y_h(1),……,y_h(119)}。
由于在解码端需要重构出7~8kHz的频谱,所以在激励谱中需要包含7~8kHz的激励信息,在本实施例中V=280。
步骤203B由于激励谱本身具有音调特性,为了使激励谱的音调特性和原始超宽带信号谱的音调特性相匹配,可以对初始激励谱进行音调整形,具体步骤如下:
a根据公式(1)计算出激励谱的伪谱:
b采用和编码端步骤(1)、(2)相同的方法分别得到伪谱两个子带的音调特征参数T0和T1
c将激励谱和伪谱分为两个子带,
Figure GDA0000097192810000121
Figure GDA0000097192810000122
Figure GDA0000097192810000123
计算伪谱的音调能量参数:
Figure GDA0000097192810000124
其中
Figure GDA0000097192810000125
Figure GDA0000097192810000126
d计算音调整形因子:
c利用音调整形因子对初始激励谱进行调整。具体为:令
Figure GDA0000097192810000128
Figure GDA0000097192810000129
根据激励谱的音调特性Ti和原始超宽带谱的音调特性tonai之间的关系对激励谱进行调整,
Figure GDA00000971928100001210
得到音调整形后的激励谱
Figure GDA00000971928100001211
步骤203C:解码端可以对音调整形后的激励谱进行白化,使激励谱的能量分布均衡,有利于后续的能级匹配调整;
解码端提取音调整形后的激励谱Y的谱包络,对激励谱进行白化。具体步骤如下:
a将激励谱分为7个子带,计算每个子带的平均能量,即谱包络,
b为了使白化后的谱有更好的连续性,对谱包络进行平滑内插,得到一组归一化因子{β(0),β(1),·β(279)}。平滑内插的过程如下:
其中w为一个40点对称窗函数。
c对激励谱进行白化,白化后的激励谱为:
Figure GDA0000097192810000132
白化过程为:
Figure GDA0000097192810000133
此时,便生成了最终的激励谱。当然也可以不进行白化,直接用音调整形后的激励谱作为最终的激励谱。
步骤204:解码端可以对最终生成的激励谱进行频带调整,以获得频带更加精确的激励谱;
解码端对激励谱进行频带调整采用下列公式,
Figure GDA0000097192810000135
对应于7~8kHz的激励信号。
Figure GDA0000097192810000136
Figure GDA0000097192810000137
对应于8~14kHz的激励信号。其中START为激励信号起始位置参数,在本实施例中START=30。
步骤205:解码端可以在激励谱中加入噪声谱;
为了使激励谱在谱细节上更接近原始超宽带的频谱,在原始超宽带信号的音调特征参数的控制下加入噪声谱,得到加噪之后的激励谱
Figure GDA0000097192810000138
Figure GDA0000097192810000139
具体过程如下:
5a将原始超宽带信号的音调特征参数映射在0~1的区间范围内,
Figure GDA00000971928100001310
5b计算能量增益因子ener,在本实施例中
Figure GDA0000097192810000141
5c对7~8kHz的激励信号加入噪声谱:
Figure GDA0000097192810000142
其中noise是一个在o0.5范围之内的随机数,即噪声谱。
5d对8~14kHz的激励信号加入噪声谱:
Figure GDA0000097192810000143
其中noise是一个在o0.5范围之内的随机数,即噪声谱;tona为综合音调特征参数,设置如下:
Figure GDA0000097192810000144
步骤206:解码端根据所述激励谱和原始高带信号中的轮廓信息(如频域包络信息)生成重构高带信号。即解码端对激励谱进行能级匹配调整得到重构的高带信号。
对激励谱进行能级匹配调整,使合成谱的能量包络和原始超宽带谱相接近。具体步骤如下:
6a获取激励谱的频域包络(本实施例中为频域能量),即按照和编码端相同的子带划分,提取激励谱的子带能量,7~8kHz部分的激励谱子带能量为
{excit_energy_extra(0),excit_energy_extra(1),excit_energy_extra(2)},8~14kHz部分的激励谱子带能量为
{excit_energy(0),excit_energy(1),……,excit_energy(14)}。子带能量的计算过程为:
Figure GDA0000097192810000145
即对每个子带内的频谱系数求平方和。
6b解码得到原始高带信号的频域包络信息:
{spec_env_extra(0),spec_env_extra(1),spec_env_extra(2)}和{spec_env(0),spec_env(1),……,spec_env(14)}。由于频域包络代表了本子带的平均能量,所以将频域包络乘以本子带内的频谱系数的个数可以得到原始高带信号的频域能量:{orig_energy_extra(0),orig_energy_extra(1),orig_energy_extra(2)}和{orig_energy(0),orig_energy(1),……,orig_energy(14)}。
6c可以对激励谱的频域能量和原始高带信号的频域能量,按照原始高带信号的音调特征参数进行平滑处理,得到平滑后的激励谱的频域能量{excit_energy_extra_sm(0),excit_energy_extra_sm(1),excit_energy_extra_sm(2)}、{excit_energy_sm(0),excit_energy_sm(1),……,excit_energy_sm(14)}和原始高带信号的频域能量
{orig_energy_extra_sm(0),orig_energy_extra_sm(1),orig_energy_extra_sm(2)}、{orig_energy_sm(0),orig_energy_sm(1),……,orig_energy_sm(14)}。具体处理如下:
对7~8kHz部分的频域能量:其中
Figure GDA0000097192810000152
Ni为每个子带内的频谱系数的个数,在本实施例中为8,16,16。
对8~14kHz部分的频域能量:
Figure GDA0000097192810000153
其中
Figure GDA0000097192810000156
6d根据平滑后的频域能量计算每个子带的能级匹配增益因子
Figure GDA0000097192810000161
当然,如果没有进行平滑处理,输入的为6a、6b中的频域能量。
6e对激励谱进行能级匹配整形:对每个子带的激励谱的谱系数乘以本子带相应的能级匹配增益因子,即
Figure GDA0000097192810000162
得到重构的高带激励谱,包括7~8kHz部分的重构谱{y_re_extra(0),y_re_extra(1),…,y_re_extra(39)},8~14kHz部分的重构谱{y_re(0),y_re(1),…,y_re(239)},即最终的重构高带信号,完成频带的扩展。
本发明实施例采用在编码端提取原始高带信号的关键特征参数:音调特征参数,用极少的比特资源进行编码传输。在解码端,根据音调特征参数生成控制重构高带信号的激励谱,并根据原始高带信号的轮廓信息(例如频域包络)最终生成重构的高带信号,实现频带扩展。由于在解码端进行高带信号的重构时,基于原始高带信号的细节特征即音调特征参数进行操作,重构的高带信号除了轮廓和原始高带信号接近之外,在细节上有较好的匹配,通过较少的比特资源消耗就能达到较好的听觉效果。
请参阅图3为本发明一种编码方法的一个实施例的结构图;
步骤301:对超宽带部分的频域信号进行音调特征分析提取音调特征参数;
具体步骤如下:
301A将频域信号{spec(0),spec(1),……,spec(239)}均分为K个子带,在本实施例中K=4,第i组频域信号为:
301B搜索每个子带频域信号中的最大值并记录最大值所在位置pi
301C计算pioL范围内的频域包络的均值,即:
在本实施例中L=7。
均值的计算也可以是根据下式计算得到
Figure GDA0000097192810000172
301D本子带的音调特征参数为
Figure GDA0000097192810000173
子带音调特征参数的计算也可以是根据下式计算得到
Figure GDA0000097192810000174
301E综合每个子带音调特征参数得到音调特征参数。
提取出表征整个超宽带部分音调特征的G个音调特征参数,在本实施例中G=2。具体为其中tona0对应于{spec(0),spec(1),……,spec(119)}部分的音调特征,tona1对应于{spec(120),spec(121),……,spec(239)}部分的音调特征。
音调特征参数的综合也可以根据下式计算得到
Figure GDA0000097192810000176
步骤301还可以采用下列方式完成,
计算超宽带部分频域信号的自相关函数;
计算超宽带部分频域信号的自相关函数
Figure GDA0000097192810000177
nP[MIN,MAX],在本实施例中MIN=5MAX=70。
音调特征参数为
Figure GDA0000097192810000178
步骤302:将所述音调特征参数进行量化编码。
请参阅图4为本发明一种频带扩展***的一个实施例的结构图;
编码端401,用于发送原始高带信号和音调特征参数;
编码端401对超宽带部分的频域信号{spec(0),spec(1),……,spec(239)}进行音调特征分析,提取音调特征参数,并将所述音调参数进行量化编码,将编码传输到解码端。
具体步骤如下:
a、计算超宽带部分频域信号的自相关函数
Figure GDA0000097192810000181
nP[MIN,MAX],在本实施例中MIN=5MAX=70。
b、超宽带部分的音调特征参数为
Figure GDA0000097192810000182
c、将音调特征参数tona量化,得到量化后的音调特征参数tonaq,将其编码传输至解码端。
解码端402,用于接收编码端401发送的音调特征参数和原始高带信号;根据所述音调特征参数生成激励谱;根据所述激励谱和所述原始高带信号中的轮廓信息生成重构高带信号。
解码端402进一步可以包括:
接收单元40201,用于接收编码端401发送的音调特征参数和原始高带信号;
激励谱生成单元40202,用于根据所述音调特征参数生成重构高带信号的激励谱;
高带信号生成单元40203,用于根据所述激励谱和所述原始高带信号中的轮廓信息生成重构高带信号;
激励谱生成单元40202进一步可以包括:激励谱整形单元40202a,用于生成初始激励谱,对所述初始激励谱进行整形得到音调整形后的激励谱。
激励谱生成单元40202进一步可以包括:
白化单元40202b,用于对所述初始激励谱或音调整形后的激励谱进行白化得到白化后的激励谱。
解码端402进一步可以包括:
频带调整单元40204,用于对生成的激励谱进行频带调整。
噪声加入单元40205,用于在所述激励谱中加入使激励谱更接近原始高带信号谱结构的噪声谱。
所述高带信号生成单元40203进一步还可以包括:
谱包络提取单元40203a,用于提取激励谱的谱包络;
平滑单元40203b,用于对激励谱的谱包络和原始高带信号解码谱包络进行平滑内插生成连续的频域包络;
增益因子计算单元40203c,用于根据所述频域包络计算能级匹配的增益因子;
生成单元40203d,用于根据所述增益因子对激励谱进行整形,生成重构的高带信号。
请参阅图5为本发明一种频带扩展解码端的一个实施列的结构图;包括:
接收单元501,用于接收编码端发送的音调特征参数和原始高带信号;
激励谱生成单元502,用于根据所述音调特征参数生成重构高带信号的激励谱;
高带信号生成单元503,用于根据所述激励谱和所述原始高带信号中的轮廓信息生成重构高带信号的频域信息。
所述激励谱生成单元502进一步包括:
激励谱整形单元502a,用于根据所述普特性对生成的激励谱进行整形。
白化单元502b,用于对生成的激励谱进行白化。
所述解码端还可以包括:
频带调整单元504,用于对激励谱进行频带调整。
噪声加入单元505,用于在所述激励谱中加入使激励谱更接近原始高带信号谱结构的噪声谱。
所述高带信号生成单元403进一步可以包括:
谱包络提取单元503a,用于提取激励谱的谱包络;
平滑单元503b,用于对激励谱的谱包络和原始高带信号解码谱包络进行平滑内插生成连续的频域包络;
增益因子计算单元503c,用于根据所述频域包络计算能级匹配的增益因子;
生成单元503d,用于根据所述增益因子对激励谱进行整形,生成重构的高带信号。
请参阅图6为本发明一种频带扩展编码端的一个实施例的结构图;该编码端可以应用在图4所示的***中,其包括:
音调特征参数提取单元601,用于对超宽带部分的频域信号进行音调特征分析提取音调特征参数;
具体步骤如下:
将频域信号{spec(0),spec(1),……,spec(239)}均分为K个子带,在本实施例中K=4,第i组频域信号为:
Figure GDA0000097192810000201
搜索每个子带频域信号中的最大值
Figure GDA0000097192810000202
并记录最大值所在位置pi
计算pioL范围内的频域包络的均值,即:
在本实施例中L=7。
均值的计算也可以是根据下式计算得到
本子带的音调特征参数为
Figure GDA0000097192810000205
子带音调特征参数的计算也可以是根据下式计算得到
Figure GDA0000097192810000206
综合每个子带音调特征参数得到音调特征参数。
提取出表征整个超宽带部分音调特征的G个音调特征参数,在本实施例中G=2。具体为其中tona0对应于{spec(0),spec(1),……,spec(119)}部分的音调特征,tona1对应于{spec(120),spec(121),……,spec(239)}部分的音调特征。
音调特征参数的综合也可以根据下式计算得到
Figure GDA0000097192810000212
还可以采用下列方式完成:
计算超宽带部分频域信号的自相关函数;
计算超宽带部分频域信号的自相关函数
Figure GDA0000097192810000213
nP[MIN,MAX],在本实施例中MIN=5MAX=70。
音调特征参数为
Figure GDA0000097192810000214
量化单元602,用于将所述音调特征参数进行量化编码发送所述音调特征参数。
其中,音调特征参数提取单元601可以包括:
自相关函数单元601a,用于通过计算超宽带部分频域信号的自相关函数得到音调特征参数。
音调特征参数提取单元601可以包括:
计算单元601b,用于计算每个子带频域信号音调特征参数;
提取单元601c,综合提取出表征整个超宽带部分音调特征的音调特征参数。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上对本发明实施例所提供的频带扩展方法以及***和设备进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (15)

1.一种音频信号解码方法,其特征在于,包括:
获取来自编码端的音调特征参数和原始高带信号;
根据所述音调特征参数生成激励谱;
根据所述激励谱和所述原始高带信号中的轮廓信息生成重构高带信号;
其中,所述根据所述音调特征参数生成激励谱包括:生成初始激励谱;对所述初始激励谱进行音调整形得到音调整形后的激励谱。
2.根据权利要求1所述的解码方法,其特征在于,所述对所述初始激励谱进行音调整形得到音调整形后的激励谱包括:
计算初始激励谱的伪谱;
计算初始激励谱的伪谱的音调特征参数;
根据所述音调特征参数和所述伪谱的音调特征参数计算音调整形因子;
利用所述音调整形因子对初始激励谱进行调整。
3.根据权利要求1所述的解码方法,其特征在于,所述根据所述音调特征参数生成激励谱进一步包括:对所述初始激励谱或音调整形后的激励谱进行白化得到白化后的激励谱。
4.根据权利要求1或3所述的解码方法,其特征在于,所述根据所述音调特征参数生成激励谱后进一步包括:对生成的所述激励谱进行频带调整。
5.根据权利要求1或3所述的解码方法,其特征在于,所述根据所述音调特征参数生成激励谱后进一步包括:在所述激励谱中加入噪声谱。
6.根据权利要求1或3所述的解码方法,其特征在于,所述根据激励谱和原始高带信号中的轮廓信息生成重构高带信号包括:
获取所述激励谱的频域包络和原始高带信号的频域包络;
根据所述频域包络计算能级匹配的增益因子;
根据所述增益因子对所述激励谱进行整形,生成重构的高带信号。
7.根据权利要求6所述的解码方法,其特征在于,所述获取所述激励谱的频域包络和原始高带信号的频域包络之后进一步包括:
对所述激励谱的频域包络和所述原始高带信号的频域包络进行平滑处理,得到平滑后的激励谱的频域包络和原始高带信号的频域包络。
8.一种音频信号编码方法,其特征在于:
对超宽带部分的频域信号进行音调特征分析提取音调特征参数;
将所述音调特征参数进行量化编码;
其中,所述对超宽带部分的频域信号进行音调特征分析提取音调特征参数包括:通过计算超宽带部分频域信号的自相关函数得到所述音调特征参数;
或者,所述对超宽带部分的频域信号进行音调特征分析提取音调特征参数包括:
计算每个子带频域信号音调特征参数;
综合提取出表征整个超宽带部分音调特征的音调特征参数。
9.根据权利要求8所述的编码方法,其特征在于,所述计算每个子带频域信号音调特征参数包括:
将频域信号平均分成多个子带频域信号;
搜索每个子带频域信号的最大值和所在位置;
计算每个子带频域信号最大值设定范围内的频域包络平均值;
子带频域信号的音调特征参数为子带频域信号最大值与频域包络平均值的比值。
10.一种音频信号的频带扩展***,其特征在于,包括:
音频信号编码装置,用于发送原始高带信号和音调特征参数;
音频信号解码装置,用于接收所述音频信号编码装置发送的音调特征参数和原始高带信号;根据所述音调特征参数生成激励谱;根据所述激励谱和所述原始高带信号中的轮廓信息生成重构高带信号;
其中,所述根据所述音调特征参数生成激励谱包括:生成初始激励谱;对所述初始激励谱进行音调整形得到音调整形后的激励谱。
11.一种音频信号解码装置,其特征在于包括:
接收单元,用于接收音调特征参数和原始高带信号;
激励谱生成单元,用于根据所述音调特征参数生成激励谱;
高带信号生成单元,用于根据所述激励谱和所述原始高带信号中的轮廓信息生成重构高带信号;
其中,所述激励谱生成单元具体用于生成初始激励谱,对所述初始激励谱进行音调整形得到音调整形后的激励谱。
12.根据权利要求11所述的音频信号解码装置,其特征在于,所述激励谱生成单元包括:
白化单元,用于对所述初始激励谱或音调整形后的激励谱进行白化得到白化后的激励谱。
13.根据权利要求11或12所述的音频信号解码装置,其特征在于所述音频信号解码装置进一步包括:
频带调整单元,用于对生成的所述激励谱进行频带调整。
14.根据权利要求11或12所述的音频信号解码装置,其特征在于,所述音频信号解码装置进一步包括:
噪声加入单元,用于在所述激励谱中加入噪声谱。
15.一种音频信号编码装置,其特征在于,包括:
音调特征参数提取单元,用于对超宽带部分的频域信号进行音调特征分析提取音调特征参数;
量化单元,用于将所述音调特征参数进行量化编码;
其中,所述音调特征参数提取单元包括:
自相关函数单元,用于通过计算超宽带部分频域信号的自相关函数得到所述音调特征参数;
或者,所述音调特征参数提取单元包括:
计算单元,用于计算每个子带频域信号音调特征参数;
提取单元,综合提取出表征整个超宽带部分音调特征的音调特征参数。
CN 200810130702 2008-06-30 2008-06-30 频带扩展的方法、***和设备 Active CN101620854B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN 200810130702 CN101620854B (zh) 2008-06-30 2008-06-30 频带扩展的方法、***和设备
PCT/CN2009/072371 WO2010000179A1 (zh) 2008-06-30 2009-06-22 频带扩展的方法、***和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200810130702 CN101620854B (zh) 2008-06-30 2008-06-30 频带扩展的方法、***和设备

Publications (2)

Publication Number Publication Date
CN101620854A CN101620854A (zh) 2010-01-06
CN101620854B true CN101620854B (zh) 2012-04-04

Family

ID=41465494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200810130702 Active CN101620854B (zh) 2008-06-30 2008-06-30 频带扩展的方法、***和设备

Country Status (2)

Country Link
CN (1) CN101620854B (zh)
WO (1) WO2010000179A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194458B (zh) * 2010-03-02 2013-02-27 中兴通讯股份有限公司 频带复制方法、装置及音频解码方法、***
US20130024191A1 (en) * 2010-04-12 2013-01-24 Freescale Semiconductor, Inc. Audio communication device, method for outputting an audio signal, and communication system
CN102339607A (zh) * 2010-07-16 2012-02-01 华为技术有限公司 一种频带扩展的方法和装置
EP2774145B1 (en) * 2011-11-03 2020-06-17 VoiceAge EVS LLC Improving non-speech content for low rate celp decoder
CN104517610B (zh) * 2013-09-26 2018-03-06 华为技术有限公司 频带扩展的方法及装置
CN113539281A (zh) * 2020-04-21 2021-10-22 华为技术有限公司 音频信号编码方法和装置
CN113963703A (zh) * 2020-07-03 2022-01-21 华为技术有限公司 一种音频编码的方法和编解码设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1185616A (zh) * 1996-10-24 1998-06-24 索尼公司 音频带宽扩展***和方法
CN1297222A (zh) * 1999-09-29 2001-05-30 索尼公司 信息处理设备、方法和记录媒体
CN1397064A (zh) * 2000-01-28 2003-02-12 艾利森电话股份有限公司 修改语音信号的***和方法
EP1701340A3 (en) * 2001-11-14 2006-10-18 Matsushita Electric Industrial Co., Ltd. Encoding device and decoding device
CN101180677A (zh) * 2005-04-01 2008-05-14 高通股份有限公司 用于宽频带语音编码的***、方法和设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020128839A1 (en) * 2001-01-12 2002-09-12 Ulf Lindgren Speech bandwidth extension
JP2003255973A (ja) * 2002-02-28 2003-09-10 Nec Corp 音声帯域拡張システムおよび方法
CN101023472B (zh) * 2004-09-06 2010-06-23 松下电器产业株式会社 可扩展编码装置和可扩展编码方法
JP4977471B2 (ja) * 2004-11-05 2012-07-18 パナソニック株式会社 符号化装置及び符号化方法
EP1772855B1 (en) * 2005-10-07 2013-09-18 Nuance Communications, Inc. Method for extending the spectral bandwidth of a speech signal

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1185616A (zh) * 1996-10-24 1998-06-24 索尼公司 音频带宽扩展***和方法
CN1297222A (zh) * 1999-09-29 2001-05-30 索尼公司 信息处理设备、方法和记录媒体
CN1397064A (zh) * 2000-01-28 2003-02-12 艾利森电话股份有限公司 修改语音信号的***和方法
EP1701340A3 (en) * 2001-11-14 2006-10-18 Matsushita Electric Industrial Co., Ltd. Encoding device and decoding device
CN101180677A (zh) * 2005-04-01 2008-05-14 高通股份有限公司 用于宽频带语音编码的***、方法和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JP特开2003-255973A 2003.09.10

Also Published As

Publication number Publication date
CN101620854A (zh) 2010-01-06
WO2010000179A1 (zh) 2010-01-07

Similar Documents

Publication Publication Date Title
CN101620854B (zh) 频带扩展的方法、***和设备
CN1838238B (zh) 一种用于增强信源解码器的设备
CN1942928B (zh) 用于处理音频信号的模块和方法
KR102070432B1 (ko) 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치
US9135923B1 (en) Pitch synchronous speech coding based on timbre vectors
CN101662288B (zh) 音频编码、解码方法及装置、***
JP6980871B2 (ja) 信号符号化方法及びその装置、並びに信号復号方法及びその装置
CN101727906B (zh) 高频带信号的编解码方法及装置
CN105070293A (zh) 基于深度神经网络的音频带宽扩展编码解码方法及装置
JP2010538316A (ja) 改良された音声及びオーディオ信号の変換符号化
TWI713927B (zh) 使用尺度參數之降低取樣或內插來編碼及解碼音訊信號之設備及方法
CN102947881A (zh) 解码装置、编码装置和解码方法、编码方法
US10902860B2 (en) Signal encoding method and apparatus, and signal decoding method and apparatus
KR20210131926A (ko) 신호 부호화방법 및 장치와 신호 복호화방법 및 장치
EP2980801A1 (en) Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
CN101192410A (zh) 一种在编解码中调整量化质量的方法和装置
CN102169694B (zh) 生成心理声学模型的方法及装置
CN101740033B (zh) 一种音频编码方法和音频编码器
CN1312463C (zh) 一种产生lsf矢量的方法和装置
TW202211208A (zh) 對多頻道音頻信號的頻道使用比例參數的聯合編碼的音頻解碼器、音頻編碼器和相關方法
JP2003044096A (ja) マルチチャンネルオーディオ信号符号化方法、マルチチャンネルオーディオ信号符号化装置、記録媒体および音楽配信システム
Radha et al. Comparative analysis of compression techniques for Tamil speech datasets
Singh et al. An Enhanced Low Bit Rate Audio Codec Using Discrete Wavelet Transform
KR20160098597A (ko) 통신 시스템에서 신호 코덱 장치 및 방법
Hang et al. A Novel Low Bit Rate Audio Bandwidth Extension Method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201216

Address after: No.23, XINER Road, Chengbei Industrial Park, Jingjiang Economic Development Zone, Taizhou City, Jiangsu Province, 214500

Patentee after: JIANGSU RUISHEN CHEMICAL MACHINERY SCIENCE AND TECHNOLOGY Co.,Ltd.

Address before: Unit 2414-2416, main building, no.371, Wushan Road, Tianhe District, Guangzhou City, Guangdong Province

Patentee before: GUANGDONG GAOHANG INTELLECTUAL PROPERTY OPERATION Co.,Ltd.

Effective date of registration: 20201216

Address after: Unit 2414-2416, main building, no.371, Wushan Road, Tianhe District, Guangzhou City, Guangdong Province

Patentee after: GUANGDONG GAOHANG INTELLECTUAL PROPERTY OPERATION Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220629

Address after: 214500 No. 18 Shannan Road, Chengbei Park, Jingjiang City, Taizhou City, Jiangsu Province

Patentee after: Jingjiang City Huaxin Technology Park Co.,Ltd.

Address before: No.23, XINER Road, Chengbei Industrial Park, Jingjiang Economic Development Zone, Taizhou City, Jiangsu Province, 214500

Patentee before: JIANGSU RUISHEN CHEMICAL MACHINERY SCIENCE AND TECHNOLOGY CO.,LTD.