CN102339607A - 一种频带扩展的方法和装置 - Google Patents
一种频带扩展的方法和装置 Download PDFInfo
- Publication number
- CN102339607A CN102339607A CN2010102330332A CN201010233033A CN102339607A CN 102339607 A CN102339607 A CN 102339607A CN 2010102330332 A CN2010102330332 A CN 2010102330332A CN 201010233033 A CN201010233033 A CN 201010233033A CN 102339607 A CN102339607 A CN 102339607A
- Authority
- CN
- China
- Prior art keywords
- frequency band
- high frequency
- statistical property
- property classification
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 239000011159 matrix material Substances 0.000 claims abstract description 42
- 239000013598 vector Substances 0.000 claims abstract description 42
- 238000009499 grossing Methods 0.000 claims description 48
- 230000002123 temporal effect Effects 0.000 claims description 32
- 239000012141 concentrate Substances 0.000 claims description 6
- 230000007704 transition Effects 0.000 abstract description 14
- 230000008447 perception Effects 0.000 abstract description 8
- 238000012805 post-processing Methods 0.000 abstract description 5
- 238000012549 training Methods 0.000 description 13
- 230000003044 adaptive effect Effects 0.000 description 9
- 238000007493 shaping process Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 238000013459 approach Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000005086 pumping Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012792 core layer Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明实施例公开了一种频带扩展的方法和装置,以方法的实现为例,包括:获取低频带信号的特征矢量;根据所述特征矢量及预设的统计特性分类特征矢量集对对所述低频带信号进行分类,得到统计特性分类结果;根据所述统计特性分类结果、特征矢量以及预设的统计特性分类状态转移矩阵,得到预估的高频带参数;根据所述统计特性分类结果及预设的后处理平滑因子集,对所述预估的高频带参数进行调整,得到调整后的高频带参数;根据调整后的高频带参数,重建高频带信号。上述方法,使得获得的扩展频带参数信息更加有针对性,帧间过渡更加平滑,得到的扩展出的信号具有更高的听觉感受。
Description
技术领域
本发明涉及通信技术领域,特别涉及一种频带扩展的方法和装置。
背景技术
随着承载技术的发展,人们越来越不满足于窄带语音编解码器的质量,因此语音编解码器已逐步向宽带(Windband,WB)、超宽带(Super Windband,SWB)扩展。例如国际电信联盟(International Telecommunication Union,ITU)推出了G.722、G.722.1、G.722.2、G.729.1等宽带语音编解码标准,第三代移动通信伙伴项目(Third Generation Partnership Project,3GPP)推出了自适应多速率宽带(Adaptive Multi-Rate Windband,AMR-WB)(即ITU的G.722.2)这一宽带语音编解码标准,3GPP2则推出了变速率多模式宽带(Variable-Rate Multimode Windband,VMR-WB)。此外ITU最近又提出了G.729.1&G.718联合超宽带,G.711、WB&G.722联合超宽带等。这些标准都是从窄带扩展而来的,核心层一般为码激励线性预测(Code-ExcitedLinear-Prediction,CELP)编码,而宽带、超宽带部分使用变换编码技术。变换编码有很多,例如修正的离散余弦变换(Modified Discrete CosineTransform,MDCT),变换码激励(Transform Coded exciation,TCX)等。
频带扩展在语音/音频编码领域非常广泛的使用,可以有效地提高限带语音/音乐的感知质量,在终端上使用的基于频带扩展的质量增强技术就是一类很好的应用实例。频带扩展技术还被广范应用于嵌入式变速率语音编码器中,特别是在传输信道条件发生变化时产生的音频带宽切换。常见的带宽切换主要有窄带(Narrow band,NB)、宽带、超宽带、全带(Full Band,FB)之间的切换。
实现频带扩展的方法可以分为有边信息的频带扩展和无边信息的频带扩展两种。有边信息的频带扩展需要在编码端提取待扩展频带的一些特征信息,并将这些信息产送到解码端,指导解码端进行相应的频带扩展。无边信息的频带扩展又称为盲扩,不需要在编码端提取信息,只需要根据解码端得到的部分频带的信息通过一定的估计算法人工产生所需扩展频带的信息。
频带扩展的方法还可以分为基于时域的扩展和基于频域的扩展。基于时域的扩展通常是基于解码端得到的部分频带的时域信息进行时域及频域的整形后得到所需扩展频带的时域信息,从而实现频带扩展。基于频域的扩展通常是基于解码端得到的部分频带的频域信息进行频域及时域的整形后得到所需扩展频带的频域信息,从而实现频带扩展。
目前,无边信息的频带扩展技术一般在时域进行的处理,其中有一种方法是基于统计特性的分段线性映射频带扩展法。这种方法的实现步骤:
1、提取解码得到的部分频带的特征矢量;
2、通过对提取的特征矢量与频带扩展前预先训练得到的统计特性分类特征矢量集进行比较,对信号进行分类;上述训练是指:根据一定的规则,从一个数据集中间提取出有用信息,使用这些有用信息的指导将这些数据分成不同的类,对于同一类的数据用其对应的一个有用信息来表示。
3、根据上述分的类对应的预先设定的状态转移矩阵,得到所需扩展频带的参数信息,从而实现频带扩展。
发明人在实现本发明的过程中发现:由于将信号分成有限的几类,因此可以生成的扩展频带的参数信息只有有限的几种,无法适配广泛的信号特征,致使帧间过渡不平滑,导致听觉感受差。
发明内容
本发明实施例要解决的技术问题是提供一种频带扩展的方法和装置,提高听觉感受。
为解决上述技术问题,本发明所提供的频带扩展的方法实施例可以通过以下技术方案实现:
获取低频带信号的特征矢量;
根据所述特征矢量及预设的统计特性分类特征矢量集对对所述低频带信号进行分类,得到统计特性分类结果;
根据所述统计特性分类结果、特征矢量以及预设的统计特性分类状态转移矩阵,得到预估的高频带参数;
根据所述统计特性分类结果及预设的后处理平滑因子集,对所述预估的高频带参数进行调整,得到调整后的高频带参数;
根据调整后的高频带参数,重建高频带信号。
一种频带扩展的装置,包括:
矢量获取单元,用于获取低频带信号的特征矢量;
分类单元,用于根据所述特征矢量及预设的统计特性分类特征矢量集对对所述低频带信号进行分类,得到统计特性分类结果;
预估单元,用于根据所述统计特性分类结果、特征矢量以及预设的统计特性分类状态转移矩阵,得到预估的高频带参数;
调整单元,用于根据所述统计特性分类结果及预设的后处理平滑因子集,对所述预估的高频带参数进行调整,得到调整后的高频带参数;
信号重建单元,用于根据调整后的高频带参数,重建高频带信号。
上述技术方案具有如下有益效果:在基于统计特性的分段线性映射频带扩展算法的基础上增加了一个自适应后处理,该方法有效地利用了分段线性映射频带扩展算法中获得的分类信息,对分段线性映射频带扩展算法得到的扩展频带的参数信息按类再进行自适应的后处理,使得获得的扩展频带参数信息更加有针对性,帧间过渡更加平滑,得到的扩展出的信号具有更高的听觉感受。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一方法流程示意图;
图2为本发明实施例二方法流程示意图;
图3为本发明实施例三方法流程示意图;
图4为本发明实施例四装置结构示意图;
图5为本发明实施例四装置结构示意图;
图6为本发明实施例四装置结构示意图;
图7为本发明实施例四装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一,本发明实施例提供了一种频带扩展的方法,如图1所示,包括:
101:获取低频带信号的特征矢量;
具体地,上述特征矢量可以包括:时域包络和线性预测系数,上述时域包络表示时域内各子帧信号的能量大小,上述线性预测系数表示信号的共振峰位置及幅度。当然上述特征矢量还可以包括:低频带信号的频域包络、频域线性预测系数等参数对此本发明实施例不予限定。
102:根据上述特征矢量及预设的统计特性分类特征矢量集对上述低频带信号进行分类,得到统计特性分类结果;
103:根据上述统计特性分类结果、特征矢量以及预设的统计特性分类状态转移矩阵,得到预估的高频带参数;
具体地,上述103中,根据统计特性分类结果、特征矢量以及预设的统计特性分类状态转移矩阵,得到预估的高频带参数包括:
根据上述统计特性分类结果,在预设的统计特性分类状态转移矩阵中查询上述分类结果对应的状态转移矩阵;根据上述状态转移矩阵以及上述特征矢量得到预估的高频带参数。
当然上述根据得到的统计特性分类结果、低频带信号的特征矢量以及预设的统计特性分类状态转移矩阵,得到预估的高频带参数,还可以有其他方式,例如以下两种方式:(1)根据得到的统计特性分类结果,在预设的统计特性分类状态转移矩阵中查询该分类结果对应的状态转移矩阵;根据得到的统计特性分类结果对应的状态转移矩阵乘以低频带信号的特征矢量,得到预估的高频带参数。(2)根据得到的统计特性分类结果,在预设的统计特性分类状态转移矩阵中查询该分类结果对应的状态转移映射索引值;根据得到状态转移映射索引值查表得到对应的预估的高频带参数。
具体地,上述高频带参数可以包括:时域包络和频域包络;上述时域包络表示时域内各子帧信号的能量大小,上述频域包络表示频域内各子带信号的增益大小。当然上述高频带参数还可以包括:高频带信号的时域线性预测系数、频域线性预测系数等参数对此本发明实施例不予限定。
104:根据上述统计特性分类结果及预设的后处理平滑因子集,对上述预估的高频带参数进行调整,得到调整后的高频带参数;
若所述高频带参数包括:时域包络和频域包络;所述后处理因子参数,包括:帧内平滑因子;则所述对预估的高频带参数进行调整,得到调整后的高频带参数可以为:根据统计特性分类对应的帧内平滑因子,调整预估的高频带参数中的时域包络参数和频域包络参数,得到调整后的高频带参数。
具体地,上述根据统计特性分类结果及预设的后处理平滑因子集,对上述预估的高频带参数进行调整包括:根据上述统计特性分类结果,在预设的后处理平滑因子集中查询上述统计特性分类结果对应的后处理因子参数;根据与上述统计特性分类结果对应的后处理因子参数,调整上述预估的高频带参数,得到调整后的高频带参数。
当然,上述根据得到的分类结果及预设的后处理平滑因子集,对预估的高频带参数进行调整的方法还可以有其他的方式,例如如下3个举例:(1)根据得到的统计特性分类结果,在预设的后处理平滑因子集中查询该分类结果对应的后处理因子参数;根据与得到的统计特性分类结果相对应的后处理因子参数,根据后处理因子参数对预估的高频带参数进行帧内和/或帧间平滑,自适应地调整预估的高频带参数,得到调整后的高频带参数。(2)根据得到的统计特性分类结果,在预设的后处理平滑因子集中查询该分类结果对应的后处理因子参数;根据与得到的统计特性分类结果相对应的后处理因子参数,根据后处理因子参数对预估的高频带参数进行参数衰减或增强,自适应地调整预估的高频带参数,得到调整后的高频带参数。(3)根据得到的统计特性分类结果,在预设的后处理平滑因子集中查询该分类结果对应的后处理因子参数;根据与得到的统计特性分类结果相对应的后处理因子参数,根据后处理因子参数对预估的高频带参数进行帧内和/或帧间平滑,并进行参数衰减或增强,自适应地调整预估的高频带参数,得到调整后的高频带参数。
105:根据上述调整后的高频带参数,重建高频带信号。
具体地,上述后处理因子参数可以包括:帧内平滑因子和帧间平滑因子。
更具体地,上述调整预估的高频带参数包括:根据统计特性分类对应的帧内平滑因子,调整预估的高频带参数中的时域包络参数;根据统计特性分类对应的帧间平滑因子,初步调整预估的高频带参数中的频域包络参数;根据统计特性分类对应的帧内平滑因子,对初步调整后的高频带频域包络参数进行再调整,得到调整后的高频带参数。
上述方法的执行主体可以是任何进行频带扩展的装置,本发明实施例提供的方法在基于统计特性的分段线性映射频带扩展算法的基础上增加了一个自适应后处理,该方法有效地利用了分段线性映射频带扩展算法中获得的分类信息,对分段线性映射频带扩展算法得到的扩展频带的参数信息按类再进行自适应的后处理,使得获得的扩展频带参数信息更加有针对性,帧间过渡更加平滑,得到的扩展出的信号具有更高的听觉感受。
实施例二,本发明实施例还给出了频带扩展的方法更具体的实例,如图2所示,包括如下步骤:
201:解码得到低频带信号;
202:提取低频带信号的特征矢量Xf。
特征矢量可以有各种组合方式,只需要能够反映低频带信号的特征即可。例如,特征矢量可以包含低频带信号的时域包络和线性预测系数,也可以包含低频带信号的时域包络和频域包络。
203:根据得到的低频带信号的特征矢量Xf以及预设的统计特性分类特征矢量集Xf,j(j∈{1,…,M}),对低频带信号进行分类,得到统计特性分类i。
具体实现可以使用矢量量化的方法,将预设的统计特性分类特征矢量集作为码书,在码书中搜索与特征矢量Xf距离最小的码字,该码字在码书中对应的索引即为统计特性分类i:码书是一个数组,包含了顺序排列的M个分类对应的分类特征矢量,每一个特征矢量就是一个码字,M个特征矢量就是M个码字。码字的索引表示该码字在码书中的位置,索引对应了分类号。
其中||·||2表示计算均方误差。
上述高频带参数可以有不同的组合方式,只要能够反映出高频带信号的特征即可。例如,高频带参数可以包含高频带信号的时域包络和线性预测系数,也可以包含高频带信号的时域包络和频域包络。需要说明的是高频带参数与上文中的特征矢量的组合方式是可以不一致的,不影响本发明实施例的实现。
上述预设的后处理因子集可以有不同的组合方式,可以只包含帧间平滑因子,也可以包含帧间平滑因子和帧内平滑因子,还可以包含状态跳变因子等不同的后处理因子。预设的后处理因子集中的各参量可以分别针对不同的统计特性分类,从而体现后处理方法的自适应特性及充分运用统计特性分类的特点。
206:根据调整后的高频带参数重建高频带信号。
根据得到的高频带参数重建高频带信号,主要依据高频带参数包含的具体内容,例如,高频带参数包含了时域包络和频域包络时,可以采用频域频带扩展的方法,对低频带的频域谱按照频域包络整形后变换到时域,再根据时域包络进行整形得到重建的高频带信号;也可以采用时域频带扩展的方法,对低频带的时域激励信号按照时域包络进行整形后变换到频域,再根据频域包络进行整形,最后再变换回时域,得到重建的高频带信号。高频带参数包含了高频带线性预测系数时,可以用低频带的时域激励信号经过高频带线性预测系数构成的合成滤波器,得到重建的高频带信号。
以下对预设的统计特性分类特征矢量集、预设的统计特性分类状态转移矩阵集和预设的后处理因子集,是根据大量信号的统计特性得到的,具体的训练方法如下:
首先,从训练集中提取出每一个信号的低频带特征矢量以及相应的高频带参数矢量,分别组成低频带特征矢量训练集和高频带参数矢量训练集;上述训练集为用于训练的数据集,该数据集为预先选定的语音/音频语料。
然后,根据不同的统计特征,按照聚类的方法,从低频带特征矢量训练集中训练得到低频带特征矢量集Xf,j(j∈{1,…,M}),同时根据统计特性分类特征矢量集的聚类得到相应的高频带参数矢量集Yf,j(j∈{1,…,M})。
根据每一个统计特征分类j∈{1,…,M}对应的训练数据(统计特征分类j对应的低频带特征矢量Xj和高频带参数矢量Yi),计算对应的状态转移矩阵:
Hj=Xj +·Yj=(Xj TXj)-1Xj T·Yj
Xj +表示求矢量Xj的伪逆运算,Xj +=(Xj TXj)-1Xj T。每一个统计特征分类j∈{1,…,M}对应的状态转移矩阵就构成了状态转移矩阵集Hj(j∈{1,…,M})。
计算每一个统计特征分类对应的可靠性因子,并将其作为后处理因子集中的参数。上述可靠性因子为αi。后处理因子的范围更加宽泛,可以只包含αi,也可以包含除可靠性因子外的其他因子。统计特征分类i对应的平均分类误差为:
其中表示属于第i个统计特征分类的第n个预估高频带矢量的第1个分量,表示属于第i个统计特征分类的第n个实际高频带参数矢量的第1个分量,N为训练集中属于第i个统计特征分类的所有矢量的个数,Ny为高频带参数矢量的维数。
根据统计特征分类i对应的平均分类误差可以得到统计特征分类i对应的可靠性因子:
其中c为常数。
实际应用中,可以只计算一组可靠性因子αi;也可以针对高频带参数矢量中包含的不同的参数,分别计算几组可靠性因子如αi、βi等,组成可靠性因子矢量并将其作为后处理因子集,对与可靠性因子的组数本发明实施例不予限定。使用多组可靠性因子的实例,例如,如果高频带参数矢量中包含了时域包络参数和频域包络参数,可以使用上面的方法分别计算每一个统计特征分类对应的可靠性因子记作αi和βi,组成可靠性因子矢量{αi,βi}。
在上述实例中,训练好的低频带特征矢量集Xf,j(j∈{1,…,M})即为预设的统计特性分类特征矢量集,训练好的状态转移矩阵集Hj(j∈{1,…,M})即为预设的统计特性分类状态转移矩阵集,训练好的后处理因子集即为预设的后处理因子集。
本发明实施例提供的方法在基于统计特性的分段线性映射频带扩展算法的基础上增加了一个自适应后处理,该方法有效地利用了分段线性映射频带扩展算法中获得的分类信息,对分段线性映射频带扩展算法得到的扩展频带的参数信息按类再进行自适应的后处理,使得获得的扩展频带参数信息更加有针对性,帧间过渡更加平滑,得到的扩展出的信号具有更高的听觉感受。
实施例三、本实施例提供一个应用在超宽带解码器中从宽带到超宽带的频带扩展方法,可以理解的是本实施例的方法也可以应用于从窄带到宽带,从窄带到超宽带的扩展,本实施例作为一个实例不应理解为对本发明实施例的限定。本实施例中低频带信号即为宽带信号,信号带宽为0~7KHz,高频带信号即为超宽带信号,信号带宽为7~14KHz。合成信号采样率32KHz,信号以20ms为一帧,即N=160点/帧。具体频带扩展的方法如图3所示,包括如下步骤:
301:解码得到宽带信号,并提取宽带信号的特征矢量Xf。
根据超宽带解码器中宽带解码方法,得到当前帧的宽带解码信号,记作xn。本实施例中,宽带信号的特征矢量以包含宽带信号的时域包络以及线性预测系数为例进行说明。首先,求解宽带信号的N阶线性预测系数LPClow={LPClow(0),LPClow(1),…,LPClow(K-1)},具体方法可以使用莱文迅-杜宾算法。本实施例中K=64,当然也可以选取其他的阶数。然后,计算时域包络:将一帧信号分成L个子帧,每一子帧N/L个样点,分别计算每一子帧的能量,用L个子帧的能量作为信号的时域包络Elow={Elow(0),Elow(1),…,Elow(L-1)},其中第i个子帧的能量Elow(i):
本实施例中L=8,当然也可以选取其他的时域子帧划分方式。
那么,宽带信号的特征矢量Xf可以记作:
Xf={Elow(0),Elow(1),…,Elow(L-1),LPClow(0),LPClow(1),…,LPClow(N-1)}
302:根据得到的宽带信号的特征矢量Xf以及预设的统计特性分类特征矢量集Xf,j(j∈{1,…,M}),对宽带信号进行分类,得到统计特性分类i。
得到统计特性分类i具体实现可以使用矢量量化的方法,将预设的统计特性分类特征矢量集作为码书,在码书中搜索与特征矢量Xf距离最小的码字,该码字对应的索引即为统计特性分类i:
其中||·||2表示计算均方误差,本实施例中M=8。
其中表示对统计特性分类i对应的统计特性分类状态转移矩阵Hi计算转置。超宽带参数可以有不同的组合方式,只要能够反映出超宽带信号的特征即可。在本实施例中,超宽带参数包含了超宽带信号的时域包络和频域包络。预估超宽带参数可以记作:
其中Ehigh(0),Ehigh(1),…,Ehigh(L-1)为超宽带信号的预估时域包络参数,Ehigh(i)表示第i个子帧的时域能量参数,i=0,…,L-1,本实施例中L=8,当然也可以选取其他的时域子帧划分方式。Ghigh(0),Ghigh(1),…,Ghigh(P-1)为超宽带信号的预估频域包络参数,Ghigh(i)表示第i个子带的频域增益因子,i=0,…,P-1,本实施例中P=18,当然也可以选取其他的频域子带划分方式。
预设的后处理因子集可以有不同的组合方式,可以只包含帧间平滑因子,也可以包含帧间平滑因子和帧内平滑因子,还可以包含状态跳变因子等不同的后处理因子。预设的后处理因子集中的各参量分别针对不同的统计特性分类,体现了后处理方法的自适应特性及充分运用了统计特性分类的特点。本实施例中,后处理因子集包含了帧内平滑因子集和帧间平滑因子集。统计特性分类i对应的帧内平滑因子记作αi,帧间平滑因子记作βi。根据统计特性分类i及预设的后处理因子集,对预估超宽带参数进行自适应调整的过程包括:
(1)根据统计特性分类i对应的帧内平滑因子αi,调整预估超宽带参数中的时域包络参数。
(2)根据统计特性分类i对应的帧间平滑因子βi,初步调整预估超宽带参数中的频域包络参数。
(3)根据统计特性分类i,对初步调整后的超宽带频域包络参数进行再调整。
其中const为常数因子,本实施例中const为超宽带频域自带能量的统计平均值。
那么调整后的超宽带参数记作:
305:根据调整后的超宽带参数重建高频带信号。
根据得到的超宽带参数重建超宽带信号,主要依据超宽带参数包含的具体内容。本实施例中,超宽带参数包含了时域包络和频域包络,可以采用频域频带扩展的方法,首先复制宽带的频域谱作为超宽带谱,然后按照调整后的频域包络对超宽带谱进行整形,整形后将超宽带谱信号变换到时域,再根据调整后的时域包络进行时域整形,得到重建的高频带信号。
本发明实施例提供的方法在基于统计特性的分段线性映射频带扩展算法的基础上增加了一个自适应后处理方法,该方法有效地利用了分段线性映射频带扩展算法中获得的分类信息,对分段线性映射频带扩展算法得到的扩展频带的参数信息按类再进行自适应的后处理,使得获得的扩展频带参数信息更加有针对性,帧间过渡更加平滑,得到的扩展出的信号具有更高的听觉感受。
实施例四、本发明实施例还提供了一种频带扩展的装置,如图4所示,包括:
矢量获取单元401,用于获取低频带信号的特征矢量;
分类单元402,用于根据上述特征矢量及预设的统计特性分类特征矢量集对对上述低频带信号进行分类,得到统计特性分类结果;
预估单元403,用于根据上述统计特性分类结果、特征矢量以及预设的统计特性分类状态转移矩阵,得到预估的高频带参数;
调整单元404,用于根据上述统计特性分类结果及预设的后处理平滑因子集,对上述预估的高频带参数进行调整,得到调整后的高频带参数;
信号重建单元405,用于根据调整后的高频带参数,重建高频带信号。
具体地,如图5所示上述调整单元404包括:
后处理因子查询单元501,用于根据上述统计特性分类结果,在预设的后处理平滑因子集中查询上述统计特性分类结果对应的后处理因子参数;
调整子单元502,用于根据与上述统计特性分类结果对应的后处理因子参数,调整上述预估的高频带参数,得到调整后的高频带参数。
具体地,如图6所示,上述预估单元403包括:
矩阵查询单元601,用于根据上述统计特性分类结果,在预设的统计特性分类状态转移矩阵中查询上述分类结果对应的状态转移矩阵;
预估子单元602,用于根据上述状态转移矩阵以及上述特征矢量得到预估的高频带参数。
具体地,如图7所示,上述调整单元404包括:
第一调整单元701,用于根据统计特性分类对应的帧内平滑因子,调整预估的高频带参数中的时域包络参数;
第二调整单元702,用于根据统计特性分类对应的帧间平滑因子,初步调整预估的高频带参数中的频域包络参数;
第三调整单元703,用于根据统计特性分类对应的帧内平滑因子,对初步调整后的高频带频域包络参数进行再调整,得到调整后的高频带参数。
本发明实施例提供的装置在基于统计特性的分段线性映射频带扩展算法的基础上增加了一个自适应后处理方法,该方法有效地利用了分段线性映射频带扩展算法中获得的分类信息,对分段线性映射频带扩展算法得到的扩展频带的参数信息按类再进行自适应的后处理,使得获得的扩展频带参数信息更加有针对性,帧间过渡更加平滑,得到的扩展出的信号具有更高的听觉感受。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,上述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上对本发明实施例所提供的一种频带扩展的方法和装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。
Claims (11)
1.一种频带扩展的方法,其特征在于,包括:
获取低频带信号的特征矢量;
根据所述特征矢量及预设的统计特性分类特征矢量集对对所述低频带信号进行分类,得到统计特性分类结果;
根据所述统计特性分类结果、特征矢量以及预设的统计特性分类状态转移矩阵,得到预估的高频带参数;
根据所述统计特性分类结果及预设的后处理平滑因子集,对所述预估的高频带参数进行调整,得到调整后的高频带参数;
根据调整后的高频带参数,重建高频带信号。
2.根据权利要求1所述方法,其特征在于,所述根据统计特性分类结果及预设的后处理平滑因子集,对所述预估的高频带参数进行调整包括:
根据所述统计特性分类结果,在预设的后处理平滑因子集中查询所述统计特性分类结果对应的后处理因子参数;
根据与所述统计特性分类结果对应的后处理因子参数,调整所述预估的高频带参数,得到调整后的高频带参数。
3.根据权利要求1或2所述方法,其特征在于,所述根据统计特性分类结果、特征矢量以及预设的统计特性分类状态转移矩阵,得到预估的高频带参数包括:
根据所述统计特性分类结果,在预设的统计特性分类状态转移矩阵中查询所述分类结果对应的状态转移矩阵;
根据所述状态转移矩阵以及所述特征矢量得到预估的高频带参数。
4.根据权利要求1或2所述方法,其特征在于,所述特征矢量,包括:时域包络和线性预测系数,所述时域包络表示时域内各子帧信号的能量大小,所述线性预测系数表示信号的共振峰位置及幅度。
5.根据权利要求1或2所述方法,其特征在于,所述高频带参数,包括:时域包络和频域包络;所述后处理因子参数,包括:帧内平滑因子;所述对预估的高频带参数进行调整,得到调整后的高频带参数包括:
根据统计特性分类对应的帧内平滑因子,调整预估的高频带参数中的时域包络参数和频域包络参数,得到调整后的高频带参数。
6.根据权利要求1或2所述方法,其特征在于,所述后处理因子参数,包括:帧内平滑因子和帧间平滑因子。
7.根据权利要求6所述方法,其特征在于,所述调整预估的高频带参数包括:
根据统计特性分类对应的帧内平滑因子,调整预估的高频带参数中的时域包络参数;
根据统计特性分类对应的帧间平滑因子,初步调整预估的高频带参数中的频域包络参数;
根据统计特性分类对应的帧内平滑因子,对初步调整后的高频带频域包络参数进行再调整,得到调整后的高频带参数。
8.一种频带扩展的装置,其特征在于,包括:
矢量获取单元,用于获取低频带信号的特征矢量;
分类单元,用于根据所述特征矢量及预设的统计特性分类特征矢量集对对所述低频带信号进行分类,得到统计特性分类结果;
预估单元,用于根据所述统计特性分类结果、特征矢量以及预设的统计特性分类状态转移矩阵,得到预估的高频带参数;
调整单元,用于根据所述统计特性分类结果及预设的后处理平滑因子集,对所述预估的高频带参数进行调整,得到调整后的高频带参数;
信号重建单元,用于根据调整后的高频带参数,重建高频带信号。
9.根据权利要求8所述装置,其特征在于,所述调整单元包括:
后处理因子查询单元,用于根据所述统计特性分类结果,在预设的后处理平滑因子集中查询所述统计特性分类结果对应的后处理因子参数;
调整子单元,用于根据与所述统计特性分类结果对应的后处理因子参数,调整所述预估的高频带参数,得到调整后的高频带参数。
10.根据权利要求8或9所述装置,其特征在于,所述预估单元包括:
矩阵查询单元,用于根据所述统计特性分类结果,在预设的统计特性分类状态转移矩阵中查询所述分类结果对应的状态转移矩阵;
预估子单元,用于根据所述状态转移矩阵以及所述特征矢量得到预估的高频带参数。
11.根据权利要求10所述装置,其特征在于,所述调整单元包括:
第一调整单元,用于根据统计特性分类对应的帧内平滑因子,调整预估的高频带参数中的时域包络参数;
第二调整单元,用于根据统计特性分类对应的帧间平滑因子,初步调整预估的高频带参数中的频域包络参数;
第三调整单元,用于根据统计特性分类对应的帧内平滑因子,对初步调整后的高频带频域包络参数进行再调整,得到调整后的高频带参数。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010102330332A CN102339607A (zh) | 2010-07-16 | 2010-07-16 | 一种频带扩展的方法和装置 |
PCT/CN2011/075079 WO2011144130A1 (zh) | 2010-07-16 | 2011-06-01 | 一种频带扩展的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010102330332A CN102339607A (zh) | 2010-07-16 | 2010-07-16 | 一种频带扩展的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102339607A true CN102339607A (zh) | 2012-02-01 |
Family
ID=44991196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010102330332A Pending CN102339607A (zh) | 2010-07-16 | 2010-07-16 | 一种频带扩展的方法和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN102339607A (zh) |
WO (1) | WO2011144130A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015043161A1 (zh) * | 2013-09-26 | 2015-04-02 | 华为技术有限公司 | 频带扩展的方法及装置 |
CN109788922A (zh) * | 2016-10-14 | 2019-05-21 | 公立大学法人大阪府立大学 | 咽下诊断装置以及程序 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1520590A (zh) * | 2001-06-28 | 2004-08-11 | �ʼҷ����ֵ�������˾ | 宽带信号传输*** |
CN1992533A (zh) * | 2005-12-26 | 2007-07-04 | 索尼株式会社 | 信号编码设备和方法、信号译码设备和方法、程序及介质 |
CN101076853A (zh) * | 2004-12-10 | 2007-11-21 | 松下电器产业株式会社 | 宽带编码装置、宽带线谱对预测装置、频带可扩展编码装置以及宽带编码方法 |
WO2008101324A1 (en) * | 2007-02-23 | 2008-08-28 | Qnx Software Systems (Wavemakers), Inc. | High-frequency bandwidth extension in the time domain |
US20080221905A1 (en) * | 2006-10-18 | 2008-09-11 | Markus Schnell | Encoding an Information Signal |
CN101620854A (zh) * | 2008-06-30 | 2010-01-06 | 华为技术有限公司 | 频带扩展的方法、***和设备 |
CN101751926A (zh) * | 2008-12-10 | 2010-06-23 | 华为技术有限公司 | 信号编码、解码方法及装置、编解码*** |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101304261B (zh) * | 2007-05-12 | 2011-11-09 | 华为技术有限公司 | 一种频带扩展的方法及装置 |
CN101770777B (zh) * | 2008-12-31 | 2012-04-25 | 华为技术有限公司 | 一种线性预测编码频带扩展方法、装置和编解码*** |
-
2010
- 2010-07-16 CN CN2010102330332A patent/CN102339607A/zh active Pending
-
2011
- 2011-06-01 WO PCT/CN2011/075079 patent/WO2011144130A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1520590A (zh) * | 2001-06-28 | 2004-08-11 | �ʼҷ����ֵ�������˾ | 宽带信号传输*** |
CN101076853A (zh) * | 2004-12-10 | 2007-11-21 | 松下电器产业株式会社 | 宽带编码装置、宽带线谱对预测装置、频带可扩展编码装置以及宽带编码方法 |
CN1992533A (zh) * | 2005-12-26 | 2007-07-04 | 索尼株式会社 | 信号编码设备和方法、信号译码设备和方法、程序及介质 |
US20080221905A1 (en) * | 2006-10-18 | 2008-09-11 | Markus Schnell | Encoding an Information Signal |
WO2008101324A1 (en) * | 2007-02-23 | 2008-08-28 | Qnx Software Systems (Wavemakers), Inc. | High-frequency bandwidth extension in the time domain |
CN101620854A (zh) * | 2008-06-30 | 2010-01-06 | 华为技术有限公司 | 频带扩展的方法、***和设备 |
CN101751926A (zh) * | 2008-12-10 | 2010-06-23 | 华为技术有限公司 | 信号编码、解码方法及装置、编解码*** |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015043161A1 (zh) * | 2013-09-26 | 2015-04-02 | 华为技术有限公司 | 频带扩展的方法及装置 |
CN104517610A (zh) * | 2013-09-26 | 2015-04-15 | 华为技术有限公司 | 频带扩展的方法及装置 |
US9666201B2 (en) | 2013-09-26 | 2017-05-30 | Huawei Technologies Co., Ltd. | Bandwidth extension method and apparatus using high frequency excitation signal and high frequency energy |
CN104517610B (zh) * | 2013-09-26 | 2018-03-06 | 华为技术有限公司 | 频带扩展的方法及装置 |
US10186272B2 (en) | 2013-09-26 | 2019-01-22 | Huawei Technologies Co., Ltd. | Bandwidth extension with line spectral frequency parameters |
CN109788922A (zh) * | 2016-10-14 | 2019-05-21 | 公立大学法人大阪府立大学 | 咽下诊断装置以及程序 |
US11246526B2 (en) | 2016-10-14 | 2022-02-15 | University Public Corporation Osaka | Swallowing diagnosis apparatus and storage medium |
Also Published As
Publication number | Publication date |
---|---|
WO2011144130A1 (zh) | 2011-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11580998B2 (en) | Method and device for encoding a high frequency signal, and method and device for decoding a high frequency signal | |
EP3910630B1 (en) | Transient speech or audio signal encoding method and device, decoding method and device, processing system and computer-readable storage medium | |
CN108806703B (zh) | 用于隐藏帧错误的方法和设备 | |
CN102177426B (zh) | 多分辨率切换音频编码/解码方案 | |
AU2007206167B8 (en) | Apparatus and method for encoding and decoding signal | |
EP2791937B1 (en) | Generation of a high band extension of a bandwidth extended audio signal | |
EP2770503B1 (en) | Method and apparatus for concealing frame errors and method and apparatus for audio decoding | |
CN104025189B (zh) | 编码语音信号的方法、解码语音信号的方法,及使用其的装置 | |
US20070219785A1 (en) | Speech post-processing using MDCT coefficients | |
CN106128473A (zh) | 用于产生带宽扩展信号的设备和方法 | |
EP2774145B1 (en) | Improving non-speech content for low rate celp decoder | |
JP6396459B2 (ja) | 周波数領域における時間的予備整形雑音の挿入によるオーディオ帯域幅拡張 | |
CN103493129B (zh) | 用于使用瞬态检测及质量结果将音频信号的部分编码的装置与方法 | |
Bessette et al. | Universal speech/audio coding using hybrid ACELP/TCX techniques | |
EP3121813B1 (en) | Noise filling without side information for celp-like coders | |
CN102664003A (zh) | 基于谐波加噪声模型的残差激励信号合成及语音转换方法 | |
CN104978970A (zh) | 一种噪声信号的处理和生成方法、编解码器和编解码*** | |
CN105304090A (zh) | 使用对齐的前瞻部分将音频信号编码及解码的装置与方法 | |
CN106233112A (zh) | 信号编码方法和设备以及信号解码方法和设备 | |
CN102339607A (zh) | 一种频带扩展的方法和装置 | |
CN101622668B (zh) | 电信网络中的方法和装置 | |
CN1327408C (zh) | 一种低比特率语音编码器 | |
Choi et al. | Efficient harmonic-CELP based hybrid coding of speech at low bit rates. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20120201 |