CN101952889B

CN101952889B - 用于在带宽扩展***中估计高频带能量的方法和设备

Info

Publication number: CN101952889B
Application number: CN200980103691.5A
Authority: CN
Inventors: 滕卡斯·V·拉玛巴德兰; 马克·A·加休科
Original assignee: Motorola Mobility LLC
Current assignee: Motorola Mobility LLC; Google Technology Holdings LLC
Priority date: 2008-02-01
Filing date: 2009-01-28
Publication date: 2013-03-20
Anticipated expiration: 2029-01-28
Also published as: WO2009099835A1; US8433582B2; KR20100106559A; ES2384084T3; EP2238594B1; EP2238594A1; KR101214684B1; RU2010136648A; CN101952889A; US20090198498A1; RU2464652C2; MX2010008279A

Abstract

一种方法(100)，包括：接收(101)包括窄带信号的输入数字音频信号。对输入数字音频信号进行处理(102)以生成处理的数字音频信号。基于窄带带宽的预定上限频率范围内的处理的数字音频信号的过渡带的估计能量来估计(103)与输入数字音频信号相对应的高频带能量水平。基于高频带能量水平以及与高频带能量水平相对应的估计的高频带频谱来生成(104)高频带数字音频信号。

Description

用于在带宽扩展***中估计高频带能量的方法和设备

相关申请

本申请涉及2007年11月29日提交的共同待审的并且共有的申请号为11/946,978的美国专利申请，该申请的全部内容通过引用合并于此。

技术领域

本发明一般地涉及呈现可听内容，并且尤其涉及带宽扩展技术。

背景技术

从数字表示可听地呈现音频内容包括公知范围的努力。在一些应用设置中，数字表示包括与原始音频采样相关的完整的对应带宽。在这样的情况下，可听呈现可以包括高度准确和自然的发声输出。然而，这样的方式要求相当大的开销资源来提供对应的数据量。在诸如无线通信设置的许多应用设置中，不能总是充分支持这样的信息量。

为了适应这样的局限，所谓的窄带语音技术可以用于通过进一步将表示限制为小于与原始音频采样相关的完整的对应带宽来限制信息量。仅作为关于这一点的示例，虽然自然语音包括高达8kHz(或更高)的有效分量，但是窄带表示可以仅提供关于例如300-3400Hz范围的信息。当得到的内容被呈现得可听时，得到的内容通常清晰得足以支持基于语音的通信的功能需要。然而，遗憾的是，窄带语音处理也往往得到听起来压抑的语音，并且与全频带语音相比甚至可能已经降低了清晰度。

为了满足该需要，有时候采用带宽扩展技术。基于可用的窄带信息以及其他信息人工生成较高和/或较低的频带中的丢失的信息来选择能够被添加到窄带内容中的信息，从而合成伪宽带(或全带)信号。

使用这样的技术，例如，能够将在300-3400Hz范围中的窄带语音转换为例如100-8000Hz范围中的宽带语音。为此，所需要的一条关键信息是在高频带(3400-8000Hz)中的频谱包络。如果估计了宽带频谱包络，那么通常可以容易地从宽带频谱包络中提取高频带频谱包络。可以考虑由形状和增益(或者等同地，能量)构成的高频带频谱包络。

例如，通过一种方式，借助于通过码书映射从窄带频谱包络估计宽带频谱包络来估计高频带频谱包络形状。然后，通过调整在宽带频谱包络的窄带部分内的能量以匹配窄带频谱包络的能量来估计高频带能量。在该方式中，高频带频谱包络形状确定高频带能量，并且在估计形状中的任何错误也将相应地影响高频带能量的估计。

在另一种方式中，分别估计高频带频谱包络形状和高频带能量，并且调整最后使用的高频带频谱包络，以匹配估计的高频带能量。通过一种相关的方式，使用除了其他参数之外的估计的高频带能量来确定高频带频谱包络形状。然而，未必保证得到的高频带频谱包络具有适当的高频带能量。因此，需要附加的步骤来将高频带频谱包络的能量调整到估计值。除非特别注意，该方式将在窄带和高频带之间的边界处产生在宽带频谱包络中的不连续。虽然对于带宽扩展，并且特别是对于高频带包络估计的现有方式相当成功，但是在至少一些应用设置中，这些方式未必产生适当质量的得到的语音。

为了生成可接受质量的带宽扩展的语音，应当最小化在这样的语音中的人工信号(artifact)的数目。已知高频带能量的过度估计导致麻烦的人工信号。高频带频谱包络形状的不正确的估计也可能引起人工信号，但是这些人工信号通常不太严重，并且容易被窄带语音所掩盖。

附图说明

通过提供下面详细说明中所述的在带宽扩展***中用于估计高频带能量的方法和设备来至少部分地满足上述需要。附图中相同的附图标记在各个视图中表示相同或功能上类似的元素，并且附图与下面的详细说明一起并入本说明书中并且形成本说明书的一部分，用于进一步图示各种实施例并且用于说明所有根据本发明的各种原理和优点。

图1包括根据本发明的各种实施例配置的流程图；

图2包括根据本发明的各种实施例配置的曲线图；

图3包括根据本发明的各种实施例配置的框图；

图4包括根据本发明的各种实施例配置的框图；

图5包括根据本发明的各种实施例配置的框图；以及

图6包括根据本发明的各种实施例配置的曲线图。

本领域技术人员将认识到，在附图中的元素为了简单和清楚的目的而进行图示，并且不必按照比例绘制。例如，在附图中的一些元素的尺寸和/或相对定位可以相对于其他元素被夸大，以有助于促进对本发明的各种实施例的理解。而且，为了促进对于本发明的这些各种实施例的不太混乱的查看，常常不描绘在商业上可行的实施例中实用或必要的常见而公知的元素。应当进一步认识到，可以以特定的发生顺序来描述或描绘特定的动作和/或步骤，而在本领域中的技术人员将理解，实际上不需要这样的关于顺序的指定。还应当理解，这里所使用的术语和表达具有由如以上阐述的本领域的技术人员给予这样的术语和表达的典型的技术含义，除非这里另外阐述了不同的特定的含义。

具体实施方式

这里讨论的教导针对一种用于人工带宽扩展的有成本效益的方法和***。根据这样的教导，接收窄带数字音频信号。例如，窄带数字音频信号可以是在蜂窝网络中经由移动站接收到的信号，并且窄带数字音频信号可以包括300-3400Hz的频率范围中的语音。人工带宽扩展技术被实现为将数字音频信号的频谱扩展为包括诸如100-300Hz的低频带频率以及诸如3400-8000Hz的高频带频率。通过利用人工带宽扩展来将频谱扩展为包括低频带频率和高频带频率，产生更自然发音的数字音频信号，该信号对实现该技术的移动站的用户而言更令人愉快。

在人工带宽扩展技术中，基于从语音数据库得到并存储的先验信息以及可用的窄带信息，人工地生成较高频带(3400-8000Hz)和较低频带(100-300Hz)中的丢失的信息，并将其添加到窄带信号，以合成伪宽带信号。因为要求对现有传输***的最小的改变，所以这样的解决方案很吸引人。例如，不需要额外的比特率。人工带宽扩展可以被并入在接收端处的后处理元件中，并且因此独立于通信***中使用的语音编码技术或者通信***本身的性质，例如模拟、数字、地上线或蜂窝。例如，可以通过接收窄带数字音频信号的移动站来实现人工带宽扩展技术，并且利用得到的宽带信号来生成向移动站的用户播放的音频。

在确定高频带信息时，首先估计高频带中的能量。利用窄带信号的子集来估计高频带能量。最接近高频带频率的窄带信号的子集通常具有与高频带信号最高的相关性。因此，仅利用窄带的子集而不是整个窄带来估计高频带能量。所使用的子集称为“过渡带”，并且可以包括诸如2500-3400Hz的频率。更特定地，这里将过渡带定义为包含在窄带中并且接近高频带的频带，即，它用作到高频带的过渡。该方式与现有技术的带宽扩展***不同，现有技术的带宽扩展***根据整个窄带中的能量来估计高频带能量，通常为比率。

为了估计高频带能量，首先经由下面关于图4和图5讨论的技术来估计过渡带能量。例如，可以首先通过对输入窄带信号进行上采样、计算上采样的窄带信号的频谱并且然后将过渡带内的频谱分量的能量相加来计算出过渡带的过渡带能量。随后，将估计的过渡带能量作为独立变量***多项式等式中来估计高频带能量。选择多项式等式中的独立变量的不同幂的系数或权重(包括零幂，即，常数项，的系数或权重)来在来自训练语音数据库的大量帧上最小化高频带能量的实际值与估计值之间的均方差。如下面更详细讨论的，通过调节对从窄带信号得到的参数以及从过渡带信号得到的参数的估计，可以进一步提高估计准确度。在已经估计了高频带能量之后，基于高频带能量估计来估计高频带频谱。

通过以该方式来利用过渡带，提供了一种坚固的带宽扩展技术，与在使用整个窄带中的能量来估计高频带能量时可能的音频信号相比，该技术产生更高质量的相应的音频信号。此外，因为带宽扩展技术适用于经由通信***接收到的窄带信号，所以可以在不对现有通信***有过度不利影响的情况下利用该技术，即，可以利用现有通信***来发送窄带信号。

图1图示了根据本发明的各种实施例的用于生成带宽扩展数字音频信号的过程100。首先，在操作101处，接收窄带数字音频信号。在典型的应用设置中，该操作包括提供这样的内容的多个帧。这些教导易于根据上述步骤来处理每个这样的帧。例如，通过一种方式，每个这样的帧可以与原始音频内容的10-40毫秒相对应。

这可以包括，例如，提供包括合成的有声内容的数字音频信号。例如，这是当结合在便携式无线通信装置中接收到的声编码的语音内容来采用这些教导时的情况。然而，本领域的技术人员可以理解，还存在其他可能性。例如，数字音频信号可能替代地包括原始语音信号或者原始语音信号或合成的语音内容的重新采样的版本。

现在参考图2，应当理解，该数字音频信号涉及某个原始音频信号201，其具有原始的对应的信号带宽202。该原始的对应的信号带宽202通常大于前述的与数字音频信号相对应的信号带宽。例如，当数字音频信号仅表示原始音频信号201的一部分203而原始音频信号201的其他部分留在频带外时，这可能发生。在图示的说明性示例中，这包括低频带部分204和高频带部分205。本领域技术人员将认识到，该示例仅用于说明性目的，并且未表示的部分可以仅包括低频带部分或高频带部分。这些教导也适用于在其中未表示的部分落在两个或多个表示的部分(未示出)的中频带的应用设置中进行使用。

因此，容易理解，原始音频信号201的未表示的部分(多个)包括这些现有教导可能合理地设法以一些合理并且可接受的方式来替换或以其他方式表示的内容。还应当理解，该信号带宽仅占用由相关采样频率确定的尼奎斯特带宽的一部分。这进而被理解成进一步提供了其中要实现期望的带宽扩展的频率区域。

返回参考图1，在操作102处对输入数字音频信号进行处理，以生成处理的数字音频信号。通过一种方式，在操作102处的处理是上采样操作。通过另一种方式，它可以是简单的单位增益***，对该***而言输出等于输入。在操作103处，基于窄带带宽的预定的上限频率范围内的处理的数字音频信号的过渡带来估计与输入数字音频信号相对应的高频带能量水平。

通过使用过渡带分量作为估计的基础，获得比在共同使用所有窄带分量来估计高频带分量的能量值时通常所得到的估计更准确的估计。通过一种方式，使用高频带能量值来访问查找表，以确定高频带频谱包络，即正确的能量水平处的适当的高频带频谱包络形状，所述查找表包含多个对应的候选高频带频谱包络形状。

然后，该过程100可选地将数字音频信号和与估计的能量值和高频带分量的频谱相对应的高频带内容进行合并104，以提供要呈现的窄带数字音频信号的带宽扩展版本。虽然图1所示的过程仅图示了添加了估计的高频带分量，但是应当认识到，还可以估计低频带分量并且将其与窄带数字音频信号进行合并，以生成带宽扩展的宽带信号。

当以可听形式进行呈现时，与原始的窄带数字音频信号相比，得到的带宽扩展音频信号(通过将输入数字音频信号与人工生成的信号带宽外内容进行合并所获得)具有改善的音频质量。通过一种方式，这可以包括将关于其频谱内容相互不包括的两个项进行合并。在这样的情况下，这样的合并可以采用例如将两个(或多个)分段简单地连结或以其他方式联合在一起的形式。通过另一种方式，如果期望，高频带带宽内容和/或低频带带宽内容可以具有在数字音频信号的对应信号带宽内的部分。通过将高频带带宽内容和/或低频带带宽内容的重叠部分与数字音频信号的对应的带内部分进行合并，这样的重叠在至少一些应用设置中可以用于将从一个部分到另一个部分的过渡进行平滑化和/和羽化。

本领域技术人员将认识到，使用多种可用和/或容易配置的平台中的任何一个来容易地实现上述过程，该平台包括本领域所公知的部分或整体可编程的平台或者可能期望用于一些应用的专用平台。现在参考图3，现在将提供对于这样的平台的说明性方式。

在该说明性示例中，在设备300中，选择的处理器301可操作地耦合到输入端302，该输入端302被配置和布置成接收具有对应的信号带宽的数字音频信号。当设备300包括无线双向通信装置时，可以由本领域公知的对应的接收器303来提供这样的数字音频信号。在这样的情况下，例如，数字音频信号可以包括根据接收到的声编码的语音内容而形成的合成有声内容。

处理器301进而可以(当处理器301包括本领域所公知的部分或整体可编程的平台时经由例如对应的程序)被配置和布置成执行这里阐述的步骤或者其他功能的一个或多个。这可以包括，例如，从过渡带能量估计高频带能量值，并且然后使用高频带能量值和能量索引的形状的集合来确定高频带频谱包络。

如上所述，通过一种方式，前述高频带能量值可以用于便利访问包含多个对应的候选频谱包络形状的查找表。为了支持这样的方法，如果期望，该设备还可以包括一个或多个查找表304，该一个或多个查找表304可操作地耦合到处理器301。在如此配置的情况下，处理器301可以在适当时容易地访问查找表304。

本领域技术人员将认识和理解，这样的设备300可以由如图3中所示的图示建议的多个物理上不同的元件构成。然而，还能够将该图示看作包括逻辑视图，在该情况下，可以经由共享平台来允许和实现这些元件中的一个或多个。还应当理解，这样的共享平台可以包括如在本领域中公知的整体或至少部分可编程的平台。

应当认识到，上述处理可以由与基站进行无线通信的移动站来执行。例如，基站可以经由传统方式将窄带数字音频信号发射到移动站。一旦接收到该窄带数字音频信号，移动站内的处理器(多个)就执行必要的操作来生成数字音频信号的带宽扩展版本，其对移动站的用户而言更清楚并且在听觉上更令人愉快。

现在参考图4，首先使用对应的上采样器401对以8kHz采样的输入窄带语音s_nb进行上采样两次，以获得以16kHz采样的上采样的窄带语音

这可以包括执行1∶2内插(例如，通过在每对原始语音采样之间***零值的采样)，此后，使用例如具有在0Hz到3400Hz之间的通带的低通滤波器(LPF)来进行低通滤波。

还使用线性预测(LP)分析器402来从s_nb计算窄带线性预测(LP)参数A_nb＝{1，a₁，a₂，…，a_P}，其中，P是模型阶数，该LP分析器402采用公知的LP分析技术。(当然，存在其他的可能性；例如，可以从

的2∶1抽样(decimated)版本来计算LP参数。)这些LP参数将窄带输入语音的频谱包络建模为：

{SE}_{nbin} (ω) = \frac{1}{1 + a_{1} e^{- jω} + a_{2} e^{- j 2 ω} + . . . + a_{P} e^{- jPω}}

在上述等式中，通过ω＝2πf/F_s给出弧度/采样中的角频率ω，其中，f是单位为Hz的信号频率，F_s是单位为Hz的采样频率。对于8kHz的采样频率F_s，适当的模型阶数P例如为10。

然后，使用内插模块403来对LP参数A_nb内插两次，以获得

使用使用分析滤波器404来对上采样的窄带语音进行反向滤波，以获得LP残差信号

(还以16kHz进行采样)。通过一种方式，可以通过以下等式来描述该反(或分析)滤波操作：

{\overset{'}{r}}_{nb} (n) = {\overset{'}{s}}_{nb} (n) + a_{1} {\overset{'}{s}}_{nb} (n - 2) + a_{2} {\overset{'}{s}}_{nb} (n - 4) + . . . + a_{P} {\overset{'}{s}}_{nb} (n - 2 P)

其中，n是采样索引。

在典型的应用设置中，可以在逐帧的基础上来进行

的反向滤波以获得

其中，帧被定义为在T秒持续时间上的N个连续采样的序列。对于很多语音信号应用，关于T的良好选择是大约20ms，并且N的相应值在8kHz采样频率为大约160，并且在16kHz采样频率为大约320。连续的帧可以彼此重叠，例如，最多或者大约50％，在该情况下，在当前帧中的采样的后一半和下一个帧中的采样的前一半是相同的，并且每T/2秒地处理新的帧。例如，对于选择T为20ms和50％的重叠，从每10ms 160个连续s_nb采样来计算LP参数A_nb，并且LP参数A_nb用于对320个采样的对应

帧的中间160个采样进行反向滤波，以得到160个

采样。

还可以直接从上采样的窄带语音来计算反向滤波操作的2P阶LP参数。然而，该方式可能提高计算LP参数和反向滤波操作二者的复杂性，而在一些操作条件下不一定提高性能。

接下来，使用全波整流器405来对LP残差信号进行全波整流，并且(例如，使用具有在3400Hz到8000Hz之间的通带的高通滤波器(HPF)406)对结果进行高通滤波，以获得高频带整流的残差信号rr_hb。同时，还对伪随机噪声源407的输出进行高通滤波408，以获得高频带噪声信号n_hb。替代地，可以将高通滤波的噪声序列预存储在缓存器(例如，循环缓存器)中并且在需要时进行访问以生成n_hb。使用这样的缓存器消除了与实时对伪随机噪声采样进行高通滤波相关联的计算。然后，根据由估计和控制模块(ECM)410(下面将更详细地描述该模块)提供的发声(voicing)水平v来在混合器409中对这两个信号也就是rr_hb和n_hb进行混合。在该说明性示例中，该发声水平v的范围从0到1，其中，0指示清音水平，并且1指示全浊音的水平。混合器409在保证两个输入信号被调整为具有相同的能量水平之后在其输出处实质上形成两个输入信号的加权和。混合器输出信号m_hb由下式给出：

m_hb＝(v)rr_hb+(1-v)n_hb。

本领域技术人员将认识到，其他混合规则也是可能的。还能够首先对两个信号，即，全波整流的LP残差信号和伪随机噪声信号，进行混合，并且然后对混合的信号进行高通滤波。在该情况下，用置于混合器409的输出处的单个高通滤波器来替代两个高通滤波器406和408。

然后，使用高频带(HB)激励预处理器411对得到的信号m_hb进行预处理，以形成高频带激励信号ex_hb。预处理步骤可以包括：(i)调整混合器输出信号m_hb以匹配高频带能量水平E_hb，以及(ii)可选地整形混合器输出信号m_hb以匹配高频带频谱包络SE_hb。ECM 410将E_hb和SE_hb二者提供到HB激励预处理器411。当采用该方式时，它在很多应用设置中可能有助于保证这样的整形不影响混合器输出信号m_hb的相位谱；即，优选地可以通过零相位响应滤波器来执行该整形。

使用加法器412将上采样的窄带语音信号与高频带激励信号ex_hb相加在一起，以形成混合的频带信号将该得到的混合的频带信号

输入到均衡器滤波器413，该均衡器滤波器413使用由ECM 410提供的宽带频谱包络信息SE_wb来对该输入进行滤波，以形成估计的宽带信号

均衡器滤波器413在输入信号上实质上施加宽带频谱包络SE_wb，以形成

(下面就这一点进一步进行讨论)。例如，使用具有从3400Hz到8000Hz的通带的高通滤波器414来对得到的估计宽带信号

进行高通滤波，并且例如，使用具有从0Hz到300Hz的通带的低通滤波器415对该得到的估计宽带信号

进行低通滤波，以分别获得高频带信号

和低频带信号在另一个加法器416中将这些信号

以及上采样的窄带信号相加在一起，以形成带宽扩展信号s_bwe。

本领域技术人员应当认识到，存在能够获得带宽扩展信号s_bwe的各种其他滤波器配置。如果均衡器滤波器413准确地保留作为其输入信号

的一部分的上采样的窄带语音信号

的频谱内容，则可以将估计的宽带信号

直接输出为带宽扩展信号s_bwe，从而消除高通滤波器414、低通滤波器415以及加法器416。替代地，可以使用两个均衡器滤波器，一个用于恢复低频部分，而另一个用于恢复高频部分，并且可以将前者的输出添加到后者的高通滤波的输出，以获得带宽扩展信号s_bwe。

本领域技术人员应当理解并且认识到，通过该特定的说明性示例，根据发声水平来将高频带整流残差激励与高频带噪声激励混合在一起。当发声水平是指示清音语音的0时，排他性地使用噪声激励。类似地，当发声水平是指示浊音语音的1时，排他性地使用高频带整流残差激励。当发声水平在指示混合发声的语音的0与1之间时，按照发声水平所确定的适当比例来对两个激励进行混合和使用。因此，混合的高频带激励适合于浊音、清音以及混合发声的声音。

应当进一步理解和认识到，在该说明性示例中，使用均衡器滤波器来合成

均衡器滤波器将ECM提供的宽带频谱包络SE_wb视作理想包络，并且校正(或均衡化)其输入信号

的频谱包络，以匹配该理想包络。因为在频谱包络均衡中仅涉及幅度，所以将均衡器滤波器的相位响应选取为零。由SE_wb(ω)/SE_mb(ω)来指定均衡器滤波器的幅度响应。用于语音编码应用的这样的均衡器滤波器的设计和实现包括公知范围的努力。然而，简单而言，均衡器滤波器使用重叠相加(OLA)分析来如下进行操作。

输入信号

首先被划分为重叠的帧，例如，具有50％的重叠的20ms(以16kHz的320个采样)的帧。然后，采样的每一个帧乘以(点乘)适当的窗口，例如，具有理想重建属性的升余弦窗口。接下来，对加窗的语音帧进行分析，以估计对其频谱包络进行建模的LP参数。由ECM来提供用于该帧的理想宽带频谱包络。从两个频谱包络，均衡器按SE_wb(ω)/SE_mb(ω)来计算滤波器幅度响应，并且将相位响应设置为零。然后，对输入帧进行均衡化，以获得对应的输出帧。最后，将均衡化的输出帧重叠相加，以合成估计的宽带语音

本领域技术人员应当认识到，除了LP分析之外，存在其他方法来获得给定语音帧的频谱包络，例如，频谱幅度峰值的分段线性或较高阶曲线拟合、倒谱分析等。

本领域技术人员还应当认识到，作为对输入信号

直接加窗的替代，可以通过rr_hb和n_hb的加窗版本来开始，以获得相同的结果。可能还便于保持均衡器滤波器的帧大小和百分比重叠与用于从

获得

的分析滤波器块中使用的那些相同。

上述用于合成

的均衡器滤波器方式提供了很多优点：i)因为均衡器滤波器413的相位响应为零，所以均衡器输出的不同频率分量与输入的对应分量在时间上对准。因为整流的残差高频带激励ex_hb的高能量分段(诸如，喉脉冲分段)与均衡器输入处的上采样的窄带语音的对应高能量分段在时间上对准，并且在均衡器输出处的该时间对准的维持常常用于保证良好的语音质量，所以这有助于浊音语音；ii)均衡器滤波器413的输入不需要具有在LP合成滤波器的情况下的平坦的频谱；iii)在频域中指定均衡器滤波器413，并且因此在频谱的不同部分上的更好和更精细的控制是可行的；并且iv)能够进行迭代以额外的复杂性和延迟为代价来改善滤波效率(例如，可以将均衡器输出反馈到输入以反复进行均衡，以改善性能)。

现在将提出关于所述配置的一些附加细节。

高频带激励预处理：均衡器滤波器413的幅度响应由SE_wb(ω)/SE_mb(ω)给出，并且均衡器滤波器413的相位响应可以被设置为零。输入频谱包络SE_mb(ω)越接近理想的频谱包络SE_wb(ω)，均衡器就越容易将输入频谱包络校正为匹配理想频谱包络。高频带激励预处理器411的至少一个功能是使SE_mb(ω)更接近SE_wb(ω)，并且因此使均衡器滤波器413的工作更容易。首先，这通过将混合器输出信号m_hb调整到ECM 410提供的正确的高频带能量水平E_hb来完成。然后，可选地对混合器输出信号m_hb进行整形，使得在不影响其相位谱的情况下，其频谱包络匹配ECM 410提供的高频带频谱包络SE_hb。第二步骤实质上可以包括预均衡步骤。

低频带激励：与由至少部分地通过采样频率施加的带宽限制造成的在高频带中信息的丢失不同，窄带信号的低频带(0-300Hz)中信息的丢失至少大部分是由于信道传递函数的频带限制效应(包括，例如，麦克风、放大器、语音编码器、传输信道等等)所致。因此，在干净的窄带信号中，低频带信息仍然存在，但是处于极低的水平。可以以直接(straight forward)的方式来放大该低水平信息，以恢复原始信号。但是在该过程中应当注意，因为低水平信息容易受到误差、噪声和失真的破坏。一种替代方案是类似于前述的高频带激励信号合成低频带激励信号。即，以类似于形成高频带混合器输出信号m_hb的方式，通过对低频带整流残差信号rr_1b与低频带噪声信号n_1b进行混合来形成低频带激励信号。

现在参考图5，估计和控制模块(ECM)410将窄带语音s_nb、上采样的窄带语音以及窄带LP参数A_nb作为输入，并且提供发声水平v、高频带能量E_hb、高频带频谱包络SE_hb以及宽带频谱包络SE_wb作为输出。

发声水平估计：为了估计发声水平，零交叉计算器501如下计算窄带语音s_nb的每个帧中的零交叉zc的数：

zc = \frac{1}{2 (N - 1)} Σ_{n = 0}^{N - 2} | Sgn (s_{nb} (n)) - Sgn (s_{nb} (n + 1)) |

其中

n是采样索引，并且N是采样中的帧大小。便于将ECM 410中使用的帧大小和百分比重叠保持与均衡器滤波器413和分析滤波器块中使用的那些相同，例如，参考前述的说明性值，T＝20ms，对于8kHz的采样N＝160，对于16kHz的采样N＝320，并且重叠为50％。如上计算的zc参数值范围从0到1。从zc参数，发声水平估计器502可以如下估计发声水平v：

其中，ZC_low和ZC_high分别表示适当选择的低阈值和高阈值，例如，ZC_low＝0.40和ZC_high＝0.45。还可以将节首音(onset)/***音(plosive)检测器503的输出d馈送到发声水平检测器502。如果用d＝1来将帧标记为包含节首音或***音，则可以将该帧以及后一个帧的发声水平设置为1。再次提醒，通过一种方式，当发声水平为1时，排他性地使用高频带整流的残差激励。因为整流的残差激励紧随上采样的窄带语音的能量对时间的轮廓，因此降低了由于带宽扩展信号中的时间离散所导致的前回声型人工信号的可能性，所以比起仅噪声或混合高频带激励，这在节首音/***音方面是有利的。

为了估计高频带能量，过渡带能量估计器504从上采样的窄带语音信号

来估计过渡带能量。这里将过渡带定义为包含在窄带中并且接近高频带的频带，即，它用作到高频带的过渡(在本说明性示例中它大约是2500-3400Hz)。直观地，可以预期高频带能量与过渡带能量紧密相关，这在实验中得到证实。用于计算过渡带能量E_tb的简单方式是(例如，通过快速傅立叶变换(FFT))计算的频谱，并且将过渡带内频谱分量的能量相加。

从单位为dB的过渡带能量E_tb，按照下式来估计单位为dB的高频带能量：

E_hb0＝αE_tb+β，

其中，选择系数α和β以最小化在来自训练语音数据库的大量帧上的高频带能量的实际值与估计值之间的均方误差。

可以通过采用来自额外的语音参数的上下文背景信息来进一步提高估计准确度，该额外的语音参数诸如零交叉参数zc和可以由过渡带斜率估计器505提供的过渡带频谱斜率参数s1。如上所述的零交叉参数表示语音发声水平。斜率参数指示过渡带内的频谱能量的改变的比率。可以借助于例如通过线性回归将过渡带内的频谱包络(单位是dB)近似为直线并且计算其斜率来从窄带LP参数A_nb估计斜率参数。然后，将zc-s1参数平面划分成多个区域，并且为每个区域单独选择系数α和β。例如，如果zc和s1参数的范围均被划分成8个相等的间隔，则zc-s1参数平面被划分成64个区域，并且选择64组α和β系数，每个区域一组。

通过另一种方式(图5中未示出)，如下实现估计准确度的进一步改进。注意，作为斜率参数s1(其只是过渡带内频谱包络的第一阶表示)的替代，可以采用更高分辨率表示来提高高频带能量估计器的性能。例如，可以使用过渡带频谱包络形状(单位是dB)的矢量量化表示。作为一个说明性示例，矢量量化器(VQ)码书包括64个形状，该64个形状称为过渡带频谱包络形状参数tbs，根据大的训练数据库来计算该参数。可以用tbs参数来代替zc-s1参数平面中的s1参数，以实现改善的性能。然而，通过另一种方式，引入称为频谱平坦度度量sfm的第三参数。频谱平坦度度量被定义为在适当的频率范围内(例如300-3400Hz)的窄带频谱包络(单位是dB)的几何平均值与算术平均值的比率。sfm参数指示频谱包络有多平坦——该示例中范围从有峰包络的大约为0到完全平坦的包络的1。sfm参数还涉及语音的发声水平，但是与zc的方式不同。在一种方式中，将三维zc-sfm-tbs参数空间划分为如下多个区域。将zc-sfm平面划分成12个区域，从而在三维空间中产生12×64＝768个可能的区域。然而，并非所有这些区域都有来自训练数据库的足够的数据点。因此，对于很多应用设置，将有用区域的数目限制为大约500，并且为这些区域的每一个选择单独的一组α和β系数。

高频带能量估计器506可以通过在估计E_hb0中使用更高幂的E_tb来提供估计准确度方面的额外改善，例如，

E_hb0＝α₄E_tb ⁴+α₃E_tb ³+α₂E_tb ²+α₁E_tb+β

在该情况下，为zc-s1参数平面的每个分区(替代地，为zc-sfm-tbs参数空间的每个分区)选择5个不同的系数，即，α₄、α₃、α₂、α₁和β。因为用于估计E_hb0的以上的等式(参考第69段和第74段)是非线性的，所以必须特别注意按照输入信号水平的改变，即，能量的改变，来调整估计的高频能量。实现这一点的一种方式是估计单位为dB的输入信号水平，向上或向下调整E_tb以与标称信号水平相对应，估计E_hb0，并且向上或向下调整E_hb0以与实际信号水平相对应。

虽然上述高频带能量估计方法可以非常好的用于大多数帧，但是偶尔存在对其而言高频带能量被严重高估或严重低估的帧。可以通过包括平滑滤波器的能量轨迹平滑器507来至少部分地校正这样的估计误差。可以设计平滑滤波器，使得允许能量轨迹中的实际过渡(例如在浊音分段与清音分段的过渡)不受影响地通过，但是校正例如在浊音分段或清音分段内的其他平滑化能量轨迹中的偶尔的严重误差。为此，适当的滤波器是中值滤波器，例如，以下等式所述的3点中值滤波器：

E_hb1(k)＝median(E_hb0(k-1)，E_hb0(k)，E_hb0(k+1))

其中，k是帧索引，median(.)运算符选择其三个自变量的中值。该3点中值滤波器引入一个帧的延迟。还可以设计用于平滑化能量轨迹的具有延迟或没有延迟的其他类型的滤波器。

可以通过能量适配器508来进一步适配平滑的能量值E_hb1，以获得最终的适配的高频带能量估计E_hb。该适配可以涉及：基于通过节首音/***音检测器503输出的d参数和/或发声水平参数v来降低或提高平滑的能量值。通过一种方式，因为高频带频谱的选择可能依赖于估计的能量，所以适配高频带能量值不仅改变该能量水平，还改变频谱包络形状。

基于发声水平参数v，可以如下实现能量适配。对于与清音帧相对应的v＝0，稍微增加平滑的能量值E_hb1，例如，增加3dB，以获得适配的能量值E_hb。与窄带输入相比，增加的能量水平强调在带宽扩展输出中的清音语音，并且还有助于选择用于清音分段更适当的频谱包络形状。对于与浊音帧相对应的v＝1，稍微降低平滑的能量值E_hb1，例如，减少6dB，以获得适配的能量值E_hb。稍微降低的能量水平有助于掩盖对浊音分段的频谱包络形状的选择中的任何误差以及得到的噪声人工信号。

当发声水平v在与混合发声帧相对应的0与1之间时，不进行能量值的适配。这样的混合发声帧仅表示所有帧中的一小部分，并且未适配的能量值良好地适用于这样的帧。基于节首音/***音检测器的输出d，如下进行能量适配。当d＝1时，指示对应的帧包含节首音，例如，从静默到清音或浊音声音的过渡，或者诸如/t/的***音。在该情况下，特定帧以及后一个帧的高频带能量被适配为很低的值，使得其高频带能量内容在带宽扩展语音中为低。这有助于避免与这样的帧相关联的偶然的人工信号。对于d＝0，不进行能量的进一步适配；即，保留如上所述的基于发声水平v的能量适配。

接下来，描述宽带频谱包络SE_wb的估计。为了估计SE_wb，可以单独地估计窄带频谱包络SE_nb、高频带频谱包络SE_hb以及低频带频谱包络SE_1b，并且将这三个包络合并在一起。

窄带频谱估计器509可以从上采样的窄带语音

来估计窄带频谱包络SE_nb。从

首先使用公知的LP分析技术来计算LP参数，B_nb＝{1，b₁，b₂，…，b_Q}，其中，Q是模型阶数。对于16kHz的上采样频率，适当的模型阶数Q例如是20。LP参数B_nb将上采样的窄带语音的频谱包络建模为：

{SE}_{usnb} (ω) = \frac{1}{1 + b_{1} e^{- jω} + b_{2} e^{- j 2 ω} + . . . + b_{Q} e^{- jQω}}

在上述等式中，由ω＝2πf/2F_s给出弧度/采样中的角频率ω，其中，f是单位为Hz的信号频率，并且F_s是单位为Hz的采样频率。注意，频谱包络SE_nbin与SE_usnb是不同的，因为前者是从窄带输入语音得出的，而后者是从上采样的窄带语音得出的。然而，在300-3400Hz的通带中，它们通过SE_usnb(ω)≈SE_nbin(2ω)被近似相关为常数。虽然在0-8000(F_s)Hz的范围上定义频谱包络SE_usnb，但是有用的部分位于通带(在该说明性示例中为300-3400Hz)内。

作为关于这一点的一个说明性示例，如下使用FFT来计算SE_usnb。首先，将反向滤波器B_nb(z)的冲激响应计算为适当的长度，例如，1024，如{1，b₁，b₂，…，b_Q，0，0，…，0}。然后，获得冲激响应的FFT，并且通过计算在每个FFT索引的反向幅度来获得幅度频谱包络SE_usnb。对于1024的FFT长度，如上计算的SE_usnb的频率分辨率为16000/1024＝15.625Hz。从SE_usnb，仅通过简单地从大致范围300-3400Hz内提取频谱幅度来估计窄带频谱包络SE_nb。

本领域技术人员应当认识到，除了LP分析之外，还有其他方法来获得给定语音帧的频谱包络，例如，倒谱分析、频谱幅度峰值的分段线性或更高阶曲线拟合等。

高频带频谱估计器510将高频带能量的估计作为输入，并且选择与估计的高频带能量一致的高频带频谱包络形状。接下来，描述提出与不同高频带能量相对应的不同高频带频谱包络形状的技术。

以16kHz采样的宽带语音的大的训练数据库开始，使用标准的LP分析或其他技术来针对每个语音帧计算宽带频谱幅度包络。从每个帧的宽带频谱包络，通过除以3400Hz的频谱幅度来提取和归一化与3400-8000Hz相对应的高频带部分。因此，得到的高频带频谱包络在3400Hz具有0dB的幅度。接下来，计算与每个归一化的高频带包络相对应的高频带能量。然后，基于高频带能量来划分高频带频谱包络的集合，例如，选择相差1dB的标称能量值序列来涵盖整个范围，并且具有在标称值0.5dB内的能量的所有包络被分组在一起。

对于如此形成的每个分组，计算平均高频带频谱包络形状，并且随后计算对应的高频带能量。在图6中，示出了不同能量水平的一组60个高频带频谱包络形状600(其中单位为dB的幅度对单位为Hz的频率)。从附图底部开始计数，使用与前述技术类似的技术来获得第一个、第十个、第二十个、第三十个、第四十个、第五十个和第六十个的形状(这里称作预先计算的形状)。通过在最近的预先计算形状之间进行简单的线性内插(在dB域中)来获得其余的53个形状。

这些形状的能量范围从大约第一个形状的4.5dB到第六十个形状的大约43.5dB。在给出帧的高频能量的情况下，选择在本文中稍后将描述的最接近的匹配的高频带频谱包络形状是简单的问题。所选择的形状将估计的高频带频谱包络SE_hb表示为常数。在图6中，平均能量分辨率大约为0.65dB。显然，通过增加形状数目还能够得到更好的分辨率。在给出图6中的形状的情况下，特定能量的形状的选择是唯一的。还可以考虑对于给定的能量有多于一个的形状的情况，例如，每个能量水平4个形状，并且在该情况下，需要额外的信息来选择每个给定的能量水平的4个形状中的一个。此外，可以具有多组形状，其中每一组由高频带能量来进行索引，例如，可以由发声参数v选择的两组形状，一组用于浊音帧，而另一组用于清音帧。对于混合发声帧，可以适当地合并从两组中选择的两个形状。

上述高频带频谱估计方法提供一些明显的优点。例如，该方式提供了对高频带频谱估计的时间演进的明确的控制。不同语音分段，例如浊音语音、清音语音等内的高频带频谱估计的平滑演进对于无人工信号带宽扩展语音而言常常是重要的。对于上述高频带频谱估计方法，从图6中明显的是，在高频带能量中的小的改变导致在高频带频谱包络形状中的小的改变。因此，实质上可以通过保证不同语音分段中高频带能量的时间演进也是平滑的来保证高频带频谱的平滑演进。这通过如上所述的能量轨迹平滑来明确地实现。

注意，例如通过使用诸如对数频谱失真或基于LP的板仓失真的公知的频谱距离测量中的任何一个来逐个帧地跟踪窄带语音频谱或上采样的窄带语音频谱中的改变，可以以甚至更细的分辨率来识别其中完成了能量平滑的清楚的语音分段。使用该方式，不同的语音分段可以被定义为帧的序列，在该序列中，频谱缓慢演进，并且通过其中所计算的频谱改变超过固定或者自适应的阈值的帧来在每侧上进行归类，从而指示该不同的语音分段的任一侧存在频谱过渡。然后，在该不同的语音分段内，但是不越过分段边界，来对能量轨迹进行平滑化。

这里，高频带能量轨迹的平滑演进转变为估计的高频带频谱包络的平滑演进，这是不同的语音分段内的理想特性。还注意，用于保证不同语音分段内的高频带频谱包络的平滑演进的该方式也可以用作对通过现有技术方法获得的估计的高频带频谱包络的序列的后处理步骤。然而，在该情况下，在不同的语音分段内需要对高频带频谱包络进行明确的平滑化，这与自动地导致高频带频谱包络的平滑演进的当前教导的直接能量轨迹平滑化不同。

低频带(在本说明性示例中可以从0Hz至300Hz)中的窄带语音信号的信息的丢失不是由于如高频带中的情况下的由采样频率所施加的带宽限制而导致的，而是由于信道传递函数的频带限制效应(包括例如，麦克风、放大器、语音编码器、传输信道等等)所导致的。

然后，恢复低频带信号的直接方式抵消在从0Hz至300Hz的范围内的该信道传递函数的效应。实现这一点的简单方式是使用低频带频谱估计器511从可用数据来估计从0Hz至300Hz的频率范围中的信道传递函数，获得其倒数，并且使用该倒数来提升上采样的窄带语音的频谱包络。即，将低频带频谱包络SE_1b估计为SE_usnb与从信道传递函数的倒数来设计的频谱包络提升特性SE_boost的和(假定在对数域中表达频谱包络幅度，例如，dB)。对于很多应用设置，在设计SE_boost时应当注意。因为低频带信号的恢复实质上是基于低水平信号的放大，所以它涉及放大通常与低水平信号相关联的误差、噪声和失真的风险。根据低水平信号的质量，应当适当地限制最大提升值。而且，在从0Hz至大约60Hz的范围内，期望将SE_boost设计为具有低(甚至负，即衰减)值，以避免放大电子嗡嗡声和背景噪声。

然后，宽带频谱估计器512通过可以合并窄带、高频带和低频带中的估计的频谱包络来估计宽带频谱包络。合并这三种包络来估计宽带频谱包络的一种方式如下所述。

如上所述，从来估计窄带频谱包络SE_nb，并且在宽带频谱包络估计SE_wb中在没有任何改变的情况下使用其在从400到3200Hz的范围内的值。为了选择适当的高频带形状，需要高频带能量和在3400Hz处的开始幅度值。如上所述估计单位为dB的高频带能量E_hb。通过利用通过线性回归的直线来对过渡带，即，2500-3400Hz内以dB为单位的

的FFT幅度频谱进行建模并且找到该直线在3400Hz处的值来估计3400Hz处的开始幅度值。使该幅度值由SE₃₄₀₀来表示。然后，将高频带频谱包括形状选择为例如图6中所示的很多值中的一个，其具有最接近E_hb-M₃₄₀₀的能量值。使该形状由SE_closest来表示。然后，高频带频谱包络估计SE_hb以及因此从3400Hz至8000Hz的范围内的宽带频谱包络SE_wb被估计为SE_closest+M₃₄₀₀。

在3200Hz与3400Hz之间，将SE_wb估计为SE_nb和连接3200Hz处的SE_nb和3400Hz处的M₃₄₀₀的直线之间的单位为dB的线性内插值。内插因子本身线性改变，使得估计的SE_wb从3200Hz处的SE_nb逐渐移动到3400Hz处的M₃₄₀₀。在0至400Hz之间，将低频带频谱包络SE_1b和宽带频谱包络SE_wb估计为SE_nb+SE_boost，其中SE_boost表示从上述信道传递函数的倒数适当设计的提升特性。

如上所述，包含节首音和/或***音的帧可能受益于用于避免带宽扩展语音中的偶然人工信号的特殊处理。可能通过相对于前一个帧的能量中的突然增加来识别这样的帧。只要前一个帧的能量低，即，低于特定阈值(例如-50dB)，并且在当前帧相对于前一个帧的能量增加超过另一阈值，例如15dB时，就将用于帧的节首音/***音检测器503的输出d设置为1。否则，将检测器的输出d设置为0。从窄带(即300-3400Hz)内的上采样的窄带语音

的FFT幅度频谱的能量来计算帧能量本身。如上所述，将节首音/***音检测器503的输出d馈送到发声水平估计器502和能量适配器508。如上所述，只要用d＝1将帧标记为包含节首音或***音，就将该帧以及后一个帧的发声水平v设置为1。而且，将该帧以及后一个帧的适配的高频带能量值E_bb设置为低值。替代地，对于这些帧可以全部避免带宽扩展。

本领域技术人员应当认识到，可以结合其他现有技术的带宽扩展***来使用所述高频带能量估计技术，以将对这样的***的人工生成的高频带信号内容调整到适当的能量水平。此外，注意，虽然已经参考了高频带(例如3400-8000Hz)来描述能量估计技术，但是通过适当地重新定义过渡带，该技术也可以用于估计在任何其他频带中的能量。例如，为了估计低频带上下文背景(例如0-300Hz)中的能量，可以将过渡带重新定义为300-600Hz的频带。本领域技术人员还能够认识到，这里所述的高频带能量估计技术可以用于语音/音频编码目的。类似地，这里所述用于估计高频带频谱包络以及高频带激励的技术也可以用于语音/音频编码上下文背景。

注意，虽然已经在如在一些情况下的窄带语音以及在其他情况下的上采样的窄带语音中进行的先前给出的特定示例中描述了诸如频谱包络、零交叉、LP系数和频带能量等的参数的估计，但是本领域技术人员应当认识到，在不脱离所述教导的精神和范围的情况下，对各个参数的估计以及其后续的使用和应用可以根据这两个信号(窄带语音或经过上采样的窄带语音)的任何一个来进行修改。

本领域技术人员应当认识到，在不脱离本发明精神和范围的的情况下，可以做出关于上述实施例的多种修改、替换和合并，并且这样的修改、替换和合并应视作落入本发明的原理的范围内。

Claims

1.一种用于在带宽扩展***中估计高频带能量的方法，包括：

接收包括窄带信号的输入数字音频信号；

对所述输入数字音频信号进行处理以生成处理的数字音频信号；

基于所述处理的数字音频信号的过渡带，来估计与所述输入数字音频信号相对应的高频带能量水平，

至少部分地基于所述高频带能量水平以及与所述高频带能量水平相对应的估计的高频带频谱包络来生成高频带数字音频信号；以及

将所述输入数字音频信号与所述高频带数字音频信号进行合并，以生成具有扩展信号带宽的得到的数字音频信号，

其中所述过渡带是包含在窄带中并且接近高频带的频带。

2.根据权利要求1所述的方法，其中，所述处理包括：对所述输入数字音频信号进行上采样以生成所述处理的数字音频信号。

3.根据权利要求1所述的方法，其中，所述估计包括：通过计算所述处理的数字音频信号的频谱并且将所述过渡带内的频谱分量的能量相加来计算所述输入数字音频信号相对应的高频带能量水平。

4.根据权利要求1所述的方法，其中，所述估计进一步包括：基于所述输入数字音频信号利用至少一个预定的语音参数来生成参数空间。

5.根据权利要求4所述的方法，其中，所述预定的语音参数是零交叉参数、频谱平坦度度量参数、过渡带频谱斜率参数以及过渡带频谱包络形状参数中的至少一个。

6.根据权利要求4所述的方法，其中，所述估计进一步包括：将所述参数空间划分成区域，并且为每个区域指配系数，以估计所述高频带能量水平。

7.根据权利要求1所述的方法，其中，所述窄带信号具有300-3400Hz的频率范围。

8.一种用于在带宽扩展***中估计高频带能量的设备，包括：

接收包括窄带信号的输入数字音频信号的装置；

对所述输入数字音频信号进行处理以生成处理的数字音频信号的装置；

基于所述处理的数字音频信号的过渡带，来估计与所述输入数字音频信号相对应的高频带能量水平的装置，

至少部分地基于所述高频带能量水平以及与所述高频带能量水平相对应的估计的高频带频谱包络来生成高频带数字音频信号的装置；以及

将所述输入数字音频信号与所述高频带数字音频信号进行合并，以生成具有扩展信号带宽的得到的数字音频信号的装置，

其中，所述过渡带是包含在窄带中并且接近高频带的频带。