CN101952889B - 用于在带宽扩展***中估计高频带能量的方法和设备 - Google Patents

用于在带宽扩展***中估计高频带能量的方法和设备 Download PDF

Info

Publication number
CN101952889B
CN101952889B CN200980103691.5A CN200980103691A CN101952889B CN 101952889 B CN101952889 B CN 101952889B CN 200980103691 A CN200980103691 A CN 200980103691A CN 101952889 B CN101952889 B CN 101952889B
Authority
CN
China
Prior art keywords
band
digital audio
signal
frequency band
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200980103691.5A
Other languages
English (en)
Other versions
CN101952889A (zh
Inventor
滕卡斯·V·拉玛巴德兰
马克·A·加休科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Mobility LLC
Google Technology Holdings LLC
Original Assignee
Motorola Mobility LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Mobility LLC filed Critical Motorola Mobility LLC
Publication of CN101952889A publication Critical patent/CN101952889A/zh
Application granted granted Critical
Publication of CN101952889B publication Critical patent/CN101952889B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Monitoring And Testing Of Transmission In General (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephone Function (AREA)

Abstract

一种方法(100),包括:接收(101)包括窄带信号的输入数字音频信号。对输入数字音频信号进行处理(102)以生成处理的数字音频信号。基于窄带带宽的预定上限频率范围内的处理的数字音频信号的过渡带的估计能量来估计(103)与输入数字音频信号相对应的高频带能量水平。基于高频带能量水平以及与高频带能量水平相对应的估计的高频带频谱来生成(104)高频带数字音频信号。

Description

用于在带宽扩展***中估计高频带能量的方法和设备
相关申请
本申请涉及2007年11月29日提交的共同待审的并且共有的申请号为11/946,978的美国专利申请,该申请的全部内容通过引用合并于此。
技术领域
本发明一般地涉及呈现可听内容,并且尤其涉及带宽扩展技术。
背景技术
从数字表示可听地呈现音频内容包括公知范围的努力。在一些应用设置中,数字表示包括与原始音频采样相关的完整的对应带宽。在这样的情况下,可听呈现可以包括高度准确和自然的发声输出。然而,这样的方式要求相当大的开销资源来提供对应的数据量。在诸如无线通信设置的许多应用设置中,不能总是充分支持这样的信息量。
为了适应这样的局限,所谓的窄带语音技术可以用于通过进一步将表示限制为小于与原始音频采样相关的完整的对应带宽来限制信息量。仅作为关于这一点的示例,虽然自然语音包括高达8kHz(或更高)的有效分量,但是窄带表示可以仅提供关于例如300-3400Hz范围的信息。当得到的内容被呈现得可听时,得到的内容通常清晰得足以支持基于语音的通信的功能需要。然而,遗憾的是,窄带语音处理也往往得到听起来压抑的语音,并且与全频带语音相比甚至可能已经降低了清晰度。
为了满足该需要,有时候采用带宽扩展技术。基于可用的窄带信息以及其他信息人工生成较高和/或较低的频带中的丢失的信息来选择能够被添加到窄带内容中的信息,从而合成伪宽带(或全带)信号。
使用这样的技术,例如,能够将在300-3400Hz范围中的窄带语音转换为例如100-8000Hz范围中的宽带语音。为此,所需要的一条关键信息是在高频带(3400-8000Hz)中的频谱包络。如果估计了宽带频谱包络,那么通常可以容易地从宽带频谱包络中提取高频带频谱包络。可以考虑由形状和增益(或者等同地,能量)构成的高频带频谱包络。
例如,通过一种方式,借助于通过码书映射从窄带频谱包络估计宽带频谱包络来估计高频带频谱包络形状。然后,通过调整在宽带频谱包络的窄带部分内的能量以匹配窄带频谱包络的能量来估计高频带能量。在该方式中,高频带频谱包络形状确定高频带能量,并且在估计形状中的任何错误也将相应地影响高频带能量的估计。
在另一种方式中,分别估计高频带频谱包络形状和高频带能量,并且调整最后使用的高频带频谱包络,以匹配估计的高频带能量。通过一种相关的方式,使用除了其他参数之外的估计的高频带能量来确定高频带频谱包络形状。然而,未必保证得到的高频带频谱包络具有适当的高频带能量。因此,需要附加的步骤来将高频带频谱包络的能量调整到估计值。除非特别注意,该方式将在窄带和高频带之间的边界处产生在宽带频谱包络中的不连续。虽然对于带宽扩展,并且特别是对于高频带包络估计的现有方式相当成功,但是在至少一些应用设置中,这些方式未必产生适当质量的得到的语音。
为了生成可接受质量的带宽扩展的语音,应当最小化在这样的语音中的人工信号(artifact)的数目。已知高频带能量的过度估计导致麻烦的人工信号。高频带频谱包络形状的不正确的估计也可能引起人工信号,但是这些人工信号通常不太严重,并且容易被窄带语音所掩盖。
附图说明
通过提供下面详细说明中所述的在带宽扩展***中用于估计高频带能量的方法和设备来至少部分地满足上述需要。附图中相同的附图标记在各个视图中表示相同或功能上类似的元素,并且附图与下面的详细说明一起并入本说明书中并且形成本说明书的一部分,用于进一步图示各种实施例并且用于说明所有根据本发明的各种原理和优点。
图1包括根据本发明的各种实施例配置的流程图;
图2包括根据本发明的各种实施例配置的曲线图;
图3包括根据本发明的各种实施例配置的框图;
图4包括根据本发明的各种实施例配置的框图;
图5包括根据本发明的各种实施例配置的框图;以及
图6包括根据本发明的各种实施例配置的曲线图。
本领域技术人员将认识到,在附图中的元素为了简单和清楚的目的而进行图示,并且不必按照比例绘制。例如,在附图中的一些元素的尺寸和/或相对定位可以相对于其他元素被夸大,以有助于促进对本发明的各种实施例的理解。而且,为了促进对于本发明的这些各种实施例的不太混乱的查看,常常不描绘在商业上可行的实施例中实用或必要的常见而公知的元素。应当进一步认识到,可以以特定的发生顺序来描述或描绘特定的动作和/或步骤,而在本领域中的技术人员将理解,实际上不需要这样的关于顺序的指定。还应当理解,这里所使用的术语和表达具有由如以上阐述的本领域的技术人员给予这样的术语和表达的典型的技术含义,除非这里另外阐述了不同的特定的含义。
具体实施方式
这里讨论的教导针对一种用于人工带宽扩展的有成本效益的方法和***。根据这样的教导,接收窄带数字音频信号。例如,窄带数字音频信号可以是在蜂窝网络中经由移动站接收到的信号,并且窄带数字音频信号可以包括300-3400Hz的频率范围中的语音。人工带宽扩展技术被实现为将数字音频信号的频谱扩展为包括诸如100-300Hz的低频带频率以及诸如3400-8000Hz的高频带频率。通过利用人工带宽扩展来将频谱扩展为包括低频带频率和高频带频率,产生更自然发音的数字音频信号,该信号对实现该技术的移动站的用户而言更令人愉快。
在人工带宽扩展技术中,基于从语音数据库得到并存储的先验信息以及可用的窄带信息,人工地生成较高频带(3400-8000Hz)和较低频带(100-300Hz)中的丢失的信息,并将其添加到窄带信号,以合成伪宽带信号。因为要求对现有传输***的最小的改变,所以这样的解决方案很吸引人。例如,不需要额外的比特率。人工带宽扩展可以被并入在接收端处的后处理元件中,并且因此独立于通信***中使用的语音编码技术或者通信***本身的性质,例如模拟、数字、地上线或蜂窝。例如,可以通过接收窄带数字音频信号的移动站来实现人工带宽扩展技术,并且利用得到的宽带信号来生成向移动站的用户播放的音频。
在确定高频带信息时,首先估计高频带中的能量。利用窄带信号的子集来估计高频带能量。最接近高频带频率的窄带信号的子集通常具有与高频带信号最高的相关性。因此,仅利用窄带的子集而不是整个窄带来估计高频带能量。所使用的子集称为“过渡带”,并且可以包括诸如2500-3400Hz的频率。更特定地,这里将过渡带定义为包含在窄带中并且接近高频带的频带,即,它用作到高频带的过渡。该方式与现有技术的带宽扩展***不同,现有技术的带宽扩展***根据整个窄带中的能量来估计高频带能量,通常为比率。
为了估计高频带能量,首先经由下面关于图4和图5讨论的技术来估计过渡带能量。例如,可以首先通过对输入窄带信号进行上采样、计算上采样的窄带信号的频谱并且然后将过渡带内的频谱分量的能量相加来计算出过渡带的过渡带能量。随后,将估计的过渡带能量作为独立变量***多项式等式中来估计高频带能量。选择多项式等式中的独立变量的不同幂的系数或权重(包括零幂,即,常数项,的系数或权重)来在来自训练语音数据库的大量帧上最小化高频带能量的实际值与估计值之间的均方差。如下面更详细讨论的,通过调节对从窄带信号得到的参数以及从过渡带信号得到的参数的估计,可以进一步提高估计准确度。在已经估计了高频带能量之后,基于高频带能量估计来估计高频带频谱。
通过以该方式来利用过渡带,提供了一种坚固的带宽扩展技术,与在使用整个窄带中的能量来估计高频带能量时可能的音频信号相比,该技术产生更高质量的相应的音频信号。此外,因为带宽扩展技术适用于经由通信***接收到的窄带信号,所以可以在不对现有通信***有过度不利影响的情况下利用该技术,即,可以利用现有通信***来发送窄带信号。
图1图示了根据本发明的各种实施例的用于生成带宽扩展数字音频信号的过程100。首先,在操作101处,接收窄带数字音频信号。在典型的应用设置中,该操作包括提供这样的内容的多个帧。这些教导易于根据上述步骤来处理每个这样的帧。例如,通过一种方式,每个这样的帧可以与原始音频内容的10-40毫秒相对应。
这可以包括,例如,提供包括合成的有声内容的数字音频信号。例如,这是当结合在便携式无线通信装置中接收到的声编码的语音内容来采用这些教导时的情况。然而,本领域的技术人员可以理解,还存在其他可能性。例如,数字音频信号可能替代地包括原始语音信号或者原始语音信号或合成的语音内容的重新采样的版本。
现在参考图2,应当理解,该数字音频信号涉及某个原始音频信号201,其具有原始的对应的信号带宽202。该原始的对应的信号带宽202通常大于前述的与数字音频信号相对应的信号带宽。例如,当数字音频信号仅表示原始音频信号201的一部分203而原始音频信号201的其他部分留在频带外时,这可能发生。在图示的说明性示例中,这包括低频带部分204和高频带部分205。本领域技术人员将认识到,该示例仅用于说明性目的,并且未表示的部分可以仅包括低频带部分或高频带部分。这些教导也适用于在其中未表示的部分落在两个或多个表示的部分(未示出)的中频带的应用设置中进行使用。
因此,容易理解,原始音频信号201的未表示的部分(多个)包括这些现有教导可能合理地设法以一些合理并且可接受的方式来替换或以其他方式表示的内容。还应当理解,该信号带宽仅占用由相关采样频率确定的尼奎斯特带宽的一部分。这进而被理解成进一步提供了其中要实现期望的带宽扩展的频率区域。
返回参考图1,在操作102处对输入数字音频信号进行处理,以生成处理的数字音频信号。通过一种方式,在操作102处的处理是上采样操作。通过另一种方式,它可以是简单的单位增益***,对该***而言输出等于输入。在操作103处,基于窄带带宽的预定的上限频率范围内的处理的数字音频信号的过渡带来估计与输入数字音频信号相对应的高频带能量水平。
通过使用过渡带分量作为估计的基础,获得比在共同使用所有窄带分量来估计高频带分量的能量值时通常所得到的估计更准确的估计。通过一种方式,使用高频带能量值来访问查找表,以确定高频带频谱包络,即正确的能量水平处的适当的高频带频谱包络形状,所述查找表包含多个对应的候选高频带频谱包络形状。
然后,该过程100可选地将数字音频信号和与估计的能量值和高频带分量的频谱相对应的高频带内容进行合并104,以提供要呈现的窄带数字音频信号的带宽扩展版本。虽然图1所示的过程仅图示了添加了估计的高频带分量,但是应当认识到,还可以估计低频带分量并且将其与窄带数字音频信号进行合并,以生成带宽扩展的宽带信号。
当以可听形式进行呈现时,与原始的窄带数字音频信号相比,得到的带宽扩展音频信号(通过将输入数字音频信号与人工生成的信号带宽外内容进行合并所获得)具有改善的音频质量。通过一种方式,这可以包括将关于其频谱内容相互不包括的两个项进行合并。在这样的情况下,这样的合并可以采用例如将两个(或多个)分段简单地连结或以其他方式联合在一起的形式。通过另一种方式,如果期望,高频带带宽内容和/或低频带带宽内容可以具有在数字音频信号的对应信号带宽内的部分。通过将高频带带宽内容和/或低频带带宽内容的重叠部分与数字音频信号的对应的带内部分进行合并,这样的重叠在至少一些应用设置中可以用于将从一个部分到另一个部分的过渡进行平滑化和/和羽化。
本领域技术人员将认识到,使用多种可用和/或容易配置的平台中的任何一个来容易地实现上述过程,该平台包括本领域所公知的部分或整体可编程的平台或者可能期望用于一些应用的专用平台。现在参考图3,现在将提供对于这样的平台的说明性方式。
在该说明性示例中,在设备300中,选择的处理器301可操作地耦合到输入端302,该输入端302被配置和布置成接收具有对应的信号带宽的数字音频信号。当设备300包括无线双向通信装置时,可以由本领域公知的对应的接收器303来提供这样的数字音频信号。在这样的情况下,例如,数字音频信号可以包括根据接收到的声编码的语音内容而形成的合成有声内容。
处理器301进而可以(当处理器301包括本领域所公知的部分或整体可编程的平台时经由例如对应的程序)被配置和布置成执行这里阐述的步骤或者其他功能的一个或多个。这可以包括,例如,从过渡带能量估计高频带能量值,并且然后使用高频带能量值和能量索引的形状的集合来确定高频带频谱包络。
如上所述,通过一种方式,前述高频带能量值可以用于便利访问包含多个对应的候选频谱包络形状的查找表。为了支持这样的方法,如果期望,该设备还可以包括一个或多个查找表304,该一个或多个查找表304可操作地耦合到处理器301。在如此配置的情况下,处理器301可以在适当时容易地访问查找表304。
本领域技术人员将认识和理解,这样的设备300可以由如图3中所示的图示建议的多个物理上不同的元件构成。然而,还能够将该图示看作包括逻辑视图,在该情况下,可以经由共享平台来允许和实现这些元件中的一个或多个。还应当理解,这样的共享平台可以包括如在本领域中公知的整体或至少部分可编程的平台。
应当认识到,上述处理可以由与基站进行无线通信的移动站来执行。例如,基站可以经由传统方式将窄带数字音频信号发射到移动站。一旦接收到该窄带数字音频信号,移动站内的处理器(多个)就执行必要的操作来生成数字音频信号的带宽扩展版本,其对移动站的用户而言更清楚并且在听觉上更令人愉快。
现在参考图4,首先使用对应的上采样器401对以8kHz采样的输入窄带语音snb进行上采样两次,以获得以16kHz采样的上采样的窄带语音
Figure BPA00001188266800081
这可以包括执行1∶2内插(例如,通过在每对原始语音采样之间***零值的采样),此后,使用例如具有在0Hz到3400Hz之间的通带的低通滤波器(LPF)来进行低通滤波。
还使用线性预测(LP)分析器402来从snb计算窄带线性预测(LP)参数Anb={1,a1,a2,…,aP},其中,P是模型阶数,该LP分析器402采用公知的LP分析技术。(当然,存在其他的可能性;例如,可以从
Figure BPA00001188266800082
的2∶1抽样(decimated)版本来计算LP参数。)这些LP参数将窄带输入语音的频谱包络建模为:
SE nbin ( ω ) = 1 1 + a 1 e - jω + a 2 e - j 2 ω + . . . + a P e - jPω
在上述等式中,通过ω=2πf/Fs给出弧度/采样中的角频率ω,其中,f是单位为Hz的信号频率,Fs是单位为Hz的采样频率。对于8kHz的采样频率Fs,适当的模型阶数P例如为10。
然后,使用内插模块403来对LP参数Anb内插两次,以获得
Figure BPA00001188266800091
Figure BPA00001188266800092
使用使用分析滤波器404来对上采样的窄带语音进行反向滤波,以获得LP残差信号
Figure BPA00001188266800095
(还以16kHz进行采样)。通过一种方式,可以通过以下等式来描述该反(或分析)滤波操作:
r ′ nb ( n ) = s ′ nb ( n ) + a 1 s ′ nb ( n - 2 ) + a 2 s ′ nb ( n - 4 ) + . . . + a P s ′ nb ( n - 2 P )
其中,n是采样索引。
在典型的应用设置中,可以在逐帧的基础上来进行
Figure BPA00001188266800097
的反向滤波以获得
Figure BPA00001188266800098
其中,帧被定义为在T秒持续时间上的N个连续采样的序列。对于很多语音信号应用,关于T的良好选择是大约20ms,并且N的相应值在8kHz采样频率为大约160,并且在16kHz采样频率为大约320。连续的帧可以彼此重叠,例如,最多或者大约50%,在该情况下,在当前帧中的采样的后一半和下一个帧中的采样的前一半是相同的,并且每T/2秒地处理新的帧。例如,对于选择T为20ms和50%的重叠,从每10ms 160个连续snb采样来计算LP参数Anb,并且LP参数Anb用于对320个采样的对应
Figure BPA00001188266800099
帧的中间160个采样进行反向滤波,以得到160个
Figure BPA000011882668000910
采样。
还可以直接从上采样的窄带语音来计算反向滤波操作的2P阶LP参数。然而,该方式可能提高计算LP参数和反向滤波操作二者的复杂性,而在一些操作条件下不一定提高性能。
接下来,使用全波整流器405来对LP残差信号进行全波整流,并且(例如,使用具有在3400Hz到8000Hz之间的通带的高通滤波器(HPF)406)对结果进行高通滤波,以获得高频带整流的残差信号rrhb。同时,还对伪随机噪声源407的输出进行高通滤波408,以获得高频带噪声信号nhb。替代地,可以将高通滤波的噪声序列预存储在缓存器(例如,循环缓存器)中并且在需要时进行访问以生成nhb。使用这样的缓存器消除了与实时对伪随机噪声采样进行高通滤波相关联的计算。然后,根据由估计和控制模块(ECM)410(下面将更详细地描述该模块)提供的发声(voicing)水平v来在混合器409中对这两个信号也就是rrhb和nhb进行混合。在该说明性示例中,该发声水平v的范围从0到1,其中,0指示清音水平,并且1指示全浊音的水平。混合器409在保证两个输入信号被调整为具有相同的能量水平之后在其输出处实质上形成两个输入信号的加权和。混合器输出信号mhb由下式给出:
mhb=(v)rrhb+(1-v)nhb
本领域技术人员将认识到,其他混合规则也是可能的。还能够首先对两个信号,即,全波整流的LP残差信号和伪随机噪声信号,进行混合,并且然后对混合的信号进行高通滤波。在该情况下,用置于混合器409的输出处的单个高通滤波器来替代两个高通滤波器406和408。
然后,使用高频带(HB)激励预处理器411对得到的信号mhb进行预处理,以形成高频带激励信号exhb。预处理步骤可以包括:(i)调整混合器输出信号mhb以匹配高频带能量水平Ehb,以及(ii)可选地整形混合器输出信号mhb以匹配高频带频谱包络SEhb。ECM 410将Ehb和SEhb二者提供到HB激励预处理器411。当采用该方式时,它在很多应用设置中可能有助于保证这样的整形不影响混合器输出信号mhb的相位谱;即,优选地可以通过零相位响应滤波器来执行该整形。
使用加法器412将上采样的窄带语音信号与高频带激励信号exhb相加在一起,以形成混合的频带信号将该得到的混合的频带信号
Figure BPA00001188266800103
输入到均衡器滤波器413,该均衡器滤波器413使用由ECM 410提供的宽带频谱包络信息SEwb来对该输入进行滤波,以形成估计的宽带信号
Figure BPA00001188266800111
均衡器滤波器413在输入信号上实质上施加宽带频谱包络SEwb,以形成
Figure BPA00001188266800113
(下面就这一点进一步进行讨论)。例如,使用具有从3400Hz到8000Hz的通带的高通滤波器414来对得到的估计宽带信号
Figure BPA00001188266800114
进行高通滤波,并且例如,使用具有从0Hz到300Hz的通带的低通滤波器415对该得到的估计宽带信号
Figure BPA00001188266800115
进行低通滤波,以分别获得高频带信号
Figure BPA00001188266800116
和低频带信号在另一个加法器416中将这些信号
Figure BPA00001188266800118
以及上采样的窄带信号相加在一起,以形成带宽扩展信号sbwe
本领域技术人员应当认识到,存在能够获得带宽扩展信号sbwe的各种其他滤波器配置。如果均衡器滤波器413准确地保留作为其输入信号
Figure BPA000011882668001110
的一部分的上采样的窄带语音信号
Figure BPA000011882668001111
的频谱内容,则可以将估计的宽带信号
Figure BPA000011882668001112
直接输出为带宽扩展信号sbwe,从而消除高通滤波器414、低通滤波器415以及加法器416。替代地,可以使用两个均衡器滤波器,一个用于恢复低频部分,而另一个用于恢复高频部分,并且可以将前者的输出添加到后者的高通滤波的输出,以获得带宽扩展信号sbwe
本领域技术人员应当理解并且认识到,通过该特定的说明性示例,根据发声水平来将高频带整流残差激励与高频带噪声激励混合在一起。当发声水平是指示清音语音的0时,排他性地使用噪声激励。类似地,当发声水平是指示浊音语音的1时,排他性地使用高频带整流残差激励。当发声水平在指示混合发声的语音的0与1之间时,按照发声水平所确定的适当比例来对两个激励进行混合和使用。因此,混合的高频带激励适合于浊音、清音以及混合发声的声音。
应当进一步理解和认识到,在该说明性示例中,使用均衡器滤波器来合成
Figure BPA000011882668001113
均衡器滤波器将ECM提供的宽带频谱包络SEwb视作理想包络,并且校正(或均衡化)其输入信号
Figure BPA000011882668001114
的频谱包络,以匹配该理想包络。因为在频谱包络均衡中仅涉及幅度,所以将均衡器滤波器的相位响应选取为零。由SEwb(ω)/SEmb(ω)来指定均衡器滤波器的幅度响应。用于语音编码应用的这样的均衡器滤波器的设计和实现包括公知范围的努力。然而,简单而言,均衡器滤波器使用重叠相加(OLA)分析来如下进行操作。
输入信号
Figure BPA00001188266800121
首先被划分为重叠的帧,例如,具有50%的重叠的20ms(以16kHz的320个采样)的帧。然后,采样的每一个帧乘以(点乘)适当的窗口,例如,具有理想重建属性的升余弦窗口。接下来,对加窗的语音帧进行分析,以估计对其频谱包络进行建模的LP参数。由ECM来提供用于该帧的理想宽带频谱包络。从两个频谱包络,均衡器按SEwb(ω)/SEmb(ω)来计算滤波器幅度响应,并且将相位响应设置为零。然后,对输入帧进行均衡化,以获得对应的输出帧。最后,将均衡化的输出帧重叠相加,以合成估计的宽带语音
Figure BPA00001188266800122
本领域技术人员应当认识到,除了LP分析之外,存在其他方法来获得给定语音帧的频谱包络,例如,频谱幅度峰值的分段线性或较高阶曲线拟合、倒谱分析等。
本领域技术人员还应当认识到,作为对输入信号
Figure BPA00001188266800123
直接加窗的替代,可以通过rrhb和nhb的加窗版本来开始,以获得相同的结果。可能还便于保持均衡器滤波器的帧大小和百分比重叠与用于从
Figure BPA00001188266800125
获得
Figure BPA00001188266800126
的分析滤波器块中使用的那些相同。
上述用于合成
Figure BPA00001188266800127
的均衡器滤波器方式提供了很多优点:i)因为均衡器滤波器413的相位响应为零,所以均衡器输出的不同频率分量与输入的对应分量在时间上对准。因为整流的残差高频带激励exhb的高能量分段(诸如,喉脉冲分段)与均衡器输入处的上采样的窄带语音的对应高能量分段在时间上对准,并且在均衡器输出处的该时间对准的维持常常用于保证良好的语音质量,所以这有助于浊音语音;ii)均衡器滤波器413的输入不需要具有在LP合成滤波器的情况下的平坦的频谱;iii)在频域中指定均衡器滤波器413,并且因此在频谱的不同部分上的更好和更精细的控制是可行的;并且iv)能够进行迭代以额外的复杂性和延迟为代价来改善滤波效率(例如,可以将均衡器输出反馈到输入以反复进行均衡,以改善性能)。
现在将提出关于所述配置的一些附加细节。
高频带激励预处理:均衡器滤波器413的幅度响应由SEwb(ω)/SEmb(ω)给出,并且均衡器滤波器413的相位响应可以被设置为零。输入频谱包络SEmb(ω)越接近理想的频谱包络SEwb(ω),均衡器就越容易将输入频谱包络校正为匹配理想频谱包络。高频带激励预处理器411的至少一个功能是使SEmb(ω)更接近SEwb(ω),并且因此使均衡器滤波器413的工作更容易。首先,这通过将混合器输出信号mhb调整到ECM 410提供的正确的高频带能量水平Ehb来完成。然后,可选地对混合器输出信号mhb进行整形,使得在不影响其相位谱的情况下,其频谱包络匹配ECM 410提供的高频带频谱包络SEhb。第二步骤实质上可以包括预均衡步骤。
低频带激励:与由至少部分地通过采样频率施加的带宽限制造成的在高频带中信息的丢失不同,窄带信号的低频带(0-300Hz)中信息的丢失至少大部分是由于信道传递函数的频带限制效应(包括,例如,麦克风、放大器、语音编码器、传输信道等等)所致。因此,在干净的窄带信号中,低频带信息仍然存在,但是处于极低的水平。可以以直接(straight forward)的方式来放大该低水平信息,以恢复原始信号。但是在该过程中应当注意,因为低水平信息容易受到误差、噪声和失真的破坏。一种替代方案是类似于前述的高频带激励信号合成低频带激励信号。即,以类似于形成高频带混合器输出信号mhb的方式,通过对低频带整流残差信号rr1b与低频带噪声信号n1b进行混合来形成低频带激励信号。
现在参考图5,估计和控制模块(ECM)410将窄带语音snb、上采样的窄带语音以及窄带LP参数Anb作为输入,并且提供发声水平v、高频带能量Ehb、高频带频谱包络SEhb以及宽带频谱包络SEwb作为输出。
发声水平估计:为了估计发声水平,零交叉计算器501如下计算窄带语音snb的每个帧中的零交叉zc的数:
zc = 1 2 ( N - 1 ) Σ n = 0 N - 2 | Sgn ( s nb ( n ) ) - Sgn ( s nb ( n + 1 ) ) |
其中
Figure BPA00001188266800143
n是采样索引,并且N是采样中的帧大小。便于将ECM 410中使用的帧大小和百分比重叠保持与均衡器滤波器413和分析滤波器块中使用的那些相同,例如,参考前述的说明性值,T=20ms,对于8kHz的采样N=160,对于16kHz的采样N=320,并且重叠为50%。如上计算的zc参数值范围从0到1。从zc参数,发声水平估计器502可以如下估计发声水平v:
其中,ZClow和ZChigh分别表示适当选择的低阈值和高阈值,例如,ZClow=0.40和ZChigh=0.45。还可以将节首音(onset)/***音(plosive)检测器503的输出d馈送到发声水平检测器502。如果用d=1来将帧标记为包含节首音或***音,则可以将该帧以及后一个帧的发声水平设置为1。再次提醒,通过一种方式,当发声水平为1时,排他性地使用高频带整流的残差激励。因为整流的残差激励紧随上采样的窄带语音的能量对时间的轮廓,因此降低了由于带宽扩展信号中的时间离散所导致的前回声型人工信号的可能性,所以比起仅噪声或混合高频带激励,这在节首音/***音方面是有利的。
为了估计高频带能量,过渡带能量估计器504从上采样的窄带语音信号
Figure BPA00001188266800151
来估计过渡带能量。这里将过渡带定义为包含在窄带中并且接近高频带的频带,即,它用作到高频带的过渡(在本说明性示例中它大约是2500-3400Hz)。直观地,可以预期高频带能量与过渡带能量紧密相关,这在实验中得到证实。用于计算过渡带能量Etb的简单方式是(例如,通过快速傅立叶变换(FFT))计算的频谱,并且将过渡带内频谱分量的能量相加。
从单位为dB的过渡带能量Etb,按照下式来估计单位为dB的高频带能量:
Ehb0=αEtb+β,
其中,选择系数α和β以最小化在来自训练语音数据库的大量帧上的高频带能量的实际值与估计值之间的均方误差。
可以通过采用来自额外的语音参数的上下文背景信息来进一步提高估计准确度,该额外的语音参数诸如零交叉参数zc和可以由过渡带斜率估计器505提供的过渡带频谱斜率参数s1。如上所述的零交叉参数表示语音发声水平。斜率参数指示过渡带内的频谱能量的改变的比率。可以借助于例如通过线性回归将过渡带内的频谱包络(单位是dB)近似为直线并且计算其斜率来从窄带LP参数Anb估计斜率参数。然后,将zc-s1参数平面划分成多个区域,并且为每个区域单独选择系数α和β。例如,如果zc和s1参数的范围均被划分成8个相等的间隔,则zc-s1参数平面被划分成64个区域,并且选择64组α和β系数,每个区域一组。
通过另一种方式(图5中未示出),如下实现估计准确度的进一步改进。注意,作为斜率参数s1(其只是过渡带内频谱包络的第一阶表示)的替代,可以采用更高分辨率表示来提高高频带能量估计器的性能。例如,可以使用过渡带频谱包络形状(单位是dB)的矢量量化表示。作为一个说明性示例,矢量量化器(VQ)码书包括64个形状,该64个形状称为过渡带频谱包络形状参数tbs,根据大的训练数据库来计算该参数。可以用tbs参数来代替zc-s1参数平面中的s1参数,以实现改善的性能。然而,通过另一种方式,引入称为频谱平坦度度量sfm的第三参数。频谱平坦度度量被定义为在适当的频率范围内(例如300-3400Hz)的窄带频谱包络(单位是dB)的几何平均值与算术平均值的比率。sfm参数指示频谱包络有多平坦——该示例中范围从有峰包络的大约为0到完全平坦的包络的1。sfm参数还涉及语音的发声水平,但是与zc的方式不同。在一种方式中,将三维zc-sfm-tbs参数空间划分为如下多个区域。将zc-sfm平面划分成12个区域,从而在三维空间中产生12×64=768个可能的区域。然而,并非所有这些区域都有来自训练数据库的足够的数据点。因此,对于很多应用设置,将有用区域的数目限制为大约500,并且为这些区域的每一个选择单独的一组α和β系数。
高频带能量估计器506可以通过在估计Ehb0中使用更高幂的Etb来提供估计准确度方面的额外改善,例如,
Ehb0=α4Etb 43Etb 32Etb 21Etb
在该情况下,为zc-s1参数平面的每个分区(替代地,为zc-sfm-tbs参数空间的每个分区)选择5个不同的系数,即,α4、α3、α2、α1和β。因为用于估计Ehb0的以上的等式(参考第69段和第74段)是非线性的,所以必须特别注意按照输入信号水平的改变,即,能量的改变,来调整估计的高频能量。实现这一点的一种方式是估计单位为dB的输入信号水平,向上或向下调整Etb以与标称信号水平相对应,估计Ehb0,并且向上或向下调整Ehb0以与实际信号水平相对应。
虽然上述高频带能量估计方法可以非常好的用于大多数帧,但是偶尔存在对其而言高频带能量被严重高估或严重低估的帧。可以通过包括平滑滤波器的能量轨迹平滑器507来至少部分地校正这样的估计误差。可以设计平滑滤波器,使得允许能量轨迹中的实际过渡(例如在浊音分段与清音分段的过渡)不受影响地通过,但是校正例如在浊音分段或清音分段内的其他平滑化能量轨迹中的偶尔的严重误差。为此,适当的滤波器是中值滤波器,例如,以下等式所述的3点中值滤波器:
Ehb1(k)=median(Ehb0(k-1),Ehb0(k),Ehb0(k+1))
其中,k是帧索引,median(.)运算符选择其三个自变量的中值。该3点中值滤波器引入一个帧的延迟。还可以设计用于平滑化能量轨迹的具有延迟或没有延迟的其他类型的滤波器。
可以通过能量适配器508来进一步适配平滑的能量值Ehb1,以获得最终的适配的高频带能量估计Ehb。该适配可以涉及:基于通过节首音/***音检测器503输出的d参数和/或发声水平参数v来降低或提高平滑的能量值。通过一种方式,因为高频带频谱的选择可能依赖于估计的能量,所以适配高频带能量值不仅改变该能量水平,还改变频谱包络形状。
基于发声水平参数v,可以如下实现能量适配。对于与清音帧相对应的v=0,稍微增加平滑的能量值Ehb1,例如,增加3dB,以获得适配的能量值Ehb。与窄带输入相比,增加的能量水平强调在带宽扩展输出中的清音语音,并且还有助于选择用于清音分段更适当的频谱包络形状。对于与浊音帧相对应的v=1,稍微降低平滑的能量值Ehb1,例如,减少6dB,以获得适配的能量值Ehb。稍微降低的能量水平有助于掩盖对浊音分段的频谱包络形状的选择中的任何误差以及得到的噪声人工信号。
当发声水平v在与混合发声帧相对应的0与1之间时,不进行能量值的适配。这样的混合发声帧仅表示所有帧中的一小部分,并且未适配的能量值良好地适用于这样的帧。基于节首音/***音检测器的输出d,如下进行能量适配。当d=1时,指示对应的帧包含节首音,例如,从静默到清音或浊音声音的过渡,或者诸如/t/的***音。在该情况下,特定帧以及后一个帧的高频带能量被适配为很低的值,使得其高频带能量内容在带宽扩展语音中为低。这有助于避免与这样的帧相关联的偶然的人工信号。对于d=0,不进行能量的进一步适配;即,保留如上所述的基于发声水平v的能量适配。
接下来,描述宽带频谱包络SEwb的估计。为了估计SEwb,可以单独地估计窄带频谱包络SEnb、高频带频谱包络SEhb以及低频带频谱包络SE1b,并且将这三个包络合并在一起。
窄带频谱估计器509可以从上采样的窄带语音
Figure BPA00001188266800181
来估计窄带频谱包络SEnb。从
Figure BPA00001188266800182
首先使用公知的LP分析技术来计算LP参数,Bnb={1,b1,b2,…,bQ},其中,Q是模型阶数。对于16kHz的上采样频率,适当的模型阶数Q例如是20。LP参数Bnb将上采样的窄带语音的频谱包络建模为:
SE usnb ( ω ) = 1 1 + b 1 e - jω + b 2 e - j 2 ω + . . . + b Q e - jQω
在上述等式中,由ω=2πf/2Fs给出弧度/采样中的角频率ω,其中,f是单位为Hz的信号频率,并且Fs是单位为Hz的采样频率。注意,频谱包络SEnbin与SEusnb是不同的,因为前者是从窄带输入语音得出的,而后者是从上采样的窄带语音得出的。然而,在300-3400Hz的通带中,它们通过SEusnb(ω)≈SEnbin(2ω)被近似相关为常数。虽然在0-8000(Fs)Hz的范围上定义频谱包络SEusnb,但是有用的部分位于通带(在该说明性示例中为300-3400Hz)内。
作为关于这一点的一个说明性示例,如下使用FFT来计算SEusnb。首先,将反向滤波器Bnb(z)的冲激响应计算为适当的长度,例如,1024,如{1,b1,b2,…,bQ,0,0,…,0}。然后,获得冲激响应的FFT,并且通过计算在每个FFT索引的反向幅度来获得幅度频谱包络SEusnb。对于1024的FFT长度,如上计算的SEusnb的频率分辨率为16000/1024=15.625Hz。从SEusnb,仅通过简单地从大致范围300-3400Hz内提取频谱幅度来估计窄带频谱包络SEnb
本领域技术人员应当认识到,除了LP分析之外,还有其他方法来获得给定语音帧的频谱包络,例如,倒谱分析、频谱幅度峰值的分段线性或更高阶曲线拟合等。
高频带频谱估计器510将高频带能量的估计作为输入,并且选择与估计的高频带能量一致的高频带频谱包络形状。接下来,描述提出与不同高频带能量相对应的不同高频带频谱包络形状的技术。
以16kHz采样的宽带语音的大的训练数据库开始,使用标准的LP分析或其他技术来针对每个语音帧计算宽带频谱幅度包络。从每个帧的宽带频谱包络,通过除以3400Hz的频谱幅度来提取和归一化与3400-8000Hz相对应的高频带部分。因此,得到的高频带频谱包络在3400Hz具有0dB的幅度。接下来,计算与每个归一化的高频带包络相对应的高频带能量。然后,基于高频带能量来划分高频带频谱包络的集合,例如,选择相差1dB的标称能量值序列来涵盖整个范围,并且具有在标称值0.5dB内的能量的所有包络被分组在一起。
对于如此形成的每个分组,计算平均高频带频谱包络形状,并且随后计算对应的高频带能量。在图6中,示出了不同能量水平的一组60个高频带频谱包络形状600(其中单位为dB的幅度对单位为Hz的频率)。从附图底部开始计数,使用与前述技术类似的技术来获得第一个、第十个、第二十个、第三十个、第四十个、第五十个和第六十个的形状(这里称作预先计算的形状)。通过在最近的预先计算形状之间进行简单的线性内插(在dB域中)来获得其余的53个形状。
这些形状的能量范围从大约第一个形状的4.5dB到第六十个形状的大约43.5dB。在给出帧的高频能量的情况下,选择在本文中稍后将描述的最接近的匹配的高频带频谱包络形状是简单的问题。所选择的形状将估计的高频带频谱包络SEhb表示为常数。在图6中,平均能量分辨率大约为0.65dB。显然,通过增加形状数目还能够得到更好的分辨率。在给出图6中的形状的情况下,特定能量的形状的选择是唯一的。还可以考虑对于给定的能量有多于一个的形状的情况,例如,每个能量水平4个形状,并且在该情况下,需要额外的信息来选择每个给定的能量水平的4个形状中的一个。此外,可以具有多组形状,其中每一组由高频带能量来进行索引,例如,可以由发声参数v选择的两组形状,一组用于浊音帧,而另一组用于清音帧。对于混合发声帧,可以适当地合并从两组中选择的两个形状。
上述高频带频谱估计方法提供一些明显的优点。例如,该方式提供了对高频带频谱估计的时间演进的明确的控制。不同语音分段,例如浊音语音、清音语音等内的高频带频谱估计的平滑演进对于无人工信号带宽扩展语音而言常常是重要的。对于上述高频带频谱估计方法,从图6中明显的是,在高频带能量中的小的改变导致在高频带频谱包络形状中的小的改变。因此,实质上可以通过保证不同语音分段中高频带能量的时间演进也是平滑的来保证高频带频谱的平滑演进。这通过如上所述的能量轨迹平滑来明确地实现。
注意,例如通过使用诸如对数频谱失真或基于LP的板仓失真的公知的频谱距离测量中的任何一个来逐个帧地跟踪窄带语音频谱或上采样的窄带语音频谱中的改变,可以以甚至更细的分辨率来识别其中完成了能量平滑的清楚的语音分段。使用该方式,不同的语音分段可以被定义为帧的序列,在该序列中,频谱缓慢演进,并且通过其中所计算的频谱改变超过固定或者自适应的阈值的帧来在每侧上进行归类,从而指示该不同的语音分段的任一侧存在频谱过渡。然后,在该不同的语音分段内,但是不越过分段边界,来对能量轨迹进行平滑化。
这里,高频带能量轨迹的平滑演进转变为估计的高频带频谱包络的平滑演进,这是不同的语音分段内的理想特性。还注意,用于保证不同语音分段内的高频带频谱包络的平滑演进的该方式也可以用作对通过现有技术方法获得的估计的高频带频谱包络的序列的后处理步骤。然而,在该情况下,在不同的语音分段内需要对高频带频谱包络进行明确的平滑化,这与自动地导致高频带频谱包络的平滑演进的当前教导的直接能量轨迹平滑化不同。
低频带(在本说明性示例中可以从0Hz至300Hz)中的窄带语音信号的信息的丢失不是由于如高频带中的情况下的由采样频率所施加的带宽限制而导致的,而是由于信道传递函数的频带限制效应(包括例如,麦克风、放大器、语音编码器、传输信道等等)所导致的。
然后,恢复低频带信号的直接方式抵消在从0Hz至300Hz的范围内的该信道传递函数的效应。实现这一点的简单方式是使用低频带频谱估计器511从可用数据来估计从0Hz至300Hz的频率范围中的信道传递函数,获得其倒数,并且使用该倒数来提升上采样的窄带语音的频谱包络。即,将低频带频谱包络SE1b估计为SEusnb与从信道传递函数的倒数来设计的频谱包络提升特性SEboost的和(假定在对数域中表达频谱包络幅度,例如,dB)。对于很多应用设置,在设计SEboost时应当注意。因为低频带信号的恢复实质上是基于低水平信号的放大,所以它涉及放大通常与低水平信号相关联的误差、噪声和失真的风险。根据低水平信号的质量,应当适当地限制最大提升值。而且,在从0Hz至大约60Hz的范围内,期望将SEboost设计为具有低(甚至负,即衰减)值,以避免放大电子嗡嗡声和背景噪声。
然后,宽带频谱估计器512通过可以合并窄带、高频带和低频带中的估计的频谱包络来估计宽带频谱包络。合并这三种包络来估计宽带频谱包络的一种方式如下所述。
如上所述,从来估计窄带频谱包络SEnb,并且在宽带频谱包络估计SEwb中在没有任何改变的情况下使用其在从400到3200Hz的范围内的值。为了选择适当的高频带形状,需要高频带能量和在3400Hz处的开始幅度值。如上所述估计单位为dB的高频带能量Ehb。通过利用通过线性回归的直线来对过渡带,即,2500-3400Hz内以dB为单位的
Figure BPA00001188266800222
的FFT幅度频谱进行建模并且找到该直线在3400Hz处的值来估计3400Hz处的开始幅度值。使该幅度值由SE3400来表示。然后,将高频带频谱包括形状选择为例如图6中所示的很多值中的一个,其具有最接近Ehb-M3400的能量值。使该形状由SEclosest来表示。然后,高频带频谱包络估计SEhb以及因此从3400Hz至8000Hz的范围内的宽带频谱包络SEwb被估计为SEclosest+M3400
在3200Hz与3400Hz之间,将SEwb估计为SEnb和连接3200Hz处的SEnb和3400Hz处的M3400的直线之间的单位为dB的线性内插值。内插因子本身线性改变,使得估计的SEwb从3200Hz处的SEnb逐渐移动到3400Hz处的M3400。在0至400Hz之间,将低频带频谱包络SE1b和宽带频谱包络SEwb估计为SEnb+SEboost,其中SEboost表示从上述信道传递函数的倒数适当设计的提升特性。
如上所述,包含节首音和/或***音的帧可能受益于用于避免带宽扩展语音中的偶然人工信号的特殊处理。可能通过相对于前一个帧的能量中的突然增加来识别这样的帧。只要前一个帧的能量低,即,低于特定阈值(例如-50dB),并且在当前帧相对于前一个帧的能量增加超过另一阈值,例如15dB时,就将用于帧的节首音/***音检测器503的输出d设置为1。否则,将检测器的输出d设置为0。从窄带(即300-3400Hz)内的上采样的窄带语音
Figure BPA00001188266800223
的FFT幅度频谱的能量来计算帧能量本身。如上所述,将节首音/***音检测器503的输出d馈送到发声水平估计器502和能量适配器508。如上所述,只要用d=1将帧标记为包含节首音或***音,就将该帧以及后一个帧的发声水平v设置为1。而且,将该帧以及后一个帧的适配的高频带能量值Ebb设置为低值。替代地,对于这些帧可以全部避免带宽扩展。
本领域技术人员应当认识到,可以结合其他现有技术的带宽扩展***来使用所述高频带能量估计技术,以将对这样的***的人工生成的高频带信号内容调整到适当的能量水平。此外,注意,虽然已经参考了高频带(例如3400-8000Hz)来描述能量估计技术,但是通过适当地重新定义过渡带,该技术也可以用于估计在任何其他频带中的能量。例如,为了估计低频带上下文背景(例如0-300Hz)中的能量,可以将过渡带重新定义为300-600Hz的频带。本领域技术人员还能够认识到,这里所述的高频带能量估计技术可以用于语音/音频编码目的。类似地,这里所述用于估计高频带频谱包络以及高频带激励的技术也可以用于语音/音频编码上下文背景。
注意,虽然已经在如在一些情况下的窄带语音以及在其他情况下的上采样的窄带语音中进行的先前给出的特定示例中描述了诸如频谱包络、零交叉、LP系数和频带能量等的参数的估计,但是本领域技术人员应当认识到,在不脱离所述教导的精神和范围的情况下,对各个参数的估计以及其后续的使用和应用可以根据这两个信号(窄带语音或经过上采样的窄带语音)的任何一个来进行修改。
本领域技术人员应当认识到,在不脱离本发明精神和范围的的情况下,可以做出关于上述实施例的多种修改、替换和合并,并且这样的修改、替换和合并应视作落入本发明的原理的范围内。

Claims (8)

1.一种用于在带宽扩展***中估计高频带能量的方法,包括:
接收包括窄带信号的输入数字音频信号;
对所述输入数字音频信号进行处理以生成处理的数字音频信号;
基于所述处理的数字音频信号的过渡带,来估计与所述输入数字音频信号相对应的高频带能量水平,
至少部分地基于所述高频带能量水平以及与所述高频带能量水平相对应的估计的高频带频谱包络来生成高频带数字音频信号;以及
将所述输入数字音频信号与所述高频带数字音频信号进行合并,以生成具有扩展信号带宽的得到的数字音频信号,
其中所述过渡带是包含在窄带中并且接近高频带的频带。
2.根据权利要求1所述的方法,其中,所述处理包括:对所述输入数字音频信号进行上采样以生成所述处理的数字音频信号。
3.根据权利要求1所述的方法,其中,所述估计包括:通过计算所述处理的数字音频信号的频谱并且将所述过渡带内的频谱分量的能量相加来计算所述输入数字音频信号相对应的高频带能量水平。
4.根据权利要求1所述的方法,其中,所述估计进一步包括:基于所述输入数字音频信号利用至少一个预定的语音参数来生成参数空间。
5.根据权利要求4所述的方法,其中,所述预定的语音参数是零交叉参数、频谱平坦度度量参数、过渡带频谱斜率参数以及过渡带频谱包络形状参数中的至少一个。
6.根据权利要求4所述的方法,其中,所述估计进一步包括:将所述参数空间划分成区域,并且为每个区域指配系数,以估计所述高频带能量水平。
7.根据权利要求1所述的方法,其中,所述窄带信号具有300-3400Hz的频率范围。
8.一种用于在带宽扩展***中估计高频带能量的设备,包括:
接收包括窄带信号的输入数字音频信号的装置;
对所述输入数字音频信号进行处理以生成处理的数字音频信号的装置;
基于所述处理的数字音频信号的过渡带,来估计与所述输入数字音频信号相对应的高频带能量水平的装置,
至少部分地基于所述高频带能量水平以及与所述高频带能量水平相对应的估计的高频带频谱包络来生成高频带数字音频信号的装置;以及
将所述输入数字音频信号与所述高频带数字音频信号进行合并,以生成具有扩展信号带宽的得到的数字音频信号的装置,
其中,所述过渡带是包含在窄带中并且接近高频带的频带。
CN200980103691.5A 2008-02-01 2009-01-28 用于在带宽扩展***中估计高频带能量的方法和设备 Active CN101952889B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/024,620 2008-02-01
US12/024,620 US8433582B2 (en) 2008-02-01 2008-02-01 Method and apparatus for estimating high-band energy in a bandwidth extension system
PCT/US2009/032256 WO2009099835A1 (en) 2008-02-01 2009-01-28 Method and apparatus for estimating high-band energy in a bandwidth extension system

Publications (2)

Publication Number Publication Date
CN101952889A CN101952889A (zh) 2011-01-19
CN101952889B true CN101952889B (zh) 2013-03-20

Family

ID=40578428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200980103691.5A Active CN101952889B (zh) 2008-02-01 2009-01-28 用于在带宽扩展***中估计高频带能量的方法和设备

Country Status (8)

Country Link
US (1) US8433582B2 (zh)
EP (1) EP2238594B1 (zh)
KR (1) KR101214684B1 (zh)
CN (1) CN101952889B (zh)
ES (1) ES2384084T3 (zh)
MX (1) MX2010008279A (zh)
RU (1) RU2464652C2 (zh)
WO (1) WO2009099835A1 (zh)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US8433582B2 (en) 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
US8326641B2 (en) * 2008-03-20 2012-12-04 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding using bandwidth extension in portable terminal
US8463412B2 (en) * 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
US8352279B2 (en) * 2008-09-06 2013-01-08 Huawei Technologies Co., Ltd. Efficient temporal envelope coding approach by prediction between low band signal and high band signal
US8831958B2 (en) * 2008-09-25 2014-09-09 Lg Electronics Inc. Method and an apparatus for a bandwidth extension using different schemes
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
JP5812998B2 (ja) * 2009-11-19 2015-11-17 テレフオンアクチーボラゲット エル エム エリクソン(パブル) オーディオコーデックにおけるラウドネスおよびシャープネスの補償のための方法および装置
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5554876B2 (ja) * 2010-04-16 2014-07-23 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. ガイドされた帯域幅拡張およびブラインド帯域幅拡張を用いて広帯域信号を生成するため装置、方法およびコンピュータプログラム
CA2800208C (en) * 2010-05-25 2016-05-17 Nokia Corporation A bandwidth extender
JP5589631B2 (ja) 2010-07-15 2014-09-17 富士通株式会社 音声処理装置、音声処理方法および電話装置
US8560330B2 (en) * 2010-07-19 2013-10-15 Futurewei Technologies, Inc. Energy envelope perceptual correction for high band coding
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP5552988B2 (ja) * 2010-09-27 2014-07-16 富士通株式会社 音声帯域拡張装置および音声帯域拡張方法
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JP6140685B2 (ja) * 2012-03-23 2017-05-31 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 帯域パワー算出装置及び帯域パワー算出方法
CN103928029B (zh) * 2013-01-11 2017-02-08 华为技术有限公司 音频信号编码和解码方法、音频信号编码和解码装置
BR112015031605B1 (pt) * 2013-06-21 2022-03-29 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Decodificador de áudio tendo um módulo de extensão de largura de banda com um módulo de ajuste de energia
CN105531762B (zh) 2013-09-19 2019-10-01 索尼公司 编码装置和方法、解码装置和方法以及程序
CA3162763A1 (en) 2013-12-27 2015-07-02 Sony Corporation Decoding apparatus and method, and program
CN105225671B (zh) 2014-06-26 2016-10-26 华为技术有限公司 编解码方法、装置及***
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
EP3382704A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a predetermined characteristic related to a spectral enhancement processing of an audio signal
US20190051286A1 (en) * 2017-08-14 2019-02-14 Microsoft Technology Licensing, Llc Normalization of high band signals in network telephony communications
TWI684368B (zh) * 2017-10-18 2020-02-01 宏達國際電子股份有限公司 獲取高音質音訊轉換資訊的方法、電子裝置及記錄媒體
CN111386568B (zh) 2017-10-27 2023-10-13 弗劳恩霍夫应用研究促进协会 使用神经网络处理器生成带宽增强的音频信号的装置、方法或计算机可读存储介质
CN110290746B (zh) 2017-12-30 2022-04-22 深圳迈瑞生物医疗电子股份有限公司 一种高频射频干扰去除装置及方法
US11574051B2 (en) * 2018-08-02 2023-02-07 Fortinet, Inc. Malware identification using multiple artificial neural networks
WO2020041497A1 (en) * 2018-08-21 2020-02-27 2Hz, Inc. Speech enhancement and noise suppression systems and methods
CN109819376B (zh) * 2019-01-21 2020-11-06 北京小唱科技有限公司 对音频进行动态均衡调节的方法及装置
US20200366690A1 (en) * 2019-05-16 2020-11-19 Nec Laboratories America, Inc. Adaptive neural networks for node classification in dynamic networks
CN110265064B (zh) * 2019-06-12 2021-10-08 腾讯音乐娱乐科技(深圳)有限公司 音频爆音检测方法、装置和存储介质
EP4127984B1 (en) * 2020-04-01 2024-02-21 Telefonaktiebolaget LM Ericsson (publ) Neural network watermarking
CN112019282B (zh) * 2020-08-13 2022-10-28 西安烽火电子科技有限责任公司 一种短波时变信道衰落带宽估计方法
CN112233685B (zh) * 2020-09-08 2024-04-19 厦门亿联网络技术股份有限公司 基于深度学习注意力机制的频带扩展方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1185616A (zh) * 1996-10-24 1998-06-24 索尼公司 音频带宽扩展***和方法
CN1669073A (zh) * 2002-07-19 2005-09-14 日本电气株式会社 音频解码设备以及解码方法和程序

Family Cites Families (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4771465A (en) * 1986-09-11 1988-09-13 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech sinusoidal vocoder with transmission of only subset of harmonics
JPH02166198A (ja) 1988-12-20 1990-06-26 Asahi Glass Co Ltd ドライクリーニング用洗浄剤
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
US5245589A (en) * 1992-03-20 1993-09-14 Abel Jonathan S Method and apparatus for processing signals to extract narrow bandwidth features
JP2779886B2 (ja) * 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
JPH07160299A (ja) * 1993-12-06 1995-06-23 Hitachi Denshi Ltd 音声信号帯域圧縮伸張装置並びに音声信号の帯域圧縮伝送方式及び再生方式
DE69619284T3 (de) * 1995-03-13 2006-04-27 Matsushita Electric Industrial Co., Ltd., Kadoma Vorrichtung zur Erweiterung der Sprachbandbreite
JP3522954B2 (ja) * 1996-03-15 2004-04-26 株式会社東芝 マイクロホンアレイ入力型音声認識装置及び方法
US5794185A (en) * 1996-06-14 1998-08-11 Motorola, Inc. Method and apparatus for speech coding using ensemble statistics
US5949878A (en) * 1996-06-28 1999-09-07 Transcrypt International, Inc. Method and apparatus for providing voice privacy in electronic communication systems
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6453287B1 (en) * 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
JP2000305599A (ja) * 1999-04-22 2000-11-02 Sony Corp 音声合成装置及び方法、電話装置並びにプログラム提供媒体
US7330814B2 (en) * 2000-05-22 2008-02-12 Texas Instruments Incorporated Wideband speech coding with modulated noise highband excitation system and method
SE0001926D0 (sv) * 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
DE10041512B4 (de) * 2000-08-24 2005-05-04 Infineon Technologies Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
WO2002029782A1 (en) * 2000-10-02 2002-04-11 The Regents Of The University Of California Perceptual harmonic cepstral coefficients as the front-end for speech recognition
US6990446B1 (en) * 2000-10-10 2006-01-24 Microsoft Corporation Method and apparatus using spectral addition for speaker recognition
US6889182B2 (en) * 2001-01-12 2005-05-03 Telefonaktiebolaget L M Ericsson (Publ) Speech bandwidth extension
ATE319162T1 (de) * 2001-01-19 2006-03-15 Koninkl Philips Electronics Nv Breitband-signalübertragungssystem
SE522553C2 (sv) * 2001-04-23 2004-02-17 Ericsson Telefon Ab L M Bandbreddsutsträckning av akustiska signaler
JP3597808B2 (ja) 2001-09-28 2004-12-08 トヨタ自動車株式会社 無段変速機の滑り検出装置
US6895375B2 (en) * 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
US6988066B2 (en) * 2001-10-04 2006-01-17 At&T Corp. Method of bandwidth extension for narrow-band speech
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
JP3861770B2 (ja) * 2002-08-21 2006-12-20 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
KR100917464B1 (ko) * 2003-03-07 2009-09-14 삼성전자주식회사 대역 확장 기법을 이용한 디지털 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치
US20050004793A1 (en) * 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
US20050065784A1 (en) * 2003-07-31 2005-03-24 Mcaulay Robert J. Modification of acoustic signals using sinusoidal analysis and synthesis
US7461003B1 (en) * 2003-10-22 2008-12-02 Tellabs Operations, Inc. Methods and apparatus for improving the quality of speech signals
JP2005136647A (ja) * 2003-10-30 2005-05-26 New Japan Radio Co Ltd 低音ブースト回路
KR100587953B1 (ko) * 2003-12-26 2006-06-08 한국전자통신연구원 대역-분할 광대역 음성 코덱에서의 고대역 오류 은닉 장치 및 그를 이용한 비트스트림 복호화 시스템
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
US7460990B2 (en) * 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
KR100708121B1 (ko) 2005-01-22 2007-04-16 삼성전자주식회사 음성 신호의 대역 확장 방법 및 장치
EP1864281A1 (en) * 2005-04-01 2007-12-12 QUALCOMM Incorporated Systems, methods, and apparatus for highband burst suppression
US20060224381A1 (en) * 2005-04-04 2006-10-05 Nokia Corporation Detecting speech frames belonging to a low energy sequence
US8249861B2 (en) * 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration
PL1875463T3 (pl) * 2005-04-22 2019-03-29 Qualcomm Incorporated Układy, sposoby i urządzenie do wygładzania współczynnika wzmocnienia
US8311840B2 (en) * 2005-06-28 2012-11-13 Qnx Software Systems Limited Frequency extension of harmonic signals
KR101171098B1 (ko) * 2005-07-22 2012-08-20 삼성전자주식회사 혼합 구조의 스케일러블 음성 부호화 방법 및 장치
EP1772855B1 (en) * 2005-10-07 2013-09-18 Nuance Communications, Inc. Method for extending the spectral bandwidth of a speech signal
US7953605B2 (en) * 2005-10-07 2011-05-31 Deepen Sinha Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension
US7490036B2 (en) * 2005-10-20 2009-02-10 Motorola, Inc. Adaptive equalizer for a coded speech signal
US20070109977A1 (en) * 2005-11-14 2007-05-17 Udar Mittal Method and apparatus for improving listener differentiation of talkers during a conference call
KR100717058B1 (ko) * 2005-11-28 2007-05-14 삼성전자주식회사 고주파 성분 복원 방법 및 그 장치
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
US7835904B2 (en) * 2006-03-03 2010-11-16 Microsoft Corp. Perceptual, scalable audio compression
US7844453B2 (en) * 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US20080004866A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Artificial Bandwidth Expansion Method For A Multichannel Signal
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
DE602006009927D1 (de) 2006-08-22 2009-12-03 Harman Becker Automotive Sys Verfahren und System zur Bereitstellung eines Tonsignals mit erweiterter Bandbreite
US8639500B2 (en) * 2006-11-17 2014-01-28 Samsung Electronics Co., Ltd. Method, medium, and apparatus with bandwidth extension encoding and/or decoding
US8229106B2 (en) * 2007-01-22 2012-07-24 D.S.P. Group, Ltd. Apparatus and methods for enhancement of speech
FR2918636B1 (fr) 2007-07-10 2009-10-23 Eads Europ Aeronautic Defence Avion a confort acoustique ameliore
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US8433582B2 (en) 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
US8463412B2 (en) * 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1185616A (zh) * 1996-10-24 1998-06-24 索尼公司 音频带宽扩展***和方法
CN1669073A (zh) * 2002-07-19 2005-09-14 日本电气株式会社 音频解码设备以及解码方法和程序

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Mattias Nilsson et al.Avoiding over-estimation in bandwidth extension of telephony speech.《Proceedings of 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing》.2001,第2卷869-872. *

Also Published As

Publication number Publication date
WO2009099835A1 (en) 2009-08-13
US8433582B2 (en) 2013-04-30
KR20100106559A (ko) 2010-10-01
ES2384084T3 (es) 2012-06-29
EP2238594B1 (en) 2012-05-16
EP2238594A1 (en) 2010-10-13
KR101214684B1 (ko) 2012-12-21
RU2010136648A (ru) 2012-03-10
CN101952889A (zh) 2011-01-19
US20090198498A1 (en) 2009-08-06
RU2464652C2 (ru) 2012-10-20
MX2010008279A (es) 2010-08-30

Similar Documents

Publication Publication Date Title
CN101952889B (zh) 用于在带宽扩展***中估计高频带能量的方法和设备
CN101878416B (zh) 音频信号的带宽扩展的方法和设备
CN101939783A (zh) 用于在带宽扩展***中估计高频带能量的方法和装置
US6988066B2 (en) Method of bandwidth extension for narrow-band speech
US6895375B2 (en) System for bandwidth extension of Narrow-band speech
CN100568345C (zh) 用于人工扩展语音信号的带宽的方法和装置
US9251800B2 (en) Generation of a high band extension of a bandwidth extended audio signal
CN102341852B (zh) 滤波语音信号的方法和滤波器
US9252728B2 (en) Non-speech content for low rate CELP decoder
Ganapathy et al. Robust feature extraction using modulation filtering of autoregressive models
CN103155034A (zh) 基于celp的语音编码器中的音频信号带宽扩展
CN105103228A (zh) 用于使用增强信号成形技术产生频率增强信号的装置及方法
Kornagel Techniques for artificial bandwidth extension of telephone speech
CN101622668B (zh) 电信网络中的方法和装置
Alku et al. Linear predictive method for improved spectral modeling of lower frequencies of speech with small prediction orders
US20220277754A1 (en) Multi-lag format for audio coding

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: Illinois State

Patentee after: MOTOROLA MOBILITY LLC

Address before: Illinois State

Patentee before: MOTOROLA MOBILITY, Inc.

TR01 Transfer of patent right

Effective date of registration: 20160411

Address after: California, USA

Patentee after: Google Technology Holdings LLC

Address before: Illinois State

Patentee before: MOTOROLA MOBILITY LLC