CN107408392A - 音频带宽选择 - Google Patents

音频带宽选择 Download PDF

Info

Publication number
CN107408392A
CN107408392A CN201680017331.3A CN201680017331A CN107408392A CN 107408392 A CN107408392 A CN 107408392A CN 201680017331 A CN201680017331 A CN 201680017331A CN 107408392 A CN107408392 A CN 107408392A
Authority
CN
China
Prior art keywords
audio frame
frame
decoder
audio
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201680017331.3A
Other languages
English (en)
Other versions
CN107408392A8 (zh
CN107408392B (zh
Inventor
芬卡特拉曼·S·阿提
文卡塔·萨伯拉曼亚姆·强卓·赛克哈尔·奇比亚姆
维韦克·拉金德朗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN107408392A publication Critical patent/CN107408392A/zh
Publication of CN107408392A8 publication Critical patent/CN107408392A8/zh
Application granted granted Critical
Publication of CN107408392B publication Critical patent/CN107408392B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephone Function (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

一种装置包含经配置以接收音频流的音频帧的接收器。所述装置还包含解码器,其经配置以产生与所述音频帧相关联的第一经解码语音,且确定被分类为与频带有限内容相关联的音频帧的计数。所述解码器经进一步配置以基于所述第一经解码语音输出第二经解码语音。可根据所述解码器的输出模式产生所述第二经解码语音。可至少部分基于音频帧的所述计数而选择所述输出模式。

Description

音频带宽选择
相关申请案的交叉参考
本申请案请求2016年3月29日提交的名称为“音频带宽选择(AUDIO BANDWIDTHSELECTION)”的美国专利申请案第15/083,717号以及2015年4月5日提交的名称为“音频带宽选择(AUDIO BANDWIDTH SELECTION)”的美国临时专利申请案第62/143,158号的权益,所述申请案明确地以全文引用的方式并入本文中。
技术领域
本发明大体上涉及音频带宽选择。
背景技术
装置之间的音频内容的发射可使用一或多个频率范围进行。音频内容可具有小于编码器带宽且小于解码器带宽的带宽。在编码及解码音频内容之后,经解码音频内容可包含到高于初始音频内容的带宽的频带中的频谱能量泄漏,其可不利地影响经解码音频内容的质量。举例来说,窄带内容(例如,0到4千赫兹(kHz)的第一频率范围内的音频内容)可使用在0到8kHz的第二频率范围内操作的宽带译码器进行编码及解码。当使用宽带译码器编码/解码窄带内容时,宽带译码器的输出可包含高于初始窄带信号的带宽的频带中的频谱能量泄漏。噪声可降级初始窄带内容的音频质量。经降级音频质量可由非线性功率放大或由动态范围压缩放大,其可实施于输出窄带内容的移动装置的话音处理链中。
发明内容
在特定方面中,一种装置包含经配置以接收音频流的音频帧的接收器。所述装置还包含解码器,其经配置以产生与所述音频帧相关联的第一经解码语音,且确定被分类为与频带有限内容相关联的音频帧的计数。所述解码器经进一步配置以基于所述第一经解码语音输出第二经解码语音。可根据所述解码器的输出模式而产生所述第二经解码语音。可至少部分基于所述音频帧计数而选择所述输出模式。
在另一特定方面中,一种方法包含在解码器处产生与音频流的音频帧相关联的第一经解码语音。所述方法还包含:至少部分基于被分类为与频带有限内容相关联的音频帧的数目而确定所述解码器的输出模式。所述方法进一步包含基于所述第一经解码语音而输出第二经解码语音。可根据所述输出模式而产生所述第二经解码语音。
在另一特定方面中,一种方法包含在解码器处接收音频流的多个音频帧。所述方法进一步包含:响应于接收第一音频帧,在所述解码器处确定对应于所述多个音频帧中与频带有限内容相关联的音频帧的相对计数的度量。所述方法还包含:基于所述解码器的输出模式选择阈值,且基于所述度量与所述阈值的比较而将所述输出模式从第一模式更新到第二模式。
在另一特定方面中,一种方法包含在解码器处接收音频流的第音频帧。所述方法还包含:确定在所述解码器处所接收且被分类为与宽带内容相关联的包含所述第一音频帧的连续音频帧的数目。所述方法进一步包含:响应于连续音频帧的所述数目大于或等于阈值,将与所述第一音频帧相关联的输出模式确定为宽带模式。
在另一特定方面中,一种装置包含用于产生与音频流的音频帧相关联的第一经解码语音的装置。所述装置还包含:用于至少部分基于被分类为与频带有限内容相关联的音频帧的数目而确定解码器的输出模式的装置。所述装置进一步包含用于基于所述第一经解码语音而输出第二经解码语音的装置。可根据所述输出模式而产生所述第二经解码语音。
在另一特定方面中,一种计算机可读存储装置,其存储指令,所述指令当由处理器执行时使得所述处理器执行包含以下的操作:产生与音频流的音频帧相关联的第一经解码语音,及至少部分基于被分类为与频带有限内容相关联的音频帧的计数而确定解码器的输出模式。所述操作还包含基于所述第一经解码语音输出第二经解码语音。可根据所述输出模式而产生所述第二经解码语音。
本发明的其它方面、优点和特征将在审阅申请案之后变得显而易见,所述申请案包含以下部分:附图说明、实施方式及权利要求书。
附图说明
图1是***的实例的框图,所述***包含解码器且可操作以基于音频帧选择输出模式;
图2包含说明基于带宽的音频帧分类的实例的曲线图;
图3包含用以说明图1的解码器的操作的方面的表;
图4包含用以说明图1的解码器的操作的方面的表;
图5为说明操作解码器的方法的实例的流程图;
图6为说明分类音频帧的方法的实例的流程图;
图7为说明操作解码器的方法的另一实例的流程图;
图8为说明操作解码器的方法的另一实例的流程图;
图9是装置的特定说明性实例的框图,所述装置可操作以检测频带有限内容;及
图10是基站的特定说明性方面的框图,所述基站可操作以选择编码器。
具体实施方式
下文参考图式描述本发明的特定方面。在描述中,共同特征通过共同参考编号指示。如本文所使用,各种术语仅仅用于描述特定实施方案的目的,且并不打算限制实施方案。举例来说,除非上下文以其它方式明确地指示,否则单数形式“一”及“所述”打算同样包含复数形式。可进一步理解,术语“包括”可与“包含”互换使用。另外,应理解,术语“其中”可与“在…的情况下”互换使用。如本文中所使用,用以修饰元件(例如,结构、组件、操作等等)的序数术语(例如,“第一”、“第二”、“第三”等等)本身不指示元件相对于另一元件的任何优先性或次序,而是仅将元件与具有相同名称(如果不使用序数术语)的另一元件区别开。如本文所使用,术语“集合”指一或多个特定元件,且术语“多个”指多个(例如,两个或多于两个)特定元件。
在本发明中,在解码器处接收的音频包(例如,经编码音频帧)可经解码以产生与频率范围(例如,宽带频率范围)相关联的经解码语音。解码器可检测经解码语音是否包含与频率范围的第一子范围(例如,低频带)相关联的频带有限内容。如果经解码语音包含频带有限内容,那么解码器可进一步处理经解码语音以去除与频率范围的第二子范围(例如,高频带)相关联的音频内容。通过去除与高频带相关联的音频内容(例如,频谱能量泄漏),解码器可输出频带有限(例如,窄带)语音,而不管最初将音频包解码为具有较大带宽(例如,遍及宽带频率范围)。另外,通过去除与高频带相关联的音频内容(例如,频谱能量泄漏),在编码及解码频带有限内容之后的音频质量可得以改进(例如,通过衰减输入信号带宽上的频谱泄漏)。
为进行说明,对于在解码器处接收的每个音频帧,解码器可将音频帧分类为与宽带内容或窄带内容(例如,窄带频带有限内容)相关联。举例来说,对于特定音频帧,解码器可确定与低频带相关联的第一能量值,且可确定与高频带相关联的第二能量值。在一些实施方案中,第一能量值可与低频带的平均能量值相关联,且第二能量值可与高频带的能量峰值相关联。如果第一能量值与第二能量值的比大于阈值(例如,512),那么特定帧可被分类为与频带有限内容相关联。在分贝(dB)域中,所述比可解译为差。(例如,(第一能量)/(第二能量)>512等于10*log10(第一能量/第二能量)=10*log10(第一能量)-10*log10(第二能量)>27.097dB)。
可基于多个音频帧的分类器选择解码器的输出模式(例如输出语音模式,例如,宽带模式或频带有限模式)。举例来说,输出模式可对应于解码器的合成器的操作模式,例如解码器的合成器的合成模式。为选择输出模式,解码器可识别一组最近所接收的音频帧,且确定被分类为与频带有限内容相关联的帧的数目。如果输出模式被设定成宽带模式,那么被分类为具有频带有限内容的帧的数目可与特定阈值进行比较。如果与频带有限内容相关联的帧的数目大于或等于特定阈值,那么输出模式可从宽带模式变化到频带有限模式。如果输出模式被设定成频带有限模式(例如,窄带模式),那么被分类为具有频带有限内容的帧的数目可与第二阈值进行比较。第二阈值可为低于特定阈值的值。如果帧的数目小于或等于第二阈值,那么输出模式可从频带有限模式变化到宽带模式。通过基于输出模式使用不同阈值,解码器可提供滞后,从而可帮助避免不同输出模式之间的频繁切换。举例来说,如果实施单个阈值,那么当帧的数目在大于或等于单个阈值与小于单个阈值之间逐个帧地来回振荡时,输出模式将在宽带模式与频带有限模式之间频繁切换。
另外地或替代地,响应于解码器接收被分类为宽带音频帧的特定数目个连续音频帧,输出模式可从频带有限模式变化到宽带模式。举例来说,解码器可监视所接收的音频帧,以检测被分类为宽带帧的经连续接收的音频帧的特定数目。如果输出模式为频带有限模式(例如,窄带模式)且经连续接收的音频帧的特定数目大于或等于阈值(例如,20),那么解码器可将输出模式从频带有限模式转变到宽带模式。通过从频带有限输出模式转变到宽带输出模式,解码器可提供原本将在解码器保持于频带有限输出模式中的情况下受到抑制的宽带内容。
由所公开方面中的至少一者提供的一个特定优点为:经配置以解码宽带频率范围上的音频帧的解码器可选择性地在窄带频率范围上输出频带有限内容。举例来说,解码器可通过去除高频带频率的频谱能量泄漏来选择性地输出频带有限内容。去除频谱能量泄漏可减少频带有限内容的音频质量的降级,原本在频谱能量泄漏未被去除的情况下会体验所述降级。另外,解码器可使用不同阈值确定何时将输出模式从宽带模式切换到频带有限模式及何时从频带有限模式切换到宽带模式。通过使用不同阈值,解码器可避免在短时段期间于多个模式之间反复转变。另外,通过监视所接收的音频帧以检测被分类为宽带帧的连续接收音频帧的特定数目,解码器可从频带有限模式快速转变到宽带模式,以提供原本会在解码器保持为频带有限模式的情况下受到抑制的宽带内容。
参考图1,公开了可操作以检测频带有限内容的***的特定说明性方面,且通常将其指定为100。***100可包含第一装置102(例如,源装置)及第二装置120(例如,目的地装置)。第一装置102可包含编码器104,且第二装置120可包含解码器122。第一装置102可通过网络(图中未示)与第二装置120通信。举例来说,第一装置102可经配置以将例如音频帧112(例如,经编码音频数据)的音频数据发射到第二装置120。另外地或替代地,第二装置120可经配置以将音频数据发射到第一装置102。
第一装置102可经配置以使用编码器104来编码输入音频数据110(例如,语音数据)。举例来说,编码器104可经配置以编码输入音频数据110(例如,通过远程麦克风或位于第一装置102本地的麦克风以无线方式接收的语音数据),以产生音频帧112。编码器104可分析输入音频数据110以提取一或多个参数,且可将所述参数量化成二进制表示,例如,将其量化成位集合或二进制数据包,例如音频帧112。为进行说明,编码器104可经配置以将语音信号压缩成时间块、划分成时间块,或进行所述两个操作以产生帧。可将每个时间块(或“帧”)的持续时间选择为足够短的,使得可预期信号的频谱包络保持相对固定。在一些实施方案中,第一装置102可包含多个编码器,例如经配置以编码语音内容的编码器104,及经配置以编码非语音内容(例如,音乐内容)的另一编码器(图中未示)。
编码器104可经配置以按采样率(Fs)对输入音频数据110进行采样。以赫兹(Hz)为单位的采样率(Fs)为每秒的输入音频数据110的样本数目。输入音频数据110的信号带宽(例如,输入内容)可理论上介于零(0)与一半采样率(Fs/2)之间,例如范围[0,(Fs/2)]。如果信号带宽小于Fs/2,那么输入信号(例如,输入音频数据110)可被称为频带有限的。另外,频带有限信号的内容可被称为频带有限内容。
经译码带宽可指示音频译码器(编码解码器)译码的频率范围。在一些实施方案中,音频译码器(编码解码器)可包含例如编码器104的编码器、例如解码器122的解码器,或所述两者。如本文中所描述,使用如16千赫兹(kHz)的经解码语音的采样率提供***100的实例,这使得信号带宽可能为8kHz。8kHz的带宽可对应于宽带(“WB”)。4kHz的经译码带宽可对应于窄带(“NB”),且可指示译码处于0到4kHz的范围内的信息,而所述0到4kHz范围之外的其它信息被舍弃。
在一些方面中,编码器104可提供等于输入音频数据110的信号带宽的经编码带宽。如果经译码带宽大于信号带宽(例如,输入信号带宽),那么信号编码及发射可归因于数据被用以编码输入音频数据110并不包含信号信息的频率范围的内容而具有减少的效率。另外,如果经译码带宽大于信号带宽,那么在使用例如代数码激励线性预测(ACELP)译码器的时域译码器的情况下,可出现到输入信号不具有能量的高于信号带宽的频率区中的能量泄漏。频谱能量泄漏可能不利于与经译码信号相关联的信号质量。或者,如果经译码带宽小于输入信号带宽,那么译码器可不发射包含于输入信号中的全部信息(例如,在经译码信号中,可省略输入信号中所包含的高于Fs/2的频率处的信息)。发射少于输入信号的全部信息可降低经解码语音的可懂度及生动性。
在一些实施方案中,编码器104可包含或对应于适应性多重速率宽带(AMR-WB)编码器。AMR-WB编码器可具有8kHz的译码带宽,且输入音频数据110可具有小于所述译码带宽的输入信号带宽。为进行说明,输入音频数据110可对应于NB输入信号(例如,NB内容),如曲线图150中所说明。在曲线图150中,NB输入信号在4到8kHz区中具有零能量(即,并不包含频谱能量泄漏)。编码器104(例如,AMR-WB编码器)可产生音频帧112,在曲线图160中,所述音频帧在被解码时包含4到8kHz范围中的泄漏能量。在一些实施方案中,可在无线通信中在第一装置102处从耦合到第一装置102的装置(图中未示)接收输入音频数据110。或者,输入音频数据110可包含由第一装置102例如通过第一装置102的麦克风接收的音频数据。在一些实施方案中,输入音频数据110可包含于音频流中。可从耦合到第一装置102的装置接收音频流的一部分,且可通过第一装置102的麦克风接收音频流的另一部分。
在其它实施方案中,编码器104可包含或对应于具有AMR-WB互操作性模式的增强型话音服务(EVS)编码解码器。当经配置以在AMR-WB互操作性模式中操作时,编码器104可经配置以支持与AMR-WB编码器相同的译码带宽。
音频帧112可从第一装置102发射(例如,以无线方式发射)到第二装置120。举例来说,可在例如有线网络连接、无线网络连接,或其组合的通信信道上将音频帧112发射到第二装置120的接收器(图中未示)。在一些实施方案中,音频帧112可包含于从第一装置102发射到第二装置120的一系列音频帧(例如,音频流)中。在一些实施方案中,指示对应于音频帧112的经译码带宽的信息可包含于音频帧112中。音频帧112可通过基于第三代合作伙伴计划(3GPP)EVS协议的无线网络进行传达。
第二装置120可包含经配置以通过第二装置120的接收器接收音频帧112的解码器122。在一些实施方案中,解码器122可经配置以接收AMR-WB编码器的输出。举例来说,解码器122可包含具有AMR-WB互操作性模式的EVS编码解码器。当经配置以在AMR-WB互操作性模式中操作时,解码器122可经配置以支持与AMR-WB编码器相同的译码带宽。解码器122可经配置以处理数据包(例如,音频帧),以解量化经处理数据包而产生音频参数,且使用经解量化音频参数再合成语音频框。
解码器122可包含第一解码级123、检测器124、第二解码级132。第一解码级123可经配置以处理音频帧112,以产生第一经解码语音114及话音活动性决策(VAD)140。可将第一经解码语音114提供到检测器124,到第二解码级132。VAD 140可由解码器122用以进行一或多个确定,如本文中所描述,可由解码器122输出到解码器122的一或多个其它组件,或其组合。
VAD 140可指示音频帧112是否包含有用的音频内容。有用音频内容的实例为有效语音而非仅仅静默期间的背景噪声。举例来说,解码器122可基于第一经解码语音114确定音频帧112是否是有效的(例如,包含有效语音)。VAD 140可设定成值1,以指示特定帧是“活动的”或“有用的”。或者,VAD 140可设定成值0,以指示特定帧是“非活动”帧,例如不含音频内容的帧(例如,仅包含背景噪声)。尽管VAD 140被描述为由解码器122确定,但在其它实施方案中,VAD 140可由第二装置120的不同于解码器122的组件确定,且可被提供到解码器122。另外地或替代地,尽管VAD 140被描述为基于第一经解码语音114,但在其它实施方案中,VAD 140可直接基于音频帧112。
检测器124可经配置以将音频帧112(例如,第一经解码语音114)分类为与宽带内容或频带有限内容(例如,窄带内容)相关联。举例来说,解码器122可经配置以将音频帧112分类为窄带帧或宽带帧。窄带帧的分类可对应于音频帧112被分类为具有频带有限内容(例如,与频带有限内容相关联)。至少部分基于音频帧112的分类,解码器122可选择输出模式134,例如窄带(NB)模式或宽带(WB)模式。举例来说,输出模式可对应于解码器的合成器的操作模式(例如,合成模式)。
为进行说明,检测器124可包含分类器126、***128及平滑化逻辑130。分类器126可经配置以将音频帧分类为与频带有限内容(例如,NB内容)或宽带内容(例如,WB内容)相关联。在一些实施方案中,分类器126产生活动帧的分类,但并不产生非活动帧的分类。
为确定音频帧112的分类,分类器126可将第一经解码语音114的频率范围划分成多个频带。说明性实例190描绘被划分成多个频带的频率范围。频率范围(例如,宽带)可具有0到8kHz的带宽。频率范围可包含一低频带(例如窄带)及一高频带。低频带可对应于频率范围(例如,窄带)的第一子范围(例如,第一集合),例如0到4kHz。高频带可对应于频率范围的第二子范围(例如,第二集合),例如4到8kHz。宽带可被划分成多个频带,例如频带B0到B7。多个频带中的每一者可具有相同带宽(例如,实例190中的1kHz的带宽)。高频带的一或多个频带可被指定为转变频带。转变频带中的至少一者可邻近于低频带。尽管宽带被说明为划分成8个频带,但在其它实施方案中,宽带可划分成8个以上或8个以下频带。举例来说,作为说明性的非限制性实例,宽带可划分成各具有400Hz的带宽的20个频带。
为说明分类器126的操作,第一经解码语音114(与宽带相关联)可被划分成20个频带。分类器126可确定与低频带的频带相关联的第一能量度量及与高频带的频带相关联的第二能量度量。举例来说,第一能量度量可为低频带的频带的平均能量(或功率)。作为另一实例,第一能量度量可为低频带的频带的子集的平均能量。为进行说明,子集可包含频率范围800到3600Hz内的频带。在一些实施方案中,可在确定第一能量度量之前将权重值(例如,乘数)应用于低频带的一或多个频带。将权重值应用于特定频带可在计算第一能量度量时对特定频带赋予更多优先性。在一些实施方案中,可对低频带中的最接近高频带的一或多个频带赋予优先性。
为确定对应于特定频带的能量的量,分类器126可使用正交镜像滤波器组、带通滤波器、复合低延迟滤波器组、另一组件,或另一技术。另外地或替代地,分类器126可通过对每个频带的信号分量的平方求和来确定特定频带的能量的量。
可基于构成高频带的一或多个频带的能量峰值确定第二能量度量(例如,所述一或多个频带不包含被视为转变频带的频带)。为了进一步解释,为了确定峰值能量,可不考虑高频带的一或多个转变频带。可忽略所述一或多个转变频带,这是因为所述一或多个转变频带相比高频带的其它频带可具有来自低频带内容的较多频谱泄漏。因此,所述一或多个转变频带可不指示高频带包含有意义的内容还是仅包含频谱能量泄漏。举例来说,构成高频带的频带的能量峰值可为第一经解码语音114的在转变频带(例如,具有4.4kHz的上限的转变频带)以上的最大检测频带能量值。
在确定(低频带的)第一能量度量及(高频带的)第二能量度量之后,分类器126可使用第一能量度量及第二能量度量执行比较。举例来说,分类器126可确定第一能量度量与第二能量度量之间的比是否大于或等于阈值量。如果所述比大于阈值量,那么第一经解码语音114可被确定为不具有高频带(例如,4到8kHz)中的有意义的音频内容。举例来说,高频带可被确定为主要包含归因于译码(低频带的)频带有限内容的频谱泄漏。因此,如果所述比大于阈值量,那么音频帧112可被分类为具有频带有限内容(例如,NB内容)。如果所述比小于或等于阈值量,那么音频帧112可被分类为与宽带内容(例如,WB内容)相关联。作为说明性的非限制性实例,阈值量可为例如512的预定值。或者,可基于第一能量度量确定阈值量。举例来说,阈值量可等于第一能量度量除以值512。值512可对应于第一能量度量的对数与第二能量度量的对数之间的约27dB的差(例如,10*log10(第一能量度量)-10*log10(第二能量度量))。在其它实施方案中,可计算第一能量度量与第二能量度量的比,且将其与阈值量进行比较。参考图2描述被分类为具有频带有限内容及宽带内容的音频信号的实例。
***128可经配置以维持由分类器126产生的一或多个分类的纪录。举例来说,***128可包含存储器、缓冲器,或可经配置以跟踪分类的其它数据结构。为进行说明,***128可包含经配置以维持对应于特定数目(例如,100)个最近产生的分类器的数据的缓冲器(例如,分类器126对于100个最近帧的分类输出)。在一些实施方案中,***128可维持每个帧(或每个活动帧)进行更新的纯量值。纯量值可表示由分类器126分类为与频带有限(例如,窄带)内容相关联的帧的相对计数的长期度量。举例来说,纯量值(例如,长期度量)可指示被分类为与频带有限(例如,窄带)内容相关联的所接收帧的百分比。在一些实施方案中,***128可包含一或多个计数器。举例来说,***128可包含:用以计数所接收帧的数目(例如,活动帧的数目)的第一计数器、经配置以计数被分类为具有频带有限内容的帧的数目的第二计数器、经配置以计数被分类为具有宽带内容的帧的数目的第三计数器,或其组合。另外地或替代地,所述一或多个计数器可包含:用以计数被分类为具有频带有限内容的连续(及最近)接收的帧的数目的第四计数器、经配置以计数被分类为具有宽带内容的连续(及最近)接收的帧的数目的第五计数器,或其组合。在一些实施方案中,至少一个计数器可经配置为递增的。在其它实施方案中,至少一个计数器可经配置为递减的。在一些实施方案中,***128可响应于VAD 140指示特定帧是活动帧而递增所接收的活动帧的数目的计数。
平滑化逻辑130可经配置以确定输出模式134,例如选择输出模式134作为宽带模式及频带有限模式(例如,窄带模式)中的一个。举例来说,平滑化逻辑130可经配置以响应于每个音频帧(例如,每个活动音频帧)而确定输出模式134。平滑化逻辑130可实施长期方法以确定输出模式134,使得输出模式134并不在宽带模式与频带有限模式之间频繁交替。
平滑化逻辑130可确定输出模式134,且可将输出模式134的指示提供到第二解码级132。平滑化逻辑130可基于由***128提供的一或多个度量确定输出模式134。作为说明性的非限制性实例,所述一或多个度量可包含:所接收帧的数目、活动帧(例如,由话音活动性决策指示为活动/有用的帧)的数目、被分类为具有频带有限内容的帧的数目、被分类为具有宽带内容的帧的数目等等。可将活动帧的数目测量为从以下二者中的最新事件以来由VAD 140指示(例如,分类)为“活动/有用的”帧的数目:输出模式已显式切换(例如从频带有限模式切换到宽带模式)的上次事件,通信(例如,电话通话)的起点。另外,平滑化逻辑130可基于先前或现存(例如,当前)输出模式及一或多个阈值131确定输出模式134。
在一些实施方案中,平滑化逻辑130可在所接收帧的数目小于或等于第一阈值数目的情况下将输出模式134选择为宽带模式。在额外或替代性实施方案中,平滑化逻辑130可在活动帧的数目小于第二阈值的情况下将输出模式134选择为宽带模式。作为说明性的非限制性实例,第一阈值数目可具有值20、50、250或500。作为说明性的非限制性实例,第二阈值数目可具有值20、50、250或500。如果所接收帧的数目大于第一阈值数目,那么平滑化逻辑130可基于被分类为具有频带有限内容的帧的数目、被分类为具有宽带内容的帧的数目、由分类器126分类为与频带有限内容相关联的帧的相对计数的长期度量、被分类为具有宽带内容的连续(及最近)接收的帧的数目或其组合而确定输出模式134。在满足第一阈值数目之后,检测器124可认为***128已积聚足够分类,从而使平滑化逻辑130能够选择输出模式134,如本文中进一步描述。
为进行说明,在一些实施方案中,平滑化逻辑130可基于被分类为具有频带有限内容的所接收帧的相对计数相比于适应性阈值的比较而选择输出模式134。可从通过***128跟踪的分类的总数确定被分类为具有频带有限内容的所接收帧的相对计数。举例来说,***128可经配置以跟踪特定数目(例如,100)的最近分类的活动帧。为进行说明,所接收活动帧的数目的计数可限制在(例如,受限于)特定数目内。在一些实施方案中,被分类为与频带有限内容相关联的所接收帧的数目可表示为比或百分比以指示被分类为与频带有限内容相关联的帧的相对数目。举例来说,所接收活动帧的数目的计数可对应于一或多个帧的群组,且平滑化逻辑130可确定被分类为与频带有限内容相关联的一或多个帧在群组中的百分比。因此,将所接收帧的数目的计数设定为初始值(例如,值零)可具有将百分比重设为值零的效果。
可通过平滑化逻辑130根据先前输出模式134(例如应用于由解码器122处理的先前音频帧的先前输出模式)选择(例如设定)适应性阈值。举例来说,先前输出模式可为最近使用的输出模式。如果先前输出模式为宽带内容模式,那么可将适应性阈值选择为第一适应性阈值。如果先前输出模式为频带有限内容模式,那么可将适应性阈值选择为第二适应性阈值。第一适应性阈值的值可大于第二适应性阈值的值。举例来说,第一适应性阈值可与值90%相关联,且第二适应性阈值可与值80%相关联。作为另一实例,第一适应性阈值可与值80%相关联,且第二适应性阈值可与值71%相关联。基于先前输出模式将适应性阈值选择为多个阈值中的一者可提供滞后,从而可帮助避免输出模式134在宽带模式与频带有限模式之间频繁切换。
如果适应性阈值为第一适应性阈值(例如,先前输出模式为宽带模式),那么平滑化逻辑130可将被分类为具有频带有限内容的所接收帧的数目与第一适应性阈值进行比较。如果被分类为具有频带有限内容的所接收帧的数目大于或等于第一适应性阈值,那么平滑化逻辑130可将输出模式134选择为频带有限模式。如果被分类为具有频带有限内容的所接收帧的数目小于第一适应性阈值,那么平滑化逻辑130可将先前输出模式(例如,宽带模式)维持作为输出模式134。
如果适应性阈值为第二适应性阈值(例如,先前输出模式为频带有限模式),那么平滑化逻辑130可将被分类为具有频带有限内容的所接收帧的数目与第二适应性阈值进行比较。如果被分类为具有频带有限内容的所接收帧的数目小于或等于第二适应性阈值,那么平滑化逻辑130可将输出模式134选择为宽带模式。如果被分类为与频带有限内容相关联的所接收帧的数目大于第二适应性阈值,那么平滑化逻辑130可将先前输出模式(例如,频带有限模式)维持作为输出模式134。通过在满足第一适应性阈值(例如,较高适应性阈值)时从宽带模式切换到频带有限模式,检测器124可提供频带有限内容由解码器122接收的高概率。另外,通过在满足第二适应性阈值(例如,较低适应性阈值)时从频带有限模式切换到宽带模式,检测器124可响应于频带有限内容由解码器122接收的较低概率而改变模式。
尽管平滑化逻辑130被描述为使用被分类为具有频带有限内容的所接收帧的数目,但在其它实施方案中,平滑化逻辑130可基于被分类为具有宽带内容的所接收帧的相对计数选择输出模式134。举例来说,平滑化逻辑130可将被分类为具有宽带内容的所接收帧的相对计数与设定为第三适应性阈值及第四适应性阈值中的一者的适应性阈值进行比较。第三适应性阈值可具有与10%相关联的值,且第四适应性阈值可具有与20%相关联的值。当先前输出模式为宽带模式时,平滑化逻辑130可将被分类为具有宽带内容的所接收帧的数目与第三适应性阈值进行比较。如果被分类为具有宽带内容的所接收帧的数目小于或等于第三适应性阈值,那么平滑化逻辑130可将输出模式134选择为频带有限模式,否则输出模式134可保持为宽带模式。当先前输出模式为窄带模式时,平滑化逻辑130可将被分类为具有宽带内容的所接收帧的数目与第四适应性阈值进行比较。如果被分类为具有宽带内容的所接收帧的数目大于或等于第四适应性阈值,那么平滑化逻辑130可将输出模式134选择为宽带模式,否则输出模式134可保持为频带有限模式。
在一些实施方案中,平滑化逻辑130可基于被分类为具有宽带内容的连续(及最近)接收的帧的数目确定输出模式134。举例来说,***128可维持被分类为与宽带内容相关联(例如,未被分类为与频带有限内容相关联)的经连续接收活动帧的计数。在一些实施方案中,计数可基于(例如,包含)例如音频帧112的当前帧,只要所述当前帧被识别为活动帧且分类为与宽带内容相关联即可。平滑化逻辑130可获得被分类为与宽带内容相关联的经连续接收活动帧的计数,且可将所述计数与阈值数目进行比较。作为说明性的非限制性实例,阈值数目可具有值7或20。如果计数大于或等于阈值数目,那么平滑化逻辑130可将输出模式134选择为宽带模式。在一些实施方案中,宽带模式可被认为是输出模式134的默认模式,且当计数大于或等于阈值数目时,输出模式134可保持为宽带模式不变。
另外地或替代地,响应于被分类为具有宽带内容的连续(及最近)接收的帧的数目大于或等于阈值数目,平滑化逻辑130可使得跟踪所接收帧的数目(例如,活动帧的数目)的计数器设定成初始值,例如值零。将跟踪所接收帧的数目(例如,活动帧的数目)的计数器设定成值零可具有迫使输出模式134设定成宽带模式的效果。举例来说,至少在所接收帧的数目(例如,活动帧的数目)大于第一阈值数目之前,输出模式134可设定成宽带模式。在一些实施方案中,所接收帧的数目的计数可在输出模式134从频带有限模式(例如,窄带模式)切换到宽带模式后的任何时候设定成初始值。在一些实施方案中,响应于被分类为具有宽带内容的连续(及最近)接收的帧的数目大于或等于阈值数目,跟踪最近分类为具有频带有限内容的帧的相对计数的长期度量可重设成初始值,例如值零。或者,如果被分类为具有宽带内容的连续(及最近)接收的帧的数目小于阈值数目,那么平滑化逻辑130可进行如本文中所描述的一或多个其它确定,以选择(与例如音频帧112的所接收音频帧相关联的)输出模式134。
除平滑化逻辑130将被分类为与宽带内容相关联的经连续接收活动帧的计数与阈值数目进行比较之外或作为其代替,平滑化逻辑130可确定特定数目个最近所接收的活动帧中的被分类为具有宽带内容(例如,未被分类为具有频带有限内容)的经先前接收活动帧的数目。作为说明性的非限制性实例,最近接收的活动帧的特定数目可为20。平滑化逻辑130可将(特定数目个最近接收的活动帧中的)被分类为具有宽带内容的经先前接收活动帧的数目与第二阈值数目(可与适应性阈值具有相同或不同值)进行比较。在一些实施方案中,第二阈值数目为固定(例如,非适应性)阈值。响应于确定被分类为具有宽带内容的经先前接收活动帧的数目被确定为大于或等于第二阈值数目,平滑化逻辑130可执行操作中的一或多者,所述操作与参考平滑化逻辑130确定被分类为与宽带内容相关联的经连续接收活动帧的计数大于阈值数目所描述的相同。响应于确定被分类为具有宽带内容的经先前接收活动帧的数目被确定为小于第二阈值数目,平滑化逻辑130可进行如本文中所描述的一或多个其它确定,以选择(与例如音频帧112的所接收音频帧相关联的)输出模式134。
在一些实施方案中,响应于VAD 140指示音频帧112为活动帧,平滑化逻辑130可确定音频帧112的低频带的平均能量(或低频带的一频带子集的平均能量),例如第一经解码语音114的平均低频带能量(替代地,低频带的频带子集的平均能量)。平滑化逻辑130可将音频帧112的平均低频带能量(或替代地,低频带的频带子集的平均能量)与例如长期度量的阈值能量值进行比较。举例来说,阈值能量值可为多个先前接收的帧的平均低频带能量值的平均值(或替代地,低频带的频带子集的平均能量的平均值)。在一些实施方案中,多个先前接收的帧可包含音频帧112。如果音频帧112的低频带的平均能量值小于多个先前接收的帧的平均低频带能量值,那么***128可选择不使用126对于音频帧112的分类决策更新对应于由分类器126分类为与频带有限内容相关联的帧的相对计数的长期度量的值。或者,如果音频帧112的低频带的平均能量值大于或等于多个先前接收的帧的平均低频带能量值,那么***128可选择使用126对于音频帧112的分类决策更新对应于由分类器126分类为与频带有限相关联的帧的相对计数的长期度量的值。
第二解码级132可根据输出模式134处理第一经解码语音114。举例来说,第二解码级132可接收第一经解码语音114,且根据输出模式134可输出第二经解码语音116。为进行说明,如果输出模式134对应于WB模式,那么第二解码级132可经配置以输出(例如,产生)第一经解码语音114作为第二经解码语音116。或者,如果输出模式134对应于NB模式,那么第二解码级132可选择性地输出第一经解码语音的一部分作为第二经解码语音。举例来说,第二解码级132可经配置以“零化”或替代地衰减第一经解码语音114的高频带内容,且对第一经解码语音114的低频带内容执行最终合成以产生第二经解码语音116。曲线图170说明具有频带有限内容(且不具有高频带内容)的第二经解码语音116的实例。
在操作期间,第二装置120可接收多个音频帧的第一音频帧。举例来说,第一音频帧可对应于音频帧112。VAD 140(例如,数据)可指示第一音频帧为活动帧。响应于接收第一音频帧,分类器126可将第一音频帧的第一分类产生为频带有限帧(例如,窄带帧)。第一分类可存储于***128处。响应于接收到第一音频帧,平滑化逻辑130可确定所接收音频帧的数目小于第一阈值数目。替代地,平滑化逻辑130可确定活动帧的数目(其被测量为从以下二者中的最新事件以来由VAD 140指示(例如,识别)为“活动/有用的”帧的数目:输出模式已显式地从频带有限模式切换到宽带模式的上次事件或通话的起点)小于第二阈值数目。因为所接收音频帧的数目小于第一阈值数目,所以平滑化逻辑130可将对应于输出模式134的第一输出模式(例如,默认模式)选择为宽带模式。可在所接收音频帧的数目小于第一阈值数目的情况下选择默认模式,与关联于频带有限内容的所接收帧的数目无关,且与已被分类为具有宽带内容(例如,不具有频带有限内容)的经连续接收的帧的数目无关。
在接收第一音频帧之后,第二装置可接收多个音频帧中的第二音频帧。举例来说,第二音频帧可为第一音频帧之后的下一所接收帧。VAD 140可指示第二音频帧为活动帧。所接收活动音频帧的数目可响应于第二音频帧为活动帧而递增。
基于第二音频帧为活动帧,分类器126可将第二音频帧的第二分类产生为频带有限帧(例如,窄带帧)。第二分类可存储于***128处。响应于接收第二音频帧,平滑化逻辑130可确定所接收的音频帧(例如,所接收的活动音频帧)的数目大于或等于第一阈值数目。(应注意,标识“第一”及“第二”区分帧,且未必指示在所接收帧的序列中帧的次序或位置。举例来说,第一帧可为帧序列中所接收的第7个帧,且第二帧可为帧序列中的第8个帧。)响应于所接收音频帧的数目大于第一阈值数目,平滑化逻辑130可基于先前输出模式(例如,第一输出模式)设定适应性阈值。举例来说,适应性阈值可被设定成第一适应性阈值,这是因为第一输出模式为宽带模式。
平滑化逻辑130可将被分类为具有频带有限内容的所接收帧的数目与第一适应性阈值进行比较。平滑化逻辑130可确定被分类为具有频带有限内容的所接收帧的数目大于或等于第一适应性阈值,且可将对应于第二音频帧的第二输出模式设定为频带有限模式。举例来说,平滑化逻辑130可将输出模式134更新为频带有限内容模式(例如,NB模式)。
第二装置120的解码器122可经配置以接收例如音频帧112的多个音频帧,且识别具有频带有限内容的一或多个音频帧。基于被分类为具有频带有限内容的帧的数目(被分类为具有宽带内容的帧的数目,或两者),解码器122可经配置以选择性地处理所接收帧,以产生且输出包含频带有限内容(且不包含高频带内容)的经解码语音。解码器122可使用平滑化逻辑130来确保解码器122不在输出宽带经解码语音及频带有限经解码语音之间频繁地切换。另外,通过监视所接收音频帧以检测被分类为宽带帧的经连续接收音频帧的特定数目,解码器122可从频带有限输出模式快速转变到宽带输出模式。通过从频带有限输出模式快速转变到宽带输出模式,解码器122可提供原本将在解码器122保持于频带有限输出模式的情况下受到抑制的宽带内容。使用图1的解码器122可得到改进的信号解码质量以及改进的用户体验。
图2描绘了曲线图,其经描绘为说明音频信号的分类。音频信号的分类可由图1的分类器126执行。第一曲线图200说明将第一音频信号分类为包含频带有限内容。在第一曲线图200中,第一音频信号的低频带部分的平均能级与第一音频信号的高频带部分(不包含转变频带)的峰值能级之间的比大于阈值比。第二曲线图250说明将第二音频信号分类为包含宽带内容。在第二曲线图250中,第二音频信号的低频带部分的平均能级与第二音频信号的高频带部分(不包含转变频带)的峰值能级之间的比小于阈值比。
参考图3和4,描绘了说明与解码器的操作相关联的值的表。所述解码器可对应于图1的解码器122。如图3至4中所使用,音频帧序列指示音频帧在解码器处被接收的次序。分类指示对应于所接收音频帧的分类。每个分类可由图1的分类器126确定。WB的分类对应于被分类为具有宽带内容的帧,且NB的分类对应于被分类为具有频带有限内容的帧。百分比窄带指示被分类为具有频带有限内容的最近接收的帧的百分比。作为说明性的非限制性实例,百分比可基于最近接收的帧的数目,例如200或500个帧。适应性阈值指示可应用于特定帧的百分比窄带以确定将被用以输出与特定帧相关联的音频内容的输出模式的阈值。输出模式指示用以输出与特定帧相关联的音频内容的模式(例如,宽带模式(WB)或频带有限(NB)模式)。输出模式可对应于图1的输出模式134。计数连续WB可指示已被分类为具有宽带内容的经连续接收的帧的数目。活动帧计数指示由解码器接收的活动帧的数目。帧可由例如图1的VAD 140的VAD识别为活动帧(A)或非活动帧(I)。
第一表300说明输出模式的变化及响应于输出模式的变化的适应性阈值的变化。举例来说,可接收帧(c),且可将其分类为与频带有限内容(NB)相关联。响应于接收到帧(c),窄带帧的百分比可大于或等于为90的适应性阈值。因此,输出模式从WB变化到NB,且适应性阈值可经更新为值83,其将应用于随后接收的帧(例如帧(d))。适应性值可维持为值83,直到窄带帧的百分比响应于帧(i)小于适应性阈值83为止。响应于窄带帧的百分比小于为83的适应性阈值,输出模式从NB变化到WB,且适应性阈值可经更新为用于随后接收的帧(例如帧(j))的值90。因此,第一表300说明适应性阈值的变化。
第二表350说明输出模式可响应于已被分类为具有宽带内容的经连续接收的帧的数目(计数连续WB)大于或等于阈值而改变。举例来说,阈值可等于值7。为进行说明,帧(h)可为被分类为宽带帧的第七个依序接收的帧。响应于接收到帧(h),输出模式可从频带有限模式(NB)切换,且设定成宽带模式(WB)。因此,第二表350说明响应于已被分类为具有宽带内容的经连续接收帧的数目而改变输出模式。
第三表400说明直到已由解码器接收阈值数目个活动帧之前不使用被分类为具有频带有限内容的帧的百分比与适应性阈值的比较来确定输出模式的实施方案。举例来说,作为说明性的非限制性实例,活动帧的阈值数目可等于50。帧(a)-(aw)可对应于与宽带内容相关联的输出模式,而不管被分类为具有频带有限内容的帧的百分比。可基于被分类为具有频带有限内容的帧的百分比与适应性阈值的比较确定对应于帧(ax)的输出模式,这是因为活动帧计数可大于或等于阈值数目(例如,50)。因此,第三表400说明禁止改变输出模式,直到已接收阈值数目个活动帧为止。
第四表450说明响应于帧被分类为非活动帧的解码器的操作的实例。另外,第四表450说明直到已由解码器接收阈值数目个活动帧之前不使用被分类为具有频带有限内容的帧的百分比与适应性阈值的比较来确定输出模式。举例来说,作为说明性的非限制性实例,活动帧的阈值数目可等于50。
第四表450说明可不针对被识别为非活动帧的帧确定分类。另外,在确定具有频带有限内容的帧的百分比(百分比窄带)时可不考虑被识别为非活动的帧。因此,如果特定帧被识别为非活动的,那么不将适应性阈值用于比较。此外,识别为非活动的帧的输出模式可为用于最近接收的帧的相同输出模式。因此,第四表450说明响应于包含被识别为非活动帧的一或多个帧的帧序列的解码器操作。
参考图5,公开了操作解码器的方法的特定说明性实例的流程图,且通常将其指定为500。所述解码器可对应于图1的解码器122。举例来说,方法500可由图1的第二装置120(例如,解码器122、第一解码级123、检测器124、第二解码级132)或其组合执行。
方法500包含:在502,在解码器处产生与音频流的音频帧相关联的第一经解码语音。音频帧及第一经解码语音可分别对应于图1的音频帧112及第一经解码语音114。第一经解码语音可包含低频带分量及高频带分量。高频带分量可对应于频谱能量泄漏。
方法500还包含:在504,至少部分基于被分类为与频带有限内容相关联的音频帧的数目而确定解码器的输出模式。举例来说,输出模式可对应于图1的输出模式134。在一些实施方案中,输出模式可被确定为窄带模式或宽带模式。
方法500进一步包含:在506,基于第一经解码语音输出第二经解码语音,其中根据输出模式输出所述第二经解码语音。举例来说,第二经解码语音可包含或对应于图1的第二经解码语音116。如果输出模式为宽带模式,那么第二经解码语音可与第一经解码语音大体上相同。举例来说,如果第二经解码语音与第一经解码语音相同或在第一经解码语音的容限范围内,那么第二经解码语音的带宽与第一经解码语音的带宽大体上相同。容限范围可对应于设计容限、制造容限、与解码器相关联的操作容限(例如,处理容限),或其组合。如果输出模式为窄带模式,那么输出第二经解码语音可包含维持第一经解码语音的低频带分量,且衰减第一经解码语音的高频带分量。另外地或替代地,如果输出模式为窄带模式,那么输出第二经解码语音可包含衰减与第一经解码语音的高频带分量相关联的一或多个频带。在一些实施方案中,高频带分量的衰减或与高频带相关联的频带中的一或多者的衰减可意味着“零化”高频带分量或”零化”与高频带内容相关联的频带中的一或多者。
在一些实施方案中,方法500可包含:确定基于与低频带分量相关联的第一能量度量及与高频带分量相关联的第二能量度量的比值。方法500还可包含将比值与分类阈值进行比较,及响应于比值大于分类阈值而将音频帧分类为与频带有限内容相关联。如果音频帧与频带有限内容相关联,那么输出第二经解码语音可包含:衰减第一经解码语音的高频带分量以产生第二经解码语音。替代地,如果音频帧与频带有限内容相关联,那么输出第二经解码语音可包含将与高频带分量相关联的一或多个频带的能量值设定为特定值以产生第二经解码语音。作为说明性的非限制性实例,特定值可为零。
在一些实施方案中,方法500可包含将音频帧分类为窄带帧或宽带帧。窄带帧的分类对应于与频带有限内容相关联。方法500还可包含:确定对应于多个音频帧中与频带有限内容相关联的音频帧的第二计数的度量值。多个音频帧可对应于在图1的第二装置120处接收的音频流。多个音频帧可包含音频帧(例如,图1的音频帧112)及第二音频帧。举例来说,与频带有限内容相关联的音频帧的第二计数可维持(例如,存储)于图1的***128处。为进行说明,与频带有限内容相关联的音频帧的第二计数可对应于维持于图1的***128处的特定度量值。方法500还可包含:基于度量值(例如,音频帧的第二计数)选择例如参考图1的***100所描述的适应性阈值的阈值。为进行说明,可使用音频帧的第二计数选择与音频帧相关联的输出模式,且可基于输出模式选择适应性阈值。
在一些实施方案中,方法500可包含:确定与多个频带中关联于第一经解码语音的低频带分量的第一集合相关联的第一能量度量,及确定与多个频带中关联于第一经解码语音的高频带分量的第二集合相关联的第二能量度量。确定第一能量度量可包含:确定多个频带的第一集合的频带子集的平均能量值及将第一能量度量设定为等于平均能量值。确定第二能量度量可包含:确定多个频带的第二集合中的具有多个频带的第二集合的最高检测能量值的特定频带,及将第二能量度量设定为等于最高检测能量值。第一子范围及第二子范围可互斥。在一些实施方案中,第一子范围及第二子范围由频率范围的转变频带隔开。
在一些实施方案中,方法500可包含:响应于接收音频流的第二音频帧,确定在解码器处接收且分类为具有宽带内容的连续音频帧的第三计数。举例来说,具有宽带内容的连续音频帧的第三计数可维持(例如,存储)于图1的***128处。方法500可进一步包含:响应于具有宽带内容的连续音频帧的第三计数大于或等于阈值而将输出模式更新为宽带模式。为进行说明,如果在504处确定的输出模式为与频带有限模式相关联,那么输出模式可在具有宽带内容的连续音频帧的第三计数大于或等于阈值的情况下经更新为宽带模式。另外,如果连续音频帧的第三计数大于或等于阈值,那么可独立于基于被分类为具有频带有限内容的音频帧的数目(或被分类为具有宽带内容的帧的数目)与适应性阈值的比较而更新输出模式。
在一些实施方案中,方法500可包含:在解码器处确定对应于多个第二音频帧中与频带有限内容相关联的第二音频帧的相对计数的度量值。在特定实施方案中,确定度量值可响应于接收音频帧而予以执行。举例来说,图1的分类器126可确定对应于与频带有限内容相关联的音频帧的计数的度量值,如参考图1所描述。方法500还可包含基于解码器的输出模式而选择阈值。可基于度量值与阈值的比较而将输出模式从第一模式选择性地更新为第二模式。举例来说,图1的平滑化逻辑130可将输出模式从第一模式选择性地更新为第二模式,如参考图1所描述。
在一些实施方案中,方法500可包含确定音频帧是否为活动帧。举例来说,图1的VAD 140可指示音频帧为活动的还是为非活动的。响应于确定音频帧为活动帧,可确定解码器的输出模式。
在一些实施方案中,方法500可包含在解码器处接收音频流的第二音频帧。举例来说,解码器122可接收图3的音频帧(b)。方法500还可包含确定第二音频帧是否为非活动帧。方法500可进一步包含响应于确定第二音频帧为非活动帧而维持解码器的输出模式。举例来说,分类器126可响应于VAD 140指示第二音频帧为非活动帧而不输出分类,如参考图1所描述。作为另一实例,检测器124可维持先前输出模式,且可响应于VAD 140指示第二音频帧为非活动帧而不根据第二帧确定输出模式134,如参考图1所描述。
在一些实施方案中,方法500可包含在解码器处接收音频流的第二音频帧。举例来说,解码器122可接收图3的音频帧(b)。方法500还可包含:确定在解码器处接收且被分类为与宽带内容相关联的包含第二音频帧的连续音频帧的数目。举例来说,图1的***128可计数且确定被分类为与宽带内容相关联的连续音频帧的数目,如参考图1和3所描述。方法500可进一步包含:响应于被分类为与宽带内容相关联的连续音频帧的数目大于或等于阈值而将与第二音频帧相关联的第二输出模式选择为宽带模式。举例来说,图1的平滑化逻辑130可响应于被分类为与宽带内容相关联的连续音频帧的数目大于或等于阈值而选择输出模式,如参考图3的第二表350所描述。
在一些实施方案中,方法500可包含:选择宽带模式作为与第二音频帧相关联的第二输出模式。方法500还可包含响应于选择宽带模式而将与第二音频帧相关联的输出模式从第一模式更新为宽带模式。方法500可进一步包含:响应于将输出模式从第一模式更新为宽带模式,将所接收音频帧的计数设定为第一初始值,将对应于音频流中与频带有限内容相关联的音频帧的相对计数的度量值设定为第二初始值,或所述两者,如参考图3的第二表350所描述。在一些实施方案中,第一初始值及第二初始值可为相同值,例如零。
在一些实施方案中,方法500可包含在解码器处接收音频流的多个音频帧。多个音频帧可包含所述音频帧及第二音频帧。方法500还可包含:响应于接收第二音频帧,在解码器处确定对应于多个音频帧中与频带有限内容相关联的音频帧的相对计数的度量值。方法500可包含基于解码器的输出模式的第一模式选择阈值。第一模式可与在第二音频帧之前接收的音频帧相关联。方法500可进一步包含基于度量值与阈值的比较而将输出模式从第一模式更新为第二模式。第二模式可与第二音频帧相关联。
在一些实施方案中,方法500可包含:在解码器处确定对应于被分类为与频带有限内容相关联的音频帧的数目的度量值。方法500还可包含基于解码器的先前输出模式而选择阈值。可进一步基于度量值与阈值的比较而确定解码器的输出模式。
在一些实施方案中,方法500可包含在解码器处接收音频流的第二音频帧。方法500还可包含:确定在解码器处接收且被分类为与宽带内容相关联的包含第二音频帧的连续音频帧的数目。方法500可进一步包含:响应于连续音频帧的数目大于或等于阈值而将与第二音频帧相关联的第二输出模式选择为宽带模式。
方法500可因此使得解码器能够选择用以输出与音频帧相关联的音频内容的输出模式。举例来说,如果输出模式为窄带模式,那么解码器可输出与音频帧相关联的窄带内容,且可避免输出与音频帧相关联的高频带内容。
参考图6,公开了处理音频帧的方法的特定说明性实例的流程图,且通常将其指示为600。音频帧可包含或对应于图1的音频帧112。举例来说,方法600可由图1的第二装置120(例如,解码器122、第一解码级123、检测器124、分类器126、第二解码级132),或其组合执行。
方法600包含:在602,在解码器处接收音频流的音频帧,所述音频帧与频率范围相关联。音频帧可对应于图1的音频帧112。频率范围可与例如0到8kHz的宽带频率范围(例如,宽带带宽)相关联。宽带频率范围可包含低频带频率范围及高频带频率范围。
方法600还包含:在604,确定与频率范围的第一子范围相关联的第一能量度量,及在606,确定与频率范围的第二子范围相关联的第二能量度量。第一能量度量及第二能量度量可由图1的解码器122(例如,检测器124)产生。第一子范围可对应于低频带(例如,窄带)的一部分。举例来说,如果低频带具有0到4kHz的带宽,那么第一子范围可具有0.8到3.6kHz的带宽。第一子范围可与音频帧的低频带分量相关联。第二子范围可对应于高频带的一部分。举例来说,如果高频带具有4到8kHz的带宽,那么第二子范围可具有4.4到8kHz的带宽。第二子范围可与音频帧的高频带分量相关联。
方法600进一步包含:在608,基于第一能量度量及第二能量度量确定是否将音频帧分类为与频带有限内容相关联。频带有限内容可对应于音频帧的窄带内容(例如,低频带内容)。包含于音频帧的高频带中的内容可与频谱能量泄漏相关联。第一子范围可包含多个第一频带。多个第一频带的每个频带可具有相同带宽,且确定第一能量度量可包含计算多个第一频带的两个或多于两个频带的平均能量值。第二子范围可包含多个第二频带。多个第二频带的每个频带可具有相同带宽,且确定第二能量度量可包含确定多个第二频带的能量峰值。
在一些实施方案中,第一子范围及第二子范围可互斥。举例来说,第一子范围及第二子范围可由频率范围的转变频带隔开。转变频带可与高频带相关联。
方法600可因此使得解码器能够分类音频帧是否包含频带有限内容(例如,窄带内容)。将音频帧分类为具有频带有限内容可使得解码器能够将解码器的输出模式(例如,合成模式)设定为窄带模式。当输出模式设定为窄带模式时,解码器可输出所接收音频帧的频带有限内容(例如,窄带内容),且可避免输出与所接收音频帧相关联的高频带内容。
参考图7,公开了操作解码器的方法的特定说明性实例的流程图,且通常将其指定为700。所述解码器可对应于图1的解码器122。举例来说,方法700可由图1的第二装置120(例如,解码器122、第一解码级123、检测器124、第二解码级132),或其组合执行。
方法700包含:在702,在解码器处接收音频流的多个音频帧。多个音频帧可包含图1的音频帧112。在一些实施方案中,方法700可包含:对于多个音频帧的每个音频帧,在解码器处确定帧是否与频带有限内容相关联。
方法700包含:在704,响应于接收第一音频帧,在所述解码器处确定对应于多个音频帧中与频带有限内容相关联的音频帧的相对计数的度量值。举例来说,度量值可对应于NB帧的计数。在一些实施方案中,度量值(例如,被分类为与频带有限内容相关联的音频帧的计数)可被确定为帧的数目的百分比(例如,达到最近接收的活动帧的100)。
方法700还包含:在706,基于解码器的输出模式(其与在第一音频帧之前接收的音频流的第二音频帧相关联)选择阈值。举例来说,所述输出模式(例如,一输出模式)可对应于图1的输出模式134。输出模式可为宽带模式或窄带模式(例如,频带有限模式)。阈值可对应于图1的一或多个阈值131。可将阈值选择为具有第一值的宽带阈值或具有第二值的窄带阈值。第一值可大于第二值。响应于确定输出模式为宽带模式,可将宽带阈值选择为阈值。响应于确定输出模式为窄带模式,可将窄带阈值选择为阈值。
方法700可进一步包含:在708,基于度量值与阈值的比较而将输出模式从第一模式更新为第二模式。
在一些实施方案中,可部分基于音频流的第二音频帧选择第一模式,其中在第一音频帧之前接收第二音频帧。举例来说,响应于接收第二音频帧,可将输出模式设定为宽带模式(例如,在这个实例中,第一模式为宽带模式)。在选择阈值之前,对应于第二音频帧的输出模式可经检测为宽带模式。响应于确定输出模式(其对应于第二音频帧)为宽带模式,可选择宽带阈值作为阈值。如果度量值大于或等于宽带阈值,那么可将输出模式(其对应于第一音频帧)更新为窄带模式。
在其它实施方案中,响应于接收第二音频帧,可将输出模式设定为窄带模式(例如,在这个实例中,第一模式为窄带模式)。在选择阈值之前,对应于第二音频帧的输出模式可经检测为窄带模式。响应于确定输出模式(其对应于第二音频帧)为窄带模式,可选择窄带阈值作为阈值。如果度量值小于或等于窄带阈值,那么可将输出模式(其对应于第一音频帧)更新为宽带模式。
在一些实施方案中,与第一音频帧的低频带分量相关联的平均能量值可对应于与第一音频帧的低频带分量的频带子集相关联的特定平均能量。
在一些实施方案中,方法700可包含:对于多个音频帧中的被指示为活动帧的至少一音频帧,在解码器处确定所述至少一音频帧是否与频带有限内容相关联。举例来说,解码器122可如参考图2所描述的基于音频帧112的能级确定音频帧112与频带有限内容相关联。
在一些实施方案中,在确定度量值之前,可将第一音频帧确定为活动帧,且可确定与第一音频帧的低频带分量相关联的平均能量值。响应于确定平均能量值大于阈值能量值,且响应于确定第一音频帧为活动帧,度量值可从第一值更新为第二值。在度量值更新为第二值之后,可响应于接收到第一音频帧而将度量值识别为具有第二值。方法500可包含响应于接收到第一音频帧而识别第二值。举例来说,第一值可对应于宽带阈值,且第二值可对应于窄带阈值。解码器122可在先前经设定为宽带阈值,且解码器可如参考图1和2所描述的响应于接收音频帧112而选择窄带阈值。
另外地或替代地,响应于确定平均能量值小于或等于阈值或第一音频帧不是活动帧,可维持度量值(例如,未被更新)。在一些实施方案中,阈值能量值可基于多个所接收帧的平均低频带能量值,例如过去20个帧(其可包含或可不包含第一音频帧)的平均低频带能量的平均值。在一些实施方案中,阈值能量值可基于从通信(例如,电话通话)的起点接收的多个活动帧(其可包含或可不包含第一音频帧)的经平滑化平均低频带能量。作为实例,阈值能量值可基于从通信的起点接收的所有活动帧的经平滑化平均低频带能量。出于说明的目的,所述平滑化逻辑的特定实例可为:
其中为为从起点(例如,从帧0)起所有活动帧的低频带的经平滑化平均能量,其基于当前音频帧(帧“n”,其在这个实例中也被称为第一音频帧)的平均低频带能量(nrg_LB(n))进行更新,为从起点起的所有活动帧的低频带的不包含当前帧的能量的平均能量(例如,从帧0到帧“n-1”且不包含帧“n”的活动帧的平均值)。
继续所述特定实例,可将第一音频帧的平均低频带能量(nrg_LB(n))与基于位于第一音频帧之前且包含第一音频帧的平均低频带能量的所有帧的平均能量进行计算的低频带的经平滑化平均能量进行比较,如果发现平均低频带能量(nrg_LB(n))大于低频带的经平滑化平均能量那么可基于确定将第一音频帧分类为与宽带内容相关联还是频带有限,更新700中所描述的对应于多个音频帧中与频带有限内容相关联的音频帧的相对计数的度量值,例如参考图6的608处所描述。如果发现平均低频带能量(nrg_LB(n))小于或等于低频带的经平滑化平均能量那么可不更新参考方法700所描述的对应于多个音频帧中与频带有限内容相关联的音频帧的相对计数的度量值。
在替代实施方案中,可用与第一音频帧的低频带分量的频带子集相关联的平均能量值替换与第一音频帧的低频带分量相关联的平均能量值。另外,阈值能量值还可基于过去20个帧(其可包含或可不包含第一音频帧)的平均低频带能量的平均值。替代地,阈值能量值可基于与频带子集相关联的经平滑化平均能量值,其中所述频带子集对应于从例如电话通话的通信的起点开始的所有活动帧的低频带分量。活动帧可包含或可不包含第一音频帧。
在一些实施方案中,对于由VAD指示为非活动帧的多个音频帧的每个音频帧,解码器可将输出模式维持为与最近接收的活动帧的特定模式相同。
方法700可因此使解码器能够更新(或维持)用以输出与所接收音频帧相关联的音频内容的输出模式。举例来说,解码器可基于确定所接收音频帧包含频带有限内容而将输出模式设定为窄带模式。解码器可响应于检测到解码器正在接收不包含频带有限内容的额外音频帧而将输出模式从窄带模式变化为宽带模式。
参考图8,公开了操作解码器的方法的特定说明性实例的流程图,且通常将其指定为800。所述解码器可对应于图1的解码器122。举例来说,方法800可由图1的第二装置120(例如,解码器122、第一解码级123、检测器124、第二解码级132)或其组合执行。
方法800包含:在802,在解码器处接收音频流的第一音频帧。举例来说,第一音频帧可对应于图1的音频帧112。
方法800还包含:在804,确定在解码器处所接收且被分类为与宽带内容相关联的包含第一音频帧的连续音频帧的计数。在一些实施方案中,在804处所参考的计数可替代地为(由例如图1的VAD 140的所接收VAD分类的)连续活动帧的计数,所述连续活动帧包含在解码器处接收且被分类为与宽带内容相关联的第一音频帧。举例来说,连续音频帧的计数可对应于由图1的***128跟踪的连续宽带帧的数目。
方法800进一步包含:在806,响应于连续音频帧的计数大于或等于阈值,将与第一音频帧相关联的输出模式确定为宽带模式。阈值可具有大于或等于一的值。作为说明性的非限制性实例,阈值的值可为二十。
在替代性实施方案中,方法800可包含:维持具有特定大小的队列缓冲器,所述队列缓冲器的大小等于阈值(例如,二十,作为说明性的非限制性实例);及用来自分类器126的过去连续阈值数目个帧(或活动帧)的包含第一音频帧的分类的分类(与宽带内容相关联还是与频带有限内容相关联)更新队列缓冲器。队列缓冲器可包含或对应于图1的***128(或其组件)。如果发现如由队列缓冲器指示的被分类为与频带有限内容相关联的帧(或活动帧)的数目为零,那么其等效于确定包含被分类为宽带的第一帧的连续帧(或活动帧)的数目大于或等于阈值。举例来说,图1的平滑化逻辑130可确定是否发现如由队列缓冲器指示的被分类为与频带有限内容相关联的帧(或活动帧)的数目为零。
在一些实施方案中,响应于接收第一音频帧,方法800可包含:确定第一音频帧为活动帧;及递增所接收帧的计数。举例来说,可基于例如图1的VAD 140的VAD将第一音频帧确定为活动帧。在一些实施方案中,所接收帧的计数可响应于第一音频帧为活动帧而递增。在一些实施方案中,所接收活动帧的计数可限制在(例如,受限于)最大值内。举例来说,作为说明性的非限制性实例,最大值可为100。
另外,响应于接收第一音频帧,方法800可包含:将第一音频帧的分类确定为相关联的宽带内容或窄带内容。可在确定第一音频帧的分类之后确定连续音频帧的数目。在确定连续音频帧的数目之后,方法800可确定所接收帧的计数(或所接收活动帧的计数)是否大于或等于第二阈值,例如作为说明性的非限制性实例为50的阈值。可响应于确定所接收活动帧的计数小于第二阈值而将与第一音频帧相关联的输出模式确定为宽带模式。
在一些实施方案中,方法800可包含:响应于连续音频帧的数目大于或等于阈值,将与第一音频帧相关联的输出模式从第一模式设定为宽带模式。举例来说,第一模式可为窄带模式。响应于基于确定连续音频帧的数目大于或等于阈值而将输出模式从第一模式设定为宽带模式,可将所接收音频帧的计数(或所接收活动帧的计数)设定为初始值,例如值零,作为说明性的非限制性实例。另外地或替代地,响应于基于确定连续音频帧的数目大于或等于阈值而将输出模式从第一模式设定为宽带模式,可将如参考图7的方法700所描述的对应于多个音频帧中与频带有限内容相关联的音频帧的相对计数的度量值设定为初始值,例如值零,作为说明性的非限制性实例。
在一些实施方案中,在更新输出模式之前,方法800可包含:确定被设定为输出模式的先前模式。所述先前模式可与音频流中位于第一音频帧之前的第二音频帧相关联。响应于确定先前模式为宽带模式,可维持先前模式,且所述先前模式可与第一帧相关联(例如,第一模式及第二模式两者均可为宽带模式)。替代地,响应于确定先前模式为窄带模式,可将输出模式从与第二音频帧相关联的窄带模式设定(例如,变化)为与第一音频帧相关联的宽带模式。
方法800可因此使得解码器能够更新(或维持)用以输出与所接收音频帧相关联的音频内容的所述输出模式(例如,一输出模式)。举例来说,解码器可基于确定所接收音频帧包含频带有限内容而将输出模式设定为窄带模式。解码器可响应于检测到解码器正在接收不包含频带有限内容的额外音频帧而将输出模式从窄带模式变化为宽带模式。
在特定方面中,图5至8的方法可由以下实施:场可编程门阵列(FPGA)装置、专用集成电路(ASIC)、例如中央处理单元(CPU)的处理单元、数字信号处理器(DSP)、控制器、另一硬件装置、固件装置,或其任何组合。作为实例,图5至8的方法中的一或多者可单独地或以组合形式由执行指令的处理器执行,如关于图9和10所描述。为进行说明,图5的方法500的一部分可与图6至8的方法中的一者的第二部分组合。
参考图9,描绘了装置(例如,无线通信装置)的特定说明性实例的框图,且通常将其指示为900。在各种实施方案中,装置900可具有比图9中所说明的多或少的组件。在说明性实例中,装置900可对应于图1的***。举例来说,装置900可对应于图1的第一装置102或第二装置120。在说明性实例中,装置900可根据图5至8的方法中的一或多者进行操作。
在特定实施方案中,装置900包含处理器906(例如,CPU)。装置900可包含一或多个额外处理器,例如处理器910(例如,DSP)。处理器910可包含编码解码器908,例如语音编码解码器、音乐编码解码器或其组合。处理器910可包含经配置以执行语音/音乐编码解码器908的操作的一或多个组件(例如,电路)。作为另一实例,处理器910可经配置以执行一或多个计算机可读指令以执行语音/音乐编码解码器908的操作。因此,编码解码器908可包含硬件及软件。尽管语音/音乐编码解码器908被说明为处理器910的组件,但在其它实例中,语音/音乐编码解码器908的一或多个组件可包含于处理器906、编码解码器934、另一处理组件或其组合中。
语音/音乐编码解码器908可包含解码器992,例如声码器解码器。举例来说,解码器992可对应于图1的解码器122。在特定方面中,解码器992可包含经配置以检测音频帧是否包含频带有限内容的检测器994。举例来说,检测器994可对应于图1的检测器124。
装置900可包含存储器932及编码解码器934。编码解码器934可包含数字/模拟转换器(DAC)902及模拟/数字转换器(ADC)904。扬声器936、麦克风938或所述两者可耦合到编码解码器934。编码解码器934可从麦克风938接收模拟信号,使用模拟/数字转换器904将所述模拟信号转换为数字信号,及将所述数字信号提供到语音/音乐编码解码器908。语音/音乐编码解码器908可处理数字信号。在一些实施方案中,语音/音乐编码解码器908可将数字信号提供到编码解码器934。编码解码器934可使用数字/模拟转换器902将数字信号转换为模拟信号,且可将模拟信号提供到扬声器936。
装置900可包含通过收发器950(例如,发射器、接收器或所述两者)耦合到天线942的无线控制器940。装置900可包含存储器932,例如计算机可读存储装置。存储器932可包含指令960,例如可由处理器906、处理器910或其一组合执行以执行图5至8的方法中的一或多者的一或多个指令。
作为说明性实例,存储器932可存储在由处理器906、处理器910或其组合执行时使得处理器906、处理器910或其组合执行包含以下的操作的指令:产生与音频帧(例如,图1的音频帧112)相关联的第一经解码语音(例如,图1的第一经解码语音114);及至少部分基于被分类为与频带有限内容相关联的音频帧的计数而确定解码器(例如,图1的解码器122或解码器992)的输出模式。所述操作可进一步包含:基于第一经解码语音而输出第二经解码语音(例如,图1的第二经解码语音116),其中根据输出模式(例如,图1的输出模式134)产生第二经解码语音。
在一些实施方案中,所述操作可进一步包含:确定与关联于音频帧的频率范围的第一子范围相关联的第一能量度量;及确定与所述频率范围的第二子范围相关联的第二能量度量。所述操作还可包含:基于第一能量度量及第二能量度量而确定将音频帧(例如,图1的音频帧112)分类为与窄带帧相关联或与宽带帧相关联。
在一些实施方案中,所述操作可进一步包含:将音频帧(例如,图1的音频帧112)分类为窄带帧或宽带帧。所述操作还可包含:确定对应于多个音频帧(例如,图3的音频帧a-i)中与频带有限内容相关联的音频帧的第二计数的度量值;及基于所述度量值选择阈值。
在一些实施方案中,所述操作可进一步包含:响应于接收音频流的第二音频帧,确定被分类为具有宽带内容的在解码器处接收的连续音频帧的第三计数。所述操作可包含:响应于连续音频帧的第三计数大于或等于阈值,将输出模式更新为宽带模式。
在一些实施方案中,存储器932可包含可由处理器906、处理器910或其组合执行以使得处理器906、处理器910或其组合执行如参考图1的第二装置120所描述的功能、执行图5至8的方法中的一或多者的至少一部分或其组合的代码(例如,经解译或经编译程序指令)。为进一步说明,实例1描绘可经编译及存储于存储器932中的说明性伪码(例如,简化的浮点中的C代码)。伪码说明关于图1至8描述的方面的可能实施方案。伪码包含并非为可执行码的部分的批注。在伪码中,批注的开端由前向斜线及星号(例如,“/*”)指示,且批注的末端由星号及前向斜线(例如,“*/”)指示。为进行说明,批注“COMMENT”可作为/*COMMENT*/出现在伪码中。
在所提供的实例中,“==“运算符指示等同性比较,从而“A==B”在A的值等于B的值时具有真值,否则具有假值。“&&”运算符指示逻辑AND操作。“||”运算符指示逻辑OR操作。“>”(大于)运算符表示“大于”,“>=”运算符表示“大于或等于”,且“<”运算符指示“小于”。在数字之后的项“f”指示浮点(例如,十进制)数字格式。“st->A”项指示A为状态参数(即,“->“字符并不表示逻辑或算术运算)。
在所提供的实例中,“*”可表示乘法运算,“+”或“sum”可表示加法运算,“-”可指示减法运算,且“/”可表示除法运算。“=“运算符表示赋值(例如,“a=1”将值1赋予到变量“a”)。其它实施方案可包含除实例1的条件集合以外或作为其代替的一或多个条件。
实例1
存储器932可包含可由处理器906、处理器910、编码解码器934、装置900的另一处理单元或其组合执行以执行本文中公开的方法及程序(例如图5至8的方法中的一或多者)的指令960。图1的***100的一或多个组件可通过专用硬件(例如,电路)、通过执行指令(例如,指令960)以执行一或多个任务的处理器,或由其组合实施。作为实例,存储器932或处理器906、处理器910、编码解码器934或其组合的一或多个组件可为存储器装置,例如随机存取存储器(RAM)、磁阻式随机存取存储器(MRAM)、自旋扭矩转移MRAM(STT-MRAM)、闪存、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、缓存器、硬盘、可换磁盘或光盘只读存储器(CD-ROM)。存储器装置可包含指令(例如,指令960),所述指令在由计算机(例如,编码解码器934中的处理器、处理器906、处理器910或其组合)执行时可使计算机执行图5至8的方法中的一或多者的至少一部分。作为实例,存储器932或处理器906、处理器910、编码解码器934的一或多个组件可为包含指令(例如,指令960)的非暂时性计算机可读媒体,所述指令在由计算机(例如,编码解码器934中的处理器、处理器906、处理器910或其组合)执行时使得计算机执行图5至8的方法中的一或多者的至少一部分。举例来说,计算机可读存储装置可包含指令,所述指令在由处理器执行时可使得所述处理器执行包含以下的操作:产生与音频流的音频帧相关联的第一经解码语音,及至少部分基于被分类为与频带有限内容相关联的音频帧的计数而确定解码器的输出模式。所述操作还可包含:基于第一经解码语音输出第二经解码语音,其中根据输出模式产生所述第二经解码语音。
在特定实施方案中,装置900可包含于***级封装或片上***装置922中。在一些实施方案中,存储器932、处理器906、处理器910、显示器控制器926、编码解码器934、无线控制器940及收发器950包含于***级封装或片上***装置922中。在一些实施方案中,输入装置930及电力供应器944耦合到片上***装置922。此外,在特定实施方案中,如图9中所说明,显示器928、输入装置930、扬声器936、麦克风938、天线942及电力供应器944位于片上***装置922外部。在其它实施方案中,显示器928、输入装置930、扬声器936、麦克风938、天线942及电力供应器944中的每一个可耦合到片上***装置922的组件,例如片上***装置922的接口或控制器。在说明性实例中,装置900对应于通信装置、移动通信装置、智能电话、蜂窝电话、膝上型计算机、计算机、平板电脑、个人数字助理、机顶盒、显示装置、电视、游戏主机、音乐播放器、收音机、数字视频播放器、数字视频光盘(DVD)播放器、光学光盘播放器、调谐器、相机、导航装置、解码器***、编码器***、基站、交通工具,或其任何组合。
在说明性实例中,处理器910可操作以执行参考图1至8描述的方法或操作的全部或一部分。举例来说,麦克风938可捕捉对应于用户语音信号的音频信号。ADC 904可将所捕捉音频信号从模拟波形转换成由数字音频样本组成的数字波形。处理器910可处理数字音频样本。
编码解码器908的编码器(例如,声码器编码器)可压缩对应于经处理语音信号的数字音频样本,且可形成包序列(例如,数字音频样本的经压缩位的表示)。所述包序列可存储于存储器932中。收发器950可调制序列的每个包,且可通过天线942发射经调制数据。
作为另一实例,天线942可通过网络接收对应于由另一装置发送的包序列的传入包。传入包可包含例如图1的音频帧112的音频帧(例如,经编码音频帧)。解码器992可解压缩且解码所接收包,以产生经重构建音频样本(例如,对应于合成音频信号,例如图1的第一经解码语音114)。检测器994可经配置以检测音频帧是否包含频带有限内容,将帧分类为与宽带内容或窄带内容(例如,频带有限内容)相关联,或其组合。另外地或替代地,检测器994可选择例如图1的输出模式134的输出模式,其指示解码器的音频输出为NB还是WB。DAC 902可将解码器992的输出从数字波形转换为模拟波形,且可将经转换波形提供到扬声器936以用于输出。
参考图10,描绘了基站1000的特定说明性实例的框图。在各种实施方案中,基站100可具有比图10中所说明的多或少的组件。在说明性实例中,基站1000可包含图1的第二装置120。在说明性实例中,基站1000可根据图5至6的方法中的一或多者、实例1到实例5中的一或多者,或其组合操作。
基站1000可为无线通信***的部分。无线通信***可包含多个基站及多个无线装置。无线通信***可为长期演进(LTE)***、码分多址(CDMA)***、全球移动通信***(GSM)***、无线局域网络(WLAN)***,或一些其它无线***。CDMA***可实施宽带CDMA(WCDMA)、CDMA 1X、演进数据优化(EVDO)、分时同步CDMA(TD-SCDMA),或一些其它版本的CDMA。
无线装置也可被称作用户设备(UE)、移动台、终端机、存取终端机、用户单元、台等。无线装置可包含蜂窝电话、智能电话、平板电脑、无线调制解调器、个人数字助理(PDA)、手持装置、膝上型计算机、智能笔记本电脑、迷你笔记本电脑、平板计算机、无线电话、无线区域回路(WLL)台、蓝牙装置等。无线装置可包含或对应于图9的装置900。
各种功能可由基站1000的一或多个组件(及/或在未经图标的其它组件中)执行,例如发送及接收消息及数据(例如,音频数据)。在特定实例中,基站1000包含处理器1006(例如,CPU)。基站1000可包含编解码器1010。编解码器1010可包含语音及音乐编码解码器1008。举例来说,编解码器1010可包含经配置以执行语音及音乐编码解码器1008的操作的一或多个组件(例如,电路)。作为另一实例,编解码器1010可经配置以执行一或多个计算机可读指令,从而执行语音及音乐编码解码器1008的操作。尽管语音及音乐编码解码器1008被说明为编解码器1010的组件,但在其它实例中,语音及音乐编码解码器1008的一或多个组件可包含于处理器1006、另一处理组件或其组合中。举例来说,解码器1038(例如,声码器解码器)可包含于接收器数据处理器1064中。作为另一实例,编码器1036(例如,声码器解码器)可包含于发射数据处理器1066中。
编解码器1010可起到在两个或多于两个网络之间转码消息及数据的作用。编解码器1010可经配置以将消息及音频数据从第一格式(例如,数字格式)转换到第二格式。为进行说明,解码器1038可解码具有第一格式的经编码信号,且编码器1036可将经解码信号编码成具有第二格式的经编码信号。另外地或替代地,编解码器1010可经配置以执行数据速率调适。举例来说,编解码器1010可在不改变音频数据的格式的情况下下变频数据速率或上变频数据速率。为进行说明,编解码器1010可将64kbit/s信号下变频成16kbit/s信号。
语音及音乐编码解码器1008可包含编码器1036及解码器1038。编码器1036可包含一个检测器及多个编码级,如参考图9所描述。解码器1038可包含一个检测器及多个解码级。
基站1000可包含存储器1032。例如计算机可读存储装置的存储器1032可包含指令。指令可包含可由处理器1006、编解码器1010或其组合执行的一或多个指令,以执行图5至6的方法、实例1到实例5或其组合中的一或多者。基站1000可包含耦合到天线阵列的多个发射器及接收器(例如,收发器),例如第一收发器1052及第二收发器1054。天线阵列可包含第一天线1042及第二天线1044。天线阵列可经配置以无线方式与一或多个无线装置通信,例如图9的装置900。举例来说,第二天线1044可从无线装置接收数据流1014(例如,位流)。数据流1014可包含消息、数据(例如,经编码语音数据),或其组合。
基站1000可包含例如回程连接的网络连接1060。网络连接1060可经配置以与无线通信网络的核心网络或一或多个基站通信。举例来说,基站1000可通过网络连接1060从核心网络接收第二数据流(例如,消息或音频数据)。基站1000可处理第二数据流以产生消息或音频数据,且通过天线阵列的一或多个天线将消息或音频数据提供到一或多个无线装置,或通过网络连接1060将消息或音频数据提供到另一基站。在特定实施方案中,作为说明性的非限制性实例,网络连接1060可为广域网(WAN)连接。
基站1000可包含耦合到收发器1052、1054、接收器数据处理器1064及处理器1006的解调器1062,且接收器数据处理器1064可耦合到处理器1006。解调器1062可经配置以解调从收发器1052、1054接收的经调制信号,且将经解调数据提供到接收器数据处理器1064。接收器数据处理器1064可经配置以从经解调数据提取消息或音频数据,且将所述消息或音频数据发送到处理器1006。
基站1000可包含发射数据处理器1066及发射多输入多输出(MIMO)处理器1068。发射数据处理器1066可耦合到处理器1006及发射MIMO处理器1068。发射MIMO处理器1068可耦合到收发器1052、1054及处理器1006。作为说明性的非限制性实例,发射数据处理器1066可经配置以从处理器1006接收消息或音频数据,且基于例如CDMA或正交分频多任务(OFDM)的译码方案译码所述消息或所述音频数据。发射数据处理器1066可将经解码数据提供到发射MIMO处理器1068。
可使用CDMA或OFDM技术将经译码数据与例如导频数据的其它数据多路复用,以产生经多路复用数据。可接着由发射数据处理器1066基于特定调制方案(例如,二进制相移键控(“BPSK”)、正交相移键控(“QSPK”)、M阶相移键控(“M-PSK”)、M阶正交振幅调制(“M-QAM”)等)调制(即,符号映像)经多路复用数据,以产生调制符号。在特定实施方案中,可使用不同调制方案调制经译码数据及其它数据。用于每个数据流的数据速率、译码及调制可通过由处理器1006执行的指令来确定。
发射MIMO处理器1068可经配置以从发射数据处理器1066接收调制符号,且可进一步处理调制符号,且可对所述数据执行波束成形。举例来说,发射MIMO处理器1068可将波束成形权重应用于调制符号。波束成形权重可对应于天线阵列的一或多个天线(从所述天线发射调制符号)。
在操作期间,基站1000的第二天线1044可接收数据流1014。第二收发器1054可从第二天线1044接收数据流1014,且可将数据流1014提供到解调器1062。解调器1062可解调数据流1014的经调制信号,且将经解调数据提供到接收器数据处理器1064。接收器数据处理器1064可从经解调数据提取音频数据,且将经提取音频数据提供到处理器1006。
处理器1006可将音频数据提供到编解码器1010以用于转码。编解码器1010的解码器1038可将音频数据从第一格式解码成经解码音频数据,且编码器1036可将经解码音频数据编码成第二格式。在一些实施方案中,编码器1036可使用比从无线装置接收的速率更高的数据速率(例如,上变频)或更低的数据速率(例如,下变频)来编码音频数据。在其它实施方案中,音频数据可未经转码。尽管转码(例如,解码及编码)被说明为由编解码器1010执行,但转码操作(例如,解码及编码)可由基站1000的多个组件执行。举例来说,解码可由接收器数据处理器1064执行,且编码可由发射数据处理器1066执行。
解码器1038及编码器1036可逐个帧地确定数据流1014的每个所接收帧对应于窄带帧还是宽带帧,且可选择对应解码输出模式(例如,窄带输出模式或宽带输出模式)及对应编码输出模式以转码(例如,解码及编码)帧。可通过处理器1006将在编码器1036处产生的经编码音频数据(例如经转码数据)提供到发射数据处理器1066或网络连接1060。
可将来自编解码器1010的经转码音频数据提供到发射数据处理器1066,用于根据例如OFDM的调制方案进行译码,以产生调制符号。发射数据处理器1066可将调制符号提供到发射MIMO处理器1068,以供进一步处理及波束成形。发射MIMO处理器1068可应用波束成形权重,且可通过第一收发器1052将调制符号提供到天线阵列的一或多个天线,例如第一天线1042。因此,基站1000可将对应于从无线装置接收的数据流1014的经转码数据流1016提供到另一无线装置。经转码数据流1016可具有与数据流1014不同的编码格式、数据速率,或所述两者。在其它实施方案中,可将经转码数据流1016提供到网络连接1060,用于发射到另一基站或核心网络。
基站1000可因而包含存储指令的计算机可读存储装置(例如,存储器1032),所述指令在由处理器(例如,处理器1006或编解码器1010)执行时使得处理器执行包含以下的操作:产生与音频流的音频帧相关联的第一经解码语音;及至少部分基于被分类为与频带有限内容相关联的音频帧的计数而确定解码器的输出模式。所述操作还可包含:基于第一经解码语音输出第二经解码语音,其中根据输出模式产生所述第二经解码语音。
结合所描述的方面,一种设备可包含用于产生与音频帧相关联的第一经解码语音的装置。举例来说,用于产生的装置可包含或对应于:解码器122、图1的第一解码级123、编码解码器934、语音/音乐编码解码器908、解码器992、经编程以执行图9的指令960的处理器906、910中的一或多者、图10的处理器1006或编解码器1010、用以产生第一经解码语音的一或多个其它结构、装置、电路、模块或指令,或其组合。
所述设备还可包含:用于至少部分基于被分类为与频带有限内容相关联的音频帧的数目而确定解码器的输出模式的装置。举例来说,用于确定的装置可包含或对应于:解码器122、检测器124、图1的平滑化逻辑130、编码解码器934、语音/音乐编码解码器908、解码器992、检测器994、经编程以执行图9的指令960的处理器906、910中的一或多者、图10的处理器1006或编解码器1010、用以确定输出模式的一或多个其它结构、装置、电路、模块或指令,或其组合。
所述设备还可包含用于基于第一经解码语音输出第二经解码语音的装置。可根据输出模式而产生所述第二经解码语音。举例来说,用于输出的装置可包含或对应于:解码器122、图1的第二解码级132、编码解码器934、语音/音乐编码解码器908、解码器992、经编程以执行图9的指令960的处理器906、910中的一或多者、图10的处理器1006或编解码器1010、用以输出第二经解码语音的一或多个其它结构、装置、电路、模块或指令,或其组合。
所述设备可包含用于确定对应于多个音频帧中与频带有限内容相关联的音频帧的计数的度量值的装置。举例来说,用于确定度量值的装置可包含或对应于:解码器122、图1的分类器126、解码器992、经编程以执行图9的指令960的处理器906、910中的一或多者、图10的处理器1006或编解码器1010、用以确定度量值的一或多个其它结构、装置、电路、模块或指令,或其组合。
所述设备还可包含用于基于度量值选择阈值的装置。举例来说,用于选择阈值的装置可包含或对应于:解码器122、图1的平滑化逻辑130、解码器992、经编程以执行图9的指令960的处理器906、910中的一或多者、图10的处理器1006或编解码器1010、用以基于度量值选择阈值的一或多个其它结构、装置、电路、模块或指令,或其组合。
所述设备可进一步包含用于基于度量值与阈值的比较而将输出模式从第一模式更新为第二模式的装置。举例来说,用于更新输出模式的装置可包含或对应于:解码器122、图1的平滑化逻辑130、解码器992、经编程以执行图9的指令960的处理器906、910中的一或多者、图10的处理器1006或编解码器1010、用以更新输出模式的一或多个其它结构、装置、电路、模块或指令,或其组合。
在一些实施方案中,所述设备可包含用于确定在用于产生第一经解码语音的装置处接收且被分类为与宽带内容相关联的连续音频帧的数目的装置。举例来说,用于确定连续音频帧的数目的装置可包含或对应于:解码器122、图1的***128、解码器992、经编程以执行图9的指令960的处理器906、910中的一或多者、图10的处理器1006或编解码器1010、用以确定连续音频帧的数目的一或多个其它结构、装置、电路、模块或指令,或其组合。
在一些实施方案中,用于产生第一经解码语音的装置可包含或对应于语音模型,且用于确定输出模式的装置及用于输出第二经解码语音的装置可各包含或对应于处理器及存储可由处理器执行的指令的存储器。另外地或替代地,用于产生第一经解码语音的装置、用于确定输出模式的装置及用于输出第二经解码语音的装置可集成到解码器、机顶盒、音乐播放器、视频播放器、娱乐单元、导航装置、通信装置、个人数字助理(PDA)、计算机或其组合。
在上述描述的方面中,所执行的各种功能已被描述为由某些组件或模块执行,例如图1的***100的组件或模块、图9的装置900、图10的基站1000或其组合。然而,组件及模块的这种划分仅仅是为了说明。在替代性实例中,由特定组件或模块所执行的功能可替代地划分于多个组件或模块之中。此外,在其它替代性实例中,图1、9和10的两个或多于两个组件或模块可集成到单个组件或模块中。图1、9和10中所说明的每个组件或模块可使用硬件(例如,ASIC、DSP、控制器、FPGA装置等)、软件(例如,可由处理器执行的指令),或其任何组合来实施。
技术人员将进一步了解,结合本文所公开的方面所描述的各种说明性逻辑块、配置、模块、电路及算法步骤可作为电子硬件、由处理器执行的计算机软件或两者的组合进行实施。上文大体在功能性方面描述各种说明性组件、块、配置、模块、电路及步骤。所述功能性实施为硬件还是处理器可执行指令取决于特定应用及强加于整个***的设计约束。对于每个特定应用而言,熟练的技术人员可以以变化的方式实施所描述的功能性,但不应将这些实施决策解释为导致脱离本发明的范围。
结合本文中所公开的方面所描述的方法或算法的步骤可直接包含于硬件、由处理器执行的软件模块或所述两者的组合中。软件模块可驻留于RAM、闪存、ROM、PROM、EPROM、EEPROM、缓存器、硬盘、可换磁盘、CD-ROM,或所属领域中已知的任何其它形式的非暂时存储媒体中。特定存储媒体可耦合到处理器,以使得处理器可从存储媒体读取信息及向存储媒体写入信息。在替代例中,存储媒体可集成到处理器。处理器及存储媒体可驻留于ASIC中。ASIC可驻留于计算装置或用户终端机中。在替代例中,处理器及存储媒体可作为离散组件驻留于计算装置或用户终端机中。
提供先前描述以使本领域技术人员能够进行或使用所公开的方面。本领域技术人员将易于了解对这些方面的各种修改,且本文中定义的原理可应用于其它方面而不脱离本发明的范围。因此,本发明并不打算限于本文中所展示方面,而应符合可能与如以下权利要求书所定义的原理及新颖特征相一致的最广泛范围。

Claims (56)

1.一种装置,其包括:
接收器,其经配置以接收音频流的音频帧;及
解码器,其经配置以产生与所述音频帧相关联的第一经解码语音,且确定被分类为与频带有限内容相关联的音频帧的计数,其中至少部分基于音频帧的所述计数选择所述解码器的输出模式,所述解码器经进一步配置以基于所述第一经解码语音输出第二经解码语音,所述第二经解码语音是根据所述输出模式产生的。
2.根据权利要求1所述的装置,其中所述解码器经配置以将所述音频帧分类为窄带帧或宽带帧,且其中窄带帧的分类对应于与所述频带有限内容相关联。
3.根据权利要求1所述的装置,其中当所述输出模式包括宽带模式时,所述第二经解码语音对应于所述第一经解码语音。
4.根据权利要求1所述的装置,其中当所述输出模式包括窄带模式时,所述第二经解码语音包含所述第一经解码语音的一部分。
5.根据权利要求1所述的装置,其中所述解码器包含检测器,所述检测器经配置以基于度量值、被分类为与宽带内容相关联的连续音频帧的数目,或所述两者选择所述输出模式。
6.根据权利要求所述1的装置,其中所述解码器包含:
分类器,其经配置以将所述音频帧分类为与宽带内容相关联或与所述频带有限内容相关联;及
***,其经配置以维持由所述分类器产生的一或多个分类的纪录,其中所述***包含缓冲器、存储器或一或多个计数器中的至少一个。
7.根据权利要求1所述的装置,其中所述接收器及所述解码器集成到移动通信装置或基站。
8.根据权利要求1所述的装置,其进一步包括:
解调器,其耦合到所述接收器,所述解调器经配置以解调所述音频流;
处理器,其耦合到所述解调器;及
编码器。
9.根据权利要求8所述的装置,其中所述接收器、所述解调器、所述处理器及所述编码器集成到移动通信装置。
10.根据权利要求8所述的装置,其中所述接收器、所述解调器、所述处理器及所述编码器集成到基站。
11.一种操作解码器的方法,所述方法包括:
在解码器处产生与音频流的音频帧相关联的第一经解码语音;
至少部分基于被分类为与频带有限内容相关联的音频帧的数目,确定所述解码器的输出模式;及
基于所述第一经解码语音输出第二经解码语音,所述第二经解码语音是根据所述输出模式产生的。
12.根据权利要求11所述的方法,其中所述第一经解码语音包含低频带分量及高频带分量。
13.根据权利要求12所述的方法,其进一步包括:
确定基于与所述低频带分量相关联的第一能量度量及与所述高频带分量相关联的第二能量度量的比值;
将所述比值与分类阈值进行比较;及
响应于所述比值大于所述分类阈值,将所述音频帧分类为与所述频带有限内容相关联。
14.根据权利要求13所述的方法,其进一步包括:当所述音频帧与所述频带有限内容相关联时,衰减所述第一经解码语音的所述高频带分量以产生所述第二经解码语音。
15.根据权利要求13所述的方法,其进一步包括:当所述音频帧与所述频带有限内容相关联时,将与所述高频带分量相关联的一或多个频带的能量值设定为零以产生所述第二经解码语音。
16.根据权利要求11所述的方法,其进一步包括:确定与关联于所述第一经解码语音的低频带分量的多个频带的第一集合相关联的第一能量度量。
17.根据权利要求16所述的方法,其中确定所述第一能量度量包括:确定多个频带的所述第一集合的频带子集的平均能量值,及将所述第一能量度量设定为等于所述平均能量值。
18.根据权利要求16所述的方法,其进一步包括:确定与关联于所述第一经解码语音的高频带分量的多个频带的第二集合相关联的第二能量度量。
19.根据权利要求18所述的方法,其进一步包括:
确定多个频带的所述第二集合中具有多个频带的所述第二集合的最高检测能量值的特定频带;及
将所述第二能量度量设定为等于所述最高检测能量值。
20.根据权利要求18所述的方法,其中所述第一集合及所述第二集合互斥,且其中多个频带的所述第二集合的每个频带具有相同带宽。
21.根据权利要求20所述的方法,其中所述第一集合及所述第二集合由与所述音频帧相关联的频率范围的转变频带隔开。
22.根据权利要求11所述的方法,其中当所述输出模式包括宽带模式时,所述第二经解码语音与所述第一经解码语音大体上相同。
23.根据权利要求11所述的方法,其进一步包括:当所述输出模式包括窄带模式时,维持所述第一经解码语音的低频带分量且衰减所述第一经解码语音的高频带分量以产生所述第二经解码语音。
24.根据权利要求11所述的方法,其进一步包括:当所述输出模式包括窄带模式时,衰减与所述第一经解码语音的高频带分量相关联的频带的一或多个能量值以产生所述第二经解码语音。
25.根据权利要求11所述的方法,其进一步包括确定所述音频帧是否为活动帧,其中响应于确定所述音频帧为所述活动帧而执行确定所述解码器的所述输出模式。
26.根据权利要求11所述的方法,其进一步包括:
在所述解码器处接收所述音频流的第二音频帧;
确定所述第二音频帧是否为非活动帧;及
响应于确定所述第二音频帧为所述非活动帧,维持所述解码器的所述输出模式。
27.根据权利要求11所述的方法,其进一步包括:
在所述解码器处接收所述音频流的多个音频帧,所述多个音频帧包含所述音频帧及第二音频帧;
响应于接收所述第二音频帧,在所述解码器处确定对应于所述多个音频帧中与所述频带有限内容相关联的音频帧的相对计数的度量值;
基于所述解码器的所述输出模式的第一模式选择阈值,所述第一模式与在所述第二音频帧之前接收的所述音频帧相关联;及
基于所述度量值与所述阈值的比较,将所述输出模式从所述第一模式更新为第二模式,所述第二模式与所述第二音频帧相关联。
28.根据权利要求27所述的方法,其中所述度量值经确定为被分类为与频带有限内容相关联的所述多个音频帧的百分比,且其中所述阈值被选为具有第一值的宽带阈值或具有第二值的窄带阈值,且其中所述第一值大于所述第二值。
29.根据权利要求27所述的方法,其中所述第一模式包括宽带模式,且所述方法进一步包括:
在选择所述阈值之前,确定所述输出模式为所述宽带模式;及
响应于确定所述输出模式为所述宽带模式,将宽带阈值选择为所述阈值。
30.根据权利要求29所述的方法,其中当所述度量值大于或等于所述宽带阈值时,所述输出模式被更新为窄带模式。
31.根据权利要求27所述的方法,其中所述第一模式包括窄带模式,且所述方法进一步包括:
在选择所述阈值之前,确定所述输出模式为所述窄带模式;及
响应于确定所述输出模式为所述窄带模式,将窄带阈值选择为所述阈值。
32.根据权利要求31所述的方法,其中当所述度量值小于或等于所述窄带阈值时,所述输出模式被更新为宽带模式。
33.根据权利要求27所述的方法,其进一步包括:
在确定所述度量值之前:
确定所述第二音频帧为活动帧;及
确定与所述第二音频帧的低频带分量相关联的平均能量值;及
响应于确定所述平均能量值大于阈值能量值,且响应于确定所述第二音频帧为所述活动帧,将所述度量值从第一值更新为第二值,其中响应于接收所述第二音频帧而确定所述度量值包含识别所述第二值。
34.根据权利要求33所述的方法,其中与所述第二音频帧的所述低频带分量相关联的所述平均能量值包括与所述第二音频帧的所述低频带分量的频带子集相关联的特定平均能量。
35.根据权利要求33所述的方法,其中所述阈值能量值为长期度量,且其中所述阈值能量值为与所述多个音频帧的低频带分量相关联的平均能量值的平均值。
36.根据权利要求27所述的方法,其进一步包括:
在确定所述度量值之前:
确定所述第二音频帧为活动帧;及
确定与所述第二音频帧的低频带分量相关联的平均能量值;及
响应于确定所述平均能量值小于或等于阈值能量值,且响应于确定所述第二音频帧为所述活动帧,维持所述度量值。
37.根据权利要求27所述的方法,其进一步包括:对于所述多个音频帧中被指示为活动帧的至少一音频帧,在所述解码器确定所述至少一音频帧是否与所述频带有限内容相关联。
38.根据权利要求27所述的方法,其进一步包括:对于所述多个音频帧中被指示为非活动帧的每个音频帧,在所述解码器处将所述输出模式维持为与最近接收的活动帧的特定模式相同。
39.根据权利要求11所述的方法,其进一步包括:
在所述解码器处确定对应于被分类为与频带有限内容相关联的音频帧的所述数目的度量值;及
基于所述解码器的先前输出模式选择阈值,其中确定所述解码器的所述输出模式进一步基于所述度量值与所述阈值的比较。
40.根据权利要求11所述的方法,其进一步包括:
在所述解码器处接收所述音频流的第二音频帧;
确定在所述解码器处接收且被分类为与宽带内容相关联的包含所述第二音频帧的连续音频帧的数目;及
响应于连续音频帧的所述数目大于或等于阈值,将与所述第二音频帧相关联的第二输出模式选择为宽带模式。
41.根据权利要求40所述的方法,其进一步包括,响应于接收所述第二音频帧:
确定所述第二音频帧为活动帧;
递增所接收活动帧的计数;及
将所述第二音频帧的分类确定为宽带帧或窄带帧。
42.根据权利要求41所述的方法,其进一步包括:确定所接收活动帧的所述计数是否大于或等于第二阈值,其中在确定所述第二音频帧的所述分类之后确定连续音频帧的所述数目。
43.根据权利要求42所述的方法,其进一步包括:响应于确定所接收活动帧的所述计数小于所述第二阈值,将与所述第二音频帧相关联的所述输出模式确定为所述宽带模式。
44.根据权利要求40所述的方法,其进一步包括:
响应于选择所述第二输出模式,将与所述第二音频帧相关联的所述输出模式从第一模式更新为所述宽带模式;及
响应于将所述输出模式从所述第一模式更新为所述宽带模式,将所接收音频帧的计数设定为第一初始值,将对应于所述音频流中与频带有限内容相关联的音频帧的相对计数的度量值设定为第二初始值,或进行所述两者。
45.根据权利要求40所述的方法,其进一步包括:对于所述音频流中被指示为非活动帧的每个音频帧,在所述解码器处将所述输出模式维持为与最近接收的活动帧的特定模式相同。
46.根据权利要求11所述的方法,其进一步包括:确定在所述解码器处接收且被分类为与宽带内容相关联的包含所述音频帧的连续音频帧的数目,其中确定所述解码器的所述输出模式进一步基于连续音频帧的所述数目与阈值的比较。
47.根据权利要求11所述的方法,其中所述解码器包含于装置中,所述装置包括移动通信装置或基站。
48.一种设备,其包括:
用于产生与音频流的音频帧相关联的第一经解码语音的装置;
用于至少部分基于被分类为与频带有限内容相关联的音频帧的数目,确定解码器的输出模式的装置;及
用于基于所述第一经解码语音输出第二经解码语音的装置,所述第二经解码语音是根据所述输出模式产生的。
49.根据权利要求48所述的设备,其中用于产生第一经解码语音的所述装置包括语音模型,且其中用于确定输出模式的所述装置及用于输出第二经解码语音的所述装置各自包括处理器及存储可由所述处理器执行的指令的存储器。
50.根据权利要求48所述的设备,其进一步包括
用于确定对应于多个音频帧中与所述频带有限内容相关联的音频帧的计数的度量值的装置;
用于基于所述度量值选择阈值的装置;及
用于基于所述度量值与所述阈值的比较将所述输出模式从第一模式更新为第二模式的装置。
51.根据权利要求48所述的设备,其进一步包括用于确定在用于产生所述第一经解码语音的所述装置处接收且被分类为与宽带内容相关联的连续音频帧的数目的装置。
52.根据权利要求48所述的设备,其中用于确定的所述装置、用于选择的所述装置及用于更新的所述装置集成到移动通信装置或基站。
53.一种计算机可读存储装置,其存储当由处理器执行时使得所述处理器执行包含以下的操作的指令:
产生与音频流的音频帧相关联的第一经解码语音;
至少部分基于被分类为与频带有限内容相关联的音频帧的计数,确定解码器的输出模式;及
基于所述第一经解码语音输出第二经解码语音,所述第二经解码语音是根据所述输出模式产生的。
54.根据权利要求53所述的计算机可读存储装置,其中所述指令进一步使得所述处理器执行包括以下的操作:
确定与关联于所述音频帧的频率范围的第一子范围相关联的第一能量度量;
确定与所述频率范围的第二子范围相关联的第二能量度量;及
基于所述第一能量度量及所述第二能量度量,确定将所述音频帧分类为与窄带帧或宽带帧相关联。
55.根据权利要求53所述的计算机可读存储装置,其中所述指令进一步使得所述处理器执行包括以下的操作:
将所述音频帧分类为窄带帧或宽带帧;
确定对应于多个音频帧中与所述频带有限内容相关联的音频帧的第二计数的度量值;及
基于所述度量值选择阈值。
56.根据权利要求53所述的计算机可读存储装置,其中所述指令进一步使得所述处理器执行包括以下的操作:
响应于接收所述音频流的第二音频帧,确定在所述解码器处接收的被分类为具有宽带内容的连续音频帧的第三计数;及
响应于连续音频帧的所述第三计数大于或等于阈值,将所述输出模式更新为宽带模式。
CN201680017331.3A 2015-04-05 2016-03-30 译码方法和设备 Active CN107408392B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562143158P 2015-04-05 2015-04-05
US62/143,158 2015-04-05
US15/083,717 2016-03-29
US15/083,717 US10049684B2 (en) 2015-04-05 2016-03-29 Audio bandwidth selection
PCT/US2016/025053 WO2016164232A1 (en) 2015-04-05 2016-03-30 Audio bandwidth selection

Publications (3)

Publication Number Publication Date
CN107408392A true CN107408392A (zh) 2017-11-28
CN107408392A8 CN107408392A8 (zh) 2018-01-12
CN107408392B CN107408392B (zh) 2021-07-30

Family

ID=57017020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680017331.3A Active CN107408392B (zh) 2015-04-05 2016-03-30 译码方法和设备

Country Status (9)

Country Link
US (2) US10049684B2 (zh)
EP (1) EP3281199B1 (zh)
JP (1) JP6545815B2 (zh)
KR (2) KR102047596B1 (zh)
CN (1) CN107408392B (zh)
AU (1) AU2016244808B2 (zh)
BR (1) BR112017021351A2 (zh)
TW (2) TWI693596B (zh)
WO (1) WO2016164232A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112530454A (zh) * 2020-11-30 2021-03-19 厦门亿联网络技术股份有限公司 一种窄带语音信号检测方法、装置、***和可读存储介质

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016017238A1 (ja) * 2014-07-28 2016-02-04 日本電信電話株式会社 符号化方法、装置、プログラム及び記録媒体
US10049684B2 (en) * 2015-04-05 2018-08-14 Qualcomm Incorporated Audio bandwidth selection
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
KR102398124B1 (ko) * 2015-08-11 2022-05-17 삼성전자주식회사 음향 데이터의 적응적 처리
US11054884B2 (en) * 2016-12-12 2021-07-06 Intel Corporation Using network interface controller (NIC) queue depth for power state management
CN117037804A (zh) * 2017-01-10 2023-11-10 弗劳恩霍夫应用研究促进协会 音频解码器和编码器、提供解码的音频信号的方法、提供编码的音频信号的方法、使用流标识符的音频流、音频流提供器和计算机程序
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483882A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
TWI748215B (zh) * 2019-07-30 2021-12-01 原相科技股份有限公司 聲音輸出之調整方法及執行該調整方法之電子裝置
US11172294B2 (en) * 2019-12-27 2021-11-09 Bose Corporation Audio device with speech-based audio signal processing

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1275228A (zh) * 1998-08-21 2000-11-29 松下电器产业株式会社 多模式语音编码装置及解码装置
US20050149339A1 (en) * 2002-09-19 2005-07-07 Naoya Tanaka Audio decoding apparatus and method
US20070265842A1 (en) * 2006-05-09 2007-11-15 Nokia Corporation Adaptive voice activity detection
US20080195383A1 (en) * 2007-02-14 2008-08-14 Mindspeed Technologies, Inc. Embedded silence and background noise compression
CN101263554A (zh) * 2005-07-22 2008-09-10 法国电信公司 在比特率分级和带宽分级的音频解码中的比特率切换方法
CN101496099A (zh) * 2006-07-31 2009-07-29 高通股份有限公司 用于对有效帧进行宽带编码和解码的***、方法和设备
JP2011512564A (ja) * 2008-02-19 2011-04-21 シーメンス エンタープライズ コミュニケーションズ ゲゼルシャフト ミット ベシュレンクテル ハフツング ウント コンパニー コマンディートゲゼルシャフト 背景雑音情報の復号化方法および背景雑音情報の復号化手段
CN102324236A (zh) * 2006-07-31 2012-01-18 高通股份有限公司 用于对有效帧进行宽带编码和解码的***、方法和设备
CN103026407A (zh) * 2010-05-25 2013-04-03 诺基亚公司 带宽扩展器
CN103155034A (zh) * 2010-10-15 2013-06-12 摩托罗拉移动有限责任公司 基于celp的语音编码器中的音频信号带宽扩展
CA2898637A1 (en) * 2013-01-29 2014-08-07 Sascha Disch Audio encoder, audio decoder, method for providing an encoded audio information, method for providing a decoded audio information, computer program and encoded representation using a signal-adaptive bandwidth extension
CN103999154A (zh) * 2011-12-12 2014-08-20 摩托罗拉移动有限责任公司 用于音频编码的装置和方法
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
CN104217723A (zh) * 2013-05-30 2014-12-17 华为技术有限公司 信号编码方法及设备
CN104217727A (zh) * 2013-05-31 2014-12-17 华为技术有限公司 信号解码方法及设备
CN104269173A (zh) * 2014-09-30 2015-01-07 武汉大学深圳研究院 切换模式的音频带宽扩展装置与方法
JP2015501452A (ja) * 2011-11-03 2015-01-15 ヴォイスエイジ・コーポレーション 低レートcelpデコーダに関する非音声コンテンツの向上
CN104347067A (zh) * 2013-08-06 2015-02-11 华为技术有限公司 一种音频信号分类方法和装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004090870A1 (ja) * 2003-04-04 2004-10-21 Kabushiki Kaisha Toshiba 広帯域音声を符号化または復号化するための方法及び装置
US8990073B2 (en) * 2007-06-22 2015-03-24 Voiceage Corporation Method and device for sound activity detection and sound signal classification
US8645129B2 (en) * 2008-05-12 2014-02-04 Broadcom Corporation Integrated speech intelligibility enhancement system and acoustic echo canceller
US8548460B2 (en) * 2010-05-25 2013-10-01 Qualcomm Incorporated Codec deployment using in-band signals
US8868432B2 (en) * 2010-10-15 2014-10-21 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
US20130282372A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
US9711156B2 (en) 2013-02-08 2017-07-18 Qualcomm Incorporated Systems and methods of performing filtering for gain determination
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
US10049684B2 (en) * 2015-04-05 2018-08-14 Qualcomm Incorporated Audio bandwidth selection

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1275228A (zh) * 1998-08-21 2000-11-29 松下电器产业株式会社 多模式语音编码装置及解码装置
US20050149339A1 (en) * 2002-09-19 2005-07-07 Naoya Tanaka Audio decoding apparatus and method
KR101295729B1 (ko) * 2005-07-22 2013-08-12 프랑스 텔레콤 비트 레이트­규모 가변적 및 대역폭­규모 가변적 오디오디코딩에서 비트 레이트 스위칭 방법
CN101263554A (zh) * 2005-07-22 2008-09-10 法国电信公司 在比特率分级和带宽分级的音频解码中的比特率切换方法
US20070265842A1 (en) * 2006-05-09 2007-11-15 Nokia Corporation Adaptive voice activity detection
CN101496099A (zh) * 2006-07-31 2009-07-29 高通股份有限公司 用于对有效帧进行宽带编码和解码的***、方法和设备
CN102324236A (zh) * 2006-07-31 2012-01-18 高通股份有限公司 用于对有效帧进行宽带编码和解码的***、方法和设备
US20080195383A1 (en) * 2007-02-14 2008-08-14 Mindspeed Technologies, Inc. Embedded silence and background noise compression
JP2011512564A (ja) * 2008-02-19 2011-04-21 シーメンス エンタープライズ コミュニケーションズ ゲゼルシャフト ミット ベシュレンクテル ハフツング ウント コンパニー コマンディートゲゼルシャフト 背景雑音情報の復号化方法および背景雑音情報の復号化手段
CN103026407A (zh) * 2010-05-25 2013-04-03 诺基亚公司 带宽扩展器
US20130144614A1 (en) * 2010-05-25 2013-06-06 Nokia Corporation Bandwidth Extender
CN103155034A (zh) * 2010-10-15 2013-06-12 摩托罗拉移动有限责任公司 基于celp的语音编码器中的音频信号带宽扩展
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
JP2015501452A (ja) * 2011-11-03 2015-01-15 ヴォイスエイジ・コーポレーション 低レートcelpデコーダに関する非音声コンテンツの向上
CN103999154A (zh) * 2011-12-12 2014-08-20 摩托罗拉移动有限责任公司 用于音频编码的装置和方法
CA2898637A1 (en) * 2013-01-29 2014-08-07 Sascha Disch Audio encoder, audio decoder, method for providing an encoded audio information, method for providing a decoded audio information, computer program and encoded representation using a signal-adaptive bandwidth extension
CN104217723A (zh) * 2013-05-30 2014-12-17 华为技术有限公司 信号编码方法及设备
CN104217727A (zh) * 2013-05-31 2014-12-17 华为技术有限公司 信号解码方法及设备
CN104347067A (zh) * 2013-08-06 2015-02-11 华为技术有限公司 一种音频信号分类方法和装置
CN104269173A (zh) * 2014-09-30 2015-01-07 武汉大学深圳研究院 切换模式的音频带宽扩展装置与方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
RUBÉN TORTOSA ; JOSE M. JIMÉNEZ ; JUAN R. DIAZ ; JAIME LLORET: "Optimal codec selection algorithm for audio streaming", 《2014 IEEE GLOBECOM WORKSHOPS (GC WKSHPS)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112530454A (zh) * 2020-11-30 2021-03-19 厦门亿联网络技术股份有限公司 一种窄带语音信号检测方法、装置、***和可读存储介质
CN112530454B (zh) * 2020-11-30 2024-07-23 厦门亿联网络技术股份有限公司 一种窄带语音信号检测方法、装置、***和可读存储介质

Also Published As

Publication number Publication date
US10777213B2 (en) 2020-09-15
AU2016244808A1 (en) 2017-09-14
KR20190130669A (ko) 2019-11-22
JP2018513411A (ja) 2018-05-24
KR20170134461A (ko) 2017-12-06
TWI693596B (zh) 2020-05-11
TW201703026A (zh) 2017-01-16
JP6545815B2 (ja) 2019-07-17
US10049684B2 (en) 2018-08-14
CN107408392A8 (zh) 2018-01-12
US20160293174A1 (en) 2016-10-06
EP3281199B1 (en) 2023-10-04
US20180342255A1 (en) 2018-11-29
CN107408392B (zh) 2021-07-30
KR102047596B1 (ko) 2019-11-21
EP3281199C0 (en) 2023-10-04
TWI661422B (zh) 2019-06-01
EP3281199A1 (en) 2018-02-14
TW201928946A (zh) 2019-07-16
BR112017021351A2 (pt) 2018-07-03
AU2016244808B2 (en) 2019-08-22
WO2016164232A1 (en) 2016-10-13
KR102308579B1 (ko) 2021-10-01

Similar Documents

Publication Publication Date Title
CN107408392A (zh) 音频带宽选择
US11729079B2 (en) Selecting a packet loss concealment procedure
US8438019B2 (en) Classification of audio signals
CN104969291B (zh) 执行用于增益确定的滤波的***及方法
CN101322182B (zh) 用于检测音调分量的***、方法和设备
JP6377862B2 (ja) エンコーダ選択
CN107787510B (zh) 高频带信号产生
CN106663440B (zh) 基于高频带信号特征的时间增益调整
CN101681627A (zh) 使用音调规则化及非音调规则化译码的信号编码
KR20120120086A (ko) 선형예측계수 양자화방법, 사운드 부호화방법, 선형예측계수 역양자화방법, 사운드 복호화방법, 그 기록매체
US9293143B2 (en) Bandwidth extension mode selection
JP2011516901A (ja) 受信機を使用するコンテキスト抑圧のためのシステム、方法、および装置
CN107851439A (zh) 在带宽变换周期期间的信号再使用
CN105593933B (zh) 用于信号处理的方法和设备
US9972334B2 (en) Decoder audio classification
WO2014000559A1 (zh) 语音频信号处理方法和编码装置
TWI358057B (en) Systems and methods for dimming a first packet ass
CN107430866A (zh) 基于能量饱和及信号缩放的增益参数估计

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CI02 Correction of invention patent application

Correction item: Classification number

Correct: G10L 19/26(2013.01)|G10L 21/0316(2013.01)

False: A99Z 99/00(2006.01)

Number: 48-01

Page: The title page

Volume: 33

CI02 Correction of invention patent application
GR01 Patent grant
GR01 Patent grant