CN101496099B - 用于对有效帧进行宽带编码和解码的***、方法和设备 - Google Patents
用于对有效帧进行宽带编码和解码的***、方法和设备 Download PDFInfo
- Publication number
- CN101496099B CN101496099B CN2007800280941A CN200780028094A CN101496099B CN 101496099 B CN101496099 B CN 101496099B CN 2007800280941 A CN2007800280941 A CN 2007800280941A CN 200780028094 A CN200780028094 A CN 200780028094A CN 101496099 B CN101496099 B CN 101496099B
- Authority
- CN
- China
- Prior art keywords
- description
- voice
- frame
- frequency band
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明描述将模糊和突发技术应用于宽带语音信号的编码。本发明还描述使用来自先前帧的信息重构宽带语音信号的帧的高带部分。
Description
相关申请案
本申请案主张2006年7月31日申请且题为“用于4GV宽带的模糊和突发信令(DIMAND BURST SIGNALLING FOR 4GV WIDEBAND)”的第60/834,683号美国临时专利申请案的优先权。本申请案还与2007年7月30日申请且题为“用于对无效帧进行宽带编码和解码的***、方法和设备(SYSTEMS,METHODS,AND APPARATUS FORWIDEBAND ENCODING AND DECODING OF INACTIVE FRAMES)”的第11/830,842号美国专利申请案(代理人案号061658)相关。
技术领域
本发明涉及对语音信号的处理。
背景技术
通过数字技术进行的话音传输已变得较为普遍,尤其是在长距离电话、例如IP话音(还称为VoIP,其中IP表示因特网协议)等包交换电话和例如蜂窝式电话等数字无线电电话中。此迅速扩散已使得产生了对减少用以经由传输信道传送话音通信的信息量且同时维持重构语音的感知质量的关注。
经配置以通过提取与人类语音产生模型相关的参数而压缩语音的装置被称为“语音编码装置”。语音编码装置(还称为语音编解码器或声码器)通常包括语音编码器和语音解码器。语音编码器通常将传入的语音信号(表示音频信息的数字信号)划分为称为“帧”的时间片段,分析每一帧以提取某些相关参数且将所述参数量化为经编码帧。经由传输信道(即,有线或无线网络连接)将经编码帧传输到包括语音解码器的接收器。语音解码器接收并处理经编码帧,对其进行解量化以产生参数,且使用经解量化的参数来重建语音帧。
语音编码器通常经配置以区分语音信号的含有语音的帧(“有效帧”)与语音信号的仅含有静默或背景噪声的帧(“无效帧”)。语音编码器可经配置以使用不同编码模式和/或速率来对有效和无效帧进行编码。举例来说,语音编码器通常经配置以使用比对有效帧进行编码所使用的位少的位来对无效帧进行编码。语音编码装置可对于无效帧使用较低位速率且/或对于不同类型的有效帧使用不同位速率,以支持以较低平均位速率进行语音信号传送,其中存在极少或毫无质量的感知损失。
传统上已在带宽方面将经由公众交换电话网络(PSTN)的话音通信限于300到3400千赫(kHz)的频率范围。较新近的用于话音通信的网络(例如使用蜂窝式电话和/或VoIP的网络)可能并无相同的带宽限制,且可能需要使用此类网络的设备具有传输和接收包括宽带频率范围的话音通信的能力。举例来说,可能需要此类设备支持向下延伸到50Hz且/或向上延伸到7或8kHz的音频频率范围。还可能需要此类设备支持其它应用,例如高质量音频或音频/视频会议、对例如音乐和/或电视等多媒体服务的传递等等,所述应用可能具有在传统PSTN界限以外的范围内的音频语音内容。
语音编码装置所支持的范围向较高频率中的延伸可改进清晰度。举例来说,语音信号中区别例如“s”和“f”等摩擦音的信息主要处于较高频率中。高带延伸还可改进经解码语音信号的其它质量,例如真实感。举例来说,甚至有声元音也可能具有远高于PSTN频率范围的频谱能量。
发明内容
根据一种配置的处理语音信号的方法包括基于所述语音信号的第一有效帧而产生第一语音包,所述第一语音包包括对语音信号的包括第一有效帧的部分在(A)第一频带和(B)在第一频带上方延伸的第二频带上的频谱包络的描述。此方法还包括基于所述语音信号的第二有效帧而产生第二语音包,所述第二语音包包括对语音信号的包括第二有效帧的部分在第一频带上的频谱包络的描述。在此方法中,第二语音包不包括对在第二频带上的频谱包络的描述。
根据另一配置的语音编码器包括包编码器和帧格式化器。所述包编码器经配置以基于语音信号的第一有效帧且响应于速率控制信号的第一状态而产生第一语音包,所述第一语音包包括对在(1)第一频带和(2)在第一频带上方延伸的第二频带上的频谱包络的描述。所述包编码器还经配置以基于语音信号的第二有效帧且响应于速率控制信号的不同于第一状态的第二状态而产生第二语音包,所述第二语音包包括对在第一频带上的频谱包络的描述。所述帧格式化器经布置以接收第一和第二语音包。帧格式化器经配置以响应于模糊化控制信号的第一状态而产生第一经编码帧,所述第一经编码帧含有第一语音包。帧格式化器还经配置以响应于模糊化控制信号的不同于第一状态的第二状态而产生第二经编码帧,所述第二经编码帧含有第二语音包和与语音信号分离的信息信号的突发。在此编码器中,第一和第二经编码帧具有相同长度,第一语音包占据所述第一经编码帧的至少百分之八十,第二语音包占据第二经编码帧的不超过一半,且第二有效帧在语音信号中紧随第一有效帧之后出现。
根据另一配置的处理语音包的方法包括基于来自一来自经编码语音信号的第一语音包的信息而获得对语音信号的第一帧在(A)第一频带和(B)不同于第一频带的第二频带上的频谱包络的描述。此方法还包括基于来自一来自经编码语音信号的第二语音包的信息而获得对语音信号的第二帧在第一频带上的频谱包络的描述。此方法还包括基于来自第一语音包的信息而获得对第二帧在第二频带上的频谱包络的描述。此方法还包括基于来自第二语音包的信息而获得与第二帧的针对第一频带的音调分量相关的信息。
根据另一配置的语音解码器经配置以基于经编码的语音信号而计算经解码的语音信号。此语音解码器包括控制逻辑和包解码器。所述控制逻辑经配置以产生包含值序列的控制信号,所述序列基于来自经编码语音信号的语音包的编码索引,所述序列中的每一值对应于经解码语音信号的帧周期。所述包解码器经配置以响应于所述控制信号的具有第一状态的值而基于对经解码帧在(1)第一频带和(2)在第一频带上方延伸的第二频带上的频谱包络的描述来计算对应的经解码帧,所述描述基于来自一来自经编码语音信号的语音包的信息。包解码器还经配置以响应于所述控制信号的具有不同于所述第一状态的第二状态的值而基于以下描述来计算对应的经解码帧:(1)对经解码帧在第一频带上的频谱包络的描述,所述描述基于来自一来自所述经编码语音信号的语音包的信息,以及(2)对经解码帧在第二频带上的频谱包络的描述,所述描述基于来自在所述经编码的语音信号中出现于所述语音包之前的至少一个语音包的信息。
附图说明
图1展示与PSTN介接的无线电话***的图。
图2展示与因特网介接的无线电话***的图。
图3展示两个语音编码器/解码器对的框图。
图4展示语音编码器或语音编码方法可用来选择位速率的决策树的一个实例。
图5A展示可用以计算增益形状值的梯形开窗函数的曲线图。
图5B展示将图6A的开窗函数应用于一帧的五个子帧中的每一者。
图6A展示分带编码器可用来对宽带语音内容进行编码的非重叠频带方案的一个实例。
图6B展示分带编码器可用来对宽带语音内容进行编码的重叠频带方案的一个实例。
图7A到7C展示192位经编码帧的三种不同格式。
图8A是根据通用配置的方法M100的流程图。
图8B是方法M100的实施方案M110的流程图。
图9说明使用方法M100的实施方案而对语音信号的两个连续有效帧进行编码的操作。
图10说明方法M100的任务T110和T120的操作。
图11说明方法M110的任务T112和任务T120的实施方案的操作。
图12是展示经配置以执行方法M100的实施方案的语音编码器可使用的一组四个不同编码方案的表。
图13是描述171位宽带FCELP包的位分配的表。
图14是描述80位窄带HCELP包的位分配的表。
图15A展示根据通用配置的语音编码器100的框图。
图15B展示包编码器120的实施方案122的框图。
图15C展示频谱包络描述计算器140的实施方案142的框图。
图16A展示包编码器122的实施方案124的框图。
图16B展示时间信息描述计算器152的实施方案154的框图。
图17A展示语音编码器100的实施方案102的框图,所述实施方案102经配置以根据分带编码方案而对宽带语音信号进行编码。
图17B展示包编码器126的实施方案128的框图。
图18A展示包编码器126的实施方案129的框图。
图18B展示时间描述计算器156的实施方案158的框图。
图19A展示根据通用配置的方法M200的流程图。
图19B展示方法M200的实施方案M220的流程图。
图19C展示方法M200的实施方案M230的流程图。
图20展示方法M200的应用。
图21说明方法M100与M200之间的关系。
图22展示方法M200的实施方案M210的应用。
图23展示方法M220的应用。
图24展示方法M230的应用。
图25展示方法M200的实施方案M240的应用。
图26A展示根据通用配置的语音解码器200的框图。
图26B展示语音解码器200的实施方案202的框图。
图26C展示语音解码器200的实施方案204的框图。
图27A展示第一模块230的实施方案232的框图。
图27B展示频谱包络描述解码器270的实施方案272的框图。
图28A展示第二模块240的实施方案242的框图。
图28B展示第二模块240的实施方案244的框图。
图28C展示第二模块242的实施方案246的框图。
在所述图式和随附描述中,相同参考标记指代相同或类似的元件或信号。
具体实施方式
下文所描述的配置驻存于经配置以采用CDMA空中接口的无线电话通信***中。然而,所属领域的技术人员将了解,具有如本文所描述的特征的方法和设备可驻存于采用所属领域的技术人员已知的广泛技术的各种通信***中的任一者中,例如在有线和/或无线(例如,CDMA、TDMA、FDMA和/或TD-SCDMA)传输信道上采用IP话音(VoIP)的***。明确地预期且由此揭示,此类配置可适用于包交换的网络(例如,经布置以根据例如VoIP等协议而载运话音传输的有线和/或无线网络)和/或电路交换的网络中。
本文所描述的配置可应用于宽带语音编码***以支持对有效帧的模糊化。举例来说,此类配置可应用以支持将模糊和突发技术用于在宽带语音编码***中传送信令和/或次要业务信息。
除非明确地受上下文限制,否则术语“计算”在本文中用以指示其通常意义中的任一者,例如运算、评估、产生和/或从一组值中选择。除非明确地受上下文限制,否则术语“获得”用以指示其通常意义中的任一者,例如计算、导出、接收(例如,从外部装置)和/或检索(例如,从存储元件阵列)。在当前描述和权利要求书中使用术语“包含”的情况下,其并不排除其它元件或操作。术语“A基于B”用以指示其通常意义中的任一者,其中包括以下情况:(i)“A至少基于B”和(ii)“A等于B”(如果在特定上下文中适合的话)。
除非另有指示,否则对具有特定特征的语音编码器的任何揭示内容还明确地意欲揭示具有类似特征的语音编码方法(反之亦然),且对根据特定配置的语音编码器的任何揭示内容还明确地意欲揭示根据类似配置的语音编码方法(反之亦然)。除非另有指示,否则对具有特定特征的语音解码器的任何揭示内容还明确地意欲揭示具有类似特征的语音解码方法(反之亦然),且对根据特定配置的语音解码器的任何揭示内容还明确地意欲揭示根据类似配置的语音解码方法(反之亦然)。
如图1中所说明,CDMA无线电话***通常包括多个移动订户单元10,其经配置以与无线电接入网络以无线方式进行通信,所述无线电接入网络包括多个基站12和一个或一个以上基站控制器(BSC)14。此***通常还包括耦合到BSC 14的移动交换中心(MSC)16,其经配置以使无线电接入网络与常规的公众交换电话网络(PSTN)18介接(可能经由媒体网关)。BSC 14经由回程线路而耦合到基站12。所述回程线路可经配置以支持包括(例如)E1/T1、ATM、IP、PPP、帧中继、HDSL、ADSL或xDSL的若干已知接口中的任一者。
每一基站12有利地包括至少一个扇区(未图示),每一扇区包含全向天线或指向径向远离基站12的特定方向的天线。或者,每一扇区可包含两个天线以进行分集接收。每一基站12可有利地经设计以支持多个频率指派。扇区与频率指派的交集可称为CDMA信道。基站12还可称为基站收发器子***(BTS)12。或者,业界可使用“基站”来统称BSC 14和一个或一个以上BTS 12。BTS 12还可表示为“小区站点”12。或者,给定BTS 12的各个扇区可称为小区站点。移动订户单元10通常是蜂窝式或PCS电话10。此***可经配置以根据IS-95标准的一个或一个以上版本(例如,如由弗吉尼亚州阿灵顿电信工业联盟(Telecommunications Industry Alliance,Arlington,VA)发布的IS-95、IS-95A、IS-95B、cdma2000)而使用。
在蜂窝式电话***的典型操作期间,基站12从数组移动订户单元10接收数组反向链路信号。移动订户单元10正进行电话呼叫或其它通信。由给定基站12接收到的每一反向链路信号在所述基站12中进行处理。将所得数据转发到BSC 14。BSC 14提供呼叫资源分配和移动性管理功能性,包括对基站12之间的软越区切换的控制。BSC 14还将所接收的数据路由到MSC 16,所述MSC 16提供额外的路由服务以用于与PSTN 18介接。类似地,PSTN 18与MSC 16介接,且MSC 16与BSC 14介接,BSC 14又控制基站12以将数组前向链路信号传输到数组移动订户单元10。
如图1所示的蜂窝式电话***的元件还可经配置以支持包交换数据通信。如图2所示,通常使用耦合到连接到包数据网络的网关路由器的包数据服务节点(PDSN)而在移动订户单元10与外部包数据网络(例如,例如因特网等公众网络)之间路由包数据业务。PDSN又将数据路由到一个或一个以上包控制功能(PCF),所述PCF每一者服务一个或一个以上BSC且充当包数据网络与无线电接入网络之间的链路。此***可经配置以在永远不进入PSTN的情况下在不同无线电接入网络上的移动订户单元之间将电话呼叫或其它通信作为包数据业务来进行载运(例如,经由例如VoIP等一个或一个以上协议)。
图3A展示第一语音编码器30a,其经布置以接收经数字化的语音信号s1(n)且对所述信号进行编码以在通信信道50上(例如,经由传输媒体)传输到第一语音解码器40a。第一语音解码器40a经布置以对经编码的语音信号进行解码且合成输出语音信号s合成 1(n)。图3B展示第二语音编码器30b,其经布置以对经数字化的语音信号s2(n)进行编码以在通信信道60上(例如,经由相同或不同的传输媒体)在相反方向上传输到第二语音解码器40b。语音解码器40b经布置以对此经编码的语音信号进行解码,从而产生合成的输出语音信号s合成2(n)。第一语音编码器30a和第二语音解码器40b(类似地,第二语音编码器30b和第一语音解码器40a)可一起在任何用于传输和接收语音信号的通信装置中使用,所述通信装置包括(例如)上文参看图1和2而描述的订户单元、BTS或BSC。
语音信号s1(n)和s2(n)表示已根据此项技术中已知的各种方法(例如脉冲代码调制(PCM)、压缩扩展μ法则或A法则)中的任一者而经数字化和量化的模拟信号。如此项技术中已知的,语音编码器接收语音信号的数字样本作为输入数据的帧,其中每一帧包含预定数目的样本。语音信号的帧通常足够短以使得可预期所述信号的频谱包络在整个帧上保持相对静止。一个典型帧长度为二十毫秒,但可使用被视为适合特定应用的任何帧长度。二十毫秒的帧长度对于7千赫(kHz)的取样速率来说对应于140个样本,对于8kHz的取样速率来说对应于160个样本,且对于16kHz的取样速率来说对应于320个样本,但可使用被视为适合特定应用的任何取样速率。可用于语音编码的取样速率的另一实例为12.8kHz,且其它实例包括在12.8kHz到38.4kHz的范围内的其它速率。
通常,语音信号的所有帧均具有相同长度,且在本文描述的特定实例中假设一致的帧长度。然而,还明确地预期且由此揭示,可使用不一致的帧长度。在一些应用中,帧为非重叠的,而在其它应用中,使用重叠帧方案。举例来说,语音编码装置通常在编码器处使用重叠帧方案且在解码器处使用非重叠帧方案。编码器也有可能对不同任务使用不同帧方案。举例来说,语音编码器或语音编码方法可使用一个重叠帧方案来编码对帧的频谱包络的描述且使用不同的重叠帧方案来编码对帧的时间信息的描述。
可能需要将语音编码器配置成使用不同位速率来对有效帧和无效帧进行编码。还可能需要语音编码器使用不同位速率来对不同类型的有效帧进行编码。在此情况下,可选择性地对含有相对较少的语音信息的帧采用较低位速率。通常用以对有效帧进行编码的位速率的实例包括每帧171个位、每帧80个位和每帧40个位;且通常用以对无效帧进行编码的位速率的实例包括每帧16个位。在蜂窝式电话***(尤其是顺从如由弗吉尼亚州阿灵顿电信工业协会(Telecommunications Industry Association,Arlington,VA)公布的暂用标准(IS)-95或类似工业标准的***)的情形中,这四个位速率还分别称为“全速率”、“半速率”、“四分之一速率”和“八分之一速率”。
可能需要将语音信号的有效帧中的每一者分类为若干不同类型中的一者。这些不同类型可包括有声语音(例如,表示元音声的语音)的帧、过渡帧(例如,表示词的开始或结束的帧)和无声语音(例如,表示摩擦声的语音)的帧。可能需要将语音编码器配置成使用不同编码模式来对不同类型的语音帧进行编码。举例来说,有声语音的帧倾向于具有长期(即,持续一个以上帧周期)且与音调相关的周期性结构,且通过使用编码对此长期频谱特征的描述的编码模式来对有声帧(或有声帧序列)进行编码通常较为有效。此类编码模式的实例包括代码激励线性预测(CELP)和原型音调周期(PPP)。另一方面,无声帧和无效帧通常没有任何显著的长期频谱特征,且语音编码器可经配置以通过使用不尝试描述此特征的编码模式来对这些帧进行编码。噪声激励线性预测(NELP)是此编码模式的一个实例。
语音编码器或语音编码方法可经配置以在位速率与编码模式(还称为“编码方案”)的不同组合中进行选择。举例来说,语音编码器可经配置以对含有有声语音的帧和过渡帧使用全速率CELP方案,对含有无声语音的帧使用半速率NELP方案,且对无效帧使用八分之一速率NELP方案。或者,此语音编码器可经配置以对含有有声语音的帧使用全速率PPP方案。
语音编码器还可经配置以支持用于一个或一个以上编码方案的多个编码速率,例如全速率与半速率CELP方案和/或全速率与四分之一速率PPP方案。举例来说,在包括稳定有声语音的时期的系列中的帧倾向于在很大程度上冗余,使得可以小于全速率的速率对其中至少一些进行编码而不会有知觉质量的显著损失。
多方案语音编码装置(包括支持多个编码速率和/或编码模式的语音编码装置)通常提供以较低位速率进行的有效语音编码。熟练技工将认识到,增加编码方案的数目将允许在选择编码方案时具有较大灵活性,这可导致较低的平均位速率。然而,编码方案数目的增加将对应地增加整个***中的复杂性。任何给定***中所使用的可用方案的特定组合将由可用***资源和具体信号环境指定。多方案编码技术的实例在(例如)题为“可变速率语音编码(VARIABLE RATE SPEECH CODING)”的第6,691,084号美国专利和题为“用于可变速率编码装置的任意平均数据速率(ARBITRARY AVERAGE DATARATES FOR VARIABLE RATE CODERS)”的第11/625,788号美国专利申请案(曼朱纳特(Manjunath)等人)中描述。
多方案语音编码器通常包括检查输入语音帧且作出关于对所述帧应用哪个编码方案的决策的开路决策模块。此模块通常经配置以将帧分类为有效或无效,且还可经配置以将有效帧分类为两种或两种以上不同类型(例如有声、无声或过渡)中的一者。帧分类可基于当前帧和/或一个或一个以上先前帧的一个或一个以上特征,例如总帧能量、两个或两个以上不同频带中的每一者中的帧能量、信噪比(SNR)、周期性和越零率。此分类可包括将此因数的值或量值与阈值进行比较和/或将此因数的改变的量值与阈值进行比较。
图4展示开路决策模块可用来根据特定帧所含有的语音类型而选择对所述帧进行编码的位速率的决策树的一个实例。在其它情况下,对特定帧所选择的位速率还可取决于例如所需平均位速率、位速率在一系列帧上的所需图案(其可用以支持所需的平均位速率)和/或对先前帧所选择的位速率等准则。
多方案语音编码器还可执行闭路编码决策,其中在通过使用开路选定的位速率进行完全或部分编码之后获得对编码性能的一个或一个以上测量。可在闭路测试中考虑的性能测量包括(例如)SNR、例如PPP语音编码装置等编码方案中的SNR预测、预测误差量化SNR、相位量化SNR、振幅量化SNR、知觉SNR和作为对稳定性的测量的在当前与过去帧之间的标准化交叉相关。如果性能测量低于阈值,则可将编码速率和/或模式改变为预期会给出较佳质量的一者。可用以维持可变速率语音编码装置的质量的闭路分类方案的实例在1998年11月13日申请的题为“闭路可变速率多模式预测性语音编码装置(CLOSED-LOOP VARIABLE-RATE MULTIMODE PREDICTIVE SPEECHCODER)”的第09/191,643号美国申请案和第6,330,532号美国专利中描述。
语音编码器通常经配置以将语音信号的帧编码为语音包,其中语音包的大小和格式对应于对所述帧所选择的特定编码方案。语音包通常含有语音参数集合,可从所述参数重构语音信号的对应帧。此语音参数集合通常包括频谱信息,例如对所述帧内的在一频谱上的能量分布的描述。此能量分布还称为帧的“频率包络”或“频谱包络”。对帧的频谱包络的描述可依据用以对对应帧进行编码的特定编码方案而具有不同形式和/或长度。
语音编码器通常经配置以将对帧的频谱包络的描述计算为值的有序序列。在一些情况下,语音编码器经配置以计算有序序列,使得每一值指示信号在对应频率处或在对应频谱区域上的振幅或量值。此描述的一个实例是傅立叶变换系数的有序序列。
在其它情况下,语音编码器经配置以将对频谱包络的描述计算为编码模型的参数值的有序序列(例如线性预测编码(LPC)分析的系数值的集合)。通常将LPC系数值的有序序列布置成一个或一个以上向量,且语音编码器可经实施以将这些值计算为滤波系数或反射系数。所述集合中的系数值的数目还称为LPC分析的“阶”,且如由通信装置(例如蜂窝式电话)的语音编码器执行的LPC分析的典型阶的实例包括4、6、8、10、12、16、20、24、28和32。
语音编码器通常经配置为以量化形式在传输信道上传输对频谱包络的描述(例如,作为进入对应查找表或“代码簿”中的一个或一个以上索引)。因此,可能需要语音编码器计算采用可进行有效量化的形式的LPC系数值的集合,例如线谱对(LSP)、线谱频率(LSF)、导抗谱对(ISP)、导抗谱频率(ISF)、倒谱系数或对数面积比的值的集合。语音编码器还可经配置以在转换和/或量化之前对值的有序序列执行其它操作,例如知觉加权。
在一些情况下,对帧的频谱包络的描述还包括对帧的时间信息的描述(例如,采用傅立叶变换系数的有序序列的形式)。在其它情况下,语音包的语音参数集合还可包括对帧的时间信息的描述。对时间信息的描述的形式可取决于用以对帧进行编码的特定编码模式。对于一些编码模式来说(例如,对于CELP编码模式来说),对时间信息的描述可包括对待由语音解码器用来激励LPC模型(例如,如由对频谱包络的描述所界定)的激励信号的描述。对激励信号的描述通常以量化形式出现于语音包中(例如,作为进入对应代码簿中的一个或一个以上索引)。对时间信息的描述还可包括与激励信号的至少一个音调分量相关的信息。对于PPP编码模式来说,举例来说,经编码的时间信息可包括对待由语音解码器用来再现激励信号的音调分量的原型的描述。对与音调分量相关的信息的描述通常以量化形式出现于语音包中(例如,作为进入对应代码簿中的一个或一个以上索引)。
对于其它编码模式来说(例如,对于NELP编码模式来说),对时间信息的描述可包括对帧的时间包络(还称为帧的“能量包络”或“增益包络”)的描述。对时间包络的描述可包括基于帧的平均能量的值。此值通常经呈现作为待在解码期间应用于所述帧的增益值,且还称为“增益框架”。在一些情况下,增益框架是基于以下两者之间的比率的标准化因数:(A)原始帧的能量E原始;以及(B)从语音包的其它参数(例如,包括对频谱包络的描述)合成的帧的能量E合成。举例来说,增益框架可表达为E原始/E合成或表达为E原始/E合成的平方根。增益框架和时间包络的其它方面在(例如)2006年12月14日公开的题为“用于增益因数衰减的***、方法和设备(SYSTEMS,METHODS,ANDAPPARATUS FOR GAIN FACTOR ATTENUATION)”的第2006/0282262号美国专利申请公开案(沃斯(Vos)等人)中更详细地描述。
替代地或额外地,对时间包络的描述可包括所述帧的许多子帧中的每一者的相对能量值。此类值通常经呈现作为待在解码期间应用于相应子帧的增益值,且统称为“增益轮廓”或“增益形状”。在一些情况下,增益形状值是每一者基于以下两者之间的比率的标准化因数:(A)原始子帧i的能量E原始.i;以及(B)从经编码帧的其它参数(例如,包括对频谱包络的描述)合成的帧的对应子帧i的能量E合成.i。在此情况下,可使用能量E合成.i来使能量E原始.i标准化。举例来说,增益形状值可表达为E原始.i/E合成.i或表达为E原 始.i/E合成.i的平方根。对时间包络的描述的一个实例包括增益框架和增益形状,其中增益形状包括20毫秒帧的五个4毫秒子帧中的每一者的值。可在线性标度或对数(例如,分贝)标度上表达增益值。此类特征在(例如)上文引用的第2006/0282262号美国专利申请公开案中更详细地描述。
在计算增益框架的值(或增益形状的值)中,可能需要应用与邻近帧(或子帧)重叠的开窗函数。以此方式产生的增益值通常以重叠相加的方式应用于语音解码器处,这可有助于减少或避免帧或子帧之间的不连续性。图5A展示可用以计算增益形状值中的每一者的梯形开窗函数的曲线图。在此实例中,窗与两个邻近子帧中的每一者重叠1毫秒。图5B展示将此开窗函数应用于20毫秒帧的五个子帧中的每一者。开窗函数的其它实例包括具有不同重叠时期和/或可为对称或不对称的不同窗形状(例如,矩形或汉明)的函数。还有可能通过对不同子帧应用不同开窗函数和/或通过计算增益形状在具有不同长度的子帧上的不同值来计算增益形状的值。
包括对时间包络的描述的语音包通常包括采用量化形式的描述,例如进入对应代码簿中的一个或一个以上索引,但在一些情况下,可使用一算法来在不使用代码簿的情况下对增益框架和/或增益形状进行量化和/或解量化。对时间包络的描述的一个实例包括具有八到十二个位的量化索引,其对帧指定五个增益形状值(例如,对五个连续子帧中的每一者指定一个增益形状值)。此描述还可包括对帧指定增益框架值的另一量化索引。
如上文所提到的,可能需要传输和接收具有超过300到3400kHz的PSTN频率范围的频率范围的语音信号。一种用以对此信号进行编码的方法是将整个延伸的频率范围作为单个频带来进行编码。此方法可通过按比例缩放窄带语音编码技术(例如,经配置以对例如0到4kHz或300到3400Hz的PSTN质量频率范围进行编码的技术)以覆盖例如0到8kHz的宽带频率范围来实施。举例来说,此方法可包括(A)以较高速率对语音信号进行取样以包括高频率的分量,以及(B)对窄带编码技术进行重新配置以在所需的准确性程度上表示此宽带信号。重新配置窄带编码技术的一种此类方法是使用较高阶的LPC分析(即,产生具有较多值的系数向量)。将宽带信号作为单个频带进行编码的宽带语音编码装置还称为“全带”编码装置。
可能需要实施宽带语音编码装置以使得可通过窄带信道(例如PSTN信道)发送经编码信号的至少一窄带部分而无需对经编码信号进行译码或以另外方式对其进行显著修改。此特征可促进与仅认可窄带信号的网络和/或设备的向后相容性。还可能需要实施对于语音信号的不同频带使用不同编码模式和/或速率的宽带语音编码装置。此特征可用以支持提高的编码效率和/或知觉质量。经配置以产生具有表示宽带语音信号的不同频带的部分(例如,单独的语音参数集合,每一集合表示宽带语音信号的不同频带)的语音包的宽带语音编码装置还称为“分带”编码装置。
图6A展示非重叠频带方案的一个实例,其可由分带语音编码器用来对跨越0Hz到8kHz的范围的宽带语音内容进行编码。此方案包括从0Hz延伸到4kHz的第一频带(还称为窄带范围)和从4kHz延伸到8kHz的第二频带(还称为延伸、上部或高带范围)。图6B展示重叠频带方案的一个实例,其可由分带语音编码器用来对跨越0Hz到7kHz的范围的宽带语音内容进行编码。此方案包括从0Hz延伸到4kHz的第一频带(窄带范围)和从3.5kHz延伸到7kHz的第二频带(延伸、上部或高带范围)。
频带方案的其它实例包括窄带范围仅向下延伸到约300Hz的实例。此方案还可包括覆盖从约0Hz或50Hz直到约300Hz或350Hz的低带范围的另一频带。分带语音编码器的一个特定实例经配置以对窄带范围执行十阶LPC分析且对高带范围执行六阶LPC分析。
使用全带编码方案进行编码的语音包含有对在整个宽带频率范围上延伸的单个频谱包络的描述,而使用分带编码方案进行编码的语音包具有表示宽带语音信号的不同频带(例如,窄带范围和高带范围)中的信息的两个或两个以上单独部分。举例来说,通常,经分带编码的语音包的这些单独部分中的每一者含有对语音信号的在对应频带上的频谱包络的描述。经分带编码的语音包可含有对帧的针对整个宽带频率范围的时间信息的一个描述,或者经分带编码的语音包的单独部分中的每一者可含有对语音信号的针对对应频带的时间信息的描述。
语音编码器通常经配置以产生一系列经编码帧,每一经编码帧包括语音包以及(可能地)一个或一个以上相关联的位。图7A说明具有192位长度的经编码帧的格式的一个实例。在此实例中,经编码帧包括表示语音信号(即,主要业务)的帧的171位全速率语音包。经编码帧还可包括一个或一个以上校验位。在此实例中,经编码帧包括:12位帧质量指示符F,其可包括奇偶校验位或循环冗余校验(CRC)位;以及尾位T的8位集合,其可用以终止和初始化产生CRC位的卷积代码。经编码帧还可包括指示除语音包以外的数据(例如,信息突发)的存在的一个或一个以上位。在此实例中,经编码帧包括混合模式位MM,其在此情况下经清零(即,具有零值)。
可能需要偶尔或周期性地在经编码帧内包括不为语音信号的部分的信息。举例来说,可能需要经编码帧载运在移动台与网络中另一实体(例如BTS、BSC、MSC、PCF或PDSN)之间的信令信息的突发。信令信息突发可载运对执行一动作(例如提高传输功率或测量参数(例如,导频强度))的请求或对此请求的响应(例如,测量得的参数值)的至少一部分。与无线电接入网络内的越区切换或从一个无线电接入网络到另一者的越区切换相关的信令信息突发可包括经更新的网络信息,例如网络识别符(NID)、***识别符(SID)和/或包区域识别符(PZID)的值。在一些情况下,信令信息突发包括含有这些越区切换参数值中的一者或一者以上的***内业务参数消息的至少一部分。
或者,可能需要经编码帧载运次要业务的突发。次要业务突发可包括偶尔更新的信息,例如地理位置信息(例如,全球定位***或GPS信息)更新的至少一部分。在另一情况下,次要业务突发可包括低位速率数据传输(例如传呼消息、短消息传输服务(SMS)消息或电子邮件消息)的至少一部分。
在此些情况下,可能需要语音编码器对经编码帧进行配置以使得一些位可用于载运其它信息。举例来说,可能需要语音编码器通过使用比由速率选择机构所指示的位速率低的位速率来将所述帧编码为较小语音包。此操作称为“模糊化”或“源级模糊化”。在源级模糊化的一个典型实例中,迫使语音编码器使用半速率方案来对帧(原本已针对所述帧选择了全速率方案)进行编码,但源级模糊化通常可包括任何速率降低。可变速率语音编码器可经配置以执行模糊和突发技术来产生包括经模糊的语音包和其它信息的突发的经编码帧。对此类技术的描述可在(例如)第5,504,773号美国专利(帕多瓦尼(Padovani)等人)中找到。
使用模糊和突发技术而产生的经编码帧可包括指示其是否包括信令信息或次要业务的一个或一个以上位。图7B展示模糊和突发技术可用来包括主要业务的半速率语音包(80个位)和86位的信令信息突发的经编码帧的格式。此帧包括指示是否使用模糊和突发或空白和突发格式的突发格式位BF、指示突发是否含有信令业务或次要业务的业务类型位TT和可用以指示用于主要业务和/或用于信令或次要业务的不同数目的位的两个业务模式位TM,所有所述位在此情况下均经清零。帧还包括消息开始位SOM,其指示随后位是否为信令消息的第一位。图7C展示模糊和突发技术可用来包括语音信号的半速率包和87位的次要业务突发的经编码帧的格式。在此情况下,帧格式不包括消息开始位,且业务类型位TT经设定。
模糊化的过度使用可能会引起经编码语音信号的质量的降级。一般来说,模糊化的使用限于不超过全速率帧的百分之五,但更通常地对不超过此类帧的百分之一或(可能地)百分之二进行模糊化。在一些情况下,语音编码器经配置以根据二进制掩码文件来选择待经模糊的帧,其中掩码文件的每一位对应于一帧且所述位的状态指示所述帧是否待经模糊。在其它情况下,语音编码器经配置以在可能的情况下通过等到半速率帧经调度为止来避免模糊化。
可能需要实施宽带编码***作为对现有窄带编码***的升级。举例来说,可能需要通过使用相同的位速率和包大小来最小化对网络的改变,其中通过额外包格式来支持额外宽带编码方案。使用如图7A到图7C所示的顺从IS-95的帧格式的一种现有类型的窄带语音编解码器是增强型可变速率编解码器版本B(EVRC-B),如可在3gpp2.org处在线获得的第三代合作伙伴计划2(3GPP2)文献C.S0014-B v1.0(2006年5月)中所描述的。可能需要将支持EVRC-B的***升级为还支持增强型可变速率编解码器版本C(EVRC-C,还称为EVRC-WB),如也可在3gpp2.org处在线获得的3GPP2文献C.S0014-Cv1.0(2007年1月)中所描述的。
如上文所提到的,现有窄带编码***支持模糊和突发技术的使用。可能需要在宽带编码***中支持模糊和突发技术。一种用以对宽带帧进行模糊化的方法涉及设计并实施较低位速率(例如,半速率)宽带编码方案来与经模糊帧一起使用。宽带语音编码器可经配置以根据此方案而对经模糊帧进行编码,或替代地通过使用用较高位速率宽带编码方案编码的语音包的选定位来创建具有此方案的格式的语音包。然而,在任一情况下,设计较低位速率宽带编码方案来具有可接受的知觉质量均将为昂贵的。实施此编码方案还将可能消耗语音编码器的较多资源,例如处理循环和存储空间。实施额外编码方案还将增加***复杂性。
另一种用以对宽带帧进行模糊化的方法是使用较低位速率窄带编码方案来对经模糊的宽带帧进行编码。虽然此方法涉及高带信息的损失,但在对现有窄带设施的宽带升级中实施可能较为容易,因为其可经配置以使用现有窄带编码方案(例如,半速率CELP)。对应语音解码器可经配置以从一个或一个以上先前帧的高带信息重构丢失的高带信息。
图8A展示根据通用配置的方法M100的流程图,所述方法包括任务T110、T120、T130和T140。任务T110经配置以基于语音信号的第一有效帧而产生第一语音包。所述第一语音包包括对在(A)第一频带和(B)在第一频带上方延伸的第二频带上的频谱包络的描述。此描述可以是在所述两个频带上延伸的单个描述,或者其可包括每一者在所述频带中的相应一者上延伸的单独描述。任务T110还可经配置以将第一语音包产生为含有对在第一和第二频带上的时间包络的描述。此描述可以是在所述两个频带上延伸的单个描述,或者其可包括每一者在所述频带中的相应一者上延伸的单独描述。清楚地注意到,方法M100的实施方案的范围还包括任务T110经配置以基于语音信号的无效帧而产生第一语音包的实施方案。
任务T120经配置以基于在语音信号中出现于第一有效帧之后的语音信号的第二有效帧(例如,紧随第一有效帧之后的有效帧,或与第一有效帧隔开一个或一个以上其它有效帧的有效帧)而产生第二语音包。所述第二语音包包括对在第一频带上的频谱包络的描述。任务T120还可经配置以将第二语音包产生为含有对针对第一频带的时间信息的描述。任务T130经配置以产生含有第一语音包的第一经编码帧,且任务T140经配置以产生含有第二语音包和与语音信号分离的信息信号的突发的第二经编码帧。第一和第二语音包还可包括基于相应帧的对时间信息的描述。图9说明方法M100的应用。
任务T130和T140经配置以将第一和第二经编码帧产生为具有相同大小(例如,192个位)。任务T110可经配置以将第一语音包产生为具有大于第一经编码帧的长度的一半的长度。举例来说,任务T110可经配置以将第一语音包产生为具有为第一经编码帧的长度的至少百分之六十、七十、七十五、八十或八十五的长度。在一个特定此类实例中,任务T110经配置以将第一语音包产生为具有171个位的长度。或者,任务T110可经配置以将第一语音包产生为具有不超过第一经编码帧的长度的百分之五十、四十五或四十二的长度。在一个特定此类实例中,任务T110经配置以将第一语音包产生为具有80个位的长度。
任务T120经配置以将第二语音包产生为具有不大于第二经编码帧的长度的百分之六十的长度。举例来说,任务T120可经配置以将第二语音包产生为具有不超过第二经编码帧的长度的百分之五十、四十五或四十二的长度。在一个特定实例中,任务T120经配置以将第二语音包产生为具有80个位的长度。任务T120还可经配置以使得第二语音包不包括对在第二频带上的频谱包络的描述和/或对针对第二频带的时间信息的描述。
方法M100通常经执行为较大语音编码方法的部分,且明确地预期并由此揭示经配置以执行方法M100的语音编码器和语音编码方法。此编码器或方法可经配置以使用与第一经编码帧相同的格式或使用与第二经编码帧相同的格式对语音信号中跟随第二帧之后的有效帧(例如,紧随第二帧之后的有效帧,或与第二帧隔开一个或一个以上其它有效帧的有效帧)进行编码。或者,此编码器或方法可经配置以使用不同的编码方案对跟随第二帧之后的无声或无效帧进行编码。对应的语音解码器可经配置以使用已从第一经编码帧解码的信息来补充对来自在经编码的语音信号中出现于第一经编码帧之后的另一经编码帧的有效帧的解码。在此描述中的其它地方,揭示语音解码器和对语音信号的帧进行解码的方法,其在对一个或一个以上后续有效帧进行解码中使用已从第一经编码帧解码的信息。
任务T110和T120中的一者或两者可经配置以计算对频谱包络的相应描述。图10展示任务T110的此实施方案的子任务T112的应用,所述子任务T112经配置以基于第一帧而计算对在第一和第二频带上的频谱包络的描述。图10还展示任务T120的此实施方案的子任务T122的应用,所述子任务T122经配置以基于第二帧而计算对在第一频带上的频谱包络的描述。任务T110和T120还可经配置以基于相应帧而计算对时间信息的描述,所述描述可包括在相应语音包中。
任务T110和T120可经配置以使得第二语音包包括对在第一频带上的频谱包络的描述,其中所述描述的长度不小于第一语音包中所包括的对在第一和第二频带上的频谱包络的描述的长度的一半。举例来说,任务T110和T120可经配置以使得第二语音包中的对在第一频带上的频谱包络的描述的长度至少为第一语音包中所包括的对在第一和第二频带上的频谱包络的描述的长度的百分之五十五或六十。在一个特定实例中,第二语音包中的对在第一频带上的频谱包络的描述的长度为22个位,且第一语音包中所包括的对在第一和第二频带上的频谱包络的描述的长度为36个位。
第二频带不同于第一频带,但方法M110可经配置以使得所述两个频带重叠。第一频带的下限的实例包括0、50、100、300和500Hz,且第一频带的上限的实例包括3、3.5、4、4.5和5kHz。第二频带的下限的实例包括2.5、3、3.5、4和4.5kHz,且第二频带的上限的实例包括7、7.5、8和8.5kHz。明确地预期且由此揭示上述界限的所有五百个可能组合,且还明确地预期且由此揭示任一此类组合对方法M110的任一实施方案的应用。在一个特定实例中,第一频带包括约50Hz到约4kHz的范围,且第二频带包括约4Hz到约7kHz的范围。在另一特定实例中,第一频带包括约100Hz到约4kHz的范围,且第二频带包括约3.5Hz到约7kHz的范围。在又一特定实例中,第一频带包括约300Hz到约4kHz的范围,且第二频带包括约3.5Hz到约7kHz的范围。在这些实例中,术语“约”指示正负百分之五,其中各个频带的界限由相应3dB点指示。
如上文所提到的,对于宽带应用,分带编码方案可具有优于全带编码方案的优势,例如提高的编码效率和对向后相容性的支持。可能需要将方法M100实施为通过使用分带编码方案而非全带编码方案来产生第一经编码帧。图8B展示方法M100的实施方案M110的流程图,所述实施方案M110包括任务T110的实施方案T114。作为任务T110的实施方案,任务T114经配置以产生包括对在第一和第二频带上的频谱包络的描述的第一语音包。在此情况下,任务T114经配置以将第一语音包产生为包括对在第一频带上的频谱包络的描述和对在第二频带上的频谱包络的描述,使得所述两个描述彼此分离(虽然可能地在语音包中彼此邻近)。
任务T114可经配置以使用分带编码方案来计算对频谱包络的描述。图11展示任务T114的此实施方案的子任务T116的应用,其中子任务T116是子任务T112的分带实施方案。子任务T116包括子任务T118a,其经配置以基于第一帧而计算对在第一频带上的频谱包络的描述。子任务T116还包括子任务T118b,其经配置以基于第一帧而计算对在第二频带上的频谱包络的描述。任务T118a和T118b还可经配置以计算对在所述两个频带上的时间信息的单独描述。
对帧的频谱和/或时间信息的描述的计算可基于来自一个或一个以上先前帧的信息。在此情况下,使用窄带编码方案来对第二帧进行编码可降低一个或一个以上后续帧的编码性能。任务T120可包括子任务T124(未图示),其经配置以基于第二帧而计算对在第二频带上的频谱包络的描述和/或对针对第二频带的时间信息的描述。举例来说,任务T120可经配置以使用宽带编码方案来对第二帧进行编码。如上文所提到的,任务T120可经配置以使得第二语音包不包括对在第二频带上的频谱包络的描述或对针对第二频带的时间信息的描述。然而,甚至在此情况下,计算针对第二频带的此信息以使得其在编码器处可用于在此历史信息的基础上对一个或一个以上后续帧进行编码仍可在那些帧上提供比在没有此信息的情况下对其进行编码要好的知觉质量。或者,任务T120可经配置以使用窄带编码方案来对第二帧的第一频带进行编码且初始化下一帧的第二频带的历史(例如,通过复位存储过去的频谱和/或时间信息的存储器)。在另一替代方案中,任务T120经配置以使用窄带编码方案来对第二帧的第一频带进行编码且使用擦除处理例行程序来针对第二帧估计对在第二频带上的频谱包络的描述(和/或对针对第二频带的时间信息的描述)。举例来说,任务T120的此实施方案可经配置以基于来自第一帧和(可能地)来自一个或一个以上先前帧的信息而针对第二帧估计对在第二频带上的频谱包络的描述(和/或对针对第二频带的时间信息的描述)。
任务T118a和T118b可经配置以计算具有相同长度的对在所述两个频带上的频谱包络的描述,或者任务T118a和T118b中的一者可经配置以计算比由另一任务所计算的描述长的描述。举例来说,任务T118a和T118b可经配置以使得如由任务T118b计算的在第一语音包中的对在第二频带上的频谱包络的描述的长度不超过如由任务T118a计算的在第一语音包中的对在第一频带上的频谱包络的描述的长度的百分之五十、四十或三十。在一个特定实例中,第一语音包中的对在第一频带上的频谱包络的描述的长度为28个位,且第一语音包中的对在第二频带上的频谱包络的描述的长度为8个位。任务T118a和T118b还可经配置以计算对针对所述两个频带的时间信息的单独描述。
任务T118a和T122可经配置以计算具有相同长度的对在第一频带上的频谱包络的描述,或者任务T118a和T122中的一者可经配置以计算比由另一任务所计算的描述长的描述。举例来说,任务T118a和T122可经配置以使得如由任务T122计算的在第二语音包中的对在第一频带上的频谱包络的描述的长度至少为如由任务T118a计算的在第一语音包中的对在第一频带上的频谱包络的描述的长度的百分之五十、六十、七十或七十五。在一个特定实例中,第一语音包中的对在第一频带上的频谱包络的描述的长度为28个位,且第二语音包中的对在第一频带上的频谱包络的描述的长度为22个位。
图13的表展示语音编码器可用来执行包括方法M100的实施方案的语音编码方法的一组四个不同编码方案。在此实例中,使用全速率宽带CELP编码方案(“编码方案1”)来对有声帧进行编码。此编码方案使用153个位来对帧的窄带部分进行编码且使用16个位来对高带部分进行编码。对于窄带,编码方案1使用28个位来编码对频谱包络的描述(例如,编码为一个或一个以上量化LSP向量)且使用125个位来编码对激励信号的描述。对于高带,编码方案1使用8个位来编码频谱包络(例如,编码为一个或一个以上量化LSP向量)且使用8个位来编码对时间包络的描述。
可能需要将编码方案1配置成从窄带激励信号导出高带激励信号,使得不需要经编码帧的任何位来载运高带激励信号。还可能需要将编码方案1配置成计算与如从经编码帧的其它参数(例如,包括对在第二频带上的频谱包络的描述)合成的高带信号的时间包络有关的高带时间包络。此类特征在(例如)上文引用的第2006/0282262号美国专利申请公开案中更详细地描述。
在根据图12的表的实例中,使用半速率窄带CELP编码方案(“编码方案2”)来对经模糊帧进行编码。此编码方案使用80个位来对帧的窄带部分进行编码(且不使用任何位来对高带部分进行编码)。编码方案2使用22个位来编码对频谱包络的描述(例如,编码为一个或一个以上量化LSP向量)且使用58个位来编码对激励信号的描述。
与有声语音信号相比,无声语音信号通常在高带中含有较多对于语音理解为重要的信息。因此,与对有声帧的高带部分进行编码相比,可能需要使用较多位来对无声帧的高带部分进行编码,甚至对于使用较高总***速率对有声帧进行编码的情况也是如此。在根据图12的表的实例中,使用半速率宽带NELP编码方案(“编码方案3”)来对无声帧进行编码。代替如编码方案1用来对有声帧的高带部分进行编码的16个位,此编码方案使用27个位来对所述帧的高带部分进行编码:12个位用以编码对频谱包络的描述(例如,编码为一个或一个以上量化LSP向量)且15个位用以编码对时间包络的描述(例如,编码为量化的增益框架和/或增益形状)。为了对窄带部分进行编码,编码方案3使用47个位:28个位用以编码对频谱包络的描述(例如,编码为一个或一个以上量化LSP向量)且19个位用以编码对时间包络的描述(例如,编码为量化的增益框架和/或增益形状)。
在根据图12的表的实例中,使用八分之一速率窄带NELP编码方案(“编码方案4”)来以每帧16位的速率对无效帧进行编码,其中10个位用以编码对频谱包络的描述(例如,编码为一个或一个以上量化LSP向量)且5个位用以编码对时间包络的描述(例如,编码为量化的增益框架和/或增益形状)。编码方案4的另一实例使用8个位来编码对频谱包络的描述且使用6个位来编码对时间包络的描述。
在根据图12的实例中,编码方案2和/或编码方案4可为来自基础窄带设施的遗留编码方案。此语音编码器或语音编码方法还可经配置以支持其它遗留编码方案和/或新的编码方案。图13的表展示如由宽带CELP编码方案1的实例所产生的针对全速率包(171个位)的位分配集合。图14的表展示如由窄带CELP编码方案2的实例所产生的针对半速率包(80个位)的位分配集合。任务T110的一个特定实例使用全速率CELP编码方案(例如,根据图12的表中的编码方案1)来基于语音信号的有声或过渡帧而产生第一语音包。任务T110的另一特定实例使用半速率NELP编码方案(例如,根据图12的表中的编码方案3)来基于语音信号的无声帧而产生第一语音包。任务T110的又一特定实例使用八分之一速率NELP编码方案(例如,根据图12的表中的编码方案4)来基于语音信号的无效帧而产生第一语音包。
在方法M100的实施方案的典型应用中,逻辑元件(例如,逻辑门)的阵列经配置以执行所述方法的各种任务中的一者、一者以上或甚至全部。所述任务中的一者或一者以上(可能全部)还可经实施为代码(例如,一个或一个以上指令集合),其在可由包括逻辑元件(例如,处理器、微处理器、微控制器或其它有限状态机)的阵列的机器(例如,计算机)读取和/或执行的计算机程序产品(例如,例如盘、快闪或其它非易失性存储卡、半导体存储器芯片等一个或一个以上数据存储媒体)中体现。方法M100的实施方案的任务还可由一个以上此类阵列或机器来执行。在这些或其它实施方案中,所述任务可在用于无线通信的装置(例如蜂窝式电话)或具有此通信能力的其它装置内执行。此装置可经配置以与电路交换和/或包交换的网络进行通信(例如,使用例如VoIP的一个或一个以上协议)。举例来说,此装置可包括经配置以传输经编码帧的RF电路。
在宽带情形中使用模糊和突发技术的又一方法是使用经模糊包的高带部分来载运信息突发。在此情况下,可修改较高位速率(例如,全速率)宽带编码方案以使得其所产生的每一语音包均包括经保留用作混合模式指示符的位,且语音编码器可经配置以设定混合模式位来指示语音包的高带部分含有信令信息或次要业务而非通常的高带语音信息。
图15A展示根据通用配置的语音编码器100的框图。语音编码器100包括经布置以接收语音信号和速率控制信号的帧的包编码器120。包编码器120经配置以根据由速率控制信号指示的速率而产生语音包。语音编码器100还包括帧格式化器130,其经布置以接收语音包、信息突发和模糊化控制信号。帧格式化器130经配置以根据模糊化控制信号的状态而产生经编码帧。包括语音编码器100的通信装置(例如蜂窝式电话)可经配置以在将经编码帧传输到有线、无线或光传输信道中之前对其执行进一步处理操作,例如误差校正和/或冗余编码。
在此实例中,语音编码器100从另一模块接收速率控制信号。还可将语音编码器100实施为包括经配置以产生速率控制信号(例如,根据如上文所述的开路或开闭路速率选择算法)的速率选择模块。在此情况下,速率选择模块可经配置以控制模糊化操作(例如,根据如上文所述的二进制掩码文件)且产生模糊化控制信号。或者,速率选择模块可经配置以从在语音编码器内部或外部的另一模块接收与模糊化控制信号相关的越过信号。语音编码器100还可经配置以对所接收的帧执行一个或一个以上预处理操作,例如知觉加权或其它滤波操作。
包编码器120经配置以基于语音信号的第一有效帧且响应于速率控制信号的第一状态而产生如上文所述包括对在第一和第二频带上的频谱包络的描述的第一语音包。举例来说,速率控制信号的第一状态可指示根据图12的实例的宽带编码方案1。包编码器120还经配置以基于语音信号的第二有效帧且响应于速率控制信号的不同于第一状态的第二状态而产生如上文所述包括对在第一频带上的频谱包络的描述的第二语音包。举例来说,速率控制信号的第二状态可指示根据图12的实例的窄带编码方案2。
图15B展示包编码器120的实施方案122的框图,所述实施方案122包括频谱包络描述计算器140、时间信息描述计算器150和包格式化器160。频谱包络描述计算器140经配置以计算对待编码的每一帧的频谱包络的描述。时间信息描述计算器150经配置以计算对待编码的每一帧的时间信息的描述。包格式化器160经配置以产生包括计算所得的对频谱包络的描述和计算所得的对时间信息的描述的语音包。包格式化器160可经配置以根据所需的包格式(例如,如由速率控制信号的状态所指示)而产生语音包,其可能对不同编码方案使用不同格式。包格式化器160可经配置以将语音包产生为包括对帧进行编码所根据的额外信息(还称为“编码索引”),例如识别编码方案或者编码速率或模式的一个或一个以上位的集合。
频谱包络描述计算器140经配置以根据速率控制信号的状态而计算对待编码的每一帧的频谱包络的描述。所述描述基于当前帧且还可基于一个或一个以上其它帧的至少一部分。举例来说,计算器140可经配置以应用延伸到一个或一个以上邻近帧中的窗且/或计算对两个或两个以上帧的描述的平均值(例如,LSP向量的平均值)。
计算器140可经配置以通过执行例如LPC分析等频谱分析而计算对帧的频谱包络的描述。图15C展示频谱包络描述计算器140的实施方案142的框图,所述实施方案142包括LPC分析模块170、变换区块180和量化器190。分析模块170经配置以执行对帧的LPC分析且产生对应的模型参数集合。举例来说,分析模块170可经配置以产生例如滤波系数或反射系数等LPC系数的向量。分析模块170可经配置以在窗上执行分析,所述窗包括一个或一个以上相邻帧的部分。在一些情况下,分析模块170经配置以使得根据由编码方案选择器120指示的编码方案而选择分析的阶(例如,系数向量中的元素的数目)。
变换区块180经配置以将模型参数集合转换为对于量化较为有效的形式。举例来说,变换区块180可经配置以将LPC系数向量转换为LSP集合。在一些情况下,变换区块180经配置以根据由编码方案选择器120指示的编码方案而将LPC系数集合转换为特定形式。
量化器190经配置以通过量化经转换的模型参数集合而产生对频谱包络的量化形式的描述。量化器190可经配置以通过对经转换的集合的元素进行截断和/或通过选择一个或一个以上量化表索引来表示经转换的集合而量化经转换的集合。可能需要将量化器190配置为根据速率控制信号的状态而将经转换的集合量化为特定形式和/或长度。举例来说,量化器190可经实施以响应于速率控制信号的第一状态而产生如图13所述的量化描述,且响应于速率控制信号的第二状态而产生如图14所述的量化描述。
时间信息描述计算器150经配置以计算对帧的时间信息的描述。所述描述同样可基于一个或一个以上其它帧的至少一部分的时间信息。举例来说,计算器150可经配置以计算在延伸到一个或一个以上邻近帧中的窗上的描述且/或计算对两个或两个以上帧的描述的平均值。
时间信息描述计算器150可经配置以根据速率控制信号的状态计算具有特定形式和/或长度的对时间信息的描述。举例来说,计算器150可经配置以根据速率控制信号的状态计算对包括(A)帧的时间包络和(B)帧的激励信号中的一者或两者的时间信息的描述,其可包括对至少一个音调分量的描述(例如,音调延迟或滞后、音调增益和/或对原型的描述)。在LPC编码器中,通常将音调滞后计算为使帧的LPC残差的自相关函数最大化的滞后值。激励信号还可基于其它信息,例如来自适应性代码簿(还称为音调代码簿)的值和/或来自固定代码簿(还称为创新代码簿且可能指示脉冲的位置)的值。
计算器150可经配置以计算对包括帧的时间包络的时间信息的描述(例如,增益框架值和/或增益形状值)。举例来说,计算器150可经配置以响应于NELP编码方案的指示输出此描述。如本文所描述,计算此描述可包括将帧或子帧上的信号能量计算为信号样本的平方和,计算包括其它帧和/或子帧的部分的窗上的信号能量,且/或量化计算所得的时间包络。
计算器150可经配置以计算对帧的时间信息的描述,所述时间信息包括与帧的音调或周期性相关的信息。举例来说,计算器150可经配置以响应于CELP编码方案的指示而输出包括帧的音调信息(例如音调滞后或延迟和/或音调增益)的描述。在一些情况下,与帧的音调分量相关的信息(例如激励信号或例如音调滞后等参数)可从对应的语音包且也可从先前语音包获得。替代地或额外地,计算器150可经配置以响应于PPP编码方案的指示而输出对周期性波形(还称为“原型”)的描述。计算音调和/或原型信息通常包括从LPC残差提取此信息且还可包括将来自当前帧的音调和/或原型信息与来自一个或一个以上过去帧的此信息进行组合。计算器150还可经配置以量化此对时间信息的描述(例如,量化为一个或一个以上表索引)。
计算器150可经配置以计算包括激励信号的对帧的时间信息的描述。举例来说,计算器150可经配置以响应于CELP编码方案的指示而输出包括激励信号的描述。激励信号还可包括对音调分量的描述(例如,音调延迟或滞后、音调增益和/或对原型的描述)。计算激励信号通常包括从LPC残差导出此信号且还可包括将来自当前帧的激励信息与来自一个或一个以上过去帧的此信息进行组合。计算器150还可经配置以量化此对时间信息的描述(例如,量化为一个或一个以上表索引)。对于语音编码器132支持松弛CELP(RCELP)编码方案的情况,计算器150可经配置以使激励信号规律化。
图16A展示包编码器122的实施方案124的框图,所述实施方案124包括时间信息描述计算器150的实施方案152。计算器152经配置以计算对帧的时间信息(例如,激励信号、音调和/或原型信息)的描述,所述描述基于如由频谱包络描述计算器140所计算的对帧的频谱包络的描述。
图16B展示时间信息描述计算器152的实施方案154的框图,所述实施方案154经配置以基于帧的LPC残差而计算对时间信息的描述。在此实例中,计算器154经布置以接收如由频谱包络描述计算器142所计算的对帧的频谱包络的描述。解量化器A10经配置以对描述进行解量化,且逆变换区块A20经配置以对经解量化的描述应用逆变换以获得LPC系数集合。白化滤波器A30根据LPC系数集合而进行配置且经布置以对语音信号进行滤波来产生LPC残差。量化器A40经配置以量化对帧的时间信息的描述(例如,量化为一个或一个以上表索引),所述描述基于LPC残差且可能还基于所述帧的音调信息和/或来自一个或一个以上过去帧的时间信息。
可能需要使用包编码器122的实施方案来根据分带编码方案而对宽带语音信号的帧进行编码。在此情况下,频谱包络描述计算器140可经配置以连续和/或并行地且(可能地)根据不同编码模式和/或速率而计算对帧在相应频带上的频谱包络的各种描述。时间信息描述计算器150还可经配置以连续和/或并行地且(可能地)根据不同编码模式和/或速率而计算对帧在各个频带上的时间信息的描述。
图17A展示语音编码器100的实施方案102的框图,所述实施方案102经配置以根据分带编码方案而对宽带语音信号进行编码。语音编码器102包括滤波器组A50,其经配置以对语音信号进行滤波来产生含有语音信号的在第一频带上的内容的子带信号(例如,窄带信号)和含有语音信号的在第二频带上的内容的子带信号(例如,高带信号)。此类滤波器组的特定实例在(例如)2007年4月19日公开的题为“用于语音信号滤波的***、方法和设备(SYSTEMS,METHODS,AND APPARATUS FOR SPEECH SIGNALFILTERING)”的第2007/088558号美国专利申请公开案(沃斯(Vos)等人)中描述。举例来说,滤波器组A50可包括经配置以对语音信号进行滤波来产生窄带信号的低通滤波器和经配置以对语音信号进行滤波来产生高带信号的高通滤波器。滤波器组A50还可包括经配置以根据所需的相应抽取因数而降低窄带信号和/或高带信号的取样速率的下变频取样器,如(例如)第2007/088558号美国专利申请公开案(沃斯(Vos)等人)中所描述。语音编码器102还可经配置以对至少高带信号执行例如高带突发抑制操作等噪声抑制操作,如2007年4月19日公开的题为“用于高带突发抑制的***、方法和设备(SYSTEMS,METHODS,AND APPARATUS FOR HIGHBAND BURSTSUPPRESSION)”的第2007/088541号美国专利申请公开案(沃斯(Vos)等人)中所描述。
语音编码器102还包括包编码器120的实施方案126,其经配置以根据速率控制信号的状态而对单独的子带信号进行编码。图17B展示包编码器126的实施方案128的框图。包编码器128包括频谱包络计算器140a(例如,计算器142的实例)和时间信息计算器150a(例如,计算器152或154的实例),所述计算器140a和150a经配置以基于由滤波器组A50产生的窄带信号且根据如由速率控制信号的状态所指示的编码方案而分别计算对频谱包络和时间信息的描述。包编码器128还包括频谱包络计算器140b(例如,计算器142的实例)和时间信息计算器150b(例如,计算器152或154的实例),所述计算机140b和150b经配置以基于由滤波器组A50产生的高带信号且根据如由速率控制信号的状态所指示的编码方案而分别产生计算所得的对频谱包络和时间信息的描述。包编码器128还包括包格式化器160的实施方案162,其经配置以产生语音包,所述语音包包括计算所得的对如由速率控制信号的状态所指示的窄带和高带信号中的一者或两者的频谱包络和时间信息的描述。
如上文所提到的,对宽带语音信号的高带部分的时间信息的描述可基于对所述信号的窄带部分的时间信息的描述。图18A展示包编码器126的对应实施方案129的框图。如同上文所述的包编码器128,包编码器129包括经布置以计算对频谱包络的相应描述的频谱包络描述计算器140a和140b。包编码器129还包括时间信息描述计算器152的实例152a(例如,计算器154),其经布置以基于计算所得的对窄带信号的频谱包络的描述而计算对时间信息的描述。包编码器129还包括时间信息描述计算器150的实施方案156。计算器156经配置以计算对高带信号的时间信息的描述,所述描述基于对窄带信号的时间信息的描述。
图18B展示时间描述计算器156的实施方案158的框图。计算器158包括高带激励信号产生器A60,其经配置以基于如由计算器152a所产生的窄带激励信号而产生高带激励信号。举例来说,产生器A60可经配置以对窄带激励信号(或其一个或一个以上分量)执行例如频谱延伸、谐波延伸、非线性延伸、频谱折叠和/或频谱转译等操作以产生高带激励信号。额外地或替代地,产生器A60可经配置以执行对随机噪声(例如,伪随机高斯噪声信号)的频谱和/或振幅整形以产生高带激励信号。对于产生器A60使用伪随机噪声信号的情况,可能需要使编码器和解码器对此信号的产生同步。此类用于高带激励信号产生的方法和设备在(例如)2007年4月19日公开的题为“用于宽带语音编码的***、方法和设备(SYSTEMS,METHODS,AND APPARATUS FOR WIDEBANDSPEECH CODING)”的第2007/0088542号美国专利申请公开案(沃斯(Vos)等人)中更详细地描述。在图18B的实例中,产生器A60经布置以接收经量化的窄带激励信号。在另一实例中,产生器A60经布置以接收采用另一形式(例如,采用预量化或经解量化的形式)的窄带激励信号。
计算器158还包括合成滤波器A70,其经配置以产生基于高带激励信号和对高带信号的频谱包络的描述(例如,如由计算器140b所产生)的合成高带信号。通常根据对高带信号的频谱包络的描述内的一组值(例如,一个或一个以上LSP或LPC系数向量)而对滤波器A70进行配置以响应于高带激励信号产生合成高带信号。在图18B的实例中,合成滤波器A70经布置以接收对高带信号的频谱包络的量化描述且可对应地经配置以包括解量化器和(可能地)逆变换区块。在另一实例中,滤波器A70经布置以接收采用另一形式(例如,采用预量化或经解量化的形式)的对高带信号的频谱包络的描述。
计算器158还包括高带增益因数计算器A80,其经配置以基于合成高带信号的时间包络而计算对高带信号的时间包络的描述。计算器A80可经配置以将此描述计算为包括高带信号的时间包络与合成高带信号的时间包络之间的一个或一个以上距离。举例来说,计算器A80可经配置以将此距离计算为增益框架值(例如,计算为所述两个信号的对应帧的能量测量之间的比率,或计算为此比率的平方根)。额外地或替代地,计算器A80可经配置以将许多此类距离计算为增益形状值(例如,计算为所述两个信号的对应子帧的能量测量之间的比率,或计算为此些比率的平方根)。在图18B的实例中,计算器158还包括经配置以量化计算所得的对时间包络的描述(例如,量化为一个或一个以上代码簿索引)的量化器A90。计算器158的元件的各种特征和实施方案在(例如)如上文引用的第2007/0088542号美国专利申请公开案(沃斯(Vos)等人)中描述。
语音编码器100的实施方案的各种元件可体现于被视为适合于所希望应用的硬件、软件和/或固件的任一组合中。举例来说,可将此类元件制造为驻存于(例如)同一芯片上或者芯片集中的两个或两个以上芯片间的电子和/或光学装置。此装置的一个实例是例如晶体管或逻辑门等逻辑元件的固定或可编程阵列,且可将这些元件中的任一者实施为一个或一个以上此类阵列。可将这些元件中的任何两者或两者以上或甚至全部实施于相同的一个或多个阵列内。可将此(些)阵列实施于一个或一个以上芯片内(例如,包括两个或两个以上芯片的芯片集内)。
还可将如本文所述的语音编码器100的各种实施方案的一个或一个以上元件全部或部分地实施为一个或一个以上指令集合,所述指令集合经布置以在逻辑元件(例如微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)和ASIC(专用集成电路))的一个或一个以上固定或可编程阵列上执行。还可将语音编码器100的实施方案的各种元件中的任一者体现为一个或一个以上计算机(例如,包括经编程以执行一个或一个以上指令集合或序列的一个或一个以上阵列的机器,还称为“处理器”),且可将这些元件中的任何两者或两者以上或甚至全部实施于相同的此(些)计算机内。
语音编码器100的实施方案的各种元件可包括于例如蜂窝式电话等用于无线通信的装置或具有此通信能力的其它装置内。此装置可经配置以与电路交换和/或包交换的网络进行通信(例如,使用例如VoIP等一个或一个以上协议)。此装置可经配置以对载运经编码帧的信号执行操作,例如交错、穿孔、卷积编码、误差校正编码、对一个或一个以上网络协议(例如,以太网、TCP/IP、cdma2000)层的编码、射频(RF)调制和/或RF传输。
有可能使语音编码器100的实施方案的一个或一个以上元件用于执行不与设备的操作直接相关的任务或其它指令集合,例如与设备所嵌入其中的装置或***的另一操作相关的任务。还有可能使语音编码器100的实施方案的一个或一个以上元件具有共同结构(例如,用以在不同时间执行代码的对应于不同元件的部分的处理器、经执行以在不同时间执行对应于不同元件的任务的指令集合或在不同时间执行不同元件的操作的电子和/或光学装置的布置)。在一个此类实例中,将包编码器120和帧格式化器130实施为经布置以在同一处理器上执行的指令集合。在另一此类实例中,将频谱包络描述计算器140a和140b实施为在不同时间执行的同一指令集合。
图19A展示根据通用配置的处理来自经编码语音信号的语音包的方法M200的流程图。方法M200经配置以接收来自两个语音包(例如,来自经编码语音信号的连续的经编码帧)的信息且产生对语音信号的两个对应帧的频谱包络的描述。基于来自第一语音包(还称为“参考”语音包)的信息,任务T210获得对语音信号的第一帧的在第一和第二频带上的频谱包络的描述。此描述可为在所述两个频带上延伸的单个描述,或者其可包括每一者在所述频带中的相应一者上延伸的单独描述。基于来自第二语音包的信息,任务T220获得对语音信号的第二帧(还称为“目标”帧)的在第一频带上的频谱包络的描述。基于来自参考语音包的信息,任务T230获得对目标帧的在第二频带上的频谱包络的描述。基于来自第二语音包的信息,任务T240获得对目标帧的针对第一频带的音调信息的描述。
图20展示方法M200的应用。在此实例中,对频谱包络的描述具有LPC阶,且对目标帧的在第二频带上的频谱包络的描述的LPC阶小于对目标帧的在第一频带上的频谱包络的描述的LPC阶。在特定实例中,对目标帧的在第一和第二频带上的频谱包络的描述的LPC阶分别为10和6。其它实例包括对目标帧的在第二频带上的频谱包络的描述的LPC阶为对目标帧的在第一频带上的频谱包络的描述的LPC阶的至少百分之五十、至少百分之六十、不超过百分之七十五、不超过百分之八十、与其相等和大于其的情况。
图20还展示对第一帧的在第一和第二频带上的频谱包络的描述的LPC阶等于对目标帧的在第一和第二频带上的频谱包络的描述的LPC阶的总和的实例。在另一实例中,对第一帧的在第一和第二频带上的频谱包络的描述的LPC阶可能大于或小于对目标帧的在第一和第二频带上的频谱包络的描述的LPC阶的总和。
参考语音包可包括对在第一和第二频带上的频谱包络的量化描述,且第二语音包可包括对在第一频带上的频谱包络的量化描述。在一个特定实例中,参考语音包中所包括的对在第一和第二频带上的频谱包络的量化描述具有36个位的长度,且第二语音包中所包括的对在第一频带上的频谱包络的量化描述具有22个位的长度。在其它实例中,第二语音包中所包括的对在第一频带上的频谱包络的量化描述的长度不大于参考语音包中所包括的对在第一和第二频带上的频谱包络的量化描述的长度的百分之六十五、七十、七十五或八十。
任务T210和T220中的每一者可经配置以包括以下两个操作中的一者或两者:剖析语音包以提取对频谱包络的量化描述;以及解量化对频谱包络的量化描述以获得所述帧的编码模型的参数集合。任务T210和T220的典型实施方案包括这两个操作,使得每一任务处理相应语音包以产生采用模型参数集合的形式的对频谱包络的描述(例如,一个或一个以上LSF、LSP、ISF、ISP和/或LPC系数向量)。在一个特定实例中,参考语音包具有171个位的长度,且第二语音包具有80个位的长度。在其它实例中,第二语音包的长度不超过参考语音包的长度的百分之五十、六十、七十或七十五。
参考语音包可包括对针对第一和第二频带的时间信息的量化描述,且第二语音包可包括对针对第一频带的时间信息的量化描述。在一个特定实例中,参考语音包中所包括的对针对第一和第二频带的时间信息的量化描述具有133个位的长度,且第二语音包中所包括的对针对第一频带的时间信息的量化描述具有58个位的长度。在其它实例中,第二语音包中所包括的对针对第一频带的时间信息的量化描述的长度不大于参考语音包中所包括的对针对第一和第二频带的时间信息的量化描述的长度的百分之四十五、五十或六十,或者不小于其百分之四十。
任务T210和T220还可经实施以从相应语音包产生对时间信息的描述。举例来说,这些任务中的一者或两者可经配置以基于来自相应语音包的信息而获得对时间包络的描述、对激励信号的描述、对音调信息的描述或对原型的描述。如在获得对频谱包络的描述中,此任务可包括从语音包剖析对时间信息的量化描述和/或解量化对时间信息的量化描述。方法M200的实施方案还可经配置以使得任务T210和/或任务T220同样基于来自一个或一个以上其它语音包的信息(例如来自数个来自一个或一个以上先前经编码帧的语音包的信息)而获得对频谱包络的描述和/或对时间信息的描述。举例来说,对激励信号的描述、对音调信息的描述和对原型的描述通常基于来自先前帧的信息。
任务T240经配置以基于来自第二语音包的信息而获得对目标帧的针对第一频带的音调信息的描述。对音调信息的描述可包括对以下各项中的一者或一者以上的描述:音调滞后、音调增益、原型和激励信号。任务T240可包括从第二语音包剖析对音调信息的量化描述和/或解量化对音调信息的量化描述。举例来说,第二语音包可包括对针对第一频带的音调信息的量化描述,其长度为第二语音包的长度的至少百分之五和/或至多百分之十。在一个特定实例中,第二语音包具有80个位的长度,且第二语音包中所包括的对针对第一频带的音调信息(例如,音调滞后索引)的量化描述具有7个位的长度。任务T240还可经配置以基于来自第二语音包的音调信息而计算目标帧的针对第一频带的激励信号。还可能需要将任务T240配置成如本文所述(例如,参考高带激励产生器A60和330)基于目标帧的针对第一频带的激励信号而计算目标帧的针对第二频带的激励信号。
方法M200的实施方案还可经配置以使得任务T240同样基于来自一个或一个以上其它语音包的信息(例如来自数个来自一个或一个以上先前经编码帧的语音包的信息)而获得对音调信息的描述。图22展示方法M200的此实施方案M210的应用。方法M210包括任务T240的实施方案T242,其经配置以基于来自参考和第二语音包中的每一者的信息而获得对目标帧的针对第一频带的音调信息的描述。举例来说,任务T242可经配置以基于一基于来自第二语音包的信息的第一音调滞后值和一基于来自参考语音包的信息的第二音调滞后值而内插目标帧的针对第一频带的延迟轮廓。任务T242还可经配置以基于来自参考和第二语音包中的每一者的音调信息而计算目标帧的针对第一频带的激励信号。
方法M200通常经执行为较大语音解码方法的部分,且明确地预期并由此揭示经配置以执行方法M200的语音解码器和语音解码方法。语音编码装置可经配置以在编码器处执行方法M100的实施方案且在解码器处执行方法M200的实施方案。在此情况下,如由任务T110编码的“第一语音包”对应于向任务T210和T230供应信息的参考语音包,且如由任务T120编码的“第二语音包”对应于向任务T220和T240供应信息的语音包。图21使用通过使用方法M100编码且通过使用方法M200解码的一对连续帧的实例来说明方法M100与M200之间的此关系。方法M200还可经实施为包括从相应的经编码帧(例如,如由任务T130和T140产生的)剖析或以另外方式获得参考语音包和第二语音包的操作。
不管图21的特定实例如何,清楚地注意到,一般来说,方法M100的应用和方法M200的应用不限于处理数对连续帧。举例来说,在方法M200的一个此类其它应用中,供应由任务T210和T230处理的语音包的经编码帧可与供应由任务T220和T240处理的语音包的经编码帧隔开已在传输中丢失的一个或一个以上介入帧(即,经擦除帧)。
任务T220经配置以至少主要地基于来自第二语音包的信息而获得对目标帧的在第一频带上的频谱包络的描述。举例来说,任务T220可经配置以完全基于来自第二语音包的信息而获得对目标帧的在第一频带上的频谱包络的描述。或者,任务T220可经配置以同样基于其它信息(例如来自数个来自一个或一个以上先前经编码帧的语音包的信息)而获得对目标帧的在第一频带上的频谱包络的描述。在此情况下,任务T220经配置以使对来自第二语音包的信息所加的权数大于对其它信息所加的权数。举例来说,任务T220的此实施方案可经配置以将对目标帧的在第一频带上的频谱包络的描述计算为来自第二语音包的信息与来自一来自先前经编码帧(例如,参考经编码帧)的语音包的信息的平均值,其中对来自第二语音包的信息所加的权数大于对来自其它语音包的信息所加的权数。同样地,任务T220可经配置以至少主要地基于来自第二语音包的信息而获得对目标帧的针对第一频带的时间信息的描述。
基于来自参考语音包的信息(在本文中还称为“参考频谱信息”),任务T230获得对目标帧的在第二频带上的频谱包络的描述。图19B展示方法M200的实施方案M220的流程图,所述实施方案M220包括任务T230的实施方案T232。作为任务T230的实施方案,任务T232基于参考频谱信息而获得对目标帧的在第二频带上的频谱包络的描述。在此情况下,参考频谱信息包括于对语音信号的第一帧的频谱包络的描述内。图23展示方法M220的应用的实例。
任务T230经配置以至少主要地基于参考频谱信息而获得对目标帧的在第二频带上的频谱包络的描述。举例来说,任务T230可经配置以完全基于参考频谱信息而获得对目标帧的在第二频带上的频谱包络的描述。或者,任务T230可经配置以基于(A)基于参考频谱信息的对在第二频带上的频谱包络的描述和(B)基于来自第二语音包的信息的对在第二频带上的频谱包络的描述而获得对目标帧的在第二频带上的频谱包络的描述。
在此情况下,任务T230可经配置以使对基于参考频谱信息的描述所加的权数大于对基于来自第二语音包的信息的描述所加的权数。举例来说,任务T230的此实施方案可经配置以将对目标帧的在第二频带上的频谱包络的描述计算为基于参考频谱信息与来自第二语音包的信息的描述的平均值,其中对基于参考频谱信息的描述所加的权数大于对基于来自第二语音包的信息的描述所加的权数。在另一情况下,基于参考频谱信息的描述的LPC阶可大于基于来自第二语音包的信息的描述的LPC阶。举例来说,基于来自第二语音包的信息的描述的LPC阶可为1(例如,所述描述可为频谱倾斜值,例如第一反射系数的值)。同样地,任务T230可经配置以至少主要地基于参考时间信息(例如,完全基于参考时间信息,或还较小部分地基于来自第二语音包的信息)而获得对目标帧的针对第二频带的时间信息的描述。
任务T210可经实施以从参考语音包获得对频谱包络的描述,所述描述是在第一和第二频带两者上的单个全带表示。然而,更为典型的是将任务T210实施成将此描述获得为对在第一频带上与在第二频带上的频谱包络的单独描述。举例来说,任务T210可经配置以从参考语音包获得单独描述,所述参考语音包已使用如本文所述的分带编码方案(例如,在图12的实例中为编码方案1)进行编码。
图19C展示方法M220的实施方案M230的流程图,其中将任务T210实施为两个子任务T212a和T212b。基于来自参考语音包的信息,任务T212a获得对第一帧的在第一频带上的频谱包络的描述。基于来自参考语音包的信息,任务T212b获得对第一帧的在第二频带上的频谱包络的描述。任务T212a和/或T212b可包括从相应语音包剖析对频谱包络的量化描述和/或解量化对频谱包络的量化描述。
任务T212a和/或T212b还可经实施以基于来自相应语音包的信息而产生对时间信息的描述。举例来说,这些任务中的一者或两者可经配置以基于来自相应语音包的信息而获得对时间包络的描述、对激励信号的描述和/或对音调信息的描述。如在获得对频谱包络的描述中,此任务可包括从语音包剖析对时间信息的量化描述和/或解量化对时间信息的量化描述。
方法M230还包括任务T232的实施方案T234。作为任务T230的实施方案,任务T234获得对目标帧的在第二频带上的频谱包络的描述,所述描述基于参考频谱信息。如在任务T232中,参考频谱信息被包括于对语音信号的第一帧的频谱包络的描述内。在任务T234的特定情况中,参考频谱信息被包括于对第一帧的在第二频带上的频谱包络的描述内(且可能与所述描述相同)。任务T234还可经配置以获得对目标帧的针对第二频带的时间信息的描述,所述描述基于包括于对第一帧的针对第二频带的时间信息的描述内(且可能与所述描述相同)的信息。
图24展示方法M230的应用,其接收来自两个语音包的信息且产生对语音信号的两个对应帧的频谱包络的描述。在此实例中,对频谱包络的描述具有LPC阶,且对第一帧的在第一和第二频带上的频谱包络的描述的LPC阶等于对目标帧的在相应频带上的频谱包络的描述的LPC阶。其它实例包括其中对第一帧的在第一和第二频带上的频谱包络的描述中的一者或两者大于对目标帧的在相应频带上的频谱包络的对应描述的情况。
参考语音包可包括对在第一频带上的频谱包络的量化描述和对在第二频带上的频谱包络的量化描述。在一个特定实例中,参考语音包中所包括的对在第一频带上的频谱包络的量化描述具有28个位的长度,且参考语音包中所包括的对在第二频带上的频谱包络的量化描述具有8个位的长度。在其它实例中,参考语音包中所包括的对在第二频带上的频谱包络的量化描述的长度不大于参考语音包中所包括的对在第一频带上的频谱包络的量化描述的长度的百分之三十、四十、五十或六十。
参考语音包可包括对针对第一频带的时间信息的量化描述和对针对第二频带的时间信息的量化描述。在一个特定实例中,参考语音包中所包括的对针对第一频带的时间信息的量化描述具有125个位的长度,且参考语音包中所包括的对针对第二频带的时间信息的量化描述具有8个位的长度。在其它实例中,参考语音包中所包括的对针对第二频带的时间信息的量化描述的长度不大于参考语音包中所包括的对针对第一频带的时间信息的量化描述的长度的百分之十、二十、二十五或三十。
第二语音包可包括对在第一频带上的频谱包络的量化描述和/或对针对第一频带的时间信息的量化描述。在一个特定实例中,第二经编码帧中所包括的对在第一频带上的频谱包络的量化描述具有22个位的长度。在其它实例中,第二语音包中所包括的对在第一频带上的频谱包络的量化描述的长度不小于参考语音包中所包括的对在第一频带上的频谱包络的量化描述的长度的百分之四十、五十、六十、七十或七十五。在一个特定实例中,第二语音包中所包括的对针对第一频带的时间信息的量化描述具有58个位的长度。在其它实例中,第二语音包中所包括的对针对第一频带的时间信息的量化描述的长度为参考语音包中所包括的对在第一频带上的频谱包络的量化描述的长度的至少百分之二十五、三十、四十或四十五和/或至多百分之五十、六十或七十。
在方法M200的典型实施方案中,参考频谱信息是对在第二频带上的频谱包络的描述。此描述可包括模型参数集合,例如一个或一个以上LSP、LSF、ISP、ISF或LPC系数向量。一般来说,此描述是如通过任务T210从参考语音包获得的对第一帧的在第二频带上的频谱包络的描述。还有可能使参考频谱信息包括对(例如,第一帧的)在第一频带上和/或在另一频带上的频谱包络的描述。
图25展示方法M200的实施方案M240的应用,所述实施方案包括任务T260。任务T260经配置以基于来自包括第二语音包的经编码帧的信息而产生与语音信号分离的信息信号的突发。举例来说,任务T260可经配置以输出经编码帧的特定部分作为如上文所述的信令或次要业务信号的突发。此突发可具有为经编码帧的长度的至少百分之四十、四十五或五十的以位计的长度。替代地或额外地,此突发可具有为第二语音包的长度的至少百分之九十的以位计的长度,或者此突发可具有等于或长于第二语音包的长度的长度。在一个特定实例中,所述突发具有86个位(在另一实例中,87个位)的长度,第二语音包具有80个位的长度,且经编码帧具有171个位的长度。方法M210、M220和M230还可经实施为包括任务T260。
任务T230通常包括从例如半导体存储器(在本文中还称为“缓冲器”)等存储元件的阵列中检索参考频谱信息的操作。对于参考频谱信息包括对在第二频带上的频谱包络的描述的情况,检索参考频谱信息的动作可足以完成任务T230。或者,可能需要将任务T230配置为计算对目标帧的在第二频带上的频谱包络的描述(在本文中还称为“目标频谱描述”)而非简单地对其加以检索。举例来说,任务T230可经配置以通过向参考频谱信息添加随机噪声而计算目标频谱描述和/或基于来自至少一个额外语音包的频谱信息(例如,基于来自一个以上参考语音包的信息)而计算目标频谱描述。举例来说,任务T230可经配置以将目标频谱描述计算为来自两个或两个以上参考语音包的对在第二频带上的频谱包络的描述的平均值,且此计算可包括向计算所得的平均值添加随机噪声。
任务T230可经配置以通过在时间上从参考频谱信息外推或通过在时间上在来自两个或两个以上参考语音包的对在第二频带上的频谱包络的描述之间内插而计算目标频谱描述。替代地或额外地,任务T230可经配置以通过在频率上从对目标帧的在另一频带上(例如,在第一频带上)的频谱包络的描述外推和/或通过在频率上在对在其它频带上的频谱包络的描述之间内插而计算目标频谱描述。
通常,参考频谱信息和目标频谱描述是频谱参数值的向量(或“频谱向量”)。在一个此类实例中,目标和参考频谱向量两者均为LSP向量。在另一实例中,目标和参考频谱向量两者均为LPC系数向量。在又一实例中,目标和参考频谱向量两者均为反射系数向量。任务T230可经配置以根据例如 的表达式而从参考频谱信息复制目标频谱描述,其中st为目标频谱向量,sr为参考频谱向量(其值通常在-1到+1的范围内),i为向量元素索引,且n为向量st的长度。在此操作的变化型式中,任务T230经配置以向参考频谱向量应用加权因数(或加权因数的向量)。在此操作的另一变化型式中,任务T230经配置以通过根据例如 的表达式向参考频谱向量添加随机噪声而计算目标频谱向量,其中z为随机值的向量。在此情况下,z的每一元素可为随机变量,其值分布于(例如,均匀地)所需范围上。
可能需要确保目标频谱描述的值受到约束(例如,在-1到+1的范围内)。在此情况下,任务T230可经配置以根据例如 的表达式而计算目标频谱描述,其中w具有在0与1之间的值(例如,在0.3到0.9的范围内)且z的每一元素的值分布于(例如,均匀地)从-(1-w)到+(1-w)的范围上。
在另一实例中,任务T230经配置以基于来自一个以上参考语音包中的每一者的对在第二频带上的频谱包络的描述而计算目标频谱描述(例如,作为来自两个最新近的参考语音包中的每一者的对在第二频带上的频谱包络的描述的平均值)。在此情况下,可能需要对参考向量进行彼此不同的加权(例如,可对来自较新近的参考语音包的向量加以较重的权数)。
可能需要将任务T230执行为用于处理对经分带编码的语音包的高带部分的擦除的较为一般的操作的实例。举例来说,语音解码器或语音解码方法可经配置以在接收到至少高带部分被擦除(即,缺少或被发现具有过多误差而无法被可靠地恢复)的语音包后执行此操作。
在典型实例中,任务T230经配置以基于参考频谱信息的加权版本而计算目标频谱描述。权数w可为如在以下表达式中的标量: 或者,权数w可为可能具有不同值的元素的向量,如以下表达式:
对于任务T230为用于擦除处理的较为一般的操作的实例的情况,可能需要将权数实施为衰减因数α。还可能需要实施此操作以使得衰减因数α的值随高带擦除的连续系列中的每一者而减小。举例来说,衰减因数α对于所述系列中的第一包可具有值0.9,对于所述系列中的第二包可具有值0.7,且对于所述系列中的后续包可具有值0.5。(在此情况下,可能需要对擦除系列中的每一包使用相同的参考频谱向量。)在另一此类实例中,任务T230经配置以基于相加性常数v而计算目标频谱描述,所述相加性常数v可为如表达式 中的标量或如表达式 中的向量。可将此常数v实施为初始频谱向量s0,如在表达式 中。在此情况下,初始频谱向量s0的元素的值可为i的函数(例如,s0i=bi,其中b为常数)。在一个特定实例中,
任务T230还可经实施以除参考频谱信息以外还基于一个或一个以上帧的在另一频带上的频谱包络而计算目标频谱描述。举例来说,任务T230的此实施方案可经配置以通过在频率上从当前帧和/或一个或一个以上先前帧的在另一频带(例如,第一频带)上的频谱包络外推而计算目标频谱描述。
任务T230可经配置以基于来自参考语音包的信息(在本文中还称为“参考时间信息”)而获得对目标帧的在第二频带上的时间信息的描述。参考时间信息通常为对在第二频带上的时间信息的描述。此描述可包括一个或一个以上增益框架值、增益轮廓值、音调参数值和/或代码簿索引。一般来说,此描述是如通过任务T210从参考语音包获得的对第一帧的在第二频带上的时间信息的描述。还有可能使参考时间信息包括对(例如,第一帧的)在第一频带上和/或在另一频带上的时间信息的描述。
任务T230可经配置以通过复制参考时间信息而获得对目标帧的在第二频带上的时间信息的描述(在本文中还称为“目标时间描述”)。或者,可能需要将任务T230配置为通过基于参考时间信息计算目标时间描述而获得所述目标时间描述。举例来说,任务T230可经配置以通过向参考时间信息添加随机噪声而计算目标时间描述。任务T230还可经配置以基于来自一个以上参考语音包的信息而计算目标时间描述。举例来说,任务T230可经配置以将目标时间描述计算为来自两个或两个以上参考语音包的对在第二频带上的时间信息的描述的平均值,且此计算可包括向计算所得的平均值添加随机噪声。如上文所述,可能需要任务T230获得对目标帧的在第二频带上的时间信息的描述作为用于处理经分带编码的语音包的高带部分的擦除的较为一般操作的实例的部分。
目标时间描述和参考时间信息每一者可包括对时间包络的描述。如上文所提到的,对时间包络的描述可包括增益框架值和/或一组增益形状值。替代地或额外地,目标时间描述和参考时间信息每一者可包括对激励信号的描述。对激励信号的描述可包括对音调分量的描述(例如,音调滞后或延迟、音调增益和/或对原型的描述)。
任务T230通常经配置以将目标时间描述的增益形状设定为平坦的。举例来说,任务T230可经配置以将目标时间描述的增益形状值设定为彼此相等。任务T230的一个此类实施方案经配置以将所有增益形状值设定为因数1(例如,0dB)。任务T230的另一此类实施方案经配置以将所有增益形状值设定为因数1/n,其中n为目标时间描述中的增益形状值的数目。
任务T230可经配置以根据例如gt=zgr或gt=wgr+(1-w)z的表达式而计算目标时间描述的增益框架值gt,其中gr为来自参考时间信息的增益框架值,z为随机值,且w为加权因数。z的值的典型范围包括0到1和-1到+1。w的值的典型范围包括0.5(或0.6)到0.9(或1.0)。
在典型实例中,任务T230经配置以基于参考时间信息的增益框架值的加权版本而计算目标时间描述的增益框架值,如在表达式gt=wgr中。对于任务T230为用于擦除处理的较为一般的操作的实例的情况,可能需要将权数实施为衰减因数β。还可能需要实施此操作以使得衰减因数β的值随高带擦除的连续系列中的每一者而减小。举例来说,衰减因数β对于所述系列中的第一包可具有值0.9,对于所述系列中的第二包可具有值0.7,且对于所述系列中的后续包可具有值0.5。(在此情况下,可能需要对擦除系列中的每一包使用相同的参考增益框架值。)在另一此类实例中,任务T230经配置以基于来自参考时间信息的一个或一个以上增益形状值hri而计算目标时间描述的增益框架值,如在表达式 中,其中n为参考语音包中的增益形状值的数目。
任务T230可经配置以基于来自两个或三个最新近的参考语音包的增益框架值而计算目标帧的增益框架值。在一个此类实例中,任务T230经配置以将目标时间描述的增益框架值计算为根据例如 的表达式的平均值,其中gr1为来自最新近的参考语音包的增益框架值且gr2为来自下一最新近的参考语音包的增益框架值。在相关实例中,对参考增益框架值进行彼此不同的加权(例如,可对较新近的值加以较重的权数)。在又一实例中,任务T230经配置以对计算所得的平均值应用衰减因数β且/或包括基于来自参考时间信息的一个或一个以上增益形状值的因数。
方法M200的实施方案(包括方法M210、M220和M230)通常经配置以包括将参考频谱信息存储到缓冲器的操作。方法M200的此实施方案还可包括将参考时间信息存储到缓冲器的操作。或者,方法M200的此实施方案可包括将参考频谱信息和参考时间信息两者存储到缓冲器的操作。
方法M200的实施方案可经配置以在当前语音包含有对在第二频带上的频谱包络的描述的情况下将基于所述语音包的信息存储为参考频谱信息。举例来说,在如图12所示的一组编码方案的情况下,方法M200的此实施方案可经配置以在语音包的编码索引指示编码方案1和3中的任一者(即,并非编码方案2或4)的情况下存储参考频谱信息。更一般来说,方法M200的此实施方案可经配置以在语音包的编码索引指示宽带编码方案而非窄带编码方案的情况下存储参考频谱信息。方法M200的此些实施方案可经配置以根据相同标准存储参考时间信息。
可能需要实施方法M200以使得所存储的参考频谱信息可同时用于一个以上参考语音包。举例来说,任务T230可经配置以计算基于来自一个以上参考语音包的信息的目标频谱描述。在此些情况下,方法M200可经配置以在任一时刻将来自最新近的参考语音包的参考频谱信息、来自第二最新近的参考语音包的信息以及(可能地)来自一个或一个以上较不新近的参考语音包的信息维持在存储装置中。此方法还可经配置以维持参考时间信息的相同历史或不同历史。举例来说,方法M200可经配置以保持来自两个最新近的参考语音包中的每一者的对频谱包络的描述和仅来自最新近的参考语音包的对时间信息的描述。
在方法M200的实施方案的典型应用中,逻辑元件(例如,逻辑门)的阵列经配置以执行所述方法的各种任务中的一者、一者以上或甚至全部。所述任务中的一者或一者以上(可能全部)还可经实施为代码(例如,一个或一个以上指令集合),其在可由包括逻辑元件(例如,处理器、微处理器、微控制器或其它有限状态机)的阵列的机器(例如,计算机)读取和/或执行的计算机程序产品(例如,例如盘、快闪或其它非易失性存储卡、半导体存储器芯片等一个或一个以上数据存储媒体)中体现。方法M200的实施方案的任务还可由一个以上此类阵列或机器来执行。在这些或其它实施方案中,所述任务可在用于无线通信的装置(例如蜂窝式电话)或具有此通信能力的其它装置内执行。此装置可经配置以与电路交换和/或包交换的网络进行通信(例如,使用例如VoIP的一个或一个以上协议)。举例来说,此装置可包括经配置以接收经编码帧的RF电路。
图26A展示根据通用配置的用于处理经编码语音信号的语音解码器200的框图。举例来说,语音解码器200可经配置以执行包括如本文所述的方法M200的实施方案的语音解码方法。语音解码器200包括经配置以产生具有值序列的控制信号的控制逻辑210。语音解码器200还包括包解码器220,其经配置以基于控制信号的值且基于经编码语音信号的对应语音包而计算语音信号的经解码帧。
包括语音解码器200的通信装置(例如蜂窝式电话)可经配置以从有线、无线或光传输信道接收经编码的语音信号。此装置可经配置以对经编码的语音信号执行预处理操作,例如对误差校正和/或冗余代码的解码。此装置还可包括语音编码器100和语音解码器200两者的实施方案(例如,在收发器中)。
控制逻辑210经配置以产生包括值序列的控制信号,所述值序列基于经编码语音信号的语音包的编码索引。所述序列中的每一值对应于经编码语音信号的语音包(除了在如下文所论述的经擦除帧的情况中)且具有多个状态中的一者。在如下文所述的语音解码器200的一些实施方案中,所述序列为二进制值的(即,高位值与低位值的序列)。在如下文所述的语音解码器200的其它实施方案中,所述序列的值可具有两个以上状态。
控制逻辑210可经配置以确定每一语音包的编码索引。举例来说,控制逻辑210可经配置以从语音包读取编码索引的至少一部分,从一个或一个以上参数(例如帧能量)确定语音包的位速率,且/或从语音包的格式确定适当的编码模式。或者,语音解码器200可经实施为包括经配置以确定每一语音包的编码索引且将其提供到控制逻辑210的另一元件,或者语音解码器200可经配置以从包括语音解码器200的设备的另一模块接收编码索引。
将未如预期接收或经接收为具有过多需恢复的误差的语音包称为帧擦除。语音解码器200可经配置以使得编码索引的一个或一个以上状态用以指示帧擦除或部分帧擦除,例如语音包的载运针对第二频带的频谱和时间信息的部分的缺少。举例来说,语音解码器200可经配置以使得已通过使用编码方案2(如在图12中)而编码的语音包的编码索引指示所述帧的高带部分的擦除。在此情况下,语音解码器200可经配置以将方法M200的实施方案执行为擦除处理的一般方法的实例。语音解码器200还可经配置以使得已通过使用编码方案2和4中的任一者(如在图12中)而编码的语音包的编码索引指示所述帧的高带部分的擦除。
包解码器220经配置以基于控制信号的值和经编码语音信号的对应语音包而计算经解码帧。当控制信号的值具有第一状态时,包解码器220基于对在第一和第二频带上的频谱包络的描述而计算经解码帧,其中所述描述基于来自对应语音包的信息。当控制信号的值具有第二状态时,包解码器220检索对在第二频带上的频谱包络的描述,并基于所检索的描述且基于对在第一频带上的频谱包络的描述而计算经解码帧,其中对在第一频带上的描述基于来自对应语音包的信息。
图26B展示语音解码器200的实施方案202的框图。语音解码器202包括包解码器220的实施方案222,其包括第一模块230和第二模块240。模块230和240经配置以计算经解码帧的相应子带部分。具体地说,第一模块230经配置以计算帧的在第一频带上的经解码部分(例如,窄带信号),且第二模块240经配置以基于控制信号的值而计算帧的在第二频带上的经解码部分(例如,高带信号)。
图26C展示语音解码器200的实施方案204的框图。剖析器250经配置以剖析语音包的位以便向控制逻辑210提供编码索引且向包解码器220提供至少一个对频谱包络的描述。在此实例中,语音解码器204也是语音解码器202的实施方案,使得剖析器250经配置以向模块230和240提供对在相应频带(在可用时)上的频谱包络的描述。剖析器250还可经配置以向语音解码器220提供至少一个对时间信息的描述。举例来说,剖析器250可经实施以向模块230和240提供对针对相应频带(在可用时)的时间信息的描述。
剖析器250还可经配置以剖析含有所述语音包的经编码帧的位以产生与语音信号分离的信息信号的突发(例如,如上文所论述的信令或次要业务的突发)。或者,语音解码器204或含有语音解码器204的设备可以另外方式经配置以剖析经编码帧来产生语音包(例如,作为对剖析器250的输入)和突发。
包解码器222还包括滤波器组260,其经配置以组合所述帧的在第一和第二频带上的经解码部分来产生宽带语音信号。此类滤波器组的特定实例在(例如)2007年4月19日公开的题为“用于语音信号滤波的***、方法和设备(SYSTEMS,METHODS,ANDAPPARATUS FOR SPEECH SIGNAL FILTERING)”的第2007/088558号美国专利申请公开案(沃斯(Vos)等人)中描述。举例来说,滤波器组260可包括经配置以对窄带信号进行滤波来产生第一通带信号的低通滤波器和经配置以对高带信号进行滤波来产生第二通带信号的高通滤波器。滤波器组260还可包括经配置以根据所需的对应内插因数而提高窄带信号和/或高带信号的取样速率的上变频取样器,如(例如)第2007/088558号美国专利申请公开案(沃斯(Vos)等人)中所描述。
图27A展示第一模块230的实施方案232的框图,所述实施方案232包括频谱包络描述解码器270的实例270a和时间信息描述解码器280的实例280a。频谱包络描述解码器270a经配置以解码对在第一频带上的频谱包络的描述(例如,如从剖析器250接收)。时间信息描述解码器280a经配置以解码对针对第一频带的时间信息的描述(例如,如从剖析器250接收)。举例来说,时间信息描述解码器280a可经配置以对针对第一频带的音调信息进行解码。时间信息描述解码器280a还可经配置以基于经解码的描述(且可能基于来自一个或一个以上先前帧的时间信息)而计算针对第一频带的激励信号。合成滤波器290的实例290a经配置以产生帧的在第一频带上的经解码部分(例如,窄带信号),其基于对频谱包络和时间信息的经解码描述。举例来说,可根据对在第一频带上的频谱包络的描述内的一组值(例如,一个或一个以上LSP或LPC系数向量)而对合成滤波器290a进行配置以响应于针对第一频带的激励信号而产生经解码部分。
图27B展示频谱包络描述解码器270的实施方案272的框图。解量化器310经配置以对描述进行解量化,且逆变换区块320经配置以对经解量化的描述应用逆变换以便获得一组LPC系数。时间信息描述解码器280通常还经配置为包括解量化器。
图28A展示第二模块240的实施方案242的框图。第二模块242包括频谱包络描述解码器270的实例270b、缓冲器300和选择器340。频谱包络描述解码器270b经配置以解码对在第二频带上的频谱包络的描述(例如,如从剖析器250接收)。缓冲器300经配置以将一个或一个以上对在第二频带上的频谱包络的描述存储为参考频谱信息,且选择器340经配置以根据由控制逻辑210产生的控制信号的对应值的状态而选择来自(A)缓冲器300或(B)解码器270b的对频谱包络的经解码描述。
第二模块242还包括高带激励信号产生器330和合成滤波器290的实例290b,所述实例290b经配置以基于经由选择器340接收的对频谱包络的经解码描述而产生所述帧的在第二频带上的经解码部分(例如,高带信号)。高带激励信号产生器330经配置以基于针对第一频带的激励信号(例如,如由时间信息描述解码器280a产生)而产生针对第二频带的激励信号。额外地或替代地,产生器330可经配置以执行对随机噪声的频谱和/或振幅整形以产生高带激励信号。产生器330可经实施为如上文所述的高带激励信号产生器A60的实例。根据对在第二频带上的频谱包络的描述内的一组值(例如,一个或一个以上LSP或LPC系数向量)而对合成滤波器290b进行配置以响应于高带激励信号而产生所述帧的在第二频带上的经解码部分。
在语音解码器202的包括第二模块240的实施方案242的实施方案的一个实例中,控制逻辑210经配置以向选择器340输出二进制信号,使得序列中的每一值均具有状态A或状态B。在此情况下,如果当前帧的编码索引指示其为无效的,那么控制逻辑210产生具有状态A的值,其致使选择器340选择缓冲器300的输出(即,选择A)。否则,控制逻辑210产生具有状态B的值,其致使选择器340选择解码器270b的输出(即,选择B)。
语音解码器202可经布置以使得控制逻辑210控制缓冲器300的操作。举例来说,缓冲器300可经布置以使得控制信号的具有状态B的值致使缓冲器300存储解码器270b的对应输出。此控制可通过向缓冲器300的写入启用输入端施加控制信号来实施,其中所述输入端经配置以使得状态B对应于其有效状态。或者,控制逻辑210可经实施以产生也包括值序列的第二控制信号来控制缓冲器300的操作,所述值序列基于经编码语音信号的语音包的编码索引。
图28B展示第二模块240的实施方案244的框图。第二模块244包括频谱包络描述解码器270b和时间信息描述解码器280的实例280b,所述实例280b经配置以解码对针对第二频带的时间信息的描述(例如,如从剖析器250接收)。第二模块244还包括缓冲器300的实施方案302,其也经配置以将一个或一个以上对在第二频带上的时间信息的描述存储为参考时间信息。
第二模块244包括选择器340的实施方案342,其经配置以根据由控制逻辑210产生的控制信号的对应值的状态而选择来自(A)缓冲器302或(B)解码器270b、280b的对频谱包络的经解码描述和对时间信息的经解码描述。合成滤波器290的实例290b经配置以产生帧的在第二频带上的经解码部分(例如,高带信号),其基于经由选择器342接收的对频谱包络和时间信息的经解码描述。在包括第二模块244的语音解码器202的典型实施方案中,对时间信息描述解码器280b进行配置以产生对时间信息的经解码描述,所述描述包括针对第二频带的激励信号,且根据对在第二频带上的频谱包络的描述内的一组值(例如,一个或一个以上LSP或LPC系数向量)而对合成滤波器290b进行配置以响应于激励信号而产生所述帧的在第二频带上的经解码部分。
图28C展示包括缓冲器302和选择器342的第二模块242的实施方案246的框图。第二模块246还包括:时间信息描述解码器280的实例280c,其经配置以解码对针对第二频带的时间包络的描述;以及增益控制元件350(例如,乘法器或放大器),其经配置以向帧的在第二频带上的经解码部分应用经由选择器342接收的对时间包络的描述。对于对时间包络的经解码描述包括增益形状值的情况,增益控制元件350可包括经配置以向经解码部分的相应子帧应用增益形状值的逻辑。
图28A到28C展示第二模块240的实施方案,其中缓冲器300接收对频谱包络(和(在一些情况下)时间信息)的经完全解码的描述。类似实施方案可经布置以使得缓冲器300接收未经完全解码的描述。举例来说,可能需要通过以量化形式存储描述(例如,如从剖析器250接收)而减小存储空间需求。在此些情况下,从缓冲器300到选择器340的信号路径可经配置以包括例如解量化器和/或逆变换区块等解码逻辑。
控制逻辑210可经实施以产生单个控制信号来控制选择器340和缓冲器300的操作。或者,控制逻辑210可经实施以产生:(1)用以控制选择器340的操作的控制信号,其值具有至少两个可能状态;以及(2)用以控制缓冲器300的操作的第二控制信号,其包括基于经编码语音信号的经编码帧的编码索引的值序列且其值具有至少两个可能状态。
可能需要将语音解码器200实施为支持对窄带和宽带语音信号两者的解码。如上文所提到的,可能需要编码装置对经模糊帧使用窄带编码方案(例如,图12的实例中的编码方案2)。在此情况下,仅此语音包的编码索引可能不足以指示语音包将被解码为窄带语音还是宽带语音。如果编码装置经配置以同样对窄带经编码帧使用模糊和突发技术,那么甚至在同一经编码帧中存在突发也可能并不有助于指示语音包将被解码为窄带语音还是宽带语音。
因此,可能需要将语音解码器200的元件(例如,控制逻辑210或额外控制元件)配置为维持具有分别对应于窄带操作和宽带操作的至少两个状态的操作值。此元件可经配置以基于操作值的当前状态而启用或停用第二模块240或者启用或停用来自第二模块240的经解码信号的高带部分的输出。所述元件可经配置以基于如下信息而计算操作值的状态:在语音包中存在信息突发、来自经编码语音信号的一个或一个以上新近语音包的编码索引和/或来自经编码语音信号的一个或一个以上后续语音包的编码索引。
举例来说,此元件可经配置以在用于最新近的语音包的编码方案指示宽带编码方案的情况下将操作值的当前状态设定为指示宽带操作。在另一实例中,此元件可经配置以在当前语音包的编码索引指示用于宽带模糊化的编码方案的情况下将操作值的当前状态设定为指示宽带操作。在另一实例中,此元件可经配置以在如下情况下将操作值的当前状态设定为指示宽带操作:(A)当前语音包的编码索引指示宽带编码方案或(B)当前语音包的编码索引指示可用于宽带模糊化的编码方案,当前经编码帧包括信息突发,且用于最新近的语音包(或者,两个最新近的语音包中的至少一者)的编码方案指示宽带编码方案。在又一实例中,此元件还可经配置以在如下情况下将操作值的当前状态设定为指示宽带操作:(C)当前语音包的编码索引指示可用于宽带模糊化的编码方案,当前经编码帧包括信息突发,用于最新近的语音包的编码方案指示帧擦除,且第二最新近的语音包的编码方案指示宽带编码方案。
语音解码器200的实施方案的各种元件可体现于被视为适合于所希望应用的硬件、软件和/或固件的任一组合中。举例来说,可将此类元件制造为驻存于(例如)同一芯片上或者芯片集中的两个或两个以上芯片间的电子和/或光学装置。此装置的一个实例是例如晶体管或逻辑门等逻辑元件的固定或可编程阵列,且可将这些元件中的任一者实施为一个或一个以上此类阵列。可将这些元件中的任何两者或两者以上或甚至全部实施于相同的一个或多个阵列内。可将此(些)阵列实施于一个或一个以上芯片内(例如,包括两个或两个以上芯片的芯片集内)。
还可将如本文所述的语音解码器200的各种实施方案的一个或一个以上元件全部或部分地实施为一个或一个以上指令集合,所述指令集合经布置以在逻辑元件(例如微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)和ASIC(专用集成电路))的一个或一个以上固定或可编程阵列上执行。还可将语音解码器200的实施方案的各种元件中的任一者体现为一个或一个以上计算机(例如,包括经编程以执行一个或一个以上指令集合或序列的一个或一个以上阵列的机器,还称为“处理器”),且可将这些元件中的任何两者或两者以上或甚至全部实施于相同的此(些)计算机内。
语音解码器200的实施方案的各种元件可包括于例如蜂窝式电话等用于无线通信的装置或具有此通信能力的其它装置内。此装置可经配置以与电路交换和/或包交换的网络进行通信(例如,使用例如VoIP的一个或一个以上协议)。此装置可经配置以对载运经编码帧的信号执行操作,例如解交错、解穿孔、对一个或一个以上卷积代码的解码、对一个或一个以上误差校正代码的解码、对一个或一个以上网络协议(例如,以太网、TCP/IP、cdma2000)层的解码、射频(RF)解调和/或RF接收。
有可能使语音解码器200的实施方案的一个或一个以上元件用以执行不与语音解码器的操作直接相关的任务或其它指令集合,例如与语音解码器所嵌入其中的装置或***的另一操作相关的任务。还有可能使语音解码器200的实施方案的一个或一个以上元件具有共同结构(例如,用以在不同时间执行代码的对应于不同元件的部分的处理器、经执行以在不同时间执行对应于不同元件的任务的指令集合或在不同时间执行不同元件的操作的电子和/或光学装置的布置)。在一个此类实例中,将控制逻辑210、第一模块230和第二模块240实施为经布置以在同一处理器上执行的指令集合。在另一此类实例中,将频谱包络描述解码器270a和270b实施为在不同时间执行的同一指令集合。
用于无线通信的装置(例如蜂窝式电话)或具有此通信能力的其它装置可经配置为包括语音编码器100和语音解码器200两者的实施方案。在此情况下,有可能使语音编码器100和语音解码器200具有共同结构。在一个此类实例中,将语音编码器100和语音解码器200实施为包括经布置以在同一处理器上执行的指令集合。
提供先前对所描述的配置的呈现是为了使得所属领域的任何技术人员均能够制作或使用所述方法和本文所揭示的其它结构。本文展示和描述的流程图、框图、状态图和其它结构仅为实例,且这些结构的其它变型也属于本发明的范围内。有可能对这些配置作出各种修改,且本文提出的一般原理同样可应用于其它配置。举例来说,本文描述的用于处理语音信号的包括在语音信号的窄带部分的范围以上的频率的高带部分的各种元件和任务可替代地或额外地且以类似方式应用于处理语音信号的包括在语音信号的窄带部分的范围以下的频率的低带部分。在此情况下,可使用所揭示的用于从窄带激励信号导出高带激励信号的技术和结构来从窄带激励信号导出低带激励信号。因此,本发明不希望限于上文所示的配置,而是应符合与本文中(包括在所申请的随附权利要求书中)以任一方式揭示的原理和新颖特征一致的最广范围,所述权利要求书形成原始揭示内容的一部分。
可与如本文所述的语音编码器、语音编码方法、语音解码器和/或语音解码方法一起使用或者适于与其一起使用的编解码器的实例包括:如文献3GPP2 C.S0014-C版本1.0“用于宽带展频数字***的增强型可变速率编解码器、语音服务选项3、68和70(Enhanced Variable Rate Codec,Speech Service Options 3,68,and 70 for Wideband SpreadSpectrum Digital Systems)”(第三代合作伙伴计划2,弗吉尼亚州阿灵顿(Arlington,VA),2007年1月)中所描述的增强型可变速率编解码器(EVRC);如文献ETSI TS 126 092V6.0.0(欧洲电信标准学会(ETSI),法国苏菲亚-昂蒂波利斯市(Sophia Antipolis Cedex,FR),2004年12月)中所描述的适应性多速率(AMR)语音编解码器;以及如文献ETSITS 126 192 V6.0.0(ETSI,2004年12月)中所描述的AMR宽带语音编解码器。
所属领域的技术人员将了解,信息和信号可使用多种不同技艺和技术中的任一者来表示。举例来说,在整个上述描述中可能提及的数据、指令、命令、信息、信号、位和符号可由电压、电流、电磁波、磁场或磁性粒子、光场或光学粒子或者其任一组合表示。虽然从中导出语音包的信号称为“语音信号”,且虽然将这些包称为“语音包”,但还预期且由此揭示此信号可在有效帧期间载运音乐或其它非语音信息内容。
所属领域的技术人员将进一步了解,结合本文揭示的配置而描述的各种说明性逻辑区块、模块、电路和操作可实施为电子硬件、计算机软件或所述两者的组合。此类逻辑区块、模块、电路和操作可用通用处理器、数字信号处理器(DSP)、ASIC、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或经设计以执行本文所描述的功能的其任何组合来实施或执行。通用处理器可为微处理器,但在替代方案中,处理器可为任何常规的处理器、控制器、微控制器或状态机。处理器还可经实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。
本文所描述的方法和算法的任务可直接体现于硬件、由处理器执行的软件模块或所述两者的组合中。软件模块可驻存于RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM或此项技术中已知的任何其它形式的存储媒体中。说明性存储媒体耦合到处理器,使得处理器可从存储媒体读取信息和将信息写入到存储媒体。在替代方案中,存储媒体可与处理器成一体式。处理器和存储媒体可驻存于ASIC中。ASIC可驻存于用户终端中。在替代方案中,处理器和存储媒体可作为离散组件而驻存于用户终端中。
本文所描述的配置中的每一者可至少部分地实施为硬连线电路、经制造到专用集成电路中的电路配置或者经加载到非易失性存储装置中的固件程序或作为机器可读代码(此类代码为可由例如微处理器或其它数字信号处理单元等逻辑元件阵列执行的指令)而从数据存储媒体加载或加载到数据存储媒体中的软件程序。数据存储媒体可为例如半导体存储器(其可包括但不限于动态或静态RAM(随机存取存储器)、ROM(只读存储器)和/或快闪RAM)或者铁电、磁阻、双向、聚合或相变存储器等存储元件的阵列;或例如磁盘或光盘等盘片媒体。应将术语“软件”理解为包括源代码、汇编语言代码、机器代码、二进制代码、固件、宏代码、微代码、可由逻辑元件的阵列执行的任何一个或一个以上指令集合或序列以及此类实例的任何组合。
Claims (8)
1.一种处理语音信号的方法,所述方法包括:
基于所述语音信号的第一有效帧,产生第一语音包,所述第一语音包包括对所述语音信号的包括所述第一有效帧的部分的在(A)第一频带和(B)在所述第一频带上方延伸的第二频带上的频谱包络的描述;
基于所述语音信号的第二有效帧,产生第二语音包,所述第二语音包包括对所述语音信号的包括所述第二有效帧的部分的在所述第一频带上的频谱包络的描述;以及
基于所述语音信号的所述第二有效帧计算所述第二频带上的频谱包络的描述;
其中所述第二语音包不包括对在所述第二频带上的频谱包络的描述,以及
其中所述方法包括产生经编码帧,所述经编码帧含有(A)所述第二语音包和(B)与所述语音信号分离的信息信号的突发。
2.根据权利要求1所述的处理语音信号的方法,其中所述突发的长度小于所述第二语音包的长度。
3.根据权利要求1所述的处理语音信号的方法,其中所述突发的所述长度等于所述第二语音包的所述长度。
4.根据权利要求1所述的处理语音信号的方法,其中所述突发的所述长度大于所述第二语音包的所述长度。
5.根据权利要求1至4中任一权利要求所述的处理语音信号的方法,其中所述第二有效帧在所述语音信号中紧随所述第一有效帧之后出现。
6.根据权利要求1所述的处理语音信号的方法,其中所述对所述语音信号的包括所述第一有效帧的部分的频谱包络的描述包括单独的第一和第二描述,其中所述第一描述是对所述语音信号的包括所述第一有效帧的部分的在所述第一频带上的频谱包络的描述,且其中所述第二描述是对所述语音信号的包括所述第一有效帧的部分的在所述第二频带上的频谱包络的描述。
7.根据权利要求1所述的处理语音信号的方法,其中所述第一和第二频带重叠至少两百赫兹。
8.一种用于处理语音信号的设备,所述设备包括:
用于基于所述语音信号的第一有效帧而产生第一语音包的装置,所述第一语音包包括对所述语音信号的包括所述第一有效帧的部分的在(A)第一频带和(B)在所述第一频带上方延伸的第二频带上的频谱包络的描述;
用于基于所述语音信号的第二有效帧而产生第二语音包的装置,所述第二语音包包括对所述语音信号的包括所述第二有效帧的部分的在所述第一频带上的频谱包络的描述;
用于基于所述语音信号的所述第二有效帧计算所述第二频带上的频谱包络的描述的装置;
其中所述第二语音包不包括对在所述第二频带上的所述频谱包络的所述描述,以及
其中所述设备包括用于产生经编码帧的装置,所述经编码帧包括(A)所述第二语音包和(B)与所述语音信号分离的信息信号的突发。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US83468306P | 2006-07-31 | 2006-07-31 | |
US60/834,683 | 2006-07-31 | ||
US11/830,842 | 2007-07-30 | ||
US11/830,842 US8532984B2 (en) | 2006-07-31 | 2007-07-30 | Systems, methods, and apparatus for wideband encoding and decoding of active frames |
PCT/US2007/074868 WO2008016925A2 (en) | 2006-07-31 | 2007-07-31 | Systems, methods, and apparatus for wideband encoding and decoding of active frames |
Related Child Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110243169.6A Division CN102324236B (zh) | 2006-07-31 | 2007-07-31 | 用于对有效帧进行宽带编码和解码的***、方法和设备 |
CN201110243186XA Division CN102385865B (zh) | 2006-07-31 | 2007-07-31 | 用于对有效帧进行宽带编码和解码的***、方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101496099A CN101496099A (zh) | 2009-07-29 |
CN101496099B true CN101496099B (zh) | 2012-07-18 |
Family
ID=40925464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007800280941A Active CN101496099B (zh) | 2006-07-31 | 2007-07-31 | 用于对有效帧进行宽带编码和解码的***、方法和设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN101496099B (zh) |
TW (1) | TWI343560B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102870156B (zh) * | 2010-04-12 | 2015-07-22 | 飞思卡尔半导体公司 | 音频通信设备、输出音频信号的方法和通信*** |
WO2012072278A1 (en) * | 2010-12-03 | 2012-06-07 | Telefonaktiebolaget L M Ericsson (Publ) | Source signal adaptive frame aggregation |
CN104301064B (zh) | 2013-07-16 | 2018-05-04 | 华为技术有限公司 | 处理丢失帧的方法和解码器 |
CN106683681B (zh) * | 2014-06-25 | 2020-09-25 | 华为技术有限公司 | 处理丢失帧的方法和装置 |
CN106448688B (zh) | 2014-07-28 | 2019-11-05 | 华为技术有限公司 | 音频编码方法及相关装置 |
US10049684B2 (en) * | 2015-04-05 | 2018-08-14 | Qualcomm Incorporated | Audio bandwidth selection |
EP3671741A1 (en) * | 2018-12-21 | 2020-06-24 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Audio processor and method for generating a frequency-enhanced audio signal using pulse processing |
-
2007
- 2007-07-31 CN CN2007800280941A patent/CN101496099B/zh active Active
- 2007-07-31 TW TW96128123A patent/TWI343560B/zh active
Also Published As
Publication number | Publication date |
---|---|
CN101496099A (zh) | 2009-07-29 |
TW200830278A (en) | 2008-07-16 |
TWI343560B (en) | 2011-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102324236B (zh) | 用于对有效帧进行宽带编码和解码的***、方法和设备 | |
CN101496100B (zh) | 用于对无效帧进行宽带编码和解码的***、方法和设备 | |
CN101681627B (zh) | 使用音调规则化及非音调规则化译码的信号编码方法及设备 | |
ES2318820T3 (es) | Procedimiento y aparatos de cuantificacion predictiva del habla de voces. | |
CN1703737B (zh) | 在自适应多速率宽带(amr-wb)和多模式可变比特率宽带(vmr-wb)编解码器之间互操作的方法 | |
CN101496099B (zh) | 用于对有效帧进行宽带编码和解码的***、方法和设备 | |
CN101496098B (zh) | 用于以与音频信号相关联的帧修改窗口的***及方法 | |
JP4971351B2 (ja) | トーンコンポーネントの検出のためのシステム、方法および装置 | |
CN1820306B (zh) | 可变比特率宽带语音编码中增益量化的方法和装置 | |
CN101523484A (zh) | 用于帧擦除恢复的***、方法和设备 | |
CN101494055A (zh) | 用于码分多址无线***的方法和装置 | |
US20200227061A1 (en) | Signal codec device and method in communication system | |
CN104517612A (zh) | 基于amr-nb语音信号的可变码率编码器和解码器及其编码和解码方法 | |
CN106133832A (zh) | 在装置处切换译码技术的设备及方法 | |
CN106463140B (zh) | 具有语音信息的改进型帧丢失矫正 | |
Gibson | Speech coding for wireless communications | |
KR20080091305A (ko) | 서로 다른 코딩 모델들을 통한 오디오 인코딩 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |