CN103052984A - 用于动态位分配的***、方法、设备和计算机可读媒体 - Google Patents

用于动态位分配的***、方法、设备和计算机可读媒体 Download PDF

Info

Publication number
CN103052984A
CN103052984A CN2011800375219A CN201180037521A CN103052984A CN 103052984 A CN103052984 A CN 103052984A CN 2011800375219 A CN2011800375219 A CN 2011800375219A CN 201180037521 A CN201180037521 A CN 201180037521A CN 103052984 A CN103052984 A CN 103052984A
Authority
CN
China
Prior art keywords
vector
vectors
equipment
task
distributes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800375219A
Other languages
English (en)
Other versions
CN103052984B (zh
Inventor
伊桑·R·杜尼
文卡特什·克里希南
维韦克·拉金德朗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN103052984A publication Critical patent/CN103052984A/zh
Application granted granted Critical
Publication of CN103052984B publication Critical patent/CN103052984B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/093Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

动态位分配操作基于对应的多个增益因子而确定用于多个向量中的每一者的位分配,且将每一分配与基于所述向量的维度的阈值进行比较。

Description

用于动态位分配的***、方法、设备和计算机可读媒体
根据35U.S.C.§119主张优先权
本专利申请案主张2010年7月30日申请的标题为“用于音频信号的有效变换域译码的***、方法、设备和计算机可读媒体(SYSTEMS,METHODS,APPARATUS,ANDCOMPUTER-READABLE MEDIA FOR EFFICIENT TRANSFORM-DOMAINCODING OFAUDIO SIGNALS)”的第61/369,662号临时申请案的优先权。本专利申请案主张2010年7月31日申请的标题为“用于动态位分配的***、方法、设备和计算机可读媒体(SYSTEMS,METHODS,APPARATUS,AND COMPUTER-READABLEMEDIA FOR DYNAMIC BIT ALLOCATION)”的第61/369,705号临时申请案的优先权。本专利申请案主张2010年7月31日申请的标题为“用于多阶段形状向量量化的***、方法、设备和计算机可读媒体(SYSTEMS,METHODS,APPARATUS,ANDCOMPUTER-READABLE MEDIA FOR MULTI-STAGE SHAPE VECTORQUANTIZATION)”的第61/369,751号临时申请案的优先权。本专利申请案主张2010年8月17日申请的标题为“用于一般音频译码的***、方法、设备和计算机可读媒体(SYSTEMS,METHODS,APPARATUS,AND COMPUTER-READABLE MEDIA FORGENERALIZED AUDIO CODING)”的第61/374,565号临时申请案的优先权。本专利申请案主张2010年9月17日申请的标题为“用于一般音频译码的***、方法、设备和计算机可读媒体(SYSTEMS,METHODS,APPARATUS,ANDCOMPUTER-READABLE MEDIA FOR GENERALIZED AUDIO CODING)”的第61/384,237号临时申请案的优先权。本专利申请案主张2011年3月31日申请的标题为“用于动态位分配的***、方法、设备和计算机可读媒体(SYSTEMS,METHODS,APPARATUS,AND COMPUTER-READABLE MEDIA FOR DYNAMIC BITALLOCATION)”的第61/470,438号临时申请案的优先权。
技术领域
本发明涉及音频信号处理领域。
背景技术
基于修正型离散余弦变换(MDCT)的译码方案通常用于对一般的音频信号进行译码,所述音频信号可包含语音和/或非语音内容,例如音乐。使用MDCT译码的现有音频编解码器的实例包含MPEG-1音频层3(MP3)、杜比数字(英国伦敦杜比实验室;还被称为AC-3且标准化为ATSC A/52)、免费音乐格式(马萨诸塞州萨摩威尔市Xiph.Org基金会)、视窗媒体音频(WMA,华盛顿州里德蒙德市微软公司)、自适应变换声音译码(ATRAC,日本东京索尼公司),以及高级音频译码(AAC,最近在ISO/IEC14496-3:2009中标准化)。MDCT译码也是一些电信标准的分量,例如增强型可变速率编解码器(EVRC,在2010年1月25日的第3代合作伙伴项目2(3GPP2)文献C.S0014-D v2.0中被标准化)。G.718编解码器(对从8到32kbit/s的语音和音频的帧错误稳固窄带和宽带嵌入式可变位速率译码(Frame error robust narrowband and wideband embedded variable bit-rate codingof speech and audio from8-32kbit/s),电信标准化部门(ITU-T),日内瓦,CH,2008年6月,2008年11月和2009年8月校正,2009年3月和2010年3月修正)是使用MDCT译码的多层编解码器的一个实例。
发明内容
一种根据一般配置的位分配方法包含,针对多个向量中的每一者,计算多个增益因子中的对应一者。此方法还包含,针对所述多个向量中的每一者,计算基于所述增益因子的对应位分配。此方法还包含,针对所述多个向量中的至少一者,确定所述对应位分配不大于最小分配值。此方法还包含针对所述至少一个向量中的每一者,响应于所述确定而改变所述对应位分配。还揭示具有有形特征的计算机可读存储媒体(例如,非暂时性媒体),所述有形特征致使读取所述特征的机器执行所述方法。
一种根据一般配置的用于位分配的设备包含用于针对多个向量中的每一者而计算多个增益因子中的对应一者的装置,以及用于针对所述多个向量中的每一者而计算基于所述增益因子的对应位分配的装置。此设备还包含用于针对所述多个向量中的至少一者而确定所述对应位分配不大于最小分配值的装置,以及用于针对所述至少一个向量中的每一者,响应于所述确定而改变所述对应位分配的装置。
根据另一一般配置的用于位分配的设备包含:增益因子计算器,其经配置以针对多个向量中的每一者而计算多个增益因子中的对应一者;以及位分配计算器,其经配置以针对所述多个向量中的每一者而计算基于所述增益因子的对应位分配。此设备还包含:比较器,其经配置以针对所述多个向量中的至少一者而确定所述对应位分配不大于最小分配值,以及分配调整模块,其经配置以针对所述至少一个向量中的每一者,响应于所述确定而改变所述对应位分配。
附图说明
图1A展示根据一般配置的方法M100的流程图。
图1B展示用于任务T200的实施方案T210的流程图。
图1C展示用于任务T210的实施方案T220的流程图。
图1D展示用于任务T220的实施方案T230的流程图。
图2展示低频带音频信号中的选定子频带的实例。
图3展示高频带音频信号中的选定子频带和残差分量的实例。
图4A展示参考帧与目标帧中的子频带位置之间的关系的实例。
图4B展示用于任务T230的实施方案T240的流程图。
图5A到5D展示增益-形状向量量化结构的实例。
图6A展示用于任务T230的实施方案T250的流程图。
图6B展示用于任务T250的实施方案T255的流程图。
图7A展示任务T250的实施方案T260的流程图。
图7B展示用于动态分配任务T260的实施方案T265的流程图。
图8A展示用于动态位分配任务T230的实施方案TA270的流程图。
图8B展示动态位分配任务T220的实施方案TA280的方框图。
图8C展示方法M100的实施方案M110的流程图。
图9展示脉冲译码的实例。
图10A展示任务T280的实施方案T290的方框图。
图10B展示用于动态分配任务T290的实施方案T295的流程图。
图11A展示用于动态分配任务T220的实施方案T225的流程图。
图11B展示所存储的频谱系数的集合中的一子集的实例。
图12A展示根据一般配置的用于位分配的设备MF100的方框图。
图12B展示根据一般配置的用于位分配的设备A100的方框图。
图13A展示根据一般配置的编码器E100的方框图。图13D展示对应的解码器D100的方框图。
图13B展示编码器E100的实施方案E110的方框图。图13E展示解码器D100的对应实施方案D110的方框图。
图13C展示编码器E110的实施方案E120的方框图。图13F展示解码器D100的对应实施方案D120的方框图。
图14A到E展示编码器E100的应用范围。
图15A展示信号分类的方法MZ100的方框图。
图15B展示通信装置D10的方框图。
图16展示手持机H100的前视图、后视图和侧视图。
图17展示多频带译码器的实例的方框图。
图18展示多频带译码的方法的实例的流程图。
图19展示编码器E200的方框图。
图20展示旋转矩阵的实例。
具体实施方式
可能需要使用基于编码器和解码器两者都已知的经译码的增益参数的动态位分配方案,使得可在不需要从编码器到解码器的边信息的显式传输的情况下执行所述方案。
除非受其上下文明确地限制,否则术语“信号”在本文中用以指示其普通意义中的任一者,包含如在导线、总线或其它传输媒体上表达的存储器位置(或存储器位置集合)的状态。除非受其上下文明确地限制,否则本文中使用术语“产生”来指示其普通意义中的任一者,例如计算或以其它方式产生。除非受其上下文明确地限制,否则术语“计算”在本文中用以指示其普通意义中的任一者,例如计算、评估、平滑和/或从多个值中进行选择。除非受其上下文明确地限制,否则使用术语“获得”来指示其普通意义中的任一者,例如推算、导出、接收(例如,从外部装置)和/或检索(例如,从存储元件阵列)。除非受其上下文明确地限制,否则使用术语“选择”来指示其普通意义中的任一者,例如识别、指示、应用和/或使用一组两者或两者以上中的至少一者和少于全部。在术语“包括”用于本描述及权利要求书中的情况下,其不排除其它元件或操作。使用术语“基于”(如在“A是基于B”中)来指示其普通意义中的任一者,包含以下情况(i)“从中导出”(例如,“B是A的前驱体”),(ii)“至少基于”(例如,“A至少基于B”)以及,在特定上下文中在适当的情况下,(iii)“等于”(例如,“A等于B”)。类似地,使用术语“响应于”来指示其普通意义中的任一者,包含“至少响应于”。
除非另有指示,否则使用术语“系列”来指示两个或两个以上术语的序列。使用术语“对数”来指示底数为10的对数,但此运算扩展到其它底数也在本发明的范围内。使用术语“频率分量”来指示信号的一组频率或频带中的一者,例如信号(例如,如由快速傅立叶变换产生)或信号的子频带(例如,巴克刻度或梅尔刻度子频带)的频域表示的样本。
除非另有指示,否则对具有特定特征的设备的操作的任何揭示内容还明确地希望揭示具有类似特征的方法(且反之亦然),且对根据特定配置的设备的操作的任何揭示内容还明确地希望揭示根据类似配置的方法(且反之亦然)。可参考如由其特定上下文指示的方法、设备和/或***来使用术语“配置”。一般地且互换地使用术语“方法”、“过程”、“程序”和“技术”,除非特定上下文另有指示。具有多个子任务的“任务”也是方法。一般地且互换地使用术语“设备”和“装置”,除非特定上下文另有指示。通常使用术语“元件”和“模块”来指示更大配置的一部分。除非受其上下文明确地限制,否则在本文中使用术语“***”来指示其普通意义中的任一者,包含“进行交互以用于共同目的的一组元件”。通过文献的一部分的参考进行的任何并入也应理解为并入在所述部分内参考的术语或变量的定义,其中此些定义出现在文档中的其它地方,以及所并入的部分中所参考的任何图中。
本文中所描述的***、方法和设备一般适用于频域中的音频信号的译码表示。此表示的典型实例是变换域中的一连串变换系数。合适的变换的实例包含离散正交变换,例如正弦单位变换。合适的正弦单位变换的实例包含离散三角变换,其包含(非限制)离散余弦变换(DCT)、离散正弦变换(DST)和离散傅立叶变换(DFT)。合适的变换的其它实例包含此些变换的互搭版本。合适的变换的特定实例是上文引入的修正型DCT(MDCT)。
在整个本发明中参考音频频率范围的“低频带”和“高频带”(等效地,“上频带”),且参考0到4千赫兹(kHz)的低频带以及3.5kHz到7kHz的高频带的特定实例。应明确注意,本文中所论述的原理绝不限于此特定实例,除非清楚规定此限制。明确预期且在此揭示编码、解码、分配、量化和/或其它处理的这些原理应用到的频率范围的其它实例(再次非限制)包含具有处于0Hz、25Hz、50Hz、100Hz、150Hz和200Hz中的任一者处的下限以及处于3000Hz、3500Hz、4000Hz和4500Hz中的任一者处的上限的低频带,以及具有处于3000Hz、3500Hz、4000Hz、4500Hz和5000Hz中的任一者处的下限以及处于6000Hz、6500Hz、7000Hz、7500Hz、8000Hz、8500Hz和9000Hz中的任一者处的上限的高频带。还明确预期且在此揭示将此些原理应用于(再次非限制)具有处于3000Hz、3500Hz、4000Hz、4500Hz、5000Hz、5500Hz、6000Hz、6500Hz、7000Hz、7500Hz、8000Hz、8500Hz和9000Hz中的任一者处的下限以及处于10kHz、10.5kHz、11kHz、11.5kHz、12kHz、12.5kHz、13kHz、13.5kHz、14kHz、14.5kHz、15kHz、15.5kHz和16kHz中的任一者处的上限的低频带。还应明确注意,虽然在译码过程的早期阶段将通常将高频带信号转换为较低的取样速率(例如,经由再取样和/或抽取),但高频带信号及其携载的信息仍继续表示高频带音频-频率范围。
可应用包含本文中所描述的动态位分配的译码方案来对任何音频信号(例如,包含语音)进行译码。或者,可能仅需要针对非语音音频(例如,音乐)使用此译码方案。在此情况下,可与分类方案一起使用所述译码方案来确定音频信号的每一帧的内容的类型且选择合适的译码方案。
可将包含本文中所描述的动态位分配的译码方案用作主要编解码器或用作多层或多级编解码器中的一层或一级。在一个此类实例中,使用此译码方案来对音频信号的频率内容的一部分(例如,低频带或高频带)进行译码,且使用另一译码方案来对所述信号的频率内容的另一部分进行译码。在另一此类实例中,使用此译码方案来对另一译码层的余数(即,原始信号与经编码信号之间的误差)进行译码。
音频信号的低位速率译码常常要求对可用来对音频信号帧的内容进行译码的位的最佳利用。音频信号帧的内容可为所述信号的PCM(脉码调制)样本或所述信号的变换域表示。对每一帧的编码通常包含:将帧划分为多个子频带(即,将帧作为向量划分为多个子向量);将位分配指派给每一子向量;以及将每一子向量编码为对应所分配数目个位。在典型音频译码应用中可能需要(例如)针对每一帧的大量(例如,十个、二十个、三十个或四十个)不同子频带向量执行向量量化。帧大小的实例包含(非限制)100、120、140、160和180个值(例如,变换系数),且子频带长度的实例包含(非限制)五、六、七、八、九、十、十二和十六。
一种位分配方法为,在子向量中均匀地***总位分配。举例来说,分配给每一子向量的位的数目随帧变化可为固定的。在此情况下,可能已用位分配方案的知识配置解码器,以使得编码器不需要传输此信息。然而,对位的最佳利用的目标可为确保以一定数目的位对音频信号帧的各种分量进行译码,位的数目与所述分量的感知有效性有关(例如,成比例)。输入子频带向量中的一些输入子频带向量可能较不有效(例如,可能捕获极少能量),以使得可能通过分配较少位来编码这些向量并分配较多位来编码较重要的子频带的向量,从而获得更好的结果。
由于固定分配方案未考虑子向量的相对感知有效性的变化,所以可能需要改为使用动态分配方案,以使得分配给每一子向量的位的数目可随帧变化而变化。在此情况下,将与用于每一帧的特定位分配方案有关的信息供应给解码器以使得可对所述帧进行解码。
大多数音频编码器将位分配信息作为边信息显式提供到解码器。举例来说,例如AAC的音频译码算法通常使用边信息或熵译码方案(例如霍夫曼译码)来传达位分配信息。仅使用信息来传达位分配是低效的,这是因为此边信息并不直接用于对信号进行译码。虽然像霍夫曼译码或算术译码等可变长度码字可提供某种优势,但可能遭遇长码字,长码字可降低译码效率。
可能需要改为使用基于编码器和解码器两者都已知的经译码的增益参数的动态位分配方案,使得可在不需要从编码器到解码器的边信息的显式传输的情况下执行所述方案。此效率对于低位速率应用(例如,蜂窝式电话)来说尤其重要。在一个实例中,可在无边信息的情况下通过根据相关联的增益的值分配用于形状向量量化的位来实施此动态位分配。
图1A展示根据一般配置的方法M100的流程图,方法M100包含划分任务T100和位分配任务T200。任务T100接收将要编码的向量(例如,帧的多个变换域系数)且将所述向量划分为一组子向量。所述子向量可不需要重叠且可甚至彼此分离(在本文中所描述的特定实例中,子向量不重叠)。此划分可为预定的(即,独立于向量的内容),使得每一输入向量被同样划分。预定划分的一个实例将每一100元素输入向量划分为具有相应长度(25、35、40)的三个子向量。预定划分的另一实例将140个元素的输入向量划分为一组20个长度为7的子向量。预定划分的进一步实例将280个元素的输入向量划分为一组40个长度为7的子向量。
或者,此划分可为可变的,使得输入向量随着帧变化而被不同地划分(例如,根据某一感知准则)。举例来说,可能需要通过对音频信号的谐波分量进行检测和针对性译码来执行对所述信号的有效变换域译码。图2展示量值对频率的曲线图,其中通过频率轴附近的多个条来指示对应于低频带线性预测译码(LPC)残差信号的谐波上间隔的峰的8个长度为7的选定子频带。图3展示针对高频带LPC残差信号的类似实例,其指示位于选定子频带之间和外部的残差分量。在此情况下,可能需要在一组子频带与整个残差之间执行动态分配,以在一组子频带之间执行动态分配,且/或在残差分量之间执行动态分配。可在本申请案主张其优先权的上文列举的申请案中找到谐波模型化和谐波模式译码的额外描述。
可变划分方案的另一实例基于另一帧(还称为参考帧)(其可为先前帧)的经译码版本中的感知上重要的子频带的位置来识别当前帧(还称为目标帧)中的一组感知上重要的子频带。图4A展示此译码方案(还称为相依模式译码)中的子频带选择操作的实例,可在本申请案主张其优先权的上文列举的申请案中找到相依模式译码的额外描述。
残差信号的另一实例是通过对一组选定子频带进行译码且从原始信号减去经译码的组而获得。在此情况下,可能需要将所得的残差划分为一组子向量(例如,根据预定划分)且在所述子向量之间执行动态分配。
可使用向量量化方案(例如,增益-形状向量量化方案)对选定的子频带进行译码,且可使用阶乘脉冲译码(FPC)方案或组合脉冲译码方案对残差信号进行译码。
根据将要在多个向量之间分配的总位数,任务T200将位分配指派给各种向量中的每一者。此分配可为动态的,使得分配给每一向量的位的数目可在帧之间变化。
方法M100可经布置以将由任务T200产生的位分配传递到对子向量进行编码以用于存储或传输的操作。一种类型的此操作是向量量化(VQ)方案,所述VQ方案通过使向量与一个或一个以上码簿(其对于解码器也已知)中的每一者中的条目匹配且使用这些条目的索引来表示所述向量而对所述向量进行编码。码簿索引的长度(其确定码簿中的条目的最大数目)可为对于应用视为合适的任何任意整数。如在解码器处执行的方法M100的实施方案可经布置以将由任务T200产生的位分配传递到对子向量进行解码以用于再现经编码音频信号的操作。
对于其中多个向量中的两者或两者以上具有不同长度的情况,任务T200可经实施以基于向量的维度(即,长度)的数目而计算用于每一向量m的位分配(其中m=1、2,...,M)。在此情况下,任务T200可经配置以将用于每一向量的位分配Bm计算为B×(Dm/Dh),其中B是将要分配的总位数,Dm是向量m的维度,且Dh是所有向量的维度的总和。在一些情况下,任务T100可经实施以通过基于一组模型参数确定一组子频带中的每一者的位置来确定向量的维度。对于谐波模式译码,所述模型参数可包含基本频率F0(在当前帧内或在帧的另一频带内)和邻近子频带峰的谐波间距d。用于谐波模型的参数还可包含子频带中的一者或一者以上中的每一者的对应抖动值。对于相依模式译码,模型参数可包含相对于先前经译码帧的针对子频带中的一者或一者以上中的每一者的对应有效频带的位置的抖动值。所述帧的残差分量的位置和维度可随后基于子频带位置来确定。可能包含频谱的在子频带之间和/或外部的若干部分的残差分量还可连接到一个或一个以上较大分量中。
图1B展示包含子任务TA200和TA300的动态位分配任务T200的实施方案T210的流程图。任务TA200计算用于向量的位分配,且任务TA300将所述分配与最小分配值进行比较。任务TA300可经实施以将每一分配与相同最小分配值进行比较。或者,任务TA300可经实施以将每一分配与可能对于多个向量中的两者或两者以上是不同的最小分配值进行比较。
任务TA300可经实施以增加小于最小分配值的位分配(例如,通过改变到最小分配值的分配)。或者,任务TA300可经实施以将小于(或者,不大于)最小分配值的位分配减小到零。
图1C展示包含子任务TA100和分配任务TA200的实施方案TA210的动态位分配任务T200的实施方案T220的流程图。任务TA100计算用于多个向量中的每一者的对应增益因子,且任务TA210基于对应的增益因子而计算用于每一向量的位分配。通常需要编码器使用与解码器相同的增益因子来计算位分配。举例来说,可能需要在解码器处执行的增益因子计算任务TA100以产生与在编码器处执行的任务TA100相同的结果。因此,可能需要在编码器处执行的任务TA100包含对增益因子进行解量化。
增益-形状向量量化是可用以通过将向量能量解耦而有效地编码信号向量(例如,表示声音或图像数据)的译码技术,向量能量是由来自向量方向的由形状表示的增益因子表示。此技术可尤其适用于其中信号的动态范围可能较大的应用,例如音频信号(例如语音和/或音乐)的译码。
增益-形状向量量化器(GSVQ)对输入向量x的形状和增益单独地编码。图5A展示增益-形状向量量化操作的实例。在此实例中,形状量化器SQ100经配置以通过以下操作来执行向量量化(VQ)方案:从码簿选择经量化的形状向量
Figure BDA00002795170800091
作为所述码簿中最接近输入向量x(例如,在均方误差意义上最接近)的向量,以及输出指向所述码簿中的向量
Figure BDA00002795170800092
的索引。在另一实例中,形状量化器SQ100经配置以通过以下操作来执行脉冲译码量化方案:选择最接近输入向量x(例如,在均方误差意义上最接近)的单位脉冲的单位范数模式,以及输出指向所述模式的码簿索引。范数计算器NC10经配置以计算输入向量x的范数||x||,且增益量化器GQ10经配置以量化所述范数来产生经量化的增益因子。增益量化器GQ10可经配置以将范数量化为标量,或将范数与其它增益(例如,来自多个向量中的其它向量的范数)组合为增益向量以用于向量量化。
形状量化器SQ100通常实施为向量量化器,其中约束为码簿向量具有单位范数(即,所有点均在单位超球面上)。此约束简化码簿搜索(例如,从均方误差计算简化为内积运算)。举例来说,形状量化器SQ100可经配置以根据例如argmaxk(xTSk)的运算从K个单位范数向量Sk(k=0、1,...,K-1)的码簿中选择向量
Figure BDA00002795170800093
此搜索可为详尽的或最佳化的。举例来说,可将所述向量布置于所述码簿内以支持特定搜索策略。
在一些情况下,可能需要将到形状量化器SQ100的输入约束为单位范数(例如,以启用特定码簿搜索策略)。图5B展示增益-形状向量量化操作的此实例。在此实例中,正规化器NL10经配置以正规化输入向量x以产生向量范数||x||和单位范数形状向量S=x/||x||,且形状量化器SQ100经布置以接收形状向量S作为其输入。在此情况下,形状量化器SQ100可经配置以根据例如argmaxk(STSk)的运算从K个单位范数向量Sk(k=0、1,...,K-1)的码簿中选择向量
Figure BDA00002795170800101
或者,形状量化器SQ100可经配置以从单位脉冲的模式的码簿中选择向量
Figure BDA00002795170800102
在此情况下,量化器SQ100可经配置以选择在经正规化时最接近形状向量S的模式(例如,在均方误差意义上最接近)。此模式通常被编码为码簿索引,所述码簿索引指示所述模式中的脉冲数目和每一占用位置的正负号。选择模式可包含缩放输入向量且使其与模式匹配,且经量化的向量
Figure BDA00002795170800103
是通过正规化选定的模式而产生。可由形状量化器SQ100执行以编码此些模式的脉冲译码方案的实例包含阶乘脉冲译码和组合脉冲译码。
增益量化器GQ10可经配置以执行增益的标量量化或将所述增益与其它增益组合为增益向量以用于向量量化。在图5A和5B的实例中,增益量化器GQ10经布置以接收输入向量x的增益并所述增益量化为范数||x||(还称为“开环增益”)。在其它情况下,所述增益是基于经量化的形状向量
Figure BDA00002795170800104
与原始形状的相关度。此增益称为“闭环增益”。图5C展示此增益形状向量量化操作的实例,其包含内积计算器IP10和形状量化器SQ100的实施方案SQ110,实施方案SQ110还产生经量化的形状向量
Figure BDA00002795170800105
计算器IP10经布置以计算经量化的形状向量与原始输入向量的内积(例如,
Figure BDA00002795170800107
),且增益量化器GQ10经布置以接收此乘积并将所述乘积量化为闭环增益。就形状量化器SQ110产生不良形状量化结果而言,闭环增益将较低。就形状量化器准确地量化形状而言,闭环增益将较高。当形状量化理想时,闭环增益等于开环增益。图5D展示类似增益形状向量量化操作的实例,其包含正规化器NL20,正规化器NL20经配置以正规化输入向量x来产生单位范数形状向量S=x/||x||以作为到形状量化器SQ110的输入。
在源-译码意义上,闭环增益可被视为更佳,这是因为,与开环增益不同,闭环增益考虑了特定形状量化误差。然而,可能需要基于此增益值执行上游处理。具体而言,可能需要使用增益因子来决定如何量化形状(例如,在所述形状之间动态地分配位)。形状译码操作对增益的此相依性可使得需要使用开环增益计算(例如,以避免边信息)。在此情况下,因为增益控制所述位分配,所以形状量化明显取决于编码器和解码器处的增益,以使得使用形状独立开环增益计算。可在本申请案主张其优先权的上文列举的申请案中找到对增益形状向量量化(包含可结合本文中所描述的动态分配方案使用的多级形状量化结构)的额外描述。
可能需要将预测性增益译码结构(例如,差分脉码调制方案)与变换结构进行组合以用于增益译码。在一个此实例中,将一个平面中的子频带增益的向量(例如,多个向量的增益因子的向量)输入到变换译码器以获得平均和差分分量,其中仅对所述平均分量执行预测性译码操作。在一个此实例中,根据例如10log10||xm||2的表达式来计算长度为M的输入增益向量的每一元素m,其中xm表示对应的子频带向量。可能需要使用此方法与本文中所描述的动态分配任务T210的联合。因为平均分量不影响向量之间的动态分配,所以所述差分分量(在不依赖于过去的情况下被译码)可在动态分配任务T210的实施方案中用作增益因子以获得抵制译码操作的失败(例如,由先前帧的抹除引起)的操作。图20展示旋转矩阵的一个实例(其中S是列向量[1 1 1...1]T/sqrt(M)),其可由变换译码器应用于增益因子的长度为M的向量以获得经旋转向量,所述经旋转向量具有第一元素中的平均分量和其它元素中的对应的差分分量。在此情况下,用于由平均分量占用的元素的差分分量可由平均分量和其它差分分量重构。
任务TA210可经配置以计算每一向量m的位分配Bm,使得所述分配是基于维度的数目Dm以及向量的能量Em(例如,基于向量的每维度的能量)。在一个此实例中,将用于每一向量的位分配Bm初始化为值B×(Dm/Dh)+alog2(Em/Dm)-bFz,其中将Fz计算为所有向量m上的总和∑[(Dm/Dh)×log2(Em/Dm)]。用于因子a和b中的每一者的实例值包含0.5。对于其中向量m是单位范数向量(例如,形状向量)的情况,任务TA210中的每一向量的能量Em是对应的增益因子。
图1D展示包含比较任务TA300的实施方案TA310的动态分配任务T200的实施方案T230的流程图。任务TA310将用于每一向量m的当前分配与基于向量的维度的数目Dm的阈值Tm进行比较。对于每一向量m,将阈值Tm计算为对应的维度的数目Dm的单调非减函数。可将阈值Tm计算为(例如)Dm和值V中的最小值。在一个此实例中,Dm的值的范围是从五到三十二,且V的值是十二。在此情况下,五维度向量将在其当前分配小于五位的情况下通不过所述比较,而二十四维度向量只要其当前分配为至少十二位便将通过所述比较。
任务T230可经配置以使得在任务TA310中未通过比较的用于向量的分配被复位为零。在此情况下,可使用先前分配给这些向量的位来增加用于一个或一个以上其它向量的分配。图4B展示包含执行此分布(例如,通过根据可用于分配的位的经修订的数目,针对其分配仍经受改变的那些向量来重复任务TA210)的子任务TA400的任务T230的实施方案T240的流程图。
特别要指出的是,虽然任务TA210可经实施以基于感知准则(例如,每维度的能量)来执行动态分配,但方法M100的对应实施方案可经配置以产生仅取决于输入增益值和向量维度的结果。因此,具有相同的经解量化的增益值和向量维度的知识的解码器可执行方法M100以获得相同的位分配,而不需要对应的编码器传输任何边信息。
可能需要配置动态位分配任务T200来对由任务TA200(例如,任务TA210)计算的位分配强加最大值。图6A展示包含子任务TA300的实施方案TA305(其将在任务TA210中计算的位分配与最大分配值和/或最小分配值进行比较)的任务T230的此实施方案T250的流程图。任务TA305可经实施以将每一分配与相同最大分配值进行比较。或者,任务TA305可经实施以将每一分配与可能对于多个向量中的两者或两者以上是不同的最大分配值进行比较。
任务TA305可经配置以通过将向量的位分配改变为值Bmax且从有效分配移除所述向量(例如,防止对用于那个向量的分配的进一步改变)来校正超过最大分配值Bmax(还称为上限)的分配。替代地或另外,任务TA305可经配置以通过将向量的位分配改变为最小分配值Bmin(还称为下限)且从有效分配移除所述向量(例如,防止对用于那个向量的分配的进一步改变),而将小于(或者,不大于)值Bmin的位分配减小到零,或校正小于值Bmin的分配。对于将要被脉冲译码的向量,可能需要使用对应于脉冲的整数的Bmin和/或Bmax的值,或跳过用于此些向量的任务TA305。
任务TA305可经配置以反复地校正最差的当前过分配和/或欠分配,直到没有界限违背为止。任务TA305可经实施以在校正所有的界限违背之后执行额外的操作:举例来说,更新Dh和Fz的值,计算考虑到校正性重新分配的可用位Bav的数目,以及重新计算用于当前在有效分配中的向量m的分配Bm(例如,根据例如Dm×(Bav/Dh)+alog2(Em/Dm)-bFz的表达式)。
图6B展示还包含任务TA310的例子的动态分配任务T250的实施方案T255的流程图。
可能需要配置动态分配任务T200来对位分配中的每一者强加整数约束。图7A展示包含任务TA400的例子以及子任务TA500和TA600的任务T250的此实施方案T260的流程图。
在被解除分配的位分布于任务TA400中之后,任务TA500通过将每一分配Bm截取为不大于Bm的最大整数而对位分配Bm强加整数约束。对于将要被脉冲译码的向量,可能需要将对应的分配Bm截取为对应于脉冲的整数数目的不大于Bm的最大整数。任务TA500还更新可用位Bav的数目(例如,根据例如
Figure BDA00002795170800121
的表达式)。任务TA500还可经配置以存储用于每一向量的经截取残差(例如,用于稍后在任务TA600中使用)。在一个此实例中,任务TA500将用于每一向量的经截取残差存储于误差阵列ΔB的对应元素中。
任务TA600分布剩余要分配的任何位。在一个实例中,如果剩余位Bav的数目至少等于当前在有效分配中的向量的数目,那么任务TA600针对每一向量递增分配,从有效分配移除其分配达到Bmax的向量,且更新Bav,直到此条件不再保持为止。如果Bav小于当前在有效分配中的向量的数目,那么任务TA600将剩余位分布给来自任务TA500的具有最大经截取残差的向量(例如,对应于误差阵列ΔB中的最高值的向量)。对于将要被脉冲译码的向量,可能需要将其分配仅增加到对应于脉冲的整数数目的值。
图7B展示还包含任务TA310的例子的动态分配任务T260的实施方案T265的流程图。
图8A展示包含修剪子任务TA150的动态位分配任务T230的实施方案TA270的流程图。任务TA150基于所计算的增益因子而执行对将要被量化的一组Sv向量(例如,形状向量)的初始修剪。举例来说,任务TA150可经实施以不考虑低能量向量,其中可将向量的能量计算为平方开环增益。任务TA150可经配置以(例如)修剪其能量小于(或者,不大于)阈值Ts的向量。在一个特定实例中,Ts的值是316。任务TA150还可经配置以在每向量平均能量是无足轻重时(例如,不大于100)终止任务T270。
任务TA150可经配置以基于将要分配给组Sv的位的总数B除以将要分配给任何一个向量的位的最大数目Bmax来计算向量的最大数目以修剪Pmax。在一个实例中,任务TA150通过从M减去ceil(B/Bmax)来计算Pmax,其中M是Sv中的向量的数目。对于过多向量被修剪的情况,任务TA150可经配置以不修剪在当前经修剪的向量中具有最大能量的向量,直到不超过最大数目的向量被修剪为止。
图8B展示包含修剪任务TA150、整数约束任务TA500和分布任务TA600的动态位分配任务T220的实施方案T280的方框图。特别要指出的是,任务T280可经配置以产生仅取决于输入增益值的结果,使得编码器和解码器可对相同的经解量化的增益值执行任务T280以获得相同的位分配,而不需要传输任何边信息。还要指出的是,任务T280可经实施以包含如本文中所描述的任务TA310和/或TA400的例子,且另外或作为替代,可将任务TA300实施为任务TA305。在附录A中列出的伪码描述任务T280的特定实施方案。
为了支持动态分配方案,可能需要实施形状量化器(和对应的解量化器)以响应于为将要量化的每一形状分配的位的特定数目而从不同大小的码簿中(即,从具有不同的索引长度的码簿中)进行选择。在此实例中,形状量化器SQ100(或SQ110)可经实施以使用具有较短索引长度的码簿来编码其开环增益较低的子频带向量的形状,且使用具有较长索引长度的码簿来编码其开环增益较高的子频带向量的形状。此动态分配方案可经配置以使用在向量增益与形状码簿索引长度(其为固定的或以其它方式确定的)之间的映射,以使得对应解量化器可应用相同方案而无需任何额外边信息。
另一类型的向量编码操作是脉冲译码方案(例如,阶乘脉冲译码或组合脉冲译码),其通过使向量与单位脉冲的模式匹配且使用识别所述模式的索引来表示向量而对所述向量进行编码。图9展示其中其在每一维度处的值是由实线指示的三十维向量是由脉冲模式(0,0,-1,-1,+1,+2,-1,0,0,+1,-1,-1,+1,-1,+1,-1,-1,+2,-1,0,0,0,0,-1,+1,+1,0,0,0,0)(如由多个点指示)表示的实例,。此脉冲模式可通常由远小于30位的索引表示。可能需要针对(例如,残差的)一般向量量化和/或针对形状量化使用脉冲译码方案。
以一个位的增量改变量化位分配(即,强加一个位的固定量化粒度或“整数粒度”)在常规VQ中是相对简单的,其可通常适应任意整数码簿向量长度。然而,脉冲译码不同地操作,原因在于量化域的大小不是由码簿向量长度确定,而是由可针对给定输入向量长度编码的脉冲的最大数目确定。当脉冲的此最大数目改变一时,码簿向量长度可改变大于一的整数(即,使得量化粒度是可变的)。因此,以一个位的步幅改变脉冲译码量化位分配(即,强加整数粒度)可导致无效的分配。用于脉冲译码方案的量化粒度倾向于在低位速率下较大且随着位速率增加而根据整数粒度减小。
脉冲译码索引的长度确定对应模式中的脉冲的最大数目。如上文所指出,不是所有的整数索引长度都有效,因为将脉冲译码索引的长度增加1不一定增加可由对应模式表示的脉冲的数目。因此,可能需要动态分配任务T200的脉冲译码应用包含以下任务:将由任务T200产生的位分配(其不一定在脉冲译码方案中有效)翻译为脉冲分配。图8C展示包含此任务T300的方法M100的实施方案M110的流程图,任务T300可经实施以验证一分配是否为脉冲码簿中的有效的索引长度且将无效分配减小到小于无效分配的最高有效索引长度。
还预期针对使用常规VQ和脉冲译码VQ两者的情况(例如,其中将使用常规的VQ方案对一组向量中的一些向量进行编码,且将改为使用脉冲译码方案对所述向量中的至少一者进行编码)使用方法M100。
图10A展示分别包含任务TA300、TA500和TA600的实施方案TA320、TA510和TA610的任务T280的实施方案T290的方框图。在此实例中,输入向量经布置以使得将使用脉冲译码方案(例如,阶乘脉冲译码或组合脉冲译码)对待分配的最后m个子频带(在伪码中所使用的基于零的索引编制惯例中,具有索引m-1的子频带)进行编码,而将使用常规VQ对前(m-1)个子频带进行编码。对于将使用常规(例如,非脉冲)VQ进行编码的子频带,根据如上文所描述的整数约束来计算位分配。对于将要被脉冲译码的子频带,根据对将要被编码的脉冲的最大数目的整数约束来计算位分配。在此方案的应用的一个实例中,使用常规VQ对一组选定的感知上有效的子频带进行编码,且使用脉冲译码对对应的残差(例如,一连串非选定的样本,或原始帧与经译码的选定子频带之间的差)进行编码。应理解,虽然参考对一个向量的脉冲译码来描述任务T280,但任务T280还可经实施以用于对多个向量的脉冲译码(例如,残差的多个子向量,例如图3中所示)。
任务TA320可经实施以对初始位分配强加上限和/或下限,如上文参考任务TA300和TA305所描述。在此情况下,针对过分配和/或欠分配从测试排除将要被脉冲译码的子频带。任务TA320还可经实施以从在每一校正之后执行的重新分配排除此子频带。
任务TA510通过将每一分配Bm截取为不大于Bm的最大整数而对用于常规VQ子频带的位分配Bm强加整数约束。任务TA510还通过对将要被编码的脉冲的最大数目应用整数约束而在适当时减少用于将要被脉冲译码的子频带的初始位分配Bm。任务TA510可经配置以通过以下操作来应用此脉冲译码整数约束:在给定将要被脉冲译码的子频带向量的长度的情况下计算可用初始位分配Bm编码的脉冲的最大数目,且随后用编码此向量长度的最大数目的脉冲所需的位的实际数目来取代初始位分配Bm
任务TA510还根据例如
Figure BDA00002795170800151
的表达式来更新Bav的值。任务TA510可经配置以确定Bav是否至少与将脉冲译码量化中的脉冲的最大数目增加一所需的位的数目一样大,且相应地调整脉冲译码位分配和Bav。任务TA510还可经配置以将使用常规VQ编码的每一子频带向量的经截取残差存储在误差阵列ΔB的对应元素中。
任务TA610分布剩余的Bav位。任务TA610可经配置以将剩余位分布到对应于误差阵列ΔB中的最高值的将使用常规VQ译码的子频带向量。对于其中所有常规VQ位分配均在Bmax下的情况,任务TA610还可经配置以在可能的情况下使用任何剩余位来增加用于将要被脉冲译码的子频带的位分配。
在附录B中的伪码列表描述包含协助功能find_fpc_pulses的任务T280的特定实施方案。对于给定的向量长度和位分配限制,此功能返回可被译码的脉冲的最大数目、编码所述数目的脉冲所需的位的数目,以及在脉冲的最大数目递增的情况下将需要的额外位的数目。
图10B展示还包含任务TA310的例子的动态分配任务T290的实施方案T295的流程图。
稀疏信号常常容易译码,因为很少的参数(或系数)含有信号信息中的大部分。在用稀疏和非稀疏分量对信号进行译码中,与稀疏分量相比,可能需要指派更多的位来对非稀疏分量进行译码。可能需要强调信号的非稀疏分量以改善这些分量的译码性能。此方法集中于用向量对能量分布的量度(例如,稀疏度量度)以改善特定信号类别与其它信号类别相比的译码性能,其可有助于确保非稀疏信号被良好表示且提升整体译码性能。
具有更多能量的信号可能花费更多的位来译码。较不稀疏的信号与具有相同能量但更稀疏的信号相比类似地可能花费更多的位来译码。非常稀疏的信号(例如,仅单一脉冲)通常非常容易译码,而非常分散的信号(例如,非常类似于噪声)通常很难译码,即使在两个信号具有相同能量的情况下也如此。可能需要配置动态分配操作来考虑子频带的相对稀疏度对其相应的相对译码困难度的影响。举例来说,此动态分配操作可经配置以与用于更稀疏的具有相同能量的信号的分配相比,对用于较不稀疏的信号的分配进行更重的加权。
在应用于模型导引译码的实例中,子频带中的能量的集中指示模型是对输入信号的良好配合,使得可从低位分配预期良好的译码质量。对于本文中所描述且应用于高频带的谐波模型译码,单一乐器音乐信号可出现此情况。此信号可被称作“稀疏”。或者,能量的平坦分布可指示所述模型也不捕获信号的结构,使得可能需要使用更高的位分配来维持所要的感知质量。此信号可被称作“非稀疏”。
图11A展示包含子任务TB100和分配计算任务TA210的实施方案TA215的动态分配任务T220的实施方案T225的流程图。对于多个向量中的每一者,任务TB100计算所述向量(即,稀疏度因子)内的能量分布的量度的对应值。任务TB100可经配置以基于子频带的总能量与子频带的系数的子集的总能量之间的关系来计算稀疏度因子。在一个此实例中,子集是子频带的LC个最大(即,最大能量)系数(例如,如图11B中所示)。LC的值的实例包含5、10、15和20(例如,子频带中的系数的总数的百分之五、七、十、十五或二十)。在此情况下,可理解,这些值之间的关系[例如,(子集的能量)/(总的子频带能量)]指示子频带能量集中或分布的程度。类似地,任务TB100可经配置以基于足以达到作为总子频带能量的规定部分(例如,5%、10%、12%、15%、20%、25%或30%)的能量总和的子频带的最大系数的数目来计算稀疏度因子。任务TB100可包含对子频带的系数的能量进行排序。
任务TA215基于对应的增益和稀疏度因子来计算用于向量的位分配。任务TA215可经实施以与子频带的对应的稀疏度因子的值成比例地在子频带之间划分总的可用位分配,使得将更多的位分配给较不集中的子频带。在一个此实例中,任务TA215经配置以将小于阈值sL的稀疏度因子映射到一,将大于阈值sH的稀疏度因子映射到小于一的值R(例如,R=0.7),且将从sL到sH的稀疏度因子线性地映射到范围1到R。在此情况下,任务TA215可经实施以将用于每一向量的位分配Bm计算为值v×B×(Dm/Dh)+alog2(Em/Dm)-bFz,其中将Fz计算为所有向量m上的总和∑[(Dm/Dh)×log2(Em/Dm)]。用于因子a和b中的每一者的实例值包含0.5。对于其中向量m是单位范数向量(例如,形状向量)的情况,任务TA210中的每一向量的能量Em是对应的增益因子。
要明确指出的是,本文中所描述的任务TA210的例子中的任一者可实施为任务TA215的例子(例如,用稀疏度因子计算任务TB100的对应例子)。执行此动态分配任务的编码器可经配置以传输稀疏度和增益因子的指示,使得解码器可从这些值得到位分配。在进一步的实例中,如本文中所描述的任务TA210的实施方案可经配置以基于来自LPC操作的信息(例如,作为向量维度和/或稀疏度的补充或替代)来计算位分配。举例来说,任务TA210的此实施方案可经配置以根据与频谱倾斜(即,第一反映系数)成比例的加权因子来产生位分配。在一个此情况中,可基于帧的频谱倾斜对用于对应于低频带的向量的分配进行或多或少重地加权。
替代地或另外,可使用如本文中所描述的稀疏度因子来选择或另外计算用于对应子频带的调制因子的值。可随后使用所述调制因子来调制(例如,缩放)子频带的系数。在特定实例中,应用此基于稀疏度的调制方案来编码高频带。
在开环增益译码情况下,可能需要经配置解码器(例如,增益解量化器)以将开环增益乘以作为曾用于编码形状(例如,指向形状码簿向量的索引的长度)的位的数目的函数的因子γ。当使用非常少的位来量化形状时,形状量化器可能产生较大的误差,使得向量S和
Figure BDA00002795170800171
可能不会很好地匹配,因此可能需要在解码器处减小增益以反映所述误差。校正因子γ仅在平均意义上表示此误差:校正因子γ仅取决于码簿(具体而言,取决于码簿中的位的数目),而不取决于输入向量x的任何特定细节。编解码器可经配置以使得不传输校正因子γ,而仅由解码器根据曾使用多少位来量化向量
Figure BDA00002795170800172
而从表读出。
此校正因子γ基于位速率指示可预期平均向量
Figure BDA00002795170800173
离真实形状S有多近。随着位速率上升,平均误差将减小且校正因子γ的值将接近一,且随着位速率变为极低,S与向量
Figure BDA00002795170800174
之间的相关性(例如,向量
Figure BDA00002795170800175
与S的内积)将减小,且校正因子γ的值也将减小。虽然可能需要获得与在闭环增益中相同的效果(例如,在实际逐个输入的自适应意义上),但对于开环情况,校正通常仅在平均意义上可用。
或者,可执行在开环增益方法与闭环增益方法之间的一类内插。此方法使用动态校正因子来增大开环增益表达,所述动态校正因子取决于特定形状量化的质量而非仅取决于基于长度的平均量化误差。可基于量化形状和非量化形状的点积来计算此因子。可能需要极粗略地编码此校正因子的值(例如,作为索引编码到四或八条目码簿中),以使得可以极少位来传输此校正因子。
图12A展示根据一般配置的用于位分配的设备MF100的方框图。设备MF100包含用于针对多个向量中的每一者而计算多个增益因子中的对应一者(例如,如本文参考任务TA100的实施方案所描述)的装置FA100。设备MF100还包含用于针对所述多个向量中的每一者而计算基于所述增益因子的对应位分配(例如,如本文参考任务TA210的实施方案所描述)的装置FA210。设备MF100还包含用于针对所述多个向量中的至少一者而确定所述对应位分配不大于最小分配值(例如,如本文参考任务TA300的实施方案所描述)的装置FA300。设备MF100还包含用于针对所述至少一个向量中的每一者,响应于所述确定而改变所述对应位分配(例如,如本文参考任务TA300的实施方案所描述)的装置FB300。
图12B展示根据一般配置的用于位分配的设备A100的方框图,设备A100包含增益因子计算器100、位分配计算器210、比较器300和分配调整模块300B。增益因子计算器100经配置以针对多个向量中的每一者而计算多个增益因子中的对应一者(例如,如本文参考任务TA100的实施方案所描述)。位分配计算器210经配置以针对所述多个向量中的每一者而计算基于所述增益因子的对应位分配(例如,如本文参考任务TA210的实施方案所描述)。比较器300经配置以针对所述多个向量中的至少一者而确定所述对应位分配不大于最小分配值(例如,如本文参考任务TA300的实施方案所描述)。分配调整模块300B经配置以针对所述至少一个向量中的每一者,响应于所述确定而改变所述对应位分配(例如,如本文参考任务TA300的实施方案所描述)。设备A100还可经配置以包含帧划分器,所述帧划分器经配置以将帧划分为多个子向量(例如,如本文参考任务T100的实施方案所描述)。
图13A展示根据一般配置的编码器E100的方框图,编码器E100包含设备A100的例子和子频带编码器SE10。子频带编码器SE10经配置以根据由设备A100计算的对应的分配来量化多个向量(或基于所述多个向量的多个向量,例如对应的多个形状向量)。举例来说,子频带编码器SE10可经配置以执行如本文中所描述的常规VQ译码操作和/或脉冲译码VQ操作。图13D展示对应的解码器D100的方框图,解码器D100包含设备A100的例子和经配置以根据由设备A100计算的对应分配对多个向量(或基于所述多个向量的多个向量,例如对应的多个形状向量)进行解量化的子频带解码器SD10。图13B展示编码器E100的实施方案E110的方框图,实施方案E110包含位打包器BP10,位打包器BP10经配置以将经编码子频带打包为与如本文中所描述的一个或一个以上编解码器(例如,EVRC、AMR-WB)相容的多个帧。图13E展示解码器D100的对应实施方案D110的方框图,实施方案D110包含对应的位拆包器U10。图13C展示编码器E110的实施方案E120的方框图,实施方案E120包含设备A100的例子A100a和A100b以及残差编码器SE20。在此情况下,子频带编码器SE10经布置以根据由设备A100a计算的对应分配来量化第一多个向量(或基于所述第一多个向量的多个向量,例如对应的多个形状向量),且残差编码器SE20经配置以根据由设备A100b计算的对应分配来量化第二多个向量(或基于所述第二多个向量的多个向量,例如对应的多个形状向量)。图13F展示解码器D100的对应实施方案D120的方框图,实施方案D120包含对应的残差解码器SD20,其经配置以根据由设备A100b计算的对应分配对第二多个向量(或基于所述第二多个向量的多个向量,例如对应的多个形状向量)进行解量化。
图14A到E展示如本文中所描述的编码器E100的应用范围。图14A展示包含变换模块MM1(例如,快速傅立叶变换或MDCT模块)和编码器E100的例子的音频处理路径的方框图,编码器E100的所述例子经布置以接收音频帧SA10以作为变换域中的样本(即,作为变换域系数)且产生对应的经编码帧SE10。
图14B展示其中使用MDCT变换模块实施变换模块MM1的图14A的路径的实施方案的方框图。修正型DCT模块MM10对每一音频帧执行MDCT操作以产生一组MDCT域系数。
图14C展示包含线性预测译码分析模块AM10的图14A的路径的实施方案的方框图。线性预测译码(LPC)分析模块AM10对经分类的帧执行LPC分析操作以产生一组LPC参数(例如,滤波器系数)和LPC残差信号。在一个实例中,LPC分析模块AM10经配置以对具有从0Hz到4000Hz的带宽的帧执行十阶LPC分析。在另一实例中,LPC分析模块AM10经配置以对表示从3500Hz到7000Hz的高频带频率范围的帧执行六阶LPC分析。修正型DCT模块MM10对LPC残差信号执行MDCT操作以产生一组变换域系数。对应的解码路径可经配置以对经编码帧SE10进行解码且对经解码帧执行相反的MDCT变换,从而获得激励信号以用于到LPC合成滤波器的输入。
图14D展示包含信号分类器SC10的处理路径的方框图。信号分类器SC10接收音频信号的帧SA10且将每一帧分类为至少两个类别中的一者。举例来说,信号分类器SC10可经配置以将帧SA10分类为语音或音乐,使得在帧被分类为音乐的情况下,则使用图14D中所示的路径的其余部分来对其进行编码,且在帧被分类为语音的情况下,则使用不同的处理路径来对其进行编码。此分类可包含信号有效性检测、噪声检测、周期性检测、时域稀疏度检测,和/或频域稀疏度检测。
图15A展示可由信号分类器SC10(例如,对音频帧SA10中的每一者)执行的信号分类的方法MZ100的方框图。方法MC100包含任务TZ100、TZ200、TZ300、TZ400、TZ500和TZ600。任务TZ100量化信号中的有效性水平。如果有效性水平低于阈值,则任务TZ200将信号编码为静默(例如,使用低位速率噪声激励的线性预测(NELP)方案和/或不连续传输(DTX)方案)。如果有效性水平充分高(例如,高于阈值),则任务TZ300量化信号的周期性程度。如果任务TZ300确定信号是非周期性的,则任务TZ400使用NELP方案对信号进行编码。如果任务TZ300确定信号是周期性的,则任务TZ500在时域和/或频域中量化信号的稀疏程度。如果任务TZ500确定信号在时域中是稀疏的,则任务TZ600使用码激励线性预测(CELP)方案(例如,放宽型CELP(RCELP)或代数CELP(ACELP))对信号进行编码。如果任务TZ500确定信号在频域中是稀疏的,则任务TZ700使用谐波模型对信号进行编码(例如,通过将信号传递到图14D中的处理路径的其余部分)。
如图14D中所示,处理路径可包含感知修剪模块PM10,感知修剪模块PM10经配置以通过应用音质准则(例如,时间掩蔽、频率掩蔽和/或听力阈值)来简化MDCT域信号(例如,从而减少待编码的变换域系数的数目)。可实施模块PM10以通过将感知模型应用于原始音频帧SA10来计算此准则的值。在此实例中,编码器E100经布置以对经修剪的帧进行编码以产生对应的经编码帧SE10。
图14E展示图14C和14D的路径两者的实施方案的方框图,其中编码器E100经布置以对LPC残差进行编码。
图15B展示包含设备A100的实施方案的通信装置D10的方框图。装置D10包含芯片或芯片组CS10(例如,移动台调制解调器(MSM)芯片组),芯片或芯片组CS10体现设备A100(或MF100)的元件和可能设备D100(或DF100)的元件。芯片/芯片组CS10可包含一个或一个以上处理器,所述一个或一个以上处理器可经配置以执行设备A100或MF100的软件和/或固件部分(例如,作为指令)。
芯片/芯片组CS10包含:接收器,其经配置以接收射频(RF)通信信号且对编码于RF信号内的音频信号进行解码和再现;以及发射器,其经配置以发射描述经编码音频信号(其是基于由麦克风MV10产生的信号)(例如,包含由设备A100产生的码簿索引)的RF通信信号。此装置可经配置以经由一个或一个以上编码和解码方案(还称为“编解码器”)无线地发射和接收话音通信数据。此类编解码器的实例包含:增强型可变速率编解码器,如2007年2月的标题为“用于宽带展频数字***的增强型可变速率编解码器,语音服务选项3、68和70(Enhanced Variable Rate Codec,Speech Service Options3,68,and70forWideband Spread Spectrum Digital Systems)”的第三代合作伙伴计划2(3GPP2)文献C.S0014-C,vl.0中所描述(可在www-dot-3gpp-dot-org处在线得到);可选择模式声码器语音编解码器,如2004年1月的标题为“用于宽带展频通信***的可选择模式声码器(SMV)服务选项(Selectable Mode Vocoder(SMV)Service Option for Wideband Spread SpectrumCommunication Systems)”的3GPP2文献C.S0030-0,v3.0中所描述(可在www-dot-3gpp-dot-org处在线得到);自适应多速率(AMR)语音编解码器,如文献ETSI TS126 092 V6.0.0(欧洲电信标准协会(ETSI),法国索菲亚安迪波利斯西德克斯,2004年12月)中所描述;以及AMR宽带语音编解码器,如文献ETSI TS126 192 V6.0.0(ETSI,2004年12月)中所描述。举例来说,芯片/芯片组CS10可经配置以产生将与一个或一个以上此类编解码器相容的经编码帧。
装置D10经配置以经由天线C30接收和发射RF通信信号。装置D10还可在到天线C30的路径中包含双工器和一个或一个以上功率放大器。芯片/芯片组CS10还经配置以经由小键盘C10接收用户输入且经由显示器C20显示信息。在此实例中,装置D10还包含一个或一个以上天线C40以支持全球定位***(GPS)位置服务和/或与例如无线(例如,BluetoothTM)手持机的外部装置的短程通信。在另一实例中,此通信装置自身是BluetoothTM手持机且缺少小键盘C10、显示器C20和天线C30。
通信装置D10可体现于包含智能电话以及膝上型计算机和平板计算机的多种通信装置中。图16展示手持机H100(例如,智能电话)的前视图、后视图和侧视图,手持机H100具有布置在前面上的两个话音麦克风MV10-1和MV10-3、布置在后面上的话音麦克风MV10-2、位于前面的顶部隅角中的误差麦克风ME10,以及位于后面上的噪声干扰麦克风MR10。扩音器LS10布置在前面的顶部中心中,接近误差麦克风ME10,且还提供两个其它扩音器LS20L、LS20R(例如,针对扬声器电话应用)。此类手持机的麦克风之间的最大距离通常为约10或12厘米。
在多频带译码器(如图17中所示)中,可能需要在低频带中执行闭环增益GSVQ(例如,在独立模式或谐波模式译码器中,如本文中其它地方所描述),且在高频带中执行在形状之间进行基于增益的动态位分配(例如,根据任务T210的实施方案)的开环增益GSVQ。在此实例中,低频带帧是如由分析滤波器组从音频频率输入帧产生的低频带上的十阶LPC分析操作的残差,且高频带帧是如由分析滤波器组从音频频率输入帧产生的高频带上的六阶LPC分析操作的残差。图18展示低频带译码的对应方法的流程图,其中可根据任务T210的实施方案来执行用于所指示的译码中的一者或一者以上的位分配(即,对UB-MDCT频谱的脉冲译码、对谐波子频带的GSVQ编码,和/或对残差的脉冲译码)。
如上文所论述,多频带译码方案可经配置以使得低频带和高频带中的每一者是使用独立译码模式或相依(或者,谐波)译码模式进行编码。对于其中使用独立译码模式对低频带进行编码的情况(例如,应用于一组固定子频带的GSVQ),可执行如上文所描述的动态分配(例如,根据任务T210的实施方案)以根据对应的增益在低频带与高频带之间分配用于帧的总位分配。在此情况下,可执行如上文所描述的另一动态分配(例如,根据任务T210的实施方案)以在低频带子频带之间分配所得的低频带位分配,且/或可执行如上文所描述的另一动态分配(例如,根据任务T210的实施方案)以在高频带子频带之间分配所得的高频带位分配。
对于其中使用相依(或者,谐波)模式译码对低频带进行编码的情况,可能需要首先将来自用于帧的总位分配(其可为固定的或可在帧之间变化)的位分配给由译码模式选择的子频带。可能需要使用来自用于低频带的LPC频谱的信息来用于此分配。在一个此实例中,使用LPC倾斜频谱(例如,如由第一反映系数指示)来确定具有最高LPC权重的子频带,且将最大数目的位(例如,十位)分配给那个子频带(例如,用于形状量化),其中将对应较低的分配给予具有较低LPC权重的子频带。可随后执行如上文所描述的动态分配(例如,根据任务T210的实施方案)以将帧分配中剩余的位在低频带残差与高频带之间进行分配。在此情况下,可执行如上文所描述的另一动态分配(例如,根据任务T210的实施方案)以在高频带子频带之间分配所得的高频带位分配。
如图18中所示的译码模式选择可扩展到低频带情况。在一个此实例中,低频带和高频带中的每一者是使用独立译码模式和相依译码模式(或者,独立译码模式和谐波译码模式)两者进行编码,使得起初针对帧考虑四个不同模式组合。接下来,针对低频带模式中的每一者,选择最佳的对应高频带模式(例如,根据使用高频带上的感知度量在两个选项之间的比较)。对于两个剩余选项(即,具有对应的最佳高频带模式的低频带独立模式,和具有对应的最佳高频带模式的低频带相依(或谐波)模式),使这些选项之间的选择参考涵盖低频带和高频带两者的感知度量。在此多频带情况的一个实例中,低频带独立模式使用GSVQ来编码一组固定子频带,且高频带独立模式使用脉冲译码方案(例如,阶乘脉冲译码)来编码高频带信号。
图19展示根据一般配置的编码器E200的方框图,编码器E200经配置以接收音频帧以作为MDCT域中的样本(即,作为变换域系数)。编码器E200包含独立模式编码器IM10,独立模式编码器IM10经配置以根据独立译码模式对MDCT域信号的帧SM10进行编码以产生经独立模式编码的帧SI10。独立译码模式根据预定的(即,固定的)子频带划分将变换域系数分组为若干子频带,且使用向量量化(VQ)方案对所述子频带进行编码。用于独立译码模式的译码方案的实例包含脉冲译码(例如,阶乘脉冲译码和组合脉冲译码)。编码器E200还可根据相同原理进行配置以接收音频帧作为另一变换域(例如,快速傅立叶变换(FFT)域)中的样本。
编码器E200还包含谐波模式编码器HM10(或者,相依模式编码器),其经配置以根据谐波模型对MDCT域信号SM10的帧进行编码,以产生经谐波模式编码帧SD10。编码器IM10和HM10两者中的每一者可经实施以包含设备A100的对应例子,使得对应的经编码帧是根据如本文中所描述的动态分配方案而产生。编码器E200还包含译码模式选择器SEL10,译码模式选择器SEL10经配置以使用失真量度在经独立模式编码帧SI10与经谐波模式编码帧SD10之间选择一者作为经编码帧SE10。如图14A到14E中所示的编码器E100可实现为编码器E200的实施方案。编码器E200还可用于在如图17中所示的多频带编解码器中编码MDCT域中的低频带(例如,0kHz到4kHz)LPC残差且/或用于编码MDCT域中的高频带(例如,3.5kHz到7kHz)LPC残差。
一般可在任何收发和/或音频感测应用中,尤其在此类应用的移动或其它便携例子中应用本文中所揭示的方法和设备。举例来说,本文中所揭示的配置的范围包含驻留于经配置以使用码分多址(CDMA)空中接口的无线电话通信***中的通信装置。然而,所属领域的技术人员将理解,具有本文中所描述的特征的方法及设备可驻留于使用所属领域的技术人员所已知的广泛范围的技术的各种通信***中的任一者中,例如经由有线及/或无线(例如,CDMA、TDMA、FDMA及/或TD-SCDMA)发射信道使用IP话音(VoIP)的***。
明确预期且在此揭示,本文中所揭示的通信装置可适于在包交换(例如,经布置以根据例如VoIP等协议载运音频传输的有线和/或无线网络)和/或电路交换的网络中使用。还明确预期且在此揭示,本文中所揭示的通信装置可适于在窄带译码***(例如,对约4千赫兹或5千赫兹的音频频率范围进行编码的***)中使用和/或在宽带译码***(例如,对大于5千赫兹的音频频率进行编码的***)中使用,包含全频带宽带译码***和***频带宽带译码***。
提供所描述的配置的先前呈现以使所属领域的技术人员能够制造或使用本文中所揭示的方法和其它结构。本文中所展示和描述的流程图、方框图和其它结构仅是实例,且这些结构的其它变体也在本发明的范围内。对这些配置的各种修改是可能的,且本文中所呈现的一般原理还可应用于其它配置。因此,本发明不希望限于上文所展示的配置,而是应符合与在本文中(包含在形成原始揭示内容的一部分的所申请的附加权利要求书中)以任何方式揭示的原理及新颖特征一致的最广范围。
所属领域的技术人员将理解,可使用多种不同技术和技艺中的任一者来表示信息和信号。举例来说,可通过电压、电流、电磁波、磁场或磁性粒子、光场或光学粒子或者其任何组合来表示可在整个以上描述中所参考的数据、指令、命令、信息、信号、位及符号。
实施如本文中所揭示的配置的重要设计要求可包含使处理延迟和/或计算复杂性(通常以每秒百万指令或MIPS来测量)最小化,对于计算密集型应用(例如,压缩音频或视听信息(例如,根据压缩格式编码的文件或流,例如本文中所识别的实例中的一者)的回放)或用于宽带通信的应用(例如,在高于8千赫兹(例如,12kHz、16kHz、44.1kHz、48kHz或192kHz)的取样速率下的话音通信)尤其如此。
如本文中所揭示的设备(例如,设备A100和MF100)可实施于对于既定应用视为合适的硬件与软件和/或与固件的任何组合中。举例来说,此类设备的元件可被制造为驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片中的电子及/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如,晶体管或逻辑门)阵列,且这些元件中的任一者可实施为一个或一个以上此类阵列。这些元件中的任何两者或两者以上乃至全部可实施于相同阵列内。所述阵列可实施于一个或一个以上芯片内(例如,包括两个或两个以上芯片的芯片组内)。
本文中所揭示的设备的各种实施方案(例如,设备A100和MF100)的一个或一个以上元件可全部或部分实施为一个或一个以上指令集,所述一个或一个以上指令集经布置以在一个或一个以上固定或可编程逻辑元件阵列上执行,例如,微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)和ASIC(专用集成电路)。本文中所揭示的设备的实施方案的各种元件中的任一者还可体现为一个或一个以上计算机(例如,包含经编程以执行一个或一个以上指令集或序列的一个或一个以上阵列的机器,还称为“处理器”),且这些元件中的任何两者或两者以上乃至全部可实施于同一此类计算机内。
如本文中所揭示的处理器或其它用于处理的装置可被制造成驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片中的一个或一个以上电子及/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如,晶体管或逻辑门)阵列,且这些元件中的任一者可实施为一个或一个以上此类阵列。所述阵列可实施于一个或一个以上芯片内(例如,包括两个或两个以上芯片的芯片组内)。所述阵列的实例包含固定或可编程逻辑元件阵列,例如微处理器、嵌入式处理器、IP核心、DSP、FPGA、ASSP和ASIC。如本文中所揭示的处理器或其它用于处理的装置还可体现为一个或一个以上计算机(例如,包含经编程以执行一个或一个以上指令集或序列的一个或一个以上阵列的机器)或其它处理器。如本文中所描述的处理器可能用来执行任务或执行不与方法M100或MD100的实施程序直接相关的其它指令集,例如与其中嵌入了处理器的装置或***(例如,音频感测装置)的另一操作相关的任务。还可能由音频感测装置的处理器执行如本文中所揭示的方法的部分,且在一个或一个以上其它处理器的控制下执行所述方法的另一部分。
所属领域的技术人员将了解,结合本文中所揭示的配置而描述的各种说明性模块、逻辑块、电路和测试以及其它操作可实施为电子硬件、计算机软件,或两者的组合。可用通用处理器、数字信号处理器(DSP)、ASIC或ASSP、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其经设计以产生如本文中所揭示的配置的任何组合来实施或执行所述模块、逻辑块、电路和操作。举例来说,可将此配置至少部分实施为硬连线电路,实施为制造到专用集成电路中的电路配置,或实施为加载到非易失性存储装置中的固件程序或者作为机器可读代码从数据存储媒体加载或被加载到数据存储媒体中的软件程序,所述代码是可由例如通用处理器或其它数字信号处理单元等逻辑元件阵列执行的指令。通用处理器可为微处理器,但在替代方案中,处理器可为任何常规的处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如,DSP与微处理器的组合、多个微处理器、一个或一个以上微处理器与DSP核心的联合,或任何其它此类配置。软件模块可驻留于非暂时性存储媒体中,例如RAM(随机存取存储器)、ROM(只读存储器)、非易失性RAM(NVRAM)(例如,快闪RAM),可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、寄存器、硬盘、可装卸磁盘,或CD-ROM;或此项技术中已知的任何其它形式的存储媒体。说明性存储媒体耦合到处理器,使得处理器可从存储媒体读取信息及将信息写入到存储媒体。在替代方案中,存储媒体可与处理器成一体式。处理器及存储媒体可驻留于ASIC中。ASIC可驻留于用户终端中。在替代方案中,处理器及存储媒体可作为离散组件驻留于用户终端中。
应注意,本文中所揭示的各种方法(例如,方法M100和参考本文中所描述的各种设备的操作而揭示的其它方法)可由例如处理器等逻辑元件阵列执行,且如本文中所描述的设备的各种元件可实施为经设计以在此阵列上执行的模块。如本文中所使用,术语“模块”或“子模块”可指代以软件、硬件或固件的形式包含计算机指令(例如,逻辑表达式)的任何方法、设备、装置、单元或计算机可读数据存储媒体。应理解,多个模块或***可组合为一个模块或***,且一个模块或***可被分离成多个模块或***以执行相同功能。当以软件或其它计算机可执行指令实施时,过程的要素本质上为用以执行例如与例程、程序、对象、组件、数据结构等有关任务的代码段。术语“软件”应理解为包含源代码、汇编语言代码、机器代码、二进制代码、固件、宏码、微码、可由逻辑元件阵列执行的任何一个或一个以上指令集或序列以及此类实例的任何组合。程序或代码段可存储于处理器可读媒体中或由体现在载波中的计算机数据信号经由传输媒体或通信链路进行传输。
本文中所揭示的方法、方案和技术的实施方案还可有形地体现为(例如,在本文中所列举的一个或一个以上计算机可读存储媒体的有形计算机可读特征中)可由包含逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器执行的一个或一个以上指令集。术语“计算机可读媒体”可包含可存储或传递信息的任何媒体,包含易失性、非易失性、可装卸以及非可装卸存储媒体。计算机可读媒体的实例包含电子电路、半导体存储器装置、ROM、快闪存储器、可擦除ROM(EROM)、软盘或其它磁性存储装置、CD-ROM/DVD或其它光学存储装置、硬盘或可用于存储所需信息的任何其它媒体、光纤媒体、射频(RF)链路,或可用于携载所需信息且可被存取的任何其它媒体。计算机数据信号可包含可经由传输媒体(例如电子网络通道、光纤、空气、电磁、RF链路等)传播的任何信号。代码段可经由例如因特网或内联网等计算机网络来下载。在任何情况下,本发明的范围不应被解释为受此些实施例限制。
本文中所描述的方法的任务中的任一者可直接体现于硬件中,由处理器执行的软件模块中,或以上两者的组合中。在如本文中所揭示的方法的实施方案的典型应用中,逻辑元件(例如,逻辑门)阵列经配置以执行所述方法的各个任务中的一者、一者以上或甚至全部。所述任务中的一者或一者以上(可能全部)还可实施为在计算机程序产品(例如,一个或一个以上数据存储媒体,例如磁盘、快闪或其它非易失性存储器卡、半导体存储器芯片等)中体现的代码(例如,一个或一个以上指令集),所述计算机程序产品可由包含逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器(例如,计算机)读取且/或执行。本文中所揭示的方法的实施方案的任务还可由一个以上此类阵列或机器执行。在这些或其它实施方案中,所述任务可在用于无线通信的装置内执行,所述装置例如为蜂窝式电话或具有此通信能力的其它装置。此装置可经配置以与电路交换及/或包交换网络通信(例如,使用一个或一个以上协议(例如VoIP))。举例来说,此装置可包含经配置以接收和/或发射经编码帧的RF电路。
明确揭示,本文中所揭示的各种方法可由例如手持机、耳机或便携式数字助理(PDA)等便携式通信装置执行,且本文中所描述的各种设备可包含于此类装置内。典型的实时(例如,在线)应用是使用此类移动装置进行的电话会话。
在一个或一个以上示范性实施例中,可以硬件、软件、固件或其任何组合来实施本文中所描述的操作。如果以软件实施,则可将此些操作作为一个或一个以上指令或代码而存储在计算机可读媒体上或经由计算机可读媒体进行传输。术语“计算机可读媒体”包含计算机可读存储媒体和通信(例如,传输)媒体两者。举例来说而非限制,计算机可读存储媒体可包括存储元件阵列,例如半导体存储器(其可包含(非限制)动态或静态RAM、ROM、EEPROM和/或快闪RAM),或铁电、磁阻、双向、聚合或相变存储器;CD-ROM或其它光盘存储装置;和/或磁盘存储装置或其它磁性存储装置。此类存储媒体可以指令或数据结构的形式存储可由计算机存取的信息。通信媒体可包括可用于以指令或数据结构的形式携载所需程序代码且可由计算机存取的任何媒体,包含促进将计算机程序从一处传递到另一处的任何媒体。同样,可恰当地将任何连接称作计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电和/或微波的无线技术从网站、服务器或其它远程源传输软件,则同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电和/或微波的无线技术包含于媒体的定义中。如本文中所使用,磁盘及光盘包括压缩光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘及Blu-ray DiscTM(蓝光光盘协会,加利福尼亚州全球影城(Universal City,CA)),其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。以上各者的组合也应包含在计算机可读媒体的范围内。
如本文中所描述的声信号处理设备可并入到电子装置中,所述电子装置接收语音输入以便控制某些操作,或可另外受益于所需噪声与背景噪声的分离,所述电子装置例如为通信装置。许多应用可受益于增强清晰的所需声音或分离清晰的所需声音与源自多个方向的背景声音。此些应用可包含电子或计算装置中的人机接口,其并入有例如话音辨识及检测、语音增强及分离、话音激活式控制等能力。可能需要在仅提供有限处理能力的装置中合适地实施此类声信号处理设备。
本文中所描述的模块、元件和装置的各种实施方案的元件可被制造成驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片中的电子和/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如,晶体管或门)的阵列。本文中所描述的设备的各种实施方案的一个或一个以上元件还可全部地或部分地实施为经布置以在一个或一个以上固定或可编程逻辑元件阵列(例如,微处理器、嵌入式处理器、DP核心、数字信号处理器、FPGA、ASSP及ASIC)上执行的一个或一个以上指令集。
有可能使如本文中所描述的设备的实施方案的一个或一个以上元件用于执行任务或执行并非与所述设备的操作直接相关的其它指令集,例如与嵌入有所述设备的装置或***的另一操作相关的任务。还有可能使此设备的实施方案的一个或一个以上元件具有共同结构(例如,用于在不同时间执行对应于不同元件的代码部分的处理器、经执行以在不同时间执行对应于不同元件的任务的指令集,或在不同时间对不同元件执行操作的电子及/或光学装置的布置)。
附录A
Figure BDA00002795170800291
Figure BDA00002795170800311
Figure BDA00002795170800321
Figure BDA00002795170800331
附录B
Figure BDA00002795170800351
Figure BDA00002795170800361
Figure BDA00002795170800371
Figure BDA00002795170800381
Figure BDA00002795170800391

Claims (31)

1.一种位分配方法,所述方法包括:
针对多个向量中的每一者,计算多个增益因子中的对应一者;
针对所述多个向量中的每一者,计算基于所述增益因子的对应位分配;
针对所述多个向量中的至少一者,确定所述对应位分配不大于最小分配值;以及
针对所述至少一个向量中的每一者,响应于所述确定而改变所述对应位分配。
2.根据权利要求1所述的位分配方法,其中,针对所述多个向量中的每一者,所述对应位分配是基于所述向量的长度。
3.根据权利要求1和2中任一权利要求所述的位分配方法,其中,针对所述至少一个向量中的每一者,所述最小分配值是基于所述向量的长度。
4.根据权利要求3所述的位分配方法,其中所述方法包含,针对所述至少一个向量中的每一者,根据所述向量的所述长度的单调非减函数来计算所述最小分配值。
5.根据权利要求1到4中任一权利要求所述的位分配方法,其中所述方法包括,针对所述多个向量中的每一者,计算所述向量内的能量分布的量度的值,且
其中,针对所述多个向量中的每一者,所述对应位分配是基于所述计算出的值。
6.根据权利要求1到5中任一权利要求所述的位分配方法,其中所述方法包括,针对所述多个向量中的至少一者:
确定所述对应位分配不对应于有效码簿索引长度,以及
响应于所述确定而减小所述对应分配。
7.根据权利要求1到6中任一权利要求所述的位分配方法,其中,针对所述多个向量中的每一者,所述对应位分配是各自具有n个单位脉冲的模式的码簿的索引长度,且所述方法包括在所述对应位分配与各自具有(n+1)个单位脉冲的模式的码簿的索引长度之间计算位数目。
8.根据权利要求1到7中任一权利要求所述的位分配方法,其中所述方法包括从所述多个向量中的每一者计算对应增益因子和对应形状向量。
9.根据权利要求1到8中任一权利要求所述的位分配方法,其中所述方法包括确定所述多个向量中的每一者的长度,
其中所述确定多个长度是基于第二多个向量的位置,且
其中音频信号的帧包含所述多个向量和所述第二多个向量。
10.根据权利要求1到9中任一权利要求所述的位分配方法,其中所述计算所述多个增益因子包括对对应经量化增益因子进行解量化。
11.一种用于位分配的设备,所述设备包括:
用于针对多个向量中的每一者而计算多个增益因子中的对应一者的装置;
用于针对所述多个向量中的每一者而计算基于所述增益因子的对应位分配的装置;
用于针对所述多个向量中的至少一者而确定所述对应位分配不大于最小分配值的装置;以及
用于针对所述至少一个向量中的每一者响应于所述确定而改变所述对应位分配的装置。
12.根据权利要求11所述的用于位分配的设备,其中,针对所述多个向量中的每一者,所述对应位分配是基于所述向量的长度。
13.根据权利要求11和12中任一权利要求所述的用于位分配的设备,其中,针对所述至少一个向量中的每一者,所述最小分配值是基于所述向量的长度。
14.根据权利要求13所述的用于位分配的设备,其中所述设备包含用于针对所述至少一个向量中的每一者根据所述向量的所述长度的单调非减函数来计算所述最小分配值的装置。
15.根据权利要求11到14中任一权利要求所述的用于位分配的设备,其中所述设备包含用于针对所述多个向量中的每一者而计算所述向量内的能量分布的量度的值的装置,且
其中,针对所述多个向量中的每一者,所述对应位分配是基于所述计算出的值。
16.根据权利要求11到15中任一权利要求所述的用于位分配的设备,其中所述设备包括用于针对所述多个向量中的至少一者而确定所述对应位分配不对应于有效码簿索引长度的装置,以及用于响应于所述确定而减小所述对应分配的装置。
17.根据权利要求11到16中任一权利要求所述的用于位分配的设备,其中,针对所述多个向量中的每一者,所述对应位分配是各自具有n个单位脉冲的模式的码簿的索引长度,且所述设备包括用于在所述对应位分配与各自具有(n+1)个单位脉冲的模式的码簿的索引长度之间计算位数目的装置。
18.根据权利要求11到17中任一权利要求所述的用于位分配的设备,其中所述设备包括用于从所述多个向量中的每一者计算对应增益因子和对应形状向量的装置。
19.根据权利要求11到18中任一权利要求所述的用于位分配的设备,其中所述设备包括用于确定所述多个向量中的每一者的长度的装置,
其中所述确定多个长度是基于第二多个向量的位置,且
其中音频信号的帧包含所述多个向量和所述第二多个向量。
20.根据权利要求11到19中任一权利要求所述的用于位分配的设备,其中所述用于计算所述多个增益因子的装置包括用于对对应经量化增益因子进行解量化的装置。
21.一种用于位分配的设备,所述设备包括:
增益因子计算器,其经配置以针对多个向量中的每一者而计算多个增益因子中的对应一者;
位分配计算器,其经配置以针对所述多个向量中的每一者而计算基于所述增益因子的对应位分配;
比较器,其经配置以针对所述多个向量中的至少一者而确定所述对应位分配不大于最小分配值;以及
分配调整模块,其经配置以针对所述至少一个向量中的每一者,响应于所述确定而改变所述对应位分配。
22.根据权利要求21所述的用于位分配的设备,其中,针对所述多个向量中的每一者,所述对应位分配是基于所述向量的长度。
23.根据权利要求21和22中任一权利要求所述的用于位分配的设备,其中,针对所述至少一个向量中的每一者,所述最小分配值是基于所述向量的长度。
24.根据权利要求23所述的用于位分配的设备,其中所述设备包含计算器,所述计算器经配置以针对所述至少一个向量中的每一者,根据所述向量的所述长度的单调非减函数来计算所述最小分配值。
25.根据权利要求21到24中任一权利要求所述的用于位分配的设备,其中所述设备包括稀疏度因子计算器,所述稀疏度因子计算器经配置以针对所述多个向量中的每一者而计算所述向量内的能量分布的量度的值,且
其中,针对所述多个向量中的每一者,所述对应位分配是基于所述计算出的值。
26.根据权利要求21到25中任一权利要求所述的用于位分配的设备,其中所述设备包括验证模块,所述验证模块经配置以针对所述多个向量中的至少一者而确定所述对应位分配不对应于有效码簿索引长度,以及响应于所述确定而减小所述对应分配。
27.根据权利要求21到26中任一权利要求所述的用于位分配的设备,其中,针对所述多个向量中的每一者,所述对应位分配是各自具有n个单位脉冲的模式的码簿的索引长度,且所述设备包括经配置以在所述对应位分配与各自具有(n+1)个单位脉冲的模式的码簿的索引长度之间计算位数目的模块。
28.根据权利要求21到27中任一权利要求所述的用于位分配的设备,其中所述设备包括正规化器,所述正规化器经配置以从所述多个向量中的每一者计算对应增益因子和对应形状向量。
29.根据权利要求21到28中任一权利要求所述的用于位分配的设备,其中所述设备包括帧划分器,所述帧划分器经配置以确定所述多个向量中的每一者的长度,
其中所述确定多个长度是基于第二多个向量的位置,且
其中音频信号的帧包含所述多个向量和所述第二多个向量。
30.根据权利要求21到29中任一权利要求所述的用于位分配的设备,其中所述增益因子计算器经配置以通过对对应经量化增益因子进行解量化来计算所述多个增益因子。
31.一种具有有形特征的计算机可读存储媒体,所述有形特征致使读取所述特征的机器执行根据权利要求1到10中任一权利要求所述的方法。
CN201180037521.9A 2010-07-30 2011-07-29 用于动态位分配的***、方法、设备 Active CN103052984B (zh)

Applications Claiming Priority (15)

Application Number Priority Date Filing Date Title
US36966210P 2010-07-30 2010-07-30
US61/369,662 2010-07-30
US36970510P 2010-07-31 2010-07-31
US61/369,705 2010-07-31
US36975110P 2010-08-01 2010-08-01
US61/369,751 2010-08-01
US37456510P 2010-08-17 2010-08-17
US61/374,565 2010-08-17
US38423710P 2010-09-17 2010-09-17
US61/384,237 2010-09-17
US201161470438P 2011-03-31 2011-03-31
US61/470,438 2011-03-31
US13/193,529 US9236063B2 (en) 2010-07-30 2011-07-28 Systems, methods, apparatus, and computer-readable media for dynamic bit allocation
US13/193,529 2011-07-28
PCT/US2011/045862 WO2012016126A2 (en) 2010-07-30 2011-07-29 Systems, methods, apparatus, and computer-readable media for dynamic bit allocation

Publications (2)

Publication Number Publication Date
CN103052984A true CN103052984A (zh) 2013-04-17
CN103052984B CN103052984B (zh) 2016-01-20

Family

ID=45527629

Family Applications (4)

Application Number Title Priority Date Filing Date
CN201180037426.9A Active CN103038821B (zh) 2010-07-30 2011-07-29 用于谐波信号的译码的***、方法、设备
CN201180037495.XA Active CN103038822B (zh) 2010-07-30 2011-07-29 用于多级形状向量量化的***、方法、设备和计算机可读媒体
CN2011800371913A Pending CN103038820A (zh) 2010-07-30 2011-07-29 用于音频信号的相依模式译码的***、方法、设备和计算机可读媒体
CN201180037521.9A Active CN103052984B (zh) 2010-07-30 2011-07-29 用于动态位分配的***、方法、设备

Family Applications Before (3)

Application Number Title Priority Date Filing Date
CN201180037426.9A Active CN103038821B (zh) 2010-07-30 2011-07-29 用于谐波信号的译码的***、方法、设备
CN201180037495.XA Active CN103038822B (zh) 2010-07-30 2011-07-29 用于多级形状向量量化的***、方法、设备和计算机可读媒体
CN2011800371913A Pending CN103038820A (zh) 2010-07-30 2011-07-29 用于音频信号的相依模式译码的***、方法、设备和计算机可读媒体

Country Status (10)

Country Link
US (4) US8924222B2 (zh)
EP (5) EP2599081B1 (zh)
JP (4) JP5587501B2 (zh)
KR (4) KR101442997B1 (zh)
CN (4) CN103038821B (zh)
BR (1) BR112013002166B1 (zh)
ES (1) ES2611664T3 (zh)
HU (1) HUE032264T2 (zh)
TW (1) TW201214416A (zh)
WO (4) WO2012016128A2 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105706369A (zh) * 2013-11-12 2016-06-22 瑞典爱立信有限公司 划分的增益形状向量编码
WO2019165642A1 (en) * 2018-03-02 2019-09-06 Intel Corporation Adaptive bitrate coding for spatial audio streaming
TWI696173B (zh) * 2017-02-03 2020-06-11 美商高通公司 多通道寫碼

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE602006018618D1 (de) * 2005-07-22 2011-01-13 France Telecom Verfahren zum umschalten der raten- und bandbreitenskalierbaren audiodecodierungsrate
JP5331249B2 (ja) * 2010-07-05 2013-10-30 日本電信電話株式会社 符号化方法、復号方法、装置、プログラムおよび記録媒体
US8924222B2 (en) 2010-07-30 2014-12-30 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coding of harmonic signals
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
US9008811B2 (en) 2010-09-17 2015-04-14 Xiph.org Foundation Methods and systems for adaptive time-frequency resolution in digital data coding
KR20130111611A (ko) * 2011-01-25 2013-10-10 니뽄 덴신 덴와 가부시키가이샤 부호화 방법, 부호화 장치, 주기성 특징량 결정 방법, 주기성 특징량 결정 장치, 프로그램, 기록 매체
WO2012122303A1 (en) 2011-03-07 2012-09-13 Xiph. Org Method and system for two-step spreading for tonal artifact avoidance in audio coding
US9009036B2 (en) * 2011-03-07 2015-04-14 Xiph.org Foundation Methods and systems for bit allocation and partitioning in gain-shape vector quantization for audio coding
US9015042B2 (en) 2011-03-07 2015-04-21 Xiph.org Foundation Methods and systems for avoiding partial collapse in multi-block audio coding
ES2914499T3 (es) 2011-10-28 2022-06-13 Fraunhofer Ges Forschung Aparato de codificación y procedimiento de codificación
RU2505921C2 (ru) * 2012-02-02 2014-01-27 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ и устройство кодирования и декодирования аудиосигналов (варианты)
KR102123770B1 (ko) * 2012-03-29 2020-06-16 텔레폰악티에볼라겟엘엠에릭슨(펍) 하모닉 오디오 신호의 변환 인코딩/디코딩
DE202013005408U1 (de) * 2012-06-25 2013-10-11 Lg Electronics Inc. Mikrophonbefestigungsanordnung eines mobilen Endgerätes
CN103516440B (zh) 2012-06-29 2015-07-08 华为技术有限公司 语音频信号处理方法和编码装置
EP2685448B1 (en) * 2012-07-12 2018-09-05 Harman Becker Automotive Systems GmbH Engine sound synthesis
CN104620315B (zh) * 2012-07-12 2018-04-13 诺基亚技术有限公司 一种矢量量化的方法及装置
US8885752B2 (en) * 2012-07-27 2014-11-11 Intel Corporation Method and apparatus for feedback in 3D MIMO wireless systems
US9129600B2 (en) * 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
RU2678657C1 (ru) 2012-11-05 2019-01-30 Панасоник Интеллекчуал Проперти Корпорэйшн оф Америка Устройство кодирования речи-аудио, устройство декодирования речи-аудио, способ кодирования речи-аудио и способ декодирования речи-аудио
CN103854653B (zh) * 2012-12-06 2016-12-28 华为技术有限公司 信号解码的方法和设备
JP6535466B2 (ja) * 2012-12-13 2019-06-26 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法
US9577618B2 (en) * 2012-12-20 2017-02-21 Advanced Micro Devices, Inc. Reducing power needed to send signals over wires
EP3176784B1 (en) 2013-01-08 2020-01-01 Dolby International AB Model based prediction in a filterbank
RU2660605C2 (ru) * 2013-01-29 2018-07-06 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Концепция заполнения шумом
EP3010018B1 (en) 2013-06-11 2020-08-12 Fraunhofer Gesellschaft zur Förderung der Angewand Device and method for bandwidth extension for acoustic signals
CN107316647B (zh) * 2013-07-04 2021-02-09 超清编解码有限公司 频域包络的矢量量化方法和装置
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
CN104347082B (zh) * 2013-07-24 2017-10-24 富士通株式会社 弦波帧检测方法和设备以及音频编码方法和设备
US9224402B2 (en) 2013-09-30 2015-12-29 International Business Machines Corporation Wideband speech parameterization for high quality synthesis, transformation and quantization
US8879858B1 (en) * 2013-10-01 2014-11-04 Gopro, Inc. Multi-channel bit packing engine
WO2015049820A1 (ja) * 2013-10-04 2015-04-09 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音響信号符号化装置、音響信号復号装置、端末装置、基地局装置、音響信号符号化方法及び復号方法
BR112016007515B1 (pt) * 2013-10-18 2021-11-16 Telefonaktiebolaget Lm Ericsson (Publ) Método de codificação de segmento de sinal de áudio, codificador de segmento de sinal de áudio, e, terminal de usuário.
US10049683B2 (en) 2013-10-21 2018-08-14 Dolby International Ab Audio encoder and decoder
US20150149157A1 (en) * 2013-11-22 2015-05-28 Qualcomm Incorporated Frequency domain gain shape estimation
EP3117432B1 (en) * 2014-03-14 2019-05-08 Telefonaktiebolaget LM Ericsson (publ) Audio coding method and apparatus
CN104934032B (zh) * 2014-03-17 2019-04-05 华为技术有限公司 根据频域能量对语音信号进行处理的方法和装置
US9542955B2 (en) 2014-03-31 2017-01-10 Qualcomm Incorporated High-band signal coding using multiple sub-bands
BR112017000629B1 (pt) 2014-07-25 2021-02-17 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschug E.V. aparelho de codificação de sinal de áudio e método de codificação de sinal de áudio
US9672838B2 (en) * 2014-08-15 2017-06-06 Google Technology Holdings LLC Method for coding pulse vectors using statistical properties
US9620136B2 (en) 2014-08-15 2017-04-11 Google Technology Holdings LLC Method for coding pulse vectors using statistical properties
US9336788B2 (en) * 2014-08-15 2016-05-10 Google Technology Holdings LLC Method for coding pulse vectors using statistical properties
AU2015336275A1 (en) 2014-10-20 2017-06-01 Audimax, Llc Systems, methods, and devices for intelligent speech recognition and processing
US20160232741A1 (en) * 2015-02-05 2016-08-11 Igt Global Solutions Corporation Lottery Ticket Vending Device, System and Method
WO2016142002A1 (en) * 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
TWI771266B (zh) 2015-03-13 2022-07-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
DE102015104864A1 (de) 2015-03-30 2016-10-06 Thyssenkrupp Ag Lagerelement für einen Stabilisator eines Fahrzeugs
US10580416B2 (en) * 2015-07-06 2020-03-03 Nokia Technologies Oy Bit error detector for an audio signal decoder
EP3171362B1 (en) * 2015-11-19 2019-08-28 Harman Becker Automotive Systems GmbH Bass enhancement and separation of an audio signal into a harmonic and transient signal component
US10825467B2 (en) * 2017-04-21 2020-11-03 Qualcomm Incorporated Non-harmonic speech detection and bandwidth extension in a multi-source environment
US11531695B2 (en) * 2017-08-23 2022-12-20 Google Llc Multiscale quantization for fast similarity search
US11276412B2 (en) * 2017-09-20 2022-03-15 Voiceage Corporation Method and device for efficiently distributing a bit-budget in a CELP codec
CN108153189B (zh) * 2017-12-20 2020-07-10 中国航空工业集团公司洛阳电光设备研究所 一种民机显示控制器的电源控制电路及方法
DK3776547T3 (da) 2018-04-05 2021-09-13 Ericsson Telefon Ab L M Understøtning til generering af komfortstøj
CN110704024B (zh) * 2019-09-28 2022-03-08 中昊芯英(杭州)科技有限公司 一种矩阵处理装置、方法及处理设备
US20210209462A1 (en) * 2020-01-07 2021-07-08 Alibaba Group Holding Limited Method and system for processing a neural network
CN111681639B (zh) * 2020-05-28 2023-05-30 上海墨百意信息科技有限公司 一种多说话人语音合成方法、装置及计算设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4964166A (en) * 1988-05-26 1990-10-16 Pacific Communication Science, Inc. Adaptive transform coder having minimal bit allocation processing
US5479561A (en) * 1992-09-21 1995-12-26 Samsung Electronics Co., Ltd. Bit allocation method in subband coding
CN1239368A (zh) * 1998-06-16 1999-12-22 松下电器产业株式会社 用于音频编码的动态位分配装置和方法
CN101622661A (zh) * 2007-02-02 2010-01-06 法国电信 一种数字语音信号的改进编解码方法

Family Cites Families (111)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3978287A (en) 1974-12-11 1976-08-31 Nasa Real time analysis of voiced sounds
US4516258A (en) 1982-06-30 1985-05-07 At&T Bell Laboratories Bit allocation generator for adaptive transform coder
JPS6333935A (ja) 1986-07-29 1988-02-13 Sharp Corp ゲイン/シエイプ・ベクトル量子化器
US4899384A (en) 1986-08-25 1990-02-06 Ibm Corporation Table controlled dynamic bit allocation in a variable rate sub-band speech coder
JPH01205200A (ja) 1988-02-12 1989-08-17 Nippon Telegr & Teleph Corp <Ntt> 音声符号化方式
US5388181A (en) 1990-05-29 1995-02-07 Anderson; David J. Digital audio compression system
US5630011A (en) 1990-12-05 1997-05-13 Digital Voice Systems, Inc. Quantization of harmonic amplitudes representing speech
US5222146A (en) 1991-10-23 1993-06-22 International Business Machines Corporation Speech recognition apparatus having a speech coder outputting acoustic prototype ranks
EP0551705A3 (en) * 1992-01-15 1993-08-18 Ericsson Ge Mobile Communications Inc. Method for subbandcoding using synthetic filler signals for non transmitted subbands
CA2088082C (en) 1992-02-07 1999-01-19 John Hartung Dynamic bit allocation for three-dimensional subband video coding
IT1257065B (it) 1992-07-31 1996-01-05 Sip Codificatore a basso ritardo per segnali audio, utilizzante tecniche di analisi per sintesi.
US5664057A (en) 1993-07-07 1997-09-02 Picturetel Corporation Fixed bit rate speech encoder/decoder
JP3228389B2 (ja) 1994-04-01 2001-11-12 株式会社東芝 利得形状ベクトル量子化装置
TW271524B (zh) * 1994-08-05 1996-03-01 Qualcomm Inc
US5751905A (en) 1995-03-15 1998-05-12 International Business Machines Corporation Statistical acoustic processing method and apparatus for speech recognition using a toned phoneme system
SE506379C3 (sv) 1995-03-22 1998-01-19 Ericsson Telefon Ab L M Lpc-talkodare med kombinerad excitation
US5692102A (en) 1995-10-26 1997-11-25 Motorola, Inc. Method device and system for an efficient noise injection process for low bitrate audio compression
US5692949A (en) 1995-11-17 1997-12-02 Minnesota Mining And Manufacturing Company Back-up pad for use with abrasive articles
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5781888A (en) 1996-01-16 1998-07-14 Lucent Technologies Inc. Perceptual noise shaping in the time domain via LPC prediction in the frequency domain
JP3240908B2 (ja) 1996-03-05 2001-12-25 日本電信電話株式会社 声質変換方法
JPH09288498A (ja) 1996-04-19 1997-11-04 Matsushita Electric Ind Co Ltd 音声符号化装置
JP3707153B2 (ja) 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
CN102129862B (zh) 1996-11-07 2013-05-29 松下电器产业株式会社 降噪装置及包括降噪装置的声音编码装置
FR2761512A1 (fr) 1997-03-25 1998-10-02 Philips Electronics Nv Dispositif de generation de bruit de confort et codeur de parole incluant un tel dispositif
US6064954A (en) 1997-04-03 2000-05-16 International Business Machines Corp. Digital audio signal coding
CN1231050A (zh) 1997-07-11 1999-10-06 皇家菲利浦电子有限公司 具有改进谐波语音编码器的发射机
DE19730130C2 (de) 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
WO1999010719A1 (en) 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US5999897A (en) 1997-11-14 1999-12-07 Comsat Corporation Method and apparatus for pitch estimation using perception based analysis by synthesis
JPH11224099A (ja) 1998-02-06 1999-08-17 Sony Corp 位相量子化装置及び方法
JP3802219B2 (ja) 1998-02-18 2006-07-26 富士通株式会社 音声符号化装置
US6301556B1 (en) 1998-03-04 2001-10-09 Telefonaktiebolaget L M. Ericsson (Publ) Reducing sparseness in coded speech signals
US6115689A (en) 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
US6094629A (en) 1998-07-13 2000-07-25 Lockheed Martin Corp. Speech coding system and method including spectral quantizer
US7272556B1 (en) 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6766288B1 (en) 1998-10-29 2004-07-20 Paul Reed Smith Guitars Fast find fundamental method
US6363338B1 (en) * 1999-04-12 2002-03-26 Dolby Laboratories Licensing Corporation Quantization in perceptual audio coders with compensation for synthesis filter noise spreading
US6246345B1 (en) * 1999-04-16 2001-06-12 Dolby Laboratories Licensing Corporation Using gain-adaptive quantization and non-uniform symbol lengths for improved audio coding
ES2218148T5 (es) 1999-04-16 2008-02-16 Dolby Laboratories Licensing Corporation Empleo de cuantificacion de ganancia adaptable y longitudes no uniformes de simbolos para codificcion de audio.
JP4242516B2 (ja) 1999-07-26 2009-03-25 パナソニック株式会社 サブバンド符号化方式
US6236960B1 (en) 1999-08-06 2001-05-22 Motorola, Inc. Factorial packing method and apparatus for information coding
US6782360B1 (en) 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6952671B1 (en) 1999-10-04 2005-10-04 Xvd Corporation Vector quantization with a non-structured codebook for audio compression
JP2001242896A (ja) 2000-02-29 2001-09-07 Matsushita Electric Ind Co Ltd 音声符号化/復号装置およびその方法
JP3404350B2 (ja) 2000-03-06 2003-05-06 パナソニック モバイルコミュニケーションズ株式会社 音声符号化パラメータ取得方法、音声復号方法及び装置
CA2359260C (en) 2000-10-20 2004-07-20 Samsung Electronics Co., Ltd. Coding apparatus and method for orientation interpolator node
GB2375028B (en) 2001-04-24 2003-05-28 Motorola Inc Processing speech signals
JP3636094B2 (ja) 2001-05-07 2005-04-06 ソニー株式会社 信号符号化装置及び方法、並びに信号復号装置及び方法
JP2004522198A (ja) 2001-05-08 2004-07-22 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声符号化方法
JP3601473B2 (ja) 2001-05-11 2004-12-15 ヤマハ株式会社 ディジタルオーディオ圧縮回路および伸長回路
KR100347188B1 (en) 2001-08-08 2002-08-03 Amusetec Method and apparatus for judging pitch according to frequency analysis
US7027982B2 (en) 2001-12-14 2006-04-11 Microsoft Corporation Quality and rate control strategy for digital audio
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7310598B1 (en) 2002-04-12 2007-12-18 University Of Central Florida Research Foundation, Inc. Energy based split vector quantizer employing signal representation in multiple transform domains
DE10217297A1 (de) 2002-04-18 2003-11-06 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Codieren eines zeitdiskreten Audiosignals und Vorrichtung und Verfahren zum Decodieren von codierten Audiodaten
JP4296752B2 (ja) 2002-05-07 2009-07-15 ソニー株式会社 符号化方法及び装置、復号方法及び装置、並びにプログラム
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
TWI288915B (en) 2002-06-17 2007-10-21 Dolby Lab Licensing Corp Improved audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
AU2003260958A1 (en) * 2002-09-19 2004-04-08 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus and method
JP4657570B2 (ja) 2002-11-13 2011-03-23 ソニー株式会社 音楽情報符号化装置及び方法、音楽情報復号装置及び方法、並びにプログラム及び記録媒体
FR2849727B1 (fr) 2003-01-08 2005-03-18 France Telecom Procede de codage et de decodage audio a debit variable
JP4191503B2 (ja) 2003-02-13 2008-12-03 日本電信電話株式会社 音声楽音信号符号化方法、復号化方法、符号化装置、復号化装置、符号化プログラム、および復号化プログラム
WO2005020210A2 (en) 2003-08-26 2005-03-03 Sarnoff Corporation Method and apparatus for adaptive variable bit rate audio encoding
US7613607B2 (en) 2003-12-18 2009-11-03 Nokia Corporation Audio enhancement in coded domain
CA2457988A1 (en) 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
WO2006006366A1 (ja) 2004-07-13 2006-01-19 Matsushita Electric Industrial Co., Ltd. ピッチ周波数推定装置およびピッチ周波数推定方法
US20060015329A1 (en) 2004-07-19 2006-01-19 Chu Wai C Apparatus and method for audio coding
WO2006049204A1 (ja) 2004-11-05 2006-05-11 Matsushita Electric Industrial Co., Ltd. 符号化装置、復号化装置、符号化方法及び復号化方法
JP4599558B2 (ja) 2005-04-22 2010-12-15 国立大学法人九州工業大学 ピッチ周期等化装置及びピッチ周期等化方法、並びに音声符号化装置、音声復号装置及び音声符号化方法
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
JP4950210B2 (ja) 2005-11-04 2012-06-13 ノキア コーポレイション オーディオ圧縮
CN101030378A (zh) 2006-03-03 2007-09-05 北京工业大学 一种建立增益码书的方法
KR100770839B1 (ko) * 2006-04-04 2007-10-26 삼성전자주식회사 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보,유성음화 비율 추정 방법 및 장치
US8712766B2 (en) 2006-05-16 2014-04-29 Motorola Mobility Llc Method and system for coding an information signal using closed loop adaptive bit allocation
US7987089B2 (en) 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
US8374857B2 (en) * 2006-08-08 2013-02-12 Stmicroelectronics Asia Pacific Pte, Ltd. Estimating rate controlling parameters in perceptual audio encoders
US20080059201A1 (en) 2006-09-03 2008-03-06 Chih-Hsiang Hsiao Method and Related Device for Improving the Processing of MP3 Decoding and Encoding
JP4396683B2 (ja) 2006-10-02 2010-01-13 カシオ計算機株式会社 音声符号化装置、音声符号化方法、及び、プログラム
US9583117B2 (en) 2006-10-10 2017-02-28 Qualcomm Incorporated Method and apparatus for encoding and decoding audio signals
US20080097757A1 (en) * 2006-10-24 2008-04-24 Nokia Corporation Audio coding
KR100862662B1 (ko) 2006-11-28 2008-10-10 삼성전자주식회사 프레임 오류 은닉 방법 및 장치, 이를 이용한 오디오 신호복호화 방법 및 장치
KR101412255B1 (ko) 2006-12-13 2014-08-14 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 부호화 장치, 복호 장치 및 이들의 방법
EP2101322B1 (en) 2006-12-15 2018-02-21 III Holdings 12, LLC Encoding device, decoding device, and method thereof
KR101299155B1 (ko) * 2006-12-29 2013-08-22 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법
EP1973101B1 (en) 2007-03-23 2010-02-24 Honda Research Institute Europe GmbH Pitch extraction with inhibition of harmonics and sub-harmonics of the fundamental frequency
US9653088B2 (en) 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
US8005023B2 (en) 2007-06-14 2011-08-23 Microsoft Corporation Client-side echo cancellation for multi-party audio conferencing
US7774205B2 (en) 2007-06-15 2010-08-10 Microsoft Corporation Coding of sparse digital media spectral data
US7761290B2 (en) 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US8111176B2 (en) * 2007-06-21 2012-02-07 Koninklijke Philips Electronics N.V. Method for encoding vectors
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
DK2186089T3 (en) 2007-08-27 2019-01-07 Ericsson Telefon Ab L M Method and apparatus for perceptual spectral decoding of an audio signal including filling in spectral holes
WO2009033288A1 (en) 2007-09-11 2009-03-19 Voiceage Corporation Method and device for fast algebraic codebook search in speech and audio coding
WO2009048239A2 (en) * 2007-10-12 2009-04-16 Electronics And Telecommunications Research Institute Encoding and decoding method using variable subband analysis and apparatus thereof
US8527265B2 (en) * 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
US8139777B2 (en) 2007-10-31 2012-03-20 Qnx Software Systems Co. System for comfort noise injection
CN101465122A (zh) 2007-12-20 2009-06-24 株式会社东芝 语音的频谱波峰的检测以及语音识别方法和***
US20090319261A1 (en) 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
ES2642906T3 (es) 2008-07-11 2017-11-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de audio, procedimientos para proporcionar un flujo de audio y programa de ordenador
RU2621965C2 (ru) 2008-07-11 2017-06-08 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Передатчик сигнала активации с деформацией по времени, кодер звукового сигнала, способ преобразования сигнала активации с деформацией по времени, способ кодирования звукового сигнала и компьютерные программы
CN102123779B (zh) 2008-08-26 2013-06-05 华为技术有限公司 用于无线通信的***和方法
WO2010053287A2 (en) 2008-11-04 2010-05-14 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
BR122019023704B1 (pt) 2009-01-16 2020-05-05 Dolby Int Ab sistema para gerar um componente de frequência alta de um sinal de áudio e método para realizar reconstrução de frequência alta de um componente de frequência alta
WO2010092827A1 (ja) * 2009-02-13 2010-08-19 パナソニック株式会社 ベクトル量子化装置、ベクトル逆量子化装置、およびこれらの方法
FR2947945A1 (fr) * 2009-07-07 2011-01-14 France Telecom Allocation de bits dans un codage/decodage d'amelioration d'un codage/decodage hierarchique de signaux audionumeriques
US9117458B2 (en) 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
KR101445294B1 (ko) * 2010-03-10 2014-09-29 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 코딩 컨텍스트의 피치 의존 적응을 이용하는 오디오 신호 디코더, 오디오 신호 인코더, 오디오 신호 디코딩 방법, 오디오 신호 인코딩 방법, 및 컴퓨터 프로그램
US9998081B2 (en) 2010-05-12 2018-06-12 Nokia Technologies Oy Method and apparatus for processing an audio signal based on an estimated loudness
US8924222B2 (en) 2010-07-30 2014-12-30 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coding of harmonic signals
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4964166A (en) * 1988-05-26 1990-10-16 Pacific Communication Science, Inc. Adaptive transform coder having minimal bit allocation processing
US5479561A (en) * 1992-09-21 1995-12-26 Samsung Electronics Co., Ltd. Bit allocation method in subband coding
CN1239368A (zh) * 1998-06-16 1999-12-22 松下电器产业株式会社 用于音频编码的动态位分配装置和方法
CN101622661A (zh) * 2007-02-02 2010-01-06 法国电信 一种数字语音信号的改进编解码方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
J.-P. ADOUL ET AL: "BASEBAND SPEECH CODING AT 2400 BPS USING "SPHERICAL VECTOR QUANTIZATION"", 《INTERNATIONAL CONFERENCE ON ACOUSTICS,SPEECH & SIGNAL PROCESSING》 *
JEAN-MARC VALIN ET AL: "A High-Quality Speech and Audio Codec With Less Than 10 ms Delay", 《IEEE TRANSACTIONS ON AUDIO,SPEECH AND LANGUAGE PROCESSING》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105706369A (zh) * 2013-11-12 2016-06-22 瑞典爱立信有限公司 划分的增益形状向量编码
CN105706369B (zh) * 2013-11-12 2019-11-19 瑞典爱立信有限公司 划分的增益形状向量编码
CN110649925A (zh) * 2013-11-12 2020-01-03 瑞典爱立信有限公司 划分的增益形状向量编码
CN110649925B (zh) * 2013-11-12 2023-04-07 瑞典爱立信有限公司 划分的增益形状向量编码
TWI696173B (zh) * 2017-02-03 2020-06-11 美商高通公司 多通道寫碼
WO2019165642A1 (en) * 2018-03-02 2019-09-06 Intel Corporation Adaptive bitrate coding for spatial audio streaming
US11367452B2 (en) 2018-03-02 2022-06-21 Intel Corporation Adaptive bitrate coding for spatial audio streaming

Also Published As

Publication number Publication date
CN103038820A (zh) 2013-04-10
CN103038821A (zh) 2013-04-10
JP5587501B2 (ja) 2014-09-10
KR20130069756A (ko) 2013-06-26
KR101442997B1 (ko) 2014-09-23
US9236063B2 (en) 2016-01-12
WO2012016122A2 (en) 2012-02-02
JP2013534328A (ja) 2013-09-02
JP5694531B2 (ja) 2015-04-01
JP2013539548A (ja) 2013-10-24
US20120029923A1 (en) 2012-02-02
US20120029926A1 (en) 2012-02-02
EP3021322B1 (en) 2017-10-04
WO2012016128A3 (en) 2012-04-05
JP2013532851A (ja) 2013-08-19
US8924222B2 (en) 2014-12-30
HUE032264T2 (en) 2017-09-28
EP3852104A1 (en) 2021-07-21
KR101445509B1 (ko) 2014-09-26
WO2012016128A2 (en) 2012-02-02
WO2012016126A3 (en) 2012-04-12
WO2012016110A2 (en) 2012-02-02
EP2599082A2 (en) 2013-06-05
US20120029925A1 (en) 2012-02-02
JP5694532B2 (ja) 2015-04-01
BR112013002166B1 (pt) 2021-02-02
EP3021322A1 (en) 2016-05-18
EP2599082B1 (en) 2020-11-25
EP3852104B1 (en) 2023-08-16
EP2599080A2 (en) 2013-06-05
JP2013537647A (ja) 2013-10-03
EP2599081A2 (en) 2013-06-05
BR112013002166A2 (pt) 2016-05-31
CN103038822B (zh) 2015-05-27
KR20130037241A (ko) 2013-04-15
TW201214416A (en) 2012-04-01
ES2611664T3 (es) 2017-05-09
WO2012016122A3 (en) 2012-04-12
KR101445510B1 (ko) 2014-09-26
WO2012016126A2 (en) 2012-02-02
CN103038821B (zh) 2014-12-24
EP2599080B1 (en) 2016-10-19
CN103052984B (zh) 2016-01-20
WO2012016110A3 (en) 2012-04-05
EP2599081B1 (en) 2020-12-23
US8831933B2 (en) 2014-09-09
KR20130036364A (ko) 2013-04-11
US20120029924A1 (en) 2012-02-02
KR20130036361A (ko) 2013-04-11
CN103038822A (zh) 2013-04-10

Similar Documents

Publication Publication Date Title
CN103052984B (zh) 用于动态位分配的***、方法、设备
CN103069482B (zh) 用于噪声注入的***、方法和设备
CN104937662B (zh) 用于线性预测译码中的自适应共振峰锐化的***、方法、设备和计算机可读媒体

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant