CN1890714B - 一种优化的复合编码方法 - Google Patents

一种优化的复合编码方法 Download PDF

Info

Publication number
CN1890714B
CN1890714B CN2004800365842A CN200480036584A CN1890714B CN 1890714 B CN1890714 B CN 1890714B CN 2004800365842 A CN2004800365842 A CN 2004800365842A CN 200480036584 A CN200480036584 A CN 200480036584A CN 1890714 B CN1890714 B CN 1890714B
Authority
CN
China
Prior art keywords
encoder
encoders
functional unit
bit rate
functional units
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2004800365842A
Other languages
English (en)
Other versions
CN1890714A (zh
Inventor
达维德·维雷特
克洛德·朗布兰
阿卜杜勒-拉蒂夫·本·杰隆·图伊米
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of CN1890714A publication Critical patent/CN1890714A/zh
Application granted granted Critical
Publication of CN1890714B publication Critical patent/CN1890714B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Amplifiers (AREA)
  • Separation By Low-Temperature Treatments (AREA)

Abstract

本发明涉及数字信号,例如多媒体信号(音频或视频)的压缩编码器,特别是,涉及一个用于复合编码的方法,其中若干个编码器并行地接收一个输入信号,每个编码器由一系列功能块组成。根据本发明,a)组成每个编码器的功能块(BF10,BFnN)是相同的,每个功能块执行一个或若干个功能;b)对不同编码器通用的功能详细说明,c)最后,在至少一个同样的计算模块(BF1CC,BFnCC)中,对于至少所有编码器的一部分,所述通用功能被执行。

Description

一种优化的复合编码方法 
技术领域
本发明涉及在传输或存储多媒体信号,例如音频(语音和/或声音)信号或视频信号的应用中对数字信号的编码和解码。 
背景技术
为了保证灵活性和连续性,现代的、改良的多媒体通讯服务必须可以在一个多变的环境下予以运行。多媒体通讯部门(sector)的活力以及网络、接入点和终端的不同特征,产生了过多的压缩格式。 
本发明与一个数字信号或部分数字信号使用多于一种编码技术进行编码时所使用的“复合编码(multiple coding)”技术的优化有关。复合编码可以是同时(在一个单传输中完成)或非同时的。该过程可以用于同一个信号或者源于同一个信号的不同版本的信号(例如具有不同带宽)。于是,“复合编码”与“编码转换(transcoding)”区分开来,在“编码转换”中每个编码器都将源于之前一个编码器压缩的信号的解码再压缩成一个版本。 
复合编码的一个例子是对同样内容以多于一种格式进行编码,然后将其传送给不支持同样编码格式的一个终端。在实时广播的情况下,该过程必须同步完成。在访问一个数据库的情况下,编码可以一个接一个地完成,并且“离线”。在这些例子中,复合编码被用来对具有不同格式的同样内容进行编码,其使用多个编码器(或者可以是多个比特率(bit rate),或者同一个编码器的多个模式),每个编码器独立于其他编码器运行。 
复合编码的另一个用途发生在编码结构中,在该结构中多个编码器竞争对一个信号段(segment)进行编码,最终只有一个编码器被选择来对该信号段编码。该编码器可以在处理该段后,或者甚至更晚些(延迟决定)被选择。该类型的结构在下面被称为“复合模式编码(multimode coding)”结构(指对一个编码“模式”的选择)。在这些复合模式编码结构中,共享一个“共用过去(common past)”的多个编码器对同样的信号部分进行编码。 所使用的该编码技术可以不同或源自一个单一编码结构。除了在“无记忆(memoryless)”技术的情况下,他们并不是完全独立的。在使用递归处理的该(常规)编码技术的情况下,对一个给定信号段的处理取决于该信号在过去如何被编码。这样,当一个编码器不得不考虑来自于另一个编码器的输出的存储器时,则存在一些编码器互相依赖的情况。 
“复合编码”的概念以及使用该技术的场合已经在上述的不同情况予以介绍。但是,实施的复杂性可以被证明是不可克服的。 
例如,在内容服务商采用不同客户的接入点、网络以及终端来传播具有不同格式的同样内容的情况下,该操作变得特别地复杂,因为所需要格式的数量增加了。在实时广播的情况下,由于不同的格式被并行地编码,***资源对其快速地做出了限制。 
上述提及的第二个用途与复合模式编码应用有关,其从用于被分析的每个信号部分的一系列编码器中选择一个编码器。该选择需要一个标准的定义,许多通常的标准着眼于对比特率/失真比的优化。信号基于连续时间段被分析,在每个段中要计算许多编码。然后,给定质量的具有低比特率的编码,或者给定比特率具有最好质量的编码被选择。需要注意的是,在比特率和失真之外的限制可以被使用。 
在这样的结构中,所述编码经常被通过基于相关段对该信号进行分析选择一个优先(priori)(根据该信号的特征选择)。但是,为了这个选择的目的产生该信号的一个加强(robust)的分类(robust classification)的困难导致提出一个想法,即在对所有模式编码后作出的后选择最优模式,尽管这带来高复杂性。 
结合上述两种途径的中间方式已经被提出来,其从减少计算成本的角度着眼。但是,这样的策略比所述最优的方法要差,而且与探测所有模式的方法相比难以执行。例如,探测所有模式或模式的主要部分构成一个复合编码应用,其主要是高度复杂而且不容易与实时编码优先(priori)兼容。 
目前,多数复合编码和编码转换操作没有考虑在格式彼此之间,以及在格式和其内容彼此之间的交互影响。很少的复合模式编码技术已经提出,但是所使用模式的决定通常完成一优先(priori)操作,例如,不论对 信号(通过分类,如在SMV编码器(可选择模式语音编码机(vocoder))中),或者作为网络环境的一个函数(例如,在适应复合比率(AMR)编码器中)。 
在下述文档中描述了不同的选择模式,特别是由源控制的决定以及由网络控制的决定。 
“An overview of variable rate speech coding for cellularnetworks”Gersho,A.、Paksoy,E.著,《无线通讯》,1992。会议学报,1992IEEE关于选择主题的国际会议,1992年6月25日、26日,页码:172~175。 
“A variable rate speech coding algorithm for cellular networks”,Paksoy、E.Gersho,A.著,《电讯语音编码》,1992。学报,IEEE Workshop,1993,页码:109~110。 
“Variable rate speech coding for multiple access wireless networks”,Paksoy、E.Gersho,A.著,学报,第7次地中海电子技术会议,1994年4月12~14日,页码:第1卷47~50。 
在由源(source)控制决定的例子中,所述优先(priori)决定在所述输入信号的分类的基础上做出。有很多对输入信号分类的方法。 
在由网络控制决定的例子中,提供一个复合模式编码器是很简单的,该编码器的比特率被一个外部模块所选择,而不是被源(source)所选择。最简单的方法是生成一个编码器家族,其中每个编码器都有确定的但又不同的比特率,并且在这些比特率中转换而获得一个所需要的当前模式。 
在组合许多用于待使用模式的优先(priori)选择的标准的基础上,相关工作也被完成,尤其是下述文档: 
“Variable-rate for the basic speech service in UMTS”,Berruto.E.、Sereno,D.著;媒介技术会议,1993 IEEE第43次,1993年5月18~20日,页码:520~530;以及 
“A VR-CELP codec implementation for CDMA mobilecommunications”,Cellario,L、Sereno,D.、Giani,M.、Blocher,P.、Hellwing,K等著,《声学、语音和信号处理》,1994,ICASSP-94,1994IEEE国际会议,卷1,1994年4月19~22日,页码:卷1,I/281-I284。 
所有使用优先的(priori)编码模式选择的复合模式编码算法都有同样的问题,尤其是与优先的(priori)分类的强健性有关的问题。 
由于这个原因,已经提出使用后(posteriori)决定用于编码模式。例如,在下述文档中: 
“Finite state CELP for variable rate speech coding”,Vaseghi,S.V.著,《声学、语音和信号处理》,1990,ICASSP-90,1990 IEEE国际会议,1990年4月3~6日,页码:卷1,37~40, 
编码器可以通过优化一个客观质量评测(objective qualitymeasurement)在不同的模式间切换,该评测具有作出后(posteriori)选择作为输入信号的特征、目标SQNR、编码器的当前状态的函数的结果。这种编码方案提高了质量。但是,不同编码被并行地执行,且这种***的结果复杂度非常高。 
其它技术提出了将一个优先(priori)决定与闭环改进相结合。在文档: 
“Multimode variable bit rate speech coding:an efficient paradigm forhig-quality low-rate representation of speech signal”,DAS,A.、Dejaco,A.、Manjunath,S.、Aanthapadmanabhan,A.、Huang,J、Choy,E.著,《声学、语音和信号处理》,1999,ICASSP’99,学报,1999 IEEE国际会议,卷4:1999年4月15~19日,页码:卷4,2307~2310, 
所提出的***完成一个所述模式的第一选择(开环选择)作为所述信号的特征的函数。这个决定可以通过分类来完成。然后,如果所选择模式的执行不令人满意,则在一个错误评测的基础上,一个更高的比特率模式被应用且所述操作被重复(闭环决定)。 
类似的技术在下述文档中被描述: 
*“Variable rate speech coding for UMTS”,Cellario,L.、Sereno,D.著,《电讯语音编码》,1993,学报,IEEE Workshop,1993,页码:1~2。 
“Phonetically-based vector excitation coding of speech at 3.6kbps”,Wang,S.、Gersho,A.著,《声学、语音和信号处理》,1989,ICASSP-89,1989IEEE国际会议,1989年5月23~26日,页码:卷1,49~52。 
*“A modified CS-ACELP algorithm for variable-rate speech codingrobust in noisy environments”,Beritelli,F.著,IEEE信号处理信函,卷6,出版日期:1999年2月2日,页码:31~34。
一个开环第一选择在对所述输入信号分类(语音或声音/非声音分类(phonetic or voiced/non-voiced classsifcation))后完成,在其后一个闭环决定被做出: 
或者在整个编码器上,在该情况下整个语音段被重新编码; 
或者在部分所述编码器上,如同在前面所述由“*”标识的,在该情况下所使用的字典被通过一个闭环处理所选择。 
所有如上所述的工作寻找解决优化模式选择的复杂度问题的方法,通过使用或部分使用一个优先(priori)选择或预选择来避免复合编码或降低并行所使用的编码器的数量。 
但是,没有在先技术曾提出过降低编码器复杂度。 
发明内容
本发明在这样的情况下寻找提高的方法。 
为了这个目的,本发明提出一个复合压缩编码方法,其中,一个输入信号并行地输入若干编码器内,每个编码器包括一系列功能单元,目的在于由每一个编码器对所述信号进行压缩编码。 
本发明的方法包括下述预备步骤: 
a)标识(identifying)组成每个编码器的功能单元,和由各单元实现的一个或多个功能; 
b)标识(marking)从一个编码器至另一个编码器通用的功能; 
c)对所有在一个通用计算模块内的至少部分编码器,执行一次所述通用功能。 
在本发明的一个实施例中,上述步骤由一个软件产品执行,该产品包括完成这些步骤的程序指令。在这个方面,本发明也涉及一个上述类型的软件产品,其适合存储于一个处理单元,尤其是一个计算机或一个移动终端的存储器内,或者一个与该处理单元的阅读器相配合的可移除存储介质内。 
本发明也涉及一个用于实现本发明的方法的压缩编码辅助(aid)***,该***包括一个存储器,适合存储上述类型的软件产品的指令的。 
附图说明
本发明的其他特征和优点在阅读下面的详细描述以及附图后即更加清楚,其中: 
图1a是本发明的应用环境的图,显示了并行布置的许多编码器; 
图1b是本发明的一个应用的图,具有在并行布置的许多编码器之间共享的功能单元; 
图1c是本发明的一个应用的图,具有在复合模式编码之间共享的功能单元; 
图1d是本发明的一个应用于复合模式网格(trellis)编码的图; 
图2是一个感知(perceptual)频率编码器的主要功能单元的图; 
图3是一个综合分析编码器的主要功能单元的图; 
图4a是一个TDAC编码器的主要功能单元的图; 
图4b是由图4a所示的编码器编码的位流的格式的一个图; 
图5是本发明的并行应用于若干TDAC编码器的优选实施例的图; 
图6a是一个MPEG-1(第一层和第二层)编码器的主要功能单元的图; 
图6b是一个由图6a所示编码器编码的位流的格式的图; 
图7是本发明应用于并行设置的若干MPEG-1(第一层和第二层)编码器的优选实施例的图;并且 
图8更详细地描述了一个符合3GPP标准的NB-AMR综合分析编码器的功能单元。 
具体实施方式
首先参考图1a,其中用C0、C1......CN表示并行的若干编码器,每个都接受一个输入信号S0。每个编码器包括功能单元BF1至BFn,用来实现连续编码步骤以及最终传送一个编码比特流BS0、BS1......BSN。在一个复合模式编码应用中,编码器C0至CN的输出连接到一个优化模式选择模块MM,且来自于所述优化编码器中的比特流BS被转送(图1a中的虚线箭头)。 
为了简单起见,所有在图1a所示例子中的编码器都有同样数量的功 能单元,但是必须理解的是,在实践中并不是所有这些功能单元都必须出现在所有的编码器中。 
有时,从一个模式(或编码器)至另一个模式的某些功能单元BFi是一样的。其它的仅仅在被量化的层(layers)的级别上有差别。当使用来自使用类似的模型或与信号物理相关(linked)的计算参数的同样的编码家族的编码器时,可用的关系也是存在的。 
本发明的目的是利用这些关系来降低复合编码操作的复杂度。 
本发明首先提出标识组成每个编码器的功能单元。然后,通过考虑功能相等或类似的功能单元来利用编码器之间的技术相似性。对于这些单元中的每一个,本发明提出: 
定义“通用(common)”操作,并仅对所有编码器完成一次;并且 
使用对每个编码器特定的计算方法,并且特别地使用上述的通用计算的结果。这些计算方法产生了一个可能不同于由完整编码(completecoding)所产生的结果。然后,实际上的目标是通过利用特别是由通用计算所提供的可用信息来加快处理。例如,类似于这些的加快计算的方法被很多技术所使用来降低编码转换操作的复杂度(大家所知道的“智能的编码转换(intelligent transcoding)”技术)。 
图1b描述了所提出的解决方案。在当前的例子中,如上所述“通用”操作仅对至少部分编码器执行一次,而且优选地对一个独立模块MI内所有编码器执行一次,该MI向至少部分编码器或优选地向所有编码器重新分布(redistribute)获得的结果。于是存在一个在C0至CN的至少部分编码器之间分享所获得结果的问题(这在下面称为“共有(mutualization)”)。上述类型的独立模块MI可以形成如上所述的复合压缩编码辅助***的一部分。 
在一个变化中,与使用一个外部计算模块MI不同,所存在的同一个编码器或许多分开的编码器的一个或者多个功能单元BF1至BFn被使用,所述一个或多个编码器根据后面所解释的标准被选择。 
本发明可以使用许多策略,这些策略可以根据相关功能单元的作用(role)来自然地区分。 
第一个策略使用具有最低的比特率的编码器的参数来聚焦(focus)对 所有其它模式搜索的参数。 
第二个策略使用具有最高比特率的编码器的参数,并且然后逐渐地“降级”为具有最低比特率的编码器。 
当然,如果对一个特定的编码器进行优先选择,可以使用该编码器来对一个信号段进行编码并且然后可以通过应用上述两种策略来达到具有更高或更低比特率的编码器。 
当然,除比特率之外的其它标准可以用来控制搜索。例如,对某些功能单元,可以优先选择这样的编码器,其参数导致其对有效提取(或分析)和/或对其它编码器的类似参数的编码最好,效力根据复杂度或质量或其两者之间的折中来判断。 
一个不在所述编码器内但能使与所有编码器相关的功能单元的参数的编码有效的独立编码模块也可以被创建。 
不同的实现策略尤其在复合编码的情况下特别有益。如图1c所示的情况下,本发明降低了在最后一个步骤内完成的编码器的在前的后(posteriori)选择的计算复杂度,例如通过在转发比特流BS之前的最后的模块MM。 
在这个复合模式编码的特别例子中,图1c所示的本发明的一个变化在每个编码步骤之后(并且在功能单元BFi1至BFiN1之后,该等功能单元与每个其它单元相竞争且其对于所选择的块BFicc的结果将在后面使用)引入了一个部分选择模块MSPi(其中i=1,2,......,N)。于是,不同模式的类似处被用来加快对每个功能单元的计算。在这样的情况下,不是所有的编码方案都有必要被计算。 
一个基于上述的将其划分为功能单元的复合模式结构的更复杂的变化将通过图1d来描述。图1d的复合模式结构是一个“网格(trellis)”结构,通过所述网格(trellis)提供若干可能的路径。事实上,图1描述了所有通过所述网格(trellis)的可能的路径,于是构成了一个树形。网格(trellis)的每个路径都被所述功能单元的操作模式的组合所定义,每个功能单元为下一个功能单元提供若干可能的变化。 
于是,每个编码模式来自于所述功能单元的操作模式的组合中:功能单元1有N1个操作模式,功能单元2有N2个操作模式,以此类推直到单 元P。于是,可能的组合NN=N1×N2×...×ND由一个网格(trellis)表示,其具有NN分支,端对端(end-to-end)地,定义了一个完整的具有NN个模式的复合模式编码器。在定义具有减少的数量的分支之前,所述网格(trellis)的某些分支可以消除。这种结构的第一个特别的特征是,对于一个给定的功能单元,其对于在先功能单元的每个输出提供了一个通用(common)计算模块。这些通用计算模块针对不同的信号执行同样的操作,因为其来源于之前的不同的单元。所述的同一级别的通用计算模块被共有(mutualized):可以被后续模块使用的来自于一个给定模块的结果被提供给那些后续模块。第二,在每个功能模块的处理之后的部分选择能够使提供与所选择标准背离的最低性能的分支消除。于是,将被计算的网格(trellis)分支的数量可以被减少。 
这个复合模式网格(trellis)结构的一个进一步应用如下所述。 
如果功能单元有必要使用特定于所述比特率的参数工作于各自不同的比特率,对于一个给定功能单元,所选择的网格(trellis)的路径是根据编码的环境(context)通过具有最低比特率的功能单元,或者通过具有最高比特率的功能单元,而且从具有最低(或最高)比特率的功能单元得到的结果适合于至少部分所述其它功能单元的所述比特率,通过一个聚焦参数搜索至少部分所述其他功能单元,直到达到具有最高(相应地,最低)比特率的功能单元。 
可选地,一个给定比特率的功能单元被选择,而且通过聚焦搜索使特定于该功能单元的至少部分所述参数逐步匹配: 
直到所述功能单元能够在最低比特率运行;并且 
直到所述功能单元能够在最高比特率运行。 
通常,这降低了与复合编码有关的复杂度。 
本发明应用于任何使用多媒体内容的复合编码的压缩方案。如下描述在音频(语音和声音)压缩领域的3个实施例。前两个实施例涉及转换编码器家族,与其相关的参考文献如下: 
“Perceptual Coding of Digital Audio”,Painter,T.、Spanias,A.著,IEEE学报,88卷,第4号,2000年4月。 
第3个实施例涉及CELP编码器,与其相关的参考文献如下: 
“Code Excited Linear Prediction(CELP):High quality speech at verylow bit rates”,Schroeder M.R.、Atal B.S.著,《声学、语音和信号处理》,1985,学报。1985 IEEE国际会议,页码:937~940。 
首先简要给出这两个编码器家族的主要特征。 
编码转换(transform)或子波段(sub-band)编码器 
这些编码器基于心理-声学(psycho-acoustic)标准并且转换时间域内的信号块来获得一系列系数。这些转换是时间-频率类型的,其中最被广泛使用的转换之一是改进的离散余弦转换(MDCT)。在系数被量化之前,一个算法向比特(bits)赋值(assign)以使噪音被量化至尽可能听不见。比特赋值以及系数量化采用一个从心理学-声学(phycho-acoustic)模型中获得的掩蔽曲线(masking curve),其用来对被考虑的频谱(spectrum)的每条线(line)计算一个表示对可以听到的频率的声音是必要的振幅的掩蔽阈值(masking threshold)。图2是一个频率域编码器的方块图。需要注意的是,其以功能单元的形式的结构已经清楚地显示。参考图2,主要功能单元是: 
一个单元21,对所述输入数字声音信号S0完成时间/频率转换; 
一个单元22,从所述转换的信号确定感知(perceptual)模型; 
一个量化和编码单元23,运行于概念(conceptual)模型;并且 
一个单元24,用于格式化所述位流来获得一个编码的音频流stc。 
综合分析编码器(CELP编码) 
在综合分析类型的编码器中,编码器使用重建(reconstructed)的信号的综合模型来提取对要编码的信号进行建模的参数。这些信号可以在一个8khz(300-3400赫兹电话波段)频率或者在更高的频率被取样,例如在一个用于宽带编码的16khz(带宽从50hz到7khz)。根据应用以及所需要的质量,压缩率在1到16之间变化。这些编码器在电话波段中工作于从2千比特每秒(kbps)到16千比特每秒(kbps)的比特率,在宽带中工作于6千比特每秒(kbps)到32千比特每秒(kbps)的比特率。图3描述了一个CELP数字编码器的主要功能单元,该编码器是目前最为广泛使用的综 合分析编码器。所述语音信号s0被取样并被转换为一系列包含L个样本的帧。每个帧通过过滤一个波形而综合,该波形是从一个借助两个滤波器实时变化的结果而增加的路径(也称为字典)中提取出来的。该激励(excitation)字典是L个样本的波形的一个有限集合。所述第一个滤波器是一个长期预测(long-term prediction,LTP)滤波器。一个LTP分析评价该LTP的参数,其利用有声声音(voiced sound)的周期特征,谐波组件被以一个适应的字典(adaptive dictionary)(单元32)的形式被建模。所述第二个滤波器时短期预测滤波器。线性预测编码(Linear predictioncoding,LPC)分析方法被用来获取代表语音通道(vocal tract)的传输函数和信号频谱的包封特征的短期预测(short-term prediction)参数。用来决定改良(innovation)序列的方法是综合分析方法,其可以概括如下:在编码器中,来自于确定的激励字典(fixed excitation dictionary)中的大量的改良序列被LPC滤波器(图3中的功能单元34的综合滤波器)所过滤。适合的激励(adaptive excitation)已经预先以类似的方式所获得。所选择的波形是在基于一个通常被称为CELP标准(36)的感知加权标准判断时产生最接近于原始信号的综合信号(在功能单元35的级别最小化错误)。 
在图3的CELP编码器的方块图中,有声声音(voiced sound)的基础(fundamental)频率(音调(pitch))被从功能单元31内的LPC分析所产生的信号中提取,且然后使称为谐波(harmonic)或匹配的激励(adaptiveexcitation)(E.A.)组件的长期关联(long-term correlation)在功能单元32中被提取。最后,剩余信号被通过一些脉冲以传统方式建模,这些脉冲的所有位置都在该功能单元33的一个称为确定的激励(E.F.)路径的路径中被预先定义。 
解码比编码简单很多。解码器可以在分离后从编码器产生的位流中获得每个参数的量化索引。然后,该信号可以通过对参数进行解码和应用综合模型而被重建。 
下面描述上述的3个实施例,从图2所示类型的转换编码器开始。 
第一实施例:一个“TDAC”编码器应用 
第一个实施例与一个“TDAC”感知频率域编码器有关,特别是在公开 文献US-2001/027393中描述的那样。一个TDAC编码器被用来对取样于16khz的数字音频信号编码。图4a显示该编码器的主要功能单元。一个波宽(band-limited)限制为7khz并取样为16khz的音频信号x(n)被划分为320个样本(20毫秒)的帧。一个被修正离散余弦转换(MDCT)被应用于由640个样本组成的输入信号的帧中,这些样本具有50%的重叠以及每20毫秒刷新的MDCT分析(功能单元41)。通过将后31个***设定为0(只有前289个系数是非零的),该频谱被限定于7225赫兹。从该频谱(功能单元42)确定一个掩蔽曲线(masking curve),以及所有掩蔽系数被设置为0。所述频谱被划分为32个带宽不相等的波段。任何掩蔽波段被确定作为信号的转换系数的函数。针对该频谱的每个波段,MDCT系数的能量(energy)被计算以获得缩放比例因数(scaling factor)。32个缩放比例因数组成了信号的频谱包络(spectrum envelope),然后其被量化、被熵(entropic)的编码所编码(在功能单元43内)并最终以被编码的帧sc传输。 
动态比特赋值(在功能单元44内)是基于对每个从所述频谱包络(功能单元42)的解码和解量化版本中所计算的波段的一个掩蔽曲线。这使得由编码器和解码器的比特赋值可以相互匹配。然后,在每个波段中的标准MDCT系数通过使用一个由第二类型的置换码的结合组成的大小交替存取字典(size-interleaved dictionary),被矢量量化器(vector quantizers)量化(在功能单元45内)。最终,参考图4b,音调(在此于一个比特B1 上编码)和声音(在此于一个比特B0上编码)的信息、频谱包络eq(i)和编码的系数yq(i)是复合的(在功能单元46内,参考图4a)并在帧中被传输。 
该编码器可以运行于几个比特率上,并且其被提出以产生一个复合比特率编码器,例如一个提供16、24和32kbps比特率的编码器。在这个编码方案中,下述功能单元可以在不同的模式中被共享: 
MDCT(功能单元41); 
发声探测(voicing detection)(功能单元47,图4a)以及音调(tonality)探测(功能单元48,图4a); 
频谱包络的计算、量化以及熵(entropic)编码(功能单元43);以 及 
通过系数计算一个掩蔽曲线系数以及计算每个波段的掩蔽曲线(功能单元42)。 
这些单元占由该编码过程执行的处理的复杂性的61.5%。于是,当生成若干符合不同比特率的比特流时,他们的因数分解(factorization)成为在降低复杂性方面的主要因素。 
上述功能单元的结果已经生成了一第一部分,对于所有包括载有发声(voicing)、音调(tonality)以及被编码的频谱包络信息的比特的输出比特流。 
在该实施例的第一个变化中,可以对每个与所考虑的比特率相应的输出比特流执行比特赋值以及量化操作。这两个操作被准确地在一TDAC编码器内以相同的方式执行。 
在第二个、更先进的变化中,如图5所示,“智能”编码转换技术可以被用来(如公开文献US-2001/027393)进一步降低复杂性以及共有(mutualize)特定操作,特别地: 
比特赋值(功能单元44),以及 
系数量化(功能单元45_i,参见下面)。 
在图5中,在编码器之间共享的功能单元41、42、47、48、43以及44(“共有的”)用与图4所示的一个单一TDAC编码器中的这些单元相同的标记。特别地,比特赋值功能单元44被用于复合传送,以及对于每个编码器完成的转换量化(transquantization),被赋值的比特的数量被调整(功能单元45_1、......、45_(k-2)、45_(k-1),参见下面)。进一步请注意,对于一个索引0的被选择的编码器(在此例子中编码器具有最低比特率),这些转换量化(transquantization)使用通过量化功能单元45_0所获得的结果。最终,只有非实时交互操作的编码器的功能单元是复合功能单元46_0、46_1、......、46_(k-2)、46_(k-1),尽管他们都使用同样的声音和音调信息以及同样的编码频谱包络。在这方面,足以说,复合的部分共有(mutulization)可以被再次完成。 
对于比特赋值以及量化功能单元,所使用的策略包括,为比特流(0)在最低比特率D0,利用比特赋值的结果以及所获得的量化功能单元,来加 速对于K-1个其他比特流(k)(1≤k<K)相应的两个功能单元的操作。一个对每个比特流(对那个单元没有因数分解(factorization))使用一个比特赋值功能单元,但共有部分连续量化操作的复合比特率编码方案也可以被考虑。 
上述的复合编码技术是基于智能的编码转换来降低被编码的音频流的比特率,通常在一个网络节点中。 
比特流k(0≤k<K)在下面的递增的比特率顺序(D0<D1<...Dk-1)中被分类。于是,比特流0对应于最低比特率。 
比特赋值 
在TDAC编码器中,比特赋值在两个阶段完成。首先,赋给每个波段的比特的数量被计算,优选地使用下述等式: 
b opl ( i ) = 1 2 log 2 [ e q 2 ( i ) S b ( j ) ] + C , 0 ≤ i ≤ M - 1
其中, C = B M - 1 2 M Σ l = 0 M - 1 log 2 [ e q 2 ( l ) / S b ( l ) ] 是一个恒量。 
B是可用比特的总数。 
M是波段的数量。 
eq(i)是在波段i上的频谱包络解码和解量化值,以及 
Sb(i)是那个波段的掩蔽阈值(threshold)。 
每个获得的值均四舍五入为最接近的自然数。如果所赋值的总比特率与那个可利用的自然数不是严格相等,则第二阶段完成一个校正,优选地通过一系列基于一种感知标准的重复(iterative)操作,该操作从波段中增加或减少比特。 
因此,如果所分布的比特的总数小于那个可利用的自然数,则比特被加给波段,其显示最大感知改善(perceptual improvement),如同由在初始和最终波段赋值之间的噪音掩蔽(noise-to-mask)的变量所测量的。对于显示最大变化的波段,比特率被增加。在相反的情况,当所分布的比特的总数比那个可利用的自然数大,则从波段中提取比特的过程是上述过程的双重过程。 
在与TDAC编码器相应的复合比特率编码方案中,可以对比特的所述赋值分解为某些操作。于是,使用上述等式来决定的第一阶段可以仅基于最低比特率D0来一次完成。然后,通过增加比特,调整阶段可以被继续完成。一旦所分布的比特的总数达到与一个比特流k(k=1,2......k-1)的比特率相应的数量,则当前分布被考虑用来对比特流的每个波段来量化标准化的系数矢量。 
系数量化 
对于系数量化,TDAC编码器使用矢量量化,该量化使用尺寸交互存取字典(size-interleaved dictionary),该字典由第二类型置换码的并集构成。这个类型的量化被应用于在该波段上的MDCT系数的每一个矢量。这种类型的矢量使用该波段上的频谱包络(spectral envelope)的解量化值而被预先标准化。下述符号被使用: 
C(bi,di)是相应于比特bi以及维度di的数量的字典; 
N(bi,di)是在该字典中的元素的数量; 
CL(bi,di)是其前导字符(leaders)的集合; 
NL(bi,di)是前导字符的数量。 
对帧的每个波段i的量化结果是一个在比特流中传输的码字(codeword)mi。其表示从下述信息计算的字典内的量化矢量的索引: 
与当前前导字符(leaders) 
Figure S04836584220060620D000151
最接近的量化前导矢量 
Figure S04836584220060620D000152
的字典的前导字符集合CL(bi,di)内的数量Li; 
前导字符 
Figure S04836584220060620D000153
的分类内Yq(i)的排列ri;以及 
应用于Yq(i)(或 )的符号signq(i)的组合。 
下述符号被使用: 
Y(i)是波段i的标准系数的绝对值的矢量; 
sign(i)是波段i的标准系数的符号的矢量; 
Figure S04836584220060620D000155
是上述以递减顺序排序其组件所获得的上述矢量Y(i)的前导矢量(相应的置换表示为perm(i));以及 
Yq(i)是Y(i)的量化矢量(或者Y(i)在字典C(bi,di)内的“最接近的邻域(nearest neighbor)”)。 
下面,具有指数k的符号α(k)表示用于获得编码器k的比特流的过程中的参数。没有这个指数的参数被计算一次,并且对所有位流0的参数。他们独立于相关的比特率(或模式)。 
如下描述上述字典的“交替存取(interleaving)”特征: 
C ( b i ( 0 ) , d i ) ⊆ . . . ⊆ C ( b i ( k - 1 ) , d i ) ⊆ C ( d i ( k ) , d i ) . . . ⊆ C ( b i ( K - 1 ) , d i )
还有: 
CL ( b i ( 0 ) , d i ) ⊆ . . . ⊆ CL ( b i ( k - 1 ) , d i ) ⊆ CL ( b i ( k ) , d i ) . . . ⊆ CL ( b i ( K - 1 ) , d i )
CL(bi (k),di))\CL(bi (k-1),di)是CL(bi (k-1),di))在CL(bi (k),di)中的补充,其基数与NL(bi (k),di))-NL(bi (k-1),di)相等。 
码字mi (k)(其中0≤k<K)如下所述获得,其是对于每个比特流k的波段i的系数的矢量进行量化的结果。 
对比特流k=0,量化操作被传统地完成,如同在TDAC编码器中通常的那样。其生成参数signq (0)(i)、Li (0)以及ri (0)用来构建码字mi (0)。矢量 以及sign(i)都在这个步骤内被确定。他们与相应的置换perm(i)一起被存储在存储器中,如果必要,在与其他位流相关的后续步骤中被使用。 
对比特流1≤k<K,采用了一个增加的方法,从k=1至k=K-1,优选地,使用下述步骤: 
如果 ( b i ( k ) = b i ( k - 1 ) ) ,则: 
1.在波段i上,比特流k的帧的码字与比特流(k-1)的比特流的帧的码字相同: m i ( k ) = m i ( k - 1 )
如果不相等,也就是说,如果 ( b i ( k ) > b i ( k - 1 ) ) : 
2.CL(bi (k),di)\CL(bi (k-1),di)的前导字符(NL(bi (k),di)-NL(bi (k-1),di))被搜索来查找 
Figure S04836584220060620D000167
的最接近的邻域。 
3.给定步骤2的结果,并知道在CL(bi (k-1),di)内的 
Figure S04836584220060620D000168
的最接近的邻域,执行一个判断来确定在CL(bi (k),di)内的 的所述最接近的邻域是否在CL(bi (k-1),di)中(这是下面讨论的“标记=0”的情况)或在CL(bi (k),di)\CL(bi (k-1),di)中(这是下面讨论的“标记=1”的情况)。 
4.如果标记=0(在CL(bi (k-1),di)中的 
Figure S04836584220060620D0001610
的最接近的前导字符,也 是其在CL(bi (k),di)中的最接近的邻域),则: m i ( k ) = m i ( k - 1 )
如果标记=1(在步骤2中发现的CL(bi (k),di)\CL(bi (k-1),di)中的与 最接近的前导字符,也是其在CL(bi (k),di)中的最接近的邻域),则下述步骤被执行: 
a)搜索Yq (k)(i)的排列ri k,(在前导字符 
Figure S04836584220060620D000173
的分类内的Y(i)新的量化矢量)例如使用perm(i)的Schalkwijk算法; 
b)使用sign(i)和perm(i)确定signq (k)(i); 
c)从Li (k)、ri (k)和signq (k)(i)确定码字mi k。 
第二实施例:应用于一个MPEG-1的第一层和第二层的转换编码器 
如图6a所示的MPEG-1第一层、第二层编码器,使用一个具有32个相同子波段的滤波器库(bank)(图6a内的功能单元61)来将时间/频率编码转换应用于输入音频信号s0。每个子波段的输出样本被分组,然后在量化(功能单元62)之前通过一个通用比例因素(scaling factor)(由功能单元67确定)来标准化。使用于每个子波段的统一分级量化器(scalarquantizer)的级别的数量,是使用一个心理学模型来确定对噪音量化尽可能使其不能感觉的比特分布的一个动态比特赋值过程的结果。在标准中提出的听觉模型是基于对从对时间域输入信号应用一个快速傅立叶变换(FFT)所获得的频谱的估计(功能单元65)。参考图6b,由图6a内的功能单元66复合的、最终在一个头域HD后被传输的帧sc,包括所有量化子波段ESB的样本,其是主要信息和用于解码操作的补充信息,由缩放因数FE和比特赋值因数Ai组成。 
从该编码方案开始,在本发明的一个应用中,一个复合比特率编码器可以由汇聚(pooling)下述功能单元(参考图7)构建: 
分析滤波器库的功能单元61; 
确定缩放因数的功能单元67; 
FFT计算的功能单元65; 
用一心理声学模型确定掩蔽域值的功能单元64。 
功能单元64以及65已经提供用于比特赋值过程(图7中的功能单元70)的信号-掩蔽率(图6a和图7中的箭头SMR)。 
在图7所示的实施例中,可以通过集中但是加一些修改来探测用于比特赋值的过程(图7中的比特赋值功能单元70)。只有量化功能单元62_0至62_(k-1)被特定于与一比特率Dk(1≤k<K-1)相应的每个比特流。同样的内容应用于复合单元66_0至66_(k-1)。 
比特赋值 
在MPEG-1第一层、第二层编码器中,比特赋值通过一系列交互存取步骤被完成,如下: 
步骤0:对每个子波段i(0≤i<M)将比特bi的数量初始化为0。 
步骤1:在每个子波段上更新失真函数NMR(i)(噪音-掩蔽率),NMR(i)=SMR(i)-SNR(bi),其中SNR(bi)是与具有许多比特bi的量化器相应的信号-噪音比,并且SMR(i)是由心理声学模型提供的信号-掩蔽比。 
步骤2:当失真达到最大值时,增加子波段i0的比特bi0的数量: 
bi0=bi0+ε, i 0 = arg max i [ NMR ( i ) ]
其中,ε是一个取决于波段的正整数,通常取为1。 
步骤1和步骤2重复直到可用比特的总量,相应于可操作的比特率,已经被分布。这样的结果是一个比特分布矢量(b0,b1,......bM-1)。 
在复合比特率编码方案中,这些步骤借助一些其他修改来合并,特别是: 
功能单元的输出包括K个比特分布矢量(b0 (k),b1 (k),...,bM-1 (k))(0≤k<K-1),一个矢量(b0 (k),b1 (k),...,bM-1 (k)),在与比特流k的比特率Dk相对应的可用的总量已经被分布时,在步骤1和2的重复中被获得;并且 
当与最高比特率Dk-1相对应的可用的总量已经全部被分布时,步骤1和2的重复停止(比特流以增加的比特率排序)。 
需要注意的是,比特分布矢量从k=0至k=K-1连续获得。对在给定比特率的每个比特流,比特赋值功能单元的所述K个输出提供给量化功能单元。 
第三实施例:应用于一个CELP编码器的 
最后的实施例涉及使用一个后(posteriori)决定3GPP NB-AMR(窄波段适应复合比率)编码器对复合模式语音的编码,其是一个遵守3GPP标准的电话波段语音编码器。该编码器属于著名的CELP编码器家族,其原理如上的简要描述,具有从12.2kbps至4.75kbps的8个模式(或比特率),所有都基于代数编码激励线性预测(ACELP)技术。图8以功能单元的形式描述了这个编码器的编码方案。该结构已经被应用以生产一个基于4NB-AMR模式(7.4;6.7;5.9;5.15)的后(posteriori)决定复合模式编码器。 
在第一个变化中,只有相同功能单元的共有(mutualization)被利用(4个编码的结果对于并行的4个编码的结果是相同的)。 
在第二个变化中,复杂性进一步降低。针对某些模式的不相同的功能单元的计算通过利用另一个模式的或者一通用处理模块(如下)的功能单元被加速。以这种方式共有的4个编码的结果与并行的4个编码的结果不同。 
在一个进一步的变化中,这4个模式的功能单元被用于复合模式网格(trellis)编码,如上述参考图1d所描述。 
3GPP NB-AMR编码器的4个模式(7.4;6.7;5.9;5.15)如下简要描述。 
所述3GPP NB-AMR编码器工作于一个限制为3.4khz、取样于8khz并且被划分为20毫米的帧(160个样本)的语音信号上。每个帧包括4个5毫米的子帧(40个样本),两两组合为10毫秒的“超级子帧”(80个样本)。对于所有模式,同样类型的参数从信号中被提取,但在参数建模和/或量化方面具有变化。在NB-AMR编码器中,5个类型的参数被分析和编码。对于所有除12.2模式的模式,线频谱对(line spectral pair,LSP)参数,每帧处理一次(并且然后每个超级子帧(supersubframe)处理一次)。其他参数(特别是LTP延迟、适应的激励获取、确定的激励以及确定的激励获取)每个子帧处理一次。 
在此所考虑的4个模式(7.4;6.7;5.9;5.15)在量化其参数方面本质上不同。这4个模式的比特赋值如下表1所示: 
表1:3GPP NB-AMR编码器的4模式(7.4;6.7;5.9;5.15)的比特赋值。 
 模式(kbps)   7.4     6.7   5.9   5.15
 LSP   26(8+9+9)     26(8+9+9)   26(8+9+9)   23(8+7+7)
 LTP延迟   8/5/8/5     8/4/8/4   8/4/8/4   8/4/8/4
 确定的激励   17/17/17/17     14/14/14/14   11/11/11/11   9/9/9/9
 确定的和适应的激励获  取   7/7/7/7     7/7/7/7   6/6/6/6   6/6/6/6
 每帧总量   148     134   118   103
NB-AMR编码器的这4个模式(7.4;6.7;5.9;5.15)确切地使用同样的模块,例如预处理、线性预测系数分析以及加权信号计算模块。信号的预处理是具有一个80hz的取舍(cut-off)频率的低通过过滤,以消除与2个输入信号的划分组合的DC成分以防止溢出。该LPC分析包括开窗(windowing)子模块、自相关(autocorrelation)计算子模块、Levinson-Durbin算法实现模块、A(z)→LSP转换子模块、用于通过在过去的帧以及当前帧的LSP之间的插值对每个子帧(i=0......,3)计算LSPi非量化参数的子模块,以及反的LSPi→Ai(z)转换子模块。 
计算加权语音信号包括通过感知加权过滤器(Wi(z)=Ai(z/γ1)/Ai(z/γ2))进行过滤,其中Ai(z)是索引i,γ1=0.94且γ2=0.6的子帧的非量化过滤器。 
其他功能单元仅对于3个模式(7.4;6.7;5.9)是相同的。例如,开环LTP延迟搜索对这3个模式的每个超级子帧在加权信号上完成一次。但,对于5.15模式,其仅仅对每个帧完成一次。 
类似地,如果使用具有减低平均值(suppressed average)的第一顺序预测加权矢量的MA(平均移动(moving average))量化以及在标准频率域内的LSP参数的笛卡尔产品的4个模式,则5.15kbps模式的LSP参数于23比特以及其他3个模式于26比特被量化。其后转换为标准频率域,LSP参数的每个笛卡尔产品的“分离(split)VQ”矢量量化将10个LSP参数分离为3个子矢量,大小分别为3、3、4。由第一3个LSP组成的第一子矢量使用对4个模式同样的字典在8比特量化。针对3个高比特率模式, 由下3个LSP组成的第二子矢量使用大小为512(9比特)的字典量化,以及对5.15模式用该字典的一半(两个中一个矢量)。由最后四个LSP组成的第三和最后子矢量,对于高比特率模式用大小为512(9比特)的字典量化,对于低比特率使用一个大小为128(7比特)的字典量化。转换为标准频率域,二次错误标准的权重的计算,以及用来量化的LSP残留的平均移动预测,对于这4个模式确切地相同。因为3个高比特率模式使用同样的字典来量化该LSP,他们可以在相同矢量量化模式之外共享所述反转转换(来从标准频率域回复至余弦域),以及通过在过去的帧和当前帧的量化LSP之间的插补对每个子帧(i=0,...,3)的LSPQ i量化的计算,以及最后反转转换LSPQ i→AQ i(z)。 
适应和确定的激励闭环搜索被继续执行,并且对加权综合滤波器和目标信号脉冲反应的预先计算成为必要。加权综合滤波器的脉冲反应(Ai(z/γ1)/[AQ i(z)Ai(z/γ2)])对于3个高比特率模式(7.4;6.7;5.9)确切地相同。对每个子帧,对于适应激励的目标信号的计算取决于加权信号(独立于模式)、量化滤波器(其与3个模式确切地相同)以及之前的子帧(其与第一子帧以外的每一个子帧都不同)。对于每个子帧,用于确定激励的目标信号通过从之前的目标信号中减去子帧的过滤的适应激励的基值而获取(除了对于第一个3模式的第一个子帧,其从一个模式至其他模式不同)。 
3个适应字典被使用。第一个字典,用于7.4、6.7、5.9模式的偶数子帧(i=0和2)并用于5.12模式的第一个子帧,包括在[19+1/3,84+2/3]范围内的1/3解析(resolution)的256个局部(fractional)绝对延迟,以及在[85,143]范围的整个解析。在该绝对延迟字典内搜索聚焦于在开环模式内发现(对于5.15模式步长为±5,对于其他模式步长为±3)的延迟。对于7.4、6.7、5.9模式的第一子帧,目标信号以及开环延迟是相同的,闭环搜索的结果也是相同的。其他两个字典是不同类型的而且被用来对当前延迟和接近于之前的子帧的局部(fractional)延迟的整个延迟Ti-1之间的差值进行编码。在5比特的第一个不同的字典,用于7.4模式的奇数子帧,是在[Ti-1-5  +2/3,Ti-1+4  +2/3]范围内的关于整个延迟Ti-1的1/3解析。在4比特的第二个不同的字典,其包括在第一个不同的字典内,被用于6.7 和5.9模式的奇数子帧,并且用于5.15模式的最后3个子帧。该第二字典是在[Ti-1-5,Ti-1+4]范围内的关于整个延迟Ti-1的整个解析加上在[Ti-1-1+2/3,Ti-1+2/3]范围内的1/3解析。 
所述确定字典属于著名的ACELP字典家族。一个ACELP路径的结构是基于交互存取单脉冲置换(ISPP)概念,其包括将L个位置的集合分割为K个交互存取的声道,第N个脉冲位于某个预先定义的声道中。所述7.4、6.7、5.9以及5.15模式使用对一个子帧的40个样本分为长度为8的5个交互存取的声道的同样分割,如表2a所示。表2a显示,对于7.4、6.7、以及5.9模式,字典的比特率、脉冲的数量以及在声道内的分布。具有9比特的ACELP字典的5.15模式的2个脉冲的分布甚至具有更多限制。 
表2a:3GPP NB-AMR编码器的一个子帧的40个位置的交互存取的声道的分割。 
    声道     位置
    P<sub>0</sub>     0、5、10、15、20、25、30、35
    P<sub>1</sub>     1、6、11、16、21、26、31、36
    P<sub>2</sub>     2、7、12、17、22、27、32、37
    P<sub>3</sub>     3、8、13、18、23、28、33、38
    P<sub>4</sub>     4、9、14、19、24、29、34、39
表2b:对于3GPP NB-AMR编码器的7.4、6.7以及5.9模式的声道内的脉冲的分布。 
  模式(kbps)   7.4     6. 5.9
  ACELP字典比特  率(位置+振幅)   17(13+4)     14(11+3) 11(9+2)
  脉冲的数量   4     3 2
  对i<sub>0</sub>可能的声道   p<sub>0</sub>     p<sub>0</sub> p<sub>1</sub>、p<sub>3</sub>
  对i<sub>1</sub>可能的声道   p<sub>1</sub>     p<sub>1</sub>、 p<sub>0</sub>、p<sub>1</sub>、p<sub>2</sub>、p<sub>4</sub>
  对i<sub>2</sub>可能的声道   p<sub>2</sub>     p<sub>2</sub>、p<sub>4</sub> -
  对i<sub>3</sub>可能的声道   P<sub>3</sub>、p<sub>4</sub>     - -
[0205] 所述适应和确定激励获取通过联合矢量量化使CELP标准最小化,在7或6比特被量化(具有应用于确定激励获取的MA预测)。 
具有一事后(posteriori)决定的复合模式编码仅利用同样的功能单元的共有(mutualization) 
一个事后(posteriori)决定复合模式编码器其可以基于上述编码方案,汇聚(pooling)如下描述的功能单元。 
参考图8,对于4个模式通常完成: 
预处理(功能单元81); 
分析线性预测系数(开窗和计算自动相关功能单元82,执行Levinson-Durbin算法功能单元83;A(z)→LSP转换功能单元84,插补LSP和反转转换功能单元862); 
计算加权输入信号功能单元87; 
将LSP参数转换为标准频率域,计算对于LSP的矢量量化的二次错误标准的权重、LSP残余的MA预测、第一3个LSP(在功能单元85内)的矢量量化。 
于是,对于所有这些单元的累计复杂度被划分为4。 
对于3个最高比特率模式(7.4、6.7以及5.9),完成: 
最后7个LSP的矢量量化(每个帧一次)(在图8中的功能单元85内); 
开环LTP延迟搜索(每个帧二次)(在图8中的功能单元88内); 
量化的LSP插补(861)以及对滤波器AQ i反转转换(对于每个帧);并且 
计算加权的综合滤波器(对每个帧)的脉冲反应(89)。 
对于这些单元,上述计算不再是完成4次而是2次,一次对3个高比特率模式,一次对低比特率模式。他们的复杂度被划分为2。 
对3个最高比特率模式,也可以对第一子帧,与闭环LTP搜索一起(功能单元881)共有(mutualize)确定激励(图8中的功能单元91)以及适应激励(功能单元90)的目标信号的计算。需要注意的是,对于第一子帧的 共有操作仅仅在一个事后(posteriori)决定复合模式类型复合编码的情况下产生同样的结果。在通常的复合编码情况下,第一子帧的过去(past)根据比特率而不同,就像对于其他3个子帧一样,在这样的情况下这些操作通常产生不同的结果。 
先进的后(posteriori)决定复合模式编码 
不一样的功能单元可以通过利用另一个模式或一个通用处理模块的那些单元而被加速。 
取决于应用的限制(在质量和/或复杂度方面),可以使用不同的变化。下面描述一些例子。也可以依赖在CELP编码器之间的智能编码转换技术。 
第二LSP子矢量的矢量量化 
如在TDAC编码器的实施例一样,交互存取某些字典可以加速计算。因此,如5.15模式的第二LSP子矢量的字典被包含在其他3个模式的字典中,由4个模式对那个子矢量Y的量化可以进一步被组合: 
步骤1:在最小的字典(与大字典的一半相适应)内搜索最接近的邻域Y1
对5.15模式Y1量化Y 
步骤2:在大字典的补充内(也就是说,在字典的另一半内)搜索最接近的邻域Yh
步骤3:判断在9比特的字典内最接近的邻域Y是否是Y1(标记=0)或Yh(标记=1) 
标记=0:对7.4、6.7和5.9模式,Y1也量化Y; 
标记=1:对7.4、6.7和5.9模式,Yh量化Y。 
对非优化的复合模式编码器,该实施例给出了一个同样的结果。如果量化复杂度进一步被减小,则如果该矢量被视为充分接近Y,我们可以在步骤1停止并且取Y1作为用于高比特率模式的量化矢量。这个简化可以产生与一个与穷尽搜索不同的结果。 
开环LTP搜索加速 
5.15模式开环LTP延迟搜索可以使用对于其他模式的搜索结果。如果在两个超级子帧上发现的两个开环延迟充分接近以允许不同的编码,则所述5.15模式开环搜索不被执行。相反,高模式的结果被使用。如果不,则选择是: 
完成标准搜索;或者 
围绕由更高模式发现(found)的两个开环延迟,在整个帧上聚焦开环搜索。 
相反地,所述5.15模式开环延迟搜索可以首先被完成,并且两个更高模式的开环延迟搜索聚焦于由5.15模式决定的值附近。 
在一个如图1d所示的第三以及更多的实施例中,一个复合模式网格(trellis)编码器被生成允许许多功能单元的组合,每个功能单元具有至少2个操作模式(或比特率)。该新的编码器从上述的NB-AMR编码器的4比特率(5.15、5.90、6.70、7.40)构建。在这个编码器中,4个功能单元是区别的:LPC功能单元、LTP功能单元、确定激励功能单元以及获取功能单元。参考上述表1,下述表3概括了对这些功能单元的每一个的比特率的数量以及其比特率。 
表3a:对NB-AMR编码器的4个模式(5.15、5.90、6.70、7.40)的功能单元的比特率的数量以及比特率。 
    功能单元     比特率的数量     比特率
    LPC(LSP)     2     26和32
    LTP延迟     3     26、24和20
    确定激励     4     68、56、44和36
    获取     2     28和24
于是,有P=4个功能单元以及2×3×4×2=48种可能的组合。在这个特别的实施例中,功能单元2的高比特率(LTP比特率26比特/帧)没有被考虑。当然,其他选择也是可以的。 
以这种方式取得的复合比特率编码器在具有32种可能模式的比特率方面具有高的间隔尺寸(granulartiy)(参考表3b)。但是,该结果编码 器不能与上述的NB-AMR编码器交互作用。在表3b中,与NB-AMR编码器的5.15、5.90以及6.70比特率相对应的模式以粗体显示,对功能单元LTP的最高比特率的排除消除了7.40比特率。 
表3b:每功能单元的比特率以及复合模式网格(trellis)编码器的全局比特率。 
参数  LSP  LTP延  迟   确定激励 确定和适应激励 获得   总量
每帧比特率  23  20  36  24  103
 23  20  36  28  107
 23  20  44  24  111
 23  20  44  28  115
 23  20  56  24  123
 23  20  56  28  127
 23  20  68  24  135
 23  20  68  28  139
 23  24  36  24  107
 23  24  36  28  111
 23  24  44  24  115
 23  24  44  28  119
 23  24  56  24  127
 23  24  56  28  131
 23  24  68  24  139
 23  24  68  28  143
 26  20  36  24  106
 26  20  36  28  110
 26  20  44  24  114
 26  20  44  28  118
 26  20  56  24  126
 26  20  56  28  130
 26  20  68  24  138
 26  20  68  28  142
 26  24  36  24  110
 26  24  36  28  114
 26  24  44  24  118
 26  24  44  28  122
 26  24  56  24  130
 26  24  56  28  134
 26  24  68  24  142
 26  24  68  28  146
这个具有32个可能比特率的编码器,为了标识所使用的模式5比特是必要的。如上一个变化所述,功能单元是被关联。不同的编码策略被应用于不同的功能单元。 
例如,对包括LSP量化的功能单元1,会对低比特率优先选择,如上所述,以及如下所述: 
使用与这个功能单元相关的两比特率的相同字典,组成第一3个LSP的第一子矢量在8比特被量化; 
使用具有最低比特率的字典,组成第二3个LSP的第二矢量在8比特被量化。与更高比特率字典的一半相应的字典,如果在所述3个LSP和在字典内的被选择元素之间的距离超过一个某个阈值(threshold),则所述搜索在仅该字典的另一半内完成;并且 
组成最后4个LSP的第3和最后子矢量使用一个大小为512(9比特)的字典以及一个大小为128(7比特)的字典来量化。 
另一方面,如上所述,与第二个变化相关(对应于先进的后(posteriori)决定的复合模式编码),所述选择被做出以对功能单元2(LTP延迟)做出高比特率的优先选择。在NB-AMR编码器中,对24位的LTP延迟,所述开环LTP延迟搜索在每帧内完成两次,并且对20位的LTP延迟每帧完成一次。我们的目标是对这个功能单元做出高比特率的优先选择。于是,所述开环LTP延迟计算以下述方式完成: 
两个开环延迟在两个超级子帧上被计算。如果他们充分接近以允许不同编码,所述开环搜索不在整个帧上完成。相反,对两个超级子帧的结果被使用;并且 
如果他们不足够接近,一个开环搜索在整个帧上执行,围绕预先发现的两个开环延迟聚焦(focused)。一个降低复杂度的变化仅仅保持他们当中第一个的开环延迟。 
可以在某些功能单元后作一个部分选择来降低要探测的组合的数量。例如,在功能单元1(LPC)后,具有26比特的组合可以针对这个块被消除,如果23比特模式的执行足够接近,或者如果与26比特模式相比下降太多的话,23比特模式的执行可以被消除。 
于是,本发明可以通过共有(mutualizing)和加快由不同编码器执行 的计算来对复合编码的复杂度问题提供一个有效的解决方案。于是,编码结构可以通过描述所完成的处理过程的功能单元来表示。使用于复合编码中的不同编码形式的功能单元具有本发明利用的强关联(relation)。当不同编码对应于相同结构的不同模式时,这些关联(relation)特别地强。 
最后,需要注意的是,从复杂度的观点来看,本发明的是灵活的。事实上,可以在最大复合编码复杂度上决定一个优先(priori),并且使作为该复杂度的函数的所探测编码器的数量适应。 

Claims (27)

1.一种复合压缩编码方法,其中,一个输入信号并行地提供给至少一个第~编码器和第二编码器,每个所述第一编码器和第二编码器包括一系列功能单元,以通过每一个所述第一编码器和第二编码器对所述输入信号进行压缩编码,
至少部分所述功能单元进行计算以为所述每个编码器编码所述输入信号传递各自的参数,
所述第一编码器和第二编码器分别包括至少一个第一功能单元和第二功能单元配置为进行通用的操作,其中,
-为所述第一功能单元和所述第二功能单元传递相同的一组参数的计算是在一个相同的步骤中并由一个相同的功能单元进行的;
-当所述第一编码器和/或第二编码器运行在不同于所述相同的功能单元的速率时,所述一组参数被调整为所述第一编码器和/或第二编码器的速率,以分别被所述第一功能单元和/或第二功能单元使用。
2.根据权利要求1所述的方法,其特征在于,所述相同的功能单元包括所述第一编码器和第二编码器之一的功能单元中的至少一个。
3.根据权利要求1所述的方法,还包括以下步骤:
a)标识组成每个编码器的功能单元,且由每个单元实现一个或多个功能;
b)标识从一个编码器至另一个编码器的通用功能;以及
c)在一个通用计算模块内执行所述通用功能。
4.根据权利要求3所述的方法,其特征在于,对在步骤c)中执行的每个功能,从所述至少一个第一编码器和第二编码器中选择的一个编码器的至少一个功能单元被使用,且被选择的所述编码器的所述功能单元适合于向其他编码器传送部分结果,用于通过所述其他编码器在复杂性和编码质量之间验证一个优化标准来有效编码。
5.根据权利要求4所述的方法,其中,所述编码器有必要运行于各自不同的比特率上,其特征在于,选择的所述编码器是具有最低比特率的编码器,以及通过一个聚焦参数搜索至少部分其他模式,使在步骤c)中执行所述功能后获得的具有特定于所选择的编码器的参数的结果,适用于至少部分其他编码器的比特率,直到具有最高比特率的编码器。
6.根据权利要求4所述的方法,其中,所述编码器适合于在各自不同的比特率上运行,其特征在于,选择的所述编码器是具有高比特率的编码器,而且通过一个聚焦参数搜索至少部分其他模式,使在步骤c)中执行所述功能后所获得的具有特定于选择的所述编码器的参数的结果,适用于至少部分其他编码器的比特率,直到具有最低比特率的编码器。
7.根据权利要求4所述的方法,其特征在于,在一个给定比特率运行的编码器的所述功能单元被用来作为用于该比特率的计算模块,而且通过聚焦搜索使特定于该编码器的至少部分参数逐渐适用,直到具有最高比特率的编码器,以及直到具有最低比特率的编码器。
8.根据权利要求2所述的方法,其中,所述不同编码器的所述功能单元被设置于一个具有许多可能路径在其内的网格中,其特征在于,在所述网格内的每条路径都被所述功能单元的操作模式的一个组合所定义,且每个功能单元提供下一个功能单元的若干可能的变化。
9.根据权利要求8所述的方法,其特征在于,一个部分选择模块在每个编码步骤后被提供,这些编码步骤由一个或多个功能单元执行,所述功能单元能够选择由一个或多个用于后续编码步骤的那些功能单元所提供的结果。
10.根据权利要求8所述的方法,其中,所述功能单元有必要使用特定于所述比特率的各自参数在各自不同的比特率运行,其特征在于,对于一个给定的功能单元,在网格中选择的所述路径是经过最低比特率功能单元,并且通过一个聚焦参数搜索至少部分其他功能单元,使从所述最低比特率功能单元获得的所述结果适合于至少部分其他功能单元的比特率,直到最高比特率功能单元。
11.根据权利要求8所述的方法,其中,所述功能单元有必要使用特定于所述比特率的各自参数在各自不同的比特率运行,其特征在于,对于一个给定的功能单元,在网格中选择的所述路径是经过最高比特率功能单元,并且通过一个聚焦参数搜索至少部分其他功能单元,使从所述最高比特率功能单元获得的所述结果适合于至少部分其他功能单元的比特率,直到最低比特率功能单元。
12.根据权利要求8所述的方法,其特征在于,对于一个与一个编码器的功能单元的所述参数相关的给定比特率,在所述给定比特率运行的所述功能单元被作为计算模块使用,而且通过聚焦搜索,使特定于该功能单元的至少部分所述参数适合,直到所述功能单元能够在最低比特率运行,以及直到所述功能单元能够在最高比特率运行。
13.根据权利要求3所述的方法,其特征在于,所述计算模块独立于所述编码器,且适合于向所有的编码器重新分布在步骤c)中获得的结果。
14.根据权利要求13所述的方法,其特征在于,使所述独立模块和至少一个编码器中的一个功能单元或多个功能单元适合于彼此交换在步骤c)中获得的结果,且使所述计算模块适合于在不同编码器的功能单元间完成适合编码转换。
15.根据权利要求13所述的方法,其特征在于,所述独立模块包括一个至少部分编码功能单元以及一个适合编码转换功能单元。
16.根据前述权利要求中的任一项所述的方法,其中,使并行的所述编码器适合于执行复合编码,其特征在于,提供一个能够选择编码器之一的后选择模块。
17.根据权利要求16所述的方法,其特征在于,提供一个部分选择模块,其独立于所述编码器,并且能够在每个被一个或多个功能单元执行的编码步骤后选择一个或多个编码器。
18.根据前述权利要求1至15中的任一项所述的方法,其中,所述编码器是转换类型,其特征在于,所述计算模块包括一个在所有编码器之间共享的比特赋值功能单元,在一个编码器完成的每个比特赋值以后使其适合于该编码器匹配。
19.根据权利要求18所述的方法,其中,所述使其适合于该编码器匹配是作为其比特率的一个函数。
20.根据权利要求18所述的方法,其特征在于,所述方法进一步包括一个量化步骤,其结果提供给所有的所述编码器。
21.根据权利要求20所述的方法,其特征在于,其进一步包括对所有所述编码器通用的步骤,其包括:
一个时间-频率转换;
在输入信号中检测发声;
检测音调;
确定掩蔽曲线;以及
频谱包络编码。
22.根据权利要求18所述的方法,其中,所述编码器完成子波段编码,其特征在于,所述方法进一步包括对所有所述编码器通用的步骤,其包括:
应用一个分析滤波器库;
确定缩放因数;
频谱转换计算;以及
根据心理-声学模型确定掩蔽阈值。
23.根据权利要求1至14中任一项所述的方法,其中,所述编码器是综合分析类型,其特征在于,所述方法包括对所有所述编码器通用的步骤,其包括:
预处理;
线性预测系数分析;
加权的输入信号计算;以及
对至少部分所述参数量化。
24.根据权利要求23所述的方法,其特征在于,提供一个部分选择模块,其独立于所述编码器,并且能够在每个被一个或多个功能单元执行的编码步骤后选择一个或多个编码器,所述部分选择模块用在一个用于短期参数的拆分矢量量化步骤以后。
25.根据权利要求23所述的方法,其特征在于,提供一个部分选择模块,其独立于所述编码器,并且能够在每个被一个或多个功能单元执行的编码步骤后选择一个或多个编码器,
所述部分选择模块用在一个共享的开环长期参数搜索步骤以后。
26.一种用于辅助复合压缩编码的***,其中,一个输入信号并行地提供给至少一个第一编码器和第二编码器,每个所述第一编码器和第二编码器包括一系列功能单元,以通过每一个所述第一编码器和第二编码器对所述输入信号进行压缩编码,
至少部分所述功能单元进行计算以为所述每个编码器编码所述输入信号传递各自的参数,
所述第一编码器和第二编码器分别包括至少一个第一功能单元和第二功能单元配置为进行通用的操作,其中,所述***包括:
用于控制所述***在一个相同的步骤中并由一个相同的功能单元进行计算的装置,所述计算为所述第一功能单元和所述第二功能单元传递相同的一组参数;
用于当所述第一编码器和/或第二编码器运行在不同于所述相同的功能单元的速率时,将所述一组参数调整为所述第一编码器和/或第二编码器的速率,以分别被所述第一功能单元和/或第二功能单元使用的装置。
27.一种根据权利要求26所述的***,其特征在于,其进一步包括一个独立计算模块,用于实现根据权利要求13至17、24和25中任一项所述的方法。
CN2004800365842A 2003-12-10 2004-11-24 一种优化的复合编码方法 Expired - Fee Related CN1890714B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0314490A FR2867649A1 (fr) 2003-12-10 2003-12-10 Procede de codage multiple optimise
FR0314490 2003-12-10
PCT/FR2004/003009 WO2005066938A1 (fr) 2003-12-10 2004-11-24 Procede de codage multiple optimise

Publications (2)

Publication Number Publication Date
CN1890714A CN1890714A (zh) 2007-01-03
CN1890714B true CN1890714B (zh) 2010-12-29

Family

ID=34746281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2004800365842A Expired - Fee Related CN1890714B (zh) 2003-12-10 2004-11-24 一种优化的复合编码方法

Country Status (12)

Country Link
US (1) US7792679B2 (zh)
EP (1) EP1692689B1 (zh)
JP (1) JP4879748B2 (zh)
KR (1) KR101175651B1 (zh)
CN (1) CN1890714B (zh)
AT (1) ATE442646T1 (zh)
DE (1) DE602004023115D1 (zh)
ES (1) ES2333020T3 (zh)
FR (1) FR2867649A1 (zh)
PL (1) PL1692689T3 (zh)
WO (1) WO2005066938A1 (zh)
ZA (1) ZA200604623B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7987089B2 (en) * 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
US8452801B2 (en) 2006-10-19 2013-05-28 Lg Electronics Inc. Encoding method and apparatus and decoding method and apparatus
KR101411900B1 (ko) * 2007-05-08 2014-06-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 장치
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
KR101403340B1 (ko) * 2007-08-02 2014-06-09 삼성전자주식회사 변환 부호화 방법 및 장치
CA2729751C (en) * 2008-07-10 2017-10-24 Voiceage Corporation Device and method for quantizing and inverse quantizing lpc filters in a super-frame
FR2936898A1 (fr) * 2008-10-08 2010-04-09 France Telecom Codage a echantillonnage critique avec codeur predictif
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
GB0822537D0 (en) 2008-12-10 2009-01-14 Skype Ltd Regeneration of wideband speech
US9947340B2 (en) 2008-12-10 2018-04-17 Skype Regeneration of wideband speech
GB2466201B (en) * 2008-12-10 2012-07-11 Skype Ltd Regeneration of wideband speech
KR20110001130A (ko) * 2009-06-29 2011-01-06 삼성전자주식회사 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법
KR101747917B1 (ko) 2010-10-18 2017-06-15 삼성전자주식회사 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법
CN102394658A (zh) * 2011-10-16 2012-03-28 西南科技大学 一种面向机械振动信号的复合压缩方法
US9386267B1 (en) * 2012-02-14 2016-07-05 Arris Enterprises, Inc. Cooperative transcoding to multiple streams
JP2014123865A (ja) * 2012-12-21 2014-07-03 Xacti Corp 画像処理装置及び撮像装置
US9549178B2 (en) * 2012-12-26 2017-01-17 Verizon Patent And Licensing Inc. Segmenting and transcoding of video and/or audio data
KR101595397B1 (ko) 2013-07-26 2016-02-29 경희대학교 산학협력단 서로 다른 다계층 비디오 코덱의 통합 부호화/복호화 방법 및 장치
WO2015012514A1 (ko) * 2013-07-26 2015-01-29 경희대학교 산학협력단 서로 다른 다계층 비디오 코덱의 통합 부호화/복호화 방법 및 장치
CN104572751A (zh) * 2013-10-24 2015-04-29 携程计算机技术(上海)有限公司 呼叫中心录音文件的压缩存储方法及***
SE538512C2 (sv) * 2014-11-26 2016-08-30 Kelicomp Ab Improved compression and encryption of a file
SE544304C2 (en) * 2015-04-17 2022-03-29 URAEUS Communication Systems AB Improved compression and encryption of a file
US10872598B2 (en) * 2017-02-24 2020-12-22 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
US10896669B2 (en) 2017-05-19 2021-01-19 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech
US10872596B2 (en) 2017-10-19 2020-12-22 Baidu Usa Llc Systems and methods for parallel wave generation in end-to-end text-to-speech
US11514634B2 (en) 2020-06-12 2022-11-29 Baidu Usa Llc Personalized speech-to-video with three-dimensional (3D) skeleton regularization and expressive body poses
US11587548B2 (en) * 2020-06-12 2023-02-21 Baidu Usa Llc Text-driven video synthesis with phonetic dictionary

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6141638A (en) * 1998-05-28 2000-10-31 Motorola, Inc. Method and apparatus for coding an information signal
US6581032B1 (en) * 1999-09-22 2003-06-17 Conexant Systems, Inc. Bitstream protocol for transmission of encoded voice signals

Family Cites Families (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0398318A (ja) * 1989-09-11 1991-04-23 Fujitsu Ltd 音声符号化方式
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5495555A (en) * 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
JP3227291B2 (ja) * 1993-12-16 2001-11-12 シャープ株式会社 データ符号化装置
US5602961A (en) * 1994-05-31 1997-02-11 Alaris, Inc. Method and apparatus for speech compression using multi-mode code excited linear predictive coding
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5987506A (en) * 1996-11-22 1999-11-16 Mangosoft Corporation Remote access and geographically distributed computers in a globally addressable storage environment
JP3134817B2 (ja) * 1997-07-11 2001-02-13 日本電気株式会社 音声符号化復号装置
US6249758B1 (en) * 1998-06-30 2001-06-19 Nortel Networks Limited Apparatus and method for coding speech signals by making use of voice/unvoiced characteristics of the speech signals
US6173257B1 (en) * 1998-08-24 2001-01-09 Conexant Systems, Inc Completed fixed codebook for speech encoder
US6192335B1 (en) * 1998-09-01 2001-02-20 Telefonaktieboiaget Lm Ericsson (Publ) Adaptive combining of multi-mode coding for voiced speech and noise-like signals
JP3579309B2 (ja) * 1998-09-09 2004-10-20 日本電信電話株式会社 画質調整方法及びその方法を使用した映像通信装置及びその方法を記録した記録媒体
SE521225C2 (sv) * 1998-09-16 2003-10-14 Ericsson Telefon Ab L M Förfarande och anordning för CELP-kodning/avkodning
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6260009B1 (en) * 1999-02-12 2001-07-10 Qualcomm Incorporated CELP-based to CELP-based vocoder packet translation
US6640209B1 (en) * 1999-02-26 2003-10-28 Qualcomm Incorporated Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder
DE19911179C1 (de) * 1999-03-12 2000-11-02 Deutsche Telekom Mobil Verfahren zur Adaption der Betriebsart eines Multi-Mode-Codecs an sich verändernde Funkbedingungen in einem CDMA-Mobilfunknetz
JP2000287213A (ja) * 1999-03-31 2000-10-13 Victor Co Of Japan Ltd 動画像符号化装置
US6532593B1 (en) * 1999-08-17 2003-03-11 General Instrument Corporation Transcoding for consumer set-top storage application
AU7486200A (en) * 1999-09-22 2001-04-24 Conexant Systems, Inc. Multimode speech encoder
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US6574593B1 (en) * 1999-09-22 2003-06-03 Conexant Systems, Inc. Codebook tables for encoding and decoding
WO2001033814A1 (en) * 1999-11-03 2001-05-10 Tellabs Operations, Inc. Integrated voice processing system for packet networks
JP3549788B2 (ja) * 1999-11-05 2004-08-04 三菱電機株式会社 多段符号化方法、多段復号方法、多段符号化装置、多段復号装置およびこれらを用いた情報伝送システム
FR2802329B1 (fr) * 1999-12-08 2003-03-28 France Telecom Procede de traitement d'au moins un flux binaire audio code organise sous la forme de trames
WO2001052241A1 (en) * 2000-01-11 2001-07-19 Matsushita Electric Industrial Co., Ltd. Multi-mode voice encoding device and decoding device
SE519981C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
SE519976C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
US6615169B1 (en) * 2000-10-18 2003-09-02 Nokia Corporation High frequency enhancement layer coding in wideband speech codec
JP2002202799A (ja) * 2000-10-30 2002-07-19 Fujitsu Ltd 音声符号変換装置
EP2627008A3 (en) * 2000-12-29 2013-09-11 Intel Mobile Communications GmbH Channel codec processor configurable for multiple wireless communications standards
US6614370B2 (en) * 2001-01-26 2003-09-02 Oded Gottesman Redundant compression techniques for transmitting data over degraded communication links and/or storing data on media subject to degradation
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US7200561B2 (en) * 2001-08-23 2007-04-03 Nippon Telegraph And Telephone Corporation Digital signal coding and decoding methods and apparatuses and programs therefor
JP2003125406A (ja) * 2001-09-25 2003-04-25 Hewlett Packard Co <Hp> 有向性非周期グラフに基づくビデオ符号化のモード選択最適化方法およびシステム
US7095343B2 (en) * 2001-10-09 2006-08-22 Trustees Of Princeton University code compression algorithms and architectures for embedded systems
JP2003195893A (ja) * 2001-12-26 2003-07-09 Toshiba Corp 音声再生装置及び音声再生方法
US6829579B2 (en) * 2002-01-08 2004-12-07 Dilithium Networks, Inc. Transcoding method and system between CELP-based speech codes
US7254533B1 (en) * 2002-10-17 2007-08-07 Dilithium Networks Pty Ltd. Method and apparatus for a thin CELP voice codec
US7133521B2 (en) * 2002-10-25 2006-11-07 Dilithium Networks Pty Ltd. Method and apparatus for DTMF detection and voice mixing in the CELP parameter domain
US7023880B2 (en) * 2002-10-28 2006-04-04 Qualcomm Incorporated Re-formatting variable-rate vocoder frames for inter-system transmissions
JP2004208280A (ja) * 2002-12-09 2004-07-22 Hitachi Ltd 符号化装置および符号化方法
WO2004064041A1 (en) * 2003-01-09 2004-07-29 Dilithium Networks Pty Limited Method and apparatus for improved quality voice transcoding
KR100554164B1 (ko) * 2003-07-11 2006-02-22 학교법인연세대학교 서로 다른 celp 방식의 음성 코덱 간의 상호부호화장치 및 그 방법
US7469209B2 (en) * 2003-08-14 2008-12-23 Dilithium Networks Pty Ltd. Method and apparatus for frame classification and rate determination in voice transcoders for telecommunications
US7305055B1 (en) * 2003-08-18 2007-12-04 Qualcomm Incorporated Search-efficient MIMO trellis decoder
US7433815B2 (en) * 2003-09-10 2008-10-07 Dilithium Networks Pty Ltd. Method and apparatus for voice transcoding between variable rate coders
US7613606B2 (en) * 2003-10-02 2009-11-03 Nokia Corporation Speech codecs
US7170988B2 (en) * 2003-10-27 2007-01-30 Motorola, Inc. Method and apparatus for network communication
FR2867648A1 (fr) * 2003-12-10 2005-09-16 France Telecom Transcodage entre indices de dictionnaires multi-impulsionnels utilises en codage en compression de signaux numeriques
US20050258983A1 (en) * 2004-05-11 2005-11-24 Dilithium Holdings Pty Ltd. (An Australian Corporation) Method and apparatus for voice trans-rating in multi-rate voice coders for telecommunications

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6141638A (en) * 1998-05-28 2000-10-31 Motorola, Inc. Method and apparatus for coding an information signal
US6581032B1 (en) * 1999-09-22 2003-06-17 Conexant Systems, Inc. Bitstream protocol for transmission of encoded voice signals

Also Published As

Publication number Publication date
EP1692689A1 (fr) 2006-08-23
CN1890714A (zh) 2007-01-03
EP1692689B1 (fr) 2009-09-09
PL1692689T3 (pl) 2010-02-26
DE602004023115D1 (de) 2009-10-22
WO2005066938A1 (fr) 2005-07-21
KR101175651B1 (ko) 2012-08-21
KR20060131782A (ko) 2006-12-20
JP4879748B2 (ja) 2012-02-22
JP2007515677A (ja) 2007-06-14
ZA200604623B (en) 2007-11-28
FR2867649A1 (fr) 2005-09-16
ES2333020T3 (es) 2010-02-16
US20070150271A1 (en) 2007-06-28
US7792679B2 (en) 2010-09-07
ATE442646T1 (de) 2009-09-15

Similar Documents

Publication Publication Date Title
CN1890714B (zh) 一种优化的复合编码方法
JP5264913B2 (ja) 話声およびオーディオの符号化における、代数符号帳の高速検索のための方法および装置
EP2255358B1 (en) Scalable speech and audio encoding using combinatorial encoding of mdct spectrum
CN101180676B (zh) 用于谱包络表示的向量量化的方法和设备
JP4390803B2 (ja) 可変ビットレート広帯域通話符号化におけるゲイン量子化方法および装置
JP5357055B2 (ja) 改良形デジタルオーディオ信号符号化/復号化方法
US8392179B2 (en) Multimode coding of speech-like and non-speech-like signals
DK2102619T3 (en) METHOD AND DEVICE FOR CODING TRANSITION FRAMEWORK IN SPEECH SIGNALS
EP1788555A1 (en) Voice encoding device, voice decoding device, and methods therefor
JP2009524100A (ja) 符号化/復号化装置及び方法
US7634402B2 (en) Apparatus for coding of variable bitrate wideband speech and audio signals, and a method thereof
US6611797B1 (en) Speech coding/decoding method and apparatus
EP2087485B1 (en) Multicodebook source -dependent coding and decoding
Drygajilo Speech Coding Techniques and Standards
EP1212750A1 (en) Multimode vselp speech coder
Jeong et al. Embedded bandwidth scalable wideband codec using hybrid matching pursuit harmonic/CELP scheme
Du Coding of speech LSP parameters using context information
So A New Quantization Technique for Linear Predictive Speech Coding
Moreno Variable frame size for vector quantization and application to speech coding
Yao Low-delay speech coding

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20101229

Termination date: 20161124