CN104641414A - 立体声音频信号编码器 - Google Patents

立体声音频信号编码器 Download PDF

Info

Publication number
CN104641414A
CN104641414A CN201280075873.8A CN201280075873A CN104641414A CN 104641414 A CN104641414 A CN 104641414A CN 201280075873 A CN201280075873 A CN 201280075873A CN 104641414 A CN104641414 A CN 104641414A
Authority
CN
China
Prior art keywords
map
parameter
equipment
parameters
examples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201280075873.8A
Other languages
English (en)
Inventor
A·瓦西拉凯
L·J·拉克索宁
A·S·拉莫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of CN104641414A publication Critical patent/CN104641414A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一种设备,包括:声道分析器,被配置来确定定义至少两个音频信号声道之间的差异的至少一个参数集合;数值分析器,被配置来分析所述至少一个参数集合以确定初始趋势;映射器,被配置来基于所述初始趋势,根据第一映射来映射至少一个参数集合的实例,以生成具有关联顺序位置实例的经映射实例;以及编码器,被配置来基于所述经映射实例的顺序位置,编码所述经映射实例。

Description

立体声音频信号编码器
技术领域
本发明涉及立体声音频信号编码器,并且特别地但不排他地涉及便携式设备中使用的立体声音频信号编码器。
背景技术
音频信号,像语音或音乐,例如被编码以便使得能够有效传输或存储音频信号。
音频编码器和解码器(也被称为编解码器)被用来表示基于音频的信号,如音乐和环境声音(其在语音编码方面可以被称为背景噪音)。这些类型的编码器针对编码处理通常不使用语音模型,它们使用用于表示包括语音在内所有类型的音频信号的处理。语音编码器和解码器(编解码器)可以被认为是针对语音信号优化了的音频编解码器,并且可以在固定或可变比特率操作。
音频编解码器也可以被配置来以不同比特率进行操作。在较低比特率处,这样的音频编解码器可以被优化以与纯语音编解码器相等的编码速率对语音信号工作。在较高的比特率处,音频编解码器可以以更高的质量和性能编码包括音乐、背景噪声和语音在内的任何信号。可变速率音频编码解码器还可以实现嵌入式可缩放编码构造和比特流,其中,附加的比特(特定量的比特通常被称为层)改善在低速率处的编码,而其中较高速率的比特流可被截断以获得较低速率编码的比特流。这样的音频编码解码器可以利用纯粹针对语音信号设计的编解码器作为核心层或最低比特速率编码。
音频编解码器被设计为保持高(感知)质量,同时提高压缩比。从而代替波形匹配编码,通常使用各种参数方案来降低比特率。对于多声道音频,例如立体声信号,通常在单声道表示上使用较大量的可用比特率并且利用参数化方法来编码立体声或多声道信息,该方法使用相对较少的比特。
发明内容
根据第一方面,提供一种方法,包括:确定定义至少两个音频信号声道之间的差异的至少一个参数集合;分析所述至少一个参数集合以确定初始趋势;基于所述初始趋势,根据第一映射来映射至少一个参数集合的实例,以生成具有关联顺序位置实例的经映射实例;以及基于所述经映射实例的顺序位置,编码所述经映射实例。
该方法可以进一步包括:确定至少一个后续参数;取决于经映射实例的频率分布和第一映射,映射所述后续实例以生成具有关联顺序位置的经重新映射实例;以及基于所述经重新映射实例的顺序位置,编码所述经重新映射实例。
参数可以包括以下至少一个:双耳间的时间差;和双耳间的电平差。
该方法可以进一步包括标量量化所述参数的实例。
分析所述至少一个参数集合以确定初始趋势可以包括确定以下中的至少一个:所述至少一个参数集合的全体都具有正值;所述至少一个参数集合的全体具有负值;所述至少一个参数集合的大多数具有正值;所述至少一个参数集合的大多数具有负值;所述至少一个参数集合的全体具有较低幅度值;所述至少一个参数集合的全体具有较高的幅度值;和所述至少一个参数集合的全体具有范围限定的幅度值。
基于所述初始趋势,根据第一映射来映射至少一个参数集合的实例,以生成具有关联顺序位置实例的经映射实例可以包括:生成初始映射,其中所述初始趋势值被指派较低或较早顺序。
该方法可以进一步包括:确定第一经映射实例群组的频率分布。
确定第一经映射实例群组的频率分布可以包括:针对所述第一经映射实例群组中的每一个,接收所述第一经映射实例值;递增与所述第一经映射实例值相关联的计数值;递减与除了所述第一经映射实例值之外的实例值相关联的计数值。
取决于所述经映射实例的顺序位置,编码所述经映射实例可以包括:取决于所述经映射实例的顺序位置,将Golomb-Rice编码应用于所述经映射实例。
该方法可以进一步包括:生成表示所述第一映射的指示符;和对已编码单声道表示、已编码已映射实例和表示第一映射的指示符进行复用,以生成已编码多声道音频信号;和输出已编码多声道音频信号。
根据第二方面,提供一种方法,包括:从信号的第一部分解码参数实例并且从第二部分解码参数趋势指示符;和取决于参数趋势指示符,映射所述参数实例以生成解映射参数实例,其中所述映射取决于参数趋势指示符。
该方法可以进一步包括:从信号的第一部分解码另一实例参数;和取决于解映射参数实例的频率分布,映射所述另一参数实例。
从信号的第一部分解码参数实例可以包括:使用Golomb-Rice解码来对信号的第一部分进行解码。
该方法可以进一步包括:确定所述参数实例的频率分布。
确定所述参数实例的频率分布可以包括:针对所述解映射的参数实例群组,保持所述解映射参数实例的计数。
映射所述参数实例可以包括:取决于针对经重新映射参数实例的频率分布的递减发生顺序映射,确定逆映射;和应用逆映射。
根据第三方面,提供一种包括至少一个处理器和至少一个存储器的设备,所述存储器包括用于一个或多个程序的计算机代码,所述至少一个存储器和所述计算机代码被配置来与所述至少一个处理器一起使得所述设备至少执行:确定定义至少两个音频信号声道之间的差异的至少一个参数集合;分析所述至少一个参数集合以确定初始趋势;基于所述初始趋势,根据第一映射来映射至少一个参数集合的实例,以生成具有关联顺序位置实例的经映射实例;以及基于所述经映射实例的顺序位置,编码所述经映射实例。
所述设备可以被进一步使得执行:确定至少一个后续参数;取决于经映射实例的频率分布和第一映射,映射所述后续实例以生成具有相关联顺序位置的经重新映射实例;以及基于所述经重新映射实例的顺序位置,编码所述经重新映射实例。
所述设备可以被进一步使得执行:标量量化所述参数的实例。
分析所述至少一个参数集合以确定初始趋势可以使得该设备执行:确定以下中的至少一个:所述至少一个参数集合的全体都具有正值;所述至少一个参数集合的全体具有负值;所述至少一个参数集合的大多数具有正值;所述至少一个参数集合的大多数具有负值;所述至少一个参数集合的全体具有较低幅度值;所述至少一个参数集合的全体具有较高的幅度值;和所述至少一个参数集合的全体具有范围限定的幅度值。
基于所述初始趋势,根据第一映射来映射至少一个参数集合的实例,以生成具有相关联顺序位置实例的经映射实例可以使得该设备执行:生成初始映射,其中所述初始趋势值被指派较低或较早顺序。
所述设备可以被进一步使得执行:确定第一经映射实例群组的频率分布。
确定第一经映射实例群组的频率分布可以使得该设备执行:针对所述第一经映射实例群组中的每一个,接收所述第一经映射实例值;递增与所述第一经映射实例值相关联的计数值;递减与除了所述第一经映射实例值之外的实例值相关联的计数值。
取决于所述经映射实例的顺序位置,编码所述经映射实例可以使得该设备执行:取决于所述经映射实例的顺序位置,将Golomb-Rice编码应用于所述经映射实例。
所述设备可以被进一步使得执行:生成表示所述第一映射的指示符;和对已编码单声道表示、已编码已映射实例和表示第一映射的指示符进行复用,以生成已编码多声道音频信号;和输出已编码多声道音频信号。
根据第四方面,提供一种包括至少一个处理器和至少一个存储器的设备,所述存储器包括用于一个或多个程序的计算机代码,所述至少一个存储器和所述计算机代码被配置来与所述至少一个处理器一起使得所述设备至少执行:从信号的第一部分解码参数实例并且从第二部分解码参数趋势指示符;和取决于参数趋势指示符,映射所述参数实例以生成解映射参数实例,其中所述映射取决于参数趋势指示符。
所述设备可以被进一步使得执行:从信号的第一部分解码另一实例参数;和取决于解映射参数实例的频率分布,映射所述另一参数实例。
从信号的第一部分解码参数实例可以使得该设备执行:使用Golomb-Rice解码来对信号的第一部分进行解码。
所述设备可以被进一步使得执行:确定所述参数实例的频率分布。
确定所述参数实例的频率分布可以使得该设备执行:针对所述解映射的参数实例群组,保持所述解映射参数实例的计数。
映射所述参数实例可以使得该设备执行:取决于针对经重新映射参数实例的频率分布的递减发生顺序映射,确定逆映射;和应用逆映射。
根据第五方面,提供一种设备,包括:用于确定定义至少两个音频信号声道之间的差异的至少一个参数集合的装置;用于分析所述至少一个参数集合以确定初始趋势的装置;用于基于所述初始趋势,根据第一映射来映射至少一个参数集合的实例,以生成具有关联顺序位置实例的经映射实例的装置;以及用于基于所述经映射实例的顺序位置,编码所述经映射实例的装置。
所述设备可以进一步包括:用于确定至少一个后续参数的装置;用于取决于经映射实例的频率分布和第一映射,映射所述后续实例以生成具有关联顺序位置的经重新映射实例的装置;以及用于基于所述经重新映射实例的顺序位置,编码所述经重新映射实例的装置。
所述设备可以进一步包括:用于标量量化所述参数的实例的装置。
用于分析所述至少一个参数集合以确定初始趋势的装置可以包括:用于确定以下中的至少一个的装置:所述至少一个参数集合的全体都具有正值;所述至少一个参数集合的全体具有负值;所述至少一个参数集合的大多数具有正值;所述至少一个参数集合的大多数具有负值;所述至少一个参数集合的全体具有较低幅度值;所述至少一个参数集合的全体具有较高的幅度值;和所述至少一个参数集合的全体具有范围限定的幅度值。
用于基于所述初始趋势,根据第一映射来映射至少一个参数集合的实例,以生成具有相关联顺序位置实例的经映射实例的装置可以包括:用于生成初始映射的装置,其中所述初始趋势值被指派较低或较早顺序。
所述设备可以进一步包括:用于确定第一经映射实例群组的频率分布的装置。
用于确定第一经映射实例群组的频率分布的装置可以包括:用于针对所述第一经映射实例群组中的每一个,接收所述第一经映射实例值的装置;用于递增与所述第一经映射实例值相关联的计数值的装置;用于递减与除了所述第一经映射实例值之外的实例值相关联的计数值的装置。
用于取决于所述经映射实例的顺序位置,编码所述经映射实例的装置可以包括:用于取决于所述经映射实例的顺序位置,将Golomb-Rice编码应用于所述经映射实例的装置。
所述设备可以进一步包括:用于生成表示所述第一映射的指示符的装置;和用于对已编码单声道表示、已编码已映射实例和表示第一映射的指示符进行复用,以生成已编码多声道音频信号的装置;和用于输出已编码多声道音频信号的装置。
根据第六方面,提供一种设备,包括:用于从信号的第一部分解码参数实例并且从第二部分解码参数趋势指示符的装置;和用于取决于参数趋势指示符,映射所述参数实例以生成解映射参数实例的装置,其中所述映射取决于参数趋势指示符。
所述设备可以进一步包括:用于从信号的第一部分解码另一实例参数的装置;和用于取决于解映射参数实例的频率分布,映射所述另一参数实例的装置。
用于从信号的第一部分解码参数实例的装置可以包括:用于使用Golomb-Rice解码来对信号的第一部分进行解码的装置。
所述设备可以进一步包括:用于确定所述参数实例的频率分布的装置。
用于确定所述参数实例的频率分布的装置可以包括:用于针对所述解映射的参数实例群组,保持所述解映射参数实例的计数的装置。
用于映射所述参数实例的装置可以包括:用于取决于针对经重新映射参数实例的频率分布的递减发生顺序映射,确定逆映射的装置;和用于应用逆映射的装置。
根据第七方面,提供一种设备,包括:声道分析器,被配置来确定定义至少两个音频信号声道之间的差异的至少一个参数集合;数值分析器,被配置来分析所述至少一个参数集合以确定初始趋势;映射器,被配置来基于所述初始趋势,根据第一映射来映射至少一个参数集合的实例,以生成具有关联顺序位置实例的经映射实例;以及编码器,被配置来基于所述经映射实例的顺序位置,编码所述经映射实例。
所述声道分析器可以进一步被配置来确定至少一个后续参数;所述映射器可以进一步被配置来取决于经映射实例的频率分布和第一映射,映射所述后续实例以生成具有关联顺序位置的经重新映射实例;以及所述编码器可以进一步被配置来基于所述经重新映射实例的顺序位置,编码所述经重新映射实例。
所述设备可以包括标量量化器,被配置来标量量化所述参数的实例。
所述分析器可以被配置来确定以下中的至少一个:所述至少一个参数集合的全体都具有正值;所述至少一个参数集合的全体具有负值;所述至少一个参数集合的大多数具有正值;所述至少一个参数集合的大多数具有负值;所述至少一个参数集合的全体具有较低幅度值;所述至少一个参数集合的全体具有较高的幅度值;和所述至少一个参数集合的全体具有范围限定的幅度值。
映射器可以包括初始映射器,被配置来生成初始映射,其中所述初始趋势值被指派较低或较早顺序。
所述设备可以包括计数器,被配置来确定第一经映射实例群组的频率分布。
所述计数器可以包括:输入,被配置来针对所述第一经映射实例群组的每一个,接收所述第一经映射实例值;递增器,被配置来递增与所述第一经映射实例值相关联的计数值;和递减器,被配置来递减与除了所述第一经映射实例值之外的实例值相关联的计数值。
编码器可以包括:Golomb-Rice编码器,被配置来取决于所述经映射实例的顺序位置,将Golomb-Rice编码应用于所述经映射实例。
所述设备可以进一步包括:初始映射指示器,被配置来生成表示所述第一映射的指示符;和复用器,被配置来对已编码单声道表示、已编码已映射实例和表示第一映射的指示符进行复用,以生成已编码多声道音频信号;和输出,被配置来输出已编码多声道音频信号。
根据第八方面,提供一种设备,包括:解码器,被配置来从信号的第一部分解码参数实例并且从第二部分解码参数趋势指示符;和映射器,被配置来取决于参数趋势指示符,映射所述参数实例以生成解映射参数实例,其中所述映射取决于参数趋势指示符。
所述解码器可以进一步被配置来从信号的第一部分解码另一实例参数;和所述映射器可以进一步被配置来取决于解映射参数实例的频率分布,映射所述另一参数实例。
所述解码器可以包括Golomb-Rice解码器。
所述设备可以包括符号计数更新器,被配置来确定所述参数实例的频率分布。
所述符号计数更新器可以被配置来针对所述解映射的参数实例群组,保持所述解映射参数实例的计数。
所述映射器可以包括:逆映射器,被配置来取决于针对经重新映射参数实例的频率分布的递减发生顺序映射,确定逆映射;和逆映射处理器,被配置来应用逆映射。
所述参数可以包括如下至少一个:双耳间的时间差;和双耳间的电平差。
一种计算机程序产品可以使得设备执行本文所述的方法。
一种电子装置可以包括本文所述的设备。
一种芯片组可以包括本文所述的设备。
附图说明
为了更好地理解本发明,现将通过附图的示例进行参考,附图中:
图1示意性地示出了使用一些实施例的电子设备;
图2示意性地示出了根据一些实施例的音频编解码器***;
图3示意性地示出了根据一些实施例如图2所示的编码器;
图4示意性地更详细地示出了根据一些实施例如图3所示的声道分析器;
图5示意性地更详细地示出了根据一些实施例如图3所示的立体声声道编码器;
图6示出了流程图,说明根据一些实施例如图2所示的编码器的操作;
图7示出了流程图,说明根据一些实施例如图4所示的声道分析器的操作;
图8示出了流程图,说明根据一些实施例如图5所示的声道编码器的操作;
图9示意性地示出了根据一些实施例如图2所示的解码器;
图10示出了流程图,说明根据一些实施例如图9所示的解码器的操作;以及
图11到图13示出了使用实施例的示例声道信号、编码声道和编码声道音频信号。
具体实现方式
以下更详细地描述了可能的立体声和多声道语音和音频编解码器,包括分层或可缩放可变速率语音和音频编解码器。就这方面而言,首先对图1进行参考,图1示出了示意性电子装置或设备10的示意框图,其可以并入根据本申请实施例的编解码器。
设备10例如可以是无线通信***的移动终端或用户设备。在其它实施例中,设备10可以是诸如视频摄像机、电视(TV)接收器之类的音频-视频装置、诸如MP3记录器/播放器之类的音频记录器或音频播放器、媒体记录器(也称为MP4记录器/播放器),或者适合于音频信号处理的任何计算机。
在一些实施例中,电子装置或设备10包括麦克风11,其经由模拟到数字转换器(ADC)14链接到处理器21。处理器21通过数字到模拟(DAC)转换器32进一步链接到扬声器33。处理器21还链接到收发器(RX/TX)13,链接到用户接口(UI)15以及链接到存储器22。
处理器21在一些实施例中可以被配置来执行各种程序代码。在一些实施例中实现的程序代码包括如本文所述的多声道或立体声编码或解码代码。所实现的程序代码23在一些实施例中例如可以被存储在存储器22中用于每当需要时由处理器21取回。存储器22可以进一步提供用于存储数据(例如根据本申请的已编码数据)的部分24。
在实施例中的编码和解码代码可以在硬件和/或固件中实现。
用户接口15使用户能够例如通过小键盘输入指令至电子装置10,和/或例如经由显示器获得来自电子装置10的信息。在一些实施例中,触摸屏可以提供用于用户接口的输入和输出功能。在一些实施例中,设备10包括适合于例如经由无线通信网络能够与其它设备的通信的收发器13。
但应再次理解的是,设备10的结构可以以许多方式而被补充或改变。
设备10的用户例如可以使用麦克风11用于输入要被发送到一些其它设备或要被存储在存储器22的数据部分24中的语音或其它音频信号。在一些实施例中,相应的应用可以为此经由用户接口15被用户激活。在这些实施例中,此应用可以由处理器21执行,使得处理器21执行存储在存储器22中的编码代码。
在一些实施例中,模拟到数字转换器(ADC)14将输入的模拟音频信号转换成数字音频信号,并向处理器21提供该数字音频信号。在一些实施例中,麦克风11可以包括集成的麦克风和ADC功能,并且直接向处理器提供数字音频信号以用于处理。
在此类实施例中,处理器21然后以如参考图2中所示的***、如图2至图8所示的编码器以及如图9和图10中所示的解码器所描述的相同的方式处理数字音频信号。
在一些实施例中,所得到的比特流可以被提供给收发器13用于向另一设备传输。可选地,在一些实施例中,已编码的音频数据可以被存储在存储器22的数据部分24中,例如以由相同的设备10用于稍后的传输或者用于稍后呈现。
在一些实施例中,设备10还可以经由收发器13从另一设备接收具有对应的已编码数据的比特流。在这个示例中,处理器21可以执行存储在存储器22中的解码程序代码。在这样的实施例中,处理器21解码所接收的数据,并向数字到模拟转换器32提供已解码的数据。数字到模拟转换器32将数字解码数据转换为模拟音频数据,并且在一些实施例中可以经由扬声器33输出模拟音频。在一些实施例中解码程序代码的执行可以经由用户接口15通过由用户调用的应用而被触发。
在一些实施例中,代替经由扬声器33立即呈现,接收到的编码数据也可以被存储在存储器22的数据部分24中,例如用于稍后解码和呈现或解码和转发到另一设备。
应该理解,图3至图5和图9中所描述的示意性结构,以及图6至图8和图10中所示的方法步骤仅仅表示如示意性地示出的实现在图1所示设备中的立体声编码器/解码器设备或方法的特定部分和音频编解码器的一部分操作。
实施例所使用的音频编解码器的一般操作在图2中示出。如图2中所示意性示出的,一般音频编码/解码***包括编码器和解码器二者。然而,应该理解,一些实施例可以实现编码器或解码器之一,或者编码器和解码器二者。图2所示的是***102,具有编码器104尤其具有立体声编码器151、存储或媒体声道106和解码器108。应该理解,上述一些实施例可以包括或实现编码器104或解码器108之一或者编码器104和解码器108二者。
编码器104压缩输入的音频信号110,产生比特流112,其在一些实施例中可以被存储或通过媒体声道106被发射。编码器104还可以包括作为整个编码操作一部分的立体声编码器151。应该理解,立体声编码器可以是整个编码器104的一部分或者是独立的编码模块。编码器104还可以包括多声道编码器,其编码两个以上音频信号。
比特流112可以在解码器108中被接收。解码器108对比特流112进行解压缩,并产生输出音频信号114。解码器108可以包括作为整个解码操作一部分的立体声解码器。应该理解,立体声解码器可以是整个解码器108的一部分或者是单独的解码模块。解码器108还可以包括多声道解码器,其解码两个以上音频信号。关于输入信号110的输出音频信号114的质量和比特流112的比特率是定义编码***102的性能的主要特征。
图3示意性地示出了根据一些实施例的编码器104。
图6在流程图中示意性地示出了根据一些实施例的编码器104的操作。
对于如本文所述的实施例的概念是尝试形成立体声或多声道编码以产生高效率的高质量且低比特率立体声或多声道信号编码。整数编码器内Golomb-Rice编码的使用能够产生适于提供良好压缩效率的非常低复杂度的编码器,其中数据是指数分布。其中编码符号的数量未知或未固定的情况例如可以使用Golomb-Rice代码或熵编码。此外,整数的Golomb-Rice或熵编码可以在量化码矢量索引上被执行,以降低比特率。
应该理解,对立体声音频信号的双耳表示中的量化的子带水平差异的索引进行编码产生了这样的数值,其中概率分布显著地逐帧变化。被配置来对数据的平均值进行编码的熵编码器因此将产生次最佳结果。虽然自适应Golomb-Rice编码可以产生更大的效益,但是它们会具有缓慢的响应时间,其中编码的自适应特性跟踪量化的输出。
因此,在实施例中,低复杂度的自适应熵编码在此使用Golomb-Rice编码方案来描述以产生低比特率和低复杂度编码器,但是通过使用信息的初始分析或者通过使用量化的差异和延迟值的预期分布的知识,可以定义初始编码映射,其可以降低在编码的初始化与近似最佳映射的编码之间的跟踪延迟。例如从一开始就知晓仅仅遇见符号集合的一个子集,则能够提高自适应效率或优化跟踪,其中,使用了此额外的信息。因此,本文所描述的概念要检测当针对当前帧和信号使用符号子集(较少不同的符号被使用)时哪些符号被使用的情况。此外,该概念描述了其中小数量的此类情况被考虑,否则有关哪些符号被使用的信息将很快充满可用比特率。此外本文所描述的概念进一步提议定义和检测这些情况,以及它们对应的编码过程。
针对本文所描述的实施例的概念要确定和应用立体声编码模式以产生高效率的高质量且低比特率的现实生活中的立体声信号编码。就此方面而言,相对于图3,示出了根据一些实施例的示例编码器104。此外,相对于图6,更详细地示出了编码器104的操作。
在一些实施例中,编码器104包括帧分段器/变换器201。帧分段器/变换器201被配置来接收左和右(或者更一般地说,任何多声道音频表示)输入音频信号,并生成这些音频信号的频域表示以便被分析和编码。这些频域表示可以被传递到声道参数确定器203。
在一些实施例中,帧分段器/变换器可以被配置来将音频信号数据分段或分割成适合于频域变换的分段或帧。在一些实施例中,帧分段器/变换器201可以进一步被配置来根据任何合适的窗函数对音频信号数据的这些帧或分段进行窗口操作。例如,该帧分段器/变换器201可以被配置来生成20ms的帧,其对于在前和在后帧的每一个都重叠10ms。
在一些实施例中,帧分段器/变换器可以被配置来对音频信号数据执行任何合适的时域到频域变换。例如时域到频域变换可以是离散傅立叶变换(DFT),快速傅立叶变换(FFT),修改的离散余弦变换(MDCT)。在下列示例中,快速傅立叶变换(FFT)被使用。另外,时域到频域变换器的输出可以进一步被处理以生成每个输入声道音频信号数据的分开的频带域表示(子带表示)。这些频带可以以任何合适的方式来布置。例如,这些频带可以被线性地间隔开,或者被感性的或心理声学地分配。
在一些实施例中,取决于用于对数据进行编码的带宽,可以存在不同的子带集合。例如,在一些实施例中,可以是宽带(WB)、超宽带(SWB)以及全频带(FB)带宽编码实现,其中SWB实现比WB实现使用更多的比特,FB比SWB实现使用更多的比特。在一些实施例中,针对不同的声道差异(如本文所述)使用,可以有不同的子带。例如,如下所述,对于三个考虑的带宽的每一个:宽带(WB),超宽带(SWB),以及全频带(FB),可以有特定的子带划分,其对于延迟和电平差异(电平)略有不同。
/*针对延迟的子带划分*/
常量短规模1024_WB[]=
{1,5,8,12,20,34,48,56,120,512};
常量短规模1024_SWB[]=
{1,2,4,6,10,14,17,24,28,60,256,512};
常量短规模1024_FB[]=
{1,2,3,4,7,11,16,19,40,171,341,448/*~21kHz*/};
/*针对电平差异的子带划分*/
常量短scf_band_WB[]=
{1,8,20,32,44,60,90,110,170,216,290,394,512};
常量短scf_band_SWB[]=
{1,4,10,16,22,30,45,65,85,108,145,197,256,322,412,512};
常量短scf_band_FB[]=
{1,3,7,11,15,20,30,43,57,72,97,131,171,215,275,341,391,448/*~21kHz*/};
生成音频帧频带频域表示的操作在图6中通过步骤501来示出。
在一些实施例中,频域表示被传递给声道分析器/编码器203。
在一些实施例中,编码器104可以包括声道分析器/编码器203。声道分析器/编码器203可以被配置来接收多声道或立体声输入的子带滤波的表示。在一些实施例中,声道分析器/编码器203可以进一步被配置来分析频域音频信号,并相对于立体声或多声道音频信号差异来确定与每个子带相关联的参数。此外,声道分析器/编码器可以使用这些参数,并生成可以根据任何合适的编码被编码的单声道。
换句话说,在一些实施例中,参数包括在每对“延迟”子带之间估计的延迟。此外,在一些实施例中,遵循延迟的发现,两个声道可以被对准并且针对对准的声道计算电平差异。在一些实施例中,从两个对准的声道中,单声道信号可以被形成并利用单核编码器被编码。此外在一些实施例中,双耳参数可以被编码并形成编解码器的双耳延伸。在一些实施例中,在FFT域中可以存在两个连续的窗口,针对其为每一帧估计双耳参数。在一些实施例中仅开头7个延迟值被编码,因此,每帧总共14个延迟值要被编码。
立体声参数及单声道编码信号可以被传递到量化器优化器205。
确定所述立体声参数和生成单声道以及对该单声道进行编码的操作在图6中由步骤503来示出。
相对于图4,进一步详细地描述了根据一些实施例的示例声道分析器/编码器203。此外相对于图7,根据一些实施例示出了如图4所示的声道分析器/编码器203的操作。
在一些实施例中,声道分析器203包括相关/偏移确定器301。相关/偏移确定器301被配置成确定两个声道(或多声道音频信号的部分)之间的每子带的偏移或相关性。该偏移(或最好的相关索引COR_IND[j])例如可以使用下面的代码来确定。
其中,值MAXSHIFT是最大允许偏移(该值可以基于所支持的麦克风布置的模式或者更简单地基于麦克风之间的距离),PI是π,COR_INIT是初始相关值或大的负值用来初始化相关计算,并且COR_BAND_START[]定义子带的起始点。矢量svec_re[]和svec_im[],对于矢量的实部和虚部值,本文所用的定义如下:
确定相关/偏移值的操作在图7中由步骤551来示出。
在一些实施例中,相关/偏移值可以被传递给单声道生成器/编码器并且作为立体声声道参数传递给量化器优化器。
此外,在一些实施例中,相关/偏移值被应用到音频声道中的一个,以提供声道之间的时间对准。在一些实施例中这些对准的声道音频信号可以被传递给相对能量信号电平确定器301。
使用相关/偏移值对准声道的操作在图7中由步骤552示出。
在一些实施例中,声道分析器/编码器203包括相对能量信号电平确定器301。相对能量信号电平确定器301被配置来接收输出对准的频域表示,并确定在针对每个子带的声道对之间的相对信号电平。应该理解,在以下示例中,单个声道对被分析和处理,但是,这可以通过适合的多声道***配对而被延伸到任何数量的声道。
在一些实施例中,针对每个频带的相对电平可以使用以下的代码来计算。
其中,L_FFT是FFT的长度,EPSILON是大于零的一个小数值以防止被零除的问题。在这样的实施例中,相对能量信号电平确定器针对每个声道(L和R)在每个子带上有效地生成幅度确定,然后除以另一声道值,以产生相对值。在一些实施例中,相对能量信号电平确定器301被配置来向编码模式确定器205输出相对能量信号电平。
确定相对能量信号电平的操作在图7中由步骤551示出。
在一些实施例中相对能量信号电平值可以被传递给单声道生成器/编码器并且作为立体声声道参数被传递给量化器优化器。
在一些实施例中,可以执行任何合适的电平间(能量)和时间间(相关或延迟)的差异估计。例如,对于每一帧可以存在两个窗口,针对这两个窗口估计延迟和水平。此外,在一些实施例中,针对每个窗口的延迟可以针对每一个延迟相关子带而被估计。
在一些实施例中,编码器104包括单声道生成器/编码器305。单声道生成器被配置来接收声道分析器的值,例如来自相对能量信号电平确定器301的相对能量信号电平,以及来自相关/偏移确定器303的相关/位移电平。另外,在一些实施例中,单声道生成器/编码器305可以被配置来进一步接收输入多声道音频信号。在一些实施例中单声道生成器/编码器305可以被配置来将延迟和电平的差异应用到多声道音频信号,以生成表示该音频信号的“对准”声道。换言之,单声道生成器/编码器305可以生成表示对准的多声道音频信号的单声道信号。例如,在确定存在左声道音频信号和右声道音频信号的一些实施例中,左或右声道音频信号中的一个根据所确定的延迟差异相对于另一个被延迟,然后延迟的声道和另一声道音频信号被平均以生成单声道信号。然而,应该理解,在一些实施例中,任何合适的单声道生成方法都可以被实施。
从多声道信号生成单声道信号的操作在图7中由步骤555示出。
在一些实施例中单声道生成器/编码器305然后可以使用任何适当的编码格式对所生成的单声道音频信号进行编码。例如,在一些实施例中,单声道音频信号可以使用增强话音业务(EVS)单声道编码形式来被编码,其可以包含位流互操作版本的自适应多速率-宽带(AMR-WB)编解码器。
编码单声道的操作在图7中由步骤557示出。
然后已编码单声道信号可以被输出。在一些实施例中,已编码单声道信号被输出到复用器,以与量化器优化器205的输出进行合并以形成单个流或输出。在一些实施例中,已编码单声道信号分开地从量化优化器205输出。
在一些实施例中,编码器104包括量化器优化器205。量化器优化器205可以被配置来接收由声道分析器203确定的立体声(差异)参数。在一些实施例中量化器优化器205然后可以被配置来对参数执行量化并且还对参数进行编码,从而使得它们可以被输出(或者要被存储在设备上或传递给另一设备)。
量化和编码量化的立体声参数的操作在图6中由步骤505示出。
相对于图5,更详细地示出了量化器优化器205。此外,相对于图8,示出了根据一些实施例的量化器优化器205的操作。
在一些实施例中,量化器优化器205包括标量量化器451。标量量化器451被配置来从声道分析器203接收立体声参数。
在一些实施例中要被编码的电平差的数量取决于信号的带宽(例如2x12(WB),2x(SWB),2x17(FB))。
接收立体声参数的操作在图8中由步骤701示出。
标量量化器可以被配置来对这些值执行标量量化。
在一些实施例中可以用7个2维码本对延迟值进行编码,每一个都具有最大32个码矢。对于双耳延伸的比特率原理上可以是介于0和7.0kbps之间的任何值。在实施例具有0kbps的双耳延伸的情况下,则单声道版本的信号被解码。在一些实施例中,延伸比特率在延迟和电平之间以恒定比率(例如1/3针对延迟,2/3针对电平)被自动划分。
在以下的说明中,描述了电平编码或量化,但是应当理解,在一些实施例中,可以很容易地延伸,以覆盖延迟编码或量化。
此外,应该理解,在一些实施例中,在双耳延伸中有两种模式:真实双耳和远近立体声。远近立体声模式对应于一个声道为主导并且它通常具有语音材料而第二声道主要是环境声音时的情况。在这样的情形中,处于远近立体声模式中的帧具有标志相同的所有或几乎所有的电平差值。
例如,标量量化器451可以被配置来利用由如下数组定义的量化分区区域对数值进行量化。
Q={-10000.0,-8.0,-5.0,-3.0,-1.0,1.0,3.0,5.0,8.0,100000.0}
标量量化器451从而可以输出与量化划分区域内电平差值出现在其中的区域相关联的索引值符号。例如初始量化索引值输出可以如下:
在一些实施例中索引值可以被输出到帧值分析器452和重新映射器454。
对差异或立体声参数或符号进行量化以生成索引值或符号的操作由步骤703示于图8中。
在一些实施例中,量化器优化器205包括帧值分析器452。在一些实施例中帧值分析器452可以被配置来接收标量量化器451的输出(换句话说,与在其内发现立体声或差参数的量化分区区域相关联的索引值),并且确定是否仅仅符号的已知模式或子集在该帧内。
例如,如本文中所描述的,当远-近立体声信号正在被编码(其中,有主声道)时,帧具有带有相同标志的所有或几乎所有的电平差。
因此,在一些实施例中,帧值分析器452可以检查或分析帧信息,以确定该帧是否是所有都为正,所有为都负,几乎所有为正,或几乎所有为负。
在一些实施例中,帧值分析器452可以确定几乎所有结果分析,其中在帧内的值被显著偏置为正或负的标志。例如,通过对正值和负值的出现之间的差进行计分,并记录显著大的幅度值。
在一些实施例中,帧值分析器452可以被配置来向映射初始化器453输出分析的结果。此外,在一些实施例中,帧值分析器452可以被配置来向帧值/初始映射指示器456输出相同结果。
例如,在一些实施例中,帧值分析器可以向映射初始化器453和帧值/初始映射指示器456传递关于所有帧是否所有都为正,大多数为正,大多数为负还是所有都为负的指示。
尽管在随后的示例中分析是针对初始帧的一种“标志”确定,但是应该理解,在一些实施例中,可以从分析中确定其它类型的趋势,例如低幅度差异或高幅度差异的趋势。
换言之,帧值分析器452可以被配置来确定帧符号是否是(或服从)一种趋势。该趋势可以被预定或者在一些实施例中可以从数据中推断。
分析符号/参数以确定趋势的操作在图8中由步骤705示出。
在一些实施例中,量化器优化器205包括映射初始化器453。映射初始化器453在一些实施例中被配置来从帧值分析器452接收关于帧值遵循的趋势的指示(例如所有都为正,几乎所有为正,几乎所有为负,或所有都为负)。在这样的实施例中,映射初始化器453可以输出用于标量量化的符号值的映射的初始映射。
例如,在其中映射初始化器453接收关于帧是所有都为正的指示的一些实施例中,初始映射可以是:
索引输入 0 1 2 3 4 5 6 7 8
映射输出 (8) (7) (6) (5) 0 1 2 3 4
在其中映射初始化器453接收关于帧是所有都为负的指示的一些实施例中,初始映射可以是:
索引输入 0 1 2 3 4 5 6 7 8
映射输出 4 3 2 1 0 (5) (6) (7) (8)
在一些实施例中,括号之间的符号不必考虑在内,因为它们没有出现,所以仅有5个不同的符号值要被编码。这些实施例可以取决于映射分析器如何执行而被实现。例如,在一些情况下,除了极少的(不一定是最接近原点)之外所有值都是负/正的。于是在这种情况下,在括号中的值可以被使用,并且它们很少出现的这一事实将通过它们的长码长度被处罚,而不会影响其它符号编码。在一些可以肯定所有符号都为负/正的实施例中,则在括号中的值不应该被使用,因为会不必要地增加处理的复杂性和存储器。
其中,如果映射初始化器453接收关于帧具有为正的几乎所有量化电平(所有量化的电平大于或等于-1)的指示,那么初始映射可以是:
索引输入 0 1 2 3 4 5 6 7 8
映射输出 (8) (7) (6) 2 0 1 3 4 5
类似地,如果映射初始化器453接收关于帧具有为负的几乎所有量化电平(所有量化的电平大于或等于-1)的指示,那么初始映射可以是:
索引输入 0 1 2 3 4 5 6 7 8
映射输出 5 4 3 1 0 2 (6) (7) (8)
在这两种情况下,仅有6个不同的符号值要被编码。
映射初始化器453可以将初始映射传递给重新映射器454以供进一步适配。
基于分析生成初始映射的操作在图8中由步骤707示出。
在一些实施例中,量化的优化器205包括帧值/初始映射指示器456。在一些实施例中,帧值/初始映射指示器456可被配置来从帧值分析器452接收输出分析的指示,该输出分析可被映射初始化器453使用来确定初始映射。然后帧值/初始映射指示器456可以生成针对该帧的信号映射以便被传递给解码器。
例如,在一些针对远近模式使用上述四种趋势(所有都为正,几乎所有为正,几乎所有为负,所有都为负)的实施例中,帧值/初始映射指示器456可以被配置来生成针对初始映射已经使用的模式所定义的模式位和两个信号位(一个“所有”位和一个“标志”位)。
信令位的设置例如可以作为示例摘要被示出。
1、如果远近模式
1.1.设置模式位
1.2.检查是否所有都为正
1.2.1.使用所有正的初始映射
1.2.2.将“所有”位设置为1
1.2.3.将标志位设置为0
1.2.4.返回
1.3.检查是否所有都为负
1.3.1.使用所有负的初始映射
1.3.2.将“所有”位设置为1
1.3.3.将标志位设置为1
1.4.返回
1.5.如果几乎所有为正
1.5.1.使用放松的几乎所有为正的初始映射
1.5.2.将“所有”位设置为0
1.5.3.将标志位设置为0
1.5.4.返回
1.6.其它
1.6.1.用放松的几乎所有为负的初始映射
1.6.2.将“所有”位设置为0
1.6.3.设置标志位为1
1.7.返回
2.其它
2.1.设置模式位
2.2.使用通用初始映射
例如对于上面的示例,信令可以由此通过至少一个比特和至多3个比特来实现。
设置初始映射/分析指示器的操作在图8中由步骤709示出。
在一些实施例中量化器优化器205包括重新映射器454。在一些实施例中,重新映射器454可以被配置来接收标量量化器451的输出(换句话说,与在其内发现立体声或差参数的量化分区区域相关联的索引值),然后根据该索引值的出现频率,但使用来自映射初始化器453的初始映射,来映射针对每个帧的索引值。
在一些实施例中,重新映射器454可以执行帧值分析器452和映射初始化器453的角色,以生成初始映射。在以下实施例中,在进入下文所示的adapt_GR功能之前应用初始映射,其中,通过基于计数值重排来进行进一步改变。在一些实施例中,adapt_GR功能可以应用初始映射以替换在此处的功能中示出的微不足道的初始1:1映射。
重新映射器454例如可以针对每帧分析每个子带量化差异值并且在每次分析之后执行索引值的重排。
例如,重新映射器454可以通过如下的C代码来表示。
跟随着变量定义部分的标有*init map*(或initial mapping(初始映射))的部分生成初始映射,其中,符号或量化器索引输出i=0到i=no_symb-1(换句话说,不同量化器索引值的数量,其对于上面示出的例子来说是9{0,1,..7,8})。
跟随着初始映射、重新映射的部分示出:将索引值或符号从较高频率子带读出到较低频率子带,并且根据该帧中的符号的计数值而被重新映射。在这里示出的示例中,通过保持符号或索引值的运行计数来确定计数值,其中,“过去”的符号的影响被向下加权一个0.9的复发因子。
复发因子,计数递增因子以及重新映射或重排可以根据一些实施方式而有所变化。例如,在一些实施例中复发因子可以是低于0.9的值,以便给过去的索引或符号值较小的加权。例如,在其它实施例中,复发因子针对不同的过去的编码符号可以具有不同的值,即对于先前编码的符号为0.9而针对第二先前编码符号为0.8等。例如,在一些实施例中,重排可以这样进行,其中具有相同计数值的符号被给出。此外,在一些实施例中,在相等计数值的情形或情况下,较低值符号被排序或映射以获得具有较小码长的位置,或者反之亦然,其中从上下文已知,高值符号的概率越高。
重新映射器454的输出于是被输出到编码器,其中该输出根据索引值或符号穿过窗口或子带在帧内的出现而排序索引值或符号。
在本文所描述的示例中,编码器在编码发生时执行重新映射。在一些实施例中,对每一帧进行分析,并且一旦整个帧被分析,则符号的分配或频率被用来确定符号的重新映射。
根据频率重新映射索引值或符号的操作在图8中由步骤711示出。
在一些实施例中量化器优化器205可以包括Golomb-Rice编码器455。Golomb-Rice编码器(GR编码器)455被配置来接收由重新映射器生成的重新映射的索引值或符号并且根据所述Golomb-Rice编码方法对索引值进行编码。因此Golomb-Rice编码器455在这样的实施例中输出表示当前和先前的索引值的码字。
Golomb-Rice整数代码(GR参数等于0)的一个示例是一,其中输出如下。
输入 0 1 2 3 4 5 6 7 8
输出 0 10 110 1110 11110 111110 1111110 11111110 111111110
应该理解,在一些实施例中具有非零参数的Golomb-Rice整数代码,或者多个参数可以用来对索引值进行编码。此外,应该理解,任何适当的熵或整数编码可以代替已经例如在这里被描述的GR整数代码而被使用。
根据Golomb-Rice编码***生成码字的操作在图8中由步骤713示出。
GR编码器455然后可以输出立体声码字。在一些实施例中,码字被传递到复用器以与已编码单声道音频信号进行混合。然而,在一些实施例中,立体声码字可以在一些实施例中作为单独流被传递以便被存储或者被传递到其它设备。
输出立体声码字和初始映射指示符的操作在图8中由步骤715示出。
在一些实施例中,编码器包括信号输出207。如图3所示的信号输出表示这样的输出:其被配置来传递要被存储或者要被发送给另一设备的已编码立体声参数。
已编码立体声参数的输出在图6中由步骤507示出。
因此,概括而言,关于量化器优化器描述的实施例如下:
-接收差值
-量化差值以生成表示量化映射区域的符号(换句话说,生成符号的阵列以编码,x,x[i]\in[0,N-1],i=1:M)
-分析差值/符号,以确定它们是否是符号总数的趋势/已定义的子组
-基于分析,例如确定符号是所有都为正并因此生成第一映射,来从符号(索引值)生成初始映射,从而使得等于或大于零的差值被给予较小的GR码
-生成初始计数Count[j]=1,j=0:N-1(针对每个符号的初始计数阵列)
-针对每个符号(对于i=0:length(x)-1)
-编码x[i]
-更新计数:
i.Count[j]=0.9*Count[j],j=0:N-1(过去的加权)
ii.Count[x[i]]=Count[x[i]]+1;
-基于发生的频率对符号重排,以使得最频繁的是在第一位置(将用对于0的GR代码进行编码)
结束
为了充分示出编解码器的操作,图9和图10示出了根据一些实施例的解码器和解码器的操作。
在一些实施例中,解码器108包括单声道解码器801。单声道解码器801在一些实施例中被配置来接收已编码单声道信号。
接收已编码单声道音频信号的操作在图10中由步骤901示出。
此外,单声道解码器801可被配置来使用编码器中示出的对单声道编码器的逆过程来对已编码单声道音频信号进行解码。
对单声道进行解码的操作在图10中由步骤903示出。
在一些实施例中单声道解码器801可以被配置来向立体声声道生成器809输出单声道音频信号。
在一些实施例中,解码器108可以包括立体声声道解码器803。立体声声道解码器803被配置来接收已编码立体声参数和初始映射指示符。这些可以被传递到符号初始顺序确定器806。
接收已编码立体声参数和初始映射指示符的操作在图10中由步骤902示出。
此外,立体声声道解码器803可以被配置来解码来自熵代码的立体声声道信号。例如可以如在此所示的那样使用示例代码的反向,从而使得
输出 0 1 2 3 4 5 6 7 8
输入 0 10 110 1110 11110 111110 1111110 11111110 111111110
对立体声参数进行解码的操作在图10中由步骤904示出。
在一些实施例中,解码器108可以包括符号初始顺序确定器806。符号初始顺序确定器可以被配置来基于初始映射指示符,生产初始映射,并且根据初始映射,将符号值变换成为初始解映射符号。
因此,例如当初始映射指示符确定该帧是所有都为正的时,初始解映射可以是:
重新映射输出 0 1 2 3 4 5 6 7 8
输入 (8) (7) (6) (5) 0 1 2 3 4
产生初始解映射的操作在图10中由步骤905示出。
在一些实施例中,符号初始顺序确定器806被进一步配置来向符号重排器807输出解码的索引值。
在一些实施例中,解码器包括符号计数更新器805。符号计数更新器805可以被配置来接收当前帧立体声声道索引值(已解码和重排的符号)并且使用与解码器中所使用相同的计数处理来保持重排(重新映射)的值的计数。换句话说,符号计数更新器805被配置来基于帧中当前解码的符号来更新计数器。符号计数更新器805被配置来针对每个计数复位计数,从而使得针对每个帧进行重排/重新映射。
(符号)索引计数或频率顺序可以被输出到符号重排器807。
在一些实施例中,解码器108包括符号重排器807。在一些实施例中,符号或索引重排器(解映射器)被配置来接收符号计数更新器输出(换言之,索引/符号计数频率),并根据符号频率重排从立体声声道解码器803接收的已解码符号。换句话说,符号重排器807被配置来将索引值重排为标量量化器输出的原始顺序。此外,在一些实施例中,符号重排器807被配置来使用对于编码器中的量化器优化器的量化器部分中所定义的逆过程,来将重新映射或重排的索引值解量化为参数(诸如耳间时间差/相关值;以及耳间电平差/能量差值)。
对已解码符号进行重排和解量化以针对每个帧生成解量化(再生)立体声参数的操作在图10中由步骤906示出。
符号计数更新器805可以接收重排的符号,并更新计数。针对下一个符号重排的符号计数数据可以被输出到符号重排器807。
帧内的符号(索引)计数的更新在图10中由步骤907示出。
符号重排器807此外可以向立体声声道生成器输出重排的索引值。
立体声参数向立体声声道生成器的输出在图10中由步骤908示出。
在一些实施例中,解码器包括立体声声道生成器809,其配置来接收重排的已解码符号(立体声参数)和已解码单声道,并且再生立体声声道,换句话说,将电平差应用到单声道以生成第二声道。
从单声道立体声参数生成立体声声道的操作在图10中由步骤909示出。
关于图11、图12和图13,以原始的形式、传统的编码形式以及根据实施例被编码的形式示出双声道音频信号的示例。
图11例如示出了:音频轨迹的第二部分示出示例远近立体声候选,其中上部声道1001显然占主导超过下部声道1003。
图12示出了使用32kbps核心和4.5kps双耳延伸进行编码并使用传统双耳编码***进行解码的来自图11的音频信号,其中在编码/解码过程中的错误产生由于编码跟踪差错引起的可听下部声道1103毛刺1105。
图13示出了使用32kbps核心和4.5kps双耳延伸进行编码并使用如上所述的一些实施例进行解码的来自图11的音频信号。图13示出了下部声道1203,其更接近图11的下部声道1003。
虽然上述实施例描述了在设备10内的编解码器内操作的应用的实施例,但应当理解,如下所述,本发明可以被实现为任何音频(或语音)编解码器的部分,包括任何可变速率/自适应速率音频(或语音)编解码器。因此,例如,本申请的实施例可以被实施在可以通过固定或有线通信路径实现音频编码的音频编解码器中。
因此用户设备可以包括诸如在上面的本申请实施例中所描述的那些之类的音频编解码器。
应当理解的是,术语“用户设备”旨在覆盖任何适当类型的无线用户设备,例如移动电话、便携式数据处理设备或便携式web浏览器。
此外,如上所述,公共陆地移动网(PLMN)的元件也可以包括音频编解码器。
一般来说,本申请的各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实施。例如,一些方面可以以硬件实现,而其它方面可以以固件或可由控制器、微处理器或其它计算设备执行的软件来实现,但本发明不限于此。而应用的各个方面可以被示出和描述为框图、流程图、或者使用一些其它图形表示,但是很好理解的是,作为非限制性的示例,本文中描述的这些块、设备、***、技术或方法可以被实现在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备、或其某些组合中。
本申请的实施例可以由移动设备的数据处理器(诸如在处理器实体中)可执行的计算机软件、或者由硬件、或由软件和硬件的组合来实现。此外,就此而言,应注意的是,如在图中的逻辑流的任何块可以表示程序步骤、或互连的逻辑电路、块和功能、或程序步骤和逻辑电路、块和功能的组合。
存储器可以是适合于本地技术环境的任何类型,并且可以使用任何适当的数据存储技术来实现,诸如基于半导体的存储器设备、磁存储器设备和***、光学存储器设备和***、固定存储器和可移动存储器。数据处理器可以是适合于本地技术环境的任何类型,并且作为非限制性的例子,可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门级电路和基于多核处理器架构的处理器中的一个或多个。
本申请的实施例可以实施于各种组件(例如集成电路模块)中。集成电路的设计基本上是高度自动化的过程。复杂且强大的软件工具可用于将逻辑级设计转换成准备好要被蚀刻和形成在半导体基板上的半导体电路设计。
比如由加利福尼亚州芒廷维尤市的Synopsys公司和加利福尼亚州旧金山市Cadence设计提供的程序,这样的程序使用建立好的设计规则以及预存的设计模块库在半导体芯片上自动地对导体进行布线和对部件进行定位。一旦已经完成用于半导体电路的设计,可以将标准化电子格式(例如Opus,GSDII等)的所得设计发送到半导体制造设施以供制造。
正如在此所使用的,术语“电路”是指以下所有:
(a)只有硬件的电路实现(例如在仅模拟电路和/或数字电路中的实现);
(b)电路与软件(和/或固件)的结合,比如:(i)处理器的结合或(ii)处理器/软件的部分(包括数字信号处理器),软件和存储器,一起工作以使得设备比如移动电话或服务器执行各种功能;以及
(c)电路,诸如微处理器或微处理器的一部分,其需要用于操作的软件或固件——即便该软件或固件并非实体上存在亦如此。
“电路”的这种定义适用于本申请中此术语的全部用途,包括在任何权利要求中的用途。作为又一个示例,正如在此所使用的,术语“电路”也覆盖这样一个实现,其包含仅一个处理器和/或其部分以及它(它们)随附的软件和/或固件。例如,并且如果可应用到特定权利要求元素,术语“电路”也将覆盖移动电话的基带集成电路或应用处理器集成电路,或者在服务器、蜂窝网络装置或其它网络装置中的类似的集成电路。
以上描述已经通过示例性而非限制性的例子提供了对本发明的示例性实施例的既完全又具启发性的描述。然而,鉴于结合附图和所附权利要求来阅读时的以上描述,各种修改和适应对于本领域技术人员而言可以变得清楚。然而,对本发明的教导的所有此类和类似修改仍将落入由所附权利要求所定义的本发明的范围内。

Claims (37)

1.一种方法,包括:
确定定义至少两个音频信号声道之间的差异的至少一个参数集合;
分析所述至少一个参数集合以确定初始趋势;
基于所述初始趋势,根据第一映射来映射所述至少一个参数集合的实例,以生成具有关联顺序位置实例的经映射实例;以及
基于所述经映射实例的顺序位置,编码所述经映射实例。
2.如权利要求1所述的方法,进一步包括:
确定至少一个后续参数;
取决于经映射实例的频率分布和所述第一映射,映射后续实例以生成具有关联顺序位置的经重新映射实例;以及
基于所述经重新映射实例的顺序位置,编码所述经重新映射实例。
3.如权利要求1和2所述的方法,其中所述参数包括以下至少一个:
双耳间的时间差;和
双耳间的电平差。
4.如权利要求1至3所述的方法,进一步包括:标量量化所述参数的实例。
5.如权利要求1至4所述的方法,其中,分析所述至少一个参数集合以确定初始趋势包括确定以下中的至少一个:
所述至少一个参数集合的全体都具有正值;
所述至少一个参数集合的全体具有负值;
所述至少一个参数集合的大多数具有正值;
所述至少一个参数集合的大多数具有负值;
所述至少一个参数集合的全体具有较低幅度值;
所述至少一个参数集合的全体具有较高的幅度值;和
所述至少一个参数集合的全体具有范围限定的幅度值。
6.如权利要求1至5所述的方法,其中,基于所述初始趋势,根据第一映射来映射所述至少一个参数集合的实例以生成具有关联顺序位置实例的经映射实例包括:生成初始映射,其中所述初始趋势值被指派较低或较早的顺序。
7.如权利要求1至6所述的方法,进一步包括:确定第一经映射实例群组的频率分布。
8.如权利要求7所述的方法,其中,确定第一经映射实例群组的频率分布包括:
针对所述第一经映射实例群组中的每一个,接收所述第一经映射实例值;
递增与所述第一经映射实例值相关联的计数值;
递减与除了所述第一经映射实例值之外的实例值相关联的计数值。
9.如权利要求1至8所述的方法,其中,取决于所述经映射实例的顺序位置,编码所述经映射实例包括:取决于所述经映射实例的顺序位置,将Golomb-Rice编码应用于所述经映射实例。
10.如权利要求1至9所述的方法,进一步包括:
生成表示所述第一映射的指示符;和
对已编码单声道表示、已编码已映射实例和表示第一映射的指示符进行复用,以生成已编码多声道音频信号;和
输出所述已编码多声道音频信号。
11.一种方法,包括:
从信号的第一部分解码参数实例并且从第二部分解码参数趋势指示符;和
取决于所述参数趋势指示符,映射所述参数实例以生成解映射参数实例,其中所述映射取决于所述参数趋势指示符。
12.如权利要求11所述的方法,进一步包括:
从信号的所述第一部分解码另一实例参数;和
取决于所述解映射参数实例的频率分布,映射所述另一参数实例。
13.如权利要求11和12所述的方法,其中,从信号的第一部分解码参数实例包括:使用Golomb-Rice解码来对信号的第一部分进行解码。
14.如权利要求11至13所述的方法,进一步包括:确定所述参数实例的频率分布。
15.如权利要求14所述的方法,其中,确定所述参数实例的频率分布包括:针对所述解映射的参数实例群组,保持所述解映射参数实例的计数。
16.如权利要求11至15所述的方法,其中映射所述参数实例包括:
取决于针对经重新映射参数实例的频率分布的递减发生顺序映射,确定逆映射;和
应用所述逆映射。
17.一种包括至少一个处理器和至少一个存储器的设备,所述存储器包括用于一个或多个程序的计算机代码,所述至少一个存储器和所述计算机代码被配置来与所述至少一个处理器一起使得所述设备至少执行:
确定定义至少两个音频信号声道之间的差异的至少一个参数集合;
分析所述至少一个参数集合以确定初始趋势;
基于所述初始趋势,根据所述第一映射来映射至少一个参数集合的实例,以生成具有关联顺序位置实例的经映射实例;以及
基于所述经映射实例的顺序位置,编码所述经映射实例。
18.如权利要求17所述的设备,进一步使得执行:
确定至少一个后续参数;
取决于经映射实例的频率分布和所述第一映射,映射所述后续实例以生成具有关联顺序位置的经重新映射实例;以及
基于所述经重新映射实例的顺序位置,编码所述经重新映射实例。
19.如权利要求17和18所述的设备,进一步使得执行:
生成表示所述第一映射的指示符;和
对已编码单声道表示、已编码已映射实例和表示第一映射的指示符进行复用,以生成已编码多声道音频信号;和
输出所述已编码多声道音频信号。
20.一种包括至少一个处理器和至少一个存储器的设备,所述存储器包括用于一个或多个程序的计算机代码,所述至少一个存储器和所述计算机代码被配置来与所述至少一个处理器一起使得所述设备至少执行:
从信号的第一部分解码参数实例并且从第二部分解码参数趋势指示符;和
取决于所述参数趋势指示符,映射所述参数实例以生成解映射参数实例,其中所述映射取决于所述参数趋势指示符。
21.如权利要求20所述的设备,进一步使得执行:
从信号的所述第一部分解码另一实例参数;和
取决于所述解映射参数实例的频率分布,映射所述另一参数实例。
22.如权利要求20和21所述的设备,其中,从信号的第一部分解码参数实例包括:使用Golomb-Rice解码来对信号的第一部分进行解码。
23.一种设备,包括:
用于确定定义至少两个音频信号声道之间的差异的至少一个参数集合的装置;
用于分析所述至少一个参数集合以确定初始趋势的装置;
用于基于所述初始趋势,根据所述第一映射来映射至少一个参数集合的实例,以生成具有关联顺序位置实例的经映射实例的装置;以及
用于基于所述经映射实例的顺序位置,编码所述经映射实例的装置。
24.如权利要求23所述的设备,进一步包括:
用于确定至少一个后续参数的装置;
用于取决于经映射实例的频率分布和所述第一映射,映射所述后续实例以生成具有关联顺序位置的经重新映射实例的装置;以及
用于基于所述经重新映射实例的顺序位置,编码所述经重新映射实例的装置。
25.如权利要求23和24所述的设备,进一步包括:
用于生成表示所述第一映射的指示符的装置;和
用于对已编码单声道表示、已编码已映射实例和表示第一映射的指示符进行复用,以生成已编码多声道音频信号的装置;和
用于输出所述已编码多声道音频信号的装置。
26.一种设备,包括:
用于从信号的第一部分解码参数实例并且从第二部分解码参数趋势指示符的装置;和
用于取决于所述参数趋势指示符,映射所述参数实例以生成解映射参数实例的装置,其中所述映射取决于所述参数趋势指示符。
27.如权利要求26所述的设备,进一步包括:
用于从信号的所述第一部分解码另一实例参数的装置;和
用于取决于解映射参数实例的频率分布,映射所述另一参数实例的装置。
28.如权利要求26和27所述的设备,其中,用于从信号的第一部分解码参数实例的装置包括:用于使用Golomb-Rice解码来对信号的第一部分进行解码的装置。
29.一种设备,包括:
声道分析器,被配置来确定定义至少两个音频信号声道之间的差异的至少一个参数集合;
数值分析器,被配置来分析所述至少一个参数集合以确定初始趋势;
映射器,被配置来基于所述初始趋势,根据第一映射来映射至少一个参数集合的实例,以生成具有关联顺序位置实例的经映射实例;以及
编码器,被配置来基于所述经映射实例的顺序位置,编码所述经映射实例。
30.如权利要求29所述的设备,其中:
所述声道分析器进一步被配置来确定至少一个后续参数;
所述映射器进一步被配置来取决于经映射实例的频率分布和所述第一映射,映射所述后续实例以生成具有关联顺序位置的经重新映射实例;以及
所述编码器进一步被配置来基于所述经重新映射实例的顺序位置,编码所述经重新映射实例。
31.如权利要求29和30所述的设备,进一步包括:
初始映射指示器,被配置来生成表示所述第一映射的指示符;和
复用器,被配置来对已编码单声道表示、已编码已映射实例和表示第一映射的指示符进行复用,以生成已编码多声道音频信号;和
输出,被配置来输出所述已编码多声道音频信号。
32.一种设备,包括:
解码器,被配置来从信号的第一部分解码参数实例并且从第二部分解码参数趋势指示符;和
映射器,被配置来取决于参数趋势指示符,映射所述参数实例以生成解映射参数实例,其中所述映射取决于参数趋势指示符。
33.如权利要求32所述的设备,其中,所述解码器进一步被配置来从信号的第一部分解码另一实例参数;和所述映射器进一步被配置来取决于解映射参数实例的频率分布,映射所述另一参数实例。
34.如权利要求32和33所述的设备,其中,所述解码器包括Golomb-Rice解码器。
35.如权利要求17到34所述的设备,其中,所述参数包括如下至少一个:
双耳间的时间差;和
双耳间的电平差。
36.一种包括如权利要求17到35所述的设备的电子装置。
37.一种包括如权利要求17到35所述的设备的芯片组。
CN201280075873.8A 2012-07-19 2012-07-19 立体声音频信号编码器 Pending CN104641414A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/IB2012/053690 WO2014013294A1 (en) 2012-07-19 2012-07-19 Stereo audio signal encoder

Publications (1)

Publication Number Publication Date
CN104641414A true CN104641414A (zh) 2015-05-20

Family

ID=49948353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280075873.8A Pending CN104641414A (zh) 2012-07-19 2012-07-19 立体声音频信号编码器

Country Status (4)

Country Link
US (1) US9865269B2 (zh)
EP (1) EP2875510A4 (zh)
CN (1) CN104641414A (zh)
WO (1) WO2014013294A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018028170A1 (zh) * 2016-08-10 2018-02-15 华为技术有限公司 多声道信号的编码方法和编码器
CN108292505A (zh) * 2015-11-20 2018-07-17 高通股份有限公司 多重音频信号的编码
CN108780648A (zh) * 2016-03-18 2018-11-09 高通股份有限公司 用于在时间上失配的信号的音频处理

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014108738A1 (en) 2013-01-08 2014-07-17 Nokia Corporation Audio signal multi-channel parameter encoder
EP2976768A4 (en) 2013-03-20 2016-11-09 Nokia Technologies Oy AUDIO SIGNAL ENCODER COMPRISING A MULTI-CHANNEL PARAMETER SELECTOR
US9659569B2 (en) 2013-04-26 2017-05-23 Nokia Technologies Oy Audio signal encoder
WO2015104447A1 (en) 2014-01-13 2015-07-16 Nokia Technologies Oy Multi-channel audio signal classifier
US10224042B2 (en) 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals
CN108269577B (zh) * 2016-12-30 2019-10-22 华为技术有限公司 立体声编码方法及立体声编码器
GB2559199A (en) * 2017-01-31 2018-08-01 Nokia Technologies Oy Stereo audio signal encoder
GB2559200A (en) * 2017-01-31 2018-08-01 Nokia Technologies Oy Stereo audio signal encoder
CN113593592B (zh) * 2021-08-04 2024-03-22 深圳市瑞江科技有限公司 基于多域扩张的音频增强方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020111804A1 (en) * 2001-02-13 2002-08-15 Choy Eddie-Lun Tik Method and apparatus for reducing undesired packet generation
US20020131506A1 (en) * 2001-03-16 2002-09-19 Kerofsky Louis J. Entropy coding with adaptive syntax
US20050226426A1 (en) * 2002-04-22 2005-10-13 Koninklijke Philips Electronics N.V. Parametric multi-channel audio representation
US20090037186A1 (en) * 2005-07-11 2009-02-05 Tilman Liebchen Apparatus and method of encoding and decoding audio signal
CN101379554A (zh) * 2006-02-07 2009-03-04 Lg电子株式会社 用于编码/解码信号的装置和方法
US20090228284A1 (en) * 2008-03-04 2009-09-10 Samsung Electronics Co., Ltd. Method and apparatus for encoding/decoding multi-channel audio signal by using a plurality of variable length code tables
US20100174548A1 (en) * 2006-09-29 2010-07-08 Seung-Kwon Beack Apparatus and method for coding and decoding multi-object audio signal with various channel

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003044963A1 (en) * 2001-11-16 2003-05-30 California Institute Of Technology Data compression method and system
KR100908117B1 (ko) * 2002-12-16 2009-07-16 삼성전자주식회사 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치
AU2006285538B2 (en) * 2005-08-30 2011-03-24 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
US7987097B2 (en) 2005-08-30 2011-07-26 Lg Electronics Method for decoding an audio signal
MX2011000374A (es) * 2008-07-11 2011-03-15 Fraunhofer Ges Forschung Metodo para codificar un simbolo, metodos para decodificar un simbolo, metodo para transmitir un simbolo desde un transmisor a un receptor, codificador, decodificador y sistema para transmitir uin simbiolo desde un transmisor a un receptor.
EP2647202A1 (en) * 2010-12-01 2013-10-09 iMinds Method and device for correlation channel estimation
EP2856776B1 (en) 2012-05-29 2019-03-27 Nokia Technologies Oy Stereo audio signal encoder

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020111804A1 (en) * 2001-02-13 2002-08-15 Choy Eddie-Lun Tik Method and apparatus for reducing undesired packet generation
US20020131506A1 (en) * 2001-03-16 2002-09-19 Kerofsky Louis J. Entropy coding with adaptive syntax
US20050226426A1 (en) * 2002-04-22 2005-10-13 Koninklijke Philips Electronics N.V. Parametric multi-channel audio representation
US20090037186A1 (en) * 2005-07-11 2009-02-05 Tilman Liebchen Apparatus and method of encoding and decoding audio signal
CN101379554A (zh) * 2006-02-07 2009-03-04 Lg电子株式会社 用于编码/解码信号的装置和方法
US20100174548A1 (en) * 2006-09-29 2010-07-08 Seung-Kwon Beack Apparatus and method for coding and decoding multi-object audio signal with various channel
US20090228284A1 (en) * 2008-03-04 2009-09-10 Samsung Electronics Co., Ltd. Method and apparatus for encoding/decoding multi-channel audio signal by using a plurality of variable length code tables

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108292505A (zh) * 2015-11-20 2018-07-17 高通股份有限公司 多重音频信号的编码
CN108780648A (zh) * 2016-03-18 2018-11-09 高通股份有限公司 用于在时间上失配的信号的音频处理
CN108780648B (zh) * 2016-03-18 2023-07-14 高通股份有限公司 用于在时间上失配的信号的音频处理
WO2018028170A1 (zh) * 2016-08-10 2018-02-15 华为技术有限公司 多声道信号的编码方法和编码器
US11133014B2 (en) 2016-08-10 2021-09-28 Huawei Technologies Co., Ltd. Multi-channel signal encoding method and encoder
US11935548B2 (en) 2016-08-10 2024-03-19 Huawei Technologies Co., Ltd. Multi-channel signal encoding method and encoder

Also Published As

Publication number Publication date
US9865269B2 (en) 2018-01-09
EP2875510A4 (en) 2016-04-13
US20150310871A1 (en) 2015-10-29
WO2014013294A1 (en) 2014-01-23
EP2875510A1 (en) 2015-05-27

Similar Documents

Publication Publication Date Title
CN104641414A (zh) 立体声音频信号编码器
US7573912B2 (en) Near-transparent or transparent multi-channel encoder/decoder scheme
CN103915098B (zh) 音频信号编码器
CN1954362B (zh) 音频信号编码装置及音频信号解码装置
CN104509130B (zh) 立体声音频信号编码器
CN105531763B (zh) 用于先进耦合的不均匀参数量化
CN102016982B (zh) 结合装置、远程通信***以及结合方法
US9659569B2 (en) Audio signal encoder
CN104364842A (zh) 立体声音频信号编码器
US20130318010A1 (en) Audio signal encoding employing interchannel and temporal redundancy reduction
US20160035357A1 (en) Audio signal encoder comprising a multi-channel parameter selector
CN102138341A (zh) 声信号处理设备、其处理方法以及程序
US20160111100A1 (en) Audio signal encoder
CN110235197A (zh) 立体声音频信号编码器
WO2019106221A1 (en) Processing of spatial audio parameters
WO2020260756A1 (en) Determination of spatial audio parameter encoding and associated decoding
WO2020008112A1 (en) Energy-ratio signalling and synthesis
WO2019243670A1 (en) Determination of spatial audio parameter encoding and associated decoding
RU2648632C2 (ru) Классификатор многоканального звукового сигнала
CN105336334B (zh) 多声道声音信号编码方法、解码方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160106

Address after: Espoo, Finland

Applicant after: Technology Co., Ltd. of Nokia

Address before: Espoo, Finland

Applicant before: Nokia Oyj

WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150520

WD01 Invention patent application deemed withdrawn after publication