CN102483924B - 使用通道间及时间冗余减少的音频信号编码 - Google Patents
使用通道间及时间冗余减少的音频信号编码 Download PDFInfo
- Publication number
- CN102483924B CN102483924B CN201080040149.2A CN201080040149A CN102483924B CN 102483924 B CN102483924 B CN 102483924B CN 201080040149 A CN201080040149 A CN 201080040149A CN 102483924 B CN102483924 B CN 102483924B
- Authority
- CN
- China
- Prior art keywords
- frequency band
- piece
- sampling piece
- sampling
- energy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 75
- 230000002123 temporal effect Effects 0.000 title abstract description 3
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000005070 sampling Methods 0.000 claims description 99
- 238000009434 installation Methods 0.000 claims description 25
- 238000013500 data storage Methods 0.000 claims description 6
- 238000012986 modification Methods 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- 238000011002 quantification Methods 0.000 claims description 4
- 230000000873 masking effect Effects 0.000 description 12
- 230000002708 enhancing effect Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000000737 periodic effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 241000581364 Clinitrachus argentatus Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 208000035126 Facies Diseases 0.000 description 1
- 240000004859 Gamochaeta purpurea Species 0.000 description 1
- 241000519996 Teucrium chamaedrys Species 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000005039 memory span Effects 0.000 description 1
- 239000003973 paint Substances 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明呈现一种编码时域音频信号的方法。一种装置将所述时域信号变换成包含一取样块序列的频域信号,其中每一块包含用于多个频率的每一者的系数。每一块的系数被分组成频带。对于每一块的每一频带,估计所述频带的比例因子,且将所述块的频带能量与相邻取样块的频带能量比较,其中在通道间意义及时间意义中的一者或两者上,所述块可彼此相邻。如果第一块的频带能量对相邻块的频带能量的比率小于某个值,那么增加所述第一块的频带的比例因子。基于所得的比例因子量化每一块的频带系数。基于经量化的系数及所述比例因子产生经编码音频信号。
Description
技术领域
背景技术
音频信息的有效压缩减小用于存储所述音频信息的存储器容量要求及信息传输需要的通信带宽两者。为实现此压缩,各种音频编码方案(例如普遍存在的运动图像专家组1(MPEG-1)音频层3(MP3)格式及较新的高级音频编码(AAC)标准)使用至少一个心理声学模型(PAM),其本质上描述人类耳朵在接收及处理音频信息时的限制。举例来说,人类音频***展示在频域(在频域中特定频率的音频掩蔽低于某些音量级的附近频率的音频)及时域(在时域中特定频率的音频音调在除去之后将相同的音调掩蔽一时间周期)两者中的听觉掩蔽原理。提供压缩的音频编码方案通过除去被人类音频***掩蔽的原始音频信息的这些部分而利用这些听觉掩蔽原理。
为确定应除去原始音频信号的哪些部分,音频编码***通常处理原始信号以产生掩蔽阈值,使得可在音频保真度没有明显损失情况下消除低于此阈值的音频信号。此处理计算量非常大,使音频信号的实时编码很困难。另外,执行此些计算对消费电子装置来说通常是费力且耗时的,许多消费电子装置使用的是并非特定为此强大处理设计的定点数字信号处理器(DSP)。
发明内容
附图说明
参考附图可更好地理解本发明的许多方面。因为重点是在于清楚阐明本发明的原理,所以图中的组件未必是按比例描绘。而且,图中相同的参考数字指定遍及若干视图的对应部分。而且,虽然结合这些图描述若干实施例,但本发明并不限于本文揭示的实施例。相反,意图涵盖所有替代、修改及等效物。
图1是根据本发明的实施例经配置以编码时域音频信号的电子装置的简化框图。
图2是根据本发明的实施例操作图1的电子装置以编码时域音频信号的方法的流程图。
图3是根据本发明的另一实施例的电子装置的框图。
图4是根据本发明的实施例的音频编码***的框图。
图5是根据本发明的实施例占据频带的频域信号的取样块的图形描绘。
图6是根据本发明的实施例的频域信号的两个音频通道的取样块的图形表示。
图7是根据本发明的实施例列出许多比率及相关联的增强值的比例因子增强表。
具体实施方式
附图及下文描述描绘本发明的特定实施例以教示所属领域的技术人员如何做出及使用本发明的最佳模式。为教示发明原理,已简化或省略一些常规方面。所属领域的技术人员将了解在本发明的范围内的这些实施例的变化。所属领域的技术人员也将了解可以多种方式组合下文描述的特征以形成本发明的多种实施例。因此,本发明并不限于下文描述的特定实施例,而仅由权利要求书及其等效物限制本发明。
图1提供根据本发明的实施例的电子装置100的简化框图,其经配置以将时域音频信号110编码为经编码音频信号120。在一种实施方案中,根据高级音频编码(AAC)标准执行编码,然而涉及将时域信号变换成经编码音频信号的其它编码方案可有利地利用下文讨论的概念。另外,电子装置100可为能够执行此编码的任何装置,包含(但不限于)个人桌上型及膝上型计算机、音频/视频编码***、压缩光盘(CD)及数字视频盘(DVD)播放器、电视机顶盒、音频接收器、蜂窝式电话、个人数字助理(PDA)及音频/视频异地播放(place-shifting)装置,例如由Sling Media公司提供的的各种型号。
图2呈现操作图1的电子装置100来编码时域音频信号110以产生经编码音频信号120的方法200的流程图。在方法200中,电子装置100接收时域音频信号110(操作202)。接着装置100将时域音频信号110变换成具有至少一个音频通道的每一者的一序列取样块的频域信号(操作204)。每一取样块包括用于多个频率的每一者的系数。每一取样块的系数分组或组织成频带(操作206)。对于每一取样块的每一频带(操作208),电子装置100确定或估计频带的比例因子(操作210),确定频带能量(操作212),且将取样块的频带能量与相邻取样块的频带能量比较(操作214)。相邻取样块的实例可包含相同音频通道的紧接的前一块,或用与原始取样块相同的时间周期识别的另一音频通道的取样块。如果取样块的频带能量对相邻取样块的频带能量的比小于预定值,那么装置100增加取样块的频带的比例因子(操作216)。对于每一块的每一频带,装置100基于与所述频带相关联的比例因子量化频带的系数(操作218)。装置100基于量化的系数及比例因子产生经编码音频信号120(操作220)。
虽然将图2的操作描绘为以特定次序执行,但其它执行次序(包含同时执行两个或多个操作)是可能的。举例来说,可以“管线”执行类型执行图2的操作,其中当时域音频信号110进入管线时,在时域音频信号110的不同部分或取样块上执行每一操作。在另一实施例中,计算机可读存储媒体可在其上编码有用于图1的电子装置100的至少一个处理器或其它控制电路实施方法200的指令。
由于方法200的至少一些实施例,基于相同音频通道中的连续频率取样块间及不同通道的同时存在的块间的频带中的音频能量的差异,调整用于每一频带以量化所述频带的系数的比例因子。这些确定的计算强度通常比通常在大部分AAC实施方案中执行的完全掩蔽阈值的计算小得多。因此,由任何类别的电子装置(包含利用廉价数字信号处理组件的小型装置)的实时音频编码是可能的。可从下文更详细讨论的本发明的各种实施方案中认识到其它优点。
图3是根据本发明的另一实施例的电子装置300的框图。装置300包含控制电路302及数据存储装置304。在一些实施方案中,装置300还可包含通信接口306及用户接口308的一者或两者。包含(但不限于)电源及装置外壳的其它组件也可包含在电子装置300中,但这些组件不在图3中明确展示也不在下文中讨论,以简化下文讨论。
控制电路302经配置以控制电子装置300的各个方面以将时域音频信号310编码为经编码音频信号320。在一个实施例中,控制电路302包含至少一个处理器,例如微处理器、微控制器或数字信号处理器(DSP),其经配置以执行指导处理器执行下文更详细讨论的各种操作的指令。在另一个实例中,控制电路302可包含经配置以执行下文描述的任务或操作的一者或一者以上的一个或一个以上硬件组件,或并入有硬件及软件处理元件的某种组合。
数据存储装置304经配置以存储一些或所有待编码的时域音频信号310及所得经编码音频信号320。数据存储装置304还可存储中间数据、控制信息及编码过程中涉及的类似物。数据存储装置304还可包含待由控制电路302的处理器执行的指令以及有关于执行指令的任何程序数据或控制信息。数据存储装置304可包含任何易失性存储器组件(例如动态随机存取存储器(DRAM)及静态随机存取存储器(SRAM))、非易失性存储器装置(例如可装卸式及固定式两种快闪存储器、磁盘驱动器及光盘驱动器)及其组合。
电子装置300还可包含通信接口306,其经配置以接收时域音频信号310及/或在通信链路上传输经编码音频信号320。通信接口306的实例可为广域网络(WAN)接口(例如数字用户线(DSL)或因特网电缆接口)、局域网络(LAN)(例如Wi-Fi或以太网)或任何其它适于以有线、无线或光方式在通信链路或连接上通信的通信接口。
在其它实例中,通信接口306可经配置以将作为音频/视频节目的部分的音频信号310、320发送到输出装置(图3中未展示),例如电视机、视频监视器或音频/视频接收器。举例来说,可利用调制视频电缆连接、复合或分量视频RCA类型(美国无线电公司)连接及数字视频接口(DVI)或高清晰度多媒体接口(HDMI)连接传递音频/视频节目的视频部分。可在单声道或立体声音频RCA类型连接、TOSLINK连接或HDMI连接上传输节目的音频部分。可在其它实施例中使用其它音频/视频格式及有关的连接。
另外,电子装置300可包含用户接口308,其经配置以从一个或一个以上用户处接收由时域音频信号310代表的听觉信号311,例如利用音频麦克风及有关电路(包含放大器、模/数转换器(ADC)及类似物)来接收。同样,用户接口308可包含放大器电路及一个或一个以上音频扬声器以向用户呈现由经编码音频信号320代表的听觉信号321。依据所述实施方案,用户接口308还可包含允许用户例如利用键盘、小键盘、触控垫、鼠标、操纵杆或其它用户输入装置来控制电子装置300的装置。同样,用户接口308可提供视觉输出装置,例如监视器或其它视觉显示装置,从而允许用户从电子装置300接收视觉信息。
图4提供由电子装置300提供的用以将时域音频信号310编码为图3的经编码音频信号320的音频编码***400的实例。图3的控制电路302可利用硬件电路、执行软件或固件指令的处理器或其某种组合来实施音频编码***400的每一部分。
图4的特定***400代表AAC的特定实施方案,但在其它实施例中可利用其它音频编码方案。一般来说,AAC代表音频编码的模块化方法,借此可在单独硬件、软件或固件模块或“工具”中实施图4的每一功能块450-472以及未在图中特别描绘的功能块,因此允许将源于不同的开发源的模块集成到单一编码***400中以执行所期望的音频编码。因此,使用不同数目及类型的模块可导致形成任何数目个编码器“设定档”(profile),每一编码器设定档能够解决与特定编码环境相关联的特定约束。这些约束可包含装置300的计算能力、时域音频信号310的复杂度及经编码音频信号320的所期望的特性,例如输出位速率及失真程度。AAC标准通常提供四个默认的设定档,包含低复杂度(LC)设定档、主(MAIN)设定档、取样率可缩放(SRS)设定档及长期预测(LTP)设定档。图4的***400在没有强度/耦合模块情况下主要对应于主设定档,但其它设定档可并入有下文讨论的增强,包含下文更详细描述的时间/通道间比例因子调整功能块466。
图4利用实箭头线描绘音频数据的一般流程,而经由虚箭头线说明一些可能控制路径。关于图4中未特定展示的在模块450-472间的控制信息的通过的其它可能性在其它布置中为可能的。
在图4中,接收时域音频信号310作为***400的输入。一般来说,时域音频信号310包含经格式化为时变音频信号的一系列数字取样块的音频信息的一个或一个以上通道。在一些实施例中,时域音频信号310起初可采取模拟音频信号的形式,所述模拟音频信号随后在被转发到由控制电路302实施的编码***400之前,例如利用用户接口308的ADC以预定速率数字化。
如图4中所说明,音频编码***400的模块可包含增益控制块452、滤波器组454、时间噪声整形(TNS)块456、反向预测工具458及中间/侧面立体声块460,其经配置为接收时域音频信号310作为输入的处理管线的部分。这些功能块452-460可对应于经常在其它AAC实施方案中见到的相同功能块。时域音频信号310也被转发到感知模型450,其可将控制信息提供到上文提到的功能块452-460的任一者。在典型AAC***中,在心理声学模型(PAM)下,这个控制信息指示时域音频信号310的哪些部分是多余的,因此允许丢弃时域音频信号310中的音频信息的这些部分,以有利于在经编码音频信号320中实现的压缩。
为此目的,在典型AAC***中,感知模型450根据时域音频信号310的快速傅里叶变换(FFT)的输出计算掩蔽阈值以指示可丢弃音频信号310的哪些部分。然而,在图4的实例中,感知模型450接收滤波器组454的输出,所述输出提供频域信号474。在一个特定实例中,滤波器组454是如AAC***中通常提供的修改的离散余弦变换(MDCT)函数块。
由MDCT函数454产生的频域信号474包含一系列取样块(例如图5中绘图表示的块),每一块包含许多用于待编码音频信息的每一通道的频率502。另外,在频域信号474块中由指示每一频率502的幅值或强度的系数来表示所述频率502。在图5中,将每一频率502描绘为垂直向量,其高度代表与所述频率502相关联的系数值。
另外,按照典型AAC方案中的做法,频率502逻辑上组织成连续频率群组或“频带”504A-504E。虽然图4指示出每一频带504(即,频带504A-504E的每一者)利用相同范围的频率,且包含由滤波器组454产生的相同数目的离散频率502,但在频带504间可使用变化的频率502数目及频率502范围大小,在AAC***中经常是这样的情况。
形成频带504以允许利用由图4的比例因子产生器464产生的比例因子而按比例调整或划分频率502的频带504的每一频率502的系数。此按比例调整减小了代表经编码音频信号320中的频率502系数的数据量,因此压缩所述数据,从而产生经编码音频信号320的较低传输位速率。这个按比例调整还产生音频信息的量化,其中频率502系数被迫成为离散预定值,因此可能在解码后给经编码音频信号320带来一定程度的失真。一般来说,越高比例因子造成越粗糙量化,导致较高音频失真程度及较低经编码音频信号320位速率。
为满足在先前AAC***中的经编码音频信号320的预定失真程度及位速率,感知模型450计算上文提到的掩蔽阈值以允许比例因子产生器464确定经编码音频信号320的每一取样块的可接受的比例因子。本文也可使用掩蔽阈值的此产生以允许比例因子产生器464确定频域信号474的每一取样块的每一频带的初始比例因子。然而,在其它实施方案中,感知模型450反而确定与每一频带504的频率502相关联的能量,且其接着可由比例因子产生器464使用以基于此能量计算每一频带504的期望的比例因子。在一个实例中,由在频带504中的频率502的MDCT系数的“绝对总和”或绝对值的总和(有时称为绝对光谱系数总和(SASC))计算在频带504中的频率502的能量。
一旦确定频带504的能量,可通过用频带504的能量的对数(例如以10为底的对数)加上常数值且接着用此项乘以预定乘数来计算与每一取样块的频带504相关联的比例因子,以产生频带504的至少一初始比例因子。根据先前已知心理声学模型的音频编码中的实验指示出接近1.75的常数及乘数10产生的比例因子相当于由大量掩蔽阈值计算产生的比例因子。因此,对于此特定实例,产生用于比例因子的以下方程式。
scale_factor=(log10(∑|band_coefficients|)+1.75)*10
在其它配置中可使用除了1.75之外的其它常数值。
为编码时域音频信号310,MDCT滤波器组454产生用于频域信号474的一系列频率取样块,其中每一块与时域音频信号310的特定时间周期相关联。因此,可针对频域信号474中产生的频率取样的每一通道的每个块执行上文提到的比例因子计算,因此潜在提供用于每一频带504的每一块的不同比例因子。在给定有所包含的数据量的情况下,将上述计算用于每一比例因子相比于估计频率取样的相同块的掩蔽阈值明显减小确定比例因子所需的处理量。在其它实施方案中可利用其它方法,凭借这些方法,不论是否计算掩蔽阈值,均可在比例因子产生器464中估计初始比例因子。
在图6中用图形说明包含两个单独音频通道A及B(602A及602B)的频域信号474的实例。每一音频通道602的音频表示为频率取样的一序列块601,其中每一块601与原始时域音频信号310的特定时间周期相关联。在一些实施例中,与相同音频通道的两个连续取样块相关联的时间周期可重叠。举例来说,通过对滤波器组454使用MDCT,与每一块相关联的时间周期与下一块的时间周期重叠50%。
在本文讨论的实施方案中,鉴于取样块601的“相邻”者中存在的时间及/或通道间冗余,可进一步增加由比例因子产生器464提供的用于每一取样块601的每一频带504的先前产生的或估计的比例因子。如图6中展示,如果一个块在顺序上紧接在另一块之后,那么相同通道602的两个块606在时间意义上是相邻的。如果通道间块与相同时间周期相关联,那么其可为相邻的,如由图6中展示的相邻通道间块604的实例所展示。
在任一情况下,如果相邻块中的能量相比于第一块的能量足够高,那么可丢弃取样块601的一对相邻块的一个块中的一些音频信息。使用图6的相邻时间块606作为实例,如果这对606的第k-1块的频带504的能量比第k块的相同频带504的能量大某一量或百分比,那么可增加来自比例因子产生器464的用于频带504的先前确定的比例因子,因此减小用于此块601的频带504的量化级数,且因此减小经编码音频信号320中代表块601需要的数据量。因为相关联音频在一定程度上被与先前块601的频带504相关联的较高能量掩蔽,所以用此方法增加比例因子引起极少失真或不加入明显失真。
同样,如果两个相邻通道间块604的一者的频带504的能量充分大于另一块的对应频带504的能量,那么另一块的频带504的比例因子在没有明显音频保真度损失的情况下可增加某一百分比或量。在时间及通道间情况两者下,可用此方法检查频域信号474的每一通道602的每一取样块601的每一频带504以确定是否可能增加比例因子。
在图4的***400中,图4的控制电路466在比例因子调整功能块466中提供此功能性。在一种实施方案中,如上文描述,可通过将频带504的所有频率系数的绝对值相加或计算频带504的SASC来计算每一取样块601的每一频带504的能量。在其它实例中可使用其它能量测量。
在一种布置中,用比率比较两个相邻取样块601的能量值。举例来说,为解决在相邻时间块606中的时间冗余,装置300的控制电路302可计算相邻时间块606的后一块601(例如,音频通道602的第k块)的频带504的能量对紧接的前一块601(例如,音频通道602的第k-1块)的频带504的能量的比率。接着可将此比率与预定值或百分比(例如0.5或50%)比较。如果所述比率小于预定值,那么可增加与后一块601的频带504相关联的比例因子。所述增加可为递增(例如增加一)、增加某一预定量(例如一、二或三)、增加百分比(例如10%)或增加某一其它量。可对每一音频通道602的每一取样块601的每一频带504执行此过程。
至于通道间冗余,装置300的控制电路302可计算相邻通道间块604的一者(例如音频通道A 602A的第k块)的频带504的能量对相邻通道间块604的其它块(即,音频通道B 602B的第k块)的相同频带504的能量的比率。至于时间冗余比较,接着可将此比率与某一预定值或百分比比较。如果比率小于预定值,那么第一块601(即,音频通道A 602A的第k块)的频带504的比例因子可增加某一量,例如值或百分比。同样,可将此比率的倒数(即第二块601(即,音频通道B 602B的第k块)的相同频带504的能量比第一块601(即,音频通道A 602A的第k块)的频带504的能量)与相同预定值或百分比比较。如果此比率小于所述值或百分比,那么第二块601(即,音频通道B 602B的第k块)中的频带504的比例因子可用与上文描述的方式类似的方式增加。可对音频通道602的每一者的每一取样块601的每一频带504执行此过程。
在某一环境中,提供两个以上音频通道602,例如在5.1及7.1立体声***中。可在这些***中解决通道间冗余,使得可将每一取样块502的每一频带504在一个以上其它音频通道602中与其相对物比较。在其它***400中,特定音频通道602可基于其在音频方案中的作用一起予以配对。举例来说,在5.1立体声音频中,其包含前中心通道、两个前侧通道、两个后侧通道及副低音扬声器通道,两个前侧通道的同时期块601可彼此对比,同样两个后侧通道的块601也可彼此对比。在另一实例中,前通道(左、右及中心通道)的每一者的块601可彼此对比以利用任何通道间冗余。
在上文讨论的实例的每一者中,将关于频带604的能量的比率与单一预定值或百分比比较。在另一实施方案中,控制电路302可将每一计算的比率与一个以上预定阈值比较。依据比率在比较值中的位置,可利用不同百分比或值调整相关联的比例因子。为此目的,图7提供比例因子增强表700的一个可能实例,所述增强表700含有若干不同比率比较值702,待与其比较的是上文描述的计算比率。在表700中,比率R1大于比率R2,比率R2大于比率R3,以此类推,持续到比率RN。与每一比率700相关联的是增强值704,列为F1、F2、F3...FN,其中F1大于F2,F2大于F3,以此类推。在操作中,如果计算的比率大于R1,那么不调整相关联的比例因子。如果比率小于R1,但大于或等于R2,那么以增强值F1增加比例因子。同样,如果计算的比率小于R2,但至少与R3一样大,那么应用增强值F2。以此方法持续下去,小于RN的比率使得比例因子以增强值FN调整或增加。在其它实施例中可使用其它使用多个预定比率值702及对应比例因子增强值704的方法。
预定比较值(例如比率比较值702)及比例因子调整(例如表700的比例因子增强值704)两者可取决于多种***特定因素。因此,对于在不过分损害用于特定应用的可接受的失真程度的情况下的经编码音频信号320的位速率减小方面的最佳结果,实验上针对此特定***400最佳确定各种比较值及调整因子。
虽然比例因子调整功能块466提供图4的上述功能性,但其它实施方案可在***400的其它部分中并入所述功能性。举例来说,感知模型450或比例因子产生器464可既从滤波器组454接收MDCT信息又从比例因子产生器464接收比例因子的初始估计值以执行比率计算、值比较及之前讨论的比例因子调整。
在管线中的比例因子调整功能466之后的量化器468对每一频带504使用如由比例因子产生器466产生的(且可能再次经速率/失真控制块462调整,如下文描述)经调整的比例因子,以划分所述频带504中的各种频率502的系数。通过划分系数,减小或压缩系数的大小,因此降低经编码音频信号320的整***速率。此划分使得所述系数被量化为一些定义数目个离散值的一者。
量化之后,无噪声编码块470根据无噪声编码方案编码所得量化的系数。在一个实施例中,编码方案可为在AAC中使用的无损霍夫曼(Huffman)编码方案。
如图4中描绘的速率/失真控制块462可重新调整在比例因子产生器466中产生的且在比例因子调整模块466中调整的比例因子的一者或一者以上以满足用于经编码音频信号320的预定位速率及失真程度要求。举例来说,速率/失真控制块464可确定计算的比例因子可导致明显高于将获得的平均位速率的用于经编码音频信号320的输出位速率,且因此相应增加所述比例因子。
在编码块470中编码比例因子及系数之后,将所得数据转发到位流多路复用器472,其输出包含系数及比例因子的经编码音频信号320。此数据可进一步与其它控制信息及元数据(例如文本数据(包含标题及关于经编码音频信号320的相关联信息)及关于正使用的特定编码方案的信息)混合,使得接收音频信号320的解码器可准确解码信号320。
如本文描述的至少一些实施例提供一种音频编码方法,其中可在没有明显音频保真度损失的情况下将由音频信号的取样块的每一频带内的音频频率展现的能量与相邻块的能量比较,以确定所述块是否运载可更粗糙量化的音频信息。相邻取样块可为单一音频通道的连续块或同时出现在不同音频通道中的块。通过比较不同块中的特定频带中的频率的能量,相比于其中计算掩蔽阈值的典型AAC***,需要的计算能力极小。因此,与原本可能的情况相比,使用本文引用的方法及装置可允许用更便宜的处理电路在更多种环境中执行实时音频编码。
虽然本文已讨论本发明的若干实施例,但本发明的范围所涵盖的其它实施方案是可能的。举例来说,虽然已在异地播放装置背景下描述本文揭示的至少一个实施例,但其它数字处理装置可得益于上文解释的概念的应用,其它数字处理装置例如是通用计算***、电视接收器或机顶盒(包含与卫星、电缆及陆地电视信号传输相关联者)、卫星及陆地音频接收器、游戏控制台、DVR及CD及DVD播放器。此外,本文揭示的一个实施例的方面可结合替代实施例的方面以产生本发明的其它实施方案。因此,虽然已在特定实施例背景下描述本发明,但提供这些描述是为了说明而非限制。相应地,仅由所附权利要求书及其等效物限定本发明的适当范围。
Claims (20)
1.一种编码时域音频信号的方法,所述方法包括:
在电子装置处,接收包括至少一个音频通道的所述时域音频信号;
将所述时域音频信号变换成包括用于所述至少一个音频通道的每一者的一序列取样块的频域信号,其中每一取样块包括用于多个频率的每一者的系数;
将每一取样块的系数分组成频带;
对于每一取样块的每一频带,确定所述频带的比例因子;
对于每一取样块的每一频带,确定所述频带的能量;
对于每一取样块的每一频带,将所述取样块的所述频带的所述能量与相邻取样块的频带的能量比较;
对于每一取样块的每一频带,如果所述取样块的所述频带的所述能量对所述相邻取样块的所述频带的所述能量的比率小于第一预定值,那么增加所述取样块的所述频带的所述比例因子;
对于每一取样块的每一频带,基于所述频带的所述比例因子量化所述频带的所述系数;及
基于所述经量化的系数及所述比例因子产生经编码音频信号。
2.根据权利要求1所述的方法,其中:
产生所述经编码音频信号包括编码所述经量化的系数,其中所述经编码音频信号是基于所述经编码系数及所述比例因子。
3.根据权利要求1所述的方法,其中:
将所述时域音频信号变换成所述频域信号包括对所述时域音频信号执行修改的离散余弦变换函数。
4.根据权利要求1所述的方法,其中确定所述频带的所述能量包括:
计算所述取样块的所述频带的所述系数的每一者的绝对总和。
5.根据权利要求1所述的方法,其中:
第一取样块的相邻取样块包括与所述第一取样块相同的音频通道的在时间上紧接在所述第一取样块之前的取样块。
6.根据权利要求5所述的方法,其中:
所述相邻取样块所代表的时间周期与所述第一取样块所代表的时间周期重叠。
7.根据权利要求1所述的方法,其中:
第一取样块的相邻取样块包括由与所述第一取样块相关联的相同时间周期识别的不同音频通道的取样块。
8.根据权利要求7所述的方法,其进一步包括:
对于每一取样块的每一频带,将所述取样块的所述频带的所述能量与第二相邻取样块的频带的能量比较;及
对于每一取样块的每一频带,如果所述取样块的所述频带的所述能量对所述第二相邻取样块的所述频带的所述能量的比率小于所述第一预定值,那么增加所述取样块的所述频带的所述比例因子;
其中第一取样块的第二相邻取样块包括由与所述第一取样块相关联的相同时间周期识别的第二不同音频通道的取样块。
9.根据权利要求1所述的方法,其进一步包括:
对于每一取样块的每一频带,如果所述取样块的所述频带的所述能量对所述相邻取样块的所述频带的所述能量的所述比率小于第二预定值,那么增加所述取样块的所述频带的所述比例因子,其中所述第二预定值小于所述第一预定值,且其中与所述第二预定值有关的所述比例因子的增加大于与所述第一预定值有关的所述比例因子的增加。
10.一种调整频域音频信号的频带的比例因子以用于产生量化的输出信号的方法,所述频域信号包括用于至少一个音频通道的每一者的一序列取样块,每一取样块包括用于所述频带内的多个频率的每一者的系数,所述方法包括:
对于每一取样块,确定所述频带的能量;
对于每一取样块,将所述取样块的所述频带的所述能量与相邻取样块的频带的能量比较;及
对于每一取样块,如果所述取样块的所述频带的所述能量对所述相邻取样块的所述频带的所述能量的比率小于预定值,那么增加所述取样块的所述频带的所述比例因子;
其中所述频率系数的量化是基于所述比例因子。
11.根据权利要求10所述的方法,其中:
所述系数包括修改的离散余弦变换的系数。
12.根据权利要求10所述的方法,其中确定所述频带的所述能量包括:
计算所述取样块的所述频带的所述系数的绝对总和。
13.根据权利要求10所述的方法,其中:
第一取样块的相邻取样块包括与所述第一取样块相同的音频通道的紧接的前一个取样块。
14.根据权利要求10所述的方法,其中:
第一取样块的相邻取样块包括由与所述第一取样块相同的时间周期识别的不同音频通道的取样块。
15.一种电子装置,其包括:
用于存储数据的装置,其经配置以存储时域音频信号;及
用于从所述数据存储装置检索所述时域音频信号的装置,其中所述时域音频信号包括至少一个音频通道;
用于将所述时域音频信号变换成包括用于至少一个音频通道的每一者的一序列取样块的频域信号的装置,其中每一取样块包括用于多个频率的每一者的系数;
用于将每一取样块的系数组织成频带的装置;
用于对于每一取样块的每一频带,估计所述频带的比例因子的装置;
用于对于每一取样块的每一频带,确定所述频带的能量的装置;
用于对于每一取样块的每一频带,将所述取样块的所述频带的所述能量与相邻取样块的频带的能量比较的装置;
用于对于每一取样块的每一频带,如果所述取样块的所述频带的所述能量对所述相邻取样块的所述频带的所述能量的比率小于第一预定值,那么增加所述取样块的所述频带的所述比例因子的装置;
用于对于每一取样块的每一频带,基于所述频带的所述比例因子量化所述频带的所述系数的装置;及
用于基于所述经量化的系数及所述比例因子产生经编码音频信号的装置。
16.根据权利要求15所述的电子装置,其中用于确定所述频带的能量的装置包括:
用于将所述取样块的所述频带的所述系数的每一者的绝对值相加的装置。
17.根据权利要求15所述的电子装置,其中:
第一取样块的相邻取样块包括与所述第一取样块相同的音频通道的紧接在所述第一取样块之前的取样块。
18.根据权利要求15所述的电子装置,其中:
第一取样块的相邻取样块包括代表与所述第一取样块相同的时间周期的不同音频通道的取样块。
19.根据权利要求15所述的电子装置,其进一步包括:
用于对于每一取样块的每一频带,将所述取样块的所述频带的所述能量与第二相邻取样块的频带的能量比较的装置;及
用于对于每一取样块的每一频带,如果所述取样块的所述频带的所述能量对所述第二相邻取样块的所述频带的所述能量的比率小于所述第一预定值,那么增加所述取样块的所述频带的所述比例因子的装置;
其中第一取样块的第二相邻取样块包括代表与所述第一取样块相同的时间周期的第二不同音频通道的取样块。
20.根据权利要求15所述的电子装置,其进一步包括:
用于对于每一取样块的每一频带,如果所述取样块的所述频带的所述能量对所述相邻取样块的所述频带的所述能量的所述比率小于第二预定值,那么增加所述取样块的所述频带的所述比例因子的装置,其中所述第二预定值小于所述第一预定值,且其中与所述第二预定值有关的所述比例因子的增加大于与所述第一预定值有关的所述比例因子的增加。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/558,048 | 2009-09-11 | ||
US12/558,048 US8498874B2 (en) | 2009-09-11 | 2009-09-11 | Audio signal encoding employing interchannel and temporal redundancy reduction |
PCT/IN2010/000595 WO2011030354A2 (en) | 2009-09-11 | 2010-09-07 | Audio signal encoding employing interchannel and temporal redundancy reduction |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102483924A CN102483924A (zh) | 2012-05-30 |
CN102483924B true CN102483924B (zh) | 2014-05-28 |
Family
ID=43568372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201080040149.2A Active CN102483924B (zh) | 2009-09-11 | 2010-09-07 | 使用通道间及时间冗余减少的音频信号编码 |
Country Status (13)
Country | Link |
---|---|
US (2) | US8498874B2 (zh) |
EP (1) | EP2476114B1 (zh) |
JP (1) | JP5201375B2 (zh) |
KR (1) | KR101363206B1 (zh) |
CN (1) | CN102483924B (zh) |
AU (1) | AU2010293792B2 (zh) |
BR (1) | BR112012005014B1 (zh) |
CA (1) | CA2771886C (zh) |
IL (1) | IL218409A (zh) |
MX (1) | MX2012002741A (zh) |
SG (1) | SG178851A1 (zh) |
TW (1) | TWI438770B (zh) |
WO (1) | WO2011030354A2 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8498874B2 (en) | 2009-09-11 | 2013-07-30 | Sling Media Pvt Ltd | Audio signal encoding employing interchannel and temporal redundancy reduction |
GB2487399B (en) * | 2011-01-20 | 2014-06-11 | Canon Kk | Acoustical synthesis |
EP2709106A1 (en) * | 2012-09-17 | 2014-03-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal |
CN105074818B (zh) | 2013-02-21 | 2019-08-13 | 杜比国际公司 | 音频编码***、用于产生比特流的方法以及音频解码器 |
BR112016006925B1 (pt) | 2013-12-02 | 2020-11-24 | Huawei Technologies Co., Ltd.. | Metodo e aparelho de codificaqao |
CN106409303B (zh) | 2014-04-29 | 2019-09-20 | 华为技术有限公司 | 处理信号的方法及设备 |
CN104143335B (zh) | 2014-07-28 | 2017-02-01 | 华为技术有限公司 | 音频编码方法及相关装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5388181A (en) * | 1990-05-29 | 1995-02-07 | Anderson; David J. | Digital audio compression system |
CN1741393A (zh) * | 2005-09-16 | 2006-03-01 | 北京中星微电子有限公司 | 一种音频编码中比特分配的方法 |
CN101253556A (zh) * | 2005-09-02 | 2008-08-27 | 松下电器产业株式会社 | 能量整形装置以及能量整形方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
PL174314B1 (pl) * | 1993-06-30 | 1998-07-31 | Sony Corp | Sposób i urządzenie do dekodowania sygnałów cyfrowych |
WO1995012920A1 (fr) * | 1993-11-04 | 1995-05-11 | Sony Corporation | Codeur de signaux, decodeur de signaux, support d'enregistrement et procede de codage de signaux |
JP3186412B2 (ja) * | 1994-04-01 | 2001-07-11 | ソニー株式会社 | 情報符号化方法、情報復号化方法、及び情報伝送方法 |
EP1377967B1 (en) | 2001-04-13 | 2013-04-10 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
US8019598B2 (en) * | 2002-11-15 | 2011-09-13 | Texas Instruments Incorporated | Phase locking method for frequency domain time scale modification based on a bark-scale spectral partition |
JP4168976B2 (ja) * | 2004-05-28 | 2008-10-22 | ソニー株式会社 | オーディオ信号符号化装置及び方法 |
US20090018824A1 (en) | 2006-01-31 | 2009-01-15 | Matsushita Electric Industrial Co., Ltd. | Audio encoding device, audio decoding device, audio encoding system, audio encoding method, and audio decoding method |
JP4649351B2 (ja) * | 2006-03-09 | 2011-03-09 | シャープ株式会社 | デジタルデータ復号化装置 |
EP2186087B1 (en) | 2007-08-27 | 2011-11-30 | Telefonaktiebolaget L M Ericsson (PUBL) | Improved transform coding of speech and audio signals |
US9659568B2 (en) * | 2007-12-31 | 2017-05-23 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal |
KR101317813B1 (ko) * | 2008-03-31 | 2013-10-15 | (주)트란소노 | 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체 |
US8498874B2 (en) | 2009-09-11 | 2013-07-30 | Sling Media Pvt Ltd | Audio signal encoding employing interchannel and temporal redundancy reduction |
-
2009
- 2009-09-11 US US12/558,048 patent/US8498874B2/en active Active
-
2010
- 2010-09-07 CA CA2771886A patent/CA2771886C/en active Active
- 2010-09-07 WO PCT/IN2010/000595 patent/WO2011030354A2/en active Application Filing
- 2010-09-07 JP JP2012528505A patent/JP5201375B2/ja active Active
- 2010-09-07 SG SG2012012282A patent/SG178851A1/en unknown
- 2010-09-07 AU AU2010293792A patent/AU2010293792B2/en active Active
- 2010-09-07 BR BR112012005014-1A patent/BR112012005014B1/pt active IP Right Grant
- 2010-09-07 MX MX2012002741A patent/MX2012002741A/es active IP Right Grant
- 2010-09-07 KR KR1020127008064A patent/KR101363206B1/ko active IP Right Grant
- 2010-09-07 EP EP10788147.6A patent/EP2476114B1/en active Active
- 2010-09-07 CN CN201080040149.2A patent/CN102483924B/zh active Active
- 2010-09-10 TW TW099130751A patent/TWI438770B/zh active
-
2012
- 2012-02-29 IL IL218409A patent/IL218409A/en active IP Right Grant
-
2013
- 2013-07-29 US US13/953,177 patent/US9646615B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5388181A (en) * | 1990-05-29 | 1995-02-07 | Anderson; David J. | Digital audio compression system |
CN101253556A (zh) * | 2005-09-02 | 2008-08-27 | 松下电器产业株式会社 | 能量整形装置以及能量整形方法 |
CN1741393A (zh) * | 2005-09-16 | 2006-03-01 | 北京中星微电子有限公司 | 一种音频编码中比特分配的方法 |
Also Published As
Publication number | Publication date |
---|---|
MX2012002741A (es) | 2012-05-08 |
IL218409A (en) | 2016-08-31 |
US20130318010A1 (en) | 2013-11-28 |
AU2010293792B2 (en) | 2014-03-06 |
CA2771886A1 (en) | 2011-03-17 |
IL218409A0 (en) | 2012-04-30 |
US9646615B2 (en) | 2017-05-09 |
US20110066440A1 (en) | 2011-03-17 |
EP2476114B1 (en) | 2013-06-19 |
AU2010293792A1 (en) | 2012-03-29 |
JP2013504781A (ja) | 2013-02-07 |
KR20120070578A (ko) | 2012-06-29 |
CN102483924A (zh) | 2012-05-30 |
SG178851A1 (en) | 2012-04-27 |
JP5201375B2 (ja) | 2013-06-05 |
KR101363206B1 (ko) | 2014-02-12 |
TW201137863A (en) | 2011-11-01 |
US8498874B2 (en) | 2013-07-30 |
EP2476114A2 (en) | 2012-07-18 |
WO2011030354A3 (en) | 2011-05-05 |
BR112012005014A2 (pt) | 2016-05-03 |
BR112012005014B1 (pt) | 2021-04-13 |
WO2011030354A2 (en) | 2011-03-17 |
CA2771886C (en) | 2015-07-07 |
TWI438770B (zh) | 2014-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102483924B (zh) | 使用通道间及时间冗余减少的音频信号编码 | |
US9754601B2 (en) | Information signal encoding using a forward-adaptive prediction and a backwards-adaptive quantization | |
KR101026597B1 (ko) | 음성 부호화 장치, 음성 복호화 장치, 음성 부호화 방법, 음성 복호화 방법 및 정보기록매체 | |
KR101859246B1 (ko) | 허프만 부호화를 실행하기 위한 장치 및 방법 | |
CN102483923B (zh) | 音频编码中基于频带信号能量的频带比例因子确定 | |
CN104050969A (zh) | 空间舒适噪声 | |
GB2587196A (en) | Determination of spatial audio parameter encoding and associated decoding | |
KR100640833B1 (ko) | 디지털 오디오의 부호화 방법 | |
CN113994425A (zh) | 基于为心理声学音频编解码确定的比特分配对空间分量进行量化 | |
CN115620733A (zh) | 一种基于掩蔽效应的aac安全隐写算法及*** | |
JPH0822298A (ja) | 符号化装置および復号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: bangalore Patentee after: Dixun Network Technology India Pvt.,Ltd. Address before: bangalore Patentee before: SLING MEDIA Pvt.,Ltd. |