CN113272896A - 提供经处理音频信号表示的装置和处理器、音频解码器、音频编码器、方法及计算机程序 - Google Patents

提供经处理音频信号表示的装置和处理器、音频解码器、音频编码器、方法及计算机程序 Download PDF

Info

Publication number
CN113272896A
CN113272896A CN201980088015.9A CN201980088015A CN113272896A CN 113272896 A CN113272896 A CN 113272896A CN 201980088015 A CN201980088015 A CN 201980088015A CN 113272896 A CN113272896 A CN 113272896A
Authority
CN
China
Prior art keywords
audio signal
representation
processed
input audio
signal representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980088015.9A
Other languages
English (en)
Other versions
CN113272896B (zh
Inventor
斯特凡·拜耳
帕拉维·马本
伊曼纽尔·拉维利
吉约姆·福斯
埃伦妮·福托波罗
马库斯·穆特鲁斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN113272896A publication Critical patent/CN113272896A/zh
Application granted granted Critical
Publication of CN113272896B publication Critical patent/CN113272896B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Amplifiers (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Circuits Of Receivers In General (AREA)
  • Control Of Amplification And Gain Control (AREA)

Abstract

一种装置,用于基于输入音频信号表示提供经处理的音频信号表示,被配置为应用反加窗,以便基于所述输入音频信号表示提供经处理的音频信号表示。所述装置被配置为根据一个或多个信号特性和/或根据用于提供所述输入音频信号表示的一个或多个处理参数对所述反加窗进行适配。

Description

提供经处理音频信号表示的装置和处理器、音频解码器、音频 编码器、方法及计算机程序
技术领域
本发明关于用于提供经处理的音频信号表示的装置和音频信号处理器、音频解码器音频编码器、方法以及计算机程序。
导言
在下文中,将描述不同的发明实施例和方面。而且,进一步的实施例将由所附的权利要求限定。
应当注意,由权利要求限定的任何实施例可以由所提到的实施例和方面中描述的任何细节(特征和功能)中的任何一个来补充。
而且,本文所描述的实施例可以单独使用,并且还可以由权利要求中包含的任何特征来补充。
另外,应当注意,本文所描述的每个方面可以单独或者组合使用。因此,可以将细节添加到每个方面中的每一个,而无需将细节添加到每个方面中的另一个。
还应当注意,本公开明确地或者隐含地描述了可以使用于音频编码器(用于提供经处理的音频信号表示的装置和/或音频信号处理器)和音频解码器中的特征。因此,本文描述的任何特征可以在音频编码器的上下文中和在音频解码器的上下文中使用。
再者,本文公开与方法有关的特征与功能也可以在设备中配置(配置为执行这种功能)。此外,本文公开与装置有关的任何特征与功能也可以以在相应的方法中使用。换句话说,本文所公开的方法可以由与装置有关的描述中的任何特征与功能来补充。
另外,本文公开特征与功能可以,如实施方式中的描述,以硬件或者软件,或者使用硬件或者软件的组合来实现。
发明背景
使用离散傅立叶变换(Discrete Fourier Transform,DFT)来处理离散时间信号是一种普及的数字信号处理方法,首先是因为有效执行DFT或者快速傅立叶转换(FastFourier Transform,FFT)而带来可能的复杂度简化,其次是DFT之后在频域中表示信号,这使得时间信号的依赖频率的处理更加容易。如果将处理后的信号转换回时域通常是为了避免DFT的循环卷积特性带来的后果,时间信号重叠的部分被转换,以及正向DFT/处理/反向DFT炼之前/和或者之后,确保在处理每个时间段(帧)后的良好的重建被加窗,并且将重叠部分相加以形成处理后的时间信号。这种方法,例如,在第6图中示出。
常见低延迟***使用反加窗,将用DFT滤波器组处理后的帧的右加窗部分除以应用在处理炼中的正向DFT之前的窗口,来产生处理后的离散时间信号的近似值,而无需获得用于通过简单反加窗重叠相加的后续帧,例如WO2017/161315A1。在第7图中,示出了在正向DFT之前的时域信号的加窗帧和对应的应用窗口形状的示例。
yr[n]=y,n<ns
Figure BDA0003148772280000021
其中ns是尚未获得后续帧的重叠区域的第一样本的索引,而ne是带有后续帧的重叠区域的最后一个样本的索引,而wa是应用在正向DFT之前的信号的当前帧的窗口。
根据处理方式和使用的窗口,不能保证分析窗口形状的包络被保存,尤其是在接近窗口末端时,窗口样本的值接近零,因此处理后的样本乘以>>1的值,其与通过带有后续帧的重叠相加(Overlap-Ass,OLA)所产生的信号相比,可能会导致在反加窗的最后一个样本有较大的偏差。在第8图中,示出了在DFT域和反向DFT中的处理之后,静态反加窗的近似与带有后续帧的OLA之间的不匹配的示例。
如果反加窗信号近似被使用在进一步的处理步骤中,例如在LPC分析中使用近似信号部分,与带有后续帧的OLA相比,这些偏差可能会导致性能下降。在第9图中,示出了对先前示例的近似信号部分进行的LPC分析的示例。
因此,期望获得一种概念,其提供在信号完整性、复杂度和延迟之间的一种改进的折衷方案。当基于无需执行重叠相加的频域表示来重建时域信号表示时,所述折衷方案是可用的。
这是可以通过本发明的独立权利要求的保护主题来达成。
本发明的其它的实施例是由本申请的从属权利要求的保护主题所限定。
发明概述
根据本发明的实施例涉及一种装置,用于基于输入音频信号表示提供经处理的音频信号表示。所述装置被配置为应用反加窗,例如自适应反加窗,以便基于所述输入音频信号表示来提供处理后的音频信号表示。例如,反加窗至少部分地反转分析加窗,所述分析加窗用于提供所述输入音频信号表示。此外,所述装置被配置为根据一个或多个信号特性和/或根据用于提供所述输入音频信号表示的一个或多个处理参数对所述反加窗进行适配。根据实施例,提供所述输入音频信号表示可以,例如,通过不同组件或者处理单元来执行。一个或多个信号特性例如是所述输入音频信号表示的特征或者导出所述输入音频信号表示的中间信号表示的特征。根据实施例,一个或多个信号特性包含,例如,直流分量d。一个或多个处理参数可以,例如,包含参数,所述参数用于分析加窗、正向频率变换、在频域中的处理和/或所述输入音频信号表示或者导出所述输入音频信号表示的中间信号表示的逆时间频率变换。
此实施例基于这种想法,即通过根据多个信号特性和/或根据用来提供所述输入音频信号表示的多个处理参数对所述反加窗进行适配,可以实现非常精确的经处理的音频信号表示。取决于多个信号特性和多个处理参数,根据用于提供所述输入音频信号表示的个别处理对所述反加窗进行适配。此外,随着所述反加窗的适配,所述已提供的经处理的音频信号表示可以代表基于所述输入音频信号表示的真实处理后和重叠相加后的信号的改进近似,例如,至少在右重叠部分的区域中,即当尚未获得后续帧时,在所述已提供的经处理的音频信号表示的端部中。例如,使用这个概念,可以适配所述反加窗,从而在所述反加窗引起强烈放大(例如,通过大于5或者大于10的系数)的时间范围内减少信号包络的不期望的降级。
根据实施例,所述装置被配置为根据确定处理的多个处理参数对所述反加窗进行适配,所述处理用于导出所述输入音频信号表示。多个处理参数确定,如,当前处理单元或者帧的处理,和/或一个或多个先前处理单元或者帧的处理。根据实施例,通过多个处理参数来确定所述处理,多个处理参数包含分析加窗、正向频率变换、在频域中的处理和/或所述输入音频信号表示或者导出所述输入音频信号表示的中间信号表示的逆时间频率变换。用于提供输入音频信号的处理方法的列表并不详尽,并且很明显,可以使用更多或者不同的处理方法。本发明不限于本文提出的处理方法列表。在所述反加窗中的所述处理的影响可以导致所述已提供的经处理的音频信号表示的准确性改进。
根据实施例,所述装置被配置为根据所述输入音频信号表示的和/或者导出所述输入音频信号表示的中间信号表示的多个信号特性来适配所述反加窗。多个信号特性可以由多个参数表示。所述输入音频信号表示是,例如,当前处理单元或者帧的时域信号,例如在频域中的处理和频域到时域转换后。所述中间信号表示是,例如,使用频域到时域转换从所述输入音频信号表示导出的处理后的频域表示。在这个实施例中和/或在以下实施例之一中,所述频域到时域转换可以选地可以使用混迭消除法或者不使用混迭消除法来执行(例如,使用反向转换,所述反向转换是包含可以通过执行重叠和相加来执行混迭消除特征的重叠转换,例如,MDCT转换)。根据实施例,处理参数与信号特性的差异在于处理参数,例如确定处理,像分析加窗、正向频率变换、在频谱域中的处理、逆时间频率变换等,而信号特性,例如确定信号表示,像偏移、振幅、相位等。所述输入音频信号表示的多个信号特征和/或所述中间信号表示的多个信号特性可以导致所述反加窗的适配,如此一来,不需要带有后续帧的重叠相加来提供所述经处理的音频信号表示。根据实施例,所述装置被配置为应用反加窗到所述输入音频信号表示以提供所述处理后的音频信号表示,其中这样有利于,例如,根据所述输入音频信号表示的多个信号特性适配所述反加窗,以减少所述已提供的经处理的音频信号表示与使用带有后续帧的重叠相加所获得的音频信号表示之间的偏差。附加地或者可以替代地,考虑中间信号表示的信号特性可以进一步改善反加窗,使得例如偏差显着减小。考虑所述中间信号表示的多个信号特性可以进一步改进所述反加窗,使得,例如,所述偏差明显地减少。例如,指示传统反加窗的潜在问题的多个信号特征可以被考虑,就像,例如指示直流偏移或者在处理单元的一端收敛至零的缓慢或者不足的多个信号特性。
根据实施例,所述装置被配置为获得一个或多个参数,所述参数描述应用到所述反加窗的信号的时域表示的多个信号特性。所述时表示,例如,代表导出所述输入音频信号表示的原始信号,或者在频域到时域转换后代表所述输入音频信号表示或者导出所述输入音频信号表示的中间信号。应用到所述反加窗的所述信号是,例如,所述输入音频信号表示或者当前处理单元或者帧的时域信号,例如,在频域中的处理和频域到时域转换之后。根据实施例,一个或者多个参数描述,例如所述输入音频信号表示或者当前处理单元或者帧的时域信号,的多个信号特性,例如,在频域中的处理和频域到时域转换之后。附加地或者可以替代地,所述装置被配置为获得一个或多个参数,所述参数描述中间信号的频域表示的多个信号特性,应用到所述反加窗的时域输入音频信号是从所述中间信号导出。所述时域输入音频信号代表,例如,所述输入音频信号表示。所述装置可以被配置为根据上述一个或多个参数对所述反加窗进行适配。所述中间信号是,例如,用于确定上述信号和所述输入音频信号表示的将要处理的信号。所述时域表示和所述频域表示代表,例如,在重要处理步骤的所述输入音频信号表示,其可以,基于放弃重叠相加处理,积极地影响所述反加窗以最小化在所述处理后的音频信号表示中的缺陷(或者假象),以提供所述经处理的音频信号表示。例如,描述多个信号特性的多个参数可以指示,当应用原始(未适配的)反加窗可以导致(或者可能导致)的假象。因此,基于所述多个参数可以有效地控制所述反加窗的适配(例如,衍生从传统反加窗)。
根据实施例,所述装置被配置为适配所述反加窗,以至少部分地反转分析加窗,所述分析加窗用于提供所述输入音频信号表示。例如,所述分析加窗应用于第一信号以获得中间信号,例如,被进一步处理用于提供所述输入音频信号表示的所述中间信号。因此,由所述装置提供的所述处理后的音频信号表通过应用所述适配后的反加窗以处理后的形式至少部分地代表所述第一信号。因此,所述第一信号的非常精确和改进的低延迟处理可以通过适配所述反加窗来实现。
根据实施例,所述装置被配置为适配所述反加窗,以至少部分地补偿后续处理单元的信号值的缺乏,例如接续帧或者后续帧。因此,不需要带有后续帧的重叠相加来获得时间信号,例如,所述处理后的音频信号表示,这是充分处理后的信号的良好近似,而所述信号可以通过使用带有后续帧的重叠相加来获得。对于信号处理***,这会带来较低的延迟,因为所述重叠相加可以被省略,其中所述信号处理***在使用滤波器组的处理之后,时间信号会被进一步处理。因此,利用这个特征,提供所述处理后的音频信号表示不需要已经处理的所述后续处理单元。
根据实施例,所述反加窗被配置为在后续处理单元可用之前提供所述经处理的音频信号表示的给定处理单元,例如时间段、帧或者当前的时间段,所述后续处理单元至少部分地在时间上重叠所述给定处理单元。所述处理后的音频信号表示可以包括多个先前处理单元,例如在所述给定处理单元之前按时间顺序排列的、例如当前处理后的时间段与多个后续处理单元、例如在给所述给定处理单元与所述输入音频信号表示之后按时间顺序排列的,其中提供所述处理后的音频信号表示是基于所述输入音频信号表示,例如,代表具有多个时间段的时间信号。可以替代的是,所述经处理的音频信号表示代表在所述给定处理单元中的处理后的时间信号和所述输入音频信号表示,其中提供所述处理后的音频信号表示是基于所述输入音频信号表示,例如,代表在所述给定处理单元中的时间信号。在所述给定处理单元中接收处理后的时间信号,例如加窗应用到所述输入音频信号表示或者用于提供所述输入音频信号表示将要处理的第一时间信号,然后处理可以应用到所述当前的时间段的或者所述给定处理单元的所述信号,例如中间信号,并且在所述处理之后,应用所述反加窗,其中,例如,所述给定处理单元与上一个处理单元的重叠段通过重叠相加求和,但所述定处理单元与后续处理单元的重叠段则不通过重叠相加来求和。所述给定处理单元可以包括与先前处理单元和所述后续处理单元重叠多个段。因此,例如,适配所述反加窗使得所述给定处理单元与所述后续处理单元的多个时间重叠段通过所述反加窗可以非常精确地近似(不需要执行重叠相加)。因此,减少延迟地处理所述音频信号表示,例如,因为仅需要考虑所述给定处理单元和先前处理单元,而不包括所述后续处理单元。
根据实施例,所述装置被配置为适配所述反加窗,以限制所述处理后的音频信号表示与所述输入音频信号表示,例如处理后的输入音频信号表示,的多个后续处理单元之间的重叠相加的结果的偏差。本文中,特别地,例如给定经处理的音频信号表示与给定处理单元、先前处理单元和所述输入音频信号表示的后续处理单元之间的重叠相加的结果的偏差受所述反加窗所限制。例如,所述先前处理单元已经被所述装置知道,由此所述给定处理单元的所述反加窗可以被适配,例如以后续处理单元(实际上不执行重叠相加)来近似所述给定处理单元的在时间上重叠相加时间段,以限制所述偏差。所述反机窗的适配,例如可以实现非常小的偏差,从而所述设备非常精确地提供所述处理后的音频信号表示,而无需后续处理单元的处理(和重叠相加)。
根据实施例,所述装置被配置为适配所述反加窗,以限制所述处理后的音频信号表示的值。例如,所述反加窗被适配,使得值至少被限制在所述输入音频信号表示的处理单元,例如给定处理单元,的端部。例如,所述装置被配置为使用用于执行反加权(或者反加窗)的加权值,所述加权值小于用于分析加窗的对应值的乘法反元素,所述分析加窗用于提供所述输入音频信号表示,例如至少用于所述输入音频信号表示的处理单元的端部的缩放。例如,如果所述输入音频信号表示的所述处理单元的所述端部没有趋向(或者收敛)至零,则没有通过限制值的适配的反加窗可能会导致对所述经处理的音频信号表示的所述端部的值的过量放大。值的限制(例如,通过使用“减少的”加权值)可以非常准确地提供所述经处理的音频信号表示,因为可以避免由于不适当的反加窗所造成的放大所引起的大偏差。
根据实施例,所述装置被配置为适配所述反加窗,使得对于没有,例如平滑地,在所述输入音频信号的处理单元的端部收敛至零的输入音频信号表示,与所述输入音频信号表示,例如平滑地,在所述处理单元的所述端部收敛至零的情况相比时,通过所述反加窗应用在所述处理单元的所述端部的缩放是减少的。通过缩放,例如,放大在所述输入音频信号的所述处理单元的所述端部中的值。为了避免所述输入音频信号的所述处理单元的所述端部中的值的过量放大,当输入音频信号表示没有收敛至零时,通过所述反加窗应用在所述处理单元的所述端部的所述缩放是减少的。
根据实施例,所述装置被配置为适配所述反加窗,从而限制所述处理后的音频信号表示的动态范围。例如,适配所述反加窗,使得所述动态范围被限制在至少所述输入音频信号表示的处理单元的端部中或者选择性地在所述输入音频信号表示的所述处理单元的所述端部中,从而也限制所述经处理的音频信号表示的所述动态范围。例如,适配所述反加窗,使得由没有适配的所述反加窗所引起的过量放大会被减少,以限制所述限制经处理的音频信号表示的所述动态范围。因此,在所述给定经处理的音频信号表示与所述输入音频信号表示的多个后续处理单元之间的重叠相加的结果的非常小或者几乎没有的偏差可以被实现,其中所述输入音频信号表示代表,例如在频谱域中的处理和频谱域到时域转换后的时域信号。
根据实施例,所述装置被配置为根据所述输入音频信号表示的直流分量,例如偏移,对所述反加窗进行适配。根据实施例,处理第一信号或者中间信号表示以提供所述输入音频信号表示,可以将所述直流偏加到所述第一信号或者所述中间信号的处理后的帧,其中所述处理后的帧代表,例如,所述输入音频信号表示。通过这种直流分量,例如所述输入音频信号表示不会收敛至零,从而在所述反加窗中发生错误。以根据所述直流分量适配所述反加窗,可以最小化这种错误。
根据实施例,所述装置被配置为至少部分地去除所述输入音频信号表示的直流分量,例如偏移。根据实施例,在应用反转加窗的缩放之前(或者刚好之前),所述直流分量被去除,例如除以窗口值之前。例如,在具有后续处理单元或者帧的重叠区域中选择性地去除所述直流分量。换句话说,在所述输入音频信号表示的端部中,至少部分地去除所述直流分量。根据实施例,仅在所述输入音频信号表示的所述端部中去除所述直流分量。例如,这是基于这样的想法,仅在末端部份缺少后续处理单元(用于执行重叠相加)会导致错误在由所述反加窗引起的所述经处理的音频信号表示中,所述错误可以通过去除在所述端部的所述直流分量被最小化。因此,至少部分地去除影响所述反加窗的因素,以提高所述装置的准确性。
根据实施例,所述反加窗被配置为根据窗口值(或者多个窗口值)来缩放所述输入音频信号表示的直流去除或者直流减少版本,以便获得所述处理后的音频信号表示。例如,所述窗口值是代表用于提供所述输入音频信号表示的第一信号或者中间信号的加窗的窗口的一个值。因此,窗口值可以包括例如用于所述输入音频信号表示的所述当前的时间帧的所有时间的值,所述值例如与所述第一或者所述中间信号相乘以提供所述输入音频信号表示。因此,可以根据窗口功能或者窗口值来执行所述输入音频信号表示的所述直流去除或者直流减少版本的缩放,例如通过将所述输入音频信号表示的所述直流去除或者直流减少版本除以所述窗口值或者除以所述窗口功能的值。因此,所述反加窗非常有效率地取消了应用在用于提供所述输入音频信号表示的所述第一信号或者所述中间信号的加窗。因为所述直流去除或者直流减少版本的使用,所述反加窗导致所述经处理的音频信号表示与所述输入音频信号表示的多个处理单元之间的重叠相加的结果的小或者几乎没有的偏差。
根据实施例,所述反加窗被配置为在所述输入音频信号的直流去除或者直流减少版本的缩放后,至少部分地重新引入直流分量,例如偏差。如上所述,所述缩放可以基于窗口值。换句话说,所述缩放可以代表通过所述设备执行的反加窗。通过所述直流分量的重新引入,所述反加窗可以提供非常准确的经处理的音频信号表示。这是基于这样的想法,在重新引入所述直流分量的前,基于用于提供所述输入音频信号的加窗,先缩放所述输入音频信号的直流去除或者直流减少版本会更有效率以及准确,因为以所述直流分量来缩放所述输入音频信号的版本,可能会导致所述输入音频信号的过量放大,从而导致所述反加窗提供的所述提供的经处理的音频信号表示的高不准确性。
根据实施例,所述反加窗被配置为基于所述输入音频信号表示y[n]来确定所述经处理的音频信号表示yr[n],根据
Figure BDA0003148772280000081
其中d是直流分量。d值可以替代代表如上面所解释的直流偏移。例如,所述直流分量d代表在所述输入音频信号表示的当前处理单元或者帧中或者其一部分,例如端部,的直流偏移。n值是时间索引,其中ns是重叠区域的第一样本的时间索引,例如在当前处理单元或者帧与后续处理单元或者帧之间,而ne是所述重叠区域的最后一个样本的时间索引。函数wa[n]的值是分析窗口,所述分析窗口用于提供所述输入音频信号表示,例如在ns与ne之间的时间帧内。根据实施例,所述分析窗口wa[n]代表如上所述的窗口值。因此,根据引入的方程式,所述直流分量从所述输入音频信号表示中去除,并且通过所述分析窗口对所述输入音频信号表示的这个版本进行缩放,然后通过叠加将所述直流分向重新引入。因此,所述反加窗适配至所述直流分量,以最小化在所提供的所述处理后的音频信号表示中的错误。根据实施例,所述装置被配置为仅在当前处理单元,即给定处理单元,的所述端部中,根据上述方程式来执行所述反加窗,并且执行不同的反加窗,例如像静态反加窗或者自适应反加窗之类的常见的反加窗,而且在所述当前时间帧的剩余时间内具有重叠相加功能。
根据实施例,所述装置被配置为使用位于时间部的所述输入音频信号表示,例如将要应用所述反加窗的所述时域信号,的一个或多个值来确定所述直流分量,在所述时间部中用于提供所述输入音频信号表示的分析窗口包含一个或者多个零值。例如,这些零值可以代表用于提供所述输入音频信号表示的所述分析窗口的零填充。例如,具有零填充的分析窗口可用于提供所述输入音频信号,例如在提供所述输入音频信号的时域到频域转换、在所述频域中的处理和频域到时域转换执行之前。在这个实施例和/或以下使用混迭消除法或者不使用混迭消除法的其中一实施例中,所描述的时域到频域转换和/或所描述的频域到时域转换可以选地被执行。根据实施例,位于时间部的所述输入音频信号表示的一个值被用于当作所述直流分量的近似值,在所述时间部中用于提供所述输入音频信号表示的分析窗口包含一个零值。可以替代地,位于所述时间部的所述输入音频信号表示的多个值的平均值被用于作为所述直流分量的所述近似值,在所述时间部中用于提供所述输入音频信号表示的分析窗口包含一个零值。因此,所述加窗所导致的所述直流分量与为了提供所述输入音频信号的信号处理可以以一个非常简单和有效的方式来确定,并且可用于改进被所述装置所执行的所述反加窗。
根据实施例,所述装置被配置为使用频谱域到时域转换来获得所述输入音频信号表示。所述频谱域到时域转换也可以被理解为,例如,频域到时域转换。根据实施例,所述装置被配置为滤波器组作为所述频谱域到时域转换。可以替代地,例如所述装置被配置为使用反向离散傅立叶变换或者反向离散余弦转换作为频谱域到时域转换。因此,所述装置被配置为执行中间信号的处理以获得所述输入音频信号表示。根据实施例,所述装置被配置为使用与所述频谱域到时域转换有关的多个处理参数来提供所述输入音频信号表示。因此,通过所述装置可以非常快速和准确地确定影响所述装置执行的反加窗的多个处理参数,因为所述装置被配置为执行所述处理并且所述装置不必从执行所述处理以向本发明的装置提供所述输入音频信号表示的不同装置接收多个处理参数。
根据本发明实施例,涉及一种音频信号处理器,其基于将要处理的音频信号用于提供经处理的音频信号表示。所述音频信号处理器被配置为用以应用分析加窗到所述将要处理的音频信号的处理单元,例如帧或者时间段,的时域表示,以获得所述将要处理的音频信号的所述处理单元的所述时域表示的经加窗版本。此外,所述音频信号处理器被配置为基于所述经加窗版本来获得所述音频信号的频谱域表示,例如频域表示。因此,例如像DFT的正向频率变换被用于获得所述频谱域表示。例如,所述频率变换被应用到所述将要处理的音频信号的所述经加窗版本,以获得所述频谱域表示。所述音频信号处理器被配置为用以应用频谱域处理,例如在所述频域中的处理,到所述已获得的频谱域表示,以获得经处理的频谱域表示。所述音频信号处理器被配置为基于所述处理后的频谱域表示来获得经处理的时域表示,例如使用逆时间频率变换。所述音频信号处理器包含如本文所述的装置,其中所述装置被配置为获得所述处理后的时域表示作为其输入音频信号表示,并且基于所述输入音频信号表示来提供所述经处理的音频信号表示,例如反加窗的音频信号表示。根据实施例,所述装置被配置为从所述音频信号处理器接收用于所述反加窗的适配的一个或多个处理参数。因此,一个或多个处理参数可以包含涉及被所述音频信号处理器执行所述分析加窗的多个参数、涉及例如为了获得所述将要处理的音频信号的频率变换的多个处理参数、涉及被所述音频信号处理器执行的频谱域处理的多个参数和/或涉以及逆时间频率变换的多个参数,以通过所述音频信号处理器获得所述处理后的时域表示。
根据实施例,所述装置被配置为使用所述分析加窗的窗口值来调整所述反加窗。例如,窗口值代表多个处理参数。例如,窗口值代表应用到所述处理单元的单时域表示的所述分析加窗。
实施例涉及一种音频解码器,用于基于经编码的音频表示用于提供经解码的音频表示。所述音频解码器被配置为基于所述经编码的音频表示来获得经编码的音频信号的频谱域表示,例如频域表示。此外,所述音频解码器被配置为基于所述频谱域表示,例如使用频域到时域转换,来获得所述经编码的音频信号的时域表示。所述音频解码器包含根据本文描述的多个实施例中的一个的装置,其中所述装置被配置为获得所述时域表示作为其输入音频信号表示,并且基于所述输入音频信号表示来提供所述经处理的音频信号表示,例如反加窗的音频信号表示,作为所述经解码的音频表示。
根据实施例,所述音频解码器被配置为在后续处理单元,例如帧或者时间段,解码之前提供给定处理单元,例如帧或者时间段,的所述音频信号表示,例如完整的音频信号表示,所述后续处理单元与所述给定处理单元在时间上重叠。因此,所述音频解码器可以仅解码所述给定处理单元,而不需要解码所述编码后的音频表示的多个即将到来的单元,即多个后续处理单元。而且,可以实现低延迟。
实施例涉及一种音频编码器,其基于输入音频信号表示用于提供经编码的音频表示。所述音频编码器包含根据本文描述的多个实施例中的一个的装置,其中所述装置被配置为基于所述输入音频信号表示来获得处理后的音频信号表示。所述音频编码器被配置为对所述经处理的音频信号表示进行编码。因此,一种有益的编码器被提出,其可以以短延迟来执行编码,因为被所述装置应用的增强的反加窗用于,例如对给定处理单元进行编码,而不需要处理后续处理单元。
根据实施例,所述音频编码器被配置为基于所述处理后的音频信号表示来获得频谱域表示。所述经处理的音频信号表示例如是时域表示。所述音频编码器被配置为对所述频谱域表示和/或所述时域表示进行编码,以获得所述编码后的音频表示。因此,例如本文所描述通过所述装置所执行的反加窗可以导致时域表示,并且对时域表示的编码是有益处的,因为所述经编码的表示导致较短的延迟,相较于例如使用完全重叠相加用于提供所述处理后的音频信号表示的编码器。根据实施例,在一***中所述编码器例如是切换时域/频域编码器。
根据实施例,所述装置被配置为在频谱域中执行复数个输入音频信号的降混,所述些输入音频信号来自所述输入音频信号表示,并且提供降混信号作为所述经处理的音频信号表示。
根据本发明实施例,涉及一种方法,其基于输入音频信号表示用于提供经处理的音频信号表示,所述输入音频信号表示可以被认为是所述设备的所述输入音频信号。所述方法包含应用反加窗,以便基于所述输入音频信号表示来提供所述经处理的音频信号表示。所述反加窗例如是自适应反加窗,所述反加窗至少部分地反转分析加窗,所述分析加窗用于提供所述输入音频信号表示。此外,所述方法包含根据一个或多个信号特性和/或根据用于提供所述输入音频信号表示的一个或多个处理参数对所述反加窗进行适配。一个或多个信号特性例如是所述输入音频信号表示或者导出所述输入音频信号表示的中间信号表示。多个信号特性可以包含直流分量d。
所述方法基于与上述装置相同的考虑。所述方法可以可以选地由本文也关于所述装置描述的任何特征、功能和细节来补充。所述特征、功能和细节可以单独使用或者组合使用。
实施例涉及一种方法,其基于将要处理的音频信号用于提供经处理的音频信号表示。所述方法包含应用分析加窗到所述将要处理的音频信号的处理单元,例如帧或者时间段,的时域表示,以获得所述将要处理的音频信号的所述处理单元的所述时域表示的经加窗版本。此外,所述方法包含基于所述经加窗版本来获得所述音频信号的频谱域表示,例如频域表示。根据实施例,正向频率变换,例如像DFT,被用于获得所述频谱域表示。所述正向频率变换应用到所述将要处理的音频信号的所述经加窗版本,以获得所述频谱域表示。所述方法包含应用频谱域处理,例如在所述频域中的处理,到所述已获得的频谱域表示,以获得经处理的频谱域表示。此外,所述方法包含基于所述处理后的频谱域表示,例如使用逆时间频率变换,来获得经处理的时域表示,以及使用本文所描述的方法来提供所述经处理的音频信号表示,其中所述经处理的时域表示作为所述输入音频信号表示,所述输入音频信号表示用于执行所述方法。
所述方法基于与上述所述音频信号处理器和/或装置相同的考虑。所述方法可以可以选地由本文也关于所述音频信号处理器和/或装置描述的任何特征、功能和细节来补充。所述特征、功能和细节可以单独使用或者组合使用。
实施例涉及一种方法,其基于经编码的音频表示用于提供经解码的音频表示。所述方法包含基于所述经编码的音频表示来获得经编码的音频信号的频谱域表示,例如频域表示。此外,所述方法包含基于所述频谱域表示来获得所述经编码的音频信号的时域表示以及使用本文所描述的方法来提供经处理的音频信号表示,其中所述时域表示作为所述输入音频信号表示,所述输入音频信号表示用于执行如所述方法,并且其中所述经处理的音频信号表示可能构成所述经解码的音频信号表示。
所述方法基于与上述所述音频解码器和/或装置相同的考虑。所述方法可以以可以选地由本文也关于所述音频解码器和/或装置描述的任何特征、功能和细节来补充。所述特征、功能和细节可以单独使用或者组合使用。
根据本发明实施例,涉及一种计算机程序,其具有程序代码,当在所述计算机程序在计算机上运行时,所述程序代码用于执行如本文描述的方法。
附图说明
图1a示出了根据本发明实施例的装置的示意方框图;
图1b示出了根据本发明实施例的音频信号的加窗的示意图,所述音频信号用于提供输入音频信号表示,所述输入音频信号表示通过装置被反加窗;
图1c示出了根据本发明实施例的由装置所应用的反加窗,例如信号近似,的示意图;
图1d示出了根据本发明实施例的由装置所应用的反加窗,例如矫正,的示意图;
图2示出了根据本发明实施例的音频信号处理器的示意方框图。
图3示出了根据本发明实施例的音频解码器的示意图;
图4示出了根据本发明实施例的音频编码器的示意图;
图5a示出了根据本发明实施例的一种方法的流程图,所述方法用于提供经处理的音频信号表示;
图5b示出了根据本发明实施例的一种方法的流程图,所述方法基于将要处理的音频信号用于提供经处理的音频信号表示;
图5c示出了根据本发明实施例的一种方法的流程图,所述方法用于提供经解码的音频表示;
图5d示出了根据本发明实施例的一种方法的流程图,所述方法基于输入音频信号表示用于提供经编码的音频表示;
图6示出了音频信号的常见处理的流程图;
图7示出了在正向DFT之前的时域信号的加窗帧和相应的应用后窗口形状的示例;
图8示出了在使用反加窗的近似与在所述DFT域中的处理后带有后续帧的OLA之间的不匹配的示例;以及
图9示出了对先前示例的近似信号部分所进行的LPC分析的示例。
具体实施方式
在以下的描述中,即使在不同的附图中出现,相同或者等效的组件或者具有相同或者等效功能的组件也由相同或者等效的符号表示。
在以下的描述中,阐述了多个细节以提供对本发明的实施例的更彻底的解释。然而,对于本领域技术人员将显而易见的是,可以在没有这些具体细节的情况下实践本发明的实施例。在其他示例中,以帧图的形式而不是详细地示出了公知的结构和装置,以避免使本发明的实施例不清楚。另外,除非另外特别指出,否则本文以下所描述的不同实施例的特征可以彼此组合。
图1a示出了基于输入音频信号表示120用于提供处理后的音频信号表示110的装置100的示意图。所述输入音频信号表示120可以由可选的组件200所提供,其中所述组件200处理信号122以提供所述输入音频信号表示120。根据实施例,所述组件200可以执行成帧、分析加窗、正向频率变换、在频域中的处理和/或信号122的逆时间频率变换,以提供输入音频信号表示120。
根据实施例,装置100可以被配置为从外部的组件200获得所述输入音频信号表示120。可以替代地,所述可选的组件200可以是所述装置100的一部分,其中所述可选的信号122可以代表所述输入音频信号表示120,或者者其中由所述组件200基于所述信号122所提供的处理后的信号可以代表所述输入音频信号表示120。
根据实施例,所述输入音频信号表示120代表在频谱域中的处理和频谱域到时域转换后的时域信号。
所述装置100被配置为应用反加窗130,例如自适应反加窗,以便基于所述输入音频信号表示120来提供所述经处理的音频信号表示110。例如,所述反加窗130至少部分地反转分析加窗,所述分析加窗用于提供所述输入音频信号表示120。可以替代地或者附加地,例如所述装置被配置为适配所述反加窗130,以至少部分地反转所述分析加窗,所述分析加窗用于提供所述输入音频信号表示120。因此,例如所述可选的组件200可以应用加窗到所述信号122以获得所述输入音频信号表示120,所述输入音频信号表示120可以通过所述反加窗130所反转(例如至少部分地)。
所述装置100被配置为根据个或多个信号特性140和/或根据用来提供所述输入音频信号表示120的个或多个处理参数150对所述反加窗进行适配130。根据实施例,所述装置100被配置为从所述输入音频信号表示120和/或从所述组件200获得一个或多个信号特性140,其中组件200可以提供所述可选的信号122的一个或多个信号特性140和/或处理所述信号122产生的多个中间信号的一个或者多个信号特性140,所述信号用于提供所述输入音频信号表示120。因此,例如所述装置100被配置为不但可以使用所述输入音频信号表示120的多个信号特性140也可以以使用,可以替代地或者附加地,例如导出所述输入音频信号表示120的多个中间信号或者原始的信号122。多个信号特性140可以例如包含与所述处理后的音频信号表示110有关的多个信号的振幅、相位、频率、直流分量等。根据实施例,处理参数150可以通过所述装置100从所述可选的组件200获得。多个处理参数,例如,定义用于提供所述输入音频信号表示120的方法或者处理步骤的配置,所述方法或者处理步骤应用到多个信号,例如应用所述原始的信号122或者一个或多个中间信号。因此,多个处理参数150可以代表或者定义对所述输入音频信号表示120所经历的处理。
根据实施例,多个信号特性140可以包含一个或多个参数,所述参数描述当前处理单元或者帧,例如给定处理单元,的时域信号,例如所述输入音频信号表示120,的时域表示的多个信号特性,其中所述时域信号产生信号122的加窗和处理后的版本,例如在频域中的处理和频域到时域转换后。附加地或者可以替代地,多个信号特性140可以包含一个或多个参数,所述参数描述中间信号的频域表示的多个信号特性,应用到所述反加窗的时域输入音频信号,例如所述输入音频信号表示120,是从所述中间信号导出。
根据实施例,本文描述的多个信号特性140和/或多个处理参数可以,如同以下实施例描述,通过所述装置100用于适配所述反加窗130。例如,多个信号特性可以使用信号120或者从信号120导出的任何信号的信号分析来获得。
根据实施例,所述装置100被配置为适配所述反加窗130,以至少部分地补偿后续处理单元的信号值的缺乏,例如接续帧。例如,所述可选的信号122通过所述可选的组件200加窗到多个处理单元中,其中给定处理单元可以通过所述装置100来反加窗。利用种常见的方法,反加窗的给定处理单元与先前处理单元和后续处理单元进行重叠相加。利用本文中所述反加窗130的调整,不需要所述后续处理单元,因为所述反加窗130可以近似所述处理后的音频信号表示110,就像执行了带有接续帧的所述重叠相加,而没有实际地执行带有所述接续帧的重叠相加。
以下关于图1b至图1d,对于根据本发明实施例在图1a中所示的装置,呈现了多个帧,例如多个处理单元,和它们的重叠区域的更全面的描述。
在图1b中,示出了根据本发明实施例的所述分析加窗,所述分析加窗可以通过所述可选的组件200执行,作为获得所述中间信号123的多个步骤中的一个。根据实施例,如图1c和/或图1d所示,所述中间信号123可以进一步通过用于提供所述输入音频信号表示的所述可选的组件200来处理。
图1b仅是示出先前处理单元124i-1的经加窗版本、给定处理单元124i的经加窗版本和后续处理单元124i+1的经加窗版本的示意图,其中,索引i代表至少为2的自然数。根据实施例,所述先前处理单元124i-1、所述给定处理单元124i和所述后续处理单元124i+1可以通过应用到时域信号122的窗口132来实现。根据实施例,所述给定处理单元124i可以在t0到t1的时间段内与所述先前处理单元重叠124i-1,并且可以在t2到t3的时间段内与所述后续处理单元124i+1重叠。显然,图1b仅是示意,并且在分析加窗之后的多个信号可能不同于图1b所示。应当注意的是,加窗后处理单元124i-1到124i+1可以转换成频域、在频域中处理以及转换回时域。在图1c中,示出了所述先前处理单元124i-1、所述给定处理单元124i和所述后续处理单元124i+1,并且在图1d中,示出了所述先前处理单元124i-1、所述给定处理单元124i和所述后续处理单元124i+1,其中通过所述装置应用的所述反加窗可以基于所述处理单元124。根据实施例,所述先前处理单元124i-1可以与过去的帧相关,并且所述给定处理单元124i可以与当前帧相关。
通常,在合成加窗(其通常在转换回所述时域之后甚至与转换回所述时域一起被应用)之后,对多个帧执行重叠相加,多个帧包含那些t0到t1的和/或者t2到t3的重叠区域(t2到t3可以与图1d中的ns到ne相关),以提供处理后的音频信号表示。相反地,本发明的装置100,如图1a所示,可以被配置为应用所述反加窗130(即,取消分析加窗),因此在t2到t3的时间段中所述给定处理单元124i与所述后续处理单元124i+1的重叠相加就不需要,参见图1c和图1d。例如,这可以通过适配所述反加窗,以部分地补偿所述后续处理单元124i+1的信号值的缺乏,如图1c所示。因此,例如,不需要所述后续处理单元124i+1在t2到t3的时间段中的信号值,并且可以通过所述装置100通过所述反加窗130来补偿错误,所述错误可能因为信号值的缺乏而发生(例如,放大在所述给定处理单元的端部的所述信号120的值,这样适配信号特性和/或处理参数以避免或者减少假象)。这样可以带来信号近似带来的额外延迟减少。
如果,例如所述反加窗应用到通过所述中间信号123的处理所提供的所述输入音频信号表示,则所述反加窗被配置为在后续处理单元124i+1可用的前提供给定处理单元124i的重建版本,即所述经处理的音频信号表示110的时间段、帧,在t2到t3的时间段中所述后续处理单元124i+1至少部分地在时间上重叠所述给定处理单元,参见图1c和图1d。因此,所述装置100不需要展望未来,因为仅反加窗所述给定处理单元124i就足够了。
根据实施例,所述装置100被配置为应用给定处理单元124i与所述先前处理单元124i-1在t0到t1的时间段内的重叠相加,因为例如所述先前处理单元124i-1已经由所述装置100处理。
根据实施例,所述装置100被配置为适配所述反加窗130,以减少或者限制经处理的音频信号表示(例如,所述输入音频信号表示的所述给定处理单元124i的反加窗版本)与所述输入音频信号表示的多个后续处理单元之间的重叠相加的结果的偏差。因此,所述反加窗被适配,使得所述处理后的音频信号表示,例如给定处理单元124i,与经处理的音频信号表示几乎没有偏差产生,所述经处理的音频信号表示可以使用常见带有所述后续处理单元的重叠相加来获得,其中,通过所述装置100的新反加窗的延迟少于常见方法,因为在所述反加窗中不必考虑所述后续处理单元124i+1,这优化了处理信号用于提供所述处理后的音频信号表示110所需的延迟。
根据本发明实施例,所述装置100,如图1a所示,被配置为适配所述反加窗130,以限制所述经处理的音频信号表示110的值。因此,例如,处理单元,例如在所述给定处理单元124i的t2到t3的时间段内,的高值,例如参见图1c或者第8图至少在端部126,可以通过所述反加窗来限制(例如,通过选择性减少放大系数,就像在所述给定处理单元124i的端部126处所述输入音频信号表示缓慢地收敛至零)。因此,可以避免大偏差,大偏差可能发生在带有通过静态反加窗所获得的近似部分的输出信号1121与使用带有下一帧的OLA所获得的输出信号1122之间,参见第8图。根据实施例,所述装置100被配置为使用用于执行反加权的加权值,所述加权值小于用于分析加窗132的对应值的乘法反元素,所述分析加窗132用于或者获得所述中间信号123,所述分析加窗可以进一步用来提供所述输入音频信号表示120,例如至少用于缩放所述输入音频信号表示120的处理单元的端部126。
根据实施例,所述反加窗130对所述输入音频信号表示120应用缩放,其中在某些情况下,当所述输入音频信号表示120在所述给定处理单元124i的所述端部126收敛至零的情况相比时,在所述输入音频信号表示120的所述给定处理单元124i的t2到t3的时间段内的所述端部126的所述缩放是减少的。因此,所述反加窗130可以以通过所述装置100来适配,使得所述输入音频信号表示120可以在所述给定处理单元124i中的不同时间段经历不同的缩放。因此,例如,至少在所述输入音频信号表示120的所述给定处理单元124i的所述端部126中,适配了所述反加窗,从而限制了所述处理后的音频信号表示110的动态范围。因此,本发明的装置100可以避免,如第8图中的所述端部126中的所述输出信号1121所示的高峰值,所述装置100被配置为调整所述反加窗130。
根据实施例,不同的给定处理单元124i,即所述输入音频信号表示120的不同部分,可以通过不同的缩放比例来反加窗,从而实现自适应反加窗。因此,例如,所述信号122可以通过所述组件200来加窗进入多个处理单元124,并且所述装置100被配置为对每一个处理单元124执行反加窗(例如,使用不同的反加窗参数),以提供所述经处理的音频信号表示110。
根据实施例,所述输入音频信号表示120可以包含直流分量,例如偏差,所述直流分量可以通过所述装置100用于适配所述反加窗130。所述输入音频信号表示的所述直流分量可以,例如,来自于通过用于提供所述输入音频信号表示120的所述可选的组件200所执行的所述处理。根据实施例,所述装置100被配置为用以至少部分地去除所述输入音频信号表示的所述直流分量,例如通过应用所述反加窗130和/或在应用缩放,以及所述反加窗130,之前,所述缩放反转所述加窗,例如所述分析加窗。根据实施例,所述输入音频信号表示的所述直流分量在除以窗口值的前可以通过所述装置来去除,所述窗口值代表,例如所述反加窗。根据实施例,所述直流分量在所述重叠区域可以至少部分地选择性去除,例如以通过带有所述后续处理单元124i+1的所述端部126为代表。根据实施例,所述反加窗130应用至所述输入音频信号表示120的直流去除或者直流减少版本,其中所述反加窗可以代表根据窗口值来缩放,以便获得所述经处理的音频信号表示110。例如,通过将所述输入音频信号表示120的所述直流去除或者直流减少版本除以所述窗口值。所述窗口值,例如,由图1b所示的所述窗口132为代表,其中例如对于所述给定处理单元124i中的每一个时间步骤,存在一个窗口值。
在所述输入音频信号表示120的所述直流去除或者直流减少版本的缩放之后,例如基于窗口值的缩放,所述输入音频信号表示120的所述直流分量可以以,例如至少部分地,重新引入。这是基于这样的想法,所述直流分量会在所述反加窗中发生错误,并且通过在反加窗之前去除所述错误与在所述反加窗之后重新引入所述直流分量,将所述错误最小化。
根据实施例,所述反加窗130被配置为基于所述输入音频信号表示y[n]120来确定所述经处理的音频信号表示yr[n]110,根据
Figure BDA0003148772280000181
所述直流分量或者直流偏移,例如在所述输入音频信号表示的当前处理单元或者帧中或者其一部分,可以由d值来代表。索引n是代表,例如时间步骤或者在ns到ne的时间间隔内的连续时间(参见图1d)的时间索引,其中ns是重叠区域的第一样本的时间索引例如在当前处理单元或者帧与后续处理单元或者帧之间,而其中ne是所述重叠区域的最后一个样本的时间索引。函数wa[n]的值是分析窗口,所述分析窗口用于提供所述输入音频信号表示,例如在ns与ne之间的时间帧内。
换句话说,在优选的实施例中,假设所述处理加入,例如,直流偏移d到所述信号的所述处理后的帧,并且所述矫正(或者反加窗)适配至这个直流分量。
Figure BDA0003148772280000182
在进一步的优选的实施例中,这个直流分量,例如,通过使用带有零填充的分析窗口来近似,并且取用在处理以及反向DFT之后在所述零填充范围内的样本的值作为用于所述加入后的直流分量的近似值d。
根据实施例,所述装置100被配置为使用位于时间部134的所述输入音频信号表示120的一个或多个值来确定所述直流分量,参见图1b,在所述时间部中用于提供所述输入音频信号表示120的分析窗口132包含一个或多个零值。这个时间部134可以代表零填充(例如,连续的零填充),其可以选地应用于确定所述输入音频信号表示120的所述直流分量。尽管在所述分析窗口132的所述时间部134的零填充应导致在这个时间部134的加窗后信号的值为零,但这个加窗后信号的处理可能在这个时间部134内产生定义为所述直流分量的直流偏移。根据实施例,所述直流分量可以代表在所述时间部134内的所述输入音频信号表示120的主要偏移(参见图1b)。
换句话说,根据实施例,在图1a到图1d上下文中所描述的所述装置100可以执行用于低延迟频域处理的自适应反加窗。本发明公开了一种新颖的方法,所述方法用于反加窗或者矫正(参见图1c或者图1d)时间信号,例如在使用不需要以带有后续帧的重叠相加的滤波器组的处理之后,以获得时间信号,这是在带有后续帧的重叠相加后充分处理后的信号的良好近似,对于信号处理***,这会带来较低的延迟,其中所述信号处理***在使用滤波器组的处理之后,时间信号会被进一步处理。
图1c和图1d可以示出通过本文中提出的装置100来执行的相同或者替代的反加窗,其中重叠相加(overlap-add,OLA)可以在所述过去的帧与所述当前帧之间执行,并且不需要后续处理单元124i+1
为了确保所述矫正后的信号部分的良好近似,以及避免使用与所述应用的分析窗口相反的静态反加窗,我们提出了,例如,自适应矫正
yr[n]=f(y[n],wa[n]),n∈[ns;ne]
所述适配(例如)优选地基于所述分析窗口wa和例如以下的一个或多个参数:
·在当前帧和可能的过去的帧的所述频域中的处理中可用的以及使用的参数
·从当前帧的频域表示所导出的参数
·从在频域中的处理和反向频率变换之后的当前帧的时间信号所导出的参数
新方法和装置的优点是,当尚无后续帧可用时,可以在右侧重叠部分之区域中更好地逼近实际处理过的重叠重叠信号。
本文提出的装置100和方法可以在以下应用领域中使用:
·低延迟处理***,其在频域中使用带有重叠相加的正向和反向频率变换来处理信号之后,用于对信号进一步处理。
·用于参数化立体声编码器或者立体声解码器或者立体声编码器/解码器***,其中在编码器中通过在频域中处理立体声输入信号来创造降混,并且使用最新的单声道语音/音乐编码器,如EVS,将频域降混转换回时域用于进一步的单声道编码。
·用于EVS编码标准的未来立体声扩展,即在这***的DFT立体声部分中。
·实施例可以在3GPPIVAS装置或者***中使用。
图2示出了一种音频信号处理器300,其基于将要处理的音频信号122,例如第一信号,用于提供经处理的音频信号表示110。根据实施例,所述第一信号122可以成帧或者分析加窗210以提供第一中间信号1231,所述第一中间信号1231可以经历正向频率变换220以提供第二中间信号1232,所述第二中间信号1232可以经历在频域中进行处理230以提供第三中间信号1233,并且所述第三中间信号1233可以经历逆时间频率变换240以提供第四中间信号1234。所述分析加窗210,例如,通过所述音频信号处理器300应用到所述音频信号122的处理单元,例如帧,的时域表示。由此,所述已获得的第一中间信号1231代表,例如,所述音频信号122的所述处理单元的所述时域表示的加窗后版本。所述第二中间信号1232可以代表基于所述经加窗版本,例如所述第一中间信号1231,而获得的所述音频信号122的频谱域表示或者频域表示。在频域中的所述处理230也可以代表频谱域处理并且可以,例如包含滤波和/或平滑和/或频率变换和/或声音效果处理,就像回声***等和/或带宽扩展和/或环境信号提取和/或源分离。因此,所述第三中间信号1233可以代表经处理的频谱域表示,所述第四中间信号1234可以代表可选的基于所述经处理的频谱域表示的处理后的时域表示,即所述第三中间信号1233。
根据实施例,所述音频信号处理器200包含例如图1a至图1b所描述的装置100,所述装置100配置用以获得所述经处理的时域表示1234y[n]作为其输入音频信号表示,并且基于所述输入音频信号表示来提供所述处理后的音频信号表示yr[n]110。所述逆时间频率变换240可以代表频谱域到时域转换,例如使用滤波器组、使用反向离散傅立叶变换或者反向离散余弦转换。因此,所述设备100,例如被配置为使用频谱域到时域转换来获得以所述第四中间信号1234表示的所述输入音频信号表示。
所述装置被配置为执行反加窗,以便基于所述输入音频信号表示1234提供所述经处理的音频信号表示110yr[n]。根据实施例,所述反加窗应用到所述第四中间信号1234。通过所述装置100对所述反加窗130的适配可以包含关于图1a和/或者图1b所描述的特征和/或功能。根据实施例,所述装置100可以被配置为根据所述中间信号1231至1234的多个信号特性1401至1404和/或根据用于提供所述输入音频信号表示的多个每个从的处理步骤210、220、230和/或240的多个处理参数1501至1504对所述反加窗进行适配130。例如,可以从处理参数得出结论,是否可以预期输入到所述反加窗的输入音频信号表示包含直流偏移或者可能包含直流偏移或者包含在帧的端部朝向零的缓慢收敛。因此,处理参数可用于决定是否和/或如何适配所述反加窗。
根据实施例,所述装置100被配置为使用通过所述音频信号处理器200所执行的所述分析加窗210的窗口值对所述反加窗进行适配130。
根据实施例,所述装置被配置为执行反加窗以基于所述输入音频信号表示所述输入音频信号表示y[n]1234来确定所述经处理的音频信号表示
Figure BDA0003148772280000211
d值可以代表所述第四中间信号1234的直流分量或者直流偏移,而所述处理步骤210中wa[n]可以代表分析窗口,所述分析窗口用于提供所述输入音频信号表示1234。例如,在ns到ne的时间段的所有时间中执行所述反加窗。
图3示出了一种音频解码器400,其基于经编码的音频表示420用于提供经解码的音频表示410。所述音频解码器400被配置为基于所述编码后的音频表示420来获得经编码的音频信号的频谱域表示430。此外,所述音频解码器400被配置为基于所述频谱域表示430来获得所述经编码的音频信号的时域表示440。此外,所述音频解码器400包含装置100,所述装置100可以包括关于图1a和/或图1b所描述的特征和/或功能。所述装置100被配置为获得所述时域表示440作为其输入音频信号表示,并且基于所述输入音频信号表示来提供所述处理后的音频信号表示410作为所述经编码的音频表示。所述经处理的音频信号表示410例如是反加窗的音频信号表示,因为所述装置100被配置为反加窗所述时域表示440。
根据实施例,所述音频解码器400被配置为,例如在后续处理单元,例如帧,被解码之前,提供的给定处理单元,例如帧,的完整的解码后的音频表示410,所述后续处理单元与所述给定处理单元在时间上重叠。
图4示出了一种音频编码器800,其基于输入音频信号表示122用于提供经编码的音频表示810,其中所述输入音频信号表示122包含例如多个输入音频信号。可以选地,对所述输入音频信号表示122进行预处理200,以为所述装置100提供第二输入音频信号表示120。所述预处理200可以包含成帧、分析加窗、正向频率变换、在频域中的处理和/或所述信号122的逆时间频率变换,以提供所述第二输入音频信号表示120。可以替代地,所述输入音频信号表示122已经可以代表所述第二输入音频信号表示120。
所述装置100可以包含本文所描述,例如关于图1a至图2,的特征和功能。所述装置100被配置为基于所述输入音频信号表示122来获得处理后的音频信号表示820。根据实施例,所述装置100被配置为在频谱域中执行复数个输入音频信号的降混,所述些输入音频信号来自所述输入音频信号表示122或者所述第二输入音频信号表示120,并且提供降混信号作为所述处理后的音频信号表示820。根据实施例,所述装置100可以执行所述输入音频信号的122或者所述第二输入音频信号120的第一处理830。所述第一处理830可以包括如关于所述预处理200所描述的特征和功能。通过所述可选的第一处理830所获得的所述信号可以被反加窗和/或进一步处理840,以提供所述经处理的音频信号表示820。所述处理后的音频信号表示820例如是时域信号。
根据实施例,所述音频编码器800包含频谱域编码870和/或时域编码872。如图4所示,所述音频编码器可以包含至少开关8801、8802以在频谱域编码870与时域编码872之间改变编码模式(例如,切换编码)。所述编码器例如以信号自适应的方式来切换。可以替代地,所述编码器可以包含所述频谱域编码870或者所述时域编码872,而无需在这两种编码模式之间切换。
在所述频谱域编码870中,所述经处理的音频信号表示820可以被转换850为频谱域信号。这种转换是可选的。根据一个实施例,所述处理后的音频信号表示820已经代表频谱域信号,从而不需要转换850。
所述音频编码器800,例如被配置为对所述经处理的音频信号表示820进行编码8601。如上所述,所述音频编码器800可以被配置为对所述频谱域表示进行编码,以获得所述经编码的音频表示810。
在所述时域编码872中,所述音频编码器872被配置为使用时域编码对所述经处理的音频信号表示820进行编码,以获得所述经编码的音频表示810。根据实施例,可以使用基于LPC的编码,其确定和编码线性预测系数,并且确定和编码激励。
图5a示出了一种方法500的流程图,所述方法基于输入音频信号表示y[n]用于提供一经处理的音频信号表示,所述输入音频信号表示可以被认为是本文所描述的装置的所述输入音频信号。所述方法包含步骤510,应用反加窗,如自适应反加窗,以便基于所述输入音频信号表示来提供所述处理后的音频信号表示,例如yr[n]。所述反加窗,例如至少部分地反转分析加窗,所述分析加窗用于提供所述输入音频信号表示并且被f(y[n],wa[n])定义。所述方法500包含步骤520,根据一个或多个信号特性和/或根据用于提供所述输入音频信号表示的一个或者多个处理参数对所述反加窗进行适配。一个或多个信号特性是,例如所述输入音频信号表示的或者导出所述输入音频信号表示的中间信号表示的信号特性。
图5b示出了一种方法600的一流程图,所述方法基于将要处理的音频信号用于提供经处理的音频信号表示,所述方法包含步骤610,应用分析加窗到所述将要处理的音频信号的处理单元,例如帧,的时域表示,以获得所述将要处理的音频信号的所述处理单元的所述时域表示的经加窗版本。此外,所述方法600包含步骤620,基于所述经加窗版本,例如使用像DFT的正向频率变换等,来获得所述音频信号的频谱域表示,如频域表示。所述方法包含步骤630,应用频谱域处理,例如在所述频域中的处理,到所述已获得的频谱域表示,以获得经处理的频谱域表示。附加地,所述方法包含步骤640,基于所述处理后的频谱域表示来获得经处理的时域表示,例如使用逆时间频率变换,以及步骤650,使用所述方法500来提供所述经处理的音频信号表示,其中所述处理后的时域表示作为所述输入音频信号表示,所述输入音频信号表示用于执行所述方法500。
图5c示出了一种方法700的流程图,所述方法基于经编码的音频表示用于提供经解码的音频表示,所述方法包含步骤710,基于所述经编码的音频表示来获得经编码的音频信号的频谱域表示,例如频域表示。此外,所述方法包含步骤720,基于所述频谱域表示来获得所述经编码的音频信号的时域表示以及步骤730,基于使用所述方法500来提供所述经处理的音频信号表示,其中所述时域表示作为所述输入音频信号表示,所述输入音频信号表示用于执行所述方法500。
图5d示出了方法900的流程图,所述方法基于输入音频信号表示用于步骤930,提供经编码的音频表示。所述方法包含步骤910,使用所述方法500,基于所述输入音频信号表示来获得经处理的音频信号表示。所述方法900包含步骤920,对所述经处理的音频信号表示进行编码。
实施例替代方案:
尽管在装置的上下文中描述了一些方面,但是很明显,这些方面也代表了对应方法的描述,其中或者装置对应于方法步骤或者方法步骤的特征。类似地,在方法步骤的上下文中描述的方面也表示对相应设备的相应框或者项目或者特征的描述。方法步骤中的一些或者全部可以由(或者使用)硬件装置(例如,微处理器、可编程计算机或者电子电路)执行。在一些实施例中,最重要的方法步骤中的一个或多个可以由这样的装置执行。
取决于某些实施要求,本发明的实施例可以以硬件或者软件来实现。实施例可以使用数字存储介质来执行,例如存储有电子可读控制信号的软碟、DV、蓝光、CD、ROM、PROM、EPROM、EEPROM或者闪存,它们与可编程计算机***配合(或者能够配合),从而执行相应的方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,所述电子可读控制信号能够与可编程计算机***合作,从而执行本文描述的方法之一。
通常,本发明的实施例可以被实现为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运作时,所述程序代码可以操作用于执行方法之一。程序代码可以例如被存储在机器可读载体上。
其他实施例包括存储在机器可读载体上的,用于执行本文描述的方法之一的计算机程序。
换句话说,因此,本发明方法的实施例是一种计算器程序,所述计算机程序具有当计算器程序在计算器上运行时用于执行本文描述的方法之一的程序代码。
因此,本发明方法的进一步实施例是一种数据载体(或者数字存储介质,或者计算机可读介质),其包括记录在其上的用于执行本文所述方法之一的计算机程序。数据载体、数字存储介质或者记录介质通常是有形的和/或非过渡性的。
因此,本发明方法的进一步实施例是表示用于执行本文所述方法之一的计算机程序的数据流或者信号序列。数据流或者信号序列可以例如被配置为经由数据通信连接,例如经由网络来传输。
进一步实施例包含处理设备,例如计算机或者可编程逻辑器件,其被配置为或者适于执行本文描述的方法之一。
进一步实施例包含一种计算机,所述计算机上安装了用于执行本文描述的方法之一的计算机程序。
根据本发明的进一步实施例包括一种装置或者***,所述装置或者***被配置为(例如,以电子方式或者光学方式)将用于执行本文描述的方法之一的计算机程式传送给接收器。接收器可以是例如计算机、行动设备、存储组件等。所述装置或者***可以例如包含用于将计算机程序传送到接收器的文件服务器。
在一些实施例中,可编程逻辑器件(例如现场可编程门阵列)可以用于执行本文描述的方法的一些或者全部功能。在一些实施例中,现场可编程门阵列可以与微处理器协作以便执行本文描述的方法之一。通常,所述方法优选地由任何硬件装置执行。
可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来实现本文描述的装置。
本文描述的装置或者本文描述的装置的任何组件可以至少部分地以硬件和/或软件来实现。
可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来执行本文描述的方法。
本文描述的方法或者本文描述的装置的任何组件可以至少部分地由硬件和/或软件执行。
本文描述的实施例仅是本发明原理的示例。应当理解,本文描述的布置和细节的修改和变化对于本领域的其他技术人员将是显而易见的。因此,本发明的意图仅由即将来临的专利权利要求的范围限制,而不受通过本文的实施方式的描述和解释而给出的具体细节的限制。

Claims (34)

1.一种装置(100),用于基于输入音频信号表示(120)提供经处理的音频信号表示(110),
其中,所述装置(100)被配置为应用反加窗(130),以便基于所述输入音频信号表示(120)提供所述经处理的音频信号表示(110),
其中所述装置(100)被配置为根据一个或多个信号特性(140,1401至1404)和/或根据用于提供所述输入音频信号表示(120)的一个或多个处理参数(150,1501至1504)对所述反加窗(130)进行适配。
2.根据权利要求1所述的装置(100),
其中所述装置(100)被配置为根据确定用于导出所述输入音频信号表示(120)的处理的多个处理参数(150,1501至1504),对所述反加窗进行适配。
3.根据权利要求1或2所述的装置(100),
其中所述装置(100)被配置为根据所述输入音频信号表示(120)的信号特性(140,1401至1404)和/或用于导出所述输入音频信号表示(120)的中间信号(1231至1232)表示的信号特性(140,1401至1404),对所述反加窗进行适配。
4.根据权利要求3所述的装置(100),
其中所述装置(100)被配置为获得描述所述反加窗(130)所应用于的信号的时域表示的信号特性(140,1401至1404)的一个或多个参数;和/或
其中所述装置(100)被配置为获得描述所述反加窗(130)所应用于的中间信号(1231至1232)的频域表示的信号特性(140,1401至1404)的一个或多个参数,从所述中间信号(1231至1232)导出时域输入音频信号;以及
其中所述装置(100)被配置为根据所述一个或多个参数,对所述反加窗(130)进行适配。
5.根据权利要求1至4中的一项所述的装置(100),
其中所述装置(100)被配置为对所述反加窗(130)进行适配,以至少部分地反转用于提供所述输入音频信号表示(120)的分析加窗(210)。
6.根据权利要求1至5中的一项所述的装置(100),
其中所述装置(100)被配置为对所述反加窗(130)进行适配,以至少部分地补偿后续处理单元(124i+1)的信号值的缺乏。
7.根据权利要求1至6中的一项所述的装置(100),
其中所述反加窗(130)被配置为在至少部分地在时间上与所述经处理的音频信号表示(110)的给定处理单元(124i)重叠的后续处理单元(124i+1)可用之前,提供所述给定处理单元(124i)。
8.根据权利要求1至7中的一项所述的装置(100),
其中所述装置(100)被配置为对所述反加窗(130)进行适配,以限制所述给定的经处理的音频信号表示(110)与所述输入音频信号表示(120)的后续处理单元(124i+1)之间的重叠相加的结果的偏差。
9.根据权利要求1至8中的一项所述的装置(100),
其中所述装置(100)被配置为对所述反加窗(130)进行适配,以限制所述经处理的音频信号表示(110)的值。
10.根据权利要求1至9中的一项所述的装置(100),
其中所述装置(100)被配置为对所述反加窗(130)进行适配,使得对于没有在所述输入音频信号(120)的处理单元(124i)的端部(126)收敛至零的输入音频信号表示(120),当与所述输入音频信号表示(120)在所述处理单元(124i)的所述端部(126)处收敛至零的情况相比时,通过所述反加窗(130)在所述处理单元(124i)的所述端部(126)处应用的缩放被减少。
11.根据权利要求1至10中一项所述的装置(100),
其中所述装置(100)被配置为对所述反加窗(130)进行适配,从而限制所述经处理的音频信号表示(110)的动态范围。
12.根据权利要求1至11中的一项所述的装置(100),
其中所述装置(100)被配置为根据所述输入音频信号表示(120)的直流分量对所述反加窗(130)进行适配。
13.根据权利要求1至12中的一项所述的装置(100),
其中所述装置(100)被配置为至少部分地去除所述输入音频信号表示(120)的直流分量。
14.根据权利要求1至13中的一项所述的装置(100),
其中所述反加窗(130)被配置为根据窗口值(132)来缩放所述输入音频信号表示(120)的直流去除或者直流减少版本,以便获得所述经处理的音频信号表示(110)。
15.根据权利要求1至14中一项所述的装置(100),
其中所述反加窗(130)被配置为在所述输入音频信号(120)的直流去除或者直流减少版本的缩放后,至少部分地重新引入直流分量。
16.根据权利要求1至15中一项所述的装置(100),
其中所述反加窗(130)被配置为根据下式,基于所述输入音频信号表示(120)y[n]来确定所述经处理的音频信号表示(110)yr[n],
Figure FDA0003148772270000031
其中d是直流分量;
其中n是时间索引;
其中ns是重叠区域的第一样本的时间索引;
其中ne是所述重叠区域(126)的最后一个样本的时间索引;以及
其中wa[n]是用于提供所述输入音频信号表示(120)的分析窗口(132)。
17.根据权利要求1至16中的一项所述的装置(100),
其中所述装置(100)被配置为使用位于其中用于提供所述输入音频信号表示(120)的分析窗口(132)包括一个或多个零值的时间部(134)中的所述输入音频信号表示(120)的一个或多个值,来确定所述直流分量。
18.根据权利要求1至17所述的装置(100),
其中所述装置(100)被配置为使用频谱域到时域转换(240)来获得所述输入音频信号表示(120)。
19.一种音频信号处理器(300),用于基于将要处理的音频信号(122)提供经处理的音频信号表示(110),
其中所述音频信号处理器(300)被配置为应用分析加窗(210)到所述将要处理的音频信号(122)的处理单元的时域表示,以获得所述将要处理的音频信号(122)的所述处理单元的所述时域表示的经加窗版本(1231),以及
其中所述音频信号处理器(300)被配置为基于所述经加窗版本(1231)来获得所述音频信号(122)的频谱域表示(1232),
其中所述音频信号处理器(300)被配置为将频谱域处理(230)应用到所获得的频谱域表示(1232),以获得经处理的频谱域表示(1233),
其中所述音频信号处理器(300)被配置为基于所述经处理的频谱域表示(1233)获得经处理的时域表示(1234),以及
其中所述音频信号处理器(300)包括根据权利要求1至18中的一项所述的装置(100),其中所述装置(100)被配置为获得所述经处理的时域表示(1233)作为其输入音频信号表示(120),并且基于所述输入音频信号表示(120)来提供所述经处理的音频信号表示(110)。
20.根据权利要求19所述的音频信号处理器(300),其中所述装置(100)被配置为使用所述分析加窗(210)的窗口值对所述反加窗(130)进行适配。
21.一种音频解码器(400),用于基于经编码的音频表示(420)提供经解码的音频表示(410),
其中所述音频解码器(400)被配置为基于经编码的音频表示(420)来获得所述经编码的音频信号(420)的频谱域表示(430),
其中所述音频解码器(400)被配置为基于所述频谱域表示(430)来获得所述经编码的音频信号(420)的时域表示(440),
其中所述音频解码器包括根据权利要求1至18中的一项所述的装置(100),
其中所述装置(100)被配置为获得所述时域表示(440)作为其输入音频信号表示(120),并且基于所述输入音频信号表示(120)来提供所述经处理的音频信号表示(110)。
22.根据权利要求21所述的音频解码器(400),
其中所述音频解码器(400)被配置为在与给定处理单元(124i)在时间上重叠的后续处理单元(124i+1)被解码之前,提供所述给定处理单元(124i)的音频信号表示(122)。
23.一种音频编码器,用于基于输入音频信号表示提供经编码的音频表示,
其中所述音频编码器包括根据权利要求1至18中的一项所述的装置,其中所述装置被配置为基于所述输入音频信号表示获得经处理的音频信号表示,以及
其中所述音频编码器被配置为对所述经处理的音频信号表示进行编码。
24.根据权利要求23所述的音频编码器,其中所述音频编码器被配置为基于所述经处理的音频信号表示来获得频谱域表示,其中所述经处理的音频信号表示是时域表示,以及
其中所述音频编码器被配置为使用频谱域编码对所述频谱域表示进行编码,以获得所述经编码的音频表示。
25.根据权利要求23或24所述的音频编码器,其中所述音频编码器被配置为使用时域编码对所述经处理的音频信号表示进行编码,以获得所述经编码的音频表示。
26.根据权利要求23至25中的一项所述的音频编码器,其中所述音频编码器被配置为使用切换编码对所述经处理的音频信号表示进行编码,所述切换编码在频谱域编码与时域编码之间切换。
27.根据权利要求23至26中一项所述的音频编码器,其中所述装置被配置为在频谱域中执行复数个输入音频信号的降混,所述些输入音频信号来自所述输入音频信号表示,并且提供降混信号作为所述经处理的音频信号表示。
28.一种装置(100),用于基于输入音频信号表示(120)提供经处理的音频信号表示(110),
其中所述装置(100)被配置为应用反加窗(130),以便基于所述输入音频信号表示(120)来提供所述经处理的音频信号表示(110),
其中所述装置(100)被配置为根据一个或多个信号特性(140,1401至1404)和/或根据用于提供所述输入音频信号表示(120)的一个或多个处理参数(150,1501至1504),对所述反加窗(130)进行适配;以及
其中所述反加窗(130)至少部分地反转用于提供所述输入音频信号表示的分析加窗;以及
其中所述反加窗(130)被配置为在后续处理单元(124i+1)可用之前提供所述经处理的音频信号(110)表示的给定处理单元(124i),所述后续处理单元(124i+1)至少部分地在时间上重叠(126)所述给定处理单元(124i)。
29.一种装置(100),用于基于输入音频信号表示(120)提供经处理的音频信号表示(110),
其中所述装置(110)被配置为应用反加窗(130),以便基于所述输入音频信号表示(120)来提供所述经处理的音频信号表示(110),
其中所述装置(100)被配置为根据一个或多个信号特性(140,1401至1404)和/或根据用于提供所述输入音频信号表示(120)的一个或多个处理参数(150,1501至1504)对所述反加窗(130)进行适配,以及
其中所述反加窗(130)至少部分地反转分析加窗,所述分析加窗用于提供所述输入音频信号表示,以及
其中所述装置(100)被配置为对所述反加窗(130)进行适配,从而限制所述经处理的音频信号表示(110)的动态范围。
30.一种方法(500),用于基于输入音频信号表示提供经处理的音频信号表示,
其中所述方法包括应用(510)反加窗,以便基于所述输入音频信号表示来提供所述经处理的音频信号表示,
其中所述方法包括根据一个或多个信号特性(140,1401至1404)和/或根据用于提供所述输入音频信号表示的一个或多个处理参数(150,1501至1504)对所述反加窗进行适配(520)。
31.一种方法(600),用于基于将要处理的音频信号用于提供经处理的音频信号表示,
其中所述方法包括将分析加窗应用(610)到所述将要处理的音频信号的处理单元的时域表示,以获得所述将要处理的音频信号的所述处理单元的所述时域表示的经加窗版本,以及
其中所述方法包括基于所述经加窗版本来获得(620)所述音频信号的频谱域表示,
其中所述方法包括将频谱域处理应用(630)到所获得的频谱域表示,以获得经处理的频谱域表示,
其中所述方法包括基于所述经处理的频谱域表示来获得(640)经处理的时域表示,以及
其中所述方法包括使用根据权利要求30所述的方法来提供(650)所述经处理的音频信号表示,其中所述经处理的时域表示作为所述输入音频信号表示,所述输入音频信号表示用于执行根据权利要求30所述的方法。
32.一种方法(700),用于基于经编码的音频表示用于提供经解码的音频表示,
其中所述方法包括基于所述经编码的音频表示获得(710)经编码的音频信号的频谱域表示,
其中所述方法包括基于所述频谱域表示获得(720)所述经编码的音频信号的时域表示,以及
其中所述方法包括使用根据权利要求30所述的方法提供(730)所述经处理的音频信号表示,其中所述时域表示作为所述输入音频信号表示,所述输入音频信号表示用于执行根据权利要求30所述的方法。
33.一种方法(900),用于基于输入音频信号表示提供(930)经编码的音频表示,
其中所述方法包括使用根据权利要求30所述的方法,基于所述输入音频信号表示获得(910)经处理的音频信号表示,以及
其中所述方法包括对所述经处理的音频信号表示进行编码(920)。
34.一种计算机程序,具有程序代码,用于当在计算机上运行时,执行根据权利要求30、权利要求31、权利要求32、或权利要求33所述的方法。
CN201980088015.9A 2018-11-05 2019-11-05 提供经处理音频信号表示的装置和处理器、音频解码器、音频编码器、方法及计算机程序 Active CN113272896B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP18204445 2018-11-05
EP18204445.3 2018-11-05
PCT/EP2019/063693 WO2020094263A1 (en) 2018-11-05 2019-05-27 Apparatus and audio signal processor, for providing a processed audio signal representation, audio decoder, audio encoder, methods and computer programs
EPPCT/EP2019/063693 2019-05-27
PCT/EP2019/080285 WO2020094668A1 (en) 2018-11-05 2019-11-05 Apparatus and audio signal processor, for providing a processed audio signal representation, audio decoder, audio encoder, methods and computer programs

Publications (2)

Publication Number Publication Date
CN113272896A true CN113272896A (zh) 2021-08-17
CN113272896B CN113272896B (zh) 2024-06-28

Family

ID=64277495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980088015.9A Active CN113272896B (zh) 2018-11-05 2019-11-05 提供经处理音频信号表示的装置和处理器、音频解码器、音频编码器、方法及计算机程序

Country Status (16)

Country Link
US (4) US11990146B2 (zh)
EP (3) EP4207191A1 (zh)
JP (3) JP7258135B2 (zh)
KR (1) KR20210093930A (zh)
CN (1) CN113272896B (zh)
AR (1) AR116991A1 (zh)
AU (4) AU2019374400B2 (zh)
BR (1) BR112021008802A2 (zh)
CA (3) CA3118786C (zh)
ES (1) ES2967262T3 (zh)
MX (1) MX2021005233A (zh)
PL (1) PL3877976T3 (zh)
SG (1) SG11202104612TA (zh)
TW (1) TWI738106B (zh)
WO (2) WO2020094263A1 (zh)
ZA (1) ZA202103740B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1335349A2 (en) * 2002-02-06 2003-08-13 Broadcom Corporation Pitch extraction methods and systems for speech coding using multiple time lag extraction
CN101076850A (zh) * 2004-10-11 2007-11-21 弗劳恩霍夫应用研究促进协会 用于提取构成音频信号基础的旋律的方法和设备
CN101331540A (zh) * 2005-10-21 2008-12-24 高通股份有限公司 基于频谱动力学的信号编码和解码
WO2009109120A1 (zh) * 2008-02-29 2009-09-11 华为技术有限公司 一种音频信号的编解码方法和装置
GB0914802D0 (en) * 2009-08-25 2009-09-30 Zarlink Semiconductor Inc Reduction of clicking sounds in audio data streams
CA2871252A1 (en) * 2008-07-11 2010-01-14 Nikolaus Rettelbach Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program
EP2214164A2 (en) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
CN102017560A (zh) * 2009-03-27 2011-04-13 联发科技股份有限公司 用于无线正交频分多址接入***的低延迟同步机制
CA2778382A1 (en) * 2009-10-20 2011-04-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation
WO2013061584A1 (ja) * 2011-10-28 2013-05-02 パナソニック株式会社 音信号ハイブリッドデコーダ、音信号ハイブリッドエンコーダ、音信号復号方法、及び音信号符号化方法
CN104718572A (zh) * 2012-06-04 2015-06-17 三星电子株式会社 音频编码方法和装置、音频解码方法和装置及采用该方法和装置的多媒体装置
CN107835483A (zh) * 2014-01-03 2018-03-23 杜比实验室特许公司 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB914802A (en) 1958-04-16 1963-01-02 Emi Ltd Improvements in or relating to multi-speed mechanisms
CN1062963C (zh) 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
US6594628B1 (en) * 1995-09-21 2003-07-15 Qualcomm, Incorporated Distributed voice recognition system
EP1202511B1 (en) 2000-10-30 2006-01-11 Texas Instruments France Method for estimating and removing a time-varying DC-offset
WO2006093307A1 (en) * 2005-03-01 2006-09-08 Matsushita Electric Industrial Co., Ltd. Ofdm receiver, integrated circuit and receiving method
JP2007316254A (ja) * 2006-05-24 2007-12-06 Sony Corp オーディオ信号補間方法及びオーディオ信号補間装置
US7809559B2 (en) 2006-07-24 2010-10-05 Motorola, Inc. Method and apparatus for removing from an audio signal periodic noise pulses representable as signals combined by convolution
FR2911228A1 (fr) 2007-01-05 2008-07-11 France Telecom Codage par transformee, utilisant des fenetres de ponderation et a faible retard.
JP5773124B2 (ja) * 2008-04-21 2015-09-02 日本電気株式会社 信号分析制御及び信号制御のシステム、装置、方法及びプログラム
TWI449442B (zh) * 2009-01-14 2014-08-11 Dolby Lab Licensing Corp 用於無回授之頻域主動矩陣解碼的方法與系統
ES2400661T3 (es) * 2009-06-29 2013-04-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificación y decodificación de extensión de ancho de banda
US20110087494A1 (en) 2009-10-09 2011-04-14 Samsung Electronics Co., Ltd. Apparatus and method of encoding audio signal by switching frequency domain transformation scheme and time domain transformation scheme
US9093066B2 (en) * 2010-01-13 2015-07-28 Voiceage Corporation Forward time-domain aliasing cancellation using linear-predictive filtering to cancel time reversed and zero input responses of adjacent frames
EP2591470B1 (en) * 2010-07-08 2018-12-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Coder using forward aliasing cancellation
EP2761616A4 (en) * 2011-10-18 2015-06-24 Ericsson Telefon Ab L M IMPROVED METHOD AND DEVICE FOR AN ADAPTIVE MULTIRATE CODEC
JP5740362B2 (ja) * 2012-07-31 2015-06-24 日本電信電話株式会社 雑音抑圧装置、方法、及びプログラム
SG11201506542QA (en) * 2013-02-20 2015-09-29 Fraunhofer Ges Forschung Apparatus and method for encoding or decoding an audio signal using a transient-location dependent overlap
US9634624B2 (en) 2014-12-24 2017-04-25 Stmicroelectronics S.R.L. Method of operating digital-to-analog processing chains, corresponding device, apparatus and computer program product
EP3262639B1 (en) * 2015-02-26 2020-10-07 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for processing an audio signal to obtain a processed audio signal using a target time-domain envelope
EP3067886A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
WO2016142002A1 (en) * 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
US10504525B2 (en) * 2015-10-10 2019-12-10 Dolby Laboratories Licensing Corporation Adaptive forward error correction redundant payload generation
FR3045915A1 (fr) * 2015-12-16 2017-06-23 Orange Traitement de reduction de canaux adaptatif pour le codage d'un signal audio multicanal
US9959877B2 (en) 2016-03-18 2018-05-01 Qualcomm Incorporated Multi channel coding
US20230123620A1 (en) 2016-09-15 2023-04-20 Circlesx Llc System and Method for Trading Emissions Units
US10210874B2 (en) 2017-02-03 2019-02-19 Qualcomm Incorporated Multi channel coding
US10380989B1 (en) * 2018-02-22 2019-08-13 Cirrus Logic, Inc. Methods and apparatus for processing stereophonic audio content

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1335349A2 (en) * 2002-02-06 2003-08-13 Broadcom Corporation Pitch extraction methods and systems for speech coding using multiple time lag extraction
CN101076850A (zh) * 2004-10-11 2007-11-21 弗劳恩霍夫应用研究促进协会 用于提取构成音频信号基础的旋律的方法和设备
CN101331540A (zh) * 2005-10-21 2008-12-24 高通股份有限公司 基于频谱动力学的信号编码和解码
WO2009109120A1 (zh) * 2008-02-29 2009-09-11 华为技术有限公司 一种音频信号的编解码方法和装置
CA2871252A1 (en) * 2008-07-11 2010-01-14 Nikolaus Rettelbach Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program
EP2214164A2 (en) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
CN102017560A (zh) * 2009-03-27 2011-04-13 联发科技股份有限公司 用于无线正交频分多址接入***的低延迟同步机制
GB0914802D0 (en) * 2009-08-25 2009-09-30 Zarlink Semiconductor Inc Reduction of clicking sounds in audio data streams
CA2778382A1 (en) * 2009-10-20 2011-04-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation
CN102884574A (zh) * 2009-10-20 2013-01-16 弗兰霍菲尔运输应用研究公司 音频信号编码器、音频信号解码器、使用混迭抵消来将音频信号编码或解码的方法
WO2013061584A1 (ja) * 2011-10-28 2013-05-02 パナソニック株式会社 音信号ハイブリッドデコーダ、音信号ハイブリッドエンコーダ、音信号復号方法、及び音信号符号化方法
CN104718572A (zh) * 2012-06-04 2015-06-17 三星电子株式会社 音频编码方法和装置、音频解码方法和装置及采用该方法和装置的多媒体装置
CN107835483A (zh) * 2014-01-03 2018-03-23 杜比实验室特许公司 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频

Also Published As

Publication number Publication date
AU2022279391B2 (en) 2024-06-13
ES2967262T3 (es) 2024-04-29
CA3118786C (en) 2024-03-12
AU2022279391A1 (en) 2023-01-19
US20240013794A1 (en) 2024-01-11
PL3877976T3 (pl) 2024-04-08
US20210256982A1 (en) 2021-08-19
EP3877976C0 (en) 2023-11-15
AR116991A1 (es) 2021-06-30
CA3179298A1 (en) 2020-05-14
CA3118786A1 (en) 2020-05-14
JP7275217B2 (ja) 2023-05-17
TWI738106B (zh) 2021-09-01
US20210256984A1 (en) 2021-08-19
US11948590B2 (en) 2024-04-02
US20210256983A1 (en) 2021-08-19
MX2021005233A (es) 2021-06-18
AU2024202899A1 (en) 2024-05-23
WO2020094263A1 (en) 2020-05-14
JP2022014460A (ja) 2022-01-19
CA3179294A1 (en) 2020-05-14
EP4207191A1 (en) 2023-07-05
JP2022511682A (ja) 2022-02-01
KR20210093930A (ko) 2021-07-28
US11990146B2 (en) 2024-05-21
US11804229B2 (en) 2023-10-31
JP7258135B2 (ja) 2023-04-14
ZA202103740B (en) 2022-06-29
AU2019374400A1 (en) 2021-06-24
AU2022279390B2 (en) 2024-02-29
CN113272896B (zh) 2024-06-28
EP3877976A1 (en) 2021-09-15
AU2022279390A1 (en) 2023-01-19
BR112021008802A2 (pt) 2021-08-10
JP2022014459A (ja) 2022-01-19
EP4207190A1 (en) 2023-07-05
AU2019374400B2 (en) 2023-01-19
JP7341194B2 (ja) 2023-09-08
SG11202104612TA (en) 2021-06-29
EP3877976B1 (en) 2023-11-15
TW202025140A (zh) 2020-07-01
WO2020094668A1 (en) 2020-05-14

Similar Documents

Publication Publication Date Title
KR102067044B1 (ko) 과도 프로세싱을 향상시키기 위한 사후 프로세서, 사전 프로세서, 오디오 인코더, 오디오 디코더, 및 관련 방법
EP2951814B1 (en) Low-frequency emphasis for lpc-based coding in frequency domain
CN112424861A (zh) 多声道音频编码
CN106030704B (zh) 用于对音频信号进行编码/解码的方法和设备
JP6714741B2 (ja) バーストフレーム誤り処理
CN113272896B (zh) 提供经处理音频信号表示的装置和处理器、音频解码器、音频编码器、方法及计算机程序

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant