CN105706166B - 对比特流进行解码的音频解码器设备和方法 - Google Patents

对比特流进行解码的音频解码器设备和方法 Download PDF

Info

Publication number
CN105706166B
CN105706166B CN201480059424.3A CN201480059424A CN105706166B CN 105706166 B CN105706166 B CN 105706166B CN 201480059424 A CN201480059424 A CN 201480059424A CN 105706166 B CN105706166 B CN 105706166B
Authority
CN
China
Prior art keywords
signal
shaping
bandwidth extension
module
frequency domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201480059424.3A
Other languages
English (en)
Other versions
CN105706166A (zh
Inventor
萨沙·迪施
马库斯·马特拉斯
本杰明·舒伯特
马库斯·施内尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN105706166A publication Critical patent/CN105706166A/zh
Application granted granted Critical
Publication of CN105706166B publication Critical patent/CN105706166B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)

Abstract

本发明提供了一种对比特流进行解码的音频解码器设备,所述音频解码器设备包括:比特流接收机,配置为接收比特流并从所述比特流获得编码音频信号;核解码器模块,配置为从编码音频信号获得时域上的解码音频信号;时间包络产生器,配置为确定解码音频信号的时间包络;带宽扩展模块,配置为产生频域带宽扩展信号,其中带宽扩展模块包括配置为在时域上产生噪声信号的噪声产生器,其中带宽扩展模块包括预整形模块,配置用于根据解码音频信号的时间包络对噪声信号进行时间整形以便产生整形后的噪声信号,以及其中带宽扩展模块包括时频转换器,配置为将整形后的噪声信号变换为频域噪声信号;其中频域带宽扩展信号依赖于频域噪声信号;时频转换器,配置为将解码音频信号变换为频域解码音频信号;组合器,配置为组合频域解码音频信号和频域带宽扩展信号,以便产生带宽扩展的频域音频信号;以及频时转换器,配置为将带宽扩展的频域音频信号变换为带宽扩展的时域音频信号。

Description

对比特流进行解码的音频解码器设备和方法
技术领域
本发明涉及语音和音频编码,具体地,涉及音频带宽扩展(BWE)。
背景技术
带宽扩展技术关注于通过使音频编解码器的有效输出带宽变宽,来增强音频编解码器的感知质量。代替用底层核编码器进行全带宽范围编码,使用带宽扩展技术的编解码器允许在感知上较不重要的高频(HF)范围内消耗较少比特。因此,可将更多的比特提供给核编码器来以更高精度处理更重要的低频(LF)范围。为此,带宽扩展技术被广泛用于需要以低比特率来实现适当感知质量的编解码器。
通常,存在两种不同的基本带宽扩展方法,需要区分如下:盲目式带宽扩展和引导式带宽扩展。在盲目式带宽扩展中,不发送附加的边信息。因此,仅通过使用从核编码器的解码LF信号获得的信息,来产生要在解码器侧***的HF内容。由于不需要传输高昂的边信息,盲目式带宽扩展技术非常适于以最低比特率操作的编解码器或后向兼容后处理过程。另一方面,缺少可控性仅允许使用盲目式带宽扩展对带宽进行相对较小的有效扩展(例如,【1】中的6.4-7.0kHz)。与盲目式方法相反,在引导式带宽扩展中,通过使用在编码器侧提取的并在比特流中被发送到解码器作为边信息的参数,来重构HF内容。因此,引导式带宽扩展使得能够更好地控制HF重构,从而可能呈现较宽的有效带宽。由于额外的比特消耗,引导式带宽扩展技术通常用于以较高比特率操作的编解码器,作为结合盲目式带宽扩展的***。
更具体地,存在不同的方法来实现带宽扩展:
在语音编码中,通常使用基于源-滤波器模型的带宽扩展方法,所述方法与它们的底层核编码器紧密相关,例如,在G.722.2(AMR-WB)【1】中。在AMR-WB中,通过向激励域中注入白噪声,ACELP(代数编码激励线性预测)核编码器的输出带宽6.4kHz被扩展到7.0kHz。然后,通过从核编码器的线性预测(LP)滤波器获得的滤波器对扩展后的激励进行整形。根据比特率,通过仅使用核编码器信息来估计用于对***噪声进行缩放的增益,或在编码器中提取所述增益并进行发送。这种带宽扩展方法严重依赖于它的底层编码方案,这是由于使用它的合成机制,因此,附加地必须在相同域内执行。
音频编码中公知的独立于带宽扩展技术的核编码器是频带复制(SBR)【2】。与先前示例相反,可以独立于底层核编码器来应用频带复制。作为第一步,在编码器侧将输入信号分为LF部和HF部,例如,通过使用正交镜像滤波器分析滤波器组(QMF)。当通过频带复制处理HF部时,将LF部馈送给核编码器。因此,提取描述HF信号的时间-频率包络的参数以及HF信号相对LF信号的调性/噪声特性,并进行发送。在解码之后,通过使用与编码器中使用的相同类型的分析滤波器组,对所述信号进行变换。为了重构HF内容,考虑到所发送的参数,对解码信号逐部分地进行拷贝、镜像或变调到HF范围,后处理以便与原始的、且时间上和频率上整形后的音调性/噪声特性相匹配。然后,通过相应的合成滤波器组,产生时域输出信号。
与先前所述的(半)参量方法相反,还存在使用多个比特率选择层来进行带宽扩展的多层方法。这种原理同样与可缩放的编码方案紧密相关。这些技术通常用于以互操作的方式扩展现有的编码***。在【3】中,提出了针对G.711.1和G.722的超宽带(SWB)带宽扩展,其使用独立于核编码器的、基于修正的离散余弦变换(MDCT)的编码方案来处理附加带宽(8.0-14.4kHz)。这种方法能够精确重构HF部,但是以附加必需的较高比特消耗为代价。
尽管上述带宽扩展方法广泛应用于现有的语音和音频编码***,然而,它们全部分别展露出特定缺点或不足。
发明内容
本发明的目的是提供一种用于带宽扩展的改善型构思。
通过用于对比特流进行解码的解码器设备来实现这种目的,其中音频解码器设备包括:
比特流接收机,配置为接收比特流并从所述比特流获得编码音频信号;
核解码器模块,配置为从所述编码音频信号获得解码时域音频信号;
时间包络产生器,配置为确定解码音频信号的时间包络;
带宽扩展模块,配置为产生频域带宽扩展信号,其中所述带宽扩展模块包括配置为在时域上产生噪声信号的噪声产生器,其中所述带宽扩展模块包括预整形模块,配置用于根据解码音频信号的时间包络来对所述噪声信号进行时间整形以便产生整形后的噪声信号,以及其中所述带宽扩展模块包括时频转换器,配置为将整形后的噪声信号变换为频域噪声信号;其中所述频域带宽扩展信号依赖于所述频域噪声信号;
时频转换器,配置为将所述解码音频信号变换为频域解码音频信号;
组合器,配置为组合频域解码音频信号和频域带宽扩展信号,以便产生带宽扩展的频域音频信号;以及
频时转换器,配置为将带宽扩展的频域音频信号变换为带宽扩展的时域音频信号。
本发明提供了一种带宽扩展构思,能够基本上独立于底层核编码技术来使用。此外,所述构思提供了一种针对较低比特率操作点高达超宽带频率范围的频带扩展,尤其对于语音信号具有较高的感知质量。这是通过在时域产生时间整形后的噪声信号来实现的,其中对所述时间整形后的噪声信号进行变换并***频域解码音频信号。
术语频域带宽扩展信号是指包括解码音频信号中未包括的频率在内的信号。
在合并了超过一个单核编码器的灵活的信号自适应***(例如,如统一语音和音频编码(MPEG-D USAC)中包含的)中,发生在不同核编码器之间的过渡处的切换假象可能加重,因为必须也同时切换带宽扩展。根据本发明,可以通过应用独立于核编码器的带宽扩展技术的来克服上述问题。
频带复制由于LF分量对HF部的修补(patching)而引入可能令人讨厌的假象,尤其当对语音编码时。一方面,由于LF内容和修补后的HF内容的相关性而产生那些假象。另一方面,LF部和HF部之间的可能的频谱失配导致尖锐鸣响、不和谐失真。与此相反,根据本发明的解码器设备避免产生假象和尖锐鸣响。
频带复制的另一缺点在于操控修补后的HF部的时间结构的有限可能性。由于需要所述内容的比特率有效的参量时频表示,时间分辨率是受限的。这可能不利于例如处理女性语音,在女性语音中,声门脉冲的音调较高,且还展示出较高的时间变化性。与频带复制相反,根据本发明的解码器设备非常适合于再现女性语音。
最后,基于多个层的带宽扩展能够在频域和时域二者上精确地重构HF内容,但在另一方面,它必须消耗的比特明显多于参量方法的比特。根据本发明的解码器设备相较于这种方法提供较少的强制性比特消耗。
因此,本发明提供了一种新的带宽扩展构思,结合上述公知的带宽扩展技术的优点并消除它们的缺点。更具体地,提供了一种构思,能够以低比特率进行高质量、超宽带语音编码,同时独立于底层核编码器。
本发明特别为输出带宽上至超宽带范围的语音提供了较高的感知质量。根据本发明的带宽扩展是基于噪声***的。附加地,新的带宽扩展独立于其底层核编解码器。因此,与标准的语音编码带宽扩展相反,所述构思适合用于包括根本不同的编码方案的切换式***之上。
由于在可与频带复制相比的时频表示中执行新提出的带宽扩展的和核解码器的信号的混合,可以在组合式***中方便地组合这两种技术,其中逐帧地进行无缝切换或在给定帧内的融合是可能的。由于新的带宽扩展主要关注于语音,这种方法可能对于处理包含音乐或混合内容的信号而言是期望的。可以通过所发送的边信息或通过经由分析核信号在解码器中获得的参数,来控制切换。
根据本发明,在时域上进行噪声的产生和后续整形,这是由于在时域中时间分辨率可以高于在时频表示中产生噪声并对噪声整形的方案的分辨率,这种方案类似于在频带复制处理中所应用的方法,由于滤波器组限制了对再现高音调(例如,女性)语音而言必要的时间分辨率。
为了避免上述问题并满足要求,新的带宽扩展执行以下处理步骤:首先,在时域上产生单个噪声信号,其中样本的数量源自***的帧率以及所选的采样率和噪声信号的带宽。然后,基于解码的核编码器信号的时间包络,对噪声信号进行时间预整形。此外,通过逆变换将组合的时频表示的信号转换为带宽扩展的时域音频信号。
带宽扩展技术通常用于语音和音频编码,以通过加宽有效的输出带宽来增强感知质量。因此,可以在核编码器中使用大部分可用比特,从而能够在更重要的低频范围中获得更高精度。尽管存在多种方法,其中一部分方法赢得广泛认可,但它们都缺少用于由包括多个可切换的、基于不同编码方案的核编码器的***进行语音处理的可行性。由于根据本发明的带宽扩展独立于核解码器技术,本发明提出了一种完美适于上述应用和其他应用的带宽扩展技术。
在根据本发明的带宽扩展中,可以产生完全合成的扩展信号,其中可以对所述扩展信号的时间包络进行预整形,且从而将所述完全合成的扩展信号调整为适应底层核编码器信号。可以以比在真正滤波器组中或在带宽扩展后整形处理中使用的变换域内可获得的的时间分辨率高得多的时间分辨率,对扩展信号的时间包络进行整形。
根据本发明的优选实施例,产生了频域带宽扩展信号,而无需频带复制。通过这些特征,可以使必需的计算工作量最小化。
根据本发明的优选实施例,带宽扩展模块配置为使得以过加重方式进行噪声信号的时间整形。代替基于解码音频信号的原始时间包络对噪声信号进行整形;还有可能以过加重的方式执行这种整形。这可以如下实现:通过在以时间包络为基础获得预整形增益之前,在幅度上展开时间包络,换言之,通过动态扩展,具体地通过修改测量的包络来代表比已测量到的脉冲更尖锐的脉冲。尽管这种过加重不表示实际的原始包络,但是针对非常低的比特率,改善了一些信号部分(例如,元音)的可懂性。
根据本发明的优选实施例,带宽扩展模块配置如下:通过由带通滤波器组将噪声信号分为若干子带噪声信号,并对所述子带噪声信号中的每一个进行特定时间整形,来逐子带地进行噪声信号的时间整形。
代替统一地对噪声信号进行预整形,可以通过由带通滤波器组将该噪声信号分为若干子带并对每个子带信号进行特定整形,来更精确地进行整形。
根据本发明的优选实施例,带宽扩展模块包括配置用于设置频域带宽扩展信号的频率范围的频率范围选择器。在将整形后的噪声信号变换为时频表示之后,可以选择带宽扩展的频域音频信号的目标带宽,且如果需要,则可以将目标带宽移至所期望的频带位置。通过这些特征,可以方便地选择带宽扩展的时域音频信号的频率范围。
根据本发明的优选实施例,带宽扩展模块包括配置用于在所述频域带宽扩展信号的频域中进行时间整形和/或频谱整形的后整形模块。通过这些特征,可以相对附加时间趋势和/或频谱包络,调整频域带宽扩展信号,以便改进。
根据本发明的优选实施例,比特流接收机配置为从所述比特流获得边信息信号,其中带宽扩展模块配置为根据所述边信息信号来产生频域带宽扩展信号。换言之,在编码器中提取的并经由所述比特流发送的附加边信息可以用于进一步改进频域带宽扩展信号。通过这些特征,还可以提高带宽扩展的时域音频信号的感知质量。
根据本发明的优选实施例,噪声产生器配置为根据所述边信息信号来产生噪声信号。在这种实施例中,可以控制所述噪声产生器,以便获得频谱倾斜的噪声信号,而不是频谱平坦的白噪声,以便进一步改善带宽扩展的时域音频信号的感知质量。
根据本发明的优选实施例,预整形模块配置用于根据所述边信息信号来对噪声信号进行时间整形。在预整形中,可以将边信息用于例如选择核解码器信号的特定目标带宽,用于预整形。
根据本发明的优选实施例,后整形模块配置用于根据所述边信息信号对频域输出噪声信号进行时间整形和/或频谱整形。在后整形中使用边信息可以确保频域带宽扩展信号的粗糙时频包络遵循原始包络。
根据本发明的优选实施例,带宽扩展模块包括:另一噪声产生器,配置为在时域上产生另一噪声信号;另一预整形模块,配置用于根据解码音频信号的时间包络来对所述另一噪声信号进行时间整形以便产生另一整形后的噪声信号;以及另一时频转换器,配置为将所述另一整形后的噪声信号变换为另一频域噪声信号;其中所述频域带宽扩展信号依赖于所述另一频域噪声信号。使用两个或更多个频域噪声信号来产生频域带宽扩展信号可以使得提高带宽扩展的时域音频信号的感知质量。
根据本发明的优选实施例,带宽扩展模块配置为使得以过加重方式进行另一噪声信号的时间整形。代替基于解码音频信号的原始时间包络对另一噪声信号进行整形;还有可能以过加重方式执行这种整形。这可以通过在获得以时间包络为基础获得预整形增益之前,在幅度上展开时间包络来实现。尽管这种过加重不表示实际的原始包络,但是针对非常低的比特率,改善了一些信号部分(例如,元音)的可懂性。
根据本发明的优选实施例,带宽扩展模块配置为使得通过由带通滤波器组将另一噪声信号分为若干其他子带噪声信号,并对所述其他子带噪声信号中的每一个进行特定时间整形,来逐子带地进行所述另一噪声信号的时间整形。
代替统一地对所述另一噪声信号进行预整形,可以通过由带通滤波器组将该另一噪声信号分为若干子带并对每个子带信号进行特定整形,来更精确地进行整形。
根据本发明的优选实施例,带宽扩展模块包括:音调产生器,配置为在时域上产生音调信号;预整形模块,配置用于根据解码音频信号的时间包络来对所述音调信号进行时间整形以便产生整形后的音调信号;以及时频转换器,配置为将所述整形后的音调信号变换为频域音调信号;其中所述频域带宽扩展信号依赖于所述频域音调信号。
所述音调产生器可以用于产生所有类型的音调,例如,正弦音调、三角波和方波音调、锯齿波音调、类似于人工语音的脉冲等。除了处理合成噪声信号之外,还有可能在时域上产生合成音调分量,所述合成音调分量经过时间整形并接着变换为频率表示。在这种情况下,时域中的整形有利于例如对音调的ADSR(攻击、衰减、维持、释放)阶段进行精确建模,这在通常的频域表示中是不可能的。附加使用频域音调信号可以进一步提高带宽扩展的时域信号的质量。
根据本发明的优选实施例,核解码器模块包括:时域核解码器和频域核解码器,其中时域核解码器或频域核解码器用于从编码音频信号获得解码音频信号。这些特征允许本发明用于统一语音和音频编码(MPEG-D USAC)环境下。
根据本发明的优选实施例,控制参数提取器配置用于从解码音频信号提取由核解码器模块使用的控制参数,其中所述带宽扩展模块配置为根据所述控制参数产生频域带宽扩展信号。尽管可以根据核编码器包络盲目地产生频域带宽扩展信号或通过从核编码器信号获得的参数控制所述频域带宽扩展信号,但还可以通过从编码器提取的和发送的参数,以部分引导的方式产生所述频域带宽扩展信号。
根据本发明的优选实施例,带宽扩展模块包括:整形增益计算器,配置用于根据解码音频信号的时间包络来建立针对预整形模块的整形增益,且其中所述预整形模块配置用于根据针对预整形模块的整形增益,来对噪声信号进行时间整形。这些特征允许容易地实现本发明。
根据本发明的优选实施例,用于建立针对预整形模块的整形增益的整形增益计算器被配置用于根据控制参数建立针对预整形模块的整形增益。这些特征允许容易地实现本发明。
根据本发明的优选实施例,带宽扩展模块包括:整形增益计算器,配置用于根据解码音频信号的时间包络来建立针对另一预整形模块的整形增益,且其中所述另一预整形模块配置用于根据针对另一预整形模块的整形增益,来对另一噪声信号进行时间整形。
根据本发明的优选实施例,用于建立针对另一预整形模块的整形增益的整形增益计算器被配置用于根据控制参数建立针对另一预整形模块的整形增益。
根据本发明的优选实施例,带宽扩展模块包括:整形增益计算器,配置用于根据解码音频信号的时间包络来建立针对音调预整形模块的整形增益,且其中所述音调预整形模块配置用于根据针对音调预整形模块的整形增益,来对音调信号进行时间整形。
根据本发明的优选实施例,用于建立针对音调预整形模块的整形增益的整形增益计算器被配置用于根据控制参数建立针对另一预整形模块的整形增益。
在另一方面,通过用于对比特流进行解码的方法来实现上述目的,其中所述方法包括以下步骤:
使用比特流接收机接收比特流并从所述比特流中获得编码音频信号;
通过使用核解码器模块从所述编码音频信号获得在时域上的解码音频信号;
使用时间包络产生器确定所述解码音频信号的时间包络;
使用带宽扩展模块执行以下步骤产生频域带宽扩展信号:
使用带宽扩展模块的噪声产生器在时域上产生噪声信号,
使用所述带宽扩展模块的预整形模块,根据所述解码音频信号的时间包络,对所述噪声信号进行时间整形,以产生整形后的噪声信号,
使用带宽扩展模块的时频转换器,将整形后的噪声信号变换为频域噪声信号,其中所述频域带宽扩展信号取决于所述频域噪声信号;
使用另一时频转换器将解码音频信号转换为频域解码音频信号;
通过使用组合器来组合频域解码音频信号和频域带宽扩展信号,以便产生带宽扩展的频域音频信号;以及
使用频时转换器来将所述带宽扩展的频域音频信号转换为带宽扩展的时域音频信号。
在另一方面,通过当在处理器上运行时执行本发明方法的计算机程序来实现该目的。
附图说明
以下结合附图讨论本发明的优选实施例,附图中:
图1示出了根据本发明的音频解码器设备的第一实施例的示意图;
图2示出了根据本发明的音频解码器设备的第二实施例的示意图;
图3示出了根据本发明的音频解码器设备的第三实施例的示意图;以及
图4示出了根据本发明的音频解码器设备的第四实施例的示意图。
具体实施方式
图1示出了根据本发明的音频解码器设备的第一实施例的示意图。
所述音频解码器设备1包括:
比特流接收机2,配置为接收比特流BS,并从所述比特流BS获得编码音频信号EAS;
核解码器模块3,配置为从所述编码音频信号EAS获得时域的解码音频信号DAS;
时间包络产生器4,配置为确定解码音频信号DAS的时间包络TED;
带宽扩展模块5,配置为产生频域带宽扩展信号BEF,其中所述带宽扩展模块5包括配置为在时域上产生噪声信号NOS的噪声产生器6,其中所述带宽扩展模块5包括预整形模块7,配置用于根据解码音频信号DAS的时间包络TED来对所述噪声信号NOS进行时间整形以便产生整形后的噪声信号SNS,以及其中所述带宽扩展模块5包括时频转换器8,配置为将整形后的噪声信号SNS变换为频域噪声信号FNS;其中所述频域带宽扩展信号BEF依赖于所述频域噪声信号FNS;
时频转换器9,配置为将所述解码音频信号DAS变换为频域解码音频信号FDS;
组合器10,配置为组合频域解码音频信号FDS和频域带宽扩展信号BEF,以便产生带宽扩展的频域音频信号BFS;以及
频时转换器11,配置为将带宽扩展的频域音频信号BFS变换为带宽扩展的时域音频信号BAS。
本发明提供了一种带宽扩展构思,能够基本上独立于底层核编码技术来使用。此外,所述构思提供了一种针对较低比特率操作点高达超宽带频率范围的频带扩展,尤其对于语音信号具有较高的感知质量。这是通过在时域产生时间整形后的噪声信号来实现的,其中对所述时间整形后的噪声信号进行变换并***频域解码音频信号。
在合并了超过一个单核编码器的灵活的信号自适应***(例如,如统一语音和音频编码(MPEG-D USAC)中包含的)中,发生在不同核编码器之间的过渡处的切换假象可能加重,因为必须也同时切换带宽扩展。根据本发明,可以通过应用独立于核编码器的带宽扩展技术的来克服上述问题。
频带复制由于LF分量对HF部的修补(patching)而引入可能令人讨厌的假象,尤其当对语音编码时。一方面,由于LF内容和修补后的HF内容的相关性而产生那些假象。另一方面,LF部和HF部之间的可能的频谱失配导致尖锐鸣响、不和谐失真。与此相反,根据本发明的解码器设备1避免产生假象和尖锐鸣响。
频带复制的另一缺点在于缺少操控修补后的HF部的时间结构的可能性。由于需要所述内容的比特率有效的参量时频表示,时间分辨率是受限的。这可能不利于例如处理女性语音,在女性语音中,声门脉冲的音调较高,且还展示出较高的时间变化性。与频带复制相反,根据本发明的解码器设备1非常适合于再现女性语音。
最后,基于多个层的带宽扩展能够在频域和时域二者上精确地重构HF内容,但在另一方面,它必须消耗的比特明显多于参量方法的比特。根据本发明的解码器设备1相较于这种方法提供较少的强制性比特消耗。
因此,本发明提供了一种新的带宽扩展构思,结合上述公知的带宽扩展技术的优点并消除它们的缺点。更具体地,提供了一种构思,能够以低比特率进行高质量、超宽带语音编码,同时独立于底层核编码器3。
本发明特别为输出带宽上至超宽带范围的语音提供了较高的感知质量。根据本发明的带宽扩展是基于噪声***的。附加地,新的带宽扩展独立于其底层核编解码器。因此,与标准的语音编码带宽扩展相反,所述构思适合用于包括根本不同的编码方案的切换式***之上。
由于在可与频带复制相比的时频表示中执行新提出的带宽扩展的和核解码器的信号的混合,可以在组合式***中方便地组合这两种技术,其中逐帧地进行无缝切换或在给定帧内的融合是可能的。由于新的带宽扩展主要关注于语音,这种方法可能对于处理包含音乐或混合内容的信号而言是期望的。可以通过所发送的边信息或通过经由分析核信号DAS在解码器3中获得的参数,来控制切换。
根据本发明,在时域上进行噪声的产生和后续整形,这是由于在时域中时间分辨率可以高于在时频表示中产生噪声并对噪声整形的方案的分辨率,这种方案类似于在频带复制处理中所应用的方法,由于滤波器组限制了对再现高音调(例如,女性)语音而言必要的时间分辨率。
为了避免上述问题并满足要求,新的带宽扩展执行以下处理步骤:首先,在时域上产生单个噪声信号NOS,其中样本的数量源自***的帧率以及所选的采样率和噪声信号的带宽。然后,基于解码的核编码器信号DAS的时间包络TED,对噪声信号NOS进行时间预整形。此外,通过逆变换将组合的时频表示的信号BFS转换为带宽扩展的时域音频信号BAS。
带宽扩展技术通常用于语音和音频编码,以通过加宽有效的输出带宽来增强感知质量。因此,可以在核编码器3中使用大部分可用比特,从而能够在更重要的低频范围中获得更高精度。尽管存在多种方法,其中一部分方法赢得广泛认可,但它们都缺少用于由包括多个可切换的、基于不同编码方案的核编码器的***进行语音处理的可行性。由于根据本发明的带宽扩展独立于核解码器技术,本发明提出了一种完美适于上述应用和其他应用的带宽扩展技术。
在根据本发明的带宽扩展中,可以产生完全合成的扩展信号,其中可以对所述扩展信号的时间包络进行预整形,且从而将所述完全合成的扩展信号调整为适应底层核编码器信号DAS。可以以比在真正滤波器组中或在带宽扩展后整形处理中使用的变换域内可获得的的时间分辨率高得多的时间分辨率,对扩展信号SNS的时间包络进行整形。
根据本发明的优选实施例,产生了频域带宽扩展信号BEF,而无需频带复制。通过这些特征,可以使必需的计算工作量最小化。
根据本发明的优选实施例,带宽扩展模块5配置为使得以过加重方式进行噪声信号NOS的时间整形。代替基于解码音频信号DAS的原始时间包络TED对噪声信号NOS进行整形;还有可能以过加重的方式执行这种整形。这可以如下实现:通过在以时间包络为基础获得预整形增益之前,在幅度上展开时间包络TED。尽管这种过加重不表示实际的原始包络TED,但是针对非常低的比特率,改善了一些信号部分(例如,元音)的可懂性。
根据本发明的优选实施例,带宽扩展模块5配置为使得通过由带通滤波器组将噪声信号NOS分为若干子带噪声信号,并对所述子带噪声信号中的每一个进行特定时间整形,来逐子带地进行噪声信号NOS的时间整形。
代替统一地对噪声信号NOS进行预整形,可以通过由带通滤波器组将该噪声信号NOS分为若干子带并对每个子带信号进行特定整形,来更精确地进行整形。
此外,本发明涉及一种用于对比特流BS进行解码的方法,其中所述方法包括以下步骤:
使用比特流接收机2接收比特流BS并从所述比特流BS中获得编码音频信号EAS;
使用核解码器模块3从所述编码音频信号EAS获得在时域上的解码音频信号DAS;
使用时间包络产生器4确定所述解码音频信号DAS的时间包络TED;
使用带宽扩展模块5执行以下步骤来产生频域带宽扩展信号BEF:
使用带宽扩展模块5的噪声产生器6在时域上产生噪声信号NOS,
使用所述带宽扩展模块5的预整形模块7,根据所述解码音频信号DAS的时间包络TED,对所述噪声信号NOS进行时间整形,以产生整形后的噪声信号SNS,
使用带宽扩展模块5的时频转换器8,将整形后的噪声信号SNS变换为频域噪声信号FNS,其中所述频域带宽扩展信号BEF取决于所述频域噪声信号FNS;
使用另一时频转换器9将解码音频信号DAS转换为频域解码音频信号FDS;
使用组合器10组合频域解码音频信号FDS和频域带宽扩展信号BEF,以便产生带宽扩展的频域音频信号BFS;以及
使用频时转换器11将所述带宽扩展的频域音频信号BFS转换为带宽扩展的时域音频信号BAS。
此外,本发明涉及一种计算机程序,当在处理器上运行时所述计算机程序执行根据本发明的方法。
图2示出了根据本发明的音频解码器设备的第二实施例的示意图。
根据本发明的优选实施例,带宽扩展模块5包括配置用于设置频域带宽扩展信号BEF的频率范围的频率范围选择器12。在将整形后的噪声信号SNS变换为时频表示FNS之后,可以选择带宽扩展的频域音频信号BEF的目标带宽,且如果需要,则可以将目标带宽移至所期望的频带位置。通过这些特征,可以容易地选择带宽扩展的时域音频信号BAS的频率范围。
根据本发明的优选实施例,带宽扩展模块5包括配置用于在所述频域带宽扩展信号BEF的频域中进行时间整形和/或频谱整形的后整形模块。通过这些特征,可以相对附加时间趋势和/或频谱包络,调整频域带宽扩展信号BEF,以便改进。
根据本发明的优选实施例,比特流接收机2配置为从所述比特流BS获得边信息信号SIS,其中带宽扩展模块5配置为根据所述边信息信号SIS来产生频域带宽扩展信号BEF。换言之,在编码器中提取的并经由所述比特流BS发送的附加边信息可以用于进一步改进频域带宽扩展信号BEF。通过这些特征,还可以提高带宽扩展的时域音频信号BAS的感知质量。
根据本发明的优选实施例,噪声产生器6配置为根据所述边信息信号SIS来产生噪声信号NOS。在这种实施例中,可以控制所述噪声产生器6,以便获得频谱倾斜的噪声信号,而不是频谱平坦的白噪声,以便进一步改善带宽扩展的时域音频信号BAS的感知质量。
根据本发明的优选实施例,预整形模块7配置用于根据所述边信息信号SIS来对噪声信号NOS进行时间整形。在预整形中,可以将边信息用于例如选择核解码器信号DAS的特定目标带宽,用于预整形。
根据本发明的优选实施例,后整形模块13配置用于根据所述边信息信号SIS对频域输出噪声信号BEF进行时间整形和/或频谱整形。在后整形中使用边信息可以确保所述频域带宽扩展信号BEF的粗糙时频包络遵循原始包络TED。
图3示出了根据本发明的音频解码器设备的第三实施例的示意图。
根据本发明的优选实施例,带宽扩展模块5包括另一噪声产生器14,配置为在时域上产生另一噪声信号NOSF;另一预整形模块15,配置用于根据解码音频信号DAS的时间包络TED来对所述另一噪声信号NOSF进行时间整形以便产生另一整形后的噪声信号SNSF;以及另一时频转换器16,配置为将所述另一整形后的噪声信号SNSF变换为另一频域噪声信号FNSF;其中所述频域带宽扩展信号BEF依赖于所述另一频域噪声信号FNSF。使用两个频域噪声信号FNS、FNSF来产生频域带宽扩展信号BEF可以使得提高带宽扩展的时域音频信号BAS的感知质量。
根据本发明的优选实施例,带宽扩展模块5配置为使得以过加重方式进行另一噪声信号NOSF的时间整形。这可以通过在获得以时间包络为基础获得预整形增益之前,在幅度上展开时间包络来实现。尽管这种过加重不表示实际的原始包络,但是针对非常低的比特率,改善了一些信号部分(例如,元音)的可懂性。
根据本发明的优选实施例,带宽扩展模块5配置为使得通过由带通滤波器组将另一噪声信号NOSF分为若干其他子带噪声信号,并对所述其他子带噪声信号中的每一个进行特定时间整形,来逐子带地进行对所述另一噪声信号NOSF的时间整形。
代替统一地对所述另一噪声信号进行预整形,可以通过由带通滤波器组将该另一噪声信号分为若干子带并对每个子带信号进行特定整形,来更精确地进行整形。
根据本发明的优选实施例,带宽扩展模块5包括音调产生器17,配置为在时域上产生音调信号TOS;音调预整形模块18,配置用于根据解码音频信号DAS的时间包络TED来对所述音调信号TOS进行时间整形以便产生整形后的音调信号STS;以及时频转换器19,配置为将所述整形后的音调信号STS变换为频域音调信号FTS;其中所述频域带宽扩展信号BEF依赖于所述频域音调信号FTS。除了处理合成噪声信号NOS、NOSF之外,还有可能在时域上产生合成音调分量,所述合成音调分量经过时间整形并接着变换为频率表示FTS。在这种情况下,时域中的整形有利于例如对音调的ADSR(攻击、衰减、维持、释放)阶段进行精确建模,这在通常的频域表示中是不可能的。附加使用频域音调信号FTS可以进一步提高带宽扩展的时域信号BAS的数量。
可以通过组合器20来组合频域噪声信号FNS、另一频域噪声信号FNSF和/或频域音调信号。
图4示出了根据本发明的音频解码器设备的第四实施例的示意图。
根据本发明的优选实施例,核解码器模块5包括:时域核解码器21和频域核解码器22,其中可选择时域核解码器21或频域核解码器22用于根据编码音频信号EAS获得解码音频信号DAS。这些特征允许本发明用于统一语音和音频编码(MPEG-D USAC)环境下。
根据本发明的优选实施例,控制参数提取器23配置用于从解码音频信号DAS提取由核解码器模块3使用的控制参数CP,其中所述带宽扩展模块5配置为根据所述控制参数CP产生频域带宽扩展信号BEF。尽管可以根据核编码器包络盲目地产生频域带宽扩展信号BEF或通过从核编码器信号获得的参数控制所述频域带宽扩展信号BEF,但还可以通过从编码器提取的和发送的参数,以部分引导的方式产生所述频域带宽扩展信号BEF。
根据本发明的优选实施例,带宽扩展模块5包括:整形增益计算器24,配置用于根据解码音频信号DAS的时间包络TED来建立针对预整形模块7的整形增益SG,且其中所述预整形模块7配置用于根据针对预整形模块7的整形增益SG,来对噪声信号NOS进行时间整形。这些特征允许容易地实现本发明。
根据本发明的优选实施例,用于建立针对预整形模块7的整形增益SG的整形增益计算器24被配置用于根据控制参数CP建立针对预整形模块7的整形增益SG。
根据本发明的优选实施例,带宽扩展模块5包括:整形增益计算器,配置用于根据解码音频信号DAS的时间包络TED来建立针对另一预整形模块15的整形增益,且其中所述另一预整形模块14配置用于根据针对另一预整形模块14的整形增益,来对另一噪声信号NOSF进行时间整形。
根据本发明的优选实施例,用于建立针对另一预整形模块15的整形增益的整形增益计算器被配置用于根据控制参数CP建立针对另一预整形模块15的整形增益。
根据本发明的优选实施例,带宽扩展模块5包括:整形增益计算器,配置用于根据解码音频信号DAS的时间包络TED来建立针对音调预整形模块18的整形增益,且其中所述音调预整形模块18配置用于根据针对音调预整形模块18的整形增益,来对音调信号TOS进行时间整形。
根据本发明的优选实施例,用于建立针对音调预整形模块18的整形增益的整形增益计算器被配置用于根据控制参数CP建立针对另一预整形模块18的整形增益。
图4逐步示出了逐步的新带宽扩展的优选实施例,作为对切换式编码***的增强。示例***包括均以12.8kHz的内部采样速率和20ms成帧(framing)运行的时域核解码器21和频域核解码器22。这种给定的设置得到了每帧256个解码器输出样本且输出带宽为6.4kHz。通过应用带宽扩展,假设***的有效输出带宽被扩展至高达14.4kHz,具有一个噪声信号,采样速率为32.0kHz。因此,可以针对每个帧执行以下步骤:
在噪声产生步骤,可以通过以采样速率16.0kHz产生20ms的白噪声(得到320个噪声样本),来获得8.0kHz有效带宽(14.4kHz-6.4kHz)的噪声帧。
在控制参数提取步骤,可以再使用来自核解码器的参数,例如,基频和语音编码器的长时预测器(LTP)增益。此外,可以提取来自核解码器输出信号的参数,例如,频谱中心和过零率。此外,对预整形的长度的确定可以是基于控制参数的,例如,针对较高基频和较高的长时预测器增益(高音调元音)进行强整形,针对较高频谱中心和过零率(咝咝声)进行弱整形或不进行整形。
在时间包络产生步骤,可以使用高通滤波器从核解码器输出信号DAS移除DC部和非常低的频率,可以将时间样本转换为能量,并可以根据所述能量计算线性预测编码(LPC)系数。
在计算整形增益的步骤,可以将线性预测编码系数转换为320个样本长度的频率响应,所述频率响应代表经平滑的时间包络,并且可以考虑到目标整形长度,将平滑的时间包络样本转换为增益值。
在时间预整形步骤,可以将预整形增益值应用于噪声样本。
在时频转换步骤,可以由合并了带宽为400Hz且跳跃大小(hop size)为1.25ms的滤波器的分析正交镜像滤波器组来处理核解码器输出信号DAS,得到20个正交镜像滤波器子带和16个时隙的时频矩阵。此外,可以由针对解码器输出信号的合并了相同设置的另一正交镜像滤波器组来处理噪声帧,得到16个正交镜像滤波器子带和16个时隙的时频矩阵。
在变调(带宽选择)步骤,可以将噪声帧移至目标频率范围,并堆叠在解码器信号矩阵之上,成为36个正交镜像滤波器子带和16个时隙的输出T/F矩阵。
在时间和频谱后整形的步骤,可以通过利用所发送的边信息对变调后的正交镜像滤波器包络进行时间后整形,来确保针对关键信号部分(例如,瞬态)的正确时间趋势。此外,可以通过利用所发送的边信息对变调后的正交镜像滤波器包络进行频谱后整形,来近似原始频谱倾斜和全部能量。
在合成步骤,可以经由40个子带的合成正交镜像滤波器组来处理36个子带的输出时频矩阵,得到采样率为32.0kHz且有效带宽为14.4kHz的超宽带时域输出信号BAS。
针对上述实施例的解码器和方法,应注意以下内容:
尽管在装置的背景下描述了一些方面,然而应清楚的是这些方面还表示对相应方法的描述,其中组块或设备与方法步骤或方法步骤的特征相对应。类似地,在方法步骤的背景下描述的多个方面同样表示对相应装置的相应组块或项目或特征的描述。
根据特定实现要求,本发明的实施例可以实现为硬件或软件。可以通过使用将电学可读控制信号存储在其上的数字存储介质,例如,软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或FLASH存储器来执行所述实现方案,其中所述电学可读控制信号与可编程计算机***合作(或能够与之合作),使得执行相应方法。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,其中所述数据载体能够与可编程计算机***合作,使得执行这里所述的方法之一。
通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,当在计算机上运行所述计算机程序产品时,所述程序代码可操作用于执行所述方法之一。程序代码可以例如被存储在机器可读载体上。
其他实施例包括用于执行本文所述的方法之一的计算机程序,其中将所述计算机程序存储在机器可读的载体或非暂时性存储介质上。
因此,换言之,本发明方法的实施例是一种计算机程序,所述计算机程序具有用于当在计算机上运行所述计算机程序时执行本文所述方法之一的程序代码。
因此,本发明方法的另一实施例是一种将计算机程序记录在其上的数据载体(或数字存储介质,或计算机可读介质),其中所述计算机程序用于执行本文所述的方法之一。
因此,本发明方法的另一实施例是一种数据流或信号序列,其中所述数据流或信号序列代表用于执行本文所述的方法之一的计算机程序。可以将所述数据流或信号序列配置为例如经由数据通信连接(例如,经由互联网)发送。
另一实施例包括配置为或用于执行本文所述方法之一的处理装置,例如,计算机或可编程逻辑器件。
另一实施例包括将用于执行本文所述的方法之一的计算机程序安装在其上的计算机。
在一些实施例中,可以将可编程逻辑器件(例如,现场可编程门阵列)用于执行本文所述的方法的功能中的一部分或全部功能。在一些实施例中,现场可编程门阵列可以与微处理器合作以便执行本文所述的方法之一。通常,可以有利地由任意硬件装置来执行所述方法。
尽管根据若干实施例描述了本发明,然而存在落入本发明范围内的多种变型、置换和等同物。此外,应注意,存在多种备选方式来执行本发明的方法和组成。因此,意在将下文所附权利要求理解为包括落入本发明实质精神和范围内的全部变型、置换和等同物。
附图标记:
1 音频解码器设备
2 比特流接收机
3 核解码器模块
4 时间包络产生器
5 带宽扩展模块
6 噪声产生器
7 预整形模块
8 时频转换器
9 时频转换器
10 组合器
11 频时转换器
12 频率范围选择器
13 后整形模块
14 另一噪声产生器
15 另一预整形模块
16 另一时频转换器
17 音调产生器
18 音调预整形模块
19 时频转换器
20 组合器
21 时域核解码器
22 频域核解码器
23 控制参数提取器
24 整形增益计算器
BS 比特流
EAS 编码音频信号
DAS 解码音频信号
TED 时间包络
BEF 频域带宽扩展信号
NOS 噪声信号
SNS 整形后的噪声信号
FNS 频域噪声信号
FDS 频域解码音频信号
BFS 带宽扩展的频域音频信号
BAS 带宽扩展的时域音频信号
FSR 频率范围选择后的频域噪声信号
SIS 边信息信号
NOSF 另一噪声信号
SNSF 另一整形后的噪声信号
FNSF 另一频域噪声信号
TOS 音调信号
STS 整形后的音调信号
FTS 频域音调信号
SG 整形增益
CP 控制参数
参考文献:
【1】Bessette,B.等,“The Adaptive Multirate Wideband Speech Codec(AMR-WB)”,IEEE Transactions on Speech and Audio Processing,第10卷第8期,2002年11月
【2】Dietz,M.等,“Spectral Band Replication,a novel approach in audiocoding”,Proceedings of the 112th AES Convention,2002年5月
【3】Miao,L.等,“G.711.1Annex D and G.722Annex B–New ITU-T SuperWideband Codecs”,IEEE ICASSP 2011,第5232-5235页。

Claims (24)

1.一种用于对比特流(BS)进行解码的音频解码器设备,所述音频解码器设备(1)包括:
比特流接收机(2),配置为接收比特流(BS)并从所述比特流(BS)获得编码音频信号(EAS);
核解码器模块(3),配置为用于从所述编码音频信号(EAS)获得时域的解码音频信号(DAS);
时间包络产生器(4),配置为确定解码音频信号(DAS)的时间包络(TED);
带宽扩展模块(5),配置为产生频域带宽扩展信号(BEF),其中所述带宽扩展模块(5)包括配置为在时域上产生噪声信号(NOS)的噪声产生器(6),其中所述带宽扩展模块(5)包括预整形模块(7),配置为根据解码音频信号(DAS)的时间包络(TED)对所述噪声信号(NOS)进行时间整形以便产生整形后的噪声信号(SNS),以及其中所述带宽扩展模块(5)包括时频转换器(8),配置为将整形后的噪声信号(SNS)变换为频域噪声信号(FNS);其中所述频域带宽扩展信号(BEF)依赖于所述频域噪声信号(FNS);
时频转换器(9),配置为将所述解码音频信号(DAS)变换为频域解码音频信号(FDS);
组合器(10),配置为组合频域解码音频信号(FDS)和频域带宽扩展信号(BEF),以便产生带宽扩展的频域音频信号(BFS);以及
频时转换器(11),配置为将带宽扩展的频域音频信号(BFS)变换为带宽扩展的时域音频信号(BAS)。
2.根据上述权利要求所述的音频解码器设备,其中产生所述频域带宽扩展信号(BEF),而无频带复制。
3.根据权利要求1所述的音频解码器设备,其中所述带宽扩展模块(5)配置为使得以过加重方式进行噪声信号(NOS)的时间整形。
4.根据权利要求1所述的音频解码器设备,其中所述带宽扩展模块(5)配置为,使得通过由带通滤波器组将噪声信号(NOS)分为若干子带噪声信号,并对所述子带噪声信号中的每一个进行特定时间整形,来逐子带地进行噪声信号(NOS)的时间整形。
5.根据权利要求1所述的音频解码器设备,其中所述带宽扩展模块(5)包括配置用于设置频域带宽扩展信号(BEF)的频率范围的频率范围选择器(12)。
6.根据权利要求1所述的音频解码器设备,其中所述带宽扩展模块(5)包括配置用于在所述频域带宽扩展信号(BEF)的频域中进行时间整形和/或频谱整形的后整形模块(13)。
7.根据权利要求1所述的音频解码器设备,其中所述比特流接收机(2)配置为从所述比特流(BS)获得边信息信号(SIS),其中带宽扩展模块(5)配置为根据所述边信息信号(SIS)来产生频域带宽扩展信号(BEF)。
8.根据权利要求7所述的音频解码器设备,其中所述噪声产生器(6)配置为根据所述边信息信号(SIS)来产生噪声信号(NOS)。
9.根据权利要求7所述的音频解码器设备,其中所述预整形模块(7)配置用于根据所述边信息信号(SIS)对噪声信号(NOS)进行时间整形。
10.根据权利要求6所述的音频解码器设备,其中所述后整形模块(13)配置用于根据通过所述比特流接收机(2)从所述比特流(BS)获得的边信息信号(SIS)对频域带宽扩展信号(BEF)进行时间整形和/或频谱整形。
11.根据权利要求1所述的音频解码器设备,其中所述带宽扩展模块(5)包括:另一噪声产生器(14),配置为在时域上产生另一噪声信号(NOSF);另一预整形模块(15),配置用于根据解码音频信号(DAS)的时间包络(TED)对所述另一噪声信号(NOSF)进行时间整形,以便产生另一整形后的噪声信号(SNSF);以及另一时频转换器(16),配置为将所述另一整形后的噪声信号(SNSF)变换为另一频域噪声信号(FNSF);其中所述频域带宽扩展信号(BEF)依赖于所述另一频域噪声信号(FNSF)。
12.根据权利要求11所述的音频解码器设备,其中所述带宽扩展模块(5)配置为使得以过加重方式进行所述另一噪声信号(NOSF)的时间整形。
13.根据权利要求11所述的音频解码器设备,其中所述带宽扩展模块(5)配置使得通过由带通滤波器组将所述另一噪声信号(NOSF)分为若干其他子带噪声信号,并对所述其他子带噪声信号中的每一个进行特定时间整形,来逐子带地进行所述另一噪声信号(NOSF)的时间整形。
14.根据权利要求1所述的音频解码器设备,其中所述带宽扩展模块(5)包括:音调产生器(17),配置为在时域上产生音调信号(TOS);音调预整形模块(18),配置用于根据解码音频信号(DAS)的时间包络(TED)对所述音调信号(TOS)进行时间整形,以便产生整形后的音调信号(STS);以及时频转换器(19),配置为将所述整形后的音调信号(STS)变换为频域音调信号(FTS);其中所述频域带宽扩展信号(BEF)依赖于所述频域音调信号(FTS)。
15.根据权利要求1所述的音频解码器设备,其中所述核解码器模块(5)包括:时域核解码器(21)和频域核解码器(22),其中时域核解码器(21)或频域核解码器(22)用于从所述编码音频信号(EAS)获得所述解码音频信号(DAS)。
16.根据权利要求15所述的音频解码器设备,其中控制参数提取器(23)配置用于从解码音频信号(DAS)提取由核解码器模块(3)使用的控制参数(CP),其中所述带宽扩展模块(5)配置为根据所述控制参数(CP)产生频域带宽扩展信号(BEF)。
17.根据权利要求1所述的音频解码器设备,其中所述带宽扩展模块(5)包括:整形增益计算器(24),配置用于根据解码音频信号(DAS)的时间包络(TED)来建立针对预整形模块(7)的整形增益(SG),且其中所述预整形模块(7)配置用于根据针对预整形模块(7)的整形增益(SG)对噪声信号(NOS)进行时间整形。
18.根据权利要求16所述的音频解码器设备,其中所述用于建立针对预整形模块(7)的整形增益(SG)的整形增益计算器(24)被配置用于根据控制参数(CP)建立针对预整形模块(7)的整形增益(SG)。
19.根据权利要求11所述的音频解码器设备,其中所述带宽扩展模块(5)包括:整形增益计算器,配置用于根据解码音频信号(DAS)的时间包络(TED)来建立针对所述另一预整形模块(15)的整形增益,且其中所述另一预整形模块(15)配置用于根据针对所述另一预整形模块(15)的整形增益对所述另一噪声信号(NOSF)进行时间整形。
20.根据权利要求16所述的音频解码器设备,其中所述带宽扩展模块(5)包括:整形增益计算器,配置用于根据解码音频信号(DAS)的时间包络(TED)来建立针对另一预整形模块(15)的整形增益,且其中所述另一预整形模块(15)配置用于根据针对所述另一预整形模块(15)的整形增益对另一噪声信号(NOSF)进行时间整形,其中所述用于建立针对所述另一预整形模块(15)的整形增益的整形增益计算器被配置用于根据控制参数(CP)建立针对所述另一预整形模块(15)的整形增益,以及其中所述另一噪声信号(NOSF)由另一噪声产生器(14)产生。
21.根据权利要求14所述的音频解码器设备,其中所述带宽扩展模块(5)包括:整形增益计算器,配置用于根据解码音频信号(DAS)的时间包络(TED)来建立针对音调预整形模块(18)的整形增益,且其中所述音调预整形模块(18)配置用于根据针对音调预整形模块(18)的整形增益对音调信号(TOS)进行时间整形。
22.根据权利要求16所述的音频解码器设备,其中所述带宽扩展模块(5)包括:整形增益计算器,配置用于根据解码音频信号(DAS)的时间包络(TED)来建立针对音调预整形模块(18)的整形增益,且其中所述音调预整形模块(18)配置用于根据针对音调预整形模块(18)的整形增益对音调信号(TOS)进行时间整形,其中所述用于建立针对音调预整形模块(18)的整形增益的整形增益计算器被配置用于根据控制参数(CP)建立针对另一音调预整形模块(18)的整形增益。
23.一种对比特流(BS)进行解码的方法,所述方法包括以下步骤:
使用比特流接收机(2)来接收比特流(BS)并从所述比特流(BS)获得编码音频信号(EAS);
使用核解码器模块(3)从所述编码音频信号(EAS)获得时域上的解码音频信号(DAS);
使用时间包络产生器(4)来确定所述解码音频信号(DAS)的时间包络(TED);
使用带宽扩展模块(5)执行以下步骤来产生频域带宽扩展信号(BEF):
使用带宽扩展模块(5)的噪声产生器(6)在时域上产生噪声信号(NOS),
使用所述带宽扩展模块(5)的预整形模块(7),根据所述解码音频信号(DAS)的时间包络(TED),对所述噪声信号(NOS)进行时间整形,以产生整形后的噪声信号(SNS),
使用带宽扩展模块(5)的时频转换器(8),将整形后的噪声信号(SNS)变换为频域噪声信号(FNS),其中所述频域带宽扩展信号(BEF)依赖于所述频域噪声信号(FNS);
使用另一时频转换器(9)将解码音频信号(DAS)转换为频域解码音频信号(FDS);
使用组合器(10)来组合频域解码音频信号(FDS)和频域带宽扩展信号(BEF),以便产生带宽扩展的频域音频信号(BFS);以及
使用频时转换器(11)将所述带宽扩展的频域音频信号(BFS)转换为带宽扩展的时域音频信号(BAS)。
24.一种计算机可读介质,包括计算机程序,其中当在处理器上运行时,所述计算机程序执行根据上述权利要求23所述的方法。
CN201480059424.3A 2013-10-31 2014-10-30 对比特流进行解码的音频解码器设备和方法 Active CN105706166B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13191127.3 2013-10-31
EP13191127 2013-10-31
PCT/EP2014/073375 WO2015063227A1 (en) 2013-10-31 2014-10-30 Audio bandwidth extension by insertion of temporal pre-shaped noise in frequency domain

Publications (2)

Publication Number Publication Date
CN105706166A CN105706166A (zh) 2016-06-22
CN105706166B true CN105706166B (zh) 2020-07-14

Family

ID=51845400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480059424.3A Active CN105706166B (zh) 2013-10-31 2014-10-30 对比特流进行解码的音频解码器设备和方法

Country Status (11)

Country Link
US (1) US9805731B2 (zh)
EP (1) EP3063761B1 (zh)
JP (1) JP6396459B2 (zh)
KR (1) KR101852749B1 (zh)
CN (1) CN105706166B (zh)
CA (1) CA2927990C (zh)
ES (1) ES2657337T3 (zh)
MX (1) MX355452B (zh)
RU (1) RU2666468C2 (zh)
TR (1) TR201802303T4 (zh)
WO (1) WO2015063227A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483882A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3671741A1 (en) * 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Audio processor and method for generating a frequency-enhanced audio signal using pulse processing
CN110534128B (zh) * 2019-08-09 2021-11-12 普联技术有限公司 一种噪音处理方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1589469A (zh) * 2001-11-23 2005-03-02 皇家飞利浦电子股份有限公司 音频信号带宽扩展
CN1957398A (zh) * 2004-02-18 2007-05-02 沃伊斯亚吉公司 在基于代数码激励线性预测/变换编码激励的音频压缩期间低频加重的方法和设备
CN101140759A (zh) * 2006-09-08 2008-03-12 华为技术有限公司 语音或音频信号的带宽扩展方法及***
CN101281748A (zh) * 2008-05-14 2008-10-08 武汉大学 用编码索引实现的空缺子带填充方法及编码索引生成方法
CN101809657A (zh) * 2007-08-27 2010-08-18 爱立信电话股份有限公司 用于噪声填充的方法和设备
CN102163429A (zh) * 2005-04-15 2011-08-24 杜比国际公司 用于处理去相干信号或组合信号的设备和方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3605706B2 (ja) * 1994-10-06 2004-12-22 伸 中川 音響信号再生方法及び装置
US6226616B1 (en) * 1999-06-21 2001-05-01 Digital Theater Systems, Inc. Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility
EP1653627B1 (en) 2003-07-29 2009-09-30 Panasonic Corporation Audio signal band expansion apparatus and method
JP2008096567A (ja) * 2006-10-10 2008-04-24 Matsushita Electric Ind Co Ltd オーディオ符号化装置およびオーディオ符号化方法ならびにプログラム
EP2571024B1 (en) * 2007-08-27 2014-10-22 Telefonaktiebolaget L M Ericsson AB (Publ) Adaptive transition frequency between noise fill and bandwidth extension
BR122012006269A2 (pt) * 2008-03-10 2019-07-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Equipamento e método para a manipulação de um sinal de áudio tendo um evento transiente
WO2010028297A1 (en) * 2008-09-06 2010-03-11 GH Innovation, Inc. Selective bandwidth extension
US8532983B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Adaptive frequency prediction for encoding or decoding an audio signal
EP2239732A1 (en) * 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
JP4932917B2 (ja) * 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
EP2273493B1 (en) * 2009-06-29 2012-12-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Bandwidth extension encoding and decoding
US8515768B2 (en) * 2009-08-31 2013-08-20 Apple Inc. Enhanced audio decoder
CA2770287C (en) * 2010-06-09 2017-12-12 Panasonic Corporation Bandwidth extension method, bandwidth extension apparatus, program, integrated circuit, and audio decoding apparatus
BR112013020324B8 (pt) * 2011-02-14 2022-02-08 Fraunhofer Ges Forschung Aparelho e método para supressão de erro em fala unificada de baixo atraso e codificação de áudio
BR112013029347B1 (pt) * 2011-05-13 2021-05-11 Samsung Electronics Co., Ltd método para alocação de bits, mídia de gravação permanente legível por computador, aparelho para alocação de bits, aparelho para codificação de áudio, e aparelho para decodificação de áudio

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1589469A (zh) * 2001-11-23 2005-03-02 皇家飞利浦电子股份有限公司 音频信号带宽扩展
CN1957398A (zh) * 2004-02-18 2007-05-02 沃伊斯亚吉公司 在基于代数码激励线性预测/变换编码激励的音频压缩期间低频加重的方法和设备
CN102163429A (zh) * 2005-04-15 2011-08-24 杜比国际公司 用于处理去相干信号或组合信号的设备和方法
CN101140759A (zh) * 2006-09-08 2008-03-12 华为技术有限公司 语音或音频信号的带宽扩展方法及***
CN101809657A (zh) * 2007-08-27 2010-08-18 爱立信电话股份有限公司 用于噪声填充的方法和设备
CN101281748A (zh) * 2008-05-14 2008-10-08 武汉大学 用编码索引实现的空缺子带填充方法及编码索引生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Hi-BIN: an alternative approach to wideband speech coding";TAORI R等;《ICASSP ’00,IEEE》;20000605;第2卷;全文 *
"一种用于对比特流(BS)进行解码的音频解码器设备";ITU-T;《ITU-T G.729.1建议书》;20071231;第7-8,40-49页 *

Also Published As

Publication number Publication date
EP3063761A1 (en) 2016-09-07
CA2927990C (en) 2018-08-14
RU2666468C2 (ru) 2018-09-07
MX355452B (es) 2018-04-18
TR201802303T4 (tr) 2018-03-21
CN105706166A (zh) 2016-06-22
CA2927990A1 (en) 2015-05-07
US20160240200A1 (en) 2016-08-18
US9805731B2 (en) 2017-10-31
MX2016005167A (es) 2016-07-05
KR20160075768A (ko) 2016-06-29
EP3063761B1 (en) 2017-11-22
JP2016541012A (ja) 2016-12-28
KR101852749B1 (ko) 2018-06-07
WO2015063227A1 (en) 2015-05-07
ES2657337T3 (es) 2018-03-02
RU2016121163A (ru) 2017-12-05
JP6396459B2 (ja) 2018-09-26

Similar Documents

Publication Publication Date Title
CN105706166B (zh) 对比特流进行解码的音频解码器设备和方法
JP6941643B2 (ja) 全帯域ギャップ充填を備えた周波数ドメインプロセッサと時間ドメインプロセッサとを使用するオーディオ符号器及び復号器
JP7135132B2 (ja) 周波数ドメインプロセッサ、時間ドメインプロセッサ及び連続的な初期化のためのクロスプロセッサを使用するオーディオ符号器及び復号器
KR101224884B1 (ko) 스위치 가능한 바이패스를 가진 오디오 인코딩/디코딩 기법
US8606586B2 (en) Bandwidth extension encoder for encoding an audio signal using a window controller
US9424847B2 (en) Bandwidth extension parameter generation device, encoding apparatus, decoding apparatus, bandwidth extension parameter generation method, encoding method, and decoding method
AU2007206167A1 (en) Apparatus and method for encoding and decoding signal
EP1756807B1 (en) Audio encoding
KR20150110708A (ko) 주파수 도메인 내의 선형 예측 코딩 기반 코딩을 위한 저주파수 강조
Vaillancourt et al. New post-processing techniques for low bit rate celp codecs
JP7507207B2 (ja) 周波数ドメインプロセッサ、時間ドメインプロセッサ及び連続的な初期化のためのクロスプロセッサを使用するオーディオ符号器及び復号器
BR112016009563B1 (pt) Extensão de largura de banda de áudio através da inserção de ruído temporal pré- formado no domínio de frequência

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant