CN110998722B - 低复杂性密集瞬态事件检测和译码 - Google Patents

低复杂性密集瞬态事件检测和译码 Download PDF

Info

Publication number
CN110998722B
CN110998722B CN201880049530.1A CN201880049530A CN110998722B CN 110998722 B CN110998722 B CN 110998722B CN 201880049530 A CN201880049530 A CN 201880049530A CN 110998722 B CN110998722 B CN 110998722B
Authority
CN
China
Prior art keywords
feature
value
audio signal
transient events
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880049530.1A
Other languages
English (en)
Other versions
CN110998722A (zh
Inventor
A·比斯瓦斯
M·舒格
H·蒙特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Priority claimed from PCT/EP2018/067970 external-priority patent/WO2019007969A1/en
Publication of CN110998722A publication Critical patent/CN110998722A/zh
Application granted granted Critical
Publication of CN110998722B publication Critical patent/CN110998722B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3059Digital compression and data reduction techniques where the original information is represented by a subset or similar information, e.g. lossy compression
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/60General implementation details not specific to a particular type of compression
    • H03M7/6011Encoder aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H20/00Arrangements for broadcast or for distribution combined with broadcast
    • H04H20/86Arrangements characterised by the broadcast information itself
    • H04H20/88Stereophonic broadcast systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及用于音频译码的方法和设备。对音频信号的部分进行编码的方法包括:确定所述音频信号的所述部分是否可能含有密集瞬态事件,且如果确定所述音频信号的所述部分可能含有密集瞬态事件,那么使用针对所述音频信号的所述部分在频率上应用大体上恒定信噪比的量化模式来量化所述音频信号的所述部分。本发明还涉及检测音频信号的部分中的密集瞬态事件的方法。

Description

低复杂性密集瞬态事件检测和译码
相关申请的交叉引用
本申请要求以下优先申请的优先权:2017年7月3日提交的第62/528,198号(参考:D17046USP1)美国临时申请案和2017年7月3日提交的EP申请案17179316.9(参考:D17046EP),以上申请案特此以引用的方式并入本文中。
技术领域
本发明涉及对音频信号进行编码的方法。本发明还涉及检测音频信号的部分中的密集瞬态事件的方法。本发明还涉及对应设备,例如编码器。
背景技术
感知或有损音频编解码器(例如MP3、AAC、HE-AAC、AC-4)已知关于例如在不损失感知音频质量的情况下压缩包含密集瞬态事件的音频信号存在问题,所述密集瞬态事件例如鼓掌、爆裂的火焰或者雨。增加压缩效率的常规努力通常往往导致在编码器侧极大增加的计算复杂性和/或损失感知音频质量。
本发明解决了上述与包含例如鼓掌、爆裂的火焰或雨等密集瞬态事件的音频信号的音频译码有关的问题,且描述了用于此类音频信号的改进译码的方法和设备。本发明还处理了检测音频信号中的密集瞬态事件以实现其适当处理。
发明内容
根据本发明的一方面,描述一种对音频信号的部分(例如,帧)进行编码的方法。所述方法可包含获得(例如,确定、计算或运算)与音频信号的所述部分的感知熵(PE)相关的第一特征的值。PE在音频译码的领域中已知为特定音频信号中含有的感知相关信息的度量,且表示特定音频信号的可压缩性方面的理论限制。所述方法还可包含基于(获得的)第一特征的值选择用于量化音频信号的所述部分(例如,用于例如量化音频信号的所述部分的频率系数,例如MDCT系数)的量化模式。所述方法还可包含使用所选量化模式量化音频信号的所述部分。选择量化模式可涉及至少部分地基于(获得的)第一特征的值确定针对音频信号的所述部分是否应使用在频率上(例如,在频带上)应用(例如,强加)(大体上)恒定信噪比(SNR)的量化模式。此量化模式可称为恒定SNR模式或恒定SNR量化模式。在频率上应用恒定SNR可涉及(例如,涉及)噪声整形(例如,量化噪声整形)。这又可涉及量化参数(例如,量化步长大小、掩蔽阈值)的适当选择或修改。可在逐频带基础上执行量化。此外,可根据感知模型(例如,心理声学模型)执行量化。在此情况下,举例来说,可选择或修改用于比例因子带的比例因子和/或掩蔽阈值以便当执行量化时达到频率上的大体上恒定SNR。
通过在量化中在频率上强加恒定SNR,可以在解码之后实现音频的改进感知质量的方式对含有密集瞬态事件(例如,鼓掌、爆裂的火焰、雨等)的音频信号进行编码。由于此恒定SNR量化模式对于对音频信号进行编码是相当不寻常的且可能不适合于其它类型的音频信号,因此通过参考音频信号的感知熵来首先检测音频信号中的密集瞬态事件的存在,且根据检测的结果选择量化模式。进而,可以可靠地避免并不含有或并不仅含有密集瞬态事件(例如音乐、语音、鼓掌与例如音乐和/或欢呼混合)的音频信号的降级。由于在当前技术发展水平音频编解码器(例如MP3、AAC、HE-AAC、AC-4)中无论如何都为了量化的目的而确定感知熵,因此执行前述检测不会显著增加计算复杂性、延迟和存储器占据面积。总体上,所提出的方法在解码之后改进了音频的感知质量,而不会显著增加编码器侧的复杂性和存储器占据面积。
在实施例中,所述方法还可包含使第一特征的值随时间平滑以获得第一特征的经时间平滑值。随后,所述确定可基于第一特征的经时间平滑值。
进而,可避免将使用哪一量化模式的决策的不必要的切换,其中切换可能导致可听的假象。因此,可进一步改进音频输出的感知质量。
在实施例中,所述确定可涉及比较第一特征的值与用于第一特征的值的预定阈值。可根据所述比较的结果有条件地选择在频率上应用(例如,强加)大体上恒定信噪比的所述量化模式。举例来说,如果(例如,仅当)第一特征的值高于用于第一特征的值的预定阈值,那么可选择在频率上应用(例如,强加)大体上恒定信噪比的量化模式。
如已发现,高于某一阈值的感知熵可指示音频信号中的密集瞬态事件。因此,第一特征的值与阈值的比较提供了音频信号的部分是否适合于使用恒定SNR量化模式的量化的简单且可靠的确定。
在实施例中,所述确定可(进一步)基于第一特征的值随时间的变化。举例来说,所述确定可基于时间变化,例如随时间的标准偏差,或随时间与平均值的最大偏差。举例来说,所述确定可涉及比较第一特征的值的随时间的变化与所述变化的预定阈值。可根据所述比较的结果有条件地选择在频率上应用(例如,强加)大体上恒定信噪比的所述量化模式。举例来说,如果(例如,仅当)第一特征的值的变化低于所述变化的预定阈值,那么可选择在频率上应用(例如,强加)大体上恒定信噪比的量化模式。在某些实施方案中,可根据第一特征的值的比较和第一特征的变化随时间的变化的比较的结果而有条件地选择在频率上应用(例如,强加)大体上恒定信噪比的量化模式。举例来说,如果(例如,仅当)第一特征的值高于其相应阈值且第一特征随时间的变化低于其相应阈值,那么可选择在频率上应用(例如,强加)大体上恒定信噪比的量化模式。
如已发现,平均较高但具有比较少的时间变化的感知熵可指示音频信号中的密集瞬态事件。因此,第一特征的值随时间的变化与阈值的比较提供了音频信号的部分是否适合于使用恒定SNR量化模式的量化的简单且可靠的确定。组合关于第一特征的值的两个决策准则可得到是否应使用恒定SNR量化模式的更加可靠的确定。
在实施例中,第一特征可与感知熵成比例。替代地,第一特征可与感知熵的因子(分量)成比例。第一特征的值可在频域(例如,MDCT域)中获得。
由于当前技术发展水平代码无论如何都计算感知熵,因此参考感知熵作为第一特征允许再次使用计算结果,且进而避免所提出的是否应使用恒定SNR量化模式的确定的复杂性和存储器占据面积的显著增加。
在实施例中,所述方法还可包含获得与音频信号的部分的在频域(例如,MDCT域)中的(谱)稀疏性度量相关的第二特征的值。稀疏性度量可通过形状因子给定或与形状因子有关。举例来说,稀疏性度量可与形状因子或感知加权形状因子成比例。所述确定可(进一步)基于第二特征的值。
还参考稀疏性度量允许其中应用恒定SNR量化模式是有利的情况和其中并不有利的情况的进一步改进的区分。
在实施例中,所述方法还可包含使第二特征的值随时间平滑以获得第二特征的经时间平滑值。所述确定可基于第二特征的经时间平滑值。
进而,可避免将使用哪一量化模式的决策的不必要的切换,其中切换可能导致可听的假象。因此,可进一步改进音频输出的感知质量。
在实施例中,所述确定可涉及比较第二特征的值与用于第二特征的值的预定阈值。可根据所述比较的结果有条件地选择在频率上应用(例如,强加)大体上恒定信噪比的所述量化模式。举例来说,如果(例如,仅当)第二特征的值高于用于第二特征的值的预定阈值,那么可选择在频率上应用(例如,强加)大体上恒定信噪比的量化模式。特别地,在上述确定中参考第二特征的值是否高于(即,超过)其阈值的条件假定第二特征经定义以使得其值随着谱密度增加而增加(如同例如形状因子的情况);在相反情况(即,如果第二特征经定义以使得其值随着谱密度增加而减小)下,如果(例如,仅当)第二特征的值低于用于第二特征的值的预定阈值,那么将选择在频率上应用(例如,强加)大体上恒定信噪比的量化模式。
如已发现,高于某一阈值的稀疏性度量(例如形状因子、感知加权形状因子,或未经量化为零的频率系数(频率行)的估计数目)可指示音频信号中的密集瞬态事件,且还指示其中应用恒定SNR量化模式是有利的情况。因此,第二特征的值与阈值的比较提供了音频信号的部分是否适合于使用恒定SNR量化模式的量化的简单且可靠的确定确认。
本发明的另一方面涉及检测音频信号的一部分中的密集瞬态事件(例如,鼓掌、爆裂的火焰、雨等)的方法。所述方法可包含获得(例如,确定、计算或运算)与音频信号的所述部分的感知熵相关的第一特征的值。所述方法还可包含至少部分地基于第一特征的值确定音频信号的所述部分是否可能含有密集瞬态事件。
进而,音频信号的所述部分可关于其密集瞬态事件的内容被分类,而不会显著增加计算复杂性和存储器占据面积。
在实施例中,所述方法还可包含生成用于音频信号的部分的元数据。所述元数据可指示音频信号的部分是否可能含有密集瞬态事件。
提供此元数据实现音频信号的更高效且改进的后处理。
在实施例中,所述方法还可包含使第一特征的值随时间平滑以获得第一特征的经时间平滑值。随后,所述确定可基于第一特征的经时间平滑值。
在实施例中,所述确定可涉及比较第一特征的值与用于第一特征的值的预定阈值。随后,可根据比较的结果确定音频信号的部分是否可能含有密集瞬态事件。举例来说,如果(例如,仅当)第一特征的值高于用于第一特征的值的预定阈值,那么可确定音频信号的部分可能含有密集瞬态事件。
在实施例中,所述确定可(进一步)基于第一特征的值随时间的变化。举例来说,所述确定可基于时间变化,例如随时间的标准偏差,或随时间与平均值的最大偏差。举例来说,所述确定可涉及比较第一特征的值的随时间的变化与所述变化的预定阈值。随后,可根据比较的结果确定音频信号的部分是否可能含有密集瞬态事件。举例来说,如果(例如,仅当)第一特征的值的变化低于所述变化的预定阈值,那么可确定音频信号的部分可能含有密集瞬态事件。在某些实施方案中,可根据第一特征的值的比较和第一特征的变化随时间的变化的比较的结果确定音频信号的部分是否可能含有密集瞬态事件。举例来说,如果(例如,仅当)第一特征的值高于其相应阈值且第一特征随时间的变化低于其相应阈值,那么可确定音频信号的部分可能含有密集瞬态事件。
在实施例中,第一特征可与感知熵成比例。替代地,第一特征可与感知熵的因子(分量)成比例。第一特征的值可在频域(例如,MDCT域)中获得。
在实施例中,所述方法还可包含获得与音频信号的部分的在频域(例如,MDCT域)中的(谱)稀疏性度量相关的第二特征的值。稀疏性度量可通过形状因子给定或与形状因子有关。举例来说,稀疏性度量可与形状因子或感知加权形状因子成比例。所述确定可(进一步)基于第二特征的值。
在实施例中,所述方法还可包含使第二特征的值随时间平滑以获得第二特征的经时间平滑值。所述确定可基于第二特征的经时间平滑值。
在实施例中,所述确定可涉及比较第二特征的值与用于第二特征的值的预定阈值。随后,可根据比较的结果确定音频信号的部分是否可能含有密集瞬态事件。举例来说,如果(例如,仅当)第二特征的值高于用于第二特征的值的预定阈值,那么可确定音频信号的部分可能含有密集瞬态事件。特别地,在上述确定中参考第二特征的值是否高于(即,超过)其阈值的条件假定第二特征经定义以使得其值随着谱密度增加而增加(如同例如形状因子的情况);在相反情况(即,如果第二特征经定义以使得其值随着谱密度增加而减小)下,如果(例如,仅当)第二特征的值低于用于第二特征的值的预定阈值,那么将确定音频信号的部分可能含有密集瞬态事件。
本发明的另一方面涉及对音频信号的一部分进行编码的方法。所述方法可包含确定音频信号的所述部分是否可能含有密集瞬态事件(例如,鼓掌、爆裂的火焰、雨等)。所述方法还可包含如果(例如,仅当)确定音频信号的所述部分可能含有密集瞬态事件,那么使用针对音频信号的所述部分在频率上(例如,在频带上)应用(例如,强加)(大体上)恒定信噪比的量化模式量化音频信号的所述部分。
通过使用此恒定SNR量化模式,可以实现经解码输出音频的改进感知音频质量的方式对含有密集瞬态事件的音频信号进行编码。另一方面,针对音频信号的经确定为含有密集瞬态事件的部分(即,其中检测到密集瞬态事件)有条件地应用恒定SNR量化模式允许避免其它类音频信号(例如音乐和/或语音)的降级。
在实施例中,所述方法还可包含获得(例如,确定、计算或运算)与音频信号的部分的感知熵相关的第一特征的值。随后,所述确定可至少部分地基于(获得的)第一特征的值。
在实施例中,所述方法还可包含使第一特征的值随时间平滑以获得第一特征的经时间平滑值。随后,所述确定可基于第一特征的经时间平滑值。
在实施例中,所述确定可涉及比较第一特征的值与用于第一特征的值的预定阈值。随后,可根据比较的结果确定音频信号的部分是否可能含有密集瞬态事件。举例来说,如果(例如,仅当)第一特征的值高于用于第一特征的值的预定阈值,那么可确定音频信号的部分可能含有密集瞬态事件。
在实施例中,所述确定可(进一步)基于第一特征的值随时间的变化。举例来说,所述确定可基于时间变化,例如随时间的标准偏差,或随时间与平均值的最大偏差。举例来说,所述确定可涉及比较第一特征的值的随时间的变化与所述变化的预定阈值。随后,可根据比较的结果确定音频信号的部分是否可能含有密集瞬态事件。举例来说,如果(例如,仅当)第一特征的值随时间的变化低于所述变化的预定阈值,那么可确定音频信号的部分可能含有密集瞬态事件。在某些实施方案中,可根据第一特征的值的比较和第一特征的变化随时间的变化的比较的结果确定音频信号的部分是否可能含有密集瞬态事件。举例来说,如果(例如,仅当)第一特征的值高于其相应阈值且第一特征随时间的变化低于其相应阈值,那么可确定音频信号的部分可能含有密集瞬态事件。
在实施例中,第一特征可与感知熵成比例。替代地,第一特征可与感知熵的因子(分量)成比例。第一特征的值可在频域(例如,MDCT域)中获得。
在实施例中,所述方法还可包含获得与音频信号的部分的在频域(例如,MDCT域)中的(谱)稀疏性度量相关的第二特征的值。稀疏性度量可通过形状因子给定或与形状因子有关。举例来说,稀疏性度量可与形状因子或感知加权形状因子成比例。所述确定可(进一步)基于第二特征的值。
在实施例中,所述方法还可包含使第二特征的值随时间平滑以获得第二特征的经时间平滑值。所述确定可基于第二特征的经时间平滑值。
在实施例中,所述确定可涉及比较第二特征的值与用于第二特征的值的预定阈值。随后,可根据比较的结果确定音频信号的部分是否可能含有密集瞬态事件。举例来说,如果(例如,仅当)第二特征的值高于用于第二特征的值的预定阈值,那么可确定音频信号的部分可能含有密集瞬态事件。特别地,在上述确定中参考第二特征的值是否高于(即,超过)其阈值的条件假定第二特征经定义以使得其值随着谱密度增加而增加(如同例如形状因子的情况);在相反情况(即,如果第二特征经定义以使得其值随着谱密度增加而减小)下,如果(例如,仅当)第二特征的值低于用于第二特征的值的预定阈值,那么将确定音频信号的部分可能含有密集瞬态事件。
另一方面涉及一种设备(例如,用于对音频信号的一部分进行编码的编码器)。所述设备(例如,编码器)可包含处理器。所述设备还可包含耦合到所述处理器且存储用于由处理器执行的指令的存储器。所述处理器可适于执行根据前述方面和实施例中任一项所述的方法。
另一方面涉及软件程序。所述软件程序可适合于在处理器上实行且当在计算装置上实施时适合于执行本发明中概述的方法步骤。
另一方面涉及一种存储媒体。所述存储媒体可包含适合于在处理器上执行且当在计算装置上实行时执行本发明中概述的方法步骤的软件程序。
又一方面涉及一种计算机程序产品。所述计算机程序可包含当在计算机上执行时执行本发明中概述的方法步骤的可执行指令。
应注意,如本发明中所概述的包含其优选实施例的方法和设备可单独或与本发明中揭示的其它方法和***组合使用。此外,本发明中概述的方法和设备的所有方面可任意组合。确切地说,权利要求书的特征可以任意方式彼此组合。
附图说明
在下文参考附图阐释本发明的实例实施例,其中:
图1是示意性地说明本发明的实施例可应用于的编码器的框图;
图2是示意性地说明对应于图1的编码器的解码器的框图;
图3是说明根据本发明的实施例的对音频信号的一部分进行编码的方法的实例的流程图;
图4是说明图3的方法的变化的实例的流程图;
图5是说明根据本发明的实施例的检测音频信号的一部分中的密集瞬态事件的方法的实例的流程图;
图6是说明图5的方法的变化的实例的流程图;
图7是说明根据本发明的实施例的对音频信号的一部分进行编码的另一方法的实例的流程图;
图8、9、10和11是说明根据本发明的实施例的方法的可行性的直方图;以及
图12A、12B、13A和13B是说明根据本发明的实施例的方法的可行性的曲线图。
具体实施方式
本发明描述用于解决上述问题的两个方案(方法)。分别针对检测密集瞬态事件和包括密集瞬态事件的音频信号部分的编码的这些方案可以个别地采用或彼此结合采用。
广义地说,本发明涉及改进密集瞬态事件音频信号(例如鼓掌、爆裂的火焰、雨等)的音频质量,而不会不利地影响其它类音频信号的音频质量。本发明还试图在编码器侧的低复杂性下以可忽略的存储器占据面积和延迟实现此目标。为此目的,本发明描述了用于使用在感知音频编码器中已经计算的特征检测音频信号(的部分)中的密集瞬态事件的方法。本发明还描述了用于使用特殊恒定信噪比量化噪声整形模式来量化密集瞬态事件音频信号以改进这些密集瞬态音频信号的音频质量的方法。为了避免其它类音频信号的降级,本发明还提出根据音频信号中的密集瞬态事件的检测结果有条件地应用此特殊恒定信噪比量化噪声整形模式。本发明虽然不是专用于但是特别适用于AC-4音频编解码器。
贯穿本发明,音频信号的一部分将意味着音频信号的(例如,在时域中或在频域中)具有特定长度的区段。一个部分可涉及某一数目的样本(例如,脉码调制、PCM、样本)、某一数目的帧,可经定义为延伸特定量的时间(例如,某一数目的毫秒),或可涉及某一数目的频率系数(例如,MDCT系数)。举例来说,音频信号的部分可指示音频信号的帧或音频信号的子帧。此外,音频信号可以包含多于一个声道(例如,立体声配置中的两个声道,或5.1声道、7.1声道等)。在此情况下,音频信号的部分将意味着音频信号的声道中的给定一个声道中的音频信号的具有特定长度的区段,如上文所描述。特别地,本发明适用于多声道音频信号的声道中的任一个或每一个。可并行地或循序地处理多个声道。此外,本发明可应用于部分的序列,且相应部分可由所提出的方法和设备循序地处理。
此外,贯穿本发明,密集瞬态事件将意味着作为(例如,脉冲性)噪声突发而保持的一系列个别、短暂(可测量)事件(例如,鼓掌的拍手、火焰爆裂、雨的飞溅)。在本发明的意义内(且所提出的用于密集瞬态事件的检测器将针对其接通)的密集瞬态信号(密集瞬态事件的信号)将包含每秒20到60个可测量瞬态事件,例如30到50,或通常每秒40个可测量事件。密集瞬态事件中的后续瞬态事件之间的时间间隔可变化。密集瞬态事件不同于音调音频信号(例如音乐)、语音和稀疏瞬态事件(例如响板)。此外,密集瞬态事件可为有噪声的(即,无强、稳定周期性分量)和粗略的(即,具有在20-60Hz范围内调制的振幅)。密集瞬态事件也可被称作声音纹理。密集瞬态事件的实例包含鼓掌、爆裂的火焰、雨、流动的水、嘈杂声和机器等。
图1是本发明的实施例可应用的编码器100(例如,AC-4编码器)的框图。图2是对应解码器200(例如,AC-4解码器)的框图。
编码器100包括滤波器组分析块110、参数译码块120、滤波器组合成块130、时间频率变换块140、量化块150、译码块160、心理声学建模块170和位分配块190。参数译码块120可包括(未示出)参数带宽延伸译码工具(A-SPX)、参数多声道译码工具和用于时间噪声整形的压扩工具。时间频率变换块140、量化块150、心理声学建模块170和位分配块190可称为形成编码器100的音频谱前端(ASF)。本发明可称为涉及编码器100的ASF的实施方案(修改)。确切地说,本发明可称为涉及修改(例如,AC-4的)ACF中的心理声学模型以强加由定位于ASF中的额外检测器导引的不同噪声整形以用于检测密集瞬态事件。然而,本发明不如此受限制,且同样可应用于其它编码器。
编码器100接收输入音频信号10(例如,音频信号的样本,例如PCM样本)作为输入。输入音频信号10可具有一或多个声道,例如可为具有一对声道的立体声信号或5.1声道信号。然而,本发明不应限于任何特定数目的声道。输入音频信号10(例如,音频信号的样本)经受在滤波器组分析块110处的滤波器组分析,例如QMF分析,以获得音频信号的滤波器组表示。无既定限制,在本发明的其余部分中将参考QMF滤波器组。随后,在参数译码块120处执行可涉及带宽延伸和/或声道延伸的参数译码。在滤波器组合成块130处的滤波器组合成(例如,QMF合成)之后,将音频信号提供到时间频率变换块140,在此执行时间频率分析(例如,MDCT分析)。无既定限制,在本发明的其余部分中将参考MDCT作为时间频率变换的实例。MDCT产生频率系数(MDCT系数)的块的序列。频率系数的每一块对应于音频信号的样本块。音频信号的样本的每一块中的样本的数目是通过由MDCT使用的变换长度给出。
随后,在心理声学建模块170处将心理声学模型应用于MDCT系数。心理声学模型可将MDCT系数分组到频带(例如,比例因子带)中,其相应带宽可取决于在频带的中心频率处人类听觉灵敏度的灵敏度。在心理声学建模之后将掩蔽阈值180(例如,心理声学阈值)应用于MDCT系数,且在位分配块190处确定用于每一频带的位分配。为频带分配的位的数目可转换为量化步长大小(例如,比例因子)。随后,根据针对相应频带确定的位分配在量化块150处量化每一频带中的(经掩蔽)MDCT系数,即,根据心理声学模型量化MDCT系数。随后在译码块160处对经量化MDCT系数进行编码。最终编码器100输出可用于存储或传输到解码器的位流(例如,AC-4位流)20。特别地,可针对音频信号的声道中的每一个执行上述在每一块处的操作。
对应解码器200(例如,AC-4解码器)在图2中示出且包括逆译码块260、逆量化块250、立体声和多声道(MC)音频处理块245、逆时间频率变换块240、滤波器组分析块230、逆参数译码块220和滤波器组合成块210。逆参数译码块220包括压扩块222、A-SPX块224和参数多声道译码块226。解码器200接收输入位流(例如,AC-4位流)20且输出用于一或多个声道的输出音频信号(例如,PCM样本)30。解码器200的块逆向执行编码器100的块的相应操作。
特别地,下文所描述的方法中的任一个还可包括将时间频率变换应用于音频信号的部分。在AC-4音频编解码器的实例中,将MDCT应用于音频信号(的部分)。可根据(预先)选择的变换长度将时间频率变换(例如,MDCT)应用于音频信号(的部分)(的样本)(例如,使用由变换长度确定的分析窗;对于MDCT的情况,分析窗由先前、当前和下一MDCT的变换长度确定)。作为输出,这产生频率系数(例如,MDCT系数)的块的序列。所述序列中的频率系数的每一块对应于样本的相应块,其中样本的每一块中的样本的数目由变换长度给出。此外,取决于相关音频编解码器,对应于频率系数的块序列的样本的块可对应于一帧或二分之一帧。此外,在下文所描述的方法中的任一个中,可针对频带(例如,针对所谓的比例因子带,频率子带的群组,例如MDCT行的群组)计算心理声学模型。根据心理声学模型,频带(例如,比例因子带)的所有频率系数(例如,MDCT系数)可以同一比例因子经量化,其中所述比例因子确定量化器步长大小(量化步长大小)。在实际量化之前,可将掩蔽阈值应用于频带以确定应当如何量化给定频带中的频率系数。举例来说,掩蔽阈值可能与其它因素一起决定用于量化的量化步长大小。下文所描述的方法的至少部分涉及选择或修改用于量化的量化参数(例如,掩蔽阈值和比例因子)。如果满足某些条件,那么可选择或修改量化参数以使得应用特定噪声整形方案(例如,以使得强加频率上的恒定SNR)。
图3是说明根据本发明的实施例的对音频信号的部分(例如,帧)进行编码的方法300的实例的流程图。此方法可有利地应用于对音频信号的含有例如鼓掌、爆裂的火焰或雨等密集瞬态事件的部分进行编码。
步骤S310,获得与音频信号的部分的感知熵相关的第一特征的值。举例来说,可能在音频信号的部分的分析后确定、运算或计算第一特征的值。第一特征的值可在频域中(例如,MDCT域中)获得。举例来说,可在频域(例如,MDCT域)中分析音频信号的部分。替代地,也可在时域中获得第一特征的值。举例来说,语音编解码器通常是基于线性预测的时域编解码器。线性预测滤波器系数对信号谱进行建模并且还有语音编解码器中的掩蔽模型是从线性预测系数导出,使得与感知熵相关的特征也可在时域编解码器中导出。
用于确定感知熵的度量的方法在詹姆斯·D·约翰斯顿(James D.Johnston)的“使用噪声掩蔽准则估计感知熵(Estimation of perceptual entropy using noisemasking criteria)”(ICASSP,1988)中描述,此文以全文引用的方式并入本文。其中描述的方法中的任一个可用于本发明的目的。然而,本发明不应限于这些方法,并且其它方法也是可行的。
第一特征可通过音频信号的给定部分的感知熵给定或可与其成比例。
一般来说,感知熵是给定音频信号(的部分)中含有的感知相关信息量的度量。其表示给定音频信号的可压缩性上的理论限制(其条件是要避免音频质量的可感知损失)。如下文将详细说明,感知熵可针对音频信号的部分的MDCT表示中的每一频带来确定,且可大体上称为针对给定频带(例如,比例因子带)取决于所述给定频带的能量谱(能量)与所述给定频带的适用心理声学模型中的心理声学阈值之间的比率。
更详细地,第一特征的值可在心理声学模型中计算,例如以文档3GPP TS 26.403(V1.0.0)章节5.6.1.1.3中描述的方式计算,所述章节以全文引用的方式并入本文。在此心理声学模型中,如下确定感知熵。
首先,经由下式针对每一比例因子带(作为频带的实例)确定感知熵
其中c1=log2(8),c2=log2(2.5),c3=1-c2/c1。第n比例因子带的能量谱(或能量)en如下给出
其中n表示相应比例因子带的指数,X(k)是针对指数k的频率系数(例如,MDCT行)的值,且kOffset(n)是第n比例因子带的最低频率(即,第一)MDCT行的指数。数字nl表示比例因子带中的在量化之后将不是零的行的数目的估计。此数目可经由下式从形状因子ffac(n)导出
形状因子ffac(n)经定义为
在上式中,thr(n)表示用于第n比例因子带的心理声学阈值。确定心理声学阈值thr的一个方法在文档3GPP TS 26.403(V1.0.0)的章节5.4.2中描述,所述章节以全文引用的方式并入本文。
音频信号的给定部分(例如,帧)的总感知熵是比例因子带感知熵的总和,
其中peOffset是恒定值(在一些实施方案中可为零),其可经添加以实现感知熵与对音频信号的部分(例如,帧)进行编码所需要的位数目之间的更线性关系。
应了解,以上针对感知熵的表达式可***成若干组成部分(例如,项和/或因子)。考虑可以使用这些组成部分中的任一个、一些或全部的组合而不是感知熵的完整表达式来获得第一特征的值。
一般来说,在本发明的上下文中给定频带(例如,比例因子带)的感知熵可称为取决于给定频带的能量谱(能量)en与用于给定频带的心理声学阈值thr之间的比率。因此,第一特征可称为取决于给定频带的能量谱(能量)en与用于给定频带的心理声学阈值thr之间的比率。
步骤S320,基于第一特征的值选择用于量化音频信号的部分的量化模式。一般来说,量化模式可称为基于第一特征而选择。这可涉及至少部分地基于第一特征的值确定针对音频信号的部分(例如,针对音频信号的部分的频域表示的例如MDCT系数等频率系数)是否应使用在频率上(例如,针对所有频带)应用(例如,强加)大体上恒定信噪比的量化模式。此量化模式可称为恒定SNR模式、恒定SNR量化模式或恒定SNR量化噪声整形模式。应用恒定SNR量化模式可称为对音频信号的部分应用密集瞬态事件改进(例如,鼓掌改进),或简单地称为应用改进。无既定限制,应用此改进在本发明的其余部分中也可被称作应用修补,此术语并不暗示改进仅具有时间性质。
特别地,应用恒定SNR量化模式是对音频信号进行编码的相当不寻常的选择。如已发现,恒定SNR量化模式适合于量化密集瞬态事件的部分且可产生此类音频信号的合意的听觉结果。然而,在给定情况下应用恒定SNR量化模式可使其它音频信号降级,例如音乐和语音,或具有音乐或语音的密集瞬态事件的组合,这通常需要不恒定的SNR以获得最佳感知质量。此问题通过在步骤S320的用于量化模式的选择过程来解决。
在步骤S320的量化模式的选择可称为对应于修改用于量化音频信号的心理声学模型(例如,修改频率系数,或MDCT系数)以在量化过程中应用(例如,强加)不同的噪声整形。
任选地在此步骤,可使获得的第一特征的值随时间平滑,以避免在步骤S320的选择的不必要的切换。确切地说,通过考虑第一特征的值的经时间平滑版本可避免所述选择的帧到帧切换。在此情况下,所述选择(例如,确定)将至少部分地基于第一特征的经时间平滑值。
如已发现,感知熵是用于区分音频信号的含有密集瞬态事件(例如,鼓掌、爆裂的火焰、雨等)的部分与含有语音或音乐的部分的合适特征。这在图8的直方图中说明。此直方图以及在本发明中论述的剩余直方图经正规化以使得条高度总和为一且使用均匀的区间宽度。在此直方图中,水平轴线指示感知熵的(经时间平滑)度量,且竖直轴线指示感知熵的度量的每区间的项的(经正规化)计数。对于此直方图以及对于本发明中关于感知熵的剩余直方图,每(经编码)AC-4帧的位的估计总数目用作感知熵的度量。然而,根据本发明的方法不限于考虑感知熵的此类度量,且感知熵的其它度量也是可行的。直方图中的区间计数810(暗灰色)涉及已经被手动地分类为鼓掌项(确切地说,通过修补而改进的鼓掌项)的一组音频项,而区间计数820(白色)涉及已经被手动地分类为非鼓掌项(例如,语音或音乐)的一组音频项。如从直方图可见,感知熵对于鼓掌项比对于非鼓掌项一致地更高,使得感知熵可提供所述两类音频项之间的合适区分。
此外,感知熵还是用于区分音频信号的含有密集瞬态事件且通过修补改进的部分和音频信号的含有密集瞬态事件但无法通过修补改进的部分(例如,含有密集瞬态事件但也含有语音和/或音乐的部分)的合适特征。这在图9的直方图中说明,其中水平轴线指示感知熵的(经时间平滑)度量,且竖直轴线指示感知熵的度量的每区间的项的(经正规化)计数。直方图中的区间计数910(暗灰色)涉及已经被手动地分类为通过修补改进的鼓掌项的一组音频项,而区间计数920(白色)涉及已经被手动地分类为未通过修补改进的鼓掌项的一组音频项。如从直方图可见,感知熵对于通过修补改进的鼓掌项比对于未通过修补改进的鼓掌项一致地更高,使得感知熵可提供所述两类音频项之间的合适区分。换句话说,(经时间平滑)感知熵也可用以对与密集瞬态事件(例如鼓掌、爆裂的火焰、雨等)相关的音频项进行细分类。
因此,针对音频信号的部分是否应使用在频率上应用(例如,强加)大体上恒定的信噪比的量化模式的确定可涉及比较第一特征的值(或如果可用,第一特征的经时间平滑值)与用于第一特征的值的预定阈值。此阈值可手动地确定,例如具有确保将音频项可靠分类为鼓掌项(或通过修补改进的鼓掌项)和非鼓掌项的值。在频率上应用(例如,强加)大体上恒定的信噪比的量化模式可根据(例如,取决于)此比较的结果来有条件地选择。举例来说,如果(例如,仅当)第一特征的值(或第一特征的经时间平滑值)高于用于第一特征的预定阈值,那么可选择在频率上应用(例如,强加)大体上恒定的信噪比的量化模式。特别地,作为含有密集瞬态事件的音频项的实例的对鼓掌的参考是无既定限制来做出的,且本发明不应解释为以任何方式受此参考限制。
替代地或另外,所述确定可基于第一特征的值随时间的变化(特别地,将从第一特征的值的未经平滑版本确定所述随时间的变化)。此随时间的变化可为例如随时间的标准偏差或随时间与平均值的最大偏差。一般来说,时间变化可指示第一特征的值的时间变化或时间峰态。
如已发现,感知熵的时间变化还适合于区分音频信号的含有密集瞬态事件(例如,鼓掌、爆裂的火焰、雨等)的部分与含有语音和/或音乐的部分。这在图12A和12B以及图13A和13B的曲线图中说明。
图12A说明鼓掌音频信号(作为密集瞬态事件的音频信号的实例)的不同声道随时间而变的宽带能量(以dB计),图12B说明鼓掌音频信号的不同声道随时间而变的感知熵,图13A说明音乐音频信号的不同声道随时间而变的宽带能量(以dB计),且图13B说明音乐音频信号的不同声道随时间而变的感知熵。如从这些曲线图可见,密集瞬态事件信号(例如,鼓掌信号)在高平均感知熵处具有感知熵的一致地极低标准偏差(相对于时间),而非密集瞬态事件信号可具有感知熵的高突发,但处于较低平均感知熵。因此,从感知熵导出的指示感知熵的时间变化或时间峰态的任何特征还可用以检测密集瞬态事件且区分密集瞬态事件与例如音乐和/或语音。
因此,针对音频信号的部分是否应使用在频率上应用(例如,强加)大体上恒定的信噪比的量化模式的确定可涉及比较第一特征的值随时间的变化与第一特征的值随时间的变化的预定阈值。此阈值还可手动地确定,例如与上文针对用于第一特征的值的阈值陈述的准则一致地确定。随后,可根据(例如,取决于)此比较的结果做出是否选择在频率上应用(例如,强加)大体上恒定的信噪比的量化模式的决策。举例来说,如果(例如,仅当)第一特征的值随时间的变化低于第一特征的值随时间的变化的预定阈值,那么可选择在频率上应用(例如,强加)大体上恒定的信噪比的量化模式。
如上文所指出,可参考第一特征的(经时间平滑)值和第一特征的值随时间的变化中的任一个或两个来确定是否使用恒定SNR量化模式。如果参考两个,那么可根据(例如,取决于)前述与相应阈值的两个比较的结果来做出是否选择在频率上应用(例如,强加)大体上恒定的信噪比的量化模式的决策。举例来说,如果(例如,仅当)第一特征的(经时间平滑)值高于第一特征的值的预定阈值且第一特征的值的时间变化低于第一特征的值随时间的变化的预定阈值,那么可选择针对音频信号的部分应使用在频率上应用(例如,强加)大体上恒定的信噪比的量化模式。
另一方面,如果未满足前述确定的准则,那么此时可选择不在频率上应用大体上恒定SNR(即,对不同频率或频带应用不同SNR)的量化模式。换句话说,取决于是否满足前述确定的准则而有条件地应用恒定SNR量化模式。
步骤S330,使用所选量化模式量化音频信号的部分。更具体地,在此步骤可量化音频信号的部分的频率系数(例如,MDCT系数)。可根据心理声学模型执行量化。此外,量化可涉及噪声整形(即,量化噪声的整形)。如果所选量化模式是在频率上(例如,在频带上)应用(例如,强加)(大体上)恒定SNR的量化模式,那么这可涉及选择适当量化参数,例如掩蔽阈值和/或量化步长大小(例如,比例因子)或适当地修改量化参数,以在频率上(例如,在例如比例因子带的频带上)实现大体上SNR。
特别地,例如在例如AC-4等当前技术发展水平音频编码器的正常编码操作期间计算音频信号(的一部分)的感知熵。因此,为了选择量化模式的目的而依赖于感知熵不会显著增加编码过程的复杂性、延迟和存储器占据面积。
图4是说明图3的方法300的变化400的实例的流程图。
变化400中的步骤S410对应于图3中的方法300的步骤S310,且上文相对于此步骤做出的任何陈述在此也适用。
步骤S415,获得与音频信号的部分在频域中的稀疏性(例如,谱稀疏性)的度量相关的第二特征的值。举例来说,可能在音频信号的部分的分析后确定、运算或计算第二特征的值。第二特征的值可在频域中(例如,MDCT域中)获得。举例来说,可在频域(例如,MDCT域)中分析音频信号的部分。替代地,也可在时域中获得第二特征的值。在奈尔·P·霍利(Niall P.Hurley)和斯科特·T·理查德(Scott T.Rickard)的“比较稀疏性的量度(Comparing Measures of Sparsity)”(http://ieeexplore.ieee.org/xpl/RecentIssue.jsp?punumber=18,卷55,第10期,2009)中描述了稀疏性的若干度量,此文以全文引用的方式并入本文。其中描述的稀疏性度量中的任一个可用于本发明的目的。然而,本发明不应限于这些稀疏性度量,并且其它稀疏性度量也是可行的。
稀疏性度量可通过形状因子给定或与形状因子有关。即,第二特征的值可通过音频信号的部分(在频域中)的形状因子给定或与其有关。举例来说,第二特征的值可与形状因子或感知加权形状因子成比例。感知加权形状因子可称为(预期将)未经量化为零的(例如,每频带)频率系数的数目的估计。
一般来说,形状因子取决于例如针对每一频带的音频信号的一部分的频域表示的频率系数的绝对值的平方根的总和。可通过将所有频带的形状因子求和而获得总体形状因子。用于在AC-4的感知模型的上下文中计算形状因子的方案已在上文步骤S310的讨论的上下文中给定。替代地,感知加权形状因子可用作稀疏性的度量(例如,作为第二特征)。感知加权形状因子的实例通过上文已在S310的上下文中论述的数字nl给出。可通过将所有频带的感知加权形状因子求和而获得总体感知加权形状因子。特别地,对于本公开的其余部分,假设第二特征针对音频信号(的部分)的谱较密集表示具有较高值,且针对音频信号(的部分)的谱较稀疏表示具有较低值。
步骤S420,(至少部分地)基于第一特征的值和第二特征的值选择用于量化音频信号的部分的量化模式。一般来说,量化模式可称为是基于第一特征和第二特征而选择的。这可涉及(至少部分地)基于第一特征的值和第二特征的值确定针对音频信号的部分(例如,针对例如音频信号的部分的频域表示的频率系数,例如MDCT系数)是否应使用在频率上(例如,针对所有频带)应用(例如,强加)大体上恒定信噪比的量化模式。
在步骤S420的量化模式的选择可称为对应于修改用于量化音频信号的心理声学模型(例如,修改频率系数,或MDCT系数)以在量化过程中应用(例如,强加)不同的噪声整形。
任选地在此步骤,可使获得的第二特征的值随时间平滑,以避免在步骤S420的选择的不必要的切换。确切地说,通过考虑第二特征的值的经时间平滑版本可避免所述选择的帧到帧切换。在此情况下,选择(例如,所述确定)将至少部分地基于第一特征的(经时间平滑,如果可用)值和第二特征的经时间平滑值。
还考虑第二特征的值的原因如下。如已发现,单独(经时间平滑)感知熵可能无法在所有情况下都足以区分通过修补改进的密集瞬态事件音频项(例如鼓掌项)和含有密集瞬态事件以及语音(包含欢呼)和/或音乐(且无法通过修补改进)的音频项。这在图10的直方图中说明,其中水平轴线指示感知熵的(经时间平滑)度量,且竖直轴线指示感知熵的度量的每区间的项的(经正规化)计数。直方图中的区间计数1010(暗灰色)涉及已经被手动地分类为通过修补改进的鼓掌项的一组音频项,而区间计数1120(白色)涉及已经被手动地分类为含有语音(包含欢呼)和/或音乐的鼓掌的一组音频项。如从直方图可见,取决于环境,区分这两类音频项可能是困难的。
然而,如还已经发现,频域中的稀疏性(谱稀疏性)是用于区分音频信号的含有密集瞬态事件(例如,鼓掌、爆裂的火焰、雨等)且通过修补改进的部分与含有密集瞬态事件以及语音(包含欢呼)或音乐(且无法通过修补改进)的部分的合适特征。这在图11的直方图中说明,其中水平轴线指示频域中的稀疏性的(经时间平滑)度量,且竖直轴线指示频域中的稀疏性度量的每区间的项的(经正规化)计数。对于此直方图,未经量化为零的频率系数(例如,MDCT行)的估计数目用作频域中的稀疏性的度量。然而,根据本发明的方法不限于考虑频域中的此类稀疏性度量,且频域中的其它稀疏性度量也是可行的。直方图中的区间计数1110(暗灰色)涉及已经被手动地分类为通过修补改进的鼓掌项的一组音频项,而区间计数1120(白色)涉及已经被手动地分类为含有语音(包含欢呼)和/或音乐的鼓掌的一组音频项。如从直方图可见,频域中的稀疏性度量对于鼓掌项比对于与含有语音(包含欢呼)和/或音乐的鼓掌相关的项一致地更高,以使得频域中的稀疏性可提供所述两类音频项之间的合适区分。
因此,除基于第一特征的值的确定(见例如上文描述的步骤S320)之外,针对音频信号的部分是否应使用在频率上应用(例如,强加)大体上恒定信噪比的量化模式的确定还可涉及比较第二特征的值(或如果可用,第二特征的经时间平滑值)与第一特征的值的预定阈值。此阈值可手动地确定为例如具有一值,所述值确保将音频项可靠分类为通过修补改进的鼓掌项和与含有语音(包含欢呼)和/或音乐的鼓掌相关的项。在频率上应用(例如,强加)大体上恒定的信噪比的量化模式可根据(例如,取决于)比较的结果来有条件地选择。举例来说,如果(例如,仅当)第二特征的值(或第二特征的经时间平滑值)高于用于第二特征的预定阈值,那么可选择在频率上应用(例如,强加)大体上恒定的信噪比的量化模式。特别地,作为含有密集瞬态事件的音频项的实例的对鼓掌的参考是无既定限制来做出的,且本发明不应解释为以任何方式受此参考限制。
换句话说,在某些实施方案中,是否选择在频率上应用(例如,强加)大体上恒定信噪比的量化模式的决策可基于第一特征的(经时间平滑)值与其相应阈值的比较的结果和/或第一特征的值的时间变化与其相应阈值的比较的结果,以及第二特征的(经时间平滑)值与其相应阈值的比较的结果。举例来说,可确定如果(例如,仅当)第一特征的(经时间平滑)值高于第一特征的值的预定阈值和/或第一特征的值的时间变化低于第一特征的值的时间变化的预定阈值,且第二特征的(经时间平滑)值高于第二特征的值的预定阈值,那么针对音频信号的部分将使用在频率上应用(例如,强加)大体上恒定信噪比的量化模式。
另一方面,如果未满足前述确定的准则,那么此时可选择不在频率上应用大体上恒定SNR(即,对不同频率或频带应用不同SNR)的量化模式。换句话说,取决于是否满足前述确定的准则而有条件地应用恒定SNR量化模式。
尽管如此,单独依赖于在步骤S420中的第一特征的值(如同例如在方法300中的步骤S320中完成)仍然可产生总体上被视为对用于对密集瞬态事件进行编码的常规技术的改进的听觉结果。
变化400中的步骤S430对应于图3中的方法300的步骤S330,且上文相对于此步骤做出的任何陈述在此也适用。
特别地,例如在例如AC-4等当前技术发展水平音频编码器的正常编码操作期间还计算音频信号(的一部分)的形状因子和感知加权形状因子。因此,依赖于这些特征作为频域中的稀疏性度量以用于选择量化模式不会显著增加编码过程的复杂性、延迟和存储器占据面积。
接下来,将参考图5描述根据本发明的实施例的用于检测音频信号的一部分中的密集瞬态事件(例如,鼓掌、爆裂的火焰、雨等)(例如,用于对音频信号的一部分进行分类以确定所述部分是否可能含有密集瞬态事件)的方法500。此处应了解,如果(例如,仅当)发现所述部分含有密集瞬态事件的概率超过预定概率阈值,那么所述部分可能被分类为含有密集瞬态事件。
变化500中的步骤S510对应于图3中的方法300的步骤S310,且上文相对于此步骤做出的任何陈述在此也适用。
步骤S520,至少部分地基于第一特征的值确定音频信号的部分是否可能含有密集瞬态事件。此步骤对应于在图3中的方法300的步骤S320中至少部分地基于第一特征的值确定针对音频信号的部分是否应使用在频率上(例如,针对所有频带)应用(例如,强加)大体上恒定信噪比的量化模式,不同之处在于此确定被至少部分地基于第一特征的值确定音频信号的部分是否可能含有密集瞬态事件代替。否则,所述确定的细节,具体来说确定准则,与图3中的方法300的步骤S320中相同且上文关于此步骤做出的任何陈述在此也适用。
执行步骤S510和S520的设备或模块可称为用于检测密集瞬态事件的检测器。
在任选的步骤S530,针对音频信号的部分生成元数据。元数据可指示音频信号的部分是否可能含有密集瞬态事件(例如,在步骤S520确定音频信号的部分是否可能含有密集瞬态事件)。为此目的,元数据可包含用于音频信号的每一部分的二进制决策位(例如,旗标),其可在音频信号的部分(确定为)可能含有密集瞬态事件的情况下经设定。
提供此种元数据使得下游装置能够执行关于密集瞬态事件的更高效和/或改进的后处理。举例来说,如果(例如,仅当,或者当且仅当)元数据指示音频信号的给定部分可能含有密集瞬态事件,那么用于密集瞬态事件的特定后处理可针对音频信号的所述部分执行。
然而,步骤S520的确定(分类)的结果还可用于除生成元数据之外的其它目的,且本发明不应被理解为限于生成指示所述确定(分类)的结果的元数据。
图6是说明图5的方法500的变化600的实例的流程图。
变化600中的步骤S610对应于在图5中的方法500的步骤S510(且进而对应于图3中的方法300的步骤S310和图4中的变化400的步骤S410)且上文关于此步骤(或这些步骤)做出的任何陈述在此也适用。
变化600中的步骤S615对应于图4的变化400的步骤S415且上文关于此步骤做出的任何陈述在此也适用。
步骤S620,(至少部分地)基于第一特征的值和第二特征的值确定音频信号的部分是否可能含有密集瞬态事件。此步骤对应于在图4中的变化400的步骤S420中至少部分地基于第一特征的值和第二特征的值确定针对音频信号的部分是否应使用在频率上(例如,针对所有频带)应用(例如,强加)大体上恒定信噪比的量化模式,不同之处在于此确定被(至少部分地)基于第一特征的值和第二特征的值确定音频信号的部分是否可能含有密集瞬态事件代替。否则,所述确定的细节,具体来说确定准则,与图4中的变化400的步骤S420中相同且上文关于此步骤做出的任何陈述在此也适用。
变化600中的步骤S630对应于在图5中的步骤S530且上文关于此步骤做出的任何陈述在此也适用。
接下来,将参考图7的流程图描述根据本发明的实施例的对音频信号的部分(例如,帧)进行编码的另一方法700的实例。此方法可有利地应用于对音频信号的含有例如鼓掌、爆裂的火焰或雨等密集瞬态事件的部分进行编码。
步骤S710,确定音频信号的部分是否可能含有密集瞬态事件(例如,鼓掌、爆裂的火焰、雨等)。此确定可涉及与以下相同的准则和决策:在图3中的方法300的步骤S320中至少部分地基于第一特征的值确定针对音频信号的部分是否应使用在频率上应用大体上恒定信噪比的量化模式,或者在图4中的变化400的步骤S420中至少部分地基于第一特征的值和第二特征的值确定针对音频信号的部分是否应使用在频率上应用大体上恒定信噪比的量化模式。因此,此步骤可包括获得第一特征的值(例如,以参考图3中的方法300的步骤S310描述的方式)和/或获得第二特征的值(例如,以参考图4中的变化400的步骤S415描述的方式)。然而,本发明不限于这些确定,且用于确定音频信号的部分是否可能含有密集瞬态事件的其它过程也是可行的。
步骤S720,如果(例如,仅当)确定音频信号的部分可能含有密集瞬态事件,那么使用针对音频信号的部分在频率上应用(大体上)恒定信噪比的量化模式来量化音频信号的部分。换句话说,取决于音频信号的部分是否经确定为可能含有密集瞬态事件而有条件地应用恒定SNR量化模式。上文已例如参考图3中的方法300的步骤S330描述了应用(大体上)恒定SNR的量化模式。
如上文所指出,针对音频信号的部分在频率上应用(大体上)恒定信噪比的量化模式(恒定SNR量化模式)特别适合于对音频信号的含有密集瞬态事件的部分进行编码。在步骤710的确定确保了音频信号的不适合恒定SNR量化模式的部分不会使用此量化模式进行量化,进而避免此类部分的降级。
应了解,所提出的对音频信号的一部分进行编码和检测音频信号的一部分中的密集瞬态事件的方法可由相应合适的设备(例如,用于对音频信号的一部分进行编码的编码器)实施。此类设备(例如,编码器)可包括适于实行上文描述的相应步骤的相应单元。举例来说,用于执行方法300的此类设备可包括适于执行前述步骤S310(和同样前述步骤S410、S510和S610)的第一特征确定单元、适于执行前述步骤S320的量化模式选择单元,和适于执行前述步骤S330(和同样前述步骤S430和S720)的量化单元。同样,用于执行方法300的变化400的设备可包括第一特征确定单元、适于执行前述步骤S415的第二特征确定单元、适于执行前述步骤S420的经修改量化模式选择单元,和量化单元。用于执行方法500的设备可包括第一特征确定单元、适于执行前述步骤S520的音频内容确定单元,和任选地适于执行前述步骤S530(和同样前述步骤S630)的元数据生成单元。用于执行方法500的变化600的设备可包括第一特征确定单元、第二特征确定单元、适于执行前述步骤S620的经修改音频内容确定单元,和任选地元数据生成单元。用于执行方法700的设备可包括适于执行前述步骤S710的密集瞬态事件检测单元,和量化单元。还应理解,此类设备(例如,编码器)的相应单元可由适于执行由所述相应单元中的每一个实行(即适于实行前述步骤中的每一个)的处理的计算装置的处理器实施。此处理器可耦合到存储用于处理器的相应指令的存储器。
应注意,描述和附图仅说明所提出的方法和设备的原理。因此将了解,本领域的技术人员将能够设计各种布置,尽管本文中未明确地描述或示出所述布置,但所述布置体现本发明的原理且包含在其精神和范围内。此外,本文中所述的所有实例主要明确地意在仅用于教学目的以辅助读者理解所提出的方法和设备的原理及由发明人所提供的概念,从而深化所属领域,且所有实例不应解释为限于此类特定所述实例及条件。此外,本文中叙述本发明的原理、方面和实施例的所有陈述以及其特定实例希望涵盖其等效内容。
本发明中所述的方法和设备可实施为软件、固件和/或硬件。某些组件可例如实施为在数字信号处理器或微处理器上运行的软件。其它组件可例如实施为硬件和/或实施为专用集成电路。所描述方法和设备中遇到的信号可存储于例如随机存取存储器或光学存储媒体等媒体上。所述信号可经由网络传送,如无线电网络、卫星网络、无线网络或有线网络,例如因特网。

Claims (20)

1.一种对音频信号的部分进行编码的方法,所述方法包括:
确定所述音频信号的所述部分是否可能含有密集瞬态事件;以及
如果确定所述音频信号的所述部分可能含有密集瞬态事件,那么使用针对所述音频信号的所述部分在频率上应用大体上恒定信噪比的量化模式来量化所述音频信号的所述部分。
2.根据权利要求1所述的方法,其进一步包括获得与所述音频信号的所述部分的感知熵相关的第一特征的值,其中所述确定是至少部分地基于所述第一特征的所述值。
3.根据权利要求1或2所述的方法,其进一步包括获得与所述音频信号的所述部分的在频域中的稀疏性度量相关的第二特征的值,
其中所述确定进一步基于所述第二特征的所述值。
4.根据权利要求2所述的方法,其进一步包括使所述第一特征的所述值随时间平滑以获得所述第一特征的经时间平滑值,其中所述确定是基于所述第一特征的所述经时间平滑值。
5.根据权利要求2所述的方法,
其中所述确定涉及比较所述第一特征的所述值与用于所述第一特征的所述值的预定阈值;且
如果所述第一特征的所述值高于用于所述第一特征的所述值的所述预定阈值,那么选择在频率上应用所述大体上恒定信噪比的所述量化模式。
6.根据权利要求2所述的方法,其中所述确定是基于所述第一特征的所述值随时间的变化。
7.根据权利要求6所述的方法,
其中所述确定涉及比较所述第一特征的所述值的所述随时间的变化与用于所述变化的预定阈值;且
如果所述第一特征的所述值的所述变化低于用于所述变化的所述预定阈值,那么选择在频率上应用所述大体上恒定信噪比的所述量化模式。
8.根据权利要求3所述的方法,其进一步包括使所述第二特征的所述值随时间平滑以获得所述第二特征的经时间平滑值,其中所述确定是基于所述第二特征的所述经时间平滑值。
9.根据权利要求3所述的方法,
其中所述确定涉及比较所述第二特征的所述值与用于所述第二特征的所述值的预定阈值;且
如果所述第二特征的所述值高于用于所述第二特征的所述值的所述预定阈值,那么选择在频率上应用所述大体上恒定信噪比的所述量化模式。
10.根据权利要求2所述的方法,其中所述第一特征与所述感知熵成比例;且任选地所述第一特征的所述值是在频域中获得。
11.一种对音频信号的部分进行编码的方法,所述方法包括:
获得与所述音频信号的所述部分的感知熵相关的第一特征的值;
基于所述第一特征的所述值选择用于量化所述音频信号的所述部分的量化模式;以及
使用所选择的量化模式量化所述音频信号的所述部分,
其中选择所述量化模式涉及至少部分地基于所述第一特征的所述值确定针对所述音频信号的所述部分是否应使用在频率上应用大体上恒定信噪比的量化模式。
12.根据权利要求11所述的方法,其进一步包括获得与所述音频信号的所述部分的在频域中的稀疏性度量相关的第二特征的值,
其中所述确定进一步基于所述第二特征的所述值。
13.根据权利要求11或12所述的方法,其中所述确定是基于所述第一特征的所述值随时间的变化。
14.根据权利要求11或12所述的方法,其中所述第一特征与所述感知熵成比例;且任选地
所述第一特征的所述值是在频域中获得。
15.一种检测音频信号的部分中的密集瞬态事件的方法,所述方法包括:
获得与所述音频信号的所述部分的感知熵相关的第一特征的值;以及
至少部分地基于所述第一特征的所述值确定所述音频信号的所述部分是否可能含有密集瞬态事件。
16.根据权利要求15所述的方法,其进一步包括生成用于所述音频信号的所述部分的元数据,其中所述元数据指示所述音频信号的所述部分是否可能含有密集瞬态事件。
17.根据权利要求15或16所述的方法,其进一步包括获得与所述音频信号的所述部分的在频域中的稀疏性度量相关的第二特征的值,
其中所述确定进一步基于所述第二特征的所述值。
18.根据权利要求15或16所述的方法,其中所述确定是基于所述第一特征的所述值随时间的变化。
19.根据权利要求15或16所述的方法,其中所述第一特征与所述感知熵成比例;且任选地
所述第一特征的所述值是在频域中获得。
20.一种设备,其包括处理器和耦合到所述处理器且存储用于由所述处理器执行的指令的存储器,其中所述处理器适于执行根据权利要求1到19中任一权利要求所述的方法。
CN201880049530.1A 2017-07-03 2018-07-03 低复杂性密集瞬态事件检测和译码 Active CN110998722B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762528198P 2017-07-03 2017-07-03
US62/528,198 2017-07-03
EP17179316 2017-07-03
EP17179316.9 2017-07-03
PCT/EP2018/067970 WO2019007969A1 (en) 2017-07-03 2018-07-03 DETECTION AND CODING OF LOW COMPLEXITY DENSED TRANSIENT EVENTS

Publications (2)

Publication Number Publication Date
CN110998722A CN110998722A (zh) 2020-04-10
CN110998722B true CN110998722B (zh) 2023-11-10

Family

ID=62716090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880049530.1A Active CN110998722B (zh) 2017-07-03 2018-07-03 低复杂性密集瞬态事件检测和译码

Country Status (4)

Country Link
US (1) US11232804B2 (zh)
EP (1) EP3649640A1 (zh)
JP (1) JP7257975B2 (zh)
CN (1) CN110998722B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
US6799164B1 (en) * 1999-08-05 2004-09-28 Ricoh Company, Ltd. Method, apparatus, and medium of digital acoustic signal coding long/short blocks judgement by frame difference of perceptual entropy
CN101351840A (zh) * 2005-11-03 2009-01-21 科丁技术公司 对音频信号的时间伸缩改进变换编码

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995030193A1 (en) * 1994-04-28 1995-11-09 Motorola Inc. A method and apparatus for converting text into audible signals using a neural network
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
AU2012208987B2 (en) 2004-03-01 2012-12-20 Dolby Laboratories Licensing Corporation Multichannel Audio Coding
DE102004009949B4 (de) 2004-03-01 2006-03-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln eines Schätzwertes
US7302451B2 (en) 2004-05-07 2007-11-27 Mitsubishi Electric Research Laboratories, Inc. Feature identification of events in multimedia
RU2393646C1 (ru) 2006-03-28 2010-06-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Усовершенствованный способ для формирования сигнала при восстановлении многоканального аудио
ATE496365T1 (de) 2006-08-15 2011-02-15 Dolby Lab Licensing Corp Arbiträre formung einer temporären rauschhüllkurve ohne nebeninformation
US8352279B2 (en) 2008-09-06 2013-01-08 Huawei Technologies Co., Ltd. Efficient temporal envelope coding approach by prediction between low band signal and high band signal
EP2375410B1 (en) 2010-03-29 2017-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. A spatial audio processor and a method for providing spatial parameters based on an acoustic input signal
SG188254A1 (en) 2010-08-25 2013-04-30 Fraunhofer Ges Forschung Apparatus for decoding a signal comprising transients using a combining unit and a mixer
WO2012037515A1 (en) * 2010-09-17 2012-03-22 Xiph. Org. Methods and systems for adaptive time-frequency resolution in digital data coding
EP2477188A1 (en) 2011-01-18 2012-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding of slot positions of events in an audio signal frame
TWI476760B (zh) 2011-02-14 2015-03-11 Fraunhofer Ges Forschung 用以使用暫態檢測及品質結果將音訊信號的部分編碼之裝置與方法
JP5633431B2 (ja) * 2011-03-02 2014-12-03 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
EP2721610A1 (en) 2011-11-25 2014-04-23 Huawei Technologies Co., Ltd. An apparatus and a method for encoding an input signal
US8527264B2 (en) 2012-01-09 2013-09-03 Dolby Laboratories Licensing Corporation Method and system for encoding audio data with adaptive low frequency compensation
WO2013184520A1 (en) 2012-06-04 2013-12-12 Stone Troy Christopher Methods and systems for identifying content types
US9293146B2 (en) 2012-09-04 2016-03-22 Apple Inc. Intensity stereo coding in advanced audio coding
US9830917B2 (en) 2013-02-14 2017-11-28 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
KR102231755B1 (ko) 2013-10-25 2021-03-24 삼성전자주식회사 입체 음향 재생 방법 및 장치
EP4293666A3 (en) 2014-07-28 2024-03-06 Samsung Electronics Co., Ltd. Signal encoding method and apparatus and signal decoding method and apparatus
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
US10861475B2 (en) 2015-11-10 2020-12-08 Dolby International Ab Signal-dependent companding system and method to reduce quantization noise
US20170178648A1 (en) * 2015-12-18 2017-06-22 Dolby International Ab Enhanced Block Switching and Bit Allocation for Improved Transform Audio Coding

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
US6799164B1 (en) * 1999-08-05 2004-09-28 Ricoh Company, Ltd. Method, apparatus, and medium of digital acoustic signal coding long/short blocks judgement by frame difference of perceptual entropy
CN101351840A (zh) * 2005-11-03 2009-01-21 科丁技术公司 对音频信号的时间伸缩改进变换编码

Also Published As

Publication number Publication date
JP7257975B2 (ja) 2023-04-14
JP2020525853A (ja) 2020-08-27
EP3649640A1 (en) 2020-05-13
CN110998722A (zh) 2020-04-10
US20200126572A1 (en) 2020-04-23
US11232804B2 (en) 2022-01-25

Similar Documents

Publication Publication Date Title
US8983851B2 (en) Noise filer, noise filling parameter calculator encoded audio signal representation, methods and computer program
CA2657420C (en) Systems, methods, and apparatus for signal change detection
CN108831501B (zh) 用于带宽扩展的高频编码/高频解码方法和设备
CN105264597B (zh) 感知转换音频编码中的噪声填充
CN109313908B (zh) 用于对音频信号进行编码的音频编码器以及方法
KR20080093074A (ko) 오디오신호들의 분류
KR20010021226A (ko) 디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체
CN111968655B (zh) 信号编码方法和装置以及信号解码方法和装置
US11335355B2 (en) Estimating noise of an audio signal in the log2-domain
CN115171709A (zh) 语音编码、解码方法、装置、计算机设备和存储介质
US20080255860A1 (en) Audio decoding apparatus and decoding method
CN111587456B (zh) 时域噪声整形
CN110998722B (zh) 低复杂性密集瞬态事件检测和译码
JP7447085B2 (ja) コンパンディングによる密過渡イベントの符号化
WO2019007969A1 (en) DETECTION AND CODING OF LOW COMPLEXITY DENSED TRANSIENT EVENTS
WO2019173195A1 (en) Signals in transform-based audio codecs
KR102424897B1 (ko) 상이한 손실 은닉 도구들의 세트를 지원하는 오디오 디코더

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant