CN101223576A - 从音频信号提取重要频谱分量的方法和设备以及使用其的低比特率音频信号编码和/或解码方法和设备 - Google Patents

从音频信号提取重要频谱分量的方法和设备以及使用其的低比特率音频信号编码和/或解码方法和设备 Download PDF

Info

Publication number
CN101223576A
CN101223576A CNA2006800259202A CN200680025920A CN101223576A CN 101223576 A CN101223576 A CN 101223576A CN A2006800259202 A CNA2006800259202 A CN A2006800259202A CN 200680025920 A CN200680025920 A CN 200680025920A CN 101223576 A CN101223576 A CN 101223576A
Authority
CN
China
Prior art keywords
isc
audio signal
spectral
signal
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006800259202A
Other languages
English (en)
Other versions
CN101223576B (zh
Inventor
金重会
吴殷美
康斯坦丁·奥斯波夫
波利斯·库德里亚索夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Priority to CN201210441382.2A priority Critical patent/CN103106902B/zh
Publication of CN101223576A publication Critical patent/CN101223576A/zh
Application granted granted Critical
Publication of CN101223576B publication Critical patent/CN101223576B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一种提取具有重要频谱分量(ISC)的音频信号的方法和设备、以及使用该提取ISC的方法和设备的低比特率音频信号编码/解码方法。提取ISC的方法包括:通过使用心理模型计算包括变换的频谱音频信号的SMR(信号掩蔽比)值的感知重要性,使用SMR值将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一ISC;根据预定权重因数从选作为ISC的频谱音频信号提取频谱峰值以选择第二ISC。因此,可有效地对感知重要频谱分量编码,从而获得低比特率的高声音质量。此外,通过使用心理模型能够提取感知重要频谱分量,能够无需相位信息执行编码,并且能够有效地表示低比特率的频谱信号。此外,该方法和设备可被应用到需要低比特率音频编码方案的所有应用中以及下一代音频方案中。

Description

从音频信号提取重要频谱分量的方法和设备以及使用其的低比特率音频信号编码和/或解码方法和设备
本申请要求于2005年7月15日提交到韩国知识产权局的第10-2005-0064507号韩国专利申请的利益,该申请公开于此以资参考。
                        技术领域
本发明总体发明构思涉及一种音频信号编码和/或解码***,更具体地讲,涉及一种提取音频信号的重要频谱分量的方法和设备以及使用其的对低比特率音频信号编码和解码的方法和设备。
                        背景技术
“MPEG(运动图像专家组)音频”是用于高质量高性能立体声编码的ISO/IEC标准。MPEG音频与运动图像编码根据MPEG的ISO/IEC SC29/WG11一起被标准化。对于MPEG音频,基于32个频带的子带编码(频带分解编码)和改进离散余弦变换(MDCT)用于压缩,具体地讲,通过使用心理特征执行高性能压缩。与传统压缩编码方案相比,MPEG音频可实现高质量的声音。
为了高性能地压缩音频信号,MPEG音频利用“感知编码”压缩方案以减小音频信号的压缩量,在该“感知编码”压缩方案中,通过使用感测音频信号的人类的敏感特性来去除详细的低敏感信息。
此外,在MPEG音频中,无声阶段的最小可听限制和掩蔽特性主要用于使用听觉心理特征的感知编码。无声阶段的最小可听限制是听觉可感知的声音的最小级别。最小可听限制与在无声阶段听觉可感知的噪声的限制有关。最小可听限制根据声音的频率改变。在一些频率,可听到比最小可听限制高的声音,但是在另一些频率,可能不会听到比最小可听限制低的声音。此外,特定声音的感测限制可根据与该特定声音一起听到的其他声音大大改变。这被称为“掩蔽效应”。发生掩蔽效应的频率的宽度被称为临界带。为了有效地利用听觉心理特征(例如,临界带),将声音信号分解为频谱分量很重要。为此,频带被分为32个子带,随后执行子带编码。另外,在MPEG音频中,滤波器组用于消除32个子带的混叠噪声。
                    发明内容
                    技术问题
MPEG音频包括使用滤波器组和心理模型的比特分配和量化。通过MDCT产生的系数分配有最佳量化比特,并且通过使用心理模型2被压缩。用于分配最佳比特的心理模型2通过使用扩散函数基于FFT来估计掩蔽效应。因此,需要相对大量的复杂度。
通常,对于低比特率(32kbps或更少)音频信号的压缩,可分配给信号的比特数不足以量化音频信号的所有频谱分量及其无损编码。因此,需要提取感知的重要频谱分量(ISC)和量化及其无损编码。
                    技术方案
本发明总体发明构思提供一种从音频信号提取重要频谱分量以低比特率压缩音频信号的方法和设备。
本发明总体发明构思还提供一种使用从音频信号提取重要频谱分量的方法和设备的低比特率音频信号编码方法和设备。
本发明总体发明构思还提供一种对通过低比特率音频信号编码方法和设备编码的低比特率音频信号解码的低比特音频信号解码方法和设备。
将在接下来的描述中部分阐述本发明另外的方面和优点,还有一部分通过描述将是清楚的,或者可以经过本发明总体发明构思的实施而得知。
可通过提供一种提取音频信号的重要频谱分量(ISC)的方法来实现本发明总体发明构思的前述和/或其他方面和优点,该方法包括:通过使用心理模型计算包括变换的频谱音频信号的信号掩蔽比(SMR)值的感知重要性,使用SMR值将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一ISC;根据预定权重因数从选作为第一ISC的频谱音频信号提取频谱峰值以选择第二ISC。可通过使用权重因数将被获得的当前信号的频率附近的预定数量的频谱值获得权重因数。
该方法还可包括获得频带的SNR(信噪比);和将具有低SNR的频带中峰值大于预定值的频谱分量选作为ISC。
还可通过提供一种提取音频信号的重要频谱分量(ISC)的方法来实现本发明总体发明构思的前述和/或其他方面和优点,该方法包括:通过使用心理模型计算包括变换的频谱音频信号的SMR(信号掩蔽比)值的感知重要性;使用SMR将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一ISC;和获得选作为第一ISC的频谱音频信号中的频带的SNR以将具有低SNR的频带中峰值大于预定值的频谱分量的频谱音频信号选作为另一ISC。
还可通过提供一种低比特率音频信号编码方法来实现本发明总体发明构思的前述和/或其他方面和优点,该方法包括:通过使用心理模型计算包括频谱音频信号的SMR(信号掩蔽比)值的感知重要性;使用SMR值将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一ISC;和根据预定权重因数从选作为第一ISC的频谱音频信号提取频谱峰值,并将具有该频谱峰值的频率的频谱音频信号选作为第二ISC;和对具有第二ISC的频谱音频信号执行量化和无损编码。提取频谱峰值的步骤可包括:获得频带的SNR(信噪比),并且通过使用SNR将具有低SNR的频带中峰值大于预定值的频谱分量选作为第三ISC。低比特率音频信号编码方法还可包括:通过使用MDCT(改进离散余弦变换)和MDST(改进离散正弦变换)来将时域音频信号变换为频谱音频信号以产生频谱音频信号。对ISC音频信号执行量化的步骤可包括:根据使用的比特量和量化误差将音频信号分成多个组以最小化附加信息;根据SMR(信号掩蔽比)和所述多组的动态范围的数据分布确定量化步长;和通过使用所述多组的一个或多个预定量化器对音频信号量化。可通过使用采用组的最大值规格化的值和量化步长确定量化器。量化可以是Max-LIoyd量化。
对量化的信号执行无损编码的步骤可包括:上下文算术编码。执行上下文算术编码的步骤可包括:采用指示ISC的存在的频谱索引表示组成帧的频谱分量;和根据与先前帧的相关性和相邻ISC的分布选择随机模型,以对音频信号的量化值以及包括量化器信息、量化步骤、分组信息和频谱索引值的附加信息执行无损编码。
还可通过提供一种低比特率音频信号编码方法来实现本发明总体发明构思的前述和/或其他方面和优点,该方法包括:通过使用心理模型计算包括频谱音频信号的SMR(信号掩蔽比)值的感知重要性;使用SMR值将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱信号选作为第一ISC;获得选作为第一ISC的频谱音频信号中的频带的SNR,并且使用SNR将具有低SNR的频带中峰值大于预定值的频谱分量选作为另一ISC;和对于具有另一ISC的频谱音频信号执行量化和无损编码。
还可通过提供一种提取音频信号ISC(重要频谱分量)的设备来实现本发明总体发明构思的前述和/或其他方面和优点,该设备包括:心理建模单元,通过使用心理模型计算包括变换的频谱音频信号的SMR(信号掩蔽比)值的感知重要性;第一ISC选择单元,使用SMR将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一ISC;和第二ISC选择单元,根据预定权重因数从选作为第一ISC的频谱音频信号提取频谱峰值并选择第二ISC。可通过使用权重因数将被获得的当前信号的频率附近的预定数量的频谱值获得第二ISC选择单元的权重因数。该设备还可包括:第三ISC选择单元,获得频带的SNR(信噪比),并通过使用SNR将具有低SNR的频带中峰值大于预定值的频谱分量选作为第三ISC。
还可通过提供一种提取音频信号ISC(重要频谱分量)的设备来实现本发明总体发明构思的前述和/或其他方面和优点,该设备包括:心理建模单元,通过使用心理模型计算包括变换的频谱音频信号的SMR(信号掩蔽比)值的感知重要性;第一ISC选择单元,使用SMR将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一ISC;和另一ISC选择单元,获得选作为第一ISC的频谱音频信号中的频带的SNR,并且使用SNR将具有低SNR的频带中峰值大于预定值的频谱分量选作为另一ISC。
还可通过提供一种低比特音频信号编码提取设备来实现本发明总体发明构思的前述和/或其他方面和优点,该设备包括:心理建模单元,通过使用心理模型计算包括变换的频谱音频信号的SMR(信号掩蔽比)值的感知重要性;第一ISC(重要频谱分量)选择单元,使用SMR值将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一ISC;第二ISC选择单元,根据预定权重因数从选作为第一ISC的频谱音频信号提取频谱峰值并且选择第二ISC;量化器,对具有第二ISC的频谱音频信号量化;和无损编码器,对量化的信号执行无损编码。
低比特率音频信号编码设备还可包括:第三ISC选择单元,获得频带的SNR(信噪比),并且使用SNR将具有低SNR的频带中峰值大于预定值的频谱分量选作为第三ISC。
低比特率音频信号编码设备还可包括:T/F变换单元,通过使用MDCT(改进离散余弦变换)和MDST(改进离散正弦变换)来将时域音频信号变换为频谱音频信号。
量化器可包括:分组单元,根据使用的比特量和量化误差将频谱音频信号分为多个组以最小化附加信息;量化步长确定单元,根据SMR(信号掩蔽比)和所述多个组的数据分布(动态范围)确定量化步长;和组量化器,通过使用所述多组的预定量化器对频谱音频信号量化。组量化器的量化可以是Max-LIoyd量化,无损编码器的无损编码可以是上下文算术编码。
无损编码器可包括:索引单元,采用指示ISC的存在的频谱索引表示组成帧的频谱分量;随机模型无损编码器,根据与先前帧的相关性和相邻ISC的分布选择随机模型,并且对频谱音频信号的量化值以及包括量化器信息、量化步长、分组信息和频谱索引值的附加信息执行无损编码。
还可通过提供一种低比特音频信号编码设备来实现本发明总体发明构思的前述和/或其他方面和优点,该设备包括:心理建模单元,通过使用心理模型计算包括变换的频谱音频信号的SMR(信号掩蔽比)值的感知重要性;第一ISC(重要频谱分量)选择单元,使用感知重要性将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一ISC;另一ISC选择单元,获得选作为第一ISC的频谱音频信号中的频带的SNR,并且通过使用SNR将具有低SNR的频带中峰值大于预定值的频谱分量选作为另一ISC;和量化器,对具有所述另一ISC的频谱音频信号量化;和无损编码器,对量化的信号执行无损编码。
还可通过提供一种低比特音频信号解码方法来实现本发明总体发明构思的前述和/或其他方面和优点,该方法包括:恢复指示ISC(重要频谱分量)的存在的索引信息、量化器信息、量化步长、ISC分组信息和音频信号量化值;参照恢复的量化器信息、量化步长和分组信息对音频信号执行逆量化;和将逆量化的值变换为时域信号。
还可通过提供一种低比特音频信号解码设备来实现本发明总体发明构思的前述和/或其他方面和优点,该设备包括:无损解码器,提取用于帧的随机模型信息,并且通过使用该随机模型信息恢复指示ISC(重要频谱分量)的存在的索引信息、量化器信息、量化步长、ISC分组信息和音频信号量化值;逆量化器,参照恢复的量化器信息、量化步长和分组信息执行逆量化;和F/T变换单元,将逆量化的值变换为时域信号。
还可通过提供一种实现用于执行以下方法的计算机程序的计算机可读介质来实现本发明总体发明构思的前述和/或其他方面和优点,该方法包括:根据心理模型计算包括变换的频谱音频信号的信号掩蔽比(SMR)值的感知重要性,使用感知重要性将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为一个或多个第一重要频谱分量(ISC);根据预定权重因数从选作为一个或多个第一ISC的频谱音频信号提取频谱峰值以选择将被用于对频谱音频信号编码的一个或多个第二ISC。
还可通过提供一种实现用于执行以下方法的计算机程序的计算机可读介质来实现本发明总体发明构思的前述和/或其他方面和优点,该方法包括:对音频信号恢复指示重要频谱分量(ISC)的存在的索引信息、量化器信息、量化步长、ISC分组信息和音频信号量化值;根据恢复的量化器信息、量化步长和分组信息对音频信号执行逆量化;和将逆量化的信号变换为时域信号。
还可通过提供一种音频信号编码和/或解码***来实现本发明总体发明构思的前述和/或其他方面和优点,该***包括:编码器,根据频带的信号掩蔽比(SMR)值、以及权重因数和信噪比(SNR)中的一个选择具有一个或多个重要频谱分量(ISC)的频谱音频信号,并且根据关于选择的ISC的信息对频谱音频信号编码;和解码器,根据所述信息对编码频谱音频信号解码。
还可通过提供一种音频信号编码和/或解码***来实现本发明总体发明构思的前述和/或其他方面和优点,该***包括:编码器,根据频带的信号掩蔽比(SMR)值、以及权重因数和信噪比(SNR)中的一个选择具有一个或多个重要频谱分量(ISC)的频谱音频信号,并且根据关于选择的ISC的信息对频谱音频信号编码。
还可通过提供一种音频信号编码和/或解码***来实现本发明总体发明构思的前述和/或其他方面和优点,该***包括:解码器,根据关于ISC的信息对编码的音频信号解码。可根据频谱音频信号的频带的信号掩蔽比(SMR)值、以及权重因数和信噪比(SNR)中的一个获得ISC。
                        附图说明
通过下面结合附图对实施例进行的详细描述,本发明总体发明构思的这些和/其他方面和优点将会变得更加清楚和更易于理解,其中:
图1是示出根据本发明总体发明构思的实施例的从输入的音频信号提取重要频谱分量以按低比特率压缩音频信号的设备的框图;
图2是示出根据本发明总体发明构思的实施例的从输入的音频信号提取重要频谱分量以按低比特率压缩音频信号的方法的流程图;
图3是示出根据本发明总体发明构思的实施例的从输入的音频信号提取重要频谱分量以按低比特率压缩音频信号的方法的示意图;
图4是示出根据本发明总体发明构思的实施例的使用从输入的音频信号提取重要频谱分量的设备按低比特率压缩音频信号的低比特率音频信号编码设备的构造的框图;
图5是示出图4的设备的量化器的框图;
图6是示出图4的设备的无损编码单元的框图;
图7是示出根据本发明总体发明构思的实施例的使用从音频信号提取重要频谱分量的方法的低比特率音频信号编码方法的流程图;
图8是示出图7的方法的ISC量化的详细流程图;
图9是示出根据本发明总体发明构思的实施例的对通过使用从音频信号提取重要频谱分量的设备编码的低比特率音频信号进行解码的低比特率音频信号解码设备的框图;和
图10是示出根据本发明总体发明构思的实施例的对通过使用提取音频信号的重要频谱分量的设备编码的低比特率音频信号进行解码的低比特率音频信号解码方法的流程图。
                    具体实施方式
现在将对本发明总体发明构思的实施例进行详细参照,其示例在附图中表示,在整个附图中,相同的标号始终表示相同的部件。以下通过参考附图描述实施例以解释本发明总体发明构思。
图1是示出根据本发明总体发明构思的实施例的从输入的音频信号提取重要频谱分量(ISC)以按低比特率压缩音频信号的设备的框图。音频信号ISC提取设备包括心理建模单元100和ISC选择单元150。
心理建模单元100对根据心理特征变换的频谱音频信号计算信号掩蔽比(SMR)值。通过使用改进离散余弦变换(MDCT)和改进离散正弦变换(MDST)(而不是离散傅立叶变换(DFT))产生输入到心理建模单元100的频谱音频信号。由于MDCT和MDST分别代表音频信号的实部和虚部,因此可表示音频信号的相位信息。因此,可解决DFT和MDCT之间不匹配的问题。当通过使用经受了DFT的时域音频信号量化MDCT的系数时发生不匹配的问题。
ISC选择单元150通过使用SMR值从音频信号选择ISC。ISC选择单元150包括第一ISC选择器152、第二ISC选择器154和第三ISC选择器156以分别选择一个或多个第一ISC、第二ISC和第三ISC。一个或多个第一ISC、第二ISC和/或第三ISC可被称为ISC。
第一ISC选择器152通过使用由心理建模单元100计算的SMR值选择掩蔽阈值小于频谱音频信号的掩蔽阈值的一个或多个频谱信号作为一个或多个第一重要频谱分量(ISC)。
第二ISC选择器154根据预定权重因数通过从在第一ISC选择器152中选作为一个或多个第一ISC的音频信号提取频谱峰值来选择一个或多个第二ISC。
在一个或多个第一ISC中搜索频谱峰值。基于信号的大小确定频谱峰值。由经过MDCT和MDST变换的信号的实部平方加上虚部平方的根来定义信号的大小。通过使用该信号附近的频谱值获得该信号的权重因数。通过使用当前信号(当前信号的权重因数将被获得)的频率附近的预定数量的频谱值来获得第二ISC选择器154中的权重因数。可通过使用等式1获得该权重因数。
等式1
W k = | SC k | Σ i = k - len k - 1 | SC i | + Σ j = k + 1 k + len | SC j |
这里,|SCk|表示权重因数将被获得的当前信号的大小,|SCi|和|SCj|表示当前信号附近的信号的大小。此外,len表示当前信号附近的信号的数量。
基于该信号的峰值和权重因数选择第二ISC。例如,峰值和权重因数的乘积与预定阈值进行比较以仅选择大于该阈值的值作为第二ISC。
第三ISC选择器156对音频信号执行信噪比(SNR)均衡。也就是,该音频信号的频谱分量被分为频带,并且获得这些频带的SNR,在具有低SNR的频带中,峰值大于预定值的频谱分量被选作为一个或多个第三ISC。执行这种操作来防止ISC集中在特定频带上。换句话说,在具有低SNR的频带中选择主要峰值,从而在整个频带中这些频带的SNR近似相等。其结果是,具有低SNR的频带的SNR值增加,从而整个频带的SNR值近似相等。
组成ISC选择单元150的第一ISC选择器152、第二ISC选择器154和第三ISC选择器156可选择性地用于提取具有感知的重要频谱分量(ISC)的音频信号。例如,仅第一ISC选择器152和第二ISC选择器154可被使用。然而,仅第一ISC选择器152和第三ISC选择器156可被使用。否则,所有的第一ISC选择器152、第二ISC选择器154和第三ISC选择器156都可被使用。因此,可从音频信号提取第一ISC、第二ISC和/或第三ISC以被用作ISC,从而在音频信号的所有频谱分量的量化和/或其无损编码中使用提取的ISC压缩音频信号。
图2是示出根据本发明总体发明构思的实施例的提取音频信号的重要频谱分量以按低比特率压缩音频信号的方法的流程图。参照图1和图2,通过使用心理模型计算变换到频域的音频信号的SMR值(操作200)。接下来,通过使用SMR值,在掩蔽阈值低于频域中的音频信号的掩蔽阈值的频谱信号被选作为第一SIC(操作220)。
根据预定权重因数从选作为第一ISC的音频信号提取频谱峰值并将该频谱峰值选作为第二ISC(操作240)。可通过使用当前信号(当前信号的权重因数将被获得)的频率附近的预定频率的频谱值来获得权重因数。操作240可以与前述图1的第二ISC选择器154的操作相同。因此,省略对其的描述。
通过执行SNR均衡选择频率(或频带)的第三ISC(操作260)。也就是,音频信号的频谱分量被分为频带,获得频带的SNR,并且在具有低SNR的频带中,峰值大于预定值的频谱分量被选作为第三ISC。第一ISC、第二ISC和第三ISC可被统称为ISC。如上所述,执行这种操作来防止ISC集中在特定频带上。换句话说,在具有低SNR的频带中选择主要峰值,从而在整个频带中,具有低SNR的频带的SNR近似相等。其结果是,具有低SNR的频带的SNR值增加,从而整个频带的SNR值近似相等。
另一方面,可选择地使用操作220至260中的ISC提取。例如,仅操作200和200可被用于提取ISC。然而,仅操作200和260可用于提取ISC。否则,所有的操作200、240和260可用于提取ISC。
图3是示出根据本发明总体发明构思的实施例的从输入的音频信号提取重要频谱分量以按低比特率压缩音频信号的方法的示意图。参照图2和图3,例如使用MDCT和MDST将输入的音频信号变换为频谱音频信号,并且根据与可听见信号和听不见信号相应的心理模型的心理特征计算与变换的频谱音频信号相应的信号掩蔽比(SMR)值。可根据SNR值、权重因数(或权重最大值)和/或SNR均衡获得具有第一ISC、第二ISC和/或第三ISC的频谱音频信号。
图4是示出根据本发明总体发明构思的实施例的使用提取音频信号的重要频谱分量的设备的低比特率音频信号编码设备的构造的框图。低比特率音频信号编码设备包括ISC提取器420、量化器440和无损编码器460。低比特率音频信号编码设备还可包括T/F变换单元400。
参照图1和图4,T/F变换单元400通过使用改进离散余弦变换(MDCT)和改进离散正弦变换(MDST)将时域音频信号变换为频谱信号(频谱音频信号)。通过使用MDCT和MDST(而不是离散傅立叶变换(DFT))产生输入给ISC提取器420的心理模型的频谱音频信号。通过这样做,MDCT和MDST代表实部和虚部,从而可另外表示音频信号的相位分量。因此,可解决DFT和MDST不匹配的问题。当通过使用经过DFT的时域音频信号量化MDCT的系数时发生不匹配问题。
ISC提取器420从频谱音频信号提取具有ISC的音频信号。ISC提取器420可以与图1的音频信号ISC提取设备相同,因此省略对其的描述。也就是,ISC提取器420包括心理建模单元100和ISC选择单元150来选择具有ISC的音频信号。
量化器440量化ISC的音频信号。如图5所示,量化器440包括分组单元442、量化步长确定单元444和量化器446。
分组单元442根据使用的比特量和量化误差执行分组以最小化附加信息。下面执行对选择的ISC的量化。首先,根据比率失真对选择的ISC执行分组以最小化附加信息。比率失真表示使用的比特量和量化误差之间的关系。使用的比特量和量化误差可交替换位。也就是,如果使用的比特量增加,则量化误差减少。
相反,如果使用的比特量减少,则量化误差增加。选择的ISC被分组,并且分组的成本被计算。执行分组从而降低成本。
各组可以形成为相同,并且可以合并,从而降低频带的成本。此外,如等式2所示,通过将各组所需的比特数和关于比特数的附加信息相加来获得成本。
等式2
成本=qbit+附加信息[比特数]
这里,qbit表示每一组所需的比特数,附加信息包括缩放因数、量化信息等。
当完成分组时,量化步长确定单元444根据SMR和各组的数据分布(动态范围)确定量化步长。此外,采用组成该组的ISC的最大值将该ISC规格化。
量化器446量化组的音频信号。通过使用采用组的ISC的最大值规格化的值和量化步长来确定量化器446。
量化可以是Max-LIoyd量化。
无损编码器460对量化的信号执行无损编码。如图6所示,无损编码器460包括索引单元462和随机模型无损编码器464。无损编码可以是上下文算术编码。
索引单元462产生一个或多个频谱索引以代表构成每一帧的频谱分量。频谱索引指示ISC的存在。通过使用上下文算术编码对ISC的频谱信息编码。更具体地讲,通过代表ISC的选择的频谱索引设置构成每一帧的频谱分量。频谱索引可以是具有代表ISC的存在或不存在的0或1的信号。
随机模型无损编码器464根据与先前帧的相关性和相邻ISC的分布选择随机模型,并且对音频信号的量化值和附加信息(包括量化器信息、量化步长、分组信息和频谱索引信息)执行无损编码。
图7是示出根据本发明总体发明构思的实施例的使用音频信号ISC提取方法的低比特率音频信号编码方法的流程图。
参照图4和图7,通过使用改进离散余弦变换(MDCT)和改进离散正弦变换(MDST)来将时域音频信号变换为频谱信号(操作700)。变换的频谱音频信号被输入到心理模型。在心理模型中,计算信号掩蔽比(SMR)以预测频谱音频信号的重要性(操作720)。通过使用SMR值提取ISC(操作740)。该ISC提取可以与图2的ISC提取方法相同,因此省略对其的描述。
在提取ISC之后,执行ISC量化(操作760)。在图8中示出ISC量化的详细操作。参照图8,根据使用的比特量和量化误差之间的关系执行分组以最小化附加信息(操作762)。该分组可以与图5的分组单元442的分组相同,因此省略对其的描述。
在分组之后,根据SMR和各组的数据分布(动态范围)确定量化步长(操作764)。此外,采用ISC的最大值将组成组的ISC规格化。
接下来,通过使用采用组的最大值规格化的值和量化步长确定量化器。
量化可以是Max-LIoyd量化。
参照回图7,在量化之后,执行无损编码(操作780)。通过上下文算术编码对ISC的量化值和频谱信息编码。此外,通过代表ISC的选择的频谱索引设置组成每一帧的频谱分量。频谱索引分别采用0和1代表ISC的存在和不存在。接下来,对频谱索引的值编码。根据与先前帧的相关性和相邻ISC的分布选择随机模型,并且执行无损编码。接下来,对编码值执行比特打包。
图9是示出对使用提取音频信号的重要频谱分量的设备编码的低比特率音频信号进行解码的低比特率音频信号解码设备的框图。低比特率音频信号解码设备包括无损解码器900、逆量化器920和F/T变换单元940。
无损解码器900提取各组的随机模型信息,并且通过使用随机模型信息恢复各组的指示ISC的存在的索引信息、量化器信息、量化步长、ISC分组信息和音频信号量化值。
逆量化器920参照恢复的量化器信息、量化步长和分组信息执行逆量化。
F/T变换单元940将逆量化的值变换为时域信号。
图10是示出根据本发明总体发明构思的实施例的对使用提取具有ISC的音频信号的设备编码的低比特率音频信号进行解码的低比特率音频信号解码方法的流程图。将参照图9和图10描述低比特率音频信号解码方法和设备的操作。
首先,通过无损解码器900提取帧的随机模型信息(操作1000)。接下来,通过使用随机模型信息恢复指示ISC的存在的索引信息、量化器信息、量化步长、ISC分组信息和音频信号量化值(操作1020)。接下来,由逆量化器920根据恢复的量化器信息、量化步长和分组信息对量化值逆量化(操作1040)。在逆量化之后,通过F/T变换单元940将逆量化的值变换为时域信号(操作1060)。
根据提取具有ISC的音频信号的方法和设备以及使用该方法和设备的低比特率音频信号编码/解码方法和设备,能够有效地对感知重要频谱分量编码以获得低比特率的高声音质量。此外,能够通过使用心理模型提取感知重要分量,无需相位信息执行编码,并且有效地代表低比特率频谱信号。此外,可在需要低比特率音频编码方案的所有应用中和下一代音频方案中应用本发明。
本发明总体发明构思也可实现为计算机可读记录介质上的计算机可读代码。计算机可读记录介质是可存储其后由计算机***读取的数据的任何数据存储装置。计算机可读记录介质的例子包括只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘、关学数据存储装置和载波(例如,通过互联网的数据传输)。计算机可读记录介质也可分布在网络连接的计算机***,从而以分布方式存储和执行计算机可读代码。此外,本发明所属领域的编程人员容易解释实现本发明的功能性程序、代码和代码段。
尽管已经显示和描述了本发明总体发明构思的一些实施例,但是本领域的技术人员应该理解,在不脱离本发明总体发明构思的原理和精神的情况下,可以对这些实施例进行改变,在权利要求及其等同物中限定本发明总体发明构思的范围。

Claims (38)

1.一种音频信号编码和/或解码***的方法,该方法包括:
根据心理模型对变换的频谱音频信号计算包括SMR值的感知重要性;
根据计算的感知重要性将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为一个或多个第一ISC;和
根据预定权重因数从选作为所述一个或多个第一ISC的频谱音频信号提取频谱峰值以选择将被用于对频谱音频信号编码的一个或多个第二ISC。
2.如权利要求1所述的方法,其中,提取频谱峰值作为一个或多个第二ISC的步骤包括:根据权重因数将被获得的当前信号的频率附近的预定数量的频谱值获得权重因数。
3.如权利要求1所述的方法,还包括:
获得与频谱音频信号的频带相应的SNR;和
将具有低SNR的频带中峰值大于预定值的频谱分量选作为将被用于对频谱音频信号编码的一个或多个第三ISC。
4.一种音频信号编码和/或解码***的方法,该方法包括:
根据心理模型对变换的频谱音频信号计算包括SMR值的感知重要性;
根据计算的感知重要性将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为一个或多个第一ISC;和
获得与具有所述一个或多个第一ISC的频谱音频信号的频带相应的SNR,并且将具有低SNR的频带中峰值大于预定值的频谱分量选作为一个或多介另一ISC。
5.一种低比特音频信号编码方法,包括:
根据心理模型对频谱音频信号计算包括SMR值的感知重要性;
根据感知重要性将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为一个或多个第一ISC;和
根据预定权重因数从具有所述一个或多个第一ISC的频谱音频信号提取频谱峰值,并将该频谱峰值的频率选作为一个或多个第二ISC;和
根据所述一个或多个第一ISC和第二ISC对频谱音频信号执行量化和无损编码。
6.如权利要求5所述的低比特率音频信号编码方法,其中,提取频谱峰值的步骤包括:获得频谱音频信号的频带的SNR,并且将具有低SNR的频带中峰值大于预定值的频谱分量选作为一个或多个第三ISC。
7.如权利要求5所述的低比特率音频信号编码方法,其中,计算包括频谱音频信号的SMR值的感知重要性的步骤包括:通过使用MDCT和MDST来将时域音频信号变换为频谱音频信号,以产生频谱音频信号。
8.如权利要求5所述的低比特率音频信号编码方法,其中,对频谱音频信号执行量化的步骤包括:
根据使用的比特量和量化误差执行分组以形成多个组,从而最小化附加信息;
根据SMR和所述多个组的动态范围的数据分布确定量化步长;和
通过使用所述多个组的预定量化器对频谱音频信号量化。
9.如权利要求8所述的低比特率音频信号编码方法,其中,对频谱音频信号量化的步骤包括:采用组的最大值规格化的值和量化步长确定量化器。
10.如权利要求8所述的低比特率音频信号编码方法,其中,执行量化的步骤包括:执行Max-LIoyd量化。
11.如权利要求8所述的低比特率音频信号编码方法,其中,对量化的信号执行无损编码的步骤包括:执行上下文算术编码。
12.如权利要求11所述的低比特率音频信号编码方法,其中,执行上下文算术编码的步骤包括:
使用组成频谱音频信号的帧的频谱分量产生一个或多个频谱索引以指示第一ISC和第二ISC中的至少一个的存在;和
根据与先前帧的相关性和相邻ISC的分布选择随机模型,并且对频谱音频信号的量化值以及包括量化器信息、量化步长、分组信息和频谱索引值的附加信息执行无损编码。
13.一种低比特率音频信号编码方法,包括:
根据心理模型计算包括频谱音频信号的SMR值的感知重要性;
根据感知重要性将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱信号选作为一个或多个第一ISC;
获得具有第一ISC的频谱音频信号的频带的SNR,并且将具有低SNR的频带中峰值大于预定值的频谱分量选作为一个或多个另一ISC;和
对具有所述一个或多个第一ISC和另一ISC中的至少一个的频谱音频信号执行量化和无损编码。
14.一种提取音频信号的分量的设备,包括:
心理建模单元,根据心理模型计算包括变换的频谱音频信号的SMR值的感知重要性;
第一ISC选择单元,根据感知重要性将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为一个或多个第一ISC;和
第二ISC选择单元,根据预定权重因数从选作为第一ISC的频谱音频信号提取频谱峰值以选择一个或多个第二ISC。
15.如权利要求14所述的设备,其中,通过使用权重因数将被获得的当前信号的频率附近的预定数量的频谱值获得第二ISC选择单元的权重因数。
16.如权利要求14所述的设备,还包括:
第三ISC选择单元,获得频谱音频信号的频带的SNR,并将具有低SNR的频带中峰值大于预定值的频谱分量选作为一个或多个第三ISC。
17.一种提取音频信号的分量的设备,包括:
心理建模单元,根据心理模型计算包括变换的频谱音频信号的SMR值的感知重要性;
第一ISC选择单元,使用感知重要性将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为一个或多个第一ISC;和
另一ISC选择单元,获得与具有所述一个或多个第一ISC的频谱音频信号的频带相应的SNR,并且将具有低SNR的频带中峰值大于预定值的频谱分量选作为一个或多个另一ISC。
18.一种低比特音频信号编码设备,包括:
心理建模单元,根据心理模型计算包括变换的频谱音频信号的SMR值的感知重要性;
第一ISC选择单元,使用SMR值将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一ISC;
第二ISC选择单元,根据预定权重因数从选作为第一ISC的频谱音频信号提取频谱峰值以选择第二ISC;
量化器,对与第一ISC和第二ISC相应的频谱音频信号量化;和
无损编码器,对量化的信号执行无损编码。
19.如权利要求18的低比特率音频信号编码设备,还包括:
第三ISC选择单元,获得频谱音频信号的频带的SNR,并且将具有低SNR的频带中峰值大于预定值的频谱分量选作为第三ISC。
20.如权利要求18的低比特率音频信号编码设备,还包括:
T/F变换单元,通过使用MDCT和MDST来将时域音频信号变换为频谱音频信号。
21.如权利要求18的低比特率音频信号编码设备,其中,量化器包括:
分组单元,根据使用的比特量和量化误差对频谱音频信号执行分组以最小化附加信息;
量化步长确定单元,根据SMR和各组的数据分布确定量化步长;和
量化器,通过使用各组的预定量化器对频谱音频信号量化。
22.如权利要求21的低比特率音频信号编码设备,其中,量化器使用Max-LIoyd量化对频谱音频信号量化。
23.如权利要求21的低比特率音频信号编码设备,其中,无损编码器使用上下文算术编码执行无损编码。
24.如权利要求23的低比特率音频信号编码设备,其中,无损编码器包括:
索引单元,使用组成频谱音频信号的帧的频谱分量产生频谱索引以指示第一ISC和第二ISC的存在;和
随机模型无损编码器,根据与先前帧的相关性和相邻ISC的分布选择随机模型,并且对频谱音频信号的量化值以及包括量化器信息、量化步长、分组信息和频谱索引值的附加信息执行无损编码。
25.一种低比特率音频信号编码设备,包括:
心理建模单元,根据心理模型计算包括变换的频谱音频信号的SMR值的感知重要性;
第一ISC选择单元,使用感知重要性将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱信号选作为第一ISC;
第三ISC选择单元,获得与选作为第一ISC的频谱音频信号中的频带相应的SNR,并且将具有低SNR的频带中峰值大于预定值的频谱分量选作为另一ISC;
量化器,对具有第一ISC和所述另一ISC的频谱音频信号量化;和
无损编码器,对量化的信号执行无损编码。
26.一种低比特音频信号解码方法,包括:
对音频信号恢复指示ISC的存在的索引信息、量化器信息、量化步长、ISC分组信息和音频信号量化值;
根据恢复的量化器信息、量化步长和分组信息对音频信号执行逆量化;和
将逆量化的信号变换为时域信号。
27.如权利要求26所述的低比特率音频信号解码方法,还包括:
通过使用对音频信号的帧预测的随机模型信息对指示ISC的存在的索引信息、量化步长和ISC分组信息执行无损解码。
28.如权利要求26所述的低比特率音频信号解码方法,还包括:
通过使用预定随机模型对指示ISC的存在的索引信息、量化步长和ISC分组信息执行无损解码。
29.如权利要求26所述的低比特率音频信号解码方法,恢复ISC的步骤包括:
对ISC解码;和
通过使用指示ISC的存在的索引信息将解码的ISC映射到频谱轴。
30.一种低比特率音频信号解码设备,包括:
无损解码器,提取用于音频信号的帧的随机模型信息,并且通过使用该随机模型信息恢复指示ISC的存在的索引信息、量化器信息、量化步长、ISC分组信息和音频信号量化值;
逆量化器,根据恢复的量化器信息、量化步长和分组信息对音频信号执行逆量化;和
F/T变换单元,将逆量化的信号变换为时域信号。
31.如权利要求30所述的低比特率音频信号解码设备,其中,无损解码器通过使用对音频信号的帧预测的随机模型信息对指示ISC的存在的索引信息、量化步长和ISC分组信息执行无损解码。
32.如权利要求30所述的低比特率音频信号解码设备,其中,无损解码器通过使用预定随机模型对指示ISC的存在的索引信息、量化步长和ISC分组信息执行无损解码。
33.如权利要求30所述的低比特率音频信号解码设备,其中,无损解码器对ISC解码,并通过使用指示ISC的存在的索引信息将解码的ISC映射到频谱轴。
34.一种实现用于执行以下方法的计算机程序的计算机可读介质,该方法包括:
根据心理模型计算包括变换的频谱音频信号的SMR值的感知重要性;
将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为一个或多个第一ISC;和
根据预定权重因数从选作为所述一个或多个第一ISC的频谱音频信号提取频谱峰值以选择将被用于对频谱音频信号编码的一个或多个第二ISC。
35.一种实现用于执行以下方法的计算机程序的计算机可读介质,该方法包括:
对音频信号恢复指示ISC的存在的索引信息、量化器信息、量化步长、ISC分组信息和音频信号量化值;
根据恢复的量化器信息、量化步长和分组信息对音频信号执行逆量化;和
将逆量化的信号变换为时域信号。
36.一种音频信号编码和/或解码***,包括:
编码器,根据频带的SMR值、以及权重因数和SNR中的一个选择具有一个或多个ISC的频谱音频信号,并且根据关于选择的ISC的信息对频谱音频信号编码;和
解码器,根据所述信息对编码频谱音频信号解码。
37.一种音频信号编码和/或解码***,包括:
编码器,根据频谱音频信号的频带的SMR值、以及权重因数和SNR中的一个选择具有一个或多个ISC的频谱音频信号,并且根据关于选择的ISC的信息对频谱音频信号编码。
38.一种音频信号编码和/或解码***,包括:
解码器,根据关于一个或多个ISC的信息对编码的音频信号解码。
CN2006800259202A 2005-07-15 2006-07-14 从音频信号提取重要频谱分量的方法和设备以及使用其的低比特率音频信号编码和/或解码方法和设备 Expired - Fee Related CN101223576B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210441382.2A CN103106902B (zh) 2005-07-15 2006-07-14 低比特率音频信号解码方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR1020050064507 2005-07-15
KR10-2005-0064507 2005-07-15
KR1020050064507A KR100851970B1 (ko) 2005-07-15 2005-07-15 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치
PCT/KR2006/002775 WO2007027006A1 (en) 2005-07-15 2006-07-14 Method and apparatus to extract important spectral component from audio signal and low bit-rate audio signal coding and/or decoding method and apparatus using the same

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201210441382.2A Division CN103106902B (zh) 2005-07-15 2006-07-14 低比特率音频信号解码方法

Publications (2)

Publication Number Publication Date
CN101223576A true CN101223576A (zh) 2008-07-16
CN101223576B CN101223576B (zh) 2012-12-26

Family

ID=37662729

Family Applications (2)

Application Number Title Priority Date Filing Date
CN2006800259202A Expired - Fee Related CN101223576B (zh) 2005-07-15 2006-07-14 从音频信号提取重要频谱分量的方法和设备以及使用其的低比特率音频信号编码和/或解码方法和设备
CN201210441382.2A Expired - Fee Related CN103106902B (zh) 2005-07-15 2006-07-14 低比特率音频信号解码方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201210441382.2A Expired - Fee Related CN103106902B (zh) 2005-07-15 2006-07-14 低比特率音频信号解码方法

Country Status (6)

Country Link
US (1) US8615391B2 (zh)
EP (2) EP2490215A3 (zh)
JP (2) JP5107916B2 (zh)
KR (1) KR100851970B1 (zh)
CN (2) CN101223576B (zh)
WO (1) WO2007027006A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645272B (zh) * 2009-09-08 2012-01-25 华为终端有限公司 生成量化控制参数的方法、装置及音频编码设备
CN102714040A (zh) * 2010-01-14 2012-10-03 松下电器产业株式会社 编码装置、解码装置、频谱变动量计算方法和频谱振幅调整方法
CN104737227A (zh) * 2012-11-05 2015-06-24 松下电器(美国)知识产权公司 语音音响编码装置、语音音响解码装置、语音音响编码方法和语音音响解码方法
CN107077849A (zh) * 2014-11-07 2017-08-18 三星电子株式会社 用于恢复音频信号的方法和设备
CN110767241A (zh) * 2013-10-18 2020-02-07 瑞典爱立信有限公司 谱峰位置的编码与解码
WO2021012872A1 (zh) * 2019-07-25 2021-01-28 腾讯科技(深圳)有限公司 一种编码参数调控方法、装置、设备及存储介质
CN112534723A (zh) * 2018-08-08 2021-03-19 索尼公司 解码装置、解码方法和程序

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2007088853A1 (ja) * 2006-01-31 2009-06-25 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法
FR2898443A1 (fr) * 2006-03-13 2007-09-14 France Telecom Procede de codage d'un signal audio source, dispositif de codage, procede et dispositif de decodage, signal, produits programme d'ordinateur correspondants
US20080243518A1 (en) * 2006-11-16 2008-10-02 Alexey Oraevsky System And Method For Compressing And Reconstructing Audio Files
KR101355376B1 (ko) * 2007-04-30 2014-01-23 삼성전자주식회사 고주파수 영역 부호화 및 복호화 방법 및 장치
KR101411900B1 (ko) * 2007-05-08 2014-06-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 장치
KR101435411B1 (ko) * 2007-09-28 2014-08-28 삼성전자주식회사 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화간격을 결정하는 방법과 이를 이용한 오디오 신호의부호화/복호화 방법 및 그 장치
US8452586B2 (en) * 2008-12-02 2013-05-28 Soundhound, Inc. Identifying music from peaks of a reference sound fingerprint
US9390167B2 (en) 2010-07-29 2016-07-12 Soundhound, Inc. System and methods for continuous audio matching
US8457976B2 (en) 2009-01-30 2013-06-04 Qnx Software Systems Limited Sub-band processing complexity reduction
MX2012004569A (es) * 2009-10-20 2012-06-08 Fraunhofer Ges Forschung Codificador de audio, decodificador de audio, metodo para codificar informacion de audio, metodo para decodificar informacion de audio y programa de computacion que usa la deteccion de un grupo de valores espectrales previamente decodificados.
WO2011086924A1 (ja) * 2010-01-14 2011-07-21 パナソニック株式会社 音声符号化装置および音声符号化方法
EP2355094B1 (en) * 2010-01-29 2017-04-12 2236008 Ontario Inc. Sub-band processing complexity reduction
US9047371B2 (en) 2010-07-29 2015-06-02 Soundhound, Inc. System and method for matching a query against a broadcast stream
WO2012110481A1 (en) 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio codec using noise synthesis during inactive phases
EP3503098B1 (en) 2011-02-14 2023-08-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method decoding an audio signal using an aligned look-ahead portion
SG192734A1 (en) 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Apparatus and method for error concealment in low-delay unified speech and audio coding (usac)
KR101617816B1 (ko) * 2011-02-14 2016-05-03 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 스펙트럼 도메인 잡음 형상화를 사용하는 선형 예측 기반 코딩 방식
MY159444A (en) 2011-02-14 2017-01-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Encoding and decoding of pulse positions of tracks of an audio signal
JP5712288B2 (ja) 2011-02-14 2015-05-07 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 重複変換を使用した情報信号表記
TWI469136B (zh) 2011-02-14 2015-01-11 Fraunhofer Ges Forschung 在一頻譜域中用以處理已解碼音訊信號之裝置及方法
TWI476760B (zh) 2011-02-14 2015-03-11 Fraunhofer Ges Forschung 用以使用暫態檢測及品質結果將音訊信號的部分編碼之裝置與方法
WO2012144128A1 (ja) * 2011-04-20 2012-10-26 パナソニック株式会社 音声音響符号化装置、音声音響復号装置、およびこれらの方法
US9035163B1 (en) 2011-05-10 2015-05-19 Soundbound, Inc. System and method for targeting content based on identified audio and multimedia
CN102208188B (zh) 2011-07-13 2013-04-17 华为技术有限公司 音频信号编解码方法和设备
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
EP3217398B1 (en) 2013-04-05 2019-08-14 Dolby International AB Advanced quantizer
CN110867190B (zh) 2013-09-16 2023-10-13 三星电子株式会社 信号编码方法和装置以及信号解码方法和装置
US10388293B2 (en) 2013-09-16 2019-08-20 Samsung Electronics Co., Ltd. Signal encoding method and device and signal decoding method and device
US9507849B2 (en) 2013-11-28 2016-11-29 Soundhound, Inc. Method for combining a query and a communication command in a natural language computer system
US9292488B2 (en) 2014-02-01 2016-03-22 Soundhound, Inc. Method for embedding voice mail in a spoken utterance using a natural language processing computer system
WO2015122752A1 (ko) 2014-02-17 2015-08-20 삼성전자 주식회사 신호 부호화방법 및 장치와 신호 복호화방법 및 장치
CN106233112B (zh) * 2014-02-17 2019-06-28 三星电子株式会社 信号编码方法和设备以及信号解码方法和设备
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
US9564123B1 (en) 2014-05-12 2017-02-07 Soundhound, Inc. Method and system for building an integrated user profile
CN107077855B (zh) 2014-07-28 2020-09-22 三星电子株式会社 信号编码方法和装置以及信号解码方法和装置
CN104616657A (zh) * 2015-01-13 2015-05-13 中国电子科技集团公司第三十二研究所 高级音频编码***
US10432932B2 (en) * 2015-07-10 2019-10-01 Mozilla Corporation Directional deringing filters
US11222651B2 (en) * 2019-06-14 2022-01-11 Robert Bosch Gmbh Automatic speech recognition system addressing perceptual-based adversarial audio attacks

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
KR100246370B1 (ko) 1992-06-02 2000-03-15 구자홍 오디오신호의 적응직교변환 부호화 방법
KR100269213B1 (ko) * 1993-10-30 2000-10-16 윤종용 오디오신호의부호화방법
JP3131542B2 (ja) * 1993-11-25 2001-02-05 シャープ株式会社 符号化復号化装置
US5625743A (en) * 1994-10-07 1997-04-29 Motorola, Inc. Determining a masking level for a subband in a subband audio encoder
US5706009A (en) * 1994-12-29 1998-01-06 Sony Corporation Quantizing apparatus and quantizing method
JP3341528B2 (ja) 1995-01-20 2002-11-05 ソニー株式会社 量子化装置および量子化方法
EP0720316B1 (en) * 1994-12-30 1999-12-08 Daewoo Electronics Co., Ltd Adaptive digital audio encoding apparatus and a bit allocation method thereof
KR0144011B1 (ko) * 1994-12-31 1998-07-15 김주용 엠펙 오디오 데이타 고속 비트 할당 및 최적 비트 할당 방법
US5706392A (en) * 1995-06-01 1998-01-06 Rutgers, The State University Of New Jersey Perceptual speech coder and method
US5790759A (en) * 1995-09-19 1998-08-04 Lucent Technologies Inc. Perceptual noise masking measure based on synthesis filter frequency response
JPH09101799A (ja) * 1995-10-04 1997-04-15 Sony Corp 信号符号化方法及び装置
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
JP3304739B2 (ja) 1996-02-08 2002-07-22 松下電器産業株式会社 ロスレス符号装置とロスレス記録媒体とロスレス復号装置とロスレス符号復号装置
DE19628292B4 (de) * 1996-07-12 2007-08-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zum Codieren und Decodieren von Stereoaudiospektralwerten
US6092041A (en) * 1996-08-22 2000-07-18 Motorola, Inc. System and method of encoding and decoding a layered bitstream by re-applying psychoacoustic analysis in the decoder
US5886276A (en) * 1997-01-16 1999-03-23 The Board Of Trustees Of The Leland Stanford Junior University System and method for multiresolution scalable audio signal encoding
JPH10301594A (ja) 1997-05-01 1998-11-13 Fujitsu Ltd 有音検出装置
US6006179A (en) * 1997-10-28 1999-12-21 America Online, Inc. Audio codec using adaptive sparse vector quantization with subband vector classification
US6023674A (en) * 1998-01-23 2000-02-08 Telefonaktiebolaget L M Ericsson Non-parametric voice activity detection
AU3372199A (en) * 1998-03-30 1999-10-18 Voxware, Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
JP3515903B2 (ja) * 1998-06-16 2004-04-05 松下電器産業株式会社 オーディオ符号化のための動的ビット割り当て方法及び装置
US6330531B1 (en) * 1998-08-24 2001-12-11 Conexant Systems, Inc. Comb codebook structure
KR200277959Y1 (ko) 1998-08-26 2002-09-17 엘지 오티스 엘리베이터 유한회사 회전자의측면지지구조
US6266644B1 (en) * 1998-09-26 2001-07-24 Liquid Audio, Inc. Audio encoding apparatus and methods
US6240379B1 (en) 1998-12-24 2001-05-29 Sony Corporation System and method for preventing artifacts in an audio data encoder device
US6298322B1 (en) * 1999-05-06 2001-10-02 Eric Lindemann Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal
US6324505B1 (en) * 1999-07-19 2001-11-27 Qualcomm Incorporated Amplitude quantization scheme for low-bit-rate speech coders
JP4046454B2 (ja) 2000-03-29 2008-02-13 三洋電機株式会社 オーディオデータ符号化装置
JP2002196792A (ja) * 2000-12-25 2002-07-12 Matsushita Electric Ind Co Ltd 音声符号化方式、音声符号化方法およびそれを用いる音声符号化装置、記録媒体、ならびに音楽配信システム
KR100378796B1 (ko) 2001-04-03 2003-04-03 엘지전자 주식회사 디지탈 오디오 부호화기 및 복호화 방법
US7136418B2 (en) * 2001-05-03 2006-11-14 University Of Washington Scalable and perceptually ranked signal coding and decoding
JP3942882B2 (ja) 2001-12-10 2007-07-11 シャープ株式会社 ディジタル信号符号化装置およびそれを備えたディジタル信号記録装置
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
US7398204B2 (en) * 2002-08-27 2008-07-08 Her Majesty In Right Of Canada As Represented By The Minister Of Industry Bit rate reduction in audio encoders by exploiting inharmonicity effects and auditory temporal masking
US7433824B2 (en) * 2002-09-04 2008-10-07 Microsoft Corporation Entropy coding by adapting coding between level and run-length/level modes
KR100467617B1 (ko) * 2002-10-30 2005-01-24 삼성전자주식회사 개선된 심리 음향 모델을 이용한 디지털 오디오 부호화방법과그 장치
US7640157B2 (en) * 2003-09-26 2009-12-29 Ittiam Systems (P) Ltd. Systems and methods for low bit rate audio coders
KR100773234B1 (ko) 2003-12-24 2007-11-02 현대중공업 주식회사 중장비의 엔진룸 냉각 시스템
US7725313B2 (en) * 2004-09-13 2010-05-25 Ittiam Systems (P) Ltd. Method, system and apparatus for allocating bits in perceptual audio coders

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645272B (zh) * 2009-09-08 2012-01-25 华为终端有限公司 生成量化控制参数的方法、装置及音频编码设备
CN102714040A (zh) * 2010-01-14 2012-10-03 松下电器产业株式会社 编码装置、解码装置、频谱变动量计算方法和频谱振幅调整方法
CN104737227A (zh) * 2012-11-05 2015-06-24 松下电器(美国)知识产权公司 语音音响编码装置、语音音响解码装置、语音音响编码方法和语音音响解码方法
CN110767241A (zh) * 2013-10-18 2020-02-07 瑞典爱立信有限公司 谱峰位置的编码与解码
CN107077849A (zh) * 2014-11-07 2017-08-18 三星电子株式会社 用于恢复音频信号的方法和设备
CN107077849B (zh) * 2014-11-07 2020-09-08 三星电子株式会社 用于恢复音频信号的方法和设备
CN112534723A (zh) * 2018-08-08 2021-03-19 索尼公司 解码装置、解码方法和程序
WO2021012872A1 (zh) * 2019-07-25 2021-01-28 腾讯科技(深圳)有限公司 一种编码参数调控方法、装置、设备及存储介质
US11715481B2 (en) 2019-07-25 2023-08-01 Tencent Technology (Shenzhen) Company Limited Encoding parameter adjustment method and apparatus, device, and storage medium

Also Published As

Publication number Publication date
US8615391B2 (en) 2013-12-24
EP1905007A4 (en) 2010-02-24
EP2490215A3 (en) 2012-12-26
CN103106902A (zh) 2013-05-15
EP2490215A2 (en) 2012-08-22
KR100851970B1 (ko) 2008-08-12
KR20070009339A (ko) 2007-01-18
EP1905007A1 (en) 2008-04-02
WO2007027006A1 (en) 2007-03-08
JP5107916B2 (ja) 2012-12-26
JP5788833B2 (ja) 2015-10-07
JP2012198555A (ja) 2012-10-18
CN103106902B (zh) 2015-12-16
CN101223576B (zh) 2012-12-26
JP2009501359A (ja) 2009-01-15
US20070016404A1 (en) 2007-01-18

Similar Documents

Publication Publication Date Title
CN101223576B (zh) 从音频信号提取重要频谱分量的方法和设备以及使用其的低比特率音频信号编码和/或解码方法和设备
JP2904472B2 (ja) ディジタル・オーディオ信号を効率的に圧縮するための方法、データ処理システムおよび装置
CN100395817C (zh) 编码设备、解码设备和解码方法
CN101223577B (zh) 对低比特率音频信号进行编码/解码的方法和设备
CN101521014B (zh) 音频带宽扩展编解码装置
CN101055720B (zh) 对音频信号编码和解码的方法和设备
KR100634506B1 (ko) 저비트율 부호화/복호화 방법 및 장치
CN102436819B (zh) 无线音频压缩、解压缩方法及音频编码器和音频解码器
WO1998000837A1 (fr) Procedes de codage et de decodage de signaux audio, et codeur et decodeur de signaux audio
CN100590712C (zh) 编码装置和译码装置
CN103765509A (zh) 编码装置及方法、解码装置及方法以及程序
CN101779236A (zh) 基于频率子频带中的频谱动态的音频译码中的时间掩蔽
KR20070037945A (ko) 오디오 신호의 부호화/복호화 방법 및 장치
US8149927B2 (en) Method of and apparatus for encoding/decoding digital signal using linear quantization by sections
CN101162584A (zh) 使用带宽扩展技术对音频信号编码和解码的方法和设备
CN101105940A (zh) 音频编解码的量化方法、反变换方法及音频编解码装置
CN101667170A (zh) 计算、量化、音频编码的装置和方法及程序
EP0919989A1 (en) Audio signal encoder, audio signal decoder, and method for encoding and decoding audio signal
KR101001748B1 (ko) 오디오신호 복호화 방법 및 장치
JP2000259190A (ja) オーディオ信号圧縮方法及びオーディオ信号復号方法とオーディオ信号圧縮装置
Sung et al. An audio compression system using modified transform coding and dynamic bit allocation
Kandadai Perceptual Audio Coding That Scales to Low Bitrates
MXPA98010783A (en) Audio signal encoder, audio signal decoder, and method for encoding and decoding audio signal

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121226

Termination date: 20170714