CN101223576A - 从音频信号提取重要频谱分量的方法和设备以及使用其的低比特率音频信号编码和/或解码方法和设备 - Google Patents
从音频信号提取重要频谱分量的方法和设备以及使用其的低比特率音频信号编码和/或解码方法和设备 Download PDFInfo
- Publication number
- CN101223576A CN101223576A CNA2006800259202A CN200680025920A CN101223576A CN 101223576 A CN101223576 A CN 101223576A CN A2006800259202 A CNA2006800259202 A CN A2006800259202A CN 200680025920 A CN200680025920 A CN 200680025920A CN 101223576 A CN101223576 A CN 101223576A
- Authority
- CN
- China
- Prior art keywords
- isc
- audio signal
- spectral
- signal
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 286
- 230000003595 spectral effect Effects 0.000 title claims abstract description 183
- 238000000034 method Methods 0.000 title claims abstract description 78
- 230000000873 masking effect Effects 0.000 claims abstract description 47
- 238000001228 spectrum Methods 0.000 claims description 73
- 238000013139 quantization Methods 0.000 claims description 68
- 239000000284 extract Substances 0.000 claims description 29
- 230000003340 mental effect Effects 0.000 claims description 28
- 238000006243 chemical reaction Methods 0.000 claims description 18
- 238000011002 quantification Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 210000004966 intestinal stem cell Anatomy 0.000 abstract 3
- 230000008901 benefit Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 16
- 238000000605 extraction Methods 0.000 description 13
- 238000012821 model calculation Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 230000006835 compression Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000006386 neutralization reaction Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种提取具有重要频谱分量(ISC)的音频信号的方法和设备、以及使用该提取ISC的方法和设备的低比特率音频信号编码/解码方法。提取ISC的方法包括:通过使用心理模型计算包括变换的频谱音频信号的SMR(信号掩蔽比)值的感知重要性,使用SMR值将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一ISC;根据预定权重因数从选作为ISC的频谱音频信号提取频谱峰值以选择第二ISC。因此,可有效地对感知重要频谱分量编码,从而获得低比特率的高声音质量。此外,通过使用心理模型能够提取感知重要频谱分量,能够无需相位信息执行编码,并且能够有效地表示低比特率的频谱信号。此外,该方法和设备可被应用到需要低比特率音频编码方案的所有应用中以及下一代音频方案中。
Description
本申请要求于2005年7月15日提交到韩国知识产权局的第10-2005-0064507号韩国专利申请的利益,该申请公开于此以资参考。
技术领域
本发明总体发明构思涉及一种音频信号编码和/或解码***,更具体地讲,涉及一种提取音频信号的重要频谱分量的方法和设备以及使用其的对低比特率音频信号编码和解码的方法和设备。
背景技术
“MPEG(运动图像专家组)音频”是用于高质量高性能立体声编码的ISO/IEC标准。MPEG音频与运动图像编码根据MPEG的ISO/IEC SC29/WG11一起被标准化。对于MPEG音频,基于32个频带的子带编码(频带分解编码)和改进离散余弦变换(MDCT)用于压缩,具体地讲,通过使用心理特征执行高性能压缩。与传统压缩编码方案相比,MPEG音频可实现高质量的声音。
为了高性能地压缩音频信号,MPEG音频利用“感知编码”压缩方案以减小音频信号的压缩量,在该“感知编码”压缩方案中,通过使用感测音频信号的人类的敏感特性来去除详细的低敏感信息。
此外,在MPEG音频中,无声阶段的最小可听限制和掩蔽特性主要用于使用听觉心理特征的感知编码。无声阶段的最小可听限制是听觉可感知的声音的最小级别。最小可听限制与在无声阶段听觉可感知的噪声的限制有关。最小可听限制根据声音的频率改变。在一些频率,可听到比最小可听限制高的声音,但是在另一些频率,可能不会听到比最小可听限制低的声音。此外,特定声音的感测限制可根据与该特定声音一起听到的其他声音大大改变。这被称为“掩蔽效应”。发生掩蔽效应的频率的宽度被称为临界带。为了有效地利用听觉心理特征(例如,临界带),将声音信号分解为频谱分量很重要。为此,频带被分为32个子带,随后执行子带编码。另外,在MPEG音频中,滤波器组用于消除32个子带的混叠噪声。
发明内容
技术问题
MPEG音频包括使用滤波器组和心理模型的比特分配和量化。通过MDCT产生的系数分配有最佳量化比特,并且通过使用心理模型2被压缩。用于分配最佳比特的心理模型2通过使用扩散函数基于FFT来估计掩蔽效应。因此,需要相对大量的复杂度。
通常,对于低比特率(32kbps或更少)音频信号的压缩,可分配给信号的比特数不足以量化音频信号的所有频谱分量及其无损编码。因此,需要提取感知的重要频谱分量(ISC)和量化及其无损编码。
技术方案
本发明总体发明构思提供一种从音频信号提取重要频谱分量以低比特率压缩音频信号的方法和设备。
本发明总体发明构思还提供一种使用从音频信号提取重要频谱分量的方法和设备的低比特率音频信号编码方法和设备。
本发明总体发明构思还提供一种对通过低比特率音频信号编码方法和设备编码的低比特率音频信号解码的低比特音频信号解码方法和设备。
将在接下来的描述中部分阐述本发明另外的方面和优点,还有一部分通过描述将是清楚的,或者可以经过本发明总体发明构思的实施而得知。
可通过提供一种提取音频信号的重要频谱分量(ISC)的方法来实现本发明总体发明构思的前述和/或其他方面和优点,该方法包括:通过使用心理模型计算包括变换的频谱音频信号的信号掩蔽比(SMR)值的感知重要性,使用SMR值将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一ISC;根据预定权重因数从选作为第一ISC的频谱音频信号提取频谱峰值以选择第二ISC。可通过使用权重因数将被获得的当前信号的频率附近的预定数量的频谱值获得权重因数。
该方法还可包括获得频带的SNR(信噪比);和将具有低SNR的频带中峰值大于预定值的频谱分量选作为ISC。
还可通过提供一种提取音频信号的重要频谱分量(ISC)的方法来实现本发明总体发明构思的前述和/或其他方面和优点,该方法包括:通过使用心理模型计算包括变换的频谱音频信号的SMR(信号掩蔽比)值的感知重要性;使用SMR将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一ISC;和获得选作为第一ISC的频谱音频信号中的频带的SNR以将具有低SNR的频带中峰值大于预定值的频谱分量的频谱音频信号选作为另一ISC。
还可通过提供一种低比特率音频信号编码方法来实现本发明总体发明构思的前述和/或其他方面和优点,该方法包括:通过使用心理模型计算包括频谱音频信号的SMR(信号掩蔽比)值的感知重要性;使用SMR值将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一ISC;和根据预定权重因数从选作为第一ISC的频谱音频信号提取频谱峰值,并将具有该频谱峰值的频率的频谱音频信号选作为第二ISC;和对具有第二ISC的频谱音频信号执行量化和无损编码。提取频谱峰值的步骤可包括:获得频带的SNR(信噪比),并且通过使用SNR将具有低SNR的频带中峰值大于预定值的频谱分量选作为第三ISC。低比特率音频信号编码方法还可包括:通过使用MDCT(改进离散余弦变换)和MDST(改进离散正弦变换)来将时域音频信号变换为频谱音频信号以产生频谱音频信号。对ISC音频信号执行量化的步骤可包括:根据使用的比特量和量化误差将音频信号分成多个组以最小化附加信息;根据SMR(信号掩蔽比)和所述多组的动态范围的数据分布确定量化步长;和通过使用所述多组的一个或多个预定量化器对音频信号量化。可通过使用采用组的最大值规格化的值和量化步长确定量化器。量化可以是Max-LIoyd量化。
对量化的信号执行无损编码的步骤可包括:上下文算术编码。执行上下文算术编码的步骤可包括:采用指示ISC的存在的频谱索引表示组成帧的频谱分量;和根据与先前帧的相关性和相邻ISC的分布选择随机模型,以对音频信号的量化值以及包括量化器信息、量化步骤、分组信息和频谱索引值的附加信息执行无损编码。
还可通过提供一种低比特率音频信号编码方法来实现本发明总体发明构思的前述和/或其他方面和优点,该方法包括:通过使用心理模型计算包括频谱音频信号的SMR(信号掩蔽比)值的感知重要性;使用SMR值将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱信号选作为第一ISC;获得选作为第一ISC的频谱音频信号中的频带的SNR,并且使用SNR将具有低SNR的频带中峰值大于预定值的频谱分量选作为另一ISC;和对于具有另一ISC的频谱音频信号执行量化和无损编码。
还可通过提供一种提取音频信号ISC(重要频谱分量)的设备来实现本发明总体发明构思的前述和/或其他方面和优点,该设备包括:心理建模单元,通过使用心理模型计算包括变换的频谱音频信号的SMR(信号掩蔽比)值的感知重要性;第一ISC选择单元,使用SMR将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一ISC;和第二ISC选择单元,根据预定权重因数从选作为第一ISC的频谱音频信号提取频谱峰值并选择第二ISC。可通过使用权重因数将被获得的当前信号的频率附近的预定数量的频谱值获得第二ISC选择单元的权重因数。该设备还可包括:第三ISC选择单元,获得频带的SNR(信噪比),并通过使用SNR将具有低SNR的频带中峰值大于预定值的频谱分量选作为第三ISC。
还可通过提供一种提取音频信号ISC(重要频谱分量)的设备来实现本发明总体发明构思的前述和/或其他方面和优点,该设备包括:心理建模单元,通过使用心理模型计算包括变换的频谱音频信号的SMR(信号掩蔽比)值的感知重要性;第一ISC选择单元,使用SMR将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一ISC;和另一ISC选择单元,获得选作为第一ISC的频谱音频信号中的频带的SNR,并且使用SNR将具有低SNR的频带中峰值大于预定值的频谱分量选作为另一ISC。
还可通过提供一种低比特音频信号编码提取设备来实现本发明总体发明构思的前述和/或其他方面和优点,该设备包括:心理建模单元,通过使用心理模型计算包括变换的频谱音频信号的SMR(信号掩蔽比)值的感知重要性;第一ISC(重要频谱分量)选择单元,使用SMR值将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一ISC;第二ISC选择单元,根据预定权重因数从选作为第一ISC的频谱音频信号提取频谱峰值并且选择第二ISC;量化器,对具有第二ISC的频谱音频信号量化;和无损编码器,对量化的信号执行无损编码。
低比特率音频信号编码设备还可包括:第三ISC选择单元,获得频带的SNR(信噪比),并且使用SNR将具有低SNR的频带中峰值大于预定值的频谱分量选作为第三ISC。
低比特率音频信号编码设备还可包括:T/F变换单元,通过使用MDCT(改进离散余弦变换)和MDST(改进离散正弦变换)来将时域音频信号变换为频谱音频信号。
量化器可包括:分组单元,根据使用的比特量和量化误差将频谱音频信号分为多个组以最小化附加信息;量化步长确定单元,根据SMR(信号掩蔽比)和所述多个组的数据分布(动态范围)确定量化步长;和组量化器,通过使用所述多组的预定量化器对频谱音频信号量化。组量化器的量化可以是Max-LIoyd量化,无损编码器的无损编码可以是上下文算术编码。
无损编码器可包括:索引单元,采用指示ISC的存在的频谱索引表示组成帧的频谱分量;随机模型无损编码器,根据与先前帧的相关性和相邻ISC的分布选择随机模型,并且对频谱音频信号的量化值以及包括量化器信息、量化步长、分组信息和频谱索引值的附加信息执行无损编码。
还可通过提供一种低比特音频信号编码设备来实现本发明总体发明构思的前述和/或其他方面和优点,该设备包括:心理建模单元,通过使用心理模型计算包括变换的频谱音频信号的SMR(信号掩蔽比)值的感知重要性;第一ISC(重要频谱分量)选择单元,使用感知重要性将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一ISC;另一ISC选择单元,获得选作为第一ISC的频谱音频信号中的频带的SNR,并且通过使用SNR将具有低SNR的频带中峰值大于预定值的频谱分量选作为另一ISC;和量化器,对具有所述另一ISC的频谱音频信号量化;和无损编码器,对量化的信号执行无损编码。
还可通过提供一种低比特音频信号解码方法来实现本发明总体发明构思的前述和/或其他方面和优点,该方法包括:恢复指示ISC(重要频谱分量)的存在的索引信息、量化器信息、量化步长、ISC分组信息和音频信号量化值;参照恢复的量化器信息、量化步长和分组信息对音频信号执行逆量化;和将逆量化的值变换为时域信号。
还可通过提供一种低比特音频信号解码设备来实现本发明总体发明构思的前述和/或其他方面和优点,该设备包括:无损解码器,提取用于帧的随机模型信息,并且通过使用该随机模型信息恢复指示ISC(重要频谱分量)的存在的索引信息、量化器信息、量化步长、ISC分组信息和音频信号量化值;逆量化器,参照恢复的量化器信息、量化步长和分组信息执行逆量化;和F/T变换单元,将逆量化的值变换为时域信号。
还可通过提供一种实现用于执行以下方法的计算机程序的计算机可读介质来实现本发明总体发明构思的前述和/或其他方面和优点,该方法包括:根据心理模型计算包括变换的频谱音频信号的信号掩蔽比(SMR)值的感知重要性,使用感知重要性将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为一个或多个第一重要频谱分量(ISC);根据预定权重因数从选作为一个或多个第一ISC的频谱音频信号提取频谱峰值以选择将被用于对频谱音频信号编码的一个或多个第二ISC。
还可通过提供一种实现用于执行以下方法的计算机程序的计算机可读介质来实现本发明总体发明构思的前述和/或其他方面和优点,该方法包括:对音频信号恢复指示重要频谱分量(ISC)的存在的索引信息、量化器信息、量化步长、ISC分组信息和音频信号量化值;根据恢复的量化器信息、量化步长和分组信息对音频信号执行逆量化;和将逆量化的信号变换为时域信号。
还可通过提供一种音频信号编码和/或解码***来实现本发明总体发明构思的前述和/或其他方面和优点,该***包括:编码器,根据频带的信号掩蔽比(SMR)值、以及权重因数和信噪比(SNR)中的一个选择具有一个或多个重要频谱分量(ISC)的频谱音频信号,并且根据关于选择的ISC的信息对频谱音频信号编码;和解码器,根据所述信息对编码频谱音频信号解码。
还可通过提供一种音频信号编码和/或解码***来实现本发明总体发明构思的前述和/或其他方面和优点,该***包括:编码器,根据频带的信号掩蔽比(SMR)值、以及权重因数和信噪比(SNR)中的一个选择具有一个或多个重要频谱分量(ISC)的频谱音频信号,并且根据关于选择的ISC的信息对频谱音频信号编码。
还可通过提供一种音频信号编码和/或解码***来实现本发明总体发明构思的前述和/或其他方面和优点,该***包括:解码器,根据关于ISC的信息对编码的音频信号解码。可根据频谱音频信号的频带的信号掩蔽比(SMR)值、以及权重因数和信噪比(SNR)中的一个获得ISC。
附图说明
通过下面结合附图对实施例进行的详细描述,本发明总体发明构思的这些和/其他方面和优点将会变得更加清楚和更易于理解,其中:
图1是示出根据本发明总体发明构思的实施例的从输入的音频信号提取重要频谱分量以按低比特率压缩音频信号的设备的框图;
图2是示出根据本发明总体发明构思的实施例的从输入的音频信号提取重要频谱分量以按低比特率压缩音频信号的方法的流程图;
图3是示出根据本发明总体发明构思的实施例的从输入的音频信号提取重要频谱分量以按低比特率压缩音频信号的方法的示意图;
图4是示出根据本发明总体发明构思的实施例的使用从输入的音频信号提取重要频谱分量的设备按低比特率压缩音频信号的低比特率音频信号编码设备的构造的框图;
图5是示出图4的设备的量化器的框图;
图6是示出图4的设备的无损编码单元的框图;
图7是示出根据本发明总体发明构思的实施例的使用从音频信号提取重要频谱分量的方法的低比特率音频信号编码方法的流程图;
图8是示出图7的方法的ISC量化的详细流程图;
图9是示出根据本发明总体发明构思的实施例的对通过使用从音频信号提取重要频谱分量的设备编码的低比特率音频信号进行解码的低比特率音频信号解码设备的框图;和
图10是示出根据本发明总体发明构思的实施例的对通过使用提取音频信号的重要频谱分量的设备编码的低比特率音频信号进行解码的低比特率音频信号解码方法的流程图。
具体实施方式
现在将对本发明总体发明构思的实施例进行详细参照,其示例在附图中表示,在整个附图中,相同的标号始终表示相同的部件。以下通过参考附图描述实施例以解释本发明总体发明构思。
图1是示出根据本发明总体发明构思的实施例的从输入的音频信号提取重要频谱分量(ISC)以按低比特率压缩音频信号的设备的框图。音频信号ISC提取设备包括心理建模单元100和ISC选择单元150。
心理建模单元100对根据心理特征变换的频谱音频信号计算信号掩蔽比(SMR)值。通过使用改进离散余弦变换(MDCT)和改进离散正弦变换(MDST)(而不是离散傅立叶变换(DFT))产生输入到心理建模单元100的频谱音频信号。由于MDCT和MDST分别代表音频信号的实部和虚部,因此可表示音频信号的相位信息。因此,可解决DFT和MDCT之间不匹配的问题。当通过使用经受了DFT的时域音频信号量化MDCT的系数时发生不匹配的问题。
ISC选择单元150通过使用SMR值从音频信号选择ISC。ISC选择单元150包括第一ISC选择器152、第二ISC选择器154和第三ISC选择器156以分别选择一个或多个第一ISC、第二ISC和第三ISC。一个或多个第一ISC、第二ISC和/或第三ISC可被称为ISC。
第一ISC选择器152通过使用由心理建模单元100计算的SMR值选择掩蔽阈值小于频谱音频信号的掩蔽阈值的一个或多个频谱信号作为一个或多个第一重要频谱分量(ISC)。
第二ISC选择器154根据预定权重因数通过从在第一ISC选择器152中选作为一个或多个第一ISC的音频信号提取频谱峰值来选择一个或多个第二ISC。
在一个或多个第一ISC中搜索频谱峰值。基于信号的大小确定频谱峰值。由经过MDCT和MDST变换的信号的实部平方加上虚部平方的根来定义信号的大小。通过使用该信号附近的频谱值获得该信号的权重因数。通过使用当前信号(当前信号的权重因数将被获得)的频率附近的预定数量的频谱值来获得第二ISC选择器154中的权重因数。可通过使用等式1获得该权重因数。
等式1
这里,|SCk|表示权重因数将被获得的当前信号的大小,|SCi|和|SCj|表示当前信号附近的信号的大小。此外,len表示当前信号附近的信号的数量。
基于该信号的峰值和权重因数选择第二ISC。例如,峰值和权重因数的乘积与预定阈值进行比较以仅选择大于该阈值的值作为第二ISC。
第三ISC选择器156对音频信号执行信噪比(SNR)均衡。也就是,该音频信号的频谱分量被分为频带,并且获得这些频带的SNR,在具有低SNR的频带中,峰值大于预定值的频谱分量被选作为一个或多个第三ISC。执行这种操作来防止ISC集中在特定频带上。换句话说,在具有低SNR的频带中选择主要峰值,从而在整个频带中这些频带的SNR近似相等。其结果是,具有低SNR的频带的SNR值增加,从而整个频带的SNR值近似相等。
组成ISC选择单元150的第一ISC选择器152、第二ISC选择器154和第三ISC选择器156可选择性地用于提取具有感知的重要频谱分量(ISC)的音频信号。例如,仅第一ISC选择器152和第二ISC选择器154可被使用。然而,仅第一ISC选择器152和第三ISC选择器156可被使用。否则,所有的第一ISC选择器152、第二ISC选择器154和第三ISC选择器156都可被使用。因此,可从音频信号提取第一ISC、第二ISC和/或第三ISC以被用作ISC,从而在音频信号的所有频谱分量的量化和/或其无损编码中使用提取的ISC压缩音频信号。
图2是示出根据本发明总体发明构思的实施例的提取音频信号的重要频谱分量以按低比特率压缩音频信号的方法的流程图。参照图1和图2,通过使用心理模型计算变换到频域的音频信号的SMR值(操作200)。接下来,通过使用SMR值,在掩蔽阈值低于频域中的音频信号的掩蔽阈值的频谱信号被选作为第一SIC(操作220)。
根据预定权重因数从选作为第一ISC的音频信号提取频谱峰值并将该频谱峰值选作为第二ISC(操作240)。可通过使用当前信号(当前信号的权重因数将被获得)的频率附近的预定频率的频谱值来获得权重因数。操作240可以与前述图1的第二ISC选择器154的操作相同。因此,省略对其的描述。
通过执行SNR均衡选择频率(或频带)的第三ISC(操作260)。也就是,音频信号的频谱分量被分为频带,获得频带的SNR,并且在具有低SNR的频带中,峰值大于预定值的频谱分量被选作为第三ISC。第一ISC、第二ISC和第三ISC可被统称为ISC。如上所述,执行这种操作来防止ISC集中在特定频带上。换句话说,在具有低SNR的频带中选择主要峰值,从而在整个频带中,具有低SNR的频带的SNR近似相等。其结果是,具有低SNR的频带的SNR值增加,从而整个频带的SNR值近似相等。
另一方面,可选择地使用操作220至260中的ISC提取。例如,仅操作200和200可被用于提取ISC。然而,仅操作200和260可用于提取ISC。否则,所有的操作200、240和260可用于提取ISC。
图3是示出根据本发明总体发明构思的实施例的从输入的音频信号提取重要频谱分量以按低比特率压缩音频信号的方法的示意图。参照图2和图3,例如使用MDCT和MDST将输入的音频信号变换为频谱音频信号,并且根据与可听见信号和听不见信号相应的心理模型的心理特征计算与变换的频谱音频信号相应的信号掩蔽比(SMR)值。可根据SNR值、权重因数(或权重最大值)和/或SNR均衡获得具有第一ISC、第二ISC和/或第三ISC的频谱音频信号。
图4是示出根据本发明总体发明构思的实施例的使用提取音频信号的重要频谱分量的设备的低比特率音频信号编码设备的构造的框图。低比特率音频信号编码设备包括ISC提取器420、量化器440和无损编码器460。低比特率音频信号编码设备还可包括T/F变换单元400。
参照图1和图4,T/F变换单元400通过使用改进离散余弦变换(MDCT)和改进离散正弦变换(MDST)将时域音频信号变换为频谱信号(频谱音频信号)。通过使用MDCT和MDST(而不是离散傅立叶变换(DFT))产生输入给ISC提取器420的心理模型的频谱音频信号。通过这样做,MDCT和MDST代表实部和虚部,从而可另外表示音频信号的相位分量。因此,可解决DFT和MDST不匹配的问题。当通过使用经过DFT的时域音频信号量化MDCT的系数时发生不匹配问题。
ISC提取器420从频谱音频信号提取具有ISC的音频信号。ISC提取器420可以与图1的音频信号ISC提取设备相同,因此省略对其的描述。也就是,ISC提取器420包括心理建模单元100和ISC选择单元150来选择具有ISC的音频信号。
量化器440量化ISC的音频信号。如图5所示,量化器440包括分组单元442、量化步长确定单元444和量化器446。
分组单元442根据使用的比特量和量化误差执行分组以最小化附加信息。下面执行对选择的ISC的量化。首先,根据比率失真对选择的ISC执行分组以最小化附加信息。比率失真表示使用的比特量和量化误差之间的关系。使用的比特量和量化误差可交替换位。也就是,如果使用的比特量增加,则量化误差减少。
相反,如果使用的比特量减少,则量化误差增加。选择的ISC被分组,并且分组的成本被计算。执行分组从而降低成本。
各组可以形成为相同,并且可以合并,从而降低频带的成本。此外,如等式2所示,通过将各组所需的比特数和关于比特数的附加信息相加来获得成本。
等式2
成本=qbit+附加信息[比特数]
这里,qbit表示每一组所需的比特数,附加信息包括缩放因数、量化信息等。
当完成分组时,量化步长确定单元444根据SMR和各组的数据分布(动态范围)确定量化步长。此外,采用组成该组的ISC的最大值将该ISC规格化。
量化器446量化组的音频信号。通过使用采用组的ISC的最大值规格化的值和量化步长来确定量化器446。
量化可以是Max-LIoyd量化。
无损编码器460对量化的信号执行无损编码。如图6所示,无损编码器460包括索引单元462和随机模型无损编码器464。无损编码可以是上下文算术编码。
索引单元462产生一个或多个频谱索引以代表构成每一帧的频谱分量。频谱索引指示ISC的存在。通过使用上下文算术编码对ISC的频谱信息编码。更具体地讲,通过代表ISC的选择的频谱索引设置构成每一帧的频谱分量。频谱索引可以是具有代表ISC的存在或不存在的0或1的信号。
随机模型无损编码器464根据与先前帧的相关性和相邻ISC的分布选择随机模型,并且对音频信号的量化值和附加信息(包括量化器信息、量化步长、分组信息和频谱索引信息)执行无损编码。
图7是示出根据本发明总体发明构思的实施例的使用音频信号ISC提取方法的低比特率音频信号编码方法的流程图。
参照图4和图7,通过使用改进离散余弦变换(MDCT)和改进离散正弦变换(MDST)来将时域音频信号变换为频谱信号(操作700)。变换的频谱音频信号被输入到心理模型。在心理模型中,计算信号掩蔽比(SMR)以预测频谱音频信号的重要性(操作720)。通过使用SMR值提取ISC(操作740)。该ISC提取可以与图2的ISC提取方法相同,因此省略对其的描述。
在提取ISC之后,执行ISC量化(操作760)。在图8中示出ISC量化的详细操作。参照图8,根据使用的比特量和量化误差之间的关系执行分组以最小化附加信息(操作762)。该分组可以与图5的分组单元442的分组相同,因此省略对其的描述。
在分组之后,根据SMR和各组的数据分布(动态范围)确定量化步长(操作764)。此外,采用ISC的最大值将组成组的ISC规格化。
接下来,通过使用采用组的最大值规格化的值和量化步长确定量化器。
量化可以是Max-LIoyd量化。
参照回图7,在量化之后,执行无损编码(操作780)。通过上下文算术编码对ISC的量化值和频谱信息编码。此外,通过代表ISC的选择的频谱索引设置组成每一帧的频谱分量。频谱索引分别采用0和1代表ISC的存在和不存在。接下来,对频谱索引的值编码。根据与先前帧的相关性和相邻ISC的分布选择随机模型,并且执行无损编码。接下来,对编码值执行比特打包。
图9是示出对使用提取音频信号的重要频谱分量的设备编码的低比特率音频信号进行解码的低比特率音频信号解码设备的框图。低比特率音频信号解码设备包括无损解码器900、逆量化器920和F/T变换单元940。
无损解码器900提取各组的随机模型信息,并且通过使用随机模型信息恢复各组的指示ISC的存在的索引信息、量化器信息、量化步长、ISC分组信息和音频信号量化值。
逆量化器920参照恢复的量化器信息、量化步长和分组信息执行逆量化。
F/T变换单元940将逆量化的值变换为时域信号。
图10是示出根据本发明总体发明构思的实施例的对使用提取具有ISC的音频信号的设备编码的低比特率音频信号进行解码的低比特率音频信号解码方法的流程图。将参照图9和图10描述低比特率音频信号解码方法和设备的操作。
首先,通过无损解码器900提取帧的随机模型信息(操作1000)。接下来,通过使用随机模型信息恢复指示ISC的存在的索引信息、量化器信息、量化步长、ISC分组信息和音频信号量化值(操作1020)。接下来,由逆量化器920根据恢复的量化器信息、量化步长和分组信息对量化值逆量化(操作1040)。在逆量化之后,通过F/T变换单元940将逆量化的值变换为时域信号(操作1060)。
根据提取具有ISC的音频信号的方法和设备以及使用该方法和设备的低比特率音频信号编码/解码方法和设备,能够有效地对感知重要频谱分量编码以获得低比特率的高声音质量。此外,能够通过使用心理模型提取感知重要分量,无需相位信息执行编码,并且有效地代表低比特率频谱信号。此外,可在需要低比特率音频编码方案的所有应用中和下一代音频方案中应用本发明。
本发明总体发明构思也可实现为计算机可读记录介质上的计算机可读代码。计算机可读记录介质是可存储其后由计算机***读取的数据的任何数据存储装置。计算机可读记录介质的例子包括只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘、关学数据存储装置和载波(例如,通过互联网的数据传输)。计算机可读记录介质也可分布在网络连接的计算机***,从而以分布方式存储和执行计算机可读代码。此外,本发明所属领域的编程人员容易解释实现本发明的功能性程序、代码和代码段。
尽管已经显示和描述了本发明总体发明构思的一些实施例,但是本领域的技术人员应该理解,在不脱离本发明总体发明构思的原理和精神的情况下,可以对这些实施例进行改变,在权利要求及其等同物中限定本发明总体发明构思的范围。
Claims (38)
1.一种音频信号编码和/或解码***的方法,该方法包括:
根据心理模型对变换的频谱音频信号计算包括SMR值的感知重要性;
根据计算的感知重要性将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为一个或多个第一ISC;和
根据预定权重因数从选作为所述一个或多个第一ISC的频谱音频信号提取频谱峰值以选择将被用于对频谱音频信号编码的一个或多个第二ISC。
2.如权利要求1所述的方法,其中,提取频谱峰值作为一个或多个第二ISC的步骤包括:根据权重因数将被获得的当前信号的频率附近的预定数量的频谱值获得权重因数。
3.如权利要求1所述的方法,还包括:
获得与频谱音频信号的频带相应的SNR;和
将具有低SNR的频带中峰值大于预定值的频谱分量选作为将被用于对频谱音频信号编码的一个或多个第三ISC。
4.一种音频信号编码和/或解码***的方法,该方法包括:
根据心理模型对变换的频谱音频信号计算包括SMR值的感知重要性;
根据计算的感知重要性将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为一个或多个第一ISC;和
获得与具有所述一个或多个第一ISC的频谱音频信号的频带相应的SNR,并且将具有低SNR的频带中峰值大于预定值的频谱分量选作为一个或多介另一ISC。
5.一种低比特音频信号编码方法,包括:
根据心理模型对频谱音频信号计算包括SMR值的感知重要性;
根据感知重要性将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为一个或多个第一ISC;和
根据预定权重因数从具有所述一个或多个第一ISC的频谱音频信号提取频谱峰值,并将该频谱峰值的频率选作为一个或多个第二ISC;和
根据所述一个或多个第一ISC和第二ISC对频谱音频信号执行量化和无损编码。
6.如权利要求5所述的低比特率音频信号编码方法,其中,提取频谱峰值的步骤包括:获得频谱音频信号的频带的SNR,并且将具有低SNR的频带中峰值大于预定值的频谱分量选作为一个或多个第三ISC。
7.如权利要求5所述的低比特率音频信号编码方法,其中,计算包括频谱音频信号的SMR值的感知重要性的步骤包括:通过使用MDCT和MDST来将时域音频信号变换为频谱音频信号,以产生频谱音频信号。
8.如权利要求5所述的低比特率音频信号编码方法,其中,对频谱音频信号执行量化的步骤包括:
根据使用的比特量和量化误差执行分组以形成多个组,从而最小化附加信息;
根据SMR和所述多个组的动态范围的数据分布确定量化步长;和
通过使用所述多个组的预定量化器对频谱音频信号量化。
9.如权利要求8所述的低比特率音频信号编码方法,其中,对频谱音频信号量化的步骤包括:采用组的最大值规格化的值和量化步长确定量化器。
10.如权利要求8所述的低比特率音频信号编码方法,其中,执行量化的步骤包括:执行Max-LIoyd量化。
11.如权利要求8所述的低比特率音频信号编码方法,其中,对量化的信号执行无损编码的步骤包括:执行上下文算术编码。
12.如权利要求11所述的低比特率音频信号编码方法,其中,执行上下文算术编码的步骤包括:
使用组成频谱音频信号的帧的频谱分量产生一个或多个频谱索引以指示第一ISC和第二ISC中的至少一个的存在;和
根据与先前帧的相关性和相邻ISC的分布选择随机模型,并且对频谱音频信号的量化值以及包括量化器信息、量化步长、分组信息和频谱索引值的附加信息执行无损编码。
13.一种低比特率音频信号编码方法,包括:
根据心理模型计算包括频谱音频信号的SMR值的感知重要性;
根据感知重要性将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱信号选作为一个或多个第一ISC;
获得具有第一ISC的频谱音频信号的频带的SNR,并且将具有低SNR的频带中峰值大于预定值的频谱分量选作为一个或多个另一ISC;和
对具有所述一个或多个第一ISC和另一ISC中的至少一个的频谱音频信号执行量化和无损编码。
14.一种提取音频信号的分量的设备,包括:
心理建模单元,根据心理模型计算包括变换的频谱音频信号的SMR值的感知重要性;
第一ISC选择单元,根据感知重要性将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为一个或多个第一ISC;和
第二ISC选择单元,根据预定权重因数从选作为第一ISC的频谱音频信号提取频谱峰值以选择一个或多个第二ISC。
15.如权利要求14所述的设备,其中,通过使用权重因数将被获得的当前信号的频率附近的预定数量的频谱值获得第二ISC选择单元的权重因数。
16.如权利要求14所述的设备,还包括:
第三ISC选择单元,获得频谱音频信号的频带的SNR,并将具有低SNR的频带中峰值大于预定值的频谱分量选作为一个或多个第三ISC。
17.一种提取音频信号的分量的设备,包括:
心理建模单元,根据心理模型计算包括变换的频谱音频信号的SMR值的感知重要性;
第一ISC选择单元,使用感知重要性将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为一个或多个第一ISC;和
另一ISC选择单元,获得与具有所述一个或多个第一ISC的频谱音频信号的频带相应的SNR,并且将具有低SNR的频带中峰值大于预定值的频谱分量选作为一个或多个另一ISC。
18.一种低比特音频信号编码设备,包括:
心理建模单元,根据心理模型计算包括变换的频谱音频信号的SMR值的感知重要性;
第一ISC选择单元,使用SMR值将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一ISC;
第二ISC选择单元,根据预定权重因数从选作为第一ISC的频谱音频信号提取频谱峰值以选择第二ISC;
量化器,对与第一ISC和第二ISC相应的频谱音频信号量化;和
无损编码器,对量化的信号执行无损编码。
19.如权利要求18的低比特率音频信号编码设备,还包括:
第三ISC选择单元,获得频谱音频信号的频带的SNR,并且将具有低SNR的频带中峰值大于预定值的频谱分量选作为第三ISC。
20.如权利要求18的低比特率音频信号编码设备,还包括:
T/F变换单元,通过使用MDCT和MDST来将时域音频信号变换为频谱音频信号。
21.如权利要求18的低比特率音频信号编码设备,其中,量化器包括:
分组单元,根据使用的比特量和量化误差对频谱音频信号执行分组以最小化附加信息;
量化步长确定单元,根据SMR和各组的数据分布确定量化步长;和
量化器,通过使用各组的预定量化器对频谱音频信号量化。
22.如权利要求21的低比特率音频信号编码设备,其中,量化器使用Max-LIoyd量化对频谱音频信号量化。
23.如权利要求21的低比特率音频信号编码设备,其中,无损编码器使用上下文算术编码执行无损编码。
24.如权利要求23的低比特率音频信号编码设备,其中,无损编码器包括:
索引单元,使用组成频谱音频信号的帧的频谱分量产生频谱索引以指示第一ISC和第二ISC的存在;和
随机模型无损编码器,根据与先前帧的相关性和相邻ISC的分布选择随机模型,并且对频谱音频信号的量化值以及包括量化器信息、量化步长、分组信息和频谱索引值的附加信息执行无损编码。
25.一种低比特率音频信号编码设备,包括:
心理建模单元,根据心理模型计算包括变换的频谱音频信号的SMR值的感知重要性;
第一ISC选择单元,使用感知重要性将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱信号选作为第一ISC;
第三ISC选择单元,获得与选作为第一ISC的频谱音频信号中的频带相应的SNR,并且将具有低SNR的频带中峰值大于预定值的频谱分量选作为另一ISC;
量化器,对具有第一ISC和所述另一ISC的频谱音频信号量化;和
无损编码器,对量化的信号执行无损编码。
26.一种低比特音频信号解码方法,包括:
对音频信号恢复指示ISC的存在的索引信息、量化器信息、量化步长、ISC分组信息和音频信号量化值;
根据恢复的量化器信息、量化步长和分组信息对音频信号执行逆量化;和
将逆量化的信号变换为时域信号。
27.如权利要求26所述的低比特率音频信号解码方法,还包括:
通过使用对音频信号的帧预测的随机模型信息对指示ISC的存在的索引信息、量化步长和ISC分组信息执行无损解码。
28.如权利要求26所述的低比特率音频信号解码方法,还包括:
通过使用预定随机模型对指示ISC的存在的索引信息、量化步长和ISC分组信息执行无损解码。
29.如权利要求26所述的低比特率音频信号解码方法,恢复ISC的步骤包括:
对ISC解码;和
通过使用指示ISC的存在的索引信息将解码的ISC映射到频谱轴。
30.一种低比特率音频信号解码设备,包括:
无损解码器,提取用于音频信号的帧的随机模型信息,并且通过使用该随机模型信息恢复指示ISC的存在的索引信息、量化器信息、量化步长、ISC分组信息和音频信号量化值;
逆量化器,根据恢复的量化器信息、量化步长和分组信息对音频信号执行逆量化;和
F/T变换单元,将逆量化的信号变换为时域信号。
31.如权利要求30所述的低比特率音频信号解码设备,其中,无损解码器通过使用对音频信号的帧预测的随机模型信息对指示ISC的存在的索引信息、量化步长和ISC分组信息执行无损解码。
32.如权利要求30所述的低比特率音频信号解码设备,其中,无损解码器通过使用预定随机模型对指示ISC的存在的索引信息、量化步长和ISC分组信息执行无损解码。
33.如权利要求30所述的低比特率音频信号解码设备,其中,无损解码器对ISC解码,并通过使用指示ISC的存在的索引信息将解码的ISC映射到频谱轴。
34.一种实现用于执行以下方法的计算机程序的计算机可读介质,该方法包括:
根据心理模型计算包括变换的频谱音频信号的SMR值的感知重要性;
将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为一个或多个第一ISC;和
根据预定权重因数从选作为所述一个或多个第一ISC的频谱音频信号提取频谱峰值以选择将被用于对频谱音频信号编码的一个或多个第二ISC。
35.一种实现用于执行以下方法的计算机程序的计算机可读介质,该方法包括:
对音频信号恢复指示ISC的存在的索引信息、量化器信息、量化步长、ISC分组信息和音频信号量化值;
根据恢复的量化器信息、量化步长和分组信息对音频信号执行逆量化;和
将逆量化的信号变换为时域信号。
36.一种音频信号编码和/或解码***,包括:
编码器,根据频带的SMR值、以及权重因数和SNR中的一个选择具有一个或多个ISC的频谱音频信号,并且根据关于选择的ISC的信息对频谱音频信号编码;和
解码器,根据所述信息对编码频谱音频信号解码。
37.一种音频信号编码和/或解码***,包括:
编码器,根据频谱音频信号的频带的SMR值、以及权重因数和SNR中的一个选择具有一个或多个ISC的频谱音频信号,并且根据关于选择的ISC的信息对频谱音频信号编码。
38.一种音频信号编码和/或解码***,包括:
解码器,根据关于一个或多个ISC的信息对编码的音频信号解码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210441382.2A CN103106902B (zh) | 2005-07-15 | 2006-07-14 | 低比特率音频信号解码方法 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020050064507 | 2005-07-15 | ||
KR10-2005-0064507 | 2005-07-15 | ||
KR1020050064507A KR100851970B1 (ko) | 2005-07-15 | 2005-07-15 | 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치 |
PCT/KR2006/002775 WO2007027006A1 (en) | 2005-07-15 | 2006-07-14 | Method and apparatus to extract important spectral component from audio signal and low bit-rate audio signal coding and/or decoding method and apparatus using the same |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210441382.2A Division CN103106902B (zh) | 2005-07-15 | 2006-07-14 | 低比特率音频信号解码方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101223576A true CN101223576A (zh) | 2008-07-16 |
CN101223576B CN101223576B (zh) | 2012-12-26 |
Family
ID=37662729
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006800259202A Expired - Fee Related CN101223576B (zh) | 2005-07-15 | 2006-07-14 | 从音频信号提取重要频谱分量的方法和设备以及使用其的低比特率音频信号编码和/或解码方法和设备 |
CN201210441382.2A Expired - Fee Related CN103106902B (zh) | 2005-07-15 | 2006-07-14 | 低比特率音频信号解码方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210441382.2A Expired - Fee Related CN103106902B (zh) | 2005-07-15 | 2006-07-14 | 低比特率音频信号解码方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US8615391B2 (zh) |
EP (2) | EP2490215A3 (zh) |
JP (2) | JP5107916B2 (zh) |
KR (1) | KR100851970B1 (zh) |
CN (2) | CN101223576B (zh) |
WO (1) | WO2007027006A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101645272B (zh) * | 2009-09-08 | 2012-01-25 | 华为终端有限公司 | 生成量化控制参数的方法、装置及音频编码设备 |
CN102714040A (zh) * | 2010-01-14 | 2012-10-03 | 松下电器产业株式会社 | 编码装置、解码装置、频谱变动量计算方法和频谱振幅调整方法 |
CN104737227A (zh) * | 2012-11-05 | 2015-06-24 | 松下电器(美国)知识产权公司 | 语音音响编码装置、语音音响解码装置、语音音响编码方法和语音音响解码方法 |
CN107077849A (zh) * | 2014-11-07 | 2017-08-18 | 三星电子株式会社 | 用于恢复音频信号的方法和设备 |
CN110767241A (zh) * | 2013-10-18 | 2020-02-07 | 瑞典爱立信有限公司 | 谱峰位置的编码与解码 |
WO2021012872A1 (zh) * | 2019-07-25 | 2021-01-28 | 腾讯科技(深圳)有限公司 | 一种编码参数调控方法、装置、设备及存储介质 |
CN112534723A (zh) * | 2018-08-08 | 2021-03-19 | 索尼公司 | 解码装置、解码方法和程序 |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2007088853A1 (ja) * | 2006-01-31 | 2009-06-25 | パナソニック株式会社 | 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法 |
FR2898443A1 (fr) * | 2006-03-13 | 2007-09-14 | France Telecom | Procede de codage d'un signal audio source, dispositif de codage, procede et dispositif de decodage, signal, produits programme d'ordinateur correspondants |
US20080243518A1 (en) * | 2006-11-16 | 2008-10-02 | Alexey Oraevsky | System And Method For Compressing And Reconstructing Audio Files |
KR101355376B1 (ko) * | 2007-04-30 | 2014-01-23 | 삼성전자주식회사 | 고주파수 영역 부호화 및 복호화 방법 및 장치 |
KR101411900B1 (ko) * | 2007-05-08 | 2014-06-26 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 장치 |
KR101435411B1 (ko) * | 2007-09-28 | 2014-08-28 | 삼성전자주식회사 | 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화간격을 결정하는 방법과 이를 이용한 오디오 신호의부호화/복호화 방법 및 그 장치 |
US8452586B2 (en) * | 2008-12-02 | 2013-05-28 | Soundhound, Inc. | Identifying music from peaks of a reference sound fingerprint |
US9390167B2 (en) | 2010-07-29 | 2016-07-12 | Soundhound, Inc. | System and methods for continuous audio matching |
US8457976B2 (en) | 2009-01-30 | 2013-06-04 | Qnx Software Systems Limited | Sub-band processing complexity reduction |
MX2012004569A (es) * | 2009-10-20 | 2012-06-08 | Fraunhofer Ges Forschung | Codificador de audio, decodificador de audio, metodo para codificar informacion de audio, metodo para decodificar informacion de audio y programa de computacion que usa la deteccion de un grupo de valores espectrales previamente decodificados. |
WO2011086924A1 (ja) * | 2010-01-14 | 2011-07-21 | パナソニック株式会社 | 音声符号化装置および音声符号化方法 |
EP2355094B1 (en) * | 2010-01-29 | 2017-04-12 | 2236008 Ontario Inc. | Sub-band processing complexity reduction |
US9047371B2 (en) | 2010-07-29 | 2015-06-02 | Soundhound, Inc. | System and method for matching a query against a broadcast stream |
WO2012110481A1 (en) | 2011-02-14 | 2012-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio codec using noise synthesis during inactive phases |
EP3503098B1 (en) | 2011-02-14 | 2023-08-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method decoding an audio signal using an aligned look-ahead portion |
SG192734A1 (en) | 2011-02-14 | 2013-09-30 | Fraunhofer Ges Forschung | Apparatus and method for error concealment in low-delay unified speech and audio coding (usac) |
KR101617816B1 (ko) * | 2011-02-14 | 2016-05-03 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 스펙트럼 도메인 잡음 형상화를 사용하는 선형 예측 기반 코딩 방식 |
MY159444A (en) | 2011-02-14 | 2017-01-13 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V | Encoding and decoding of pulse positions of tracks of an audio signal |
JP5712288B2 (ja) | 2011-02-14 | 2015-05-07 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 重複変換を使用した情報信号表記 |
TWI469136B (zh) | 2011-02-14 | 2015-01-11 | Fraunhofer Ges Forschung | 在一頻譜域中用以處理已解碼音訊信號之裝置及方法 |
TWI476760B (zh) | 2011-02-14 | 2015-03-11 | Fraunhofer Ges Forschung | 用以使用暫態檢測及品質結果將音訊信號的部分編碼之裝置與方法 |
WO2012144128A1 (ja) * | 2011-04-20 | 2012-10-26 | パナソニック株式会社 | 音声音響符号化装置、音声音響復号装置、およびこれらの方法 |
US9035163B1 (en) | 2011-05-10 | 2015-05-19 | Soundbound, Inc. | System and method for targeting content based on identified audio and multimedia |
CN102208188B (zh) | 2011-07-13 | 2013-04-17 | 华为技术有限公司 | 音频信号编解码方法和设备 |
US10957310B1 (en) | 2012-07-23 | 2021-03-23 | Soundhound, Inc. | Integrated programming framework for speech and text understanding with meaning parsing |
EP3217398B1 (en) | 2013-04-05 | 2019-08-14 | Dolby International AB | Advanced quantizer |
CN110867190B (zh) | 2013-09-16 | 2023-10-13 | 三星电子株式会社 | 信号编码方法和装置以及信号解码方法和装置 |
US10388293B2 (en) | 2013-09-16 | 2019-08-20 | Samsung Electronics Co., Ltd. | Signal encoding method and device and signal decoding method and device |
US9507849B2 (en) | 2013-11-28 | 2016-11-29 | Soundhound, Inc. | Method for combining a query and a communication command in a natural language computer system |
US9292488B2 (en) | 2014-02-01 | 2016-03-22 | Soundhound, Inc. | Method for embedding voice mail in a spoken utterance using a natural language processing computer system |
WO2015122752A1 (ko) | 2014-02-17 | 2015-08-20 | 삼성전자 주식회사 | 신호 부호화방법 및 장치와 신호 복호화방법 및 장치 |
CN106233112B (zh) * | 2014-02-17 | 2019-06-28 | 三星电子株式会社 | 信号编码方法和设备以及信号解码方法和设备 |
US11295730B1 (en) | 2014-02-27 | 2022-04-05 | Soundhound, Inc. | Using phonetic variants in a local context to improve natural language understanding |
US9564123B1 (en) | 2014-05-12 | 2017-02-07 | Soundhound, Inc. | Method and system for building an integrated user profile |
CN107077855B (zh) | 2014-07-28 | 2020-09-22 | 三星电子株式会社 | 信号编码方法和装置以及信号解码方法和装置 |
CN104616657A (zh) * | 2015-01-13 | 2015-05-13 | 中国电子科技集团公司第三十二研究所 | 高级音频编码*** |
US10432932B2 (en) * | 2015-07-10 | 2019-10-01 | Mozilla Corporation | Directional deringing filters |
US11222651B2 (en) * | 2019-06-14 | 2022-01-11 | Robert Bosch Gmbh | Automatic speech recognition system addressing perceptual-based adversarial audio attacks |
Family Cites Families (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5285498A (en) * | 1992-03-02 | 1994-02-08 | At&T Bell Laboratories | Method and apparatus for coding audio signals based on perceptual model |
KR100246370B1 (ko) | 1992-06-02 | 2000-03-15 | 구자홍 | 오디오신호의 적응직교변환 부호화 방법 |
KR100269213B1 (ko) * | 1993-10-30 | 2000-10-16 | 윤종용 | 오디오신호의부호화방법 |
JP3131542B2 (ja) * | 1993-11-25 | 2001-02-05 | シャープ株式会社 | 符号化復号化装置 |
US5625743A (en) * | 1994-10-07 | 1997-04-29 | Motorola, Inc. | Determining a masking level for a subband in a subband audio encoder |
US5706009A (en) * | 1994-12-29 | 1998-01-06 | Sony Corporation | Quantizing apparatus and quantizing method |
JP3341528B2 (ja) | 1995-01-20 | 2002-11-05 | ソニー株式会社 | 量子化装置および量子化方法 |
EP0720316B1 (en) * | 1994-12-30 | 1999-12-08 | Daewoo Electronics Co., Ltd | Adaptive digital audio encoding apparatus and a bit allocation method thereof |
KR0144011B1 (ko) * | 1994-12-31 | 1998-07-15 | 김주용 | 엠펙 오디오 데이타 고속 비트 할당 및 최적 비트 할당 방법 |
US5706392A (en) * | 1995-06-01 | 1998-01-06 | Rutgers, The State University Of New Jersey | Perceptual speech coder and method |
US5790759A (en) * | 1995-09-19 | 1998-08-04 | Lucent Technologies Inc. | Perceptual noise masking measure based on synthesis filter frequency response |
JPH09101799A (ja) * | 1995-10-04 | 1997-04-15 | Sony Corp | 信号符号化方法及び装置 |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
JP3304739B2 (ja) | 1996-02-08 | 2002-07-22 | 松下電器産業株式会社 | ロスレス符号装置とロスレス記録媒体とロスレス復号装置とロスレス符号復号装置 |
DE19628292B4 (de) * | 1996-07-12 | 2007-08-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren zum Codieren und Decodieren von Stereoaudiospektralwerten |
US6092041A (en) * | 1996-08-22 | 2000-07-18 | Motorola, Inc. | System and method of encoding and decoding a layered bitstream by re-applying psychoacoustic analysis in the decoder |
US5886276A (en) * | 1997-01-16 | 1999-03-23 | The Board Of Trustees Of The Leland Stanford Junior University | System and method for multiresolution scalable audio signal encoding |
JPH10301594A (ja) | 1997-05-01 | 1998-11-13 | Fujitsu Ltd | 有音検出装置 |
US6006179A (en) * | 1997-10-28 | 1999-12-21 | America Online, Inc. | Audio codec using adaptive sparse vector quantization with subband vector classification |
US6023674A (en) * | 1998-01-23 | 2000-02-08 | Telefonaktiebolaget L M Ericsson | Non-parametric voice activity detection |
AU3372199A (en) * | 1998-03-30 | 1999-10-18 | Voxware, Inc. | Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment |
JP3515903B2 (ja) * | 1998-06-16 | 2004-04-05 | 松下電器産業株式会社 | オーディオ符号化のための動的ビット割り当て方法及び装置 |
US6330531B1 (en) * | 1998-08-24 | 2001-12-11 | Conexant Systems, Inc. | Comb codebook structure |
KR200277959Y1 (ko) | 1998-08-26 | 2002-09-17 | 엘지 오티스 엘리베이터 유한회사 | 회전자의측면지지구조 |
US6266644B1 (en) * | 1998-09-26 | 2001-07-24 | Liquid Audio, Inc. | Audio encoding apparatus and methods |
US6240379B1 (en) | 1998-12-24 | 2001-05-29 | Sony Corporation | System and method for preventing artifacts in an audio data encoder device |
US6298322B1 (en) * | 1999-05-06 | 2001-10-02 | Eric Lindemann | Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal |
US6324505B1 (en) * | 1999-07-19 | 2001-11-27 | Qualcomm Incorporated | Amplitude quantization scheme for low-bit-rate speech coders |
JP4046454B2 (ja) | 2000-03-29 | 2008-02-13 | 三洋電機株式会社 | オーディオデータ符号化装置 |
JP2002196792A (ja) * | 2000-12-25 | 2002-07-12 | Matsushita Electric Ind Co Ltd | 音声符号化方式、音声符号化方法およびそれを用いる音声符号化装置、記録媒体、ならびに音楽配信システム |
KR100378796B1 (ko) | 2001-04-03 | 2003-04-03 | 엘지전자 주식회사 | 디지탈 오디오 부호화기 및 복호화 방법 |
US7136418B2 (en) * | 2001-05-03 | 2006-11-14 | University Of Washington | Scalable and perceptually ranked signal coding and decoding |
JP3942882B2 (ja) | 2001-12-10 | 2007-07-11 | シャープ株式会社 | ディジタル信号符号化装置およびそれを備えたディジタル信号記録装置 |
US7447631B2 (en) | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
US7398204B2 (en) * | 2002-08-27 | 2008-07-08 | Her Majesty In Right Of Canada As Represented By The Minister Of Industry | Bit rate reduction in audio encoders by exploiting inharmonicity effects and auditory temporal masking |
US7433824B2 (en) * | 2002-09-04 | 2008-10-07 | Microsoft Corporation | Entropy coding by adapting coding between level and run-length/level modes |
KR100467617B1 (ko) * | 2002-10-30 | 2005-01-24 | 삼성전자주식회사 | 개선된 심리 음향 모델을 이용한 디지털 오디오 부호화방법과그 장치 |
US7640157B2 (en) * | 2003-09-26 | 2009-12-29 | Ittiam Systems (P) Ltd. | Systems and methods for low bit rate audio coders |
KR100773234B1 (ko) | 2003-12-24 | 2007-11-02 | 현대중공업 주식회사 | 중장비의 엔진룸 냉각 시스템 |
US7725313B2 (en) * | 2004-09-13 | 2010-05-25 | Ittiam Systems (P) Ltd. | Method, system and apparatus for allocating bits in perceptual audio coders |
-
2005
- 2005-07-15 KR KR1020050064507A patent/KR100851970B1/ko not_active IP Right Cessation
-
2006
- 2006-07-06 US US11/480,897 patent/US8615391B2/en not_active Expired - Fee Related
- 2006-07-14 WO PCT/KR2006/002775 patent/WO2007027006A1/en active Application Filing
- 2006-07-14 EP EP12003918A patent/EP2490215A3/en not_active Ceased
- 2006-07-14 CN CN2006800259202A patent/CN101223576B/zh not_active Expired - Fee Related
- 2006-07-14 JP JP2008521328A patent/JP5107916B2/ja not_active Expired - Fee Related
- 2006-07-14 EP EP06823588A patent/EP1905007A4/en not_active Ceased
- 2006-07-14 CN CN201210441382.2A patent/CN103106902B/zh not_active Expired - Fee Related
-
2012
- 2012-05-24 JP JP2012118574A patent/JP5788833B2/ja not_active Expired - Fee Related
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101645272B (zh) * | 2009-09-08 | 2012-01-25 | 华为终端有限公司 | 生成量化控制参数的方法、装置及音频编码设备 |
CN102714040A (zh) * | 2010-01-14 | 2012-10-03 | 松下电器产业株式会社 | 编码装置、解码装置、频谱变动量计算方法和频谱振幅调整方法 |
CN104737227A (zh) * | 2012-11-05 | 2015-06-24 | 松下电器(美国)知识产权公司 | 语音音响编码装置、语音音响解码装置、语音音响编码方法和语音音响解码方法 |
CN110767241A (zh) * | 2013-10-18 | 2020-02-07 | 瑞典爱立信有限公司 | 谱峰位置的编码与解码 |
CN107077849A (zh) * | 2014-11-07 | 2017-08-18 | 三星电子株式会社 | 用于恢复音频信号的方法和设备 |
CN107077849B (zh) * | 2014-11-07 | 2020-09-08 | 三星电子株式会社 | 用于恢复音频信号的方法和设备 |
CN112534723A (zh) * | 2018-08-08 | 2021-03-19 | 索尼公司 | 解码装置、解码方法和程序 |
WO2021012872A1 (zh) * | 2019-07-25 | 2021-01-28 | 腾讯科技(深圳)有限公司 | 一种编码参数调控方法、装置、设备及存储介质 |
US11715481B2 (en) | 2019-07-25 | 2023-08-01 | Tencent Technology (Shenzhen) Company Limited | Encoding parameter adjustment method and apparatus, device, and storage medium |
Also Published As
Publication number | Publication date |
---|---|
US8615391B2 (en) | 2013-12-24 |
EP1905007A4 (en) | 2010-02-24 |
EP2490215A3 (en) | 2012-12-26 |
CN103106902A (zh) | 2013-05-15 |
EP2490215A2 (en) | 2012-08-22 |
KR100851970B1 (ko) | 2008-08-12 |
KR20070009339A (ko) | 2007-01-18 |
EP1905007A1 (en) | 2008-04-02 |
WO2007027006A1 (en) | 2007-03-08 |
JP5107916B2 (ja) | 2012-12-26 |
JP5788833B2 (ja) | 2015-10-07 |
JP2012198555A (ja) | 2012-10-18 |
CN103106902B (zh) | 2015-12-16 |
CN101223576B (zh) | 2012-12-26 |
JP2009501359A (ja) | 2009-01-15 |
US20070016404A1 (en) | 2007-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101223576B (zh) | 从音频信号提取重要频谱分量的方法和设备以及使用其的低比特率音频信号编码和/或解码方法和设备 | |
JP2904472B2 (ja) | ディジタル・オーディオ信号を効率的に圧縮するための方法、データ処理システムおよび装置 | |
CN100395817C (zh) | 编码设备、解码设备和解码方法 | |
CN101223577B (zh) | 对低比特率音频信号进行编码/解码的方法和设备 | |
CN101521014B (zh) | 音频带宽扩展编解码装置 | |
CN101055720B (zh) | 对音频信号编码和解码的方法和设备 | |
KR100634506B1 (ko) | 저비트율 부호화/복호화 방법 및 장치 | |
CN102436819B (zh) | 无线音频压缩、解压缩方法及音频编码器和音频解码器 | |
WO1998000837A1 (fr) | Procedes de codage et de decodage de signaux audio, et codeur et decodeur de signaux audio | |
CN100590712C (zh) | 编码装置和译码装置 | |
CN103765509A (zh) | 编码装置及方法、解码装置及方法以及程序 | |
CN101779236A (zh) | 基于频率子频带中的频谱动态的音频译码中的时间掩蔽 | |
KR20070037945A (ko) | 오디오 신호의 부호화/복호화 방법 및 장치 | |
US8149927B2 (en) | Method of and apparatus for encoding/decoding digital signal using linear quantization by sections | |
CN101162584A (zh) | 使用带宽扩展技术对音频信号编码和解码的方法和设备 | |
CN101105940A (zh) | 音频编解码的量化方法、反变换方法及音频编解码装置 | |
CN101667170A (zh) | 计算、量化、音频编码的装置和方法及程序 | |
EP0919989A1 (en) | Audio signal encoder, audio signal decoder, and method for encoding and decoding audio signal | |
KR101001748B1 (ko) | 오디오신호 복호화 방법 및 장치 | |
JP2000259190A (ja) | オーディオ信号圧縮方法及びオーディオ信号復号方法とオーディオ信号圧縮装置 | |
Sung et al. | An audio compression system using modified transform coding and dynamic bit allocation | |
Kandadai | Perceptual Audio Coding That Scales to Low Bitrates | |
MXPA98010783A (en) | Audio signal encoder, audio signal decoder, and method for encoding and decoding audio signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20121226 Termination date: 20170714 |