CN101322182B - 用于检测音调分量的***、方法和设备 - Google Patents
用于检测音调分量的***、方法和设备 Download PDFInfo
- Publication number
- CN101322182B CN101322182B CN2006800452996A CN200680045299A CN101322182B CN 101322182 B CN101322182 B CN 101322182B CN 2006800452996 A CN2006800452996 A CN 2006800452996A CN 200680045299 A CN200680045299 A CN 200680045299A CN 101322182 B CN101322182 B CN 101322182B
- Authority
- CN
- China
- Prior art keywords
- value
- signal
- iteration
- threshold value
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000001514 detection method Methods 0.000 title abstract description 11
- 238000005259 measurement Methods 0.000 claims description 37
- 238000003672 processing method Methods 0.000 claims description 17
- 230000005236 sound signal Effects 0.000 claims description 10
- 230000001413 cellular effect Effects 0.000 claims description 8
- 230000005284 excitation Effects 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 abstract description 16
- 230000003595 spectral effect Effects 0.000 abstract description 6
- 238000001228 spectrum Methods 0.000 description 27
- 238000010586 diagram Methods 0.000 description 23
- 230000008569 process Effects 0.000 description 23
- 230000005540 biological transmission Effects 0.000 description 14
- 238000013139 quantization Methods 0.000 description 13
- 230000007704 transition Effects 0.000 description 9
- 239000002131 composite material Substances 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 238000011002 quantification Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000010998 test method Methods 0.000 description 4
- 238000005311 autocorrelation function Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001747 exhibiting effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 101150012579 ADSL gene Proteins 0.000 description 1
- 102100020775 Adenylosuccinate lyase Human genes 0.000 description 1
- 108700040193 Adenylosuccinate lyases Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- KNDXZFMNQKSIHU-UHFFFAOYSA-N methyl 2,3,5,6-tetrachloro-4-methylsulfanylcarbonylbenzoate Chemical group COC(=O)C1=C(Cl)C(Cl)=C(C(=O)SC)C(Cl)=C1Cl KNDXZFMNQKSIHU-UHFFFAOYSA-N 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Spectrometry And Color Measurement (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
- Circuits Of Receivers In General (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本文中描述用于检测具有窄带宽频谱峰值的信号的***、方法和设备。所描述的配置的范围包括使用线性预测编码(LPC)分析方案的参数执行此检测的实施方案。
Description
相关申请案
本申请案主张2005年12月5日申请的题为“DETECTION OF NARROWBANDSIGNALS USING LPC ANALYSIS”(代理人案号050299P1)的第60/742,846号美国临时专利申请案的权益。
技术领域
本揭示案涉及信号处理。
背景技术
通过数字技术传输语音已变得普遍,尤其是在长途电话、包交换电话(例如IP语音(VoIP)),和数字无线电话(例如蜂窝式电话)中。此迅速发展已引发确定在维持重建语音的感知质量的同时可经一信道发送的最小信息量的兴趣。如果仅通过取样和数字化来传输语音,那么可能需要大约为64千位/秒(kbps)的数据速率,以实现与常规模拟缆线电话的语音质量相当的语音质量。然而,经由使用语音分析,继以适当的编码、传输和在接收器处的重新合成,可实现数据速率的显著降低。
经配置以通过提取与人类语音产生模型相关的参数来压缩语音的装置称为“语音编码器”。语音编码器通常包括编码器和解码器。编码器将传入的语音信号划分为时间区块(或“帧”),分析每一帧以提取某些相关参数,且将所述参数量化为二进制表示形式,例如一组位或二进制数据包。数据包经通信信道(即,有线或无线网路连接)传输到包括解码器的接收器。解码器接收和处理数据包,将其解量化(unquantize)以产生参数,且使用所述解量化参数重建语音帧。
语音编码器的功能是通过去除语音中固有的自然冗余而将数字化语音信号压缩为低位速率信号。数字压缩系通过以一组参数来表示输入语音帧且采用量化从而以一组位表示所述参数而实现。如果输入语音帧具有位数目Ni,且由语音编码器产生的相应数据包具有位数目No,那么所述语音编码器实现的压缩因子为Cr=Ni/No。挑战在于保持经解码的语音的高语音质量,同时实现目标压缩因子。语音编码器的性能视以下因素而定:(1)上述语音模型,或分析与合成过程的组合的执行情况;和(2)参数量化过程以每帧No位的目标位速率执行的情况。因此,语音模型的目标是在针对每一帧使用一小组参数的情况下俘获语音信号的信息内容,从而提供目标语音质量。
语音编码器可实施为时域编码器,其通过采用高时分辨率处理尝试俘获时域语音波形,以同时编码语音的小片段(通常为5毫秒(ms)子帧)。对于每一子帧,可借助此项技术中已知的各种搜索算法从码簿空间找到高精度表示形式。或者,语音编码器可实施为频域编码器,其执行分析过程以俘获具有一组参数的输入语音帧的短期语音频谱,且采用相应合成过程以从频谱参数中重建语音波形。根据已知量化技术(例如在A.Gersho和R.M.Gray,Vector Quantization and Signal Compression(1992)中描述的量化技术),参数量化器通过使用所存储的码向量的表示形式来表示参数,而保留所述参数。
众所周知的时域语音编码器为码激发线性预测(CELP)编码器。此编码器的一个实例在L.B.Rabiner和R.W.Schafer,Digital Processing of Speech Signals 396-453(1978)中描述。在CELP编码器中,通过线性预测(LP)分析去除语音信号中的短期相关或冗余,所述LP分析找到短期共振峰滤波器的系数。将短期预测滤波器应用于传入语音帧会产生LP残余信号,其使用长期预测滤波器参数和后续随机码簿而进一步模型化和量化。因此,CELP编码将编码时域语音波形的任务划分为编码LP短期滤波器系数和编码LP残余的独立任务。时域编码可以固定速率(即,对于每一帧使用相同数目的位No)或以可变速率(其中对于不同类型的帧内容使用不同位速率)来执行。可变速率编码器尝试仅使用将编解码器参数编码到足以获得目标质量的程度所需的位数目。示范性可变速率CELP编码器在第5,414,796号美国专利(Jacobs等人,1995年5月9日颁布)中描述。
时域编码器(例如CELP编码器)通常依赖每帧较高数目的位No来保持时域语音波形的准确性。此类编码器通常在每帧的位数目No相对较高(例如8kbps或以上)的情况下,传递极佳语音质量,且已成功地部署于较高速率商业应用中。然而,在低位速率(4kbps和以下)的情况下,时域编码器可能由于有限的可用位数目的缘故而无法保持高质量和稳健的性能。举例来说,低位速率下可用的有限码簿空间可削弱常规时域编码器的波形匹配能力。
语音编码器可经配置以根据待编码的信号的一个或一个以上质量来选择特定的编码模式和/或速率。举例来说,语音编码器可经配置以区分含有语音的帧与含有非语音信号(例如,信号音)的帧,且使用不同编码模式来编码语音帧和非语音帧。
发明内容
一种根据一个配置的信号处理方法包括对数字化音频信号的一时间部分执行编码操作,其中所述编码操作包括有序的多个迭代。此方法包括在所述有序多个迭代中的每一者处计算与所述编码操作的增益相关的测量的值。在一个实例中,所述编码操作是用于计算线性预测编码模型的参数的迭代程序。此方法包括为第一多个阈值中的每一者确定所述有序多个迭代中所计算的值与第一阈值之间的第一关系的状态发生改变的迭代,且存储所述迭代的指示。此方法包括将所存储的指示中的至少一者与第二多个阈值中的至少一个相应阈值进行比较。
一种根据另一配置的信号处理设备包括用于对数字化音频信号的一时间部分执行编码操作的装置,其中所述编码操作包括有序的多个迭代。此设备包括用于在所述有序多个迭代中的每一者处计算与所述编码操作的增益相关的测量的值的装置。此设备包括用于为第一多个阈值中的每一者确定所述有序多个迭代中所计算的值与阈值之间的第一关系的状态发生改变的迭代且用于存储所述迭代的指示的装置。此设备包括用于将所存储的指示中的至少一者与第二多个阈值中的至少一个相应阈值进行比较的装置。
一种根据另一配置的信号处理设备包括系数计算器,其经配置以执行编码操作来基于数字化音频信号的一时间部分计算多个系数,其中所述编码操作包括有序的多个迭代。此设备包括增益测量计算器,其经配置以在所述有序多个迭代中的每一者处计算与所述编码操作的增益相关的测量的值。所述设备包括第一比较单元,其经配置以为第一多个阈值中的每一者确定所述有序多个迭代中所计算的值与阈值之间的第一关系的状态发生改变的迭代,且存储所述迭代的指示。所述设备包括第二比较单元,其经配置以将所存储的指示中的至少一者与第二多个阈值中的至少一个相应阈值进行比较。
附图说明
图1展示语音信号的频谱的实例。
图2展示音调信号的频谱的实例。
图3展示根据所揭示的配置的方法M100的流程图。
图4A展示合成滤波器的直接形式实现的示意图。
图4B展示合成滤波器的网格实现的示意图。
图5展示方法M100的实施方案M110的流程图。
图6展示用于Leroux-Gueguen算法的实施方案的伪码列表。
图7展示包括任务T100和T200的实施方案的伪码列表。
图8展示任务T300的逻辑结构的实例。
图9A和图9B展示任务T300的流程图的实例。
图10展示包括任务T100、T200和T300的实施方案的伪码列表。
图11展示任务T300的逻辑模块的实例。
图12展示用于任务T400的配置的测试程序的实例。
图13展示任务T400的实施方案的流程图。
图14展示时间部分的四个不同实例A-D的增益测量Gi相对于迭代指数i的曲线。
图15展示任务T400的逻辑结构的实例。
图16A展示根据所揭示的配置的设备A100的框图。
图16B展示设备A100的实施方案A200的框图。
图17展示用于蜂窝式电话的***的图。
图18展示包括两个编码器和两个解码器的***的图。
图19A展示编码器的框图。
图19B展示解码器的框图。
图20展示用于模式选择的任务的流程图。
图21展示任务T400的另一实施方案的流程图。
图22展示任务T400的又一实施方案的流程图。
具体实施方式
本文中描述用于以窄带宽检测具有频谱峰值的信号(也称为“音调分量”或“音调”)的***、方法和设备。所描述的配置的范围包括使用通常已在语音编码器中使用的线性预测编码(LPC)分析方案的参数执行此检测的实施方案,借此与使用单独音调检测器的方法相比降低了计算复杂性。
除非上下文有明确限制,否则术语“计算”在本文中用于指示其任何普通含义,例如运算、产生值的列表和从值的列表中选择。在本描述内容和权利要求书中使用术语“包含”之处,并不排除其它元件或操作。术语“A基于B”用于指示其任何普通含义,包括以下情况:(i)“A等于B”和(ii)“A基于至少B”。
音调的实例包括电话中常碰到的特殊信号,例如呼叫进程音调(例如,回铃音调、繁忙信号、号码不可用音调、传真协议音调,或其它信号音)。音调分量的其它实例是双音调多频(DTMF)信号,其包括来自组{697Hz、770Hz、852Hz、941Hz}中的一个频率和来自组{1209Hz、1336Hz、1477Hz、1633Hz}中的一个频率。此类DTMF信号一般用于按键式信令。用户通常还使用小键盘在电话呼叫期间产生DTMF音调,从而与呼叫的另一端上的自动***(例如,语音邮件***或具有例如菜单的自动选择机制的其它***)交互。
通常,我们将音调信号定义为含有非常少的(例如,少于八个)音调的信号。音调信号的谱包络在这些音调的频率处具有尖锐峰值,在这些音调处此峰值(如图2的实例中所示)附近的谱包络的带宽远较小于语音信号(如图1的实例中所示)中的典型峰值附近的谱包络的带宽。举例来说,对应于音调分量的峰值的3-dB带宽可小于100Hz,且可小于50Hz、20Hz、10Hz或甚至5Hz。
可能需要检测语音编码器的信号输入是否是与某一类型的语音信号相反的音调信号。音调信号通常不能很好地通过语音编码器(尤其在低位速率的情况下),且解码后的结果通常听起来根本不像音调。音调信号的谱包络与语音信号的谱包络不同,且语音编解码器的传统分类过程可能无法为含有音调分量的帧选择合适的编码模式。因此,可能需要检测音调信号,使得可将适当的模式用于编码所述音调信号。
举例来说,某些语音编解码器使用噪音激发线性预测(NELP)模式来编码无声帧。尽管NELP模式可适用于类似噪音的波形,但此模式在用于编码音调信号时可能会产生不良结果。包括原型波形内插(PWI)的波形内插(WI)模式和原型音高周期(PPP)模式,良好地适合用于编码具有强周期分量的波形。然而,与相同速率的另一编码模式相比,NELP或WI模式在用于编码具有两个或两个以上音调分量的信号(例如,包括DTMF信号的信号)时,可产生不良结果。在低位速率(例如,半速率(例如4kbps)、四分之一速率(例如2kbps)或更低)下使用此类编码模式(这对于增加***容量可能合乎需要),可能产生更差的音调信号性能。可能需要使用可较普遍应用的编码模式(例如,码激发线性预测(CELP)模式或正弦语音编码模式)来编码音调信号。
还可能需要控制对音调信号编码的速率。在从多个速率中选择一速率以编码输入帧的可变速率语音编码器中,可能尤其需要此控制。举例来说,为了实现特殊信号(例如,回铃或DTMF音调)的高质量重现,可变速率语音编解码器可经配置以使用最高可能的速率或充分高的速率或特殊编码模式来编码其中已检测到至少一个音调的存在的信号。
当对音调信号执行线性预测编码(LPC)方案时,可能会出现问题。举例来说,音调信号的强频谱峰值可致使相应的LPC滤波器不稳定,可使LPC系数到用于传输的另一形式(例如,线谱对、线谱频率或导抗谱对)的转换变得复杂,且/或可降低量化效率。因此,可能需要检测音调信号,使得可(例如,通过使超越特定阶的LPC模型的参数变为零)修改LPC方案。
图3展示根据所揭示的配置的方法M100的流程图。任务T100对数字化音频信号的时间部分执行迭代编码操作(例如LPC分析)(其中,T100-i指示第i次迭代,且r指示迭代次数)。时间部分或“帧”通常选择为足够短,使得预期可将信号的谱包络保持相对稳定。一种典型帧长度为20毫秒,其对应于典型取样率8kHz上的160个样本,但可使用认为适合特定应用的任何帧长度或取样率。在一些应用中,帧无重叠,而在其它应用中,使用重叠帧方案。在重叠帧方案的一个实例中,扩展每一帧以包括来自相邻的先前帧和将来帧的样本。在另一实例中,扩展每一帧以仅包括来自相邻的先前帧的样本。在以下所述的特定实例中,假设无重叠帧方案。
线性预测编码(LPC)方案将待编码的信号s模型化为激发信号u与所述信号中的p个过去样本的线性组合之和,如以下表达式中:
其中G表示输入信号s的增益因子,且n表示样本或时间指数。根据此方案,可将输入信号s模型化为驱动具有以下形式的p阶全极点(或自回归)滤波器的激发源信号u。
对于输入信号的每一时间部分(例如帧),任务T100提取估计信号的长期谱包络的一组模型参数。通常,此提取以每秒50帧的速率执行。表征这些参数的信息可能与其它数据(例如,表征激发信号u的信息)一起以某一形式传送到解码器,在所述解码器处,所述信息用于重建输入信号s。
LPC模型的阶p可以是认为适合特定应用的任何值,例如4、6、8、10、12、16、20或24。在一些配置中,任务T100经配置以提取模型参数作为一组p个滤波器系数ai。在解码器处,这些系数可用于根据如图4A中所示的直接形式实现来实施合成滤波器。或者,任务T100可经配置以提取模型参数作为一组p个反射系数ki,所述反射系数可在解码器处使用以根据如图4B中所示的网格实现来实施合成滤波器。直接形式实现通常较简单,且运算成本较低,但LPC滤波器系数与反射系数相比对舍入和量化误差的稳健性较差,使得网格实现在使用固定点运算或另外具有有限精度的***中可能是优选的。(应注意,在此项技术的某些描述中,在上述表达式(1)中与在图4A和4B中所示的实施方案中,模型参数的符号相反)。
通常,编码器经配置以在传输信道上以量化形式传输模型参数。LPC滤波器系数没有界限,且可具有较大的动态范围,且通常在量化前将这些系数转换为另一形式,例如线谱对(LSP)、线谱频率(LSF)或导抗谱对(ISP)。在转换和/或量化前,还可对模型参数执行其它运算,例如感知加权(perceptual weighting)。
还可能需要编码器传输关于激发信号u的信息。某些编码器检测且传输有声语音信号的基频或周期,使得解码器使用所述频率上的脉冲群作为用于有声语音信号的激发和用于无声语音信号的随机噪音激发。其它编码器或编码模式使用滤波器系数来提取编码器处的激发信号u,且使用一个或一个以上码簿来编码所述激发。举例来说,CELP编码模式通常使用固定码簿和适应性码簿将激发信号模型化,使得将激发信号一般编码为用于固定码簿的指数和用于适应性码簿的指数。可能需要使用此CELP编码模式来传输音调信号。
可根据用于计算LPC模型参数(例如,滤波器系数和/或反射系数)的各种已知的迭代编码操作中的任一者来配置任务T100。这些编码操作通常经配置以通过运算一组使均方误差最小化的系数来以迭代方式对表达式(1)求解。此类型的运算通常可分类为自相关法或协方差法。
自相关法从输入信号的自相关函数的值开始,运算所述组滤波器系数和/或反射系数。此编码操作通常包括初始化任务,其中开窗函数w[n]应用于时间部分(例如帧)以将所述部分外的信号变为零。可能需要使用在窗口的每一末端处具有低样本加权的渐缩开窗函数,这有助于降低窗口外的分量的影响。举例来说,可能需要使用凸起余弦窗口,例如以下汉明(Hamming)窗口函数:
其中N为时间部分中的样本的数目。
其它可使用的渐缩窗口包括汉宁(Hanning)、布雷克曼(Blackman)、凯斯(Kaiser)和巴特莱特(Bartlett)窗口。窗口型部分sw[n]可根据例如以下表达式来计算:
sw[n]=s[n]w[n]; 0≤n≤N-1。
开窗函数无需对称,使得窗口的一半与另一半可具有不同加权。还可使用混合式窗口,例如汉明-余弦窗口或具有不同窗口的两半(例如两个不同大小的汉明窗口)的窗口。
可根据例如以下表达式来计算时间部分的自相关函数的值:
还可能需要在运算迭代之前,对自相关值执行一个或一个以上预处理运算。举例来说,自相关值R(m)可通过执行例如以下运算而进行谱平滑化:
自相关值的预处理还可包括使所述值正规化(例如,相对于指示时间部分的总能量的值R(0))。
计算LPC模型参数的自相关法涉及执行迭代过程,以对包括特普立兹(Toeplitz)矩阵的等式求解。在自相关法的某些实施方案中,任务T100经配置以根据用于对此类等式求解的众所周知的Levinson和/或Durbin递回算法中的任一者执行一系列迭代。如以下伪码列表中所示,此算法使用反射系数ki作为中间量,产生作为值ai (p)(1≤i≤p)的滤波器系数ai:
E0=R(0);
for(i=1;i≤p;i++){
} (2)
其中,可如上所述对输入自相关值进行预处理。
Ei项指示在迭代i之后剩余的误差(或残余)的能量。随着迭代系列的执行,残余能量逐渐减少,使得Ei≤Ei-1。图5展示方法M100的实施方案M110的流程图,所述方法包括经配置以根据如上所述的算法执行ki、ai和Ei的计算的任务T100的实施方案T110,其中T110-0指示一个或一个以上如本文中所述的初始化和/或预处理任务,例如帧的开窗、自相关值的运算、自相关值的谱平滑化等。
在自相关法的其它实施方案中,任务T100经配置以执行一系列迭代,来计算反射系数ki(也称为部分相关(PARCOR)系数、负PARCOR系数或Schur-Szego参数)而非滤波器系数ai。一种可用于任务T100中以获得反射系数的算法是Leroux-Gueguen算法,其使用脉冲响应估计值e作为中间量,且其在以下伪码列表中表示:
for(i=-(p-1);i≤p;i++)e0(i)=R(i);
for(m=1;m≤p;m++){
km=-em-1(m)/em-1(0);
for(i=-(p-1)+m;i≤p;i++)
em(i)=em-1(i)+kmem-1(m-i);
} (3)
Leroux-Gueguen算法通常使用替代阵列e的两个阵列EP、EN来实施。图6展示一个此类实施方案的伪码列表,所述实施方案在每一迭代处包括误差(或残余能量)项E(h)的计算。可用于从自相关值中获得反射系数ki的其它众所周知的迭代方法包括Schur递回算法,其可经配置以用于高效并行运算。
如上所提及,反射系数可用于实施合成滤波器的网格实现。或者,可经由以下伪码列表中所示的递回,从反射系数中获得LPC滤波器系数:
for(i=1;i≤p;i++){
}
协方差法是可用于任务T100以用迭代方式计算一组使均方误差最小化的系数的另一类编码操作。协方差法从输入信号的协方差函数的值开始,且通常将分析窗口应用于误差信号而非应用于输入语音信号。在此情况下,待求解的矩阵等式包括对称正定矩阵而非特普立兹矩阵,使得Levinson-Durbin和Leroux-Gueguen算法不可用,但Cholesky分解可用于高效地求解滤波器系数ai。然而,虽然协方差法可保持较高的频谱分辨率,但其并不保证所得的滤波器的稳定性。协方差法的使用不如自相关法的使用普遍。
对于编码操作的某些或所有迭代中的每一者,任务T200计算与编码操作的增益相关的测量的相应值。可能需要计算作为初始信号能量(例如窗口型帧的能量)的测量与当前残余的能量的测量之间的比率的增益测量。在一个此类实例中,根据以下表达式来计算迭代i的增益测量Gi:
在此情况下,因子Gi表示至此编码操作的LPC预测增益。所述预测增益也可根据以下表达式从反射系数ki中运算:
在另一此类实例中,可能需要计算增益测量Gi以表示当前LPC预测误差,如以下表达式中:
举例来说,增益测量Gi也可根据还包括乘积或E0与Ei之间的比率作为因子或项的其它表达式来计算。增益测量Gi可在线性尺度上或在另一域中表示,例如在对数尺度(例如log E0/Ei或log Ei/E0)上表示。任务T200的其它实施方案基于残余能量(例如Gi=ΔEi=Ei-Ei-1)的变化来计算增益测量。
通常,在每一迭代处计算增益测量Gi(例如,如图3和图5中所示的任务T200-i),但也可能实施任务T200,使得仅每隔一个迭代或每第三个迭代等方式来计算增益测量Gi。以下伪码列表展示可用于执行任务T100和T200两者的实施方案的上述伪码列表(2)的修改的一个实例:
E0=R(0);
for(i=1;i≤p;i++){
Gi=E0/Ei;
} (4)
图7展示可用于执行任务T100和T200两者的实施方案的图6中的伪码列表的修改的一个实例。
当被分析的信号中存在一个或一个以上音调时,所述迭代中的两个迭代之间的残余能量可快速下降。任务T300确定且记录第一迭代的指示,在所述第一迭代处增益测量的值与阈值T之间的关系的状态发生改变。举例来说,对于增益测量作为E0/Ei来计算的情况,任务T300可经配置以记录第一迭代的指示,在所述第一迭代处关系“Gi>T”(或“Gi≥T”)的状态从假变为真,或等效地,在所述第一迭代处关系“Gi≤T”(或“Gi<T”)的状态从真变为假。举例来说,对于增益测量作为Ei/E0来计算的情况,任务T300可经配置以记录第一迭代的指示,在所述第一迭代处关系“Gi>T”(或“Gi≥T”)的状态从真变为假,或等效地,在所述第一迭代处关系“Gi≤T”(或“Gi<T”)的状态从假变为真。
相关状态发生改变的第一迭代的所存储的指示也称为“停止命令”,且确定相关状态改变是否已发生的操作也称为“更新停止命令”。停止命令可存储目标迭代的指数值i或可存储指数值i的某一其它指示。本文中假设任务T300经配置以将每一停止命令初始化为缺省值零,但也明确预期且因此揭示其中任务T300经配置以将每一停止命令初始化为某一其它缺省值(例如p),或其中各自更新旗标的状态用于指示停止命令是否保存有效值的配置。在任务T300的后一类型的配置中,举例来说,如果更新旗标的状态已改变以防止进一步更新,那么认为相应的停止命令保存有效值。
任务T300可经配置以维持一个以上停止命令(例如,两个或两个以上)。也就是说,任务T300可经配置以为多个(q个)不同阈值Tj(其中1≤j≤q)中的每一者确定增益测量的值与阈值Tj之间的关系的状态发生改变的第一迭代,且存储所述迭代的指示(例如,存储到相应的存储器位置)。对于其中Gi随着i单调递增的配置(例如Gi=E0/Ei),可能需要以级数配置阈值,使得Tj<Tj+1。对于其中Gi随着i单调递减的配置(例如Gi=Ei/E0),可能需要以级数配置阈值,使得Tj>Tj+1。在一特定实例中,任务T300经配置以维持三个停止命令。一组可用于此情况下的阈值Tj的一个实例是T1=6.8dB、T2=8.1dB和T3=8.6dB(例如,对于Gi=E0/Ei)。一组可用于此情况下的阈值Tj的另一实例是T1=15dB、T2=20dB和T3=30dB(例如,对于Gi=E0/Ei)。
任务T300可经配置以在任务T200每次(例如,在任务T100的每一迭代处)计算增益测量Gi的值时,更新停止命令,使得在迭代系列完成时,停止命令为当前停止命令。或者,任务T300可经配置以在迭代系列完成后,(例如)通过以迭代方式处理已由任务T200记录的各自迭代的增益测量值Gi,来更新停止命令。
图8展示可由任务T300用于串行和/或并行地更新某一数目q的停止命令的逻辑结构的实例。在此实例中,所述结构的每一模块j确定增益测量是否大于(或者,不小于)停止命令Sj的相应阈值Tj。如果此结果为真,且停止命令的更新旗标也为真,那么更新停止命令以指示迭代的指数,且改变更新旗标的状态以防止停止命令的进一步更新。
图9A和图9B展示可在任务T300的替代实施方案中重复以用串行和/或并行方式更新一组停止命令中的每一者的流程图的实例。在这些实例中,仅在各自更新旗标仍为真的情况下,评估关系的状态。在图9B的实例中,停止命令在每一迭代处递增,直到增益测量Gi达到(或者,超过)阈值Tj为止,在此点上任务T300通过改变更新旗标的状态来禁止停止命令的进一步的递增。
以下伪码列表展示可用于执行所有任务T100、T200和T300的实施方案的上述伪码列表(4)的修改的一个实例。
E0=R(0);
for(j=1;j≤q;j++){S_update(j)=1;Sj=0;}
for(i=1;i≤p;i++){
Gi=E0/Ei;
for(j=1;j≤q;j++){
if(S_update(j)){
Sj++;
if(Gi>Tj)S_update(j)=0;
}
}
} (5)
在此实例中,列表(5)包括如图9B中所示的任务T300的实施方案。图10展示可用于执行所有任务T100、T200和T300的实施方案的图7中的伪码列表的修改的一个实例。
在一些配置中,可能CELP需要任务T300仅在一停止命令之前的停止命令的值已确定后,才更新所述停止命令。举例来说,可能需要不同停止命令具有不同值(例如,具有缺省值的停止命令除外)。图11展示可在任务T300的替代实施方案中重复的模块的一个此类实例,其中暂停停止命令的更新直到前一停止命令的值已确定为止。
任务T400将停止命令中的一者或一者以上与阈值进行比较。图12展示以升序依序地测试停止命令的用于任务T400的配置的测试程序的实例。在此实例中,任务T400将每一停止命令Si与相应上阈值和下阈值对(最后停止命令Sq除外,其在此特定实例中仅相对于下阈值而测试)进行比较,直到达成关于时间部分的音调的决策为止。图13展示针对q等于三的情况以串行方式执行此测试程序的任务T400的实施方案的流程图。
如图12中所示,第一可能的测试结果为停止命令具有小于(或者,不大于)相应下阈值的值。此结果可指示在低迭代指数处实现的预测增益比对于语音信号将预期的预测增益大。在此实例中,任务T400经配置以将时间部分分类为音调信号。
第二可能的测试结果为停止命令具有在下阈值与上阈值之间的值,这可指示频谱能量分布是语音信号典型的特征。在此实例中,任务T400经配置以将时间部分分类为非音调。
第三可能的测试结果为停止命令具有大于(或者,不小于)相应上阈值的值。此结果可指示在低迭代指数处实现的预测增益比对于语音信号将预期的预测增益小。在此实例中,此情况下,任务T400经配置以继续测试程序到下一停止命令。
图14展示时间部分的四个不同实例A-D的增益测量Gi相对于迭代指数i的曲线。在这些曲线中,垂直轴指示增益Gi的量值,水平轴指示迭代指数i,且p具有值12。如所述曲线上所指示,在这些实例中,分别向增益测量阈值T1、T2和T3分配值8、19和34,且分别向停止命令阈值TL1、TU1、TL2、TU2和TL3分配值3、4、7、8和11。(通常,对于任何指数i,TLi不必与TUi相邻,或TUi不必小于TL(i+1))。
使用这些阈值,曲线A-D中所示的所有时间部分将通过图13中所示的任务T400的特定实施方案而分类为音调。曲线A的时间部分将分类为音调,因为S1小于TL1。曲线B和C的时间部分将分类为音调,因为对于两个部分来说,S1大于TU1且S2小于TL2。还应注意,曲线C展示其中两个不同停止命令具有相同值的实例。曲线D的时间部分将分类为音调,因为S1和S2分别大于SU1和SU2,且S3小于TL3。
图15展示用于任务T400的逻辑结构的实例,其中可并行地执行图13中所示的测试。
可了解,在图13中所示的任务T400的实施方案中,即使仅已检查停止命令中的第一者,一旦已作出音调决策测试序列就终止。方法M100的实施方案的范围还包括其中继续测试序列的任务T400的配置。在一个此类配置中,如果任一停止命令具有小于(或者,不大于)相应下阈值的值,那么将时间部分分类为音调。在另一此类配置中,如果大多数停止命令具有小于(或者,不大于)相应下阈值的值,那么将时间部分分类为音调。
图21展示以降序依序地测试停止命令的任务T400的另一实施方案的流程图。在此实例中,使用两个停止命令(即,q=2)。此实施方案中可使用的特定值的范围包含组T1=15dB、T2=30dB,TL1=4、TL2=4和TU2=6。在另一实例中,用关系“≤”代替此任务中的关系“<”中的一者或一者以上。
图22展示以降序依序地测试停止命令的任务T400的又一实施方案的流程图,其中将每一停止命令Sq与一个相应阈值Tsq进行比较。在此实例中,使用两个停止命令(即,q=2)。此实施方案中可使用的特定值的范围包含组T1=15dB、T2=30dB,TS1=4和TS2=4。在另一实例中,用关系“≤”代替此任务中的关系“<”中的一者或一者以上。
此实施方案还说明其中任务T400的结果可视一个或一个以上其它条件而定的情况。此类条件的实例包含时间部分的一个或一个以上质量,例如时间部分的谱倾斜(即,第一反射系数)与阈值之间的关系的状态。此类条件的实例还包含信号的一个或一个以上历史,例如针对先前时间部分中的一者或一者以上的任务T400的结果。
如图3和图5中所示,任务T400可经配置以在迭代系列完成后执行。然而,方法M100的实施方案的预期范围还包括经配置以在只要停止命令被更新时就执行任务T400的实施方案;和经配置以在每一迭代处执行任务T400的实施方案。
方法M100的实施方案的范围还包括经配置以响应于任务T400的结果而执行一个或一个以上动作的实施方案。举例来说,当被编码的帧为音调时,可能需要截去或以另外的方式终止LP或其它语音编码操作。如上文所指出,音调信号的高频谱峰值可导致LPC滤波器中的不稳定性,且在信号有峰时,LPC系数到用于传输的另一形式(例如,线谱对、线谱频率或导抗谱对)的转换也会遭受损害。
方法M100的某些实施方案可经配置以根据由达成任务T400中的音调分类时的停止命令指示的迭代指数i来截去LPC分析。举例来说,此方法可经配置以通过(例如)将零值分配到用于指数i和以上的LPC系数(例如,滤波器系数)而减小那些系数的量值。此截断可在迭代系列完成后执行。或者,对于在每一迭代处执行任务T400或只要停止命令被更新时就执行任务T400的此类实施方案,此截断可包括在达到第p次迭代之前终止任务T100的迭代系列。
如上文所指出,方法M100的其它实施方案可经配置以基于任务T400的结果选择合适的编码模式和/或速率。通用编码模式(例如,码激发线性预测(CELP)或正弦编码模式)可类似地传递任何波形。因此,令人满意地将音调传送到解码器的一种途径是强制编码器使用此编码模式(例如,全速率CELP)。现代语音编码器通常应用确定如何对每一帧进行编码的若干标准(例如速率限度),使得强制应用特定编码模式可能需要超越许多其它决策。
方法M100的实施方案的范围还包括具有经配置以识别音调(一或多个)的频率或类型的任务的实施方案。在此情况下,可能需要使用特殊编码模式,以发送所述信息而非对时间部分进行编码。此方法可基于任务T400的结果开始执行频率识别任务(例如,与对所述帧继续语音编码程序相反)。举例来说,陷波滤波器阵列可用于识别时间部分的最强频率分量中的一者或一者以上的每一者的频率。此滤波器可经配置以将频谱(或其某一部分)划分为具有(例如)100Hz或200Hz的宽度的槽(bin)。频率识别任务可检查时间部分的整个频谱,或者仅检查选定频率区域或槽(例如,包括例如DTMF信号等普通信号音的频率的区域)。
在识别出DTMT信号的两个音调的情况下,可能需要使用特殊编码模式以传输对应于已识别的DTMF信号的数字,而非音调本身或实际频率的识别。频率识别任务还可经配置以检测一个或一个以上音调中的每一者的持续时间,所述信息可传输到解码器。执行方法M100的此实施方案的语音编码器还可经配置以在传输信道方案的旁信道(例如,数据或信令信道)上,而非在业务信道上将例如音调频率、振幅和/或持续时间的信息传输到解码器。
方法M100可用于语音编码器的情境中或可独立应用(例如,用以提供除语音编码器外的装置中的音调检测)。图16A展示根据所揭示的配置的设备A100的框图,所述设备A100还可用于语音编码器中,用作音调检测器和/或用作另一装置或***的一部分。
装置A100包括系数计算器A110,其经配置以执行迭代编码操作,以从数字化音频信号的一时间部分中计算多个系数(例如,滤波器系数和/或反射系数)。举例来说,系数计算器A110可经配置以执行如本文中所述的任务T100的实施方案。
系数计算器A110可经配置以根据如本文中所述的自相关法来执行迭代编码操作。图16B展示设备A100的实施方案A200的框图,所述设备A100还包括经配置以计算时间部分的自相关值的自相关计算器A105。自相关计算器A105还可经配置以执行如本文中所述的自相关值的谱平滑化。
设备A100包括增益测量计算器A120,其经配置以在有序多个迭代中的每一者处计算与编码操作的增益相关的测量的值。所述增益测量的值可为预测增益或预测误差。增益测量的值可在所述迭代处基于时间部分的能量的测量与残余能量的测量之间的比率来计算。举例来说,增益测量计算器A120可经配置以执行如本文中所述的任务T200的实施方案。
设备A100还包括第一比较单元A130,其经配置以存储所述有序多个迭代中所计算的值与第一阈值之间的第一关系的状态发生改变的迭代的指示。所述迭代的指示可实施为停止命令,且第一比较单元A130可经配置以更新一个或一个以上停止命令。举例来说,第一比较单元A130可经配置以执行如本文中所述的任务T300的实施方案。
设备A100还包括第二比较单元A140,其经配置以将所存储的指示与第二阈值进行比较。第二比较单元A140可经配置以基于比较的结果将所述时间部分分类为音调或非音调。举例来说,第二比较单元A140可经配置以执行如本文中所述的任务T400的实施方案。设备A100的又一实施方案包括如下文所述的模式选择器202的一实施方案,所述模式选择器经配置以基于第二比较单元A140的输出来选择编码模式和/或编码率。
设备A100的实施方案的各种元件可实施为驻存于(例如)同一芯片上或一芯片组中的两个或两个以上芯片中的电子和/或光学装置,但还预期无此限制的其它布置。此设备的一个或一个以上元件可整体或部分地实施为经配置以在逻辑元件(例如,晶体管、门)的一个或一个以上固定或可编程阵列上执行的一个或一个以上指令集,所述固定或可编程阵列例如是微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA(场可编程门阵列)、ASSP(专用标准产品)和ASIC(专用集成电路)。
设备A100的实施方案的一个或一个以上元件可能用于执行任务或执行不与设备的操作直接相关的其它指令集,例如与其中嵌入有所述设备的装置或***的另一操作相关的任务。设备A100的实施方案的一个或一个以上元件还可能具有共同的结构(例如,用于执行对应于不同时间的不同元件的代码部分的处理器、为执行对应于不同时间的不同元件的任务而执行的指令集,或执行不同时间的不同元件的操作的电子和/或光学装置的布置)。举例来说,如上文中伪码列表(4)和(5)以及图7和图10的伪码列表所示,设备A100的实施方案的一个或一个以上元件甚至可实施为同一回路的不同部分。
上述配置可在经配置以采用CDMA(码分多址)空中接口的无线电话通信***的一个或一个以上装置(例如,语音编码器)中使用。然而,所属领域的技术人员将了解,包括本文中所述的特征的方法和设备可驻存于采用所属领域的技术人员已知的广泛范围的技术的各种通信***的任一者中。举例来说,所属领域的技术人员将了解,如上所述的方法和设备可应用于任何数字通信***,而与特定的物理和/或逻辑传输方案无关,且与此***为有线和/或无线***、线路交换和/或包交换***等无关,且明确预期并揭示这些方法和/或设备在此类***中的使用。
如图17中所说明,用于蜂窝式电话的***通常包括多个移动订户单元10、多个基站12、基站控制器(BSC)14,和一移动交换中心(MSC)16。MSC 16经配置以与常规公众交换电话网路(PSTN)18介接。MSC 16还经配置以与BSC 14介接。BSC 14经由回程线路耦合到基站12。回程线路可经配置以支持包括(例如)E1/T1、ATM、IP、PPP、帧中继、HDSL、ADSL或xDSL的若干已知接口中的任一者。应了解,在所述***中可存在两个以上BSC 14。每一基站12有利地包括至少一个扇区(未图示),每一扇区包含全向天线或从基站12径向地指向特定方向的天线。或者,每一扇区可包含两个用于分集接收的天线。每一基站12可有利地经设计以支持多个频率分配。在CDMA***中,扇区和频率分配的交集可称为CDMA信道。基站12也可称为基站收发器子***(BTS)12。或者,“基站”可在工业中用于共同地指代BSC 14和一个或一个以上BTS 12。BTS 12也可表示为“小区站点”12。或者,给定BTS 12的个别扇区可称为小区站点。移动订户单元10通常为蜂窝式电话或PCS电话10。此***可经配置以根据IS-95标准或另一CDMA标准来使用。此***还可经配置以经由一个或一个以上包交换协议(例如VoIP)来载运语音业务。
在蜂窝式电话***的典型操作期间,基站12从移动单元10的组接收反向链路信号组。移动单元10正进行电话呼叫或其它通信。给定基站12所接收的每一反向链路信号在所述基站12内被处理。所得数据转发到BSC 14。BSC 14提供呼叫资源分配和移动性管理功能性,其包括基站12之间的软越区切换的配合。BSC 14还将所接收的数据路由到MSC 16,所述MSC 16提供用于与PSTN 18介接的额外路由服务。类似地,PSTN 18与MSC 16介接,且MSC 16与BSC 14介接,所述BSC 14又控制基站12以将前向链路信号组传输到移动单元10的组。
图18展示包括两个编码器100、106的***的图,所述***可经配置以执行如本文中所揭示的任务T400的实施方案,且/或可经配置以包括如本文中所揭示的设备A100的实施方案。第一编码器100接收数字化语音样本s(n),且对所述样本s(n)进行编码以便在传输媒体和/或通信信道102上传输到第一解码器104。解码器104解码经编码的语音样本,且合成输出语音信号sSYNTH(n)。对于相反方向上的传输,第二编码器106编码数字化语音样本s(n),所述样本在传输媒体和/或通信信道108上传输。第二解码器110接收且解码经编码的语音样本,从而产生合成输出语音信号sSYNTH(n)。编码器100和解码器110可一起实施在例如蜂窝式电话等收发器内。同样,编码器106和解码器104可一起实施在例如蜂窝式电话等收发器内。
语音样本s(n)表示已根据此项技术中已知的各种方法中的任一者(例如,脉码调制(PCM)、压伸μ律或A律)数字化和量化的语音信号。如此项技术中已知,将语音样本s(n)组织为输入数据的帧,其中每一帧包含预定数目的数字化语音样本s(n)。在示范性配置中,采用8kHz的取样率,其中每一20毫秒帧包含160个样本。在下述配置中,数据传输率可有利地以帧到帧为基准,在全速率、半速率、四分之一速率和八分之一速率(在一个实例中,分别对应于13.2kbps、6.2kbps、2.6kbps和1kbps)之间变化。变化数据传输率潜在有利,因为可为含有相对较少的语音信息的帧选择性地采用较低的位速率。如所属领域的技术人员所了解,可使用其它取样率、帧大小和数据传输率。
第一编码器100和第二解码器110一起包含第一语音编码器或语音编解码器。所述语音编码器可经配置以用于任何类型的经由有线和/或无线信道传输语音信号的通信装置,所述通信装置包括以上参照图17而描述的(例如)订户单元、BTS或BSC。类似地,第二编码器106和第一解码器104一起包含第二语音编码器。所属领域的技术人员应了解,语音编码器可与数字信号处理器(DSP)、专用集成电路(ASIC)、离散门逻辑、固件或任何常规可编程软件模块和微处理器一起实施。软件模块可驻存于RAM存储器、快闪存储器、寄存器或此项技术中已知的任何其它形式的可写存储媒体中。或者,任何常规处理器、控制器或状态机可替代微处理器。特别为语音编码而设计的示范性ASIC在第5,727,123号(McDonough等人,1998年3月10日颁布)和第5,784,532号(McDonough等人,1998年7月21日颁布)美国专利中描述。
在图19A中,可用于语音编码器中的编码器200包括模式选择器202、音高估计模块204、LP分析模块206、LP分析滤波器208、LP量化模块210,和残余量化模块212。输入语音帧s(n)提供到模式选择器202、音高估计模块204、LP分析模块206,和LP分析滤波器208。模式选择器202可基于每一输入语音帧s(n)的周期性、能量、信噪比(SNR)或零交叉率等特征产生模式指示M。模式选择器202还可经配置以基于任务T400的结果,和/或第二比较单元A140的输出产生对应于音调信号的检测的模式指示M。
模式M可指示如本文中所揭示的例如CELP、NELP或PPP的编码模式,且还可指示编码率。在图19A中所示的实例中,模式选择器202还产生模式指数IM(例如,用于传输的模式指示M的经编码型式)。第5,911,128号美国专利(DeJaco,1999年6月8日颁布)中描述根据周期性分类语音帧的各种方法。此类方法还并入到电信工业协会行业临时标准(Telecommunication Industry Association Industry Interim Standards)TIA/EIAIS-127和TIA/EIA IS-733中。第6,691,084号美国专利(Manjunath等人,2004年2月10日颁布)中还描述示范性模式决策方案。
音高估计模块204基于每一输入语音帧s(n)产生音高指数IP和延迟值P0。LP分析模块206对每一输入语音帧s(n)执行线性预测分析,以产生一组LP参数(例如,滤波器系数a)。LP参数由LP量化模块210接收,可能在转换为另一形式(例如LSP、LSF或LSP)后接收(或者,此转换可在模块210内发生)。在此实例中,LP量化模块210还接收模式指示M,借此以模式相依方式执行量化过程。
LP量化模块210产生LP指数ILP(例如,产生一指数到量化码簿中)和一组经量化的LP参数除输入语音帧s(n)外,LP分析滤波器208接收所述组经量化的LP参数LP分析滤波器208产生LP残余信号u[n],其表示输入语音帧s(n)与基于经量化的线性预测参数的重建语音之间的误差。LP残余u[n]和模式指示M提供到残余量化模块212。在此实例中,所述组经量化的LP参数还提供到残余量化模块212。残余量化模块212基于这些值产生残余指数IR和经量化的残余信号如图18中所示的编码器100和106中的每一者可经配置以包括编码器200的实施方案和设备A100的实施方案。
在图19B中,可用于语音编码器中的解码器300包括LP参数解码模块302、残余解码模块304、模式解码模块306,和LP合成滤波器308。模式解码模块306接收且解码模式指数IM,从而自其产生模式指示M。LP参数解码模块302接收模式M和LP指数ILP。LP参数解码模块302解码所接收的值,以产生一组经量化的LP参数残余解码模块304接收残余指数IR、音高指数IP,和模式指数IM。残余解码模块304解码所接收的值,以产生经量化的残余信号经量化的残余信号和所述组经量化的LP参数由LP合成滤波器308接收,所述LP合成滤波器308自其合成经解码的输出语音信号如图18中所示的解码器104和110中的每一者可经配置以包括解码器300的实施方案。
图20展示用于模式选择的任务的流程图,所述模式选择可通过包括模式选择器202的实施方案的语音编码器来执行。在任务400中,模式选择器接收连续帧中的语音信号的数字样本。在接收到给定帧后,模式选择器前进到任务402。在任务402中,模式选择器检测帧的能量。所述能量是所述帧的语音活动性的测量。通过对数字化语音样本的振幅的平方进行求和且将所得能量与阈值进行比较来执行语音检测。任务402可经配置以基于背景噪音的变化电平来调适此阈值。示范性可变阈值语音活动性检测器在前述第5,414,796号美国专利中描述。某些无声语音声音可为能量极低的样本,其可能被错误地编码为背景噪音。为了减小此类误差的机率,如前述第5,414,796号美国专利中所描述,可将低能量样本的频谱倾斜(例如,第一反射系数)用于区分无声语音与背景噪音。
在检测到帧的能量后,模式选择器前进到任务404。(模式选择器202的替代实施方案经配置以从语音编码器的另一元件接收帧能量)。在任务404中,模式选择器确定所检测到的帧能量是否足以将帧分类为含有语音信息的帧。如果所检测到的帧能量低于预定阈值,那么语音编码器前进到任务406。在任务406中,语音编码器将帧编码为背景噪音(即,静寂)。在一个配置中,以1/8速率(例如,1kbps)编码背景噪音帧。在任务404中,如果所检测到的帧能量满足或超过预定阈值水平,那么帧被分类为语音,且模式选择器前进到任务408。
在任务408中,模式选择器确定帧是否为无声语音。举例来说,任务408可经配置以检查帧的周期性。各种已知的周期性确定方法包括(例如)使用零交叉,和使用正规化自相关函数(NACF)。特定来说,零交叉和NACF用于检测周期性在前述第5,911,128号和第6,691,084号美国专利中描述。此外,用于区分有声语音与无声语音的上述方法并入到电信工业协会临时标准(Telecommunication Industry Association Interim Standards)TIA/EIA IS-127和TIA/EIA IS-733中。如果在任务408中,帧被确定为无声语音,那么语音编码器前进到任务410。在任务410中,语音编码器将帧编码为无声语音。在一个配置中,以四分之一速率(例如,2.6kbps)编码无声语音帧。如果在任务408中,帧未被确定为无声语音,那么模式选择器前进到任务412。
在任务412中,模式选择器确定帧是否为过渡语音。任务412可经配置以使用此项技术中已知的周期性检测方法(例如,如前述第5,911,128号美国专利中所描述)。如果帧被确定为过渡语音,那么语音编码器前进到任务414。在任务414中,帧被编码为过渡语音(即,从无声语音到有声语音的过渡)。在一个配置中,根据第6,260,017号美国专利(Das等人,2001年7月10日颁布)中所描述的多脉冲内插编码方法对过渡语音帧进行编码。CELP模式还可用于编码过渡语音帧。在另一配置中,以全速率(例如,13.2kbps)编码过渡语音帧。
如果在任务412中,模式选择器确定帧为非过渡语音,那么语音编码器前进到任务416。在任务416中,语音编码器将帧编码为有声语音。在一个配置中,可以半速率(例如,6.2kbps)或四分之一速率,使用PPP编码模式对有声语音帧进行编码。还可能以全速率使用PPP或其它编码模式(例如,13.2kbps、或8k CELP编码器中的8kbps)对有声语音帧进行编码。然而,所属领域的技术人员应了解,以半速率或四分之一速率对有声帧进行编码允许编码器通过利用有声帧的稳态性质而节省有价值的带宽。此外,无论用于编码有声语音的速率如何,有利地使用来自过去帧的信息对有声语音进行编码。
以上对多模式语音编解码器的描述说明含有语音的输入帧的处理。应注意,使用对帧内容的分类过程以便选择用以对帧进行编码的最佳模式。在以下部分中描述若干编码器/解码器模式。不同的编码器/解码器模式根据不同的编码模式操作。某些模式在编码语音信号s(n)的展现某些属性的部分较为有效。如上所指出,模式选择器202可经配置以基于任务T400的结果和/或第二比较单元A140的输出而超越如图20中所示(例如,由任务408和/或412产生)的编码决策。
在一个配置中,选择“码激发线性预测”(CELP)模式,以对分类为瞬时语音的帧进行编码。CELP模式以线性预测残余信号的量化型式激发线性预测声道模型。在本文中所描述的所有编码器/解码器中,CELP通常产生最精确的语音重现,但需要最高的位速率。在一个配置中,CELP模式以8500位/秒执行编码。在另一配置中,以全速率和半速率中的选定速率执行帧的CELP编码。还可根据任务T400的结果和/或第二比较单元A140的输出来选择对应于音调信号的检测的CELP模式。
可选择“原型音高周期”(PPP)模式,以对分类为有声语音的帧进行编码。有声语音含有由PPP模式利用的慢时变周期分量。PPP模式仅对每一帧内音高周期的子集进行编码。语音信号的剩余周期通过在这些原型周期之间进行内插而重建。通过利用有声语音的周期性,PPP能够实现比CELP低的位速率,且仍以感知上精确的方式重现语音信号。在一个配置中,PPP模式以3900位/秒执行编码。在另一配置中,以全速率、半速率和四分之一速率中的选定速率执行帧的PPP编码。还可使用“波形内插”(WI)或“原型波形内插”(PWI)模式对分类为有声语音的帧进行编码。
可选择“噪音激发线性预测”(NELP)模式,以对分类为无声语音的帧进行编码。NELP使用经滤波的伪随机噪音信号,以使无声语音模型化。NELP对经编码的语音使用最简单的模型,且因此实现最低位速率。在一个配置中,NELP模式以1500位/秒执行编码。在另一配置中,以半速率和四分之一速率中的选定速率执行帧的NELP编码。
经常可在不同位速率下操作同一编码技术,从而具有变化的性能水平。因此,不同的编码器/解码器模式可代表不同的编码技术,或在不同位速率下操作的同一编码技术,或以上的组合。熟练的技术人员将了解,编码器/解码器模式的数目的增加将在选择模式时允许更大的灵活性,其可导致较低的平均位速率,但将增加整个***内的复杂性。用于任何给定***中的特定组合将由可用***资源和特定信号环境指定。执行如本文中所揭示的任务T400的实施方案,和/或包括如本文中所揭示的设备A100的实施方案的语音编码器或其它设备可经配置以根据任务T400的结果和/或第二比较单元A140的输出来选择指示音调信号的检测的特定的编码率(例如,全速率或半速率)。
提供对所描述的配置的以上陈述,以使所属领域的技术人员能够制造或使用本文中所揭示的方法和其它结构。本文中所展示和描述的流程图和其它结构仅为实例,且这些结构的其它变型也在本揭示案的范围内。可能对这些配置进行各种修改,且本文中所提出的一般原理同样可应用于其它配置。
本文中所描述的配置中的每一者可部分或整体地实施为硬连线电路、实施为制造为专用集成电路的电路配置,或者实施为载入到非易失性存储装置中的固件程序或作为机器可读代码从数据存储媒体载入或载入到数据存储媒体中的软件程序,所述代码是可由逻辑元件阵列(例如,微处理器或其它数字信号处理单元)执行的指令。数据存储媒体可以是存储元件阵列,例如半导体存储器(其可包括且不限于动态或静态RAM(随机存取存储器)、ROM(只读存储器),和/或快闪RAM),或铁电存储器、磁阻存储器、双向存储器、聚合存储器或相变存储器;或例如磁盘或光盘的盘式媒体。应将术语“软件”理解为包括原始码、组合语言码、机器码、二进制码、固件、宏码、微码、可由逻辑元件阵列执行的指令的一个或一个以上集合或序列,以及此类实例的任何组合。
本文中所揭示的方法中的每一者也可(例如,在以上所列举的一个或一个以上数据存储媒体中)确实地实施为可由包括逻辑元件阵列(例如处理器、微处理器、微控制器或其它有限状态机)的机器读取和/或执行的一个或一个以上指令集。因此,本揭示案并不希望限于以上所示的配置,而是应符合与本文中以任何方式揭示的原理和新颖特征一致的且包括于形成原始揭示案的一部分的所申请的所附权利要求书中的最广范围。
Claims (25)
1.一种信号处理方法,所述方法包含:
对数字化音频信号的一时间部分执行编码操作,其中所述编码操作包括有序的多个迭代;
在所述有序的多个迭代中的每一者处,计算与所述编码操作的增益相关的测量的值;
为第一多个阈值中的每一者确定所述有序的多个迭代中所述计算的值与所述阈值之间的第一关系的状态发生改变的迭代,且存储所述迭代的指示;以及
将所述存储的指示中的至少一者与至少一个相应阈值进行比较。
2.根据权利要求1所述的信号处理方法,其中所述将所述存储的指示中的至少一者与至少一个相应阈值进行比较包括将所述存储的指示中的所述至少一者与第二多个阈值中的一个相应阈值进行比较。
3.根据权利要求1所述的信号处理方法,其中所述编码操作是线性预测编码操作。
4.根据权利要求1所述的信号处理方法,其中所述执行编码操作包括计算与所述时间部分相关的多个滤波器系数。
5.根据权利要求4所述的信号处理方法,所述方法包含响应于所述比较的结果而减小所述滤波器系数中的至少一者的量值。
6.根据权利要求1所述的信号处理方法,其中所述执行编码操作包括计算与所述时间部分相关的多个反射系数。
7.根据权利要求6所述的信号处理方法,其中所述计算与增益相关的测量的值包括基于所述多个反射系数中的至少一者计算所述值。
8.根据权利要求1所述的信号处理方法,其中与所述编码操作的增益相关的所述测量是(A)预测增益和(B)预测误差中的一者。
9.根据权利要求1所述的信号处理方法,其中所述将所述存储的指示中的至少一者与至少一个相应阈值进行比较包括将所述存储的指示中的至少一者与相应上阈值和相应下阈值中的每一者进行比较。
10.根据权利要求1所述的信号处理方法,其中与所述编码操作的增益相关的所述测量基于(A)所述时间部分的能量与(B)所述编码操作的相应迭代的残余的能量之间的比率。
11.根据权利要求1所述的信号处理方法,其中对于所述第一多个阈值中的每一者,所述计算的值与所述阈值之间的所述第一关系的所述状态(A)在所述计算的值大于所述阈值时具有第一值,且(B)在所述计算的值小于所述阈值时具有不同于所述第一值的第二值。
12.根据权利要求1所述的信号处理方法,所述方法包含基于所述比较的结果而选择用于所述时间部分的编码模式。
13.根据权利要求1所述的信号处理方法,所述方法包含响应于所述比较的结果而使用至少一个码簿指数来编码所述时间部分的激发信号。
14.根据权利要求1所述的信号处理方法,所述方法包含响应于所述比较的结果而识别所述时间部分中包括的双音调多频信号。
15.根据权利要求1所述的信号处理方法,所述方法包含响应于所述比较的结果而确定所述时间部分的至少两个频率分量中的每一者的频率。
16.根据权利要求1所述的信号处理方法,所述方法包含基于所述存储的指示中的至少一者而判定所述时间部分是(A)语音信号和(B)音调信号中的一者,
其中所述判定包括所述将所述存储的指示中的至少一者与至少一个相应阈值进行比较。
17.一种信号处理设备,所述设备包含:
系数计算器,其经配置以执行编码操作来基于数字化音频信号的一时间部分计算多个系数,其中所述编码操作包括有序的多个迭代;
增益测量计算器,其经配置以在所述有序的多个迭代中的每一者处计算与所述编码操作的增益相关的测量的值;
第一比较单元,其经配置以为第一多个阈值中的每一者确定所述有序多个的迭代中所述计算的值与所述阈值之间的第一关系的状态发生改变的迭代,且存储所述迭代的指示;以及
第二比较单元,其经配置以将所述存储的指示中的至少一者与至少一个相应阈值进行比较。
18.根据权利要求17所述的信号处理设备,其中所述第二比较单元经配置以将所述存储的指示中的所述至少一者与第二多个阈值中的一个相应阈值进行比较。
19.根据权利要求17所述的信号处理设备,其中与所述编码操作的增益相关的所述测量是(A)预测增益和(B)预测误差中的一者。
20.根据权利要求17所述的信号处理设备,其中与所述编码操作的增益相关的所述测量基于(A)所述时间部分的能量与(B)所述编码操作的相应迭代的残余的能量之间的比率。
21.根据权利要求17所述的信号处理设备,其中所述第二比较单元经配置以将所述存储的指示中的至少一者与相应上阈值和相应下阈值中的每一者进行比较。
22.根据权利要求17所述的信号处理设备,其中对于所述第一多个阈值中的每一者,所述计算的值与所述阈值之间的所述第一关系的所述状态(A)在所述计算的值大于所述阈值时具有第一值,且(B)在所述计算的值小于所述阈值时具有不同于所述第一值的第二值。
23.根据权利要求17所述的信号处理设备,所述设备包含模式选择器,其经配置以基于所述第二比较单元的输出而选择用于所述时间部分的编码模式。
24.一种蜂窝式电话,其包括根据权利要求17所述的设备且经配置以基于所述第二比较单元的输出而执行如下操作中的至少一者:(A)选择用于所述时间部分的编码模式,和(B)减小所述多个系数中的至少一者的量值。
25.一种语音编码器,其包括根据权利要求17所述的设备且经配置以基于所述第二比较单元的输出而执行如下操作中的至少一者:(A)选择用于所述时间部分的编码模式,和(B)减小所述多个系数中的至少一者的量值。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US74284605P | 2005-12-05 | 2005-12-05 | |
US60/742,846 | 2005-12-05 | ||
PCT/US2006/061631 WO2007120316A2 (en) | 2005-12-05 | 2006-12-05 | Systems, methods, and apparatus for detection of tonal components |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101322182A CN101322182A (zh) | 2008-12-10 |
CN101322182B true CN101322182B (zh) | 2011-11-23 |
Family
ID=38610000
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006800452996A Active CN101322182B (zh) | 2005-12-05 | 2006-12-05 | 用于检测音调分量的***、方法和设备 |
Country Status (10)
Country | Link |
---|---|
US (1) | US8219392B2 (zh) |
EP (1) | EP1958187B1 (zh) |
JP (1) | JP4971351B2 (zh) |
KR (1) | KR100986957B1 (zh) |
CN (1) | CN101322182B (zh) |
AT (1) | ATE475171T1 (zh) |
DE (1) | DE602006015682D1 (zh) |
ES (1) | ES2347473T3 (zh) |
TW (1) | TWI330355B (zh) |
WO (1) | WO2007120316A2 (zh) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5621852A (en) * | 1993-12-14 | 1997-04-15 | Interdigital Technology Corporation | Efficient codebook structure for code excited linear prediction coding |
EP1775717B1 (en) * | 2004-07-20 | 2013-09-11 | Panasonic Corporation | Speech decoding apparatus and compensation frame generation method |
JP5395066B2 (ja) * | 2007-06-22 | 2014-01-22 | ヴォイスエイジ・コーポレーション | 音声区間検出および音声信号分類ための方法および装置 |
US20090043577A1 (en) * | 2007-08-10 | 2009-02-12 | Ditech Networks, Inc. | Signal presence detection using bi-directional communication data |
WO2009077950A1 (en) * | 2007-12-18 | 2009-06-25 | Koninklijke Philips Electronics N.V. | An adaptive time/frequency-based audio encoding method |
EP2237266A1 (en) * | 2009-04-03 | 2010-10-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for determining a plurality of local center of gravity frequencies of a spectrum of an audio signal |
US8730852B2 (en) * | 2009-12-11 | 2014-05-20 | At&T Intellectual Property I, L.P. | Eliminating false audio associated with VoIP communications |
WO2011072729A1 (en) * | 2009-12-16 | 2011-06-23 | Nokia Corporation | Multi-channel audio processing |
US8818806B2 (en) * | 2010-11-30 | 2014-08-26 | JVC Kenwood Corporation | Speech processing apparatus and speech processing method |
WO2013125257A1 (ja) * | 2012-02-20 | 2013-08-29 | 株式会社Jvcケンウッド | 雑音信号抑制装置、雑音信号抑制方法、特殊信号検出装置、特殊信号検出方法、報知音検出装置、および、報知音検出方法 |
EP2717263B1 (en) * | 2012-10-05 | 2016-11-02 | Nokia Technologies Oy | Method, apparatus, and computer program product for categorical spatial analysis-synthesis on the spectrum of a multichannel audio signal |
EP2720222A1 (en) * | 2012-10-10 | 2014-04-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for efficient synthesis of sinusoids and sweeps by employing spectral patterns |
US9167396B2 (en) * | 2013-01-15 | 2015-10-20 | Marvell World Trade Ltd. | Method and apparatus to transmit data through tones |
CN103428803B (zh) * | 2013-08-20 | 2016-05-25 | 上海大学 | 一种联合机会网络编码的机会路由方法 |
PT3136384T (pt) * | 2014-04-25 | 2019-04-22 | Ntt Docomo Inc | Dispositivo de conversão do coeficiente de previsão linear e método de conversão do coeficiente de previsão linear |
US10091022B2 (en) * | 2014-09-22 | 2018-10-02 | British Telecommunications Public Limited Company | Creating a channel for transmitting data of a digital subscriber line |
GB201617408D0 (en) | 2016-10-13 | 2016-11-30 | Asio Ltd | A method and system for acoustic communication of data |
GB201617409D0 (en) | 2016-10-13 | 2016-11-30 | Asio Ltd | A method and system for acoustic communication of data |
GB201704636D0 (en) | 2017-03-23 | 2017-05-10 | Asio Ltd | A method and system for authenticating a device |
GB2565751B (en) | 2017-06-15 | 2022-05-04 | Sonos Experience Ltd | A method and system for triggering events |
GB2570634A (en) | 2017-12-20 | 2019-08-07 | Asio Ltd | A method and system for improved acoustic transmission of data |
US11270721B2 (en) * | 2018-05-21 | 2022-03-08 | Plantronics, Inc. | Systems and methods of pre-processing of speech signals for improved speech recognition |
US11988784B2 (en) | 2020-08-31 | 2024-05-21 | Sonos, Inc. | Detecting an audio signal with a microphone to determine presence of a playback device |
CN112017617A (zh) * | 2020-09-30 | 2020-12-01 | 许君君 | 一种提琴自动调弦装置及其运行方法 |
TWI794059B (zh) * | 2022-03-21 | 2023-02-21 | 英業達股份有限公司 | 聲音處理方法及聲音處理裝置 |
US20240015007A1 (en) * | 2022-07-06 | 2024-01-11 | Qualcomm Incorporated | Systems and techniques for authentication and security |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4689760A (en) * | 1984-11-09 | 1987-08-25 | Digital Sound Corporation | Digital tone decoder and method of decoding tones using linear prediction coding |
US5911128A (en) * | 1994-08-05 | 1999-06-08 | Dejaco; Andrew P. | Method and apparatus for performing speech frame encoding mode selection in a variable rate encoding system |
US6061647A (en) * | 1993-09-14 | 2000-05-09 | British Telecommunications Public Limited Company | Voice activity detector |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB8601545D0 (en) * | 1986-01-22 | 1986-02-26 | Stc Plc | Data transmission equipment |
DE3678717D1 (de) * | 1986-04-30 | 1991-05-16 | Ibm | Verfahren und einrichtung zur tonerkennung. |
US4723936A (en) | 1986-07-22 | 1988-02-09 | Versaflex Delivery Systems Inc. | Steerable catheter |
ATE294441T1 (de) * | 1991-06-11 | 2005-05-15 | Qualcomm Inc | Vocoder mit veränderlicher bitrate |
EP0530645B1 (en) * | 1991-08-30 | 1999-07-14 | Texas Instruments Incorporated | Telephone signal classification and phone message delivery method and system |
PL174216B1 (pl) | 1993-11-30 | 1998-06-30 | At And T Corp | Sposób redukcji w czasie rzeczywistym szumu transmisji mowy |
US5784532A (en) * | 1994-02-16 | 1998-07-21 | Qualcomm Incorporated | Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system |
CA2149163C (en) * | 1994-06-28 | 1999-01-26 | Jeffrey Wayne Daugherty | Detection of tones while minimizing incorrect identification of other sounds as tones |
FR2734389B1 (fr) * | 1995-05-17 | 1997-07-18 | Proust Stephane | Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme |
JP3522012B2 (ja) * | 1995-08-23 | 2004-04-26 | 沖電気工業株式会社 | コード励振線形予測符号化装置 |
JPH09152894A (ja) * | 1995-11-30 | 1997-06-10 | Denso Corp | 有音無音判別器 |
JPH10105194A (ja) * | 1996-09-27 | 1998-04-24 | Sony Corp | ピッチ検出方法、音声信号符号化方法および装置 |
DE19730130C2 (de) * | 1997-07-14 | 2002-02-28 | Fraunhofer Ges Forschung | Verfahren zum Codieren eines Audiosignals |
US6782095B1 (en) * | 1997-11-27 | 2004-08-24 | Nortel Networks Limited | Method and apparatus for performing spectral processing in tone detection |
US6691084B2 (en) * | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
JP2001007704A (ja) | 1999-06-24 | 2001-01-12 | Matsushita Electric Ind Co Ltd | トーン成分データの適応オーディオ符号化方法 |
US6275806B1 (en) * | 1999-08-31 | 2001-08-14 | Andersen Consulting, Llp | System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters |
JP2001175298A (ja) * | 1999-12-13 | 2001-06-29 | Fujitsu Ltd | 騒音抑圧装置 |
US6996523B1 (en) * | 2001-02-13 | 2006-02-07 | Hughes Electronics Corporation | Prototype waveform magnitude quantization for a frequency domain interpolative speech codec system |
DE10134471C2 (de) * | 2001-02-28 | 2003-05-22 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals |
US6590972B1 (en) * | 2001-03-15 | 2003-07-08 | 3Com Corporation | DTMF detection based on LPC coefficients |
US6873701B1 (en) * | 2001-03-29 | 2005-03-29 | 3Com Corporation | System and method for DTMF detection using likelihood ratios |
DE10121532A1 (de) * | 2001-05-03 | 2002-11-07 | Siemens Ag | Verfahren und Vorrichtung zur automatischen Differenzierung und/oder Detektion akustischer Signale |
US20050159942A1 (en) * | 2004-01-15 | 2005-07-21 | Manoj Singhal | Classification of speech and music using linear predictive coding coefficients |
US7457747B2 (en) * | 2004-08-23 | 2008-11-25 | Nokia Corporation | Noise detection for audio encoding by mean and variance energy ratio |
-
2006
- 2006-12-05 WO PCT/US2006/061631 patent/WO2007120316A2/en active Application Filing
- 2006-12-05 EP EP06850882A patent/EP1958187B1/en active Active
- 2006-12-05 TW TW095145259A patent/TWI330355B/zh active
- 2006-12-05 DE DE602006015682T patent/DE602006015682D1/de active Active
- 2006-12-05 JP JP2008544630A patent/JP4971351B2/ja active Active
- 2006-12-05 AT AT06850882T patent/ATE475171T1/de not_active IP Right Cessation
- 2006-12-05 KR KR1020087016406A patent/KR100986957B1/ko active IP Right Grant
- 2006-12-05 US US11/567,052 patent/US8219392B2/en active Active
- 2006-12-05 ES ES06850882T patent/ES2347473T3/es active Active
- 2006-12-05 CN CN2006800452996A patent/CN101322182B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4689760A (en) * | 1984-11-09 | 1987-08-25 | Digital Sound Corporation | Digital tone decoder and method of decoding tones using linear prediction coding |
US6061647A (en) * | 1993-09-14 | 2000-05-09 | British Telecommunications Public Limited Company | Voice activity detector |
US5911128A (en) * | 1994-08-05 | 1999-06-08 | Dejaco; Andrew P. | Method and apparatus for performing speech frame encoding mode selection in a variable rate encoding system |
Also Published As
Publication number | Publication date |
---|---|
TWI330355B (en) | 2010-09-11 |
JP4971351B2 (ja) | 2012-07-11 |
ES2347473T3 (es) | 2010-10-29 |
US20070174052A1 (en) | 2007-07-26 |
WO2007120316A3 (en) | 2008-01-31 |
EP1958187A2 (en) | 2008-08-20 |
US8219392B2 (en) | 2012-07-10 |
EP1958187B1 (en) | 2010-07-21 |
WO2007120316A2 (en) | 2007-10-25 |
ATE475171T1 (de) | 2010-08-15 |
JP2009518694A (ja) | 2009-05-07 |
TW200737128A (en) | 2007-10-01 |
KR100986957B1 (ko) | 2010-10-12 |
DE602006015682D1 (de) | 2010-09-02 |
KR20080074216A (ko) | 2008-08-12 |
CN101322182A (zh) | 2008-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101322182B (zh) | 用于检测音调分量的***、方法和设备 | |
US6324505B1 (en) | Amplitude quantization scheme for low-bit-rate speech coders | |
CN101496100B (zh) | 用于对无效帧进行宽带编码和解码的***、方法和设备 | |
CN103548081B (zh) | 噪声稳健语音译码模式分类 | |
CN101681627B (zh) | 使用音调规则化及非音调规则化译码的信号编码方法及设备 | |
CN101131817B (zh) | 强壮语音分类方法和装置 | |
US9111531B2 (en) | Multiple coding mode signal classification | |
CN101523484A (zh) | 用于帧擦除恢复的***、方法和设备 | |
JP2007534020A (ja) | 信号符号化 | |
KR100804888B1 (ko) | 프레임 에러에 대한 민감도를 감소시키기 위하여 코딩 방식선택 패턴을 사용하는 예측 음성 코더 | |
US7698132B2 (en) | Sub-sampled excitation waveform codebooks | |
US20150170655A1 (en) | Systems and methods of blind bandwidth extension | |
EP1212749B1 (en) | Method and apparatus for interleaving line spectral information quantization methods in a speech coder | |
US6397175B1 (en) | Method and apparatus for subsampling phase spectrum information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |