CN1737904A - 移动通信终端中使用知觉线性预测的语音编码设备和方法 - Google Patents
移动通信终端中使用知觉线性预测的语音编码设备和方法 Download PDFInfo
- Publication number
- CN1737904A CN1737904A CNA2005101098544A CN200510109854A CN1737904A CN 1737904 A CN1737904 A CN 1737904A CN A2005101098544 A CNA2005101098544 A CN A2005101098544A CN 200510109854 A CN200510109854 A CN 200510109854A CN 1737904 A CN1737904 A CN 1737904A
- Authority
- CN
- China
- Prior art keywords
- signal
- plp
- coefficient
- input signal
- gain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000010295 mobile communication Methods 0.000 title claims abstract description 12
- 238000005070 sampling Methods 0.000 claims description 8
- 230000035807 sensation Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 230000000295 complement effect Effects 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 2
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 claims 9
- 230000005540 biological transmission Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 101001096074 Homo sapiens Regenerating islet-derived protein 4 Proteins 0.000 description 2
- 102100037889 Regenerating islet-derived protein 4 Human genes 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Mobile Radio Communication Systems (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
Abstract
通过使用知觉线性预测(PLP)系数执行线性预测编码(LPC),与使用线性预测(LP)系数的情况相比较,移动通信终端的语音编码设备和方法可以实施更高的压缩率和确保高的声音质量。
Description
技术领域
本发明涉及移动通信终端的编码,尤其是,涉及使用知觉线性预测(PLP)的语音编码设备和方法。
背景技术
随着移动通信技术的发展,语音移动通信终端已经提供有利用数字、字符、符号等等的数据通信,包括各种各样图像信号的多媒体通信以及语音通信。多个终端用户从***接收分配于此的无线电信道,并且使用无线电资源来发送和接收所需的数据。但是,为了使多个用户同时使用该无线电信道,该无线电信道具有受限的带宽,因此每个用户的数据比特率理所当然地受到限制。
因此,已经提出了一种用于使用以上有限的数据比特率来传送更大量数据的编码技术。各种各样的方法作为现有技术语音编码技术而存在,其中每个在某一比特率上具有若干优点。
例如,使用通用音频编码、脉冲编码调制(PCM)和自适应增量脉码调制(ADPCM)的语音编码在超过16Kbps的高比特率被有效使用,并且码激励线性预测(CELP)和其他各种各样的变化在2.4Kbps至16Kbps范围内的中间比特率被有效使用。尤其是,使用LD-CELP、CS-ACELP、VSELP和MELP的编码方法和宽带语音编码可以在中间比特率上被使用。此外,线性预测编码(LPC)、残留激励线性预示(RELP)、共振峰声码器和倒谱(Cepstral)声码器在75bps至2.4Kbps范围的低比特率上具有许多的优点。
因此,在现有技术和本发明中,现在将解释一种用于在以低比特率使用的编码方法中间改善LPC的方法。
图1举例说明现有技术的LPC编码器的结构。
如在该图中举例说明的,现有技术的LPC编码器包括:用于计算输入信号x[n]的自相关值rx[n]的相关器10;用于通过处理该自相关值rx[n]来计算LP系数aL和增益G的LP系数计算器11;用于确定该输入信号x[n]是一个有声V信号还是无声UV信号的V/UV确定单元12;用于当该输入信号x[n]是有声V信号的时候,计算相应信号的音高P的音高计算器13;用于按照从V/UV确定单元12输出的V/UV指示比特,通过编码从LP系数计算器11和音高计算器13接收的LP系数an、增益G和音高P,来输出比特流的参数编码单元14。
现在将解释具有上述结构的现有技术LPC编码器的操作。
首先,该相关器10自相关一个输入信号x[n]。LP系数计算器11处理由该相关器10计算的自相关值rx[n],以便计算LP系数an和增益G。此时,V/UV确定单元12确定该输入信号x[n]是有声V信号还是无声UV信号以输出一个V/UV指示比特,然后仅仅输出有声V信号。音高计算器13计算从V/UV确定单元12输出的有声V信号的音高P。
因此,当V/UV指示比特表示有声V信号的时候,通过编码(通过低比特率编码)从LP系数计算器11和音高计算器13接收的LP系数an、增益G和音高P,参数编码单元14输出一个比特流。然后,控制器(未示出)处理该比特流,从而将其输出到无线电(无线)单元(未示出)。该无线电单元将从控制单元输出的信号变换为无线电(无线)信号,并且发射经变换的无线电信号。
因而,在现有技术中,移动通信终端执行LPC编码,以通过低的比特率发送一个音频信号。但是,在现有技术LPC编码中,通常使用线性预测系数,其不考虑人的听觉感觉特点。因此,对于使用低比特率操作的现有技术LPC编码来说,压缩效率不是很高(即,1200Kbps至2400Kbps),并且不能获得很好的声音质量。
发明内容
因此,本发明的一个目的是提供一种能够通过使用PLP系数执行LPC编码改善压缩效率和声音质量的移动通信终端的语音编码设备和方法。
为了实现这些和其他的优点,以及按照本发明的目的,正如在此处具体实施和广泛地描述的,提供了一种移动通信终端的线性预测编码(LPC)编码器,包括:知觉线性预测(PLP)系数计算器,用于通过处理输入信号来计算PLP系数和增益;V/UV确定单元,用于确定输入信号是有声信号还是无声信号,从而当输入信号是有声信号的时候,输出确定信号和有声信号;音高计算器,用于计算从V/UV确定单元输出的输入信号的音高;和参数编码单元,用于基于确定信号使用PLP系数、增益和音高来执行低比特率编码。
为了实现这些和其他的优点,以及按照本发明的目的,正如在此处具体实施和广泛地描述的,提供了一种移动通信终端的低比特率语音编码方法,包括:通过处理输入信号来计算知觉线性预测(PLP)系数和增益;确定输入信号是有声信号还是无声信号,从而当输入信号被确定为有声信号的时候,输出确定比特值和有声信号;计算从V/UV确定单元输出的输入信号的音高;和基于确定比特值使用PLP系数、增益和音高来执行低比特率编码。
优选地,该有声信号是一个语音信号。
优选地,该PLP系数对于8kHz采样速率具有大约第七次。
从下面结合附图的详细说明中,本发明的上述和其他的目的、特点、方式以及优点将变得更加清晰可见。
附图说明
被包括以提供对本发明进一步的理解,并被并入和构成本说明书的一部分的附图举例说明本发明的实施例,并且与说明书一起可以起解释本发明原理的作用。
在附图中:
图1举例说明一个使用LP系数的现有技术LPC编码器的结构;
图2举例说明一个按照本发明的使用PLP系数的LPC编码器;和
图3详细地举例说明计算图2中的PLP系数的顺序步骤。
具体实施方式
现在将详细地进行介绍本发明的优选实施例,其举例在附图中被举例说明。
本发明提供一种使用知觉线性预测(PLP)的低比特率语音编码,该知觉线性预测(PLP)能够执行比线性预测编码(LPC)更低次(阶)的编码,以便执行具有高压缩率的语音编码。
现在首先将解释PLP和LP之间的差别。
LP是传统地公知的,因此将不给出为.比详细的推导公式的描述。LP基本上涉及获得一个LP系数ak,使得按照公式(1)的均方误差(MSE),即,e[n]的值可以是最小值,如同下述。
该获得的LP系数ak对于8kHz采样速率具有大约第8至第12次(阶)。因此,该获得的LP系数ak被用于使用线性预测(LP)的各种各样的编码方法(例如,LPC、CELP、MELP、RELP等等),其被更详细地在语音编码及合成,阿姆斯特丹,荷兰:Elsevier,1995年中公开。
PLP在Hermansky的论文中于1990年第一次介绍。PLP使用类似于现有的Mel频率倒谱系数(MFCC)的人的听觉感觉特点。因此,当以低比特率执行LPC时,本发明使用PLP系数而不是使用LP系数来执行低比特率语音编码。
也就是说,本发明使用PLP系数来获得频谱。PLP系数反映人的听觉效果。因此,在MSE方面,使用PLP系数比使用LP可能在该频谱中出现更大的误差。但是,当考虑到听觉效果的时候,使用PLP系数的频谱可以具有更少的误差。此外,对于系数传输,在LPC的情况下,对于典型的8kHz采样速率,使用大约第10次(阶)的传输,但是对于PLP,使用大约第7次(阶)的传输,从而可以降低该比特率。
图2举例说明一个按照本发明的使用PLP系数的LPC编码器的结构。
参考图2,除了不包括相关器10并且用PLP系数计算器20代替LP系数计算器11之外,使用PLP系数的LPC编码器被构成为与在图1中的现有技术LPC编码器是相同的。
PLP系数计算器20处理语音信号S[n],以计算PLP系数ap和增益G,其中考虑到听觉效果。
现在将参考附图解释具有按照本发明的上述结构的使用PLP系数的LPC编码器的操作。
首先,PLP系数计算器20接收语音信号S[n],以便通过顺序地执行图3所示的操作来计算PLP系数ap和增益G。
也就是说,PLP系数计算器20对输入信号,即,语音信号S[n]执行快速傅里叶变换(FFT)。对于该经傅里叶变换的语音信号执行临界频带积分(critical-bankintegration)和重复取样处理,以通过频率单元从该语音信号S[n]中除去噪声分量。
一旦除去该噪声分量,PLP系数计算器20对该傅里叶变换的语音信号执行均衡和扩音处理,以使其变成具有适合于人的听觉感觉幅值的声音分量,然后该语音信号与一个允许人类收听的输出功率相匹配。
当完成功率匹配的时候,PLP系数计算器20对相应的语音信号执行离散傅里叶逆变换,而后从相应的语音信号中获得一组线性方程。因此,PLP系数计算器20对该线性方程组执行倒谱递归处理,从而输出PLP模型的倒谱系数,即,PLP系数ap。换句话说,PLP系数计算器20向参数编码单元23输出反映人的听觉感觉特点的低次(阶)PLP系数ap和增益G作为参数值。
此时,V/UV确定单元21输出一个V/UV指示比特,并且将语音信号S[n]传送给音高计算器22。音高计算器22计算语音信号S[n]的音高P。
因此,参数编码单元23通过编码(通过低比特率编码)从PLP系数计算器20和音高计算器22接收的V/UV指示比特值、PLP系数ap、增益G和音高P来输出一个比特流。优选地,所传送的PLP系数ap的次数大约是用于8kHz采样速率的第七次。然后,控制器(未示出)处理该比特流,然后输出该处理的比特流给无线电(无线)单元(未示出)。无线电单元将从控制器输出的信号变换为无线电信号(无线电信号)并且发射它。
如上所述,在本发明中,LPC是通过使用PLP系数执行的,从而可以改善压缩率,并且语音等级信号可以被利用更有效率的低比特率传送。
此外,在本发明中,可以实现更高的压缩率,并且通过使用PLP系数而不是使用现有的LP系数作为一个参数,可以期待具有高的声音质量的信号质量。
因此,按照本发明的语音编码设备和方法可以使用低的比特率用于编码和解码语音,或者被用于占据很小面积的设备,并且使用PLP参数执行语音合成。
此外,按照本发明的语音编码设备和方法可以用于供声音本身差不多不是非常重要的,但是足以听到的应用的语音编码。此外,通过高压缩率因特网存储数据或者需要低的比特率,在一个具有有限存储器的嵌/***中,可以在因特网上执行有效的语音对话。
由于本发明可以不脱离其精神或者基本的特性以若干形式实施,除非另作说明的,此外应该理解,以上所述的实施例不受先前描述的任何细节的限制,而是应该广泛地解释为在所附的权利要求限定的精神和范围内,因此,所有的变化和修改落在权利要求的范围内,或者这样的范围的等价因此意欲被所附的权利要求所包含。
Claims (8)
1.一种移动通信终端中的语音编码设备,包括:
知觉线性预测(PLP)系数计算器,用于通过处理输入信号来计算PLP系数和增益;
V/UV确定单元,用于确定输入信号是有声信号还是无声信号,从而当输入信号是有声信号的时候,输出确定结果和有声信号;
音高计算器,用于计算从V/UV确定单元输出的输入信号的音高;和
参数编码单元,用于基于确定结果使用PLP系数、增益和音高来执行低比特率编码。
2.根据权利要求1的设备,其中有声信号是一个语音信号。
3.根据权利要求1的设备,其中确定结果表示输入信号是有声信号还是无声信号的比特值。
4.根据权利要求1的设备,其中该PLP系数的次数对于8kHz采样速率大约是第七次。
5.一种移动通信终端的语音编码方法,包括:
通过处理输入信号来计算知觉线性预测(PLP)系数和增益;
确定输入信号是有声信号还是无声信号,从而当输入信号被确定为有声信号的时候,输出确定信号和有声信号;
计算从V/UV确定单元输出的输入信号的音高;和
基于确定信号使用该PLP系数、增益和音高来执行低比特率编码。
6.根据权利要求5的方法,其中有声信号是一个语音信号。
7.根据权利要求5的方法,其中计算PLP系数和增益的步骤包括:
对于输入信号执行快速傅里叶变换(FFT);
对经傅里叶变换的语音信号执行临界频带积分和重复取样,从而利用频率单元除去噪声分量;
对经傅里叶变换的语音信号执行均衡和扩音处理,使之变成具有适合于人的听觉感觉幅值的声音分量,然后将该语音信号与一个适宜的输出功率相匹配;
对与输出功率相匹配的语音信号执行离散傅里叶逆变换,从而获得一组线性方程;和
对于该线性方程组执行倒谱递归处理,从而获得PLP系数和增益。
8.根据权利要求5的方法,其中PLP系数的次数对于8kHz采样速率大约是第七次。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040057739 | 2004-07-23 | ||
KR1020040057739A KR100619893B1 (ko) | 2004-07-23 | 2004-07-23 | 휴대단말기의 개선된 저전송률 선형예측코딩 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1737904A true CN1737904A (zh) | 2006-02-22 |
Family
ID=36080675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2005101098544A Pending CN1737904A (zh) | 2004-07-23 | 2005-07-25 | 移动通信终端中使用知觉线性预测的语音编码设备和方法 |
Country Status (6)
Country | Link |
---|---|
EP (1) | EP1619665B1 (zh) |
JP (1) | JP2006039559A (zh) |
KR (1) | KR100619893B1 (zh) |
CN (1) | CN1737904A (zh) |
AT (1) | ATE480852T1 (zh) |
DE (1) | DE602005023385D1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102483922A (zh) * | 2009-06-29 | 2012-05-30 | 三星电子株式会社 | 使用加权线性预测变换对音频信号进行编码和解码的设备和方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101475724B1 (ko) * | 2008-06-09 | 2014-12-30 | 삼성전자주식회사 | 오디오 신호 품질 향상 장치 및 방법 |
JP7132668B1 (ja) * | 2021-12-15 | 2022-09-07 | 株式会社Peco | 動物患者用遠隔診察システム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002029782A1 (en) * | 2000-10-02 | 2002-04-11 | The Regents Of The University Of California | Perceptual harmonic cepstral coefficients as the front-end for speech recognition |
EP1199812A1 (en) * | 2000-10-20 | 2002-04-24 | Telefonaktiebolaget Lm Ericsson | Perceptually improved encoding of acoustic signals |
-
2004
- 2004-07-23 KR KR1020040057739A patent/KR100619893B1/ko not_active IP Right Cessation
-
2005
- 2005-07-22 EP EP05015989A patent/EP1619665B1/en not_active Not-in-force
- 2005-07-22 JP JP2005213527A patent/JP2006039559A/ja active Pending
- 2005-07-22 DE DE602005023385T patent/DE602005023385D1/de active Active
- 2005-07-22 AT AT05015989T patent/ATE480852T1/de not_active IP Right Cessation
- 2005-07-25 CN CNA2005101098544A patent/CN1737904A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102483922A (zh) * | 2009-06-29 | 2012-05-30 | 三星电子株式会社 | 使用加权线性预测变换对音频信号进行编码和解码的设备和方法 |
Also Published As
Publication number | Publication date |
---|---|
KR100619893B1 (ko) | 2006-09-19 |
ATE480852T1 (de) | 2010-09-15 |
KR20060008078A (ko) | 2006-01-26 |
JP2006039559A (ja) | 2006-02-09 |
DE602005023385D1 (de) | 2010-10-21 |
EP1619665B1 (en) | 2010-09-08 |
EP1619665A1 (en) | 2006-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1144180C (zh) | 进行降低速率的可变速率声码合成的方法和装置 | |
CN1112671C (zh) | 综合分析语音编码器中噪声隐蔽电平适应性修改方法 | |
EP3138097B1 (en) | Voice profile management | |
CN109545236B (zh) | 改进时域编码与频域编码之间的分类 | |
CN102341852B (zh) | 滤波语音信号的方法和滤波器 | |
CN1158647C (zh) | 话音编码设备的频谱幅度量化 | |
US20090240490A1 (en) | Method and apparatus for concealing packet loss, and apparatus for transmitting and receiving speech signal | |
CN1265217A (zh) | 在语音通信***中语音增强的方法和装置 | |
CN104115220B (zh) | 非常短的基音周期检测和编码 | |
CN103325377A (zh) | 音频编码方法 | |
JP2004512562A (ja) | 広帯域音声コーデック復号器における高周波拡張階層符号化 | |
US20060025991A1 (en) | Voice coding apparatus and method using PLP in mobile communications terminal | |
CN1437747A (zh) | 闭环多模混合域线性预测(mdlp)语音编解码器 | |
CN102985969A (zh) | 编码装置、解码装置和编码方法、解码方法 | |
Vlaj et al. | A computationally efficient mel-filter bank VAD algorithm for distributed speech recognition systems | |
JP2006171751A (ja) | 音声符号化装置及び方法 | |
CN1737904A (zh) | 移动通信终端中使用知觉线性预测的语音编码设备和方法 | |
Nishimura | Data hiding in pitch delay data of the adaptive multi-rate narrow-band speech codec | |
CN101572090B (zh) | 一种自适应多速率窄带编码方法及编码器 | |
CN100489966C (zh) | 合成分析语音编码器中用于进行语音编码的方法和装置 | |
CN101740030A (zh) | 语音信号的发送及接收方法、及其装置 | |
Bhatt et al. | Overall performance evaluation of adaptive multi rate 06.90 speech codec based on code excited linear prediction algorithm using MATLAB | |
Vicente-Peña et al. | Band-pass filtering of the time sequences of spectral parameters for robust wireless speech recognition | |
Sun et al. | Speech compression | |
CN101211561A (zh) | 音乐信号质量增强方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20060222 |