CN1280784C - 基于多峰提取的语音编码刺激方法 - Google Patents
基于多峰提取的语音编码刺激方法 Download PDFInfo
- Publication number
- CN1280784C CN1280784C CNB2004100906633A CN200410090663A CN1280784C CN 1280784 C CN1280784 C CN 1280784C CN B2004100906633 A CNB2004100906633 A CN B2004100906633A CN 200410090663 A CN200410090663 A CN 200410090663A CN 1280784 C CN1280784 C CN 1280784C
- Authority
- CN
- China
- Prior art keywords
- voice signal
- voice
- resonance peak
- carried out
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000000638 stimulation Effects 0.000 title claims abstract description 22
- 238000000605 extraction Methods 0.000 title claims abstract description 11
- 238000001914 filtration Methods 0.000 claims abstract description 32
- 238000001514 detection method Methods 0.000 claims abstract description 27
- 239000000284 extract Substances 0.000 claims description 23
- 238000005070 sampling Methods 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000005311 autocorrelation function Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 4
- 230000008901 benefit Effects 0.000 abstract description 2
- 230000005540 biological transmission Effects 0.000 abstract description 2
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 239000011295 pitch Substances 0.000 description 16
- 230000006870 function Effects 0.000 description 12
- 230000000694 effects Effects 0.000 description 5
- 210000003477 cochlea Anatomy 0.000 description 4
- 230000007704 transition Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000013011 mating Effects 0.000 description 2
- 230000004936 stimulating effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electrotherapy Devices (AREA)
Abstract
本发明涉及一种基于多峰提取的语音编码刺激方法,属于电子信息技术领域。该方法将采样得到的语音信号分为六路,其中三路经过共振峰检测和清浊音判决提取出语音参数,另外三路经过三个带通滤波处理后再经过包络检波提取出三个高频分量,然后再根据提取的这些参数联合编码进行刺激;本方法能够滤除基音对共振峰的干扰,参数提取准确率得到提高,改进了编码策略,信息传递速率得到提高,从而具有语音识别率高,有利于匹配患者的听觉特性的优点。
Description
技术领域
本发明属于语音处理技术领域,特别涉及用于人工耳蜗的语音编码刺激方法。
背景技术
人工耳蜗的语音处理方法包括参数编码方法和波形编码方法。参数编码方法依据“位置-音调”原理和“频率-音调”原理,根据语音信号内容的不同,选择合适的刺激电极和变化的刺激频率产生刺激脉冲。参数编码方法从语音生成模型出发,提取出语音信号的特征,如基音周期、共振峰频率和幅度,再根据一定的刺激策略进行刺激。常用的参数编码方法有F0/F2方法、F0/F1/F2方法、MPEAK方法等。MPEAK方法的主要步骤如下,将语音信号分为六路,其中三路音信号,分别经过共振峰检测、清浊音判决、基音检测等步骤提取出语音参数;同时另外三路语音信号经过三个固定滤波器处理分解出三个高频分量参数,然后再根据提取的这些参数编码进行刺激,其方法是:在浊音期间用共振峰频率F1、F2选择电极,带通滤波处理后的语音信号也参与刺激;清音期间用平均250脉冲/秒的随机刺激。上述参数编码方法的主要特点是传输信息量少,患者的主观听觉感觉不自然。对所有的采用参数编码方法的人工耳蜗,患者一致认为其音感生硬、模糊,和真实的语音感觉差异很大,产生这种现象的主要原因是实际的编码速率太低。另外由于参数编码方法的抗噪能力较差,在噪声环境下语音识别的效果会显著下降。但是,参数编码方法对某些残留神经较少的患者来说是一种很好的选择。由于这些患者的可用刺激通道较少,参数编码方法利用了“频率-音调原理”,相对于采用固定刺激速率的波形编码方法传递了更多的语音信息,因此有更好的语音识别效果。
发明内容
本发明的目的就是针对上述已有技术中的参数编码方法的缺点,提出基于多峰提取的语音编码刺激方法,这种方法能够滤除基音对共振峰的干扰,参数提取准确率得到提高,改进了编码策略,信息传递速率得到提高,从而具有语音识别率高,有利于匹配患者的听觉特性的优点。
本发明的基于多峰提取的语音编码刺激方法,将采样得到的语音信号分为六路,其中第一路语音信号经过共振峰检测提取出语音参数第一共振峰频率F1、第一共振峰幅度A1、第二共振峰频率F2、第二共振峰幅度A2;第二路语音信号经过清浊音判决提取出清音/浊音标志的语音参数V;第三路语音信号经过基音检测提取出语音参数基音频率F0;另外三路语音信号经过三个带通滤波处理后再经过包络检波提取出三个高频分量的能量E1、E2、E3,然后再根据所述提取的这些参数联合编码进行刺激;所述对第一路语音信号进行共振峰检测的方法,包括以下步骤:
1)将所述语音信号进行预加重处理,使语音短时谱更为平坦,从而提高谱参数的估计精度;
2)对预加重后的语音信号进行加窗成帧,以减少两端得预测误差;
3)对加窗后的语音经过Durbin算法作线性预测(LPC)分析,找出各个共振峰;
4)再对各个共振峰进行快速傅立叶变换(FFT)得到其逆滤波的频率特性;
5)最后根据逆滤波的频率特性进行谷值检测,得到所述的语音参数F1、A1、F2、A2。
所述对第二路语音信号进行清浊音判决方法可采用短时平均过零率和短时自相关函数判断提取出所述清音/浊音标志V的语音参数;
所述对第三路语音信号进行基音检测的方法,可包括以下步骤:
1)先对所述的语音信号进行带通滤波,去除语音声道特性和共振峰的影响;
2)滤波后的语音信号再经过短时平均幅度函数(AMDF)的基音检测方法进行估计;
3)最后对该估计结果进行中值滤波输出所述语音参数F0;
所述三个带通滤波处理采用可编程的数字滤波方法,滤波带宽根据不同的患者进行调整;
所述联合编码进行刺激的方法可包括:
1)在浊音期间,采用基音的5倍频刺激;
2)在清音期间,采用固定的1250Hz频率刺激。
本发明的特点及技术效果:
1.本发明是一种改进的MPEAK方法。语音信号经过共振峰检测、清浊音判决、基音检测提取出语音参数,经过三个带通滤波处理分解出语音信号的三个高频分量的能量。根据语音的参数信息和高频分量联合编码进行刺激。
2.本发明采用基于短时平均幅度函数(AMDF)的基音检测方法,提高了基音估计精度。MPEAK方法采用简单的低通滤波加过零检测的方法,精度很低。由于基音周期携带了大量语音信息,因此本发明的方法有利于提高语音识别率。
3.已有的MPEAK方法的共振峰检测采用滤波法实现,精度非常有限。本发明的共振峰检测采用LPC自关法检测共振峰,能够滤除基音对共振峰的干扰,精度要高得多。
4.本发明采用可编程的数字滤波方法代替固定滤波方法,有利于匹配患者的听觉特性。MPEAK方法中的滤波处理的带宽和中心频率都固定不变。本发明采用可变带宽滤波方法,可以根据不同的患者分别调整。
5.本发明对编码策略进行了改进。在浊音期间,采用基音的5倍频刺激,能传达更多的语音信息。在清音期间,MPEAK用平均250脉冲/秒的随机刺激,本发明用1KHz以上脉冲刺激,可获得更好的效果。
附图说明
图1是本发明的基于多峰提取的语音编码刺激方法的框图。
图2是本发明的共振峰检测流程图。
图3是本发明的基音检测的流程图。
具体实施方式
下面结合实施例及附图对本发明进一步说明。
本发明的基于多峰提取的语音编码刺激方法如图1所示,语音信号分为六路,其中三路语音信号,分别经过共振峰检测提取出第一共振峰频率F1、第一共振峰幅度A1、第二共振峰频率F2、第二共振峰幅度A2作为语音参数;经过基音检测提取出基音频率F0作为语音参数,经过清浊音判决提取出语音参数清音/浊音标志V;同时另外三路语音信号先经过三个带通滤波处理,再经过包络检波提取出三个高频分量的能量E1、E2、E3作为语音参数。然后再根据提取的这些参数编码进行刺激。
上述共振峰检测、清浊音判决、基音检测、带通滤波处理和编码这五个过程的实施例分别详细说明如下:
1.共振峰检测
本实施例的共振峰检测的步骤如图2所示,包括:
(11)语音信号先经过预加重滤波处理,预加重滤波的传输函数为:
H(z)=1-μz-1,μ=0.9375
首先进行预加重的目的是加强语音谱中的高频共振峰,使语音短时谱以及以后LPC处理的余数频谱更为平坦,从而提高谱参数的估计精度;
(12)对预加重后的语音信号进行加窗成帧,以减少两端的预测误差,窗函数选用汉明窗,它有较窄的主瓣宽度,较低的旁瓣电平;
(13)加窗后的语音经过Durbin算法作LPC分析求共振峰,由LPC求出声道传输函数的系数后,得到声道传输函数的频率特性;
在LPC分析中,假设
根据正交原理可以得到:
其中R(k-1)是采样后的语音信号s(n)的自相关函数,p为线性预测长度。这是一组LPC正则方程,用Durbin递推公式求解,具体方法为:
设初值:
对k=2,3,…p,进行递推:
其中ρ(k)即为最小k阶预测误差功率。
在本实施例中LPC分析中取帧长20ms,在10KHz抽样频率时采样信号长度N=200,线性预测长度p=12。
令X(n)=(1,a1,a2,…ak,…0),用N点FFT计算出A(nf)由
搜索出|A(nf)|的谷点即找出各个共振峰;
(14)然后再经过FFT求出各个共振峰的逆滤波频率特性;
(15)最后根据逆滤波频率特性进行谷值检测,得到共振峰信息(即F1、A1和F2、A2)。
2.清浊音判决
本实施例的清浊音判决采用短时平均过零率和短时自相关函数判断提取出语音参数V,具体包括:
(21)定义短时过零率Z:
其中:s(n)为采样后的语音信号,sgn[]为符号函数
令P为归一化自关函数在基音周期时刻的幅度:
其中R(l)是语音自关函数在基音周期时刻的幅度;
(22)判决规则:
(a)P>0.3时判为浊音,V=1
(b)0.2<P<0.3且0.4N>Z>0.3N时判为浊音,V=1
(c)其它情况为清音或无语音,统一判为清音,V=0
3.基音检测
本实施例的基音检测采用短时平均幅度函数(AMDF)法估计过程如图3所示。包括以下步骤:
(31)首先语音信号经过带通滤波(BPF),去除语音声道特性和共振峰的影响;
(32)滤波后的语音信号再经过短时平均幅度函数(AMDF)进行估计;
定义短时平均幅度差函数为:
其中S(n)为采样后的语音信号,N为计算窗长,L为平均运算步长。
基音周期为:
一般基音周期为2ms-20ms。本实施例计算窗长取为40ms,在10KHz抽样频率时,
N=400,Lmin=20,Lmax=200。
(33)最后对该估计结果由5点中值滤波输出所述语音参数F0。
4.带通滤波处理
带通滤波处理采用可编程的数字滤波方法,滤波带宽可以根据不同的患者进行调整;
5.编码
根据上述带通滤波器组的输出和共振峰检测、清浊音判决、基音检测等步骤进行参数提取的结果,编码模块有如下输入量:E1、E2、E3、F0、F1、A1、F2、A2和V,由这些参数确定输出刺激脉冲,输出刺激脉冲根据语音的特性有所不同。
本实施例的共振峰频率对应的电极编号按照下式选择:
其中NFFT是FFT的点数,M是通道数,NE是电极分辨率,NFi是第I个共振峰在N点FFT运算结果中的位置
根据V的取值采用的刺激方式如下:
(1)浊音期间(V=1)
由于浊音期间语音的主要信息量在低频,因此只用E3对应的2NE+1和K1、K2电极输出刺激。基语音率在50~500Hz之间,人工耳蜗的总刺激率可达每秒15K脉冲,用5倍基语音率刺激。这样,2NE+1电极在刺激期间就可以传达更多的信息。
(2)清音期间(V=0)
清音期间语音信息主要在高频部分,因此用1、NE+1、2NE+1和K2电极输出刺激,采用固定的1250Hz频率刺激。在患者可以接受的刺激频率范围内,用越高的刺激频率效果越好。
Claims (3)
1.一种基于多峰提取的语音编码刺激方法,将采样得到的语音信号分为六路,其中第一路语音信号经过共振峰检测提取出语音参数第一共振峰频率F1、第一共振峰幅度A1、第二共振峰频率F2、第二共振峰幅度A2;第二路语音信号经过清浊音判决提取出清音/浊音标志的语音参数V;第三路语音信号经过基音检测提取出语音参数基音频率F0;另外三路语音信号经过三个带通滤波处理后再经过包络检波提取出三个高频分量的能量E1、E2、E3,然后再根据所述提取的这些参数联合编码进行刺激;其特征在于,所述对第一路语音信号进行共振峰检测的方法,包括以下步骤:
1)将所述第一路语音信号进行预加重处理,使语音短时谱更为平坦,从而提高谱参数的估计精度;
2)对预加重后的语音信号进行加窗成帧,以减少两端的预测误差;
3)对加窗后的语音经过Durbin算法作线性预测分析,找出各个共振峰;
4)再对各个共振峰进行快速傅立叶变换得到其逆滤波的频率特性;
5)最后根据逆滤波的频率特性进行谷值检测,得到所述的语音参数F1、A1、F2、A2;
所述联合编码进行刺激的方法包括:
在浊音期间,采用基音的5倍频刺激;
在清音期间,采用固定的1250Hz频率刺激。
2.根据权利要求1所述的基于多峰提取的语音编码刺激方法,其特征是:所述对第二路语音信号进行清浊音判决方法是采用短时平均过零率和短时自相关函数判断提取出所述清音/浊音标志V的语音参数。
3.根据权利要求1所述的基于多峰提取的语音编码刺激方法,其特征是:所述对第三路语音信号进行基音检测的方法,包括以下步骤:
1)先对所述第三路语音信号进行带通滤波,去除语音声道特性和共振峰的影响;
2)滤波后的语音信号再经过短时平均幅度函数AMDF的基音检测方法进行估计;
3)最后对该估计结果进行中值滤波输出所述语音参数F0;
所述三个带通滤波处理采用可编程的数字滤波方法,滤波带宽根据不同的患者进行调整。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2004100906633A CN1280784C (zh) | 2004-11-12 | 2004-11-12 | 基于多峰提取的语音编码刺激方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2004100906633A CN1280784C (zh) | 2004-11-12 | 2004-11-12 | 基于多峰提取的语音编码刺激方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1604188A CN1604188A (zh) | 2005-04-06 |
CN1280784C true CN1280784C (zh) | 2006-10-18 |
Family
ID=34667209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2004100906633A Expired - Fee Related CN1280784C (zh) | 2004-11-12 | 2004-11-12 | 基于多峰提取的语音编码刺激方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1280784C (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101067929B (zh) * | 2007-06-05 | 2011-04-20 | 南京大学 | 使用共振峰增强提取话音共振峰轨迹的方法 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2107556A1 (en) * | 2008-04-04 | 2009-10-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio transform coding using pitch correction |
CN102110436B (zh) * | 2009-12-28 | 2012-05-09 | 中兴通讯股份有限公司 | 一种基于语音包络特征的标志音识别方法及装置 |
CN103383845B (zh) * | 2013-07-08 | 2017-03-22 | 上海泰亿格康复医疗科技股份有限公司 | 基于实时声道形状修正的构音障碍多维测量***及其方法 |
US9454893B1 (en) | 2015-05-20 | 2016-09-27 | Google Inc. | Systems and methods for coordinating and administering self tests of smart home devices having audible outputs |
EP3298598B1 (en) * | 2015-05-20 | 2020-06-03 | Google LLC | Systems and methods for testing smart home devices |
CN108417204A (zh) * | 2018-02-27 | 2018-08-17 | 四川云淞源科技有限公司 | 基于大数据的信息安全处理方法 |
CN112270934B (zh) * | 2020-09-29 | 2023-03-28 | 天津联声软件开发有限公司 | 一种nvoc低速窄带声码器的语音数据处理方法 |
-
2004
- 2004-11-12 CN CNB2004100906633A patent/CN1280784C/zh not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101067929B (zh) * | 2007-06-05 | 2011-04-20 | 南京大学 | 使用共振峰增强提取话音共振峰轨迹的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN1604188A (zh) | 2005-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1146862C (zh) | 音调提取方法和装置 | |
CN101976566B (zh) | 语音增强方法及应用该方法的装置 | |
CN1185626C (zh) | 修改语音信号的***和方法 | |
CN1175398C (zh) | 一种从噪声环境中识别出语音和音乐的声音活动检测方法 | |
CN1042790A (zh) | 认人与不认人实时语音识别的方法和装置 | |
CN1123862C (zh) | 基于语音识别专用芯片的特定人语音识别、语音回放方法 | |
CN1302459C (zh) | 用于编码和解码非话音语音的方法和设备 | |
CN1750124A (zh) | 带限音频信号的带宽扩展 | |
CN101051464A (zh) | 说话人认证的注册和验证方法及装置 | |
CN1750121A (zh) | 一种基于语音识别及语音分析的发音评估方法 | |
CN103646649A (zh) | 一种高效的语音检测方法 | |
CN108154879B (zh) | 一种基于倒谱分离信号的非特定人语音情感识别方法 | |
CN1737906A (zh) | 利用中枢网络分离语音信号 | |
CN1527994A (zh) | 快速频域音调估计 | |
CN107767859A (zh) | 噪声环境下人工耳蜗信号的说话人可懂性检测方法 | |
CN102054480A (zh) | 一种基于分数阶傅立叶变换的单声道混叠语音分离方法 | |
CN1141696C (zh) | 基于语音识别专用芯片的非特定人语音识别、语音提示方法 | |
CN1716380A (zh) | 基于决策树和说话人改变检测的音频分割方法 | |
CN1868427A (zh) | 适合汉语语音编码策略的人工耳蜗方法 | |
CN1280784C (zh) | 基于多峰提取的语音编码刺激方法 | |
CN1967659A (zh) | 用于助听器的语音增强方法 | |
CN110136709A (zh) | 语音识别方法及基于语音识别的视频会议*** | |
CN1773605A (zh) | 一种应用于语音识别***的语音端点检测方法 | |
CN105679312A (zh) | 一种噪声环境下声纹识别的语音特征处理方法 | |
CN107221334B (zh) | 一种音频带宽扩展的方法及扩展装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20061018 Termination date: 20131112 |