CN1280784C

CN1280784C - 基于多峰提取的语音编码刺激方法

Info

Publication number: CN1280784C
Application number: CNB2004100906633A
Authority: CN
Inventors: 梁华伟
Original assignee: Individual
Current assignee: Individual
Priority date: 2004-11-12
Filing date: 2004-11-12
Publication date: 2006-10-18
Anticipated expiration: 2024-11-12
Also published as: CN1604188A

Abstract

本发明涉及一种基于多峰提取的语音编码刺激方法，属于电子信息技术领域。该方法将采样得到的语音信号分为六路，其中三路经过共振峰检测和清浊音判决提取出语音参数，另外三路经过三个带通滤波处理后再经过包络检波提取出三个高频分量，然后再根据提取的这些参数联合编码进行刺激；本方法能够滤除基音对共振峰的干扰，参数提取准确率得到提高，改进了编码策略，信息传递速率得到提高，从而具有语音识别率高，有利于匹配患者的听觉特性的优点。

Description

基于多峰提取的语音编码刺激方法

技术领域

本发明属于语音处理技术领域，特别涉及用于人工耳蜗的语音编码刺激方法。

背景技术

人工耳蜗的语音处理方法包括参数编码方法和波形编码方法。参数编码方法依据“位置-音调”原理和“频率-音调”原理，根据语音信号内容的不同，选择合适的刺激电极和变化的刺激频率产生刺激脉冲。参数编码方法从语音生成模型出发，提取出语音信号的特征，如基音周期、共振峰频率和幅度，再根据一定的刺激策略进行刺激。常用的参数编码方法有F₀/F₂方法、F₀/F₁/F₂方法、MPEAK方法等。MPEAK方法的主要步骤如下，将语音信号分为六路，其中三路音信号，分别经过共振峰检测、清浊音判决、基音检测等步骤提取出语音参数；同时另外三路语音信号经过三个固定滤波器处理分解出三个高频分量参数，然后再根据提取的这些参数编码进行刺激，其方法是：在浊音期间用共振峰频率F1、F2选择电极，带通滤波处理后的语音信号也参与刺激；清音期间用平均250脉冲/秒的随机刺激。上述参数编码方法的主要特点是传输信息量少，患者的主观听觉感觉不自然。对所有的采用参数编码方法的人工耳蜗，患者一致认为其音感生硬、模糊，和真实的语音感觉差异很大，产生这种现象的主要原因是实际的编码速率太低。另外由于参数编码方法的抗噪能力较差，在噪声环境下语音识别的效果会显著下降。但是，参数编码方法对某些残留神经较少的患者来说是一种很好的选择。由于这些患者的可用刺激通道较少，参数编码方法利用了“频率-音调原理”，相对于采用固定刺激速率的波形编码方法传递了更多的语音信息，因此有更好的语音识别效果。

发明内容

本发明的目的就是针对上述已有技术中的参数编码方法的缺点，提出基于多峰提取的语音编码刺激方法，这种方法能够滤除基音对共振峰的干扰，参数提取准确率得到提高，改进了编码策略，信息传递速率得到提高，从而具有语音识别率高，有利于匹配患者的听觉特性的优点。

本发明的基于多峰提取的语音编码刺激方法，将采样得到的语音信号分为六路，其中第一路语音信号经过共振峰检测提取出语音参数第一共振峰频率F₁、第一共振峰幅度A₁、第二共振峰频率F₂、第二共振峰幅度A₂；第二路语音信号经过清浊音判决提取出清音/浊音标志的语音参数V；第三路语音信号经过基音检测提取出语音参数基音频率F₀；另外三路语音信号经过三个带通滤波处理后再经过包络检波提取出三个高频分量的能量E₁、E₂、E₃，然后再根据所述提取的这些参数联合编码进行刺激；所述对第一路语音信号进行共振峰检测的方法，包括以下步骤：

1)将所述语音信号进行预加重处理，使语音短时谱更为平坦，从而提高谱参数的估计精度；

2)对预加重后的语音信号进行加窗成帧，以减少两端得预测误差；

3)对加窗后的语音经过Durbin算法作线性预测(LPC)分析，找出各个共振峰；

4)再对各个共振峰进行快速傅立叶变换(FFT)得到其逆滤波的频率特性；

5)最后根据逆滤波的频率特性进行谷值检测，得到所述的语音参数F₁、A₁、F₂、A₂。

所述对第二路语音信号进行清浊音判决方法可采用短时平均过零率和短时自相关函数判断提取出所述清音/浊音标志V的语音参数；

所述对第三路语音信号进行基音检测的方法，可包括以下步骤：

1)先对所述的语音信号进行带通滤波，去除语音声道特性和共振峰的影响；

2)滤波后的语音信号再经过短时平均幅度函数(AMDF)的基音检测方法进行估计；

3)最后对该估计结果进行中值滤波输出所述语音参数F₀；

所述三个带通滤波处理采用可编程的数字滤波方法，滤波带宽根据不同的患者进行调整；

所述联合编码进行刺激的方法可包括：

1)在浊音期间，采用基音的5倍频刺激；

2)在清音期间，采用固定的1250Hz频率刺激。

本发明的特点及技术效果：

1.本发明是一种改进的MPEAK方法。语音信号经过共振峰检测、清浊音判决、基音检测提取出语音参数，经过三个带通滤波处理分解出语音信号的三个高频分量的能量。根据语音的参数信息和高频分量联合编码进行刺激。

2.本发明采用基于短时平均幅度函数(AMDF)的基音检测方法，提高了基音估计精度。MPEAK方法采用简单的低通滤波加过零检测的方法，精度很低。由于基音周期携带了大量语音信息，因此本发明的方法有利于提高语音识别率。

3.已有的MPEAK方法的共振峰检测采用滤波法实现，精度非常有限。本发明的共振峰检测采用LPC自关法检测共振峰，能够滤除基音对共振峰的干扰，精度要高得多。

4.本发明采用可编程的数字滤波方法代替固定滤波方法，有利于匹配患者的听觉特性。MPEAK方法中的滤波处理的带宽和中心频率都固定不变。本发明采用可变带宽滤波方法，可以根据不同的患者分别调整。

5.本发明对编码策略进行了改进。在浊音期间，采用基音的5倍频刺激，能传达更多的语音信息。在清音期间，MPEAK用平均250脉冲/秒的随机刺激，本发明用1KHz以上脉冲刺激，可获得更好的效果。

附图说明

图1是本发明的基于多峰提取的语音编码刺激方法的框图。

图2是本发明的共振峰检测流程图。

图3是本发明的基音检测的流程图。

具体实施方式

下面结合实施例及附图对本发明进一步说明。

本发明的基于多峰提取的语音编码刺激方法如图1所示，语音信号分为六路，其中三路语音信号，分别经过共振峰检测提取出第一共振峰频率F₁、第一共振峰幅度A₁、第二共振峰频率F₂、第二共振峰幅度A₂作为语音参数；经过基音检测提取出基音频率F₀作为语音参数，经过清浊音判决提取出语音参数清音/浊音标志V；同时另外三路语音信号先经过三个带通滤波处理，再经过包络检波提取出三个高频分量的能量E₁、E₂、E₃作为语音参数。然后再根据提取的这些参数编码进行刺激。

上述共振峰检测、清浊音判决、基音检测、带通滤波处理和编码这五个过程的实施例分别详细说明如下：

1.共振峰检测

本实施例的共振峰检测的步骤如图2所示，包括：

(11)语音信号先经过预加重滤波处理，预加重滤波的传输函数为：

H(z)＝1-μz^-1，μ＝0.9375

首先进行预加重的目的是加强语音谱中的高频共振峰，使语音短时谱以及以后LPC处理的余数频谱更为平坦，从而提高谱参数的估计精度；

(12)对预加重后的语音信号进行加窗成帧，以减少两端的预测误差，窗函数选用汉明窗，它有较窄的主瓣宽度，较低的旁瓣电平；

(13)加窗后的语音经过Durbin算法作LPC分析求共振峰，由LPC求出声道传输函数的系数后，得到声道传输函数的频率特性；

在LPC分析中，假设

\hat{s} (n) = - {&Sum;}_{k = 1}^{p} α_{k} s (n - k)

根据正交原理可以得到：

{&Sum;}_{l = 1}^{p} α_{1} R (k - 1) = - R (k),

k＝1，2，…p

其中R(k-1)是采样后的语音信号s(n)的自相关函数，p为线性预测长度。这是一组LPC正则方程，用Durbin递推公式求解，具体方法为：

设初值：

α_{1}^{(1)} = - \frac{R (1)}{R (0)}, ρ_{1} = (1 - | α_{1}^{(1)} |^{2}) \cdot R (0)

对k＝2，3，…p，进行递推：

α_{k}^{(k)} = - \frac{R (k) + {&Sum;}_{l = 1}^{k = 1} α_{1}^{(k - 1)} R (k - 1)}{ρ_{k - 1}}

α_{i}^{(k)} = α_{i}^{(k - 1)} + α_{k}^{(k)} \cdot α_{k - 1}^{(k - 1)}

i＝1，2，…k-1

ρ^{(k)} = (1 - | α_{k}^{(k)} |^{2}) ρ^{(k - 1)}

其中ρ^(k)即为最小k阶预测误差功率。

在本实施例中LPC分析中取帧长20ms，在10KHz抽样频率时采样信号长度N＝200，线性预测长度p＝12。

A (nf) = 1 + {&Sum;}_{k = 1}^{p} a_{k} e^{- j \frac{2 π}{N} kn} = {&Sum;}_{k = 0}^{N - 1} a_{k} W_{N}^{nk}

令X(n)＝(1，a₁，a₂，…a_k，…0)，用N点FFT计算出A(nf)由

H (nf) = \frac{1}{A (nf)},

搜索出|A(nf)|的谷点即找出各个共振峰；

(14)然后再经过FFT求出各个共振峰的逆滤波频率特性；

(15)最后根据逆滤波频率特性进行谷值检测，得到共振峰信息(即F₁、A₁和F₂、A₂)。

2.清浊音判决

本实施例的清浊音判决采用短时平均过零率和短时自相关函数判断提取出语音参数V，具体包括：

(21)定义短时过零率Z：

Z = \frac{1}{2} {&Sum;}_{n = 1}^{N - 1} | sgn [s (n)] - sgn [s (n - 1]] |

其中：s(n)为采样后的语音信号，sgn[]为符号函数

sgn [x] = \{\begin{matrix} 1, x &GreaterEqual; 0 \\ - 1, x < 0 \end{matrix}

令P为归一化自关函数在基音周期时刻的幅度：

p = \frac{\max R (l)}{R (0)}

其中R(l)是语音自关函数在基音周期时刻的幅度；

(22)判决规则：

(a)P＞0.3时判为浊音，V＝1

(b)0.2＜P＜0.3且0.4N＞Z＞0.3N时判为浊音，V＝1

(c)其它情况为清音或无语音，统一判为清音，V＝0

3.基音检测

本实施例的基音检测采用短时平均幅度函数(AMDF)法估计过程如图3所示。包括以下步骤：

(31)首先语音信号经过带通滤波(BPF)，去除语音声道特性和共振峰的影响；

(32)滤波后的语音信号再经过短时平均幅度函数(AMDF)进行估计；

定义短时平均幅度差函数为：

D_{AMDF} (L) = \frac{1}{N} {&Sum;}_{n = 0}^{N - L - 1} | S (n + L) - S (n) |,

L＝L_min，…L_max

其中S(n)为采样后的语音信号，N为计算窗长，L为平均运算步长。

基音周期为：

L_{AMDF} = \underset{L}{\arg} {Min}_{L = L_{\min}}^{L_{\max}} [D_{AMDF} (L)]

一般基音周期为2ms-20ms。本实施例计算窗长取为40ms，在10KHz抽样频率时，

N＝400，L_min＝20，L_max＝200。

(33)最后对该估计结果由5点中值滤波输出所述语音参数F₀。

4.带通滤波处理

带通滤波处理采用可编程的数字滤波方法，滤波带宽可以根据不同的患者进行调整；

5.编码

根据上述带通滤波器组的输出和共振峰检测、清浊音判决、基音检测等步骤进行参数提取的结果，编码模块有如下输入量：E₁、E₂、E₃、F₀、F₁、A₁、F₂、A₂和V，由这些参数确定输出刺激脉冲，输出刺激脉冲根据语音的特性有所不同。

本实施例的共振峰频率对应的电极编号按照下式选择：

K_{i} = M + 1 - \frac{{2 N}_{Fi}}{N_{FFT}} (M - {2 N}_{E} - 1)

其中N_FFT是FFT的点数，M是通道数，N_E是电极分辨率，N_Fi是第I个共振峰在N点FFT运算结果中的位置

(1 \leq N_{Fi} \leq \frac{N_{FFT}}{2}) .

根据V的取值采用的刺激方式如下：

(1)浊音期间(V＝1)

由于浊音期间语音的主要信息量在低频，因此只用E₃对应的2N_E+1和K₁、K₂电极输出刺激。基语音率在50~500Hz之间，人工耳蜗的总刺激率可达每秒15K脉冲，用5倍基语音率刺激。这样，2N_E+1电极在刺激期间就可以传达更多的信息。

(2)清音期间(V＝0)

清音期间语音信息主要在高频部分，因此用1、N_E+1、2N_E+1和K₂电极输出刺激，采用固定的1250Hz频率刺激。在患者可以接受的刺激频率范围内，用越高的刺激频率效果越好。

Claims

1.一种基于多峰提取的语音编码刺激方法，将采样得到的语音信号分为六路，其中第一路语音信号经过共振峰检测提取出语音参数第一共振峰频率F₁、第一共振峰幅度A₁、第二共振峰频率F₂、第二共振峰幅度A₂；第二路语音信号经过清浊音判决提取出清音/浊音标志的语音参数V；第三路语音信号经过基音检测提取出语音参数基音频率F₀；另外三路语音信号经过三个带通滤波处理后再经过包络检波提取出三个高频分量的能量E₁、E₂、E₃，然后再根据所述提取的这些参数联合编码进行刺激；其特征在于，所述对第一路语音信号进行共振峰检测的方法，包括以下步骤：

1)将所述第一路语音信号进行预加重处理，使语音短时谱更为平坦，从而提高谱参数的估计精度；

2)对预加重后的语音信号进行加窗成帧，以减少两端的预测误差；

3)对加窗后的语音经过Durbin算法作线性预测分析，找出各个共振峰；

4)再对各个共振峰进行快速傅立叶变换得到其逆滤波的频率特性；

5)最后根据逆滤波的频率特性进行谷值检测，得到所述的语音参数F₁、A₁、F₂、A₂；

所述联合编码进行刺激的方法包括：

在浊音期间，采用基音的5倍频刺激；

在清音期间，采用固定的1250Hz频率刺激。

2.根据权利要求1所述的基于多峰提取的语音编码刺激方法，其特征是：所述对第二路语音信号进行清浊音判决方法是采用短时平均过零率和短时自相关函数判断提取出所述清音/浊音标志V的语音参数。

3.根据权利要求1所述的基于多峰提取的语音编码刺激方法，其特征是：所述对第三路语音信号进行基音检测的方法，包括以下步骤：

1)先对所述第三路语音信号进行带通滤波，去除语音声道特性和共振峰的影响；

2)滤波后的语音信号再经过短时平均幅度函数AMDF的基音检测方法进行估计；

3)最后对该估计结果进行中值滤波输出所述语音参数F₀；

所述三个带通滤波处理采用可编程的数字滤波方法，滤波带宽根据不同的患者进行调整。