CN100589783C

CN100589783C - 具有s参数控制的基于汉语特征的电子耳蜗语音处理方法

Info

Publication number: CN100589783C
Application number: CN200610060581A
Authority: CN
Inventors: 叶大田; 关添; 宫琴; 黄盛杨; 于淑丽
Original assignee: Shenzhen Graduate School Tsinghua University
Current assignee: Shenzhen Graduate School Tsinghua University
Priority date: 2006-05-15
Filing date: 2006-05-15
Publication date: 2010-02-17
Anticipated expiration: 2026-05-15
Also published as: CN1861026A

Abstract

一种具有S参数控制的基于汉语特征的电子耳蜗语音处理方法，它包括：a、电子耳蜗体外语音处理部分的对输入的语音信号进行预处理后分为两路；b、将一路语音信号划分为若干频段，分别提取各频段信号的包络；c、提取另一路语音信号的基频信息，编码后由S参数控制通道数，传递到选定频段的幅度信息传输通道中，并以命令帧的格式将基频信息和幅度信息发送给体内部分；d、体内部分接收所述命令帧，产生电刺激脉冲序列作用于体内部分的相应电极，刺激该电极所对应位置的听神经，从而恢复患者的听觉。本发明增加了汉语基频信息的提取和传递，提高了患者在噪声下的语言识别能力，从而能更好的恢复我国耳聋患者的听觉。

Description

具有S参数控制的基于汉语特征的电子耳蜗语音处理方法

技术领域：

本发明涉及电子耳蜗，特别涉及具有S参数控制的基于汉语特征的电子耳蜗语音处理方法。

背景技术：

电子耳蜗也被称为耳蜗埋植、电子耳、仿生耳或人工耳蜗，它是目前唯一能使全聋患者恢复听觉的装置。它依靠直接用微弱电流兴奋听神经纤维模仿外周听觉***的生理功能，产生与正常人耳相似的神经发放模式，从而恢复患者的听觉。

电子耳蜗可以帮助全聋患者恢复语言交流能力，增加他们接受教育、就业和社会交往的机会。尤其是聋儿，无论是语前聋还是语后聋，当借助于助听器仍然无法听到声音时，将导致他们终生失去获得正常教育的机会，给家庭和社会增加沉重的负担。电子耳蜗可以帮助他们重新获得音感，获取外界的信息和知识，成为对社会有益的人。

电子耳蜗语音信号处理部分的功能是将声音信号转换为与耳蜗中的电极相对应的电刺激信号，语音信号处理算法是电子耳蜗***中最关键的技术，它对电子耳蜗的性能有重要的影响。

传统的应用到临床上的电子耳蜗语音信号处理算法可分为两大类，一类是基于特征提取，即提取语音信号的基频和共振峰等特征，然后产生相应电极的刺激信号。主要包括F0/F2算法、F0/F1/F2算法和MPEAK(Multi-PEAK)算法等。后来在此基础上发展了基于滤波器组的第二类电子耳蜗语音信号处理算法，即对语音信号进行分频段滤波处理。如最大谱峰声音处理(Spectral Maxima Sound Processor，简称SMSP)算法、谱峰提取(SpectralPEAK，简称SPEAK)算法、压缩模拟(Compressed Analog，简称CA)算法、连续交替取样(Continuous Interleaved Sampling，简称CIS)算法和组合编码(Advanced CombinedEncoder，简称ACE)算法等多种算法。

现有算法都是在英文理解的基础上开发的，没有考虑到汉语等有调语言的特点。汉语有自己的特色，它是一种声、韵、调语言，其中声调和语调对于汉语的正确理解具有重要的意义。

汉语声调又称字调或者音节声调，其除了具有区别字义和词义的功能外，还有构形、分界、抗干扰、修辞等功能。而汉语的语调代表句子的音高变化。语调中不同的节拍组合有时可以改变语句结构和全句的意义，同样对于语义的理解具有重要的意义。

然而临床使用的产品仅仅依靠语音幅度信息的提取和传递很难有效的传递汉语的声调等信息，其安静条件下平均识别率约68％，和正常听力受试者的99％±3.0％相差很多，难以满足患者的需求。

因此能够充分利用汉语特性的，更多传递汉语丰富频率信息的，更有效的适应汉语的电子耳蜗语音处理算法必须重新开发。

发明内容：

本发明的目的在于针对目前电子耳蜗存在的上述问题，提供一种具有S参数控制的基于汉语特征的电子耳蜗语音处理方法，从而更加有效地恢复我国耳聋患者的听力。

本发明提出的基于汉语特征的电子耳蜗语音处理方法是一种具有用S参数控制引入基频调制的通道数量的算法，它包括以下步骤：

a、电子耳蜗体外语音处理部分的预处理模块对输入的语音信号进行预处理，预处理后的语音信号分为两路；

b、体外语音处理部分的带通滤波器组将预处理后的一路语音信号划分为若干频段，然后由幅度信息提取模块分别提取各频段信号的包络(即幅度信息)；

c、体外语音处理部分的基频信息提取模块提取预处理后的另一路语音信号的基频信息，通过编码模块将提取到的基频信息编码，然后由S参数控制通道数，将编码后的基频信息F0传递到选定频段的幅度信息传输通道中，并以命令帧的格式将编码后的基频信息F0和选定频段的幅度信息通过发射模块发送给电子耳蜗体内部分；

d、电子耳蜗体内部分接收所述命令帧，根据命令帧的内容产生电刺激脉冲序列作用于电子耳蜗体内部分的相应电极，刺激该电极所对应位置的听神经，从而恢复患者的听觉。

语音信号的预处理包括语音信号的预加重和去加重、分帧、带通滤波等功能，预加重是为了保持通道间的谱均衡，因为声音信号由口腔发出时，由于***辐射，在大于1.2kHz的高频段有-6dB/Oct的衰减，预加重可以补偿高频衰减。去加重是预加重逆过程。分帧是用来实现分割语音处理单元，从而使语音信号在分割后的单帧处理单元中近似平稳。

本发明采用小波提升算法与时域基频处理算法相结合的方法，实现了对语音信号基频的准确提取和编码，其计算速度快、节省内存。这种方法既解决了单独使用时域基频处理算法容易受到噪声的干扰，提取效果会随着信噪比的下降而迅速下降的缺点，又避免了使用传统变换域的方法虽然提取精度较好，但是计算复杂和对内存占用大的缺点。

本发明在算法结构中加入了S参数控制环节，可以通过选择性的对基频信息进行编码来减少信息的冗余。该模块通过定义控制参数S为传递基频信息的通道数(从低频开始记数，例如S＝1，则只有从第一通道开始的1个通道传递频率信息；S＝2，则有从第一通道开始的2个通道传递频率信息；依此类推)来控制和调节基频信息有选择的传递，从而减少信息的冗余。通过实验验证S＝5既可以有效提高电子耳蜗患者在噪声环境下的语音识别能力，又降低了算法的复杂度。

本发明利用电子耳蜗语音信号处理技术，结合Matlab和汇编语言平台，通过提取和选择性的利用汉语特征，实现了创新的适合我国耳聋患者使用的电子耳蜗语音处理算法。其主要效果有：

a)利用汉语特征，增加了汉语基频信息的提取和传递，提高了患者在噪声下的语言识别能力，从而能更好的恢复我国耳聋患者的听觉。

b)通过S参数的控制，有选择性的传递汉语的基频信息，不仅充分有效的利用了汉语特征，也大大降低了算法的复杂度。

c)利用低通滤波和Hilbert变换结合使用的方法实现幅度信息的提取，既有效的跟踪了语音幅度变化的信息，又避免了单独应用Hilbert变换方法过多细节毛刺，影响幅度信息表达的弱点。

d)幅度信息压缩时，利用折线拟和非线性压缩的汇编算法，简化了压缩算法的复杂度，将传统算法中的除法改成了拟和时使用的乘法和加法，更加适合硬件***的实现。

附图说明：

图1是本具有S参数控制的基于汉语特征的电子耳蜗语音处理方法的原理框图；

图2是其分频带带通滤波程序流程图；

图3是其幅度信息提取程序流程图；

图4是其折线拟和压缩程序流程图。

具体实施方式：

下面结合附图说明本发明的具体实施方式。

图1是本发明整体算法结构框图。参照图1，电子耳蜗体外语音处理部分将语音信号经过预处理之后，一路进行频带划分和包络提取；另一路利用小波提升提取基频。提取出来的基频信息在S参数的调控下，只被传递到选择的部分低频段(例如S＝5时只被传递到靠近蜗顶的5个频段)，所选择的低频段的幅度信息和编码后的基频信息F0以命令帧的格式通过发射模块发送给体内刺激电路，体内刺激电路据此产生电刺激脉冲。每个命令帧包含体内刺激电路产生一个电刺激脉冲的全部信息，体内刺激电路根据命令帧产生电刺激脉冲时，命令帧中的幅度信息用来调制所产生的电刺激脉冲的幅度，命令帧中的基频信息F0用来调制所产生的电刺激脉冲的速率。本具有S参数控制的基于汉语特征的电子耳蜗语音处理方法具体包括以下步骤：

c、体外语音处理部分的基频信息提取模块提取预处理后的另一路语音信号的基频信息，通过编码模块将提取到的基频信息编码，然后由S参数控制通道数，将编码后的基频信息F0传递到选定频段的幅度信息传输通道中，并以命令帧的格式将编码后的基频信息F0和选定频段的幅度信息通过发射模块发送给电子耳蜗体内部分：

所述命令帧采用长帧结构，体内刺激电路根据每一帧数据可以产生一个电刺激脉冲，每个命令帧包含所要产生的电刺激脉冲的幅度、脉宽和速率信息，还包含该电刺激脉冲所要刺激的电极和刺激方式等信息。

步骤b中提取的幅度信息用于，体内刺激电路产生电刺激脉冲时调制所产生的电刺激脉冲的幅度；步骤c中编码后的基频信息F0用于，体内刺激电路产生电刺激脉冲时调制所产生的电刺激脉冲的速率。

语音信号的预处理包括语音信号的预加重和去加重、分帧、带通滤波等功能，预加重是为了保持通道间的谱均衡，因为声音信号由口腔发出时，由于***辐射，在大于1.2kHz的高频段有-6dB/Oct的衰减，预加重可以补偿高频衰减，预加重采用一阶差分公式：y(n)＝x(n)-a·x(n-1)实现，一阶差分的系数a＝0.9。去加重是预加重逆过程。分帧是用来实现分割语音处理单元，从而使语音信号在分割后的单帧处理单元中近似平稳，分帧处理利用滑动窗函数y(n)＝x(n)·w(n)实现，窗函数选择汉明窗

帧长为16毫秒，帧移为8毫秒。只有在语音信号长度为10-20毫秒范围内，才可以认为该信号是近似平稳的。所述公式中x(n)为输入语音信号，y(n)为输出语音信号。

图2是本发明分频带带通滤波程序流程图。本发明在Butterworth方法设计IIR带通滤波器组或用窗函数法设计FIR带通滤波器组进行了选择，为了尽量减少非线性相位环节，即不同频率的信号经过滤波后的相移不同，本发明最终采用汉明窗设计FIR带通滤波器组。为了保证滤波器组参数与耳蜗频率特性相符，即保持恒Q特性，选用的滤波器阶数高达40，很好的完成了分频带带通滤波的功能。也可以采用Butterworth方法设计的IIR带通滤波器组。

图3是幅度信息提取程序流程图。本发明采用低通滤波和Hilbert变换结合使用的方法实现幅度信息的提取，具体包括以下步骤：将各频段信号全波整流；整流后的信号经过Hilbert变换后构成解析信号，解析信号的模即为该信号的包络；用低通滤波器滤除所述解析信号的模中的高频干扰成分，得出幅度信息。低通滤波器的截止频率一般取400Hz，可根据实际要求作合理调整。设计方法主要有IIR和FIR两种，本发明在带通滤波器组设计时已采用了FIR方法，对整个***资源开销很大，为了节省资源，在提取包络时选用了18阶IIR Butterworth低通滤波器。

幅度信息提取后，由于患者对于电刺激的动态范围有限，在选择要进行刺激的频段后，需要对该频段信号的幅度进行动态范围的压缩，本发明采用对数压缩函数Y＝Alog(x)+B对各通道的包络信号进行动态范围的非线性压缩，式中的x为压缩前语音信号，Y为压缩后信号，A、B由患者的听阈和痛阈参数确定。压缩函数确定后，用汇编语言在DSP上实现时，本实施例采用16段折线近似对数函数，用简单的线性表保存转折点的参数，压缩时按照折线规律线性拟和计算得到各通道压缩后的包络信号。对于8通道电子耳蜗，需要不多于0.5K字的存储量。当需要调整映射曲线时只需要修改查找表的参数，即可完成压缩程序的调整。图4所示为本实施例折线拟和压缩程序流程图。

上述步骤c中，基频信息提取模块采用平均幅度差函数

式中，x(i)(i＝1～N)为加窗语音信号，j为延迟(j＝1～N-1)，提取预处理后的另一路语音信号的基频信息。如果语音信号为周期性信号，则延迟相减后得到的平均幅度差函数在其基音周期的整数倍处将出现明显的“谷”值。本发明通过计算“谷”点的位置求得基音周期的大小，基音周期的倒数即为基音频率。

在提取语音信号的基频信息前，首先利用小波提升算法对语音信号进行频带划分和去噪，本发明基于小波提升算法的小波变换称为第二代小波变换，它包括对信号进行***、预测和更新，经过一定次数的迭代之后，就计算得到信号的多级分解。本发明采用第4次提升的概貌信息进入下一步的基频提取，充分利用了小波提升算法的在位计算、高效、并行等特点。

所述的S参数控制通道数，把编码后的基频信息F0传递到选定频段的幅度信息传输通道中的方法为：定义控制参数S为传递基频信息的通道数，将编码后的基频信息传递到靠近蜗顶的S个频段的幅度信息传输通道中。通过实验验证S＝5既可以有效提高电子耳蜗患者在噪声环境下的语音识别能力，又降低了算法的复杂度。

Claims

1、一种具有S参数控制的基于汉语特征的电子耳蜗体外语音处理方法，其特征在于包括以下步骤：

b、所述体外语音处理部分的带通滤波器组将预处理后的一路语音信号划分为若干频段，然后由幅度信息提取模块分别提取各频段信号的幅度信息；

c、所述体外语音处理部分的基频信息提取模块提取预处理后的另一路语音信号的基频信息，通过编码模块将提取到的基频信息编码，然后由S参数控制通道数，将编码后的基频信息F0传递到选定频段的幅度信息传输通道中，并以命令帧的格式将编码后的基频信息F0和选定频段的幅度信息通过发射模块发送。

2、根据权利要求1所述的具有S参数控制的基于汉语特征的电子耳蜗体外语音处理方法，其特征在于：所述带通滤波器组是采用汉明窗设计的FIR带通滤波器组、或用Butterworth方法设计的IIR带通滤波器组。

3、根据权利要求1所述的具有S参数控制的基于汉语特征的电子耳蜗体外语音处理方法，其特征在于所述S参数控制编码后的基频信息F0传递到选定频段的幅度信息传输通道中的方法为：定义控制参数S为传递基频信息F0的通道数，将编码后的基频信息F0传递到靠近蜗顶的S个频段的幅度信息传输通道中。

4、根据权利要求1所述的具有S参数控制的基于汉语特征的电子耳蜗体外语音处理方法，其特征在于：所述预处理包括预加重和分帧，预加重采用一阶差分公式：y(n)＝x(n)-a·x(n-1)实现，一阶差分的系数a＝0.9；分帧处理利用滑动窗函数y(n)＝x(n)…w(n)实现，窗函数选择汉明窗

帧长为16毫秒，帧移为8毫秒，所述x(n)为输入语音信号，y(n)为输出语音信号。

5、根据权利要求1所述的具有S参数控制的基于汉语特征的电子耳蜗体外语音处理方法，其特征在于：在步骤b中，幅度信息提取模块提取各频段信号的幅度信息的方法包括以下步骤：

将各频段信号全波整流；

整流后的信号经过Hilbert变换后构成解析信号，解析信号的模即为该频段信号的包络；

用低通滤波器滤除所述解析信号的模中的高频干扰。

6、根据权利要求1所述的具有S参数控制的基于汉语特征的电子耳蜗体外语音处理方法，其特征在于：在步骤b中，幅度信息提取模块提取各频段信号的幅度信息后，采用对数压缩函数Y＝Alog(x)+B对各频段信号的包络进行动态范围的非线性压缩，式中的x为压缩前语音信号，Y为压缩后信号，A、B由患者的听阈和痛阈参数确定。

7、根据权利要求1所述的具有S参数控制的基于汉语特征的电子耳蜗体外语音处理方法，其特征在于：在步骤c中，基频信息提取模块采用平均幅度差函数提取预处理后的另一路语音信号的基频信息，式中x(i)(i＝1～N)为加窗语音信号，j为延迟(j＝1～N-1)。

8、根据权利要求1所述的具有S参数控制的基于汉语特征的电子耳蜗体外语音处理方法，其特征在于：在提取语音信号的基频信息前，首先利用小波提升算法对语音信号进行频带划分和去噪，所述小波提升算法包括对信号进行***、预测和更新，经过一定次数的迭代之后，计算得到信号的多级分解。

9、根据权利要求1所述的具有S参数控制的基于汉语特征的电子耳蜗体外语音处理方法，其特征在于：所述命令帧采用长帧结构，每个命令帧包含所要产生的电刺激脉冲的幅度、脉宽和速率信息，还包含该电刺激脉冲所要刺激的电极和刺激方式。

10、根据权利要求1所述的具有S参数控制的基于汉语特征的电子耳蜗体外语音处理方法，其特征在于：步骤b中提取的幅度信息用于，体内刺激电路产生电刺激脉冲时调制所产生的电刺激脉冲的幅度；步骤c中编码后的基频信息F0用于，体内刺激电路产生电刺激脉冲时调制所产生的电刺激脉冲的速率。