背景技术
言语交流是人类社会的基本交流方式,也是个人基本生活能力之一。然而对于那些耳聋患者,由于听力下降而导致的言语交流障碍严重影响了他们的生活质量。这不仅给其本人和家庭带来了巨大的痛苦,同时也给整个社会增加了负担。根据中国残疾人联合会2002年2月7日公布的一项统计表明,我国有听力言语障碍的残疾人2057万,占全国6000万残疾人总数的34.3%。另外,由于遗传、药物、感染、噪声、意外事故等原因,每年还会新增聋儿3万名。如此众多的听障人群以及他们的生活痛苦,促使着相关领域的工作者去尽一份努力来帮助这些聋人重新回到有声世界,像正常人一样生活,以此来体现我们和谐社会的人文关爱。
目前,感音神经性听力损失尚无理想的保守治愈手段,主要的干预治疗方法是佩戴助听器和植入人工耳蜗,而佩戴助听器又适合于大多数患者。从听力损失确诊到听力康复,助听器是整个链条中至关重要和不可缺少的环节。
早期的助听器均为模拟设备,直到1995年,才出现了第一款全数字助听器。近年来,随着语音信号数字处理方法和集成电路技术的日益发展,助听器正逐步由模拟时代进入数字时代。数字助听器克服了模拟助听器功能简单、单一的缺陷,可以较为有效的区分目标语音和干扰噪声,并有可能通过分析不同的应用场景采取相应的信号处理策略,从而达到了初步的智能化。数字助听器以其强大的信号处理能力而越来越为患者所接受。
在当前数字助听器的信号处理技术中,频响补偿是不可缺少的一部分。听力受损人士相对于正常人的一个主要特征是听阈明显上升,痛阈变化不大,因而整个听力范围变窄;另一个主要特征是在不同频率处听力损失程度不同(大多数人高频听力损失严重)。频响补偿技术正是为了解决上述问题,采用分频带动态范围压缩的方法,通过设计分带滤波器组,将输入信号划分成若干个频带,再根据验配时得到的各频带中心频率处听障患者的听阈值,分别调节各频带的增益,将声音信号放大到患者的听力范围之内。在声音信号放大时,现有的频响补偿技术只考虑信号强度是否位于正常人的听力范围内,放大正常人听力范围内的声音到听障人士的听力范围,使其为听障人士所感知。这种方法没有考虑到由于人耳的听觉掩蔽效应引起的听阈上升现象。
所谓掩蔽,是指当两个响度不等的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉;即由于一个声音的存在,使另一个声音的听阈上升。这意味着原本单独出现时可以感知到的声音,会由于另一声音的存在而不为人耳感知。现已有听觉模型可以计算出不同信号下的掩蔽曲线(或掩蔽阈值),信号幅值在掩蔽阈值以上的可为人耳感知,信号幅值在掩蔽阈值以下的不为人耳感知。
现有的频响补偿技术是基于没有掩蔽效应情况下的人耳听阈的,此时的听阈并不是人在真正感受声音时的听阈。正如前面所说,人在感受声音时,会由于听觉掩蔽的作用,导致听阈发生变化;且在收听不同声音时,同一频率的听阈也不同。响度介于原始听阈和掩蔽阈值之间的某个频段的声音,本不该被人耳感知,但是经过目前的动态范围压缩处理后,很可能被放大至超过掩蔽阈值,从而为人耳感知。这一部分声音对人来说,不仅是无用的信息,而且更是对有用信息的干扰,是一种由于信号失真引入的噪声。听障人士相对于正常人来说从语音信号中提取有用信息的能力本来就很弱,过多无用信息的引入,更会严重降低其有用信息的提取能力,具体表现为言语清晰度和可懂度的下降。
由此可见,掩蔽效应是频响补偿时必须考虑的一个因素,如何根据掩蔽曲线改进现有的频响补偿技术,提高患者言语清晰度和可懂度,是我们将要解决的问题。
发明内容
本发明根据人耳听觉掩蔽阈值,提出一种新的频响补偿方法,将它应用在数字助听器中,解决现有方法由于忽视听觉掩蔽效应,过分放大不可感知的信号成分,导致语音清晰度和可懂度下降的问题。
本发明以人耳的听感知机理为基础,实现了基于听觉掩蔽效应的频响补偿方法,并将其应用到数字助听器中。
根据本发明的数字助听器频响补偿方法包括一下技术:时频域转换,临界带的划分,掩蔽阈值的计算,频响补偿等。下面将分别介绍各个技术内容。
1.时频域转换
时频域的相互转换是计算掩蔽阈值,频响补偿的必要步骤。在本发明中采用了加窗傅氏变换的方法。当然也可以采用其他的变换方法。
2.划分临界带
要计算掩蔽曲线,必须先划分各个临界带,确定各个临界带内的FFT谱线范围。临界带的概念来自噪声对纯音的掩蔽:一个纯音可以被以它为中心频率,并且具有一定频带宽度的连续噪声所掩蔽,如果在这一频带内噪声功率等于该纯音的功率。这时该纯音处于刚能被听到的临界状态,即称这一带宽为临界带宽,这一个带为该中心频率的临界带。临界带宽可以通过实验测得。
3.计算掩蔽阈值
掩蔽阈值的计算主要分为4个步骤:
1)根据前面临界带的划分,计算各个临界带的信号能量;
2)引入基底膜扩展函数,考虑各带之间信号的掩蔽效果,计算扩展的临界带谱;
3)结合信号的音调,计算扩展掩蔽阈值的偏移量;
在掩蔽效应中,有两个噪声掩蔽阈值,一个是纯音掩蔽噪声的阈值,比扩展的临界带谱低14.5+idB,i表示第i个临界带;另一个是噪声掩蔽纯音的阈值,比扩展的临界带谱低5.5dB。它们引起的偏移量必须考虑到掩蔽阈值的计算中;
为了决定信号类似噪声和类似纯音的性质,要通过信号功率谱的几何平均值和方法平均值,来考察频谱的平滑度。根据信号频谱的平滑度,计算扩展临界带谱的偏移量,从而得到信号掩蔽阈值。
4)由上一步得到的阈值,还需再通过归一化处理,并和绝对听阈比较,取其最大值,得到最终的掩蔽阈值。
4.频响补偿
频响补偿可以分为以下步骤:
1)划分多个频带;
2)根据聋人的听力阈限和验配效果,设定各带动态范围压缩的压缩阈值和压缩斜率;
3)根据各带输入信号的能量,及压缩阈值和斜率,计算各带增益;
4)根据掩蔽阈值,调节各个频率点的增益值。
语音信号输入后,计算各个频带信号的能量,根据压缩阈值和压缩斜率,计算每个频带的增益。再根据这些频带的增益,通过向内和向外插值计算每根FFT谱线的增益,所得增益并不直接用于各条谱线上,而是先考察该谱线是否位于掩蔽阈值以下,当其幅度低于掩蔽阈值时,增益设为0dB;当其幅度高于掩蔽阈值时,再根据计算的增益放大该频率成分。
以上详细介绍了方法各技术成分的内容,所有方法都在数字助听器的DSP中完成。
本发明中采用的技术有效的解决了现有方法由于忽视听觉掩蔽效应,过分放大不可感知的信号成分,导致语音清晰度和可懂度下降的问题。其优点体现在考虑了由于人耳听觉掩蔽效应引起的听阈上升现象,有效地区分了信号中人耳可感知和不可感知的频率成分,只针对信号中人耳可感知的频率成分进行放大,避免了不可感知频率成分放大后,由于冗余信息增多给听障人士带来的的困扰。过多无用信息的引入,会严重降低聋人对有用信息的提取能力。这种方法有助于提高语音的清晰度和可懂度。
具体实施方式
下面参照本发明的附图,更详细地描述本发明的最佳实施例。
本发明中实现了一个基于人耳听觉掩蔽效应的数字助听器。该***构建在通用的DSP平台上,采用TI公司的TMS320VC5509来完成整个方法,***采样率16kHz,16bit量化,如图4所示。
以下详细介绍设计中所采用的主要技术,包括时频域转换,临界带的划分,掩蔽阈值的计算,频响补偿等等。
1.时频域转换
时频域的相互转换是计算掩蔽阈值,从而进行频响补偿的必要步骤。在本发明中采用了加窗傅氏变换的方法,具体步骤如图1所示。其中帧长为512个样点,帧移128个样点,采样率16kHz。
这种时频变换的优点在于:(1)该变换是一种完全可重构的变换方式;(2)利用加汉明窗傅氏变换进行频域变换,变换结果中的频谱泄漏很小;(3)反变换中的加窗处理能避免因频谱修正带来相位不连续而导致的信号畸变。
2.临界带的划分
要计算掩蔽曲线,必须先划分各个临界带,确定各个临界带内的FFT谱线范围。临界带的概念来自噪声对纯音的掩蔽:一个纯音可以被以它为中心频率,并且具有一定频带宽度的连续噪声所掩蔽,如果在这一频带内噪声功率等于该纯音的功率。这时该纯音处于刚能被听到的临界状态,即称这一带宽为临界带宽,这一个带为该中心频率的临界带。临界带宽可以通过实验测得,表1给出了临界带的带数、频率范围和FFT谱线的范围。
临界带带数 |
频率范围(Hz) |
谱线范围 |
临界带带数 |
频率范围(Hz) |
谱线范围 |
1 |
0~94 |
1~4 |
12 |
1469~1719 |
49~56 |
2 |
94~187 |
5~7 |
13 |
1719~2000 |
57~65 |
3 |
187~312 |
8~11 |
14 |
2000~2312 |
66~75 |
4 |
312~406 |
12~14 |
15 |
2312~2687 |
76~87 |
5 |
406~500 |
15~17 |
16 |
2687~3125 |
88~101 |
6 |
500~625 |
18~21 |
17 |
3125~3687 |
102~119 |
7 |
625~781 |
22~26 |
18 |
3687~4406 |
120~142 |
8 |
781~906 |
27~30 |
19 |
4406~5312 |
143~171 |
9 |
906~1094 |
31~36 |
20 |
5312~6406 |
172~206 |
10 |
1094~1281 |
37~42 |
21 |
6406~7687 |
206~246 |
11 |
1281~1469 |
43~48 |
22 |
7687~8000 |
247~256 |
表1临界带划分及频谱谱线对应情况
3.掩蔽阈值的计算
掩蔽阈值的计算大致可以分为4个步骤,详细过程如下:
(1)计算每个临界带的能量,Bb(i)表示第i帧信号的第b个临界带能量,Px(k,i)是第i帧信号第k根谱线幅度的平方,khb和klb是第b个临界带的上限和下限。
(2)各临界带能量卷积基底膜扩展函数SPR,得到扩展的临界带谱Cb(i),B′为总的临界带数目。
基底膜扩展函数SPRx满足
10log10SPRx=15.81+7.5(x+0.474)-17.5(1+(x+0.474)2)1/2 (3)
(3)考虑信号的音调(tonality),计算扩展掩蔽阈值的偏移量。首先同过计算谱平滑测度SFM,来决定信号频谱类似噪声(noise-like)和类似纯音(tone-like)的性质,G(k,i)和A(k,i)分别为能量谱的几何平均值和算术平均值。SFMmax=-60dB,对应于正弦信号的SFM值。最后求得偏移值Ob(i),并计算掩蔽阈值Tb(i)。
Ob(i)=ton(k,i)×(14.5+b)+(1-ton(k,i))×5.5 1≤b≤B′
(4)最后,归一化并和绝对听阈比较,确定最终的掩蔽阈值,Tabs(b)为第b个带正常人的绝对听阈。
4.频响补偿
***采用了多带的动态范围压缩技术,整个频率范围被分为8个带,各带的中心频率依次为250、500、1000、2000、3000、4000、6000Hz,表2给出了8个带的划分及频谱谱线对应情况:
带数 |
中心频率(Hz) | 频率范围(Hz) | 谱线范围 |
1 |
250 |
0~250 |
1~9 |
2 |
500 |
250~750 |
10~25 |
3 |
1000 |
750~1500 |
26~49 |
4 |
2000 |
1500~2500 |
50~81 |
5 |
3000 |
2500~3500 |
82~113 |
6 |
4000 |
3500~4500 |
114~145 |
7 |
5000 |
4500~5500 |
146~177 |
8 |
6000 |
5500~8000 |
178~256 |
表2各带划分及频谱谱线对应情况
声音信号在各个带的压缩曲线取决于该带的压缩斜率和压缩阈值,如图2所示。各带压缩斜率和压缩阈值主要由聋人通过验配设定,在初始验配时,可根据下面的计算得到初值。
第i个带的压缩斜率为:
CR(i)=38/[I(i)+IG(i)-ABSHL(i)-Conv(i)] (6)
(1)其中I(i)为输入语音65dB声压级时,各个频带输入信号的声压级,
I(i)=60.3,62.6,54.1,47.5,43.8,40.5,38.4,39.8 dB SPL,for i=1 to 8, (7)
(2)IG(i)是输入语音65dB声压级时,各个频带的增益,可由剑桥公式求得,
IG=HL×0.48+INT (8)
HL为聋人某个频带的绝对听阈,INT的值在表3中给出。
频率(Hz) |
250 |
500 |
1000 |
2000 |
3000 |
4000 |
5000 |
6000 |
INT |
-10 |
-8 |
0 |
1 |
-1 |
0 |
1 |
1 |
表3剑桥公式中各频率的INT值
(3)ABSHL(i)为第i个带聋人的绝对听阈,Conv(i)是绝对听阈转换为相等的自由声场的声音强度的转换因子,
Conv(i)=13,5,4,0,-4,-5,0,4dB SPL,for i=1 to 8 (9)
第i个带的压缩阈值为:I(i)-38
这是当输入语音信号为45dB SPL时,各频带最小的语音声压级,经过放大后希望此强度的声音刚好被听到。此外,考虑到过高的压缩斜率会引起语音失真,压缩斜率控制在范围1~2.92之间。
当实际信号输入时,计算各带信号能量,用dB表示,再根据动态范围压缩的拐点和斜率,即可求得各带的增益。通过分段线形插值,计算各谱线的增益,设此时得到的增益为G(k),k代表第k根谱线。
根据掩蔽阈值,调节各谱线增益的大小,
其中A(k)为第k根谱线的幅值,AMT(b)为第k根谱线所在频带的掩蔽阈值。
由此可以看到,只有当谱线幅值超过掩蔽阈值时,才对其进行放大,使其被患者感知;当谱线幅值小于掩蔽阈值时,不对其放大,以避免由于多余的补偿而被患者感知。
尽管为说明目的公开了本发明的具体实施例和附图,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于最佳实施例和附图所公开的内容。