CN101593522B

CN101593522B - 一种全频域数字助听方法和设备

Info

Publication number: CN101593522B
Application number: CN2009100885786A
Authority: CN
Inventors: 梁维谦; 翁海波; 夭淼; 董明; 易安希; 刘国旗; 刘润生
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2009-07-08
Filing date: 2009-07-08
Publication date: 2011-09-14
Anticipated expiration: 2029-07-08
Also published as: CN101593522A

Abstract

本发明实施例提供了一种全频域数字助听方法，方法包括：获取前后双麦克风的输入语音信号，并进行分帧和傅里叶变换，以及进行语音场景类别的识别；当为带噪语音时，对分帧语音频域信号进行噪声检测并进行双麦克风波束形成处理、风噪声处理以及其它噪声抑制，然后进行频域动态范围压缩，以及声学反馈抑制；最后，进行反傅里叶变换和重叠相加得到输出语音信号。本发明实施例还提供了一种全频域数字助听设备。通过本发明实施例提供的方案，解决了目前数字助听器侧重于单纯解决听力障碍某一方面，而没有综合考虑影响使用效果各方面因素的问题，同时本发明实施例提供了全频域的数字助听方案，具有处理速度快，占用资源少，能耗低等优点。

Description

一种全频域数字助听方法和设备

技术领域

本发明涉及数字信号处理和医疗设备领域，特别涉及一种全频域数字助听方法和设备。

背景技术

声音是人类交流的一种重要手段，然而由于先天和后天的原因，一些人的听力受到损伤，成为耳聋患者。其中，数字助听器作为听力康复的最重要的手段，给听力障碍患者带来一个动听的世界，同时也是人们高质量生活的一个重要标志。

传统的模拟助听器通常使用线性放大电路，由于技术的限制，存在静态噪音、啸叫、体积大、功耗高等缺点，不能得到令人满意的效果。数字助听器则很好地克服了这些问题。但是由于人耳的听力障碍原因不同，语音环境千差万别，导致数字助听器的设计非常复杂。目前存在的数字助听器大都侧重于解决某一种因素导致的听力障碍问题，难以面面俱到，考虑到使用者的特殊情况。

同时，目前数字助听器大都是在时域对语音信号进行处理，虽有部分助听器在***的某一部分采用频域处理的方式，但尚未有全频域处理的数字助听技术。而全频域的数字助听技术在处理速度，功耗，听感等方面能提供更加让人满意的效果。

发明内容

为了解决目前数字助听器侧重于单纯解决听力障碍某一方面，而没有综合考虑影响使用效果各方面因素的问题，同时提高处理速度，减少占用资源，降低能耗，本发明实施例提供了一种全频域数字助听方法和设备。

本发明实施例提供了一种全频域数字助听方法，所述方法包括：

获取前后双麦克风的输入语音信号，对所述输入语音信号进行分帧，并对分帧后的输入语音信号进行傅里叶变换，得到分帧语音频域信号；

对所述分帧语音频域信号进行语音场景的识别，得到所述输入语音信号的语音场景类别；

当所述输入语音信号的语音场景为带噪语音时，对所述分帧语音频域信号进行语音检测，判断所述分帧语音频域信号中每一帧是语音帧还是噪声帧；

将经过语音检测后的分帧语音频域信号进行双麦克风波束形成处理；

对双麦克风波束形成的语音信号进行风噪声处理；

将经过风噪声处理的语音信号进行其它噪声抑制，得到增强后的语音信号；

对增强后的语音信号进行频域动态范围压缩，得到补偿后的语音信号；

对补偿后的语音信号进行声学反馈抑制；

对经过声学反馈抑制后的语音信号分别进行反傅里叶变换和重叠相加得到输出语音信号。

其中，所述对输入语音信号进行分帧，并对分帧后的输入语音信号进行傅里叶变换，得到分帧语音频域信号，包括：

对输入语音信号进行缓存分帧，并对分帧后的语音信号加窗；

将加窗后的每帧语音信号进行傅里叶变换，得到分帧语音频域信号。

其中，所述对所述分帧语音频域信号进行语音场景的识别，得到所述输入语音信号的语音场景类别，包括：

提取分帧语音频域信号的语音特征；

对提取语音特征后的分帧语音频域信号进行场景识别，判断得到所述输入语音信号的语音场景类别。

进一步地，所述提取分帧语音频域信号的语音特征，包括：

对加窗后的分帧语音频域信号计算功率谱；

将语音信号的功率谱经过三角窗滤波器组进行滤波，并对滤波后的语音信号的功率谱取对数，得到对数功率谱；

将对数功率谱映射到低维空间，并对映射后的功率谱进行谱加权，得到谱加权倒谱系数，作为提取到的语音特征。

进一步地，所述对提取语音特征后的分帧语音频域信号进行场景识别，判断得到所述输入语音信号的语音场景类别，包括：

对分帧语音频域信号加载场景模型；

根据提取的语音特征，计算所述场景模型下所述分帧信号的概率；

根据计算得到的概率，判别所述分帧信号的语音场景类别。

其中，所述将经过语音检测后的分帧语音频域信号进行双麦克风波束形成处理，包括：

分别对前后麦克风经过语音检测后的分帧语音频域信号进行延时处理；

根据前后两个分帧信号、前后两个延时后的分帧信号，得到两个固定极性方向性图；

根据得到的两个固定极性方向性图，计算得到自适应增益；

根据自适应增益和两个固定极性方向性图，得到双麦克风波束形成的语音信号。

其中，所述对双麦克风波束形成的语音信号进行风噪声处理，包括：

将后麦克风的分帧语音频域信号进行延时；

计算前麦克风的分帧语音频域信号与延时后的后麦克风的分帧语音频域信号的归一化互相关系数；

根据所述归一化互相关系数，得到分帧信号的风噪声抑制增益；

在低频率点上，将所述风噪声抑制增益与麦克风波束的语音信号求乘积，得到经过风噪声处理后的语音信号。

其中，所述将经过风噪声处理的语音信号进行其它噪声抑制，得到增强后的语音信号，包括：

提取经过风噪声处理的语音信号的幅度和相位，并对幅度进行预处理；

将噪声幅度谱和语音幅度谱分为多个子带，并分别计算每个子带的过减因子；

计算每个子带的谱减因子；

根据过减因子、谱减因子、带噪语音幅度谱和噪声幅度谱，计算得到增强后的语音幅度谱；

根据相位，对增强后的语音幅度谱进行后处理，得到增强后的频域语音信号。

其中，所述对增强后的语音信号进行频域动态范围压缩，得到补偿后的语音信号，包括：

在已测定患者在特定频率处的听力损失情况后，计算特定频率信号处的信号声压级；

根据所述信号声压级进行插值运算得到输出声压级；

根据所述信号声压级和所述输出声压级，计算得到增益；

根据得到的增益，计算分帧信号的频域滤波增益系数；

对所述频域滤波增益系数和所述特定频率信号求积，并将求积后的结果滤波，得到补偿后的频域信号。

其中，所述对补偿后的语音信号进行声学反馈抑制，包括：

计算听力补偿后的语音信号的自相关信号；

根据所述自相关信号计算自相关信号的过零率；

根据所述自相关信号过零率、信号的采样率以及自相关信号的点数，计算啸叫所在频段的中心频率；

根据所述中心频率设计陷波器，将补偿后的语音信号通过所述陷波器进行声学反馈抑制。

本发明实施例提供了一种全频域数字助听设备，所述设备包括：

分帧模块，用于获取前后双麦克风的输入语音信号，对所述输入语音信号进行分帧，并对分帧后的输入语音信号进行傅里叶变换，得到分帧语音频域信号；

场景识别模块，用于对所述分帧语音频域信号进行语音场景的识别，得到所述输入语音信号的语音场景类别；

语音检测模块，用于当所述输入语音信号的语音场景为带噪语音时，对所述分帧语音频域信号进行语音检测，判断所述分帧语音频域信号中每一帧是语音帧还是噪声帧；

双麦克风波束模块，用于将经过语音检测后的分帧语音频域信号进行双麦克风波束形成处理；

风噪声处理模块，用于对双麦克风波束形成的语音信号进行风噪声处理；

语音噪声抑制模块，用于将经过风噪声处理的语音信号进行其它噪声抑制，得到增强后的语音信号；

频域动态范围压缩模块，用于对增强后的语音信号进行频域动态范围压缩，得到补偿后的语音信号；

声学反馈模块，用于对补偿后的语音信号进行声学反馈抑制；

输出模块，用于对经过声学反馈抑制后的语音信号分别进行反傅里叶变换和重叠相加得到输出语音信号。

其中，所述分帧模块，包括：

分帧加窗单元，用于对输入语音信号进行缓存分帧，并对分帧后的语音信号加窗；

傅里叶变换单元，用于将加窗后的每帧语音信号进行补零，并对补零后的语音信号进行傅里叶变换，得到分帧语音频域信号。

其中，所述场景识别模块，包括：

提取特征单元，用于提取分帧语音频域信号的语音特征；

识别单元，用于对提取语音特征后的分帧语音频域信号进行场景识别，判断得到所述输入语音信号的语音场景类别。

进一步地，所述提取特征单元，包括：

功率谱计算子单元，用于对加窗后的分帧语音频域信号计算功率谱；

三角窗滤波子单元，用于将语音信号的功率谱经过三角窗滤波器组进行滤波，并对滤波后的语音信号的功率谱取对数，得到对数功率谱；

映射子单元，用于将对数功率谱映射到低维空间，并对映射后的功率谱进行谱加权，得到谱加权倒谱系数，作为提取到的语音特征。

进一步地，所述识别单元，包括：

加载模型子单元，用于对分帧语音频域信号加载场景模型；

计算概率子单元，用于根据提取的语音特征，计算所述场景模型下所述分帧信号的概率；

判别子单元，用于根据计算得到的概率，判别所述分帧信号的语音场景类别。

其中，所述双麦克风波束模块，包括：

第一延时单元，用于分别对前后麦克风经过语音检测后的分帧语音频域信号进行延时处理；

第一处理单元，用于根据前后两个分帧信号、前后两个延时后的分帧信号，得到两个固定极型方向性图；

自适应增益单元，用于根据得到的两个固定极型方向性图，计算得到自适应增益；

双麦克风波束单元，用于根据自适应增益和两个固定极型方向性图，得到双麦克风波束形成的语音信号。

其中，所述风噪声处理模块，包括：

第二延时单元，用于将后麦克风的分帧语音频域信号进行延时；

第二处理单元，用于计算前麦克风的分帧语音频域信号与延时后的后麦克风的分帧语音频域信号的归一化互相关系数；

风噪声抑制增益单元，用于根据所述归一化互相关系数，得到分帧信号的风噪声抑制增益；

第三处理单元，用于在低频率点上，将所述风噪声抑制增益与麦克风波束的语音信号求乘积，得到经过风噪声处理后的语音信号。

其中，所述语音噪声抑制模块，包括：

提取单元，用于提取经过风噪声处理的语音信号的幅度和相位，并对幅度进行预处理；

划分单元，用于将噪声幅度和语音幅度谱分为多个子带，并分别计算每个子带的过减因子；

第四处理单元，用于计算每个子带的谱减因子，并根据过减因子、谱减因子、带噪语音幅度谱和噪声幅度谱，计算得到增强后的语音幅度谱；

第五处理单元，用于根据相位，对增强后的语音幅度谱进行后处理，得到增强后的频域语音信号。

其中，所述频域动态范围压缩模块，包括：

信号声压级单元，用于在已测定患者在特定频率处的听力损失情况后，计算特定频率处的信号声压级；

输出声压级单元，用于根据所述信号声压级进行插值运算得到输出声压级；

频域滤波增益系数单元，用于根据所述信号声压级和所述输出声压级，得到增益，并根据得到的增益，计算分帧信号的频域滤波增益系数；

补偿单元，用于对所述频域滤波增益系数和所述特定频率信号求积，并将求积后的结果滤波，得到补偿后的频域信号。

其中，所述声学反馈模块，包括：

自相关信号单元，用于计算听力补偿后的语音信号的自相关信号；

过零率单元，用于根据所述自相关信号计算自相关信号的过零率；

中心频率单元，用于根据所述自相关信号过零率、信号的采样率以及自相关信号的点数，计算啸叫所在频段的中心频率；

声学反馈抑制单元，用于根据所述中心频率设计陷波器，将补偿后的语音信号通过所述陷波器进行声学反馈抑制。

本发明实施例通过提供一种全频域数字助听方法和设备，解决了目前数字助听器侧重于解决某一种因素导致的听力障碍问题，而没有考虑到使用者的各种特殊情况的问题，提高了数字助听技术的处理速度，降低了功耗，为患者提供了更加让人满意的效果。

附图说明

图1是本发明实施例1提供的方法流程示意图；

图2是本发明实施例2提供的方法流程示意图；

图3是本发明实施例2提供的场景识别流程示意图；

图4是本发明实施例2提供的双麦克风波束形成流程示意图；

图5是本发明实施例2提供的风噪声消除流程示意图；

图6是本发明实施例2提供的噪声抑制流程示意图；

图7是本发明实施例2提供的听力补偿流程示意图；

图8是本发明实施例2提供的听力损伤者在特定频率的听力损失情况示意图；

图9是本发明实施例2提供的反馈消除流程示意图；

图10是本发明实施例3提供的设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式做进一步地详细描述。

实施例1

本发明实施例提供了一种全频域数字助听方法，参见图1，该方法包括：

101：获取前后双麦克风的输入语音信号，对输入语音信号进行分帧，并对分帧后的输入语音信号进行傅里叶变换，得到分帧语音频域信号；

102：对分帧语音频域信号进行语音场景的识别，得到输入语音信号的语音场景类别；

103：当输入语音信号的语音场景为带噪语音时，对分帧语音频域信号进行语音检测，判断分帧语音频域信号中每一帧是语音帧还是噪声帧；

104：将经过语音检测后的分帧语音频域信号进行双麦克风波束形成处理；

105：对双麦克风波束形成的语音信号进行风噪声处理；

106：将经过风噪声处理的语音信号进行其它噪声抑制，得到增强后的语音信号；

107：对增强后的语音信号进行频域动态范围压缩，得到补偿后的语音信号；

108：对补偿后的语音信号进行声学反馈抑制；

109：对经过声学反馈抑制后的语音信号分别进行反傅里叶变换和重叠相加得到输出语音信号。

其中，对输入语音信号进行分帧，并对分帧后的输入语音信号进行傅里叶变换，得到分帧语音频域信号，包括：

将加窗后的每帧语音信号进行补零，并对补零后的语音信号进行傅里叶变换，得到分帧语音频域信号。

其中，对分帧语音频域信号进行语音场景的识别，得到输入语音信号的语音场景类别，包括：

提取分帧语音频域信号的语音特征；

对提取语音特征后的分帧语音频域信号进行场景识别，判断得到输入语音信号的语音场景类别。

进一步地，提取分帧语音频域信号的语音特征，包括：

对分帧频域语音信号计算功率谱；

将对数功率谱映射到低维空间，并对映射后的功率谱进行谱加权，得到加权倒谱系数，作为提取到的语音特征。

进一步地，对提取语音特征后的分帧语音频域信号进行场景识别，判断得到输入语音信号的语音场景类别，包括：

对分帧语音频域信号加载场景模型；

根据提取的语音特征，计算各个场景模型下分帧信号的概率；

根据计算得到的概率，判别分帧信号的语音场景类别。

其中，将经过语音检测后的分帧语音频域信号进行双麦克风波束形成处理，包括：

根据前后两个分帧信号、前后两个延时后的分帧信号，得到两个固定极型方向性图；

根据得到的两个固定极型方向性图，计算得到自适应增益；

根据自适应增益和两个固定极型方向性图，得到双麦克风波束形成的语音信号。

其中，对双麦克风波束形成的语音信号进行风噪声处理，包括：

将后麦克风的分帧语音频域信号进行延时；

根据归一化互相关系数，得到分帧信号的风噪声抑制增益；

在低频率点上，将风噪声抑制增益与麦克风波束的语音信号求乘积，得到经过风噪声处理后的语音信号。

其中，将经过风噪声处理的语音信号进行其它噪声抑制，得到增强后的语音信号，包括：

计算每个子带的谱减因子；

其中，对增强后的语音信号进行频域动态范围压缩，得到补偿后的语音信号，包括：

根据信号声压级进行插值运算得到输出声压级；

根据信号声压级和输出声压级，计算得到增益；

根据得到的增益，计算分帧信号的频域滤波增益系数；

对频域滤波增益系数和特定频率信号求积，并将求积后的结果滤波，得到补偿后的频域信号。

其中，对补偿后的语音信号进行声学反馈抑制，包括：

计算听力补偿后的语音信号的自相关信号；

根据自相关信号计算自相关信号的过零率；

根据自相关信号过零率、信号的采样率以及自相关信号的点数，计算啸叫所在频段的中心频率；

根据中心频率设计陷波器，将补偿后的语音信号通过陷波器进行声学反馈抑制。

本发明实施例通过提供的全频域数字助听方法，解决了目前数字助听器侧重于解决某一种因素导致的听力障碍问题，而没有考虑到使用者的各种特殊情况的问题，提高了数字助听技术的处理速度，降低了功耗，为患者提供了更加让人满意的效果。

实施例2

为了解决目前数字助听器侧重于单纯解决听力障碍某一方面，而没有综合考虑影响使用效果各方面因素的问题，同时提高处理速度，减少占用资源，降低能耗，本发明实施例提供了一种全频域数字助听方法，除特殊说明外，本发明实施例的所有处理均在频域进行，参见图2，具体实现过程如下：

201：对输入语音信号进行缓存分帧加窗以及FFT(Fast Fourier transform，快速傅立叶变换)计算，具体实现过程如下：

201a：对输入语音信号进行缓存分帧加窗，并对分帧后的语音信号补零；

其中，本发明实施例中对输入语音信号进行缓存分帧的帧长为4ms，帧叠为2ms；分帧之后对信号进行加窗，本发明实例中采用hamming窗，也可以根据实际需要选用Hanning窗、升余弦窗等，本发明实施例对此不作限制。为了在频域实现对信号的滤波操作，本发明实施例将加窗后的每帧信号补0。

201b：对补零后的语音信号进行FFT运算。

其中，由于输入的语音信号样点值均为实数，因此其FFT变换之后的频谱是对称的，可使用实数FFT变换仅将对称部分的一半返回，加上一个0频率点，这样相对于普通的FFT，在以后的处理过程中，可以节省一半的运算量。

经过步骤201处理，将前后两个麦克风采集到的信号进行分帧加窗，并对各帧进行补零和FFT运算，得到F和B两个数组，分别表示前后两个麦克风采集到的语音信号的各个频率点。

202：对输入语音信号进行缓存分帧加窗以及FFT计算后，进行语音场景的识别，具体实现过程如下：

本发明实施例采用基于GMM(Gaussian mixture model，高斯混合模型)的方法，利用语音信号的MFCC(Mel-Frequency Cepstral Coficients，Mel频率倒谱系数)参数，通过训练和识别两个过程，实现对语音信号的语音场景的识别。本发明实例中将数字助听器的使用场景分为带噪语音、纯净语音、噪声和音乐四种，也可以根据实际需要，将语音场景进一步细化，划分更多语音场景，本发明实施例对此不作限制。下面参见图3，对该部分的具体实现进行说明：

202a：对经过步骤201处理得到的频域语音信号进行声学特征提取，具体实现过程如下：

1)计算功率谱：对经过步骤201处理得到的频域语音信号计算功率谱。

{| X (k) |}^{2} = {| Σ_{n = 0}^{N - 1} x (n) e^{- j 2 πnk / N} |}^{2}, 0 \leq k < N - - - (1)

2)三角窗滤波器组：用一组Mel频标上均匀分布的三角窗滤波器，对频域语音信号的功率谱滤波。Mel频标频率f_mel与线性频率f_Hz之间的关系如式(2)所示：

f_{mel} = 1127 \ln (1 + \frac{f_{Hz}}{700}) - - - (2)

利用式(2)将FFT变换后的线性频率映射到Mel频率上，并在Mel频率上进行均匀分为M个频带，则第m个Mel分段频率f_mel ^m的表达式为

f_{mel}^{m} = \frac{1127 \cdot (m + 1) \cdot \ln (1 + \frac{F_{S} / 2}{700})}{M}, m = 0, . . . (M - 1) - - - (3)

其中F_S是信号的采样频率。

再将Mel分段频率映射到线性频率：

f_{Hz}^{m} = 700 \cdot (\exp (\frac{f_{mel}^{m}}{1127}) - 1), m = 0, . . . (M - 1) - - - (4)

其中f_Hz ^m表示第m个Mel分段频率对应的线性频率，计算Mel滤波器组在各线性频点上的抽头系数：

其中H_m(k)表示第m个Mel滤波器在第k个线性频点上的抽头系数，f_Hz ^k表示第k个频点的频率值。

则第m个Mel滤波器输出的子带能量A(m)为：

A (m) = Σ_{k = 1}^{N / 2} H_{m} (k) \cdot {| X (k) |}^{2}, m = 0, . . . (M - 1) - - - (6)

3)取对数：对步骤2)的三角窗滤波器组的输出求取自然对数得到对数功率谱特征ln(A(m))，m＝0...(M-1)。

4)DCT(Discrete Cosine Transformation，离散余弦变换)：去除各维信号之间的相关性，将信号映射到低维空间。DCT的表达式为：

\tilde{c} (r) = α (r) Σ_{m = 1}^{M} \ln (A (m)) \cos (\frac{(2 m + 1) rπ}{2 M}), r = 0, . . ., (M - 1) - - - (7)

α (0) = \sqrt{\frac{1}{M}},

α (r) = \sqrt{\frac{2}{M}}, r = 1, . . ., (M - 1) - - - (8)

其中，

表示DCT变换后得到的第r维倒谱系数。

5)谱加权：由于倒谱的低阶参数易受说话人特性、信道特性等的影响，而高阶参数的分辨能力比较低，所以需要进行谱加权，抑制其低阶和高阶参数。本发明实施例采用的加权函数的表达式为：

W_{r} = 1 + \frac{M}{2} \sin (\frac{π (r + 1)}{M}), r = 0, . . ., (M - 1) - - - (9)

则第r维谱加权倒谱系数为：

\hat{c} (r) = W_{r} \cdot \tilde{c} (r) - - - (10)

其中，一般在对语音号处理流程以前还需要执行步骤202a的过程，通过对语音信号进行声学特征提取，训练得到各个语音场景模型，以便使得在对输入语音号处理时，对输入语音信号加载各个场景模型，实现对输入语音信号的语音场景的识别。

经过上述步骤1)一步骤5)，完成了对输入语音信号的特征提取的过程，下面在对输入的语音信号进行场景的识别。

202b：对提取特征后的输入语音信号进行场景识别，具体过程如下：

1)加载场景模型(此模型通过步骤202a训练得到)：每个场景模型为含M个分量的GMM模型：λ＝{C_i，μ_i，∑_i}，i＝1，2…，M。其中，C_i为分量加权系数，满足

Σ_{i = 1}^{M} C_{i} = 1,

每个分量的均值矢量μ_i及其协方差阵∑_i。

2)取特征：利用步骤202a中的步骤5)提取的特征，取前12维形成待识别特征，即取12维MFCC作为待识别语音的特征矢量x。

3)计算概率：对于每个场景模型λ，GMM忽略语音帧之间的事件关系，用一个混合高斯概率密度函数来描述一个场景语音的特征矢量分布，此混合高斯概率密度函数为：

p (x | λ) = Σ_{i = 1}^{M} C_{i} b_{i} (x) - - - (11)

其中，对于每个高斯概率密度函数：

b_{i} (x) = \frac{1}{{(2 D)}^{D / 2} {| Σ_{i} |}^{1 / 2}} \exp {- \frac{1}{2} {(x - μ_{i})}^{'} Σ_{i}^{- 1} (x - μ_{i})} - - - (12)

对p(x|λ)求对数，以便于对连续帧的混合高斯概率密度函数进行累加运算：

P(x_t|λ_n)＝ln(p(x_t|λ_n)) (13)

其中，x_t为第t帧的语音特征，λ_n为第n个场景的模型参数。

4)累加概率：重复进行步骤2)和步骤.3)，得到连续的T帧语音的混合高斯概率密度函数对数。对P(x_t|λ_n)进行累加运算：

p (X | λ_{n}) = Σ_{t = 1}^{T} P (x_{t} | λ_{n}) - - - (14)

P(X|λ_n)是该连续T帧语音为第n个场景的概率度量。

5)识别结果：对于N个场景(本发明实施例中以4个场景为例)，由上述4)步得到P(X|λ_n)，n＝1…，...，N：

n^{*} = \arg \max_{1 < n < N} P (X | λ_{n}) - - - (15)

则语音段X属于第n^*个场景。

其中，本发明实例中将数字助听器的使用场景分为带噪语音、纯净语音、噪声和音乐四种，经过步骤202b判断后，如果输入语音信号的使用场景判断为带噪语音，则继续执行后续步骤，如果输入语音信号的使用场景判断为纯净语音或者噪声或者音乐，则直接执行步骤207。另外，由于输入语音信号为前后双麦克风输入的两路语音信号，所以只需对其中的一路语音信号进行步骤202，判断出语音信号的使用场景，另一路语音信号的使用场景相同。

203：对判断为带噪语音的语音信号进行VAD语音检测，具体实现过程如下：

其中，此部分的VAD语音检测以语音信号的能量为基础，判断当前的一帧为语音帧还是噪声帧，该部分以前麦克采集到的语音信号F为处理对象，该部分的输出结果vad是双麦克风波束形成和噪声抑制两部分自动更新的控制信号。其原理如下：

首先假设语音信号的前9帧为噪声，进行噪声能量的初始化，其输出vad＝0，表示这些帧为噪声帧。将前9帧的输入信号能量求和，在第10帧的时候，对前10帧的噪声能量进行平均，得到每帧的平均噪声能量数组noise_pow。当前输入信号的能量数组为noisy_pow。需要说明的是，噪声能量noise_pow和语音能量noisy_pow都是数组，数组元素对应于语音信号FFT运算后得到的各个频率点。通过以下准则来判断当前帧为噪声还是语音：

数组rti＝noisy_pow./noise_pow-10log(noisy_pow./noise_pow)-1其中的点除符号“./”表示数组中对应元素间进行除法操作。

判断因子judgevalue等于数组rti中各值的平均值，如果judgevalue大于预先设定的阈值则判断当前帧为语音帧，value＝1；否则，value＝0，当前帧为噪声帧。

后麦克风的VAD语音检测结果与前麦克风相同。

204：对VAD语音检测后的语音信号进行处理，形成双麦克风波束的语音信号，参见图4，双麦克风波束形成部分的实施例图：

图4中，所示F和B分别表示前麦克和后麦克频域信号数组。此部分的处理过程如下：

204a：首先对F和B进行频域的延时处理，延时后的信号分别用F_delay和B_delay表示，延时时间为d/c。其中d表示前后两个麦克风之间的距离，c表示语音信号在空气中的传播速度。

F_delay(k)＝F(k)*exp(-j*2π*FS*k*delay/EXTENDFRM) (16)

其中，delay＝d/c，k＝0，1，...，K-1，K表示数组F中的长度。

B_delay的计算方法与F_delay相同。

204b：将F、B、F_delay、B_delay组合起来形成两个固定极型心形方向性图。其中X对应的cardioid方向性图，其零向指向180度方向(与前麦克风相反的方向)，而Y对应的cardioid方向性图的零向指向0度方向(即由前麦克风指向后麦克风的方向)。

X(k)＝F(k)-B_delay(k) (17)

Y(k)＝B(k)-F_delay(k)

其中，k表示第k个频率点。

204c：根据VAD检测的结果和历史信息控制自适应增益GAIN的更新R_XY和R_YY分别表示X、Y的互相关及Y的自相关。

if vad＝＝0(噪声帧进行更新)

R_XY(t)＝R_XY(t)·α+R_XY(t-1)·(1-α)

R_YY(t)＝R_YY(t)·α+R_YY(t-1)·(1-α)

else

R_XY和R_YY保持不变

其中，α为更新因子。

然后，由R_XY和R_YY求得自适应增益GAIN＝R_XY/R_YY。

204d：由自适应增益GAIN和X、Y两个零向方向相反的cardioid型方向性图，得到自动跟踪消除主噪声方向的麦克风波束：

fbf(k)＝X(k)-GAIN*Y(k) (18)

205：对步骤204形成的双麦克风波束的语音信号进行风噪声抑制，参见图5，具体过程如下：

本发明实施例中对于风噪声采用相关的方法进行抑制，其中为了避免对语音信号质量的过度损害，只在风噪声集中的低频部分进行风噪声抑制的处理。本发明实施例中仅对1kHz以下的频率进行风噪声抑制的处理，其实现方式如图5所示：

205a：将后麦克风一帧频域信号进行延时得到B_delay，计算各频率点上一帧前麦克风频域信号F和得到的B_delay之间的互相关，如下式：

cross_corr(k)＝F(k)*B_delay(k) (19)

其中，k表示第k个频率点。

然后，计算F各频率点的能量：power(k)＝|F(k)|²

205b：将各频率点的互相关对前麦克风的能量进行归一化，得到归一化互相关系数：norm_cross(k)＝cross_corr(k)/power(k)。根据归一化互相关系数判断风噪声是否存在，如果norm_cross(k)＞0.8，则认为频率点k处，两个麦克风采集到的信号具有较大的相关性，应是语音信号，风噪声不存在，此处的风噪声抑制增益suppr_gain(k)设置为1；否则，认为风噪声存在，ssuppr_gain(k)没置为0.1。

205c：在1kHz以下，将得到的各频率点处的风噪声抑制增益suppr_gain(k)与相应频点处的麦克风波束形成之后的结果相乘，便得到经过风噪声抑制后的语音信号，如图5所示。

206：经过步骤205风噪声抑制后，对语音信号中的噪声进行抑制，得到增强后的语音信号，具体实现过程如下：

本步骤采用多子带谱减的方法对语音信号中的噪声进行抑制，以达到抑制噪声，增强语音的目的。该步骤的实施例图参见图6，下面对具体实现过程进行详细说明：

其中，本步骤对噪声进行抑制的处理，通过下式实现

n≤k≤m (20)

其中k表示第k个频率点，n和m分别表示第i个频带的下限和上限，

表示增强后的语音信号能量，|Y(k)|²表示平滑后的待处理语音能量，

表示估计的噪声能量，α_i表示第i个子带的过减因子，δ_i表示第i子带附加的子带谱减因子。以上各量值的计算及具体含义在下面说明。

206a：提取语音信号的的幅度和相位，并对带噪语音的幅度进行预处理。

首先，提取输入语音信号Y(k)的幅度信息和相位信息，其中幅度信息用来进行噪声抑制的处理，相位信息用来配合增强后的语音信号谱

恢复出增强后的语音信号X(k)。

然后，对带噪语音的幅度进行如下的预处理：

| {\overset{&OverBar;}{Y}}_{j} (k) | = Σ_{m = 0}^{4} W_{4 - m} | Y_{j - m} (k) | - - - (21)

其中，|Y_j(k)|表示第j帧预处理之后的语音幅度，|Y_j-m(k)|m＝0，1，2，3，4表示当前输入帧以及当前帧之前4帧的语音幅度，而W＝[0.09 0.09 0.25 0.25 0.32]表示预处理加权系数。对带噪语音谱进行预处理之后能够降低其变化波动，因而能有效地减少残余噪声，提高语音质量。

206b：将带噪语音谱分成Q个子带，并分别计算每个子带的过减因子。

其中，第i个子带的过减因子由下式计算得到：

α_{i} = \{\begin{matrix} 4.75 & {SNR}_{i} < - 5 \\ 4 - 0.15 * {SNR}_{i} & - 5 \leq {SNR}_{i} \leq 20 \\ 1 & {SNR}_{i} > 20 \end{matrix} - - - (22)

每个子带的信噪比由下式得到

{SNR}_{i} = {10 \log}_{10} (\frac{Σ_{k = n}^{m} {| {\overset{&OverBar;}{Y}}_{i} (k) |}^{2}}{Σ_{k = n}^{m} {| {\hat{D}}_{i} (k) |}^{2}}) - - - (23)

206c：在各子带内将噪声谱从带噪语音谱中减去，得到增强后的语音谱。

按照

n≤k≤m得到增强后的语音谱。其中，噪声谱的更新受VAD部分检测结果的控制：如果vad＝0，即当前帧为噪声帧，则进行噪声谱的更新，更新规则为

进行谱减计算时，其中的第i个附加子带谱减因子δ_i的计算如下：

δ_{i} = \{\begin{matrix} 1 & f_{i} \leq 1 kHz \\ 2.5 & 1 kHz < f_{i} \leq \frac{FS}{2} - 2 kHz \\ 1.5 & f_{i} > \frac{FS}{2} - 2 kHz \end{matrix} - - - (24)

206d：对增强后的语音信号谱进行后处理，并结合带噪语音的相位信息，得到增强后的语音信号各频率点的值。

为了避免预处理后的语音谱减去噪声谱出现负值，将增强后的语音谱进行如下处理：

其中，β＝0.002

此外，为了进一步消除音乐噪声，将带噪语音的一部分加到增强后的语音上：

{| {\overset{&OverBar;}{\overset{&OverBar;}{X}}}_{i} (k) |}^{2} = {| {\hat{X}}_{i} (k) |}^{2} + 0.05 * {| {\overset{&OverBar;}{Y}}_{i} (k) |}^{2} .

根据带噪语音的相位信息和，便可以求出增强后的语音信号各频率点的值：

{fns}_{i} (k) = \sqrt{{| {\overset{&OverBar;}{\overset{&OverBar;}{X}}}_{i} (k) |}^{2}} * (\cos (phase (k)) + j * \sin (phase (k)) - - - (26)

其中，fns_i(k)表示第i帧增强后的语音信号第k个频点的值；phase(k)表示带噪语音第k个频点的相位，j表示虚部单位。

至此，便得到增强后的语音信号，以供进一步处理使用。

207：对增强后的语音信号，进行频域动态范围压缩，得到补偿后的语音信号；

本发明实施例中根据听力损伤患者的听力测量结果，采用频域补偿的方法实现语音动态范围的压缩，该步骤的处理流程图如图7所示。但在本发明实施例中，由于图7中分帧、FFT、IFFT、重叠相加等部分由其它模块完成，因此在本发明实施例中该步骤包括求声压级、求滤波增益和滤波三个过程。假定L为FFT的运算长度，FS为信号抽样频率，该步骤的具体实施方法如下：

207a：首先测定患者在特定频率处f_k的听力损失情况，其中f_k＝(k/L)·FS，通过选定k值来确定频率f_k。

其中，以NCH表示一共选择的通道个数，通道个数选择得越多，患者的听力损失情况就会反应得越准确，由此带来的计算量也越大。假定选择k＝0，4，8，12....L/2，共计NCH个。参见图8，听力损伤者在特定频率处的听力损失情况大致反应了患者的整个听力损失情况。

207b：前一模块输入到此模块的信号表示为framedata_f。其中，由特定的频率f_k的频域表示framedata_f，求得此频处的信号声压级spl_in。声压级的计算公式为：

spl = 20 \log (\frac{abs (x (k))}{2 \cdot 10^{- 5}}) .

207c：求增益gain：由此声压级通过插值运算得到输出声压级spl_out，并得到此频率处的滤波增益gain_dB。滤波增益gain_dB＝spl_out-spl_in。插值方法根据配听测试中患者听觉效果可以选取linear、cubic等方法，本发明实施例对此不作限制。

207d：求滤波系数coeffs：其他频率处的滤波增益通过插值运算求得，这样就求出了当前帧的频域滤波增益系数coeffs。

207e：滤波：频域信号framedata在频域直接乘滤波系数coeffs，对输入帧进行滤波得到补偿后的频域信号framedata_f_processed。

208：对补偿后的频域信号进行声学反馈抑制，具体过程如下：

本发明实施例中采用自适应陷波器的方法，对数字助听器中存在的语音啸叫进行抑制。其中，本步骤中包括两个部分：啸叫检测和自适应陷波器，参见图9：陷波器放在了动态压扩模块之后，这样做主要的考虑是动态压扩和陷波器之间的作用相互抵消，若将陷波器放在前面，则陷波部分会被动态压扩模块检测出并补偿，则失去反馈消除的作用。

208a：陷波器设计：

陷波器的传输函数可如下所示：

H (Z^{- 1}) = G \cdot \frac{1 - 2 \cos (ω_{o}) Z^{- 1} + Z^{- 2}}{1 - 2 G \cos (ω_{o}) Z^{- 1} + (2 \cos (ω_{o}) - 1) Z^{- 2}} - - - (27)

G = \frac{1}{1 + \tan (BW / 2)}

其中，主要参数包括中心频率ω_o和3dB带宽BW，中心频率是指陷波器所在位置，由啸叫检测模块给出，3dB带宽指增益下降到峰值-3dB的带宽。

208b：啸叫检测部分：

对经过动态范围压缩处理的频域信号

计算功率谱，并变换到时域得到自相关信号：

Corr (n) = IFFT (\tilde{X} (k) \cdot \tilde{X} {(k)}^{'}) - - - (28)

其中

表示

的共轭。

计算自相关信号的过零率：

ZCR＝0；

if Corr(n)·Corr(n-1)＜0 (29)

ZCR＝ZCR+1

计算啸叫所在频段的中心频率：

ω_{o} = \frac{FS \cdot ZCR}{2 N} - - - (30)

其中，FS为采样率，ZCR为过零率，N为自相关信号的点数。当ω_o大于预先设定的阈值，即判断发生啸叫。

209：对经过声学反馈消除后的输出的语音信号进行反FFT运算及重叠相加，得到输出信号。

其中，对声学反馈消除部分的输出，进行反FFT运算，并进行重叠相加，即可得到整个助听器的输出；将该输出经过一个模拟的放大器放大之后，即是佩戴助听器的听力患者所听到的声音。

本发明实施例提供的全频域数字助听方法，解决了目前数字助听器侧重于解决某一种因素导致的听力障碍问题，而没有考虑到使用者的各种特殊情况的问题，提高了数字助听技术的处理速度，降低了功耗，为患者提供了更加让人满意的效果。

实施例3

本发明实施例提供了一种全频域数字助听设备，参见图10，该设备包括：

分帧模块301，用于获取前后双麦克风的输入语音信号，对输入语音信号进行分帧，并对分帧后的输入语音信号进行傅里叶变换，得到分帧语音频域信号；

场景识别模块302，用于对分帧语音频域信号进行语音场景的识别，得到输入语音信号的语音场景类别；

语音检测模块303，用于当输入语音信号的语音场景为带噪语音时，对分帧语音频域信号进行语音检测，判断分帧语音频域信号中每一帧是语音帧还是噪声帧；

双麦克风波束模块304，用于将经过语音检测后的分帧语音频域信号进行双麦克风波束形成处理；

风噪声处理模块305，用于对双麦克风波束形成的语音信号进行风噪声处理；

语音噪声抑制模块306，用于将经过风噪声处理的语音信号进行其它噪声抑制，得到增强后的语音信号；

频域动态范围压缩模块307，用于对增强后的语音信号进行频域动态范围压缩，得到补偿后的语音信号；

声学反馈模块308，用于对补偿后的语音信号进行声学反馈抑制；

输出模块309，用于对经过声学反馈抑制后的语音信号分别进行反傅里叶变换和重叠相加得到输出语音信号。

其中，分帧模块301，包括：

其中，场景识别模块302，包括：

提取特征单元，用于提取分帧语音频域信号的语音特征；

识别单元，用于对提取语音特征后的分帧语音频域信号进行场景识别，判断得到输入语音信号的语音场景类别。

进一步地，提取特征单元，包括：

对分帧语音频域信号进行快速傅里叶变换，得到语音信号的功率谱；

进一步地，识别单元，包括：

加载模型子单元，用于对分帧语音频域信号加载场景模型；

计算概率子单元，用于根据提取的语音特征，计算场景模型下分帧信号的概率；

判别子单元，用于根据计算得到的概率，判别分帧信号的语音场景类别。

其中，语音检测模块303，包括：

其中，风噪声处理模块305，包括：

风噪声抑制增益单元，用于根据归一化互相关系数，得到分帧信号的风噪声抑制增益；

第三处理单元，用于在低频率点上，将风噪声抑制增益与麦克风波束的语音信号求乘积，得到经过风噪声处理后的语音信号。

其中，语音噪声抑制模块306，包括：

划分单元，用于将噪声谱和语音谱分为多个子带，并分别计算每个子带的过减因子；

第四处理单元，用于计算每个子带的谱减因子，并根据过减因子、谱减因子、带噪语音谱和噪声谱，计算得到增强后的语音谱；

第五处理单元，用于根据相位，对增强后的语音谱进行后处理，得到增强后的语音信号各个频点的值。

其中，频域动态范围压缩模块307，包括：

信号声压级单元，用于在已测定患者在特定频率处的听力损失情况后，计算特定频率信号处的信号声压级；

输出声压级单元，用于根据信号声压级进行插值运算得到输出声压级；

频域滤波增益系数单元，用于根据信号声压级和输出声压级，得到增益，并根据得到的增益，计算分帧信号的频域滤波增益系数；

补偿单元，用于对频域滤波增益系数和增强后的频域语音信号求积，并将求积后的结果滤波，得到补偿后的频域信号。

其中，声学反馈模块308，包括：

自相关信号单元，用于计算听力补偿后的频域语音信号的自相关信号；

过零率单元，用于根据自相关信号计算自相关信号过零率；

中心频率单元，用于根据自相关信号过零率、信号的采样率以及自相关信号的点数，计算啸叫所在频段的中心频率；

声学反馈抑制单元，用于根据中心频率设计陷波器，将补偿后的语音信号通过陷波器进行声学反馈抑制。

本发明实施例提供的全频域数字助听设备，解决了目前数字助听器侧重于解决某一种因素导致的听力障碍问题，而没有考虑到使用者的各种特殊情况的问题，提高了数字助听技术的处理速度，降低了功耗，为患者提供了更加让人满意的效果。

本发明实施例可以利用软件实现，相应的软件程序可以存储在可读取的存储介质中，例如，嵌入式设备的硬盘、缓存或光盘中。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种全频域数字助听方法，其特征在于，所述方法包括：

a)当所述输入语音信号的语音场景为带噪语音时，对所述分帧语音频域信号进行语音检测，判断所述分帧语音频域信号中每一帧是语音帧还是噪声帧；

对双麦克风波束形成的语音信号进行风噪声处理；

b)当所述输入语音信号的语音场景为纯净语音、噪声或者音乐时，则直接对增强后的语音信号，进行频域动态范围压缩，得到补偿后的语音信号；

c)继续以下流程

对补偿后的语音信号进行声学反馈抑制；

2.如权利要求1所述的方法，其特征在于，对所述输入语音信号进行分帧，并对分帧后的输入语音信号进行傅里叶变换，得到分帧语音频域信号，包括：

3.如权利要求1所述的方法，其特征在于，对所述分帧语音频域信号进行语音场景的识别，得到所述输入语音信号的语音场景类别，包括：

提取分帧语音频域信号的语音特征；

4.如权利要求3所述的方法，其特征在于，所述提取分帧语音频域信号的语音特征，包括：

对加窗后的分帧语音频域信号计算功率谱；

5.如权利要求3或4所述的方法，其特征在于，所述对提取语音特征后的分帧语音频域信号进行场景识别，判断得到所述输入语音信号的语音场景类别，包括：

对分帧语音频域信号加载场景模型；

根据计算得到的概率，判别所述分帧信号的语音场景类别。

6.如权利要求1所述的方法，其特征在于，所述将经过语音检测后的分帧语音频域信号进行双麦克风波束形成处理，包括：

根据得到的两个固定极性方向性图，计算得到自适应增益；

7.如权利要求1所述的方法，其特征在于，所述对双麦克风波束形成的语音信号进行风噪声处理，包括：

将后麦克风的分帧语音频域信号进行延时；

8.如权利要求1所述的方法，其特征在于，所述将经过风噪声处理的语音信号进行其它噪声抑制，得到增强后的语音信号，包括：

计算每个子带的谱减因子；

9.如权利要求1所述的方法，其特征在于，所述对增强后的语音信号进行频域动态范围压缩，得到补偿后的语音信号，包括：

根据所述信号声压级进行插值运算得到输出声压级；

根据所述信号声压级和所述输出声压级，计算得到增益；

根据得到的增益，计算分帧信号的频域滤波增益系数；

10.如权利要求1所述的方法，其特征在于，所述对补偿后的语音信号进行声学反馈抑制，包括：

计算经过听力补偿后的语音信号的自相关信号；

根据所述自相关信号计算自相关信号的过零率；

11.一种全频域数字助听设备，其特征在于，所述设备包括：

语音检测模块，用于当所述输入语音信号的语音场景为带噪语音时，对所述分帧语音频域信号进行语音检测，判断所述分帧语音频域信号中每一帧是语音帧还是噪声帧；对于输入语音信号的语音场景为纯净语音、噪声或者音乐时，则无须用此语音检测模块进行语音检测；

12.如权利要求11所述的设备，其特征在于，所述分帧模块，包括：

傅里叶变换单元，用于将加窗后的每帧语音信号进行傅里叶变换，得到分帧语音频域信号。

13.如权利要求11所述的设备，其特征在于，所述场景识别模块，包括：

提取特征单元，用于提取分帧语音频域信号的语音特征；

14.如权利要求13所述的设备，其特征在于，所述提取特征单元，包括：

15.如权利要求13或14所述的设备，其特征在于，所述识别单元，包括：

加载模型子单元，用于对分帧语音频域信号加载场景模型；

16.如权利要求11所述的设备，其特征在于，所述双麦克风波束模块，包括：

第一处理单元，用于根据前后两个分帧信号、前后两个延时后的分帧信号，得到两个固定极性方向性图；

自适应增益单元，用于根据得到的两个固定极性方向性图，计算得到自适应增益；

双麦克风波束单元，用于根据自适应增益和两个固定极性方向性图，得到双麦克风波束形成的语音信号。

17.如权利要求11所述的设备，其特征在于，所述风噪声处理模块，包括：

18.如权利要求11所述的设备，其特征在于，所述语音噪声抑制模块，包括：

划分单元，用于将噪声幅度谱和语音幅度谱分为多个子带，并分别计算每个子带的过减因子；

第四处理单元，用于计算每个子带的谱减因子，并根据过减因子、谱减因子、带噪语音幅度谱和噪声幅度谱谱，计算得到增强后的语音幅度谱；

19.如权利要求11所述的设备，其特征在于，所述频域动态范围压缩模块，包括：

20.如权利要求11所述的设备，其特征在于，所述声学反馈模块，包括：