CN101593522B - 一种全频域数字助听方法和设备 - Google Patents
一种全频域数字助听方法和设备 Download PDFInfo
- Publication number
- CN101593522B CN101593522B CN2009100885786A CN200910088578A CN101593522B CN 101593522 B CN101593522 B CN 101593522B CN 2009100885786 A CN2009100885786 A CN 2009100885786A CN 200910088578 A CN200910088578 A CN 200910088578A CN 101593522 B CN101593522 B CN 101593522B
- Authority
- CN
- China
- Prior art keywords
- voice
- signal
- frequency domain
- frame
- mrow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012545 processing Methods 0.000 claims abstract description 88
- 238000009432 framing Methods 0.000 claims abstract description 79
- 238000001514 detection method Methods 0.000 claims abstract description 37
- 238000001228 spectrum Methods 0.000 claims description 107
- 230000001629 suppression Effects 0.000 claims description 65
- 238000001914 filtration Methods 0.000 claims description 37
- 230000003595 spectral effect Effects 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000007906 compression Methods 0.000 claims description 15
- 208000016354 hearing loss disease Diseases 0.000 claims description 15
- 230000006835 compression Effects 0.000 claims description 14
- 206010011878 Deafness Diseases 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 12
- 230000003044 adaptive effect Effects 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 11
- 230000010370 hearing loss Effects 0.000 claims description 11
- 231100000888 hearing loss Toxicity 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 11
- 230000003111 delayed effect Effects 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000012805 post-processing Methods 0.000 claims description 7
- 230000003139 buffering effect Effects 0.000 claims description 5
- 230000009977 dual effect Effects 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 11
- 208000016621 Hearing disease Diseases 0.000 abstract description 5
- 238000005265 energy consumption Methods 0.000 abstract description 3
- 230000009466 transformation Effects 0.000 abstract description 3
- 230000002401 inhibitory effect Effects 0.000 abstract 1
- 230000005764 inhibitory process Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 17
- 238000005516 engineering process Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 208000032041 Hearing impaired Diseases 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 206010010356 Congenital anomaly Diseases 0.000 description 1
- 102000005717 Myeloma Proteins Human genes 0.000 description 1
- 108010045503 Myeloma Proteins Proteins 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012074 hearing test Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明实施例提供了一种全频域数字助听方法,方法包括:获取前后双麦克风的输入语音信号,并进行分帧和傅里叶变换,以及进行语音场景类别的识别;当为带噪语音时,对分帧语音频域信号进行噪声检测并进行双麦克风波束形成处理、风噪声处理以及其它噪声抑制,然后进行频域动态范围压缩,以及声学反馈抑制;最后,进行反傅里叶变换和重叠相加得到输出语音信号。本发明实施例还提供了一种全频域数字助听设备。通过本发明实施例提供的方案,解决了目前数字助听器侧重于单纯解决听力障碍某一方面,而没有综合考虑影响使用效果各方面因素的问题,同时本发明实施例提供了全频域的数字助听方案,具有处理速度快,占用资源少,能耗低等优点。
Description
技术领域
本发明涉及数字信号处理和医疗设备领域,特别涉及一种全频域数字助听方法和设备。
背景技术
声音是人类交流的一种重要手段,然而由于先天和后天的原因,一些人的听力受到损伤,成为耳聋患者。其中,数字助听器作为听力康复的最重要的手段,给听力障碍患者带来一个动听的世界,同时也是人们高质量生活的一个重要标志。
传统的模拟助听器通常使用线性放大电路,由于技术的限制,存在静态噪音、啸叫、体积大、功耗高等缺点,不能得到令人满意的效果。数字助听器则很好地克服了这些问题。但是由于人耳的听力障碍原因不同,语音环境千差万别,导致数字助听器的设计非常复杂。目前存在的数字助听器大都侧重于解决某一种因素导致的听力障碍问题,难以面面俱到,考虑到使用者的特殊情况。
同时,目前数字助听器大都是在时域对语音信号进行处理,虽有部分助听器在***的某一部分采用频域处理的方式,但尚未有全频域处理的数字助听技术。而全频域的数字助听技术在处理速度,功耗,听感等方面能提供更加让人满意的效果。
发明内容
为了解决目前数字助听器侧重于单纯解决听力障碍某一方面,而没有综合考虑影响使用效果各方面因素的问题,同时提高处理速度,减少占用资源,降低能耗,本发明实施例提供了一种全频域数字助听方法和设备。
本发明实施例提供了一种全频域数字助听方法,所述方法包括:
获取前后双麦克风的输入语音信号,对所述输入语音信号进行分帧,并对分帧后的输入语音信号进行傅里叶变换,得到分帧语音频域信号;
对所述分帧语音频域信号进行语音场景的识别,得到所述输入语音信号的语音场景类别;
当所述输入语音信号的语音场景为带噪语音时,对所述分帧语音频域信号进行语音检测,判断所述分帧语音频域信号中每一帧是语音帧还是噪声帧;
将经过语音检测后的分帧语音频域信号进行双麦克风波束形成处理;
对双麦克风波束形成的语音信号进行风噪声处理;
将经过风噪声处理的语音信号进行其它噪声抑制,得到增强后的语音信号;
对增强后的语音信号进行频域动态范围压缩,得到补偿后的语音信号;
对补偿后的语音信号进行声学反馈抑制;
对经过声学反馈抑制后的语音信号分别进行反傅里叶变换和重叠相加得到输出语音信号。
其中,所述对输入语音信号进行分帧,并对分帧后的输入语音信号进行傅里叶变换,得到分帧语音频域信号,包括:
对输入语音信号进行缓存分帧,并对分帧后的语音信号加窗;
将加窗后的每帧语音信号进行傅里叶变换,得到分帧语音频域信号。
其中,所述对所述分帧语音频域信号进行语音场景的识别,得到所述输入语音信号的语音场景类别,包括:
提取分帧语音频域信号的语音特征;
对提取语音特征后的分帧语音频域信号进行场景识别,判断得到所述输入语音信号的语音场景类别。
进一步地,所述提取分帧语音频域信号的语音特征,包括:
对加窗后的分帧语音频域信号计算功率谱;
将语音信号的功率谱经过三角窗滤波器组进行滤波,并对滤波后的语音信号的功率谱取对数,得到对数功率谱;
将对数功率谱映射到低维空间,并对映射后的功率谱进行谱加权,得到谱加权倒谱系数,作为提取到的语音特征。
进一步地,所述对提取语音特征后的分帧语音频域信号进行场景识别,判断得到所述输入语音信号的语音场景类别,包括:
对分帧语音频域信号加载场景模型;
根据提取的语音特征,计算所述场景模型下所述分帧信号的概率;
根据计算得到的概率,判别所述分帧信号的语音场景类别。
其中,所述将经过语音检测后的分帧语音频域信号进行双麦克风波束形成处理,包括:
分别对前后麦克风经过语音检测后的分帧语音频域信号进行延时处理;
根据前后两个分帧信号、前后两个延时后的分帧信号,得到两个固定极性方向性图;
根据得到的两个固定极性方向性图,计算得到自适应增益;
根据自适应增益和两个固定极性方向性图,得到双麦克风波束形成的语音信号。
其中,所述对双麦克风波束形成的语音信号进行风噪声处理,包括:
将后麦克风的分帧语音频域信号进行延时;
计算前麦克风的分帧语音频域信号与延时后的后麦克风的分帧语音频域信号的归一化互相关系数;
根据所述归一化互相关系数,得到分帧信号的风噪声抑制增益;
在低频率点上,将所述风噪声抑制增益与麦克风波束的语音信号求乘积,得到经过风噪声处理后的语音信号。
其中,所述将经过风噪声处理的语音信号进行其它噪声抑制,得到增强后的语音信号,包括:
提取经过风噪声处理的语音信号的幅度和相位,并对幅度进行预处理;
将噪声幅度谱和语音幅度谱分为多个子带,并分别计算每个子带的过减因子;
计算每个子带的谱减因子;
根据过减因子、谱减因子、带噪语音幅度谱和噪声幅度谱,计算得到增强后的语音幅度谱;
根据相位,对增强后的语音幅度谱进行后处理,得到增强后的频域语音信号。
其中,所述对增强后的语音信号进行频域动态范围压缩,得到补偿后的语音信号,包括:
在已测定患者在特定频率处的听力损失情况后,计算特定频率信号处的信号声压级;
根据所述信号声压级进行插值运算得到输出声压级;
根据所述信号声压级和所述输出声压级,计算得到增益;
根据得到的增益,计算分帧信号的频域滤波增益系数;
对所述频域滤波增益系数和所述特定频率信号求积,并将求积后的结果滤波,得到补偿后的频域信号。
其中,所述对补偿后的语音信号进行声学反馈抑制,包括:
计算听力补偿后的语音信号的自相关信号;
根据所述自相关信号计算自相关信号的过零率;
根据所述自相关信号过零率、信号的采样率以及自相关信号的点数,计算啸叫所在频段的中心频率;
根据所述中心频率设计陷波器,将补偿后的语音信号通过所述陷波器进行声学反馈抑制。
本发明实施例提供了一种全频域数字助听设备,所述设备包括:
分帧模块,用于获取前后双麦克风的输入语音信号,对所述输入语音信号进行分帧,并对分帧后的输入语音信号进行傅里叶变换,得到分帧语音频域信号;
场景识别模块,用于对所述分帧语音频域信号进行语音场景的识别,得到所述输入语音信号的语音场景类别;
语音检测模块,用于当所述输入语音信号的语音场景为带噪语音时,对所述分帧语音频域信号进行语音检测,判断所述分帧语音频域信号中每一帧是语音帧还是噪声帧;
双麦克风波束模块,用于将经过语音检测后的分帧语音频域信号进行双麦克风波束形成处理;
风噪声处理模块,用于对双麦克风波束形成的语音信号进行风噪声处理;
语音噪声抑制模块,用于将经过风噪声处理的语音信号进行其它噪声抑制,得到增强后的语音信号;
频域动态范围压缩模块,用于对增强后的语音信号进行频域动态范围压缩,得到补偿后的语音信号;
声学反馈模块,用于对补偿后的语音信号进行声学反馈抑制;
输出模块,用于对经过声学反馈抑制后的语音信号分别进行反傅里叶变换和重叠相加得到输出语音信号。
其中,所述分帧模块,包括:
分帧加窗单元,用于对输入语音信号进行缓存分帧,并对分帧后的语音信号加窗;
傅里叶变换单元,用于将加窗后的每帧语音信号进行补零,并对补零后的语音信号进行傅里叶变换,得到分帧语音频域信号。
其中,所述场景识别模块,包括:
提取特征单元,用于提取分帧语音频域信号的语音特征;
识别单元,用于对提取语音特征后的分帧语音频域信号进行场景识别,判断得到所述输入语音信号的语音场景类别。
进一步地,所述提取特征单元,包括:
功率谱计算子单元,用于对加窗后的分帧语音频域信号计算功率谱;
三角窗滤波子单元,用于将语音信号的功率谱经过三角窗滤波器组进行滤波,并对滤波后的语音信号的功率谱取对数,得到对数功率谱;
映射子单元,用于将对数功率谱映射到低维空间,并对映射后的功率谱进行谱加权,得到谱加权倒谱系数,作为提取到的语音特征。
进一步地,所述识别单元,包括:
加载模型子单元,用于对分帧语音频域信号加载场景模型;
计算概率子单元,用于根据提取的语音特征,计算所述场景模型下所述分帧信号的概率;
判别子单元,用于根据计算得到的概率,判别所述分帧信号的语音场景类别。
其中,所述双麦克风波束模块,包括:
第一延时单元,用于分别对前后麦克风经过语音检测后的分帧语音频域信号进行延时处理;
第一处理单元,用于根据前后两个分帧信号、前后两个延时后的分帧信号,得到两个固定极型方向性图;
自适应增益单元,用于根据得到的两个固定极型方向性图,计算得到自适应增益;
双麦克风波束单元,用于根据自适应增益和两个固定极型方向性图,得到双麦克风波束形成的语音信号。
其中,所述风噪声处理模块,包括:
第二延时单元,用于将后麦克风的分帧语音频域信号进行延时;
第二处理单元,用于计算前麦克风的分帧语音频域信号与延时后的后麦克风的分帧语音频域信号的归一化互相关系数;
风噪声抑制增益单元,用于根据所述归一化互相关系数,得到分帧信号的风噪声抑制增益;
第三处理单元,用于在低频率点上,将所述风噪声抑制增益与麦克风波束的语音信号求乘积,得到经过风噪声处理后的语音信号。
其中,所述语音噪声抑制模块,包括:
提取单元,用于提取经过风噪声处理的语音信号的幅度和相位,并对幅度进行预处理;
划分单元,用于将噪声幅度和语音幅度谱分为多个子带,并分别计算每个子带的过减因子;
第四处理单元,用于计算每个子带的谱减因子,并根据过减因子、谱减因子、带噪语音幅度谱和噪声幅度谱,计算得到增强后的语音幅度谱;
第五处理单元,用于根据相位,对增强后的语音幅度谱进行后处理,得到增强后的频域语音信号。
其中,所述频域动态范围压缩模块,包括:
信号声压级单元,用于在已测定患者在特定频率处的听力损失情况后,计算特定频率处的信号声压级;
输出声压级单元,用于根据所述信号声压级进行插值运算得到输出声压级;
频域滤波增益系数单元,用于根据所述信号声压级和所述输出声压级,得到增益,并根据得到的增益,计算分帧信号的频域滤波增益系数;
补偿单元,用于对所述频域滤波增益系数和所述特定频率信号求积,并将求积后的结果滤波,得到补偿后的频域信号。
其中,所述声学反馈模块,包括:
自相关信号单元,用于计算听力补偿后的语音信号的自相关信号;
过零率单元,用于根据所述自相关信号计算自相关信号的过零率;
中心频率单元,用于根据所述自相关信号过零率、信号的采样率以及自相关信号的点数,计算啸叫所在频段的中心频率;
声学反馈抑制单元,用于根据所述中心频率设计陷波器,将补偿后的语音信号通过所述陷波器进行声学反馈抑制。
本发明实施例通过提供一种全频域数字助听方法和设备,解决了目前数字助听器侧重于解决某一种因素导致的听力障碍问题,而没有考虑到使用者的各种特殊情况的问题,提高了数字助听技术的处理速度,降低了功耗,为患者提供了更加让人满意的效果。
附图说明
图1是本发明实施例1提供的方法流程示意图;
图2是本发明实施例2提供的方法流程示意图;
图3是本发明实施例2提供的场景识别流程示意图;
图4是本发明实施例2提供的双麦克风波束形成流程示意图;
图5是本发明实施例2提供的风噪声消除流程示意图;
图6是本发明实施例2提供的噪声抑制流程示意图;
图7是本发明实施例2提供的听力补偿流程示意图;
图8是本发明实施例2提供的听力损伤者在特定频率的听力损失情况示意图;
图9是本发明实施例2提供的反馈消除流程示意图;
图10是本发明实施例3提供的设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式做进一步地详细描述。
实施例1
本发明实施例提供了一种全频域数字助听方法,参见图1,该方法包括:
101:获取前后双麦克风的输入语音信号,对输入语音信号进行分帧,并对分帧后的输入语音信号进行傅里叶变换,得到分帧语音频域信号;
102:对分帧语音频域信号进行语音场景的识别,得到输入语音信号的语音场景类别;
103:当输入语音信号的语音场景为带噪语音时,对分帧语音频域信号进行语音检测,判断分帧语音频域信号中每一帧是语音帧还是噪声帧;
104:将经过语音检测后的分帧语音频域信号进行双麦克风波束形成处理;
105:对双麦克风波束形成的语音信号进行风噪声处理;
106:将经过风噪声处理的语音信号进行其它噪声抑制,得到增强后的语音信号;
107:对增强后的语音信号进行频域动态范围压缩,得到补偿后的语音信号;
108:对补偿后的语音信号进行声学反馈抑制;
109:对经过声学反馈抑制后的语音信号分别进行反傅里叶变换和重叠相加得到输出语音信号。
其中,对输入语音信号进行分帧,并对分帧后的输入语音信号进行傅里叶变换,得到分帧语音频域信号,包括:
对输入语音信号进行缓存分帧,并对分帧后的语音信号加窗;
将加窗后的每帧语音信号进行补零,并对补零后的语音信号进行傅里叶变换,得到分帧语音频域信号。
其中,对分帧语音频域信号进行语音场景的识别,得到输入语音信号的语音场景类别,包括:
提取分帧语音频域信号的语音特征;
对提取语音特征后的分帧语音频域信号进行场景识别,判断得到输入语音信号的语音场景类别。
进一步地,提取分帧语音频域信号的语音特征,包括:
对分帧频域语音信号计算功率谱;
将语音信号的功率谱经过三角窗滤波器组进行滤波,并对滤波后的语音信号的功率谱取对数,得到对数功率谱;
将对数功率谱映射到低维空间,并对映射后的功率谱进行谱加权,得到加权倒谱系数,作为提取到的语音特征。
进一步地,对提取语音特征后的分帧语音频域信号进行场景识别,判断得到输入语音信号的语音场景类别,包括:
对分帧语音频域信号加载场景模型;
根据提取的语音特征,计算各个场景模型下分帧信号的概率;
根据计算得到的概率,判别分帧信号的语音场景类别。
其中,将经过语音检测后的分帧语音频域信号进行双麦克风波束形成处理,包括:
分别对前后麦克风经过语音检测后的分帧语音频域信号进行延时处理;
根据前后两个分帧信号、前后两个延时后的分帧信号,得到两个固定极型方向性图;
根据得到的两个固定极型方向性图,计算得到自适应增益;
根据自适应增益和两个固定极型方向性图,得到双麦克风波束形成的语音信号。
其中,对双麦克风波束形成的语音信号进行风噪声处理,包括:
将后麦克风的分帧语音频域信号进行延时;
计算前麦克风的分帧语音频域信号与延时后的后麦克风的分帧语音频域信号的归一化互相关系数;
根据归一化互相关系数,得到分帧信号的风噪声抑制增益;
在低频率点上,将风噪声抑制增益与麦克风波束的语音信号求乘积,得到经过风噪声处理后的语音信号。
其中,将经过风噪声处理的语音信号进行其它噪声抑制,得到增强后的语音信号,包括:
提取经过风噪声处理的语音信号的幅度和相位,并对幅度进行预处理;
将噪声幅度谱和语音幅度谱分为多个子带,并分别计算每个子带的过减因子;
计算每个子带的谱减因子;
根据过减因子、谱减因子、带噪语音幅度谱和噪声幅度谱,计算得到增强后的语音幅度谱;
根据相位,对增强后的语音幅度谱进行后处理,得到增强后的频域语音信号。
其中,对增强后的语音信号进行频域动态范围压缩,得到补偿后的语音信号,包括:
在已测定患者在特定频率处的听力损失情况后,计算特定频率信号处的信号声压级;
根据信号声压级进行插值运算得到输出声压级;
根据信号声压级和输出声压级,计算得到增益;
根据得到的增益,计算分帧信号的频域滤波增益系数;
对频域滤波增益系数和特定频率信号求积,并将求积后的结果滤波,得到补偿后的频域信号。
其中,对补偿后的语音信号进行声学反馈抑制,包括:
计算听力补偿后的语音信号的自相关信号;
根据自相关信号计算自相关信号的过零率;
根据自相关信号过零率、信号的采样率以及自相关信号的点数,计算啸叫所在频段的中心频率;
根据中心频率设计陷波器,将补偿后的语音信号通过陷波器进行声学反馈抑制。
本发明实施例通过提供的全频域数字助听方法,解决了目前数字助听器侧重于解决某一种因素导致的听力障碍问题,而没有考虑到使用者的各种特殊情况的问题,提高了数字助听技术的处理速度,降低了功耗,为患者提供了更加让人满意的效果。
实施例2
为了解决目前数字助听器侧重于单纯解决听力障碍某一方面,而没有综合考虑影响使用效果各方面因素的问题,同时提高处理速度,减少占用资源,降低能耗,本发明实施例提供了一种全频域数字助听方法,除特殊说明外,本发明实施例的所有处理均在频域进行,参见图2,具体实现过程如下:
201:对输入语音信号进行缓存分帧加窗以及FFT(Fast Fourier transform,快速傅立叶变换)计算,具体实现过程如下:
201a:对输入语音信号进行缓存分帧加窗,并对分帧后的语音信号补零;
其中,本发明实施例中对输入语音信号进行缓存分帧的帧长为4ms,帧叠为2ms;分帧之后对信号进行加窗,本发明实例中采用hamming窗,也可以根据实际需要选用Hanning窗、升余弦窗等,本发明实施例对此不作限制。为了在频域实现对信号的滤波操作,本发明实施例将加窗后的每帧信号补0。
201b:对补零后的语音信号进行FFT运算。
其中,由于输入的语音信号样点值均为实数,因此其FFT变换之后的频谱是对称的,可使用实数FFT变换仅将对称部分的一半返回,加上一个0频率点,这样相对于普通的FFT,在以后的处理过程中,可以节省一半的运算量。
经过步骤201处理,将前后两个麦克风采集到的信号进行分帧加窗,并对各帧进行补零和FFT运算,得到F和B两个数组,分别表示前后两个麦克风采集到的语音信号的各个频率点。
202:对输入语音信号进行缓存分帧加窗以及FFT计算后,进行语音场景的识别,具体实现过程如下:
本发明实施例采用基于GMM(Gaussian mixture model,高斯混合模型)的方法,利用语音信号的MFCC(Mel-Frequency Cepstral Coficients,Mel频率倒谱系数)参数,通过训练和识别两个过程,实现对语音信号的语音场景的识别。本发明实例中将数字助听器的使用场景分为带噪语音、纯净语音、噪声和音乐四种,也可以根据实际需要,将语音场景进一步细化,划分更多语音场景,本发明实施例对此不作限制。下面参见图3,对该部分的具体实现进行说明:
202a:对经过步骤201处理得到的频域语音信号进行声学特征提取,具体实现过程如下:
1)计算功率谱:对经过步骤201处理得到的频域语音信号计算功率谱。
2)三角窗滤波器组:用一组Mel频标上均匀分布的三角窗滤波器,对频域语音信号的功率谱滤波。Mel频标频率fmel与线性频率fHz之间的关系如式(2)所示:
利用式(2)将FFT变换后的线性频率映射到Mel频率上,并在Mel频率上进行均匀分为M个频带,则第m个Mel分段频率fmel m的表达式为
其中FS是信号的采样频率。
再将Mel分段频率映射到线性频率:
其中fHz m表示第m个Mel分段频率对应的线性频率,计算Mel滤波器组在各线性频点上的抽头系数:
其中Hm(k)表示第m个Mel滤波器在第k个线性频点上的抽头系数,fHz k表示第k个频点的频率值。
则第m个Mel滤波器输出的子带能量A(m)为:
3)取对数:对步骤2)的三角窗滤波器组的输出求取自然对数得到对数功率谱特征ln(A(m)),m=0...(M-1)。
4)DCT(Discrete Cosine Transformation,离散余弦变换):去除各维信号之间的相关性,将信号映射到低维空间。DCT的表达式为:
5)谱加权:由于倒谱的低阶参数易受说话人特性、信道特性等的影响,而高阶参数的分辨能力比较低,所以需要进行谱加权,抑制其低阶和高阶参数。本发明实施例采用的加权函数的表达式为:
则第r维谱加权倒谱系数为:
其中,一般在对语音号处理流程以前还需要执行步骤202a的过程,通过对语音信号进行声学特征提取,训练得到各个语音场景模型,以便使得在对输入语音号处理时,对输入语音信号加载各个场景模型,实现对输入语音信号的语音场景的识别。
经过上述步骤1)一步骤5),完成了对输入语音信号的特征提取的过程,下面在对输入的语音信号进行场景的识别。
202b:对提取特征后的输入语音信号进行场景识别,具体过程如下:
1)加载场景模型(此模型通过步骤202a训练得到):每个场景模型为含M个分量的GMM模型:λ={Ci,μi,∑i},i=1,2…,M。其中,Ci为分量加权系数,满足 每个分量的均值矢量μi及其协方差阵∑i。
2)取特征:利用步骤202a中的步骤5)提取的特征,取前12维形成待识别特征,即取12维MFCC作为待识别语音的特征矢量x。
3)计算概率:对于每个场景模型λ,GMM忽略语音帧之间的事件关系,用一个混合高斯概率密度函数来描述一个场景语音的特征矢量分布,此混合高斯概率密度函数为:
其中,对于每个高斯概率密度函数:
对p(x|λ)求对数,以便于对连续帧的混合高斯概率密度函数进行累加运算:
P(xt|λn)=ln(p(xt|λn)) (13)
其中,xt为第t帧的语音特征,λn为第n个场景的模型参数。
4)累加概率:重复进行步骤2)和步骤.3),得到连续的T帧语音的混合高斯概率密度函数对数。对P(xt|λn)进行累加运算:
P(X|λn)是该连续T帧语音为第n个场景的概率度量。
5)识别结果:对于N个场景(本发明实施例中以4个场景为例),由上述4)步得到P(X|λn),n=1…,...,N:
则语音段X属于第n*个场景。
其中,本发明实例中将数字助听器的使用场景分为带噪语音、纯净语音、噪声和音乐四种,经过步骤202b判断后,如果输入语音信号的使用场景判断为带噪语音,则继续执行后续步骤,如果输入语音信号的使用场景判断为纯净语音或者噪声或者音乐,则直接执行步骤207。另外,由于输入语音信号为前后双麦克风输入的两路语音信号,所以只需对其中的一路语音信号进行步骤202,判断出语音信号的使用场景,另一路语音信号的使用场景相同。
203:对判断为带噪语音的语音信号进行VAD语音检测,具体实现过程如下:
其中,此部分的VAD语音检测以语音信号的能量为基础,判断当前的一帧为语音帧还是噪声帧,该部分以前麦克采集到的语音信号F为处理对象,该部分的输出结果vad是双麦克风波束形成和噪声抑制两部分自动更新的控制信号。其原理如下:
首先假设语音信号的前9帧为噪声,进行噪声能量的初始化,其输出vad=0,表示这些帧为噪声帧。将前9帧的输入信号能量求和,在第10帧的时候,对前10帧的噪声能量进行平均,得到每帧的平均噪声能量数组noise_pow。当前输入信号的能量数组为noisy_pow。需要说明的是,噪声能量noise_pow和语音能量noisy_pow都是数组,数组元素对应于语音信号FFT运算后得到的各个频率点。通过以下准则来判断当前帧为噪声还是语音:
数组rti=noisy_pow./noise_pow-10log(noisy_pow./noise_pow)-1其中的点除符号“./”表示数组中对应元素间进行除法操作。
判断因子judgevalue等于数组rti中各值的平均值,如果judgevalue大于预先设定的阈值则判断当前帧为语音帧,value=1;否则,value=0,当前帧为噪声帧。
后麦克风的VAD语音检测结果与前麦克风相同。
204:对VAD语音检测后的语音信号进行处理,形成双麦克风波束的语音信号,参见图4,双麦克风波束形成部分的实施例图:
图4中,所示F和B分别表示前麦克和后麦克频域信号数组。此部分的处理过程如下:
204a:首先对F和B进行频域的延时处理,延时后的信号分别用F_delay和B_delay表示,延时时间为d/c。其中d表示前后两个麦克风之间的距离,c表示语音信号在空气中的传播速度。
F_delay(k)=F(k)*exp(-j*2π*FS*k*delay/EXTENDFRM) (16)
其中,delay=d/c,k=0,1,...,K-1,K表示数组F中的长度。
B_delay的计算方法与F_delay相同。
204b:将F、B、F_delay、B_delay组合起来形成两个固定极型心形方向性图。其中X对应的cardioid方向性图,其零向指向180度方向(与前麦克风相反的方向),而Y对应的cardioid方向性图的零向指向0度方向(即由前麦克风指向后麦克风的方向)。
X(k)=F(k)-B_delay(k) (17)
Y(k)=B(k)-F_delay(k)
其中,k表示第k个频率点。
204c:根据VAD检测的结果和历史信息控制自适应增益GAIN的更新RXY和RYY分别表示X、Y的互相关及Y的自相关。
if vad==0(噪声帧进行更新)
RXY(t)=RXY(t)·α+RXY(t-1)·(1-α)
RYY(t)=RYY(t)·α+RYY(t-1)·(1-α)
else
RXY和RYY保持不变
其中,α为更新因子。
然后,由RXY和RYY求得自适应增益GAIN=RXY/RYY。
204d:由自适应增益GAIN和X、Y两个零向方向相反的cardioid型方向性图,得到自动跟踪消除主噪声方向的麦克风波束:
fbf(k)=X(k)-GAIN*Y(k) (18)
205:对步骤204形成的双麦克风波束的语音信号进行风噪声抑制,参见图5,具体过程如下:
本发明实施例中对于风噪声采用相关的方法进行抑制,其中为了避免对语音信号质量的过度损害,只在风噪声集中的低频部分进行风噪声抑制的处理。本发明实施例中仅对1kHz以下的频率进行风噪声抑制的处理,其实现方式如图5所示:
205a:将后麦克风一帧频域信号进行延时得到B_delay,计算各频率点上一帧前麦克风频域信号F和得到的B_delay之间的互相关,如下式:
cross_corr(k)=F(k)*B_delay(k) (19)
其中,k表示第k个频率点。
然后,计算F各频率点的能量:power(k)=|F(k)|2
205b:将各频率点的互相关对前麦克风的能量进行归一化,得到归一化互相关系数:norm_cross(k)=cross_corr(k)/power(k)。根据归一化互相关系数判断风噪声是否存在,如果norm_cross(k)>0.8,则认为频率点k处,两个麦克风采集到的信号具有较大的相关性,应是语音信号,风噪声不存在,此处的风噪声抑制增益suppr_gain(k)设置为1;否则,认为风噪声存在,ssuppr_gain(k)没置为0.1。
205c:在1kHz以下,将得到的各频率点处的风噪声抑制增益suppr_gain(k)与相应频点处的麦克风波束形成之后的结果相乘,便得到经过风噪声抑制后的语音信号,如图5所示。
206:经过步骤205风噪声抑制后,对语音信号中的噪声进行抑制,得到增强后的语音信号,具体实现过程如下:
本步骤采用多子带谱减的方法对语音信号中的噪声进行抑制,以达到抑制噪声,增强语音的目的。该步骤的实施例图参见图6,下面对具体实现过程进行详细说明:
其中,本步骤对噪声进行抑制的处理,通过下式实现
其中k表示第k个频率点,n和m分别表示第i个频带的下限和上限,表示增强后的语音信号能量,|Y(k)|2表示平滑后的待处理语音能量,表示估计的噪声能量,αi表示第i个子带的过减因子,δi表示第i子带附加的子带谱减因子。以上各量值的计算及具体含义在下面说明。
206a:提取语音信号的的幅度和相位,并对带噪语音的幅度进行预处理。
然后,对带噪语音的幅度进行如下的预处理:
其中,|Yj(k)|表示第j帧预处理之后的语音幅度,|Yj-m(k)|m=0,1,2,3,4表示当前输入帧以及当前帧之前4帧的语音幅度,而W=[0.09 0.09 0.25 0.25 0.32]表示预处理加权系数。对带噪语音谱进行预处理之后能够降低其变化波动,因而能有效地减少残余噪声,提高语音质量。
206b:将带噪语音谱分成Q个子带,并分别计算每个子带的过减因子。
其中,第i个子带的过减因子由下式计算得到:
每个子带的信噪比由下式得到
206c:在各子带内将噪声谱从带噪语音谱中减去,得到增强后的语音谱。
进行谱减计算时,其中的第i个附加子带谱减因子δi的计算如下:
206d:对增强后的语音信号谱进行后处理,并结合带噪语音的相位信息,得到增强后的语音信号各频率点的值。
为了避免预处理后的语音谱减去噪声谱出现负值,将增强后的语音谱进行如下处理:
其中,β=0.002
此外,为了进一步消除音乐噪声,将带噪语音的一部分加到增强后的语音上:
根据带噪语音的相位信息和,便可以求出增强后的语音信号各频率点的值:
其中,fnsi(k)表示第i帧增强后的语音信号第k个频点的值;phase(k)表示带噪语音第k个频点的相位,j表示虚部单位。
至此,便得到增强后的语音信号,以供进一步处理使用。
207:对增强后的语音信号,进行频域动态范围压缩,得到补偿后的语音信号;
本发明实施例中根据听力损伤患者的听力测量结果,采用频域补偿的方法实现语音动态范围的压缩,该步骤的处理流程图如图7所示。但在本发明实施例中,由于图7中分帧、FFT、IFFT、重叠相加等部分由其它模块完成,因此在本发明实施例中该步骤包括求声压级、求滤波增益和滤波三个过程。假定L为FFT的运算长度,FS为信号抽样频率,该步骤的具体实施方法如下:
207a:首先测定患者在特定频率处fk的听力损失情况,其中fk=(k/L)·FS,通过选定k值来确定频率fk。
其中,以NCH表示一共选择的通道个数,通道个数选择得越多,患者的听力损失情况就会反应得越准确,由此带来的计算量也越大。假定选择k=0,4,8,12....L/2,共计NCH个。参见图8,听力损伤者在特定频率处的听力损失情况大致反应了患者的整个听力损失情况。
207b:前一模块输入到此模块的信号表示为framedata_f。其中,由特定的频率fk的频域表示framedata_f,求得此频处的信号声压级spl_in。声压级的计算公式为:
207c:求增益gain:由此声压级通过插值运算得到输出声压级spl_out,并得到此频率处的滤波增益gain_dB。滤波增益gain_dB=spl_out-spl_in。插值方法根据配听测试中患者听觉效果可以选取linear、cubic等方法,本发明实施例对此不作限制。
207d:求滤波系数coeffs:其他频率处的滤波增益通过插值运算求得,这样就求出了当前帧的频域滤波增益系数coeffs。
207e:滤波:频域信号framedata在频域直接乘滤波系数coeffs,对输入帧进行滤波得到补偿后的频域信号framedata_f_processed。
208:对补偿后的频域信号进行声学反馈抑制,具体过程如下:
本发明实施例中采用自适应陷波器的方法,对数字助听器中存在的语音啸叫进行抑制。其中,本步骤中包括两个部分:啸叫检测和自适应陷波器,参见图9:陷波器放在了动态压扩模块之后,这样做主要的考虑是动态压扩和陷波器之间的作用相互抵消,若将陷波器放在前面,则陷波部分会被动态压扩模块检测出并补偿,则失去反馈消除的作用。
208a:陷波器设计:
陷波器的传输函数可如下所示:
其中,主要参数包括中心频率ωo和3dB带宽BW,中心频率是指陷波器所在位置,由啸叫检测模块给出,3dB带宽指增益下降到峰值-3dB的带宽。
208b:啸叫检测部分:
计算自相关信号的过零率:
ZCR=0;
if Corr(n)·Corr(n-1)<0 (29)
ZCR=ZCR+1
计算啸叫所在频段的中心频率:
其中,FS为采样率,ZCR为过零率,N为自相关信号的点数。当ωo大于预先设定的阈值,即判断发生啸叫。
209:对经过声学反馈消除后的输出的语音信号进行反FFT运算及重叠相加,得到输出信号。
其中,对声学反馈消除部分的输出,进行反FFT运算,并进行重叠相加,即可得到整个助听器的输出;将该输出经过一个模拟的放大器放大之后,即是佩戴助听器的听力患者所听到的声音。
本发明实施例提供的全频域数字助听方法,解决了目前数字助听器侧重于解决某一种因素导致的听力障碍问题,而没有考虑到使用者的各种特殊情况的问题,提高了数字助听技术的处理速度,降低了功耗,为患者提供了更加让人满意的效果。
实施例3
本发明实施例提供了一种全频域数字助听设备,参见图10,该设备包括:
分帧模块301,用于获取前后双麦克风的输入语音信号,对输入语音信号进行分帧,并对分帧后的输入语音信号进行傅里叶变换,得到分帧语音频域信号;
场景识别模块302,用于对分帧语音频域信号进行语音场景的识别,得到输入语音信号的语音场景类别;
语音检测模块303,用于当输入语音信号的语音场景为带噪语音时,对分帧语音频域信号进行语音检测,判断分帧语音频域信号中每一帧是语音帧还是噪声帧;
双麦克风波束模块304,用于将经过语音检测后的分帧语音频域信号进行双麦克风波束形成处理;
风噪声处理模块305,用于对双麦克风波束形成的语音信号进行风噪声处理;
语音噪声抑制模块306,用于将经过风噪声处理的语音信号进行其它噪声抑制,得到增强后的语音信号;
频域动态范围压缩模块307,用于对增强后的语音信号进行频域动态范围压缩,得到补偿后的语音信号;
声学反馈模块308,用于对补偿后的语音信号进行声学反馈抑制;
输出模块309,用于对经过声学反馈抑制后的语音信号分别进行反傅里叶变换和重叠相加得到输出语音信号。
其中,分帧模块301,包括:
分帧加窗单元,用于对输入语音信号进行缓存分帧,并对分帧后的语音信号加窗;
傅里叶变换单元,用于将加窗后的每帧语音信号进行补零,并对补零后的语音信号进行傅里叶变换,得到分帧语音频域信号。
其中,场景识别模块302,包括:
提取特征单元,用于提取分帧语音频域信号的语音特征;
识别单元,用于对提取语音特征后的分帧语音频域信号进行场景识别,判断得到输入语音信号的语音场景类别。
进一步地,提取特征单元,包括:
对分帧语音频域信号进行快速傅里叶变换,得到语音信号的功率谱;
三角窗滤波子单元,用于将语音信号的功率谱经过三角窗滤波器组进行滤波,并对滤波后的语音信号的功率谱取对数,得到对数功率谱;
映射子单元,用于将对数功率谱映射到低维空间,并对映射后的功率谱进行谱加权,得到谱加权倒谱系数,作为提取到的语音特征。
进一步地,识别单元,包括:
加载模型子单元,用于对分帧语音频域信号加载场景模型;
计算概率子单元,用于根据提取的语音特征,计算场景模型下分帧信号的概率;
判别子单元,用于根据计算得到的概率,判别分帧信号的语音场景类别。
其中,语音检测模块303,包括:
第一延时单元,用于分别对前后麦克风经过语音检测后的分帧语音频域信号进行延时处理;
第一处理单元,用于根据前后两个分帧信号、前后两个延时后的分帧信号,得到两个固定极型方向性图;
自适应增益单元,用于根据得到的两个固定极型方向性图,计算得到自适应增益;
双麦克风波束单元,用于根据自适应增益和两个固定极型方向性图,得到双麦克风波束形成的语音信号。
其中,风噪声处理模块305,包括:
第二延时单元,用于将后麦克风的分帧语音频域信号进行延时;
第二处理单元,用于计算前麦克风的分帧语音频域信号与延时后的后麦克风的分帧语音频域信号的归一化互相关系数;
风噪声抑制增益单元,用于根据归一化互相关系数,得到分帧信号的风噪声抑制增益;
第三处理单元,用于在低频率点上,将风噪声抑制增益与麦克风波束的语音信号求乘积,得到经过风噪声处理后的语音信号。
其中,语音噪声抑制模块306,包括:
提取单元,用于提取经过风噪声处理的语音信号的幅度和相位,并对幅度进行预处理;
划分单元,用于将噪声谱和语音谱分为多个子带,并分别计算每个子带的过减因子;
第四处理单元,用于计算每个子带的谱减因子,并根据过减因子、谱减因子、带噪语音谱和噪声谱,计算得到增强后的语音谱;
第五处理单元,用于根据相位,对增强后的语音谱进行后处理,得到增强后的语音信号各个频点的值。
其中,频域动态范围压缩模块307,包括:
信号声压级单元,用于在已测定患者在特定频率处的听力损失情况后,计算特定频率信号处的信号声压级;
输出声压级单元,用于根据信号声压级进行插值运算得到输出声压级;
频域滤波增益系数单元,用于根据信号声压级和输出声压级,得到增益,并根据得到的增益,计算分帧信号的频域滤波增益系数;
补偿单元,用于对频域滤波增益系数和增强后的频域语音信号求积,并将求积后的结果滤波,得到补偿后的频域信号。
其中,声学反馈模块308,包括:
自相关信号单元,用于计算听力补偿后的频域语音信号的自相关信号;
过零率单元,用于根据自相关信号计算自相关信号过零率;
中心频率单元,用于根据自相关信号过零率、信号的采样率以及自相关信号的点数,计算啸叫所在频段的中心频率;
声学反馈抑制单元,用于根据中心频率设计陷波器,将补偿后的语音信号通过陷波器进行声学反馈抑制。
本发明实施例提供的全频域数字助听设备,解决了目前数字助听器侧重于解决某一种因素导致的听力障碍问题,而没有考虑到使用者的各种特殊情况的问题,提高了数字助听技术的处理速度,降低了功耗,为患者提供了更加让人满意的效果。
本发明实施例可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,例如,嵌入式设备的硬盘、缓存或光盘中。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (20)
1.一种全频域数字助听方法,其特征在于,所述方法包括:
获取前后双麦克风的输入语音信号,对所述输入语音信号进行分帧,并对分帧后的输入语音信号进行傅里叶变换,得到分帧语音频域信号;
对所述分帧语音频域信号进行语音场景的识别,得到所述输入语音信号的语音场景类别;
a)当所述输入语音信号的语音场景为带噪语音时,对所述分帧语音频域信号进行语音检测,判断所述分帧语音频域信号中每一帧是语音帧还是噪声帧;
将经过语音检测后的分帧语音频域信号进行双麦克风波束形成处理;
对双麦克风波束形成的语音信号进行风噪声处理;
将经过风噪声处理的语音信号进行其它噪声抑制,得到增强后的语音信号;
对增强后的语音信号进行频域动态范围压缩,得到补偿后的语音信号;
b)当所述输入语音信号的语音场景为纯净语音、噪声或者音乐时,则直接对增强后的语音信号,进行频域动态范围压缩,得到补偿后的语音信号;
c)继续以下流程
对补偿后的语音信号进行声学反馈抑制;
对经过声学反馈抑制后的语音信号分别进行反傅里叶变换和重叠相加得到输出语音信号。
2.如权利要求1所述的方法,其特征在于,对所述输入语音信号进行分帧,并对分帧后的输入语音信号进行傅里叶变换,得到分帧语音频域信号,包括:
对输入语音信号进行缓存分帧,并对分帧后的语音信号加窗;
将加窗后的每帧语音信号进行傅里叶变换,得到分帧语音频域信号。
3.如权利要求1所述的方法,其特征在于,对所述分帧语音频域信号进行语音场景的识别,得到所述输入语音信号的语音场景类别,包括:
提取分帧语音频域信号的语音特征;
对提取语音特征后的分帧语音频域信号进行场景识别,判断得到所述输入语音信号的语音场景类别。
4.如权利要求3所述的方法,其特征在于,所述提取分帧语音频域信号的语音特征,包括:
对加窗后的分帧语音频域信号计算功率谱;
将语音信号的功率谱经过三角窗滤波器组进行滤波,并对滤波后的语音信号的功率谱取对数,得到对数功率谱;
将对数功率谱映射到低维空间,并对映射后的功率谱进行谱加权,得到谱加权倒谱系数,作为提取到的语音特征。
5.如权利要求3或4所述的方法,其特征在于,所述对提取语音特征后的分帧语音频域信号进行场景识别,判断得到所述输入语音信号的语音场景类别,包括:
对分帧语音频域信号加载场景模型;
根据提取的语音特征,计算所述场景模型下所述分帧信号的概率;
根据计算得到的概率,判别所述分帧信号的语音场景类别。
6.如权利要求1所述的方法,其特征在于,所述将经过语音检测后的分帧语音频域信号进行双麦克风波束形成处理,包括:
分别对前后麦克风经过语音检测后的分帧语音频域信号进行延时处理;
根据前后两个分帧信号、前后两个延时后的分帧信号,得到两个固定极性方向性图;
根据得到的两个固定极性方向性图,计算得到自适应增益;
根据自适应增益和两个固定极性方向性图,得到双麦克风波束形成的语音信号。
7.如权利要求1所述的方法,其特征在于,所述对双麦克风波束形成的语音信号进行风噪声处理,包括:
将后麦克风的分帧语音频域信号进行延时;
计算前麦克风的分帧语音频域信号与延时后的后麦克风的分帧语音频域信号的归一化互相关系数;
根据所述归一化互相关系数,得到分帧信号的风噪声抑制增益;
在低频率点上,将所述风噪声抑制增益与麦克风波束的语音信号求乘积,得到经过风噪声处理后的语音信号。
8.如权利要求1所述的方法,其特征在于,所述将经过风噪声处理的语音信号进行其它噪声抑制,得到增强后的语音信号,包括:
提取经过风噪声处理的语音信号的幅度和相位,并对幅度进行预处理;
将噪声幅度谱和语音幅度谱分为多个子带,并分别计算每个子带的过减因子;
计算每个子带的谱减因子;
根据过减因子、谱减因子、带噪语音幅度谱和噪声幅度谱,计算得到增强后的语音幅度谱;
根据相位,对增强后的语音幅度谱进行后处理,得到增强后的频域语音信号。
9.如权利要求1所述的方法,其特征在于,所述对增强后的语音信号进行频域动态范围压缩,得到补偿后的语音信号,包括:
在已测定患者在特定频率处的听力损失情况后,计算特定频率信号处的信号声压级;
根据所述信号声压级进行插值运算得到输出声压级;
根据所述信号声压级和所述输出声压级,计算得到增益;
根据得到的增益,计算分帧信号的频域滤波增益系数;
对所述频域滤波增益系数和所述特定频率信号求积,并将求积后的结果滤波,得到补偿后的频域信号。
10.如权利要求1所述的方法,其特征在于,所述对补偿后的语音信号进行声学反馈抑制,包括:
计算经过听力补偿后的语音信号的自相关信号;
根据所述自相关信号计算自相关信号的过零率;
根据所述自相关信号过零率、信号的采样率以及自相关信号的点数,计算啸叫所在频段的中心频率;
根据所述中心频率设计陷波器,将补偿后的语音信号通过所述陷波器进行声学反馈抑制。
11.一种全频域数字助听设备,其特征在于,所述设备包括:
分帧模块,用于获取前后双麦克风的输入语音信号,对所述输入语音信号进行分帧,并对分帧后的输入语音信号进行傅里叶变换,得到分帧语音频域信号;
场景识别模块,用于对所述分帧语音频域信号进行语音场景的识别,得到所述输入语音信号的语音场景类别;
语音检测模块,用于当所述输入语音信号的语音场景为带噪语音时,对所述分帧语音频域信号进行语音检测,判断所述分帧语音频域信号中每一帧是语音帧还是噪声帧;对于输入语音信号的语音场景为纯净语音、噪声或者音乐时,则无须用此语音检测模块进行语音检测;
双麦克风波束模块,用于将经过语音检测后的分帧语音频域信号进行双麦克风波束形成处理;
风噪声处理模块,用于对双麦克风波束形成的语音信号进行风噪声处理;
语音噪声抑制模块,用于将经过风噪声处理的语音信号进行其它噪声抑制,得到增强后的语音信号;
频域动态范围压缩模块,用于对增强后的语音信号进行频域动态范围压缩,得到补偿后的语音信号;
声学反馈模块,用于对补偿后的语音信号进行声学反馈抑制;
输出模块,用于对经过声学反馈抑制后的语音信号分别进行反傅里叶变换和重叠相加得到输出语音信号。
12.如权利要求11所述的设备,其特征在于,所述分帧模块,包括:
分帧加窗单元,用于对输入语音信号进行缓存分帧,并对分帧后的语音信号加窗;
傅里叶变换单元,用于将加窗后的每帧语音信号进行傅里叶变换,得到分帧语音频域信号。
13.如权利要求11所述的设备,其特征在于,所述场景识别模块,包括:
提取特征单元,用于提取分帧语音频域信号的语音特征;
识别单元,用于对提取语音特征后的分帧语音频域信号进行场景识别,判断得到所述输入语音信号的语音场景类别。
14.如权利要求13所述的设备,其特征在于,所述提取特征单元,包括:
功率谱计算子单元,用于对加窗后的分帧语音频域信号计算功率谱;
三角窗滤波子单元,用于将语音信号的功率谱经过三角窗滤波器组进行滤波,并对滤波后的语音信号的功率谱取对数,得到对数功率谱;
映射子单元,用于将对数功率谱映射到低维空间,并对映射后的功率谱进行谱加权,得到谱加权倒谱系数,作为提取到的语音特征。
15.如权利要求13或14所述的设备,其特征在于,所述识别单元,包括:
加载模型子单元,用于对分帧语音频域信号加载场景模型;
计算概率子单元,用于根据提取的语音特征,计算所述场景模型下所述分帧信号的概率;
判别子单元,用于根据计算得到的概率,判别所述分帧信号的语音场景类别。
16.如权利要求11所述的设备,其特征在于,所述双麦克风波束模块,包括:
第一延时单元,用于分别对前后麦克风经过语音检测后的分帧语音频域信号进行延时处理;
第一处理单元,用于根据前后两个分帧信号、前后两个延时后的分帧信号,得到两个固定极性方向性图;
自适应增益单元,用于根据得到的两个固定极性方向性图,计算得到自适应增益;
双麦克风波束单元,用于根据自适应增益和两个固定极性方向性图,得到双麦克风波束形成的语音信号。
17.如权利要求11所述的设备,其特征在于,所述风噪声处理模块,包括:
第二延时单元,用于将后麦克风的分帧语音频域信号进行延时;
第二处理单元,用于计算前麦克风的分帧语音频域信号与延时后的后麦克风的分帧语音频域信号的归一化互相关系数;
风噪声抑制增益单元,用于根据所述归一化互相关系数,得到分帧信号的风噪声抑制增益;
第三处理单元,用于在低频率点上,将所述风噪声抑制增益与麦克风波束的语音信号求乘积,得到经过风噪声处理后的语音信号。
18.如权利要求11所述的设备,其特征在于,所述语音噪声抑制模块,包括:
提取单元,用于提取经过风噪声处理的语音信号的幅度和相位,并对幅度进行预处理;
划分单元,用于将噪声幅度谱和语音幅度谱分为多个子带,并分别计算每个子带的过减因子;
第四处理单元,用于计算每个子带的谱减因子,并根据过减因子、谱减因子、带噪语音幅度谱和噪声幅度谱谱,计算得到增强后的语音幅度谱;
第五处理单元,用于根据相位,对增强后的语音幅度谱进行后处理,得到增强后的频域语音信号。
19.如权利要求11所述的设备,其特征在于,所述频域动态范围压缩模块,包括:
信号声压级单元,用于在已测定患者在特定频率处的听力损失情况后,计算特定频率信号处的信号声压级;
输出声压级单元,用于根据所述信号声压级进行插值运算得到输出声压级;
频域滤波增益系数单元,用于根据所述信号声压级和所述输出声压级,得到增益,并根据得到的增益,计算分帧信号的频域滤波增益系数;
补偿单元,用于对所述频域滤波增益系数和所述特定频率信号求积,并将求积后的结果滤波,得到补偿后的频域信号。
20.如权利要求11所述的设备,其特征在于,所述声学反馈模块,包括:
自相关信号单元,用于计算听力补偿后的语音信号的自相关信号;
过零率单元,用于根据所述自相关信号计算自相关信号的过零率;
中心频率单元,用于根据所述自相关信号过零率、信号的采样率以及自相关信号的点数,计算啸叫所在频段的中心频率;
声学反馈抑制单元,用于根据所述中心频率设计陷波器,将补偿后的语音信号通过所述陷波器进行声学反馈抑制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100885786A CN101593522B (zh) | 2009-07-08 | 2009-07-08 | 一种全频域数字助听方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100885786A CN101593522B (zh) | 2009-07-08 | 2009-07-08 | 一种全频域数字助听方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101593522A CN101593522A (zh) | 2009-12-02 |
CN101593522B true CN101593522B (zh) | 2011-09-14 |
Family
ID=41408138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009100885786A Expired - Fee Related CN101593522B (zh) | 2009-07-08 | 2009-07-08 | 一种全频域数字助听方法和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101593522B (zh) |
Families Citing this family (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102256200A (zh) * | 2010-05-19 | 2011-11-23 | 上海聪维声学技术有限公司 | 全数字助听器的基于wola滤波器组的信号处理方法 |
CN101901602B (zh) * | 2010-07-09 | 2012-09-05 | 中国科学院声学研究所 | 一种利用受损听力的听阈进行降噪的方法 |
JP2012175453A (ja) * | 2011-02-22 | 2012-09-10 | Sony Corp | 音声処理装置、音声処理方法、及びプログラム |
US9148735B2 (en) * | 2012-12-28 | 2015-09-29 | Gn Resound A/S | Hearing aid with improved localization |
CN103971680B (zh) | 2013-01-24 | 2018-06-05 | 华为终端(东莞)有限公司 | 一种语音识别的方法、装置 |
CN103065631B (zh) * | 2013-01-24 | 2015-07-29 | 华为终端有限公司 | 一种语音识别的方法、装置 |
CN103475986A (zh) * | 2013-09-02 | 2013-12-25 | 南京邮电大学 | 基于多分辨率小波的数字助听器语音增强方法 |
CN104424953B (zh) * | 2013-09-11 | 2019-11-01 | 华为技术有限公司 | 语音信号处理方法与装置 |
US9832562B2 (en) * | 2013-11-07 | 2017-11-28 | Gn Hearing A/S | Hearing aid with probabilistic hearing loss compensation |
CN103761974B (zh) * | 2014-01-28 | 2017-01-25 | 上海力声特医学科技有限公司 | 一种人工耳蜗 |
CN104092936B (zh) * | 2014-06-12 | 2017-01-04 | 小米科技有限责任公司 | 自动对焦方法及装置 |
US9837102B2 (en) * | 2014-07-02 | 2017-12-05 | Microsoft Technology Licensing, Llc | User environment aware acoustic noise reduction |
CN106537939B (zh) * | 2014-07-08 | 2020-03-20 | 唯听助听器公司 | 优化助听器***中的参数的方法和助听器*** |
CN105989838B (zh) * | 2015-01-30 | 2019-09-06 | 展讯通信(上海)有限公司 | 语音识别方法及装置 |
DK3057340T3 (da) * | 2015-02-13 | 2019-08-19 | Oticon As | Partnermikrofonenhed og et høresystem, der omfatter en partnermikrofonenhed |
CN104918182B (zh) * | 2015-04-08 | 2018-03-09 | 长江大学 | 啸叫检测与抑制*** |
CN106328116B (zh) * | 2015-06-30 | 2020-04-17 | 芋头科技(杭州)有限公司 | 一种机器人室内噪声控制*** |
EP3360136B1 (en) * | 2015-10-05 | 2020-12-23 | Widex A/S | Hearing aid system and a method of operating a hearing aid system |
CN105513598B (zh) * | 2016-01-14 | 2019-04-23 | 宁波大学 | 一种基于频域信息量分布的回放语音检测方法 |
CN105872910A (zh) * | 2016-03-23 | 2016-08-17 | 成都普创通信技术股份有限公司 | 一种音频信号啸叫检测方法 |
CN105761657B (zh) * | 2016-05-11 | 2019-07-26 | 梁辉 | 一种采用彩色点阵显示音乐频谱或动画的方法和*** |
CN105825864B (zh) * | 2016-05-19 | 2019-10-25 | 深圳永顺智信息科技有限公司 | 基于过零率指标的双端说话检测与回声消除方法 |
CN106910511B (zh) * | 2016-06-28 | 2020-08-14 | 阿里巴巴集团控股有限公司 | 一种语音去噪方法和装置 |
CN106504758B (zh) * | 2016-10-25 | 2019-07-16 | 大连理工大学 | 混音器及混音方法 |
CN106653047A (zh) * | 2016-12-16 | 2017-05-10 | 广州视源电子科技股份有限公司 | 一种音频数据的自动增益控制方法与装置 |
EP3343951A1 (en) * | 2016-12-27 | 2018-07-04 | GN Hearing A/S | Sound signal modelling based on recorded object sound |
CN107257528A (zh) * | 2017-06-14 | 2017-10-17 | 山东浪潮云服务信息科技有限公司 | 一种基于加权谱熵的啸叫检测方法 |
CN107393533B (zh) * | 2017-07-28 | 2019-12-10 | 侨伟运动器材(南京)有限公司 | 一种通过语音控制跑步机的装置 |
CN110691312B (zh) * | 2018-07-05 | 2021-03-09 | 原相科技股份有限公司 | 降低接触助听器所产生噪音的方法及双耳助听器 |
US20210174824A1 (en) * | 2018-07-26 | 2021-06-10 | Med-El Elektromedizinische Geraete Gmbh | Neural Network Audio Scene Classifier for Hearing Implants |
CN109215688B (zh) * | 2018-10-10 | 2020-12-22 | 麦片科技(深圳)有限公司 | 同场景音频处理方法、装置、计算机可读存储介质及*** |
CN109511070A (zh) * | 2018-11-10 | 2019-03-22 | 东莞市华睿电子科技有限公司 | 一种助听器声音处理方法 |
WO2020097820A1 (zh) * | 2018-11-14 | 2020-05-22 | 深圳市大疆创新科技有限公司 | 基于多麦克风的风噪处理方法、装置、***及存储介质 |
CN113168843B (zh) * | 2018-11-21 | 2022-04-22 | 深圳市欢太科技有限公司 | 音频处理方法、装置、存储介质及电子设备 |
CN110430316B (zh) * | 2019-06-25 | 2021-05-14 | 努比亚技术有限公司 | 一种语音降噪方法、移动终端及计算机可读存储介质 |
CN110473568B (zh) * | 2019-08-08 | 2022-01-07 | Oppo广东移动通信有限公司 | 场景识别方法、装置、存储介质及电子设备 |
CN113409041B (zh) * | 2020-03-17 | 2023-08-04 | 华为技术有限公司 | 一种电子卡的选取方法、装置、终端以及存储介质 |
CN113473314A (zh) * | 2020-03-31 | 2021-10-01 | 华为技术有限公司 | 音频信号处理方法以及相关设备 |
CN112037806B (zh) * | 2020-08-07 | 2023-10-31 | 中科新声(苏州)科技有限公司 | 一种检测风噪的方法和检测风噪声的设备 |
CN112019958B (zh) * | 2020-08-07 | 2022-04-22 | 中科新声(苏州)科技有限公司 | 一种抗风噪的方法 |
CN112151052B (zh) * | 2020-10-26 | 2024-06-25 | 平安科技(深圳)有限公司 | 语音增强方法、装置、计算机设备及存储介质 |
CN112954569B (zh) * | 2021-02-20 | 2022-10-25 | 深圳市智听科技有限公司 | 多核助听芯片、助听方法及助听器 |
CN113132882B (zh) * | 2021-04-16 | 2022-10-28 | 深圳木芯科技有限公司 | 多动态范围压扩方法和*** |
CN114023307B (zh) * | 2022-01-05 | 2022-06-14 | 阿里巴巴达摩院(杭州)科技有限公司 | 声音信号处理方法、语音识别方法、电子设备和存储介质 |
CN114640937B (zh) | 2022-05-18 | 2022-09-02 | 深圳市听多多科技有限公司 | 一种基于穿戴设备***的助听功能实现方法及穿戴设备 |
CN117995225A (zh) * | 2022-10-31 | 2024-05-07 | 荣耀终端有限公司 | 语音检测方法及其相关设备 |
CN116367063B (zh) * | 2023-04-23 | 2023-11-14 | 郑州大学 | 一种基于嵌入式的骨传导助听设备及*** |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1703494A1 (en) * | 2005-03-17 | 2006-09-20 | Emma Mixed Signal C.V. | Listening device |
CN101459867A (zh) * | 2007-12-11 | 2009-06-17 | 伯纳方股份公司 | 包括匹配滤波器的助听器***及测量方法 |
-
2009
- 2009-07-08 CN CN2009100885786A patent/CN101593522B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1703494A1 (en) * | 2005-03-17 | 2006-09-20 | Emma Mixed Signal C.V. | Listening device |
CN101459867A (zh) * | 2007-12-11 | 2009-06-17 | 伯纳方股份公司 | 包括匹配滤波器的助听器***及测量方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101593522A (zh) | 2009-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101593522B (zh) | 一种全频域数字助听方法和设备 | |
CN110970053B (zh) | 一种基于深度聚类的多通道与说话人无关语音分离方法 | |
US6757395B1 (en) | Noise reduction apparatus and method | |
Ma et al. | Objective measures for predicting speech intelligibility in noisy conditions based on new band-importance functions | |
JP5127754B2 (ja) | 信号処理装置 | |
Kim et al. | Nonlinear enhancement of onset for robust speech recognition. | |
US20070033020A1 (en) | Estimation of noise in a speech signal | |
US20140025374A1 (en) | Speech enhancement to improve speech intelligibility and automatic speech recognition | |
CN107919133A (zh) | 针对目标对象的语音增强***及语音增强方法 | |
US20110046948A1 (en) | Automatic sound recognition based on binary time frequency units | |
EP2751806B1 (en) | A method and a system for noise suppressing an audio signal | |
CN109215677A (zh) | 一种适用于语音和音频的风噪检测和抑制方法和装置 | |
CN108172231A (zh) | 一种基于卡尔曼滤波的去混响方法及*** | |
TW201142829A (en) | Adaptive noise reduction using level cues | |
JP2011530091A (ja) | 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法 | |
JP2011033717A (ja) | 雑音抑圧装置 | |
WO2019205796A1 (zh) | 减少频域处理量的方法、装置及设备 | |
CN113129918A (zh) | 联合波束形成和深度复数U-Net网络的语音去混响方法 | |
WO2022256577A1 (en) | A method of speech enhancement and a mobile computing device implementing the method | |
EP2823584A2 (en) | Voice signal enhancement | |
JP5443547B2 (ja) | 信号処理装置 | |
Alam et al. | Robust feature extraction for speech recognition by enhancing auditory spectrum | |
JP3916834B2 (ja) | 雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法 | |
Jiang et al. | Speech noise reduction algorithm in digital hearing aids based on an improved sub-band SNR estimation | |
Maganti et al. | A perceptual masking approach for noise robust speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110914 Termination date: 20180708 |