CN109410976A - 双耳助听器中基于双耳声源定位和深度学习的语音增强方法 - Google Patents
双耳助听器中基于双耳声源定位和深度学习的语音增强方法 Download PDFInfo
- Publication number
- CN109410976A CN109410976A CN201811292475.7A CN201811292475A CN109410976A CN 109410976 A CN109410976 A CN 109410976A CN 201811292475 A CN201811292475 A CN 201811292475A CN 109410976 A CN109410976 A CN 109410976A
- Authority
- CN
- China
- Prior art keywords
- voice
- ears
- quadrant
- deep learning
- target voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 30
- 210000005069 ears Anatomy 0.000 claims abstract description 44
- 206010011878 Deafness Diseases 0.000 claims abstract description 25
- 230000002708 enhancing effect Effects 0.000 claims abstract description 20
- 238000013528 artificial neural network Methods 0.000 claims abstract description 17
- 238000001914 filtration Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 239000000203 mixture Substances 0.000 claims abstract description 7
- 238000004458 analytical method Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 12
- 238000009432 framing Methods 0.000 claims description 10
- 230000000873 masking effect Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 210000005036 nerve Anatomy 0.000 claims description 4
- 238000005314 correlation function Methods 0.000 claims description 3
- 238000002156 mixing Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 238000000354 decomposition reaction Methods 0.000 claims description 2
- 230000001537 neural effect Effects 0.000 claims description 2
- 210000000860 cochlear nerve Anatomy 0.000 claims 2
- 230000007423 decrease Effects 0.000 claims 1
- 238000003786 synthesis reaction Methods 0.000 claims 1
- 230000004888 barrier function Effects 0.000 abstract description 14
- 238000013136 deep learning model Methods 0.000 abstract description 6
- 238000012545 processing Methods 0.000 abstract description 4
- 230000001934 delay Effects 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 239000004568 cement Substances 0.000 description 4
- 230000004807 localization Effects 0.000 description 3
- 210000003477 cochlea Anatomy 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 210000004218 nerve net Anatomy 0.000 description 2
- 230000003014 reinforcing effect Effects 0.000 description 2
- 208000017667 Chronic Disease Diseases 0.000 description 1
- 206010048865 Hypoacusis Diseases 0.000 description 1
- 241000282373 Panthera pardus Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000007711 solidification Methods 0.000 description 1
- 230000008023 solidification Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Circuit For Audible Band Transducer (AREA)
- Filters That Use Time-Delay Elements (AREA)
Abstract
双耳数字助听器中基于双耳声源定位和深度学习的语音增强方法,属于语音信号处理领域。首先使用两级的深度神经网络对目标语音给予精确的定位,j结合空间滤波去除与目标语音方向不同的噪声。使用搭建的延时控制双向长短时记忆深度神经网络与分类器相结合的深度学习模型,以提取的多分辨率听觉倒谱系数为特征输入,经过深度学习的非线性处理能力,将每个含噪语音的时频单元分类为语音时频单元或噪声的时频单元,最后利用语音波形合成算法去除与目标语音相同方向的噪声。该算法不仅去除与目标语音不同方向上的噪声也去除与目标语音方向相同的噪声,最终获得满足耳障者的言可懂度和舒适度的增强语音。所有的深度学习模型都采用线下训练,满足实时性。
Description
技术领域
本发明属于语音信号处理技术领域,涉及到数字助听器中目标语音定位和语音增强两个关键的语音信号处理技术。
背景技术
听力障碍是一种严重影响人类生活质量的慢性疾病。在美国65 岁以上老年人的听力损失发病率约为30%~40%,加拿大为20%,欧洲为35%,我国35%。且随着年龄的增加,发病率急剧增长。目前全世界60岁以上老年人口总数达6亿,其中我国占近30%,而且我国只有22.28%的老龄人群的听阈在正常范围。助听器的发展为这些听障患者带来了福音。助听器是一种将声音放大,以补充损失的听力的装置,是目前解决听力障碍患者交流困难的重要手段。近年来,随着数字技术的采用,实现了助听器技术的飞速发展。数字助听器的出现相对传统助听器,大大提高了其可控性,可以灵活划分频段,进行多频段调节声音的强度。此外,数字助听器的灵活性更高,先进算法的应用使其能够摆脱对固化模拟电路的依赖,可灵活调整和更新算法,满足患者的需求。数字助听器的小型化、互动化、智能化和跨行化,也使患者对助听器的接受程度大幅提高。
但是即使在市场充满了各种助听器的今天,中国听力障碍人士助听器佩戴率为1%,因为在噪声环境下,助听器的性能急剧下降,让耳障者无法听清楚声音的同时感觉更加不舒服。尤其是在鸡尾酒会问题下,耳障者根本无法辨识出自己想要的声音,严重影响耳障者的生活质量。据调查可知,在数字助听器技术非常发达的美国,70%的助听器使用者对其在噪声环境下的性能并不满意,且95%的助听器使用者希望在噪声环境下的言语可懂度和舒适度能够提高。
语音增强既是提高数字助听器在噪声环境下的性能的关键技术,数字助听器中的语音增强模块是对采集到的原始数字信号进行处理,目的是消除背景噪声,改善语音质量,使患者易于接受,降低听者的疲劳感(主观度量),同时提高患者语音的可懂度(客观度量),并增强后续处理过程对输入噪声的鲁棒性。
目前,数字助听器中常采用的语音增强算法如:谱减法、多通道自适应降噪法、同步检测降噪算法、谐波增强算法、维纳滤波器法、短时谱幅度的MMSE估计、基于听觉掩蔽的方法以及双耳噪声抑制等。以上各种方法在各种单耳助听器中已得到应用,在一定程度上提高了耳障者的言语可懂度和舒适度。但是对耳障者而言,现有的语音增强方法不能达到满意的效果,因为现有的方法都有其自己的缺陷,但是噪声却是***的,有的方法只能部分去除与目标语音不同方向的噪声,有的方法在去除噪声的同时带来新的噪声,有的方法在去除噪声的同时对语音造成不可恢复的损伤。现有方法的缺陷导致在我国只有不到1%的耳障者佩戴助听器,使生活质量严重下降。为此去除噪声对数字助听器性能的影响,提高耳障者配戴助听器的言语可懂度和舒适度,减轻耳障者的痛苦,是数字助听器发展的趋势。
近年来,深度学***稳噪声的语音进行增强。常用的基于深度学习的语音增强算法有:(1)利用深度神经网络估计出含噪语音信号中的干净语音信号。(2)利用深度神经网络估计出干净语音和噪声之间的时频掩模。(3)利用深度神经网络分别估计出干净语音信号和噪声信号。(4)利用深度神经网络对噪声进行分类,然后再针对性的训练出相对应的语音增强模型。但是以上这些基于深度学习的语音增强算法中,要么直接用采集到的全部数据作为深度学习的输入,但该方法这种方法的复杂度很高,不满足数字助听器实时性的要求,要么提取采集数据的特征参数作为深度学习的输入,但目前这种方法中提取的特征参数不能很好地描述语音和噪声的特性差异,无法提高耳障者的言语可懂度和舒适度。但是深度神经网络的自主学习能力又是其它方法无法比拟的。
因此,一种基于深度学习能力的可满足耳障者对噪声环境下对言语可懂度和舒适度的语音增强算法是所必须的。
本发明提出一种基于双耳声源定位和深度学习的语音增强算法,首先使用两级的深度神经网络对目标语音给予定位,利用空间滤波去除与目标语音方向不同的噪声。接着使用搭建的LC-BLSTM-DNN与分类器相结合的深度学习模型,以提取的多分辨率听觉倒谱系数为特征输入,经过深度学习的非线性处理能力,将每个含噪语音的时频单元分类为语音时频单元或噪声的时频单元,最后利用语音波形合成算法去除与目标语音相同方向的噪声,获得最终的增强语音。所有的深度学习模型都采用线下训练,利用训练完成的模型,可以满足数字助听器的实时性。
发明内容
本发明采用的技术方案是:首先利用深度学习强大的数据驱动能力,构建两级深度学习网络,模拟双耳特征和相应方位角之间的统计关系,以获得目标语音的空间信息,然后结合空间滤波,去除来自与目标语音不同方向上的噪声。其次构建合理的深度学习模型从表征语音和噪声差异的初级特征参数中学习出能直接用于噪声和语音分类的特征并分类,去除来自与目标语音相同方向的噪声,最终实现空间含噪语音的增强。过程的具体步骤如下:
步骤一,对数字助听器的输入信号采用能够模拟人耳听觉***中的基底膜和听觉神经的工作机理的Gammatone滤波器进行时频分析。
步骤二,对经过Gammatone滤波器滤波生成的频域信号提取双耳时间差和双耳声级差两个双耳空间线索,由于不同方向语音的这两个特征之间有着差异,因此可以作为定位的有效特征。且这两种特征之间具有互相补充的关系,即双耳时间差在低频定位效果较好,双耳声级差在高频有较好的定位效果。
步骤三,以双耳连线为x轴,双耳连线的中垂线为y轴,将含噪语音可能的方位角划分为四个象限。即右前为第一象限、左前为第二象限、左后为第三象限以及右后为第四象限。然后构建第一级深度学习网络,以含噪语音的双耳时间差和双耳声级差作为特征输入,输出为目标语音位置所在的象限,用于解决目标语音定位的前后混淆问题。
步骤四,为每个象限构建第二级深度学习网络,结合步骤三中判断出的目标语音的方位角所属的象限选取用于方位角度定位的第二级深度学习网络。并以归一化互相关函数和双耳声级差作为第二级深度学习网络的输入,最终输出目标语音的方向。
步骤五,利用现有空间滤波算法,依据步骤四获得目标语音的方位角以匹配相应方向上的头相关传输函数,将目标语音从混合语音中解混出来。去除与目标声源不同方向上的噪声,获得与目标语音相同方向的初步增强语音。
步骤六,对步骤五获得的初步增强语音进行时频分析,即将初步增强的语音使用步骤一中相同Gammatone滤波器进行频域分析,以获得初步增强语音的频域表示。
步骤七,对步骤六获得的频谱信号提取多分辨率听觉倒谱系数。
步骤八,构建从步骤七中提取可直接用于分类器分类的特征的深度神经网络模型,以步骤七中提取的多分辨率听觉倒谱系数作为特征输入,输出为从多分辨率听觉倒谱系数中学习的直接用于分类的的语音特征,用于区分语音和噪声。
步骤九,构建特征分类器,以步骤八中获得的的特征参数,输出代表理想二值掩蔽的值。即获得包含语音信息的单元,最后利用语音波形合成算法去除与目标语音相同方向的噪声,得到最终的增强语音,即数字助听器的输出信号。
有益效果
本发明针对现有数字助听器中的语音增强算法对非平稳噪声处理能力差,在噪声环境下无法满足耳障者的言可懂度和舒适度等问题,提出了一种结合双耳声源定位和深度学习的高性能的语音增强算法。本发明的优点在于:首先,利用双耳声源定位与空间滤波相结合,去除与目标声源方向不同的噪声。这使本发明适用于去除与目标语音不同方向的噪声。其次,在双耳声源定位中,采取两级深度学习的方位角定位算法,更好的解决传统算法不能解决的声源方向前后混淆的错误。最后,提取的能准确表征语音和噪声差异的新特征参数结合构建的特征提取并分类的深度学习模型,去除与目标语音相同方向的噪声。最终获得满足耳障者的言可懂度和舒适度的增强语音。所有模型均采用线下训练,可以保证助听器的实时性好,功耗低。
附图说明
图1本发明的实现流程图
图2双耳声源定位流程图
图3提取语音特征的深度神经网络模型图
图4特征分类器结构图
图5深度神经网络训练流程图
具体实施方式
步骤一,对数字助听器的输入信号采用能够模拟人耳听觉***中的基底膜和听觉神经的工作机理的Gammatone滤波器进行时频分析。
(1)数字助听器的输入信号xl(k)、xr(k),经过Gammatone滤波器
把信号频带分为64个频带,得到分解信号xf,l(k)、xf,r(k)。其中,m为滤波器阶数,为滤波器初始相位,U(t)为单位阶跃函数,,B是带宽。f为频带的索引范围取1到64,fc为滤波器的中心频率,范围取50Hz到8kHz,l、r为左右耳标识,k为样点数。
(2)利用哈明窗对得到的分解信号xf,l(k)、xf,r(k)进行分帧加窗,根据语音信号的短时平稳特性,16kHz采样率的语音信号取 20ms(320点)为一帧的长度,帧移长度为10ms(160点),哈明窗函数定义如式(1),分帧、加窗定义如式(2)、(3)所示。
式中,w(n)是哈明窗函数,n为每帧的样点数,L为窗长。
xft,l(n)=x′ft,l(n)×w(n) 0≤n≤L-1 (2)
xft,r(n)=x′ft,r(n)×w(n) 0≤n≤L-1 (3)
式中,n为每帧的样点数,xft,l(n)、xft,r(n)是分帧、加窗后的时频单元,x′ft,l(n)、x′ft,r(n)是分帧、加窗前的时频单元,w(n)是哈明窗函数,t为帧索引,f为频带的索引。
步骤二,对经过Gammatone滤波器滤波生成的频域信号提取双耳时间差和双耳声级差两个双耳空间线索,由于不同方向语音的这两个特征之间有着差异,因此可以作为定位的有效特征。且这两种特征之间具有互相补充的关系,即双耳时间差在低频定位效果较好,双耳声级差在高频有较好的定位效果。
对由Gammatone滤波器进行视频分解的信号提取双耳时间差(式 (4))、归一化互相关函数(式(5))和双耳声级差(式(6))两个双耳线索特征。作为描述语音信号方位角的信息:
其中,
其中,i为帧内样点数的索引,τ为延时,范围取-1ms到1ms,在 16kHz采样率下可得33维的CCF。t为帧索引,f为频带的索引。
步骤三,以双耳连线为x轴,双耳连线的中垂线为y轴,将含噪语音可能的方位角划分为四个象限。即右前为第一象限、左前为第二象限、左后为第三象限以及右后为第四象限。然后构建第一级深度学习网络,以含噪语音的双耳时间差和双耳声级差作为特征输入,输出为含噪语音位置所在的象限,用于解决目标语音定位的前后混淆问题。
(1)以双耳连线为x轴,双耳连线的中垂线为y轴,将含噪语音可能所属的方位角划分为四个象限,标记为右前为第一象限、左前为第二象限、左后为第三象限以及右后为第四象限。
(2)搭建第一级深度置信网络,4层隐藏层的激活函数全部采用 sigmoid函数,输出层采用purelin激活函数,以已知方位角的含噪语音的ITD、ILD特征为输入,方位角所属的象限为标签,训练网络至均方误差不再变化为止,如图5所示。
(3)将助听器所接收的含噪语音进行时频分析后提取的ITD、 ILD作为完成训练的第一级深度学习网络的输入,输出为目标语音方位角所属的象限。
步骤四,为每个象限构建第二级深度学习网络,结合步骤三中判断出的目标语音的方位角所属的象限选取方位角度定位使用的第二级深度学习网络。并以归一化互相关函数和双耳声级差作为第二级深度学习网络的输入,最终输出目标语音的方向。
(1)搭建4个具有四层隐藏层的深度神经网络分别对应每个象限,每个每层具有128个神经单元,输出层为一个单元,层与层之间采用sigmoid函数作为激活函数。以已知方位角的含噪语音提取的CCF、ILD所示作为输入,真实方位角作为标签训练网络直至均方误差不再下降,如图5所示。
(2)根据第一级深度神经网络的输出,选择相应的第二级深度学习网络C。将含噪语音的CCF、ILD作为神经网络C的输入,则该神经输出的结果便是估计的目标语音方位角。
步骤五,利用现有的空间滤波算法,依据步骤四获得目标语音的方位角以匹配相应方向上的头相关传输函数,将目标语音从混合语音中解混出来。去除与目标声源不同方向上的噪声(如式(7)所示的解卷积过程),获得与目标语音相同方向的初步增强语音sl(k)、sr(k)。
其中,h(k)是目标语音方向上的头相关传输函数,xE(k)为助听器接收信号。E∈{l,r}代表左右耳索引,k为样点数,a为解卷积时延,取0到k-1。
完整的声源定位流程图如图2所示。
步骤六,对sl(k)、sr(k)进行时频分析,即将初步增强的语音使用步骤一中相同Gammatone滤波器进行频域分析,以获得初步增强语音的频域表示sf,l(k)、sf,r(k)。
步骤七,对步骤六获得的频谱信号提取多分辨率听觉倒谱系数。
(1)通过设置不同的帧长nt,对sf,l(k)、sf,r(k)进行分帧加窗,得到语音信号的时频单元表示sft,l(nt)、sft,r(nt),不同帧长的时频单元即关注细节的高分辨率特征,又把握全局性的低分辨率特征。
(2)计算每个时频单元的能量(耳蜗图)其中,E∈{l,r}代表左右耳索引,i为帧内样点数的索引。
(3)对每个时频单元的能量应用立方根压缩,C_GE(t,f)= (CGE(t,f))1/3。这不仅可以对多分辨率耳蜗图特征进行压缩,它不仅更能表征语音和噪声之间的差异,而且计算简单。
(4)最后采用离散余弦变换(DCT)对C_GE(t,f)进行去相关操作得到多分辨率听觉倒谱系数。如式(8)所示:
上式为对C_GE(t,f)取DCT的过程,其中,M为Gammatone 滤波器通道数,本算法取M=64。d代表保留C_GE(t,d)的前 d维系数,测试表明当d大于36时,FE(t,d)的值极小,也表示FE(t,d)的信息几乎都包含在前36维中。
步骤八,构建从步骤七中提取可直接用于分类器分类的特征的深度神经网络模型,以步骤七中提取的多分辨率听觉倒谱系数作为特征输入,输出为从多分辨率听觉倒谱系数中学习的直接用于分类的语音特征,用于区分语音和噪声。
搭建一个由3层的LC-BSLTM和2层的DNN全连接层构成。如图 3所示,其中LC-BSLTM为延迟控制-双向长短时记忆网络,它是LSTM 网络的一种变形,它将典型的LSTM网络中的单向网络改为双向网络,其沿时间轴存在正向和反向两个信息传递过程,可以更好地利用上下文信息。
步骤九,构建特征分类器,以步骤八中获得的可直接用于分类器分类的特征参数作为输入,输出代表理想二值掩蔽的值。即获得包含语音信息的单元,最后利用语音波形合成算法去除与目标语音相同方向的噪声,得到最终的增强语音,即数字助听器的输出信号。
采用一个softmax层添加在LC-BLSTM-DNN网络的输出层后构成分类器如图4所示。即LC-BLSTM-DNN网络的输出层作为特征分类器的输入,输出为可区分噪声和语音的二值掩蔽。
结合步骤八和步骤九,可形成一个完整的区分语音和噪声的深度神经网络。它以已知纯净语音和噪声形成的含噪语音的多分辨率听觉倒谱系数FE(t,f)为特征输入,以已知噪声和纯净语音计算出的二值掩蔽为标签,使用通过时间展开的误差反向传播算法训练。并结合 dropout算法抑制过拟合,训练流程图如图5所示。二值掩蔽的具体计算过程如式(9)所示。对于每一个时频单元,如果局部信噪比 SNR(t,f)大于某一阈值(LocalCriterion,LC),这里我们为了更好保证的语音质量,将LC设置为5dB,则将相对应的时频单元的掩蔽值设置为1,否则设置为0。
测试时,使用步骤七中最后提取的多分辨率听觉倒谱系数 FE(t,f)为特征输入,最终输出可分辨噪声和语音的二值掩蔽,这些二值掩蔽中包含着语音信号的时频单元的所属信息,最后利用语音波形合成算法去除与目标语音相同方向的噪声,从而获得最终的增强语音。采用语音质量感知评估值(PESQ)作为评估标准对增强语音进行客观性能测试,对比算法为采用其他特征且未使用声源定位去除与声源方向不同噪声,噪声都使用来自于NoiseX-92数据库中的15中噪声,分别为:white、babble、pink、f16、volvo、factory1、factory2、 m109、machinegun、leopard等.其他数据也均相同,表1列出几种噪声和信噪比下的增强效果,通过对比可以看出本发明对语音增强在各种噪声下的效果比对比算法要平均要高出0.25。
综上,完整的语音增强算法流程图如图1所示。首先双耳声源信息输入声源定位模块,确定目标声源的空间信息,然后利用空间滤波去除与目标语音不同方向的噪声,接着把分离出了不同方向噪声但包含有与目标语音相同方向噪声的含噪语音输入深度学习模块提取可直接用于分类器分类特征,分类器依据这些特征对输入信号进行分类,识别出包含语音信息的单元,最后利用语音波形合成算法去除与目标语音相同方向的噪声,获得最终的增强语音。
表1最终增强效果
Claims (2)
1.双耳助听器中基于双耳声源定位和深度学习的语音增强方法,其特征在于,具体步骤如下:
步骤一,对数字助听器的输入信号采用能够模拟人耳听觉***中的基底膜和听觉神经的工作机理的Gammatone滤波器进行时频分析;
步骤二,对经过Gammatone滤波器滤波生成的频域信号提取双耳时间差和双耳声级差两个双耳空间线索,通过这两个特征判断目标语音的坐标象限和方位角;
步骤三,以双耳连线为x轴,双耳连线的中垂线为y轴,将含噪语音可能的方位角划分为四个象限;即右前为第一象限、左前为第二象限、左后为第三象限以及右后为第四象限;然后构建第一级深度学习网络,以含噪语音的双耳时间差和双耳声级差作为特征输入,输出为目标语音位置所在的象限,用于解决目标语音定位的前后混淆问题;
步骤四,为每个象限构建第二级深度学习网络,结合步骤三中判断出的目标语音的方位角所属的象限选取用于定位的第二级深度学习网络;并以归一化互相关函数和双耳声级差作为第二级深度学习网络的输入,最终输出目标语音的方向;
步骤五,利用空间滤波,依据步骤四获得目标语音的空间信息去除与目标声源不同方向上的噪声,获得与目标语音相同方向的初步增强语音;
步骤六,对步骤五获得的初步增强语音进行时频分析,即将初步增强的语音使用步骤一中相同Gammatone滤波器进行频域分析,以获得初步增强语音的频域表示
步骤七,对步骤六获得的频谱信号提取多分辨率听觉倒谱系数;
步骤八,构建从步骤七中提取直接用于分类器分类的特征的深度神经网络模型,以步骤七中提取的多分辨率听觉倒谱系数作为特征输入,输出为从多分辨率听觉倒谱系数中学习的直接用于分类的语音特征,用于区分语音和噪声;
步骤九,构建特征分类器,以步骤八中获得的特征参数,输出代表理想二值掩蔽的值;即获得包含语音信息的单元,最后利用语音波形合成算法去除与目标语音相同方向的噪声,得到最终的增强语音,即数字助听器的输出信号。
2.根据权利要求1所述的方法,其特征在于:
步骤一,对数字助听器的输入信号采用能够模拟人耳听觉***中的基底膜和听觉神经的工作机理的Gammatone滤波器进行时频分析;
(1)数字助听器的输入信号xl(k)、xr(k),经过Gammatone滤波器
把信号频带分为64个频带,得到分解信号xf,l(k)、xf,r(k);其中,m为滤波器阶数,为滤波器初始相位,U(t)为单位阶跃函数,,B是带宽;f为频带的索引范围取1到64,fc为滤波器的中心频率,范围取50Hz到8kHz,l、r为左右耳标识,k为样点数;
(2)利用哈明窗对得到的分解信号xf,l(k)、xf,r(k)进行分帧加窗,根据语音信号的短时平稳特性,16kHz采样率的语音信号取20ms(320点)为一帧的长度,帧移长度为10ms(160点),哈明窗函数定义如式(1),分帧、加窗定义如式(2)、(3)所示;
式中,w(n)是哈明窗函数,n为每帧的样点数,L为窗长;
xft,l(n)=x′ft,l(n)×w(n)0≤n≤L-1 (2)
xft,r(n)=x′ft,r(n)×w(n)0≤n≤L-1 (3)
式中,n为每帧的样点数,xft,l(n)、xft,r(n)是分帧、加窗后的时频单元,x′ft,l(n)、x′ft,r(n)是分帧、加窗前的时频单元,w(n)是哈明窗函数,t为帧索引,f为频带的索引;
步骤二,对经过Gammatone滤波器滤波生成的频域信号提取双耳时间差和双耳声级差两个双耳空间线索;
对由Gammatone滤波器进行视频分解的信号提取双耳时间差(式(4))、归一化互相关函数(式(5))和双耳声级差(式(6))两个双耳线索特征;作为描述语音信号方位角的信息:
其中,
其中,i为帧内样点数的索引,T为延时,范围取-1ms到1ms,在16kHz采样率下得33维的CCF;t为帧索引,f为频带的索引;
步骤三,以双耳连线为x轴,双耳连线的中垂线为y轴,将含噪语音可能的方位角划分为四个象限;即右前为第一象限、左前为第二象限、左后为第三象限以及右后为第四象限;然后构建第一级深度学习网络,以含噪语音的双耳时间差和双耳声级差作为特征输入,输出为含噪语音位置所在的象限,用于解决目标语音定位的前后混淆问题;
(1)以双耳连线为x轴,双耳连线的中垂线为y轴,将含噪语音可能所属的方位角划分为四个象限,标记为右前为第一象限、左前为第二象限、左后为第三象限以及右后为第四象限;
(2)搭建第一级深度置信网络,4层隐藏层的激活函数全部采用sigmoid函数,输出层采用purelin激活函数,以已知方位角的含噪语音的ITD、ILD特征为输入,方位角所属的象限为标签,训练网络至均方误差不再变化为止;
(3)将助听器所接收的含噪语音进行时频分析后提取的ITD、ILD作为完成训练的第一级深度学习网络的输入,输出为目标语音方位角所属的象限;
步骤四,为每个象限构建第二级深度学习网络,结合步骤三中判断出的目标语音的方位角所属的象限选取方位角度定位使用的第二级深度学习网络;并以归一化互相关函数和双耳声级差作为第二级深度学习网络的输入,最终输出目标语音的方向;
(1)搭建4个具有四层隐藏层的深度神经网络分别对应每个象限,每个每层具有128个神经单元,输出层为一个单元,层与层之间采用sigmoid函数作为激活函数;以已知方位角的含噪语音提取的CCF、ILD所示作为输入,真实方位角作为标签训练网络直至均方误差不再下降,如图5所示;
(2)根据第一级深度神经网络的输出,选择相应的第二级深度学习网络C;将含噪语音的CCF、ILD作为神经网络C的输入,则该神经输出的结果便是估计的目标语音方位角;
步骤五,利用现有的空间滤波算法,依据步骤四获得目标语音的方位角以匹配相应方向上的头相关传输函数,将目标语音从混合语音中解混出来;去除与目标声源不同方向上的噪声(如式(7)所示的解卷积过程),获得与目标语音相同方向的初步增强语音sl(k)、sr(k);
其中,h(k)是目标语音方向上的头相关传输函数,xE(k)为助听器接收信号;E∈{l,r}代表左右耳索引,k为样点数,a为解卷积时延,取0到k-1;
步骤六,对sl(k)、sr(k)进行时频分析,即将初步增强的语音使用步骤一中相同Gammatone滤波器进行频域分析,以获得初步增强语音的频域表示sf,l(k)、sf,r(k);
步骤七,对步骤六获得的频谱信号提取多分辨率听觉倒谱系数;
(1)通过设置不同的帧长nt,对sf,l(k)、sf,r(k)进行分帧加窗,得到语音信号的时频单元表示sft,l(nt)、sft,r(nt),不同帧长的时频单元即关注细节的高分辨率特征,又把握全局件的低分辨率特征;
(2)计算每个时频单元的能量其中,E∈{l,r}代表左右耳索引,i为帧内样点数的索引;
(3)对每个时频单元的能量应用立方根压缩,C_GE(t,f)=(CGE(t,f))1/3;
(4)最后采用离散余弦变换(DCT)对C_GE(t,f)进行去相关操作得到多分辨率听觉倒谱系数;如式(8)所示:
上式为对C-GE(t,f)取DCT的过程,其中,M为Gammatone滤波器通道数,取M=64;d代表保留C-GE(t,d)的前d维系数,测试表明当d大于36时,FE(t,d)的值极小,也表示FE(t,d)的信息几乎都包含在前36维中;
步骤八,构建从步骤七中提取直接用于分类器分类的特征的深度神经网络模型,以步骤七中提取的多分辨率听觉倒谱系数作为特征输入,输出为从多分辨率听觉倒谱系数中学习的直接用于分类的语音特征,用于区分语音和噪声;
搭建一个由3层的LC-BSLTM和2层的DNN全连接层构成;其中LC-BSLTM为延迟控制-双向长短时记忆网络;
步骤九,构建特征分类器,以步骤八中获得的可直接用于分类器分类的特征参数作为输入,输出代表理想二值掩蔽的值;即获得包含语音信息的单元,最后利用语音波形合成算法去除与目标语音相同方向的噪声,得到最终的增强语音,即数字助听器的输出信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811292475.7A CN109410976B (zh) | 2018-11-01 | 2018-11-01 | 双耳助听器中基于双耳声源定位和深度学习的语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811292475.7A CN109410976B (zh) | 2018-11-01 | 2018-11-01 | 双耳助听器中基于双耳声源定位和深度学习的语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109410976A true CN109410976A (zh) | 2019-03-01 |
CN109410976B CN109410976B (zh) | 2022-12-16 |
Family
ID=65471037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811292475.7A Active CN109410976B (zh) | 2018-11-01 | 2018-11-01 | 双耳助听器中基于双耳声源定位和深度学习的语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109410976B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110010150A (zh) * | 2019-04-15 | 2019-07-12 | 吉林大学 | 基于多分辨率的听觉感知语音特征参数提取方法 |
CN110136737A (zh) * | 2019-06-18 | 2019-08-16 | 北京拙河科技有限公司 | 一种语音降噪方法及装置 |
CN110415702A (zh) * | 2019-07-04 | 2019-11-05 | 北京搜狗科技发展有限公司 | 训练方法和装置、转换方法和装置 |
CN110517705A (zh) * | 2019-08-29 | 2019-11-29 | 北京大学深圳研究生院 | 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和*** |
CN110728970A (zh) * | 2019-09-29 | 2020-01-24 | 华声设计研究院(深圳)有限公司 | 一种数字辅助隔音处理的方法及装置 |
CN111354353A (zh) * | 2020-03-09 | 2020-06-30 | 联想(北京)有限公司 | 一种语音数据处理方法及装置 |
CN111429930A (zh) * | 2020-03-16 | 2020-07-17 | 云知声智能科技股份有限公司 | 一种基于自适应采样率的降噪模型处理方法及*** |
WO2020177371A1 (zh) * | 2019-03-06 | 2020-09-10 | 哈尔滨工业大学(深圳) | 一种用于数字助听器的环境自适应神经网络降噪方法、***及存储介质 |
CN111916101A (zh) * | 2020-08-06 | 2020-11-10 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及*** |
CN112735456A (zh) * | 2020-11-23 | 2021-04-30 | 西安邮电大学 | 一种基于dnn-clstm网络的语音增强方法 |
CN113739905A (zh) * | 2020-05-27 | 2021-12-03 | 现代摩比斯株式会社 | 用于定位转向***中发生的噪声的装置及方法 |
CN113794963A (zh) * | 2021-09-14 | 2021-12-14 | 深圳大学 | 一种基于低成本可穿戴传感器的语音增强*** |
CN113812173A (zh) * | 2019-05-09 | 2021-12-17 | 索诺瓦有限公司 | 处理音频信号的听力装置***及方法 |
TWI818493B (zh) * | 2021-04-01 | 2023-10-11 | 大陸商深圳市韶音科技有限公司 | 語音增強方法、系統和裝置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778920A (zh) * | 2014-02-12 | 2014-05-07 | 北京工业大学 | 数字助听器中语音增强和频响补偿相融合方法 |
CN105741849A (zh) * | 2016-03-06 | 2016-07-06 | 北京工业大学 | 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 |
US20170061978A1 (en) * | 2014-11-07 | 2017-03-02 | Shannon Campbell | Real-time method for implementing deep neural network based speech separation |
CN106782565A (zh) * | 2016-11-29 | 2017-05-31 | 重庆重智机器人研究院有限公司 | 一种声纹特征识别方法及*** |
EP3203472A1 (en) * | 2016-02-08 | 2017-08-09 | Oticon A/s | A monaural speech intelligibility predictor unit |
CN107479030A (zh) * | 2017-07-14 | 2017-12-15 | 重庆邮电大学 | 基于分频和改进的广义互相关双耳时延估计方法 |
CN107845389A (zh) * | 2017-12-21 | 2018-03-27 | 北京工业大学 | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 |
CN108091345A (zh) * | 2017-12-27 | 2018-05-29 | 东南大学 | 一种基于支持向量机的双耳语音分离方法 |
CN108122559A (zh) * | 2017-12-21 | 2018-06-05 | 北京工业大学 | 一种数字助听器中基于深度学习的双耳声源定位方法 |
-
2018
- 2018-11-01 CN CN201811292475.7A patent/CN109410976B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778920A (zh) * | 2014-02-12 | 2014-05-07 | 北京工业大学 | 数字助听器中语音增强和频响补偿相融合方法 |
US20170061978A1 (en) * | 2014-11-07 | 2017-03-02 | Shannon Campbell | Real-time method for implementing deep neural network based speech separation |
EP3203472A1 (en) * | 2016-02-08 | 2017-08-09 | Oticon A/s | A monaural speech intelligibility predictor unit |
CN105741849A (zh) * | 2016-03-06 | 2016-07-06 | 北京工业大学 | 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 |
CN106782565A (zh) * | 2016-11-29 | 2017-05-31 | 重庆重智机器人研究院有限公司 | 一种声纹特征识别方法及*** |
CN107479030A (zh) * | 2017-07-14 | 2017-12-15 | 重庆邮电大学 | 基于分频和改进的广义互相关双耳时延估计方法 |
CN107845389A (zh) * | 2017-12-21 | 2018-03-27 | 北京工业大学 | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 |
CN108122559A (zh) * | 2017-12-21 | 2018-06-05 | 北京工业大学 | 一种数字助听器中基于深度学习的双耳声源定位方法 |
CN108091345A (zh) * | 2017-12-27 | 2018-05-29 | 东南大学 | 一种基于支持向量机的双耳语音分离方法 |
Non-Patent Citations (2)
Title |
---|
李如玮等: "基于Gammatone滤波器分解的HRTF和GMM的双耳声源定位算法", 《北京工业大学学报》 * |
李如玮等: "数字助听器中基于两步降噪的多通道频响补偿算法", 《北京生物医学工程》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020177371A1 (zh) * | 2019-03-06 | 2020-09-10 | 哈尔滨工业大学(深圳) | 一种用于数字助听器的环境自适应神经网络降噪方法、***及存储介质 |
CN110010150A (zh) * | 2019-04-15 | 2019-07-12 | 吉林大学 | 基于多分辨率的听觉感知语音特征参数提取方法 |
CN113812173A (zh) * | 2019-05-09 | 2021-12-17 | 索诺瓦有限公司 | 处理音频信号的听力装置***及方法 |
CN110136737A (zh) * | 2019-06-18 | 2019-08-16 | 北京拙河科技有限公司 | 一种语音降噪方法及装置 |
CN110415702A (zh) * | 2019-07-04 | 2019-11-05 | 北京搜狗科技发展有限公司 | 训练方法和装置、转换方法和装置 |
CN110517705A (zh) * | 2019-08-29 | 2019-11-29 | 北京大学深圳研究生院 | 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和*** |
CN110517705B (zh) * | 2019-08-29 | 2022-02-18 | 北京大学深圳研究生院 | 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和*** |
CN110728970A (zh) * | 2019-09-29 | 2020-01-24 | 华声设计研究院(深圳)有限公司 | 一种数字辅助隔音处理的方法及装置 |
CN110728970B (zh) * | 2019-09-29 | 2022-02-25 | 东莞市中光通信科技有限公司 | 一种数字辅助隔音处理的方法及装置 |
CN111354353A (zh) * | 2020-03-09 | 2020-06-30 | 联想(北京)有限公司 | 一种语音数据处理方法及装置 |
CN111354353B (zh) * | 2020-03-09 | 2023-09-19 | 联想(北京)有限公司 | 一种语音数据处理方法及装置 |
CN111429930A (zh) * | 2020-03-16 | 2020-07-17 | 云知声智能科技股份有限公司 | 一种基于自适应采样率的降噪模型处理方法及*** |
CN111429930B (zh) * | 2020-03-16 | 2023-02-28 | 云知声智能科技股份有限公司 | 一种基于自适应采样率的降噪模型处理方法及*** |
CN113739905A (zh) * | 2020-05-27 | 2021-12-03 | 现代摩比斯株式会社 | 用于定位转向***中发生的噪声的装置及方法 |
US11945521B2 (en) | 2020-05-27 | 2024-04-02 | Hyundai Mobis Co., Ltd. | Device for locating noise in steering system |
CN111916101B (zh) * | 2020-08-06 | 2022-01-21 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及*** |
CN111916101A (zh) * | 2020-08-06 | 2020-11-10 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及*** |
CN112735456A (zh) * | 2020-11-23 | 2021-04-30 | 西安邮电大学 | 一种基于dnn-clstm网络的语音增强方法 |
CN112735456B (zh) * | 2020-11-23 | 2024-01-16 | 西安邮电大学 | 一种基于dnn-clstm网络的语音增强方法 |
TWI818493B (zh) * | 2021-04-01 | 2023-10-11 | 大陸商深圳市韶音科技有限公司 | 語音增強方法、系統和裝置 |
CN113794963A (zh) * | 2021-09-14 | 2021-12-14 | 深圳大学 | 一种基于低成本可穿戴传感器的语音增强*** |
CN113794963B (zh) * | 2021-09-14 | 2022-08-05 | 深圳大学 | 一种基于低成本可穿戴传感器的语音增强*** |
Also Published As
Publication number | Publication date |
---|---|
CN109410976B (zh) | 2022-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109410976A (zh) | 双耳助听器中基于双耳声源定位和深度学习的语音增强方法 | |
Zhang et al. | Deep learning based binaural speech separation in reverberant environments | |
CN110970053B (zh) | 一种基于深度聚类的多通道与说话人无关语音分离方法 | |
WO2020177371A1 (zh) | 一种用于数字助听器的环境自适应神经网络降噪方法、***及存储介质 | |
Srinivasan et al. | Binary and ratio time-frequency masks for robust speech recognition | |
CN103901401B (zh) | 一种基于双耳匹配滤波器的双耳声音源定位方法 | |
CN110728989B (zh) | 一种基于长短时记忆网络lstm的双耳语音分离方法 | |
CN105741849A (zh) | 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 | |
CN108962229B (zh) | 一种基于单通道、无监督式的目标说话人语音提取方法 | |
CN110517705A (zh) | 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和*** | |
CN111292762A (zh) | 一种基于深度学习的单通道语音分离方法 | |
CN109271901A (zh) | 一种基于多源信息融合的手语识别方法 | |
CN108597505A (zh) | 语音识别方法、装置及终端设备 | |
CN103021405A (zh) | 基于music和调制谱滤波的语音信号动态特征提取方法 | |
CN108986832A (zh) | 基于语音出现概率和一致性的双耳语音去混响方法和装置 | |
CN104064196B (zh) | 一种基于语音前端噪声消除的提高语音识别准确率的方法 | |
Venkatesan et al. | Binaural classification-based speech segregation and robust speaker recognition system | |
CN110333484A (zh) | 基于环境背景声感知与分析的室内区域级定位方法 | |
Marcinek et al. | N-MTTL SI Model: Non-Intrusive Multi-Task Transfer Learning-Based Speech Intelligibility Prediction Model with Scenery Classification. | |
CN105609099A (zh) | 基于人耳听觉特性的语音识别预处理方法 | |
Patil et al. | Marathi speech intelligibility enhancement using I-AMS based neuro-fuzzy classifier approach for hearing aid users | |
KR20090116055A (ko) | 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법 및 이를수행하는 장치 | |
CN111091847A (zh) | 基于并改进的深度聚类语音分离方法 | |
CN114613384B (zh) | 一种基于深度学习多输入语音信号波束形成信息互补方法 | |
Xu et al. | Learning to separate voices by spatial regions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |