CN106875938B - 一种改进的非线性自适应语音端点检测方法 - Google Patents

一种改进的非线性自适应语音端点检测方法 Download PDF

Info

Publication number
CN106875938B
CN106875938B CN201710139880.4A CN201710139880A CN106875938B CN 106875938 B CN106875938 B CN 106875938B CN 201710139880 A CN201710139880 A CN 201710139880A CN 106875938 B CN106875938 B CN 106875938B
Authority
CN
China
Prior art keywords
voice
noise
signal
legendre
nonlinear
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710139880.4A
Other languages
English (en)
Other versions
CN106875938A (zh
Inventor
赵益波
蒋祎
靳炜
徐进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Xinshiyun Science and Technology Co.,Ltd.
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN201710139880.4A priority Critical patent/CN106875938B/zh
Publication of CN106875938A publication Critical patent/CN106875938A/zh
Application granted granted Critical
Publication of CN106875938B publication Critical patent/CN106875938B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明提供了一种改进的非线性自适应语音端点检测方法,所述方法包括首先通过麦克风阵收集收集信号以及通过时延估计和时延补偿使输入信号同步,之后通过Legendre非线性滤波器把输入信号拓展为高维度函数,再通过回声消除NLMS算法进行降噪处理,所述回声消除NLMS算法中对迭代步长进行分段处理,再通过谱减法进行语音增强,最后通过能熵对语音端点检测,相较于传统的方法,此方法提高了整体***的自适应性,能够很好地适应不同的语音对话环境,与此同时提高语音端点检测率和稳定性。

Description

一种改进的非线性自适应语音端点检测方法
技术领域
本发明属于电子、通讯、与信息工程领域,尤其涉及阵列信号处理、自适应滤波、语音信号识别与检测邻域,具体的是一种改进的非线性自适应语音端点检测方法。
背景技术
语音是人类相互交流和通信最便捷和高效的方式,如何有效地实现语音信号传输、存储或与机器进行语音人机交互,是语音信号处理领域中的重要研究课题。语音信号端点检测是语音分析、语音合成、语音编码等语音信号处理方式的重要环节。在语音信号检测过程中总会伴有背景噪音,如果信噪比较低,常用的语音端点检测方式在语音信号端点检测时识别率会降低。麦克风阵列自适应滤波与语音端点检测相结合的方式能改善检测效果,该检测方式能够提高语音端点检测端输入信号信噪比,从而提高语音端点识别率。而这种语音端点检测方法使用的一般是线性自适应滤波,要实现高信噪比,滤波算法本身需要较高的样本维度,才能更好地逼近理想值,但是由于实验本身实现的成本和难度,很多都是止步在理论阶段。为克服上述局限性,本发明实现了一种麦克风阵列非线性自适应滤波语音信号端点检测方法。该发明方法在达到同样的去噪效果的情况下使用的麦克风数量要少得多,检测的正确率也得到大幅度提高。
在麦克风阵列技术基础上引入自适应滤波可灵活地控制波束方向,实时跟踪目标语音信号。自适应滤波只需要很少的或根本不需要任何关于信号和噪声统计特性的先验知识,仅根据观测信息就能实时估计信号和噪声的统计特性。在自适应滤波算法中,最小均方算法(LMS)收敛速度慢于递归最小二乘法(RLS),但该算法简单,便于实时实现。本发明使用归一化最小均方算法(NLMS),不仅能实时实现而且收敛速度快。滤波后的语音信号还会伴有一些背景噪声或其它难以去除的噪声,这些噪声可以利用谱减法来进一步去除。谱减法作为一种常用的语音增强方法,具有简单方便,计算量小等优点。通过谱减之后更好的滤除了背景噪音,这也使得能熵比法在低信噪比环境下能更高准确率的定位语音段。
发明内容
针对上述缺点本发明提供了一种改进的非线性自适应语音端点检测方法,方案如下:
一种改进的非线性自适应语音端点检测方法,所述方法包括首先通过麦克风阵收集收集信号以及通过时延估计和时延补偿使输入信号同步,之后通过Legendre非线性滤波器把输入信号拓展为高维度函数,再通过回声消除NLMS算法进行降噪处理,在所述回声消除NLMS算法中对迭代步长进行分段处理,再通过谱减法进行语音增强,最后通过能熵对语音端点检测。进一步所述具体的检测方法如下:
步骤一,对麦克风阵列接收到的带噪语音信号X(n)=A(q)S(n)+N(n)进行时延估计和时延补偿,使各个麦克风通道中的信号在时间上是一致的,对齐后的带噪语音信号X(n)=[x1(n),x2(n)…xd(n)]T,其中,θ为目标信号的来波方向,A(θ)为目标信号的阵列流型,S(n)为目标语音信号,N(n)为方向性干扰噪声或是随机噪声;
步骤二,然后把输入信号通过反正切激活函数tanh(·),使同步后的信号映射为(0,1)范围内的单值函数,这样能满足Legendre非线性滤波器的收敛条件,通过此函数之后的信号为
Z(n)=[z1(n),z2(n)…zd(n)]T=[tanh(x1(n)),tanh(x2(n))…tanh(xd(n))]T
步骤三,利用Legendre非线性滤波器对信号Z(n)进行扩展,输入信号向量Z(n)经Legendre非线性滤波器非线性扩展为
XM(n)=[L0(z1(n)),L0(z2(n))…L0(zd(n))…Li(z1(n)),Li(z2(n))…LM(z1(n))…LM(zd(n))]T
式中Li(x)为第i阶Legendre非线性滤波器;由于L0(x)=1,所有的0阶扩展可合并为一个输入量如下式
XM(n)=[1…Li(z1(n)),Li(z2(n))…LM(z1(n))…LM(zd(n))]T滤波器输出为
Figure BDA0001242469330000021
式中权值矢量定义为B(n)=[b0(n),b11(n)…b1d(n),…bM1(n),…bMd(n)]T
bij(n)对应的是Legendre非线性滤波器Li(zj(n))的权值,i=1,2,…M,j=1,2,…d;
步骤四,采用回声消除NLMS算法对自适应滤波器权值进行更新,该算法中对迭代步长进行分段处理;
Figure BDA0001242469330000031
式中mc是迭代步长,通过这种方式来提高整体算法的收敛速度,在200次迭代之后获得更加好的收敛精度,由此提高整个***的收敛性和稳态失调噪声;由回声消除NLMS算法可导出滤波器权值系数递推公式为
Figure BDA0001242469330000032
式中误差估计e(n)=d(n)-y1(n),其中d(n)为期望信号即纯净人声语音信号,XM(n)为麦克风阵列瞬时接收到的语音信号,g是为了避免
Figure BDA0001242469330000033
过小而设定的参数,通常情况下的取值范围是0和1之间;
步骤五,为了进一步去除可能存在的残余噪声,在输出信号y1(n)后续衔接谱减法进行降噪处理;利用以下方法来估计噪声的功率:
Figure BDA0001242469330000034
其中0<σ<1,K是带噪语音总帧数,得到的每帧纯净语音功率为:
Figure BDA0001242469330000035
其中,α>1,β<<1,在噪声段保留一定的噪声可以取得较好的降噪及抑制纯音噪声的效果,降低“音乐”噪声的产生,改善听觉效果,经过谱减,平滑滤波之后的信号为y2(n);
步骤六,语音信号的时间序列为y2(n),加窗分帧后处理得到第i帧语音信号为y2i(n),帧长为N,语音信号的每一帧能量可以表示为
Figure BDA0001242469330000041
所述能量关系表示为
LEi=log10(1+A MPi/a)
式中A MPi是每一帧的能量,a是一个常数,由于有a的存在,当其取较大数值时,能幅值得以缓和,所以适当选择a的值能够更好地区分噪音和清音,能熵比则可表示为
Figure BDA0001242469330000042
之后通过能熵比算出经过谱减后y2(n)的能熵比幅值图,通过计算出的值来设置对应的阈值T1和T2,T1为较高阈值,只要能熵比超过了此阈值就判定这段语音是人声点dst1,然后以这个点为中心向两边扩展搜索T1与此段语音的相交的两个点,粗判为此段语音的起止点,然后再想两边扩展搜索,知道检测到较低阈值T2与此段语音相交的两个点,由于考虑到发音时词与词之间的静音区会有一个最小长度表示发音间的停顿于是在满足T2较小阈值之后加上这个最小长度,最终判定为此段语音的起止点。
更进一步所述步骤三中的Legendre非线性滤波器中扩展的阶数为i=4阶。
本发明提出的自适应语音端点检测方法,是在传统语音端点检测的基础上加入非线性自适应滤波,以及改进的谱减法和能熵比法,相较于传统的方法,此方法提高了整体***的自适应性,能够很好地适应不同的语音对话环境,与此同时提高语音端点检测率和稳定性。
附图说明
图1、本发明采用的语音端点检测***结构框图;
图2、传统语音端点检测***框图;
图3、Legendre***扩展;
图4、谱减法***框图(图中实线框部分);
图5、纯净语音信号(方向角度为10度);
图6、方向性干扰信号(方向角度为30度);
图7、麦克风阵列接收到的语音信号(带噪语音信号);
图8、传统双门限语音端点检测处理后得到的语音信号;
图9、本发明方法处理后得到的语音信号;
图10、本发明方法处理后得到瞬时方差;
图11、本发明方法处理后得到的瞬时方差。
具体实施方式
实施例
为使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施方式,进一步阐明本发明。本发明提供的一种改进自适应语音端点检测方法,如图1所示,具体包括以下操作步骤:
步骤一:对麦克风阵列接收到的带噪语音信号X(n)=A(q)S(n)+N(n)进行时延估计和补偿,使各个麦克风通道中的信号在时间上是一致的,图1中的X(n)=[x1(n),x2(n)…xd(n)]T为对齐后的带噪语音信号,其中,θ为目标信号的来波方向,A(θ)为目标信号的阵列流型,S(n)为目标语音信号,N(n)为方向性干扰噪声或是随机噪声;
步骤二:然后将输入信号通过反正切激活函数,反正切激活函数tanh(·)的作用是将同步后的信号映射为(0,1)范围内的单值函数,这样能满足Legendre非线性滤波器的收敛条件,通过此函数之后的信号为
Z(n)=[z1(n),z2(n)…zd(n)]T=[tanh(x1(n)),tanh(x2(n))…tanh(xd(n))]T
步骤三:利用Legendre扩展式(具体结构如图3所示)对信号Z(n)进行扩展,输入信号向量Z(n)经Legendre非线性滤波器非线性扩展为
XM(n)=[L0(z1(n)),L0(z2(n))…L0(zd(n))…Li(z1(n)),Li(z2(n))…LM(z1(n))…LM(zd(n))]T
式中Li(x)为第i阶Legendre非线性滤波器。实际使用时,一般只用到4阶。由于L0(x)=1,所有的0阶扩展可合并为一个输入量如下式:
XM(n)=[1…Li(z1(n)),Li(z2(n))…LM(z1(n))…LM(zd(n))]T滤波器输出为
Figure BDA0001242469330000051
式中权值矢量定义为B(n)=[b0(n),b11(n)…b1d(n),…bM1(n),…bMd(n)]T,bij(n)对应的是Legendre非线性滤波器Li(zj(n))的权值,i=1,2,…M,j=1,2,…d。
步骤四:采用一种改进的回声消除NLMS算法对自适应滤波器权值进行更新,该算法中对迭代步长进行分段处理;
Figure BDA0001242469330000061
式中mc是指迭代步长,通过这种方式来提高整体算法的收敛速度,在200次迭代之后获得更加好的收敛精度,由此提高整个***的收敛性和稳态失调噪声。由回声消除NLMS算法可导出滤波器权值系数递推公式为
Figure BDA0001242469330000062
式中误差估计e(n)=d(n)-y1(n),其中d(n)为期望信号(纯净人声语音信号),XM(n)为麦克风阵列瞬时接收到的语音信号,g是为了避免
Figure BDA0001242469330000063
过小而设定的参数,通常情况下的取值范围是0和1之间。
步骤五:为了进一步去除可能存在的残余噪声,在输出信号y1(n)后续接谱减法。谱减法是在短时平稳假定的基础上,对带噪语音信号进行傅里叶变换并进行重叠分帧处理,用每帧信号功率减去估计得到的噪声功率,并利用人耳对语音信号的幅度比较敏感,而对语音的相位不敏感这一特性,可以用含有噪声的语音信号的相位来代替纯净语音信号的相位,然后对其进行傅里叶逆变换即可得到增强后的语音信号,在利用谱减法对带噪语音信号进行去噪时,重要的是对每一帧中噪声功率的估计。利用以下方法来估计噪声的功率:
Figure BDA0001242469330000064
式中0<σ<1,K是带噪语音总帧数。得到的每帧纯净语音功率为:
Figure BDA0001242469330000065
式中,α>1,β<<1。在噪声段保留一定的噪声可以取得较好的降噪及抑制纯音噪声的效果,降低“音乐”噪声的产生,改善听觉效果,经过谱减,平滑滤波之后的信号为y2(n)。
步骤六:语音信号的时间序列为y2(n),加窗分帧后处理得到第i帧语音信号为y2i(n),帧长为N。语音信号的每一帧能量可以表示为
Figure BDA0001242469330000071
本发明引入改进的能量关系
LEi=log10(1+A MPi/a)
式中A MPi是每一帧的能量,a是一个常数。由于有a的存在,当其取较大数值时,能幅值得以缓和,所以适当选择a的值能够更好地区分噪音和清音。能熵比则可表示为
Figure BDA0001242469330000072
之后通过能熵比算出经过谱减后y2(n)的能熵比幅值图,通过计算出的值来设置对应的阈值T1和T2,T1为较高阈值,只要能熵比超过了此阈值就判定这段语音是人声点dst1,然后以这个点为中心向两边扩展搜索T1与此段语音的相交的两个点,粗判为此段语音的起止点,然后再想两边扩展搜索,知道检测到较低阈值T2与此段语音相交的两个点,由于考虑到发音时词与词之间之间的静音区会有一个最小长度表示发音间的停顿于是在满足T2较小阈值之后加上这个最小长度,最终判定为此段语音的起止点。
实验结果如图5-11所示,麦克风阵列接受到的语音信号是带噪语音信号从图5和图7对比可以得出,图8为传统语音端点检测(具体结构框图如图2所示)处理后得到的语音信号对比与图9(本发明方法处理结果图),可以明显看到本发明方法去除噪声的效果更好,图10,图11分别是传统方法和本发明方法的瞬时方差,通过这两张图可以看出整体语音带噪程度,传统的都是远超过幅值2的,而改进方法则基本在2以下,与此同时,对比图8和图9,途中实线表示一个词的开始端,虚线表示一个词的结束端,本段语音是“第一课认识新同学”,传统语音端点的检测方法,并没有检测到‘一’‘识’‘学’这三个字,其正确率只有62.5%,而自适应Legendre非线性滤波和语音端点检测相结合的方法则测出了8个字的对应端点位置,其准确率为100%,同时本发明的语音降噪后的信噪比相较于传统的算法提高了3.5dB,此算法不仅提高了准确率和自适应性,同时麦克风数量的减少,也使得实现本发明的成本降低,能实现的可能性也大大增加。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,依据本发明的技术实质,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。

Claims (2)

1.一种改进的非线性自适应语音端点检测方法,其特征在于,所述方法包括首先通过麦克风阵收集收集信号以及通过时延估计和时延补偿使输入信号同步,之后通过Legendre非线性滤波器把输入信号拓展为高维度函数,再通过回声消除NLMS算法进行降噪处理,所述回声消除NLMS算法中对迭代步长进行分段处理,再通过谱减法进行语音增强,最后通过能熵对语音端点检测,具体步骤如下:
步骤一,对麦克风阵列接收到的带噪语音信号X(n)=A(q)S(n)+N(n)进行时延估计和时延补偿,使各个麦克风通道中的信号在时间上是一致的,对齐后的带噪语音信号X(n)=[x1(n),x2(n)…xd(n)]T,其中,θ为目标信号的来波方向,A(θ)为目标信号的阵列流型,S(n)为目标语音信号,N(n)为方向性干扰噪声或是随机噪声;
步骤二,把输入信号通过反正切激活函数tanh(·),使同步后的信号映射为(0,1)范围内的单值函数,这样能满足Legendre非线性滤波器的收敛条件,通过此函数之后的信号为
Z(n)=[z1(n),z2(n)…zd(n)]T=[tanh(x1(n)),tanh(x2(n))…tanh(xd(n))]T
步骤三,利用Legendre非线性滤波器对信号Z(n)进行扩展,输入信号向量Z(n)经Legendre非线性滤波器非线性扩展为:
XM(n)=[L0(z1(n)),L0(z2(n))…L0(zd(n))…Li(z1(n)),Li(z2(n))…LM(z1(n))…LM(zd(n))]T
Li(x)为第i阶Legendre非线性滤波器;由于L0(x)=1,所有的0阶扩展可合并为一个输入量如下式:
XM(n)=[1…Li(z1(n)),Li(z2(n))…LM(z1(n))…LM(zd(n))]T滤波器输出为
Figure FDA0002418980970000011
式中权值矢量定义为B(n)=[b01(n)…b0d(n)…b11(n)…b1d(n),…bM1(n),…bMd(n)]T,bij(n)对应的是Legendre非线性滤波器Li(zj(n))的权值,i=0,1,…M,j=1,2,…d;
步骤四,采用回声消除NLMS算法对自适应滤波器权值进行更新,该算法中对迭代步长进行分段处理;
Figure FDA0002418980970000021
式中mc是迭代步长,通过这种方式来提高整体算法的收敛速度,在200次迭代之后获得更加好的收敛精度,由此提高整个***的收敛性和稳态失调噪声;由回声消除NLMS算法可导出滤波器权值系数递推公式为:
Figure FDA0002418980970000022
式中误差估计e(n)=d(n)-y1(n),其中n为迭代次数,d(n)为期望信号即纯净人声语音信号,XM(n)为麦克风阵列瞬时接收到的语音信号,g是为了避免
Figure FDA0002418980970000023
过小而设定的参数,通常情况下的取值范围是0和1之间,
步骤五,为了进一步去除可能存在的残余噪声,在输出信号y1(n)后续衔接谱减法进行降噪处理;利用以下方法来估计噪声的功率:
Figure FDA0002418980970000024
s是加权系数,取值范围为0<s<1,目的是为了抑制无用噪声,i为帧数,K是带噪语音总帧数,得到的每帧纯净语音功率为:
Figure FDA0002418980970000025
其中,α>1,b<<1,其中W为窗类型,ω表示信号经过FFT的频率,在噪声段保留一定的噪声可以取得较好的降噪及抑制纯音噪声的效果,降低“音乐”噪声的产生,改善听觉效果,经过谱减,平滑滤波之后的信号为:y2(n);
步骤六,语音信号的时间序列为y2(n),加窗分帧后处理得到第i帧语音信号为y2i(n),帧长为N,语音信号的每一帧能量可以表示为:
Figure FDA0002418980970000031
所述能量关系表示为:
ELi=log10(1+AMPi/a)
其中AMPi是每一帧的能量,a是一个常数,由于有a的存在,当其取较大数值时,能幅值得以缓和,所以适当选择a的值能够更好地区分噪音和清音,能熵比则可表示为:
Figure FDA0002418980970000032
之后通过能熵比算出经过谱减后y2(n)的能熵比幅值图,通过计算出的值来设置对应的阈值T1和T2,T1为较高阈值,只要能熵比超过了此阈值就判定这段语音是人声点dst1,然后以这个点为中心向两边扩展搜索T1与此段语音的相交的两个点,粗判为此段语音的起止点,然后再想两边扩展搜索,知道检测到较低阈值T2与此段语音相交的两个点,由于考虑到发音时词与词之间的静音区会有一个最小长度表示发音间的停顿于是在满足T2较小阈值之后加上这个最小长度,最终判定为此段语音的起止点。
2.根据权利要求1所述的改进的非线性自适应语音端点检测方法,其特征在于,所述步骤三中的Legendre非线性滤波器中扩展的阶数为i=4阶。
CN201710139880.4A 2017-03-10 2017-03-10 一种改进的非线性自适应语音端点检测方法 Active CN106875938B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710139880.4A CN106875938B (zh) 2017-03-10 2017-03-10 一种改进的非线性自适应语音端点检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710139880.4A CN106875938B (zh) 2017-03-10 2017-03-10 一种改进的非线性自适应语音端点检测方法

Publications (2)

Publication Number Publication Date
CN106875938A CN106875938A (zh) 2017-06-20
CN106875938B true CN106875938B (zh) 2020-06-16

Family

ID=59170849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710139880.4A Active CN106875938B (zh) 2017-03-10 2017-03-10 一种改进的非线性自适应语音端点检测方法

Country Status (1)

Country Link
CN (1) CN106875938B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107424625A (zh) * 2017-06-27 2017-12-01 南京邮电大学 一种基于向量机框架的多通道语音活动检测方法
CN107564539B (zh) * 2017-08-29 2021-12-28 苏州奇梦者网络科技有限公司 面向麦克风阵列的声学回声消除方法及装置
CN107910017A (zh) * 2017-12-19 2018-04-13 河海大学 一种带噪语音端点检测中阈值设定的方法
CN109905793B (zh) * 2019-02-21 2021-01-22 电信科学技术研究院有限公司 一种风噪声抑制方法、装置及可读存储介质
CN110211602B (zh) * 2019-05-17 2021-09-03 北京华控创为南京信息技术有限公司 智能语音增强通信方法及装置
CN110364187B (zh) * 2019-07-03 2021-09-10 深圳华海尖兵科技有限公司 一种语音信号的端点识别方法和装置
CN110491405B (zh) * 2019-08-21 2022-02-01 南京信息工程大学 基于协同非线性自适应滤波的麦克风阵列语音增强方法
CN111415685A (zh) * 2020-03-26 2020-07-14 腾讯科技(深圳)有限公司 音频信号的检测方法、装置、设备及计算机可读存储介质
CN113286047B (zh) * 2021-04-22 2023-02-21 维沃移动通信(杭州)有限公司 语音信号处理方法、装置及电子设备
CN114203204B (zh) * 2021-12-06 2024-04-05 北京百度网讯科技有限公司 尾点检测方法、装置、设备和存储介质
CN115376537A (zh) * 2022-07-29 2022-11-22 歌尔科技有限公司 信号处理方法、装置、电子设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102723082A (zh) * 2011-03-21 2012-10-10 半导体元件工业有限责任公司 基于保持语音信息的单耳音频处理***和方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102723082A (zh) * 2011-03-21 2012-10-10 半导体元件工业有限责任公司 基于保持语音信息的单耳音频处理***和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
George N V, Panda G. .Active control of nonlinear noise processes using cascaded adaptive nonlinear filter .《Applied Acoustics》.2013,217-222. *
低信噪比语音信号端点检测和自适应滤波;沈亚强;《电子测量与仪器学报》;20010331 *

Also Published As

Publication number Publication date
CN106875938A (zh) 2017-06-20

Similar Documents

Publication Publication Date Title
CN106875938B (zh) 一种改进的非线性自适应语音端点检测方法
CN109817209B (zh) 一种基于双麦克风阵列的智能语音交互***
CN106340292B (zh) 一种基于连续噪声估计的语音增强方法
EP3172906B1 (en) Method and apparatus for wind noise detection
CN109215677B (zh) 一种适用于语音和音频的风噪检测和抑制方法和装置
CN110770827B (zh) 基于相关性的近场检测器
CN106885971B (zh) 一种用于电缆故障检测定点仪的智能背景降噪方法
Grondin et al. Noise mask for tdoa sound source localization of speech on mobile robots in noisy environments
CN105702262A (zh) 一种头戴式双麦克风语音增强方法
EP3428918B1 (en) Pop noise control
WO2017128910A1 (zh) 一种语音出现概率的确定方法、装置及电子设备
KR20160116440A (ko) 음성인식 시스템의 신호대잡음비 추정 장치 및 방법
Taseska et al. MMSE-based source extraction using position-based posterior probabilities
CN111968659B (zh) 一种基于优化imcra的麦克风阵列语音增强方法
Lee et al. Deep neural network-based speech separation combining with MVDR beamformer for automatic speech recognition system
Ji et al. A priori SAP estimator based on the magnitude square coherence for dual-channel microphone system
CN114694675B (zh) 一种基于麦克风阵列的广义旁瓣对消器及后置滤波算法
CN116320947B (zh) 一种应用于助听器的频域双通道语音增强方法
Salvati et al. Improvement of acoustic localization using a short time spectral attenuation with a novel suppression rule
Tanaka et al. Acoustic beamforming with maximum SNR criterion and efficient generalized eigenvector tracking
Dionelis On single-channel speech enhancement and on non-linear modulation-domain Kalman filtering
Schwab et al. Robust noise estimation applied to different speech estimators
Mao et al. An improved accumulated cross-power spectrum phase method for time delay estimation
Freudenberger et al. Time-frequency masking for convolutive and noisy mixtures
Odelowo et al. A Mask-Based Post Processing Approach for Improving the Quality and Intelligibility of Deep Neural Network Enhanced Speech

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211215

Address after: 210012 19 / F, B1 building, Kechuang City, 34 Dazhou Road, Yuhuatai District, Nanjing City, Jiangsu Province

Patentee after: Jiangsu Xinshiyun Science and Technology Co.,Ltd.

Address before: 210044 No. 219, Ning six road, Nanjing, Jiangsu

Patentee before: NANJING University OF INFORMATION SCIENCE & TECHNOLOGY