CN101271686A

CN101271686A - 使用语音信号的谐波估计噪声的方法和设备

Info

Publication number: CN101271686A
Application number: CNA2008100858587A
Authority: CN
Inventors: 金炫秀; 高汉锡; 安盛柱; 裴正勋; 尹现珍
Original assignee: Samsung Electronics Co Ltd; Korea University Research and Business Foundation
Current assignee: Samsung Electronics Co Ltd; Korea University Research and Business Foundation
Priority date: 2007-03-22
Filing date: 2008-03-21
Publication date: 2008-09-24
Also published as: EP1973104A3; US20080235013A1; EP1973104B1; KR101009854B1; US8135586B2; KR20080086298A; EP1973104A2

Abstract

公开了一种使用语音信号的谐波估计噪声的方法和设备。所述方法包括在输入声音信号的帧中估计谐波分量；使用估计的谐波分量，计算关于输入的声音信号的帧的语音存在概率(VPP)；根据计算的VPP确定估计噪声频谱所需的等式的权值；使用确定的权值和估计噪声频谱所需的等式，估计噪声频谱并更新所述噪声频谱。

Description

使用语音信号的谐波估计噪声的方法和设备

技术领域

本发明涉及声音信号处理，更具体地说，涉及一种用于估计包括在声音信号中的噪声的方法和设备。

背景技术

在用于语音通信或需要语音增强的语音识别的声音信号处理中，估计并去除包括在语音信号中的噪声很重要。因此，已经提出并使用用于估计噪声的方案。例如，为了估计噪声，一个方案首先在一定的时间间隔(即，时间段)估计噪声，在所述一定的时间间隔，在输入语音之前语音不存在，并且一旦输入语音，用于减少估计的噪声的信号被施加。在另一方案中，通过使用语音激活检测(VAD)将非语音和语音区进行区分，并随后在非语音时间段估计噪声。还存在一种基于最小统计量的噪声估计方案，其中，基于在语音时间段中的语音频谱能量大于噪声的频谱能量以及语音字的发音时间段与0.7秒至1.3秒相应的特性，在给定时间段中表示最小能量的值被估计为是噪声。在另一方案中通过关于语音是否存在的概率进行近似确定，以在语音存在概率(VPP)较大的时间段期间估计噪声，相反，在VPP较小的时间段期间不估计噪声。

然而，上述传统噪声估计方案的缺陷在于它们不能够检测非平稳噪声的改变，以反映噪声估计的改变。例如，不能有效地估计具有较短持续时间、但是还具有与语音能量类似的大能量的错误噪声(诸如，在实际生活中突然产生的周围的音频声音或包括关门时产生的声音、脚步声等的噪声)。因此，出现的问题在于错误噪声估计导致残留噪声的问题。残留噪声导致在语音通信中用户收听不方便或语音识别装置的故障，这使语音识别产品的性能下降。

传统噪声估计方案具有上述问题的原因在于：当参照在先前处理的语音时间段中的结果处理随后语音信号的方案时，在相关时间段可存在与先前噪声不同的噪声，当通过近似预测噪声存在的时间段仅在相关时间段期间估计噪声的方案时，准确地估计噪声存在的时间段存在限制。而且，由于通过使用各个信号的能量大小之间的差与信噪比(SNR)对语音和非语音进行区分的方案，即，当如果诸如各个信号的能量大小之间的差与信噪比(SNR)的值较大，则识别时间段为语音时间段的方案时，以及当如果该值较小，则将时间段看作非语音时间段的方案时，如果具有与语音的能量的大小类似的大小的能量的周围噪声被输入，则噪声估计没有被实现，因此，噪声频谱没有被更新。

发明内容

因此，本发明致力于解决上述发生在传统方法中的问题，并且本发明提供一种在语音信号处理中估计非平稳噪声并去除估计的非平稳噪声的方法和设备。

而且，本发明提供一种用于估计具有与语音能量的大小类似的大小的能量的噪声并去除估计的噪声的方法和设备。

此外，本发明提供一种有效地估计噪声并去除估计的噪声的方法和设备。

根据本发明的一方面，提供一种通过使用语音信号的谐波来估计噪声的方法，包括：在输入声音信号的帧中估计谐波分量；使用估计的谐波分量，计算关于输入的声音信号的帧的语音存在概率(VPP)；根据计算的VPP，确定如下定义的估计噪声频谱所需的等式的权值；以及使用确定的权值和估计噪声频谱所需的等式，估计噪声频谱，并更新噪声频谱，

N(k，t)＝α(k，t)N(k，t-1)+(1-α(k，t))Y(k，t)，

其中，N(k，t)表示噪声频谱，Y(k，t)表示输入信号的频谱，索引k表示频率索引，索引t表示帧索引，以及α(k，t)表示权值。

根据本发明的另一方面，提供一种通过使用语音信号的谐波估计噪声的设备，包括：谐波估计单元，估计在输入声音信号的帧中的谐波分量，并输出估计的谐波分量；语音估计单元，使用估计的谐波分量，计算关于输入声音信号的帧的语音存在概率(VPP)，并输出计算的VPP；权值确定单元，根据计算的VPP，确定如下定义的估计噪声谱所需的等式的权值，并输出确定的权值；以及噪声频谱更新单元，使用确定的权值和估计噪声频谱所需的等式，估计噪声频谱，并更新噪声频谱，

N(k，t)＝α(k，t)N(k，t-1)+(1-α(k，t))Y(k，t)，

附图说明

通过下面结合附图的详细描述，本发明的上述和其他示例性特点、方面和优点将会变得更加清楚，其中：

图1是示出根据本发明的实施例的用于估计噪声的设备的配置的框图；

图2是示出根据本发明的实施例的估计噪声的处理的流程图；

图3A、图3B和图3C分别示出根据本发明的实施例的功率频谱、线性预测系数(LPC)频谱和谐波频谱图的示例；

图4是根据本发明实施例的估计噪声频谱所需的等式的权值的坐标图；以及

图5A至图5D分别示出从以现有方案和根据本发明实施例实现的噪声频谱估计获得的频率示图的示例。

具体实施方式

以下，参照附图来详细说明本发明的示例性实施例。下一描述包括诸如特定配置组件的细节，提出这些细节以支持对本发明的更加全面的理解，并且本领域普通技术人员将清楚，可对本发明的范围中的细节做出形式上的指定改变和修改。此外，在本发明的以下描述中，省略合并与此的已知的功能和结构的详细描述，以避免使得本发明的主体不清楚。

人类为了发出元音，必须产生声带的振动，并且振动在频域以谐波的形式出现。而且，谐波的分量具有以下特性：即使在噪声环境下，谐波的分量的大部分属性都保留。在本发明中，通过使用元音和谐波的特性，根据多少谐波分量存在于声音信号，来估计合适的噪声频谱，并且更新噪声频谱的值。此时，使用等式(1)估计噪声频谱。

N(k，t)＝α(k，t)N(k，t-1)+(1-α(k，t))Y(k，t)……………(1)

在此，N(k，t)表示噪声频谱，Y(k，t)表示输入信号的频谱，k表示频率索引，t表示帧索引。上述等式(1)与在最小值控制的递归平均(MCRA)噪声估计方案中用于估计噪声频谱的等式相应。在本发明中，基于通过使用在输入的声音信号中检测的谐波来估计的语音存在概率(VPP)，调整上述等式(1)的权值α(k，t)，接着估计噪声频谱。

下面参照图1描述以这种方式应用本发明的用于估计噪声的设备。如图1所示，用于估计噪声的设备(即，噪声估计设备)包括声音信号输入单元10、谐波估计单元20、语音估计单元30、权值确定单元40和噪声频谱更新单元50。

通过使用具有预定长度的汉明窗，声音信号输入单元10将输入声音信号划分为帧。例如，通过使用长度为32毫秒的汉明窗，声音信号可被划分为帧，此时，汉明窗的移动时间段可被设置为16毫秒。由声音信号输入单元10划分为帧的声音信号输出到谐波估计单元20。

谐波估计单元20从以帧为单位的输入的声音信号提取谐波分量，并将提取的谐波分量输出到语音估计单元30。如上指示，为了发出元音，产生声带的振动，并且该振动在频域内以谐波的形式出现。为了找到谐波，必须去除与确定人类发出的元音的类型的声道形状有关的分量。对元音来说，相应于声带的振动信号和声道的形状，元音被表示为脉冲响应的卷积，并且在频域以乘法的形式容易地表示脉冲响应的卷积。从而谐波估计单元20可基于元音的特性估计在输入声音信号中的谐波，根据本发明的实施例，谐波估计单元20包括LPC频谱单元21、功率频谱单元22和谐波检测单元23。LPC频谱单元21将从声音信号输入单元10提供的以帧为单位的声音信号转换为LPC频谱，并将LPC频谱输出到谐波检测单元23。

功率频谱单元22将从声音信号输入单元10提供的以帧为单位的声音信号转换为功率频谱，并将功率频谱输出到谐波检测单元23。通过使用输入的LPC频谱和输入的功率频谱，谐波检测单元23检测在声音信号的相关帧中的谐波分量，并将检测的谐波分量输出到语音估计单元30。即，谐波检测单元23将LPC频谱划分为功率频谱，并随后检测谐波分量。这种频谱的各个示例在分别示出根据本发明的实施例的功率频谱、线性预测系数(LPC)频谱和谐波频谱图的图3A至图3C中示出。参照图3C的谐波频谱图，可理解当以频谱的形式表示声音信号时，谐波以分别具有一定的长度的条纹的型形状出现，并且即使在噪声环境下也能保留相当大的部分的形状。然而，对谐波频谱图的检查揭示语音周围的噪声导致存在不表示谐波而在频谱图具有值的部分(即，除了表示语音的部分之外的其他部分中保留白色的部分)。为了去除白色部分，谐波检测单元23启用具有适当值的掩蔽(mask)。通过该处理检测谐波的谐波估计单元20将检测的谐波输出到语音估计单元30。语音估计单元30使用输入的谐波分量并估计VPP。根据本发明的实施例，语音估计单元30计算局部语音存在概率(LVPP)和全局语音存在概率(GVPP)，并计算VPP，随后将VPP提供给权值确定单元40。

基于输入的VPP，权值确定单元40确定等式(1)中的权值α(k，t)。如在图3C的谐波频谱图，谐波分量以条纹的形状出现。由于除了表示谐波的部分之外具有有效值的另一部分与不寻常的部分相应，因此，当使用等式(1)更新噪声频谱时，等式(1)中的权值α(k，t)必须是较小的值，与表示谐波的部分有关的权值α(k，t)接近“1”，从而语音频谱不用于更新噪声频谱。因此，用通过表1定义的参考点确定根据GVPP值和LVPP值的语音潜力权值α(k，t)。在以下的表1中，通过将图3C的谐波频谱图的结果值进行归一化，LVPP具有“0”和“1”之间的值。而且，逐个帧添加谐波频谱图205的结果值，并随后归一化为GVPP具有“0”和“1”之间的值的结果。

表1

LVPP(k，t)	GVPP(k，t)	成为语音的概率	α(k，t)
LVPP(k，t)	GVPP(k，t)	成为语音的概率	α(k，t)	大	大	非常大	1
大	小	大	接近1的值	大	大	非常大	1
大	小	大	接近1的值	小	大	非常小	0
小	小	小	接近0的值	小	大	非常小	0

在上述表1中，可通过参考值确定GVPP和LVPP的值。

然后，通过使用以下定义的等式(2)计算权值α(k，t)。

α (k, t) = 1 - \frac{0.5}{1 + \exp (- 20 \times (LVPP (k, t) + 0.5) \times (0.3 - GVPP (k, t)))} \cdot \cdot \cdot \cdot \cdot \cdot \cdot (2)

等式(2)可被表示为如图4所示的图形，图4是根据本发明的实施例的估计噪声频谱所需的等式的权值的图形。

权值计算单元40将确定的权值输出到噪声频谱更新单元50。随后，通过使用输入权值和等式(1)，噪声频谱更新单元50估计噪声频谱，并更新直到先前帧估计的噪声频谱的值。在图2中示出上述噪声估计设备的操作处理。

如图2所示，在步骤101，噪声估计设备将输入声音信号划分为帧，并进行步骤103。在步骤103，噪声估计设备估计每个帧的谐波，并进行步骤105。在步骤105，噪声估计设备使用估计的谐波以估计VPP，并进行步骤107以基于估计的VPP确定等式(1)的权值。在步骤109，噪声估计设备使用确定的权值估计噪声频谱，更新噪声频谱，并完成操作处理。通过上述处理估计的噪声频谱用于从输入声音信号去除噪声。

如上所述，在本发明中，声音信号的谐波分量用于计算语音信号将在声音信号中存在的概率，基于计算的概率确定等式(1)的权值以估计噪声频谱，因此，权值具有比传统***中更大的范围。即，可理解，在传统最小值控制的递归平均(MCRA)方案中，权值α(k，t)的范围与0.95≤α(k，t)≤1相应，而根据本发明，权值α(k，t)的范围与0.5≤α(k，t)≤1相应。因此，如图5A至图5D所示，将根据本发明估计的噪声频谱与在传统MCRA方案中获得的噪声频谱进行比较，图5A至图5D是示出以现有方案和根据本发明的实施例实现的基于噪声频谱估计所绘制的示图的示例。参照图5C，当包括在噪声信号211中的噪声213如图5A所示时，可理解，与按照MCRA方案估计的噪声频谱215(图5C)比较，通过使用根据本发明的谐波分量估计的噪声频谱217(图5D)更加类似于原始噪声213(图5B)。而且，如果产生具有其大小相当于语音能量的大小的非平稳噪声，则SNR用作确定权值的因子的传统方案在处理噪声的过程中将噪声当作语音，而在本发明中谐波用作确定权值的因子，从而估计非平稳噪声并更新噪声频谱。

将如在本发明中公开从而用于上述操作配置的示例性实施例的优点和作用描述为如下。

如上所述，根据本发明，声音信号的谐波分量用于计算语音信号将在声音信号中存在的概率，基于计算的概率确定噪声频谱估计等式的权值，以估计噪声频谱，因此，权值可具有比传统***中更大的范围。而且，由于谐波用作确定权值的因子，因此使用非平稳噪声的估计更新噪声频谱。

尽管参照本发明的示例性实施例示出和描述了本发明，本领域技术人员将理解，在不脱离本发明的精神和范围的情况下，可在形式和细节上做出各种改变。因此，本发明的精神和范围不能由描述的本发明的实施例限定，而是由权利要求及其等同物限定。

Claims

1、一种通过使用语音信号的谐波估计噪声的方法，所述方法包括步骤：

(a)在输入声音信号的帧中估计谐波分量；

(b)使用估计的谐波分量，计算关于输入的声音信号的帧的VPP；

(c)根据计算的VPP确定估计噪声频谱所需的等式的权值：

N(k，t)＝α(k，t)N(k，t-1)+(1-α(k，t))Y(k，t)，

其中，N(k，t)表示噪声频谱，Y(k，t)表示输入声音信号的频谱，k表示频率索引，t表示帧索引，以及α(k，t)表示权值；以及

d通过使用确定的权值和等式来估计噪声频谱，并更新所述噪声频谱。

2、如权利要求1所述的方法，其中，在步骤(c)中，如果VPP大于特定表示值，则权值被确定为具有近似为“1”的值，如果VPP小于特定表示值，则权值被确定为具有近似为“0”的值。

3、如权利要求2所述的方法，其中，在步骤(b)中，谐波分量用于计算LVPP和GVPP，从而计算VPP。

4、如权利要求3所述的方法，其中，权值由下式确定：

α (k, t) = 1 - \frac{0.5}{1 + \exp (- 20 \times (LVPP (k, t) + 0.5) \times (0.3 - GVPP (k, t)))} .

5、一种使用语音信号的谐波估计噪声的设备，所述设备包括：

谐波估计单元，在输入声音信号的帧中估计谐波分量，并输出估计的谐波分量；

语音估计单元，使用估计的谐波分量，计算关于输入声音信号的帧的VPP，并输出计算的VPP；

权值确定单元，根据计算的VPP，确定估计噪声频谱所需的等式的权值，并输出确定的权值：

N(k，t)＝α(k，t)N(k，t-1)+(1-α(k，t))Y(k，t)，

噪声频谱更新单元，通过使用确定的权值和等式来估计噪声频谱，并更新所述噪声频谱。

6、如权利要求5所述的设备，还包括：声音信号输入单元，将输入声音信号划分为分别具有预定长度的帧，并随后输出所述帧。

7、如权利要求6所述的设备，其中，如果VPP大于特定表示值，则权值确定单元确定权值具有近似为“1”的值，如果VPP小于特定表示值，则权值确定单元确定权值为具有近似为“0”的值。

8、如权利要求7所述的设备，其中，语音估计单元使用谐波分量来计算LVPP和GVPP，从而计算VPP。

9、如权利要求8所述的设备，其中，权值确定单元使用下式确定权值：

α (k, t) = 1 - \frac{0.5}{1 + \exp (- 20 \times (LVPP (k, t) + 0.5) \times (0.3 - GVPP (k, t)))} .