CN101010722B

CN101010722B - 用于检测语音信号中话音活动的设备和方法

Info

Publication number: CN101010722B
Application number: CN2005800290060A
Authority: CN
Inventors: R·尼米斯托
Original assignee: Nokia Oyj
Current assignee: Nokia Solutions and Networks Oy
Priority date: 2004-08-30
Filing date: 2005-08-29
Publication date: 2012-04-11
Anticipated expiration: 2025-08-29
Also published as: EP1787285A4; CN101010722A; EP1787285A1; FI20045315A; US20060053007A1; KR20070042565A; FI20045315A0; KR100944252B1; WO2006024697A1

Abstract

一种包括话音活动检测器(6)的设备(1)，该话音活动检测器(6)用于使用基于音频信号的采样而形成的数字数据来检测语音信号中的话音活动。话音活动检测器(6)包括适于检查信号是否具有高通性质的第一单元(6.3.1)。话音活动检测器(6)还包括适于检查信号频谱的第二单元(6.3.2)。话音活动检测器(6)适于在第一单元(6.3.1)已经确定信号具有高通性质或者第二单元(6.3.2)已经确定信号没有平坦的频率响应时提供语音指示。

Description

用于检测语音信号中话音活动的设备和方法

技术领域

本发明涉及一种包括语音活动检测器的设备，该检测器用于使用基于音频信号的采样而形成的数字数据来检测语音信号中的话音活动。本发明也涉及一种方法、***、设备和计算机程序产品。

背景技术

在许多数字音频信号处理***中，话音活动检测用于例如为噪声抑制中的噪声估计来执行语音增强。语音增强的意图在于将数学方法用于提高表现为数字信号的语音的质量。在数字音频信号处理设备中，常见地以通常为10-30ms的短帧来处理语音，并且话音活动检测器将每个帧归类为有噪声的语音帧或者噪声帧。国际专利申请WO 01/37265公开了一种对于在蜂窝通信网络与移动终端之间的通信路径中的信号内的噪声进行抑制的噪声抑制方法。话音活动检测器(VAD)用来指示何时在音频信号中有语音或者仅有噪声。在该设备中，噪声抑制器的工作依赖于话音活动检测器的质量。

此噪声可以是来自用户环境的环境性和声学背景噪声或者是在通信***本身中生成的电子性质的噪声。

典型的噪声抑制器工作于频域中。时域信号先被转换到频域，这可以使用快速傅立叶变换(FFT)有效地来实现。必须从有噪声的语音中检测话音活动，而当没有检测到话音活动时估计噪声的频谱。然后基于当前输入信号频谱和噪声估计来计算噪声抑制增益系数。最后，使用逆FFT(IFFT)将信号变换回到时域。话音活动检测可以基于时域信号、基于频域信号或者基于二者。

在时域中，干净的语音信号可以通过s(t)来表示，而有噪声的语音信号可以通过x(t)＝s(t)+n(t)来表示，其中n(t)是破坏性的附加噪声信号。增强语音通过(t)来表示，而噪声抑制的任务在于使它尽可能地接近(未知的)干净语音信号。接近度首先通过一些例如最小平均平方误差的数学误差标准来定义，但是由于没有单个令人满意的标准，所以最终必须主观地或者使用对收听测试的结果进行预测的一组数学方法来评价接近度。记号S(e^jω)、X(e^jω)、N(e^jω)和

(e^jω)指代了信号在频域中的离散时间傅立叶变换。在实践中，在频域的零填补交迭帧中处理信号；使用FFT来评价频域值。记号S(ω，n)、X(ω，n)、N(ω，n)和

(ω，n)指代了在帧n内频率仓的离散集合所估计的频谱值，即X(ω，n)≈|X(e^jω)|²。

在现有技术的噪声抑制器中，语音增强是基于检测噪声并且当没有检测到语音活动时根据以下规则来更新噪声估计：

N(ω，n)＝λN(ω，n-1)+(1-λ)X(ω，n)

(这里N(ω，n)指代了噪声估计，而X(ω，n)是有噪声的语音，并且λ是在0与1之间的平滑参数。通常，该值与接近0相比更接近1。指数ω和n分别指代了频率仓和帧)。潜在假设就是语音的频率内容比噪声的内容更快速地变化并且VAD检测到足够的噪声以便足够频繁地更新噪声估计。因此，语音活动检测器在估计有待抑制的噪声时起关键性作用。当VAD指示了噪声时，更新噪声估计。

当存在有噪声电平的突变时，在噪声与语音之间的区分变得更困难。例如，如果在移动电话附近启动引擎则噪声电平快速地增加。设备的语音活动检测器可以在语音的开始时解释此噪声电平递增。因此，噪声被解释成语音而没有更新噪声估计。另外，打开通向嘈杂环境的门可能影响到噪声电平突然上升，话音活动检测器可以将这解释成语音的开始或者在一般意义上是话音活动的开始。

在根据出版物WO 01/37265的话音活动检测器中，通过比较当前帧中的平均功率与噪声估计的平均功率来实现话音活动检测，该比较是通过比较后验SNR之和

与预定阈值来实现的。在骤升的噪声电平情况下，这样的检测器将之归类为语音。因此，将用于度量平稳性的方法用于复原。然而，语音的浊音音素通常比音素之间小的停顿更长。因此，平稳性度量不能可靠地将这归类为噪声，除非停顿比任何音素都更长；通常，对上升的噪声电平做出反应需要数秒。

一种简单但是在计算上要求很高的话音活动检测判决方法是通过计算语音帧中的自相关系数来检测该帧中的周期性。周期性信号的自相关也是周期性的，在滞后域中具有与信号的周期对应的周期。人类语音的基本频率落在范围[50，500]Hz中。这在自相关滞后域中对于8000Hz采样频率而言对应于在范围[16，160]中的周期性而对于16000Hz采样频率而言对应于在范围[32，320]中的周期性。如果在那些范围内部计算浊音的语音帧的自相关系数(通过在0延迟处的系数来正规化)，可以预期它们是周期性的，并且应当在与浊音语音的基本频率对应的滞后中发现最大值。如果与语音中基本频率的可能值对应的正规化自相关系数的最大值是在某一阈值以上则将该帧归类为语音。这种话音活动检测可以称为自相关VAD。自相关VAD可以非常准确地检测浊音的语音，只要语音帧的长度与有待检测的语音的基本周期相比充分地长，但是它没有检测非浊音的语音。

在科学性出版物中也存在用于语音活动检测的其它提议方法，例如S.Gazoor和W.Zhang，“A soft voice activity detector based on aLaplacian-Gaussian model”，IEEE Trans.Speech and Audio Processing，第11卷第5期，第498-505页，2003年9月；以及M.Marzinzik和B.Kollmeier，“Speech pause detection for noise spectrum estimation bytracking power envelope dynamics”，IEEE Trans.Speech and AudioProcessing，第10卷第2期，第109-118页，2002年2月。它们通常是计算高阶统计或者语音存在和缺乏之概率的相当复杂方案。一般而言，它们实施起来在计算上非常浪费，而其意图在于发现帧中的所有语音而不是为准确的噪声估计来发现足够噪声。因此，它们更好地适合于语音编码应用。

发明内容

本发明尝试在骤升的噪声功率情况下改进话音活动检测，在这种情况下现有技术的方法常常将噪声帧归类为语音。

根据本发明的语音活动检测器在本专利申请称为频谱平坦度VAD。本发明的频谱平坦度VAD考虑了有噪声的语音频谱的形状。在频谱为平坦并且它具有低通性质的情况下，频谱平坦度VAD将帧归类为噪声。潜在假设就是浊音音素没有平坦频谱但是有干净的共振峰频率而非浊音的音素具有相当平坦的频谱但是具有高通性质。根据本发明的话音活动检测是基于时域信号和基于频域信号。

根据本发明的话音活动检测器可以单独地使用但是也可以与自相关VAD或者频谱距离VAD相结合地使用或者在包括前述两种VAD的组合中使用。根据三种不同VAD之组合的话音活动检测工作于三个阶段中。首先使用对语音所常有的周期性进行检测的自相关VAD来实现VAD判决，然后使用频谱距离VAD来实现VAD判决，并且最后如果自相关VAD归类为噪声而频谱距离VAD归类为语音则利用频谱平坦度VAD来实现VAD判决。根据本发明的略微简单的实施例，在没有自相关VAD的情况下与频谱距离VAD相结合地使用频谱平坦度VAD。

本发明基于如下思想：检查音频信号的频谱和频率内容以便在必要时确定在音频信号中是否有语音或者仅有噪声。为了更准确地表述这一点，根据本发明的设备的主要特征在于该设备的话音活动检测器包括：

-第一单元，适于检查信号是否具有高通性质，以及

-第二单元，适于检查信号的频谱，

其中话音活动检测器适于在满足以下条件之一时提供语音指示：

-第一单元已经确定信号具有高通性质，或者

-第二单元已经确定信号没有平坦的频率响应。

根据本发明的设备的主要特征在于话音活动检测器包括：

-第一单元，适于检查信号是否具有高通性质，以及

-第二单元，适于检查信号的频谱，

-第一单元已经确定信号具有高通性质，或者

-第二单元已经确定信号没有平坦的频率响应。

根据本发明的***的主要特征在于该***的话音活动检测器包括：

-第一单元，适于检查信号是否具有高通性质，以及

-第二单元，适于检查信号的频谱，

-第一单元已经确定信号具有高通性质，或者

-第二单元已经确定信号没有平坦的频率响应。

根据本发明的方法的主要特征在于该方法包括：

-检查信号是否具有高通性质，以及

-检查信号的频谱，

-在满足以下条件之一时提供语音指示：

-确定信号具有高通性质，或者

-确定信号没有平坦的频率响应。

根据本发明的计算机程序产品的主要特征在于该计算机程序产品包括以下可由机器执行的步骤：

-检查信号是否具有高通性质，以及

-检查信号的频谱，

-在满足以下条件之一时提供语音指示：

-确定信号具有高通性质，或者

-确定信号没有平坦的频率响应。

本发明可以在存在快速噪声变化的环境中改进对噪声和语音的区分。根据本发明的话音活动检测可以在骤升噪声功率的情况下比现有方法更好地对音频信号进行归类。在工作于移动终端中的噪声抑制器中，本发明由于提高的噪声衰减而可以提高语音的可理解性和愉悦度。例如在引擎启动或者打开通向有噪声的环境的门时，与利用计算平稳性度量的此前解决方案相比，本发明还可以允许噪声更快地更新。然而，根据本发明的话音活动检测器有时候过于积极地将语音归类为噪声。在移动通信中这一点只有当在存在来自背景的很强含糊说话声的人群中使用电话时才会发生。这样的情形对于任何方法而言都成问题。其差异即使在背景噪声电平骤然增加的这种情形中仍然可能在听觉上清晰可辨。另外，本发明允许自动音量控制的更快变化。在一些现有技术的实施中，自动增益控制由于VAD而受到限制，从而将电平逐渐地增加18dB至少需要4.5秒。

附图说明

图1在简化框图中图示了根据本发明一个示例性实施例的电子设备的结构；

图2图示了根据本发明一个示例性实施例的话音活动检测器的结构；

图3在流程图中图示了根据本发明一个示例性实施例的方法；

图4在框图中图示了将本发明并入其中的***的例子；

图5.1图示了浊音音素的频谱的例子；

图5.2图示了汽车噪声的频谱的例子；

图5.3图示了非浊音辅音的频谱的例子；

图5.4图示了噪声频谱的加权效果；

图5.5图示了浊音语音频谱的加权效果；以及

图6.1、6.2和6.3在简化框图中图示了话音活动检测器的不同示例性实施例。

具体实施方式

现在将参照图1的电子设备和图2的话音活动检测器更具体地描述本发明。在这一示例性实施例中，电子设备1是无线通信设备，但是不言而喻本发明不仅仅限于无线通信设备。电子设备1包括用于输入音频信号以供处理的音频输入2。音频输入2例如是麦克风。音频信号在必要时由放大器3放大，并且也可以执行噪声抑制以产生经增强的音频信号。该音频信号被划分成语音帧，这意味着一次处理某一长度的音频信号。帧的长度通常是数毫秒，例如10ms或者20ms。音频信号也在模拟/数字转换器4中被数字化。模拟/数字转换器4以某些间隔即以某一采样速率根据音频信号形成采样。在模拟/数字转换之后，语音帧通过采样集来表示。电子设备1也具有在其中至少部分地执行音频信号处理的语音处理器5。语音处理器5例如是数字信号处理器(DSP)。语音处理器也可以包括其它操作，比如在上行链路(发送)和/或下行链路(接收)中的回声控制。

图1的设备也包括可以在其中实施语音处理器5和其它控制操作的控制块13、键盘14、显示器15和存储器16。

音频信号的采样被输入到语音处理器5。在语音处理器5中，在逐帧的基础上处理采样。该处理可以在时域中或者在频域中或者在这两个域中执行。在噪声抑制中，通常在频域中处理信号并且通过增益系数使每个频带加权。增益系数的值依赖于有噪声的语音的电平和噪声估计的电平。需要话音活动检测以便更新噪声电平估计N(ω)。

话音活动检测器6检查语音采样以给出当前帧的采样是否包含语音或者非语音信号的指示。来自话音活动检测器6的指示被输入到噪声估计器19，该噪声估计器可以使用这一指示以在话音活动检测器6指示了信号不含语音时估计和更新噪声的频谱。噪声抑制器20使用噪声的频谱来抑制信号中的噪声。例如，噪声估计器19可以向话音活动检测器6给予关于背景噪声参数的反馈。设备1也可以包括用以对语音进行编码以供发送的编码器7。

经编码的语音为信道编码的并且经由例如移动通信网络这样的通信信道17由发送器8发送到例如无线通信设备的另一电子设备18(图4)。

在电子设备1的接收部分中有用于从通信信道17接收信号的接收器9。接收器9执行信道解码并且将信道解码的信号指引到重建语音帧的解码器10。语音帧和噪声由数字到模拟转换器11转换成模拟信号。模拟信号可以由扬声器或者耳机12转换成听觉信号。

假设在模拟到数字转换器中使用8000Hz的采样频率，其中有用的频率范围约从0到4000Hz，这对于语音通常是足够的。当在有待转换成数字形式的信号中也可能存在高于4000Hz的频率时，也有可能使用不同于8000Hz的采样频率，例如16000Hz。

在下文中具体地描述本发明的理论背景。先考虑语音采样在一个浊音音素(′ee′，正如在单词′men′中那样)期间的频谱。在它们之间有共振峰频率和谷值，而在浊音语音的情况下还有基本频率、它的谐波和谐波之间的谷值。在国际专利公开WO01/37265中公开的现有技术的噪声抑制器中，从0到4kHz的频率范围被划分成具有不等宽度的12个计算频带(子频带)。因此，频谱在计算用于抑制的增益函数之前极为平滑。然而，如图5.1中所示，这一不规则性在某一程度上仍然存在。图5.1图示了浊音音素(′ee′)的频谱的例子。针对75ms的帧计算第一曲线(FFT长度512)，针对10ms的帧计算第二曲线(FFT长度128)，而针对10ms的帧计算并且通过频率分组来平滑第三曲线。

在噪声的情况下，频谱如示出了汽车噪声频谱例子的图5.2中所看到的那样更平滑。针对75ms的帧计算第一曲线(FFT长度512)，针对10ms的帧计算第二曲线(FFT长度128)，而针对10ms的帧计算第三曲线(通过频率分组来平滑)。如图5.2中所示，在所有平滑之后，频谱类似于向下而行的直线。在非浊音辅音的情况下，频谱也相当平滑但是向上而行，如图5.3中所示。图5.3图示了非浊音辅音(在单词control中的音素′t′)。针对75ms的帧计算第一曲线(FFT长度512)，针对10ms的帧计算第二曲线(FFT长度128)，而针对10ms的帧计算第三曲线(通过频率分组来平滑)。

在下文中将描述根据本发明的频谱平坦度VAD6.3的一个示例性实施例的操作。先在时域中计算与当前帧和先前帧对应的最有一阶预测器A(z)＝1-az^-1。针对当前帧，按照下式计算预测器系数a：

a = \frac{Σx (t) x (t - 1)}{Σ {x (t)}^{2}} .

频谱平坦度VAD在块6.3.1中检查是否a≤0，这意味着频谱具有高通性质并且它可以是非浊音辅音的频谱。然后将帧归类为语音，并且频谱平坦度VAD 6.3输出语音指示(例如逻辑1)。

如果a＞0，则在块6.3.2中使当前有噪声的语音频谱估计加权，并且使用与频带的中部对应的余弦函数的值在分组之后在频域中实现加权。获得如下加权函数：

{| A (e^{{jω}_{m}}) |}^{2} = 1 + a^{2} - 2 a \cos ω_{m}

其中ω_m指代了频带的中部频率。加权频谱|A(e^jωm)|²X(ω，n)的最小值X_min和最大值X_max的比较实现了VAD判决。与在300Hz以下和在3400Hz以上的频率对应的值在这一示例性实施例中省略。如果X_max≥2^thrX_min则信号归类为语音，信噪比对应于约thr×3dB。

噪声和浊音语音频谱的加权效果分别在图5.4和图5.5中示出。正如所见，在这一情况下12dB是足以用于区分噪声和语音的阈值。

可以单独地使用频谱平坦度VAD，但是也有可能将它与在频域中工作的频谱距离VAD相结合地使用。如果后验信噪比(SNR)之和超过预定阈值则频谱距离VAD归类为语音，而在骤升背景噪声的情况下它开始将所有帧归类为噪声；更具体的描述可以在出版物WO01/37265中找到。因此，在这一实施例中，频谱平坦度VAD中的阈值可能甚至小于12dB，因为仅需要少数正确判决以便更新噪声估计的电平使得频谱举例VAD正确地归类。仍然有将语音中类似噪声的音素归类为噪声的少量风险。然而，偶尔不正确的判决并不总是在噪声抑制中对语音质量有听觉影响，只要噪声估计中的平滑参数(λ)足够地高即可。

频谱距离VAD和频谱平坦度VAD也可以与自相关VAD相结合地使用。这种实施的一个例子在图2中示出。自相关VAD是在计算上要求很高但是鲁棒的浊音语音检测方法，而它在其它两种VAD归类为噪声的低信噪比中还是检测到语音。另外，有时候浊音音素具有明显的周期性但是相当平坦的频谱。因此，对于高质量的噪声抑制而言，虽然自相关VAD的计算复杂度对于一些应用可能过高，但是仍然可能需要所有三种VAD判决的组合。

话音活动检测器之组合的判决逻辑可以在真值表中表示。表1示出了针对自相关VAD 6.1、频谱举例VAD6.2和频谱平坦度VAD 6.3 之和的真值表。列指示了不同VAD在不同情形下的判决。最右列意味着判决逻辑的结果，即话音活动检测器6的输出。在该表中，逻辑值0意味着对应VAD的输出指示了噪声，而逻辑值1意味着对应VAD的输出指示了语音。在不同VAD 6.1、6.2、6.3中进行判决的次序对于结果没有影响，只要判决逻辑根据表1的真值表进行工作即可。

自相关VAD	频谱距离VAD	频谱平坦度VAD	判决
				0	0	0	0
0	0	1	0
				0	1	0	0
0	1	1	1
				1	0	0	1
1	0	1	1
				1	1	0	1
1	1	1	1

表1

另外，频谱平坦度VAD 6.3的内部判决逻辑可以表示为表2的真值表。列指示了高通判决块6.3.1、频谱分析块6.3.2和频谱平坦度VAD输出的判决。在该表中，在高通性质列中的逻辑值0意味着频谱没有高通性质，而逻辑值1意味着高通性质的频谱。在平坦频谱中的逻辑值0意味着频谱不平坦而逻辑值1意味着频谱平坦。

高通性质	平坦频谱	判决
			0	0	1
0	1	0
			1	0	1
1	1	1

表2

在图6.1的简化框图中仅使用频谱平坦度VAD 6.3实施话音活动检测器6，在图6.2中使用频谱平坦度VAD 6.3和频谱距离VAD 6.2实施话音活动检测器6，而在图6.3中使用频谱平坦度VAD 6.3、频谱距离VAD 6.2和自相关VAD 6.1实施话音活动检测器6。判决逻辑利用块6.6来描绘。在这些非限制性的示例性实施例中，不同VAD图示为并行的。

在下文中参照图3的流程图具体地描述与频谱平坦度VAD相结合地使用自相关VAD和频谱距离VAD的根据本发明一个示例性实施例的话音活动检测。

话音活动检测器6基于时域信号为自相关VAD 6.1计算自相关系数r(0)＝∑x²(t)和r(τ)＝∑x(t)x(t-τ)，τ＝16，...，81，而为频谱平坦度VAD 6.2计算最优一阶预测器A(z)＝1-az^-1，其中

a = \frac{Σx (t) x (t - 1)}{Σx {(t)}^{2}} .

然后，计算FFT以便为频谱平坦度VAD 6.2和为频谱距离VAD 6.3获得频域信号。频域信号用来评价与频带ω对应的有噪声的语音真的功率谱X(ω，n)。自相关系数、一阶预测器和FFT的计算在图2中图示为计算块6.2，但是不言而喻，该计算也可以在话音活动检测器6的其它部分中实施，例如与自相关VAD 6.1结合实施。在话音活动检测器6中，自相关VAD 6.1使用自相关系数来检查在帧中是否有周期性(在图3中的块301)。

所有自相关系数相对于0延迟系数r(0)来正规化，而在与范围[100，500]Hz内的频率对应的采样范围计算自相关系数的最大值max{r(16)，...，r(81)}。如果此值大于某一阈值(块302)，则该帧视为包含语音(箭头303)，如果不是则判决依赖于频谱距离VAD 6.2和频谱平坦度VAD 6.3。

自相关VAD产生语音检测信号S1用作为话音活动检测器6的输出(在图2中的块6.1和在图3中的块304)。然而，如果自相关VAD在帧的采样中没有找到足够的周期性，则自相关VAD不产生语音判决信号S1，但是它可以产生指示了信号没有周期性或者仅有较小周期性的非语音检测信号S2。然后，执行频谱距离话音活动检测(块305)。计算后验SNR之和

并且将它与预定阈值做比较(块306)。如果频谱距离VAD 6.2将帧归类为噪声(箭头307)，则这一指示S3用作话音活动检测器6的输出(在图2中的块6.5和在图3中的块315)。否则频谱平坦度VAD 6.3进行进一步动作以便判决在帧中是否有噪声或者现时语音。

频谱平坦度VAD 6.3接收最优一阶预测器A(z)＝1-az^-1和频谱X(ω，n)，因为需要对信号的进一步分析(块308)。首先，频谱平坦度VAD 6.3的高通检测块6.3.1检查预测器系数的值是否小于或者等于零a≤0(块309)。如果是这样，则将帧归类为语音，因为此参数指示了信号的频谱具有高通性质。在那一情况下，频谱平坦度VAD 6.3提供了语音指示S5(箭头310)。如果高通检测块6.3.1确定了条件a≤0对于当前帧并不成真，则它向频谱平坦度VAD 6.3的频谱分析块6.3.2给予指示S7。频谱分析块6.3.2利用

{| A (e^{{jω}_{m}}) |}^{2} = 1 + a^{2} - 2 a \cos ω_{m}

使频带ω加权(块311)。利用与ω的中部频率对应的值使频带频率ω_m正规化至(0，π)。然后比较加权频率|A(e^jωm)|²X(ω)的最大值和最小值(块312)。如果加权频率的最大值和最小值之比在阈值以下(例如12dB)则将帧归类为噪声(箭头313)并且形成指示S8。否则将帧归类为语音(箭头314)并且形成指示S9(块304)。如果频谱平坦度VAD 6.3确定该帧包含语音(上述的指示S5和S9)，则话音活动检测器6产生(有噪声的)语音指示(块304)。否则(上述的指示S8)话音活动检测器8产生噪声指示(块315)。

本发明例如可以在数字处理单元(DSP)中实施为计算机程序，在该计算机程序中可以提供用以执行话音活动检测的可由机器执行的步骤。

根据本发明的话音活动检测器6可以使用于噪声抑制器20中，例如使用于如上所示的发送设备中、使用于接收设备中或者使用于这二者中。话音活动检测器6以及语音处理器5的其它信号处理单元可以是设备1的发送功能和接收功能所共有的或者部分共有的。也有可能在***的其它部分中，例如在通信信道17的某一个或多个单元中实施根据本发明的话音活动检测器6。针对噪声抑制的典型应用与语音处理有关，其中意图在于使语音更令用户感觉愉悦和更为用户所理解或者在于改进语音编码。由于语音编码解码器针对语音而优化，所以噪声的有害效应可能很大。也有可能与不同于噪声抑制的其它用途相结合地使用根据本发明的话音活动检测器6，例如在间断的发送中用以指示何时应当发送语音或者噪声。

根据本发明的频谱平坦度VAD可以单独地用于话音活动检测和/或噪声估计，但是也有可能与频谱距离VAD(例如与在出版物WO01/37265中描述的频谱距离VAD)相结合地使用频谱平坦度VAD，以便在骤升噪声功率的情况下改进噪声估计。另外，也可以与自相关VAD相结合地使用频谱距离VAD和频谱平坦度VAD以便在低SNR时实现良好性能。

不言而喻，本发明不仅仅限于上述实施例，而是它可以在所附权利要求的范围之内有所修改。

Claims

1.一种包括话音活动检测器(6)的无线通信设备(1)，所述话音活动检测器(6)用于使用基于音频信号的采样而形成的数字数据来检测语音信号中的话音活动，其特征在于所述设备(1)的所述话音活动检测器(6)包括：

-第一单元(6.3.1)，适于检查所述音频信号是否具有高通性质，

-第二单元(6.3.2)，适于检查所述音频信号的频谱，以及

其中所述话音活动检测器(6)适于提供音频信号是否包含语音或非语音信号的指示，在满足以下条件之一时提供语音指示：

-所述第一单元(6.3.1)已经确定所述音频信号具有高通性质，或者

-所述第二单元(6.3.2)已经确定所述音频信号没有平坦的频率响应，

并且如果所述话音活动检测器(6)提供的指示表明所述音频信号不包含语音，则估计和更新噪声的频谱，并使用噪声的频谱来抑制所述音频信号中的噪声。

2.根据权利要求1所述的无线通信设备，其特征在于所述话音活动检测器(6)还适于在所述第一单元(6.3.1)已经确定所述音频信号没有高通性质而所述第二单元(6.3.2)已经确定所述音频信号具有平坦的频率响应时提供噪声指示。

3.根据权利要求1或2所述的无线通信设备，其特征在于所述话音活动检测器(6)还包括用于检查所述音频信号的频率属性并且用于基于所述检查来产生频谱距离检测数据的频谱距离话音活动检测器(6.2)，所述频谱距离检测数据提供语音指示或者噪声指示。

4.根据权利要求3所述的无线通信设备，其特征在于所述话音活动检测器(6)还包括用于检查所述音频信号的自相关属性并且用于基于所述检查来产生自相关检测数据的自相关话音活动检测器(6.1)，其中所述频谱距离话音活动检测器(6.2)适于在所述自相关检测数据没有指示语音时产生所述频谱距离检测数据。

5.根据权利要求4所述的无线通信设备，其特征在于所述话音活动检测器(6)包括用以基于其提供的音频信号是否包含语音或非语音信号的所述指示与自相关话音活动检测器(6.1)和频谱距离话音活动检测器(6.2)的指示的组合来形成判决信号的判决块(6.6)。

6.根据权利要求1或2所述的无线通信设备，其特征在于所述话音活动检测器(6)适于计算与所述数字数据的当前帧和先前帧对应的一阶预测器A(z)＝1-az^-1，其中所述预测器系数a按照下式来计算：

a = \frac{Σx (t) x (t - 1)}{Σx {(t)}^{2}} .

7.根据权利要求6所述的无线通信设备，其特征在于所述第一单元(6.3.1)还适于检查所述预测器系数a的值是否小于或者等于预定值以便在提供所述语音指示时使用所述检查的结果。

8.根据权利要求7所述的无线通信设备，其特征在于所述第二单元(6.3.2)还适于计算加权频谱估计并且比较加权频谱估计的最小值和最大值与第二预定值以便在提供噪声或者语音指示时使用所述比较的结果。

9.一种话音活动检测器(6)，用于使用基于音频信号的采样而形成的数字数据来检测语音信号中的话音活动，其特征在于所述话音活动检测器(6)包括：

-第二单元(6.3.2)，适于检查所述音频信号的频谱，以及

-并且如果所述话音活动检测器(6)提供的指示表明所述音频信号不包含语音，则估计和更新噪声的频谱，并使用噪声的频谱来抑制所述音频信号中的噪声。

10.根据权利要求9所述的话音活动检测器(6)，其特征在于所述话音活动检测器(6)还适于在所述第一单元(6.3.1)已经确定所述音频信号没有高通性质而所述第二单元(6.3.2)已经确定所述音频信号具有平坦的频率响应时提供噪声指示。

11.根据权利要求9或10所述的话音活动检测器(6)，其特征在于所述话音活动检测器(6)还包括用于检查所述音频信号的频率属性并且用于基于所述检查来产生频谱距离检测数据的频谱距离话音活动检测器(6.2)，所述频谱距离检测数据提供语音指示或者噪声指示。

12.根据权利要求11所述的话音活动检测器(6)，其特征在于所述话音活动检测器(6)还包括用于检查所述音频信号的自相关属性并且用于基于所述检查来产生自相关检测数据的自相关话音活动检测器(6.1)，其中所述频谱距离话音活动检测器(6.2)适于在所述自相关检测数据没有指示语音时产生所述频谱距离检测数据。

13.根据权利要求12所述的话音活动检测器(6)，其特征在于所述话音活动检测器(6)包括用以基于其提供的音频信号是否包含语音或非语音信号的所述指示与自相关话音活动检测器(6.1)和频谱距离话音活动检测器(6.2)的指示的组合来形成判决信号的判决块(6.6)。

14.根据权利要求12所述的话音活动检测器(6)，其特征在于所述频谱距离检测数据包括自相关参数，其中所述第一单元(6.3.1)适于检测所述自相关参数以确定所述音频信号的高通性质。

15.根据权利要求9或10所述的话音活动检测器(6)，其特征在于所述话音活动检测器(6)适于计算与所述数字数据的当前帧和先前帧对应的一阶预测器A(z)＝1-ax^-1，其中所述预测器系数a按照下式来计算：

a = \frac{Σx (t) x (t - 1)}{Σx {(t)}^{2}} .

16.根据权利要求15所述的话音活动检测器(6)，其特征在于所述第一单元(6.3.1)还适于检查所述预测器系数a的值是否小于或者等于预定值以便在提供所述语音指示时使用所述检查的结果。

17.根据权利要求16所述的话音活动检测器(6)，其特征在于所述第二单元(6.3.2)还适于计算加权频谱估计并且用以比较加权频谱估计的最小值和最大值与第二预定值以便在提供噪声或者语音指示时使用所述比较的结果。

18.一种用于使用基于音频信号的采样而形成的数字数据来检测语音信号中的话音活动的方法，其特征在于所述方法包括：

-检查所述音频信号是否具有高通性质，以及

-检查所述音频信号的频谱，

-提供音频信号是否包含语音或非语音信号的指示，在满足以下条件之一时提供语音指示：

-确定所述音频信号具有高通性质，或者

-确定所述音频信号没有平坦的频率响应，以及

-并且如果所述提供的指示表明所述音频信号不包含语音，则估计和更新噪声的频谱，并使用噪声的频谱来抑制所述音频信号中的噪声。

19.根据权利要求18所述的方法，其特征在于所述方法包括：在确定所述音频信号没有高通性质并且所述音频信号具有平坦的频率响应时提供噪声指示。

20.根据权利要求18或19所述的方法，其特征在于所述方法还包括：检查所述音频信号的频率属性并且基于所述检查来产生频谱距离检测数据，所述频谱距离检测数据提供语音指示或者噪声指示。

21.根据权利要求20所述的方法，其特征在于所述方法还包括：检查所述音频信号的自相关属性并且基于所述检查来产生自相关检测数据，其中所述方法包括：在所述自相关检测数据没有指示语音时产生所述频谱距离检测数据。

22.根据权利要求21所述的方法，其特征在于所述方法还包括：基于提供的音频信号是否包含语音或非语音信号的所述指示与所述自相关检测数据和频谱距离检测数据的指示的组合来形成判决信号。

23.根据权利要求21所述的方法，其特征在于所述频谱距离检测数据包括自相关参数，其中所述方法包括：检测所述自相关参数以确定所述音频信号的高通性质。

24.根据权利要求18或19所述的方法，其特征在于所述方法包括：计算与所述数字数据的当前帧和先前帧对应的一阶预测器A(z)＝1-az^-1，其中所述预测器系数a按照下式来计算：

a = \frac{Σx (t) x (t - 1)}{Σx {(t)}^{2}} .

25.根据权利要求24所述的方法，其特征在于检查所述音频信号是否具有高通性质包括：检查所述预测器系数a的值是否小于或者等于预定值，并且在提供所述语音指示时使用所述检查的结果。

26.根据权利要求25所述的方法，其特征在于检查所述音频信号的频谱包括：计算加权频谱估计，并且比较所述加权频谱估计的最小值和最大值与第二预定值，而且在提供噪声或者语音指示时使用所述比较的结果。