CN104810018A

CN104810018A - 基于动态累积量估计的语音信号端点检测方法

Info

Publication number: CN104810018A
Application number: CN201510222045.8A
Authority: CN
Inventors: 吴小培; 吕钊; 罗雅琴; 张超; 周蚌艳; 张磊; 郭晓静; 高湘萍
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2015-04-30
Filing date: 2015-04-30
Publication date: 2015-07-29
Anticipated expiration: 2035-04-30
Also published as: CN104810018B

Abstract

本发明公开了一种基于动态累积量估计的语音端点检测方法，包括了基于滑动窗的高阶累积量递推计算和基于滑动窗峭度的端点检测。基于滑动窗的高阶累积量递推计算是指对原始样本数据加矩形窗，对窗内数据进行累积量估计，每滑动一个样本点对窗内数据进行更新，实现累积量的动态估计。基于滑动窗峭度的端点检测是结合高阶累积量递推计算方法计算滑动窗峭度和能量特征进行语音信号的端点检测。本发明相比现有技术具有以下优点：本发明中的基于动态累积量估计的语音信号端点检测方法是基于滑动窗峭度、能量双门限的端点检测，参数滑动窗峭度对语音段起始点具有较强敏感性且对噪声具有更好的抗干扰能力，在噪声环境下具有较好的鲁棒性。

Description

基于动态累积量估计的语音信号端点检测方法

技术领域

本发明涉及数据统计分析和信号处理领域，尤其涉及一种基于动态累积量估计的语音信号端点检测方法。

背景技术

随着人-机交互技术的日益发展，语音识别已经成为当前人工智能与模式识别领域研究的重点。语音是人类最重要和最方便的信息传递方式，也是实现人-机交互的最直接途径之一。让机器能够准确地识别出语音命令并执行相应的操作，具有重大的实际意义，相关研究在医学、军事和工业等诸多领域有着广阔的应用前景。作为语音识别的前端处理，语音端点检测的目标是为了区分语音信号的有声段和无声段。高效准确的端点检测能够大幅减轻语音信号识别***的负荷，降低***响应时间，增强***鲁棒性。四阶累积量即峭度常被用来度量信号的非高斯性。在语音信号处理中，通常假设噪声近似满足高斯分布，其高阶累积量相对较小(理想高斯分布的高阶累积量为零)。因此，基于高阶累积量的语音信号处理方法往往具有更好的抗干扰性能。但是由于峭度等高阶累积量的计算量较大，且数值计算的稳定性也较差，因此在实际应用中受到了一定的限制。

经典累积量估计算法是批处理算法，运算量和数据存储量都很大，不适合动态数据的在线处理，并且算法对观察数据中的“野值(outlier)”也比较敏感。为了解决上述问题，累积量的在线估计算法被提出，有效改善了其动态估计性能。不过现有的在线算法是基于全部历史数据而建立的，而在实际应用中，近期数据段数据的统计特性往往更具参考价值。并且由于数据的非平稳性存在，早期的历史数据与近期的数据之间一般不存在大的相关性。因此采用全部历史数据进行统计分析不仅不能提高估计精度，相反可能还会掩盖真实的数据统计特性。另外，在真实环境下的数据采集过程中，随机出现的大幅度野值干扰会给统计分析结果造成很大误差。由于传统的在线算法依赖全部信号数据，因此野值引起的误差具有很强的传递性。

发明内容

本发明的目的在于克服现有技术的不足，提供了一种基于动态累积量估计的语音信号端点检测方法。

本发明是通过以下技术方案实现的：一种基于动态累积量估计的语音信号端点检测方法,包括如下步骤：

(1)、基于滑动窗的高阶累积量递推估算：对原始样本数据进行加窗操作，对窗内数据进行累积量的估计，并且每次滑动一个样本点对窗内数据进行更新，实现累积量的动态估计；

(2)、基于滑动窗峭度的端点检测：结合步骤(1)的基于滑动窗的高阶累积量递推估算，估算出滑动窗峭度和能量特征，基于滑动窗峭度和能量特征进行语音信号的端点检测。

作为上述方案的进一步优化，所述步骤(1)的基于滑动窗的高阶累积量递推估算包括如下步骤：

(11)、滑动窗化：对原始样本数据进行加窗，实现对窗内所有样本点的高阶累积量递推估计；

(12)、递推估计：在滑动窗内通过对步骤(11)推导出的高阶累积量递推计算公式，实现对滑动窗内所有样本点数据高阶累积量的递推估计。

作为上述方案的进一步优化，步骤(11)滑动窗化是通过矩形窗对原始样本数据进行截取，每滑动一个样本点对矩形窗内数据进行更新，实现对窗内所有样本点的高阶累积量递推估计。

作为上述方案的进一步优化，步骤(12)的高阶累积量递推计算公式为如下：

数据集x_a和x_b，对应样本数分别为n_a,n_b；结合数据集x_a和x_b的新数据集x＝{x_a,x_b}，对应样本长度为n＝n_a+n_b，的均值为μ，k^th平方和为S_k；

数据集x＝{x_a,x_b}基于滑动窗的2-4阶累积量递推计算公式表示如下：

C_{2}^{(w)} (n) = \frac{S_{2}^{(w)} (n)}{L} - - - (6 a)

C_{3}^{(w)} (n) = \frac{\sqrt{L} S_{3}^{(w)} (n)}{{(\sqrt{S_{2}^{(w)} n})}^{3}} - - - (6 b)

C_{4}^{(w)} (n) = \frac{{LS}_{4}^{(w)} (n)}{{[S_{2}^{(w)} n]}^{2}} - 3 - - - (6 c)

其中，取滑动窗的窗长为L，n时刻滑动窗内L个数据的均值为μ^(w)(n)，k^th平方和为μ^(w)(n)和取n-L＝n_L，

μ^{(w)} (n) = \frac{n}{L} [μ (n) - μ (n_{L})] + μ (n_{L}) - - - (4 a)

S_{2}^{(w)} (n) = S_{2} (n) - S_{2} (n_{L}) - \frac{n_{L} L}{n} {[μ^{(w)} (n) - μ (n_{L})]}^{2} - - - (4 b)

\begin{matrix} S_{3}^{(w)} (n) = S_{3} (n) - S_{3} (n_{L}) - {Ln}_{L} (n - 2 L) \frac{{[μ^{(w)} (n) - μ (n_{L})]}^{3}}{n^{2}} \\ - 3 [n_{L} S_{2}^{(w)} - L S_{2} (n_{L})] \frac{[μ^{(w)} (n) - μ (n_{L})]}{n} \end{matrix} - - - (4 c)

\begin{matrix} S_{4}^{(w)} (n) = S_{4} (n) - S_{4} (n_{L}) - {Ln}_{L} (n^{2} - 3 nL + {3 L}^{2}) \frac{{[μ^{(w)} (n) - μ (n_{L})]}^{4}}{n^{3}} \\ - 6 [L^{2} S_{2} (n_{L}) + {n_{L}}^{2} S_{2}^{(w)} (n)] \frac{{[μ^{(w)} (n) - μ (n_{L})]}^{2}}{n^{2}} \\ - 4 [n_{L} S_{3}^{(w)} (n) - L S_{3} (n_{L})] \frac{μ^{(w)} (n) - μ (n_{L})}{n} \end{matrix} - - - (4 d)

其中，μ(n)和S_k(n)分别为n时刻前所有历史数据的方差和k^th平方和，μ(n_L)和S_k(n_L)分别为n_L时刻前所有历史数据的方差和k^th平方和。

作为上述方案的进一步优化，高阶累积量递推计算公式的递推估计方法如下：

(51)开辟动态存储单元

对数据集x＝{x_a,x_b}的均值为μ，k^th平方和为S_k，计算样本点x(1)～x(L)所对应的均值μ，k^th平方和S_k，开辟4L大小的存储单元存放该组值；

其中，

μ = \frac{1}{Len} Σ_{i = 1}^{Len} x_{i} - - - (2 a)

S_{k} = Σ_{i = 1}^{Len} {(x_{i} - μ_{x})}^{k} - - - (2 b)

Len表示样本长度，x_i表示样本中的样本点，μ_x表示样本x的均值。

(52)初始值计算

利用当前时刻n的样本值x(n)和存储单元中已保存的n-1时刻均值和k^th平方和μ(n-1)、S_k(n-1)，计算初始值当前时刻n的均值μ(n)，和k^th平方和S_k(n)：

μ (n) = μ (n - 1) + \frac{1}{n} [x (n) - μ (n - 1)] - - - (7 a)

S₂(n)＝S₂(n-1)+[x(n)-μ(n-1)][x(n)-μ(n)] (7b)

\begin{matrix} S_{3} (n) = S_{3} (n - 1) + \frac{3 [μ (n - 1) - x (n)] S_{2} (n - 1)}{n} + \\ \frac{{[x (n) - μ (n - 1)]}^{3} (n - 1) (n - 2)}{n^{2}} \end{matrix} - - - (7 c)

\begin{matrix} S_{4} (n) = S_{4} (n - 1) + \frac{{[x (n) - μ (n - 1)]}^{4} (n - 1) (n^{2} - 3 n + 3)}{n^{3}} + \\ \frac{6 {[x (n) - μ (n - 1)]}^{2} S_{2} (n - 1)}{n^{2}} - \frac{4 [x (n) - μ (n - 1)] S_{3} (n - 1)}{n} \end{matrix} - - - (7 d)

根据(7a)-(7d)式的累积量在线估计方法，求取当前时刻n的均值和k^th平方和μ(n)、S_k(n)；

(53)滑动窗动态估计

(531)滑动窗均值和k^th平方和μ^(w)(n)、的计算

利用在线估计中得到的当前时刻n的均值和k^th平方和μ(n)、S_k(n)以及存储单元中已保存的n_L＝n-L时刻的均值和k^th平方和μ(n_L)、S_k(n_L)，根据(4a)-(4d)式的基于滑动窗累积量动态估计方法，求取当前时刻n的滑动窗均值和k^th平方和μ^(w)(n)、

(532)滑动窗2-4阶累积量的计算

利用步骤(5.3.1)滑动窗估计中得到的当前时刻n的滑动窗均值和k^th平方和μ^(w)(n)、根据(6a)-(6c)式的滑动窗累积量递推计算公式，求取当前时刻n的滑动窗2-4阶累积量(k＝2～4)；

(54)动态更新存储单元

在计算出当前时刻n的滑动窗均值和k^th平方和μ^(w)(n)、之后，在滑动窗移动之前，用步骤(52)在线估计中所得到的μ(n)、S_k(n)值更新动态存储单元里的内容，使得滑动窗滑动一个样本点后，动态存储单元中保存的仍是当前时刻前L个均值和k^th平方和值。

作为上述方案的进一步优化，所述步骤(2)的基于滑动窗峭度的端点检测的控制算法如下：

(201)用滑动窗递推算法估计语音信号的峭度值Kurtosis(n)，并记录下中间值S₂(n)；其中n＝1:length(x)，x是待处理的语音信号，length(x)是待处理语音信号的长度；

(202)根据步骤(201)估计得到的峭度值Kurtosis(n)和中间值S₂(n)设置峭度门限kurt和能量门限amp，进入步骤(203)；

(203)(203)赋值初始化参数，初始化设定语音段所允许的最小样本点数和空白段所允许的最大样本点数，设定语音段样本点数Speechcount＝0；空白段样本点数Nonspeechcount＝0；后进入步骤(204)

(204)遍历峭度值Kurtosis(n)，判断峭度值Kurtosis(n)是否大于峭度门限kurt；

(205)将峭度值Kurtosis(n)大于峭度门限kurt的峭度值对应的点标记为起始点Start；并从Start向后搜索，进入步骤(207)；

(206)若峭度值Kurtosis(n)不大于峭度门限kurt的峭度值，对峭度值Kurtosis(n)进行赋值循环n＝n+1，并返回步骤(205)；

(207)将后续点对应的中间值S₂(n)值与能量门限amp作比较；

(208)若后续点对应的中间值S₂(n)值大于能量门限amp，表示该点在语音段，语音段样本点Speechcount加1，返回步骤(207)；

(209)若后续点对应的中间值S₂(n)值不大于能量门限amp，表示该点在空白段，空白段样本点数Nonspeechcount加1，进入步骤(210)；

(210)判断当前的Nonspeechcount是否大于空白段所允许的最大样本点数Maxnonspeechcount；

(211)若当前的Nonspeechcount大于空白段所允许的最大样本点数Maxnonspeechcount，判断当前的语音段样本点Speechcount是否大于语音段所允许的最小样本点数Minspeechcount，进入步骤(213)；

(212)若当前的语音段样本点Speechcount不大于语音段所允许的最小样本点数Minspeechcount，表示该点仍在语音段，并对将后续点对应的中间值S₂(n)，进行赋值循环n＝n+1，并返回步骤(207)；

(213)判断当前的语音段样本点Speechcount是否大于语音段所允许的最小样本点Minspeechcount；

(214)若当前的语音段样本点Speechcount不大于语音段所允许的最小样本点Minspeechcount，返回步骤(203)，重置语音段样本点数Speechcount和空白段样本点数Nonspeechcount为0，重新寻找起始点；

(215)若当前的语音段样本点Speechcount大于语音段所允许的最小样本点Minspeechcount；表示该点保持在语音段，其中语音段区间[Start,Start+speechcount+nonspeechcount-1]。

本发明相比现有技术具有以下优点：本发明中的基于动态累积量估计的语音信号端点检测方法是基于滑动窗峭度和能量双门限的端点检测算法，参数滑动窗峭度对语音段起始点具有较强敏感性且对噪声具有更好的抗干扰能力，在语音信号处理中，通常假设噪声近似满足高斯分布，其高阶累积量相对较小，理想高斯分布的高阶累积量为零，基于高阶累积量的语音信号处理方法往往具有更好的抗干扰性能，本发明在噪声环境下具有更好的鲁棒性。

本发明中的基于动态累积量估计的语音信号端点检测方法，其中给出的基于滑动窗累积量递推计算方法计算出的累积量值与传统直接计算方法计算出的值结果相差很小，对语音信号的测试结果表明，两种算法计算出的2-4阶累积量的误差分别10^-15、10^-10和10^-7，可以直接忽略不计。

在实际应用中，由于数据的非平稳性存在，早期的历史数据与近期的数据一般不存在大的相关性，近期数据段的统计特性往往更具有参考价值，而且在真实环境下的数据采集过程中，随机出现的大幅度野值干扰会给统计分析结果造成很大误差。本发明中的基于动态累积量估计的语音信号端点检测方法，其中给出的基于滑动窗累积量递推计算方法是基于滑动窗内的样本数据，有效避免上述所存在的问题，在真实环境下具有更强的应用价值。本发明还可应用于生物电信号(脑电信号EEG/眼电信号EOG/心电信号ECG)和语音信号的动态分析中。

附图说明

图1为本发明的滑动窗的结构示意图。

图2为本发明的滑动窗累积量估计的递推算法实现框图。

图3为利用本发明的滑动窗递推计算与直接计算的运算时间对比图。

图4-A—图4-D为本发明优选实施针对语音信号递推计算和直接计算得到的方差滑动窗估计的动态波形及对应的误差曲线示意图。

图5-A—图5-D为本发明优选实施针对语音信号递推计算和直接计算得到的偏斜度滑动窗估计得到的动态波形及对应的误差曲线示意图。

图6-A—图6-D为本发明优选实施针对语音信号递推计算和直接计算得到的峭度滑动窗估计动态波形及对应的误差曲线示意图。

图7为基于滑动窗峭度的端点检测的控制算法流程图。

图8-A—图8-C为本发明的优选实施例的一段实测语音信号波形图及相应峭度和能量变化示意图。

图9-A—图9-F-1在不同噪声环境下(SNR＝5dB)的孤立词语音及其对应峭度的变化示意图。

图10-A—图10-F-1在不同噪声环境下(SNR＝5dB)的连续语音及其对应峭度的变化示意图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

参见图1，为本发明的滑动窗的结构示意图。本实施例中，滑动窗是通过矩形窗对原始样本数据进行截取，以便在任意时刻获得同等长度的待处理数据，累积量的估计是基于滑动窗内L个样本数据的，每次滑动一个样本点对窗内数据进行更新，再重新进行累积量的估计，从而实现累积量的动态估计。

任意两数据集x_a和x_b，对应样本数分别为n_a,n_b，数据集x_a和x_b结合后的新的数据集x＝{x_a,x_b}的样本长度为n＝n_a+n_b，其均值μ和k^th平方和S_k为：

μ = μ^{(a)} + (μ^{(b)} - μ^{(a)}) \frac{n_{b}}{n} - - - (1 a)

S_{2} = S_{2}^{(a)} + S_{2}^{(b)} + \frac{n_{a} n_{b}}{n} {(μ^{(b)} - μ^{(a)})}^{2} - - - (1 b)

S_{3} = S_{3}^{(a)} + S_{3}^{(b)} + n_{a} n_{b} (n_{a} - n_{b}) \frac{{(μ^{(b)} - μ^{(a)})}^{3}}{n^{2}} + 3 (n_{a} S_{2}^{(b)} - n_{b} S_{2}^{(a)}) \frac{(μ^{(b)} - μ^{(a)})}{n} - - - (1 c)

\begin{matrix} S_{4} = S_{4}^{(a)} + S_{4}^{(b)} + n_{a} n_{b} (n_{a}^{2} - n_{a} n_{b} + n_{b}^{2}) \frac{{(μ^{(b)} - μ^{(a)})}^{4}}{n^{3}} + \\ 6 (n_{b}^{2} S_{2}^{(a)} + n_{a}^{2} S_{2}^{(b)}) \frac{{(μ^{(b)} - μ^{(a)})}^{2}}{n^{2}} + 4 (n_{a} S_{3}^{(b)} - n_{b} S_{3}^{(a)}) \frac{(μ^{(b)} - μ^{(a)})}{n} \end{matrix} - - - (1 d)

其中，μ和S_k分别表示样本x的均值和k^th平方和，其中上标(a),(b)分别表示统计量是基于数据样本集x_a和x_b的。μ和S_k的定义分别如下所示：

μ = \frac{1}{Len} Σ_{i = 1}^{Len} x_{i} - - - (2 a)

S_{k} = Σ_{i = 1}^{Len} {(x_{i} - μ_{x})}^{k} - - - (2 b)

其中Len表示样本长度，x_i表示样本中的样本点，μ_x表示样本x的均值。其中，μ表示方差，为表述方便，下文中S_k统称为k^th平方和。

根据滑动窗化思想，对原始样本数据加窗，累积量的估计是基于滑动窗内样本数据的，参照(1a)-(1d)式，滑动窗估计可看成是对x_b样本集数据的累积量估计。将(1a)-(1d)改写成如下形式：

μ^{(b)} = \frac{n}{n_{b}} (μ - μ^{(a)}) + μ^{(a)} - - - (3 a)

S_{2}^{(b)} = S_{2} - S_{2}^{(a)} - \frac{n_{a} n_{b}}{n} {(μ^{(b)} - μ^{(a)})}^{2} - - - (3 b)

S_{3}^{(b)} = S_{3} - S_{3}^{(a)} - n_{a} n_{b} (n_{a} - n_{b}) \frac{{(μ^{(b)} - μ^{(a)})}^{3}}{n^{2}} - 3 (n_{a} S_{2}^{(b)} - n_{b} S_{2}^{(a)}) \frac{(μ^{(b)} - μ^{(a)})}{n} - - - (3 c)

\begin{matrix} S_{4}^{(b)} = S_{4} - S_{4}^{(a)} - n_{a} n_{b} (n_{a}^{2} - n_{a} n_{b} + n_{b}^{2}) \frac{{(μ^{(b)} - μ^{(a)})}^{4}}{n^{3}} - \\ 6 (n_{b}^{2} S_{2}^{(a)} + n_{a}^{2} S_{2}^{(b)}) \frac{{(μ^{(b)} - μ^{(a)})}^{2}}{n^{2}} - 4 (n_{a} S_{a}^{(b)} - n_{b} S_{3}^{(a)}) \frac{(μ^{(b)} - μ^{(a)})}{n} \end{matrix} - - - (3 d)

令滑动窗窗长为L，n时刻滑动窗内L个数据的均值和k^th平方和分别为μ^(w)(n)和为了表述方便，令n-L＝n_L，则滑动窗内数据相当于数据样本集x_b，滑动窗前所有历史数据相当于数据样本集x_a，则(3a)(3d)-式改写如下：

μ^{(w)} (n) = \frac{n}{L} [μ (n) - μ (n_{L})] + μ (n_{L}) - - - (4 a)

S_{2}^{(w)} (n) = S_{2} (n) - S_{2} (n_{L}) - \frac{n_{L} L}{n} {[μ^{(w)} (n) - μ (n_{L})]}^{2} - - - (4 b)

\begin{matrix} S_{3}^{(w)} (n) = S_{3} (n) - S_{3} (n_{L}) - {Ln}_{L} (n - 2 L) \frac{{[μ^{(w)} (n) - μ (n_{L})]}^{3}}{n^{2}} \\ - 3 [n_{L} S_{2}^{(w)} - L S_{2} (n_{L})] \frac{[μ^{(w)} (n) - μ (n_{L})]}{n} \end{matrix} - - - (4 c)

\begin{matrix} S_{4}^{(w)} (n) = S_{4} (n) - S_{4} (n_{L}) - {Ln}_{L} (n^{2} - 3 nL + {3 L}^{2}) \frac{{[μ^{(w)} (n) - μ (n_{L})]}^{4}}{n^{3}} \\ - 6 [L^{2} S_{2} (n_{L}) + {n_{L}}^{2} S_{2}^{(w)} (n)] \frac{{[μ^{(w)} (n) - μ (n_{L})]}^{2}}{n^{2}} \\ - 4 [n_{L} S_{3}^{(w)} (n) - L S_{3} (n_{L})] \frac{μ^{(w)} (n) - μ (n_{L})}{n} \end{matrix} - - - (4 d)

μ(n)和S_k(n)是n时刻前所有历史数据的方差和k^th平方和，μ(n_L)和S_k(n_L)是n_L时刻前所有历史数据的方差和k^th平方和。

由于μ和S_k与2-4阶累积量具有如下关系：

σ^{2} = E {{(x - μ)}^{2}} = \frac{S_{2}}{L} - - - (5 a)

C_{3} = \frac{E {{(x - μ)}^{3}}}{σ^{3}} = \frac{\sqrt{L} S_{3}}{{(\sqrt{S_{2}})}^{3}} - - - (5 b)

C_{4} = \frac{E {{(x - μ)}^{4}}}{σ^{4}} - 3 = \frac{{LS}_{4}}{S_{2}^{2}} - 3 - - - (5 c)

其中σ²、C₃、C₄分别表示样本的方差、偏斜度和峭度。

则根据(5a)-(5c)式给出的2-4阶累积量与S_k的计算关系，可以得到滑动窗累积量递推计算公式如下：

C_{2}^{(w)} (n) = \frac{S_{2}^{(w)} (n)}{L} - - - (6 a)

C_{3}^{(w)} (n) = \frac{\sqrt{L} S_{3}^{(w)} (n)}{{(\sqrt{S_{2}^{(w)} (n)})}^{3}} - - - (6 b)

C_{4}^{(w)} (n) = \frac{{LS}_{4}^{(w)} (n)}{{[S_{2}^{(w)} n]}^{2}} - 3 - - - (6 c)

其中分别表示基于滑动窗的2-4阶累积量。

参见图2，为本发明的滑动窗累积量估计的递推算法实现框图，本实施例中滑动窗累积量估计的递推算法实施过程，包括如下步骤：

步骤1、利用(2a)-(2b)式直接计算方法计算第一个样本点到第L个样本点，即起始位置窗内样本数据，所对应的方差μ和k^th平方和S_k，并保存。

步骤2、初始值计算：滑动窗滑动一个样本点，

μ (n) = μ (n - 1) + \frac{1}{n} [x (n) - μ (n - 1)] - - - (7 a)

S₂(n)＝S₂(n-1)+[x(n)-μ(n-1)][x(n)-μ(n)] (7b)

\begin{matrix} S_{3} (n) = S_{3} (n - 1) + \frac{3 [μ (n - 1) - x (n)] S_{2} (n - 1)}{n} + \\ \frac{{[x (n) - μ (n - 1)]}^{3} (n - 1) (n - 2)}{n^{2}} \end{matrix} - - - (7 c)

\begin{matrix} S_{4} (n) = S_{4} (n - 1) + \frac{{[x (n) - μ (n - 1)]}^{4} (n - 1) (n^{2} - 3 n + 3)}{n^{3}} + \\ \frac{6 {[x (n) - μ (n - 1)]}^{2} S_{2} (n - 1)}{n^{2}} - \frac{4 [x (n) - μ (n - 1)] S_{3} (n - 1)}{n} \end{matrix} - - - (7 d)

步骤3、滑动窗动态估计：根据(4a)-(4d)式滑动窗累积量递推算法，利用步骤2中求解出的前时刻n的方差μ(n)和k^th平方和S_k(n)和已保存的n_L＝n-L时刻的方差μ(n_L)和k^th平方和S_k(n_L)求解当前时刻n的滑动窗方差μ^(w)(n)和滑动窗k^th平方和并且保存μ(n)和k^th平方和S_k(n)这组值，更新存储单元中的数据，以便滑动窗滑动一个样本点之后，动态存储单元中保存的仍是当前时刻前L个均值和k^th平方和值。再根据(6a)-(6c)式求解2～4阶累积量(k＝2～4)。

步骤4、更新存储单元的内容：利用在线估计模块中计算出的当前时刻n的方差μ(n)和k^th平方和S_k(n)更新存储单元的内容，以便滑动窗滑动一个样本点后，存储单元中存放的仍是当前时刻前L个样本点的均值和k^th平方和。

本发明中所涉及的滑动窗累积量递推计算方法具有较高的运算效率。本发明采用递推算法动态地求解累积量，算法运算量大幅度降低，运算效率明显优于传统直接计算。表1给出的是基于(5a)-(5c)式递推计算和(2a)-(2b)式直接计算进行方差μ^(w)(n)和估计时所需的“加法”和“乘法”运算次数。

表1 计算复杂度比较

从表1中可以看到，直接计算的运算量与L成正比，而递推计算的运算量与滑动窗长度无关。在对实测数据进行统计分析时，L值一般较大，因此在计算速度上，递推算法比直接计算有明显的优势。

参见图3，为利用本发明的滑动窗递推计算与直接计算的运算时间对比图。从图中可以看出，在样本数据相同的情况下，递推计算的运算时间远小于直接计算。直接计算运算时间随着样本数据的增加上升幅度较大，在1到10的范围内，当样本数据点数为100000时，运算时间接近40秒，而递推算法的运算时间上升幅度在10^-2到10^-1范围内，而且远小于直接计算。

参见图4-A-图4-D，为本发明优选实施针对语音信号递推计算和直接计算得到的方差滑动窗估计的动态波形对应的误差曲线随着纵坐标amplitude(幅值)变化的波形示意图。其中，图4-A是一段实测语音信号的波形图，图4-B是递推计算得到的方差值的波形图，图4-C是直接计算得到的方差值的波形图，图4-D是两种计算方法的误差值的波形图。从图中可以看出两者的误差值是10^-15，误差值可以忽略不计。

参见图5-A-图5-D，为本发明优选实施针对语音信号递推计算和直接计算得到的偏斜度滑动窗估计得到的动态波形及对应的误差曲线随着纵坐标amplitude(幅值)变化的波形示意图。其中，图5-A是一段实测语音信号的波形图，图5-B是递推计算得到的偏斜度值的波形图，图5-C是直接计算得到的偏斜度值的波形图，图5-D是两种计算方法的误差值的波形图。从图中可以看出两者的误差值是10^-10，误差值可以忽略不计。

参见图6-A-图6-D，为本发明优选实施针对语音信号递推计算和直接计算得到的峭度滑动窗估计动态波形及对应的误差曲线随着纵坐标amplitude(幅值)变化的波形示意图。其中，图6-A是一段实测语音信号的波形图，图6-B是递推计算得到的峭度值的波形图，图6-C是直接计算得到的峭度值的波形图，图6-D是两种计算方法的误差值的波形图。从图中可以看出两者的误差值是10^-7，误差值可以忽略不计。

参考图7，为本发明的优选实施例的基于滑动窗峭度的端点检测的控制算法流程图，从(4d)式可以看出，在滑动窗峭度递推计算过程中产生的中间值S₂可被用作为滑动窗信号的能量特征，因此检测中所需能量特征参数无需额外计算。图中所示参数定义如下：Speechcount表示语音段样本点数；Nonspeechcount表示空白段样本点数；Minspeechcount表示语音段所允许的最小样本点数；Maxnonspeechcount表示空白段所允许的最大样本点数；Minspeechcount和Maxnonspeechcount分别设置为256和1024。针对某段特定的语音信号，我们根据经验设置峭度门限值，实验中利用公式threshold＝max(Kurtosis)/10来计算其峭度门限kurt。

本发明的基于滑动窗峭度的端点检测的控制算法，包括如下步骤：

(201)用滑动窗递推算法估计语音信号的峭度值Kurtosis(n)，并记录下中间值S₂(n)；

其中n＝1:length(x)，x是待处理的语音信号，length(x)是待处理语音信号的长度；

(203)赋值初始化参数，后进入步骤(204)

语音段样本点数Speechcount＝0；空白段样本点数Nonspeechcount＝0；

语音段所允许的最小样本点数Minspeechcount和空白段所允许的最大样本点数Maxnonspeechcount分别设置为256和1024；

(205)将峭度值Kurtosis(n)大于峭度门限kurt的峭度值对应的点标记为起始点Start；并从Start向后搜索，进入步骤(27)；

(207)将后续点对应的中间值S₂(n)值与能量门限amp作比较；

参见图8-A-图8-C，为本发明的优选实施例的一段实测语音信号波形图及相应峭度和能量变化示意图。图8-A为一段实测语音信号的原始语音信号的波形图，图8-B为实测语音对应的峭度值的波形图，显示峭度值在进入语音段时会发生较明显的变化，因此可以此作为检测语音段起始点的判断依据。图8-C为实测语音对应的能量变化示意图，图中能量波形则反映了语音和非语音段能量的总体变化。直观上两者的结合有利于改善语音段的检测精度。

参见图9-A—图9-F-1，为在不同噪声环境下(SNR＝5dB)的孤立词语音及其对应峭度。本实例中一段孤立词语音及其在5dBwhite、pink、m109、f16、babble噪声下的信号波形及其对应的滑动窗峭度随着纵坐标amplitude(幅值)变化的波形图。图10-A为一段孤立词语音的原始语音信号的波形图，图10-A-1为一段孤立词语音的原始语音对应的峭度值的波形图。图10-B为一段孤立词语音加white噪声语音信号的波形图，图10-B为一段孤立词语音加5dBwhite噪声语音对应的峭度值的波形图。图10-C为一段孤立词语音加pink噪声语音信号的波形图，图10-C-1为一段孤立词语音加5dBpink噪声语音对应的峭度值的波形图。图10-D为一段孤立词语音加m109噪声语音信号的波形图，图10-D-1为一段孤立词语音加5dBm109噪声语音对应的峭度值的波形图。图10-E为一段孤立词语音加f16噪声语音信号的波形图，图10-E-1为一段孤立词语音加5dBf16噪声语音对应的峭度值的波形图。图10-F为一段孤立词语音加babble噪声语音信号的波形图，图10-F-1为一段孤立词语音加5dBbabble噪声语音对应的峭度值的波形图。从图中可以看出，对于混有不同噪声的孤立词语音信号，其滑动窗峭度与纯净语音信号的滑动窗峭度具有相似的波形，在进入语音段时峭度值会发生较明显的变化。

参见图10-A—图10-F-1，在不同噪声环境下(SNR＝5dB)的连续语音及其对应峭度的变化示意图。本实例中一段连续语音及其在5dBwhite、pink、m109、f16、babble噪声下的信号波形及其对应的滑动窗峭度随着纵坐标amplitude(幅值)变化的波形图。图10-A为一段连续语音的原始语音信号的波形图，图10-A-1为一段连续语音的原始语音对应的峭度值的波形图。图10-B为一段连续语音加white噪声语音信号的波形图，图10-B为一段连续语音加5dBwhite噪声语音对应的峭度值的波形图。图10-C为一段连续语音加pink噪声语音信号的波形图，图10-C-1为一段连续语音加5dBpink噪声语音对应的峭度值的波形图。图10-D为一段连续语音加m109噪声语音信号的波形图，图10-D-1为一段连续语音加5dBm109噪声语音对应的峭度值的波形图。图10-E为一段连续语音加f16噪声语音信号的波形图，图10-E-1为一段连续语音加5dBf16噪声语音对应的峭度值的波形图。图10-F为一段连续语音加babble噪声语音信号的波形图，图10-F-1为一段连续语音加5dBbabble噪声语音对应的峭度值的波形图。从图中可以看出，对于混有不同噪声的连续语音信号，其滑动窗峭度与纯净语音信号的滑动窗峭度具有相似的波形，在进入语音段时峭度值会发生较明显的变化。

本发明中的基于动态累积量估计的语音信号端点检测方法是基于滑动窗峭度和能量双门限的端点检测算法，参数滑动窗峭度对语音段起始点具有较强敏感性且对噪声具有更好的抗干扰能力，在语音信号处理中，通常假设噪声近似满足高斯分布，其高阶累积量相对较小，理想高斯分布的高阶累积量为零，基于高阶累积量的语音信号处理方法往往具有更好的抗干扰性能，本发明在噪声环境下具有更好的鲁棒性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于动态累积量估计的语音信号端点检测方法,其特征在于，包括如下步骤：

2.根据权利要求1所述的基于动态累积量估计的语音信号端点检测方法,其特征在于，所述步骤(1)的基于滑动窗的高阶累积量递推估算包括如下步骤：

3.根据权利要求2所述的基于动态累积量估计的语音信号端点检测方法,其特征在于，步骤(11)滑动窗化是通过矩形窗对原始样本数据进行截取，每滑动一个样本点对矩形窗内数据进行更新，实现对窗内所有样本点的高阶累积量递推估计。

4.根据权利要求2所述的基于动态累积量估计的语音信号端点检测方法,其特征在于：步骤(12)的高阶累积量递推计算公式为如下：

C_{2}^{(w)} (n) = \frac{S_{2}^{(w)} (n)}{L} - - - (6 a)

C_{3}^{(w)} (n) = \frac{\sqrt{L} S_{3}^{(w)} (n)}{{(\sqrt{S_{2}^{(w)} (n)})}^{3}} - - - (6 b)

C_{4}^{(w)} (n) = \frac{{LS}_{4}^{(w)} (n)}{{[S_{2}^{(w)} (n)]}^{2}} - 3 - - - (6 c)

μ^{(w)} (n) = \frac{n}{L} [μ (n) - μ (n_{L})] + μ (n_{L}) - - - (4 a)

S_{2}^{(w)} (n) = S_{2} (n) - S_{2} (n_{L}) - \frac{n_{L} L}{n} {[μ^{(w)} (n) - μ (n_{L})]}^{2} - - - (4 b)

\begin{matrix} S_{3}^{(w)} (n) = S_{3} (n) - S_{3} (n_{L}) - L n_{L} (n - 2 L) \frac{{[μ^{(w)} (n) - μ (n_{L})]}^{3}}{n^{2}} \\ - 3 [n_{L} S_{2}^{(w)} - L S_{2} (n_{L})] \frac{[μ^{(w)} (n) - μ (n_{L})]}{n} \end{matrix} - - - (4 c)

\begin{matrix} S_{4}^{(w)} (n) = S_{4} (n) - S_{4} (n_{L}) - L n_{L} (n^{2} - 3 nL + 3 L^{2}) \frac{{[μ^{(w)} (n) - μ (n_{L})]}^{4}}{n^{3}} \\ - 6 [L^{2} S_{2} (n_{L}) + {n_{L}}^{2} S_{2}^{(w)} (n) \frac{{[μ^{(w)} (n) - μ (n_{L})]}^{2}}{n^{2}} \\ - 4 [n_{L} S_{3}^{(w)} (n) - L S_{3} (n_{L})] \frac{[μ^{(w)} (n) - μ (n_{L})]}{n} \end{matrix} - - - (4 d)

5.根据权利要求4所述的基于动态累积量估计的语音信号端点检测方法,其特征在于：高阶累积量递推计算公式的递推估计方法如下：

(51)开辟动态存储单元

其中，

μ = \frac{1}{Len} Σ_{i = 1}^{Len} x_{i} - - - (2 a)

S_{k} = Σ_{i = 1}^{Len} {(x_{i} - μ_{x})}^{k} - - - (2 b)

Len表示样本长度，x_i表示样本中的样本点，μ_x表示样本x的均值；

(52)初始值计算

μ (n) = μ (n - 1) + \frac{1}{n} [x (n) - μ (n - 1)] - - - (7 a)

S₂(n)＝S₂(n-1)+[x(n)-μ(n-1)][x(n)-μ(n)] (7b)

\begin{matrix} S_{3} (n) = S_{3} (n - 1) + \frac{3 [μ (n - 1) - x (n)] S_{2} (n - 1)}{n} + \\ \frac{{[x (n) - μ (n - 1)]}^{3} (n - 1) (n - 2)}{n^{2}} \end{matrix} - - - (7 c)

\begin{matrix} S_{4} (n) = S_{4} (n - 1) + \frac{{[x (n) - μ (n - 1)]}^{4} (n - 1) (n^{2} - 3 n + 3)}{n^{3}} + \\ \frac{6 {[x (n) - μ (n - 1)]}^{2} S_{2} (n - 1)}{n^{2}} - \frac{4 [x (n) - μ (n - 1)] S_{3} (n - 1)}{n} \end{matrix} - - - (7 d)

(53)滑动窗动态估计

(531)滑动窗均值和k^th平方和μ^(w)(n)、的计算

(532)滑动窗2-4阶累积量的计算

利用步骤(5.3.1)滑动窗估计中得到的当前时刻n的滑动窗均值和k^th平方和μ^(w)(n)、根据(6a)-(6c)式的滑动窗累积量递推计算公式，求取当前时刻n的滑动窗2-4阶累积量

C_{k}^{(w)} (n) (k = 2 ~ 4);

(54)动态更新存储单元

6.根据权利要求4或5所述的基于动态累积量估计的语音信号端点检测方法,其特征在于，所述步骤(2)的基于滑动窗峭度的端点检测的控制算法如下：

(203)赋值初始化参数，初始化设定语音段所允许的最小样本点数和空白段所允许的最大样本点数，设定语音段样本点数Speechcount＝0，空白段样本点数Nonspeechcount＝0，进入步骤(204)；

(205)将峭度值Kurtosis(n)大于峭度门限kurt的峭度值,将对应的点标记为起始点Start；并从Start向后搜索，进入步骤(207)；

(207)将后续点对应的中间值S₂(n)值与能量门限amp作比较；

7.根据权利要求6所述的基于动态累积量估计的语音信号端点检测方法,其特征在于：语音段所允许的最小样本点数Minspeechcount和空白段所允许的最大样本点数Maxnonspeechcount值分别为256和1024。