CN100580768C

CN100580768C - 一种基于谐波特征的浊音检测方法

Info

Publication number: CN100580768C
Application number: CN200510089956A
Authority: CN
Inventors: 国雁萌; 付强
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2005-08-08
Filing date: 2005-08-08
Publication date: 2010-01-13
Anticipated expiration: 2025-08-08
Also published as: CN1912992A

Abstract

本发明涉及一种噪声环境中检测浊音信号的方法，包括：对每帧信号进行预处理并进行N点离散傅里叶变换；分别计算每帧各频带的能量，然后搜索各频带能量的极值；根据人类浊音的谐波特性，对频带能量极值与人类基音范围的所有可能基音进行匹配，找到可能存在的基音；根据语音特征，结合前后信息对一定数目的帧做整体性的浊音判决；对缓存进行移位更新，然后继续在更新后的缓存中检测浊音。本发明的优点是：即使在信噪比较低或者噪声变化较快的环境中，也能保持稳定性能；即使基频较低，也能检测出浊音的准确位置；能够适应于各类年龄、性别和说话习惯的说话人；对信号的录音和传输条件都没有特殊要求，即使基频频段缺失，检测的准确性也不受影响。

Description

一种基于谐波特征的浊音检测方法

技术领域

本发明涉及语音信号处理领域，特别涉及噪声环境中检测浊音的一种方法。

背景技术

实用语音信号处理***中，很多情况下需要检测浊音的位置。例如，在话音检测(Voice Activity Detection)***中，通过检测浊音，可以大致判定语音是否存在；在语音信号分段***中，检测浊音位置有助于信号段的划分。

浊音在时域上以基音为周期，在频域上具有谐波结构，因此，常用的浊音检测方法主要利用浊音的基音特征和谐波在所有频带中的总强度而判断浊音位置。但是，当语音信号受到噪声干扰时，这些方法性能会有所下降。例如，Irwin在1979年提出一种评估信号周期性强弱的方式，称为最小平方周期性测度(least-squares periodicity estimation)，R.Tucker在1992年利用这种方法进行了语音端点检测，但是此方法很容易受到低频噪声干扰。Yutaka Kobayashi在1980年提出，在信号的倒谱中搜索极值可以寻找浊音。但这种方法同样不能在信噪比低的条件下使用，而且难以应对低频噪声。2001年，Tong Zhang在做音视频信号分段时，为检测信号中的语音和音乐，使用了一种称为短时基频(short-timefundamental frequency，简称SFuF)的方法。SFuF通过在时域计算自相关而估计自回归模型，再形成平滑谱，并从谱中搜索其极点而获得基频，以此找到浊音的位置。但是这种方法很容易被噪声干扰，也会因为把基频的倍频误当成基频而失效。2003年，Ahmad R.Abu-El-Quran在进行音频信号分类时，提出一种在信号中检测语音的算法。该方法首先对每帧信号进行低通滤波和中心削波并计算自相关，然后在自相关函数中搜索极值，判断这帧信号是否含有谐波。最后通过计算一段信号中谐波帧所占的比例，判定这段信号是否含有语音。但这种方法同样容易受到基音倍频的干扰，并且很难应用在噪声较强或者多变的情况中。

实际的语音信号处理***中，输入信号在各频带的信噪比不同，噪声在基音频附近能量较强时，尽管谐波特征很明显，但基音却较难检测，所以通过检测基音来搜索浊音的方法很容易受到干扰。同样，如果在全频带检测浊音的谐波，则信噪比低的频带也会影响浊音检测。因此，本算法只搜索4～5条最清晰的谐波，从而自动避开信噪比低的频带，可以在噪声较强时稳定工作，并对噪声的变化不敏感。

因为谐波和基音集中了浊音的主要能量，而谐波频率是基音频率的整数倍，所以纯净浊音在频域上存在均匀分布的能量极值，且其间隔等于基音频率。浊音信号即使受到录音设备和噪声的干扰，通常也会在频域保持4～5个等距能量极值，这就是本发明通过谐波特征检测浊音的主要依据。

发明内容

本发明的目的是在含噪语音信号中检测出浊音的位置。

为实现上述发明目的，本发明提供的基于谐波特征的浊音检测方法包括如下步骤：

1)对输入的数字化声音信号进行分帧、加窗、预加重等预处理，并设定缓存，用以暂存L帧信号(时间总长度为200～300毫秒)及其中间结果，把最前面的L帧输入信号存入缓存；

2)设帧长为F，对缓存中每一帧信号，先补零到N点(其中N≥F，N＝2^x，x为整数且x≥8)，然后进行N点离散傅里叶变换。根据傅里叶变换值计算各频带能量，并以此搜索这帧信号的频域能量极值；

3)对缓存中每一帧信号，根据人类浊音在频域能量方面的特性，对步骤2)中搜索到的频域能量极值点与人类基频范围的所有可能基音进行匹配，找到该帧可能存在的基音；

4)对缓存中每一帧信号，在步骤3)中搜索到的所有可能的基音中，合并其中频率相差较小的基音，并把这些保留下来的基音组成一个集合；

5)根据浊音的基音和各次谐波连续缓变的特性，结合缓存中前后帧的信息，对一定数目的帧做整体性的浊音存在性判决；

6)如果已经没有新的数字化声音信号输入，则输出缓存中所有帧的浊音检测结果并结束检测；否则，输出第1帧的浊音判决结果，抛弃缓存第一帧的内容，缓存第2到L帧信号及其对应计算结果分别向前移动一帧，并输入新一帧信号到缓存第L帧，对这帧新信号进行预处理，回到步骤2)，继续对更新后缓存中的信号进行谐波检测。

上述技术方案中，所述步骤2)包括如下子步骤：

21)设帧长为F，先选中缓存中一帧信号，补零到N点(其中N≥F，N＝2^x，x为整数且x≥8)，然后进行N点离散傅里叶变换。计算出该帧N/2个频带的能量，按频率由低到高表示为ε₁、ε₂...ε_N/2，把频带能量的最小值记为ε_min；

22)对频带编号为bin(其中1＜bin＜N/2)的频带能量ε_bin，如果ε_bin同时满足ε_bin＞ε_bin-1，ε_bin＞ε_bin+1，且ε_bin＞M·ε_min，则标记ε_bin为能量极值，其中M是经验常数，5＜M＜20；

23)设找到的能量极值数目为u，按频率从低到高的顺序，记录步骤22)中满足极值条件的ε_bin的下标位置(即bin的值)，表示为I_k(k＝1..u)。

上述技术方案中，所述步骤3)包括如下子步骤：

步骤31)根据人类基音范围(60～450Hz)，遍历所有可能的基音频率pitch_α。其中，pitch_α的范围为[60/R]≤pitch_α≤[450/R]，[]表示取小于该值的最大整数，R＝采样率/N，表示每个频带的宽度。

步骤32)对当前检测的基音频率pitch_α，如果在现存极值点中找到5个以pitch_α为间距的点，或者找到4个以pitch_α为间距的点，且这4个点中包括一个位于pitch_α的点，则初步确定当前一帧信号可能对应于基音频率为pitch_α的浊音。因此，如果根据pitch_α搜索到的最均匀的4或5个极值点之间间距的归一化方差满足一定阈值Var_thd，则认为pitch_α有可能存在，并把最均匀极值点的间距均值作为精确基频；

步骤33)遍历所有可能的基音频率后，记录当前一帧信号所对应的每个可能存在的精确基频，以及该精确基频所对应的归一化方差。

上述技术方案中，所述步骤4)包括如下子步骤：

41)当满足步骤32)条件的两个精确基频之间相差小于D_pitch时，选择记录其中归一化方差较小的精确基频及其相应的归一化方差；其中D_pitch＝D_min/R，D_min是一个经验值(50＜D_min＜150)，单位为Hz。

42)在所有pitch_α([60/R]≤pitch_α≤[450/R])中，如果α＝α₁，α₂，α₃....都能对应到均匀分布的极值，且精确基频的相互差距都符合步骤41)的条件，则把各自对应的精确基频记为一个集合。

上述技术方案中，所述步骤5)包括如下子步骤：

51)在缓存中连续4帧信号中，如果任意相邻两帧的精确基频所组成的集合中，都至少存在一个元素，与对方集合中的一个元素非常接近，则可认为这4帧信号中存在浊音。两个元素相接近的标准为：两者之差与两者中较小值的比值不超过常数ratio(其中10％＜ratio＜20％)；

52)在步骤51)做出初步判决后，把缓存中处于两段浊音之间，且时间长度小于20毫秒的非浊音信号段都判为浊音。

上述技术方案中，所述步骤6)包括如下子步骤：

61)如果已经没有新的数字化声音信号输入，则输出缓存中所有帧的浊音检测结果并结束检测；

62)如果当前还有新的数字化信号输入，则输出第1帧的浊音判决结果，抛弃缓存第一帧的内容，把缓存第2帧到第L帧信号分别向前移动1帧，对应的每帧计算结果也分别向前移动；把新的一帧数字化声音信号存入缓存第L帧，对这帧新信号进行预处理，并回到步骤2)，继续对更新后的缓存中信号进行谐波检测。

与现有技术相比，本发明的优点是：本发明自动在所有频带中搜索浊音谐波最清晰的频带，所以即使在信噪比较低或者噪声变化较快的环境中，也能保持稳定性能；本发明利用浊音的谐波和基音都相互连续，且谐波为基音倍频的特性而检测浊音，所以不需要确定具体的基音频率，不会像通过检测基频而搜索浊音的方法一样受基音的倍频干扰，即使基频较低，本发明也能检测出浊音的位置；本发明利用了人类发音机制变化缓慢的普遍特性，而对浊音的出现和持续时间没有限制，且搜索的基音范围包含人类语音的所有可能基音，因而能够适应于各类年龄、性别和说话习惯的说话人；本发明通过搜索谐波而检测浊音，而浊音的谐波特性在不同的录音和传输条件下都较稳定，所以本发明对信号的录音和传输条件都没有特殊要求，即使基频频段缺失，也可以准确检测出浊音的位置，这也特别适应于电话信道中的浊音检测。本发明能够应用于语音端点检测、音视频信号分段、语音分段***，以及语音编码和语音增强***的预处理中。

附图说明

图1是本发明提供的基于谐波特征的浊音检测方法的流程图；

图2是本发明中连续4帧的谐波判决示意图。

具体实施方式

实用语音信号处理***中，语音信号经常受到噪声干扰，而噪声在各频带的能量分布不仅不均匀，而且不断变化。因此，含噪语音信号在各频带的信噪比不同，而且随着语音和噪声的变化而变化。当噪声在浊音的基音频带附近能量较强时，尽管浊音信号的谐波特征很明显，但基音却较难检测，所以通过检测基音而检测浊音的方法很容易受到干扰。同样，由于有些频带的信噪比比较低，如果通过在全频带检测谐波而搜索浊音，则信噪比低的频带会降低检测的总体可靠性。因此，本算法只搜索4～5条最清晰的谐波，从而自动避开信噪比低的频带，可以在噪声较强时稳定工作，并且对噪声的变化不敏感。

因为谐波和基音集中了浊音的主要能量，而谐波频率是基音频率的整数倍，所以纯净浊音在频域上存在均匀分布的能量极值，且其间隔等于基音周期。浊音信号即使受到录音设备和噪声的干扰，通常也会在频域保持4～5个等距能量极值，这就是本发明通过谐波特征检测浊音的主要依据。

下面结合附图及具体实施例对本发明做进一步地描述。

实施例：

如图1所示，本实施例的具体步骤如下：

步骤301：把L帧数字化信号分别进行预处理并存入缓存，准备在其中检测浊音。

步骤302：在缓存中取出还未进行谐波检测的一帧信号(设其为缓存中第i帧)，根据***具体情况进行加窗和预加重等预处理，补零到N点，(其中N≥F，N＝2^x，x为整数且x≥8)，然后进行N点离散傅里叶变换，得到离散谱

X (i, bin) = Σ_{n = 0}^{N - 1} x (i, n) e^{- j (2 π / N) n \cdot bin},

bin＝0，1，...，N-1，其中x(i，n)表示缓存中第i帧信号的第n个采样值，bin为频谱编号。取模的平方，得各频带能量ε_bin＝|X(i，bin)|²。其中bin为频带编号，1≤bin≤N/2，每个频带的宽度R＝采样率/N。

步骤303：把频带能量的最小值记为ε_min，在ε_bin(其中1＜bin＜N/2)中，如果ε_bin同时满足ε_bin＞ε_bin-1，ε_bin＞ε_bin+1，且ε_bin＞M·ε_min，则标记ε_bin为能量极值，它有可能对应于谐波或基音，也可能对应于偶然的噪声干扰或语音频谱的小波动。其中M是经验常数，5＜M＜20。设满足该要求的频带共有u个，按频率从低到高的顺序，记录其位置(即ε_bin的下标bin)I_k(k＝1..u)。之所以要求ε_bin＞M·ε_min，是因为当信号中存在谐波时，信号能量分布不平坦，ε_bin与谐波频带能量相差较大，ε_bin只有满足此条件，才可能对应于谐波或基音。

步骤304：对可能的基音，搜索最接近于此基音的极值分布，其目的是确定当前一帧信号可能对应于哪些浊音。人类的基音范围是60～450Hz，若用pitch_α表示基音对应的频带编号，则[60/R]≤pitch_α≤[450/R]。其中，[]表示取小于该值的最大整数，R为每个频带的宽度，即频域分辨率(见步骤302)。因为基音和谐波的能量优势在低频较明显，所以只对60～2000Hz范围内的极值进行匹配，对应于[60/R]≤I_k≤[2000/R]。

因此，搜索的过程是：基音pitch_α遍历[60/R]到[450/R]内所有整数，分别在编号为[60/R]到[2000/R]范围内的能量极值点中搜索与pitch_α及其谐波位置接近的点。由于浊音通常在频域上表现出至少4～5个均匀分布的能量极值点，所以，若现存极值点中存在5个以pitch_α为间距的点，其频带编号F_m满足F_m≈m·pitch_α，其中

m = 2,3, . . [\frac{2000}{R \cdot {pitch}_{α}}];

或者存在4个以pitch_α为间距的点，其频带编号F_m满足F_m≈m·pitch_α，其中m＝1，2，3，4，则这帧信号可能对应于基音为pitch_α的浊音；反之，这帧信号不可能对应于这个浊音。

为此，对当前选定的一个测试基音pitch_α，从I_k(k＝1..u)中搜索与m·pitch_α最接近的值I_m′，I_m′满足|I_m′-m·pitch_α|≤|I_m″-m·pitch_α|(1≤m′≤u，1≤m″≤u，m″≠m′)。把所有对应于m·pitch_α(其中

m = 1,2, . . [\frac{2000}{R \cdot {pitch}_{α}}]

)的I_m′(其中

m^{'} = 1,2, . . [\frac{2000}{R \cdot {pitch}_{α}}]

)记为集合{P₁，P₂，P₃....}，并增加一个元素P₀＝0，组成集合{P₀，P₁，P₂，P₃....}。

步骤305：如果集合{P₀，P₁，P₂，P₃....}中存在5个连续元素P_t，P_t+1，P_t+2，P_t+3，P_t+4(其中

t = 0,1, . . [\frac{2000}{R \cdot {pitch}_{α}} - 4]

)间距相等，则认为极值分布与基音相匹配。由于频带宽度为R，即频域分辨率不能做到绝对精确，所以基音的精确值可表示为这5个元素的间距均值。

为测度5个元素间距是否相等，对集合{P₀，P₁，P₂，P₃....}中的任意5个连续元素，计算其间距D₁＝P_t+1-P_t，D₂＝P_t+2-P_t+1，D₃＝P_t+3-P_t+2，D₄＝P_t+4-P_t+3(其中

t = 0,1, . . [\frac{2000}{R \cdot {pitch}_{α}} - 4]

)。求{D₁，D₂，D₃，D₄}的均值D，并对其方差归一化，表示为

Var = \frac{Σ_{q = 1}^{4} {(D_{q} - \overset{&OverBar;}{D})}^{2}}{4 {\overset{&OverBar;}{D}}^{2}} .

Var越小，则间距越均匀，含有浊音的可能性也越大。对应于同一个pitch_α有多个5元素组合，选择归一化方差最小的一组，记录其间距均值为D_α，归一化方差为Var_α。

步骤306：如果Var_α＜Var_thd(其中Var_thd是经验阈值，0.001＜Var_thd＜0.003)，则认为当前一帧信号可能含有基音为D_α的浊音，其中D_α代表这组间距对应的精确基频，并进入步骤307。如果在集合{P₁，P₂，P₃....}中，对应于任意5元素组合的间距{D₁，D₂，D₃，D₄}均不满足Var＜Var_thd，则进入步骤310。

步骤307：判断D_α是否与当前帧已保存的其它精确基频很接近。过程如下：

在基音pitch_α遍历[60/R]到[450/R]内所有整数的搜索过程中，如果曾有基音pitch_β也对应于均匀的极值分布，即pitch_α和pitch_β对应的Var_α和Var_β都小于步骤306中的Var_thd，则Var_β和D_β都已被保存下来。检查|D_α-D_β|是否大于阈值D_pitch，其中D_pitch＝D_min/R，D_min是一个经验值(50＜D_min＜150)，单位为Hz。

如果|D_α-D_β|≥D_pitch，则进入步骤308。

如果|D_α-D_β|＜D_pitch，则进入步骤309。

步骤308：在当前的精确基频D_α所对应的间距归一化方差足够小，且与其它所有精确基频都相距足够大时，进入此步骤。记录当前的距离均值D_α和归一化方差Var_α。在[60/R]到[450/R]内所有pitch_α中，如果α＝α₁，α₂，α₃....都能对应到均匀分布的极值，则保留它们的归一化方差和其精确基频，记为VAR＝{Var1，Var2...}和D_all＝{D1，D2...}。这是因为，当输入信号为基频很低的浊音时，基音的2倍频甚至3倍频也都在人类基频范围内，即也包括在pitch_α的搜索范围中，且其对应的极值间距可能更均匀。所以归一化方差最小的数据不一定对应真正的基音。常用的浊音检测算法往往通过跟踪基频定位浊音，因而容易受到基音倍频的干扰而失效，而本方法保留多组数据并在最后结合前后帧进行筛选，可以避免基音倍频干扰问题。

步骤309：当步骤307中|D_α-D_β|＜D_pitch时进入此步骤。在频率接近的两个精确基频中，仅保留其中归一化方差较小的一个。即：如果Var_α＜Var_β，则从集合VAR和D_all中删去对D_β和Var_β的记录，并把Var_α和D_α记录到其中；反之，则保留D_β和Var_β的记录，并且不记录D_α的相关信息。这是因为，如果两个很接近的基音都可能存在，则可能是因为pitch_α受频谱分辨率限制而不精确的缘故，选择极值分布较均匀的一组，可以保留最接近实际的基音。

步骤310：判断是否已经遍历所有可能的基音(即[60/R]≤pitch_α≤[450/R]范围内所有整数)，如果判断为是，进入步骤311；如果判断为否，回到步骤304。

步骤311：判断是否缓存中所有帧都处理完。每帧信号在经过[60/R]≤pitch_α≤[450/R]中所有基音的测试(即为每个可能的基音在当前所有极值中搜索最匹配的极值)以后，最终保留下来的是VAR和D_all。有的帧因为对任何基音都没有符合要求的极值分布，可能其VAR和D_all都是空集。如果缓存中还有信号没有经过步骤302到310的极值搜索和对可能基音的测试，则返回步骤302，如果缓存中所有帧都已搜索并测试完，则进入步骤312。

步骤312：开始结合前后几帧信息，初步判定谐波是否存在。首先设定检测的第一帧编号t为1。

步骤313：检测第t到第t+3帧是否可以连接成谐波，即判决是否存在浊音。判决条件是：在连续4帧信号中，如果任意相邻两帧的D_all中都至少存在一个与对方某元素非常接近的元素，则可认为这4帧信号中存在谐波。具体地说，只要相邻两帧各自的D_all中各自至少有一个元素跟对方的D_all中某元素之差与两者中较小值的比值不超过常数ratio，则认为它们符合要求。ratio的取值范围是10％～20％。图2是连接的简单示意图。可见，在4帧中(即第t、t+1、t+2和t+3帧)，只要任意连续两帧都有一条路径能连通，就可以判这4帧为浊音。

之所以要求两帧之间必须连通，是因为浊音的基频和谐波都是连续缓变的，两帧之间不会有突变。这样，即使某段信号因干扰而出现均匀分布的能量极值，也不会相互连续而连通起来，因而不会被判为浊音。另外，有些浊音的基音倍频也对应很小的归一化方差，所以各帧的D_all中可能分别包含基频及其倍频，因此，只要基频或倍频能连通起来，即前后两帧中有一个连接通路，就可认为这两帧的基频和谐波是连续的，这就防止了真正浊音的漏判。

步骤314：把判断谐波的起始帧编号t增加1，继续检测下4帧是否连通。

步骤315：判断是否已对缓存中所有的4个连续帧都做过了谐波连接，即，如果已经测试完了第L-3帧到第L帧的连续4帧，则进入步骤316，否则返回步骤313。

步骤316：由于浊音是连续缓变的，所以当两段浊音非常接近时，可以认为中间一段也是浊音。因此，利用前后信息，对缓存中判出的浊音做进一步连接和整形，把缓存中处于两段浊音之间，且时间长度小于20毫秒的非浊音信号段都判为浊音。

步骤317：判断当前是否还有新的数字化声音信号需要处理。如果还有需要处理的信号，进入步骤318；如果已没有新信号输入，则进入步骤319。

步骤318：输出第1帧的浊音判决结果，抛弃缓存第一帧的内容，把缓存第2帧到第L帧信号分别向前移动1帧，对应的每帧计算结果也分别向前移动；把新的一帧数字化声音信号存入缓存第L帧，并回到步骤302。

步骤319：输出缓存中每帧信号的浊音检测结果，所有信号的谐波检测过程结束。

Claims

1、一种基于谐波特征的浊音检测方法，其特征在于，包括如下步骤：

1)对输入的数字化信号进行预处理，该预处理包括分帧、加窗、预加重；采用一段缓存，保存长度为200～300毫秒的信号及其中间计算结果，对每帧信号补零并进行N点离散傅里叶变换；其中N＝2^x，x为整数，x≥8；

2)对每一帧信号，分别计算该帧各频带的能量，并据此搜索频域能量的局部极值；

3)根据人类浊音的谐波特点，对步骤2)中搜索到的频带能量极值与人类基音范围的所有基音进行匹配，找到匹配的基音；

4)在与一帧信号相匹配的所有基音中，合并其中相距较近的基音，并把这些保留下来的匹配基音组成一个集合；

5)根据语音特征，结合前后信息对一定数目的帧做整体性的浊音判决；

6)当前缓存已经计算完毕，如果已经完成所有信号的检测，则输出结果，否则移动更新缓存中的信号，并回到步骤1)，继续对当前缓存中的信号进行谐波检测。

2、按权利要求1所述的基于谐波特征的浊音检测方法，其特征在于，所述步骤2)包括如下子步骤：

21)先选中一帧，计算出该帧N/2个频带的能量，按频率由低到高表示为ε₁、ε₂...ε_N/2，把频带能量的最小值记为ε_min；

22)在频带编号bin从2到

的范围中，如果频带能量ε_bin同时满足ε_bin＞ε_bin-1，ε_bin＞ε_bin+1，且ε_bin＞M·ε_min，则标记ε_bin为能量极值，其中M是经验常数，5＜M＜20；

23)设搜索到的能量极值数目为u，按频率从低到高的顺序，记录步骤22)中满足极值条件的ε_bin的下标位置，表示为I_k，其中k＝1，2，...u。

3、按权利要求1所述的基于谐波特征的浊音检测方法，其特征在于，所述步骤3)包括如下子步骤：

31)遍历所有可能的基音频率pitch_α，其范围为[60/R]≤pitch_α≤[450/R]，其中[]表示取小于此值的最大整数，R为每个频带的宽度，R＝采样率/N；

32)对当前检测的基音频率pitch_α，如果在现存极值点中找到5个以pitch_α为间距的点，或者找到4个以pitch_α为间距的点，且这4个点中包括一个位于pitch_α的点，则初步确定当前一帧信号可能对应于基音频率为pitch_α的浊音；如果这些点之间间距的归一化方差小于一定阈值Var_thd，则认为间距均匀，把搜索到的最均匀极值点之间间距的均值作为精确基频；

33)遍历所有可能的基音频率后，记录当前一帧信号所对应的每个可能存在的精确基频和对应的归一化方差。

4、按权利要求3所述的基于谐波特征的浊音检测方法，其特征在于，所述步骤33)完成后，进入步骤4)，所述步骤4)包括如下子步骤：

41)当步骤33)中满足条件的两个精确基频之间相差小于D_pitch时，只记录其中归一化方差较小的精确基频及其相应的归一化方差；其中D_pitch＝D_min/R，D_min是一个经验值，其单位为Hz，取值范围为50＜D_min＜150；

42)在范围[60/R]≤pitch_α≤[450/R]内的所有pitch_α中，如果α＝α₁，α₂，α₃...都能对应到均匀分布的极值，且相距不小于步骤41)中的阈值D_pitch，则把各自对应的精确基频记为一个集合。

5、按权利要求4所述的基于谐波特征的浊音检测方法，其特征在于，在所述步骤4)完成后进入步骤5)，所述步骤5)包括如下子步骤：

51)在前后4帧信号中，如果任意相邻两帧的精确基频所组成的集合中，都至少存在一个元素，与对方集合中的一个元素非常接近，则可认为这4帧信号中存在浊音；两个元素相接近的标准为：两者之差与两者中较小值的比值不超过比例常数ratio，其中ratio的范围是10％～20％；

52)在步骤51)做出初步判决后，把缓存中处于两段浊音之间，且长度小于20毫秒的非浊音信号段都判为浊音。

6、按权利要求5所述的基于谐波特征的浊音检测方法，其特征在于，在所述步骤5)完成后进入步骤6)，所述步骤6)包括如下子步骤：

61)如果对所有信号都已经检测完毕，没有新的输入信号，则输出最后结果；

62)如果还有信号没有检测，则把缓存第2帧到第L帧信号分别向前移动1帧，对应的每帧计算结果也分别向前移动；把新一帧数字化声音信号输入缓存第L帧，并回到步骤1)，继续对当前缓存中的信号进行谐波检测。