CN102760444A

CN102760444A - 基于支撑向量机的基带时域音频信号分类方法

Info

Publication number: CN102760444A
Application number: CN2012101250857A
Authority: CN
Inventors: 刘一民; 李元新; 孟华东
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2012-04-25
Filing date: 2012-04-25
Publication date: 2012-10-31
Anticipated expiration: 2032-04-25
Also published as: CN102760444B

Abstract

基于支撑向量机的基带时域音频信号分类方法，首先将基带时域音频信号序列分段，得到初始分段子序列，然后每个初始分段子序列分别减去各自的均值，得零均值分段子序列，接着对每个零均值分段子序列进行加窗处理，将结果分别进行傅里叶变换处理，得到分段子序列的频谱幅度，分别求出每个频谱幅度的标准差得到一个特征量，将各个零均值分段子序列按照次序依次组合成为一个长序列，然后计算出该序列的归一化自相关矩阵，对自相关矩阵进行奇异值分解，得到子空间的分界点，再计算出该基带时域音频信号序列的另一个特征量信噪比参量；最后将两个特征量构成输入向量送入已经训练过的SVM分类器中，从而鉴别出该基带时域音频信号的种类，区分出语音信号和噪声信号。

Description

基于支撑向量机的基带时域音频信号分类方法

技术领域

本发明属于信号处理技术领域，具体涉及一种基于支撑向量机的基带时域音频信号分类方法。

背景技术

本发明应用于无线电侦测***中，所处理的信号是已经解调之后的基带时域音频信号，信号可能是被噪声不同程度污染的语音信号，也可能是纯噪声信号，其中噪声均以白噪声为主且混有少量有色噪声，利用SVM的原理构建一种分类器，对信号类型进行简单有效的鉴别分类。

以下的文章和专利文献，基本覆盖了该领域主要的背景技术。为了交待出技术的发展过程，让它们时间顺序排列，并逐个介绍文献的主要贡献。

1．S.Gokhun Tanyer,Hamza ozer,“Voice Activity Detection in Nonstationary Gaussian Noise”,Proceedings of ICSP,1620-1623,1998.

语音端点检测(Voice Activity Detection，VAD)是指从噪声中甄别出语音的过程，文章提出了能量门限方法、过零率方法、最小二乘周期估计器和自适应能量门限的方法，其中能量门限方法和过零率方法多适用于信号信噪比(signal to noise ratio，SNR)较高的情况下，在信噪比较低时虚警很高，而最小二乘周期估计器会由于噪声非平稳包含周期性而导致检测失败。同时文章还提出将多种方法融合进行语音信号检测的策略。

2．C.J.C.Burges,“A Tutorial on Support Vector Machines for Pattern Recognition”，Data Mining and Knowledge Discovery,vol.2,no.2,pp.121-167,1998.

详细介绍了SVM的基本原理以及结论推导，SVM的方法是从线性可分情况下的最优分类超平面提出来的，其基本思想可以概括为首先通过非线性变换将输入空间变换到一个高维空间，然后在这个新空间中求取最优先性分类超平面。“最大间隔”和“将数据投影至更高维空间”是其核心概念，SVM构成通常意义上的二类模式分类器。但是该文章多是对SVM基本原理进行公式推导的证明，并没有给出在语音信号检测方面应用的提示和指导。

3．S.Gokhun Tanyer,Hamza ozer,“Voice Activity Detection in Nonstationary Noise”,IEEE Trans.Speech Audio Process.,vol.8,no.4,pp.478-481,Jul.2001

提出自适应能量门限的语音端点检测方法并给出实施策略，其中应用到几何方法计算信号SNR，减少了对噪声信号先验信息的依赖。但是该SNR的估计方法受信号累积分布的影响，不能对噪声信号信息进行充分学***稳的情况下SNR估计有偏差。

4．Quanwei Cai,Ping Wei,Xianci Xiao,“A Digital Modulation Recognition Method”,Proceedings of ICASSP,2004,pp 863–866

提出了基于SVD的信号SNR估计原理和方法，简单易行，没有对该方法的性能进行探讨，也没有给出计算参数的选取方法。

5．Cheol-Sun Park,Won Jang,Sun-Phil Nah.and Dae Young Kim,“Automatic Modulation Recognition using Support Vector Machine in Software Radio Applications”，in Proc.9th IEEE ICACT,Feb.2007,pp.9-12

提出基于SVM的信号调制方式识别的方法，以信号的归一化中心对称瞬时幅度的功率谱密度最大值γ_max、信号强分量瞬时相位中的中心对称非线性分量绝对值的标准差σ_ap、信号强分量瞬时相位中的中心对称非线性分量的标准差σ_dp、接收信号的归一化中心对称瞬时幅度绝对值的标准差σ_aa以及信号强分量中归一化瞬时频率绝对值的标准差σ_af作为特征量输入获得结果，即使在信号低SNR的情况下也取得准确地分类结果。

发明内容

为了克服上述现有技术的不足，本发明的目的在于提供了一种基于支撑向量机的基带时域音频信号分类方法，对基带时域音频信号进行处理，提取特征量作为分类器的输入以获取对信号类型的鉴别分类结果，从而将语音信号和噪声信号分类。

为了实现上述目的，本发明采用的技术方案是：

基于支撑向量机的基带时域音频信号分类方法，包括如下步骤：

步骤一：将总长度为N的基带时域音频信号序列s＝{s(1)，s(2)，...，s(N)}分为K段，每段长度为L，得到初始分段子序列

\{\begin{matrix} s_{1} = {s_{1} (1), s_{1} (2), . . ., s_{1} (L)} \\ s_{2} = {s_{2} (1), s_{2} (2), . . ., s_{2} (L)} \\ . . . \\ s_{K} = {s_{K} (1), s_{K} (2), . . ., s_{K} (L)} \end{matrix},

其中s_i(m)＝s((i-1)L+m)(i＝1，2，...，K，m＝1，2，...，L)，然后每个初始分段子序列分别减去各自的均值，可得零均值分段子序列

\{\begin{matrix} x_{1} = {x_{1} (1), x_{1} (2), . . ., x_{1} (L)} \\ x_{2} = {x_{2} (1), x_{2} (2), . . ., x_{2} (L)} \\ . . . \\ x_{K} = {x_{K} (1), x_{K} (2), . . ., x_{K} (L)} \end{matrix},

其中

x_{i} (m) = s_{i} (m) - \frac{1}{L} Σ_{j = 1}^{L} s_{i} (j);

步骤二：对每个零均值分段子序列进行加窗处理，得到结果为

\{\begin{matrix} {x_{1}}^{'} = x_{1} w^{T} \\ {x_{2}}^{'} = x_{2} w^{T} \\ . . . \\ {x_{K}}^{'} = x_{K} w^{T} \end{matrix},

其中w为汉宁窗；

步骤三：对加窗处理后的结果分别进行傅里叶变换处理，得到每个加窗后的零均值分段子序列的频谱幅度序列为

\{\begin{matrix} f_{1} = | FFT ({x_{1}}^{'}) | = {f_{1} (1), f_{1} (2), . . ., f_{1} (M)} \\ f_{2} = | FFT ({x_{2}}^{'}) | = {f_{2} (1), f_{2} (2), . . ., f_{2} (M)} \\ . . . \\ f_{K} = | FFT ({x_{K}}^{'}) | = {f_{K} (1), f_{K} (2), . . ., f_{K} (M)} \end{matrix},

其中M是频谱幅度序列的长度；

步骤四：分别求出每个频谱幅度的标准差d＝{d(1)，d(2)，...，d(K)}，其中

然后求出所有标准差的平均值，得到该基带时域音频信号序列的一个特征量，即频谱幅度标准差

步骤五：将各个零均值分段子序列x₁，x₂，...，x_K按照次序依次组合成为一个长序列x，即x＝{x₁，x₂，...，x_K}＝{x(1)，x(2)，...，x(N)}，然后计算出该序列的归一化自相关矩阵，结果为其中

Q是自相关矩阵的维数，取值范围为[50，90]；

步骤六：对自相关矩阵R进行奇异值分解，得到R＝VΛV^H，其中

Λ＝diag(λ₁，λ₂，…，λ_Q)_Q×Q＝diag(γ₁+σ²，…，γ_p+σ²，σ²，…，σ²)_Q×Q，且γ₁≥γ₂≥…≥γ_p，从而得到子空间的分界点p；

步骤七：根据

计算出该基带时域音频信号序列的另一个特征量，记为信噪比参量

步骤八：将该基带时域音频信号序列的两个特征量，即频谱幅度标准差D和信噪比参量构成输入向量，送入已经训练过的SVM分类器中，从而鉴别出该基带时域音频信号的种类，区分出语音信号和噪声信号。

上述的子空间分界点p可由如下方法得到：由

其中

是对自相关矩阵维数处理结果的向下取整，计算出末T+1个特征值λ_Q-T，λ_Q-T+1，...，λ_Q的均值，然后所有大于1.5E_λ的特征值中最大的下标为p，即p＝{i|λ_i＞1.5E_λ，λ_i+1＜1.5E_λ}。

上述将总长度为N的基带时域音频信号序列s＝{s(1)，s(2)，...，s(N)}分为K段，每段所对应的时间应不大于20ms。

与现有技术相比，本发明通过训练的方式更多的获取待分类信号的先验信息，选取适当的输入特征量能够迅速有效的获得分类结果。为了反映语音信号和噪声信号的区别，选择信号SNR参量和信号频谱幅度标准差作为分类器的输入特征量，既方便计算又能够很好的实现信号的鉴别和分类。本发明能够有效地检测鉴别语音信号和噪声信号，选取的两个输入特征量信号信噪比参量和信号频谱幅度标准差计算简单又能有效的反映出两种信号的区别，即使在信噪比较低的情况下也能够保证较高的分类正确率。本发明适用于实时信号处理，易于实现，可很好地用于无线电应用中。

附图说明

图1是本发明流程图。

图2是输入特征量为信号信噪比参量时的概率密度分布图。

图3是输入特征量为频谱幅度标准差时的概率密度分布图。

图4是SVM分类器工作结果示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细说明。

本发明基于SVM原理设计分类器，通过对基带时域音频信号序列处理提取特征量，将其作为输入送入训练完毕的分类器，从而鉴别出音频信号的类型，对语音信号和噪声信号进行正确分类。

如图1所示，实现步骤如下：

步骤一：由于要处理的是已经经过解调的基带时域音频信号序列，首先应对信号进行预处理，以便于提取充分反映信号特征的特征量。

将总长度为N的基带时域音频信号序列s＝{s(1)，s(2)，...，s(N)}均匀分成K段，每段长度为L，每段所对应的时间应不大于20ms。

得到初始分段子序列

\{\begin{matrix} s_{1} = {s_{1} (1), s_{1} (2), . . ., s_{1} (L)} \\ s_{2} = {s_{2} (1), s_{2} (2), . . ., s_{2} (L)} \\ . . . \\ s_{K} = {s_{K} (1), s_{K} (2), . . ., s_{K} (L)} \end{matrix},

其中s_i(m)＝s((i-1)L+m)(i＝1，2，...，K，m＝1，2，...，L)，然后每个初始分段子序列分别减去各自的均值以除去直流分量，从而可得零均值分段子序列

\{\begin{matrix} x_{1} = {x_{1} (1), x_{1} (2), . . ., x_{1} (L)} \\ x_{2} = {x_{2} (1), x_{2} (2), . . ., x_{2} (L)} \\ . . . \\ x_{K} = {x_{K} (1), x_{K} (2), . . ., x_{K} (L)} \end{matrix},

其中

x_{i} (m) = s_{i} (m) - \frac{1}{L} Σ_{j = 1}^{L} s_{i} (j) .

步骤二：为了降低对分段子序列进行频域处理时旁瓣对结果的影响，选用汉宁窗对每个零均值分段子序列进行加窗处理。加窗后的结果为

\{\begin{matrix} {x_{1}}^{'} = x_{1} w^{T} \\ {x_{2}}^{'} = x_{2} w^{T} \\ . . . \\ {x_{K}}^{'} = x_{K} w^{T} \end{matrix},

其中w为汉宁窗序列。

\{\begin{matrix} f_{1} = | FFT ({x_{1}}^{'}) | = {f_{1} (1), f_{1} (2), . . ., f_{1} (M)} \\ f_{2} = | FFT ({x_{2}}^{'}) | = {f_{2} (1), f_{2} (2), . . ., f_{2} (M)} \\ . . . \\ f_{K} = | FFT ({x_{K}}^{'}) | = {f_{K} (1), f_{K} (2), . . ., f_{K} (M)} \end{matrix},

其中FFT的点数应为大于子序列长度2～4倍的2的幂指数2^a，M是频谱幅度序列的长度。

步骤四：利用标准差的无偏估计形式

分别求出每个分段子序列的频谱幅度的标准差d＝{d(1)，d(2)，...，d(K)}，然后求出所有标准差的平均值，就得到该时域音频信号序列的一个特征量，即频谱幅度标准差

D = \frac{1}{K} Σ_{i = 1}^{K} d (i) .

信号信噪比参量如图2所示，其中横坐标是信号信噪比参量的取值范围，纵坐标是概率密度；频谱幅度标准差的概率密度函数如图3所示，其中横坐标是频谱幅度标准差的取值范围，纵坐标是概率密度。从图中可以看出噪声信号的特征量分布较为集中，因此单个特征量可以一定程度上反映语音信号和噪声信号的区别，但是不能将两类信号完全有效地区分开，所以需要联合两者作为分类器的输入量才能实现正确的信号分类，因此继续执行以下步骤。

步骤五：接着对音频信号序列进行处理已获得另外一个特征量。首先将各个零均值分段子序列x₁，x₂，...，x_K按照次序依次组合成为一个信号长序列x，即得到x＝{x₁，x₂，...，x_K}＝{x(1)，x(2)，...，x(N)}，然后计算出该序列的归一化自相关矩阵，结果为

其中

且Q是自相关矩阵的维数，取值范围为[50，90]，本发明中取值为70。

步骤六：对自相关矩阵R进行SVD分解，得到R＝VΛV^H。假设语音信号和噪声信号是相互独立的，R＝R_x+R_n＝V(Λ_x+Λ_n)V^H＝VΛV^H，其中R_x、R_n分别是语音信号和噪声信号的自相关矩阵。

由SVD分解可知Λ_x＝diag(γ₁，γ₂，…，γ_p，0，…，0)_Q×Q，γ₁≥γ₂≥…≥γ_p，

Λ_n＝diag(σ²，σ²，…，σ²)_Q×Q，

Λ＝diag(λ₁，λ₂，…，λ_Q)_Q×Q＝diag(γ₁+σ²，…，γ_p+σ²，σ²，…，σ²)_Q×Q。

通过其中

是对自相关矩阵维数处理结果的向下取整，计算出末T+1个特征值λ_Q-T，λ_Q-T+1，...，λ_Q的均值，然后搜寻所有大于1.5E_λ的特征值中最大的下标为分界点p，即p＝{i|λ_i＞1.5E_λ，λ_i+1＜1.5E_λ}。

步骤七：根据

计算出该基带时域音频信号序列的另一个特征量，即信噪比参量

能够在一定程度上反映出信号的信噪比情况。

步骤八：将该基带时域音频信号序列的两个特征量，即频谱幅度标准差D和信噪比参量

构成输入向量，送入训练完毕的SVM分类器中，就可以得到该基带时域音频信号的分类结果，区分出语音信号和噪声信号。

执行该步骤的分类器工作结果如图4所示，其中“+”是语音信号特征量，“*”是噪声信号特征量，在空间中两类特征量可以被正确隔离，由此证实该基于SVM的基带时域音频信号分类器能够有效地鉴别信号类型并且正确地分类。