CN103413551A

CN103413551A - 基于稀疏降维的说话人识别方法

Info

Publication number: CN103413551A
Application number: CN2013102987579A
Authority: CN
Inventors: 杨毅; 刘加
Original assignee: Tsinghua University
Current assignee: Beijing Huacong Zhijia Technology Co Ltd
Priority date: 2013-07-16
Filing date: 2013-07-16
Publication date: 2013-11-27
Anticipated expiration: 2033-07-16
Also published as: CN103413551B

Abstract

一种基于稀疏降维的说话人识别方法，提取用于训练的语音信号的声学特征作为说话人识别的训练特征，然后通过求解稀疏投影矩阵对用于训练的语音信号的声学特征进行降维，并获得最终稀疏投影矩阵，在完成降维后进行分类器训练，提取待识别的语音信号的声学特征作为说话人识别的待识别特征，利用获得的最终稀疏投影矩阵对待识别的语音信号的声学特征进行稀疏降维处理，最终根据所述分类器训练方法进行分类判决，本发明通过寻找稀疏降维投影矩阵的解路径实现稀疏降维，使得每个解路径在与其相关的范数参数上获得局部最优，最终实现全局最优，可用于说话人识别、人脸识别、手写体分类、人机交互等多种机器学习领域。

Description

基于稀疏降维的说话人识别方法

技术领域

本发明属于音频技术领域，特别涉及一种基于稀疏降维的说话人识别方法。

背景技术

为了提高分类或聚类等算法的性能并减少计算复杂度，通常采用将其原始特征的高维空间降维（dimension reduction）到子空间的方法。降维技术广泛应用于机器学习领域，用于进行数据压缩及在低维子空间上保持重要的信息。

主成分分析（Principal Components Analysis，PCA）技术使得高维的高斯分布采样和映射后的低维采样之间的互信息（mutual information）最大化。主成分分析法借助于正交变换，将其分量相关的原随机向量转化成其分量不相关的新随机向量，这在代数上表现为将原随机向量的协方差阵变换成对角形阵，在几何上表现为将原坐标系变换成新的正交坐标系，使之指向样本点散布最开的几个正交方向，然后对多维变量***进行降维处理，使之能以较高精度转换成低维变量***，通过构造适当的价值函数，进一步把低维***转化成一维***。主成分分析算法的基本原理如下：

假设有一组d维矢量Y＝[y₁y₂...y_n]可以表示为：

y_j＝Wx_j+m (1)

其中W是d×c维矩阵，x_j为c维主成分矢量，m为d(c≤d≤n)维偏差矢量。主成分分析算法通过寻找合适的W、x_j和m使得按照如下公式定义的代价函数C最小：

C = Σ_{j = 1}^{n} {| | y_{j} - {Wx}_{j} - m | |}^{2} - - - (2)

其中y_j为d维矢量，x_j为c维矢量。

线性判别分析（Linear Discriminant Analysis，LDA）通过最大化类间散度（between-class scatter）和最小化类内散度（within-class scatter）来保持鉴别性信息（discriminative information）。基本思想是将高维的模式样本投影到最佳鉴别矢量空间，以达到抽取分类信息和压缩特征空间维数的效果，投影后保证模式样本在新的子空间有最大类间散度和最小类内散度，即模式在该空间中有最佳可分离性。线性判别分析算法的基本原理如下：

假设有属于整数c(c＞0)类的给定数据{x_i,j∈R^N}，其中i(1≤i≤c)表示类别，j表示第i类中的第j(1≤j≤n_i)个数据，n_i为第i类中的数据数，数据总数为n，第i类的平均值为m_i，所有数据的整体平均值为m。线性判别分析的目标是寻找x_i,j的一个最佳投影矩阵w，保证经过投影后的数据y＝w^T(x-m)在新的空间中具有最小类内散度和最大类间散度。类内散度矩阵S_w和类间散度矩阵S_b分别表示同类数据间的分散程度和不同类数据间的分散程度：

S_{w} = \frac{1}{n} Σ_{i = 1}^{c} Σ_{j = 1}^{n_{i}} (x_{i, j} - m_{i}) {(x_{i, j} - m_{i})}^{T} - - - (3)

S_{b} = \frac{1}{n} Σ_{i = 1}^{c} (m_{i} - m) {(m_{i} - m)}^{T} - - - (4)

线性判别分析算法根据菲舍（Fisher）鉴别准则来找到一组最优鉴别矢量构成的投影矩阵W_opt：

W_{opt} = \underset{w}{\arg \max} \frac{| W^{T} S_{b} W |}{| W^{T} S_{w} W |} - - - (5)

流形（Manifold）降维方法是一种有效的降维方法，在模式识别等领域已得到应用。流形学习算法的目标是保持数据的几何结构，将高维特征通过流形方法投影到低维空间来降低计算量。保局投影（Locality PreservingProjections，LPP）是一种无监督的流形学习方法，在学习过程中未考虑样本类别信息。保局投影算法的基本原理如下：

保局投影通过寻找一个转换矩阵A，将高维空间Rⁿ的数据X＝{x₁,x₂,…,x_m}映射到低维空间R^l的数据Y＝{y₁,y₂,…,y_m}，使得在高维空间邻近的点映射后在低维空间仍保持近邻。具体表示为：

x_i→y_i＝A^Tx_i,i＝1,…,m (6)

其目标函数定义为：

J = \underset{i, j}{Σ} (y_{i} - y_{j}) S_{ij} {(y_{i} - y_{j})}^{T} - - - (7)

其中S_ij为权重矩阵，定义为

σ为经验参数。上式的解为：

XLX^Ta＝λXDX^Ta (8)

其中D为对角权重矩阵，L为拉普拉斯矩阵，λ为特征值向量。保局投影是一种无监督的机器学习方法，并未将样本的类别信息考虑在内。

传统的信号表示方法一般是在某个基（如傅里叶或小波函数）上展开，这种确定的基函数影响了对时频变化较大的信号的表示效果。为了实现对信号更好的表示，产生了信号稀疏（sparsity）分解理论，其基本思想是：自适应选择信号的基来获得信号的稀疏表示。这种稀疏表示一方面可以实现高效数据压缩，并可以利用冗余特征来获得原始信号的自然特征。语音信号稀疏分解已被成功应用于语音信号处理的多个方面，如语音压缩、降噪和识别等。基于过完备原子基的稀疏分解算法包括匹配追踪（Matching Pursuit，MP）算法和基追踪（Basis Pursuit，BP）算法等。

给定一个集合D＝{g_i,i∈Γ}，其元素是张成整个N维希尔伯特空间H＝R^N的单位矢量，如果元素个数K＞N，则集合D构成一个过完备基，其元素g_i为由参数i定义的原子且范数为1。任意信号S∈R^N在过完备原子基D上的稀疏分解问题可以描述为：

min||α||₀,s.t.S＝Dα (9)

其中||α||₀为系数序列{α_i}中非零元素的个数。

匹配追踪算法的具体方法如下：首先从过完备库中挑选与信号最匹配的原子

满足：

| &lang; g_{k_{0}}, S_{0} &rang; | = \sup_{k &Element; Γ} | &lang; g_{k}, S_{0} &rang; | - - - (10)

其中sup为极限保持函数。将信号S分解为在最匹配的原子

上的分量及残差ξ₀，即:

S_{0} = &lang; g_{k_{0}}, S &rang; g_{k_{0}} + ξ_{0} - - - (11)

随后对最佳匹配后的残余不断反复进行如上分解过程，即

S_{r} = &lang; g_{k_{r}}, S_{r} &rang; g_{k_{r}} + ξ_{r + 1} - - - (12)

其中S_r为第r次分解后获得的信号，

为第r次分解中挑选的最匹配原子，ξ_r+1为与

对应的残差，并有：

| &lang; g_{k_{r}}, S_{r} &rang; | = \sup_{k &Element; Γ} | &lang; g_{k}, S_{r} &rang; | - - - (13)

在每一步分解中，所选取的最佳原子都要满足上式。

最后，经过m步分解后，得到信号S：

S = Σ_{r = 0}^{m - 1} &lang; g_{k_{r}}, S_{r} &rang; g_{k_{r}} + ξ_{m} - - - (14)

其中为第r次分解中挑选的最匹配原子，ξ_m为与

对应的残差上式中的残差。ξ_m随着分解进行迅速衰减，因此用与信号长度相比较而言更少数的原子即可以表示信号的主要成分，体现了信号稀疏所表示的思想。但是对于包含多个特征成分的复合信号，上述稀疏分解算法无法兼顾多个特征成分，无法实现信号的稀疏分解。

稀疏算法中的双缩模型（Double Shrinking Model，DSM）算法将l₁范数引入传统的降维问题中，l₁范数定义为在欧几里德空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和。双缩模型的目的是寻找一个可以同时压缩维数（dimensionality）和基数（cardinality）的投影矩阵。双缩模型可表示为：

\min_{x} x^{T} Px + μ {| | x | |}_{1} s . t . x^{T} x = 1 - - - (15)

其中x代表投影矩阵，μ为权重，||x||₁为x的l₁范数，不同的P表示不同类型的降维算法。

双缩模型的优化求解主要困难在于l₁范数求解及约束等式x^Tx＝1两者同时满足。由于l₁范数方法不可求导，因此主要的解决方法集中于解决l₁范数最小二乘回归问题或带约束的l₁范数最小化问题，主要分为以下几类方法：贪婪（Greedy）算法、凸优化（Convex optimization）算法、迭代阈值（Iterative thresholding）算法等。贪婪算法搜索依次选择重要的变量，通过优化这些变量来获得压缩感知问题的稀疏解；凸优化算法通过产生双倍于l₁范数最小化的变量，l₁范数被这些变量之和取代，解决了l₁范数方法不可求导的问题；迭代阈值算法则在每个迭代步骤里循环进行软或硬阈值判决，最终得到稀疏解。

但是上述算法都存在弊端，例如贪婪算法很难保证双缩模型的最优解，附加的约束等式x^Tx＝1使得凸优化算法中的l₁范数无效，迭代阈值算法的解则无法满足双缩模型中的约束等式x^Tx＝1。总之，大部分的l₁范数优化方法不能直接应用于双缩模型。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于稀疏降维的说话人识别方法，通过对语音数据进行降维来实现说话人识别；该方法的基本思想是通过稀疏投影矩阵对高维数据进行降维，利用一种带约束的l₁范数优化方法来保证在不同的稀疏水平上均能获得全局最优解，并实现同时压缩维数和基数的目标；这种方法克服了原有的非全局最优以及无法满足模型约束等式等问题；在一些说话人识别数据集上采用稀疏降维方法可以获得比主成分分析或流形降维等降维方法更好的性能。

为了实现上述目的，本发明采用的技术方案是：

一种基于稀疏降维的说话人识别方法，提取用于训练的语音信号的声学特征作为说话人识别的训练特征，然后通过求解稀疏投影矩阵对用于训练的语音信号的声学特征进行降维，并获得最终稀疏投影矩阵，在完成降维后进行分类器训练，提取待识别的语音信号的声学特征作为说话人识别的待识别特征，利用获得的最终稀疏投影矩阵对待识别的语音信号的声学特征进行稀疏降维处理，最终根据所述分类器训练方法进行分类判决，其中：所述求解稀疏投影矩阵方法如下：

首先，对解路径进行初始化，即对公式

求解：

其中P定义为P＝I-D^1/2WD^-1/2，W为邻接矩阵，D为稀疏水平矩阵，P对应的解x即稀疏投影矩阵，设上式的初始非稀疏解为x⁰，则有Px⁰＝λx⁰，其中λ为特征值，并给定初始化拉格朗日乘数η⁰＝-λ，初始化权重μ⁰＝0；假设稀疏投影矩阵x中有n个非零元素，定义主集A为|λx|中的前n个最大非零元素，定义初始从集B为|λx|中除了前n个最大非零元素之外的其他非零元素；

然后，通过反复迭代来搜索稀疏降维投影矩阵的最优解路径，具体方法为，在第k次迭代开始时，解路径以当前解x^k-1为起点，以步长a沿着▽x＝(x^k-x^k-1)/a的方向前进，权重更新为μ^k，得到一个满足如下公式的局部最优解x^k：

(P + η^{k} I) x^{k} = - \frac{μ^{k}}{2} &PartialD; {| | x^{k} | |}_{1} s . t . {(x^{k})}^{T} x^{k} = 1

其中拉格朗日乘数

为l₁范数||x^k||₁的偏导，第k次迭代的迭代更新公式如下：

\{\begin{matrix} x_{A}^{k} = x_{A}^{k - 1} + a &dtri; x_{A} \\ x_{B}^{k} = x_{B}^{k - 1} + a &dtri; x_{B} \end{matrix}

其中

为主集A在第k次迭代后得到的局部最优解，

为主集A在第k-1次迭代后得到的局部最优解，

为主集B在第k次迭代后得到的局部最优解，

为主集B在第k-1次迭代后得到的局部最优解，

其中sign为符号函数，迭代步长a＝min{a_i},i＝1,2，其中

\{\begin{matrix} a_{1} = \max \frac{x_{B}^{k}}{&dtri; x_{B}} & x_{A}^{k} = 0 \\ a_{2} = \max \frac{x_{A}^{k}}{&dtri; x_{A}} & x_{B}^{k} = 0 \end{matrix}

每一次迭代都以增加主集A的变量个数，同时减少从集B的变量个数为目标，当主集A的某个变量或从集B的某个变量变为零值时该迭代停止；

迭代优化过程重复m次，直到x^m的基数小于指定的基数，即到达指定的稀疏条件时停止，最终稀疏解为x^*＝x^m，即为最终稀疏降维矩阵。

本发明通过将稀疏降维矩阵与语音信号相乘得到低维训练特征数据，进行分类器训练的方法是：首先将低维训练特征数据的所有类别分成两个子类，再将子类进一步划分成两个次级子类，如此循环下去，直到所有的节点都只包含一个单独的类别为止，最终获得多类SVM分类器，类别数为说话人识别中的说话人个数。

所述声学特征为Mel频率倒谱系数或线性预测倒谱系数。

本发明中，稀疏降维矩阵是通过不停的迭代反复训练出来的，初始的时候有一个初始化的稀疏降维矩阵作为迭代的起点，最后当满足一定要求后停止迭代，获得的稀疏降维矩阵就是最终稀疏降维矩阵。

本发明的主要原理是通过寻找稀疏降维投影矩阵的解路径实现稀疏降维，通过使得每个解路径在与其相关的范数参数上获得局部最优，最终实现全局最优，克服了双缩模型算法的非全局最优以及无法满足模型约束等式等问题。

同时，与现有技术相比，本发明建立了一种反复迭代来优化稀疏降维投影矩阵、最终达到稀疏降维的方法。稀疏降维说话人识别可以看作一种在机器学习中用稀疏降维方法替代全局学习的通用机器学习算法，通过上述局部学习说话人识别方法，可有效地解决无法描述异构性特征空间或复杂流形结构特征空间数据集全部相关信息的问题。

附图说明

图1是本发明基于稀疏降维的说话人识别方法流程图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如图1所示，本发明一种基于稀疏降维的说话人识别方法，训练数据输入101包括全部具有个体身份标识（Identity，ID）的用于训练的语音信号。

训练阶段即指特征提取102、参数初始化103、迭代优化104、稀疏降维矩阵105和SVM分类106部分。在利用第一步获得语音信号后，进行特征提取102，提取声学特征作为说话人识别信息，这些声学特征可以为Mel频率倒谱系数（Mel Frequency Cepstral Coefficients，MFCC）或线性预测倒谱系数（Linear Frequency Cepstral Coefficients，LPCC）等多种声学特征；

参数初始化103首先对解路径进行初始化，首先对解路径进行初始化，即对如下公式求初始非稀疏解：

\min_{x} x^{T} Pxs . t . x^{T} x = 1

其中P定义为P＝I-D^1/2WD^-1/2，W为邻接矩阵,D为稀疏水平矩阵，P对应的解x就是稀疏投影矩阵。对上式的初始非稀疏解x⁰有Px⁰＝λx⁰，其中λ为特征值。并给定初始化拉格朗日乘数η⁰＝-λ，初始化权重μ⁰＝0；假设稀疏投影矩阵x中有n个非零元素，定义主集A为|λx|中的前n个最大非零元素，定义初始从集B为|λx|中除了前n个最大非零元素之外的其他非零元素。

参数初始化完成后，迭代优化104通过反复迭代来搜索稀疏降维投影矩阵的最优解路径。具体方法为，在第k次迭代开始时，解路径以当前解x^k-1为起点，以步长a沿着▽x＝(x^k-x^k-1)/a的方向前进，权重更新为μ^k，得到一个满足如下公式的局部最优解x^k：

(P + η^{k} I) x^{k} = - \frac{μ^{k}}{2} &PartialD; {| | x^{k} | |}_{1} s . t . {(x^{k})}^{T} x^{k} = 1

其中拉格朗日乘数

为l₁范数||x^k||₁的偏导。第k次迭代的迭代更新公式如下：

\{\begin{matrix} x_{A}^{k} = x_{A}^{k - 1} + a &dtri; x_{A} \\ x_{B}^{k} = x_{B}^{k - 1} + a &dtri; x_{B} \end{matrix}

其中

为主集A在第k次迭代后得到的局部最优解，

为主集A在第k-1次迭代后得到的局部最优解，

为主集B在第k次迭代后得到的局部最优解，

为主集B在第k-1次迭代后得到的局部最优解，

其中sign为符号函数，迭代步长a＝min{a_i},i＝1,2，其中

\{\begin{matrix} a_{1} = \max \frac{x_{B}^{k}}{&dtri; x_{B}} & x_{A}^{k} = 0 \\ a_{2} = \max \frac{x_{A}^{k}}{&dtri; x_{A}} & x_{B}^{k} = 0 \end{matrix}

每一次迭代都以增加主集A的变量个数，同时减少从集B的变量个数为目标，当主集A的某个变量或从集B的某个变量变为零值时该迭代停止，迭代的步长大小由这两者的变化共同决定，其中任何一个条件不满足都会造成迭代停止。相比于第k-1次迭代，第k次迭代后的解更加稀疏，因此本发明中的迭代求解稀疏降维投影矩阵最优解路径的方法就是使得解越来越稀疏的过程。

迭代优化过程重复m次，直到x^m的基数小于指定的基数，即到达指定的稀疏条件时停止，最终稀疏降维矩阵105为x^m。

特征降维后采用支持向量机进行分类器训练，支持向量机（SupportVector Machine,SVM）方法是建立在统计学***面用来区分两类数据，这个超平面距离两类数据的边界最大，SVM在模式识别中的应用十分广泛。目前应用SVM处理多类问题的思路，一是在经典SVM的基础上，重新构造多类分类模型，通过SVM方法对目标函数进行优化，实现多类分类。但是这种方法目标函数十分复杂，难于对其求解，在工程应用领域很少被采用；二是将多类问题归结为多个两类问题，组合多个二分类支持向量机实现多类分类，这类方法通过将多类问题分解为多个两类问题，同时将一个复杂问题转化若干个简单问题，常用的方法有一对多、一对一、导向无环图、二叉树。基于二叉树的多类SVM是先将所有类别分成两个子类，再将子类进一步划分成两个次级子类，如此循环下去，直到所有的节点都只包含一个单独的类别为止。对于N类问题，二叉树多类SVM只需要N-1个二类SVM，决策阶段只需历经至多log₂N个二类SVM，所以具有较高的训练和测试速度。

在获得稀疏降维矩阵后与训练数据输入101相乘得到低维训练特征数据，对其进行多类的SVM分类106，此处类别数即说话人识别中的说话人个数。首先将所有类别分成两个子类，再将子类进一步划分成两个次级子类，如此循环下去，直到所有的节点都只包含一个单独的类别为止，最终获得多类SVM分类器。

如图1所示的待识别数据输入107包括全部需要识别的语音信号。

识别阶段即指108、109和110部分。在获得需要识别的语音信号后，进行特征提取108，提取声学特征作为说话人识别信息，这些声学特征可以为Mel频率倒谱系数或线性预测倒谱系数等多种声学特征；特征降维109通过利用稀疏降维矩阵105与待识别数据输入107相乘得到低维识别特征数据；分类判决110则利用SVM分类106获得的多类SVM分类器对全部待识别的低维数据集进行特征空间上的分类判决，将全部待识别的低维数据集的分类判别结果作为***识别结果输出111。

Claims

1.一种基于稀疏降维的说话人识别方法，提取用于训练的语音信号的声学特征作为说话人识别的训练特征，然后通过求解稀疏投影矩阵对用于训练的语音信号的声学特征进行降维，并获得最终稀疏投影矩阵，在完成降维后进行分类器训练，提取待识别的语音信号的声学特征作为说话人识别的待识别特征，利用获得的最终稀疏投影矩阵对待识别的语音信号的声学特征进行稀疏降维处理，最终根据所述分类器训练方法进行分类判决，其特征在于，所述求解稀疏投影矩阵方法如下：

首先，对解路径进行初始化，即对公式