CN111161713A

CN111161713A - 一种语音性别识别方法、装置及计算设备

Info

Publication number: CN111161713A
Application number: CN201911328136.4A
Authority: CN
Inventors: 王佳琦; 张丽娜
Original assignee: Beijing Pierbulaini Software Co ltd
Current assignee: Beijing Pierbulaini Software Co ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-05-15

Abstract

本发明公开了一种语音性别识别方法、装置及计算设备，所述方法包括：获取待识别的语音数据；对所述语音数据进行特征提取，得到所述语音数据的声学特征；将所述声学特征输入到通用背景模型，并对通用背景模型的输出进行最大后验估计处理，得到所述语音数据的高斯混合分布；基于所述高斯混合分布提取所述语音数据的均值超矢量；对所述均值超矢量进行因子分析，得到所述语音数据的降维特征；将所述降维特征输入到训练好的性别分类器进行处理，输出所述语音数据的性别估计结果。

Description

一种语音性别识别方法、装置及计算设备

技术领域

本发明涉及语音处理领域，特别涉及一种语音性别识别方法、装置及计算设备。

背景技术

声纹识别(Voiceprint recognition,VPR)又称说话人识别(Speakerrecognition,SRE)，是一项根据说话人语音信号中反映说话人生理和行为特征的语音参数(“声纹”)自动识别说话人身份的技术。说话人性别识别是声纹识别的一个重要领域，是一项基于说话人的声学特征识别说话人性别的技术。

电话咨询服务例如400电话，目前广泛用于企业售前售后，在服务客户的过程中，企业会积累大量的高价值数据来构建用户画像。通过用户画像，企业可进行针对性地广告投放，做到精准营销，提升广告转化率。其中，用户性别信息对于用户画像的构建是至关重要的，对于通话用户的性别信息进行标注往往需要投入大量的人工成本，通过声纹识别技术对用户通话语音进行自动化实时性别识别可以帮助企业提升工作效率，节约人工标注成本。

目前的电话语音性别自动化识别首先将通话录音保存下来，然后通过音频信号处理或者深度学习的方法对保存下来的录音进行性别识别。这种方法需要保存完整的通话录音，消耗大量的服务器资源，并且无法做到实时性别识别。

另外，在实际语音通信的过程中，环境噪声、通信工具等信道情况复杂，使原始语音信号发生畸变，从而导致语音性别识别精度下降。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的语音性别识别方法、装置及计算设备。

根据本发明的一个方面，提供一种语音性别识别方法，在计算设备中执行，并包括如下步骤：

获取待识别的语音数据；

对所述语音数据进行特征提取，得到所述语音数据的声学特征；

将所述声学特征输入到通用背景模型，并对通用背景模型的输出进行最大后验估计处理，得到所述语音数据的高斯混合分布；

基于所述高斯混合分布提取所述语音数据的均值超矢量；

对所述均值超矢量进行因子分析，得到所述语音数据的降维特征；

将所述降维特征输入到训练好的性别分类器进行处理，输出所述语音数据的性别估计结果。

可选地，在根据本发明的语音性别识别方法中，所述获取待识别的语音数据，包括：对语音流进行端点检测，根据端点检测结果从所述语音流中截取预定时长的连续语音，作为待识别的语音数据。

可选地，在根据本发明的语音性别识别方法中，所述对所述语音数据进行特征提取，得到所述语音数据的声学特征，包括：对所述语音数据进行预加重、分帧和加窗处理；对加窗后的每个语音帧进行离散傅里叶变换，得到各语音帧的频谱；从各语音帧的频谱中提取梅尔标度滤波器组FBANK特征，并对FBANK特征进行离散余弦变换，得到梅尔倒谱系数MFCC特征；将所有语音帧的MFCC特征构造为特征序列，并将该特征序列作为所述语音数据的声学特征。

可选地，在根据本发明的语音性别识别方法中，在将所有语音帧的MFCC特征构造为特征序列之前，还包括：计算各语音帧的能量值；将各语音帧的MFCC特征的第一个系数，替换为该语音帧的能量值。

可选地，在根据本发明的语音性别识别方法中，所述对所述均值超矢量进行因子分析，得到所述语音数据的降维特征，包括：获取通用背景模型的均值超矢量m；获取所述因子分析的总变化空间矩阵T；基于如下公式计算i-vector特征w：M＝m+Tw，其中M为语音数据的均值超矢量；将计算得到的i-vector特征作为所述语音数据的降维特征。

可选地，在根据本发明的语音性别识别方法中，在将所述降维特征输入到训练好的性别分类器进行处理之前，还包括：通过线性判别分析对所述降维特征进行信道补偿。

可选地，在根据本发明的语音性别识别方法中，所述语音数据为电话语音数据。

可选地，根据本发明的语音性别识别方法，还包括：利用各种信道的语料训练出所述通用背景模型。

可选地，根据本发明的语音性别识别方法，还包括：利用电话语料，通过最大期望算法估计出用于因子分析的总变化空间矩阵。

可选地，根据本发明的语音性别识别方法，还包括：按照如下方式训练所述性别分类器：获取训练数据集，所述训练数据集中的每条训练数据包括语音数据及其性别标签；对于每条训练数据，提取该训练数据的降维特征；将提取的降维特征输入到待训练的性别分类器中；根据性别分类器的输出以及该语言数据的性别标签，调整所述待训练的性别分类器的模型参数。

可选地，在根据本发明的语音性别识别方法中，所述性别分类器采用逻辑回归分类器。

根据本发明另一个方面，提供一种语音性别识别装置，驻留在计算设备中，并包括：

获取模块，适于获取待识别的语音数据；

特征提取模块，适于对所述语音数据进行特征提取，得到所述语音数据的声学特征；

特征处理模块，适于将所述声学特征输入到通用背景模型，并对通用背景模型的输出进行最大后验估计处理，得到所述语音数据的高斯混合分布；

均值超矢量提取模块，适于基于所述高斯混合分布提取所述语音数据的均值超矢量；

因子分析模块，适于对所述均值超矢量进行因子分析，得到所述语音数据的降维特征；

分类模块，适于将所述降维特征输入到训练好的性别分类器进行处理，输出所述语音数据的性别估计结果。

根据本发明的又一个方面，提供一种计算设备，包括：至少一个处理器；和存储有程序指令的存储器，其中，所述程序指令被配置为适于由所述至少一个处理器执行，所述程序指令包括用于执行上述方法的指令。

根据本发明的又一个方面，提供一种存储有程序指令的可读存储介质，当所述程序指令被计算设备读取并执行时，使得所述计算设备执行上述的方法。

本发明的语音性别识别方案，具有如下的一个或多个有益技术效果：

1)利用短时语音完成实时性别识别，解决了传统方法需要保留整段通话语音而占用大量服务器资源、实时性差的问题。

2)通过GMM-UBM模型和MAP自适应算法对模型参数进行估计，不必调整GMM的所有参数，只需要对各个单高斯分布的均值参数进行估计，模型参数少，收敛速度快，用少量的电话语音数据即可完成模型训练，避免了过拟合的发生。

3)通过因子分析方法从语音中提取与说话人性别相关的特征，利用判别式模型对语音性别进行分类，解决通话过程中由于不同信道信息的干扰导致识别精度下降的问题。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的计算设备100的结构图；

图2示出了根据本发明一个实施例的语音识别方法200的流程图；

图3示出了方法200的建模和训练过程示意图；

图4示出了根据本发明一个实施例的语音性别识别装置400的结构图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的计算设备100的结构图。如图1所示，在基本的配置102中，计算设备100典型地包括***存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和***存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，***存储器106可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。***存储器106可以包括操作***120、一个或者多个应用122以及程序数据124。应用122实际上是多条程序指令，其用于指示处理器104执行相应的操作。在一些实施方式中，应用122可以布置为在操作***上使得处理器104利用程序数据124进行操作。

计算设备100还可以包括有助于从各种接口设备(例如，输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

计算设备100可以实现为包括桌面计算机和笔记本计算机配置的个人计算机，也可以实现为服务器，例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等。当然，计算设备100也可以实现为小尺寸便携(或者移动)电子设备的一部分。在根据本发明的实施例中，计算设备100被配置为执行根据本发明的语音性别识别方法200。计算设备100的应用122中包含执行根据本发明的方法200的多条程序指令。

图2示出了根据本发明一个实施例的语音性别识别方法200的流程图，方法200在计算设备中执行，例如，在如图1所示的计算设备100中执行。

参照图2，方法200始于步骤S202。在步骤S202中，获取待识别的语音数据。在本发明实施例中，待识别的语音数据可以为电话语音数据，例如400电话的语音数据。

语音采集设备采集电话客户通话通道语音流，将语音流实时缓存至缓存区中，并对语音流进行实时端点检测(Voice Activity Detection,VAD)，根据端点检测结果从语音流中截取预定时长的连续语音，作为待识别的语音数据。具体地，在检测到语音流的前端点后，若语音长度达到预定时长(例如两秒)，则停止缓存，并将该段语音保存到计算设备上，否则继续进行端点检测直至截取到预定时长的连续语音。

在实际语音通信的过程中，环境噪声、通信工具等信道复杂性高，仅通过VAD切除静音部分难以有效地消除信道差异的影响，语音性别识别的精度偏低。本发明实施例在后续步骤中，还对待识别的语音数据进行预处理，并提取语音数据的声学特征，将提取的声学特征输入到训练好的模型中进行实时性别识别。

在步骤S204中，对语音数据进行特征提取，得到所述语音数据的声学特征。在进行特征提取前，还可以对截取的语音数据进行预处理，具体包括语音格式转化、采样率转化。例如，将语音数据的格式都转化为.wav格式，将各种采样率(8k、16k等)都转化为8k。

然后，进行声学特征的提取。声学特征可选择FBANK、MFCC、PLP等，这里优选MFCC(Mel-Frequency Cepstrum Coefficients,梅尔倒谱系数)，其中MFCC是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换。

声学特征提取的具体步骤可以包括：

1)对语音数据进行预加重。加重高频语音的能量，使得语音信号的高频信息更加凸显；

2)对语音数据进行分帧和加窗处理。帧长优选25ms，帧移优选10ms，窗函数优选海明窗；

3)对加窗后的每一个语音帧进行离散傅里叶变换，提取频域信息，得到每一个语音帧分别对应的频谱；

4)提取FBANK特征。分别从各语音帧的频谱通过梅尔标度滤波器组规划到梅尔刻度上得到梅尔频谱，其中梅尔标度滤波器的个数优选40，接着将梅尔频谱的能量数值取对数，得到多维(例如40维)的FBANK(梅尔标度滤波器组)特征；

5)对于每个语音帧的FBANK特征，对该FBANK特征进行离散余弦变换，得到该语言帧的MFCC特征，并且，还可以取例如前20维作为MFCC特征。

这样，语音数据的每个语音帧就各自对应一个MFCC特征，这些MFCC特征所构成的特征序列，就成为语音数据的声学特征。

在一种优选方式中，还可以计算语音数据的每一帧语音频的能量值，能量值为该帧下所有音频采样点取值的平方和，并可以用能量值替换MFCC特征的第一个系数。继续上面的例子，构成声学特征的特征序列中的每个特征为20维，其中包括1维能量值和19维MFCC。

在步骤S206中，将语音数据的声学特征输入到预先训练好的通用背景模型，并对通用背景模型的输出进行最大后验估计(MAP)自适应处理，得到语音数据的高斯混合分布。其中，GMM(Gaussian Mix Model,高斯混合模型)，指的是多个高斯分布函数的线性组合，理论上GMM可以拟合出任意类型的分布，这里用来分别对男声和女声进行建模。UBM(Universal Background Model,通用背景模型)是利用来自不同说话人的大量语音数据建立的一个相对稳定且与说话人特性无关的高斯混合模型(GMM)。该模型描述了不同说话人在声学空间中的共享特性，被称为通用背景模型(UBM)。

在本步骤中，可以将语音数据的MFCC特征序列在UBM模型的每个高斯分量上进行MAP(Maximum A Posteriori Estimation，最大后验估计)自适应，得到该语音数据对应的GMM模型，即GMM-UBM模型。在本发明实施例中，自适应过程中只需更新GMM模型的均值矢量μ_i，i＝1,2,…,c，其中c为GMM的分量数目，即GMM是c个高斯分布函数的线性组合。

在步骤S208中，基于所述高斯混合分布提取语音数据的均值超矢量。在一种实现方式中，将GMM中所有高斯分量的均值矢量μ_i按照固定的顺序拼接起来，得到GMM均值超矢量M：

假设GMM的每个声学特征矢量为F维，则M为CF×1的高维特征矢量，其中包含了对应通话用户语音的全部信息，包括说话人信息和信道信息。

在步骤S210中，对均值超矢量M进行因子分析，得到语音数据的均值超矢量的降维后的特征，本发明中称为降维特征。在一种实现方式中，降维特征为i-vector特征。

在本发明实施例中，i-vector是一个R×1维的矢量，服从高斯分布N(0,1)，其中包含了说话人的身份信息和信道信息，可以充分覆盖噪声、混响、编码方式等环境因子的变化，维度通常为400-600，这里优选400维。对于语音数据的GMM均值超矢量M可以表示为如下形式：

M＝m+Tw

其中，M服从高斯分布N(m,TT^T)，m为UBM均值超矢量，T为总变化空间矩阵，其维度为CF×R，w为i-vector特征。

在步骤S212中，将降维特征例如i-vector特征输入到训练好的性别分类器进行处理，输出语音数据的性别估计结果。

根据本发明的另一个实施例，在步骤S212之前，还通过LDA(Linear DiscriminantAnalysis，线性判别分析)对i-vector进行信道补偿，在步骤S212中，是将信道补偿后的i-vector特征输入到训练好的性别分类器进行处理，输出语音数据的性别估计结果。

LDA是模式识别领域中的降维技术，通过寻找最能区分各类数据的方向，来使得新的特征更具有区分性。通过LDA能够进一步提高i-vector对说话人性别的区分能力，减弱信道信息不同对识别精确率的影响。

LDA的训练过程如下：

提供训练数据集，训练数据集中的每条训练数据包括语音数据及其性别标签，对于每条训练数据，按照上述方式提取该训练数据的i-vector。

然后，LDA的求解过程是最大化Rayleigh系数J的过程

其中，S_b和S_w分别为类间散度矩阵和类内散度矩阵。S_b和S_w的计算方式分别如下：

其中，S是性别类别(s＝0点男性，s＝1代表女性)，

是训练数据集中性别s对应的全部语音数据的i-vector的均值，

是全部语音数据的i-vector均值，n_s是训练数据集中性别s对应的语音数据条数，w_s,h是性别s对应的第h条语音的i-vector。Rayleigh系数反应了语音在方向a上S_b和S_w的信息比总和，最大化Rayleigh系数的过程能够最小化由信道效应产生的方差，同时最大化说话人特征之间的方差。最大化Rayleigh系数可以转化为求一个投影矩阵A，这个矩阵由如下特征值(从达到下排列)所对应的特征向量a组成

S_ba＝λS_wa

其中，λ为特征值。

这样，经过训练，就可以得到投影矩阵A。通过LDA对i-vector进行信道补偿后的i-vector可以表示为

φ(w)＝A^Tw

式中，w为信道补偿前的i-vector特征，φ(w)为信道补偿后的i-vector特征。

可以看出，在本发明实施例中，通过因子分析和信道补偿技术提取语音的i-vector特征，然后通过LDA对其进行信道补偿，增强了语音特征中的说话人信息，减弱了电话语音中复杂的信道信息对语音性别识别的影响，提升了性别识别精度。

以下介绍方法200中相关模型的建立和训练过程。

图3示出了方法200的建模和训练过程示意图。参照图3，该过程涉及UBM模型的训练，因子分析中总变化空间矩阵的计算，性别分类器的训练。

首先，用大量各种信道的语料训练一个与说话人信息无关的UBM模型。如前所述，UBM也是一种GMM模型，是所有说话人语音特征的共性反映以及信道信息的共性反映，固UBM的训练数据集越多、覆盖面越广，训练得到的GMM就越能接近真实分布。具体地，获取大量各种信道的语料，将语料数据按照步骤S202和步骤S204的方法进行处理，提取MFCC特征，并利用MFCC特征来训练UBM模型，UBM模型参数的训练可以采用EM(Expectation-maximizationalgorithm，期望最大化算法)。训练完成后，可以得到UBM模型的均值超矢量。

然后，获取电话语料(例如400电话语料)，将一部分作为训练数据集，将另一部分作为测试数据集(可选)，并将语料数据按照步骤S202和步骤S204的方法进行处理，提取MFCC特征。将训练集语料数据的MFCC特征通过步骤S206和步骤S208的处理，得到训练集中每条语音数据的均值超矢量。对训练集所有语音的均值超矢量进行因子分析，分别从中提取i-vector特征。i-vector是一个R×1维的矢量，服从高斯分布N(0,1)，其中包含了说话人的身份信息和信道信息，可以充分覆盖噪声、混响、编码方式等环境因子的变化，维度通常为400-600，这里优选400维。对于每一条语音数据的GMM均值超矢量可以表示为如下形式：

M＝m+Tw

其中，M为GMM的均值超矢量，服从高斯分布N(m,TT^T)，m为UBM均值超矢量，T为总变化空间矩阵，其维度为CF×R，w为i-vector特征。训练过程中通过EM算法对总变化空间矩阵T进行估计，在总变化空间矩阵T估计完毕后，分别对训练集和测试集通过每条语音的GMM均值超矢量提取对应的i-vector特征。

然后，利用语音数据的i-vector特征训练Logistics Regression模型对语音性别进行分类。具体步骤为：

a)将语音数据根据性别男、女分别打标签0、1；

b)利用训练集的i-vector特征训练逻辑回归(Logistics Regression)模型，模型函数为：

其中，θ^T＝[θ₀θ₁…θ_n]，表示一组参数，损失函数为：

通过梯度下降法求得参数θ。

这样，在识别阶段(步骤S212)，可以将参数θ带入到模型中，给定一段待识别语音x，对其提取i-vector输入到模型中，若h_θ(x)<0.5则识别结果为男性，若h_θ(x)>0.5则识别结果为女性。

参照图4，装置400包括：

获取模块410，适于获取待识别的语音数据；

特征提取模块420，适于对所述语音数据进行特征提取，得到所述语音数据的声学特征；

特征处理模块430，适于将所述声学特征输入到通用背景模型，并对通用背景模型的输出进行最大后验估计处理，得到所述语音数据的高斯混合分布；

均值超矢量提取模块440，适于基于所述高斯混合分布提取所述语音数据的均值超矢量；

因子分析模块450，适于对所述均值超矢量进行因子分析，得到所述语音数据的降维特征；

分类模块460，适于将所述降维特征输入到训练好的性别分类器进行处理，输出所述语音数据的性别估计结果。

获取模块410、特征提取模块420、特征处理模块430、因子分析模块450和分类模块460所执行的具体处理，可参照上述的步骤S202、步骤S204、步骤S206、步骤S208、步骤S210、步骤S212，这里不做赘述。

综上所述，本发明通过实时获取电话客户通话语音流，对语音流进行实时端点检测，截取预定时长(例如2秒)通话语音，通过预定时长的语音即可完成实时性别识别，而无需保留整通电话录音，节省了大量服务器资源、实时性好。

本发明通过大量数据训练UBM模型提取语音及信道的共性特征，然后通过MAP自适应算法对模型参数进行估计，获取每条语音的GMM，不必调整GMM的所有参数，只需要对各个单高斯分布的均值参数进行估计，模型参数少，收敛速度快，用少量的电话语音数据即可完成模型训练，避免了过拟合的发生，解决了由于训练语料不充分，不能覆盖所有发音内容而带来的识别性能下降的问题。

本发明通过因子分析技术增强了语音特征中的说话人性别信息的表征能力，减弱了实际应用中复杂的电话信道信息对语音性别识别的影响，并通过判别式模型提升了性别识别精度。

8、如权利要求7所述的方法，还包括：利用各种信道的语料训练出所述通用背景模型。

9、如权利要求7或8所述的方法，还包括：利用电话语料，通过最大期望算法估计出用于因子分析的总变化空间矩阵。

10、如权利要求7至10中任一项所述的方法，还包括，按照如下方式训练所述性别分类器：

获取训练数据集，所述训练数据集中的每条训练数据包括语音数据及其性别标签；

对于每条训练数据，提取该训练数据的降维特征；

将提取的降维特征输入到待训练的性别分类器中；

根据性别分类器的输出以及该语言数据的性别标签，调整所述待训练的性别分类器的模型参数。

11、如权利要求10所述的方法，其中，所述性别分类器采用逻辑回归分类器

在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述，构造这类***所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

Claims

1.一种语音性别识别方法，在计算设备中执行，并包括如下步骤：

获取待识别的语音数据；

基于所述高斯混合分布提取所述语音数据的均值超矢量；

2.如权利要求1所述的方法，其中，所述获取待识别的语音数据，包括：

对语音流进行端点检测，根据端点检测结果从所述语音流中截取预定时长的连续语音，作为待识别的语音数据。

3.如权利要求1或2所述的方法，其中，所述对所述语音数据进行特征提取，得到所述语音数据的声学特征，包括：

对所述语音数据进行预加重、分帧和加窗处理；

对加窗后的每个语音帧进行离散傅里叶变换，得到各语音帧的频谱；

从各语音帧的频谱中提取梅尔标度滤波器组FBANK特征，并对FBANK特征进行离散余弦变换，得到梅尔倒谱系数MFCC特征；

将所有语音帧的MFCC特征构造为特征序列，并将该特征序列作为所述语音数据的声学特征。

4.如权利要求3所述的方法，其中，在将所有语音帧的MFCC特征构造为特征序列之前，还包括：

计算各语音帧的能量值；

将各语音帧的MFCC特征的第一个系数，替换为该语音帧的能量值。

5.如权利要求1至4中任一项所述的方法，其中，所述对所述均值超矢量进行因子分析，得到所述语音数据的降维特征，包括：

获取通用背景模型的均值超矢量m；

获取所述因子分析的总变化空间矩阵T；

基于如下公式计算i-vector特征w：M＝m+Tw，其中M为语音数据的均值超矢量；

将计算得到的i-vector特征作为所述语音数据的降维特征。

6.如权利要求1至5中任一项所述的方法，其中，在将所述降维特征输入到训练好的性别分类器进行处理之前，还包括：

通过线性判别分析对所述降维特征进行信道补偿。

7.如权利要求1至6中任一项所述的方法，其中，所述语音数据为电话语音数据。

8.一种语音性别识别装置，驻留在计算设备中，并包括：

获取模块，适于获取待识别的语音数据；

9.一种计算设备，包括：

至少一个处理器；和

存储有程序指令的存储器，其中，所述程序指令被配置为适于由所述至少一个处理器执行，所述程序指令包括用于执行如权利要求1-7中任一项所述方法的指令。

10.一种存储有程序指令的可读存储介质，当所述程序指令被计算设备读取并执行时，使得所述计算设备执行如权利要求1-7中任一项所述的方法。