CN110428843A

CN110428843A - 一种语音性别识别深度学习方法

Info

Publication number: CN110428843A
Application number: CN201910719758.3A
Authority: CN
Inventors: 陈晋生; 罗世操
Original assignee: HANGZHOU XIONGMAI TECHNOLOGY Co Ltd
Current assignee: Hangzhou Jiefeng Technology Co ltd
Priority date: 2019-03-11
Filing date: 2019-08-06
Publication date: 2019-11-08
Anticipated expiration: 2039-08-06
Also published as: CN110428843B

Abstract

本发明公开的是一种语音性别识别深度学习方法，包括如下步骤：a.采集语音信号；b.对所采集语音信号进行人声语音端点检测并分割出有人声的语音信号段；c.对语音信号段分帧并对每帧进行多分辨率的耳蜗语音特征提取；d.把每帧语音特征输入预先训练好的语音性别识别深度学习模型中进行分类；e.对输出的语音性别判定进行投票统计，根据得票高低最终输出该语音信号段的说话者性别，本发明采用多分辨率的耳蜗语音特征，更符合人的听觉感知分析的语音特征参数，采用胶囊网络作为语音性别识别声学推理模型，能够适应低信噪比的语音环境，相比传统的方法有更高的识别率。

Description

一种语音性别识别深度学习方法

技术领域

本发明涉及一种深度学习方法，更具体一点说，涉及一种语音性别识别深度学习方法，属于性别识别技术领域。

背景技术

说话人识别是目前身份认证及人工智能领域研究的一个热点，解决说话人识别问题具有重要的理论价值和深远的实用意义。性别辨识可应用于需验证男女生性别的场合，例如从身份证号码的第一个数字得知被验证者的性别，验证说话者的性别是否与该身份证号码所载的性别一致，此外也可应用在语音辨识的前端，当辨识出说话者的性别后，以性别相关的语音模型(Gender-Dependent Model)进行辨认以提升语音辨识率。当前的语音性别识别***通常由三个部分组成，它们是语音信号预处理，特征提取和分类，特征提取是最重要的部分，它的好坏直接影响识别结果，之前研究者所提出的语音性别特征大多是基于语音的韵律特征和音质特征，均为人工设计的特征，***的鲁棒性不高，很容易受到环境的影响。

发明内容

本发明的目的在于解决上述技术问题，本发明提供具有纬度丰富、识别率高等技术特点的一种语音性别识别深度学习方法，实现对语音信号的性别识别。

为了实现上述目的，本发明采用如下技术方案：

一种语音性别识别深度学习方法，其特征在于该方法包括以下步骤：

a)语音信号采集；

b)对所采集的语音信号进行语音端点检测并分割出有人声的语音信号段；

c)对语音信号段进行分帧后获得N帧，对每帧均进行多分辨率的耳蜗语音特征提取，最终获得N帧的语音特征；

d)进行语音性别识别以输出语音性别识别结果，所述语音性别识别包括如下步骤：

d1)建立基于胶囊神经网络的深度学习分类器；

d2)把每帧提取到的多分辨率耳蜗语音特征输入深度学习分类器中，得到N帧分类结果，运用多数优先投票原则对N帧分类结果进行投票，得到最终语音性别识别结果。

作为一种改进，步骤a)中所述语音信号采集包括如下过程：

1)利用麦克风设备输入语音信号；

2)通过采样量化获得相应的语音信号。

作为一种改进，所述采样量化的采样频率为16KHz，量化精度为16bit。

作为一种改进，步骤b)中所述端点检测是利用短时零积法进行。

作为一种改进，步骤c)中所述分帧的帧长范围为20ms～30ms，帧步长范围为10ms～15ms。

作为一种改进，步骤c)中耳蜗语音特征提取的方法是在时间维度上多分辨率的提取耳蜗语音特征，通过融合局部和全局的特征信息，具体方法包括如下步骤：

1)构建基于人耳耳蜗听觉模型的Gammatone滤波器组，其时域表达形式如下：

g(f，t)＝kt^a-1e^-2πbt cos(2πft+φ),t≥0；

其中，k为滤波器增益，a为滤波器阶数，f为中心频率，Φ为相位，b是衰减因子，所述衰减因子决定相应的滤波器的带宽，衰减因子b与中心频率f的关系为：

b＝24.7(4.37f/1000+1)；

2)利用基于FFT的重叠相加法对语音信号进行Gammatone滤波器滤波，得到输出响应信号R(n,t)，其中，n是滤波器的通道数，取值为8，t是输出响应信号的长度，取值为自然数，t的长度输入信号保持相等；

3)对输出响应信号R(n,t)分帧求取帧内的响应能量以获得类耳蜗图，处理公式如下：

Gm(i)＝log([|R|(i,m)]^1/2),i＝0,1,...,N-1；m＝0,1,...,M-1

其中，i表示第i个gammatone滤波器，m表示第m帧，N取8为滤波器组的个数，M为分帧后的帧数；类耳蜗图的每一帧称为Gammatone特征系数GF，一个GF特征矢量由8个频率成分组成；

4)多分辨率的耳蜗语音特征是由4种不同窗口尺寸和不同帧长的耳蜗语音特征组成的，首先将4种耳蜗语音特征拼接起来得到32-D语音特征，然后计算32-D语音特征的一阶差分和二阶差分得到32-D Delta特征、32-D Delta-Delta特征，并将三者融合最终得到96-D语音特征，差分特征计算公式如下：

作为一种改进，第一种和第四种的耳蜗语音特征分别是20ms和200ms帧长的耳蜗语音特征，第二种和第三种耳蜗语音特征是在第一种耳蜗语音特征上做3x5和5x11窗口的移动平均得到。

作为一种改进，所述的Gammatone滤波器组采用的是8个channel的4阶Gammatone滤波器，其中心频率范围为50Hz～8000Hz。

作为一种改进，步骤d)中所述基于胶囊神经网络的深度学习分类器包括一个输入层、两个隐含层以及一个胶囊层，训练基于胶囊神经网络的深度学习分类器的方法为：

1)建立胶囊神经网络的深度学习分类器的训练集：X_i∈χ＝(R^f)^*以及L_i∈Z＝{0,1}^*；其中，n是训练集中训练样本本个数，i表示训练样本序列号，X_i∈χ＝(R^f)^*为96-D的语音耳蜗特征，L_i∈Z＝{0,1}^*是X_i对应的训练标签，0表示X_i是男性语音样本，1表示X_i是女性语音样本；

2)建立胶囊神经网络的深度学习分类器的模型：将输入层和隐含层以及隐含层和隐含层之间采用全连接方式，激活函数是RELU；进行各层神经网络神经元个数配置：输入层维度为96，第一个隐含层维度为128，第二个隐含层的维度为32x8，所述第二个隐含层为下级胶囊层，其包含32个不同胶囊，每个胶囊向量维度为8，公式如下：

w_ij是分类器模型权重参数，x_i为神经元输入，z_j是中间结果，y_j是神经网络激活输出，且其同时作为下一层的输入；

3)计算胶囊层的第j个胶囊：先利用分类器模型权重参数W_ij和下级胶囊层输入u_i相乘得到下级胶囊层共n个胶囊，得到n个然后将n个分别乘以各自的权重c_ij得到s_j，在训练过程中，通过动态路由算法来更新b_ij和权重c_ij，其中b_ij初始值为0；激活函数为squash函数，把s_j向量缩放到0到单位长度，具体公式如下：

4)建立胶囊神经网络的深度学习分类器的损失函数，首先计算出胶囊层的输出v_j，v_j是一个16维向量，胶囊层共输出两个v_j向量，对两个v_j向量求模，模值最大的那个v_j向量代表语音性别概率最大的分类，通过向量模的大小衡量实体出现的概率，模值越大，概率越大；采用Margin Loss来作为网络的Loss，具体公式如下：

L_c＝T_c max(0,m⁺-||v_c||)²+λ(1-T_c)max(0,||v_c||-m^-)²

T_c＝1表示类别c是存在的，m⁺＝0.9,m^-＝0.1，λ为0.5。

作为一种改进，步骤d)中所述多数优先投票原则对N帧分类结果进行投票，把每帧提取到的多分辨率耳蜗语音特征输入深度学***均如果p≥0.5，则输出为男性声音，反之则为女性声音。

有益效果在于：本发明提供的一种语音性别识别深度学习方法，针对传统语音性别识别容易受环境变换影响，采用多分辨率的耳蜗语音特征，更符合人的听觉感知分析的语音特征参数，并采用胶囊网络作为语音性别识别声学推理模型，能够适应低信噪比的语音环境，利用胶囊网络的向量表达替换传统标量表达，维度更为丰富，相比传统的方法有更高的识别率。

附图说明

图1是本发明语音性别识别深度学习方法流程图。

图2为本发明多分辨率的耳蜗语音特征提取示意图。

图3为本发明胶囊神经网络的深度学习分类器示意图。

具体实施方式

以下结合说明书附图，对本发明作进一步说明，但本发明并不局限于以下实施例。

如图1-3所示为一种语音性别识别深度学习方法的具体实施例，该实施例一种语音性别识别深度学习方法，该方法包括以下步骤：

a)语音信号采集；

d1)建立基于胶囊神经网络的深度学习分类器；

作为一种改进的实施例，步骤a)中所述语音信号采集包括如下过程：

1)利用麦克风设备输入语音信号；

2)通过采样量化获得相应的语音信号。

作为一种改进的实施例，所述采样量化的采样频率为16KHz，量化精度为16bit。

作为一种改进的实施例，步骤b)中所述端点检测是利用短时零积法进行。

作为一种改进的实施例，步骤c)中所述分帧的帧长范围为20ms～30ms，优选20ms，帧步长范围为10ms～15ms，优选10ms。

作为一种改进的实施例，步骤c)中耳蜗语音特征提取的方法是在时间维度上多分辨率的提取耳蜗语音特征，通过融合局部和全局的特征信息，具体方法包括如下步骤：

g(f，t)＝kt^a-1e^-2πbt cos(2πft+φ),t≥0；

其中，k为滤波器增益，a为滤波器阶数，f为中心频率，φ为相位，b是衰减因子，所述衰减因子决定相应的滤波器的带宽，e是自然对数函数的底数，e≈2.71828，衰减因子b与中心频率f的关系为：

b＝24.7(4.37f/1000+1)；

Gm(i)＝log([|R|(i,m)]^1/2),i＝0,1,...,N-1；m＝0,1,...,M-1

作为一种改进的实施例，如图2所示为本发明多分辨率的耳蜗语音特征提取示意图，第一种和第四种的耳蜗语音特征分别是20ms和200ms帧长的耳蜗语音特征，第二种和第三种耳蜗语音特征是在第一种耳蜗语音特征上做3x5和5x11窗口的移动平均得到。

作为一种改进的实施例，所述的Gammatone滤波器组采用的是8个channel的4阶Gammatone滤波器，其中心频率范围为50Hz～8000Hz。

作为一种改进的实施例，步骤d)中所述基于胶囊神经网络的深度学习分类器包括一个输入层、两个隐含层以及一个胶囊层，训练基于胶囊神经网络的深度学习分类器的具体方法为：

1)建立胶囊神经网络的深度学习分类器的训练集：X_i∈χ＝(R^f)^*以及L_i∈Z＝{0,1}^*；其中，n是训练集中训练样本本个数，i表示训练样本序列号，X_i∈χ＝(R^f)^*为96-D的语音耳蜗特征，其中R为实数集，R^f表示是一个维度为f的高维的实数空间集合，L_i∈Z＝{0,1}^*是X_i对应的训练标签，0表示X_i是男性语音样本，1表示X_i是女性语音样本；

2)建立胶囊神经网络的深度学习分类器的模型：将输入层和隐含层以及隐含层和隐含层之间采用全连接方式，激活函数是RELU；进行各层神经网络神经元个数配置，如图3所示为本发明胶囊神经网络的深度学习分类器示意图，输入层维度为96，第一个隐含层维度为128，第二个隐含层的维度为32x8，所述第二个隐含层为下级胶囊层，其包含32个不同胶囊，每个胶囊向量维度为8，公式如下：

w_ij是分类器模型权重参数，x_i为神经元输入，z_j是中间结果，y_j是神经网络激活输出，同时作为下一层的输入；

3)计算胶囊层的第j个胶囊：先利用分类器模型权重参数w_ij,i＝1,...,m；j＝1,...,k和下级胶囊层输入u_i相乘得到下级胶囊层共n个胶囊，得到n个然后将n个分别乘以各自的权重c_ij得到s_j，在训练过程中，通过动态路由算法来更新b_ij和权重c_ij，其中b_ij初始值为0；激活函数为squash函数，把s_j向量缩放到0到单位长度，具体公式如下：

b_ij的计算公式为：

4)建立胶囊神经网络的深度学习分类器的损失函数，首先计算出胶囊层的输出v_j，v_j是一个16维向量，胶囊层共输出两个这样的向量，对这两个向量求模，求得模值最大的那个向量代表的就是语音性别概率最大的那个分类，胶囊网络中用向量模的大小衡量某个实体出现的概率，模值越大，概率越大；采用Margin Loss来作为网络的Loss，具体公式如下：

L_c＝T_c max(0,m⁺-||v_c||)²+λ(1-T_c)max(0,||v_c||-m^-)²

T_c＝1表示类别c是存在的，m⁺＝0.9,m^-＝0.1，λ为0.5。

作为一种改进的实施例，步骤d)中所述多数优先投票原则对N帧分类结果进行投票，把每帧提取到的多分辨率耳蜗语音特征输入深度学***均如果p≥0.5说明为男性声音，反之则为女性声音。

最后，需要注意的是，本发明不限于以上实施例，还可以有很多变形。本领域的普通技术人员能从本发明公开的内容中直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.一种语音性别识别深度学习方法，其特征在于该方法包括以下步骤：

a)语音信号采集；

d1)建立基于胶囊神经网络的深度学习分类器；

2.根据权利要求1所述的一种语音性别识别深度学习方法，其特征在于，步骤a)中所述语音信号采集包括如下过程：

1)利用麦克风设备输入语音信号；

2)通过采样量化获得相应的语音信号。

3.根据权利要求2所述的一种语音性别识别深度学习方法，其特征在于，所述采样量化的采样频率为16KHz，量化精度为16bit。

4.根据权利要求1或2所述的一种语音性别识别深度学习方法，其特征在于，步骤b)中所述端点检测是利用短时零积法进行。

5.根据权利要求1或2所述的一种语音性别识别深度学习方法，其特征在于，步骤c)中所述分帧的帧长范围为20ms～30ms，帧步长范围为10ms～15ms。

6.根据权利要求1所述的一种语音性别识别深度学习方法，其特征在于，步骤c)中耳蜗语音特征提取的方法是在时间维度上多分辨率的提取耳蜗语音特征，通过融合局部和全局的特征信息，具体方法包括如下步骤：

g(f，t)＝kt^a-1e^-2πbtcos(2πft+φ),t≥0；

b＝24.7(4.37f/1000+1)；

Gm(i)＝log([|R|(i,m)]^1/2),i＝0,1,...,N-1；m＝0,1,...,M-1

7.根据权利要求6所述的一种语音性别识别深度学***均得到。

8.根据权利要求6或7所述的一种语音性别识别深度学习方法，其特征在于，所述的Gammatone滤波器组采用的是8个channel的4阶Gammatone滤波器，其中心频率范围为50Hz～8000Hz。

9.根据权利要求1所述的一种语音性别识别深度学习方法，其特征在于，步骤d)中所述基于胶囊神经网络的深度学习分类器包括一个输入层、两个隐含层以及一个胶囊层，训练基于胶囊神经网络的深度学习分类器的方法为：

y_j＝RELU(z_j)；

L_c＝T_c max(0,m⁺-||v_c||)²+λ(1-T_c)max(0,||v_c||-m^-)²

T_c＝1表示类别c是存在的，m⁺＝0.9,m^-＝0.1，λ为0.5。

10.根据权利要求1所述的一种语音性别识别深度学***均如果p≥0.5，则输出为男性声音，反之则为女性声音。