CN112632319A

CN112632319A - 基于迁移学习的提升长尾分布语音总体分类准确度的方法

Info

Publication number: CN112632319A
Application number: CN202011532360.8A
Authority: CN
Inventors: 谢宗霞; 王艳清
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-04-09
Anticipated expiration: 2040-12-22
Also published as: CN112632319B

Abstract

本发明公开了一种基于迁移学习的提升长尾分布语音总体分类准确度的方法，首先，通过对呈现长尾分布的数据集进行训练建立由CNN和RNN网络构成的R‑CNN模型，CNN网络用于提取语音特征，RNN网络对的CNN网络提取的语音特征进行时序建模，进一步挖掘语音信息，提取到类间可分特征，用于后续语音分类；然后，对R‑CNN模型进行两次训练，其中：第一次模型训练是将长尾分布的数据用于模型训练，得到初步的模型参数；二次模型训练是将均衡分布的数据用于模型训练，把第一次模型训练得到的CNN网络浅层参数固定，迁移到二次的模型训练中；使用二次训练后的模型进行语音分类预测，从而提升语音分类模型的总体分类效果。

Description

基于迁移学习的提升长尾分布语音总体分类准确度的方法

技术领域

本发明属于深度学习网络训练技术领域，特别涉及一种基于迁移学习的提升长尾分布语音总体分类准确度的方法。

背景技术

语音分类是当前深度学习领域中一项重要而且具有广泛商业应用价值的领域。但是当前用于模型训练的数据集大多呈现长尾分布，是一种特殊的非对称分布，其中一部分类别包含的数据量非常多，称为头部类别，而相对应的另一部分类别所包含的数据量非常少，称为尾部类别。由于尾部类别所包含的数据相对于头部类别所包含的数据特别少，会引起分类结果偏向于头部类别从而造成总体分类结果的偏差。往往尾部类别所包含的信息又具有不可忽略的意义。处理长尾分布的数据的困难在于两方面，一是数据分布的不均衡问题，二是尾部类别由于数据量不充分导致的表征能力不足。近年来迁移学习的兴起，对于解决数据不充足的问题带来了新的解决思路。首先通过使用长尾分布的数据对模型进行训练，得到基础的模型信息。进而将所得到的的模型参数迁移到均衡分布数据中进行训练，从而提升模型的总体分类性能。

发明内容

针对上述现有技术，本发明提出一种基于迁移学习的提升长尾分布语音总体分类准确度的方法。

对于长尾分布数据的不均衡问题以及尾部类别由于数据量不充足导致的特征信息表征能力不足问题，提出一种基于迁移学习的语音分类训练方法，通过采用迁移学习，将首次训练中对长尾分布数据进行训练得到的模型参数，迁移到对均衡分布数据进行训练中，从而提高模型的整体分类性能。

考虑到头部数据充足，具有充分的信息表征能力，而CNN模型中浅层网络主要用于基础特征的提取，具有可迁移性。这种基础特征同样适用于尾部不充足的类别。所以将CNN浅层网络的模型参数固定，进行二次训练，将浅层网络的模型参数进行迁移，从而提升尾部类别的表征能力。所述的CNN网络用于对语音数据的对数梅尔特征进行特征提取；所述的RNN网络用于对CNN网络输出的特征进行时序建模，进一步挖掘语音数据的时序信息，将基础的语音特征通过时序建模，计算为类别可分的特征；所述的迁移学习训练方法，通过对第一次基于长尾分布训练所得出的CNN浅层网络模型参数迁移到基于均衡分布的二次训练中，通过这种二次训练的方式，提升尾部类别由于数据量缺少导致的表征能力不足的分类能力。

为了解决上述技术问题，本发明提出的一种基于迁移学习的提升长尾分布语音总体分类准确度的方法，设计了针对长尾分布语音分类模型；首先，通过对呈现长尾分布的数据集进行训练建立由一个CNN网络和一个RNN网络构成的R-CNN模型，所述CNN网络用于提取语音特征，所述RNN网络对所述的CNN网络提取的语音特征进行时序建模，通过充分挖掘语音数据的时序信息，进一步挖掘语音信息，提取到类间可分特征，用于后续语音分类；然后，对所述的R-CNN模型进行两次训练，其中：第一次模型训练是将长尾分布的数据用于模型训练，得到初步的模型参数；二次模型训练是将均衡分布的数据用于模型训练，把第一次模型训练得到的CNN网络浅层参数固定，迁移到二次的模型训练中；使用二次训练后的模型进行语音分类预测，从而提升语音分类模型的总体分类效果。

进一步讲，本发明所述的方法中，对长尾分布语音数据集中的原始语音数据进行特征提取，得到语音数据对应的对数梅尔特征；将得到的对数梅尔特征作为CNN网络的输入进行处理以提取语音特征，经过训练得到网络模型的参数θⁿ＝(wⁿ,bⁿ)，其中，n代表CNN的网络层数，w为权重值，b为偏移量，θ代表该层的参数；第一次模型训练所采用的数据分布呈现长尾分布，通过第一次模型训练，得到了CNN层的模型参数θ¹、θ²、θ³...，将这些模型参数固定，进行二次模型训练，二次模型训练中采用的数据分布呈现均衡分布。

用于第一次模型训练的数据分布呈现长尾分布，即：C₁>C₂>C₃...>C_K，C₁>>C_K；其中，k是用于语音分类的类别的总数；C_k代表对应类别的数据量；用于二次模型训练的数据分布呈现均衡分布，即：C₁＝C₂＝C₃...＝C_K。

与现有技术相比，本发明的有益效果是：能够在不对头部类别识别准确率造成负面影响的前提下，提升尾部类别识别效果。

附图说明

图1是本发明基于迁移学习的语音分类模型结构。

具体实施方式

下面结合附图及具体实施例对本发明做进一步的说明，但下述实施例绝非对本发明有任何限制。

如图1所示，本发明提出的一种基于迁移学习的提升长尾分布语音总体分类准确度的方法，其中设计了针对长尾分布语音分类模型。

首先，通过对呈现长尾分布的数据集进行训练建立由一个CNN网络和一个RNN网络构成的R-CNN模型，所述CNN网络用于提取语音特征，所述RNN网络对所述的CNN网络提取的语音特征进行时序建模，通过充分挖掘语音数据的时序信息，进一步挖掘语音信息，提取到类间可分特征，用于后续语音分类；

然后，对所述的R-CNN模型进行两次训练，其中：第一次模型训练是将长尾分布的数据用于模型训练，得到初步的模型参数；二次模型训练是将均衡分布的数据用于模型训练，把第一次模型训练得到的CNN网络浅层参数固定，迁移到二次的模型训练中；

使用二次训练后的模型进行语音分类预测，从而提升语音分类模型的总体分类效果。

实施例：

对长尾分布语音数据集中的原始语音数据进行特征提取，得到语音数据对应的对数梅尔特征。

图1上半部分示出了CNN网络对于对数梅尔特征的拟合：将得到的对数梅尔特征作为CNN网络的输入进行处理以提取语音特征，经过训练得到网络模型的参数θⁿ＝(wⁿ,bⁿ)，其中，n代表CNN的网络层数，w为权重值，b为偏移量，θ代表该层的参数；第一次模型训练所采用的数据分布呈现长尾分布；RNN网络对上述特征的处理：即利用上述得到的特征进行时序建模，分析特征的时序信息；

图1下半部分示出了的迁移学习过程，通过第一次模型训练，得到了CNN层的模型参数θ¹、θ²、θ³...，将这些模型参数固定，进行二次模型训练。二次模型训练中，对于语音数据集中的原始语音数据进行特征提取，得到语音数据对应的对数梅尔特征，用于CNN网络训练的数据分布呈现均衡分布。

本发明中，第一次和二次模型训练所采用的的数据的分布分别为长尾分布和均衡分布，若总共有k个用于语音分类的类别；用于第一次模型训练的数据分布呈现长尾分布，即：C₁>C₂>C₃...>C_K，C₁>>C_K；用于二次模型训练的数据分布呈现均衡分布，即：C₁＝C₂＝C₃...＝C_K；其中，C_k代表对应类别的数据量。

使用二次训练之后的模型进行语音分类预测。

综上，本发明中的基于迁移学习的语音分类模型训练方法，用于解决由长尾分布带来的数据不均衡以及尾部类别数据量不充分导致的表征能力不足的问题。通过将第一次通过长尾分布的数据进行训练所得到的的浅层CNN网络参数迁移到第二次对于均衡分布数据进行训练的模型中，提升语音分类的总体分类性能。

尽管上面结合附图对本发明进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨的情况下，还可以做出很多变形，这些均属于本发明的保护之内。

Claims

1.一种基于迁移学习的提升长尾分布语音总体分类准确度的方法，其特征在于，设计了针对长尾分布语音分类模型；

2.根据权利要求书1所述的基于迁移学习的提升长尾分布语音总体分类准确度的方法，其特征在于，

对长尾分布语音数据集中的原始语音数据进行特征提取，得到语音数据对应的对数梅尔特征；将得到的对数梅尔特征作为CNN网络的输入进行处理以提取语音特征，经过训练得到网络模型的参数θⁿ＝(wⁿ,bⁿ)，其中，n代表CNN的网络层数，w为权重值，b为偏移量，θ代表该层的参数；第一次模型训练所采用的数据分布呈现长尾分布，通过第一次模型训练，得到了CNN层的模型参数θ¹、θ²、θ³...，将这些模型参数固定，进行二次模型训练，二次模型训练中采用的数据分布呈现均衡分布。

3.根据权利要求1中所述的的基于迁移学习的提升长尾分布语音总体分类准确度的方法，其特征在于，

用于第一次模型训练的数据分布呈现长尾分布，即：C₁>C₂>C₃...>C_K，C₁>>C_K；其中，k是用于语音分类的类别的总数；C_k代表对应类别的数据量；

用于二次模型训练的数据分布呈现均衡分布，即：C₁＝C₂＝C₃...＝C_K。