CN113808573B

CN113808573B - 基于混合域注意力与时序自注意力的方言分类方法及***

Info

Publication number: CN113808573B
Application number: CN202110899525.3A
Authority: CN
Inventors: 王振宇; 雷昶
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2023-11-07
Anticipated expiration: 2041-08-06
Also published as: CN113808573A

Abstract

本发明公开了一种基于混合域注意力与时序自注意力的方言分类方法及***，获取N个方言语音段；将N个方言语音段进行标注得到方言标注语音数据集，数据集划分训练集、验证集与测试集；每个方言语音段进行分帧加窗变，得到该方言语音段对应的梅尔谱图，对方言语音段进行数据切片，获得不同切片对应的梅尔谱图，并为切片图谱进行位置编码；构建基于混合域注意力与时序自注意力的方言分类模型；将位置编码的切片图谱的顺序打乱后，输入方言分类模型进行迭代训练，得到训练后的方言分类模型；待分类语音段输入训练好的方言分类模型，对语音段的方言种类标签进行预测。本发明所述方法能有效增强网络对方言语音声谱区分性特征的提取能力。

Description

基于混合域注意力与时序自注意力的方言分类方法及***

技术领域

本发明涉及语音处理领域，具体涉及基于混合域注意力与时序自注意力的方言分类方法及***。

背景技术

语音识别使得与机器的交流更符合人的自然习惯，在学术界及工业界均可与其他技术深度结合。但鉴于目前语料库数据量限制等其他因素，业界语音识别企业如科大讯飞目前只能对某一特定类别做到精准识别，其他类别语音输入则经常会得到一段价值不大的乱码，所以在实际使用前常会在语音识别前加入语种识别进行过滤。而汉方言承载了厚重的地方文化，具有强烈的民族凝聚力和深厚的人文价值。因此，研究方言分类方法能提升模型对方言种类的识别性能，助力方言保护事业。

目前对语种类别的标注更多还是通过人工标注，虽然能保证获得高质量的语音标签，但要求标注员为该方言类别的母语使用者或非常熟练的使用者，标注成本大，或类似Common Voice使用的非专业志愿用户按类别自行上传录音，但此方式需要默认贡献者存在一定误差需要复审。传统方言分类方法使用手工特征如I-Vector、韵律特征等，以对语音进行表征，并使用SVM、GMM等传统分类技术进行特征融合，而手工特征设计需要相当的语音学知识储备，传统分类技术无法适应现今日益增大的数据集。基于深度学习的方法借助其强大的学习能力自动捕获更具表征的特征，如X-Vector，或学习原始数据间的特征依赖，在我国方言分类领域已有许多应用，但研究更多集中于如何搭建结构更优的模型，与注意力机制结合的研究较少。

综上所述，目前方法存在的问题是：使用手工特征需要专业的方言语音学知识储备，且难以在不同数据集间通用。又因语音数据集本身具有较大价值，数据收集耗时耗钱，导致标注数据稀缺。目前的网络结构的设计上也存在可改进空间，对于在模型上结合注意力的研究不足。

发明内容

为了克服现有技术存在的缺点与不足，本发明提供一种基于混合域注意力与时序自注意力的方言分类方法及***。

本发明采用如下技术方案：

一种基于混合域注意力与时序自注意力的方言分类方法，包括：

获取N个方言语音段

将N个方言语音段进行标注得到方言标注语音数据集，数据集划分训练集、验证集与测试集；

每个方言语音段进行分帧加窗，通过快速傅里叶变换与梅尔尺度变换得到该方言语音段对应的梅尔谱图，对方言语音段进行数据切片，获得不同切片对应的梅尔谱图，并为切片图谱进行位置编码；

构建基于混合域注意力与时序自注意力的方言分类模型；

将位置编码的切片图谱的顺序打乱后，输入方言分类模型进行迭代训练，得到训练后的方言分类模型；

待分类语音段输入训练好的方言分类模型，对语音段的方言种类标签进行预测。

进一步，所述获取N个方言语音段之后还包括预处理步骤。

进一步，所述预处理步骤包括先校验语音段的格式参数，再对合规语音进行编码转换，然后对编码转换后的语音段应用音频增强方法，最后进行去静音处理。

进一步，所述去静音处理包括去除静音片段及时长补足。

进一步，音频增强方法是对原始语音信号进行加性噪声抑制，采用谱减法计算噪声估计并运用维纳滤波器抑制估计出的噪声。

进一步，所述对方言语言段进行数据切片，获得不同切片时刻处对应的梅尔谱图，并为切片图谱进行位置编码，具体为：先谱图转换，再数据切片，最后添加正余弦位置信息编码。

进一步，所述数据切片采用自适应切片步长方法，具体是先确定切片数量n，以1s为梯度查找切片时长最佳值，再以最佳时长固定切片时长，以1为梯度查找切片数量最佳值，切片步长t_{step_duration}根据切片数量n与切片时长t_{split_duration}自适应调整，三者关系如下：

进一步，所述基于混合域注意力与时序自注意力的方言分类模型包括语音特征学习层、语音时序建模层、时序特征融合层及全连接层；

所述语音特征学习层由若干个结合混合域注意力机制的一维残差门控卷积块堆叠构成，所述一维残差门控卷积块包括两个残差门控卷积单元、一个混合域注意力结构及一层最大池化层，所述残差门控卷积单元感受域为切片声谱整个频率范围，沿时间轴滑动；

所述语音时序建模层包括双向门控循环单元，对语音特征学习层学习的特征进行时序建模，并在时序特征融合层以多头注意力机制对不同时刻语音特征进行时序融合，得到更好的语音表征，最后将获得的语音表征输入全连接层，通过多层感知器的学习能力得到语音的分类结果。

进一步，所述将位置编码的切片图谱的顺序打乱后，输入方言分类模型进行迭代训练，具体为：

将数据集中按照位置编码的语音段打乱顺序随机分配到训练集、测试集与验证集后，再在训练阶段开始前将训练集中所有切片打乱顺序；

一种实现所述的方言分类方法的***，包括：

采集模块：获取N个方言语音段；

标注模块：对那个方言语音段进行标注，将带语种标签的方言语音标注数据集，数据集划分训练集、验证集与测试集；

编码模块：每个方言语音段进行分帧加窗，通过快速傅里叶变换与梅尔尺度变换得到该方言语音段对应的梅尔谱图，对方言语言段进行数据切片，获得不同切片时刻处对应的梅尔谱图，并为切片图谱进行位置编码；

构建模型模块：构建基于混合域注意力与时序自注意力的方言分类模型；

训练模块：将位置编码的切片图谱的顺序打乱后，输入方言分类模型进行迭代训练，得到训练后的方言分类模型；

预测模块：待分类语音段输入训练好的方言分类模型，对语音段的方言种类标签进行预测。

本发明的有益效果：

1、本发明将语音信号转换为梅尔声谱图作于统一表征，避免手工特征可能引入的问题，并针对语音信号特性使用音频增强、谱图增强两种数据增强方式，以在提升语音信噪比的同时增加标注数据。

2、本发明根据语音特点，提出结合混合域注意力机制与门控机制的一维残差卷积结构。残差网络能缓解深层模型的退化问题，门控机制使得模型在反向传播时能更好地控制梯度信息，混合域注意力机制使用CBAM，能同时关注方言语音的区分性特征在通道域与空间域上的分布，本发明将该结构用于方言语音的时序特征学习。

3、本发明将提出的带混合域注意力机制与门控机制的一维残差卷积结构与带时序自注意力的双向GRU结构结合，结合方式为先在一维卷积结构后***混合域注意力机制CBAM，以增强卷积特征提取能力，再接入具有时序自注意力的双向GRU结构，双向GRU结构得到语音的时序表示，使用多头注意力对时序表示进行学习，能更有效捕获方言区分性特征在时序上的分布，得到更好的方言语音表征。

附图说明

图1为本发明实施例的整体流程图。

图2为本发明实施例基于混合域注意力与时序自注意力的方言分类方法的网络整体结构示意图。

图3为本发明实施例的RGLU-CBAM blocks结构示意图。

具体实施方式

下面结合实施例及附图，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例1

如图1-图3所示，一种基于混合域注意力与时序自注意力的方言分类方法，包括如下步骤：

S1获取N个方言语音段，并进行预处理。

本实施例1中标注数据集大小为为20344首，每首语音时长16s，待标注类别为普通话、粤语、潮汕话与客家话；

所述预处理包括：先校验语音的格式参数，再对合规语音进行编码转换，然后对转换后的语音应用音频增强方法，最后进行去静音处理。

其中格式参数包括压缩类型、采样率、采样位数、声道数，并将不合格录音的相关信息按出现差异的参数名称分级标注在运行日志中。

合规语音是指符合预定语音输入参数要求，所述参数要求包括输入语音的统一规格，例如采样率、采样位数、最低时长、通道数、带宽等参数检查。

编码转换的输入为录音vox格式，输出为无损wav格式，以8kHz采样频率进行采样或重采样。

音频增强方法是对原始语音信号进行加性噪声抑制，采用谱减法计算噪声估计并运用维纳滤波器抑制估计出的噪声。

去静音处理分为去除静音片段与时长补足两步，其中去除静音片段部分使用结合了混合高斯模型与窗口判定阈值的端点检测，先通过混合高斯模型对语音与噪声进行建模，对比相应概率与门限阈值判断固定短时语音片段为语音段抑或非语音段，再将连续多帧组成一个窗口进行检查，窗口内判定为语音段的帧数量超过门限阈值时，将该窗口内所有帧的状态标记为保留状态，再将窗口移动指定步长，待窗口遍历完全部帧后将所有需要保留的帧合为中间语音结果。当中间语音结果帧数低于去除静音片段前语音帧数时，应用时长补足方法将中间语音结果进行多次重复首尾拼接，直到不低于原帧数后将语音尾部多余部分删除，并将最终结果写入为新语音文件。

S2对预处理后的方言语音段进行类别标注得到方言标注语音数据集，将数据集按照8:1:1划分为训练集、验证集与测试集。

S3每个方言语音段进行分帧加窗，通过快速傅里叶变换与梅尔尺度变换得到该方言语音段对应的梅尔谱图，对方言语音段进行数据切片，获得不同切片对应的梅尔谱图，并为切片图谱进行位置编码。

本实施例1中采样率设置为8kHz，转声谱时采用的傅里叶变换窗口长度为512，窗口跳跃大小为256，频率分箱数为128，切片时长为4s，切片数量为7。

具体为：先谱图转换，是使用python的librosa库包，先将语音文件从wav格式读取，具体伪代码为wavData＝librosa.load(filePath)，其中filePath指语音文件的存放路径；再将读取的数据采用快速傅里叶变换与梅尔尺度变换为频谱图；

再数据切片，切片方式采用自适应切片步长，先固定切片数量，以1s为梯度查找切片时长最佳值，再以最佳时长固定切片时长，以1为梯度查找切片数量最佳值。

切片步长t_{step_duration}根据切片数量n与切片时长t_{split_duration}自适应调整，三者关系如下：

设置梯度为1s是为了让查找梯度尽可能小别漏掉比较好的值。

最后添加正余弦位置信息编码。

编码方式如下：

S4构建基于混合域注意力与时序自注意力的方言分类模型；

所述方言分类模型包括语音特征学习层、语音时序建模层、时序特征融合层及全连接层。各层参数如表1，其中F为卷积核数量，K为卷积核大小，S为卷积步长，N为2表示门控卷积中两条信息通道中分别对应的两次不同的一维卷积，P为池化的核大小，U₁、U₂、U₃分别为全连接层中第一层、第二层、第三层中神经元数量。

表1基于混合域注意力与时序自注意力的方言模型各层具体参数

其中，语音特征学习层由若干结合混合域注意力机制的一维残差门控卷积块(RGLU-CBAM block)堆叠组成，其通过一维卷积实现对梅尔图谱中时频变化的学习，通过结合混合域注意力机制的一维残差门控卷积块实现声谱局部特征的提取，并以最大池化实现特征压缩；其中RGLU-CBAM块由两个残差门控卷积单元、一个混合域注意力结构CBAM与一层最大池化层组成，其中残差门控卷积单元感受域为切片声谱整个频率范围，沿时间轴滑动。

语音时序建模层使用双向门控循环单元对语音特征学习层习得特征进行时序建模，并在时序特征融合层以多头注意力机制对不同时刻语音特征进行时序融合，得到更好的语音表征，最后将获得的语音表征输入全连接层，通过多层感知器的强大学习能力得到语音的分类结果。

S5将位置编码的切片图谱的顺序打乱后，输入方言分类模型进行迭代训练，得到训练后的方言分类模型；

所述将位置编码的切片图谱的顺序打乱是包括两次打乱，第一次是指数据集中已经位置编码的切片图谱，打乱切片图谱的顺序后分配到训练集、测试集及验证集中，然后在每个集中进行位置编码排序。

第二次打乱，是将训练集中的切片图谱打乱顺序后再输入方言模型，使得处理每一批量数据时，能尽量多地从不同语音文件选取。

谱图增强是指在每轮迭代时从训练集中随机抽取一个批量的语音切片进行处理，对这一批量的所有语音，不区分方言种类采用SpecAugment谱图增强方式。

S6待分类语音段输入训练好的方言分类模型，对语音段的方言种类标签进行预测。

包括如下：

先将该条语音进行音频增强、去静音与时长扩充处理，转梅尔谱图后进行数据分割，将所有切片的梅尔谱图输入模型进行预测得到各切片的预测结果，最后以投票方式决定整首语音的最终预测标签。

其中投票方式设定语音归为某一类的概率为该语音所有切片被归为该类的概率均值，所有类别中概率最大值对应的标签为该语音最终标签，概率均值由下式得到：

式中x^k指最终语音标签预测的向量表示中位于第k位的预测结果，即预测该语音属于第k个标签类别的概率，表示预测结果中第l个切片的向量表示中第k位的概率数值，即该语音第l个切片属于第k个标签类别的概率，L表示该语音的切片集合，|L|表示语音的切片数量。

上述方法可以有效地、准确地对方言语音的类别进行预测，具有较好的可用性。

实施例2

一种基于混合域注意力与时序注意力的方言分类***，包括：

采集模块：获取N个方言语音段；

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于混合域注意力与时序自注意力的方言分类方法，其特征在于，包括：

获取N个方言语音段；

构建基于混合域注意力与时序自注意力的方言分类模型；

所述基于混合域注意力与时序自注意力的方言分类模型包括语音特征学习层、语音时序建模层、时序特征融合层及全连接层；

所述语音时序建模层包括双向门控循环单元，对语音特征学习层学习的特征进行时序建模，并在时序特征融合层以多头注意力机制对不同时刻语音特征进行时序融合，得到更好的语音表征，最后将获得的语音表征输入全连接层，通过多层感知器的学习能力得到语音的分类结果；

所述全连接层包括三层；

2.根据权利要求1所述的方言分类方法，其特征在于，所述获取N个方言语音段之后还包括预处理步骤。

3.根据权利要求2所述的方言分类方法，其特征在于，所述预处理步骤包括先校验语音段的格式参数，再对合规语音进行编码转换，然后对编码转换后的语音段应用音频增强方法，最后进行去静音处理。

4.根据权利要求3所述的方言分类方法，其特征在于，所述去静音处理包括去除静音片段及时长补足。

5.根据权利要求3所述的方言分类方法，其特征在于，音频增强方法是对原始语音信号进行加性噪声抑制，采用谱减法计算噪声估计并运用维纳滤波器抑制估计出的噪声。

6.根据权利要求1-5任一项所述的方言分类方法，其特征在于，所述对方言语言段进行数据切片，获得不同切片时刻处对应的梅尔谱图，并为切片图谱进行位置编码，具体为：先谱图转换，再数据切片，最后添加正余弦位置信息编码。

7.根据权利要求6所述的方言分类方法，其特征在于，所述数据切片采用自适应切片步长方法，具体是先确定切片数量n，以1 s为梯度查找切片时长最佳值，再以最佳时长固定切片时长，以1为梯度查找切片数量最佳值，切片步长t_{step_duration}根据切片数量n与切片时长t_{split_duration}自适应调整，三者关系如下：

。

8.根据权利要求1所述的方言分类方法，其特征在于，所述将位置编码的切片图谱的顺序打乱后，输入方言分类模型进行迭代训练，具体为：

将数据集中按照位置编码的语音段打乱顺序随机分配到训练集、测试集与验证集后，再在训练阶段开始前将训练集中所有切片打乱顺序。

9.一种实现权利要求1-8任一项所述的方言分类方法的***，其特征在于，包括：

采集模块：获取N个方言语音段；

标注模块：对N个方言语音段进行标注，将带语种标签的方言语音标注数据集，数据集划分训练集、验证集与测试集；