CN114023354A

CN114023354A - 基于聚焦损失函数的指导型声学事件检测模型训练方法

Info

Publication number: CN114023354A
Application number: CN202110974110.8A
Authority: CN
Inventors: 龙艳花; 梁芸浩; 李轶杰
Original assignee: Shanghai Normal University; Unisound Shanghai Intelligent Technology Co Ltd
Current assignee: Shanghai Normal University; Unisound Shanghai Intelligent Technology Co Ltd
Priority date: 2021-08-24
Filing date: 2021-08-24
Publication date: 2022-02-08

Abstract

本发明涉及基于聚焦损失函数的指导型声学事件检测模型训练方法，该方法包括：从音频数据训练集中提取声学特征；搭建指导型声学事件检测模型并根据所述声学特征解决声学事件检测任务和声学事件分类任务；指导型声学事件检测模型包括：复杂教师模型、轻量化学生模型和分类器部分；两阶段训练方式训练指导型声学事件检测模型。本申请实施例指导型声学事件检测模型能充分学习不同数据类型中所包含的特征信息，同时将复杂教师模型学习的特征信息蒸馏到轻量化学生模型中，减少了参数量，加快了模型收敛速度，在不同训练阶段有针对性学习简单样本与困难样本，改善了指导型声学事件检测模型对复杂类别事件的检测性能，提高了声学事件检测的鲁棒性。

Description

基于聚焦损失函数的指导型声学事件检测模型训练方法

技术领域

本发明涉及人工智能技术与声学事件检测技术领域，具体涉及基于聚焦损失函数的指导型声学事件检测模型训练方法。

背景技术

随着人工智能与深度神经网络的快速发展以及相关技术应用的兴起，智能语音技术已逐渐被应用到人们的日常生活中，包括音频场景分类，声学事件检测，异常音频检测，网络音视频的应用需求也越来越多。其中，声学事件检测技术是模仿人类辨识声学事件的能力，利用音频信号处理和深度学习技术完成对声学事件的识别与分类，如说话声、洗碗声、闹铃声和宠物叫声等。

声学事件检测(AED)是指预测发生在音频片段中的声学事件的类别以及识别这些事件的开始和偏移时间戳。AED可应用于许多领域，如智能家居、健康监测***、无人驾驶、多媒体检索以及复杂场景下的语音识别等。如，在远程音视频会议中，声学事件检测技术可以对会议人员所处环境中的声学事件做出分辨，所检测出的声学信息可辅助语音增强技术、语音分离技术等改善音视频通话的质量；在智慧城市安防以及城市巡检工作中，声学事件检测技术可辅助分析环境中的声学信息，分辨是否存在潜在危险并及时做出警报或执行其他辅助措施；在工业设备异常声音检测中，声学事件检测技术能及时监控工业设备的工作状态，避免设备长期异常而导致的重大损失。

简言之，声学事件检测技术无论在民用还是国防等方面都有着大量的应用前景与空间。但当前的检测技术依旧存在着数据、技术等方面的难点，值得我们去探索与研究。如，对于任意的一段音频片段，由于缺乏关于该音频片段中所包含事件的先验知识，所以从弱标签数据中获得准确的持续时间是困难的。在探究声学事件检测算法过程中，主要发现存在四点问题：

1、大规模训练数据的详细数据标签标注成本高、耗时且人为引入误差复杂。因此探索利用大量无标签的训练数据以较少的弱标签数据来提高AED ***性能成为新的方向。

2、部分待测目标事件自身差异性较大，即在一段音频片段中部分目标事件持续时间或长或短，***难以捕获准确的时间戳信息；

3、训练集中多类目标事件分布不均衡，导致所训模型检测性能不平衡，对部分事件难以检测其类别以及准确的时间戳信息；

4、在实际应用中，不同环境下同一类别的数据存在域不平衡问题以及多类事件重叠问题，声学事件检测***性能仍然不佳，难以达到实际应用所需要的精准度。

发明内容

本发明提供一种基于聚焦损失函数的指导型声学事件检测模型训练方法，能够解决上述技术问题。

本发明解决上述技术问题的技术方案如下：

基于聚焦损失函数的指导型声学事件检测模型训练方法,包括：

从音频数据训练集中提取声学特征；音频数据训练集包括：强标签数据集、弱标签数据集和无标签数据集；

搭建指导型声学事件检测模型并根据声学特征解决声学事件检测任务和声学事件分类任务；指导型声学事件检测模型包括：复杂教师模型、轻量化学生模型和分类器部分；

常规学习阶段和聚焦学习阶段的两阶段训练方式训练指导型声学事件检测模型。

在一些实施例中，上述基于聚焦损失函数的指导型声学事件检测模型训练方法还包括：

划分常规学习阶段和聚焦学习阶段。

在一些实施例中，上述基于聚焦损失函数的指导型声学事件检测模型训练方法中，划分常规学习阶段和聚焦学习阶段包括：

根据指导型声学事件检测模型预测后验概率计算指导型声学事件检测模型的误差，确定划分常规学习阶段和聚焦学习阶段的分界点。

确定每次迭代训练中输入指导型声学事件检测模型的小批量数据集中所包含强标签数据集、弱标签数据集和无标签数据集数据占比，作为一个小批量数据集输入指导型声学事件检测模型中进行训练。

在一些实施例中，上述基于聚焦损失函数的指导型声学事件检测模型训练方法中，复杂教师模型包括：5个双层卷积神经网络模块和两层额外的双向门控循环神经网络层，两层额外的双向门控循环神经网络层用于提取卷积神经网络模块的时间信息；

轻量化学生模型包括：3个单层卷积神经网络模块、两层额外的双向门控循环神经网络层；

其中，每个卷积神经网络模块包括：卷积层、批量归一化模块和ReLU 激活函数；

分类器部分包括：声学事件检测任务分支和声学事件分类任务分支声学事件检测任务分支包括：具有较大隐藏状态的全连接层和sigmoid激活函数；声学事件分类任务分支包括：注意力模块。

在一些实施例中，上述基于聚焦损失函数的指导型声学事件检测模型训练方法中，声学事件检测任务分支用于得到帧级别检测后验概率；

声学事件分类任务分支用于得到声学事件级别的分类后验概率。

在一些实施例中，上述基于聚焦损失函数的指导型声学事件检测模型训练方法中，方法还包括：

在常规学习阶段，指导型声学事件检测模型整体的损失函数由四部分组成，具体包括：复杂教师模型与轻量化学生模型的弱标签损失L_weak，复杂教师模型与轻量化学生模型的强标签损失L_strong，复杂教师模型指导轻量化学生模型的一致性损失

轻量化学生模型微调复杂教师模型的一致性损失

常规学习阶段模型用于产生相对稳定的复杂教师模型与轻量化学生模型；

在聚焦学习阶段，使用聚焦损失函数代替交叉熵损失函数，增加指导型声学事件检测模型对困难类别的惩罚力度。

在一些实施例中，上述基于聚焦损失函数的指导型声学事件检测模型训练方法中，在常规学习阶段，指导型声学事件检测模型整体的损失函数由以下公式组成:

其中，

分别是声学时间分类损失函数和声学事件检测损失函数，

表示使用复杂教师模型预测目标事件的后验概率指导轻量化学生模型训练；随着训练的进行，复杂教师模型趋于稳定，

表示轻量化学生模型使用较小权重ρ来微调复杂教师模型；

较小权重ρ的计算方式为：

其中，x根据当前训练轮数与总训练轮数相关。

在一些实施例中，上述基于聚焦损失函数的指导型声学事件检测模型训练方法中，在聚焦学习阶段使用聚焦损失函数代替交叉熵损失函数，增加指导型声学事件检测模型对困难类别的惩罚力度，包括：

计算聚焦损失，其中，聚焦损失函数的定义如下：

其中，ξ是控制第i个声学事件级别的分类后验概率、第j个目标声学事件类别惩罚项的尺度因子，M表示在每个小批量数据集中带有弱标签和强标签的音频片段的总数量，C表示目标声学事件类别的数量，

计算相应的聚焦损失

使用聚焦损失

分别替换

来执行聚焦学习，

在一些实施例中，上述基于聚焦损失函数的指导型声学事件检测模型训练方法中，从音频数据训练集中提取声学特征包括：

从强标签数据集、弱标签数据集和无标签数据集中分别提取对数梅尔频谱图作为声学特征。

本发明的有益效果是：从音频数据训练集中提取声学特征；音频数据训练集包括：强标签数据集、弱标签数据集和无标签数据集；搭建指导型声学事件检测模型并根据声学特征解决声学事件检测任务和声学事件分类任务；指导型声学事件检测模型包括：复杂教师模型、轻量化学生模型和分类器部分；常规学习阶段和聚焦学习阶段的两阶段训练方式训练指导型声学事件检测模型，本申请实施例使得指导型声学事件检测模型能充分学习不同数据类型中所包含的特征信息，同时将复杂教师模型所学习的特征信息蒸馏到轻量化的学生模型中，减少了参数量，加快了模型收敛速度，依据任务特点设计针对性损失函数对模型适应性惩罚的训练策略，在不同训练阶段有针对性学习简单样本与困难样本，改善了指导型声学事件检测模型对复杂类别事件的检测性能，提高了声学事件检测的鲁棒性。

附图说明

图1为本发明实施例提供的基于聚焦损失函数的指导型声学事件检测模型训练方法图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开，而非对本申请的限定。基于所描述的本申请的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

图1为本发明实施例基于聚焦损失函数的指导型声学事件检测模型训练方法图一。

基于聚焦损失函数的指导型声学事件检测模型训练方法,结合图1，包括 S101、S102和S103三个步骤：

S101：从音频数据训练集中提取声学特征；音频数据训练集包括：强标签数据集、弱标签数据集和无标签数据集；

具体的，本申请实施例中，强标签数据集是带有目标声学事件时间戳的有限强标注集D-S、弱标签数据集是仅带有多个事件标签没有时间戳的少量弱标注集D-W和大量未标注的训练数据集D-U，从音频数据训练集中提取声学特征提取声学特征即对数梅尔频谱图。下文介绍提取声学特征即对数梅尔频谱图的过程。

具体的，首先对音频数据训练集进行预处理操作，预处理操作包括：预加重、分帧、加窗，接着对每一帧信号进行傅里叶变换，然后将此时的频域特征通过一组梅尔频率滤波器频段的能量值进行叠加，得到数值表示该频带的特征值，最后进行取对数操作即得到对数梅尔频谱图。

S102:搭建指导型声学事件检测模型并根据声学特征解决声学事件检测任务和声学事件分类任务；指导型声学事件检测模型包括：复杂教师模型、轻量化学生模型和分类器部分；

具体的，本申请实施例中的复杂教师模型和轻量化学生模型都是由卷积循环神经网络所构成，卷积神经网络模块包含多个不同的卷积层以及相匹配的下采样层，获得网络输入特征的高级特征表示；循环神经网络用于根据前阶段卷积神经网络所输出的高级特征表示进一步获取时间维度特征信息。

指导型声学事件检测模型复杂教师模型与轻量化学生模型中卷积神经网络模块数量不同，下文详细介绍。

应理解，本申请中的指导型声学事件检测模又称指导型学习方式的半监督学习网络，指导型学习方式主要基于两组相似模型结构的网络框架，称之为复杂教师模型与轻量化学生模型。

S103:常规学习阶段和聚焦学习阶段的两阶段训练方式训练指导型声学事件检测模型。

具体的，本申请实施例中，通过在常规学习阶段计算复杂教师模型与学生模型之间的一致性损失函数，使得复杂教师模型在后期的迭代训练中对轻量化学生模型具有指导训练的作用，同时，随着训练的进行，当指导型声学事件检测模型逐渐收敛时，轻量化学生模型通过加权一致性损失函数对复杂教师模型做出微调，进一步优化复杂教师模型，提高了音频数据的利用率，并减轻了大量人工标记所带来的时间成本以及标签错误成本。

在聚焦学习阶段通过自适应聚焦损失函数使得指导型声学事件检测模型在训练过程可以针对性学习，对难以分类即分类输出后验概率小事件的损失赋予比易于分类事件损失更高的权重，自动使得指导型声学事件检测模型在下一次训练迭代中增加指导型声学事件检测模型对难以检测事件的特征信息的学习，并且在每个训练周期中进行动态调整。随着指导型声学事件检测模型的收敛，聚焦损失的学习方式会逐步提高指导型声学事件检测模型整体的检测性能。

划分常规学习阶段和聚焦学习阶段。

具体的，本申请实施例中，通过划分常规学习阶段和聚焦学习阶段，聚焦学习阶段，可以在训练基于聚焦损失函数的指导型声学事件检测模型期间自动降低简单事件的惩罚贡献，使得训练快速地将聚焦损失函数的指导型声学事件检测模型聚焦在难以分类的事件上。在模型的下一次训练迭代中进一步增加对类别困难样本的关注度，并且在每个训练周期中进行动态调整。

具体的，本申请实施例中在基于聚焦损失函数的指导型声学事件检测模型的训练过程中，通过常规学习阶段和聚焦学习阶段两阶段模型训练策略，能够很好的提高模型检测的鲁棒性。

首先，计算指导型声学事件检测模型的误差函数，即

其中，E_valid表示测试集上的误差，t表示迭代次数，t′表示当前迭代次数。

GL(t)为泛化损失，表示在当前迭代周期t中，泛化误差相比较目前的最低误差的一个增长率较高的泛化损失，表明基于聚焦损失函数的指导型声学事件检测模型是否趋于稳定，为了避免当训练的速度很快过早进入聚焦学习阶段，设计一个k周期，当训练错误降低很慢的时候逐渐进入聚焦学习阶段：

E_train是训练集数据上的误差，GL_k(t)表示当前的指定迭代周期内的平均训练错误比该期间最小的训练错误大多少。当训练过程不稳定的时候，GL_k(t)结果可能很大，其中训练错误会变大。为此，本申请实施例以泛化损失和进展的作为阶段划分的主要条件：

所以，常规学习阶段和聚焦学习阶段训练策略划分方法表示为：

其中，E_t表示当前迭代次数，α为控制参数，实验中设置为0.1，β为阶段划分因子，实验中设为0.005。

具体的，音频数据训练集所包含的三类标签类型的训练数据子集分布是不平衡的，为了使得输入指导型声学事件检测模型的每个小批量数据集中所包含相对平衡的数据分布，对三种不同类型的数据按比例选取，示例性的，如小批量数据集为48，其中强标签数据集D-S、弱标签数据集D-W、无标签数据集D-U占比分别为12，12，24。由于音频数据训练集中数据类型的多样性，为了在训练初期指导型声学事件检测模型有相对较好的初始化，设计在每个小批量数据集中，强标签数据D-S特征首先送入指导型声学事件检测模型模型，其次是弱标签数据，最后为无标签数据，有利于加快指导型声学事件检测模型收敛，提高训练速度。

在一些实施例中，上述基于聚焦损失函数的指导型声学事件检测模型训练方法中，复杂教师模型包括：5个双层卷积神经网络模块和两层额外的双向门控循环神经网络层，两层额外的双向门控循环神经网络层用于提取卷积神经网络模块的时间信息；轻量化学生模型包括：3个单层卷积神经网络模块、两层额外的双向门控循环神经网络层；其中，每个卷积神经网络模块包括：卷积层、批量归一化模块和ReLU激活函数；分类器部分包括：声学事件检测任务分支和声学事件分类任务分支声学事件检测任务分支包括：具有较大隐藏状态的全连接层和sigmoid激活函数；声学事件分类任务分支包括：注意力模块。

具体的，本申请实施例中的复杂教师模型有5个双层卷积神经网络模块块，与之相匹配的下采样层具有更大的时间压缩比例，从而可以用于更好的音频分类任务；轻量化学生模型包含3个单层卷积神经网络模块，与之相匹配的采样层没有时间压缩比例，确保了音频数据中时间维度信息的完整性，从而用于更好的事件边界检测。与传统的均值-教师模型中的的两个完全相同的网络结构相比，轻量级的学生模型不仅可以学习不同的特征信息，而且可以减少模型参数，提高训练效率。

此外，为了更好的捕获音频特征中所包含的时间信息，在卷积神经网络模块之后添加两层双向门控循环神经网络层，以提取卷积神经网络模块表示的时间信息，从而更好地进行音频事件检测。

具体的，本申请实施例中，对于指导型声学事件检测模型的分类器部分，将声学事件检测任务和分类任务分成两个独立的分支，声学事件检测任务分支使用一个具有较大隐藏状态的全连接层，然后通过全连接层以及sigmoid 激活函数，即得到帧级别检测后验概率；在音频分类分支中，卷积神经网络模块和双向门控循环神经网络层的输出被连接作为“线性”层的输入特征，随后是注意力模块，通过注意力模块后即得到声学事件级别的分类后验概率。

在一些实施例中，上述基于聚焦损失函数的指导型声学事件检测模型训练方法中，上述方法还包括：

轻量化学生模型微调复杂教师模型的一致性损失

具体的，本申请实施例中，在每次迭代训练过程中，通过最小化复杂的教师模型与轻量级的学生模型之间的一致性损失函数，使得轻量级的学生模型与复杂的教师模型的预测结果输出特征趋于一致性。

其中，

分别表示声学时间分类损失函数和声学事件检测损失函数，

表示轻量化学生模型使用较小权重ρ来微调复杂教师模型；

较小权重ρ的计算方式为：

其中，x根据当前训练轮数与总训练轮数相关。

计算聚焦损失，其中，聚焦损失函数的定义如下：

计算相应的聚焦损失

使用聚焦损失

分别替换

来执行聚焦学习，

通过实施自适应聚焦损失和基于指导型学***衡问题，以及多个目标事件之间的不同难度级别事件学习程度将在模型训练期间被动态地调整和聚焦。在常规学习阶段，易于分类的声学事件之间的区分通过使用L_s1惩罚方式可以很好的学习，并且它产生了相对稳定的复杂教师模型与轻量化学生模型；在聚焦学习阶段，随着训练的进行，自适应聚焦损失可以在训练期间自动降低简单事件的贡献，这使得训练快速地将模型聚焦在难以分类的事件上。通过使用两阶段训练策略，聚焦损失函数和交叉熵损失函数被很好地磨合，极大提高整个指导型声学事件检测***的性能。

F1得分，是统计学中用来衡量分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率，F1得分可以看作是模型精确率和召回率的一种加权平均，它的最大值是1，最小值是0。其计算方式为：

将本申请方法进行验证，声学事件分类F1得分达到81.2％，声学事件检测的F1得分达到49.8％，声音事件检测的F1得分相比19年基线***相对提升24.5％。聚焦损失函数的指导型声学事件检测模型性能的进一步改进，采用本方法能够极大提升声学事件检测***检测的准确度，依据不同事件的声学特性，能够准确并迅速的确定相应的声学事件类型，提高声学事件检测的识别性能。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。

本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

虽然结合附图描述了本申请的实施方式，但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。