CN114023354A - 基于聚焦损失函数的指导型声学事件检测模型训练方法 - Google Patents

基于聚焦损失函数的指导型声学事件检测模型训练方法 Download PDF

Info

Publication number
CN114023354A
CN114023354A CN202110974110.8A CN202110974110A CN114023354A CN 114023354 A CN114023354 A CN 114023354A CN 202110974110 A CN202110974110 A CN 202110974110A CN 114023354 A CN114023354 A CN 114023354A
Authority
CN
China
Prior art keywords
acoustic event
event detection
model
training
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110974110.8A
Other languages
English (en)
Inventor
龙艳花
梁芸浩
李轶杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Normal University
Unisound Shanghai Intelligent Technology Co Ltd
Original Assignee
Shanghai Normal University
Unisound Shanghai Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Normal University, Unisound Shanghai Intelligent Technology Co Ltd filed Critical Shanghai Normal University
Priority to CN202110974110.8A priority Critical patent/CN114023354A/zh
Publication of CN114023354A publication Critical patent/CN114023354A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Acoustics & Sound (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本发明涉及基于聚焦损失函数的指导型声学事件检测模型训练方法,该方法包括:从音频数据训练集中提取声学特征;搭建指导型声学事件检测模型并根据所述声学特征解决声学事件检测任务和声学事件分类任务;指导型声学事件检测模型包括:复杂教师模型、轻量化学生模型和分类器部分;两阶段训练方式训练指导型声学事件检测模型。本申请实施例指导型声学事件检测模型能充分学习不同数据类型中所包含的特征信息,同时将复杂教师模型学习的特征信息蒸馏到轻量化学生模型中,减少了参数量,加快了模型收敛速度,在不同训练阶段有针对性学习简单样本与困难样本,改善了指导型声学事件检测模型对复杂类别事件的检测性能,提高了声学事件检测的鲁棒性。

Description

基于聚焦损失函数的指导型声学事件检测模型训练方法
技术领域
本发明涉及人工智能技术与声学事件检测技术领域,具体涉及基于聚焦 损失函数的指导型声学事件检测模型训练方法。
背景技术
随着人工智能与深度神经网络的快速发展以及相关技术应用的兴起,智 能语音技术已逐渐被应用到人们的日常生活中,包括音频场景分类,声学事 件检测,异常音频检测,网络音视频的应用需求也越来越多。其中,声学事 件检测技术是模仿人类辨识声学事件的能力,利用音频信号处理和深度学习 技术完成对声学事件的识别与分类,如说话声、洗碗声、闹铃声和宠物叫声 等。
声学事件检测(AED)是指预测发生在音频片段中的声学事件的类别以 及识别这些事件的开始和偏移时间戳。AED可应用于许多领域,如智能家居、 健康监测***、无人驾驶、多媒体检索以及复杂场景下的语音识别等。如, 在远程音视频会议中,声学事件检测技术可以对会议人员所处环境中的声学 事件做出分辨,所检测出的声学信息可辅助语音增强技术、语音分离技术等 改善音视频通话的质量;在智慧城市安防以及城市巡检工作中,声学事件检 测技术可辅助分析环境中的声学信息,分辨是否存在潜在危险并及时做出警报或执行其他辅助措施;在工业设备异常声音检测中,声学事件检测技术能 及时监控工业设备的工作状态,避免设备长期异常而导致的重大损失。
简言之,声学事件检测技术无论在民用还是国防等方面都有着大量的应 用前景与空间。但当前的检测技术依旧存在着数据、技术等方面的难点,值 得我们去探索与研究。如,对于任意的一段音频片段,由于缺乏关于该音频 片段中所包含事件的先验知识,所以从弱标签数据中获得准确的持续时间是 困难的。在探究声学事件检测算法过程中,主要发现存在四点问题:
1、大规模训练数据的详细数据标签标注成本高、耗时且人为引入误差 复杂。因此探索利用大量无标签的训练数据以较少的弱标签数据来提高AED ***性能成为新的方向。
2、部分待测目标事件自身差异性较大,即在一段音频片段中部分目标 事件持续时间或长或短,***难以捕获准确的时间戳信息;
3、训练集中多类目标事件分布不均衡,导致所训模型检测性能不平衡, 对部分事件难以检测其类别以及准确的时间戳信息;
4、在实际应用中,不同环境下同一类别的数据存在域不平衡问题以及 多类事件重叠问题,声学事件检测***性能仍然不佳,难以达到实际应用所 需要的精准度。
发明内容
本发明提供一种基于聚焦损失函数的指导型声学事件检测模型训练方 法,能够解决上述技术问题。
本发明解决上述技术问题的技术方案如下:
基于聚焦损失函数的指导型声学事件检测模型训练方法,包括:
从音频数据训练集中提取声学特征;音频数据训练集包括:强标签数据 集、弱标签数据集和无标签数据集;
搭建指导型声学事件检测模型并根据声学特征解决声学事件检测任务 和声学事件分类任务;指导型声学事件检测模型包括:复杂教师模型、轻量 化学生模型和分类器部分;
常规学习阶段和聚焦学习阶段的两阶段训练方式训练指导型声学事件 检测模型。
在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法还包括:
划分常规学习阶段和聚焦学习阶段。
在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法中,划分常规学习阶段和聚焦学习阶段包括:
根据指导型声学事件检测模型预测后验概率计算指导型声学事件检测 模型的误差,确定划分常规学习阶段和聚焦学习阶段的分界点。
在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法还包括:
确定每次迭代训练中输入指导型声学事件检测模型的小批量数据集中 所包含强标签数据集、弱标签数据集和无标签数据集数据占比,作为一个小 批量数据集输入指导型声学事件检测模型中进行训练。
在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法中,复杂教师模型包括:5个双层卷积神经网络模块和两层额外的双 向门控循环神经网络层,两层额外的双向门控循环神经网络层用于提取卷积 神经网络模块的时间信息;
轻量化学生模型包括:3个单层卷积神经网络模块、两层额外的双向门 控循环神经网络层;
其中,每个卷积神经网络模块包括:卷积层、批量归一化模块和ReLU 激活函数;
分类器部分包括:声学事件检测任务分支和声学事件分类任务分支声学 事件检测任务分支包括:具有较大隐藏状态的全连接层和sigmoid激活函数; 声学事件分类任务分支包括:注意力模块。
在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法中,声学事件检测任务分支用于得到帧级别检测后验概率;
声学事件分类任务分支用于得到声学事件级别的分类后验概率。
在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法中,方法还包括:
在常规学习阶段,指导型声学事件检测模型整体的损失函数由四部分组 成,具体包括:复杂教师模型与轻量化学生模型的弱标签损失Lweak,复杂教 师模型与轻量化学生模型的强标签损失Lstrong,复杂教师模型指导轻量化学生 模型的一致性损失
Figure BDA0003227016710000041
轻量化学生模型微调复杂教师模型的一致性损失
Figure BDA0003227016710000042
常规学习阶段模型用于产生相对稳定的复杂教师模型与轻量化学生 模型;
在聚焦学习阶段,使用聚焦损失函数代替交叉熵损失函数,增加指导型 声学事件检测模型对困难类别的惩罚力度。
在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法中,在常规学习阶段,指导型声学事件检测模型整体的损失函数由以 下公式组成:
Figure BDA0003227016710000043
其中,
Figure BDA0003227016710000044
分别是声学时间分类损失函数 和声学事件检测损失函数,
Figure BDA0003227016710000045
表示使用复杂教师模型预测目标事件的后 验概率指导轻量化学生模型训练;随着训练的进行,复杂教师模型趋于稳定,
Figure BDA0003227016710000046
表示轻量化学生模型使用较小权重ρ来微调复杂教师模型;
较小权重ρ的计算方式为:
Figure BDA0003227016710000047
其中,x根据当前训练轮数与总训练轮数相关。
在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法中,在聚焦学习阶段使用聚焦损失函数代替交叉熵损失函数,增加指 导型声学事件检测模型对困难类别的惩罚力度,包括:
计算聚焦损失,其中,聚焦损失函数的定义如下:
Figure BDA0003227016710000051
其中,ξ是控制第i个声学事件级别的分类后验概率、第j个目标声学 事件类别惩罚项的尺度因子,M表示在每个小批量数据集中带有弱标签和强 标签的音频片段的总数量,C表示目标声学事件类别的数量,
计算相应的聚焦损失
Figure BDA0003227016710000052
使用聚焦损失
Figure BDA0003227016710000053
分别替 换
Figure BDA0003227016710000054
来执行聚焦学习,
Figure BDA0003227016710000055
在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法中,从音频数据训练集中提取声学特征包括:
从强标签数据集、弱标签数据集和无标签数据集中分别提取对数梅尔频 谱图作为声学特征。
本发明的有益效果是:从音频数据训练集中提取声学特征;音频数据训 练集包括:强标签数据集、弱标签数据集和无标签数据集;搭建指导型声学 事件检测模型并根据声学特征解决声学事件检测任务和声学事件分类任务; 指导型声学事件检测模型包括:复杂教师模型、轻量化学生模型和分类器部 分;常规学习阶段和聚焦学习阶段的两阶段训练方式训练指导型声学事件检 测模型,本申请实施例使得指导型声学事件检测模型能充分学习不同数据类 型中所包含的特征信息,同时将复杂教师模型所学习的特征信息蒸馏到轻量 化的学生模型中,减少了参数量,加快了模型收敛速度,依据任务特点设计 针对性损失函数对模型适应性惩罚的训练策略,在不同训练阶段有针对性学 习简单样本与困难样本,改善了指导型声学事件检测模型对复杂类别事件的 检测性能,提高了声学事件检测的鲁棒性。
附图说明
图1为本发明实施例提供的基于聚焦损失函数的指导型声学事件检测模 型训练方法图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本 发明,并非用于限定本发明的范围。
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图 和实施例对本公开作进一步的详细说明。可以理解的是,所描述的实施例是 本公开的一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅 仅用于解释本公开,而非对本申请的限定。基于所描述的本申请的实施例, 本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语 仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求 或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
图1为本发明实施例基于聚焦损失函数的指导型声学事件检测模型训练 方法图一。
基于聚焦损失函数的指导型声学事件检测模型训练方法,结合图1,包括 S101、S102和S103三个步骤:
S101:从音频数据训练集中提取声学特征;音频数据训练集包括:强标 签数据集、弱标签数据集和无标签数据集;
具体的,本申请实施例中,强标签数据集是带有目标声学事件时 间戳的有限强标注集D-S、弱标签数据集是仅带有多个事件标签没有 时间戳的少量弱标注集D-W和大量未标注的训练数据集D-U,从音频 数据训练集中提取声学特征提取声学特征即对数梅尔频谱图。下文介 绍提取声学特征即对数梅尔频谱图的过程。
具体的,首先对音频数据训练集进行预处理操作,预处理操作包括:预 加重、分帧、加窗,接着对每一帧信号进行傅里叶变换,然后将此时的频域 特征通过一组梅尔频率滤波器频段的能量值进行叠加,得到数值表示该频带 的特征值,最后进行取对数操作即得到对数梅尔频谱图。
S102:搭建指导型声学事件检测模型并根据声学特征解决声学事件检测 任务和声学事件分类任务;指导型声学事件检测模型包括:复杂教师模型、 轻量化学生模型和分类器部分;
具体的,本申请实施例中的复杂教师模型和轻量化学生模型都是由卷积 循环神经网络所构成,卷积神经网络模块包含多个不同的卷积层以及相匹配 的下采样层,获得网络输入特征的高级特征表示;循环神经网络用于根据前 阶段卷积神经网络所输出的高级特征表示进一步获取时间维度特征信息。
指导型声学事件检测模型复杂教师模型与轻量化学生模型中卷积神经 网络模块数量不同,下文详细介绍。
应理解,本申请中的指导型声学事件检测模又称指导型学习方式的半监 督学习网络,指导型学习方式主要基于两组相似模型结构的网络框架,称之 为复杂教师模型与轻量化学生模型。
S103:常规学习阶段和聚焦学习阶段的两阶段训练方式训练指导型声学 事件检测模型。
具体的,本申请实施例中,通过在常规学习阶段计算复杂教师模型与学 生模型之间的一致性损失函数,使得复杂教师模型在后期的迭代训练中对轻 量化学生模型具有指导训练的作用,同时,随着训练的进行,当指导型声学 事件检测模型逐渐收敛时,轻量化学生模型通过加权一致性损失函数对复杂 教师模型做出微调,进一步优化复杂教师模型,提高了音频数据的利用率, 并减轻了大量人工标记所带来的时间成本以及标签错误成本。
在聚焦学习阶段通过自适应聚焦损失函数使得指导型声学事件检测模 型在训练过程可以针对性学习,对难以分类即分类输出后验概率小事件的损 失赋予比易于分类事件损失更高的权重,自动使得指导型声学事件检测模型 在下一次训练迭代中增加指导型声学事件检测模型对难以检测事件的特征 信息的学习,并且在每个训练周期中进行动态调整。随着指导型声学事件检 测模型的收敛,聚焦损失的学习方式会逐步提高指导型声学事件检测模型整 体的检测性能。
在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法还包括:
划分常规学习阶段和聚焦学习阶段。
具体的,本申请实施例中,通过划分常规学习阶段和聚焦学习阶段,聚 焦学习阶段,可以在训练基于聚焦损失函数的指导型声学事件检测模型期间 自动降低简单事件的惩罚贡献,使得训练快速地将聚焦损失函数的指导型声 学事件检测模型聚焦在难以分类的事件上。在模型的下一次训练迭代中进一 步增加对类别困难样本的关注度,并且在每个训练周期中进行动态调整。
在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法中,划分常规学习阶段和聚焦学习阶段包括:
根据指导型声学事件检测模型预测后验概率计算指导型声学事件检测 模型的误差,确定划分常规学习阶段和聚焦学习阶段的分界点。
具体的,本申请实施例中在基于聚焦损失函数的指导型声学事件检测模 型的训练过程中,通过常规学习阶段和聚焦学习阶段两阶段模型训练策略, 能够很好的提高模型检测的鲁棒性。
首先,计算指导型声学事件检测模型的误差函数,即
Figure BDA0003227016710000081
其中,Evalid表示测试集上的误差,t表示迭代次数,t′表示当前迭代次数。
GL(t)为泛化损失,表示在当前迭代周期t中,泛化误差相比较目前的最 低误差的一个增长率较高的泛化损失,表明基于聚焦损失函数的指导型声学 事件检测模型是否趋于稳定,为了避免当训练的速度很快过早进入聚焦学习 阶段,设计一个k周期,当训练错误降低很慢的时候逐渐进入聚焦学习阶段:
Figure BDA0003227016710000091
Etrain是训练集数据上的误差,GLk(t)表示当前的指定迭代周期内的平均训 练错误比该期间最小的训练错误大多少。当训练过程不稳定的时候,GLk(t)结 果可能很大,其中训练错误会变大。为此,本申请实施例以泛化损失和进展 的作为阶段划分的主要条件:
Figure BDA0003227016710000092
所以,常规学习阶段和聚焦学习阶段训练策略划分方法表示为:
Figure BDA0003227016710000093
其中,Et表示当前迭代次数,α为控制参数,实验中设置为0.1,β为 阶段划分因子,实验中设为0.005。
在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法还包括:
确定每次迭代训练中输入指导型声学事件检测模型的小批量数据集中 所包含强标签数据集、弱标签数据集和无标签数据集数据占比,作为一个小 批量数据集输入指导型声学事件检测模型中进行训练。
具体的,音频数据训练集所包含的三类标签类型的训练数据子集分布是 不平衡的,为了使得输入指导型声学事件检测模型的每个小批量数据集中所 包含相对平衡的数据分布,对三种不同类型的数据按比例选取,示例性的, 如小批量数据集为48,其中强标签数据集D-S、弱标签数据集D-W、无标签 数据集D-U占比分别为12,12,24。由于音频数据训练集中数据类型的多样 性,为了在训练初期指导型声学事件检测模型有相对较好的初始化,设计在 每个小批量数据集中,强标签数据D-S特征首先送入指导型声学事件检测模 型模型,其次是弱标签数据,最后为无标签数据,有利于加快指导型声学事 件检测模型收敛,提高训练速度。
在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法中,复杂教师模型包括:5个双层卷积神经网络模块和两层额外的双 向门控循环神经网络层,两层额外的双向门控循环神经网络层用于提取卷积 神经网络模块的时间信息;轻量化学生模型包括:3个单层卷积神经网络模 块、两层额外的双向门控循环神经网络层;其中,每个卷积神经网络模块包 括:卷积层、批量归一化模块和ReLU激活函数;分类器部分包括:声学事 件检测任务分支和声学事件分类任务分支声学事件检测任务分支包括:具有 较大隐藏状态的全连接层和sigmoid激活函数;声学事件分类任务分支包括: 注意力模块。
具体的,本申请实施例中的复杂教师模型有5个双层卷积神经网络模块 块,与之相匹配的下采样层具有更大的时间压缩比例,从而可以用于更好的 音频分类任务;轻量化学生模型包含3个单层卷积神经网络模块,与之相匹 配的采样层没有时间压缩比例,确保了音频数据中时间维度信息的完整性, 从而用于更好的事件边界检测。与传统的均值-教师模型中的的两个完全相 同的网络结构相比,轻量级的学生模型不仅可以学习不同的特征信息,而且 可以减少模型参数,提高训练效率。
此外,为了更好的捕获音频特征中所包含的时间信息,在卷积神经网络 模块之后添加两层双向门控循环神经网络层,以提取卷积神经网络模块表示 的时间信息,从而更好地进行音频事件检测。
在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法中,声学事件检测任务分支用于得到帧级别检测后验概率;
声学事件分类任务分支用于得到声学事件级别的分类后验概率。
具体的,本申请实施例中,对于指导型声学事件检测模型的分类器部分, 将声学事件检测任务和分类任务分成两个独立的分支,声学事件检测任务分 支使用一个具有较大隐藏状态的全连接层,然后通过全连接层以及sigmoid 激活函数,即得到帧级别检测后验概率;在音频分类分支中,卷积神经网络 模块和双向门控循环神经网络层的输出被连接作为“线性”层的输入特征, 随后是注意力模块,通过注意力模块后即得到声学事件级别的分类后验概 率。
在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法中,上述方法还包括:
在常规学习阶段,指导型声学事件检测模型整体的损失函数由四部分组 成,具体包括:复杂教师模型与轻量化学生模型的弱标签损失Lweak,复杂教 师模型与轻量化学生模型的强标签损失Lstrong,复杂教师模型指导轻量化学生 模型的一致性损失
Figure BDA0003227016710000111
轻量化学生模型微调复杂教师模型的一致性损失
Figure BDA0003227016710000112
常规学习阶段模型用于产生相对稳定的复杂教师模型与轻量化学生 模型;
在聚焦学习阶段,使用聚焦损失函数代替交叉熵损失函数,增加指导型 声学事件检测模型对困难类别的惩罚力度。
具体的,本申请实施例中,在每次迭代训练过程中,通过最小化复杂的 教师模型与轻量级的学生模型之间的一致性损失函数,使得轻量级的学生模 型与复杂的教师模型的预测结果输出特征趋于一致性。
在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法中,在常规学习阶段,指导型声学事件检测模型整体的损失函数由以 下公式组成:
Figure BDA0003227016710000113
其中,
Figure BDA0003227016710000114
分别表示声学时间分类损失函 数和声学事件检测损失函数,
Figure BDA0003227016710000121
表示使用复杂教师模型预测目标事件的 后验概率指导轻量化学生模型训练;随着训练的进行,复杂教师模型趋于稳 定,
Figure BDA0003227016710000122
表示轻量化学生模型使用较小权重ρ来微调复杂教师模型;
较小权重ρ的计算方式为:
Figure BDA0003227016710000123
其中,x根据当前训练轮数与总训练轮数相关。
在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法中,在聚焦学习阶段使用聚焦损失函数代替交叉熵损失函数,增加指 导型声学事件检测模型对困难类别的惩罚力度,包括:
计算聚焦损失,其中,聚焦损失函数的定义如下:
Figure BDA0003227016710000124
其中,ξ是控制第i个声学事件级别的分类后验概率、第j个目标声学 事件类别惩罚项的尺度因子,M表示在每个小批量数据集中带有弱标签和强 标签的音频片段的总数量,C表示目标声学事件类别的数量,
计算相应的聚焦损失
Figure BDA0003227016710000125
使用聚焦损失
Figure BDA0003227016710000126
分别替 换
Figure BDA0003227016710000127
来执行聚焦学习,
Figure BDA0003227016710000128
通过实施自适应聚焦损失和基于指导型学***衡问题,以及多个目标事件之间的不同难度级别 事件学习程度将在模型训练期间被动态地调整和聚焦。在常规学习阶段,易 于分类的声学事件之间的区分通过使用Ls1惩罚方式可以很好的学习,并且它 产生了相对稳定的复杂教师模型与轻量化学生模型;在聚焦学习阶段,随着 训练的进行,自适应聚焦损失可以在训练期间自动降低简单事件的贡献,这 使得训练快速地将模型聚焦在难以分类的事件上。通过使用两阶段训练策 略,聚焦损失函数和交叉熵损失函数被很好地磨合,极大提高整个指导型声 学事件检测***的性能。
F1得分,是统计学中用来衡量分类模型精确度的一种指标。它同时兼顾 了分类模型的精确率和召回率,F1得分可以看作是模型精确率和召回率的一 种加权平均,它的最大值是1,最小值是0。其计算方式为:
Figure BDA0003227016710000131
将本申请方法进行验证,声学事件分类F1得分达到81.2%,声学事件检 测的F1得分达到49.8%,声音事件检测的F1得分相比19年基线***相对提 升24.5%。聚焦损失函数的指导型声学事件检测模型性能的进一步改进,采 用本方法能够极大提升声学事件检测***检测的准确度,依据不同事件的声 学特性,能够准确并迅速的确定相应的声学事件类型,提高声学事件检测的 识别性能。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施 例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味 着处于本申请的范围之内并且形成不同的实施例。
本领域的技术人员能够理解,对各个实施例的描述都各有侧重,某个实 施例中没有详述的部分,可以参见其他实施例的相关描述。
虽然结合附图描述了本申请的实施方式,但是本领域技术人员可以在不 脱离本申请的精神和范围的情况下做出各种修改和变型,这样的修改和变型 均落入由所附权利要求所限定的范围之内以上,仅为本发明的具体实施方 式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在 本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或 替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利 要求的保护范围为准。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此, 任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各 种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。 因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.基于聚焦损失函数的指导型声学事件检测模型训练方法,其特征在于,包括:
从音频数据训练集中提取声学特征;所述音频数据训练集包括:强标签数据集、弱标签数据集和无标签数据集;
搭建指导型声学事件检测模型并根据所述声学特征解决声学事件检测任务和声学事件分类任务;所述指导型声学事件检测模型包括:复杂教师模型、轻量化学生模型和分类器部分;
常规学习阶段和聚焦学习阶段的两阶段训练方式训练指导型声学事件检测模型。
2.根据权利要求1所述的基于聚焦损失函数的指导型声学事件检测模型训练方法,其特征在于,所述方法还包括:
划分常规学习阶段和聚焦学习阶段。
3.根据权利要求2所述的基于聚焦损失函数的指导型声学事件检测模型训练方法,其特征在于,所述划分常规学习阶段和聚焦学习阶段包括:
根据指导型声学事件检测模型预测后验概率计算指导型声学事件检测模型的误差,确定划分常规学习阶段和聚焦学习阶段的分界点。
4.根据权利要求1所述的基于聚焦损失函数的指导型声学事件检测模型训练方法,其特征在于,所述方法还包括:
确定每次迭代训练中输入所述指导型声学事件检测模型的小批量数据集中所包含强标签数据集、弱标签数据集和无标签数据集数据占比,作为一个小批量数据集输入所述指导型声学事件检测模型中进行训练。
5.根据权利要求1所述的基于聚焦损失函数的指导型声学事件检测模型训练方法,其特征在于,
所述复杂教师模型包括:5个双层卷积神经网络模块和两层额外的双向门控循环神经网络层,所述两层双向门控循环神经网络层用于提取所述卷积神经网络模块的时间信息;
所述轻量化学生模型包括:3个单层卷积神经网络模块、两层双向门控循环神经网络层;
其中,每个卷积神经网络模块包括:卷积层、批量归一化模块和ReLU激活函数;
所述分类器部分包括:声学事件检测任务分支和声学事件分类任务分支所述声学事件检测任务分支包括:具有较大隐藏状态的全连接层和sigmoid激活函数;所述声学事件分类任务分支包括:注意力模块。
6.根据权利要求5所述的基于聚焦损失函数的指导型声学事件检测模型训练方法,其特征在于,
所述声学事件检测任务分支用于得到帧级别检测后验概率;
所述声学事件分类任务分支用于得到声学事件级别的分类后验概率。
7.根据权利要求1所述的基于聚焦损失函数的指导型声学事件检测模型训练方法,其特征在于,所述方法还包括:
在所述常规学习阶段,所述指导型声学事件检测模型整体的损失函数由四部分组成,具体包括:复杂教师模型与轻量化学生模型的弱标签损失Lweak,复杂教师模型与轻量化学生模型的强标签损失Lstrong,复杂教师模型指导轻量化学生模型的一致性损失
Figure FDA0003227016700000021
轻量化学生模型微调复杂教师模型的一致性损失
Figure FDA0003227016700000022
所述常规学习阶段模型用于产生相对稳定的复杂教师模型与轻量化学生模型;
在所述聚焦学习阶段,使用聚焦损失函数代替交叉熵损失函数,增加指导型声学事件检测模型对困难类别的惩罚力度。
8.根据权利要求7所述的基于聚焦损失函数的指导型声学事件检测模型训练方法,其特征在于,
在所述常规学习阶段,所述指导型声学事件检测模型整体的损失函数由如下公式组成:
Figure FDA0003227016700000031
其中,
Figure FDA0003227016700000032
分别是声学时间分类损失函数和声学事件检测损失函数,
Figure FDA0003227016700000033
表示使用复杂教师模型预测目标事件的后验概率指导轻量化学生模型训练,随着训练的进行,复杂教师模型趋于稳定,
Figure FDA0003227016700000034
表示轻量化学生模型使用较小权重ρ来微调复杂教师模型;
所述较小权重ρ的计算方式为:
Figure FDA0003227016700000035
其中,x根据当前训练轮数与总训练轮数相关。
9.根据权利要求7所述的基于聚焦损失函数的指导型声学事件检测模型训练方法,其特征在于,所述在所述聚焦学习阶段使用聚焦损失函数代替交叉熵损失函数,增加指导型声学事件检测模型对困难类别的惩罚力度,包括:
计算聚焦损失,其中,聚焦损失函数的定义如下:
Figure FDA0003227016700000036
其中,ξ是控制第i个声学事件级别的分类后验概率、第j个目标声学事件类别惩罚项的尺度因子,M表示在每个小批量数据集中带有弱标签和强标签的音频片段的总数量,C表示目标声学事件类别的数量;
计算相应的聚焦损失
Figure FDA0003227016700000037
使用聚焦损失
Figure FDA0003227016700000038
分别替换
Figure FDA0003227016700000039
来执行聚焦学习,即得到
Figure FDA00032270167000000310
10.根据权利要求1所述的基于聚焦损失函数的指导型声学事件检测模型训练方法,其特征在于,所述从音频数据训练集中提取声学特征包括:
从所述强标签数据集、所述弱标签数据集和所述无标签数据集中分别提取对数梅尔频谱图作为声学特征。
CN202110974110.8A 2021-08-24 2021-08-24 基于聚焦损失函数的指导型声学事件检测模型训练方法 Pending CN114023354A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110974110.8A CN114023354A (zh) 2021-08-24 2021-08-24 基于聚焦损失函数的指导型声学事件检测模型训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110974110.8A CN114023354A (zh) 2021-08-24 2021-08-24 基于聚焦损失函数的指导型声学事件检测模型训练方法

Publications (1)

Publication Number Publication Date
CN114023354A true CN114023354A (zh) 2022-02-08

Family

ID=80054332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110974110.8A Pending CN114023354A (zh) 2021-08-24 2021-08-24 基于聚焦损失函数的指导型声学事件检测模型训练方法

Country Status (1)

Country Link
CN (1) CN114023354A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115331697A (zh) * 2022-10-14 2022-11-11 中国海洋大学 多尺度环境声音事件识别方法
CN115547308A (zh) * 2022-09-01 2022-12-30 北京达佳互联信息技术有限公司 一种音频识别模型训练方法、音频识别方法、装置、电子设备及存储介质
CN116719945A (zh) * 2023-08-08 2023-09-08 北京惠每云科技有限公司 一种医学短文本的分类方法、装置、电子设备及存储介质
WO2023245381A1 (zh) * 2022-06-20 2023-12-28 北京小米移动软件有限公司 识别音频数据类别的方法、装置及存储介质
CN118098221A (zh) * 2024-04-23 2024-05-28 武汉理工大学三亚科教创新园 基于自适应学习的小样本海洋声音事件检测方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023245381A1 (zh) * 2022-06-20 2023-12-28 北京小米移动软件有限公司 识别音频数据类别的方法、装置及存储介质
CN115547308A (zh) * 2022-09-01 2022-12-30 北京达佳互联信息技术有限公司 一种音频识别模型训练方法、音频识别方法、装置、电子设备及存储介质
CN115331697A (zh) * 2022-10-14 2022-11-11 中国海洋大学 多尺度环境声音事件识别方法
CN116719945A (zh) * 2023-08-08 2023-09-08 北京惠每云科技有限公司 一种医学短文本的分类方法、装置、电子设备及存储介质
CN116719945B (zh) * 2023-08-08 2023-10-24 北京惠每云科技有限公司 一种医学短文本的分类方法、装置、电子设备及存储介质
CN118098221A (zh) * 2024-04-23 2024-05-28 武汉理工大学三亚科教创新园 基于自适应学习的小样本海洋声音事件检测方法

Similar Documents

Publication Publication Date Title
CN114023354A (zh) 基于聚焦损失函数的指导型声学事件检测模型训练方法
Cakir et al. Multi-label vs. combined single-label sound event detection with deep neural networks
CN110491416A (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
CN110070895B (zh) 一种基于监督变分编码器因素分解的混合声音事件检测方法
CN111859010B (zh) 一种基于深度互信息最大化的半监督音频事件识别方法
CN110930995B (zh) 一种应用于电力行业的语音识别模型
CN111161715A (zh) 一种基于序列分类的特定声音事件检索与定位的方法
CN112329438A (zh) 基于域对抗训练的自动谎言检测方法及***
Liu et al. A capsule based approach for polyphonic sound event detection
CN113707175B (zh) 基于特征分解分类器与自适应后处理的声学事件检测***
CN111209853A (zh) 基于AdaBoost-ESN算法的光纤传感振动信号模式识别方法
CN117115581A (zh) 一种基于多模态深度学习的智能误操作预警方法及***
CN115393968A (zh) 一种融合自监督多模态特征的视听事件定位方法
Pak et al. Convolutional neural network approach for aircraft noise detection
CN116842460A (zh) 基于注意力机制与残差神经网络的咳嗽关联疾病识别方法和***
Ma et al. Relational recurrent neural networks for polyphonic sound event detection
CN117037847B (zh) 一种端到端社区噪音监测方法、装置及相关组件
CN116153337B (zh) 合成语音溯源取证方法及装置、电子设备及存储介质
Wang et al. MSFF-Net: Multi-scale feature fusing networks with dilated mixed convolution and cascaded parallel framework for sound event detection
CN117351392A (zh) 一种视频异常行为检测的方法
Phan et al. Enabling early audio event detection with neural networks
CN116570284A (zh) 一种基于语音表征的抑郁症识别方法、***
CN111785262A (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
CN113160823B (zh) 基于脉冲神经网络的语音唤醒方法、装置及电子设备
Agarwal et al. Security threat sounds classification using neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination