CN116721675A

CN116721675A - 音频事件检测方法和装置

Info

Publication number: CN116721675A
Application number: CN202310654871.4A
Authority: CN
Inventors: 黄泱柯; 宋施恩; 杨杰; 王心莹; 余意
Original assignee: Hunan MgtvCom Interactive Entertainment Media Co Ltd
Current assignee: Hunan MgtvCom Interactive Entertainment Media Co Ltd
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-09-08

Abstract

本申请提供了一种音频事件检测方法和装置，本方案中，利用音频事件检测模型确定该目标音频信号的音频事件信息，音频事件信息包括：目标音频信号划分出的多个音频片段的事件检测信息，事件检测信息用于表明音频片段内是否存在子音频事件，以及音频片段内的子音频事件的事件类型、起始时间和结束时间；然后，基于多个音频片段的先后顺序以及存在子音频事件的各目标音频片段中子音频事件的事件类型、起始时间和结束时间，确定目标音频信号中具有的音频事件的事件类型和起止时间，该音频事件检测模型为基于多个标注有事件标签的音频样本信号，采用多任务学习算法训练得到的。本申请的方案可以提高音频事件检测的准确性。

Description

音频事件检测方法和装置

技术领域

本申请涉及音频处理技术领域，尤其涉及一种音频事件检测方法和装置。

背景技术

音频事件检测也称为声音事件检测，是指识别出音频信号中具有的音频事件的事件类型，并检测出音频事件出现的起始时间和结束时间。音频事件检测在音频识别和语音控制等诸多领域都有着较为广泛的应用。

在音频事件检测方式中，需要先将音频信号划分为多个音频帧，然后，利用分类模型确定每个音频帧中的音频类型，将音频帧的音频类型确定为该音频帧对应的音频事件的事件类型，然后基于多个音频帧的先后顺序以及各音频帧对应的事件类型，组合出完整的音频事件。

在该种音频事件检测方式中，默认划分出的每个音频帧中的音频都属于同一个音频事件，但是，在实际应用中如果音频信号划分出的音频帧较长，很容易出现一个音频帧中同时包含多个音频事件的情况，这必然会导致音频事件检测不准确。而且，默认每个音频帧属于同一个音频事件，也使得确定出的音频事件的起始时间和结束时间只能是音频帧的边界，这也与实际情况不符，导致确定出的音频事件的时间边界不准确，也使得音频事件检测不准确。

发明内容

有鉴于此，本申请提供了一种音频事件检测方法和装置，以提高音频事件检测的准确性。

为实现上述目的，一方面，本申请提供了一种音频事件检测方法，包括：

获得目标音频信号；

利用音频事件检测模型确定所述目标音频信号的音频事件信息，所述目标音频信号的音频事件信息包括：所述目标音频信号被划分出的多个音频片段各自的事件检测信息，所述音频片段的事件检测信息用于表明所述音频片段内是否存在子音频事件，以及在所述音频片段内存在至少一个子音频事件时，所述音频片段内的子音频事件的事件类型和子音频事件在所述音频片段中的起始时间和结束时间；

基于所述多个音频片段的先后顺序以及各目标音频片段中子音频事件的事件类型、起始时间和结束时间，确定所述目标音频信号中具有的音频事件的事件类型和起止时间，所述目标音频片段为所述目标音频信号中存在子音频事件的音频片段，所述音频事件包括：事件类型相同且时间上连续的至少一个子音频事件；

其中，所述音频事件检测模型为基于多个标注有事件标签的音频样本信号，采用多任务学习算法训练得到的，所述事件标签包括所述音频样本信号中实际具有的实际音频事件的实际事件类型和实际起止时间。

在一种可能的实现方式中，所述音频事件检测模型通过如下方式训练得到：

对于多个音频样本信号中的每个音频样本信号，将所述音频样本信号输入到需要训练的音频事件检测模型，得到所述音频事件检测模型输出的所述音频样本信号的音频事件信息，所述音频样本信号的音频事件信息包括：所述音频样本信号被划分出的多个音频样本片段各自的事件检测信息，所述音频样本片段的事件检测信息用于表明所述音频样本片段内是否存在子音频事件，以及在所述音频样本片段内存在的子音频事件时，所述子音频事件的事件类型和子音频事件在所述音频样本片段中的起始时间和结束时间；

对于每个音频样本信号，基于各音频样本片段的先后顺序以及各目标音频样本片段中子音频事件的事件类型、起始时间和结束时间，确定所述音频样本信号中具有的预测音频事件的预测事件类型和预测起止时间，所述目标音频样本片段为所述音频样本信号中存在子音频事件的音频样本片段；

基于所述音频样本信号中预测音频事件的预测事件类型以及标注的实际音频事件的实际事件类型，确定所述音频事件检测模型的第一损失函数；

基于所述音频样本信号中预测音频事件的预测起止时间以及标注的实际音频事件的实际起止时间，确定所述音频事件检测模型的第二损失函数；

调整所述音频事件检测模型的参数，返回执行所述将所述音频样本信号输入到需要训练的音频事件检测模型的操作，直至基于所述第一损失函数和第二损失函数确定出满足模型训练结束条件。

在又一种可能的实现方式中，所述音频事件检测模型包括：频谱特征抽取模块、残差网络模块和特征输出模块；

所述频谱特征抽取模块用于确定出所述目标音频信号或者音频样本信号的频谱图；

其中，所述残差网络模块为：不包括平均池化层和分类层的18层深度的残差网络；

所述特征输出模块为一维卷积网络。

在又一种可能的实现方式中，所述子音频事件和所述音频事件的事件类型均属于中文人声事件和音乐音频事件中的任意一种；

所述多种音频样本信号包括：基于多条中文人声语料、多条音乐语料和多条噪声语料，合成出的包含中文人声事件、音乐音频事件和噪声音频事件中的至少两种音频事件的音频样本信号；

其中，多个音频样本信号中至少两种音频事件的重叠类型不完全相同，且多个音频样本信号中音频事件的信号变化曲线的曲线类型不完全相同；

其中，至少两种音频事件的重叠类型为：存在重叠以及不存在重叠这两种重叠类型中的任意一种。

在又一种可能的实现方式中，所述音频样本信号的时长为目标时长，所述目标时长不小于8秒；

所述获得目标音频信号，包括：

获得待检测的初始音频信号；

如果所述初始音频信号的时长为目标时长，将所述初始音频信号确定为目标音频信号；

如果所述初始音频信号的时长小于目标时长，基于所述初始音频信号与空白音频信号，组合出目标时长的目标音频信号；

如果所述初始音频信号的时长大于所述目标时长，将所述初始音频信号划分为具有先后顺序且时长为目标时长的多个目标音频信号；

在确定所述目标音频信号中具有的音频事件的事件类型和起止时间之后，还包括：

如果所述初始音频信号的时长超过所述目标时长，基于各目标音频信号的先后顺序以及各目标音频信号中具有的音频事件的事件类型和起止时间，确定所述初始音频信号中具有的音频事件的事件类型和起止时间。

在又一种可能的实现方式中，所述18层深度的残差网络的输入通道数量为一条；

所述音频样本信号为单声道且采样频率为目标频率的音频样本信号；

在利用音频事件检测模型确定出所述目标音频信号的音频事件信息之前，还包括：

将所述目标音频信号转换为目标频率且单声道的目标音频信号。

在又一种可能的实现方式中，所述多种音频样本信号还包括：不存在中文人声事件和音乐事件的音频样本信号。

又一方面，本申请还提供了一种音频事件检测装置，包括：

音频获得单元，用于获得目标音频信号；

音频检测单元，用于利用音频事件检测模型确定所述目标音频信号的音频事件信息，所述目标音频信号的音频事件信息包括：所述目标音频信号被划分出的多个音频片段各自的事件检测信息，所述音频片段的事件检测信息用于表明所述音频片段内是否存在子音频事件，以及在所述音频片段内存在至少一个子音频事件时，所述音频片段内的子音频事件的事件类型和子音频事件在所述音频片段中的起始时间和结束时间；其中，所述音频事件检测模型为基于多个标注有事件标签的音频样本信号，采用多任务学习算法训练得到的，所述事件标签包括所述音频样本信号中实际具有的实际音频事件的实际事件类型和实际起止时间。

事件确定单元，用于基于所述多个音频片段的先后顺序以及各目标音频片段中子音频事件的事件类型、起始时间和结束时间，确定所述目标音频信号中具有的音频事件的事件类型和起止时间，所述目标音频片段为所述目标音频信号中存在子音频事件的音频片段，所述音频事件包括：事件类型相同且时间上连续的至少一个子音频事件；

在一种可能的实现方式中，该装置还包括：

模型训练单元，用于通过如下方式训练得到所述音频事件检测模型：

在又一种可能的实现方式中，所述音频检测单元中采用的所述音频事件检测模型包括：频谱特征抽取模块、残差网络模块和特征输出模块；

所述特征输出模块为一维卷积网络。

由以上可知，在本申请实施例中，在获得目标音频信号后，利用训练出的该音频事件检测模型不仅能识别出音频片段内存在的每个子音频事件的事件类型，还可以确定出音频片段内的子音频事件在该音频片段内的起始时间和结束时间，从而不是单纯地将音频片段整体作为一个音频事件来确定事件类型，也并非是直接将音频片段的开始与结束的边界确定为子音频事件的起始时间和结束时间，从而能够更为准确地确定出音频片段中包含的各子音频事件及其类型，也能够更为准确地确定出各子音频事件的起始时间和结束时间。在此基础上，结合目标音频信号中各音频片段的先后顺序以及音频片段中存在的子音频事件的事件类型、起始时间和结束时间，自然能够更为准确地确定出该目标音频信号中具有的音频事件的事件类型和起止时间，从而提高了音频事件检测的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本申请实施例提供的音频事件检测方法的一种流程示意图；

图2和图3分别示出了两种音频信号之间的不同种重叠类型的示意图；

图4-图7示出了本申请中音频信号对应的不同类型的信号变化曲线的示意图；

图8示出了生成音频样本信号的一种流程示意图；

图9示出了音频事件检测模型中的一维卷积网络输出的特征的含义示意图；

图10示出了本申请实施例中训练音频事件检测模型的一种流程示意图；

图11示出了本申请实施例中音频事件检测装置的一种组成结构示意图。

具体实施方式

本申请实施例的方案可以适用于任意涉及到音频事件检测的场景中，例如，在新闻拆条中，通过对新闻视频中的音频信号进行音频事件检测，确定音频信号中不同音频事件对应的音频段，从而辅助确定出新闻视频中不同音频段对应的视频段，完成新闻视频的拆分。当然，此处仅仅是以一种情况举例说明，涉及到音频事件检测的领域还可以包括其他情况，对此不加限制。

通过本申请的方案，能够更为准确地从音频信号中确定出各个音频事件及其起止时间。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1，其示出了本申请实施例提供的音频事件检测方法的一种流程示意图，本实施例的方法可以应用于任意具有音频信号处理能力的计算机设备，fail计算机设备可以为独立的个人计算机或者服务器等，还可以为云平台或者集群中的节点等，对此不加限制。

本实施例的方法可以包括：

S101，获得目标音频信号。

其中，目标音频信号为需要检测音频事件的音频信号。

S102，利用音频事件检测模型确定目标音频信号的音频事件信息。

其中，该目标音频信号的音频事件信息包括：目标音频信号被划分出的多个音频片段各自的事件检测信息，其中，每个音频片段的事件检测信息用于表明该音频片段内是否存在子音频事件，以及在该音频片段内存在至少一个子音频事件时，该音频片段内每个子音频事件的事件类型和子音频事件在该音频片段中的起始时间和结束时间。

需要说明的是，在音频事件检测模型对目标音频信号进行音频事件检测的过程中，可以从逻辑上将目标音频信号划分为多个音频片段，而并不一定真的对目标音频信号进行分割。

其中，音频事件检测模型将目标音频信号划分的音频片段的数量可以在音频事件检测模型训练阶段确定，基于不同的应用场景，目标音频信号的长度以及模型内部参数的不同，目标音频信号被划分出的音频信号的数量也会有所不同，对此不加限制。

其中，子音频事件是指音频片段中包含的连续的属于同一音频类型的音频信号，也就是音频频段内的音频事件。由于音频片段上的子音频事件并不是目标音频信号中完整的音频事件，如，一个音频事件的音频信号可能分布到划分出的连续的多个音频片段上，基于此，将音频片段中检测出的音频事件称为子音频事件。

其中，对于音频片段内任意一个子音频事件而言，该子音频事件在该音频片段内的起始时间和结束时间可以为相对音频片段的起始时刻的偏移时间。当然，通过其他方式来表示出子音频事件在音频片段内的起始时间和结束时间也同样适用于本实施例，对此不加限制。

子音频事件的事件类型用于表示子音频事件对应的音频的声音类别，如，音频的声音类别可以涉及到音乐、人声以及鸟叫等类别，那么子音频事件的事件类型可以分为音乐音频对应的音乐事件，人声对应的人声事件，以及鸟叫对应的鸟叫事件等。在实际应用中，根据应用场景的不同，可以预先设定能够识别出的音频事件的事件类型，相应的，识别出的子音频事件的事件类型可以属于设定的多种事件类型中的一种。

在本申请中，该音频事件检测模型为基于多个标注有事件标签的音频样本信号，采用多任务学习算法训练得到的。其中，音频样本信号是指作为训练样本训练音频事件检测模型的音频信号。

音频样本信号的事件标签包括音频样本信号中实际具有的音频事件的事件类型和起止时间。起止时间包括起始时间和结束时间。为了便于区分，将音频样本信号标注的音频事件成为实际音频事件，将实际音频事件的事件类型成为实际事件类型，将实际音频事件的起止时间称为实际起止时间。

可以理解的是，与目前音频事件检测模型仅仅能够检测出音频信号的事件类型不同，本申请中音频事件检测模型不仅能够确定出音频信号中各音频片段内存在的子音频事件的事件类型，还能够确定出每个子音频事件在音频片段内的起始时间和结束时间，因此，本申请中利用多任务学习算法训练音频事件检测模型涉及到类别预测上的分类问题和时间预测上的回归问题。相应的，基于多任务学习训练音频事件检测模型可以包括：训练音频事件检测模型能够识别出音频事件的事件类型这一任务，以及训练音频事件检测模型能够识别出音频事件的起止时间这一任务。

S103，基于多个音频片段的先后顺序以及目标音频信号中各目标音频片段中子音频事件的事件类型、起始时间和结束时间，确定目标音频信号中具有的音频事件的事件类型和起止时间。

其中，目标音频片段为目标音频信号中存在子音频事件的音频片段。

其中，音频事件包括：事件类型相同且时间上连续的至少一个子音频事件。

可以理解的是，在目标音频信号划分出的多个音频片段的先后顺序已知，而且，每个音频片段是否包含子音频事件，以及音频片段中包含的子音频事件的事件类型、该子音频事件在音频片段内的起始时间和结束时间均确定的情况下，可以将同一事件类型且连续的子音频事件组合为一个音频事件，从而可以最终确定出目标音频信号中包含的各个音频事件及音频事件的起始时间和结束时间。而组合音频事件的子音频事件的事件类型就是该音频事件的事件类型。

举例说明：

假设目标音频信号划分出10个音频片段，这10个音频片段依次为音频片段1到音频片段10，假设每个音频片段的时长为150毫秒，同时假设音频片段3中第20毫秒开始到音频频段3的结束时刻为一个类型1的子音频事件1，音频片段4中开始时刻到结束时间全部属于类型1的子音频事件2，而音频片段5中开始时刻到第50毫秒之间为类型1的子音频事件3，而音频频段5中第80毫秒到第120毫秒为类型2的子音频事件4。

在此基础上，可以从音频片段3中的子音频事件1、音频片段4中的子音频事件2和音频片段5中的子音频事件3实际上属于目标音频信号中事件类型为类型1的一个音频事件，而该音频事件的开始时间为音频片段3中第20毫秒对应到目标音频信号中的时刻，而该音频事件的结束时间为音频频段5中第50毫秒对应到目标音频信号中的时刻。

相应的，由于音频片段5中子音频事件4不存在与其连续的且同事件类型的其他子音频事件，因此，子音频事件4为目标音频信号中的一个音频事件，相应的可以确定该音频事件的起始时间和结束时间，不再赘述。

另外，由于本申请中音频事件检测模型可以同步预测出目标音频信号的音频片段中各个子音频事件的时间类型以及起止时间，避免了先确定子音频事件的事件类型后再通过其他处理来识别子音频事件的起止时间，从而有利于提高音频事件检测的效率。

在本申请中，音频事件的事件类型可以有多种可能，具体可以根据实际需要设定。

在一种可能的实现方式中，本申请中事件类型主要分为中文人声事件和音乐音频事件。相应的，本申请中子音频事件和音频事件的事件类型均属于中文人声事件和音乐音频事件中的任意一种。其中，中文人声事件是指音频事件中的音频内容属于中文的用户语音，而音乐音频事件是指音频内容为纯音乐。

在该种可能的实现方式中，考虑到目前音频事件检测中大部分的训练语料都是英文语料，而缺少中文语音训练语料，因此，在本申请中，训练中文多种音频样本信号包括：基于多条中文人声语料、多条音乐语料和多条噪声语料，合成出的包含中文人声事件、音乐音频事件和噪声音频事件中的至少两种音频事件的音频样本信号。

其中，中文人声语料可以是从用于语音识别的中文语义识别数据集中获得的中文人声语料，如从开源的中文人声语料库aishell中获得中文人声语料。当然，本实施例对于获得中文人声语料的具体实现方式，可以不加限制。

类似的，本申请可以从开源的纯音乐数据集，例如musan数据集中获得纯音乐语料或者通过其他方式获得纯中文语料，对此不加限制。

噪声语料是指非人声和纯音乐之外的干扰音频，在音频样本信号中加入噪声语料可以有利于提高训练出的音频事件检测模型对于噪声检测的精准度，从而能够更为准确识别出中文人声事件以及纯音乐事件。

在本申请中，为了使得合成出的音频样本信号能够更为接近真实自然环境中采集到的混合有中文人声、音乐以及噪声中任意两种的音频信号，本申请中，可以确定自然采集到的音频信号中任意两种音频事件之间可能会存在重叠，也可能会完全不存在重叠。基于此，本申请在构建音频样本信号时，也需要保证部分音频样本信号中具有的至少两种音频事件之间存在重叠，而至少部分音频样本信号中具有的两种音频事件之间不存在重叠。

如，图2和图3示出了两种音频信号之间的不同种重叠类型的示意图。

在图2和图3中横坐标代表时间，单位可以为秒；纵坐标代表增益。

在图2中曲线201代表一种音频信号，也就是一个音频事件，而横线202代表不存在音频信号，曲线203代表另一种音频信号，即另一种音频事件。为了便于描述，以曲线201代表人声事件的音频信号，而曲线203代表音乐事件的音频信号，由图2可以看出，人声事件和音频事件之间不存在重叠，在人声事件完成消失后，过一段时间才逐渐出现了音乐事件的音频信号。

而图3中两条曲线也分别代表两种不同的音频事件，由图3可以看出这两种音频事件之间存在重叠，在音频事件301出现并逐渐增强的过程中，音频事件302也存在，只不过音频事件302在逐渐衰减。

类似的，对于音频信号而言，音频信号的信号变化曲线的曲线类型也会有所不同，音频信号的信号变化曲线主要体现在音频信号出现并逐渐增强的曲线，以及音频信号出现衰减并消失的曲线。本申请可以预先分析并确定音频信号的信号变化曲线的可能类型，在此基础上，可以构建音频样本信号的过程中，构建出具有不同信号变化曲线类型的音频事件。

基于此，本申请中，多个音频样本信号中至少两种音频事件的重叠类型不完全相同，且多个音频样本信号中音频事件的信号变化曲线的曲线类型不完全相同。如前面所述，至少两种音频事件的重叠类型为：存在重叠以及不存在重叠这两种重叠类型中的任意一种。

其中，信号变化曲线的曲线类型可以根据需要设定。如，通过分析可知，音频信号的信号变化曲线可以分为：线性变化曲线、指数变化曲线、log变化曲线以及sigmoid曲线(也称为S型生成曲线)。由于音频信号刚出现的时候信号强度或者说增益是逐渐增大的，而音频信号消失的过程是逐渐衰减的，因此，每种信号变化曲线又可以分为增强变化曲线和衰减变化曲线两种。

如，线性变化曲线分包括线性增强曲线和线性衰减曲线，如果音频信号的信号变化曲线属于线性增强曲线，那么在音频信号刚开始出现时，信号变化曲线为线性增强曲线，而在音频信号逐渐消失的阶段，信号变化曲线为线性衰减曲线。

类似的，指数变化曲线包括指数增强曲线和指数衰减曲线，而log变化曲线也包括log增强曲线和log衰减曲线，对于其他几个曲线也类似，不再赘述。

为了便于理解信号变化曲线的曲线类型，下面以几种情况说明。如图4-图7，分别示出了本申请中信号变化曲线的几种示意图。

在图4到图7中，横坐标代表时间，纵坐标代表增益。

图4示出了音频信号的信号变化曲线为sigmoid曲线的示意图，其中，随着时间变化增益逐渐增强的曲线表示音频信号出现阶段，信号强度逐渐增加的sigmoid增强曲线。相应的，另一条表示音频信号衰减过程中所呈现出的sigmoid衰减曲线。

在图5中为音频信号变化曲线为log变化曲线的示意图。由图5可以看出音频信号增强阶段，音频呈现log增强曲线的形式，而音频信号衰减时，则呈现出log衰减曲线的形式。

图6示出了音频信号的信号变化曲线为指数变化曲线的示意图，类似的，图6中呈现的两条曲线分别为指数增强曲线以及指数衰减曲线。

图7中示出了音频信号的信号变化曲线为线性变化曲线的示意图，类似的，图7中示出的两条曲线分别为线性增强曲线和线性衰减曲线。

在本申请中构建出的音频样本信号的时长可以根据需要设定。在一种可选方式中，为了使得构建出的音频样本信号中能够完全的呈现出两种不同音频事件的信号变化曲线，该音频信号的时长可以为目标时长，该目标时长可以为不小于8秒的任意时长。

可以理解的是，如果音频样本信号为目标时长的情况下，那么训练出的音频事件检测模型能够识别出的音频信号的时长也为目标时长。

在此基础上，本申请在获得待检测的初始音频信号之后，如果该初始音频信号的时长为目标时长，可以将该初始音频信号确定为目标音频信号；如果该初始音频信号的时长小于该目标时长，可以将该基于初始音频信号与空白音频信号，组合出目标时长的目标音频信号，将初始音频信号与空白音频信号拼接为目标时长的音频信号作为目标音频信号。

如果该初始音频信号的时长大于该目标时长，本申请还可以将该初始音频信号划分为具有先后顺序且时长为目标时长的多个目标音频信号。其中，划分该初始音频信号时，可以是划分出顺序相连的多个目标音频信号。在一种可选方式中，为了能够更准确的识别出初始音频信号中包含音频事件的边界，将初始音频信号划分出的多个目标音频信号中任意两个相邻的目标音频信号之间具有重叠。

在初始音频信号的时长超过目标时长的情况中，在确定出目标音频信号中具有的音频事件的事件类型和起止时间之后，还需要基于各目标音频信号的先后顺序以及各目标音频信号中具有的音频事件的事件类型和起止时间，确定该初始音频信号中具有的音频事件的事件类型和起止时间。

其中，确定初始音频信号中具有的音频事件的事件类型和起止时间的具体过程与前面基于目标音频信号中各音频片段内的子音频事件的事件类型、起始时间和结束时间，确定目标音频信号的音频事件的事件类型和起止时间类似，对此不加限制。

当然，在初始音频信号的时长超过目标时长的情况中，还可以是先不确定目标音频信号中具有的音频事件的事件类型和起止时间，而是直接依据每个目标音频信号各自对应的各音频片段的先后顺序以及音频片段中子音频事件的事件类型和起止时间，确定该初始音频信号中具有的音频事件的事件类型和起止时间。

可以理解的是，考虑到实际应用中，音频信号的多样化，为了能够提高音频事件检测的准确性，本申请中合成的多个音频样本信号还可以包括：仅包括中文人声事件、音乐事件和噪声事件中任意一种的音频样本信号；以及，未包含任意音频事件的空白音频样本信号。

可以理解的是，为了使得合成出的音频样本信号能够更为贴合真实环境中采集到的音频信号，本申请中在合成音频样本信号之前，还可以对中文人声语料以及音乐语料进行重采样，音频速度调整等操作。如图8所示，其示出了本申请实施例中生成音频样本信号的一种流程示意图，该流程可以包括：

S801，获得多个中文人声语料、多个音乐语料和多个噪声语料。

S802，对于多种人文人声语料、多种音乐语料和多种噪声语料中任意一个语音语料，将该语音语料重采样为目标频率的语料，并将语音语料转换为单声道的音频信号。

其中，将语音语料转换为单声道的目的，一是为了保证语音语料的通道统一，二是考虑到单声道能够包含了足够的声音信息。

S803，从多个中文人声语料中随机选取至少部分中文人声语料进行音频加速。

如，将中文人声语料的音速加速为1.1-1.6倍。

可以理解的是，在自然环境下不同人的语速是不同的，因此，通过选择部分中文人声语料进行加速，可以模拟出不同用户不同语速的中文人声，以便提升训练出的音频事件检测模型检测音频事件的准确性。

步骤S802和S803可以为各种音频语料进行预处理的部分操作，在实际应用中，还可以去除音频语料中的无声音音频，还可以对时长较短且属于同一用户的中文人声语料进行拼接的能等，对此不加限制。

S804，基于不同音频事件之间能够具有的重叠类型以及音频语料的信号变化曲线的曲线变化类型，利用处理得到的多个中文人声语料、音乐语料和造成语料，构建出多个目标时长的音频样本信号。

其中，构建出的多个音频样本信号可以包括前面提到的几种可能情况，对此不再赘述。

如，在构建一个音频样本信号时，可以确定该音频样本信号中需要包含的音频事件的数量、事件类型后，可以确定每个音频事件在该音频样本信号中的起始时间，并在音频样本信号中该起始时间对应位置处开始添加该音频事件。

例如，假设音频样本信号的时长为8秒，假设需要构建出包含一段4秒的中文人声语料以及一个3秒的音乐语料，那么根据选择这两段语料是否存在重叠，从而确定这两段语料在音频样本信号中的位置，比如，可以在1-5秒内放置该中文人声语料，在4-7秒内放置音乐语料，中文人声语料和音乐语料在音频样本信号中存在重叠，当然，还可以根据需要设置这两种语料的增强以及衰减曲线的类型，具体不加限制。

可以理解的是，在构建该音频样本信号的音频事件确定的情况下，该音频样本信号中包含的音频事件的事件类型以及在该音频样本信号中放置该音频事件的起止时间也就是确定的，从而可以确定出音频样本信号对应的音频事件的事件类型以及起止时间，从而在构建出音频样本信号的同时，可以标注出该音频样本信号中音频事件的事件类型和起止时间，无需人工再进行复杂的标注处理。

需要说明的是，以上关于音频样本信号的介绍注意是以需要检测的音频事件包括中文人声事件和音乐事件为例说明。但是可以理解的是，对于需要检测的音频事件包括英文人声事件、其他外文人声事件或者其他类型的音频事件的情况，本申请也同样适用，只需要合成的多个音频样本信号中包括具有相应音频事件的音频样本信号即可，对此不再赘述。

在本申请中音频事件检测模型的具体结构形式可以有多种可能，如，音频事件检测模型可以为卷积神经网络模型或者是深度神经网络模型，还可能是多种网络模型的组合，本申请对此不加限制。

为了便于理解，以音频事件检测模型的一种可能的结构形式进行说明。

在一种可能的情况中，该音频事件检测模型可以包括：频谱特征抽取模块、残差网络模块和特征输出模块。

其中，该频谱特征抽取模块用于确定出该目标音频信号或者音频样本信号的频谱图。例如，该频谱特征抽取模块可以为对数梅尔谱Log-mel模型。

该残差网络模块为：不包括平均池化层和分类层的18层深度的残差网络Resnet18。

该特征输出模块为一维卷积网络。

在本申请中参考网络模块采用18层深度的残差网络，且去除了Resnet18中的平均池化层和分类层，这是因为Resnet18目前主要用于图像分类，而我们这个方案中主要用它进行特征提取，所以不需要涉及到图像处理与分类的部分。

其中，18层深度的残差网络模块为音频事件检测模型的骨干网络，主要用于特征提取，而特征输出模块为音频事件检测模型的头部head模块用于将骨干网络输出的特征进行转换后输出。

在此基础上，频谱特征抽取模块会将目标音频信号的波形图转换为频谱图，然后，残差网络模块会将目标音频信号的频谱图进行特征提取，最终抽取出目标音频信号的特征，该目标音频信号的特征用于反映目标音频信号划分出的各个音频片段各自具有的子事件特征。将音频事件特征输入到特征输出模块，便可以得到音频事件信息。该音频事件信息可以为向量或者矩阵形式，对此不加限制。

在一种可选方式中，考虑到音频信号为单声道便可以包含几乎全部的音频信息，因此，本申请中18层深度的残差网络的输入通道数量为一条，即Resnet18为单通道。

在此基础上，本申请中训练音频事件检测模型的音频样本信号同样为单声道的音频样本信号。进一步的，音频样本信号可以为采样频率为目标频率的音频样本信号。

相应的，在获得目标音频信号之后，本申请还可以先将目标音频信号转换为目标频率且单声道的目标音频信号，然后在利用音频事件检测模型确定该目标音频信号的音频事件信息。

为了便于理解，以一种应用场景为例进行说明：

假设训练模型的音频样本信号以及本案中目标音频信号为8秒的音频信号。

在获得单声道且目标频率的目标音频信号后，可以利用频谱特征抽取模块抽取该目标音频信号的频谱图，该频谱图的维度可以为(1，801，64)，其中，1表示单声道，801表示频率域(hz)，64表示mel滤波器个数。

然后，将频谱特征抽取模块抽取出的频谱图输入到本申请改进后的Resnet18模型内，由于Resnet18会在宽高维度同时下采样5次，所以输入的(1，801，64)维度的频谱图被进一步进特征提取之后变为(512，26，2)。随后，我们将第一个维度和最后一个维度进行展平(即，将三维数据转换成二维数据，以转换数据的排列组合方式)，保留时间维度26，最终输出目标音频信号的特征变为(26，1024)。其中，26表示时间维度，即将8秒的目标音频信号划分成了26个时间片段，即音频片段。基于此，目标音频信号的特征用于反映这26个时间片段中子音频事件的事件类型和音频事件的起始、结束时间。

在此基础上，将Resnet18输出的维度为(26，1024)的特征输入到作为head的一维卷积网络，可以得到该一维卷积网络输出的维度为(26，6)的特征。该特征中的26表示26个音频片段，6表示每个音频片段在6个神经元的输出，其中，前3个神经元的输出用于表示音频片段内是否具有音乐事件、音乐事件的起始时间以及音乐事件的结束时间，后3个神经元的输出用于表示该音频片段内是否具有中文人声事件，中文人声事件的起始时间和结束时间。

如图9所示，其示出了音频事件检测模型中的一维卷积网络输出的特征的含义示意图。

在图9中每一列表示目标音频信号中划分出的音频片段，所以有26个音频片段，如图9中26个时间步。

由图9可以看出，每个音频片段对应6个预测神经元的输出，6个神经元的输出分别表示该音频片段是否包括音频事件、音频片段中音频事件的起始时间、音频片段中音频事件的结束时间、音频片段中是否包括中文人声事件、中文人声事件的起始时间、中文人声事件的结束时间。

基于此可知，结合一为卷积网络输出的特征可以确定目标音频信号划分出的各个音频片段中包含子音频事件的具体情况以及详细信息。

为了便于理解本申请中基于多任务学习训练音频事件检测模型的过程，下面以训练音频事件检测模型的一种过程为例进行说明。如图10所示，其示出了本申请实施例提供的音频事件检测模型的一种训练流程示意图，本实施例的方法可以包括：

S1001，对于多个音频样本信号中的每个音频样本信号，将音频样本信号输入到需要训练的音频事件检测模型，得到音频事件检测模型输出的音频样本信号的音频事件信息。

对于如何获得多个音频样本信号可以参见前面实施例的相关介绍，对此不加限制。

由前面可知，音频样本信号标注有其实际具有的实际音频事件的实际事件类型和实际起止时间。其中，根据音频样本信号中包含的实际音频事件的数量不同，该音频样本信号中标注的实际音频事件的数量也会有所不同。例如，若果音频样本信号中不包含任何音频事件的情况下，那么该音频样本信号中标注的事件标签可以表明该音频样本信号中不具有实际音频事件。如果该音频样本信号中实际上具有两个音频事件，则需要分别标出这两个音频事件各自的事件类型以及起止时间。

其中，音频样本信号的音频事件信息包括：音频样本信号被划分出的多个音频样本片段各自的事件检测信息，音频样本片段的事件检测信息用于表明音频样本片段内是否存在子音频事件，以及在音频样本片段内存在的子音频事件时，子音频事件的事件类型和子音频事件在音频样本片段中的起始时间和结束时间。

关于音频事件检测模型的可能的结构组成可以参见前面的相关介绍，在此不再赘述。

可以理解的是，利用该音频事件检测模型确定音频样本信号的音频事件信息的过程可以与前面确定目标音频信号的音频事件信息的过程相同，具体可以参见前面的相关介绍，在此不再赘述。

S1002，对于每个音频样本信号，基于各音频样本片段的先后顺序以及各目标音频样本片段中子音频事件的事件类型、起始时间和结束时间，确定音频样本信号中具有的预测音频事件的预测事件类型和预测起止时间。

其中，目标音频样本片段为音频样本信号中存在子音频事件的音频样本片段。

为了便于区分，本申请将音频样本信号划分出的音频片段称为音频样本片段，而将基于音频事件检测模型输出的音频事件信息确定出的该音频样本信号中包含的音频事件称为预测音频事件，将预测音频事件的事件类型称为预测事件类型，并将预测音频事件的起止时间称为预测起止时间。

其中，该步骤S1002的具体实现，与前面确定基于目标音频信号中音频片段的事件检测信息确定目标音频信号具有的音频事件的事件类型及其起止时间的实现过程相似，具体可以参照前面介绍，在此不再赘述。

S1003，基于各音频样本信号中预测音频事件的预测事件类型以及标注的实际音频事件的实际事件类型，确定音频事件检测模型的第一损失函数。

该第一损失函数用于表明预测出的音频样本信号的预测音频事件的预测事件类型与实际标注的实际事件类型之间的偏差。

基于此，本申请需要通过不断训练来降低该第一损失函数的值。

在一种可能的实现方式中，该第一损失函数可以为二值交叉熵损失。

如，针对中文人声事件和音乐事件中每种音频事件，分别计算每个音频信号样本在该音频事件上的预测偏差值Lce，具体可以参见如下公式一：

Lce＝-[ylogy”+(1-y)log(1-y”)] (公式一)；

其中，y表示音频信号样本实际标注有该音频事件的概率值，其中，如果音频信号标注有该音频事件，则y的取值为1，否则为0，比如，以音频事件为中文人声事件为例，如果音频信号样本标注有中文人声事件，则y的取值为1，否则为0。y”表示模型预测出的该音频信号样本中存在该音频事件的概率值，其中y″的取值属于[0，1]。

在公式一的基础上，可以将各个音频样本信号分别在两种音频事件上的预测偏差值进行求和，可以得到第一损失函数的数值。

S1004，基于音频样本信号中预测音频事件的预测起止时间以及标注的实际音频事件的实际起止时间，确定音频事件检测模型的第二损失函数。

该第二损失函数用于表明预测出的音频样本信号的预测音频事件的预测起止时间与实际标注的实际起止时间之间的偏差。基于此，本申请需要通过不断训练来降低该第二损失函数的值。

在一种实现方式中，该第二损失函数可以采用回归损失计算。

如，针对中文人声事件和音乐事件中每种音频事件，可以计算音频样本信号对应该音频事件中起止时间的预测偏差值Lre，如该公式二：

Lre＝(t1-t1”)2+(t2-t2”)² (公式二)；

需要说明的是，只有在音频信号样本标注的实际音频事件包括当前计算的该种音频事件的情况下，才需要计算音频样本信号在该音频事件上起止时间的预测偏差值。其中，t1和t2分别表示音频样本信号标注的该音频事件的起始时间和结束时间，t1”和t2”分别表示模型预测出的该音频样本信号中该音频事件的起始时间和结束时间。

相应的，将各个音频样本信号在不同类型音频事件上的预测偏差值进行求和，就可以计算得到第二损失函数的值。

可以理解的是，本实施例是以音频信号样本中标注实际音频事件的事件类型以及起止时间为例说明。

在实际应用中，音频信号样本标注的事件标签还可以是标注该音频信号样本划分出的多个音频样本片段中具有子音频事件的事件类型以及子音频事件相对该音频样本片段的起始时间和结束时间。

在此基础上，则无需执行步骤S1002，则直接基于每个音频样本信号中各音频样本片段实际标注的子音频事件的事件类型，以及音频事件检测模型预测出的音频样本信号中各个音频样本片段具有的子音频事件的事件类型，确定第一损失函数值。类似的，基于每个音频样本信号中各音频样本片段实际标注的子音频事件在音频样本片段中的起始时间和结束时间，以及音频事件检测模型预测出的音频样本信号中各个音频样本片段内的子音频事件在该音频样本片段内的预测起始时间和预测结束时间，确定第二损失函数值，在此不再赘述。

S1005，调整音频事件检测模型的参数，返回执行步骤S1001的操作，直至基于第一损失函数和第二损失函数确定出满足模型训练结束条件。

其中，模型训练结束条件可以根据需要设定，如，可以是第一损失函数和第二损失函数收敛；也可以是循环训练次数超过设定次数，例如，每次调整了音频事件检测模型的参数后，将训练次数加一，如果训练次数超过设定次数，可以确定满足模型训练结束条件。

对应本申请的一种音频事件检测方法，本申请还提供了一种音频事件检测装置。

如图11所示，其示出了本申请实施例提供的音频事件检测装置的一种组成结构示意图。本实施例的装置可以包括：

音频获得单元1101，用于获得目标音频信号；

音频检测单元1102，用于利用音频事件检测模型确定所述目标音频信号的音频事件信息，所述目标音频信号的音频事件信息包括：所述目标音频信号被划分出的多个音频片段各自的事件检测信息，所述音频片段的事件检测信息用于表明所述音频片段内是否存在子音频事件，以及在所述音频片段内存在至少一个子音频事件时，所述音频片段内的子音频事件的事件类型和子音频事件在所述音频片段中的起始时间和结束时间；其中，所述音频事件检测模型为基于多个标注有事件标签的音频样本信号，采用多任务学习算法训练得到的，所述事件标签包括所述音频样本信号中实际具有的实际音频事件的实际事件类型和实际起止时间。

事件确定单元1103，用于基于所述多个音频片段的先后顺序以及各目标音频片段中子音频事件的事件类型、起始时间和结束时间，确定所述目标音频信号中具有的音频事件的事件类型和起止时间，所述目标音频片段为所述目标音频信号中存在子音频事件的音频片段，所述音频事件包括：事件类型相同且时间上连续的至少一个子音频事件；

在一种可能的实现方式中，该装置还包括：

所述特征输出模块为一维卷积网络。

在又一种可能的实现中，该子音频事件和该音频事件的事件类型均属于中文人声事件和音乐音频事件中的任意一种；

该多种音频样本信号包括：基于多条中文人声语料、多条音乐语料和多条噪声语料，合成出的包含中文人声事件、音乐音频事件和噪声音频事件中的至少两种音频事件的音频样本信号；

音频获得单元，包括：

音频获得子单元，用于获得待检测的初始音频信号；

第一确定子单元，用于如果所述初始音频信号的时长为目标时长，将所述初始音频信号确定为目标音频信号；

第二确定子单元，用于如果所述初始音频信号的时长小于目标时长，基于所述初始音频信号与空白音频信号，组合出目标时长的目标音频信号；

音频划分子单元，用于如果所述初始音频信号的时长大于所述目标时长，将所述初始音频信号划分为具有先后顺序且时长为目标时长的多个目标音频信号；

该装置还包括：综合确定单元，用于如果所述初始音频信号的时长超过所述目标时长，在事件确定单元确定所述目标音频信号中具有的音频事件的事件类型和起止时间之后，基于各目标音频信号的先后顺序以及各目标音频信号中具有的音频事件的事件类型和起止时间，确定所述初始音频信号中具有的音频事件的事件类型和起止时间。

在又一种可能的实现方式中，音频事件检测模型中18层深度的残差网络的输入通道数量为一条。

相应的，音频样本信号为单声道且采样频率为目标频率的音频样本信号；

该装置还包括：音频转换单元，用于在音频检测单元利用音频事件检测模型确定出所述目标音频信号的音频事件信息之前，将所述目标音频信号转换为目标频率且单声道的目标音频信号。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。同时，本说明书中各实施例中记载的特征可以相互替换或者组合，使本领域专业技术人员能够实现或使用本申请。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种音频事件检测方法，其特征在于，包括：

获得目标音频信号；

2.根据权利要求1所述的方法，其特征在于，所述音频事件检测模型通过如下方式训练得到：

对于多个音频样本信号中的每个音频样本信号，将所述音频样本信号输入到需要训练的音频事件检测模型，得到所述音频事件检测模型输出的所述音频样本信号的音频事件信息，所述音频样本信号的音频事件信息包括：所述音频样本信号被划分出的多个音频样本片段各自的事件检测信息，所述音频样本片段的事件检测信息用于表明所述音频样本片段内是否存在子音频事件，以及在所述音频样本片段内存在的子音频事件时，所述音频样本片段的子音频事件的事件类型和子音频事件在所述音频样本片段中的起始时间和结束时间；

3.根据权利要求1或2所述的方法，其特征在于，所述音频事件检测模型包括：频谱特征抽取模块、残差网络模块和特征输出模块；

所述特征输出模块为一维卷积网络。

4.根据权利要求1或2所述的方法，其特征在于，所述音频信号样本的子音频事件和音频事件的事件类型均属于中文人声事件和音乐音频事件中的任意一种；

多个音频样本信号包括：基于多条中文人声语料、多条音乐语料和多条噪声语料，合成出的包含中文人声事件、音乐音频事件和噪声音频事件中的至少两种音频事件的音频样本信号；

其中，多个音频样本信号中的不同音频信号内至少两种音频事件的重叠类型不完全相同，且不同音频样本信号内音频事件的信号变化曲线的曲线类型不完全相同；

5.根据权利要求4所述的方法，其特征在于，所述音频样本信号的时长为目标时长，所述目标时长不小于8秒；

所述获得目标音频信号，包括：

获得待检测的初始音频信号；

6.根据权利要求4所述的方法，其特征在于，所述18层深度的残差网络的输入通道数量为一条；

7.根据权利要求4所述的方法，其特征在于，所述多种音频样本信号还包括：不存在中文人声事件和音乐事件的音频样本信号。

8.一种音频事件检测装置，其特征在于，包括：

音频获得单元，用于获得目标音频信号；

事件确定单元，用于基于所述多个音频片段的先后顺序以及各目标音频片段中子音频事件的事件类型、起始时间和结束时间，确定所述目标音频信号中具有的音频事件的事件类型和起止时间，所述目标音频片段为所述目标音频信号中存在子音频事件的音频片段，所述音频事件包括：事件类型相同且时间上连续的至少一个子音频事件。

9.根据权利要求8所述的装置，其特征在于，还包括：

对于多个音频样本信号中的每个音频样本信号，将所述音频样本信号输入到需要训练的音频事件检测模型，得到所述音频事件检测模型输出的所述音频样本信号的音频事件信息，所述音频样本信号的音频事件信息包括：所述音频样本信号被划分出的多个音频样本片段各自的事件检测信息，所述音频样本片段的事件检测信息用于表明所述音频样本片段内是否存在子音频事件，以及在所述音频样本片段内存在的子音频事件时，所述音频样本片段内的子音频事件的事件类型和子音频事件在所述音频样本片段中的起始时间和结束时间；

10.根据权利要求8或9所述的装置，其特征在于，所述音频检测单元中采用的所述音频事件检测模型包括：频谱特征抽取模块、残差网络模块和特征输出模块；

所述特征输出模块为一维卷积网络。