CN111653290A

CN111653290A - 音频场景分类模型生成方法、装置、设备以及存储介质

Info

Publication number: CN111653290A
Application number: CN202010479961.0A
Authority: CN
Inventors: 夏晶; 李曙鹏; 高晨昊; 吕海军; 徐彬彬; 施恩; 谢永康
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2020-09-11
Anticipated expiration: 2040-05-29
Also published as: CN111653290B

Abstract

本申请公开了音频场景分类模型生成方法、装置、设备以及存储介质，涉及深度学习技术领域。方法包括：基于多个音频样本生成多个频谱图集合；基于多个频谱图集合，生成多个样本数据集；基于多个样本数据集，对待训练的音频场景分类模型进行训练，得到训练后的音频场景分类模型；其中，基于多个频谱图集合中的第一频谱图集合，生成第一样本数据集的过程包括：对第一频谱图集合中的每两个相邻的频谱图进行拼接处理，得到多个新的频谱图；将得到的多个新的频谱图加入第一频谱图集合中，并将第一频谱图集合和第一音频场景标签作为第一样本数据集，第一音频场景标签为生成第一频谱图集合的音频样本对应的音频场景标签。本申请提高音频场景预测的准确率。

Description

音频场景分类模型生成方法、装置、设备以及存储介质

技术领域

本申请涉及深度学习领域，尤其涉及音频处理技术领域。

背景技术

音频场景分类指根据音频信号输入分辨信号源所处场景或活动类别, 是目前音频信号处理领域的研究热点之一。随着智能移动硬件设备的普及，被广泛应用于野生户外、家庭室内、工业现场等环境监测中。随着深度学习的发展，音频场景分类准确率逐渐提升，但也对音频数量提出了较高的需求。

发明内容

本申请提供了一种用于音频场景分类模型生成方法、装置、设备以及存储介质。

根据本申请的第一方面，提供了一种音频场景分类模型生成方法，包括：

基于多个音频样本生成多个频谱图集合；

基于多个频谱图集合，生成多个样本数据集；

基于多个样本数据集，对待训练的音频场景分类模型进行训练，得到训练后的音频场景分类模型；

其中，基于多个频谱图集合中的第一频谱图集合，生成第一样本数据集的过程，包括：

对第一频谱图集合中的每两个相邻的频谱图进行拼接处理，得到多个新的频谱图，其中拼接处理包括将第一频谱图中的第一区域和第二频谱图的第二区域拼接为一个新的频谱图；

将得到的多个新的频谱图加入第一频谱图集合中，并将第一频谱图集合和第一音频场景标签作为第一样本数据集，第一音频场景标签为生成第一频谱图集合的音频样本对应的音频场景标签。

根据本申请的第二方面，提供了一种音频场景分类方法，包括：

基于目标音频生成多个目标频谱图；

将多个目标频谱图输入音频场景分类模型，得到多个目标频谱图的音频场景分类结果；

根据多个目标频谱图的场景分类结果，确定目标音频所属的音频场景；

其中，音频场景分类模型为上述第一方面的音频场景分类模型生成方法生成的音频场景分类模型。

根据本申请的第三方面，提供了一种音频场景分类模型生成装置，包括：

第一生成模块，用于基于多个音频样本生成多个频谱图集合；

第二生成模块，用于基于多个频谱图集合，生成多个样本数据集；

训练模块，用于基于多个样本数据集，对待训练的音频场景分类模型进行训练，得到训练后的音频场景分类模型；

其中，第一生成模块包括：

频谱图拼接子模块，用于对多个频谱图集合中第一频谱图集合中的每两个相邻的频谱图进行拼接处理，得到多个新的频谱图，拼接处理包括将第一频谱图中的第一区域和第二频谱图的第二区域拼接为一个新的频谱图；

样本数据集处理子模块，用于将得到的多个新的频谱图加入第一频谱图集合中，并将第一频谱图集合和第一音频场景标签作为第一样本数据集，第一音频场景标签为生成第一频谱图集合的音频样本对应的音频场景标签。根据本申请的第四方面，提供了一种音频场景分类模型生成装置，包括：

根据本申请的第四方面，提供了一种音频场景分类装置，包括：

频谱图生成模块，用于根据目标音频转生成多个目标频谱图；

音频场景分类模型，用于对输入的多个目标频谱图进行处理，得到所述多个目标频谱图的音频场景分类结果；其中，所述音频场景分类模型为上述第一方面所述的音频场景分类模型生成方法生成的音频场景分类模型；

场景确定模块，用于根据所述多个目标频谱图的场景分类结果，确定所述目标音频所属的音频场景。

本申请实施例基于频谱图集合中的多个频谱图，通过图像拼接技术，得到多个新的频谱图以扩充训练数据的扩展，新的频谱图可以直接沿用原始音频样本的场景标签，因此，本申请实施例无需增加新的音频样本和人工标注工作量，扩充了训练数据，提高了训练效果，可提高模型对音频场景分类的准确度。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例的音频场景分类模型生成方法的流程图一；

图2是根据本申请实施例的音频场景分类模型生成方法的流程图二；

图3是根据本申请实施例的拼接处理的示例图；

图4是根据本申请实施例的音频场景分类模型生成方法的流程图三；

图5是根据本申请实施例的音频场景分类模型的结构图；

图6是根据本申请实施例的音频场景分类模型生成方法的一示例图；

图7是根据本申请实施例的音频场景分类方法的流程图一；

图8是根据本申请实施例的音频场景分类方法的流程图二；

图9是根据本申请实施例的音频场景分类模型生成装置的结构图一；

图10是根据本申请实施例的音频场景分类模型生成装置的结构图二；

图11是根据本申请实施例的音频场景分类模型生成装置的结构图三；

图12是根据本申请实施例的音频场景分类装置的结构图一；

图13是根据本申请实施例的音频场景分类装置的结构图二；

图14是用来实现本申请实施例的音频场景分类模型训练以及音频场景分类的方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

参见图1，图1所示为本申请实施例提供一种音频场景分类模型生成方法，应用于深度学习技术领域，方法包括：

S101、基于多个音频样本生成多个频谱图集合；

S103、基于多个频谱图集合，生成多个样本数据集；

S105、基于多个样本数据集，对待训练的音频场景分类模型进行训练，得到训练后的音频场景分类模型；

其中，步骤S101中基于多个频谱图集合中的第一频谱图集合，生成第一样本数据集的过程，可参见图2，包括：

S201、对第一频谱图集合中的每两个相邻的频谱图进行拼接处理，得到多个新的频谱图，其中拼接处理包括将第一频谱图中的第一区域和第二频谱图的第二区域拼接为一个新的频谱图；

S203、将得到的多个新的频谱图加入第一频谱图集合中，并将第一频谱图集合和第一音频场景标签作为第一样本数据集，第一音频场景标签为生成第一频谱图集合的音频样本对应的音频场景标签。

这样处理的好处是，本实施例根据音频样本生成多个频谱图，得到模型的训练数据，从而将音频识别问题转换为图像识别问题，有利于实现音频分类场景模型对特征的提取，进而提高模型的分类效果。在此基础上，基于频谱图集合中的多个频谱图，通过图像拼接技术，即可得到多个新的频谱图以扩充训练数据的扩展，而且新的频谱图可以直接沿用原始音频样本的场景标签。因此，本实施例无需增加新的音频样本和人工标注工作量，扩充了训练数据，提高了训练效果，提高了模型预测准确度。

本实施例采用的音频样本对应的音频场景可以包括：野生户外、家庭室内、工业现场、商场超市、公共道路、公园、学校、体育馆、音乐现场等中的至少一项。

本实施例采用的音频样本，可以为各种环境现场的录音文件、从视频文件中提取的音频数据以及从网络上下载的各种歌曲、录音等音频数据中的至少一种。

本实施例训练得到的训练后的音频场景分类模型，可以对音频数据进行识别，得到该音频数据对应的音频场景。具体的，根据该音频数据生成多个频谱图，将多个频谱图输入训练后的音频场景分类模型，得到音频场景分类结果。

在一种实施方式中，步骤S101中，一个音频样本可以得到一个频谱图集合。同个音频样本所生成的多个频谱图按照时间序列排序。

在一种实施方式中，步骤S101的频谱图集合中，各个频谱图的长度相同，且宽度也相同。音频样本所生成的频谱图的长度和宽度可以预先设定。

在一种实施方式中，频谱图为Log Mel频谱图。对应的，步骤S101基于音频样本生成Log Mel频谱图的过程如下：

首先，将音频样本采样值预设频率，并对采样后的数据归一化值预设取值区间；通过采样和归一化，可以将不同设备采集的不同音频格式的音频样本进行统一，以便后续处理。

然后，利用短时傅里叶变换(STFT)将归一化后的音频样本转换为频谱图：

接着，采用Mel滤波器组将频谱图转换至Mel空间下，并利用log变换将频谱图生成Log Mel频谱图；

最后，采用预设间隔将Log Mel频谱图切分成多个Log Mel频谱图，并将切分后的多个Log Mel频谱图按照时间序列排序，得到频谱图集合 M＝{m₀，m₁，…，m_n-1}。将Log Mel频谱图进行切分，有利于适应不同长度的音频样本。

举例说明，首先，将音频样本采样至16KHz，并对采样后的数据归一化至[-1，1]区间；然后利用短时傅里叶变换(STFT)得到频谱图，对于音频样本，首先将音频样本采样至16KHz，并将采样后的音频样本归一化至[- 1，1]区间；接着，利用短时傅里叶变换(STFT)将归一化后的音频样本转换为频谱图，其中，短时傅里叶变换滑窗大小为25ms、滑动间隔10ms；接着采用个数为64的Mel滤波器组将频谱图转换至Mel空间下；再对频谱图进行log变换，得到Log Mel频谱图；最后，采用960ms为间隔将Log Mel频谱图切分成多个，对于同一音频样本得到的多个Log Mel频谱图须按照时间序列存储。

上述基于音频样本生成频谱图的相关参数仅为示例，具体可以根据实际需求预先设定，本实施例对此不作限定。

在一种实施方式中，步骤S201的拼接处理中，第一频谱图和第二频谱图的横坐标i的取值范围均为[0，i₂)，频谱图的横坐标i表示时间。

用于拼接的第一区域和第二区域可以设定如下：

第一区域为第一频谱图中横坐标i∈[i₁，i₂)的区域，第二区域为第二频谱图中横坐标i∈[0，i₁)的区域为第二区域；

其中，第一频谱图为第二频谱图的前一帧频谱图。

可选的，参考图3，图3给出第一区域和第二区域的拼接示例，第一区域和第二区域按照时间顺序进行连接，得到新的频谱图。

这样处理的好处是，选取第一频谱图中横坐标i∈[i₁，i₂)的第一区域，以及第二频谱图横坐标i∈[0，i₁)的第二区域进行拼接，得到的新的频谱图的横坐标i的取值范围仍为[0，i₂)，从而拼接前后的频谱图的图像尺寸一致。并且，第一区域和第二区域为时间上连续的两个区域，因此得到的新的频谱图可以体现一段连续时间内的频谱信息。

这是因为音频样本转换为一个总频谱图时，总频谱图的长度(即横坐标)表征音频样本的时长，将该总频谱图切分成多个频谱图得到频谱图集合，频谱图集合中的多个频谱图按照时间顺序排序，因此，选取前一帧频谱图中横坐标i∈[i₁，i₂)的第一区域以及后一帧频谱图中i∈[0，i₁)，可以得到时间上连续的两个区域。

下述给出步骤S201的一个拼接处理示例：

假设第一音频样本对应生成第一频谱图集合为{M₀，M₁，…，M_n-1}，其中，频谱图为大小96×64的二维矩阵，用[i，j]表示二维矩阵中的一个元素，则0≤i＜96，0≤j＜64。

以i₂的取值为96，i₁的取值为48为例，对第一频谱图集合M＝ {M₀，M₁，…，M_n-1}进行拼接处理，得到多个新的频谱图M‘＝ {M‘₀，M‘₁，…，M_n-2}的公式如下：

其中，M_p[i，j]和M_p+1[i，j]均表示拼接处理前的第一频谱图集合M中的一个频谱图，M_p+1[i，j]为M_p[i，j]后的一个频谱图，M_p[i，j]表示由M_p[i，j]和 M_p+1[i，j]经过拼接处理得到的新的频谱图。

将多个新的频谱图M‘＝{M‘₀，M‘₁，…，M_n-2}加入第一频谱图集合M＝ {M₀，M₁，…，M_n-1}，可以得到加入新的频谱图后的第一频谱图集合为S＝ {S₀，S₁，…，S_q，…S_2n-1，}，0≤q≤2n-1。

在一种实施方式中，参见图4，在步骤S102之后，方法还包括：

S401、根据第一增强概率，对第一频谱图集合中的频谱图进行随机增强：

其中，第一增强概率是根据多个样本数据集中的第一类样本数据集的频谱图总帧数在全部样本数据集的频谱图总帧数中的第一占比确定的，第一增强概率与第一占比呈负相关关系，其中，具有与第一音频场景标签相同的音频场景标签的样本数据集属于第一类样本数据集。

这样处理的好处是，通过对频谱图进行随机增强，有利于提升训练数据的多样性，有利于解决模型训练的过拟合问题。此外，基于单类音频场景标签的频谱图帧总数占比设置增强概率，并且两者呈负相关的关系，那么单类音频场景标签的频谱图帧总数占比越小，则增强概率越高，越有利于均衡各类音频场景对应的样本数据，避免数据量较少的单类音频场景出现过拟合现象。

可选地，步骤S401中对频谱图进行的增强可以包括：屏蔽频谱图上指定时间段的信号、屏蔽频谱图上指定频率段的信号以及屏蔽沿时间方向扭曲频谱图中的至少一项。

可选地，对于加入新的频谱图后的第一频谱图集合为S＝ {S₀，S₁，…，S_q，…S_2n-1，}。

根据公式

计算第一增强概率。

其中，p_i表示第一增强概率，N表示多个样本数据集包括的音频场景标签的类别数，每一类音频场景标签对应的样本数据集中频谱图帧总数分别为{n₁、n₂、……n_N}，n_i表示单类样本数据集中频谱图帧总数。

以第一增强概率p_i对任一S_q进行增强，增强公式如下：

其中，k₁、k₂、k₃、k₄为超参数，上述增强公式中的“其它”表示频谱图中k₁＞i＞k₂或k₃＞j＞k₄之外的情况。

其中，S′_q[i，j]＝0实现将频谱图上[i，j]处的信号进行屏蔽。

在一种实施方式中，参见图4，方法还包括：

S403、以帧为单位对第一频谱图集合中的频谱图进行随机排序。

这样处理的好处是，打乱第一频谱图集合中的频谱图顺序，提升训练数据的多样性。

可选地，先通过步骤S403对频谱图集合中的频谱图进行随机排序后，再执行步骤S401，对随机排序后的频谱图进行随机增强，更加提升训练数据的多样性。

可选地，在待训练的音频场景分类模型进行迭代训练时，每代训练前均可以依据上述步骤S401和S403对样本数据进行处理，以使得每代训练的训练数据均不同，从而提升训练数据的多样性。

在一种实施方式中，参考图5，待训练的音频场景分类模型包括特征提取器；

特征提取器包括VGGish模型中的依次连接的四组结构，四组结构中的每组结构包括卷积层和池化层；

特征提取器还包括全局平均池化层，全局平均池化层与四组结构中最后一组结构的输出端连接。

这样处理的好处是，本实施例采用VGGish模型为经过音频数据集预训练的模型，有利于减少训练待训练的音频场景分类模型的训练数据。此外，采用VGGish模型的四组结构，并且后接全局平均池化层，可以提取 512维特征向量，以提升特征向量维度从而获取更丰富的特征。

在一种实施方式中，继续参考图5，待训练的音频场景分类模型还包括分类器，分类器连接全局平均池化层，分类器包括两层全连接层(FC， Fully Connected Layer)，每层全连接层包括1024个神经元。

这样处理的好处是，分类器由设置两层个数均为1024的全连接层组成，对上述特征提取器所提取的512维特征向量进行分类处理，所输出的分类结果准确度较高。

在一种实施方式中，步骤S105中对待训练的音频场景分类模型进行训练，包括：

在对待训练的待训练的音频场景分类模型进行训练的过程中，如果多个样本数据中各类音频场景标签对应的音频样本的数量的平均值小于或等于预设阈值，则冻结卷积层C₁、卷积层C₂和卷积层C₃的参数，更新卷积层C₄和分类器的参数；

和/或，

在对待训练的音频场景分类模型进行训练的过程中，如果多个样本数据中各类音频场景标签对应的音频样本的数量的平均值大于预设阈值，则对特征提取器和分类器的所有参数进行更新。

这样处理的好处是，各类音频场景标签的音频样本数的平均值太少时，如果对特征提取器的所有卷积层的参数均进行训练时，容易出现过拟合的问题，因此，此时冻结前三层的卷积层C₁、C₂和C₃，只对最后一层卷积层 C₄的参数和分类器的参数进行训练，有利于解决过拟合的问题。

可选地，步骤S105中，对待训练的音频场景分类模型进行训练的过程中采用的训练优化器为Adam，采用的损失函数为交叉熵函数，学习率为0.001。每代训练保存当前评估集上准确率最高的模型参数。

参考图6，图6为本实施例的一实际示例的结构框图。具体的：

S601、获取音频数据：

S602、根据音频数据，生成多个Log Mel频谱图；

S603、基于多个Log Mel频谱图进行训练数据扩充，其中，对多个Log Mel频谱图进行拼接处理，得到新的多个Log Mel频谱图，拼接前后的多个Log Mel频谱图均加入样本数据；

S604、基于单类音频场景的频谱图帧总数的占比确定的增强概率，进行频谱图数据增强；图6中给出了多个增强后的频谱图的示例；

S605、基于各类音频场景的样本个数的平均值进行训练，其中，在平均值小于预设数量时，冻结音频场景分类模型的前三层卷积层后进行训练，在平均值大于预设数量时，开放音频场景分类模型的所有卷积层和分类器的参数进行训练；

其中，音频场景分类模型包括特征提取器和分类器，特征提取器和分类器，特征提取器包括VGGish模型的前四组结构，每组结构包括卷积层和池化层，特征提取器还包括平均全局池化层。分类器采用全连接层F1和全连接层F2组成。

除此之外，图6还给出了音频场景分类的示例，同样的，采用步骤S601 获取待处理的音频样本，以及采用步骤S602生成对应的多个Log Mel频谱图，然后执行步骤S603、利用训练得到的音频场景分类模型对多个Log Mel频谱图对进行预测。

本申请实施例中，音频场景分类模型的输入为原始音频数据集，经过多个频谱图生成，多个频谱图进行拼接扩充训练数据，构建基于VGGish 模型及FC分类器的模型，同一频谱图集合内相邻两帧合成新的频谱图，的融入选择性数据增强和部分特征层冻结的模型训练、基于音频多个特征的模型预测步骤完成音频场景检测的需求。

因此，本申请实施例具有下述有益效果的至少一项：可以适应不同音频数据集，特征表达能力较佳，丰富训练数据的数量和多样性，减少训练容易出现过拟合的现象，大大提升了模型的训练效果，进而提高实际应用时的准确率。

对应的，本申请实施例还提供一种音频场景分类方法，参见图7，方法包括：

S701、根据目标音频生成多个目标频谱图；

S703、将多个目标频谱图输入音频场景分类模型，得到多个目标频谱图的音频场景分类结果；

S705、根据多个目标频谱图的场景分类结果，确定目标音频所属的音频场景；

其中，音频场景分类模型为上述实施例提供的音频场景分类模型生成方法生成的音频场景分类模型。

这样处理的好处是，本实施例提供的音频场景分类方法，根据音频样本生成多个频谱图，从而将音频识别问题转换为图像识别问题，此外，采用了上述实施例所提供的音频场景分类模型进行分类，有效地提高了分类预测结果。

在一种实施方式中，每个目标频谱图的长度和宽度可以预先设定。

在一种实施方式中，多个目标频谱图的场景分类结果包括各帧目标频谱图分别对应的音频场景的多个概率值；

参考图8，步骤S705，包括：

S801、根据多个目标频谱图中各帧目标频谱图分别对应的多个音频场景的概率值，确定目标音频对应于多个音频场景的多个概率值；

S803、将目标音频对应于多个音频场景的多个概率值概率值中概率值最大的概率值所对应的音频场景，确定为目标音频所属的音频场景。

这样处理的好处是，由于多个频谱图是由音频转换切分所得，因此，场景分类模型输出各帧目标频谱图对应各种音频场景的概率值，可以用来确定体现音频属于各种音频场景的概率值。因此基于概率值最高的音频场景即可确定音频的音频场景。

可选的，步骤S801包括：将各帧目标频谱图对应同一种音频场景的概率值进行相加求平均，得到目标音频的各种音频场景的概率值。

例如，对于音频场景A，n帧目标频谱图的概率值为A1、A2……An，因此，目标音频对应音频场景A的概率值为(A1+A2+……+An)/n。

对应的，参见图9，图9给出本申请实施例一种音频场景分类模型生成装置900的示意图，该装置900包括：

第一生成模块901，用于基于多个音频样本生成多个频谱图集合；

第二生成模块903，用于基于多个频谱图集合，生成多个样本数据集；

训练模块905，用于基于多个样本数据集，对待训练的音频场景分类模型进行训练，得到训练后的音频场景分类模型；

其中，第一生成模块901用于基于第一频谱图集合，生成第一样本数据集的过程，第一生成模块901包括：

频谱图拼接子模块9011，用于对多个频谱图集合中第一频谱图集合中的每两个相邻的频谱图进行拼接处理，得到多个新的频谱图，其中拼接处理包括将第一频谱图中的第一区域和第二频谱图的第二区域拼接为一个新的频谱图；

样本数据集处理子模块9013，用于将得到的多个新的频谱图加入第一频谱图集合中，并将第一频谱图集合和第一音频场景标签作为第一样本数据集，第一音频场景标签为生成第一频谱图集合的音频样本对应的音频场景标签。

在一种实施方式中，参见图10，装置1000还包括：

增强模块1001，用于根据第一增强概率，对第一频谱图集合中的频谱图进行随机增强；

在一种实施方式中，参见图10，装置1000还包括：

随机排序模块1003，用于以帧为单位对第一频谱图集合中的频谱图进行随机排序。

在一种实施方式中，第一频谱图和第二频谱图的横坐标i的取值范围均为[0，i₂)；

第一区域为第一频谱图中横坐标i∈[i₁，i₂)的区域；

第二区域为第二频谱图中横坐标i∈[0，i₁)的区域。

在一种实施方式中，待训练的音频场景分类模型包括特征提取器；

待训练的音频场景分类模型包括特征提取器；

特征提取器还包括全局平均池化层，全局平均池化层与四组结构中的最后一组结构的输出端连接。

在一种实施方式中，待训练的音频场景分类模型还包括分类器，分类器连接全局平均池化层，分类器包括两层全连接层，每层全连接层包括 1024个神经元。

在一种实施方式中，参见图11，训练模块905包括：

第一训练子模块1101，用于在多个样本数据中各类音频场景标签对应的音频样本的数量的平均值小于或等于预设阈值的情况下，冻结卷积层 4₁、卷积层4₂和卷积层4₂的参数，更新卷积层4₃和分类器的参数；

和/或，

第二训练子模块1103，用于在多个样本数据中各类音频场景标签对应的音频样本的数量的平均值大于预设阈值的情况下，对特征提取器和分类器的所有参数进行更新。

对应的，参见图12，本申请实施例还提供一种音频场景分类装置1200，包括：

频谱图生成模块1201，用于根据目标音频转生成多个目标频谱图；

音频场景分类模型1203，用于对输入的多个目标频谱图进行处理，得到多个目标频谱图的音频场景分类结果；其中，音频场景分类模型为上述实施例的音频场景分类模型生成方法生成的音频场景分类模型；

场景确定模块1205，用于根据多个目标频谱图的场景分类结果，确定目标音频所属的音频场景。

在一种实施方式中，多个目标频谱图的场景分类结果包括各帧目标频谱图对应各种音频场景的概率值；

参见图13，场景确定模块1205，包括：

概率值子模块1301，用于根据多个目标频谱图中各帧目标频谱图分别对应的多个音频场景的概率值，确定目标音频对应于多个音频场景的多个概率值；

场景子模块1303，用于将目标音频对应于多个音频场景的多个概率值中最大的概率值所对应的音频场景，确定为目标音频所属的音频场景。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图14所示，是根据本申请实施例的音频场景分类模型训练以及音频场景分类的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图14所示，该电子设备包括：一个或多个处理器1401、存储器1402，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器***)。图14中以一个处理器 1401为例。

存储器1402即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的音频场景分类模型训练以及音频场景分类的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的音频场景分类模型训练以及音频场景分类的方法。

存储器1402作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的音频场景分类模型训练以及音频场景分类的方法对应的程序指令/模块(例如，附图9所示的第一生成模块901、第二生成模块903和训练模块905)。处理器1401通过运行存储在存储器1402中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的音频场景分类模型训练以及音频场景分类的方法。

存储器1402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据音频场景分类模型训练以及音频场景分类的电子设备的使用所创建的数据等。此外，存储器1402可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1402可选包括相对于处理器1401 远程设置的存储器，这些远程存储器可以通过网络连接至音频场景分类模型训练以及音频场景分类的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

音频场景分类模型训练以及音频场景分类的方法的电子设备还可以包括：输入装置1403和输出装置1404。处理器1401、存储器1402、输入装置1403和输出装置1404可以通过总线或者其他方式连接，图14中以通过总线连接为例。

输入装置1403可接收输入的数字或字符信息，以及产生与音频场景分类模型训练以及音频场景分类的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1404可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和 /或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和 /或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入) 来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，基于频谱图集合中的多个频谱图，通过图像拼接技术，得到多个新的频谱图以扩充训练数据的扩展，新的频谱图可以直接沿用原始音频样本的场景标签，因此，本申请实施例无需增加新的音频样本和人工标注工作量，扩充了训练数据，提高了训练效果，可提高模型对音频场景分类的准确度。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种音频场景分类模型生成方法，包括：

基于多个音频样本生成多个频谱图集合；

基于所述多个频谱图集合，生成多个样本数据集；

基于所述多个样本数据集，对待训练的音频场景分类模型进行训练，得到训练后的音频场景分类模型；

其中，基于所述多个频谱图集合中的第一频谱图集合，生成第一样本数据集的过程，包括：对所述第一频谱图集合中的每两个相邻的频谱图进行拼接处理，得到多个新的频谱图，其中所述拼接处理包括将第一频谱图中的第一区域和第二频谱图的第二区域拼接为一个新的频谱图；将得到的多个新的频谱图加入所述第一频谱图集合中，并将所述第一频谱图集合和第一音频场景标签作为第一样本数据集，所述第一音频场景标签为生成所述第一频谱图集合的音频样本对应的音频场景标签。

2.根据权利要求1所述的方法，还包括：

根据第一增强概率，对所述第一频谱图集合中的频谱图进行随机增强；

其中，所述第一增强概率是根据所述多个样本数据集中的第一类样本数据集的频谱图总帧数在全部样本数据集的频谱图总帧数中的第一占比确定的，所述第一增强概率与所述第一占比呈负相关关系，其中，具有与所述第一音频场景标签相同的音频场景标签的样本数据集属于所述第一类样本数据集。

3.根据权利要求1所述的方法，还包括：

以帧为单位对所述第一频谱图集合中的频谱图进行随机排序。

4.根据权利要求1所述的方法，其中，

所述第一频谱图和所述第二频谱图的横坐标i的取值范围均为[0，i₂)；

所述第一区域为所述第一频谱图中横坐标i∈[i₁，i₂)的区域；

所述第二区域为所述第二频谱图中横坐标i∈[0，i₁)的区域。

5.根据权利要求1所述的方法，其中，

所述待训练的音频场景分类模型包括特征提取器；其中，

所述特征提取器包括VGGish模型中的依次连接的四组结构，所述四组结构中的每组结构包括卷积层和池化层；

所述特征提取器还包括全局平均池化层，所述全局平均池化层与所述四组结构中的最后一组结构的输出端连接。

6.根据权利要求5所述的方法，其中，

所述待训练的音频场景分类模型还包括分类器，其中，

所述分类器与所述全局平均池化层连接，且所述分类器包括两层全连接层，每层所述全连接层包括1024个神经元。

7.根据权利要求6所述的方法，其中，

所述四组结构包括的卷积层为卷积层C₁、卷积层C₂和卷积层C₃和卷积层C₄；

在对所述待训练的音频场景分类模型进行训练的过程中，如果所述多个样本数据中各类音频场景标签对应的音频样本的数量的平均值小于或等于预设阈值，则冻结卷积层C₁、卷积层C₂和卷积层C₃的参数，更新卷积层C₄和分类器的参数；

和/或，

在对所述待训练的音频场景分类模型进行训练的过程中，如果所述多个样本数据中各类音频场景标签对应的音频样本的数量的平均值大于预设阈值，则对所述特征提取器和所述分类器的所有参数进行更新。

8.一种音频场景分类方法，包括：

基于目标音频生成多个目标频谱图；

将所述多个目标频谱图输入音频场景分类模型，得到所述多个目标频谱图的音频场景分类结果；

根据所述多个目标频谱图的场景分类结果，确定所述目标音频所属的音频场景；

其中，所述音频场景分类模型为权利要求1-7中任一项所述的音频场景分类模型生成方法生成的音频场景分类模型。

9.根据权利要求8所述的方法，其中，

所述多个目标频谱图的场景分类结果包括各帧目标频谱图分别对应的音频场景的多个概率值；

所述根据所述多个目标频谱图的场景分类结果，确定所述目标音频所属的音频场景，包括：

根据所述多个目标频谱图中各帧目标频谱图分别对应的多个音频场景的概率值，确定所述目标音频对应于所述多个音频场景的多个概率值；

将所述目标音频对应于所述多个音频场景的多个概率值中最大的概率值所对应的音频场景，确定为所述目标音频所属的音频场景。

10.一种音频场景分类模型生成装置，包括：

第二生成模块，用于基于所述多个频谱图集合，生成多个样本数据集；

训练模块，用于基于所述多个样本数据集，对待训练的音频场景分类模型进行训练，得到训练后的音频场景分类模型；

其中，所述第一生成模块包括：

频谱图拼接子模块，用于对所述多个频谱图集合中第一频谱图集合中的每两个相邻的频谱图进行拼接处理，得到多个新的频谱图，其中所述拼接处理包括将第一频谱图中的第一区域和第二频谱图的第二区域拼接为一个新的频谱图；

样本数据集处理子模块，用于将得到的多个新的频谱图加入所述第一频谱图集合中，并将所述第一频谱图集合和第一音频场景标签作为第一样本数据集，所述第一音频场景标签为生成所述第一频谱图集合的音频样本对应的音频场景标签。

11.根据权利要求10所述的装置，还包括：

增强模块，用于根据第一增强概率，对所述第一频谱图集合中的频谱图进行随机增强；

12.根据权利要求10所述的装置，还包括：

随机排序模块，用于以帧为单位对所述第一频谱图集合中的频谱图进行随机排序。

13.根据权利要求10所述的装置，其中，

14.根据权利要求10所述的装置，其中，

所述待训练的音频场景分类模型包括特征提取器；

15.根据权利要求14所述的装置，其中，所述待训练的音频场景分类模型还包括分类器，所述分类器连接所述全局平均池化层，所述分类器包括两层全连接层，每层所述全连接层包括1024个神经元。

16.根据权利要求15所述的装置，其中，

所述四组结构包括的卷积层为卷积层C₁、卷积层C₂和卷积层C₃和卷积层C₄第一训练子模块，用于在所述多个样本数据中各类音频场景标签对应的音频样本的数量的平均值小于或等于预设阈值的情况下，冻结卷积层C₁、卷积层C₂和卷积层C₃的参数，更新卷积层C₄和分类器的参数；

和/或，

第二训练子模块，用于在所述多个样本数据中各类音频场景标签对应的音频样本的数量的平均值大于预设阈值的情况下，对所述特征提取器和所述分类器的所有参数进行更新。

17.一种音频场景分类装置，包括：

音频场景分类模型，用于对输入的多个目标频谱图进行处理，得到所述多个目标频谱图的音频场景分类结果；其中，所述音频场景分类模型为权利要求1-7中任一项所述的音频场景分类模型生成方法生成的音频场景分类模型；

18.根据权利要求17所述的装置，其中，所述多个目标频谱图的场景分类结果包括各帧目标频谱图分别对应的音频场景的多个概率值；

所述场景确定模块，包括：

概率值子模块，用于根据所述多个目标频谱图中各帧目标频谱图分别对应的多个音频场景的概率值，确定所述目标音频对应于所述多个音频场景的多个概率值；

场景子模块，用于将所述目标音频对应于所述多个音频场景的多个概率值中最大的概率值所对应的音频场景，确定为所述目标音频所属的音频场景。

19.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。