CN110569870A

CN110569870A - 基于多粒度标签融合的深度声学场景分类方法及***

Info

Publication number: CN110569870A
Application number: CN201910675609.1A
Authority: CN
Inventors: 杨吉斌; 姚琨; 张雄伟; 郑昌艳; 曹铁勇; 孙蒙; 李莉; 赵斐
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2019-12-13

Abstract

本发明公开一种基于多粒度标签融合的深度声学场景分类方法及***，其中方法包括如下步骤：利用典型声学场景知识，构建基于知识的多层次粒度标签模块，为声音场景数据生成不同粒度的标签；采用隐层参数共享机制，实现基于深度多任务学习网络的分类模型，优化分类性能；针对不同粒度的分类判决模块，利用高可信度的细粒度标签和粗粒度子类标签进行融合判决，得到最终判决结果。采用本发明，通过利用多层次标签融合技术，采用多任务学习方法，可以提高样本本身细粒度分类任务的分类精度，进而可以提升声学场景分类***的性能。

Description

基于多粒度标签融合的深度声学场景分类方法及***

技术领域

本发明涉及声学场景分类技术领域，尤其涉及一种基于多粒度标签融合的深度声学场景分类方法及***。

背景技术

声学场景中包含了丰富的声学信息，可以为事件判别、场景分析、目标定位提供信息支撑。声学场景分类，简单地说就是通过选择一个语意标签来描述音频流的声学环境。通过对声学环境的判断，声学场景分类技术可以实现场景建模，在机器人、语音通信、人机交互等领域中发挥重要作用。

目前有基于深度神经网络分类模型进行声学场景分类的方法。这类方法可以充分学习声场谱图中的信息，识别率较高，但由于不同声学场景中存在相同声学事件的概率较高，依赖单一分类标签难以达到实际应用所需要的准确度。

深度神经网络中的分类模型就是样本到样本标签的一个映射关系，通常只有一个细粒度类别标签信息，比如“广场”、“人行道”等等。然而声学场景本身具有多重类别属性，广场和人行道又可以统一到“室外”这个标签上，因此声学场景存在不同粒度的类别标签。声学场景分类需要同时考虑不同粒度的分类标签。

为了区分不同粒度的分类标签，可以采用多任务学习的方法来实现。多任务学习简单地说就是模型同时学习多个任务。其目标是利用多个学习任务中所包含的有用信息来帮助为每个任务学习得到更为准确的学习器，通过共享相关任务之间的表征，使得模型更好地概括原始任务。根据任务的性质，多任务学习又被划分为多任务监督学习、多任务无监督学习、多任务半监督学习、多任务主动学习、多任务强化学习、多任务在线学习和多任务多视角学习。而本发明是基于多任务监督学习的。

发明内容

本发明实施例提供一种基于多粒度标签融合的深度声学场景分类方法及***，通过粗细两种粒度的分类学习与训练，可以提高样本本身细粒度分类任务的分类精度，进而可以提升声学场景分类***的性能。

本发明实施例第一方面提供了一种基于多粒度标签融合的深度声学场景分类方法，可包括：

将声音场景数据的频谱图样本对应的原单标签划分为多种粒度类别标签，多粒度类别标签至少包括细粒度类别标签和粗粒度类别标签；

基于多任务卷积神经网络分别对第一训练数据和第二训练数据进行主任务部分训练和次任务部分训练，得到第一训练数据对应的第一分类结果和第二训练数据对应的第二分类结果，第一训练数据为训练频谱图样本及其对应的细粒度类别标签，第二训练数据为训练频谱图样本及其对应的粗粒度类别标签；

基于第一分类结果、预设粒度阈值和第二分类结果，确定样本的当前判别类别；

对当前判别类别进行二次判别，选取最大概率的类作为最终的样本判别输出类别。

进一步的，上述方法还包括：

对声音场景数据进行处理，得到对应的频谱图样本；

按照预设划分比例，将频谱图样本划分为训练样本、验证样本和测试样本。

进一步的，上述方法第一分类结果包括细粒度标识特征和细粒度输出概率向量，第二分类结果包括粗粒度标识特征和粗粒度输出概率向量。

进一步的，上述基于第一分类结果、预设粒度阈值和第二分类结果，确定样本的当前判别类别，包括：

当细粒度输出概率向量中最大概率值大于或等于预设粒度阈值时，确定样本的当前判别类别为细粒度单标签指示的样本类别；

当最大概率值小于预设粒度阈值时，接受当前判别类别为粗粒度类别标签对应的样本类别。

进一步的，每个粗类别的粒度标签包含的细类别粒度标签种类相同，且粗类别数少于细类别数据。

进一步的，上述多任务卷积神经网络，包括任务共享网络参数的数层卷积层、池化层、批标准化层和一层全连接层，还有代表粗细粒度两个子任务独享参数的两个分类输出层，分别都采用了Softmax激活函数和交叉熵损失函数。

进一步的，模型整体的损失函数由两个子任务的损失函数按比例叠加构成。

进一步的，上述预设粒度阈值为根据任务的置信度要求设定的固定阈值，或者在任务执行过程中根据阈值计算方法计算的阈值。

本发明实施例第二方面提供了一种基于多粒度标签融合的深度声学场景分类***，可包括：

多粒度标签划分模块，用于将声音场景数据的频谱图样本对应的原单标签划分为多种粒度类别标签，多粒度类别标签至少包括细粒度类别标签和粗粒度类别标签；

多任务训练模块，用于基于多任务卷积神经网络分别对第一训练数据和第二训练数据进行主任务部分训练和次任务部分训练，得到第一训练数据对应的第一分类结果和第二训练数据对应的第二分类结果，第一训练数据为训练频谱图样本及其对应的细粒度类别标签，第二训练数据为训练频谱图样本及其对应的粗粒度类别标签；

粗细粒度类别判决模块，用于基于第一分类结果、预设粒度阈值和第二分类结果，确定样本的当前判别类别；

多粒度融合判决模块，用于对当前判别类别进行二次判别，选取最大概率的类作为最终的样本判别输出类别。

进一步的，上述***还包括：

场景数据处理模块，用于对声音场景数据进行处理，得到对应的频谱图样本；

频谱样本划分模块，用于按照预设划分比例，将频谱图样本划分为训练样本、验证样本和测试样本。

进一步的，上述第一分类结果包括细粒度标识特征和细粒度输出概率向量，第二分类结果包括粗粒度标识特征和粗粒度输出概率向量。

进一步的，上述粗细粒度类别判决模块包括：

第一判决单元，用于当细粒度输出概率向量大于或等于预设粒度阈值时，确定样本的当前判别类别为细粒度单标签指示的样本类别；

第二判决单元，用于当最大概率值小于预设粒度阈值时，接受当前判别类别为粗粒度类别标签对应的样本类别。

本发明的有益效果在于：

通过对声音场景数据对应的频谱图样本的细粒度单标签进行多种粒度划分，再进行多个分类任务的学习，利用参数的硬共享机制实现隐层参数的共享，保留各任务的输出层，从而有效提高了本身细粒度分类任务的分类精度，并且结合多任务的分类结果，构造一种粗细粒度分类融合的处理算法，进一步提升了声学场景分类***的性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于多粒度标签融合的深度声学场景分类方法的流程示意图；

图2是本发明实施例提供的另一种基于多粒度标签融合的深度声学场景分类方法的流程示意图；

图3是本发明实施例提供一种基于多粒度标签融合的深度声学场景分类***的结构示意图；

图4是本发明实施例提供的粗细粒度类别判决模块的结构示意图；

图5是本发明实施例提供的一种基于多粒度标签融合的深度声学场景分类装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含，术语“第一”和“第二”意图在于区分不同的命名，不代表排序上的先后顺序。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

如图1所示，基于多粒度标签融合的深度声学场景分类方法至少可以包括以下几个步骤：

S101，将声音场景数据的频谱图样本对应的原单标签划分为多种粒度类别标签。

需要说明的是，上述***可以对声音场景数据进行处理，得到对应的频谱图样本，例如，对ESC-50数据集中的5s长的音频文件转化为Fbanks频谱图，作为样本数据。可选的，可以按照预设划分比例，将频谱图样本划分为训练样本、验证样本和测试样本。

进一步的，上述***可以将频谱图样本原来的单标签划分为多粒度类别标签，其中该多粒度类别标签至少可以包括细粒度类别标签和粗粒度类别标签，其中，细粒度类别标签为样本数据原本提供的细粒度类别标签，用于多任务卷积神经网络的主任务部分的训练，粗粒度类别标签为利用人的先验知识划分的粗粒度类别标签，用于多任务卷积神经网络的次任务部分的训练。

需要说明的是，在本申请中每个粗类别的粒度标签包含的细类别粒度标签种类相同，且粗类别数少于细类别数据。

S102，基于多任务卷积神经网络分别对第一训练数据和第二训练数据进行主任务部分训练和次任务部分训练。

需要说明的是，上述第一训练数据可以包括训练频谱图样本及其对应的细粒度类别标签，第二训练数据可以包括训练频谱图样本及其对应的粗粒度类别标签，在进行多任务训练后，可以得到第一训练数据对应的第一分类结果和第二训练数据对应的第二分类结果，第一分类结果包括细粒度标识特征和细粒度输出概率向量，第二分类结果包括粗粒度标识特征和粗粒度输出概率向量。

具体实现中，上述***可以将Fbanks频谱图和多粒度标签输入到多任务学习深度网络进行训练，具体可以采用隐层参数硬共享的结构。网络结构采用类似VGGNet的卷积神经网络，粗粒度和细粒度的输出层节点数量分别为Q1和Q2，分别对应粗粒度类别标签和细粒度类别标签个数。两个任务网络的输出层分别都采用了Softmax激活函数和交叉熵损失函数。使用Adam优化方法。经过多任务学习，得到粗粒度输出概率向量Vc和细粒度输出概率向量Vf。

需要说明的是，本实施例中采用的多任务卷积神经网络可以包括任务共享网络参数的数层卷积层、池化层、批标准化层和一层全连接层，还有代表粗细粒度两个子任务独享参数的两个分类输出层，分别都采用了Softmax激活函数和交叉熵损失函数。两个子任务对模型参数修正的贡献，即模型的整体的损失函数可以由两个子任务的损失函数按比例叠加构成。优选的，两个任务所选择的损失函数比例为1:1。

S103，基于第一分类结果、预设粒度阈值和第二分类结果，确定样本的当前判别类别。

需要说明的是，预设粒度阈值Threshold可以是根据任务的置信度要求设定的固定阈值，也可以是***在任务执行过程中根据阈值计算方法计算的阈值，优选的，该阈值可以是0.5。

具体实现中，当细粒度输出概率向量中最大概率值大于或等于预设粒度阈值时，则类别判决直接结束，***可以确定样本的当前判别类别为细粒度单标签指示的样本类别。例如，若max(Vf)>Threshold，则判决输入样本细粒度类别为argmax(Vf)的对应类别。可以理解的是，若上述最大概率值小于预设粒度阈值，则跳转到粗粒度类别的判别过程，接受当前判别类别，即判决输入样本粗粒度类别为argmax(Vc)的对应类别。例如，若max(Vf)<Threshold，则不进行判决，确定样本粗粒度类别为argmax(Vc)的对应类别。

S104，对当前判别类别进行二次判别，选取最大概率的类作为最终的样本判别输出类别。

需要说明的是，在进行粗细类别判别后，***可以对当前判别类别进行二次判别，选取最大概率的类作为最终的样本判别输出类别，即根据细粒度类别、粗粒度类别的判决结果和Vf，Vc进行多粒度融合判决，输出最终类别。

在本发明实施例的一种具体实现方式中，关于粗细粒度融合算法的可行性分析如下：

假设需要对同一个数据集X＝{s_n|n＝1,2,...N}进行分类。对于这些数据，粗粒度分类中存在M₁个类别，即对于任意一个存在一个唯一的y_1,n∈I₁,I₁＝{i|i＝1,2,...,M₁}，其中属于标签i的数据子集记为C_1,i＝{s_n|y_1,n＝i}。细粒度分类中存在M₂个类别，对于任意一个存在一个唯一的y_2,n∈I₂,I₂＝{i|i＝1,2,...,M₂}。其中标签i对应的子集对应为C_2,i＝{s_n|y_2,n＝i}。

多粒度分类任务中，若M₁<M₂，则可以认为I₁是一种粗粒度的分类，I₂是一种细粒度的分类。若进一步有任意i，存在j,k使得C_1,i＝C_2,j∪C_2,j+1∪...∪C_2,k，即I₁的第i类别是I₂中的第j,j+1,...,k等类别的并，所有细粒度类别都被包含在粗粒度的类别当中，粗粒度类别由多个不同的细粒度类组成。此时可记I₂中对应于I₁的第i个类别标签集合为J_i，包含标签个数为N_i，有I₂＝∪_iJ_i,M₂＝∑_iN_i,i＝1,2,...,M₁。

设深度神经网络实现的粗、细粒度分类器分别为G1和G2，其中目标任务是实现细粒度G₂的分类。不失一般性，假设G₁和G₂实现的映射分别为G₁：X→I₁,G₂：X→I₂。记分类器由softmax层输出的类别分布概率向量为则输出分布概率向量分别为和使用两个分类器利用I₁和I₂的信息，分别实现两种分类粒度上的分类判别，并进行融合处理

假设数据集X是均衡的，即每类别数据个数都是相同的。设G₂中每个类别的分类误差均为P_2,e，分类正确概率为P_2,r＝1-P_2,e。假设分类错误均匀分布，则第i类数据被错误分类为第j(j≠i)类数据的概率为根据组合概率公式，若直接由细类别结果推导出粗类别分类结果，则粗类别的分类错误概率为：

其中求和号中的第一项为各小类标签j属于第i大类的先验概率，第二项为大类标签为i，小类标签为j的分类结果不属于J_i的概率，即分类结果不属于第i大类的情况。计算中均假设这些概率服从均匀分布。直接根据G₂的细粒度分类结果，可以推断出粗粒度的分类错误概率小于细粒度的分类错误概率。

在多任务学习机制中，利用参数共享机制对相关的任务进行共同学习，可以促进不同分类器的性能提升。因此通常可以合理假设基于多任务学习方案实现的粗粒度分类器，其分类错误概率P'_1,e＜P_1,e＜P_2,e，即P'_1,r＞P_1,r＞P_2,r。

在单一识别器的作用下，若仅根据G₂的输出进行判决，则第i类的正确判决概率为：

softmax层的概率输出满足∑_io_i＝1,所以若对应其他类别的概率输出就小于0.5，该判决的置信度要高于的情况。所以，若T＝0.5，则

采用融合规则，尝试增大低置信度下的识别准确率。在本发明融合规则下，同时根据G₁和G₂的输出进行判决，则第i类的正确判决概率为：

其中等号右侧的第一项和式(5)的第一项相同，第二项修改为根据G₁的结果来判断。是向量中由属于第j类粗标签的元素构成的子向量。因为

由于G₁和G₂采用了参数共享的多任务训练机制，在充分训练后，G₁、G₂的输出结果同时为j和i的概率近似等于G₂结果为i的概率，即依较大的概率，有

因此，在多任务机制下，采用本发明融合方案，依较大的概率有P'_2,r(i)＞P_2,r(i)。

具体实现中，因为P'_1,r＞P_1,r＞P_2,r，所以当时，选择G₁证分类器的结果，保证了在低置信度条件下对高概率分类器的偏好，从而可以提升整个分类过程的准确率。

下面将结合本发明实施例的一种具体实现方式，介绍基于多粒度标签融合的深度声学场景分类方法的流程，如图2所示，可以包括以下步骤：

S201，对声音场景数据进行处理。

S202，粗细粒度类别标签分类。

S203，细粒度类别判决。

S204，粗粒度类别判决。

S205，类别判决直接结束，接受样本细粒度类别为argmax(Vf)的对应类别。

S206，确定样本粗粒度类别为argmax(Vc)的对应类别。

S207，多粒度融合判决。

需要说明的是，本实施例中的详细执行过程可以参见上述方法实施例中的具体描述，此处不再赘述。

在本发明实施例中，通过对声音场景数据的频谱图样本对应的原单标签进行多粒度划分，再进行粗细粒度两个分类任务的学习，利用参数的硬共享机制实现隐层参数的共享，保留各任务的输出层，从而有效提高了本身细粒度分类任务的分类精度，并且结合多任务的分类结果，构造一种粗细粒度分类融合的处理算法，进一步提升了声学场景分类***的性能。

下面将结合附图3和附图4，对本发明实施例提供的基于多粒度标签融合的深度声学场景分类***进行详细介绍。需要说明的是，附图3所示的基于多粒度标签融合的深度声学场景分类***，用于执行本发明图1和图2所示实施例的方法，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明图1和图2所示的实施例。

请参见图3，为本发明实施例提供了一种基于多粒度标签融合的深度声学场景分类***的结构示意图。如图3所示，本发明实施例的声学场景分类***10可以包括：多粒度标签划分模块101、多任务训练模块102、粗细粒度类别判决模块103、多粒度融合判决模块104、场景数据处理模块105和频谱样本划分模块106。其中，粗细粒度类别判决模块103如图4所示，包括第一判决单元1031和第二判决单元1032。

多粒度标签划分模块101，用于将声音场景数据的频谱图样本对应的原单标签划分为多种粒度类别标签，其中多粒度类别标签至少包括细粒度类别标签和粗粒度类别标签。

多任务训练模块102，用于基于多任务卷积神经网络分别对第一训练数据和第二训练数据进行主任务部分训练和次任务部分训练，得到第一训练数据对应的第一分类结果和第二训练数据对应的第二分类结果，其中，第一训练数据为训练频谱图样本及其对应的细粒度类别标签，第二训练数据为训练频谱图样本及其对应的粗粒度类别标签。

粗细粒度类别判决模块103，用于基于第一分类结果、预设粒度阈值和第二分类结果，确定样本的当前判别类别。

多粒度融合判决模块104，用于对当前判别类别进行二次判别，选取最大概率的类作为最终的样本判别输出类别。

在一些实施例中，上述***还包括：

场景数据处理模块105，用于对声音场景数据进行处理，得到对应的频谱图样本。

频谱样本划分模块106，用于按照预设划分比例，将频谱图样本划分为训练样本、验证样本和测试样本。

在一些实施例中，第一分类结果包括细粒度标识特征和细粒度输出概率向量，第二分类结果包括粗粒度标识特征和粗粒度输出概率向量。

在一些实施例中，粗细粒度类别判决模块103具体可以执行以下操作：

第一判决单元1031，用于当细粒度输出概率向量大于或等于预设粒度阈值时，确定样本的当前判别类别为细粒度单标签指示的样本类别。

第二判决单元1032，用于当最大概率值小于预设粒度阈值时，接受当前判别类别为粗粒度类别标签对应的样本类别。

在一些实施例中，每个粗类别的粒度标签包含的细类别粒度标签种类相同，且粗类别数少于细类别数据。

在一些实施例中，多任务卷积神经网络，包括任务共享网络参数的数层卷积层、池化层、批标准化层和一层全连接层，还有代表粗细粒度两个子任务独享参数的两个分类输出层，分别都采用了Softmax激活函数和交叉熵损失函数。

在一些实施例中，模型整体的损失函数由两个子任务的损失函数按比例叠加构成。

在一些实施例中，预设粒度阈值为根据任务的置信度要求设定的固定阈值，或者在任务执行过程中根据阈值计算方法计算的阈值。

本发明实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图1和图2所示实施例的方法步骤，具体执行过程可以参见图1和图2所示实施例的具体说明，在此不进行赘述。

另外，本申请实施例还提供了一种基于多粒度标签融合的深度声学场景分类装置，该装置可以是具备数据分析处理能力的计算机，如图5所示，声学场景分类装置20可以包括：至少一个处理器201，例如CPU，至少一个网络接口204，用户接口203，存储器205，至少一个通信总线202，可选地，还可以包括显示屏206。其中，通信总线202用于实现这些组件之间的连接通信。其中，用户接口203可以包括触摸屏、键盘或鼠标等等。网络接口204可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通过网络接口204可以与服务器建立通信连接。存储器205可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器，存储器205包括本发明实施例中的flash。存储器205可选的还可以是至少一个位于远离前述处理器201的存储***。如图5所示，作为一种计算机存储介质的存储器205中可以包括操作***、网络通信模块、用户接口模块以及程序指令。

需要说明的是，网络接口204可以连接接收器、发射器或其他通信模块，其他通信模块可以包括但不限于WiFi模块、蓝牙模块等，可以理解，本发明实施例中基于多粒度标签融合的深度声学场景分类装置也可以包括接收器、发射器和其他通信模块等。

处理器201可以用于调用存储器205中存储的程序指令，并使基于多粒度标签融合的深度声学场景分类装置20执行以下操作：

将声音场景数据的频谱图样本对应的原单标签划分多种粒度类别标签，其中多粒度类别标签至少包括细粒度类别标签和粗粒度列表标签；

在可选实施例中，装置20还用于执行以下操作：

对声音场景数据进行处理，得到对应的频谱图样本；

在可选实施例中，第一分类结果包括细粒度标识特征和细粒度输出概率向量，第二分类结果包括粗粒度标识特征和粗粒度输出概率向量。

在可选实施例中，装置20基于第一分类结果、预设粒度阈值和第二分类结果，确定样本的当前判别类别时，具体执行以下操作：

在可选实施例中，每个粗类别的粒度标签包含的细类别粒度标签种类相同，且粗类别数少于细类别数据。

在可选实施例中，多任务卷积神经网络，包括任务共享网络参数的数层卷积层、池化层、批标准化层和一层全连接层，还有代表粗细粒度两个子任务独享参数的两个分类输出层，分别都采用了Softmax激活函数和交叉熵损失函数。

在可选实施例中，模型整体的损失函数由两个子任务的损失函数按比例叠加构成。

在可选实施例中，预设粒度阈值为根据任务的置信度要求设定的固定阈值，或者在任务执行过程中根据阈值计算方法计算的阈值。

在本发明实施例中，通过对声音场景数据对应的频谱图样本的细粒度单标签进行多种粒度划分，再进行多个分类任务的学习，利用参数的硬共享机制实现隐层参数的共享，保留各任务的输出层，从而有效提高了本身细粒度分类任务的分类精度，并且结合多任务的分类结果，构造一种粗细粒度分类融合的处理算法，进一步提升了声学场景分类***的性能。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于多粒度标签融合的深度声学场景分类方法，其特征在于，包括：

将声音场景数据的频谱图样本对应的原单标签划分为多种粒度类别标签，所述多粒度类别标签至少包括细粒度类别标签和粗粒度类别标签；

基于多任务卷积神经网络分别对第一训练数据和第二训练数据进行主任务部分训练和次任务部分训练，得到所述第一训练数据对应的第一分类结果和所述第二训练数据对应的第二分类结果，所述第一训练数据为训练频谱图样本及其对应的细粒度类别标签，所述第二训练数据为所述训练频谱图样本及其对应的粗粒度类别标签；

基于所述第一分类结果、预设粒度阈值和所述第二分类结果，确定样本的当前判别类别；

对所述当前判别类别进行二次判别，选取最大概率的类作为最终的样本判别输出类别。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对声音场景数据进行处理，得到对应的频谱图样本；

按照预设划分比例，将所述频谱图样本划分为训练样本、验证样本和测试样本。

3.根据权利要求1所述的方法，其特征在于：

所述第一分类结果包括细粒度标识特征和细粒度输出概率向量，所述第二分类结果包括粗粒度标识特征和粗粒度输出概率向量。

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一分类结果、预设粒度阈值和所述第二分类结果，确定样本的当前判别类别，包括：

当所述细粒度输出概率向量中最大概率值大于或等于预设粒度阈值时，确定样本的当前判别类别为所述细粒度单标签指示的样本类别；

当所述最大概率值小于所述预设粒度阈值时，接受当前判别类别为粗粒度类别标签对应的样本类别。

5.根据权利要求1所述的方法，其特征在于：

每个粗类别的粒度标签包含的细类别粒度标签种类相同，且粗类别数少于细类别数据。

6.根据权利要求1所述的方法，其特征在于：

所述多任务卷积神经网络，包括任务共享网络参数的数层卷积层、池化层、批标准化层和一层全连接层，还有代表粗细粒度两个子任务独享参数的两个分类输出层，分别都采用了Softmax激活函数和交叉熵损失函数。

7.根据权利要求6所述的方法，其特征在于：

模型整体的损失函数由所述两个子任务的损失函数按比例叠加构成。

8.根据权利要求1所述的方法，其特征在于：

所述预设粒度阈值为根据任务的置信度要求设定的固定阈值，或者在任务执行过程中根据阈值计算方法计算的阈值。

9.一种基于多粒度标签融合的深度声学场景分类***，其特征在于，包括：

多粒度标签划分模块，用于将声音场景数据的频谱图样本对应的原单标签划分为多种粒度类别标签，所述多粒度类别标签至少包括细粒度类别标签和粗粒度类别标签；

多任务训练模块，用于基于多任务卷积神经网络分别对第一训练数据和第二训练数据进行主任务部分训练和次任务部分训练，得到所述第一训练数据对应的第一分类结果和所述第二训练数据对应的第二分类结果，所述第一训练数据为训练频谱图样本及其对应的细粒度类别标签，所述第二训练数据为所述训练频谱图样本及其对应的粗粒度类别标签；

粗细粒度类别判决模块，用于基于所述第一分类结果、预设粒度阈值和所述第二分类结果，确定样本的当前判别类别；

多粒度融合判决模块，用于对所述当前判别类别进行二次判别，选取最大概率的类作为最终的样本判别输出类别。

10.根据权利要求9所述的***，其特征在于，所述***还包括：

频谱样本划分模块，用于按照预设划分比例，将所述频谱图样本划分为训练样本、验证样本和测试样本。