CN116741159A

CN116741159A - 音频分类及模型的训练方法、装置、电子设备和存储介质

Info

Publication number: CN116741159A
Application number: CN202310707210.3A
Authority: CN
Inventors: 秦成帅
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-09-12

Abstract

本发明实施例公开一种音频分类及模型的训练方法、装置、电子设备和存储介质，音频分类方法包括：获取待检测音频的梅尔频率倒谱图，将梅尔频率倒谱图输入训练好的音频分类模型，音频分类模型包括卷积网络、时序网络和分类网络；利用卷积网络对梅尔频率倒谱图进行卷积运算，得到特征图；利用时序网络对特征图进行时序学习，得到时序特征图；利用分类网络对时序特征图进行分类识别，得到待检测音频的类别识别信息。本发明利用模型对音频分类，分类标准统一，成本低，分类效率和准确率高；将音频转换成图像处理，利用模型学习图像的基础特征和时序特征以进行分类，能够保证分类结果的准确性，模型量级轻，网络参数少，训练调试速度快，易于部署。

Description

音频分类及模型的训练方法、装置、电子设备和存储介质

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种音频分类及模型的训练方法、装置、电子设备和存储介质。

背景技术

在实际应用中，通常需要进行口音识别，比如区分口音是方言还是普通话，以便于开展相关工作。例如直播平台会对主播的口音进行识别分类，以根据用户偏好进行直播间推送等工作。目前，直播平台对主播口音进行识别分类，主要依赖审核人员标记或主播自行登记，即依赖人工识别分类。

在实现本发明的过程中，发明人发现，人工对口音识别分类，标准不一，存在效率低、成本高、准确率低等问题。

发明内容

本发明实施例提供一种音频分类及模型的训练方法、装置、电子设备和存储介质，能够统一分类标准，降低分类成本，提高分类效率和准确率。

第一方面，本发明实施例提供的音频分类方法，包括：

获取待检测音频的梅尔频率倒谱图；

将所述梅尔频率倒谱图输入训练好的音频分类模型，所述音频分类模型包括卷积网络、时序网络和分类网络；

利用所述卷积网络对所述梅尔频率倒谱图进行卷积运算，得到特征图；

利用所述时序网络对所述特征图进行时序学习，得到时序特征图；

利用所述分类网络对所述时序特征图进行分类识别，得到所述待检测音频的类别识别信息。

可选地，所述获取待检测音频的梅尔频率倒谱图，包括：

对所述待检测音频分帧得到多个音频帧；

提取所述多个音频帧中每个音频帧的梅尔频率倒谱特征；

根据所述每个音频帧的梅尔频率倒谱特征构建所述梅尔频率倒谱图。

可选地，所述根据所述每个音频帧的梅尔频率倒谱特征构建所述梅尔频率倒谱图，包括：

将所述待检测音频包括的音频帧的帧数作为长度维度数据、将所述待检测音频中每个音频帧的梅尔频率倒谱特征作为宽度维度数据，并添加通道维度数据；

根据所述长度维度数据、所述宽度维度数据和所述通道维度数据构建所述梅尔频率倒谱图。

将音频转换成图像，基于对图像的处理实现对音频的分类，提供了一种音频分类新思路，提高了分类效率和准确率。

可选地，所述利用所述卷积网络对所述梅尔频率倒谱图进行卷积运算，得到特征图，包括：

利用所述卷积网络，按照保持所述长度维度数据的维度不变、降低所述宽度维度数据的维度并升高所述通道维度数据的维度的规则，对所述梅尔频率倒谱图进行卷积运算，得到所述特征图。

可选地，所述卷积网络包括多个卷积层，所述利用所述卷积网络，按照保持所述长度维度数据的维度不变、降低所述宽度维度数据的维度并升高所述通道维度数据的维度的规则，对所述梅尔频率倒谱图进行卷积运算，得到所述特征图，包括：

将所述长度维度数据的卷积步长设置为1、将所述宽度维度数据的卷积步长设置的大于1，并依次增加所述多个卷积层中每个卷积层的卷积核的数量，以实现利用所述卷积网络，按照保持所述长度维度数据的维度不变、降低所述宽度维度数据的维度并升高所述通道维度数据的维度的规则，对所述梅尔频率倒谱图进行卷积运算，得到所述特征图。

批次维度数据的维度保持不变，可以便于后续对每个待检测音频做音频分类。长度维度数据的维度保持不变，即经过卷积之后，时间步信息没有丢失，保留了每一帧的数据，可以便于后续对每个音频帧做帧分类。将每个音频帧的梅尔频率倒谱特征的维数降低，可以获得数据尺度的变化，减少冗余信息，扩大感受野。另外，随着卷积层数的增加，提取的特征越来越多，表示越来越复杂，需要更多维度的数据进行表示，因而将通道维度数据的维度升高。采用多个卷积层对特征进行非线性映射，可以提取更有效的特征，提高特征的表达能力。

可选地，所述特征图包括所述长度维度数据、所述宽度维度数据和所述通道维度数据，所述利用所述时序网络对所述特征图进行时序学习，得到时序特征图，包括：

将所述特征图的所述宽度维度数据和所述通道维度数据进行合并，得到合并特征图；

利用所述时序网络对所述合并特征图进行时序学习，得到所述时序特征图。

通过合并，可以减少数据维度，减少数据处理量，提高处理效率。

可选地，所述分类网络包括帧分类网络、池化网络和音频分类网络，所述利用所述分类网络对所述时序特征图进行分类识别，得到所述待检测音频的类别识别信息，包括：

利用所述帧分类网络对所述时序特征图做帧分类，得到所述待检测音频中每个音频帧的类别识别信息；

利用所述池化网络对所述每个音频帧的类别识别信息进行池化操作，得到池化特征图；

利用所述音频分类网络对所述池化特征图做音频分类，得到所述待检测音频的类别识别信息。

可选地，在获取所述待检测音频的梅尔频率倒谱图之前，还包括：

对所述待检测音频进行预处理，所述预处理包括音频重采样、声道转换和静音片段剔除中的至少一者；

所述获取所述待检测音频的梅尔频率倒谱图包括，获取预处理之后的待检测音频的梅尔频率倒谱图。

上述预处理，可以有效减少音频的数据量，从而减少音频分类模型的计算量。

第二方面，本发明实施例提供的音频分类模型的训练方法，包括：

获取样本音频的梅尔频率倒谱图；

将所述梅尔频率倒谱图输入待训练的音频分类模型，所述音频分类模型包括卷积网络、时序网络和分类网络；

利用所述分类网络对所述时序特征图进行分类识别，得到所述样本音频的类别识别信息；

根据所述样本音频的类别识别信息确定训练损失，并根据所述训练损失对所述音频分类模型中的网络参数进行调整。

可选地，所述分类网络包括帧分类网络、池化网络和音频分类网络，所述利用所述分类网络对所述时序特征图进行分类识别，得到所述样本音频的类别识别信息，包括：

利用所述帧分类网络对所述时序特征图做帧分类，得到所述样本音频中每个音频帧的类别识别信息；

利用所述音频分类网络对所述池化特征图做音频分类，得到所述样本音频的类别识别信息。

可选地，所述根据所述样本音频的类别识别信息确定训练损失，并根据所述训练损失对所述音频分类模型中的网络参数进行调整，包括：

获取所述样本音频中每个音频帧的类别标签信息，并获取所述样本音频的类别标签信息；

根据所述样本音频中每个音频帧的类别标签信息和类别识别信息确定第一训练损失，并根据所述样本音频的类别标签信息和类别识别信息确定第二训练损失；

根据所述第一训练损失和所述第二训练损失对所述音频分类模型中的网络参数进行调整。

结合样本音频的类别识别信息和样本音频中每个音频帧的类别识别信息对模型进行优化，这样可以加快模型收敛，提高训练速度。

第三方面，本发明实施例提供的音频分类装置，包括：

第一获取模块，用于获取待检测音频的梅尔频率倒谱图；

第一输入模块，用于将所述梅尔频率倒谱图输入训练好的音频分类模型，所述音频分类模型包括卷积网络、时序网络和分类网络；

第一卷积模块，用于利用所述卷积网络对所述梅尔频率倒谱图进行卷积运算，得到特征图；

第一时序学习模块，用于利用所述时序网络对所述特征图进行时序学习，得到时序特征图；

第一分类模块，用于利用所述分类网络对所述时序特征图进行分类识别，得到所述待检测音频的类别识别信息。

第四方面，本发明实施例提供的音频分类模型的训练装置，包括：

第二获取模块，用于获取样本音频的梅尔频率倒谱图；

第二输入模块，用于将所述梅尔频率倒谱图输入待训练的音频分类模型，所述音频分类模型包括卷积网络、时序网络和分类网络；

第二卷积模块，用于利用所述卷积网络对所述梅尔频率倒谱图进行卷积运算，得到特征图；

第二时序学习模块，用于利用所述时序网络对所述特征图进行时序学习，得到时序特征图；

第二分类模块，用于利用所述分类网络对所述时序特征图进行分类识别，得到所述样本音频的类别识别信息；

参数调整模块，用于根据所述样本音频的类别识别信息确定训练损失，并根据所述训练损失对所述音频分类模型中的网络参数进行调整。

第五方面，本发明实施例提供的电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明任一实施例所述的音频分类方法，或者实现如本发明任一实施例所述的音频分类模型的训练方法。

第六方面，本发明实施例提供的计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任一实施例所述的音频分类方法，或者实现如本发明任一实施例所述的音频分类模型的训练方法。

本发明实施例的方案，可以获取待检测音频的梅尔频率倒谱图，将梅尔频率倒谱图输入训练好的音频分类模型，音频分类模型包括卷积网络、时序网络和分类网络；利用卷积网络对梅尔频率倒谱图进行卷积运算，得到特征图；利用时序网络对特征图进行时序学习，得到时序特征图；利用分类网络对时序特征图进行分类识别，得到待检测音频的类别识别信息。即本发明可以利用模型对音频进行分类，相较于人工识别分类，分类标准统一，成本低，分类效率和准确率高。

通过获取音频的梅尔频率倒谱图，将音频处理转换成图像处理，利用音频分类模型的卷积网络学习图像的基础特征，利用时序网络学习基础特征之间的时序关系，得到包含基础特征和时序关系的时序特征图，基于基础特征和时序特征对音频分类，采用的特征更丰富、全面，虽然是采用图像处理的思想处理音频，但音频本质上是时序数据，采用时序网络搭配卷积网络学习到时序数据中的长期依赖关系(即时序关系)，能够保证分类结果的准确性。

采用卷积网络能够对输入数据(梅尔频率倒谱图)进行高效的特征提取，涵盖局部信息，这些局部信息对于时序学习起到了重要作用，为时序网络的处理提供了数据基础，搭配时序网络对卷积网络提取的特征进一步学习，捕捉到数据之间的长期依赖关系，考虑了时序数据中的整体信息，即卷积网络+时序网络的组合，提取了所需的特征，兼顾了时序数据中的局部和整体信息，提高了模型的感知能力和表达能力。

由于采用卷积网络和时序网络就能学习到丰富、全面的特征，不需要采用深层网络进行特征学习，减少了特征学习所需网络的层数，搭配分类网络对学习到的特征进行分类，就能完成音频分类任务。即音频分类模型采用卷积网络+时序网络+分类网络的三层网络结构即可，整体网络层数少，音频分类模型量级轻，对应地，网络参数也会相应减少，模型训练调试速度快，易于部署。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例提供的音频分类方法的一个流程示意图；

图2a是本发明实施例提供的音频分类方法的另一个流程示意图；

图2b是本发明实施例提供的音频分类模型的一个结构示意图；

图3是本发明实施例提供的音频分类模型的训练方法的一个流程示意图；

图4是本发明实施例提供的音频分类装置的一个结构示意图；

图5是本发明实施例提供的音频分类模型的训练装置的一个结构示意图；

图6是本发明实施例提供的电子设备的一个结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1是本发明实施例提供的音频分类方法的一个流程示意图，该方法可以由本发明实施例提供的音频分类装置来执行，该装置可采用软件和/或硬件的方式实现。在一个具体的实施例中，该装置可以集成在电子设备中，电子设备比如可以是计算机、服务器等。以下实施例将以该装置集成在电子设备中为例进行说明。参考图1，该方法具体可以包括如下步骤：

步骤101，获取待检测音频的梅尔频率倒谱图。

待检测音频可以是任意的需要进行口音类别识别的音频，口音类别比如可以分为方言或是普通话。示例地，待检测音频可以是来自直播平台的直播视频，即可以从直播视频中提取主播的音频，基于主播的音频识别主播的口音。待检测音频可以有一个或多个，当待检测音频有多个时，可以根据实际情况对多个待检测音频分批，得到多个批次，每次对一个批次的待检测音频进行分类。

具体地，针对一个批次的待检测音频，可以先提取待检测音频的梅尔频率倒谱特征，根据待检测音频的梅尔频率倒谱特征构建梅尔频率倒谱图。梅尔频率倒谱特征可以是梅尔频率倒谱系数，梅尔频率倒谱系数是在梅尔标度频率域提取出来的倒谱参数。示例地，可以采用快速傅立叶变换方式提取每个音频帧的梅尔频率倒谱特征，采用快速傅立叶变换方式提取每个音频帧的梅尔频率倒谱特征的方法具体可以如下：

(1)先对每个待检测音频进行预加重、分帧和加窗；

(2)对每一个短时分析窗，通过快速傅立叶变换得到对应的频谱；

(3)将上面的频谱通过梅尔滤波器组得到梅尔频谱；

(4)在梅尔频谱上面进行倒谱分析(取对数，做逆变换等)，获得梅尔频率倒谱系数。

具体地，为了提高分类准确率，在对每个待检测音频分帧时，可以采用有重叠的分帧，帧间重叠率可根据实际情况设置，比如可以设置为25％、50％等。一个待检测音频可以分成多个音频帧，可以按照上述方法提取每个音频帧的梅尔频率倒谱系数，根据每个音频帧的梅尔频率倒谱系数构建梅尔频率倒谱图。

步骤102，将梅尔频率倒谱图输入训练好的包括卷积网络、时序网络和分类网络的音频分类模型。

音频分类模型可以预先利用训练数据集训练得到，训练数据集中可以包括大量的样本，每个样本可以是一段已做分类的音频，即样本数据是一段音频，样本标签是这段音频的分类信息。样本标签可通过人工标记实现，或者可以通过设备自动标记实现。本实施例要将音频做方言和普通话的分类，样本标签可以是方言或普通话。实际应用中，为了便于处理，可以将样本标签数值化，比如用数字“1”表示方言，用数字“0”表示普通话，当然，反之亦可。本实施例中，音频分类模型利用有标签的样本训练，可以加快训练速度、提升模型训练效果。

具体地，音频分类模型可以有多种网络的组合形式。本实施例中，音频分类模型可以采用卷积网络、时序网络和分类网络组合而成。卷积网络可以通过多个卷积层实现，每个卷积层通过卷积运算进行特征提取，第一层卷积层可能只能提取一些低级的特征，如边缘、线条和角等层级，后面的卷积层能从低级特征中迭代提取更复杂的特征。时序网络可以采用长短期记忆网络(Long Short-Term Memory，LSTM)，LSTM是一种时间递归神经网络，可以学习特征间的时序关系信息；简单来说，LSTM通过一条主线，三个门(遗忘门、输入门和输出门)来处理序列信息，每个时刻主线上都会加入新时刻的数据，然后将主线上的数据输出并传递给下个时刻，主线上的值是历史时刻输出门值的加权和；其中，遗忘门的作用是给出当前主线数据的权重，输入门的作用是对于新时刻，将新时刻的信息按一定权重加到主线上，从而更新主线值，输出门用于输出的当前时刻计算的值。分类网络可以采用池化网络和全连接网络实现，池化网络的主要作用是下采样，把无用的信息丢掉，减少运算；全连接网络的作用主要是进行分类，对卷积和池化得出的特征进行分类。

卷积网络和时序网络的结合，可以更好地捕捉数据的特征和关系，搭配分类网络对捕捉的数据进行分类，模型量级轻，网络参数少。

步骤103，利用卷积网络对梅尔频率倒谱图进行卷积运算，得到特征图。

卷积网络包括一维卷积网络、二维卷积网络等，一维卷积网络一般只是在图像的宽或者高方向上进行窗口滑动操作，一维卷积网络常用于处理序列数据，如自然语言处理；二维卷积网络可以将一个图像在宽、高及通道方向进行窗口滑动操作，二维卷积常用于计算机视觉、图像处理领域。具体在本实施例中，由于将音频转换成了图像，因而可以采用二维卷积网络，即利用二维卷积网络在梅尔频率倒谱图的宽、高及通道方向进行窗口滑动操作，从而得到特征图。

步骤104，利用时序网络对特征图进行时序学习，得到时序特征图。

时序特征图指的是包括时序关系的特征图，步骤104得到的时序特征图，相较于步骤103得到的特征图，多出了时序关系的表达。时间学习，是指利用过去一段时间内某事件时间的特征来预测未来一段时间内该事件的特征，依赖于事件发生的先后顺序，同样大小的值改变顺序后输入网络产生的结果是不同的。通过时序网络对特征图进行时序学习，可以使得图表达的内容更丰富，更有利于后续分类。

步骤105，利用分类网络对时序特征图进行分类识别，得到待检测音频的类别识别信息。

类别识别信息可以是待检测音频属于某一类别的概率；比如，类别识别信息可以是待检测音频为方言的概率，或者类别识别信息可以是待检测音频为普通话的概率。具体地，当类别识别信息是待检测音频属于某一类别的概率时，可以判断该概率值是否超过预设概率值，在该概率值超过预设概率值时，确定待检测音频属于对应类别；比如，类别识别信息是待检测音频属于方言的概率，概率值是90％，预设概率值是70％，则可以判定待检测音频的类型为方言。

本实施例的方案，可以获取待检测音频的梅尔频率倒谱图，将梅尔频率倒谱图输入训练好的音频分类模型，音频分类模型包括卷积网络、时序网络和分类网络；利用卷积网络对梅尔频率倒谱图进行卷积运算，得到特征图；利用时序网络对特征图进行时序学习，得到时序特征图；利用分类网络对时序特征图进行分类识别，得到待检测音频的类别识别信息。即本发明可以利用模型对音频进行分类，相较于人工识别分类，分类标准统一，成本低，分类效率和准确率高；通过获取音频的梅尔频率倒谱图，将音频处理转换成图像处理，利用音频分类模型的卷积网络和时序网络学习到图像的基础特征和时序特征(即时序特征图)，基于基础特征和时序特征对音频分类，能够保证分类结果的准确性，音频分类模型量级轻，网络参数少，训练调试速度快，易于部署。

下面进一步描述本发明实施例提供的音频分类方法，如图2a所示，音频分类方法具体可以包括如下步骤：

步骤201，对待检测音频进行包括音频重采样、声道转换和静音片段剔除中的至少一种预处理。

音频重采样，可以将所有的待检测音频均按照预设采样频率重新采样，即统一采样频率进行采样，预设采样频率可以大于待检测音频的最高频率，以避免采样引起的失真，示例地，预设采样频率可以为16000赫兹。

声道转换，可以将所有的待检测音频转换至统一的声道，比如将双声道音频转换为单声道音频，如果某个待检测音频已是单声道音频，则不需要进行声道转换；双声道音频转换为单声道音频的转换规则，可以是对两个通道相同位置的采样点数据求和后求平均。

静音片段剔除，可以将每个待检测音频按照固定长度分段，计算每个分段音频的音量大小(可以用分贝表示)，根据音量大小进行静音频片段剔除。具体地，可以设定音量阈值，可以认为音量小于音量阈值的分段音频为静音片段，将一个待检测音频中的这些静音频段删除，得到几段不连续的分段音频，将这些不连续的分段音频拼接成一段新的音频。如果整段音频为静音片段，则剔除此整段音频。

对待检测音频进行重采样、声道转换和静音片段剔除等预处理操作，可以有效减少音频的数据量，从而减少音频分类模型的计算量。待检测音频可以包括多个，可以对待检测音频分批，每批音频的数量可视实际情况而定，依次对每个批次的待检测音频进行预处理。

步骤202，对预处理之后的待检测音频进行分帧得到多个音频帧。

即可以对一批待检测音频中的每个待检测音频分帧，为了提高分类准确率，在对每个待检测音频分帧时，可以采用有重叠的分帧，帧间重叠率可根据实际情况设置。示例地，帧间重叠率可以设置为25％。

步骤203，提取多个音频帧中每个音频帧的梅尔频率倒谱特征。

即可以针对每个待检测音频中的每个音频帧提取梅尔频率倒谱特征，梅尔频率倒谱特征可以是梅尔频率倒谱系数，可以采用快速傅立叶变换方式提取每个音频帧的梅尔频率倒谱特征，也可以采用其他方式提取每个音频帧的梅尔频率倒谱特征，具体可视实际需求而定。为了便于后续处理，提高音频分类准确度，可以提取较高维的梅尔频率倒谱系数。示例地，可以采用快速傅立叶变换方式提取每个音频帧的40维梅尔频率倒谱系数。

步骤204，将待检测音频的音频帧的帧数作为长度维度数据、每个音频帧的梅尔频率倒谱特征作为宽度维度数据，并添加通道维度数据。

本实施例的分类思想是：将音频转换成图像，基于对图像的处理实现对音频的分类。图像处理在做特征提取时，通常采用二维卷积网络，二维卷积网络的输入通常包括四个维度的数据，这四个维度一般是[batch,length，width，channel]。其中，batch表示批次维度数据，length表示长度维度数据，width表示宽度维度数据，channel表示通道维度数据。在使用训练好的音频分类模型对待检测音频分类时，第一个维度batch可以是一批待检测音频的数量，即批次大小，第二个维度length可以是这批待检测音频中每个待检测音频包括的音频帧的帧数，第三个维度width可以是这批待检测音频中每个待检测音频包括的每个音频帧的梅尔频率倒谱特征。可以看出，如果想要采用二维卷积网络对音频处理，则缺少一个维度数据，即缺少通道维度数据。实际应用中，可以为一批待检测音频扩充一个维度，将扩充维度数据作为通道维度数据。初始时，通道维度数据可以为1，即图像为灰度、单通道图像。

步骤205，根据长度维度数据、宽度维度数据和通道维度数据构建梅尔频率倒谱图。

具体地，针对一批待检测音频，梅尔频率倒谱图可以包括四个维度的数据：批次大小(批次维度数据)、这批待检测音频中每个待检测音频包括的音频帧的帧数(长度维度数据)、这批待检测音频中每个待检测音频包括的每个音频帧的梅尔频率倒谱特征(宽度维度数据)和扩充维度数据(通道维度数据)。用batch表示待检测音频的批次大小，用seq表示这批待检测音频中每个待检测音频包括的音频帧的帧数，用dim表示每个音频帧的梅尔频率倒谱特征的维数，当扩充维度数据为1时，输入音频分类模型的数据的尺寸可以表示成[batch，seq，dim，1]。

步骤206，将梅尔频率倒谱图输入训练好的包括卷积网络、时序网络和分类网络的音频分类模型。

示例地，音频分类模型可如图2b所示，其中，卷积网络可以包括m个卷积层，m为大于2的整数，按照卷积层1到卷积层m的顺序，每个卷积层包括的卷积核的数量可以依次递增，每个卷积核的大小可以是k*k，k的取值例如可以为1、2等；时序网络可以为LSTM，分类网络可以包括帧分类网络、池化网络和音频分类网络，帧分类网络和音频分类网络可以通过两个全连接网络实现。

步骤207，利用卷积网络，按照保持长度维度数据的维度不变、降低宽度维度数据的维度并升高通道维度数据的维度的规则，对梅尔频率倒谱图进行卷积运算，得到特征图。

具体地，可以通过将长度维度数据的卷积步长设置为1，也即将seq维度的卷积步长设置为1，达到保持长度维度数据的维度不变的目的。将宽度维度数据的卷积步长设置的大于1，也即将dim维度的卷积步长设置的大于1，例如dim维度的卷积步长可以设置为2，达到降低宽度维度数据的维度的目的。通过依次增加多个卷积层中每个卷积层的卷积核的数量，达到升高通道维度数据的维度的目的。另外，批次维度数据的卷积步长也可以设置为1，即batch维度数据的维度也保持不变。实际应用中，上述卷积规则还可以通过其他方式实现，此处不做具体限定。

设置好卷积步长、卷积核大小、卷积核数量等数据之后，可以利用卷积网络对待检测音频的梅尔频率倒谱图进行卷积运算，以进行特征提取和相应维度的升降，从而得到特征图。示例地，当提取的每个音频帧的梅尔频率倒谱特征为40维梅尔频率倒谱系数时，即dim初始时的值为40，则经过多层卷积后，dim的值将会变小，dim维度经过每个卷积层之后的变化例如可以为40、14、5、2。通过多个卷积层之后，通道维度数据的维度将会增大，例如通道维度数据的维度经过每个卷积层之后的变化可以为1、16、32、64。batch和seq这两个维度数据的维度保持不变。经过各层卷积网络之后，输出数据的尺寸变化依次可以表示为：[batch，seq，40，1]、[batch，seq，14，16]、[batch，seq，5，32]、[batch，seq，2，64]。即经过卷积网络之后，输出数据的尺寸可以表示为[batch，seq，2，64]。

batch维度数据的维度保持不变，可以便于后续对每个待检测音频做音频分类。seq维度数据的维度保持不变，即经过卷积之后，时间步信息没有丢失，保留了每一帧的数据，可以便于后续对每个音频帧做帧分类。将每个音频帧的梅尔频率倒谱特征的维数降低，可以获得数据尺度的变化，减少冗余信息，扩大感受野。另外，随着卷积层数的增加，提取的特征越来越多，表示越来越复杂，需要更多维度的数据进行表示，因而将通道维度数据的维度升高。

采用多个卷积层对特征进行非线性映射，可以提取更有效的特征，提高特征的表达能力。

步骤208，将特征图的宽度维度数据和通道维度数据进行合并，得到合并征图。

通过合并，可以减少数据维度，减少数据处理量，提高处理效率。假设将特征图的宽度维度数据和通道维度数据进行合并后，得到合并维度，合并维度用merge表示，则合并后得到的数据的尺寸可以表示为[batch，seq，merge]。

步骤209，利用时序网络对合并特征图进行时序学习，得到时序特征图。

利用时序网络对合并特征图进行时序学习，由于当前帧和前后帧是相关联的，通过长短时序的记忆，可以对之前时间的信息进行记忆，把之前帧的信息融入当前帧，从而学习到特征之间的时序关系。在时序网络为LSTM时，如果LSTM的隐藏层神经元个数为n，则合并特征图经过LSTM进行时序学习之后，输出数据的尺寸可以表示为[batch，seq，n]。n的取值可以为32、64、128、256等，n越大，学习效果越好，但相应的计算量也越大，实际应用中，n可以根据实际情况取值，例如可以取64或128。

步骤210，利用分类网络中的帧分类网络对时序特征图做帧分类，得到待检测音频中每个音频帧的类别识别信息。

每个音频帧的类别识别信息，可以是每个音频帧属于某一类别的概率。假设帧分类网络的输出维度为2，则经帧分类网络对时序特征图做帧分类之后，输出数据的尺寸可以表示为[batch，seq，2]。此处的2表示类别数量，即方言和普通话两种。

步骤211，利用分类网络中的池化网络对每个音频帧的类别识别信息进行池化操作，得到池化特征图。

此处的池化操作，可以是对一段音频时间维度上的数据进行求平均处理，经池化网络之后，输出数据的尺寸可以表示为[batch，2]。

步骤212，利用分类网络中的音频分类网络对池化特征图做音频分类，得到待检测音频的类别识别信息。

待检测音频的类别识别信息可以是待检测音频属于某一类别的概率；比如，类别识别信息可以是待检测音频为方言的概率，或者类别识别信息可以是待检测音频为普通话的概率。具体地，当类别识别信息是待检测音频属于某一类别的概率时，可以判断该概率值是否超过预设概率值，在该概率值超过预设概率值时，确定待检测音频属于对应类别。经音频分类网络做分类之后，输出数据的尺寸可以表示为[batch，2]。

本实施例的方法，可以利用模型对音频进行分类，相较于人工识别分类，分类标准统一，成本低，分类效率和准确率高；通过获取音频的梅尔频率倒谱图，将音频处理转换成图像处理，利用音频分类模型的卷积网络学习基础特征之间的时序关系，得到包含基础特征和时序关系的时序特征图，基于基础特征和时序特征对音频分类，采用的特征更丰富、全面。虽然采用图像处理的思想处理音频，但音频本质上是时序数据，采用时序网络搭配卷积网络学习到时序数据中的长期依赖关系(即时序关系)，能够保证分类结果的准确性。

由于采用卷积网络和时序网络就能学习到丰富、全面的特征，不需要采用深层网络进行特征学习，减少了特征学习所需网络的层数，搭配分类网络对学习到的特征进行分类，就能完成音频分类任务，即音频分类模型采用卷积网络+时序网络+分类网络的三层网络结构即可，整体网络层数少，音频分类模型量级轻，对应地，网络参数也会相应减少，模型训练调试速度快，易于部署。

进一步地，卷积网络通过CNN实现，包括多个卷积层，多个卷积层对不同通道数据采用不同处理(有的维度升高、有的维度降低、有的维度保持不变)，能够保留所需数据，减少冗余信息；另外，在卷积过程中，对特征进行非线性映射(即不按照线性降维)，可以提取更有效的特征，提高特征的表达能力。

时序网络采用LSTM实现，即特征学习采用CNN-LSTM的结构，将音频转换成图像处理，使网络能够接受并处理各种时长的音频，增加了模型的适用范围。

图3是本发明实施例提供的音频分类模型的训练方法的一个流程示意图，具体可以包括如下步骤：

步骤301，获取样本音频的梅尔频率倒谱图。

样本音频可以有多个，即一批音频，样本音频可以来自直播间、录音软件、各种音频数据库等。样本音频的梅尔频率倒谱图，可以根据样本音频的梅尔频率倒谱特征构建，梅尔频率倒谱特征可以是梅尔频率倒谱系数，比如样本音频的40维梅尔频率倒谱系数。

具体地，在构建样本音频的梅尔频率倒谱图时，也需要对样本音频预处理(包括音频重采样、声道转换和静音片段剔除中的至少一种)；针对预处理之后的样本音频，可以进行分帧、提取梅尔频率倒谱等操作；最后可以将样本音频的批次大小作为批次维度数据，将样本音频所包括的音频帧的帧数作为长度维度数据、将每个音频帧的梅尔频率倒谱特征作为宽度维度数据，并添加通道维度数据，从而完成样本音频的梅尔频率倒谱图的构建。

步骤302，将梅尔频率倒谱图输入待训练的包括卷积网络、时序网络和分类网络的音频分类模型。

卷积网络可以是二维卷积网络，卷积网络包括m个卷积层，m为大于2的整数，按照卷积层1到卷积层m的顺序，每个卷积层包括的卷积核的数量可以依次递增，每个卷积核的大小可以是k*k，k的取值例如可以为1、2等；时序网络可以为LSTM，分类网络可以包括帧分类网络、池化网络和音频分类网络，帧分类网络和音频分类网络可以通过两个全连接网络实现。类似地，在模型训练过程中，用batch表示样本的批次大小，用seq表示这批样本音频中每个样本音频包括的音频帧的帧数，用dim表示每个音频帧的梅尔频率倒谱特征的维数，当扩充维度数据为1时，训练过程中输入音频分类模型的数据的尺寸依然可以表示成[batch，seq，dim，1]。

步骤303，利用卷积网络对梅尔频率倒谱图进行卷积运算，得到特征图。

具体地，可以通过将长度维度数据的卷积步长设置为1，也即将seq维度的卷积步长设置为1，达到保持长度维度数据的维度不变的目的。将宽度维度数据的卷积步长设置的大于1，也即将dim维度的卷积步长设置的大于1，例如dim维度的卷积步长可以设置为2，达到降低宽度维度数据的维度的目的。通过依次增加多个卷积层中每个卷积层的卷积核的数量，达到升高通道维度数据的维度的目的。另外，批次维度数据的卷积步长也可以设置为1，即batch维度数据的维度也保持不变。

设置好卷积步长、卷积核大小、卷积核数量等数据之后，可以利用卷积网络对样本音频的梅尔频率倒谱图进行卷积运算，以进行特征提取和相应维度的升降，从而得到特征图。经过卷积网络之后，每个音频帧的梅尔频率倒谱特征的维数可以从40降低至2，通道维度数据的维度可以从1升高至64，则输出数据的尺寸可以表示为[batch，seq，2，64]。

batch维度数据的维度保持不变，可以便于后续对每个待检测音频做音频分类，加速模式收敛。seq维度数据的维度保持不变，即经过卷积之后，时间步信息没有丢失，保留了每一帧的数据，可以便于后续对每个音频帧做帧分类及确定帧损失，让模型收敛方向更具针对性。将每个音频帧的梅尔频率倒谱特征的维数降低，可以获得数据尺度的变化，减少冗余信息，扩大感受野。另外，随着卷积层数的增加，提取的特征越来越多，表示越来越复杂，需要更多维度的数据进行表示，因而将通道维度数据的维度升高。

步骤304，利用时序网络对特征图进行时序学习，得到时序特征图。

类似地，此处可以先将特征图的宽度维度数据和通道维度数据进行合并，得到合并征图，利用时序网络对合并特征图进行时序学习，得到时序特征图。在时序网络为LSTM时，如果LSTM的隐藏层神经元个数为n，则合并特征图经过LSTM进行时序学习之后，输出数据的尺寸可以表示为[batch，seq，n]

步骤305，利用分类网络对时序特征图进行分类识别，得到样本音频的类别识别信息。

具体地，可以先利用帧分类网络对时序特征图做帧分类，得到样本音频中每个音频帧的类别识别信息；再利用池化网络对每个音频帧的类别识别信息进行池化操作，得到池化特征图；最后利用音频分类网络对池化特征图做音频分类，得到样本音频的类别识别信息。假设帧分类网络的输出维度为2，则经帧分类网络对时序特征图做帧分类之后，输出数据的尺寸可以表示为[batch，seq，2]。经音频分类网络做分类之后，输出数据的尺寸可以表示为[batch，2]。

步骤306，根据样本音频的类别识别信息确定训练损失，根据训练损失调整音频分类模型中的网络参数。

具体地，可以根据样本音频的类别识别信息对模型进行优化，即可以根据样本音频的类别识别信息和类别标签信息确定训练损失，并基于训练损失对音频分类模型中的网络参数进行调整，从而得到用于对待检测音频分类的音频分类模型。或者，还可以结合样本音频的类别识别信息和样本音频中每个音频帧的类别识别信息对模型进行优化，即可以根据样本音频中每个音频帧的类别标签信息和类别识别信息确定第一训练损失，并根据样本音频的类别标签信息和类别识别信息确定第二训练损失；根据第一训练损失和第二训练损失对音频分类模型中的网络参数进行调整，从而得到用于对待检测音频分类的音频分类模型。实际应用中，优选结合样本音频的类别识别信息和样本音频中每个音频帧的类别识别信息对模型进行优化，这样可以加快模型收敛，提高训练速度。

本发明在做音频分类模型的训练时，所训练的模型包括卷积网络、时序网络和分类网络，模型量级轻，网络参数少，训练调试速度快，部署时能够减少对内存的占用和对硬件资源的消耗，易于部署；采用多个卷积层对特征进行非线性映射，可以提取更有效的特征，提高特征的表达能力；采用卷积网络加时序网络的结构，使得模型能接受各种时长的音频输入，减少了音频预处理，增加了模型的适用范围；采样有标签的样本训练，可以加快训练速度、提升模型训练效果；根据帧损失(第一训练损失)和音频整体的损失(第二训练损失)对模型参数进行优化，可以加快模型收敛，减少开发难度，并可以提高模型的表现性能。

图4是本发明实施例提供的音频分类装置的一个结构示意图，具体可以包括：

第一获取模块401，用于获取待检测音频的梅尔频率倒谱图；

第一输入模块402，用于将所述梅尔频率倒谱图输入训练好的音频分类模型，所述音频分类模型包括卷积网络、时序网络和分类网络；

第一卷积模块403，用于利用所述卷积网络对所述梅尔频率倒谱图进行卷积运算，得到特征图；

第一时序学习模块404，用于利用所述时序网络对所述特征图进行时序学习，得到时序特征图；

第一分类模块405，用于利用所述分类网络对所述时序特征图进行分类识别，得到所述待检测音频的类别识别信息。

一实施例中，第一获取模块401具体用于：

对所述待检测音频分帧得到多个音频帧；

提取所述多个音频帧中每个音频帧的梅尔频率倒谱特征；

一实施例中，第一获取模块401根据所述每个音频帧的梅尔频率倒谱特征构建所述梅尔频率倒谱图，包括：

一实施例中，第一卷积模块403具体用于：

一实施例中，所述卷积网络包括多个卷积层，第一卷积模块403具体用于：

一实施例中，所述特征图包括所述长度维度数据、所述宽度维度数据和所述通道维度数据，第一时序学习模块404具体用于：

一实施例中，所述分类网络包括帧分类网络、池化网络和音频分类网络，第一分类模块405具体用于：

一实施例中，该装置还包括：

预处理模块，用于对所述待检测音频进行预处理，所述预处理包括音频重采样、声道转换和静音片段剔除中的至少一者；

第一获取模块401具体用于，获取预处理之后的待检测音频的梅尔频率倒谱图。

本领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述功能模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本实施例的装置，可以获取待检测音频的梅尔频率倒谱图，将梅尔频率倒谱图输入训练好的音频分类模型，音频分类模型包括卷积网络、时序网络和分类网络；利用卷积网络对梅尔频率倒谱图进行卷积运算，得到特征图；利用时序网络对特征图进行时序学习，得到时序特征图；利用分类网络对时序特征图进行分类识别，得到待检测音频的类别识别信息。即本实施例的装置可以利用模型对音频进行分类，相较于人工识别分类，分类标准统一，成本低，分类效率和准确率高；通过获取音频的梅尔频率倒谱图，将音频处理转换成图像处理，利用音频分类模型的卷积网络和时序网络学习到音频的基础特征和时序特征(即时序特征图)，基于基础特征和时序特征对音频分类，能够保证分类结果的准确性，音频分类模型量级轻，网络参数少，训练调试速度快，易于部署。

图5是本发明实施例提供的音频分类模型的训练装置的一个结构示意图，该训练装置具体可以包括：

第二获取模块501，用于获取样本音频的梅尔频率倒谱图；

第二输入模块502，用于将梅尔频率倒谱图输入待训练的音频分类模型，音频分类模型包括卷积网络、时序网络和分类网络；

第二卷积模块503，用于利用卷积网络对梅尔频率倒谱图进行卷积运算，得到特征图；

第二时序学习模块504，用于利用时序网络对特征图进行时序学习，得到时序特征图；

第二分类模块505，用于所述分类网络对时序特征图进行分类识别，得到所述待检测音频的类别识别信息；

参数调整模块506，用于根据所述样本音频的类别识别信息确定训练损失，并根据所述训练损失对所述音频分类模型中的网络参数进行调整。

一实施例中，所述分类网络包括帧分类网络、池化网络和音频分类网络，第二分类模块505具体用于：

一实施例中，参数调整模块506具体用于：

本实施例的装置，所训练的模型包括卷积网络、时序网络和分类网络，模型量级轻，网络参数少，训练调试速度快，部署时能够减少对内存的占用和对硬件资源的消耗，易于部署；采用卷积网络加时序网络的结构，使得模型能接受各种时长的音频输入，减少了音频预处理步骤，增加了模型的适用范围；采样有标签的样本训练，可以加快训练速度、提升模型训练效果；根据帧损失(第一训练损失)和音频整体的损失(第二训练损失)对模型参数进行优化，可以加快模型收敛，减少开发难度，并可以提高模型的表现性能。

本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述任一实施例提供的音频分类及模型的训练方法。

本发明实施例还提供了一种计算机可读介质，其上存储有计算机程序，程序被处理器执行时实现上述任一实施例提供的音频分类及模型的训练方法。

下面参考图6，其示出了适于用来实现本发明实施例的电子设备的计算机***600的结构示意图。图6示出的电子设备仅仅是一个示例，不应对本发明的功能和使用范围带来任何限制。

如图6所示，计算机***600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有计算机***600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本发明的***中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明中所涉及到的模块和/或单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块和/或单元也可以设置在处理器中，例如，可以描述为：一种处理器包括第一获取模块、第一输入模块、第一卷积模块、第一时序学习模块和第一分类模块；或者可以描述为：一种处理器包括第二获取模块、第二输入模块、第二卷积模块、第二时序学习模块、第二分类模块和参数调整模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：

获取待检测音频的梅尔频率倒谱图；将所述梅尔频率倒谱图输入训练好的音频分类模型，所述音频分类模型包括卷积网络、时序网络和分类网络；利用所述卷积网络对所述梅尔频率倒谱图进行卷积运算，得到特征图；利用所述时序网络对所述特征图进行时序学习，得到时序特征图；利用所述分类网络对所述时序特征图进行分类识别，得到所述待检测音频的类别识别信息。

或者，使得该设备包括：

获取样本音频的梅尔频率倒谱图；将所述梅尔频率倒谱图输入待训练的音频分类模型，所述音频分类模型包括卷积网络、时序网络和分类网络；利用所述卷积网络对所述梅尔频率倒谱图进行卷积运算，得到特征图；利用所述时序网络对所述特征图进行时序学习，得到时序特征图；利用所述分类网络对所述时序特征图进行分类识别，得到所述样本音频的类别识别信息；根据所述样本音频的类别识别信息确定训练损失，并根据所述训练损失对所述音频分类模型中的网络参数进行调整。

本发明在做音频分类时，可以获取待检测音频的梅尔频率倒谱图；将所述梅尔频率倒谱图输入训练好的音频分类模型，所述音频分类模型包括卷积网络、时序网络和分类网络；利用所述卷积网络对所述梅尔频率倒谱图进行卷积运算，得到特征图；利用所述时序网络对所述特征图进行时序学习，得到时序特征图；利用所述分类网络对所述时序特征图进行分类识别，得到所述待检测音频的类别识别信息。即本发明可以利用模型对音频进行分类，相较于人工识别分类，分类标准统一，成本低，分类效率和准确率高；通过获取音频的梅尔频率倒谱图，将音频处理转换成图像处理，利用音频分类模型的卷积网络和时序网络学习到音频的基础特征和时序特征(即时序特征图)，基于基础特征和时序特征对音频分类，能够保证分类结果的准确性，音频分类模型量级轻，网络参数少，训练调试速度快，易于部署。

本发明在做音频分类模型的训练时，所训练的模型包括卷积网络、时序网络和分类网络，模型量级轻，网络参数少，训练调试速度快，部署时能够减少对内存的占用和对硬件资源的消耗，易于部署；采用卷积网络加时序网络的结构，使得模型能接受各种时长的音频输入，减少了音频预处理步骤，增加了模型的适用范围；采样有标签的样本训练，可以加快训练速度、提升模型训练效果；根据帧损失(第一训练损失)和音频整体的损失(第二训练损失)对模型参数进行优化，可以加快模型收敛，减少开发难度，并可以提高模型的表现性能。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的采集、收集、更新、分析、处理、使用、传输、存储等方面，均符合相关法律法规的规定，被用于合法的用途，且不违背公序良俗。对用户个人信息采取必要措施，防止对用户个人信息数据的非法访问，维护用户个人信息安全、网络安全和国家安全。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种音频分类方法，其特征在于，包括：

获取待检测音频的梅尔频率倒谱图；

2.根据权利要求1所述的方法，其特征在于，所述获取待检测音频的梅尔频率倒谱图，包括：

对所述待检测音频分帧得到多个音频帧；

提取所述多个音频帧中每个音频帧的梅尔频率倒谱特征；

3.根据权利要求2所述的方法，其特征在于，所述根据所述每个音频帧的梅尔频率倒谱特征构建所述梅尔频率倒谱图，包括：

4.根据权利要求3所述的方法，其特征在于，所述利用所述卷积网络对所述梅尔频率倒谱图进行卷积运算，得到特征图，包括：

5.根据权利要求4所述的方法，其特征在于，所述卷积网络包括多个卷积层，所述利用所述卷积网络，按照保持所述长度维度数据的维度不变、降低所述宽度维度数据的维度并升高所述通道维度数据的维度的规则，对所述梅尔频率倒谱图进行卷积运算，得到所述特征图，包括：

6.根据权利要求3至5任一项所述的方法，其特征在于，所述特征图包括所述长度维度数据、所述宽度维度数据和所述通道维度数据，所述利用所述时序网络对所述特征图进行时序学习，得到时序特征图，包括：

7.根据权利要求1所述的方法，其特征在于，所述分类网络包括帧分类网络、池化网络和音频分类网络，所述利用所述分类网络对所述时序特征图进行分类识别，得到所述待检测音频的类别识别信息，包括：

8.根据权利要求1所述的方法，其特征在于，在获取所述待检测音频的梅尔频率倒谱图之前，还包括：

所述获取所述待检测音频的梅尔频率倒谱图包括：获取预处理之后的待检测音频的梅尔频率倒谱图。

9.一种音频分类模型的训练方法，其特征在于，包括：

获取样本音频的梅尔频率倒谱图；

10.根据权利要求9所述的方法，其特征在于，所述分类网络包括帧分类网络、池化网络和音频分类网络，所述利用所述分类网络对所述时序特征图进行分类识别，得到所述样本音频的类别识别信息，包括：

11.根据权利要求10所述的方法，其特征在于，所述根据所述样本音频的类别识别信息确定训练损失，并根据所述训练损失对所述音频分类模型中的网络参数进行调整，包括：

12.一种音频分类装置，其特征在于，包括：

第一获取模块，用于获取待检测音频的梅尔频率倒谱图；

13.一种音频分类模型的训练装置，其特征在于，包括：

第二获取模块，用于获取样本音频的梅尔频率倒谱图；

14.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8中任一所述的音频分类方法，或者实现如权利要求9至11中任一所述的音频分类模型的训练方法。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至8中任一所述的音频分类方法，或者实现如权利要求9至11中任一所述的音频分类模型的训练方法。