CN111369982A

CN111369982A - 音频分类模型的训练方法、音频分类方法、装置及设备

Info

Publication number: CN111369982A
Application number: CN202010173624.9A
Authority: CN
Inventors: 邓菁; 王秋明
Original assignee: Beijing Yuanjian Information Technology Co Ltd
Current assignee: Beijing Yuanjian Information Technology Co Ltd
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2020-07-03
Anticipated expiration: 2040-03-13
Also published as: CN111369982B

Abstract

本申请提供一种音频分类模型的训练方法、音频分类方法、装置及设备，属于音频处理技术领域。音频分类模型的训练方法包括：获取音频样本，音频样本包括：语音音频样本、音乐音频样本；对各音频样本进行分帧，并提取帧特征；采用预设窗函数，提取各音频样本中每帧的窗特征，并根据帧特征获取组合特征，其中，组合特征标记语音标签或音乐标签；采用组合特征和预设神经网络，训练获取音频分类模型。本申请可以将复杂程度较高的音乐音频和语音音频进行分类，进而提高分类结果的准确性。

Description

音频分类模型的训练方法、音频分类方法、装置及设备

技术领域

本申请涉及音频处理技术领域，具体而言，涉及一种音频分类模型的训练方法、音频分类方法、装置及设备。

背景技术

音乐和语音是音频中重要的两类数据，而在音频的现实应用中，音乐和语音很多时候是混在一起的，即有的时间段是音乐，有的时间段是语音，有的时候两者混叠在一起。

为了将音乐和语音区分开来，相关技术人员通常是基于相关性的后验决策方法对贝叶斯最大后验分类器的结果进行了处理来实现语音和音乐的分类。或者，采用的盲分离技术，将混在一起的背景音乐与人声分离开来，分别采用不同的技术进行后处理。

然而，上述现有技术主要是根据统计得到的音频数据的数据特征和专家的经验来进行分类，分类的准确性不高。

发明内容

本申请的目的在于提供一种音频分类模型的训练方法、音频分类方法、装置及设备，可以提高音频分类结果的准确性。

本申请的实施例是这样实现的：

本申请实施例的一方面，提供一种音频分类模型的训练方法，该方法包括：

获取音频样本，音频样本包括：语音音频样本、音乐音频样本；

对各音频样本进行分帧，并提取帧特征；

采用预设窗函数，提取各音频样本中每帧的窗特征，并根据帧特征获取组合特征，其中，组合特征标记语音标签或音乐标签；

采用组合特征和预设神经网络，训练获取音频分类模型。

可选地，采用组合特征和预设神经网络，训练获取音频分类模型，包括：

将组合特征代入预设神经网络进行前向运算，并根据损失函数获取每次迭代的梯度值；

根据梯度值调整预设神经网络中的参数后，继续训练，直到满足收敛条件，获取音频分类模型。

可选地，采用预设窗函数，提取各音频样本中每帧的窗特征，并根据帧特征获取组合特征之后，还包括：

将组合特征划分为训练样本集和测试样本集。

采用训练样本集和预设神经网络，训练获取音频分类模型。

可选地，采用组合特征和预设神经网络，训练获取音频分类模型之后，还包括：

将测试样本集代入音频分类模型，获取测试分类结果；

根据测试分类结果以及测试样本集中组合特征的标签，判断音频分类模型是否合格。

本申请实施例的另一方面，提供一种音频分类方法，该方法包括：

对待识别音频信号进行分帧，并提取各帧的帧特征；

采用预设窗函数，提取各帧的窗特征，并根据帧特征获取组合特征；

将组合特征代入音频分类模型，将待识别音频信号的音乐信号和语音信号分离，其中，音频分类模型采用音频样本的组合特征训练获取，音频样本包括：语音音频样本、音乐音频样本，音频样本的组合特征标记语音标签或音乐标签。

可选地，对待识别音频信号进行分帧，并提取各帧的帧特征之前还包括：

获取音频信号；

对音频信号进行去噪，获取去噪后的音频信号；

采用预加重算法对去噪后的音频信号进行预加重处理，得到待识别音频信号。

本申请实施例的另一方面，提供一种音频分类模型的训练装置，该装置包括：获取模块、第一提取模块、第二提取模块以及训练模块。

获取模块，用于获取音频样本，音频样本包括：语音音频样本、音乐音频样本。

第一提取模块，用于对各音频样本进行分帧，并提取帧特征。

第二提取模块，用于采用预设窗函数，提取各音频样本中每帧的窗特征，并根据帧特征获取组合特征，其中，组合特征标记语音标签或音乐标签。

训练模块，用于采用组合特征和预设神经网络，训练获取音频分类模型。

可选地，训练模块，用于将组合特征代入预设神经网络进行前向运算，并根据损失函数获取每次迭代的梯度值；根据梯度值调整预设神经网络中的参数后，继续训练，直到满足收敛条件，获取音频分类模型。

可选地，第二提取模块，还用于将组合特征划分为训练样本集和测试样本集。

可选地，训练模块，用于采用训练样本集和预设神经网络，训练获取音频分类模型。

可选地，训练模块，用于将测试样本集代入音频分类模型，获取测试分类结果；根据测试分类结果以及测试样本集中组合特征的标签，判断音频分类模型是否合格。

本申请实施例的另一方面，提供一种音频分类装置，该装置包括：帧提取模块、窗提取模块以及分离模块。

帧提取模块，用于对待识别音频信号进行分帧，并提取各帧的帧特征。

窗提取模块，用于采用预设窗函数，提取各帧的窗特征，并根据帧特征获取组合特征。

可选地，所述装置还包括：分离模块，用于将组合特征代入音频分类模型，将待识别音频信号的音乐信号和语音信号分离，其中，音频分类模型采用音频样本的组合特征训练获取，音频样本包括：语音音频样本、音乐音频样本，音频样本的组合特征标记语音标签或音乐标签。

可选地，帧提取模块，还用于获取音频信号；对音频信号进行去噪，获取去噪后的音频信号；采用预加重算法对去噪后的音频信号进行预加重处理，得到待识别音频信号。

本申请实施例的另一方面，提供一种计算机设备，包括：存储器、处理器，存储器中存储有可在处理器上运行的计算机程序，处理器执行计算机程序时，实现上述音频分类模型的训练方法的步骤或上述音频分类方法的步骤。

本申请实施例的另一方面，提供一种计算机存储介质，存储介质上存储有计算机程序，该计算机程序被处理器执行时，实现上述音频分类模型的训练方法的步骤或上述音频分类方法的步骤。

本申请实施例的有益效果包括：

本申请实施例提供的一种音频分类模型的训练方法、音频分类方法、装置及设备，可以通过获取音频样本，音频样本包括：语音音频样本、音乐音频样本；对各音频样本进行分帧，并提取帧特征；采用预设窗函数，提取各音频样本中每帧的窗特征，并根据帧特征获取组合特征；采用组合特征和预设神经网络，训练获取音频分类模型，由于该训练方法中引入了语音音频样本、音乐音频样本、且采集获取帧特征和窗特征的组合特征，实现了训练获取的音频分类模型可以更好地将音乐音频和语音音频进行分类，也可以适用于更复杂的音频，进而可以提高分类结果的准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的音频分类模型的训练方法的流程示意图；

图2为本申请实施例提供的深度神经网络的结构示意图；

图3为本申请实施例提供的训练获取音频分类模型的流程示意图；

图4为本申请实施例提供的训练获取音频分类模型后的流程示意图；

图5为本申请实施例提供的音频分类方法的流程示意图；

图6为本申请实施例提供的音频信号处理方法的流程示意图；

图7为本申请实施例提供的音频分类模型的训练装置的结构示意图；

图8为本申请实施例提供的音频分类装置的结构示意图；

图9为本申请实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

本实施例的音频分类模型的训练方法及音频分类方法可以具体应用到歌曲伴奏提取或者歌曲人声提取的场景中：

例如，用户在听歌时，可以通过本申请实施例训练获取的音频分类模型对歌曲进行处理，能够识别该音乐是纯音乐(只有伴奏没有人声)、清唱(只有人声没有伴奏)或者正常歌曲(既有人声又有伴奏)等，当然，不以上述场景为限，可以适用于各种需要音乐和语音进行分离的场景。

本申请的实施例涉及了大量的深度学习和音频处理的相关应用，为了更好地理解本申请实施例的方案，下面对本申请实施例可能涉及的深度学习和音频处理的相关术语和概念进行介绍。

(1)帧特征

帧特征可以包括以下几种类型特征中的一种或多种：短时平均能量、最大频点能量、过零率、谱质心、谱带宽、谱滚降等。

其中，短时平均能量：由于语音信号的能量随时间而变化，清音和浊音之间的能量差别相当显著。因此，对短时能量和短时平均幅度进行分析，可以得到短时平均能量来描述语音的这种特征变化情况。短时平均能量指的是每帧内的平均能量的大小，可以用来区别声母和韵母的分界、无声和有声的分界等。

具体公式为：

其中，K为该帧进行快速傅里叶变化后的频点个数，Amp_i为其中第i个频率点的幅度值，avgEng为短时平均能量，在本申请实施例计算处理的过程中，为了方便后续的深度神经网络处理，可以对该短时平均能量的数值进行归一化处理，可以统一除以100，来方便运算。

最大频点能量：指的是每帧内频点中能量最大的点的能量大小。

具体计算公式为：

maxEng＝max_0≤i≤K 20×log10(Amp_i)；

该特征为该帧进行快速傅里叶变化后频点上最大的幅度值。其中，maxEng为最大频点能量，在本申请实施例计算处理的过程中，为了方便后续的深度神经网络处理，可以对该最大频点能量的数值进行归一化处理，可以统一除以100，来方便运算。

过零率：指的是每帧内频点信号值通过零值的次数。

具体计算公式为：

其中，sign(x)为符号函数，当x大于0时，符号函数的值为1；否则，符号函数的值为-1，S_i和S_i-1是相邻的两个帧的幅值大小，S_i为其中第i个帧的幅值大小；N为帧的总数；zcr为过零率。

谱质心：是描述音色属性的重要物理参数之一，是频率成分的重心，是在一定频率范围内通过能量加权平均的频率，其单位是Hz。它是声音信号的频率分布和能量分布的重要信息。在主观感知领域，谱质心描述了声音的明亮度，具有阴暗、低沉品质的声音倾向有较多低频内容，谱质心相对较低，具有明亮、欢快品质的多数集中在高频，谱质心相对较高。该参数常用于对乐器声色的分析研究。

具体计算公式为：

其中，centroid为谱质心。

谱带宽：指的是每帧内的频谱带的宽度。

具体计算公式为：

其中，bw为谱带宽，在本申请实施例计算处理的过程中，为了方便后续的深度神经网络处理，可以对该谱带宽的数值进行归一化处理，可以统一除以数值K，即该帧进行快速傅里叶变化后的频点个数，来方便运算。

谱滚降：指的是在每帧内的频谱的边沿发生频率缓慢下降的情况。

具体计算公式为：

其中，

为谱滚降，在本申请实施例计算处理的过程中，为了方便后续的深度神经网络处理，可以对该谱滚降的数值进行归一化处理，可以统一除以数值K，即该帧进行快速傅里叶变化后的频点个数，来方便运算。

(2)窗特征

为了减少频谱能量泄漏，可采用不同的截取函数对信号进行截断，截断函数称为窗函数，简称为窗。窗函数就是时域有限宽的信号。

提取出来的每一帧在进行傅里叶变换之前，还需要进行加窗操作，即与一个窗函数相乘，加窗的目的是让一帧信号的幅度在两端渐变到0。渐变对傅里叶变换有好处，可以提高变换结果(即频谱)的分辨率。

加窗处理后可以提取该函数的窗特征，窗特征包括以下具体特征：均值和标准方差、谱变迁等。

其中，给定一窗音频，对该窗内的所有帧特征计算均值和标准方差，可以得到均值和标准方差的窗特征：平均能量均值、平均能量标准方差、最大频点能量均值、最大频点能量标准方差、过零率均值、过零率标准方差、谱带宽均值、谱带宽标准方差、谱滚降均值、谱滚降标准方差。

谱变迁：指的是加窗后的帧内频谱的变迁情况。

具体计算公式为：

其中，sf是谱变迁的值；n是N个帧中的第n个帧；k是K个频点中的第k个频点。

(3)深度神经网络

深度神经网络(deep neural network，DNN)，也称多层神经网络，可以理解为具有多层隐含层的神经网络。按照不同层的位置对DNN进行划分，DNN内部的神经网络可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。

虽然DNN看起来很复杂，但是从小的局部模型来说，包括一个线性关系

和一个激活函数σ(z)。

由于DNN层数多，参数较多，线性关系系数w和偏倚b的定义需要一定的规则。线性关系系数w的定义：第二层的第4个神经元到第三层的第2个神经元的线性系数定义为

上标3代表线性系数w所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。另外，输入层没有w参数和偏倚参数b。

假设第l-1层共有m个神经元，而第l层有n个神经元，则第l层的线性系数w组成了一个n×m的矩阵W^l，第l层的偏倚b组成了一个n×1的向量b^l，第l-1层的输出a组成了一个m×1的向量a^l-1，第l层的未激活前线性输出z组成了一个n×1的向量z^l，第l层的输出a组成了一个n×1的向量a^l，则第l层的输出为：

a^l＝σ(z^l)＝σ(W^la^l-1+b^l)；

DNN的前向传播算法是利用若干个权重系数矩阵W，偏倚向量b来和输入值向量x进行一系列线性运算和激活运算，从输入层开始，利用上一层的输出计算下一层的输出，一层层的向后计算，一直到运算到输出层，得到输出结果为值。

在训练模型的过程中，可以使用优化器来使训练最快达到目标值。

(4)损失函数

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断地调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

(5)反向传播

神经网络可以采用误差反向传播(back propagation，BP)算法在训练过程中修正初始的神经网络模型中参数的大小，使得神经网络模型的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新初始的神经网络模型中参数，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的神经网络模型的参数，例如权重矩阵。

图1为本申请实施例提供的音频分类模型的训练方法的流程示意图，请参照图1，该方法包括：

S10：获取音频样本。

其中，音频样本包括：语音音频样本、音乐音频样本。需要说明的是，语音音频样本是只具有语音音频信息的样本，例如包括：人声、动物声等语音音频信息。音乐音频样本是只具有音乐音频信息的样本，例如：单独的乐器声、混合的伴奏声等音乐音频信息。音频样本可以只包括语音音频样本、只包括音乐音频样本或者同时包括这两类音频样本。

在获取音频样本时，可以从网络音视频资源，音乐歌曲库和***上挑选音乐音频样本，应该尽可能覆盖各种音乐类型、乐器类型和应用场景；还可以从电话语音，网络语音，桌面麦克风语音中选择语音音频样本，每条音频样本的音频长度可以为10秒钟到10分钟不等，可选地，为了便于训练，所有音频样本长度一样，当然，也可以不作限制。

S20：对各音频样本进行分帧，并提取帧特征。

需要说明的是，音频样本通常是以波形频谱的方式来进行展示的，对音频样本进行分帧即是按照一定的时间间隔规则，将该音频样本的波形频谱分割成多个小段，每个小段即为帧，每个帧的长度一般小于50毫秒，可以取20毫秒到50毫秒之间，在本申请的实施例中，可以设置帧长为20毫秒，帧移为10毫秒。

分帧过程完成后，可以提取每个帧内的帧特征，帧特征即为前述的短时平均能量、最大频点能量、过零率、谱质心、谱带宽、谱滚降等。

S30：采用预设窗函数，提取各音频样本中每帧的窗特征，并根据帧特征获取组合特征。

其中，组合特征标记语音标签或音乐标签。

需要说明的是，预设窗函数可以为哈明窗函数(hamming窗)，具体计算公式如下：

其中，w(n)为哈明窗函数；M为窗的长度。另外，选取的该窗的窗长可以为3秒，窗移可以为1秒，选取完成后，令每帧的频谱与窗函数相乘，完成加窗过程。

加窗之后可以提取各音频样本中每帧的窗特征，窗特征即为前述的均值和标准方差、谱变迁等。组合特征即是将每帧内的帧特征和窗特征全部拼接起来作为一个整体，并且，组合特征可以对该整体对应的各类音频样本进行标记，可以将音乐音频样本标记音乐标签，将语音音频样本标记语音标签。

示例地，可以将音乐音频样本记为0，语音音频样本记为1。

S40：采用组合特征和预设神经网络，训练获取音频分类模型。

需要说明的是，可以将得到的组合特征作为输入，代入预设神经网络模型中进行训练，该预设神经网络模型可以为深度神经网络，通过训练可以获取到音频分类模型。

图2为本申请实施例提供的深度神经网络的结构示意图，请参照图2，本申请的实施例中使用的深度神经网络一共有5层，包括一个输入层10、一个输出层30、三个隐藏层20。需要说明的是，第一个隐藏层Dense1和第二个隐藏层Dense2的激活函数为Relu，第三个隐藏层Dense3的激活函数为Softmax，损失函数为binary_crossentropy，优化器为Adadelta，测度为accuracy。

其中，accuracy测度为准确性的测度，用以表征得到的训练结果的准确性。

本申请实施例提供的一种音频分类模型的训练方法，可以通过获取音频样本；对各音频样本进行分帧，并提取帧特征；采用预设窗函数，提取各音频样本中每帧的窗特征，并根据帧特征获取组合特征；采用组合特征和预设神经网络，训练获取音频分类模型，由于该训练方法中引入了语音音频样本、音乐音频样本、且采集获取帧特征和窗特征的组合特征，实现了训练获取的音频分类模型可以更好地将音乐音频和语音音频进行分类，也可以适用于更复杂的音频，进而可以提高分类结果的准确性。

图3为本申请实施例提供的训练获取音频分类模型的流程示意图，请结合参照图2和图3，本申请的实施例中，S40：采用组合特征和预设神经网络，训练获取音频分类模型，可以包括：

S410：将组合特征代入预设神经网络进行前向运算，并根据损失函数获取每次迭代的梯度值。

需要说明的是，在对上述深度神经网络进行训练的过程中，将组合特征作为输入进行前向运算，同时计算该次迭代过程的损失；并根据损失得到的损失函数，从而可以反向计算深度神经网络的梯度值，将梯度值进行反向传播，神经网络的隐藏层，即三个Dense层可以根据反传的梯度值对神经网络的参数进行更新。

S420：根据梯度值调整预设神经网络中的参数后，继续训练，直到满足收敛条件，获取音频分类模型。

需要说明的是，在对神经网络的参数进行可以后，可以进行新的一轮迭代过程，和上述方法类似，只是使用的参数为迭代更新后的神经网络参数，循环迭代训练直到达到预设的迭代次数或者收敛条件，从而结束对该深度神经网络的训练，获取最终得到的音频分类模型。

将组合特征划分为训练样本集和测试样本集。

需要说明的是，训练样本集可以用于输入到神经网络中对神经网络进行训练；测试样本集包括验证集和测试集。其中，验证集用于在训练的不同阶段输入到训练中的模型中，验证模型的训练是否符合预估的情况；测试集用于在训练结束后，将该类样本输入到训练完成的模型中，测试该神经网络模型是否满足要求。

其中，可以将所有组合特征按照“训练样本集：验证集：测试集＝8：1：1”的数量比例进行分配。

采用训练样本集和预设神经网络，训练获取音频分类模型。

需要说明的是，可以将分类后的训练样本集作为深度神经网络的输入来对预设的深度神经网络进行训练，从而获取音频分类模型。

图4为本申请实施例提供的训练获取音频分类模型后的流程示意图，本申请的实施例中，S40：采用组合特征和预设神经网络，训练获取音频分类模型之后，还包括：

S430：将测试样本集代入音频分类模型，获取测试分类结果。

需要说明的是，在训练结束后，可以将测试样本集中的测试集输入训练完成的音频分类模型，得到一个输出的分类结果。

S440：根据测试分类结果以及测试样本集中组合特征的标签，判断音频分类模型是否合格。

需要说明的是，比较输出的分类结果和测试样本集中的组合特征的标签，若结果相同，则认为得到的该结果准确；若结果不同，则认为该结果不准确。例如：一个组合特征的标签为音乐标签，测试后得到的分类结果为音乐类型，则认为该结果准确。可以将大量的测试样本集输入到训练后的音频分类模型中，得到大量的结果，根据这些结果计算结果准确的概率，并且可以预设一个阈值，当概率大于阈值时，认为该模型训练成功；否则，认为该模型训练不成功。例如：根据大量的测试结果得到的准确率96％，而预设的阈值为90％，则认为该模型训练成功。

另外，还可以根据每种音频的标签类型，单独计算准确率，例如：计算对纯音乐分类的准确率、对纯语音分类的准确率、对音乐语音混合分类的准确率等。同样，可以根据不同种类的标签设置不同的阈值，例如，音乐语音混合的情况下判定准确率可能相对更加困难，可以将该准确率的预设的阈值适当降低。

图5为本申请实施例提供的音频分类方法的流程示意图，该方法包括：

S50：对待识别音频信号进行分帧，并提取各帧的帧特征。

需要说明的是，待识别音频信号的获取方法与音频样本的获取方法相类似，可以是从网络音视频资源，音乐歌曲库和***上挑选各种类型的音频信号(例如：电话语音、网络音频、录音内容等)，每条待识别音频信号的音频长度可以为任意长度，以10秒到10分钟为最佳。

S60：采用预设窗函数，提取各帧的窗特征，并根据帧特征获取组合特征。

需要说明的是，S50、S60中有关待识别音频信号的实施步骤与S20、S30中有关音频样本的实施步骤类似，在此不加赘述。

S70：将组合特征代入音频分类模型，将待识别音频信号的音乐信号和语音信号分离。

其中，音频分类模型采用音频样本的组合特征训练获取，音频样本包括：语音音频样本、音乐音频样本，音频样本的组合特征标记语音标签或音乐标签。

需要说明的是，可以通过上述音频分类模型将待音频信号分为音乐信号、语音信号以及音乐语音混合信号。

本申请实施例提供的一种音频分类方法，可以通过对待识别音频信号进行分帧，并提取各帧的帧特征；采用预设窗函数，提取各帧的窗特征，并根据帧特征获取组合特征；将组合特征代入音频分类模型，将待识别音频信号的音乐信号和语音信号分离，以此方法可以将复杂程度较高的音乐音频和语音音频进行分类，进而可以提高分类结果的准确性。

图6为本申请实施例提供的音频信号处理方法的流程示意图，本申请的实施例中，S50：对待识别音频信号进行分帧，并提取各帧的帧特征之前还包括：

S501：获取音频信号。

需要说明的是，S501中获取音频信号的过程与S10中获取音频样本的方法类似，在此不加赘述。

S502：对音频信号进行去噪，获取去噪后的音频信号。

需要说明的是，去噪过程可以是去除音频信号中直流噪声的影响，具体计算公式如下：

其中，μ是音频信号x的均值。x(n)是第n个原始音频信号；

是去噪后的第n个音频信号。

S503：采用预加重算法对去噪后的音频信号进行预加重处理，得到待识别音频信号。

需要说明的是，预加重算法用于减少尖锐噪音的影响，可以提升高频信号，预加重公式具体如下：

y(n)＝x(n)-α×x(n-1)；

其中，α为预加重系数，在本申请的实施例中，可以取值为0.97，也可以根据运算需求选择其他取值，在此不作限制。y(n)是预加重处理后的音频信号。

图7为本申请实施例提供的音频分类模型的训练装置的结构示意图，该装置包括：获取模块100、第一提取模块200、第二提取模块300以及训练模块400。

获取模块100用于获取音频样本，音频样本包括：语音音频样本、音乐音频样本。

第一提取模块200用于对各音频样本进行分帧，并提取帧特征。

第二提取模块300用于采用预设窗函数，提取各音频样本中每帧的窗特征，并根据帧特征获取组合特征，其中，组合特征标记语音标签或音乐标签。

训练模块400用于采用组合特征和预设神经网络，训练获取音频分类模型。

可选地，训练模块400还用于：将组合特征代入预设神经网络进行前向运算，并根据损失函数获取每次迭代的梯度值；根据梯度值调整预设神经网络中的参数后，继续训练，直到满足收敛条件，获取音频分类模型。

可选地，第二提取模块300还用于：将组合特征划分为训练样本集和测试样本集。

可选地，训练模块400还用于：采用训练样本集和预设神经网络，训练获取音频分类模型。

可选地，训练模块400还用于：将测试样本集代入音频分类模型，获取测试分类结果；根据测试分类结果以及测试样本集中组合特征的标签，判断音频分类模型是否合格。

图8为本申请实施例提供的音频分类装置的结构示意图，该装置包括：帧提取模块500、窗提取模块600以及分离模块700。

帧提取模块500用于对待识别音频信号进行分帧，并提取各帧的帧特征。

窗提取模块600用于采用预设窗函数，提取各帧的窗特征，并根据帧特征获取组合特征。

分离模块700用于将组合特征代入音频分类模型，将待识别音频信号的音乐信号和语音信号分离。其中，音频分类模型采用音频样本的组合特征训练获取，音频样本包括：语音音频样本、音乐音频样本，音频样本的组合特征标记语音标签或音乐标签。

可选地，帧提取模块500还用于：获取音频信号；对音频信号进行去噪，获取去噪后的音频信号；采用预加重算法对去噪后的音频信号进行预加重处理，得到待识别音频信号。

图9为本申请实施例提供的计算机设备的结构示意图，该计算机设备包括：存储器800、处理器900，存储器800中存储有可在处理器900上运行的计算机程序，处理器900执行计算机程序时，实现上述音频分类模型的训练方法的步骤。

本申请实施例的另一方面，还提供另一种计算机设备，该设备与实现音频分类模型的训练方法的步骤的计算机设备结构类似，也可以如图9所示，该计算机设备包括：存储器800、处理器900，存储器800中存储有可在处理器900上运行的计算机程序，处理器900执行计算机程序时，实现上述音频分类方法的步骤。

本申请实施例的另一方面，提供一种计算机存储介质，存储介质上存储有计算机程序，该计算机程序被处理器执行时，实现上述音频分类模型的训练方法的步骤以及上述音频分类方法的步骤。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频分类模型的训练方法，其特征在于，包括：

获取音频样本，所述音频样本包括：语音音频样本、音乐音频样本；

对各所述音频样本进行分帧，并提取帧特征；

采用预设窗函数，提取各所述音频样本中每帧的窗特征，并根据所述帧特征获取组合特征，其中，所述组合特征标记语音标签或音乐标签；

采用所述组合特征和预设神经网络，训练获取音频分类模型。

2.如权利要求1所述的方法，其特征在于，所述采用所述组合特征和预设神经网络，训练获取音频分类模型，包括：

将所述组合特征代入所述预设神经网络进行前向运算，并根据损失函数获取每次迭代的梯度值；

根据所述梯度值调整所述预设神经网络中的参数后，继续训练，直到满足收敛条件，获取所述音频分类模型。

3.如权利要求1所述的方法，其特征在于，所述采用预设窗函数，提取各所述音频样本中每帧的窗特征，并根据所述帧特征获取组合特征之后，还包括：

将所述组合特征划分为训练样本集和测试样本集。

4.如权利要求3所述的方法，其特征在于，所述采用所述组合特征和预设神经网络，训练获取音频分类模型，包括：

采用所述训练样本集和预设神经网络，训练获取音频分类模型。

5.如权利要求3所述的方法，其特征在于，所述采用所述组合特征和预设神经网络，训练获取音频分类模型之后，还包括：

将所述测试样本集代入所述音频分类模型，获取测试分类结果；

根据所述测试分类结果以及所述测试样本集中组合特征的标签，判断所述音频分类模型是否合格。

6.一种音频分类方法，其特征在于，包括：

对待识别音频信号进行分帧，并提取各帧的帧特征；

采用预设窗函数，提取各所述帧的窗特征，并根据所述帧特征获取组合特征；

将所述组合特征代入音频分类模型，将所述待识别音频信号的音乐信号和语音信号分离，其中，所述音频分类模型采用音频样本的组合特征训练获取，所述音频样本包括：语音音频样本、音乐音频样本，所述音频样本的组合特征标记语音标签或音乐标签。

7.如权利要求6所述的方法，其特征在于，所述对待识别音频信号进行分帧，并提取各帧的帧特征之前还包括：

获取音频信号；

对所述音频信号进行去噪，获取去噪后的音频信号；

采用预加重算法对所述去噪后的音频信号进行预加重处理，得到所述待识别音频信号。

8.一种音频分类模型的训练装置，其特征在于，所述装置包括：获取模块、第一提取模块、第二提取模块以及训练模块；

所述获取模块，用于获取音频样本，所述音频样本包括：语音音频样本、音乐音频样本；

所述第一提取模块，用于对各所述音频样本进行分帧，并提取帧特征；

所述第二提取模块，用于采用预设窗函数，提取各所述音频样本中每帧的窗特征，并根据所述帧特征获取组合特征，其中，所述组合特征标记语音标签或音乐标签；

所述训练模块，用于采用所述组合特征和预设神经网络，训练获取音频分类模型。

9.一种音频分类装置，其特征在于，所述装置包括：帧提取模块、窗提取模块以及分离模块；

所述帧提取模块，用于对待识别音频信号进行分帧，并提取各帧的帧特征；

所述窗提取模块，用于采用预设窗函数，提取各所述帧的窗特征，并根据所述帧特征获取组合特征；

所述分离模块，用于将所述组合特征代入音频分类模型，将所述待识别音频信号的音乐信号和语音信号分离，其中，所述音频分类模型采用音频样本的组合特征训练获取，所述音频样本包括：语音音频样本、音乐音频样本，所述音频样本的组合特征标记语音标签或音乐标签。

10.一种计算机设备，其特征在于，包括：存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述权利要求1至7任一项所述的方法的步骤。