CN111916107A

CN111916107A - 一种音频分类模型的训练方法、音频的分类方法及装置

Info

Publication number: CN111916107A
Application number: CN202010673260.0A
Authority: CN
Inventors: 何维祯
Original assignee: TP Link Technologies Co Ltd
Current assignee: TP Link Technologies Co Ltd
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2020-11-10

Abstract

本发明公开了一种音频分类模型的训练方法，包括：根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算，得到音频的训练集；将所述音频的训练集中的音频数据进行傅里叶变换得到对应的频谱；将所述频谱输入至预设的GRU神经网络中进行后向传播训练，直至损失收敛，以得到训练完成的音频分类模型。本发明实施例还公开了一种音频的分类方法及装置，能有效解决现有技术由于环境噪音的影响经常出现误检的问题。

Description

一种音频分类模型的训练方法、音频的分类方法及装置

技术领域

本发明涉及音频分类技术领域，尤其涉及一种音频分类模型的训练方法、音频的分类方法及装置。

背景技术

随着智能家庭设备的普及，现代家庭中对家庭安全和生活方便舒适度的要求越来越高，而智能家庭设备上关于音频的分类与识别功能会大大提高家庭的安全度与生活方便性，例如家用摄像头的婴儿哭声检测，老人摔倒声音报警，语音识别，人机交互等功能。因此，各种音频的分类检测技术正在成为智能家居(IoT)中的关键性技术。

常见的音频分类方法主要时模板匹配法和基于特征提取的机器学习方法，模板匹配法是基于概率的语言模型模拟音频分布的方法型。但实际条件中，声音受到各种因素的影响，包括环境，语速，口语化等，使得实际分布并不能很好的符合高斯分布，因此采用该种方法的准确率难以有保障。而基于特征提取的机器学习方法，非常依赖训练集的好坏。但实际应用中，很难包含如此多的音频种类，因此该种方法的适用性并不是很广泛。且上述两种方法受环境噪音的影响都非常大，由于环境噪音的影响经常出现误检问题。

发明内容

本发明实施例提供一种音频分类模型的训练方法、音频的分类方法及装置，能有效解决现有技术由于环境噪音的影响经常出现误检的问题。

本发明一实施例提供一种音频分类模型的训练方法，包括：

根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算，得到音频的训练集；其中，所述音频的训练集包括：去噪后的音频数据；

将所述音频的训练集中的音频数据进行傅里叶变换得到对应的频谱；

将所述频谱输入至预设的GRU神经网络中进行后向传播训练，直至损失收敛，以得到训练完成的音频分类模型。

作为上述方案的改进，所述根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算，得到音频的训练集，具体包括：

计算每一帧所述音频样本集中的音频数据的音频特征；

根据所述高斯概率模型分别对每一音频特征进行拟合，以得到对应的背景噪声的幅度谱；

将所述每一帧所述音频样本集中的音频数据的幅度谱与对应的背景噪声的幅度谱做差得到第一音频幅度谱，并保存至所述音频的训练集。

作为上述方案的改进，所述音频特征包括：基频以及短时能量；

则对应地，所述根据所述高斯概率模型分别对每一音频特征进行拟合，以得到对应的背景噪声的幅度谱，具体包括：

根据所述高斯概率模型分别对基频以及短时能量进行拟合，分别得到所述基频对应的第一高斯分布曲线及所述短时能量对应的第二高斯分布曲线；

通过所述第一高斯分布曲线得到基频的范围，所述第二高斯分布曲线得到短时能量的范围；

根据所述基频的范围以及所述短时能量的范围拟合出对应的背景噪声的幅度谱。

作为上述方案的改进，在所述根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算，得到音频的训练之前，还包括：

对采集的原音频数据进行预处理得到所述音频样本集。

作为上述方案的改进，在根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算，得到音频的训练集之后，在所述将所述音频的训练集中的音频数据进行傅里叶变换得到对应的频谱之前，还包括：

对所述音频的训练集中的音频数据依次进行分帧处理、加窗处理及重叠处理。

本发明另一实施例提供了一种音频的分类方法，包括：

获取待处理的音频数据，并计算所述待处理的音频数据对应的幅度谱；

将所述待处理的音频数据输入至训练完成的音频分类模型，计算得到对应的音频分类结果；其中，所述训练完成的音频分类模型包括：根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算，得到音频的训练集；将所述音频的训练集输入至预设的GRU神经网络中进行后向传播训练，直至损失收敛，以得到训练完成的音频分类模型。

作为上述方案的改进，所述将所述待处理的音频数据输入至训练完成的音频分类模型，计算得到对应的音频分类结果，具体包括：

计算待处理的音频数据的音频特征；

将所述待处理的音频数据对应的幅度谱与所述背景噪声的幅度谱做差，得到第一音频幅度谱；

根据所述第一音频幅度谱输入至预设的GRU神经网络中，计算得到对应的音频分类结果。

作为上述方案的改进，在将所述待处理的音频数据输入至训练完成的音频分类模型，计算得到对应的音频分类结果，之后还包括：

响应于接收到音频分类的提示指令，则根据所述音频分类结果发出对应的提示信息。

本发明另一实施例提供了一种音频分类模型的训练装置，包括：

去噪模块，用于根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算，得到音频的训练集；其中，所述音频的训练集包括：去噪后的音频数据；

计算模块，用于将所述音频的训练集中的音频数据进行傅里叶变换得到对应的频谱；

训练模块，用于将所述频谱输入至预设的GRU神经网络中进行后向传播训练，直至损失收敛，以得到训练完成的音频分类模型。

本发明另一实施例提供了一种音频的分类装置，包括：

获取模块，用于获取待处理的音频数据，并计算所述待处理的音频数据对应的幅度谱；

分类模块，用于将所述待处理的音频数据输入至训练完成的音频分类模型，计算得到对应的音频分类结果；其中，所述训练完成的音频分类模型包括：根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算，得到音频的训练集；将所述音频的训练集输入至预设的GRU神经网络中进行后向传播训练，直至损失收敛，以得到训练完成的音频分类模型。

与现有技术相比，本发明实施例公开的音频分类模型的训练方法、音频的分类方法及装置，通过先根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算，以对音频样本集中的音频数据进行去噪处理，从而得到音频的训练集，再将音频的训练集中的音频数据进行傅里叶变换得到对应的频谱，并输入至预设的GRU神经网络中进行后向传播训练，直至损失收敛，以得到训练完成的音频分类模型。这样，由于先对预先采集的音频样本集中的音频数据进行去噪处理，降低了环境噪声对音频数据的影响，使得训练集中的音频数据更加准确，从而音频分类模型的分类结果更加准确，进而可以更好的识别音频的种类。

附图说明

图1是本发明一实施例提供的一种音频分类模型的训练方法的流程示意图；

图2是本发明一实施例提供的GRU神经网络的示意图；

图3是本发明一实施例提供的一种音频分类模型的训练方法中的步骤S10的流程示意图；

图4是本发明一实施例提供的一种音频的分类方法的流程示意图；

图5是本发明一实施例提供的一种音频的分类方法中的步骤S20’的流程示意图；

图6是本发明一实施例提供的一种音频分类模型的训练装置的结构示意图；

图7是本发明一实施例提供的一种音频的分类装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明一实施例提供的一种音频分类模型的训练方法的流程示意图。

本发明一实施例提供一种音频分类模型的训练方法，包括：

S10,根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算，得到音频的训练集；其中，所述音频的训练集包括：去噪后的音频数据。

需要说明的是，目前的环境中，噪声的来源有很多，是很多不同来源的噪音复合体，其经过大量的统计之后，分布趋近于高斯分布，因此采用高斯概率模型进行去噪。

在本实施例中，若采集的当前环境中的音频为M分钟，将这M分钟声音分为N秒一段，重叠为1/4N秒，以形成预先采集的音频样本集。可以理解的是，采集的原始音频均按此方式进行处理。

具体地，通过高斯概率模型对音频数据的音频特征进行拟合，从而得到背景噪声的高斯分布曲线，从而得到去噪后的音频数据。

S20,将所述音频的训练集中的音频数据进行傅里叶变换得到对应的频谱。

在本实施例中，使用scipy和numpy等方式均可实现快速傅里叶变换，从而得到音频数据对应的频谱，从而可以输入至GRU神经网络进行训练，进而得到音频分类模型，更好对音频数据进行分类。

S30,将所述频谱输入至预设的GRU神经网络中进行后向传播训练，直至损失收敛，以得到训练完成的音频分类模型。

需要说明的是，参见图2，GRU神经网络包括两个门：更新门和重置门(图中的zt和rt分别表示更新门和重置门)。更新门用于控制前一时刻的状态信息被带入到当前状态中的程度，更新门的值越大说明前一时刻的状态信息带入越多。重置门控制前一状态有多少信息被写入到当前的候选集h～th～t上，重置门越小，前一状态的信息被写入的越少。

具体地，将频谱输入至预设的GRU神经网络中采用后向传播进行训练，对各个参数进行求偏导，更新参数矩阵，一直迭代直到损失收敛。在本实施例中，以损失函数最小为目标进行学习最后得到模型，进行保存。

综上所述，通过先根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算，以对音频样本集中的音频数据进行去噪处理，从而得到音频的训练集，再将音频的训练集中的音频数据进行傅里叶变换得到对应的频谱，并输入至预设的GRU神经网络中进行后向传播训练，直至损失收敛，以得到训练完成的音频分类模型。这样，由于先对预先采集的音频样本集中的音频数据进行去噪处理，降低了环境噪声对音频数据的影响，使得训练集中的音频数据更加准确，从而音频分类模型的分类结果更加准确，进而可以更好的识别音频的种类。而且训练好的音频分类模型鲁棒性、泛化性较好，对音频数据集依赖程度低，可以在较小规模的数据集上训练出较好的音频分类结果。

作为上述方案的改进，所述根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算，得到音频的训练集，步骤S10具体包括：

S100，计算每一帧所述音频样本集中的音频数据的音频特征。

参见图3，其中，音频特征包括：基频以及短时能量，还可以包括：短时功率、短时过零率等。

S101，根据所述高斯概率模型分别对每一音频特征进行拟合，以得到对应的背景噪声的幅度谱。

具体地，计算得到音频特征后，对每个音频特征进行拟合，得到对应的高斯分布，并根据其高斯分布得到对应的背景噪声的幅度谱。

S102，将所述每一帧所述音频样本集中的音频数据的幅度谱与对应的背景噪声的幅度谱做差得到第一音频幅度谱，并保存至所述音频的训练集。

具体地，音频数据进行傅里叶变换之后转换为频谱，而频谱包括相位谱和幅度谱。将原始的幅度谱与背景噪声的幅度谱做差即可得到第一音频数据，即去噪后的音频数据，避免了训练集中的音频数据中存在噪声的干扰。

在本实施例中，所述音频特征包括：基频以及短时能量。

则对应地，所述根据所述高斯概率模型分别对每一音频特征进行拟合，以得到对应的背景噪声的幅度谱，S101，具体包括：

S1010，根据所述高斯概率模型分别对基频以及短时能量进行拟合，分别得到所述基频对应的第一高斯分布曲线及所述短时能量对应的第二高斯分布曲线。

S1011，通过所述第一高斯分布曲线得到基频的范围，所述第二高斯分布曲线得到短时能量的范围。

S1012，根据所述基频的范围以及所述短时能量的范围拟合出对应的背景噪声的幅度谱。

在本实施例中，计算每一帧音频的基频和短时能量，分别存入基频特征的数据队列及短时能量特征的数据队列，用高斯概率模型分别拟合基频和短时能量，分别得到基频的平均值、基频的范围、短时能量的平均值、短时能量范围。根据基频范围和短时能量范围拟合出背景噪声幅度谱。

S9，对采集的原音频数据进行预处理得到所述音频样本集。

具体地，将原音频数进行分帧加窗处理，同时相邻两段音频保留预设时间的交叠，防止频谱能量泄露，同时保障频谱的连续性。可以理解的是，预设时间可以根据用户需要进行设定，在此不作限定。

在本实施例中，对每段信号分为20ms为一帧的音频段，相邻两段音频保留5ms交叠。

在本实施例中，将训练集中的音频数据分为若干类，每一类收集40-60个5s的音频，再依次进行分帧处理、加窗处理及重叠处理。

参见图4，是本发明一实施例提供的一种音频的分类方法的流程示意图。

本发明一实施例提供了一种音频的分类方法，包括：

S10’，获取待处理的音频数据，并计算所述待处理的音频数据对应的幅度谱。

具体地，通过对待处理的音频数据进行傅里叶变换，得到对应的频谱，从而得到幅度谱。

S20’，将所述待处理的音频数据输入至训练完成的音频分类模型，计算得到对应的音频分类结果；其中，所述训练完成的音频分类模型包括：根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算，得到音频的训练集；将所述音频的训练集输入至预设的GRU神经网络中进行后向传播训练，直至损失收敛，以得到训练完成的音频分类模型。

需要说明的是，音频分类可以为婴儿啼哭声、人机交互声音等。上述音频的分类方法可以集成于电子设备的处理器中，也可以作为外部芯片与电子设备相连接，处理器以有线或者无线的方式连接有采集环境声音的声音采集器，例如麦克风等，以对环境的声音进行采集，并将环境中的声音上传至处理器，以使处理器对音频数据进行处理，从而对音频数据进行分类。

其中，电子设备可以是桌上型计算机、笔记本、掌上电脑、手机及云端服务器等计算设备。所述电子设备可包括，但不仅限于，处理器、存储器。例如电子设备还可以包括输入输出设备、网络接入设备、总线等。

本发明实施例公开了一种音频的分类方法，通过训练完成的音频分类模型对待处理的音频数据进行去噪分类，降低了环境噪声对音频数据的影响，由于训练好的音频分类模型鲁棒性、泛化性较好，对音频数据集依赖程度低，使得音频分类模型的分类结果更加准确，进而可以更好的识别音频的种类。

参见图5，作为上述方案的改进，所述将所述待处理的音频数据输入至训练完成的音频分类模型，计算得到对应的音频分类结果，步骤S20’，具体包括：

S200’，计算待处理的音频数据的音频特征。其中，音频特征包括：基频以及短时能量。

S201’，根据所述高斯概率模型分别对每一音频特征进行拟合，以得到对应的背景噪声的幅度谱。

S202’，将所述待处理的音频数据对应的幅度谱与所述背景噪声的幅度谱做差，得到第一音频幅度谱。

S203’，根据所述第一音频幅度谱输入至预设的GRU神经网络中，计算得到对应的音频分类结果。

在本实施例中，对基频范围以及短时能量范围进行拟合得到背景噪声的幅度谱，再与待处理的音频数据对应的幅度值做差得到去噪后的幅度值，降低了噪声对分类结果的干扰。

S30’，响应于接收到音频分类的提示指令，则根据所述音频分类结果发出对应的提示信息。

在本实施例中，预先对音频的分类结果进行标记，即不同的分类结果可以适配不同的提示，或者仅对标记的分类结果进行提示。例如，音频的分类结果为婴儿的啼哭声，那么此时发出提示指令，可以通过蜂鸣器进行警报，也可以通过短信息、邮件或APP对用户进行提示。用户还可以根据需要对分类结果进行警报分级，例如婴儿啼哭、老人摔倒为一级，其他为二级，根据级别的不同设置不同的提示，在此不作限定。

参见图6，是本发明一实施例提供的一种音频分类模型的训练装置的结构示意图。

本发明一实施例提供了一种音频分类模型的训练装置，包括：

去噪模块10，用于根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算，得到音频的训练集；其中，所述音频的训练集包括：去噪后的音频数据。

计算模块20，用于将所述音频的训练集中的音频数据进行傅里叶变换得到对应的频谱。

训练模块30，用于将所述频谱输入至预设的GRU神经网络中进行后向传播训练，直至损失收敛，以得到训练完成的音频分类模型。

本发明实施例提供了一种音频分类模型的训练装置，通过先根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算，以对音频样本集中的音频数据进行去噪处理，从而得到音频的训练集，再将音频的训练集中的音频数据进行傅里叶变换得到对应的频谱，并输入至预设的GRU神经网络中进行后向传播训练，直至损失收敛，以得到训练完成的音频分类模型。这样，由于先对预先采集的音频样本集中的音频数据进行去噪处理，降低了环境噪声对音频数据的影响，使得训练集中的音频数据更加准确，从而音频分类模型的分类结果更加准确，进而可以更好的识别音频的种类。而且训练好的音频分类模型鲁棒性、泛化性较好，对音频数据集依赖程度低，可以在较小规模的数据集上训练出较好的音频分类结果。

作为上述方案的改进，所述去噪模块10，具体包括：

计算音频特征模块，用于计算每一帧所述音频样本集中的音频数据的音频特征。

第一拟合模块，用于根据所述高斯概率模型分别对每一音频特征进行拟合，以得到对应的背景噪声的幅度谱。

第一处理模块，用于将所述每一帧所述音频样本集中的音频数据的幅度谱与对应的背景噪声的幅度谱做差得到第一音频幅度谱，并保存至所述音频的训练集。

为上述方案的改进，所述装置，还包括：

预处理模块，用于对采集的原音频数据进行预处理得到所述音频样本集。

参见图7，是本发明一实施例提供的一种音频的分类装置的结构示意图。

本发明一实施例提供了一种音频的分类装置，包括：

获取模块10’，用于获取待处理的音频数据，并计算所述待处理的音频数据对应的幅度谱。

分类模块20’，用于将所述待处理的音频数据输入至训练完成的音频分类模型，计算得到对应的音频分类结果；其中，所述训练完成的音频分类模型包括：根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算，得到音频的训练集；将所述音频的训练集输入至预设的GRU神经网络中进行后向传播训练，直至损失收敛，以得到训练完成的音频分类模型。

本发明实施例公开了一种音频的分类装置，通过训练完成的音频分类模型对待处理的音频数据进行去噪分类，降低了环境噪声对音频数据的影响，由于训练好的音频分类模型鲁棒性、泛化性较好，对音频数据集依赖程度低，使得音频分类模型的分类结果更加准确，进而可以更好的识别音频的种类。

其中，所述音频的分类装置装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种音频分类模型的训练方法，其特征在于，包括：

2.如权利要求1所述的音频分类模型的训练方法，其特征在于，所述根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算，得到音频的训练集，具体包括：

计算每一帧所述音频样本集中的音频数据的音频特征；

3.如权利要求2所述的音频分类模型的训练方法，其特征在于，

所述音频特征包括：基频以及短时能量；

4.如权利要求1所述的音频分类模型的训练方法，其特征在于，在所述根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算，得到音频的训练之前，还包括：

对采集的原音频数据进行预处理得到所述音频样本集。

5.如权利要求1所述的音频分类模型的训练方法，其特征在于，在根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算，得到音频的训练集之后，在所述将所述音频的训练集中的音频数据进行傅里叶变换得到对应的频谱之前，还包括：

6.一种音频的分类方法，其特征在于，包括：

7.如权利要求6所述的音频的分类方法，其特征在于，所述将所述待处理的音频数据输入至训练完成的音频分类模型，计算得到对应的音频分类结果，具体包括：

计算待处理的音频数据的音频特征；

8.如权利要求6所述的音频的分类方法，其特征在于，在将所述待处理的音频数据输入至训练完成的音频分类模型，计算得到对应的音频分类结果，之后还包括：

9.一种音频分类模型的训练装置，其特征在于，包括：

10.一种音频的分类装置，其特征在于，包括：