CN108010533A

CN108010533A - 音频数据码率的自动识别方法和装置

Info

Publication number: CN108010533A
Application number: CN201610957146.4A
Authority: CN
Inventors: 璧靛博; 赵岩
Original assignee: Beijing Kuwo Technology Co Ltd
Current assignee: Beijing Kuwo Technology Co Ltd
Priority date: 2016-10-27
Filing date: 2016-10-27
Publication date: 2018-05-08

Abstract

本发明涉及音频数据码率的自动识别方法和装置。所述方法包括：根据自动识别训练模型，对待预测音频数据进行标注，获得具有目标类码率格式的标注数据和具有非目标类码率格式的标注数据；将具有目标类码率格式的标注数据出现的概率与预先设置的阈值概率进行比较，若具有目标类码率格式的标注数据出现的概率大于等于预先设置的阈值概率，则输出具有目标类码率格式的标注数据。本发明实施例根据自动识别训练模型，对待预测音频数据进行标注，获得具有目标类码率格式的标注数据和具有非目标类码率格式的标注数据；并将具有目标类码率格式的标注数据出现的概率与预先设置的阈值概率进行比较，实现对不同音频数据码率进行自动识别的过程。

Description

音频数据码率的自动识别方法和装置

技术领域

本发明涉及音频技术领域，具体而言，本发明涉及音频数据码率的自动识别方法和装置。

背景技术

目前，MP3(MPEG-1or MPEG-2Audio Layer III，动态图像专家组-1或动态图像专家组-2音频层III)是当今最流行的一种数字音频编码和有损压缩格式，它被设计用来大幅降低音频数据量。MP3为有损压缩格式，并且容量较小的音乐文件，使传输和储存更为便捷，更利于用户使用，因此，MP3得到了快速发展。MP3中使用的重要技术之一是人体声学模型，该技术舍弃了脉冲编码调制音频数据中对人耳听觉不重要的部分，从而使得数字音频文件得以压缩。

按照不同的码率，对MP3格式的音频文件进行压缩。码率就是数据传输时单位时间传送的数据位数，码率表示经过压缩编码后的视音频数据每秒需要用多少个比特来表示，码率一般采用的单位是kbps，即千位每秒。基于数据大小和音质之间的对应关系，主流码率包括320kbps、256kbps、224kbps、192kbps、128kbps、96kbps、64kbps。然而，随着音乐格式转换软件的普及，市场上出现了大量由低码率转换而来的虚假高码率数字音乐，这种虚假高码率数字音乐造成了用户实际享受到的音乐品质与期待的不一致，降低了用户体验。

目前，对于数字音乐服务提供商，音频码率的识别方法主要为人工识别不同的音频码率。但是，音频码率的人工识别不仅需要消耗大量的人力成本，而且效率低下，识别的准确率低，难以对音频码率的人工识别的识别质量进行质量监控，因此，需要一种音频数据码率的自动识别方法，实现对不同音频数据的码率进行自动识别。

发明内容

本发明实施例在于提供音频数据码率的自动识别方法和装置，通过对采集到的音频数据进行模型训练，得到音频数据码率的自动识别训练模型；根据自动识别训练模型，对待预测音频数据进行标注，获得具有目标类码率格式的标注数据和具有非目标类码率格式的标注数据，从而实现对不同音频数据的码率进行自动识别的过程。

第一方面，本发明实施例提供了音频数据码率的自动识别方法，所述方法包括：

通过对采集到的音频数据进行模型训练，得到所述音频数据码率的自动识别训练模型；

根据所述自动识别训练模型，对待预测音频数据进行标注，获得具有目标类码率格式的标注数据和具有非目标类码率格式的标注数据；

将所述具有目标类码率格式的标注数据出现的概率与预先设置的阈值概率进行比较，若所述具有目标类码率格式的标注数据出现的概率大于等于预先设置的阈值概率，则输出所述具有目标类码率格式的标注数据。

优选的，所述通过对采集到的音频数据进行模型训练，得到所述音频数据码率的自动识别训练模型具体包括：

对所述音频数据进行标注，以生成具有所述目标类码率格式的标注数据的训练样本；

对具有所述目标类码率格式的标注数据的音频数据进行声谱图转换，得到相应的声谱图；

对所述声谱图进行图片缩放，得到相应的缩略图；

采用卷积神经网络算法对所述缩略图的图像数据进行模型训练，得到相应的音频数据码率的自动识别的训练模型。

优选的，所述目标类码率为MP3格式的目标类码率，且所述MP3格式的目标类码率具体包括如下320kbps的码率、256kbps的码率、224kbps的码率、192kbps的码率、128kbps的码率、96kbps的码率和64kbps的码率中的任一码率。

优选的，所述非目标类码率为MP3格式的目标类码率，且所述MP3格式的非目标类码率具体包括如下与所述MP3格式的目标类码率不同的其余全部码率。

优选的，通过双线性插值法，对所述声谱图进行图片缩放，得到相应的缩略图。

优选的，通过双线性插值法，采用AlexNet卷积神经网络模型作为训练模型，对所述缩略图的图像数据进行模型训练，得到相应的音频数据码率的自动识别的训练模型。

优选的，所述AlexNet卷积神经网络模型具体包括1个输入层、5个卷积层、3个池化层、2个全连接层和1个输出层。

优选的，将所述自动识别训练模型部署至数字音乐存储服务器集群，以对待预测音频数据进行标注。

优选的，采用CPU模式，将所述自动识别训练模型部署至数字音乐存储服务器集群。

第二方面，本发明实施例提供了音频数据码率的自动识别装置，所述装置包括：

训练模型获取模块，通过对采集到的音频数据进行模型训练，得到所述音频数据码率的自动识别训练模型；

标注数据获取模块，根据所述自动识别训练模型，对待预测音频数据进行标注，获得具有目标类码率格式的标注数据和具有非目标类码率格式的标注数据；

比较模块，将所述具有目标类码率格式的标注数据出现的概率与预先设置的阈值概率进行比较，若所述具有目标类码率格式的标注数据出现的概率大于等于预先设置的阈值概率，则输出所述具有目标类码率格式的标注数据。

本发明实施例提供了音频数据码率的自动识别方法，通过对采集到的音频数据进行模型训练，得到音频数据码率的自动识别训练模型；根据自动识别训练模型，对待预测音频数据进行标注，获得具有目标类码率格式的标注数据和具有非目标类码率格式的标注数据；将具有目标类码率格式的标注数据出现的概率与预先设置的阈值概率进行比较，若具有目标类码率格式的标注数据出现的概率大于等于预先设置的阈值概率，则输出具有目标类码率格式的标注数据，从而实现对不同音频数据码率进行自动识别的过程。本发明实施例通过将具有目标类码率格式的标注数据出现的概率与预先设置的阈值概率进行比较，若具有目标类码率格式的标注数据出现的概率大于等于预先设置的阈值概率，则输出具有目标类码率格式的标注数据，从而实现对不同音频数据码率进行自动识别的过程。

附图说明

图1是本发明实施例提供的音频数据码率的自动识别方法流程图；

图2是本发明实施例提供的音频数据码率的自动识别装置结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本发明实施例的理解，下面将结合附图以具体实施例做进一步的解释说明。

本发明所提供的技术方案中，通过对采集到的音频数据进行模型训练，得到音频数据码率的自动识别训练模型；根据自动识别训练模型，对待预测音频数据进行标注，获得具有目标类码率格式的标注数据和具有非目标类码率格式的标注数据；将具有目标类码率格式的标注数据出现的概率与预先设置的阈值概率进行比较，若具有目标类码率格式的标注数据出现的概率大于等于预先设置的阈值概率，则输出具有目标类码率格式的标注数据，从而实现了对不同音频数据码率进行自动识别的过程。

下面结合附图详细说明本发明的技术方案。

本发明实施例提供的音频数据码率的自动识别方法流程图，如图1所示，音频数据码率的自动识别方法包括如下步骤：

S101：通过对采集到的音频数据进行模型训练，得到音频数据码率的自动识别训练模型。

具体而言，通过对采集到的音频数据进行模型训练，得到音频数据码率的自动识别训练模型具体包括如下步骤：

对音频数据进行标注，以生成具有目标类码率格式的标注数据的训练样本。

为了保证通过样本训练得到的自动识别训练模型的准确性，本发明具体实施例中所使用的音频数据具体为无损音乐压缩生成低码率音乐文件。

进一步地，对音频数据的预处理过程具体如下所述：对高音质CD抓轨生成WAV格式的数字音乐文件；将得到的WAV格式的数字音乐文件转码成320kbp码率、256kbp码率、224kbp码率、192kbp码率、128kbp码率、96kbp码率、64kbp码率各个码率的MP3格式；将320kbp码率的MP3作为正样本，其余六种码率的MP3作为负样本。

对具有目标类码率格式的标注数据的音频数据进行声谱图转换，得到相应的声谱图。

需要说明的是，由于声谱图可以同时表征声音的时间、频率、能量信息。为了保证音频数据信息表达的完整性，在本发明的具体实施例中，将音频数据对应的声谱图作为卷积神经网络算法的输入数据。

短时傅里叶变换是频谱分析的常用手段。相较于傅里叶变化，短时傅里叶变换引入了窗函数，可以提供频率信号随时间改变的信息。最终得到的声谱图以横坐标表征时间，纵坐标表征频率，颜色表征能量大小，其中，声谱图的能量表征采用红绿蓝颜色模型。

在本发明的具体实施例中，声谱图的能量表征除了采用红绿蓝颜色模型之外，声谱图的能量表征还可以采用灰度声谱图的能量表征方式。

为了保证音频数据码率的自动识别的准确性，对具有目标类码率格式的标注数据的音频数据进行声谱图转换，得到相应的声谱图的过程具体如下所述：

对声谱图进行图片缩放，得到相应的缩略图。

需要说明的是，由于本发明实施例中采用卷积神经网络算法对缩略图的图像数据进行模型训练，而由于卷积神经网络算法仅接受固定大小的图像数据，因此，在采用卷积神经网络算法对缩略图的图像数据进行模型训练之前，需要对各个音频数据对应的声谱图的大小进行规范。

在本发明的具体实施例中，通过双线性插值法，对声谱图进行图片缩放，得到相应的缩略图。

采用双线性插值法对声谱图进行图片缩放，不仅可以兼顾图像数据中像素的高连续性，而且还可以进一步提高算法的复杂度，能够使得得到的声谱图的缩略图的更加逼近于真实的声谱图。

采用卷积神经网络算法对缩略图的图像数据进行模型训练，得到相应的音频数据码率的自动识别的训练模型。

在本发明的具体实施例中，分别对28*28、56*56、84*84、256*256四种大小的数据集进行了模型训练，结果显示：图像越大，得到的相应的音频数据码率的自动识别的训练模型的准确率就越高。进一步，结果还显示出：图片越大，模型训练的训练速度越慢。

在实际应用中，往往对音频数据码率的自动识别的实时性要求不高，若采用256*256的图像尺寸，得到了高准确率的音频数据码率的自动识别的训练模型。

卷积神经网络算法是一种前馈神经网络算法，该算法可以近似模拟人类的视觉认知过程，在图像数据处理领域具有广泛的应用。

进一步地，通过双线性插值法，采用AlexNet卷积神经网络模型作为训练模型，对缩略图的图像数据进行模型训练，得到相应的音频数据码率的自动识别的训练模型。其中，AlexNet卷积神经网络模型具体包括1个输入层、5个卷积层、3个池化层、2个全连接层和1个输出层。

在本发明的具体实施例中，采用AlexNet卷积神经网络模型作为训练模型，对正、负样本进行训练。

在本发明的具体实施例中，分别对320kbps的码率、256kbps的码率、224kbps的码率、192kbps的码率、128kbps的码率、96kbps的码率和64kbps的码率各个码率的MP3格式的数据集进行了模型训练，结果显示：320kbps的码率的MP3的识别准确率达到了98.54％。

需要说明的是，在本发明的具体实施例中，除了针对MP3格式的音乐数据进行多码率自动识别之外，WMA、AAC、OGG格式的音乐数据进行多码率的自动识别。

需要说明的是，在本发明的具体实施例中，采用AlexNet卷积神经网络模型作为训练模型的原因是，该模型的参数数量约为6000万，是GoogleNet模型的12倍，该模型的表达能力强，容易获取到更多的准确特征。

进一步地，AlexNet卷积神经网络模型还采用了ReLU、LRN、Dropout等技术，有效缓解了激活函数饱和的问题，以及模型过拟合的问题，同时，提升了模型的运算性能。

进一步地，为了加速模型训练过程，模型训练过程中采用了CUDA+GPU进行加速，以缩短获得音频数据码率的自动识别的训练模型的训练时间。

需要说明的是，在本发明的具体实施例中，除了采用AlexNet卷积神经网络模型作为训练模型之外，还可以采用LeNet、GoogleNet、VGG等其它卷积神经网络模型作为训练模型，其余这些卷积神经网络模型作为训练模型的技术方案也在本发明的具体实施例的保护方案中。

S102：根据自动识别训练模型，对待预测音频数据进行标注，获得具有目标类码率格式的标注数据和具有非目标类码率格式的标注数据。

需要说明的是，目标类码率为MP3格式的目标类码率，且MP3格式的目标类码率具体包括如下320kbps的码率、256kbps的码率、224kbps的码率、192kbps的码率、128kbps的码率、96kbps的码率和64kbps的码率中的任一码率。

非目标类码率为MP3格式的目标类码率，且MP3格式的非目标类码率具体包括如下与前述MP3格式的目标类码率不同的其余全部码率。

S103：将具有目标类码率格式的标注数据出现的概率与预先设置的阈值概率进行比较，若具有目标类码率格式的标注数据出现的概率大于等于预先设置的阈值概率，则输出具有目标类码率格式的标注数据。

除此之外，在本发明的具体实施例中，音频数据码率的自动识别方法还包括：将自动识别训练模型部署至数字音乐存储服务器集群，以对待预测音频数据进行标注。

在本发明的具体实施例中，采用GPU模式，将自动识别训练模型部署至数字音乐存储服务器集群。

具体而言，采用GPU模式部署至单独的GPU集群，将数字音乐移动至该GPU集群进行标注。

采用GPU模式的优点是，运算速度更快，对于数字音乐标注任务涉及大量的音频数据，造成数据迁移的困难，但是，采用GPU模式的缺点是，成本过高。基于音频数据码率的自动识别对实时性的要求不高，但是要求低成本，采用GPU模式不是更优的方式。如果要求高速度，在线服务的应用场景，可以考虑采用GPU模式部署至单独的GPU集群，将数字音乐移动至该GPU集群进行标注。

在本发明的具体实施例中，采用CPU模式，将自动识别训练模型部署至数字音乐存储服务器集群。

具体而言，采用CPU模式部署至单独的CPU集群，将数字音乐移动至该CPU集群进行标注。

基于音频数据码率的自动识别对实时性的要求不高，但是要求低成本，采用CPU模式是更优的方式。如果针对线下批量处理音频数据的应用场景，可以考虑采用CPU模式部署至单独的CPU集群，将数字音乐移动至该CPU集群进行标注。

在本发明的具体实施例中，除了CPU集群部署方式外，GPU集群部署方式，PC，手机等其它硬件设备的部署才在本发明的具体实施例的方案中。

综上所述，本发明实施例提供的音频数据码率的自动识别方法，通过对采集到的音频数据进行模型训练，得到音频数据码率的自动识别训练模型；根据自动识别训练模型，对待预测音频数据进行标注，获得具有目标类码率格式的标注数据和具有非目标类码率格式的标注数据；将具有目标类码率格式的标注数据出现的概率与预先设置的阈值概率进行比较，若具有目标类码率格式的标注数据出现的概率大于等于预先设置的阈值概率，则输出具有目标类码率格式的标注数据，从而实现对不同音频数据码率进行自动识别的过程。

如图2所示，是本发明实施例提供的建筑物中无线设备自动定位装置的内部结构框图；如图2所示，本发明实施例所提供的音频数据码率的自动识别装置，包括：训练模型获取模块201、标注数据获取模块202和比较模块203。

具体而言，训练模型获取模块，通过对采集到的音频数据进行模型训练，得到音频数据码率的自动识别训练模型。

进一步地，训练模型获取模块具体用于：对音频数据进行标注，以生成具有目标类码率格式的标注数据的训练样本；

对具有目标类码率格式的标注数据的音频数据进行声谱图转换，得到相应的声谱图；

对声谱图进行图片缩放，得到相应的缩略图；

进一步地，训练模型获取模块通过双线性插值法，对声谱图进行图片缩放，得到相应的缩略图。

进一步地，训练模型获取模块通过双线性插值法，采用AlexNet卷积神经网络模型作为训练模型，对缩略图的图像数据进行模型训练，得到相应的音频数据码率的自动识别的训练模型。

其中，训练模型获取模块所采用的AlexNet卷积神经网络模型具体包括1个输入层、5个卷积层、3个池化层、2个全连接层和1个输出层。

标注数据获取模块，根据自动识别训练模型，对待预测音频数据进行标注，获得具有目标类码率格式的标注数据和具有非目标类码率格式的标注数据。

其中，标注数据获取模块获取到的标注数据的目标类码率为MP3格式的目标类码率，且MP3格式的目标类码率具体包括如下320kbps的码率、256kbps的码率、224kbps的码率、192kbps的码率、128kbps的码率、96kbps的码率和64kbps的码率中的任一码率。

标注数据获取模块获取到的标注数据的非目标类码率为MP3格式的目标类码率，且MP3格式的非目标类码率具体包括如下与前述MP3格式的目标类码率不同的其余全部码率。

比较模块，将具有目标类码率格式的标注数据出现的概率与预先设置的阈值概率进行比较，若具有目标类码率格式的标注数据出现的概率大于等于预先设置的阈值概率，则输出具有目标类码率格式的标注数据。

除此之外，音频数据码率的自动识别装置还包括训练模型部署模块(在图2中未标出)。

训练模型部署模块，将自动识别训练模型部署至数字音乐存储服务器集群，以对待预测音频数据进行标注。

进一步地，训练模型部署模块，采用CPU模式，将自动识别训练模型部署至数字音乐存储服务器集群。

本发明的技术方案中，通过对采集到的音频数据进行模型训练，得到音频数据码率的自动识别训练模型；根据自动识别训练模型，对待预测音频数据进行标注，获得具有目标类码率格式的标注数据和具有非目标类码率格式的标注数据；将具有目标类码率格式的标注数据出现的概率与预先设置的阈值概率进行比较，若具有目标类码率格式的标注数据出现的概率大于等于预先设置的阈值概率，则输出具有目标类码率格式的标注数据，从而实现对不同音频数据码率进行自动识别的过程。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.音频数据码率的自动识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述通过对采集到的音频数据进行模型训练，得到所述音频数据码率的自动识别训练模型具体包括：

对所述声谱图进行图片缩放，得到相应的缩略图；

3.根据权利要求1所述的方法，其特征在于，所述目标类码率为MP3格式的目标类码率，且所述MP3格式的目标类码率具体包括如下320kbps的码率、256kbps的码率、224kbps的码率、192kbps的码率、128kbps的码率、96kbps的码率和64kbps的码率中的任一码率。

4.根据权利要求3所述的方法，其特征在于，所述非目标类码率为MP3格式的目标类码率，且所述MP3格式的非目标类码率具体包括与所述MP3格式的目标类码率不同的其余全部码率。

5.根据权利要求2所述的方法，其特征在于，通过双线性插值法，对所述声谱图进行图片缩放，得到相应的缩略图。

6.根据权利要求2所述的方法，其特征在于，通过双线性插值法，采用AlexNet卷积神经网络模型作为训练模型，对所述缩略图的图像数据进行模型训练，得到相应的音频数据码率的自动识别的训练模型。

7.根据权利要求6所述的方法，其特征在于，所述AlexNet卷积神经网络模型具体包括1个输入层、5个卷积层、3个池化层、2个全连接层和1个输出层。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：将所述自动识别训练模型部署至数字音乐存储服务器集群，以对待预测音频数据进行标注。

9.根据权利要求8所述的方法，其特征在于，采用CPU模式，将所述自动识别训练模型部署至数字音乐存储服务器集群。

10.音频数据码率的自动识别装置，其特征在于，包括：