CN107895571A

CN107895571A - 无损音频文件识别方法及装置

Info

Publication number: CN107895571A
Application number: CN201610867517.XA
Authority: CN
Inventors: 璧靛博; 赵岩
Original assignee: Yeelion Online Network Technology Beijing Co Ltd
Current assignee: Yeelion Online Network Technology Beijing Co Ltd
Priority date: 2016-09-29
Filing date: 2016-09-29
Publication date: 2018-04-10

Abstract

本发明实施例涉及一种无损音频文件识别方法，其特征在于，包括：确定无损音频文件样本集以及有损音频文件样本集；将无损音频文件样本集以及有损音频文件样本集分别转换成无损音频声谱图样本集以及有损音频声谱图样本集；按照相同的缩放比例，分别对无损音频声谱图样本集以及有损音频声谱图样本集进行压缩；利用卷积神经网络学习算法对压缩后的无损音频声谱图样本集以及压缩后的有损音频声谱图样本集进行训练，得到识别模型；确定待识别的音频文件，根据模型对待识别的音频文件进行识别。由此，可以实现提高无损音频识别的准确率，提升用户体验。

Description

无损音频文件识别方法及装置

技术领域

本发明涉及音频数据处理技术领域，尤其涉及一种无损音频文件识别方法及装置。

背景技术

随着数字音乐的发展，涌现出许多优秀的音频压缩技术。根据压缩过程中是否有数据损失可将音乐的压缩技术分为无损压缩和有损压缩，其中，无损压缩的常见格式有WAV、FLAC、APE等；有损压缩的常见格式有MP3、WMA、AAC等。有损压缩就是降低音频采样频率与比特率，得到的有损音频文件会比原文件小，但是不可恢复。另一种音频压缩被称为无损压缩，能够在100％保存原文件的所有数据的前提下，将音频文件的体积压缩的更小，而将压缩后的无损音频文件还原后，能够实现与源文件相同的大小、相同的码率。

有损音频压缩以及无损音频压缩各有利弊，有损音频文件的流通性更好，无损音频文件的音质更好，有损音频文件以及无损音频文件能够满足不同应用场景的需求。

但是，现有技术中会将流通性更好的有损音频文件通过一定方式转换无损压缩格式，来冒充无损音频文件。

传统的音频无损检测方法是通过判断音频文件对应的频谱图高频段部分是否被削减、音频文件中是否有因压缩导致的噪声、声道间相关性是否被降低等条件来确定音频文件是否为真正的无损音频文件。但是，随着科技的进步，尤其是高频补码技术的产生，通过观察频谱图很难从音频文件中确定出真正的无损音频。

发明内容

本发明实施例提供了一种无损音频文件识别方法及装置，可以实现通过将音频文件转换成声谱图，根据声谱图进行训练和识别，提高了无损音频识别的准确率，提升了用户体验。

一方面，提供了一种无损音频文件识别方法。该方法包括：

确定无损音频文件样本集以及有损音频文件样本集；

将所述无损音频文件样本集以及所述有损音频文件样本集分别转换成无损音频声谱图样本集以及有损音频声谱图样本集；

按照相同的缩放比例，分别对所述无损音频声谱图样本集以及所述有损音频声谱图样本集进行压缩；

利用卷积神经网络对压缩后的所述无损音频声谱图样本集以及压缩后的所述有损音频声谱图样本集进行训练，得到识别模型；

确定待识别的音频文件，根据所述识别模型对所述待识别的音频文件进行识别。

可选地，所述确定待识别的音频文件包括：

接收用户设备发送的音频文件识别请求，所述识别请求携带有待识别的音频文件，所述识别请求用于请求对待识别的音频文件进行识别。

可选地，还包括：

向所述用户设备发送识别结果，所述识别结果根据所述识别模型对所述待识别的音频文件进行识别确定。

可选地，所述将所述无损音频文件样本集以及所述有损音频文件样本集分别转换成无损音频声谱图样本集以及有损音频声谱图样本集包括：

根据短时傅里叶变换将所述无损音频文件样本集以及所述有损音频文件样本集分别转换成无损音频声谱图样本集以及有损音频声谱图样本集。

可选地，所述按照相同的缩放比例，分别对所述无损音频声谱图样本集以及所述有损音频声谱图样本集进行压缩包括：

按照相同的缩放比例，根据双线性插值法分别对所述无损音频声谱图样本集以及所述有损音频声谱图样本集进行压缩。

另一方面，提供了一种无损音频文件识别装置。该装置包括：

预处理单元，用于确定无损音频文件样本集以及有损音频文件样本集；

转换单元，用于将所述无损音频文件样本集以及所述有损音频文件样本集分别转换成无损音频声谱图样本集以及有损音频声谱图样本集；

压缩单元，用于按照相同的缩放比例，分别对所述无损音频声谱图样本集以及所述有损音频声谱图样本集进行压缩；

训练单元，用于利用卷积神经网络对压缩后的所述无损音频声谱图样本集以及压缩后的所述有损音频声谱图样本集进行训练，得到识别模型；

识别单元，用于确定待识别的音频文件，根据所述识别模型对所述待识别的音频文件进行识别。

可选地，所述识别单元还用于，接收用户设备发送的音频文件识别请求，所述识别请求携带有待识别的音频文件，所述识别请求用于请求对待识别的音频文件进行识别。

可选地，还包括：

发送单元，用于向所述用户设备发送识别结果，所述识别结果根据所述识别模型对所述待识别的音频文件进行识别确定。

可选地，所述转换单元还用于，根据短时傅里叶变换将所述无损音频文件样本集以及所述有损音频文件样本集分别转换成无损音频声谱图样本集以及有损音频声谱图样本集。

可选地，所述压缩单元还用于，按照相同的缩放比例，根据双线性插值法分别对所述无损音频声谱图样本集以及所述有损音频声谱图样本集进行压缩。

本发明实施例提供的无损音频文件识别方法，通过将深度学习引入到音频真假无损识别的问题中，利用带标注的音频声谱图训练卷积神经网络模型(识别模型)，将音频识别问题转化为图像识别问题，利用声谱图能够从时间、频率以及能量多方面表示音频文件的特点，根据其训练的识别模型进行识别的准确率高，用户体验更高。

附图说明

图1为一种场景示意图；

图2为本发明实施例提供的一种无损音频文件识别方法的流程图；

图3为一种无损音频的声谱图示例；

图4为一种有损音频的声谱图示例；

图5为一种高频补码后的有损音频的声谱图示例；

图6为本发明实施例提供的一种无损音频文件识别装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本发明实施例的理解，下面将结合附图以具体实施例作进一步的解释说明，实施例并不构成对本发明实施例的限定。

本发明的实施例通过对无损音频声谱图以及有损音频声谱图的压缩图像进行训练，根据训练后得到的识别模型对音频文件进行识别。由于，声谱图能够在时间、频率以及能量三个方面表示音频文件的信息，识别模型经过训练能够从时间、频率以及能量三个方面，来区分无损音频文件以及有损音频文件，从而，利用声谱图训练得到的识别模型来识别无损音频文件的准确率更高。

本发明实施例主要分为训练过程和识别过程。其中，如图1所示，训练过程和识别过程可通过运行在用户设备或服务器等任意一侧上的程序来实现，还可通过多端交互的方式实现，例如，基于C/S(Client/Server，客户端/服务端)结构或B/S(Browser/Server，浏览器/服务端)结构等的用户设备和服务器来实现，其中，客户端或浏览器一般运行在用户设备上，主要提供与用户交互的服务，也可参与训练过程和识别过程，服务端运行在服务器上，主要实现训练过程和识别过程，服务器通过与用户设备的交互可为用户提供无损音频识别服务。

需要说明的是，用户设备可以是移动电话、个人电脑、平板电脑(Tablet PersonalComputer)、膝上型电脑(Laptop Computer)、多媒体播放器、数字摄影机、个人数字助理(personal digital assistant，PDA)、导航装置、移动上网装置(Mobile InternetDevice，MID)或可穿戴式设备(Wearable Device)等等。

图2为本发明实施例提供的一种无损音频文件识别方法的流程图。如图1所示，该方法可通过用户设备或服务器等任意一侧来实现，该方法具体包括：

训练过程可包括步骤S210-S240：

S210，确定无损音频文件样本集以及有损音频文件样本集。

无损音频文件样本：可以是通过对CD抓轨生成WAV格式的音频文件作为无损音频文件样本，CD的音质越高，得到的无损音频文件的音质也就越高，CD的来源越可靠样本的准确性越高。

还可以选取其他格式的无损音频文件，将这些格式的音频文件转换为WAV格式作为无损音频文件样本。例如，其他格式可以为APE以及FLAC等格式。

有损音频文件样本：由于MP3本身是有损压缩，可以等量选取mp3格式下几种主流码率的音频文件，转码成WAV格式作为有损音频文件样。当然，也可以选取其他有损压缩格式的音频文件，转码成WAV格式作为有损音频文件样本。

可以对无损音频文件样本以及有损音频文件样本分别进行标注，以进行区分得到无损音频文件样本集和有损音频文件样本集。

由于识别模型是通过学习无损音频文件样本中的特征以及有损音频文件样本的特征，从而实现识别出无损音频文件的能力，所以样本的质量直接影响识别模型的识别能力，也就是影响通过识别模型识别出无损音频文件的准确度。为了保证有较高的识别准确性，需确保无损音频文件样本集中的无损音频文件样本为真正的无损音频文件；以及有损音频文件样本集中的有损音频文件样本为真正的有损音频文件。

S220，将所述无损音频文件样本集以及所述有损音频文件样本集分别转换成无损音频声谱图样本集以及有损音频声谱图样本集。

可以通过短时傅里叶变换(short-time Fourier transform，或short-termFourier transform，STFT)分别将无损音频文件样本集以及有损音频文件样本集中的音频文件转换成声谱图。STFT可以确定音频文件对应的频率信号随时间改变的信息，最终生成的声谱图以横轴表征时间、纵轴表征频率、颜色表征能量大小。

例如，图3为经过短时傅里叶变换得到的无损音频的声谱图，图4为经过短时傅里叶变换得到的有损音频的声谱图，图5为经过短时傅里叶变换得到的高频补码后的有损音频的声谱图。图3-图5中，横坐标表示时间，单位秒；纵坐标表示频率，单位KHz；灰度表示能量大小，灰度越深代表能量越高。需要说明的是，图3、图4以及图5仅是为了描述方便，以灰度代替颜色来表征能量大小，并不构成限定。

通过分析发现，无损音乐从低频到高频连续性很好，而有损音乐去除了人耳难分辨的高频部分。即便通过高频补码生成近似的真无损，在低频及高频衔接处(本样本为16KHz)仍然可以看到模糊的截断痕迹。

当然在本发明实施例中，也可通过其他的算法及将音频文件转换成声谱图。

S230，按照相同的缩放比例，分别对所述无损音频声谱图样本集以及所述有损音频声谱图样本集进行压缩。

可根据对识别准确率、利用模型进行识别的速度以及识别模型的训练速度的需求来确定声谱图样本的缩放比例。其中，对识别准确率要求越高，缩放的比例越小；对识别模型的训练速度的要求越高，缩放的比例越大；对识别模型的训练速度要求越高，缩放的比例越大。

本申请的发明人分别对28*28、56*56、84*84、256*256等大小的数据集进行了训练，结果显示图片压缩到28*28时仍能保证97％以上的预测准确率，且随着图像大小的增长，准确率并没有显著提升。这说明，28*28大小的图像已经保留了足够的特征信息以进行音频的真假无损判断。

所以，在分别对无损音频声谱图样本集以及有损音频声谱图样本集中的声谱图进行缩放时，可分别将其压缩为28*28大小的图像。当然，对识别准确率要求较高，并拥有足够的硬件支持或对训练以及识别的速度要求不高的情况下，在对声谱图进行缩放时，可将其压缩为大于28*28大小的图像。或者，当对识别速度或模型训练的速度有更高的要求时，在对声谱图进行缩放时，可将其压缩为小于28*28大小的图像。

S240，利用卷积神经网络对压缩后的所述无损音频声谱图样本集以及压缩后的所述有损音频声谱图样本集进行深度学习，得到识别模型。

卷积神经网络(Convolutional Neural Network，CNN)是一种前馈神经网络，它可以近似模拟人类的视觉认知过程，学习图像中的特征。

本发明实施例可用根据LeNet(一种卷积神经网络)进行训练得到识别模型。其中，LeNet是一种成熟的卷积神经网络模型，包含7层：3个卷积层、2个下采样层、1个全连接层、1个输出层。训练过程采用CUDA(Compute Unified Device Architecture，统一计算架构)+GPU(Graphics Processing Unit，图形处理器)加速，可以缩短训练时间。

此外，本发明还可以根据AlexNet(一种卷积神经网络)或GoogleNet(一种卷积神经网络)等其他网络模型进行训练。其中，识别模型复杂度对训练时间以及识别准确率有一定的影响。经测试，根据LeNet得到的模型达到了97.58％的识别准确率，根据更为复杂的AlexNet和GoogleNet得到的模型进行识别的准确率分别达到了98.90％和99.05％，但训练识别模型的时间却相对于更简单的LeNet增长了数十倍。

所以，在对识别准确率要求较高时，可AlexNet或GoogleNet等较复杂的网络模型进行训练。

另外，为了提高识别准确率，可利用测试样本对识别模型进行测试，也就是说，利用识别模型对已知的无损音频文件/声谱图，或者有损音频文件/声谱图进行识别，当识别准确率不符合要求时，可重新确定无损音频文件样本集以及有损音频文件样本集进行训练。

识别过程可包括步骤S250：

S250，确定待识别的音频文件，根据识别模型对待识别的音频文件进行识别。

在识别模型确定好后，便可利用该识别模型对需要识别的音频文件或声谱图进行识别，确定其是有损音频还是无损音频。

具体地，在识别过程中，需要将待识别的音频文件转换成声谱图，并将该声谱图进行压缩，其中，在识别过程中将待识别的音频文件转换成声谱图的算法，采用与训练过程中将有损或无损音频文件样本集转换成声谱图相同的算法，例如短时傅里叶变换，并且，在识别过程中对声谱图的压缩与在训练过程中对声谱图的压缩采用相同的缩放比例，例如在训练过程中压缩为大小为28*28的图像，那么在识别过程中也需将待识别的音频文件对应的声谱图压缩为大小为28*28的图像。

在对待识别的音频文件压缩后的声谱图进行识别时，可根据识别模型，确定出该声谱图是无损音频对应的声谱图的概率，或者是有损音频的概率。当该概率达到阈值时，可确定该音频文件为无损音频文件。

例如，经测验在对于图3所示的声谱图进行识别时，判断其98.73％的概率是真无损音频；而对于图4，本发明判断其99.97％的概率是有损音频。在对图5进行识别时，本发明给出的识别结果为95.99％的概率是有损音频，4.01％的概率是无损音频，最终判定为有损音频。

本发明实施例，通过将深度学习引入到音频真假无损识别的问题中，利用带标注的音频声谱图训练卷积神经网络模型(识别模型)，将音频识别问题转化为图像识别问题，利用声谱图能够从时间、频率以及能量多方面表示音频文件的特点，根据其训练的识别模型进行识别的准确率高，用户体验更高。

在识别过程中，可利用GPU对待识别音频文件转换的声谱图进行识别。

下面对本发明实施例通过多端交互的方式实现无损音频文件的识别作进一步的介绍。

在服务器进行如图2所示的实施中训练的过程，确定识别模型。

在识别过程中，用户设备产生对音频文件的识别需求，例如，用户设备通过用户接口确定需要识别的音频文件，并将该文件进行转换和压缩，得到在训练识别模型时需要的相同大小的声谱图；用户设备会将该待识别的音频文件转换和压缩后的声谱图发送给服务端进行识别。服务器运行识别模型，将识别模型部署在处理器(GPU)上，当接收到用户设备发送的声谱图时，根据该模型进行识别，将识别的结果返回给用户设备。例如，对于采用B/S架构的用户设备以及服务器，用户设备可通过运行浏览器确定待识别的音频文件，以及向服务端发送HTTP调用请求，该HTTP调用请求用于请求对待识别的音频文件进行识别，该HTTP调用请求可携带待识别的音频文件转换以及压缩后的声谱图。

另外，用户设备也可仅确定待识别的音频文件，再向服务器发送音频文件识别请求，该识别请求携带有待识别的音频文件，该识别请求用于请求对待识别的音频文件进行识别，也就是对该识别请求携带的音频文件进行识别。

在一个实施例中，用户设备可提供多种类型的音频文件识别服务，例如，快速识别、精确识别以及常规识别等等。用户设备可提供包含这些服务的用户接口。用户设备在接收到音频识别服务请求后，可通过用户接口提示选择服务类型以及指定待识别音频文件。服务器可根据不同服务的要求分别确定识别模型，例如，快速识别模型、精确识别模型以及常规识别模型。用户设备在向服务器发送识别请求时，还可在该识别请求中携带服务类型的标识。服务器在接收到用户设备发送的识别请求后，根据该识别请求中携带服务类型的标识确定该服务类型对应的识别模型，利用该识别模型对待识别的音频文件或声谱图。

需要说明的是，用户设备可根据不同的服务类型配置不同的处理方式，该处理方式与该服务类型在服务器进行识别模型训练时对音频文件样本的处理方式相同。在用户设备接收到选定的服务类型以及待识别的音频文件后，根据该服务类型对应的处理方式对该待识别的音频文件进行处理，再将处理后的待识别的音频文件携带在音频识别请求汇总发送给服务器。其中，这里的处理方式可以包括压缩后的声谱图大小，转换声谱图时采用的算法等等。

通过本发明实施例，可以为用户提供更丰富的无损音频识别服务，用户能够自主的选择自己需要的服务，用户体验更高。

图6为本发明实施例提供的装置的结构示意图。如图6所示，该装置包括：

预处理单元601，用于确定无损音频文件样本集以及有损音频文件样本集；

转换单元602，用于将所述无损音频文件样本集以及所述有损音频文件样本集分别转换成无损音频声谱图样本集以及有损音频声谱图样本集；

压缩单元603，用于按照相同的缩放比例，分别对所述无损音频声谱图样本集以及所述有损音频声谱图样本集进行压缩；

训练单元604，用于利用卷积神经网络对压缩后的所述无损音频声谱图样本集以及压缩后的所述有损音频声谱图样本集进行训练，得到识别模型；

识别单元605，用于确定待识别的音频文件，根据所述识别模型对所述待识别的音频文件进行识别。

可选地，识别单元605还用于，接收用户设备发送的音频文件识别请求，所述识别请求携带有待识别的音频文件，所述识别请求用于请求对待识别的音频文件进行识别。

可选地，还包括：

可选地，转换单元602还用于，根据短时傅里叶变换将所述无损音频文件样本集以及所述有损音频文件样本集分别转换成无损音频声谱图样本集以及有损音频声谱图样本集。

可选地，压缩单元603还用于，按照相同的缩放比例，根据双线性插值法分别对所述无损音频声谱图样本集以及所述有损音频声谱图样本集进行压缩。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种无损音频文件识别方法，其特征在于，包括：

确定无损音频文件样本集以及有损音频文件样本集；

2.根据权利要求1所述的方法，其特征在于，所述确定待识别的音频文件包括：

3.根据权利要求2所述的方法，其特征在于，还包括：

4.根据权利要求1-3任意一项所述的方法，其特征在于，将所述无损音频文件样本集以及所述有损音频文件样本集分别转换成无损音频声谱图样本集以及有损音频声谱图样本集包括：

5.根据权利要求1-3任意一项所述的方法，其特征在于，所述按照相同的缩放比例，分别对所述无损音频声谱图样本集以及所述有损音频声谱图样本集进行压缩包括：

6.一种无损音频文件识别装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述识别单元还用于，接收用户设备发送的音频文件识别请求，所述识别请求携带有待识别的音频文件，所述识别请求用于请求对待识别的音频文件进行识别。

8.根据权利要求7所述的装置，其特征在于，还包括：

9.根据权利要求6-8任意一项所述的装置，其特征在于，所述转换单元还用于，根据短时傅里叶变换将所述无损音频文件样本集以及所述有损音频文件样本集分别转换成无损音频声谱图样本集以及有损音频声谱图样本集。

10.根据权利要求6-8任意一项所述的装置，其特征在于，所述压缩单元还用于，按照相同的缩放比例，根据双线性插值法分别对所述无损音频声谱图样本集以及所述有损音频声谱图样本集进行压缩。