CN110265064A

CN110265064A - 音频爆音检测方法、装置和存储介质

Info

Publication number: CN110265064A
Application number: CN201910506938.3A
Authority: CN
Inventors: 陈洲旋
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2019-09-20
Anticipated expiration: 2039-06-12
Also published as: WO2020248308A1; CN110265064B

Abstract

本申请实施例公开了一种音频爆音检测方法、装置和存储介质，本申请在对音频信号进行爆音检测时，可以获取待检测的音频信号，将所述音频信号划分为多个帧信号，接着，计算相邻两个帧信号的短时能量差，然后，根据所述短时能量差获取满足预设条件区间的帧信号，得到突变音频信号，再然后，计算所述突变音频信号的频谱平坦度，若所述频谱平坦度大于预设平坦值，则确定所述音频信号存在爆音；该方案可以准确地检测出音频信号是否存在爆音。

Description

音频爆音检测方法、装置和存储介质

技术领域

本申请涉及通信技术领域，具体涉及一种音频爆音检测方法、装置和存储介质。

背景技术

随着互联网技术不断发展，互联网存在海量的各类音频文件，如音乐/演讲/说书/聊天等各种类型的音频文件。由于音频经过录制、处理、传输、存储等一系列复杂的步骤，可能出现“失真”的现象，比如开头爆音、毛刺、断点等。开头爆音是比较常见的一种失真现象。“开头爆音”是指在音乐波形的开头部分，存在着短暂的脉冲，听起来像“嗒”的一声，这种刺耳不自然的声音会给听者带来比较差的用户体验。在对一个歌曲库的统计案例中显示，存在开头爆音的音频占比达到10％，由于爆音的存在，导致音频质量差。因此，正确地检测出音频开头爆音非常重要。

发明内容

本申请实施例提供一种音频爆音检测方法、装置和存储介质，可以用于检测音频信号中是否存在频带缺失，从而有效快速地筛选出有频带缺失的音频文件。

本申请实施例提供一种音频爆音检测方法，包括：

获取待检测的音频信号，将所述音频信号划分为多个帧信号；

计算相邻两个帧信号的短时能量差；

根据所述短时能量差获取满足预设条件区间的帧信号，得到突变音频信号；

计算所述突变音频信号的频谱平坦度，若所述频谱平坦度大于预设平坦值，则确定所述音频信号存在爆音。

可选的，在一些实施例中，在所述音频爆音检测方法中，所述将所述音频信号划分为多个帧信号，包括：

在时域内从首帧开始对所述音频信号选取预设时间段的信号，得到开头音频信号；

将所述开头音频信号划分为多个帧信号。

可选的，在一些实施例中，在所述音频爆音检测方法中，所述计算相邻两个帧信号的短时能量差，包括：

计算每个帧信号的短时能量；

获取每个帧信号的时间；

根据所述帧信号的时间顺序依次计算相邻两个帧信号的短时能量之间的差，得到相邻两个帧信号的短时能量差。

可选的，在一些实施例中，在所述音频爆音检测方法中，所述根据所述短时能量差获取满足预设条件区间的帧信号，得到突变音频信号，包括：

获取所述短时能量差大于预设阈值的两个帧信号，根据时间顺序将两个帧信号中的后一个帧信号确定为开始帧信号；

在所述开始帧信号后获取所述短时能量差小于预设阈值负值的两个帧信号，根据时间顺序将两个帧信号中的后一个帧信号确定为结束帧信号；

获取所述开始帧信号到所述结束帧信号之间的信号，得到突变音频信号。

可选的，在一些实施例中，在所述音频爆音检测方法中，所述在所述开始帧信号后获取所述短时能量差小于预设阈值负值的两个帧信号，根据时间顺序将两个帧信号中的后一个帧信号确定为结束帧信号，包括：

在所述开始帧信号后按时间顺序依次判断所述短时能量差是否是小于预设阈值的负值；

当第一次检测到所述短时能量差小于预设阈值负值时，根据时间顺序将小于预设阈值负值的两个帧信号中的后一个帧信号确定为结束帧信号。

可选的，在一些实施例中，在所述音频爆音检测方法中，所述计算所述突变音频信号的频谱平坦度，包括：

检测所述突变音频信号的峰值位置；

在所述峰值位置的前后各取多个固定采样点组成爆音音频帧；

计算所述爆音音频帧的频谱平坦度。

可选的，在一些实施例中，在所述音频爆音检测方法中，所述若所述频谱平坦度大于预设平坦值，则确定所述音频信号存在爆音，包括：

判断所述频谱平坦度是否大于预设平坦值；

若所述频谱平坦度大于预设平坦值，则确定所述音频信号存在爆音；

若所述频谱平坦度小于预设平坦值，则确定所述音频信号不存在爆音。

可选的，在一些实施例中，在所述音频爆音检测方法中，所述若所述频谱平坦度大于预设平坦值，则确定所述音频信号存在爆音之后，还包括：

返回执行根据所述短时能量差获取满足预设条件区间的帧信号，得到突变音频信号的步骤，直到待检测的音频信号检测完毕。

相应的，本申请实施例还提供一种音频爆音检测装置，包括：

分帧模块，用于获取待检测的音频信号，将所述音频信号划分为多个帧信号；

计算模块，用于计算相邻两个帧信号的短时能量差；

获取模块，用于根据所述短时能量差获取满足预设条件区间的帧信号，得到突变音频信号；

判断模块，用于计算所述突变音频信号的频谱平坦度，若所述频谱平坦度大于预设平坦值，则确定所述音频信号存在爆音。

可选的，在一些实施例中，在所述音频爆音检测装置中，所述分帧模块，包括：

选取子模块，用于在时域内从首帧开始对所述音频信号选取预设时间段的信号，得到开头音频信号；

分帧子模块，用于将所述开头音频信号划分为多个帧信号。

可选的，在一些实施例中，在所述音频爆音检测装置中，所述计算模块，包括：

能量子模块，用于计算每个帧信号的短时能量；

获取子模块，用于获取每个帧信号的时间；

能量差子模块，用于根据所述帧信号的时间顺序依次计算相邻两个帧信号的短时能量之间的差，得到相邻两个帧信号的短时能量差。

可选的，在一些实施例中，在所述音频爆音检测装置中，所述能量差子模块，具体用于获取所述短时能量差大于预设阈值的两个帧信号，根据时间顺序将两个帧信号中的后一个帧信号确定为开始帧信号；在所述开始帧信号后获取所述短时能量差小于预设阈值负值的两个帧信号，根据时间顺序将两个帧信号中的后一个帧信号确定为结束帧信号；获取所述开始帧信号到所述结束帧信号之间的信号，得到突变音频信号。

可选的，在一些实施例中，在所述音频爆音检测装置中，所述能量差子模块，具体用于在所述开始帧信号后按时间顺序依次判断所述短时能量差是否是小于预设阈值的负值；当第一次检测到所述短时能量差小于预设阈值负值时，根据时间顺序将小于预设阈值负值的两个帧信号中的后一个帧信号确定为结束帧信号。

可选的，在一些实施例中，在所述音频爆音检测装置中，所述判断模块，包括：

检测子模块，用于检测所述突变音频信号的峰值位置；

采样子模块，用于在所述峰值位置的前后各取多个固定采样点组成爆音音频帧；

计算子模块，用于计算所述爆音音频帧的频谱平坦度。

可选的，在一些实施例中，在所述音频爆音检测装置中，所述判断模块，具体用于判断所述频谱平坦度是否大于预设平坦值；若所述频谱平坦度大于预设平坦值，则确定所述音频信号存在爆音；若所述频谱平坦度小于预设平坦值，则确定所述音频信号不存在爆音。

可选的，在一些实施例中，在所述音频爆音检测装置中，还包括：

检测模块，用于返回执行根据所述短时能量差获取满足预设条件区间的帧信号，得到突变音频信号的步骤，直到待检测的音频信号检测完毕。

此外，本申请实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请实施例提供的任一种音频爆音检测方法中的步骤。

本申请在对音频信号进行爆音检测时，可以获取待检测的音频信号，将所述音频信号划分为多个帧信号，接着，计算相邻两个帧信号的短时能量差，然后，根据所述短时能量差获取满足预设条件区间的帧信号，得到突变音频信号，再然后，计算所述突变音频信号的频谱平坦度，若所述频谱平坦度大于预设平坦值，则确定所述音频信号存在爆音；该方案通过对音频信号进行分帧，然后计算出每帧音频信号的时域短时能量，通过短时能量差找出能量突变的音频帧位置，找出突变音频信号，然后计算它的频谱平坦度，通过地频谱平坦度来准确地筛选出有频带缺失的音频文件。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的音频爆音检测方法的场景示意图；

图1b是本申请实施例提供的音频爆音检测方法的第一流程示意图；

图2a是本申请实施例提供的音频爆音检测方法的第二流程示意图；

图2b是本申请实施例提供的音频爆音检测方法的音频信号的示意图；

图3a是本申请实施例提供的音频爆音检测装置的第一结构示意图；

图3b是本申请实施例提供的音频爆音检测装置的第二结构示意图；

图4是本申请实施例提供的网络设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。

本申请实施例提供一种音频爆音检测方法、装置和存储介质。

其中，该音频爆音检测装置具体可以集成在网络设备中，该网络设备可以是终端或服务器等设备，例如，参见图1a，用户在需要对海量的音频文件进行开头爆音检测时，可以触发网络设备对这些音频文件进行处理，网络设备可以获取待检测的音频信号，将该音频信号划分为多个帧信号，接着，计算相邻两个帧信号的短时能量差，然后，根据该短时能量差获取满足预设条件区间的帧信号，得到突变音频信号，再然后，计算该突变音频信号的频谱平坦度，若该频谱平坦度大于预设平坦值，则确定该音频信号存在爆音。

以下分别进行详细说明。需说明的是，以下实施例的顺序不作为对实施例优选顺序的限定。

在本实施例中，将从音频爆音检测装置的角度进行描述，该音频爆音检测装置具体可以集成在网络设备中，该网络设备可以是终端或服务器等设备，其中，该终端可以包括平板电脑、笔记本电脑或个人计算机(Personal Computer，PC)等。

本申请实施例提供一种音频爆音检测方法，包括：获取待检测的音频信号，将该音频信号划分为多个帧信号，接着，计算相邻两个帧信号的短时能量差，然后，根据该短时能量差获取满足预设条件区间的帧信号，得到突变音频信号，再然后，计算该突变音频信号的频谱平坦度，若该频谱平坦度大于预设平坦值，则确定该音频信号存在爆音。

如图1b所示，该音频爆音检测方法的具体流程可以如下：

101、获取待检测的音频信号，将该音频信号划分为多个帧信号。

例如，具体可以先从网络、手机或者视频等各种途径来获取音频文件，进而提供给该音频爆音检测装置，即，该音频爆音检测装置具体可以接收各种途径获取到的音频文件，再从这些文件中提取出待检测的音频信号。接着，将这些音频信号划分为多个帧信号。

其中，音频文件可以为：声音文件和乐器数字接口(Musical Instrument DigitalInterface，MIDI)文件。声音文件是通过声音录入设备录制的原始声音，直接记录了真实声音的二进制采样数据；MIDI文件是一种音乐演奏指令序列，可利用声音输出设备或与计算机相连的电子乐器进行演奏。而音频信号是带有语音、音乐和音效的有规律的声波的频率、幅度变化信息载体。根据声波的特征，可把音频信息分类为规则音频和不规则声音。其中规则音频又可以分为语音、音乐和音效。规则音频是一种连续变化的模拟信号，可用一条连续的曲线来表示，称为声波。

为了提高检测的效率，可以在音频信号的时域内的开始处，设定检测的时间段，并对该时间段内的音频信号进行分帧处理，即步骤“将该音频信号划分为多个帧信号”，具体可以如下：

在时域内从首帧开始对该音频信号选取预设时间段的信号，得到开头音频信号；

将该开头音频信号划分为多个帧信号。

102、计算相邻两个帧信号的短时能量差。

例如，具体可以计算每个帧信号的短时能量，然后，获取每个帧信号的时间，根据该帧信号的时间顺序依次计算相邻两个帧信号的短时能量之间的差，得到相邻两个帧信号的短时能量差。

其中，短时能量体现的是信号在不同时刻的强弱程度。每个帧信号的短时能量E的计算可以如下：

其中，N为每帧信号的采样点数，n为帧信号的采样点，t表示帧信号的位置，E(t)为第t帧信号的短时能量。

其中，计算相邻两个帧信号的短时能量差，可以如下：

p_t＝E(t)-E(t-1)

其中，t为帧的位置，p_t为相邻两个帧信号的短时能量差。

103、根据该短时能量差获取满足预设条件区间的帧信号，得到突变音频信号。

其中，预设条件的设定方式可以有很多种，比如，可以根据实际应用的需求灵活设置，也可以预先设置好存储在网络设备中。此外，预设条件可以内置于网络设备中，或者，也可以保存在存储器中并发送给网络设备，等等。

例如，具体可以获取该短时能量差大于预设阈值的两个帧信号，根据时间顺序将两个帧信号中的后一个帧信号确定为开始帧信号，在该开始帧信号后获取该短时能量差小于预设阈值负值的两个帧信号，根据时间顺序将两个帧信号中的后一个帧信号确定为结束帧信号，获取该开始帧信号到该结束帧信号之间的信号，得到突变音频信号。

其中，预设阈值(threshold)，简称Th的设定方式也可以有很多种，比如，可以根据实际应用的需求灵活设置，也可以预先设置好存储在网络设备中。此外，预设阈值可以内置于网络设备中，或者，也可以保存在存储器中并发送给网络设备，等等。

为了后续的频率平坦度的计算更贴近预设条件区间的真实值，为了使检测结果的准确性更高，可以取在开始帧信号之后第一次检测到短时能量差小于预设阈值负值的帧信号两个帧信号中的后一个帧信号为结束帧信号，即步骤“该在该开始帧信号后获取该短时能量差小于预设阈值负值的两个帧信号，根据时间顺序将两个帧信号中的后一个帧信号确定为结束帧信号”，具体可以如下：

在该开始帧信号后按时间顺序依次判断该短时能量差是否是小于预设阈值的负值；

当第一次检测到该短时能量差小于预设阈值负值时，根据时间顺序将小于预设阈值负值的两个帧信号中的后一个帧信号确定为结束帧信号。

104、计算该突变音频信号的频谱平坦度，若该频谱平坦度大于预设平坦值，则确定该音频信号存在爆音。

例如，具体可以将该突变音频信号进行傅里叶变换，得到频域突变音频信号，计算该频域突变音频信号的频谱平坦度，然后，判断该频谱平坦度是否大于预设平坦值；若该频谱平坦度大于预设平坦值，则确定该音频信号存在爆音；若该频谱平坦度小于预设平坦值，则确定该音频信号不存在爆音。

其中，预设平坦值的设定方式也可以有很多种，比如，可以根据实际应用的需求灵活设置，也可以预先设置好存储在网络设备中。此外，预设平坦值可以内置于网络设备中，或者，也可以保存在存储器中并发送给网络设备，等等。

其中，频谱平坦度，也称为维纳熵，是数字信号处理中用于表征音频频谱的度量。频谱平坦度可以通过对信号的几何平均数(Geometric Mean，GM)与算术平均数(Arithmetic Mean，AM)的比值来进行衡量，一般也叫频谱平坦度(SpectralFlatnessMeasure，SFM)。即：

其中，w(n)为窗函数，k为频域突变音频信号的频点，X为频域突变音频信号。其中，窗函数可以选择矩形窗、三角窗、或者汉宁窗等等。

F(t)＝GM(t)/AM(t)

其中，GM(t)为频域突变音频信号的几何平均数，AM(t)为频域突变音频信号的算术平均数，F(t)为频谱平坦度。

例如，为了更进一步地提升检测的准确性，保证给用户体验的音频没有瑕疵，可以先检测该突变音频信号的峰值位置，然后以该峰值位置为中心，向左右各取N/2个采样点组成一个爆音音频帧，即爆音音频帧一共有N个采样点。因此，步骤“计算该突变音频信号的频谱平坦度”，具体可以如下：

检测该突变音频信号的峰值位置；

在该峰值位置的前后各取多个固定采样点组成爆音音频帧；

计算该爆音音频帧的频谱平坦度。

在检测到一个爆音之后，为了后续修复的准确性，可以继续检测短时能量差获取满足预设条件区间的帧信号，直到所有待检测的音频信号都检测完毕，即步骤“若该频谱平坦度大于预设平坦值，则确定该音频信号存在爆音”之后，还可以包括：

返回执行根据该短时能量差获取满足预设条件区间的帧信号，得到突变音频信号的步骤，直到待检测的音频信号检测完毕。

在音频信号检测完毕之后，可以生成检测结果的界面，该界面包括检测接口，该接口可以接收待检测的音频信号的检测结果，检测完成后在该界面提示是否检测到音频爆音信号。

由上可知，本实施例在对音频信号进行爆音检测时，可以获取待检测的音频信号，将该音频信号划分为多个帧信号，接着，计算相邻两个帧信号的短时能量差，然后，根据该短时能量差获取满足预设条件区间的帧信号，得到突变音频信号，再然后，计算该突变音频信号的频谱平坦度，若该频谱平坦度大于预设平坦值，则确定该音频信号存在爆音；该方案通过对音频信号进行分帧，然后计算出每帧音频信号的时域短时能量，通过短时能量差找出能量突变的音频帧位置，找出突变音频信号，然后计算它的频谱平坦度，通过地频谱平坦度来准确地筛选出有频带缺失的音频文件。

根据前面实施例所描述的方法，以下将以该音频爆音检测装置具体集成在网络设备中举例作进一步详细说明。

如图2a所示，一种音频爆音检测方法，具体流程可以如下：

201、网络设备获取待检测的音频信号。

例如，用户具体可以从网络、手机或者视频等各种途径来获取音频文件，进而提供给网络设备，网络设备可以接收各种途径获取到的音频文件，并从这些文件中提取出待检测的音频信号。

202、网络设备将该音频信号进行分帧，得到帧信号。

例如，为了提高检测的效率，网络设备可以在音频信号的时域内的开始处，设定检测的时间段，并对该时间段内的音频信号进行分帧处理，即步骤“将该音频信号划分为多个帧信号”，具体可以如下：

将该开头音频信号划分为多个帧信号。

203、网络设备计算相邻两个帧信号的短时能量差。

例如，网络设备具体可以计算每个帧信号的短时能量，然后，获取每个帧信号的时间，根据该帧信号的时间顺序依次计算相邻两个帧信号的短时能量之间的差，得到相邻两个帧信号的短时能量差。

其中，计算相邻两个帧信号的短时能量差，可以如下：

p_t＝E(t)-E(t-1)

其中，t为帧的位置，p_t为相邻两个帧信号的短时能量差。

204、网络设备根据该短时能量差获取满足预设条件区间的帧信号，得到突变音频信号。

例如，网络设备具体可以获取该短时能量差大于预设阈值的两个帧信号，根据时间顺序将两个帧信号中的后一个帧信号确定为开始帧信号，在该开始帧信号后获取该短时能量差小于预设阈值负值的两个帧信号，根据时间顺序将两个帧信号中的后一个帧信号确定为结束帧信号，获取该开始帧信号到该结束帧信号之间的信号，得到突变音频信号。比如，如图2b所示，计算E(2)和E(3)的短时能量差p₃，若p₃>Th，则开始帧信号为第三帧信号a，继续计算第三帧信号后的相邻两个帧信号的短时能量差，若获取到E(3)和E(4)的短时能量差p₄<-Th，则结束帧信号为第四帧信号b，将第三帧信号a到第四帧信号b作为该音频信号的突变音频信号。

其中，预设阈值的设定方式也可以有很多种，比如，可以根据实际应用的需求灵活设置，也可以预先设置好存储在网络设备中。此外，预设阈值可以内置于网络设备中，或者，也可以保存在存储器中并发送给网络设备，等等。

205、网络设备计算该突变音频信号的频谱平坦度。

例如，网络设备具体可以将该突变音频信号进行傅里叶变换，得到频域突变音频信号，然后，计算该频域突变音频信号的频谱平坦度。

其中，频谱平坦度，也称为维纳熵，是数字信号处理中用于表征音频频谱的度量。频谱平坦度可以通过对信号的几何平均数(GM)与算术平均数(AM)的比值来进行衡量，一般也叫频谱平坦度。即：

F(t)＝GM(t)/AM(t)

例如，为了更进一步地提升检测的准确性，保证给用户体验的音频没有瑕疵，网络设备可以先检测该突变音频信号的峰值位置，然后以该峰值位置为中心，向左右各取相同多个采样点组成一个爆音音频帧，即具体可以检测该突变音频信号的峰值位置；在该峰值位置的前后各取多个固定采样点组成爆音音频帧；计算该爆音音频帧的频谱平坦度。

比如，如图2b所示，以该突变音频信号的峰值位置为中心，向左右各取N/2个采样点组成一个爆音音频帧c，即爆音音频帧c一共有N个采样点，然后计算该爆音音频帧c的频谱平坦度。

206、网络设备判断该频谱平坦度是否大于预设平坦值，若该频谱平坦度大于预设平坦值，则确定该音频信号存在爆音。

例如，网络设备具体可以判断该频谱平坦度是否大于预设平坦值；若该频谱平坦度大于预设平坦值，则确定该音频信号存在爆音；若该频谱平坦度小于预设平坦值，则确定该音频信号不存在爆音。

207、网络设备判断待检测的音频信号是否检测完毕，若无，则返回执行根据该短时能量差获取满足预设条件区间的帧信号(即返回执行步骤204)，得到突变音频信号的步骤，直到待检测的音频信号检测完毕。

例如，在检测到一个爆音之后，为了后续修复的准确性，网络设备可以继续检测短时能量差获取满足预设条件区间的帧信号，直到所有待检测的音频信号都检测完毕，即返回执行根据该短时能量差获取满足预设条件区间的帧信号，得到突变音频信号的步骤，直到待检测的音频信号检测完毕。比如，根据该突变音频信号的频谱平坦度判断预设平坦值是否大于预设平坦值之后，无论判断结果是否大于预设平坦值，还可以继续检测第四帧信号之后的帧信号，直到所有的帧信号检测完毕，得到检测结果。

可选的，在音频信号检测完毕之后，可以生成检测结果的界面，该界面包括检测接口，该接口可以接收待检测的音频信号的检测结果，检测完成后在该界面提示是否检测到音频爆音信号。

可选的，在检测出开头爆音之后，还可以对这些频带缺失信号进行修复或替换，以保证用户可以收听到优质的音频文件。

由上可知，本实施例的网络设备在对音频信号进行爆音检测时，可以获取待检测的音频信号，将该音频信号划分为多个帧信号，接着，计算相邻两个帧信号的短时能量差，然后，根据该短时能量差获取满足预设条件区间的帧信号，得到突变音频信号，再然后，计算该突变音频信号的频谱平坦度，若该频谱平坦度大于预设平坦值，则确定该音频信号存在爆音；该方案通过对音频信号进行分帧，然后计算出每帧音频信号的时域短时能量，通过短时能量差找出能量突变的音频帧位置，找出突变音频信号，然后计算它的频谱平坦度，通过地频谱平坦度来准确地筛选出有频带缺失的音频文件。

此外，该方案还可以对开头爆音进行修复或替换，因此，可以提高音频文件的质量，改善用户体验。

为了更好地实施本申请实施例提供的音频爆音检测方法，本申请实施例还提供一种音频爆音检测装置，该音频爆音检测装置具体可以集成在如手机、平板电脑、掌上电脑等网络设备中。其中名词的含义与上述音频爆音检测方法中相同，具体实现细节可以参考方法实施例中的说明。

例如，如图3a所示，音频爆音检测装置可以包括分帧模块301、计算模块302、获取模块303以及判断模块304，如下：

(1)分帧模块301；

分帧模块301，用于获取待检测的音频信号，将该音频信号划分为多个帧信号。

例如，分帧模块301，具体可以先从网络、手机或者视频等各种途径来获取音频文件，进而提供给该音频爆音检测装置，即，该音频爆音检测装置具体可以接收各种途径获取到的音频文件，再从这些文件中提取出待检测的音频信号。接着，将这些音频信号划分为多个帧信号。

为了提高检测的效率，可以在音频信号的时域内的开始处，设定检测的时间段，并对该时间段内的音频信号进行分帧处理，即分帧模块可以包括选取子模块和分帧子模块，如下：

选取子模块，用于在时域内从首帧开始对该音频信号选取预设时间段的信号，得到开头音频信号；

分帧子模块，用于将该开头音频信号划分为多个帧信号。

(2)计算模块302；

计算模块302，用于计算相邻两个帧信号的短时能量差。

例如，计算模块302，可以包括能量子模块、获取子模块和能量差子模块，如下：

能量子模块，用于计算每个帧信号的短时能量；

获取子模块，用于获取每个帧信号的时间；

能量差子模块，用于根据该帧信号的时间顺序依次计算相邻两个帧信号的短时能量之间的差，得到相邻两个帧信号的短时能量差。

其中，计算相邻两个帧信号的短时能量差，可以如下：

p_t＝E(t)-E(t-1)

其中，t为帧的位置，p_t为相邻两个帧信号的短时能量差。

(3)获取模块303；

获取模块303，用于根据该短时能量差获取满足预设条件区间的帧信号，得到突变音频信号。

例如，获取模块303，具体可以获取该短时能量差大于预设阈值的两个帧信号，根据时间顺序将两个帧信号中的后一个帧信号确定为开始帧信号，在该开始帧信号后获取该短时能量差小于预设阈值负值的两个帧信号，根据时间顺序将两个帧信号中的后一个帧信号确定为结束帧信号，获取该开始帧信号到该结束帧信号之间的信号，得到突变音频信号。

为了后续的频率平坦度的计算更贴近预设条件区间的真实值，为了使检测结果的准确性更高，可以取在开始帧信号之后第一次检测到短时能量差小于预设阈值负值的帧信号两个帧信号中的后一个帧信号为结束帧信号，即获取模块具体可以执行如下操作：

(4)判断模块304；

判断模块304，用于计算该突变音频信号的频谱平坦度，若该频谱平坦度大于预设平坦值，则确定该音频信号存在爆音。

例如，判断模块304，具体可以将该突变音频信号进行傅里叶变换，得到频域突变音频信号，计算该频域突变音频信号的频谱平坦度，然后，判断该频谱平坦度是否大于预设平坦值；若该频谱平坦度大于预设平坦值，则确定该音频信号存在爆音；若该频谱平坦度小于预设平坦值，则确定该音频信号不存在爆音。

F(t)＝GM(t)/AM(t)

例如，为了更进一步地提升检测的准确性，保证给用户体验的音频没有瑕疵，可以先检测该突变音频信号的峰值位置，然后以该峰值位置为中心，向左右各取N/2个采样点组成一个爆音音频帧，即爆音音频帧一共有N个采样点。因此，判断模块具体可以包括检测子模块、采样子模块和计算子模块，如下：

检测子模块，用于检测该突变音频信号的峰值位置；

采样子模块，用于采样子单元在该峰值位置的前后各取多个固定采样点组成爆音音频帧；

计算子模块，计算该爆音音频帧的频谱平坦度。

在检测到一个爆音之后，为了后续修复的准确性，可以继续检测短时能量差获取满足预设条件区间的帧信号，直到所有待检测的音频信号都检测完毕，即音频爆音检测装置，如图3b所示，还可以包括检测模块305，如下：

检测模块305，用于返回执行根据该短时能量差获取满足预设条件区间的帧信号，得到突变音频信号的步骤，直到待检测的音频信号检测完毕。

本领域技术人员可以理解，图3a中示出的音频爆音检测装置并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。此外，需说明的是，上述各个单元的具体实施可参见前面的方法实施例，在此不作赘述。

由上可知，本实施例的音频爆音检测装置，在对音频信号进行爆音检测时，分帧模块301可以获取待检测的音频信号，将该音频信号划分为多个帧信号，接着，计算模块302计算相邻两个帧信号的短时能量差，然后，获取模块303根据该短时能量差获取满足预设条件区间的帧信号，得到突变音频信号，再然后，判断模块304计算该突变音频信号的频谱平坦度，若该频谱平坦度大于预设平坦值，则确定该音频信号存在爆音；该方案通过对音频信号进行分帧，然后计算出每帧音频信号的时域短时能量，通过短时能量差找出能量突变的音频帧位置，找出突变音频信号，然后计算它的频谱平坦度，通过地频谱平坦度来准确地筛选出有频带缺失的音频文件。

相应的，本发明实施例还提供一种网络设备，该网络设备可以为服务器或终端等设备，其集成了本发明实施例所提供的任一种音频爆音检测装置。如图4所示，其示出了本发明实施例所涉及的网络设备的结构示意图，具体来讲：

该网络设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的网络设备结构并不构成对网络设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该网络设备的控制中心，利用各种接口和线路连接整个网络设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行网络设备的各种功能和处理数据，从而对网络设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据网络设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

网络设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理***与处理器401逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该网络设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，网络设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，网络设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取待检测的音频信号，将该音频信号划分为多个帧信号，接着，计算相邻两个帧信号的短时能量差，然后，根据该短时能量差获取满足预设条件区间的帧信号，得到突变音频信号，再然后，计算该突变音频信号的频谱平坦度，若该频谱平坦度大于预设平坦值，则确定该音频信号存在爆音。

可选的，将该音频信号划分为多个帧信号，可以包括：

在时域内从首帧开始对该音频信号选取预设时间段的信号，得到开头音频信号；将该开头音频信号划分为多个帧信号。

可选的，计算相邻两个帧信号的短时能量差，可以包括：

计算每个帧信号的短时能量；获取每个帧信号的时间；根据该帧信号的时间顺序依次计算相邻两个帧信号的短时能量之间的差，得到相邻两个帧信号的短时能量差。

可选的，根据该短时能量差获取满足预设条件区间的帧信号，得到突变音频信号，可以包括：

获取该短时能量差大于预设阈值的两个帧信号，根据时间顺序将两个帧信号中的后一个帧信号确定为开始帧信号；在该开始帧信号后获取该短时能量差小于预设阈值负值的两个帧信号，根据时间顺序将两个帧信号中的后一个帧信号确定为结束帧信号；获取该开始帧信号到该结束帧信号之间的信号，得到突变音频信号。

可选的，在该开始帧信号后获取该短时能量差小于预设阈值负值的两个帧信号，根据时间顺序将两个帧信号中的后一个帧信号确定为结束帧信号，可以包括：

在该开始帧信号后按时间顺序依次判断该短时能量差是否是小于预设阈值的负值；当第一次检测到该短时能量差小于预设阈值负值时，根据时间顺序将小于预设阈值负值的两个帧信号中的后一个帧信号确定为结束帧信号。

可选的，计算该突变音频信号的频谱平坦度，可以包括：

检测该突变音频信号的峰值位置；在该峰值位置的前后各取多个固定采样点组成爆音音频帧；计算该爆音音频帧的频谱平坦度。

可选的，若该频谱平坦度大于预设平坦值，则确定该音频信号存在爆音，可以包括：

判断该频谱平坦度是否大于预设平坦值；若该频谱平坦度大于预设平坦值，则确定该音频信号存在爆音；若该频谱平坦度小于预设平坦值，则确定该音频信号不存在爆音。

可选的，若该频谱平坦度大于预设平坦值，则确定该音频信号存在爆音之后，还可以包括：

以上各个操作具体可参见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种音频爆音检测方法中的步骤。例如，该指令可以执行如下步骤：

获取待检测的音频信号，将该音频信号划分为多个帧信号，接着，计算相邻两个帧信号的短时能量差，然后，根据该短时能量差获取满足预设条件区间的帧信号，得到突变音频信号，再然后，计算该突变音频信号的频谱平坦度，若该频谱平坦度大于预设平坦值，则确定该音频信号存在爆音

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(Read Only Memory，ROM)、随机存取记忆体(Random Access Memory，RAM)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种音频爆音检测方法中的步骤，因此，可以实现本申请实施例所提供的任一种应用于音频爆音检测方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种音频爆音检测方法、装置和存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上该，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音频爆音检测方法，其特征在于，包括：

计算相邻两个帧信号的短时能量差；

2.根据权利要求1所述音频爆音检测方法，其特征在于，所述将所述音频信号划分为多个帧信号，包括：

将所述开头音频信号划分为多个帧信号。

3.根据权利要求1所述音频爆音检测方法，其特征在于，所述计算相邻两个帧信号的短时能量差，包括：

计算每个帧信号的短时能量；

获取每个帧信号的时间；

4.根据权利要求3所述音频爆音检测方法，其特征在于，所述根据所述短时能量差获取满足预设条件区间的帧信号，得到突变音频信号，包括：

5.根据权利要求4所述音频爆音检测方法，其特征在于，所述在所述开始帧信号后获取所述短时能量差小于预设阈值负值的两个帧信号，根据时间顺序将两个帧信号中的后一个帧信号确定为结束帧信号，包括：

6.根据权利要求1所述音频爆音检测方法，其特征在于，所述计算所述突变音频信号的频谱平坦度，包括：

检测所述突变音频信号的峰值位置；

计算所述爆音音频帧的频谱平坦度。

7.根据权利要求1所述音频爆音检测方法，其特征在于，所述若所述频谱平坦度大于预设平坦值，则确定所述音频信号存在爆音，包括：

判断所述频谱平坦度是否大于预设平坦值；

8.根据权利要求1所述音频爆音检测方法，其特征在于，所述若所述频谱平坦度大于预设平坦值，则确定所述音频信号存在爆音之后，还包括：

9.一种音频爆音检测装置，其特征在于，包括：

计算模块，用于计算相邻两个帧信号的短时能量差；

10.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至8任一项所述的音频爆音检测方法中的步骤。