CN106847307B

CN106847307B - 信号检测方法及装置

Info

Publication number: CN106847307B
Application number: CN201611191517.9A
Authority: CN
Inventors: 劳振锋
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2016-12-21
Filing date: 2016-12-21
Publication date: 2020-07-10
Anticipated expiration: 2036-12-21
Also published as: CN106847307A

Abstract

本发明公开了一种信号检测方法及装置，属于信号处理技术领域。所述方法包括：获取多媒体文件中具有削波失真的候选音频信号帧；对所述候选音频信号帧进行时频变换，得到所述候选音频信号帧对应的频域信号；根据所述频域信号的幅度值确定所述候选音频信号帧是否是破音帧；当存在所述破音帧时，检测所述多媒体文件中的连续的所述破音帧的个数是否达到预设个数；当确定出所述多媒体文件中的连续的所述破音帧的个数达到预设个数时，确定所述多媒体文件存在破音信号。本发明解决了提供者召回的多媒体文件并不是全部具有破音信号，召回的准确性不高的问题；提高了提供者召回具有破音信号的多媒体文件的准确性。

Description

信号检测方法及装置

技术领域

本发明涉及信号处理技术领域，特别涉及一种信号检测方法及装置。

背景技术

终端通过音频播放器为用户提供歌曲、有声书、广播等多媒体文件。由于终端在播放音量超过音量上限的音频信号时，用户会听见“唦唦”的噪声，因此，为了提升终端播放多媒体文件时的效果，多媒体文件的提供者需要对多媒体文件是否具有破音信号进行检测，并对具有破音信号的多媒体文件进行召回。

相关技术提供了一种检测多媒体文件是否存在破音信号的方法，该方法包括：检测多媒体文件的音频信号是否存在削波失真；在存在削波失真时，确定多媒体文件存在破音信号。其中，所述削波失真是指由于音频信号帧的输出功率的动态范围超过预设动态范围所引起的失真。

由于具有削波失真的音频信号不一定是破音信号，若提供者直接将具有削波失真的音频信号进行召回，可能导致提供者召回的多媒体文件不具有破音信号，召回多媒体文件的准确性不高的问题。

发明内容

为了解决终端在将具有削波失真的音频信号直接作为破音信号时，导致的多媒体文件的提供者召回的多媒体文件并不是全部具有破音信号，召回的准确性不高的问题，本发明实施例提供了一种信号检测方法及装置。所述技术方案如下：

第一方面，提供了一种信号检测方法，所述方法包括：

获取多媒体文件中具有削波失真的候选音频信号帧，所述削波失真是指由于所述音频信号帧的输出功率的动态范围超过预设动态范围所引起的失真；

对所述候选音频信号帧进行时频变换，得到所述候选音频信号帧对应的频域信号；

根据所述频域信号的幅度值确定所述候选音频信号帧是否是破音帧；

当存在所述破音帧时，检测所述多媒体文件中的连续的所述破音帧的个数是否达到预设个数；

当确定出所述多媒体文件中的连续的所述破音帧的个数达到预设个数时，确定所述多媒体文件存在破音信号。

在可选的实施例中，所述根据所述频域信号的幅值确定所述候选音频信号帧是否是破音帧，包括：

确定所述频域信号中的每个频点所属的索引集合；

获取每个所述索引集合对应的破音阈值；

对于所述频域信号中的每个频点，检测所述频点对应的幅度值是否大于所述频点所属的所述索引集合对应的破音阈值；

在存在至少一个所述频点对应的幅度值大于所述频点所属的所述索引集合对应的破音阈值时，确定所述频域信号对应的所述候选音频信号帧是所述破音帧。

在可选的实施例中，所述确定所述频域信号中的每个频点所属的索引集合，包括：

获取对所述多媒体文件进行采样的采样频率；

从预设的对应关系中获取所述采样频率对应的扩展系数，所述对应关系包括所述采样频率与所述扩展系数之间的对应关系，所述扩展系数用于确定每个索引集合包括的频点；

根据所述扩展系数对每个预设的基准索引集合进行扩展，得到每个频点对应的所述索引集合；

根据每个频点的序号在每个所述索引集合中查找所属的所述索引集合。

在可选的实施例中，所述获取多媒体文件中具有削波失真的候选音频信号帧，包括：

对所述多媒体文件中的音频信号以预设步进的窗口进行分帧，得到至少一帧音频信号帧；

对于所述至少一帧音频信号帧中的每帧所述音频信号帧，检测所述音频信号帧是否满足削波失真条件，所述削波失真条件是指所述音频信号帧存在连续k个频点的幅度值大于等于幅度上限值或小于等于幅度下限值，所述k为大于1的整数；

当所述音频信号帧满足所述削波失真条件时，确定所述音频信号帧是具有所述削波失真的所述候选音频信号帧。

在可选的实施例中，所述时频变换为短时傅里叶变换。

第二方面，提供了一种信号检测装置，所述装置包括：

获取模块，用于获取多媒体文件中具有削波失真的候选音频信号帧，所述削波失真是指由于所述音频信号帧的输出功率的动态范围超过预设动态范围所引起的失真；

变换模块，用于对所述获取模块获取到的所述候选音频信号帧进行时频变换，得到所述候选音频信号帧对应的频域信号；

第一确定模块，用于根据所述变换模块得到的所述频域信号的幅度值确定所述候选音频信号帧是否是破音帧；

检测模块，用于当所述第一确定模块确定出存在所述破音帧时，检测所述多媒体文件中的连续的所述破音帧的个数是否达到预设个数；

第二确定模块，用于当所述检测模块确定出所述多媒体文件中的连续的所述破音帧的个数达到预设个数时，确定所述多媒体文件存在破音信号。

在可选的实施例中，所述第一确定模块，包括：

第一确定单元，用于确定所述频域信号中的每个频点所属的索引集合；

获取单元，用于获取每个所述第一确定单元创建的所述索引集合对应的破音阈值；

第一检测单元，用于对于所述频域信号中的每个频点，检测所述频点对应的幅度值是否大于所述获取单元获取到的所述频点所属的所述索引集合对应的破音阈值；

第二确定单元，用于在所述第一检测单元检测出存在至少一个所述频点对应的幅度值大于所述频点所属的所述索引集合对应的破音阈值时，确定所述频域信号对应的所述候选音频信号帧是所述破音帧。

在可选的实施例中，所述第一确定单元，还用于：

获取对所述多媒体文件进行采样的采样频率；

在可选的实施例中，所述获取模块，包括：

分帧单元，用于对所述多媒体文件中的音频信号以预设步进的窗口进行分帧，得到至少一帧音频信号帧；

第二检测单元，用于对于所述分帧单元得到的所述至少一帧音频信号帧中的每帧所述音频信号帧，检测所述音频信号帧是否满足削波失真条件，所述削波失真条件是指所述音频信号帧存在连续k个频点的幅度值大于等于幅度上限值或小于等于幅度下限值，所述k为大于1的整数；

第三确定单元，用于当所述第二检测单元检测出所述音频信号帧满足所述削波失真条件时，确定所述音频信号帧是具有所述削波失真的所述候选音频信号帧。

在可选的实施例中，所述时频变换为短时傅里叶变换。

本发明实施例提供的技术方案带来的有益效果是：

通过对具有削波失真的候选音频信号帧进行时频变换；根据得到的频域信号的幅度值确定对应的候选音频信号帧是否是破音帧；在存在破音帧，且连续的破音帧的个数达到预设个数时，确定多媒体文件存在破音信号；使得终端以实际上给用户造成听觉上的破音的破音信号的幅度值为基准，继续检测候选音频信号帧是否是破音帧，这样，可以从候选音频信号帧中筛选掉未造成听觉上的破音的音频信号帧，检测出的破音帧能够造成听觉上的破音的概率较大，解决了终端将具有削波失真的音频信号直接作为破音信号时，导致的提供者召回的多媒体文件并不是全部具有破音信号，召回的准确性不高的问题；提高了提供者召回具有破音信号的多媒体文件的准确性。

另外，由于一帧破音帧的时间很短，用户可能感知不到该帧破音帧存在破音，只有当破音帧的连续个数达到预设个数时，用户才能感知到多媒体文件存在破音，因此，通过当多媒体文件存在破音帧时，检测该多媒体文件中的连续的破音帧的个数是否达到预设个数，在达到预设个数时确定多媒体文件存在破音信号，使得终端能够检测出包括人耳听觉能够感知到的破音信号的多媒体文件，进一步地提高了提供者召回多媒体文件的准确性。

另外，通过确定每个频点对应的索引集合，同一索引集合内的不同频点对应同一破音阈值，使得终端无需记录每个频点对应的破音阈值，只需要记录每个索引集合对应的破音阈值，减少了所需记录的破音阈值的数量，节省了终端的存储空间。

另外，由于对于每帧频域信号中的每个频点，在多媒体文件的采样频率不同时，该频点对应的破音阈值可能不同，因此，通过根据多媒体文件的采样频率获取对应的扩展系数，根据该扩展系数对预设的基准索引集合进行扩展，使得频域信号中的每个频点根据采样频率的不同对应有不同的索引集合，从而对应不同的破音阈值，这样，终端在确定不同多媒体文件中的同一频点的索引集合时，只需要查找该频点所属的索引集合即可确定出对应的破音阈值，无需在多媒体文件的采样频率不同时，每次为不同的多媒体文件中的同一频点均确定一次破音阈值，节省了在多媒体文件的采样频率不同时，为每个频点确定破音阈值所消耗的资源。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的信号检测方法的流程图；

图2是本发明另一个实施例提供的信号检测方法的流程图；

图3是本发明一个实施例提供的信号检测装置的结构示意图；

图4是本发明另一个实施例提供的信号检测装置的结构示意图；

图5是本发明一个实施例提供的终端的结构方框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明实施例中，终端可以是手机、平板电脑、电子书阅读器、MP3(MovingPicture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

可选地，终端中运行有音乐播放器或者视频播放器，该音乐播放器或者视频播放器通常是指软件形式的播放器。也即，终端具有播放音频信号的能力。

请参考图1，其示出了本发明一个实施例提供的信号检测方法的流程图。该方法可以包括但不限于以下步骤：

在步骤101中，获取多媒体文件中具有削波失真的候选音频信号帧，削波失真是指由于音频信号帧的输出功率的动态范围超过预设动态范围所引起的失真。

在步骤102中，对候选音频信号帧进行时频变换，得到候选音频信号帧对应的频域信号。

在步骤103中，根据频域信号的幅值确定候选音频信号帧是否是破音帧。

在步骤104中，当存在破音帧时，检测多媒体文件中的连续的破音帧的个数是否达到预设个数。

在步骤105中，当确定出多媒体文件中的连续的破音帧的个数达到预设个数时，确定多媒体文件存在破音信号。

综上所述，本发明实施例提供的信号检测方法，通过对具有削波失真的候选音频信号帧进行时频变换；根据得到的频域信号的幅度值确定对应的候选音频信号帧是否是破音帧；在存在破音帧，且连续的破音帧的个数达到预设个数时，确定多媒体文件存在破音信号；使得终端以实际上给用户造成听觉上的破音的破音信号的幅度值为基准，继续检测候选音频信号帧是否是破音帧，这样，可以从候选音频信号帧中筛选掉未造成听觉上的破音的音频信号帧，检测出的破音帧能够造成听觉上的破音的概率较大，解决了终端将具有削波失真的音频信号直接作为破音信号时，导致的提供者召回的多媒体文件并不是全部具有破音信号，召回的准确性不高的问题；提高了提供者召回具有破音信号的多媒体文件的准确性。

请参考图2，其示出了本发明一个实施例提供的信号检测方法的流程图，该方法可以包括但不限于以下步骤：

在步骤201中，对多媒体文件中的音频信号以预设步进的窗口进行分帧，得到至少一帧音频信号帧。

多媒体文件是指包括图像信号、视频信号和音频信号中的至少一种的文件，由于本发明仅涉及对音频信号的检测，因此，在本文所提及的多媒体文件均指包括音频信号的文件。

终端对多媒体文件中音频信号以预设采样频率进行等间隔采样，得到在时域上离散的音频信号，终端对该时域上的音频信号加窗分帧后，会得到至少一帧音频信号，然后，对得到的至少一帧音频信号帧进行分析。

终端在对音频信号进行加窗处理时，以预设步进的窗口对音频信号进行加窗处理，比如：以512为步进、以32为步进、以64为步进等，本实施例对步进的数值不作限定。另外，终端进行加窗处理时使用的窗口的类型可以为矩形窗、汉宁窗、海明窗、平顶窗等，本实施例对此不作限定。

终端在对音频信号进行分帧处理时，以窗口滑动预设次数后得到的采样点为一帧，比如：以窗口滑动两次得到的采样点为一帧，这样，当窗口的步进为512时，一帧音频信号帧包括的采样点数为1024。

在步骤202中，对于至少一帧音频信号帧中的每帧音频信号帧，检测该音频信号帧是否满足削波失真条件。

其中，削波失真是指由于音频信号帧的输出功率的动态范围超过预设动态范围所引起的失真。当一帧音频信号帧存在部分采样点的信号的幅度值过大或过小时，说明终端在输出该帧音频信号帧时需要进行削波处理，这样，这部分采样点会存在削波失真。基于此，本实施例提供的削波失真条件是指音频信号帧存在连续k个频点的幅度值大于等于幅度上限值或小于等于幅度下限值，k为大于1的整数。本实施例不对k、幅度上限值和幅度下限值的具体数值作限定，可选地，k等于4、幅度上限值为1、幅度下限值为-1。

当终端检测出音频信号帧满足削波失真条件时，执行步骤203；当终端检测出音频信号帧不满足削波失真条件时，流程结束。

在步骤203中，确定音频信号帧是具有削波失真的候选音频信号帧。

在步骤204中，对候选音频信号帧进行时频变换，得到候选音频信号帧对应的频域信号。

由于时域上的候选音频信号的变化特性比较复杂，难于分析，因此，终端需要对候选音频信号进行时频变换，通过候选音频信号对应的频域信号来分析和表示时域上的候选音频信号的特性。

终端可以通过傅里叶变换、短时傅里叶变换等将候选音频信号由时域变换到频域。由于多媒体文件中的音频信号通常为非平稳信号，即，候选音频信号对应的频域特性随时间变化，而短时傅里叶变换可以表示候选音频信号中局部时段所对应的频域特性，因此，本实施例中所采样的时频变换方式为短时傅里叶变换。

其中，短时傅里叶变换的基本思想是把非平稳过程看成是一系列短时平稳信号的叠加。短时傅里叶变换公式如下：

其中，STFT{x[n]}表示经过短时傅里叶变换后的音频信号，x[n]表示时域上的候选音频信号，ω[n-m]表示窗口函数，m代表窗口长度，n代表采样点的序号。

在步骤205中，确定频域信号中的每个频点所属的索引集合。

当一帧频域信号中的频点个数较多时，不同频点可能对应同一破音阈值，此时，为了节省终端检测各个频点的幅度值是否达到破音阈值时所消耗的资源。本实施例中，终端为对应同一破音阈值的频点创建一个索引集合。索引集合的创建方式是根据大量实验获取到的，本实施例不对该索引集合的创建方式作限定。

终端确定频域信号中的每个频点所属的索引集合，包括：获取对多媒体文件进行采样的采样频率；从预设的对应关系中获取采样频率对应的扩展系数，对应关系包括采样频率与扩展系数之间的对应关系，扩展系数用于确定每个索引集合包括的频点；根据扩展系数对每个预设的基准索引集合进行扩展，得到每个频点对应的索引集合；根据每个频点的序号在每个索引集合中查找所属的索引集合。其中，基准索引集合预设在终端中，且基准索引集合至少包括每帧频域信号包括的所有频点的序号。本实施例不对基准索引集合的划分方式作限定，本实施例以每帧频域信号包括512个频点，基准索引集合为如下划分方式为例进行说明。其中，k1-k15表示索引集合的名称，1、2、3…512表示每个频点的序号。

k1＝[1],k2＝[2],k3＝[3],k4＝[4],k5＝[5],k6＝[6],k7＝[7],k8＝[8],k9＝[9],k10＝[10 11 12],k11＝[13 14],k12＝[15 16 17 18 19],k13＝[20 21 22 23 24],k14＝[25 26 27 28 29 30],k15＝[31 32 33 .... 512]。

终端根据扩展系数对每个预设的基准索引集合进行扩展时，根据如下公式对基准索引集合进行扩展。其中，ceil代表向下取整；kn代表第n个索引集合；i代表第n-1个基础索引集合的最后一个元素；j代表第n个基础索引集合的最后的一个元素；coff代表扩展系数。

kn＝[ceil(coff*i)+1ceil(coff*i)+2……ceil(coff*j)]。

根据上述公式可知，对上述基准索引集合进行扩展后，得到的索引集合如下。

k1＝[ceil(coff*1)]；

k2＝[ceil(coff*1)+1ceil(coff*1)+2……ceil(coff*2)]；

k3＝[ceil(coff*2)+1ceil(coff*2)+2……ceil(coff*3)]；

k4＝[ceil(coff*3)+1ceil(coff*3)+2……ceil(coff*4)]；

k5＝[ceil(coff*4)+1ceil(coff*4)+2……ceil(coff*5)]；

k6＝[ceil(coff*5)+1ceil(coff*5)+2.........ceil(coff*6)]；

k7＝[ceil(coff*6)+1ceil(coff*6)+2.........ceil(coff*7)]；

k8＝[ceil(coff*7)+1ceil(coff*7)+2.........ceil(coff*8)]；

k9＝[ceil(coff*8)+1ceil(coff*8)+2.........ceil(coff*9)]；

k10＝[ceil(coff*9)+1ceil(coff*9)+2.........ceil(coff*12)]；

k11＝[ceil(coff*12)+1ceil(coff*12)+2.........ceil(coff*14)]；

k12＝[ceil(coff*14)+1ceil(coff*14)+2.........ceil(coff*19)]；

k13＝[ceil(coff*19)+1ceil(coff*19)+2.........ceil(coff*24)]；

k14＝[ceil(coff*24)+1ceil(coff*24)+2.........ceil(coff*30)]；

k15＝[ceil(coff*30)+1ceil(coff*30)+2.........ceil(coff*512)]。

预设的对应关系包括采样频率与扩展系数之间的对应关系。假设采样频率与扩展系数之间的对应关系如下表一所示。

表一：

采样频率f(kHZ)	扩展系数coff
		f>32	1
32≥f>22.05	1.5
		22.05≥f>16	2
16≥f>11.025	3
		11.025≥f>8	4
f≤8	6

在步骤206中，获取每个索引集合对应的破音阈值。

本实施例通过为每个索引集合设置对应的破音阈值，在索引集合中存在至少一个频点的幅度值大于对应的破音阈值时，确定该频点所属的频域信号对应的候选音频信号帧是破音帧，这样，终端以破音信号的破音阈值为基准来检测频域信号对应的候选音频信号是否是破音帧，提高了终端检测多媒体文件是否包括破音信号的准确性。

每个索引集合对应的破音阈值存储在预设的破音阈值集合中，终端根据索引集合的序号获取破音阈值集合对应位置处的破音阈值，将该破音阈值作为该索引集合对应的破音阈值。假设破音阈值集合G(K)＝[250 235 230 225 200 190 185 180 175 172 170 175178 185 180]，则k1对应的破音阈值为250；k2对应的破音阈值为235；k3对应的破音阈值为230；k4对应的破音阈值为225；k5对应的破音阈值为200；k6对应的破音阈值为190；k7对应的破音阈值为185；k8对应的破音阈值为180；k9对应的破音阈值为175；k10对应的破音阈值为172；k11对应的破音阈值为170；k12对应的破音阈值为175；k13对应的破音阈值为178；k14对应的破音阈值为185；k15对应的破音阈值为180。

在步骤207中，对于频域信号中的每个频点，检测频点对应的幅度值是否大于频点所属的索引集合对应的破音阈值。

终端对频域信号中的每个频点，可以通过其所属的索引集合确定出对应的破音阈值。当终端检测出存在至少一个频点对应的幅度值大于频点所属的索引集合对应的破音阈值时，执行步骤208；当终端检测出所有频点对应的幅度值均小于或等于频点所属的索引集合对应的破音阈值时，流程结束。

在步骤208中，确定频域信号对应的候选音频信号帧是破音帧。

在步骤209中，当存在破音帧时，检测多媒体文件中的连续的破音帧的个数是否达到预设个数。

由于一帧音频信号帧的播放时长很短，在该多媒体文件仅存在一个破音帧时，可能用户听见的破音信号并不明显，此时，无需召回该多媒体文件。本实施例通过当多媒体文件存在破音帧时，检测多媒体文件中的连续的破音帧的个数是否达到预设个数，在达到预设个数时确定多媒体文件存在破音信号，使得终端能够检测出包括人耳听觉能够感知到的破音信号的多媒体文件，提高了提供者召回多媒体文件的准确性。本实施例不对该预设个数的具体数值作限定，比如：预设个数为4个。

当终端确定出多媒体文件中的连续的破音帧的个数达到预设个数时，执行步骤210；当确定出多媒体文件中的连续的破音帧的个数未达到预设个数时，流程结束。

在步骤210中，确定多媒体文件存在破音信号。

以下为本发明实施例的装置实施例，对于装置实施例中未详细描述的细节，可以参考上述一一对应的方法实施例。

请参考图3，其示出了本发明一个实施例提供的信号检测装置的结构示意图。该信号检测装置能够通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置包括：获取模块310、变换模块320、第一确定模块330和检测模块340和第二确定模块350。

获取模块310，用于获取多媒体文件中具有削波失真的候选音频信号帧，削波失真是指由于音频信号帧的输出功率的动态范围超过预设动态范围所引起的失真；

变换模块320，用于对获取模块310获取到的候选音频信号帧进行时频变换，得到候选音频信号帧对应的频域信号；

第一确定模块330，用于根据变换模块320得到的频域信号的幅度值确定候选音频信号帧是否是破音帧；

检测模块340，用于当第一确定模块330确定出存在破音帧时，检测多媒体文件中的连续的破音帧的个数是否达到预设个数；

第二确定模块350，用于当检测模块340确定出多媒体文件中的连续的破音帧的个数达到预设个数时，确定多媒体文件存在破音信号。

综上所述，本发明实施例提供的信号检测装置，通过对具有削波失真的候选音频信号帧进行时频变换；根据得到的频域信号的幅度值确定对应的候选音频信号帧是否是破音帧；在存在破音帧，且连续的破音帧的个数达到预设个数时，确定多媒体文件存在破音信号；使得终端以实际上给用户造成听觉上的破音的破音信号的幅度值为基准，继续检测候选音频信号帧是否是破音帧，这样，可以从候选音频信号帧中筛选掉未造成听觉上的破音的音频信号帧，检测出的破音帧能够造成听觉上的破音的概率较大，解决了终端将具有削波失真的音频信号直接作为破音信号时，导致的提供者召回的多媒体文件并不是全部具有破音信号，召回的准确性不高的问题；提高了提供者召回具有破音信号的多媒体文件的准确性。

请参考图4，其示出了本发明一个实施例提供的信号检测装置的结构示意图。该信号检测装置能够通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置包括：获取模块310、变换模块320、第一确定模块330和检测模块340和第二确定模块350。

可选地，第一确定模块330，包括：第一确定单元331、获取单元332、第一检测单元333和第二确定单元334。

第一确定单元331，用于确定频域信号中的每个频点所属的索引集合；

获取单元332，用于获取每个第一确定单元331创建的索引集合对应的破音阈值；

第一检测单元333，用于对于频域信号中的每个频点，检测频点对应的幅度值是否大于获取单元332获取到的频点所属的索引集合对应的破音阈值；

第二确定单元334，用于在第一检测单元333检测出存在至少一个频点对应的幅度值大于频点所属的索引集合对应的破音阈值时，确定频域信号对应的候选音频信号帧是破音帧。

可选地，第一确定单元331，还用于：

获取对多媒体文件进行采样的采样频率；

从预设的对应关系中获取采样频率对应的扩展系数，对应关系包括采样频率与扩展系数之间的对应关系，扩展系数用于确定每个索引集合包括的频点；

根据扩展系数对每个预设的基准索引集合进行扩展，得到每个频点对应的索引集合；

根据每个频点的序号在每个索引集合中查找所属的索引集合。

可选地，获取模块310，包括：分帧单元311、第二检测单元312和第三确定单元313。

分帧单元311，用于对多媒体文件中的音频信号以预设步进的窗口进行分帧，得到至少一帧音频信号帧；

第二检测单元312，用于对于分帧单元311得到的至少一帧音频信号帧中的每帧音频信号帧，检测音频信号帧是否满足削波失真条件，削波失真条件是指音频信号帧存在连续k个频点的幅度值大于等于幅度上限值或小于等于幅度下限值，k为大于1的整数；

第三确定单元313，用于当第二检测单元312检测出音频信号帧满足削波失真条件时，确定音频信号帧是具有削波失真的候选音频信号帧。

可选地，时频变换为短时傅里叶变换。

需要说明的是：上述实施例提供的多媒体信号检测装置在检测音频信号时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的多媒体内容装置与多媒体信号检测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图5，其示出了本发明一个实施例提供的终端的结构方框图。该终端可以用于实施上述实施例中提供的信息获取方法。具体来讲：

终端500可以包括RF(Radio Frequency，射频)电路510、包括有一个或一个以上计算机可读存储介质的存储器520、输入单元530、显示单元540、传感器550、音频电路560、WiFi(wireless fidelity，无线保真)模块570、包括有一个或者一个以上处理核心的处理器580、以及电源590等部件。本领域技术人员可以理解，图5中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器580处理；另外，将涉及上行的数据发送给基站。通常，RF电路510包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路510还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯***)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(CodeDivision Multiple Access，码分多址)、WCDMA(Wideband Code Division MultipleAccess,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(ShortMessaging Service，短消息服务)等。

存储器520可用于存储软件程序以及模块，处理器580通过运行存储在存储器520的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端500的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器520还可以包括存储器控制器，以提供处理器580和输入单元530对存储器520的访问。

输入单元530可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元530可包括触敏表面531以及其他输入设备532。触敏表面531，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面531上或在触敏表面531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器580，并能接收处理器580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面531。除了触敏表面531，输入单元530还可以包括其他输入设备532。具体地，其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元540可用于显示由用户输入的信息或提供给用户的信息以及终端500的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元540可包括显示面板541，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板541。进一步的，触敏表面531可覆盖显示面板541，当触敏表面531检测到在其上或附近的触摸操作后，传送给处理器580以确定触摸事件的类型，随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图5中，触敏表面531与显示面板541是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面531与显示面板541集成而实现输入和输出功能。

终端500还可包括至少一种传感器550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板541的亮度，接近传感器可在终端500移动到耳边时，关闭显示面板541和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端500还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路560、扬声器551，传声器552可提供用户与终端500之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号，传输到扬声器551，由扬声器551转换为声音信号输出；另一方面，传声器552将收集的声音信号转换为电信号，由音频电路560接收后转换为音频数据，再将音频数据输出处理器580处理后，经RF电路510以发送给比如另一终端，或者将音频数据输出至存储器520以便进一步处理。音频电路560还可能包括耳塞插孔，以提供外设耳机与终端500的通信。

WiFi属于短距离无线传输技术，终端500通过WiFi模块570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图5示出了WiFi模块570，但是可以理解的是，其并不属于终端500的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器580是终端500的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，以及调用存储在存储器520内的数据，执行终端500的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器580可包括一个或多个处理核心；优选的，处理器580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器580中。

终端500还包括给各个部件供电的电源590(比如电池)，优选的，电源可以通过电源管理***与处理器580逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源590还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端500还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端500的显示单元是触摸屏显示器，终端500还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行。所述一个或者一个以上程序包含用于执行上述信息获取方法中各个操作的指令。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述图1实施例或图2实施例所示出的信号检测方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种信号检测方法，其特征在于，所述方法包括：

对所述候选音频信号帧进行时频变换，得到所述候选音频信号帧对应的频域信号，所述时频变换为短时傅里叶变换；

当确定出所述多媒体文件中的连续的所述破音帧的个数达到预设个数时，确定所述多媒体文件存在能被人耳听觉感知的破音信号；

所述根据所述频域信号的幅值确定所述候选音频信号帧是否是破音帧，包括：

确定所述频域信号中的每个频点所属的索引集合；

获取每个所述索引集合对应的破音阈值；

2.根据权利要求1所述的方法，其特征在于，所述确定所述频域信号中的每个频点所属的索引集合，包括：

获取对所述多媒体文件进行采样的采样频率；

3.根据权利要求1所述的方法，其特征在于，所述获取多媒体文件中具有削波失真的候选音频信号帧，包括：

4.一种信号检测装置，其特征在于，所述装置包括：

变换模块，用于对所述获取模块获取到的所述候选音频信号帧进行时频变换，得到所述候选音频信号帧对应的频域信号，所述时频变换为短时傅里叶变换；

第二确定模块，用于当所述检测模块确定出所述多媒体文件中的连续的所述破音帧的个数达到预设个数时，确定所述多媒体文件存在能被人耳听觉感知的破音信号；

所述第一确定模块，包括：

5.根据权利要求4所述的装置，其特征在于，所述第一确定单元，还用于：

获取对所述多媒体文件进行采样的采样频率；

6.根据权利要求4所述的装置，其特征在于，所述获取模块，包括：