CN103440270A

CN103440270A - 实现音频文件重复模式发现的***和方法

Info

Publication number: CN103440270A
Application number: CN201310334235XA
Authority: CN
Inventors: 吴及; 吕萍; 徐伟; 何婷婷
Original assignee: Tsinghua University; iFlytek Co Ltd
Current assignee: Tsinghua University; iFlytek Co Ltd
Priority date: 2013-08-02
Filing date: 2013-08-02
Publication date: 2013-12-11
Anticipated expiration: 2033-08-02
Also published as: CN103440270B

Abstract

本发明涉及音频处理技术领域，公开了一种实现音频文件重复模式发现的***和方法。该***包括：获取模块，用于获取各音频文件；特征提取模块，用于从所述音频文件中提取音频比对特征；匹配模块，用于基于所述音频比对特征依次两两匹配所述音频文件，得到两两匹配的重复音频片段；合并模块，用于将在多个音频文件中均出现的重复音频片段进行合并，生成音频文件重复模式。利用本发明，可以实现大规模音频库中重复模式的准确发现。

Description

实现音频文件重复模式发现的***和方法

技术领域

本发明涉及音频处理技术领域，具体涉及一种实现音频文件重复模式发现的***和方法。

背景技术

随着通讯技术和互联网技术的发展，越来越多的音频数据出现在人们的日常生活中。和文本数据不同，音频数据是非符号化的信号数据，对其处理也更为困难。音频信号处理在信息安全和舆情监控应用中有着非常重要的应用价值，特别是从海量音频数据中自动发现频繁出现的音频片段，即音频文件重复发现，有实际意义。对电话类音频数据，利用该技术可以快速发现正在传播的非法电话录音。而对互联网音视频数据，利用该技术可以快速准确地挖掘出目前最流行的音视频片段。进一步地，通过音频文件重复模式发现技术可获得重复音频模板库，便于利用所述音频模板匹配技术检测新增音频文件中是否包含模板库中的音频片段，实现快速定位确认，及时了解音频模板库中的音频模板在电话网或互联网上的传播情况。

现有的重复模式发现技术只能处理符号化数据的重复子集发现问题，对信号级别的音频数据没有可以使用的有效方案。

发明内容

本发明实施例提供一种实现音频文件重复模式发现的***和方法，以解决在海量音频库中重复片段自动搜索的问题。

为此，本发明提供如下技术方案：

一种实现音频文件重复模式发现的***，包括：

获取模块，用于获取各音频文件；

特征提取模块，用于从所述音频文件中提取音频比对特征；

匹配模块，用于基于所述音频比对特征依次两两匹配所述音频文件，得到两两匹配的重复音频片段；

合并模块，用于将在多个音频文件中均出现的重复音频片段进行合并，得到音频文件重复模式。

优选地，所述特征提取模块包括：

降采样单元，用于对所述音频文件数据进行降采样；

矢量转化单元，用于将所述降采样后的数据量化为二进制的特征矢量序列。

优选地，所述匹配模块包括：

粗匹配单元，用于基于所述音频比对特征对任意两个音频文件进行粗匹配，确定各重复子段的边界；

合并单元，用于在相邻的两个重复子段的长度均大于第一门限值，并且所述两个重复子段的间隔小于第二门限值时，将所述两个重复子段合并；

精确匹配模块，用于基于合并后的重复子段对所述两个音频文件进行精确匹配，得到所述两个音频文件的重复音频片段。

优选地，所述粗匹配单元包括：

提取单元，用于依次提取其中一个音频文件的一帧音频比对特征；

查找单元，用于查找另一个音频文件中与提取的所述音频比对特征相同的匹配帧；

第一扩展单元，用于在所述查找单元查找到所述匹配帧后，分别对所述匹配帧及提取的音频比对特征所在帧进行前后扩展；

第一边界确定单元，用于在扩展后的时长内确定重复子段的边界。

优选地，所述精确匹配单元包括：

第二扩展单元，用于对所述重复子段分别在两个音频文件中向上和向下扩展；

判断单元，用于计算在扩展的视窗内的比特错误率的平均得分，并且在所述平均得分小于设定值时，通知所述第二扩展单元停止扩展；

第二边界确定单元，用于在扩展的上、下视窗内分别确定所述两个音频文件的重复音频片段的上、下边界。

一种实现音频文件重复模式发现的方法，包括：

获取各音频文件；

从所述音频文件中提取音频比对特征；

基于所述音频比对特征依次两两匹配所述音频文件，得到两两匹配的重复音频片段；

将在多个音频文件中均出现的重复音频片段进行合并，得到音频文件重复模式。

优选地，所述从各音频文件中提取音频特征包括：

对所述音频文件数据进行降采样；

将所述降采样后的数据量化为二进制的特征矢量序列。

优选地，所述基于所述音频比对特征依次两两匹配所述音频文件，得到两两匹配的重复音频片段包括：

基于所述音频比对特征对任意两个音频文件进行粗匹配，确定各重复子段的边界；

如果相邻的两个重复子段的长度均大于第一门限值，并且所述两个重复子段的间隔小于第二门限值，则将所述两个重复子段合并；

基于合并后的重复子段对所述两个音频文件进行精确匹配，得到所述两个音频文件的重复音频片段。

优选地，所述基于所述音频比对特征对任意两个音频文件进行粗匹配，确定各重复子段的边界包括：

依次提取其中一个音频文件的一帧音频比对特征；

查找另一个音频文件中与提取的所述音频比对特征相同的匹配帧；

查找到所述匹配帧后，分别对所述匹配帧及提取的音频比对特征所在帧进行前后扩展；

在扩展后的时长内确定重复子段的边界。

优选地，所述基于合并后的重复子段对所述两个音频文件进行精确匹配，得到所述两个音频文件的重复音频片段包括：

对所述重复子段分别在两个音频文件中向上和向下扩展；

如果在扩展的视窗内的比特错误率的平均得分小于设定值，则停止扩展；

在扩展的上、下视窗内分别确定所述两个音频文件的重复音频片段的上、下边界。

本发明实施例提供的实现音频文件重复模式发现的***和方法，从各音频文件中提取音频比对特征，基于所述音频比对特征依次两两匹配所述音频文件，得到两两匹配的重复音频片段，将在多个音频文件中均出现的重复音频片段进行合并，生成音频文件重复模式，从而实现了大规模音频库中重复模式的准确发现。

进一步地，在进行音频文件的匹配时，首先通过粗匹配的方式快速发现重复音频片段的大致位置，然后通过精确匹配确定准确的重复的音频片段边界，在提高检出效率的同时提高了准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例实现音频文件重复模式发现的***的一种结构框图；

图2是本发明实施例中匹配模块的一种结构示意图；

图3是本发明实施例实现音频文件重复模式发现的***的方法的流程图；

图4是本发明实施例中重复音频片段进行合并的示意图；

图5是本发明实施例中对两个音频文件进行匹配的流程图；

图6是本发明实施例中重复子段合并的示意图；

图7是本发明实施例中确定重复音频片段边界的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

重复模式发现即搜索数据库中重复出现的模式，是数据挖掘领域的任务之一。重复模式发现技术在符合一定结构的符号类数据库中有着较为广泛的应用，包括对数据库中频繁出现的项集、子序列、字结构等的发现。如文本数据中的重复模式即指重复出现的句子或段落等。对符号类数据的重复模式发现可以利用传统高效的Apriori等算法获得。

由于音频数据是非符号化的信号数据，现有的Apriori算法并不适用，而且目前没有任何方案可以解决音频数据的重复模式发现问题。

为此，本发明实施例提供一种实现音频文件重复模式发现的***和方法，从各音频文件中提取音频比对特征，基于所述音频比对特征依次两两匹配所述音频文件，得到两两匹配的重复音频片段，将在多个音频文件中均出现的重复音频片段进行合并，生成音频文件重复模式，从而实现了大规模音频库中重复模式的准确发现。

如图1所示，是本发明实施例实现音频文件重复模式发现的方法的***的结构示意图。

在该实施例中，所述***包括：

获取模块101，用于获取各音频文件；

特征提取模块102，用于从所述音频文件中提取音频比对特征。

匹配模块103，用于基于所述音频比对特征依次两两匹配所述音频文件，得到两两匹配的重复音频片段；

合并模块104，用于将在多个音频文件中均出现的重复音频片段进行合并，得到音频文件重复模式。

具体地，合并模块104在对多组匹配结果进行合并时，可以利用每组结果在音频文件中的位置信息，考虑多组结果之间的相交叠部分比例等。

比如，音频文件A的片段[t1,t2]与音频文件B的片段[t3,t4]是长度为len1的相同片段。音频文件B的片段[t5,t6]与音频文件C的片段[t7,t8]是长度为len2的相同片段。其中，t4>t5>t3,t6>t4，即[t3,t4]与[t5,t6]是有交叠的，交叠部分为[t4,t5]。因此，音频文件B中的片段[t4,t5]是音频文件A、B、C中存在的重复音频片段，长度为len3。合并模块104的作用是从音频文件A的片段[t1,t2]、音频文件B的片段[t3,t4]、音频文件B的片段[t5,t6]、音频文件C的片段[t7,t8]中找出公共部分，即上述片段[t4,t5]。

在实际应用中，上述获取模块101具体可以从音频文件库中得到各音频文件。

特征提取模块102可以包括降采样单元和矢量转化单元（未图示）。其中：

所述降采样单元用于对所述音频文件数据进行降采样。

所述矢量转化单元，用于将所述降采样后的数据量化为二进制的特征矢量序列。具体地，可以通过频谱分析，利用加窗FFT（Fast Fourier Transform，快速傅里叶变换），将时域信息转换成频域信息。然后将频域进行非平均划分，逐一计算子带能量，对计算得到的子带能量进行二值量化，即将音频数据量化为一系列二进制的特征矢量序列。每一帧原始音频数据可用一个二进制特征矢量序列表示。

在本发明实施例中，匹配模块103首先通过粗匹配的方式快速发现重复音频片段的大致位置，然后对粗匹配的结果中多组重复子段进行合并，即将多个相邻的重复片段合并得到连续的大段重复片段，最后通过精确匹配界定在两个音频文件中重复片段边界的位置，获得精确的重复音频片段。

如图2所示，是本发明实施例中匹配模块的一种结构示意图。

在该实施例中，所述匹配模块包括：

粗匹配单元201，用于基于所述音频比对特征对任意两个音频文件进行粗匹配，确定各重复子段的边界，具体过程将在后面本发明实施例实现音频文件重复模式发现的方法中详细描述。

合并单元202，用于在相邻的两个重复子段的长度均大于第一门限值，并且所述两个重复子段的间隔小于第二门限值时，将所述两个重复子段合并。

精确匹配单元203，用于基于合并后的重复子段对所述两个音频文件进行精确匹配，得到所述两个音频文件的重复音频片段，具体过程将在后面本发明实施例实现音频文件重复模式发现的方法中详细描述。

在本发明实施例中，所述粗匹配单元201包括：

在本发明实施例中，所述精确匹配单元203包括：

可见，本发明实施例提供的实现音频文件重复模式发现的***，从各音频文件中提取音频比对特征，基于所述音频比对特征依次两两匹配所述音频文件，得到两两匹配的重复音频片段，将在多个音频文件中均出现的重复音频片段进行合并，生成音频文件重复模式，从而实现了大规模音频库中重复模式的准确发现。

相应地，本发明实施例还提供一种实现音频文件重复模式发现的方法，如图3所示，是本发明实施例实现音频文件重复模式发现的方法的流程图，包括以下步骤：

步骤301，获取各音频文件。

可以从音频文件库中得到各音频文件。

步骤302，从所述音频文件中提取音频比对特征。

可以首先对各音频文件数据进行降采样，比如可以采用低通滤波器对原始数据进行降采样，通过降采样处理可以在不带来信息损失的前提下减少原始数据的数据量，不仅可以提高处理效率，而且可以提高低频子带的分辨率，对每帧数据提取更长时的信息。然后，将所述降采样后的数据量化为二进制的特征矢量序列。

具体地，在进行数据量化的过程中，可以通过频谱分析，利用加窗FFT（Fast Fourier Transform，快速傅里叶变换），将时域信息转换成频域信息。然后将频域进行非平均划分，逐一计算子带能量，对计算得到的子带能量进行二值量化，即将音频数据量化为一系列二进制的特征矢量序列。每一帧原始音频数据可用一个二进制特征矢量序列表示。

步骤303，基于所述音频比对特征依次两两匹配所述音频文件，得到两两匹配的重复音频片段。

首先可以对两个音频文件进行粗匹配，获取两音频文件中各重复子段的边界，即两音频文件中可能重复的音频片段的大致位置，然后对粗匹配的结果中多组重复子段进行合并，即将多个相邻的重复片段合并得到连续的大段重复片段，最后通过精确匹配界定在两个音频文件中重复片段边界的位置，获得精确的重复音频片段。具体过程将在后面详细描述。

步骤304，将在多个音频文件中均出现的重复音频片段进行合并，生成音频文件重复模式。

如图4所示，是本发明实施例中重复音频片段进行合并的示意图。

对得到的多组两文件间的重复音频片段进行合并，实现多个音频文件中均出现的重复音频模式的合并。

在对多组匹配结果进行合并时，可以利用每组结果在音频文件中的位置信息，考虑多组结果之间的相交叠部分比例等。

可见，本发明实施例提供的实现音频文件重复模式发现的方法，从各音频文件中提取音频比对特征，基于所述音频比对特征依次两两匹配所述音频文件，得到两两匹配的重复音频片段，将在多个音频文件中均出现的重复音频片段进行合并，生成音频文件重复模式，从而实现了大规模音频库中重复模式的准确发现。

如图5所示，是本发明实施例中对两个音频文件进行匹配的流程图，包括以下步骤：

步骤501，基于音频比对特征对两个音频文件进行粗匹配，确定各重复子段的边界。

具体地，可以对两个音频文件的比对特征进行逐帧比对，首先从第一个音频文件的比对特征序列中提取一帧的比对特征，然后在第二个音频文件的比对特征序列中进行逐帧查找，查找与该比对特征相同的帧，从该匹配帧所在音频文件（即第二个音频文件）中的位置向前、后扩展时长L（例如，10帧，具体数值可根据数据的实际情况进行设置）。相应地，对第一个音频文件，同样需要对相应帧的位置进行前、后扩展时长L。然后，在扩展后的特征序列中寻找两个音频文件中最相似片段，并计算在此长度范围内的帧错误率。如果帧错误率超过设定的阈值（比如0.2），则将该片段丢弃；否则保留该片段，将其作为重复音频片段中的一个重复子段。当然，在进行前、后扩展时，扩展的时长也可以不同，对此本发明实施例不做限定。

步骤502，如果相邻的两个重复子段的长度均大于第一门限值，并且所述两个重复子段的间隔小于第二门限值，则将所述两个重复子段合并。

由于在粗匹配过程中得到的重复子段边界并非最优，可能存在一些本应为一大段重复片段，但被拆成了多组间隔较小的小片段的情况，因此，在本发明实施例中，可以将这些重复子段进行合并，以减少后续精确匹配所需的工作量。

在对重复子段进行合并时，可以根据相邻两重复子段的间隔及长度来决定是否对其进行合并。具体地，如果相邻的两个重复子段的长度均大于第一门限值，并且所述两个重复子段的间隔小于第二门限值，则将所述两个重复子段合并，也就是说，将相邻的两个小片段合并成一个大的片段。

如图6所示，是本发明实施例中重复子段合并的示意图。

步骤503，基于合并后的重复子段对所述两个音频文件进行精确匹配，得到所述两个音频文件的重复音频片段。

精确匹配的作用是获得更加准确的重复音频片段边界，精确匹配的过程使用相对粗匹配中更加精细的尺度进行计算。比如，可以计算特征比特错误率，具体匹配过程与粗匹配过程类似。通过精确匹配，可以找到两个音频文件最相似的重复音频片段。

如图7所示，是本发明实施例中确定重复音频片段边界的示意图。

图中L表示两个音频文件中最相似的片段，在确定该片段的边界时，首先在片段L的上边界向上扩展，直到找到一个窗S1，如果窗S1内的比特错误率的平均得分小于设定值，则停止向上扩展，并在窗S1中确定重复音频片段的上边界。同理，在片段L的下边界向下扩展，确定重复音频片段的下边界。

上述在扩展窗中确定重复音频片段边界的过程就是在原有边界的基础上按照一定的步长（如上文中的S1）扩展边界，并计算扩展后的比特错误率的平均得分。如果平均得分没有超过阈值，那么继续扩展；如果平均得分超过了阈值，那么上一次扩展的边界就是最终边界。

现有的针对音频的重复模式发现技术一般只能在输入短音频的情况下在音频文件库中发现一些与其旋律相似的片段，且是一种模糊式的。而本发明实施例实现音频文件重复模式发现的***和方法，可以在海量音频库中自动发掘重复模式，而且，在进行音频文件的匹配时，首先通过粗匹配的方式快速发现重复音频片段的大致位置，然后通过精确匹配确定准确的重复的音频片段边界，使得发现的重复片段更加精确，而并非仅是音律上的相似。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。而且，以上所描述的***实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及设备；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种实现音频文件重复模式发现的***，其特征在于，包括：

获取模块，用于获取各音频文件；

特征提取模块，用于从所述音频文件中提取音频比对特征；

2.根据权利要求1所述的***，其特征在于，所述特征提取模块包括：

降采样单元，用于对所述音频文件数据进行降采样；

3.根据权利要求2所述的***，其特征在于，所述匹配模块包括：

4.根据权利要求3所述的***，其特征在于，所述粗匹配单元包括：

5.根据权利要求3所述的***，其特征在于，所述精确匹配单元包括：

6.一种实现音频文件重复模式发现的方法，其特征在于，包括：

获取各音频文件；

从所述音频文件中提取音频比对特征；

7.根据权利要求6所述的方法，其特征在于，所述从各音频文件中提取音频特征包括：

对所述音频文件数据进行降采样；

将所述降采样后的数据量化为二进制的特征矢量序列。

8.根据权利要求7所述的方法，其特征在于，所述基于所述音频比对特征依次两两匹配所述音频文件，得到两两匹配的重复音频片段包括：

9.根据权利要求8所述的方法，其特征在于，所述基于所述音频比对特征对任意两个音频文件进行粗匹配，确定各重复子段的边界包括：

依次提取其中一个音频文件的一帧音频比对特征；

在扩展后的时长内确定重复子段的边界。

10.根据权利要求8所述的方法，其特征在于，所述基于合并后的重复子段对所述两个音频文件进行精确匹配，得到所述两个音频文件的重复音频片段包括：

对所述重复子段分别在两个音频文件中向上和向下扩展；