CN104317967A

CN104317967A - 一种基于音频指纹的两层广告音频检索方法

Info

Publication number: CN104317967A
Application number: CN201410655665.6A
Authority: CN
Inventors: 肖利民; 隋东辉; 阮利; 祝明发; 李书攀
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2014-11-17
Filing date: 2014-11-17
Publication date: 2015-01-28

Abstract

本发明涉及一种基于音频指纹的两层广告音频检索方法，该方法包括两大步骤：步骤一，基于音频的频谱幅度特征，提取两种不同维度的音频指纹；步骤二，基于这两种音频指纹进行两层检索。本发明基于音频指纹技术，实现广告的准确匹配。一方面提取的音频指纹具有很好的抗噪性，使广告匹配具有很高的准确率，另一方面，音频指纹较原始音频数据小的多，同时应用两层检索方法，能够快速的进行检索。所以，该方法在商业应用和科学研究领域均有广泛地实用价值和应用前景。

Description

一种基于音频指纹的两层广告音频检索方法

技术领域

本发明涉及一种新型的广告音频检索方法，具体涉及一种基于两种音频指纹的两层检索方法，属于计算机科学的多媒体信息检索领域。

背景技术

音频指纹是指能够代表一段音频特征的基于内容的紧致数字签名，其目的是计算一段音频的基于内容的特征，以在音频特征数据库中进行检索匹配。音频指纹是针对音频的物理数据,而不是使用名字、作者等信息.音频指纹要求具有鲁棒性以使音频检索具有一定的抗噪性，要求具有区分性以区分不同的音频。

现在，音乐搜索方式除了传统的按名搜索,基于内容的搜索也已经得到的广泛应用。广告匹配领域也开始应用音频指纹技术。广告音频在商业意义上是一种宣传或营销手段等,在物理信号上具有比音乐更复杂的形式，可能是人声、乐器、或多者混合而不仅限于音乐,因而单纯基于音乐的特殊特征的音频指纹的方法不适用于广告音频检索。所以研究一种针对广告音频的音频指纹方法具有重要意义。

发明内容

本发明的目的是利用广告音频的特征提取两种音频指纹，并提供一种基于音频指纹的两层检索方法。针对目前广告匹配领域的需求，该方法通过对电视等声源进行录音，经过一系列的操作，提取广告音频的音频指纹，并在服务器端进行两层的检索，最终根据检索的结果返回相应的广告服务。

根据本发明的一个实施例的基于音频指纹的两层广告音频检索方法包括：

(1)步骤S1：基于音频的频谱幅度特征，提取两种不同维度的音频指纹，具体包括：

a)使用手机等设备对电视等声源进行录音；

b)对音频的data部分进行加窗分帧操作，得到257帧数据。其中窗函数为汉宁窗，每一帧的长度为0.37S，帧之间的重叠为31/32；

c)对于每一帧数据进行傅里叶变换，得到相应的频域数据；

d)对于每一帧的频域数据，对每一个数据进行求模运算，得到频谱幅度；

e)把257帧的频率在300Hz-5400Hz的频谱幅度数据分别求和,得到257帧的整体频谱幅度和,称为SGA(Sum Of Global Aptitude),这样通过以下公式计算音频指纹1(FP1):

FP 1 [i] = \{\begin{matrix} 1; & ifSGA [i + 1] - SGA [i] &GreaterEqual; 0 \\ 0; & ifSGA [i + 1] - SGA [i] < 0 \end{matrix}

f)对于每一帧频谱幅度数据,把频带在300Hz-5400Hz数据按对数间隔,划分为33个频率带,分别计算每一帧每一个频带的频谱幅度和,称为SBA(Sum Of Band Aptitude)，从而通过以下公式计算音频指纹2(FP2)：

\begin{matrix} FP 2 [i] [j] \\ = \{\begin{matrix} 1; & if (SBA [i + 1] [j + 1] - SBA [i + 1] [j]) - (SBA [i] [j + 1] - SBA [i] [j]) &GreaterEqual; 0 \\ 0; & if (SBA [i + 1] [j + 1] - SBA [i + 1] [j]) - (SBA [i] [j + 1] - SBA [i] [j]) < 0 \end{matrix} \end{matrix}

(2)步骤S2：基于这两种音频指纹进行两层检索，具体包括：

2a)第1层指纹检索：对待检索音频的音频指纹1，在音频指纹库1中进行检索。当与指纹库1的某一条记录的误码率<0.08时，则找到了匹配的广告数据，返回检索结果；否则，记录误码率最小的5个检索位置，执行步骤2b).

2b)第2层指纹检索：根据步骤2a)的5个检索位置，计算待检索音频的音频指纹2和音频指纹库中相应记录的误码率，当误码率<0.35时，则找到了匹配的广告数据，返回检索结果；否则返回至步骤2a)，检索下一条指纹库记录；

其中步骤a)环境信噪比约为10dB；录音长度设置4S，采样率为44.1KHz或者16.0KHz，格式为PCM编码的wav格式；

其中步骤b)汉宁窗的公式如下：

ω (n) = 0.5 (1 - \cos (\frac{2 πn}{N - 1}))

其中N为窗的长度，n为当前窗口中的第n个点，

其中步骤d)的傅里叶变换后得到的是复数，设为a+bi，其模设为m，模值计算公式如下：

m = \sqrt{a^{2} + b^{2}}

其中步骤2a)和2b)的误码率计算公式如下：

优点及功效

本发明提供一种基于音频指纹的两层广告音频检索方法。与现有技术相比，其主要的优点有：(1)抗噪性好。通过提取两种音频指纹，分别从音频帧整体和局部的角度代表原始音频的特点，音频指纹具有很好的抗噪性，可以实现广告的准确匹配。(2)检索速度快。通过两层的音频指纹检索过程，检索的速度得到的大幅度提升。(3)应用前景好。现有的方法或产品一般针对音乐音频，故本发明具有很强的实用性和应用前景。

附图说明

图1本发明的音频指纹提取及检索整体框架图

图2本发明的提取音频指纹的基本流程图

图3本发明的两层音频指纹检索流程图

具体实施方式

为使本发明的目的、技术方案和优点表达得更加清楚明白，下面结合附图及具体实施例对本发明再作进一步详细的说明。

本发明的主要思想是利用广告音频的频谱幅度特征，提取两种不同维度的音频指纹，并进行两层的检索。能够在一定条件下实现广告的快速、准确匹配。

下面以一具体实例分别详细说明每一步骤：

步骤S1：提取待检索音频的音频指纹，如图2。

手机端对电视等声源进行录音，录音长度为4S，采样率为44.1KHz，量化位数16bit，格式为PCM编码的wav文件。

然后利用汉宁窗对wav文件的data部分分帧，帧长为0.37S，帧与帧之间的重叠为31/32，约11.6ms，得到257帧数据。

对这257帧数据用FFT进行傅里叶变换，得到复数的频域数据。

之后对傅里叶变换后的300Hz-5400Hz的频率范围数据取模，模值与频谱幅度存在线性关系，故可用该模值提取音频指纹。

然后根据技术方案的步骤S1的e和f提取音频指纹1和音频指纹2。

步骤S2：基于以上两种音频指纹进行两层检索，如图3。

检索之前需要构造两种音频指纹的库，构造时提取音频指纹方法同步骤S1，只是音频长度规定为8S，对8S的数据提取指纹作为一条库记录。

步骤S2：基于这两种音频指纹进行两层检索。

2a)音频指纹1比音频指纹2占用空间小，而且基于音频的整体频谱幅度提取的音频指纹较为宽松，所以第一层检索时检索音频指纹1。当与音频指纹库1某一条的记录的误码率<0.08时，则认为检索到匹配的广告音频，返回相应的检索结果；否则，记录误码率最小的5个检索位置，执行步骤2b).

2b)第二层检索根据步骤2a)的5个检索位置，计算待检索音频的音频指纹2和音频指纹库2中相应记录的误码率，当误码率<0.35时，则找到了匹配的广告数据，返回检索结果。否则返回至步骤2a)，检索下一条指纹库记录。

应说明的是，以上实施例仅用以说明而非限制本发明的技术方案，尽管参照上述实施例对本发明进行了详细说明，本领域的普通技术人员应当理解：依然可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改或局部替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于音频指纹的两层广告音频检索方法，基于音频的频谱幅度，提取了两种不同维度的音频指纹，并基于该两种音频指纹进行了两层检索，其特征在于该方法包括以下步骤：

步骤一：基于音频的频谱幅度特征，提取两种不同维度的音频指纹；

步骤二：基于这两种音频指纹进行两层检索。

其中

步骤一中，对所述两种不同维度的音频指纹均需要计算频谱的平均幅度，音频指纹1基于每一帧数据的整体频谱幅度和的差值，音频指纹2基于每一帧数据划分频带后的局部频谱幅度和的差值。

2.根据权利要求1所述的一种基于音频指纹的两层广告音频检索方法，其特征在于：在步骤二所述的基于这两种音频指纹进行两层检索中，第一层检索是指检索音频指纹1，在一定条件下，进入第二层检索，检索音频指纹2。