CN104317967A - 一种基于音频指纹的两层广告音频检索方法 - Google Patents

一种基于音频指纹的两层广告音频检索方法 Download PDF

Info

Publication number
CN104317967A
CN104317967A CN201410655665.6A CN201410655665A CN104317967A CN 104317967 A CN104317967 A CN 104317967A CN 201410655665 A CN201410655665 A CN 201410655665A CN 104317967 A CN104317967 A CN 104317967A
Authority
CN
China
Prior art keywords
audio
frequency
retrieval
layer
fingerprint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410655665.6A
Other languages
English (en)
Inventor
肖利民
隋东辉
阮利
祝明发
李书攀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201410655665.6A priority Critical patent/CN104317967A/zh
Publication of CN104317967A publication Critical patent/CN104317967A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于音频指纹的两层广告音频检索方法,该方法包括两大步骤:步骤一,基于音频的频谱幅度特征,提取两种不同维度的音频指纹;步骤二,基于这两种音频指纹进行两层检索。本发明基于音频指纹技术,实现广告的准确匹配。一方面提取的音频指纹具有很好的抗噪性,使广告匹配具有很高的准确率,另一方面,音频指纹较原始音频数据小的多,同时应用两层检索方法,能够快速的进行检索。所以,该方法在商业应用和科学研究领域均有广泛地实用价值和应用前景。

Description

一种基于音频指纹的两层广告音频检索方法
技术领域
本发明涉及一种新型的广告音频检索方法,具体涉及一种基于两种音频指纹的两层检索方法,属于计算机科学的多媒体信息检索领域。
背景技术
音频指纹是指能够代表一段音频特征的基于内容的紧致数字签名,其目的是计算一段音频的基于内容的特征,以在音频特征数据库中进行检索匹配。音频指纹是针对音频的物理数据,而不是使用名字、作者等信息.音频指纹要求具有鲁棒性以使音频检索具有一定的抗噪性,要求具有区分性以区分不同的音频。
现在,音乐搜索方式除了传统的按名搜索,基于内容的搜索也已经得到的广泛应用。广告匹配领域也开始应用音频指纹技术。广告音频在商业意义上是一种宣传或营销手段等,在物理信号上具有比音乐更复杂的形式,可能是人声、乐器、或多者混合而不仅限于音乐,因而单纯基于音乐的特殊特征的音频指纹的方法不适用于广告音频检索。所以研究一种针对广告音频的音频指纹方法具有重要意义。
发明内容
本发明的目的是利用广告音频的特征提取两种音频指纹,并提供一种基于音频指纹的两层检索方法。针对目前广告匹配领域的需求,该方法通过对电视等声源进行录音,经过一系列的操作,提取广告音频的音频指纹,并在服务器端进行两层的检索,最终根据检索的结果返回相应的广告服务。
根据本发明的一个实施例的基于音频指纹的两层广告音频检索方法包括:
(1)步骤S1:基于音频的频谱幅度特征,提取两种不同维度的音频指纹,具体包括:
a)使用手机等设备对电视等声源进行录音;
b)对音频的data部分进行加窗分帧操作,得到257帧数据。其中窗函数为汉宁窗,每一帧的长度为0.37S,帧之间的重叠为31/32;
c)对于每一帧数据进行傅里叶变换,得到相应的频域数据;
d)对于每一帧的频域数据,对每一个数据进行求模运算,得到频谱幅度;
e)把257帧的频率在300Hz-5400Hz的频谱幅度数据分别求和,得到257帧的整体频谱幅度和,称为SGA(Sum Of Global Aptitude),这样通过以下公式计算音频指纹1(FP1):
FP 1 [ i ] = 1 ; ifSGA [ i + 1 ] - SGA [ i ] &GreaterEqual; 0 0 ; ifSGA [ i + 1 ] - SGA [ i ] < 0
f)对于每一帧频谱幅度数据,把频带在300Hz-5400Hz数据按对数间隔,划分为33个频率带,分别计算每一帧每一个频带的频谱幅度和,称为SBA(Sum Of Band Aptitude),从而通过以下公式计算音频指纹2(FP2):
FP 2 [ i ] [ j ] = 1 ; if ( SBA [ i + 1 ] [ j + 1 ] - SBA [ i + 1 ] [ j ] ) - ( SBA [ i ] [ j + 1 ] - SBA [ i ] [ j ] ) &GreaterEqual; 0 0 ; if ( SBA [ i + 1 ] [ j + 1 ] - SBA [ i + 1 ] [ j ] ) - ( SBA [ i ] [ j + 1 ] - SBA [ i ] [ j ] ) < 0
(2)步骤S2:基于这两种音频指纹进行两层检索,具体包括:
2a)第1层指纹检索:对待检索音频的音频指纹1,在音频指纹库1中进行检索。当与指纹库1的某一条记录的误码率<0.08时,则找到了匹配的广告数据,返回检索结果;否则,记录误码率最小的5个检索位置,执行步骤2b).
2b)第2层指纹检索:根据步骤2a)的5个检索位置,计算待检索音频的音频指纹2和音频指纹库中相应记录的误码率,当误码率<0.35时,则找到了匹配的广告数据,返回检索结果;否则返回至步骤2a),检索下一条指纹库记录;
其中步骤a)环境信噪比约为10dB;录音长度设置4S,采样率为44.1KHz或者16.0KHz,格式为PCM编码的wav格式;
其中步骤b)汉宁窗的公式如下:
&omega; ( n ) = 0.5 ( 1 - cos ( 2 &pi;n N - 1 ) )
其中N为窗的长度,n为当前窗口中的第n个点,
其中步骤d)的傅里叶变换后得到的是复数,设为a+bi,其模设为m,模值计算公式如下:
m = a 2 + b 2
其中步骤2a)和2b)的误码率计算公式如下:
优点及功效
本发明提供一种基于音频指纹的两层广告音频检索方法。与现有技术相比,其主要的优点有:(1)抗噪性好。通过提取两种音频指纹,分别从音频帧整体和局部的角度代表原始音频的特点,音频指纹具有很好的抗噪性,可以实现广告的准确匹配。(2)检索速度快。通过两层的音频指纹检索过程,检索的速度得到的大幅度提升。(3)应用前景好。现有的方法或产品一般针对音乐音频,故本发明具有很强的实用性和应用前景。
附图说明
图1本发明的音频指纹提取及检索整体框架图
图2本发明的提取音频指纹的基本流程图
图3本发明的两层音频指纹检索流程图
具体实施方式
为使本发明的目的、技术方案和优点表达得更加清楚明白,下面结合附图及具体实施例对本发明再作进一步详细的说明。
本发明的主要思想是利用广告音频的频谱幅度特征,提取两种不同维度的音频指纹,并进行两层的检索。能够在一定条件下实现广告的快速、准确匹配。
下面以一具体实例分别详细说明每一步骤:
步骤S1:提取待检索音频的音频指纹,如图2。
手机端对电视等声源进行录音,录音长度为4S,采样率为44.1KHz,量化位数16bit,格式为PCM编码的wav文件。
然后利用汉宁窗对wav文件的data部分分帧,帧长为0.37S,帧与帧之间的重叠为31/32,约11.6ms,得到257帧数据。
对这257帧数据用FFT进行傅里叶变换,得到复数的频域数据。
之后对傅里叶变换后的300Hz-5400Hz的频率范围数据取模,模值与频谱幅度存在线性关系,故可用该模值提取音频指纹。
然后根据技术方案的步骤S1的e和f提取音频指纹1和音频指纹2。
步骤S2:基于以上两种音频指纹进行两层检索,如图3。
检索之前需要构造两种音频指纹的库,构造时提取音频指纹方法同步骤S1,只是音频长度规定为8S,对8S的数据提取指纹作为一条库记录。
步骤S2:基于这两种音频指纹进行两层检索。
2a)音频指纹1比音频指纹2占用空间小,而且基于音频的整体频谱幅度提取的音频指纹较为宽松,所以第一层检索时检索音频指纹1。当与音频指纹库1某一条的记录的误码率<0.08时,则认为检索到匹配的广告音频,返回相应的检索结果;否则,记录误码率最小的5个检索位置,执行步骤2b).
2b)第二层检索根据步骤2a)的5个检索位置,计算待检索音频的音频指纹2和音频指纹库2中相应记录的误码率,当误码率<0.35时,则找到了匹配的广告数据,返回检索结果。否则返回至步骤2a),检索下一条指纹库记录。
应说明的是,以上实施例仅用以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。

Claims (2)

1.一种基于音频指纹的两层广告音频检索方法,基于音频的频谱幅度,提取了两种不同维度的音频指纹,并基于该两种音频指纹进行了两层检索,其特征在于该方法包括以下步骤:
步骤一:基于音频的频谱幅度特征,提取两种不同维度的音频指纹;
步骤二:基于这两种音频指纹进行两层检索。
其中
步骤一中,对所述两种不同维度的音频指纹均需要计算频谱的平均幅度,音频指纹1基于每一帧数据的整体频谱幅度和的差值,音频指纹2基于每一帧数据划分频带后的局部频谱幅度和的差值。
2.根据权利要求1所述的一种基于音频指纹的两层广告音频检索方法,其特征在于:在步骤二所述的基于这两种音频指纹进行两层检索中,第一层检索是指检索音频指纹1,在一定条件下,进入第二层检索,检索音频指纹2。
CN201410655665.6A 2014-11-17 2014-11-17 一种基于音频指纹的两层广告音频检索方法 Pending CN104317967A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410655665.6A CN104317967A (zh) 2014-11-17 2014-11-17 一种基于音频指纹的两层广告音频检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410655665.6A CN104317967A (zh) 2014-11-17 2014-11-17 一种基于音频指纹的两层广告音频检索方法

Publications (1)

Publication Number Publication Date
CN104317967A true CN104317967A (zh) 2015-01-28

Family

ID=52373199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410655665.6A Pending CN104317967A (zh) 2014-11-17 2014-11-17 一种基于音频指纹的两层广告音频检索方法

Country Status (1)

Country Link
CN (1) CN104317967A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105184610A (zh) * 2015-09-02 2015-12-23 王磊 基于音频指纹的实时移动广告同步投放方法及设备
CN108198573A (zh) * 2017-12-29 2018-06-22 北京奇艺世纪科技有限公司 音频识别方法及装置、存储介质及电子设备
CN109712642A (zh) * 2018-12-10 2019-05-03 电子科技大学 一种精准快速的广告播出监测方法
CN109727607A (zh) * 2017-10-31 2019-05-07 腾讯科技(深圳)有限公司 时延估计方法、装置及电子设备
CN110047515A (zh) * 2019-04-04 2019-07-23 腾讯音乐娱乐科技(深圳)有限公司 一种音频识别方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101158967A (zh) * 2007-11-16 2008-04-09 北京交通大学 一种基于分层匹配的快速音频广告识别方法
CN101221622A (zh) * 2008-01-30 2008-07-16 中国科学院计算技术研究所 一种广告检测识别方法及***
CN103021404A (zh) * 2012-11-23 2013-04-03 黄伟 一种基于音频的广告识别方法
CN103237260A (zh) * 2013-04-09 2013-08-07 上海合合信息科技发展有限公司 实时地从电视、电台频道中获取广告的***及方法
CN103605666A (zh) * 2013-10-28 2014-02-26 复旦大学 一种进行广告检测的视频拷贝检测方法
US20140072275A1 (en) * 2012-09-13 2014-03-13 Sony Corporation Display control device, recording control device, and display control method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101158967A (zh) * 2007-11-16 2008-04-09 北京交通大学 一种基于分层匹配的快速音频广告识别方法
CN101221622A (zh) * 2008-01-30 2008-07-16 中国科学院计算技术研究所 一种广告检测识别方法及***
US20140072275A1 (en) * 2012-09-13 2014-03-13 Sony Corporation Display control device, recording control device, and display control method
CN103021404A (zh) * 2012-11-23 2013-04-03 黄伟 一种基于音频的广告识别方法
CN103237260A (zh) * 2013-04-09 2013-08-07 上海合合信息科技发展有限公司 实时地从电视、电台频道中获取广告的***及方法
CN103605666A (zh) * 2013-10-28 2014-02-26 复旦大学 一种进行广告检测的视频拷贝检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨厚德: ""视频广告的自动识别与检测"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105184610A (zh) * 2015-09-02 2015-12-23 王磊 基于音频指纹的实时移动广告同步投放方法及设备
CN109727607A (zh) * 2017-10-31 2019-05-07 腾讯科技(深圳)有限公司 时延估计方法、装置及电子设备
CN109727607B (zh) * 2017-10-31 2022-08-05 腾讯科技(深圳)有限公司 时延估计方法、装置及电子设备
CN108198573A (zh) * 2017-12-29 2018-06-22 北京奇艺世纪科技有限公司 音频识别方法及装置、存储介质及电子设备
CN108198573B (zh) * 2017-12-29 2021-04-30 北京奇艺世纪科技有限公司 音频识别方法及装置、存储介质及电子设备
CN109712642A (zh) * 2018-12-10 2019-05-03 电子科技大学 一种精准快速的广告播出监测方法
CN110047515A (zh) * 2019-04-04 2019-07-23 腾讯音乐娱乐科技(深圳)有限公司 一种音频识别方法、装置、设备及存储介质
CN110047515B (zh) * 2019-04-04 2021-04-20 腾讯音乐娱乐科技(深圳)有限公司 一种音频识别方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN104317967A (zh) 一种基于音频指纹的两层广告音频检索方法
US9640156B2 (en) Audio matching with supplemental semantic audio recognition and report generation
CN103403710B (zh) 对来自音频信号的特征指纹的提取和匹配
CN101154379B (zh) 定位语音中的关键词的方法和设备以及语音识别***
Lagrange et al. The bag-of-frames approach: a not so sufficient model for urban soundscapes
CN102799605A (zh) 一种广告监播方法和***
CN103854646A (zh) 一种实现数字音频自动分类的方法
Khan et al. A novel audio forensic data-set for digital multimedia forensics
CN104078044A (zh) 移动终端及其录音搜索的方法和装置
CN108665903A (zh) 一种音频信号相似程度的自动检测方法及其***
CN102486920A (zh) 音频事件检测方法和装置
CN102129456A (zh) 去相关稀疏映射音乐流派有监督自动分类方法
CN105975568A (zh) 一种音频处理方法及装置
CN103730112A (zh) 语音多信道模拟与采集方法
CN112632318A (zh) 一种音频推荐方法、装置、***及存储介质
JP4527679B2 (ja) 音声の類似度の評価を行う方法および装置
CN110399522A (zh) 一种基于lstm与分层匹配的音乐哼唱检索方法及装置
CN106205635A (zh) 语音处理方法及***
CN101226558B (zh) 一种基于mfccm的音频数据检索方法
Kızrak et al. Classification of classic Turkish music makams
Luque-Suárez et al. Efficient speaker identification using spectral entropy
CN102375834A (zh) 音频文件检索方法、***和音频文件类型识别方法、***
Chen et al. Long-term scalogram integrated with an iterative data augmentation scheme for acoustic scene classification
CN106128472A (zh) 演唱者声音的处理方法及装置
Sofianos et al. H-Semantics: A hybrid approach to singing voice separation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150128

WD01 Invention patent application deemed withdrawn after publication