CN109871463B - 音频处理方法、装置、电子设备及存储介质 - Google Patents
音频处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN109871463B CN109871463B CN201910168211.9A CN201910168211A CN109871463B CN 109871463 B CN109871463 B CN 109871463B CN 201910168211 A CN201910168211 A CN 201910168211A CN 109871463 B CN109871463 B CN 109871463B
- Authority
- CN
- China
- Prior art keywords
- audio
- fingerprint information
- target audio
- index table
- inverted index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 abstract description 4
- 238000001914 filtration Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 241001342895 Chorus Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种音频处理的方法、装置、电子设备及存储介质,其中,方法包括:提取目标音频的音频指纹,获取倒排索引表,所述倒排索引表包括该目标音频及所述目标音频的指纹信息;根据所述目标音频的指纹信息获取所述目标音频的指纹信息代表度;若所述目标音频的指纹信息代表度低于预期,则从所述倒排索引表中删除所述目标音频的指纹信息。通过对倒排索引表中的数据进行筛选,可降低内存消耗,并提高检索效率。
Description
技术领域
本发明涉及多媒体数据技术领域,尤其涉及一种音频处理方法,一种音频处理装置,一种电子设备,以及一种存储介质。
背景技术
随着互联网和音频指纹技术的发展,一种基于音频指纹的音频检索方式应运而生。该音频检索方式只需要从用户输入的音频段中提取音频指纹,将音频指纹与倒排索引表中的音频指纹进行对比,倒排索引表中记录了音频指纹与音频之间的映射关系,根据对比结果就能够检索出相关的音频。该音频检索方式不需要用户手动输入文本,可以更加便捷地检索出音频,受到越来越多人的青睐。实践中发现,该音频检索方式中,若倒排索引表中包括的音频指纹过多,则能够为用户检索出更多音频,但增加二次过滤的工作量且需要消耗较大内存来存储倒排索引表;二次过滤是指当根据用户输入的音频段的指纹检索出多个相关的音频后,需要再次从检索出的音频中筛选出一个用户需要的音频。若倒排索引表中包括的音频指纹过少,则能够降低二次过滤的工作量,并降低内存消耗,但不能够为用户检索出更多音频。因此,倒排索引表是影响检索性能的关键因素。
发明内容
本发明实施例所要解决的技术问题在于,提供一种音频处理方法、装置、电子设备及存储介质,通过对倒排索引表中的数据进行筛选,可降低内存消耗,并提高检索效率。
一方面,本发明实施例提供一种音频处理方法,该方法包括:
提取目标音频的音频指纹;
获取倒排索引表,所述倒排索引表包括所述目标音频及所述目标音频的指纹信息,所述目标音频的指纹信息为所述目标音频的音频指纹的哈希值;
根据所述目标音频的指纹信息获取所述目标音频的指纹信息代表度,所述目标音频的指纹信息代表度为所述目标音频的指纹信息的逆文本频率,所述逆文本频率与匹配音频数量成反比;
若所述目标音频的指纹信息代表度低于预期,则从所述倒排索引表中删除所述目标音频的指纹信息。
一方面,本发明实施例提供一种音频处理装置,该装置包括:
提取单元,用于提取目标音频的音频指纹;
获取单元,用于获取倒排索引表,所述倒排索引表包括所述目标音频及所述目标音频的指纹信息,所述目标音频的指纹信息为所述目标音频的音频指纹的哈希值;根据所述目标音频的指纹信息获取所述目标音频的指纹信息代表度,所述目标音频的指纹信息代表度为所述目标音频的指纹信息的逆文本频率,所述逆文本频率与匹配音频数量成反比;
删除单元,用于若所述目标音频的指纹信息代表度低于预期,则从所述倒排索引表中删除所述目标音频的指纹信息。
一方面,本发明实施例提供一种电子设备,包括:处理器和存储装置;
所述存储装置存储有计算机程序指令,所述处理器调用所述计算机程序指令,用于执行如下步骤:
提取目标音频的音频指纹;
获取倒排索引表,所述倒排索引表包括所述目标音频及所述目标音频的指纹信息,所述目标音频的指纹信息为所述目标音频的音频指纹的哈希值;
根据所述目标音频的指纹信息获取所述目标音频的指纹信息代表度,所述目标音频的指纹信息代表度为所述目标音频的指纹信息的逆文本频率,所述逆文本频率与匹配音频数量成反比;
若所述目标音频的指纹信息代表度低于预期,则从所述倒排索引表中删除所述目标音频的指纹信息。
一方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序指令,该计算机程序指令被执行时,该方法包括:
提取目标音频的音频指纹;
获取倒排索引表,所述倒排索引表包括所述目标音频及所述目标音频的指纹信息,所述目标音频的指纹信息为所述目标音频的音频指纹的哈希值;
根据所述目标音频的指纹信息获取所述目标音频的指纹信息代表度,所述目标音频的指纹信息代表度为所述目标音频的指纹信息的逆文本频率,所述逆文本频率与匹配音频数量成反比;
若所述目标音频的指纹信息代表度低于预期,则从所述倒排索引表中删除所述目标音频的指纹信息。
本发明实施例中,提取所述目标音频的音频指纹,获取目标音频的指纹信息的代表度,当目标音频的指纹信息代表度低于预期,则从倒排索引表中将该目标音频的指纹信息删除;即可以通过目标音频的指纹信息代表度对倒排索引表中的指纹信息进行筛选,以保留代表度较高的指纹信息,并删除代表度较低的指纹信息,可节省存储空间,降低电子设备的资源消耗,并使倒排索引表更加精简。同时,由于代表度较低的指纹信息的检索性能较差,因此,删除这类指纹信息并不会影响检索性能;反而,通过代表度较高的指纹信息进行检索其检索性能更高,可以降低二次过滤的工作量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的提供的一种音频处理方法的流程示意图;
图2是本发明的提供的另一种音频处理方法的流程示意图;
图3是本发明的提供的一种音频处理装置的结构示意图;
图4是本发明的提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术中,为了能够检索到更多音频,通常将每个音频的所有指纹信息添加至倒排索引表中,给存储设备带了较大存储压力,例如,通常1万首歌曲需要消耗1G左右的存储空间,对于成千上万的歌曲库,则需要消耗高达几TB的存储空间。基于此,本发明实施例提供一种音频处理方法,请参见图1,该方法可以应用于电子设备,该电子设备可以为智能手机、智能手表、平板电脑或服务器等设备,该方法可以包括步骤S101~S104。
S101、提取该目标音频的音频指纹。
电子设备可以对目标音频进行时频变换等处理得到该目标音频的音频指纹。该音频指纹就是指该目标音频的特征信息。
S102、获取倒排索引表,该倒排索引表包括目标音频及该目标音频的指纹信息,所述目标音频的指纹信息为所述目标音频的音频指纹的哈希值。
为了高效地检索出用户需要的音频,电子设备中可以包括倒排索引表,该倒排索引表与电子设备中的音频数据库相对应。该倒排索引表包括音频数据库中的多个音频及每个音频的指纹信息,目标音频可以为该多个音频中的任一音频;目标音频可以包括多个指纹信息,本发发明实施例所指的目标音频的指纹信息可以是指目标音频的多个音频指纹信息中的任一音频指纹。其中,该目标音频的指纹信息为该目标音频的音频指纹的哈希值,即电子设备可以对目标音频的音频指纹进行哈希运算,得到该目标音频的指纹信息。
S103、根据该目标音频的指纹信息获取该目标音频的指纹信息代表度,所述目标音频的指纹信息代表度为所述目标音频的指纹信息的逆文本频率,所述逆文本频率与匹配音频数量成反比。
目标音频的指纹信息代表度用于描述目标音频的指纹信息的独特性(即唯一性),该目标音频的指纹信息代表度可以是指目标音频的指纹信息的逆文本频率和/或目标音频的指纹信息的匹配次数。该目标音频的指纹信息的逆文本频率与倒排索引表中与目标音频的指纹信息匹配的音频的第一数量成反比,例如,倒排索引表中具有较少的音频的指纹信息与目标音频的指纹信息相匹配,该目标音频的指纹信息的逆文本频率低,表明目标音频的指纹信息的独特性越高,目标音频的指纹信息代表度越高;那么,若采用目标音频的指纹信息来检索目标音频,则可检索出较少的音频(即所有指纹信息与目标音频的指纹信息相匹配的音频),降低了二次检索过滤的工作量。反之,倒排索引表中具有较多的音频的指纹信息与目标音频的指纹信息相匹配,该目标音频的指纹信息的逆文本频率高,表明目标音频的指纹信息的独特性越低,即目标音频的指纹信息代表度越低;那么,若采用目标音频的指纹信息来检索目标音频,则可检索出较多的音频(即所有指纹信息与目标音频的指纹信息相匹配的音频),增加了二次检索过滤的工作量。例如,目标音频的指纹信息包括指纹信息A和指纹信息B,倒排索引表中有1000个音频,100个(第一音频数量为100)音频的指纹信息与指纹信息A相匹配,10个(第一音频数量为100)音频的指纹信息与指纹信息B相匹配。若采用指纹信息A来检索目标音频,则可检索出100个音频,这100个音频的指纹信息与指纹信息A相匹配,则用户需要对这100个音频中进行二次过滤,以筛选出目标音频。若采用目标音频的指纹信息B来检索目标音频,则可检索出10个音频,这10个音频的指纹信息与目标音频的指纹信息B相匹配,则用户需要对这10个(第一音频数量为10)音频中进行二次过滤,以筛选出目标音频。可见,指纹信息A的代表度低于指纹信息B的代表度度,即指纹信息A的逆文本频率低于指纹信息B的逆文本频率,且采集指纹信息A对目标音频进行检索的工作量高于采集指纹信息B对目标音频进行检索的工作量,即,在对目标音频进行检索时,采用指纹信息A进行检索的性能低于采用指纹信息B进行检索的性能。目标音频的指纹信息的匹配次数是指目标音频的指纹信息与查询指令中携带的音频段的指纹信息的匹配次数,即用户采用目标音频的指纹信息对应的音频段进行查询的次数,若匹配次数越多,该目标音频的指纹信息的代表度越高,若匹配次数越少,该目标音频的指纹信息的代表度越低。
S104、若该目标音频的指纹信息代表度低于预期,则从该倒排索引表中删除该目标音频的指纹信息。
在采用目标音频的指纹信息对目标音频进行检索时,若目标音频的指纹信息代表度较高,则有助于快速地检索出目标音频,这时目标音频的指纹信息的利用价值比较高;若目标音频的指纹信息代表度较低,则增加了检索出目标音频的工作量,降低了检索性能,这时目标音频的指纹信息的利用价值比较低。为了使倒排索引表更加精简,以降低存储倒排索引表所消耗的内存空间,可以将倒排索引表中利用价值较低的指纹信息从目标倒排索引表中删除。具体的,若该目标音频的指纹信息代表度低于预期,则表明该目标音频的指纹信息的利用价值较低,电子设备可以从该倒排索引表中删除该目标音频及该目标音频的指纹信息,释放用于存储目标音频的指纹信息和目标音频的存储空间,以便可以存储更多利用价值高的指纹信息,提高检索性能。
本发明实施例中,获取目标音频的指纹信息的代表度,当目标音频的指纹信息代表度低于预期,则从倒排索引表中将该目标音频的指纹信息删除;即可以通过目标音频的指纹信息代表度对倒排索引表中的指纹信息进行筛选,以保留代表度较高的指纹信息,并删除代表度较低的指纹信息,可节省存储空间,降低电子设备的资源消耗,并使倒排索引表更加精简。同时,由于代表度较低的指纹信息的检索性能较差,因此,删除这类指纹信息并不会影响检索性能;反而,通过代表度较高的指纹信息进行检索其检索性能更高,可以降低二次过滤的工作量。
请参见图2,图2为本发明实施例提供另一种音频处理方法,该方法可以应用于电子设备,该电子设备可以为智能手机、智能手表、平板电脑或服务器等设备,本发明实施例与图1的区别在于,本发明实施例的目标音频的指纹信息代表度为该目标音频的指纹信息的逆文本频率,该逆文本频率与第一音频数量成反比。该第一音频数量为所述倒排索引表中的指纹信息与该目标音频的指纹信息匹配的音频的数量,该倒排索引表中包括多个音频,该目标音频为所述多个音频中的任一音频。该方法可以包括步骤S201~S206。
S201、提取该目标音频的音频指纹。
在一个实施例中,步骤s201包括如下步骤s21~s23。
s21、对该目标音频进行时频变换,得到该目标音频的频域信息。
s22、根据该目标音频的频域信息获取该目标音频的能量矩阵。
s23、根据该目标音频的能量矩阵确定该目标音频的音频指纹。
在步骤s21~s23中,电子设备可以采用FFT(Fast Fourier Transformation)算法对该目标音频进行时频变换,得到该目标音频的频域信息,该目标音频的频域信息描述了频率与音高的关系。可以根据目标音频的频域信息计算该目标音频的能量矩阵,对目标音频的能量矩阵进行检测,将检测出的局部最大能量值作为该目标音频的音频指纹。
S202、获取索引表,该索引表包括目标音频及该目标音频的指纹信息,该目标音频的指纹信息为该目标音频的音频指纹的哈希值。
电子设备可以获取目标音频的参数信息,该参数信息包括目标音频的能量、色度、响度、音高等中的至少一个参数。对目标音频的参数信息进行分析得到目标音频的音频指纹,如,该目标音频的参数信息为音高,将目标音频中大于预设音高的音高作为目标音频的音频指纹。通过哈希算法计算得到目标音频的音频指纹的哈希值,将该目标音频及目标音频的音频指纹的哈希值添加至该倒排索引表中。
在一个实施例中,该倒排索引表还包括该目标音频的指纹信息位于该目标音频中的位置信息,和/或该目标音频的指纹信息在该目标音频中出现的频率;该位置信息是为该指纹对应的词在目标音频中的位置。例如,该倒排索引表如表1所示,该倒排索引表中包括音频1、音频2及音频3。音频1包括指纹信息A和B,指纹信息A在音频1中的位置为第2s,在音频1中出现的频率为1次;指纹信息B在音频1中的位置为第16s,在音频1中出现的频率为1次。音频2包括指纹信息A,指纹信息A在音频2中的位置为第5s,在音频2中出现的频率为1次。音频3包括指纹信息A,指纹信息A在音频3中的位置为第5s,在音频3中出现的频率为1次。可见,音频段1的指纹信息A与倒排索引表中音频1、音频2、音频3的指纹信息A相同,音频段1的指纹信息B与倒排索引表中音频1的指纹信息A相同;因此,音频1的指纹信息B的独特性较强,音频1的指纹信息B代表度比较强;音频1的指纹信息A的独特性较弱,音频1的指纹信息A代表度比较弱。
表1
S203、统计该倒排索引表中所包括的音频总数量,及该倒排索引表中的指纹信息与该目标音频的指纹信息匹配的音频数量。
S204、计算该音频总数量与该匹配音频数量之间的比值。
S205、根据该比值确定该目标音频的指纹信息的逆文本频率。
S206、若该目标音频的指纹信息的逆文本频率低于预期,则从该倒排索引表中删除该目标音频的指纹信息。如表1所示,该目标音频为音频1,指纹信息为指纹信息A,若目标音频的指纹信息A的逆文本频率低于预期,则将音频1的指纹信息A删除。由于指纹信息相同,则每个音频的指纹信息的逆文本频率都相同,因此,若计算目标音频的指纹信息的逆文本频率低于预期,则将倒排索引表中与目标音频的指纹信息相同的指纹信息都删除。
在步骤S203~S206中,电子设备可以通过指纹信息的逆文本频率来去倒排索引表中的指纹信息进行筛选。具体的,电子设备可以统计倒排索引表中音频总数量,倒排索引表中音频的总数量也可以是指音频数据库中的音频总数量,并统计倒排索引表中指纹信息与目标音频的指纹信息匹配的第一音频数量;计算该音频总数量与该第一音频数量之间的比值,根据该比值确定该目标音频的指纹信息的逆文本频率。比值越大,表明指纹信息与目标音频的指纹信息匹配的音频数量越少,该目标音频的指纹信息的逆文本频率越大,该目标音频的指纹信息代表度越高;比值越小,表明指纹信息与目标音频的指纹信息匹配的音频数量越多,该目标音频的指纹信息的逆文本频率越小,该目标音频的指纹信息代表度越低。因此,若该目标音频的指纹信息的逆文本频率低于预期,则表明该目标音频的指纹信息代表度越低,则从该倒排索引表中删除该目标音频的指纹信息。例如,如表1所示,目标音频为音频1,音频1的指纹信息包括指纹信息A和指纹信息B,倒排索引表中的总音频数量为3。倒排索引表中有3个(即第一音频数量为3)音频的指纹信息与音频1的指纹信息A相同,指纹信息A的逆文本频率可以为总音频数量与第一音频数量的比值,指纹信息A的逆文本频率为1;倒排索引表中有1个(即第一音频数量为1),指纹信息B的逆文本频率可以为总音频数量与第一音频数量的比值,指纹信息B的逆文本频率为3。假设预期为2,指纹信息A的逆文本频率低于预期,将指纹信息A从倒排索引表中删除;指纹信息B的逆文本频率高于预期,将指纹信息B保留。针对倒排索引表中的每个指纹信息,可以采用上述方法计算每个指纹信息的代表度,并删除所有低于预期的指纹信息,使倒排索引表更加精简,并节省存储空间。
在一个实施例中,若该目标音频的指纹信息的逆文本频率小于预设阈值,则确定该目标音频的指纹信息代表度低于预期,其中,该预设阈值是根据该倒排索引表所包括的信息量和/或该倒排索引表中所包括的指纹信息的数量确定的。
若该目标音频的指纹信息的逆文本频率小于预设阈值,表明目标音频的指纹信息的代表度较低,则确定该目标音频的指纹信息代表度低于预期。其中,该预设阈值是根据该倒排索引表所包括的信息量和/或该倒排索引表中所包括的指纹信息的数量确定的,例如,倒排索引表中所包括的信息量越多,和/或,该倒排索引表中所包括的指纹信息的数量越多,则该预设阈值可以设置一个较小的数,以删除大量代表度较低的指纹信息;倒排索引表中所包括的信息量越少,和/或,该倒排索引表中所包括的指纹信息的数量越少,则该预设阈值可以设置一个较大的数,以删除少量代表度较低的指纹信息。
在一个实施例中,假设倒排索引表中包括M个音频,倒排索引表中指纹信息与目标音频的指纹信息A匹配的音频数量为V,目标音频的指纹信息A的逆文本频率为f,则目标音频的指纹信息A的逆文本频率可以采用如下公式(1)表示。
f=log10(M/V) (1)
在一个实施例中,将该倒排索引表加载至内存的目标函数中,接收音频查询指令,该音频查询指令包括音频段,获取该音频段的指纹信息,执行该目标函数,以根据该倒排索引表检索出与该音频段的指纹信息关联的音频。
为了保证检索的实时性,电子设备可以将倒排索引表加载至内存中,具体的,电子设备可以将该倒排索引表加载至内存的目标函数中,该目标函数可以是指用于检索音频的函数中,该目标函数可以为远程过程调用函数中。当接收到查询指令时,提取该查询指令携带的音频段的指纹信息,并执行该目标函数,以根据该倒排索引表从音频数据库中检索出与该音频的指纹信息关联的音频。可通过倒排索引表检索出用户想要的音频,提高检索效率。
在一个实施例中,目标音频的指纹信息代表度可以为该目标音频的指纹信息的匹配次数,电子设备可以从历史查询记录中获取目标音频的指纹信息的匹配次数;其中,历史查询记录中包括多个音频的指纹信息,及每个音频的指纹信息的匹配次数,音频的指纹信息的匹配次数是指音频的指纹信息与查询指令中携带的音频段的指纹信息的匹配次数。若目标音频的指纹信息的匹配次数较多,表明用户更偏好采用目标音频的指纹信息进行检索音频,则目标音频的信息代表度越高,目标音频的指纹信息利用价值比较高;若目标音频的指纹信息的匹配次数较少,表明用户不太喜欢采用目标音频的指纹信息进行检索音频,则目标音频的信息代表度越低,目标音频的指纹信息利用价值比较低。因此,当目标音频的指纹信息的匹配次数小于预设次数,则将该目标音频的指纹信息从倒排索引表中删除。
在另一个实施例中,该目标音频的指纹信息代表度可以包括该目标音频的指纹信息的匹配次数和该指纹信息的逆文本频率,电子设备可以对目标音频的指纹信息的匹配次数和该指纹信息的逆文本频率之间进行加权求和,得到代表度总和,若该代表度总和小于预设值,则表明该目标音频的指纹信息的代表度较低,可以将该目标音频的指纹信息删除。例如,假设目标音频的信息代表度总和为D,指纹信息的逆文本频率为f,其权重为k1,指纹信息的匹配次数为S,其权重为K2,则目标音频的信息代表度总和可以采用如下公式(2)表示。其中,由于目标音频的指纹信息的逆文本频率与检索的效率有关,目标音频的指纹信息的匹配次数与用户的检索习惯偏好有关,因此,电子设备可以根据用户的需求设置指纹信息的逆文本频率和指纹信息的匹配次数的权重。若指纹信息的逆文本频率的权重更大,则筛选后的倒排索引表能够实现高效率的检索;若指纹信息的匹配次数的权重更大,则筛选后的倒排索引表更能够契合用户检索的偏好。
D=f·k1+S·k2(2)
本发明实施例中,获取目标音频的指纹信息的代表度,当目标音频的指纹信息代表度低于预期,则从倒排索引表中将该目标音频的指纹信息删除;即可以通过目标音频的指纹信息代表度对倒排索引表中的指纹信息进行筛选,以保留代表度较高的指纹信息,并删除代表度较低的指纹信息,可节省存储空间,降低电子设备的资源消耗,并使倒排索引表更加精简。同时,由于代表度较低的指纹信息的检索性能较差,因此,删除这类指纹信息并不会影响检索性能;反而,通过代表度较高的指纹信息进行检索其检索性能更高,通过对倒排索引表的筛选一定程度上可以提高检索性能。
基于上述描述,本发明实施例提供一种音频处理装置的结构示意图,该音频处理装置可以运行于电子设备,此处电子设备可以包括智能手机、智能手表或电脑等等。如图3所示,该装置包括:
提取单元301,用于提取目标音频的音频指纹。
获取单元302,用于获取倒排索引表,所述倒排索引表包括所述目标音频及所述目标音频的指纹信息,所述目标音频的指纹信息为所述目标音频的音频指纹的哈希值;根据所述目标音频的指纹信息获取所述目标音频的指纹信息代表度,所述目标音频的指纹信息代表度为所述目标音频的指纹信息的逆文本频率,所述逆文本频率与匹配音频数量成反比。
删除单元303,用于若所述目标音频的指纹信息代表度低于预期,则从所述倒排索引表中删除所述目标音频的指纹信息。
可选的,提取单元301,用于对所述目标音频进行时频变换,得到所述目标音频的频域信息;根据所述目标音频的频域信息获取所述目标音频的能量矩阵;根据所述目标音频的能量矩阵确定所述目标音频的音频指纹。
可选的,所述匹配音频数量为所述倒排索引表中的指纹信息与所述目标音频的指纹信息匹配的音频的数量,所述倒排索引表中包括多个音频,所述目标音频为所述多个音频中的任一音频。
可选的,获取单元302,用于统计所述倒排索引表中所包括的音频总数量,及所述倒排索引表中的指纹信息与所述目标音频的指纹信息匹配的音频数量;计算所述音频总数量与所述匹配的音频数量之间的比值;根据所述比值确定所述目标音频的指纹信息的逆文本频率。
可选的,确定单元304,用于若所述目标音频的指纹信息的逆文本频率小于预设阈值,则确定所述目标音频的指纹信息代表度低于预期,其中,所述预设阈值是根据所述倒排索引表所包括的信息量和/或所述倒排索引表中所包括的指纹信息的数量确定的。
可选的,所述倒排索引表还包括所述目标音频的指纹信息位于所述目标音频中的位置信息,和/或所述目标音频的指纹信息在所述目标音频中出现的频率。
可选的,查询单元305,用于将所述倒排索引表加载至内存的目标函数中;接收音频查询指令,所述音频查询指令包括音频段;获取所述音频段的指纹信息;执行所述目标函数,以根据所述倒排索引表检索出与所述音频段的指纹信息关联的音频。
本发明实施例中,获取目标音频的指纹信息的代表度,当目标音频的指纹信息代表度低于预期,则从倒排索引表中将该目标音频的指纹信息删除;即可以通过目标音频的指纹信息代表度对倒排索引表中的指纹信息进行筛选,以保留代表度较高的指纹信息,并删除代表度较低的指纹信息,可节省存储空间,降低电子设备的资源消耗,并使倒排索引表更加精简。同时,由于代表度较低的指纹信息的检索性能较差,因此,删除这类指纹信息并不会影响检索性能;反而,通过代表度较高的指纹信息进行检索其检索性能更高,通过对倒排索引表的筛选一定程度上可以提高检索性能。
请参见图4,是本发明实施例提供的一种电子设备的结构示意图,该电子设备1000包括:处理器1001、用户接口1003、网络接口1004以及存储装置1005,处理器1001、用户接口1003、网络接口1004以及存储装置1005之间通过总线1002连接。
用户接口1003,用于实现人机交互,用户接口可以包括显示屏或键盘等等。网络接口1004,用于与外部设备之间进行通信连接。存储装置1005与处理器1001耦合,用于存储各种软件程序和/或多组指令。具体实现中,存储装置1005可包括高速随机存取的存储器,并且也可包括非易失性存储器,例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备。存储装置1005可以存储操作***(下述简称***),例如ANDROID,IOS,或者LINUX等操作***。存储装置1005还可以存储网络通信程序,该网络通信程序可用于与一个或多个附加设备,一个或多个终端设备,一个或多个网络设备进行通信。存储装置1005还可以存储用户接口程序,该用户接口程序可以通过图形化的操作界面将应用程序的内容形象逼真的显示出来,并通过菜单、对话框以及按键等输入控件接收用户对应用程序的控制操作。存储装置1005还可以存储一个或多个应用程序,如音频处理应用程序,用于对倒排索引表进行筛选。
在一个实施例中,所述存储装置1005还可用于存储一条或一条以上的程序指令;所述处理器1001可以调用所述一条或一条以上的程序指令时能够执音频处理方法以实现提取副歌,具体地,所述处理器1001调用程序指令,执行如下步骤:
提取目标音频的音频指纹;
获取倒排索引表,所述倒排索引表包括所述目标音频及所述目标音频的指纹信息,所述目标音频的指纹信息为所述目标音频的音频指纹的哈希值;
根据所述目标音频的指纹信息获取所述目标音频的指纹信息代表度,所述目标音频的指纹信息代表度为所述目标音频的指纹信息的逆文本频率,所述逆文本频率与匹配音频数量成反比;
若所述目标音频的指纹信息代表度低于预期,则从所述倒排索引表中删除所述目标音频的指纹信息。
可选的,所述处理器1001可以调用所述程序指令,执行如下步骤:
对所述目标音频进行时频变换,得到所述目标音频的频域信息;
根据所述目标音频的频域信息获取所述目标音频的能量矩阵;
根据所述目标音频的能量矩阵确定所述目标音频的音频指纹。
可选的,所述匹配音频数量为所述倒排索引表中的指纹信息与所述目标音频的指纹信息匹配的音频的数量,所述倒排索引表中包括多个音频,所述目标音频为所述多个音频中的任一音频。
可选的,所述处理器1001可以调用所述程序指令,执行如下步骤:
统计所述倒排索引表中所包括的音频总数量,及所述倒排索引表中的指纹信息与所述目标音频的指纹信息匹配的音频数量;
计算所述音频总数量与所述匹配的音频数量之间的比值;
根据所述比值确定所述目标音频的指纹信息的逆文本频率。
可选的,所述处理器1001可以调用所述程序指令,执行如下步骤:
若所述目标音频的指纹信息的逆文本频率小于预设阈值,则确定所述目标音频的指纹信息代表度低于预期,其中,所述预设阈值是根据所述倒排索引表所包括的信息量和/或所述倒排索引表中所包括的指纹信息的数量确定的。
可选的,所述倒排索引表还包括所述目标音频的指纹信息位于所述目标音频中的位置信息,和/或所述目标音频的指纹信息在所述目标音频中出现的频率。
可选的,所述处理器1001可以调用所述程序指令,执行如下步骤:
将所述倒排索引表加载至内存的目标函数中;
接收音频查询指令,所述音频查询指令包括音频段;
获取所述音频段的指纹信息;
执行所述目标函数,以根据所述倒排索引表检索出与所述音频段的指纹信息关联的音频。
本发明实施例中,获取目标音频的指纹信息的代表度,当目标音频的指纹信息代表度低于预期,则从倒排索引表中将该目标音频的指纹信息删除;即可以通过目标音频的指纹信息代表度对倒排索引表中的指纹信息进行筛选,以保留代表度较高的指纹信息,并删除代表度较低的指纹信息,可节省存储空间,降低电子设备的资源消耗,并使倒排索引表更加精简。同时,由于代表度较低的指纹信息的检索性能较差,因此,删除这类指纹信息并不会影响检索性能;反而,通过代表度较高的指纹信息进行检索其检索性能更高。
在一个实施例中,所述处理器1001可用于读取和执行计算机指令,实现如本申请图1或图2所述的一种音频处理方法。本发明实施例中提供的电子设备解决问题的原理与图1及图2所述的方法实施例相似,因此该电子设备的实施方式以及有益效果可以参见方法实施例的实施方式以及有益效果,重复之处不再赘述。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序解决问题的实施方式以及有益效果可以参见上述图1及图2所述的一种音频处理方法的实施方式以及有益效果,重复之处不再赘述。
以上所揭露的仅为本发明部分实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (8)
1.一种音频处理方法,其特征在于,包括:
对目标音频进行时频变换,得到所述目标音频的频域信息;
根据所述目标音频的频域信息获取所述目标音频的能量矩阵;
对所述目标音频的能量矩阵进行检测,将检测出的局部最大能量值确定为所述目标音频的音频指纹;
获取倒排索引表,所述倒排索引表包括所述目标音频及所述目标音频的指纹信息,所述目标音频的指纹信息为所述目标音频的音频指纹的哈希值;
统计所述倒排索引表中所包括的音频总数量,及所述倒排索引表中的指纹信息与所述目标音频的指纹信息匹配的音频数量;
计算所述音频总数量与所述匹配的音频数量之间的比值;
根据所述比值和历史查询记录确定所述目标音频的指纹信息代表度;所述目标音频的指纹信息代表度包括所述目标音频的指纹信息的匹配次数,以及所述目标音频的指纹信息的逆文本频率,所述逆文本频率与匹配音频数量成反比;所述匹配音频数量为所述倒排索引表中的指纹信息与所述目标音频的指纹信息匹配的音频数量;所述目标音频的指纹信息的匹配次数是指历史查询记录中反映所述目标音频的指纹信息与查询指令中携带的音频段的指纹信息的匹配次数;
对所述目标音频的指纹信息的匹配次数和所述指纹信息的逆文本频率之间进行加权求和,得到代表度总和;
若所述代表度总和小于预设值,则从所述倒排索引表中删除所述目标音频的指纹信息。
2.如权利要求1所述的方法,其特征在于,所述匹配音频数量为所述倒排索引表中的指纹信息与所述目标音频的指纹信息匹配的音频的数量,所述倒排索引表中包括多个音频,所述目标音频为所述多个音频中的任一音频。
3.如权利要求1所述的方法,其特征在于,所述方法还包括:
若所述目标音频的指纹信息的逆文本频率小于预设阈值,则确定所述目标音频的指纹信息代表度低于预期,其中,所述预设阈值是根据所述倒排索引表所包括的信息量和/或所述倒排索引表中所包括的指纹信息的数量确定的。
4.如权利要求1所述的方法,其特征在于,所述倒排索引表还包括所述目标音频的指纹信息位于所述目标音频中的位置信息,和/或所述目标音频的指纹信息在所述目标音频中出现的频率。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
将所述倒排索引表加载至内存的目标函数中;
接收音频查询指令,所述音频查询指令包括音频段;
获取所述音频段的指纹信息;
执行所述目标函数,以根据所述倒排索引表检索出与所述音频段的指纹信息关联的音频。
6.一种音频处理装置,其特征在于,包括:
提取单元,用于对目标音频进行时频变换,得到所述目标音频的频域信息;根据所述目标音频的频域信息获取所述目标音频的能量矩阵;对所述目标音频的能量矩阵进行检测,将检测出的局部最大能量值确定为所述目标音频的音频指纹;
获取单元,用于获取倒排索引表,所述倒排索引表包括所述目标音频及所述目标音频的指纹信息,所述目标音频的指纹信息为所述目标音频的音频指纹的哈希值;统计所述倒排索引表中所包括的音频总数量,及所述倒排索引表中的指纹信息与所述目标音频的指纹信息匹配的音频数量;计算所述音频总数量与所述匹配的音频数量之间的比值;根据所述比值和历史查询记录确定所述目标音频的指纹信息代表度,所述目标音频的指纹信息代表度包括所述目标音频的指纹信息的匹配次数,以及所述目标音频的指纹信息的逆文本频率,所述逆文本频率与匹配音频数量成反比;所述匹配音频数量为所述倒排索引表中的指纹信息与所述目标音频的指纹信息匹配的音频数量;
删除单元,用于所述目标音频的指纹信息的匹配次数是指历史查询记录中反映所述目标音频的指纹信息与查询指令中携带的音频段的指纹信息的匹配次数;对所述目标音频的指纹信息的匹配次数和所述指纹信息的逆文本频率之间进行加权求和,得到代表度总和;若所述代表度总和小于预设值,则从所述倒排索引表中删除所述目标音频的指纹信息。
7.一种电子设备,其特征在于,所述电子设备包括:
处理器,适于实现一条或一条以上指令;以及,
计算机可读存储介质,所述计算机可读存储介质存储有一条或一条以上指令,所述一条或一条以上指令适于由处理器加载并执行如权利要求1-5任一项所述的音频处理方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一条或一条以上指令,所述一条或一条以上指令适于由处理器加载并执行如权利要求1-5任一项所述的音频处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910168211.9A CN109871463B (zh) | 2019-03-06 | 2019-03-06 | 音频处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910168211.9A CN109871463B (zh) | 2019-03-06 | 2019-03-06 | 音频处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109871463A CN109871463A (zh) | 2019-06-11 |
CN109871463B true CN109871463B (zh) | 2024-04-09 |
Family
ID=66919924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910168211.9A Active CN109871463B (zh) | 2019-03-06 | 2019-03-06 | 音频处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109871463B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6345253B1 (en) * | 1999-04-09 | 2002-02-05 | International Business Machines Corporation | Method and apparatus for retrieving audio information using primary and supplemental indexes |
KR20070050631A (ko) * | 2005-11-11 | 2007-05-16 | 삼성전자주식회사 | 오디오 지문 생성과 오디오 데이터 검색 장치 및 방법 |
CN102081666A (zh) * | 2011-01-21 | 2011-06-01 | 北京大学 | 用于分布式图片搜索的索引构建方法和服务器 |
CN103093761A (zh) * | 2011-11-01 | 2013-05-08 | 腾讯科技(深圳)有限公司 | 音频指纹检索方法及装置 |
CN103440313A (zh) * | 2013-08-27 | 2013-12-11 | 复旦大学 | 基于音频指纹特征的音乐检索*** |
CN104915403A (zh) * | 2015-06-01 | 2015-09-16 | 腾讯科技(北京)有限公司 | 一种信息处理方法及服务器 |
CN105447030A (zh) * | 2014-08-29 | 2016-03-30 | 阿里巴巴集团控股有限公司 | 一种索引处理方法与设备 |
KR20160100216A (ko) * | 2015-02-13 | 2016-08-23 | 레이 왕 | 대량 오디오 지문 데이터베이스의 온라인 실시간 업데이트를 구축하는 방법과 장치 |
CN106407268A (zh) * | 2015-08-25 | 2017-02-15 | Tcl集团股份有限公司 | 一种基于覆盖率最优化法的内容检索方法及*** |
CN106547805A (zh) * | 2015-09-23 | 2017-03-29 | 北京奇虎科技有限公司 | 优化数据库索引的方法和装置 |
CN107402965A (zh) * | 2017-06-22 | 2017-11-28 | 中国农业大学 | 一种音频检索方法 |
CN107562762A (zh) * | 2016-07-01 | 2018-01-09 | 中国联合网络通信集团有限公司 | 数据索引构建方法及装置 |
CN107577773A (zh) * | 2017-09-08 | 2018-01-12 | 科大讯飞股份有限公司 | 一种音频匹配方法与装置、电子设备 |
CN107731220A (zh) * | 2017-10-18 | 2018-02-23 | 北京达佳互联信息技术有限公司 | 音频识别方法、装置和服务器 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9740775B2 (en) * | 2015-03-13 | 2017-08-22 | TCL Research America Inc. | Video retrieval based on optimized selected fingerprints |
-
2019
- 2019-03-06 CN CN201910168211.9A patent/CN109871463B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6345253B1 (en) * | 1999-04-09 | 2002-02-05 | International Business Machines Corporation | Method and apparatus for retrieving audio information using primary and supplemental indexes |
KR20070050631A (ko) * | 2005-11-11 | 2007-05-16 | 삼성전자주식회사 | 오디오 지문 생성과 오디오 데이터 검색 장치 및 방법 |
CN102081666A (zh) * | 2011-01-21 | 2011-06-01 | 北京大学 | 用于分布式图片搜索的索引构建方法和服务器 |
CN103093761A (zh) * | 2011-11-01 | 2013-05-08 | 腾讯科技(深圳)有限公司 | 音频指纹检索方法及装置 |
CN103440313A (zh) * | 2013-08-27 | 2013-12-11 | 复旦大学 | 基于音频指纹特征的音乐检索*** |
CN105447030A (zh) * | 2014-08-29 | 2016-03-30 | 阿里巴巴集团控股有限公司 | 一种索引处理方法与设备 |
KR20160100216A (ko) * | 2015-02-13 | 2016-08-23 | 레이 왕 | 대량 오디오 지문 데이터베이스의 온라인 실시간 업데이트를 구축하는 방법과 장치 |
CN104915403A (zh) * | 2015-06-01 | 2015-09-16 | 腾讯科技(北京)有限公司 | 一种信息处理方法及服务器 |
CN106407268A (zh) * | 2015-08-25 | 2017-02-15 | Tcl集团股份有限公司 | 一种基于覆盖率最优化法的内容检索方法及*** |
CN106547805A (zh) * | 2015-09-23 | 2017-03-29 | 北京奇虎科技有限公司 | 优化数据库索引的方法和装置 |
CN107562762A (zh) * | 2016-07-01 | 2018-01-09 | 中国联合网络通信集团有限公司 | 数据索引构建方法及装置 |
CN107402965A (zh) * | 2017-06-22 | 2017-11-28 | 中国农业大学 | 一种音频检索方法 |
CN107577773A (zh) * | 2017-09-08 | 2018-01-12 | 科大讯飞股份有限公司 | 一种音频匹配方法与装置、电子设备 |
CN107731220A (zh) * | 2017-10-18 | 2018-02-23 | 北京达佳互联信息技术有限公司 | 音频识别方法、装置和服务器 |
Non-Patent Citations (1)
Title |
---|
一种高效过滤提纯音频大数据检索方法;张兴忠等;《计算机研究与发展》;20150915(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109871463A (zh) | 2019-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111522704A (zh) | 告警信息处理方法、装置、计算机装置及存储介质 | |
WO2019085474A1 (zh) | 计算引擎实现方法、电子装置及存储介质 | |
CN107193598B (zh) | 一种应用启动方法、移动终端及计算机可读存储介质 | |
CN111566638B (zh) | 向应用编程接口添加描述性元数据以供智能代理使用 | |
CN106991179B (zh) | 数据删除方法、装置及移动终端 | |
CN104461504A (zh) | 一种终端应用程序的管理方法 | |
CN111192601A (zh) | 音乐标注方法、装置、电子设备及介质 | |
CN105354318A (zh) | 一种文件查找方法及装置 | |
CN104461505A (zh) | 一种终端 | |
CN114356851A (zh) | 数据文件的存储方法、装置、电子设备及存储介质 | |
CN114996173A (zh) | 一种管理存储设备写操作的方法和装置 | |
US10303655B1 (en) | Storage array compression based on the structure of the data being compressed | |
CN114048136A (zh) | 测试类型确定方法、装置、服务器、介质及产品 | |
CN110598067B (zh) | 词语权重获取方法、装置及存储介质 | |
CN109871463B (zh) | 音频处理方法、装置、电子设备及存储介质 | |
CN107430633B (zh) | 用于数据存储的***及方法和计算机可读介质 | |
CN110399396B (zh) | 高效的数据处理 | |
CN113672154B (zh) | 页面交互方法、介质、装置和计算设备 | |
CN111078753A (zh) | 基于HBase数据库的时序数据的存储方法及装置 | |
CN111984600B (zh) | 一种文件聚合方法、装置、设备及可读存储介质 | |
US20170132231A1 (en) | Systems and methods for scoring phone numbers | |
CN104252488A (zh) | 处理数据的方法和服务器 | |
CN110059118B (zh) | 特征属性的权重计算方法及装置、终端设备 | |
CN108038221B (zh) | 一种信息抓取方法及装置 | |
CN114461790A (zh) | 新闻事件主题自动生成方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |