WO2022194277A1 - 音频指纹的处理方法、装置、计算机设备和存储介质 - Google Patents

音频指纹的处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
WO2022194277A1
WO2022194277A1 PCT/CN2022/081680 CN2022081680W WO2022194277A1 WO 2022194277 A1 WO2022194277 A1 WO 2022194277A1 CN 2022081680 W CN2022081680 W CN 2022081680W WO 2022194277 A1 WO2022194277 A1 WO 2022194277A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio
data
target
fingerprint
fingerprint data
Prior art date
Application number
PCT/CN2022/081680
Other languages
English (en)
French (fr)
Inventor
李敬
何莹男
Original Assignee
百果园技术(新加坡)有限公司
李敬
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 百果园技术(新加坡)有限公司, 李敬 filed Critical 百果园技术(新加坡)有限公司
Publication of WO2022194277A1 publication Critical patent/WO2022194277A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/61Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings

Definitions

  • the audio signal contains a large number of frequency components, and multiple frequency components are independent of each other and change continuously along the time axis.
  • the frequency components and frequency components in different audio signals are different.
  • by analyzing the audio signal The characteristics of the audio signal are obtained from the frequency characteristics of the frequency.
  • the audio signal in the time domain is usually converted to the frequency domain to obtain a spectrogram, where the horizontal axis (X coordinate) of the spectrogram is time. , the vertical axis (Y coordinate) is the frequency.
  • a first distance in time between each peak point and each of the other peak points may be measured, and the first distance may be used as the characteristic information of each peak point.
  • a second distance in frequency between each peak point and each of the other peak points may be measured, and the second distance may be used as characteristic information of each peak point.
  • Step 102 Match the target fingerprint data with the reference fingerprint data in the first audio fingerprint database and the reference fingerprint data in the second audio fingerprint database.
  • Embodiment 2 is a flowchart of an audio fingerprint processing method provided in Embodiment 2 of the present application. Based on the foregoing embodiments, this embodiment adds clustering of target audio data, use of time-to-live to manage reference fingerprint data, and reference fingerprint data.
  • the operation of data transfer database, the method includes the following steps:
  • the indicator satisfies the preset library transfer conditions, it means that the reference fingerprint data belongs to relatively popular audio data, possibly a newly released song, etc.
  • the reference fingerprint data can be transferred from the second audio fingerprint database to the first audio fingerprint database, and generate prompt information, the prompt information is used to prompt the operator to add copyright information to the audio data to which the reference fingerprint data belongs.
  • the lifetime of the reference fingerprint data in the first audio fingerprint database can also be set to be equal to or less than that of the second audio fingerprint database.
  • the lifetime of the reference fingerprint data in the fingerprint database that is, the first value is equal to or smaller than the second value, which is not limited in this embodiment.
  • the reference fingerprint data in the first audio fingerprint database has been attenuated, that is, the current value is 0, it means that the frequency of use of the audio data to which the reference fingerprint data belongs is relatively low.
  • the reference fingerprint data can be deleted from the first audio fingerprint database.
  • reduce the data volume of the reference fingerprint data stored in the first audio fingerprint database release the space of the first audio fingerprint database, thereby Effectively meet the storage requirements of processing continuous fingerprint data under the condition of limited storage capacity.
  • the index statistics module is set to, if the reference fingerprint data in the second audio fingerprint database is successfully matched with the target fingerprint data, then the reference fingerprint data is statistically matched to the index of the successful matching; the fingerprint data database moving module is set to if If the index satisfies the preset database transfer condition, the reference fingerprint data is transferred from the second audio fingerprint database to the first audio fingerprint database.
  • computer device 12 takes the form of a general-purpose computing device.
  • Components of computer device 12 may include, but are not limited to, one or more processors or processing units 16 , system memory 28 , and a bus 18 connecting various system components including system memory 28 and processing unit 16 .
  • a program/utility 40 having a set (at least one) of program modules 42, which may be stored, for example, in memory 28, such program modules 42 including, but not limited to, an operating system, one or more application programs, other program modules, and program data , each or some combination of these examples may include an implementation of a network environment.
  • Program modules 42 generally perform the functions and/or methods of the embodiments described herein.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供了一种音频指纹的处理方法、装置、计算机设备和存储介质,音频指纹的处理方法包括:对目标音频数据生成目标指纹数据(101),将目标指纹数据分别与第一音频指纹库、第二音频指纹库中的参考指纹数据进行匹配(102),若匹配失败,则调用音乐查询服务接口查询目标音频数据的版权信息,若已查询到版权信息,则将目标指纹数据存储至第一音频指纹库中,作为第一音频指纹库中新的参考指纹数据,记录目标音频数据的版权信息,若未查询到版权信息,则将目标指纹数据存储至第二音频指纹库中,作为第二音频指纹库中新的参考指纹数据。

Description

音频指纹的处理方法、装置、计算机设备和存储介质
本申请要求在2021年03月18日提交中国专利局、申请号为202110292844.8的中国专利申请的优先权,该申请的全部内容通过引用结合在本申请中。
技术领域
本申请实施例涉及音频处理的技术领域,例如涉及一种音频指纹的处理方法、装置、计算机设备和存储介质。
背景技术
随着互联网的飞速发展,尤其是移动终端的广泛普及,用户可以方便地制作多媒体数据,例如,制作短视频、哼唱歌曲、录音,等等,使得互联网中的多媒体数据的数据量快速增长,音频数据的数据量也随之快速增长。
在歌曲搜索、语音内容审核等业务场景中,会对音频数据进行比对,判断音频数据是否相同或相似。
由于音频数据的数量众多,一些音乐版权方收录不同的音频数据、记录收录的音频的版权信息,并提供音乐查询服务接口(Music Query Service Interface,MQSI),从而提供独立的音乐查询服务。
在诸如短视频等场景中,每天客户端上传至平台的音频数据的量级可达千万甚至亿级,短视频等多媒体数据更新速度较快,容易产生新的音频数据,而新的音频数据并未被音乐版权方收录,若调用音乐查询服务接口查询音频数据,可能无法查询到相关信息,导致查询效率较低,而且,音乐查询服务通常为付费服务,查询量大会导致运营成本较高。
发明内容
本申请实施例提出了一种音频指纹的处理方法、装置、计算机设备和存储介质,解决了大量多媒体数据更新速度较快导致调用音乐查询服务接口查询音频数据效率较低、运营成本较高的问题。
本申请实施例提供了一种音频指纹的处理方法,包括:
对目标音频数据生成目标指纹数据;
将所述目标指纹数据与第一音频指纹库中的参考指纹数据和第二音频指纹库中的参考指纹数据进行匹配;
在所述目标指纹数据与所述第一音频指纹库中的参考指纹数据和所述第二 音频指纹库中的参考指纹数据均匹配失败的情况下,调用音乐查询服务接口查询所述目标音频数据的版权信息;
在已查询到所述目标音频数据的版权信息的情况下,将所述目标指纹数据存储至所述第一音频指纹库中以将所述目标指纹数据作为所述第一音频指纹库中新的参考指纹数据,并记录所述目标音频数据的版权信息;
在未查询到所述目标音频数据的版权信息的情况下,将所述目标指纹数据存储至所述第二音频指纹库中以将所述目标指纹数据作为所述第二音频指纹库中新的参考指纹数据。
本申请实施例还提供了一种音频指纹的处理装置,包括:
指纹数据生成模块,设置为对目标音频数据生成目标指纹数据;
指纹数据匹配模块,设置为将所述目标指纹数据与第一音频指纹库中的参考指纹数据和第二音频指纹库中的参考指纹数据进行匹配;
接口查询模块,设置为在所述目标指纹数据与所述第一音频指纹库中的参考指纹数据和所述第二音频指纹库中的参考指纹数据均匹配失败的情况下,调用音乐查询服务接口查询所述目标音频数据的版权信息;
第一更新模块,设置为在已查询到所述目标音频数据的版权信息的情况下,将所述目标指纹数据存储至所述第一音频指纹库中以将所述目标指纹数据作为所述第一音频指纹库中新的参考指纹数据,并记录所述目标音频数据的版权信息;
第二更新模块,设置为在未查询到所述目标音频数据的版权信息的情况下,将所述目标指纹数据存储至所述第二音频指纹库中以将所述目标指纹数据作为所述第二音频指纹库中新的参考指纹数据。
本申请实施例还提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储器,设置为存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本申请任意实施例所述的音频指纹的处理方法。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现本申请任意实施例所述的音频指纹的处理方法。
附图说明
图1为本申请实施例一提供的一种音频指纹的处理方法的流程图;
图2是本申请实施例二提供的一种音频指纹的处理方法的流程图;
图3为本申请实施例三提供的一种音频指纹的处理装置的结构示意图;
图4为本申请实施例四提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请进行说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
实施例一
图1为本申请实施例一提供的一种音频指纹的处理方法的流程图,本实施例可适用于对指纹库进行分级聚类、从而减少调用音乐查询服务接口的情况,该方法可以由音频指纹的处理装置来执行,该音频指纹的处理装置可以由软件和/或硬件实现,可配置在计算机设备中,例如,服务器、工作站、个人电脑,等等。所述音频指纹的处理方法包括如下步骤:
步骤101、对目标音频数据生成目标指纹数据。
在本实施例中,计算机设备可以通过不同的方式获取音频数据,例如,接收用户上传的音频数据、向版权方购买音频数据、技术人员录制音频数据、使用爬虫客户端从网络中爬取音频数据,等等。
该音频数据的形式可以为歌手发布的歌曲,从短视频、电影、电视剧等视频数据中分离的音频数据以及用户在移动终端录制的语音信号,等等。该音频数据的格式可以包括动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III,MP3)、视窗媒体音频(Windows Media Audio,WMA)、高级音频编码格式(Advanced Audio Coding,AAC)等等,本实施例对此不加以限制。
计算机设备作为多媒体平台,一方面,可为用户提供基于音频的服务,例如,向用户提供直播节目、短视频、语音会话、视频会话,等等,另一方面,可接收用户上传的携带音频的文件,例如,直播数据、短视频、会话信息,等等。
不同的多媒体平台可按照业务、法律等因素制定视频内容审核标准,在发布携带音频的文件之前,按照该审核标准对该携带音频的文件的内容进行审核,过滤掉一些不符合视频内容审核标准的携带音频的文件,如包含色情、低俗、 暴力等内容的携带音频的文件,从而发布一些符合视频内容审核标准的携带音频的文件。
如果对于内容审核的实时性要求较高,在多媒体平台中可设置流式实时***,用户通过客户端实时将携带音频的文件上传至该流式实时***,该流式实时***可将该携带音频的文件传输至用于内容审核的计算机设备。
如果对于内容审核的实时性要求较低,在多媒体平台中可设置数据库,如分布式数据库等,用户通过客户端将携带音频的文件上传至该数据库,设置为内容审核的计算机设备可从该数据库读取该携带音频的文件。
多媒体平台中,既对用户上传的携带音频的文件计算指纹数据,也对自身的音频数据计算指纹数据,其中,指纹数据是利用音频数据的频谱中的峰值和相对位置等信息,来表示音频数据的特征,指纹数据对每一个音频数据具有唯一性,从而基于音频指纹可以实现音频数据的搜索、内容审核等服务。
为便于区分,在本实施例中,携带音频的文件、音频数据可以称之为目标音频数据,对目标音频数据生成的指纹数据称之为目标指纹数据。
在本申请的一个实施例中,步骤101可以包括如下步骤:
步骤1011、将目标音频数据划分为多帧音频信号。
在本实施例中,可每间隔预设的长度切分目标音频数据,从而得到多帧音频信号。
步骤1012、将多帧音频信号转换为频谱图。
音频信号中包含大量的频率分量,多个频率分量相互独立,并且沿着时间轴不断变化,不同的音频信号当中频率分量和频率分量的变化各不相同,在本实施例中,通过分析音频信号的频率特征得出音频信号的特征,为更直观的对频率进行分析,通常将时域上的音频信号转换到频域上,得到频谱图,其中,频谱图的横轴(X坐标)为时间、纵轴(Y坐标)为频率。
本实施例中,可通过傅里叶变换(Discrete Fourier Transform,DFT)、短时傅里叶变换(short-time Fourier transform,或,short-term Fourier transform,STFT)等方式将音频信号转换为频谱图。傅里叶变换能反映音频信号中频率的均值,却无法反映频率随时间变化的动态特征,而短时傅里叶变换通过给音频信号添加窗口克服这一弱点,既能反映音频信号的频率强度,又能反映频率强度随时间的变化。
把时域信号变成频域信号会损失时间信息,因此,短时傅里叶变换可以采用数据块(又称窗口)的方式,将一大段时域上的音频信号分成多个数据块, 对多个数据块分别转换,得到多个频域信号,这样在一定程度上保留时间信息。
例如,音频信号的参数为双声道、16-bit精度、44100Hz采样,这时1s的数据大小为441002byte2声道≈176kB,如果选择4kB当作数据块的大小,则每秒钟要对44块数据进行短时傅里叶变换,这样的切分密度可满足需求。
步骤1013、在频谱图上遍历表示峰值的多个数据点,将每个数据点作为一个峰值点。
音频信号的幅值较大的频率跨度可能很广,从低音C(32.70Hz)到高音C(4186.01Hz)都可能出现。为了避免分析整个频谱图,降低计算量,可将频谱图分成多个频谱带(又称子带)。
从每个子带中选择表示频率属于峰值的数据点,并将该数据点作为峰值点。所谓峰值,表示在先有足够量的、频率处于上升的点,且在后有足够量的、频率处于下降的点,例如,选择如下多个子带:低音子带为30Hz-40Hz,40Hz-80Hz和80Hz-120Hz(贝司吉他等乐器的基频会出现低音子带),中音和高音子带分别为120Hz-180Hz和180Hz-300Hz(人声和大部分其他乐器的基频出现在这两个子带)。
由于能量(即频谱图上的幅值)越大的点抗噪性就越强,因此,针对每个子带,可按照能量选择峰值点。通常情况下,可在每个子带中选择能量最大的点作为峰值点。
步骤1014、提取每个峰值点的特征信息。
在本实施例中,可以通过分析每个峰值点自身的特性以及峰值点之间的特性,将得到的特性作为特征信息。
在一个示例中,可查询每个峰值点的频率值,将频率值作为所述每个峰值点的特征信息。
在另一个示例中,遍历每个峰值点,可测量每个峰值点与其他峰值点中每个峰值点在时间上的第一距离,将第一距离作为所述每个峰值点的特征信息。
在一示例中,由于峰值点在频谱图中对应的横坐标为时间,因此可以统计每个峰值点与其他峰值点中每个峰值点在时间上的间隔,将每个峰值点与其他峰值点中每个峰值峰值点在时间上的间隔作为所述每个峰值点的第一距离。
针对一个峰值点,其他峰值点为频谱图上除所述一个峰值点之外的峰值点。
一个峰值点与其他峰值点在时间上越相近,所述一个峰值点与其他峰值点的相关性越高,因此,针对每个峰值点,寻找在时间的维度下、频谱图上的位于所述每个峰值点的邻域内的其他峰值点,计算当所述每个峰值点与寻找到的 其他峰值点中每个峰值点在时间上的第一距离,将第一距离作为所述每个峰值点的特征信息。
此外,可以忽略在当前每个峰值点的邻域外的其他峰值点,在保持特征信息的精确度的情况下,降低计算量。
在又一个示例中,可测量每个峰值点与其他峰值点中每个峰值点在频率上的第二距离,将第二距离作为所述每个峰值点的特征信息。
针对一个峰值点,其他峰值点为频谱图上除所述一个峰值点之外的峰值点。
一个峰值点与其他峰值点在频率上越相近,所述一个峰值点与其他峰值点的相关性越高,因此,针对每个峰值点,寻找在频率的维度下、频谱图上的位于所述每个峰值点的邻域内的其他峰值点,计算所述每个峰值点与寻找到的其他峰值点中每个峰值点在频率上的第二距离,将第二距离作为每个峰值点的特征信息。
本实施例中,频率值、第一距离、第二距离可以单独作为峰值点的特征信息,也可以任意组合作为峰值点的特征信息,本实施例对此不加以限制。当频率值、第一距离、第二距离同时作为峰值点的特征信息时,可以从多个模态反映峰值点的特性,从而提高峰值点的特征信息的准确性。
上述峰值点的特征信息只是作为示例,在实施本申请实施例时,可以根据实际情况设置峰值点的其它特征信息,本申请实施例对此不加以限制。另外,除了上述峰值点的特征信息外,本领域技术人员还可以根据实际需要采用峰值点的其它特征信息,本申请实施例对此也不加以限制。
步骤1015、对每个峰值点的特征信息计算哈希值,将每个峰值点对应的哈希值作为目标音频数据的一个目标指纹数据。
对于每个峰值点的特征信息,可按照预设的哈希算法对其计算哈希值(hash,又称散列值),将每个峰值点对应的哈希值作为目标音频数据的一个目标指纹数据,用以标识目标音频数据。
在一个示例中,一个峰值点的特征信息为所述一个峰值点自身的频率值、所述一个峰值点与其他峰值点在时间上的第一距离以及所述一个峰值点与其他峰值点在频率上的第二距离。在本示例中,可将每个峰值点的频率值、第一距离与第二距离转换为二进制格式,在转换完成的情况下,按照预设的排列规则,如频率值在前、第一距离在中、第二距离在后,频率值在后、第一距离在中、第二距离在前,等等,将每个峰值点的二进制格式的频率值、第一距离与第二距离进行拼接,并将拼接结果作为目标音频数据的一个目标指纹数据。二进制格式的指纹数据较为直观,方便将指纹数据转换为原始的频率值、第一距离与 第二距离,从而便于开发的调试,降低开发的成本。
上述计算哈希值的方式只是作为示例,在实施本申请实施例中,可以根据实际情况设置其它计算哈希值的方式,例如,使用消息摘要算法第五版(Message Digest Algorithm,MD5)、安全散列算法(Secure Hash Algorithm,SHA)等算法对频率值、第一距离与第二距离计算哈希值,本申请实施例对此不加以限制。另外,除了上述峰值点的特征信息外,本领域技术人员还可以根据实际需要采用峰值点的其它特征信息,本申请实施例对此也不加以限制。
步骤102、将目标指纹数据与第一音频指纹库中的参考指纹数据和第二音频指纹库中的参考指纹数据进行匹配。
在本实施例中,可以分别构建两个独立的数据库,作为第一音频指纹库、第二音频指纹库,其中,第一音频指纹库用于存储通过音乐查询服务接口查询具有版权信息的音频数据的参考指纹数据,第二音频指纹库用于存储通过音乐查询服务接口查询不具有版权信息的音频数据的参考指纹数据。
在初始时,第一音频指纹库、第二音频指纹库可以为空,也可以通过人工本地验证、其他机构验证等方式将一批音频数据中已验证具有版权信息的音频数据的参考指纹数据存储至第一音频指纹库、已验证不具有版权信息的音频数据的参考指纹数据存储至第二音频指纹库作为种子,本实施例对此不加以限制。
参考指纹数据也属于音频数据的指纹数据,生成参考指纹数据的方式与生成目标指纹数据的方式相同。
在已生成目标音频数据的目标指纹数据的情况下,可以将目标指纹数据与第一音频指纹库的参考指纹数据以及第二音频指纹库中的参考指纹数据进行匹配,从而判断目标指纹数据是否与第一音频指纹库或第二音频指纹库中的参考指纹数据相同或相似。
示例性的,第一音频指纹库中包括多个参考指纹数据,第二音频数据库中包括多个参考指纹数据。
考虑到较多的音频数据均具有版权信息,较少的音频数据属于原创、不具有版权信息,匹配第一音频指纹库中的参考指纹数据的优先级可高于匹配第二音频指纹库中的参考指纹数据的优先级,即,将目标指纹数据与第一音频指纹库中的参考指纹数据进行匹配,若目标指纹数据与第一音频指纹库中的全部参考指纹数据均匹配失败,则将目标指纹数据与第二音频指纹库中的参考指纹数据进行匹配,若目标指纹数据与第一音频指纹库中的任一参考指纹数据匹配成功,则停止将目标指纹数据与第二音频指纹库中的参考指纹数据进行匹配,在较多的音频数据均具有版权信息,较少的音频数据属于原创、不具有版权信息 的情况下,与第一音频指纹库中的参考指纹数据匹配成功的几率较高,与第二音频指纹库中的参考指纹数据匹配成功的几率较低,因此,优先匹配第一音频指纹库中的参考指纹数据,可降低后续匹配第二音频指纹库中的参考指纹数据的计算量,从而提高匹配的效率。
除了匹配第一音频指纹库中的参考指纹数据的优先级可高于匹配第二音频指纹库中的参考指纹数据的优先级之外,匹配第一音频指纹库中的参考指纹数据的优先级也可低于匹配第二音频指纹库中的参考指纹数据的优先级,即,将目标指纹数据与第二音频指纹库中的参考指纹数据进行匹配,若目标指纹数据与第二音频指纹库中的全部参考指纹数据均匹配失败,则将目标指纹数据与第一音频指纹库中的参考指纹数据进行匹配,若目标指纹数据与第二音频指纹库中的任一参考指纹数据均匹配成功,则停止将目标指纹数据与第一音频指纹库中的参考指纹数据进行匹配,本实施例对此不加限制。
在具体实现中,目标音频数据可能为长音频,所以将目标音频数据切分为多帧音频信号计算目标指纹数据时,目标音频数据可能多个目标指纹数据,且对于短视频等多媒体数据,多复用部分具有版权信息的音频数据,如歌曲的高潮部分,因此,可计算每一目标指纹数据与第一音频库中的每一参考指纹数据的相似度,以及计算每一目标指纹数据与第二音频指纹库中的每一参考指纹数据的相似度。若全部目标指纹数据中的连续的n(n为正整数)个目标指纹数据分别与一个音频指纹库中的连续的n个参考指纹数据之间的相似度均大于预设的阈值,则可以确定目标音频数据的连续n个目标指纹数据与该一个音频指纹库中的连续n个参考指纹数据匹配成功,进而确定目标音频数据的目标指纹数据与该一个音频指纹库中的参考指纹数据匹配成功。通过相似度及相对位置的对比,可以保证目标指纹数据与参考指纹数据之间的稳定性,从而保证目标指纹数据与参考指纹数据的准确性。
步骤103、若目标指纹数据与第一音频指纹库中的参考指纹数据以及第二音频指纹库中的参考指纹数据均匹配失败,则调用音乐查询服务接口查询目标音频数据的版权信息。
若目标指纹数据与第一音频指纹库中的全部参考指纹数据、第二音频指纹库中的全部参考指纹数据均匹配失败,则表示在计算机设备本地并未搜索到与目标音频数据相同或相似的音频数据,该目标音频数据较大可能为新的音频数据,在这种情况下,可以调用音乐查询服务接口,按照音乐查询服务接口的规范,将目标音频数据发送至音乐版权方的服务器,在音乐版权方的服务器中查询该目标音频数据是否具有版权信息。
步骤104、若已查询到目标音频数据的版权信息,则将目标指纹数据存储至 第一音频指纹库中以将目标指纹数据作为第一音频指纹库中新的参考指纹数据,并记录目标音频数据的版权信息。
若音乐版权方的服务器通过音乐查询服务接口返回目标音频数据的版权信息,则可以将该目标指纹数据存储至第一音频指纹库中,该目标指纹数据为第一音频指纹库中新的参考指纹数据。此外,以其他表格或数据库等形式,记录该目标音频数据的版权信息,该版权信息可以以目标音频数据的标识(如标识(Iden,ID))作为索引,与第一音频指纹库中新的参考指纹数据关联。
在一种存储方式中,以每个目标指纹数据为键key,该目标音频数据的标识(如ID)、所述每个目标指纹数据所属音频信号的序号为值value,生成键值对(key,value),所述每个目标指纹数据所属音频信号属于目标音频数据中的一帧信号。
将键值对(key,value)存储至第一音频指纹库中,并将该键值对作为第一音频指纹库中新的参考指纹数据。
对于每个索引值index,可以提供b个(b为正整数,如2 N)存储位置,以便具有相同的键key、但值value不同的目标指纹数据进行存储,从而在第一音频指纹库中形成一个a(a为键key的长度,即目标指纹数据的长度,属于正整数)行、b列的数据表,以提高存储的效率、提高搜索的简便性。
上述存储目标指纹数据至第一音频指纹库的方式只是作为示例,在实施本申请实施例时,可以根据实际情况设置存储目标指纹数据至第一音频指纹库的其它方式,例如,以目标音频数据的标识为键key、该目标音频数据的所有目标指纹数据为值value,生成键值对(key,value),将键值对(key,value)存储至第一音频指纹库中,等等,本申请实施例对此不加以限制。另外,除了上述存储目标指纹数据至第一音频指纹库的方式外,本领域技术人员还可以根据实际需要采用其它存储目标指纹数据至第一音频指纹库的方式,本申请实施例对此也不加以限制。
步骤105、若未查询到目标音频数据的版权信息,则将目标指纹数据存储至第二音频指纹库中以将目标指纹数据作为第二音频指纹库中新的参考指纹数据。
若音乐版权方的服务器通过音乐查询服务接口返回目标音频数据并不具有版权信息的结果,则可以将该目标指纹数据存储至第二音频指纹库中,该目标指纹数据为第二音频指纹库中新的参考指纹数据。
在一种存储方式中,以每个目标指纹数据为键key,该目标音频数据的标识(如ID)、所述每个目标指纹数据所属音频信号的序号为值value,生成键值对 (key,value),所述每个目标指纹数据所属音频信号属于目标音频数据中的一帧信号。
将键值对(key,value)存储至第二音频指纹库中,并将该键值对作为第二音频指纹库中新的参考指纹数据。
对于每个索引值index,可以提供b个(b为正整数,如2 N)存储位置,以便具有相同的键key、但值value不同的目标指纹进行存储,从而在第二音频指纹库中形成一个a(a为键key的长度,即目标指纹数据的长度,属于正整数)行、b列的数据表,以提高存储的效率、提高搜索的简便性。
上述存储目标指纹数据至第二音频指纹库的方式只是作为示例,在实施本申请实施例时,可以根据实际情况设置存储目标指纹数据至第二音频指纹库的其它方式,例如,以目标音频数据的标识为键key、该目标音频数据所有目标指纹数据为值value,生成键值对(key,value),将键值对(key,value)存储至第二音频指纹库中,等等,本申请实施例对此不加以限制。另外,除了上述存储目标指纹数据至第二音频指纹库的方式外,本领域技术人员还可以根据实际需要采用其它存储目标指纹数据至第二音频指纹库的方式,本申请实施例对此也不加以限制。
需要说明的是,存储目标指纹数据至第一音频指纹库的方式与存储目标指纹数据至第二音频指纹库的方式可以相同,也可以不同,本实施例对此不加以限制。
在本实施例中,对目标音频数据生成目标指纹数据;将所述目标指纹数据与第一音频指纹库中的参考指纹数据和第二音频指纹库中的参考指纹数据进行匹配;在所述目标指纹数据与所述第一音频指纹库中的参考指纹数据和所述第二音频指纹库中的参考指纹数据均匹配失败的情况下,调用音乐查询服务接口查询所述目标音频数据的版权信息;在已查询到所述目标音频数据的版权信息的情况下,将所述目标指纹数据存储至所述第一音频指纹库中以将所述目标指纹数据作为所述第一音频指纹库中新的参考指纹数据,并记录所述目标音频数据的版权信息;在未查询到所述目标音频数据的版权信息的情况下,将所述目标指纹数据存储至所述第二音频指纹库中以将所述目标指纹数据作为所述第二音频指纹库中新的参考指纹数据。利用音乐查询服务接口作为分级的依据,划分第一音频指纹库、第二音频指纹库,用以区分是否具有版本的音频数据,收录新的音频数据,提高搜索的成功率,使用第一音频指纹库、第二音频指纹库、音乐查询服务接口制定联合分级查询机制,即先搜索第一音频指纹库、第二音频指纹库,再调用音乐查询服务接口,可有效利用第一音频指纹库、第二音频指纹库中的指纹数据,减少音乐查询服务接口的调用次数,从而降低运营成本。
实施例二
图2为本申请实施例二提供的一种音频指纹的处理方法的流程图,本实施例以前述实施例为基础,增加了对目标音频数据聚类、使用生存时间管理参考指纹数据、参考指纹数据转库的操作,该方法包括如下步骤:
步骤201、对目标音频数据生成目标指纹数据。
步骤202、将目标指纹数据与第一音频指纹库中的参考指纹数据和第二音频指纹库中的参考指纹数据进行匹配。
步骤203、若目标指纹数据与第一音频指纹库中的参考指纹数据和第二音频指纹库中的参考指纹数据均匹配失败,则调用音乐查询服务接口查询目标音频数据的版权信息。
步骤204、若已查询到目标音频数据的版权信息,则将目标指纹数据存储至第一音频指纹库中以将目标指纹数据作为第一音频指纹库中新的参考指纹数据,并记录目标音频数据的版权信息。
步骤205、将目标音频数据作为新的参考音频数据,对新的参考音频数据生成新的簇。
在本实施例中,如果通过音乐查询服务接口查询到目标音频数据的版权信息,表示在计算机设备本地并未存储与目标音频数据相同或相似的音频数据,此时,除了记录目标音频数据的版权信息之外,还可以将目标音频数据设置为新的参考音频数据,以及,对新的参考音频数据生成新的簇,该簇用于聚类相同或相似的音频数据。
步骤206、若未查询到目标音频数据的版权信息,则将目标指纹数据存储至第二音频指纹库中以将目标指纹数据作为第二音频指纹库中新的参考指纹数据。
步骤207、若目标指纹数据与第一音频指纹库中的参考指纹数据匹配成功,则将目标音频数据添加至参考音频数据所属的簇中。
在本实施例中,每个音频指纹库中有多个音频数据的参考指纹数据。如果目标指纹数据与第一音频指纹库中的参考指纹数据匹配成功,表示在计算机设备本地已存储与目标音频数据相同或相似的音频数据,为便于区分,该音频数据可称之为参考音频数据。在目标指纹数据与第一音频指纹库中的参考指纹数据匹配成功的情况下,可查找该参考音频数据所属的簇,将目标音频数据添加至该参考音频数据所属的簇中,使得相同或相似的音频数据聚类至同一簇中, 便于后续基于簇进行用户分类、歌曲推荐等业务处理。
步骤208、若目标指纹数据与第二音频指纹库中的参考指纹数据匹配成功,则将目标音频数据添加至参考音频数据所属的簇中。
在本实施例中,如果目标指纹数据与第二音频指纹库中的参考指纹数据匹配成功,表示在计算机设备本地已存储与目标音频数据相同或相似的音频数据,为便于区分,该音频数据可称之为参考音频数据。在目标指纹数据与第二音频指纹库中的参考指纹数据匹配成功的情况下,可查找该参考音频数据所属的簇,将目标音频数据添加至该参考音频数据所属的簇中,使得相同或相似的音频数据聚类至同一簇中,便于后续基于簇进行用户分类、歌曲推荐等业务处理。
示例性的,若目标音频数据的全部目标指纹数据中的连续的n(n为正整数)个目标指纹数据分别与一个音频指纹库中的连续的n个参考指纹数据之间的相似度均大于预设的阈值,则确定目标音频数据的该连续n个目标指纹数据与该连续的n个参考指纹数据匹配成功。例如n为3,若目标音频数据的连续三个目标指纹数据中的第一个目标指纹数据与第一音频指纹库中连续三个参考指纹数据中的第一个参考指纹数据的相似度大于预设阈值、所述连续三个目标指纹数据中的第二个目标指纹数据与所述连续三个参考指纹数据中的第二个参考指纹数据的相似度大于预设阈值,且所述连续三个目标指纹数据中第三个目标指纹数据与所述连续三个参考指纹数据中的第三个参考指纹数据的相似度大于预设阈值,则确定目标音频数据的所述连续三个目标指纹数据与第一音频指纹库中所述连续三个参考指纹数据匹配成功。
示例性的,将与目标音频数据的连续n个目标指纹数据匹配成功的连续的n个参考指纹数据所属的音频数据作为参考音频数据,将目标音频数据添加至该参考音频数据所属的簇。
步骤209、若第二音频指纹库中的参考指纹数据与目标指纹数据匹配成功,则对参考指纹数据统计匹配成功的指标。
步骤210、若指标满足预设的转库条件,则将参考指纹数据从第二音频指纹库转移至第一音频指纹库。
考虑到在网络发布新歌曲、短视频更新速度较快等场景下,容易产生新的音频数据,而并未被音乐版权方收录的情况,可以预先针对第二音频指纹库中的参考指纹数据设置转库条件,在满足该转库条件时,可将参考指纹数据转库。
在本实施例中,如果目标指纹数据与第二音频指纹库中的参考指纹数据匹配成功,则可以对该参考指纹数据统计匹配成功的指标,例如,匹配成功的总数量、匹配成功的频次,等等。
示例性的,若第二音频数据库中的连续n个参考指纹数据与目标音频数据的目标指纹数据匹配成功,则对该连续n个参考指纹数据中的每一参考指纹数据统计匹配成功的指标。例如,n为3,若第二音频音频数据库中的连续三个参考指纹数据与目标音频数据的目标指纹数据匹配成功,则分别将该连续三个参考指纹数据的匹配成功的总数量加1。
将该指标与同一纬度下的转库条件进行比较,例如,匹配成功的总数量大于或等于第一阈值、匹配成功的频次大于或等于第二阈值,等等。
如果该指标满足预设的转库条件,表示该参考指纹数据属于较为热门的音频数据,有可能属于新发布的歌曲等情况,可将参考指纹数据从第二音频指纹库转移至第一音频指纹库,并生成提示信息,该提示信息用于提示运营人员对该参考指纹数据所属的音频数据添加版权信息。
如果该指标未满足预设的转库条件,则可以保持该参考指纹数据存储在第二音频指纹库中。
步骤211、对第一音频指纹库和/或第二音频指纹库中的参考指纹数据设置生存时间。
在短视频等场景中,部分音频数据的更迭速度较快,在流行一段时间之后,该音频数据较少被用户使用,针对类似的场景,对于第一音频指纹库中的参考指纹数据,可以设置指定的第一数值作为该参考指纹数据的生存时间,对于第二音频指纹库中的参考指纹数据,也可以设置指定的第二数值作为该参考指纹数据的生存时间。
考虑到较多的音频数据均具有版权信息,较少的音频数据属于原创、不具有版权信息,目标指纹数据与第一音频指纹库中的参考指纹数据匹配成功的几率较高,与第二音频指纹库中的参考指纹数据匹配成功的几率较低,可以设置第一音频指纹库中参考指纹数据的生存时间大于第二音频指纹库中参考指纹数据的生存时间,即第一数值大于第二数值,从而保持第一音频指纹库中的参考指纹数据匹配成功的几率,减少音乐查询服务接口的调用频次,降低运营成本。
除了第一音频指纹库中参考指纹数据的生存时间大于第二音频指纹库中参考指纹数据的生存时间之外,还可以设置第一音频指纹库中参考指纹数据的生存时间等于或小于第二音频指纹库中参考指纹数据的生存时间,即第一数值等于或小于第二数值,本实施例对此不加以限制。
步骤212、将生存时间进行衰减。
对于参考指纹数据的生存时间,可以启动计时器进行倒计时,以便对该生存时间进行衰减,即不断减少生存时间的数值。
一般情况下,可以按照正常的时间流速进行衰减,并不变速衰减。
步骤213、若第一音频指纹库或第二音频指纹库中的参考指纹数据与目标指纹数据匹配成功,则增加生存时间。
如果第一音频指纹库中的参考指纹数据与目标指纹数据匹配成功,则可以增加该参考指纹数据的生存时间,例如,将该生存时间恢复至原始的第一数值,在该生存时间当前数值的基础上增加第一步长,等等。
如果第二音频指纹库中的参考指纹数据与目标指纹数据匹配成功,则可以增加该参考指纹数据的生存时间,例如,将该生存时间恢复至原始的第二数值,在该生存时间当前数值的基础上增加第二步长,等等。
步骤214、若生存时间衰减完毕时,从第一音频指纹库或第二音频指纹库中删除参考指纹数据。
如果第一音频指纹库中的参考指纹数据衰减完毕,即当前数值为0,表示该参考指纹数据所属音频数据的使用频率较低,在这种情况下,可以从第一音频指纹库中删除该参考指纹数据,在保持第一音频指纹库中的参考指纹数据的匹配成功率的情况下,降低第一音频指纹库中存储的参考指纹数据的数据量,释放第一音频指纹库的空间,从而有效地满足在有限的库容量条件下,处理连续的指纹数据的入库需求。
如果第二音频指纹库中的参考指纹数据衰减完毕,即当前数值为0,表示该参考指纹数据所属音频数据的使用频率较低,此时,可以从第二音频指纹库中删除该参考指纹数据,在保持第二音频指纹库中的参考指纹数据的匹配成功率的情况下,降低第二音频指纹库中存储的参考指纹数据的数据量,释放第二音频指纹库的空间,从而有效地满足在有限的库容量条件下,处理连续的指纹数据的入库需求。
示例性的,对每个音频指纹库中的每一参考指纹数据设置生存时间并将该生存时间进行衰减,在确定一个音频指纹库中的一个参考指纹数据与目标音频数据的目标指纹数据匹配的情况下,将该一个音频指纹库中的该一个参考指纹数据的生成时间增加,例如若第二音频数据库中的连续三个参考指纹数据与目标音频数据的连续三个目标指纹数据匹配成功,则增加该连续三个参考指纹数据中的每一参考指纹数据的生成时间。在一个音频指纹库中的一个参考指纹数据的生成时间衰减完毕的情况下,将所述一个参考指纹数据从所述一个音频指纹库中删除。
实施例三
图3为本申请实施例三提供的一种音频指纹的处理装置的结构框图,可以包括如下模块:
指纹数据生成模块301,设置为对目标音频数据生成目标指纹数据;指纹数据匹配模块302,设置为将所述目标指纹数据与第一音频指纹库中的参考指纹数据和第二音频指纹库中的参考指纹数据进行匹配;接口查询模块303,设置为若所述目标指纹数据与所述第一音频指纹库中的参考指纹数据和所述第二音频指纹库中的参考指纹数据均匹配失败,则调用音乐查询服务接口查询所述目标音频数据的版权信息;第一更新模块304,设置为若已查询到所述目标音频数据的版权信息,则将所述目标指纹数据存储至所述第一音频指纹库中以将所述目标指纹数据作为所述第一音频指纹库中新的参考指纹数据,并记录所述目标音频数据的版权信息;第二更新模块305,设置为若未查询到所述目标音频数据的版权信息,则将所述目标指纹数据存储至所述第二音频指纹库中以将所述目标指纹数据作为所述第二音频指纹库中新的参考指纹数据。
在本申请的一个实施例中,所述指纹数据生成模块301包括:
音频信号划分模块,设置为将所述目标音频数据划分为多帧音频信号;频谱图转换模块,设置为将多帧音频信号转换为频谱图;峰值点查找模块,设置为在所述频谱图上遍历表示峰值的多个数据点,将每个数据点作为一个峰值点;特征信息提取模块,设置为提取所述每个峰值点的特征信息;哈希值计算模块,设置为对每个峰值点的特征信息计算哈希值,将每个峰值点对应的所述哈希值作为所述目标音频数据的一个目标指纹数据。
在本申请的一个实施例中,所述特征信息提取模块包括:
频率值查询模块,设置为查询每个峰值点的频率值,将所述频率值作为所述每个峰值点的特征信息;时间距离测量模块,设置为测量每个峰值点与其他峰值点中每个峰值点在时间上的第一距离,将所述第一距离作为所述每个峰值点的特征信息;频率距离测量模块,设置为测量每个峰值点与其他峰值点中每个峰值点在频率上的第二距离,将所述第二距离作为所述每个峰值点的特征信息。
在本申请的一个实施例中,所述时间距离测量模块包括:
时间邻域搜索模块,设置为寻找在时间的维度下、所述频谱图上的位于每个峰值点的邻域内的其他峰值点;时间距离计算模块,设置为计算所述每个峰值点与寻找到的所述其他峰值点中每个峰值点在时间上的第一距离,将所述第一距离作为每个峰值点的特征信息。
在本申请的一个实施例中,所述频率距离测量模块包括:
频率邻域搜索模块,设置为寻找在频率的维度下、所述频谱图上的位于每个峰值点的邻域内的其他峰值点;频率距离计算模块,设置为计算所述每个峰值点与寻找到的所述其他峰值点中每个峰值点在频率上的第二距离,将所述第二距离作为所述每个峰值点的特征信息。
在本申请的一个实施例中,所述哈希值计算模块包括:
二进制转换模块,设置为将每个峰值点的所述频率值、所述第一距离与所述第二距离均转换为二进制格式;拼接模块,设置为若转换完成,则将每个峰值点的所述频率值、所述第一距离与所述第二距离进行拼接,并将拼接结果作为所述目标音频数据的一个目标指纹数据。
在本申请的一个实施例中,所述指纹数据匹配模块302包括:
相似度计算模块,设置为计算每一目标指纹数据与第一音频指纹库中的全部参考指纹数据的相似度以及计算每一目标指纹数据与第二音频指纹库中的参考指纹数据的相似度;连续匹配模块,设置为若全部目标指纹数据中的连续的n个目标指纹数据分别与一个音频指纹库中的连续的n个参考指纹数据之间的相似度大于预设的阈值,则确定所述目标音频数据的目标指纹数据与所述一个音频指纹库中的参考指纹数据匹配成功,所述一个音频指纹库包括所述第一音频指纹库或所述第二音频指纹库,n为正整数。
在本申请的一个实施例中,所述第一更新模块304包括:
第一键值对生成模块,设置为以每个目标指纹数据为键,所述目标音频数据的标识、所述每个目标指纹数据所属音频信号的序号为值,生成键值对,所述每个目标指纹数据所属音频信号属于所述目标音频数据中的一帧信号;第一键值对存储模块,设置为将所述键值对存储至所述第一音频指纹库中,并将所述键值对作为所述第一音频指纹库中新的参考指纹数据。
在本申请的一个实施例中,所述第二更新模块305包括:
第二键值对生成模块,设置为以每个目标指纹数据为键,所述目标音频数据的标识、所述每个目标指纹数据所属音频信号的序号为值,生成键值对,所述每个目标指纹数据所属音频信号属于所述目标音频数据中的一帧信号;第二键值对存储模块,设置为将所述键值对存储至所述第二音频指纹库中,并将所述键值对作为所述第二音频指纹库中新的参考指纹数据。
在本申请的一个实施例中,还包括:
簇生成模块,设置为将所述目标音频数据作为新的参考音频数据,对所述新的参考音频数据生成新的簇。
在本申请的一个实施例中,还包括:
第一簇添加模块,设置为若所述目标指纹数据与所述第一音频指纹库中的参考指纹数据匹配成功,则将所述目标音频数据添加至参考音频数据所属的簇中,所述第一音频指纹库中的参考指纹数据属于所述参考音频数据;第二簇添加模块,设置为若所述目标指纹数据与所述第二音频指纹库中的参考指纹数据匹配成功,则将所述目标音频数据添加至参考音频数据所属的簇中,所述第二音频指纹库中的参考指纹数据属于所述参考音频数据。
在本申请的一个实施例中,还包括:
生存时间设置模块,设置为对所述第一音频指纹库和/或所述第二音频指纹库中的参考指纹数据设置生存时间;生存时间衰减模块,设置为将所述生存时间进行衰减;生存时间增加模块,设置为若所述第一音频指纹库或所述第二音频指纹库中的参考指纹数据与所述目标指纹数据匹配成功,则增加所述生存时间;指纹数据删除模块,设置为若所述生存时间衰减完毕时,从所述第一音频指纹库或所述第二音频指纹库中删除所述参考指纹数据。
在本申请的一个实施例中,还包括:
指标统计模块,设置为若所述第二音频指纹库中的参考指纹数据与所述目标指纹数据匹配成功,则对所述参考指纹数据统计匹配成功的指标;指纹数据移库模块,设置为若所述指标满足预设的转库条件,则将所述参考指纹数据从所述第二音频指纹库转移至所述第一音频指纹库。
本申请实施例所提供的音频指纹的处理装置可执行本申请任意实施例所提供的音频指纹的处理方法,具备执行方法相应的功能模块。
实施例四
图4为本申请实施例四提供的一种计算机设备的结构示意图。图4示出了适于用来实现本申请实施方式的示例性计算机设备12的框图。图4显示的计算机设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图4所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,***存储器28,连接不同***组件(包括***存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线 结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry Standard Architecture,ISA)总线,微通道体系结构(MicroChannel Architecture,MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及***组件互连(Peripheral Component Interconnect,PCI)总线。
计算机设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
***存储器28可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(Random Access Memory,RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***34可以设置为读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供设置为对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如光盘只读存储器(Compact Disc Read-Only Memory,CD-ROM),(Digital Video Disc Read-Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请多个实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output,I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网(Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微 代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks,RAID)***、磁带驱动器以及数据备份存储***等。
处理单元16通过运行存储在***存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本申请实施例所提供的音频指纹的处理方法。
实施例五
本申请实施例五还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述音频指纹的处理方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory,ROM)、可擦式可编程只读存储器(Electrically Erasable Programmable read only memory,EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

Claims (14)

  1. 一种音频指纹的处理方法,包括:
    对目标音频数据生成目标指纹数据;
    将所述目标指纹数据与第一音频指纹库中的参考指纹数据和第二音频指纹库中的参考指纹数据进行匹配;
    在所述目标指纹数据与所述第一音频指纹库中的参考指纹数据和所述第二音频指纹库中的参考指纹数据均匹配失败的情况下,调用音乐查询服务接口查询所述目标音频数据的版权信息;
    在已查询到所述目标音频数据的版权信息的情况下,将所述目标指纹数据存储至所述第一音频指纹库中以将所述目标指纹数据作为所述第一音频指纹库中新的参考指纹数据,并记录所述目标音频数据的版权信息;
    在未查询到所述目标音频数据的版权信息的情况下,将所述目标指纹数据存储至所述第二音频指纹库中以将所述目标指纹数据作为所述第二音频指纹库中新的参考指纹数据。
  2. 根据权利要求1所述的方法,其中,所述对目标音频数据生成目标指纹数据,包括:
    将所述目标音频数据划分为多帧音频信号;
    将所述多帧音频信号转换为频谱图;
    在所述频谱图上遍历表示峰值的多个数据点,将每个数据点作为一个峰值点;
    提取每个峰值点的特征信息;
    对每个峰值点的特征信息计算哈希值,将每个峰值点对应的哈希值作为所述目标音频数据的一个目标指纹数据。
  3. 根据权利要求2所述的方法,其中,所述提取每个峰值点的特征信息, 包括:
    查询每个峰值点的频率值,将所述频率值作为所述每个峰值点的特征信息;
    测量每个峰值点与其他峰值点中每个峰值点在时间上的第一距离,将所述第一距离作为所述每个峰值点的特征信息;
    测量每个峰值点与其他峰值点中每个峰值点在频率上的第二距离,将所述第二距离作为所述每个峰值点的特征信息。
  4. 根据权利要求3所述的方法,其中,所述测量每个峰值点与其他峰值点中每个峰值点在时间上的第一距离,将所述第一距离作为所述每个峰值点的特征信息,包括:
    寻找在时间的维度下、所述频谱图上的位于每个峰值点的邻域内的其他峰值点;
    计算所述每个峰值点与寻找到的所述其他峰值点中每个峰值点在时间上的第一距离,将所述第一距离作为所述每个峰值点的特征信息;
    所述测量每个峰值点与其他峰值点中每个峰值点在频率上的第二距离,将所述第二距离作为所述每个峰值点的特征信息,包括:
    寻找在频率的维度下、所述频谱图上的位于每个峰值点的邻域内的其他峰值点;
    计算所述每个峰值点与寻找到的所述其他峰值点中每个峰值点在频率上的第二距离,将所述第二距离作为所述每个峰值点的特征信息。
  5. 根据权利要求3所述的方法,其中,所述对每个峰值点的特征信息计算哈希值,将每个峰值点对应的哈希值作为所述目标音频数据的一个目标指纹数据,包括:
    将每个峰值点的所述频率值、所述第一距离与所述第二距离均转换为二进 制格式;
    在转换完成的情况下,将所述每个峰值点的所述频率值、所述第一距离与所述第二距离进行拼接,并将拼接结果作为所述目标音频数据的一个目标指纹数据。
  6. 根据权利要求2所述的方法,其中,所述第一音频指纹库中包括多个参考指纹数据,所述第二音频指纹库中包括多个参考指纹数据;
    所述将所述目标指纹数据与第一音频指纹库中的参考指纹数据和第二音频指纹库中的参考指纹数据进行匹配,包括:
    计算每一所述目标指纹数据与第一音频指纹库中的全部参考指纹数据的相似度以及计算每一所述目标指纹数据与第二音频指纹库中的全部参考指纹数据的相似度;
    在全部目标指纹数据中的连续的n个目标指纹数据分别与一个音频指纹库中连续的n个参考指纹数据之间的相似度均大于预设的阈值的情况下,确定所述目标音频数据的目标指纹数据与所述一个音频指纹库中的参考指纹数据匹配成功,所述一个音频指纹库包括所述第一音频指纹库或所述第二音频指纹库,n为正整数。
  7. 根据权利要求2所述的方法,其中,所述将所述目标指纹数据存储至所述第一音频指纹库中以将所述目标指纹数据作为所述第一音频指纹库中新的参考指纹数据,包括:
    以每个目标指纹数据为键,所述目标音频数据的标识、所述每个目标指纹数据所属音频信号的序号为值,生成键值对,所述每个目标指纹数据所属音频信号属于所述目标音频数据中的一帧信号;
    将所述键值对存储至所述第一音频指纹库中,并将所述键值对作为所述第 一音频指纹库中新的参考指纹数据;
    所述将所述目标指纹数据存储至所述第二音频指纹库中以将所述目标指纹数据作为所述第二音频指纹库中新的参考指纹数据,包括:
    以每个目标指纹数据为键,所述目标音频数据的标识、所述每个目标指纹数据所属音频信号的序号为值,生成键值对,所述每个目标指纹数据所属音频信号属于所述目标音频数据中的一帧信号;
    将所述键值对存储至所述第二音频指纹库中,并将所述键值对作为所述第二音频指纹库中新的参考指纹数据。
  8. 根据权利要求1-7任一项所述的方法,在所述将所述目标指纹数据存储至所述第一音频指纹库中以将所述目标指纹数据作为所述第一音频指纹库中新的参考指纹数据之后,还包括:
    将所述目标音频数据作为新的参考音频数据,对所述新的参考音频数据生成新的簇。
  9. 根据权利要求1-7任一项所述的方法,还包括:
    在所述目标指纹数据与所述第一音频指纹库中的参考指纹数据匹配成功的情况下,将所述目标音频数据添加至参考音频数据所属的簇中,所述第一音频指纹库中的参考指纹数据属于所述参考音频数据;
    在所述目标指纹数据与所述第二音频指纹库中的参考指纹数据匹配成功的情况下,将所述目标音频数据添加至参考音频数据所属的簇中,所述第二音频指纹库中的参考指纹数据属于所述参考音频数据。
  10. 根据权利要求1-7任一项所述的方法,还包括以下至少之一:
    对所述第一音频指纹库中的参考指纹数据设置生存时间;将所述生存时间进行衰减;在所述第一音频指纹库中的参考指纹数据与所述目标指纹数据匹配 成功的情况下,则增加所述生存时间;在所述生存时间衰减完毕的情况下,从所述第一音频指纹库中删除所述参考指纹数据;
    对所述第二音频指纹库中的参考指纹数据设置生存时间;将所述生存时间进行衰减;在所述第二音频指纹库中的参考指纹数据与所述目标指纹数据匹配成功的情况下,增加所述生存时间;在所述生存时间衰减完毕的情况下,从所述第二音频指纹库删除所述参考指纹数据。
  11. 根据权利要求1-7任一项所述的方法,还包括:
    在所述第二音频指纹库中的参考指纹数据与所述目标指纹数据匹配成功的情况下,对所述参考指纹数据统计匹配成功的指标;
    在所述指标满足预设的转库条件的情况下,将所述参考指纹数据从所述第二音频指纹库转移至所述第一音频指纹库。
  12. 一种音频指纹的处理装置,包括:
    指纹数据生成模块,设置为对目标音频数据生成目标指纹数据;
    指纹数据匹配模块,设置为将所述目标指纹数据与第一音频指纹库中的参考指纹数据和第二音频指纹库中的参考指纹数据进行匹配;
    接口查询模块,设置为在所述目标指纹数据与所述第一音频指纹库中的参考指纹数据和所述第二音频指纹库中的参考指纹数据均匹配失败的情况下,调用音乐查询服务接口查询所述目标音频数据的版权信息;
    第一更新模块,设置为在已查询到所述目标音频数据的版权信息的情况下,将所述目标指纹数据存储至所述第一音频指纹库中以将所述目标指纹数据作为所述第一音频指纹库中新的参考指纹数据,并记录所述目标音频数据的版权信息;
    第二更新模块,设置为在未查询到所述目标音频数据的版权信息的情况下, 将所述目标指纹数据存储至所述第二音频指纹库中以将所述目标指纹数据作为所述第二音频指纹库中新的参考指纹数据。
  13. 一种计算机设备,包括:
    至少一个处理器;
    存储器,设置为存储一个或多个程序,当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-11中任一项所述的音频指纹的处理方法。
  14. 一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1-11中任一项所述的音频指纹的处理方法。
PCT/CN2022/081680 2021-03-18 2022-03-18 音频指纹的处理方法、装置、计算机设备和存储介质 WO2022194277A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110292844.8 2021-03-18
CN202110292844.8A CN112784100A (zh) 2021-03-18 2021-03-18 一种音频指纹的处理方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
WO2022194277A1 true WO2022194277A1 (zh) 2022-09-22

Family

ID=75762743

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/081680 WO2022194277A1 (zh) 2021-03-18 2022-03-18 音频指纹的处理方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN112784100A (zh)
WO (1) WO2022194277A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784100A (zh) * 2021-03-18 2021-05-11 百果园技术(新加坡)有限公司 一种音频指纹的处理方法、装置、计算机设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101453333A (zh) * 2008-10-16 2009-06-10 北京光线传媒有限公司 一种针对媒体文件的版权识别方法、装置及***
US20120191231A1 (en) * 2010-05-04 2012-07-26 Shazam Entertainment Ltd. Methods and Systems for Identifying Content in Data Stream by a Client Device
US20140012572A1 (en) * 2011-12-30 2014-01-09 Tilman Herberger System and method for content recognition in portable devices
US20160247512A1 (en) * 2014-11-21 2016-08-25 Thomson Licensing Method and apparatus for generating fingerprint of an audio signal
CN107967922A (zh) * 2017-12-19 2018-04-27 成都嗨翻屋文化传播有限公司 一种基于特征的音乐版权识别方法
CN110047515A (zh) * 2019-04-04 2019-07-23 腾讯音乐娱乐科技(深圳)有限公司 一种音频识别方法、装置、设备及存储介质
CN112784100A (zh) * 2021-03-18 2021-05-11 百果园技术(新加坡)有限公司 一种音频指纹的处理方法、装置、计算机设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140172429A1 (en) * 2012-12-14 2014-06-19 Microsoft Corporation Local recognition of content
CN109657093A (zh) * 2018-11-27 2019-04-19 腾讯音乐娱乐科技(深圳)有限公司 音频检索方法、装置及存储介质
CN111599378A (zh) * 2020-04-30 2020-08-28 讯飞智元信息科技有限公司 音频匹配方法,电子设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101453333A (zh) * 2008-10-16 2009-06-10 北京光线传媒有限公司 一种针对媒体文件的版权识别方法、装置及***
US20120191231A1 (en) * 2010-05-04 2012-07-26 Shazam Entertainment Ltd. Methods and Systems for Identifying Content in Data Stream by a Client Device
US20140012572A1 (en) * 2011-12-30 2014-01-09 Tilman Herberger System and method for content recognition in portable devices
US20160247512A1 (en) * 2014-11-21 2016-08-25 Thomson Licensing Method and apparatus for generating fingerprint of an audio signal
CN107967922A (zh) * 2017-12-19 2018-04-27 成都嗨翻屋文化传播有限公司 一种基于特征的音乐版权识别方法
CN110047515A (zh) * 2019-04-04 2019-07-23 腾讯音乐娱乐科技(深圳)有限公司 一种音频识别方法、装置、设备及存储介质
CN112784100A (zh) * 2021-03-18 2021-05-11 百果园技术(新加坡)有限公司 一种音频指纹的处理方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN112784100A (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
US11314805B2 (en) Method and apparatus for retrieving audio file, server, and computer-readable storage medium
Haitsma et al. A highly robust audio fingerprinting system with an efficient search strategy
Haitsma et al. A highly robust audio fingerprinting system.
Cano et al. Robust sound modeling for song detection in broadcast audio
US9542488B2 (en) Associating audio tracks with video content
EP3508986B1 (en) Music cover identification for search, compliance, and licensing
US8706276B2 (en) Systems, methods, and media for identifying matching audio
US7031921B2 (en) System for monitoring audio content available over a network
JP5907511B2 (ja) オーディオメディア認識のためのシステム及び方法
US20140280304A1 (en) Matching versions of a known song to an unknown song
JP2004536348A (ja) 録音の自動識別
CN108447501A (zh) 一种云存储环境下基于音频字的盗版视频检测方法与***
EP3945435A1 (en) Dynamic identification of unknown media
WO2022194277A1 (zh) 音频指纹的处理方法、装置、计算机设备和存储介质
US20220238087A1 (en) Methods and systems for determining compact semantic representations of digital audio signals
JP4267463B2 (ja) 音声コンテンツを特定する方法、音声信号の記録の一部分を特定する特徴を形成する方法およびシステム、音声ストリームが音声信号の既知の記録の少なくとも一部分を含んでいるか否かを判断する方法、コンピュータ・プログラム、音声信号の記録を特定するシステム
Zhang et al. An encrypted speech retrieval algorithm based on Chirp-Z transform and perceptual hashing second feature extraction
WO2022161291A1 (zh) 一种音频搜索方法、装置、计算机设备和存储介质
Kekre et al. A review of audio fingerprinting and comparison of algorithms
Li et al. Low-order auditory Zernike moment: a novel approach for robust music identification in the compressed domain
KR101002732B1 (ko) 온라인을 통한 디지털 컨텐츠 관리 시스템
You et al. Music Identification System Using MPEG‐7 Audio Signature Descriptors
Hellmuth et al. Advanced audio identification using MPEG-7 content description
Chickanbanjar Comparative analysis between audio fingerprinting algorithms
CN117807564A (zh) 音频数据的侵权识别方法、装置、设备及介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22770629

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22770629

Country of ref document: EP

Kind code of ref document: A1