CN1636240A

CN1636240A - 利用音频内容标识来销售产品的***

Info

Publication number: CN1636240A
Application number: CNA03804286XA
Authority: CN
Inventors: M·C·皮特曼; B·G·菲奇; S·艾布拉姆斯; R·S·杰曼
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2002-02-21
Filing date: 2003-02-21
Publication date: 2005-07-06
Also published as: WO2003073210A3; US20020116195A1; WO2003073210A8; JP2005518594A; WO2003073210A2; CA2475461A1; AU2003217645A8; EP1485907A2; US6748360B2; AU2003217645A1

Abstract

提供了一种用于销售包含或涉及音频内容的产品的方法。根据该方法，确定为音频内容映像生成的音频标识信息是否与音频内容数据库中的音频标识信息匹配(308)。如果为该音频内容映像生成的音频标识信息与该音频内容数据库中的音频标识信息匹配，则识别出至少一个包含或涉及与该匹配音频标识信息对应的音频内容的产品(310)。在一个实施例中，接收该音频内容映像(305)，并为该音频内容映像生成音频标识信息(306)。在另一实施例中，接收该音频内容映像的音频标识信息。还提供了一种用于销售产品的***。

Description

利用音频内容标识来销售产品的***

技术领域

本发明涉及用于销售产品的***，更具体地说，涉及销售包含音频内容的产品的***和方法，利用这些***和方法该音频内容被自动识别。

背景技术

诸如音乐等音频内容通过各种媒体向收听者广播，这些媒体包括收音机、电视、有线电视、***和因特网Web站点。当从这样的广播收听一首歌曲时，收听者往往不知道该歌曲的作者和/或标题。如果该收听者喜欢这首歌并希望购买这首歌曲的唱片或包含这首歌曲的产品(如唱片集或视频)，不能识别当前正在播放的歌曲阻碍了收听者进行购买。这导致失掉销售机会，有损于作者、所有版权持有者、产品批发商和产品零售商。

为识别所收听的歌曲，收听者当前必须依靠某种人工审查，这只有当所选择的审查者知道这首歌曲的标识才能成功。例如，收听者可以尝试根据记忆向他认为可能知道该歌曲标识的另一个人唱一段这首歌曲。另一种做法是，收听者可以记录该歌曲(或其一部分)并把它重放给另一个人以试图进行识别。这类依靠人工审查的识别技术要求收听者找到知晓这些歌曲的其他人。再者，到了该歌曲能被识别的时候，收听者的初始购买欲望可能已经消失了。因此，需要一种***和方法以允许收听者自动识别音频内容，以便能够购买包含该音频内容的产品。

开发能提供音频内容自动识别的实际的产品销售***的一个困难是提供自动识别音频内容的机制。识别来自任何来源的音乐并不是一个微不足道的问题。对于同一首歌曲，不同的编码方案将产生不同的比特流。即使使用相同的编码方案对同一首歌曲(即声音记录)进行编码并创建两个数字音频文件，这两个文件也不一定在比特一级彼此匹配。

再者，各种效应会导致比特流的差异，即使所造成的声音差异由人的感知来判断是可以忽略的。这些效应包括：记录***总体频率响应中的细微差异，数模转换效应，诸如混响等声学环境效应以及记录起始时间的微小差异。再者，由歌曲记录造成的比特流将根据音频源的类型而变化。例如，通过对一个立体声接收器的输出进行编码所产生的歌曲比特流通常并不匹配通过对另一个立体声接收器的输出进行编码所产生的该同一首歌曲的比特流。

此外，还存在多种形式的人类完全可以听见的噪声和畸变，但这并不妨碍我们对音乐的识别能力。FM广播和录音带的带宽都比CD唱片低，并且因特网上的许多MP3文件质量相对较低。再者，某些记录***可能改变音乐或使音乐发生畸变，例如通过轻微的时间延伸或时间压缩。在这些情况中，不仅起始和停止时间会不同，而且歌曲的持续时间也可能不同。所有这些差别对于人类可能几乎不会引起注意(如果不是根本不会引起注意的话)，但能使许多识别方案化为泡影。

需要使收听者能够购买不可识别的音频内容的***和方法，例如通过自动和有效地识别听到的音频内容，然后呈现包含该音频内容的一个或多个产品。

发明内容

考虑到这些缺点，本发明的一个目的是消除上述缺点并提供用于销售包含或涉及音频内容的产品的***和方法。

本发明的另一目的是提供用于使收听者能够购买不可识别的音频内容的***和方法。

本发明的又一目的是提供用于自动识别收听的音频内容的***和方法。

本发明的另一目的是提供用于自动识别音频内容并呈现一个或多个包含该音频内容的产品的***和方法。

本发明的一个实施例提供了一种用于销售包含或涉及音频内容的产品的方法。根据该方法，接收所记录的音频内容映像并为该音频内容映像生成音频标识信息。确定为该音频内容映像生成的音频标识信息是否与音频内容数据库中的音频标识信息匹配。如果为该音频内容映像生成的音频标识信息与该音频内容数据库中的音频标识信息匹配，则对至少一个包含或涉及与该匹配音频标识信息对应的音频内容的产品收费。

本发明的另一实施例提供了一种***，该***包括输入接口、标识信息生成器、匹配检测器以及产品生成器。该输入接口接收记录的音频内容映像，而标识信息生成器生成该音频内容映像的音频标识信息。匹配检测器确定为该音频内容映像生成的音频标识信息是否与音频内容数据库中的音频标识信息匹配。如果为该音频内容映像生成的音频标识信息与该音频内容数据库中的音频标识信息匹配，则产品生成器生成一个产品，该产品包含对应于该匹配音频标识信息的音频内容。

本发明的其他目的、特点和优点将由下文的详细描述而变得显而易见。但是应该理解，详细描述和具体实例，尽管指出了本发明的优选实施例，只是通过示例方式给出，各种修改可以自然地实现而不偏离本发明。

附图说明

图1A和图1B是在其上能实现本发明一个优选实施例的示例***的示意图。

图2A和图2B是根据本发明两个实施例的用于销售产品的***的方块图。

图3是根据本发明的一个优选实施例销售包含音频内容的产品的过程流程图。

图4A和图4B是在本发明的一个示例性实施例中根据一段音频来识别事件的过程的流程图。

图5是根据图4A和4B中所示过程所产生的事件来生成关键字的过程的流程图。

图6是在本发明的一个示例性实施例中根据关键字生成器缓冲器的内容来生成关键字的过程的流程图。

图7是在本发明的一个示例性实施例中过滤打击乐器事件的过程的流程图。

图8是在本发明的一个示例性实施例中使用两个关键字来比较两个音频段的过程的流程图。

具体实施方式

图1A和图1B是在其上能实现本发明的示例***的示意图。该***包括内容源102和内容记录器104，它们通过第一通信链路106连接在一起。此外，该***包括内容播放器112和音频识别计算机(AIC)120，它们通过第二通信链路122连接在一起。提供了诸如CD-ROM的计算机可读存储介质124，用于向AIC 120加载软件以执行如下文中详细描述的那些方法。例如，该软件能运行以自动识别由内容播放器112提供的音频内容映像中的音频内容，然后显示包含识别出的音频内容的一个或多个产品。在某些实施例中，附加地或替代地显示涉及识别出的音频内容的一个或多个产品(如录制识别出的歌曲的艺术家的传记或宣传画)。

内容源102可以是或者单独提供或者作为多媒体演示的一部分提供音频内容的任何源。内容记录器104可以是能够接收和记录来自内容源102的音频内容的映像的任何设备，并且内容播放器112可以是能够以适当形式输出由内容记录器104记录的音频内容映像的任何设备。通信链路106和122可以是允许以适合于这些设备的形式(如通过空气传播的声波，通过射频链路或本地电缆连接传播的模拟信号，或通过本地电缆连接或长途网络连接传播的数字数据流)传送音频内容的任何机制。

AIC 120可以是诸如IBM PC兼容的计算机的任何传统的计算机***。众所周知，IBM PC兼容的计算机可以包括微处理器、基本输入/输出***只读存储器(BIOS ROM)、随机存取存储器(RAM)、硬盘驱动器存储器、可拆卸的计算机可读介质存储器(例如，CD-ROM驱动器)、视频显示适配器插卡、视频监视器、网络接口(例如，调制解调器)、键盘、定位设备(例如，鼠标)、声卡以及扬声器。AIC 120加载有操作***(例如Windows或UNIX)和例如按下文所述运行的AIC应用。

例如，在一个实施例中，内容源102是一个FM无线电台，内容记录器104是一个具有FM接收器和盒式录音座的立体声装置，内容播放器112是一个便携式盒式磁带播放机，而AIC 120是在唱片商店的一个具有计算机功能的信息亭(Kiosk)。通过射频链路从无线电台接收的音频内容被立体声装置记录在盒式磁带上。然后由便携式盒式磁带播放机播放到该信息亭的麦克风。或者，该信息亭可以包括一个用于播放盒式磁带的盒式磁带播放机。

在另一个实施例中，记录视频重放设备(例如，VCR或DVD播放机)是内容源102，个人计算机同时是内容记录器104和内容播放器112，远程Web服务器是AIC 120。包括在记录的视频(例如，电影中的歌曲或电视演出中的背景音乐)中的音频内容通过本地电缆提供给该个人计算机的声卡。该音频内容的映像作为音频文件(例如，以MP3格式)存储在计算机上，然后该计算机***通过因特网连接将该音频文件上载到零售商Web站点的Web服务器。还有的实施例包括诸内容源、记录器和播放器的许多不同组合，它们使得感兴趣的某些类型的音频内容映像能够被存储起来，然后以适当的格式传送到AIC。

图2A是根据本发明的一个实施例用于销售产品的***的软件的方块图。由内容播放器提供的音频内容映像通过通信链路208连接到输入接口210。可以以包括由该音频内容调制的模拟信号，数字数据流或计算机文件的任何格式提供音频内容映像。输入接口210接收该音频内容映像并以相同或不同格式(例如，MIDI、WAV或MP3格式中的数字数据)输出音频数据流以供音频识别和产品呈现应用212使用。

音频识别和产品呈现应用212包括一个内容识别器模块218。内容识别器模块218接收来自输入接口210的音频数据流并将其解码以得到信息。在优选实施例中，内容识别器模块包括一个关键字数据库216，该数据库包含从大量歌曲中导出的大量关键字。对于该数据库中的每首歌曲(即声音记录单元)，都存在一组关键字。该组关键字提供了识别一首歌曲或一段歌曲的手段。歌曲的一部分将具有使得该部分可以被识别的相应关键字子集，从而保持识别只一段歌曲的存在的能力。

在一个示例性实施例中，关键字数据库采取了关键字表的形式。关键字表的每一行在第一列中包括一个关键字序列，在第二列中包括一个时间组值，并在第三列中包括一个歌曲ID(例如，标题)。通过将一个关键字生成程序应用于已知歌曲并将该关键字生成程序得到的每个关键字与关键字数据库中的标题关联来构建该关键字数据库。时间组是出现从中导出关键字的音频特性的时间(以相对于歌曲起始的预定间隔为单位进行测量)。每个时间组包括在等于该预定间隔的时间段内发生的事件(下文将进一步解释)。同一歌曲的两个不同记录可以具有稍许不同的起始时间(例如，这些记录可能在歌曲实际开始之前或之后几秒钟时开始)或者只包括歌曲的若干段。此类差异展示了优选的音频识别方法要克服的困难。

图2B是根据本发明另一实施例用于产品销售***的软件的方块图。在此实施例中，音频标识信息通过通信链路208连接到输入接口210。例如，内容播放器可以包含标识信息生成器并能提供为音频内容生成的标识信息，而不是该音频内容本身。输入接口210将该标识信息提供给包括内容识别器模块218的产品呈现应用212。

在一个示例性实施例中，用户的计算机***为音频内容或音频内容映像生成音频内容标识信息，然后将该生成的音频内容标识信息(而不是音频内容映像本身)上载到零售商的***(例如，Web站点或信息亭)。在这样的实施例中，用于生成音频内容标识信息的软件在用户的计算机***上执行。因此，可以将标识信息生成功能与匹配功能分开，这些功能可以由相同或不同的计算机***来执行。

图3是根据本发明的优选实施例由音频识别和产品呈现应用执行以自动识别用于销售目的的音频内容的过程300的流程图。在步骤302中，来自可供购买的产品(例如，来自唱片集或音乐会视频的歌曲)的音频内容与标识信息一起被登记到音频内容数据库中。在优选实施例中，标识信息由特征生成***生成并且基于该音频内容本身。例如，可以使用下文详细描述的过程为要搜索的音频内容的每个片段生成一个唯一的签名(以一组关键字的形式)。

在又一些实施例中，标识信息可以是基于音频数据本身计算出的任何其他类型的音频签名或音频指纹、标识水印、诸如标识号的嵌入式标识信息，或允许唯一地(或基本唯一地)标识音频内容单个片段的任何其他类型的信息。进而，登记的音频内容可以是从每个产品的单一选择或多个选择(例如，一个唱片集或一部电影中的全部歌曲)。

在步骤304中，收听音频内容的收听者记录该音频内容至少一部分的映像。然后，在步骤305中，收听者将该音频内容映像提供给零售商的音频识别***。如前文针对图1描述的那样，记录映像并将其提供给零售商的***的步骤可以以任何可用的方式实现，这取决于特定应用的实际情况。例如，收听者可以将音频内容映像记录在计算机可读介质上，然后将该介质***零售商商店的信息亭中。可替代地，收听者可以将音频内容映像作为音频文件(或将先前记录的映像转换成此类音频文件格式)记录在计算机上，然后将该音频文件上载到零售商的Web站点。在又一个实施例中，用户生成音频内容标识信息，然后将生成的音频内容标识信息(而不是音频内容映像本身)提供给零售商的***。例如，用户可以将该标识信息上载到零售商的***。

在步骤306中，内容识别器模块218利用一个算法来分析在步骤304中提供的音频内容映像，该算法生成与存储在音频内容数据库中的信息相同的音频内容标识信息。例如，在优选实施例中，为所提供的每个音频内容映像生成唯一特征签名(以一组关键字的形式)。接着，在步骤308中，将为该音频内容映像(或音频内容映像部分)计算的唯一签名与音频内容数据库中存储的信息进行比较。内容识别器模块218判定该音频内容映像是否与音频内容数据库中的任何音频内容匹配。例如，可以使用一种利用某个最小阈值的最佳匹配算法来进行此类判定。下文中将详细讨论一个示例性匹配判定算法。

在优选实施例中，内容识别器模块能够区分一首歌曲的不同录音。同一首歌曲可以有若干录音，包括相同艺术家的不同录音或不同艺术家的录音。尽管诸如人工审查等的传统技术可以识别出与收听者听到的歌曲录音不同的歌曲录音，但优选实施例的内容识别器模块能够使用唯一签名区分该歌曲的不同录音并识别出收听者听到的录音。

在步骤310中，如果判定该音频内容映像与数据库中的音频内容匹配，则零售商的***为收听者显示匹配音频内容的标识(例如，艺术家和标题)以及包含(或涉及)匹配音频内容的一个或多个产品。例如，如果该音频内容映像是一首歌曲的一部分，则显示给该收听者的列表可以包括诸如该单曲的磁带、包含该歌曲的唱片集、该歌曲的音乐视频、包含该歌曲现场演唱的音乐会视频、其中出现该歌曲的电影以及包括该歌曲的电影声道等产品。

优选地，用户然后可以选择该列表上的一个或多个产品并直接从该零售商购买或订购这些选定的产品。该音频识别***的操作者可以代之以(或额外地)收取从收听者提供的音频内容映像识别该音频内容的费用。进而，该音频识别***可以代之以(或额外地)创建包含该匹配音频内容(例如，包含该匹配歌曲录音的磁带、CD或数字音频文件)的产品以供收听者购买。在某些实施例中，要求收听者通过从该数据库的一个或多个音频内容标题中选择与收听者提供的音频内容映像匹配或最匹配的音频内容来验证感兴趣的音频内容。

图4A至图8详细示出了用于识别音频内容的一个示例过程的相关部分。图4A是根据本发明的一个优选实施例用于为音频段(例如，一首歌曲)生成事件流的过程400的流程图的第一部分。过程400接收音频信号作为输入并输出一个“事件”序列。在本发明的某些实施例中，该音频信号是从MP3文件再现的。在步骤402中，音频信号被采样。在一个实施例中，以大约22050Hz或更低来采样该音频信号。这允许准确地确定最高到11KHz的频率分量。使用约11KHz的频率上限是有利的，因为11KHz约为FM无线电广播的截止频率，并且人们希望能够为一首歌曲生成相同的关键字组，而不管该歌曲录音是通过FM电台的一点传输的还是直接从高质量源(如CD)得到的。

在步骤404中，为每个连续测试周期计算该音频信号的频谱。优选地，测试周期的持续时间的范围为从约1/43秒到约1/10.75秒，更优选的测试周期为约1/21.5秒。优选地，使用快速傅立叶变换(FFT)算法来分析音频信号的频谱。对通过将FFT应用到若干连续周期(采样组)所得到的结果进行总体平均可以提高使用FFT算法得到的频谱信息的准确度。在本发明的优选实施例中，通过将FFT应用到两个或更多连续周期，优选地3个或更多连续周期，甚至更优选地4个连续周期，对所得到的结果进行总体平均，可以改善频谱信息。根据本发明的一个示例性实施例，通过以22050Hz的采样率采样音频信号和对将FFT算法应用到4个连续周期(每个周期的持续时间为2/21.5秒并包括2048个采样值)所得到的结果进行总体平均来得到与具有1/21.5秒持续时间的给定测试周期关联的频谱。

步骤404可以通过使用AIC 120的微处理器上运行的FFT算法来完成。可替代地，AIC可以配备有FFT硬件以执行步骤404。其他频谱分析器，如滤波器库，也能够可替代地用于执行步骤404。此外，在过程404中，还可以可替代地将连续采样组映射到除傅立叶基之外的其他类型的基。除傅立叶基的特定可供选择的基是小波基。与傅立叶基函数类似，小波在频率域中也被局部化(尽管程度稍轻)。小波具有的附加特性使得小波在时间域内也被局部化。这使得将音频信号整体(而不是该音频信号的连续采样组)映射到小波基上并得到该信号的时变频率信息成为可能。

在合成音乐时使用的一组常用频率为等音阶的音调。等音阶包括在对数标度上等间隔分布的音调。每个音调覆盖一个称为“半音”的频带。本发明的发明者们已经确定，通过收集离散半音带(而不是由FFT算法输出的等间隔频带)中的频谱功率可以得到改进的签名。在步骤406中，在步骤404中得到的频谱信息(例如，傅立叶频率分量)被收集到若干半音频带或通道中。

在步骤408中，取每个半音频道中的功率在最后T1秒的第一平均值。在步骤410中，取每个半音频道中的功率在最后T2秒的第二平均值，其中T2大于T1。优选地，T1从约1/10秒到约1秒。优选地，T2比T1大2至8倍。根据本发明的一个示例性实施例，T2等于一秒，T1等于四分之一秒。当第一平均值与第二平均值交叉时便发生上述“事件”。

在步骤412，为每个半音通道记录第一和第二平均值。记录是这样完成的：使得在随后的测试周期能够确定第一平均值是否与第二平均值交叉。在步骤414中，为每个半音通道确定第一平均值是否与第二平均值交叉。这是通过将当前测试周期期间第一和第二平均值之间的不等关系与最后一个周期的不等关系进行比较来完成的。尽管上面讨论的只是两个平均值之间的比较，但是根据本发明的其他实施例，可以使用超过两个的平均值，并将事件识别为超过两个平均值的不同子组合之间的交叉点。

在半音频道中的极值(局部极大或极小)附近，两个平均值将交叉。可以使用其他类型的峰值检波器(例如，电子电路)，而不是寻找具有不同平均周期的两个游动平均值(running average)的交叉点。以便能有利地与本发明一种实施方式中的FFT结合使用，该FFT主要在硬件(而非软件)中实现。

可以将诸如拐点的其他类型的曲线特征用作触发事件，而不是在频道信号中寻找峰值。通过对给定频道中功率的三个连续值进行运算并识别二阶导数从正到负(或相反)的改变时刻计算出频道的二阶导数，可以找出拐点。使用下列公式中三个连续点的函数(时变频率分量)值可以对该二阶导数进行近似。

(F(N+2)-2F(N+1)+F(N))/ΔT

其中F(I)是在第I时间(例如，第I个测试周期)的函数值，ΔT是连续函数值(例如，该测试周期的持续时间)之间的间隔。

在时变频率分量的极值处，其一阶导数等于零。在时变频率分量的拐点处，其二阶导数等于零。极值和拐点都是某类事件。更一般地，事件可定义为这样的点(即时间点)，在这些点处满足与时变频率分量的一阶或更高阶时变频率分量导数有关的方程式和/或与时变频率分量有关的积分。为了让事件可以用于识别不同的音频内容，“事件”定义的实质部分在于它们在测试周期的一个子集(而不是在每个测试周期)发生。

步骤416是一个判断框，其输出取决于半音通道的平均值是否被交叉。对于每个半音通道都测试步骤416。如果在当前测试周期期间半音通道的平均值没有被交叉，则在步骤418确定该音频信号是否结束。如果该音频流已结束，则过程400终止。如果该音频流尚未结束，则过程400进到下一个测试周期并继续步骤404。另一方面，如果在最后一个测试周期期间平均值确实被交叉，则过程400继续步骤422，在该步骤中将每个事件分配给当前时间组并生成与平均值交叉事件有关的信息。

优选地，事件信息包括事件的时间组、事件的测试周期、事件的半音频带以及在交叉时快速平均(在T1上平均)的值。事件信息可以记录在与AIC关联的存储器或存储设备中。每个时间组覆盖的时间段长于测试周期，优选地，时间组覆盖从1/4到2秒的连续时间段，更优选地，每个时间组覆盖从1/2到3/4秒的时间段。将事件分组成连续时间组的优点是由处理同一首歌曲的两个记录所得到的关键字将趋于更完全地匹配，尽管事实上其中一个记录或全部记录都可能具有某些畸变(例如，在磁带录制过程中产生的畸变)。

在步骤424中，过程400递增到下一个测试周期。在步骤426中，确定该音频段(例如，歌曲)是否结束。如果该音频段已结束，则过程400终止。如果该音频尚未结束，则递增测试周期，过程循环回步骤404。

因此，该过程的结果是取一个音频信号并产生多个事件。每个事件被分配给其中发生该事件的半音频带和其中发生该事件的时间组(间隔)。这些事件可以储存在存储器(例如，AIC 120中的RAM)中，也可以储存在一个或多个关键字生成器过程从中连续读取这些事件的缓冲器中。由该过程输出的事件可以为事件流的形式，即在每个时间组之后，可以将在该时间组内发生的所有事件写入存储器，从而可供进一步处理。另一种做法是一次性地将一首歌曲的全部事件写入存储器或存储设备。

图5是用于从例如图4A和4B中示出的过程所产生的事件生成关键字的关键字生成器过程的流程图。过程400输出的事件由多个关键字生成器过程500处理。该多个关键字生成器过程中的每一个关键字生成器过程都被分配给一个指定作为其主频率的半音频带。但是，每个关键字生成器还使用发生在其主频率附近其他半音频带中的事件。优选地，每个关键字生成器监视5至15个半音频带。如果监视的频带数量太少，则结果关键字将不能强有力地表征该特定音频段。另一方面，较多数量的频带将造成用于计算和比较关键字的较高计算花费、用于储存关键字的较大存储器要求以及由于关键字数量增加使关键字表中关键字饱和而造成的可能性能损失。根据本发明的一个实施例，每个关键字生成器监视其主半音频带和四个其他半音频带，该四个其他半音频带在主半音频带每侧各有两个。

现在参考图5，在步骤502中，监视由过程400输出的事件的每个连续时间组，以找出在分配给该关键字生成器的半音频带内发生的事件。步骤504是一个判断框，其输出取决于在步骤502中该关键字生成器是否检测(例如，通过从存储器读取)到任何新的事件。如果为否，则在步骤514中，过程500递增到下一个时间组并循环回到步骤502。另一方面，如果在被检查的时间组和半音频带中确实发生了新的事件，则在步骤506中，将这些新的事件写入所考虑的关键字生成器的关键字生成器缓冲器，并删除储存在该关键字生成器缓冲器中最旧的时间组的事件。在一个示例性实施例中，可以将该缓冲器看作一个数组，该数组中行对应于时间组并且列对应于频带。因此，在本发明的上述实施例中，每个关键字生成器监视的半音频带中的每一个半音频带都将有5列。

优选地，关键字生成器缓冲器包括3到7个时间组的事件。更优选地，每个关键字缓冲器数组中维护5或6个时间组的事件。注意在此实施例中，关键字生成器缓冲器中并没有呈现所有时间组。如图5所示，如果某个时间组中的关键字生成器的半音频带中没有事件发生，则不会对关键字生成器缓冲器进行更改。换言之，将不会记录空行。因此，在关键字生成器缓冲器中记录的每个时间组至少包括一个事件。

步骤508是一个判断框，其输出取决于在当前时间组(例如，当前通过的程序循环)中发生事件是否为触发器事件。根据本发明的一个优选实施例，触发器事件是发生在分配给该关键字生成器的主频率处的事件。如果没有发生触发器事件，则过程循环回到步骤514。如果确实发生了触发器事件，则过程继续步骤510，在步骤510中根据该关键字生成器缓冲器的内容来生成关键字。过程500将继续，直到由过程400产生的全部事件都已被处理。

图6是根据本发明一个实施例用于从关键字生成器缓冲器的内容来生成关键字的过程的流程图。特别是，过程600详细示出了实现图5的步骤510的一个实施例。在步骤602中，为每个关键字生成器(如上所述，存在多个执行过程500的关键字生成器)和所考虑的关键字生成器的每个触发器事件，从关键字生成器缓冲器选择一个或多个不同的事件组合。每个组合只包括来自每个时间组的一个事件。(对于每个关键字生成器缓冲器中的每个时间组，可能存在多个事件。)根据本发明的一个优选实施例，不是选择所有可能的组合，而是只选择这样的组合，在这些组合中，与每个事件关联的功率从一个事件到下一个事件单调地变化。

在此实施例中，组合中各事件的顺序与时间组的顺序对应。优选地，与每个事件关联的功率是在其间发生该事件的测试周期快速(第一)平均值的大小。在此实施例中，使用的关键字组合将少于所有可能的关键字组合，以便趋向于减少给定音频段的关键字总数，这导致降低了对存储器和处理能力的要求。另一方面，将存在足够的关键字，使得从歌曲生成的关键字组可以很好地表征(即强烈地相关于)该歌曲的标识。根据一个替代实施例，只从关键字生成器缓冲器的内容中选择一单个组合。该单个组合包括与每个时间组的最高快速平均功率关联的事件。根据另一个替代实施例，选取所有不同的从每个时间组选取一个事件的事件组合。

在步骤604中，为每个选定的事件组合构成一个关键字序列，该序列包括事件序列的频率偏移(相对于主关键字生成器频率)的数值序列，该事件序列是来自在步骤602中形成的每个组合的事件序列。每个频率偏移是其中发生该事件的半音带的频率与该关键字生成器的主频率之差。在步骤606中，将触发器事件的测试周期信息(例如，该触发器事件的测试周期序列号，其中每首歌曲的第一测试周期的序列号被指定为数字1)与该关键字序列关联。

在步骤608中，将包括关键字序列和测试周期信息的关键字与歌曲(或其他音频)标识符或ID(例如，标题)关联。在使用已知歌曲来构建将与未知歌曲进行比较的歌曲数据库的情况下，过程600将包括步骤608。当比较两首歌曲时，将同时使用关键字序列和测试周期信息，如稍后参考图8所述。该歌曲数据库可以采取包括三列和多行的表的形式。第一列包括关键字序列，下一列包括与该关键字序列关联的相应测试周期，最后一列包括从其中得到该行中关键字的歌曲的标识。

尽管上述诸过程可以用于识别音频内容，但过滤打击乐器事件是有利的。更具体地说，如果不过滤，歌曲中的打击乐器声通常将在过程400输出的事件中占高百分数。出于节省计算机资源(例如，存储器和处理能力)和得到更具特征性的关键字组的目的，希望减少打击乐器事件的数量，例如在关键字生成器过程500处理事件之前消除某些打击乐器事件。本发明的发明者们已经认识到，打击乐器声导致了在相同测试周期期间相邻半音频带中事件被触发。例如，打击乐器声能够导致在两个或更多相邻半音频带的序列中发生事件。

图7是在一个优选实施例中使用的、用于从图4A和4B的过程产生的事件中过滤打击乐器事件的过程的流程图。在步骤702中，对于每个连续的测试周期，确定在两个或更多相邻半音频带的序列中是否发生了多个事件。步骤704是一个判断框，其输出取决于在相邻频带中是否发生了多个事件。在该过程中使用了一个阈值，该阈值为在相邻频带中发生的事件的某个预定数量。优选地，在其中必须发现(为了考虑由打击乐器声造成的事件)事件的相邻频带的数量下限设为三或更高。根据本发明的一个示例性实施例，事件必须在三个连续半音频带中发生，步骤704的输出才将是肯定的。

如果步骤704的输出是否定的，则过程继续步骤708，在步骤708中，过程递增到下一个测试周期并循环回到步骤702。另一方面，如果步骤704的输出是肯定的，则过程700继续步骤706，在步骤706，将相同测试周期期间相邻频带中发生的每个事件序列削减为单个事件。从过程400产生的事件流中删除除序列中具有最高快速平均值的事件以外的所有事件。可替代地，可以保留多达某个预定数量的事件，而不是只保留一个事件而删除其余全部事件。

上述过程根据声音记录中包含的特征(即事件)来生成该声音记录的关键字。因此，可以在存储阶段期间在已知音频内容上运行这些过程来构建该已知音频内容的特征数据库。在创建该数据库之后，在检索阶段，上述过程可以用于从未知音频内容中提取特征，然后可以访问该数据库以根据所提取的特征识别该音频内容。例如，可以在未知音频内容上运行相同过程以实时(或甚至更快)提取特征，然后使用该数据库中的最佳匹配来识别该音频内容。在一个实施例中，可以报告该音频内容的每个预定间隔(例如，10至30秒)的最佳匹配。

图8是使用图5和6的过程中生成的关键字来识别音频段的歌曲识别过程的流程图。使用了歌曲数据库(如上文描述的数据库)来识别例如在过程300的步骤304中从Web站点下载的未知歌曲。该歌曲数据库的关键字序列字段(列)可以用作数据库关键字。优选地，该歌曲数据库的记录(行)储存在一个散列表中以供直接查找。识别过程800是图3的步骤308的示例性实现。

在步骤802中，从要被识别(例如，通过执行图5和图6中示出的过程)的歌曲生成关键字。在步骤804中，在包括多首歌曲关键字的歌曲数据库中查找在步骤802中生成的关键字组中的每个关键字。将每个关键字的关键字序列部分(而不是测试周期部分)用作数据库关键字。换言之，搜索该歌曲数据库以找出任何这样的条目，其具有的关键字序列与属于从要识别的歌曲中得到的关键字的关键字序列相同。在歌曲数据库中不只一个关键字可以具有相同的关键字序列，此外偶尔在歌曲数据库中不只一首歌曲可以共享该相同的关键字序列。在步骤806中，为与歌曲数据库中的一个或多个关键字匹配(通过关键字序列)的该数据库中的每个关键字，通过取与被查询关键字关联的测试周期和该歌曲数据库中与每个匹配关键字关联的测试周期之间的差值来计算偏移。

在步骤808中，这些偏移被收集到偏移时间组中。偏移的偏移时间组与关键字生成中使用的时间组截然不同。根据一个优选实施例，偏移时间组将等于2至10个测试周期。作为示例，如果每个偏移时间组是5，则在步骤806中确定的差值在0和5之间的任何关键字对将被分配给第一偏移时间组，而差值在6和10之间的任何关键字对将被分配给第二偏移时间组。根据本发明的一个示例性实施例，每个偏移时间组等于5个测试周期。

在步骤810中，为具有的关键字匹配要识别歌曲中的关键字的每首歌曲，和为在步骤808中确定的每个偏移时间组值以及歌曲数据库中给定歌曲所涉及的关键字，计数具有相同时间组偏移值的匹配关键字的个数。可以以下列方式可视化步骤810，其也可用作一种实现方案的基础。构建一个临时表，其中每行对应于来自歌曲数据库的一首歌曲，该歌曲具有一个或多个与要识别的歌曲匹配的关键字。第一列包括歌曲名称。在第二列中，与每首歌曲名称相邻的是偏移时间组的值，该值是在为歌曲数据库中命名的歌曲找到的关键字和来自要识别的歌曲的匹配关键字之间找到的。在完成步骤810之后，第三列将包括与第一列中标识的特定歌曲对应的关键字匹配的计数，这些关键字匹配具有的偏移时间组与第二列中标识的相同。该表可能如下面所示。

表1

歌曲标题	偏移值(以时间组间隔为单位)	为这首歌曲和具有此偏移值的关键字序列匹配计数
歌曲标题	偏移值(以时间组间隔为单位)	为这首歌曲和具有此偏移值的关键字序列匹配计数	标题1	3	1
标题1	4	1	标题1	3	1
标题1	4	1	标题2	2	2
标题2	3	107	标题2	2	2
标题2	3	107	标题3	5	1
标题2	8	1	标题3	5	1

如果要识别的歌曲在该数据库中，则一个特定时间组偏移值将累积一个高计数。换言之，将会发现大量匹配关键字对具有某些特定的偏移时间组值。在上例中，标题为“标题2”的歌曲对于为3的偏移时间组具有计数107。例如，因为正在识别的特定记录比用于生成该歌曲数据库关键字的歌曲的记录晚几秒钟开始，或因为正在识别一小段歌曲，时间组偏移可能会增加。

在步骤812中，从歌曲数据库中识别出匹配关键字(带有相同偏移)的计数最高的歌曲。在判断框814中，将该计数与一个阈值进行比较。该阈值可根据特定应用来设定，或通过确定当歌曲实际匹配时所发现的最高计数的最小值和当被测试歌曲不匹配数据库中任何歌曲时最高计数的最大值来设定。所用阈值的值还取决于为上文讨论的步骤602选择的具体实施例，因为这决定了关键字的总数。

在步骤812中可以代之以将最高计数和从要识别的歌曲生成的关键字总数之比与阈值进行比较，而不是将该计数与阈值进行比较。另一种做法是将最高计数和其余计数的平均值之比与阈值进行比较。也可以将后两种做法看作是将最高计数与阈值进行比较，尽管在这些情况中该阈值是不固定的。如果计数不满足阈值判断标准，如要识别的歌曲不在数据库中的情况，则歌曲识别过程800终止。可以提供额外的步骤，用于报告(例如，向用户)无法识别要被识别的歌曲。另一方面，如果计数确实满足阈值判断标准。则在步骤814中输出标识了具有最高计数(其满足阈值判断标准)的歌曲的信息。在又一些实施例中，本发明的诸过程用于识别多个歌曲段。

就处理畸变和变形的能力而言，上文参考图4A至图8描述的用于识别歌曲的过程是健壮的(robust)。此外，该过程在计算复杂性和存储器要求方面也是高效的。用于生成事件流、过滤打击乐器事件、生成关键字以及在歌曲数据库中查找关键字的过程也可以实时(或更快)进行。该过程的计算消耗足够低，使得其可以在普通个人计算机上实时运行。

因此，本发明提供了***和方法，在这些***和方法中自动识别音频内容，然后呈现包含(或涉及)所识别的音频内容的一个或多个产品以供购买。因此，可能的购买者可以快速而容易地购买听到的但其标识未知的音频内容。这可以显著增加销售机会。

上文的描述多次描述了一种用于从无线电广播识别音乐内容的过程和***。但是，这只是出于说明目的，本发明并不限于此。可以将本发明类似地应用于从任意源(包括电视广播、Web广播、已记录的视频、电影以及甚至现场演出)导出的音频内容，因为该音频内容的初始源对本发明的***并不重要。

进而，尽管上文描述的本发明的实施例涉及音乐内容，本发明的***可以轻易地被本领域技术人员修改成适用于自动识别由用户记录的任何其他类型的不能识别的音频内容。在这样的又一实施例中，记录该不可识别音频内容的映像，将所记录的映像提供给音频识别***，为所提供的映像生成标识信息，然后将生成的标识信息与所感兴趣内容的标识信息数据库进行比较。例如，在一个实施例中，为不同鸟类的声音(或其他生物声音)创建音频内容数据库。然后，热心的鸟类观察者可以记录由未知种类的鸟发出的声音的映像，然后使用此音频识别***来识别所听到的鸟的种类。在这样的情况下，该***还能用于识别与所记录的映像(例如，有关识别的鸟类的书籍或涉及该类鸟的某些其他产品)有关的产品。

本发明能够以硬件、软件或硬件与软件的组合来实现。任何种类的计算机***或适于实现本文描述的方法的其他装置都是适合的。硬件和软件的一种典型组合可以是带有计算机程序的通用计算机***，当该程序被加载或执行时，可以控制该计算机***以使其实现本文描述的方法。

本发明还能够被嵌入计算机程序产品中，该产品包括使能实现本文描述的方法的全部特性，当其被加载到计算机***中时能够实现这些方法。在当前环境中的计算机程序装置或计算机程序是指任何语言的指令集的任何表达、代码或符号，旨在使具有信息处理能力的***直接地或者执行下面的两者之一或者都执行后实现特定的功能：a)转换为另一种语言、代码或符号；b)以不同的材料形式再现。

每个计算机***可以包括一个或多个计算机和至少一个计算机可读介质，以允许计算机读数据、指令、消息或消息包以及来自计算机可读介质的其他计算机可读信息。该计算机可读介质可以包括例如ROM、闪存、磁盘驱动器存储器、CD-ROM以及其他永久性存储装置的非易失性存储器。另外，计算机介质可包括例如RAM、缓冲器、高速缓冲存储器以及网络电路的易失性存储装置。此外，该计算机可读介质可以包括瞬变状态介质中的计算机可读信息，该瞬变状态介质例如包括有线网络或无线网络的网络链路和/或网络接口，使计算机可以读取此类计算机可读信息。

尽管已经图示和描述了当前认为的本发明优选实施例，本领域技术人员将会理解，可以做出各种其他修改和以等效物替换而不脱离本发明的范围。此外，根据本发明的教导可以做出各种修改以适合特定的情况，而不偏离本文描述的核心发明构想。因此，本发明并不限于此处公开的特定实施例，而是要包括落入所附权利要求范围内的全部实施例。

Claims

1.一种用于销售包含或涉及音频内容的产品的方法，所述方法包括以下步骤：

接收记录的音频内容映像；

为该音频内容映像生成音频标识信息；

确定为该音频内容映像生成的该音频标识信息是否与音频内容数据库中的音频标识信息匹配；以及

如果为该音频内容映像生成的该音频标识信息与该音频内容数据库中的音频标识信息匹配，则对至少一个包含或涉及与该匹配音频标识信息对应的音频内容的产品收费。

2.根据权利要求1的方法，其中，

该接收步骤包括接收传输的歌曲至少一部分的音频内容映像的子步骤，以及

该收费步骤包括传输至少一首与该匹配音频标识信息对应的歌曲的记录的子步骤。

3.一种用于销售包含音频内容的产品的方法，所述方法包括以下步骤：

接收记录的音频内容映像；

为该音频内容映像生成音频标识信息；

如果为该音频内容映像生成的该音频标识信息与该音频内容数据库中的音频标识信息匹配，则生成包含与该匹配音频标识信息对应的音频内容的产品。

4.根据权利要求3的方法，还包括对该生成的产品收费的步骤。

5.一种用于销售包含或涉及音频内容的产品的方法，所述方法包括以下步骤：

确定为音频内容映像生成的音频标识信息是否与音频内容数据库中的音频标识信息匹配；以及

如果为该音频内容映像生成的该音频标识信息与该音频内容数据库中的音频标识信息匹配，则识别出至少一个包含或涉及与该匹配音频标识信息对应的音频内容的产品。

6.根据权利要求5的方法，还包括以下步骤：

接收该音频内容映像；以及

为该音频内容映像生成音频标识信息。

7.根据权利要求5的方法，还包括接收该音频内容映像的音频标识信息的步骤。

8.根据权利要求5的方法，还包括对该识别出的产品收费的步骤。

9.根据权利要求5的方法，其中，该音频标识信息是基于音频内容的音频特征签名。

10.根据权利要求9的方法，其中，该确定步骤包括将为该音频内容映像生成的音频特征签名与该音频内容数据库中储存的音频特征签名进行比较的子步骤。

11.根据权利要求5的方法，还包括以下步骤：

生成与预定音频内容对应的音频标识信息；以及

将与该预定音频内容对应的音频标识信息储存在音频内容数据库中。

12.根据权利要求5的方法，还包括对识别出与该匹配音频标识信息对应的音频内容收费的步骤。

13.根据权利要求6的方法，其中，该生成步骤包括以下子步骤：

得到由时变功率频谱表征的音频信号；

分析该频谱以得到多个时变频率分量；

在该多个时变频率分量中检测出多个事件；以及

根据该多个事件为来自音频数据流的该音频内容生成音频标识信息。

14.根据权利要求13的方法，其中，分析该频谱的子步骤包括：

采样该音频信号以得到多个音频信号样本；

从该多个音频信号样本中取出多个子集；以及

对该多个子集中的每个子集进行傅立叶变换以得到一组傅立叶频率分量。

15.根据权利要求6的方法，其中，该生成步骤包括以下子步骤：

对该部分音频信号进行傅立叶变换，形成在第一多个频率上耗散的音频功率的时间序列；

将该频率分组为更小的第二多个频带，每个频带包括一系列相邻频率；

检测该多个频带的每个频带中的功率耗散事件；以及

在选定时刻将来自彼此相邻频带的功率耗散事件组合到一起以便形成该标识特征。

16.一种编码有程序的计算机可读介质，所述程序用于销售包含音频内容的产品，所述程序包含用于执行以下步骤的指令：

接收记录的音频内容映像；

为该音频内容映像生成音频标识信息；

确定为该音频内容映像生成的音频标识信息是否与音频内容数据库中的音频标识信息匹配；以及

如果为该音频内容映像生成的音频标识信息与该音频内容数据库中的音频标识信息匹配，则生成包含与该匹配音频标识信息对应的音频内容的产品。

17.根据权利要求16的计算机可读介质，其中，所述程序还包含用于执行对生成的产品收费的步骤的指令。

18.一种编码有程序的计算机可读介质，所述程序用于销售包含或涉及音频内容的产品，所述程序包含用于执行以下步骤的指令：

如果为该音频内容映像生成的音频标识信息与该音频内容数据库中的音频标识信息匹配，则识别出至少一个包含或涉及与该匹配音频标识信息对应的音频内容的产品。

19.根据权利要求18的计算机可读介质，其中，所述程序还包含用于执行以下步骤的指令：

接收该音频内容映像；以及

为该音频内容映像生成音频标识信息。

20.根据权利要求18的计算机可读介质，其中，所述程序还包含用于执行接收该音频内容映像的音频标识信息的步骤的指令。

21.根据权利要求18的计算机可读介质，还包括：

接收传输的歌曲至少一部分的音频内容映像；以及

传输与该匹配音频标识信息对应的至少一首歌曲的记录。

22.根据权利要求18的计算机可读介质，其中，

该音频标识信息是基于音频内容的音频特征签名；以及

该确定步骤包括将为该音频内容映像生成的音频特征签名与该音频内容数据库中储存的音频特征签名进行比较的子步骤。

23.根据权利要求19的计算机可读介质，其中，所述程序还包含用于执行以下步骤的指令：

生成与预定音频内容对应的音频标识信息；以及

将与该预定音频内容对应的音频标识信息储存在该音频内容数据库中。

24.根据权利要求19的计算机可读介质，其中，该生成步骤包括以下子步骤：

得到由时变功率频谱表征的音频信号；

分析该频谱以得到多个时变频率分量；

在该多个时变频率分量中检测出多个事件；以及

25.根据权利要求24的计算机可读介质，其中，分析该频谱的子步骤包括：

采样该音频信号以得到多个音频信号样本；

从该多个音频信号样本中取出多个子集；以及

26.根据权利要求19的计算机可读介质，其中，该生成步骤包括以下子步骤：

检测该每个频带中的功率耗散事件；以及

27.一种***，包括：

输入接口，用于接收记录的音频内容映像；

标识信息生成器，用于为该音频内容映像生成音频标识信息；

匹配检测器，用于确定为该音频内容映像生成的音频标识信息是否与音频内容数据库中的音频标识信息匹配；以及

产品生成器，如果为该音频内容映像生成的音频标识信息与该音频内容数据库中的音频标识信息匹配，则该产品生成器生成包含与该匹配音频标识信息对应的音频内容的产品。

28.一种***，包括：

匹配检测器，用于确定为音频内容映像生成的音频标识信息是否与音频内容数据库中的音频标识信息匹配；以及

产品识别器，如果为该音频内容映像生成的音频标识信息与该音频内容数据库中的音频标识信息匹配，则该产品识别器识别出至少一个包含或涉及与该匹配音频标识信息对应的音频内容的产品。

29.根据权利要求28的***，还包括：

输入接口，用于接收该音频内容映像；以及

标识信息生成器，用于生成该音频内容映像的音频标识信息。

30.根据权利要求28的***，还包括用于接收该音频内容映像的该音频标识信息的输入接口。

31.根据权利要求28的***，还包括：

输出接口，用于传输与该匹配音频标识信息对应的至少一首歌曲的记录；

其中该输入接口适合于接收传输的歌曲至少一部分的音频内容映像。

32.根据权利要求28的***，其中，该音频标识信息是基于音频内容的音频特征签名。

33.根据权利要求32的***，其中，该匹配检测器将为该音频内容映像生成的音频特征签名与该音频内容数据库中储存的音频特征签名进行比较。

34.根据权利要求28的***，其中，该音频内容数据库储存有预定音频内容的音频标识信息。