CN112352279B

CN112352279B - 便于自动视频编辑的节拍分解

Info

Publication number: CN112352279B
Application number: CN201980043850.0A
Authority: CN
Inventors: 克里斯多夫·沃谢
Original assignee: Sokolipu Co
Current assignee: Sokolipu Co
Priority date: 2018-07-03
Filing date: 2019-07-03
Publication date: 2023-03-10
Anticipated expiration: 2039-07-03
Also published as: CN112352279A; EP3818528A1

Abstract

所公开的技术涉及一种用于检测音乐作品内的音乐事件的方法。对音乐事件的所述检测基于分析所述音乐作品的数字信号的能量和频率。对音乐作品中的音乐事件的识别将与音频‑视频编辑结合地使用。

Description

便于自动视频编辑的节拍分解

相关申请的交叉引用

本申请要求于2019年7月3日提交的题为“便于自动视频编辑的节拍分解”的美国非临时申请号16/503,379的益处，该申请本身则要求于2018年7月3日提交的题为“便于自动视频编辑的节拍分解”的美国临时申请号62/693,799的益处，其通过引用整体并入本文。

背景技术

1.技术领域

本公开的主题一般性地涉及视频编辑，具体而言涉及用于进行节拍分解以便于节拍匹配的***和方法。

2.介绍

当适当应用时，与比如图像或视频等视觉内容配合的乐谱可产生情感上很有力的多媒体制作。然而，为了这样的内容具有情感力，音乐和视觉转换就必须以仔细的同步出现，使得视觉效果与音乐转换良好地匹配。该过程有时候被内容编辑者熟知为“节拍匹配”，通常是困难且耗时的手动过程。也就是说，常规的视频编辑通常要求节拍匹配由编辑专家来进行，使得专业内容的制作对于普通消费者是困难或不可及的。然而，随着比如具有视频功能的智能手机等移动设备持续的推广和社交媒体的扩散，消费者日益期望生成和分享他们自己的混合内容制作。

附图说明

为了描述可获得本公开的上述和其它优点和特征的方式，将参照在附图中示出的具体实施例来对上文简要说明的原理进行更具体的说明。要理解这些图像仅描绘了本公开的实施例，因此不应被认为限制了本公开的范围，这些原理在此利用额外的特征和细节、通过使用附图加以说明和解释，在附图中：

图1概念性地示出识别音乐作品中的音乐事件(musical artifacts)的一个例子。

图2示出被转换成.wav格式的输入音频文件的示例性类型。

图3概念性地示出基于能量来识别音乐作品中的音乐事件的一个例子。

图4示出将高通滤波器应用于检测音频输入中的高归一化能量的一个例子。

图5示出将带通滤波器应用于检测具体音乐事件的一个例子。

图6A示出用于检测音乐作品中的音乐事件的方法的一个例子。

图6B示出用于检测音乐作品中的音乐事件的方法的另一个例子。

图7示出命中/未命中音乐作品的输出文件的一个例子。

图8示出用来实施本技术的各个方面的基于处理器的计算设备的一个例子。

发明内容

以下给出的详细说明旨在作为实施例的不同配置的说明，而不旨在代表可实施本公开的主题的唯一配置。附图被结合于此并构成该详细说明的一部分。该详细说明包括具体细节，以便提供对本公开的主题更透彻的理解。然而，将清楚和明显的是本公开的主题不限于在此说明的具体细节，而是可以没有这些细节地实施。在某些情况下，用框图形式图示结构和部件，以避免模糊本公开的主题的概念。

在此公开的是用于识别音乐事件的由计算机实施的方法、计算机可读介质和***。通过首先接收代表具有音乐事件的音乐作品的初级波形来实施对音乐事件的识别。然后对初级波形滤波，以生成与音乐事件关联的替代波形。接着分析替代波形，以识别初级波形中对应于音乐事件的时间点。

在一些实施例中，对初级波形的所述滤波包括第一滤波，所述第一滤波使用两个或更多个交错带通滤波器和输出两个或更多个次级波形。该第一滤波包括：计算对于次级波形的采样组(samples’module)，识别超过第一预定频率范围阈值的采样组，对于音乐事件中的每个识别具有超过第一预定频率范围阈值的最多采样组的频率范围，以及识别音乐事件的初级清单，该初级清单的音乐事件基于来自次级波形的超过第一预定频率范围的所述最多采样组。

在另一实施例中，对初级波形的所述滤波包括对初级波形的第二滤波过程，所述第二滤波过程使用低通滤波器或输出三级波形的重采样过程。该第二滤波过程包括：对于每个音乐事件的频率范围计算三级波形的采样组移动平均值，并对于每个音乐事件识别采样组移动平均值中超过第二预定频率范围阈值的至少一个。第二滤波过程然后识别音乐事件的次级清单，该次级清单包括所述初级清单的音乐事件，其中，该音乐事件的次级清单包括这样的音乐事件：这些音乐事件在与包括在初级清单中的音乐事件的时间点有关的

范围内的时间点具有超过第二预定频率范围阈值的采样组移动平均值。

在又一实施例中，对初级波形的所述滤波还包括对初级波形的第三滤波，所述第三滤波使用输出四级波形的高通滤波器。该第三滤波过程包括：识别四级波形的超过第三预定第二频率范围阈值的采样组，并识别音乐事件的三级清单，所述三级清单包括所述次级清单的音乐事件。所述音乐事件的三级清单包括这样的音乐事件：这些音乐事件在与包括在次级清单中的音乐事件的时间点有关的

范围内具有四级波形的超过第三预定频率范围阈值的采样组。

具体实施方式

如在此所述的，本说明书通过提供用于实施自动节拍匹配的方法、***和软件来解决上述常规(手动)节拍匹配方法的局限。如在下文中更详细地说明的，可将自动节拍匹配用于通过将视觉媒体内容(例如图像和视频)与各种音乐选择或作品混合来便于对这些视觉媒体内容的自动编辑。

在一些方面，节拍匹配是通过识别例如与音乐作品(歌曲)中急剧的音乐转换对应的高能量音乐事件来实施的。这些转换相对于所关联的歌曲的时机可加以记录，以便例如生成输出文件，该输出文件指示转换在歌曲持续时长中的时间位置(或时间点)(例如“命中(hits)”)以及不包含这样的事件的时间段(或歌曲节段)(例如“未命中(no-hit)”节段)。如在下文中更详细地说明的，所获得的命中/未命中文件(有时候用矢量代表)可被用来指示视觉内容中的剪切机会，即可使得视觉转换与对应的音乐选择配对的位置。

如在此所述，音乐事件可基于某些频率和能量特征来识别。尽管本公开具体地提供了关于识别击鼓(即底鼓、小鼓和查理鼓(charlies))的代表性例子，但识别其它类型的音乐事件也在考虑之中。

通过识别这些音乐事件，可结合自动化音频-视频编辑过程使用关于音乐作品的可识别特征，以使得用于制作专业质量的混合媒体输出的过程自动化。特别地，所公开的技术与节拍匹配算法结合使用，以使得音频输入文件(例如音乐作品)与视频文件的场景转换之间的匹配自动化。对视频文件做出的编辑是结合关于音频输入文件的可识别特征做出的，该音频输入文件用于与视频文件对应。这允许任何人(即使是没有丰富音频-视频编辑经验的用户)制作高质量的混合媒体输出，在该输出中，场景转换和其它效果可基于伴随的音频输入文件(例如音乐作品)自动地实施。可使用识别出的音乐作品的音乐事件做出的关于自动化音频-视频编辑的细节在2019年4月22日提交的题为“基于音乐的视频编辑”的美国临时申请62/837,122中说明并通过引用并入本文。下文将说明关于如何识别音频输入文件(例如音乐作品)中的音乐事件的更多细节。

以下说明的所公开技术的多个方面将通过提供改进的用于自动识别音乐作品中的音乐事件(例如击鼓)的方法来解决常规(手动)节拍匹配过程的局限。通过改进用于识别音乐事件的自动化方法，本技术便于通过使用识别出的音乐事件和它们在音乐作品中的时间位置(也被称作时间点)来自动化地混合视频，以实施视频编辑。音乐事件在音乐作品中的时间位置与对应的在视频编辑中应用的视觉效果/场景转换之间的同步化改善了视频的质量。

本公开说明了一种基于与频率和能量两者关联的不同阈值来分析音乐作品以识别音乐作品中的音乐事件的方法。在一些方面，音乐事件的识别可被实施以识别比如低音鼓(例如底鼓)或小鼓等具体的鼓类型。然而，要理解的是，说明用来识别音乐事件的对音乐作品的分析的本公开不限于在以下各个实施例中描述的音乐事件的类型。例如，还可在音乐作品中识别包括以下中的一种或更多种的其它音乐特征：落地鼓、悬挂/架子嗵鼓、踩镲、吊镲、叮叮镲、水镲和/或中国镲或类似的。

如在下文中更详细地说明的，可基于频率和能量识别音乐作品中的音乐事件。例如，某些类型的音乐事件(例如击鼓)是通过它们相对高的突出性(能量)和相对短的持续时间(例如10ms)来识别的。击鼓可以是能够与通常展现出较低能量特征和较长持续时间的比如吉他和钢琴等其它乐器区分开来的展现特征。在另一例子中，还可基于频率来识别音乐事件。某些类型的音乐事件(例如击鼓)可具有基于鼓本身的几何形状的单一恒定共振频率。

图1概念性地示出识别音乐作品(例如歌曲)中的音乐事件的一个例子。该图是示出音乐作品(在该例子中为AC/DC乐队的歌曲“Back in Black”的前奏)的能量表征的图表100。特别地，以图表相对于时间地示出音频信号的频率(范围为0Hz至22kHz)。

该图表还示出在音乐作品中的具体时间位置处示出的不同音乐事件(例如元素110至130)，音乐作品在这些时间位置处展现出各种不同的能量峰值。音乐事件(例如击鼓)在音乐作品中存在于具体时间点。取决于期望的实施方式，可基于不同的频率和/或能量特征来识别音乐事件。作为例子，音乐事件的识别可以基于确定该音乐事件是否具有：(1)在预定时长(例如几毫秒)中发生的高于预定阈值的能量；和/或(2)集中了大部分能量的共振频率。

如该图所示，音乐事件110和120是音乐作品的能量表征的图表100中的两个不同的点，其对应于可使用本技术检测的不同音乐事件。音乐事件110和120中的每个的能量水平都高于预定最小阈值。示出能量表征的图表100显示出音乐事件110和120在音乐作品中的不同时间点处具有它们各自的最高能量峰值。

比如击鼓等音乐事件可用持续预定时长的高于第一阈值的能量来表征。而且，该音乐事件会具有高于第二阈值的平均能量水平(基于数十个后续采样或采样组)。用来对于音乐事件识别能量和平均能量的第一和第二阈值可基于例如音乐作品的特征以及所检测的音乐事件中的每个来自定义。该自定义可例如由本技术的用户来实施。用于自定义第一和第二阈值的另一因素也可基于结合所检测的音乐事件(例如击鼓)使用的乐器(例如鼓的类型)。

而且，音乐事件110和120中的每个与集中在不同频率周围的峰值能量关联。基于音频信号的峰值能量集中在什么频率周围，可能可以具体地识别在音乐作品的能量表征的图表100中的音乐事件的类型。例如，具有集中在大约60至70Hz的峰值能量的音乐事件可对应于底鼓110。相反地，如果音乐事件的峰值能量集中在大约130至150Hz，这可能指示该音乐事件是小鼓120。

不同的音乐事件会具有其峰值能量所在的不同的集中频率范围。然而，对于不同的音乐事件，这些频率范围不重叠，使得本技术会能够区分不同的音乐事件。例如，对于底鼓110，阈值频率范围可宽至40到100Hz。相反地，用来检测小鼓130的阈值频率范围可宽至110到170Hz。将为其它音乐事件分配与上文所述的对于底鼓和小鼓的频率范围不同的其它频率范围。

如上所述，音乐事件110和120(例如击鼓)具有高于第一阈值(例如高频率范围)的能量。音乐作品的能量表征的图表100显示出音乐事件110(例如底鼓)和120(例如小鼓)每个都在高频率范围130具有能量。高频率范围130代表音乐事件在高频率具有能量。高频率范围130被用作用于识别在音乐作品中的时间点潜在地存在音乐事件的初始确定(或“门”)。与高频率范围130关联的该初始确定也被称作“O区”。尽管将在高频率范围130存在“门”用来识别音乐作品中音乐事件可能位于的时间位置，但在高频率范围130存在“门”不一定意味着存在音乐事件。以下情况是可能的：尽管有能量位于高频率范围130，仍然可能确定不存在音乐事件。然而，在音乐作品的某一时间点在高频率范围130不存在“门”的确得出在音乐作品中的具体时间处不存在音乐事件110、120(例如比如底鼓或小鼓等击鼓)的结论。

为了获得与音乐作品相关联的能量和频率，对音乐作品进行处理以使得可以将其从音频格式转换成可分析的数字格式(也被称作初级波形)。如在此所述的，将音频输入文件转换成.wav文件(不过其它格式也是可以的)。

图2示出可转换成.wav格式(例如初级波形)的输入音频文件的示例性类型。例如，比如.MP3、.aac、.M4A和.ogg等格式的音频输入都可转换成.wav格式。

在一些方面，将结合识别音乐作品中的音乐事件地使用.wav格式。应注意，在.MP3、.aac、.M4A和.ogg以外可能还有可以使用和转换成.wav格式的其它类型的音频输入文件。而且，也可以使用除.wav格式以外的不同格式。另外，可不背离所披露的技术的范围地使用其它数字文件格式。

图3概念性地示出基于能量来识别音乐作品中的音乐事件的一个例子。具体而言，该图示出包括对对称方形窗口310的应用的图表300，该对称方形窗口310可被用于基于音频信号320的平均能量来检测音乐作品中的潜在音乐事件。如图所示，能量根据以下公式来定义：

NRJ′(k)＝∑_kABS(xi)

其中，“k”对应于采样组的数量，“ABS()”对应于音乐作品的能量的绝对值函数。

如图3所示，显示出一段时间内与音乐作品关联的能量的绝对值。将方形窗口310用于识别在一段时间(对应于采样或采样组的预定数量)内音乐作品的平均能量高于预定阈值(TH₁)330的部分。以此方式，将方形窗口用于识别音乐作品中的音乐事件可位于的时间点。这些时间点被称作“X区”。

应注意，预定阈值(TH₁)330可初始地设置在默认值，但也可由用户定义。对预定阈值(TH₁)330的自定义允许本技术考虑到音乐作品中存在的可能的音乐事件的不同特征，和允许用户具体地确定要检测哪些音乐事件。

由于在识别音乐作品中是否存在音乐事件时方形窗口310考虑了多个采样(或采样组)，所以实施阈值峰值选择过程，以识别出具有最大/最高峰值的采样(或采样组)来代表处于那个时间点的那个音乐事件。

图4示出将高通滤波器应用于检测音频输入(或初级波形)中的高归一化能量的一个例子。高通滤波器对于检测音乐作品中的音乐事件是有用的。如上文在图1中所述，音乐事件在高频率范围具有能量。通过使用高通滤波器400，可对音乐作品410滤波，以仅输出高频率部分420(四级波形)。高频率部分420则会对应于音乐作品在高频率范围(参见图1，高频率范围130)具有所要求的能量的时间点。以此方式，可将高通滤波器400用于识别初始确定(或“门”)，该初始确定(也被称作“O区”)识别在音乐作品中哪里可检测到潜在的音乐事件。

图5示出将带通滤波器500(或可能地，两个或更多个交错带通滤波器)应用于检测具体音乐事件的一个例子。可将一个或多个带通滤波器500(例如具有多个交错带通滤波器的一个工作台)用于去除音乐作品510的高频率和低频率的成分，该去除通过让一定频率范围(例如频率带)内的频率通过和排斥或减弱该频率范围以外的频率来实现。取决于所检测的音乐事件的类型(例如击鼓)，可将对应的带通滤波器500设计为对音乐作品滤波，以仅提供对应于与该音乐事件的类型关联的频率的输出。

如上文在图1中所述，不同的音乐事件具有集中在不同的频率范围周围的峰值能量。例如，底鼓可与40Hz至100Hz的频率范围关联。相反地，小鼓可与120Hz至170Hz的频率范围关联。对于其它可检测类型的音乐事件，其它频率范围可以是可行的。在任何情况下，可针对与要检测的音乐事件的类型关联的频率范围地设计对应的带通滤波器500。(用带通滤波器500(也被称作交错带通滤波器)对音乐作品510滤波后的)输出520将被用于识别音乐作品510的对应于具体音乐事件所处的位置的部分。输出520也可被称作次级波形。

例如，可将一个带通滤波器设计为具体地针对40Hz至100Hz之间的频率地对音乐作品510滤波。输出520将示出音乐作品的检测到底鼓的部分。具体而言，(用带通滤波器500对音乐作品510滤波后的)输出520将识别出音乐作品中能量集中在40Hz至100Hz的频率范围之间的时间位置。

图6A示出用于检测音乐作品中的音乐事件的方法600的一个例子。该方法600用于分析音乐作品，以识别音乐作品中音乐事件所处的时间位置。

在步骤605中，接收代表音乐作品的音频信号。音乐作品具有未知数量的要识别的音乐事件。如上所述，音乐事件对应于音乐作品的不同的可识别特征。一些示例性音乐事件包括击鼓(例如底鼓、小鼓)，然而，也可以不背离本公开的技术地使用方法600来检测其它类型的事件。

在接收音乐作品的音频信号之后，则在步骤610中将音频信号数字化，以生成音频文件的数字版本(也被称作初级波形)。该音乐作品的数字版本以可进一步处理和分析的格式(例如.wav)提供。

在步骤615中，进一步处理数字音频信号。具体而言，数字音频信号被处理为使得可归一化与音乐事件关联的波形。在一个归一化过程的例子中，将与数字音频信号关联的峰值归一化至[-1到1]之间。可不背离所公开的技术的范围地考虑其它归一化界限并结合本技术加以实施。

在归一化数字音频信号后就可在步骤620中分析该音频信号，以在步骤620中识别音乐事件。对音频信号的分析可包括多种不同的滤波过程。并且，可确定在音乐作品中在一段时间内检测到的音乐事件的密度。

可确定音乐作品中音乐事件所处的时间位置，以及在该位置处的音乐事件的类型。在步骤620中识别音乐事件可包括一定数量的不同步骤(在上文中在图3至5中说明)。例如，当信号具有下列指征时，在音乐作品中检测到音乐事件：(1)信号具有高于与高频率对应的第一预定阈值的能量；和(2)信号在一段时间内具有高于第二预定阈值的平均能量；和(3)信号具有对应于大部分能量所集中的在预定阈值的共振频率。

基于以上分析的结果，可确定检测到什么音乐事件和音乐事件位于音乐作品中的什么位置。将与美国临时申请62/837,122(其通过引用合并于此)一起使用对具体音乐事件(例如击鼓)和它们在音乐作品中的位置的识别，以自动化音频-视频编辑过程。

基于所检测到的不同音乐事件，可实施针对音乐作品的不同部分识别音乐事件的密度的下一计算。具体而言，音乐事件的密度对应于存在于预定时长内的不同音乐事件的数量。例如，音乐作品的前奏时期(例如5秒)可具有两个不同的检测到的音乐事件。然而，在同一音乐作品稍后的部分期间，可在同为5秒的跨度内检测到更多的音乐事件(例如15个)。用于评估音乐事件密度的时长可由用户自定义。例如，在选择要计算多长的音乐作品的部分的密度时，用户可考虑到音乐作品的特征。

在计算音乐事件密度时，可进行识别由音乐作品的一部分检测到的音乐事件的数量与同一音乐作品的不同部分的表征和比较。还可基于不同音乐作品的部分进行比较。一般来说，在音乐作品的部分中检测到的密度越高，在该时长内将检测到的音乐事件就越多。

在步骤625中，可基于在步骤620中实施的音乐事件密度的计算来生成命中/未命中输出文件。该命中/未命中输出文件可被用于识别其中检测到最小音乐事件密度(例如每个时间段的音乐事件的数量)阈值的音乐作品部分。音乐事件数量大于预定的最小密度的这样的音乐作品部分被冠名为“命中”节段，而不具有所需的最小音乐事件密度的这样的音乐作品部分则被冠名为“未命中”节段。应注意，用户能够自定义在一段时间内的最小事件数量(例如阈值密度)，该最小事件数量将被用于将音乐作品的部分表征为“命中”或“未命中”节段。

可将命中/未命中输出文件用于指示音乐作品的节段何时具有所需数量的音乐事件(或具有预定的音乐事件密度)。当与用于音频-视频编辑的自动化方法(如在美国临时申请62/837,122中所述的，其通过引用并入本文)结合地使用时，可命令计算设备跳过音乐作品的被分类为“未命中”的部分。这通过跳过不用实施编辑的部分而使得计算设备在音频-视频编辑时效率更高。同时，当音乐作品的部分具有“命中”节段时，这将对应于可基于音乐作品的对应部分来对视频进行编辑的机会。

图6B示出用于检测音乐作品中的音乐事件的方法640的另一个例子。具体而言，方法640起始于在步骤650中接收初级波形，该初级波形将被用于识别音乐作品中存在什么音乐事件。初级波形(通常是.wav文件，但可以是其它类型的文件)代表音乐作品，但已经被处理成可以滤波和分析的格式。

在步骤650中接收了初级波形之后，实施一定数量的不同滤波过程。在步骤660至667中实施第一滤波。第一滤波包括在步骤660中使用带通滤波器，这些滤波器基于在步骤660中使用的带通滤波器的类型生成(与不同频率范围关联的)不同的次级波形662。由这些次级波形，在步骤662中实施峰值选择过程，其中，对于不同频率范围内的不同音乐事件中的每个，选择具有最高峰值的最高/最多/胜出的采样。在步骤667中将这些选择的采样汇编成初级音乐事件清单。该初级清单将在稍后的滤波步骤(参见步骤677和步骤687)中被用来与音乐事件所在的时间点进行比较，以(在步骤690中)创建对应于在音乐作品中检测到的实际音乐事件的最终音乐事件清单。

在步骤670至677中还对初级波形实施第二滤波过程。第二滤波过程在步骤670中使用低通滤波器(或重采样过程)，以在步骤672中生成三级波形。基于该三级波形，在步骤675中计算平均能量。在步骤677中，基于检测到超过预定阈值的三级波形来识别可能的音乐事件的迹象(并将其存储在次级清单中)。这些可能的音乐事件的迹象(也被称作X区)位于在初级清单中识别出的音乐事件所在的范围中。

在步骤680至687中还对初级波形实施第三滤波过程。第三滤波过程在步骤680中使用高通滤波器以在步骤682中生成一个四级波形。基于该四级波形，在步骤685中识别超过预定阈值的不同采样组。还在关于在初级清单中识别的音乐事件所在位置的时间范围内识别这些采样组。然后在步骤687中将这些采样组分类为“o区”。O区代表在音乐作品中存在音乐事件的另一可能的指征。将这些可能的迹象(关于O区)存储在随后可参照的第三清单中。

在实施了上述不同的滤波步骤后，在步骤690中将初级音乐事件清单(在步骤667中创建)与可能的音乐事件的清单(在步骤677和步骤687中创建)进行比较，以确认最终音乐事件清单。具体而言，最终音乐事件清单将对应于可能的音乐事件的指征(例如o区和x区)匹配的时间点。这与上文的讨论相关，在上文讨论中音乐事件具有：(1)高于与高频率对应的第一预定阈值的能量(通过高通滤波过程检测)；和(2)在一段时间内高于第二预定阈值的平均能量(通过低通滤波或重采样过程检测)；和(3)对应于大部分能量所集中的在预定阈值的共振频率(通过带通滤波器检测)。

图7示出音乐作品的命中/未命中输出文件的一个例子。如在图中所描绘的，在音乐作品中找到的“命中”和“未命中”节段之间的区别可通过它们各自的整体能量水平来表示。较低的曲线对应于音乐作品的“未命中”节段，而音乐作品的“命中”节段会具有对应于较高的曲线的更大量的能量。也可将“命中”和“未命中”节段表示为矢量。

图8示出用于实施本技术的各个方面的基于处理器的计算设备800的一个例子。

例如，可将基于处理器的计算设备800用于实施被配置为对音频和视频输入进行混合和节拍匹配的视频编辑设备。还可理解，可结合一个或多个基于处理器的其它设备来使用基于处理器的计算设备800，例如作为计算机网络或计算集群的一部分。

基于处理器的计算设备800包括主中央处理单元(CPU)862、接口868和总线815(例如PCI总线)。CPU 862优选地在软件控制下完成所有这些功能，该软件包括操作***和任何合适的应用软件。CPU 862可包括一个或多个处理器863，比如来自Motorola微处理器家族或MIPS微处理器家族的处理器。在一个替代实施例中，处理器1063是专门设计的硬件，用于控制基于处理器的计算设备800的操作。在一个具体实施例中，存储器861(例如非易失性RAM和/或ROM)还形成CPU 862的一部分。然而，存在许多不同的存储器可连接到***的方式。

可将接口868提供为接口卡(有时候称作“线卡”)。一般来说，它们控制在网络上发送和接收数据包，有时候支持与路由器810一起使用的其它***设备。在可提供的接口中有以太网接口、帧延迟接口、线缆接口、DSL接口、令牌环接口等。另外，可提供各种非常高速的接口，比如快速令牌环接口、无线接口、以太网接口、千兆以太网接口、ATM接口、HSSI接口、POS接口、FDDI接口等。一般来说，这些接口可包括适于与合适的介质通讯的端口。在一些情况下，它们还可包括独立处理器和在有些情况下包括易失性RAM。该独立处理器可控制比如分组交换、介质控制和管理等通讯密集型任务。通过为通讯密集型任务提供单独的处理器，这些接口允许CPU 862高效地实施路由计算、网络诊断、安全功能等。

尽管图8中所示的***是本发明的一个具体的网络设备，但它绝非能实施本发明的唯一设备架构。例如，经常使用具有单个处理器的架构，该单个处理器处理通讯以及路由计算等。而且，也可与路由器一起使用其它类型的接口和介质。

无论网络设备的配置如何，它都可使用一个或多个被配置为存储用于通用网络操作和机制的程序指令的存储器或存储器模块(包括存储器861)。该程序指令可例如控制操作***和/或一个或多个应用的操作。

为了解释清楚起见，在有些情况下，可将本技术介绍为包括功能模块的个体功能模块，这些功能模块包括设备、设备部件、具化为软件或硬件与软件组合的方法中的步骤或例行程序。

在一些实施例中，计算机可读存储设备、介质和存储器可包括包含比特流等的有线或无线信号。然而，当被提及时，非暂时性计算机可读存储介质明确地排除比如能量、载波信号、电磁波和信号本身等介质。

可使用存储的或者可从计算机可读介质获得的计算机可执行指令来实施根据上述例子的方法。这样的指令可包括例如引起或者配置通用计算机、专用计算机或专用处理设备来实施一定功能或功能组的指令和数据。所使用的计算机资源的部分可在网络上访问。计算机可执行指令可以是例如二进制文件、比如汇编语言的中间格式指令、固件或源代码。可用于存储指令、使用的信息和/或在根据所述例子的方法期间创建的信息的这样的计算机可读介质的例子包括磁盘或光盘、闪存、具有非易失性存储器的USB设备、网络存储设备等。

实施根据这些公开的方法的设备可包括硬件、固件和/或软件，并可采用多种形式中的任何一种。这些形式的典型例子包括笔记本、智能手机、小型个人电脑、个人数字助理、架装式设备、单机设备等。也可在***设备或扩展卡中实施在此描述的功能。作为另一例子，也可在单个设备中执行的不同芯片或不同过程中的电路板上实施这样的功能。

指令、用于传输这样的指令的介质、用于执行它们的计算资源和其它用于支持这样的计算资源的结构是用于提供在本公开中说明的功能的装置。

本公开的声明包括：

声明1：一种用于识别音乐事件的由计算机实施的方法，所述方法包括：接收代表音乐作品的初级波形，其中，所述音乐作品包括多个音乐事件；对所述初级波形进行滤波，以生成与所述多个音乐事件关联的替代波形；以及自动分析所述替代波形，以识别所述初级波形中对应于所述多个音乐事件的时间点。

声明2：声明1的由计算机实施的方法，其中，对所述初级波形的所述滤波包括使用两个或更多个交错带通滤波器的第一滤波过程，所述第一滤波过程输出两个或更多个次级波形，以及，所述第一滤波过程包括：a)计算所述两个或更多个次级波形的采样组；b)识别超过第一预定频率范围阈值的所述采样组，其中，所述音乐事件中的每个具有不同的频率范围阈值；c)对于所述音乐事件中的每个，识别频率范围、所述两个或更多个次级波形中的哪一个以超过所述第一预定频率范围阈值的最多采样组为特点；以及d)对于所述音乐事件中的每个，基于所述两个或更多个次级波形的以超过所述第一预定频率范围阈值的所述最多采样组为特点的采样组，来识别所述音乐事件的初级清单。

声明3：声明1或2的由计算机实施的方法，其中，对所述初级波形的所述滤波还包括对所述初级波形的使用低通滤波器或重采样过程的第二滤波过程，其中，所述第二滤波输出三级波形，以及，所述第二滤波过程还包括：a)对于每个音乐事件的频率范围，计算三级波形的采样组移动平均值，以及，对于所述音乐事件中的每个，识别至少一个超过第二预定频率范围阈值的采样组移动平均值；以及b)识别音乐事件的次级清单，所述次级清单包括所述初级清单的音乐事件，其中，所述音乐事件的次级清单包括这样的音乐事件：这些音乐事件在与包括在所述初级清单中的音乐事件的时间点有关的

范围内的时间点具有超过所述第二预定频率范围阈值的采样组移动平均值。

声明4：根据前述声明1至3中任一项的由计算机实施的方法，其中，对所述初级波形的所述滤波还包括对所述初级波形实施使用高通滤波器的第三滤波，其中，所述第三滤波输出四级波形，以及，所述第三滤波包括：a)识别所述四级波形的超过第三预定第二频率范围阈值的采样组；以及b)识别音乐事件的三级清单，所述三级清单包括所述次级清单的音乐事件，其中，所述音乐事件的三级清单包括这样的音乐事件：这些音乐事件在与包括在所述次级清单中的音乐事件的时间点有关的

范围内具有超过所述第三预定频率范围阈值的所述四级波形的采样组。

声明5：根据前述声明1至4中任一项的由计算机实施的方法，其中，对所述替代波形的所述自动分析还包括识别代表所述音乐作品的所述初级波形中音乐事件数量超过预定密度阈值的这样的歌曲节段。

声明6：根据前述声明1至5中任一项的由计算机实施的方法，还包括生成命中/未命中输出文件，所述命中/未命中输出文件识别所述初级波形中音乐事件数量超过所述预定密度阈值的所述歌曲节段。

声明7：根据前述声明1至6中任一项的由计算机实施的方法，其中，所述多个音乐事件包括一个或多个底鼓和小鼓。

声明8：一种非暂时性计算机可读介质，其包括识别音乐事件的指令，所述指令在被计算***执行时引起所述计算***：接收代表音乐作品的初级波形，其中，所述音乐作品包括多个音乐事件；对所述初级波形进行滤波，以生成与所述多个音乐事件关联的替代波形；以及，自动分析所述替代波形，以识别所述初级波形中对应于所述多个音乐事件的时间点。

声明9：声明8的非暂时性计算机可读介质，其中，用于对所述初级波形的所述滤波的所述指令还包括实施使用两个或更多个交错带通滤波器的第一滤波过程，所述第一滤波过程输出两个或更多个次级波形，以及，所述第一滤波过程包括：a)计算所述两个或更多个次级波形的采样组；b)识别超过第一预定频率范围阈值的所述采样组，其中，所述音乐事件中的每个具有不同的频率范围阈值；c)对于所述音乐事件中的每个，识别频率范围、所述两个或更多个次级波形中的哪一个以超过所述第一预定频率范围阈值的最多采样组为特点；以及d)对于所述音乐事件中的每个，基于所述两个或更多个次级波形的以超过所述第一预定频率范围阈值的所述最多采样组为特点的采样组，来识别所述音乐事件的初级清单。

声明10：声明8或9的非暂时性计算机可读介质，其中，用于对所述初级波形的所述滤波的所述指令还包括对所述初级波形实施使用低通滤波器或重采样过程的第二滤波过程，其中，所述第二滤波输出三级波形，以及，所述第二滤波过程还包括：a)对于每个音乐事件的频率范围，计算三级波形的采样组移动平均值，以及，对于所述音乐事件中的每个，识别至少一个超过第二预定频率范围阈值的采样组移动平均值；以及b)识别音乐事件的次级清单，所述次级清单包括所述初级清单的音乐事件，其中，所述音乐事件的次级清单包括这样的音乐事件：这些音乐事件在与包括在所述初级清单中的音乐事件的时间点有关的

声明11：根据前述声明8至10中任一项的非暂时性计算机可读介质，其中，用于对所述初级波形的所述滤波的所述指令还包括对所述初级波形实施使用高通滤波器的第三滤波过程，其中，所述第三滤波输出四级波形，以及，所述第三滤波包括：a)识别所述四级波形的超过第三预定第二频率范围阈值的采样组；以及b)识别音乐事件的三级清单，所述三级清单包括所述次级清单的音乐事件，其中，所述音乐事件的三级清单包括这样的音乐事件：这些音乐事件在与包括在所述次级清单中的音乐事件的时间点有关的

声明12：根据前述声明8至11中任一项的非暂时性计算机可读介质，其中，用于对所述替代波形的所述自动分析的所述指令还包括识别代表所述音乐作品的所述初级波形中音乐事件数量超过预定密度阈值的这样的歌曲节段。

声明13：根据前述声明8至12中任一项的非暂时性计算机可读介质，其中，用于识别音乐事件的所述指令还包括生成命中/未命中输出文件，所述命中/未命中输出文件识别所述初级波形中音乐事件数量超过所述预定密度阈值的所述歌曲节段。

声明14：根据前述声明8至13中任一项的非暂时性计算机可读介质，其中，所述多个音乐事件包括一个或多个底鼓和小鼓。

声明15：一种用于识别音乐事件的***，所述***包括：处理器和存储指令的非暂时性计算机可读介质，所述指令在被所述***执行时引起所述***：接收代表音乐作品的初级波形，其中，所述音乐作品包括多个音乐事件；对所述初级波形进行滤波，以生成与所述多个音乐事件关联的替代波形；以及，自动分析所述替代波形，以识别所述初级波形中对应于所述多个音乐事件的时间点。

声明16：声明15的***，其中，用于对所述初级波形的所述滤波的所述指令还包括实施使用两个或更多个交错带通滤波器的第一滤波过程，所述第一滤波过程输出两个或更多个次级波形，以及，所述第一滤波过程包括：a)计算所述两个或更多个次级波形的采样组；b)识别超过第一预定频率范围阈值的所述采样组，其中，所述音乐事件中的每个具有不同的频率范围阈值；c)对于所述音乐事件中的每个，识别频率范围、所述两个或更多个次级波形中的哪一个以超过所述第一预定频率范围阈值的最多采样组为特点；以及d)对于所述音乐事件中的每个，基于所述两个或更多个次级波形的以超过所述第一预定频率范围阈值的所述最多采样组为特点的采样组，来识别所述音乐事件的初级清单。

声明17：声明15或16的***，其中，用于对所述初级波形的所述滤波的所述指令还包括对所述初级波形实施使用低通滤波器或重采样过程的第二滤波过程，其中，所述第二滤波输出三级波形，以及，所述第二滤波过程还包括：a)对于每个音乐事件的频率范围，计算三级波形的采样组移动平均值，以及，对于所述音乐事件中的每个，识别至少一个超过第二预定频率范围阈值的采样组移动平均值；以及b)识别音乐事件的次级清单，所述次级清单包括所述初级清单的音乐事件，其中，所述音乐事件的次级清单包括这样的音乐事件：这些音乐事件在与包括在所述初级清单中的音乐事件的时间点有关的

声明18：根据前述声明15至17中任一项的***，其中，用于对所述初级波形的所述滤波的所述指令还包括对所述初级波形实施使用高通滤波器的第三滤波过程，其中，所述第三滤波输出四级波形，以及，所述第三滤波包括：a)识别所述四级波形的超过第三预定第二频率范围阈值的采样组；以及b)识别音乐事件的三级清单，所述三级清单包括所述次级清单的音乐事件，其中，所述音乐事件的三级清单包括这样的音乐事件：这些音乐事件在与包括在所述次级清单中的音乐事件的时间点有关的

声明19：根据前述声明15至18中任一项的***，其中，用于对所述替代波形的所述自动分析的所述指令还包括识别代表所述音乐作品的所述初级波形中音乐事件数量超过预定密度阈值的这样的歌曲节段。

声明20：根据前述声明15至19中任一项的***，其中，用于识别音乐事件的所述指令还包括生成命中/未命中输出文件，所述命中/未命中输出文件识别所述初级波形中音乐事件数量超过所述预定密度阈值的所述歌曲节段。

声明21：根据前述声明15至20中任一项的***，其中，所述多个音乐事件包括一个或多个底鼓和小鼓。

尽管使用了多个例子和其它信息来解释所附权利要求书的范围内多个方面，但不应基于这样的例子中的具体特征或设置来暗示对权利要求书存在限制，因为本领域技术人员之一会能够使用这些例子来得出各种各样的实施方式。而且，尽管可能用了专门用于结构性特征和/或方法步骤的例子的语言来说明某个主题，但应理解，所附权利要求书中限定的主题不一定限于所说明的这些特征或行为。例如，这样的功能可以以不同的方式分布或在不同于在此所述的部件中实施。相反地，所描述的特征和步骤是作为在所述权利要求书的范围内的***部件和方法的例子而公开的。

Claims

1.一种用于识别音乐事件的由计算机实施的方法，所述方法是通过识别与音乐作品中急剧的音乐转换对应的高能量音乐事件来实施的，所述方法包括：

接收代表所述音乐作品的初级波形，其中，所述音乐作品包括多个音乐事件；

对所述初级波形进行滤波，以生成与所述多个音乐事件关联的替代波形；以及

自动分析所述替代波形，以识别所述初级波形中对应于所述多个音乐事件的时间点，

其中，所述音乐事件的所述识别基于确定该音乐事件是否具有：(1)在预定时长中发生的高于预定阈值的能量；和/或(2)集中了大部分能量的共振频率。

2.如权利要求1所述的由计算机实施的方法，其中，对所述初级波形的所述滤波包括使用两个或更多个交错带通滤波器的第一滤波过程，所述第一滤波过程输出两个或更多个次级波形，以及，所述第一滤波过程包括：

a)计算所述两个或更多个次级波形的采样组；

b)识别超过第一预定频率范围阈值的所述采样组，其中，所述音乐事件中的每个具有不同的频率范围阈值；

c)对于所述音乐事件中的每个，识别频率范围、所述两个或更多个次级波形中的哪一个以超过所述第一预定频率范围阈值的最多采样组为特点；以及

d)对于所述音乐事件中的每个，基于所述两个或更多个次级波形的以超过所述第一预定频率范围阈值的所述最多采样组为特点的采样组，来识别所述音乐事件的初级清单。

3.如权利要求2所述的由计算机实施的方法，其中，对所述初级波形的所述滤波还包括对所述初级波形的使用低通滤波器或重采样过程的第二滤波过程，其中，所述第二滤波过程输出三级波形，以及，所述第二滤波过程还包括：

a)对于每个音乐事件的频率范围，计算三级波形的采样组移动平均值，以及，对于所述音乐事件中的每个，识别至少一个超过第二预定频率范围阈值的采样组移动平均值；以及

b)识别音乐事件的次级清单，所述次级清单包括所述初级清单的音乐事件，其中，所述音乐事件的次级清单包括这样的音乐事件：这些音乐事件在与包括在所述初级清单中的音乐事件的时间点有关的

4.如权利要求3所述的由计算机实施的方法，其中，对所述初级波形的所述滤波还包括对所述初级波形实施使用高通滤波器的第三滤波过程，其中，所述第三滤波过程输出四级波形，以及，所述第三滤波过程包括：

a)识别所述四级波形的超过第三预定频率范围阈值的采样组；以及

b)识别音乐事件的三级清单，所述三级清单包括所述次级清单的音乐事件，其中，所述音乐事件的三级清单包括这样的音乐事件：这些音乐事件在与包括在所述次级清单中的音乐事件的时间点有关的

5.如权利要求1所述的由计算机实施的方法，其中，对所述替代波形的所述自动分析还包括识别代表所述音乐作品的所述初级波形中音乐事件数量超过预定密度阈值的这样的歌曲节段。

6.如权利要求5所述的由计算机实施的方法，还包括生成命中/未命中输出文件，所述命中/未命中输出文件识别所述初级波形中音乐事件数量超过所述预定密度阈值的所述歌曲节段。

7.如权利要求1所述的由计算机实施的方法，其中，所述多个音乐事件包括一个或多个底鼓和小鼓。

8.一种非暂时性计算机可读介质，其包括指令，所述指令在被计算***执行时引起所述计算***实施如权利要求1至7之一所述的方法。

9.一种用于识别音乐事件的***，所述***包括：

处理器；和

如权利要求8所述的非暂时性计算机可读介质。