CN111741233A

CN111741233A - 视频配乐方法、装置、存储介质以及电子设备

Info

Publication number: CN111741233A
Application number: CN202010687225.4A
Authority: CN
Inventors: 余自强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2020-10-02
Anticipated expiration: 2040-07-16
Also published as: CN111741233B

Abstract

本公开提供了一种视频配乐方法、装置、存储介质以及电子设备。该方法包括：获取至少两个视频素材的至少两个视频时长，并生成至少两个视频时长的视频时长集合；获取配乐音频，并对配乐音频进行鼓点检测确定配乐音频中的鼓点；根据鼓点将配乐音频划分成至少两个音频片段；获取至少两个音频片段的至少两个音频时长，并生成至少两个音频时长的音频时长集合；将视频时长集合与音频时长集合进行匹配，使得视频时长集合中的各个视频时长与音频时长集合中的各个音频时长相对应，并且根据匹配结果生成与至少两个视频素材对应的配乐视频。本公开大大减少了用户制作配乐视频的时间和难度，使得生成的配乐视频更贴近音乐节奏，配乐音频质量更高。

Description

视频配乐方法、装置、存储介质以及电子设备

技术领域

本公开涉及视频处理技术领域，具体而言，涉及一种视频配乐方法、视频配乐装置、计算机可读介质以及电子设备。

背景技术

随着互联网的发展，人们已经习惯将自行拍摄的视频通过网络进行分享。其中，卡点视频以音频节奏和视频剪辑节奏相匹配的酷炫效果成为当前最为流行的视频形式。当卡点视频中的画面和音乐有效结合时，会使观看视频的用户感受到视频中的氛围，具有身临其境的感受。

为了使视频素材贴近背景音乐的节奏，用户可以逐个调整视频素材的顺序，还可以调节视频素材的播放速度或者背景音乐的播放速度，实现对齐视频素材与背景音乐的节奏的效果。但是，逐个调整视频素材的顺序十分费时费力，加大了用户制作视频的难度，而调整播放速度的方式会使视频播放效果不自然，丧失音乐美感。

鉴于此，本领域亟需开发一种新的视频配乐方法及装置。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本申请的技术背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种视频配乐方法、视频配乐装置、计算机可读介质以及电子设备，进而至少在一定程度上克服配乐难度大和配乐效果不佳等技术问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开实施例的一个方面，提供一种视频配乐方法，该方法包括：获取至少两个视频素材的至少两个视频时长，并生成所述至少两个视频时长的视频时长集合；

获取配乐音频，并对所述配乐音频进行鼓点检测确定所述配乐音频中的鼓点；

根据所述鼓点将所述配乐音频划分成至少两个音频片段；

获取所述至少两个音频片段的至少两个音频时长，并生成所述至少两个音频时长的音频时长集合；

将所述视频时长集合与所述音频时长集合进行匹配，使得所述视频时长集合中的各个视频时长与所述音频时长集合中的各个音频时长相对应，并且根据匹配结果生成与所述至少两个视频素材对应的配乐视频。

根据本公开实施例的一个方面，提供一种视频配乐装置，该装置包括：

时长获取模块，被配置为获取至少两个视频素材的至少两个视频时长，并生成所述至少两个视频时长的视频时长集合；

鼓点检测模块，被配置为获取配乐音频，并对所述配乐音频进行鼓点检测确定所述配乐音频中的鼓点；

片段划分模块，被配置为根据所述鼓点将所述配乐音频划分成至少两个音频片段；

集合生成模块，被配置为获取所述至少两个音频片段的至少两个音频时长，并生成所述至少两个音频时长的音频时长集合；

视频生成模块，被配置为将所述视频时长集合与所述音频时长集合进行匹配，使得所述视频时长集合中的各个视频时长与所述音频时长集合中的各个音频时长相对应，并且根据匹配结果生成与所述至少两个视频素材对应的配乐视频。

在本公开的一些实施例中，基于以上技术方案，所述视频生成模块包括：素材确定子模块，被配置为在所述视频时长集合中确定目标视频时长，并根据所述目标视频时长在所述至少两个视频素材中确定目标视频素材；

片段确定子模块，被配置为根据所述目标视频时长在所述音频时长集合中确定目标音频时长，并根据所述目标音频时长在所述至少两个音频片段中确定目标音频片段；

片段对齐子模块，被配置为将所述目标视频素材与所述目标音频片段对齐，以使所述视频时长集合中的各个视频时长与所述音频时长集合中的各个音频时长相对应。

在本公开的一些实施例中，基于以上技术方案，所述片段确定子模块包括：差值计算单元，被配置为在所述音频时长集合的所述至少两个音频时长中确定第一音频时长，并计算所述目标视频时长与所述第一音频时长之间的时长差值；

小于判定单元，被配置为获取与所述时长差值对应的时长阈值，并在所述时长差值小于所述时长阈值时，确定所述第一音频时长为目标音频时长。

大于判定单元，被配置为获取与所述时长差值对应的时长阈值，并在所述时长差值大于或等于所述时长阈值时，在除所述第一音频时长之外的其他音频时长中确定第二音频时长；

时长合并单元，被配置为将所述第一音频时长和所述第二音频时长合并作为与所述目标视频时长对应的目标音频时长，其中所述第一音频时长和所述第二音频时长之和与所述目标视频时长的时长差值小于所述时长阈值。

在本公开的一些实施例中，基于以上技术方案，所述片段确定子模块包括：序列获取单元，被配置为按照所述至少两个视频时长对所述至少两个视频素材进行排序得到视频时长序列，并按照所述至少两个音频时长对所述至少两个音频片段进行排序得到音频时长序列；

顺序确定单元，被配置为确定所述目标视频时长在所述视频时长序列中的视频顺序，并根据所述视频顺序在所述音频时长序列中确定与所述目标视频时长对应的目标音频时长。

在本公开的一些实施例中，基于以上技术方案，所述大于判定单元包括：顺序获取子单元，被配置为在所述音频时长序列中确定所述第一音频时长的音频顺序，并在所述音频时长序列中确定未作为目标音频时长的其他音频时长；

时长确定子单元，被配置为根据所述音频顺序在所述其他音频时长中确定第二音频时长。

在本公开的一些实施例中，基于以上技术方案，所述片段对齐子模块包括：比值计算单元，被配置为对所述目标视频时长与所述目标音频时长进行计算得到时长比值，并获取与所述时长比值对应的比值阈值；

比值比较单元，被配置为将所述时长比值与所述比值阈值进行比较，并根据比值比较结果将所述目标音频片段与所述目标视频素材对齐。

在本公开的一些实施例中，基于以上技术方案，所述比值比较单元包括：素材裁剪子单元，被配置为若所述时长比值大于所述比值阈值，裁剪所述目标视频素材，以将所述目标音频片段与所述目标视频素材对齐；

速度调整子单元，被配置为若所述时长比值小于或等于所述比值阈值，调整所述目标视频素材的播放速度，以将所述目标音频片段与所述目标视频素材对齐。

在本公开的一些实施例中，基于以上技术方案，所述鼓点检测模块包括：音频转换子模块，被配置为对所述配乐音频进行傅里叶变换得到所述配乐音频的频谱；

频谱差分子模块，被配置为对所述频谱进行差分计算得到所述频谱的频谱通量均值；

峰值检测子模块，被配置为对所述频谱通量均值进行峰值检测，确定所述配乐音频中的鼓点。

在本公开的一些实施例中，基于以上技术方案，所述峰值检测子模块包括：参数确定单元，被配置为确定与所述频谱通量均值对应的参数，并对所述频谱通量均值与所述参数进行计算得到频谱通量阈值；

频谱比较单元，被配置为将所述频谱通量与所述频谱通量阈值进行比较，并根据频谱比较结果确定所述配乐视频中的鼓点。

在本公开的一些实施例中，基于以上技术方案，所述频谱差分子模块包括：声谱生成单元，被配置为对所述频谱进行拼接处理生成与所述频谱对应的声谱，并利用梅尔滤波器对所述声谱进行滤波处理得到梅尔频谱；

频谱计算单元，被配置为对所述梅尔频谱进行差分计算得到频谱通量，并计算所述频谱通量的平均值得到频谱通量均值。

在本公开的一些实施例中，基于以上技术方案，所述音频转换子模块包括：音频分帧单元，被配置为对所述配乐音频进行分帧处理得到音频帧；

频谱生成单元，被配置为对所述音频帧进行傅里叶变换得到与所述配乐音频对应的频谱。

根据本公开实施例的一个方面，提供一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如以上技术方案中的视频配乐方法。

根据本公开实施例的一个方面，提供一种电子设备，该电子设备包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的视频配乐方法。

在本公开实施例提供的技术方案中，通过将视频时长集合与音频时长集合进行匹配的方式，生成视频素材的配乐音频。一方面，大大减少了用户制作配乐视频的时间和难度，提升了用户制作视频的乐趣；另一方面，视频时长集合与音频时长集合的匹配效果良好，使得生成的配乐视频更贴近音乐节奏，配乐音频质量更高，提升用户后续分享视频的动力。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性地示出了应用本公开技术方案的示例性***架构示意图。

图2示意性地示出了本公开的一些实施例中视频配乐方法的步骤流程图。

图3示意性地示出了在本公开的一些实施例中对配乐音频进行鼓点检测的方法的步骤流程图。

图4示意性地示出了在本公开的一些实施例中得到配乐音频的频谱的方法的步骤流程图。

图5示意性地示出了在本公开的一些实施例中得到频谱通量均值的方法的步骤流程图。

图6示意性地示出了在本公开的一些实施例中利用三角滤波器作为梅尔滤波器的示意图。

图7示意性地示出了在本公开的一些实施例中进行峰值检测的方法的步骤流程图。

图8示意性地示出了在本公开的一些实施例中匹配视频时长集合和音频时长集合的方法的步骤流程图。

图9示意性地示出了在本公开的一些实施例中一种根据目标视频时长确定目标音频时长的方法的步骤流程图。

图10示意性地示出了在本公开的一些实施例中另一种根据目标视频时长确定目标音频时长的方法的步骤流程图。

图11示意性地示出了在本公开的一些实施例中再一种根据目标视频时长确定目标音频时长的方法的步骤流程图。

图12示意性地示出了在本公开的一些实施例中确定第二音频时长的方法的步骤流程图。

图13示意性地示出了在本公开的一些实施例中对齐目标音频片段与目标视频素材的方法的步骤流程图。

图14示意性地示出了在本公开的一些实施例中根据比值比较结果对齐目标音频片段与目标视频素材的方法的步骤流程图。

图15示意性地示出了本公开实施例在应用场景下的视频配乐方法的步骤流程图。

图16示意性地示出了本公开实施例在应用场景下的鼓点检测方法的步骤流程图。

图17示意性地示出了本公开实施例中另一张对频谱进行拼接处理得到的声谱图。

图18示意性地示出了本公开实施例中利用梅尔滤波器进行滤波处理得到的效果示意图。

图19示意性地示出了本公开实施例中得到的频谱通量均值的效果示意图。

图20示意性地示出了本公开实施例中进行峰值检测得到的鼓点位置示意图。

图21示意性地示出了本公开实施例在应用场景下对齐视频素材与音频片段的方法的步骤流程图。

图22示意性地示出了本公开实施例中音频片段与视频素材对齐的效果示意图。

图23示意性地示出了本公开实施例在应用场景下生成配乐视频的效果示意图。

图24示意性地示出了在本公开一些实施例中的视频配乐装置的结构框图。

图25示意性地示出了适于用来实现本公开实施例的电子设备的计算机***的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

基于以上方案存在的问题，本公开提供了一种视频配乐方法、视频配乐装置、计算机可读介质以及电子设备。

图1示出了应用本公开技术方案的示例性***架构示意图。

如图1所示，***架构100可以包括终端110、网络120、服务器端130。其中，终端110和服务器端130通过网络120连接。

终端110具体可以是台式终端或移动终端，移动终端具体可以是智能手机、平板电脑、笔记本电脑、智能音箱、智能手表等中的至少一种，台式终端具体可以是台式计算机，但并不局限于此；网络120可以是能够在终端110和服务器端130之间提供通信链路的各种连接类型的通信介质，例如可以是有线通信链路、无线通信链路或者光纤电缆等等，本公开在此不做特殊限定；服务器端130可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

具体地，用户通过终端110选定视频素材以及与视频素材对应的配乐音频，服务器端130可以通过网络120接收到视频素材以及与视频素材对应的配乐音频。进一步的，服务器端130可以获取视频素材的视频时长，并生成至少两个视频时长的视频时长集合；对应的，服务器端130可以根据鼓点检测得到的鼓点确定对应音频片段的音频时长，并生成至少两个音频时长的音频时长集合。然后，将视频时长集合与音频时长集合进行匹配，生成与视频素材对应的配乐音频，并发送至终端110，以供用户查看。

另外，本公开实施例中的音频配乐方法可以应用于终端，也可以应用于服务器端，本公开对此不做特殊限定。本公开实施例主要以音频配乐方法应用于服务器端130来举例说明。

下面结合具体实施方式对本公开提供的视频配乐方法、视频配乐装置、计算机可读介质以及电子设备做出详细说明。

图2示意性地示出了本公开的一些实施例中视频配乐方法的步骤流程图。如图2所示，视频配乐方法主要可以包括以下步骤：

步骤S210. 获取至少两个视频素材的至少两个视频时长，并生成至少两个视频时长的视频时长集合。

步骤S220. 获取配乐音频，并对配乐音频进行鼓点检测确定配乐音频中的鼓点。

步骤S230. 根据鼓点将配乐音频划分成至少两个音频片段。

步骤S240. 获取至少两个音频片段的至少两个音频时长，并生成至少两个音频时长的音频时长集合。

步骤S250. 将视频时长集合与音频时长集合进行匹配，使得视频时长集合中的各个视频时长与音频时长集合中的各个音频时长相对应，并且根据匹配结果生成与至少两个视频素材对应的配乐视频。

在本公开的示例性实施例中，通过将视频时长集合与音频时长集合进行匹配的方式，生成视频素材的配乐音频。一方面，大大减少了用户制作配乐视频的时间和难度，提升了用户制作视频的乐趣；另一方面，视频时长集合与音频时长集合的匹配效果良好，使得生成的配乐视频更贴近音乐节奏，配乐音频质量更高，提升用户后续分享视频的动力。

下面对视频配乐方法的各个步骤进行详细说明。

在步骤S210中，获取至少两个视频素材的至少两个视频时长，并生成至少两个视频时长的视频时长集合。

在本公开的示例性实施例中，视频素材可以是视频，也可以是图片，或者是其他待配乐或待剪辑的素材，本示例性实施例对此不做特殊限定。并且，该视频素材可以是用户选定的，也可以是接收到其他用户的，或者是经过处理生成的。视频时长可以是每个视频素材的播放时长，单位为秒、毫秒等，本示例性实施例对此不做特殊限定。

进一步的，在一一获取到至少两个视频素材对应的至少两个视频时长之后，可以根据多个视频时长生成对应的视频时长集合，亦即视频时长集合中包括多个视频时长的数值。举例而言，视频时长集合中包括“0.2、0.6、0.7、0.9、1.2和4.1”，各个数值表征视频时长，单位为秒。

在步骤S220中，获取配乐音频，并对配乐音频进行鼓点检测确定配乐音频中的鼓点。

在本公开的示例性实施例中，配乐音频可以是用户选定发送的，也可以是用户从候选音频中选择的，还可以是服务器根据用户需求在音频库中确定的，本示例性实施例对此不做特殊限定。

进一步的，对配乐视频进行鼓点检测，确定配乐音频中的鼓点。该鼓点可以是鼓上的一击或敲击声，也可以是管弦乐队中打击乐声部的节拍鼓点。

在可选的实施例中，图3示出了对配乐音频进行鼓点检测的方法的步骤流程图，如图3所示，该方法至少包括以下步骤：在步骤S310中，对配乐音频进行傅里叶变换得到配乐音频的频谱。

在对配乐音频进行傅里叶变换之前，还可以先对配乐音频进行分帧处理。

在可选的实施例中，图4示出了得到配乐音频的频谱的方法的步骤流程图，如图4所示，该方法至少包括以下步骤：在步骤S410中，对配乐音频进行分帧处理得到音频帧。

具体的，可以采用加窗的方式对配乐音频进行分帧处理。其中，在划分音频帧时，按照配乐音频每移动一个平移长度可以划分一个音频帧，且划分的音频帧的平移长度为设定的加窗宽度。

举例而言，可以以加窗宽度为1024进行分帧处理，划分出的音频帧可以是：第一个音频帧为0-1024；第二个音频帧为1025-2048；第三个音频帧为2049-3072；……；以此类推。因此，对于44.1kHZ的采样频率，1s可以采集到43个音频帧。

在步骤S420中，对音频帧进行傅里叶变换得到与配乐音频对应的频谱。

由于音频帧在时域上很难确定信号的特性，因此可以将音频帧转换为频域上的能量分布来观察。不同的能量分布代表不同音频帧的特性。

具体的，可以利用傅里叶变换实现音频帧从时域转换到频域的要求。傅里叶变换表示将满足一定条件的某个函数表示成三角函数或者它们的积分的限定组合。

在本公开中，可以利用快速傅里叶变换得到与配乐音频对应的频谱。快速傅里叶变换是一种利用计算机计算的离散傅里叶变换，具有计算量小的优越性。除此之外，也可以利用短时傅里叶变换，本示例性实施例对此不做特殊限定。

在本示例性实施例中，通过傅里叶变换可以将分帧处理得到的音频帧从时域转换到频域，得到对应的频谱，计算方式简单，并且计算量小，节约计算资源。

在步骤S320中，对频谱进行差分计算得到频谱的频谱通量均值。

在可选的实施例中，图5示出了对频谱进行差分计算的方法的步骤流程图，如图5所示，该方法至少包括以下步骤：在步骤S510中，对频谱进行拼接处理生成与频谱对应的声谱，并利用梅尔滤波器对声谱进行滤波处理得到梅尔频谱。

对频谱进行的拼接处理可以是沿时域实现的。具体的，将频谱的频谱图向左旋转90度，并根据灰度级数对旋转后的频谱图中的幅度值进行量化，进一步将量化后的幅度值用灰度级表示，生成声谱图。由此，对原本的频谱增加了时间维度，即得到与频谱对应的声谱。其中，幅度值越大，对应的灰度级越小。

该梅尔滤波器可以是梅尔滤波器组，包括多个滤波器。而滤波器的数量可以根据梅尔频率区间的划分数量确定，本示例性实施例对此不做特殊限定。

梅尔滤波器组的设置和人耳听觉模型相对应，只关注某些特定频率，允许特定频率的信号通过。梅尔滤波器可以对声谱中的冗余数据进行滤除，保证其中的有效数据，以得到对应的梅尔频谱。

在本示例性实施例中，梅尔滤波器可以采用三角滤波器，即每帧声谱中的每个数据都对应增益，将一帧中所有与增益相乘的数据相加，得到梅尔频谱。

图6示出了利用三角滤波器作为梅尔滤波器的示意图，如图6所示，当采用三角滤波器组成梅尔滤波器时，可以设定低频处滤波器密集，门限值大，高频处滤波器稀疏，门限值低。这一设定恰好符合人耳对频率越高的声音越迟钝的客观规律。

除此之外，还可以采用矩形滤波器。当分帧处理过程中，每两个连续的音频帧之间没有重叠部分时，可以采用矩形滤波器作为梅尔滤波器，保证每帧音频帧中的有效数据。

梅尔频谱是与人耳对语音信号的感知相对应的频率。人耳对语音信号中不同频率的感知在频域上不会呈线性关系。一般的，对低频的感知较高，对高频的感知较低。举例而言，两种声音信号的频率相差两倍，但是人耳对两种声音信号并不会具有相差两倍的感知。

具体的，梅尔频谱与频率的关系符合公式（1）：

（1）

其中，

表示梅尔频谱，

为频率。当频率较小时，梅尔频谱随着频率变化较快；当频率很大时，梅尔频谱上升很慢。

在步骤S520中，对梅尔频谱进行差分计算得到频谱通量，并计算频谱通量的平均值得到频谱通量均值。

为了提取配乐音频的动态特征，可以把梅尔频谱的信息压缩成可管理的一维浮点阵列。具体的，采用差值计算的方式参考公式（2）：

（2）

其中，

为第

个梅尔频谱的频谱值，

为第

个梅尔频谱中第

个频率对应的振幅，

为第

个梅尔频谱中第

个频率对应的振幅。亦即，从当前频谱中的相应频段的振幅中减去先前频谱的每个频段的振幅，并将计算得到的差值相加得到频谱通量。

鉴于仅对频谱通量的上升感兴趣，而对频谱通量的下降不感兴趣，可以将负值的频谱通量剔除。

值得说明的是，为便于后续的峰值检测，可以将得到的频谱通量再按照公式（2）进行二次差分计算，以使频谱通量的上升趋势更加突出。

当得到频谱通量之后，基本已经可以看出音频节奏，但为了后续的峰值检测，可以对频谱通量进行平均化处理。

举例而言，对于采样率为44.1kHZ的1024个窗口大小进行分帧处理，每个音频帧大约为43ms。当要得到0.5s时间跨度的频谱通量均值时，可以利用0.5/0.043=11个样本窗口计算频谱通量的平均值。亦即，对于每个频谱通量，可以选取前5个样本、后5个样本和当前样本的频谱通量，以得到当前样本的频谱通量均值。

在本示例性实施例中，对梅尔频谱进行差分计算和平均化处理可以得到频谱通量均值，使得峰值更加突出，以便于后续进行峰值检测。

在步骤S330中，对频谱通量均值进行峰值检测，确定配乐音频中的鼓点。

在可选的实施例中，图7示出了进行峰值检测的方法的步骤流程图，如图7所示，该方法至少包括以下步骤：在步骤S710中，确定与频谱通量均值对应的参数，并对频谱通量均值与参数进行计算得到频谱通量阈值。

其中，该参数可以是人为决定或者手动调整的常数。一般的，可以为1.2，也可以根据实际情况确定的其他常数，本示例性实施例对此不做特殊限定。

具体的，可以将频谱通量均值与该参数进行相乘运算，得到对应的频谱通量阈值。

在步骤S720中，将频谱通量与频谱通量阈值进行比较，并根据频谱比较结果确定配乐视频中的鼓点。

具体的比较方式可以是对频谱通量与计算得到的频谱通量阈值比较大小。

当频谱通量大于该频谱通量阈值时，可以将该频谱通量对应的采样点确定为配乐视频中的鼓点。并且，保存该鼓点的振幅和位置，以进行后续音频片段的划分。

在本示例性实施例中，根据频谱通量阈值的限定可以确定出配乐音频的鼓点，鼓点位置确定的十分准确，为后续音频片段的划分和确定提供了基础。

在步骤S230中，根据鼓点将配乐音频划分成至少两个音频片段。

在本公开的示例性实施例中，当鼓点在音频片段的起始点或者是终止点时，音频片段可以是由相邻的两个鼓点确定的配乐音频。因此，在确定配乐音频的鼓点之后，可以将相邻两个鼓点之间的配乐音频确定为一个音频片段。

除此之外，当鼓点在音频片段的中间位置时，也可以根据一个鼓点对配乐音频进行划分得到两个音频片段。因此，根据鼓点划分配乐音频的方式可以根据实际情况确定，本示例性实施例对此不做特殊限定。

在步骤S240中，获取至少两个音频片段的至少两个音频时长，并生成至少两个音频时长的音频时长集合。

在本公开的示例性实施例中，在确定音频片段之后，可以将音频片段的播放时长确定为音频时长。举例而言，音频时长可以是以秒为单位，也可以以毫秒为单位，本示例性实施例对此不做特殊限定。

进一步的，在一一获取到至少两个音频片段的至少两个音频时长之后，可以根据多个音频时长生成对应的音频时长集合，亦即音频时长集合中包括多个音频时长的数值。举例而言，音频时长集合中包括“0.2、0.2、0.3、0.6、0.6、0.6、0.9和3.3”，各个数值表征音频时长，单位为秒。

在步骤S250中，将视频时长集合与音频时长集合进行匹配，使得视频时长集合中的各个视频时长与音频时长集合中的各个音频时长相对应，并且根据匹配结果生成与至少两个视频素材对应的配乐视频。

在本公开的示例性实施例中，在得到视频时长集合和音频时长集合之后，可以将二者进行匹配，以生成对应的配乐视频。

值得说明的是，当用户希望某些视频时长集合中视频时长对应的视频素材有特定顺序时，可以将该视频素材按照该特定顺序进行冻结处理。

举例而言，该特定顺序的要求可以是片头一定为某个视频素材，或者某两个视频素材一定是组合形式等要求。冻结处理可以是在按照视频时长集合匹配音频时长集合的过程中将该视频素材剔除，并进行后续操作。当按照视频时长集合匹配音频时长集合完成后，将该视频素材***到对应位置。除此之外，也可以存在其他冻结处理的方式，本示例性实施例对此不做特殊限定。

在可选的实施例中，图8示出了匹配视频时长集合和音频时长集合的方法的步骤流程图，如图8所示，该方法至少包括以下步骤：在步骤S810中，在视频时长集合中确定目标视频时长，并根据目标视频时长在至少两个视频素材中确定目标视频素材。

当获取到视频时长集合中的视频时长时，可以从视频时长中确定出一个目标视频时长，并将该目标视频时长对应的视频素材确定为目标视频素材。

其中，确定目标视频时长的方式可以是任意选择的，也可以有顺序的选择的，或者是按照其他可实现遍历选取的方式确定的，本示例性实施例对此不做特殊限定。

举例而言，从视频时长中确定目标视频时长时，可以首先将视频时长进行排序，并按照从短到长的顺序选择目标视频时长。除此之外，也可以按照从长到短的顺序选择目标视频时长，本示例性实施例对此不做特殊限定。

在步骤S820中，根据目标视频时长在所述音频时长集合中确定目标音频时长，并根据目标音频时长在至少两个音频片段中确定目标音频片段。

在一些实施例中，该目标视频时长与目标音频时长相同或者目标视频时长与目标音频时长之间的时长差值小于预设的时长阈值。可以为视频时长集合中的各个视频时长逐个确定相应的目标音频时长，以在音频时长集合中确定与视频时长集合中的每个视频时长对应的音频时长。其中，每个视频时长与每个视频时长对应的音频时长的时长差值小于一预设阈值，并且视频时长集合中的各个视频时长所对应的音频时长不同。

在一些实施例中，当视频时长集合中某个视频时长太短以至于无法在音频时长集合中找到对应的音频时长，使得该视频时长与该视频时长对应的音频时长的时长差值小于预设阈值时或者当用户意图将视频时长集合中的两个或超过两个视频时长组合在一起播放时，可以将视频时长集合中的两个或超过两个视频时长组合成新的视频时长，以用于在音频时长集合中确定对应的音频时长，其中，两个或超过两个视频时长对应的两个或超过两个视频素材组合成新的视频素材，该新的视频时长与对应的音频时长的时长差值小于预设阈值。

类似地，当音频时长集合中某个音频时长太短以至于无法在视频时长集合中找到对应的视频时长，使得该音频时长与该音频时长对应的视频时长的时长差值小于预设阈值时或者当用户意图将音频时长集合中的两个或超过两个音频时长组合在一起播放时，可以将音频时长集合中的两个或超过两个音频时长组合成新的音频时长，以与视频时长集合中的视频时长进行匹配，从而确定与该新的音频时长对应的视频时长。其中，两个或超过两个音频时长对应的两个或超过两个音频片段组合成新的音频片段，该新的音频片段的音频时长与对应的视频时长的时长差值小于预设阈值。

图9和图10分别示出了两种确定目标音频时长的方法的步骤流程图。其中，图9可以是确定一个音频时长为目标音频时长的步骤流程图，图10是确定至少两个音频时长为目标音频时长的步骤流程图。

在可选的实施例中，图9示出了一种根据目标视频时长确定目标音频时长的方法的步骤流程图，如图9所示，该方法至少包括以下步骤：在步骤S910中，在音频时长集合的至少两个音频时长中确定第一音频时长，计算目标视频时长与第一音频时长之间的时长差值。

在确定目标视频时长之后，可以在音频时长选择一个第一音频时长与目标视频时长进行匹配。其中，选取的方式不做特殊限定。匹配之后，利用目标视频时长减去音频时长，得到时长差值。

在步骤S920中，获取与时长差值对应的时长阈值，并在时长差值小于时长阈值时，确定第一音频时长为目标音频时长。

为确定该时长差值是否满足匹配条件，可以预设一时长阈值进行判断。该时长阈值可以设置为0.2或0.3，也可以设置为其他数值，本示例性实施例对此不做特殊限定。

在得到时长差值和时长阈值之后，可以比较时长差值与时长阈值之间的大小。

当时长差值小于时长阈值时，可以确定该音频时长满足与目标视频时长的匹配条件（即该音频时长与目标视频时长对应），因此确定该音频时长为目标音频时长。

在本示例性实施例中，通过时长差值小于时长阈值的匹配条件确定目标音频时长，确定方式简单可行，实操性极强。

除此之外，在可选的实施例中，图10示出了另一种根据目标视频时长确定目标音频时长的方法的步骤流程图，如图10所示，该方法至少包括以下步骤：在步骤S1010中，在音频时长集合的至少两个音频时长中确定第一音频时长，计算目标视频时长与第一音频时长之间的时长差值。

在步骤S1020中，获取与时长差值对应的时长阈值，并在时长差值大于或等于时长阈值时，在除第一音频时长之外的其他音频时长中确定第二音频时长。

为确定该时长差值是否满足匹配条件，可以预设一与步骤S920相同的时长阈值进行判断，也可以设置为其他数值，本示例性实施例对此不做特殊限定。

当时长差值大于或等于时长阈值时，可以首先在音频时长中确定与第一音频时长相适应的第二音频时长，以进行后续的合并处理，再将合并后的音频时长确定为目标音频时长。其中，在音频时长集合中选择第二音频时长的方式不做特殊限定。

在步骤S1030中，将第一音频时长和第二音频时长合并作为与目标视频时长对应的目标音频时长，其中第一音频时长和第二音频时长之和与目标视频时长的时长差值小于时长阈值。

当选择第二音频时长之后，可以将该第二音频时长补充至之前选择的第一音频时长上，以得到目标音频时长。将第二音频时长合并至之前选择的音频时长时，可以补充至第一音频时长的前面，也可以补充到第一音频时长的后面，还可以具有其他设定的补充方式，本示例性实施例对此不做特殊限定。

值得说明的是，选择第二音频时长进行合并的过程并不是一蹴而就的，而是在选择第二音频时长之后，计算第一音频时长与第二音频时长合并后的音频时长与目标视频时长之间的时长差值是否满足时长阈值的要求。

当确定合并后的音频时长满足匹配要求时，确定该补充后的音频时长为目标音频时长；当补充后的音频时长不满足匹配要求时，继续选择其他音频时长作为第二音频时长进行合并和判断，直至选择到第一音频时长和第二音频时长之和与目标视频时长的时长差值小于时长阈值的第二音频时长。

除此之外，当所有的两个其他音频时长补充后均不满足匹配条件时，可以继续补充第三个音频时长，也可以有其他处理方式，本示例性实施例对此不做特殊限定。

在本示例性实施例中，通过时长差值大于或等于时长阈值的匹配条件确定目标音频时长，确定方式简单可行，并且后续可以在一段视频素材上对齐多个鼓点，使生成的配乐视频更加贴近音乐节奏。

除了图9和图10示出的根据目标视频时长确定目标音频时长的方式之外，还可以在视频素材组成视频时长序列和音频片段生成音频时长序列的情况下具有其他确定方式。

在可选的实施例中，图11示出了再一种根据目标视频时长确定目标音频时长的方法的步骤流程图，如图11所示，该方法至少包括以下步骤：在步骤S1110中，按照至少两个视频时长对至少两个视频素材进行排序得到视频时长序列，并按照至少两个音频时长对至少两个音频片段进行排序得到音频时长序列。

进一步的，对视频素材进行排序的方式可以是按照视频时长从短到长的顺序排列，也可以是按照从长到短的顺序进行排列，本示例性实施例对此不做特殊限定。

经过排序之后可以得到视频时长序列。举例而言，视频时长序列可以是：0.2秒的视频素材、0.6秒的视频素材、0.7秒的视频素材、0.9秒的视频素材、1.2秒的视频素材和4.1秒的视频素材。

另一方面，对音频片段进行排序的方式可以是按照音频时长从短到长的顺序确定的，也可以是按照从长到短的顺序进行排列的，本示例性实施例对此不做特殊限定。

经过排序之后，可以得到对应的音频时长序列。举例而言，音频时长序列可以是：0.2秒的音频片段、0.2秒的音频片段、0.3秒的音频片段、0.6秒的音频片段、0.6秒的音频片段、0.6秒的音频片段、0.9秒的音频频段和3.3秒的音频片段。

在步骤S1120中，确定目标视频时长在视频时长序列中的视频顺序，并根据视频顺序在音频时长序列中确定与目标视频时长对应的目标音频时长。

视频时长序列中的视频时长按照顺序排列，因此在确定目标视频时长之后，可以进一步确定目标视频时长的视频顺序。该视频顺序可以表征目标视频时长在视频时长序列中的位置。举例而言，该视频顺序可以是第1个，或者是最大顺序等方式，本示例性实施例对视频顺序的表征方式不做特殊限定。

在确定目标视频时长的视频顺序之后，可以按照同一个顺序在音频时长序列中确定目标视频时长。举例而言，当目标视频时长的视频顺序为视频时长序列中的第5个时，可以对应在音频时长序列中选择排在第5位的音频时长作为目标音频时长。除此之外，也可以有其他视频时长序列与音频时长序列的顺序的对应关系，本示例性实施例对此不做特殊限定。

在本示例性实施例中，给出了一种在视频时长序列与音频时长序列中确定目标音频时长的方式，在序列中确定的方式更为周密和严谨，确定方式更为准确高效。

值得说明的是，图9和图10中示出的确定目标音频时长的方式同时适用于图11中，亦即在音频时长序列中确定目标音频时长之后也可以通过计算目标视频时长与目标音频时长之间的时长差值确定该目标音频时长是否需要更新，确定方式与图9和图10相同，在此不再赘述。

更进一步的，在生成音频时长序列之后，也具有在音频时长序列中确定第二音频时长的方式。

在可选的实施例中，图12示出了确定第二音频时长的方法的步骤流程图，如图12所示，该方法至少包括以下步骤：在步骤S1210中，在音频时长序列中确定第一音频时长的音频顺序，并在音频时长序列中确定未作为目标音频时长的其他音频时长。

音频时长序列中的音频时长按照顺序排列，因此在确定第一音频时长之后，可以进一步确定第一音频时长的音频顺序。该音频顺序可以表征第一音频时长在音频时长序列中的位置。举例而言，该音频顺序可以是第1个，或者是最大顺序等方式，本示例性实施例对音频顺序的表征方式不做特殊限定。

将此时第一音频时长在音频时长序列中划分出来，获取除该音频时长之外的其他音频时长。并且，该其他音频时长还可以是在之前未作为目标音频时长的，亦即其他音频时长是将已经匹配有目标视频时长的所有音频时长剔除得到的。

在步骤S1220中，根据音频顺序在其他音频时长中确定第二音频时长。

具体的，可以按照其他音频时长在音频时长序列中的顺序选择第二音频时长，也可以对其他音频时长重新进行排序进行选择。无论采取原来的顺序或者新的顺序，排序方式都可以是按照其他音频时长从短到长的顺序排列。除此之外，也可以按照其他顺序排列，本示例性实施例对此不做特殊限定。

举例而言，若其他音频时长按照从短到长的顺序排列，可以首先选择最短的其他音频时长作为第二音频时长，并计算第一音频时长和第二音频时长合并后的音频时长与目标视频时长之间的时长差值是否满足时长阈值的要求。当补充后的音频时长不满足匹配要求时，继续选择第二短的第二音频时长进行合并和判断，直至选择到合并后还满足匹配要求的第二音频时长。

当确定目标音频时长之后，可以确定与该目标音频时长对应的音频片段为目标音频片段。因此，当时长差值小于时长阈值时，可以确定一段音频片段为目标音频片段；当时长差值大于或等于时长阈值时，可以确定至少两段音频片段为目标音频片段。

在步骤S830中，将目标视频素材与目标音频片段对齐，以使视频时长集合中的各个视频时长与音频时长集合中的各个音频时长相对应。

在根据目标视频时长确定目标音频时长以及与目标音频时长对应的目标音频片段的顺序之后，可以将目标音频片段与目标视频素材对齐。

举例而言，对齐的方式可以有剪辑目标视频素材或者调整目标视频素材的播放速度两种，这两种方式可以任选其一对齐，也可以同时使用，本示例性实施例对此不做特殊限定。进一步的，图13中给出一种较为优选的对齐方式。

在可选的实施例中，图13示出了对齐目标音频片段和目标视频素材的方法的步骤流程图，如图13所示，该方法至少包括以下步骤：在步骤S1310中，对目标视频时长与目标音频时长进行计算得到时长比值，并获取与时长比值对应的比值阈值。

具体的，可以利用目标音频时长除以目标视频时长得到时长比值。除此之外，也可以有其他计算方式，本示例性实施例对此不做特殊限定。

进一步的，获取与时长比值对应的比值阈值。该比值阈值可以是预先设定的，一般的，可以为0.8或0.9，也可以是其他数值，本示例性实施例对此不做特殊限定。

在步骤S1320中，将时长比值与比值阈值进行比较，并根据比值比较结果将目标音频片段与目标视频素材对齐。

在得到时长比值与比值阈值之后，可以将二者进行比较，并得到比值比较结果。

在可选的实施例中，图14示出了根据比值比较结果对齐目标音频片段与目标视频素材的方法的步骤流程图，如图14所示，该方法至少包括以下步骤：在步骤S1410中，若时长比值大于比值阈值，裁剪目标视频素材，以将目标音频片段与目标视频素材对齐。

当时长比值大于比值阈值时，可以自动裁剪目标视频素材，也可以手动裁剪目标视频素材，以使目标音频片段与目标视频素材完全对齐。

在步骤S1420中，若时长比值小于或等于比值阈值，调整目标视频素材的播放速度，以将目标音频片段与目标视频素材对齐。

当时长比值小于或等于比值阈值时，可以自动或者手动调整目标视频素材的播放速度，以使目标音频片段与目标视频素材完全对齐。其中，播放速度可以是1.5倍、2.0倍，也可以是其他倍数，本示例性实施例对此不做特殊限定。

在本示例性实施例中，根据时长比值与比值阈值的比较结果裁剪或者调整目标视频素材的播放速度，使目标音频片段与目标视频素材完全对齐，提升视频制作质量。

当视频序列时长序列中的目标视频素材与音频时长序列中的目标音频片段对齐之后，可以重复选择其他视频素材作为目标视频素材进行图8中的匹配方式以实现整个视频时长与音频时长序列的对齐。

将至少两个视频素材中的每个视频素材与每个视频素材对应的音频片段对齐，可以使每个视频素材在视频时长集合的视频时长与每个视频素材对应的音频片段在音频时长集合的音频时长相对应。

进一步的，将至少两个视频素材按照至少两个视频时长对应的音频时长的顺序与配乐音频进行拼接处理，生成与至少两个视频素材对应的配乐视频。其中，音频时长的顺序为在配乐视频中与音频时长对应的音频片段的播放顺序。

最终，在生成视频素材与配乐音频匹配且对齐的配乐视频之后，用户可以进行导出到本地或者分享给他人的操作。

其中，该配乐视频可以是卡点视频。卡点视频主要是通过很有节奏感的音乐把视频素材根据配乐音频的鼓点剪辑播放，具有炫酷效果的视频。除此之外，该配乐视频也可以是其他类型的视频，本示例性实施例对此不做特殊限定。

下面结合一具体应用场景对本公开实施例中提供的视频配乐方法做出详细说明。

图15示出了在应用场景下的视频配乐方法的步骤流程图，如图15所示，在步骤S1510中，对获取到的配乐音频进行鼓点检测，提取配乐音频的各个鼓点位置。

音频鼓点作为配乐音频节奏感的一种体现。配乐音频与视频素材节奏的一致性依赖于对配乐音频鼓点的精准提取。

具体的，图16示出了在应用场景下的鼓点检测方法的效果示意图，如图16所示，获取与视频素材对应的配乐音频，并可以看到配乐音频的初始信号的示意图，该示意图的横坐标为时间，单位可以为秒或者其他单位，本示例性实施例对此不做特殊限定。

在步骤S1610中，对配乐音频进行预处理。

具体的，可以是对配乐音频进行分帧处理得到音频帧。除此之外，还可以包括对音频帧进行傅里叶变换得到与配乐音频对应的频谱。

进一步的，将该频谱沿时域拼接起来就得到了配乐音频的声谱图。

图17示出了另一张对频谱进行拼接处理得到的声谱图，如图17所示，声谱图的横向表示时间维度，纵向表示频率维度。

在步骤S1620中，利用梅尔滤波器对声谱进行滤波处理得到梅尔频谱，并进一步进行差分计算得到频谱通量。

图18示出了利用梅尔滤波器进行滤波处理得到的效果图，如图18所示，该效果图是利用24个梅尔滤波器进行滤波得到的，因此可以得到在纵向上降成了24维的梅尔频谱图。

进一步的，利用识别函数对梅尔频谱进行差分计算和求平均值计算。该识别函数可以包括差分计算公式和平均值计算公式。

当对梅尔频谱进行差分计算之后可以得到频谱通量，更进一步，计算频谱通量的平均值得到频谱通量均值。

图19示出了频谱通量均值的效果图，如图19所示，对于采样率为44.1kHZ的1024个窗口大小进行分帧处理，每个音频帧大约为43ms。

当要得到0.5s时间跨度的频谱通量均值时，可以利用0.5/0.043=11个样本窗口计算频谱通量的平均值。亦即，对于每个频谱通量，可以选取前5个样本、后5个样本和当前样本的频谱通量，以得到当前样本的频谱通量均值。因此，得到各个样本的频谱通量均值之后可以得到均线图。

在步骤S1630中，对频谱通量均值进行峰值检测。

对计算后的频谱通量均值进行峰值检测。将频谱通量乘以对应的参数得到频谱通量阈值。因此，将所有大于该频谱通量阈值的峰值点确定为鼓点。

图20示出了峰值检测得到的鼓点位置示意图，如图20所示，当检测到鼓点之后，保存所有鼓点的幅值和位置。进一步的，得到峰值检测后的鼓点序列图。

在步骤S1520中，将视频素材与音频片段按照时长从小到大进行排序。因此，可以得到视频时长序列与音频时长序列。

值得说明的是，当用户希望某些视频时长序列中的视频素材有特定的顺序，可以将该视频素材与该顺序进行冻结处理。

举例而言，该特定顺序的要求可以是片头一定为某个视频素材，或者某两个视频素材一定是组合形式等要求。冻结处理可以是在按照视频时长序列匹配音频时长序列过程中将该视频素材剔除，并进行后续操作。当按照视频时长序列匹配音频时长序列完成后，将该视频素材***到对应顺序的位置。除此之外，也可以存在其他冻结处理的方式，本示例性实施例对此不做特殊限定。

在步骤S1530中，按序对齐视频时长序列中的视频素材和音频时长序列中的音频片段。

图21示出了在应用场景下对齐视频素材与音频片段的方法的步骤流程图，如图21所示，在步骤S2110中，对排序好的视频素材逐个匹配时长差最小的音频片段。

在步骤S2120中，利用公式（3）计算视频素材的视频时长与音频片段的音频时长之间的时长差值。具体的，公式（3）如下：

|视频素材的视频时长-音频片段的音频时长|<设定阈值（3）

在步骤S2130中，当时长差值小于时长阈值时，可以判定此时的视频时长与音频时长是否完全相等。

当视频时长与音频时长完全相等时，表明视频素材与音频片段已经对齐，无需进行后续处理；当视频时长与音频时长还未完全对齐时，可以对视频时长对应的视频素材进行裁剪或者倍速调整处理。

在步骤S2140中，当时长差值大于或等于时长阈值时，按照从小打到的顺序依次排列暂未对齐的其他音频时长。

进一步的，将其他音频时长补充至当前的音频时长上，直至组合的音频时长与当前的视频时长之间的时长差值小于时长阈值。

在步骤S1540中，当视频时长与组合后的音频时长还未完全对齐时，可以对视频时长对应的视频素材进行裁剪或者倍速调整处理。

图22示出了音频片段与视频素材对齐的效果示意图，如图22所示，确定与视频素材对齐的音频片段之后，将对应音频片段的视频素材存在差值的视频片段进行剪辑或者倍速调整，以实现完全对齐的效果。

在步骤S1550中，合成配乐视频。

根据最终对齐的视频素材与音频片段可以生成时长完整对齐的卡点视频，用户可以进行导出到本地或者分享给他人的操作。

图23示出了在应用场景下生成配乐视频的效果示意图，如图23所示，2310为音频片段与视频素材的对齐线，对齐线所在的位置为各个视频素材的起始点；2320为配乐音频的鼓点，也是音频波形图的峰值点；2330为倍速播放标识。

可以看出，各个视频素材的视频时长与配乐音频的音频时长一致，并且一个视频素材可以对齐多个音频片段的组合。除此之外，视频素材可以通过倍速播放标识2330处的控件调整视频素材的播放速度。

基于以上应用场景可知，本公开实施例提供的视频配乐方法通过将视频时长集合与音频时长集合进行匹配的方式，生成视频素材的配乐音频。一方面，大大减少了用户制作配乐视频的时间和难度，提升了用户的制作视频的乐趣；另一方面，视频时长集合与音频时长集合的匹配效果良好，使得生成的配乐视频更贴近音乐节奏，配乐音频质量更高，提高用户后续分享视频的动力。

应当注意，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

以下介绍本公开的装置实施例，可以用于执行本公开上述实施例中的视频配乐方法。对于本公开装置实施例中未披露的细节，请参照本公开上述的视频配乐方法的实施例。

图24示意性地示出了在本公开一些实施例中的视频配乐装置的结构框图。如图24所示，视频配乐装置2400主要可以包括：时长获取模块2410、鼓点检测模块2420、片段划分模块2430、集合生成模块2440和视频生成模块2450。

时长获取模块2410，被配置为获取至少两个视频素材的至少两个视频时长，并生成所述至少两个视频时长的视频时长集合；

鼓点检测模块2420，被配置为获取配乐音频，并对所述配乐音频进行鼓点检测确定所述配乐音频中的鼓点；

片段确定模块2430，被配置为根据所述鼓点将所述配乐音频划分成至少两个音频片段；

配乐排序模块2440，被配置为获取所述至少两个音频片段的至少两个音频时长，并生成所述至少两个音频时长的音频时长集合；

序列对齐模块2450，被配置为将所述视频时长集合与所述音频时长集合进行匹配，使得所述视频时长集合中的各个视频时长与所述音频时长集合中的各个音频时长相对应，并且根据匹配结果生成与所述至少两个视频素材对应的配乐视频。

在本公开的一些实施例中，视频生成模块包括：素材确定子模块，被配置为在视频时长集合中确定目标视频时长，并根据目标视频时长在至少两个视频素材中确定目标视频素材；

片段确定子模块，被配置为根据目标视频时长在音频时长集合中确定目标音频时长，并根据目标音频时长在至少两个音频片段中确定目标音频片段；

片段对齐子模块，被配置为将目标视频素材与目标音频片段对齐，以使视频时长集合中的各个视频时长与音频时长集合中的各个音频时长相对应。

在本公开的一些实施例中，片段确定子模块包括：差值计算单元，被配置为在音频时长集合的至少两个音频时长中确定第一音频时长，并计算目标视频时长与第一音频时长之间的时长差值；

小于判定单元，被配置为获取与时长差值对应的时长阈值，并在时长差值小于时长阈值时，确定第一音频时长为目标音频时长。

大于判定单元，被配置为获取与时长差值对应的时长阈值，并在时长差值大于或等于时长阈值时，在除第一音频时长之外的其他音频时长中确定第二音频时长；

时长合并单元，被配置为将第一音频时长和第二音频时长合并作为与目标视频时长对应的目标音频时长，其中第一音频时长和第二音频时长之和与目标视频时长的时长差值小于时长阈值。

在本公开的一些实施例中，片段确定子模块包括：序列获取单元，被配置为按照至少两个视频时长对至少两个视频素材进行排序得到视频时长序列，并按照至少两个音频时长对至少两个音频片段进行排序得到音频时长序列；

顺序确定单元，被配置为确定目标视频时长在视频时长序列中的视频顺序，并根据视频顺序在音频时长序列中确定与目标视频时长对应的目标音频时长。

在本公开的一些实施例中，大于判定单元包括：顺序获取子单元，被配置为在音频时长序列中确定第一音频时长的音频顺序，并在音频时长序列中确定未作为目标音频时长的其他音频时长；

时长确定子单元，被配置为根据音频顺序在其他音频时长中确定第二音频时长。

在本公开的一些实施例中，片段对齐子模块包括：比值计算单元，被配置为对目标视频时长与目标音频时长进行计算得到时长比值，并获取与时长比值对应的比值阈值；

比值比较单元，被配置为将时长比值与比值阈值进行比较，并根据比值比较结果将目标音频片段与目标视频素材对齐。

在本公开的一些实施例中，比值比较单元包括：素材裁剪子单元，被配置为若时长比值大于比值阈值，裁剪目标视频素材，以将目标音频片段与目标视频素材对齐；

速度调整子单元，被配置为若时长比值小于或等于比值阈值，调整目标视频素材的播放速度，以将目标音频片段与目标视频素材对齐。

在本公开的一些实施例中，鼓点检测模块包括：音频转换子模块，被配置为对配乐音频进行傅里叶变换得到配乐音频的频谱；

频谱差分子模块，被配置为对频谱进行差分计算得到频谱的频谱通量均值；

峰值检测子模块，被配置为对频谱通量均值进行峰值检测，确定配乐音频中的鼓点。

在本公开的一些实施例中，峰值检测子模块包括：参数确定单元，被配置为确定与频谱通量均值对应的参数，并对频谱通量均值与参数进行计算得到频谱通量阈值；

频谱比较单元，被配置为将频谱通量与频谱通量阈值进行比较，并根据频谱比较结果确定配乐视频中的鼓点。

在本公开的一些实施例中，频谱差分子模块包括：声谱生成单元，被配置为对频谱进行拼接处理生成与频谱对应的声谱，并利用梅尔滤波器对声谱进行滤波处理得到梅尔频谱；

频谱计算单元，被配置为对梅尔频谱进行差分计算得到频谱通量，并计算频谱通量的平均值得到频谱通量均值。

在本公开的一些实施例中，音频转换子模块包括：音频分帧单元，被配置为对配乐音频进行分帧处理得到音频帧；

频谱生成单元，被配置为对音频帧进行傅里叶变换得到与配乐音频对应的频谱。

本公开各实施例中提供的视频配乐装置的具体细节已经在对应的方法实施例中进行了详细的描述，因此此处不再赘述。

图25示出了适于用来实现本公开实施例的电子设备的计算机***的结构示意图。

需要说明的是，图25示出的电子设备的计算机***2500仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图25所示，计算机***2500包括中央处理单元（Central Processing Unit，CPU）2501，其可以根据存储在只读存储器（Read-Only Memory，ROM）2502中的程序或者从存储部分2508加载到随机访问存储器（Random Access Memory，RAM）2503中的程序而执行各种适当的动作和处理。在RAM 2503中，还存储有***操作所需的各种程序和数据。CPU2501、ROM 2502以及RAM 2503通过总线2504彼此相连。输入/输出（Input /Output，I/O）接口2505也连接至总线2504。

以下部件连接至I/O接口2505：包括键盘、鼠标等的输入部分2506；包括诸如阴极射线管（Cathode Ray Tube，CRT）、液晶显示器（Liquid Crystal Display，LCD）等以及扬声器等的输出部分2507；包括硬盘等的储存部分2508；以及包括诸如LAN（Local AreaNetwork，局域网）卡、调制解调器等的网络接口卡的通信部分2509。通信部分2509经由诸如因特网的网络执行通信处理。驱动器2510也根据需要连接至I/O接口2505。可拆卸介质2511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器2510上，以便于从其上读出的计算机程序根据需要被安装入存储部分2508。

特别地，根据本公开的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分2509从网络上被下载和安装，和/或从可拆卸介质2511被安装。在该计算机程序被中央处理单元（CPU）2501执行时，执行本申请的***中限定的各种功能。

需要说明的是，本公开实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（Erasable Programmable Read Only Memory，EPROM）、闪存、光纤、便携式紧凑磁盘只读存储器（Compact Disc Read-Only Memory，CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。

也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、触控终端、或者网络设备等）执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频配乐方法，其特征在于，所述方法包括：

获取至少两个视频素材的至少两个视频时长，并生成所述至少两个视频时长的视频时长集合；

根据所述鼓点将所述配乐音频划分成至少两个音频片段；

2.根据权利要求1所述的视频配乐方法，其特征在于，所述将所述视频时长集合与所述音频时长集合进行匹配，使得所述视频时长集合中的各个视频时长与所述音频时长集合中的各个音频时长相对应，包括：

在所述视频时长集合中确定目标视频时长，并根据所述目标视频时长在所述至少两个视频素材中确定目标视频素材；

根据所述目标视频时长在所述音频时长集合中确定目标音频时长，并根据所述目标音频时长在所述至少两个音频片段中确定目标音频片段；

将所述目标视频素材与所述目标音频片段对齐，以使所述视频时长集合中的各个视频时长与所述音频时长集合中的各个音频时长相对应。

3.根据权利要求2所述的视频配乐方法，其特征在于，所述根据所述目标视频时长在所述音频时长集合中确定目标音频时长，包括：

在所述音频时长集合的所述至少两个音频时长中确定第一音频时长，并计算所述目标视频时长与所述第一音频时长之间的时长差值；

获取与所述时长差值对应的时长阈值，并在所述时长差值小于所述时长阈值时，确定所述第一音频时长为目标音频时长。

4.根据权利要求2所述的视频配乐方法，其特征在于，所述根据所述目标视频时长在所述音频时长集合中确定目标音频时长，包括：

获取与所述时长差值对应的时长阈值，并在所述时长差值大于或等于所述时长阈值时，在除所述第一音频时长之外的其他音频时长中确定第二音频时长；

将所述第一音频时长和所述第二音频时长合并作为与所述目标视频时长对应的目标音频时长，其中所述第一音频时长和所述第二音频时长之和与所述目标视频时长的时长差值小于所述时长阈值。

5.根据权利要求4所述的视频配乐方法，其特征在于，所述根据所述目标视频时长在所述音频时长集合中确定目标音频时长，包括：

按照所述至少两个视频时长对所述至少两个视频素材进行排序得到视频时长序列，并按照所述至少两个音频时长对所述至少两个音频片段进行排序得到音频时长序列；

确定所述目标视频时长在所述视频时长序列中的视频顺序，并根据所述视频顺序在所述音频时长序列中确定与所述目标视频时长对应的目标音频时长。

6.根据权利要求5所述的视频配乐方法，其特征在于，所述在除所述第一音频时长之外的其他音频时长中确定第二音频时长，包括：

在所述音频时长序列中确定所述第一音频时长的音频顺序，并在所述音频时长序列中确定未作为目标音频时长的其他音频时长；

根据所述音频顺序在所述其他音频时长中确定第二音频时长。

7.根据权利要求2所述的视频配乐方法，其特征在于，所述将所述目标视频素材与所述目标音频片段对齐，包括：

对所述目标视频时长与所述目标音频时长进行计算得到时长比值，并获取与所述时长比值对应的比值阈值；

将所述时长比值与所述比值阈值进行比较，并根据比值比较结果将所述目标音频片段与所述目标视频素材对齐。

8.根据权利要求7所述的视频配乐方法，其特征在于，所述根据比值比较结果将所述目标音频片段与所述目标视频素材对齐，包括：

若所述时长比值大于所述比值阈值，裁剪所述目标视频素材，以将所述目标音频片段与所述目标视频素材对齐；

若所述时长比值小于或等于所述比值阈值，调整所述目标视频素材的播放速度，以将所述目标音频片段与所述目标视频素材对齐。

9.根据权利要求1所述的视频配乐方法，其特征在于，所述对所述配乐音频进行鼓点检测确定所述配乐音频中的鼓点，包括：

对所述配乐音频进行傅里叶变换得到所述配乐音频的频谱；

对所述频谱进行差分计算得到所述频谱的频谱通量均值；

对所述频谱通量均值进行峰值检测，确定所述配乐音频中的鼓点。

10.根据权利要求9所述的视频配乐方法，其特征在于，所述对所述频谱通量均值进行峰值检测，确定所述配乐音频中的鼓点，包括：

确定与所述频谱通量均值对应的参数，并对所述频谱通量均值与所述参数进行计算得到频谱通量阈值；

将所述频谱通量与所述频谱通量阈值进行比较，并根据频谱比较结果确定所述配乐视频中的鼓点。

11.根据权利要求9所述的视频配乐方法，其特征在于，所述对所述频谱进行差分计算得到所述频谱的频谱通量均值，包括：

对所述频谱进行拼接处理生成与所述频谱对应的声谱，并利用梅尔滤波器对所述声谱进行滤波处理得到梅尔频谱；

对所述梅尔频谱进行差分计算得到频谱通量，并计算所述频谱通量的平均值得到频谱通量均值。

12.根据权利要求9所述的视频配乐方法，其特征在于，所述对所述配乐音频进行傅里叶变换得到所述配乐音频的频谱，包括：

对所述配乐音频进行分帧处理得到音频帧；

对所述音频帧进行傅里叶变换得到与所述配乐音频对应的频谱。

13.一种视频配乐装置，其特征在于，所述装置包括：

14.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的视频配乐方法。

15.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至12中任一项所述的视频配乐方法。