CN113365147A

CN113365147A - 基于音乐卡点的视频剪辑方法、装置、设备及存储介质

Info

Publication number: CN113365147A
Application number: CN202110917027.7A
Authority: CN
Inventors: 袁微; 田思达
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2021-09-07
Anticipated expiration: 2041-08-11
Also published as: CN113365147B

Abstract

提供了一种基于音乐卡点的视频剪辑方法、装置、设备及存储介质，涉及网络媒体的视频处理领域，包括：获取待剪辑视频、背景音乐和指定标签；对待剪辑视频进行抽帧，得到多个帧序列；针对多个帧序列中的每一个帧序列，对帧序列对应的动作进行识别，以得到帧序列的动作标签；基于多个帧序列的动作标签，对待剪辑视频进行剪辑，以得到指定动作所在的多个视频片段；确定背景音乐的多个点位；将多个视频片段中的每一个视频片段与多个点位中的任意相邻点位之间的音乐进行匹配，以得到基于指定动作进行音乐卡点的视频集锦。该方法能够自动结合音乐的节奏生成指定动作的视频集锦，不仅节约了人工成本、提升了视频剪辑的效率，而且减少了人工剪辑的误差。

Description

基于音乐卡点的视频剪辑方法、装置、设备及存储介质

技术领域

本申请实施例涉及网络媒体的视频处理领域，并且更具体地，涉及基于音乐卡点的视频剪辑方法、装置、设备及存储介质。

背景技术

随着网络视频平台的快速发展，视频的内容分析和处理受到关注。其中，基于视频中的人体动作识别被应用于各个领域，为了进一步丰富指定动作视频的内容，用户可为剪辑后的指定动作的视频匹配背景音乐，从而生成基于指定动作进行音乐卡点的视频集锦。由于目前的剪辑方法中仅剪辑包含指定动作的视频，需人工为剪辑后的指定动作的视频匹配背景音乐，不能自动结合背景音乐的节奏来生成视频集锦，在实际业务场景中耗费大量的人力，剪辑效率低，而且人工剪辑过程中容易造成误差，使剪辑后的视频不够准确。

发明内容

本申请实施例提供了一种基于音乐卡点的视频剪辑方法、装置、设备及存储介质，能够自动生成基于指定动作进行音乐卡点的视频集锦，不仅节约了大量的人工剪辑成本，提高了剪辑效率，而且减少了人工剪辑的误差，进而提升了用户体验。

一方面，提供了一种基于音乐卡点的视频剪辑方法，包括：

获取待剪辑视频、背景音乐和指定标签，该指定标签用于标识指定动作；

对该待剪辑视频进行抽帧，得到多个帧序列；

针对该多个帧序列中的每一个帧序列，识别对应的动作，以得到各个该帧序列的动作标签，该多个帧序列的动作标签包括该指定标签；

基于该多个帧序列的动作标签，对该待剪辑视频进行剪辑，以得到该指定动作所在的多个视频片段；

确定该背景音乐的多个点位，该多个点位中的点位用于表征该背景音乐中待卡点节拍所在的时刻，该待卡点节拍经由机器学习模型计算得到，且与该指定动作的匹配度大于或等于预设阈值；

将该多个视频片段中的每一个视频片段与该多个点位中的任意相邻点位之间的音乐进行匹配，以得到基于该指定动作进行音乐卡点的视频集锦。

另一方面，提供了一种基于音乐卡点的视频剪辑装置，包括：

获取单元，用于获取待剪辑视频、背景音乐和指定标签，该指定标签用于标识指定动作；

抽帧单元，用于对该待剪辑视频进行抽帧，得到多个帧序列；

识别单元，用于针对该多个帧序列中的每一个帧序列，识别对应的动作，以得到各个该帧序列的动作标签，该多个帧序列的动作标签包括该指定标签；

剪辑单元，用于基于该多个帧序列的动作标签，对该待剪辑视频进行剪辑，以得到该指定动作所在的多个视频片段；

确定单元，用于确定该背景音乐的多个点位，该多个点位中的点位用于表征该背景音乐中待卡点节拍所在的时刻，该待卡点节拍经由机器学习模型计算得到，且与该指定动作的匹配度大于或等于预设阈值；

匹配单元，用于将该多个视频片段中的每一个视频片段与该多个点位中的任意相邻点位之间的音乐进行匹配，以得到基于该指定动作进行音乐卡点的视频集锦。

另一方面，本申请实施例提供了一种电子设备，包括：

处理器和存储器，该存储器用于存储计算机程序，该处理器用于调用并运行该存储器中存储的计算机程序，以执行上述基于音乐卡点的视频剪辑方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，该计算机指令被计算机设备的处理器读取并执行时，使得计算机设备执行上述基于音乐卡点的视频剪辑方法。

基于以上技术方案，通过对待剪辑视频进行抽帧，得到多个帧序列，再针对该多个帧序列中的每一个帧序列，识别对应的动作，以得到各个帧序列的动作标签，并基于该多个帧序列的动作标签，对该待剪辑视频进行剪辑，以得到该指定动作所在的多个视频片段；简言之，通过对每个帧序列的动作识别，确定每个帧序列的动作标签，再基于多个帧序列的动作标签能够自动剪辑出包含指定动作的多个视频片段。

此外，通过确定背景音乐的多个点位，并将包含指定动作的多个视频片段中的每一个视频片段与该多个点位中的任意相邻点位之间的音乐进行匹配，以得到基于该指定动作进行音乐卡点的视频集锦；简言之，通过计算背景音乐中待卡点节拍所在的时刻，并将多个视频片段中视频片段匹配至相邻点位之间的音乐，由于该待卡点节拍是经由机器学习模型计算得到，且与该指定动作的匹配度大于或等于预设阈值的节拍，因此能够将多个视频片段自动编排成具有节奏感的指定动作视频集锦。

即本申请提供的基于音乐卡点的视频剪辑方法，可以自动从待剪辑视频中分割出包含指定动作的所有视频片段，并自动计算出背景音乐的用于表征待卡点节拍的点位，再基于背景音乐的点位，将任意相邻点位之间的音乐和指定动作的所有视频片段进行匹配，以自动生成具有背景音乐卡点效果的精彩动作集锦视频；一方面，基于多个帧序列的动作标签自动从待剪辑视频中分割出包含指定动作的所有视频片段，并自动计算出背景音乐的多个点位，再基于背景音乐的多个点位和指定动作的所有视频片段进行匹配，以自动生成具有背景音乐卡点效果的精彩动作集锦视频，替代了在实际业务场景中的人工剪辑视频并匹配背景音乐，不仅能够节约大量的人工成本，而且能够提升视频剪辑的效率；另一方面，用户输入待剪辑视频、背景音乐和指定标签，可以直接获取基于指定动作进行音乐卡点的视频集锦，相比于需人工结合背景音乐的节奏来生成指定动作的视频集锦，本申请提供的方法能够在节约大量人工成本的同时，减少人工剪辑的误差，提高剪辑指定动作的视频片段的准确性，进而提升用户体验。

附图说明

图1是本申请实施例提供的基于音乐卡点的视频剪辑方法的场景示意图。

图2是本申请实施例提供的***框架的示例。

图3是本申请实施例提供的基于音乐卡点的视频剪辑方法的示意性流程图。

图4是本申请实施例提供的任意相邻点位和多个视频片段的匹配图的示例。

图5是本申请实施例提供的基于音乐卡点的视频剪辑装置的示意性框图。

图6是本申请实施例提供的电子设备的示意结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供的方案可涉及人工智能技术。

其中，人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

应理解，人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例可涉及人工智能技术中的计算机视觉(Computer Vision, CV)技术，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例提供的方案还涉及网络媒体领域中的视频处理技术。网络媒体与传统的音视频设备采用的工作方式不同，网络媒体依赖信息技术（IT）设备开发商们提供的技术和设备来传输、存储和处理音视频信号。传统的串型数字（SDI）传输方式缺乏真正意义上的网络交换特性。需要做大量的工作才可能利用SDI创建类似以太网和因特网协议（IP）所提供的部分网络功能。因此，视频行业中的网络媒体技术就应运而生。进一步的，网络媒体的视频处理技术可以包括音视频信号的传输、存储和处理过程及音视频。

此外，本申请实施例提供的方案还涉及视频动作检测技术，旨在从长视频中定位出人们感兴趣行为在时间甚至是空间上的具***置，是最为重要的视频理解任务之一，该技术可以广泛应用于视频监控、视频搜索与检索、自动驾驶、人机交互、视频内容推荐等。

更具体的，本申请涉及一种基于音乐卡点的视频剪辑方法，该方法可通过基于音乐卡点的视频剪辑装置实现。需要说明的是，本申请实施例提供的装置可集成在终端设备中，该终端设备包括但不限于智能移动电话、平板电脑和其他小型个人携带型设备，如掌上电脑（Personal Digital Assistant，PDA）、电子书（electronic book，E-book）等，本申请对此不作具体限制，当然，本申请实施例提供的装置还可集成在服务器中，服务器可以包括一个独立运行的服务器或者分布式服务器，也可以包括由多个服务器组成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器，服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

需要说明的是，本申请实施例提供的方法可以通过多种形式应用于视频智能剪辑方案中。其中，以web接口为例，对本申请实施例提供的基于指定动作进行音乐卡点的视频集锦方案的表现形式和操作步骤进行如下说明：

步骤一：用户上传一段待剪辑视频或者待剪辑视频URL、一段背景音乐或者背景音乐URL以及指定标签；

步骤二：终端设备获取待剪辑视频、背景音乐以及指定标签，并调用web接口将待剪辑视频、背景音乐以及指定标签传输给基于指定动作进行音乐卡点的视频剪辑模型；

步骤三：基于指定动作进行音乐卡点的视频剪辑模型对接收到的待剪辑视频中包含的指定标签标识的指定动作的视频片段实现自动剪辑，以得到多个视频片段；

步骤四：基于指定动作进行音乐卡点的视频剪辑模型对接收到的背景音乐自动计算出该背景音乐的多个点位，并结合步骤三中得到的多个视频片段，自动生成基于指定动作进行音乐卡点的视频集锦；

步骤五：基于指定动作进行音乐卡点的视频剪辑模型通过上述web接口以URL的形式返回基于指定动作进行音乐卡点的视频集锦给到终端设备。

下面将结合附图，以基于音乐卡点的视频剪辑装置集成在服务器中为例，对本申请实施例中的技术方案进行描述。应理解，该基于音乐卡点的视频剪辑装置也可集成在终端设备中，本申请对此不作具体限制。

图1是本申请实施例提供的基于音乐卡点的视频剪辑方法的场景100的示意图。

应理解，图1仅为本申请的示例，不应理解为对本申请的限制。

如图1所示，该场景100可包括用于用户上传待剪辑视频、背景音乐和指定标签的终端设备110、集成基于音乐卡点的视频剪辑装置的服务器130、网络120。

其中，终端设备110和服务器130通过网络120进行通信，网络120在终端设备110和服务器130之间提供通信链路的介质。

例如，用户上传待剪辑视频或待剪辑视频URL、背景音乐或者背景音乐URL以及指定标签，终端设备110获取到待剪辑视频、背景音乐以及指定标签后，通过网络120将该待剪辑视频、背景音乐以及指定标签传递给服务器130，在视频剪辑的过程中，首先，服务器130对获取的该待剪辑视频或待剪辑视频URL进行抽帧，得到多个帧序列；其次，针对该多个帧序列中的每一个帧序列，利用人体检测网络，得到该帧序列中的每一帧中的人体边界框，再基于该帧序列中的人体边界框，确定每一个人的边界框序列；并以每一个人的边界框序列为输入，利用动作识别网络，得到该帧序列的动作标签；最后，再基于多个帧序列的动作标签，对该待剪辑视频进行剪辑，以得到该指定动作所在的多个视频片段；

同时，服务器130对该背景音乐进行识别，得到该背景音乐中的多个点位，即多个待卡点节拍所在的时刻，该多个点位中的点位用于表征该背景音乐中待卡点节拍所在的时刻，该待卡点节拍经由机器学习模型计算得到，且与该指定动作的匹配度大于或等于预设阈值；服务器130得到该背景音乐中的多个点位后，将视频剪辑过程中得到的多个视频片段中的每一个视频片段与该多个点位中的任意相邻点位之间的音乐进行匹配，以得到基于该指定动作进行音乐卡点的视频集锦。

在得到基于该指定动作进行音乐卡点的视频集锦后，服务器130将该视频集锦或视频集锦的URL通过网络120反馈给终端设备110，用户可通过终端设备110查看该基于该指定动作进行音乐卡点的视频集锦。

作为一个场景，该待剪辑视频和该背景音乐是两个独立的文件，即该待剪辑视频可以是不带音乐的视频，背景音乐是独立获取的音乐；作为另一个场景，该待剪辑视频也可以是带有音乐的视频，此时，可以将带剪辑视频中的音乐提取出来作为该背景音乐。

需要说明的是，该终端设备包括任意具备丰富人机交互方式、拥有接入互联网能力、通常搭载各种操作***、具有较强处理能力的设备，该终端设备包括但不限于智能移动电话、平板电脑和其他小型个人携带型设备，如掌上电脑（Personal Digital Assistant，PDA）、电子书（electronic book，E-book）等。需要说明的是，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器，服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

应理解，图1中的终端设备、网络、和服务器的数目仅仅是示意性的，根据实际需要，可以具有任意数目的终端设备、网络和服务器。

图2是本申请实施例提供的***框架200的示例。

需要说明的是，本申请实施例提供的***框架200可以集成在服务器中，也可以集成在终端设备中，下边以集成在服务器中为例进行详细说明。

其中，该服务器可以包括一个独立运行的服务器或者分布式服务器，也可以包括由多个服务器组成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器，服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请对此不作具体限制。例如，图1所示的服务器。

如图2所示，该***框架200可包括：抽帧模块210、人体检测网络220、裁剪模块230、动作识别网络240、镜头检测模块250、点位检测网络260以及匹配模块270。

其中，抽帧模块210可用于对待剪辑视频进行抽帧，以得到多个帧序列；示例性的，对抽取的多个视频帧按固定帧数将其组合成多个帧序列（例如第1-64帧为第一个帧序列，第65-128帧为第二个帧序列，依次类推）。

人体检测网络220可用于获取抽帧模块210输出的多个帧序列，并针对该多个帧序列中的每一个帧序列，以该帧序列为输入，利用该人体检测网络220，得到该帧序列中每一帧中的人体边界框。

裁剪模块230可用于获取人体检测网络220输出的每一个帧序列中每一帧中的人体边界框，以该每一个帧序列中每一帧中的人体边界框为输入，通过裁剪模块230分别裁剪出每一个人的边界框序列。

动作识别网络240可用于获取裁剪模块230输出的每一个人的边界框序列，以该每一个人的边界框序列为输入，利用动作识别网络240，获得每一个帧序列对应的视频片段中出现的所有人的动作识别结果。例如，对待剪辑视频进行抽帧，得到3个帧序列，则第一个帧序列对应片段1，该片段1的动作识别结果可包括喝水，碰杯，即可表示为（片段1，[喝水，碰杯]）；第二个帧序列对应片段2，该片段2的动作识别结果可包括喝水，即可表示为（片段2，[喝水]）；第三个帧序列对应片段3，该片段3的动作识别结果可包括碰杯，即可表示为（片段3，[碰杯]）；其中，每一个帧序列对应的片段可以是该帧序列中的第一个帧的时间戳和最后一个帧的时间戳构建的时间范围在待剪辑视频中对应的视频片段。

镜头检测模块250可用于获取动作识别网络240输出的每一个帧序列对应的视频片段中出现的所有人的动作识别结果，以每一个帧序列对应的视频片段中出现的所有人的动作识别结果为输入，通过镜头检测模块250检测镜头变化的时刻，来精准定位指定动作所在的镜头区间，进而得到指定动作对应的多个视频片段集合。

点位检测网络260可用于以获取到的用户上传的背景音乐为输入，利用点位检测网络260，得到背景音乐的多个点位，该多个点位中的点位用于表征该背景音乐中待卡点节拍所在的时刻；例如，该多个点位可以是该背景音乐中各个强拍（downbeat）对应的时刻位置。

匹配模块270可用于获取镜头检测模块250输出的每一个帧序列对应的视频片段中出现的所有人的动作识别结果和点位检测网络260输出的背景音乐中各个点位，通过匹配模块270将该多个视频片段中的每一个视频片段与该多个点位中的任意相邻点位之间的音乐进行匹配，以得到基于指定动作进行音乐卡点的视频集锦。

需要说明的是，该人体检测网络220和动作识别网络240在训练时采用时空行为检测原子视觉动作AVA公开数据集。该数据集中的数据取自437部电影，利用电影收集各种动作的表现形式。其中，AVA公开数据集指每秒包含一帧的时空标签，画面中包含的每个人均由一个人体边界框和一个或多个动作标签进行注释。该数据集中共有211千（k）个训练视频片段和57k个验证视频片段，动作标签一共有80类。其中，动作标签可以概括为三大类：人体运动、操纵物体、交互动作。需要说明的是，该时空行为检测主要定位出与行为相关的目标（人、物体等）的空间坐标。

其中，人体检测网络220可采用快速区域卷积神经网络（Faster R-CNN）训练检测器，网络主干可使用区域切割-101-特征金字塔中间网络（ResNeXt-101-FPN）来提取图片的底层特征。人体检测网络220可基于图片网络（Image Net）或任意网络所公开的数据集中的人类关键点图像进行预训练，并在AVA数据集上微调此人体检测网络220以进行人体检测，即得到人体边界框的空间位置；其中，Image Net所公开的数据集具有很好的图片底层特征表述能力和泛化能力。

动作识别网络240可采用用于视频识别的慢快（Slowfast）网络训练多标签动作识别，该动作识别网络240可包含：（1）慢Slow路径，用于输入低帧率、高通道数，捕捉空间语义信息；（2）快Fast路径，用于输入高帧率、低通道数，以较高的时间分辨率捕捉运动信息。网络主干可使用残差网络，该动作识别网络240可在公开的数据集上进行预训练，并在AVA数据集上进行微调。

点位检测网络260可基于音乐数据集，利用两个并行的循环神经网络，分别对音乐的节拍特征与和声特征进行建模，然后将音乐的节拍特征与和声特征的激活函数输入到动态贝叶斯网络（DBN）中，该动态贝叶斯网络作为解码器，将概率值解码为点位的时间序列。

基于以上***框架，首先，通过对待剪辑视频进行抽帧，得到多个帧序列，并针对该多个帧序列中的每一个帧序列，确定每一个帧序列中的每一帧中的人体边界框，再基于每一帧中的人体边界框，裁剪出每一个人的边界框序列，其次，对该每一个人的边界框序列进行识别，以得到该帧序列的动作标签，再基于该多个帧序列的动作标签，对该待剪辑视频进行剪辑，以得到该指定动作所在的多个视频片段，最后，再通过镜头检测模块250对多个视频片段进行镜头切换检测，相当于，通过人体检测网络220、裁剪模块230以及动作识别网络240可以自动从待剪辑视频中按照镜头精准分割出包含指定动作的所有视频片段，避免剪辑后的指定动作的视频片段中混入其他动作，同时也避免了由于镜头切换带来的观感不佳。

此外，通过确定该背景音乐的多个点位，并将得到的该指定动作的多个视频片段中的每一个视频片段与该多个点位中的任意相邻点位之间的音乐进行匹配，以得到基于该指定动作进行音乐卡点的视频集锦，相当于，通过计算该背景音乐的点位，将包含指定动作的所有视频片段自动编排成具有背景音乐卡点效果的指定动作的精彩视频集锦，一方面，替代了在实际业务场景中的人工剪辑视频并匹配背景音乐，不仅节约大量的人工成本，而且提升视频剪辑的效率；另一方面，用户输入待剪辑视频、背景音乐和指定标签，可以直接获取基于指定动作进行音乐卡点的视频集锦，相比于已有方案中需人工结合背景音乐的节奏来生成指定动作的视频集锦，本申请提供的方法能够在节约大量人工成本的同时，减少人工剪辑的误差，提高剪辑指定动作的视频片段的准确性，进而提升用户体验。

为便于理解，下面对本申请实施例中的相关术语进行说明。

人体检测网络：用于检测画面中人体的空间位置的网络。

动作识别网络：用于从视频片段（可视为2D帧序列）中识别动作的网络。

镜头检测模块：用于检测镜头切换时刻的方法。

点位检测网络：用于检测该背景音乐的所有点位的网络。

图3是本申请实施例提供的基于音乐卡点的视频剪辑方法300的示意性流程图。

应理解，该基于音乐卡点的视频剪辑方法可由集成有基于音乐卡点的视频剪辑装置的终端设备执行，也可由集成有基于音乐卡点的视频剪辑装置的服务器执行，本申请对此不作具体限制，下边以由集成有基于音乐卡点的视频剪辑装置的终端设备执行为例，对本申请提供的基于音乐卡点的视频剪辑方法进行详细说明。

S301，获取待剪辑视频、背景音乐和指定标签，该指定标签用于标识指定动作；

S302，对该待剪辑视频进行抽帧，得到多个帧序列；

S303，针对该多个帧序列中的每一个帧序列，识别对应的动作，以得到各个该帧序列的动作标签，该多个帧序列的动作标签包括该指定标签；

S304，基于该多个帧序列的动作标签，对该待剪辑视频进行剪辑，以得到该指定动作所在的多个视频片段；

S305，确定该背景音乐的多个点位，该多个点位中的点位用于表征该背景音乐中待卡点节拍所在的时刻，该待卡点节拍经由机器学习模型计算得到，且与该指定动作的匹配度大于或等于预设阈值；

S306，将该多个视频片段中的每一个视频片段与该多个点位中的任意相邻点位之间的音乐进行匹配，以得到基于该指定动作进行音乐卡点的视频集锦。

例如，终端设备获取用户上传的待剪辑视频、背景音乐和指定标签后，假设该终端设备采用窗长为64的滑窗对待剪辑视频进行抽帧，并得到多个帧序列，即第1-64帧为第一个帧序列，第65-128帧为第二个帧序列，依次类推。针对该多个帧序列中的每一个帧序列，该终端设备可利用动作识别网络，对该帧序列的动作进行识别，以得到该帧序列的动作标签，并基于该多个帧序列的动作标签，在多个帧序列对应的视频片段中确定指定标签标识的指定动作对应的多个视频片段；此外，该终端设备还可基于点位检测网络对获取的背景音乐的待卡点节拍进行检测，以得到多个点位；最后将确定出的指定动作对应的多个视频片段中的每一个视频片段与上述得到的多个点位中的任意相邻点位之间的音乐进行匹配，以得到基于该指定动作进行音乐卡点的视频集锦。

例如，该匹配度可以是节拍的强度。换言之，若节拍的强度大于或等于该预设阈值，则该节拍为待卡点节拍；若该节拍的强度小于该预设阈值，则该节拍不是待卡点节拍。

再如，该匹配度可以是节拍是否为强拍的概率值。换言之，机器学习模型对节拍是否为强拍进行计算，若计算的概率值位于预设范围内，则确定该节拍为强拍；否则，确定该节拍不是强拍，即该节拍不是待卡点节拍。

此外，该机器学习模型还可以直接计算背景音乐与指定动作之间的匹配度。例如，该机器学习模型通过输入包含该背景音乐与指定动作的样本进行训练，从而能够在测试阶段输入该背景音乐时，能够输出所述背景音乐每个节拍与该指定动作的匹配度。当计算得到的匹配度大于或等于预设阈值时，该节拍所在的时刻即为待卡点节拍所在的时刻。

需要说明的是，本申请对待剪辑视频和背景音乐的具体获取方式不作具体限制。作为一个场景，该待剪辑视频和该背景音乐是两个独立的文件，即该待剪辑视频可以是不带音乐的视频，背景音乐是独立获取的音乐；作为另一个场景，该待剪辑视频也可以是带有音乐的视频，此时，可以将带剪辑视频中的音乐提取出来作为该背景音乐。

需要说明的，该动作识别网络可以是如图2***框架中的动作识别网络240，该点位检测网络可以是如图2***框架中的点位检测网络260。

在本申请的一些实施例中，S303可包括：

针对该多个帧序列中的每一个帧序列，利用人体检测网络，得到该帧序列中的每一帧中的人体边界框；

基于该帧序列中的人体边界框，确定每一个人的边界框序列；

利用动作识别网络，对该每一个人的边界框序列进行识别，以得到该帧序列的动作标签。

需要说明的是，该动作识别网络可以是如图2中的动作识别网络240。需要说明的是，人体边界框可以是一帧中用于标识一个人体的边界框；例如，一帧中包含三个用户，则该帧中包括三个人体边界框。需要说明的是，例如，该动作标签可以是传球、运球、投篮等，即一个人可能同时发生多个动作，本申请对动作标签的内容不作具体限制。

在本申请的一些实施例中，可通过将该帧序列中的时序中心的帧确定为当前帧；计算该当前帧中的第一人体边界框与该当前帧的相邻帧中的人体边界框的重叠度，该第一人体边界框为该当前帧中的任一人体边界框；若该相邻帧中存在与该第一人体边界框的重叠度大于第一预设阈值的第二人体边界框，则确定该第一人体边界框中的人和该第二人体边界框中的人为同一人，并将该相邻帧确定为新的当前帧；若该相邻帧中不存在与该第一人体边界框的重叠度大于该第一预设阈值的第二人体边界框，则将该第一人体边界框确定为该相邻帧中的、与该第一人体边界框中的人为同一人的人体边界框，并将该相邻帧确定为新的当前帧，直至该相邻帧不属于该帧序列时，将该每一个人的所有人体边界框按照时间顺序进行排序，以得到该每一个人的人体边界框序列。

换言之，通过计算该当前帧中的第一人体边界框与该当前帧的相邻帧中的人体边界框的重叠度；若该相邻帧中存在与该第一人体边界框的重叠度大于第一预设阈值的第二人体边界框，则确定该第一人体边界框中的人和该第二人体边界框中的人为同一人，并将该相邻帧重新确定为当前帧；若该相邻帧中不存在与该第一人体边界框的重叠度大于该第一预设阈值的第二人体边界框，则将该第一人体边界框确定为该相邻帧中的、与该第一人体边界框中的人为同一人的人体边界框，并将该相邻帧重新确定为当前帧；由此，不仅能够确定该当前帧和该当前帧的相邻帧中的为同一人的人体边界框，还能够确定重新确定的当前帧和该重新确定的当前帧的相邻帧中的为同一人的人体边界框，直至重新确定的当前帧的相邻帧不属于该帧序列时，将该每一个人的所有人体边界框按照时间顺序进行排序，以得到该每一个人的人体边界框序列。

在一种实现方式中，以该帧序列中的中心帧为当前帧（初始位置），针对当前帧中的每一个第一人体边界框，计算该第一人体边界框与当前帧的相邻帧中的人体边界框的交并比（loU，Intersection over Union），若相邻帧中存在与该第一人体边界框的交并比大于第一预设阈值的第二人体边界框，则确定该第一人体边界框中的人和该第二人体边界框中的人为同一人，并将该相邻帧确定为新的当前帧，若该相邻帧中不存在与该第一人体边界框的交并比大于该第一预设阈值的第二人体边界框，则相邻帧中的、与该第一人体边界框中的人为同一人的人体边界框默认和该第一人体边界框相同，直至相邻帧不属于该帧序列时，可确定出该帧序列中的每一个人的边界框序列；例如，第一预设阈值可以是90%；例如，该帧序列可以包括64帧，则该帧序列中的中心帧为第32帧，即初始位置为第32帧，相邻帧为第31帧和第33帧，即最终得到的该帧序列中的每一个人的边界框序列包括64个人体边界框。

需要说明的是，交并比用于检测相邻两帧中任意两个人体边界框的重叠度，交并比越高说明重叠度越高，反之越低。

通过将该帧序列中的时序中心的帧确定为初始位置的当前帧，相当于，考虑到帧序列的首尾帧可能没有包括帧序列中的所有人，将该帧序列中的时序中心的帧确定为初始位置的当前帧，可以确保最终得到的是该帧序列中的每一个人的人体边界框序列；此外，若相邻帧中不存在与该第一人体边界框的重叠度大于第一预设阈值的第二人体边界框时，将相邻帧中的、与该第一人体边界框中的人为同一人的人体边界框默认和该第一人体边界框相同，相当于，确保该帧序列中每一个人的边界框序列中包括的人体边界框的数量相同，能够降低后续动作识别网络的设计的复杂度。

在本申请的一些实施例中，该所有人体边界框中每一个人体边界框的宽度为该所有人体边界框中的人体边界框的宽度的最大值，该所有人体边界框中每一个人体边界框的长度为该所有人体边界框中的人体边界框的长度的最大值。

通过将每一个人的所有人体边界框中的人体边界框的宽度的最大值、长度的最大值，分别确定为所有人体边界框中每一个人体边界框的宽度、长度，能够进一步的降低后续动作识别网络的设计的复杂度。

在本申请的一些实施例中，该相邻帧包括与该当前帧相邻的前一帧和与该当前帧相邻的后一帧。

在本申请的一些实施例中，S304可包括：

在该多个帧序列的动作标签中，确定标识有该指定标签的多个第一帧序列；

基于该多个第一帧序列，对该待剪辑视频进行剪辑，以得到该多个视频片段。

换言之，基于多个帧序列的动作标签，在多个帧序列中，确定出有指定动作的多个第一帧序列，再基于该多个第一帧序列，对该待剪辑视频进行剪辑，以得到该多个视频片段。

在本申请的一些实施例中，针对该多个第一帧序列中的每一个第一帧序列，将该第一帧序列中的中心帧确定为当前帧；在该待剪辑视频中，确定该当前帧的直方图数据和与该当前帧的相邻帧的直方图数据的差值；若该差值大于第二预设阈值且该相邻帧为该当前帧的前一帧，则确定该前一帧的时间戳为该视频片段的开始时间；若该差值大于第二预设阈值且该相邻帧为该当前帧的后一帧，则确定该后一帧的时间戳为该视频片段的结束时间；若该差值小于或等于该第二预设阈值，则将该相邻帧确定为新的当前帧；若确定出该开始时间和该结束时间，基于该开始时间和该结束时间得到该视频片段。

换言之，针对该多个第一帧序列中的每一个第一帧序列，将该第一帧序列中的中心帧确定为当前帧；在该待剪辑视频中，确定该当前帧的直方图数据和与该当前帧的相邻帧的直方图数据的差值；若该差值大于第二预设阈值且该相邻帧为该当前帧的前一帧，则确定该前一帧的时间戳为该视频片段的开始时间；若该差值大于第二预设阈值且该相邻帧为该当前帧的后一帧，则确定该后一帧的时间戳为该视频片段的结束时间；若该差值小于或等于该第二预设阈值，则将该相邻帧重新确定为当前帧；由此，不仅能够确定当前帧和该当前帧的相邻帧是否发生镜头切换，还能够确定重新确定的当前帧和该重新确定的当前帧的相邻帧是否发生镜头切换，若确定出该开始时间和该结束时间，则基于该开始时间和该结束时间得到该视频片段。

示例性的，针对该多个第一帧序列中的每一个第一帧序列，从第一帧序列的中心帧（当前帧）出发，依次向前，针对当前帧与当前帧相邻的前一帧做红绿蓝RGB颜色直方图统计，并计算二者的差值，若该差值大于第二预设阈值，则认为前一帧所在的时刻发生镜头切换，将前一帧所在的时刻（前一帧的时间戳）确定为该第一帧序列中指定动作所在视频片段的开始时间，同理，依次向后，针对当前帧与当前帧相邻的后一帧做RGB颜色直方图统计，并计算二者的差值，若该差值大于第二预设阈值，则认为该后一帧所在的时刻发生镜头切换，将后一帧所在的时刻（后一帧的时间戳）确定为该第一帧序列中指定动作所在视频片段的结束时间。示例性的，该视频片段可表示为{(开始时间，结束时间)|X_n}，其中，X_n表示从该待剪辑视频中检测到的指定动作的视频片段数量，例如，指定动作为扣篮，检测出指定动作的视频片段有2个，其中第一个视频片段的时间范围为20s至20.5s，第二视频片段的时间范围为120s至121s，即指定动作的视频片段可表示为{(20s，20.5s)|X₁}、{(120s，121s)|X₂}。

在一种实现方式中，可利用开放源代码计算机视觉类库（open source computervision library，OpenCV）计算当前帧的直方图数据和与该当前帧的相邻帧的直方图数据的差值。

需要说明的是，直方图数据是用来表示数字图像中亮度分布的直方图，标绘了图像中每个亮度值的像素数，是图像中像素强度分布的图形表达方式。直方图统计了每一个强度值所具有的像素个数，直方图广泛应用于许多计算机视觉应用中，通过标记帧和帧之间显著的边缘和颜色的统计变化，来检测视频中场景的变换。

通过从每一个第一帧序列中的中心帧出发，检测镜头切换的时刻，一方面，能够在待剪辑视频中精确定位出指定动作所在的镜头区间，避免在剪辑后的视频片段中混入其他动作，出现镜头切换带来视觉上的不美观，另一方面，从每一个第一帧序列中的中心帧出发，检测镜头切换的时刻，相比于对待剪辑视频从头开始检测镜头切换的时刻，可以很大程度减少计算量，提高检测效率。

在本申请的一些实施例中，S305可包括：

确定该背景音乐的节拍特征以及和声特征，该节拍特征用于表征该背景音乐的能量幅度，该和声特征用于表征该背景音乐的谐波内容；

以该节拍特征和该和声特征为输入，利用贝叶斯网络，得到该多个点位。

需要说明的是，贝叶斯网络是一个有向无环图，它的结点表示的是一些随机变量，本申请实施例中将贝叶斯网络可作为解码器，将概率值解码为点位的时间序列。需要说明的是，点位用于表征该背景音乐中待卡点节拍所在的时刻；

在本申请的一些实施例中，计算该背景音乐对应的能量幅度谱图；利用对数滤波器组对该能量幅度谱图的能量幅度进行压缩，得到压缩后的能量幅度谱图；计算该压缩后的能量幅度谱图中的每一个预设窗口内的任意相邻两帧的能量幅度的差值；基于该任意相邻两帧的能量幅度的差值，确定该每一个预设窗口内的能量幅度的平均值；将该压缩后的能量幅度谱图中的所有预设窗口内的该平均值进行排序，得到该节拍特征。

换言之，首先，通过短时傅立叶变换STFT计算背景音乐对应的能量幅度谱图；其次，应用对数滤波器组对该能量幅度谱图的能量幅度进行压缩，得到压缩后的能量幅度谱图；最后，针对长度为∆b/np的窗口内计算任意相邻两帧的能量幅度的差值，进一步确定出∆b/np 的窗口内的能量幅度的平均值，并将该压缩后的能量幅度谱图中的所有预设窗口内的该平均值进行排序，得到该节拍特征；其中，∆b是节拍周期，np是节拍分割数。

需要说明的是，该对数滤波器可以是梅尔倒刻度滤波器。需要说明的是，短时傅立叶变换为采用滑动窗口机制，设定窗口大小和步长，让窗口在时域信号上滑动，分别计算每个窗口的傅立叶变换，形成了不同时间窗口对应的频域信号，拼接起来就成为了频率随时间变化的数据（时频信号）。

在本申请的一些实施例中，S306可包括：

确定该任意相邻点位之间的时长；

若该多个视频片段中存在时长与该任意相邻点位之间的时长相等的第一视频片段，则将该第一视频片段匹配至该任意相邻点位之间的音乐；

若该多个视频片段中不存在时长与该任意相邻点位之间的时长相等的第一视频片段，则以该多个视频片段中的第二视频片段中的第一帧为中心，对该第二视频片段进行裁剪，以得到与该任意相邻点位之间的时长相等的第三视频片段，并将该第三视频片段匹配至该任意相邻点位之间音乐；

其中，该第二视频片段的时长大于该任意相邻点位之间的时长、且最接近该任意相邻点位之间的时长。

换言之，基于确定好的任意相邻点位之间的时长，依次将获取到的多个视频片段中的时长最合适的视频片段匹配至该任意相邻点位之间的音乐，若多个视频片段中不存在时长与该任意相邻点位之间的时长相等的第一视频片段，则在多个视频片段中找到时长最合适的第二视频片段，再将该时长最合适的第二视频片段中的第一帧为中心，对该第二视频片段进行裁剪，确保该第二额视频片段时长等于该任意相邻点位之间的时长，进而获得基于该指定动作进行音乐卡点的视频集锦。其中，时长最合适指的是视频片段的时长大于或等于且最接近背景音乐的相邻点位之间的距离时长。

当然，在其他可替代实施例中，也可以基于其他方式，将该多个视频片段中的每一个视频片段与该多个点位中的任意相邻点位之间的音乐进行匹配。例如，可以按照该多个视频片段的顺序或该多个点位的顺序，将每一个视频片段与多个点位中的相邻点位进行匹配，本申请对此不作具体限定。

需要说明的是，本申请涉及的“任意相邻点位”可以理解为某一相邻的两个点位，即在匹配过程中，针对多个视频片段中的每一个视频片段，将其与该多个点位中的某一相邻的两个点位之间的音乐进行匹配。其中，不同的视频片段可匹配到不同的相邻点位之间的音乐；当然，在其他可替代实施例中，不同的视频片段也可以匹配到相同相邻点位之间的音乐，本申请对此不作具体限定。

图4是本申请实施例提供的任意相邻点位和多个视频片段的匹配图400的示例。

如图4所示，将视频片段1、视频片段2及视频片段3分别匹配至背景音乐中时长最合适的点位0和点位1之间的音乐、点位1和点位2之间的音乐、点位2和点位3之间的音乐。

在本申请的一些实施例中，该第一帧为位于该第二视频片段中的且位于第二帧序列的中心位置的帧，该第二帧序列为该多个帧序列中的用于识别该第二视频片段的动作标签的帧序列。

通过将第二帧序列的中心位置的帧确定为第一帧，相比于将第二视频片段中的中心位置的帧确定为第一帧，能够避免在裁剪第二视频片段时，将指定动作的精彩时刻裁剪掉，确保最终剪辑出指定动作的精彩集锦。

需要说明的是，在以上的描述中，所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，应理解，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，不应成为本申请的限制。

以上结合附图详细描述了本申请的优选实施方式，但是，本申请并不限于上述实施方式中的具体细节，在本申请的技术构思范围内，可以对本申请的技术方案进行多种简单变型，这些简单变型均属于本申请的保护范围。例如，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本申请对各种可能的组合方式不再另行说明。又例如，本申请的各种不同的实施方式之间也可以进行任意组合，只要其不违背本申请的思想，其同样应当视为本申请所公开的内容。

还应理解，在本申请的各种方法实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

上文对本申请实施例提供的方法进行了说明，下面对本申请实施例提供的装置进行说明。

图5是本申请实施例提供的基于音乐卡点的视频剪辑装置500的示意性框图。

如图5所示，该基于音乐卡点的视频剪辑装置500包括：

获取单元510，用于获取待剪辑视频、背景音乐和指定标签，该指定标签用于标识指定动作；

抽帧单元520，用于对该待剪辑视频进行抽帧，得到多个帧序列；

识别单元530，用于针对该多个帧序列中的每一个帧序列，识别对应的动作，以得到各个该帧序列的动作标签，该多个帧序列的动作标签包括该指定标签；

剪辑单元540，用于基于该多个帧序列的动作标签，对该待剪辑视频进行剪辑，以得到该指定动作所在的多个视频片段；

确定单元550，用于确定该背景音乐的多个点位，该多个点位中的点位用于表征该背景音乐中待卡点节拍所在的时刻，该待卡点节拍经由机器学习模型计算得到，且与该指定动作的匹配度大于或等于预设阈值；

匹配单元560，用于将该多个视频片段中的每一个视频片段与该多个点位中的任意相邻点位之间的音乐进行匹配，以得到的基于该指定动作进行音乐卡点的视频集锦。

在本申请的一些实施例中，识别单元530可具体用于：

在本申请的一些实施例中，确定单元550可具体用于：

将该帧序列中的时序中心的帧确定为当前帧；

计算该当前帧中的第一人体边界框与该当前帧的相邻帧中的人体边界框的重叠度，该第一人体边界框为该当前帧中的任一人体边界框；

若该相邻帧中存在与该第一人体边界框的重叠度大于第一预设阈值的第二人体边界框，则确定该第一人体边界框中的人和该第二人体边界框中的人为同一人，并将该相邻帧确定为新的当前帧；

若该相邻帧中不存在与该第一人体边界框的重叠度大于该第一预设阈值的第二人体边界框，则将该第一人体边界框确定为该相邻帧中的、与该第一人体边界框中的人为同一人的人体边界框，并将该相邻帧确定为新的当前帧，执行；

直至该相邻帧不属于该帧序列时，将该每一个人的所有人体边界框按照时间顺序进行排序，以得到该每一个人的人体边界框序列。

在本申请的一些实施例中，剪辑单元540可具体用于：

在本申请的一些实施例中，剪辑单元540还可具体用于：

针对该多个第一帧序列中的每一个第一帧序列，将该第一帧序列中的中心帧确定为当前帧；

在该待剪辑视频中，确定该当前帧的直方图数据和与该当前帧的相邻帧的直方图数据的差值；

若该差值大于第二预设阈值且该相邻帧为该当前帧的前一帧，则确定该前一帧的时间戳为该视频片段的开始时间；

若该差值大于第二预设阈值且该相邻帧为该当前帧的后一帧，则确定该后一帧的时间戳为该视频片段的结束时间；

若该差值小于或等于该第二预设阈值，则将该相邻帧确定为新的当前帧，执行；

若确定出该开始时间和该结束时间，基于该开始时间和该结束时间得到该视频片段。

在本申请的一些实施例中，确定单元550具体还可用于：

在本申请的一些实施例中，确定单元550具体还可用于：计算该背景音乐对应的能量幅度谱图；利用对数滤波器组对该能量幅度谱图的能量幅度进行压缩，得到压缩后的能量幅度谱图；计算该压缩后的能量幅度谱图中的每一个预设窗口内的任意相邻两帧的能量幅度的差值；基于该任意相邻两帧的能量幅度的差值，确定该每一个预设窗口内的能量幅度的平均值；将该压缩后的能量幅度谱图中的所有预设窗口内的该平均值进行排序，得到该节拍特征。

在本申请的一些实施例中，匹配单元560具体可用于：

确定该任意相邻点位之间的时长；

若该多个视频片段中不存在时长与该任意相邻点位之间的时长相等的第一视频片段，则以该多个视频片段中的第二视频片段中的第一帧为中心，对该第二视频片段进行裁剪，以得到与该任意相邻点位之间的时长相等的第三视频片段，并将该第三视频片段匹配至该任意相邻点位之间音乐；其中，该第二视频片段的时长大于该任意相邻点位之间的时长、且最接近该任意相邻点位之间的时长。

应理解，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。例如，该装置500可以对应于执行本申请实施例的方法300的相应主体，并且该装置500中的各个单元分别为了实现方法300中的相应流程，再如，该装置500可对应***框架200、中的相应模块或器件。为了简洁，在此不再赘述。

还应当理解，本申请实施例涉及的该装置500中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个（些）单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，该装置500也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。根据本申请的另一个实施例，可以通过在包括例如中央处理单元（CPU）、随机存取存储介质（RAM）、只读存储介质（ROM）等处理元件和存储元件的通用计算机的通用计算设备上运行能够执行相应方法所涉及的各步骤的计算机程序（包括程序代码），来构造本申请实施例涉及的该装置500，以及来实现本申请实施例的基于音乐卡点的视频剪辑方法。其中，计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于电子设备中，并在其中运行，来实现本申请实施例的相应方法。

换言之，上文涉及的单元可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过软硬件结合的形式实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件组合执行完成。可选地，软件可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

图6是本申请实施例提供的电子设备600的示意结构图。

如图6所示，该电子设备600至少包括处理器610以及计算机可读存储介质620。其中，处理器610以及计算机可读存储介质620可通过总线或者其它方式连接。计算机可读存储介质620用于存储计算机程序621，计算机程序621包括计算机指令，处理器610用于执行计算机可读存储介质620存储的计算机指令。处理器610是电子设备600的计算核心以及控制核心，其适于实现一条或多条计算机指令，具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。

作为示例，处理器610也可称为中央处理器（Central Processing Unit，CPU）。处理器610可以包括但不限于：通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。

作为示例，计算机可读存储介质620可以是高速RAM存储器，也可以是非不稳定的存储器（Non-VolatileMemory），例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器610的计算机可读存储介质。具体而言，计算机可读存储介质620包括但不限于：易失性存储器和/或非易失性存储器。其中，非易失性存储器可以是只读存储器（Read-Only Memory，ROM）、可编程只读存储器（Programmable ROM，PROM）、可擦除可编程只读存储器（Erasable PROM，EPROM）、电可擦除可编程只读存储器（Electrically EPROM，EEPROM）或闪存。易失性存储器可以是随机存取存储器（Random Access Memory，RAM），其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器（Static RAM，SRAM）、动态随机存取存储器（Dynamic RAM，DRAM）、同步动态随机存取存储器（Synchronous DRAM，SDRAM）、双倍数据速率同步动态随机存取存储器（Double DataRate SDRAM，DDR SDRAM）、增强型同步动态随机存取存储器（Enhanced SDRAM，ESDRAM）、同步连接动态随机存取存储器（synch link DRAM，SLDRAM）和直接内存总线随机存取存储器（Direct Rambus RAM，DR RAM）。

在一种实现方式中，该电子设备600可以是图5所示的用于基于音乐卡点的视频剪辑装置500；该计算机可读存储介质620中存储有计算机指令；由处理器610加载并执行计算机可读存储介质620中存放的计算机指令，以实现图3所示方法实施例中的相应步骤；具体实现中，计算机可读存储介质620中的计算机指令由处理器610加载并执行相应步骤，为避免重复，此处不再赘述。

根据本申请的另一方面，本申请实施例还提供了一种计算机可读存储介质（Memory），计算机可读存储介质是电子设备600中的记忆设备，用于存放程序和数据。例如，计算机可读存储介质620。可以理解的是，此处的计算机可读存储介质620既可以包括电子设备600中的内置存储介质，当然也可以包括电子设备600所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了电子设备600的操作***。并且，在该存储空间中还存放了适于被处理器610加载并执行的一条或多条的计算机指令，这些计算机指令可以是一个或多个的计算机程序621（包括程序代码）。

该电子设备600还可包括：收发器630，该收发器630可连接至该处理器610或计算机可读存储介质620。

其中，计算机可读存储介质620可以控制该收发器630与其他设备进行通信，具体地，可以向其他设备发送信息或数据，或接收其他设备发送的信息或数据。收发器630可以包括发射机和接收机。收发器630还可以进一步包括天线，天线的数量可以为一个或多个。

根据本申请的另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。例如，计算机程序621。此时，电子设备600可以是计算机，处理器610从计算机可读存储介质620读取该计算机指令，处理器610执行该计算机指令，使得该计算机执行上述各种可选方式中提供的基于音乐卡点的视频剪辑方法。

换言之，当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地运行本申请实施例的流程或实现本申请实施例的功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质进行传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（digital subscriber line，DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元以及流程步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

最后需要说明的是，以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于音乐卡点的视频剪辑方法，其特征在于，包括：

获取待剪辑视频、背景音乐和指定标签，所述指定标签用于标识指定动作；

对所述待剪辑视频进行抽帧，得到多个帧序列；

针对所述多个帧序列中的每一个帧序列，识别对应的动作，以得到各个所述帧序列的动作标签，所述多个帧序列的动作标签包括所述指定标签；

基于所述多个帧序列的动作标签，对所述待剪辑视频进行剪辑，以得到所述指定动作所在的多个视频片段；

确定所述背景音乐的多个点位，所述多个点位中的点位用于表征所述背景音乐中待卡点节拍所在的时刻，所述待卡点节拍与所述指定动作的匹配度大于或等于预设阈值；

将所述多个视频片段中的每一个视频片段与所述多个点位中的任意相邻点位之间的音乐进行匹配，以得到基于所述指定动作进行音乐卡点的视频集锦。

2.根据权利要求1所述的方法，其特征在于，所述针对所述多个帧序列中的每一个帧序列，识别对应的动作，以得到各个所述帧序列的动作标签，包括：

针对所述多个帧序列中的每一个帧序列，利用人体检测网络，得到所述帧序列中的每一帧中的人体边界框；

基于所述帧序列中的人体边界框，确定每一个人的边界框序列；

利用动作识别网络，对所述每一个人的边界框序列进行识别，以得到所述帧序列的动作标签。

3.根据权利要求2所述的方法，其特征在于，所述基于所述帧序列中的人体边界框，确定每一个人的边界框序列，包括：

将所述帧序列中的时序中心的帧确定为当前帧；

计算所述当前帧中的第一人体边界框与所述当前帧的相邻帧中的人体边界框的重叠度，所述第一人体边界框为所述当前帧中的任一人体边界框；

若所述相邻帧中存在与所述第一人体边界框的重叠度大于第一预设阈值的第二人体边界框，则确定所述第一人体边界框中的人和所述第二人体边界框中的人为同一人，并将所述相邻帧确定为新的当前帧；

若所述相邻帧中不存在与所述第一人体边界框的重叠度大于所述第一预设阈值的第二人体边界框，则将所述第一人体边界框确定为所述相邻帧中的、与所述第一人体边界框中的人为同一人的人体边界框，并将所述相邻帧确定为新的当前帧；

若所述相邻帧不属于所述帧序列时，将所述每一个人的所有人体边界框按照时间顺序进行排序，以得到所述每一个人的边界框序列。

4.根据权利要求3所述的方法，其特征在于，所述所有人体边界框中每一个人体边界框的宽度为所述所有人体边界框中的人体边界框的宽度的最大值，所述所有人体边界框中每一个人体边界框的长度为所述所有人体边界框中的人体边界框的长度的最大值。

5.根据权利要求3所述的方法，其特征在于，所述相邻帧包括与所述当前帧相邻的前一帧和与所述当前帧相邻的后一帧。

6.根据权利要求1所述的方法，其特征在于，所述基于所述多个帧序列的动作标签，对所述待剪辑视频进行剪辑，以得到所述指定动作所在的多个视频片段，包括：

在所述多个帧序列的动作标签中，确定标识有所述指定标签的多个第一帧序列；

基于所述多个第一帧序列，对所述待剪辑视频进行剪辑，以得到所述多个视频片段。

7.根据权利要求6所述的方法，其特征在于，所述基于所述多个第一帧序列，对所述待剪辑视频进行剪辑，以得到所述多个视频片段，包括：

针对所述多个第一帧序列中的每一个第一帧序列，将所述第一帧序列中的中心帧确定为当前帧；

在所述待剪辑视频中，确定所述当前帧的直方图数据和与所述当前帧的相邻帧的直方图数据的差值；

若所述差值大于第二预设阈值且所述相邻帧为所述当前帧的前一帧，则确定所述前一帧的时间戳为所述视频片段的开始时间；

若所述差值大于第二预设阈值且所述相邻帧为所述当前帧的后一帧，则确定所述后一帧的时间戳为所述视频片段的结束时间；

若所述差值小于或等于所述第二预设阈值，则将所述相邻帧确定为新的当前帧；

若确定出所述开始时间和所述结束时间，则基于所述开始时间和所述结束时间得到所述视频片段。

8.根据权利要求1所述的方法，其特征在于，所述确定所述背景音乐的多个点位，包括：

确定所述背景音乐的节拍特征以及和声特征，所述节拍特征用于表征所述背景音乐的能量幅度，所述和声特征用于表征所述背景音乐的谐波内容；

以所述节拍特征和所述和声特征为输入，利用贝叶斯网络，得到所述多个点位。

9.根据权利要求8所述的方法，其特征在于，所述确定所述背景音乐的节拍特征以及和声特征，包括：

计算所述背景音乐对应的能量幅度谱图；

利用对数滤波器组对所述能量幅度谱图的能量幅度进行压缩，得到压缩后的能量幅度谱图；

计算所述压缩后的能量幅度谱图中的每一个预设窗口内的任意相邻两帧的能量幅度的差值；

基于所述任意相邻两帧的能量幅度的差值，确定所述每一个预设窗口内的能量幅度的平均值；

将所述压缩后的能量幅度谱图中的所有预设窗口内的所述平均值进行排序，得到所述节拍特征。

10.根据权利要求1所述的方法，其特征在于，所述将所述多个视频片段中的每一个视频片段与所述多个点位中的任意相邻点位之间的音乐进行匹配，以得到基于所述指定动作进行音乐卡点的视频集锦，包括：

确定所述任意相邻点位之间的时长；

若所述多个视频片段中存在时长与所述任意相邻点位之间的时长相等的第一视频片段，则将所述第一视频片段匹配至所述任意相邻点位之间的音乐；

若所述多个视频片段中不存在时长与所述任意相邻点位之间的时长相等的第一视频片段，则以所述多个视频片段中的第二视频片段中的第一帧为中心，对所述第二视频片段进行裁剪，以得到与所述任意相邻点位之间的时长相等的第三视频片段，并将所述第三视频片段匹配至所述任意相邻点位之间音乐；

其中，所述第二视频片段的时长大于所述任意相邻点位之间的时长、且最接近所述任意相邻点位之间的时长。

11.根据权利要求10所述的方法，其特征在于，所述第一帧为位于所述第二视频片段中的且位于第二帧序列的中心位置的帧，所述第二帧序列为所述多个帧序列中的用于识别所述第二视频片段的动作标签的帧序列。

12.根据权利要求1-11任一项所述的方法，其特征在于，所述匹配度经由机器学习模型确定，其中，所述机器学习模型通过确定所述背景音乐的节拍是否为强拍来确定所述匹配度，或者直接输出所述背景音乐与指定动作之间的匹配度。

13.一种基于音乐卡点的视频剪辑装置，其特征在于，包括：

获取单元，用于获取待剪辑视频、背景音乐和指定标签，所述指定标签用于标识指定动作；

抽帧单元，用于对所述待剪辑视频进行抽帧，得到多个帧序列；

识别单元，用于针对所述多个帧序列中的每一个帧序列，识别对应的动作，以得到各个所述帧序列的动作标签，所述多个帧序列的动作标签包括所述指定标签；

剪辑单元，用于基于所述多个帧序列的动作标签，对所述待剪辑视频进行剪辑，以得到所述指定动作所在的多个视频片段；

确定单元，用于确定所述背景音乐的多个点位，所述多个点位中的点位用于表征所述背景音乐中待卡点节拍所在的时刻，所述待卡点节拍经由机器学习模型计算得到，且与所述指定动作的匹配度大于或等于预设阈值；

匹配单元，用于将所述多个视频片段中的每一个视频片段与所述多个点位中的任意相邻点位之间的音乐进行匹配，以得到的基于所述指定动作进行音乐卡点的视频集锦。

14.一种电子设备，其特征在于，包括：

处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，以执行权利要求1至12中任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序使得计算机执行如权利要求1至12中任一项所述的方法。