CN115412764A

CN115412764A - 一种视频剪辑方法、装置、设备及存储介质

Info

Publication number: CN115412764A
Application number: CN202211049587.6A
Authority: CN
Inventors: 王传鹏; 李腾飞; 卢炬康
Original assignee: Shanghai Hard Link Network Technology Co ltd
Current assignee: Shanghai Hard Link Network Technology Co ltd
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2022-11-29
Anticipated expiration: 2042-08-30
Also published as: CN115412764B

Abstract

本发明公开了一种视频剪辑方法、装置、设备及存储介质，该方法包括：获取用于介绍业务对象的原始视频数据、独立于原始视频数据的目标音频数据；在原始视频数据中提取部分片段，作为原始视频片段；在目标音频数据中检测节拍点；挑选部分原始视频片段作为目标视频片段，以使目标视频片段按照时间顺序放置在目标音频数据所处的时间轴上时、节拍点位于两个目标视频片段之间；按照时间顺序将目标视频片段合并为目标视频数据；将目标视频数据与目标音频数据打包为多媒体文件。原始视频数据具有复用性，可以制作出数量众多、内容丰富的目标视频数据，降低了工作量，缩短了制作周期，人力、时间等成本将大大减少，整体效率较高。

Description

一种视频剪辑方法、装置、设备及存储介质

技术领域

本发明涉及多媒体的技术领域，尤其涉及一种视频剪辑方法、装置、设备及存储介质。

背景技术

在推广游戏、电子产品等业务对象的场景中，常使用视频数据介绍游戏、应用等对象，视频数据以声音、画面呈现游戏、应用等对象的信息，方便用户阅读。

目前，美术人员主要使用专业的视频剪辑工具剪辑视频数据，即，视频剪辑工具加载并播放音乐，在音乐中标记合适的时间点，从录制的视频数据中按照该时间点剪辑，例如，第一个时间点是第3秒，则从录制的视频数据中剪辑长为3秒的片段，第二个时间点是第6秒，则从录制的视频数据中再剪辑出时长为3秒的片段，等等。

这种剪辑模式的工作量较大，制作周期较长，人力、时间等成本将大大增加，整体效率较低，尤其是对于游戏等业务对象，推广周期一般较短，较长的制作周期将无法满足时限性的要求，并且，这种剪辑模式主要依赖美术人员的主观判断，视频数据的画面与音乐之间的匹配性较差。

发明内容

本发明提供了一种视频剪辑方法、装置、设备及存储介质，以解决如何在推广业务对象时提高制作适配不同渠道的视频数据的效率。

根据本发明的一方面，提供了一种视频剪辑方法，包括：

获取用于介绍业务对象的原始视频数据、独立于所述原始视频数据的目标音频数据；

在所述原始视频数据中提取部分片段，作为原始视频片段；

在所述目标音频数据中检测节拍点；

挑选部分所述原始视频片段作为目标视频片段，以使所述目标视频片段按照时间顺序放置在所述目标音频数据所处的时间轴上时、所述节拍点位于两个所述目标视频片段之间；

按照时间顺序将所述目标视频片段合并为目标视频数据；

将所述目标视频数据与所述目标音频数据打包为多媒体文件。

根据本发明的另一方面，提供了一种视频剪辑装置，包括：

剪辑素材获取模块，用于获取用于介绍业务对象的原始视频数据、独立于所述原始视频数据的目标音频数据；

原始视频片段提取模块，用于在所述原始视频数据中提取部分片段，作为原始视频片段；

节拍点检测模块，用于在所述目标音频数据中检测节拍点；

目标视频片段挑选模块，用于挑选部分所述原始视频片段作为目标视频片段，以使所述目标视频片段按照时间顺序放置在所述目标音频数据所处的时间轴上时、所述节拍点位于两个所述目标视频片段之间；

目标视频数据合并模块，用于按照时间顺序将所述目标视频片段合并为目标视频数据；

多媒体文件打包模块，用于将所述目标视频数据与所述目标音频数据打包为多媒体文件。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的视频剪辑方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于使处理器执行时实现本发明任一实施例所述的视频剪辑方法。

在本实施例中，获取用于介绍业务对象的原始视频数据、独立于原始视频数据的目标音频数据；在原始视频数据中提取部分片段，作为原始视频片段；在目标音频数据中检测节拍点；挑选部分原始视频片段作为目标视频片段，以使目标视频片段按照时间顺序放置在目标音频数据所处的时间轴上时、节拍点位于两个目标视频片段之间；按照时间顺序将目标视频片段合并为目标视频数据；将目标视频数据与目标音频数据打包为多媒体文件。针对业务对象提供统一的原始视频数据，美术人员可挑选不同的目标音频数据、剪辑出原始视频片段并从中挑选出目标视频片段，原始视频数据具有复用性，可以制作出数量众多、内容丰富的目标视频数据，降低了剪辑目标视频数据的工作量，缩短了制作周期，人力、时间等成本将大大减少，整体效率较高，较短的制作周期可满足游戏等推广周期较短的业务对象对于时限性的要求，并且，在摆脱美术人员的主观判断的情况下，由于检测节拍点的精确度较高、原始视频片段的数量众多，可以提高节拍点与原始视频片段之间的匹配程度，保证目标视频数据中画面与音频的统一。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例一提供的一种视频剪辑方法的流程图；

图2是根据本发明实施例一提供的一种视频剪辑的架构图；

图3是根据本发明实施例二提供的一种视频剪辑装置的结构示意图；

图4是实现本发明实施例三提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“原始”、“候选”、“目标”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1为本发明实施例一提供的一种视频剪辑方法的流程图，本实施例可适用于挑选原情况，该方法可以由视频剪辑装置来执行，该视频剪辑装置可以采用硬件和/或软件的形式实现，该视频剪辑装置可配置于电子设备中。如图1所示，该方法包括：

步骤101、获取用于介绍业务对象的原始视频数据、独立于原始视频数据的目标音频数据。

在不同的业务场景中分布有具备该业务场景中业务特性的对象，记为业务对象，业务对象可以是实体物品，例如，手机、平板电脑、智能手表，等等，业务对象也可以为虚拟物品，多为第三方的应用程序，例如，游戏、短视频应用、购物应用，等等，本实施例对此不加以限制。

为使本领域技术人员更好地理解本发明，在本实施例中，将游戏作为业务对象的一种示例进行说明。

其中，游戏的类型可以包括MOBA(Multiplayer Online Battle Arena，多人在线战术竞技游戏)、RPG(Role-playing game，角色扮演游戏)、SLG(Simulation Game，策略类游戏)，等等，本实施例对此不加以限制。

如图2所示，针对既定的业务对象，美术人员可以预先制作一个或多个可覆盖不同渠道进行剪辑的原始视频数据210，例如，原始视频数据的时长较长，该时长大于或等于所有渠道限制的时长，针对特定的渠道进行删减，原始视频数据并未配置背景音乐，可针对特定的渠道配置背景音乐，等等，该原始视频数据的内容与业务对象相关，可用于介绍业务对象。

在具体实现中，原始视频数据的内容可以划分为游戏的内容、真实的剧情两种主要的形式，其中，游戏的内容可以为用户控制游戏的过程介绍，也可以为代言人介绍游戏，还可以是代言人穿着游戏中的服饰进行介绍，而剧情可以进一步划分为如下类别：

1、伪美食分享

原始视频数据包含一些美食类的素材，吸引起用户的注意，植入玩游戏吃美食的玩法。

2、贴近用户生活题材

原始视频数据的内容贴近用户现在的生活状态，将游戏植入到生活的方方面面，如玩游戏吃饭、买零食等。这类素材前半段主要以2人对话为主，后半段为游戏的植入片段。

3、夸张情景剧

原始视频数据包含情景剧的素材，某些剧情较为夸张，用以吸引起用户的注意。

当然，上述原始视频数据只是作为示例，在实施本实施例时，可以根据实际情况设置其它原始视频数据，本实施例对此不加以限制。另外，除了上述原始视频数据外，本领域技术人员还可以根据实际需要采用其它原始视频数据，本实施例对此也不加以限制。

在既定渠道的情况下，原始视频数据在时长、配乐等方面并不一定与该渠道适配，因而美术人员可针对该渠道对原始视频数据进行剪辑。

如图2所示，在剪辑原始视频数据210时，可以按照业务的需求获取独立于原始视频数据210的目标音频数据220。

所谓独立，可以指目标音频数据并不为原始视频数据自身携带的音频数据(如与原始视频数据中字幕数据匹配的演讲性的音频数据)，目标音频数据可以作为剪辑之后的原始视频数据的背景音乐(Background music，BGM)。

数据库中持续累积不同的音频数据，供美术人员作为制作目标视频数据的素材，可记为原始音频数据，一般情况下，目标音频数据可以由美术人员在数据库中直接挑选或重新上传，而考虑到数据库中存储的音频数据的数量较多，美术人员人工筛选目标音频数据的工作量较大，为降低美术人员人工筛选目标音频数据的工作量，本实施例可使用一些简单的条件(如渠道所在地区使用的语言等)从数据库中召回多个独立于原始视频数据的原始音频数据。

其中，原始视频数据中具有结束片段(Ending Card，EC)，结束片段用于记录与业务对象相关的信息，以游戏为例，结束片段中的画面为游戏的内容，可作为游戏的海报，在结束片段的画面中记录有游戏的名称、下载该游戏的平台的名称。

初步召回的原始视频数据的数量也远多于美术人员可承担浏览的数量，因而可以根据业务的需求设置一些较为复杂的条件进一步过滤原始视频数据。

在过滤时，可确定与发布原始视频数据的渠道适配的第一时间范围，如20秒、30秒等，在第一时间范围的基础上，对第一时间范围添加结束片段的时长，获得第二时间范围，结束片段的时长一般在6秒内。

从而筛选时长在第二时间范围内的原始音频数据，作为候选音频数据，并在界面上显示各个候选音频数据的信息(如名称、时长等)，供美术人员浏览、试听。

当在界面上接收美术人员触发的选定操作(如选中某个候选音频数据并点击确定控件)时，确定选定操作所指示的候选音频数据为目标音频数据，通过时长滤除部分原始音频数据，可大大减少原始音频数据的数量，从而减少美术人员筛选目标音频数据的工作量。

步骤102、在原始视频数据中提取部分片段，作为原始视频片段。

在本实施例中，可按照场景、精彩程度等方式对每个原始视频数据进行切片处理，得到多个片段，按照业务的规范从所有片段中筛选出部分片段，记为原始视频片段。

如果按照精彩程度对原始视频数据进行切片处理，那么，挑选出来的原始视频片段为原始视频数据中精彩程度前n(n为正整数)个片段。

在一种提取原始视频片段的方式中，可加载预先训练的摘要生成网络(AFlexibleDetect-to-Summarize Network for Video Summarization，DSNet)，摘要生成网络可将视频数据中的主要部分抽离出来生成片段，用这段片段概括视频数据的内容。

在本方式中，将原始视频数据输入摘要生成网络中、对原始视频数据中的各个片段预测表征精彩程度的精彩值，对原始视频数据中的各个片段按照精彩值顺序(即精彩值高的排序在前，精彩值低的排序在后)排序，在原始视频数据中提取精彩值从高到低排序时、前多个片段，作为原始视频片段。

步骤103、在目标音频数据中检测节拍点。

在实际应用中，目标音频数据至少包含由至少一种乐器演奏的音乐部分，例如，鼓、镲、萨克斯、提琴、钢琴、吉他，等等。如果目标音频数据仅包含由至少一种乐器演奏的音乐部分，那么目标音频数据又称之为纯音乐，如果目标音频数据既包含由至少一种乐器演奏的音乐部分，又包含用户演唱的音乐部分，那么目标音频数据又称之为歌曲。

根据音乐旋律，这些乐器在演奏时会或多或少在节奏上出现显著性的点，记为节拍点，又称节奏卡点、卡点、节奏点等。

对于众多的乐器，可以根据检测节奏卡点的技术、业务等因素，选定部分或全部乐器，作为目标乐器。

如图2所示，可以预先使用卡点识别模型对目标音频数据220检测这些目标乐器演奏时的节拍点221，得到这些目标乐器在时间、类型、强度、频率、能量等方面的属性信息，将这些属性信息记录在卡点文件中，并将该卡点文件关联目标音频数据220。

其中，卡点识别模型用于识别音频数据中节拍点的属性信息，卡点识别模型的结构不局限于机器学习模型，如SVM(support vector machine，支持向量机)等，也可以是人工设计的神经网络，还可以是通过模型量化方法优化的神经网络，通过NAS(神经网络结构搜索)方法针对音频数据中节拍点的特性搜索的神经网络，如CNN(Convolutional NeuralNetworks，卷积神经网络)、RNN(Recurrent Neural Network，循环神经网络)，等等，本实施例对此不加以限制。

在本实施例中，可以在目标音频数据中应用任一节拍点，也可以使用强度、能量等条件筛选出部分节拍点，本实施例对此不加以限制。

步骤104、挑选部分原始视频片段作为目标视频片段，以使目标视频片段按照时间顺序放置在目标音频数据所处的时间轴上时、节拍点位于两个目标视频片段之间。

如图2所示，从原始视频数据210中提取的原始视频片段的数量较多，为筛选出合适的目标视频片段211，可设置筛选的目标至少为目标视频片段211按照时间顺序放置在目标音频数据220所处的时间轴上时、节拍点221位于两个目标视频片段211之间，即，节拍点221为不同目标视频片段211之间的转场点，使得目标视频片段211与节拍点221适配。

其中，考虑到节拍点与原始视频片段一般难以严格对齐，因而节拍点位于两个目标视频片段之间可以指宽松的对齐，即，以节拍点作为基准点，向前和/或先后延伸一定的时间，得到一个时间范围，其中一个目标视频片段的起始点、另外一个目标视频片段的结束点位于该时间范围内，均可以认为节拍点位于两个目标视频片段之间。

由于目标视频片段的帧率较高，其中一个目标视频片段的起始点、另外一个目标视频片段的结束点均与节拍点存在一定的错位，这种错位较难发现，并不影响观看效果。

当然，对于存在错位的情况，可以截断其中一个目标视频片段的起始点与节拍点之间的视频数据，也可以截断另外一个目标视频片段的结束点与节拍点之间的视频数据，使得节拍点与目标视频片段严格对齐，本实施例对此不加以限制。

针对每个原始视频数据，目标视频片段并不一定连续，若存在多个原始视频数据，则每个原始视频数据内的目标视频片段的顺序遵循多个原始视频数据之间的顺序。

在本发明的一个实施例中，步骤104可以包括如下步骤：

步骤10411、至少对原始视频片段设置第一条件。

在本实施例中，对筛选目标视频片段的目标至少设置为第一条件，其中，第一条件为将原始视频片段挑选为目标视频片段时，将目标视频片段按照时间顺序放置在目标音频数据所处的时间轴上时、节拍点位于两个目标视频片段之间。

步骤10412、以目标视频片段为变量，规划目标视频片段至少满足第一条件。

步骤10413、在设定目标视频片段的数量为整数时，对目标视频片段进行求解、以挑选至少满足第一条件的原始视频片段作为目标视频片段。

在本实施例中，将筛选目标视频片段当作是一个优化问题，即规划一个最优的目标视频片段的组合，以满足第一条件，目标视频片段在规划中属于变量，若设定目标视频片段的数量为整数，而并非分数或小数，即该规划又称之为整数规划。

对于整数规划，可通过分支定界法、隔平面法、隐枚举法、匈牙利法、蒙特卡洛法等方法对变量(目标视频片段)进行求解，即分别从各个原始视频数据的原始视频片段中寻找满足第一条件的原始视频片段，作为目标视频片段。

由于目标视频片段具有不可分割的性质，筛选目标视频片段的结果为选择原始视频片段为目标视频片段、未选择原始视频片段为目标视频片段，因此，筛选目标视频片段属于分派问题，属于0-1规划的特例、运输问题的特例，应用匈牙利法求解目标视频片段的计算较为简便。

匈牙利法是针对目标要求极小问题提出来的，其基本原理是：为了实现目标极小，在系数矩阵元素C_ij≥0的条件下，如果能使矩阵具有一组处于不同行又不同列的零元素(C′_ij＝0)打上括号()，对应该元素的决策变量x_ij＝1，未打括号元素对应的决策变量x_ij＝0，那么目标函数值Z为最小(0)，这样的组合解就是最优解。

具体而言，从(c_ij)矩阵的每行(或列)减去或加上一个常数u_i(或v_j)构成新矩阵(c′_ij)，c′_ij＝c_ij±(u_i+v_j)，则对应(c′_ij)的(x_ij)最优解与原(c_ij)的最优解等价。

在本发明的另一个实施例中，步骤104可以包括如下步骤：

步骤10421、遍历查询各个原始视频片段的时长。

步骤10422、若当前原始视频片段的时长小于预设的阈值，则将当前原始视频片段合并至与当前原始视频片段相邻的原始视频片段。

在本实施例中，可以依次遍历各个原始视频片段、查询各个原始视频片段的时长，并将各个原始视频片段的时长与预设的阈值进行比较。

若遍历至某个原始视频数据，可将该原始视频数据作为当前原始视频数据，如果当前原始视频片段的时长大于或等于预设的阈值(如2秒)，表示当前原始视频片段的时长较长，则可以维持当前原始视频片段不变。

如果当前原始视频片段的时长小于预设的阈值，表示当前原始视频片段的时长较短，则可以将当前原始视频片段合并至与当前原始视频片段相邻的原始视频片段，即，将当前原始视频片段合并至与位于当前原始视频片段前一位的原始视频片段，或者，将当前原始视频片段合并至与位于当前原始视频片段后一位的原始视频片段。

在原始视频片段的时长较短时，包含的信息量较少，并不适合作为独立的目标视频片段，而与相邻的原始视频片段，在保持连续性的情况下，丰富合并之后的原始视频片段的信息量。

步骤10423、遍历查询各个原始视频片段的精彩值。

在本实施例中，在原始视频数据中提取原始视频片段时，可对各个原始视频片段计算并缓存精彩值，此时，可从缓存中遍历各个原始视频片段的精彩值，从而查询各个原始视频片段的精彩值。

步骤10424、从所有原始视频片段中选择一个原始视频片段为参考视频片段。

在本实施例中，可以根据业务的需求，从所有原始视频片段中按照某个业务规范筛选出一个原始视频片段为参考视频片段，该参考视频片段为遵循该业务规范时、原始视频数据的代表。

在一个业务规范的示例中，可以在原始视频数据的时间轴上添加窗口，该窗口具有一个较长的时间跨度，如时间跨度为原始视频数据的40％，一般情况下，该窗口添加在原始视频数据的中间位置，如30％-70％，中间的位置为原始视频数据中主要内容所在，对该窗口内的各个原始视频片段的精彩值进行比较，从而在该窗口中选择精彩值最高的原始视频片段为参考视频片段。

步骤10425、以参考视频片段作为起点，依次对其他原始视频片段的精彩值进行衰减。

在本实施例中，可以维持参考视频片段的精彩值不变，以参考视频片段作为起点，依次对位于参考视频片段两侧的、除参考视频片段之外的其他原始视频片段的精彩值进行衰减，这种方式考虑了原始视频片段在原始视频数据的时间轴上的分布，可以使得后续筛选目标视频片段时，目标视频片段在原始视频数据的时间轴上分布更加均匀。

在一个衰减的方式中，在原始视频数据的时间轴上，计算参考视频片段与其他原始视频片段之间的距离，该距离可以以参考视频片段与其他原始视频片段之间间隔的时间、参考视频片段与其他原始视频片段之间间隔的帧数、参考视频片段与其他原始视频片段之间间隔的原始视频片段的数量等方式表示。

按照距离对其他原始视频片段计算衰减系数，从而将其他原始视频片段原始的精彩值乘以衰减系数，作为衰减之后的精彩值。

其中，衰减系数与距离负相关，即，距离越远，衰减系数越小，使得衰减程度越高，反之，距离越近，衰减系数越大，使得衰减程度越低。

示例性地，若在时间轴上，其他原始视频片段位于参考视频片段的左侧，即，其他原始视频片段所处的时间比参考视频片段所处的时间小，可以通过如下公式计算衰减系数：

其中，e为自然数，α为正数，α<1，如α＝0.01，T为参考视频片段的中间时间点，Ti为其他原始视频片段的中间时间点。

若在时间轴上，其他原始视频片段位于参考视频片段的右侧，即，其他原始视频片段所处的时间比参考视频片段所处的时间大，通过如下公式计算衰减系数：

其中，e为自然数，α为正数，α<1，如α＝0.01，T为参考视频片段的中间时间点，T_i为其他原始视频片段的中间时间点。

当然，上述衰减精彩值的方式只是作为示例，在实施本实施例时，可以根据实际情况设置其它衰减精彩值的方式，本实施例对此不加以限制。另外，除了上述衰减精彩值的方式外，本领域技术人员还可以根据实际需要采用其它衰减精彩值的方式，本实施例对此也不加以限制。

步骤10426、对原始视频片段设置第一条件。

其中，第一条件为将原始视频片段挑选为目标视频片段时，将目标视频片段按照时间顺序放置在目标音频数据所处的时间轴上时、节拍点位于两个目标视频片段之间。

步骤10427、在第一条件的基础上，对原始视频片段设置第二条件和/或第三条件。

在本实施例中，除了第一条件之外，还可以对原始视频片段设置第二条件和/或第三条件。

其中，第二条件为原始视频片段被挑选为目标视频片段时，目标视频片段的时长为从长到短排序时、前多个原始视频片段的时长，即，按照原始视频片段的时长对原始视频片段顺序(即时长长的排序在前、时长短的排序在后)排序，挑选出来作目标视频片段的原始视频片段的时长，为排序前p(p为正整数)个原始视频片段的时长，第二条件可以使得目标视频片段的时长尽可能长，即，使得目标视频片段的数量尽可能少，尽可能提高目标视频片段的信息量，保持目标视频片段的内容连续性，避免过于目标视频片段零散。

第三条件为原始视频片段被挑选为目标视频片段时，目标视频片段的精彩值为从高到低排序时、前多个原始视频片段的精彩值，即，按照原始视频片段的精彩值对原始视频片段顺序(即精彩值高的排序在前，精彩值低的排序在后)排序，挑选出来作目标视频片段的原始视频片段的精彩值，为排序前q(q为正整数)个原始视频片段的精彩值，第三条件可以使得目标视频片段尽可能精彩。

步骤10428、以目标视频片段为变量，规划目标视频片段在满足第一条件的基础上，满足第二条件和/或第三条件。

步骤10429、在设定目标视频片段的数量为整数时，对目标视频片段进行求解、以挑选在满足第一条件的基础上满足第二条件和/或第三条件的原始视频片段作为目标视频片段。

在本实施例中，将筛选目标视频片段当作是一个优化问题，即规划一个最优的目标视频片段的组合，以在满足第一条件的基础上，满足第二条件和/或第三条件，目标视频片段在规划中属于变量，若设定目标视频片段的数量为整数，而并非分数或小数，即该规划又称之为整数规划。

对于整数规划，可通过分支定界法、隔平面法、隐枚举法、匈牙利法、蒙特卡洛法等方法对变量(目标视频片段)进行求解，即分别从各个原始视频数据的原始视频片段中寻找在满足第一条件的基础上，满足第二条件和/或第三条件的原始视频片段，作为目标视频片段。

由于目标视频片段具有不可风格的性质，筛选目标视频片段的结果为选择原始视频片段为目标视频片段、未选择原始视频片段为目标视频片段，因此，筛选目标视频片段属于分派问题，属于0-1规划的特例、运输问题的特例，应用匈牙利法求解目标视频片段的计算较为简便。

步骤105、按照时间顺序将目标视频片段合并为目标视频数据。

在本实施例中，如图2所示，可以按照时间顺序依次拼接各个目标视频片段211，即，将下一个目标视频片段211的开头拼接至上一个目标视频211的结尾，从而得到目标视频数据。

在本发明的一个实施例中，步骤105可以包括如下步骤：

步骤1051、在原始视频数据中提取结束片段。

步骤1052、按照时间顺序将目标视频片段、结束片段合并为目标视频数据。

在具体实现中，如图2所示，原始视频数据中具有结束片段EC 212，结束片段EC212用于记录与业务对象相关的信息。

在本实施例中，可以从原始视频数据中提取结束片段EC 212，按照时间顺序依次拼接各个目标视频片段211与结束片段212，即，将下一个目标视频片段211的开头拼接至上一个目标视频211的结尾，结束片段212拼接在所有目标视频片段211之后，从而得到目标视频数据。

在一种提取结束片段EC的方式中，可以使用场景检测算法对原始视频数据切片，将原始视频数据切分为多个场景片段，其中，场景片段中具有一个或多个独立的场景。

考虑到结束片段EC位于原始视频数据的结尾，那么，可以在位于最后一个场景片段中，以倒序的方式提取第三时间范围内的数据，作为结束片段EC，即，提取位于最后第三时间范围(如最后6秒)内的数据，作为结束片段EC。

步骤106、将目标视频数据与目标音频数据打包为多媒体文件。

在本实施例中，如图2所示，可以将目标视频数据与目标音频数据220进行打包，得到多媒体文件230。

在目标视频数据中具有与业务对象相关的信息，以游戏作为业务对象的示例，这些信息可以包括用于分发游戏的平台的LOGO(图标)、用于推广业游戏的Banner(横幅信息)、EC(结束片段)，等等。

此后，可以在指定的渠道(如新闻资讯、短视频、小说阅读、运动健康等)发布目标视频数据，以在客户端访问渠道时，将目标视频数据推送至客户端进行播放，用户在对业务对象感兴趣时，可以通过目标视频数据中的信息搜索业务对象，例如，从分发游戏的平台中搜索并下载游戏，等等。

实施例二

图3为本发明实施例三提供的一种视频剪辑装置的结构示意图。如图3所示，该装置包括：

剪辑素材获取模块301，用于获取用于介绍业务对象的原始视频数据、独立于所述原始视频数据的目标音频数据；

原始视频片段提取模块302，用于在所述原始视频数据中提取部分片段，作为原始视频片段；

节拍点检测模块303，用于在所述目标音频数据中检测节拍点；

目标视频片段挑选模块304，用于挑选部分所述原始视频片段作为目标视频片段，以使所述目标视频片段按照时间顺序放置在所述目标音频数据所处的时间轴上时、所述节拍点位于两个所述目标视频片段之间；

目标视频数据合并模块305，用于按照时间顺序将所述目标视频片段合并为目标视频数据；

多媒体文件打包模块306，用于将所述目标视频数据与所述目标音频数据打包为多媒体文件。

在本发明的一个实施例中，所述获剪辑素材获取模块301包括：

原始音频数据召回模块，用于召回多个独立于所述原始视频数据的原始音频数据，所述原始视频数据中具有结束片段，所述结束片段用于记录与所述业务对象相关的信息；

第一时间范围确定模块，用于确定与发布所述原始视频数据的渠道适配的第一时间范围；

第二时间范围生成模块，用于对所述第一时间范围添加所述结束片段的时长，获得第二时间范围；

候选音频数据筛选模块，用于筛选时长在所述第二时间范围内的所述原始音频数据，作为候选音频数据；

目标音频数据选定模块，用于当接收选定操作时，确定所述选定操作所指示的所述候选音频数据为目标音频数据。

在本发明的一个实施例中，所述原始视频片段提取模块302包括：

摘要生成网络加载模块，用于加载摘要生成网络；

精彩值输出模块，用于将所述原始视频数据输入所述摘要生成网络中、对所述原始视频数据中的各个片段预测表征精彩程度的精彩值；

原始视频片段选定模块，用于在所述原始视频数据中提取所述精彩值从高到低排序时、前多个所述片段，作为原始视频片段。

在本发明的一个实施例中，所述目标视频片段挑选模块304包括：

条件设置模块，用于至少对所述原始视频片段设置第一条件，所述第一条件为将所述原始视频片段挑选为目标视频片段时，将所述目标视频片段按照时间顺序放置在所述目标音频数据所处的时间轴上时、所述节拍点位于两个所述目标视频片段之间；

条件规划模块，用于以所述目标视频片段为变量，规划所述目标视频片段至少满足所述第一条件；

整数求解模块，用于在设定所述目标视频片段的数量为整数时，对所述目标视频片段进行求解、以挑选至少满足所述第一条件的所述原始视频片段作为所述目标视频片段。

在本发明的一个实施例中，所述目标视频片段挑选模块304还包括：

时长遍历模块，用于遍历查询各个所述原始视频片段的时长；

原始视频片段合并模块，用于若当前所述原始视频片段的时长小于预设的阈值，则将当前所述原始视频片段合并至与当前所述原始视频片段相邻的所述原始视频片段。

在本发明的一个实施例中，所述条件设置模块还用于：

对所述原始视频片段设置第一条件；

在所述第一条件的基础上，对所述原始视频片段设置第二条件和/或第三条件；

其中，所述第二条件为所述原始视频片段被挑选为目标视频片段时，所述目标视频片段的时长为从长到短排序时、前多个所述原始视频片段的时长；

所述第三条件为所述原始视频片段被挑选为目标视频片段时，所述目标视频片段的精彩值为从高到低排序时、前多个所述原始视频片段的精彩值；

所述条件规划模块还用于：

以所述目标视频片段为变量，规划所述目标视频片段在满足所述第一条件的基础上，满足所述第二条件和/或所述第三条件；

所述整数求解模块还用于：

在设定所述目标视频片段的数量为整数时，对所述目标视频片段进行求解、以挑选在满足所述第一条件的基础上满足所述第二条件和/或所述第三条件的所述原始视频片段作为所述目标视频片段。

精彩值遍历模块，用于遍历查询各个所述原始视频片段的精彩值；

参考视频片段选择模块，用于从所有所述原始视频片段中选择一个所述原始视频片段为参考视频片段；

精彩值衰减模块，用于以所述参考视频片段作为起点，依次对其他所述原始视频片段的精彩值进行衰减。

在本发明的一个实施例中，所述参考视频片段选择模块包括：

窗口添加模块，用于在所述原始视频数据的时间轴上添加窗口；

极值挑选模块，用于在所述窗口中选择精彩值最高的所述原始视频片段为参考视频片段。

在本发明的一个实施例中，所述精彩值衰减模块包括：

距离计算模块，用于在所述原始视频数据的时间轴上，计算所述参考视频片段与其他所述原始视频片段之间的距离；

衰减系数计算模块，用于按照所述距离对其他所述原始视频片段计算衰减系数，所述衰减系数与所述距离负相关；

衰减系数相乘模块，用于将其他所述原始视频片段的精彩值乘以所述衰减系数，作为衰减之后的精彩值。

在本发明的一个实施例中，所述衰减系数计算模块还用于：

若在时间轴上，其他所述原始视频片段位于所述参考视频片段的左侧，通过如下公式计算衰减系数：

若在时间轴上，其他所述原始视频片段位于所述参考视频片段的右侧，通过如下公式计算衰减系数：

其中，e为自然数，α为正数，α<1，T为所述参考视频片段的中间时间点，T_i为其他所述原始视频片段的中间时间点。

在本发明的一个实施例中，所述目标视频数据合并模块305包括：

结束片段提取模块，用于在所述原始视频数据中提取结束片段，所述结束片段用于记录与所述业务对象相关的信息；

顺序合并模块，用于按照时间顺序将所述目标视频片段、所述结束片段合并为目标视频数据。

在本发明的一个实施例中，所述结束片段提取模块包括：

场景片段切分模块，用于将所述原始视频数据切分为多个场景片段，所述场景片段中具有一个或多个独立的场景；

倒序提取模块，用于在位于最后一个所述场景片段中，以倒序的方式提取第三时间范围内的数据，作为结束片段。

本发明实施例所提供的视频剪辑装置可执行本发明任意实施例所提供的视频剪辑方法，具备执行视频剪辑方法相应的功能模块和有益效果。

实施例三

图4示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图4所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，如视频剪辑方法。

在一些实施例中，视频剪辑方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的视频剪辑方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行视频剪辑方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的***和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

实施例四

本发明实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序在被处理器执行时实现如本发明任一实施例所提供的视频剪辑方法。

计算机程序产品在实现的过程中，可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种视频剪辑方法，其特征在于，包括：

在所述原始视频数据中提取部分片段，作为原始视频片段；

在所述目标音频数据中检测节拍点；

按照时间顺序将所述目标视频片段合并为目标视频数据；

2.根据权利要求1所述的方法，其特征在于，所述获取用于介绍业务对象的原始视频数据、独立于所述原始视频数据的目标音频数据，包括：

召回多个独立于所述原始视频数据的原始音频数据，所述原始视频数据中具有结束片段，所述结束片段用于记录与所述业务对象相关的信息；

确定与发布所述原始视频数据的渠道适配的第一时间范围；

对所述第一时间范围添加所述结束片段的时长，获得第二时间范围；

筛选时长在所述第二时间范围内的所述原始音频数据，作为候选音频数据；

当接收选定操作时，确定所述选定操作所指示的所述候选音频数据为目标音频数据。

3.根据权利要求1所述的方法，其特征在于，所述在所述原始视频数据中提取部分片段，作为原始视频片段，包括：

加载摘要生成网络；

将所述原始视频数据输入所述摘要生成网络中、对所述原始视频数据中的各个片段预测表征精彩程度的精彩值；

在所述原始视频数据中提取所述精彩值从高到低排序时、前多个所述片段，作为原始视频片段。

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述挑选部分所述原始视频片段作为目标视频片段，以使所述目标视频片段按照时间顺序放置在所述目标音频数据所处的时间轴上时、所述节拍点位于两个所述目标视频片段之间，包括：

至少对所述原始视频片段设置第一条件，所述第一条件为将所述原始视频片段挑选为目标视频片段时，将所述目标视频片段按照时间顺序放置在所述目标音频数据所处的时间轴上时、所述节拍点位于两个所述目标视频片段之间；

以所述目标视频片段为变量，规划所述目标视频片段至少满足所述第一条件；

在设定所述目标视频片段的数量为整数时，对所述目标视频片段进行求解、以挑选至少满足所述第一条件的所述原始视频片段作为所述目标视频片段。

5.根据权利要求4所述的方法，其特征在于，所述挑选部分所述原始视频片段作为目标视频片段，以使所述目标视频片段按照时间顺序放置在所述目标音频数据所处的时间轴上时、所述节拍点位于两个所述目标视频片段之间，还包括：

遍历查询各个所述原始视频片段的时长；

若当前所述原始视频片段的时长小于预设的阈值，则将当前所述原始视频片段合并至与当前所述原始视频片段相邻的所述原始视频片段。

6.根据权利要求4所述的方法，其特征在于，

所述至少对所述原始视频片段设置第一条件，包括：

对所述原始视频片段设置第一条件；

所述以所述目标视频片段为变量，规划所述目标视频片段至少满足所述第一条件，包括：

所述在设定所述目标视频片段的数量为整数时，对所述目标视频片段进行求解、以挑选至少满足所述第一条件的所述原始视频片段作为所述目标视频片段，包括：

7.根据权利要求6所述的方法，其特征在于，所述挑选部分所述原始视频片段作为目标视频片段，以使所述目标视频片段按照时间顺序放置在所述目标音频数据所处的时间轴上时、所述节拍点位于两个所述目标视频片段之间，还包括：

遍历查询各个所述原始视频片段的精彩值；

从所有所述原始视频片段中选择一个所述原始视频片段为参考视频片段；

以所述参考视频片段作为起点，依次对其他所述原始视频片段的精彩值进行衰减。

8.根据权利要求7所述的方法，其特征在于，所述从所有所述原始视频片段中选择一个所述原始视频片段为参考视频片段，包括：

在所述原始视频数据的时间轴上添加窗口；

在所述窗口中选择精彩值最高的所述原始视频片段为参考视频片段。

9.根据权利要求7所述的方法，其特征在于，所述以所述参考视频片段作为起点，依次对其他所述原始视频片段的精彩值进行衰减，包括：

在所述原始视频数据的时间轴上，计算所述参考视频片段与其他所述原始视频片段之间的距离；

按照所述距离对其他所述原始视频片段计算衰减系数，所述衰减系数与所述距离负相关；

将其他所述原始视频片段的精彩值乘以所述衰减系数，作为衰减之后的精彩值。

10.根据权利要求9所述的方法，其特征在于，所述按照所述距离对其他所述原始视频片段计算衰减系数，包括：

11.根据权利要求1-3、5-10中任一项所述的方法，其特征在于，所述按照时间顺序将所述目标视频片段合并为目标视频数据，包括：

在所述原始视频数据中提取结束片段，所述结束片段用于记录与所述业务对象相关的信息；

按照时间顺序将所述目标视频片段、所述结束片段合并为目标视频数据。

12.根据权利要求11所述的方法，其特征在于，所述在所述原始视频数据中提取结束片段，包括：

将所述原始视频数据切分为多个场景片段，所述场景片段中具有一个或多个独立的场景；

在位于最后一个所述场景片段中，以倒序的方式提取第三时间范围内的数据，作为结束片段。

13.一种视频剪辑装置，其特征在于，包括：

节拍点检测模块，用于在所述目标音频数据中检测节拍点；

14.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-12中任一项所述的视频剪辑方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于使处理器执行时实现权利要求1-12中任一项所述的视频剪辑方法。