CN115460455B

CN115460455B - 一种视频剪辑方法、装置、设备及存储介质

Info

Publication number: CN115460455B
Application number: CN202211083089.3A
Authority: CN
Inventors: 王传鹏; 李腾飞; 卢炬康; 张婷
Original assignee: Shanghai Hard Link Network Technology Co ltd
Current assignee: Shanghai Hard Link Network Technology Co ltd
Priority date: 2022-09-06
Filing date: 2022-09-06
Publication date: 2024-02-09
Anticipated expiration: 2042-09-06
Also published as: CN115460455A

Abstract

本发明公开了一种视频剪辑方法、装置、设备及存储介质，该方法包括：获取用于推广业务对象的原始视频数据；当接收到剪辑操作时，在原始视频数据中标注剪辑点；在原始视频数据中检测属于同一段落的目标字幕数据；对剪辑点进行调整，以保全目标字幕数据；按照调整之后的剪辑点从原始视频数据中剪辑出目标视频数据，由于属于同一段落的目标字幕数据在语义上是具有一定的独立性、完整性，因而这段目标字幕数据关联的配音也是具有一定独立性、完整性，这段目标字幕数据对应的原始视频数据的画面也是具有一定独立性、完整性，在剪辑时调整剪辑点，可以保全目标字幕数据，相应地可以保全配音，避免发生剪断配音的情况，保证配音的完整性。

Description

一种视频剪辑方法、装置、设备及存储介质

技术领域

本发明涉及多媒体的技术领域，尤其涉及一种视频剪辑方法、装置、设备及存储介质。

背景技术

在推广游戏、电子产品等业务对象的场景中，常使用视频数据介绍游戏、电子产品等业务对象，视频数据以画面、声音的方式呈现游戏、电子产品等业务对象的信息，方便用户阅读。

在录制完原始的视频数据之后，美术人员主要是使用专业的视频剪辑工具剪辑视频数据，即，不断拖动视频数据的播放进度，快速浏览视频数据并进行剪辑，剪辑的地方主要依赖美术人员的画面的内容，使得经常发生配音不完整的问题。

发明内容

本发明提供了一种视频剪辑方法、装置、设备及存储介质，以解决如何在剪辑视频数据时保证配音的完整性。

根据本发明的一方面，提供了一种视频剪辑方法，包括：

获取用于推广业务对象的原始视频数据；

当接收到剪辑操作时，在所述原始视频数据中标注剪辑点；

在所述原始视频数据中检测属于同一段落的目标字幕数据；

对所述剪辑点进行调整，以保全所述目标字幕数据；

按照调整之后的所述剪辑点从所述原始视频数据中剪辑出目标视频数据。

根据本发明的另一方面，提供了一种视频剪辑装置，包括：

原始视频数据获取模块，用于获取用于推广业务对象的原始视频数据；

剪辑点标注模块，用于当接收到剪辑操作时，在所述原始视频数据中标注剪辑点；

目标字幕数据检测模块，用于在所述原始视频数据中检测属于同一段落的目标字幕数据；

剪辑点调整模块，用于对所述剪辑点进行调整，以保全所述目标字幕数据；

目标视频数据剪辑模块，用于按照调整之后的所述剪辑点从所述原始视频数据中剪辑出目标视频数据。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的视频剪辑方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于使处理器执行时实现本发明任一实施例所述的视频剪辑方法。

在本实施例中，获取用于推广业务对象的原始视频数据；当接收到剪辑操作时，在原始视频数据中标注剪辑点；在原始视频数据中检测属于同一段落的目标字幕数据；对剪辑点进行调整，以保全目标字幕数据；按照调整之后的剪辑点从原始视频数据中剪辑出目标视频数据，由于属于同一段落的目标字幕数据在语义上是具有一定的独立性、完整性，因而这段目标字幕数据关联的配音也是具有一定独立性、完整性，这段目标字幕数据对应的原始视频数据的画面也是具有一定独立性、完整性，在剪辑时调整剪辑点，可以保全目标字幕数据，相应地可以保全配音，避免发生剪断配音的情况，保证配音的完整性。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例一提供的一种视频剪辑方法的流程图；

图2是根据本发明实施例一提供的一种结束片段的示例图；

图3是根据本发明实施例一提供的一种剪辑原始视频数据的示例图；

图4是根据本发明实施例二提供的一种视频剪辑装置的结构示意图；

图5是实现本发明实施例三提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1为本发明实施例一提供的一种视频剪辑方法的流程图，本实施例可适用于根据字幕数据在语义上的完整性调整剪辑点、从而保证声音的完整性的情况，该方法可以由视频剪辑装置来执行，该视频剪辑装置可以采用硬件和/或软件的形式实现，该视频剪辑装置可配置于电子设备中。如图1所示，该方法包括：

步骤101、获取用于推广业务对象的原始视频数据。

在不同的业务场景中分布有具备该业务场景中业务特性的对象，记为业务对象，业务对象可以是实体物品，例如，手机、平板电脑、智能手表，等等，业务对象也可以为虚拟物品，多为第三方的应用程序，例如，游戏、短视频应用、购物应用，等等，本实施例对此不加以限制。

为使本领域技术人员更好地理解本发明，在本实施例中，将游戏作为业务对象的一种示例进行说明。

其中，游戏的类型可以包括MOBA(Multiplayer Online Battle Arena，多人在线战术竞技游戏)、RPG(Role-playing game，角色扮演游戏)、SLG(Simulation Game，策略类游戏)，等等，本实施例对此不加以限制。

针对既定的业务对象，美术人员可以预先制作一个或多个可覆盖不同渠道进行剪辑的视频数据，记为原始视频数据，例如，原始视频数据的时长较长，该时长大于或等于所有渠道限制的时长，使得美术人员可针对特定的渠道进行删减，原始视频数据并未配置背景音乐，使得美术人员可针对特定的渠道配置背景音乐，等等。

进一步而言，该原始视频数据的内容(包含画面与声音)与业务对象相关，可用于介绍业务对象、对业务对象进行推广。

以游戏为例，原始视频数据的内容可以划分为游戏的内容、真实的剧情两种主要的形式，其中，游戏的内容可以为用户控制游戏的过程介绍，也可以为代言人介绍游戏，还可以是代言人穿着游戏中的服饰进行介绍，而剧情可以进一步划分为如下类别：

1、伪美食分享

原始视频数据包含一些美食类的素材，吸引起用户的注意，植入玩游戏吃美食的玩法。

2、贴近用户生活题材

原始视频数据的内容贴近用户现在的生活状态，将游戏植入到生活的方方面面，如玩游戏吃饭、买零食等。这类素材前半段主要以2人对话为主，后半段为游戏的植入片段。

3、夸张情景剧

原始视频数据包含情景剧的素材，某些剧情较为夸张，用以吸引起用户的注意。

当然，上述原始视频数据只是作为示例，在实施本实施例时，可以根据实际情况设置其它原始视频数据，本实施例对此不加以限制。另外，除了上述原始视频数据外，本领域技术人员还可以根据实际需要采用其它原始视频数据，本实施例对此也不加以限制。

在实际应用中，如图2所示，原始视频数据210中具有多帧图像数据211，为了推广业务对象，在不同的图像数据211中通常配置有图标(Logo)212、横幅信息(Banner)213、结束片段(Ending Card，EC)214等信息。

其中，图标Logo为业务对象自身的标志，可以为文字性的图标Logo(包含业务对象的名称(如“XX游戏”))、也可以为图形性的图标Logo。

横幅信息Banner一般为矩形的信息，通常位于图像数据的顶部和/或底部，可记录业务对象自身的信息(如游戏中的画面、游戏中的角色、名称)、吸引用户购置或下载业务对象的信息(如礼品码)。

如图3所示，结束片段EC中具有下载业务对象的标识，例如，业务对象自身的信息(如游戏中的画面、角色、名称(如“XX游戏”))、购置或下载业务对象的方式(如应用分发平台的图标、应用分发平台的名称(如“ABC App Stroe”、“EFG Play”)及图标、购物平台的名称及图标等)。

进一步而言，如图2所示，原始视频数据在结尾处中可能具有结束片段214，为防止结束片段214对剪辑造成干扰，可在原始视频数据的结尾处通过时长(结束片段一般处于结尾处最后6秒)、颜色(结束片段具有黑色等颜色明显的转场画面)等特征检测是否存在结束片段214，在检测到结束片段214时，删除该结束片段214。

步骤102、当接收到剪辑操作时，在原始视频数据中标注剪辑点。

在实际应用中，针对原始视频数据可提供多种编辑操作，例如，剪辑(又称裁剪)、旋转、镜像、分割、变速、添加滤镜、添加文字、添加特效、添加动画、背景设置、转场设置、风格化，等等。

在加载原始视频数据时，在界面上以时间轴(轨道)显示画面的缩略图、声音等新，并在界面上提供各种表征编辑操作的控件，美术人员可以根据业务的需求在界面上通过点击、长按、拖动等操作触发该控件，从而触发剪辑操作。

在本实施例中，若接收美术人员触发的剪辑操作，则可以按照剪辑操作的指示在原始视频数据中标注剪辑点，其中，剪辑点为在原始视频数据的时间轴上进行剪辑的时间点，一般情况下，剪辑点为成对的时间点，从而剪辑出成对的剪辑点之间的数据。

进一步而言，为提高剪辑的灵活度，可以向美术人员提供多种类型的剪辑操作，那么，当接收到剪辑操作时，确定剪辑操作的类型，从而按照该类型的指示在原始视频数据中标注剪辑点。

在一个示例中，剪辑操作的类型包括如下至少一种：

1、剪辑开头

若类型为剪辑开头，即美术人员意图从原始视频数据中剪辑开头的部分数据，则可以在原始视频数据的时间轴上，将原始视频数据的起始点标注为其中一个剪辑点，在起始点之后间隔预设的第一时间段标注另外一个剪辑点。

其中，该第一时间段可以由美术人员设置，也可以为一个默认的数值(如10秒)，等等。

2、剪辑末尾

若类型为剪辑末尾，即美术人员意图从原始视频数据中剪辑末尾部分的数据，则可以检测原始视频数据的结尾处是否具有结束片段。

在原始视频数据中具有结束片段且已删除结束片段的条件下，在原始视频数据的时间轴上，将原始视频数据的结束点标注为其中一个剪辑点，在结束点之前间隔预设的第二时间段标注另外一个剪辑点。

3、剪辑中间

若类型为剪辑中间，即美术人员意图从原始视频数据中剪辑中间部分的数据，则可以检测原始视频数据的结尾处是否具有结束片段。

在原始视频数据中具有结束片段且已删除结束片段的条件下，可以根据Swav、BYOL、Self-Label等模型基于原始视频数据的画面在原始视频数据的时间轴中标两个注剪辑点，其中，这两个剪辑点为原始视频数据的时间轴上、除原始视频数据的起始点、结束点之外的其他时间点。

4、自定义剪辑

若类型为自定义剪辑，则美术人员意图手动从原始视频数据中剪辑部分的数据，此时，可以在剪辑操作中读取两个时间点，从而分别在原始视频数据的时间轴中处于该时间点的位置标注为剪辑点，其中，这两个剪辑点为原始视频数据的时间轴上任一时间点，可以包括原始视频数据的起始点、结束点。

当然，上述剪辑操作的类型只是作为示例，在实施本实施例时，可以根据实际情况设置其它剪辑操作的类型，本实施例对此不加以限制。另外，除了上述剪辑操作的类型外，本领域技术人员还可以根据实际需要采用其它剪辑操作的类型，本实施例对此也不加以限制。

若已删除原始视频数据的结尾处的结束片段、且已确定剪辑点，则有可能存在剪辑点断开配音(即音频数据)的情况，此时，可以在原始视频数据的时间轴上，按照预设的步长(如2秒)向后移动时间点较大的剪辑点，以增加剪辑的时长，从而减少剪辑点断开配音的情况。

当然，如果时间点较大的剪辑点为原始视频数据的结束点，则维持该剪辑点为结束点，并不向后移动该剪辑点。

步骤103、在原始视频数据中检测属于同一段落的目标字幕数据。

如图2所示，为了推广业务对象，原始视频数据中多具有与画面适配的配音，而为了方便用户浏览原始视频数据，在原始视频数据的画面上同步显示配音对应的字幕数据215。

在实际应用中，原始视频数据的画面是具有一定的故事情节，而配音及其字幕数据也是配合故事情节而设置，因此，配音及其字幕数据在语义上是具有一定的连贯性。

在本实施例中，在原始视频数据中检测字幕数据，并将字幕数据按照语义进行聚合，得到属于同一段落的目标字幕数据，属于同一段落的目标字幕数据在语义上是具有一定的独立性及完整性。

在本发明的一个实施例中，步骤103可以包括如下步骤：

步骤1031、以场景作为切分的节点，将原始视频数据切分为多个片段。

在本实施例中，可以使用场景切换的边界(如淡入、淡出、切成黑色等)，画面之间的相似度，颜色特征与结构特征等方式将以独立的场景作为切分的节点，将原始视频数据切分为多个片段，其中，每个片段中具有一个或多个独立的景。

一般情况下，可以将原始视频数据中包含一个独立场景的数据切分为一个视频片段，而考虑到某些包含一个独立场景的数据的时长较短，则可以将该场景与相邻的其他场景合并，从而将原始视频数据中包含两个或两个以上相连场景的数据切分为一个片段，本实施例对此不加以限制。

在一种切分方式中，为提取原始视频数据的颜色特征与结构特征，可针对原始视频数据中的每帧图像数据，将图像数据从第一颜色空间转换至第二颜色空间，第一颜色空间为RGB颜色空间，表征红色(Red)、绿色(Green)、蓝色(Blue)，第二颜色空间为HSV颜色空间，表征色调(Hue)、饱和度(Saturation)与明度(Value)。

其中，色调H取值范围为0°～360°，从红色开始按逆时针方向计算，红色为0°，绿色为120°，蓝色为240°。饱和度S越高，颜色则深而艳。光谱色的白光成分为0，饱和度达到最高。通常取值范围为0％～100％，值越大，颜色越饱和。H表示颜色明亮的程度，对于光源色，明度值与发光体的光亮度有关；对于物体色，此值和物体的透射比或反射比有关。通常取值范围为0％(黑)到100％(白)。

在第二颜色空间中，遍历每相邻两帧图像数据，计算相邻两帧图像数据在所有颜色通道上的差异，并对差异计算平均值。

若平均值大于预设的转场阈值，则表示颜色差异较大，确定处于相邻两帧图像数据之间的时间点为转场点，其中，转场点表示场景切换，在转场点上对原始视频数据进行切分，得到多个片段。

在本方式中，考虑到结束片段中场景稳定、变化少的特性，使用颜色特征和结构特征检测场景，不仅计算方式简单，可以减少计算的耗时，而且可以保证检测场景的准确性。

步骤1032、在片段中检测属于同一句子的原始字幕数据。

在一个片段中具有一个或多个独立的场景，针对该场景配置的配音及其字幕数据也是独立的，因此，可以在原始视频数据的每个片段中分别检测字幕数据，同一个片段中的字幕可以认为语义上属于同一句子，可记为原始字幕数据。

一般情况下，在录制原始视频数据并配音时，针对一个片段中的场景，配音会配置一个或多个句子，因此，在一个片段中通常包含一个或多个独立的句子。

在具体实现中，针对片段中的每帧图像数据，可以使用卷积神经网络(如卷积循环神经网络(Convolutional Recurrent Neural Network，CRNN))分别对每帧图像数据执行光学字符识别(optical character recognition，OCR)，获得原始文本信息。

在原始视频数据的画面中，除了字幕数据之外，还可能在背景中存在一些文字，这些文字会对字幕数据的识别造成干扰。

一般情况下，原始视频数据是同时显示字幕数据，并不随场景的变化而变化，而背景中的文字是随场景的变化而变化。

因此，针对每个原始文本信息，在片段中统计出现原始文本信息的图像数据的第一数量，即，在片段中统计出现原始文本信息的第一数量。

若该第一数量大于或等于预设的帧数阈值，表示原始文本信息出现的频率较高，较大概率为字幕数据，则可以保留原始文本信息。

若该第一数量小于预设的帧数阈值，表示原始文本信息出现的频率较低，较大概率为背景中的文字，则滤除原始文本信息。

原始文本信息是以文本框的形式标记，由于字幕数据较长，中间可能存在一定的间隙，使得同一句字幕数据切分为多个文本框，此时，可以对不同文本框在垂直方向所处的高度范围，寻找出高度范围存在重叠的文本框，可认为其标记的原始文本信息处于相同的行，从而将位于同一行的原始文本信息合并，得到目标文本信息。

由于字幕数据一般位于中下居中等固定的位置，因此，可以预先标记出现字幕数据的置信度较高的区域，将目标文本信息的位置与该区域进行比较，若目标文本信息位于预设的区域中，则确定目标文本信息为属于同一句子的字幕数据，记为原始字幕数据。

步骤1033、对各个原始字幕数据进行比较，以将原始字幕数据合并为属于同一段落的目标字幕数据。

在本实施例中，对各个片段中的原始字幕数据比较语义上的关联性，从而将语义上存在关联的原始字幕数据合并，记为属于同一段落的目标字幕数据。

在具体实现中，可以依次遍历各个片段对应的原始字幕数据，如果某个片段并不具有原始字幕数据，则可以认为该片段中的原始字幕数据为空，那么，位于该片段之前的片段对应的原始字幕数据与位于该片段之后的片段对应的原始字幕数据属于不同的段落。

在遍历的过程中，通过TF-IDF(term frequency–inverse document frequency，词频-逆文本频率指数)、BM25、文本距离、simhash(哈希相似度)、LSI(Latent SemanticIndexing，潜在语义索引)、深度学习等方式对相邻两个片段对应的原始字幕数据计算相似度。

示例性地，可以在相邻两个片段对应的原始字幕数据中寻找最长连续匹配的序列，其中，序列未包含空白的元素。

一方面，统计序列包含的元素的第二数量M，另一方面，统计相邻两个片段对应的原始字幕数据包含的所有元素的第三数量T。

计算第二数量与第三数量的比值T/M。

将比值乘以预设的系数α，获得相邻两个片段对应的原始字幕数据之间的相似度，其中，系数大于1(如2)，即相似度sim＝α*T/M。

若相似度大于或等于预设的相似阈值，表示相邻两个片段对应的原始字幕数据较为相似，则可以确定相邻两个片段对应的原始字幕数据属于同一个段落。

若遍历结束，则合并属于同一个段落的原始字幕数据，得到目标字幕数据。

步骤104、对剪辑点进行调整，以保全目标字幕数据。

由于属于同一段落的目标字幕数据在语义上是具有一定的独立性、完整性，因而这段目标字幕数据关联的配音也是具有一定独立性、完整性，这段目标字幕数据对应的原始视频数据的画面也是具有一定独立性、完整性。

而美术人员在剪辑原始视频数据时，可能破坏了这个独立性、完整性，因此，可以对剪辑点进行细微的调整，从而保全目标字幕数据，即，在剪辑出的目标视频数据中，包含完整的目标字幕数据。

在具体实现中，可以将剪辑点所处的第一时间范围与目标字幕数据所处的第二时间范围进行比较，从而判断剪辑点之间是否包含任一完整的目标字幕数据。

若是(即第一时间范围与第二时间范围并不重叠)，则维持剪辑点，并不调整剪辑点所处的时间点。

若否(即第一时间范围与第二时间范围存在重叠)，则可以在原始视频数据的时间轴上向前和/或向后移动剪辑点，重新判断剪辑点之间是否包含任一完整的目标字幕数据。

进一步而言，如果剪辑点为原始视频数据的起始点或结束点，则维持该剪辑点为起始点或结束点，并不在原始视频数据的时间轴上向前和/或向后移动该剪辑点。

此外，如果将第二时间范围中与第一时间范围重叠的范围记为重叠范围、第二时间范围中未与第一时间范围重叠的范围记为非重叠范围，那么，第一时间范围与第二时间范围存在重叠一般存在两种情况：

1、重叠范围小于非重叠范围

为了减少调整的幅度，在重叠范围小于非重叠范围时，可以在原始视频数据的时间轴上向前或向后移动位于第二时间范围的剪辑点，使得调整剪辑点之后的第一时间范围退出第二时间范围。

其中，该剪辑点至少移动至与当前第二时间范围的端点重叠，至多移动至与下一个第二时间范围的端点重叠。

2、重叠范围大于非重叠范围

在重叠范围大于非重叠范围时，可以在原始视频数据的时间轴上向前或向后移动位于第二时间范围的剪辑点，使得调整剪辑点之后的第一时间范围覆盖第一时间范围。

为了减少调整的幅度，该剪辑点可移动至与距离最近的、当前第二时间范围的端点重叠。

例如，如图2所示，针对原始视频数据210触发剪辑操作，自定义了剪辑点T₁₁与剪辑点T₁₂，组成第一时间范围224。

在原始视频数据210中检测到三段目标字幕数据，相应划分出三个第二时间范围，分别为第二时间范围221、第二时间范围222、第二时间范围223，第二时间范围221包含端点T₂₁、端点T₂₂，第二时间范围222包含端点T₂₃、端点T₂₄，第二时间范围223包含端点T₂₅、端点T₂₆。

其中，第一时间范围224与第二时间范围221部分重叠，第一时间范围224与第二时间范围222部分重叠，第一时间范围224与第二时间范围223并不重叠。

由于第二时间范围221的重叠范围小于非重叠范围，那么，在原始视频数据的时间时间轴上往后移动剪辑点T₁₁，剪辑点T₁₁可移动至T₂₂与T₂₃之间，优选为与T₂₂重叠。

由于第二时间范围221的重叠范围大于非重叠范围，那么，在原始视频数据的时间时间轴上往后移动剪辑点T₁₂，剪辑点T₁₂可移动至T₂₄与T₂₅之间，优选为与T₂₄重叠。

当然，上述调整剪辑点的方式只是作为示例，在实施本实施例时，可以根据实际情况设置其它调整剪辑点的方式，本实施例对此不加以限制。另外，除了上述调整剪辑点的方式外，本领域技术人员还可以根据实际需要采用其它调整剪辑点的方式，本实施例对此也不加以限制。

步骤105、按照调整之后的剪辑点从原始视频数据中剪辑出目标视频数据。

如图2所示，若完成剪辑点的调整，则可以从原始视频数据210中剪辑出位于剪辑点(如剪辑点T₁₁与剪辑点T₁₂)之间的数据，记为目标视频数据220。

对于目标视频数据，可输出给美术人员浏览，美术人员根据编辑的情况对目标视频数据进行后处理，例如，更换背景音乐，对目标视频数据整体进行风格化处理，添加结束片段，等等。

若完成后处理，可以在指定的渠道(如新闻资讯、短视频、小说阅读、运动健康等)发布目标视频数据，那么，在客户端访问该渠道时，将目标视频数据推送至客户端进行播放，用户在对业务对象感兴趣时，可以通过目标视频数据中的信息搜索业务对象，例如，从应用分发平台中搜索并下载游戏，等等。

实施例二

图4为本发明实施例二提供的一种视频剪辑装置的结构示意图。如图4所示，该装置包括：

原始视频数据获取模块401，用于获取用于推广业务对象的原始视频数据；

剪辑点标注模块402，用于当接收到剪辑操作时，在所述原始视频数据中标注剪辑点；

目标字幕数据检测模块403，用于在所述原始视频数据中检测属于同一段落的目标字幕数据；

剪辑点调整模块404，用于对所述剪辑点进行调整，以保全所述目标字幕数据；

目标视频数据剪辑模块405，用于按照调整之后的所述剪辑点从所述原始视频数据中剪辑出目标视频数据。

在本发明的一个实施例中，所述原始视频数据的结尾处具有结束片段，所述结束片段具有下载所述业务对象的标识；

所述剪辑点标注模块402包括：

剪辑类型确定模块，用于当接收到剪辑操作时，确定所述剪辑操作的类型；

开头标注模块，用于若所述类型为剪辑开头，则将所述原始视频数据的起始点标注为剪辑点，在所述起始点之后标注剪辑点；

末尾标注模块，用于若所述类型为剪辑末尾，则在所述原始视频数据中已删除所述结束片段的条件下，将所述原始视频数据的结束点标注为剪辑点，在所述结束点之前标注剪辑点；

中间标注模块，用于若所述类型为剪辑中间，则在所述原始视频数据中已删除所述结束片段的条件下，基于所述原始视频数据的画面在所述原始视频数据中标注剪辑点；

自定义标注模块，用于若所述类型为自定义剪辑，则在所述剪辑操作中读取时间点；在所述原始视频数据中处于所述时间点的位置标注为剪辑点。

在本发明的一个实施例中，所述目标字幕数据检测模块403包括：

视频切片模块，用于以场景作为切分的节点，将所述原始视频数据切分为多个片段；

原始字幕数据检测模块，用于在所述片段中检测属于同一句子的原始字幕数据；

原始字幕数据合并模块，用于对各个所述原始字幕数据进行比较，以将所述原始字幕数据合并为属于同一段落的目标字幕数据。

在本发明的一个实施例中，所述视频切片模块包括：

颜色空间转换模块，用于针对所述原始视频数据中的每帧图像数据，将所述图像数据从第一颜色空间转换至第二颜色空间，所述第一颜色空间表征红色、绿色、蓝色，所述第二颜色空间表征色调、饱和度与明度；

颜色差异计算模块，用于在所述第二颜色空间中，计算相邻两帧所述图像数据在所有颜色通道上的差异；

平均值计算模块，用于对所述差异计算平均值；

转场点确定模块，用于若所述平均值大于预设的转场阈值，则确定相邻两帧所述图像数据之间为转场点，所述转场点表示场景切换；

转场点切分模块，用于在所述转场点上对所述原始视频数据进行切分，得到多个片段。

在本发明的一个实施例中，所述原始字幕数据检测模块包括：

光学字符识别模块，用于针对所述片段中的每帧图像数据，对所述图像数据执行光学字符识别，获得原始文本信息；

文本信息合并模块，用于将位于同一行的所述原始文本信息合并，得到目标文本信息；

原始字幕数据确定模块，用于若所述目标文本信息位于预设的区域中，则确定所述目标文本信息为属于同一句子的原始字幕数据。

在本发明的一个实施例中，所述原始字幕数据检测模块还包括：

第一数量统计模块，用于针对每个所述原始文本信息，在所述片段中统计出现所述原始文本信息的所述图像数据的第一数量；

原始文本信息保留模块，用于若所述第一数量大于或等于预设的帧数阈值，则保留所述原始文本信息；

原始文本信息滤除模块，用于若所述第一数量小于预设的帧数阈值，则滤除所述原始文本信息。

在本发明的一个实施例中，所述原始字幕数据合并模块包括：

原始字幕数据遍历模块，用于依次遍历各个所述片段对应的所述原始字幕数据；

相似度计算模块，用于在遍历的过程中，对相邻两个所述片段对应的所述原始字幕数据计算相似度；

段落确定模块，用于若所述相似度大于或等于预设的相似阈值，则确定相邻两个所述片段对应的所述原始字幕数据属于同一个段落；

段落合并模块，用于若遍历结束，则合并属于同一个段落的所述原始字幕数据，得到目标字幕数据。

在本发明的一个实施例中，所述相似度计算模块包括：

序列寻找模块，用于在相邻两个所述片段对应的所述原始字幕数据中寻找最长连续匹配的序列，所述序列未包含空白的元素；

第二数量统计模块，用于统计所述序列包含的元素的第二数量；

第三数量统计模块，用于统计相邻两个所述片段对应的所述原始字幕数据包含的所有元素的第三数量；

比值计算模块，用于计算所述第二数量与所述第三数量的比值；

比值相乘模块，用于将所述比值乘以预设的系数，获得相邻两个所述片段对应的所述原始字幕数据之间的相似度，所述系数大于1。

在本发明的一个实施例中，所述剪辑点调整模块404包括：

包含关系判断模块，用于判断所述剪辑点之间是否包含任一完整的所述目标字幕数据；若是，则调用维持模块，若否，则调用移动模块；

维持模块，用于维持所述剪辑点；

移动模块，用于向前和/或向后移动所述剪辑点，返回调用所述包含关系判断模块。

在本发明的一个实施例中，还包括：

结束片段删除模块，用于在所述原始视频数据的结尾处删除结束片段，所述结束片段中具有下载所述业务对象的标识；

剪辑时长增加模块，用于若已删除所述结束片段，则按照预设的步长向后移动所述剪辑点，以增加剪辑的时长。

本发明实施例所提供的视频剪辑装置可执行本发明任意实施例所提供的视频剪辑方法，具备执行视频剪辑方法相应的功能模块和有益效果。

实施例三

图5示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图5所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，如视频剪辑方法。

在一些实施例中，视频剪辑方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的视频剪辑方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行视频剪辑方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的***和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

实施例四

本发明实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序在被处理器执行时实现如本发明任一实施例所提供的视频剪辑方法。

计算机程序产品在实现的过程中，可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种视频剪辑方法，其特征在于，包括：

获取用于推广业务对象的原始视频数据；

当接收到剪辑操作时，在所述原始视频数据中标注剪辑点；

在所述原始视频数据中检测属于同一段落的目标字幕数据；

对所述剪辑点进行调整，以保全所述目标字幕数据；

按照调整之后的所述剪辑点从所述原始视频数据中剪辑出目标视频数据；

其中，所述原始视频数据的结尾处具有结束片段，所述结束片段具有下载所述业务对象的标识；

所述当接收到剪辑操作时，在所述原始视频数据中标注剪辑点，包括：

当接收到剪辑操作时，确定所述剪辑操作的类型；

若所述类型为剪辑开头，则将所述原始视频数据的起始点标注为剪辑点，在所述起始点之后标注剪辑点；

若所述类型为剪辑末尾，则在所述原始视频数据中已删除所述结束片段的条件下，将所述原始视频数据的结束点标注为剪辑点，在所述结束点之前标注剪辑点；

若所述类型为剪辑中间，则在所述原始视频数据中已删除所述结束片段的条件下，基于所述原始视频数据的画面在所述原始视频数据中标注剪辑点；

若所述类型为自定义剪辑，则在所述剪辑操作中读取时间点；在所述原始视频数据中处于所述时间点的位置标注为剪辑点。

2.根据权利要求1所述的方法，其特征在于，所述在所述原始视频数据中检测属于同一段落的目标字幕数据，包括：

以场景作为切分的节点，将所述原始视频数据切分为多个片段；

在所述片段中检测属于同一句子的原始字幕数据；

对各个所述原始字幕数据进行比较，以将所述原始字幕数据合并为属于同一段落的目标字幕数据。

3.根据权利要求2所述的方法，其特征在于，所述以场景作为切分的节点，将所述原始视频数据切分为多个片段，包括：

针对所述原始视频数据中的每帧图像数据，将所述图像数据从第一颜色空间转换至第二颜色空间，所述第一颜色空间表征红色、绿色、蓝色，所述第二颜色空间表征色调、饱和度与明度；

在所述第二颜色空间中，计算相邻两帧所述图像数据在所有颜色通道上的差异；

对所述差异计算平均值；

若所述平均值大于预设的转场阈值，则确定相邻两帧所述图像数据之间为转场点，所述转场点表示场景切换；

在所述转场点上对所述原始视频数据进行切分，得到多个片段。

4.根据权利要求2所述的方法，其特征在于，所述在所述片段中检测属于同一句子的原始字幕数据，包括：

针对所述片段中的每帧图像数据，对所述图像数据执行光学字符识别，获得原始文本信息；

将位于同一行的所述原始文本信息合并，得到目标文本信息；

若所述目标文本信息位于预设的区域中，则确定所述目标文本信息为属于同一句子的原始字幕数据。

5.根据权利要求4所述的方法，其特征在于，所述在所述片段中检测属于同一句子的原始字幕数据，还包括：

针对每个所述原始文本信息，在所述片段中统计出现所述原始文本信息的所述图像数据的第一数量；

若所述第一数量大于或等于预设的帧数阈值，则保留所述原始文本信息；

若所述第一数量小于预设的帧数阈值，则滤除所述原始文本信息。

6.根据权利要求2所述的方法，其特征在于，所述对各个所述原始字幕数据进行比较，以将所述原始字幕数据合并为属于同一段落的目标字幕数据，包括：

依次遍历各个所述片段对应的所述原始字幕数据；

在遍历的过程中，对相邻两个所述片段对应的所述原始字幕数据计算相似度；

若所述相似度大于或等于预设的相似阈值，则确定相邻两个所述片段对应的所述原始字幕数据属于同一个段落；

若遍历结束，则合并属于同一个段落的所述原始字幕数据，得到目标字幕数据。

7.根据权利要求6所述的方法，其特征在于，所述对相邻两个所述片段对应的所述原始字幕数据计算相似度，包括：

在相邻两个所述片段对应的所述原始字幕数据中寻找最长连续匹配的序列，所述序列未包含空白的元素；

统计所述序列包含的元素的第二数量；

统计相邻两个所述片段对应的所述原始字幕数据包含的所有元素的第三数量；

计算所述第二数量与所述第三数量的比值；

将所述比值乘以预设的系数，获得相邻两个所述片段对应的所述原始字幕数据之间的相似度，所述系数大于1。

8.根据权利要求1所述的方法，其特征在于，所述对所述剪辑点进行调整，以保全所述目标字幕数据，包括：

判断所述剪辑点之间是否包含任一完整的所述目标字幕数据；

若是，则维持所述剪辑点；

若否，则向前和/或向后移动所述剪辑点，返回执行所述判断所述剪辑点之间是否包含任一完整的所述目标字幕数据。

9.根据权利要求1-8中任一项所述的方法，其特征在于，还包括：

在所述原始视频数据的结尾处删除结束片段，所述结束片段中具有下载所述业务对象的标识；

若已删除所述结束片段，则按照预设的步长向后移动所述剪辑点，以增加剪辑的时长。

10.一种视频剪辑装置，其特征在于，包括：

目标视频数据剪辑模块，用于按照调整之后的所述剪辑点从所述原始视频数据中剪辑出目标视频数据；

所述剪辑点标注模块包括：

11.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的视频剪辑方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于使处理器执行时实现权利要求1-9中任一项所述的视频剪辑方法。