CN113411517B

CN113411517B - 视频模板的生成方法、装置、电子设备及存储介质

Info

Publication number: CN113411517B
Application number: CN202110594198.0A
Authority: CN
Inventors: 向君; 刘貂; 杨治鑫
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2023-04-07
Anticipated expiration: 2041-05-28
Also published as: CN113411517A

Abstract

本公开关于一种视频模板的生成方法、装置、电子设备及存储介质，其中，方法包括：获取参考视频；对参考视频进行解析，以确定参考视频对应的属性信息；对参考视频进行识别，以获取参考视频中包含的多媒体元素及多媒体元素对应的特征信息；基于多媒体元素、多媒体元素对应的特征信息及属性信息，生成参考视频对应的视频模板。该方法基于获取的视频自动生成视频模板，提升了模板生成的效率，节省了制作模板的人力和经济成本，且有利于满足不同用户的需求，改善了用户的使用体验。

Description

视频模板的生成方法、装置、电子设备及存储介质

技术领域

本公开涉及互联网技术领域，尤其涉及一种视频模板的生成方法、装置、电子设备及存储介质。

背景技术

随着信息时代的发展，越来越多的用户***台上分享视频。并且，用户在某一视频平台分享视频时，多采用该视频平台提供的视频模板进行视频制作与分享。

相关技术中，视频模板一般需要专业人士花费大量时间和精力才能生成，因此视频平台需要投入大量的人力和财力成本生产视频模板，以满足用户的需求。

发明内容

本公开旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本公开的第一个目的在于提出一种视频模板的生成方法，基于获取的视频自动生成视频模板，节省了用户的时间，降低了使用成本，且有利于满足不用用户的需求，改善了用户的使用体验。

本公开的第二个目的在于提出一种视频模板的生成装置。

本公开的第三个目的在于提出一种电子设备。

本公开的第四个目的在于提出一种存储介质。

本公开的第五个目的在于提出一种计算机程序产品。

为达上述目的，本公开第一方面实施例提出了一种视频模板的生成方法，包括：获取参考视频；

对所述参考视频进行解析，以确定所述参考视频对应的属性信息；

对所述参考视频进行识别，以获取所述参考视频中包含的多媒体元素及所述多媒体元素对应的特征信息；

基于所述多媒体元素、所述多媒体元素对应的特征信息及所述属性信息，生成所述参考视频对应的视频模板。

根据本公开实施例的视频模板的生成方法，基于获取的视频自动生成视频模板，提升了模板生成的效率，节省了制作模板的人力和经济成本，且有利于满足不同用户的需求，改善了用户的使用体验。

另外，根据本公开上述实施例的视频模板的生成方法还可以具有如下附加的技术特征：

根据本公开的一个实施例，获取所述参考视频对应的帧图像序列，其中，所述帧图像序列包括多帧图像和每帧图像对应的序列号，每个序列号用于表征每帧图像在所述参考视频中的时间顺序；

基于所述多帧图像和所述每帧图像对应的序列号，对所述每帧图像进行识别，以获取所述参考视频中包含的多媒体元素及所述多媒体元素对应的特征信息。

根据本公开的一个实施例所述参考视频对应的属性信息包括：时长、分辨率及帧率；

所述基于所述多媒体元素、所述多媒体元素对应的特征信息及所述属性信息，生成所述参考视频对应的视频模板，包括：

根据所述时长、分辨率及帧率创建参考模板，以使所述参考模板的时长为所述参考视频的时长、所述参考模板的分辨率为所述参考视频的分辨率、所述参考模板的帧率为所述参考视频的帧率；

基于所述多媒体元素及对应的特征信息对所述参考模板进行填充，以生成所述参考视频对应的视频模板。

根据本公开的一个实施例，所述多媒体元素包括：至少一张图片、至少一个视频片段和至少一个音乐片段；

所述图片对应的特征信息包括：每张图片的第一分辨率、及每张图片在所述参考视频中的第一起始时刻和第一结束时刻；

所述视频片段对应的特征信息包括：每个视频片段的第二分辨率、每个视频片段对应的第一序列号、以及每个视频片段的第一起始帧和第一结束帧；

所述音乐片段对应的特征信息包括：每个音乐片段的标识符、名称以及每个音乐片段在所述参考视频中的第二起始时刻和第二结束时刻。

根据本公开的一个实施例，所述基于所述多媒体元素及对应的特征信息对所述参考模板进行填充，以生成所述参考视频对应的视频模板，包括：

将所述每张图片，根据对应的所述第一分辨率、所述第一起始时刻和所述第一结束时刻，***所述参考模板；

将所述每个视频片段，根据对应的所述第一序列号、所述第二分辨率、所述第一起始帧和所述第一结束帧，***所述参考模板；

根据每个音乐片段的标识符及名称，获取与所述标识符及名称对应的目标音乐片段，并将所述目标音乐片段根据所述第二起始时刻和第二结束时刻***所述参考模板；

将***所述参考模板的所述每张图片和每个视频片段进行第一预设标记，以使所述每张图片和每个视频片段是可替换的，并将***所述参考模板的所述目标音乐片段进行第二预设标记，以使所述目标音乐片段是不可替换的，以得到标记后的所述参考模板；

将标记后的所述参考模板，作为所述参考视频对应的视频模板。

根据本公开的一个实施例，所述多媒体元素还包括以下元素中的至少一种：至少一条字幕、至少一次转场、至少一个贴纸；

所述字幕对应的特征信息包括：每条字幕的字幕内容、字幕样式、以及每条字幕在所述参考视频中的第三起始时刻和第三结束时刻；

所述转场对应的特征信息包括：每次转场的转场类型、以及每次转场在所述参考视频中的第四起始时刻和第四结束时刻；

所述贴纸对应的特征信息包括：每个贴纸的贴纸标识符、以及每个贴纸在所述参考视频中的第五起始时刻和第五结束时刻。

根据本公开的一个实施例，当所述多媒体元素包括至少一条字幕时，所述基于所述多媒体元素及对应的特征信息对所述参考模板进行填充，以生成所述参考视频对应的视频模板，还包括：

将所述每条字幕，根据对应的所述字幕内容、所述字幕样式、所述第三起始时刻和所述第三结束时刻，***所述参考模板；

将***所述参考模板的所述每条字幕进行第二预设标记，以使所述每条字幕是不可替换的。

根据本公开的一个实施例，当所述多媒体元素包括至少一次转场时，所述基于所述多媒体元素及对应的特征信息对所述参考模板进行填充，以生成所述参考视频对应的视频模板，还包括：

将所述每次转场，根据对应的转场类型、所述第四起始时刻和所述第四结束时刻***所述参考模板；

将***所述参考模板的所述每次转场进行第二预设标记，以使所述每次转场是不可替换的。

根据本公开的一个实施例，所述视频模板的生成方法，还包括：当所述搜索提示信息在所述页面的显示时长达到第二阈值时，关闭用于显示所述搜索提示信息的显示窗。

根据本公开的一个实施例，当所述多媒体元素包括至少一个贴纸时，所述基于所述多媒体元素及对应的特征信息对所述参考模板进行填充，以生成所述参考视频对应的视频模板，还包括：

根据所述每个贴纸的贴纸标识符获取与所述贴纸标识符对应的目标贴纸，将所述目标贴纸根据所述贴纸类型、所述第五起始时刻和所述第五结束时刻***所述参考模板；

将***所述参考模板的所述目标贴纸进行第二预设标记的，以使所述目标贴纸是不可替换的。

为达上述目的，本公开第二方面实施例提出了一种视频模板的生成装置，包括：获取模块，被配置为执行获取参考视频；

解析模块，被配置为执行对所述参考视频进行解析，以确定所述参考视频对应的属性信息；

识别模块，被配置为执行对所述参考视频进行识别，以获取所述参考视频中包含的多媒体元素及所述多媒体元素对应的特征信息；

生成模块，被配置为执行基于所述多媒体元素、所述多媒体元素对应的特征信息及所述属性信息，生成所述参考视频对应的视频模板。

根据本公开实施例的视频模板的生成装置，基于获取的视频自动生成视频模板，提升了模板生成的效率，节省了制作模板的人力和经济成本，且有利于满足不同用户的需求，改善了用户的使用体验。

另外，根据本公开上述实施例的视频模板的生成装置还可以具有如下附加的技术特征：

根据本公开的一个实施例，所述识别模块，包括：

分割单元，被配置为执行获取所述参考视频对应的帧图像序列，其中，所述帧图像序列包括多帧图像和每帧图像对应的序列号，每个序列号用于表征每帧图像在所述参考视频中的时间顺序；

识别单元，被配置为执行基于所述多帧图像和所述每帧图像对应的序列号，依次对所述每帧图像进行识别，以获取所述参考视频中包含的多媒体元素及所述多媒体元素对应的特征信息。

根据本公开的一个实施例，所述参考视频对应的属性信息包括：时长、分辨率及帧率；

所述生成模块，包括：

创建单元，被配置为执行根据所述时长、分辨率及帧率创建参考模板，以使所述参考模板的时长为所述参考视频的时长、所述参考模板的分辨率为所述参考视频的分辨率、所述参考模板的帧率为所述参考视频的帧率；

填充单元，被配置为执行基于所述多媒体元素及对应的特征信息对所述参考模板进行填充，以生成所述参考视频对应的视频模板。

根据本公开的一个实施例，所述填充单元，被配置为执行：

根据本公开的一个实施例，当所述多媒体元素包括至少一条字幕时，所述填充单元，被配置为执行：

根据本公开的一个实施例，当所述多媒体元素包括至少一次转场时，所述填充单元，被配置为执行：

根据本公开的一个实施例，当所述多媒体元素包括至少一个贴纸时，所述填充单元，被配置为执行：

为达上述目的，本公开第三方面实施例提出了一种电子设备，包括：处理器；用于存储所述处理器的可执行指令的存储器；其中，所述处理器被配置为调用并执行所述存储器存储的可执行指令，以实现本公开第一方面实施例提出的视频模板的生成方法。

为达上述目的，本公开第四方面实施例提出了一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本公开第一方面实施例提出的视频模板的生成方法。

为达上述目的，本公开第五方面实施例提出了一种计算机程序产品，该计算机程序由电子设备的处理器执行时，使得电子设备能够执行本公开第一方面实施例提出的视频模板的生成方法。

本公开的技术方案，基于获取的视频自动生成视频模板，提升了模板生成的效率，节省了制作模板的人力和经济成本，且有利于满足不同用户的需求，改善了用户的使用体验。

本公开附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

图1是根据本公开实施例的视频模板的生成方法的流程图；

图2是根据本公开一个实施例的识别参考视频中的多媒体元素的流程图；

图3是根据本公开一个实施例的生成视频模板的流程图；

图4是根据本公开一个示例的基于多媒体元素生成视频模板的流程图；

图5是根据本公开一个示例的通过分类器识别多媒体元素的示意图；

图6是根据本公开实施例的视频模板的生成装置的结构框图；

图7是根据本公开实施例的电子设备的结构示意图。

具体实施方式

下面详细描述本公开的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本公开，而不能理解为对本公开的限制。

本公开主要考虑到相关技术中通过人工生成视频模板带来的消耗大量的人力和财力成本，而且也不一定能满足每一个用户的实时需求的问题，而提出了一种视频模板的生成方法、装置、电子设备及存储介质。

本公开提出的视频模板的生成方法，以获取的视频为基础，自动生成与获取的视频对应的视频模板，即：对获取的视频进行解析，以确定该视频对应的属性信息，对该视频进行识别，以获取该视频中包含的多媒体元素及多媒体元素对应的特征信息；之后基于多媒体元素、多媒体元素对应的特征信息及属性信息，生成该视频对应的视频模板，从而实现视频模板的自动生成。本公开基于获取的视频自动生成视频模板，节省了用户的时间，降低了使用成本，且有利于满足不用用户的需求，改善了用户的使用体验。

下面参考附图描述本公开实施例的视频模板的生成方法、装置、电子设备及存储介质。

图1是根据本公开实施例的视频模板的生成方法的流程图，执行主体可以为电子设备，具体的，电子设备可以是但不限于计算机、移动终端，移动终端可以是但不限于个人电脑、智能手机、IPAD等。

如图1所示，该视频模板的生成方法包括以下步骤S101-S104。

S101，获取参考视频。

本公开实施例中，可将用户输入互联网产品的成品视频称为参考视频，该参考视频可以是用户喜欢的或者用户满意的短视频。相应的，本公开实施例中的视频模板的生成方法的执行主体，可以为搭载该互联网产品的电子设备。

在实际应用中，可实时监测用户是否输入参考视频，以在监测到用户输入参考视频时，及时获取该参考视频。

具体地，可在用户每输入一个参考视频时，获取用户输入的参考视频。因此可获取到不同的用户根据不同的需求输入的参考视频。

S102，对参考视频进行解析，以确定参考视频对应的属性信息。

其中，属性信息，可以是指表征参考视频的固有属性，例如时间、帧率等的信息，可以这样理解：对于一个确定的成品视频而言，该成品视频的属性信息是确定的，其可以通过对该成品视频进行解析得到。

具体地，在获取到用户输入的参考视频之后，可对参考视频进行解析，已确定参考视频对应的属性信息。

需要说明的是，本发明实施例中，可根据相关技术中任何可取的方式对参考视频进行解析，对此，本发明实施例不做任何限制。

S103，对参考视频进行识别，以获取参考视频中包含的多媒体元素及多媒体元素对应的特征信息。

其中，多媒体元素，可以是指组成参考视频的任何元素，例如图片、视频片段、音乐片段，文字等。特征信息，可以是指表征多媒体元素的各个特征的信息，例如时间、分辨率等。

具体地，在获取到参考视频之后，可对参考视频进行识别，以获取参考视频中包含的各个多媒体元素、及每个多媒体元素对应的特征信息。

S104，基于多媒体元素、多媒体元素对应的特征信息及属性信息，生成参考视频对应的视频模板。

具体地，在确定出参考视频对应的属性信息、参考视频中包含的特征信息及特征信息对应的多媒体元素之后，基于多媒体元素、特征信息及属性信息，生成参考视频对应的视频模板。

具体而言，可根据多属性信息创建一个空视频(不包含任何多媒体元素的视频)，使得该空视频满足参考视频的属性信息，可将多媒体元素根据对应的特征信息填充至对该空视频，填充好的空视频即为与参考视频对应的视频模板。

举例而言，如果，获取到参考视频A，A对应的属性信息为时长20秒，A中包含的多媒体元素为视频片段a1、音乐片段b1，且a1对应的特征信息为时长10秒、在参考视频中的时间为第11秒至第20秒，音乐片段b1对应特征信息为时长8秒、在参考视频中的时间为第11秒至第18秒。那么，可创建一个时长20秒的空视频，之后，将视频片段a1根据特征信息：时长10秒、及第11秒至第20秒填充至该空视频，并将音乐片段b1根据特征信息：时长8秒、及第11秒至第18秒填充至该空视频，得到视频B，视频B即为参考视频A对应的视频模板。

由于本公开实施例是根据获取的视频进行视频模板的创建，而通常情况下，用户输入的视频往往是用户满意度比较高的视频，或者满足用户各种高需求的视频，因此，本公开实施例根据获取的视频生成的视频模板，可以满足不用用户对视频的不同需求，也即可根据用户喜欢的多媒体元素生成视频模板，也可根据用户喜欢的多媒体元素的特征信息生成视频模板。

例如，可根据参考视频中(往往是用户喜欢的)文字内容的样式、颜色等生成视频模板，也可根据参考视频中(往往是用户喜欢的)音乐片段生成视频模板，从而使得自动生成的视频模板中包含用户喜欢的文字内容的样式、颜色、及音乐片段。

本公开实施例的视频模板的生成方法，基于获取的视频自动生成视频模板，提升了模板生成的效率，节省了制作模板的人力和经济成本，且有利于满足不同用户的需求，改善了用户的使用体验。

本发明实施例中，可采用多个视频样本以及每个视频样本中的多媒体元素，通过机器学习训练出多媒体元素分类器，以将一个视频输入多媒体元素分类器时，该多媒体元素分类器输出该视频中的多媒体元素及多媒体元素对应的特征信息。

需要说明的是，在步骤S103中，对参考视频进行识别时，可将参考视频输入多媒体元素分类器，以通过多媒体元素分类器对参考视频中的多媒体元素进行识别，例如，多媒体元素分类器可输出参考视频中的图片、文字、贴纸等多媒体元素；也可将参考视频分割为多帧图像，并可将多帧图像进行分组后，通过多媒体元素分类器对每组帧图像进行识别，以识别出参考视频中包含的多媒体元素；还可将参考视频分割为多帧图像，并通过多媒体元素分类器依次对帧图像进行识别，以识别出参考视频中包含的多媒体元素。

即在本发明的一个实施例中，如图2所示，上述步骤S103，可包括：

S201，获取参考视频对应的帧图像序列，其中，帧图像序列包括多帧图像和每帧图像对应的序列号，每个序列号用于表征每帧图像在参考视频中的时间顺序。

具体地，在获取到参考视频之后，可根据相关技术中的任何可取的方式确定参考视频的视频帧率，进而可根据该视频帧率，将参考视频进行分割处理或者拆帧处理，以得到参考视频对应的多帧图像，之后可对每帧图像按照其在参考视频中的时间顺序进行序列号的标记，以使序列号表征帧图像在参考视频中的时间顺序(或者先后顺序)，从而得到多帧图像。

例如，对参考视频进行分割处理，获得4帧图像，该4帧图像分别为图像A1、A2、A3及A4，其在参考视频中实现顺序依次为A1、A2、A3及A4，那么，图像A1对应的序列号可为1、图像A2对应的序列号可为2、图像A3对应的序列号可为3、图像A4对应的序列号可为4，也即参考视频中按时间顺序播放的图像依次为：A1、A2、A3及A4。

需要说明的是，在实际应用中，可根据参考视频的时长和帧率确定每帧图像对应的序列号。

例如，如果参考视频的时长是2秒，帧率是30(即每秒播放30帧画面)，则每帧图像的时间就是1/30秒，那么，可将2秒视频的多帧图像的序列号依次标记为1、2、3、4、5…60。

可以理解的是，视频实际上是一堆连续的图片随着时间播放的效果。所以对每帧图像根据时间标记序列号并进行获取，可以保护每帧图像出现的顺序。后续每帧图像播放的顺序，出现的时间点，消失的时间点都基于序列号确定。

S202，基于多帧图像和每帧图像对应的序列号，对每帧图像进行识别，以获取参考视频中包含的多媒体元素及多媒体元素对应的特征信息。

具体地，在得到参考视频对应的多帧图像和每帧图像对应的序列号之后，可以依次根据每帧图像对应的序列号对每帧图像进行识别，也可以根据序列号将多帧图像划分为一组一组的图像，进而对每组图像进行识别，以识别出参考视频中包含的多媒体元素及多媒体元素对应的特征信息。

例如，如果获取到图像A1及对应的序列号1、图像A2及对应的序列号2、图像A3及对应的序列号3、图像A4及对应的序列号4，那么，可基于序列号按照先后顺序依次识别图像A1、A2、A3及A4，以识别出每帧图像中包含的多媒体元素及多媒体元素对应的特征信息。

再例如，如果获取到图像A1及对应的序列号1、图像A2及对应的序列号2、图像A3及对应的序列号3、图像A4及对应的序列号4、图像A5及对应的序列号A5，那么，可基于序列号将图像A1、A2、A3、A4即A5划分为两组：图像A1及图像A2为一组，图像A3、A4及A5为一组，在进行识别时，可先同时识别图像A1及图像A2，然后同时识别图像A3、A4及A5，以识别出每帧图像中包含的多媒体元素及多媒体元素对应的特征信息。

由此，通过对参考视频对应的每帧图像进行识别，识别出参考视频中包含的多媒体元素及对应的特征信息，提高了识别的准确性和可靠性。

在实际使用中，本公开实施例中的参考视频对应的属性信息，可以是任何可表征参考视频的属性(特征)的信息，可以理解为视频的固有属性，比如参考视频的格式、分辨率、帧率、码流、时长、亮度等等。

在本公开的一个实施例中，参考视频对应的属性信息包括：时长、分辨率及帧率，如图3所示，上述步骤S104，可包括以下步骤：

S301，根据时长、分辨率及帧率创建参考模板，以使参考模板的时长为参考视频的时长、参考模板的分辨率为参考视频的分辨率、参考模板的帧率为参考视频的帧率。

其中，参考视频的时长，可以是指参考书视频的总时长，比如30秒、20秒等；参考视频的分辨率，可以理解为参考视频的分辨率，比如1080x1920，720x1280、1024x768等等；参考视频的帧率是指参考视频播放时每秒播放的图像的帧数，比如帧率是20时，表示每秒播放20帧图像。

其中，参考模板，可以理解为一个仅包括时长、分辨率及帧率的视频，也可以称为空视频。

具体的，可获取参考视频的时长、分辨率及帧率，进而根据该时长、分辨率及帧率创建一个参考模板，以使参考模板的的时长为参考视频的时长、参考模板的分辨率为参考视频的分辨率、参考模板的帧率为参考视频的帧率。

S302，基于多媒体元素及对应的特征信息对参考模板进行填充，以生成参考视频对应的视频模板。

在获取到多媒体元素及对应的特征信息、参考模板之后，可根据多媒体元素对应的特征信息，将该多媒体元素填充至参考模板，进而填充后的参考模板即为参考视频对应的视频模板。

比如，当多媒体元素文字内容B对应的特征信息为颜色信息：红色、字体信息：宋体时，可将该文字内容B按照红色、宋体的样式填充至参考模板。

由此，根据参考视频的时长、分辨率及帧率创建参考模板，再将参考视频中包含的多媒体元素按照其特征信息填充至参考模板，以生成视频模板，可以提高生成可靠性。

本公开实施例中的参考视频中包含的多媒体元素，可以包括图片、视频片段、音乐(歌曲)片段、文字内容、贴纸、转场、超链接、按钮等元素。其中，视频片段，可以理解为参考视频中内容连贯(不可分割)的某一视频(其时长较参考视频短)；音乐片段，可以理解为参考视频中的某一音乐旋律。

实际应用中，可根据视频内容连贯性确定参考视频中的视频片段，可将内容连贯、即存在内容上的关联的片段确定为视频片段，比如将参考视频中时长5秒的“在操场上打篮球”这一动作过程确定为一个视频片段。

需要说明的是，目前主要的视频(短视频)元素为图片、视频片段及音乐片段，基于此，在本公开的一个实施例中，多媒体元素可包括：至少一张图片、至少一个视频片段和至少一个音乐片段。

其中，图片对应的特征信息包括：每张图片的第一分辨率、及每张图片在参考视频中的第一起始时刻和第一结束时刻；视频片段对应的特征信息包括：每个视频片段的第二分辨率、每个视频片段对应的第一序列号、以及每个视频片段的第一起始帧和第一结束帧；音乐片段对应的特征信息包括：每个音乐片段的标识符、名称以及每个音乐片段在参考视频中的第二起始时刻和第二结束时刻。

进一步地，如图4所示，上述步骤S302，可包括以下步骤：

S401，将每张图片，根据对应的第一分辨率、第一起始时刻和第一结束时刻，***参考模板。

具体地，在获取到至少一张图片及图片对应的第一分辨率、第一起始时刻和第一结束时刻、且在创建出参考模板之后，可将每张图片按照第一分辨率、并根据第一起始时刻和第一结束时刻***参考模板，从而将参考视频中的至少一张图片填充至参考模板。

其中，第一起始时刻和第一结束时刻保证了将图片***至参考模板中的准确时间；第一分辨率保证了将图片***至参考模板中的准确分辨率。

例如，如果参考视频中的图片P的分辨率为1024x 768，其在参考视频中的起始时刻及结束时刻分别为第3秒、第4秒，那么可将图片P以1024x 768的分辨率***在参考模板的第3秒和第4秒之间，即使图片P在参考模板中停留1秒。

S402，将每个视频片段，根据对应的第一序列号、第二分辨率、第一起始帧和第一结束帧，***参考模板。

其中，第一起始帧是指视频片段中的在时间维度上的第一帧图像，第一结束帧是指视频片段中的在时间维度上的最后一帧图像。可以理解的是，第一序列号用于表征视频片段的每帧图像在参考视频中的时间顺序。

具体地，在获取到至少一个视频片段及对应的第一序列号、第二分辨率、第一起始帧和第一结束帧、且在创建出参考模板之后，可将每个视频片段按照第一序列号、第二分辨率、并根据第一起始帧和第一结束帧***参考模板，从而将参考视频中的至少一个视频片段填充至参考模板。

例如，如果参考视频中的视频片段S对应的序列号为3、4、5、6，分辨率为1080x1920，起始帧和结束帧分别为图像P1和图像P2，那么可将分辨率为1080x1920的视频片段S***在参考模板的第3帧和第6帧之间、且在第3帧***图像P1、在第6帧***图像P2，以将视频片段S填充至参考模板。

S403，根据每个音乐片段的标识符及名称，获取与标识符及名称对应的目标音乐片段，并将目标音乐片段根据第二起始时刻和第二结束时刻***参考模板。

其中，音乐片段的名称，可以是指音乐片段所在的整首音乐(歌曲)的名称；音乐片段的标识符，可以是指用于指示音乐片段的唯一的符号，其可以由字母、数字和/或其他符号组成。

本公开实施例中，可事先将任何可作为视频的背景音乐的音乐或者音乐片段存储至数据库，且每个音乐片段对应一个名称及一个唯一标识符，以在生成视频模板时，可通过名称和标识符在数据库中查找到符合要求的音乐片段。

具体地，在获取到至少一个音乐片段及对应的标识符及名称、第二起始时刻和第二结束时刻、且在创建出参考模板之后，可在数据库中查找与与标识符及名称对应的目标音乐片段，并将目标音乐片段根据第二起始时刻和第二结束时刻***参考模板。

例如，如果参考视频中的音乐片段M的名称为《×××》，标识符为b，且音乐片段M在参考视频中的起始时刻为第5秒、结束时刻为第10秒，那么可根据《×××》和b在数据库中查找到与音乐片段M相同的目标音乐片段M1，进而将目标音乐片段M1***在参考模板第5秒至第10秒之间，以将音乐片段M填充至参考模板。

S404，将***参考模板的每张图片和每个视频片段进行第一预设标记，以使每张图片和每个视频片段是可替换的，并将***参考模板的目标音乐片段进行第二预设标记，以使目标音乐片段是不可替换的，以得到标记后的参考模板。

可以理解的是，在实际使用到视频模板时，有一部分多媒体元素是可以经用户替换的，而有一部分多媒体元素可以不经用户替换，具体可根据用户具体地需求进行替换或者不替换。

而可以供用户进行替换或者不替换的前提是视频模板中的部分多媒体元素本身是可以替换的或者不可以替换的，为此，本公开实施例中提出第一预设标记和第二预设标记，以通过第一预设标记将多媒体元素标记为可供用户替换的，通过第二预设标记将多媒体元素标记为供用户不可替换的。也就是说，第一预设标记，可以是指将多媒体元素标记为可替换的的标记；第二预设标记，可以是指将多媒体元素标记为不可替换的的标记。

具体地，在将图片、视频片段及目标音乐片段***至参考模板之后，可将***参考模板的每张图片和每个视频片段进行第一预设标记，以使每张图片和每个视频片段是可替换的，并将***参考模板的目标音乐片段进行第二预设标记，以使目标音乐片段是不可替换的，以得到标记后的参考模板。

也就是说，标记后的参考模板中，包含参考是视频中的图片及视频片段，还包含与参考视频中的音乐片段相同的目标音乐片段，其中的图片和视频片段是可替换的，音乐片段是不可替换的。

S405，将标记后的参考模板，作为参考视频对应的视频模板。

具体地，在得到标记后的参考模板之后，可将标记后的参考模板导出并将其渲染成一个视频模板，从而得到参考视频对应的视频模板，该视频模板中的图片和视频片段是可替换的，音乐片段是不可替换的。

可以理解的是，在生成视频模板之后，由于该视频模板中的图片和视频片段是可替换的，音乐片段是不可替换的，因此用户在使用视频模板制作短视频时，用户只需将视频模板中的图片和视频片段替换成满足实际需求的图片和视频片段，即可制作出需要的短视频。

举例而言，如果识别出参考视频中，按时间顺序在第4秒至第10秒之间依次包含图片P1、视频片段S2、图片P3、图片P4，且在第2秒至第6秒之间有音乐片段Y1，那么，可在参考模板的第4秒至第10秒之间依次填充至图片P1、视频片段S2、图片P3、图片P4，并在参考模板的第2秒至第6秒之间填充与音乐片段Y1相同的目标音乐片段Y2。之后，可将图片P1、视频片段S2、图片P3、图片P4标记为可替换的，将目标音乐片段Y2标记为不可替换的，进行标记后，将标记后的参考模板渲染成一个视频模板。在用户使用该视频模板制作短视频时，用户可将视频模板中的图片P1、视频片段S2、图片P3、图片P4替换为需要的图片和视频片段，从而完成短视频的制作。

由此，将参考视频中的图片、视频片段及音乐片段按照其在参考视频中的特征填充至参考模板中，并将图片、视频片段及音乐片段进行标记，即可实现视频模板的生成，提高了模板生成的可靠性，可以满足用户的不同需求。

另外，本公开实施例中的多媒体元素还可包括其他元素，例如字幕元素、转场元素、贴纸元素等等。为此，在本公开的一个实施例中，多媒体元素还可包括以下元素中的至少一种：至少一条字幕、至少一次转场、至少一个贴纸。

其中，字幕对应的特征信息包括：每条字幕的字幕内容、字幕样式、以及每条字幕在参考视频中的第三起始时刻和第三结束时刻；转场对应的特征信息包括：每次转场的转场类型、以及每次转场在参考视频中的第四起始时刻和第四结束时刻；贴纸对应的特征信息包括：每个贴纸的贴纸标识符、以及每个贴纸在参考视频中的第五起始时刻和第五结束时刻。

可以理解的是，字幕样式例如可以是文字的字体类型、大小、颜色等等。转场可以理解为在两个不同场景视频之间的切换，转场类型通常包括硬转场和软转场两种模式：硬转场是指两个不同场景的视频不经过处理，直接衔接的视频处理方式；软转场是指两个不同场景的视频进行过渡衔接的视频处理方式。贴纸标识符，可以是指用于指示贴纸的唯一的符号，其可以由字母、数字和/或其他符号组成。

由此，可识别参考视频中的字幕元素、转场元素及贴纸元素，有利于丰富模板的元素类型、满足用户的各种需求。

进一步地，当多媒体元素包括至少一条字幕时，上述步骤S302，还可包括：将每条字幕，根据对应的字幕内容、字幕样式、第三起始时刻和第三结束时刻，***参考模板；将***参考模板的每条字幕进行第二预设标记，以使每条字幕是不可替换的。

具体地，在获取到至少一条字幕及对应的字幕内容、字幕样式、第三起始时刻和第三结束时刻、且在创建出参考模板之后，可将每条字幕按照字幕内容、字幕样式、并根据第三起始时刻和第三结束时刻***参考模板，从而将参考视频中的至少一条字幕填充至参考模板，之后，可将参考模板中的每条字幕进行第二预设标记，以使每条字幕是不可替换的。

其中，字幕内容可保证将准确的(与参考视频相同或者类似)字幕内容***至参考模板；字幕样式可保证将字幕内容以准确的(与参考视频相同或者类似)样式***至参考模板，第三起始时刻和第三束时刻可保证将字幕***至参考模板中的准确时间。

例如，如果参考视频中字幕的字幕内容为“中午12点吃饭”，其样式为：蓝色字体、宋体，且其在参考视频中的起始时刻及结束时刻分别为第3秒、第6秒，那么可将样式为：蓝色字体、宋体的字幕内容“中午12点吃饭”***在参考模板的第3秒和第6秒之间，之后，可将参考视频中的字幕“中午12点吃饭”标记为不可替换的。

由此，可根据字幕的特征信息将参考视频中的字幕填充至参考模板，保证了字幕填充的可靠性和准确性。

进一步地，当多媒体元素包括至少一次转场时，上述步骤S302，还可包括：将每次转场，根据对应的转场类型、第四起始时刻和第四结束时刻***参考模板；将***参考模板的每次转场进行第二预设标记，以使每次转场是不可替换的。

具体地，在获取到至少一次转场及对应的转场类型、第四起始时刻和第四结束时刻、且在创建出参考模板之后，可将每次转场按照转场类型、并根据第四起始时刻和第四结束时刻***参考模板，从而将参考视频中的至少一次转场填充至参考模板，之后，可将参考模板中的每次转场进行第二预设标记，以使每次转场是不可替换的。

其中，转场类型可保证将转场以准确的(与参考视频相同或者类似)类型***至参考模板，第四起始时刻和第四结束时刻可保证将转场***至参考模板中的准确时间。

例如，如果参考视频中第一次转场的转场类型为软转场，且其在参考视频中的起始时刻及结束时刻分别为第3秒、第4秒，那么可将类型为软转场的转场***在参考模板的第3秒和第4秒之间，之后，可将参考视频中的该转场标记为不可替换的。

由此，可根据转场的特征信息将与参考视频中同类型的转场，填充至参考模板，保证了字幕填充的可靠性和准确性。

进一步地，当多媒体元素包括至少一个贴纸时，上述步骤S302，还可包括：根据每个贴纸的贴纸标识符获取与贴纸标识符对应的目标贴纸，将目标贴纸根据贴纸类型、第五起始时刻和第五结束时刻***参考模板；将***参考模板的目标贴纸进行第二预设标记的，以使目标贴纸是不可替换的。

本公开实施例中，可事先将任何可放至视频的贴纸及对应的标识符存储至数据库，且每个贴纸对应一个唯一标识符，以在生成视频模板时，可通过标识符在数据库中查找到符合要求的贴纸。

具体地，在获取到至少一个贴纸及对应的贴纸标识符、第五起始时刻和第五结束时刻、且在创建出参考模板之后，可在数据库中查找与该贴纸标识符对应的目标贴纸，并将目标贴纸根据第五起始时刻和第五结束时刻***参考模板。之后，可将参考模板中的贴纸进行第二预设标记，以使参考模板中的贴纸是不可替换的。

例如，如果参考视频中的贴纸N的标识符为c，且贴纸N在参考视频中的起始时刻为第5秒、结束时刻为第10秒，那么可根据c在数据库中查找到与c对应的目标贴纸N1，进而查找到与贴纸N相同的目标贴纸N1，进而将目标贴纸N1***在参考模板第5秒至第10秒之间，以将贴纸N填充至参考模板。之后，可将参考视频中的每个贴纸标记为不可替换的。

也就是说，本公开实施例可将参考视频中的字幕内容、转场、贴纸适应性的填充至参考模板中，以生成视频模板，丰富了视频模板的样式，有利于满足用户的不同需求。

另外，本公开实施例中，可通过机器学习，进行多媒体元素分类器的模型训练，其中，多媒体元素分类器可包括：图片分类器、视频片段分类器、音乐分类器、字幕分类器、转场分类器及贴纸分类器，每个分类器用于对参考视频中的多媒体元素进行识别并输出，例如，对于训练得到的字幕分类器而言，其输入是帧图像时，输出帧图像中包含的字幕内容。

需要说明的是，可以通过相关技术中任何可取的训练方式对图片分类器、视频片段分类器、音乐分类器、字幕分类器、转场分类器及贴纸分类器完成模型训练，本公开实施例对此并不限制。

下面参照图5描述通过分类器进行元素识别，以生成视频模板的方式：

如图5所示，首先，获取参考视频，并将参考视频分割成多帧图像，并将多图像按照其在参考视频中的时间顺序进行序列号的标记，然后通过图片分类器、视频片段分类器、音乐分类器、字幕分类器、转场分类器及贴纸分类器识别出参考视频中的图片、视频片段、音乐、字幕、转场及贴纸，以及每个元素对应的特征信息，具体识别过程可以如下：

1、将多帧图像分成一组一组的帧图作为输入，通过图片分类器识别出所有的图片，最终输出图片及图片对应的特征信息，包括图片的个数，每个图片的路径path，分辨率：宽度width和高度height，起始帧startframe及结束帧endframe。

2、将多帧图像分成一组一组的帧图作为输入，通过视频片段分类器识别出所有的视频片段，最终输出视频片段及对应的特征信息，包括视频片段的个数，每个视频片段的路径path，分辨率：宽度width和高度height，起始帧startframe及结束帧endframe。

3、将多帧图像分成一组一组的帧图作为输入，通过音乐分类器识别所有的音乐片段(指网络背景音乐)，最终输出音乐片段的特征信息，包括个数CountOfMusics、音乐名musicName、音乐唯一标志符musicId，起始帧startframe及结束帧endframe。

4、将多帧图像分成一组一组的帧图作为输入，通过字幕分类器识别所有的字幕，最终输出字幕的特征信息，文本数量CountOfTexts，每个文本的内容textContent，样式textStyle，起始帧startframe及结束帧endframe。

5、将多帧图像分成一组一组的帧图作为输入，通过转场分类器识别所有的转场，最终输出转场的特征信息，包括转场次数CountOfTransform，每个转场的类型transformType，起始帧startframe及结束帧endframe。

6、将多帧图像分成一组一组的帧图作为输入，通过贴纸分类器识别所有的转贴纸，最终输出贴纸的特征信息，包括贴纸数量CountOfSticker，每个贴纸的类型StickerType，贴纸的唯一标志符StickerId，起始帧startframe及结束帧endframe。

之后，根据分类器输出的结果生成参考视频对应的视频模板，具体过程可以如下：

1、根据原视频的时间、分辨率、帧率构建一个新的参考模板(也可以称为视频对象videoProject)。

2、读取图片和视频片段的特征信息，将每个图片和视频片段根据其起始帧startframe和结束帧endframe放入参考模板中，并标记为可替换的。

3、读取字幕的特征信息，将每个字幕根据它的起始帧startframe和结束帧endframe放入参考模板中，并标记不可替换的。

4、读取贴纸的特征信息，根据每个贴纸的标识符StickerId在数据库中找到相应的转场，将其根据它的startframe和endframe放入参考模板中，并标记不可替换的。

5、读取转场的特征信息，根据每个转场的类型transformType在数据库中找到相应的转场，将其根据它的startframe和endframe放入参考模板中，并标记不可替换的。

6、读取音乐片段的特征信息，根据每个背景音乐的标识符musicId在数据库中找到相应的音乐，将其根据它的startframe和endframe放入参考模板中，并标记不可替换的。

最后将参考模板导出渲染成一个视频模板，即可得到参考模板对应的视频模板。

由此，本公开实施例的视频模板的生成方法，提高了模板生成的效率和产量，丰富了模板的样式，减少制作模板的人力成本和经济成本；扩展用户生产内容，提高用户对产品的满意度。

本公开实施例还提出了一种视频模板的生成装置，图6是根据本公开实施例的视频模板的生成装置的结构框图。

如图6所示，该视频模板的生成装置100包括：获取模块110、解析模块120、识别模块130和生成模块140。

其中，获取模块110，被配置为执行获取参考视频；

解析模块120，被配置为执行对所述参考视频进行解析，以确定所述参考视频对应的属性信息；

识别模块130，被配置为执行对所述参考视频进行识别，以获取所述参考视频中包含的多媒体元素及所述多媒体元素对应的特征信息；

生成模块140，被配置为执行基于所述多媒体元素、所述多媒体元素对应的特征信息及所述属性信息，生成所述参考视频对应的视频模板。

在一个实施例中，识别模块130，包括：

在一个实施例中，所述参考视频对应的属性信息包括：时长、分辨率及帧率；

所述生成模块140，包括：

在一个示例中，所述多媒体元素包括：至少一张图片、至少一个视频片段和至少一个音乐片段；

在一个示例中，所述填充单元，被配置为执行：

在一个示例中，所述多媒体元素还包括以下元素中的至少一种：至少一条字幕、至少一次转场、至少一个贴纸；

在一个示例中，当所述多媒体元素包括至少一条字幕时，所述填充单元，被配置为执行：

在一个示例中，当所述多媒体元素包括至少一次转场时，所述填充单元，被配置为执行：

在一个示例中，当所述多媒体元素包括至少一个贴纸时，所述填充单元，被配置为执行：

需要说明的是，该视频模板的生成装置的具体实施方式可参见上述视频模板的生成方法的具体实施方式，为避免冗余，此处不再详细赘述。

本公开实施例的视频模板的生成装置，基于获取的视频自动生成视频模板，提升了模板生成的效率，节省了制作模板的人力和经济成本，且有利于满足不同用户的需求，改善了用户的使用体验。

图7是根据本公开实施例的电子设备的结构框图。

如图7所示，该电子设备200包括：存储器210和处理器220，连接不同组件(包括存储器210和处理器220)的总线230。

其中，存储器210用于存储处理器220的可执行指令；处理器201被配置为调用并执行存储器202存储的可执行指令，以实现本公开上述实施例提出的视频模板的生成方法。

总线230表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。

电子设备200典型地包括多种电子设备可读介质。这些介质可以是任何能够被电子设备200访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器210还可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(RAM)240和/或高速缓存存储器250。电子设备200可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***260可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘驱动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线230相连。存储器210可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本公开各实施例的功能。

具有一组(至少一个)程序模块270的程序/实用工具280，可以存储在例如存储器210中，这样的程序模块270包括——但不限于——操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块270通常执行本公开所描述的实施例中的功能和/或方法。

电子设备200也可以与一个或多个外部设备290(例如键盘、指向设备、显示器291等)通信，还可与一个或者多个使得用户能与该电子设备200交互的设备通信，和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口292进行。并且，电子设备200还可以通过网络适配器293与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器293通过总线230与电子设备200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

处理器220通过运行存储在存储器210中的程序，从而执行各种功能应用以及数据处理。

需要说明的是，本公开实施例的电子设备的实施过程参见前述对本公开实施例的搜索提示信息的显示的解释说明，此处不再赘述。

本公开实施例的电子设备，在处理器调用并执行存储器存储的可执行指令时，能够基于获取的视频自动生成视频模板，提升了模板生成的效率，节省了制作模板的人力和经济成本，且有利于满足不同用户的需求，改善了用户的使用体验。

为了实现上述实施例，本公开实施例还提出了一种存储介质，该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如前所述的视频模板的生成方法。

为了实现上述实施例，本公开实施例还提供一种计算机程序产品，该计算机程序由电子设备的处理器执行时，使得电子设备能够执行如前所述的视频模板的生成方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频模板的生成方法，其特征在于，包括：

获取参考视频；

对所述参考视频进行解析，以确定所述参考视频对应的属性信息，其中，所述参考视频对应的属性信息包括：时长、分辨率及帧率；

对所述参考视频进行识别，以获取所述参考视频中包含的多媒体元素及所述多媒体元素对应的特征信息，其中，所述多媒体元素为组成所述参考视频的任何元素；

2.根据权利要求1所述的方法，其特征在于，所述对所述参考视频进行识别，以获取所述参考视频中包含的多媒体元素及所述多媒体元素对应的特征信息，包括：

获取所述参考视频对应的帧图像序列，其中，所述帧图像序列包括多帧图像和每帧图像对应的序列号，每个序列号用于表征每帧图像在所述参考视频中的时间顺序；

3.根据权利要求1所述的方法，其特征在于，所述多媒体元素包括：至少一张图片、至少一个视频片段和至少一个音乐片段；

4.根据权利要求3所述的方法，其特征在于，所述基于所述多媒体元素及对应的特征信息对所述参考模板进行填充，以生成所述参考视频对应的视频模板，包括：

5.根据权利要求4所述的方法，其特征在于，所述多媒体元素还包括以下元素中的至少一种：至少一条字幕、至少一次转场、至少一个贴纸；

6.根据权利要求5所述的方法，其特征在于，当所述多媒体元素包括至少一条字幕时，所述基于所述多媒体元素及对应的特征信息对所述参考模板进行填充，以生成所述参考视频对应的视频模板，还包括：

7.根据权利要求5所述的方法，其特征在于，当所述多媒体元素包括至少一次转场时，所述基于所述多媒体元素及对应的特征信息对所述参考模板进行填充，以生成所述参考视频对应的视频模板，还包括：

8.根据权利要求5所述方法，其特征在于，当所述多媒体元素包括至少一个贴纸时，所述基于所述多媒体元素及对应的特征信息对所述参考模板进行填充，以生成所述参考视频对应的视频模板，还包括：

9.一种视频模板的生成装置，其特征在于，包括：

获取模块，被配置为执行获取参考视频；

解析模块，被配置为执行对所述参考视频进行解析，以确定所述参考视频对应的属性信息，其中，所述参考视频对应的属性信息包括：时长、分辨率及帧率；

识别模块，被配置为执行对所述参考视频进行识别，以获取所述参考视频中包含的多媒体元素及所述多媒体元素对应的特征信息，其中，所述多媒体元素为组成所述参考视频的任何元素；

生成模块，被配置为执行基于所述多媒体元素、所述多媒体元素对应的特征信息及所述属性信息，生成所述参考视频对应的视频模板；

所述生成模块，包括：

10.根据权利要求9所述的装置，其特征在于，所述识别模块，包括：

11.根据权利要求9所述的装置，其特征在于，所述多媒体元素包括：至少一张图片、至少一个视频片段和至少一个音乐片段；

12.根据权利要求11所述的装置，其特征在于，所述填充单元，被配置为执行：

13.根据权利要求12所述的装置，其特征在于，所述多媒体元素还包括以下元素中的至少一种：至少一条字幕、至少一次转场、至少一个贴纸；

14.根据权利要求13所述的装置，其特征在于，当所述多媒体元素包括至少一条字幕时，所述填充单元，被配置为执行：

15.根据权利要求13所述的装置，其特征在于，当所述多媒体元素包括至少一次转场时，所述填充单元，被配置为执行：

16.根据权利要求13所述装置，其特征在于，当所述多媒体元素包括至少一个贴纸时，所述填充单元，被配置为执行：

17.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

其中，所述处理器被配置为调用并执行所述存储器存储的可执行指令，以实现如权利要求1-8中任一项所述的方法。

18.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1-8中任一项所述的视频模板的生成方法。