CN113691836B

CN113691836B - 视频模板生成方法、视频生成方法、装置和电子设备

Info

Publication number: CN113691836B
Application number: CN202111244836.2A
Authority: CN
Inventors: 王强; 郑赟; 潘攀
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-04-01
Anticipated expiration: 2041-10-26
Also published as: CN113691836A

Abstract

本申请实施例提供了视频模板生成方法、视频生成方法、装置和电子设备。所述方法的实施例包括：提供交互页面，交互页面包括模板视频上传控件；根据对模板视频上传控件的触发，将模板视频上传至服务端，以便服务端对模板视频中各镜头片段的镜头风格和语音文本进行解析，得到各镜头片段对应的镜头风格标签和文本内容标签，并基于镜头风格标签和文本内容标签，生成视频模板；接收视频模板，提供视频模板编辑控件，并基于视频模板编辑控件获取视频模板调整操作；基于视频模板调整操作对视频模板进行调整。该实现方式降低了视频模板制作的人力成本以及提高了基于视频模板所制作的视频的质量。

Description

视频模板生成方法、视频生成方法、装置和电子设备

技术领域

本申请实施例涉及计算机技术领域，特别是涉及视频模板生成方法、视频生成方法、装置和电子设备。

背景技术

视频模板是一种用于快速制作视频的固定格式框架。

现有技术中，需要人工借助专业软件制作视频模板以及基于视频模板制作视频，人工这种方式人力成本较高，且视频质量无法保证。

发明内容

本申请实施例提出了视频模板生成方法、视频生成方法、装置和电子设备，以降低视频模板制作的人力成本以及提高基于视频模板所制作的视频的质量。

第一方面，本申请实施例提供了一种视频模板生成方法，包括：提供交互页面，所述交互页面包括模板视频上传控件；根据对模板视频上传控件的触发，将模板视频上传至服务端，以便所述服务端对所述模板视频中各镜头片段的镜头风格和语音文本进行解析，得到各镜头片段对应的镜头风格标签和文本内容标签，并基于所述镜头风格标签和所述文本内容标签，生成视频模板；接收所述视频模板，提供视频模板编辑控件，并基于上述视频模板编辑控件获取视频模板调整操作，所述视频模板调整操作包括对视频模板中的镜头风格标签、文本内容标签、配乐、字幕、贴图、封面、标签顺序中至少一项的调整操作；基于所述视频模板调整操作对所述视频模板进行调整。

第二方面，本申请实施例提供了一种视频模板生成方法，包括：获取模板视频；对所述模板视频中各镜头片段的镜头风格和语音文本进行解析，得到各镜头片段的镜头风格标签和文本内容标签；基于所得到的镜头风格标签和文本内容标签，生成视频模板。

第三方面，本申请实施例提供了一种视频生成方法，包括：提供交互页面，所述交互页面包括视频素材上传控件；根据对视频素材上传控件的触发，将视频素材上传至服务端，以便所述服务端基于预先生成的视频模板中的镜头风格标签和文本内容标签搜索所述视频素材中的目标视频片段，以基于所述视频模板对搜索到的目标视频片段进行排序组合，得到目标视频；接收所述目标视频。

第四方面，本申请实施例提供了一种视频生成方法，包括：从预先生成的产品介绍视频模板中，提取镜头风格标签和文本内容标签；基于所述镜头风格标签和所述文本内容标签，从目标产品的电商直播视频中搜索目标视频片段；将所述产品介绍视频模板与所述目标视频片段进行结合，生成所述目标产品的产品介绍视频。

第五方面，本申请实施例还提供了一种电子设备，包括：处理器；以及存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如本申请实施例中一个或多个所述的视频模板生成方法或者视频生成方法。

第六方面，本申请实施例还提供了一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如本申请实施例中一个或多个所述的视频模板生成方法或者视频生成方法。

与现有技术相比，本申请实施例包括以下优点：

在本申请实施例中，通过提供包括模板视频上传控件的交互页面；之后根据对模板视频上传控件的触发，将模板视频上传至服务端，以便服务端对模板视频中各镜头片段的镜头风格和语音文本进行解析，得到各镜头片段对应的镜头风格标签和文本内容标签，并基于镜头风格标签和文本内容标签，生成视频模板；在接收到视频模板后，可提供视频模板编辑控件，以基于视频模板编辑控件获取视频模板调整操作，从而可基于视频模板调整操作对上述视频模板进行调整。一方面，视频模板生成过程无需人工进行模板视频的分析，也无需人工进行专业视频模板生成工具的学习，因此降低了人力成本。另一方面，由于在进行模板视频解析时以镜头为单位，同时考虑了镜头风格和语音文本，因此可充分理解模板视频中的视觉内容和文本内容，使得借助该视频模板生成的视频中的各片段能够实现视觉内容和文本内容的匹配，提高了基于视频模板所制作的视频的质量。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1A为本申请的视频模板生成方法的一个应用场景的示意图；

图1B为本申请的视频生成方法的一个应用场景的示意图；

图2A是本申请的视频模板生成方法的一个实施例的流程图；

图2B是本申请的视频模板生成方法的标签示意图；

图2C是本申请的视频模板生成方法的视频模板的数据结构示意图；

图3是本申请的视频模板生成方法的又一个实施例的流程图；

图4A是本申请的视频生成方法的一个实施例的流程图；

图4B是本申请的视频生成方法的搜索框架的示意图；

图5是本申请的视频生成方法的又一个实施例的流程图；

图6是本申请的视频生成方法的再一个实施例的流程图；

图7是本申请的视频模板生成装置的一个实施例的结构示意图；

图8是本申请的视频模板生成装置的又一个实施例的结构示意图；

图9是本申请的视频生成装置的又一个实施例的结构示意图；

图10是本申请的视频生成装置的再一个实施例的结构示意图；

图11是本申请的一个实施例提供的示例性装置的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本申请的视频模板生成方法可以应用于多种视频模板生成场景中。在各场景中，通过对模板视频的镜头风格和语音文本进行解析，可得到模板视频中各镜头片段对应的镜头风格标签和文本内容标签，基于上述标签可进行视频模板的生成。其中，模板视频可以是预先筛选出的优质视频，如优质短视频、各题材的优质摘要视频等。模板视频既可以由用户指定，也可以通过设定条件自动筛选，此处不作限定。视频模板是一种用于快速制作视频的固定格式框架。本申请实施例的视频模板生成过程无需人工进行模板视频的分析和视频模板的制作，因此能够降低人力成本。此外，由于在进行模板视频解析时以镜头为单位，同时考虑了镜头风格和语音文本，因此可充分理解模板视频中的视觉内容和文本内容，使得借助该视频模板生成的视频中的各片段能够实现视觉内容和文本内容的匹配，从而能够提高基于视频模板所制作的视频的质量。

在一些场景中，如图1A所示，本申请的视频模板生成方法可以应用于服务端与客户端的交互过程中。其中，服务端既可以是本地服务端，也可以是云端。服务端可以提供视频模板生成服务，并可以向客户端提供交互界面。用户可以通过客户端所显示的交互界面将模板视频上传给服务端。服务端在接收到模板视频后，可对模板视频进行解析，得到模板视频中各镜头片段的镜头风格标签和文本内容标签，并根据上述标签生成视频模板。进一步地，在服务端生成视频模板后，可将该视频模板的生成结果反馈给客户端。用户可通过客户端进行视频模板的确认或者调整。此处，用户可以是请求视频模板生成服务的各类人员，如运维人员、消费者等。服务端和客户端可采用有线连接或者无线连接方式进行交互。上述无线连接方式可包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX（WorldInteroperability for Microwave Access，全球微波接入互操作性）连接、Zigbee（紫蜂协议）连接、UWB（ultra wideband，超宽带）连接、以及其他现在已知或将来开发的无线连接方式。

在另一些场景中，本申请的视频模板生成方法可应用于电商平台。此场景中，电商平台可自动选取部分优质视频作为模板视频，对其进行解析，生成视频模板，从而方便用户根据视频模板制作产品介绍视频等。具体地，电商平台中可维护有大量的产品介绍视频。产品介绍视频可由用户主动拍摄或通过自动提取直播视频摘要等方式生成。电商平台可基于产品转化率、点击率等，对所维护的产品介绍视频进行评分。基于评分，可选取优质视频作为模板视频，自动对模板视频进行解析，得到视频模板，并将视频模板提供给用户，以方便更多用户基于视频模板制作更多的产品介绍视频。

在另一些场景中，本申请的视频模板生成方法可以还可应用于短视频内容平台。此场景中，短视频内容平台可自动选取部分优质短视频作为模板视频，对其进行解析，生成视频模板，从而方便用户根据视频模板制作更多短视频等。具体地，短视频内容平台可基于视频点击率等对所维护的短视频进行评分。基于评分，可选取优质视频作为模板视频，自动对模板视频进行解析，得到视频模板，并将视频模板提供给用户，以方便更多用户基于视频模板制作更多的短视频。

类似的，本申请的视频生成方法也可以应用于多种视频生成场景中。在各场景中，可以基于模板视频中的镜头风格标签和文本内容标签，搜索目标视频片段，从而将视频模板与目标视频片段进行结合，生成目标视频。由于目标视频生成的过程无需人工进行视频素材的提取和组合，因此能够降低人力成本。此外，由于在目标视频片段搜索过程中同时考虑了模板视频中的视觉内容和文本内容，因此目标视频片段能够实现视觉内容和文本内容的协调统一，从而能够提高基于视频模板所制作的视频的质量。

在一些场景中，如图1B所示，本申请实施例也可以应用在服务端与客户端的交互过程中。类似的，此处的服务端既可以是本地服务端，也可以是云端。服务端可以提供视频生成服务，并可以提供交互界面。用户可以通过在客户端将视频素材上传给服务端。服务端在接收到模板素材后，可通过预先生成的视频模板中的镜头风格标签和文本内容标签，对视频素材进行片段提取，并将所提取的目标视频片段与视频模板进行结合，生成结构更为精简和优化的目标视频。进一步地，在服务端生成目标视频后，可将该目标视频反馈给客户端。用户可通过客户端进行目标视频的确认或者调整。

在另一些场景中，本申请实施例可以应用于各类服务平台，如电商平台、视频平台、旅游服务平台等。上述服务平台可以获取各类视频数据，如电商直播视频、球类转播视频等。并可根据预先生成的视频模板中的镜头风格标签和文本内容标签，搜索若干匹配的目标视频片段，并将其与视频模板进行结合，得到目标视频。

以电商平台为例，针对某一电商直播视频，可以从该视频中依次获取特写镜头下的材质介绍片段、特写镜头下的使用体验片段、中景镜头下的颜色介绍片段等，并根据视频模板将各片段进行排序组合，得到目标视频。

以视频平台为例，针对排球比赛视频，可以从该视频中获取中景镜头下的对抗过程片段、特写镜头下的落点回放片段、特写镜头下的打手回放片段等，并根据视频模板将各片段进行排序组合，得到目标视频。

以旅游服务平台为例，可基于旅拍视频模板中的镜头风格标签和文本内容标签，从用户上传的旅游视频素材中搜索目标视频片段，从而将旅拍视频模板与搜索出的目标视频片段进行结合，得到旅拍视频。

需要说明的是，本申请中的视频模板生成方法以及视频生成方法还可以应用于其他场景中，不限于上述列举。

请参考图2A，其示出了本申请的视频模板生成方法的一个实施例的流程图。该视频模板生成方法可应用于处理端，处理端可以理解为对模板视频解析以生成视频模板的电子设备。

该视频模板生成方法的流程包括以下步骤：

步骤201，获取模板视频。

在本实施例中，模板视频可以是预先筛选出的优质视频，如优质短视频、各题材的优质摘要视频等。模板视频既可以由用户指定，也可以通过设定条件自动筛选，如根据预设的评分规则对已存储视频进行打分并基于得分进行模板视频的选取等，此处不作具体限定。

实践中，视频模板生成方法的执行主体可以依据具体的场景配置相应的模板视频获取方式。例如，可以提供视频上传接口，以基于视频上传接口接收文本图像数据。再例如，可以提供交互页面，以基于交互页面获取模板视频。再例如，可以设置条件，以获取满足条件的视频作为模板视频，如将条件设置为评分大于预设值的视频等，此处不作具体限定。

步骤202，对模板视频中各镜头片段的镜头风格和语音文本进行解析，得到各镜头片段的镜头风格标签和文本内容标签。

在本实施例中，模板视频中可涉及一个或多个镜头视角。镜头视角可以包括但不限于以下至少一项：远景、全景、中景、近景、特写。依据镜头视角，可将模板视频切分为多个镜头片段。

上述执行主体可以对模板视频中各镜头片段的镜头风格进行解析，得到各镜头片段对应的镜头风格标签。镜头风格标签可以是用于表征镜头风格的标识，可采用各种形式表示，如符号、文本等。镜头风格可包括但不限于以下至少一项：镜头视角、镜头内容类别、镜头运动模式等。

此外，上述执行主体可以通过语音识别技术（Automatic Speech Recognition，ASR）对各镜头片段进行语音识别，得到各镜头片段对应的语音文本。其中，语音识别技术用于将语音中的词汇内容转换为计算机可读的输入，如字符序列。之后，可以对各镜头片段对应的语音文本进行解析，得到各镜头片段对应的文本内容标签。文本内容标签可以是用于表征文本内容类别的标识，可采用各种形式表示，如符号、文本等。若某一镜头片段不涉及语音文本（如仅有配乐没有语音介绍），则该视频片段的文本内容标签可以为空。作为示例，参见图2B所示的标签示意图，对某模板视频进行镜头风格解析后，可得到片头和5个镜头片段，5个镜头片段的镜头风格标签和文本内容标签可以依次为“商品特写材质介绍”、“商品特写使用体验”、“特性展示使用体验”、“商品特写材质介绍”、“商品特写材质介绍”。

现有技术中，通常通过人工分析模板视频的语音内容，无法通过电子设备自动进行模板视频的解析，因此人力成本较高。此外，现有技术在对模板视频解析过程中通常忽略了对镜头风格的解析，因此对模板视频的理解维度较为单一。本实现方式可自动对目标视频的镜头风格和语音内容进行解析，在降低了人力成本的同时，提高了对目标视频解析的全面性。由此可充分理解模板视频中的视觉内容和文本内容，使得借助该视频模板生成的视频中的各片段能够实现视觉内容和文本内容的匹配，提高了基于视频模板所制作的视频的质量。

在一些可选的实现方式中，镜头风格标签可以包括镜头内容类别标签和镜头运动模式标签。其中，镜头内容类别标签可以用于表征镜头内容类别。镜头内容类别可以通过视觉识别方式确定。以产品介绍视频为例，镜头片段对应的内容类别可以包括但不限于以下至少一项：穿着展示、整体介绍、细节展示、质量测试、介绍展示、制作展示、原料展示、材质展示、其他。镜头运动模式标签可以用于表征镜头运动模式。镜头运动模式可包括但不限于以下至少一项：摇、拉、移、跟、升、降、俯等。上述执行主体中可以存储有预先训练的镜头内容分类模型和镜头运动模式检测模型。镜头内容分类模型可用于进行视频分类。镜头运动模式检测模型可用于检测视频的镜头运动模式。上述执行主体可以首先将模板视频按照镜头视角切分为镜头片段；而后，将各镜头片段分别输入至预先训练的镜头内容分类模型和镜头运动模式检测模型，以分别得到各镜头片段的镜头内容类别标签和镜头运动模式标签。

上述镜头内容分类模型可采用机器学习方法（如有监督学习方法）预先训练得到。训练镜头内容分类模型所使用的基础模型可以是各种模型结构的卷积神经网络（Convolutional Neural Networks, CNN），如ResNet-50等模型结构。训练镜头内容分类模型所使用的样本集中可包括多个视频样本，每个视频样本可采用一个镜头视角拍摄，且可带有类别标注。以ResNet-50模型为例，在训练过程中，可以逐一地将样本视频输入至RESNET-50模型，得到RESNET-50模型输出的镜头内容类别检测结果。而后，可以基于镜头内容类别检测结果与所输入的视频样本中的类别标注，确定损失值。上述损失值为损失函数（loss function）的值，损失函数是一个非负实值函数，可以用于表征检测结果与真实结果的差异。一般情况下，损失值越小，模型的鲁棒性就越好。损失函数可以根据实际需求来设置。之后，可以利用该损失值，更新RESNET-50模型的参数。由此，每输入一次样本，可以基于该样本对应的损失值，对RESNET-50模型的参数进行一次更新，直至RESNET-50模型训练完成。实践中，可以通过多种方式确定是否训练完成。作为示例，当模型输出的检测结果的准确性达到预设值时（例如95%），可确定训练完成。作为又一示例，若模型的训练次数等于预设次数时，可以确定训练完成。此处，若模型训练完成，即可将训练后的模型确定为镜头内容分类模型。

类似的，上述镜头运动模式检测模型可采用机器学习方法（如有监督学习方法）预先训练得到。训练镜头运动模式检测模型所使用的基础模型可以是各种模型结构的卷积神经网络，如三维卷积神经网络等模型结构。训练镜头运动模式检测模型所使用的样本集中可包括多个视频样本，每个视频样本可采用一个镜头视角拍摄，且可带有镜头运动模式标注。在训练过程中，可以逐一地将样本视频输入至基础模型，得到基础模型输出的镜头运动模式检测结果。而后，可以基于镜头运动模式检测结果与所输入的视频样本中的镜头运动模式标注，确定损失值。之后，可以利用该损失值，更新基础模型的参数。由此，每输入一次样本，可以基于该样本对应的损失值，对基础模型的参数进行一次更新，直至基础模型训练完成。

本实现方式可实现对目标视频的镜头内容类别和镜头运动模式的自动解析，在降低了人力成本的同时，可进一步充分理解模板视频中的视觉内容，提高了基于视频模板所制作的视频的质量。

在一些可选的实现方式中，上述执行主体中还可以存储有预先训练的文本分类模型。文本分类模型可以用于识别文本类别。上述执行主体在对各镜头片段对应的语音文本进行解析时，可首先通过语音识别技术，获取各镜头片段对应的语音文本，语音文本即为视频片段的语音内容对应的文本。而后将各语音文本输入至预先训练的文本分类模型，得到各镜头片段的文本内容标签。上述文本分类模型也可采用机器学习方法（如有监督学习方法）预先训练得到。训练文本分类模型所使用的基础模型可以BERT（BidirectionalEncoder Representations from Transformer，基于变换器的双向编码器表示）模型、BERT与GCN（Graph Convolutional Network，图卷积网络）结合后的神经网络模型等。文本分类模型的训练方法与上述各模型的训练方法类似，此处不再赘述。

步骤203，基于所得到的镜头风格标签和文本内容标签，生成视频模板。

在本实施例中，上述执行主体可以维护有视频模板的数据结构。上述执行主体可以将所得到的镜头风格标签和文本内容标签***至数据结构的指定位置，生成视频模板。此处，镜头风格标签和文本内容标签的顺序可参考镜头片段在目标视频中的顺序。

在一些示例中，数据结构可参见图2C所示。具体可包括但不限于元信息、视觉信息、配乐信息、特效信息。其中，元信息中可以包括但不限于基础信息来源信息和模板视频标签中的至少一项。基础信息来源信息可包括但不限于分辨率、时长、模板视频URL（Uniform Resource Locator，统一资源定位符）、人员信息中的至少一项。模板视频标签可包括但不限于难易程度、信息内容、类目中的至少一项。视觉信息可包括但不限于封面信息、转场信息、视频内容信息、图片内容信息、字幕中的至少一项。封面信息可包括但不限于标题推荐、封面图中的至少一项。转场信息可包括但不限于标题内容、文语转换信息中的至少一项。视频内容信息可包括镜头片段的时间戳、镜头风格标签、文本内容标签、URL中的至少一项。字幕可包括但不限于语音识别信息、高亮内容信息中的至少一项。图片内容信息可包括但不限于内容源、排布格式中的至少一项。配乐信息可包括但不限于背景乐类型。特效信息可包括但不限于滤镜、花字、贴纸中的至少一项。

在一些可选的实现方式中，上述执行主体可以首先获取模板视频的基本信息。基本信息包括元信息、配乐信息、视觉信息、特效信息中的至少一项，视觉信息包括封面信息、转场信息、视频内容信息、图片内容信息、字幕中的至少一项。而后，可将模板视频中各镜头片段的镜头风格标签和文本内容标签添加至视频内容信息中，基于预设的数据结构对基本信息进行汇总，得到视频模板。需要说明的是，所获取的各项基本信息也可以采用标签的形式存储。

在一些可选的实现方式中，在生成视频模板之后，上述执行主体可以直接显示该视频模板的生成结果，也可以将该视频模板发送至运维人员所使用的设备中。上述执行主体还在接收到对视频模板的调整指令时，可以提供视频模板编辑控件，以基于视频模板编辑控件获取视频模板调整操作，从而可基于视频模板调整操作对视频模板进行调整。其中，视频模板调整操作可以包括但不限于对视频模板中的镜头风格标签、文本内容标签、配乐、字幕、贴图、封面、标签顺序中至少一项的调整操作。

本申请的上述实施例提供的方法，通过对模板视频中各镜头片段的镜头风格和语音文本进行解析，得到模板视频中各镜头片段的镜头风格标签和文本内容标签，之后基于镜头风格标签和文本内容标签，生成视频模板，从而实现了视频模板的自动生成。一方面，视频模板生成过程无需人工进行模板视频的分析，也无需人工进行专业视频模板生成工具的学习，因此降低了人力成本。另一方面，由于在进行模板视频解析时以镜头为单位，同时考虑了镜头风格和语音文本，因此可充分理解模板视频中的视觉内容和文本内容，使得借助该视频模板生成的视频中的各片段能够实现视觉内容和文本内容的匹配，提高了基于视频模板所制作的视频的质量。

继续参考图3，示出了本申请的视频模板生成方法的一个实施例的流程图。该视频模板生成方法可应用于终端。终端可以理解为上传模板视频的电子设备。终端可以与服务端进行交互，以向服务端上传待解析的目标视频。服务端可以理解为对模板视频进行解析以生成视频模板的电子设备。

该视频模板生成方法的流程，包括以下步骤：

步骤301，提供交互页面，交互页面包括模板视频上传控件。

步骤302，根据对视频上传控件的触发，将模板视频上传至服务端，以便服务端基于对模板视频中各镜头片段的镜头风格和语音文本进行解析，得到各镜头片段的镜头风格标签和文本内容标签，并基于镜头风格标签和文本内容标签，生成视频模板。

步骤303，接收视频模板，提供视频模板编辑控件，并基于上述视频模板编辑控件获取视频模板调整操作。

在本实施例中，视频模板生成的执行主体在接收到服务端返回的视频模板后，可在交互页面中显示提供视频模板编辑控件。视频模板编辑控件中可显示视频模板各组成部分的信息，如各镜头片段的镜头风格标签、文本内容标签、配乐、字幕、贴图、封面等。在用户（如维护视频模板的技术人员）可对视频模板编辑控件中的内容进行编辑时，上述执行主体可以获取到视频模板调整操作。上述视频模板调整操作可以包括但不限于对视频模板中的镜头风格标签、文本内容标签、配乐、字幕、贴图、封面、标签顺序中至少一项的调整操作。

步骤304，基于视频模板调整操作对视频模板进行调整。

在本实施例中，上述执行主体可以基于对视频模板进行调整，如调整镜头风格标签、文本内容标签、配乐、字幕、贴图、封面、标签顺序等。

在一些可选的实现方式中，在接收到服务端返回的视频模板后，还可以在交互界面中提供视频模板校验控件。在一些场景中，在用户触发该视频模板校验控件后，上述执行主体可以获取测试视频素材（如某一电商直播视频）。上述测试视频素材可以从预存于本地，也可以从服务端获取。之后，可基于视频模板中的镜头风格标签和文本内容标签，从测试视频素材中搜索目标视频片段。最后，可将视频模板和目标视频片段进行结合，生成测试结果视频。用户可通过观测该测试结果视频，检测视频模板的质量。

在另一些场景中，在用户触发该视频模板校验控件后，还可以请求服务端进行视频模板的校验。在服务端采用相同方式生成测试结果视频后，可对测试视频进行打分，并将打分结果反馈给上述执行主体，从而使用户得知视频模板的效果。

本实施例各步骤与上述实施例对应步骤描述类似，具体可参见上述实施例的描述，此处不再赘述。

本实施例中，服务端可以向终端提供交互页面，以基于交互页面向终端提供视频模板生成的服务，用户可以在交互页面中触发模板视频上传控件，以通过终端将待解析的模板视频上传给服务端，服务端可以对模板视频进行解析，得到模板视频中各镜头片段的镜头风格标签和文本内容标签，从而基于镜头风格标签和文本内容标签，生成视频模板。服务端在得到视频模板之后，将所生成的视频模板发送至终端，用户可通过视频模板编辑控件对视频模板进行进一步调整，以使视频模板的风格符合用户需求，由此可提高视频模板质量。一方面，视频模板生成过程无需人工进行模板视频的分析，也无需人工进行专业视频模板生成工具的学习，因此降低了人力成本。另一方面，由于在进行模板视频解析时以镜头为单位，同时考虑了镜头风格和语音文本，因此可充分理解模板视频中的视觉内容和文本内容，使得借助该视频模板生成的视频中的各片段能够实现视觉内容和文本内容的匹配，提高了基于视频模板所制作的视频的质量。再一方面，提供视频模板编辑控件，可使得用户能够自行根据需要风格调整和改善视频模板，提高了视频模板的质量。

进一步参考图4A，其示出了本申请的视频生成方法的一个实施例的流程图。该视频模板生成方法可应用于处理端，处理端可以理解为基于视频模板生成目标视频的电子设备。

该视频生成方法的流程包括以下步骤：

步骤401，从预先生成的视频模板中，提取镜头风格标签和文本内容标签。

在本实施例中，预先生成的视频模板中可包括镜头风格标签和文本内容标签。视频模板的生成方式可参见上述实施例中的描述，此处不再赘述。

步骤402，基于镜头风格标签和文本内容标签，搜索目标视频片段。

在本实施例中，上述执行主体中可以维护有大量视频素材。视频素材可以由客户端上传，也可以从互联网中获取，此处不作具体限定。每个视频素材可根据镜头视角预先划分为一个或多个视频片段。每个视频片段可预先标记有镜头风格标签和文本内容标签。此处，各视频片段的镜头风格标签和文本内容标签的确定方式，可参见上述实施例中确定模板视频中各镜头片段的镜头风格标签和文本内容标签的方式，此处不再赘述。

在本实施例中，对于视频模板中每个镜头片段，可采用标签匹配的方式，从所维护的视频素材中搜索镜头风格标签和文本内容标签均匹配的视频片段，作为目标视频片段。作为示例，视频模板中包括三组标签，每组标签包括镜头风格标签和文本内容标签。三组标签中的镜头风格标签依次为“全景、整体介绍”、“近景、穿着展示”、“特写、细节展示”，文本内容标签依次为“概述”、“颜色介绍”、“材质介绍”，则可依次搜索带有“全景、整体介绍”镜头风格标签和“概述”文本内容标签的目标视频片段、带有“近景、穿着展示”镜头风格标签和“颜色介绍”文本内容标签的目标视频片段、带有“特写、细节展示”镜头风格标签和“材质介绍”文本内容标签的目标视频片段。

实践中，根据不同的视频生成场景，所搜索的视频素材可以不同。作为示例，在针对某一商家的某一产品生成产品介绍视频的场景中，可以从该商家介绍该产品的直播视频中搜索目标视频片段。该直播视频可在商家直播过程中自动上传至上述执行主体。作为又一示例，在视频内容平台进行自动生成视频集锦的场景中，可以从视频内容平台所维护的全量视频中搜索目标视频片段。作为再一示例，在客户端与服务端交互场景中，用户可通过客户端进行视频素材的上传，上述执行主体可从用户上传的视频素材中搜索目标视频片段。

在一些可选的实现方式中，上述执行主体还可以采用多模态搜索方式进行目标视频片段的搜索。具体地，可以获取附加搜索信息，上述附加搜索信息包括以下至少一项：文本、图片、视频、序列。而后，可以基于上述镜头风格标签和上述文本内容标签，搜索第一视频片段。之后，可以基于上述附加搜索信息，搜索第二视频片段。以后，可以基于第一视频片段和第二视频片段，确定目标视频片段。例如，可以将第一视频片段与第二视频片段重合的视频片段，作为目标视频片段，由此可提高目标视频片段的精准性。

在一些示例中，搜索框架可参见图4B。如图4B所示，以电商场景为例，搜索框架中可包括数据中心、特征引擎、匹配引擎和请求信息四个模块。其中，数据中心中可包括用户数据和行业数据。用户数据中可包括直播源（即电商直播视频）、店铺产品数据和评论数据。此处，用户数据中的直播源可以作为视频素材，从中选取视频片段。请求信息模块中可包括标签搜索、文本搜索、图片搜索、视频搜索、序列搜索等多个搜索模块。特征引擎可包括看点、文本、镜头等原子特征以及文本特征、图片特征、音视频特征等常规特征。匹配引擎可以包括标签引擎和多模态特征引擎，标签引擎可处理标签搜索模块的搜索请求。多模态特征引擎可处理其他搜索模块请求的搜索请求。各引擎可分别进行视频片段提取，通过规则模块可对所提取的视频片段进行进一步筛选，得到目标视频片段。

步骤403，将视频模板与目标视频片段进行结合，生成目标视频。

在本实施例中，上述执行主体可以根据视频模板中的标签的顺序，将所搜索到的目标视频片段进行拼接，得到目标视频。其中，对于某一组标签（可包括镜头风格标签和文本内容标签），若根据该组标签搜索到多个目标视频片段，在可以首先将该目标视频片段按照随机组合等方式进行组合，之后将各组标签对应的组合结果按顺序进行拼接。

视频模板不仅可以记录视频内容信息（如镜头风格标签和文本内容标签），还可以记录封面信息、转场信息、图片内容信息等其他视觉信息。除此之外，还可以记录配乐信息、特效信息等其他信息。由此，在一些可选的实现方式中，在生成目标视频时还可以基于视频模板自动进行配乐和特效等其他内容的添加。具体地，上述执行主体可以首先按照视频模板中的镜头风格标签和文本内容标签的顺序，将所获取的目标视频片段进行排序组合。而后，可以将视频模板中的其他信息与排序组合后的目标视频片段进行结合，生成目标视频。其他信息可以包括但不限于以下至少一项：配乐信息、特效信息、转场信息、图片内容信息、封面信息。

在一些可选的实现方式中，在生成目标视频之后，上述执行主体还可以将该目标视频发送至客户端。在接收到对上述目标视频的调整指令时，可以提供视频编辑控件，以基于上述视频编辑控件获取视频调整操作，从而基于上述视频调整操作对上述目标视频进行调整。其中，上述视频调整操作可以包括但不限于对目标视频中的镜头风格、文本内容、配乐、字幕、贴图、封面、视频帧中的元素、目标视频片段顺序中至少一项的调整操作。

本申请的上述实施例提供的方法，通过从预先生成的视频模板中提取镜头风格标签和文本内容标签，而后基于镜头风格标签和文本内容标签搜索目标视频片段，从而可将视频模板与目标视频片段进行结合，生成目标视频。由于目标视频生成的过程无需人工进行视频素材的提取和组合，因此能够降低人力成本。此外，由于在目标视频片段搜索过程中同时考虑了模板视频中的视觉内容和文本内容，因此目标视频片段能够实现视觉内容和文本内容的协调统一，从而能够提高基于视频模板所制作的视频的质量。

继续参考图5，示出了本申请的视频生成方法的又一个实施例的流程图。该视频模板生成方法可应用于终端。终端可以理解为上传视频素材的电子设备。终端可以与服务端进行交互，以向服务端上传视频素材。服务端可以理解为基于视频模板搜索目标视频素材以生成目标视频的电子设备。

该视频生成方法的流程，包括以下步骤：

步骤501，提供交互页面，交互页面包括视频素材上传控件。

步骤502，根据对视频素材上传控件的触发，将视频素材上传至服务端，以便服务端基于预先生成的视频模板中的镜头风格标签和文本内容标签搜索视频素材中的目标视频片段，以基于视频模板对搜索到的目标视频片段进行排序组合，得到目标视频。

在一些可选的实现方式中，上述服务端可通过如下步骤搜索目标视频片段：获取附加搜索信息，上述附加搜索信息包括以下至少一项：文本、图片、视频、序列；基于上述镜头风格标签和上述文本内容标签，搜索第一视频片段；基于上述附加搜索信息，搜索第二视频片段；基于上述第一视频片段和上述第二视频片段，确定目标视频片段。

在一些可选的实现方式中，上述服务端可通过如下步骤生成目标视频：按照上述视频模板中的镜头风格标签和文本内容标签的顺序，将所获取的目标视频片段进行排序组合；将上述视频模板中的其他信息与排序组合后的目标视频片段进行结合，生成目标视频，上述其他信息包括以下至少一项：配乐信息、特效信息、转场信息、图片内容信息、封面信息。

步骤503，接收目标视频。

在一些可选的实现方式中，上述交互页面中还包括视频编辑控件，在接收生成上述目标视频之后，视频生成方法执行主体可以基于上述视频编辑控件获取视频调整操作，上述视频调整操作包括对目标视频中的镜头风格、文本内容、配乐、字幕、贴图、封面、视频帧中的元素、目标视频片段顺序中至少一项的调整操作；基于上述视频调整操作对上述目标视频进行调整。

本实施例中，服务端可以向终端提供交互页面，以基于交互页面向终端提供视频生成的服务，用户可以在交互页面中触发视频素材上传控件，以通过终端将视频素材上传给服务端，服务端可以基于已生成的模板视频搜索视频素材中的目标视频片段，并基于视频模板对搜索到的目标视频片段进行排序组合，得到目标视频。服务端在得到目标视频之后，可以向终端反馈目标视频。

进一步参考图6，其示出了本申请的视频生成方法的再一个实施例的流程图。该视频生成方法可应用于基于电商直播视频生成产品介绍视频的场景。该视频生成方法的流程包括以下步骤：

步骤601，从预先生成的产品介绍视频模板中，提取镜头风格标签和文本内容标签。

在本实施例中，产品介绍视频模板可以是用于制作产品介绍视频的视频模板。产品介绍视频模板中可包括镜头风格标签和文本内容标签。产品介绍视频模板的生成方式可参见上述实施例中的视频模板生成方式，此处不再赘述。

步骤602，基于镜头风格标签和文本内容标签，从目标产品的电商直播视频中搜索目标视频片段。

在本实施例中，主播可以通过终端进行直播，并同时进行直播视频的录制。在直播过程中，所录制的视频数据会实时上传至服务端进行存储。可预先以产品为单位对直播数据进行切分，得到针对该产品的短视频。此处，可将针对每个产品的短视频作为电商直播视频，以针对某产品的电商直播视频（即切分后的短视频）执行本实施例中的步骤。例如，在直播过程中，主播介绍了鞋子、毛衣和裙子等多种产品，可预先基于目标检测模型对所录制的各视频帧中的主播、鞋子、毛衣和裙子进行检测，以确定主播与鞋子交互过程的视频片段、与鞋子交互过程中的视频片段、以及与裙子交互过程中的视频片段。可将这三个视频片段作为与三个产品分别对应的电商直播视频。

在本实施例中，每个产品的电商直播视频中可进一步根据镜头视角划分一个或多个视频片段。每个视频片段可预先标记有镜头风格标签和文本内容标签。处，各视频片段的镜头风格标签和文本内容标签的确定方式，可参见上述实施例中确定模板视频中各镜头片段的镜头风格标签和文本内容标签的方式，此处不再赘述。对于目标产品，上述执行主体可以对于视频模板中每个镜头片段，可采用标签匹配的方式，从目标产品的电商直播视频中搜索镜头风格标签和文本内容标签均匹配的视频片段，作为目标视频片段。

步骤603，将产品介绍视频模板与目标视频片段进行结合，生成目标产品的产品介绍视频。

在本实施例中，上述执行主体可以根据产品介绍视频模板中的标签的顺序，将所搜索到的目标视频片段进行拼接，得到目标产品的产品介绍视频。其中，对于某一组标签（可包括镜头风格标签和文本内容标签），若根据该组标签搜索到多个目标视频片段，在可以首先将该目标视频片段按照随机组合等方式进行组合，之后将各组标签对应的组合结果按顺序进行拼接。

产品介绍视频模板不仅可以记录视频内容信息（如镜头风格标签和文本内容标签），还可以记录封面信息、转场信息、图片内容信息等其他视觉信息。除此之外，还可以记录配乐信息、特效信息等其他信息。由此，在一些可选的实现方式中，在生成目标产品的产品介绍视频时还可以基于视频模板自动进行配乐和特效等其他内容的添加。具体地，上述执行主体可以首先按照产品介绍视频模板中的镜头风格标签和文本内容标签的顺序，将所获取的目标视频片段进行排序组合。而后，可以将视频模板中的其他信息与排序组合后的目标视频片段进行结合，生成目标产品的产品介绍视频。其他信息可以包括但不限于以下至少一项：配乐信息、特效信息、转场信息、图片内容信息、封面信息。

在一些可选的实现方式中，在生成目标产品的产品介绍视频之后，上述执行主体还可以将该产品介绍视频发送至客户端。在接收到对上述产品介绍视频的调整指令时，可以提供视频编辑控件，以基于上述视频编辑控件获取视频调整操作，从而基于上述视频调整操作对上述产品介绍视频进行调整。其中，上述视频调整操作可以包括但不限于对产品介绍视频中的镜头风格、文本内容、配乐、字幕、贴图、封面、目标视频片段顺序中至少一项的调整操作。

本申请的上述实施例提供的方法，通过从预先生成的产品介绍视频模板中提取镜头风格标签和文本内容标签，而后基于镜头风格标签和文本内容标签，从目标产品的电商直播视频中搜索目标视频片段，从而可将产品介绍视频模板与目标视频片段进行结合，生成目标产品的产品介绍视频。由于产品介绍视频的过程无需人工进行视频素材的提取和组合，因此能够降低商家的人力成本。此外，由于目标视频片段搜索过程中同时考虑了视觉内容和文本内容，因此各目标视频片段能够实现视觉内容和文本内容的协调统一，从而能够提高产品介绍视频的质量。

本申请实施例还提供一种视频生成方法，可以应用在旅拍视频生成场景。具体的，该方法包括：从预先生成的旅拍视频模板中，提取镜头风格标签和文本内容标签。基于镜头风格标签和文本内容标签，从用户上传的旅游视频素材中搜索目标视频片段。将旅拍视频模板与目标视频片段进行结合，生成旅拍视频。

在本实施例中，旅拍视频模板可以是用于制作旅拍视频的视频模板。旅拍视频模板中的镜头风格标签可以包括但不限于镜头视角标签、镜头内容类别标签和镜头运动模式标签中的一项或多项。文本内容标签可以包括但不限于交通信息、历史背景、景点介绍、相关诗文、主要建筑、旅途感受中的一项或多项。

在本实施例中，旅游视频素材可以是用户在旅游过程中拍摄的一段或多段视频。用户可将视频进行上传，执行主体可基于旅拍视频模板中的镜头风格标签和文本内容标签，从用户上传的视频中提取目标视频片段，从而结合旅拍视频模板生成旅拍视频。

本实施例的实施方式与实施例的实施方式类似，具体实施方式可以参考实施例的具体实施方式，此处不再赘述。

通过从预先生成的旅拍视频模板中提取镜头风格标签和文本内容标签，而后基于镜头风格标签和文本内容标签，从用户上传的旅游视频素材中搜索目标视频片段，从而可将旅拍视频模板与目标视频片段进行结合，生成旅拍视频。由于旅拍视频的过程无需人工进行视频素材的提取和组合，因此能够降低商家的人力成本。此外，由于目标视频片段搜索过程中同时考虑了视觉内容和文本内容，因此目标视频片段能够实现视觉内容和文本内容的协调统一，从而能够提高基于旅拍视频的质量。

本申请实施例还提供一种视频生成方法，可以应用在媒体视频生成场景。具体的，该方法包括：从预先生成的媒体视频模板中，提取镜头风格标签和文本内容标签。基于镜头风格标签和文本内容标签，从用户上传的媒体视频素材中搜索目标视频片段。将媒体视频模板与目标视频片段进行结合，生成媒体视频。

在本实施例中，媒体视频模板可以是用于制作媒体视频的视频模板。媒体视频可以包括但不限于影视剧综的长视频、短视频。以歌唱类综艺视频为例，媒体视频模板中的镜头风格标签可以包括但不限于镜头视角标签、镜头内容类别标签和镜头运动模式标签中的一项或多项。文本内容标签可以包括但不限于主持人词、歌手采访回答、赛前讨论内容等。

在本实施例中，媒体视频素材可以是媒体录制过程（如综艺录制过程）中拍摄的一段或多段视频。用户可将视频进行上传，执行主体可基于媒体视频模板中的镜头风格标签和文本内容标签，从用户上传的视频中提取目标视频片段，从而结合媒体视频模板生成媒体视频。

通过从预先生成的媒体视频模板中提取镜头风格标签和文本内容标签，而后基于镜头风格标签和文本内容标签，从用户上传的媒体视频素材中搜索目标视频片段，从而可将媒体视频模板与目标视频片段进行结合，生成媒体视频。由于媒体视频的过程无需人工进行视频素材的提取和组合，因此能够降低商家的人力成本。此外，由于目标视频片段搜索过程中同时考虑了视觉内容和文本内容，因此目标视频片段能够实现视觉内容和文本内容的协调统一，从而能够提高基于媒体视频的质量。

本申请实施例还提供一种视频生成方法，可以应用在教育领域的教学视频生成场景。具体的，该方法包括：从预先生成的教学视频模板中，提取镜头风格标签和文本内容标签。基于镜头风格标签和文本内容标签，从用户上传的课堂录像中搜索目标视频片段。

将教学视频模板与目标视频片段进行结合，生成教学视频。

在本实施例中，教学视频模板可以是用于制作教学视频的视频模板。教学视频模板中的镜头风格标签可以包括但不限于镜头视角标签、镜头内容类别标签和镜头运动模式标签中的一项或多项。文本内容标签可以包括但不限于教师授课内容、教师问题内容、学生回答内容、教师作业内容等。

在本实施例中，课堂录像可以是教师授课过程中所拍摄的一段或多段视频，可包括但不限于线上授课、线下授课。用户可将课堂录像进行上传，执行主体可基于教学视频模板中的镜头风格标签和文本内容标签，从用户上传的视频中提取目标视频片段，从而结合教学视频模板生成教学视频。

通过从预先生成的教学视频模板中提取镜头风格标签和文本内容标签，而后基于镜头风格标签和文本内容标签，从用户上传的课堂录像中搜索目标视频片段，从而可将教学视频模板与目标视频片段进行结合，生成教学视频。由于教学视频的过程无需人工进行视频素材的提取和组合，因此能够降低商家的人力成本。此外，由于目标视频片段搜索过程中同时考虑了视觉内容和文本内容，因此目标视频片段能够实现视觉内容和文本内容的协调统一，从而能够提高基于教学视频的质量。

需要说明的是，本申请实施例还可应用于其他类型的视频生成场景，如视频会议相关视频生成场景等，此处不再一一赘述。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

进一步参考图7，在实施例的基础上，本申请提供了一种视频模板生成装置的一个实施例，该装置具体可以应用于各种电子设备中。

如图7所示，本实施例的视频模板生成装置700包括：获取单元701，用于获取模板视频；解析单元702，用于对模板视频中各镜头片段的镜头风格和语音文本进行解析，得到各镜头片段的镜头风格标签和文本内容标签；生成单元703，用于基于所得到的镜头风格标签和文本内容标签，生成视频模板。

在本实施例的一些可选的实现方式中，装置还包括调整单元，用于接收对视频模板的调整指令，提供视频模板编辑控件，以基于视频模板编辑控件获取视频模板调整操作，视频模板调整操作包括对视频模板中的镜头风格标签、文本内容标签、配乐、字幕、贴图、封面、标签顺序中至少一项的调整操作；基于视频模板调整操作对视频模板进行调整。

在本实施例的一些可选的实现方式中，解析单元702，进一步用于将模板视频按照镜头视角切分为镜头片段；将各镜头片段分别输入至预先训练的镜头内容分类模型和镜头运动模式检测模型，得到各镜头片段的镜头内容类别标签和镜头运动模式标签。

在本实施例的一些可选的实现方式中，解析单元702，进一步用于获取各镜头片段对应的语音文本；将各语音文本输入至预先训练的文本分类模型，得到各镜头片段的文本内容标签。

在本实施例的一些可选的实现方式中，生成单元703，进一步用于获取模板视频的基本信息，基本信息包括元信息、配乐信息、视觉信息、特效信息中的至少一项，视觉信息包括封面信息、转场信息、视频内容信息、图片内容信息、字幕中的至少一项；将模板视频中各镜头片段的镜头风格标签和文本内容标签添加至视频内容信息中，基于预设的数据结构对基本信息进行汇总，得到视频模板。

本装置实施例可达到与方法实施例类型的技术效果，此处不再赘述。

进一步参考图8，在实施例的基础上，本申请提供了一种视频模板生成装置的一个实施例，该装置具体可以应用于各种电子设备中。

如图8所示，本实施例的视频模板生成装置800包括：交互单元801，用于提供交互页面，交互页面包括模板视频上传控件；上传单元802，用于根据对模板视频上传控件的触发，将模板视频上传至服务端，以便服务端基于对模板视频中各镜头片段的镜头风格和语音文本进行解析，得到各镜头片段对应的镜头风格标签和文本内容标签，并基于镜头风格标签和文本内容标签，生成视频模板；接收单元803，用于接收视频模板，提供视频模板编辑控件，并基于视频模板编辑控件获取视频模板调整操作，视频模板调整操作包括对视频模板中的镜头风格标签、文本内容标签、配乐、字幕、贴图、封面、标签顺序中至少一项的调整操作；调整单元804，用于基于视频模板调整操作对视频模板进行调整。

在本实施例的一些可选的实现方式中，装置还包括校验单元，用于提供视频模板校验控件；根据对视频模板校验控件的触发，获取测试视频素材；基于视频模板中的镜头风格标签和文本内容标签，从测试视频素材中搜索目标视频片段；将视频模板和目标视频片段进行结合，生成测试结果视频。

本实施例中，服务端可以向终端提供交互页面，以基于交互页面向终端提供视频模板生成的服务，用户可以在交互页面中触发模板视频上传控件，以通过终端将待解析的模板视频上传给服务端，服务端可以对模板视频进行解析，得到模板视频中各镜头片段的镜头风格标签和文本内容标签，从而基于镜头风格标签和文本内容标签，生成视频模板。服务端在得到视频模板之后，可以向终端反馈视频模板的生成结果，如通知终端是否生成成功或失败等。本装置实施例可达到与方法实施例类型的技术效果，此处不再赘述。

进一步参考图9，在实施例的基础上，本申请提供了一种视频生成装置的一个实施例，该装置具体可以应用于各种电子设备中。

如图9所示，本实施例的视频生成装置900包括：交互单元901，用于提供交互页面，交互页面包括视频素材上传控件；上传单元902，用于根据对视频素材上传控件的触发，将视频素材上传至服务端，以便服务端基于预先生成的视频模板中的镜头风格标签和文本内容标签搜索视频素材中的目标视频片段，以基于视频模板对搜索到的目标视频片段进行排序组合，得到目标视频；接收单元903，用于接收目标视频。

在本实施例的一些可选的实现方式中，装置还包括：调整单元，用于基于视频编辑控件获取视频调整操作，视频调整操作包括对目标视频中的镜头风格、文本内容、配乐、字幕、贴图、封面、视频帧中的元素、目标视频片段顺序中至少一项的调整操作；基于视频调整操作对目标视频进行调整。

在本实施例的一些可选的实现方式中，服务端通过如下步骤搜索目标视频片段：获取附加搜索信息，附加搜索信息包括以下至少一项：文本、图片、视频、序列；基于镜头风格标签和文本内容标签，搜索第一视频片段；基于附加搜索信息，搜索第二视频片段；基于第一视频片段和第二视频片段，确定目标视频片段。

在本实施例的一些可选的实现方式中，服务端通过如下步骤生成目标视频：按照视频模板中的镜头风格标签和文本内容标签的顺序，将所获取的目标视频片段进行排序组合；将视频模板中的其他信息与排序组合后的目标视频片段进行结合，生成目标视频，其他信息包括以下至少一项：配乐信息、特效信息、转场信息、图片内容信息、封面信息。

本实施例中，服务端可以向终端提供交互页面，以基于交互页面向终端提供视频生成的服务，用户可以在交互页面中触发视频素材上传控件，以通过终端将视频素材上传给服务端，服务端可以基于已生成的模板视频搜索视频素材中的目标视频片段，并基于视频模板对搜索到的目标视频片段进行排序组合，得到目标视频。服务端在得到目标视频之后，可以向终端反馈目标视频。本装置实施例可达到与方法实施例类型的技术效果，此处不再赘述。

进一步参考图10，在实施例的基础上，本申请提供了一种视频模板生成装置的一个实施例，该装置具体可以应用于各种电子设备中。

如图10所示，本实施例的视频模板生成装置1000包括：提取单元1001，用于从预先生成的产品介绍视频模板中，提取镜头风格标签和文本内容标签；搜索单元1002，用于基于镜头风格标签和文本内容标签，从目标产品的电商直播视频中搜索目标视频片段；生成单元1003，用于将产品介绍视频模板与目标视频片段进行结合，生成目标产品的产品介绍视频。

在本实施例的一些可选的实现方式中，装置还包括调整单元，用于接收对产品介绍视频的调整指令，提供视频编辑控件，以基于视频编辑控件获取视频调整操作，视频调整操作包括对产品介绍视频中的镜头风格、文本内容、配乐、字幕、贴图、封面、视频帧中的元素、目标视频片段顺序中至少一项的调整操作；基于视频调整操作对产品介绍目标视频进行调整。

在本实施例的一些可选的实现方式中，搜索单元1002，进一步用于获取附加搜索信息，附加搜索信息包括以下至少一项：文本、图片、视频、序列；基于镜头风格标签和文本内容标签，搜索第一视频片段；基于附加搜索信息，搜索第二视频片段；基于第一视频片段和第二视频片段，确定目标视频片段。

在本实施例的一些可选的实现方式中，生成单元1003，进一步用于按照产品介绍视频模板中的镜头风格标签和文本内容标签的顺序，将所获取的目标视频片段进行排序组合；将产品介绍视频模板中的其他信息与排序组合后的目标视频片段进行结合，生成产品介绍目标视频，其他信息包括以下至少一项：配乐信息、特效信息、转场信息、图片内容信息、封面信息。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块（programs），该一个或多个模块被应用在设备时，可以使得该设备执行本申请实施例中各方法步骤的指令（instructions）。

本申请实施例提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得电子设备执行如上述实施例中一个或多个所述的方法。本申请实施例中，所述电子设备包括终端设备、服务器（集群）等各类型的设备。

本公开的实施例可被实现为使用任意适当的硬件，固件，软件，或及其任意组合进行想要的配置的装置，该装置可包括终端设备、服务器（集群）等电子设备。图11示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置1100 。

对于一个实施例，图11示出了示例性装置1100，该装置具有一个或多个处理器1102、被耦合到(一个或多个)处理器1102中的至少一个的控制模块（芯片组）1104、被耦合到控制模块1104的存储器1106、被耦合到控制模块1104的非易失性存储器(NVM)/存储设备1108、被耦合到控制模块1104的一个或多个输入/输出设备1110，以及被耦合到控制模块1104的网络接口1112。

处理器1102可包括一个或多个单核或多核处理器，处理器1102可包括通用处理器或专用处理器（例如图形处理器、应用处理器、基频处理器等）的任意组合。在一些实施例中，装置1100 能够作为本申请实施例中所述终端设备、服务器（集群）等设备。

在一些实施例中，装置1100 可包括具有指令1114的一个或多个计算机可读介质(例如，存储器1106或NVM/ 存储设备1108) 以及与该一个或多个计算机可读介质相合并被配置为执行指令1114以实现模块从而执行本公开中所述的动作的一个或多个处理器1102。

对于一个实施例，控制模块1104可包括任意适当的接口控制器，以向(一个或多个)处理器1102中的至少一个和/或与控制模块1104通信的任意适当的设备或组件提供任意适当的接口。

控制模块1104可包括存储器控制器模块，以向存储器1106提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。

存储器1106可被用于例如为装置1100加载和存储数据和/或指令1114。对于一个实施例，存储器1106可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，存储器1106可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM) 。

对于一个实施例，控制模块1104可包括一个或多个输入/输出控制器，以向NVM/存储设备1108及(一个或多个)输入/输出设备1110 提供接口。

例如，NVM/存储设备1108可被用于存储数据和/或指令1114。NVM/存储设备1108可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD) 、一个或多个光盘(CD) 驱动器和/或一个或多个数字通用光盘(DVD) 驱动器)。

NVM/存储设备1108可包括在物理上作为装置1100 被安装在其上的设备的一部分的存储资源，或者其可被该设备访问可不必作为该设备的一部分。例如， NVM/存储设备1108可通过网络经由(一个或多个)输入/输出设备1110 进行访问。

(一个或多个)输入/输出设备1110 可为装置1100 提供接口以与任意其他适当的设备通信，输入/输出设备1110可以包括通信组件、音频组件、传感器组件等。网络接口1112可为装置1100 提供接口以通过一个或多个网络通信，装置1100 可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信，例如接入基于通信标准的无线网络，如WiFi、2G、3G、4G、5G等，或它们的组合进行无线通信。

对于一个实施例，(一个或多个)处理器1102中的至少一个可与控制模块1104的一个或多个控制器(例如，存储器控制器模块) 的逻辑封装在一起。对于一个实施例，(一个或多个)处理器1102中的至少一个可与控制模块1104的一个或多个控制器的逻辑封装在一起以形成***级封装(SiP) 。对于一个实施例， (一个或多个)处理器1102中的至少一个可与控制模块1104的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例， (一个或多个)处理器1102中的至少一个可与控制模块1104的一个或多个控制器的逻辑集成在同一模具上以形成片上***(SoC) 。

在各个实施例中，装置1100可以但不限于是：服务器、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中，装置1100 可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，装置1100包括一个或多个摄像机、键盘、液晶显示器(LCD) 屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC) 和扬声器。

其中，装置中可采用主控芯片作为处理器或控制模块，传感器数据、位置信息等存储到存储器或NVM/存储设备中，传感器组可作为输入/输出设备，通信接口可包括网络接口。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本申请实施例是参照根据本申请实施例的方法、终端设备(***)、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的视频模板生成方法、视频生成方法、装置和电子设备，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频模板生成方法，其特征在于，所述方法包括：

提供交互页面，所述交互页面包括模板视频上传控件；

根据对模板视频上传控件的触发，将模板视频上传至服务端，以便所述服务端对所述模板视频中各镜头片段的镜头风格和语音文本进行解析，得到各镜头片段对应的镜头风格标签和文本内容标签，并基于所述镜头风格标签和所述文本内容标签，生成视频模板，所述镜头风格标签包括镜头内容类别标签和镜头运动模式标签；

接收所述视频模板，提供视频模板编辑控件，并基于所述视频模板编辑控件获取视频模板调整操作，所述视频模板调整操作包括对视频模板中的镜头风格标签、文本内容标签、配乐、字幕、贴图、封面、标签顺序中至少一项的调整操作；

基于所述视频模板调整操作对所述视频模板进行调整。

2.根据权利要求1所述的方法，其特征在于，在接收所述视频模板之后，所述方法还包括：

提供视频模板校验控件；

根据对视频模板校验控件的触发，获取测试视频素材；

基于所述视频模板中的镜头风格标签和文本内容标签，从所述测试视频素材中搜索目标视频片段；

将所述视频模板和所述目标视频片段进行结合，生成测试结果视频。

3.一种视频模板生成方法，其特征在于，所述方法包括：

获取模板视频；

对所述模板视频中各镜头片段的镜头风格和语音文本进行解析，得到各镜头片段的镜头风格标签和文本内容标签，所述镜头风格标签包括镜头内容类别标签和镜头运动模式标签；

基于所得到的镜头风格标签和文本内容标签，生成视频模板。

4.根据权利要求3所述的方法，其特征在于，在生成视频模板之后，所述方法还包括：

接收对所述视频模板的调整指令，提供视频模板编辑控件，以基于所述视频模板编辑控件获取视频模板调整操作，所述视频模板调整操作包括对视频模板中的镜头风格标签、文本内容标签、配乐、字幕、贴图、封面、标签顺序中至少一项的调整操作；

基于所述视频模板调整操作对所述视频模板进行调整。

5.根据权利要求4所述的方法，其特征在于，对所述模板视频中各镜头片段的镜头风格进行解析，得到各镜头片段对应的镜头风格标签，包括：

将所述模板视频按照镜头视角切分为镜头片段；

将各镜头片段分别输入至预先训练的镜头内容分类模型和镜头运动模式检测模型，得到各镜头片段的镜头内容类别标签和镜头运动模式标签。

6.根据权利要求5所述的方法，其特征在于，对所述模板视频中各镜头片段的语音文本进行解析，得到各镜头片段对应的文本内容标签，包括：

获取各镜头片段对应的语音文本；

将各语音文本输入至预先训练的文本分类模型，得到各镜头片段的文本内容标签。

7.根据权利要求3所述的方法，其特征在于，所述基于所得到的镜头风格标签和文本内容标签，生成视频模板，包括：

获取所述模板视频的基本信息，所述基本信息包括元信息、配乐信息、视觉信息、特效信息中的至少一项，所述视觉信息包括封面信息、转场信息、视频内容信息、图片内容信息、字幕中的至少一项；

将所述模板视频中各镜头片段的镜头风格标签和文本内容标签添加至所述视频内容信息中，基于预设的数据结构对所述基本信息进行汇总，得到视频模板。

8.一种视频生成方法，其特征在于，所述方法包括：

提供交互页面，所述交互页面包括视频素材上传控件；

根据对视频素材上传控件的触发，将视频素材上传至服务端，以便所述服务端基于预先生成的视频模板中的镜头风格标签和文本内容标签搜索所述视频素材中的目标视频片段，以基于所述视频模板对搜索到的目标视频片段进行排序组合，得到目标视频，所述镜头风格标签包括镜头内容类别标签和镜头运动模式标签；

接收所述目标视频。

9.根据权利要求8所述的方法，其特征在于，所述交互页面中还包括视频编辑控件，在接收所述目标视频之后，所述方法还包括：

基于所述视频编辑控件获取视频调整操作，所述视频调整操作包括对目标视频中的镜头风格、文本内容、配乐、字幕、贴图、封面、视频帧中的元素、目标视频片段顺序中至少一项的调整操作；

基于所述视频调整操作对所述目标视频进行调整。

10.根据权利要求8所述的方法，其特征在于，所述服务端通过如下步骤搜索目标视频片段：

获取附加搜索信息，所述附加搜索信息包括以下至少一项：文本、图片、视频、序列；

基于所述镜头风格标签和所述文本内容标签，搜索第一视频片段；

基于所述附加搜索信息，搜索第二视频片段；

基于所述第一视频片段和所述第二视频片段，确定目标视频片段。

11.根据权利要求8所述的方法，其特征在于，所述服务端通过如下步骤生成目标视频：

按照所述视频模板中的镜头风格标签和文本内容标签的顺序，将所获取的目标视频片段进行排序组合；

将所述视频模板中的其他信息与排序组合后的目标视频片段进行结合，生成目标视频，所述其他信息包括以下至少一项：配乐信息、特效信息、转场信息、图片内容信息、封面信息。

12.一种视频生成方法，其特征在于，所述方法包括：

从预先生成的产品介绍视频模板中，提取镜头风格标签和文本内容标签；

基于所述镜头风格标签和所述文本内容标签，从目标产品的电商直播视频中搜索目标视频片段，所述镜头风格标签包括镜头内容类别标签和镜头运动模式标签；

将所述产品介绍视频模板与所述目标视频片段进行结合，生成所述目标产品的产品介绍视频。

13.一种电子设备，其特征在于，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如权利要求1-12中任一所述的方法。

14.一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如权利要求1-12中任一所述的方法。