CN113473182B

CN113473182B - 一种视频生成的方法及装置、计算机设备和存储介质

Info

Publication number: CN113473182B
Application number: CN202111036069.6A
Authority: CN
Inventors: 林琴; 洪志鹰; 张浩鑫; 熊江丰; 姚丹; 张丹燕; 康又文; 杨秀金
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-09-06
Filing date: 2021-09-06
Publication date: 2021-12-07
Anticipated expiration: 2041-09-06
Also published as: CN113473182A

Abstract

本申请公开了一种视频生成的方法及装置、计算机设备和存储介质，用于视频处理领域。视频生成的包括：获取待处理素材以及目标参数；基于待处理素材获取标签信息；基于待处理素材中的多媒体数据，以及标签信息中的行业标签信息确定参数调整策略；基于参数调整策略以及目标参数，对待处理素材进行处理，以生成目标视频。通过上述方法，通过视频时长调整策略以及目标参数对待处理素材进行处理，由于视频时长调整策略用于对视频时长进行调整，因此目标视频的视频时长能够满足目标参数的需求，其次，由于标签信息还包括指示待处理素材所属行业的行业标签信息，通过参数调整策略所进行的对应调整也满足行业需求，由此提升视频生成的灵活性以及准确性。

Description

一种视频生成的方法及装置、计算机设备和存储介质

技术领域

本申请涉及视频处理领域，尤其涉及一种视频生成的方法及装置、计算机设备和存储介质。

背景技术

随着互联网服务的发展，视频已成为一个重要的发展趋势。在制作视频的过程中，视频新素材从拍摄到剪辑的制作成本都较高，而直接复用已有素材又会因为素材重复而导致所得到的视频过于相似。目前，能够对已有的素材做二次创作，利用图片素材、文案素材以及视频素材，需要根据剪辑人员基于剪辑经验对图片素材、文案素材、视频素材、相关音乐以及模板进行融合组合变换，增加特效及转场，重新配乐，才能够生成一段新的视频。然而，对不同的媒体行业有着不同的行业需求，因此如何更为灵活且准确地生成，符合每个行业需求的视频成为一个亟需解决的问题。

发明内容

本申请实施例提供了一种视频生成的方法及装置、计算机设备和存储介质，基于待处理素材获取标签信息，并基于待处理素材中的多媒体数据，以及标签信息中的行业标签信息确定参数调整策略，通过视频时长调整策略以及目标参数对待处理素材进行处理，由于视频时长调整策略用于对视频时长进行调整，由此得到的目标视频的视频时长能够满足目标参数的需求，其次，由于标签信息还包括指示待处理素材所属行业的行业标签信息，通过参数调整策略所进行的对应调整也满足行业需求，由此提升视频生成的灵活性以及准确性。

有鉴于此，本申请第一方面提供了一种视频生成的方法，包括：

获取待处理素材以及目标参数，其中，待处理素材包括多媒体数据，目标参数包括待合成视频的目标视频时长；

基于待处理素材获取标签信息，其中，标签信息包括指示待处理素材所属行业的行业标签信息；

基于待处理素材中的多媒体数据，以及标签信息中的行业标签信息确定参数调整策略，其中，参数调整策略包括用于对所述待处理素材进行视频时长处理的视频时长调整策略；

基于参数调整策略以及目标参数，对待处理素材进行处理，以生成目标视频，其中，目标视频的视频时长等于待合成视频的目标视频时长。

本申请第二方面提供了一种视频生成装置，包括：

获取模块，用于获取待处理素材以及目标参数，其中，待处理素材包括多媒体数据，目标参数包括待合成视频的目标视频时长；

获取模块，还用于基于待处理素材获取标签信息，其中，标签信息包括指示待处理素材所属行业的行业标签信息；

确定模块，用于基于待处理素材中的多媒体数据，以及标签信息中的行业标签信息确定参数调整策略，其中，参数调整策略包括用于对所述待处理素材进行视频时长处理的视频时长调整策略；

处理模块，用于基于参数调整策略以及目标参数，对待处理素材进行处理，以生成目标视频，其中，目标视频的视频时长等于待合成视频的目标视频时长。

在一个可能的实施方式中，目标参数还包括待合成视频的目标视频尺寸；

标签信息还包括指示待处理素材所属场景的场景标签信息；

参数调整策略还包括用于对视频尺寸进行调整的视频尺寸调整策略；

目标视频的视频尺寸等于待合成视频的目标视频尺寸；

确定模块，具体用于基于待处理素材以及行业标签信息确定视频时长调整策略；

基于待处理素材中的多媒体数据，行业标签信息以及场景标签信息确定视频尺寸调整策略；

处理模块，具体用于基于视频时长调整策略，视频尺寸调整策略，待合成视频的目标视频时长以及待合成视频的目标视频尺寸，对待处理素材进行处理，以生成目标视频。

在一个可能的实施方式中，多媒体数据为视频数据；

获取模块，具体用于对多媒体数据进行特征化处理，得到素材特征，其中，素材特征包括视频帧特征以及语音序列特征，或，素材特征包括视频帧特征，语音序列特征以及文本特征；

若素材特征包括视频帧特征以及语音序列特征，则对视频帧特征以及语音序列特征进行聚合处理以得到第一全局特征，并基于第一全局特征得到待处理素材的标签信息；

若素材特征包括视频帧特征，语音序列特征以及文本特征，则对视频帧特征，语音序列特征以及文本特征进行聚合处理以得到第二全局特征，并基于第二全局特征得到待处理素材的标签信息。

在一个可能的实施方式中，处理模块，具体用于获取多媒体数据的每个视频帧中每个像素点的RGB参数；

基于多媒体数据以及每个视频帧中每个像素点的RGB参数，通过概率输出模型获取每个视频帧为画面切换帧的概率；

基于每个视频帧为画面切换帧的概率，将多媒体数据划分为多组视频片段；

基于参数调整策略以及目标参数，对多组视频片段进行处理，以生成目标视频。

在一个可能的实施方式中，多媒体数据的视频时长小于目标视频时长；

处理模块，具体用于基于行业标签信息确定行业模板集合；

将行业模板集合中的行业模板添加至多组视频片段中，以得到多组第一视频片段，其中，每个第一视频片段的视频时长的总和等于待合成视频的目标视频时长；

将多组第一视频片段进行合并处理，以生成目标视频。

在一个可能的实施方式中，标签信息还包括指示待处理素材特征的特征标签信息；

多媒体数据的视频时长大于目标视频时长；

多组视频片段包括第一组视频片段以及第二组视频片段；

处理模块，具体用于基于行业标签信息以及特征标签信息，确定第一组视频片段的分数以及第二组视频片段的分数，其中，第一组视频片段的分数大于第二组视频片段的分数；

基于第一组视频片段的分数以及第二组视频片段的分数确定视频剪辑比例；

基于视频剪辑比例对第一组视频片段以及第二组视频片段进行剪辑，得到第一组视频片段的剪辑结果，以及第二组视频片段的剪辑结果，其中，第一组视频片段的剪辑结果的视频时长，与第二组视频片段的剪辑结果的视频时长之和等于待合成视频的目标视频时长；

将第一组视频片段的剪辑结果，以及第二组视频片段的剪辑结果进行合并处理，以生成目标视频。

在一个可能的实施方式中，多媒体数据为图片数据；

获取模块，具体用于对多媒体数据进行特征化处理，得到素材特征，其中，素材特征包括图片特征，或，素材特征包括图片特征以及文本特征；

若素材特征包括图片特征以及文本特征，则对图片特征以及文本特征进行聚合处理以得到第三全局特征，并基于第三全局特征得到待处理素材的标签信息；

若素材特征包括图片特征，则基于图片特征得到待处理素材的标签信息。

在一个可能的实施方式中，处理模块，具体用于基于行业标签信息确定行业模板集合；

根据行业模板集合以及目标参数，对待处理素材进行处理，以得到目标视频。

在一个可能的实施方式中，图片数据为单张图片；

标签信息还包括交互控件标签，交互控件标签表示待处理素材中存在交互控件；

处理模块，具体用于基于交互控件标签，从待处理素材中确定交互控件；

对交互控件进行增强处理，以得到第一素材，其中，第一素材包括进行增强处理后的交互控件，增强处理为对交互控件进行放大缩小，或，增强处理为对交互控件进行加粗高亮；

根据行业模板集合以及目标参数，对第一素材进行处理，以得到目标视频。

在一个可能的实施方式中，图片数据为多张图片；

目标参数还包括音乐风格；

处理模块，具体用于基于音乐风格确定目标音乐；

基于目标音乐确定目标音乐中的多个鼓点位置；

基于目标音乐中的多个鼓点位置确定待处理素材中每张图片的展示时长；

根据行业模板集合，目标参数以及图片数据中每张图片的展示时长，对待处理素材进行处理，以得到目标视频。

在一个可能的实施方式中，标签信息还包括交互控件标签，交互控件标签表示待处理素材中存在交互控件；

处理模块，具体用于基于交互控件标签，从待处理素材中确定至少一个交互控件；

对每个交互控件进行增强处理，以得到第二素材，其中，第二素材包括至少一个进行增强处理后的交互控件，增强处理为对交互控件进行放大缩小，或，增强处理为对交互控件进行加粗高亮；

根据行业模板集合以及目标参数，对第二素材进行处理，以得到目标视频。

在一个可能的实施方式中，目标参数还包括贴纸元素、字幕元素或图形标志元素中至少一项；

处理模块，具体用于基于参数调整策略以及目标参数，对待处理素材进行处理，以生成第一视频；

确定贴纸元素、字幕元素以及图形标志元素在第一视频中预设位置；

将预设位置，将贴纸元素、字幕元素以及图形标志元素中至少一项放置于在第一视频中预设位置中，以生成目标视频。

在一个可能的实施方式中，目标参数还包括音乐风格以及特效元素；

处理模块，具体用于将预设位置，将贴纸元素、字幕元素以及图形标志元素中至少一项放置于在第一视频中预设位置中，以生成第二视频；

基于音乐风格确定目标音乐；

基于目标音乐确定目标音乐中的多个鼓点位置；

基于目标音乐中的多个鼓点位置以及第二视频，确定第二视频中的特效转场位置；

将特效元素添加至第二视频中的特效转场位置上，以生成目标视频。

在一个可能的实施方式中，视频生成装置还包括显示模块；

获取模块，具体用于显示输入界面，其中，输入界面包括数据输入接口以及参数选择接口，数据输入接口用于输入待处理素材，参数选择接口用于选择目标参数；

响应于对输入界面中数据输入接口的数据选择操作，获取待处理素材；

响应于对输入界面中参数选择接口的参数选择操作，获取目标参数；

显示模块，用于处理模块基于参数调整策略以及目标参数，对待处理素材进行处理，以生成目标视频之后，在视频展示界面显示目标视频。

本申请的第三方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

本申请的另一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方面所提供的方法。

本申请实施例中，提供了一种视频生成的方法，先获取待处理素材以及目标参数，待处理素材包括多媒体数据，目标参数包括待合成视频的目标视频时长，然后基于待处理素材获取标签信息，该标签信息包括指示待处理素材所属行业的行业标签信息，再基于待处理素材中的多媒体数据，以及标签信息中的行业标签信息确定参数调整策略，该参数调整策略包括用于对所述待处理素材进行视频时长处理的视频时长调整策略，最后基于参数调整策略以及目标参数，对待处理素材进行处理，以生成目标视频，其中，目标视频的视频时长等于待合成视频的目标视频时长。通过前述方法，基于待处理素材获取标签信息，并基于待处理素材中的多媒体数据，以及标签信息中的行业标签信息确定参数调整策略，通过视频时长调整策略以及目标参数对待处理素材进行处理，由于视频时长调整策略用于对视频时长进行调整，由此得到的目标视频的视频时长能够满足目标参数的需求，其次，由于标签信息还包括指示待处理素材所属行业的行业标签信息，通过参数调整策略所进行的对应调整也满足行业需求，由此提升视频生成的灵活性以及准确性。

附图说明

图1为本申请实施例中视频生成***的一个架构示意图；

图2为本申请实施例提供的一种视频生成的方法的实施例示意图；

图3为本申请实施例提供的一种视频尺寸调整策略的实施例示意图；

图4为本申请实施例提供的另一视频尺寸调整策略的实施例示意图；

图5为本申请实施例提供的获取素材特征的一种实施例示意图；

图6为本申请实施例提供的获取待处理素材的标签信息的实施例示意图；

图7为本申请实施例提供的获取画面切换帧的概率的实施例示意图；

图8为本申请实施例提供的另一种视频生成的实施例示意图；

图9为本申请实施例提供的获取素材特征的实施例示意图；

图10为本申请实施例提供的获取待处理素材的标签信息的实施例示意图；

图11为本申请实施例提供的增强处理的界面示意图；

图12为本申请实施例提供的贴纸元素、字幕元素以及图形标志元素的界面示意图；

图13为本申请实施例提供的基于贴纸元素、字幕元素以及图形标志元素生成目标视频的界面示意图；

图14为本申请实施例显示输入界面以及显示目标视频的界面示意图；

图15为本申请实施例中视频生成装置一个实施例示意图；

图16为本申请实施例中服务器一个实施例示意图；

图17为本申请实施例中终端设备一个实施例示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

随着互联网服务的发展，视频已成为一个重要的发展趋势。而广告素材视频化，已成为广告投放的大势所趋，在制作广告视频的过程中，视频新素材从拍摄到剪辑的制作成本都较高，而直接复用已有素材又会因为素材重复而导致所得到的视频过于相似。目前，能够对已有的素材做二次创作，利用图片素材、文案素材以及视频素材，需要根据剪辑人员基于剪辑经验对图片素材、文案素材、视频素材、相关音乐以及模板进行融合组合变换，增加特效及转场，重新配乐，才能够生成一段新的视频。但传统的剪辑软件操作需要剪辑人员有丰富的剪辑经验，才能够针对不同行业的广告视频有着不同的创意形式，然而，对不同的媒体行业有着不同的行业需求，因此如何更为灵活且准确地生成，符合每个行业需求的视频成为一个亟需解决的问题。为了解决上述问题，本申请实施例提供了一种视频生成的方法，由于视频时长调整策略用于对视频时长进行调整，由此得到的目标视频的视频时长能够满足目标参数的需求，其次，由于标签信息还包括指示待处理素材所属行业的行业标签信息，通过参数调整策略所进行的对应调整也满足行业需求，由此提升视频生成的灵活性以及准确性。

下面对本申请实施例的视频生成***进行介绍。可以理解的，该视频生成的方法可以由终端设备来执行，也可以由服务器来执行。本申请提供的视频生成的方法应用于如图1所示的视频生成***，请参阅图1，图1为本申请实施例中视频生成***的一个架构示意图，如图1所示，视频生成***包括终端设备以及服务器。具体地，若以终端设备为执行主体为例对本申请实施例提供的视频生成的方法进行介绍，那么终端设备能够通过本申请实施例所提供的方法获取待处理素材以及目标参数，并基于待处理素材获取标签信息，并基于待处理素材中的多媒体数据，以及标签信息中的行业标签信息确定参数调整策略，由此基于参数调整策略以及目标参数，对待处理素材进行处理，以生成目标视频，并且在终端设备上展示目标视频。其次，若以服务器为执行主体为例对本申请实施例提供的视频生成的方法进行介绍，那么首先需要用户在终端设备所显示的输入界面进行数据选择操作以及参数选择操作，以获取待处理素材以及目标参数，并且向服务器发送待处理素材以及目标参数，使得服务器基于待处理素材获取标签信息，并基于待处理素材中的多媒体数据，以及标签信息中的行业标签信息确定参数调整策略，由此基于参数调整策略以及目标参数，对待处理素材进行处理，以生成目标视频，然后服务器向终端设备发送目标视频，从而使得终端设备展示该目标视频。

本申请涉及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content DeliveryNetwork，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视等，但不局限于此。且终端设备和服务器之间可以通过无线网络、有线网络或可移动存储介质进行通信。其中，上述的无线网络使用标准通信技术和/或协议。无线网络通常为因特网、但也可以是任何网络，包括但不限于蓝牙、局域网（Local Area Network，LAN）、城域网（Metropolitan Area Network，MAN）、广域网（Wide Area Network，WAN）、移动、专用网络或者虚拟专用网络的任何组合）。在一些实施例中，可以使用定制或专用数据通信技术取代或者补充上述数据通信技术。可移动存储介质可以为通用串行总线（Universal Serial Bus，USB）闪存盘、移动硬盘或其他可移动存储介质等。

虽然图1中仅示出了五个终端设备和一个服务器，但应当理解，图1中的示例仅用于理解本方案，具体终端设备和服务器的数量均应当结合实际情况灵活确定。

其次，本申请实施例所提供的视频生成的方法可以应用于广告场景或娱乐场景等，由于广告具体能够分为非经济广告以及经济广告，非经济广告是指不以营利为目的的广告，而经济广告是以营利为目的的广告，为了进一步地理解本方案，下面分别对非经济广告以及经济广告进行介绍：

第一类应用场景为非经济广告，非经济广告包括但不限于政府公告，政党、教育、文化、市政、社会团体等方面的启事、声明，那么对于非经济广告而言，通过本方案所提供的视频生成的方法，能够获取待处理的素材以及目标参数，此时素材可以为启事素材或者声明素材等，而目标参数可以为待合成视频的目标视频时长或者视频尺寸，例如，所生成视频应该在某个重要地段的屏幕上循环播放，那么所生成视频的视频尺寸应该与该屏幕所能够播放的视频尺寸一致。基于此，再根据素材得到素材的相关标签，例如，政府行业、教育行业或者市政行业等，由此能够确定该素材重要的行业标签信息，并且基于标签信息确定用于对待生成的视频进行参数调整的参数调整策略，从而通过参数调整策略以满足目标参数为目标，对待处理素材进行处理，以生成目标视频，从而得到能够满足具体行业需求以及目标参数的视频。

第二类应用场景为经济广告，经济广告通常是商业广告，经济广告是为推销商品或提供服务，以付费方式通过广告媒体向消费者或用户传播商品或服务信息的手段。那么对于经济广告而言，通过本方案所提供的视频生成的方法，能够获取待处理的素材以及目标参数，此时素材可以为商品素材或者服务信息素材等，而目标参数可以为待合成视频的目标视频时长或者视频尺寸，例如，所生成视频在某个人流量较多的商场播放，那么所生成视频的视频尺寸应该与商场所包括的屏幕能够播放的视频尺寸一致。基于此，再根据素材得到素材的相关标签，例如，电商行业、网络服务行业以及金融行业等，即能够确定该素材重要的行业标签信息，并且基于标签信息确定用于对待生成的视频进行参数调整的参数调整策略，从而通过参数调整策略以满足目标参数为目标，对待处理素材进行处理，以生成目标视频，从而得到能够满足电商行业、网络服务行业以及金融行业等具体行业需求，且满足用户所需目标参数的视频。

可以理解的是，前述应用场景的介绍仅用于进一步地理解本方案，在实际应用中，本申请实施例所提供的视频生成的方法的具体应用场景包括但不限于上述示例的几种，具体此处不对可用的应用场景进行穷举。

由于本申请实施例中部分步骤需要基于人工智能（Artificial Intelligence，AI）来实现，在对本申请实施例提供的视频生成的方法开始介绍之前，先对人工智能领域的一些基础概念进行介绍。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术研究和进步，人工智能技术在多种方向展开研究，机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

结合上述介绍，下面以执行主体为终端设备为例，对本申请中视频生成的方法进行介绍，请参阅图2，图2为本申请实施例提供的一种视频生成的方法的实施例示意图，如图2所示，视频生成的方法包括：

101、获取待处理素材以及目标参数，其中，待处理素材包括多媒体数据，目标参数包括待合成视频的目标视频时长。

本实施例中，视频生成装置获取待处理素材以及目标参数。其中，待处理素材包括多媒体数据，该多媒体数据可以为视频数据，或多媒体数据为图片数据，或多媒体数据为视频数据以及图片数据，应理解，在实际应用中，多媒体数据还可以为文本信息或者音乐信息，待处理素材包括的具体多媒体数据需要根据实际情况灵活确定。

其次，目标参数包括待合成视频的目标视频时长，例如，待合成视频的目标视频时长为30秒（second，s），或待合成视频的目标视频时长为2分钟（minute，min）等，或，待合成视频的目标视频时长小于15s等，目标时长可以为具体时间或者一定的时间范围，具体此处不做限定。前述目标参数用于指示最终所生成视频应匹配的参数以及其他相关信息，例如，目标参数还可以包括待合成视频的目标视频尺寸，或待合成视频的音乐风格，或待合成视频中能够放置的贴纸元素、字幕元素、图形标志元素以及特效元素等，由于在应用于不同行业的广告场景中，视频数据的类型以及图片数据的类型有较多选择，同一行业的视频数据以及图片数据形态多样，且不同行业的视频数据内容以及图片数据内容也差异巨大，因此针对于不同行业会存在不同的目标参数，因此前述示例不应理解为本方案的限定。

102、基于待处理素材获取标签信息，其中，标签信息包括指示待处理素材所属行业的行业标签信息。

本实施例中，视频生成装置基于待处理素材获取标签信息，此时标签信息包括指示待处理素材所属行业的行业标签信息。可选地，标签信息还能够包括指示待处理素材所属场景的场景标签信息，或者指示待处理素材特征的特征标签信息，或者只是待处理素材中存在交互控件的交互控件标签灯，对不同待处理素材能够得到待处理素材所对应的标签信息，因此此处不对标签信息所包括的内容进行穷举。

具体地，本实施例中行业标签信息包括但不限于政府行业、教育行业、金融行业、网络服务行业以及电商行业等。示例性地，若待处理素材为图片数据，且图片数据中包括一双鞋或者一件衣服，那么视频生成装置基于该待处理素材所获取的标签信息，能包括指示待处理素材属于电商行业的行业标签信息。其次，多媒体数据为视频数据，且图片数据为一段关于疫情防控的宣传视频，那么视频生成装置基于该待处理素材所获取的标签信息，能包括指示待处理素材属于政府行业的行业标签信息。应理解，前述示例仅用于理解行业标签，而不应理解为本方案的限定。

103、基于待处理素材中的多媒体数据，以及标签信息中的行业标签信息确定参数调整策略，其中，参数调整策略包括用于对所述待处理素材进行视频时长处理的视频时长调整策略。

本实施例中，视频生成装置基于待处理素材中的多媒体数据，以及标签信息中的行业标签信息确定参数调整策略，由于标签信息中包括指示待处理素材所属行业的行业标签信息，因此基于待处理素材以及行业标签信息能够确定视频时长调整策略，该视频时长调整策略能够对待处理素材中的多媒体数据进行视频时长处理，即参数调整策略包括该视频时长调整策略。

具体地，参数调整策略具体用于对待处理素材中的多媒体数据进行处理，以生成满足目标参数的目标视频，具体对待处理素材中的多媒体数据进行视频时长处理的方法可以包括但不限于剪辑处理，模板添加处理以及合并处理等，此处不作具体限定。示例性地，多媒体数据为视频数据，若该视频数据的视频时长大于目标参数中待合成视频的目标视频时长，此时需要基于待处理素材以及步骤102所确定标签信息，确定如何对待处理素材的视频时间进行剪辑以缩短至目标参数的视频时长调整策略。其次，若视频数据的视频时长小于目标参数中待合成视频的目标视频时长，此时需要基于待处理素材以及步骤102所确定标签信息，确定如何对待处理素材的视频时间增加至目标参数的视频时长调整策略。应理解，通过步骤102可知，标签信息中还可以包括其他与待处理素材所对应的具体标签信息，不同的标签信息能够得到相对应的参数调整策略，且每个参数调整策略均用于对待处理素材进行调整，以达到目标参数所包括参数的目的。基于此，此处不对参数调整策略所包括的内容进行穷举。

104、基于参数调整策略以及目标参数，对待处理素材进行处理，以生成目标视频，其中，目标视频的视频时长等于待合成视频的目标视频时长。

本实施例中，视频生成装置基于参数调整策略以及目标参数，对待处理素材进行处理，以生成目标视频，此时目标视频的视频时长等于待合成视频的目标视频时长。具体地，本实施例中所描述的目标视频可以为一个视频或多个视频，即只要视频时长均等于待合成视频的目标视频时长即可，因此不应理解为本申请实施例最终生成的匹配目标参数的视频仅为一个，目标视频的视频个数不应理解为本方案的限定。

具体地，视频生成装置基于步骤103所确定的参数调整策略，并且以步骤101所获取的目标参数为处理目标，对待处理素材进行处理，以得到与目标参数相匹配的目标视频。应理解，由于本实施例仅限定目标参数为待合成视频的目标视频时长，因此所得到的目标视频的视频时长等于待合成视频的目标视频时长，基于步骤101所例举的目标参数，若目标参数还包括待合成视频的目标视频尺寸，那么目标视频的视频尺寸也等于待合成视频的目标视频尺寸，若目标参数还包括待合成视频的音乐风格，那么目标视频的音乐风格与待合成视频的音乐风格相匹配，其次，若目标参数还包括待合成视频中能够放置的贴纸元素以及字幕元素，那么目标视频中还会包括的用户所选定的贴纸元素以及字幕元素。因此，因此针对于不同行业会存在不同的目标参数，而不同的目标参数对导致所生成目标视频也不相同，因此前述示例不应理解为本方案的限定。

本申请实施例中，提供了一种视频生成的方法，通过上述方法，基于待处理素材获取标签信息，并基于待处理素材中的多媒体数据，以及标签信息中的行业标签信息确定参数调整策略，通过视频时长调整策略以及目标参数对待处理素材进行处理，由于视频时长调整策略用于对视频时长进行调整，由此得到的目标视频的视频时长能够满足目标参数的需求，其次，由于标签信息还包括指示待处理素材所属行业的行业标签信息，通过参数调整策略所进行的对应调整也满足行业需求，由此提升视频生成的灵活性以及准确性。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频生成的方法一个可选实施例中，目标参数还包括待合成视频的目标视频尺寸；

标签信息还包括指示待处理素材所属场景的场景标签信息；

目标视频的视频尺寸等于待合成视频的目标视频尺寸；

基于待处理素材中的多媒体数据，以及标签信息中的行业标签信息确定参数调整策略，具体包括：

基于待处理素材以及行业标签信息确定视频时长调整策略；

基于参数调整策略以及目标参数，对待处理素材进行处理，以生成目标视频，具体包括：

基于视频时长调整策略，视频尺寸调整策略，待合成视频的目标视频时长以及待合成视频的目标视频尺寸，对待处理素材进行处理，以生成目标视频。

本实施例中，基于前述实施例可知，目标参数还可以包括待合成视频的目标视频尺寸，目标视频尺寸可以为所得到视频的尺寸比例，例如，待合成视频的目标视频尺寸为16:9，待合成视频的目标视频尺寸为9:16，以及待合成视频的目标视频尺寸为4:3等。或，目标视频尺寸还可以为所得到视频的具体尺寸，例如，待合成视频的目标视频尺寸为750*1334，以及待合成视频的目标视频尺寸为512*384等。其次，标签信息还包括指示待处理素材所属场景的场景标签信息，例如，场景标签信息为试卷答题场景标签，以及场景标签信息为商品特写场景标签等，本方案不对具体视频尺寸以及具体场景标签信息进行穷举。

基于此，由于目标参数还可以包括待合成视频的目标视频尺寸，因此所得到的参数调整策略还包括用于对视频尺寸进行调整的视频尺寸调整策略，从而最后生成的目标视频的视频尺寸等于待合成视频的目标视频尺寸。因此，视频生成装置具体基于待处理素材以及行业标签信息确定视频时长调整策略，并基于待处理素材中的多媒体数据，行业标签信息以及场景标签信息确定视频尺寸调整策略。

具体地，参数调整策略具体用于对待处理素材中的多媒体数据进行处理，以生成满足目标参数的目标视频，具体视频时长调整策略前述实施例已介绍，此处不再赘述。而具体对视频尺寸进行调整的方法可以包括但不限于填充处理，模板添加处理，剪切处理以及增大或缩小处理等，此处不作具体限定。

示例性地，为便于理解视频尺寸调整策略，下面例举几个在具体行业以及对应场景下的视频尺寸调整策略。若行业标签信息为教育行业标签，且场景标签信息为试卷答题场景标签，此时视频尺寸调整策略可以为，通过教育行业标签以及试卷答题场景标签得到含有教育行业特色的行业模板集合，对不满足视频尺寸的待处理素材进行填充，以达到目标参数中视频尺寸的需求。或者，行业标签信息为金融行业，且场景标签信息为金融仪表板场景标签，此时视频尺寸调整策略可以为，通过金融行业标签以及金融仪表板场景标签得到含有金融行业特色的行业模板集合，对不满足视频尺寸的待处理素材进行填充，以达到目标参数中视频尺寸的需求。或者，若行业标签信息为电商行业标签，且场景标签信息为商品特写场景标签，此时视频尺寸调整策略可以基于电商行业标签以及商品特写场景标签得到卖点展示的行业模板集合，将卖点展示的行业模板填充至不满足视频尺寸的待处理素材中，从而满足目标参数中视频尺寸的需求。

示例性地，请参阅图3，图3为本申请实施例提供的一种视频尺寸调整策略的实施例示意图，如图3所示，A1指的是待处理素材，A2指的是行业模板。图3中（A）图示出的为待处理素材A1，且待处理素材A1的尺寸为5:9，若以待合成视频的目标视频尺寸为16：9作为示例进行说明，即待处理素材A1的尺寸相较于目标参数中的16：9较小，若该待处理素材A1能够得到电商行业标签以及商品特写场景标签，那么可以得到该行业的卖点展示的行业模板集合，从行业模板集合中获取行业模板A2，然后填充至图3中（A）图所示出的待处理素材A1中，由此得到图3中（B）图所示出的目标视频，该目标视频中包括待处理素材A1以及行业模板A2，且该目标视频的视频尺寸为16：9，满足目标参数中视频尺寸的需求。其次，若以待合成视频的目标视频尺寸为9：16作为示例进行说明，通过前述类似的方式从行业模板集合中获取行业模板A2，然后填充至图3中（A）图所示出的待处理素材A1中，由此得到图3中（C）图所示出的目标视频，该目标视频中包括待处理素材A1以及行业模板A2，且该目标视频的视频尺寸为9：16，也能够满足目标参数中视频尺寸的需求。

或者，若行业标签信息为网络服务行业标签，且场景标签信息为口播场景标签，此时视频尺寸调整策略可以基于网络服务行业标签以及口播场景标签得到焦点人物跟随模版，对进行口播的人物进行识别，对待处理素材进行处理时在达到目标参数中视频尺寸的需求即基础上，将进行口播的人物确定为焦点人物，保证焦点人物一直处于目标视频的焦点位置。示例性地，请参阅图4，再次以待合成视频的目标视频尺寸为9:16作为示例进行说明，图4为本申请实施例提供的另一视频尺寸调整策略的实施例示意图，如图4所示，B1指的是待处理素材，B2指的是焦点人物。图4中（A）图示出的为待处理素材B1，且待处理素材B1的尺寸为7:11，即待处理素材B1的尺寸相较于目标参数中的9:16较小，若该待处理素材B1能够得到网络服务标签以及口播场景标签，那么可以得到焦点人物跟随模版，具体对焦点人物B2进行识别，然后对待处理素材B1进行处理，由此得到图4中（B）图所示出的目标视频，该目标视频中焦点人物B2一直处于目标视频的焦点位置，且该目标视频的视频尺寸为9:16，满足目标参数中视频尺寸的需求。

应理解，图3以及图4的示例仅用于理解本方案中，基于待处理素材中的多媒体数据，行业标签信息以及场景标签信息所确定的具体视频尺寸调整策略，在实际应用中，还能够针对所有行业标签信息，且包括填充场景标签的，对待处理素材进行处理时使用去填充模版，或者针对所有行业标签信息，且包括视频多镜头场景标签，对待处理素材进行处理时使用精彩镜头展示或者分级联播的方式，此处不对视频尺寸调整策略进行穷举，而前述示例也仅用于理解本方案。

进一步地，视频生成装置再基于前述实施例所确定的视频时长调整策略以及视频尺寸调整策略，以待合成视频的目标视频时长以及待合成视频的目标视频尺寸为处理目标，对待处理素材进行处理，以得到与目标参数相匹配的目标视频。

本申请实施例中，提供了另一种视频生成的方法，由于获取标签信息还包括待处理素材所属场景的场景标签信息，通过参数调整策略所进行的对应调整在满足行业需求的基础上，还能够满足具体场景需求，由此提升视频生成的灵活性以及准确性，其次，通过场景标签信息进一步的确定视频尺寸调整策略，由此通过视频时长调整策略以及视频尺寸调整策略，以待合成视频的目标视频时长以及待合成视频的目标视频尺寸为处理目标，对待处理素材进行处理，以得到与目标参数中视频尺寸以及视频时长相匹配的目标视频，进一步地提升了视频生成的准确性。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频生成的方法一个可选实施例中，多媒体数据为视频数据；

基于待处理素材获取待处理素材的标签信息，具体包括：

对多媒体数据进行特征化处理，得到素材特征，其中，素材特征包括视频帧特征以及语音序列特征，或，素材特征包括视频帧特征，语音序列特征以及文本特征；

本实施例中，由于待处理素材能够包括多媒体数据，为了能够对不同类型的待处理素材进行处理，本申请实施例中具体采用多模态标签模型对对不同类型的待处理素材进行处理，该该多模态标签模型能够兼容多媒体数据作为模型的输入，由于视频数据以及图片数据中具体包括视频帧，音频数据，图片数据以及文本信息，因此该多模态标签模型包括Inception V3模型，Vggish模型，Bert模型以及Resnet50模型，并通过Inception V3模型对视频帧数据进行特征化处理、通过Vggish模型对音频数据进行特征化处理、通过Bert模型对文本信息进行特征化处理、以及通过Resnet50模型对图片数据进行特征化处理，从而得到对应特征。应理解，前述模型仅用于对不同的数据进行特征化处理，在实际应用中，能还能通过Inception V2模型对视频帧数据进行特征化处理，moviepy模型对音频数据进行特征化处理等，因此前述示例不应理解为特征化处理的限定。

基于此，多媒体数据为视频数据时。基于此，视频生成装置具体对多媒体数据进行特征化处理，得到素材特征，由于视频数据中必然存在视频帧数据以及音频数据，因此对待处理素材进行特征化处理，所得到的素材特征中能够包括视频帧特征（具体为特征向量表示）以及语音序列特征，其次，在部分视频数据中还存在文本信息，此时对待处理素材进行特征化处理，所得到的素材特征中能够包括视频帧特征，语音序列特征以及文本特征。具体地，通过前述多模态标签模型中的Inception V3模型对视频帧数据进行特征化处理，以得到视频帧特征，并通过前述多模态标签模型中的Vggish模型对音频数据进行特征化处理，以得到语音序列特征，其次，在视频数据中存在文本信息时，还需要通过前述多模态标签模型中的Bert模型对文本信息进行特征化处理，以得到文本特征。

为了便于理解，请参阅图5，图5为本申请实施例提供的获取素材特征的一种实施例示意图，如图5所示，图5中（A）图示出的为，待处理素材包括视频帧数据以及音频数据，对该待处理素材中的视频帧数据以及音频数据进行特征化处理，得到视频帧数据对应的视频帧特征，以及音频数据对应的语音序列特征。其次，图5中（B）图示出的为，待处理素材包括视频帧数据，音频数据以及文本信息，基于此，对该待处理素材中的视频帧数据，音频数据以及文本信息进行特征化处理，得到视频帧数据对应的视频帧特征，音频数据对应的语音序列特征以及文本信息对应的文本特征。

进一步地，由于对于不同的数据以及信息进行特征化处理后，能够得到对应的特征，然而特征之间的是分散的，因此需要对所有不同的特征利用上下文理解（contextgating，CG）的方法，动态调整各个模态的权重，增强有效特征，采用CG的目的是为了捕捉分散特征的关联从而输出更精确的整体结果。基于此，若素材特征包括视频帧特征以及语音序列特征，则视频生成装置对视频帧特征以及语音序列特征进行聚合处理以得到第一全局特征，并基于第一全局特征得到待处理素材的标签信息，具体地，对于视频帧特征以及语音序列特征，采用Nextvald的方法聚合视频帧特征以及语音序列特征得到全局特征表示，即得到第一全局特征，再将第一全局特征作为多标签分类模型的输入，通过多标签分类模型输出待处理素材的标签信息。其次，若素材特征包括视频帧特征，语音序列特征以及文本特征，则视频生成装置对视频帧特征，语音序列特征以及文本特征进行聚合处理以得到第二全局特征，并基于第二全局特征得到待处理素材的标签信息，具体地，得到第二全局特征后，将第二全局特征作为多标签分类模型的输入，通过多标签分类模型输出待处理素材的标签信息。

为了便于理解，请参阅图6，图6为本申请实施例提供的获取待处理素材的标签信息的实施例示意图，如图6所示，图6中（A）图示出的为，在通过图5所示出的示例得到视频帧特征以及语音序列特征后，对视频帧特征以及语音序列特征进行聚合处理以得到第一全局特征，将第一全局特征作为多标签分类模型的输入，通过多标签分类模型输出待处理素材的标签信息。其次，图6中（B）图示出的为，在通过图5所示出的示例得到视频帧特征、语音序列特征以及文本特征后，对视频帧特征、语音序列特征以及文本特征进行聚合处理以得到第二全局特征，将第二全局特征作为多标签分类模型的输入，通过多标签分类模型输出待处理素材的标签信息。

应理解，图5以及图6的示例仅用于理解本方案中，如何获取素材特征以及如何获取待处理素材的标签信息的方法，此处不对具体素材特征以及标签信息进行穷举，而前述示例也仅用于理解本方案。

本申请实施例中，提供了一种获取待处理素材的标签信息的方法，通过对待处理素材中不同类型的数据以及文本进行特征化处理，并且对不同的特征进行聚合，以捕捉分散的不同特征之间的关联，从而得到的全局特征能够包括更多有效特征，从而保证基于聚合后的全局特征能够输出更精确的整体结果，即提升获取待处理素材的标签信息的准确度。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频生成的方法一个可选实施例中，基于参数调整策略以及目标参数，对待处理素材进行处理，以生成目标视频，具体包括：

获取多媒体数据的每个视频帧中每个像素点的RGB参数；

本实施例中，在实际应用中，由于视频数据多组视频片段拼接而成的，拼接可以是直接拼接（硬拼接），也可以是由一个转场过渡拼接（软拼接），为了提升处理的精度，本方案希望将视频数据划分为多组视频片段，此时就需要进行视频划分，视频划分具体通过找到作为拼接的边界（即画面切换帧），即需要进行镜头边界检测（shot boundary detection）。因此，视频生成装置获取多媒体数据的每个视频帧中每个像素点的RGB参数，其次视频生成装置还能够获取待处理素材中每个视频帧之间的相似性。

基于此，视频生成装置将多媒体数据以及每个视频帧中每个像素点的RGB参数，以及待处理素材中每个视频帧之间的相似性，作为概率输出模型的输入，并通过概率输出模型输出每个视频帧为画面切换帧的概率。具体地，由于每个视频帧中每个像素点的RGB参数以及待处理素材中每个视频帧之间的相似性，能够更为准确地指示每个视频帧之间的关联性，从而提升后续逐帧预测的精度。其次，本方案中概率输出模型具体为TransNet V2模型，由于TransNet V2模型加入了批量归一化（atch normalization）b和残差网络结构，且在对在TransNet V2模型进行训练时加入了噪声，因此待处理素材将经过多个残差网络-基于数据依存型卷积神经网络（residual neural network-data dependent convolutionalneural network，Res-DDCNN），由此能够使得TransNet V2模型学习图像特征和时间维度的特征，从而进一步地提升后续逐帧预测的精度。

其次，若将本方案所提供的方法具体应用于广告场景，为了更好于适应广告场景中的视频生成，在对概率输出模型进行训练时，通过合成包含广告特性的视频得到待训练样本集合，通过待训练样本集合对待训练的概率输出模型进行训练以得到本方案所使用的概率输出模型，前述包含广告特性的视频包括但不限于带填充的视频或图片通过转场合成的视频，而填充但不限于高斯模糊填充、图片填充以及颜色填充等。其次，由于采用单帧会降低概率输出模型的运行效率，因此本方案还优化了抽帧的方式，采用了并行抽帧策略，将多个视频帧作为一组作为概率输出模型的输入，降低模型算法时耗，从而提升获取概率的效率。

为了便于理解，请参阅图7，图7为本申请实施例提供的获取画面切换帧的概率的实施例示意图，如图7所示，C1指的是待处理素材，C2指的是每个视频帧中每个像素点的RGB参数，C3指的是待处理素材中每个视频帧之间的相似性，C4指的是概率输出模型，C5指的是每个视频帧作为画面切换帧的概率，且概率输出模型C4中包括多个Res-DDCNN以及全连接层。基于此，将待处理素材C1作为概率输出模型C4的输入，而将每个视频帧中每个像素点的RGB参数C2，以及待处理素材中每个视频帧之间的相似性C3作为概率输出模型C4中全连接层的输入，由此概率输出模型C4将输出每个视频帧作为画面切换帧的概率C5。应理解，图7的示例仅用于理解本方案中，如何获取获取画面切换帧的概率还能通过其他模型结构获取，此处不对具体模型结构以及方法进行穷举，而前述示例也仅用于理解本方案。

进一步地，视频生成装置再基于每个视频帧为画面切换帧的概率，将多媒体数据划分为多组视频片段，最后基于参数调整策略以及目标参数，对多组视频片段进行处理，以生成目标视频。具体地，视频生成装置将每个视频帧为画面切换帧的概率大于预设概率阈值的概率确定为目标概率，并且将目标概率对应的视频帧作为画面切换帧，以画面切换帧对多个视频帧进行划分，以得到多组视频片段。

示例性地，若待处理素材中包括10个视频帧，分别为视频帧1至视频帧10，且预设概率阈值为75%，通过前述步骤得到视频帧4为画面切换帧的概率为80%，而视频帧7为画面切换帧的概率为85%，其余视频帧为画面切换帧的概率均处于10~20%的概率，此时可以将视频帧4以及视频帧7作为画面切换帧，并且对视频帧1至视频帧10进行划分，由此能够将视频帧1至视频帧4作为一组视频片段，视频帧5至视频帧7作为一组视频片段，以及视频帧8至视频帧10作为一组视频片段。

本申请实施例中，提供了另一种视频生成的方法，基于多媒体数据为视频数据的基础上，由于视频数据通是通过多个视频帧组成的，因此基于视频数据中每个视频帧中每个像素点的RGB参数，以及视频数据中每个视频帧之间的相关性，将视频数据划分为多组视频片段，基于参数调整策略分别对多组视频片段，以目标参数为目标进行处理，能够理解视频数据在连续时序上的内容，进行时间长度和尺寸变换，以保证对多个视频帧之间的关系以及时序连续上对视频数据更为准确的处理，因此所得到的目标视频在满足目标参数的需求的基础上，还能够更为准确描述多个视频帧中的特征信息，从而提升目标视频的可靠性以及信息完整性。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频生成的方法一个可选实施例中，多媒体数据的视频时长小于目标视频时长；

基于参数调整策略以及目标参数，对多组视频片段进行处理，以生成目标视频，具体包括：

基于行业标签信息确定行业模板集合；

将多组第一视频片段进行合并处理，以生成目标视频。

本实施例中，由于多媒体数据的视频时长能够小于目标视频时长，或者多媒体数据的视频时长大于目标视频时长的情况，本实施例先介绍在多媒体数据的视频时长小于目标视频时长的情况下，如何生成目标视频的方法。由于多媒体数据的视频时长存在小于目标视频时长，因此需要视频生成装置具体基于行业标签信息确定行业模板集合，然后将行业模板集合中的行业模板添加至多组视频片段中，以得到多组第一视频片段，此时每个第一视频片段的视频时长的总和等于待合成视频的目标视频时长，应理解，不是每组视频片段都需要添加对应的行业模板，而是需要根据具体视频时长以及具体行业进行添加，且行业模板集合中可以包括一个或多个行业模板，需要基于具体行业中预设的模板确定。进一步地，视频生成装置将多组第一视频片段进行合并处理，以生成目标视频，以增加目标视频前部分的吸引力或者增加目标视频后续的转化。

具体地，此时行业模板集合中的行业模板为首尾帧行业模版，即包括添加在视频片段的首帧（最开始一帧）之前的首帧行业模版，以及添加在视频片段的尾帧（最后一帧）之前的尾帧行业模版，根据行业的不同所得到的首帧行业模版也不同，例如，教育行业标签信息所对应的首帧行业模版为教育对话模板，游戏行业标签信息所对应的首帧行业模版为解压模版，电商行业标签信息所对应的首帧行业模版为行动召唤模版（例如，点击下载模板，点击跳转模板等）。应理解，在实际应用中，行业模板集合也可以为***一组视频片段的视频帧中的模板，因此不应理解为本申请的限定。而不同的行业模板集合添加方式所得到的多组第一视频片段也不同，因此本方案中的多组第一视频片段具体为多组第一视频片段的集合，因此所得到目标视频中能够包括多个视频。

示例性地，若多媒体数据的视频时长为10s，而目标视频时长为15s，通过前述方式得到电商行业标签信息，且待处理素材能够被分为视频片段1以及视频片段2，且视频片段1的时长为6s，视频片段2的时长为4s。若此时点击下载模板的时长为3s，而点击跳转模板的时长为2s，可以将点击下载模板添加至视频片段1的首帧之前，由此得到第一视频片段1，且第一视频片段1的时长为9s，其次，再将点击跳转模板添加至视频片段2的尾帧之后，由此得到第一视频片段2，且第一视频片段2的时长为6s，然后合成第一视频片段1以及第一视频片段2，由此所得到的目标视频的视频时长为15s，满足目标参数。

本申请实施例中，提供了另一种视频生成的方法，在多媒体数据的视频时长小于目标视频时长，通过行业标签信息确定行业模板集合，并且将行业模板集合中至少一个行业模板添加至至少一组视频片段中，由此能够得到总和等于待合成视频的目标视频时长的多个第一视频片段，基于此再进行合成，在视频时长能够满足目标参数的需求的基础上，还能够通过模板添加的具体方式，如添加至视频片段的尾帧、首帧或视频帧之间，由此提升视频生成的灵活性。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频生成的方法一个可选实施例中，标签信息还包括指示待处理素材特征的特征标签信息；

多媒体数据的视频时长大于目标视频时长；

多组视频片段包括第一组视频片段以及第二组视频片段；

基于行业标签信息以及特征标签信息，确定第一组视频片段的分数以及第二组视频片段的分数，其中，第一组视频片段的分数大于第二组视频片段的分数；

本实施例中，标签信息还包括指示待处理素材特征的特征标签信息，多媒体数据的视频时长大于目标视频时长，且多组视频片段包括第一组视频片段以及第二组视频片段，因理解，仅介绍第一组视频片段以及第二组视频片段，是为了便于对后续步骤进行介绍，在实际应用中，多组视频片段中还可以包括更多组视频片段，对更多的视频片段进行剪辑的方式与后续步骤类似，因此此处未做赘述。其中，特征标签信息能够指示待处理素材的素材特征，特征标签信息具体包括主体标签，色彩标签，利益点标签以及界面标签等，例如，待处理素材为游戏界面，那么可以得到的特征标签信息能够包括游戏人物标签（主体标签）以及游戏界面标签，此时通过特征标签信息能够得知待处理素材中主体为游戏任务，且该待处理素材来源于游戏界面。

基于此，视频生成装置具体基于行业标签信息以及特征标签信息，确定第一组视频片段的分数以及第二组视频片段的分数，视频片段的分数能够指示视频片段所包括的素材特征在待处理素材的比例，并且此时第一组视频片段的分数大于第二组视频片段的分数。例如，第一组视频片段包括游戏人物，游戏背景以及其他游戏特征所组成的视频帧，而第二组视频片段仅包括游戏背景组成的视频帧，因此第一组视频片段中所反映的视频片段所包括的素材特征在待处理素材的比例较大，而第二组视频片段中所反映的视频片段所包括的素材特征在待处理素材的比例较小，因此第一组视频片段的分数大于第二组视频片段的分数。

进一步地，视频生成装置基于第一组视频片段的分数以及第二组视频片段的分数确定视频剪辑比例，例如，第一组视频片段的分数为90，而第二组视频片段的分数为60，由此可以得到视频剪辑比例为3：2（90：60=3：2）。再基于视频剪辑比例对第一组视频片段以及第二组视频片段进行剪辑，得到第一组视频片段的剪辑结果，以及第二组视频片段的剪辑结果，此时第一组视频片段的剪辑结果的视频时长，与第二组视频片段的剪辑结果的视频时长之和等于待合成视频的目标视频时长，例如，以视频剪辑比例为3：2，且待处理素材的时长为35s，目标视频时长为20s，而第一组视频片段的时长为20s，第二组视频片段的时长为15s作为示例进行说明，对第一组视频片段进行剪辑，即希望第一组视频片段的剪辑结果的视频时长趋近于12s（20*3/5），对第二组视频片段进行剪辑，即希望第二组视频片段的剪辑结果的视频时长趋近于8s（20*2/5）。

下面介绍具体如何对视频片段进行剪辑，首先对视频片段进行主体检测，若待处理素材为游戏界面，那么即需要对视频片段中的游戏人物进行检测，检测游戏人物在视频片段中出现的比例。其次，若为电商的场景，那么需要对电商商品进行识别，例如对衣服、裤子以及鞋子进行识别，识别电商商品在视频片段中出现的比例。再次，为了保证视频剪辑后画面是连续无跳帧，那么还需要对视频片段的色彩进行识别，以保证色彩过度自然。基于此，通过视频剪辑比例以及目标视频时长确定每个视频片段的剪辑结果的预设视频时长，并通过前述方式对每个视频片段进行剪辑，从而得到第一组视频片段的剪辑结果，以及第二组视频片段的剪辑结果。

最后，将第一组视频片段的剪辑结果，以及第二组视频片段的剪辑结果进行合并处理，以生成目标视频，由于第一组视频片段的剪辑结果的视频时长，与第二组视频片段的剪辑结果的视频时长之和等于待合成视频的目标视频时长，因此所得到的目标视频的视频时长也等于待合成视频的目标视频时长。应理解，由于进行剪辑的方式不同，因此本方案中能够得到多组第一组视频片段的剪辑结果以及第二组视频片段的剪辑结果，由此生成目标视频也能够包括多个视频。

为了便于理解，下面以图8对本方案中的剪辑过程进行介绍，图8为本申请实施例提供的另一种视频生成的实施例示意图，如图8所示，D1指示的是待处理素材，D21指的是第一组视频片段，D22指的是第一组视频片段D21的标签信息，由于第一组视频片段D21中包括商品主体，因此第一组视频片段D21的标签信息D22具体为背景铺垫主题位置。其次，D31指的是第二组视频片段，D32指的是第二组视频片段D31的标签信息，由于第二组视频片段D31中包括仅包括文字信息并未包括商品主体，因此第二组视频片段D31的标签信息D32具体为推广页无主体。

进一步，D4指的是第一组视频片段的分数，D5指的是第二组视频片段的分数，由于视频片段的分数能够指示视频片段所包括的素材特征在待处理素材的比例，而通过第一组视频片段D21的标签信息D22，以及第二组视频片段D31的标签信息D32可知，在第一组视频片段D21中包括商品主体，而第二组视频片段D31中不包括商品主体，因此所得到的第一组视频片段的分数D4应该大于第二组视频片段的分数D5。基于此，D6指的是视频剪辑比例，即根据第一组视频片段的分数D4，以及第二组视频片段的分数D5确定视频剪辑比例D6，并基于视频剪辑比例D6对第一组视频片段D21以及第二组视频片段D31进行剪辑，能够得到第一组视频片段的剪辑结果以及第二组视频片段的剪辑结果，再基于前述实施例所介绍的方法将第一组视频片段的剪辑结果，以及第二组视频片段的剪辑结果进行合并处理，即可生成满足目标参数的目标视频。

本申请实施例中，提供了另一种视频生成的方法，多媒体数据的视频时长大于目标视频时长，对每组视频片段进行评分，通过评分指示该组视频片段所反映的待处理素材的素材特征的占比，基于此得到剪辑比例，由此通过剪辑比例进行素材倾向性剪辑，从而剪辑出不同倾向的结果，即得到不同多组剪辑结果，由此生成包括多个视频的目标视频，从而提升视频生成的灵活性。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频生成的方法一个可选实施例中，多媒体数据为图片数据；

基于待处理素材获取待处理素材的标签信息，具体包括：

对多媒体数据进行特征化处理，得到素材特征，其中，素材特征包括图片特征，或，素材特征包括图片特征以及文本特征；

本实施例中，多媒体数据为图片数据。基于此，视频生成装置对多媒体数据进行特征化处理，得到素材特征，此时素材特征能够包括图片特征，或，当图片数据具体包括图片数据以及文本信息是，此时素材特征包括图片特征以及文本特征。具体地，通过前述实施例做介绍的模型对图片特征进行特征化处理，以得到图片特征，其次，在图片数据中存在文本信息时，还需要通过前述实施例做介绍的模型对文本信息进行特征化处理，以得到文本特征。应理解，具体模型与前述实施例类似，此处不再赘述。

为了便于理解，请参阅图9，图9为本申请实施例提供的获取素材特征的实施例示意图，如图9所示，图9中（A）图示出的为，多媒体数据H1具体为图片数据H2，且不包括文本信息等其他信息数据，因此对图片数据H2进行特征化处理，能够得到图片数据H2对应的图片特征H3。其次，图9中（B）图示出的为，多媒体数据H4包括图片数据H5以及文本信息H6，因此对多媒体数据H4中的图片数据H5以及文本信息H6进行特征化处理，能够得到图片数据H5对应的图片特征H7，以及文本信息H6对应的文本特征H8。

进一步地，由于对于不同的数据以及信息进行特征化处理后，能够得到对应的特征，因此需要对所有不同的特征利用CG的方法，动态调整各个模态的权重，增强有效特征，采用CG的目的是为了捕捉分散特征的关联从而输出更精确的整体结果。基于此，若素材特征包括图片特征以及文本特征，则对图片特征以及文本特征进行聚合处理以得到第三全局特征，将第三全局特征作为多标签分类模型的输入，通过多标签分类模型输出待处理素材的标签信息。其次，若素材特征仅包括图片特征，那么不需要进行前述聚合处理，直接将图片特征作为多标签分类模型的输入，通过多标签分类模型输出待处理素材的标签信息。

为了便于理解，请参阅图10，图10为本申请实施例提供的获取待处理素材的标签信息的实施例示意图，如图10所示，图10中（A）图示出的为，在通过图9所示出的示例得到图片特征I1后，将图片特征作为多标签分类模型I2的输入，通过多标签分类模型I2输出待处理素材的标签信息I3。其次，图10中（B）图示出的为，在通过图9所示出的示例得到图片特征I4以及文本特征I5后，对图片特征I4以及文本特征I5进行聚合处理以得到第三全局特征I6，然后将第三全局特征I6作为多标签分类模型I7的输入，通过多标签分类模型I7输出待处理素材的标签信息I8。

应理解，图9以及图10的示例仅用于理解本方案中，如何获取素材特征以及如何获取待处理素材的标签信息的方法，此处不对具体素材特征以及标签信息进行穷举，而前述示例也仅用于理解本方案。

本申请实施例中，提供了另一种获取待处理素材的标签信息的方法，通过对待处理素材中图片数据以及文本信息进行特征化处理，并且对不同的特征进行聚合，以捕捉分散的不同特征之间的关联，从而得到的全局特征能够包括更多有效特征，从而保证基于聚合后的全局特征能够输出更精确的整体结果，即提升获取待处理素材的标签信息的准确度。

基于行业标签信息确定行业模板集合；

本实施例中，视频生成装置基于行业标签信息确定行业模板集合，具体根据行业模板集合以及目标参数，对待处理素材进行处理，以得到目标视频。具体地，由于图片数据可以为单张图片或者多张图片，在确定行业模板集合之后，若为单张图片，则所选择行业模板可以为视频模板，然后以目标视频时长为目的，将所选的行业模板与单张图片切替添加，直到满足目标视频时长即可生成目标视频。若为多张图片，则有其他的行业模板添加方式，例如，通过还包括的音乐风格，确定至少一个音乐，确定音乐的音乐鼓点，基于音乐鼓点展示多张图片。下面将具体介绍单张图片以及多张图片时对应的视频生成方法。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频生成的方法一个可选实施例中，图片数据为单张图片；

根据行业模板集合以及目标参数，对待处理素材进行处理，以得到目标视频，具体包括：

基于交互控件标签，从待处理素材中确定交互控件；

本实施例中，首先介绍图片数据为单张图片。标签信息还包括交互控件标签，交互控件标签表示待处理素材中存在交互控件，具体应用中，该交互控件可以为点击键以及按钮等，具体交互控件的形态此处不做限定。基于此，若得到的标签信息还包括交互控件标签，即说明待处理素材存在交互控件，因此视频生成装置需要从待处理素材中确定交互控件。应理解，由于每个图片中的交互控件的形态不同，而每张图片的背景复杂多样，因此从待处理素材中确定交互控件精确到像素级别的准度，为了保证所确定交互控件的精准度，本实施例选择使用语义分割的方法对交互控件进行识别，具体采用了图像网络训练交互控件分割模型，交互控件分割模型具体使用多维度上下文感知特征提取模块（multi-scalecontext-aware feature extraction，MCFEM)，具备对图片的多维度情境感特征提取能力，同时增加门限机制 (gated bi-directional message passing，GBMP) 去除图片的噪音。进一步地，本申请实施例中还引入前背景分权值问题，以解决识别残缺问题。其次，引入轮廓损失（contour loss）以解决交互控件的边缘不精准的问题。

然后，视频生成装置对交互控件进行增强处理，以得到第一素材，该第一素材包括进行增强处理后的交互控件，且增强处理为对交互控件进行放大缩小，或，增强处理为对交互控件进行加粗高亮等，最后根据前述行业模板集合以及目标参数，对第一素材进行处理，以得到目标视频。

示例性地，请参阅图11，图11为本申请实施例提供的增强处理的界面示意图，如图11所示，E1指的是交互控件，E2指的是进行放大缩小后的交互控件，E3指的是进行加粗高亮后的交互控件。基于此，图11中（A）图为图片数据（单张图片），且包括交互控件E1，对交互控件E1进行放大缩小，即可得到图11中（B）图示出的第一素材，该第一素材中包括进行放大缩小后的交互控件E2。其次，对交互控件E1进行加粗高亮，即可得到图11中（C）图示出的第一素材，该第一素材中包括进行加粗高亮后的交互控件E3。

本申请实施例中，提供了另一种视频生成的方法，在图片数据为单张图片时，通过对交互控件进行增强处理，以强调图片中交互控件的部分，从而使得所生成的视频能够更加突出交互控件，从而使得用户基于该视频进行交互操作，由此提升所生成视频的实用型以及交互性。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频生成的方法一个可选实施例中，图片数据为多张图片；

目标参数还包括音乐风格；

基于音乐风格确定目标音乐；

基于目标音乐确定目标音乐中的多个鼓点位置；

本实施例中，介绍图片数据为多张图片，此时目标参数还包括音乐风格。基于此，视频生成装置基于音乐风格确定目标音乐，再基于目标音乐确定目标音乐中的多个鼓点位置，进而基于目标音乐中的多个鼓点位置确定待处理素材中每张图片的展示时长，最后根据行业模板集合，目标参数以及图片数据中每张图片的展示时长，对待处理素材进行处理，以得到目标视频。具体地，基于图片数据中每张图片的展示时长，对待处理素材中每张图片与行业模板集合中的行业模板一起展示，以满足每张图片的展示时长，且最后所得到的目标视频满足目标参数中的目标视频时长。

例如，以目标音乐包括音乐A，而图片数据包括图片A，图片B，图片C以及图片D，且目标视频时长为15s为例，若音乐A中的多个鼓点位置分别在音乐A的第5s，第8s以及第12s以及第18s，而由于本方案中仅4张图片，且需要的目标视频时长为15s，因此取音乐A的第5s，第8s以及第12s的鼓点位置，并且确定图片A的展示时长为0~5s，图片B的展示时长为5s~8，图片C的展示时长为8~12s，图片D的展示时长为12s~15s，然后将任一行业模板与图片A共同展示至第5s，将切换图片B与任一行业模板，依次类推，即可合成得到视频时长为15s的目标视频。

应理解，该目标音乐为满足音乐风格的音乐，因此与目标音乐可以为多个音乐，由此可知，需要确定每个音乐的多个鼓点位置，并基于每个音乐的多个鼓点位置确定每张图片的展示时长，也就是不同的音乐所确定的每张图片的展示时长不同，因此所不同音乐所生成的目标视频也不同。

本申请实施例中，提供了另一种视频生成的方法，由于图片数据为多张图片，且目标参数还包括音乐风格，因此通过音乐风格所选择音乐能够满足用户需求，其次，参考音乐风格所选择音乐的鼓点位置计算每张图片的展示时长，从而让每张图片展示具有节奏感，由此提升视频生成的灵活性以及趣味性。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频生成的方法一个可选实施例中，标签信息还包括交互控件标签，交互控件标签表示待处理素材中存在交互控件；

基于交互控件标签，从待处理素材中确定至少一个交互控件；

本实施例中，标签信息还包括交互控件标签，交互控件标签表示待处理素材中存在交互控件，具体应用中，该交互控件可以为点击键以及按钮等，具体交互控件的形态此处不做限定。基于此，若得到的标签信息还包括交互控件标签，即说明待处理素材存在交互控件，因此视频生成装置需要从待处理素材中确定交互控件。应理解，由于每个图片中的交互控件的形态不同，而每张图片的背景复杂多样，因此需要采用前述实施例所介绍的方法从处理素材中确定交互控件，此处不再赘述。

然后，视频生成装置对交互控件进行增强处理，以得到第二素材，该第二素材包括进行增强处理后的交互控件，且增强处理为对交互控件进行放大缩小，或，增强处理为对交互控件进行加粗高亮等，最后根据前述行业模板集合以及目标参数，对第二素材进行处理，以得到目标视频。具体第二素材与前述实施例所介绍的第一素材类似，具体界面展示形式再次参阅图11，此处不再赘述。

可以理解的是，前面单独描述了多媒体数据为视频数据，或者待处理素材为图片数据的情况，在实际应用中，待处理素材还可以同时包括视频数据以及图片数据，首先通过本实施例所提供的方法能够题述视频数据以及图片数据所对应的素材特征，并基于素材特征通过前述类似方法得到目标视频，因此此处不对同时包括视频数据以及图片数据的实施例进行介绍。

本申请实施例中，提供了另一种视频生成的方法，在多媒体数据为视频数据时，通过对交互控件进行增强处理，以强调图片中交互控件的部分，从而使得所生成的视频能够更加突出交互控件，从而使得用户基于该视频进行交互操作，由此提升所生成视频的实用型以及交互性。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频生成的方法一个可选实施例中，目标参数还包括贴纸元素、字幕元素或图形标志元素中至少一项；

基于参数调整策略以及目标参数，对待处理素材进行处理，以生成第一视频；

本实施例中，目标参数还包括贴纸元素、字幕元素或图形标志元素中至少一项。基于此，视频生成装置具体基于参数调整策略以及目标参数，对待处理素材进行处理，以生成第一视频，应理解，若目标参数包括目标视频时长以及目标视频尺寸，那么此时所得到的第一视频是满足目标视频时长以及目标视频尺寸的，具体第一视频的生成方式与前述实施例描述的目标视频类似，此处不再赘述。

进一步地，视频生成装置确定贴纸元素、字幕元素以及图形标志元素在第一视频中预设位置。应理解，贴纸元素、字幕元素以及图形标志元素的添加原则为不遮挡第一视频中的主要元素，例如，人物、商品以及文字，并且所添加的贴纸元素、字幕元素以及图形标志元素需要与第一视频的整体色调搭配，所以视频生成装置需要识别出第一视频中人物、商品以及文字的位置，从而判别出前述可以放置于第一视频中预设位置，从而完成贴纸元素、字幕元素以及图形标志元素的位置预估。其次，视频生成装置还可以识别第一视频中的主色调，基于第一视频中的主色调，确定贴纸元素、字幕元素以及图形标志元素适合的样式。示例性地，请参阅图12，图12为本申请实施例提供的贴纸元素、字幕元素以及图形标志元素的界面示意图，如图12所示，图12中（A）图示出的为贴纸元素的样式，图12中（B）图示出的为字幕元素的颜色以及样式，图12中（C）图示出的为图形标志元素的样式。

基于此，再将预设位置，将贴纸元素、字幕元素以及图形标志元素中至少一项放置于在第一视频中预设位置中，以生成目标视频。示例性地，请参阅图13，图13为本申请实施例提供的基于贴纸元素、字幕元素以及图形标志元素生成目标视频的界面示意图，如图13所示，F1指的是贴纸元素，F2指的是字幕元素，F3知识的指的是图形标志元素。目标视频中包括贴纸元素F1、字幕元素F2以及图形标志元素F3，且均不遮挡目标视频中的人物。

进一步地，在实际应用中，还能够利用从文本到语音（text to speech，TTS）技术将用户字幕元素转化为语音元素，与字幕元素同步播放。详细步骤此处不再赘述。

本申请实施例中，提供了另一种视频生成的方法，通过将更多的元素添加至所生成的满足目标视频时长以及目标视频尺寸的视频中，在不对视频时长以及视频尺寸修改的基础上，也不会遮挡视频中重要组成部分，由此保证所生成的目标视频更具趣味性以及提升视频生成的灵活性。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频生成的方法一个可选实施例中，

目标参数还包括音乐风格以及特效元素；

将预设位置，将贴纸元素、字幕元素以及图形标志元素中至少一项放置于在第一视频中预设位置中，以生成目标视频，具体包括：

将预设位置，将贴纸元素、字幕元素以及图形标志元素中至少一项放置于在第一视频中预设位置中，以生成第二视频；

基于音乐风格确定目标音乐；

基于目标音乐确定目标音乐中的多个鼓点位置；

本实施例中，目标参数还包括音乐风格以及特效元素。基于此，视频生成装置通过前述实施例所介绍的方法，将预设位置，将贴纸元素、字幕元素以及图形标志元素中至少一项放置于在第一视频中预设位置中，以生成第二视频。然后基于音乐风格确定目标音乐，与前述实施例中部分步骤类似，基于目标音乐确定目标音乐中的多个鼓点位置，此时将基于目标音乐中的多个鼓点位置以及第二视频，确定第二视频中的特效转场位置，然后将特效元素添加至第二视频中的特效转场位置上，以生成目标视频。

例如，以目标音乐包括音乐A，而目标音乐时长小于15s作为示例进行说明，由于目标音乐时长需要小于15s，若所得到的第二视频的视频时长为13s（小于15s），若音乐A中的多个鼓点位置分别在音乐A的第5s，第8s以及第12s以及第18s，由此确定第二视频中的特效转场位置为第5s，第8s以及第12s。基于此，特效元素添加至第二视频中的第5s，第8s以及第12s上，由于特效元素时长通常较短，因此所得到的目标视频依旧小于15s，若特效元素时长较长，那么在第12s不再添加特性元素即可。

应理解，该目标音乐为满足音乐风格的音乐，因此与目标音乐可以为多个音乐，由此可知，需要确定每个音乐的多个鼓点位置，并基于每个音乐的多个鼓点位置确定每张图片的展示时长，也就是不同的音乐所确定的在第二视频中的特效转场位置，因此所不同音乐所生成的目标视频也不同。

本申请实施例中，提供了另一种视频生成的方法，参考音乐风格所选择音乐的鼓点位置确定特效转场位置，从而将特效***特效转场位置，让视频中进行特效转场更具有节奏感，由此提升视频生成的灵活性以及趣味性。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频生成的方法一个可选实施例中，获取待处理素材以及目标参数，具体包括：

显示输入界面，其中，输入界面包括数据输入接口以及参数选择接口，数据输入接口用于输入待处理素材，参数选择接口用于选择目标参数；

基于参数调整策略以及目标参数，对待处理素材进行处理，以生成目标视频之后，视频生成的方法还包括：

在视频展示界面显示目标视频。

本实施例中，由于本实施例以终端设备为执行主体进行介绍，因此视频生成装置即为能够展示相关界面的终端设备。基于此，视频生成装置显示输入界面，该输入界面包括数据输入接口以及参数选择接口，数据输入接口用于输入待处理素材，参数选择接口用于选择目标参数，然后用户对输入界面中数据输入接口进行的数据选择操作，即选择待处理素材，使得视频生成装置响应于对输入界面中数据输入接口的数据选择操作，获取待处理素材，同理可知，用户对输入界面中参数选择接口的参数选择操作，即选择目标参数，使得视频生成装置响应于对输入界面中参数选择接口的参数选择操作，获取目标参数。在通过前述实施例生成目标视频之后，视频生成装置还会在在视频展示界面显示目标视频。

应理解，若以服务器为执行主体进行介绍，那么终端设备通过前述方式得到待处理素材以及目标参数后，需要向服务器发送待处理素材以及目标参数，使得服务器通过所接收到的待处理素材以及目标参数，生成目标视频，并且再向终端设备发送目标视频，以使得终端设备在视频展示界面显示目标视频。

其次，若目标视频包括多个视频，用户还能够对多个视频中一个视频进行选择，以展示最后用户所选择的目标展示视频。并且，若用户希望更改目标参数或待处理素材中任一个时，能够在生成目标视频后，对目标参数或待处理素材中任一进行修改，视频生成装置将根据前述方式得到新的目标视频，并且在视频展示界面显示。具体如何操作以及展示需要根据实际情况灵活确定，此处不做限定。

示例性地，请参阅图14，图14为本申请实施例显示输入界面以及显示目标视频的界面示意图，如图14所示，图14中（A）图示出的为显示输入界面G1，显示输入界面G1包括数据输入接口G2以及参数选择接口G3，在图14中（A）图中还示出了音乐选择接口，图14中（B）图示出的为在视频展示界面G4显示目标视频，此时目标视频包括视频G51至视频G53。应理解，前述示例仅用于理解本方案，在实际应用中显示输入界面还可以包括其他目标参数选择接口，例如，音乐选择接口、特效元素选择接口、贴纸元素选择接口、字幕元素选择接口或图形标志元素选择接口等。

本申请实施例中，提供了另一种视频生成的方法，通过用户的需求以及操作获取待处理素材以及目标参数，基于此所生成目标视频是满足用户本身需求的，其次，在显示界面展示目标视频能够使得用户确定所生成的视频是否符合用户需求，由此提升视频生成的可靠性。

下面对本申请中的视频生成装置进行详细描述，请参阅图15，图15为本申请实施例中视频生成装置一个实施例示意图，如图所示，视频生成装置1500包括：

获取模块1501，用于获取待处理素材以及目标参数，其中，待处理素材包括多媒体数据，目标参数包括待合成视频的目标视频时长；

获取模块1501，还用于基于待处理素材获取标签信息，其中，标签信息包括指示待处理素材所属行业的行业标签信息；

确定模块1502，用于基于待处理素材中的多媒体数据，以及标签信息中的行业标签信息确定参数调整策略，其中，参数调整策略包括用于对所述待处理素材进行视频时长处理的视频时长调整策略；

处理模块1503，用于基于参数调整策略以及目标参数，对待处理素材进行处理，以生成目标视频，其中，目标视频的视频时长等于待合成视频的目标视频时长。

可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的视频生成装置1500的另一实施例中，目标参数还包括待合成视频的目标视频尺寸；

标签信息还包括指示待处理素材所属场景的场景标签信息；

目标视频的视频尺寸等于待合成视频的目标视频尺寸；

确定模块1502，具体用于基于待处理素材以及行业标签信息确定视频时长调整策略；

处理模块1503，具体用于基于视频时长调整策略，视频尺寸调整策略，待合成视频的目标视频时长以及待合成视频的目标视频尺寸，对待处理素材进行处理，以生成目标视频。

可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的视频生成装置1500的另一实施例中，多媒体数据为视频数据；

获取模块1501，具体用于对多媒体数据进行特征化处理，得到素材特征，其中，素材特征包括视频帧特征以及语音序列特征，或，素材特征包括视频帧特征，语音序列特征以及文本特征；

可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的视频生成装置1500的另一实施例中，处理模块1503，具体用于获取多媒体数据的每个视频帧中每个像素点的RGB参数；

可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的视频生成装置1500的另一实施例中，多媒体数据的视频时长小于目标视频时长；

处理模块1503，具体用于基于行业标签信息确定行业模板集合；

将多组第一视频片段进行合并处理，以生成目标视频。

可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的视频生成装置1500的另一实施例中，标签信息还包括指示待处理素材特征的特征标签信息；

多媒体数据的视频时长大于目标视频时长；

多组视频片段包括第一组视频片段以及第二组视频片段；

处理模块1503，具体用于基于行业标签信息以及特征标签信息，确定第一组视频片段的分数以及第二组视频片段的分数，其中，第一组视频片段的分数大于第二组视频片段的分数；

可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的视频生成装置1500的另一实施例中，多媒体数据为图片数据；

获取模块1501，具体用于对多媒体数据进行特征化处理，得到素材特征，其中，素材特征包括图片特征，或，素材特征包括图片特征以及文本特征；

可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的视频生成装置1500的另一实施例中，处理模块1503，具体用于基于行业标签信息确定行业模板集合；

可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的视频生成装置1500的另一实施例中，图片数据为单张图片；

处理模块1503，具体用于基于交互控件标签，从待处理素材中确定交互控件；

可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的视频生成装置1500的另一实施例中，图片数据为多张图片；

目标参数还包括音乐风格；

处理模块1503，具体用于基于音乐风格确定目标音乐；

基于目标音乐确定目标音乐中的多个鼓点位置；

可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的视频生成装置1500的另一实施例中，标签信息还包括交互控件标签，交互控件标签表示待处理素材中存在交互控件；

处理模块1503，具体用于基于交互控件标签，从待处理素材中确定至少一个交互控件；

可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的视频生成装置1500的另一实施例中，目标参数还包括贴纸元素、字幕元素或图形标志元素中至少一项；

处理模块1503，具体用于基于参数调整策略以及目标参数，对待处理素材进行处理，以生成第一视频；

可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的视频生成装置1500的另一实施例中，目标参数还包括音乐风格以及特效元素；

处理模块1503，具体用于将预设位置，将贴纸元素、字幕元素以及图形标志元素中至少一项放置于在第一视频中预设位置中，以生成第二视频；

基于音乐风格确定目标音乐；

基于目标音乐确定目标音乐中的多个鼓点位置；

可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的视频生成装置1500的另一实施例中，视频生成装置1500还包括显示模块1504；

获取模块1501，具体用于显示输入界面，其中，输入界面包括数据输入接口以及参数选择接口，数据输入接口用于输入待处理素材，参数选择接口用于选择目标参数；

显示模块1504，用于处理模块1503基于参数调整策略以及目标参数，对待处理素材进行处理，以生成目标视频之后，在视频展示界面显示目标视频。

本申请实施例还提供了另一种视频生成装置，视频生成装置可以部署于服务器，也可以部署于终端设备。下面以视频生成装置部署于服务器作为示例进行介绍，请参阅图16，图16为本申请实施例中服务器一个实施例示意图，如图所示，该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器（centralprocessing units，CPU）1022（例如，一个或一个以上处理器）和存储器1032，一个或一个以上存储应用程序1042或数据1044的存储介质1030（例如一个或一个以上海量存储设备）。其中，存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1022可以设置为与存储介质1030通信，在服务器1000上执行存储介质1030中的一系列指令操作。

服务器1000还可以包括一个或一个以上电源1026，一个或一个以上有线或无线网络接口1050，一个或一个以上输入输出接口1058，和/或，一个或一个以上操作***1041，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图16所示的服务器结构。

该服务器所包括的CPU 1022用于执行如图2所示实施例以及图2对应的各个实施例。

本申请还提供了一种终端设备，用于执行图2所示实施例以及图2对应的各个实施例中视频生成装置执行的步骤。如图17所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。以终端设备为手机为例进行说明：

图17示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图17，手机包括：射频（Radio Frequency，RF）电路1110、存储器1120、输入单元1130、显示单元1140、传感器1150、音频电路1160、无线保真（wireless fidelity，WiFi）模块1170、处理器1180、以及电源1190等部件。本领域技术人员可以理解，图17中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图17对手机的各个构成部件进行具体的介绍：

RF电路1110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1180处理；另外，将设计上行的数据发送给基站。通常，RF电路1110包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器（Low NoiseAmplifier，LNA）、双工器等。此外，RF电路1110还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***（Global System of Mobile communication，GSM）、通用分组无线服务（General PacketRadio Service，GPRS）、码分多址（Code Division Multiple Access，CDMA）、宽带码分多址（Wideband Code Division Multiple Access，WCDMA）、长期演进（Long Term Evolution，LTE）、电子邮件、短消息服务（Short Messaging Service，SMS）等。

存储器1120可用于存储软件程序以及模块，处理器1180通过运行存储在存储器1120的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器1120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1130可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1130可包括触控面板1131以及其他输入设备1132。触控面板1131，也称为触摸屏，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触控面板1131上或在触控面板1131附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1180，并能接收处理器1180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1131。除了触控面板1131，输入单元1130还可以包括其他输入设备1132。具体地，其他输入设备1132可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1140可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1140可包括显示面板1141，可选的，可以采用液晶显示器（LiquidCrystal Display，LCD）、有机发光二极管（Organic Light-Emitting Diode，OLED）等形式来配置显示面板1141。进一步的，触控面板1131可覆盖显示面板1141，当触控面板1131检测到在其上或附近的触摸操作后，传送给处理器1180以确定触摸事件的类型，随后处理器1180根据触摸事件的类型在显示面板1141上提供相应的视觉输出。虽然在图17中，触控面板1131与显示面板1141是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1131与显示面板1141集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1141的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1141和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，此处不做赘述。

音频电路1160、扬声器1161，传声器1162可提供用户与手机之间的音频接口。音频电路1160可将接收到的音频数据转换后的电信号，传输到扬声器1161，由扬声器1161转换为声音信号输出；另一方面，传声器1162将收集的声音信号转换为电信号，由音频电路1160接收后转换为音频数据，再将音频数据输出处理器1180处理后，经RF电路1110以发送给比如另一手机，或者将音频数据输出至存储器1120以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图17示出了WiFi模块1170，但是可以理解的是，其并不属于手机的必须构成。

处理器1180是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1120内的软件程序和/或模块，以及调用存储在存储器1120内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1180可包括一个或多个处理单元；优选的，处理器1180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1180中。

手机还包括给各个部件供电的电源1190（比如电池），优选的，电源可以通过电源管理***与处理器1180逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，此处不做赘述。

在本申请实施例中，该终端所包括的处理器1180用于执行如图2所示实施例以及图2对应的各个实施例。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如前述图2所示实施例以及其对应实施例描述的方法中服务器所执行的步骤。

本申请实施例中还提供一种包括程序的计算机程序产品，当其在计算机上运行时，使得计算机执行如前述图2所示实施例以及其对应实施例描述的方法中服务器所执行的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如至少两个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到至少两个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频生成的方法，其特征在于，包括：

获取待处理素材以及目标参数，其中，所述待处理素材包括多媒体数据，所述目标参数包括待合成视频的目标视频时长以及待合成视频的目标视频尺寸；

基于所述待处理素材获取标签信息，其中，所述标签信息包括指示所述待处理素材所属行业的行业标签信息以及所述待处理素材所属场景的场景标签信息；

基于所述待处理素材中的所述多媒体数据，以及所述标签信息中的所述行业标签信息确定视频时长调整策略，其中，所述视频时长调整策略用于对所述待处理素材进行视频时长处理；

基于所述待处理素材中的所述多媒体数据，所述行业标签信息以及所述场景标签信息确定视频尺寸调整策略，其中，所述视频尺寸调整策略用于对视频尺寸进行调整；

基于所述视频时长调整策略，所述视频尺寸调整策略，所述待合成视频的目标视频时长以及所述待合成视频的目标视频尺寸，对所述待处理素材进行处理，以生成目标视频，其中，所述目标视频的视频时长等于所述待合成视频的目标视频时长，且所述目标视频的视频尺寸等于所述待合成视频的目标视频尺寸。

2.根据权利要求1所述的方法，其特征在于，所述多媒体数据为视频数据；

所述基于所述待处理素材获取所述待处理素材的标签信息，包括：

对所述多媒体数据进行特征化处理，得到素材特征，其中，所述素材特征包括视频帧特征以及语音序列特征，或，所述素材特征包括视频帧特征，语音序列特征以及文本特征；

若所述素材特征包括所述视频帧特征以及所述语音序列特征，则对所述视频帧特征以及所述语音序列特征进行聚合处理以得到第一全局特征，并基于所述第一全局特征得到所述待处理素材的标签信息；

若所述素材特征包括所述视频帧特征，所述语音序列特征以及所述文本特征，则对所述视频帧特征，所述语音序列特征以及所述文本特征进行聚合处理以得到第二全局特征，并基于所述第二全局特征得到所述待处理素材的标签信息。

3.根据权利要求2所述的方法，其特征在于，所述基于所述视频时长调整策略，所述视频尺寸调整策略以及所述目标参数，对所述待处理素材进行处理，以生成目标视频，包括：

获取所述多媒体数据的每个视频帧中每个像素点的RGB参数；

基于所述多媒体数据以及所述每个视频帧中每个像素点的RGB参数，通过概率输出模型获取每个视频帧为画面切换帧的概率；

基于所述每个视频帧为画面切换帧的概率，将所述多媒体数据划分为多组视频片段；

基于所述视频时长调整策略，所述视频尺寸调整策略以及所述目标参数，对所述多组视频片段进行处理，以生成所述目标视频。

4.根据权利要求3所述的方法，其特征在于，所述多媒体数据的视频时长小于所述目标视频时长；

所述基于所述视频时长调整策略，所述视频尺寸调整策略以及所述目标参数，对所述多组视频片段进行处理，以生成所述目标视频，包括：

基于所述行业标签信息确定行业模板集合；

将所述行业模板集合中的行业模板添加至所述多组视频片段中，以得到多组第一视频片段，其中，每个第一视频片段的视频时长的总和等于所述待合成视频的目标视频时长；

将所述多组第一视频片段进行合并处理，以生成所述目标视频。

5.根据权利要求3所述的方法，其特征在于，所述标签信息还包括指示所述待处理素材特征的特征标签信息；

所述多媒体数据的视频时长大于所述目标视频时长；

所述多组视频片段包括第一组视频片段以及第二组视频片段；

基于所述行业标签信息以及所述特征标签信息，确定第一组视频片段的分数以及第二组视频片段的分数，其中，所述第一组视频片段的分数大于所述第二组视频片段的分数；

基于所述第一组视频片段的分数以及所述第二组视频片段的分数确定视频剪辑比例；

基于所述视频剪辑比例对所述第一组视频片段以及所述第二组视频片段进行剪辑，得到所述第一组视频片段的剪辑结果，以及所述第二组视频片段的剪辑结果，其中，所述第一组视频片段的剪辑结果的视频时长，与所述第二组视频片段的剪辑结果的视频时长之和等于所述待合成视频的目标视频时长；

将所述第一组视频片段的剪辑结果，以及所述第二组视频片段的剪辑结果进行合并处理，以生成所述目标视频。

6.根据权利要求1所述的方法，其特征在于，所述多媒体数据为图片数据；

对所述多媒体数据进行特征化处理，得到素材特征，其中，所述素材特征包括图片特征，或，所述素材特征包括图片特征以及文本特征；

若所述素材特征包括所述图片特征以及所述文本特征，则对所述图片特征以及所述文本特征进行聚合处理以得到第三全局特征，并基于所述第三全局特征得到所述待处理素材的标签信息；

若所述素材特征包括图片特征，则基于所述图片特征得到所述待处理素材的标签信息。

7.根据权利要求6所述的方法，其特征在于，所述基于所述视频时长调整策略，所述视频尺寸调整策略以及所述目标参数，对所述待处理素材进行处理，以生成目标视频，包括：

基于所述行业标签信息确定行业模板集合；

根据所述行业模板集合以及所述目标参数，对所述待处理素材进行处理，以得到所述目标视频。

8.根据权利要求7所述的方法，其特征在于，所述图片数据为单张图片；

所述标签信息还包括交互控件标签，所述交互控件标签表示所述待处理素材中存在交互控件；

所述根据所述行业模板集合以及所述目标参数，对所述待处理素材进行处理，以得到所述目标视频，包括：

基于所述交互控件标签，从所述待处理素材中确定交互控件；

对所述交互控件进行增强处理，以得到第一素材，其中，所述第一素材包括进行增强处理后的交互控件，所述增强处理为对所述交互控件进行放大缩小，或，所述增强处理为对所述交互控件进行加粗高亮；

根据所述行业模板集合以及所述目标参数，对所述第一素材进行处理，以得到所述目标视频。

9.根据权利要求7所述的方法，其特征在于，所述图片数据为多张图片；

所述目标参数还包括音乐风格；

基于所述音乐风格确定目标音乐；

基于所述目标音乐确定所述目标音乐中的多个鼓点位置；

基于所述目标音乐中的多个鼓点位置确定所述待处理素材中每张图片的展示时长；

根据所述行业模板集合，所述目标参数以及所述图片数据中每张图片的展示时长，对所述待处理素材进行处理，以得到所述目标视频。

10.根据权利要求9所述的方法，其特征在于，所述标签信息还包括交互控件标签，所述交互控件标签表示所述待处理素材中存在交互控件；

基于所述交互控件标签，从所述待处理素材中确定至少一个交互控件；

对每个交互控件进行增强处理，以得到第二素材，其中，所述第二素材包括至少一个进行增强处理后的交互控件，所述增强处理为对所述交互控件进行放大缩小，或，所述增强处理为对所述交互控件进行加粗高亮；

根据所述行业模板集合以及所述目标参数，对所述第二素材进行处理，以得到所述目标视频。

11.根据权利要求1所述的方法，其特征在于，所述目标参数还包括贴纸元素、字幕元素或图形标志元素中至少一项；

所述基于所述视频时长调整策略，所述视频尺寸调整策略以及所述目标参数，对所述待处理素材进行处理，以生成目标视频，包括：

基于所述视频时长调整策略，所述视频尺寸调整策略以及所述目标参数，对所述待处理素材进行处理，以生成第一视频；

确定所述贴纸元素、所述字幕元素以及所述图形标志元素在所述第一视频中预设位置；

将所述预设位置，将所述贴纸元素、所述字幕元素以及所述图形标志元素中至少一项放置于所述在所述第一视频中预设位置中，以生成所述目标视频。

12.根据权利要求11所述的方法，其特征在于，所述目标参数还包括音乐风格以及特效元素；

所述将所述预设位置，将所述贴纸元素、所述字幕元素以及所述图形标志元素中至少一项放置于所述在所述第一视频中预设位置中，以生成所述目标视频，包括：

将所述预设位置，将所述贴纸元素、所述字幕元素以及所述图形标志元素中至少一项放置于所述在所述第一视频中预设位置中，以生成第二视频；

基于所述音乐风格确定目标音乐；

基于所述目标音乐确定所述目标音乐中的多个鼓点位置；

基于所述目标音乐中的多个鼓点位置以及所述第二视频，确定所述第二视频中的特效转场位置；

将所述特效元素添加至所述第二视频中的特效转场位置上，以生成所述目标视频。

13.根据权利要求1所述的方法，其特征在于，所述获取待处理素材以及目标参数，包括：

显示输入界面，其中，所述输入界面包括数据输入接口以及参数选择接口，所述数据输入接口用于输入所述待处理素材，所述参数选择接口用于选择所述目标参数；

响应于对所述输入界面中数据输入接口的数据选择操作，获取所述待处理素材；

响应于对所述输入界面中参数选择接口的参数选择操作，获取所述目标参数；

所述基于所述视频时长调整策略，所述视频尺寸调整策略以及所述目标参数，对所述待处理素材进行处理，以生成目标视频之后，所述方法还包括：

在视频展示界面显示所述目标视频。

14.一种视频生成装置，其特征在于，所述视频生成装置包括：

获取模块，用于获取待处理素材以及目标参数，其中，所述待处理素材包括多媒体数据，所述目标参数包括待合成视频的目标视频时长以及待合成视频的目标视频尺寸；

所述获取模块，还用于基于所述待处理素材获取标签信息，其中，所述标签信息包括指示所述待处理素材所属行业的行业标签信息以及所述待处理素材所属场景的场景标签信息；

确定模块，用于基于所述待处理素材中的所述多媒体数据，以及所述标签信息中的所述行业标签信息确定视频时长调整策略，其中，所述视频时长调整策略用于对所述待处理素材进行视频时长处理；

所述确定模块，还用于基于所述待处理素材中的所述多媒体数据，所述行业标签信息以及所述场景标签信息确定视频尺寸调整策略，其中，所述视频尺寸调整策略用于对视频尺寸进行调整；

处理模块，用于基于所述视频时长调整策略，所述视频尺寸调整策略，所述待合成视频的目标视频时长以及所述待合成视频的目标视频尺寸，对所述待处理素材进行处理，以生成目标视频，其中，所述目标视频的视频时长等于所述待合成视频的目标视频时长，且所述目标视频的视频尺寸等于所述待合成视频的目标视频尺寸。

15.一种计算机设备，其特征在于，包括：存储器、收发器、处理器以及总线***；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，以实现权利要求1至13中任一项所述的方法；

所述总线***用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

16.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至13中任一项所述的方法。