CN116915925A

CN116915925A - 基于视频模板的视频生成方法、***、电子设备及介质

Info

Publication number: CN116915925A
Application number: CN202310735557.9A
Authority: CN
Inventors: 郝德禄; 彭杰; 吴伟芬
Original assignee: iMusic Culture and Technology Co Ltd
Current assignee: iMusic Culture and Technology Co Ltd
Priority date: 2023-06-20
Filing date: 2023-06-20
Publication date: 2023-10-20
Anticipated expiration: 2043-06-20
Also published as: CN116915925B

Abstract

本发明公开了基于视频模板的视频生成方法和***、电子设备及介质，包括：获取用户侧特征和视频模板侧特征，输入到双塔召回模型，得到多个第一视频模板；确定待合成图片组的图片标签向量和第一视频模板的模板标签向量，计算各第一视频模板与待合成图片组的标签相关系数；确定待合成图片组的图片比例向量和第一视频模板的模板比例向量，计算各第一视频模板与待合成图片组的比例相关系数；根据标签相关系数和比例相关系数确定各第一视频模板与待合成图片组的匹配度，根据匹配度选取出第二视频模板，根据待合成图片组和第二视频模板生成第一视频。本发明提高了视频的合成效率和用户的使用体验，使得视频生成的效果更好，可应用于视频合成技术领域。

Description

基于视频模板的视频生成方法、***、电子设备及介质

技术领域

本发明涉及视频合成技术领域，尤其是一种基于视频模板的视频生成方法和***、电子设备及介质。

背景技术

视频内容制作在日常生活中随处可见，用户通过制作视频内容来记录生活、彰显个性以及输出价值。视频制作通常有两种方式，一是自行录制视频并剪辑完善；二是通过上传若干图片生成特定的模板视频。模板视频合成由于操作方便、效果丰富，是视频内容分享的主要方式，各大互联网巨头均有研究并提供相关的模板视频生成能力，如火山引擎、剪映等。

随着视频模板效果的丰富和类型的增加，基于视频模板完成视频制作分享的需求和场景会日益增多。目前的视频模板合成主要有两种操作方式：

1)用户自主选择模板。用户通过一些标签，找到相关主题的模板，逐个查询并逐个尝试模板合成，查看视频效果，最终选择合适的视频模板。这种方式操作复杂，效率低下，很多用户在使用过程中，需要多次的合成尝试，才能找到最合适的模板，影响了用户的使用体验。

2)通用模版一键合成。基于一批通用视频模板进行视频合成，用户上传图片后，找出满足指定数量的模板，图像比例不适配时通过自动裁切或高斯模糊化处理，完成通用模板的比例适配及合成处理。但采用通用视频模板进行合成，经常出现效果不匹配的情况，影响了视频生成的效果和用户的使用体验。

发明内容

本发明的目的在于至少一定程度上解决现有技术中存在的技术问题之一。

为此，本发明实施例的一个目的在于提供一种基于视频模板的视频生成方法，该方法提高了视频的合成效率和用户的使用体验，使得视频生成的效果更好。

本发明实施例的另一个目的在于提供一种基于视频模板的视频生成***。

为了达到上述技术目的，本发明实施例所采取的技术方案包括：

第一方面，本发明实施例提供了一种基于视频模板的视频生成方法，包括以下步骤：

获取用户侧特征和视频模板侧特征，将所述用户侧特征和所述视频模板侧特征输入到双塔召回模型，得到多个召回的第一视频模板；

确定待合成图片组的图片标签向量和所述第一视频模板的模板标签向量，根据所述图片标签向量和所述模板标签向量计算各所述第一视频模板与所述待合成图片组的标签相关系数；

确定所述待合成图片组的图片比例向量和所述第一视频模板的模板比例向量，根据所述图片比例向量和所述模板比例向量计算各所述第一视频模板与所述待合成图片组的比例相关系数；

根据所述标签相关系数和所述比例相关系数确定各所述第一视频模板与所述待合成图片组的匹配度，并根据所述匹配度选取出第二视频模板，进而根据所述待合成图片组和所述第二视频模板生成第一视频。

进一步地，在本发明的一个实施例中，所述获取用户侧特征和视频模板侧特征，将所述用户侧特征和所述视频模板侧特征输入到双塔召回模型，得到多个召回的第一视频模板这一步骤，其具体包括：

获取目标用户的模板使用时间、模板使用频率以及模板使用偏好，根据所述模板使用时间、所述模板使用频率以及所述模板使用偏好确定所述用户侧特征；

获取目标视频模板的模板风格、模板类型以及模板节奏，根据所述模板风格、所述模板类型以及所述模板节奏确定所述视频模板侧特征；

将所述用户侧特征和所述视频模板侧特征输入到双塔召回模型，输出得到各所述目标视频板的召回率；

确定召回率大于等于预设的第一阈值的所述目标视频模板为所述第一视频模板。

进一步地，在本发明的一个实施例中，所述确定待合成图片组的图片标签向量和所述第一视频模板的模板标签向量，根据所述图片标签向量和所述模板标签向量计算各所述第一视频模板与所述待合成图片组的标签相关系数这一步骤，其具体包括：

获取目标用户上传的待合成图片组，所述待合成图片组包括多个待合成图片；

通过卷积神经网络对各所述待合成图片进行标签分类，得到各所述待合成图片的第一图片标签，并根据所述第一图片标签生成所述图片标签向量；

通过ResNet残差网络对所述第一视频模板进行标签分类，得到所述第一视频模板的多个第一模板标签，并根据所述第一模板标签生成所述模板标签向量；

确定所述图片标签向量与所述模板标签向量的余弦相似度，根据所述余弦相似度确定所述各所述第一视频模板与所述待合成图片组的标签相关系数。

进一步地，在本发明的一个实施例中，所述确定所述待合成图片组的图片比例向量和所述第一视频模板的模板比例向量，根据所述图片比例向量和所述模板比例向量计算各所述第一视频模板与所述待合成图片组的比例相关系数这一步骤，其具体包括：

确定各所述待合成图片的第一图片比例，根据所述第一图片比例生成所述图片比例向量；

确定所述第一视频模板中各个模板区域的第一区域比例，根据所述第一区域比例生成所述模板比例向量；

将所述图片比例向量与所述模板比例向量进行向量维度比较，当两者的向量维度不一致，通过预设的填充向量对所述图片比例向量/所述模板比例向量进行填充处理，得到维度一致的图片比例向量和模板比例向量；

确定维度一致的图片比例向量与模板比例向量的归一化距离，根据所述归一化距离确定各所述第一视频模板与所述待合成图片组的比例相关系数。

进一步地，在本发明的一个实施例中，根据下式确定维度一致的图片比例向量与模板比例向量的归一化距离：

其中，r_{pic_k}表示图片比例向量V_pic中第k个第一图片比例，r_{video_k}表示模板比例向量V_video中第k个第一区域比例，N表示图片比例向量V_pic和模板比例向量V_video的向量维度，D_{pic_video}(V_pic,V_video)表示图片比例向量V_pic与模板比例向量V_video的归一化距离。

进一步地，在本发明的一个实施例中，所述根据所述标签相关系数和所述比例相关系数确定各所述第一视频模板与所述待合成图片组的匹配度这一步骤，其具体包括：

确定所述第一视频模板的内容属性权重和效果属性权重；

将所述内容属性权重作为所述标签相关系数的权重，将所述效果属性权重作为所述比例相关系数的权重，对所述标签相关系数和所述比例相关系数进行加权求和，得到所述第一视频模板与所述待合成图片组的匹配度。

进一步地，在本发明的一个实施例中，所述根据所述匹配度选取出第二视频模板，进而根据所述待合成图片组和所述第二视频模板生成第一视频这一步骤，其具体包括：

选取匹配度大于等于预设的第二阈值的若干个第一视频模板作为第二视频模板，或，选取匹配度排名小于等于预设的第三阈值的若干个第一视频模板作为第二视频模板；

根据所述第二视频模板对所述待合成图片组进行视频合成，生成所述第一视频。

第二方面，本发明实施例提供了一种基于视频模板的视频生成***，包括：

视频模板召回模块，用于获取用户侧特征和视频模板侧特征，将所述用户侧特征和所述视频模板侧特征输入到双塔召回模型，得到多个召回的第一视频模板；

标签相关系数计算模块，用于确定待合成图片组的图片标签向量和所述第一视频模板的模板标签向量，根据所述图片标签向量和所述模板标签向量计算各所述第一视频模板与所述待合成图片组的标签相关系数；

比例相关系数计算模块，用于确定所述待合成图片组的图片比例向量和所述第一视频模板的模板比例向量，根据所述图片比例向量和所述模板比例向量计算各所述第一视频模板与所述待合成图片组的比例相关系数；

视频模板选取模块，用于根据所述标签相关系数和所述比例相关系数确定各所述第一视频模板与所述待合成图片组的匹配度，并根据所述匹配度选取出第二视频模板，进而根据所述待合成图片组和所述第二视频模板生成第一视频。

第三方面，本发明实施例提供了一种电子设备，所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，所述程序被所述处理器执行时实现如上述第一方面所述的基于视频模板的视频生成方法。

第四方面，本发明实施例还提供了一种存储介质，所述存储介质为计算机可读存储介质，用于计算机可读存储，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述第一方面所述的基于视频模板的视频生成方法。

本发明的优点和有益效果将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到：

本发明实施例获取用户侧特征和视频模板侧特征，将用户侧特征和视频模板侧特征输入到双塔召回模型，得到多个召回的第一视频模板，然后确定待合成图片组的图片标签向量和第一视频模板的模板标签向量，根据图片标签向量和模板标签向量计算各第一视频模板与待合成图片组的标签相关系数，再确定待合成图片组的图片比例向量和第一视频模板的模板比例向量，根据图片比例向量和模板比例向量计算各第一视频模板与待合成图片组的比例相关系数，最后根据标签相关系数和比例相关系数确定各第一视频模板与待合成图片组的匹配度，并根据匹配度选取出第二视频模板，进而根据待合成图片组和第二视频模板生成第一视频。本发明实施例先通过双塔召回模型筛选出符合用户特征的多个第一视频模板，然后基于标签相关系数和比例相关系数确定各第一视频模板与待合成图片组的匹配度，从而可以自动选取匹配度较高的第二视频模板对待合成图片组进行视频合成，避免了视频模板的主题内容或模板比例与待合成图片组不适配，提高了视频的合成效率和用户的使用体验，使得视频生成的效果更好。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面对本发明实施例中所需要使用的附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员来说，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1为本发明实施例提供的一种基于视频模板的视频生成方法的步骤流程图；

图2为本发明实施例提供的步骤S101的一种流程图；

图3为本发明实施例提供的步骤S102的一种流程图；

图4为本发明实施例提供的步骤S103的一种流程图；

图5为本发明实施例提供的步骤S104的一种流程图；

图6为本发明实施例提供的步骤S104的另一种流程图；

图7为本发明实施例提供的双塔召回模型的示意图；

图8为本发明实施例提供的标签相关系数的计算过程示意图；

图9为本发明实施例提供的基于视频模板的视频生成***的结构示意图；

图10为本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。需要说明的是，虽然在***示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于***示意图中的模块划分，或流程图中的顺序执行所示出或描述的步骤。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，多个的含义是两个或两个以上，如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。此外，除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

本申请实施例提供的基于视频模板的视频生成方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式***，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现基于视频模板的视频生成方法的应用等，但并不局限于以上形式。

本申请可用于众多通用或专用的计算机***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

需要说明的是，在本申请的各个具体实施方式中，当涉及到需要根据用户信息、用户行为数据，用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时，都会先获得用户的许可或者同意，而且，对这些数据的收集、使用和处理等，都会遵守相关国家和地区的相关法律法规和标准。此外，当本申请实施例需要获取用户的敏感个人信息时，会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意，在明确获得用户的单独许可或者单独同意之后，再获取用于使本申请实施例能够正常运行的必要的用户相关数据。

如图1所示为本发明实施例提供的一种基于视频模板的视频生成方法的步骤流程图，参照图1，本发明实施例提供了一种基于视频模板的视频生成方法，具体包括以下步骤：

S101、获取用户侧特征和视频模板侧特征，将用户侧特征和视频模板侧特征输入到双塔召回模型，得到多个召回的第一视频模板。

具体地，不同类型的用户选择的模板类型各有差异，例如年轻用户群体偏好活泼、卡点、快节奏的模板，老年用户群体偏好祝福、分身、花草的欧版。随着视频模板库的内容的不断增加，为了制作合适的模板视频，需要从海量视频模板中抽取适合用户特征的视频模板内容。本发明实施例构建用户侧特征和模板侧特征，基于双塔召唤模型完成视频模板的召回。

如图2所示为本发明实施例提供的步骤S101的一种流程图，参照图2，进一步作为可选的实施方式，获取用户侧特征和视频模板侧特征，将用户侧特征和视频模板侧特征输入到双塔召回模型，得到多个召回的第一视频模板这一步骤，其具体包括：

S1021、获取目标用户的模板使用时间、模板使用频率以及模板使用偏好，根据模板使用时间、模板使用频率以及模板使用偏好确定用户侧特征；

S1022、获取目标视频模板的模板风格、模板类型以及模板节奏，根据模板风格、模板类型以及模板节奏确定视频模板侧特征；

S1023、将用户侧特征和视频模板侧特征输入到双塔召回模型，输出得到各目标视频板的召回率；

S1024、确定召回率大于等于预设的第一阈值的目标视频模板为第一视频模板。

具体地，本发明实施例通过双塔召回模型完成视频模板的召回操作，基于模板使用时间、模板使用频率以及模板使用偏好等用户历史数据构建用户侧特征，基于模板风格、模板类型以及模板节奏构建视频模板侧特征，将用户侧特征和视频模板侧特征输入到双塔召回模块，结合互操作层的数据，提取比较符合用户需求的模板内容。

如图7所示为本发明实施例提供的双塔召回模型的示意图，可以理解的是，输入的用户侧特征和视频模板侧特征分别通过DNN进行特征向量的提取，然后基于余弦相似度或欧氏距离来进行召回率计算，然后选取召回率大于等于第一阈值的目标视频模板作为第一视频模板。

在一些可选的实施例中，基于已训练完成的双塔召回模型进行视频模板召回的过程如下：

1、离线处理步骤：

1)模板emb生成：视频模板聚类；

2)线上通过gpu服务器模拟验证(正样本召回命中率40％)：

a.读入已生成的模板embedding；

b.获取合成记录与模板信息；

c.每个用户合成视频前，找其最近的3条制作记录；

d.这3条制作记录对应的模板emb进行累加求平均得到用户的emb；

e.根据user_emb，使用faiss找与其最相近的10条模板id；

f.查看正样本的召回命中率；

3)如步骤2)验证通过，将第一步生成的模板emb，更新至milvus服务端。

2、线上使用步骤：

1)连接milvus服务端，Restful方式取数；

2)根据传入的3条历史制作模板id，从milvus服务端获取3条模板emb；

3)3条模板emb做累加求平均作为此用户的user_emb；

4)根据user_emb，从milvus服务端寻找与其最相近的20条模板id并返回。

可以认识到，本发明实施例通过双塔召回模型获取较高召回率的视频模板，有效缩小后续视频模板匹配的范围，减少后续模板匹配度的计算量，提高了视频模板匹配的效率，从而提高了视频的合成效率。

S102、确定待合成图片组的图片标签向量和第一视频模板的模板标签向量，根据图片标签向量和模板标签向量计算各第一视频模板与待合成图片组的标签相关系数。

具体地，分别确定待合成图片组的图片标签向量和第一视频模板的模板标签向量，图片标签向量和模板标签向量分别反映了待合成图片组的内容属性和第一视频模板的内容属性，通过标签相关系数的计算可以确定各第一视频模板与待合成图片组的内容标签的相关性。本发明实施例针对用户上传的图片进行智能标签识别，并与召回的视频模板进行相关性计算。

如图3所示为本发明实施例提供的步骤S102的一种流程图，参照图3，进一步作为可选的实施方式，确定待合成图片组的图片标签向量和第一视频模板的模板标签向量，根据图片标签向量和模板标签向量计算各第一视频模板与待合成图片组的标签相关系数这一步骤，其具体包括：

S1021、获取目标用户上传的待合成图片组，待合成图片组包括多个待合成图片；

S1022、通过卷积神经网络对各待合成图片进行标签分类，得到各待合成图片的第一图片标签，并根据第一图片标签生成图片标签向量；

S1023、通过ResNet残差网络对第一视频模板进行标签分类，得到第一视频模板的多个第一模板标签，并根据第一模板标签生成模板标签向量；

S1024、确定图片标签向量与模板标签向量的余弦相似度，根据余弦相似度确定各第一视频模板与待合成图片组的标签相关系数。

具体地，如图8所示为本发明实施例提供的标签相关系数的计算过程示意图。用户合成视频时，选择相应的图片进行上传；上传后，基于MaskR-CNN对用户上传的每张图片进行标签识别和智能分类，合并全部上传图片的标签数据，输出用户图片组的图片标签向量；视频模板的标签标注，通过ResNet101网络模型运算加人工后处理两个步骤提前分析完成；将上述用户图片组的图片标签向量和视频模板的模板标签向量进行余弦相似度计算，得出针对该组图片的各视频模板的标签相关系数R_{pic_video}。

需要说明的是，本发明实施例用户图片组标签和视频模板标签共用一套标签体系，基于统一的标签体系构建两组标签向量，通过余弦相似度计算获得视频模板与待合成图片组的标签相关系数R_{pic_video}。通过本步骤的处理，可找出与用户图片的标签相关性较高的视频模板，确保后续视频合成的效果符合用户使用场景。

S103、确定待合成图片组的图片比例向量和第一视频模板的模板比例向量，根据图片比例向量和模板比例向量计算各第一视频模板与待合成图片组的比例相关系数。

具体地，本发明实施例计算用户上传图片的比例向量，结合视频模板的比例向量进行归一化距离计算，得到各第一视频模板与待合成图片组的比例相关系数。

如图4所示为本发明实施例提供的步骤S103的一种流程图，参照图4，进一步作为可选的实施方式，确定待合成图片组的图片比例向量和第一视频模板的模板比例向量，根据图片比例向量和模板比例向量计算各第一视频模板与待合成图片组的比例相关系数这一步骤，其具体包括：

S1031、确定各待合成图片的第一图片比例，根据第一图片比例生成图片比例向量；

S1032、确定第一视频模板中各个模板区域的第一区域比例，根据第一区域比例生成模板比例向量；

S1033、将图片比例向量与模板比例向量进行向量维度比较，当两者的向量维度不一致，通过预设的填充向量对图片比例向量/模板比例向量进行填充处理，得到维度一致的图片比例向量和模板比例向量；

S1034、确定维度一致的图片比例向量与模板比例向量的归一化距离，根据归一化距离确定各第一视频模板与待合成图片组的比例相关系数。

具体地，用户上传的图片中，针对每张图片进行宽高比例计算，定义为r_{pic_i}，其中i的范围为1到m，m是用户上传的图片数量。基于每张图片的宽高比例，可得出图片比例向量如下：

V_pic＝(r_{pic_1},r_{pic_2},…,r_{pic_m})

视频模板中，每个可替换位置(即模板区域)有个最佳比例值，定义为r_{video_j}，其中j的范围为1到n，n是可替换位置的数量。基于每个可替换位置的宽高比例，可得出模板比例向量如下：

V_video＝(r_{video_1},r_{video_2},…,r_{video_n})

将图片比例向量和模板比例向量进行维度比较，维度较低的向量通过补0的方式填充，确保向量维度一致。处理后的比例向量维度为N。

针对维度一致的图片比例向量和模板比例向量进行归一化距离计算，得出两个比例向量之间的差异。

进一步作为可选的实施方式，根据下式确定维度一致的图片比例向量与模板比例向量的归一化距离：

具体地，当用户上传图片的比例和视频模板的比例100％一致时，距离D_{pic_video}为0；距离越大，说明用户上传的图片和视频模板的差异越大，最大不超过1。通过本步骤得出比例相关系数后，可进行下一步匹配度的综合计算。

S104、根据标签相关系数和比例相关系数确定各第一视频模板与待合成图片组的匹配度，并根据匹配度选取出第二视频模板，进而根据待合成图片组和第二视频模板生成第一视频。

如图5所示为本发明实施例提供的步骤S104的一种流程图，参照图5，进一步作为可选的实施方式，根据标签相关系数和比例相关系数确定各第一视频模板与待合成图片组的匹配度这一步骤，其具体包括：

S1041、确定第一视频模板的内容属性权重和效果属性权重；

S1042、将内容属性权重作为标签相关系数的权重，将效果属性权重作为比例相关系数的权重，对标签相关系数和比例相关系数进行加权求和，得到第一视频模板与待合成图片组的匹配度。

具体地，结合前述步骤确定的标签相关系数和比例相关系数，可进一步整合计算得出待合成图片组和各个第一视频模板的匹配度，计算方式如下：

S_{pic_video}＝α·R_{pic_video}+β·D_{pic_video}

其中，R_{pic_video}表示用户图片与视频模板的标签相关系数，D_{pic_video}表示用户图片与视频模板的比例相关系数，α和β分别表示内容属性权重和效果属性权重。

不同的视频模板的α和β各不相同，偏重内容属性的模板，α取值较高，比如节庆类、主题类模板；偏重效果属性的模板，β取值较高，比如全屏转场效果、框架图层特效的模板。本发明实施例确定各个第一视频模板的内容属性权重和效果属性权重，基于这两个权重对标签相关系数和比例相关系数进行加权求和，可以准确得到各个第一视频模板与待合成图片组的匹配度。

如图6所示为本发明实施例提供的步骤S104的另一种流程图，参照图6，进一步作为可选的实施方式，根据匹配度选取出第二视频模板，进而根据待合成图片组和第二视频模板生成第一视频这一步骤，其具体包括：

S1043、选取匹配度大于等于预设的第二阈值的若干个第一视频模板作为第二视频模板，或，选取匹配度排名小于等于预设的第三阈值的若干个第一视频模板作为第二视频模板；

S1044、根据第二视频模板对待合成图片组进行视频合成，生成第一视频。

具体地，针对筛选出的第一视频模板进行匹配度的批量计算，得出不同模板的匹配度数值并进行排序，进而可得到符合用户需求的Top K模板信息，使得视频合成效果最优化。

在一些可选的实施例中，可根据得出的Top K模板抽取前若干个模板进行视频合成，并返回视频结果。同时，也可以将Top K中的其他模板数据一并反馈到产品侧，方便用户选择及查看。

以上对本发明实施例的方法步骤进行了说明。可以理解的是，本发明实施例构建用户侧特征和模板侧特征，基于双塔模型完成海量视频模板的召回；针对用户上传的图片进行智能标签识别，并与召回的视频模板进行标签相关系数的计算；同时计算用户上传图片的比例向量，结合视频模板的比例向量进行归一化距离计算得到比例相关系数；之后将标签相关系数和比例相关系数进行综合评估计算，得出不同视频模板的匹配度数值并排序，基于匹配度最高的视频模板进行视频合成，一键式生成效果最佳的视频内容，满足用户需求。

本发明实施例先通过双塔召回模型筛选出符合用户特征的多个第一视频模板，然后基于标签相关系数和比例相关系数确定各第一视频模板与待合成图片组的匹配度，从而可以自动选取匹配度较高的第二视频模板对待合成图片组进行视频合成，避免了视频模板的主题内容或模板比例与待合成图片组不适配，提高了视频的合成效率和用户的使用体验，使得视频生成的效果更好。

如图9所示为本发明实施例提供的视频播放装置的结构示意图，参照图9，本发明实施例提供了一种基于视频模板的视频生成***，包括：

视频模板召回模块，用于获取用户侧特征和视频模板侧特征，将用户侧特征和视频模板侧特征输入到双塔召回模型，得到多个召回的第一视频模板；

标签相关系数计算模块，用于确定待合成图片组的图片标签向量和第一视频模板的模板标签向量，根据图片标签向量和模板标签向量计算各第一视频模板与待合成图片组的标签相关系数；

比例相关系数计算模块，用于确定待合成图片组的图片比例向量和第一视频模板的模板比例向量，根据图片比例向量和模板比例向量计算各第一视频模板与待合成图片组的比例相关系数；

视频模板选取模块，用于根据标签相关系数和比例相关系数确定各第一视频模板与待合成图片组的匹配度，并根据匹配度选取出第二视频模板，进而根据待合成图片组和第二视频模板生成第一视频。

上述方法实施例中的内容均适用于本***实施例中，本***实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

本发明实施例还提供了一种电子设备，电子设备包括：存储器、处理器、存储在存储器上并可在处理器上运行的程序以及用于实现处理器和存储器之间的连接通信的数据总线，程序被处理器执行时实现上述基于视频模板的视频生成方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。

如图10所示为本发明实施例提供的电子设备的硬件结构示意图，参照图10，本发明实施例提供了一种电子设备，包括：

处理器1001，可以采用通用的CPU(CentralProcessingUnit，中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本发明实施例所提供的技术方案；

存储器1002，可以采用只读存储器(ReadOnlyMemory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory，RAM)等形式实现。存储器1002可以存储操作***和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1002中，并由处理器1001来调用执行本发明实施例的基于视频模板的视频生成方法；

输入/输出接口1003，用于实现信息输入及输出；

通信接口1004，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

总线1005，在设备的各个组件(例如处理器1001、存储器1002、输入/输出接口1003和通信接口1004)之间传输信息；

其中处理器1001、存储器1002、输入/输出接口1003和通信接口1004通过总线1005实现彼此之间在设备内部的通信连接。

本发明实施例还提供了一种存储介质，存储介质为计算机可读存储介质，用于计算机可读存储，存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现上述基于视频模板的视频生成方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或上述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，上述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印上述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得上述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于视频模板的视频生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于视频模板的视频生成方法，其特征在于，所述获取用户侧特征和视频模板侧特征，将所述用户侧特征和所述视频模板侧特征输入到双塔召回模型，得到多个召回的第一视频模板这一步骤，其具体包括：

3.根据权利要求1所述的一种基于视频模板的视频生成方法，其特征在于，所述确定待合成图片组的图片标签向量和所述第一视频模板的模板标签向量，根据所述图片标签向量和所述模板标签向量计算各所述第一视频模板与所述待合成图片组的标签相关系数这一步骤，其具体包括：

4.根据权利要求3所述的一种基于视频模板的视频生成方法，其特征在于，所述确定所述待合成图片组的图片比例向量和所述第一视频模板的模板比例向量，根据所述图片比例向量和所述模板比例向量计算各所述第一视频模板与所述待合成图片组的比例相关系数这一步骤，其具体包括：

5.根据权利要求4所述的一种基于视频模板的视频生成方法，其特征在于，根据下式确定维度一致的图片比例向量与模板比例向量的归一化距离：

其中，r_{pic_k}表示图片比例向量V_pic中第k个第一图片比例，r_{video_k}表示模板比例向量V_video中第k个第一区域比例，N表示图片比例向量V_pic和模板比例向量V_video的向量维度，D_{pic_video}(V_pic，V_video)表示图片比例向量V_pic与模板比例向量V_video的归一化距离。

6.根据权利要求1所述的一种基于视频模板的视频生成方法，其特征在于，所述根据所述标签相关系数和所述比例相关系数确定各所述第一视频模板与所述待合成图片组的匹配度这一步骤，其具体包括：

确定所述第一视频模板的内容属性权重和效果属性权重；

7.根据权利要求1至6中任一项所述的一种基于视频模板的视频生成方法，其特征在于，所述根据所述匹配度选取出第二视频模板，进而根据所述待合成图片组和所述第二视频模板生成第一视频这一步骤，其具体包括：

8.一种基于视频模板的视频生成***，其特征在于，包括：

9.一种电子设备，其特征在于：所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，所述程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于视频模板的视频生成方法的步骤。

10.一种存储介质，所述存储介质为计算机可读存储介质，用于计算机可读存储，其特征在于：所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1至7中任一项所述的基于视频模板的视频生成方法的步骤。