CN113709529A

CN113709529A - 视频合成方法、装置、电子设备及计算机可读介质

Info

Publication number: CN113709529A
Application number: CN202110396622.0A
Authority: CN
Inventors: 陈姿
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2021-11-26
Anticipated expiration: 2041-04-13
Also published as: CN113709529B

Abstract

本公开的实施例提供了一种视频合成方法、装置、电子设备及计算机可读介质。该方法包括：获取第一视频的视频合成请求，所述视频合成请求包括目标关键字；确定与所述目标关键字匹配的至少一个目标行为数据；确定所述第一视频中与所述目标行为数据匹配的多个目标视频片段；对所述多个目标视频片段进行拼接，获得第二视频。本公开实施例的视频合成方法可以部署在云服务器中进行并行计算。本公开实施例提供的视频合成方法、装置、电子设备及计算机可读介质能够实现视频的快速自动生成，节约人力物力并提高效率。

Description

视频合成方法、装置、电子设备及计算机可读介质

技术领域

本公开涉及视频合成技术领域，具体而言，涉及一种视频合成方法、装置、电子设备及计算机可读介质。

背景技术

网络技术已在人类生活场景中得到了长足的应用。为满足用户碎片化时间的利用，短视频的观看人数和观看频次大大提升。对于完整影视作品，可通过对其中精彩片段的截取并生成锦集类型的短视频以供用户观看。

对于不断推陈出新的各类影视作品，目前通常是由专职的短视频制作人员在观看完整的影视作品后，再截取精彩片段制作为短视频。这将耗费大量的时间，并且其人工成本过高，主观性较强，不能满足各类用户需求。

因此，需要一种新的视频合成方法、装置、电子设备及计算机可读介质。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开实施例提供一种视频合成方法、装置、电子设备及计算机可读介质，进而至少在一定程度上实现视频的自动生成，节约人力物力并提高效率。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

本公开实施例提出一种视频合成方法，包括：获取第一视频的视频合成请求，所述视频合成请求包括目标关键字；确定与所述目标关键字匹配的至少一个目标行为数据；确定所述第一视频中与所述目标行为数据匹配的多个目标视频片段；对所述多个目标视频片段进行拼接，获得第二视频。

本公开实施例提出一种视频合成装置，包括：请求接收模块，配置为获取第一视频的视频合成请求，所述视频合成请求包括目标关键字；行为匹配模块，配置为确定与所述目标关键字匹配的至少一个目标行为数据；行为识别模块，配置为确定所述第一视频中与所述目标行为数据匹配的多个目标视频片段；视频合成模块，配置为对所述多个目标视频片段进行拼接，获得第二视频。

在本公开的一种示例性实施例中，行为识别模块包括：视频片段识别单元，配置为对所述第一视频和所述目标行为数据进行处理，获得所述第一视频中的多个待排序视频片段，以及各待排序视频片段与所述目标行为数据的匹配度；排序值确定单元，配置为根据各待排序视频片段的匹配度确定各排序视频片段的目标排序值；视频片段排序单元，配置为根据所述目标排序值对所述多个待排序视频片段进行排序，将排名前m个的待排序视频片段确定为与所述目标行为数据匹配的多个目标视频片段，m为大于0的整数。

在本公开的一种示例性实施例中，排序值确定单元包括：弹出式评论数子单元，配置为获得各待排序视频片段的弹出式评论数；播放热度子单元，配置为根据各待排序视频片段的弹出式评论数获得各待排序视频片段的播放热度；排序值确定子单元，配置为对所述多个待排序视频片段的匹配度和所述待排序视频片段的播放热度进行加权计算，获得所述多个待排序视频片段的目标排序值。

在本公开的一种示例性实施例中，所述目标行为数据包括表情数据；其中，视频片段识别单元包括：人脸检测子单元，配置为对所述第一视频中的视频帧进行人脸检测，获得待识别人脸；特征提取子单元，配置为对所述待识别人脸进行特征提取，获得待识别人脸特征；表情相似度计算子单元，配置为通过表情识别模型对所述待识别人脸特征和所述表情数据进行处理，获得所述待识别人脸特征和所述表情数据的表情相似度；第一视频片段识别子单元，配置为将表情相似度大于表情相似度阈值的待识别人脸特征所在的视频帧确定为所述多个待排序视频片段。

在本公开的一种示例性实施例中，所述目标行为数据包括动作数据；视频片段识别单元包括：人物检测子单元，配置为对所述第一视频中的视频帧进行人物检测，根据检测结果获得多个视频帧序列；动作特征识别子单元，配置为通过动作识别模型对所述多个视频帧序列和所述动作数据进行处理，获得各视频帧序列的动作特征；动作相似度计算子单元，配置为确定各视频帧序列的动作特征和所述动作数据的动作相似度；第二视频片段识别子单元，配置为将动作相似度大于动作相似度阈值的视频帧序列确定为所述多个待排序视频片段。

在本公开的一种示例性实施例中，视频合成装置还包括：关键字获取模块，配置为获得所述第一视频的关键字信息的出现次数，所述关键字信息包括弹出式评论信息、静止式评论信息、标签信息中的一个或多个；关键字排序模块，配置为根据所述出现次数对所述关键字信息进行排序；关键字分类模块，配置为对排名前k的所述关键字信息进行分类，以将排名前k的所述关键字信息划分为至少一个关键字集合，k为大于0的整数；行为匹配模块，配置为根据各关键字集合确定所述第一视频对应的行为数据。

在本公开的一种示例性实施例中，行为匹配模块包括：关键字相似度单元，配置为计算所述目标关键字和所述关键字集合中各关键字信息的关键字相似度；关键字集合确定单元，配置为将具有最大的关键字相似度的关键字集合确定为所述第一视频对应的目标关键字集合；行为匹配单元，配置为将所述目标关键字集合对应的行为数据确定为与所述目标关键字匹配的多个目标行为数据。

在本公开的一种示例性实施例中，关键字分类模块包括：词向量表示单元，配置为获得排名前k的所述关键字信息的关键字词向量；关键字分类单元，配置为将关键字词向量间的相似度小于词向量相似度阈值的所述关键字信息划分为同一集合，获得所述至少一个关键字集合。

在本公开的一种示例性实施例中，行为匹配模块包括：行为匹配值确定单元，配置为对各关键字集合中的关键字信息进行处理，获得每个关键字信息与各待匹配行为数据的行为匹配值；关键字与行为匹配单元，配置为将具有最大的行为匹配值的待匹配行为数据确定为关键字信息对应的行为数据；行为匹配单元，配置为将所述关键字集合中的关键字信息对应的行为数据确定为所述第一视频对应的行为数据。

本公开实施例提出一种电子设备，包括：至少一个处理器；存储装置，用于存储至少一个程序，当所述至少一个程序被所述至少一个处理器执行时，使得所述至少一个处理器实现如上述实施例中所述的视频合成方法。

本公开实施例提出一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述实施例中所述的视频合成方法。

在本公开的一些实施例所提供的技术方案中，在接收到对于第一视频的视频合成请求时，基于该视频合成请求中包括的目标关键字确定与其匹配的至少一个目标行为数据，并基于至少一个目标行为数据从第一视频截取与目标行为数据匹配的目标视频片段，通过对目标视频片段的拼接获得合成的第二视频。由于第二视频中的目标视频片段与目标行为数据是匹配的，且目标行为数据与目标关键字为匹配的，因此，能够保证基于目标关键字对第一视频中截取与目标关键字高度相关的目标视频片段，并基于目标视频片段生成与目标关键字高度匹配的第二视频，实现视频的快速自动生成，节约人力物力并提高效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本公开实施例的视频合成方法或装置的示例性***架构100的示意图。

图2示意性示出了根据本公开的一个实施例的视频合成方法的流程图。

图3示意性示出了根据本公开的一个实施例的视频合成方法的流程图。

图4示意性示出了根据本公开的一个实施例的视频合成方法的流程图。

图5是基于本公开实施例的视频合成方法的待排序视频片段的获取方法的时序图。

图6是基于本公开实施例的视频合成方法的待排序视频片段的获取方法的流程图。

图7示意性示出了根据本公开的一个实施例的视频合成方法的流程图。

图8示意性示出了根据本公开的一个实施例的视频合成方法的流程图。

图9示意性示出了根据本公开的一实施例的视频合成装置的框图。

图10示出了适于用来实现本公开实施例的电子设备的结构示意图。

图11示意性示出了本公开实施例中第二视频的展示示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在至少一个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

如图1所示，***架构100可以包括终端设备101、102、103中的一种或多种，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机、台式计算机、可穿戴设备、虚拟现实设备、智能家居等等。

服务器105可以是提供各种服务的服务器。例如，服务器105可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在本公开实施例中，终端设备103(也可以是终端设备101或102)可向服务器105上传视频合成请求。服务器105可以获取第一视频的视频合成请求，所述视频合成请求包括目标关键字；确定与所述目标关键字匹配的至少一个目标行为数据；确定所述第一视频中与所述目标行为数据匹配的多个目标视频片段；对所述多个目标视频片段进行拼接，获得第二视频。并将第二视频反馈给终端设备103，进而终端设备103可以展示第二视频或对其进行例如审核、上线等后续操作。图11示意性示出了本公开实施例中第二视频的展示示意图。如图11所示，可例如在终端设备103的屏幕上展示第二视频1110的封面，并在接收到用户对第二视频1110的点击操作后播放第二视频。

图2示意性示出了根据本公开的一个实施例的视频合成方法的流程图。本公开实施例所提供的方法可以由任意具备计算处理能力的电子设备处理，例如上述图1实施例中的服务器105和/或终端设备102、103，在下面的实施例中，以服务器105为执行主体为例进行举例说明，但本公开并不限定于此。

如图2所示，本公开实施例提供的视频合成方法可以包括以下步骤。

在步骤S210中，获取第一视频的视频合成请求，视频合成请求包括目标关键字。

本公开实施例中，第一视频为用于截取视频片段以制作新的视频的原始视频，可例如为完整的影视作品。其中，视频合成请求可由视频合成的工作人员操作生成，该视频合成请求中的目标关键字可由工作人员通过输入设备键入。优选地，该视频合成请求可为预先设定的程序中的执行语句发起，该视频合成请求中的目标关键字可由第一视频的历史评论信息、标签信息等提取关键字生成。历史评论信息可例如为第一视频的播放中的弹出式评论信息、静止式评论信息、虚拟论坛中的话题评论等。

在步骤S220中，确定与目标关键字匹配的至少一个目标行为数据。

本公开实施例中，与目标关键字匹配的至少一个目标行为数据为在目标关键字所指示的情形下可能做出的行为的归纳。例如，当目标关键字为“甜蜜”时，与该目标关键字匹配的目标行为数据例如为“拥抱”、“靠肩”等。优选实施例中，可首先存储每个关键字信息对应的行为数据，例如通过映射表形式存储。对于该映射表(下称行为列表数据库)中同类的关键字信息(同类的关键字信息同属一关键字集合)，该类关键字可对应一个或多个行为数据。在确定目标关键字后，可将该目标关键字与每个关键字集合中的关键字信息进行匹配，并将匹配成功的关键字集合确定为目标关键字集合，并将该匹配成功的关键字集合对应的至少一个行为数据确定为与目标关键字匹配的至少一个目标行为数据。

在步骤S230中，确定第一视频中与目标行为数据匹配的多个目标视频片段。

本公开实施例中，该多个目标视频片段为第一视频中截取的视频片段。可通过机器学习模型对第一视频中的视频帧进行分类识别，获得该第一视频中与目标行为数据的匹配度高于一定阈值的视频帧，并整合为与该目标行为数据匹配的多个目标视频片段。

在步骤S240中，对多个目标视频片段进行拼接，获得第二视频。

本公开实施例中，目标视频片段为第一视频中截取的视频片段，则通过对多个目标视频片段进行拼接，能够获得合成的第二视频。

本公开实施方式提供的视频合成方法，在接收到对于第一视频的视频合成请求时，基于该视频合成请求中包括的目标关键字确定与其匹配的至少一个目标行为数据，并基于至少一个目标行为数据从第一视频截取与目标行为数据匹配的目标视频片段，通过对目标视频片段的拼接获得合成的第二视频。由于第二视频中的目标视频片段与目标行为数据是匹配的，且目标行为数据与目标关键字为匹配的，因此，能够保证基于目标关键字对第一视频中截取与目标关键字高度相关的目标视频片段，并基于目标视频片段生成与目标关键字高度匹配的第二视频，实现视频的快速自动生成，节约人力物力并提高效率。

如图3所示，基于上述实施例中的视频合成方法还可包括以下步骤。

在步骤S310中，获得第一视频的关键字信息的出现次数，关键字信息包括弹出式评论信息、静止式评论信息、标签信息中的一个或多个。

本公开实施例中，弹出式评论信息可为视频播放过程中由观众用户在播放画面中输入的弹幕。静止式评论信息可为视频播放页面中观众用户在静止式评论区输入的评论性文字。标签信息可例如为该第一视频自带的标签信息。例如，当第一视频为电视剧作品时，该第一视频的标签信息可例如为该电视剧作品的类型，例如喜剧、悬疑、动作等。

在步骤S320中，根据出现次数对关键字信息进行排序。

本公开实施例中，可按照关键字信息的出现次数从大到小进行排序。

在步骤S330中，对排名前k的关键字信息进行分类，以将排名前k的关键字信息划分为至少一个关键字集合，k为大于0的整数。

本公开实施例中，可获得排名前k的关键字信息的关键字词向量；将关键字词向量间的相似度小于词向量相似度阈值的关键字信息划分为同一集合，获得至少一个关键字集合。相似度可通过计算余弦相似度获得。余弦相似度又称为余弦相似性，是通过对关键字信息进行嵌入式表示，获得每个关键字信息的关键字词向量。对于任两个关键字信息，通过计算该两个关键字信息的关键字词向量的夹角余弦值来评估该两个关键字信息的相似度。

在步骤S340中，根据各关键字集合确定第一视频对应的行为数据。

本公开实施例中，每一关键字集合可对应多个行为数据。例如前述实施例中所指行为列表数据库。对于每个关键字集合，可对应至少一个行为数据。例如，对于关键字信息“撒糖”、“狗粮”、“甜蜜”为同一类型(即同一关键字集合)，其在行为列表数据库中作为同一类型进行记录。该关键字集合对应的行为数据即在行为列表数据库中该类型所对应的行为数据。其中，在根据各关键字集合确定第一视频对应的行为数据时，可对各关键字集合中的关键字信息进行处理(例如通过机器学习模型进行处理)，获得每个关键字信息与各待匹配行为数据的行为匹配值；将具有最大的行为匹配值的待匹配行为数据确定为关键字信息对应的行为数据；将关键字集合中的关键字信息对应的行为数据确定为第一视频对应的行为数据。

在步骤S350中，获取第一视频的视频合成请求，视频合成请求包括目标关键字。

本公开实施例中，目标关键字可为根据人工输入信息生成，还可根据指定时间范围内第一视频的观众用户对第一视频的交互数据获得。该交互数据可例如为对评论信息(弹出式评论信息和/或静止式评论信息)的点赞数据、专注度和对交互频繁度中的一种或多种。可根据交互数据抽取关键字并按照交互频次对其进行排序，将频次最高的关键字确定为目标关键字。

在步骤S360中，计算目标关键字和关键字集合中各关键字信息的关键字相似度。

本公开实施例中，关键字集合可为行为列表数据库中记载的关键字集合。关键字相似度可通过余弦相似度表征。例如，可对目标关键字和关键字集合中的各关键字信息均通过嵌入式表示为词向量形式，再将词向量间的余弦值作为关键字相似度。

在步骤S370中，将具有最大的关键字相似度的关键字集合确定为第一视频对应的目标关键字集合。

本公开实施例中，每个关键字集合的关键字相似度该关键字集合中各关键字信息的关键字相似度的平均值或均值或和值，本公开实施例对此并不作特殊限定。对于各关键字集合，将具由最大的关键字相似度的关键字集合确定为第一视频对应的目标关键字集合。

在步骤S380中，将目标关键字集合对应的行为数据确定为与目标关键字匹配的多个目标行为数据。

本公开实施例中，可通过行为列表数据库确定目标关键字集合对应的行为数据。

在步骤S390中，确定第一视频中与目标行为数据匹配的多个目标视频片段。

本公开实施例中，可通过机器学习模型对第一视频中的视频帧进行处理，获得每个视频帧与目标行为数据的匹配度，进而将匹配度大于匹配度阈值的视频帧所在的视频片段确定为与目标行为数据匹配的目标视频片段。

在步骤S395中，对多个目标视频片段进行拼接，获得第二视频。

本公开实施例的步骤S395可采取与步骤S240类似的步骤，此处不再赘述。

本公开实施例中，本方法的执行主体还可包括短视频模块，在获得第二视频后，可根据第一视频的视频名称和目标关键字对第二视频推送至短视频模块。例如，可按照预定格式对第一视频的视频名称、目标关键字和第二视频进行打包，并将打包获得的打包数据推送至短视频模块，以便短视频模块按照预定格式对打包数据进行解析后，展示该第一视频的视频名称和目标关键字，并在接收到用户对第一视频的视频名称和目标关键字的点击操作后，播放该第二视频。

在该实施例中，通过对第一视频的关键字信息进行统计和排序，能够筛选获得和第一视频具有一定相关性的关键字信息，通过对排名前k的关键字信息进行分类，已将其划分为至少一个关键字集合，能够预先基于各关键字集合中关键字信息与行为数据的相似度确定第一视频对应的行为数据。便于在接收到视频合成请求时，通过计算视频合成请求中包括的目标关键字与各关键字集合中的关键字信息的相似度，基于相似度确定与目标关键字最为相关的目标关键字集合，进而根据预先获知的每个关键字集合对应的行为数据确定与目标关键字匹配的多个目标行为数据，以实现后续视频的快速自动生成，节约人力物力并提高效率。

如图4所示，本公开实施例的视频合成方法可以包括以下步骤。

在步骤S410中，获取第一视频的视频合成请求，视频合成请求包括目标关键字。

本公开实施例的步骤S410可采取与步骤S210类似的步骤，此处不再赘述。

在步骤S420中，确定与目标关键字匹配的至少一个目标行为数据。

本公开实施例的步骤S420可采取与步骤S220或步骤S360-S380类似的步骤，此处不再赘述。

在步骤S430中，对第一视频和目标行为数据进行处理，获得第一视频中的多个待排序视频片段，以及各待排序视频片段与目标行为数据的匹配度。

本公开实施例中，可通过机器学习模型对第一视频中的视频帧进行分类识别，获得该第一视频中与目标行为数据的匹配度高于一定阈值的视频帧，并整合为与该目标行为数据匹配的多个目标视频片段。

在步骤S440中，根据各待排序视频片段的匹配度确定各排序视频片段的目标排序值。

本公开实施例中，可将每个待排序视频片段的匹配度作为待排序视频片段的目标排序值，或还可对匹配度进行量化处理获得目标排序值，本公开对此并不作特殊限定。

在示例性实施例中，可获得各待排序视频片段的弹出式评论数；根据各待排序视频片段的弹出式评论数获得各待排序视频片段的播放热度；对多个待排序视频片段的匹配度和待排序视频片段的播放热度进行加权计算，获得多个待排序视频片段的目标排序值。

其中，在获得待排序视频片段的播放热度时，可将每个待排序视频片段中的弹出式评论数确定为其播放热度。又例如，还可考虑每个待排序视频片段在播放平台的播放次数，并基于每个待排序视频片段的播放次数和弹出式评论数的加权值(或均值或最大值)作为每个待排序视频片段的播放热度。上述仅为多种示例，本公开对播放热度的具体生成方式并不作特殊限定。

在步骤S450中，根据目标排序值对多个待排序视频片段进行排序，将排名前m个的待排序视频片段确定为与目标行为数据匹配的多个目标视频片段，m为大于0的整数。

本公开实施例中，m的值可根据实际情况确定。例如，m的值可满足如下条件：前m个待排序视频片段的时长总和在预设的时长范围内(例如大于第一时长并小于第二时长)。

在该实施例中，基于与目标关键字匹配的目标行为数据为导向，对第一视频进行处理，获得第一视频中与目标行为数据较高匹配度的待排序视频片段，能够实现将目标关键字和待排序视频片段的匹配度进行匹配，便于后续基于与目标关键字高度匹配的待排序视频片段生成第二视频。

在示例性实施例中，目标行为数据可包括表情数据，在步骤S430中，可对第一视频中的视频帧进行人脸检测，获得待识别人脸；对待识别人脸进行特征提取，获得待识别人脸特征；通过表情识别模型对待识别人脸特征和表情数据进行处理，获得待识别人脸特征和表情数据的表情相似度；将表情相似度大于表情相似度阈值的待识别人脸特征所在的视频帧确定为多个待排序视频片段。表情识别模型可为神经网络模型。待识别人脸特征和表情数据的表情相似度是表征待识别人脸特征所具有的人物表情和表情数据所指示的表情的相似程度。

其中，在对第一视频中的视频帧进行人脸检测前，还可对第一视频的视频帧进行图像预处理。图5是基于本公开实施例的视频合成方法的待排序视频片段的获取方法的时序图。如图5所示的待排序视频片段的获取方法可为基于人脸识别的表情包提取***，主要包括：数据库、特征训练模块与表情识别模块。数据库采用JAFFE表情数据库。(JAFFE数据库是一个开放的人脸表情图像数据库，包括KA、KL、KM、KR、MK、NA、NM、TM、UY、YM共10个不同的日本女性，每个人有AN、DI、FE、HA、NE、SA、SU共7种不同表情的人脸图像，分别为愤怒、厌恶、害怕、快乐、无表情、悲哀、惊讶，每种表情有3、4张样本图像，总数是213张表情图像。原始图像为256×256像素)。

主要思想是：每一种表情都建立了一个标准的模块，待测的人脸表情与各种标准的表情模板进行匹配，哪种匹配读就与哪种表情越接近。数据库中这些表情(厌恶、害怕、悲哀、惊讶、快乐)大多比较夸张，所以当匹配度较高时说明该测试表情也比较夸张。人脸表情识别是在数据库上进行检测与匹配的。

流程步骤可如下所示。

(1)根据动作发起请求，提取某部影片的表情，比如害羞、悲伤。

(2)将该影片加载到表情提取***。

(3)从数据库的人脸检测。

(4)数据库图片的图片预处理。

(5)数据库图片的特征提取。

(6)视频的人脸检测。

(7)视频人脸图片的预处理。

(8)视频人脸图片的特征提取。

(9)训练分类器(即表情识别模型)的表情识别匹配。

(10)返回结果到***，将该影片的匹配表情的出现的影片时间片段存储到服务器。

例如，可将该影片的匹配表情的出现的影片时间点+人物(可通过人脸识别确定)+播放热度作为存储的关键字，存储到服务器。

在示例性实施例中，目标行为数据可包括动作数据，在步骤S430中，可对第一视频中的视频帧进行人物检测，根据检测结果获得多个视频帧序列；通过动作识别模型对多个视频帧序列和动作数据进行处理，获得各视频帧序列的动作特征；确定各视频帧序列的动作特征和动作数据的动作相似度；将动作相似度大于动作相似度阈值的视频帧序列确定为多个待排序视频片段。在本公开提供的视频合成方法中，目标行为数据可包括表情数据和动作数据中的一种或两种，本公开对此并不作特殊限定。动作识别模型可为神经网络模型，例如三维卷积的深度神经网络模型，但本公开的技术方案对此并不作特殊限定。动作识别模型可用于对视频帧序列进行识别，输出表征该视频帧序列中人物的动作行为的动作特征。视频帧序列的动作特征和动作数据的动作相似度是表征视频帧序列中的人物动作和动作数据所指示的动作的相似程度。其中，动作相似度可按照余弦相似度计算方式计算获得。

其中，图6是基于本公开实施例的视频合成方法的待排序视频片段的获取方法的流程图。如图6所示，通过动作识别模型对第一视频进行处理的流程如下。

(1)数据载入。数据载入包括将数据集划分为验证集(training set)、训练集(validate set)与测试集(test set)，并将数据打乱次序。

(2)网络构建。网络构建包括网络设计、网络参数初始化及防止过拟合设计。本公开实施例的网络构建可为基于三维卷积的深度神经网络模型。

(3)分类函数与损失函数(Loss)定义。动作识别属于多标签分类，对于多标签来说最常用的就是Softmax回归，原理是处理多分类任务时将可以判定为某类的特征进行相加，然后将特征转化为判定。Loss是描述模型对问题的分类精度，即分类结果与真实值的偏差，通过不断减小它达到全局最优或局部最优，也是训练过程的目标。常见的loss函数有最小均方误差(MSE)、合页损失函数(hinge loss)和交叉熵函数(cross entropy loss)。对于Softmax回归最常用的Loss即是交叉熵函数，它是真实的概率分布One-hot编码后取对数再乘以预测的概率分布求和取反。

(4)优化器定义。用Adam优化算法来作为默认的优化算法。Adam优化算法是一种可以替代传统随机梯度下降过程的一阶优化算法，它能基于训练数据迭代地更新神经网络权重。

(5)训练与验证过程。该过程就是通过不断迭代，以mini-batch为单位将数据喂给模型，同时计算梯度，更新学习参数，返回本次的accuracy和loss。每隔一段时间在验证集上进行验证用以在训练阶段评测模型预测性能，通常情况下用k-fold方法划分数据，在每一回合(epoch)或每次批处理(mini-batch)训练后在该训练集和验证集上分别作网络前向运算，预测训练集和验证集样本标记(label)，绘制学习曲线来检验模型泛化能力。验证集与训练集不必分开，但测试集需要完全分开。

(6)测试过程。最后就是计算并记录结果。将该影片的匹配动作的出现的影片时间点+人物(可通过人脸识别确定)+动作数据(例如摔倒)+播放热度作为存储的关键字，存储到服务器。其中存储的播放热度可用于进行加权计算以获得待排序视频片段的目标排序值。

如图7所示，本公开实施例的视频合成方法可以包括以下步骤。

在步骤S710中，检索第一视频的关键字信息。

本公开实施例中，关键字信息的检索可采取与步骤S310类似的步骤，此处不再赘述。

在步骤S720中，确定关键字信息对应的多个行为数据。

在步骤S730中，识别获得第一视频中与各行为数据对应的视频片段。

在步骤S740中，将目标关键字匹配的行为数据确定为目标行为数据，并基于目标行为数据确定目标视频片段，对目标视频片段进行拼接，获得第二视频。其中，图7中所示符合条件的视频片段即通过目标关键字匹配获得的目标视频片段。

在步骤S750中，根据第一视频的视频标题和目标关键字生成第二视频的视频标题。

本公开实施例中，通过用户的观影热度，以及影视内容类型识别自动化截取影视内容，通过视频理解的文字作为标题。比如古装爱情影视作品(即第一视频)的关键字信息：甜蜜，其对应的行为数据：拥抱，靠肩等。视频检索该第一视频中与该行为数据对应的目标视频片段，通过拼接最后输出第二视频。根据第一视频的视频标题和目标关键字生成的第二视频的视频标题可以通过关键字进行检索。本方案可以大大降低视频合成的运营人力成本。

如图8所示，本实施例的视频合成方法可包括以下步骤。

在步骤1中，根据第一视频的弹出式评论信息(弹幕)、静止式评论信息、视频标签请求该第一视频的关键字信息，例如搞笑、泪目、甜蜜等。

在步骤2中，返回排名前k的关键字信息。

在步骤3中，根据关键字信息进行语义理解，以按照语义理解结果将同类型的关键字信息进行整合，比如撒糖、狗粮、甜蜜为同一类型，可进行整合。然后根据不同类型排名，分别进行不同类型的视频的合成。

在步骤4中，获取第一视频的视频合成请求，视频合成请求包括目标关键字。

在步骤5中，根据目标关键字确定行为数据，该行为数据包括动作数据和表情数据。例如目标关键字为甜蜜，在行为列表数据库匹配对应的行为数据(例如动作：拥抱、靠肩以及表情：微笑)。

在步骤6中，通过表情识别模型、动作识别模型保存对应的视频片段，通过弹出式评论信息计算播放热度，结合播放热度对视频片段进行排序筛选。

本公开实施例中表情识别模型和动作识别模型的具体识别过程可参见前述实施例，此处不再赘述。

在步骤7中(图8中未示出)，将筛选获得的视频片段进行拼接，获得第二视频。

通过第一视频的视频标题和目标关键字拼接方式生成该第二视频的视频标题。

以下介绍本公开的装置实施例，可以用于执行本公开上述的视频合成方法。对于本公开装置实施例中未披露的细节，请参照本公开上述的视频合成方法的实施例。

参照图9所示，根据本公开的一个实施例的视频合成装置900，可以包括：请求接收模块910、行为匹配模块920、行为识别模块930和视频合成模块940。

请求接收模块910可配置为获取第一视频的视频合成请求，视频合成请求包括目标关键字。

行为匹配模块920可配置为确定与目标关键字匹配的至少一个目标行为数据。

行为识别模块930可配置为确定第一视频中与目标行为数据匹配的多个目标视频片段。

视频合成模块940可配置为对多个目标视频片段进行拼接，获得第二视频。

本公开实施方式提供的视频合成装置，在接收到对于第一视频的视频合成请求时，基于该视频合成请求中包括的目标关键字确定与其匹配的至少一个目标行为数据，并基于至少一个目标行为数据从第一视频截取与目标行为数据匹配的目标视频片段，通过对目标视频片段的拼接获得合成的第二视频。由于第二视频中的目标视频片段与目标行为数据是匹配的，且目标行为数据与目标关键字为匹配的，因此，能够保证基于目标关键字对第一视频中截取与目标关键字高度相关的目标视频片段，并基于目标视频片段生成与目标关键字高度匹配的第二视频，实现视频的快速自动生成，节约人力物力并提高效率。

在示例性实施例中，行为识别模块930可包括：视频片段识别单元，可配置为对第一视频和目标行为数据进行处理，获得第一视频中的多个待排序视频片段，以及各待排序视频片段与目标行为数据的匹配度；排序值确定单元，可配置为根据各待排序视频片段的匹配度确定各排序视频片段的目标排序值；视频片段排序单元，可配置为根据目标排序值对多个待排序视频片段进行排序，将排名前m个的待排序视频片段确定为与目标行为数据匹配的多个目标视频片段，m为大于0的整数。

在示例性实施例中，排序值确定单元可包括：弹出式评论数子单元，可配置为获得各待排序视频片段的弹出式评论数；播放热度子单元，可配置为根据各待排序视频片段的弹出式评论数获得各待排序视频片段的播放热度；排序值确定子单元，可配置为对多个待排序视频片段的匹配度和视频片段播放热度进行加权计算，获得多个待排序视频片段的目标排序值。

在示例性实施例中，目标行为数据可包括表情数据；其中，视频片段识别单元可包括：人脸检测子单元，可配置为对第一视频中的视频帧进行人脸检测，获得待识别人脸；特征提取子单元，可配置为对待识别人脸进行特征提取，获得待识别人脸特征；表情相似度计算子单元，可配置为通过表情识别模型对待识别人脸特征和表情数据进行处理，获得待识别人脸特征和表情数据的表情相似度；第一视频片段识别子单元，可配置为将表情相似度大于表情相似度阈值的待识别人脸特征所在的视频帧确定为多个待排序视频片段。

在示例性实施例中，目标行为数据可包括动作数据；视频片段识别单元可包括：人物检测子单元，可配置为对第一视频中的视频帧进行人物检测，根据检测结果获得多个视频帧序列；动作特征识别子单元，可配置为通过动作识别模型对多个视频帧序列和动作数据进行处理，获得个视频帧序列的动作特征；动作相似度计算子单元，配置为确定各视频帧序列的动作特征和动作数据的动作相似度；第二视频片段识别子单元，可配置为将动作相似度大于动作相似度阈值的视频帧序列确定为多个待排序视频片段。

在示例性实施例中，视频合成装置还可包括：关键字获取模块，可配置为获得第一视频的关键字信息的出现次数，关键字信息包括弹出式评论信息、静止式评论信息、标签信息中的一个或多个；关键字排序模块，可配置为根据出现次数对关键字信息进行排序；关键字分类模块，可配置为对排名前k的关键字信息进行分类，以将排名前k的关键字信息划分为至少一个关键字集合，k为大于0的整数；行为匹配模块，可配置为根据各关键字集合确定第一视频对应的行为数据。

在示例性实施例中，行为匹配模块920可包括：关键字相似度单元，可配置为计算目标关键字和关键字集合中各关键字信息的关键字相似度；关键字集合确定单元，可配置为将具有最大的关键字相似度的关键字集合确定为第一视频对应的目标关键字集合；行为匹配单元，可配置为将目标关键字集合对应的行为数据确定为与目标关键字匹配的多个目标行为数据。

在示例性实施例中，关键字分类模块可包括：词向量表示单元，可配置为获得排名前k的关键字信息的关键字词向量；关键字分类单元，可配置为将关键字词向量间的相似度小于词向量相似度阈值的关键字信息划分为同一集合，获得至少一个关键字集合。

在示例性实施例中，行为匹配模块可包括：行为匹配值确定单元，可配置为对各关键字集合中的关键字信息进行处理，获得每个关键字信息与各待匹配行为数据的行为匹配值；关键字与行为匹配单元，可配置为将具有最大的行为匹配值的待匹配行为数据确定为关键字信息对应的行为数据；行为匹配单元，可配置为将关键字集合中的关键字信息对应的行为数据确定为第一视频对应的行为数据。

图10示出了适于用来实现本公开实施例的电子设备的结构示意图。需要说明的是，图10示出的电子设备1000仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示，电子设备1000包括中央处理单元(CPU)1001，其可以根据存储在只读存储器(ROM)1002中的程序或者从储存部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中，还存储有***操作所需的各种程序和数据。CPU 1001、ROM1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的储存部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入储存部分1008。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时，执行本申请的***中限定的各种功能。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有至少一个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含至少一个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块和/或单元和/或子单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的模块和/或单元和/或子单元也可以设置在处理器中。其中，这些模块和/或单元和/或子单元的名称在某种情况下并不构成对该模块和/或单元和/或子单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现如图2或图3或图4或图5或图6或图7或图8所示的各个步骤。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元或者子单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元或者子单元的特征和功能可以在一个模块或者单元或者子单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元或者子单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频合成方法，其特征在于，包括：

获取第一视频的视频合成请求，所述视频合成请求包括目标关键字；

确定与所述目标关键字匹配的至少一个目标行为数据；

确定所述第一视频中与所述目标行为数据匹配的多个目标视频片段；

对所述多个目标视频片段进行拼接，获得第二视频。

2.如权利要求1所述的方法，其特征在于，确定所述第一视频中与所述目标行为数据匹配的多个目标视频片段包括：

对所述第一视频和所述目标行为数据进行处理，获得所述第一视频中的多个待排序视频片段，以及各待排序视频片段与所述目标行为数据的匹配度；

根据各待排序视频片段的匹配度确定各排序视频片段的目标排序值；

根据所述目标排序值对所述多个待排序视频片段进行排序，将排名前m个的待排序视频片段确定为与所述目标行为数据匹配的多个目标视频片段，m为大于0的整数。

3.如权利要求2所述的方法，其特征在于，根据各待排序视频片段的匹配度确定各排序视频片段的目标排序值包括：

获得各待排序视频片段的弹出式评论数；

根据各待排序视频片段的弹出式评论数获得各待排序视频片段的播放热度；

对所述多个待排序视频片段的匹配度和所述待排序视频片段的播放热度进行加权计算，获得所述多个待排序视频片段的目标排序值。

4.如权利要求2所述的方法，其特征在于，所述目标行为数据包括表情数据；其中，对所述第一视频和所述目标行为数据进行处理，获得所述第一视频中的多个待排序视频片段包括：

对所述第一视频中的视频帧进行人脸检测，获得待识别人脸；

对所述待识别人脸进行特征提取，获得待识别人脸特征；

通过表情识别模型对所述待识别人脸特征和所述表情数据进行处理，获得所述待识别人脸特征和所述表情数据的表情相似度；

将表情相似度大于表情相似度阈值的待识别人脸特征所在的视频帧确定为所述多个待排序视频片段。

5.如权利要求2所述的方法，其特征在于，所述目标行为数据包括动作数据；对所述第一视频和所述目标行为数据进行处理，获得所述第一视频中的多个待排序视频片段包括：

对所述第一视频中的视频帧进行人物检测，根据检测结果获得多个视频帧序列；

通过动作识别模型对所述多个视频帧序列和所述动作数据进行处理，获得各视频帧序列的动作特征；

确定各视频帧序列的动作特征和所述动作数据的动作相似度；

将动作相似度大于动作相似度阈值的视频帧序列确定为所述多个待排序视频片段。

6.如权利要求1所述的方法，其特征在于，还包括：

获得所述第一视频的关键字信息的出现次数，所述关键字信息包括弹出式评论信息、静止式评论信息、标签信息中的一个或多个；

根据所述出现次数对所述关键字信息进行排序；

对排名前k的所述关键字信息进行分类，以将排名前k的所述关键字信息划分为至少一个关键字集合，k为大于0的整数；

根据各关键字集合确定所述第一视频对应的行为数据。

7.如权利要求6所述的方法，其特征在于，确定与所述目标关键字匹配的至少一个目标行为数据包括：

计算所述目标关键字和所述关键字集合中各关键字信息的关键字相似度；

将具有最大的关键字相似度的关键字集合确定为所述第一视频对应的目标关键字集合；

将所述目标关键字集合对应的行为数据确定为与所述目标关键字匹配的多个目标行为数据。

8.如权利要求6所述的方法，其特征在于，对排名前k的所述关键字信息进行分类，以将排名前k的所述关键字信息划分为至少一个关键字集合包括：

获得排名前k的所述关键字信息的关键字词向量；

将关键字词向量间的相似度小于词向量相似度阈值的所述关键字信息划分为同一集合，获得所述至少一个关键字集合。

9.如权利要求6所述的方法，其特征在于，根据各关键字集合确定所述第一视频对应的行为数据包括：

对各关键字集合中的关键字信息进行处理，获得每个关键字信息与各待匹配行为数据的行为匹配值；

将具有最大的行为匹配值的待匹配行为数据确定为关键字信息对应的行为数据；

将所述关键字集合中的关键字信息对应的行为数据确定为所述第一视频对应的行为数据。

10.一种视频合成装置，其特征在于，包括：

请求接收模块，配置为获取第一视频的视频合成请求，所述视频合成请求包括目标关键字；

行为匹配模块，配置为确定与所述目标关键字匹配的至少一个目标行为数据；

行为识别模块，配置为确定所述第一视频中与所述目标行为数据匹配的多个目标视频片段；

视频合成模块，配置为对所述多个目标视频片段进行拼接，获得第二视频。

11.一种电子设备，其特征在于，包括：

至少一个处理器；

存储装置，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-9中任一项所述的方法。

12.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-9中任一项所述的方法。