CN115022732B

CN115022732B - 视频生成方法、装置、设备及介质

Info

Publication number: CN115022732B
Application number: CN202210583689.XA
Authority: CN
Inventors: 贺欣; 谢佳雯; 陈建宇; 吴春松; 刘延朋; 常小军; 熊成; 刘成; 赵翊腾; 姜永刚; 李金�; 陈炳辉; 包季真; 黄博翔
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2023-11-03
Anticipated expiration: 2042-05-25
Also published as: CN115022732A

Abstract

本申请提供一种视频生成方法、装置、设备及介质，该视频生成方法包括：响应于客户端的视频生成请求，获取与推荐对象相关的原始视频；对原始视频进行多模态特征识别，得到原始视频中图像帧的图像识别信息和原始视频中语音对应的文本片段；根据图像识别信息和文本片段，对原始视频进行处理，得到至少一个目标视频，目标视频为原始视频中的一个视频片段或者为原始视频中多个视频片段的组合。从而，基于原始视频实现目标视频的自动提取，无需用户手动将原始视频剪辑成一个或多个目标视频，提高了视频生成效率，降低了视频生成成本，同时在目标视频的提取过程中利用了多模态特征识别得到的图像识别信息和文本片段，确保了视频生成质量。

Description

视频生成方法、装置、设备及介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频生成方法、装置、设备及介质。

背景技术

近年来，随着移动互联网技术及相关基础建设的飞速发展，移动互联网用户越来越习惯于观看短视频，与短视频相关的应用程序占据了移动互联网用户上网冲浪的大部分时间。在此背景下，电商场景下与短视频相关的业务快速发展，短视频在线上为商家带来了大量的免费带货流量。

相关技术中，商家使用拍摄时长较长的原始视频，在剪辑工具中手动对长达数小时的原始视频进行复杂的剪辑操作，这个过程耗费剪辑人员大量时间，导致短视频的生产效率低且生产成本较高，进而使得部分商家受成本限制无法开展短视频运营业务或减少短视频运营业务。

因此，如何高效低成本地生产出优质的短视频，是目前亟需解决的问题。

发明内容

本申请提供一种视频生成方法、装置、设备及介质，用以解决如何高效低成本地生产出优质的短视频的问题。

第一方面，本申请实施例提供一种视频生成方法，应用于服务器，包括：响应于客户端的视频生成请求，获取与推荐对象相关的原始视频；对原始视频进行多模态特征识别，得到原始视频中图像帧的图像识别信息和原始视频中语音对应的文本片段；根据图像识别信息和文本片段，对原始视频进行处理，得到至少一个目标视频，目标视频为原始视频中的一个视频片段或者为原始视频中多个视频片段的组合。

第二方面，本申请实施例提供一种视频生成方法，应用于客户端，包括：响应于用户针对与推荐对象相关的原始视频的交互操作，向服务器发送视频生成请求，以请求基于原始视频进行视频生成；接收服务器返回的至少一个目标视频，目标视频为原始视频中的一个视频片段或者为原始视频中多个视频片段的组合，目标视频基于原始视频中图像帧的图像识别信息和原始视频中语音对应的文本片段对原始视频进行处理得到。

第三方面，本申请实施例提供一种视频生成装置，包括：获取单元，用于响应于客户端的视频生成请求，获取与推荐对象相关的原始视频；识别单元，用于对原始视频进行多模态特征识别，得到原始视频中图像帧的图像识别信息和原始视频中语音对应的文本片段；提取单元，用于根据图像识别信息和文本片段，对原始视频进行处理，得到至少一个目标视频，目标视频为原始视频中的一个视频片段或者为原始视频中多个视频片段的组合。

第四方面，本申请实施例提供一种视频生成装置，包括：发送单元，用于响应于用户针对与推荐对象相关的原始视频的交互操作，向服务器发送视频生成请求，以请求基于原始视频进行视频生成；接收单元，用于接收服务器返回的至少一个目标视频，目标视频为原始视频中的一个视频片段或者为原始视频中多个视频片段的组合，目标视频基于所述原始视频中图像帧的图像识别信息和原始视频中语音对应的文本片段对原始视频进行处理得到。

第五方面，本申请实施例提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使电子设备能够执行本申请第一方面和/或第二方面提供的视频生成方法。

第六方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本申请第一方面和/或第二方面提供的视频生成方法。

第七方面，本申请实施例提供一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行本申请第一方面和/或第二方面提供的视频生成方法。

由上述技术方案可见，本申请实施例中，对与推荐对象相关的原始视频进行多模态特征识别，得到原始视频中图像帧的图像识别信息和原始视频中语音对应的文本片段，根据图像识别信息和文本片段，对原始视频进行处理，得到至少一个目标视频，目标视频为原始视频中的一个视频片段或者为原始视频中多个视频片段的组合。因此，本申请实施例实现了目标视频的自动提取，即实现了短视频的自动提取，提高了短视频生成效率，降低了短视频生成成本，而且基于多模态特征识别得到的图像信息和文本信息，能够从原始视频中提取出包含有效内容的短视频，提高了短视频的质量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视频生成方法的场景示意图；

图2为本申请实施例提供的视频生成方法的流程示意图一；

图3为本申请实施例提供的视频生成方法的流程示意图二；

图4为本申请实施例提供的视频生成方法的流程示意图三；

图5为本申请实施例提供的视频生成装置50的结构框图；

图6为本申请实施例提供的视频生成装置60的结构框图；

图7为本申请示例性实施例提供的一种云服务器的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。

首先，对本申请实施例涉及的部分用语进行解释：

短视频：视频时长小于时长阈值(比如5分钟、10分钟)的视频，不同短视频应用程序对短视频规定的时长阈值可能不同。在电商领域，通过短视频为用户快速介绍商品，既节省用户时间，又能够突出商品特点。

在相关技术中，通过手动剪辑长达数小时的原始视频，生成短视频，导致短视频的生产效率较低，生产成本较高。如果是简单地将原始视频分割为多个短视频，又无法保证短视频的质量。

为解决上述问题，本申请实施例提供了一种视频生成方法、装置、设备及介质。在本申请实施例中，通过对与推荐对象相关的原始视频进行多模态特征识别，得到原始视频中图像帧的图像识别信息和原始视频中语音对应的文本片段，基于原始视频中图像帧的图像识别信息和原始视频中语音对应的文本片段，对原始视频进行处理，得到至少一个目标视频。可见，从原始视频中自动提取时长更短的目标视频，即实现了短视频的自动提取，无需人工剪辑，提高了短视频的生成效率，降低了短视频的生成成本；此外，基于与原始视频中的图像帧相关的图像信息和与原始视频中语音相关的文本信息，能够从原始视频中提取出包含有效内容的短视频，提高了短视频的质量。所以，本申请实施例有效地解决了如何高效低成本地生成高质量短视频的问题。

可选的，推荐对象包括商品对象。从而，在与商品对象相关的原始视频中自动提取得到与商品对象相关的目标视频，提高了商品对象的短视频的生成效率和商品对象的短视频的质量，降低了商品对象的短视频的生成成本。所以，利用本申请实施例，一方面，能够帮助商家以几乎零成本的方式快速生产商品带货的短视频，提升店铺销量，另一方面，提升了短视频的供给量，能够更好地满足消费者对于短视频的观看需求。

可选的，与推荐对象相关的原始视频包括介绍推荐对象的直播视频。从而，基于直播视频自动提取得到推荐对象的目标视频，即利用直播视频介绍推荐对象的特点，基于直播视频自动生成推荐对象的短视频，而无需用户为短视频专门拍摄视频素材，有效地提高了短视频的生成效率和确保了短视频的质量，降低了短视频的生成成本。尤其的，在推荐对象包括商品对象的情况下，与商品对象相关的原始视频包括介绍商品对象的直播视频。

图1为本申请实施例提供的视频生成方法的应用场景示意图。如图1所示，执行视频生成方法的装置为视频生成装置，视频生成装置可连接客户端。

客户端可以是任何具有一定数据处理能力的计算设备。此时，客户端的基本结构可以包括：至少一个处理器。处理器的数量取决于客户端的配置和类型。客户端也可以包括存储器，该存储器可以为易失性的，例如RAM，也可以为非易失性的，例如只读存储器(Read-Only memory，简称ROM)、闪存等，或者也可以同时包括两种类型。存储器内通常存储有操作***(Operating System，简称OS)、一个或多个应用程序，也可以存储有程序数据等。除了处理单元和存储器之外，客户端还包括一些基本配置，例如网卡芯片、IO总线、显示组件以及一些***设备等。可选的，一些***设备可以包括，例如键盘、鼠标、输入笔、打印机等。其它***设备在本领域中是众所周知的，在此不做赘述。可选地，客户端可以为PC(personalcomputer)终端、手持终端(例如：智能手机、平板电脑)等。

视频生成装置可以为网络虚拟环境中提供视频处理服务的设备。可选的，视频生成装置可以是部署有用于识别多模态特征的模型的装置，在视频生成装置中，可以基于部署的模型，对原始视频中的图像帧和视频中的语音进行识别，继而基于识别结果对原始视频进行处理，得到至少一个目标视频。

在物理实现上，视频生成装置可以是任何能够提供计算服务，响应服务请求，并进行处理的设备，例如：可以是集群服务器、常规服务器、云服务器、云主机、虚拟中心等。视频生成装置的构成主要包括处理器、硬盘、内存、***总线等，和通用的计算机架构类似。

其中，客户端可与视频生成装置进行网络连接，该网络连接可以是无线或有线网络连接。若客户端与视频生成装置是通信连接，该移动网络的网络制式可以为2G(GSM)、2.5G(GPRS)、3G(WCDMA、TD-SCDMA、CDMA2000、UTMS)、4G(LTE)、4G+(LTE+)、WiMax、5G等中的任意一种。

本申请实施例中，客户端可以向视频生成装置发送视频生成请求，以请求视频生成装置基于原始视频进行视频片段的提取，得到至少一个目标视频。可选的，视频生成装置可以向客户端返回目标视频提取完成的消息，也可以向客户端返回从原始视频中提取得到的至少一个目标视频。

优选地，在一种应用场景中，客户端向视频生成装置发送视频生成请求，以请求视频生成装置基于商品对象的直播视频生成商品对象的短视频；视频生成装置响应于视频生成请求，获取商品对象的直播视频，通过多模态特征识别的方式，在直播视频中提取至少一个短视频。之后，可选的，视频生成装置向客户端返回短视频提取完成的消息，也可以向客户端返回从直播视频中提取得到的至少一个短视频。

上述只是示例性的一个应用场景。除了商品对象的视频外，本申请实施例可以应用于互联网中其他推荐对象的视频提取中，比如用于推荐电视剧的视频提取，用于推荐书籍的视频提取等。

下面，结合附图，通过具体实施例对本申请的技术方案进行详细说明。需要说明的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图2为本申请实施例提供的视频生成方法的流程示意图一，该方法可应用于服务器。如图2所示，本申请实施例提供的视频生成方法包括：

S201，响应于客户端的视频生成请求，获取与推荐对象相关的原始视频。

其中，视频生成请求用于请求在与推荐对象相关的原始视频中提取出至少一个目标视频。因此，视频生成请求可包括与推荐对象相关的原始视频的视频信息(比如视频名称、视频存储地址、视频拍摄时间等)和/或与推荐对象相关的原始视频，以便服务器可基于视频生成请求准确地获得原始视频。

其中，与推荐对象相关的原始视频是指原始视频的视频内容与推荐对象相关，尤其地，与推荐对象相关的原始视频可包括对推荐对象进行展示、介绍和/或点评的原始视频。如前述内容所述，可选的，与推荐对象相关的原始视频包括推荐对象的直播视频，因此，在推荐对象为商品对象时，与推荐对象相关的原始视频可包括商品对象的直播视频。

本实施例中，客户端可响应于用户的交互操作，向服务器发送视频生成请求。服务器在接收到来自客户端的视频生成请求后，响应于该视频生成请求，可从客户端获取与推荐对象相关的原始视频，也可从其他设备(例如存储设备)获取与推荐对象相关的原始视频，还可以获取服务器本地存储的与推荐对象相关的原始视频。其中，与推荐对象的原始视频可以为一个或多个。

在一种可能的实现方式中，客户端响应于与推荐对象相关的原始视频拍摄结束，向服务器发送视频生成请求。从而，在原始视频拍摄结束后及时在原始视频中提取目标视频，提高视频生成效率，提高用户体验。例如，用户在客户端上直播并录制直播视频，在直播结束后点击结束录制，客户端响应于用户点击结束录制的交互操作，向服务器发送视频生成请求，服务器在后端自动在录制的直播视频中提取至少一个目标视频。

在一种可能的实现方式中，服务器从客户端获取与推荐对象相关的原始视频，可以从视频生成请求中获取与推荐对象相关的原始视频，服务器也可以响应于视频生成请求，向客户端返回视频获取请求，得到客户端响应于视频获取请求返回的与推荐对象相关的原始视频。

S202，对原始视频进行多模态特征识别，得到原始视频中图像帧的图像识别信息和原始视频中语音对应的文本片段。

其中，多模态特征是指多种形式(比如图像、文本、语音等)的特征。

其中，图像帧的图像识别信息可包括在图像帧中所识别出的目标对象的对象信息，目标对象可包括推荐对象和/或人物，推荐对象的对象信息可包括推荐对象的图像位置和目标对象的初始类别，人物的对象信息可包括人物的图像位置、人物的性别、人物的人脸图像中的一种或多种。

比如，在一些图像帧中识别得到了推荐对象的图像位置和初始类别，在另一些图像帧中识别得到了人物的图像位置，在又一些图像帧中识别到了推荐对象的图像位置、推荐对象的初始类别、人物的图像位置。

可选的，在与目标对象相关的原始视频为商品对象的直播视频的情况下，图像帧的图像识别信息可包括图像帧中的商品对象的对象信息和/或图像帧中的人物的对象信息。其中，商品对象的对象信息可包括商品对象的初始类别(比如上衣、裤子、鞋子)和商品对象的图像位置。

其中，原始视频中可包括多段语音，多段语音中可识别出一个或多个文本片段，文本片段中记载着语音所描述的文字。

本实施例中，针对不同模态的特征，可采用不同的特征识别模型。针对原始视频，可采用图像识别模型对原始视频中的图像帧进行识别，得到原始视频中图像帧的图像识别信息；可采用语音识别模型对原始视频中的语音进行识别，得到原始视频中语音对应的文本片段。在此，对图像识别模型、语音识别模型的具体模型结构不做限制。

S203、根据原始视频中图像帧的图像识别信息和原始视频中语音对应的文本片段，对原始视频进行处理，得到至少一个目标视频。

其中，目标视频为原始视频中的一个视频片段或者为原始视频中多个视频片段的组合。在目标视频为多个的情况下，可以所有目标视频均为原始视频中的一个视频片段，也可以所有目标视频均为原始视频中多个视频片段的组合，也可以部分目标视频为原始视频中的一个视频片段，另一部分目标视频为原始视频中多个视频片段的组合。

本实施例中，在原始视频中，并不是所有视频内容都是与推荐对象相关的，考虑到目标视频的时长短于原始视频，原始视频中与推荐对象无关的视频内容可以看作无效内容，与推荐对象相关的视频内容可以看作有效内容，可通过判断原始视频中的有效内容，确保目标视频的视频质量。在原始视频中，图像帧的图像识别信息和原始视频中语音对应的文本片段，均可反映原始视频的视频内容，因此，可基于原始视频中图像帧的图像识别信息和原始视频中语音对应的文本片段，识别出原始视频中的有效内容，基于原始视频中的有效内容，对原始视频进行处理，得到至少一个目标视频。在对原始视频进行处理的过程中，可基于原始视频的有效内容，对原始视频进行视频片段提取，最终，基于从原始视频提取的视频片段，得到至少一个目标视频。

在一种可能的实现方式中，原始视频中的有效内容可包括有效讲解信息，即对推荐对象的有效讲解信息。比如，在商品对象的直播视频中，对商品对象的优点、材质等特质的讲解属于有效讲解信息，与弹幕的互动不属于有效讲解信息。因此，可基于原始视频中图像帧的图像识别信息和原始视频中语音对应的文本片段，确定文本片段中包含有效讲解信息的候选文本片段，基于候选文本片段，对原始视频进行处理，得到目标视频。从而，通过确定包含有效讲解信息的候选文档的方式，提高识别原始视频中有效内容的准确性，进而提高从原始视频中提取目标视频的准确性，确保目标视频的质量。

本实现方式中，原始视频中图像帧的图像识别信息包括推荐对象的初始类别和推荐对象的图像位置，因此，可基于原始视频中图像帧的图像识别信息，判断文本片段是否包含与推荐对象相关的讲解信息，若是包含，可确定文本片段属于包含有效讲解信息的候选文本片段。例如，图像帧的图像识别信息中包含推荐对象的初始类别为上衣，判断文本片段是否包含与上衣相关的讲解信息，比如，上衣的尺码、颜色、材质等，若包含，则确定文本片段属于有效讲解信息的候选文本片段。如此，提高了在文本片段中筛选候选文本片段的准确性，进而提高目标视频的质量。

在又一种可能的实现方式中，可以基于原始视频中图像帧的图像识别信息，判断出包含有效图像内容的候选图像帧(比如识别出推荐对象的图像帧)，基于原始视频中语音对应的文本片段，判断出包含有效讲解内容的候选文本片段。结合包含有效图像内容的候选图像帧和包含有效讲解内容的候选文本片段，在原始视频中提取至少一个目标视频。从而，结合图像帧的筛选和候选文本片段的筛选，提高目标视频的质量。其中，在结合包含有效图像内容的候选图像帧和包含有效讲解内容的候选文本片段，在原始视频中提取至少一个目标视频的过程中，可基于候选图像帧对应的时间信息和候选文本片段对应的时间信息，在原始视频中剪辑得到至少一个目标视频。

本申请实施例中，响应于客户端的视频生成请求，对与推荐对象相关的原始视频进行多模态特征识别，得到原始视频中图像帧的图像识别信息和原始视频中语音对应的文本片段；通过基于图像识别信息和文本片段识别原始视频中的有效内容的方式，在原始视频中提取至少一个目标视频。从而，实现从原始视频自动提取目标视频，尤其是实现了从直播视频中自动提取短视频，有效地提高了短视频的生成效率，降低了短视频的生成成本，并且提高了短视频的质量，高效低成本地生成高质量的短视频。

图3为本申请实施例提供的视频生成方法的流程示意图二。如图3所示，本申请实施例提供的视频生成方法，包括：

S301，响应于客户端的视频生成请求，获取与推荐对象相关的原始视频。

S302，对原始视频进行多模态特征识别，得到原始视频中图像帧的图像识别信息和原始视频中语音对应的文本片段。

其中，S301～S302的实现原理和技术效果可参照前述实施例，不再赘述。

S303、根据原始视频中图像帧的图像识别信息，对原始视频中的推荐对象进行类别预测，得到原始视频中的推荐对象所属的目标类别。

本实施例中，在多模态特征识别中，可以在图像帧中识别出推荐对象的初始类别，但在实际场景中，往往会根据推荐对象所属的风格、推荐对象适用的群体，对推荐对象做进一步细致的分类，在对推荐对象进行讲解时，不同分类的推荐对象适用的讲解词不同。以商品对象为例，在多模态特征识别中，识别出图像帧中推荐对象为上衣，在电商平台上，上衣还可以进一步划分为不同的品类，比如女装、男装、童装、T恤、长袖、学院风、职业装等，不同的品类适用不同的讲解词。因此，在多模态特征识别后，需要基于图像帧的图像识别信息，对推荐对象的类别做进一步预测，得到推荐对象的目标类别，以根据推荐对象的目标类别，提高后续有效讲解内容的判断准确性。

本实施例中，在得到原始视频中图像帧的图像识别信息之后，由于图像识别信息中包括推荐对象的初始类别和推荐对象的图像位置，可基于图像识别信息中推荐对象的初始类别和推荐对象的图像位置，对出现在原始视频中的推荐对象进行类别预测，得到原始视频中推荐对象的目标类别。一种方式中，可基于图像识别信息中推荐对象的初始类别，得到推荐对象的类别范围，比如，初始类别为上衣，则可以确定包含女装上衣、男装上衣等的类别范围；接着，可基于图像识别信息中推荐对象的图像位置，在类别范围内对推荐对象进行进一步识别，得到推荐对象的目标类别，从而提高目标类别的准确性。

在一种可能的实现方式中，图像识别信息中人物的对象信息可以用于辅助原始视频中推荐对象的类别预测，进一步提高目标类别的准确性。比如，商品对象为人物所穿着的上衣，则人物的性别、图像位置、人脸图像等可以用于辅助确定上衣是否为女装上衣、男装上衣、儿童上衣等。

在又一种可能的实现方式中，原始视频中语音对应的文本片段可以用于辅助原始视频中推荐对象的类别预测，进一步提高目标类别的准确性。可在文本片段中进行关键字识别，关键字与推荐对象的类别相关，结合从与图像帧的时间信息重叠的文本片段中识别出的关键字以及图像帧的图像识别信息，对原始视频中的推荐对象进行类别预测，得到原始视频中的推荐对象所属的目标类别。比如，在推荐对象为商品对象的情况下，在文本片段中识别出“学院风”“女生”，在图像帧的图像识别信息中商品对象的初始类别为“鞋子”，则可以确定图像帧中的商品对象的目标类别为学院风女鞋。

在又一种可能的实现方式中，预先构建知识图谱，知识图谱中包括至少一个类别下的推荐对象的图像。此时，S303包括：将知识图谱中至少一个类别下的推荐对象的图像与原始视频中图像帧的图像识别信息进行图像匹配，根据图像匹配结果，确定原始视频中推荐对象的目标类别。从而，基于预先构建的知识图谱和图像匹配方式，提高目标类别的准确性。

其中，在知识图谱中，一个类别可对应推荐对象的一个或多个图像。图像帧的图像识别信息可以体现为图像形式，比如，在图像帧上标注推荐对象的图像位置、推荐对象的初始类别、人物的图像位置、人物的性别等。

本实现方式中，将知识图谱中至少一个类别下的推荐对象的图像与原始视频中图像帧的图像识别信息进行图像匹配，得到至少一个类别下的推荐对象的图像与图像帧的图像识别信息的相似度。接着，在至少一个类别下的推荐对象的图像中，确定与图像帧的图像识别信息的相似度最高的图像，确定图像帧上推荐对象的目标类别为该相似度最高的图像所属的类别。

在知识图谱中推荐对象的类别较多的情况下，若将各个类别下推荐对象的图像与图像帧的图像识别信息进行一一匹配，将导致类别预测的效率较低，为提高类别预测的效率，进一步可选的，S303可采用以下方式：根据图像帧的图像识别信息中推荐对象的初始类别，在知识图谱中获取候选类别下的推荐对象的图像；将候选类别下的推荐对象的图像与图像帧的图像识别信息进行图像匹配，根据图像匹配结果，确定目标类别。

其中，候选类别与初始类别相关，一个初始类别可对应一个或多个候选类别。进一步的，候选类别可属于初始类别，换句话说，候选类别可为初始类别的子类别。比如，初始类别为“鞋子”时，候选类别可以包括“高跟鞋”、“布鞋”、“运动鞋”、“皮鞋”等。

本可选方式中，可根据图像帧的图像识别信息中推荐对象的初始类别，在知识图谱所包括的推荐对象的类别中，确定至少一个候选类别，在知识图谱中获取候选类别下的推荐对象的图像。接着，可将候选类别下的推荐对象的图像与图像帧的图像识别信息进行图像匹配，得到候选类别下的推荐对象的图像与图像帧的图像识别信息的相似度。之后，可在候选类别下的推荐对象的图像中，确定与图像帧的图像识别信息的相似度最高的图像，确定图像帧上推荐对象的目标类别为该相似度最高的图像所属的类别。从而，基于推荐对象的初始类别，提高确定推荐对象的目标类别的效率和准确性。

可选的，在推荐对象为商品对象的情况下，知识图谱为商品知识图谱。在商品知识图谱中可包括至少一个品类下的商品对象的图像。品类比如男装、女装、家居用品、家电设备等，也可以进一步细分，在此不详细描述。

S304、根据原始视频中语音对应的文本片段和原始视频中推荐对象的目标类别，对原始视频中语音对应的文本片段进行有效讲解信息的识别，得到包含有效讲解信息的候选文本片段。

本实施例中，不同类别的推荐对象的特质不同，即属性不同，比如，衣服的属性可以包括“上身显瘦”“全棉材质”“丝绸材质”等，鞋子的属性可以包括“鞋码准确”“减震缓冲性能好”“鞋底防滑”等。在得到原始视频中语音对应的文本片段和原始视频中推荐对象的目标类别后，可基于与原始视频中推荐对象的目标类别对应的属性，对原始视频中语音对应的文本片段进行有效讲解信息的识别，得到包含有效讲解信息的文本片段，确定候选文本片段为包含有效讲解信息的文本片段。

在一种可能的实现方式中，预先构建知识图谱，知识图谱中包括至少一个类别下的推荐对象的属性。其中，知识图谱可为前述实施例中的知识图谱，此时，知识图谱中包括至少一个类别下的推荐对象的图像和属性。在知识图谱为商品知识图谱的情况下，推荐对象的属性还可包括商品对象的卖点。以服饰类的商品对象为例，商品知识图谱中可包括商品对象的商品材质、款式、颜色、风格等属性，还可包括直播时针对该商品对象所要介绍的卖点。

基于知识图谱包括至少一个类别下的推荐对象的属性，S304包括：在知识图谱中，获取目标类别下推荐对象的属性；将原始视频中语音对应的文本片段与目标类别下推荐对象的属性进行文本匹配，得到包含目标类别下推荐对象的属性的文本片段，确定候选文本片段为包含目标类别下推荐对象的属性的文本片段。从而，结合知识图谱和文本匹配方式，提高在文本片段中筛选候选文本片段的准确性，进而提高目标视频的质量。

本实现方式中，在确定原始视频中推荐对象的目标类别后，从知识图谱中获取目标类别下推荐对象的属性；将原始视频中语音对应的文本片段与目标类别下推荐对象的属性进行文本匹配，确定原始视频中语音对应的文本片段是否包含目标类别下推荐对象的属性；如果原始视频中语音对应的文本片段包含目标类别下推荐对象的属性，则可认为该文本片段为包含有效讲解信息的文本片段，确定该文本片段为候选文本片段。

S305、根据候选文本片段，对原始视频进行处理，得到目标视频。

其中，原始视频中语音对应的文本片段可标注有时间信息，时间信息可包括开始时间和结束时间，或者，时间信息可包括开始时间和文本片段的时长，或者，时间信息可包括文本片段的时长和结束时间。由于文本片段与原始视频中的语音对应，可在对原始视频中的语音进行识别得到文本片段的过程中，将原始视频中语音的时间信息标注给相应的文本片段。

本实施例中，在确定候选文本片段后，可基于候选文本片段上标注的时间信息，对原始视频进行视频片段提取，基于提取的视频片段，得到目标视频。一种方式中，可在原始视频中，提取位于候选文本片段所标注的时间信息之间的视频片段，得到目标视频。由于候选文本片段包含有效讲解内容，目标视频包含有效的视频内容。

在一种可能的实现方式中，S305包括：根据内容质量要求，对候选文本片段进行筛选；根据筛选后的候选文本片段，对原始视频进行处理，得到目标视频。从而，在得到候选文本片段后对候选文本片段进一步的筛选去劣，即去除不符合内容质量要求的候选文本片段，进一步地提高目标视频的质量。

其中，内容质量要求可以体现为预先设置的影响推荐对象介绍效果的词语或者句子。在推荐对象为商品对象的情况下，内容指令要求可以体现为预先设置的影响带货效果的词语或者句子，比如与商品的价格、直播过程中主播与观众的互动、直播过程中主播与嘉宾的互动等相关的词语或者句子。

本实现方式中，可将内容质量要求所包含的词语或者句子与候选文本片段进行匹配，确定候选文本片段中是否出现内容质量要求所包含的词语或者句子。如果候选文本片段中出现内容质量要求所包含的词语或者句子，则确定候选文本片段不符合内容质量要求，否则确定候选文本片段符合内容质量要求。在候选文本片段中删除不符合内容质量要求的候选文本片段，如此，得到筛选后的候选文本片段，实现对候选文本片段的筛选去劣。可根据筛选后的候选文本片段上标注的时间信息，对原始视频进行视频片段提取，基于提取的视频片段，得到目标视频。

在一种可能的实现方式中，S305包括：根据原始视频中图像帧的图像识别信息和候选文本片段上标注的时间信息，对原始视频进行处理，得到目标视频。

本实现方式，若是单单依靠候选文本片段上标注的时间信息，在原始视频中提取目标视频，则目标视频可能出现时长过短的情况，比如，一个候选文本片段上标注的时间信息总共时长不到1分钟。为了避免这种情况，可基于候选文本片段上标注的时间信息，在原始视频中提取得到与候选文本片段的视频片段，基于原始视频中图像帧的图像识别信息，将与候选文本片段对应的视频片段合并为至少一个目标视频。从而，进一步地提高目标视频的质量。其中，在视频片段的合并过程中，图像识别信息可以用于确定相关联的视频片段。相关联的视频片段可以包括如下至少一种情况：相邻的视频片段、风格相似的视频片段、描述同一推荐对象的视频片段。

因此，进一步可选的，S305包括：根据候选文本片段上标注的时间信息，在原始视频中提取与候选文本片段对应的视频片段；根据视频片段中图像帧的图像识别信息，将描述同一推荐对象的视频片段合并为同一视频，得到目标视频。从而，使得同一目标视频描述同一推荐对象，提高目标视频的质量。

本可选方式中，可将两两视频片段中的图像帧进行图像匹配，得到两两视频片段中图像帧的相似度，如果两两视频片段中图像帧的相似度大于相似度阈值，则确定该两两视频片段描述同一推荐对象，将该两两视频片段合并为同一视频，得到新的视频片段。如此，在视频片段较多的情况下，可进行多次上述合并操作，最终得到多个目标视频。需要说明的是，在视频合并时，还可基于被合并的视频片段上标注的时间信息，按照时间顺序对视频片段进行合并，以进一步的提高目标视频的质量。

进一步可选的，参与合并的视频片段可为基于内容质量要求筛选后的视频片段。从而，基于符合质量要求的视频片段中图像帧的图像识别信息，将符合质量要求的视频片段合并为目标视频，提高目标视频的质量。

本申请实施例中，针对于推荐对象相关的原始视频，进行多模态特征识别，得到原始视频中图像帧的图像识别信息和原始视频中语音对应的文本片段，基于原始视频中图像帧的图像识别信息，预测原始视频中推荐对象所属的目标类别，基于推荐对象所述的目标类别，在文本片段中识别得到包含有效讲解信息的候选文本片段。之后，基于候选文本片段，在原始视频中提取得到目标视频。可见，在实现目标视频的自动生成的过程中，充分利用了原始视频的图像信息和文本信息，提高目标视频的质量。由此，有效地提高了短视频的生成效率和短视频的质量，降低了短视频的生成成本。

可选的，在提取目标视频的过程中，文本片段还可用于生成目标视频的字幕。在根据候选文本片段，在原始视频中提取目标视频的过程中，可基于候选文本片段生成目标视频的字幕，将目标视频的字幕合并至目标视频中。从而，生成完整的带字幕的目标视频，提高目标视频的质量。

可选的，在提取得到目标视频后，服务器可向客户端返回视频提取完成的消息，也可以像客户端返回目标视频。从而，便于客户端及时知道视频提取完成，便于客户端及时获取目标视频。客户端在获得目标视频后，可以直接发布目标视频，也可以对目标视频做进一步的挑选、剪辑等优化处理，在优化处理后发布目标视频。可以看出，本申请实施例有效地节省了在原始视频中提取目标视频的时间，减少了剪辑人员的工作量。

可选的，基于前述任一实施例，图像帧的图像识别信息中人物的图像位置、人脸图像可辅助用于生成目标视频的封面图，以提高目标视频的质量和完整性。一种方式中，可在提取得到目标视频后，基于该目标视频中图像帧的图像识别信息，在目标视频的图像帧中挑选人脸图像居中、人体居中的图像帧，确定该图像帧为目标视频的封面图像，或者，按照预设尺寸或者预设比例对该图像帧进行裁剪，确定裁剪后的图像帧为目标视频的封面图像。

图4为本申请实施例提供的视频生成方法的流程示意图三，该方法应用于客户端。如图4所示，视频生成方法包括：

S401、响应于用户针对与推荐对象相关的原始视频的交互操作，向服务器发送视频生成请求，以请求基于原始视频进行视频生成。

其中，与推荐对象相关的原始视频可参照前述实施例，不再赘述。

其中，交互操作可以是用户在原始视频的显示窗口上的交互操作，也可以是用户在原始视频的拍摄窗口上的交互操作，还可以是用户在视频输入区域用于输入原始视频的输入操作。

本实施例中，客户端在检测到用户针对与推荐对象相关的原始视频的交互操作，生成视频生成请求，将视频生成请求发送至服务器，以请求服务器基于原始视频进行视频生成，尤其地，请求服务器基于原始视频生成短视频。

比如，以原始视频为直播视频为例，在客户端上，用户拍摄直播视频，在直播结束后，点击直播录制结束的按键，客户端在检测到用户点击该按键的情况下，或者，客户端在接收到直播视频录制结束的消息的情况下，生成视频生成请求，向服务器发送视频生成请求，服务器在接收到视频生成请求后，在后端处理直播视频，以将直播视频处理为一个或多个短视频。

S402、接收服务器返回的至少一个目标视频，目标视频为原始视频中的一个视频片段或者为原始视频中多个视频片段的组合。

其中，目标视频是基于原始视频中图像帧的图像识别信息和原始视频中语音对应文本片段对原始视频进行处理得到的，具体处理过程可参照前述任一实施例，在本实施例中不进行赘述。

本实施例中，服务器在基于目标视频，生成至少一个目标视频后，可将生成的至少一个目标视频发送至客户端，客户端接收到服务器返回的至少一个目标视频后，可向用户发送提示消息，以提示用户已基于原始视频生成至少一个目标视频，客户端也可以显示目标视频。用户可在客户端上对目标视频做进一步的美化(比如进一步的人工剪辑)，也可以直接发布目标视频。

本申请实施例中，客户端响应于用户针对与针对推荐对象相关的原始视频的交互操作，向服务器发送视频生成请求，以在后台对原始视频进行处理，得到至少一个目标视频。客户端接收服务器返回的至少一个目标视频。因此，用户只需要进行简单的交互操作，就可以得到从原始视频中提取得到的目标视频，尤其是得到从直播视频中提取得到的短视频，有效地提高了短视频生成效率，有效地提高了用户体验。

图5为本申请实施例提供的视频生成装置50的结构框图，该视频生成装置50应用于服务器。如图5所示，本申请实施例提供的视频生成装置50包括：获取单元51、识别单元52和提取单元53，其中：

获取单元51，用于响应于客户端的视频生成请求，获取与推荐对象相关的原始视频；

识别单元52，用于对原始视频进行多模态特征识别，得到原始视频中图像帧的图像识别信息和原始视频中语音对应的文本片段；

提取单元53，用于根据图像识别信息和文本片段，对原始视频进行处理，得到至少一个目标视频，目标视频为原始视频中的一个视频片段或者为原始视频中多个视频片段的组合。

在本申请的一个实施例中，提取单元53具体用于：根据图像识别信息，对原始视频中的推荐对象进行类别预测，得到原始视频中的推荐对象所属的目标类别；根据文本片段和目标类别，对文本片段进行有效讲解信息的识别，得到包含有效讲解信息的候选文本片段；根据候选文本片段，对原始视频进行处理，得到目标视频。

在本申请的一个实施例中，预先构建知识图谱，知识图谱中包括至少一个类别下的推荐对象的图像，在根据图像识别信息，对原始视频中的推荐对象进行类别预测，得到原始视频中的推荐对象所属的目标类别的过程中，提取单元53具体用于：将知识图谱中至少一个类别下的推荐对象的图像与图像识别信息进行图像匹配，根据图像匹配结果，确定目标类别。

在本申请的一个实施例中，知识图谱中还包括至少一个类别下的推荐对象的属性，在根据文本片段和目标类别，对文本片段进行有效讲解信息的识别，得到包含有效讲解信息的候选文本片段的过程中，提取单元53具体用于：在知识图谱中，获取目标类别下推荐对象的属性；将文本片段与目标类别下推荐对象的属性进行文本匹配，得到包含目标类别下推荐对象的属性的文本片段，确定候选文本片段为包含目标类别下推荐对象的属性的文本片段。

在本申请的一个实施例中，在根据候选文本片段，对原始视频进行处理，得到目标视频的过程中，提取单元53具体用于：根据内容质量要求，对候选文本片段进行筛选；根据筛选后的候选文本片段，对原始视频进行处理，得到目标视频。

在本申请的一个实施例中，候选文本片段标注有时间信息，在根据候选文本片段，对原始视频进行处理，得到目标视频的过程中，提取单元53具体用于：根据图像识别信息和候选文本片段上标注的时间信息，对原始视频进行处理，得到目标视频。

在本申请的一个实施例中，根据图像识别信息和候选文本片段上标注的时间信息，对原始视频进行处理，得到目标视频的过程中，提取单元53具体用于：根据候选文本片段上标注的时间信息，在原始视频中提取与候选文本片段对应的视频片段；根据视频片段中图像帧的图像识别信息，将描述同一推荐对象的视频片段合并为同一视频，得到目标视频。

本申请实施例提供的视频生成装置，用于执行上述任一在服务器上执行的方法实施例中的技术方案，其实现原理和技术效果类似，在此不再赘述。

可选的，本申请实施例提供的技术方案，可在云服务器上实现。

图6为本申请实施例提供的视频生成装置60的结构框图，该视频生成装置60应用于客户端。如图6所示，本申请实施例提供的视频生成装置60包括：发送单元61和接收单元62，其中：

发送单元61，用于响应于用户针对与推荐对象相关的原始视频的交互操作，向服务器发送视频生成请求，以请求基于原始视频进行视频生成；

接收单元62，用于接收服务器返回的至少一个目标视频，目标视频为原始视频中的一个视频片段或者为原始视频中多个视频片段的组合，目标视频基于原始视频中图像帧的图像识别信息和原始视频中语音对应的文本片段对原始视频进行处理得到。

本申请实施例提供的视频生成装置，用于执行上述任一在客户端上执行的方法实施例中的技术方案，其实现原理和技术效果类似，在此不再赘述。

可选的，本申请实施例提供的技术方案，可在终端上实现。

图7为本申请示例性实施例提供的一种云服务器的结构示意图。该云服务器用于运行视频生成方法，用于执行前述任一方法实施例，实现在原始视频中自动提取至少一个目标视频，并确保目标视频的质量。如图7所示，该云服务器包括：存储器73和处理器74。

存储器73，用于存储计算机程序，并可被配置为存储其它各种数据以支持在云服务器上的操作。该存储器73可以是对象存储(Object Storage Service，OSS)。

存储器73可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器74，与存储器73耦合，用于执行存储器73中的计算机程序，以用于执行前述任一实施例提供的视频生成方法

进一步，如图7所示，该云服务器还包括：防火墙71、负载均衡器72、通信组件75、电源组件76等其它组件。图7中仅示意性给出部分组件，并不意味着云服务器只包括图7所示组件。

相应地，本申请实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使电子设备能够执行上述方法实施例中的步骤。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，当计算机程序/指令被处理器执行时，致使处理器实现上述方法实施例中的步骤。

相应地，本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，当计算机程序/指令被处理器执行时，致使处理器实现上述方法实施例中的步骤。

上述图7中的通信组件75被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件75所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G/LTE、5G等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件75经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件75还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

上述图7中的电源组件76，为电源组件76所在设备的各种组件提供电力。电源组件76可以包括电源管理***，一个或多个电源，及其他与为电源组件76所在设备生成、管理和分配电力相关联的组件。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种视频生成方法，应用于服务器，其特征在于，包括：

响应于客户端的视频生成请求，获取与推荐对象相关的原始视频；

对所述原始视频进行多模态特征识别，得到所述原始视频中图像帧的图像识别信息和所述原始视频中语音对应的文本片段；

根据所述图像识别信息，对所述原始视频中的推荐对象进行类别预测，得到所述原始视频中的推荐对象所属的目标类别；

根据所述原始视频中的推荐对象所属的目标类别对应的属性，对所述文本片段进行有效讲解信息的识别，得到包含有效讲解信息的候选文本片段，所述候选文本片段标注有时间信息；

根据所述候选文本片段上标注的时间信息，在所述原始视频中提取与所述候选文本片段对应的视频片段；

根据所述视频片段中图像帧的图像识别信息，将描述同一推荐对象的视频片段合并为同一视频，得到至少一个目标视频，所述目标视频为所述原始视频中的一个视频片段或者为所述原始视频中多个视频片段的组合。

2.根据权利要求1所述的视频生成方法，其特征在于，预先构建知识图谱，所述知识图谱中包括至少一个类别下的推荐对象的图像，所述根据所述图像识别信息，对所述原始视频中的推荐对象进行类别预测，得到所述原始视频中的推荐对象所属的目标类别，包括：

将所述知识图谱中至少一个类别下的推荐对象的图像与所述图像识别信息进行图像匹配，根据图像匹配结果，确定所述目标类别。

3.根据权利要求2所述的视频生成方法，其特征在于，所述知识图谱中还包括至少一个类别下的推荐对象的属性，所述根据所述文本片段和所述目标类别，对所述文本片段进行有效讲解信息的识别，得到包含有效讲解信息的候选文本片段，包括：

在所述知识图谱中，获取所述目标类别下推荐对象的属性；

将所述文本片段与所述目标类别下推荐对象的属性进行文本匹配，得到包含所述目标类别下推荐对象的属性的文本片段，确定所述候选文本片段为包含所述目标类别下推荐对象的属性的文本片段。

4.根据权利要求1至3中任一项所述的视频生成方法，其特征在于，所述根据所述候选文本片段，对所述原始视频进行处理，得到所述目标视频，包括：

根据内容质量要求，对所述候选文本片段进行筛选；

根据筛选后的候选文本片段，对所述原始视频进行处理，得到所述目标视频。

5.一种视频生成方法，应用于客户端，其特征在于，包括：

响应于用户针对与推荐对象相关的原始视频的交互操作，向服务器发送视频生成请求，以请求基于所述原始视频进行视频生成；

接收服务器返回的至少一个目标视频，所述目标视频为所述原始视频中的一个视频片段或者为所述原始视频中多个视频片段的组合，所述目标视频为根据候选文本片段上标注的时间信息，在所述原始视频中提取与所述候选文本片段对应的视频片段后，根据所述视频片段中图像帧的图像识别信息，将描述同一推荐对象视频片段合并得到的；所述候选文本片段为根据所述原始视频中图像帧的图像识别信息，对所述原始视频中的推荐对象进行类别预测，得到所述原始视频中的推荐对象所属的目标类别后，根据所述原始视频中的推荐对象所属的目标类别对应的属性得到的包含有效讲解信息的视频片段。

6.一种视频生成装置，应用于服务器，其特征在于，包括：

获取单元，用于响应于客户端的视频生成请求，获取与推荐对象相关的原始视频；

识别单元，用于对所述原始视频进行多模态特征识别，得到所述原始视频中图像帧的图像识别信息和所述原始视频中语音对应的文本片段；

提取单元，用于根据所述图像识别信息，对所述原始视频中的推荐对象进行类别预测，得到所述原始视频中的推荐对象所属的目标类别；

7.一种视频生成装置，应用于客户端，其特征在于，包括：

发送单元，用于响应于用户针对与推荐对象相关的原始视频的交互操作，向服务器发送视频生成请求，以请求基于所述原始视频进行视频生成；

接收单元，用于接收服务器返回的至少一个目标视频，所述目标视频为所述原始视频中的一个视频片段或者为所述原始视频中多个视频片段的组合，所述目标视频为根据候选文本片段上标注的时间信息，在所述原始视频中提取与所述候选文本片段对应的视频片段后，根据所述视频片段中图像帧的图像识别信息，将描述同一推荐对象视频片段合并得到的；所述候选文本片段为根据所述原始视频中图像帧的图像识别信息，对所述原始视频中的推荐对象进行类别预测，得到所述原始视频中的推荐对象所属的目标类别后，根据所述原始视频中的推荐对象所属的目标类别对应的属性得到的包含有效讲解信息的视频片段。

8.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述电子设备能够执行权利要求1至5中任一项所述的视频生成方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的视频生成方法。