CN115665508A

CN115665508A - 视频摘要生成的方法、装置、电子设备及存储介质

Info

Publication number: CN115665508A
Application number: CN202211364555.5A
Authority: CN
Inventors: 王建国; 李鹏宇
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2023-01-31

Abstract

本申请提供了视频摘要生成的方法、装置、电子设备及存储介质，该方法可以包括以下步骤：确定视频片段的特征，视频片段是对视频进行切分得到的；确定视频片段中视频图像帧的特征，视频片段中视频图像帧的数量为多个；确定关注信息的特征，关注信息用于表征对视频在不同维度的关注情况；利用视频片段的特征、视频片段中视频图像帧的特征和关注信息的特征，生成视频的视频摘要。依据本申请实施例，通过关注信息实现了对不同用户偏好的内容自适应生成视频摘要。实现了同一套模型满足不同用户的个性化需求。

Description

视频摘要生成的方法、装置、电子设备及存储介质

技术领域

本申请涉及视频处理技术领域，尤其涉及一种视频摘要生成的方法和装置、电子设备及存储介质。

背景技术

视频摘要作为一种浓缩视频的方法，经常用于视频预览、视频剪辑或视频片段搜索等场景。已有的视频摘要生成方式，一种是针对特定场景关注的特定类别的目标，例如交通场景，生成关于人或车的视频摘要；另一种是通用场景，通过大量采集各种场景的数据并且进行标注来学习到符合场景的视频摘要。已有的视频摘要生成方式存在着场景单一或标注数据量大等弊端。显然，已有的视频摘要生成的方式会导致不同用户看到的视频摘要都是相同的，由此会给用户带来的新鲜感较低，体验较差。

发明内容

本申请实施例提供一种视频摘要生成的方法、装置、电子设备及存储介质，以实现可以根据关注信息从不同角度生成视频摘要。

第一方面，本申请实施例提供了一种视频摘要生成的方法，该方法可以包括以下步骤：

确定视频片段的特征，视频片段是对视频进行切分得到的；

确定视频片段中视频图像帧的特征，视频片段中视频图像帧的数量为多个；

确定关注信息的特征，关注信息用于表征对视频在不同维度的关注情况；

利用视频片段的特征、视频片段中视频图像帧的特征和关注信息的特征，生成视频的视频摘要。

第二方面，本申请实施例提供了一种视频摘要生成的方法，该方法可以包括以下步骤：

将接收到的对视频的关注信息发送给视频摘要的生成端；

接收视频摘要的生成端响应关注信息生成的视频的视频摘要；视频的视频摘要是频摘要的生成端利用视频片段的特征、视频片段中视频图像帧的特征和关注信息的特征生成的；视频片段是对视频进行切分得到的；

在视频预览窗口展示视频的视频摘要。

第三方面，本申请实施例提供了一种视频摘要生成的装置，该装置可以包括：

视频特征确定模块，用于确定视频片段的特征，视频片段是对视频进行切分得到的；

图像特征确定模块，用于确定视频片段中视频图像帧的特征，每个视频片段中视频图像帧的数量为多个；

关注信息确定模块，用于确定关注信息的特征，关注信息用于表征对视频在不同维度的关注情况；

视频摘要生成模块，用于利用视频片段的特征、视频片段中视频图像帧的特征和关注信息的特征，生成视频的视频摘要。

第四方面，本申请实施例提供了一种视频摘要生成的装置，该装置可以包括：

关注信息发送模块，用于将接收到的对视频的关注信息发送给视频摘要的生成端；

视频摘要获取模块，用于接收视频摘要的生成端响应关注信息生成的视频的视频摘要；视频的视频摘要是频摘要的生成端利用视频片段的特征、视频片段中视频图像帧的特征和关注信息的特征生成的；视频片段是对视频进行切分得到的；

视频摘要展示模块，用于在视频预览窗口展示视频的视频摘要。

第五方面，本申请实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器在执行所述计算机程序时实现上述任一项所述的方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法。

与现有技术相比，本申请具有如下优点：

依据本申请实施例通过关注信息实现了基于不同用户偏好的内容，自适应生成视频摘要。实现了同一套模型不同用户能够生成出符合用户偏好的摘要视频，从而满足不同用户的个性化需求。同时，在视频摘要生成的过程中可以参考视频片段的特征、视频图像帧特征、关注信息的特征等多个维度的信息，多维度的信息综合考量，能够得到更高质量的视频摘要结果。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，可依照说明书的内容予以实施，并且为了让本申请的上述和其他目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本申请的一些实施方式，而不应将其视为是对本申请范围的限制。

图1为本申请提供的视频摘要生成的方法的场景示意图；

图2为本申请一实施例的视频摘要生成的方法的流程图之一；

图3为本申请一实施例的视频片段的确定方式的流程图之一；

图4为本申请一实施例的视频片段的确定方式的流程图之二；

图5为本申请一实施例的生成视频摘要具体过程的流程图之一；

图6为本申请一实施例的生成视频摘要具体过程的流程图之二；

图7为本申请一实施例的生成视频摘要具体过程的流程图之三；

图8为本申请一实施例的关注信息的生成方式的流程图之一；

图9为本申请一实施例的关注信息的生成方式的流程图之二；

图10是本申请一实施例的视频摘要生成的方法的流程图之二；

图11是本申请一实施例的视频摘要生成的方法的流程图之三；

图12是本申请一实施例的视频摘要生成的方法的流程图之四；

图13是本申请一实施例的视频摘要生成装置的结构框图之一；

图14是本申请一实施例的视频摘要生成装置的结构框图之二；以及

图15为用来实现本申请实施例的电子设备的框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本申请的构思或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的，而非限制性的。

为便于理解本申请实施例的技术方案，以下对本申请实施例的相关技术进行说明。以下相关技术作为可选方案与本申请实施例的技术方案可以进行任意结合，其均属于本申请实施例的保护范围。

首先对本申请所涉及的名词进行解释。

中文多模态预训练模型(M6，Multi-Modality to Multi-Modality MultitaskMega-Transformer)：该模型是基于翻译模型(Transformer)为基础模型，通过多个任务进行预训练得到的。预训练使该模型具有单模态和多模态的理解和生成能力。中文多模态预训练模型可以应用于一系列下游应用，例如，可以包括应用于对象的描述生成、视觉问答、中文诗词生成等。

视频特征提取模型(Video Transformer)：可以基于自注意力机制，实现对输入的视频片段进行特征提取。视频特征提取模型的输出结果为视频片段的特征。

视频镜头切割算法(Video Shot-Segmentation)：依赖于视频连续帧之间的像素变化、直方图变化、边缘的变化情况等，实现将视频进行分段。每个视频分段可以对应视频中镜头的一次切换过程。

视频场景切割算法(Video Scene-Segmentation)：作为视频理解中的一个子任务，其主要目标是以视频按照场景内容为切分线索，将长视频切分成若干视频片段。一个视频片段由连续的多个镜头片段组成。

视频描述生成算法(Video Captioning)：视频描述生成算法是将深度学习应用于计算机视觉与自然语言处理领域，具体可以是给定一段视频，视频描述生成算法输出描述这段视频的文字。

图1为示例性的用于实现本申请实施例的方法的一个应用场景的示意图。在生成视频摘要过程中，对于不同的用户往往会出现不同的需求。例如，对于同一个视频，第一用户的偏好是演员的服装搭配，第二用户的偏好是视频中的美食片段。为了解决这种用户偏好不同的问题，通常采用重新标注训练样本进行模型参数微调的方式对模型进行调整得到新的模型，从而采用不同的模型实现用户的差异化需求。但是重新标注训练样本所产生的弊端就是人力标注成本、模型训练时间成本的提升。

对此，在当前应用场景下，可以将待生成视频摘要的目标视频按照指定规则拆分成多个视频片段。另外，可以接收用户的偏好信息。用户的偏好信息可以是接收到的文字信息、声音信息或者是视频信息等，用户的偏好信息用于表征用户对目标视频在不同维度的偏好情况。例如，图1中所示的服装搭配和美食片段可以表征2个不同用户的偏好。将目标视频的多个视频片段与偏好信息进行匹配，匹配可以包括视频片段的特征提取、偏好信息的特征，视频片段的特征与偏好信息的特征之间的相似性比较等过程。最终可以确定出与用户偏好相关的目标视频片段。基于确定出的目标视频片段，经过目标视频片段的组合、画质调整或视频片段时长调整等过程后，即可得到与用户的偏好信息相符的视频摘要。例如，在图1中，对应第一用户的偏好，可以生成与服装搭配内容相关的视频摘要。对应第二用户的偏好，可以生成与美食相关的视频摘要。由此可以解决不同场景和不同用户的偏好带来的需要重新标注训练数据进行训练微调的弊端，较大程度上减少了针对不同场景、不同用户对应的多次训练所带来的资源消耗的弊端，能够利用一套模型实现基于偏好信息的视频摘要自适应生成。

本申请实施例提供了一种视频摘要生成的方法，如图2所示为本申请一实施例的视频摘要生成的方法的流程图，可以包括：

步骤S201：确定视频片段的特征，视频片段是对视频进行切分得到的。

本申请实施例的执行主体可以是云端，也可以是客户端。视频片段可以是利用指定规则，从待生成视频摘要的目标视频切分得到的。其中，指定规则可以是时间规则。例如，每个视频片段可以是1分钟或者30秒等。或者，指定规则可以是镜头规则。例如，目标视频的每个拍摄镜头的切换可以对应一个视频片段。或者，指定规则还可以是场景规则。例如，每个场景可以对应一个视频片段。场景可以包括至少一个镜头。在场景包括多个镜头的情况下，多个镜头所拍摄的内容可以是相似的。例如，多个镜头都是在一个拍摄地拍摄的镜头，或者多个镜头都是一个演员的镜头等。

视频片段的特征可以利用预先训练好的视频特征提取模型进行。将视频片段输入预先训练好的视频特征提取模型，可以得到该视频片段对应的特征。该特征可以以向量的形式表示。

步骤S202：确定视频片段中视频图像帧的特征，视频片段中视频图像帧的数量为多个。

每个视频片段中可以包括多个视频图像帧。视频图像帧的数量是与视频片段的时长成正比的。视频图像帧的特征可以包括像像素维度的特征和文字维度的特征。

像素维度的特征可以利用先训练好的中文多模态预训练模型确定。在中文多模态预训练模型中，包含图像编码器和文本编码器。利用图像编码器可以直接从像素维度确定视频图像帧的特征。文字维度的特征可以利用视频描述生成算法和中文多模态预训练模型确定。利用视频描述生成算法可以得到视频片段中指定视频图像帧的文字表述。利用文本编码器可以基于文字表述得到文字维度的特征。

指定视频图像帧可以是视频片段的全部视频图像帧，也可以是间隔一定时间或间隔一定帧数得到的图像帧。例如，可以是每间隔0.1秒获取一帧视频图像帧。又例如，可以取单数或双数的视频图像帧。再例如，还可以每间隔5帧获取一帧视频图像帧等。

步骤S203：确定关注信息的特征，关注信息用于表征对视频在不同维度的关注情况。

关注信息可以是不同用户所输入或者是对不同用户进行数据采集得到的偏好信息，用于表征对视频在不同维度的关注情况。以A球队和B球队之间的足球比赛视频为示例，用户甲是A球队的球迷，用户乙是B球队的C球员的球迷。则用户甲的关注信息可以是A球队的精彩表现或者B球队的失误集锦。用户乙的关注信息可以是C球员的精彩表现。再以美食探店的视频为示例，用户甲的关注信息可以为菜品种类的介绍，例如该店的招牌菜是炙子烤肉，如何选肉、如何腌制肉是用户甲关注的重点。而用户乙的关注信息可以为店铺的地址、环境等。例如，可以是该店铺所在的商圈、该店铺是否为网红店铺、是否为XX榜单上榜店铺等。

关注信息的特征可以利用预先训练好的中文多模态预训练模型进行。在接收到的偏好信息为语音数据的情况下，可以先将语音数据转为文字信息，进而利用中文多模态预训练模型中包含的文本编码器确定关注信息的特征。在接收到的偏好信息为文字信息的情况下，可以直接利用中文多模态预训练模型中包含的文本编码器确定关注信息的特征。

步骤S204：利用视频片段的特征、视频片段中视频图像帧的特征和关注信息的特征，生成视频的视频摘要。

从每个视频图像帧，以及每个视频图像帧所对应的视频片段两个维度出发，确定与关注信息相关度较高的一个或多个视频图像帧。所谓相关度较高可以是相关度不低于对应阈值的视频图像帧。可以采用预先训练的评分模型，该模型的输入为视频片段的特征、视频片段中视频图像帧的特征和关注信息的特征，输出为每个视频图像帧的评分。

如果根据评分筛选出多个视频图像帧，可以进一步确定每个视频图像帧是否对应同一个视频片段。若对应同一个视频片段，可以利用确定出的唯一视频片段进行视频摘要的生成。若对应多个视频片段，可以利用多个视频片段进行视频摘要的生成。例如，有3个视频图像帧对应第一视频片段，有7个图像帧对应第二视频片段。由于第一视频片段的视频图像帧数量相对较少，可以只利用第二视频片段生成视频摘要。或者，可以直接将第一视频片段和第二视频片段进行拼接后生成视频摘要。又或者，还可以利用包含3个视频图像帧的部分连续的第一视频片段和包含7个图像帧的部分连续的第二视频片段生成视频摘要。例如，包含3个视频图像帧的部分连续的第一视频片段可以是3个视频图像帧各自的前向相邻的多个视频图像帧和后向相邻的多个视频图像帧组成的视频片段。

通过上述过程，通过关注信息实现了对不同用户偏好的内容自适应生成视频摘要。实现了同一套模型的满足不同用户的需求需求。同时，在匹配视频片段的过程中可以参考视频片段的特征、视频图像帧特征、关注信息的特征，多维度的特征关联匹配，能够得到更高质量的视频摘要结果。

如图3所示，在一种可能的实现方式中，步骤S201中所涉及的视频片段的确定方式，可以包括：

步骤S301：根据视频的镜头切换情况，将视频切分成多个镜头片段。

在视频拍摄过程中，可以有多个拍摄镜头。通过将多个拍摄镜头所拍摄内容的剪辑、拼接等操作，可以得到最终的视频。例如，在两个演员的对手戏中，第一镜头可以是拍摄演员甲的画面，第二镜头可以是拍摄演员乙的画面。在视频中可以出现多个镜头画面的来回切换。基于此，可以根据视频的镜头切换情况，以镜头的每次切换作为镜头片段的切分指令，实现对于视频的切分。根据镜头切换情况将视频切分成多个镜头片段可以利用视频镜头切割算法实现。

步骤S302：将镜头片段作为确定出的视频片段。

根据镜头切换情况，可以将视频切分成多个镜头片段。基于此，每个镜头片段都可以作为确定出的视频片段。

如图4所示，在一种可能的实现方式中，步骤S201中所涉及的视频片段的确定方式，还可以包括：

步骤S401：根据镜头片段的内容的相似情况，对镜头片段进行合并，得到至少一个内容片段。

相似的镜头片段可以是在同一个场景下的多个镜头片段。同一个场景可以包括拍摄地相同，拍摄风格相同或近似、或者拍摄内容相同或近似等。以美食探店节目为示例，在进入美食店之前的外景镜头，可以归类为第一场景。在美食店就餐区域拍摄的镜头，可以归类为第二场景。在美食店后厨拍摄的镜头，可以归类为第三场景。以不同题材的影视剧为示例，文戏的镜头可以归类为第一场景、武戏的镜头可以归类为第二场景。每个内容片段可以由至少一个镜头片段组成。

内容片段可以是在确定出镜头片段后，由多个镜头片段进行合并所得到的。另外，内容片段还可以是利用视频场景切割算法实现。

步骤S402：将内容片段作为确定出的视频片段；或，将内容片段和镜头片段同时作为确定出的视频片段。

一种情况下，可以将内容片段作为确定出的视频片段。有益效果在于可以有效的降低数据量。另一种情况下，可以将内容片段和镜头片段同时作为确定出的视频片段。有益效果在于可以从更多维度标注视频的特征。

如图5所示，在一种可能的实现方式中，步骤S204所涉及的利用视频片段的特征、视频片段中视频图像帧的特征和关注信息的特征，生成视频的视频摘要，可以包括：

步骤S501：利用视频片段的特征与关注信息的特征的第一关联程度，以及视频图像帧的特征与关注信息的特征的第二关联程度，在视频图像帧中确定至少一个关键帧。

关注信息的特征可以作为参考信息。从而基于视频图像帧的特征和视频片段的特征等多维度的特征与关注信息的特征进行匹配，确定出与关注信息的匹配程度较高的关键帧。所谓的与关注信息的特征的匹配程度较高可以是匹配程度不低于对应阈值的视频图像帧。

例如，可以首先确定视频片段的特征与关注信息的特征之间的第一关联程度。其次，可以确定视频图像帧的特征和关注信息的特征之间的第二关联程度。最终可以基于第一关联程度和第二关联程度，确定每个视频图像帧的评分。可以将评分最高的视频图像帧作为关键帧。也可以由评分由高到低排序，选择指定数量的视频图像帧作为关键帧。

步骤S502：根据关键帧所对应的视频片段生成视频的视频摘要。

可以根据视频摘要的时长需求，对关键帧所对应的视频片段进行对应处理后，得到视频摘要。例如，可以根据时长需求，对关键帧所对应的视频片段进行抽帧处理、压缩处理等，得到满足时长需求的视频摘要。

如图6所示，在一种可能的实现方式中，步骤S502所涉及的根据关键帧所对应的视频片段生成视频的视频摘要，可以包括：

步骤S601：获取关键帧所对应的视频片段的时长。

可以首先判断每个关键帧所对应的视频片段是否相同。在存在至少两个视频片段的情况下，需要分别获取每个视频片段的时长。

步骤S602：根据确定出的关键帧的评分和关键帧所对应的视频片段的时长，对关键帧所对应的视频片段进行筛选，得到筛选结果。

在存在至少两个视频片段的情况下，可以同时将每个视频片段中关键帧的评分，以及视频片段的时长作为参考信息，筛选出至少一个视频片段。例如，可以采用背包算法，依据关键帧的评分选择出时长适合的视频片段作为筛选结果。

步骤S603：利用筛选结果生成视频的视频摘要。

在得到筛选结果后，可以利用直接拼接的方式生成视频摘要。或者，也可以先对筛选结果中的视频片段进行时长调整，利用时长调整后的视频片段生成视频摘要。时长调整可以根据关键帧的评分进行。例如，评分相对高的关键帧所在的视频片段，可以进行相对少的调整。评分相对低的关键帧所在的视频片段，可以进相对多的调整。

如图7所示，在一种可能的实现方式中，在筛选结果所对应的时长超过对应阈值的情况下，步骤S502所涉及的根据关键帧所对应的视频片段生成视频的视频摘要，可以包括：

步骤S701：基于关键帧所对应的视频片段中的视频图像帧的特征，对关键帧所对应的视频片段中的视频图像帧进行过滤处理。

可以首先确定视频摘要的时长需求。如果视频摘要的时长需求为1分钟，筛选结果存在多个视频片段，多个视频片段的总时长超过1分钟，可以对多个视频片段中视频图像帧进行过滤处理。例如，可以基于在先已经确定出的视频图像帧的特征，将多个视频片段中的视频图像帧进行相似性比较。在参与比较的视频图像帧的差异不大于差异阈值的情况下，即可认为参与比较的视频图像帧是相似的。进而根据比较结果进行视频图像帧的过滤。例如，存在连续10帧视频图像帧均相似，则可以计算10帧视频图像帧的特征均值。进而将10帧视频图像帧分别与特征均值进行比较，保留与特征均值差异最大的视频图像帧，或者保留差异超过对应阈值的视频图像帧。另外，也可以直接选择首帧、尾帧和中间帧作为保留下来的视频图像帧。

步骤S702：利用过滤处理后的视频图像帧生成视频的视频摘要。

由于过滤处理的目的是进行时间压缩，因此过滤后保留下来的视频图像帧的数量是符合要求的。即，将过滤处理后的视频图像帧进行组合，得到的视频摘要的时长可以满足视频摘要的时长需求。

如图8所示，在一种可能的实现方式中，关注信息的生成方式，可以包括：

步骤S801：从获取到的视频摘要生成指令中确定指令内容和参照内容；指令内容是利用语音数据、动作数据中的至少一种生成的；参照内容包括文字、视频或图像中的至少一种。

获取到的视频摘要生成指令可以是用户输入的信息或者可以是执行主体采集到的信息。示例性地，获取或采集到的信息可以是用户手持一张(文字)图像、或者(手持)正在播放视频的视频播放设备等，用户指着图像中的某个局部内容说“生成与这个人物状态类似的视频片段”，用户指向或者圈选图像中某段文字说“我需要这样的内容”，指向某个画面说“我想要一个这样的视频片段”等。在上述场景下，采集到的用户手指的动作、圈选的动作以及用户的语音，都可以作为指令内容，而用户手持的图像、文字或者正在播放的视频，可以作为参照内容。

基于此，可以对获取到的视频摘要生成指令进行解析。对于用户的语音数据和动作数据，可以直接确定为指令内容。对于用户手持的物品、指向的内容、圈选的内容等，可以确定为参照内容。上述解析可以利用语义模型确定，通过对采集的内容进行语义识别，以确定出指令内容和参照内容。

在确定出指令内容和参照内容后，还可以基于指令内容对用户进行识别。例如，通过图像或声音等信息对用户进行识别，从而为该用户设置标识。在后续进行视频摘要的展示过程中，可以基于该用户的视频摘要展示指令对该用户进行识别。如果识别结果为已输出过关注信息的用户，则可以直接展示与该用户对应的关注信息生成的视频摘要。

步骤S802：利用指令内容，在参照内容中确定关注信息。

可以对指令内容进行识别，以确定指令意图。例如，在指令内容为语音数据的情况下，可以利用语音识别技术确定指令的意图。在指令内容为动作数据的情况下，可以对动作进行识别确定指令的意图。其中，动作可以包括前述示例中指的动作、圈选的动作等。在此情况下，可以将手指指向的位置，或者被圈选选择的位置所对应的内容作为选中的参照内容。例如，选中了图像中的一个人，或者一个建筑，或者圈选了一段文字等。图像中被选中的人、建筑，或者被圈选的文字都可以作为关注信息。进而可以通过图像编码器、文本编码器等进行关注信息的特征确定。

如图9所示，在一种可能的实现方式中，在指令内容包括语音数据、动作数据的情况下，步骤S802所涉及的利用指令内容，在参照内容中确定关注信息，可以包括：

步骤S901：确定出现语音数据的第一时刻以及出现动作数据的第二时刻。

在确定出指令内容的情况下，还可以对出现指令内容的时刻进行记录。通过对指令内容进行解析，可以区分出语音数据和动作数据。解析原理可以采用现有技术实现，不再赘述。例如，用户对着正在播放的视频一边说话一边圈选目标，则可以对应确定出现语音数据的第一时刻以及出现动作数据的第二时刻。在当前实施方式中，语音数据和动作数据可以是表征有指令含义的内容。

步骤S902：利用第一时刻和第二时刻，将语音数据和动作数据进行关联，得到关联结果。

可以预先设置时差阈值。如果第一时刻和第二时刻之间的时差不大于时差阈值，可以确定语音数据和动作数据是同时发生的。即，同时发生可以是语音数据和动作数据在时间维度存在重叠情况。基于此，可以将同时发生的语音数据和动作数据进行关联，得到关联结果。关联结果的表现形式可以是：{起始时刻t₁、结束时刻t₂、语音数据、动作数据}，或者，关联结果的表现形式可以是：{起始时刻t₁、结束时刻t₂、语音数据}、{起始时刻t₁、结束时刻t₃、动作数据}。在当前示例中，t₁时刻至t₂时刻的第一时段与t₁时刻至t₃时刻的第二时段存在时间重合。不难理解，对于不存在时间重合的指令内容，可以基于时序依次记录。

步骤S903：利用关联结果，确定参照内容的范围；范围包括视频时长、图像页数和图像有效内容中的至少一种。

如前述示例中，关联结果的起始时刻为t₁，则可以记录在t₁时刻的参照内容。在参照内容为视频的情况下，可以记录t₁时刻视频的画面，从而可以从t₁时刻作为视频的起始时刻。为了画面的连续，也可以将t₁时刻前1秒或者t₁时刻前2秒等作为视频的起始时刻。

在t₁时刻至t₂时刻的第一时段内，或者在t₁时刻至t₃时刻的第二时段内，可以对指令内容进行解析。例如，语音内容包括是“我需要像这部分一样的构图”或“我想要这名球员的精彩表现”等。动作内容包括在播放的视频中进行圈选、指等动作。基于此，可以利用语音数据和动作数据的时间标签，对参照内容在对应的时间段所展示的内容加载相同的时间标签。对应的时间段所展示的内容可以是对应时长的视频片段、单张或多张图像等。或者，对应的时间段所展示的内容还可以是在该时间段内，语音内容所指向的内容和/或者动作内容所指向的内容。以语音内容包括是“我需要像这部分一样的构图”、“我想要这名球员的精彩表现”进行说明，则视频或图像的构图方式为有效内容，图像中的球员为有效内容。

步骤S904：利用参照内容的范围，在参照内容中确定关注信息。

在当前实施方式中，关注信息的表现形式可以是文字。在确定出参照内容的范围后，对于参照内容为视频或图像，可以利用视频描述生成算法得到视频或图像的文字表达。对于参照内容为文本，可以直接利用文本表达。

如图10所示，在一种可能的实现方式中，在执行主体为客户端的情况下，还可以包括：

步骤S1001：将视频摘要与视频进行关联。

根据不同的关注信息，可以得到与关注信息对应的视频摘要。如前，关注信息可以是服装搭配和美食片段。对此，同一个目标视频，可以得到与服装搭配相关的第一视频摘要，以及得到与美食相关的第二视频摘要。对于两个视频摘要，可以均与目标视频进行关联，以表征于两个视频摘要都是由目标视频得来的。

步骤S1002：在接收到视频摘要展示指令的情况下，视频的视频预览窗口展示视频摘要。

视频摘要展示指令可以是语音形式、动作形式等。例如，语音形式可以是“播放某某视频的视频摘要”。动作形式可以是通过动作选择的待播放摘要的视频。进一步的，还可以对发出视频摘要展示指令的用户进行识别。例如，可以通过图像识别或声音识别等方式确定发出视频摘要展示指令的用户。进而可以判断是否已存在与该用户匹配的关注信息。若存在，则可以在视频的视频预览窗口，展示与关注信息对应的视频摘要。反之，若不存在，则可以选择热度较高的视频摘要进行展示。

上述视频摘要生成的方法可以是用户终端本地的一个应用程序(APP)，或者是一个APP中的一个功能模块，也可以是云端提供的一种服务，用户调用该服务对应的调用接口，将关注信息上传至云端，并接收云端反馈的结果，例如视频的视频摘要。另外，云端可以从视频数据库中获取到与视频相关的内容。

示例性地，在云端可以部署有若干分布式计算节点，每个计算节点中都具有计算、存储等处理资源。在云端，可以组织由多个计算节点来提供卡证识别方法中的某一个或某几个服务；或者，可以组织由多个计算节点来提供视频摘要生成的方法中的某一个或某几个服务。示例性地，服务可以包括视频进行切分得到视频片段；确定视频片段的特征；确定视频片段中视频图像帧的特征；确定关注信息的特征；利用视频片段的特征、视频片段中视频图像帧的特征和关注信息的特征，生成视频的视频摘要等。当然，一个计算节点也可以提供一种或多种服务。云端提供该服务的方式可以是对外提供服务接口，用户调用该服务接口以使用相应的服务。

针对本发明实施例提供的方案，云端可以提供有信息识别服务的服务接口，称为目标服务接口。当用户需要查看视频摘要的时候，通过用户设备调用该目标服务接口，以向云端触发调用该目标服务接口的请求，在该请求中携带有关注信息。云端确定响应该请求的计算节点，利用该计算节点中的处理资源执行本申请实施例所提供的各步骤。

本申请实施例提供了一种视频摘要生成的方法，如图11所示为本申请一实施例的视频摘要生成的方法的流程图，可以包括：

步骤S1101：将接收到的对视频的关注信息发送给视频摘要的生成端。

本申请实施例的执行主体可以是客户端。关注信息可以是用户发出的对视频的偏好信息。发出关注信息的场景可以包括视频预览场景、视频剪辑场景、视频片段搜索场景等。偏好信息的形式可以是文字信息、声音信息或者是视频信息等，用户的偏好信息用于表征用户对目标视频在不同维度的偏好情况。示例性地，关注信息可以是用户手持一张(文字)图像、或者(手持)正在播放视频的视频播放设备等，用户指着图像中的某个局部内容说“生成与这个人物状态类似的视频片段”，用户指向或者圈选图像中某段文字说“我需要这样的内容”，指向某个画面说“我想要一个这样的视频片段”等。

步骤S1102：接收视频摘要的生成端响应关注信息生成的视频的视频摘要；视频的视频摘要是频摘要的生成端利用视频片段的特征、视频片段中视频图像帧的特征和关注信息的特征生成的；视频片段是对视频进行切分得到的。

视频摘要的生成端用于基于对视频的关注信息，生成视频的视频摘要。在视频摘要的生成过程中，还可以同时参考视频片段的特征，以及视频片段中视频图像帧的特征。

视频片段可以是利用指定规则，从待生成视频摘要的视频切分得到的。视频片段的特征可以利用预先训练好的视频特征提取模型进行。将视频片段输入预先训练好的视频特征提取模型，可以得到该视频片段对应的特征。该特征可以以向量的形式表示。

关注信息的特征可以利用预先训练好的中文多模态预训练模型进行。在接收到的关注信息为语音数据的情况下，可以先将语音数据转为文字信息，进而利用中文多模态预训练模型中包含的文本编码器确定关注信息的特征。在接收到的关注信息为文字信息的情况下，可以直接利用中文多模态预训练模型中包含的文本编码器确定关注信息的特征。在接收到的关注信息为动作信息的情况下，可以基于动作识别技术，将动作信息转为文字信息，进而利用中文多模态预训练模型中包含的文本编码器确定关注信息的特征。

采用预先训练的评分模型，该模型的输入为视频片段的特征、视频片段中视频图像帧的特征和关注信息的特征，输出为每个视频图像帧的评分。根据视频图像帧的评分以及视频图像帧视频片段的时长，利用背包算法可以确定目标视频片段。即视频摘要的生成端响应关注信息生成的视频的视频摘要。视频摘要的生成端将视频摘要发送给客户端。视频摘要的生成端的功能以及具体工作流程可以参见上述方法中的对应描述，并具备相应的有益效果，在此不再赘述。

步骤S1103：在视频预览窗口展示视频的视频摘要。

客户端在接收到视频摘要的生成端响应关注信息发送过来的视频的视频摘要后，可以在视频预览窗口展示视频的视频摘要。

通过关注信息实现了对不同用户偏好的内容自适应生成视频摘要。实现了同一套模型的满足不同用户的需求需求。

本申请实施例提供了一种视频摘要生成的方法，如图12所示为本申请一实施例的视频摘要生成的方法的流程图，可以包括：

利用图像特征提取模型，确定目标视频中图像帧的像素维度特征

其中j可以用于表示图像帧的序号。

利用视频描述生成算法，确定目标视频中图像帧的文字表示T。

利用文本特征提取模型，得到图像帧的文字表示T的特征

像素维度特征

和文字表示T的特征

可以共同作为图像特征。

关注信息可以是用户的偏好信息。将关注信息转换为文本后，利用文本特征提取模型，关注信息的特征

利用视频镜头切割算法，可以将目标视频切分为多个镜头片段，镜头片段的时长可以表示为T_shot。利用视频特征提取模型，可以得到镜头片段的特征

其中i可以用于表示镜头片段的序号。

利用视频场景切割算法，可以将目标视频切分为多个场景片段，场景片段中可以包括至少一个镜头片段。场景片段的时长可以表示为T_sence。利用视频特征提取模型，可以得到场景片段的特征

其中q可以用于表示场景片段的序号。

将像素维度特征

文字表示T的特征

关注信息的特征

镜头片段的特征

场景片段的特征

输入预先训练好的评分模型，可以得到第j帧图像帧的评分Sj。预先训练好的评分模型可以是基于翻译模型(Transformer)结构的神经网络模型。该神经网络模型可以包括输入层、编码层和输出层。输入层可以是各项特征。编码层可以采用翻译模型结构的编码器。翻译模型结构具有自注意力机制(self-attention)，自注意力机制可以直接建模任意两个特征之间的相互影响。输出层可以基于编码层的结果，可以对每个图像帧生成一个分数。基于分数进行排序，即可得到第j帧图像帧的评分Sj。对于评分较高的一帧图像或者指定数量的多帧图像，可以用于视频摘要的生成。

利用背包算法，基于图像帧的评分Sj和镜头片段的时长T_shot，可以得到适合作为视频摘要的镜头片段。最终，基于视频摘要的时长需求，生成视频摘要。

与本申请实施例提供的方法的应用场景以及方法相对应地，本申请实施例还提供一种视频摘要生成的装置。如图13所示为本申请一实施例的视频摘要生成的装置的结构框图，该视频摘要生成的装置可以包括：

视频特征确定模块1301，用于确定视频片段的特征，视频片段是对视频进行切分得到的。

图像特征确定模块1302，用于确定视频片段中视频图像帧的特征，每个视频片段中视频图像帧的数量为多个。

关注信息确定模块1303，用于确定关注信息的特征，关注信息用于表征对视频在不同维度的关注情况。

视频摘要生成模块1304，用于利用视频片段的特征、视频片段中视频图像帧的特征和关注信息的特征，生成视频的视频摘要。

在一种可能的实现方式中，视频特征确定模块1301，可以包括：

切分子模块，用于根据视频的镜头切换情况，将视频切分成多个镜头片段。

视频片段确定子模块，用于将镜头片段作为确定出的视频片段。

在一种可能的实现方式中，视频特征确定模块1301，还可以包括：

内容片段确定子模块，用于根据镜头片段的内容的相似情况，对镜头片段进行合并，得到至少一个内容片段；

视频片段确定子模块，还用于将内容片段作为确定出的视频片段；或，

将内容片段和镜头片段同时作为确定出的视频片段。

在一种可能的实现方式中，视频摘要生成模块1304，可以包括：

关键帧确定子模块，用于利用视频片段的特征与关注信息的特征的第一关联程度，以及视频图像帧的特征与关注信息的特征的第二关联程度，在视频图像帧中确定至少一个关键帧；

视频摘要生成执行子模块，用于根据关键帧所对应的视频片段生成视频的视频摘要。

在一种可能的实现方式中，视频摘要生成执行子模块，可以包括：

时长获取单元，用于获取关键帧所对应的视频片段的时长；

筛选结果确定单元，用于根据确定出的关键帧的评分和关键帧所对应的视频片段的时长，对关键帧所对应的视频片段进行筛选，得到筛选结果；

视频摘要生成单元，用于利用筛选结果生成视频的视频摘要。

在一种可能的实现方式中，在关键帧所对应的视频片段的时长超过对应阈值的情况下，视频摘要生成执行子模块，可以包括：

过滤单元，用于基于关键帧所对应的视频片段中的视频图像帧的特征，对关键帧所对应的视频片段中的视频图像帧进行过滤处理；

视频摘要生成单元，用于利用过滤处理后的视频图像帧生成视频的视频摘要。

在一种可能的实现方式中，关注信息确定模块1303，可以包括：

内容获取子模块，用于从获取到的视频摘要生成指令中确定指令内容和参照内容；指令内容是利用语音数据、动作数据中的至少一种生成的；参照内容包括文字、视频或图像中的至少一种；

关注信息确定执行子模块，用于利用指令内容，在参照内容中确定关注信息。

在一种可能的实现方式中，在指令内容包括语音数据、动作数据的情况下，关注信息确定执行子模块，可以包括：

时间确定单元，用于确定出现语音数据的第一时刻以及出现动作数据的第二时刻；

关联单元，用于利用第一时刻和第二时刻，将语音数据和动作数据进行关联，得到关联结果；

范围确定单元，用于利用关联结果，确定参照内容的范围；范围包括视频时长、图像页数和图像有效内容中的至少一种；

关注信息确定单元，用于利用参照内容的范围，在参照内容中确定关注信息。

在一种可能的实现方式中，还包括展示模块，展示模块可以包括：

关联子单元，用于将视频摘要与视频进行关联；

展示执行子单元，用于在接收到视频摘要展示指令的情况下，视频的视频预览窗口展示视频摘要。

与本申请实施例提供的方法的应用场景以及方法相对应地，本申请实施例还提供一种视频摘要生成的装置。如图14所示为本申请一实施例的视频摘要生成的装置的结构框图，该视频摘要生成的装置可以包括：

关注信息发送模块1401，用于将接收到的对视频的关注信息发送给视频摘要的生成端；

视频摘要获取模块1402，用于接收视频摘要的生成端响应关注信息生成的视频的视频摘要；视频的视频摘要是频摘要的生成端利用视频片段的特征、视频片段中视频图像帧的特征和关注信息的特征生成的；视频片段是对视频进行切分得到的；

视频摘要展示模块1403，用于在视频预览窗口展示视频的视频摘要。

本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述，并具备相应的有益效果，在此不再赘述。

图15为用来实现本申请实施例的电子设备的框图。如图15所示，该电子设备包括：存储器1510和处理器1520，存储器1510内存储有可在处理器1520上运行的计算机程序。处理器1520执行该计算机程序时实现上述实施例中的方法。存储器1510和处理器1520的数量可以为一个或多个。

该电子设备还包括：

通信接口1530，用于与外界设备进行通信，进行数据交互传输。

如果存储器1510、处理器1520和通信接口1530独立实现，则存储器1510、处理器1520和通信接口1530可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(PeripheralComponent Interconnect，PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture，EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图15中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器1510、处理器1520及通信接口1530集成在一块芯片上，则存储器1510、处理器1520及通信接口1530可以通过内部接口完成相互间的通信。

本申请实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现本申请实施例中提供的方法。

本申请实施例还提供了一种芯片，该芯片包括处理器，用于从存储器中调用并运行存储器中存储的指令，使得安装有芯片的通信设备执行本申请实施例提供的方法。

本申请实施例还提供了一种芯片，包括：输入接口、输出接口、处理器和存储器，输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连，处理器用于执行存储器中的代码，当代码被执行时，处理器用于执行申请实施例提供的方法。

应理解的是，上述处理器可以是中央处理器(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是，处理器可以是支持进阶精简指令集机器(Advanced RISC Machines，ARM)架构的处理器。

进一步地，可选的，上述存储器可以包括只读存储器和随机访问存储器。该存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以包括只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以包括随机访问存储器(RandomAccess Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM均可用。例如，静态随机访问存储器(Static RAM，SRAM)、动态随机访问存储器(Dynamic RandomAccess Memory，DRAM)、同步动态随机访问存储器(SynchronousDRAM，SDRAM)、双倍数据速率同步动态随机访问存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机访问存储器(Enhanced SDRAM，ESDRAM)、同步链接动态随机访问存储器(Sync link DRAM，SLDRAM)和直接内存总线随机访问存储器(Direct RambusRAM，DR RAM)。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生依照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中描述的或在此以其他方式描述的任何过程或方法可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能。

在流程图中描述的或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。

应理解的是，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本申请的示例性实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请记载的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频摘要生成的方法，其特征在于，包括：

确定视频片段的特征，所述视频片段是对视频进行切分得到的；

确定所述视频片段中视频图像帧的特征，所述视频片段中视频图像帧的数量为多个；

确定关注信息的特征，所述关注信息用于表征对所述视频在不同维度的关注情况；

利用所述视频片段的特征、所述视频片段中视频图像帧的特征和所述关注信息的特征，生成所述视频的视频摘要。

2.根据权利要求1所述的方法，其特征在于，所述视频片段的确定方式，包括：

根据所述视频的镜头切换情况，将所述视频切分成多个镜头片段；

将所述镜头片段作为确定出的视频片段。

3.根据权利要求2所述的方法，其特征在于，所述视频片段的确定方式，还包括：

根据所述镜头片段的内容的相似情况，对所述镜头片段进行合并，得到至少一个内容片段；

将所述内容片段作为确定出的视频片段；或，

将所述内容片段和所述镜头片段同时作为确定出的视频片段。

4.根据权利要求1所述的方法，其特征在于，所述利用所述视频片段的特征、所述视频图像帧的特征和所述关注信息的特征，生成所述视频的视频摘要，包括：

利用所述视频片段的特征与所述关注信息的特征的第一关联程度，以及所述视频图像帧的特征与所述关注信息的特征的第二关联程度，在所述视频图像帧中确定至少一个关键帧；

根据所述关键帧所对应的视频片段生成所述视频的视频摘要。

5.根据权利要求4所述的方法，其特征在于，所述根据所述关键帧所对应的视频片段生成所述视频的视频摘要，包括：

获取所述关键帧所对应的视频片段的时长；

根据确定出的所述关键帧的评分和所述关键帧所对应的视频片段的时长，对所述关键帧所对应的视频片段进行筛选，得到筛选结果；

利用所述筛选结果生成所述视频的视频摘要。

6.根据权利要求4或5所述的方法，其特征在于，在所述关键帧所对应的视频片段的时长超过对应阈值的情况下，所述根据所述关键帧所对应的视频片段生成所述视频的视频摘要，包括：

基于所述关键帧所对应的视频片段中的视频图像帧的特征，对所述关键帧所对应的视频片段中的视频图像帧进行过滤处理；

利用所述过滤处理后的视频图像帧生成所述视频的视频摘要。

7.根据权利要求1所述的方法，其特征在于，所述关注信息的生成方式，包括：

从获取到的视频摘要生成指令中确定指令内容和参照内容；所述指令内容是利用语音数据、动作数据中的至少一种生成的；所述参照内容包括文字、视频或图像中的至少一种；

利用所述指令内容，在所述参照内容中确定关注信息。

8.根据权利要求7所述的方法，其特征在于，在所述指令内容包括语音数据、动作数据的情况下，所述利用所述指令内容，在所述参照内容中确定关注信息，包括：

确定出现所述语音数据的第一时刻以及出现所述动作数据的第二时刻；

利用所述第一时刻和所述第二时刻，将所述语音数据和所述动作数据进行关联，得到关联结果；

利用所述关联结果，确定所述参照内容的范围；所述范围包括视频时长、图像页数和图像有效内容中的至少一种；

利用所述参照内容的范围，在所述参照内容中确定关注信息。

9.根据权利要求1至8任一所述的方法，其特征在于，还包括：

将所述视频摘要与所述视频进行关联；

在接收到视频摘要展示指令的情况下，在所述视频的视频预览窗口展示所述视频摘要。

10.一种视频摘要生成的方法，其特征在于，包括：

将接收到的对视频的关注信息发送给视频摘要的生成端；

接收所述视频摘要的生成端响应所述关注信息生成的所述视频的视频摘要；所述视频的视频摘要是所述频摘要的生成端利用视频片段的特征、所述视频片段中视频图像帧的特征和所述关注信息的特征生成的；所述视频片段是对所述视频进行切分得到的；

在视频预览窗口展示所述视频的视频摘要。

11.一种视频摘要生成的装置，其特征在于，包括：

视频特征确定模块，用于确定视频片段的特征，所述视频片段是对视频进行切分得到的；

图像特征确定模块，用于确定所述视频片段中视频图像帧的特征，每个所述视频片段中视频图像帧的数量为多个；

关注信息确定模块，用于确定关注信息的特征，所述关注信息用于表征对所述视频在不同维度的关注情况；

视频摘要生成模块，用于利用所述视频片段的特征、所述视频片段中视频图像帧的特征和所述关注信息的特征，生成所述视频的视频摘要。

12.一种视频摘要生成的装置，其特征在于，包括：

视频摘要获取模块，用于接收所述视频摘要的生成端响应所述关注信息生成的所述视频的视频摘要；所述视频的视频摘要是所述频摘要的生成端利用视频片段的特征、所述视频片段中视频图像帧的特征和所述关注信息的特征生成的；所述视频片段是对所述视频进行切分得到的；

视频摘要展示模块，用于在视频预览窗口展示所述视频的视频摘要。

13.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器在执行所述计算机程序时实现权利要求1-10中任一项所述的方法。

14.一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-10中任一项所述的方法。