CN112883227A

CN112883227A - 一种基于多尺度时序特征的视频摘要生成方法和装置

Info

Publication number: CN112883227A
Application number: CN202110019685.4A
Authority: CN
Inventors: 贺志强; 牛凯; 张一杰; 陈云
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-01-07
Filing date: 2021-01-07
Publication date: 2021-06-01
Anticipated expiration: 2041-01-07
Also published as: CN112883227B

Abstract

本申请实施例提供一种基于多尺度时序特征的视频摘要生成方法和装置。该方法包括：利用预训练的视频摘要生成模型，获取多尺度时序融合特征序列；利用预训练的视频摘要生成模型，确定多尺度时序融合特征序列中的各视频帧的重要性得分；基于镜头切分算法，将多尺度时序融合特征序列切分为以基本镜头为单位的基本片段集；利用预训练的视频摘要生成模型，基于各重要性得分和基本片段集，动态选取基本片段集中的核心片段；利用预训练的视频摘要生成模型，基于核心片段，生成动态视频摘要，并输出。该方案利用无监督训练得到的视频摘要生成模型，可抽取视频关键帧，获取具有多样性和代表性的视频摘要，减少人工干预工作量，有助于视频检索和视频监控。

Description

一种基于多尺度时序特征的视频摘要生成方法和装置

技术领域

本说明书一个或多个实施例涉及计算机视觉技术领域，尤其涉及一种基于多尺度时序特征的视频摘要生成方法和装置。

背景技术

随着移动互联网和视频监控等领域的发展，视频记录设备每时每刻都在产生大量视频，视频数据量出现爆发式增长。通常而言，管理人员需要充分观看视频才能了解其主要内容，筛选有效片段。

在基于视频内容的快速浏览、视频检索和视频监控等新兴多媒体服务中，如何高效地从海量视频中获取关键信息成为了当下亟待解决的问题之一。

发明内容

有鉴于此，本说明书一个或多个实施例的目的在于提出一种基于多尺度时序特征的视频摘要生成方法、装置、设备以及存储介质，以解决如何高效地从海量视频中获取关键信息的问题。

基于上述目的，本说明书一个或多个实施例提供了一种基于多尺度时序特征的视频摘要生成方法，其特征在于，包括：

利用预训练的视频摘要生成模型，获取多尺度时序融合特征序列；

利用预训练的视频摘要生成模型，确定多尺度时序融合特征序列中的各视频帧的重要性得分；

基于镜头切分算法，将多尺度时序融合特征序列切分为以基本镜头为单位的基本片段集，其中，基本片段集中的每一个基本片段包括至少一个视频帧；

利用预训练的视频摘要生成模型，基于各重要性得分和基本片段集，动态选取基本片段集中的核心片段；

利用预训练的视频摘要生成模型，基于核心片段，生成动态视频摘要，并输出。

进一步地，方法还包括：

获取目标源视频序列；

根据目标源视频序列和预训练的多目标分类模型，确定目标源视频帧特征向量序列；

对目标源视频帧特征向量序列进行抽样和归一化压缩编码，得到尺寸统一的压缩编码特征序列；

对压缩编码特征序列进行多尺度时序融合，得到多尺度时序融合特征序列。

进一步地，对压缩编码特征序列进行多尺度时序融合，得到多尺度时序融合特征序列，包括：

对压缩编码特征序列进行多层级时序感知，提取压缩编码特征序列对应的多层级短时特征向量序列；

基于多层级短时特征向量序列和多分支关联分析网络，确定多尺度时序融合特征序列。

进一步地，基于多层级短时特征向量序列和多分支关联分析网络，确定多尺度时序融合特征序列，包括：

利用多分支关联分析网络对多层级短时特征向量序列进行关联系数计算、权重向量编码以及特征归一化处理，得到多分支对应的长时特征向量序列；

将多分支对应的各长时特征向量序列进行维度融合，经全连接得到和目标源视频序列尺度一致的多尺度时序融合特征序列。

进一步地，方法还包括：

获取初始生成对抗网络以及训练样本集，训练样本集包括多尺度时序融合特征序列、标注的该多尺度时序融合特征序列中的各视频帧的重要性得分以及标注的该多尺度时序融合特征序列中的各片段对应的动态视频摘要；

将训练样本集中的多尺度时序融合特征序列作为初始生成对抗网络的输入，将标注的该多尺度时序融合特征序列中的各视频帧的重要性得分以及标注的该多尺度时序融合特征序列中的各片段对应的动态视频摘要作为期望输出，对初始生成对抗网络进行迭代训练，最终得到预训练的视频摘要生成模型。

进一步地，对初始视频摘要生成模型进行迭代训练，包括：

多次执行以下迭代步骤：

对训练样本集中的多尺度时序融合特征序列进行关键帧采样，得到关键帧集；

基于关键帧集，进行视频序列重建，得到重建特征序列；

计算重建特征序列和压缩编码特征序列的相似度；

根据相似度和预设的关键帧集的长度阈值，更新对训练样本集中的多尺度时序融合特征序列进行关键帧采样得到的关键帧集；

响应于确定相似度大于预设相似度阈值且关键帧集的长度小于预设的关键帧集的长度阈值，结束对初始生成对抗网络的训练，得到预训练的视频摘要生成模型。

一种基于多尺度时序特征的视频摘要生成装置，其特征在于，包括：

获取单元，被配置成利用预训练的视频摘要生成模型，获取多尺度时序融合特征序列；

重要性得分确定单元，被配置成利用预训练的视频摘要生成模型，确定多尺度时序融合特征序列中的各视频帧的重要性得分；

切分单元，被配置成基于镜头切分算法，将多尺度时序融合特征序列切分为以基本镜头为单位的基本片段集，其中，基本片段集中的每一个基本片段包括至少一个视频帧；

核心片段选取单元，被配置成利用预训练的视频摘要生成模型，基于各重要性得分和基本片段集，动态选取基本片段集中的核心片段；

视频摘要生成单元，被配置成利用预训练的视频摘要生成模型，基于核心片段，生成动态视频摘要，并输出。

进一步地，获取单元进一步被配置成：获取目标源视频序列；以及

该装置还包括：

目标源视频帧特征向量序列确定单元，被配置成根据目标源视频序列和预训练的多目标分类模型，确定目标源视频帧特征向量序列；

压缩编码特征序列确定单元，被配置成对目标源视频帧特征向量序列进行抽样和归一化压缩编码，得到尺寸统一的压缩编码特征序列；

多尺度时序融合特征序列确定单元，被配置成对压缩编码特征序列进行多尺度时序融合，得到多尺度时序融合特征序列。

进一步地，多尺度时序融合特征序列确定单元进一步被配置成：

进一步地，获取单元进一步被配置成：获取初始生成对抗网络以及训练样本集，训练样本集包括多尺度时序融合特征序列、标注的该多尺度时序融合特征序列中的各视频帧的重要性得分以及标注的该多尺度时序融合特征序列中的各片段对应的动态视频摘要；以及

装置还包括：

训练单元，被配置成将训练样本集中的多尺度时序融合特征序列作为初始生成对抗网络的输入，将标注的该多尺度时序融合特征序列中的各视频帧的重要性得分以及标注的该多尺度时序融合特征序列中的各片段对应的动态视频摘要作为期望输出，基于无监督训练使用的预设的代价函数对初始生成对抗网络进行迭代训练，最终得到预训练的视频摘要生成模型。

进一步地，训练单元进一步被配置成：

多次执行以下迭代步骤：

基于关键帧集，进行视频序列重建，得到重建特征序列；

计算重建特征序列和压缩编码特征序列的相似度；

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，处理器执行程序时实现如上述的基于多尺度时序特征的视频摘要生成方法。

一种非暂态计算机可读存储介质，其特征在于，非暂态计算机可读存储介质存储计算机指令，计算机指令用于使计算机执行如上述的基于多尺度时序特征的视频摘要生成方法。

从上面可以看出，本说明书一个或多个实施例提供的基于多尺度时序特征的视频摘要生成方法、装置、设备以及存储介质，利用无监督训练得到的视频摘要生成模型，可抽取视频关键帧，获取具有多样性和代表性的视频摘要，减少人工干预工作量，有助于视频检索和视频监控。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书一个或多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书一个实施例示出的基于多尺度时序特征的视频摘要生成方法的示意图；

图2为本说明书另一个实施例示出的基于多尺度时序特征的视频摘要生成方法的示意图；

图3为本说明书一个实施例示出的基于多尺度时序特征的视频摘要生成装置的结构框图；

图4为本说明书一个实施例示出的基于多尺度时序特征的视频摘要生成方法的电子设备硬件结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

图1示出了本申请的基于多尺度时序特征的视频摘要生成方法的流程框架的示意图100。如图1的流程框架所示，本实施例的基于多尺度时序特征的视频摘要生成方法可以包括如下步骤：

步骤101，利用预训练的视频摘要生成模型，获取多尺度时序融合特征序列。

本实施例的基于多尺度时序特征的视频摘要生成方法的执行主体(例如可以是包含预训练的视频摘要生成模型、预训练的多目标分类模型、多分支关联分析网络等的***)可以利用其中的预训练的视频摘要生成模型，获取视频中的多尺度时序融合特征序列。其中，预训练的视频摘要生成模型可以生成对应输入视频的以中间产物的形式存在的多尺度时序融合特征序列。

步骤102，利用预训练的视频摘要生成模型，确定多尺度时序融合特征序列中的各视频帧的重要性得分。

预训练的视频摘要生成模型可以根据生成的多尺度时序融合特征序列，确定该多尺度时序融合特征序列中的各视频的重要性得分，可以理解的是，该重要性得分也可以是预训练的视频摘要生成模型的中间产物。

步骤103，基于镜头切分算法，将多尺度时序融合特征序列切分为以基本镜头为单位的基本片段集。

其中，基本片段集中的每一个基本片段包括至少一个视频帧。

执行主体可以基于镜头切分算法，将预训练的视频摘要生成模型的中间产物，即多尺度时序融合特征序列切分为以基本镜头为单位的基本片段集。当然，执行主体还可以基于镜头切分算法将源视频或者是将经过压缩编码的压缩编码特征序列分割成仅包含单一场景的视频片段，从而组成源视频序列对应的片段集或者组成压缩编码特征序列对应的片段集，二者均可以是上述提到的基本片段集。本申请对上述基本片段集所包含的片段内容不做具体限定。

在本实施例中，使用核心时序分割(kernel temporal segmentation,KTS)算法进行镜头切分，使用动态规划选取核心片段最终输出视频摘要。

步骤104，利用预训练的视频摘要生成模型，基于各重要性得分和基本片段集，动态选取基本片段集中的核心片段。

执行主体可以利用预训练的视频摘要生成模型，确定基本片段集中的各基本片段所包含的视频帧的重要性得分之和，并将各重要性得分之和作为其对应的各基本片段的抽取权重，通过综合整个基本片段集的抽取权重和预设抽取权重的阈值，动态选取基本片段集中的核心片段。可以理解的是，执行主体可以将抽取权重大于预设抽取权重阈值的基本片段确定为核心片段。当然，还可以通过预设的抽取权重阈值和抽取个数来选取基本片段集中的核心片段，本申请对选取基本片段集中的核心片段的方式不做具体限定。

步骤105，利用预训练的视频摘要生成模型，基于核心片段，生成动态视频摘要，并输出。

执行主体利用预训练的视频摘要生成模型，将选取的核心片段合成为动态视频摘要，并通过显示屏输出或通过移动存储设备输出，本申请对动态视频摘要的输出方式不做具体限定。本实施例中，选择关键片段构成动态视频摘要，通过使摘要的权重得分最大化以获取最具代表性的摘要；同时在选取关键片段时设置正则化约束，用于限制生成摘要的长度。

本实施例利用无监督训练得到的视频摘要生成模型，可抽取视频关键帧，获取具有多样性和代表性的视频摘要，减少人工干预工作量，有助于视频检索和视频监控。

继续参见图2，其示出了根据本申请的基于多尺度时序特征的视频摘要生成方法的另一个实施例的流程200。如图2所示，本实施例的基于多尺度时序特征的视频摘要生成方法可以包括以下步骤：

步骤201，获取目标源视频序列。

执行主体可以通过有线连接或无线连接的方式获取目标源视频序列。目标源视频序列，例如可以是跳水运动员的跳水视频序列，本申请对目标源视频序列的具体内容不做限定。

步骤202，根据目标源视频序列和预训练的多目标分类模型，确定目标源视频帧特征向量序列。

目标源视频序列中的不同视频的图像尺寸和影像质量存在较大差异。执行主体可以对目标源视频序列中的视频帧逐一进行特征提取，获取维度一致的目标源视频帧特征向量序列，具体地，执行主体可以将目标源视频序列中的视频帧集送入预训练的多目标分类模型，提取视频帧集的图像特征，得到目标源视频帧特征向量序列。

步骤203，对目标源视频帧特征向量序列进行抽样和归一化压缩编码，得到尺寸统一的压缩编码特征序列。

执行主体在得到目标源视频帧特征向量序列后，可以对得到的目标源视频帧特征向量序列进行抽样和归一化压缩编码，得到维度一致的编码特征序列。通过压缩编码处理有效提取目标边缘轮廓等关键特征，减少运动模糊等干扰因素对视频摘要生成的影响；通过尺寸归一化可以用来训练端到端的视频摘要生成模型，以使其在处理不同尺度的视频序列的同时有效减少计算量，提升运算效率。

步骤204，对压缩编码特征序列进行多尺度时序融合，得到多尺度时序融合特征序列。

具体地，步骤204还可以通过步骤2041～步骤2042来实现：

步骤2041，对压缩编码特征序列进行多层级时序感知，提取压缩编码特征序列对应的多层级短时特征向量序列。

本实施例是通过提取多层级影像特征，抽取关键信息。具体地，对于输入的压缩编码特征序列X，构建多层级时序感知网络对其进行多层级时序感知。使用多层级时序感知网络中的短时特征提取单元在不同尺度上获取输入的压缩编码特征序列X的特征信息，提取浅层视觉特征和深层语义特征即多层级短时特征向量序列。示例的，对于给定层级r、时刻t对应的短时单元

可获取上一层级时序范围[t-τ,t+τ]内短时特征提取单元

输出的特征向量，作为当前短时特征提取单元

的输入。经输入特征融合与短时特征提取，可得到特征向量

并传递给下一层级r+1的短时特征提取单元进行处理。可有效扩大短时特征提取单元的时序感知范围，融合相邻视频帧特征，在单帧特征提取的基础上进行帧间相似度量，提取感知范围内关键信息，减少相似冗余信息干扰。

具体地，构建多层级时序感知网络，可以是使用短时特征提取单元构建多层级时序感知网络。将提取的压缩编码特征序列送入训练好的多层级网络，可得到包括浅层视觉特征和深层语义特征在内的多层级短时特征向量序列。而设置短时特征提取单元，具体可以是：

短时特征提取单元接收给定数目的输入特征向量(可以是给定数目的压缩编码特征序列)，计算之后输出感知特征向量。为每个短时特征提取单元S设置时序感知域τ，则其输入为时序范围{t+i|i∈[-τ,+τ]}内的特征向量；设置空洞连接操作可进一步扩大提取单元的感知范围，记空洞连接扩散因子为d，那么提取单元S可接收时序范围{t+i·d|i∈[-τ,+τ],d≥1}内的特征向量。对于给定时刻t的短时特征提取单元，执行流程如下式(1)所示：

T_t＝{t+i·d|i∈[-τ,+τ],d≥1} (1)

其中f(·)表示给定感知范围下短时单元的特征提取操作，σ(·)表示特征向量维度融合操作，这里基于感知范围的σ(·)特指使用空洞连接的特征向量维度融合。

为当前短时单元感知范围内特征向量集合，这里：特指该集合将用于维度融合操作，T_t表示空洞连接操作所选取特征的时序集，r表示当前特征提取层级。x表示给定短时单元的输入特征，s表示给定短时单元的输出特征；j表示当前感知范围内的时刻序号；t表示给定时刻；i表示对于给定时刻t，给定输入特征在感知范围内的时序偏移量，d为偏移扩散因子。

上述空洞连接操作指的是通过连接多个不相邻时序特征向量，以获取更广的时序感知范围，提取融合短时特征信息。假定特征向量的维度为n×1，将当前层级给定局部感知范围T_t内的特征向量依次堆叠拼接，得到维度为(2τ+1)×n×1的特征图。使用1×1卷积操作对其进行维度变换，得到维度同样为n×1的融合短时特征向量。该融合短时特征向量可有效表征给定时序感知范围内的关键信息，扩大特征向量的语义表达范围。

具体地，使用短时特征提取单元构建多层级时序感知网络，可以是：

使用短时特征提取单元按序对编码特征序列进行进一步特征提取。使用多层级短时单元堆叠的方式构建多层级特征提取网络，不同层级在各自尺度上获取特征信息，浅层单元提取图像视觉特征，深层单元提取影像语义特征。对于给定层级r，不同时刻t下的短时特征提取基本单元

共同组成了当前短时特征提取层，各个基本单元的输出特征向量集合即为层级r下的短时特征序列S^r。假定特征提取网络总级数记为L，那么深层短时单元的时序感知范围可扩大到

其中τ^(r)表示层级r下的局部感知范围。通过多层级网络进行特征提取，得到包括浅层特征信息、中间隐层特征信息和深层语义特征信息的多层级短时特征序列集S。

上述多层级短时特征提取网络，可使用常见的时序建模网络如长短期记忆网络、时间卷积网络等形式进行构建。一般而言，在时序建模任务中为了扩大结构单元的感知范围，普遍采用的策略是使用较多的结构单元连接数或者较深的层级网络，其计算单元的参数规模将指数级增加，且难以稳定收敛。本申请提出的多层级特征提取网络，通过设置空洞连接结构可有效获取更广泛的邻近帧感知域，使用单个结构单元循环计算的长短期记忆网络、使用多个结构单元并行计算的时间卷积网络等时间序列建模方法均能适用。

接下来给出不同时序建模网络形式下，空洞连接操作的具体实施方式。一般而言，短时特征提取单元的输入为源视频编码特征向量或上一层级对应时刻短时单元的输出特征向量，每个短时单元的输入特征向量维度与输出向量保持一致，以保证短时单元的多层级复用。分别以长短期记忆网络和时间卷积网络为例进行阐释。

长短期记忆网络的基本计算单元由遗忘门、输入门和输出门三部分构成，通过控制门结构对计算单元状态进行更新。对于时序状态t，其计算单元的输入信息

由当前时序输入特征向量x_t和上一时序状态h_t-1的隐层状态组成，如下式(2)所示。其中，向量映射矩阵W即为网络参数，b表示正则化偏移量，[·；·]表示按列拼接向量；上文所述给定感知范围短时单元的特征提取操作f(·)，在这里表示LSTM结构单元执行的向量计算操作：

堆叠计算单元数目可以提取高维特征向量，但各层级计算单元之间相对孤立，短时记忆并未扩展，没有充分利用时序上下文信息。提取高位特征的同时，丢失了浅层视觉特征信息，且消耗更多的计算资源，对时序建模网络性能的提升十分有限。本申请涉及的空洞连接操作，将上一时序状态的隐层特征与上一层级时序感知范围内的输出特征共同作为输入信息，对结构单元的状态信息进行更新。对于时序状态t，第r层结构单元在时序状态t的输入信息

如下式(3)所示：

其中，输入特征向量x_t由上一层级经空洞连接操作得到。

表示第r层结构单元在时序状态t的输出隐层状态。特别地，当时序感知域τ为0时，时序感知范围不存在，空洞连接操作即退化为一般的长短时记忆网络输入操作。

对于时间卷积网络而言，可将任意长度的序列映射到相同长度的输出序列，通过多层基本结构单元堆叠使深层结构单元获得更广的感知域。采用空洞卷积结构单元构建时序建模网络，使用较小的卷积核、有限的网络层数、递增的扩散因子，可有效获取更广的邻近帧感知域。其特征提取单元的输入同样可表示为

其中时序感知范围T_t＝{t+i·d|i∈[-τ,+τ],d≥1}。

特别地，当采用因果卷积时，仅从前序状态获取序列信息，时序感知域收缩至i≤0。

步骤2042，基于多层级短时特征向量序列和多分支关联分析网络，确定多尺度时序融合特征序列。

本实施例中，构建多分支关联分析网络，可以是：

以时间卷积网络为代表时序建模网络。示例的，对于短时特征特征向量s_t，构造其查询向量q_t＝s_tW^Q，键向量k_t＝s_tW^K,值向量v_t＝s_tW^V。使用其查询向量q_t与视频序列各视频帧的值向量k_t求点积，经softmax函数进行归一化，得到视频帧s_t与视频帧s_i的关联系数α_t,i。将α_t,i作为时刻t下视频帧在时间序列每个时刻i的注意力关联系数，对每一帧的值向量v_i进行加权求和，得到视频特征向量s_t的权重编码

计算公式如下式(4)、(5)所示：

其中，α_t,i表示给定时刻t的视频帧与序列中任意时刻i视频帧的关联系数；s表示给定时刻的短时特征向量；W^Q、W^K、W^V分别表示计算时所构造的查询向量、键向量、值向量对应的向量映射系数矩阵。(·)^T表示转置操作。

单一关联分析分支可描述为从输入特征向量集S经关联系数计算到输出权重编码的映射H，即对向量集内每一特征向量均执行上述操作，如下式(6)所示：

其中，H(·)表示单一分支执行的关联分析映射编码操作；softmax(·)即广泛使用的归一化函数；k表示约束系数。

对于短时记忆而言，成对视频帧之间的相关性随时序状态间隔扩大而逐步衰减。使用注意力机制对时间序列进行分析，成对视频帧之间的相关性仅由特征空间的向量距离决定，不受因果时序制约，将短时记忆的时间序列范围感知扩大到长时记忆的全局上下文分析。

在上述基础上，使用多个关联分析单元并行的结构，对特征向量的在不同子空间的权重编码特征进行拼接，提供多视角语义信息。对于给定分支r，关联分析分支H^r的输入特征序列S^r，即步骤2层级r输出的短时特征序列{s_t|t∈[1,N]}，N表示序列长度。经多分支关联分析进行权重编码，得到分支特征序列集

L表示分支数目。使用特征向量维度融合操作σ(·)对分支特征序列集进行处理，计算得到多尺度融合特征序列。在这里基于分支权重的维度融合不涉及上述描述的空洞连接，仅对并行关联分析单元输出结果进行维度拼接及转换，映射得到模块输出，如下式(7)所示：

其中，

表示经多层级时序感知和多分支关联分析得到的多尺度时序特征序列；S^r表示给定分支对应的时序感知层级r输出的短时特征序列，记分支数目最大值为L；σ()表示特征向量维度融合操作；H()表示单分支执行的关联分析映射编码操作。具体地，步骤2042还可以通过步骤20421～步骤20422来实现：

步骤20421，利用多分支关联分析网络对多层级短时特征向量序列进行关联系数计算、权重向量编码以及特征归一化处理，得到多分支对应的长时特征向量序列。

步骤20422，将多分支对应的各长时特征向量序列进行维度融合，经全连接得到和目标源视频序列尺度一致的多尺度时序融合特征序列。

本实施例是分析视频片段在整个时间序列上的关联权重，以用于选取核心片段。对于上述在不同尺度、不同感知范围内提取的多层级短时特征向量序列中的每一层级短时特征向量序列送入多分支关联分析网络。执行主体中的预训练的视频摘要生成模型将上述步骤2041中层级r提取的短时特征向量序列S^r，送入多分支关联分析网络的分支G^r进行关联分析，逐一计短时特征(短时特征是由短时单元提取得到的)在当前层级特征向量序列中的关联系数。预训练的视频摘要生成模型可以结合短时特征向量序列S^r和对应的关联系数，计算分支H^r、时刻t对应的权重向量

构建权重编码向量序列

并经过特征归一化处理得到多分支对应的长时特征向量序列。执行主体中的预训练的视频摘要生成模型将多分支关联分析网络分析的结果即多分支对应的各长时特征向量序列进行维度拼接，再经全连接尺度转换得到和目标源视频序列尺度一致的多尺度时序融合特征序列

本实施例通过构建多分支关联分析网络得到与目标源视频序列尺度一致的多尺度时序融合特征序列，可以使得据此得到的动态视频摘要更精确。

本申请的基于多尺度时序特征的视频摘要生成方法，还包括进行无监督模型训练的步骤：

获取初始生成对抗网络以及训练样本集，训练样本集包括多尺度时序融合特征序列、标注的该多尺度时序融合特征序列中的各视频帧的重要性得分以及标注的该多尺度时序融合特征序列中的各片段对应的动态视频摘要；将训练样本集中的多尺度时序融合特征序列作为初始生成对抗网络的输入，将标注的该多尺度时序融合特征序列中的各视频帧的重要性得分以及标注的该多尺度时序融合特征序列中的各片段对应的动态视频摘要作为期望输出，对初始生成对抗网络进行迭代训练，最终得到预训练的视频摘要生成模型。

其中，对初始视频摘要生成模型进行迭代训练，包括：多次执行以下迭代步骤：对训练样本集中的多尺度时序融合特征序列进行关键帧采样，得到关键帧集；基于关键帧集，进行视频序列重建，得到重建特征序列；计算重建特征序列和压缩编码特征序列的相似度；根据相似度和预设的关键帧集的相似度阈值，更新对训练样本集中的多尺度时序融合特征序列进行关键帧采样得到的关键帧集；响应于确定相似度大于预设相似度阈值且关键帧集的长度小于预设的关键帧集的长度阈值，结束对初始生成对抗网络的训练，得到预训练的视频摘要生成模型。

本实施例中，使用无监督学习的方法训练网络模型，使抽取的关键帧集尽可能小且充分表征源视频序列特征信息。

具体地，使用无监督学习的方法训练编码序列生成对抗网络，构建视频摘要生成模型。生成对抗网络由视频序列生成模块和视频序列鉴别模块两部分组成。对于上述得到的多尺度时序融合特征序列

执行主体可以使用多层级时序感知网络逐向量计算其对应的关键帧抽取概率p_t。经伯努利采样抽取视频关键帧集，使用其对应的融合编码向量构建关键帧编码向量集Z。设置视频序列生成模块G，从关键帧编码向量集Z重建源视频编码序列

设置视频序列鉴别模块D，计算重建源视频编码序列

和目标源视频序列对应的压缩编码特征序列X的相似度，根据得到的相似度和预设的关键帧集的相似度阈值，迭代训练以优化视频摘要生成模型。当重建源视频编码序列

和目标源视频序列对应的压缩编码特征序列X趋近时，可认为编码序列生成对抗网络还原重建了目标源视频序列的主要内容，亦即训练后的视频摘要生成模型准确抽取了目标源视频序列中的核心片段，充分表达了目标源视频序列中的关键信息，至此视频摘要生成模型训练完成，可用于进行准确的动态视频摘要的生成。

综上所述，本申请实施例提出了一种基于多尺度时序特征的视频摘要生成方法。该方法首先对输入的目标源视频序列进行了编码压缩；使用多层级时序感知网络，扩大短时特征提取单元的时序感知范围，提取输入的视频影像的关键信息；使用多分支关联分析网络，计算特征向量在整个编码序列中的权重，抽取核心内容；使用无监督学习的方法训练网络，从抽取的关键帧集重建目标源视频序列，评估生成摘要质量；在镜头切分的基础上构建视频摘要生成模型，输出具有代表性和多样性的动态视频摘要。

本申请实施例的基于多尺度时序特征的视频摘要生成方法，可以构建多层级时序感知网络，扩大感知范围以提取短时特征中的关键信息，降低冗余信息干扰；可以构建多分支关联分析网络，通过权重计算抽取目标源视频序列的核心内容，提高生成动态视频摘要的代表性和多样性；可以使用无监督学习方法训练视频摘要生成模型，不需要人工标注进行干预，有效减少模型训练所需的人力物力，同时提供了客观有效的摘要质量评估方法，具有良好的应用推广前景。

继续参见图3，作为对上述各图所示方法的实现，本申请提供了一种基于多尺度时序特征的视频摘要生成装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例的基于多尺度时序特征的视频摘要生成装置300包括：获取单元301、重要性得分确定单元302、切分单元303、核心片段选取单元304和视频摘要生成单元305。

获取单元301，被配置成利用预训练的视频摘要生成模型，获取多尺度时序融合特征序列。

重要性得分确定单元302，被配置成利用预训练的视频摘要生成模型，确定多尺度时序融合特征序列中的各视频帧的重要性得分。

切分单元303，被配置成基于镜头切分算法，将多尺度时序融合特征序列切分为以基本镜头为单位的基本片段集，其中，基本片段集中的每一个基本片段包括至少一个视频帧。

核心片段选取单元304，被配置成利用预训练的视频摘要生成模型，基于各重要性得分和基本片段集，动态选取基本片段集中的核心片段。

视频摘要生成单元305，被配置成利用预训练的视频摘要生成模型，基于核心片段，生成动态视频摘要，并输出。

在本实施例的一些可选的实现方式中，基于多尺度时序特征的视频摘要生成装置中的获取单元301进一步被配置成：获取目标源视频序列；以及该装置还包括：目标源视频帧特征向量序列确定单元，被配置成根据目标源视频序列和预训练的多目标分类模型，确定目标源视频帧特征向量序列；压缩编码特征序列确定单元，被配置成对目标源视频帧特征向量序列进行抽样和归一化压缩编码，得到尺寸统一的压缩编码特征序列；多尺度时序融合特征序列确定单元，被配置成对压缩编码特征序列进行多尺度时序融合，得到多尺度时序融合特征序列。

在本实施例的一些可选的实现方式中，多尺度时序融合特征序列确定单元进一步被配置成：对压缩编码特征进行多层级时序感知，提取压缩编码特征对应的多层级短时特征向量序列；基于多层级短时特征向量序列和多分支关联分析网络，确定多尺度时序融合特征序列。

在本实施例的一些可选的实现方式中，多尺度时序融合特征序列确定单元进一步被配置成：利用多分支关联分析网络对多层级短时特征向量序列进行关联系数计算、权重向量编码以及特征归一化处理，得到多分支对应的长时特征向量序列；将多分支对应的各长时特征向量序列进行维度融合，经全连接得到和目标源视频序列尺度一致的多尺度时序融合特征序列。

在本实施例的一些可选的实现方式中，获取单元301进一步被配置成：获取初始生成对抗网络以及训练样本集，训练样本集包括多尺度时序融合特征序列、标注的该多尺度时序融合特征序列中的各视频帧的重要性得分以及标注的该多尺度时序融合特征序列中的各片段对应的动态视频摘要；以及装置还包括：训练单元，被配置成将训练样本集中的多尺度时序融合特征序列作为初始生成对抗网络的输入，将标注的该多尺度时序融合特征序列中的各视频帧的重要性得分以及标注的该多尺度时序融合特征序列中的各片段对应的动态视频摘要作为期望输出，对初始生成对抗网络进行迭代训练，最终得到预训练的视频摘要生成模型。

在本实施例的一些可选的实现方式中，训练单元进一步被配置成：多次执行以下迭代步骤：对训练样本集中的多尺度时序融合特征序列进行关键帧采样，得到关键帧集；基于关键帧集，进行视频序列重建，得到重建特征序列；计算重建特征序列和压缩编码特征序列的相似度；根据相似度和预设的关键帧集的长度阈值，更新对训练样本集中的多尺度时序融合特征序列进行关键帧采样得到的关键帧集；响应于确定相似度大于预设相似度阈值且关键帧集的长度小于预设的关键帧集的长度阈值，结束对初始生成对抗网络的训练，得到预训练的视频摘要生成模型。

本说明书实施例中支付涉及的技术载体，例如可以包括近场通信(Near FieldCommunication，NFC)、WIFI、3G/4G/5G、POS机刷卡技术、二维码扫码技术、条形码扫码技术、蓝牙、红外、短消息(Short Message Service，SMS)、多媒体消息(Multimedia MessageService，MMS)等。

本说明书实施例中生物识别所涉及的生物特征，例如可以包括眼部特征、声纹、指纹、掌纹、心跳、脉搏、染色体、DNA、人牙咬痕等。其中眼纹可以包括虹膜、巩膜等生物特征。

需要说明的是，本说明书一个或多个实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成如上的基于多尺度时序特征的视频摘要生成方法。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

图4示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作***和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上的本说明书一个或多个实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本说明书一个或多个实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本说明书一个或多个实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本公开的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于多尺度时序特征的视频摘要生成方法，其特征在于，包括：

利用预训练的视频摘要生成模型，确定所述多尺度时序融合特征序列中的各视频帧的重要性得分；

基于镜头切分算法，将所述多尺度时序融合特征序列切分为以基本镜头为单位的基本片段集，其中，所述基本片段集中的每一个基本片段包括至少一个视频帧；

利用预训练的视频摘要生成模型，基于各所述重要性得分和所述基本片段集，动态选取所述基本片段集中的核心片段；

利用预训练的视频摘要生成模型，基于所述核心片段，生成动态视频摘要，并输出。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取目标源视频序列；

根据所述目标源视频序列和预训练的多目标分类模型，确定目标源视频帧特征向量序列；

对所述目标源视频帧特征向量序列进行抽样和归一化压缩编码，得到尺寸统一的压缩编码特征序列；

对所述压缩编码特征序列进行多尺度时序融合，得到多尺度时序融合特征序列。

3.根据权利要求2所述的方法，其特征在于，所述对所述压缩编码特征序列进行多尺度时序融合，得到多尺度时序融合特征序列，包括：

对所述压缩编码特征序列进行多层级时序感知，提取所述压缩编码特征序列对应的多层级短时特征向量序列；

基于所述多层级短时特征向量序列和多分支关联分析网络，确定多尺度时序融合特征序列。

4.根据权利要求3所述的方法，其特征在于，所述基于所述多层级短时特征向量序列和多分支关联分析网络，确定多尺度时序融合特征序列，包括：

利用多分支关联分析网络对所述多层级短时特征向量序列进行关联系数计算、权重向量编码以及特征归一化处理，得到多分支对应的长时特征向量序列；

5.一种基于多尺度时序特征的视频摘要生成装置，其特征在于，包括：

重要性得分确定单元，被配置成利用预训练的视频摘要生成模型，确定所述多尺度时序融合特征序列中的各视频帧的重要性得分；

切分单元，被配置成基于镜头切分算法，将所述多尺度时序融合特征序列切分为以基本镜头为单位的基本片段集，其中，所述基本片段集中的每一个基本片段包括至少一个视频帧；

核心片段选取单元，被配置成利用预训练的视频摘要生成模型，基于各所述重要性得分和所述基本片段集，动态选取所述基本片段集中的核心片段；

视频摘要生成单元，被配置成利用预训练的视频摘要生成模型，基于所述核心片段，生成动态视频摘要，并输出。

6.根据权利要求5所述的装置，其特征在于，

所述获取单元进一步被配置成：获取目标源视频序列；以及

所述装置还包括：

目标源视频帧特征向量序列确定单元，被配置成根据所述目标源视频序列和预训练的多目标分类模型，确定目标源视频帧特征向量序列；

压缩编码特征序列确定单元，被配置成对所述目标源视频帧特征向量序列进行抽样和归一化压缩编码，得到尺寸统一的压缩编码特征序列；

多尺度时序融合特征序列确定单元，被配置成对所述压缩编码特征序列进行多尺度时序融合，得到多尺度时序融合特征序列。

7.根据权利要求6所述的装置，其特征在于，多尺度时序融合特征序列确定单元进一步被配置成：

8.根据权利要求7所述的装置，其特征在于，多尺度时序融合特征序列确定单元进一步被配置成：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任意一项所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行权利要求1至4任意一项所述方法。