CN107729809B

CN107729809B - 一种自适应生成视频摘要的方法、装置及其可读存储介质

Info

Publication number: CN107729809B
Application number: CN201710811839.7A
Authority: CN
Inventors: 闫敬文; 赵善民; 陈宏达; 王宏志
Original assignee: Shantou University
Current assignee: Shantou University
Priority date: 2017-09-11
Filing date: 2017-09-11
Publication date: 2021-06-08
Anticipated expiration: 2037-09-11
Also published as: CN107729809A

Abstract

本发明提供了一种自适应生成视频摘要的方法，该方法包括：利用训练好的卷积神经网络模型检测视频的目标复杂度，生成视频的特征向量，将特征向量输入到决策函数判决出视频摘要的方式，针对特定视频分别采用基于对象或基于关键帧的方式进行视频摘要。本发明还公开了一种自适应生成视频摘要的装置及其可读存储介质。此发明提出的自适应生成视频摘要的方法，针对不同利用率、不同时间段的监控视频采用相适应的摘要方式，解决了安防工作人员人工选取视频摘要方式的难题，提高了存储空间的利用效率。

Description

一种自适应生成视频摘要的方法、装置及其可读存储介质

技术领域

本发明涉及一种视频处理领域，尤其涉及一种自适应生成视频摘要的方法、装置及其可读存储介质。

背景技术

随着安防技术的蓬勃发展，数以百万计的监控摄像头不间断全天候运行，视频存储的数量呈现几何级别的***式增长，为安防从业人员造成很大的困难。一方面,安防工作人员面临如此巨大的数据库时，检索非常耗时，导致很多视频从未被检索或观看过；另一方面，大部分摄像头并非在全天候高利用率的情况下被使用，从而浪费了很多存储空间。为解决以上两个问题，针对不同时间段利用率不同的监控摄像头选择相适应的视频浓缩方式显得格外重要。视频浓缩技术在实现高压缩率的情况下，提供了原监控视频的一个简短视频表示，同时又保留原始视频的基本活动。当前的视频浓缩技术主要分为基于关键帧的视频摘要和基于对象的视频摘要两种方式，目前的技术都是人工选取浓缩的方式，无法针对特定视频，自适应选取视频浓缩的方式。

发明内容

本发明实施例所要解决的技术问题在于，提供一种自适应生成视频摘要的方法、装置及其可读存储介质。可根据视频的相应特征，自适应选取视频浓缩的方式。

为了解决上述技术问题，本发明实施例提供了一种自适应生成视频摘要的方法，包括利用训练好的卷积神经网络模型检测视频的目标复杂度，生成视频的特征向量，将所述特征向量输入到决策函数判决出生成视频摘要的方式，所述生成视频摘要的方式包括基于对象或基于关键帧的方式进行生成视频摘要。

进一步地，所述利用训练好的卷积神经网络模型检测视频的目标复杂度包括：

采用基于YOLO模型改进后的目标检测器检测原始视频中固定时间段内出现的目标数目，得到对应时间段的所述目标复杂度。

更进一步地，所述生成视频的特征向量包括根据原始视频的长度、摘要后期望的视频长度及视频的目标复杂度，生成对应的所述特征向量。

更进一步地，所述将所述特征向量输入到决策函数判决出生成视频摘要的方式包括：

将所述特征向量结合对应的权重向量，输入到所述决策函数中，判决出视频摘要的方式，通过所述决策函数将实数域内的输入值映射到[0,1]区间内，当输出在[0,0.5)区间时采用基于关键帧的视频摘要方式，当输出在[0.5,1]区间上时采用基于对象的视频摘要方式。

更进一步地，所述基于对象的视频摘要方式包括：

使用ViBe背景建模算法对视频进行处理，分离出背景与前景；针对前景目标采用Meanshift算法进行目标跟踪，保存各对象的运动轨迹；将所有前景目标的运动轨迹进行时间域和空间域重排，将所有前景目标的运动轨迹通过图像融合的方式融合到背景中，生成对应的摘要视频。

更进一步地，所述基于对象的视频摘要方式包括：

首先将原始视频按帧进行分离和保存，然后提取出视频特征，使用K-means方法进行场景聚类，提取出关键帧，然后将各关键帧组织起来形成摘要后的视频。

相应地，本发明实施例还提供了一种自适应生成视频摘要的装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述所述方法的步骤。

相应地，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述方法的步骤。

实施本发明实施例，具有如下有益效果：本发明可以针对不同利用率、不同时间段的监控视频采用相适应的摘要方式。利用率高、目标密集的视频采用基于对象的视频摘要方式，利用率低、目标稀疏的视频采用基于关键帧的视频摘要方式。这种自适应生成视频摘要的方法解决了安防从业人员人工选取视频摘要方式的难题，进一步提高了存储空间的利用效率。

附图说明

图1是本发明方法的流程示意图；

图2是本发明的基于对象的视频摘要过程示意图；

图3是本发明的基于关键帧的视频摘要过程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

图1为本发明实施例提供的自适应生成视频摘要的方法的过程示意图，该过程包括以下步骤：

S110利用训练好的卷积神经网络模型检测视频中的目标复杂度。首先将YOLO模型在分类数据集上进行预训练，然后将预训练后的模型在经过严格筛选后的人车数据集上进行微调训练，通过微调后得到的卷积神经网络模型就可以实时检测视频中人及各种车辆目标，最后用基于YOLO模型改进后得到的精准模型检测视频中的目标，统计目标数量，计算目标复杂度。

S120将步骤S110得到的目标复杂度，结合视频的原始长度与摘要后期望的视频长度生成对应的特征向量，将特征向量输入到决策函数中。

决策函数阐述如下：

y＝F(a₀+a₁x₁+a₂x₂+a₃x₃) (1)

公式1的向量法表示：

y＝F(AX^T)，其中A＝[a₀，a₁，a₂，a₃]，X＝[1，x₁，x₂，x₃]^T (2)

其中，y∈R代表决策函数的输出值；向量X代表视频的特征向量，其中x₁表示特定时间段内的目标复杂度，x₂表示原始视频的长度，x₃表示摘要后期望的视频长度；向量A表示对应权重和偏置项。

函数F(x)的表达式为：

S130根据决策函数的输出值判决出视频摘要的方式，当输出在[0,0.5)区间时采用基于关键帧的视频摘要方式，当输出在[0.5,1]区间上时采用基于对象的视频摘要方式。

针对特定视频分别采用基于关键帧或者基于对象的视频摘要方式生成摘要视频。

图2为本发明实施例提供的基于对象的视频摘要过程示意图，该过程包括以下步骤：

若步骤S120判决采用基于对象的摘要方式进行视频摘要，具体方法是：

S10对原始视频进行背景建模，检测目标，存储背景模型。具体的，采用ViBe算法进行目标检测，分离出前景与背景，并保存视频图像的背景模型。ViBe算法主要包含两个步骤，背景模型的初始化和背景模型更新。ViBe算法利用单帧视频序列初始化背景模型，对于一个像素点，结合相邻像素点的灰度值相近的空间分布特性，随机的选择它的邻域点的灰度值作为它的模型样本值。ViBe初始化背景模型的过程就是填充像素样本集的过程，具体来讲就是：对于一个像素点，随机的选择它的邻居点的像素值作为它的模型样本值。这种初始化方法优点是对于噪声的反应比较灵敏，计算量小速度快，可以很快的进行运动物体的检测，缺点是容易引入Ghost区域。当光照或者背景物体变更造成背景变化的情况下，我们采用前景点计数的策略来更新背景模型，前景点计数就是对像素点进行统计，若该像素点连续很多次被检测为前景，则需要将其与背景样本有概率地更新为背景像素值。

S20采用Meanshift算法实现目标的跟踪，并将目标聚类保存。具体的，首先计算步骤S10检测出的目标所在区域的统计直方图，然后比较直方图判断各个目标区域是否属于同一对象，从而实现不用目标的聚类保存，组合成各个对象的运动轨迹。

S30将所有前景目标的运动轨迹进行时间域和空间域上重排。具体的，对各个对象的运动轨迹进行抽样，抽选每个对象的部分运动轨迹出现在最后的摘要视频中，将抽样后的对象集按时间顺序排列，得到最后的对象管道。

S40将重排后的对象融合到当前视频的背景模型中。具体的，将对象管道中存储的前景目标的运动轨迹通过图像融合方式融合到步骤S10中提取的背景模型中，生成摘要视频。

S45输出采用基于对象的摘要方式的摘要后的视频。

图3为本发明实施例提供的基于关键帧的视频摘要过程示意图，该过程包括以下步骤：

若步骤S120判决采用基于关键帧的摘要方式进行视频摘要，具体方法是：

S50首先对原始监控视频进行预处理，将视频按帧进行分离并逐帧保存下来。

S60计算每一帧的颜色统计直方图特征，利用小波变换来计算每一个视频帧的纹理特征，然后将视频帧的多种特征进行融合分析，最后利用融合后的特征值来求解视频的帧间差值，度量帧间的相似性，由此构成视频帧的相似度矩阵。

S70根据步骤S60提取出来的整个监控视频相似度矩阵，以此划分不同聚类的场景。通过K-means算法计算每个聚类场景中所有视频帧到聚类中心的距离，选择距离取得最小值时处于各场景聚类中心的视频帧作为该聚类的关键帧。

S80将所有场景的关键帧进行组合，集合在一起组成视频帧序列。

S85输出采用基于关键帧的方式摘要后的视频结果。

本发明实施例还提供了一种自适应生成视频摘要的装置，可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述一种自适应生成视频摘要的装置可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述示意图仅仅是一种自适应生成视频摘要的装置的示例，并不构成对一种自适应生成视频摘要的装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述一种自适应生成视频摘要的装置还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述一种自适应生成视频摘要的装置的控制中心，利用各种接口和线路连接整个一种自适应生成视频摘要的装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述一种自适应生成视频摘要的装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述一种自适应生成视频摘要的装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种自适应生成视频摘要的方法，其特征在于，包括：利用训练好的卷积神经网络模型检测视频的目标复杂度，结合视频的原始长度与摘要后期望的视频长度生成对应的特征向量；

将所述特征向量输入到决策函数中，所述决策函数为：y＝F(a₀+a₁x₁+a₂x₂+a₃x₃)，其中，α₀为偏置项，α₁、α₂、α₃表示对应的权重，y∈R代表决策函数的输出值，x₁表示特定时间段内的目标复杂度，x₂表示原始视频的长度，x₃表示摘要后期望的视频长度，函数F(x)的表达式为：

判决出视频摘要的方式，通过所述决策函数将实数域内的输入值映射到[0，1]区间内，当输出在[0，0.5)区间时采用基于关键帧的视频摘要方式，当输出在[0.5，1]区间上时采用基于对象的视频摘要方式；

所述生成视频摘要的方式包括基于对象或基于关键帧的方式进行生成视频摘要，所述利用训练好的卷积神经网络模型检测视频的目标复杂度包括采用基于YOLO模型改进后的目标检测器检测原始视频中固定时间段内出现的目标数目，得到对应时间段的所述目标复杂度，所述生成对应的特征向量包括根据原始视频的长度、摘要后期望的视频长度及视频的目标复杂度，生成对应的所述特征向量。

2.根据权利要求1所述的自适应生成视频摘要的方法，其特征在于，所述基于对象的视频摘要方式包括：

3.根据权利要求1或2所述的自适应生成视频摘要的方法，其特征在于，所述基于关键帧的视频摘要方式包括：

首先将原始视频按帧进行分离和保存，然后提取出视频特征，使用K－means方法进行场景聚类，提取出关键帧，然后将各关键帧组织起来形成摘要后的视频。

4.一种自适应生成视频摘要的装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1或3所述方法的步骤。

5.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1或3所述方法的步骤。