CN103617234B

CN103617234B - 主动式视频浓缩装置及方法

Info

Publication number: CN103617234B
Application number: CN201310611321.0A
Authority: CN
Inventors: 胡传平; 唐世杰; 尚岩峰; 梅林�; 齐力; 刘云淮; 郑旭平; 王春; 黄国政; 李超; 谭懿先; 陈健; 徐磊; 王文斐; 梁辰; 徐小明; 高鑫; 潘淳
Original assignee: Third Research Institute of the Ministry of Public Security
Current assignee: Third Research Institute of the Ministry of Public Security
Priority date: 2013-11-26
Filing date: 2013-11-26
Publication date: 2017-10-24
Anticipated expiration: 2033-11-26
Also published as: CN103617234A

Abstract

本发明公开了一种主动式视频浓缩装置及方法，整个方案首先通过分析输入视频，生成视频结构化描述文件，并建立相关数据库;进行检索，将检索结果按照相关度排序；根据检索的结果生成摘要视频。其中视频浓缩过程是对目标轨迹的重排（时间平移）和紧密堆叠，将不同时间段出现的运动目标平移到同一时间段，并采用透明贴图的形式确保多个目标重叠的区域各自均可见。对摘要视频中的每个目标标注其原始的时间戳及前景矩形，并实现了视频索引功能，点击运动目标即可跳转至对应的原始视频片段。主动式视频浓缩方案，可以剔除冗余的目标轨迹，展现用户需求的信息，提高基于视频的侦查效率。

Description

主动式视频浓缩装置及方法

技术领域

本发明涉及一种视频处理技术，具体涉及一种视频浓缩（即生成视频摘要）的技术。

背景技术

在社会公共安全领域，视频监控***成为维护社会治安，加强社会管理的一个重要组成部分。然而视频录像存在存储数据量大，存储时间长等特点，通过录像寻找线索，获取证据传统的做法是要耗费大量人力、物力以及时间，效率极其低下，以至于错过最佳破案时机。

视频摘要是对视频内容的一个简单概括，以自动或半自动的方式，先通过运动目标分析，提取运动目标，然后对各个目标的运动轨迹进行分析，将不同的目标重组并拼接到共同的背景场景中，形成视频。因此在视频监控***中，人们可以通过视频摘要快速浏览，锁定检索对象，对于公安加快破案速度，提高大案、要案的破案效率具有重要指导意义。

视频媒体的无结构性是阻碍新一代视频应用的瓶颈问题，为了解决视频的无结构性问题，研究者提出了视频结构化描述的技术途径。视频结构化描述技术包含两层含义：对视频中目标特征的识别和提取形成描述信息文本，基于描述信息实现视频内容检索与数据挖掘。

传统的生成视频摘要的技术主要有两种：第一种方法是基于视频关键帧的视频摘要，此方法首先获取视频的关键帧，然后通过分级聚类的方法检测视频片段的相似度，将相似度超过阈值的片段去除，将保留下来的部分拼接成视频摘要；另一种方法是基于视频特征的视频摘要，此方法是根据提取的输入视频的特征，计算视频的精彩度，并将精彩度较高的精彩镜头通过简单地拼接，形成视频摘要。

但是这两种方法所形成的视频摘要都无法满足用户获取特定目标的信息的要求。并且这两种方法都是由视频片段拼接起来的，仍存在时长较长、运动不紧凑的问题。

发明内容

针对上述现有技术，本发明的目的在于提供一种主动式视频浓缩方案，用于解决现有的视频摘要方法无法满足用户对指定特定目标生成摘要视频的需求，以及传统技术所产生的摘要视频时长较长、运动不紧凑的问题。

为了达到上述目的，本发明采用如下的技术方案：

一种主动式视频浓缩装置，所述装置包括：

视频结构化描述模块，所述视频结构化描述模块用于对输入视频进行分析，生成视频结构化描述文件；

存储管理模块，所述存储管理模块用于储存及管理视频结构化描述文件，并根据视频结构化描述文件建立的数据库；

检索模块，所述检索模块对存储管理模块中的视频结构化描述文件进行检索，并将检索结果按照其相关度排序；

视频浓缩摘要模块，所述视频浓缩摘要模块用于生成符合检索条件的摘要视频，在不丢失运动目标并且不重叠或没有严重重叠前提下，将不同时间段出现的运动目标平移到同一时间段，浓缩为摘要视频。

在浓缩装置的优选实例中，所述视频结构化描述模块生成的视频结构化描述文件包括目标特征描述文件和目标轨迹描述文件，所述目标特征描述文件包含每个目标的描述信息；所述目标轨迹描述文件包含每个目标轨迹的基本信息。

进一步的，所述存储管理模块通过视频结构化描述文件中的目标特征描述文件建立相关的数据库，同时由数据库管理目标特征描述文件的所有信息。

进一步的，所述视频浓缩摘要模块在生成摘要视频时，根据目标轨迹描述文件提供轨迹对应的前景矩形序列的空间位置和时间信息，确保运动目标平移后不重叠或没有严重重叠。

进一步的，所述视频浓缩摘要模块在生成摘要视频时，对运动目标的平移是指对运动目标的时间的平移。

进一步的，所述视频浓缩摘要模块在生成摘要视频时，对于多个目标轨迹相互重叠的区域以透明贴图的形式确保每个目标都可见；同时对摘要视频中的每个目标标注其原始的时间戳和前景矩形，并实现了视频索引功能，点击运动目标即可跳转至对应的原始视频片段。

一种主动式视频浓缩的方法，该方法包括如下步骤：

（1）对输入视频进行分析，生成视频结构化描述文件，并根据生成的结构化描述文件建立相关数据库；

（2）对建立的数据库进行检索，并将检索结果按照相关度排序；

（3）根据步骤（2）检索结果，对目标轨迹筛选及重排，在确保运动目标平移后不重叠或没有严重重叠的前提下，将不同时间段出现的运动目标平移到同一时间段，浓缩为摘要视频。

在该方法的优选方案中，所述步骤（1）中生成的视频结构化描述文件具体包括：目标特征描述文件和目标轨迹描述文件，所述目标特征描述文件包含每个目标的描述信息，所述目标轨迹描述文件包含每个目标的基本信息。

进一步的，所述步骤（1）中利用视频结构化描述文件中的目标特征描述文件来建立相关的数据库，并由相关数据库管理目标特征描述文件的所有信息。

进一步的，所述步骤（3）中浓缩摘要视频时，由视频结构化描述文件中的目标轨迹描述文件来提供轨迹对应的前景矩形序列的空间位置和时间信息，确保运动目标平移后不重叠或没有严重重叠。

进一步的，所述步骤（3）中对于多个目标轨迹相互重叠的区域以透明贴图的形式确保每个目标都可见。

进一步的，所述步骤（3）中在浓缩摘要视频时，对摘要视频中的每个目标标注其原始的时间戳及前景矩形，由此实现视频索引功能。

进一步的，所述步骤（3）中对运动目标的平移是对运动目标的时间的平移，并不包括空间位置的平移。

进一步的所述步骤（3）中对运动目标平移采用如下方法：

（31）依据目标轨迹描述文件记录的每个目标轨迹的每个前景图片在原始视频画面中的精确位置，得到目标轨迹对应的前景矩形序列；

（32）新建用于存储轨迹的前景矩形序列的队列容器，即浓缩队列；

（33）对于每个目标轨迹对应的前景矩形序列，查找合适并平移放置到最优放置区间：

（34）将当前目标轨迹平移放置到到该最优放置区间。

再进一步的，所述步骤（33）通过如下步骤实现：

a)计算当前目标轨迹的前景矩形序列与浓缩队列中已有其他轨迹的前景矩形序列之间的重叠面积之和；

b)设定重叠面积的最大阈值，低于该阈值表示该区间能够容纳当前的目标轨迹，否则不能；

c)从浓缩队列的开始到结尾以固定的步长遍历，记录可以容纳当前目标轨迹的所有区间；

d)计算时间代价：在c）步骤中，每个可能的区间分别计算当前目标轨迹与此区间已有的若干个轨迹之间的时间差值的平均值；

e)查找以上若干个时间代价的最小整数值,记录其对应的区间，作为最优放置区间。

进一步的，所述步骤（3）中的摘要视频是通过选用检索结果中列出的目标轨迹，将多个运动目标对应的前景图片拼接到同一背景而形成。

再进一步的，将多个运动目标对应的前景图片拼接到同一背景的具体过程如下：

通过混合高斯模型方法计算静态背景图片；

依据目标轨迹描述文件记录的每个目标轨迹的每个前景图片在原始视频画面中的精确位置和精确的时间，提取到目标轨迹对应的前景图片序列；

从头至尾遍历浓缩队列中的所有目标轨迹对应的前景矩形，实现透明贴图：

a)对于不与其他目标相互重叠的运动目标区域，直接拷贝运动目标的原始像素到背景图片对应的位置；

b)对于多个运动目标相互重叠的区域，每个像素值是多个运动目标对应像素值的平均。

本发明提供的主动式视频浓缩方法，可以剔除冗余的目标轨迹，展现用户需求的信息，提高基于视频的侦查效率。

同时，本方案能够满足用户对指定特定目标生成摘要视频的需求，且生成摘要视频所花时间大大缩短，并且所产生的摘要视频时长短、运动紧凑。

附图说明

以下结合附图和具体实施方式来进一步说明本发明。

图1为本发明中基于视频结构化描述的主动式视频浓缩装置示意图；

图2为主动式视频浓缩装置中存储管理模块中存储内容的示意图；

图3为本发明中基于视频结构化描述的主动式视频浓缩方法的流程图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体图示，进一步阐述本发明。

参见图2，其所示为基于视频结构化描述的主动式视频浓缩装置的结构示意图。该主动式视频浓缩装置能够根据用户的实际需求，输入检索的条件，并根据其检索的结果生成浓缩的摘要视频的功能。

由图可知，该视频浓缩装置100主要包括视频结构化描述模块101、存储管理模块102、检索模块103以及视频浓缩摘要模块104。

其中，视频结构化描述模块101用于对输入视频进行分析，并生成视频结构化描述文件。该视频结构化描述文件具体包括：目标特征描述文件和目标轨迹描述文件。其中目标特征描述文件包含每个目标的描述信息，用于建立相关的数据库；目标轨迹描述文件包含每个目标的基本信息，用于视频浓缩摘要模块104中提供前景矩形序列的空间位置和时间信息，以确保运动目标平移后不重叠或没有严重重叠。

存储管理模块102与视频结构化描述模块101数据相接，用于储存及管理视频结构化描述模块101生成的视频结构化描述文件，并根据该文件建立相应的数据库。

参见图2，其所示为存储管理模块102的存储内容的示意图。该模块存储管理目标特征描述文件102a、目标轨迹描述文件102b以及数据库102c；数据库102c由存储管理模块102根据目标特征描述文件102a来建立，并由该数据库102c来管理目标特征描述文件102a的所有信息。

检索模块103与存储管理模块102数据相接，其提供一个图形用户界面，使用户能根据其实际情况的需求，对存储管理模块102中的视频结构化描述信息进行检索，并将检索结果按照其相关度排序。其中视频结构化描述信息包括：视频结构化描述文件中的目标特征描述文件和目标轨迹描述文件中记录的信息。

视频浓缩摘要模块104分别与检索模块103和存储管理模块102数据相接，用于生成符合检索条件的摘要视频。具体的，该视频浓缩摘要模块104根据检索模块103检索返回的检索结果，对目标轨迹筛选及重排，根据目标轨迹描述文件提供的前景矩形序列的空间位置和时间信息，确保运动目标平移后不丢失运动目标并且不重叠或没有严重重叠的前提下，将不同时间段出现的运动目标平移到同一时间段，由此浓缩为摘要视频。

该模块在浓缩摘要视频时，对于多个目标轨迹相互重叠的区域以透明贴图的形式确保每个目标都可见；同时对摘要视频中的每个目标标注其原始的时间戳及前景矩形，由此来实现视频索引功能，点击运动目标即可跳转至对应的原始视频片段。

参见图3，其所示为主动式视频浓缩装置进行浓缩形成摘要视频的流程图。由图可知，整个流程分为三个大步骤：

步骤1，对输入视频进行分析，通过对输入视频的结构化描述生成视频结构化描述文件，能够对视频进行结构化描述是本方法的前提，现有的视频结构化描述技术通常是在工控机或服务器上实现的，当然也有基于DSP、ARM等嵌入式平台实现视频结构化描述。

结构化描述生成的视频结构化描述文件主要包括两个部分：目标特征描述文件和目标轨迹描述文件。

其中，目标特征描述文件用于建立相关的数据库，其包含每个运动目标的描述信息。该描述信息可以包括但不限于：目标出现时间、地点、车牌号、车型、车辆的颜色、车辆行驶方向、是否违规、人的服饰特征、发型、视频源URL等信息。

目标轨迹描述文件用于将摘要视频浓缩，其包含每个运动目标轨迹对应的前景矩形序列信息。该前景矩形序列信息可以包括但不限于：记录视频在磁盘中的路径或视频的URL、每个运动目标前景矩形的个数、在原始视频中的帧序号、原始时间戳、前景矩形形成的序列（矩形位置及大小信息形成的序列）等信息。

在得到视频结构化描述文件后，利用其中的目标特征描述文件建立相关数据库，并由该数据库管理目标特征描述文件的所有信息，包括：目标出现时间、地点、车牌号、车型、车辆的颜色、车辆行驶方向、是否违规、人的服饰特征、发型、视频源URL等信息。

步骤2，在数据库建立之后，根据相应的检索条件（具体可以由用户通过图形用户界面输入相应的检索条件，该检索条件具体可以是目标特征描述文件102a中记录的信息的组合），生成SQL查询语句，随后访问并检索数据库。在此之后解析检索结果，按照其与检索条件的相关性进行排序，将相关性高的结果排在前面，具体检索返回的结果可为按照相关性排序的目标轨迹的序号。

步骤3，视频浓缩摘要模块依据检索结果中给出的目标轨迹序号，从目标轨迹描述文件中筛选出对应的目标轨迹；并将筛选出来的目标轨迹浓缩形成摘要视频。

具体而言，该摘要视频是通过选用检索结果中列出的目标轨迹，将多个运动目标对应的前景图片拼接到同一背景而形成。

该摘要视频不是由运动片段简单拼接形成，而是高度浓缩的视频：将不同时间段出现的运动目标平移到同一时间段，浓缩为摘要视频，实现多个目标同时播放的目的；这里对运动目标的平移是对运动目标的时间的平移，并不包括空间位置的平移。

将不同时间段出现的运动目标轨迹平移到同一时间段的过程具体如下：

1.依据目标轨迹描述文件记录的每个目标轨迹的每个前景图片在原始视频画面中的精确位置，得到目标轨迹对应的前景矩形序列（运动目标所在的矩形区域，在连续若干个视频画面中出现，形成运动目标轨迹对应的前景矩形序列）；

2.新建用于存储轨迹的前景矩形序列的队列容器，简称为浓缩队列；

3.对于每个目标轨迹对应的前景矩形序列，查找合适并平移放置到最优放置区间：

b)设定重叠面积的最大阈值，低于该阈值表示该区间能够容纳当前的目标轨迹，否则不能（可以理解为“惩罚”）；

d)计算时间代价：在c）步骤中，每个可能的区间分别计算当前目标轨迹与此区间已有的若干个轨迹之间的时间差值（当前轨迹在原始视频中的开始时间与邻近的轨迹在原始视频中的开始时间的差量）的平均值；

e)查找以上若干个时间代价的最小整数值,记录其对应的区间，作为最优放置区间（可以理解为“奖励”）；

4.将当前目标轨迹平移放置到到该最优放置区间。

依据以上方法将所有的目标轨迹放置到浓缩队列，可以确保轨迹之间重叠不严重，并且基本保持与其他轨迹之间原有的时间先后关系。

同时，将多个运动目标对应的前景图片拼接到同一背景的过程如下：

1.通过混合高斯模型方法计算静态背景图片；

2.依据目标轨迹描述文件记录的每个目标轨迹的每个前景图片在原始视频画面中的精确位置和精确的时间，提取到目标轨迹对应的前景图片序列（运动目标所在的矩形子图，在连续若干个视频画面中出现，形成运动目标轨迹对应的前景图片序列）；

3.从头至尾遍历浓缩队列中的所有目标轨迹对应的前景矩形，实现透明贴图：

以上透明贴图方式可以确保：多个目标轨迹相互重叠的区域，每个运动目标都可见。

由上可知，在生成浓缩摘要视频的过程中，按照检索结果记录的目标轨迹序号筛选出现在浓缩视频中的运动目标。为了保证较高的活动密度和浓缩率，将时间顺序混乱程度更低、轨迹之间碰撞重叠更少这样的原则转化为“奖励”和“惩罚”，采用贪婪算法，求解最优的排序组合。随后按照最优排列方式将原本不在同一时间段的目标轨迹平移到相同时间段。轨迹之间紧密堆叠镶嵌,并采用透明贴图的形式确保多个目标重叠的区域各自均可见。形成包含所有目标轨迹的简短且活动密集的视频。这样形成的摘要视频充分利用画面空间，以最短的时间展现原视频所有的事件（目标轨迹）。

再者，在生成摘要视频的过程中还根据目标轨迹描述文件，在浓缩摘要中对每个目标标注附加信息，具体为每个目标标注原始时间戳和前景矩形，由此来实现了视频索引功能。在生成摘要视频的过程中同步播放已生成的摘要视频，同时已生成的摘要视频中的前景矩形提供视频索引功能，即点击前景矩形即可跳转至其对应的原视频片段。

最后摘要视频生成完成后，可回放已生成的视频，播放过程中同样也提供视频索引功能。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种主动式视频浓缩装置，其特征在于，所述装置包括：

检索模块，所述检索模块对存储管理模块中的视频结构化描述文件进行检索，并将检索结果按照其与检索条件的相关度进行排序；

视频浓缩摘要模块，所述视频浓缩摘要模块用于根据检索模块检索返回的检索结果，生成符合检索条件的摘要视频，在不丢失运动目标并且不重叠或没有严重重叠前提下，将不同时间段出现的运动目标平移到同一时间段，浓缩为摘要视频，实现多个目标同时播放；所述视频浓缩摘要模块在对运动目标平移时，首先依据目标轨迹描述文件记录的每个目标轨迹的每个前景图片在原始视频画面中的精确位置，得到目标轨迹对应的前景矩形序列；接着新建用于存储轨迹的前景矩形序列的队列容器，即浓缩队列；接着对于每个目标轨迹对应的前景矩形序列，查找合适并平移放置到最优放置区间；最后将当前目标轨迹平移放置到该最优放置区间；

所述视频浓缩摘要模块在查找合适并平移放置到最优放置区间时，首先计算当前目标轨迹的前景矩形序列与浓缩队列中已有其他轨迹的前景矩形序列之间的重叠面积之和；接着设定重叠面积的最大阈值，低于该阈值表示该区间能够容纳当前的目标轨迹，否则不能；接着从浓缩队列的开始到结尾以固定的步长遍历，记录可以容纳当前目标轨迹的所有区间；接着计算时间代价：在每个可能的区间分别计算当前目标轨迹与此区间已有的若干个轨迹之间的时间差值的平均值；接着查找以上若干个时间代价的最小整数值,记录其对应的区间，作为最优放置区间。

2.根据权利要求1所述的一种主动式视频浓缩装置，其特征在于，所述视频结构化描述模块生成的视频结构化描述文件包括目标特征描述文件和目标轨迹描述文件，所述目标特征描述文件包含每个目标的描述信息；所述目标轨迹描述文件包含每个目标轨迹的基本信息。

3.根据权利要求2所述的一种主动式视频浓缩装置，其特征在于，所述存储管理模块通过视频结构化描述文件中的目标特征描述文件建立相关的数据库，同时由数据库管理目标特征描述文件的所有信息。

4.根据权利要求2所述的一种主动式视频浓缩装置，其特征在于，所述视频浓缩摘要模块在生成摘要视频时，根据目标轨迹描述文件提供轨迹对应的前景矩形序列的空间位置和时间信息，确保运动目标平移后不重叠或没有严重重叠。

5.根据权利要求1所述的一种主动式视频浓缩装置，其特征在于，所述视频浓缩摘要模块在生成摘要视频时，对运动目标的平移是指对运动目标的时间的平移。

6.根据权利要求1所述的一种主动式视频浓缩装置，其特征在于，所述视频浓缩摘要模块在生成摘要视频时，对于多个目标轨迹相互重叠的区域以透明贴图的形式确保每个目标都可见；同时对摘要视频中的每个目标标注其原始的时间戳和前景矩形，并实现了视频索引功能，点击运动目标即可跳转至对应的原始视频片段。

7.一种主动式视频浓缩的方法，其特征在于，所述方法包括如下步骤：

(1)对输入视频进行分析，生成视频结构化描述文件，并根据生成的结构化描述文件建立相关数据库；

(2)对建立的数据库进行检索，并将检索结果按照相关度排序；

(3)根据步骤(2)检索结果，对目标轨迹筛选及重排，在确保运动目标平移后不重叠或没有严重重叠的前提下，将不同时间段出现的运动目标平移到同一时间段，浓缩为摘要视频；对运动目标平移采用如下方法：

(31)依据目标轨迹描述文件记录的每个目标轨迹的每个前景图片在原始视频画面中的精确位置，得到目标轨迹对应的前景矩形序列；

(32)新建用于存储轨迹的前景矩形序列的队列容器，即浓缩队列；

(33)对于每个目标轨迹对应的前景矩形序列，查找合适并平移放置到最优放置区间：通过如下步骤实现：

d)计算时间代价：在c)步骤中，每个可能的区间分别计算当前目标轨迹与此区间已有的若干个轨迹之间的时间差值的平均值；

e)查找以上若干个时间代价的最小整数值,记录其对应的区间，作为最优放置区间；

(34)将当前目标轨迹平移放置到该最优放置区间。

8.根据权利要求7所述的一种主动式视频浓缩的方法，其特征在于，所述步骤(1)中生成的视频结构化描述文件具体包括：目标特征描述文件和目标轨迹描述文件，所述目标特征描述文件包含每个目标的描述信息，所述目标轨迹描述文件包含每个目标的基本信息。

9.根据权利要求8所述的一种主动式视频浓缩的方法，其特征在于，所述步骤(1)中利用视频结构化描述文件中的目标特征描述文件来建立相关的数据库，并由相关数据库管理目标特征描述文件的所有信息；所述步骤(3)中浓缩摘要视频时，由视频结构化描述文件中的目标轨迹描述文件来提供轨迹对应的前景矩形序列的空间位置和时间信息，确保运动目标平移后不重叠或没有严重重叠。

10.根据权利要求7所述的一种主动式视频浓缩的方法，其特征在于，所述步骤(3)中在浓缩摘要视频时，对于多个目标轨迹相互重叠的区域以透明贴图的形式确保每个目标都可见；对摘要视频中的每个目标标注其原始的时间戳及前景矩形，由此实现视频索引功能；对运动目标的平移是对运动目标的时间的平移。

11.根据权利要求7或10所述的一种主动式视频浓缩的方法，其特征在于，所述步骤(3)中的摘要视频是通过选用检索结果中列出的目标轨迹，将多个运动目标对应的前景图片拼接到同一背景而形成。

12.根据权利要求7所述的一种主动式视频浓缩的方法，其特征在于，将多个运动目标对应的前景图片拼接到同一背景的具体过程如下：

通过混合高斯模型方法计算静态背景图片；