CN106354816A

CN106354816A - 一种视频图像处理方法及装置

Info

Publication number: CN106354816A
Application number: CN201610765659.5A
Authority: CN
Inventors: 邹博; 刘玉洁; 周玲武
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2016-08-30
Filing date: 2016-08-30
Publication date: 2017-01-25
Anticipated expiration: 2036-08-30
Also published as: CN106354816B

Abstract

本申请提供了一种视频图像处理方法及装置，方法包括：获取视频图像序列；从视频图像序列中的视频图像帧中识别目标对象；对目标对象进行跟踪并确定目标对象的运动轨迹；基于目标对象和目标对象的运动轨迹获取视频结构化信息；基于视频结构化信息进行目标对象检索和/或对视频图像序列进行视频浓缩。基于本发明提供的视频图像处理方法及装置能够快速侦查到目标，即本申请提高了目标侦查的速度，进而提高了案件的侦破速度。

Description

一种视频图像处理方法及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种视频图像处理方法及装置。

背景技术

随着视频监控***的完善，视频图像侦查技术已经成为公安机关继刑事技术、行动技术、网侦技术之后的第四大侦查破案技术。而目前的视频图像侦查技术以人海战术为主，即需要大量侦查人员从视频的各个视频图像帧中侦查目标，这种侦查方式需要消耗大量的人力，且需要耗费较长的时间，即现有的侦查方式费时费力，且侦查效果不好。

发明内容

有鉴于此，本发明提供了一种视频图像处理方法及装置，用以解决现有技术中的视频图像侦查方式费时费力进而导致案件侦破速度较慢的问题，其技术方案如下：

一种视频图像处理方法，所述方法包括：

获取视频图像序列；

从所述视频图像序列中的图像帧中识别目标对象；

对所述目标对象进行跟踪并确定所述目标对象的运动轨迹；

基于所述目标对象和所述目标对象的运动轨迹获取视频结构化信息；

基于所述视频结构化信息进行目标对象检索和/或对所述视频图像序列进行视频浓缩。

其中，所述从所述视频图像序列中的各帧视频图像中识别目标对象，包括：

基于深度卷积神经网络从所述视频图像序列中的各个视频图像帧中识别目标对象。

其中，所述对所述目标对象进行跟踪，包括：

基于从所述视频图像帧中的所述目标对象上提取的光流点，采用Lucas–Kanade光流法跟踪算法对所述目标对象进行跟踪。

其中，所述视频结构化信息包括：目标对象的文本信息和/或图像特征信息，所述目标对象的文本信息包括所述目标对象的属性信息和运动信息；

则所述基于所述视频结构化信息进行目标对象检索，包括：

当接收到对待检索文本信息的检索指令时，基于所述待检索文本信息在所述目标对象的文本信息中检索，或者，当接收到对待检索图像的检索指令时，基于所述待检索图像在所述目标对象的图像特征信息中检索，或者，当接收到对待检索事件信息的检索指令时，基于所述待检索事件以及预先建立的事件模型在所述文本信息中检索，获得检索结果；

输出与所述检索结果关联的目标对象信息。

其中，所述目标对象的图像特征信息包括深度卷积特征和局部特征；

所述基于所述待检索图像在所述目标对象的图像特征信息中检索，获得检索结果，包括：

基于所述待检索图像的深度卷积特征在所述目标对象的图像特征信息中按第一匹配规则进行匹配，获得候选特征集；

基于所述待检索图像的深度卷积特征和局部特征在所述候选特征集中按第二匹配规则进行匹配，获得目标图像特征作为所述检测结果。

其中，所述基于所述待检索图像的深度卷积特征在所述目标对象的图像特征信息中按第一匹配规则进行匹配，获得候选特征集，包括：

获取所述待检索图像的深度卷积特征和局部特征，并对所述待检索图像的深度卷积特征进行二值编码获得所述待检索图像的二值编码特征；

将所述待检索图像的二值编码特征分别与所述目标对象的图像特征信息中的各个深度卷积特征对应的二值编码特征进行匹配，将与所述待检索图像的二值编码特征的匹配度大于第一预设值的二值编码特征确定为目标二值编码特征，并将与所述目标编码特征对应的目标深度卷积特征以及目标局部特征作为候选特征集；

所述基于所述待检索图像的深度卷积特征和局部特征在所述候选特征集中按第二匹配规则进行匹配，获得目标图像特征作为所述检测结果，包括：

将所述待检索图像的深度卷积特征与所述候选特征集中的各个深度卷积特征进行匹配，并且，将所述待检索图像的局部特征与所述候选特征集中的各个局部特征进行匹配，将深度卷积特征与对应局部特征的综合匹配度大于第二预设值的图像特征作为检索结果；

则所述输出与所述检索结果关联的目标对象信息，具体为：

输出所述深度卷积特征与对应局部特征的综合匹配度大于第二预设值的图像特征所关联的目标对象图像，所述目标对象图像为预先从所述目标对象所在的视频图像帧中提取的所述目标对象的图像。

其中，所述视频结构化信息包括：所述视频图像序列中各个视频图像帧的图像密度，所述图像密度用于表征所述视频图像帧中目标对象的情况；

则基于所述目标对象和所述目标对象的运动轨迹获取所述结构化信息包括：

通过所述目标对象在视频图像帧中的位置以及所述目标对象的运动轨迹确定所述视频图像序列中监控区域的结构信息，所述监控区域的结构信息包括所述目标对象在所述监控区域中出现的区域信息；

基于所述监控区域的结构信息确定所述视频图像序列中每个视频图像帧的图像密度。

其中，所述基于所述视频结构化信息对所述视频图像序列进行视频浓缩，包括：

基于所述各个视频图像帧的图像密度对所述视频图像序列进行分段，并从各个分段中确定出待浓缩的视频段；

对所述待浓缩的视频段进行视频浓缩，并将进行视频浓缩后的视频段与其它未进行视频浓缩的视频段进行合并，获得浓缩的视频图像序列。

其中，所述基于所述图像密度对所述视频图像序列进行分段，并从各个分段中确定中待浓缩的视频段，包括：

通过各个视频图像帧的图像密度利用预先设定的图像密度阈值将所述视频图像序列划分为多个视频段，每个所述视频段包括多个连续的视频图像帧；

将各个视频图像帧的图像密度均大于所述图像密度阈值的视频段确定为待浓缩的视频段。

其中，所述对所述待浓缩的视频段进行视频浓缩，包括：

通过时空浓缩模型确定将所述待浓缩视频段中至少一个目标对象在时间维度和空间维度上移动的最优移动策略；

基于所述最优移动策略进行图像融合，获得浓缩后的视频段。

一种视频图像处理装置，所述装置包括：视频获取模块、目标识别模块、目标跟踪模块、视频结构化信息获取模块和处理模块；

所述视频获取模块，用于获取视频图像序列；

所述目标识别模块，用于从所述视频获取模块获取的所述视频图像序列中的视频图像帧中识别目标对象；

所述目标跟踪模块，用于对所述目标识别模块识别出的所述目标对象进行跟踪并确定所述目标对象的运动轨迹；

所述信息获取模块，基于所述目标识别模块识别出的所述目标对象和所述目标跟踪模块确定的所述目标对象的运动轨迹获取视频结构化信息；

所述处理模块，用于基于所述信息获取模块获取的所述视频结构化信息进行目标对象检索和/或对所述视频图像序列进行视频浓缩。

其中，所述目标识别模块，具体用于基于深度卷积神经网络从所述视频图像序列中的各个视频图像帧中识别目标对象。

其中，所述目标跟踪模块，具体用于基于从所述视频图像帧中的所述目标对象上提取的光流点，采用Lucas–Kanade光流法跟踪算法对所述目标对象进行跟踪。

所述处理模块，包括：检索模块和输出模块；

所述检索模块，用于当接收到对待检索文本信息的检索指令时，基于所述待检索文本信息在所述目标对象的文本信息中检索，或者，当接收到对待检索图像的检索指令时，基于所述待检索图像在所述目标对象的图像特征信息中检索，或者，当接收到对待检索事件信息的检索指令时，基于所述待检索事件以及预先建立的事件模型在所述文本信息中检索，获得检索结果；

所述输出模块，用于输出与所述检索模块的所述检索结果关联的目标对象信息。

所述检索模块包括：粗匹配模块和精确匹配模块；

所述粗匹配模块，用于基于所述待检索图像的深度卷积特征在所述目标对象的图像特征信息中按第一匹配规则进行匹配，获得候选特征集；

所述精确匹配模块，用于基于所述待检索图像的深度卷积特征和局部特征在所述候选特征集中按第二匹配规则进行匹配，获得目标图像特征作为所述检测结果。

其中，所述粗匹配模块包括：特征获取及处理子模块和粗匹配子模块；

所述特征获取及处理子模块，用于获取所述待检索图像的深度卷积特征和局部特征，并对所述待检索图像的深度卷积特征进行二值编码，获得所述待检索图像的二值编码特征，还用于对所述目标对象的图像特征信息中的各个深度卷积特征分别进行二值编码，获得与所述目标对象的图像特征信息中的各个深度卷积特征对应的二值编码特征；

所述粗匹配子模块，用于将所述待检索图像的二值编码特征分别与所述目标对象的图像特征信息中的各个深度卷积特征对应的二值编码特征进行匹配，将与所述待检索图像的二值编码特征的匹配度大于第一预设值的二值编码特征确定为目标二值编码特征，并将与所述目标编码特征对应的目标深度卷积特征以及目标局部特征作为候选特征集；

所述精确匹配模块，具体用于将所述待检索图像的深度卷积特征与所述候选特征集中的各个深度卷积特征进行匹配，并且，将所述待检索图像的局部特征与所述候选特征集中的各个局部特征进行匹配，将深度卷积特征与对应局部特征的综合匹配度大于第二预设值的图像特征作为检索结果；

则所述输出模块，具体用于输出所述深度卷积特征与对应局部特征的综合匹配度大于第二预设值的图像特征所关联的目标对象图像，所述目标对象图像为预先从所述目标对象所在的视频图像帧中提取的所述目标对象的图像。

所述信息获取模块包括：监控区域结构确定模块和图像密度确定模块；

所述监控区域结构确定子模块，用于通过所述目标对象在视频图像帧中的位置以及所述目标对象的运动轨迹确定所述视频图像序列中监控区域的结构信息，所述监控区域的结构信息包括所述目标对象在所述监控区域中出现的区域信息；

所述图像密度确定子模块，用于基于所述监控区域结构确定子模块确定出的所述监控区域的结构信息确定所述视频图像序列中每个视频图像帧的图像密度。

其中，所述处理模块包括：视频预处理模块和视频浓缩模块；

所述视频预处理模块，用于基于所述图像密度对所述视频图像序列进行分段并从各个分段中确定出待浓缩的视频段；

所述视频浓缩模块，用于对所述待浓缩的视频段进行视频浓缩，并将进行视频浓缩后的视频段与其它未进行视频浓缩的视频段进行合并，获得浓缩的视频图像序列。

其中，所述视频预处理模块，包括：视频分段子模块和待浓缩视频段确定子模块；

所述视频分段子模块，用于通过各个视频图像帧的图像密度利用预先设定的图像密度阈值将所述视频图像序列划分为多个视频段；

所述待浓缩视频段确定子模块，用于将各个视频图像帧的图像密度均大于所述图像密度阈值的视频段确定为待浓缩的视频段。

其中，所述视频浓缩模块包括：最优浓缩策略确定子模块和图像融合子模块；

所述最优浓缩策略确定子模块，用于通过时空浓缩模型确定将所述待浓缩视频段中至少一个目标对象在时间维度和空间维度上移动的最优移动策略；

所述图像融合子模块，用于基于所述最优移动策略进行图像融合，获得浓缩后的视频段。

上述技术方案具有如下有益效果：

本发明提供的视频图像处理方法及装置，可对视频图像序列中的目标对象进行识别和跟踪，进而能基于目标对象和目标对象的运动轨迹获取视频结构化信息，在获取到视频结构化信息后，可基于视频结构化信息进行检索，通过该方式可快速侦查到目标，另外，还可基于视频结构化信息进行视频浓缩，由于浓缩视频包含原始视频目标全部信息量且帧数少，因此，基于浓缩视频可快速侦查到目标。即，如何用户预先知道目标对象的一些信息，则可直接利用这些信息进行检索，从而快速侦查到目标，如果用户并没有获知目标对象的信息，则可直接浏览浓缩视频，从而快速侦查到目标。基于本发明提供的视频图像处理方法及装置能够快速侦查到目标，即本发明提高了目标侦查的速度，进而提高了案件的侦破速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的视频图像处理方法的流程示意图；

图2为本发明实施例提供的视频图像处理方法中，进行目标检测，在视频图像帧中生成一系列目标候选框的示意图；

图3为本发明实施例提供的视频图像处理方法中，从视频图像帧中的目标对象上提取的光流点的示意图；

图4为本发明实施例提供的视频图像处理方法中，基于待检索图像在目标对象的图像特征信息中检索，获得检索结果的具体实现方式的流程示意图；

图5为本发明实施例提供的视频图像处理方法中，基于目标对象和目标对象的运动轨迹获取视频结构化信息的流程示意图；

图6为本发明实施例提供的视频图像处理方法中，基于图像密度对视频图像序列进行分段，并从各个分段中确定中待浓缩的视频段的实现过程的流程示意图；

图7为本发明实施例提供的视频图像处理方法中，对待浓缩的视频段进行视频浓缩的实现过程的流程示意图；

图8为本发明实施例提供的视频图像处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种视频图像处理方法，请参阅图1，示出了该视频图像处理方法的流程示意图，可以包括：

步骤S101：获取视频图像序列。

步骤S102：从视频图像序列中的视频图像帧中识别目标对象。

步骤S103：对目标对象进行跟踪并确定目标对象的运动轨迹。

步骤S104：基于目标对象和目标对象的运动轨迹获取视频结构化信息。

步骤S105：基于视频结构化信息进行目标对象检索和/或对视频图像序列进行视频浓缩。

本发明提供的视频图像处理方法，可对视频图像序列中的目标对象进行识别和跟踪，进而能基于目标对象和目标对象的运动轨迹获取视频结构化信息，在获取到视频结构化信息后，可基于视频结构化信息进行检索，通过该方式可快速侦查到目标，另外，还可基于视频结构化信息进行视频浓缩，由于浓缩视频包含原始视频图像蕴含的信息量且帧数少，因此，基于浓缩视频可快速侦查到可疑目标。即，如何用户预先知道目标对象的具体信息，则可直接利用这些信息进行检索，从而快速侦查到目标对象，如果用户并没有获知目标对象的信息，则可直接浏览浓缩视频，从而快速侦查到目标对象。基于本发明实施例提供的视频图像处理方法能够快速从视频中侦查到目标对象，即本发明实施例提高了目标侦查的速度，进而提高了案件的侦破速度，用户体验较好。

考虑到传统的目标识别方法多采用背景建模的方法，即首先对图像的背景进行建模，模型建立后，将图像与背景模型进行比较，根据比较结果确定前景目标。然而，该方法在低对比度和光变等环境下的适应能力较差，在对运动目标进行识别时常常会产生很多误识别，且对静止的目标常常会产生漏检。鉴于现有的识别方法存在诸多问题，为了提高后续的检索准确性，本发明提供了一种基于深度卷积神经网络视频图像帧中识别目标对象的识别方法，即上述实施例中，从视频图像序列中的视频图像帧中识别目标对象

基于深度卷积神经网络从视频图像帧中识别目标对象的过程包括：首先利用基于深度卷积神经网络的目标检测模型进行目标检测，在视频图像帧中生成一系列目标候选框，如图2所示，然后利用基于深度卷积神经网络的目标分类模型进行目标识别，并对目标候选框进行校正。

需要说明的是，在使用深度卷积神经网络进行识别之前需要对其进行训练：在一种可能的实现方式中，针对公安监控环境及目标(车/人)特点，可选取AlexNet网络结构进行训练，使用ImageNet2012数据集进行预训练，并在此基础上使用公安监控样本对网络进行调优。由于不同车辆类型间的差异很大，所以训练时将样本共分成轿车、客车、货车、三轮车、非机动车(摩托车/电动车/自行车)、行人共计6大类。

另外，为了提高后续的识别速度，可对目标检测网络模型和目标分类网络模型进行卷积特征共享。

在识别出目标对象后，对目标对象进行跟踪。考虑到现有的光流跟踪算法在进行光流点提取时，通常对整幅图像提取光流点，然而在进行目标跟踪时往往关注的是目标对象，其它无关区域的光流点会对目标对象的跟踪造成干扰，为了提高跟踪的速度和准确度，本发明采用改进的Lucas–Kanade光流法跟踪算法对目标对象进行跟踪，即基于从视频图像帧中的目标对象(前景图像)上提取的光流点，采用Lucas–Kanade光流法跟踪算法对目标对象进行跟踪。

具体的，首先针对整幅视频图像帧中提取光流点，然后从前景图像(即视频图像帧中的目标对象)中提取光流点，最后基于从前景图像中提取的光流点将整幅视频图像帧中处于前景图像中的光流点之外的光流点滤除，如图3所示。其中，前景图像通过相邻两个视频图像帧差分得到，图3中第二幅图像中的白色部分为前景区域，黑色部分为背景区域。

在上述实施例中，基于目标对象和目标对象的运动轨迹获取的视频结构化信息可以包括：目标对象的文本信息和/或图像特征信息。其中，目标对象的文本信息可以包括目标对象的属性信息和运动信息。

示例性的，目标对象为车辆，则目标对象的属性信息可以包括车辆的类别、车辆的颜色、车辆车牌号、车辆品牌型号等等，目标对象的运动信息可以为车辆的运动方向、车辆在视频图像帧中的位置等。

在获取到上述视频结构化信息之后，便可基于视频结构化信息进行检索，从而快速侦查到目标对象。基于视频结构化信息进行目标对象检索的实现方式有种。

在一种可能的实现方式中，可基于文本进行检索，即当接收到对待检索文本信息的检索指令时，基于待检索文本信息在目标对象的文本信息中检索，获得检索结果，输出与检索结果关联的目标对象信息。需要说明的是，在本实施例中，可将所有目标对象的文本信息组成文本信息库，当进行文本检索时，在该文本信息库中进行检索。

优选的，目标对象信息为目标对象图像，目标对象图像为预先从目标对象所在的视频图像帧中提取的目标对象的图像，目标对象图像与视频结构化信息中的文本信息和/或图像特征信息关联。

具体的，获取用户输入的待检索文本信息，基于待检索文本信息在目标对象的文本信息中查找与待检索文本信息匹配的目标文本信息，输出与目标文本信息关联的目标对象图像。

示例性的，用户在检索界面输入车辆车牌号进行检索，如果目标对象的目标信息中包含该车辆车牌号，则可直接将与该车辆车牌号关联的车辆的图像显示出来，如此，并快速侦查到了目标。

在另一种可能的实现方式中，可基于规则进行检索，即当接收到对待检索事件信息的检索指令时，基于待检索事件以及预先建立的事件模型在目标对象的文本信息中检索，获得检索结果，输出与检索结果关联的目标对象信息。

具体的，获取用户输入的待检索事件信息，基于待检索事件信息在文本信息中查找与待检索事件信息相关的文本信息，从与待检索事件信息相关的文本信息中确定出目标文本信息，其中，目标文本信息对应的事件信息为待检索事件信息；输出与目标文本信息关联的目标对象图像。

其中，事件信息可以为区域入侵、绊线、徘徊等，与待检索事件信息相关的文本信息可以为目标对象在视频图像帧中的位置信息，或者目标对象的运动轨迹，基于目标对象的位置的变化或运动轨迹可确定目标对象发生了哪个事件，如果一目标对象发生了与待检索事件相同的事件，则输出该目标对象图像。

在另一种可能的实现方式中，可基于图像进行检索，当接收到对待检索图像的检索指令时，基于待检索图像在目标对象的图像特征信息库中检索，获得检索结果，输出与检索结果关联的目标对象信息。需要说明的是，在本实施例中，可将所有目标对象的图像特征信息组成图像特征信息库，当进行图像检索时，可基于待检索图像的特征在该图像特征信息库中进行检索。

具体的，首先获取用户输入的待检索图像，并提取待检索图像的图像特征作为待检索图像特征，然后基于待检索图像特征在图像特征信息中查找与待检索图像特征匹配的目标图像特征，输出与目标图像特征关联的目标对象图像。对于用户而言，在基于图像进行检索时，用户只需要在检索界面输入待检索图像，便可获得与待线索图像匹配的目标对象图像。

在一种优选的实现方式中，图像特征包括深度卷积特征和局部特征，在本实施例中，可首先基于待检索图像的深度卷积特征在目标对象的图像特征信息中按第一匹配规则进行匹配，获得候选特征集；然后基于待检索图像的深度卷积特征和局部特征在候选特征集中按第二匹配规则进行匹配，获得目标图像特征作为检测结果。即最终输出是与目标图像特征关联的目标对象的信息。

则请参阅图4，示出了基于待检索图像在目标对象的图像特征信息中检索，获得检索结果的具体实现方式的流程示意图，可以包括：

步骤S401：获取待检索图像的深度卷积特征和局部特征，并对待检索图像的深度卷积特征进行二值编码，获得待检索图像的二值编码特征。

需要说明的是，深度卷积特征基于CNN深度卷积神经网络从高层提取，局部特征关注图像的局部属性，可以作为深度卷积特征的辅助和补充。其中，局部特征优选速度快、鲁棒性高的SURF特征，记为F_SURF。

在一种优选的实现方式中，可采用PCA方法对深度卷积特征进行降维，去除冗余特征，将去除冗余特征后的深度卷积特征作为最终的深度卷积特征进行后续的匹配，记为F_CNN+PCA。采用LSH方法对深度卷积特征进行二值编码，生成二值编码特征，F_CNNH。

步骤S402：将待检索图像的二值编码特征分别与目标对象的图像特征信息中的各个深度卷积特征对应的二值编码特征进行匹配，将与待检索图像的二值编码特征的匹配度大于第一预设值的二值编码特征确定为目标二值编码特征，并将与目标编码特征对应的目标深度卷积特征以及局部特征作为候选特征集。

在对二值编码特征进行匹配时，匹配度可通过相似度表征，相似度可通过计算两个二值编码特征的海明距离得到。

需要说明的是，由于图像特征关联有目标对象图像，因此确定出了候选特征集相当于确定出了候选图像集{O₁，O₂，……，O_N}：

O_{i} = \{\begin{matrix} 1, & S_{i} > θ_{H} \\ 0, & S_{i} \leq θ_{H} \end{matrix},

其中，O_i表示第i个待匹配图像，S_i表示待检索图像与第i个待匹配图像的相似度，θ_H为相似度阈值。

上述对二值编码特征进行匹配的过程为粗匹配过程，在粗匹配完成后，进一步基于深度卷积特征和局部特征进行精确匹配。

步骤S403：将待检索图像的深度卷积特征与候选特征集中的各个深度卷积特征进行匹配，并且，将待检索图像的局部特征与候选特征集中的各个局部特征进行匹配，将深度卷积特征与对应局部特征的综合匹配度大于第二预设值的图像特征作为检索结果。

精确匹配的过程采用欧式距离进行相似度计算，具体的通过下式计算相似度：

S(k)＝α×S_CNN+PCA(k)+β×S_SURF(k)

其中，α和β分别表示深度卷积特征和局部特征计算的相似度的权值，S_CNN+PCA(k)表示深度卷积特征计算的相似度，S_SURF(k)表示局部特征计算的相似度。

则输出与检索结果关联的目标对象信息，具体为：输出深度卷积特征与对应局部特征的综合匹配度大于第二预设值的图像特征所关联的目标对象图像。

在输出目标对象图像时，如果满足条件的目标对象图像有多个，则可按相似度由高到低的顺序显示各个目标对象图像。

上述过程给出了提高图像侦查速度的一种实现方式，即基于目标信息进行检索获得目标，应用这种方式获得目标的前提是，预先获知用于检索的关键词，即用户预先获知要侦查目标的部分信息，然而，在某些时候，侦查人员可能对目标一无所知，即没有用于检索的关键词，在这种情况下，只能逐一浏览视频图像序列，考虑到视频图像序列通常包含较多个视频图像帧，而这些视频图像帧中可能有很多图像帧并不包含用户关注的信息，为了提高侦查速度，本发明实施例基于视频结构化信息对视频图像帧序列进行视频浓缩，使浓缩后的视频图像帧具有较少的帧数却包含大量的信息。

在本实施例中，视频结构化信息可以包括：视频图像序列中各个视频图像帧的图像密度。其中，图像密度用于表征视频图像帧中目标对象的情况。

请参阅图5，示出了上述实施例中，基于目标对象和目标对象的运动轨迹获取视频结构化信息的流程示意图，可以包括：

步骤S501：通过目标对象在视频图像帧中的位置以及目标对象的运动轨迹确定视频图像序列中监控区域的结构信息。

其中，监控区域的结构信息包括目标对象在监控区域中出现的区域信息。

步骤S502：基于监控区域的结构信息确定视频图像序列中每个视频图像帧的图像密度。

在获取的上述视频结构化信息后，便可基于该视频结构化信息对视频图像序列进行视频浓缩。为了提高视频浓缩的速度，本发明实施例首先基于各个视频图像帧的图像密度对目标视频图像序列进行分段，并从各个分段中确定出待浓缩的视频段，然后对待浓缩的视频段进行视频浓缩，并将进行视频浓缩后的视频段与其它未进行视频浓缩的视频段进行合并，获得浓缩的视频图像序列。

进一步的，请参阅图6，示出了基于图像密度对视频图像序列进行分段，并从各个分段中确定中待浓缩的视频段的实现过程的流程示意图，可以包括：

步骤S601：通过各个视频图像帧的图像密度利用预先设定的图像密度阈值将视频图像序列划分为多个视频段。

步骤S602：将各个视频图像帧的图像密度均小于图像密度阈值的视频段确定为待浓缩的视频段。

示例性的，视频图像序列中包括100个视频图像帧，前30个视频图像帧中每个图像视频帧的图像密度均小于设定的图像密度阈值，第31至70个视频图像帧中每个图像视频帧的图像密度均大于设定的图像密度阈值，而第71至第100个视频图像帧中每个图像视频帧的图像密度均小于设定的图像密度阈值，则可将视频图像序列分成3个视频段，1-30帧为第1个视频段，31-70帧为第2个视频段，71-100帧为第3个视频段，由于1-30帧、71-100帧中图像密度均小于设定的图像密度阈值，则将1-30帧、31-70帧这两个视频段确定为待浓缩的视频段。

在确定出待浓缩的视频段后，对待浓缩的视频段进行视频浓缩，请参阅图7，示出了对待浓缩的视频段进行视频浓缩的实现过程的流程示意图，可以包括：

步骤S701：通过时空浓缩模型确定将待浓缩视频段中至少一个目标对象在时间维度和空间维度上移动的最优移动策略。

步骤S702：基于最优移动策略进行图像融合，获得浓缩后的视频段。

本发明实施例提供的时空浓缩模型在不丢失任何目标、保证目标原始时序的同时，在时间、空间两个维度进行最大程度的视频浓缩，浓缩后的视频无碰撞、无频闪，视觉效果良好。

具体的，时空浓缩模型的能量函数表征为：

E(M)＝min{ΣE_a(b)+{αΣE_c(b,b')+βΣE_t(b,b')}},(b,b'∈B)

其中，b为具有第一目标对象的图像序列，b'为具有第二目标对象的图像序列，ΣE_a(b)为活动能量损失函数，如果面积大的目标没有被映射到浓缩视频中，则此项所代表的惩罚值偏大，反之则小，可以理解的是，面积大的目标更应该保留在浓缩视频中。E_c(b,b')为碰撞冲突惩罚项，为两轨迹冲突时段的内积。浓缩视频是将原目标在时间轴及空间分布上进行移动，难免会产生轨迹间的交叉碰撞及遮挡等情况，如两个目标序列存在共享时段，且存在轨迹交叉，则惩罚项为相应的重叠区域的内积运算。E_t(b,b')项为时序惩罚项，时序惩罚项意义在于尽可能保持原始视频活动事件的先后顺序，如在原始视频中两个人一前一后行走或者并排边走边交谈，在浓缩视频中也要合理的保持这种相对关系。E_t(b,b')＝exp(-(d(b,b')/ω))，d(b,b')代表两轨迹共享时段中心像素的欧式距离，ω为自定义参数，调节事件时序。需要说明的是，上述的最优移动策略为当时空浓缩模型的能量函数的值为最小值时所对应的目标对象在时间及空间上移动的策略。

与上述方法相对应，本发明实施例还提供了一种视频图像处理装置，请参阅图8，示出了该装置的结构示意图，可以包括：视频获取模块801、目标识别模块802、目标跟踪模块803、信息获取模块804和处理模块805。

视频获取模块801，用于获取视频图像序列。

目标识别模块802，用于从视频获取模块801获取的视频图像序列中的视频图像帧中识别目标对象。

目标跟踪模块803，用于对目标识别模块802识别出的目标对象进行跟踪并确定目标对象的运动轨迹。

信息获取模块804，基于目标识别模块802识别出的目标对象和目标跟踪模块803确定的目标对象的运动轨迹获取视频结化信息。

处理模块805，用于基于视频结构化信息获取模块804获取的视频结构化信息进行目标对象检索和/或对视频图像序列进行视频浓缩。

本发明提供的视频图像处理装置，可对视频图像序列中的目标对象进行识别和跟踪，进而能基于目标对象和目标对象的运动轨迹获取视频结构化信息，在获取到视频结构化信息后，可基于视频结构化信息进行检索，通过该方式可快速侦查到目标，另外，还可基于视频结构化信息进行视频浓缩，由于浓缩视频包含了原始视频图像蕴含的信息量且帧数少，因此，基于浓缩视频可快速侦查到目标。即，如何用户预先知道目标对象的一些信息，则可直接利用这些信息进行检索，从而快速侦查到目标对象，如果用户并没有获知目标对象的信息，则可直接浏览浓缩视频，从而快速侦查到目标对象。基于本发明实施例提供的视频图像处理装置能够快速从视频中侦查到目标对象，即本发明实施例提高了目标侦查的速度，进而提高了案件的侦破速度，用户体验较好。

上述实施例提供的视频图像处理装置中，目标识别模块802，具体用于基于深度卷积神经网络从视频图像序列中的各个视频图像帧中识别目标对象。

上述实施例提供的视频图像处理装置中，目标跟踪模块803，具体用于基于从视频图像帧中的目标对象上提取的光流点，采用Lucas–Kanade光流法跟踪算法对目标对象进行跟踪。

上述实施例提供的视频图像处理装置中，视频结构化信息获取模块804获取的视频结构化信息包括：目标对象的文本信息和/或图像特征信息，目标对象的文本信息包括目标对象的属性信息和运动信息。

则处理模块805，包括：检索模块和输出模块。

检索模块，用于当接收到对待检索文本信息的检索指令时，基于所述待检索文本信息在所述目标对象的文本信息中检索，或者，当接收到对待检索图像的检索指令时，基于所述待检索图像在所述目标对象的图像特征信息中检索，或者，当接收到对待检索事件信息的检索指令时，基于所述待检索事件以及预先建立的事件模型在所述文本信息中检索，获得检索结果；

输出模块，用于输出与所述检索模块的所述检索结果关联的目标对象信息。

在上述实施例中，目标对象的图像特征信息包括深度卷积特征和与所述深度卷积特征关联的局部特征。

检索模块可以包括：粗匹配模块和精确匹配模块。

粗匹配模块，用于基于待检索图像的深度卷积特征在目标对象的图像特征信息中按第一匹配规则进行匹配，获得候选特征集。

精确匹配模块，用于基于待检索图像的深度卷积特征和局部特征在候选特征集中按第二匹配规则进行匹配，获得目标图像特征作为检测结果。

进一步的，粗匹配模块包括：特征获取及处理子模块和粗匹配子模块。

特征获取及处理子模块，用于获取待检索图像的深度卷积特征和局部特征，并对待检索图像的深度卷积特征进行二值编码，获得待检索图像的二值编码特征，还用于对目标对象的图像特征信息中的各个深度卷积特征分别进行二值编码，获得与目标对象的图像特征信息中的各个深度卷积特征对应的二值编码特征。

粗匹配子模块，用于将待检索图像的二值编码特征分别与目标对象的图像特征信息中的各个深度卷积特征对应的二值编码特征进行匹配，将与待检索图像的二值编码特征的匹配度大于第一预设值的二值编码特征确定为目标二值编码特征，并将与目标编码特征对应的目标深度卷积特征以及目标局部特征作为候选特征集。

精确匹配模块，具体用于将待检索图像的深度卷积特征与候选特征集中的各个深度卷积特征进行匹配，并且，将所述待检索图像的局部特征与所述候选特征集中的各个局部特征进行匹配，将深度卷积特征与对应局部特征的综合匹配度大于第二预设值的图像特征作为检索结果。

则输出模块，具体用于输出深度卷积特征与对应局部特征的综合匹配度大于第二预设值的图像特征所关联的目标对象图像，其中，目标对象图像为预先从所述目标对象所在的视频图像帧中提取的目标对象的图像。

上述实施例提供的视频图像处理装置中，视频结构化信息获取模块804获取的视频结构化信息包括：视频图像序列中各个视频图像帧的图像密度，图像密度用于表征视频图像帧中目标对象的情况。

则视频结构化信息获取模块包括：监控区域结构确定模块和图像密度确定模块。

监控区域结构确定子模块，用于通过目标对象在视频图像帧中的位置以及所述目标对象的运动轨迹确定视频图像序列中监控区域的结构信息，其中，监控区域的结构信息包括所述目标对象在所述监控区域中出现的区域信息。

图像密度确定子模块，用于基于所述监控区域结构确定子模块确定出的所述监控区域的结构信息确定视频图像序列中每个视频图像帧的图像密度。

上述实施例提供的视频图像处理装置中，处理模块包括：视频预处理模块和视频浓缩模块。

视频预处理模块，用于基于图像密度对视频图像序列进行分段并从各个分段中确定出待浓缩的视频段。

视频浓缩模块，用于对所述待浓缩的视频段进行视频浓缩，并将进行视频浓缩后的视频段与其它未进行视频浓缩的视频段进行合并，获得浓缩的视频图像序列。

进一步的，视频预处理模块，包括：视频分段子模块和待浓缩视频段确定子模块。

视频分段子模块，用于通过各个视频图像帧的图像密度利用预先设定的图像密度阈值将视频图像序列划分为多个视频段；

待浓缩视频段确定子模块，用于将各个视频图像帧的图像密度均大于所述图像密度阈值的视频段确定为待浓缩的视频段。

进一步的，视频浓缩模块包括：最优浓缩策略确定子模块和图像融合子模块。

最优浓缩策略确定子模块，用于通过时空浓缩模型确定将所述待浓缩视频段中至少一个目标对象在时间维度和空间维度上移动的最优移动策略。

图像融合子模块，用于基于所述最优移动策略进行图像融合，获得浓缩后的视频段。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法、装置和设备，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频图像处理方法，其特征在于，所述方法包括：

获取视频图像序列；

从所述视频图像序列中的图像帧中识别目标对象；

对所述目标对象进行跟踪并确定所述目标对象的运动轨迹；

2.根据权利要求1所述的视频图像处理方法，其特征在于，所述从所述视频图像序列中的各帧视频图像中识别目标对象，包括：

3.根据权利要求1所述的视频图像处理方法，其特征在于，所述对所述目标对象进行跟踪，包括：

4.根据权利要求1所述的视频图像处理方法，其特征在于，所述视频结构化信息包括：目标对象的文本信息和/或图像特征信息，所述目标对象的文本信息包括所述目标对象的属性信息和运动信息；

则所述基于所述视频结构化信息进行目标对象检索，包括：

输出与所述检索结果关联的目标对象信息。

5.根据权利要求4所述的视频图像处理方法，其特征在于，所述目标对象的图像特征信息包括深度卷积特征和局部特征；

6.根据权利要求5所述的视频图像处理方法，其特征在于，所述基于所述待检索图像的深度卷积特征在所述目标对象的图像特征信息中按第一匹配规则进行匹配，获得候选特征集，包括：

则所述输出与所述检索结果关联的目标对象信息，具体为：

7.根据权利要求1所述的视频图像处理方法，其特征在于，所述视频结构化信息包括：所述视频图像序列中各个视频图像帧的图像密度，所述图像密度用于表征所述视频图像帧中目标对象的情况；

8.根据权利要求7所述的视频图像处理方法，其特征在于，所述基于所述视频结构化信息对所述视频图像序列进行视频浓缩，包括：

9.根据权利要求8所述的视频图像处理方法，其特征在于，所述基于所述图像密度对所述视频图像序列进行分段，并从各个分段中确定中待浓缩的视频段，包括：

10.根据权利要求8所述的视频图像处理方法，其特征在于，所述对所述待浓缩的视频段进行视频浓缩，包括：

11.一种视频图像处理装置，其特征在于，所述装置包括：视频获取模块、目标识别模块、目标跟踪模块、视频结构化信息获取模块和处理模块；

所述视频获取模块，用于获取视频图像序列；

12.根据权利要求11所述的视频图像处理装置，其特征在于，所述目标识别模块，具体用于基于深度卷积神经网络从所述视频图像序列中的各个视频图像帧中识别目标对象。

13.根据权利要求11所述的视频图像处理装置，其特征在于，所述目标跟踪模块，具体用于基于从所述视频图像帧中的所述目标对象上提取的光流点，采用Lucas–Kanade光流法跟踪算法对所述目标对象进行跟踪。

14.根据权利要求11所述的视频图像处理装置，其特征在于，所述视频结构化信息包括：目标对象的文本信息和/或图像特征信息，所述目标对象的文本信息包括所述目标对象的属性信息和运动信息；

所述处理模块，包括：检索模块和输出模块；

15.根据权利要求14所述的视频图像处理装置，其特征在于，所述目标对象的图像特征信息包括深度卷积特征和局部特征；

所述检索模块包括：粗匹配模块和精确匹配模块；

16.根据权利要求15所述的视频图像处理装置，其特征在于，所述粗匹配模块包括：特征获取及处理子模块和粗匹配子模块；

17.根据权利要求11所述的视频图像处理装置，其特征在于，所述视频结构化信息包括：所述视频图像序列中各个视频图像帧的图像密度，所述图像密度用于表征所述视频图像帧中目标对象的情况；

18.根据权利要求17所述的视频图像处理装置，其特征在于，所述处理模块包括：视频预处理模块和视频浓缩模块；

19.根据权利要求18所述的视频图像处理装置，其特征在于，所述视频预处理模块，包括：视频分段子模块和待浓缩视频段确定子模块；

20.根据权利要求18所述的视频图像处理装置，其特征在于，所述视频浓缩模块包括：最优浓缩策略确定子模块和图像融合子模块；