CN107153670B

CN107153670B - 基于多幅图像融合的视频检索方法及***

Info

Publication number: CN107153670B
Application number: CN201710059040.7A
Authority: CN
Inventors: 周晓; 朱才志; 张险峰; 魏京京
Original assignee: Hefei Lintu Information Technology Co ltd
Current assignee: Hefei Lintu Information Technology Co ltd
Priority date: 2017-01-23
Filing date: 2017-01-23
Publication date: 2020-08-14
Anticipated expiration: 2037-01-23
Also published as: CN107153670A

Abstract

本发明公开一种基于多幅图像融合的视频检索方法及***，属于视频检索技术领域，该方法在离线建立索引部分对数据库视频进行解码与视频镜头分割，得到多个视频镜头，对单个视频镜头全部关键帧的局部特征集合进行池化处理，以视频镜头为单位建立反向文件索引。在在线检索部分，采用所有查询图像，并对所有查询图像的局部特征在量化后进行池化，得到所有查询图像的量化后的局部特征池化集合，按照反向文件索引，对查询图像与视频镜头的量化后的局部特征池化集合进行相似度比较，进行视频检索。并公开了一种基于多幅图像融合的视频检索***。本发明在保证搜索效率的前提下，提高了视频检索的查全率。

Description

基于多幅图像融合的视频检索方法及***

技术领域

本发明涉及视频检索技术领域，特别涉及一种基于多幅图像融合的视频检索方法及***。

背景技术

自动视频数据检索属于基于内容的视频检索问题，其目的就是通过对图像/视频内容进行计算机处理、分析和理解，建立结构和索引，以实现方便有效的图像/视频信息获取。近年来，国内外的研究人员均对视频检索***进行了大量的研究，目前开发出的智能视频监控可以对目标进行检测、跟踪以及分类，并能实时监测一些突发异常事件。

目前，通用的视频检索***的工作流程如图1所示，主要包括离线建索引和在线检索两部分。离线建索引部分：第一步，对数据库中的视频数据进行关键帧提取，以将视频数据转换为图像数据；第二步，从关键帧中提取出关键帧特征；第三步，将所有的关键帧特征进行量化编码；第四步，根据关键帧特征的编码，建立倒排文件索引以供快速检索。在线检索部分：第一步，对查询图像进行特征提取；第二步，对所有查询图像的特征进行量化编码；第三步，通过倒排文件索引，将查询图像的特征与数据库视频关键帧的特征进行相似度比较；第四步，按照查询图像的特征与视频数据库关键帧特征的相似度，对查询出的视频关键帧进行排序；第五，通过对关键帧排序结果融合得到视频文件排序结果。

但是上述的这种视频检索技术的缺陷在于：一是，查全率不高，因为根据一幅查询图像一般不足以描述所要查询的目标，特别是对于非刚性或者是空间拓扑复杂的物体，而且在实际应用中，监控目标的任何蛛丝马迹的遗漏都有可能导致监控目标的丢失，因此查全率在实际应用中往往比查准率更为重要。二是，查询效率低，现有视频检索技术的工作过程中，需要对视频中的每一关键帧进行排序，再通过对关键帧的排序结果进行融合得到视频的排序结果，但是由于视频帧的数目远远大于视频的个数，因此对关键帧进行排序会导致目标的查询速度慢、对资源的利用率低。

发明内容

本发明的目的在于提供一种基于多幅图像融合的视频检索方法及***，以提高视频检索的查全率。

为实现以上目的，本发明采用的技术方案为：第一方面，本发明提供一种基于多幅图像融合的视频检索方法，该方法包括：

对数据库视频进行解码与视频镜头分割，得到多个视频镜头；

对单个视频镜头进行关键帧提取，并对关键帧进行局部特征提取；

对部分局部特征进行聚类，将得到的聚类中心集合作为数据库视频局部特征的码本；

按照数据库视频局部特征的码本，对数据库视频的所有局部特征进行量化编码；

在量化编码后，对单个视频镜头所有关键帧的局部特征集合进行池化处理，得到单个视频镜头量化后的局部特征池化集合；

根据数据库视频局部特征的码本和单个视频镜头量化后的局部特征池化集合，建立反向文件索引；

根据待检索目标视频的多幅查询图像和反向文件索引，进行目标视频的在线检索。

第二方面，本发明提供了一种基于多幅图像融合的视频检索***，该***包括：视频处理模块、分布式存储模块以及检索模块；

视频处理模块包括处理单元、第一提取单元、第一聚类单元、第一量化编码单元以及第一池化单元；

处理单元与数据库连接，对数据库中的视频进行解码与视频镜头分割，得到多个视频镜头；

第一提取单元与处理单元连接以对单个视频镜头进行关键帧提取，并对关键帧进行局部特征提取；

第一聚类单元与提取单元连接以对部分局部特征进行聚类，将得到的聚类中心集合作为数据库视频局部特征的码本；

第一量化编码单元与聚类单元连接以按照数据库视频局部特征的码本，对数据库视频的所有局部特征进行量化编码；

第一池化单元与量化编码单元连接以在量化编码后，对单个视频镜头所有关键帧的局部特征集合进行池化处理，得到单个视频镜头量化后的局部特征池化集合；

分布式存储模块与视频处理模块连接以根据数据库视频局部特征的码本和单个视频镜头量化后的局部特征池化集合，建立反向文件索引；

检索模块与分布式存储模块连接以根据待检索目标视频的多幅查询图像和反向文件索引，进行目标视频的在线检索。

与现有技术相比，本发明存在以下技术效果：第一，本发明通过使用同一目标视频的多幅查询图像，来对目标视频进行搜检索，可以兼顾不同视角，对检索目标视频的描述更加精确，提高了对目标视频的查全率。第二，通过在离线建立反向文件索引部分，以数据库视频的视频镜头为单位，对单个视频镜头所有关键帧的局部特征进行池化，得到单个视频镜头量化后的局部特征池化集合，极大的减少了内存耗费与数据库中的记录数目，不仅加快检索速度而且节约内存消耗至原有技术的几十甚至数千分之一。

附图说明

图1是本发明背景技术部分述及的现有视频检索过程的流程示意图；

图2是本发明一实施例中的一种基于多幅图像融合的视频检索方法的流程示意图；

图3是本发明一实施例中步骤S7的细分步骤的流程示意图；

图4是本发明一实施例中的视频检索过程的流程示意图；

图5是本发明一实施例中一种基于多幅图像融合的视频检索***的结构示意图；

图6是本发明一实施例中一种基于多幅图像融合的视频检索***的分布式结构示意图。

具体实施方式

下面结合图2至图6，对本发明做进一步详细叙述。

如图2所示，本实施例提供了一种基于多幅图像融合的视频检索方法，该方法包括如下步骤S1至S7：

S1、对数据库视频进行解码与视频镜头分割，得到多个视频镜头；

具体地，该处的多个视频镜头是指分割成至少一个视频镜头。

S2、对单个视频镜头进行关键帧提取，并对关键帧进行局部特征提取；

具体地，对单个视频镜头提取至少一幅关键帧，并对关键帧进行特征提取，这里的特征提取包括但不限于局部特征提取和全局特征提取，本实施例中将对关键帧进行局部特征提取作为较为优选的方案。

S3、对部分局部特征进行聚类，将得到的聚类中心集合作为数据库视频局部特征的码本；

S4、按照数据库视频局部特征的码本，对数据库视频的所有局部特征进行量化编码；

S5、在量化编码后，对单个视频镜头所有关键帧的局部特征集合进行池化处理，得到单个视频镜头的量化后的局部特征池化集合；

需要说明的是，本实施例中的池化(pooling)方式包括但不仅限于：平均池化(average pooling)、最大池化(max pooling)等。

需要说明的是，该处的量化后的局部特征池化集合是对单个视频镜头所有关键帧的局部特征进行池化的结果，与关键帧局部特征的概念不同。

S6、根据数据库视频局部特征的码本和单个视频镜头量化后的局部特征池化集合，建立反向文件索引；

需要说明的是，由于在检索中，码本的数目对应于统计直方图的维数，码本的数目比较大，例如几万至上百万。如此，在量化后的局部特征池化集合中，大部分码字被分配到的值都是零，这使得量化后的局部特征池化集合分布的非常稀疏，利用这种稀疏性，就可以利用文本检索中的倒排序来建立反向文件索引。

S7、根据待检索目标视频的多幅查询图像和反向文件索引，进行目标视频的在线检索。

其中，本实施例中的多幅查询图像是指至少两幅查询图像。

具体地，如图3所示，步骤S7包括如下步骤S71至S75：

S71、对待检索目标视频的所有查询图像进行局部特征提取；

S72、按照所述数据库视频局部特征的码本，对所有查询图像的全部局部特征进行量化编码；

S73、将所有查询图像量化编码后的全部局部特征做池化处理，得到所有查询图像量化后的局部特征池化集合；

S74、按照所述的反向文件索引，将待检索目标视频的量化后的局部特征池化集合与数据库视频中单个视频镜头量化后的局部特征池化集合进行相似度比较；

S75、根据比较得到的相似度，对查询出的视频文件进行排序，完成目标视频的在线检索。

本实施例中，在使用多幅图像进行查询的时候，对所有查询图像的局部特征进行池化，可以将所有查询图像的局部特征转化为一个精确的可以描述目标视频的量化后的局部特征池化集合，作为所有查询图像的新特征，使得对目标视频的搜索效率与现有搜索过程的搜索效率基本保持不变。

具体地，S3：“对部分的局部特征进行聚类，将得到的聚类中心集合作为数据库视频局部特征的码本”，具体包括如下细分步骤：

从全部视频镜头关键帧中提取的全部局部特征中，间隔或随机抽取部分局部特征；

基于预设的无监督距离方法，对所述抽取的部分局部特征进行聚类，将得到的k个代表性特征作为码本；

需要说明的是，本实施例中预设的无监督距离方法包括但不限于k-means无监督距离方法。

相应地，S4：“按照数据库视频局部特征的码本，对数据库视频的所有局部特征进行量化编码”，具体包括：

根据k个特征码本，以单个关键帧为单位对视频镜头的全部局部特征进行局部特征矢量量化，得到每个关键帧的局部特征统计直方图。

具体地，S6：“根据数据库视频局部特征的码本和单个视频镜头的量化后的局部特征池化集合，建立反向文件索引”，具体包括如下细分步骤：

依次以数据库视频局部特征的码本中的每个码字ID为表头，建立链表；

对数据库中的视频进行扫描，将所有包含该码字的视频镜头ID及相关信息压入链表中，得到反向文件索引。

需要说明的是，本实施例中的相关信息包括但不限于词频、汉明码以及特征距离等信息。

具体地，步骤S6“按照所述的反向文件索引，将待检索目标视频的量化后的局部特征池化集合与数据库视频中的单个视频镜头的量化后的局部特征池化集合进行相似度比较”的具体过程为：根据所有查询图像量化后的局部特征池化集合中某个码字，扫描反向索引文件中该码字对应的链表，得到在该码字上查询图像与数据库包含该码字的视频的相似度。

具体地，本实施例公开的方法在步骤S72：“按照数据库视频局部特征的码本，对所有查询图像的所有局部特征进行量化编码”之后，还包括如下步骤：

将量化编码后的所有查询图像的全部局部特征交叉比对，确定所有查询图像的特征匹配重叠区域为待搜索目标区域；

相应地，步骤S73：“将所有查询图像量化编码后的全部局部特征做池化处理，得到所有查询图像量化后的局部特征池化集合”，具体包括：

对落在待搜索目标区域内的所有查询图像的局部特征进行池化，得到待检索目标视频的量化后的局部特征池化集合。

需要说明的是，通过根据图像间特征的相关性来自动发掘共同的特征子集，并以该集合确定待检索目标视频在图像中的空间位置，整个过程不依赖于任何人工标注，便可得到待检索目标视频的区域，以目标区域进行查询得到的查询结果比以整张图片进行查询得到的查询结果更加准确。

具体地，利用本实施例中的基于多幅图像融合的视频检索方法的过程示意图如图4所示。

如图5、图6所示，本实施例公开了一种基于多幅图像融合的视频检索***，包括：

视频处理模块10、分布式存储模块20以及检索模块30；

视频处理模块10包括处理单元11、第一提取单元12、第一聚类单元13、第一量化编码单元14以及第一池化单元15；

处理单元11与数据库连接，对数据库中的视频进行解码与视频镜头分割，得到多个视频镜头；

第一提取单元12与处理单元11连接以对单个视频镜头进行关键帧提取，并对关键帧进行局部特征提取；

第一聚类单元13与提取单元12连接以对部分局部特征进行聚类，将得到的聚类中心集合作为数据库视频局部特征的码本；

第一量化编码单元14与聚类单元13连接以按照数据库视频局部特征的码本，对数据库视频的所有局部特征进行量化编码；

第一池化单元15与量化编码单元14连接以在量化编码后，对单个视频镜头所有关键帧的局部特征集合进行池化处理，得到单个视频镜头量化后的局部特征池化集合；

分布式存储模块20与视频处理模块10连接以根据数据库视频局部特征的码本和单个视频镜头量化后的局部特征池化集合，建立反向文件索引；

检索模块30与分布式存储模块20连接以根据待检索目标视频的多幅查询图像和反向文件索引，进行目标视频的在线检索。

需要说明的是，本实施例中的视频处理模块10具体为视频处理服务器组，分布式存储模块20具体为磁盘阵列，检索模块30具体为检索服务器组。具体的硬件配置参数参见表1：

表1

需要说明的是，该处的分布式存储模块20支持视频特征向量的动态***/删除，以及支持快速随机查找。

具体地，检索模块30具体包括：第二提取单元31、第二量化编码单元32、第二池化单元33、比较单元34以及检索单元35；

第二提取单元31对待检索目标视频的所有查询图像进行局部特征提取；

第二量化编码单元32与第二提取单元31连接以按照所述数据库视频局部特征的码本，对所有查询图像的所有局部特征进行量化编码；

第二池化单元33与第二量化编码单元32连接以将所有查询图像量化编码后的全部局部特征做池化处理，得到待检索目标视频的量化后的局部特征池化集合；

比较单元34与第二池化单元33、分布式存储模块20连接以按照所述的反向文件索引，将待检索目标视频量化后的局部特征池化集合与数据库视频中单个视频镜头的量化后的局部特征池化集合进行相似度比较；

检索单元35与比较单元34连接以根据比较得到的相似度，对查询出的视频文件进行排序，完成目标视频的在线检索。

具体地，第一聚类单元13具体用于：

相应地，所述的第一量化编码单元14，具体用于：

具体地，分布式存储模块20具体包括：链表建立单元21和反向索引建立单元22；

链表建立单元21依次以数据库视频局部特征的码本中的每个码字ID为表头，建立链表；

反向索引建立单元22与链表建立单元21连接以对数据库中的视频进行扫描，将所有包含该码字的视频镜头ID及相关信息压入链表中，得到反向文件索引，其中，所述的相关信息包括词频和汉明码。

具体地，视频处理模块30还包括匹配单元36；

匹配单元36与第二量化编码单元32连接以将量化编码后的所有查询图像的全部局部特征交叉比对，确定所有查询图像的特征匹配重叠区域为待搜索目标区域；

相应地，所述的第二池化单元33与匹配单元36连接，具体用于：

应当说明的是，基于多幅图像融合的视频检索***的具体工作过程及要点与上述基于多幅图像融合的视频检索方法相同，此处不再赘述。

需要说明的是，本发明公开的基于多幅图像融合的视频检索方法及***具有如下的技术效果：

(1)使用多幅查询目标图像，在表达目标对象时，可以兼顾不同视角，使描述更加精准，这对提高检索***的查全率有很大的帮助。同时多图查询时通过特征池化，可以像单幅图像查询一样，仍只以一个特征向量来描述待查找目标，使得搜索效率基本保持不变。

(2)数据库视频部分的离线处理，通过特征池化，以视频镜头而不是关键帧为单位，保留池化后的量化特征向量，极大地减少内存耗费与数据库中的记录数目，极大的提高了检索效率，节约内存消耗至原技术的几十至数千分之一，同时保持相当、甚至更高的搜索精度。

(3)在多幅查询图像输入部分，通过所有查询图像间特征的相关性来自动发掘共同的特征子集，以该集合确定待搜索目标在图像中的空间位置区域，不依赖于任何人工标注，就可得到待搜索目标的区域，以此为查询，得到比整张图片更加精准的查询结果。

Claims

1.一种基于多幅图像融合的视频检索方法，其特征在于，包括：

根据待检索目标视频的多幅查询图像和反向文件索引，进行目标视频的在线检索；

所述的根据待检索目标视频的多幅查询图像和反向文件索引，进行目标视频的在线检索，具体包括：

对待检索目标视频的所有查询图像进行局部特征提取；

按照所述数据库视频局部特征的码本，对所有查询图像的全部局部特征进行量化编码；

将所有查询图像量化编码后的全部局部特征做池化处理，得到所有查询图像量化后的局部特征池化集合；

按照所述的反向文件索引，将待检索目标视频量化后的局部特征池化集合与数据库视频中单个视频镜头量化后的局部特征池化集合进行相似度比较；

根据比较得到的相似度，对查询出的视频文件进行排序，完成目标视频的在线检索；

在所述的按照数据库视频局部特征的码本，对所有查询图像的所有局部特征进行量化编码之后，还包括：

将量化编码后所有查询图像的全部局部特征交叉比对，确定所有查询图像的特征匹配重叠区域为待搜索目标区域；

相应地，所述的将所有查询图像量化编码后的全部局部特征做池化处理，得到所有查询图像量化后的局部特征池化集合，具体包括：

对落在待搜索目标区域内的所有查询图像的局部特征进行池化，得到待检索目标视频量化后的局部特征池化集合。

2.如权利要求1所述的方法，其特征在于，所述的对部分局部特征进行聚类，将得到的聚类中心集合作为数据库视频局部特征的码本，具体包括：

相应地，所述的按照数据库视频局部特征的码本，对数据库视频的所有局部特征进行量化编码，具体包括：

3.如权利要求1所述的方法，其特征在于，所述的根据数据库视频局部特征的码本和单个视频镜头的量化后的局部特征池化集合，建立反向文件索引，具体包括：

4.一种基于多幅图像融合的视频检索***，其特征在于，包括：视频处理模块(10)、分布式存储模块(20)以及检索模块(30)；

视频处理模块(10)包括处理单元(11)、第一提取单元(12)、第一聚类单元(13)、第一量化编码单元(14)以及第一池化单元(15)；

处理单元(11)与数据库连接，对数据库中的视频进行解码与视频镜头分割，得到多个视频镜头；

第一提取单元(12)与处理单元(11)连接以对单个视频镜头进行关键帧提取，并对关键帧进行局部特征提取；

第一聚类单元(13)与第一提取单元(12)连接以对部分局部特征进行聚类，将得到的聚类中心集合作为数据库视频局部特征的码本；

第一量化编码单元(14)与第一聚类单元(13)连接以按照数据库视频局部特征的码本，对数据库视频的所有局部特征进行量化编码；

第一池化单元(15)与第一量化编码单元(14)连接以在量化编码后，对单个视频镜头所有关键帧的局部特征集合进行池化处理，得到单个视频镜头量化后的局部特征池化集合；

分布式存储模块(20)与视频处理模块(10)连接以根据数据库视频局部特征的码本和单个视频镜头量化后的局部特征池化集合，建立反向文件索引；

检索模块(30)与分布式存储模块(20)连接以根据待检索目标视频的多幅查询图像和反向文件索引，进行目标视频的在线检索；

所述的检索模块(30)具体包括：第二提取单元(31)、第二量化编码单元(32)、第二池化单元(33)、比较单元(34)以及检索单元(35)；

第二提取单元(31)对待检索目标视频的所有查询图像进行局部特征提取；

第二量化编码单元(32)与第二提取单元(31)连接以按照所述数据库视频局部特征的码本，对所有查询图像的所有局部特征进行量化编码；

第二池化单元(33)与第二量化编码单元(32)连接以将所有查询图像量化编码后的全部局部特征做池化处理，得到待检索目标视频的量化后的局部特征池化集合；

比较单元(34)与第二池化单元(33)连接以按照所述的反向文件索引，将待检索目标视频量化后的局部特征池化集合与数据库视频中单个视频镜头量化后的局部特征池化集合进行相似度比较；

检索单元(35)与比较单元(34)连接以根据比较得到的相似度，对查询出的视频文件进行排序，完成目标视频的在线检索；

所述的检索模块(30)还包括匹配单元(36)；

匹配单元(36)与第二量化编码单元(32)连接以将量化编码后的所有查询图像的全部局部特征交叉比对，确定所有查询图像的特征匹配重叠区域为待搜索目标区域；

相应地，所述的第二池化单元(33)与匹配单元(36)连接，具体用于：

5.如权利要求4所述的***，其特征在于，所述的第一聚类单元(13)具体用于：

相应地，所述的第一量化编码单元(14)，具体用于：

6.如权利要求4所述的***，其特征在在于，所述的分布式存储模块(20)具体包括：链表建立单元(21)和反向索引建立单元(22)；

链表建立单元(21)依次以数据库视频局部特征的码本中的每个码字ID为表头，建立链表；

反向索引建立单元(22)与链表建立单元(21)连接以对数据库中的视频进行扫描，将所有包含该码字的视频镜头ID及相关信息压入链表中，得到反向文件索引。