CN104809114A

CN104809114A - 一种面向视频大数据的并行数据挖掘方法

Info

Publication number: CN104809114A
Application number: CN201410035192.XA
Authority: CN
Inventors: 宫夏屹; 柴旭东; 王恒; 谢晓丹; 曲慧杨; 谷牧
Original assignee: Beijing Simulation Center
Current assignee: Beijing Simulation Center
Priority date: 2014-01-24
Filing date: 2014-01-24
Publication date: 2015-07-29

Abstract

本发明涉及一种面向视频大数据的并行数据挖掘方法，该方法包括：1）构建视频大数据挖掘***；2）大数据索引和描述模块构建视频大数据索引；3）特征提取、视频摘要加速模块对视频大数据进行关键信息提取过程提供加速；4）并行数据挖掘算法与策略模块对视频关键信息数据进行挖掘。所述数据挖掘方法能优化视频数据挖掘进程，提高了算法适用性，使得对视频大数据的数据挖掘能够快速高效地进行。

Description

一种面向视频大数据的并行数据挖掘方法

技术领域

本发明涉及一种数据挖掘方法，特别涉及一种面向视频大数据的并行数据挖掘方法。

背景技术

大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。大数据具有4个典型特征：大体量、多样性、价值密度低、速度快。海量的公共安全视频作为一种非结构化数据具有大数据的典型特征，而针对视频大数据的数据挖掘是大数据挖掘研究的一个重要方向，也是技术难点。对国内在大数据方面的研究工作进行分析，可以发现目前大数据的研究还比较零散，在大数据处理平台架构上大多基于Hadoop技术，大量的研究集中在大数据的挖掘分析方法上，还没有形成支撑大数据处理平台开发的相关技术体系。而数据挖掘技术在公安工作中的研究与应用尚处于起步阶段，许多公安业务信息***还停留在初级处理水平，缺乏综合性的开发应用，智能化的分析研判，科学性的决策预警。同时面向公安业务的标准体系尚未完全建立。

由于在实际公共安全业务应用中，大数据挖掘***通常涉及海量的视频数据，视频大数据的描述及视频索引难以进行；常用数据挖掘算法没有考虑数据的多类别，使得其在非结构化数据的挖掘中很难适用，同时传统的并行挖掘方法运行开销大，适应性很差的问题，这就需要一种能够有效对视频大数据进行索引构建及并行挖掘的方法，以保证视频大数据的高效分析处理，从而支持公共安全领域的业务应用。

发明内容

针对公安等应用领域的视频数据所具有的多样性、价值密度低、处理速度快的要求，研究大数据的并行挖掘技术，从大数据描述、特征提取、数据挖掘及智能关联分析等方面，提出一体化的解决方法。总的来说，本文提供一种面向视频大数据的并行数据挖掘方法，解决视频大数据中关联关系挖掘，高效、智能化分析联动的问题。

本发明的目的通过以下技术方案来实现：

一种面向视频大数据的并行数据挖掘方法，该方法包括：

1）构建视频大数据挖掘***；

2）大数据索引和描述模块构建视频大数据索引；

3）特征提取、视频摘要加速模块对视频大数据进行关键信息提取过程提供加速；

4）并行数据挖掘算法与策略模块对视频关键信息数据进行挖掘。

所述视频大数据挖掘***包括：

大数据索引和描述模块，用于构建视频大数据的索引；

特征提取、视频摘要加速模块，用于对支持视频大数据进行智能分析，并基于CUDA实现视频关键特征的提取及视频摘要过程的加速；

并行数据挖掘算法与策略模块，用于对视频数据进行分类、关联分析。

所述视频大数据的索引包括支持各类视频数据的访问层次索引、R树索引和分类索引。

所述并行数据挖掘算法与策略模块采用基于MapReduce编程模型的改进Apriori算法对视频大数据进行数据挖掘，具体步骤如下：

401）MapReduce库将事务数据库进行水平划分，分成n个规模相当的数据子集，把n个数据子集发送到m个执行Map任务的节点；

402）对n个数据子集进行格式化，产生<key1,value1>对，具体格式化为<Tid，list>，这里Tid表示事务数据库中的事务标识符，list为事务数据库中的事务对应的列表值；

403）Map函数的任务是对输入的数据子集的每个记录<Tid，list>进行扫描，产生一个局部候选项集的集合，记作Cp，每个候选项集的支持度计数为1；

404）在每台执行Map任务的机器上增加一个可选的Combiner函数，Combiner函数首先在本地将Map函数输出进行一次合并输出<itemsets,sup>，sup表示itemsets在数据子集中的支持度计数，然后利用分区函数hash(key)mod R将Combiner函数产生的中间键值对分成R个不同的分区，将每个分区分配到指定的Reduce函数；

405）被分配了Reduce任务的节点读取Combiner函数提交的数据<itemsets,sup>，由于许多不同的候选项集会映射到相同的Reduce函数，因此对键值itemsets进行排序使得具有相同候选项集的数据聚合在一起，形成<itemsets,list(sup)>；

406）把比较之后的r个Reduce函数的输出的项Lp集合，就得到最终的频繁项集的集合，记作L。

本发明的优点在于：

本方法实现了面向视频大数据的统一索引的建立，能够支持快速地检索访问视频数据。通过引进CUDA架构，采用并行技术进一步加速了视频特征提取、视频摘要的提取进程；通过引进基于MapReduce编程模型的改进Apriori算法，优化了视频数据挖掘进程，提高了算法适用性，使得对视频大数据的数据挖掘能够快速高效地进行。适用于***规模大、视频数据量大且为分别式存储的视频大数据的数据挖掘，适用于公共安全领域。

附图说明

图1：本发明方法流程图。

具体实施方式

下面结合图1详细说明本发明一种面向视频大数据的并行数据挖掘方法。该方法的具体步骤如下。

第一步：构建视频大数据挖掘***

视频大数据挖掘***包括：大数据索引和描述模块，特征提取、视频摘要模块和并行数据挖掘算法与策略模块。大数据索引和描述模块构建视频大数据的索引，包括层次索引、R树索引和分类索引等以支持各类视频数据的访问；特征提取、视频摘要加速模块对支持视频大数据进行智能分析，基于CUDA实现视频关键特征的提取及视频摘要过程的加速；并行数据挖掘算法与策略模块对视频数据进行分类、关联分析。

第二步：大数据索引和描述模块构建视频大数据索引

大数据索引和描述模块采用存储索引模型，通过建立层次索引树、R树索引和分类索引共同构成一个统一的接口，即构造了一个统一的访问接口与用户交互，用户通过该接口对大数据进行访问。

视频大数据具有多类别的特点，针对这一特征，建立以类别为内容的分类索引，通过分类索引的综合查询到所需的专题数据。R树索引是一种层次数据结构动态索引算法，采用最小边界矩形(Minimum Bounding Rectangle，MBR)来近似复杂的空间对象，无需预知整个研究区域的索引范围，适用于区域空间数据，故空间数据可采用R树建立索引，提供简单而快速的查询接口。要建立两种索引内容之间的关系，由于MBR与分类索引无法直接建立关系，考虑另建立第三个存储索引模型来建立两者的联系，并提供给用户的接口访问公共安全数据，该接口能够对两种数据同时进行访问。存储索引模型包含MBR的内容与R树索引对应，同时包含相应的内容与分类索引建立联系。

第三步：特征提取、视频摘要加速模块对视频大数据进行关键信息提取过程提供加速，为提取过程进行加速。

第二步建立视频大数据索引后，特征提取、视频摘要***能够对视频大数据进行信息提取。特征提取、视频摘要加速模块基于CUDA架构，利用并行处理的方法实现对特征提取、视频摘要过程的加速。CUDA提供了一个非常强大方便的GPU处理平台，在视频处理中能够提供几倍乃至上百倍的加速比。基于CUDA架构，特征提取、视频摘要的处理进程被分为host端和device端两部分，Host端是指在CPU上执行的部份，而device端则是在显示芯片上执行的部份，其可并行进行视频数据处理。Device端的程序又称为“kernel”。通常host端程序会将数据准备好后，复制到显卡的内存中，再由显示芯片执行device端程序，完成后再由host端程序将结果从显卡的内存中取回。

在CUDA架构下，显示芯片执行时的最小单位是thread。数个thread可以组成一个block。一个block中的thread能存取同一块共享的内存，而且可以快速进行同步的动作。每一个block所能包含的thread数目是有限的。不过，执行相同程序的block，可以组成grid。不同block中的thread无法存取同一个共享的内存，因此无法直接互通或进行同步。因此，不同block中的thread能合作的程度是比较低的。不过，利用这个模式，可以让程序不用担心显示芯片实际上能同时执行的thread数目限制。例如，一个具有很少量执行单元的显示芯片，可能会把各个block中的thread顺序执行，而非同时执行。不同的grid则可以执行不同的程序（即kernel）。Grid、block和thread的关系。

每个thread都有自己的一份register和local memory的空间。同一个block中的每个thread则有共享的一份share memory。此外，所有的thread（包括不同block的thread）都共享一份global memory、constantmemory和texture memory。不同的grid则有各自的global memory、constantmemory和texture memory。这样就可以大大提升对视频数据的特征提取及视频摘要的处理速度。

第四步：并行数据挖掘算法与策略模块对视频关键信息数据进行挖掘

并行数据挖掘算法与策略模块采用基于MapReduce编程模型的改进Apriori算法对视频大数据进行数据挖掘。MapReduce编程模型可将并行编程中复杂的业务逻辑进行抽象化，将简单的计算作为接口进行展现，而对复杂的并行化处理、容错、数据分布和负载平衡均进行了隐藏。

MapReduce编程模型的改进Apriori算法的执行步骤如下：

步骤一：MapReduce库将用于存储本文研究的大数据事务数据库进行水平划分，分成n个规模相当的数据子集，把n个数据子集发送到m个执行Map任务的节点。

步骤二：对n个数据子集进行格式化，产生<key1,value1>对，具体格式化为<Tid，list>，这里Tid表示事务数据库中的事务标识符，list为事务数据库中的事务对应的列表值。

步骤三：Map函数的任务是对输入的数据子集的每个记录<Tid，list>进行扫描，产生一个局部候选项集的集合，记作Cp，每个候选项集的支持度计数为1。Map函数生成并输出中间<key2，value2>对，这里定义为<itemsets,1>对，itemsets表示Cp中的候选项集。下面是map的伪代码段：

步骤四：在每台执行Map任务的机器上增加一个可选的Combiner函数，Combiner函数首先在本地将Map函数输出进行一次合并输出<itemsets,sup>，sup表示itemsets在数据子集中的支持度计数，然后利用分区函数hash(key)mod R将Combiner函数产生的中间键值对分成R个不同的分区，将每个分区分配到指定的Reduce函数。

步骤五：被分配了Reduce任务的节点读取Combiner函数提交的数据<itemsets,sup>，由于许多不同的候选项集会映射到相同的Reduce函数，因此对键值itemsets进行排序使得具有相同候选项集的数据聚合在一起，形成<itemsets,list(sup)>。工作站点遍历排序后的中间数据，将<itemsets,list(sup)>传递给Reduce函数，然后Reduce函数把相同候选项集itemsest的支持度计数累加起来，就得到此候选项集在整个事务数据库中的实际支持度计数，然后和最小支持度计数min_sup相比较，确定局部频繁项集的集合，记作Lp。

步骤六：把比较之后的r个Reduce函数的输出的项Lp集合，就得到最终的频繁项集的集合，记作L。

算法执行结束。

应当理解，以上借助优选实施例对本发明的技术方案进行的详细说明是示意性的而非限制性的。本领域的普通技术人员在阅读本发明说明书的基础上可以对各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种面向视频大数据的并行数据挖掘方法，其特征在于，该方法包括：

1）构建视频大数据挖掘***；

2）大数据索引和描述模块构建视频大数据索引；

2.根据权利要求1所述的一种面向视频大数据的并行数据挖掘方法，其特征在于，所述视频大数据挖掘***包括：

大数据索引和描述模块，用于构建视频大数据的索引；

3.根据权利要求2所述的一种面向视频大数据的并行数据挖掘方法，其特征在于，所述视频大数据的索引包括支持各类视频数据的访问层次索引、R树索引和分类索引。

4.据权利要求1所述的一种面向视频大数据的并行数据挖掘方法，其特征在于，所述并行数据挖掘算法与策略模块采用基于MapReduce编程模型的改进Apriori算法对视频大数据进行数据挖掘，具体步骤如下：