CN104809114A - 一种面向视频大数据的并行数据挖掘方法 - Google Patents

一种面向视频大数据的并行数据挖掘方法 Download PDF

Info

Publication number
CN104809114A
CN104809114A CN201410035192.XA CN201410035192A CN104809114A CN 104809114 A CN104809114 A CN 104809114A CN 201410035192 A CN201410035192 A CN 201410035192A CN 104809114 A CN104809114 A CN 104809114A
Authority
CN
China
Prior art keywords
video
data
large data
data mining
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410035192.XA
Other languages
English (en)
Inventor
宫夏屹
柴旭东
王恒
谢晓丹
曲慧杨
谷牧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Simulation Center
Original Assignee
Beijing Simulation Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Simulation Center filed Critical Beijing Simulation Center
Priority to CN201410035192.XA priority Critical patent/CN104809114A/zh
Publication of CN104809114A publication Critical patent/CN104809114A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种面向视频大数据的并行数据挖掘方法,该方法包括:1)构建视频大数据挖掘***;2)大数据索引和描述模块构建视频大数据索引;3)特征提取、视频摘要加速模块对视频大数据进行关键信息提取过程提供加速;4)并行数据挖掘算法与策略模块对视频关键信息数据进行挖掘。所述数据挖掘方法能优化视频数据挖掘进程,提高了算法适用性,使得对视频大数据的数据挖掘能够快速高效地进行。

Description

一种面向视频大数据的并行数据挖掘方法
技术领域
本发明涉及一种数据挖掘方法,特别涉及一种面向视频大数据的并行数据挖掘方法。
背景技术
大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。大数据具有4个典型特征:大体量、多样性、价值密度低、速度快。海量的公共安全视频作为一种非结构化数据具有大数据的典型特征,而针对视频大数据的数据挖掘是大数据挖掘研究的一个重要方向,也是技术难点。对国内在大数据方面的研究工作进行分析,可以发现目前大数据的研究还比较零散,在大数据处理平台架构上大多基于Hadoop技术,大量的研究集中在大数据的挖掘分析方法上,还没有形成支撑大数据处理平台开发的相关技术体系。而数据挖掘技术在公安工作中的研究与应用尚处于起步阶段,许多公安业务信息***还停留在初级处理水平,缺乏综合性的开发应用,智能化的分析研判,科学性的决策预警。同时面向公安业务的标准体系尚未完全建立。
由于在实际公共安全业务应用中,大数据挖掘***通常涉及海量的视频数据,视频大数据的描述及视频索引难以进行;常用数据挖掘算法没有考虑数据的多类别,使得其在非结构化数据的挖掘中很难适用,同时传统的并行挖掘方法运行开销大,适应性很差的问题,这就需要一种能够有效对视频大数据进行索引构建及并行挖掘的方法,以保证视频大数据的高效分析处理,从而支持公共安全领域的业务应用。
发明内容
针对公安等应用领域的视频数据所具有的多样性、价值密度低、处理速度快的要求,研究大数据的并行挖掘技术,从大数据描述、特征提取、数据挖掘及智能关联分析等方面,提出一体化的解决方法。总的来说,本文提供一种面向视频大数据的并行数据挖掘方法,解决视频大数据中关联关系挖掘,高效、智能化分析联动的问题。
本发明的目的通过以下技术方案来实现:
一种面向视频大数据的并行数据挖掘方法,该方法包括:
1)构建视频大数据挖掘***;
2)大数据索引和描述模块构建视频大数据索引;
3)特征提取、视频摘要加速模块对视频大数据进行关键信息提取过程提供加速;
4)并行数据挖掘算法与策略模块对视频关键信息数据进行挖掘。
所述视频大数据挖掘***包括:
大数据索引和描述模块,用于构建视频大数据的索引;
特征提取、视频摘要加速模块,用于对支持视频大数据进行智能分析,并基于CUDA实现视频关键特征的提取及视频摘要过程的加速;
并行数据挖掘算法与策略模块,用于对视频数据进行分类、关联分析。
所述视频大数据的索引包括支持各类视频数据的访问层次索引、R树索引和分类索引。
所述并行数据挖掘算法与策略模块采用基于MapReduce编程模型的改进Apriori算法对视频大数据进行数据挖掘,具体步骤如下:
401)MapReduce库将事务数据库进行水平划分,分成n个规模相当的数据子集,把n个数据子集发送到m个执行Map任务的节点;
402)对n个数据子集进行格式化,产生<key1,value1>对,具体格式化为<Tid,list>,这里Tid表示事务数据库中的事务标识符,list为事务数据库中的事务对应的列表值;
403)Map函数的任务是对输入的数据子集的每个记录<Tid,list>进行扫描,产生一个局部候选项集的集合,记作Cp,每个候选项集的支持度计数为1;
404)在每台执行Map任务的机器上增加一个可选的Combiner函数,Combiner函数首先在本地将Map函数输出进行一次合并输出<itemsets,sup>,sup表示itemsets在数据子集中的支持度计数,然后利用分区函数hash(key)mod R将Combiner函数产生的中间键值对分成R个不同的分区,将每个分区分配到指定的Reduce函数;
405)被分配了Reduce任务的节点读取Combiner函数提交的数据<itemsets,sup>,由于许多不同的候选项集会映射到相同的Reduce函数,因此对键值itemsets进行排序使得具有相同候选项集的数据聚合在一起,形成<itemsets,list(sup)>;
406)把比较之后的r个Reduce函数的输出的项Lp集合,就得到最终的频繁项集的集合,记作L。
本发明的优点在于:
本方法实现了面向视频大数据的统一索引的建立,能够支持快速地检索访问视频数据。通过引进CUDA架构,采用并行技术进一步加速了视频特征提取、视频摘要的提取进程;通过引进基于MapReduce编程模型的改进Apriori算法,优化了视频数据挖掘进程,提高了算法适用性,使得对视频大数据的数据挖掘能够快速高效地进行。适用于***规模大、视频数据量大且为分别式存储的视频大数据的数据挖掘,适用于公共安全领域。
附图说明
图1:本发明方法流程图。
具体实施方式
下面结合图1详细说明本发明一种面向视频大数据的并行数据挖掘方法。该方法的具体步骤如下。
第一步:构建视频大数据挖掘***
视频大数据挖掘***包括:大数据索引和描述模块,特征提取、视频摘要模块和并行数据挖掘算法与策略模块。大数据索引和描述模块构建视频大数据的索引,包括层次索引、R树索引和分类索引等以支持各类视频数据的访问;特征提取、视频摘要加速模块对支持视频大数据进行智能分析,基于CUDA实现视频关键特征的提取及视频摘要过程的加速;并行数据挖掘算法与策略模块对视频数据进行分类、关联分析。
第二步:大数据索引和描述模块构建视频大数据索引
大数据索引和描述模块采用存储索引模型,通过建立层次索引树、R树索引和分类索引共同构成一个统一的接口,即构造了一个统一的访问接口与用户交互,用户通过该接口对大数据进行访问。
视频大数据具有多类别的特点,针对这一特征,建立以类别为内容的分类索引,通过分类索引的综合查询到所需的专题数据。R树索引是一种层次数据结构动态索引算法,采用最小边界矩形(Minimum Bounding Rectangle,MBR)来近似复杂的空间对象,无需预知整个研究区域的索引范围,适用于区域空间数据,故空间数据可采用R树建立索引,提供简单而快速的查询接口。要建立两种索引内容之间的关系,由于MBR与分类索引无法直接建立关系,考虑另建立第三个存储索引模型来建立两者的联系,并提供给用户的接口访问公共安全数据,该接口能够对两种数据同时进行访问。存储索引模型包含MBR的内容与R树索引对应,同时包含相应的内容与分类索引建立联系。
第三步:特征提取、视频摘要加速模块对视频大数据进行关键信息提取过程提供加速,为提取过程进行加速。
第二步建立视频大数据索引后,特征提取、视频摘要***能够对视频大数据进行信息提取。特征提取、视频摘要加速模块基于CUDA架构,利用并行处理的方法实现对特征提取、视频摘要过程的加速。CUDA提供了一个非常强大方便的GPU处理平台,在视频处理中能够提供几倍乃至上百倍的加速比。基于CUDA架构,特征提取、视频摘要的处理进程被分为host端和device端两部分,Host端是指在CPU上执行的部份,而device端则是在显示芯片上执行的部份,其可并行进行视频数据处理。Device端的程序又称为“kernel”。通常host端程序会将数据准备好后,复制到显卡的内存中,再由显示芯片执行device端程序,完成后再由host端程序将结果从显卡的内存中取回。
在CUDA架构下,显示芯片执行时的最小单位是thread。数个thread可以组成一个block。一个block中的thread能存取同一块共享的内存,而且可以快速进行同步的动作。每一个block所能包含的thread数目是有限的。不过,执行相同程序的block,可以组成grid。不同block中的thread无法存取同一个共享的内存,因此无法直接互通或进行同步。因此,不同block中的thread能合作的程度是比较低的。不过,利用这个模式,可以让程序不用担心显示芯片实际上能同时执行的thread数目限制。例如,一个具有很少量执行单元的显示芯片,可能会把各个block中的thread顺序执行,而非同时执行。不同的grid则可以执行不同的程序(即kernel)。Grid、block和thread的关系。
每个thread都有自己的一份register和local memory的空间。同一个block中的每个thread则有共享的一份share memory。此外,所有的thread(包括不同block的thread)都共享一份global memory、constantmemory和texture memory。不同的grid则有各自的global memory、constantmemory和texture memory。这样就可以大大提升对视频数据的特征提取及视频摘要的处理速度。
第四步:并行数据挖掘算法与策略模块对视频关键信息数据进行挖掘
并行数据挖掘算法与策略模块采用基于MapReduce编程模型的改进Apriori算法对视频大数据进行数据挖掘。MapReduce编程模型可将并行编程中复杂的业务逻辑进行抽象化,将简单的计算作为接口进行展现,而对复杂的并行化处理、容错、数据分布和负载平衡均进行了隐藏。
MapReduce编程模型的改进Apriori算法的执行步骤如下:
步骤一:MapReduce库将用于存储本文研究的大数据事务数据库进行水平划分,分成n个规模相当的数据子集,把n个数据子集发送到m个执行Map任务的节点。
步骤二:对n个数据子集进行格式化,产生<key1,value1>对,具体格式化为<Tid,list>,这里Tid表示事务数据库中的事务标识符,list为事务数据库中的事务对应的列表值。
步骤三:Map函数的任务是对输入的数据子集的每个记录<Tid,list>进行扫描,产生一个局部候选项集的集合,记作Cp,每个候选项集的支持度计数为1。Map函数生成并输出中间<key2,value2>对,这里定义为<itemsets,1>对,itemsets表示Cp中的候选项集。下面是map的伪代码段:
步骤四:在每台执行Map任务的机器上增加一个可选的Combiner函数,Combiner函数首先在本地将Map函数输出进行一次合并输出<itemsets,sup>,sup表示itemsets在数据子集中的支持度计数,然后利用分区函数hash(key)mod R将Combiner函数产生的中间键值对分成R个不同的分区,将每个分区分配到指定的Reduce函数。
步骤五:被分配了Reduce任务的节点读取Combiner函数提交的数据<itemsets,sup>,由于许多不同的候选项集会映射到相同的Reduce函数,因此对键值itemsets进行排序使得具有相同候选项集的数据聚合在一起,形成<itemsets,list(sup)>。工作站点遍历排序后的中间数据,将<itemsets,list(sup)>传递给Reduce函数,然后Reduce函数把相同候选项集itemsest的支持度计数累加起来,就得到此候选项集在整个事务数据库中的实际支持度计数,然后和最小支持度计数min_sup相比较,确定局部频繁项集的集合,记作Lp。
步骤六:把比较之后的r个Reduce函数的输出的项Lp集合,就得到最终的频繁项集的集合,记作L。
算法执行结束。
应当理解,以上借助优选实施例对本发明的技术方案进行的详细说明是示意性的而非限制性的。本领域的普通技术人员在阅读本发明说明书的基础上可以对各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (4)

1.一种面向视频大数据的并行数据挖掘方法,其特征在于,该方法包括:
1)构建视频大数据挖掘***;
2)大数据索引和描述模块构建视频大数据索引;
3)特征提取、视频摘要加速模块对视频大数据进行关键信息提取过程提供加速;
4)并行数据挖掘算法与策略模块对视频关键信息数据进行挖掘。
2.根据权利要求1所述的一种面向视频大数据的并行数据挖掘方法,其特征在于,所述视频大数据挖掘***包括:
大数据索引和描述模块,用于构建视频大数据的索引;
特征提取、视频摘要加速模块,用于对支持视频大数据进行智能分析,并基于CUDA实现视频关键特征的提取及视频摘要过程的加速;
并行数据挖掘算法与策略模块,用于对视频数据进行分类、关联分析。
3.根据权利要求2所述的一种面向视频大数据的并行数据挖掘方法,其特征在于,所述视频大数据的索引包括支持各类视频数据的访问层次索引、R树索引和分类索引。
4.据权利要求1所述的一种面向视频大数据的并行数据挖掘方法,其特征在于,所述并行数据挖掘算法与策略模块采用基于MapReduce编程模型的改进Apriori算法对视频大数据进行数据挖掘,具体步骤如下:
401)MapReduce库将事务数据库进行水平划分,分成n个规模相当的数据子集,把n个数据子集发送到m个执行Map任务的节点;
402)对n个数据子集进行格式化,产生<key1,value1>对,具体格式化为<Tid,list>,这里Tid表示事务数据库中的事务标识符,list为事务数据库中的事务对应的列表值;
403)Map函数的任务是对输入的数据子集的每个记录<Tid,list>进行扫描,产生一个局部候选项集的集合,记作Cp,每个候选项集的支持度计数为1;
404)在每台执行Map任务的机器上增加一个可选的Combiner函数,Combiner函数首先在本地将Map函数输出进行一次合并输出<itemsets,sup>,sup表示itemsets在数据子集中的支持度计数,然后利用分区函数hash(key)mod R将Combiner函数产生的中间键值对分成R个不同的分区,将每个分区分配到指定的Reduce函数;
405)被分配了Reduce任务的节点读取Combiner函数提交的数据<itemsets,sup>,由于许多不同的候选项集会映射到相同的Reduce函数,因此对键值itemsets进行排序使得具有相同候选项集的数据聚合在一起,形成<itemsets,list(sup)>;
406)把比较之后的r个Reduce函数的输出的项Lp集合,就得到最终的频繁项集的集合,记作L。
CN201410035192.XA 2014-01-24 2014-01-24 一种面向视频大数据的并行数据挖掘方法 Pending CN104809114A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410035192.XA CN104809114A (zh) 2014-01-24 2014-01-24 一种面向视频大数据的并行数据挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410035192.XA CN104809114A (zh) 2014-01-24 2014-01-24 一种面向视频大数据的并行数据挖掘方法

Publications (1)

Publication Number Publication Date
CN104809114A true CN104809114A (zh) 2015-07-29

Family

ID=53693945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410035192.XA Pending CN104809114A (zh) 2014-01-24 2014-01-24 一种面向视频大数据的并行数据挖掘方法

Country Status (1)

Country Link
CN (1) CN104809114A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975544A (zh) * 2016-04-28 2016-09-28 天津贝德曼科技有限公司 一类大数据挖掘的“特质技法库”构造技术
CN106126341A (zh) * 2016-06-23 2016-11-16 成都信息工程大学 应用于大数据的多计算框架处理***及关联规则挖掘方法
CN106708620A (zh) * 2015-11-13 2017-05-24 苏宁云商集团股份有限公司 一种处理数据的方法及***
CN107273435A (zh) * 2017-05-23 2017-10-20 北京环境特性研究所 基于MapReduce的视频人员模糊检索并行化方法
CN107707328A (zh) * 2016-08-08 2018-02-16 北京京东尚科信息技术有限公司 摘要信息传输方法和装置
CN110399397A (zh) * 2018-04-19 2019-11-01 北京京东尚科信息技术有限公司 一种数据查询方法和***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663005A (zh) * 2012-03-19 2012-09-12 杭州海康威视***技术有限公司 基于云计算的海量视频文件存储***、分析方法及其***
US20120275363A1 (en) * 2009-10-23 2012-11-01 Zte Corporation Method and system for realizing carrier control

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120275363A1 (en) * 2009-10-23 2012-11-01 Zte Corporation Method and system for realizing carrier control
CN102663005A (zh) * 2012-03-19 2012-09-12 杭州海康威视***技术有限公司 基于云计算的海量视频文件存储***、分析方法及其***

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
佚名: "大数据技术引领视频监控发展", 《HTTP://WWW.CTIFORUM.COM/NEWS/GUANDIAN/379338.HTML》 *
劳定雄: "视频监控大数据的关键技术和应用", 《HTTP://WWW.CSPMAG.CN/JSCX/JCJS/201401/673.HTML》 *
孙元成: "基于Hadoop的视频监控数据中心关键支撑技术研究与应用", 《中国优秀硕士学位论文全文数据库》 *
张敏: "云计算环境下的并行数据挖掘策略研究", 《中国优秀硕士学位论文全文数据库》 *
韩海雯: "基于云计算的广域级视频监控综合业务平台", 《计算机工程与设计》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708620A (zh) * 2015-11-13 2017-05-24 苏宁云商集团股份有限公司 一种处理数据的方法及***
CN105975544A (zh) * 2016-04-28 2016-09-28 天津贝德曼科技有限公司 一类大数据挖掘的“特质技法库”构造技术
CN106126341A (zh) * 2016-06-23 2016-11-16 成都信息工程大学 应用于大数据的多计算框架处理***及关联规则挖掘方法
CN107707328A (zh) * 2016-08-08 2018-02-16 北京京东尚科信息技术有限公司 摘要信息传输方法和装置
CN107707328B (zh) * 2016-08-08 2020-11-24 北京京东尚科信息技术有限公司 摘要信息传输方法和装置
CN107273435A (zh) * 2017-05-23 2017-10-20 北京环境特性研究所 基于MapReduce的视频人员模糊检索并行化方法
CN110399397A (zh) * 2018-04-19 2019-11-01 北京京东尚科信息技术有限公司 一种数据查询方法和***

Similar Documents

Publication Publication Date Title
CN104809114A (zh) 一种面向视频大数据的并行数据挖掘方法
Zhang et al. Spatial queries evaluation with mapreduce
Breß et al. Why it is time for a HyPE: A hybrid query processing engine for efficient GPU coprocessing in DBMS
KR101245994B1 (ko) 대용량 데이터의 분산 병렬 처리 시스템 및 방법
Wen et al. Exploiting GPUs for efficient gradient boosting decision tree training
CN104933095A (zh) 异构信息通用性关联分析***及其分析方法
Li et al. Research on clustering algorithm and its parallelization strategy
CN104820708B (zh) 一种基于云计算平台的大数据聚类方法和装置
CN104834557B (zh) 一种基于Hadoop的数据分析方法
Zhang et al. Large-scale spatial data processing on GPUs and GPU-accelerated clusters
CN107341210B (zh) Hadoop平台下的C-DBSCAN-K聚类算法
You et al. Spatial join query processing in cloud: Analyzing design choices and performance comparisons
Yan et al. A parallel algorithm for mining constrained frequent patterns using MapReduce
CN111475837B (zh) 一种网络大数据隐私保护方法
CN103995827A (zh) MapReduce计算框架中的高性能排序方法
CN105302551B (zh) 一种大数据处理***的正交分解构造与优化的方法及***
Zoraghchian et al. Parallel frequent itemsets mining using distributed graphic processing units
CN104834733A (zh) 一种大数据挖掘分析方法
US20200183749A1 (en) Systems and methods for accelerating data operations by utilizing native memory management
Chong et al. A Multi-GPU framework for in-memory text data analytics
Gao et al. Construction and Optimization of Co-occurrence-attribute-interaction Model for Column Semantic Recognition.
Zhang et al. Data Parallel Quadtree Indexing and Spatial Query Processing of Complex Polygon Data on GPUs.
Pokhrel et al. Design of fast and scalable clustering algorithm on spark
US11843523B1 (en) Microservices anti-pattern discovery
Wang et al. Tunnel security management based on association rule mining under Hadoop platform

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150729