CN111353637B - 一种基于时空序列的大型活动突发事件预测分层架构和方法 - Google Patents

一种基于时空序列的大型活动突发事件预测分层架构和方法 Download PDF

Info

Publication number
CN111353637B
CN111353637B CN202010111541.7A CN202010111541A CN111353637B CN 111353637 B CN111353637 B CN 111353637B CN 202010111541 A CN202010111541 A CN 202010111541A CN 111353637 B CN111353637 B CN 111353637B
Authority
CN
China
Prior art keywords
time
space
data
activity
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010111541.7A
Other languages
English (en)
Other versions
CN111353637A (zh
Inventor
丁治明
赵紫琳
曹阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202010111541.7A priority Critical patent/CN111353637B/zh
Publication of CN111353637A publication Critical patent/CN111353637A/zh
Application granted granted Critical
Publication of CN111353637B publication Critical patent/CN111353637B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Primary Health Care (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Alarm Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于时空序列的大型活动突发事件预测分层架构和方法,属于大数据分析管理领域,本发明将已有的结果数据纳入到统一的活动时空序列模型中,尽可能综合大型活动物理及网络空间全面的信息,构建特定场所历史活动时空大数据集合,通过观察研究同一地点、不同活动、不同时间的历史数据规律,实现对正在举办活动可能出现的突发事件进行宏观全面预测。时空序列模型按时间及空间对数据空间的划分,不仅大大减少了数据查询及分析等操作所涉及的数据量,而且划分后的数据更具有特定时间及区域的时空特性,使得突发事件决策层的监测数据分析更加精确可靠。

Description

一种基于时空序列的大型活动突发事件预测分层架构和方法
技术领域
本发明属于大数据分析管理领域,涉及历史物联网感知数据监测成果集成预测架构,以及基于该架构的大型活动突发事件预测方法。
背景技术
大型活动突发事件具有偶发性、不确定性、动态性、混沌效应等特点,这使得传统上对突发事件预测难度很大。近年来,随着云计算、大数据等信息化产业的发展,视频监控、人脸识别、人群密度分析、导航定位等技术得到了广泛的研究和应用,积累了海量的时空监测数据,这些数据为突发事件预测提供了良好的基础,使得通过大数据挖掘分析来实现突发事件预测成为可能。由于活动场馆本身的物理不变性,特定场馆举办的历届大型活动,其时空环境、人员活动等数据本身具有一定的特征和规律,因此,基于特定场馆历史举办活动所积累的观测数据来预测突发事件是否会发生成为可能。例如,在较长时间内,场所位置、周边环境、内部结构、道路特点等空间环境因素基本不变;相同类型活动(如,均为演唱会或足球比赛等)的日程具有相似性(如,活动准备、入场、进行、结束、退场等阶段)等,这些数据的规律性为突发事件预测提供很好的数据挖掘分析条件。
当前,采用历史时空数据进行特定领域、特定微观事件的突发事件预测已有较多相关研究成果,例如交通拥堵判别、人群密度检测、个体群体识别、异常行为检测等。这些研究成果的输出结果多为属性标签,每个成果一般是针对特定目标任务完成分类判别。这些成果都可以单独应用到大型活动的监测与追踪上。例如,将人群密度监测可以部署应用在活动出入口、过道、座位监测上,用以监测不同地点人群密度随活动开展的变化。通过场馆部署的监测装置对特定个体(如嫌疑人)进行识别,出现高风险个体出现的活动区域,其突发事件风险自然较高。针对微博、微信、头条等有关活动热点话题、热点事件的追踪也有助于评判活动突发事件存在的风险。这些独立的研究成果经过实验和实际验证,都可以单独应用到大型活动突发事件的监测上,但是,任何一个单独的判断都难以断定是否会有突发事件发生。将已有的针对特定问题、特定切面的研究成果综合应用到突发事件预测上,对于已有成果的实际运用有极高价值。
综上,本发明将已有相关研究成果的结果输出数据纳入到统一的活动突发事件预测分层架构中,为特定场所构建预测模型,包括传感器层、活动数据采集层、时空数据处理层、突发事件决策层;通过挖掘特定场所历史活动时空数据的内在关联与规律,实现对该场所正在举行活动的突发事件预测。
发明内容
本发明提出了一种基于时空序列的大型活动突发事件预测的分层架构及预测方法。图1为活动突发事件预测总体架构。该架构分为:传感器层、活动数据采集层、时空数据处理层、突发事件决策层。首先,传感器层获取各类传感器产生的活动感知数据。其次,活动数据采集层将频繁采集上传的传感器层数据作为输入,构建时空序列模型,对活动进行特定领域、特定小粒度事件的预测:将各种用于活动监测的研究算法统一抽象为“逻辑传感器”(图1中A1-An),与实体的“物理传感器”(图1中S1-Sn)共同产生监测数据。再次,时空数据处理层接入产生的监测数据,根据活动观测记录在时间及空间方面的特点,对监测数据空间进行有效地划分,形成时空序列,并将其存放到历史数据库中。最后,突发事件决策层基于活动数据采集层的实时监测数据,以及历史数据库挖掘分析结果数据,通过时空情景相似性度量及突发事件预测算法,实现对当前活动未来时间段内突发事件的预测。
(1)传感器层
在传感器层中,采样数据是以感知设备为单位进行组织,同一个感知设备的所有采样数据按照时间序列组织在一起,并存放在本地该感知设备的数据记录中。
通过无线传感网络汇总的数据、通过互联网数据分析导出的数据、互联网社交媒体数据、通过人工***录入的事件数据均可以视为感知采样数据。各类感知设备的单个采样值分为两大类,即数值型采样值和多媒体采样值。例如,温度传感器、GPS传感器、RFID传感器等所采集的数据为数值型采样值,视频监控图像、高空及地质勘探遥感图像、音频监测信号等为多媒体采样值。
(2)活动数据采集层
采用活动数据采集层对研究成果进行集成。从公开发表的研究算法输出来看,其输出结果均可用一些属性来描述(如,人群识别分类输出表示为一个分类属性),这些输出的属性标签则可以作为活动数据采集层的输入。在活动数据采集层中,将传感器分为物理传感器和逻辑传感器,并将两类传感器统称为“监控项目”。物理传感器为部署在活动场馆中的实体传感器(例如:温度、压力GPS等数值型采样传感器),逻辑传感器为已公开发表并将部署于活动实际场景中的研究算法(例如:交通拥堵判别算法、人群密度检测算法、个体群体识别算法、异常行为检测算法等)。
对产生的某场所历届大型活动的感知数据建立时空序列模型,下文将对时空序列模型进行详细阐述。
a)时空序列模型
时空序列模型为六元组M=<G,S,T,H,fw,fR>。
G为某场所历届大型活动的感知数据空间,表示为:
G={G0,G2,...,Gn}
其中,n为活动举办次数,任意一次活动Gi则表示某次历史活动的感知数据集。
活动感知数据空间G由监控项目的监控属性采集值构成。用S来表示被部署在活动实际场景中的监控项目,在k个监控项目中,任意一个监控项目Si由m个监测属性组成,表示如下:
其中,xij为监测项目Si的第j个监测属性。
用上标t表示时间点,h表示观测区域,因此,一个活动某观测区域h所有监控项目的一次采集数据(一个时空情景)Gi th表示为:
Gi th={S1 th,S2 th,…,Sk th}={{x11 th,x12 th,…,x1m th},…,{xk1 th,xk2 th,…,xkm th}}
其中,t∈T,T为观测时间集合;h∈H,H为活动观测区域集合。
假设不同监控项目的监测属性本质不能相同,则Gi th简化为下式:
Gi th={x1 th,x2 th,…,xn th}=∪x∈Gival(x,t,h)
其中,val(x,t,h)表示x属性在t时刻h区域的值。
fw和fR为G上的两个函数,给定一个活动g0,令t0为当前时刻,h0为活动某监控区域,fw(g0,t0,h0)则返回g0在时刻t0区域h0的感知数据经时空划分后所处时间窗口。
则突发事件预测问题可被定义为:
fR(G,g0,t0)→p,p∈[0,1]
活动感知数据以所有监控项目的一次采集(即一个“时空情景”)为单位进行组织,每次采集对应于一条数据记录,该记录还包含有原始采样记录的采集地址及时间,使得时空数据处理层在进行时空划分时可以尽可能考虑活动数据的时空特性。该所有监控项目的历次采集数据形成时间序列,如图2所示。
在图2中,节点表示一次采集的监测数据Gi th,不同样式表示不同活动,称该序列为“原始时空情景时间序列”。该序列可表达为:
(3)时空数据处理层
在时空数据处理层中,活动采集的实时数据不仅被输入到突发事件决策层,以进行当前活动的决策,同时也将存储于历史数据库,用于以后活动突发事件的预测。
为了更好的观察监测属性数据的规律,将历史数据库中的时空数据按照时间和空间两个维度进行重新排列:在时间维度,按活动发生时间划分时间周期、时间窗口;在空间维度,按物理位置划分栅格;构造时空序列。
时空序列构建具体方法说明如下。
a)按时间划分
在真实活动场景中,不同时间段监测属性数据存在周期性规律,例如,活动准备、入场、进行、结束、退场等阶段的往复;演唱会环境及氛围随演唱者曲目起止呈现周期性变化等。不同活动的相同周期内时间段监测数据特征和规律具有一定的相似性。为了表达这种变化,在本发明中,引入时间周期和时间窗口的概念。
时间周期是指活动周期性变化的时间间隔,如一周、一天,用来表达对活动从总体上按时间的大致划分。时间窗口为时间周期内划分的时间段,如一小时、半小时、一分钟。时间窗口用来表达一个周期内时间段细粒度划分。
根据实际经验,历次活动在时间编排上均具有一定的规律,因此,将历史时空数据空间G中的每个活动,按给定的时间周期、时间窗口进行划分。令周期长度为p,时间窗口长度w,则活动观测时间轴T则被划分为若干个长度为p的有限时间段。如下图3(a)所示,划分时间周期前,不同活动开始时间不同,采集的活动数据按活动发生顺序依次沿时间轴排列(假设一个场所相同时间只能举办一个活动);划分后周期后,每个活动的起始时间都映射到相同的初始时间(如图3(b)所示),不同活动的时空数据空间由图3(a)的沿时间轴线性排列,转换成所有历史活动都从相同时间开始、且划分周期和时间窗口的柱状排列。经过变换后,各监测数据的监测时间转化为相对于其所在周期的起始时刻的相对时间,每个活动的监测数据,转化成带有时间周期和窗口的时间序列子序列。例如,在图3(b)中,各周期tp被划分为3个时间窗口tw1-3,三个窗口可分别表达活动入场、活动开展、退场三个阶段。对于窗口tw1时间段,监测数据通常表现出入口人员流速迅速增高并趋于恒定,随后逐步降低并趋于0、场馆内人员密度逐步增高并趋于恒定等时间规律。而对于tw2时间段,监测数据则通常表现出入口人员流速极小且基本保持恒定、场馆内人员密度较高且基本保持恒定等时间规律。因此,按时间窗口整合的时间序列tw1,其数据带有入场时段时间规律性。
经过上述空间变换,可以将不同活动的数据放到相同的标准下进行比较,便于总结历史活动在不同时间周期、时间窗口内的规律。
b)按空间划分
在真实活动场景的监测中,每个监控设备或监控项目一般只能对特定区域进行目标监控或分析。例如,某摄像头h仅监控看台A区域,则该摄像头各监控项目的输出结果则描述该区域人员及环境等情况。对于h输出的结果来讲,在活动入场阶段,入口处人群密度高、看台区人群密度较低为正常;但在活动开展阶段,入口处人群密度低、看台区人群密度高则为正常。若呈现活动入场阶段规律的监测数据则可能为异常,表示场馆内可能存在突发事件。因此,相同设备或监控项目在不同区域内,其监测属性结果数据的正常或异常规律不同。为更科学、更准确发现和表达不同区域监测数据的规律性,引入栅格对历史时空数据按活动发生的物理空间进行空间分割。另外,在对大型活动监测中,活动观测数据不仅涉及场馆内外座位、道路等场所地理空间,也涵盖了微博、微信等社交媒体网络空间。网络空间数据本身往往不具备活动场所的物理位置属性,难以纳入空间分割中。因此,将活动时空数据空间分为实体空间和非实体空间,实体空间为活动场所地理空间,非实体空间为不具备物理场所位置属性的数据空间(如社交媒体网络空间),该空间无需进行空间分割。
空间分割解决了相同监测属性在不同区域内结果标准不同的问题。另外,相同区域内的不同监测属性,对于评判是否会发生突发事件的重要性并不相同。因此,赋予各监测属性不同的权重,通过调节属性权重来调整突发事件预测准确度。
为栅格集合,对/>令属性权重集合为:
W={w1,w2,…,wn}=∪x∈Giw(x,grl)
则,时空数据空间权重集为:
W=∪gr∈HWgr=∪gr∈Hx∈Giw(x,grl)
经空间分割后,时间序列被划分为多个区域的时间子序列。且对任意一个区域,均有多个活动的时间子序列。历史数据库中的原始时空情景时间序列则被划分为带有时间和空间分割的时间子序列集合,称之为“时空序列”。
(4)突发事件决策层
a)时空情景相似性度量
活动的历史监测数据形成了高维的时空数据空间,查询相似时空情景则为高维空间中监测数据的检索过程。令空间G为历史时空数据空间,则监测数据为数据空间G中的点,每个监测数据Gi th即可表示为一个向量:<x1 th,x2 th,…,xn th>(Gi∈G,t∈TW,h∈GR)。
给定一个任意小的正数ε,若都有/>则认为Gi t1和Gj t2互为相似时空情景,记作Gi t1~Gj t2。当ε→0时,时空情景Gi t1和Gj t2趋于相同,但其相同不具有传递性。使用K最近邻算法进行相似性计算,并采用欧式距离作为两监测数据在同一时间窗口的距离度量,则/>两监测数据Gi t1、Gj t2距离/>为:
b)突发事件预测算法
真实场景中的监测属性数据经时空划分后,特征和规律往往具有一定的相似性。若这些相似时间段中,多数监测数据所属历史活动曾经发生过同一类突发事件,则在当前活动未来时间段有极大可能会发生该类型突发事件。因此在本发明中,将活动实时状态的监测数据纳入历史进行判断,对突发事件的发生概率、区域及类型进行预测。
突发事件预测算法描述如下(图4):
获取历史时空情景数据空间中与当前监测数据(当前时空情景)处于相同区域、同一时间窗口的所有历史监测数据(历史时空情景);
依次根据相似时空情景的度量标准,计算查询当前时空情景与历史时空情景的相似度;
fw函数查询当前比对历史时空情景所在时间窗口;
Top-k策略选取前K个相似时空情景所在时间窗口存放于集合topK;
若存在未比对的历史时空情景则进行,不存在则进行;
统计集合topK中发生突发事件情况:
i.将当前监测数据所在栅格作为事件发生区域;
ii.将出现最多类型的窗口个数与|topK|的比值作为未来时间段发生该类型事件的概率,若概率超过50%,则将未来时间段(当前窗口的下一窗口)类型判定为该事件类型;否则,判定为普通事件类型。
输出突发事件预测结果。
现有技术采用历史数据进行特定领域、特定微观事件的突发事件预测已有较多相关研究成果,但任何一个单独的判断都难以断定是否会有突发事件发生,例如,检测出异常人群,但该人群并未进入可能发生突发事件的特定区域,并不能对活动造成一定的威胁。
本发明创造性的提出,将已有相关研究成果的结果数据纳入到统一的活动时空序列模型中,尽可能综合大型活动物理及网络空间全面的信息,构建特定场所历史活动时空大数据集合,通过观察研究同一地点、不同活动、不同时间的历史数据规律,实现对正在举办活动可能出现的突发事件进行宏观全面预测。时空序列模型按时间及空间对数据空间的划分,不仅大大减少了数据查询及分析等操作所涉及的数据量,而且划分后的数据更具有特定时间及区域的时空特性,使得突发事件决策层的监测数据分析更加精确可靠。
附图说明
图1活动突发事件预测总体架构;
图2原始时空情景时间序列;
图3按时间划分数据空间示意图;
图4突发事件预测算法程序流程图;
图5时间窗口数据完全随机仿真结果;
图6时间窗口数据弱规律仿真结果;
图7时间窗口数据强规律仿真结果。
具体实施方式
本专利利用Java语言开发了仿真程序,模拟了大量物理传感器及逻辑传感器产生的监测数据,验证预测架构及方法的有效性。且实验模拟了时空数据处理层的时空划分,对比了历史时空数据空间,以及按时间空间划分后的时空数据空间两个数据集合结果,从而验证时空数据处理层时空划分方法的有效性。
一个活动是否发生突发事件,本质上是由活动各空间分割是否发生突发事件所决定。任意一个空间分割发生异常,则场馆活动发生异常。因此,本实验只以一个空间分割为例进行实验结果分析,简单起见,空间分割的监测属性权重取值均为1。为方便描述,在下文叙述中,将以历史空间代替历史时空数据空间,窗口空间代替划分周期和窗口的数据空间。
实验共分为3轮,各轮实验均模拟100次历史活动;每个活动划分3个周期(模拟活动举办3天);每个周期12个时间窗口(2小时为1个时间窗口);每个时间窗口60条监测数据(2分钟进行一次数据采样);每条数据由20个监测属性描述。
在真实场景中,突发事件种类繁多,但发生概率较小,绝大部分时间监测数据值均为正常,若在实验过程中完全模拟真实场景会存在数据数量过大、模拟效率较低的情况。因此,在模拟历史时空数据时产生了较多的异常数据,旨在更好的验证本发明的可行性。
为了更好地模拟实际规律,分别模拟了属性监测值异常、数据异常及窗口异常。以窗口异常模拟活动某一时间段存在异常事件;以数据异常模拟一次采集的监测数据异常;以属性监测值异常模拟某监控项目的一个监测属性输出存在异常,该异常直接或间接导致数据、窗口及活动的异常。异常标准说明如下:监测属性在异常取值范围内取值则为异常;一半以上的监测属性异常则监测数据异常;一半以上的监测数据异常则窗口异常。
实验共模拟了5种突发事件类型,其中,type0为常规事件,type1、type2、type3、type4为突发事件。常规事件类型窗口占历史窗口2/3,随机type1-4作为窗口的异常事件类型,异常窗口数量总和占历史窗口1/3。根据上述异常标准,历史空间按如下方式产生异常:若为异常时间窗口,该时间窗口中的异常数据条数在区间[30,60)中随机,否则异常数据条数在区间[0,30)中随机;若为异常数据,该数据中的异常属性个数在区间[10,20)中随机,否则异常属性个数在区间[0,10)中随机;所有监测属性的取值在不同轮次选取的取值范围内随机产生。
仿真程序随机生成当前活动监测数据,该数据为某时间窗口内全部数据(共60条),窗口类型为异常。窗口内每条监测数据均按数据异常标准进行人工标定。表1-3展示了3轮对比实验的结果(历史空间、窗口空间),每轮的10组当前活动监测数据均在同一历史空间中进行算法预测,每组可得60条预测结果。将每条数据的正异常人工标定与预测结果进行比对,并计算准确率(准确率=正确条数/60)。表格每行均为一个完整窗口数据预测结果所得准确率。
第1-3轮历史空间与窗口空间形成对照,可以得出按时间周期、窗口,以及区域划分对预测准确率的影响。
在真实的活动举办场景中,数据正异常的取值范围随时间的推移呈现规律性变化,不同时间段面临的事件也不相同,因此,为更科学、更准确的发掘活动在不同时间段的真实规律,实验应模拟真实场景中的数据规律,即,应通过给定不同的正异常取值范围,模拟窗口空间的不同规律。因此,第1轮实验模拟活动监测数据无规律的场景,观察预测算法在无规律情况下的有效性。因此,历史空间中所有监测属性数据值在监测属性取值区间[0,100)中完全随机产生,当前活动监测数据亦完全随机。各监测属性(20个)异常取值范围均为[50,100),正常取值范围均为[0,50)。
表1.第1轮结果
历史空间正确个数 历史空间准确率 窗口空间正确个数 窗口空间准确率
44 73.33% 28 46.67%
41 68.33% 22 36.67%
41 68.33% 57 95.00%
41 68.33% 57 95.00%
48 80.00% 28 46.67%
43 71.67% 29 48.33%
37 61.67% 14 23.33%
50 83.33% 19 31.67%
51 85.00% 54 90.00%
43 71.67% 41 68.33%
第2轮实验模拟活动监测数据具有较弱规律的场景。将历史空间中的12个时间窗口随机分为四组,每组则有3个不同窗口号的时间窗口。在同组时间窗口下,相同监测属性的正异常取值范围相同。当前活动监测数据取值规律遵循历史空间对应窗口数据规律。规律模拟如下:将属性取值区间[0,100)划分为5个子区间:[0,20)、[20,40)、[40,60)、[60,80)、[80,100),表达不同正常或异常取值范围;各监测属性(20个)分别在5个子区间中随机选择某区间作为异常取值范围,正常取值范围为区间[0,100)内除异常取值范围外的任何区域;
例如,编号为1、3、7的窗口随机组成一组;对于监测属性xi,随机选择[20,40)为异常取值范围,则其正常取值范围为[0,20)∪[40,100);窗口号为1、3、7的监测数据在历史空间中xi均满足如上正异常取值规律;若当前监测数据窗口号为1、3或7,则监测属性xi取值亦满足上述规律。
表2.第2轮结果
历史空间正确个数 历史空间准确率 窗口空间正确个数 窗口空间准确率
42 70.00% 52 86.67%
42 70.00% 57 95.00%
49 81.67% 50 83.33%
44 73.33% 31 51.67%
45 75.00% 46 76.67%
47 78.33% 54 90.00%
40 66.67% 52 86.67%
44 73.33% 29 48.33%
39 65.00% 37 61.67%
24 40.00% 58 96.67%
在第3轮实验中,模拟活动监测数据具有较强规律的场景,将第2轮实验规律增强,并与第2轮实验形成对照,旨在得出监测数据规律强弱对预测准确率的影响。模拟程序为12种窗口随机产生了不同的正异常规律。因此,在历史空间的相同时间窗口下,相同监测属性的正异常取值范围相同。当前活动监测数据取值规律遵循历史空间对应窗口数据规律。规律模拟同第2轮实验。
表3.第3轮结果
由第1轮表(图5)可以看出,在历史时空数据及当前活动监测数据完全随机的情况下,历史空间准确率大多优于时间窗口。其原因为历史空间数据量远大于窗口空间数据量,庞大的数据量使得历史空间突发事件的预测数据更全面。尽管准确率低于历史空间,但从结果来看,窗口空间模式下准确率最低为23.33%,最高可达95%。该结果表明,即便完全随机情况下,窗口空间模式也能实现突发事件预测,且由于度量所用数据量大大减少,计算速度远超历史空间模式,效率的角度上极大优于历史空间模式,能够更好满足突发事件实时检测的需要。由第2轮表(图6)可知,在历史时空数据及当前活动监测数据具有弱规律的情况下,历史空间模式与窗口空间模式效果相似,窗口空间模式准确率略优于历史空间模式。如第3轮表(图7)所示,在历史时空数据及当前活动监测数据具有强规律的情况下,10组实验中有8组窗口空间模式准确率极大的优于历史空间模式。可以看出,本发明所提出的算法可以用于特定场馆大型活动突发事件预测,且基于时空序列的突发事件预测算法对数据规律敏感,通过挖掘数据随时间的现实规律可逐步提升预测的准确率。

Claims (3)

1.一种基于时空序列的大型活动突发事件预测的分层架构,其特征在于:该架构分为传感器层、活动数据采集层、时空数据处理层、突发事件决策层;传感器层获取各类传感器产生的活动感知数据;活动数据采集层将频繁采集上传的传感器层数据作为输入,构建时空序列模型,对活动进行特定领域、特定小粒度事件的预测:将各种用于活动监测的研究算法统一抽象为“逻辑传感器”,与实体的“物理传感器”共同产生监测数据;时空数据处理层接入产生的监测数据,根据活动观测记录在时间及空间方面的特点,对监测数据空间进行有效地划分,形成时空序列,并将其存放到历史数据库中;突发事件决策层基于活动数据采集层的实时监测数据,以及历史数据库挖掘分析结果数据,通过时空情景相似性度量及突发事件预测算法,实现对当前活动未来时间段内突发事件的预测;
对产生的历届大型活动的感知数据建立时空序列模型,
时空序列模型为六元组M=<G,S,T,H,fw,fR>;
G为历届大型活动的感知数据空间,表示为:
G={G0,G2,...,Gn}
其中,n为活动举办次数,任意一次活动Gi则表示历史活动的感知数据集;
活动感知数据空间G由监控项目的监控属性采集值构成;用S来表示被部署在活动实际场景中的监控项目,在k个监控项目中,任意一个监控项目Si由m个监测属性组成,表示如下:
其中,xij为监测项目Si的第j个监测属性;
用上标t表示时间点,h表示观测区域,一个活动某观测区域h所有监控项目的一次采集数据Gi th表示为:
Gi th={S1 th,S2 th,…,Sk th}={{x11 th,x12 th,…,x1m th},…,{xk1 th,xk2 th,…,xkm th}}
其中,t∈T,T为观测时间集合;h∈H,H为活动观测区域集合;
假设不同监控项目的监测属性本质不能相同,则Gi th简化为下式:
Gi th={x1 th,x2 th,…,xn th}=∪x∈Gival(x,t,h)
其中,val(x,t,h)表示x属性在t时刻h区域的值;
fw和fR为G上的两个函数,给定一个活动g0,令t0为当前时刻,h0为活动某监控区域,fw(g0,t0,h0)则返回g0在时刻t0区域h0的感知数据经时空划分后所处时间窗口;
则突发事件预测问题被定义为:
fR(G,g0,t0)→p,p∈[0,1]
活动感知数据以所有监控项目的一次采集为单位进行组织,每次采集对应于一条数据记录,数据记录还包含有原始采样记录的采集地址及时间,使得时空数据处理层在进行时空划分时考虑活动数据的时空特性;所有监控项目的历次采集数据形成时间序列;
节点表示一次采集的监测数据Gi th,不同样式表示不同活动,称该序列为“原始时空情景时间序列”,表达为:
在时空数据处理层中,活动采集的实时数据不仅被输入到突发事件决策层,以进行当前活动的决策,同时也将存储于历史数据库,用于以后活动突发事件的预测;
将历史数据库中的时空数据按照时间和空间两个维度进行重新排列:在时间维度,按活动发生时间划分时间周期、时间窗口;在空间维度,按物理位置划分栅格;构造时空序列;时空序列构建具体方法如下:
在真实活动场景中,不同时间段监测属性数据存在周期性规律,不同活动的相同周期内时间段监测数据特征和规律具有一定的相似性,引入时间周期和时间窗口的概念;
时间周期是指活动周期性变化的时间间隔,时间窗口为时间周期内划分的时间段,时间窗口用来表达一个周期内时间段细粒度划分;
将历史时空数据空间G中的每个活动,按给定的时间周期、时间窗口进行划分;令周期长度为p,时间窗口长度w,则活动观测时间轴T则被划分为若干个长度为p的有限时间段;划分时间周期前,不同活动开始时间不同,采集的活动数据按活动发生顺序依次沿时间轴排列;划分后周期后,每个活动的起始时间都映射到相同的初始时间,不同活动的时空数据空间沿时间轴线性排列,转换成所有历史活动都从相同时间开始、且划分周期和时间窗口的柱状排列;经过变换后,各监测数据的监测时间转化为相对于其所在周期的起始时刻的相对时间,每个活动的监测数据,转化成带有时间周期和窗口的时间序列子序列;
在真实活动场景的监测中,引入栅格对历史时空数据按活动发生的物理空间进行空间分割,将活动时空数据空间分为实体空间和非实体空间,实体空间为活动场所地理空间,非实体空间为不具备物理场所位置属性的数据空间,数据空间无需进行空间分割;
相同区域内的不同监测属性,对于评判是否会发生突发事件的重要性并不相同,赋予各监测属性不同的权重,通过调节属性权重来调整突发事件预测准确度;
为栅格集合,对/>令属性权重集合为:
W={w1,w2,…,wn}=∪x∈Giw(x,grl)
则,时空数据空间权重集为:
W=∪gr∈HWgr=∪gr∈Hx∈Giw(x,grl)
经空间分割后,时间序列被划分为多个区域的时间子序列;且对任意一个区域,均有多个活动的时间子序列;历史数据库中的原始时空情景时间序列则被划分为带有时间和空间分割的时间子序列集合,称之为“时空序列”;
活动的历史监测数据形成了高维的时空数据空间,查询相似时空情景则为高维空间中监测数据的检索过程;令空间G为历史时空数据空间,则监测数据为数据空间G中的点,每个监测数据Gi th即表示为一个向量:<x1 th,x2 th,…,xn th>,Gi∈G,t∈TW,h∈GR;
给定一个任意小的正数ε,若都有/>则认为Gi t1和Gj t2互为相似时空情景,记作Gi t1~Gj t2;当ε→0时,时空情景Gi t1和Gj t2趋于相同,但其相同不具有传递性;使用K最近邻算法进行相似性计算,并采用欧式距离作为两监测数据在同一时间窗口的距离度量,则/>两监测数据Gi t1、Gj t2距离为/>将活动实时状态的监测数据纳入历史进行判断,对突发事件的发生概率、区域及类型进行预测;
突发事件预测算法描述如下,
获取历史时空情景数据空间中与当前监测数据处于相同区域、同一时间窗口的所有历史监测数据;
依次根据相似时空情景的度量标准,计算查询当前时空情景与历史时空情景的相似度;
fw函数查询当前比对历史时空情景所在时间窗口;
Top-k策略选取前K个相似时空情景所在时间窗口存放于集合topK;
若存在未比对的历史时空情景则进行,不存在则进行;
统计集合topK中发生突发事件情况:
i.将当前监测数据所在栅格作为事件发生区域;
ii.将出现最多类型的窗口个数与|topK|的比值作为未来时间段发生该类型事件的概率,若概率超过50%,则将未来时间段类型判定为该事件类型;否则,判定为普通事件类型;
输出突发事件预测结果。
2.根据权利要求1所述的一种基于时空序列的大型活动突发事件预测的分层架构,其特征在于:在传感器层中,采样数据是以感知设备为单位进行组织,同一个感知设备的所有采样数据按照时间序列组织在一起,并存放在本地该感知设备的数据记录中;通过无线传感网络汇总的数据、通过互联网数据分析导出的数据、互联网社交媒体数据、通过人工***录入的事件数据均视为感知采样数据;各类感知设备的单个采样值分为两大类,即数值型采样值和多媒体采样值。
3.根据权利要求1所述的一种基于时空序列的大型活动突发事件预测的分层架构,其特征在于:采用活动数据采集层对研究成果进行集成,在活动数据采集层中,将传感器分为物理传感器和逻辑传感器,并将两类传感器统称为“监控项目”;物理传感器为部署在活动场馆中的实体传感器。
CN202010111541.7A 2020-02-24 2020-02-24 一种基于时空序列的大型活动突发事件预测分层架构和方法 Active CN111353637B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010111541.7A CN111353637B (zh) 2020-02-24 2020-02-24 一种基于时空序列的大型活动突发事件预测分层架构和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010111541.7A CN111353637B (zh) 2020-02-24 2020-02-24 一种基于时空序列的大型活动突发事件预测分层架构和方法

Publications (2)

Publication Number Publication Date
CN111353637A CN111353637A (zh) 2020-06-30
CN111353637B true CN111353637B (zh) 2023-11-07

Family

ID=71197108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010111541.7A Active CN111353637B (zh) 2020-02-24 2020-02-24 一种基于时空序列的大型活动突发事件预测分层架构和方法

Country Status (1)

Country Link
CN (1) CN111353637B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI786902B (zh) * 2021-10-26 2022-12-11 中華電信股份有限公司 用於潛在事件熱點探勘之設備、方法以及電腦程式產品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015176565A1 (zh) * 2014-05-22 2015-11-26 袁志贤 一种基于多维时间序列的电气设备故障预测方法
US9613309B1 (en) * 2013-03-13 2017-04-04 Hrl Laboratories, Llc System and method for predicting significant events using a progress curve model
CN107742420A (zh) * 2017-09-22 2018-02-27 北京交通大学 一种用于突发交通事件下道路交通流预测的方法
CN110782070A (zh) * 2019-09-25 2020-02-11 北京市交通信息中心 一种城市轨道交通突发事件客流时空分布预测方法
CN110826429A (zh) * 2019-10-22 2020-02-21 北京邮电大学 一种基于景区视频的旅游突发事件自动监测的方法及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9613309B1 (en) * 2013-03-13 2017-04-04 Hrl Laboratories, Llc System and method for predicting significant events using a progress curve model
WO2015176565A1 (zh) * 2014-05-22 2015-11-26 袁志贤 一种基于多维时间序列的电气设备故障预测方法
CN107742420A (zh) * 2017-09-22 2018-02-27 北京交通大学 一种用于突发交通事件下道路交通流预测的方法
CN110782070A (zh) * 2019-09-25 2020-02-11 北京市交通信息中心 一种城市轨道交通突发事件客流时空分布预测方法
CN110826429A (zh) * 2019-10-22 2020-02-21 北京邮电大学 一种基于景区视频的旅游突发事件自动监测的方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于情景相似度的突发事件情报感知实现方法;杨峰 等;情报学报;第38卷(第5期);525-533 *
面向物联网海量传感器采样数据管理的数据库集群***框架;丁治明;计算机学报;第35卷(第6期);1175-1191 *

Also Published As

Publication number Publication date
CN111353637A (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
US20220317634A1 (en) Web services platform with cloud-based feedback control
Zheng et al. Detecting collective anomalies from multiple spatio-temporal datasets across different domains
Singh et al. Crowd forecasting based on wifi sensors and lstm neural networks
US20110208681A1 (en) System and method for correlating past activities, determining hidden relationships and predicting future activities
US20160300136A1 (en) Computer-implemented systems utilizing sensor networks for sensing temperature and motion environmental parameters; and methods of use thereof
Alshawish et al. Big data applications in smart cities
US20190097904A1 (en) Web services platform with nested stream generation
WO2010138864A2 (en) Forecasting hotspots using predictive visual analytics approach
Kadar et al. Exploring Foursquare-derived features for crime prediction in New York City
US9230216B2 (en) Scalable spatiotemporal clustering of heterogeneous events
US20230388202A1 (en) Methods and systems for inferred information propagation for aircraft prognostics
Toure et al. Real time big data analytics for predicting terrorist incidents
CN111353637B (zh) 一种基于时空序列的大型活动突发事件预测分层架构和方法
Santos et al. Classifying El Niño-Southern Oscillation combining network science and machine learning
Yang et al. Anomaly detection on collective moving patterns: Manifold learning based analysis of traffic streams
Tang et al. Multidimensional analysis of atypical events in cyber-physical data
Rani et al. Crime trend analysis and prediction using mahanolobis distance and dynamic time warping technique
Pati et al. Wind speed prediction using machine learning techniques
Chamikara et al. SL-SecureNet: intelligent policing using data mining techniques
Root Statistics and Data in Human Rights Research
Parsad et al. Crime Against Women: Analysis And Prediction
He et al. Anomaly Detection in Species Distribution Patterns: A Spatio-Temporal Approach for Biodiversity Conservation
Ramanan et al. A Novel Clustering & Machine Learning Algorithm for Crime Rate Prediction and Analysis
CN117592769B (zh) 一种碳小屋站点管理方法及***
US11630820B2 (en) Analysis of time series sensor measurements in physical systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant