CN107239435B - 一种基于信息熵的出行周期检测方法 - Google Patents

一种基于信息熵的出行周期检测方法 Download PDF

Info

Publication number
CN107239435B
CN107239435B CN201710487737.4A CN201710487737A CN107239435B CN 107239435 B CN107239435 B CN 107239435B CN 201710487737 A CN201710487737 A CN 201710487737A CN 107239435 B CN107239435 B CN 107239435B
Authority
CN
China
Prior art keywords
matrix
information entropy
sequence
period
travel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710487737.4A
Other languages
English (en)
Other versions
CN107239435A (zh
Inventor
何兆成
邓紫坤
余畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201710487737.4A priority Critical patent/CN107239435B/zh
Publication of CN107239435A publication Critical patent/CN107239435A/zh
Application granted granted Critical
Publication of CN107239435B publication Critical patent/CN107239435B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Complex Calculations (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及一种基于信息熵的出行周期检测方法,包括以下步骤:S1.将出行的发生与否分别标记为1和0,对于给定长度为L的出行序列,设其可能的周期为P,将出行序列存储成一个
Figure DDA0002403142160000013
的矩阵MP;S2.对于矩阵MP的每一列c,为其定义一个概率:
Figure DDA0002403142160000011
其中m(j,c)表示矩阵Mp中的第j行第c列的值;S3.计算当前矩阵MP的信息熵为:
Figure DDA0002403142160000012
S4.取矩阵MP中概率大于设定的第一阈值的所有列进行饱和度fP的计算;S5.P=P+1,重复执行步骤S1~S5,直至P大于L/2;S6.求得可能的周期集合P={P|在P处的信息熵不比在P+1和P‑1处的信息熵高,并且P对应的饱和度fp>第二阈值},其中集合P中最小的值为周期值。

Description

一种基于信息熵的出行周期检测方法
技术领域
本发明涉及智能交通控制领域,更具体地,涉及一种基于信息熵的出行周期检测方法。
背景技术
在大数据时代,信息获取的手段非常多,信息的感知工具非常普及,这使得收集各式各样的数据变得可能。同时,由此带来的数据产品非常丰富,其中包括许多事件组成的序列。
日常生活中,许多出行的发生都是存在着周期的,例如一个公司职员小王每周(7天)的工作日(5天)都会在早上乘坐地铁前往公司上班,这是在时空两个维度上的周期行为;又例如,王阿姨每个周日都会去某个(也许不是同一个)超市购置生活用品,这是在时间维度上的周期行为。
检测某个事件的发生是否存在周期以及其周期模式是怎样的,对于这类事件的管理,有着重要的意义,对相应***的改进、提升有着指导意义。例如,可以通过一个区域居民的通勤出行情况对城市交通出行进行预测,并且对城市交通***提出有针对性的改进、完善。
在交通***中,出行者被诸如卡口、线圈等固定的感知、检测设备所感知。而具体到公共交通***,获取到的是出行者的各阶段出行的OD点信息。
目前常见的出行轨迹时空分析方法是将空间区域进行编号,再在轨迹上依照一定的规则取点(事实上,常常先有点,后有轨迹),按照所属的区域获得编号属性。通过上述步骤将一个时空出行轨迹转化成一个符号序列。最后通过符号序列来分析轨迹。
这种方法有如下缺点:首先过大、过小的空间区域划分容易使得信息存在丢失与冗余。同时,出行轨迹存在着一定的噪声,在该方法现有的框架下难以剔除噪声。一个个体的出行有着很多不同的出行目的、习惯,不加以区分而对所有的出行进行全局的周期检测、周期模式识别,大大增加了周期检测难度。
其次,过于关注轨迹的细节部分。从一个大范围、全局宏观的视角来看,一个城市的出行量十分巨大。先不说如此庞大的计算量,城市管理者、交通部门的决策者,往往更关心的是中观的指标,例如某个区域有多少通勤量发生、通勤的起讫点,而不是具体到地点的出行轨迹。
因此,本发明采用了基于中观层面,将一个出行者的出行轨迹序列在某个时间窗下抽象为01序列的检测方法。该方法是本发明提出的周期检测方法的基础。
首先将同一次出行目的的出行阶段进行合并(如换乘出行合并),将个体出行信息转化为基于出行目的的个体出行链。对一个出行者的出行链进行模式聚类、划分(这里的模式可看做是一类目的的出行,例如小王上班,与具体聚类的划分的标准有关)。在观测时间窗内,某天,该模式的出行发生则标记为1,否则标记为0。这种方法从中观的角度出发,很好地满足了城市管理者、交通决策者的需求。
至此,得到了每个出行者的不同模式下的出行01序列。
在周期的检测上,目前国内外主要着重于检测时间序列、符号序列与交易序列的周期及周期模式,针对于01序列周期检测的方法还比较少。现介绍一下常用的适用于01序列的周期检测方法:
方法一:自相关函数与快速傅里叶变换。
先求出序列的自相关函数,基于“周期信号的自相关函数是周期函数,且周期与周期信号相同”这一原理,通过对序列的自相关函数进行快速傅里叶变换,得到主频率,而周期为求得的主频率的倒数。
方法二:在生物界中,生物学家认为基因在DNA上的重复出现对遗传形状具有重要意义。因此,在基因领域,将基因在DNA中的出现与否标记为1和0,提出了一种基于信息论的方法,去检测01序列的周期。特别的是,此类序列是异常稀疏的序列,0与1的比值在1000这个数量级。
方法一是目前对于01序列(信号)周期检测最常用到的方法,但是其并不能满足需求。这一方法在把序列看作一个不可分割的流动,使得无法获得序列的周期模式。再者,对于某些序列,自相关函数的主频与次主频间的区分并不是很明显,其适应性有待加强:考虑序列“0,0,1,0,0,0,1,0,0,1,0,0,0,1,0,0,1,0,0,0,1,0,0,1,0,0,0,1”,其周期为7,周期模式为0,0,1,0,0,0,1。而在该方法下,该序列的自相关函数与FFT频谱图像如图1、2所示。
显然,在该方法的检测下,检测出的周期为3.5,与7不符。
方法二对于01序列的检测具有很强的鲁邦性,但是其关注点在于极度稀疏的序列,并且这也正是方法的适用的前提。
发明内容
本发明为解决以上现有技术提供的周期检测方法无法有效及准确地检测出出行周期的缺陷,提供了一种基于信息熵的出行周期检测方法。
为实现以上发明目的,采用的技术方案是:
一种基于信息熵的出行周期检测方法,包括以下步骤:
S1.将出行的发生与否分别标记为1和0,对于给定长度为L的出行序列,设其可能的周期为P,将出行序列存储成一个
Figure GDA0002403142150000033
的矩阵MP
S2.对于矩阵MP的每一列c,为其定义一个概率:
Figure GDA0002403142150000031
其中m(j,c)表示矩阵Mp中的第j行第c列的值;
S3.计算当前矩阵MP的信息熵为:
Figure GDA0002403142150000032
S4.取矩阵MP中概率大于设定的第一阈值的所有列进行饱和度fP的计算;
S5.P=P+1,重复执行步骤S1~S5,直至P大于L/2;
S6.求得可能的周期集合P={P|在P处的信息熵不比在P+1和P-1处的信息熵高,并且P对应的饱和度fp>第二阈值},其中集合P中最小的值为周期值。
与现有技术相比,本发明的有益效果是:
本发明从中观的视角,将出行信息转化成01序列。并且基于信息论的知识,提出一种基于信息熵的出行周期检测方法,该方法能够有效地检测出出行的周期以及周期模式,并且对随机噪声有较强的适应性。
附图说明
图1为序列的相关函数图。
图2为序列的FFT频谱图。
图3为方法的流程图。
图4为序列S在P=7时的矩阵化形式图。
图5为序列S在P=8时的矩阵化形式图。
图6为序列S在P=7时在纵向上的重合度示意图。
图7为序列S在P=8时在纵向上的重合度示意图。
图8为矩阵每列的概率的示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
图3为本发明提供的方法的流程示意图。如图3所示,给定长度为L的出行序列S,设S可能的周期为P,将序列存储成一个
Figure GDA0002403142150000042
的矩阵MP,剩余的部分补0。例如,序列“0,0,1,0,0,0,1,0,0,1,0,0,0,1,0,0,1,0,0,0,1,0,0,1,0,0,0,1”在P=7的矩阵化形式如图4所示,在P=8的矩阵化形式如图5所示。
若P=7为S的周期,如图6所示,其0/1分布在纵向上的重合度很高。若P=8不为S的周期,如图7所示,其0/1分布在纵向上的重合度很差。
为了衡量这个“重合度”,本发明引入了信息熵判定这一步骤。
信息熵是用来量化不确定度、信息量大小的。信息熵就是平均而言,发生一个事件得到的信息量大小。所以数学上,信息熵其实是信息量的期望。
信息熵的定义为:
H=-∑P(x)logP(x)
例如,“明天99%会下雨”,和“明天几乎不会下雨”是比较确定的,其信息量是很低的。
H=-(0.99log0.99+0.01log0.01)
=0.024
而,“明天25%下雨,25%晴天,50%多云”的不确定性较大,具有较大的信息量。
H=-(0.5log0.5+0.25log0.25+0.25log0.25)
=0.45
因此给矩阵MP的每一列c定义一个概率
Figure GDA0002403142150000041
c=1,2,……P,具体如图8所示。
当pc接近1或者接近0,该列的出行事件的发生与否的确定性高,信息量较低。只有P值为周期值或其整数倍时方才使然。因此,尝试用信息熵来衡量待检测序列S在当前的可能周期值下的确定性的高低。
定义矩阵MP的信息熵:
Figure GDA0002403142150000051
然后取矩阵MP中概率大于设定的第一阈值的所有列进行饱和度fP的计算;使每一个可能的周期值P重复执行上述过程,直至p大于L/2;求得可能的周期集合P={p|在p处的信息熵不比在p+1和p-1处的信息熵高,并且p对应的饱和度fp>第二阈值},其中集合P中最小的值为周期值。
上述计算饱和度的具体过程如下:
fP=出行事件数/提取的列包含的总的事件数
如图8所示,Pm=7的情况下,该矩阵的饱和度fP为0.875,周期模式为3、7。
实施例2
本实施例人工制造一些长度为112的周期序列对实施例1的方法进行了测试。其中m为原始序列的周期值,n为原始序列中一个周期中的出行事件发生的个数。
并添加随机噪声——01交换。定义噪声比η:
Figure GDA0002403142150000052
其中,l为序列的长度,Noise为序列中发生0/1交换的个数,即添加的噪声的程度与原始序列中出行事件发生的个数有关。
实验结果如下所示:
Figure GDA0002403142150000061
通过上述结果可以看出,本发明提供的方法对噪声有一定的适应能力。在25%的噪声中仍然能有80%以上的表现;甚至一些测试样本在25%的噪声中仍保持着100%的正确率。其优势不言而喻。
同时,从结果可以得到启示:在一些周期为奇数的序列中,该方法表现得比周期为偶数的序列要好,这意味着该方法在检测特定周期时可以有更好的表现。
例如:尝试去检测一个序列的周期是否为6。鉴于奇数的适应度比偶数的高,可以在序列的每间隔6个位置***0。如果该序列本身的周期为6,则检测出来的周期应为7。经过实验,噪声比为25%,m=6,n=4的序列经过上述引申方法处理后,检测的正确率由0.862提升到了0.996。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (2)

1.一种基于信息熵的出行周期检测方法,其特征在于:包括以下步骤:
S1.将出行的发生与否分别标记为1和0,对于给定长度为L的出行序列,设其可能的周期为P,将出行序列存储成一个
Figure FDA0002403142140000013
的矩阵MP
S2.对于矩阵MP的每一列c,为其定义一个概率:
Figure FDA0002403142140000011
其中m(j,c)表示矩阵Mp中的第j行第c列的值;
S3.计算当前矩阵MP的信息熵为:
Figure FDA0002403142140000012
S4.取矩阵MP中概率大于设定的第一阈值的所有列进行饱和度fP的计算;
S5.P=P+1,重复执行步骤S1~S5,直至P大于L/2;
S6.求得可能的周期集合P={P|在P处的信息熵不比在P+1和P-1处的信息熵高,并且P对应的饱和度fp>第二阈值},其中集合P中最小的值为周期值。
2.根据权利要求1所述的基于信息熵的出行周期检测方法,其特征在于:所述步骤S4进行饱和度计算的具体过程如下:
fP=出行事件数/提取的列包含的总的事件数。
CN201710487737.4A 2017-06-23 2017-06-23 一种基于信息熵的出行周期检测方法 Active CN107239435B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710487737.4A CN107239435B (zh) 2017-06-23 2017-06-23 一种基于信息熵的出行周期检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710487737.4A CN107239435B (zh) 2017-06-23 2017-06-23 一种基于信息熵的出行周期检测方法

Publications (2)

Publication Number Publication Date
CN107239435A CN107239435A (zh) 2017-10-10
CN107239435B true CN107239435B (zh) 2020-07-14

Family

ID=59987319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710487737.4A Active CN107239435B (zh) 2017-06-23 2017-06-23 一种基于信息熵的出行周期检测方法

Country Status (1)

Country Link
CN (1) CN107239435B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108681741B (zh) * 2018-04-08 2021-11-12 东南大学 基于ic卡和居民调查数据的地铁通勤人群信息融合方法
CN109471887A (zh) * 2018-10-25 2019-03-15 电子科技大学中山学院 一种基于相对熵的周期获取方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866143A (zh) * 2009-04-14 2010-10-20 北京宏德信智源信息技术有限公司 基于时空特征聚合的道路交通服务水平预测预报方法
CN103646187A (zh) * 2013-12-27 2014-03-19 中国科学院自动化研究所 一种统计周期内车辆出行路线及od矩阵获取方法
CN103793599A (zh) * 2014-01-17 2014-05-14 浙江远图智控***有限公司 一种基于隐马尔科夫模型的出行异常检测方法
US9047767B2 (en) * 2013-09-09 2015-06-02 International Business Machines Corporation Traffic impact prediction for multiple event planning
CN104766475A (zh) * 2015-04-09 2015-07-08 银江股份有限公司 一种城市交通瓶颈挖掘方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866143A (zh) * 2009-04-14 2010-10-20 北京宏德信智源信息技术有限公司 基于时空特征聚合的道路交通服务水平预测预报方法
US9047767B2 (en) * 2013-09-09 2015-06-02 International Business Machines Corporation Traffic impact prediction for multiple event planning
CN103646187A (zh) * 2013-12-27 2014-03-19 中国科学院自动化研究所 一种统计周期内车辆出行路线及od矩阵获取方法
CN103793599A (zh) * 2014-01-17 2014-05-14 浙江远图智控***有限公司 一种基于隐马尔科夫模型的出行异常检测方法
CN104766475A (zh) * 2015-04-09 2015-07-08 银江股份有限公司 一种城市交通瓶颈挖掘方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
考虑出行模式和周期性的公交出行特征分析;何兆成 等;《交通运输***工程与信息》;20161230;第16卷(第6期);第135-141页 *

Also Published As

Publication number Publication date
CN107239435A (zh) 2017-10-10

Similar Documents

Publication Publication Date Title
CN110245981B (zh) 一种基于手机信令数据的人群类型识别方法
Yu et al. Prediction of bus travel time using random forests based on near neighbors
CN106874432B (zh) 一种公共交通乘客出行时空轨迹提取方法
CN108415975B (zh) 基于bdch-dbscan的出租车载客热点识别方法
CN110738856B (zh) 一种基于移动聚类的城市交通拥堵精细识别方法
CN105513370B (zh) 基于稀疏车牌识别数据挖掘的交通小区划分方法
CN110836675B (zh) 一种基于决策树的自动驾驶搜索决策方法
CN108122186B (zh) 一种基于卡口数据的职住位置估计方法
CN103680130B (zh) 一种基于浮动车技术获得区域带路专家的方法
CN103699801B (zh) 一种时空规律的地铁乘客聚类和边缘检测方法
Zhu et al. Inferring taxi status using gps trajectories
CN105374209A (zh) 一种城市区域路网运行状态特征信息提取方法
CN107239435B (zh) 一种基于信息熵的出行周期检测方法
CN113763712B (zh) 基于出行事件知识图谱的区域交通拥堵溯因方法
CN114428828A (zh) 基于行驶轨迹挖掘新增道路方法、装置及电子设备
CN110929939A (zh) 一种基于聚类-信息量耦合模型下的滑坡灾害易发性空间预测方法
CN104112366B (zh) 基于隐语义模型的交通信号优化方法
CN103093625A (zh) 一种基于可信度验证的城市道路交通状态实时估计方法
CN103902848A (zh) 基于药物相互作用相似性识别药物靶标的***及方法
CN110716925A (zh) 一种基于轨迹分析的跨境行为识别方法
Lawson et al. Compression and mining of GPS trace data: new techniques and applications
CN108053646B (zh) 基于时间敏感特征的交通特征获取方法、预测方法及***
CN112559909B (zh) 一种基于gcn嵌入空间聚类模型的商业区发现方法
CN112052405B (zh) 一种基于司机经验的寻客区域推荐方法
CN108681741A (zh) 基于ic卡和居民调查数据的地铁通勤人群信息融合方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant