CN107239435A - 一种基于信息熵的出行周期检测方法 - Google Patents

一种基于信息熵的出行周期检测方法 Download PDF

Info

Publication number
CN107239435A
CN107239435A CN201710487737.4A CN201710487737A CN107239435A CN 107239435 A CN107239435 A CN 107239435A CN 201710487737 A CN201710487737 A CN 201710487737A CN 107239435 A CN107239435 A CN 107239435A
Authority
CN
China
Prior art keywords
trip
comentropy
matrix
sequence
row
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710487737.4A
Other languages
English (en)
Other versions
CN107239435B (zh
Inventor
何兆成
邓紫坤
余畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201710487737.4A priority Critical patent/CN107239435B/zh
Publication of CN107239435A publication Critical patent/CN107239435A/zh
Application granted granted Critical
Publication of CN107239435B publication Critical patent/CN107239435B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Complex Calculations (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及一种基于信息熵的出行周期检测方法,包括以下步骤:S1.将出行的发生与否分别标记为1和0,对于给定长度为L的出行序列,设其可能的周期为P,将出行序列存储成一个的矩阵MP;S2.对于矩阵MP的每一列c,为其定义一个概率:c=1,2,……P;其中m(c,j)表示矩阵Mp中的第c行第j列的值;S3.计算当前矩阵MP的信息熵为:S4.取矩阵MP中概率大于设定的第一阈值的所有列进行饱和度fP的计算;S5.P=P+1,重复执行步骤S1~S5,直至P大于L/2;S6.求得可能的周期集合P={P|在P处的信息熵不比在P+1和P‑1处的信息熵高,并且P对应的饱和度fp>第二阈值},其中集合P中最小的值为周期值。

Description

一种基于信息熵的出行周期检测方法
技术领域
本发明涉及智能交通控制领域,更具体地,涉及一种基于信息熵的出行周期检测方法。
背景技术
在大数据时代,信息获取的手段非常多,信息的感知工具非常普及,这使得收集各式各样的数据变得可能。同时,由此带来的数据产品非常丰富,其中包括许多事件组成的序列。
日常生活中,许多出行的发生都是存在着周期的,例如一个公司职员小王每周(7天)的工作日(5天)都会在早上乘坐地铁前往公司上班,这是在时空两个维度上的周期行为;又例如,王阿姨每个周日都会去某个(也许不是同一个)超市购置生活用品,这是在时间维度上的周期行为。
检测某个事件的发生是否存在周期以及其周期模式是怎样的,对于这类事件的管理,有着重要的意义,对相应***的改进、提升有着指导意义。例如,可以通过一个区域居民的通勤出行情况对城市交通出行进行预测,并且对城市交通***提出有针对性的改进、完善。
在交通***中,出行者被诸如卡口、线圈等固定的感知、检测设备所感知。而具体到公共交通***,获取到的是出行者的各阶段出行的OD点信息。
目前常见的出行轨迹时空分析方法是将空间区域进行编号,再在轨迹上依照一定的规则取点(事实上,常常先有点,后有轨迹),按照所属的区域获得编号属性。通过上述步骤将一个时空出行轨迹转化成一个符号序列。最后通过符号序列来分析轨迹。
这种方法有如下缺点:首先过大、过小的空间区域划分容易使得信息存在丢失与冗余。同时,出行轨迹存在着一定的噪声,在该方法现有的框架下难以剔除噪声。一个个体的出行有着很多不同的出行目的、习惯,不加以区分而对所有的出行进行全局的周期检测、周期模式识别,大大增加了周期检测难度。
其次,过于关注轨迹的细节部分。从一个大范围、全局宏观的视角来看,一个城市的出行量十分巨大。先不说如此庞大的计算量,城市管理者、交通部门的决策者,往往更关心的是中观的指标,例如某个区域有多少通勤量发生、通勤的起讫点,而不是具体到地点的出行轨迹。
因此,本发明采用了基于中观层面,将一个出行者的出行轨迹序列在某个时间窗下抽象为01序列的检测方法。该方法是本发明提出的周期检测方法的基础。
首先将同一次出行目的的出行阶段进行合并(如换乘出行合并),将个体出行信息转化为基于出行目的的个体出行链。对一个出行者的出行链进行模式聚类、划分(这里的模式可看做是一类目的的出行,例如小王上班,与具体聚类的划分的标准有关)。在观测时间窗内,某天,该模式的出行发生则标记为1,否则标记为0。这种方法从中观的角度出发,很好地满足了城市管理者、交通决策者的需求。
至此,得到了每个出行者的不同模式下的出行01序列。
在周期的检测上,目前国内外主要着重于检测时间序列、符号序列与交易序列的周期及周期模式,针对于01序列周期检测的方法还比较少。现介绍一下常用的适用于01序列的周期检测方法:
方法一:自相关函数与快速傅里叶变换。
先求出序列的自相关函数,基于“周期信号的自相关函数是周期函数,且周期与周期信号相同”这一原理,通过对序列的自相关函数进行快速傅里叶变换,得到主频率,而周期为求得的主频率的倒数。
方法二:在生物界中,生物学家认为基因在DNA上的重复出现对遗传形状具有重要意义。因此,在基因领域,将基因在DNA中的出现与否标记为1和0,提出了一种基于信息论的方法,去检测01序列的周期。特别的是,此类序列是异常稀疏的序列,0与1的比值在1000这个数量级。
方法一是目前对于01序列(信号)周期检测最常用到的方法,但是其并不能满足需求。这一方法在把序列看作一个不可分割的流动,使得无法获得序列的周期模式。再者,对于某些序列,自相关函数的主频与次主频间的区分并不是很明显,其适应性有待加强:考虑序列“0,0,1,0,0,0,1,0,0,1,0,0,0,1,0,0,1,0,0,0,1,0,0,1,0,0,0,1”,其周期为7,周期模式为0,0,1,0,0,0,1。而在该方法下,该序列的自相关函数与FFT频谱图像如图1、2所示。
显然,在该方法的检测下,检测出的周期为3.5,与7不符。
方法二对于01序列的检测具有很强的鲁邦性,但是其关注点在于极度稀疏的序列,并且这也正是方法的适用的前提。
发明内容
本发明为解决以上现有技术提供的周期检测方法无法有效及准确地检测出出行周期的缺陷,提供了一种基于信息熵的出行周期检测方法。
为实现以上发明目的,采用的技术方案是:
一种基于信息熵的出行周期检测方法,包括以下步骤:
S1.将出行的发生与否分别标记为1和0,对于给定长度为L的出行序列,设其可能的周期为P,将出行序列存储成一个的矩阵MP
S2.对于矩阵MP的每一列c,为其定义一个概率:
其中m(c,j)表示矩阵Mp中的第c行第j列的值;
S3.计算当前矩阵MP的信息熵为:
S4.取矩阵MP中概率大于设定的第一阈值的所有列进行饱和度fP的计算;
S5.P=P+1,重复执行步骤S1~S5,直至P大于L/2;
S6.求得可能的周期集合P={P|在P处的信息熵不比在P+1和P-1处的信息熵高,并且P对应的饱和度fp>第二阈值},其中集合P中最小的值为周期值。
与现有技术相比,本发明的有益效果是:
本发明从中观的视角,将出行信息转化成01序列。并且基于信息论的知识,提出一种基于信息熵的出行周期检测方法,该方法能够有效地检测出出行的周期以及周期模式,并且对随机噪声有较强的适应性。
附图说明
图1为序列的相关函数图。
图2为序列的FFT频谱图。
图3为方法的流程图。
图4为序列S在P=7时的矩阵化形式图。
图5为序列S在P=8时的矩阵化形式图。
图6为序列S在P=7时在纵向上的重合度示意图。
图7为序列S在P=8时在纵向上的重合度示意图。
图8为矩阵每列的概率的示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
图3为本发明提供的方法的流程示意图。如图3所示,给定长度为L的出行序列S,设S可能的周期为P,将序列存储成一个的矩阵MP,剩余的部分补0。例如,序列“0,0,1,0,0,0,1,0,0,1,0,0,0,1,0,0,1,0,0,0,1,0,0,1,0,0,0,1”在P=7的矩阵化形式如图4所示,在P=8的矩阵化形式如图5所示。
若P=7为S的周期,如图6所示,其0/1分布在纵向上的重合度很高。若P=8不为S的周期,如图7所示,其0/1分布在纵向上的重合度很差。
为了衡量这个“重合度”,本发明引入了信息熵判定这一步骤。
信息熵是用来量化不确定度、信息量大小的。信息熵就是平均而言,发生一个事件得到的信息量大小。所以数学上,信息熵其实是信息量的期望。
信息熵的定义为:
H=-ΣP(x)logP(x)
例如,“明天99%会下雨”,和“明天几乎不会下雨”是比较确定的,其信息量是很低的。
H=-(0.99log0.99+0.01log0.01)
=0.024
而,“明天25%下雨,25%晴天,50%多云”的不确定性较大,具有较大的信息量。
H=-(0.5log0.5+0.25log0.25+0.25log0.25)
=0.45
因此给矩阵MP的每一列c定义一个概率
c=1,2,……P,具体如图8所示。
当pc接近1或者接近0,该列的出行事件的发生与否的确定性高,信息量较低。只有P值为周期值或其整数倍时方才使然。因此,尝试用信息熵来衡量待检测序列S在当前的可能周期值下的确定性的高低。
定义矩阵MP的信息熵:
然后取矩阵MP中概率大于设定的第一阈值的所有列进行饱和度fP的计算;使每一个可能的周期值P重复执行上述过程,直至p大于L/2;求得可能的周期集合P={p|在p处的信息熵不比在p+1和p-1处的信息熵高,并且p对应的饱和度fp>第二阈值},其中集合P中最小的值为周期值。
上述计算饱和度的具体过程如下:
fP=出行事件数/提取的列包含的总的事件数
如图8所示,Pm=7的情况下,该矩阵的饱和度fP为0.875,周期模式为3、7。
实施例2
本实施例人工制造一些长度为112的周期序列对实施例1的方法进行了测试。其中m为原始序列的周期值,n为原始序列中一个周期中的出行事件发生的个数。
并添加随机噪声——01交换。定义噪声比η:
其中,l为序列的长度,Noise为序列中发生0/1交换的个数,即添加的噪声的程度与原始序列中出行事件发生的个数有关。
实验结果如下所示:
通过上述结果可以看出,本发明提供的方法对噪声有一定的适应能力。在25%的噪声中仍然能有80%以上的表现;甚至一些测试样本在25%的噪声中仍保持着100%的正确率。其优势不言而喻。
同时,从结果可以得到启示:在一些周期为奇数的序列中,该方法表现得比周期为偶数的序列要好,这意味着该方法在检测特定周期时可以有更好的表现。
例如:尝试去检测一个序列的周期是否为6。鉴于奇数的适应度比偶数的高,可以在序列的每间隔6个位置***0。如果该序列本身的周期为6,则检测出来的周期应为7。经过实验,噪声比为25%,m=6,n=4的序列经过上述引申方法处理后,检测的正确率由0.862提升到了0.996。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (2)

1.一种基于信息熵的出行周期检测方法,其特征在于:包括以下步骤:
S1.将出行的发生与否分别标记为1和0,对于给定长度为L的出行序列,设其可能的周期为P,将出行序列存储成一个的矩阵MP
S2.对于矩阵MP的每一列c,为其定义一个概率:
其中m(c,j)表示矩阵Mp中的第c行第j列的值;
S3.计算当前矩阵MP的信息熵为:
S4.取矩阵MP中概率大于设定的第一阈值的所有列进行饱和度fP的计算;
S5.P=P+1,重复执行步骤S1~S5,直至P大于L/2;
S6.求得可能的周期集合P={P|在P处的信息熵不比在P+1和P-1处的信息熵高,并且P对应的饱和度fp>第二阈值},其中集合P中最小的值为周期值。
2.根据权利要求1所述的基于信息熵的出行周期检测方法,其特征在于:所述步骤S4进行饱和度计算的具体过程如下:
fP=出行事件数/提取的列包含的总的事件数。
CN201710487737.4A 2017-06-23 2017-06-23 一种基于信息熵的出行周期检测方法 Active CN107239435B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710487737.4A CN107239435B (zh) 2017-06-23 2017-06-23 一种基于信息熵的出行周期检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710487737.4A CN107239435B (zh) 2017-06-23 2017-06-23 一种基于信息熵的出行周期检测方法

Publications (2)

Publication Number Publication Date
CN107239435A true CN107239435A (zh) 2017-10-10
CN107239435B CN107239435B (zh) 2020-07-14

Family

ID=59987319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710487737.4A Active CN107239435B (zh) 2017-06-23 2017-06-23 一种基于信息熵的出行周期检测方法

Country Status (1)

Country Link
CN (1) CN107239435B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108681741A (zh) * 2018-04-08 2018-10-19 东南大学 基于ic卡和居民调查数据的地铁通勤人群信息融合方法
CN109471887A (zh) * 2018-10-25 2019-03-15 电子科技大学中山学院 一种基于相对熵的周期获取方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866143A (zh) * 2009-04-14 2010-10-20 北京宏德信智源信息技术有限公司 基于时空特征聚合的道路交通服务水平预测预报方法
CN103646187A (zh) * 2013-12-27 2014-03-19 中国科学院自动化研究所 一种统计周期内车辆出行路线及od矩阵获取方法
CN103793599A (zh) * 2014-01-17 2014-05-14 浙江远图智控***有限公司 一种基于隐马尔科夫模型的出行异常检测方法
US9047767B2 (en) * 2013-09-09 2015-06-02 International Business Machines Corporation Traffic impact prediction for multiple event planning
CN104766475A (zh) * 2015-04-09 2015-07-08 银江股份有限公司 一种城市交通瓶颈挖掘方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866143A (zh) * 2009-04-14 2010-10-20 北京宏德信智源信息技术有限公司 基于时空特征聚合的道路交通服务水平预测预报方法
US9047767B2 (en) * 2013-09-09 2015-06-02 International Business Machines Corporation Traffic impact prediction for multiple event planning
CN103646187A (zh) * 2013-12-27 2014-03-19 中国科学院自动化研究所 一种统计周期内车辆出行路线及od矩阵获取方法
CN103793599A (zh) * 2014-01-17 2014-05-14 浙江远图智控***有限公司 一种基于隐马尔科夫模型的出行异常检测方法
CN104766475A (zh) * 2015-04-09 2015-07-08 银江股份有限公司 一种城市交通瓶颈挖掘方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
何兆成 等: "考虑出行模式和周期性的公交出行特征分析", 《交通运输***工程与信息》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108681741A (zh) * 2018-04-08 2018-10-19 东南大学 基于ic卡和居民调查数据的地铁通勤人群信息融合方法
CN108681741B (zh) * 2018-04-08 2021-11-12 东南大学 基于ic卡和居民调查数据的地铁通勤人群信息融合方法
CN109471887A (zh) * 2018-10-25 2019-03-15 电子科技大学中山学院 一种基于相对熵的周期获取方法

Also Published As

Publication number Publication date
CN107239435B (zh) 2020-07-14

Similar Documents

Publication Publication Date Title
Helmus et al. A data driven typology of electric vehicle user types and charging sessions
CN105493109B (zh) 使用多个数据源的空气质量推断
Wu et al. Mapping building carbon emissions within local climate zones in Shanghai
CN107103392A (zh) 一种基于时空地理加权回归的公交客流影响因素识别与预测方法
Duan et al. Prediction of city-scale dynamic taxi origin-destination flows using a hybrid deep neural network combined with travel time
CN109993970A (zh) 一种城市区域交通事故风险预测方法
CN108629978A (zh) 一种基于高维路网和循环神经网络的交通轨迹预测方法
CN105243844A (zh) 一种基于手机信令的道路状态识别方法
CN105225486A (zh) 填补缺失浮动车数据的方法及***
CN110348614A (zh) 一种获取乘客od的方法及公交客流的预测方法
Guo et al. Enhanced least square based dynamic OD matrix estimation using Radio Frequency Identification data
CN107845260A (zh) 一种用户公交出行方式的识别方法
CN107239435A (zh) 一种基于信息熵的出行周期检测方法
Zhang et al. How road network transformation may be associated with reduced carbon emissions: An exploratory analysis of 19 major Chinese cities
CN103699801A (zh) 一种时空规律的地铁乘客聚类和边缘检测方法
CN103093625A (zh) 一种基于可信度验证的城市道路交通状态实时估计方法
CN108257385A (zh) 一种基于公共交通的异常事件的甄别方法
CN110163060A (zh) 图像中人群密度的确定方法及电子设备
Wang et al. STLoyal: A spatio-temporal loyalty-based model for subway passenger flow prediction
CN110263783A (zh) 基于深度学习的多特征充电选址影响因素分析方法及***
CN108053646B (zh) 基于时间敏感特征的交通特征获取方法、预测方法及***
CN104143117B (zh) 一种电网特殊负荷与日负荷之间的相关系数提取方法
Chung et al. Investigating the effects of POI-based land use on traffic accidents in Suzhou Industrial Park, China
CN108681741A (zh) 基于ic卡和居民调查数据的地铁通勤人群信息融合方法
KR102245888B1 (ko) 공간 정보를 이용한 주택 가격 추정을 위한 빅데이터 구축 시스템 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant