CN108364467B - 一种基于改进型决策树算法的路况信息预测方法 - Google Patents

一种基于改进型决策树算法的路况信息预测方法 Download PDF

Info

Publication number
CN108364467B
CN108364467B CN201810144289.2A CN201810144289A CN108364467B CN 108364467 B CN108364467 B CN 108364467B CN 201810144289 A CN201810144289 A CN 201810144289A CN 108364467 B CN108364467 B CN 108364467B
Authority
CN
China
Prior art keywords
attribute
road
data
decision tree
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810144289.2A
Other languages
English (en)
Other versions
CN108364467A (zh
Inventor
何泾沙
侯立夫
廖志钢
黄辉祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhou Sihua
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201810144289.2A priority Critical patent/CN108364467B/zh
Publication of CN108364467A publication Critical patent/CN108364467A/zh
Application granted granted Critical
Publication of CN108364467B publication Critical patent/CN108364467B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • G08G1/0133Traffic data processing for classifying traffic situation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/065Traffic control systems for road vehicles by counting the vehicles in a section of the road or in a parking area, i.e. comparing incoming count with outgoing count

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于改进型决策树算法的路况信息预测方法,包括:基于道路连通力的影响因子确定分析道路连通力的属性;采集道路数据,数据预处理,计算信息熵,计算各属性的属性熵,基于关联函数计算各属性的关联函数值,基于各属性的关联函数值计算各属性的权重值;基于信息熵、各属性的属性熵和各属性的权重值计算各属性的信息增益,根据各属性信息增益的大小进行排序构建决策树,并根据决策树预测道路路况。本发明通过计算属性的关联函数值,同信息熵展开运算得出的属性权重值来构建决策树,可以克服传统ID3算法倾向于将选取具有更多可能取值的元素作为高权重属性的问题,利用构建的决策树去预测下一时段的道路拥堵改善程度。

Description

一种基于改进型决策树算法的路况信息预测方法
技术领域
本发明涉及决策树算法与道路交通流模型技术领域,尤其涉及一种基于改进型决策树算法的路况信息预测方法。
背景技术
随着全球城市化的推进,城市中的机动车保有量逐年增加。截止2016年6月底,北京的机动车保有量已达544万量,位居全国之首。对北京、东京、纽约这种特大型城市,这一数据会随着年代的推移而继续上升。数量巨大的机动车不仅会造成交通拥堵,伴随而来的还有空气污染、能源浪费等问题,阻碍了城市发展,降低了人们的生活水平。在全球200个大型城市中(人口大于80万),北京的交通拥挤程度排名第15。拥堵的交通状况不仅给人们的出行带来了额外的时间消耗,更提升了燃油消耗,使得运输、物流等行业的运营成本大幅提升。2011年,在澳大利亚国内最大的六个城市中,交通堵塞引发的物流运输延误致使物流公司亏损137亿美元。在中国,运输燃料费用则占物流公司总运营成本的46%。综上而言,减缓道路拥堵、改善道路交通条件不仅可以降低人们的出行成本,还有益于降低道路拥堵带来的经济损失并减少尾气排放。造成交通拥堵的原因是多样化的,在现有交通条件下,最大化利用道路资源可以有效地减缓堵塞,展开对道路信息的研究则有助于直观高效地评估道路可承载车流量与寻路算法的有效性。
1、决策树算法与改进
决策树是一种常用的分类与回归方法,该方法从一组无序、无规律的事例中推理出决策树表示形式的分类规则。决策树分类算法采用自顶向下的递归方式,在决策树内部节点间进行属性值比较,根据不同属性值判断从该节点向下的分支,判断至叶子节点时即可得出分类结果。决策树中的节点表示一个属性,测试结果则输出在叶节点的分支中,不同条件对应的结果在下一层的节点中进一步验证。因此,从决策树的根到叶节点的每条路径便对应了一种选择办法,越靠近根部的节点属性权重值越高,整棵决策树对应了一组表达式规则。
决策树分类算法由决策树的生成和修剪两个步骤组成。生成算法通过输入一组带有类别标记的样本参数来构造一棵二叉或多叉的决策树。对于二叉树,内部节点,一般表示为一个逻辑判断;树的边可看作逻辑判断的分支结果。对于多叉树,内部节点是样本集的属性,边是该属性的所有取值,属性值的数量决定了决策树边的数量,树的叶子节点是类别标记。决策树构造过程采用的方法是自上而下的递归方法,具体算法如下:
算法Generate_decision_tree
输入:训练样本samples,由离散值属性表示;候选属性的集合attribute_list。
输出:由给定样本产生的一棵决策树。
(1)、创建节点N;
(2)、如果samples都在同一个类C则返回N作为叶子节点,以类C为标记,程序结束;
(3)、如果attribute_list为空,则返回N作为叶节点,标记为samples中最普通的类,程序结束;
(4)、选择attribute_list中具有最高信息增益的属性h_attribute;
(5)、标记节点N为h_attribute;
(6)、对于h_attribute中的每一个已知值Si,由节点N生长出一个条件为h_attribute=Si的分枝;
(7)、设Si是samples中h_attribute=Si的样本的集合,如果Si为空则加上一个树叶,标记为samples中最普通的类,否则加上一个由Generate_decision_tree(Si,attribute_list,h_attribute)返回的节点。
决策树生成的过程的关键在于如何选择好的逻辑判断或属性,选择合适的属性构造决策树属于NP难问题,因此只能采用启发式策略来进行属性选择。属性选择依赖于对各种样本子集的不纯度度量方法,包括信息增益、信息增益比、证据权重、最小描述长度等。
由于现实世界的数据一般不完美,所以要根据问题与属性字段特征来选择对应的度量方法。此外,对于部分属性中存在的缺值、数据不准确或含有噪声或错误等情况,决策树可通过预剪枝与后剪枝两种办法来降噪,确保数据的完整与准确。基本的决策树构造法没有考虑噪声,因此生成的决策树完全与训练样本拟合,在有噪声的情况下,完全拟合将导致过分拟合,即分类模型对训练数据的完全拟合反而使分类模型对显示数据的分类预测能力下降。因此,通过对数据的剪枝来降噪是决策树的构建过程中的另一环节,它将使树得到简化而变得更容易理解。
在决策树思想的指导下,Quinlan提出了以熵和信息增益为衡量标准构建决策树的ID3算法。该算法对样本集使用信息熵作为启发知识来选择合适的分类属性以实现对样本集划分为若干子集的操作。通过选择具有最高信息熵的属性作为对样本集的优先分类条件来逐层构建决策树的节点。照此办法,分类后得到的训练样本子集所需的信息将是最小的,使用具有最高信息熵的属性来划分当前节点中所包含的样本集,将使得所有生成的样本子集的属性混合程度降低到最小。在为寻找对样本分类的最优办法时,构建决策树时应尽量所要问的问题数量,也就是要减少树的深度,信息增益函数便是提供这种平衡划分的办法之一。
设S是训练集样本,它包含n个类别的样本,分别用C1,C2,…,Cn表示,S的熵值就为
Figure BDA0001578401920000031
其中,pi表示类Ci的概率。如果将S中的n类训练样本看成是n种不同的消息,那么S的熵表示对每种消息编码需要的平均比特数,|S|×entropy(S)就表示对S进行编码所需的比特数。|S|表示S中的样本数目。
设属性A将S划分成m份,根据A划分的自己的熵或期望信息可以表示为下式:
Figure BDA0001578401920000032
其中,Si表示根据属性A划分的样本集的第i个子集,|S|和|Si|分别表示S和Si中的样本数目。信息增益用来衡量熵的期望减少的值,故使用属性A对S进行划分获得的信息增益为
Gain(S,A)=Entropy(S)-Entropy(S,A)
Gain(S,A)是指因知道属性A的值后导致的熵的期望压缩。根据信息增益的定义,信息增益越大,熵的减小量也越大,节点越趋近于钝;故Gain(S,X)越大说明选择测试属性X对分类提供的信息越多。相应地,根据每个属性的信息增益值,选择较大者优先作为决策树的分支属性。
ID3算法在已有的决策树算法基础上以信息熵为首要参考指标应用于决策树节点属性的选择,提升了对样本分类的相关性。ID3算法如下:
算法ID3
输入:训练样本,具有离散值的样本属性,候选归纳属性集
输出:一棵决策树
(1)初始化决策树T,创建节点N,若样本集种植包含一类属性Q,则返回N作为树的根节点,Q为全体属性集。
(2)If(T中所有叶节点(X’,Q’)都满足X属于用一类or Q’为空)then算法停止;(3)Else{任取一个不具有(2)中所属状态的叶节点(X’,Q’)};
(4)For each Q’中的属性A
Do计算信息增益gain(A,X’);
(5)选择具有最高信息增益的属性B作为节点(X’,Q’)的测试属性;
(6)For each B的取值bi
Do{从该节点(X’,Q’)深处分支,代表测试输出B=bi;求得X中B值等于bi的子集Xi,并生成相应的叶节点(Xi’,Q’-{B});}
(7)跳转至步骤(2);
ID3算法是一种贪心算法,采用自顶向下,分而治之的递归方法构建决策树。该递归的终止条件是:节点内的所有样本属于同一类别。如果没有属性可以用来划分目前的样本集,然后使用投票原则使其成为一个强制叶子节点,并将其标记为具有的类别最多的样本类型。
由此可见,ID3算法的优点在于方法简单,对样本集的处理能力强,但依赖于特征数目较多的特征,而属性取值最多的属性并不一定最优。换言之,对于实际情况中需要考虑较多因素的问题,传统的ID3算法对属性的优先级判定存在一定不足,这往往源自于具有较多选项的属性的信息熵值越高。
因此在创建决策树时应避免仅考虑信息熵,对此,张等人采用改进型的ID3算法来避免这一部分问题,例如对属性的敏感性进行分析计算以给出更加合理的属性权重、利用基于信息熵的联合密度函数对决策树节点进行二次评估整合等方法。在这两种算法中,敏感性计算将根据输入的属性数值导出相应的神经网络并加以训练,这会极大地提升算法复杂度,算法效率不高;利用联合密度函数的分析只适用于离散型的数据,与本发明的数据未必兼容。
发明内容
针对上述问题中存在的不足之处,本发明提供一种基于改进型决策树算法的路况信息预测方法。
为实现上述目的,本发明提供一种基于改进型决策树算法的路况信息预测方法,包括:
步骤1、确定道路连通力的影响因子,所述影响因子包括车道长度Rl、车道数Rs、车道宽度Rd、红绿灯数Rx、连续行驶平均长度Rl*、路段路口数Ln、连接路段数Lr、路段是否含公交车站Bs和行车变道指数Le
步骤2、基于步骤1的影响因子确定分析道路连通力的属性,所述属性包括道路容量Rm、车道宽度Rd、期望等候时间Ts、道路平均转向数Lg、连续行驶平均长度Rl*、路段是否含公交车站Bs和行车变道指数Le
步骤3、采集道路数据;
步骤4、数据预处理:剔除不合要求的数据与数据修补;
步骤5、基于采集的道路数据计算信息熵E(S);
Figure BDA0001578401920000051
式中:S为道路数据的训练集样本,其包含n个类别的样本,分别用C1,C2,…,Cn表示;pi表示类Ci的概率;
步骤6、基于采集的道路数据计算各属性的属性熵E(S,A);
Figure BDA0001578401920000052
其中,Si表示根据属性A划分的训练集样本的第i个子集,|S|和|Si|分别表示S和Si中的样本数目;
步骤7、基于关联函数计算各属性的关联函数值CF(A);
Figure BDA0001578401920000053
式中:Xim-1与Xim为参数Xij的特定值,下标j表示属性A的每一种情况,i表示数据每一种取值情况,n为数据总量;
步骤8、基于各属性的关联函数值CF(A)计算各属性的权重值Wg(A);
Figure BDA0001578401920000061
式中:m为属性数量,CF(1)、CF(2)…CF(m)分别为每个属性的关联函数值;
步骤9、基于信息熵E(S)、各属性的属性熵E(S,A)和各属性的权重值Wg(A)计算各属性的信息增益Gain′(S,A);
Gain′(S,A)=(E(S)-E(S,A))*Wg(A)
步骤10、根据各属性信息增益的大小进行排序构建决策树,并根据决策树预测道路路况。
作为本发明的进一步改进,在步骤2中,道路容量Rm为:
Figure BDA0001578401920000062
式中,αl为车道衰减系数。
作为本发明的进一步改进,在步骤2中,期望等候时间Ts为:
Figure BDA0001578401920000063
式中,Tp为每一个通行方向的时间占总循环的时间的比值。
作为本发明的进一步改进,在步骤2中,路段平均转向数Lg为:
Figure BDA0001578401920000064
作为本发明的进一步改进,在步骤4中,剔除不合要求的数据包括:
剔除交通流量大于最大限定值的数据;
剔除道路车速大于最大限定值的数据;
剔除交通流量、道路车速为负或空的数据;
剔除道路车速为零,但交通流量不为零的数据;
剔除交通流量为零,但道路速度不为零的数据。
作为本发明的进一步改进,在步骤4中,数据修补包括:采用临近道路或临近时刻的数据进行修补。
作为本发明的进一步改进,在步骤4与步骤5之间,还包括:
数据分类:根据流入端平均车流密度构造拥堵和流畅条件的道路连通力决策树。
作为本发明的进一步改进,在步骤10中,信息增益最大的属性作为决策树的根节点,信息增益次大的属性作为决策树的第二层节点,依次类推,构建出决策树。
与现有技术相比,本发明的有益效果为:
本发明利用关联函数的办法来对属性值权重给出更加合理的评估。通过计算属性的关联函数值,同信息熵展开运算得出的属性权重值来构建决策树,这不仅可以克服传统ID3算法倾向于将选取具有更多可能取值的元素作为高权重属性的问题,同时还把属性间的关联性考虑到算法中,更为全面地反映了属性的权重。
附图说明
图1为本发明一种实施例公开的基于改进型决策树算法的路况信息预测方法的流程图;
图2为本发明一种实施例公开的非高峰时段的决策树示意图;
图3为本发明一种实施例公开的高峰时段的决策树示意图;
图4为本发明一种实施例公开的非高峰时段单因素对连通力的影响正确率示意图;
图5为本发明一种实施例公开的非高峰时段两种算法对连通力判断的准确率示意图;
图6为本发明一种实施例公开的非高峰时段不同路况下的道路预测准确率示意图;
图7为本发明一种实施例公开的高峰时段单因素对连通力的影响正确率示意图;
图8为本发明一种实施例公开的高峰时段两种算法对连通力判断的准确率示意图;
图9为本发明一种实施例公开的高峰时段不同路况下的道路预测准确率示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
本发明提供一种基于改进型决策树算法的路况信息预测方法,通过使用改进后的决策树ID3算法对道路路况进行预测。本发明利用关联函数的办法来对属性值权重给出更加合理的评估。通过计算属性的关联函数值,同信息熵展开运算得出的属性权重值来构建决策树,这不仅可以克服传统ID3算法倾向于将选取具有更多可能取值的元素作为高权重属性的问题,同时还把属性间的关联性考虑到算法中,更为全面地反映了属性的权重。根据属性的关联函数值对信息增益的定义公式采取适当地调整。
首先,利用关联函数分析属性时,首先计算属性的关联函数值。设A为数据集P的一个属性值,B为数据集P中的一个类别属性,对于属性A及其类别属性B之间的关系如下:
Figure BDA0001578401920000081
有以下关联函数定义式:
Figure BDA0001578401920000082
该算式中,Xim-1与Xim可看作一般参数Xij的特定值,该值指代某个数据的具体数量值,下标j表示属性A的每一种可能情况,i表示数据每一种可能的取值情况,数据总量用n来表示。
接下来,对每个属性的关联函数值作归一化处理。假设有m个属性,每个属性的关联函数值分别为CF(1)、CF(2)…CF(m),对应的属性权重值可以表示为:
Figure BDA0001578401920000083
其中,0<A≤m;那么,属性A的含权重的信息增益可表示为以下形式:
Gain′(S,A)=(Entropy(S)-Entropy(S,A))*Wg(A)
在构造决策树的过程中,Gain’(S,A)可以有效地替代Gain(S,A)成为属性分类的新标准。这可以有效地避免在选择结点时优先选择取值较多的属性,同时对属性值的权重值作了保真处理,这减小了信息增益与实际情况间的差异,确保在构建树的过程中优先选取更为有影响力的属性。
具体的:
如图1所示,本发明提供一种基于改进型决策树算法的路况信息预测方法,包括:
步骤1、确定道路连通力的影响因子:
若想利用决策树算法对道路连通力进行定量分析,首先要明确相应的影响因素与环境变量。影响道路连通力的因素有很多种,从道路的初始设计初衷与施工标准,到具体的所处地理位置与社会环境、实时天气、车流大方向以及驾驶员***均长度Rl*、路段路口数Ln、连接路段数Lr、路段是否含公交车站Bs和行车变道指数Le。其中:
1)、车道长度Rl
车道长度定义了道路承载力,同样也是道路连通力的基本属性之一。车道长度越大,在拥堵时段等候通行的最大车辆数越多。考虑到启动时的车速与间距,等候车辆越多,放行时通过交叉口的车流占总等候车辆的比例就越小,转化为对堵塞道路的缓解能力便相对较弱。由此可见车道长度对道路连通力的影响是十分显著的。
2)、车道数Rs
车道数对连通力的影响与车道长度类似。这俩者作为路段的基础属性决定了道路的容载量而间接影响连通力的强弱。
3)、车道宽度Rd
由于城市道路规划与道路连通目标不尽一致,即便在相邻的街区内不同路段的车道宽度.也不完全一致,这一因素致使局部区域不同路段的车流速度存在显著差异。这方面的速度差异直接对车辆起步、正常行驶、通过交叉口等行车环境产生了影响。据《城市道路设计规范》,理想的连续交通流道路车道宽应在3.6米及以上,当车道宽度小于该值时,高峰时段的路段车流平均速度会有明显下降。
4)、红绿灯数Rx
城市道路不仅是机动车通行的区域,也是行人出行所必经的重要场所。相应地,交叉路口不仅有红绿灯进行交通流控制,在非交叉路段也会有红绿灯对穿越交通流的人群进行管辖由此导致地交通流延缓现象十分普遍,因此,红绿灯数量对道路连通力的影响也在本研究之中。值得注意的是,交叉路口处的交通灯体现了道路连通的多样选择,也可作为车道的起点与终点的参考,路段中的行人红绿灯则是对连通力有一定阻塞所用。这里记录的值仅为路段内的值,不包含两端路口的指示灯。
5)、红绿灯时长Rt
交通指示灯的交替顺序与每一方向的通行时间不尽相同,这决定了单股车流的通行时长,频繁地切换通行状态指示灯会让行车的起步阶段占有更多的路口通过时间,进而影响交通流的疏解速度。单纯考虑红绿灯时长很难看出该属性与道路连通力的关系,因此在算法实现阶段本发明将联合红绿灯数量与时长,计算单一道路的非等待时长期望作为这两个属性的影响因子。
6)、连续行驶平均长度Rl*
机动车行驶过程中,遇到交叉口时必然会减速缓行或停车暂驻,这给交通流行进带了阻塞效果。因此,在考虑持续行车这一方面时,本文选择连续行驶长度的平均值作为道路连通力的影响因素之一。
7)、路段路口数Ln
在街区道路环境中,由于车流量小,非高峰时段行车不会堵塞,部分道路的交叉口处并没有交通信号指示灯。由此便产生了部分路段的路口数多于红绿灯数的情况,在这种条件下,仅考虑红绿灯数量不足以表明道路车流流入流出条件,故引入路段路口数作为构成路段连通条件的因素之一。
8)、连接路段数Lr
引入路段路口数不仅是起到区别于红绿灯数的作用,更是作为描述当前道路与其他路段连接程度的参数之一。为进一步细化这种连接程度,本研究引入连接路段数这一属性。国内外的交叉口普遍为十字或丁字型,对应的连接路段数依次为3或2,如果有施工作业或临时管制某一方向禁止行车的情况,其值也会相应减小。该属性值越大,表明当前路段的车流在流出端的选择越多,对应的道路连通力更强。
9)、路段是否含公交车站Bs
刨除私家车与出租汽车,公共汽车也是城市道路交通环境中不可忽视的因素。由于公交车自身车型较大且需要进站停车,故在道路行驶过程中易发生车速经常改变、进站停车造成短暂的区域堵塞等情况。这些条件会致使路面上的其他车辆产生更频繁地并道、加减速等行驶行为,进而影响交通流的疏解速度。
10)、行车变道指数Le
在道路上行驶的过程中,出于各种目的,驾驶员必然会遇到变更车道行驶的情况,例如,要在下个路口转向;路面标识规定的当前车道行驶方向与既定目的地不同;超车变道或避让交通事故变道等等。从科研角度,本发明无法有效地统计驾驶员主观变道的意愿与突发的道路故障,因此本发明从客观道路设计角度出发,对交通引导标志引发的驾驶换到行为进行统计分析,即判断在进入路段后的所在车道的预设转向与路段末端地标给出的转向标志是否一致。对于车道数大于等于2的路段,若车道数Rs为奇数,默认路段右侧
Figure BDA0001578401920000111
车道为直行道路,左侧
Figure BDA0001578401920000112
车道为左转道路,若Rs为偶数,右侧
Figure BDA0001578401920000113
车道为直行道路,左侧为左转道路。在实际调研中,两者的实际差数的绝对值为该路段的行车变道指数。
显然,评价与量化道路连通力并不是一件容易的事情,影响因子众多且存在相互影响的可能性。因此,在提出上述影响因子后,十分有必要对其进行归纳整理,给出可利用改进型ID3算法进行实现的属性集。
步骤2、基于步骤1的影响因子确定分析道路连通力的属性,属性包括道路容量Rm、车道宽度Rd、期望等候时间Ts、道路平均转向数Lg、连续行驶平均长度Rl*、路段是否含公交车站Bs和行车变道指数Le。其中:
从道路自身角度讲,车道宽度可独立于车道长度、车道数作为单独的检测标准,但是单独考虑车道长度或车道数都过于单薄,因此本研究综合了两者,并融入车道衰减系数αl,综合三者后形成属性道路容量Rm作为综合分析道路连通力的属性。道路容量Rm的定义式如下所示:
Figure BDA0001578401920000121
接下来对交通信号指示灯的相关信息进行处理:考虑到不同指示灯的通行方向与通行时长不尽相同,倘若采取统一的计时方法或通行顺序的评估办法很难达成数据集内部的平衡,进而影响分析结果的有效性,不妨采用期望等候时间这一属性来从道路驾驶的角度综合反映红绿灯的时长与数量对道路连通力的影响。期望等候时间,是车辆行驶在目标路段上因交通指示灯造成停车等候的时间期望值。对于该路段上的每一个红绿灯,每一个通行方向的时间占总循环的时间是固定值Tp,Tp由红绿灯时长Rt决定,则等候时间的期望为
Figure BDA0001578401920000122
因此只需要对所有值进行求和即可得到该路段的期望等候时间Ts,定义式如下:
Figure BDA0001578401920000123
类似地,单独考虑路段路口数与连接路段数过于单一,对于二者之差---路口的平均转向数便可以很好地反应当前道路的流出端是否具有多样性的选择。路段平均转向数Lg的定义如下:
Figure BDA0001578401920000124
综上所述,本研究以道路自身特征、交通信号指示灯的分布与等候时间、相邻路口属性、行驶条件为四大主要特征对影响道路连通力的因子展开分析。在后续实验中,本文将对所有属性划分整合为这些属性:道路特征属性包括道路容量Rm、车道宽度Rd;交通信号灯特征属性包括期望等候时间Ts;相邻路口特征属性包括道路平均转向数Lg;行驶条件特征属性包括连续行驶平均长度Rl*、路段是否含公交车站Bs、行车变道指数Le
步骤3、采集道路数据;
在明确道路连通力的影响因子后,本发明对道路数据进行收集,筛选出符合实验条件的数据进行后续实验。对于道路长度、车道数等静态信息,通过实地考察、文献查阅、地图测绘的方式来采集。为了考察道路连通力,本研究对指定单位时间内的道路车速数据进行收集对比,根据路段车速的改变值,结合车速-流量模型计算道路流量变化从而定性推导连通力的强弱。
近年来北京道路交通信息的数字化发展迅速,在北京市交通信息对外发布***创立后,交叉路口监控与路面交通数据采集功能分别应用到了日常生活中,为常用的地图工具所用以展现实时道路信息。本文每15分钟采集午后时间段(14:00至15:30)与傍晚时间段(17:00-18:30)的北京东南部区域内的道路交通车速作为原始数据,示例数据如表1所示:
表1
Figure BDA0001578401920000131
步骤4、数据预处理:
考虑到路段单位时间内不同路段流入的车流量有所差异,因此在数据预处理阶段要建立有效地筛选机制。国内外对交通数据的预处理有大量研究,本文在此基础上针对采集的道路交通数据归纳总结了一些影响实验结果的共性问题,由此提出道路连通力数据预处理的办法,主要包括数据有效性分析和数据补充两个环节。
1)、剔除不合要求的数据:
在采集道路路况信息的过程中,难免会遇到突发道路事故以及大范围交通堵塞而导致的交通流量、车速超过合理阈值的情况,这种模式下的道路数据与本研究的交通流速度-密度-流量模型相悖。针对这种极端条件下的数据,很难从中发掘有效信息用于总结普适性规律。因此,本发明拟出以下几条数据剔除规则来排除错误数据,以提升数据在挖掘时间和空间关联方面的有效性。
剔除交通流量大于最大限定值的数据;
剔除道路车速大于最大限定值的数据;
剔除交通流量、道路车速为负或空的数据;
剔除道路车速为零,但交通流量不为零的数据;
剔除交通流量为零,但道路速度不为零的数据。
2)、数据修补:
对于已经剔除的数据与部分未能准确采集的路况信息,有必要对零星时刻的缺失数据进行补充与调整。本研究对于初次筛选后的数据采用临近道路或临近时刻的数据进行修补。对于某一地点的部分时段数据缺失,采用邻近时刻的流出端或流入端道路信息的平均值来补充模拟随后进行数据平滑处理,这种情况只有在相邻道路与数据缺失道路有较强关联性的情况下方可采用。
经过上述两个过程处理后的数据与一些运算生成的属性参数便可用于生成决策树,部分数据的样例如表2所示:
表2
Figure BDA0001578401920000141
在表2中,属性Bs为1时代表本路段有公交站台,0表示未设立。路况改善值为0表示当前路段交通流密度没有改变,该值的具体数值绝对值表示路况改变的跨度区域,数值为正代表朝增益改善,为负则表示减益改变。由于统计的时间跨度较多,不同路段的道路变化情况纷繁复杂,因此在对道路流密度改善值作判定时取分布较多的情况作为当前路段的结果以得出内容。
为简化这部分属性信息,对于数值较为具体的属性,根据数值分布情况对其进行属性范围划分以契合决策树算法的需求。根据全部103条道路3天10个时间段共3090个训练样本集,其中含2394个有效样本,对道路容量Rm、期望等待时间Ts、路段平均转向数Lg、连续行驶平均长度Rl*四个属性作如表3所示的划分:
表3
Figure BDA0001578401920000151
步骤5、数据分类:根据流入端平均车流密度构造拥堵和流畅条件的道路连通力决策树。
通过对整理过的影响道路连通力的属性分别计算信息熵与属性权重值得出改进后的信息增益。随后按照所得数据确定属性影响力的大小构建决策树。但是对于采集到的数据中傍晚时段(17:00-18:30)与午后时段(14:00-15:30),傍晚时段为高峰时段,午后时段为非高峰时段;所得结果存在显著差异,因此针对不同时段不同交通流压力下的道路信息,分别构建高峰时段与非高峰时段的两棵道路连通力决策树。
步骤6、基于采集的道路数据计算信息熵E(S);
Figure BDA0001578401920000152
式中:S为道路数据的训练集样本,其包含n个类别的样本,分别用C1,C2,…,Cn表示;pi表示类Ci的概率;其中:
通过对总共2394个有效样本集进行归类划分,将其分为午后与傍晚两组数据分别计算属性的信息熵。这两组数据的划分依据不仅是简单地从时间上进行拆分,也是基于所有采样的平均行车速度,亦可以理解为不同的拥堵程度,午后时段道路平均负载率不高,道路流入端的平均拥堵程度不足30%,傍晚时段的车流密度则有明显的增多,平均车速也较午后时段有所下降。在所有有效样本中,午后时段有效数据为1347组,晚高峰时段有效数据包含1047组。
首先,来对午后时段的路段平均转向数属性计算信息熵。对于1347个训练样本,路面车流密度有所改善的数据有727组,没有改善的样本有620组。根据式可得到信息熵:
Figure BDA0001578401920000161
步骤7、基于采集的道路数据计算各属性的属性熵E(S,A);
Figure BDA0001578401920000162
其中,Si表示根据属性A划分的训练集样本的第i个子集,|S|和|Si|分别表示S和Si中的样本数目;
以道路容量Rm为例:
对道路连通力的道路容量Rm属性计算属性熵。对于样本集S,Rm将S划分为三个部分,Rm≤1812、1812<Rm≤2834、Rm>2834,即容量小、中、大。本发明用Sv表示属性值为v的样本集,|S|=234,|S|=687,|S|=426,在|S|中,类Rm的两种取值的样本数分别为101、133,|S|的熵为:
Figure BDA0001578401920000163
同理,可以计算出S和S的熵分别为0.752和0.821,因此使用属性Rm划分S的期望信息为:
Figure BDA0001578401920000164
类似地,其余属性的信息增益可照此方法同样得出。
步骤8、基于关联函数计算各属性的关联函数值CF(A);
Figure BDA0001578401920000165
式中:Xim-1与Xim为参数Xij的特定值,下标j表示属性A的每一种情况,i表示数据每一种取值情况,n为数据总量;其中:
为避免属性分布对分析结果的影响,计算每个属性的权重函数与对应的信息熵权重值的方法来获得权重值。以属性Rm为例,其数据的构成情况如表4所示:
表4样本数据中的道路容量单因素结果
Figure BDA0001578401920000171
Figure BDA0001578401920000172
同理,本发明可以计算出其余六个属性的关联函数值,如表5所示:
表5其他属性信息熵权重值
Figure BDA0001578401920000173
步骤9、基于各属性的关联函数值CF(A)计算各属性的权重值Wg(A);
Figure BDA0001578401920000174
式中:m为属性数量,CF(1)、CF(2)…CF(m)分别为每个属性的关联函数值;
步骤10、基于信息熵E(S)、各属性的属性熵E(S,A)和各属性的权重值Wg(A)计算各属性的信息增益Gain′(S,A);
Gain′(S,A)=(E(S)-E(S,A))*Wg(A)
步骤11、根据各属性信息增益的大小进行排序构建决策树,并根据决策树预测道路路况;构建决策树的方法为:
信息增益最大的属性作为决策树的根节点,信息增益次大的属性作为决策树的第二层节点,依次类推,构建出决策树。
对于非高峰时段,根据基于属性权重的ID3决策树算法以及上述的相关信息熵运算,给出如图2所示的决策树。从这棵决策树中本发明可以看到,在午后时间段,基于权重的信息熵增益最大的属性是路段平均转向数,因此将其作为整棵树的根节点,针对不同的样本分类情况再选取信息熵增益次大的期望等候时间属性作第二层节点,以此类推直至所有样本均得到分类。
不同于午后时段,对于采集到的高峰时段的数据所得决策树如图3所示。
通过上述结果,针对不同路况条件下的道路进行路况预测,预测结果如图4-9所示。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于改进型决策树算法的路况信息预测方法,其特征在于,包括:
步骤1、确定道路连通力的影响因子,所述影响因子包括车道长度Rl、车道数Rs、车道宽度Rd、红绿灯数Rx、连续行驶平均长度Rl*、路段路口数Ln、连接路段数Lr、路段是否含公交车站Bs和行车变道指数Le
步骤2、基于步骤1的影响因子确定分析道路连通力的属性,所述属性包括道路容量Rm、车道宽度Rd、期望等候时间Ts、道路平均转向数Lg、连续行驶平均长度Rl*、路段是否含公交车站Bs和行车变道指数Le
步骤3、采集道路数据;
步骤4、数据预处理:剔除不合要求的数据与数据修补;
步骤5、基于采集的道路数据计算信息熵E(S);
Figure FDA0002503299960000011
式中:S为道路数据的训练集样本,其包含n个类别的样本,分别用C1,C2,...,Cn表示;pi表示类Ci的概率;
步骤6、基于采集的道路数据计算各属性的属性熵E(S,A);
Figure FDA0002503299960000012
其中,Si表示根据属性A划分的训练集样本的第i个子集,|S|和|Si|分别表示S和Si中的样本数目,m为训练集样本所划分的子集数;其中,属性A为基于步骤1的影响因子确定分析道路连通力的属性;
步骤7、基于关联函数计算各属性的关联函数值CF(A);
Figure FDA0002503299960000013
式中:Xi m-1与Xim为参数Xij的特定值,下标j表示属性A的每一种情况,i表示数据每一种取值情况,n为数据总量,m表示属性A中所选取的具体属性,Xij表示每一种属性的取值情况;
步骤8、基于各属性的关联函数值CF(A)计算各属性的权重值;
Figure FDA0002503299960000014
式中:m为属性数量,CF(1)、CF(2)...CF(m)分别为每个属性的关联函数值;
步骤9、基于信息熵E(S)、各属性的属性熵E(S,A)和各属性的权重值Wg(A)计算各属性的信息增益Gain′(S,A);
Gain′(S,A)=(E(S)-E(S,A))*Wg(A)
步骤10、根据各属性信息增益的大小进行排序构建决策树,并根据决策树预测道路路况。
2.如权利要求1所述的基于改进型决策树算法的路况信息预测方法,其特征在于,在步骤2中,道路容量Rm为:
Figure FDA0002503299960000021
式中,αl为车道衰减系数,
Figure FDA0002503299960000022
为第i条车道的车道长度。
3.如权利要求1所述的基于改进型决策树算法的路况信息预测方法,其特征在于,在步骤2中,期望等候时间Ts为:
Figure FDA0002503299960000023
式中,Tp为每一个通行方向的时间占总循环的时间的比值。
4.如权利要求1所述的基于改进型决策树算法的路况信息预测方法,其特征在于,在步骤2中,路段平均转向数Lg为:
Figure FDA0002503299960000024
5.如权利要求1所述的基于改进型决策树算法的路况信息预测方法,其特征在于,在步骤4中,剔除不合要求的数据包括:
剔除交通流量大于最大限定值的数据;
剔除道路车速大于最大限定值的数据;
剔除交通流量、道路车速为负或空的数据;
剔除道路车速为零,但交通流量不为零的数据;
剔除交通流量为零,但道路速度不为零的数据。
6.如权利要求1所述的基于改进型决策树算法的路况信息预测方法,其特征在于,在步骤4中,数据修补包括:采用临近道路或临近时刻的数据进行修补。
7.如权利要求1所述的基于改进型决策树算法的路况信息预测方法,其特征在于,在步骤4与步骤5之间,还包括:
数据分类:根据流入端平均车流密度构造拥堵和流畅条件的道路连通力决策树。
8.如权利要求1所述的基于改进型决策树算法的路况信息预测方法,其特征在于,在步骤10中,信息增益最大的属性作为决策树的根节点,信息增益次大的属性作为决策树的第二层节点,依次类推,构建出决策树。
CN201810144289.2A 2018-02-12 2018-02-12 一种基于改进型决策树算法的路况信息预测方法 Active CN108364467B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810144289.2A CN108364467B (zh) 2018-02-12 2018-02-12 一种基于改进型决策树算法的路况信息预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810144289.2A CN108364467B (zh) 2018-02-12 2018-02-12 一种基于改进型决策树算法的路况信息预测方法

Publications (2)

Publication Number Publication Date
CN108364467A CN108364467A (zh) 2018-08-03
CN108364467B true CN108364467B (zh) 2020-08-07

Family

ID=63005989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810144289.2A Active CN108364467B (zh) 2018-02-12 2018-02-12 一种基于改进型决策树算法的路况信息预测方法

Country Status (1)

Country Link
CN (1) CN108364467B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109035778B (zh) * 2018-08-29 2021-11-30 深圳市赛为智能股份有限公司 拥堵成因分析方法、装置、计算机设备及存储介质
CN109272603A (zh) * 2018-10-26 2019-01-25 北京长城华冠汽车技术开发有限公司 车辆故障分析数据库及构建方法、故障预测方法、故障预测***
CN109491238B (zh) * 2018-12-12 2022-06-03 南京工程学院 地铁站台门控制***控制器冗余方法
CN109961056A (zh) * 2019-04-02 2019-07-02 浙江科技学院 基于决策树算法的交通事故责任认定方法、***及设备
TWI704533B (zh) * 2019-04-12 2020-09-11 創新交通科技有限公司 以起訖旅次樹劃分交通路網的方法
CN110070720B (zh) * 2019-05-15 2020-11-03 武汉科技大学 提高交叉口占道施工区通行能力模型拟合度的计算方法
CN110197066B (zh) * 2019-05-29 2021-04-20 轲飞(北京)环保科技有限公司 一种云计算环境下的虚拟机监控方法及监控***
CN110254430A (zh) * 2019-05-31 2019-09-20 山东理工大学 一种考虑驾驶倾向性的汽车强制换道决策安全预警方法
CN110659280B (zh) * 2019-08-01 2022-05-27 北京百度网讯科技有限公司 道路阻断异常检测方法、装置、计算机设备及存储介质
CN110908375A (zh) * 2019-11-14 2020-03-24 北京三快在线科技有限公司 获取变道决策信息的方法、装置、存储介质和车辆
CN114513470B (zh) * 2020-10-23 2023-08-15 ***通信集团河北有限公司 网络流量控制方法、装置、设备及计算机可读存储介质
CN112382090A (zh) * 2020-11-11 2021-02-19 北京百度网讯科技有限公司 用于输出信息的方法、装置、设备以及存储介质
CN112598199A (zh) * 2021-01-29 2021-04-02 杭州易龙安全科技有限公司 一种基于决策树算法的监测预警方法
CN113988488B (zh) * 2021-12-27 2022-06-21 上海一嗨成山汽车租赁南京有限公司 一种多因子预测车辆通过etc概率的方法
CN114528646B (zh) * 2022-04-24 2022-08-19 中汽研汽车检验中心(天津)有限公司 一种基于在线地图数据的车辆行驶工况构建方法
CN115457766B (zh) * 2022-08-31 2023-08-08 华迪计算机集团有限公司 一种用于预测道路拥堵状态的方法及***
CN116311913B (zh) * 2023-02-17 2024-01-12 成都和乐信软件有限公司 一种基于ai视频智能分析的高速路段拥堵分析方法及***

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003234636A1 (en) * 2002-05-23 2003-12-12 Accelexam, Inc. Method and system for granting patents
US7752119B2 (en) * 2004-06-14 2010-07-06 Accenture Global Services Gmbh Auction result prediction
US7813870B2 (en) * 2006-03-03 2010-10-12 Inrix, Inc. Dynamic time series prediction of future traffic conditions
CN101599217B (zh) * 2009-07-17 2011-06-08 北京交通大学 一种快速路交通状态判别方法
CN101783074A (zh) * 2010-02-10 2010-07-21 北方工业大学 一种城市道路交通流状态实时判别方法及***
CN102693633B (zh) * 2012-06-07 2014-03-12 浙江大学 一种短时交通流加权组合预测方法
CN102799900B (zh) * 2012-07-04 2014-08-06 西南交通大学 一种基于检测中支持在线聚类学习的对象跟踪方法
CN103778782B (zh) * 2014-02-20 2016-01-20 银江股份有限公司 一种基于半监督机器学习的交通状态划分方法
CN104573873B (zh) * 2015-01-23 2017-08-25 哈尔滨工业大学 一种基于模糊决策树的航站楼离港旅客流量预测方法
CN105447525A (zh) * 2015-12-15 2016-03-30 中国科学院软件研究所 一种数据预测分类方法及装置
US20230186106A1 (en) * 2016-06-30 2023-06-15 The Trustees Of The University Of Pennsylvania Systems and methods for generating improved decision trees
CN107451599A (zh) * 2017-06-28 2017-12-08 青岛科技大学 一种基于机器学习的综合模型的交通行为预测方法

Also Published As

Publication number Publication date
CN108364467A (zh) 2018-08-03

Similar Documents

Publication Publication Date Title
CN108364467B (zh) 一种基于改进型决策树算法的路况信息预测方法
Bloomberg et al. Comparison of VISSIM and CORSIM traffic simulation models on a congested network
CN106205156A (zh) 一种针对部分车道车流突变的交叉口自愈合控制方法
CN111178402B (zh) 一种自动驾驶车辆道路测试的场景分类方法及装置
CN109523786A (zh) 一种高速公路交通事故成因分析方法
CN107490384B (zh) 一种基于城市路网的最优静态路径选择方法
CN112950940B (zh) 一种道路施工期的交通分流方法
CN114463868B (zh) 面向交通流管控的收费站交通流组合预测方法及***
CN116168356B (zh) 一种基于计算机视觉的车辆损伤判别方法
CN113868492A (zh) 一种基于电警、卡口数据的可视化od分析方法及应用
CN109489679A (zh) 一种导航路径中的到达时间计算方法
CN112950934A (zh) 一种道路拥堵原因识别方法
CN115662113A (zh) 一种信号交叉口人车博弈冲突风险评估与预警方法
CN111008736A (zh) 用于新航线的开通决策方法及***
Pandey et al. Assessment of Level of Service on urban roads: a revisit to past studies.
CN111126878B (zh) 一种基于生态指数的城市交通运行评价方法
Bakhsh Traffic simulation modeling for major intersection
CN110097757B (zh) 一种基于深度优先搜索的交叉口群关键路径识别方法
CN1053696A (zh) 自学习智能式城市交通流协调控制方法
Van et al. A fuzzy traffic signal control method for a single intersection under mixed traffic conditions
CN109308559A (zh) 一种基于蒙特卡罗算法的封闭式小区道路开放评价方法
Liu et al. Study on the location of unconventional outside left-turn lane at signalized intersections based on an entropy method
CN113642162A (zh) 一种城市道路交通应急预案仿真综合分析方法
CN114413923A (zh) 一种行驶路线推荐方法、装置、存储介质及***
Shamlitskiy et al. Transport stream optimization based on neural network learning algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240321

Address after: 101200 room 205-211526, No. 40, Fuqian West Street, Pinggu town, Pinggu District, Beijing (cluster registration)

Patentee after: BEIJING YONGBO TECHNOLOGY CO.,LTD.

Country or region after: China

Address before: 100124 No. 100 Chaoyang District Ping Tian Park, Beijing

Patentee before: Beijing University of Technology

Country or region before: China

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240510

Address after: 100010 Zuoanmen Neizuoanyiyuan 1-5-1301, Dongcheng District, Beijing

Patentee after: Zhou Sihua

Country or region after: China

Address before: 101200 room 205-211526, No. 40, Fuqian West Street, Pinggu town, Pinggu District, Beijing (cluster registration)

Patentee before: BEIJING YONGBO TECHNOLOGY CO.,LTD.

Country or region before: China

TR01 Transfer of patent right