CN104750800A - 一种基于出行时间特征的机动车聚类方法 - Google Patents

一种基于出行时间特征的机动车聚类方法 Download PDF

Info

Publication number
CN104750800A
CN104750800A CN201510129468.5A CN201510129468A CN104750800A CN 104750800 A CN104750800 A CN 104750800A CN 201510129468 A CN201510129468 A CN 201510129468A CN 104750800 A CN104750800 A CN 104750800A
Authority
CN
China
Prior art keywords
cluster
vehicle
clustering
vehicles
travel time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510129468.5A
Other languages
English (en)
Inventor
刘春珲
王佐成
王汉林
周春寅
范联伟
张跃
王卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Sun Create Electronic Co Ltd
Original Assignee
Anhui Sun Create Electronic Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Sun Create Electronic Co Ltd filed Critical Anhui Sun Create Electronic Co Ltd
Priority to CN201510129468.5A priority Critical patent/CN104750800A/zh
Publication of CN104750800A publication Critical patent/CN104750800A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于出行时间特征的机动车聚类方法,包括:从智能化交通卡口的分布式数据库中提取车辆的卡口通行信息;统计每辆车在一天中的每个小时段的过卡口的次数,得到车辆的时间特征向量;采用最大最小距离准则确定最佳聚类中心个数k;通过MapReduce算法编写KMeans聚类算法,将最佳聚类中心个数k代入KMeans聚类算法中,使用KMeans聚类算法对车辆的时间特征向量进行聚类分析,得到聚类结果;根据聚类结果进行车辆行为分析。本方法通过对车辆的划分,有效了解机动车的行为特征,按照出行规律对车辆进行聚类快速获取车辆信息,为本地区机动车交通量进行科学的评估,对未来道路交通通行情况的预测提供参考依据,同时也为公安交警部门排查嫌疑车辆提供参考依据。

Description

一种基于出行时间特征的机动车聚类方法
技术领域
本发明涉及城市交通卡口管理技术领域,尤其是一种基于出行时间特征的机动车聚类方法。
背景技术
随着计算机存储和传感器技术的发展,交通智能卡口已经被广泛应用,对城市交通管理起着重要的作用。卡口所采集的数据与日俱增,如何充分地利用卡口大数据资源成为研究的热点问题。
传统的卡口的应用主要用于公安布控,违章告警等,可实现违章抓拍,并对违章车辆进行自动识别,提高工作效率,避免因交警现场执法可能对交通造成的影响。在卡口大数据应用方面目前,还没有公开基于出行时间特征的机动车分类的卡口应用,无法快速地获取车辆信息,数据处理效率较低。
发明内容
本发明的目的在于提供一种根据车辆出行的时间特征对车辆分类,更加科学地为交通规划提供参考;大大提高了数据处理的效率,为卡口大数据的广泛应用创造可能性的基于出行时间特征的机动车聚类方法。
为实现上述目的,本发明采用了以下技术方案:一种基于出行时间特征的机动车聚类方法,该方法包括下列顺序的步骤:
(1)从智能化交通卡口的分布式数据库中提取车辆的卡口通行信息;
(2)统计每辆车在一天中的每个小时段的过卡口的次数,得到车辆的时间特征向量;
(3)采用最大最小距离准则确定最佳聚类中心个数k;
(4)通过MapReduce算法编写KMeans聚类算法,将最佳聚类中心个数k代入KMeans聚类算法中,使用KMeans聚类算法对车辆的时间特征向量进行聚类分析,得到聚类结果;
(5)根据聚类结果进行车辆行为分析。
利用Apache Pheonix中间件提取智能化交通卡口的分布式数据库中的数据,对数据进行结构化,对结构化以后的数据建立索引。
根据MapReduce算法统计车辆在一天中每个小时段过卡口次数,得到车辆的时间特征向量,即24维向量Vt
所述最大最小距离准则包括以下步骤:
(1)先令聚类中心个数为3,对车辆的时间特征向量进行聚类,得到3组聚类,对每组聚类求平均值,该平均值即为该组聚类的聚类中心,计算三组聚类的聚类中心之间的距离,并取其中最小距离作为聚类中心个数为3时的MMD值;同理,求得聚类中心个数为4、5、6、7、8、9、10所对应MMD值;    
(2)取MMD值最大的聚类中心个数为最佳聚类中心个数k。
所述聚类中心之间的距离为24维空间中两点之间的欧氏距离。
由上述技术方案可知,本发明从交通智能卡口收集的海量过车信息中提取出本方法关注的车牌号、卡口编号、通过卡口时间等信息,利用MapReduce技术和集群强大的分布式计算的能力,计算出所有车辆的时间特征向量,并对海量的车辆样本进行聚类,通过对车辆的出行特征分析,将具有相似特征的车辆聚类。同时,本方法具有有效性和准确性,通过对车辆的划分,可以有效了解机动车的行为特征,按照出行规律对车辆进行聚类能够快速获取车辆信息,为本地区机动车交通量进行科学的评估,以及对未来道路交通通行情况的预测提供参考依据,同时也为公安交警部门排查嫌疑车辆提供参考依据。
附图说明
图1 为KMeans聚类算法的串行计算流程图。
图2 为MapReduce运行机制示意图。
图3 为利用最大最小距离准则检测最佳聚类中心个数的示意图。
图4 为KMeans聚类算法MapReduce并行化的示意图。
图5为 Kmeans聚类结果聚类中心点示意图。
具体实施方式
如图1所示,KMeans聚类算法是一种基于样本间相似性度量的间接聚类方法,其算法步骤为:首先从n个数据对象中任意选择k个对象作为初始聚类中心;对于所剩下的其他对象,根据它们与这些聚类中心的相似度——距离,分别将它们分配给与其最相似的——聚类中心所代表的——聚类;然后再计算每个所获新聚类的聚类中心——该聚类中所有对象的均值;不断重复这一过程直至标准测度函数开始收敛为止。
如图2所示,MapReduce算法步骤为:将大数据集分解为成百上千的小数据集splist,每个或若干个数据集分别由集群中的1个节点,一般就是一台普通的计算机,并行执行Map计算任务,指定了映射规则并生成中间结果,然后这些中间结果又由大量的节点并行执行Reduce计算任务——指定了归约规则,形成最终结果。在数据输入阶段,JobTracker获得待计算数据片在NameNode上的存储元信息;在Map阶段,JobTracker指派多个TaskTracker完成Map运算任务并生成中间结果;Shuffle阶段完成中间计算结果的混排交换;JobTracker指派TaskTracker完成Reduce任务;Reduce任务完成后通知JobTracker与NameNode以产生最后的输出结果。
如图4所示,KMeans聚类算法进行MapReduce的方法:对串行算法中每1次迭代启动对应的1次MapReduce计算过程,完成数据记录到聚类中心的距离计算以及新的聚类中心的计算,图4描述了KMeans聚类算法MapReduce并行化实现方法,为了适合MapReduce计算模型处理,须将待处理数据记录以行形式存储,使待处理数据能按行分片,且片间数据无相关性,分片过程由Map-Reduce运行的环境完成,不需要编写代码。在Reduce任务开始前,可对Map任务执行节点本地的中间结果以key值为索引进行分组和排序,以提高Reduce任务的执行效率。
a.Map函数的设计
Map函数的任务是完成每个记录到中心点距离的计算并重新标记其属于的新聚类类别,其输入为待聚类所有记录数据和上一轮迭代(或初始聚类)的聚类中心,输入数据记录(key,value)对的形式为〈行号,记录行〉;每个Map函数都读入聚类中心描述文件,Map函数对输入的每个记录点计算出距离其最近的类中心,并做新类别的标记;输出中间结果(key,value)对的形式为〈聚类类别ID,记录属性向量〉。
b.Reduce函数的设计
Reduce函数的任务是根据Map函数得到的中间结果计算出新的聚类中心,供下一轮Map-ReduceJob使用.输入数据(key,value)对的形式为〈聚类类别ID,{记录属性向量集}〉;所有key相同的记录(即有相同类别ID的记录)送给一个Reduce任务——累加key相同的点个数和各记录分量的和,求各分量的均值,得到新的聚类中心描述文件;输出结果(key,value)对的形式为〈聚类类别ID,均值向量〉判断该聚类是否已收敛:比较上一轮Map-ReduceJob得到的聚类中心与本轮MapReduce Job聚类中心距离,若变化小于给定阈值,则算法结束;反之,则用本轮的聚类中心文件替换上一轮的中心文件,并启动新一轮的MapReduce Job。
一种基于出行时间特征的机动车聚类方法,包括:(1)从智能化交通卡口的分布式数据库中提取车辆的卡口通行信息;(2)统计每辆车在一天中的每个小时段的过卡口的次数,得到车辆的时间特征向量;(3)采用最大最小距离准则确定最佳聚类中心个数k;(4)通过MapReduce算法编写KMeans聚类算法,将最佳聚类中心个数k代入KMeans聚类算法中,使用KMeans聚类算法对车辆的时间特征向量进行聚类分析,得到聚类结果;(5)根据聚类结果进行车辆行为分析。
利用Apache Pheonix中间件提取智能化交通卡口的分布式数据库中的数据,对数据进行结构化,对结构化以后的数据建立索引,加快查询效率。根据MapReduce算法统计车辆在一天中每个小时段过卡口次数,得到车辆的时间特征向量,即24维向量Vt。所述聚类中心之间的距离为24维空间中两点之间的欧氏距离。
如图3所示,所述最大最小距离准则包括以下步骤:(1)先令聚类中心个数为3,对车辆的时间特征向量进行聚类,得到3组聚类,对每组聚类求平均值,该平均值即为该组聚类的聚类中心,计算三组聚类的聚类中心之间的距离,并取其中最小距离作为聚类中心个数为3时的MMD值;同理,求得聚类中心个数为4、5、6、7、8、9、10所对应MMD值;(2)取MMD值最大的聚类中心个数为最佳聚类中心个数k。最大最小距离准则通过比较采用不同聚类中心个数的聚类结果中各类中心点之间距离最小值来获取最佳聚类中心个数,中心点之间距离的最小值越大则说明各聚类中心的离散程度越高,则聚类的效果越好。
实施例一
确定聚类中心个数:先以聚类中心个数为3至10分别进行7次聚类,得到7组聚类中心组,如下所示:
(1)分3类的结果:
0 [1.0, 0.68, 0.53, 0.42, 0.46, 1.15, 2.69, 4.26, 8.48, 7.03, 6.09, 5.64, 4.56, 5.19, 6.05, 5.93, 6.23, 7.29, 6.1, 3.77, 3.21, 2.97, 2.21, 1.45]
1 [0.43, 0.22, 0.14, 0.13, 0.22, 0.65, 5.06, 36.89, 11.94, 3.95, 3.45, 4.09, 3.24, 3.82, 4.32, 3.8, 5.91, 15.72, 10.92, 4.31, 3.2, 2.65, 1.48, 0.73]
2 [6.31, 4.54, 3.5, 2.81, 2.72, 5.03, 10.52, 15.33, 23.08, 21.56, 19.74, 18.76, 16.0, 17.82, 19.72, 19.61, 20.07, 21.11, 16.83, 12.34, 11.03, 11.62, 10.77, 8.57]
(2)分4类的结果:
0 [5.81, 4.14, 3.16, 2.5, 2.3, 3.82, 7.46, 10.93, 17.58, 17.48, 16.08, 15.03, 13.06, 14.38, 15.89, 15.79, 15.31, 15.51, 13.25, 10.09, 9.59, 10.4, 9.91, 7.96]
1 [0.41, 0.21, 0.13, 0.12, 0.22, 0.59, 4.92, 40.0, 10.44, 3.81, 3.36, 4.12, 3.15, 3.79, 4.29, 3.68, 5.91, 15.68, 11.03, 4.34, 3.17, 2.69, 1.46, 0.69]
2 [3.88, 2.97, 2.32, 2.01, 2.78, 9.46, 23.77, 37.38, 50.54, 38.76, 34.45, 34.12, 26.99, 31.47, 35.62, 35.59, 42.16, 50.69, 34.48, 21.56, 14.68, 12.1, 8.43, 5.43]
3 [0.78, 0.52, 0.41, 0.34, 0.39, 1.04, 2.62, 4.41, 8.34, 6.4, 5.5, 5.1, 4.1, 4.68, 5.48, 5.36, 5.77, 7.09, 5.82, 3.44, 2.87, 2.58, 1.81, 1.13]
(3)分5类的结果:
0 [3.95, 2.73, 2.03, 1.56, 1.35, 2.3, 5.27, 9.35, 12.17, 14.37, 13.35, 12.54, 10.37, 11.59, 13.0, 12.81, 12.37, 12.89, 11.05, 8.07, 7.5, 7.8, 7.11, 5.51]
1 [0.44, 0.19, 0.11, 0.11, 0.22, 0.41, 1.27, 9.21, 41.45, 7.11, 4.02, 3.96, 3.59, 3.98, 4.77, 4.12, 5.44, 14.39, 10.19, 3.84, 2.87, 2.56, 1.47, 0.72]
2 [7.5, 5.56, 4.37, 3.61, 3.68, 7.33, 13.49, 16.02, 23.29, 24.95, 23.19, 21.85, 18.93, 21.09, 23.27, 23.75, 24.98, 23.93, 18.61, 14.2, 12.63, 13.45, 12.46, 9.96]
3 [0.68, 0.46, 0.37, 0.3, 0.37, 1.02, 2.86, 8.08, 5.75, 5.52, 4.85, 4.56, 3.68, 4.21, 4.91, 4.78, 5.3, 7.02, 5.72, 3.23, 2.66, 2.39, 1.65, 1.01]
4 [1.52, 0.98, 0.75, 0.77, 1.15, 4.1, 21.16, 82.63, 33.49, 21.55, 18.78, 21.22, 15.87, 19.14, 21.33, 19.09, 26.59, 49.41, 33.75, 17.69, 12.0, 8.48, 4.73, 2.42]
(4)分6类的结果:
0 [2.2, 1.48, 1.1, 0.79, 0.72, 1.55, 3.9, 6.64, 10.84, 13.67, 12.53, 11.63, 9.15, 10.35, 12.08, 12.12, 12.28, 12.74, 9.73, 6.34, 5.37, 5.17, 4.32, 3.13]
1 [0.43, 0.2, 0.11, 0.11, 0.18, 0.37, 1.17, 7.59, 44.1, 7.29, 4.07, 4.0, 3.74, 4.03, 4.87, 4.11, 5.39, 14.53, 10.5, 3.89, 2.87, 2.57, 1.5, 0.74]
2 [8.0, 5.82, 4.47, 3.64, 3.4, 5.83, 11.33, 14.6, 18.78, 19.92, 18.58, 17.44, 15.56, 17.24, 18.5, 18.44, 17.98, 18.19, 15.64, 12.55, 12.15, 13.47, 13.08, 10.72]
3 [0.77, 0.52, 0.42, 0.35, 0.42, 1.1, 2.74, 4.53, 5.82, 5.69, 4.96, 4.62, 3.76, 4.3, 4.99, 4.87, 5.21, 6.22, 5.35, 3.29, 2.8, 2.54, 1.81, 1.14]
4 [3.33, 2.45, 2.11, 1.82, 2.96, 10.24, 26.62, 47.71, 52.91, 48.73, 44.58, 44.03, 34.21, 39.06, 45.27, 45.45, 54.47, 60.32, 40.3, 26.65, 16.79, 12.81, 8.24, 4.92]
5 [0.4, 0.21, 0.13, 0.11, 0.22, 0.55, 4.84, 43.01, 8.1, 3.6, 3.28, 4.12, 3.12, 3.75, 4.23, 3.61, 5.9, 15.19, 10.93, 4.35, 3.23, 2.69, 1.43, 0.67]
(5)分7类的结果:
0 [2.73, 1.85, 1.34, 0.97, 0.84, 1.55, 3.6, 7.39, 12.02, 14.85, 13.64, 12.8, 10.13, 11.41, 13.26, 13.26, 13.09, 13.08, 9.97, 6.71, 5.87, 5.94, 5.21, 3.87]
1 [0.44, 0.21, 0.12, 0.12, 0.19, 0.38, 1.21, 7.74, 45.53, 7.28, 4.04, 4.01, 3.78, 4.06, 4.91, 4.11, 5.42, 15.08, 10.7, 3.97, 2.9, 2.66, 1.56, 0.75]
2 [8.3, 6.06, 4.7, 3.81, 3.66, 6.23, 12.03, 15.19, 19.21, 20.18, 18.85, 17.72, 15.85, 17.67, 18.8, 18.79, 18.49, 18.83, 16.25, 13.0, 12.53, 13.87, 13.51, 11.1]
3 [1.31, 0.91, 0.75, 0.69, 0.85, 2.59, 6.79, 7.66, 4.86, 3.05, 2.76, 2.94, 2.8, 3.08, 3.24, 3.21, 4.12, 8.77, 9.2, 5.82, 4.99, 4.38, 3.0, 1.87]
4 [3.42, 2.49, 2.19, 1.84, 2.68, 10.15, 26.46, 48.63, 52.92, 49.73, 45.58, 45.09, 35.14, 39.77, 46.54, 46.62, 55.92, 60.82, 41.02, 27.32, 17.17, 13.01, 8.45, 5.08]
5 [0.4, 0.2, 0.11, 0.1, 0.21, 0.49, 4.37, 45.23, 8.41, 3.7, 3.37, 4.28, 3.2, 3.89, 4.4, 3.72, 6.13, 15.56, 10.84, 4.31, 3.28, 2.68, 1.42, 0.67]
6 [0.51, 0.33, 0.25, 0.18, 0.19, 0.41, 1.08, 3.41, 6.68, 7.41, 6.42, 5.73, 4.44, 5.13, 6.14, 5.99, 6.11, 5.54, 3.86, 2.22, 1.82, 1.68, 1.23, 0.78]
(6)分8类的结果:
0 [0.68, 0.45, 0.34, 0.28, 0.3, 1.38, 5.62, 8.18, 9.42, 7.39, 6.75, 7.68, 5.8, 6.23, 7.73, 8.03, 11.49, 28.7, 11.75, 4.55, 3.2, 2.63, 1.68, 1.02]
1 [0.44, 0.22, 0.12, 0.12, 0.19, 0.4, 1.24, 7.31, 46.64, 7.59, 4.23, 4.17, 3.94, 4.24, 5.12, 4.28, 5.42, 13.57, 10.92, 4.14, 3.02, 2.71, 1.62, 0.76]
2 [6.74, 4.84, 3.7, 2.94, 2.72, 4.36, 8.27, 12.06, 16.67, 18.54, 17.34, 16.12, 14.13, 15.65, 16.99, 16.88, 16.01, 15.11, 13.43, 10.76, 10.48, 11.6, 11.27, 9.16]
3 [1.76, 1.21, 0.99, 0.86, 1.0, 2.76, 6.14, 4.8, 4.45, 3.31, 3.1, 3.26, 3.14, 3.5, 3.61, 3.53, 3.98, 5.72, 8.5, 6.49, 5.82, 5.28, 3.84, 2.49]
4 [1.3, 0.64, 0.42, 0.47, 0.6, 1.56, 12.95, 87.29, 21.09, 9.76, 8.68, 11.81, 8.09, 10.72, 10.95, 9.15, 16.01, 37.6, 25.24, 11.08, 8.8, 6.88, 3.19, 1.82]
5 [0.32, 0.18, 0.1, 0.08, 0.18, 0.42, 3.48, 34.01, 7.45, 3.29, 2.95, 3.46, 2.66, 3.26, 3.72, 3.22, 4.78, 9.89, 8.34, 3.33, 2.42, 2.11, 1.21, 0.55]
6 [0.49, 0.3, 0.23, 0.16, 0.18, 0.42, 1.19, 3.54, 7.21, 8.37, 7.25, 6.37, 4.87, 5.64, 6.79, 6.67, 6.66, 5.79, 4.15, 2.31, 1.81, 1.63, 1.16, 0.73]
7 [3.94, 3.01, 2.52, 2.07, 2.93, 11.27, 26.15, 34.3, 47.34, 48.16, 43.46, 41.56, 33.09, 37.35, 43.77, 44.74, 52.25, 53.74, 37.21, 24.92, 16.35, 12.81, 8.97, 5.59]
(7)分9类的结果:
0 [0.4, 0.28, 0.21, 0.19, 0.24, 1.68, 7.91, 9.61, 8.94, 4.61, 3.97, 5.14, 4.03, 4.12, 4.81, 4.61, 7.94, 33.67, 10.98, 3.36, 2.39, 1.96, 1.11, 0.64]
1 [0.46, 0.23, 0.12, 0.13, 0.2, 0.4, 1.27, 7.23, 47.54, 7.33, 4.07, 4.07, 3.94, 4.15, 5.03, 4.15, 5.42, 13.47, 11.16, 4.21, 3.05, 2.76, 1.64, 0.77]
2 [1.95, 1.26, 0.94, 0.68, 0.64, 1.31, 3.5, 8.19, 14.31, 18.12, 16.31, 14.97, 11.26, 13.12, 15.67, 15.65, 15.07, 13.12, 9.83, 6.24, 5.04, 4.82, 3.94, 2.88]
3 [1.94, 1.33, 1.07, 0.92, 1.06, 2.86, 6.11, 4.76, 4.51, 3.52, 3.3, 3.45, 3.29, 3.71, 3.82, 3.75, 4.17, 5.69, 8.94, 6.89, 6.25, 5.72, 4.19, 2.74]
4 [1.08, 0.61, 0.43, 0.44, 0.58, 1.53, 12.61, 86.0, 20.76, 9.93, 8.76, 11.81, 8.04, 10.63, 11.14, 9.16, 15.98, 37.09, 24.7, 10.95, 8.54, 6.63, 3.01, 1.65]
5 [0.32, 0.18, 0.1, 0.08, 0.19, 0.42, 3.43, 33.94, 7.42, 3.26, 2.93, 3.43, 2.67, 3.23, 3.68, 3.18, 4.77, 9.37, 8.41, 3.34, 2.45, 2.08, 1.2, 0.55]
6 [0.45, 0.28, 0.22, 0.16, 0.17, 0.4, 1.18, 3.48, 6.92, 7.62, 6.59, 5.86, 4.54, 5.23, 6.27, 6.15, 6.31, 5.78, 4.05, 2.21, 1.72, 1.56, 1.1, 0.67]
7 [3.49, 2.56, 2.24, 1.79, 2.47, 10.46, 25.26, 38.06, 53.0, 52.87, 48.14, 46.37, 36.24, 40.75, 47.71, 49.47, 57.64, 57.63, 40.33, 27.89, 17.52, 13.11, 8.72, 5.16]
8 [9.13, 6.66, 5.12, 4.14, 3.89, 6.31, 11.39, 14.01, 17.48, 18.1, 17.18, 16.06, 15.11, 16.36, 17.11, 17.13, 16.57, 16.92, 15.54, 13.1, 13.16, 14.87, 14.81, 12.2]
(8)分10类的结果:
0 [0.35, 0.25, 0.18, 0.17, 0.22, 1.33, 6.59, 9.93, 9.18, 4.34, 3.6, 4.75, 3.66, 3.78, 4.39, 4.21, 7.39, 33.42, 9.91, 2.91, 2.17, 1.76, 0.98, 0.56]
1 [0.46, 0.22, 0.12, 0.13, 0.21, 0.4, 1.23, 7.25, 47.89, 7.18, 3.98, 4.0, 3.83, 4.08, 4.99, 4.11, 5.37, 13.35, 11.21, 4.22, 3.04, 2.74, 1.6, 0.75]
2 [1.18, 0.77, 0.56, 0.41, 0.45, 1.16, 3.21, 7.45, 13.11, 17.01, 15.27, 13.95, 10.34, 11.96, 14.34, 14.25, 13.76, 12.05, 9.04, 5.52, 4.13, 3.66, 2.67, 1.78]
3 [1.75, 1.2, 0.99, 0.89, 1.07, 3.13, 6.84, 4.91, 4.38, 3.31, 3.07, 3.25, 3.1, 3.45, 3.53, 3.47, 3.97, 5.62, 9.25, 7.03, 6.23, 5.55, 3.87, 2.44]
4 [1.23, 0.58, 0.46, 0.47, 0.63, 1.5, 11.25, 89.25, 21.04, 9.73, 8.66, 11.4, 7.86, 10.39, 11.13, 9.17, 15.9, 37.91, 24.52, 10.67, 8.55, 6.72, 3.05, 1.8]
5 [0.3, 0.18, 0.1, 0.08, 0.19, 0.42, 3.51, 34.38, 7.45, 3.28, 2.94, 3.45, 2.68, 3.26, 3.73, 3.19, 4.81, 9.31, 8.54, 3.4, 2.45, 2.08, 1.19, 0.53]
6 [0.48, 0.31, 0.23, 0.17, 0.18, 0.39, 1.15, 3.47, 6.77, 7.26, 6.29, 5.62, 4.43, 5.07, 6.06, 5.95, 6.11, 5.66, 4.04, 2.23, 1.78, 1.65, 1.18, 0.73]
7 [5.0, 3.78, 2.96, 2.54, 3.03, 9.14, 19.26, 20.27, 26.4, 27.34, 25.3, 25.15, 21.25, 24.11, 25.99, 26.42, 30.12, 30.95, 23.53, 15.94, 12.27, 11.64, 9.35, 6.78]
8 [9.15, 6.55, 5.02, 3.94, 3.48, 4.43, 7.79, 11.53, 15.14, 16.08, 15.24, 13.84, 13.01, 14.1, 15.03, 15.03, 13.7, 13.64, 12.9, 11.5, 12.28, 14.33, 14.81, 12.37]
9 [3.05, 2.08, 1.59, 1.02, 1.03, 9.72, 28.99, 58.97, 83.8, 81.09, 73.08, 67.87, 50.19, 57.18, 70.52, 71.7, 80.44, 81.04, 58.85, 39.64, 24.97, 16.2, 10.13, 5.26]
本发明提出了最大最小距离准则,即计算每组聚类中心组中各中心点之间的欧氏距离,并取每组距离组中的最小距离进行比较。距离组如下表表一所示:
表一
由表一可知,当聚类中心个数取4时,聚类中心点之间的最小距离最大,根据最大最小距离准则,此种聚类方式得到的聚类之间的离散程度最大,聚类效果较为理想。因此,本实施例采用聚类中心个数为4作为最佳聚类中心个数k。
当聚类数为4时,得到聚类结果,并将出租车信息作为参考指标进行对比,得到如下结果:
 分析聚类结果,由图5可知:
类别1中,共有样本12607个,其中有58.49%为出租车,其特征为:上午9时以后到24时出行较为平均,0时到8时出行频率降低,但不为0。观察卡口图像知,此类结果中以营运车辆为主。
类别2中,共有样本6072个,其中几乎没有出租车,其特征为在8时和18时有明显的峰值,其余时间出行频率极地,0时到5时不出行,观察卡口图像知,此类结果为上下班时间规律的私家车、交通班车等。
类别3中,共有样本1234个,样本数最少,其中出租车占15.32%,其特征为:9时和18时有明显峰值,白天出行频率极高。观察卡口图像知,该类车辆出行路线上卡口较多因而体现出较为异常的数据。
类别4中,共有样本40066个,其中出租车比例占3.16%,其特征为:9时和18时出行频率略微增多,8时到22时整体出行频率较为平均,24时以后基本无出行情况,该类车辆无明显出行规律。
综上所述,本发明的核心在于通过最大最小距离准则求取最佳聚类中心个数k,在最佳聚类中心个数k的基础上,通过调用MapReduce算法和KMeans聚类算法对车辆通行信息进行聚类分析,得到聚类结果。本方法具有有效性和准确性,通过对车辆的划分,可以有效了解机动车的行为特征,按照出行规律对车辆进行聚类能够快速获取车辆信息,为本地区机动车交通量进行科学的评估,以及对未来道路交通通行情况的预测提供参考依据,同时也为公安交警部门排查嫌疑车辆提供参考依据。

Claims (5)

1.一种基于出行时间特征的机动车聚类方法,该方法包括下列顺序的步骤:
(1)从智能化交通卡口的分布式数据库中提取车辆的卡口通行信息;
(2)统计每辆车在一天中的每个小时段的过卡口的次数,得到车辆的时间特征向量;
(3)采用最大最小距离准则确定最佳聚类中心个数k;
(4)通过MapReduce算法编写KMeans聚类算法,将最佳聚类中心个数k代入KMeans聚类算法中,使用KMeans聚类算法对车辆的时间特征向量进行聚类分析,得到聚类结果;
(5)根据聚类结果进行车辆行为分析。
2.根据权利要求1所述的基于出行时间特征的机动车聚类方法,其特征在于:利用Apache Pheonix中间件提取智能化交通卡口的分布式数据库中的数据,对数据进行结构化,对结构化以后的数据建立索引。
3.根据权利要求1所述的基于出行时间特征的机动车聚类方法,其特征在于:根据MapReduce算法统计车辆在一天中每个小时段过卡口次数,得到车辆的时间特征向量,即24维向量Vt
4.根据权利要求1所述的基于出行时间特征的机动车聚类方法,其特征在于:所述最大最小距离准则包括以下步骤:
(1)先令聚类中心个数为3,对车辆的时间特征向量进行聚类,得到3组聚类,对每组聚类求平均值,该平均值即为该组聚类的聚类中心,计算三组聚类的聚类中心之间的距离,并取其中最小距离作为聚类中心个数为3时的MMD值;同理,求得聚类中心个数为4、5、6、7、8、9、10所对应MMD值;
(2)取MMD值最大的聚类中心个数为最佳聚类中心个数k。
5.根据权利要求4所述的基于出行时间特征的机动车聚类方法,其特征在于:所述聚类中心之间的距离为24维空间中两点之间的欧氏距离。
CN201510129468.5A 2014-11-13 2015-03-24 一种基于出行时间特征的机动车聚类方法 Pending CN104750800A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510129468.5A CN104750800A (zh) 2014-11-13 2015-03-24 一种基于出行时间特征的机动车聚类方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN2014106388896 2014-11-13
CN201410638889 2014-11-13
CN201510129468.5A CN104750800A (zh) 2014-11-13 2015-03-24 一种基于出行时间特征的机动车聚类方法

Publications (1)

Publication Number Publication Date
CN104750800A true CN104750800A (zh) 2015-07-01

Family

ID=53590484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510129468.5A Pending CN104750800A (zh) 2014-11-13 2015-03-24 一种基于出行时间特征的机动车聚类方法

Country Status (1)

Country Link
CN (1) CN104750800A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105427602A (zh) * 2015-12-16 2016-03-23 浙江宇视科技有限公司 一种车辆出行主题确定方法及装置
CN105718946A (zh) * 2016-01-20 2016-06-29 北京工业大学 一种基于地铁刷卡数据的乘客出行行为分析方法
CN105913656A (zh) * 2016-04-28 2016-08-31 泰华智慧产业集团股份有限公司 基于分布式统计频繁过车的方法及***
CN106096507A (zh) * 2016-05-27 2016-11-09 中兴软创科技股份有限公司 智慧交通黑车识别方法
WO2017092418A1 (zh) * 2015-12-04 2017-06-08 杭州海康威视数字技术股份有限公司 过车记录处理方法和装置
CN107292186A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种基于随机森林的模型训练方法和装置
CN107862019A (zh) * 2017-10-31 2018-03-30 泰华智慧产业集团股份有限公司 一种基于大数据分析昼伏夜出车辆的方法及装置
CN108389419A (zh) * 2018-03-02 2018-08-10 辽宁工业大学 一种车辆动态路径诱导方法
CN112257589A (zh) * 2020-10-22 2021-01-22 大连交通大学 一种异常停留车辆的检测方法
CN112963160A (zh) * 2021-02-10 2021-06-15 上海市隧道工程轨道交通设计研究院 一种用盾构实时掘进参数来识别确定地层特性的方法
CN116361679A (zh) * 2023-06-02 2023-06-30 青岛豪迈电缆集团有限公司 基于数据驱动的电缆寿命智能预测方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184547A (zh) * 2011-03-28 2011-09-14 长安大学 一种基于视频的车辆逆行事件检测方法
CN102289659A (zh) * 2011-06-23 2011-12-21 杭州诚道科技有限公司 伴随车检测方法
US20120330493A1 (en) * 2011-06-24 2012-12-27 Inter-University Research Institute Corporation, Research Organization of Information and System Method and apparatus for determining road surface condition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184547A (zh) * 2011-03-28 2011-09-14 长安大学 一种基于视频的车辆逆行事件检测方法
CN102289659A (zh) * 2011-06-23 2011-12-21 杭州诚道科技有限公司 伴随车检测方法
US20120330493A1 (en) * 2011-06-24 2012-12-27 Inter-University Research Institute Corporation, Research Organization of Information and System Method and apparatus for determining road surface condition

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张旭: "基于时空约束的轨迹聚类方法研究与应用", 《中国优秀硕士学位论文全文数据库》 *
陈爱平: "基于Hadoop的聚类算法并行化分析及应用研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10810870B2 (en) 2015-12-04 2020-10-20 Hangzhou Hikvision Digital Technology Co., Ltd. Method of processing passage record and device
EP3385919A4 (en) * 2015-12-04 2019-10-09 Hangzhou Hikvision Digital Technology Co., Ltd. METHOD FOR PROCESSING A CONTINUOUS RECORDING AND DEVICE
WO2017092418A1 (zh) * 2015-12-04 2017-06-08 杭州海康威视数字技术股份有限公司 过车记录处理方法和装置
CN105427602A (zh) * 2015-12-16 2016-03-23 浙江宇视科技有限公司 一种车辆出行主题确定方法及装置
CN105718946A (zh) * 2016-01-20 2016-06-29 北京工业大学 一种基于地铁刷卡数据的乘客出行行为分析方法
CN107292186A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种基于随机森林的模型训练方法和装置
US11276013B2 (en) 2016-03-31 2022-03-15 Alibaba Group Holding Limited Method and apparatus for training model based on random forest
CN107292186B (zh) * 2016-03-31 2021-01-12 阿里巴巴集团控股有限公司 一种基于随机森林的模型训练方法和装置
CN105913656A (zh) * 2016-04-28 2016-08-31 泰华智慧产业集团股份有限公司 基于分布式统计频繁过车的方法及***
CN106096507A (zh) * 2016-05-27 2016-11-09 中兴软创科技股份有限公司 智慧交通黑车识别方法
CN106096507B (zh) * 2016-05-27 2020-03-24 浩鲸云计算科技股份有限公司 智慧交通黑车识别方法
CN107862019A (zh) * 2017-10-31 2018-03-30 泰华智慧产业集团股份有限公司 一种基于大数据分析昼伏夜出车辆的方法及装置
CN108389419A (zh) * 2018-03-02 2018-08-10 辽宁工业大学 一种车辆动态路径诱导方法
CN108389419B (zh) * 2018-03-02 2024-03-29 辽宁工业大学 一种车辆动态路径诱导方法
CN112257589A (zh) * 2020-10-22 2021-01-22 大连交通大学 一种异常停留车辆的检测方法
CN112257589B (zh) * 2020-10-22 2024-03-05 大连交通大学 一种异常停留车辆的检测方法
CN112963160A (zh) * 2021-02-10 2021-06-15 上海市隧道工程轨道交通设计研究院 一种用盾构实时掘进参数来识别确定地层特性的方法
CN112963160B (zh) * 2021-02-10 2024-06-11 上海市隧道工程轨道交通设计研究院 一种用盾构实时掘进参数来识别确定地层特性的方法
CN116361679A (zh) * 2023-06-02 2023-06-30 青岛豪迈电缆集团有限公司 基于数据驱动的电缆寿命智能预测方法及***
CN116361679B (zh) * 2023-06-02 2023-08-11 青岛豪迈电缆集团有限公司 基于数据驱动的电缆寿命智能预测方法及***

Similar Documents

Publication Publication Date Title
CN104750800A (zh) 一种基于出行时间特征的机动车聚类方法
CN105303197B (zh) 一种基于机器学习的车辆跟车安全自动评估方法
Yuhui et al. Development of a representative driving cycle for urban buses based on the K-means cluster method
CN106096507B (zh) 智慧交通黑车识别方法
CN104794184B (zh) 一种基于大规模数据的贝叶斯分类算法的黑车识别方法
CN109118119A (zh) 风控模型生成方法及装置
CN105809193B (zh) 一种基于kmeans算法的非法运营车辆的识别方法
CN107329977B (zh) 一种基于概率分布的假牌车二次筛选方法
CN108847022B (zh) 一种微波交通数据采集设备的异常值检测方法
CN109410588B (zh) 一种基于交通大数据的交通事故演化分析方法
CN112215497B (zh) 一种纯电动汽车运行风险预警方法
CN102291392A (zh) 一种基于Bagging算法的复合式入侵检测方法
CN106297304A (zh) 一种基于MapReduce面向大规模卡口数据的***识别方法
CN117081858B (zh) 一种基于多决策树入侵行为检测方法、***、设备及介质
Aziz et al. Identifying and characterizing truck stops from GPS data
Chen et al. Pattern recognition using clustering algorithm for scenario definition in traffic simulation-based decision support systems
CN107483451A (zh) 基于串并行结构网络安全数据处理方法及***、社交网络
CN113205134A (zh) 一种网络安全态势预测方法及***
CN112652168B (zh) 一种重大交通事故预警方法、***及存储介质
Wang et al. Abnormal trajectory detection based on geospatial consistent modeling
Li et al. Enhancing driving safety: Discovering individualized hazardous driving scenes using GIS and mobile sensing
CN114708728B (zh) 一种识别交通高峰期的方法、电子设备及存储介质
Qiong et al. Application of clustering algorithm in intelligent transportation data analysis
Yokoyama et al. Do drivers' behaviors reflect their past driving histories?-large scale examination of vehicle recorder data
CN112633163A (zh) 一种基于机器学习算法实现非法运营车辆检测的检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150701

WD01 Invention patent application deemed withdrawn after publication