CN109784416A - 基于手机信令数据的半监督svm的交通方式判别方法 - Google Patents

基于手机信令数据的半监督svm的交通方式判别方法 Download PDF

Info

Publication number
CN109784416A
CN109784416A CN201910076104.3A CN201910076104A CN109784416A CN 109784416 A CN109784416 A CN 109784416A CN 201910076104 A CN201910076104 A CN 201910076104A CN 109784416 A CN109784416 A CN 109784416A
Authority
CN
China
Prior art keywords
mode
transportation
sample
classifier
trip
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910076104.3A
Other languages
English (en)
Other versions
CN109784416B (zh
Inventor
张锦
唐劲松
冯雨庭
肖斌
罗静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN201910076104.3A priority Critical patent/CN109784416B/zh
Publication of CN109784416A publication Critical patent/CN109784416A/zh
Application granted granted Critical
Publication of CN109784416B publication Critical patent/CN109784416B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及计算机识别技术,具体涉及一种基于手机信令数据的半监督SVM的交通方式判别方法,(1)准备与预处理数据,(2)设计标签种类,(3)提取出行特征,(4)建立改进的交通方式人工识别流程,(5)训练初始分类器,(6)判别未标记样本的交通方式,(7)判断分类器是否符合终止条件,(8)高置信度样本的数据集更新,(9)基于Tri‑training的半监督SVM分类器的优化,(10)判别未标记样本的交通方式,(11)判断分类器是否符合终止条件,(12)低置信度样本的数据集更新,(13)基于壳向量的半监督SVM分类器的优化。本发明信息获取成本降低、数据利用率提升,判别灵活、全面、精度高,应用场景更广泛。

Description

基于手机信令数据的半监督SVM的交通方式判别方法
技术领域
本发明涉及计算机识别技术,具体涉及一种基于手机信令数据的半监督SVM的交通方式判别方法。
背景技术
出行的交通方式信息在交通规划、交通控制管理等方面有重要的作用和价值。目前获取交通方式信息的方法包括传统调查和数据挖掘等两大类。问卷调查、电话询问等传统调查方法难以高频率、大规模的实施,并且无法准确反映实际的交通方式信息;数据挖掘方法主要是基于手机数据建立一定的规则挖掘交通方式信息,相较于传统调查,数据挖掘的方法不仅可以解决调查组织难度大、抽样率低、信息展示维度单一等缺点,还可以适应我国飞速发展的交通需求与供给更新节奏。从数据源角度看,数据挖掘主要采用卫星定位数据和手机信令数据,卫星定位数据虽然应用广泛,但获取难度大,且全日数据完整度低,而手机信令数据具有获取成本低、抽样率高、全日数据完整度高、数据更新快等优点,可以更全面、更灵活地挖掘交通方式信息。因此本发明采用手机信令数据判别用户交通方式。
国内外学者主要研究了模糊识别、贝叶斯决策树等方法在基于手机信令数据判别交通方式上的应用。近年来,机器学习方法在多分类问题与模式判别问题中广泛应用并表现较好,逐渐被应用于交通方式判别领域,主要研究集中在监督学习和无监督学习等两方面。手机信令数据属于无标记数据,若采用监督学习的方法则需要人工对大量手机信令数据进行标记,工作量大且数据利用率低;若采用无监督学习的方法虽无需人工标记交通信息,但输出类别难以识别且精度低。
发明内容
针对上述技术问题,本发明提供基于手机信令数据的半监督SVM的交通方式判别方法,运用少量已标记数据与大量无标记数据,采用半监督支持向量机的分类方法判别用户交通方式,具有分类精度高、训练成本低等优势,有良好的普适性和推广价值。
本发明提供的基于手机信令数据的半监督SVM的交通方式判别方法,是一种基于手机信令数据的半监督支持向量机的交通方式判别方法,包括以下步骤:
步骤1:准备与预处理数据。将已经基于手机信令数据刻画的用户出行链,并处理成为只包含单一交通方式出行子链,转化为本发明使用的数据集。
步骤2:设计标签种类。判别出的交通方式数量为k,根据城市交通因素,设计具体交通方式判别情况,为各交通方式设计标签,并根据各交通方式容易区分的程度建立有向无环图;
本发明设计了有利于提升分类效率的有向无环图,根据各交通方式的容易区分程度,设计有向无环图,按照步行、自行车、电动车/摩托车、公交车、小汽车、其它的顺序将标签设计成1-6,其中,1和6是区别最大的两种交通方式,其余分别是1和5、2和5等等。此外,利用有向无环图的结构可以灵活调整分类类别,每增添或删减一种类别,只需在侧面增加一列节点,对其余节点分类不造成影响。
步骤3:提取出行特征。借助现有交通出行方式情况、传统居民出行调查数据、手机信令数据,提取半监督学习特征,包括速度、时耗、距离、起讫点POI类别、用户年龄等五大类。逐一计算、提取每一条出行子链的出行特征。
步骤4:建立改进的交通方式人工识别流程。运用贝叶斯决策树方法和第三方地图数据辅助人工识别出行子链的交通方式。
步骤5:训练初始分类器。随机抽取出行子链,依据步骤4中改进的交通方式人工识别流程,识别样本交通方式,若无全覆盖k种出行方式,则增加抽样数量,继续识别,直至k种交通方式均有人工识别的样本。人工识别后的出行子链组成已标记样本集L,剩余出行子链构成未标记样本集U。利用已标记样本集L与未标记样本集U,训练初始半监督SVM分类器。
步骤6:判别未标记样本的交通方式。用分类器对未标记样本集U进行判别,得到样本交通方式。
步骤7:判断分类器是否符合终止条件。判断分类器是否符合精度、无标记样本集U是否为空集等终止条件;若符合,则该分类器为最优分类器,并输出各出行子链的交通方式;否则,转至步骤8。
步骤8:高置信度样本的数据集更新。在预判别结果中选取部分置信度高的样本,添加至已标记样本集L中,更新样本集。
步骤9:基于Tri-training的半监督SVM分类器的优化。利用步骤8中已更新的样本集构建Tri-training的半监督SVM分类器。
步骤10:判别未标记样本的交通方式。用当前分类器对未标记样本集U进行判别,得到样本交通方式。
步骤11:判断分类器是否符合终止条件。按照步骤7的方法进行终止条件的判断,若符合,则该分类器为最优分类器,并输出各出行子链的交通方式;否则,转至步骤12。
步骤12:低置信度样本的数据集更新。从步骤9中对无标记样本集U的判别结果中选取部分置信度低的样本,添加至已标记样本集L中,更新样本集。
步骤13:基于壳向量的半监督SVM分类器的优化。利用步骤11中已更新的样本集构建基于CHB-ASVM主动学习的分类器并转至步骤6。
进一步的其中部分步骤的详细子步骤为:
步骤1准备与预处理数据
1.1收集并准备数据;
本发明采用包含出行链信息的手机信令数据研究交通方式的判别方法。手机信令数据经过清洗、挖掘后,转换成为本发明的数据集,数据字段包括用户编码、时间戳、轨迹点经纬度、轨迹点类型、用户年龄等。
1.2提取出行子链;
本发明基于轨迹点类型,将用户全日出行链拆分成为只包含一次出行的出行子链。
步骤2设计标签种类
步骤3提取出行特征
步骤4建立改进的交通方式人工识别流程
分别将样本xi,(i=1,2,L,n)利用基于贝叶斯决策树的交通方式识别流程和基于第三方地图数据的交通方式识别流程进行识别,得到交通方式结果然后判断二者是否相同,若相同,则该样本交通方式为否则,将样本交由专家进行对比判断,识别该出行子链的交通方式Xi
步骤5训练初始分类器
5.1对步骤1中的出行子链进行简单随机抽样,选取样本xi,(i=1,2,L,n)构成样本集N,样本数量n。利用步骤4的交通方式人工识别流程判断样本集N内所有样本的交通方式并标记,若无覆盖全出行方式,则增加抽样数量,继续识别,直至全部标签类别均有样本,判别后的出行子链构成已标记样本集L,剩余出行子链构成未标记样本集U。
5.2令t=1,记已标记样本集为进行Bootstrap采样,产生三个训练样本集L′1、L′2、L′3,并用SVM算法训练三个初始分类器,记为
5.3初始分类器的集成,即
步骤6:判别未标记样本的交通方式
利用分类器对未标记样本集U中出行子链的交通方式进行判别。
步骤7判断分类器是否符合终止条件
7.1确定终止条件。根据训练目标、数据精度、样本规模等情况,确定最优分类器的分类精度、半监督支持向量机对未标记样本的利用率等指标,确定终止条件。
7.2判断目前的分类器是否符合终止条件,若符合,则该分类器为最优分类器,并输出该分类器判别出的交通方式结果;否则,转至步骤8。
步骤8高置信度样本数据集更新
8.1计算预标记结果置信度conf(xi)。
8.2在预标记结果中,选取选择m个类标记置信度大于阈值ε1的样本,即当前分类器类标记相对确定的样本,记为Uε1
8.3将置信度高的样本Uε1添加至已标记样本集中,更新样本集。
步骤9基于Tri-training的半监督SVM分类器的优化
9.1利用步骤8更新的样本集进行Tri-training半监督学习,生成分类器
9.2计算三个分类器分类误差计算3个分类器在集成分类器中的权重
9.3生成集成分类器
步骤10:判别未标记样本的交通方式
利用分类器对未标记样本集U中出行子链的交通方式进行判别。
步骤11判断分类器是否符合终止条件
判断分类器是否符合终止条件,若符合,则该分类器为最优分类器,并输出该分类器判别出的交通方式结果;否则,转至步骤12。
步骤12低置信度样本数据集更新
12.1计算预标记结果置信度conf(xi)。
12.2在预标记结果中,选取选择j个类标记置信度小于阈值ε2的样本,即当前分类器相对不确定的样本,记为Uε2
12.3计Uε2中壳向量为将样本集记为
12.4将样本集运用步骤4改进的交通方式人工识别流程进行标记,并从未标记样本集中去除这部分样本,即令
步骤13基于壳向量的半监督SVM分类器的优化
13.1分别在样本集进行3次重采样所得样本子集和标记后样本集进行SVM增量学习,记训练所的分类器为
13.2计算3个分类器分类误差及3个分类器在集成分类器中的权重
13.3生成分类器
13.4令t=t+1,并转至步骤6。
本发明提供的基于手机信令数据的半监督SVM的交通方式判别方法,改进交通方式人工识别流程,通过贝叶斯决策树的交通方式判别方法和第三方地图数据提升人工识别交通方式的效率;提供一种分类标签变量化的方法,将交通方式数量视为变量,建立可调整节点数量的有向无环图,根据数据精度、城市交通方式等情况,调整分类标签数与有向无环图结构,进而调整判别结果。并且基于Tri-training的半监督支持向量机分类器,将置信度较高的未标记加入已标记样本集,通过更新样本集,不断优化分类器性能,提升交通方式的判别能力。特别是基于壳向量的半监督支持向量机分类器,将置信度低的未标记数据利用人工标记确定交通方式并加入已标记样本集,通过置信度较低的样本提高支持向量的确定效率,确定支持向量机的决策边界,提升交通方式判别效率。
本发明技术方案具有的有益效果:
1.交通方式信息获取成本降低、数据利用率提升。手机信令数据的源数据获取简单便捷,降低了成本。利用半监督支持向量机的方法,使用较少的人工标记数据和大量未标记数据进行训练,提升了数据利用率。
2.交通方式判别灵活、全面。判别结果基本涵盖城市居民出行的主要交通方式,且可以随着城市交通基础设施建设种类调整分类类别,能够很好地适应城市特性。
3.交通方式判别精度更高。分类器可以通过不断的调整样本数据集的组成,优化分类器性能,提升分类精度。
4.应用场景更广泛。判别结果可为城市交通管理与规划、城市规划与建设提供数据支持。
附图说明
图1为本发明的判别的总流程;
图2为实施例的有向无环图;
图3为实施例的人工识别出行链出行方式流程;
图4为实施例的贝叶斯决策树;
图5为实施例的借助第三方地图数据的交通方式识别流程;
图6为实施例的分类器精度变化情况。
具体实施方式
结合实施例说明本发明的具体技术方案。
按照图1所示的流程,本实施例包括以下步骤:
步骤1准备与预处理数据
1.1收集并准备数据
本发明采用包含出行链信息的手机信令数据研究交通方式的判别方法。手机信令数据经过清洗、挖掘后,转换成为本发明的数据集,数据字段包括用户编码、时间戳、轨迹点经纬度、轨迹点类型、用户年龄等,用户A0000001的2016年9月14日星期三的出行链如表1所示。
表1用户全日出行链
其中起讫点表示出行的起点或终点,停留点表示用户在该地停留,普通轨迹点表示用户经过该点。
1.2提取出行子链
本发明基于轨迹点类型,将用户全日出行链拆分成为只包含一次出行的出行子链,用户958fea201的出行子链如表2所示,其中出行开始时间为9:19:11,结束时间9:52:01。
表2用户单次出行的出行子链
步骤2设计标签种类
2.1确定标签数量
示例所用数据所在城市为GZ省GY市,时间为2016年9月,主要交通方式包括步行、自行车、电动车、摩托车、私家车、公交车、出租车等,本次示例,将电动车与摩托车设同种标签,将小汽车与出租车设为同种标签,设交通方式数量k=6,包括步行、自行车、电动车/摩托车、私家车/出租车、公交车、其它,标签分别是1,2,3,……,6。
2.2建立有向无环图
标签数k=6,根据各交通方式容易区分的程度建立的有向无环图如图2所示。
步骤3提取出行特征
将出行特征分为速度、时间、距离及起讫点POI、用户特征等五类,对每一类特征进行细分,根据数据精度和城市特点进一步确定出行特征。
3.1速度特征。出行速度可以细分为平均速度、最大速度、速度75分位数、速度方差等特征,在此基础上还可根据不同速度区间占比进行识别,不同出行方式速度特征如表3所示。选取速度的[0.5,5]百分比、[1,10]百分比、[5,15]百分比作为学习特征。
表3不同出行方式速度累计频率(%)分布
3.2时间特征。出行时间可分为出行时刻和出行时耗等特征。
3.3距离特征。选取出行距离与起讫点间直线距离作为出行特征。
3.4起讫点POI特征。手机信令数据的另一个信息是基站定位点,即经纬度信息,构建出行链后,可以确定每条出行的出发点与到达点的经纬度信息,这些经纬度信息可以通过百度POI转化成为出行地属性,分为居民区、政府机构、写字楼、美食、生活服务、医院、公园景点等6类作为学习特征,特征值分别为1,2,3,……,6。
3.5用户年龄。
分析可知,可用速度、时间、距离、出行地属性等特征可作为半监督学习的输入特征,具体特征表如表4所示,用户A0000001一次出行的出行特征如表5所示。
表4出行特征表
表5用户A0000001一次出行的出行特征
步骤4建立改进的交通方式人工识别流程
分别将样本xi,(i=1,2,L,n)利用基于贝叶斯决策树的交通方式识别流程和基于第三方地图数据的交通方式识别流程进行识别,得到交通方式结果然后判断二者是否相同,若相同,则该样本交通方式为否则,将样本交由专家进行对比判断,识别该出行子链的交通方式Xi。改进的交通方式人工识别流程如图3所示,贝叶斯决策树如图4所示,借助百度API的交通方式识别流程如图5所示。
以用户A000001在2016年9月14日的第一条出行子链进行交通方式人工识别为例,交通方式1为公交车(标签5),交通方式2为公交车(标签5),两结果相同,该出行子链的交通方式为公交车。
步骤5训练初始分类器
5.1对步骤1中的出行子链进行简单随机抽样,选取样本xi,(i=1,2,L,n)构成样本集N,样本数量n。利用步骤4的交通方式人工识别流程判断样本集N内所有样本的交通方式并标记,若无覆盖全出行方式,则增加抽样数量,继续识别,直至全部标签类别均有样本,判别后的出行子链构成已标记样本集L,剩余出行子链构成未标记样本集U。
5.2令t=1,记已标记样本集为进行Bootstrap采样,产生三个训练样本集S1、S2、S3,并用SVM算法训练三个初始分类器,记为
5.3初始分类器的集成,即
步骤6:判别未标记样本的交通方式
利用分类器对未标记样本集U中出行子链的交通方式进行判别。
步骤7判断分类器是否符合终止条件
7.1确定终止条件。根据训练目标、数据精度、样本规模等情况,确定最优分类器的分类精度、半监督支持向量机对未标记样本的利用率等指标,确定终止条件。
7.2判断目前的分类器是否符合终止条件,若符合,则该分类器为最优分类器,并输出该分类器判别出的交通方式结果;否则,转至步骤8。
步骤8高置信度样本数据集更新
8.1计算预标记结果置信度conf(xi)。
8.2在预标记结果中,选取选择m个类标记置信度大于阈值Tconfth的样本,即当前分类器类标记相对确定的样本,记为
8.3将置信度高的样本添加至已标记样本集中,更新样本集。
步骤9基于Tri-training的半监督SVM分类器的优化
9.1利用步骤8更新的样本集进行Tri-training半监督学习,生成分类器
9.2计算三个分类器分类误差计算3个分类器在集成分类器中的权重
9.3生成集成分类器
步骤10:判别未标记样本的交通方式
利用分类器对未标记样本集U中出行子链的交通方式进行判别。
步骤11判断分类器是否符合终止条件
判断分类器是否符合终止条件,若符合,则该分类器为最优分类器,并输出该分类器判别出的交通方式结果;否则,转至步骤12。
步骤12低置信度样本数据集更新
12.1计算预标记结果置信度conf(xi)。
12.2在预标记结果中,选取选择j个类标记置信度小于阈值Cconfth的样本,即当前分类器相对不确定的样本,记为
12.3计中壳向量为将样本集记为
12.4将样本集运用步骤4改进的交通方式人工识别流程进行标记,并从未标记样本集中去除这部分样本,即令
步骤13基于壳向量的半监督SVM分类器的优化
13.1分别在样本集进行Bootstrap采样3次所得样本子集和标记后样本集进行SVM增量学习,记训练所的分类器为
13.2计算3个分类器分类误差及3个分类器在集成分类器中的权重
13.3生成分类器
13.4令t=t+1,并转至步骤6。
步骤5至步骤13为本发明研究的半监督支持向量机的实现步骤,为更好的说明实现过程,本发明以GY市10000条出行子链进行示例,进行详述。
半监督支持向量机示例详述如下:
以GY市10000条出行子链为例,说明本发明研究的半监督支持向量机的具体过程。
步骤5:对总体数据进行随机抽样,选取300条出行子链进行交通方式人工识别,构成已标记样本集L,剩余出行子链构成未标记样本集U。以对数量为300的以标记样本集L进行重采样,采样数量为200,构成三个训练样本集,并用SVM算法训练三个初始分类器,并集成为一个初始分类器
步骤6:利用分类器(当前分类器)对未标记样本集U中出行子链的交通方式进行判别。
步骤7:设定终止条件为分类器精度为0.85或未标记样本集U为空集,即重采样剩余的出行子链构成验证集样本,判断初始分类器精度accuracy=0.45且不符合终止条件转至步骤8。
步骤8:利用公式(2)计算各出行子链预标记结果置信度conf(xi),选取m=30个置信度大于的样本,并添加至已标记样本集中,更新样本集。
本发明使用样本与最优分类面之间距离的远近作为样本属于不同类别的概率度量,
其中,f(x)=ω·x+b。为方便度量SVM主动学习不确定样本的类标记置信度,简化计算且不影响度量效果,结合式(1)采用度量样本xi的类标记置信度conf(xi):
步骤9:根据步骤8中更新的样本集基于Tri-training的半监督SVM分类器
步骤10:利用分类器对未标记样本集U中出行子链的交通方式进行判别。
步骤11:判断分类器精度accuracy=0.47且不符合终止条件转至步骤12。
步骤12:利用式(2)计算各出行子链预标记结果置信度conf(xi),选取j=10个置信度小于阈值Cconfth=0.50的样本,计算该样本中的壳向量,根据步骤4的改进的交通方式人工识别流程判别壳向量的交通方式,并添加至已标记样本集中,更新样本集。
步骤13:利用步骤12中已更新的样本集构建基于CHB-ASVM主动学习的分类器,对未标记样本集U进行判别,并转至步骤6。
重复步骤7至步骤16,直至第18次循环,经过35次优化,分类器符合终止条件,结束训练,并输出各出行子链的交通方式。分类器精度随循环次数的变化如图6所示。
本发明所用的阈值、停止条件如表6所示。基于本发明的阈值取值,本领域普通技术人员在没有作出创造性劳动前提下采用本发明阈值其他取值的实例,都属于本发明保护的范围。
表6阈值建议与停止条件取值
这些阈值的取值受城市土地利用、商业活动、人文风俗、公交线网布局等因素的影响,针对不同的城市在不同的时间取值不同,表6中取值仅作为参考建议值。

Claims (10)

1.基于手机信令数据的半监督SVM的交通方式判别方法,其特征在于,包括以下步骤:
步骤1:准备与预处理数据;
将已经基于手机信令数据刻画的用户出行链,处理成为只包含单一交通方式出行子链,转化为本发明使用的数据集;
步骤2:设计标签种类;
判别出的交通方式数量为k,根据城市交通基础设施建设现状、数据精度等因素,设计具体交通方式判别情况,为各交通方式设计标签,并根据各交通方式容易区分的程度建立有向无环图;
步骤3:提取出行特征;
借助现有交通出行方式情况、传统居民出行调查数据、手机信令数据,提取半监督学习特征,包括速度、时耗、距离、起讫点POI类别、用户年龄五大类;逐一计算、提取每一条出行子链的出行特征;
步骤4:建立改进的交通方式人工识别流程;
运用贝叶斯决策树方法和第三方地图数据辅助人工识别出行子链的交通方式;
步骤5:训练初始分类器;
随机抽取出行子链,依据步骤4中改进的交通方式人工识别流程,识别样本交通方式,若无全覆盖k种出行方式,则增加抽样数量,继续识别,直至k种交通方式均有人工识别的样本;人工识别后的出行子链组成已标记样本集L,剩余出行子链构成未标记样本集U;利用已标记样本集L与未标记样本集U,训练初始半监督SVM分类器;
步骤6:判别未标记样本的交通方式;
用分类器对未标记样本集U进行判别,得到样本交通方式;
步骤7:判断分类器是否符合终止条件;
判断分类器是否符合精度、无标记样本集U是否为空集终止条件;若符合,则该分类器为最优分类器,并输出各出行子链的交通方式;否则,转至步骤8;
步骤8:高置信度样本的数据集更新;
在预判别结果中选取部分置信度高的样本,添加至已标记样本集L中,更新样本集;
步骤9:基于Tri-training的半监督SVM分类器的优化;
利用步骤8中已更新的样本集构建Tri-training的半监督SVM分类器;
步骤10:判别未标记样本的交通方式;
用当前分类器对未标记样本集U进行判别,得到样本交通方式;
步骤11:判断分类器是否符合终止条件;
按照步骤7的方法进行终止条件的判断,若符合,则该分类器为最优分类器,并输出各出行子链的交通方式;否则,转至步骤12;
步骤12:低置信度样本的数据集更新;
从步骤9中对无标记样本集U的判别结果中选取部分置信度低的样本,添加至已标记样本集L中,更新样本集;
步骤13:基于壳向量的半监督SVM分类器的优化;
利用步骤11中已更新的样本集构建基于壳向量的半监督SVM分类器并转至步骤6。
2.根据权利要求1所述的基于手机信令数据的半监督SVM的交通方式判别方法,其特征在于,所述的步骤2建立的一种优化判断顺序的有向无环图,包括以下过程:根据各交通方式容易区分的程度将各交通方式进行排序,并将最易区分的两种交通方式,及步行与其它设为有向无环图顶点,步行与小汽车设为第二层判断,以此类推。
3.根据权利要求2所述的基于手机信令数据的半监督SVM的交通方式判别方法,其特征在于,所述步骤3建立的出行方式提取特征的方法。
4.根据权利要求3所述的基于手机信令数据的半监督SVM的交通方式判别方法,其特征在于,所述的步骤4建立改进的交通方式人工识别流程,包括以下过程:分别将样本xi,(i=1,2,L,n)利用基于贝叶斯决策树的交通方式识别流程和基于第三方地图数据的交通方式识别流程进行识别,得到交通方式结果然后判断二者是否相同,若相同,则该样本交通方式为否则,将样本交由专家进行对比判断,识别该出行子链的交通方式Xi
5.根据权利要求4所述的基于手机信令数据的半监督SVM的交通方式判别方法,其特征在于,所述的步骤5训练初始分类器,包括以下子步骤:
(5.1)对步骤1中的出行子链进行简单随机抽样,选取样本xi,(i=1,2,L,n)构成样本集N,样本数量n;利用步骤4的交通方式人工识别流程判断样本集N内所有样本的交通方式并标记,若无覆盖全出行方式,则增加抽样数量,继续识别,直至全部标签类别均有样本,判别后的出行子链构成已标记样本集L,剩余出行子链构成未标记样本集U;
(5.2)令t=1,记已标记样本集为进行重采样,产生三个训练样本集L1′、L2′、L3′,并用SVM算法训练三个初始分类器,记为
(5.3)初始分类器的集成,即
6.根据权利要求5所述的基于手机信令数据的半监督SVM的交通方式判别方法,其特征在于,所述的步骤7判断分类器是否符合终止条件,包括以下子步骤:
(7.1)确定终止条件;根据训练目标、数据精度、样本规模情况,确定最优分类器的分类精度、半监督支持向量机对未标记样本的利用率指标,确定终止条件;
(7.2)判断目前的分类器是否符合终止条件,若符合,则该分类器为最优分类器,并输出该分类器判别出的交通方式结果;否则,转至步骤8。
7.根据权利要求6所述的基于手机信令数据的半监督SVM的交通方式判别方法,其特征在于,所述的步骤8高置信度样本数据集更新,包括以下子步骤:
(8.1)计算预标记结果置信度conf(xi);
(8.2)在预标记结果中,选取选择m个类标记置信度大于阈值ε1的样本,即当前分类器类标记相对确定的样本,记为Uε1
(8.3)将置信度高的样本Uε1添加至已标记样本集中,更新样本集。
8.根据权利要求7所述的基于手机信令数据的半监督SVM的交通方式判别方法,其特征在于,所述的步骤9基于Tri-training的半监督SVM分类器的优化,包括以下子步骤:
(9.1)利用步骤8更新的样本集进行Tri-training半监督学习,生成分类器
(9.2)计算三个分类器分类误差计算3个分类器在集成分类器中的权重
(9.3)生成集成分类器
9.根据权利要求8所述的基于手机信令数据的半监督SVM的交通方式判别方法,其特征在于,所述的步骤12低置信度样本数据集更新,包括以下子步骤:
(12.1)计算预标记结果置信度conf(xi);
(12.2)在预标记结果中,选取选择j个类标记置信度小于阈值ε2的样本,即当前分类器相对不确定的样本,记为Uε2
(12.3)计Uε2中壳向量为将样本集记为
(12.4)将样本集运用步骤4改进的交通方式人工识别流程进行标记,并从未标记样本集中去除这部分样本,即令
10.根据权利要求9所述的基于手机信令数据的半监督SVM的交通方式判别方法,其特征在于,所述的步骤13基于壳向量的半监督SVM分类器的优化,包括以下子步骤:
(13.1)分别在样本集进行3次重采样所得样本子集和标记后样本集进行SVM增量学习,记训练所的分类器为
(13.2)计算3个分类器分类误差及3个分类器在集成分类器中的权重
(13.3)生成分类器
(13.4)令t=t+1,并转至步骤6。
CN201910076104.3A 2019-01-26 2019-01-26 基于手机信令数据的半监督svm的交通方式判别方法 Expired - Fee Related CN109784416B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910076104.3A CN109784416B (zh) 2019-01-26 2019-01-26 基于手机信令数据的半监督svm的交通方式判别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910076104.3A CN109784416B (zh) 2019-01-26 2019-01-26 基于手机信令数据的半监督svm的交通方式判别方法

Publications (2)

Publication Number Publication Date
CN109784416A true CN109784416A (zh) 2019-05-21
CN109784416B CN109784416B (zh) 2020-08-04

Family

ID=66502430

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910076104.3A Expired - Fee Related CN109784416B (zh) 2019-01-26 2019-01-26 基于手机信令数据的半监督svm的交通方式判别方法

Country Status (1)

Country Link
CN (1) CN109784416B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111385753A (zh) * 2019-10-24 2020-07-07 南京瑞栖智能交通技术产业研究院有限公司 一种基于手机信令数据的医疗设施可达性评估方法
CN112351394A (zh) * 2020-11-03 2021-02-09 崔毅 一种基于手机信令数据的交通出行模型构建方法
CN112542045A (zh) * 2020-12-01 2021-03-23 江苏欣网视讯软件技术有限公司 基于手机信令识别交通出行方式的方法与***
CN114928809A (zh) * 2021-06-11 2022-08-19 荣耀终端有限公司 一种地理围栏的使用方法及电子设备
CN115022810A (zh) * 2021-03-05 2022-09-06 ***通信集团江苏有限公司 基于手机信令数据识别出行方式的方法、装置及电子设备
CN117541269A (zh) * 2023-12-08 2024-02-09 北京中数睿智科技有限公司 基于智能大模型的第三方模块数据实时监控方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007087537A2 (en) * 2006-01-23 2007-08-02 The Trustees Of Columbia University In The City Of New York System and method for grading electricity distribution network feeders susceptible to impending failure
CN103903441A (zh) * 2014-04-04 2014-07-02 山东省计算中心 一种基于半监督学习的道路交通状态判别方法
CN104318242A (zh) * 2014-10-08 2015-01-28 中国人民解放军空军工程大学 一种高效的svm主动半监督学习算法
CN105117789A (zh) * 2015-07-29 2015-12-02 西南交通大学 基于手机信令数据的居民出行方式综合判别的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007087537A2 (en) * 2006-01-23 2007-08-02 The Trustees Of Columbia University In The City Of New York System and method for grading electricity distribution network feeders susceptible to impending failure
CN103903441A (zh) * 2014-04-04 2014-07-02 山东省计算中心 一种基于半监督学习的道路交通状态判别方法
CN104318242A (zh) * 2014-10-08 2015-01-28 中国人民解放军空军工程大学 一种高效的svm主动半监督学习算法
CN105117789A (zh) * 2015-07-29 2015-12-02 西南交通大学 基于手机信令数据的居民出行方式综合判别的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JAHANGIRI ARASH ET AL: "applying machine learning techniques to transprotation mode recogniton using mobile phone sensor data", 《IEEE TRANSACTION ON INTELLIGENT TRANSPORTATION SYSTEMS》 *
张锦 等: "城市轨道交通规划模糊综合评价方法研究", 《铁道运输与经济》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111385753A (zh) * 2019-10-24 2020-07-07 南京瑞栖智能交通技术产业研究院有限公司 一种基于手机信令数据的医疗设施可达性评估方法
CN111385753B (zh) * 2019-10-24 2022-01-04 南京瑞栖智能交通技术产业研究院有限公司 一种基于手机信令数据的医疗设施可达性评估方法
CN112351394A (zh) * 2020-11-03 2021-02-09 崔毅 一种基于手机信令数据的交通出行模型构建方法
CN112542045A (zh) * 2020-12-01 2021-03-23 江苏欣网视讯软件技术有限公司 基于手机信令识别交通出行方式的方法与***
CN115022810A (zh) * 2021-03-05 2022-09-06 ***通信集团江苏有限公司 基于手机信令数据识别出行方式的方法、装置及电子设备
CN114928809A (zh) * 2021-06-11 2022-08-19 荣耀终端有限公司 一种地理围栏的使用方法及电子设备
CN114928809B (zh) * 2021-06-11 2023-04-07 荣耀终端有限公司 一种地理围栏的使用方法及电子设备
CN117541269A (zh) * 2023-12-08 2024-02-09 北京中数睿智科技有限公司 基于智能大模型的第三方模块数据实时监控方法及***

Also Published As

Publication number Publication date
CN109784416B (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN109784416A (zh) 基于手机信令数据的半监督svm的交通方式判别方法
Li et al. Transportation mode identification with GPS trajectory data and GIS information
Li et al. Prediction of urban human mobility using large-scale taxi traces and its applications
Liu et al. Identifying spatial interaction patterns of vehicle movements on urban road networks by topic modelling
CN105447504B (zh) 一种交通模式行为识别方法及相应的识别模型构建方法
CN106384120B (zh) 一种基于手机定位数据的居民活动模式挖掘方法及装置
CN108427965A (zh) 一种基于路网聚类的热点区域挖掘方法
CN110472066A (zh) 一种城市地理语义知识图谱的构建方法
CN108389420A (zh) 一种基于历史出行特征的公交乘客下车站点实时识别方法
CN113378891B (zh) 基于轨迹分布表示的城市区域关系可视分析方法
CN109102114B (zh) 一种基于数据融合的公交出行下车站点估计方法
CN107656987A (zh) 一种基于lda模型的地铁站点功能挖掘方法
CN111653096A (zh) 一种基于手机信令数据的城市出行方式识别方法
CN110442715A (zh) 一种基于多元大数据的综合城市地理语义挖掘方法
WO2023050955A1 (zh) 一种基于功能混合度和集成学习的城市功能区识别方法
CN113569977B (zh) 一种基于手机信令数据的出行目的识别方法
Namiot et al. A Survey of Smart Cards Data Mining.
CN105893352A (zh) 一种基于社交网络大数据的空气质量预警和监测分析***
CN112884014A (zh) 一种基于路段拓扑结构分类的交通速度短时预测方法
CN108108859A (zh) 一种基于大数据分析的交通管理勤务优化方法
Rezaie et al. Semi-supervised travel mode detection from smartphone data
CN105095591A (zh) 一种多尺度城市扩张关联规则提取方法
ZHAO et al. Big data-driven residents’ travel mode choice: a research overview
CN106570182A (zh) 公交车辆下车站点识别方法与***
Erdelić et al. Classification of travel modes using streaming GNSS data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200804

Termination date: 20210126