CN109034474A - 一种基于poi数据和客流数据的地铁站聚类与回归分析方法及*** - Google Patents

一种基于poi数据和客流数据的地铁站聚类与回归分析方法及*** Download PDF

Info

Publication number
CN109034474A
CN109034474A CN201810830576.9A CN201810830576A CN109034474A CN 109034474 A CN109034474 A CN 109034474A CN 201810830576 A CN201810830576 A CN 201810830576A CN 109034474 A CN109034474 A CN 109034474A
Authority
CN
China
Prior art keywords
subway station
station
poi
passenger flow
subway
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810830576.9A
Other languages
English (en)
Inventor
马晓磊
沈宣良
杜博文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201810830576.9A priority Critical patent/CN109034474A/zh
Publication of CN109034474A publication Critical patent/CN109034474A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于POI数据与客流数据的地铁站聚类与回归分析方法及***。方法包括:通过地理信息***统计软件,采集地铁站周边不同功能的POI数量,基于AFC刷卡数据,统计地铁站日均进出站客流量,生成待处理的数据集。基于地铁站周边不同类别POI数量,采用聚类方法对地铁站服务强度等级划分。以日均客流量为因变量,POI数量为自变量,通过回归分析,寻找地铁站点周边的POI种类及数量对地铁站客流的影响关系。本发明提供的方法及***,采用POI数据和AFC刷卡数据,将动态数据与静态数据相结合,能够直观有效衡量地铁站规模,全面分析不同地铁站的功能定位与服务水平。针对不同地铁站类型,为应对不同的客流特征提出建议。

Description

一种基于POI数据和客流数据的地铁站聚类与回归分析方法 及***
技术领域
本发明涉及交通信息技术领域,更具体地,涉及一种地铁站聚类 与回归分析方法及***。
背景技术
城市轨道交通承担着客运交通输送的重要任务,是公共交通出行 的重要环节。应对地铁站高峰时段的庞大客流,合理有序地组织乘客 进出站、搭乘轨道交通,需要掌握地铁客流的出行规律。研究地铁站 周围兴趣点POI(point of interest)的数量及类型,同时分析地铁站日 均进出站客流量的历史数据,将静态数据与动态数据相结合,全面分 析北京市不同地铁站的功能定位与服务水平。针对不同地铁站类型, 为应对不同的客流特征提出建议。
不同地铁站周边环境不同,服务的功能和对象有差异,因此对于 不同地铁站,客流强度往往取决于周边交通发生与吸引的兴趣点,比 如休闲娱乐、医疗服务、住宅小区、商业大厦、科研教育等等,这些 POI影响着客流出行的需求,以及出行OD对。
近年来,学者提出了多种方法,对地铁站点客流进行预测和分析。 但是预测和分析通常只针对站点客流信息数据,对于地铁站周边交通 兴趣点的分析和挖掘相对较少。将实际数据与理论模型的结合程度不 够,对影响地铁站客流因素的分析挖掘不够深入。
发明内容
本发明提供一种克服上述问题或者至少部分地解决上述问题的 一种公交车客流量的分析方法及***。
根据本发明的一个方面,提供一种基于POI数据与客流数据的地 铁站聚类与回归分析方法,包括:
采集地铁站周边不同功能的POI数量,统计地铁站日均进出站客 流量,生成数据集;
基于聚类分析,根据所述数据集,量化地铁站的服务规模;
基于回归分析,寻找地铁站周边的POI种类及数量对客流的影响 关系;
其中,所述数据集,包括地铁站日均进出站客流,以及周边不同 功能的POI数量,包括但不限于休闲娱乐、医疗服务、住宅小区、商 业大厦、科研教育、公交车站、风景名胜区和停车场中的一种或多种。
根据本发明的另一个方面,提供一种基于POI数据与客流数据的 地铁站聚类与回归分析***,包括:
POI数据获取模块,用于采集地铁站周边不同功能的POI数量;
地铁站客流量获取模块,用于根据原始地铁AFC交易记录,获 取有效的地铁站日均进出站客流量信息;
聚类分析模块,用于根据所述数据集,将地铁站划分为不同类别, 相同类别下地铁站特性相似,不同类别间地铁站差异显著;
回归分析模块,用于探究地铁站周边的POI种类及数量对客流的 影响关系;
其中,所述数据集,包括地铁站日均进出站客流,以及周边不同 功能的POI数量,包括但不限于休闲娱乐、医疗服务、住宅小区、商 业大厦、科研教育、公交车站、风景名胜区和停车场中的一种或多种。
根据本发明的再一个方面,提供一种计算机设备,包括存储器和 处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述 存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述 程序指令能够执行上述的方法。
根据本发明的还一个方面,提供一种非暂态计算机可读存储介质, 所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使 所述计算机执行上述的方法。
本发明提供的一种基于POI数据与客流数据的地铁站聚类与回 归分析方法及***,考虑了除客流量以外的,地铁站周边POI种类及 数量对地铁站规模的影响,数据处理简单,成本低;通过对地铁站周 边POI种类和数量的分析,有助于判断影响地铁站客流的因素,进而 对各地铁站的客流强度进行合理预测,有效应对可能出现的大规模客 流。与此同时,针对这些指标,采用聚类方法,能***地将地铁站划 分为不同的等级,根据不同等级的地铁站具有的不同客流属性,提高 各地铁站的服务水平,进而提升地铁的便捷性、通达性,实现轨道交 通的高效运转。
附图说明
图1为一种基于POI数据与客流数据的地铁站聚类与回归分析 方法及***流程图;
图2为根据本发明实施例提供的某年某月北京地铁AFC刷卡部 分原始数据
图3为根据本发明实施例提供的北京各地铁站进出站客流量部 分统计数据
图4为根据本发明实施例提供的北京地铁站空间分布图;
图5为根据本发明实施例提供的由北京各地铁站为中心,500m 为半径的缓冲区;
图6为根据本发明实施例提供的北京各地铁站周围POI数量及 分布图;
图7为根据本发明实施例提供的典型判别函数下,聚类中心与其 他样本点的分布关系图;
图8为根据本发明实施例提供的北京地铁站聚类结果分布图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细 描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1为根据本发明实施例提供的一种基于POI数据与客流数据 的地铁站聚类与回归分析方法及***流程图,如图1所示,该方法包 括:
采集地铁站周边不同功能的POI数量,统计地铁站日均进出站客 流量,生成数据集;
基于聚类分析,根据所述数据集,量化地铁站的服务规模;
基于回归分析,寻找地铁站周边的POI种类及数量对客流的影响 关系;
其中,所述数据集,包括地铁站日均进出站客流,以及周边不同 功能的POI数量,包括但不限于休闲娱乐、医疗服务、住宅小区、商 业大厦、科研教育、公交车站、风景名胜区和停车场中的一种或多种。
基于上述实施例,所述采集地铁站周边不同功能的POI数量,统 计地铁站日均进出站客流量,生成数据集,之前还包括:
建立地铁运营信息数据库;
将通过网络实时获取到的原始地铁AFC交易记录,存入所述地 铁运营信息数据库中;
在所述地铁运营信息数据库中,统计所述地铁站日均进出站客流 量。
其中,所述在所述地铁运营信息数据库中,统计所述地铁站日均 进出站客流量,进一步包括:
在所述地铁运营信息数据库中,将AFC数据按日期、地铁站点 分类汇总,得到每个地铁站点每天的进站总客流和出站总客流。其中, 换乘站进出站客流为通过该站所有线路的所有出入口进出站客流之 和;
再对各站客流数据取平均值,得到各地铁站日均进出站客流,作 为分析指标。
基于上述实施例,所述采集地铁站周边不同功能的POI数量,进 一步包括:
基于对地理信息文件中各交通兴趣点的统计整合,采用地理统计 软件,以各地铁站为中心,建立一定半径的缓冲区;
再基于叠加分析与空间连接,分别统计所述各地铁站建立的一定 半径的缓冲区内,包含的各类POI的数量,生成地铁站POI统计表。
基于上述实施例,本实施例为了方便本发明的参数理解及算法实 现,选取具体基础数据对上述实施例中的方案进行具体说明。
具体地,实施例采用北京地铁AFC数据,站点周边POI数据及 相关数据进行分析处理。
第一步,AFC数据预处理。
客流数据来源于某年某月共计30天北京地铁进出站闸机AFC进 出站记录(如图2所示)。通过SQL Server数据库处理软件,将刷卡 数据按日期、地铁站点分类汇总,得到每个地铁站点,每天的进站总 客流和出站总客流(如图3所示),换乘站进出站客流为通过该站所 有线路的所有出入口进出站客流之和。再对数据取平均值,得到各地 铁站全月30天的日均进出站客流,作为分析指标。
第二步,地铁站周边POI数据生成。
POI数据基于对北京地图地理信息文件Shapefile中各交通兴趣 点的统计整合,利用ArcGIS地理统计软件,首先以北京市各地铁站 (图4)为中心,建立半径为500m的缓冲区(图5),再利用叠加分 析,进行空间连接,分别统计各地铁站500m的半径内,包含的休闲娱乐、医疗服务、住宅小区、商业大厦、科研教育、公交车站、风景 名胜区及停车场等各类POI的数量(图6),生成地铁站POI统计表。
表1 POI与地铁客流融合的数据表(节选)
第三步,基于采集数据,对地铁站点聚类分析。
基于上述实施例,所述基于聚类分析,根据所述数据集,量化地 铁站的服务规模,进一步包括:
根据各地铁站周边POI的数量及类型,以及地铁日均进出站客 流,将地铁站进行聚类。具体见步骤S1~S5:
S1确定分类数K.从整体样本Y中,随机选取K个对象作为初 始的簇中心mj(I)(j=1,2,…,K),令I=1.
S2采用欧式距离作为相似度的衡量标准,计算Y中每个样本yi到K个簇中心的欧式距离d(yi,mj(I)),找到每个样本yi的最小d(yi, mj(I)),将yi归入到与mj(I)相同的簇中.
S3遍历完所有对象之后,重新计算mj(I)的值,以簇中所有点均 值作为新的簇中心.
S4计算误差平方和E(I).
式中yi (j)——第j个簇中的样本;
nj——第j个簇中样本的个数.
若|E(I)-E(I-1)|<ξ则转S5;否则I=I+1,返回Step2.
S5对聚类结果进行变量的显著性检验,算法结束。
本实施例使用SPSS对所收集的北京地铁数据进行快速聚类,采 用K-Means在确定类别数量基础上,先给定一个粗糙的初始分类,然 后按照某种原则进行反复修改,直至分类较为合理。
以北京市其中的228个地铁站为样本,以地铁站周边500米不同 POI类型的数量,加上全月日均进出站客流(以千人为单位),作为多 个聚类变量。采用对样本进行聚类的K-均值方法。
表2聚类分析采用的变量列表
K-means聚类将数据初步形成4个初始聚类中心,如表3所示。
表3初始聚类中心
通过反复迭代,使得同类样本与聚类中心的距离不断减小,不 同聚类中心间的距离不断增大,最后形成对228个地铁站的分类, 迭代完成后,最终形成的聚类中心以及各聚类中心之间的距离如表 4,表5所示。
表4最终聚类中心
表5最终聚类中心之间的距离
表6采用F检验,对聚类样本进行方差分析,F值及显著性sig 值刻画了各变量对于地铁站分类的影响程度。其中风景名胜的F值 较小,sig值>0.05,说明在置信区间95%的范围内,即犯错误不超 过5%的条件下,接受原假设,无法拒绝原假设,即说明该种类POI 的数量对于地铁站的聚类不具有显著性关系,在最终聚类中可以将 该变量剔除。
而对于其它7个变量,显著性sig值均小于0.01,标明在犯错 误不超过1%的条件下,拒绝原假设,选择备择假设,这些种类POI 的数量对于地铁站的聚类具有显著性关系。
表6 ANOVA
第四步,采用判别分析,对聚类结果进行检验。
基于上述实施例,所述迭代方法完成后,进一步包括:
将聚类的指标作为分组变量,对各地铁站进行判别分析,评价分 类的效果。
具体地,将高维向量时总体,综合成一个一维变量,再对一维变 量进行Fisher距离判别。降维压缩后,样本y到各个总体Gj*的距离 可以用欧式距离度量,即:
由此导出Fisher判别规则为:
则x∈G1 (3)
本实施例采用Fisher判别方法,建立线性判别函数,对北京地铁 站的聚类结果进行距离判别,从而验证聚类结果的优劣。
表7组平均值的同等检验
通过表7对各聚类组平均值的F检验可以看出,除风景名胜的显 著性p值大于0.05外,其余各因素的p值<0.001,证明除风景名胜的 各影响因素对于分类具有显著性特征。
特征值是典型判别式函数的特征值,为判别函数组内平方和与组 间平方和之比。特征值越大说明判别效果越好。正则相关性为典型相 关系数,等于组间平方和与组内平方和之比的平方根。表8是特征值 表,从表中得出典型分析最终形成三个判别函数,判别函数F1的特 征值为4.888,判别函数F2的特征值为1.602,判别函数F3的特征值 为0.537,判别函数F1至F3的判别能力逐渐减弱。函数F1和F2能 够解释绝大部分方差。三对典型变量的相关系数分别为 0.911,0.785,0.591。
表8 Fisher判别结果特征值
a.在分析中使用第一个3规范判别式函数。
表9中给出的显著性水平,p值<0.01,说明在显著性为0.01的 条件下有理由拒绝原假设,认为不同组的平均Fisher判别函数具有显 著差异,判别有效。
表9 Wilks'Lambda
表10为分类结果和对函数进行交叉检验的结果。判别函数对初 始分组案例中的96.5%进行了正确分类,对已交叉验证分组案例中的 94.7%进行了正确分类,说明判别分析的符合度很高,判别函数的建 立有很强的依据性。
表10分类结果
a.96.5%正确分类的原始分组个案。
b.仅为分析中的个案进行交叉验证。在交叉验证中,每个个案根据源自所有个案(除了此个案)的函数 进行分类。
c.94.7%正确分类的交叉验证分组个案。
图7表示典型判别函数下不同聚类的分布图,体现了样本聚类的 散点图,通过观察可以发现,第4类的质心与另外三类相距较远,该 聚类的样本与其余聚类的差异明显。而前三类的质心相距较近,且位 于聚类边缘处的样本之间有交叠,对这类样本判别的不确定度较大。 此外,第二类聚类的样本分布最为集中,组内样本之间具有很强的相 似特征。
第五步,对地铁站客流影响因素进行回归分析。
基于上述实施例,基于回归分析,寻找地铁站周边的POI种类及 数量对客流的影响关系,进一步包括:
对各变量间的相关性进行检验,重点关注进出站客流与POI变量 之间的相关关系。分别将进站客流和出站客流作为因变量,POI类 型作为自变量,建立地铁站客流的线性多元回归方程,判断POI种类 及数量对于地铁站客流的影响。具体见步骤S6~S
首先对各变量间的相关性进行检验,重点关注进出站客流与POI 变量之间的相关关系。
表11相关性
**.在置信度(双测)为0.01时,相关性是显著的。
*.在置信度(双测)为0.05时,相关性是显著的。
由表11相关性检验结果,根据皮尔森系数以及显著性sig值可 以得出,进出站客流与风景名胜之间不具有显著相关关系,且得到的 相关系数为接近0的负值,这与实际经验不符,不适合将该变量纳入 模型的预测,故剔除该变量。而其余各变量,均在犯错误不超过1% 的条件下,与地铁进出站客流具有显著相关关系,暂时保留各变量。
将进站客流和出站客流作为因变量,除风景名胜以外的其余POI 类型作为自变量,采用逐步法,建立地铁站客流的线性多元回归方程。
选用逐步法对影响地铁客流的各因素进行多元线性回归,分别得 到对应的进出站客流模型。
表12 ANOVAa
a.因变量:进站客流千人
b.预测变量:(常量),商业大厦
c.预测变量:(常量),商业大厦,休闲娱乐
从表12中的方差分析结果可以看出,模型F值检验的sig值远 小于0.01,由此可见,最终模型的整体线性关系成立。
表13系数a
a.因变量:进站客流千人
表13包含进入模型的变量,主要描述模型的参数估计值,以及 每个变量的系数估计值的显著性检验,模型中变量系数t检验的sig 值均小于0.01,说明系数显著不为0。最终的回归模型包含商业大厦、 休闲娱乐两个自变量。
表14排除的变量a
a.因变量:进站客流千人
b.模型中的预测变量:(常量),商业大厦
c.模型中的预测变量:(常量),商业大厦,休闲娱乐
表14为分次被剔除的变量的相关信息,包括各变量的Beta值、 t统计值、双侧显著性概率Sig.、偏相关系数以及多重共线性统计的 容差。对于模型2,被剔除的变量其双侧显著性概率Sig.均大于设定 的标准0.05,这些变量对模型的贡献均不明显,所以不包含在最终的 方程中。地铁出站客流结果与上述进站客流回归结果相同,因此不再 赘述。
排除共线性影响后,影响地铁进站客流的主要因素为商业大厦和 休闲娱乐POI的数量,对应的线性回归方程为 y1=0.165x1+0.442x4+10.052; (4)
排除共线性影响后,影响地铁出站客流的主要因素为商业大厦和 休闲娱乐POI的数量,对应的线性回归方程为 y2=0.173x1+0.501x4+9.605。 (5)
在最终采用的逐步回归法建立的模型中,在剔除了一个与因变量 相关程度弱的自变量后,其余7个自变量中仅有2个(休闲娱乐、商 业大厦)进入最终的回归模型。原因是从相关性检验中得出,7个自 变量间的皮尔森系数均很大,变量之间的相关关系显著,在进行线性 回归时,其余变量的影响被休闲娱乐、商业大厦这两个变量的影响所 代替,这两个变量的贡献值大,因子效应强,也可解释为,纳入回归 方程的两个变量包含了其余自变量的部分信息。
从实际的角度,休闲娱乐、商业大厦代表了主要的娱乐和办公区 域,该区域的数量,对地铁客流的影响越明显。而自变量之间,休闲 娱乐、商业大厦的数量往往受到住宅小区、医疗服务的影响,同时也 共同影响着周边停车场以及公交车站的数量。该回归模型能从实际应 用中得到较好的解释。
第六步,对聚类结果进行分析。
在地图中将不同聚类分块显示,图8为根据本发明实施例提供的 聚类后的北京地铁站点辐射500m区域图,从图中可以看出4种聚类 地铁站的空间分布关系。
(1)第1类具有数量最多的样本,从聚类中心的任意分类变量 看,该类地铁站在所有指标中很难发现显著性特征,因此属于“最不 具备特征”的一类地铁站。从实际角度分析,该类中的地铁站的分布 非常离散,部分是传统居住区,也有旅游景区、小型商圈,客流水平 处于中等偏上,由于数据量以及类型的限制,很难用统一的指标将该 类样本与其余三类作明显区分,处于该聚类的样本错判的风险也相对 较大。如果增加分类变量的多样性,数据的多元性,能更好地该聚类 中的地铁站更好地划分,该类样本可以进一步分类。
(2)第2类包含81个样本,与第3类核心热点车站相反,该类 中地铁站客流强度小,日均进出站客流平均值在8000人/天左右,其 中的9座换乘站,周边POI数量少,吸引度不高,车站更多地承载枢 纽换乘功能,过站换乘乘客比例高。值得说明的是,该类中的奥体中心、奥林匹克公园、森林公园南门、北海北等车站,周边的风景名胜 数量多,预测其应承担较大客流,但事实情况与之相反。因为旅游景 区游客数具有鲜明的时段性,呈现“工作日少,节假日激增”时空分 布规律,而本次统计的进出站客流为全月的日平均值,不具备衡量旅 游景点地铁客流需求的特征。统计表明,在之后的判别分析和相关分 析显著性检验中,风景名胜数量对于进出站客流并无显著相关关系。
(3)第3类包含的37个样本,在实际中,该聚类中的地铁站多 处于城市核心热点区域,最突出的特征是日均进出站客流量庞大,达 到2.7~2.8万人/天,该类样本中具有接近一半的换乘站。从聚类中心 看,该聚类中的地铁站周边具有明显多于其它三类的休闲娱乐场所、 商业大厦办公区以及停车场。该类地铁站包含大型客流集散的火车站 (北京站、北京西站),金融CBD(国贸、金台夕照、五道口、复兴 门、建国门等),大型商圈(西单、东单、王府井、海淀黄庄、中关 村、望京等),大型居住区(牡丹园、团结湖等),具有强大的客流需求,这类地铁站在地铁线网中承担最为繁重的工作,需在乘车高峰时 段进行合理有效地引导,同时对车站的承载能力也要显著加强。
(4)第4类包含4个地铁站,该聚类中的地铁站均非换乘站, 但与其他类别样本的最显著差异在于,4个地铁站均处于高校分布集 中的地理位置。魏公村站附近有北京理工大学、中央民族大学、北京 外国语大学等高校,以及理工科技园;北京大学东门站附近有北京大 学、清华大学、中关村科技园;传媒大学站周边是中国传媒大学以及 北京第二外国语学院,而西土城站位于学院路,北京航空航天大学校 园的东南角,不仅覆盖致真大厦、唯实大厦在内的北航科技园,而且 辐射学院路沿线的北京大学医学部、北京邮电大学、北京电影学院、 中国政法大学、中国地质大学、北京科技大学等其他高校。从样本的 聚类中心可以看出,该类表现最为突出变量为科研教育,科研教育 POI的数量明显高于其余三类,且地铁进出站客流规模处于中等水平。
基于上述实施例,本实施例提供一种基于POI数据与客流数据的 地铁站聚类回归分析***,其特征在于,包括:
POI数据获取模块,用于采集地铁站周边不同功能的POI数量;
地铁站客流量获取模块,用于根据原始地铁AFC交易记录,获 取有效的地铁站日均进出站客流量信息;
聚类分析模块,用于根据所述数据集,将地铁站划分为不同类别, 相同类别下地铁站特性相似,不同类别间地铁站差异显著;
回归分析模块,用于探究地铁站周边的POI种类及数量对客流的 影响关系;
其中,所述数据集,包括地铁站日均进出站客流,以及周边不同 功能的POI数量,包括但不限于休闲娱乐、医疗服务、住宅小区、商 业大厦、科研教育、公交车站、风景名胜区和停车场中的一种或多种。
需要说明的是,上述POI数据获取模块、地铁站客流量获取模块 用于执行上述实施例中的一种地铁站聚类与回归分析方法,该***的 具体功能参见上述的方法的实施例,此处不再赘述。
本发明实施例提供一种计算机设备,包括至少一个处理器,以及 与所述处理器通信连接的至少一个存储器。其中,所述存储器存储有 可被所述处理器执行的程序指令,所述处理器调用所述程序指令以执 行上述各方法实施例所提供的方法,例如包括:采集地铁站周边不同 功能的POI数量,统计地铁站日均进出站客流量,生成数据集;基于 聚类分析,根据所述数据集,量化地铁站的服务规模;将聚类的指标 作为分组变量,对各地铁站进行判别分析,评价分类的效果;基于回 归分析,寻找地铁站周边的POI种类及数量对客流的影响关系;其 中,所述数据集,包括地铁站日均进出站客流,以及周边不同功能的 POI数量,包括但不限于休闲娱乐、医疗服务、住宅小区、商业大厦、 科研教育、公交车站、风景名胜区和停车场中的一种或多种。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算 机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行 上述各方法实施例所提供的方法,例如包括:采集地铁站周边不同功 能的POI数量,统计地铁站日均进出站客流量,生成数据集;基于聚 类分析,根据所述数据集,量化地铁站的服务规模;将聚类的指标作 为分组变量,对各地铁站进行判别分析,评价分类的效果;基于回归 分析,寻找地铁站周边的POI种类及数量对客流的影响关系;其中, 所述数据集,包括地铁站日均进出站客流,以及周边不同功能的POI 数量,包括但不限于休闲娱乐、医疗服务、住宅小区、商业大厦、科 研教育、公交车站、风景名胜区和停车场中的一种或多种。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部 分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于 一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实 施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘 等各种可以存储程序代码的介质。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解 到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然 也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现 有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软 件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光 盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机, 服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所 述的方法。
本发明为基于POI数据与客流数据的地铁站聚类与回归分析方 法及***,通过对地铁站周边POI种类和数量的分析,有助于判断影 响地铁站客流的因素,进而对各地铁站的客流强度进行合理预测,有 效应对可能出现的大规模客流。与此同时,针对这些指标,采用聚类 方法,能***地将地铁站划分为不同的等级,根据不同等级的地铁站 具有的不同客流属性,提高各地铁站的服务水平,进而提升地铁的便 捷性、通达性,实现轨道交通的高效运转,综合提高轨道交通的服务 水平和整体运能。
最后,本发明的方案仅为较佳的实施方案,并非用于限定本发明 的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同 替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于POI数据与客流数据的地铁站聚类与回归分析方法,其特征在于,包括:
采集地铁站周边不同功能的POI数量,统计地铁站日均进出站客流量,生成数据集;
基于聚类分析,根据所述数据集,量化地铁站的服务规模;
基于回归分析,寻找地铁站周边的POI种类及数量对客流的影响关系;
其中,所述数据集,包括地铁站日均进出站客流,以及周边不同功能的POI数量,包括但不限于休闲娱乐、医疗服务、住宅小区、商业大厦、科研教育、公交车站、风景名胜区和停车场中的一种或多种。
2.根据权利要求1所述的方法,其特征在于,所述采集地铁站周边不同功能的POI数量,统计地铁站日均进出站客流量,生成数据集,之前还包括:
建立地铁运营信息数据库;
将通过网络实时获取到的原始地铁AFC交易记录,存入所述地铁运营信息数据库中;
在所述地铁运营信息数据库中,统计所述地铁站日均进出站客流量。
3.根据权利要求2所述的方法,其特征在于,在所述地铁运营信息数据库中,统计所述地铁站日均进出站客流量,进一步包括:
在所述地铁运营信息数据库中,将AFC数据按日期、地铁站点分类汇总,得到每个地铁站点每天的进站总客流和出站总客流。其中,换乘站进出站客流为通过该站所有线路的所有出入口进出站客流之和;
再对各站客流数据取平均值,得到各地铁站日均进出站客流,作为分析指标。
4.根据权利要求1所述的方法,其特征在于,所述采集地铁站周边不同功能的POI数量,进一步包括:
基于对地理信息文件中各交通兴趣点的统计整合,采用地理统计软件,以各地铁站为中心,建立一定半径的缓冲区;
再基于叠加分析与空间连接,分别统计所述各地铁站建立的一定半径的缓冲区内,包含的各类POI的数量,生成地铁站POI统计表。
5.根据权利要求1所述的方法,其特征在于,所述基于聚类分析,根据所述数据集,量化地铁站的服务规模,进一步包括:
根据各地铁站周边POI的数量及类型,以及地铁日均进出站客流,将地铁站进行聚类。
首先设定类别数,从数据对象任意选择与类别数相同的对象作为初始聚类中心;
对于其它对象,则根据它们与这些聚类中心的相似度,分别将它们分配给与其最相似的聚类中心所代表的聚类;
然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);
不断重复这一过程直到标准测度函数开始收敛为止。迭代完成后,聚类应满足:各聚类本身尽可能紧凑,而各聚类之间尽可能分开。
6.根据权利要求5所述的方法,其特征在于,所述迭代方法完成后,进一步包括:
将聚类的指标作为分组变量,对各地铁站进行判别分析,评价分类的效果。
就一定数量的个体的一个分类变量和相应的其它多元变量的已知信息,确定分类变量与其它多元变量之间的数量关系,建立判别函数,利用这一数量关系对其他已知多元变量的信息、但未知分组的子类型的个体进行判别分组,检验聚类结果。
7.根据权利要求1所述的方法,其特征在于,基于回归分析,寻找地铁站周边的POI种类及数量对客流的影响关系,进一步包括:
对各变量间的相关性进行检验,重点关注进出站客流与POI变量之间的相关关系。分别将进站客流和出站客流作为因变量,POI类型作为自变量,建立地铁站客流的线性多元回归方程,判断POI种类及数量对于地铁站客流的影响。
8.一种基于POI数据与客流数据的地铁站聚类与回归分析***,其特征在于,包括:
POI数据获取模块,用于采集地铁站周边不同功能的POI数量;
地铁站客流量获取模块,用于根据原始地铁AFC交易记录,获取有效的地铁站日均进出站客流量信息;
聚类分析模块,用于根据所述数据集,将地铁站划分为不同类别,相同类别下地铁站特性相似,不同类别间地铁站差异显著;
回归分析模块,用于探究地铁站周边的POI种类及数量对客流的影响关系;
其中,所述数据集,包括地铁站日均进出站客流,以及周边不同功能的POI数量,包括但不限于休闲娱乐、医疗服务、住宅小区、商业大厦、科研教育、公交车站、风景名胜区和停车场中的一种或多种。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。
CN201810830576.9A 2018-07-26 2018-07-26 一种基于poi数据和客流数据的地铁站聚类与回归分析方法及*** Pending CN109034474A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810830576.9A CN109034474A (zh) 2018-07-26 2018-07-26 一种基于poi数据和客流数据的地铁站聚类与回归分析方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810830576.9A CN109034474A (zh) 2018-07-26 2018-07-26 一种基于poi数据和客流数据的地铁站聚类与回归分析方法及***

Publications (1)

Publication Number Publication Date
CN109034474A true CN109034474A (zh) 2018-12-18

Family

ID=64646199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810830576.9A Pending CN109034474A (zh) 2018-07-26 2018-07-26 一种基于poi数据和客流数据的地铁站聚类与回归分析方法及***

Country Status (1)

Country Link
CN (1) CN109034474A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472999A (zh) * 2019-07-17 2019-11-19 深圳市综合交通运行指挥中心 基于地铁和共享单车数据的客流模式分析方法及装置
CN110597945A (zh) * 2019-07-02 2019-12-20 中国科学院深圳先进技术研究院 城市地铁站域的认知场所特征识别方法及***
CN110738244A (zh) * 2019-09-29 2020-01-31 中国科学院深圳先进技术研究院 一种基于刷卡数据的地铁站点功能及其演化识别方法、***及电子设备
CN110895551A (zh) * 2019-10-15 2020-03-20 中国科学院深圳先进技术研究院 地铁站服务范围确定方法及***
CN110912749A (zh) * 2019-11-29 2020-03-24 北京工业大学 一种针对dns数据预测的方法
CN111581325A (zh) * 2020-07-13 2020-08-25 重庆大学 一种基于时空影响距离的K-means站点区域划分方法
CN111860182A (zh) * 2020-06-23 2020-10-30 北京航空航天大学 一种基于遥感影像的地铁客流来源智能分析方法
CN112084286A (zh) * 2020-09-14 2020-12-15 智慧足迹数据科技有限公司 空间数据处理方法、装置、计算机设备及存储介质
CN115086879A (zh) * 2022-08-22 2022-09-20 广州市城市规划勘测设计研究院 轨道交通站客流特征及接驳方式的识别方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914744A (zh) * 2014-04-23 2014-07-09 北京市市政工程设计研究总院有限公司 一种地铁站地下商业客流预测方法及装置
CN107103392A (zh) * 2017-05-24 2017-08-29 北京航空航天大学 一种基于时空地理加权回归的公交客流影响因素识别与预测方法
CN107656987A (zh) * 2017-09-13 2018-02-02 大连理工大学 一种基于lda模型的地铁站点功能挖掘方法
CN107704524A (zh) * 2017-09-13 2018-02-16 大连理工大学 一种基于doc2vec的地铁站点功能挖掘方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914744A (zh) * 2014-04-23 2014-07-09 北京市市政工程设计研究总院有限公司 一种地铁站地下商业客流预测方法及装置
CN107103392A (zh) * 2017-05-24 2017-08-29 北京航空航天大学 一种基于时空地理加权回归的公交客流影响因素识别与预测方法
CN107656987A (zh) * 2017-09-13 2018-02-02 大连理工大学 一种基于lda模型的地铁站点功能挖掘方法
CN107704524A (zh) * 2017-09-13 2018-02-16 大连理工大学 一种基于doc2vec的地铁站点功能挖掘方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597945B (zh) * 2019-07-02 2022-05-27 中国科学院深圳先进技术研究院 城市地铁站域的认知场所特征识别方法及***
CN110597945A (zh) * 2019-07-02 2019-12-20 中国科学院深圳先进技术研究院 城市地铁站域的认知场所特征识别方法及***
CN110472999A (zh) * 2019-07-17 2019-11-19 深圳市综合交通运行指挥中心 基于地铁和共享单车数据的客流模式分析方法及装置
CN110472999B (zh) * 2019-07-17 2024-01-23 深圳市综合交通运行指挥中心 基于地铁和共享单车数据的客流模式分析方法及装置
CN110738244A (zh) * 2019-09-29 2020-01-31 中国科学院深圳先进技术研究院 一种基于刷卡数据的地铁站点功能及其演化识别方法、***及电子设备
CN110738244B (zh) * 2019-09-29 2022-06-21 中国科学院深圳先进技术研究院 一种基于刷卡数据的地铁站点功能及其演化识别方法、***及电子设备
CN110895551A (zh) * 2019-10-15 2020-03-20 中国科学院深圳先进技术研究院 地铁站服务范围确定方法及***
CN110895551B (zh) * 2019-10-15 2022-08-19 中国科学院深圳先进技术研究院 地铁站服务范围确定方法及***
CN110912749A (zh) * 2019-11-29 2020-03-24 北京工业大学 一种针对dns数据预测的方法
CN111860182A (zh) * 2020-06-23 2020-10-30 北京航空航天大学 一种基于遥感影像的地铁客流来源智能分析方法
CN111860182B (zh) * 2020-06-23 2023-09-29 北京航空航天大学 一种基于遥感影像的地铁客流来源智能分析方法
CN111581325A (zh) * 2020-07-13 2020-08-25 重庆大学 一种基于时空影响距离的K-means站点区域划分方法
CN112084286A (zh) * 2020-09-14 2020-12-15 智慧足迹数据科技有限公司 空间数据处理方法、装置、计算机设备及存储介质
CN112084286B (zh) * 2020-09-14 2021-06-29 智慧足迹数据科技有限公司 空间数据处理方法、装置、计算机设备及存储介质
CN115086879A (zh) * 2022-08-22 2022-09-20 广州市城市规划勘测设计研究院 轨道交通站客流特征及接驳方式的识别方法、装置及设备

Similar Documents

Publication Publication Date Title
CN109034474A (zh) 一种基于poi数据和客流数据的地铁站聚类与回归分析方法及***
CN110533038B (zh) 一种基于信息数据的城市活力区和中心城区边界识别的方法
Thurstain‐Goodwin et al. Defining and delineating the central areas of towns for statistical monitoring using continuous surface representations
CN108717676B (zh) 基于多数据融合的不同尺度下的职住空间评价方法及***
Shang et al. Estimating building-scale population using multi-source spatial data
CN107729938B (zh) 一种基于公交接驳辐射区特征的轨道站点分类方法
CN102332210A (zh) 基于手机定位数据的实时城市道路交通流数据提取方法
US12033043B2 (en) Identification method of urban functional areas based on mixing degree of functions and integrated learning
Faroqi et al. A model for measuring activity similarity between public transit passengers using smart card data
CN109903553A (zh) 多源数据挖掘的公交车上下车站点识别和检验方法
CN109101559A (zh) 一种基于poi和公交刷卡数据的城市功能区识别方法
CN110263109A (zh) 一种融合互联网信息及gis技术的家庭户数估算方法
Yang et al. How to improve urban transportation planning in big data era? A practice in the study of traffic analysis zone delineation
CN110413855A (zh) 一种基于出租车下客点的区域出入口动态提取方法
Chen et al. An analysis of movement patterns between zones using taxi GPS data
CN112381644A (zh) 一种基于空间变量推理的信贷场景风险用户评估方法
Patlins et al. The new approach for passenger counting in public transport system
CN113672788B (zh) 一种基于多源数据和权重系数法的城市建筑功能分类方法
Borst et al. Using geographically weighted regression to detect housing submarkets: Modeling large-scale spatial variations in value
CN114154880A (zh) 一种评价街道单元层面公共服务设施步行可达性的方法
Zhou et al. Big data for intrametropolitan human movement studies A case study of bus commuters based on smart card data
CN116957280A (zh) 基于供需平衡的山地村镇社区生活圈公服设施配置方法
Chun et al. Classification of the metropolitan subway stations and spheres of influence of main commercial areas in Seoul
CN110610446A (zh) 一种基于两步聚类思路的县域城镇分类方法
Jang et al. Factors Affecting on Inconsistency between Subjective Residential Satisfaction and Objective Residential Environment: Focused on Apartment Residents in Their 20s–40s in Seoul

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181218

WD01 Invention patent application deemed withdrawn after publication