CN113312469A - 一种基于lda主题模型的居民出行规律分析方法 - Google Patents

一种基于lda主题模型的居民出行规律分析方法 Download PDF

Info

Publication number
CN113312469A
CN113312469A CN202110472321.1A CN202110472321A CN113312469A CN 113312469 A CN113312469 A CN 113312469A CN 202110472321 A CN202110472321 A CN 202110472321A CN 113312469 A CN113312469 A CN 113312469A
Authority
CN
China
Prior art keywords
poi
travel
data
resident
traffic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110472321.1A
Other languages
English (en)
Other versions
CN113312469B (zh
Inventor
王炜
于维杰
金坤
秦韶阳
陈思远
陈宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110472321.1A priority Critical patent/CN113312469B/zh
Publication of CN113312469A publication Critical patent/CN113312469A/zh
Application granted granted Critical
Publication of CN113312469B publication Critical patent/CN113312469B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于LDA主题模型的居民出行规律分析方法,首先对居民历史出行数据和城市POI数据进行采集;然后提取到达位置,通过聚类实现交通小区划分;将POI数据匹配到每一个交通小区,计算不同POI类型所占比例,以此为依据识别每一个交通小区的土地利用类型;结合土地利用类型、居民出行时间和居民到达时间,提取每一条居民历史出行数据中的关键信息,并将关键信息整理为字符串形式,最后,将关键信息输入主题模型以提取土地利用类型对应的居民出行模式,并基于居民出行模式分析居民出行规律。本发明基于居民历史出行数据、城市POI数据,利用LDA主题模型提取居民出行模式,并分析居民出行规律,能够为交通规划与管理提供参考信息,具有较高的应用价值。

Description

一种基于LDA主题模型的居民出行规律分析方法
技术领域
本发明属于城市交通出行数据处理与分析技术领域,尤其涉及一种基于LDA主题模型的居民出行规律分析方法。
背景技术
近年来,多元、异质的交通大数据逐渐在交通领域得到应用。首先,由于GPS定位技术的不断发展,出租车、公交车以及共享单车普遍安装了GPS记录仪,能够实时定位车辆的位置,由此记录居民的历史出行数据,为城市居民出行规律分析奠定基础。其次,随着智能手机的普及,电子地图开始被广泛使用。通过使用电子地图接口可以下载城市内部的兴趣点。兴趣点通过对与生活密切相关的地理实体,如学校、银行、医院、超市等,以及地理实体的位置进行描述,可以直接反映城市人口密度、发展程度与开发强度等信息,为快速识别城市内部土地利用类型提供支撑。
现阶段,虽然已有较多研究关注于提取居民出行模式并分析居民出行规律,但仍存在各种局限。首先,现有研究多采用交通调查和问卷调查等传统方法获取居民出行数据。传统方法需要消耗大量的人力、物力、财力,很难进行长时间以及大规模的数据采集。数据采集的数量和质量很大程度上取决于抽样方法的合理性及受调查人群的配合程度。其次,现有研究多以城市街道及邮政分区为依据划分交通小区。由于城市街道及邮政分区的主要作用是帮助政府部门进行统一管理,但并未考虑到交通需求分布等交通因素。因此,根据城市街道及邮政分区划分的交通小区无法充分提取居民的出行模式并分析居民出行规律。
发明内容
本发明的目的在于提供一种基于LDA主题模型的居民出行规律分析方法,基于居民历史出行数据、城市POI数据,利用LDA主题模型提取居民出行模式,并分析居民出行规律。为实现上述目的,本发明采用如下技术方案:
一种基于LDA主题模型的居民出行规律分析方法,包括以下步骤:
(1)基础数据采集:包括采集居民历史出行数据与城市POI数据两个步骤,具体过程如下:
(11)居民历史出行数据采集:采集出行日期、到达时间和到达位置;
(12)城市POI数据采集:采集每个POI数据的POI类型、POI类型编号和POI位置;
(2)交通小区划分:包括到达位置聚类与交通小区绘制两个步骤,具体过程如下:
(21)到达位置聚类:提取步骤(11)中居民历史出行数据中的到达位置,通过聚类得到不同的到达位置集群;即采用聚类方法对二维数据进行聚类;
(22)交通小区绘制:针对步骤(21)中每一个到达位置集群,将最***的到达位置依次连接,形成交通小区边界,由交通小区边界围成的闭合区域为交通小区;
(3)土地利用类型识别:包括POI数据匹配、POI类型统计、交通小区的土地利用类型识别三个步骤,具体过程如下:
(31)POI数据匹配:根据步骤(1)采集的POI位置与步骤(22)得到的交通小区边界进行对比匹配,以将POI数据划分到每一个交通小区;
(32)POI类型统计:针对每一个交通小区,计算内部每一种POI类型的比例;根据POI类型编号,将各种POI类型的比例依次排列,得到每一个交通小区的POI比例数组;
(33)交通小区的土地利用类型识别:整合所有交通小区的POI比例数组,通过聚类划分不同的POI比例数组集群,即采用聚类方法对三维数据进行聚类;每个POI比例数组集群包含若干POI比例数组;每一个POI比例数组集群代表一种土地利用类型,根据POI比例数组所在POI比例数组集群确定各交通小区的土地利用类型;
(4)出行数据整理:包括关键信息提取与数据格式转化两个步骤,具体过程如下:
(41)关键信息提取:根据步骤(1)采集的居民历史出行数据,结合步骤(2)划分的交通小区以及步骤(33)识别的各交通小区的土地利用类型,针对每一条居民出行数据,提取居民出行日期、到达时间以及到达位置所在交通小区的土地利用类型,以形成每一条居民出行数据对应的关键信息;
(42)数据格式转化:将步骤(41)得到的每一条关键信息整理为相同长度的字符串形式;
(5)LDA主题模型参数设置:选择主题数目并确定模型参数α和β;
(6)居民出行规律分析:将步骤(42)中获取的关键信息输入到步骤(5)中的LDA主题模型中,以输出居民出行模式。
优选地,步骤(42)中,每一条居民出行数据均可为一条长度为7的字符串,包括依次排列的居民出行日期、到达时间、到达位置所在交通小区的土地利用类型;其中,居民出行日期以周为单位进行表示;到达时间表示为24小时制,仅保留到达小时;土地利用类型表示为P*,其中*代表土地利用类型标号。
优选地,步骤(1)采集的居民历史出行数据和POI数据中,到达位置和POI位置均采用经度和纬度进行表示。
优选地,步骤(12)采集的POI类型包括餐饮服务、购物服务、科教文化、公司企业、交通设施、公园景区、医疗保健及商务住宅八个类别。
优选地,步骤(12)采集的POI类型编号包括1~8,与POI类型对应设置。
优选地,步骤(33)中,首先将POI比例数组集群数量预划分为1~10,之后基于K-means聚类算法,获取每一种POI比例数组集群预划分数量对应的轮廓系数,最后选择最大轮廓系数对应的POI比例数组集群数量。
优选地,在步骤(5)中,将主题数目K设为40,将模型参数α和β分别设为0.40和0.10。
优选地,在步骤(6)中,还包括基于居民出行模式分析分析居民出行规律。
与现有技术相比,本发明的优点为:
(1)首先对居民历史出行数据和城市POI数据进行采集;然后提取到达位置,通过聚类实现交通小区划分;将POI数据匹配到每一个交通小区,计算不同POI类型所占比例,以此为依据识别每一个交通小区的土地利用类型;结合土地利用类型、居民出行时间和居民到达时间,提取居民历史出行数据并统一整理为固定长度的字符串形式;在此基础上,将居民历史出行数据输入主题模型,可以提取土地利用类型对应的居民出行模式,并基于居民出行模式分析居民出行规律。
(2)本发明采用城市POI数据,计算各种POI类型的比例,对城市土地利用进行量化分析,实现交通小区土地利用类型的客观分类;利用LDA主题模型提取居民出行模式并分析居民出行规律,能够掌握居民到达不同土地利用类型的时间,为定点交通管理与控制、合理分配交通资源提供信息参考。
附图说明
图1为本发明一实施例的基于LDA主题模型的居民出行规律分析方法的流程图;
图2为本发明一实施例的研究区域示意图;
图3~图8为本发明一实例中P1、P2、P3、P4、P5、P6土地利用类型对应的居民出行模式提取结果图。
具体实施方式
下面将结合示意图对本发明进行更详细的描述,其中表示了本发明的优选实施例,应该理解本领域技术人员可以修改在此描述的本发明,而仍然实现本发明的有利效果。因此,下列描述应当被理解为对于本领域技术人员的广泛知道,而并不作为对本发明的限制。
本发明的一种基于LDA主题模型的居民出行规律分析方法,包括以下步骤:
(1)基础数据采集:包括采集居民历史出行数据与城市POI数据两个步骤,具体过程如下:
(11)居民历史出行数据采集:采集出行日期、到达时间和到达位置;
(12)城市POI数据采集:采集每个POI数据的POI类型、POI类型编号和POI位置;
(2)交通小区划分:包括到达位置聚类与交通小区绘制两个步骤,具体过程如下:
(21)到达位置聚类:提取步骤(11)中居民历史出行数据中的到达位置,通过聚类得到不同的到达位置集群;即采用聚类方法对二维数据进行聚类;
(22)交通小区绘制:针对步骤(21)中每一个到达位置集群,将最***的到达位置依次连接,形成交通小区边界,由交通小区边界围成的闭合区域为交通小区;
(3)土地利用类型识别:包括POI数据匹配、POI类型统计、交通小区的土地利用类型识别三个步骤,具体过程如下:
(31)POI数据匹配:根据步骤(1)采集的POI位置与步骤(22)得到的交通小区边界进行对比匹配,以将POI数据划分到每一个交通小区;
(32)POI类型统计:针对每一个交通小区,计算内部每一种POI类型的比例;根据POI类型编号,将各种POI类型的比例依次排列,得到每一个交通小区的POI比例数组;
(33)交通小区的土地利用类型识别:整合所有交通小区的POI比例数组,通过聚类划分不同的POI比例数组集群,即采用聚类方法对三维数据进行聚类;每个POI比例数组集群包含若干POI比例数组;每一个POI比例数组集群代表一种土地利用类型,根据POI比例数组所在POI比例数组集群确定各交通小区的土地利用类型;
(4)出行数据整理:包括关键信息提取与数据格式转化两个步骤,具体过程如下:
(41)关键信息提取:根据步骤(1)采集的居民历史出行数据,结合步骤(2)划分的交通小区以及步骤(33)识别的各交通小区的土地利用类型,针对每一条居民出行数据,提取居民出行日期、到达时间以及到达位置所在交通小区的土地利用类型,以形成每一条居民出行数据对应的关键信息;
(42)数据格式转化:将步骤(41)得到的每一条关键信息整理为相同长度的字符串形式;
(5)LDA主题模型参数设置:选择主题数目并确定模型参数α和β;
(6)居民出行规律分析:将步骤(42)中获取的关键信息输入到步骤(5)中的LDA主题模型中,以输出居民出行模式。
优选地,步骤(42)中,每一条居民出行数据均可为一条长度为7的字符串,包括依次排列的居民出行日期、到达时间、到达位置所在交通小区的土地利用类型;其中,居民出行日期以周为单位进行表示;到达时间表示为24小时制,仅保留到达小时;土地利用类型表示为P*,其中*代表土地利用类型标号。
优选地,步骤(1)采集的居民历史出行数据和POI数据中,到达位置和POI位置均采用经度和纬度进行表示。
优选地,步骤(12)采集的POI类型包括餐饮服务、购物服务、科教文化、公司企业、交通设施、公园景区、医疗保健及商务住宅八个类别。
优选地,步骤(12)采集的POI类型编号包括1~8,与POI类型对应设置。
优选地,步骤(33)中,首先将POI比例数组集群数量预划分为1~10,之后基于K-means聚类算法,获取每一种POI比例数组集群预划分数量对应的轮廓系数,最后选择最大轮廓系数对应的POI比例数组集群数量。
优选地,在步骤(5)中,将主题数目K设为40,将模型参数α和β分别设为0.40和0.10。
优选地,在步骤(6)中,还包括基于居民出行模式分析分析居民出行规律。
本实例采用2016年8月1日至2016年8月31日上海市居民出行数据和上海市POI数据,按照技术方案中的数据处理步骤,提取上海市居民出行模式并分析居民出行规律。方法流程图见图1,包括以下6个步骤:
(1)基础数据采集
本实例以上海市区为主要研究范围,包括徐汇区、长宁区、普陀区、静安区、杨浦区、虹口区、黄浦区和徐汇区,如图2所示。采集研究区域内的居民历史出行数据和城市POI数据。
居民历史出行数据包括出行日期、到达时间和到达位置三个字段,
城市POI数据包括POI类型、POI类型编号和POI位置三个字段。
其中,POI类型(兴趣点类型)分为八种:餐饮服务、购物服务、科教文化、公司企业、交通设施、公园景区、医疗保健、商务住宅,对应的POI类型编号分别为1-8。即餐饮服务对应编号1,购物服务对应编号2、科教文化对应编号3、公司企业对应编号4、交通设施对应编号5、公园景区对应编号6、医疗保健对应编号7、商务住宅对应编号8。
居民历史出行数据表如表1所示;城市POI数据表如表2所示。
到达位置及POI位置均采用(A,B)的数据形式进行存储,A代表经度,B代表纬度。
表1上海市居民出行数据表
出行日期 到达时间 到达位置
2016.08.01 7:55:43 (121.357,31.388)
2016.08.01 12:14:37 (121.447,31.318)
2016.08.01 21:22:31 (121.473,31.273)
2016.08.31 15:18:06 (121.484,31.263)
表2上海市POI数据表
POI类型 POI位置 POI类型 POI位置
餐饮服务 (121.444,31.314) 购物服务 (121.541,31.318)
科教文化 (121.593,31.282) 交通设施 (121.526,31.252)
公园景区 (121.374,31.185) 医疗保健 (121.365,31.227)
商务住宅 (121.479,31.311) 公司企业 (121.488,31.338)
(2)交通小区划分
提取居民历史出行数据中的到达位置,采用DBSCAN聚类算法将到达位置聚类为3325个到达位置集群;针对每一个到达位置集群,将最***的到达位置依次连接,形成交通小区边界。最终,得到3325个交通小区。
(3)土地利用类型识别
根据POI位置和交通小区边界,将POI位置和交通小区边界进行对比,看POI位置是在交通小区边界外,还是交通小区边界内,以将位于交通小区边界内的POI数据划分到每一个交通小区;针对每一个交通小区,计算内部每一种POI类型的比例;根据POI类型编号,将各种POI类型的比例依次排列,得到每一个交通小区的POI比例数组,如表3所示。
表3各交通小区的POI比例数组
Figure BDA0003045953990000091
整合所有交通小区的POI比例数组,采用K-means聚类算法,预设POI比例数组集群数量为1~10,之后基于K-means聚类算法,获取每一种POI比例数组集群预划分数量对应的轮廓系数,最后选择最大轮廓系数对应的POI比例数组集群数量。即根据每一种POI比例数组集群划分结果,计算各自的轮廓系数,如表4所示。当POI比例数组集群数量为6时,轮廓系数最大,因此将所有交通小区的POI比例数组划分为6个POI比例数组集群,即6种土地利用类型。由本领域技术人员可以知晓的是,K-means聚类算法为现有技术,因此,POI比例数组集群的求解过程也为现有技术。
表4各POI比例数组集群数量的轮廓系数计算结果表
POI比例数组集群数量 轮廓系数 POI比例数组集群数量 轮廓系数
1 0.53 6 0.83
2 0.57 7 0.79
3 0.62 8 0.73
4 0.69 9 0.70
5 0.78 10 0.63
最后通过提取每个集群的聚类中心,对各种土地利用类型进行分析,如表5所示。
表5各土地利用类型聚类中心数据表
P1 0.72 0.04 0.01 0.03 0.14 0.01 0.03 0.02
P2 0.07 0.02 0.01 0.73 0.12 0.01 0.02 0.02
P3 0.02 0.92 0.02 0.02 0.00 0.00 0.01 0.01
P4 0.11 0.04 0.02 0.05 0.13 0.01 0.60 0.04
P5 0.18 0.22 0.08 0.09 0.26 0.06 0.06 0.05
P6 0.07 0.02 0.04 0.05 0.14 0.01 0.01 0.66
根据表5可看出,P1的土地利用类型以餐饮服务为主,P2的土地利用类型以公司企业为主,P3的土地利用类型以购物服务为主,P4的土地利用类型以医疗保健为主,P5的土地利用类型相对综合,交通设施、餐饮服务以及购物服务占比均较大,P6的土地利用类型以商务住宅为主。
(4)出行数据整理
针对每一条居民出行数据,提取居民出行日期、到达时间以及到达位置所在交通小区的土地利用类型,以形成每一条居民出行数据对应的关键信息;在此基础上,将每一条关键信息表示为长度为7的字符串形式,如表6所示。其中,关键信息包括依次排列的居民出行日期、到达时间、到达位置所在交通小区的土地利用类型;其中,居民出行日期以周为单位进行表示,采用Mon,Tue,Wed,Thu,Fri,Sa,Sun分别代表周一、周二、周三、周四、周五、周六、周日;到达时间表示为24小时制,仅保留到达小时;土地利用类型表示为P*,其中*代表土地利用类型标号。例如周三9点45分钟到达土地利用类型为P1的交通小区的居民出行数据,可以表示为“Wed09P1”。
表6居民出行模式整理数据表
编号 出行模式 编号 出行模式
1 Wed09P1 2 Mon13P4
3 Thu18P5 4 Sun07P3
5 Fri20P2 6 Tue23P6
(5)LDA主题模型参数设置
本实例中选取LDA主题模型进行数据处理。选取主题数K=40,模型参数alpha=0.40,beta=0.1。由本领域技术人员可以知晓的是,LDA主题模型为现有技术。
(6)居民出行规律分析
将步骤(4)整理后的居民出行数据输入主题模型,分别提取出P1、P2、P3、P4、P5、P6土地利用类型对应的典型居民出行模式如图3至图8所示。即图3为P1土地利用类型对应的典型居民出行模式,图4为P2土地利用类型对应的典型居民出行模式;图5为P3土地利用类型对应的典型居民出行模式;图6为P4土地利用类型对应的典型居民出行模式;图7为P5土地利用类型对应的典型居民出行模式;图8为P6土地利用类型对应的典型居民出行模式。
根据图3~8所示结果,居民出行时间主要集中在三个时间段:7:00-8:00,12:00-14:00以及17:00-21:00。对于P4、P5、P6土地利用类型而言,居民在工作日(周一至周五)的出行时间比较分散,而在双休日(周六、周日)的出行时间比较集中;对于P1和P2土地利用类型而言,无论是工作日还是双休日,居民出行时间均比较集中。居民在双休日上午的出行时间主要集中在8:00-9:00,14:00-15:00以及20:00-21:00,与工作日相比均有所延后。
在现有研究中,众多统计模型及算法被应用于提取居民出行模式并分析居民出行规律。其中,主题模型因模型简单而有效,受到了众多学者的青睐。Latent DirichletAllocation(LDA)是最具代表性的主题模型,包含词、主题和文档三层结构,文档到主题、主题到词均服从多项式分布。LDA主题模型属于无监督机器学习方法,在主题聚合、从非结构化文本中提取信息、特征选择等场景有广泛的用途。
上述仅为本发明的优选实施例而已,并不对本发明起到任何限制作用。任何所属技术领域的技术人员,在不脱离本发明的技术方案的范围内,对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动,均属未脱离本发明的技术方案的内容,仍属于本发明的保护范围之内。

Claims (8)

1.一种基于LDA主题模型的居民出行规律分析方法,其特征在于,包括以下步骤:
(1)基础数据采集:包括采集居民历史出行数据与城市POI数据两个步骤,具体过程如下:
(11)居民历史出行数据采集:采集出行日期、到达时间和到达位置;
(12)城市POI数据采集:采集每个POI数据的POI类型、POI类型编号和POI位置;
(2)交通小区划分:包括到达位置聚类与交通小区绘制两个步骤,具体过程如下:
(21)到达位置聚类:提取步骤(11)中居民历史出行数据中的到达位置,通过聚类得到不同的到达位置集群;
(22)交通小区绘制:针对步骤(21)中每一个到达位置集群,将最***的到达位置依次连接,形成交通小区边界,由交通小区边界围成的闭合区域为交通小区;
(3)土地利用类型识别:包括POI数据匹配、POI类型统计、交通小区的土地利用类型识别三个步骤,具体过程如下:
(31)POI数据匹配:根据步骤(1)采集的POI位置与步骤(22)得到的交通小区边界进行对比匹配,以将POI数据划分到每一个交通小区;
(32)POI类型统计:针对每一个交通小区,计算内部每一种POI类型的比例;根据POI类型编号,将各种POI类型的比例依次排列,得到每一个交通小区的POI比例数组;
(33)交通小区的土地利用类型识别:整合所有交通小区的POI比例数组,通过聚类划分不同的POI比例数组集群;每个POI比例数组集群包含若干POI比例数组;每一个POI比例数组集群代表一种土地利用类型,根据POI比例数组所在POI比例数组集群确定各交通小区的土地利用类型;
(4)出行数据整理:包括关键信息提取与数据格式转化两个步骤,具体过程如下:
(41)关键信息提取:根据步骤(1)采集的居民历史出行数据,结合步骤(2)划分的交通小区以及步骤(33)识别的各交通小区的土地利用类型,针对每一条居民出行数据,提取居民出行日期、到达时间以及到达位置所在交通小区的土地利用类型,以形成每一条居民出行数据对应的关键信息;
(42)数据格式转化:将步骤(41)得到的每一条关键信息整理为相同长度的字符串形式;
(5)LDA主题模型参数设置:选择主题数目
Figure 76901DEST_PATH_IMAGE002
并确定模型参数
Figure 666145DEST_PATH_IMAGE004
Figure 757467DEST_PATH_IMAGE006
(6)居民出行规律分析:将步骤(42)中获取的关键信息输入到步骤(5)中的LDA主题模型中,以输出居民出行模式。
2.根据权利要求1所述的基于LDA主题模型的居民出行规律分析方法,其特征在于,步骤(42)中,每一条居民出行数据均可为一条长度为7的字符串,包括依次排列的居民出行日期、到达时间、到达位置所在交通小区的土地利用类型;其中,居民出行日期以周为单位进行表示;到达时间表示为24小时制,仅保留到达小时;土地利用类型表示为P*,其中*代表土地利用类型标号。
3.根据权利要求1所述的基于LDA主题模型的居民出行规律分析方法,其特征在于,步骤(1)采集的居民历史出行数据和POI数据中,到达位置和POI位置均采用经度和纬度进行表示。
4.根据权利要求1所述的基于LDA主题模型的居民出行规律分析方法,其特征在于,步骤(12)采集的POI类型包括餐饮服务、购物服务、科教文化、公司企业、交通设施、公园景区、医疗保健及商务住宅八个类别。
5.根据权利要求4所述的基于LDA主题模型的居民出行规律分析方法,其特征在于,步骤(12)采集的POI类型编号包括1~8,与POI类型对应设置。
6.根据权利要求1所述的基于LDA主题模型的居民出行规律分析方法,其特征在于,步骤(33)中,首先将POI比例数组集群数量预划分为1~10,之后基于K-means聚类算法,获取每一种POI比例数组集群预划分数量对应的轮廓系数,最后选择最大轮廓系数对应的POI比例数组集群数量。
7.根据权利要求1所述的基于LDA主题模型的居民出行规律分析方法,其特征在于,在 步骤(5)中,将主题数目
Figure 355938DEST_PATH_IMAGE002
设为40,将模型参数
Figure 294944DEST_PATH_IMAGE004
Figure 304357DEST_PATH_IMAGE006
分别设为0.40和0.10。
8.根据权利要求1所述的基于LDA主题模型的居民出行规律分析方法,其特征在于,在步骤(6)中,还包括基于居民出行模式分析居民出行规律。
CN202110472321.1A 2021-04-29 2021-04-29 一种基于lda主题模型的居民出行规律分析方法 Active CN113312469B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110472321.1A CN113312469B (zh) 2021-04-29 2021-04-29 一种基于lda主题模型的居民出行规律分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110472321.1A CN113312469B (zh) 2021-04-29 2021-04-29 一种基于lda主题模型的居民出行规律分析方法

Publications (2)

Publication Number Publication Date
CN113312469A true CN113312469A (zh) 2021-08-27
CN113312469B CN113312469B (zh) 2022-11-04

Family

ID=77371618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110472321.1A Active CN113312469B (zh) 2021-04-29 2021-04-29 一种基于lda主题模型的居民出行规律分析方法

Country Status (1)

Country Link
CN (1) CN113312469B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106971534A (zh) * 2017-02-09 2017-07-21 江苏智通交通科技有限公司 基于号牌数据的通勤出行特征分析方法
CN108877227A (zh) * 2018-08-30 2018-11-23 中南大学 一种基于多源交通数据的全局动态出行需求估计方法
CN112288048A (zh) * 2020-12-28 2021-01-29 湖南师范大学 一种基于多源数据驱动的城市人群出行识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106971534A (zh) * 2017-02-09 2017-07-21 江苏智通交通科技有限公司 基于号牌数据的通勤出行特征分析方法
CN108877227A (zh) * 2018-08-30 2018-11-23 中南大学 一种基于多源交通数据的全局动态出行需求估计方法
CN112288048A (zh) * 2020-12-28 2021-01-29 湖南师范大学 一种基于多源数据驱动的城市人群出行识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
何兆成等: "考虑出行模式和周期性的公交出行特征分析", 《交通运输***工程与信息》 *
陈泽东等: "基于居民出行特征的北京城市功能区识别与空间交互研究", 《地球信息科学学报》 *

Also Published As

Publication number Publication date
CN113312469B (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
WO2020238631A1 (zh) 一种基于手机信令数据的人群类型识别方法
Yu et al. Integration of nighttime light remote sensing images and taxi GPS tracking data for population surface enhancement
Grauwin et al. Towards a comparative science of cities: Using mobile traffic records in New York, London, and Hong Kong
CN108446293A (zh) 一种基于城市多源异构数据构建城市画像的方法
CN108495254B (zh) 一种基于信令数据的交通小区人口特征估计方法
CN111813835A (zh) 一种基于手机信令和poi数据的公共活动中心识别***
Qian et al. Quantify city-level dynamic functions across China using social media and POIs data
Zhao et al. Mapping population distribution based on XGBoost using multisource data
CN111770447A (zh) 生成电子围栏的方法、装置及服务器
Song et al. Multidimensional visualization of transit smartcard data using space–time plots and data cubes
Lei et al. Spatial-temporal analysis of human dynamics on urban land use patterns using social media data by gender
CN111062446A (zh) 基于多源国土资源数据的土地类型分类方法
Cao et al. Monitoring changes in the impervious surfaces of urban functional zones using multisource remote sensing data: A case study of Tianjin, China
Cui et al. Recognition of urban functions and mixed use based on residents’ movement and topic generation model: The case of Wuhan, China
CN112738729A (zh) 一种用手机信令数据判别探亲返乡游客的方法及***
Xu et al. Accurate suitability evaluation of large-scale roof greening based on RS and GIS methods
Wu et al. Research themes of geographical information science during 1991–2020: a retrospective bibliometric analysis
CN113672788B (zh) 一种基于多源数据和权重系数法的城市建筑功能分类方法
Kong et al. The method and application of big data mining for mobile trajectory of taxi based on MapReduce
Chen et al. An analysis of movement patterns between zones using taxi GPS data
Ranjit et al. Agent-based modeling of taxi behavior simulation with probe vehicle data
Sun et al. Detecting and analyzing urban centers based on the localized contour tree method using taxi trajectory data: A case study of Shanghai
Li et al. Integrating shared e-scooters as the feeder to public transit: A comparative analysis of 124 European cities
CN112052405B (zh) 一种基于司机经验的寻客区域推荐方法
CN113312469B (zh) 一种基于lda主题模型的居民出行规律分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant