CN107529135A - 基于智能设备数据的用户活动类型判别方法 - Google Patents
基于智能设备数据的用户活动类型判别方法 Download PDFInfo
- Publication number
- CN107529135A CN107529135A CN201610443684.1A CN201610443684A CN107529135A CN 107529135 A CN107529135 A CN 107529135A CN 201610443684 A CN201610443684 A CN 201610443684A CN 107529135 A CN107529135 A CN 107529135A
- Authority
- CN
- China
- Prior art keywords
- user
- activity
- data
- mrow
- smart machine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/029—Location-based management or tracking services
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于智能设备数据的用户活动类型判别方法,包括以下步骤:获取用户智能设备数据;进行数据清洗获得用户的移动轨迹,通过行程识别获得用户的出行链;提取活动开始时间和活动持续时间,并根据停留区段的兴趣点获取所停留区段对应的用地性质;分析用户多天出行的智能设备数据,判断用户家和/或工作地的位置,以获得在家或在工作两种活动类型;除了在家和工作外的其他类型活动,通过将活动特征输入活动分类器中,以分别得到对应的活动类型。本发明不仅能够根据用户的智能设备数据分析出用户的活动类型,且分析过程中涉及到时候阈值或空间阈值均是由传统的用户出行调查数据进行标定,更具使用性,准确性和实时性。
Description
技术领域
本发明涉及用户智能设备数据分析,特别是涉及一种基于智能设备数据的用户活动类型判别方法。
背景技术
城市居民出行活动信息是城市规划、交通管理和居民活动研究的重要依据,一般通过居民出行调查获取。对于居民出行活动信息的获得,传统的调查方法一般包括家访法,电话问询法,明信片方法等。目前,国内主要使用基于入户访问和纸质问卷的调查方式。该方法的弊端十分明显,即受访者负担重、调查精度低、调查成本高、抽样率低等,已无法满足城市快速发展的需求。
智能设备数据由于其用户的覆盖面广、无需特殊的数据采集设备、数据获取成本较低、数据量大等优点,已经成为目前进行交通大数据研究中不可或缺的数据来源。基于智能设备数据进行用户活动信息提取,可以大幅提高调查的样本量、缩短调查周期、降低调查成本,同时利用智能设备信令数据进行信息获取,是被动式的信息获取方式,不需要对居民进行问卷填写,不增加居民任何负担,从而为交通行业提供更为丰富的基础信息。
目前,从智能设备数据虽然可以得到带时间戳的位置信息从而得到用户一天的移动轨迹,但无法得到用户的社会经济属性信息,也无法直接得到出行方式、活动类型等出行活动属性信息。
目前对活动类型判别方法多集中于停驻点识别和职住地识别阶段,仅能识别在“家”和“工作”两类活动类型。具体根据智能设备定位数据的经度和纬度将智能设备定位数据匹配到相应的交通小区内,基于匹配后智能设备定位数据表,提取某用户连续一周的数据,分别统计介于居住地判断时段以及工作地判断时段内在各交通小区出现的次数,并把出现次数最多的交通小区作为该用户的居住地以及工作地。这种只统计停留次数的方法没有考虑停留时长的因素,容易将多次短时停留的地点误判为家或工作地。对于除了“家”和“工作”的其他活动类型的判断方法,目前研究较少且可实时性较差。
发明内容
基于此,有必要针对用户出行活动类型判别中除了“家”和“工作”的其他活动类型的判断方法,目前研究较少且可实时性较差的问题,提供一种实时性较强的基于智能设备数据的用户活动类型判别方法。
一种基于智能设备数据的用户活动类型判别方法,包括以下步骤:
获取用户智能设备数据;
对所述智能设备数据进行数据清洗获得用户的移动轨迹,通过行程识别划分用户停留区段和出行区段,获得用户的出行链;
提取所述出行链中各所述停留区段的活动开始时间和活动持续时间,并根据所述停留区段的兴趣点获取所述停留区段对应的用地性质;
分析用户预设时间出行的智能设备数据,获得各用户对应的停留时段,停留时长,以及停留次数,以此判断用户家和/或工作地的位置,以获得在家或在工作两种活动类型;
通过将除在家或在工作两种活动类型外的停留区段所对应的活动开始时间、活动持续时间,以及用地性质输入活动分类器中,以分别得到各用户除了在家或在工作两种活动类型外预定义的活动类型。
在其中一个实施例中,所述方法还包括:构建所述活动分类器,包括:
基于传统的用户出行调查数据,提取所述调查数据各用户的停留区段的活动开始时间,活动持续时间,以及停留区段对应的用地性质构建基于决策树的活动分类器。
在其中一个实施例中,所述数据清洗包括字段缺失处理,删除异常的IMSI编号记录,删去无法与所述基站定位数据相匹配的记录,删去重复数据,乒乓效应处理,以及信号漂移处理。
在其中一个实施例中,所述乒乓效应处理包括以下步骤:将每位用户的所述智能设备数据按空间和时间将区域合并,若用户信号在小于空间阈值L1的范围内波动,且超过时间阈值T1,则认为用户在这段时间内处于同一位置。
在其中一个实施例中,所述信号漂移处理包括以下步骤:将每位用户的所述智能设备数据按空间和时间将区域合并,若用户在时间阈值T2内离开空间阈值L2,之后又返回到所述空间阈值L2内,则认为用户是处于同一个位置。
在其中一个实施例中,所述行程识别包括以下步骤:若用户在时间阈值Tstay内的轨迹点群聚于Lstay的半径范围内,或者在所述时间阈值Tstay内的移动速度低于速度阈值Vstay,则所对应的区段为停留区段,否则为出行区段。
在其中一个实施例中,还包括以下步骤:
将用户出行调查数据中的出行数据转化为活动链数据,筛选早上从家出发且晚上回家的用户数据;
提取所有类型活动的活动持续时间,建立活动持续时间分布,将活动持续时间分布的第p%分位数作为行程识别的时间阈值Tstay,p为5至10中任意一自然数。
在其中一个实施例中,所述根据所述停留区段的兴趣点获取所述停留区段对应的用地性质包括以下步骤:
通过时间加权的方式计算停留位置的中心坐标;
根据所述中心坐标对应的兴趣点的位置、数量建立核密度估计模型,其公式如下:
K(.)表示核函数;
r表示窗宽;
n表示兴趣点总数;
di,s表示所述中心坐标到各兴趣点s的距离;
选择高斯函数作为核函数:
计算所述停留位置处不同兴趣点类型的核密度值,取核密度值最高的兴趣点对应的用地性质作为停留位置的用地性质。
在其中一个实施例中,所述分析用户预设时间出行的智能设备数据,获得对应的停留时段,停留时长,以及停留次数,以此判断用户家和/或工作地的位置,以获得在家或在工作两种活动类型,包括以下步骤:
提取每个用户的所有所述活动开始时间,所述活动持续时间,以及用地性质;
筛选出每个用户工作日的数据,统计得总天数为N
对于每一类停留位置,统计夜间停留时间大于Thome的总天数Nhome;
若Nhome大于第一判断时间阈值,则该位置为家庭所在地。否则,统计在工作时段停留时间大于Twork的总天数Nwork;
若Nwork大于第二判断时间阈值,则该位置为工作地。
在其中一个实施例中,还包括以下步骤:还包括以下步骤:
将用户出行调查数据中的出行数据转化为活动链数据,筛选早上从家出发且晚上回家的用户智能设备数据;
提取夜间停留地点为家的活动,建立活动持续时间分布,将活动持续时间分布的第a%分位数家庭所在地识别的时间阈值Thome,a为5至10中任意一自然数;
提取工作时段停留地点为工作地的活动,建立活动持续时间分布,将活动持续时间分布的第b%分位数作为工作地识别的时间阈值Twork,b为5至10中任意一自然数。
本发明提供的基于智能设备数据的用户活动属性判别方法不仅能够从用户的智能设备数据分析得到用户的职住地,还能对除在家和在工作之外的活动类型做较准确的判断和统计,且其他类型活动的判定是基于传统的用户出行调查数据提取了相关活动特征,构建了基于决策树的活动分类器,对除在家和在工作之外的活动类型进行判断,并且行程识别的时间阈值Tstay,家庭所在地识别的时间阈值Thome,以及工作地识别的时间阈值Twork均是基于传统的用户出行调查数据分析提取出来的,起到标定的作用,更具使用性,准确性和实时性。
附图说明
图1为本发明一实施例提供的基于智能设备数据的用户活动类型判别方法的一流程图;
图2为本发明一实施例提供的基于智能设备数据的用户活动类型判别方法的另一流程图;
图3为本发明一实施例中用户职住地的判断流程图;
图4为本发明2009年上海传统的用户出行调查数据所有类型活动持续时间累计频率分布图;
图5为本发明2009年上海传统的用户出行调查数据所有夜间在家活动持续时间累计频率分布图;
图6为本发明2009年上海传统的用户出行调查数据所有工作活动持续时间累计频率分布图;
图7为本发明2009年上海传统的用户出行调查数据其他活动类型判别的规则示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为本发明提供的基于智能设备数据的用户活动类型判别方法流程图,首先整体讲解下本发明提供的基于智能设备数据的用户活动属性判别方法的运行流程。首先从智能设备网络运营商,智能设备APP,以及其他公开资源获得一个城市或者一个区域的所有用户的智能设备数据。然后对智能设备数据进行数据清洗,数据整理划分,之后提取活动特征以判断用户的活动类型是在家还是在工作,如若判断用户的活动类型不是在家也不是在工作,则将活动特征输入到活动分类器中,以判定其他具体的活动类型。对智能设备数据进行数据清洗,数据整理划分过程中应用到的出行/停留划分时间阈值,在职住地判断过程中应用到的在家活动持续时间阈值和工作地活动持续时间阈值均由2009年上海传统的用户出行调查数据分析获得;另外,活动分类器也是基于2009年上海传统的用户出行调查数据进行构建,这些下文会详细介绍。具体智能设备可为手机,Ipad、穿戴式设备等。
同时参见图2,一实施例中,本发明提供的基于智能设备数据的用户活动属性判别方法包括以下步骤:
S202,获取用户智能设备数据。
本发明中的智能设备数据,根据数据来源可以大致分为两类。一类是从智能设备网络运营商(***,***,中国电信)获得的智能设备话单数据和智能设备信令数据。数据的主要内容包括:经匿名处理的用户标识码,基站的小区编号,事件类型,事件发生的时刻。智能设备话单数据和智能设备信令数据的不同主要体现在事件类型上,智能设备话单数据主要包括主叫、被叫、硬切换、发短信、接短信等,而信令数据除了具有话单数据的事件外,还包括了开机、关机、小区切换、位置更新等。话单数据是信令数据的子集,信令数据是具有更高用户位置采样率的数据。通过基站的经纬度信息可以将用户在移动网络中的移动映射到实际的地理***中。另一类是从带轨迹记录功能的智能设备APP应用(如GeoLife,Bikely,SportsDo)中获得的用户移动轨迹数据,数据的主要内容包括采样时刻和经纬度等信息。以深圳市智能设备话单数据为例,数据字段通常包括用户标识码、小区标识,扇区标识,接入时刻等,具体如表1。
表1
S204,对智能设备数据进行数据清洗获得用户的移动轨迹,通过行程识别划分用户停留区段和出行区段,获得用户的出行链。
具体的,一实施例中,对智能设备数据进行数据清洗包括字段缺失处理,删除异常的IMSI(国际移动用户识别码)编号记录,删去无法与所述基站定位数据相匹配的记录,删去重复数据,乒乓效应处理,以及信号漂移处理。
字段缺失处理是指将智能设备数据中一些关键字段信息缺失的记录删除,比如某些基站编号为0,时间项缺失等;
删去异常的IMSI编号的记录。由于存储过程的一些异常,可能会导致一些IMSI编号的产生。
删去无法与基站数据相匹配的记录。本实施例的研究是在上海范围内,由于信号问题,一些记录可能会定位到相邻省份的基站中去,如果出现邻省的基站数据,则删除相关数据。
删去重复数据。实施中除了一些真正的重复数据外,还可能由于精度问题(比如时间项,精确到秒后一些本来不是同一时间的记录也得到的相同的精确到秒的结果)的导致的记录重复。
具体的,一实施例中的乒乓效应处理包括以下步骤:将每位用户的智能设备数据按空间和时间将区域合并,若用户信号在小于空间阈值L1的范围内波动,且超过时间阈值T1,则认为用户在这段时间内处于同一位置。更具体的,空间阈值L1为400-500米的直径范围,时间阈值T1为25-30分钟。
具体的,一实施例中的信号漂移处理包括以下步骤:将每位用户的智能设备数据按空间和时间将区域合并,若用户在时间阈值T2内离开空间阈值L2,之后又返回到所述空间阈值L2内,则认为用户是处于同一个位置。用户的智能设备数据记录短时间内离开上述小的空间范围L2,之后又很快返回的情况,也认为用户是处于同一个位置。更具体的是指信号离开上述区域和回到上述区域的位置切换速度大于100km/h(城市快速路设计速度上限)且离开上述区域的时间不超过Tclean。更具体的,空间阈值L2为400-500米的直径范围,时间阈值T2为25-30分钟。
具体的,一实施例中,对用户的移动轨迹进行行程识别包括以下步骤:若用户在时间阈值Tstay内的轨迹点群聚于Lstay的半径范围内,或者在时间阈值Tstay内的移动速度低于速度阈值Vstay,则所对应的区段为停留区段,否则为出行区段。具体的,参见图4,一实施例中,将2009年上海传统的用户出行调查数据转化为活动链数据,筛选早上从家出发且晚上回家的用户数据。然后提取所有类型活动的活动持续时间,建立活动持续时间分布,将活动持续时间分布的第p%分位数作为行程识别的时间阈值Tstay,p为5至10中任意一自然数。本实施例中,活动持续时间分布的第p%分位数指的是基于2009年上海传统的用户出行调查数据,将智能设备用户所有活动时间按照从小到大的顺序进行排序,一共有n个,n*p%=m,则排序中第m个排对应的活动持续时间即为第p%分位数的值,如果计算得m不为整数,例如为12.3,则取排序中第12个和第13个对应的时间值的平均值作为第p%分位数的值。本实施中取活动持续时间分布的第5%分位数,25分钟作为行程识别的时间阈值Tstay。在其他实施例中,Tstay可以取活动持续时间分布的第6%或7%或8%或9%或10%分位数对应的时间值均可,具体看实际应用情况而定。更具体的,速度阈值Vstay为1m/s,Lstay为200-500米,时间阈值Tstay为5-25分钟,具体Lstay和Tstay的数值点需要结合整个活动链和具体实际情况综合考虑。
S206,提取出行链中各停留区段的活动开始时间和活动持续时间,并根据停留区段的兴趣点获取停留区段对应的用地性质。具体一实施例中,获取停留区段对应的用地性质包括以下步骤:
通过时间加权的方式计算停留位置的中心坐标。具体包括以下步骤:
首先,依次计算同一智能设备用户候选停留位置中连续两静止点pi,pi+1的平均坐标
pi·x——静止点pi经度坐标;
pi·y——静止点pi纬度坐标;
接着,将两静止点间的时间间隔Δt(i,i+1)与整个候选停留位置的时长s.Δt的比值作为平均坐标的权重:
Δt(i,i+1)——两静止点pi,pi+1之间的时间间隔;
s.Δt——整个候选停留位置的停留时长;
最后,通过加权相加计算候选停留位置的中心坐标(s.x,s.y):
(s.x,s.y)即为候选停留位置s的中心坐标。
根据中心坐标对应的兴趣点的位置、数量建立核密度估计模型,其公式如下:
K(.)表示核函数;
r表示窗宽;
n表示兴趣点总数;
di,s表示中心坐标到各兴趣点s的距离;
选择高斯函数作为核函数:
计算停留位置处不同兴趣点类型的核密度值,取核密度值最高的兴趣点对应的用地性质作为停留位置的用地性质。
S208,分析用户预设时间出行的智能设备数据,获得各用户对应的停留时段,停留时长,以及停留次数,以此判断用户家和/或工作地的位置,以获得在家或在工作两种活动类型。具体的,本实施中的预设时间为多天,在其他实施例中预设时间还可以是一段时间、半个月、一个月、几个月或者一年,几年,具体视实际情况而定。
参见图3,一实施例中,具体的步骤如下:
提取每个用户的所有活动开始时间,活动持续时间,以及用地性质;筛选出每个用户工作日的数据,统计得总天数为N;
对于每一类停留位置,统计夜间停留时间大于Thome的总天数Nhome;
若Nhome大于第一判断时间阈值,则该位置为家庭所在地。否则,统计在工作时段停留时间大于Twork的总天数Nwork;
若Nwork大于第一判断时间阈值,则该位置为工作地;否则,该位置为其他活动目的地。具体的,夜间指的是20:00-次日7:00;工作时间段指的是9:00-17:00。本实施中第一判断时间阈值和第二时间阈值均为总天数N的60%,在其他实施例中根据实际情况其他百分比。
更具体的,本实施例中的家庭所在地识别的时间阈值Thomme是以2009年上海传统的用户出行调查数据为样本,将用户出行调查数据中的出行数据转化为活动链数据,筛选早上从家出发且晚上回家的用户智能设备数据;提取夜间20:00-次日7:00停留地点为家的活动,建立活动持续时间分布,将活动持续时间分布的a%分位数家庭所在地识别的时间阈值Thome,a为5至10中任意一自然数。本实施例中,活动持续时间分布的第a%分位数指的是基于2009年上海传统的用户出行调查数据,将智能设备用户所有活动时间按照从小到大的顺序进行排序,一共有n个,n*a%=m,则排序中第m个排对应的活动持续时间即为第a%分位数的值,如果计算得m不为整数,例如为12.3,则取排序中第12个和第13个对应的时间值的平均值作为第a%分位数的值。具体的,参见图5,取活动持续时间分布的第5%分位数为540分钟,作为家庭所在地识别的时间阈值Thome,也就是在家待的时间为9小时。在其他实施例中,Thome可以取活动持续时间分布的第6%或7%或8%或9%或10%分位数对应的时间值均可,具体看实际应用情况而定。
工作地识别的时间阈值Twork以2009年上海传统的用户出行调查数据为样本,将用户出行调查数据中的出行数据转化为活动链数据,筛选早上从家出发且晚上回家的用户智能设备数据;提取工作时段9:00-17:00停留地点为工作地的活动,建立活动持续时间分布,将活动持续时间分布的b%分位数作为工作地识别的时间阈值Twork,b为5至10中任意一自然数。本实施例中,活动持续时间分布的第b%分位数指的是基于2009年上海传统的用户出行调查数据,将智能设备用户所有活动时间按照从小到大的顺序进行排序,一共有n个,n*b%=m,则排序中第m个排对应的活动持续时间即为第b%分位数的值,如果计算得m不为整数,例如为12.3,则取排序中第12个和第13个对应的时间值的平均值作为第b%分位数的值。具体的,本实施例中,参见图6,以2009年上海传统的用户出行调查数据为样本,活动持续时间分布的第5%分位数为165分钟,也就是在某个地方待的时间为2个多小时,接近3小时。一般正常工作的时间是7-8小时,取165分钟作为该时间阈值是因为有一部分的工作可能不是长时间在一个地方坐班,比如公司的管理者,或者教师等职业,他们在一个地方的工作时间就是2-3个小时。同时,我们除了参考时间阈值165分钟,还会考虑停留的次数,停留的位置是否一致以排除像偶尔的购物或外出吃饭的情况。在其他实施例中,Twork可以取活动持续时间分布的第6%或7%或8%或9%或10%分位数对应的时间值均可,具体看实际应用情况而定。
另外,可以理解的是,活动类型的上学的,它的活动特征与工作在差不多的,因此上学这一类的活动判断,已并入职住地判断这一块。
S210,通过将除在家或在工作两种活动类型外的停留区段所对应的活动开始时间、活动持续时间,以及用地性质输入活动分类器中,以分别得到各用户除了在家或在工作两种活动类型外预定义的活动类型。预定义的活动类型是指预先根据统计需求定义的活动类型。例如预定义的活动类型可包括上班、上学、购物、文化娱乐、业务、接送人、回家等,不限于此。
构建活动分类器的步骤如下:基于2009年上海传统的用户出行调查数据,提取上述调查数据各停留区段的活动开始时间,活动持续时间,以及停留区段对应的用地性质构建基于决策树的活动分类器。具体的,用地性质先对应到2009年上海传统的用户出行调查数据归纳出来的停留点类别,然后结合活动开始时间,活动持续时间输入活动分类器,即可得到具体的其他活动类型。活动分类器经过训练之后的判断规则如图7,下文将做详细介绍。用户出行调查在各个城市都会定期举行,其采集的信息较为完整,已涵盖本发明中模型标定所需的输入特征数据。虽然抽样率不高(一般为城市总人口的1%),但样本数已完全可以满足模型训练和标定的需要。本发明实施例使用2009年上海市用户出行调查数据构建活动分类器模型。在其他实施例中也可以用其他城市或者其他年份的用户出行调查数据构建活动分类器模型。
具体的,用地性质与停留点的对应关系如表2:
表2
通过对2009年上海传统的用户出行调查数据统计,分析得到活动类型包括:①上班、②上学、③购物、④文化娱乐、⑤业务、⑥接送人、⑦回家、⑧其他生活。
现结合图7,同时参见表2和以上八类活动类型详细阐述活动分类器的判断规则。具体的,图7中GIS2为用地性质对应的停留点类别、dur为活动持续时间、startTime为活动开始时间。首先,将停留点类别GIS2输入,若GIS2=3,停留点类别为商场、店铺,则活动类型为③购物,判断完毕。若GIS2不等于3,则继续判断是否是其他的停留类别,例如图7,继续判断,若GIS2=8,停留点类别为娱乐场所、游览场所、展览馆、体育场馆,则活动类型为④文化娱乐。若GIS2不等于8,则继续判断其他类别,若GIS2=7或12,进一步判断活动持续时间dur是否小于38分钟,若是则进一步判断该活动的开始时间startTime是否小于432分钟(以零点,即夜里12点为起点),若是该活动类型为④文化娱乐,若不是,进一步判断startTime是否小于1040分钟,若是该活动类型为⑥接送人,若不是,该活动类型为⑧其他生活。如果开始时间startTime不是小于432分钟,则停留点类别GIS2为火车站、长途汽车站、码头、空港等对外交通枢纽,同时进一步判断该活动的开始时间是否小于488分钟,如果是,该活动类型为⑥接送人,否则为⑧其他生活。
如果GIS2不是7或12,则进一步判断GIS2为是2或者5的情况,如果持续时间大于等于7分钟,则进一步判断开始时间startTime是否大于等于598分钟,如果不是,则活动类型为⑥接送人;如果是,进一步判断该活动的停留点类别GIS2是否为2如果是,该活动类型为⑤业务,如果不是则为⑧其他生活。如果开始时间startTime不是大于等于598分钟,则进一步判断开始时间startTime是否小于438分钟,如果是,则该活动类型为⑧其他生活,如果startTime不是小于438分钟,则进一步判断该活动的持续时间是否大于等于72分钟,如果不是则该活动类型为⑧其他生活,如果是进一步判断停留点类别是否为行政、商务办公场所,如果是则该活动类型为⑤业务,如果不是则为⑧其他生活。
如果停留类别不等于2或者5,则进一步判断该活动的活动持续时间是否小于22分钟,如果不是,则该活动类型为⑧其他生活,如果是则进一步判断停留点类别是否为4或者6或者9,若是则该活动类型为⑧其他生活,如果不是则进一步判断该活动的持续时间是否小于9.5分钟,如果是,则该活动类型为⑥接送人,如果不是,进一步判断活动开始时间startTime是否小于500分钟,如果是则该活动类型为⑥接送人,否则为⑧其他生活。
根据该判断规则,输入活动的开始时间、持续时间,以及用地性质对应的停留点类别则可以判断除工作,或在家,或上学的其他活动类型。
本发明提供的基于智能设备数据的用户活动类型判别方法能够根据用户的智能设备数据分析出用户一天不同时间段的活动类型,从而可以为城市规划、交通管理和用户活动研究提供重要的参考依据,且分析过程中涉及到时候阈值或空间阈值均是由传统的用户出行调查数据进行标定,更具使用性,准确性和实时性。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于智能设备数据的用户活动类型判别方法,其特征在于,包括以下步骤:
获取用户智能设备数据;
对所述智能设备数据进行数据清洗获得用户的移动轨迹,通过行程识别划分用户停留区段和出行区段,获得用户的出行链;
提取所述出行链中各所述停留区段的活动开始时间和活动持续时间,并根据所述停留区段的兴趣点获取所述停留区段对应的用地性质;
分析用户预设时间出行的智能设备数据,获得各用户对应的停留时段,停留时长,以及停留次数,以此判断用户家和/或工作地的位置,以获得在家或在工作两种活动类型;
通过将除在家或在工作两种活动类型外的停留区段所对应的活动开始时间、活动持续时间,以及用地性质输入活动分类器中,以分别得到各用户除了在家或在工作两种活动类型外预定义的活动类型。
2.根据权利要求1所述的基于智能设备数据的用户活动类型判别方法,其特征在于,所述方法还包括:构建所述活动分类器,包括:
基于传统的用户出行调查数据,提取所述调查数据各用户的停留区段的活动开始时间,活动持续时间,以及停留区段对应的用地性质构建基于决策树的活动分类器。
3.根据权利要求1所述的基于智能设备数据的用户活动类型判别方法,其特征在于,所述数据清洗包括字段缺失处理,删除异常的IMSI编号记录,删去无法与所述基站定位数据相匹配的记录,删去重复数据,乒乓效应处理,以及信号漂移处理。
4.根据权利要求3所述的基于智能设备数据的用户活动类型判别方法,其特征在于,所述乒乓效应处理包括以下步骤:将每位用户的所述智能设备数据按空间和时间将区域合并,若用户信号在小于空间阈值L1的范围内波动,且超过时间阈值T1,则认为用户在这段时间内处于同一位置。
5.根据权利要求3所述的基于智能设备数据的用户活动类型判别方法,其特征在于,所述信号漂移处理包括以下步骤:将每位用户的所述智能设备数据按空间和时间将区域合并,若用户在时间阈值T2内离开空间阈值L2,之后又返回到所述空间阈值L2内,则认为用户是处于同一个位置。
6.根据权利要求1所述的基于智能设备数据的用户活动类型判别方法,其特征在于,所述行程识别包括以下步骤:若用户在时间阈值Tstay内的轨迹点群聚于Lstay的半径范围内,或者在所述时间阈值Tstay内的移动速度低于速度阈值Vstay,则所对应的区段为停留区段,否则为出行区段。
7.根据权利要求6所述的基于智能设备数据的用户活动类型判别方法,其特征在于,还包括以下步骤:
将用户出行调查数据中的出行数据转化为活动链数据,筛选早上从家出发且晚上回家的用户数据;
提取所有类型活动的活动持续时间,建立活动持续时间分布,将活动持续时间分布的第p%分位数作为行程识别的时间阈值Tstay,p为5至10中任意一自然数。
8.根据权利要求1所述的基于智能设备数据的用户活动类型判别方法,其特征在于,所述根据所述停留区段的兴趣点获取所述停留区段对应的用地性质包括以下步骤:
通过时间加权的方式计算停留位置的中心坐标;
根据所述中心坐标对应的兴趣点的位置、数量建立核密度估计模型,其公式如下:
<mrow>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mi>s</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<mfrac>
<mn>1</mn>
<mrow>
<msup>
<mi>nr</mi>
<mn>2</mn>
</msup>
</mrow>
</mfrac>
<mi>K</mi>
<mrow>
<mo>(</mo>
<mfrac>
<msub>
<mi>d</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>s</mi>
</mrow>
</msub>
<mi>r</mi>
</mfrac>
<mo>)</mo>
</mrow>
</mrow>
K(.)表示核函数;
r表示窗宽;
n表示兴趣点总数;
di,s表示所述中心坐标到各兴趣点的距离;
选择高斯函数作为核函数:
<mrow>
<mi>K</mi>
<mrow>
<mo>(</mo>
<mfrac>
<msub>
<mi>d</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>s</mi>
</mrow>
</msub>
<mi>r</mi>
</mfrac>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<msqrt>
<mrow>
<mn>2</mn>
<mi>&pi;</mi>
</mrow>
</msqrt>
</mfrac>
<mi>exp</mi>
<mrow>
<mo>(</mo>
<mo>-</mo>
<mfrac>
<mrow>
<msup>
<msub>
<mi>d</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>s</mi>
</mrow>
</msub>
<mn>2</mn>
</msup>
</mrow>
<mrow>
<mn>2</mn>
<msup>
<mi>r</mi>
<mn>2</mn>
</msup>
</mrow>
</mfrac>
<mo>)</mo>
</mrow>
</mrow>
计算所述停留位置处不同兴趣点类型的核密度值,取核密度值最高的兴趣点对应的用地性质作为停留位置的用地性质。
9.根据权利要求1所述的基于智能设备数据的用户活动类型判别方法,其特征在于,所述分析用户预设时间出行的智能设备数据,获得对应的停留时段,停留时长,以及停留次数,以此判断用户家和/或工作地的位置,以获得在家或在工作两种活动类型,包括以下步骤:
提取每个用户的所有所述活动开始时间,所述活动持续时间,以及用地性质;
筛选出每个用户工作日的数据,统计得总天数为N
对于每一类停留位置,统计夜间停留时间大于Thome的总天数Nhome;
若Nhome大于第一判断时间阈值,则该位置为家庭所在地,否则,统计在工作时段停留时间大于Twork的总天数Nwork;
若Nwork大于第二判断时间阈值,则该位置为工作地。
10.根据权利要求9所述的基于智能设备数据的用户活动类型判别方法,其特征在于,还包括以下步骤:
将用户出行调查数据中的出行数据转化为活动链数据,筛选早上从家出发且晚上回家的用户智能设备数据;
提取夜间停留地点为家的活动,建立活动持续时间分布,将活动持续时间分布的第a%分位数家庭所在地识别的时间阈值Thome,a为5至10中任意一自然数;
提取工作时段停留地点为工作地的活动,建立活动持续时间分布,将活动持续时间分布的第b%分位数作为工作地识别的时间阈值Twork,b为5至10中任意一自然数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610443684.1A CN107529135A (zh) | 2016-06-20 | 2016-06-20 | 基于智能设备数据的用户活动类型判别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610443684.1A CN107529135A (zh) | 2016-06-20 | 2016-06-20 | 基于智能设备数据的用户活动类型判别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107529135A true CN107529135A (zh) | 2017-12-29 |
Family
ID=60733855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610443684.1A Pending CN107529135A (zh) | 2016-06-20 | 2016-06-20 | 基于智能设备数据的用户活动类型判别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107529135A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108429856A (zh) * | 2018-02-28 | 2018-08-21 | 维沃移动通信有限公司 | 一种定位信息获取方法及移动终端 |
CN108668238A (zh) * | 2018-08-16 | 2018-10-16 | 天狼联盟材料科技研究(广东)有限公司 | 一种基于app记录生活和运动轨迹的鞋及其记录方法 |
CN109493119A (zh) * | 2018-10-19 | 2019-03-19 | 南京图申图信息科技有限公司 | 一种基于poi数据的城市商业中心识别方法及*** |
CN109788428A (zh) * | 2018-12-28 | 2019-05-21 | 科大国创软件股份有限公司 | 一种基于运营商数据的用户分类识别方法 |
CN109918582A (zh) * | 2019-03-06 | 2019-06-21 | 上海评驾科技有限公司 | 一种基于时空数据的用户单兴趣点识别的方法 |
CN110572776A (zh) * | 2019-09-20 | 2019-12-13 | 奇酷互联网络科技(深圳)有限公司 | 安全区域的划分方法、终端和存储介质 |
CN111367896A (zh) * | 2018-12-25 | 2020-07-03 | 北京融信数联科技有限公司 | 基于大数据的用户个性化活动图谱构建方法 |
CN112866920A (zh) * | 2021-01-07 | 2021-05-28 | 东南大学 | 一种利用核函数处理手机信令数据识别就业地的方法 |
CN113268679A (zh) * | 2021-04-19 | 2021-08-17 | 宁波市测绘和遥感技术研究院 | 基于互联网大数据的可视化处理方法 |
CN114419749A (zh) * | 2021-12-20 | 2022-04-29 | 优得新能源科技(宁波)有限公司 | 一种基于定位坐标的光伏电站运维人员工作量化*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682041A (zh) * | 2011-03-18 | 2012-09-19 | 日电(中国)有限公司 | 用户行为识别设备及方法 |
CN103460722A (zh) * | 2011-03-31 | 2013-12-18 | 高通股份有限公司 | 用于使用对以时间为基准的特征的时间定标进行活动分类的方法、设备和装置 |
CN104159189A (zh) * | 2013-05-15 | 2014-11-19 | 同济大学 | 基于智能手机的居民出行信息获取方法 |
CN104680046A (zh) * | 2013-11-29 | 2015-06-03 | 华为技术有限公司 | 一种用户活动识别方法及装置 |
US20160133295A1 (en) * | 2014-11-07 | 2016-05-12 | H4 Engineering, Inc. | Editing systems |
-
2016
- 2016-06-20 CN CN201610443684.1A patent/CN107529135A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682041A (zh) * | 2011-03-18 | 2012-09-19 | 日电(中国)有限公司 | 用户行为识别设备及方法 |
CN103460722A (zh) * | 2011-03-31 | 2013-12-18 | 高通股份有限公司 | 用于使用对以时间为基准的特征的时间定标进行活动分类的方法、设备和装置 |
CN104159189A (zh) * | 2013-05-15 | 2014-11-19 | 同济大学 | 基于智能手机的居民出行信息获取方法 |
CN104680046A (zh) * | 2013-11-29 | 2015-06-03 | 华为技术有限公司 | 一种用户活动识别方法及装置 |
US20160133295A1 (en) * | 2014-11-07 | 2016-05-12 | H4 Engineering, Inc. | Editing systems |
Non-Patent Citations (1)
Title |
---|
杨超; 朱荣荣; 涂然: "基于智能手机调查数据的居民出行活动特征分析", 《交通信息与安全》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108429856A (zh) * | 2018-02-28 | 2018-08-21 | 维沃移动通信有限公司 | 一种定位信息获取方法及移动终端 |
CN108668238A (zh) * | 2018-08-16 | 2018-10-16 | 天狼联盟材料科技研究(广东)有限公司 | 一种基于app记录生活和运动轨迹的鞋及其记录方法 |
CN109493119A (zh) * | 2018-10-19 | 2019-03-19 | 南京图申图信息科技有限公司 | 一种基于poi数据的城市商业中心识别方法及*** |
CN109493119B (zh) * | 2018-10-19 | 2020-06-23 | 南京图申图信息科技有限公司 | 一种基于poi数据的城市商业中心识别方法及*** |
CN111367896A (zh) * | 2018-12-25 | 2020-07-03 | 北京融信数联科技有限公司 | 基于大数据的用户个性化活动图谱构建方法 |
CN109788428A (zh) * | 2018-12-28 | 2019-05-21 | 科大国创软件股份有限公司 | 一种基于运营商数据的用户分类识别方法 |
CN109788428B (zh) * | 2018-12-28 | 2020-12-18 | 科大国创软件股份有限公司 | 一种基于运营商数据的用户分类识别方法 |
CN109918582A (zh) * | 2019-03-06 | 2019-06-21 | 上海评驾科技有限公司 | 一种基于时空数据的用户单兴趣点识别的方法 |
CN110572776A (zh) * | 2019-09-20 | 2019-12-13 | 奇酷互联网络科技(深圳)有限公司 | 安全区域的划分方法、终端和存储介质 |
CN112866920A (zh) * | 2021-01-07 | 2021-05-28 | 东南大学 | 一种利用核函数处理手机信令数据识别就业地的方法 |
CN113268679A (zh) * | 2021-04-19 | 2021-08-17 | 宁波市测绘和遥感技术研究院 | 基于互联网大数据的可视化处理方法 |
CN114419749A (zh) * | 2021-12-20 | 2022-04-29 | 优得新能源科技(宁波)有限公司 | 一种基于定位坐标的光伏电站运维人员工作量化*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107529135A (zh) | 基于智能设备数据的用户活动类型判别方法 | |
Jiang et al. | Activity-based human mobility patterns inferred from mobile phone data: A case study of Singapore | |
Bachir et al. | Inferring dynamic origin-destination flows by transport mode using mobile phone data | |
CN105142106B (zh) | 基于手机信令数据的出行者职住地识别与出行链刻画方法 | |
Huang et al. | Activity identification from GPS trajectories using spatial temporal POIs' attractiveness | |
CN109583640A (zh) | 一种基于多源定位数据的城市出行客流属性识别方法 | |
Qian et al. | Characterizing urban dynamics using large scale taxicab data | |
CN108650632A (zh) | 一种基于职住对应关系和时空间核聚类的驻点判断方法 | |
CN111813835B (zh) | 一种基于手机信令和poi数据的公共活动中心识别*** | |
CN111222744A (zh) | 基于信令数据的建成环境与轨道客流分布关系确定方法 | |
CN111464950B (zh) | 一种使用手机信令数据提取出行停驻点的方法 | |
CN108269024A (zh) | 一种基于大数据的旅游目的地评价方法 | |
CN113806419B (zh) | 基于时空大数据的城市区域功能识别模型及识别方法 | |
CN107527313A (zh) | 用户活动模式划分及属性推测方法 | |
CN109684373A (zh) | 基于出行和话单数据分析的重点关系人发现方法 | |
CN109190685A (zh) | 融合空间聚类和基站序列规则的轨道出行特征提取方法 | |
CN112000755B (zh) | 一种基于手机信令数据的区域出行廊道识别方法 | |
CN105844031B (zh) | 一种基于手机定位数据的城市交通廊道识别方法 | |
Zhu et al. | Crowdsourcing-data-based dynamic measures of accessibility to business establishments and individual destination choices | |
CN115100012A (zh) | 一种轨道交通站点步行可达性计算方法 | |
Yao et al. | Analysis of key commuting routes based on spatiotemporal trip chain | |
Klimek et al. | Towards a better understanding and behavior recognition of inhabitants in smart cities. A public transport case | |
CN115510056A (zh) | 一种利用手机信令数据进行宏观经济分析的数据处理*** | |
Aslam et al. | Smart card data and human mobility | |
Pokusaev et al. | Anomalies in transport data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171229 |