CN110837540A - 一种空间位置数据的处理方法及*** - Google Patents

一种空间位置数据的处理方法及*** Download PDF

Info

Publication number
CN110837540A
CN110837540A CN201911037134.XA CN201911037134A CN110837540A CN 110837540 A CN110837540 A CN 110837540A CN 201911037134 A CN201911037134 A CN 201911037134A CN 110837540 A CN110837540 A CN 110837540A
Authority
CN
China
Prior art keywords
position data
spatial position
user
spatial
time periods
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911037134.XA
Other languages
English (en)
Inventor
鲁仕维
黄亚平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201911037134.XA priority Critical patent/CN110837540A/zh
Publication of CN110837540A publication Critical patent/CN110837540A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种空间位置数据的处理方法及***,首先需对稀疏采样的空间位置大数据进行时空采样上的质量评估。由此本发明从稀疏采样的个***置大数据中固有的时空分布这一基本特征出发,通过动态时段划分、计算机随机模拟和计算、以及回归分析,提出了一种针对稀疏采样的空间位置大数据刻画城市居民活动典型特征的定量化损失评估模型,清晰地解释不同的采样率所对应下的质量损失分布特征。最终根据所得偏差的分布来挑选满足实际需求的样本数据集,使得相关研究和分析的结论更为可靠、更科学地指导实际应用。

Description

一种空间位置数据的处理方法及***
技术领域
本发明涉及空间位置数据处理技术领域,更具体地,涉及一种空间位置数据的处理方法及***。
背景技术
通信与信息技术以及位置感知技术等技术的迅猛发展,有助于以较低成本、较大范围、并且非常快速的方式收集大规模个体的空间位置移动数据并共享信息,带有时间戳和空间位置坐标的大数据已是触手可及。时空大数据应用于城市居民移动动力学分析、时空模式挖掘、交通分析以及城市规划等领域中,在提供新的研究视角的同时,为更有效且合理地回答所需要研究的问题,分析过程中会涉及到数据质量问题。
稀疏采样的位置大数据是当前涉及城市空间分析研究和应用中的重要数据源,如手机信令时空位置数据、签到时空位置数据等。其一是因为移动通讯设备在城市居民中的广泛使用、普及率高、而且用户随身携带以及使用时间较长等特点;其二是城市内的通讯基站具有大范围、高密度建立等特点。然而,诸如以上的位置大数据同时也存在着个体的采样位置具有一定程度的随机性、时空稀疏性和不确定性等特点,当前众多基于位置大数据的研究和应用中,在数据预处理环节多是简单对数据进行筛选,较少考虑数据的质量问题,从而对当前分析和应用工作带来的不确定性也无法衡量。
发明内容
针对现有技术的缺陷,本发明的目的在于解决当前众多基于位置大数据的研究和应用中,在数据预处理环节多是简单对数据进行筛选,较少考虑数据的质量问题,从而对当前分析和应用工作带来的不确定性也无法衡量的技术问题。
为实现上述目的,第一方面,本发明提供一种空间位置数据的处理方法,包括以下步骤:
步骤1、建立城市空间数据库,导入稀疏采样的空间位置数据至所述城市空间数据库;将所述稀疏采样的空间位置数据划分成覆盖全时段的空间位置数据和覆盖部分时段的空间位置数据;
步骤2、将所述覆盖全时段的空间位置数据按照时段进行划分,划分成M个时段的时序空间位置数据;M为大于或等于2的正整数;
步骤3、从所述M个时段的时序空间位置数据中随机挑选C组m个时段的空间位置数据,M个时段的时序空间位置数据中每个时段的空间位置数据在所述C组m个时段的空间位置数据中均至少被挑选k次以上;m初始值为2,m为小于M的正整数;k为小于或等于C的正整数,C为正整数;
步骤4、计算每组m个时段的空间位置数据对应的每个用户的指标值,并将每个用户在m个时段下的C组指标值求平均作为每个用户在m个时段下的指标值;以及计算M个时段的时序空间位置数据对应的每个用户在全时段下的指标值;所述指标值包括:用户空间活动范围、用户在所述空间活动范围内的活动路径长度、以及用户在所述空间活动范围内不同空间位置上的差异性和不均衡性;
步骤5、根据每个用户在m个时段下的指标值和每个用户在全时段下的指标值确定m个时段对应的指标值偏差,并基于每个用户在m个时段对应的指标值偏差确定每个用户在m个时段下指标值的质量损失系数;
步骤6、若m=M,则执行步骤7,若m小于M,则将m加1,作为新的m值,执行步骤3;
步骤7、确定所述覆盖部分时段的空间位置数据中覆盖m个时段空间位置数据的用户数量,根据所述覆盖部分时段的空间位置数据确定的覆盖m个时段的空间位置数据的用户数量、所述覆盖全时段的空间位置数据确定的每个用户在m个时段下指标值的质量损失系数以及所有用户数量确定所述稀疏采样的空间位置数据的加权质量损失系数,2≤m≤M。
在一个可选的实施例中,所述步骤1具体包括如下步骤:
将所述稀疏采样的空间位置数据导入至所述城市空间数据库,将每个空间位置数据转换到预设坐标系中,每个空间位置数据包括采样坐标和采样时间。
在一个可选的实施例中,所述步骤2具体包括如下步骤:
根据实际需求或者采用自适应的方式将覆盖全时段的空间位置数据划分成M个时段的空间位置数据。
在一个可选的实施例中,所述指标值具体包括:
空间活动范围指标为回旋半径Rg
Figure BDA0002251825940000031
在空间活动范围内的活动路径长度的指标为移动距离S:
Figure BDA0002251825940000032
在空间活动范围内不同空间位置上的访问差异性和不均衡性的指标为熵E:
Figure BDA0002251825940000033
其中,n是m个时段每种组合的空间位置数据或M个时段的空间位置数据中每个用户的空间位置采样点总数,(xj,yj)是每个用户第j个采样点的坐标值,(xc,yc)是每个用户所有采样点位置的重心,n′是每个用户相异的采样位置数量,pi是每个用户第i个相异采样点出现的概率;
每个用户所有采样点位置的重心(xc,yc)的计算公式为:
Figure BDA0002251825940000041
Figure BDA0002251825940000042
在一个可选的实施例中,所述步骤5具体包括如下步骤:
根据偏差度量模型,求得每个用户在各个时段数量m下指标值的质量损失系数,所述偏差度量模型为:
Fm(Xu)=AmXu-B
其中,Fm(Xu)表示每个用户u在各个时段数量m下的指标值,Xu表示每个用户在全时段下的指标值,Am为回归系数,B为常数;
所述质量损失系数QLm通过如下公式确定:
QLm=1-|Am|
其中,|Am|为系数Am的绝对值;将每个用户在各个时段数量m下每个指标值对应的回归系数带入上述公式,分别可求得每个用户在各个时段数量m下回旋半径指标值、移动距离指标值和熵指标值所对应的质量损失系数QLm_Rg,QLm_S和QLm_E
在一个可选的实施例中,所述步骤7具体包括如下步骤:
通过如下公式确定所述稀疏采样的空间位置数据的各个指标值对应的质量损失系数wQL
Figure BDA0002251825940000043
其中,usersm表示所述覆盖部分时段的空间位置数据中覆盖m个时段空间位置数据的用户数量,users表示所有用户的数量;QLm分别表示每个用户在m个时段下指标值的质量损失系数,QLm具体包括:QLm_Rg,QLm_S或QLm_E
通过分别计算回旋半径、移动距离和熵的质量损失系数wQL_Rg,wQL_S和wQL_E,计算所述稀疏采样的空间位置数据的加权质量损失系数WQL
Figure BDA0002251825940000051
第二方面,本发明提供一种空间位置数据的处理***,包括:
数据采样单元,用于建立城市空间数据库,导入稀疏采样的空间位置数据至所述城市空间数据库;将所述稀疏采样的空间位置数据划分成覆盖全时段的空间位置数据和覆盖部分时段的空间位置数据;
全时段数据处理单元,用于将所述覆盖全时段的空间位置数据按照时段进行划分,划分成M个时段的时序空间位置数据;M为大于或等于2的正整数;从所述M个时段的时序空间位置数据中随机挑选C组m个时段的空间位置数据,M个时段的时序空间位置数据中每个时段的空间位置数据在所述C组m个时段的空间位置数据中均至少被挑选k次以上;m初始值为2,m为小于M的正整数;k为小于或等于C的正整数,C为正整数;计算每组m个时段的空间位置数据对应的每个用户的指标值,并将每个用户在m个时段下的C组指标值求平均作为每个用户在m个时段下的指标值;以及计算M个时段的时序空间位置数据对应的每个用户在全时段下的指标值;所述指标值包括:用户空间活动范围、用户在所述空间活动范围内的活动路径长度、以及用户在所述空间活动范围内不同空间位置上的差异性和不均衡性;根据每个用户在m个时段下的指标值和每个用户在全时段下的指标值确定m个时段对应的指标值偏差,并基于每个用户在m个时段对应的指标值偏差确定每个用户在m个时段下指标值的质量损失系数;若m=M,则结束处理,若m小于M,则将m加1,作为新的m值,继续从所述M个时段的时序空间位置数据中随机挑选C组m个时段的空间位置数据,以根据所述覆盖全时段的空间位置数据确定不同时段数值m下每个用户指标值的质量损失系数;
部分时段数据处理单元,用于确定所述覆盖部分时段的空间位置数据中覆盖m个时段空间位置数据的用户数量;m分别取从2到M之间的整数;
数据质量评估单元,用于根据所述覆盖部分时段的空间位置数据确定的覆盖m个时段的空间位置数据的用户数量、所述覆盖全时段的空间位置数据确定的每个用户在m个时段下指标值的质量损失系数以及所有用户数量确定所述稀疏采样的空间位置数据的加权质量损失系数,2≤m≤M。
在一个可选的实施例中,所述全时段数据处理单元,根据偏差度量模型,求得每个用户在各个时段数量m下指标值的质量损失系数,所述偏差度量模型为:Fm(Xu)=AmXu-B;其中,Fm(Xu)表示每个用户u在各个时段数量m下的指标值,Xu表示每个用户在全时段下的指标值,Am为回归系数,B为常数;所述质量损失系数QLm通过如下公式确定:QLm=1-|Am|;其中,|Am|为系数Am的绝对值;将每个用户在各个时段数量m下每个指标值对应的回归系数带入上述公式,分别可求得每个用户在各个时段数量m下回旋半径指标值、移动距离指标值和熵指标值所对应的质量损失系数QLm_Rg,QLm_S和QLm_E
在一个可选的实施例中,所述数据质量评估单元,通过如下公式确定所述稀疏采样的空间位置数据的各个指标值对应的质量损失系数wQL
Figure BDA0002251825940000061
其中,usersm表示所述覆盖部分时段的空间位置数据中覆盖m个时段空间位置数据的用户数量,users表示所有用户的数量;QLm分别表示每个用户在m个时段下指标值的质量损失系数,QLm具体包括:QLm_Rg,QLm_S或QLm_E
通过分别计算回旋半径、移动距离和熵的质量损失系数wQL_Rg,wQL_S和wQL_E,计算所述稀疏采样的空间位置数据的加权质量损失系数WQL
Figure BDA0002251825940000071
第三方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的空间位置数据的处理方法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
本发明提供一种空间位置数据的处理方法及***,可克服时空位置数据采样过程中的随机性、稀疏性及所引起的不确定性问题。基于本发明中所提出对各时段及不同组合方式对应的位置数据进行质量损失系数评估,可直接指导当前现实应用中具有确定性质量及疏密程度的时空位置数据的采样。
本发明提供一种空间位置数据的处理方法及***,提出的空间位置数据质量的定量化评价模型。本发明所提出的计算过程充分考虑不同采样特征对评价结果的影响,不仅有力保障计算过程的无偏性,还弥补了当前众多基于位置大数据中研究和应用中有关数据质量评估研究的空缺。
本发明提供一种空间位置数据的处理方法及***,数据抽样方法科学、有据可依。基于本发明中所提出的质量损失评估结果,可以直观有效的挑选出不同可信度和质量的数据用于城市空间分析,做到因数据制宜。
本发明提供一种空间位置数据的处理方法及***,应用范围广泛。本发明提出的评价模型与方法可使用于多种类型的个***置稀疏采样的时空大数据,如手机信令时空数据、社交媒体签到时空数据,***消费记录时空数据等。
本发明提供一种空间位置数据的处理方法及***,可按需定制数据。本发明提出的典型指标的损失估计演变规则曲线及其计算方法,可计算多种类型的稀疏采样位置大数据的偏差规律,对于挑选定制特定需求的数据集合具有直观科学的指导性。
本发明提供一种空间位置数据的处理方法及***,节约成本。本发明不需要额外添加大型设备和器材,不需要花费大量的人力物力进行调查,仅需要少量的工作人员进行维护,而是充分利用数据自身的采样特性进行数据的质量评估。
附图说明
图1为本发明提供的空间位置数据处理方法的流程图;
图2为本发明提供的稀疏采样的位置大数据所反映居民活动轨迹示意图;
图3为本发明提供的质量损失系数拟合曲线图;
图4为本发明提供的空间位置数据的处理***架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
针对现有空间位置大数据在预处理和使用上的无标准化和不确定性缺陷,本发明通过介绍空间位置大数据的基本格式及其存在的稀疏采样问题,在此基础之上利用数据采样点时空分布这一直观而有效的固有特征,通过动态时间窗口对采样分布中的时段进行划分,提出了一种稀疏采样数据对刻画城市居民活动特征的偏差度量模型;利用计算机大量的随机模拟,得出空间位置大数据对刻画城市居民活动特征偏差的一般性结论,清晰地解释不同的采样率所对应下的偏差分布特征。最终根据所得偏差的分布来挑选满足实际需求的样本数据集,使得相关研究和分析的结论更为可靠,更科学地指导实际应用。
本发明提出一种定量有效的稀疏采样的位置大数据质量评估和抽样方法,以解决大规模稀疏采样的空间位置大数据在城市居民活动分析和应用时所带来的不确定性问题。
本发明的技术方案为一种稀疏采样的空间位置大数据的质量评估和抽样方法,如图1所示,包括以下步骤:
步骤S101,建立城市空间数据库,导入稀疏采样的空间位置大数据至数据库;
在一个示例中,对每个居民个体进行唯一编号ID,并把个体ID字段设置为常用的索引字段;导入数据库的空间数据均转换为以2000国家大地坐标系为基准的坐标***中;分别查询个体ID位置大数据,依次构建每个居民个体移动轨迹采样点的时序序列,{P1,P2,……,Pn},其中Pi(xi,yi,ti)为第i个位置采样点,(xi,yi)为大地坐标值,xi为横坐标,yi为纵坐标,ti为第三维的竖向坐标,即是用时间表示;引入2000国家大地坐标***作为二维基准面,二维基准面中各采样点的大地坐标值生成Voronoi多边形,以时间为第三维竖轴构建时空长方体,在该时空立方体内利用采样点的时序序列恢复出每个居民个体的时空轨迹;如图2所示,为稀疏采样的位置大数据所反映居民活动轨迹示意图。根据所述每个个体轨迹采样点的时序序列和恢复出的时空轨迹,将自然日进行时段上的线性划分。
需要说明的是,本发明中所提出的时段划分过程中所采用的时间窗口大小由根据实际需求或是数据记录采样点的密度分布来自适应,划分所得的时段数量为M,并且M大于等于2;并从数据集中匹配出全时段覆盖的个体样本,即是划分所得的每个时段内均有采样位置的个体作为子数据集D,所包含的个体总数为N;其他的个体作为数据集D’。
可以理解的是,子数据集D即为覆盖全时段的空间位置数据,数据集D’即为覆盖部分时段的空间位置数据。其中,覆盖全时段的空间位置数据指的是这部分数据中每个时段均包含所有采用个体的位置数据;覆盖部分时段的空间位置数据指的是这部分数据中没有一个时段是包含所有采样个体的位置数据的,即这部分数据中并不是每个时段都包含有每个采样个体的空间位置数据。具体地,这里的采样个体即为每个居民或者每个用户。
可选地,可引入刻画城市居民活动特征的典型指标,回旋半径Rg、移动距离S和熵E,并计算每个个体u的全时段典型指标值{Rgu,Su,Eu},其中u=1,2,…….,N;
典型指标:用回旋半径Rg来刻画居民的空间活动范围;用移动距离S来刻画居民在该空间范围内的活动路径长度;用熵E来刻画居民在该空间范围内不同空间位置上的访问差异性和不均衡性;
回旋半径:
Figure BDA0002251825940000101
移动距离:
Figure BDA0002251825940000102
熵:
Figure BDA0002251825940000103
以上计算公式中,n是每个个体访问的位置总数,(xj,yj)是第j个采样点的大地坐标值,以及(xc,yc)是每个个体所有采样点位置的重心,n’是相异的采样位置数量,pi则是第i个相异采样点出现的概率;
每个个体所有采样点位置的重心(xc,yc)的计算方式为:
Figure BDA0002251825940000104
Figure BDA0002251825940000105
步骤S102、从匹配所得的子数据集D中,依次挑选出涵盖m(2≤m≤M,m=2,3,……,M)个时段内的位置记录,分别计算m个时段下的每个个体u的采样时段典型指标值{Rgmu’,Smu’,Emu’},m=2,3,……,M;
在一个实施例中,本发明所提出的挑选m个时段应遵守的规则如下:
对于指定数量的时段,随机挑选次数为大于等于C次(C根据实际需求或数据特性而定,推荐默认值为1000);并且每次随机情况下的时段组合方式均只出现一次,且它们之间相互独立;如果由于指定的时段数量无法满足随机挑选次数的要求,则按照理论组合方式的上限进行全部挑选,并满足组合方式均只出现一次,且它们之间相互独立;由此可以得到随机的随机次数C。
具体地,对于指定相同个数的时段,在C次随机过后还应保证每个时段至少要被选择k次及以上(k根据实际需求或数据特性而定,推荐默认值为10)。
具体地,在随机过程中,每个时段均会被选出,并且以比较均匀地分布方式被选出,保证在随机过程中时段较为均衡的出现。例如,当划分的时段数量为M=24个,挑选的时段数目为m=3个,如果时段组合(#2,#5,#6),(#2,#6,#7),(#2,#7,#16),(#2,#7,#19),(#2,#5,#7),(#2,#6,#11),(#2,#6,#12),(#2,#7,#17),(#2,#7,#18)以及(#2,#7,#22)既已选出,由此#2时段被挑选了10次,但是这些组合中时段#5、#6、#7、#11、#12、#16、#17、#18、#19以及#22等时段均没有出现k次,且其他的13个时段还没有出现,所以在剩下的C-k次随机选择中,将优先考虑还没满足被选k次及以上的时段;
可以理解的是,以上所提出的规则保证随机数量的广度和深度,随机过程的无偏性和均衡性等。
最后,计算每次随机所挑选的时段数量m内的用户位置记录,重新组成时序化的位置序列。
步骤S103、分别计算m个时段下的每个个体u的采样时段典型指标值{Rg(m,c)u’,S(m,c)u’,E(m,c)u’}均值,m=2,3,……,M;c=1,2,……,C。时段数量m应从2个依次增长至M个;每类时段数下均随机C次;
具体地,步骤S102、步骤S103的细化流程可参见发明内容部分的步骤2至步骤6。本发明在此不做赘述。
步骤S104、这些采样时段典型指标均值{Rg(m,c)u’,S(m,c)u’,E(m,c)u’}与全覆盖M个完整时段下的全时段典型指标值{Rgu,Su,Eu}进行比对分析。其中,下标u表示个体(居民或用户)u的参数。
将N个居民个体的全时段典型指标均值与采样时段典型指标值一一对应组成坐标对的形式,分别为(Rgu,Rg(m,c)u’),(Su,S(m,c)u’)和(Eu,E(m,c)u’);计算全时段典型指标值与采样时段典型指标值之间的偏差。
本发明提出一种定量化的偏差度量模型,该模型的计算公式为:
Fm(Xu)=AmXu-B
其中,由全时段所有位置记录数计算的全时段典型指标值Rgu,Su或Eu作为独立变量Xu,而由随机过程选择的部分时段中的位置记录计算得到的采样时段典型指标值Rg(m,c)u’,S(m,c)u’,E(m,c)u’均值,依次分别作为该回归模型中的因变量y;Am为回归系数,B为常数。
另外,当全时段典型指标值为0时,所对应的采样时段典型指标值理论上亦为0,由此把回归模型中的B强制性设置为0;
进一步利用下列公式来求解质量损失系数(Quality Loss,QL):
QLm=1-|Am|
其中,|Am|为系数Am的绝对值。
质量损失系数QLm分布在0~1这个区间里;按照此公式进一步可求得C组m个时段下的空间位置数据的回旋半径、移动距离和熵等典型指标所对应的QLm_Rg,QLm_S和QLm_E
最后,不同时段m下的每个典型指标分别可计算出一个对应质量损失系数值。
进一步地,分别计算不同时段m下的每个典型指标(回旋半径、移动距离和熵)的质量损失系数值的最大值max、最小值min、四分位数值和标准差std;根据质量损失系数值的最大值、最小值,绘制质量损失系数的分布限制区并存储;依次将N个个体,所对应m个时段下的每个典型指标(回旋半径、移动距离和熵)的质量损失系数均值进行曲线或者直线拟合fRg,fS和fE,(可以是线性函数、指数函数、幂函数等定量化的数理关系),如图3所示为本发明中质量损失系数拟合曲线图。
由此分别得到典型指标在不同时段数量下的损失系数的数理演变规则;拟合曲线fRg,fS和fE的结论,可直接用于筛选出不同估计偏差下的数据集合,根据实际需求合理规定数据应当满足的质量下限,用于城市空间分析、城市居民移动动力学分析、时空模式挖掘等领域。
步骤S105、最后可通过fRg,fS和fE来计算整个数据集合的加权质量损失系数,其计算方式如下:
分别统计数据集D’中的各个体采样记录的时段分布数量,依次带入到fRg,fS和fE中来计算出该个体典型指标的质量损失系数;
设定数据集D中的每个个体的质量损失系数为0;
根据数据集D和D’中涵盖不同时段数量的用户数作为权重,计算数据集合下各典型指标的加权质量损失系数wQL
Figure BDA0002251825940000131
其中,usersm表示其位置记录覆盖m个时段的用户数量,users表示所有个体的数量;QLm表示该时段数量下所对应的一种典型指标的质量损失系数;
通过计算回旋半径、移动距离和熵等典型指标的加权质量损失系数wQL_Rg,wQL_S和wQL_E,可计算整个数据的加权质量损失系数WQL
整个稀疏采样数据的加权质量损失系数WQL的计算公式为:
具体地。加权质量损失系数WQL用以评价整个数据集的质量;加权质量损失系数越小,表明数据的整体质量越高;加权质量损失系数越大,表明数据的整体质量越差;质量损失系数分布区中的任意一个值均代表一种抽样组合方式,有效地用于指导抽取指定质量的数据记录。
图4为本发明提供一种空间位置数据的处理***,如图4所示,包括:数据采样单元410、全时段数据处理单元420、部分时段数据处理单元430以及数据质量评估单元440。
数据采样单元410,用于建立城市空间数据库,导入稀疏采样的空间位置数据至所述城市空间数据库;将所述稀疏采样的空间位置数据划分成覆盖全时段的空间位置数据和覆盖部分时段的空间位置数据;
全时段数据处理单元420,用于将所述覆盖全时段的空间位置数据按照时段进行划分,划分成M个时段的时序空间位置数据;M为大于或等于2的正整数;从所述M个时段的时序空间位置数据中随机挑选C组m个时段的空间位置数据,M个时段的时序空间位置数据中每个时段的空间位置数据在所述C组m个时段的空间位置数据中均至少被挑选k次以上;m初始值为2,m为小于M的正整数;k为小于或等于C的正整数,C为正整数;计算每组m个时段的空间位置数据对应的每个用户的指标值,并将每个用户在m个时段下的C组指标值求平均作为每个用户在m个时段下的指标值;以及计算M个时段的时序空间位置数据对应的每个用户在全时段下的指标值;所述指标值包括:用户空间活动范围、用户在所述空间活动范围内的活动路径长度、以及用户在所述空间活动范围内不同空间位置上的差异性和不均衡性;根据每个用户在m个时段下的指标值和每个用户在全时段下的指标值确定m个时段对应的指标值偏差,并基于每个用户在m个时段对应的指标值偏差确定每个用户在m个时段下指标值的质量损失系数;若m=M,则结束处理,若m小于M,则将m加1,作为新的m值,继续从所述M个时段的时序空间位置数据中随机挑选C组m个时段的空间位置数据,以根据所述覆盖全时段的空间位置数据确定不同时段数值m下每个用户指标值的质量损失系数;
部分时段数据处理单元430,用于确定所述覆盖部分时段的空间位置数据中覆盖m个时段空间位置数据的用户数量;m分别取从2到M之间的整数;
数据质量评估单元440,用于根据所述覆盖部分时段的空间位置数据确定的覆盖m个时段的空间位置数据的用户数量、所述覆盖全时段的空间位置数据确定的每个用户在m个时段下指标值的质量损失系数以及所有用户数量确定所述稀疏采样的空间位置数据的加权质量损失系数,2≤m≤M。
在一个可选的实施例中,所述全时段数据处理单元420,根据偏差度量模型,求得每个用户在各个时段数量m下指标值的质量损失系数,所述偏差度量模型为:Fm(Xu)=AmXu-B;其中,Fm(Xu)表示每个用户u在各个时段数量m下的指标值,Xu表示每个用户在全时段下的指标值,Am为回归系数,B为常数;所述质量损失系数QLm通过如下公式确定:QLm=1-|Am|;其中,|Am|为系数Am的绝对值;将每个用户在各个时段数量m下每个指标值对应的回归系数带入上述公式,分别可求得每个用户在各个时段数量m下回旋半径指标值、移动距离指标值和熵指标值所对应的质量损失系数QLm_Rg,QLm_S和QLm_E
在一个可选的实施例中,所述数据质量评估单元440,通过如下公式确定所述稀疏采样的空间位置数据的各个指标值对应的质量损失系数wQL
Figure BDA0002251825940000151
其中,usersm表示所述覆盖部分时段的空间位置数据中覆盖m个时段空间位置数据的用户数量,users表示所有用户的数量;QLm分别表示每个用户在m个时段下指标值的质量损失系数,QLm具体包括:QLm_Rg,QLm_S或QLm_E;通过分别计算回旋半径、移动距离和熵的质量损失系数wQL_Rg,wQL_S和wQL_E,计算所述稀疏采样的空间位置数据的加权质量损失系数WQL
Figure BDA0002251825940000161
具体地,各个单元的功能可参见前述方法实施例,在此不做赘述。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种空间位置数据的处理方法,其特征在于,包括以下步骤:
步骤1、建立城市空间数据库,导入稀疏采样的空间位置数据至所述城市空间数据库;将所述稀疏采样的空间位置数据划分成覆盖全时段的空间位置数据和覆盖部分时段的空间位置数据;
步骤2、将所述覆盖全时段的空间位置数据按照时段进行划分,划分成M个时段的时序空间位置数据;M为大于或等于2的正整数;
步骤3、从所述M个时段的时序空间位置数据中随机挑选C组m个时段的空间位置数据,M个时段的时序空间位置数据中每个时段的空间位置数据在所述C组m个时段的空间位置数据中均至少被挑选k次以上;m初始值为2,m为小于M的正整数;k为小于或等于C的正整数,C为正整数;
步骤4、计算每组m个时段的空间位置数据对应的每个用户的指标值,并将每个用户在m个时段下的C组指标值求平均作为每个用户在m个时段下的指标值;以及计算M个时段的时序空间位置数据对应的每个用户在全时段下的指标值;所述指标值包括:用户空间活动范围、用户在所述空间活动范围内的活动路径长度、以及用户在所述空间活动范围内不同空间位置上的差异性和不均衡性;
步骤5、根据每个用户在m个时段下的指标值和每个用户在全时段下的指标值确定m个时段对应的指标值偏差,并基于每个用户在m个时段对应的指标值偏差确定每个用户在m个时段下指标值的质量损失系数;
步骤6、若m=M,则执行步骤7,若m小于M,则将m加1,作为新的m值,执行步骤3;
步骤7、确定所述覆盖部分时段的空间位置数据中覆盖m个时段空间位置数据的用户数量,根据所述覆盖部分时段的空间位置数据确定的覆盖m个时段的空间位置数据的用户数量、所述覆盖全时段的空间位置数据确定的每个用户在m个时段下指标值的质量损失系数以及所有用户数量确定所述稀疏采样的空间位置数据的加权质量损失系数,2≤m≤M。
2.根据权利要求1所述的空间位置数据的处理方法,其特征在于,所述步骤1具体包括如下步骤:
将所述稀疏采样的空间位置数据导入至所述城市空间数据库,将每个空间位置数据转换到预设坐标系中,每个空间位置数据包括采样坐标和采样时间。
3.根据权利要求1所述的空间位置数据的处理方法,其特征在于,所述步骤2具体包括如下步骤:
根据实际需求或者采用自适应的方式将覆盖全时段的空间位置数据划分成M个时段的空间位置数据。
4.根据权利要求1所述的空间位置数据的处理方法,其特征在于,所述指标值具体包括:
空间活动范围指标为回旋半径Rg
Figure FDA0002251825930000021
在空间活动范围内的活动路径长度的指标为移动距离S:
Figure FDA0002251825930000022
在空间活动范围内不同空间位置上的访问差异性和不均衡性的指标为熵E:
Figure FDA0002251825930000023
其中,n是m个时段每种组合的空间位置数据或M个时段的空间位置数据中每个用户的空间位置采样点总数,(xj,yj)是每个用户第j个采样点的坐标值,(xc,yc)是每个用户所有采样点位置的重心,n′是每个用户相异的采样位置数量,pi是每个用户第i个相异采样点出现的概率;
每个用户所有采样点位置的重心(xc,yc)的计算公式为:
Figure FDA0002251825930000031
5.根据权利要求4所述的空间位置数据的处理方法,其特征在于,所述步骤5具体包括如下步骤:
根据偏差度量模型,求得每个用户在各个时段数量m下指标值的质量损失系数,所述偏差度量模型为:
Fm(Xu)=AmXu-B
其中,Fm(Xu)表示每个用户u在各个时段数量m下的指标值,Xu表示每个用户在全时段下的指标值,Am为回归系数,B为常数;
所述质量损失系数QL通过如下公式确定:
QLm=1-|Am|
其中,|Am|为系数Am的绝对值;将每个用户在各个时段数量m下每个指标值对应的回归系数带入上述公式,分别可求得每个用户在各个时段数量m下回旋半径指标值、移动距离指标值和熵指标值所对应的质量损失系数QLm_Rg,QLm_S和QLm_E
6.根据权利要求5所述的空间位置数据的处理方法,其特征在于,所述步骤7具体包括如下步骤:
通过如下公式确定所述稀疏采样的空间位置数据的各个指标值对应的质量损失系数ωQL
其中,usersm表示所述覆盖部分时段的空间位置数据中覆盖m个时段空间位置数据的用户数量,users表示所有用户的数量;QLm分别表示每个用户在m个时段下指标值的质量损失系数,QLm具体包括:QLm_Rg,QLm_S或QLm_E
通过分别计算回旋半径、移动距离和熵的质量损失系数wQL_Rg,wQL_S和wQL_E,计算所述稀疏采样的空间位置数据的加权质量损失系数WQL
Figure FDA0002251825930000041
7.一种空间位置数据的处理***,其特征在于,包括:
数据采样单元,用于建立城市空间数据库,导入稀疏采样的空间位置数据至所述城市空间数据库;将所述稀疏采样的空间位置数据划分成覆盖全时段的空间位置数据和覆盖部分时段的空间位置数据;
全时段数据处理单元,用于将所述覆盖全时段的空间位置数据按照时段进行划分,划分成M个时段的时序空间位置数据;M为大于或等于2的正整数;从所述M个时段的时序空间位置数据中随机挑选C组m个时段的空间位置数据,M个时段的时序空间位置数据中每个时段的空间位置数据在所述C组m个时段的空间位置数据中均至少被挑选k次以上;m初始值为2,m为小于M的正整数;k为小于或等于C的正整数,C为正整数;计算每组m个时段的空间位置数据对应的每个用户的指标值,并将每个用户在m个时段下的C组指标值求平均作为每个用户在m个时段下的指标值;以及计算M个时段的时序空间位置数据对应的每个用户在全时段下的指标值;所述指标值包括:用户空间活动范围、用户在所述空间活动范围内的活动路径长度、以及用户在所述空间活动范围内不同空间位置上的差异性和不均衡性;根据每个用户在m个时段下的指标值和每个用户在全时段下的指标值确定m个时段对应的指标值偏差,并基于每个用户在m个时段对应的指标值偏差确定每个用户在m个时段下指标值的质量损失系数;若m=M,则结束处理,若m小于M,则将m加1,作为新的m值,继续从所述M个时段的时序空间位置数据中随机挑选C组m个时段的空间位置数据,以根据所述覆盖全时段的空间位置数据确定不同时段数值m下每个用户指标值的质量损失系数;
部分时段数据处理单元,用于确定所述覆盖部分时段的空间位置数据中覆盖m个时段空间位置数据的用户数量;m分别取从2到M之间的整数;
数据质量评估单元,用于根据所述覆盖部分时段的空间位置数据确定的覆盖m个时段的空间位置数据的用户数量、所述覆盖全时段的空间位置数据确定的每个用户在m个时段下指标值的质量损失系数以及所有用户数量确定所述稀疏采样的空间位置数据的加权质量损失系数,2≤m≤M。
8.根据权利要求7所述的空间位置数据的处理***,其特征在于,所述全时段数据处理单元,根据偏差度量模型,求得每个用户在各个时段数量m下指标值的质量损失系数,所述偏差度量模型为:Fm(Xu)=AmXu-B;其中,Fm(Xu)表示每个用户u在各个时段数量m下的指标值,Xu表示每个用户在全时段下的指标值,Am为回归系数,B为常数;所述质量损失系数QLm通过如下公式确定:QLm=1-|Am|;其中,|Am|为系数Am的绝对值;将每个用户在各个时段数量m下每个指标值对应的回归系数带入上述公式,分别可求得每个用户在各个时段数量m下回旋半径指标值、移动距离指标值和熵指标值所对应的质量损失系数QLm_Rg,QLm_S和QLm_E
9.根据权利要求7所述的空间位置数据的处理***,其特征在于,所述数据质量评估单元,通过如下公式确定所述稀疏采样的空间位置数据的各个指标值对应的质量损失系数ωQL
Figure FDA0002251825930000051
其中,usersm表示所述覆盖部分时段的空间位置数据中覆盖m个时段空间位置数据的用户数量,users表示所有用户的数量;QLm分别表示每个用户在m个时段下指标值的质量损失系数,QLm具体包括:QLm_Rg,QLm_S或QLm_E
通过分别计算回旋半径、移动距离和熵的质量损失系数wQL_Rg,wQL_S和wQL_E,计算所述稀疏采样的空间位置数据的加权质量损失系数WQL
Figure FDA0002251825930000061
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的空间位置数据的处理方法。
CN201911037134.XA 2019-10-29 2019-10-29 一种空间位置数据的处理方法及*** Pending CN110837540A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911037134.XA CN110837540A (zh) 2019-10-29 2019-10-29 一种空间位置数据的处理方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911037134.XA CN110837540A (zh) 2019-10-29 2019-10-29 一种空间位置数据的处理方法及***

Publications (1)

Publication Number Publication Date
CN110837540A true CN110837540A (zh) 2020-02-25

Family

ID=69575718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911037134.XA Pending CN110837540A (zh) 2019-10-29 2019-10-29 一种空间位置数据的处理方法及***

Country Status (1)

Country Link
CN (1) CN110837540A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819033A (zh) * 2021-01-12 2021-05-18 华中科技大学 一种乡村聚落分类方法及***
CN116955482A (zh) * 2023-06-27 2023-10-27 北京邮电大学 基于信息损失约束的数据划分方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231642A (zh) * 2007-08-27 2008-07-30 中国测绘科学研究院 时空数据库管理方法及其***
CN102646070A (zh) * 2012-02-29 2012-08-22 武汉大学 一种基于区域的时空轨迹数据存储方法
CN102722541A (zh) * 2012-05-23 2012-10-10 中国科学院计算技术研究所 一种时空轨迹相似度计算方法及***
CN110189617A (zh) * 2019-05-10 2019-08-30 广州大学 一种城市热环境主控因素的空间制图方法、装置及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231642A (zh) * 2007-08-27 2008-07-30 中国测绘科学研究院 时空数据库管理方法及其***
CN102646070A (zh) * 2012-02-29 2012-08-22 武汉大学 一种基于区域的时空轨迹数据存储方法
CN102722541A (zh) * 2012-05-23 2012-10-10 中国科学院计算技术研究所 一种时空轨迹相似度计算方法及***
CN110189617A (zh) * 2019-05-10 2019-08-30 广州大学 一种城市热环境主控因素的空间制图方法、装置及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
鲁仕维等: "understanding the representativeness of mobile phone location data in characterizing human mobility indicators", 《ISPRS INTERNATIONAL JOURNAL OF GEO-INFORMATION》 *
鲁仕维等: "城市群体移动模式研究中空间尺度影响的定量分析", 《武汉大学学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819033A (zh) * 2021-01-12 2021-05-18 华中科技大学 一种乡村聚落分类方法及***
CN116955482A (zh) * 2023-06-27 2023-10-27 北京邮电大学 基于信息损失约束的数据划分方法及装置
CN116955482B (zh) * 2023-06-27 2024-06-04 北京邮电大学 基于信息损失约束的数据划分方法及装置

Similar Documents

Publication Publication Date Title
Comber et al. Spatial interpolation using areal features: A review of methods and opportunities using new forms of data with coded illustrations
Wu et al. Telcovis: Visual exploration of co-occurrence in urban human mobility based on telco data
JP6141393B2 (ja) 目標位置を確定するための方法及び装置
Long et al. Mapping block-level urban areas for all Chinese cities
Han et al. Radio environment map construction by kriging algorithm based on mobile crowd sensing
CN106776928B (zh) 基于内存计算框架、融合社交及时空数据的位置推荐方法
Song et al. QoI-aware energy-efficient participant selection
KR20180101472A (ko) 사용자가 위치되는 지리적 위치의 유형을 식별하기 위한 방법 및 디바이스
CN110414732A (zh) 一种出行未来轨迹预测方法、装置、储存介质及电子设备
CN106162544A (zh) 一种地理围栏的生成方法和设备
CN116437291B (zh) 一种基于手机信令的文化圈规划方法和***
CN111400747B (zh) 一种基于轨迹隐私保护的度量方法
CN110837540A (zh) 一种空间位置数据的处理方法及***
CN109284449A (zh) 兴趣点的推荐方法和装置
CN108038734B (zh) 基于点评数据的城市商业设施空间分布探测方法及***
CN108665513A (zh) 基于用户行为数据的绘图方法和装置
Song et al. Personalized poi recommendation based on check-in data and geographical-regional influence
CN110059795A (zh) 一种融合地理位置与时间特征的移动用户节点组网方法
Zou et al. An innovative GPS trajectory data based model for geographic recommendation service
CN107909498B (zh) 基于最大化接受者操作特征曲线下方面积的推荐方法
CN106844626B (zh) 利用微博关键词和位置信息模拟空气质量的方法及***
Liao et al. A mobility model for synthetic travel demand from sparse traces
CN112613530A (zh) 基于自适应密度聚类算法的小区住户识别方法和***
CN112287503A (zh) 用于交通需求预测的动态空间网络构建方法
CN116796083A (zh) 一种空间数据划分方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200225