CN103678905A - 基于轨迹数据的质量评估方法 - Google Patents

基于轨迹数据的质量评估方法 Download PDF

Info

Publication number
CN103678905A
CN103678905A CN201310661072.6A CN201310661072A CN103678905A CN 103678905 A CN103678905 A CN 103678905A CN 201310661072 A CN201310661072 A CN 201310661072A CN 103678905 A CN103678905 A CN 103678905A
Authority
CN
China
Prior art keywords
entropy
data
grid
track
track data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310661072.6A
Other languages
English (en)
Other versions
CN103678905B (zh
Inventor
黄�俊
张帆
李晔
须成忠
王丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201310661072.6A priority Critical patent/CN103678905B/zh
Publication of CN103678905A publication Critical patent/CN103678905A/zh
Application granted granted Critical
Publication of CN103678905B publication Critical patent/CN103678905B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于轨迹数据的质量评估方法,包括步骤:S1、将轨迹数据表示为四个维度的元组集合,获得地图;S2、对所述轨迹数据按照实体进行分组,采用时间维度对所述分组排序,并将所述轨迹数据的每条轨迹转换成有序线段的集合;S3、划分所述地图为大小相等的格子,将所述轨迹数据投影到所述格子中;S4、计算所述格子的熵,并计算全部所述格子的平均熵和加权平均熵。本发明利用熵对轨迹数据质量进行有效评估,以实现对多份轨迹数据的数据质量的比较,分析使用其进行数据分析的可行性,数据质量评估简单、有效、低成本。

Description

基于轨迹数据的质量评估方法
技术领域
本发明涉及信息技术领域,具体涉及基于轨迹数据的质量评估方法。
背景技术
人类、动物、以及一切可移动的设备都可以根据时间刻画其行为的轨迹,而科技的发展可以利用不同的设备对人类或可动物体的移动轨迹进行刻画。例如,对出租车安装GPS设备可以记录汽车的移动轨迹;移动手机用户其移动电话对通信基站的通信(Check-In)可以反应用户的移动轨迹。
对于轨迹数据的分析在地理信息科学、人类动力行为学、动物行为学、商业决策等方面按将会有重要而关键的意义。而上述轨迹数据由于设备能力限制、或者传输过程出现错误、或者数据录入过程出现问题,将可能导致低质量数据的出现。大量低质量的数据可能会反映错误的情况,从而导致无法预料的情况出现,因此如何评估数据质量的好坏成为分析和使用轨迹数据的一个关键任务。
现有技术大多是人工地对数据进行分门别类的仔细查看,从而找出不符合常理或者明显错误的部分。例如,手动把轨迹画在地图上,之后通过肉眼查看明显出问题的轨迹。将会花费大量的人力对数据进行预处理和可视化,并且找出数据的缺陷需要人的经验和运气。
发明内容
本发明要解决的技术问题在于提供一种精确的基于轨迹数据的质量评估方法。
本发明的技术方案包括一种基于轨迹数据的质量评估方法,包括步骤:S1、将轨迹数据表示为四个维度的元组集合,获得地图;S2、对所述轨迹数据按照实体进行分组,采用时间维度对所述分组排序,并将所述轨迹数据的每条轨迹转换成有序线段的集合;S3、划分所述地图为大小相等的格子,将所述轨迹数据投影到所述格子中;S4、计算所述格子的熵,并计算全部所述格子的平均熵和加权平均熵。
优选地,所述步骤S1具体包括,S11、将所述轨迹数据表示为四个维度的元组集合<o,t,x,y>,每一元组为一次定位;S12、所述o为定位实体的编号,且所述实体与所述编号一一对应;S13、所述t为定位发生的时间;S14、所述x和y为所述实体o在所述时间t的位置,所述x和y坐标轴为二维平面,即地图。
优选地,所述二维平面为以地球经度和维度作为坐标轴的二维平面。
优选地,所述二维平面为以地球经度和维度作为坐标轴进行线性或非线性可逆扭曲生成的二维平面。
优选地,所述步骤S2具体包括,S21、对所述轨迹数据按照所述实体o进行分组,将具有相同编号的定位数据分为一组;S22、对所述分组的定位数据按照所述时间t进行排序;S23、将所述分组内相邻时间的两个所述定位数据记录为一个轨迹线段,所述线段的两端点分别为两个所述定位数据记录,进而将所述轨迹数据转换为有序线段的集合。
优选地,所述步骤S3为,使用距离固定的平行于所述x和y坐标轴的直线族划分所述地图为大小相等的正方形,并对每一所述格子定义对应的编号,将每一定位数据根据位置信息投影到所述地图的所述格子中。
优选地,所述步骤S4为,S41、对所述编号的格子,找出所有起点落入所述格子的轨迹线段,统计所述轨迹线段的终点分布,计算所述格子对应的熵;S42、对所述地图上的所述格子计算一熵,并刻画所述地图的熵分布;S43、所述熵分布的平均值和加权平均值即为平均熵和加权平均熵。
本发明的有益效果:利用熵对轨迹数据质量进行有效评估,以实现对多份轨迹数据的数据质量的比较,分析使用其进行数据分析的可行性,数据质量评估简单、有效、低成本。
附图说明
图1为本发明一实施例的质量评估方法的流程图。
图2为本发明一实施例的质量评估方法的熵结果图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
如图1所示,本发明实施例提供一种基于轨迹数据的质量评估方法,包括步骤:
S1、将轨迹数据表示为四个维度的元组集合,获得地图;
S2、对轨迹数据按照实体进行分组,采用时间维度对分组排序,并将轨迹数据的每条轨迹转换成有序线段的集合;
S3、划分地图为大小相等的格子,将轨迹数据投影到格子中;
S4、计算格子的熵,并计算全部格子的平均熵和加权平均熵。
本发明实施例利用熵对轨迹数据质量进行有效评估,对轨迹数据进行数据质量评估,以实现对多份轨迹数据的数据质量的比较,分析使用其进行数据分析的可行性,数据质量评估简单、有效、低成本。
具体地,步骤S1包括,
S11、将轨迹数据表示为四个维度的元组集合<o,t,x,y>,每一元组为一次定位;即将轨迹数据看作定位的集合;
S12、o为定位实体的编号,且实体与编号一一对应;一个编号只代表一个实体,如出租车的车牌号仅代表一辆出租车;
S13、t为定位发生的时间;
S14、x和y为实体o在时间t的位置,x和y坐标轴为二维平面,即地图。
进一步地,二维平面为以地球经度和维度作为坐标轴的二维平面;亦或是以地球经度和维度作为坐标轴进行线性或非线性可逆扭曲生成的二维平面。
步骤S2具体为,
S21、对轨迹数据按照实体o进行分组,将具有相同编号的定位数据分为一组;
S22、对分组的定位数据按照时间t进行排序;将时间在前面的定位数据放在前面排序;
S23、将分组内相邻时间的两个定位数据记录为一个轨迹线段,线段的两端点分别为两个定位数据记录,其中,比较早的定位数据为起点,,另一个定位数据为终点,进而将轨迹数据转换为有序线段的集合。
步骤S3为,使用距离固定的平行于x和y坐标轴的直线族划分地图为大小相等的正方形,并对每一格子定义对应的编号,给定一编号就能找到地图上的一个格子,将每一定位数据根据位置信息投影到地图的格子中,从而映射到对应的编号中。
计算格子的熵,并计算全部格子的平均熵和加权平均熵为,
S41、对于地图上每一个带有编号的格子,找出所有起点落入格子的轨迹线段,统计轨迹线段的终点分布,计算格子对应的熵;
S42、对地图上的格子计算一熵,并刻画地图的熵分布;
S43、熵分布的平均值和加权平均值即为平均熵和加权平均熵。
本发明实施例还进一步详细提供实施步骤,具体如下。
将轨迹数据转换成如下格式:
P=<o,t,x,y>
代表物体o在时间t处于位置x,y。其中,o唯一代表一现实世界存在的实体,(x,y)是二维平面上的两个坐标。
上述二维平面的坐标轴(x,y)可以是:①、以地球经度和维度作为坐标轴的二维平面;②、以地球经度和维度作为坐标轴进行任意线性或非线性可逆转换而生成的二维平面。进而每一轨迹数据成为一次定位数据。整个轨迹数据即为定位数据的集合,其中坐标轴原点可以是平面上任意一点。
对于所有的定位数据,将其按照o进行分组,假定总共有k不同的实体o,在分组内按照时间t进行排序,获得有序的数据组集合
{Pj|j=1…ki},i=1...k,
其中,ki代表每一分组的定位数据的数目。
对于每一分组,可以将相邻时间的两定位数据记录为一个轨迹线段,轨迹线段的两个端点是两次定位:
{(Pj,Pj+1)|j=1…ki-1},i=1...k,
其中,(Pj,Pj+1)为轨迹线段,Pj为起点,Pj+1为终点。
上述二维平面为一地图,给定一个距离d,在地图上画出平行于两个坐标轴(x,y)的一系列平行直线族,相邻两个平行直线的距离为d。进而整个地图被划分为大小相等的正方形,建立一个可逆映射,将每一格子投影到自然数集N上,长度d的选取参考数据定位的时间间隔和平均移动速度。对于地图上每一个点P,把点P投影到所属的格子上,并投影到其编号上,即:
F:R2→N,F(P)=r
将上述的轨迹线段集合中的每一轨迹线段的端点都投影到长度为d的格子上,那么每一条轨迹线段均转换成两个格子编号
(Pj,Pj+1)→F(Pj),F(Pj+1))=(rjs,rj+1,t)
轨迹线段集合通过上述方法转换成格子编号元组数据后,对于每一格子r,均找出以上述格子为起点的所有线段
{(F(Pj),F(Pj+1))|F(Pj)=r}
一格子的熵定义为:
E r = &Sigma; p c rp c r log c rp c r
此处:
crp=|{(F(Pj),F(Pj+1))|F(Pj)=r&F(Pj+1)=p}|
以及
c r = &Sigma; p c rp
由此,刻画出整个地图每一个格子的分布。
一份数据的平均熵就是利用上述方法计算出每一个格子的熵,然后求平均:
E avg = &Sigma; E r &NotEqual; 0 E r &Sigma; E r &NotEqual; 0 1
其中,加权平均熵为:
E w = &Sigma; E r &NotEqual; 0 c r E r &Sigma; E r &NotEqual; 0 c r
评估一份轨迹数据好坏的方法即比较器加权平均熵或者平均熵,其中较低者数据质量较好。
如图2所示,对2013年07月28日的整日出租车GPS数据的熵的计算结果,源数据被提取两份样本,分别是上传频率为2次/分钟和1次/分钟的熵的分布,由此发现上传频率越高熵越小。
以上所述本发明的具体实施方式,并不构成对本发明保护范围的限定。任何根据本发明的技术构思所作出的各种其他相应的改变与变形,均应包含在本发明权利要求的保护范围内。

Claims (7)

1.一种基于轨迹数据的质量评估方法,其特征在于,包括步骤:
S1、将轨迹数据表示为四个维度的元组集合,获得地图;
S2、对所述轨迹数据按照实体进行分组,采用时间维度对所述分组排序,并将所述轨迹数据的每条轨迹转换成有序线段的集合;
S3、划分所述地图为大小相等的格子,将所述轨迹数据投影到所述格子中;
S4、计算所述格子的熵,并计算全部所述格子的平均熵和加权平均熵。
2.根据权利要求1所述的质量评估方法,其特征在于,所述步骤S1具体包括,
S11、将所述轨迹数据表示为四个维度的元组集合<o,t,x,y>,每一元组为一次定位;
S12、所述o为定位实体的编号,且所述实体与所述编号一一对应;
S13、所述t为定位发生的时间;
S14、所述x和y为所述实体o在所述时间t的位置,所述x和y坐标轴为二维平面,即地图。
3.根据权利要求2所述的质量评估方法,其特征在于,所述二维平面为以地球经度和维度作为坐标轴的二维平面。
4.根据权利要求2所述的质量评估方法,其特征在于,所述二维平面为以地球经度和维度作为坐标轴进行线性或非线性可逆扭曲生成的二维平面。
5.根据权利要求2所述的质量评估方法,其特征在于,所述步骤S2具体包括,
S21、对所述轨迹数据按照所述实体o进行分组,将具有相同编号的定位数据分为一组;
S22、对所述分组的定位数据按照所述时间t进行排序;
S23、将所述分组内相邻时间的两个所述定位数据记录为一个轨迹线段,所述线段的两端点分别为两个所述定位数据记录,进而将所述轨迹数据转换为有序线段的集合。
6.根据权利要求2所述的质量评估方法,其特征在于,所述步骤S3为,使用距离固定的平行于所述x和y坐标轴的直线族划分所述地图为大小相等的正方形,并对每一所述格子定义对应的编号,将每一定位数据根据位置信息投影到所述地图的所述格子中。
7.根据权利要求1所述的质量评估方法,其特征在于,所述步骤S4为,
S41、对所述编号的格子,找出所有起点落入所述格子的轨迹线段,统计所述轨迹线段的终点分布,计算所述格子对应的熵;
S42、对所述地图上的所述格子计算一熵,并刻画所述地图的熵分布;
S43、所述熵分布的平均值和加权平均值即为平均熵和加权平均熵。
CN201310661072.6A 2013-12-09 2013-12-09 基于轨迹数据的质量评估方法 Active CN103678905B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310661072.6A CN103678905B (zh) 2013-12-09 2013-12-09 基于轨迹数据的质量评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310661072.6A CN103678905B (zh) 2013-12-09 2013-12-09 基于轨迹数据的质量评估方法

Publications (2)

Publication Number Publication Date
CN103678905A true CN103678905A (zh) 2014-03-26
CN103678905B CN103678905B (zh) 2017-06-13

Family

ID=50316435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310661072.6A Active CN103678905B (zh) 2013-12-09 2013-12-09 基于轨迹数据的质量评估方法

Country Status (1)

Country Link
CN (1) CN103678905B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108279428A (zh) * 2017-01-05 2018-07-13 武汉四维图新科技有限公司 地图数据评测装置及***、数据采集***及采集车和采集基站
CN110866000A (zh) * 2019-11-20 2020-03-06 珠海格力电器股份有限公司 数据质量评价方法、装置、电子设备及存储介质
CN111369787A (zh) * 2018-12-26 2020-07-03 杭州海康威视***技术有限公司 一种车辆轨迹预测方法、装置及电子设备
CN111811542A (zh) * 2020-08-07 2020-10-23 中国矿业大学(北京) 一种基于轨迹数据的寻路性能分布计算方法及***
CN113642845A (zh) * 2021-07-13 2021-11-12 同济大学 一种道路交通感知轨迹数据的质量评估方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464158B (zh) * 2009-01-15 2011-04-20 上海交通大学 基于gps定位的道路网络栅格数字地图自动生成方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108279428A (zh) * 2017-01-05 2018-07-13 武汉四维图新科技有限公司 地图数据评测装置及***、数据采集***及采集车和采集基站
CN111369787A (zh) * 2018-12-26 2020-07-03 杭州海康威视***技术有限公司 一种车辆轨迹预测方法、装置及电子设备
CN110866000A (zh) * 2019-11-20 2020-03-06 珠海格力电器股份有限公司 数据质量评价方法、装置、电子设备及存储介质
CN110866000B (zh) * 2019-11-20 2022-04-08 珠海格力电器股份有限公司 数据质量评价方法、装置、电子设备及存储介质
CN111811542A (zh) * 2020-08-07 2020-10-23 中国矿业大学(北京) 一种基于轨迹数据的寻路性能分布计算方法及***
CN111811542B (zh) * 2020-08-07 2021-08-06 中国矿业大学(北京) 一种基于轨迹数据的寻路性能分布计算方法及***
CN113642845A (zh) * 2021-07-13 2021-11-12 同济大学 一种道路交通感知轨迹数据的质量评估方法
CN113642845B (zh) * 2021-07-13 2023-09-26 同济大学 一种道路交通感知轨迹数据的质量评估方法

Also Published As

Publication number Publication date
CN103678905B (zh) 2017-06-13

Similar Documents

Publication Publication Date Title
CN103678905A (zh) 基于轨迹数据的质量评估方法
US9733094B2 (en) Hybrid road network and grid based spatial-temporal indexing under missing road links
CN106528597B (zh) 兴趣点的标注方法以及装置
Koutsoyiannis et al. On the credibility of climate predictions
CN105163337B (zh) 一种基于覆盖预测仿真的移动网络数据地理映射的方法
CN105825242B (zh) 基于混合网格分层聚类的集群通信终端轨迹实时异常检测方法与***
CN110567510A (zh) 大气污染监测方法、***、计算机设备和存储介质
CN109031472B (zh) 一种用于气象预测的数据处理方法及装置
Schnell et al. Skill in forecasting extreme ozone pollution episodes with a global atmospheric chemistry model
CN103929719B (zh) 定位信息的优化方法和优化装置
Noor et al. Determination of spatial factors in measuring urban sprawl in Kuantan using remote sensing and GIS
US20040210938A1 (en) Method and system for automatically analyzing and modifying cable television signal leak information
Jung et al. Statistical modeling of near-surface wind speed: a case study from Baden-Wuerttemberg (Southwest Germany)
CN105844031B (zh) 一种基于手机定位数据的城市交通廊道识别方法
TWI412237B (zh) 資料收集器、電腦可讀取媒體、資料收集方法、及進行模擬的方法
CN111177289A (zh) 众源网络数据空间相关信息提取校验方法与***
CN117610779B (zh) 基于cors大数据的测绘地理信息质量监管方法及***
CN113990508A (zh) 一种基于手机app的个体空气污染暴露精确评估方法
Márquez et al. A methodological framework to quantify the spatial quality of biological databases
CN104602271A (zh) 一种覆盖优化中问题区域的生成方法及装置
CN114443787B (zh) 大气污染特征识别方法和装置
CN106291756A (zh) 临近空间大气虚拟环境资源的构建方法
CN116027117A (zh) 一种电磁环境质量监测方法、装置、电子设备及存储介质
CN104392490A (zh) 基于gis平台的电网资源格网化气象影响范围分析方法
CN115454993A (zh) 一种具备时空信息的空间电磁环境特征数据处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant