CN107241693A

CN107241693A - 一种大数据环境下无坐标传感器位置确定方法

Info

Publication number: CN107241693A
Application number: CN201710317093.4A
Authority: CN
Inventors: 刘杰; 顾高翔; 张颖; 吴佳玲; 郭鹏; 宫龙
Original assignee: Shanghai Pulse Mdt Infotech Ltd
Current assignee: Shanghai Pulse Mdt Infotech Ltd
Priority date: 2017-05-08
Filing date: 2017-05-08
Publication date: 2017-10-10
Anticipated expiration: 2037-05-08
Also published as: CN107241693B

Abstract

本发明的目的是利用移动终端个体在指定时间范围内的空间活动数据集，挖掘大量个体的出行时空序列数据，使用时空序列中与位置信息缺失的传感器(目标传感器)相邻的其他有准确位置信息的传感器的时间和空间坐标信息，计算出目标传感器的空间位置。为了达到上述目的，本发明提供了一种大数据环境下无坐标传感器位置确定方法。本发明利用通信网络中已有海量匿名移动终端持续的加密位置信息，即能低成本、自动化、便捷地获取指定时间范围内大量人口的出行轨迹，利用轨迹中与位置信息缺失点邻近的传感器位置补全目标传感器所缺失的空间信息，弥补了由于传感器空间位置缺失导致的在海量数据处理过程中遇到的困难。

Description

一种大数据环境下无坐标传感器位置确定方法

技术领域

本发明涉及一种基于海量匿名加密时间序列定位数据的传感器缺失位置坐标信息的补全方法，根据个体的时间和空间位置数据构建个体出行时空序列数据，查找位置缺失点前后的位置信息，以此为基础计算该位置信息缺失点空间位置的分布概率；通过计算个体在位置信息缺失点与其邻近点之间的通行时间和在通过位置信息缺失点附近时的通行速度，采用最小二乘法测算位置信息缺失点的空间位置。

背景技术

近年来，随着信息技术的发展，数据信息量呈现***式增长，数据来源越来越多，数据量也越来越庞大。其中，由手机、WIFI、物联网等信息传感器记录的数据已经成为大数据分析中最重要的数据来源，其较为完备的个体出行记录为大数据，尤其是交通大数据分析提供了很好的数据支持。以手机为例，至2015年，手机用户达到13.06亿，占到总人口的96％以上，手机终端设备持续产生的信号信息，形成了记录用户出行的一系列数据集，为交通出行分析提供了重要的数据来源。

然而，当前直接获得的传感器数据仍然存在种种问题，需要大数据分析人员对其进行后期的加工处理。其中，传感器坐标位置信息的缺失使得用户个体在空间上的出行轨迹出现中断，导致其时空序列不完整，给大数据分析处理带来了很大的不便。此外部分传感器坐标位置信息的缺失，也给判别通信记录中传感器信息本身是否正确带来难度。因此，采取一定的算法，利用已有移动终端与传感器之间的通信记录数据对缺失位置信息的传感器的空间位置进行挖掘，补全其空间坐标具有重要的实用价值。

根据地理学第一定律，地理事物或属性在空间分布上互为相关。因此在大样本统计上，个体出行轨迹中邻近的通信数据所对应的不同的传感器也一定在空间上存在很强的相关性。

发明内容

本发明的目的是利用移动终端个体在指定时间范围内的空间活动数据集，挖掘大量个体的出行时空序列数据，使用时空序列中与位置信息缺失的传感器(目标传感器)相邻的其他有准确位置信息的传感器的时间和空间坐标信息，计算出目标传感器的空间位置。

为了达到上述目的，本发明的技术方案是提供了一种大数据环境下无坐标传感器位置确定方法，其特征在于，包括以下步骤：

步骤1、***读取从传感器运营商获取匿名加密移动终端传感器数据，匿名加密移动终端传感器数据在时间与空间上都是连续的，不同移动终端对应不同的EPID，对每个EPID在指定时间段T内所触发的通信行为进行查询处理分析，将每条存在空间位置缺失传感器的记录实例化为一个目标点对象，所有目标点对象构成一个目标点列表；

步骤2、遍历目标点列表，将第一个目标点作为当前目标点，进入步骤3；

步骤3、提取当前目标点的传感器编号和用户标识EPID，提取该用户的行程轨迹，根据行程轨迹，沿时间轴向后查找用户在与当前目标点通信前的所有信令记录，由信令记录中N个有准确坐标的传感器的传感器编号组成向后邻近传感器列表STATION_LIST_Bw，同时，沿时间轴向前查找用户在与当前目标点通信后的所有信令记录，由信令记录中N个有准确坐标的传感器的传感器编号组成向前邻近传感器列表STATION_LIST_Fw；

步骤4、提取向后邻近传感器列表STATION_LIST_Bw及向前邻近传感器列表STATION_LIST_Fw中传感器的准确坐标，获得当前目标点在空间上的出现概率，绘制目标点空间位置的概率分布图；

步骤5、计算概率分布图上邻接传感器之间的时间间隔，根据时间间隔和已知空间位置的邻近传感器之间的距离，估算出用户从当前目标点到前、后两个最邻近的传感器的行走速度，从而估算出当前目标点到前、后两个最邻近的传感器的距离；

步骤6、将当前目标点的前、后两个最邻近的传感器的坐标以及步骤4估算得到的当前目标点到前、后两个最邻近的传感器的距离导入数学建模软件，采用最小二乘法计算当前目标点的空间位置；

步骤7、若目标点列表已经遍历完毕，则退出，否则，将目标点列表中的下一个目标作为当前目标点，返回步骤3。

优选地，所述步骤1包括：

步骤1.1、***读取从传感器运营商获取匿名加密移动终端传感器数据，匿名加密移动终端传感器数据在时间与空间上都是连续的，包括：EPID、通信动作类型TYPE、通信动作发生时刻TIME、传感器所处大区REGIONCODE、传感器具体编号SENSORID，传感器所处大区REGIONCODE及传感器具体编号SENSORID构成了传感器编号；

步骤1.2、一条匿名加密移动终端传感器数据为一个通信记录，对每条通信记录进行解密，判断当前通信记录中的传感器编号转换后是否有传感器真实经度坐标LON及传感器真实纬度坐标LAT，若没有，则将当前通信记录实例化为一个目标点对象，若有，进一步判断得到的传感器真实经度坐标LON及传感器真实纬度坐标LAT是否落在感兴趣区域，若不是，则将当前通信记录实例化为一个目标点对象；

步骤1.3、步骤1.2得到的所有目标点对象构成一个目标点列表。

优选地，所述步骤3包括：

步骤3.1、查询当前目标点总的记录数和经过当前目标点的用户的数量，若总记录数小于N，或用户绝对数小于M，则视为当前目标点为无效点，注销当前目标点对象，同时注销传感器编号与该目标点对象一致的所有目标点对象，进入步骤7，否则，进入步骤3.2；

步骤3.2、提取当前目标点的传感器编号，将当前目标点作为目标传感器，提取目标点的EPID，查询当前EPID的所有记录，构建当前EPID的时空序列；

步骤3.3、在时空序列中定位目标传感器所在时间位置，沿时间轴向后遍历所有通信记录，查到到N个最邻近的有正确传感器真实经度坐标LON和传感器真实纬度坐标LAT值的传感器，包括以下步骤：

步骤3.3.1、查找当前EPID及通信动作发生时刻TIME，将通信动作发生时刻TIME作为目标传感器的通信时间TIMESTAMP；

步骤3.3.2、查询当前EPID在与目标传感器通信前的所有信令记录，逆向排序；

步骤3.3.2、记录目标传感器的传感器所处大区REGIONCODE、传感器具体编号SENSORID和通信时间TIMEPSTAMP，作为查询过程中的比较编号REGIONCODE_L、比较编号SENSORID_L和比较时间TIME_L；

步骤3.3.3、开始遍历所有信令记录，将第一条信令记录作为当前信令记录；

步骤3.3.4、若当前信令记录中传感器所处大区REGIONCODE及传感器具体编号SENSORID与比较编号REGIONCODE_L及比较编号SENSORID_L一致，则跳过当前信令记录，进入步骤3.3.6；

若当前信令记录中的通信动作发生时刻TIME与比较时间TIME_L一致，则跳过当前信令记录，进入步骤3.3.6；

若当前信令记录中的传感器没有准确的传感器真实经度坐标LON和传感器真实纬度坐标LAT，且不是目标传感器，则从时空序列中删去该条信令记录，进入步骤3.3.6，若是目标传感器，则判断其与第一条信令记录之间是否存在其他传感器，若存在，则删去该条信令记录，进入步骤3.3.6，若不存在，则跳过该条信令记录，进入步骤3.3.6；

若当前信令记录中的传感器编号与通信动作发生时刻TIME均与上一条信令记录不同，则将当前信令记录的传感器作为邻近点，将邻近点的传感器编号，即传感器所处大区REGIONCODE及传感器具体编号SENSORID，储存到向后邻近传感器列表STATION_LIST_Bw中，将当前信令记录的通信动作发生时刻TIME存入向后时间列表TIME_LIST_Bw；

步骤3.3.5、将比较编号REGIONCODE_L、比较编号SENSORID_L和比较时间TIME_L更新为当前信令记录的传感器所处大区REGIONCODE、传感器具体编号SENSORID、通信动作发生时刻TIME；

步骤3.3.6、向后邻近传感器列表STATION_LIST_Bw是否已存下N个邻近点，若是，则进入下一步，若不是，则进一步判断是否遍历完所有信令记录，若已遍历完所有信令记录，则记录向后邻近传感器列表STATION_LIST_Bw的实际长度后进入下一步，若未遍历完所有信令记录，则将下一条信令记录作为当前信令记录后，返回步骤3.3.4；

步骤3.4、采用与步骤3.3.1至步骤3.3.6相同的方法，沿时间轴向前遍历所有通信记录，查到N个最邻近的有正确传感器真实经度坐标LON和传感器真实纬度坐标LAT值的传感器作为N个邻近点，生成向前邻近传感器列表STATION_LIST_Fw及向前时间列表TIME_LIST_Fw。

优选地，在步骤3.3.4中，当在所述向后邻近传感器列表STATION_LIST_Bw中存储第n个邻近点的传感器编号后，回溯前一条信令记录，若前一条信令记录的传感器编号与第n-1个邻接点的传感器编号相同，计算当前EPID首次和末次与当前信令记录对应的传感器通信的时间，求其平均值，其中：首次通信时间储存于向后时间列表TIME_LIST_Bw，为TIME_LIST_Bw[n-1]，末次通信时间为TIME_LX，取其平均为(TIME_LX+TIME_LIST_Bw[n-1])/2，作为第n-1个邻接点的通信时间TIME_LIST_Bw[n-1]，并清空TIME_LX；

若n＝1，且前一条信令记录的传感器编号与目标传感器一致，另行从通信时间TIMESTAMP开始向前遍历，找到目标传感器在该次连续通信的终点，计算起点和终点之间的平均时间，作为目标传感器的通信时间TIMESTAMP。

优选地，所述步骤4包括：

步骤4.1、提取当前目标点的向前邻近传感器列表STATION_LIST_Fw和向后邻近传感器列表STATION_LIST_Bw，向前邻近传感器列表STATION_LIST_Fw和向后邻近传感器列表STATION_LIST_Bw中的传感器为向后邻近传感器及向前邻近传感器，计算每个向后邻近传感器及向前邻近传感器与目标点之间的时间间隔，提取出与目标点时间间隔小于T的向后邻近传感器及向前邻近传感器，加权记录每个向后邻近传感器及向前邻近传感器出现的频次，N个向前邻近传感器STATION_LIST_Fw[0]，STATION_LIST_Fw[1]，...，STATION_LIST_Fw[N-1]的权重分别为N，N-1，...，1，N个向后邻近传感器STATION_LIST_Bw[0]，STATION_LIST_Bw[1]，...，STATION_LIST_Bw[N-1]的权重分别为N，N-1，...，1；

步骤4.2、将向后邻近传感器及向前邻近传感器的传感器真实经度坐标LON和传感器真实纬度坐标LAT坐标，以及其加权后的出现频次导入ArcGIS，采用空间插值法获得目标点在空间上的出现概率；

步骤4.3、绘制目标点空间位置的概率分布图。

优选地，所述步骤5包括：

步骤5.1、根据目标点的通信时间TIMESTAMP和向后邻近传感器及向前邻近传感器的向后时间列表TIME_LIST_Bw和向前时间列表TIME_LIST_Fw计算传感器之间的向前时间间隔TIME_INTERVAL_Fw和向后时间间隔TIME_INTERVAL_Bw；

步骤5.2、将两两邻接传感器的传感器真实经度坐标LON和传感器真实纬度坐标LAT转化为墨卡托坐标系下的X坐标和Y坐标，计算两两邻接传感器间的向前距离DISTANCE_Fw和向后距离DISTANCE_Bw；

步骤5.3、根据时间间隔和距离，计算用户从目标传感器到与其向前邻接的传感器的平均速度SPEED_Fw和与其向后邻接的传感器的平均速度SPEED_Bw；

步骤5.4、估算目标点到向后邻近传感器的距离DISTANCE_Bw＝TIME_INTERVAL_Bw×SPEED_Bw；

估算目标点到向前邻近传感器的距离DISTANCE_Fw＝TIME_INTERVAL_Fw×SPEED_Fw；

步骤5.5、保存向前邻近传感器的X，Y坐标和距离DISTANCE_Fw以及向后邻近传感器的X，Y坐标和距离DISTANCE_Bw。

优选地，所述步骤6包括：

步骤6.1、将向前邻近传感器的X，Y坐标和距离DISTANCE_Fw以及向后邻近传感器的X，Y坐标和距离DISTANCE_Bw存储为.xls文件，作为GAMS程序的输入参数；

步骤6.2、设计计算目标点空间位置的最小二乘法算法，该算法是一个非线性规划，其求解变量是目标点的X、Y坐标，约束条件是从目标点到邻接传感器的距离，目标函数是使目标点到邻接传感器的距离和估算距离DISTANCE_Fw或DISTANCE_Bw最小；

步骤6.3、完成当前目标点的空间位置信息计算，同时注销所有传感器编号为当前目标点的目标点对象，进入步骤7。

本发明对于移动终端大数据进行处理和筛选，由个体所持移动终端和传感器之间的通信记录构建出个体出行的时空序列数据，通过查找个体行程中位置信息缺失传感器(目标传感器)前后的邻接点，采用GIS技术得到目标点空间位置的分布概率图；通过个体行程中目标传感器前后经过的若干邻近的有准确位置信息的传感器，计算用户通过目标传感器的大致速度，以此为基础采用最小二乘法获得目标传感器的空间坐标。

本发明的优点是：充分依托现有的用户持有的移动终端与传感器之间的通信大数据资源，利用通信网络中已有海量匿名移动终端持续的加密位置信息，即能低成本、自动化、便捷地获取指定时间范围内大量人口的出行轨迹，利用轨迹中与位置信息缺失点邻近的传感器位置补全目标传感器所缺失的空间信息，弥补了由于传感器空间位置缺失导致的在海量数据处理过程中遇到的困难。

附图说明

图1是本发明提出的大数据环境下无坐标传感器位置确定算法总体方法图；

图2(a)至图2(d)为四种时间阈值下目标点空间分布概率，其中，图2(a)T＝7200s；图2(b)T＝3600s；图2(c)T＝1800s小时；图2(d)T＝600s。

具体实施方式

为使本发明更明显易懂，兹以优选实施例，并配合附图作详细说明如下。

步骤1、***读取从传感器运营商获取匿名加密移动终端传感器数据，要求数据在时间与空间上都是连续的，对每个EPID(匿名单向加密全球唯一移动终端标识码，EncryPtion international mobile subscriber IDentity)在指定时间段T内，所触发的通信行为进行查询处理分析，判断与该EPID在该时间段内发生过通信行为的传感器，是否都有完备的空间坐标信息。

匿名加密移动终端传感器数据是运营商从移动通信网络、固定宽带网络、无线WIFI以及位置服务相关APP等实时获取并脱敏加密后的匿名手机用户时间序列的加密位置信息，内容包括：EPID、TYPE、TIME、REGIONCODE、SENSORID，参见申请号为201610273693.0的中国专利。具体介绍如下：

EPID(匿名单向加密全球唯一移动终端标识码，EncryPtion internationalmobile subscriber IDentity)，是对每个移动终端用户进行单向不可逆加密，从而唯一标识每个移动终端用户，且不暴露用户号码隐私信息，要求每个移动终端用户加密后的EPID保持唯一性，即任意时刻各手机用户的EPID保持不变且不与其它手机用户重复。

TYPE，是当前记录所涉及的通信动作类型，如，上网、通话、主被叫、收发短信、GPS定位、传感器小区切换、传感器切换、开关机等。

TIME，是当前记录所涉及的通信动作发生时刻，单位为毫秒。

REGIONCODE、SENSORID是当前记录所涉及的通信动作发生的传感器加密位置信息。REGIONCODE、SENSORID传感器的编号，其中REGIONCODE代表传感器所处大区，SENSORID是具体的传感器的编号。

步骤1.1、一条匿名加密移动终端传感器数据为一个通信记录，对每条通信记录进行解密，判断当前通信记录中的传感器编号转换后是否有传感器真实经度坐标LON及传感器真实纬度坐标LAT，若没有，则将当前通信记录实例化为一个目标点对象，若有，进一步判断得到的传感器真实经度坐标LON及传感器真实纬度坐标LAT是否落在感兴趣区域，若不是，则将当前通信记录实例化为一个目标点对象。目标点对象包括以下数据变量：

用户编号EPID；

位置信息缺失传感器的编号REGIONCODE和SENSORID；

用户与位置信息缺失传感器通信的时间TIMESTAMP，其值为通过通信记录获取的通信动作发生时刻TIME；

向前邻近传感器列表STATION_LIST_Fw；

向后邻近传感器列表STATION_LIST_Bw；

向前时间列表TIME_LIST_Fw；

向后时间列表TIME_LIST_Bw；

向前通信记录间时间间隔列表TIME_INTERVAL_Fw；

向后通信记录间时间间隔列表TIME_INTERVAL_Bw

向前平均速度SPEED_Fw；

向后平均速度SPEED_Bw；

目标传感器与向前最邻近传感器距离DISTANCE_Fw；

目标传感器与向后最邻近传感器距离DISTANCE_Bw，

其中，变量中的向前向后指的是以目标传感器为起点，沿用户行走的时间线向前或前后查找邻近的通信记录。

本实施例中，EPID(e1)和EPID(e2)解密后的跟踪数据如下表所示。

表4：解密后新接收的实时手机数据

步骤1.2、步骤1.1得到的所有目标点对象构成一个目标点列表。

在本例中，RECORD(r2)的纬度大于90度，RECORD(r3)的经纬度为0，均为异常点，被标记列入分析对象。

在本例中，为RECORD(r2)和RECORD(r3)新建目标点对象IC[n]和IC[n+1]，其中：

IC[n].EPID＝e2，

IC[n].TIMESTAMP＝“2017-01-02 15：17：04”，

IC[n].REGIONDODE＝10410，

IC[n].SENSORID＝65505，

IC[n+1].EPID＝e3，

IC[n].TIMESTAMP＝“2017-01-02 14：13：57”，

IC[n+1].REGIONDODE＝9421，

IC[n+1].SENSORID＝3661。

步骤3、提取当前目标点的传感器编号和用户EPID，提取该用户的行程轨迹，根据行程轨迹，沿时间轴向后查找用户在与当前目标点通信前的所有信令记录，由信令记录中N个有准确坐标的传感器的传感器编号组成向后邻近传感器列表STATION_LIST_Bw，同时，沿时间轴向前查找用户在与当前目标点通信后的所有信令记录，由信令记录中N个有准确坐标的传感器的传感器编号组成向前邻近传感器列表STATION_LIST_Fw，包括：

本例中，目标点用户EPID为e1，目标点编号REGIONCODE为9421，SENSO则D为3661，遍历得到的e1的时空序列如表5所示：

表5：e1的时空序列

RECORDID	EPID	TYPE	TIMESTAMP	REGIONCODE	SENSORID	LON	LAT
								......	......	......	......	......	......	......	......
RECORD(r1-10)	EPID(e1)	T1	2017-01-02 12：57：14	9884	2436	113.52838	22.268612
								RECORD(r1-9)	EPID(e1)	T2	2017-01-02 13：01：27	9884	5678	113.53119	22.269808
RECORD(r1-8)	EPID(e1)	T3	2017-01-02 13：02：14	9884	5678	113.53119	22.269808
								RECORD(r1-7)	EPID(e1)	T2	2017-01-02 13：06：27	42652	48710	113.53181	22.269837
RECORD(r1-6)	EPID(e1)	T3	2017-01-02 13：15：21	9677	7142	113.53288	22.270345
								RECORD(r1-5)	EPID(e1)	T4	2017-01-02 13：23：56	42325	40932	113.53387	22.270525
RECORD(r1-4)	EPID(e1)	T1	2017-01-02 13：24：02	9877	7139	113.53398	22.270554
								RECORD(r1-3)	EPID(e1)	T3	2017-01-02 13：31：11	9877	4816	113.53422	22.270865
RECORD(r1-2)	EPID(e1)	T4	2017-01-02 13：45：55	9877	7136	113.53490	22.272135
								RECORD(r1-1)	EPID(e1)	T2	2017-01-02 13：59：21	9877	3661	0	0
RECORD(r1)	EPID(e1)	T2	2017-01-02 14：02：24	9877	3661	0	0
								RECORD(r1+1)	EPID(e1)	T1	2017-01-02 14：03：54	9877	3661	0	0
RECORD(r1+2)	EPID(e1)	T4	2017-01-02 14：03：56	9877	3661	0	0
								RECORD(r1+3)	EPID(e1)	T4	2017-01-02 14：07：43	9877	7425	113.53666	22.272424
RECORD(r1+4)	EPID(e1)	T4	2017-01-02 14：18：04	9877	7436	113.53778	22.271784
								RECORD(r1+5)	EPID(e1)	T4	2017-01-02 14：19：45	9877	7436	113.53778	22.271784
RECORD(r1+6)	EPID(e1)	T4	2017-01-02 14：21：55	9877	7436	113.53778	22.271784
								RECORD(r1+7)	EPID(e1)	T4	2017-01-02 14：24：35	9877	7436	113.53778	22.271784
RECORD(r1+8)	EPID(e1)	T4	2017-01-02 14：32：01	9877	7428	113.53832	22.271455
								RECORD(r1+9)	EPID(e1)	T4	2017-01-02 14：39：24	9877	7430	113.53934	22.271505
RECORD(r1+10)	EPID(e1)	T4	2017-01-02 14：55：55	9877	7147	113.53965	22.270347
								......	......	......	......	......	......	......	......

当在所述向后邻近传感器列表STATION_LIST_Bw中存储第n个邻近点的传感器编号后，回溯前一条信令记录，若前一条信令记录的传感器编号与第n-1个邻接点的传感器编号相同，就表明用户在连续时间段内多次和该传感器通信，因此需要调整时间，此处我们采取折中的办法，计算当前EPID首次和末次与当前信令记录对应的传感器通信的时间，求其平均值，其中：首次通信时间储存于向后时间列表TIME_LIST_Bw，为TIME_LIST_Bw[n-1]，末次通信时间为TIME_LX，取其平均为(TIME_LX+TIME_LIST_Bw[n-1])/2，作为第n-1个邻接点的通信时间TIME_LIST_Bw[n-1]，并清空TIME_LX；

若n＝1，且前一条信令记录的传感器编号与目标传感器一致，则表明用户与目标点在连续时间段内多次通信，且前一条记录为目标点与用户连续通信的起点。此时另行从通信时间TIMESTAMP开始向前遍历，找到目标传感器在该次连续通信的终点，计算起点和终点之间的平均时间，作为目标传感器的通信时间TIMESTAMP。

本例中结合具体数据的实施过程为：

1)查找用户EPID与目标基站的通信时间TIMESTAMP；在本例的目标类中，用户e1与目标基站通信的时间为2017-01-02 14：02：24(T时刻)，记录REGIONCODE_L＝9877、SENSORID_L＝9877、TIME_L＝2017-01-02 14：02：24；

2)查询该用户在与目标基站通信前的所有信令记录，逆向排序(沿时间轴向后查询)；在本例中，用户e1在T时刻前的时空序列见表6：

表6e1在T时刻前的时空序列

RECORDID	EPID	TYPE	TIMESTAMP	REGIONCODE	SENSORID	LON	LAT
								RECORD(r1-1)	EPID(e1)	T2	2017/1/2 13：59：21	9877	3661	0	0
RECORD(r1-2)	EPID(e1)	T4	2017/1/2 13：45：55	9877	7136	113.53490	22.272135
								RECORD(r1-3)	EPID(e1)	T3	2017/1/2 13：31：11	9877	4816	113.53422	22.270865
RECORD(r1-4)	EPID(e1)	T1	2017/1/2 13：24：02	9877	7139	113.53398	22.270554
								RECORD(r1-5)	EPID(e1)	T4	2017/1/2 13：23：56	42325	40932	113.53387	22.270525
RECORD(r1-6)	EPID(e1)	T3	2017/1/2 13：15：21	9677	7142	113.53288	22.270345
								RECORD(r1-7)	EPID(e1)	T2	2017/1/2 13：06：27	42652	48710	113.53181	22.269837
RECORD(r1-8)	EPID(e1)	T3	2017/1/2 13：02：14	9884	5678	113.53119	22.269808
								RECORD(r1-9)	EPID(e1)	T2	2017/1/2 13：01：27	9884	5678	113.53119	22.269808
RECORD(r1-10)	EPID(e1)	T1	2017/1/2 12：57：14	9884	2436	113.52838	22.268612
								......	......	......	......	......	......	......	......

3)首先记录目标点的编号REGIONCODE、SENSORID，和通信时间TIMEPSTAMP，作为查询过程中的比较编号和时间REGIONCODE_L、SENSORID_L、TIME_L，然后遍历查询结果。在本例中，RECORD(r1-1)的基站编号与RECORD(r1)一致，记录其时间“2017/1/2 13：59”，跳过至RECORD(r1-2)；RECORD(r1-2)的基站编号与REGIONCODE_L、SENSORID_L不同，时间也与TIME_L不同，将其存储到目标对象中，STATION_LIST_Bw[0]＝9877_7136，TIME_LIST_Bw[0]＝“2017/1/2 13：45”；依次将RECORD(r1-3)中的9877_4816，RECORD(r1-4)中的9877_7139，RECORD(r1-5)中的42325_48710，RECORD(r1-6)中的9677_7142等及其时间存入STATION_LIST_Bw和TIME_LIST_Bw；遍历到RECORD(r1-9)时，其编号与RECORD(r1-8)相同，因此跳过。遍历后得到的STATION_LIST_Bw和TIME_LIST_Bw见表7：

表7STATION_LIST_Bw和TIME_LIST_Bw

STATION_LIST_Bw	TIME_LIST_Bw
		9877_7136	2017/1/2 13：45：55
9877_4816	2017/1/2 13：31：11
		9877_7139	2017/1/2 13：24：02
42325_40932	2017/1/2 13：23：56
		9677_7142	2017/1/2 13：15：21
42652_48710	2017/1/2 13：06：27
		9884_5678	2017/1/2 13：02：14
9884_2436	2017/1/2 12：57：14
		......	......

4)存储邻近点n后，回溯前一条记录，若该条记录的基站编号与上一个邻接点n-1编号相同，就表明用户在连续时间段内多次和该基站通信，因此需要调整时间，此处我们采取折中的办法，计算EPID首次和末次与基站通信的时间，求其平均值。在本例中，STATION_LIST_Bw[7]存储后发现RECORD(r1-9)的基站编号与RECORD(r1-8)一致，取其TIMESTAMP的中间值，为“2017/1/2 13：02：50”。修正后的STATION_LIST_Bw和TIME_LIST_Bw见表8：

表8修正后的STATION_LIST_Bw和TIME_LIST_Bw

5)若n＝1，且前一条记录的基站编号与目标点一致，则表明用户与目标基站在连续时间段内多次通信，且前一条记录为目标基站与用户连续通信的起点。此时另行从TIMESTAMP开始向前遍历，找到目标基站在该次连续通信的终点，计算起点和终点之间的平均时间，作为目标点的TIMESTAMP。在本例中，RECORD(r1-1)基站编号与RECORD(r1)相同，记录下RECORD(r1-1)的时间，向后追溯到RECORD(r1+2)，e1在RECORD(r1)附件与目标点连续通信的时间序列，记录下RECORD(r1+2)的时间，得到RECORD(r1+2)到RECORD(r1-1)的平均时间为“2017/1/2 14：01：38”，即为TIMESTAMP。当STATION_LIST_Bw已存下N个邻近点，则终止逆向遍历时间序列；若在存满N个邻近点已达到时间序列的终点，则标记该STATION_LIST_Bw列表的实际长度(M，M＜N)。在本例中，若N＝4，则STATION_LIST_Bw到4232540932为止，其实际长度为M＝4；若N＝10，则STATION_LIST_Bw在n＝7处跳出迭代，M＝7。

6)查询该用户在与目标基站通信后的所有信令记录，正向排序(沿时间轴向前查询)，其余步骤与向后查询一致，到STATION_LIST_Fw已存下N个邻近点，终止逆向遍历时间序列；若在存满N个邻近点已达到时间序列的终点，则标记该STATION_LIST_Fw列表的实际长度(如M，M＜N)。在本例中，目标对象的用户e1在T时刻后的时空序列见表9，遍历后得到的STATION_LIST_Fw和TIME_LIST_Fw见表10，修正后的STATION_LIST_Fw和TIME_LIST_Fw见表11：

表9e1在T时刻后的时空序列

表10STATION_LIST_Fw和TIME_LIST_Fw

STATION_LIST_Fw	TIME_LIST_Fw
		9877_7425	2017/1/2 14：07：43
9877_7436	2017/1/2 14：18：04
		9877_7428	2017/1/2 14：32：01
9877_7430	2017/1/2 14：39：24
		9877_7147	2017/1/2 14：55：55
......	......

表11修正后的STATION_LIST_Fw和TIME_LIST_Fw

STATION_LIST_Fw	TIME_LIST_Fw
		9877_7425	2017/1/2 14：07：43
9877_7436	2017/1/2 14：21：18
		9877_7428	2017/1/2 14：32：01
9877_7430	2017/1/2 14：39：24
		9877_7147	2017/1/2 14：55：55
......	......

步骤4、提取向后邻近传感器列表STATION_LIST_Bw及向前邻近传感器列表STATION_LIST_Fw中传感器的准确坐标，获得当前目标点在空间上的出现概率，绘制目标点空间位置的概率分布图，包括：

步骤4.3、绘制目标点空间位置的概率分布图。

本例设置了四种取邻近点的时间间隔T，分别是2小时(7200s)、1小时(3600s)、30分钟(1800s)、10分钟(600s)，其LON、LAT坐标与出现频次见表12：

表12 4种时间间隔下目标点的最邻近基站及其出现频次

在得到最邻近点的出现频次后，本例对其进行加权反距离权重插值，得到四种T下目标点9877_3661的空间分布概率，见图2(a)至图2(d)。

步骤5、计算概率分布图上邻接传感器之间的时间间隔，根据时间间隔和已知空间位置的邻近传感器之间的距离，估算出用户从当前目标点到前、后两个最邻近的传感器的行走速度，从而估算出当前目标点到前、后两个最邻近的传感器的距离，包括：

步骤5.1、根据目标点的通信时间TIMESTAMP和向后邻近传感器及向前邻近传感器的向后时间列表TIME_LIST_Bw和向前时间列表TIME_LIST_Fw计算传感器之间的向前时间间隔TIME_INTERVAL_Fw和向后时间间隔TIME_INTERVAL_Bw；在本例中，对象类的时间间隔见表13和表14。

表13目标点对象中向后时间间隔及其起始点

起点	终点	时间间隔
			......	......	......
9884_2436	9884_5678	0：05：36
			9884_5678	42652_48710	0：03：37
42652_48710	9677_7142	0：08：54
			9677_7142	42325_40932	0：08：35
42325_40932	9877_7139	0：00：06
			9877_7139	9877_4816	0：07：09
9877_4816	9877_7136	0：14：44
			9877_7136	9877_3661	0：15：43

表14目标点对象中向前时间间隔及其起始点

起点	终点	时间间隔
			9877_3661	9877_7425	0：06：05
9877_7425	9877_7436	0：13：35
			9877_7436	9877_7428	0：10：43
9877_7428	9877_7430	0：07：23
			9877_7430	9877_7147	0：16：31
......	......	......

步骤5.2、将两两邻接传感器的传感器真实经度坐标LON和传感器真实纬度坐标LAT转化为墨卡托坐标系下的X坐标和Y坐标，计算两两邻接传感器间的向前距离DISTANCE_Fw和向后距离DISTANCE_Bw。在本例中，两两邻近点之间的空间间隔距离见表15和表16。

表15目标点对象中向后空间间隔距离及其起始点

起点	终点	距离间隔
			......	......	......
9884_2436	9884_5678	63.94
			9884_5678	42652_48710	123.9
42652_48710	9677_7142	103.96
			9677_7142	42325_40932	3.8
42325_40932	9877_7139	49.22
			9877_7139	9877_4816	157.02
9877_4816	9877_7136	183.67

表16目标点对象中向前空间间隔距离及其起始点

在本例中，根据表12-表15，SPEED_Fw和SPEED_Bw分别为1.39米/秒和1.05米/秒。

在本例中，目标基站到其最邻近的点的距离分别为1313.19米和574.86米。

步骤5.5、保存向前邻近传感器的X，Y坐标和距离DISTANCE_Fw以及向后邻近传感器的X，Y坐标和距离DISTANCE_Bw；

步骤6、将当前目标点的前、后两个最邻近的传感器的坐标以及步骤4估算得到的当前目标点到前、后两个最邻近的传感器的距离导入数学建模软件，采用最小二乘法计算当前目标点的空间位置，包括：

本例通过最小二乘法，得到目标点9877_3661的经纬度为LON＝113.53832，LAT＝22.27271，与空间位置概率分布图能够较好地吻合。

步骤6.3、完成当前目标点的空间位置信息计算，同时注销所有传感器编号为当前目标点的目标点对象，进入步骤7

Claims

1.一种大数据环境下无坐标传感器位置确定方法，其特征在于，包括以下步骤：

步骤3、提取当前目标点的传感器编号和用户EPID，提取该用户的行程轨迹，根据行程轨迹，沿时间轴向后查找用户在与当前目标点通信前的所有信令记录，由信令记录中N个有准确坐标的传感器的传感器编号组成向后邻近传感器列表STATION_LIST_Bw，同时，沿时间轴向前查找用户在与当前目标点通信后的所有信令记录，由信令记录中N个有准确坐标的传感器的传感器编号组成向前邻近传感器列表STATION_LIST_Fw；

2.如权利要求1所述的一种大数据环境下无坐标传感器位置确定方法，其特征在于，所述步骤1包括：

3.如权利要求2所述的一种大数据环境下无坐标传感器位置确定方法，其特征在于，所述步骤3包括：

步骤3.4、采用与步骤3.3.1至步骤3.3.6相同的方法，沿时间轴向前遍历所有通信记录，查到N个最邻近的有正确传感器真实经度坐标LON和传感器真实纬度坐标LAT值的传感器作为N个邻近点，生成向前邻近传感器列表STATION LIST Fw及向前时间列表TIME_LIST_Fw。

4.如权利要求3所述的一种大数据环境下无坐标传感器位置确定方法，其特征在于，在步骤3.3.4中，当在所述向后邻近传感器列表STATION_LIST_Bw中存储第n个邻近点的传感器编号后，回溯前一条信令记录，若前一条信令记录的传感器编号与第n-1个邻接点的传感器编号相同，计算当前EPID首次和末次与当前信令记录对应的传感器通信的时间，求其平均值，其中：首次通信时间储存于向后时间列表TIME_LIST_Bw，为TIME_LIST_Bw[n-1]，末次通信时间为TIME_LX，取其平均为(TIME_LX+TIME_LIST_Bw[n-1])/2，作为第n-1个邻接点的通信时间TIME_LIST_Bw[n-1]，并清空TIME_LX；

5.如权利要求3所述的一种大数据环境下无坐标传感器位置确定方法，其特征在于，所述步骤4包括：

步骤4.3、绘制目标点空间位置的概率分布图。

6.如权利要求5所述的一种大数据环境下无坐标传感器位置确定方法，其特征在于，所述步骤5包括：

7.如权利要求6所述的一种大数据环境下无坐标传感器位置确定方法，其特征在于，所述步骤6包括：