CN111970685B

CN111970685B - 一种大数据环境下一人多卡识别方法

Info

Publication number: CN111970685B
Application number: CN202011142356.0A
Authority: CN
Inventors: 张颖; 顾高翔; 刘杰
Original assignee: SHANGHAI SHIMAI INFORMATION TECHNOLOGY CO LTD
Current assignee: SHANGHAI SHIMAI INFORMATION TECHNOLOGY CO LTD
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2021-01-15
Anticipated expiration: 2040-10-23
Also published as: CN111970685A

Abstract

本发明提供了一种大数据环境下一人多卡识别方法。本发明充分利用现有的海量手持移动通信设备与固定传感器间的通信记录，设计比对算法和一致性检验标准，不仅能低成本、自动化、便捷地对目标数据进行整理，识别出其中隶属一人的多个***，有效地从大量通信记录中提取出空间中的实际个体，降低一人多卡对总体统计的影响，还能通过多个***的时空轨迹融合，更加精确地获取个体的出行时空序列，从而为其他空间大数据分析提供更加可靠的数据基础。

Description

一种大数据环境下一人多卡识别方法

技术领域

本发明涉及一种基于海量移动通信数据的一人持有多卡状态的识别方法，属于大数据分析技术领域。

背景技术

近年来，随着信息技术的发展，数据信息量呈现***式增长，数据来源越来越多，数据量也越来越庞大。其中，由手机、WIFI、物联网等信息传感器记录的数据已经成为大数据分析中最重要的数据来源，其较为完备的个体出行记录为大数据，尤其是交通大数据分析提供了很好的数据支持。

采用传感器通信数据进行城市社会经济方面的研究和分析，固然可以更加精准地将研究细化到城市中活动的个体，但是其样本分布仍然与现实分布存在较大的偏差，使得其本身的有偏性对分析结果带来严重影响。其中，一人多卡现象的存在就对采用移动通信大数据的研究工作带来了极大的困扰。一人多卡指的是同一人在同一或不同移动通信运营商下办理了多个***。当前，高中低端手机搭配使用和双卡双待手机的热销表明一人持有双卡，乃至多卡现象的普遍性，若不对这一现象进行处理，则在分析城市人群时空移动过程中会产生大量冗余时空轨迹，造成分析结果的偏差。2019年10月，国内三家运营商移动、联通、电信，活跃用户数量分别为9.4359亿、3.22119亿、3.3253亿，共计15.982亿手机用户，2018年末全国人口数量不过13.9538亿，人均手机***数量达到1.145，同网多卡和异网多卡已经达到相当高的程度。但是，对一人多卡现象的识别存在难度，因为每个***都会独立地与基站、WIFI等固定传感器进行通信，这使得即便是同一个移动通信网络，两张卡与固定传感器的通信记录组成的时空轨迹之间也会存在差异，而异网***之间更是存在固定传感器自身位置差异，使得一人多卡现象更难被识别，也缺乏判定的标准。因此，我们需要在数据预处理阶段采用一定的算法，计算出一套判断一人多卡现象的指标体系，识别出同一人持有的多个移动通信***的方法，对原始数据进行精简和合并，同时基于合并后的个体数据，采用多重数据加权插值方式进一步提升个体的出行时空轨迹的精确度，以此为基础，更新并维护PID（Personal IDentify，个体标识，PID）与运营商***的相互映射表，以便后续用于具体统计分析时进行缩样处理，即只统计PID数量，降低一人多卡对总体统计的影响。

发明内容

本发明的目的是利用移动通信设备与固定传感器之间的通信记录组成的个体出行时空轨迹所表征个体在空间上的移动情况，提供对同时期不同***的出行时空轨迹进行采样和比较，判断其相似性，并以此为基础构建一人多卡判别的一致性指标，对通过不同移动通信卡记录下的出行轨迹是否属于同一人进行识别和判断，对于存在多卡使用的个体，利用多卡的通信记录完善个体出行时空轨迹，并从多个***中选择记录最完善的一个，以此为基础，更新并维护个体标识PID与运营商***的相互映射表，以便后续用于具体统计分析时缩样处理，即只统计PID数量，降低一人多卡对总体统计的影响。

为了达到上述目的，本发明的技术方案是提供了一种大数据环境下构建一人多卡识别算法及其一致性校验指标，包括以下步骤：

步骤1、从传感器运营商获取匿名加密移动终端传感器数据，匿名加密移动终端传感器数据在时间与空间上连续，不同移动终端单向不可逆加密***对应不同编号，提取每个***在指定时间段内所触发的通信信令记录，构成个体通过该***记录下的出行时空通信记录数据集合，对其按时间排列，将其空间位置投射到地图上，在数据配准的基础上，通过时空插值法对其记录的样点按等时间间隔进行扩充，获得以每张移动通信***为识别标志的出行时空轨迹；

步骤2、为剔除不同时间对个体出行相似性判断的影响，将每天24小时划分为N个时间段，针对同一时间段，从数据库中截取大量等时间间隔的个体的出行时空轨迹，将其按照空间XY坐标拆分成4个向量，采用皮尔逊积矩方法计算两两向量之间的相关系数及标准差，构建比较向量一致性的指标，计算固定时间段内固定时间间隔下随机选取的出行轨迹的一致性指标，以及不同时间段之间皮尔逊积矩的差值，以此为标准获得判定两条轨迹是否一致的一致性检验标准，即其属于同一个体的判别依据；

步骤3、从数据库选定一个移动通信***作为待匹配对象，获取其出行时空序列，遍历移动通信记录数据库，从中选取其他个体出行时空序列与其进行匹配，在时空序列中随机选取时间长度为随机的序列片段，计算两条时空序列的空间位置上的相关性，对其进行一致性检验，判断其是否为同一人持有；

步骤4、遍历整个数据库后获取所有已判定与初始选定移动通信***为同一人持有的其他***，将其标注为同一人持有，为其标识个体编号PID，针对数据库中的每一组个体出行时空序列，均以遍历数据库的方式将其与所有其他个体的出行时空序列进行匹配，判别其是否为同一人持有，若出现一个***为多个人同时持有的情况，即某一***与两个相互不匹配的***的相似性均能通过检验，则将其归于相似度更大的移动通信卡；

步骤5、在遍历完数据库，为所有移动通信***均进行出行时空序列匹配后，判断其是否与其他***存在为一人持有的情况，针对每一组一人多卡记录，查询其多个***与固定传感器的通信记录，将***EPID（即匿名单向加密全球唯一移动终端标识码，EncryPtion international mobile subscriber Identity，EPID）改为个体标识PID，依据时间顺序将多条出行时空序列相互内插为一条移动通信记录集，将新的记录集作为手持移动通信卡与固定传感器的通信记录存入数据库，并跳转到步骤1.4中对其进行时空插值，获取更加精细的个体出行时空序列。

优选地，所述步骤1包括：

步骤1.1、***从传感器运营商获取匿名后的个体加密移动终端传感器数据，匿名加密移动终端传感器数据在时间与空间上都应该是连续的，包括：用于个体与固定传感器通信的移动通信***的唯一编号EPID、通信动作类型TYPE、通信动作发生时刻TIME、与其发生通信行为的固定传感器所处大区REGIONCODE、固定传感器具体编号SENSORID；

步骤1.2、一条匿名加密移动终端传感器数据为一个信令记录，对每条信令记录进行解密，读取记录中的EPID、TYPE、TIME、REGIONCODE、SENSORID等字段，根据记录中的固定传感器编号，查询其经纬度坐标，并转化为地理空间XY坐标系；

步骤1.3、根据移动通信卡的唯一编号EPID，查询其在指定时间段内所有的通讯记录，初步构建由个体通过单一移动通信***和固定传感器通信记录构成的初步个体出行时空轨迹；

步骤1.4、采用时空加权插值法，对每条个体出行时空轨迹进行等时间间距的空间插值，获得等时间间隔的个体出行时空序列，该时空序列包含了个体在每个固定时间节点上的空间XY坐标，删除原始的移动通信卡与固定传感器之间的通信记录，完全以插值得到的个体出行时空序列代表个体在时空上的移动，对于单一数据来源的个体出行时空轨迹，其每个节点的权重一致，对于多数据来源的个体出行时空轨迹，其节点的权重由其单个移动通信***的原始数据源在单位时间内的记录密度决定：

式中，W表示来源于移动通信***i的通信节点的权重，D为移动通信记录密度，T为固定时间段，N为该时间段内移动通信记录数，最终获取个体在指定时间段T内等时间间隔Th的出行时空序列，序列中包含T/Th+1个节点，每个节点均包含了时间和XY坐标信息。

优选地，所述步骤2包括：

步骤2.1、根据步骤1.4获得的大量个体出行时空序列，构建时空序列一致性比对指标矩阵M，M为2×n×m×3阶矩阵，表示在两个EPID同网或异网的情况下，将一天24小时划分为n个时间段，每个时间段中有m种节点取样数量，每种取样数量均有3个级别的一致性指标从不同层次对时空序列的相似性进行约束；M矩阵为2×n×m×3阶，2表示其区分同网异网两种情况；n为按一天24小时划分出来的时间段数量，若时间段长度为2小时，则n等于12；m表示每个时间段内采样节点数量情况，以时空序列节点间隔时间2分钟，时间段长度2小时为例，其采样节点数量分布在2到60区间上，m等于59；3表示每个时间段内每种采样节点数量的三个一致性判别标准，分别代表95%、99%和99.9%置信；

步骤2.2、遍历M矩阵，针对其中M(i,j)，从大量个体出行时空序列中成对提取时间段在i处，且节点数量为j个的记录，单次提取出来的两条时空序列片段的空间位置组成4个行向量：X1，Y1，X2，Y2，取样的总数为N对，计算两两出行时空序列片段之间的一致性：

式中，

为对应的两条出行时空序列片段(X1,Y1)和(X2,Y2)构成的4条向量的一致性指标，

为出行时空序列片段之间的皮尔逊积矩值，表示两个片段之间的相似性，

为两个向量对应时间点位的X值和Y值之间的标准差，表示两个向量之间的数值差异；

步骤2.3、统计N对时空序列样本得到的

的平均值

，即为时间段i节点数j情况下的随机一致性指标，当两条出行序列完全重合时，其任意片段之间的

和

均为0，而

和

均为1，则

为0，而步骤2.2获得

则表示完全随机获取两条时空序列情况下，序列间的平均一致性程度；以一致性指标比率表示3个级别的一致性指标比对标准分别为

/20，

/100，

/1000，以此来表示时空序列比对过程中一致性达到不同P值的显著程度所需的阈值，即当两条序列的一致性指标

小于等于

/20，

/100，

/1000，分别表示这两条序列不一致的概率小于等于5%，1%和0.1%，这就意味着两条序列通过一致性检验的概率分别大于95%、99%和99.9%，即其一致性在95%，99%和99.9%水平上显著，令其分别为

、

、

；

步骤2.4、针对一致性指标矩阵M中每一个元素，从海量数据中搜索对应时间段和对应采样数量的样本，重复步骤2.2和2.3计算其3种显著度下的一致性指标比对值

、

、

，获得的M矩阵即为后续出行时空序列一致性比对的标准。

优选地，所述步骤3包括：

步骤3.1、从数据库中随机选取一个EPID作为待匹配***，获取其在指定时间段内的出行时空序列C1，设其持有人的编号PID为P1，从中随机选取一个时间连续的序列片段，获取该片段所在的时间段t和片段中的节点数量n；

步骤3.2、遍历数据库，获取时空序列Ci，判断遍历到的时空序列的***与目标***是否同网，获取其在时间段t内的序列片段，由于所有个体的出行时空序列均是等时间间隔，该片段的节点数也是n；

步骤3.3、针对

、

和

这三个置信区间，设定这两组出行时空序列C1和Ci为同一人出行轨迹的抽样数判别阈值分别为N1、N2和N3，一致性对比结果在这三个置信区间内的抽样数量分别为S1、S2和S3；

步骤3.4、将从C1和Ci中截取的两个时间序列片段的空间XY坐标拆分成4个向量，采用步骤2.2计算两个片段间的一致性，并将其与M矩阵中的一致性比对指标进行核对：

步骤3.4.1、若计算得到的一致性指标大于该时间段的一致性比对指标

，则跳到步骤3.5；

步骤3.4.2、若一致性指标小于等于

，且大于

，则跳到步骤3.6；

步骤3.4.3、若一致性指标小于等于

，且大于

，则跳到步骤3.7；

步骤3.4.4、若一致性指标小于等于

，则跳到步骤3.8。

步骤3.5、舍弃该出行时空序列，遍历到下一条序列；

步骤3.6、

区间的抽样数S1加1，计算该抽样数S1大于等于N1，则判定两条出行时空序列代表同一人出行的轨迹，否则跳至步骤3.9；

步骤3.7、

区间的抽样数S2加1，计算该抽样数S2大于等于N2，则判定两条出行时空序列代表同一人出行的轨迹，否则跳至步骤3.9；

步骤3.8、

区间的抽样数S3加1，计算该抽样数S3大于等于N3，则判定两条出行时空序列代表同一人出行的轨迹，否则跳至步骤3.9；

步骤3.9、继续在两条出行时间序列上随机抽取片段，即从C1中随机选取一个时间连续的序列片段，从Ci中获取相同时间段内的序列片段，两个片段的节点数是一样的；

步骤3.10、对于判断为同一人所有的两条出行时空序列C1和Ci，若将移动通信***EPID为Ci的出行时空序列与C1的持有人编号P1关联，表明该***记录的时空运动轨迹为编号PID为P1的个体所有，将EPID与PID之间的对应关系存入数据表TR（关系表，Table ofRelation，TR）中。

优选地，所述步骤4包括：

步骤4.1、遍历数据库中所有移动通信***的EPID，重复执行步骤3，将其与C1的出行时空序列进行比对，计算时空序列间的一致性，识别出所有可以判定为PID为P1的个体持有的所有***，继续将***和个体编号之间的关系存入EPID-PID关系数据表TR；

步骤4.2、将数据库中每一个EPID作为匹配对象进行全数据库的搜索遍历比对，挖掘所有的移动通信***之间的匹配关系，将其存入数据表TR；

步骤4.3、遍历数据表TR，查找同一条出行时空序列被多人持有的情况，即同一个EPID的出行时空序列Cj隶属多个不同PID，这也意味着Cj与多个隶属不同PID的出行时空序列（例如Ck，Cl，Cm等）之间经过比对满足一致要求，则：

步骤4.3.1、重复步骤3.3-3.10，以Cj为待匹配对象，遍历获得与其同属一个PID（包括不同PID）的出行时空序列（Ck，Cl，Cm等），重新在时空序列上进行采样和一致性计算，基于一致性比对矩阵M，对时空序列的一致性进行重新校验；

步骤4.3.2、重新比对检验之后，若Ck，Cl，Cm等出行时空序列中出现无法满足与Cj之间的比对一致性要求，则将其持有者PID与Cj之间的隶属关系从数据表TR中删除；

步骤4.3.3、重复执行步骤4.3.1和4.3.2，直到满足与Cj间一致性的出行时空序列只剩下一条，或达到迭代次数NC，若迭代次数达到NC且仍有超过1条隶属于不同PID出行时空序列（例如Cp、Cq、Cr等）与Cj间的一致性可以通过检验，则计算Cj与Cp、Cq、Cr之间的累积一致性指标加和

（

表示时空序列Cj和Cp之间的第n次抽样比对的一致性指标值），从中选取值最小的，保留其与Cj同属一个PID的关系，删除Cj与其他PID之间的隶属关系。

步骤4.4、重复执行步骤4.3，直到数据表TR中不存在一个EPID隶属多个PID的情况。

优选地，所述步骤5包括：

步骤5.1、遍历TR数据表，从中查询拥有多个移动通信***的PID，记录下该PID所属的所有移动通信卡的EPID；

步骤5.2、根据获得的多个EPID，分别在数据库中查询其与固定传感器的通讯记录，将记录按时间排序，组成多条出行时空轨迹数据；

步骤5.3、将多条出行时空轨迹数据以时间为序，基于不同移动通信***记录的数据密度的不同确定其权重，相互之间穿插，构建成一条新的时空轨迹，采用步骤1.4的空间加权插值方法获取基于多个***与固定传感器通信记录的等时间间隔的个体出行时空序列，由于该出行时空序列基于多个***的通信记录，其节点密度较高，对于时空插值算法来说可以更加精准地推算个体在每个固定时间节点的位置；

步骤5.4、对所有拥有多个***的PID进行出行时空序列的再计算，将计算结果存入数据库，为其他后续的基于移动通信大数据的分析提供数据基础。

本发明基于手持移动设备与固定传感器之间的通信记录，提取出每个移动通信***在指定时间段内的出行时空轨迹，采用时空加权插值法将出行时空轨迹插值为等时间间隔的个体出行时空序列，通过大样本随机抽样，构建不同情况下两条出行时空序列间的随机一致性指标，组成时空序列一致性的比对矩阵作为时空序列一致性的校验标准，通过遍历两两移动通信***所属的出行时空序列之间的一致程度，从而判别其是否为同一个体所有，在识别一人多卡的基础上，合并多个***下的多条出行时空轨迹并进行插值，获取更加精准的个体出行时空序列，并存入数据库为其他数据分析提供基础。

本发明的优点是：充分利用现有的海量手持移动通信设备与固定传感器间的通信记录，设计比对算法和一致性检验标准，不仅能低成本、自动化、便捷地对目标数据进行整理，识别出其中隶属一人的多个***，有效地从大量通信记录中提取出空间实际个体，还能通过多个***的时空轨迹融合，更加精确地获取个体的出行时空序列，从而为其他空间大数据分析提供更加可靠的数据基础。

附图说明

图1是本发明所提出的大数据环境下一人多卡识别方法图。

具体实施方式

为使本发明更明显易懂，兹以优选实施例，并配合附图作详细说明如下：

步骤1、从传感器运营商获取匿名加密移动终端传感器数据，匿名加密移动终端传感器数据在时间与空间上连续，不同移动终端***对应不同编号，提取每个***在指定时间段内所触发的通信信令记录，构成个体通过该***记录下的出行时空通信记录数据集合，对其按时间排列，通过时空插值法对其记录的样点按等时间间隔进行扩充，获得以每张移动通信***为识别标志的出行时空轨迹。

匿名加密移动终端传感器数据是运营商从移动通信网络、固定宽带网络、无线WIFI以及位置服务相关APP等实时获取并脱敏加密后的匿名手机用户时间序列的加密位置信息，内容包括：EPID、TYPE、TIME、REGIONCODE、SENSORID，具体介绍如下：

EPID为匿名单向加密全球唯一移动终端标识码，是对每个移动终端用户进行单向不可逆加密，从而唯一标识每个移动终端用户，且不暴露用户号码隐私信息，要求每个移动终端用户加密后的EPID保持唯一性，即任意时刻各手机用户的EPID保持不变且不与其它手机用户重复。

TYPE，是当前记录所涉及的通信动作类型，如，上网、通话、主被叫、收发短信、GPS定位、传感器小区切换、传感器切换、开关机等。

TIME，是当前记录所涉及的通信动作发生时刻，单位为毫秒。

REGIONCODE、SENSORID是当前记录所涉及的通信动作发生的传感器加密位置信息。REGIONCODE、SENSORID传感器的编号，其中REGIONCODE代表传感器所处大区，SENSORID是具体的传感器的编号。

在本例中，完成解密后提取的个体出行时空轨迹见表1。

表1 个体出行时空轨迹

步骤1.4、采用时空加权插值法，对每条个体出行时空轨迹进行等时间间距的空间插值，获得等时间间隔的个体出行时空序列，该时空序列包含了个体在每个固定时间节点上的空间XY坐标，删除原始的移动通信卡与固定传感器之间的通信记录，完全以插值得到的个体出行时空序列代表个体在时空上的移动，最终获取个体在指定时间段T内等时间间隔Th的出行时空序列，序列中包含T/Th+1个节点，每个节点均包含了时间和XY坐标信息。

在本例中，插值后的个体出行时空序列见表2。

表2 插值后的个体出行时空序列

步骤2.1、根据步骤1.4获得的大量个体出行时空序列，构建时空序列一致性比对指标矩阵M，M为2×n×m×3阶矩阵，表示在两个EPID同网或异网的情况下，将一天24小时划分为n个时间段，每个时间段中有m种节点取样数量，每种取样数量均有3个级别的一致性指标从不同层次对时空序列的相似性进行约束；

步骤2.2、遍历M矩阵，针对其中M(i,j)，从大量个体出行时空序列中成对提取时间段在i处，且节点数量为j个的记录，单次提取出来的两条时空序列片段的空间位置组成4个行向量：X1，Y1，X2，Y2，取样的总数为N对，计算两两出行时空序列片段之间的一致性

式中，

在本例中，两条出行时空序列的XY坐标见表3：

表3 两条时空序列的XY坐标

计算得到的两个序列间的r值为13061；

步骤2.3、统计N对时空序列样本得到的

的平均值

和

均为0，而

和

均为1，则

为0，而步骤2.2获得

/20，

/100，

小于等于

/20，

/100，

、

、

；

步骤2.4、针对一致性指标矩阵M中每一个元素，从海量数据中搜索对应时间段和对应采样数量的样本，重复步骤2.2和2.3计算其3种显著度下的一致性指标比对值，获得的M矩阵即为后续出行时空序列一致性比对的标准；

本例中，同网情况下上午10点到12点间的M矩阵见表4：

表4 同网情况下上午10点到12点间的M矩阵

在本例中，待匹配***为2454；

步骤3.2、遍历数据库，判断遍历到的每个***与目标***是否同网，获取其在时间段t内的序列片段Ci，由于所有个体的出行时空序列均是等时间间隔，该片段的节点数也是n：

在本例中，遍历到的***为2142，与C1为异网，则C1和C2的时空信息见表5：

表5 异网情况下C1和C2的时空信息

步骤3.3、针对

、

和

这和这三个置信区间，设定这两组出行时空序列C1和Ci为同一人出行轨迹的抽样数判别阈值分别为N1、N2和N3，一致性对比结果在这三个置信区间内的抽样数量分别为S1、S2和S3；

步骤3.4、将从C1和Ci中截取的两个时间序列片段的空间XY坐标拆分成4个向量，采用步骤2.2计算两个片段间的一致性，并将其与M矩阵中的一致性比对指标进行核对，

，则跳到步骤3.5；

步骤3.4.2、若一致性指标小于等于

，且大于

，则跳到步骤3.6；

步骤3.4.3、若一致性指标小于等于

，且大于

，则跳到步骤3.7；

步骤3.4.4、若一致性指标小于等于

，则跳到步骤3.8；

步骤3.5、舍弃该出行时空序列，遍历到下一条序列；

步骤3.6、

步骤3.7、

步骤3.8、

步骤3.10、对于判断为同一人所有的两条出行时空序列C1和Ci，若将移动通信***EPID为Ci的出行时空序列与C1的持有人编号P1关联，表明该***记录的时空运动轨迹为编号PID为P1的个体所有，将EPID与PID之间的对应关系存入数据表TR（关系表，Table ofRelation，TR）中；

在本例中，C1片段和C2片段之间的一致性指标值为19.54，小于异网情况下、上午8点到10点间、时空序列片段节点数量为12、一致性概率大于99.9%的显著性指标要求，认为这两个片段是一致的；令N1为100，N2为50，N3为30，通过30次抽样检验，EPID为2454和2142的出行时空序列中抽取的判断均能满足99.9%的一致性检验，由此判断EPID为2454和2142的***隶属于同一个空间个体；

在本例中，EPID-PID关系数据表TR见表6：

表6 EPID-PID关系数据表TR

（

表示时空序列Cj和Cp之间的第n次抽样比对的一致性指标值），从中选取值最小的，保留其与Cj同属一个PID的关系，删除Cj与其他PID之间的隶属关系；

在本例中，EPID为2142的***同时为PID为0323和0331的个体持有，经过重新采样匹配，最终确定2142隶属于PID为0323的个体，将PID为0331和EPID为2142的记录从TR表中删除；

步骤4.4、重复执行步骤4.3，直到数据表TR中不存在一个EPID隶属多个PID的情况；

步骤5、在遍历完数据库，为所有移动通信***均进行了出行时空序列匹配后，针对每一组一人多卡记录，查询其多个***与固定传感器的通信记录，将***EPID改为个体标识PID，依据时间顺序将多条出行时空序列相互内插为一条移动通信记录集，将新的记录集作为手持移动通信卡与固定传感器的通信记录存入数据库，并跳转至步骤1.4将个体新的移动通信记录集进行时空加权插值，获取更加精细的个体出行时空序列；

在本例中，PID为0323的个体持有多个***；

在本例中，PID为0323的个体的3条出行时空轨迹见表7：

表7 个体多条时空轨迹

步骤5.3、将多条出行时空轨迹数据以时间为序，基于不同移动通信***记录的数据密度的不同确定其权重，相互之间穿插，构建成一条新的时空轨迹，采用步骤1.4的空间加权插值方法获取基于多个***与固定传感器通信记录的等时间间隔的个体出行时空序列；

本例中，合并后的时空轨迹见表8：

表8 合并后的时空轨迹

步骤5.4、对所有拥有多个***的PID进行出行时空序列的再计算，将计算结果存入数据库，为其他后续的基于移动通信大数据的分析提供数据基础；

在本例中，PID为0323的个体重新计算的出行时空轨迹见表9：

表9 个体0323的出行时空轨迹

Claims

1.一种大数据环境下一人多卡识别方法，其特征在于，包括以下步骤：

步骤1、从传感器运营商获取EPID编号唯一的匿名加密移动终端传感器数据，提取指定时间段内所触发的通信信令记录，对其记录的样点按等时间间隔进行扩充，获得其出行时空轨迹；

步骤2、从出行时空轨迹中截取大量等时间间隔的个体轨迹片段，构建比较向量一致性指标，计算固定时间段内固定时间间隔下随机选取的出行轨迹的一致性指标，获得判定两条轨迹是否一致的一致性检验指标；

步骤3、从数据库选定一个移动通信***作为待匹配对象，获取其出行时空序列，遍历移动通信记录数据库，从中选取其他个体出行时空序列与其进行匹配，在时空序列中随机截取相同点位的序列片段，计算两条时空序列的空间位置上的相关性，对其进行一致性检验，判断其是否为同一人持有；

步骤5、在遍历完数据库，为所有移动通信***均进行了出行时空序列匹配后，判断其是否与其他***存在为一人持有的情况，针对每一组一人多卡记录，查询其多个***与固定传感器的通信记录，将***改为个体标识PID，依据时间顺序将多条出行时空序列相互内插为一条移动通信记录集，将新的记录集作为手持移动通信卡与固定传感器的通信记录存入数据库并进行等时间间距的时空加权插值，获取更加精细的个体出行时空序列。

2.如权利要求1所述的一种大数据环境下一人多卡识别方法，其特征在于，所述步骤1根据移动通信卡的唯一编号EPID，查询其在指定时间段内所有的通讯记录，初步构建由个体通过单一移动通信***和固定传感器通信记录构成的个体出行时空轨迹，采用时空加权插值法，对每条个体出行时空轨迹进行等时间间距的空间插值，获得等时间间隔的个体出行时空序列，删除原始的移动通信卡与固定传感器之间的通信记录，完全以插值得到的个体出行时空序列代表个体在时空上的移动，构建个体在指定时间段T内等时间间隔Th的出行时空序列，序列中包含T/Th+1个节点，每个节点均包含了时间和XY坐标信息。

3.如权利要求1所述的一种大数据环境下一人多卡识别方法，其特征在于，所述步骤2 基于个体出行时空序列，构建时空序列一致性比对指标矩阵M，M为2×n×m×3阶矩阵，2表示其区分同网异网两种情况；n为按一天24小时划分出来的时间段数量；m表示每个时间段内采样节点数量情况；3表示每个时间段内每种采样节点数量的三个一致性判别标准，分别代表95%、99%和99.9%置信，遍历M矩阵，单次提取其两两出行时空序列片段之间基于皮尔逊积矩值及相似性所构建的一致性指标

；统计N对时空序列样本得到的

的平均值

，并设置

，

，

共3个级别的一致性指标从不同层次对时空序列的相似性进行约束，即其一致性在95%，99%和99.9%水平上显著，令其分别为

、

、

。

4.如权利要求1所述的一种大数据环境下一人多卡识别方法，其特征在于，所述步骤3 对目标***获取随机时间段内的出行时空序列，将其与数据库中每个***的同时间段序列进行对比：若一致性指标大于

，舍弃该出行时空序列；若一致性指标小于等于

，则不断随机截取两条出行时间序列上相同点位的片段，计算其一致性指标，直至该出行时空序列被舍弃或判定两条出行时空序列代表同一人出行的轨迹。

5.如权利要求4所述的一种大数据环境下一人多卡识别方法，其特征在于，所述步骤3 针对

、

和

这三个置信区间，设定这两组出行时空序列C1和 Ci为同一人出行轨迹的抽样数判别阈值及一致性对比结果在这三个置信区间内的抽样数量，当一致性指标大于该时间段的一致性比对指标

，舍弃该出行时空序列，否则在任意置信区间内满足一致性指标的抽样数大于等于抽样数判别阈值，则判定判断为同一人所有的两条出行时空序列。

6.如权利要求1所述的一种大数据环境下一人多卡识别方法，其特征在于，所述步骤4遍历数据库中所有移动通信***的EPID，识别出所有可以判定为PID为P1的个体持有的所有***，继续将***和个体编号之间的关系存入EPID-PID关系数据表TR，当出现同一条出行时空序列被多人持有的情况则重新在时空序列上进行采样和一致性计算，设置上限迭代次数，若满足唯一对应则更新TR，若不满足则计算与多条时空序列的累积一致性指标加和，选取值最小的序列进行保留。

7.如权利要求1所述的一种大数据环境下一人多卡识别方法，其特征在于，所述步骤5遍历TR数据表，获得所属同一PID的多个EPID的通讯记录，将记录按时间排序，组成多条出行时空轨迹数据，基于记录的数据密度不同确定其权重，相互之间穿插，构建成一条新的时空轨迹并通过空间加权插值方法获得等时间间隔的个体出行时空序列，将计算结果存入数据库，为其他后续的基于移动通信大数据的分析提供数据基础。