CN109686090B

CN109686090B - 一种基于多源数据融合的虚拟交通流量计算方法

Info

Publication number: CN109686090B
Application number: CN201910042487.2A
Authority: CN
Inventors: 王璞; 赖积宇
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2019-01-17
Filing date: 2019-01-17
Publication date: 2020-03-27
Anticipated expiration: 2039-01-17
Also published as: CN109686090A

Abstract

本发明公开了一种基于多源数据融合的虚拟交通流量计算方法，包括以下步骤：步骤一、获取浮动车行驶轨迹；步骤二、对浮动车行驶轨迹进行单元化处理后进行聚类，并获取每类中的热点轨迹；步骤三、利用卡口记录得到卡口对应路段在不同时间窗内的车辆观测流量数据；步骤四、对于任一时间窗T，基于该时间窗内具有车辆观测流量数据的路段，建立最优化目标函数，以求解该时间窗内各热点轨迹的扩样系数；步骤五、法求解最优化目标函数；步骤六、对于时间窗T内不具有车辆观测流量数据的路段，将该时间窗内所有经过其的轨迹产生的路段流量利用相应的扩样系数进行扩样后叠加，作为该路段的虚拟交通流量。本发明能获取具有精度和广度的交通流量数据。

Description

一种基于多源数据融合的虚拟交通流量计算方法

技术领域

本发明涉及一种基于多源数据融合的虚拟交通流量计算方法。

背景技术

在城市道路交通状况分析中，道路交通流是一个重要的指标，能够为城市拥堵等状况的分析、预警提供重要的数据基础，同时也能为城市道路交通的规划、控制、诱导提供数据支持。传统城市道路交通流量的获取主要是通过环形线圈检测器或视频检测器来实现，其具有精度较高的优点，但由于投入成本高、审批过程复杂、使用环境恶劣等原因，导致获取的数据量较小，在城市路网中诸多道路无法覆盖。浮动车GPS数据是一种覆盖范围较广的城市居民活动行为数据，能够较好的代表城市居民出行的特征，具有广度较高的优点，但由于浮动车仅为机动车中的一部分，所以其流量不能直接作为交通流量数据进行使用。综上所述，目前城市交通流量的获取方法存在或数据覆盖范围较小，难以获取广度高的数据，且同时受投入成本、硬件设施等方面条件的限制；或数据本身完整度不够，难以将其作为高精度数据使用的缺陷。

城市道路交通研究中对交通流量数据的精度和广度都有一定的要求，交通流量数据的精度和广度影响着城市交通决策的结果。因此，急需提供一种兼具较高的精度和广度的交通流量数据获取方法。

发明内容

本发明所解决的技术问题是，针对现有数据的不足，提出一种基于多源数据融合的虚拟交通流量计算方法，通过融合浮动车GPS数据和卡口数据，来计算城市路网中无车辆观测流量数据的路段的虚拟交通流量，数据获取便利，具有实时性和较高的精度和广度，适用于城市道路交通研究和后续政策的制定。

一种基于多源数据融合的虚拟交通流量计算方法，包括以下步骤：

步骤一：将浮动车GPS数据通过地图匹配方法分配至城市路网上，获取浮动车的行驶轨迹信息；

步骤二：对浮动车行驶轨迹进行单元化处理，以保证两个卡口间的轨迹不经过其他卡口；对单元处理化后得到的轨迹分时间窗进行基于时空距离的聚类，并获取每类中的热点轨迹；

步骤三：利用卡口记录的交通流量数据得到卡口对应路段在不同时间窗内的车辆观测流量数据；

步骤四：定义扩样系数来对已知轨迹产生的路段流量进行扩样；针对每个时间窗T，分别构建一个扩样系数集合A＝{α_k|k＝1，2，…，K}，其大小为K，K为全轨迹数据在该时间窗内的热点轨迹数。对于任一时间窗T，基于该时间窗内具有车辆观测流量数据的路段，建立最优化目标函数，用于求解该时间窗对应的扩样系数集合A：

f＝Minimize Z

V_E(k)＝α_kV_T(k)

其中，f为目标函数值，Z为适应度，i和j是时间窗T内具有车辆观测流量数据的路段，N是时间窗T内具有车辆观测流量数据的路段的总数，V_R(i)是时间窗T内路段i的车辆观测流量，P_ij是时间窗T内从路段i到路段j的热点轨迹集合，V_T(k)是时间窗T内热点轨迹k产生的路段流量，其值等于时间窗T内热点轨迹k出现的次数，V_E(k)是V_T(k)扩样后的流量，α_k是热点轨迹k的扩样系数；

步骤五：利用遗传算法求解最优化目标函数，得到时间窗T对应的扩样系数集合的全局最优结果，记为A*；

步骤六：对于时间窗T内不具有车辆观测流量数据的路段，将该时间窗内所有经过其的轨迹产生的路段流量利用相应的扩样系数进行扩样后叠加，作为该路段的虚拟交通流量；具体地，对于经过路段l的热点轨迹，利用其扩样系数对其产生的路段流量进行扩样；对于经过路段l的非热点轨迹，首先确定与其最相关的热点轨迹，确定方法为：获取该非热点轨迹与其所属聚类中各条热点轨迹的公共段，分别计算各公共段的长度，将最长公共段对应的热点轨迹视为其最相关的热点轨迹；然后利用与其最相关的热点轨迹的扩样系数对其产生的路段流量进行扩样。

进一步地，在所述的步骤一中，为保证浮动车的出行是具有城市居民出行特征的出行，筛选出载客状态的浮动车GPS数据，其中每一个GPS点为一个三维向量，第1个分量为世界协调时间，第2个分量为浮动车所在位置的经度，第3个分量为浮动车所在位置的纬度；利用ST-Matching地图匹配算法将GPS点匹配到城市路网上，获取浮动车的行驶轨迹信息，其中每个轨迹点为一个三维向量，第1个分量为路段经过时间，第2个分量为轨迹编号，第3个分量为经过路段编号；

进一步地，在所述的步骤二中，浮动车GPS数据在经过地图匹配算法的处理后，GPS点被匹配到路段上，轨迹的表达形式由轨迹点Point-A，Point-B...Point-C，Point-D转变为路段Road-U，Road-V，...，Road-Y，Road-Z；为了保证两个卡口间的轨迹不经过其他卡口，即为了在后续的流量分配过程中不会重复分配流量，对轨迹进行单元化处理，具体步骤如下：

将所有轨迹进行编号，逐一条识别每条轨迹经过的卡口路段数，若某条轨迹经过的卡口路段数M≤1，则弃用该轨迹；若某条轨迹经过的卡口路段数M＝2，则将该轨迹经过的两个卡口路段之间的轨迹途经路段作为新轨迹保留；若某条轨迹经过的卡口路段数M≥3，则对该条轨迹进行分割，从该轨迹经过的第一个卡口路段开始，将该轨迹经过的每两个相邻卡口路段间的轨迹途经路段作为一条新的轨迹保留。

进一步地，在所述的步骤二中，对轨迹进行基于时空距离的聚类是将相似度高的轨迹整体化，并利用一类轨迹中的热点轨迹作为该类的代表性轨迹，以对后续的计算步骤进行简化。具体步骤如下：

2.1)将所有轨迹设置为未处理状态，并设定热点轨迹集合为空集；

2.2)随机选取一条轨迹Traj，获得与其起讫点相同且处于同一时间窗内的轨迹集合，即轨迹Traj的时空邻近集合C(Traj)；

2.3)对集合C(Traj)中的轨迹进行分类，其中第k类轨迹记为CT_k，CT_k中任意两条轨迹的重叠长度比率q大于设定的最小重叠长度比率Minq(经验值)，并添加每一类中的热点轨迹至热点轨迹集合；其中重叠长度比率q为两条轨迹重叠路段数除以这两条轨迹拥有路段数的均值，热点轨迹(HT，Hot Trajectory)为一类轨迹中的所有轨迹按出现次数降序排列后，取占该类中所有轨迹出现次数之和前n％的轨迹(n的取值范围为[0,100]，为经验值)；标记集合C(Traj_i中的轨迹为已处理状态；

2.4)判断是否所有轨迹都被标记为已处理状态，若是，则结束，否则以未处理状态的轨迹为基础，返回步骤2.2)。

进一步地，在所述的步骤三中，利用DBSCAN聚类算法对多天内同一时间窗同一卡口记录的交通流量数据进行聚类，去除异常流量值，其中，聚类获得的最大团簇中包含的点被视为正常流量值，其余点视为异常流量值；同时，若最大团簇中包含点个数小于记录流量天数的50％，则视为该卡口硬件(卡口检测器)发生异常，去除该卡口记录的交通流量数据；将卡口匹配到其检测的路段上，每一条卡口匹配信息为一条二维向量，第1个分量为卡口编号，第2个分量为路段编号；将剩下的卡口记录的交通流量数据作为该卡口对应路段(与该卡口匹配的路段)的车辆观测流量数据。

进一步地，在所述的步骤五中，通过遗传算法进行最优化目标函数的求解，具体步骤如下：

5.1)初始化：设置进化代数计数器g＝0，随机生成n个个体作为初始群体，每一个个体为一个扩样系数集合A＝{α_k|k＝1，2，…，K}，其中元素α_k的值在[0,1]的范围内随机生成；设置遗传代数为N_g，收敛精度为Q；

5.2)个体选择：计算出第g代中种群中第q个个体被选择的概率

其中Z_g(q)表示第g代种群中第q个个体的适应度，即将该个体中的元素代入最优化目标函数，得到的适应度值；根据不同个体被选中的概率连续对第g代种群中的个体重复进行n轮挑选，得到n个新的个体；

5.3)个体的交叉与变异：

将步骤5.2)得到的n个个体进行两两随机配对，取固定交叉概率p_c进行交叉操作；若某组个体需要进行交叉，则在该组个体的所有元素中随机产生一个交叉点，将该组个体交叉点之后的元素相互交换，产生两个新的个体；若某组个体不需要进行交叉，则该组个体保持不变；

取固定的变异概率p_m进行变异操作，依次选择交叉操作后的n个个体，对每个个体的所有元素进行遍历，若某个元素需要变异，则在[0,1]的范围内随机改变该元素的取值；

由此得到了经遗传过后的n个个体，构成第g+1代种群；

其中交叉概率p_c和变异概率p_m，分别按照以下公式计算：

其中，p_c1是第g代种群中适应度值小于平均适应度值的个体的交叉概率，p_c2表示第g代种群中具有最大适应度值的个体的交叉概率，F_max为第g代种群所有个体的最大适应度值，F_ave为第g代种群所有个体的平均适应度值，F^*是进行交叉的两个个体中较大的适应度值；p_m1是第g代种群中适应度值小于平均适应度值的个体的变异概率，p_m2是第g代种群中具有最大适应度值的个体的变异概率，F′是进行变异的个体的适应度值；p_c1、p_c2、p_m1、p_m2为经验参数(可通过多次实验调整获得)；

5.4)计算第g+1代种群中各个个体的适应度，得到第g+1代种群所有个体的最大适应度，即第g+1代种群对应的目标函数值f；

5.5)算法终止条件判断；

收敛性判断：将第g+1代和第g代种群所对应的目标函数值f进行对比，若差值小于精度Q，则认为满足收敛性，算法终止，将第g+1代种群中具有最大适应度的个体作为A的全局最优结果；

遗传代数判断：若当前遗传代数g＝N_g，则算法终止，将这N_g代种群中具有最大适应度的个体作为A的全局最优结果；

若不满足上述算法终止条件，则令遗传代数g＝g+1，返回到步骤5.2)循环进行操作。

由于热点轨迹只是全轨迹的代表，而一些道路等级较低的路段没有被热点轨迹所覆盖，而是被剩余的非热点轨迹覆盖，为了填补这些被非热点轨迹覆盖且未被热点轨迹覆盖的路段的流量，本发明提出了一种基于轨迹聚类中热点轨迹与非热点轨迹关联性的算法，来进行流量数据的补充。根据步骤三中轨迹聚类所述，同类轨迹具有较高的时空相似度，其中的热点轨迹与非热点轨迹具有一定的关联性，故利用关联性将热点轨迹的扩样系数传递到同类的非热点轨迹上，具体步骤如下：

6.1)获取时间窗T内的所有非热点轨迹，并将其标记为未处理；

6.2)任选一未处理的非热点轨迹non-HT，确定其在轨迹聚类中所属类，获取其与类内各条热点轨迹的公共段，分别计算各公共段的长度，将最长公共段对应的热点轨迹视为其最相关的热点轨迹；

6.3)将与其最相关的热点轨迹的扩样系数作为该非热点轨迹的扩样系数；标记该非热点轨迹为已处理；重复6.2)。

进一步地，在所述的步骤六中，将求得的扩样系数应用到整条轨迹所途经的路段上，根据以下公式可以计算出单条轨迹Traj途经的第i条路段由该单条轨迹产生的扩样流量：

t_real，i＝t_Traj，i*α_i

i＝1，2，...，u

其中，t_Traj，i为轨迹Traj途经的第i条路段由轨迹Traj产生的路段流量，α_i为轨迹Traj的扩样系数，t_real，i为t_Traj，i进行扩样后得到的流量值，u为轨迹Traj途经的路段数量。

获取各路段由经过其的单条轨迹产生的扩样流量后，对任一路段，将经过其的所有轨迹产生的扩样流量进行叠加，即可求得该路段的虚拟交通流量：

其中V_sum，r为经过扩样后路段r获得的流量总量，即要求的路段r的虚拟交通流量，s为经过路段r的轨迹数量。

有益效果：

本发明提供了一种结合多源数据、充分利用不同数据的特性来获取交通流量数据的方法，获取的交通流量数据同时具有精度和广度，本发明对智能交通中的交通规划、交通组织、交通管理与控制、交通安全都具有很高的实际价值。

附图说明

图1为本发明流程示意图

图2为轨迹单元化示意图

图3为2016年9月1日8：00-9：00虚拟流量结果图

具体实施方式

下面结合附图和具体实施实例对本发明作进一步详细秒数，但不作为本发明的限定。

本实施例中使用的浮动车GPS数据为中国深圳罗湖区与福田区2016年9月1日至30日数据，记录包含记录点经度坐标，纬度坐标和时间标签信息，数据记录综述为202,391,745条，浮动车总数为8,168辆；卡口数据为中国深圳2016年9月1日至14日数据，共计14天。本发明具体实施包括以下步骤：

步骤一：浮动车GPS数据记录总数为202,391,745条，有载客状态记录的车辆8,168辆。

步骤1：将连续的载客记录作为一次出行，其判定条件为：连续3条以上记录、相邻记录时间差小于35秒、相邻记录直线距离小于1500m。

步骤2：筛选出有效出行，对所有出行用以下条件进行筛选：出行半径距离0.5km＜Distance＜32km；出行时间3min＜Time＜60min；出行半径速度0.5km/h＜Speed＜120km/h。通过筛选一共获得了420,129次出行。

步骤3：ST-Matching地图匹配算法是一种适用于低采样率的地图匹配算法，利用该地图匹配算法将有效出行GPS点匹配到城市路网上，并获取对应的轨迹信息；算法具体步骤如下所示：

1)输入出租车一次出行的轨迹trajectory和深圳市路网信息；

2)将深圳市路网划分为10*10的区域范围；

3)将路网划分为小区域后，将在同一小区域内的出行轨迹信息进行路段匹配，将轨迹点利用距离为依据匹配到侯选边上，获得轨迹匹配的路径；

步骤二：浮动车GPS数据在经过地图匹配算法的处理后，轨迹点被匹配到路段上，轨迹的表达形式由轨迹点Point-A，Point-B…Point-C，Point-D转变为路段Road-U，Road-V，...，Road-Y，Road-Z；为了保证两个卡口间的轨迹不经过其他卡口，即为了在后续的流量分配过程中不会重复分配流量，对轨迹进行单元化处理，具体步骤如下：

将420,129条轨迹进行编号，分别为1，2，……，420,129，逐条轨迹进行识别经过的卡口数量，若某条轨迹经过的卡口路段数M≤1，则弃用该轨迹；若某条轨迹经过的卡口路段数M＝2，则保留两个卡口路段之间的轨迹途经路段，以此作为新轨迹保留；若某条轨迹经过的卡口路段数M≥3，则对该轨迹进行分割，从该轨迹经过的第一个卡口路段开始，将该轨迹经过的每两个相邻卡口路段间的轨迹途经路段作为一条新的轨迹保留。

如图2所示，A、B、C分别为3个卡口，则经过单元化轨迹之后，得到的轨迹为2条(AB与BC)。

基于时空的轨迹聚类是一个将相似度高的轨迹整体化，并利用一类轨迹中的热点轨迹作为该类的代表性轨迹，对后续的计算步骤进行进一步的简化。轨迹聚类的具体步骤如下：

2.3)对集合C(Traj)中的轨迹进行分类，其中第k类轨迹记为CT_k，CT_k中任意两条轨迹的重叠长度比率q大于设定的最小重叠长度比率Minq(本实施例中设置为0.7)，并添加每一类中的热点轨迹至热点轨迹集合；其中重叠长度比率q为两条轨迹重叠路段数除以这两条轨迹拥有路段数的均值，热点轨迹(HT，Hot Trajectory)为一类轨迹中的所有轨迹按出现次数降序排列后，取占该类中所有轨迹出现次数之和前n％的轨迹(n的取值范围为[0,100]，为经验值，本实施例中设置为90)；标记集合C(Traj_i)中的轨迹为已处理状态；

2.4)判断是否所有轨迹都被标记为已处理状态，若是，则结束，否则以未处理状态的轨迹为基础，返回步骤2.2)

通过步骤二一共获得了9,132个轨迹类和54,796条热点轨迹。

步骤三：卡口数据在14天的检测中一共5,287,649辆计数数据，定义出现天数大于等于2天的车辆为常用车辆，共287万辆；将卡口检测器与记录路段匹配，其中包括卡口检测的路口及方向，以此作为该路段在该方向上的观测流量。

由于卡口可能因为硬件或其他外部因素造成故障，因而产生一些异常数据，为了去除这些异常数据，本文中采用DBSCAN方法进行聚类，以去除异常数据；聚类获得的最大团簇中包含的点被视为正常值，其余点视为异常值；若最大团簇中包含点个数小于记录流量天数的50％，则视为该卡口检测器硬件发生异常，不采用该卡口检测器记录的交通流量。

DBSCAN聚类算法所需主要的主要参数有两个：一个参数是半径(Eps)，表示以给定点A(在本发明中，A表示流量)为中心的圆形邻域的范围；另一个参数是以点A为中心的圆形邻域内最少点的数量(MinAts)。如果满足：以点A为中心、半径为Eps的邻域内的点的个数不少于MinAts，则称点P为核心点。

将卡口在多天同一个时间窗记录的流量数据记为数据集A＝{a(i)i＝1，...n}，其中p(i)表示该卡口在第i天该时间窗的流量；对于每一个点A(i)，计算点A(i)到集合A的子集B＝{a(1)，a(2)，...，a(i-1)，a(i+1)，...，a(n)}中所有点之间的距离，距离按照从小到大的顺序排序，得到排序后的距离集合为D＝{d(1)，d(2)，...，d(k-1)，d(k)，d(k+1)，...，d(n)}，其中d(k)称为k-距离(k-距离是点a(i)到除了a(i)点以外的所有点之间距离第k近的距离)；

根据经验确定k-距离中k的值，从而确定最少点的数量MinAts；本实施例中取k＝4，则MinAts＝4；

对待聚类集合中每个点a(i)都计算k-距离，最后得到所有点的k-距离集合E＝{e(1),e(2),…,e(n)}。

根据得到的所有点的k-距离集合E，对集合E进行升序排序后得到k-距离集合E’，拟合一条E’集合中k-距离的变化曲线图，变化曲线图中，x轴坐标点直接使用递增的自然数序列，每个点对应一个自然数，y轴坐标点为E’集合中k-距离；选用变化曲线图中的最速递增点作为流量半径Eps，斜率最大的两点的对应的k-距离的平均即为最速递增点；

根据给定MinAts的值，以及半径Eps的值，计算所有核心点；根据得到的核心点集合，以及半径Eps的值，计算能够连通的核心点；将能够连通的每一组核心点，以及到核心点距离小于半径Eps的点，都放到一起，形成一个簇；由此聚类得到一组簇；

本发明利用该种基于密度的异常值检测方法，能够有效的抵抗异常值(“噪声”)的干扰。本实施例中，得到卡口记录数据的有效率为72％。

步骤四：定义扩样系数来对已知轨迹产生的路段流量进行扩样；针对每个时间窗T，分别构建一个扩样系数集合A＝{α_k|k＝1，2，…，K}，其大小为K，K为全轨迹数据在该时间窗内的热点轨迹数。本实例中采用1小时为一个时间窗，获取的扩样系数集合数量为24个。对于任一时间窗T，基于该时间窗内具有车辆观测流量数据的路段，建立最优化目标函数，用于求解该时间窗对应的扩样系数集合A：

f＝Minimize Z

V_E(k)＝α_kV_T(k)

其中，f为目标函数值，Z为适应度，i和j是时间窗T内具有车辆观测流量数据的路段，N是时间窗T内具有车辆观测流量数据的路段的总数，V_R(i)是时间窗T内路段i的车辆观测流量，P_ij是时间窗T内从路段i到路段j的热点轨迹集合，V_T(k)是时间窗T内热点轨迹k产生的路段流量，其值等于时间窗T内热点轨迹k出现的次数，V_E(k)是V_T(k)扩样后的流量，α_k是热点轨迹k的扩样系数。

利用遗传算法求解最优化目标函数，得到时间窗T对应的扩样系数集合的全局最优结果，具体步骤如下：

5.1)初始化：设置进化代数计数器g＝0，随机生成n个个体作为初始群体，每一个个体为一个扩样系数集合A＝{α_k|k＝1，2，…，K}，其中元素α_k的值在[0,1]的范围内随机生成；设置遗传代数为N_g，收敛精度为Q；本实例中，N_g＝1500；

5.2)个体选择：计算出第g代中种群中第q个个体被选择的概率

5.3)个体的交叉与变异：

由此得到了经遗传过后的n个个体，构成第g+1代种群；

其中交叉概率p_c和变异概率p_m，分别按照以下公式计算：

其中，p_c1是第g代种群中适应度值小于平均适应度值的个体的交叉概率，p_c2表示第g代种群中具有最大适应度值的个体的交叉概率，F_max为第g代种群所有个体的最大适应度值，F_ave为第g代种群所有个体的平均适应度值，F^*是进行交叉的两个个体中较大的适应度值；p_m是第g代种群中适应度值小于平均适应度值的个体的变异概率，p_m2是第g代种群中具有最大适应度值的个体的变异概率，F′是进行变异的个体的适应度值；p_c1、p_c2、p_m1、p_m2为经验参数；本实施例中，p_c1取0.9，p_m1取0.1，p_c2和p_m2分别取两组值，p_c2＝0.6和p_m2＝0.001或p_c2＝0.5和p_m2＝0.05；

5.5)算法终止条件判断；

对每各时间窗，分别通过上述步骤的计算，可以获得24个时间窗对应的24个扩样系数集合。

本实例中通过计算后获得的某时间窗T内的虚拟交通流量值如图3所示。

与传统的交通流量获取方式有所不同，通过GPS数据将有卡口数据路段与无卡口数据路段关联，通过扩样系数计算获得浮动车GPS数据覆盖路段的虚拟流量，本发明中充分利用了卡口流量计次数据的精度与浮动车GPS数据的高覆盖特性，具有实施简单的特点，具有实时性，能够直接获取无卡口流量数据路段的虚拟流量，有利于在城市路网中开展交通流量填补的工作。

Claims

1.一种基于多源数据融合的虚拟交通流量计算方法，其特征在于，包括以下步骤：

步骤一：获取浮动车GPS数据，将浮动车GPS数据通过地图匹配方法分配至城市路网上，获取浮动车行驶轨迹信息；

步骤二：对浮动车行驶轨迹进行单元化处理，以保证两个卡口间的轨迹不经过其他卡口；对单元化处理后获得的所有轨迹按时间窗进行基于时空距离的聚类，并获取每类中的热点轨迹；

步骤四：针对每个时间窗T，分别构建一个扩样系数集合A＝{α_k|k＝1,2,…,K}，其大小为K，K为全轨迹数据在该时间窗内的热点轨迹数；对于任一时间窗T，基于该时间窗内具有车辆观测流量数据的路段，建立最优化目标函数，用于求解该时间窗对应的扩样系数集合A：

f＝MinimizeZ

V_E(k)＝α_kV_T(k)

步骤五：利用遗传算法求解最优化目标函数，得到时间窗T对应的扩样系数集合的全局最优结果；

步骤六：对于时间窗T内不具有车辆观测流量数据的路段l，将该时间窗内所有经过其的轨迹产生的路段流量利用相应的扩样系数进行扩样后叠加，作为该路段的虚拟交通流量；进行扩样的方法具体为：对于经过路段l的热点轨迹，利用其扩样系数对其产生的路段流量进行扩样；对于经过路段l的非热点轨迹，首先确定与其最相关的热点轨迹，确定方法为：获取该非热点轨迹与其所属聚类中各条热点轨迹的公共段，分别计算各公共段的长度，将最长公共段对应的热点轨迹视为其最相关的热点轨迹；然后利用与其最相关的热点轨迹的扩样系数对其产生的路段流量进行扩样。

2.根据权利要求1所述的基于多源数据融合的虚拟交通流量计算方法，其特征在于，所述的步骤一中，首先筛选出载客状态的浮动车GPS数据，再利用ST-Matching地图匹配算法将浮动车GPS数据中的GPS点匹配到城市路网上，获取浮动车行驶轨迹信息。

3.根据权利要求1所述的基于多源数据融合的虚拟交通流量计算方法，其特征在于，所述步骤二中，对浮动车行驶轨迹进行单元化处理的方法为：

4.根据权利要求1所述的基于多源数据融合的虚拟交通流量计算方法，其特征在于，所述步骤二中，对所有轨迹按时间窗进行基于时空距离的聚类的具体步骤如下：

2.1)将某一时间窗内的所有轨迹设置为未处理状态，并设定热点轨迹集合为空集；

2.3)对集合C(Traj)中的轨迹进行分类，其中第k类轨迹记为CT_k，CT_k中任意两条轨迹的重叠长度比率q大于设定的最小重叠长度比率Minq，并添加每一类中的热点轨迹至热点轨迹集合；其中重叠长度比率q为两条轨迹重叠路段数除以这两条轨迹拥有路段数的均值，热点轨迹为一类轨迹中的所有轨迹按出现次数降序排列后，取占该类中所有轨迹出现次数之和前n％的轨迹；标记集合C(Traj)中的轨迹为已处理状态；

2.4)判断该时间窗内的所有轨迹是否都被标记为已处理状态，若是，则结束该时间窗内轨迹的聚类，否则以未处理状态的轨迹为基础，返回步骤2.2)。

5.根据权利要求1所述的基于多源数据融合的虚拟交通流量计算方法，其特征在于，在所述的步骤二中，利用DBSCAN聚类算法对多天内同一时间窗同一卡口记录的交通流量数据进行聚类，去除异常流量值，其中，聚类获得的最大团簇中包含的点被视为正常流量值，其余点视为异常流量值；同时，若最大团簇中包含点个数小于记录流量天数的50％，则视为该卡口硬件发生异常，去除该卡口记录的交通流量数据；将剩下的交通流量数据作为卡口对应路段的车辆观测流量数据。

6.根据权利要求1所述的基于多源数据融合的虚拟交通流量计算方法，其特征在于，所述步骤五中，利用遗传算法求解最优化目标函数，具体步骤如下：

5.1)初始化：设置进化代数计数器g＝0，随机生成n个个体作为初始群体，每一个个体为一个扩样系数集合A＝{α_k|k＝1,2,…,K}，其中元素α_k的值在[0,1]的范围内随机生成；设置遗传代数为N_g，收敛精度为Q；

5.2)个体选择：计算出第g代中种群中第q个个体被选择的概率

5.3)个体的交叉与变异：

由此得到了经遗传过后的n个个体，构成第g+1代种群；

其中交叉概率p_c和变异概率p_m，分别按照以下公式计算：

其中，p_c1是第g代种群中适应度值小于平均适应度值的个体的交叉概率，p_c2表示第g代种群中具有最大适应度值的个体的交叉概率，F_max为第g代种群所有个体的最大适应度值，F_ave为第g代种群所有个体的平均适应度值，F^*是进行交叉的两个个体中较大的适应度值；p_m1是第g代种群中适应度值小于平均适应度值的个体的变异概率，p_m2是第g代种群中具有最大适应度值的个体的变异概率，F′是进行变异的个体的适应度值；p_c1、p_c2、p_m1、p_m2为经验参数；

5.5)算法终止条件判断；

收敛性判断：将第g+1代和第g代种群所对应的目标函数值f进行对比，若差值小于精度Q，则认为满足收敛性，算法终止，将第g+1代种群中具有最大适应度的个体作为扩样系数集合A的全局最优结果；

遗传代数判断：若当前遗传代数g＝N_g，则算法终止，将这N_g代种群中具有最大适应度的个体作为扩样系数集合A的全局最优结果；