CN114970519A

CN114970519A - 一种基于数据分词的车流量数据处理方法

Info

Publication number: CN114970519A
Application number: CN202210267797.6A
Authority: CN
Inventors: 侯璐; 耿运鑫; 韩灵怡; 杨昊俊
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-03-17
Filing date: 2022-03-17
Publication date: 2022-08-30

Abstract

本发明公开了一种基于数据分词的车流量数据处理方法，包括以下步骤：步骤1，数据处理及分词，所述数据为车流量数据且由公路上部署的传感器采集得到，定义数据集为X；步骤2，模型构建：步骤3，前置任务设计及预训练损失函数定义，设计MTP前置任务对步骤2所述模型进行训练以学习车流量数据的内在特征并得到数据的表征向量；步骤4，依据下游任务微调，在微调阶段，针对不同下游任务的目标将最后一层全连接层替换为对应的输出层；本发明通过自监督学习的方式训练模型，数据无需集中存储与再经专业人士标注，省去了数据标注所需的时间和专业知识，节省了人力物力的同时还能够使海量数据得到充分、高效的利用，并得到具备泛化性的模型。

Description

一种基于数据分词的车流量数据处理方法

技术领域

本发明属于智能交通***(Intelligent Traffic System,ITS)中的车流量数据分析技术领域，尤其涉及一种基于数据分词的车流量数据处理方法。具体是利用深度学习中自监督学习(Self-Supervised Learning,SSL)的方法，并借鉴自然语言处理(NaturalLanguage Processing,NLP)中的分词思路，通过训练与下游任务无关的预训练模型(Pre-trained model)，自动学习到车流量数据中基于词(Token-based)的特征表示，并在不同的下游任务中通过微调(fine-tune)取得不错的性能表现。

背景技术

车流量即一定时间间隔内通过某一固定点的车辆数量。高速发展的城市化进程在带来城镇人口激增的同时也给城市交通提出了新的移动性和稳定性的挑战，在这诸多挑战中，ITS因其促进***有效性和决策制定方面的潜力成为其中最活跃的一个研究领域。在智能交通***中，车流量数据能直观地反映交通状况，在路径规划和交通信号灯控制的方面具有重要作用，因此准确的车流量数据分析便是诸多ITS应用稳定和高效的关键。作为时间序列，车流量数据存在天然的时间相关性，其非线性和随机性的特性也为数据处理带来难度，同时车流量数据也会由于不同的因素呈现出不同的特征，比如在城市的不同街区，由于路边建筑物的密度、街道宽窄的外部条件的不同，车流量数据都会表现出不同的特征趋势；另一方面，在现实条件下因为交通事故或修路的突发状况引起的不规律抖动都使得对车流量数据的处理、分析充满了挑战性，尤其是在连续长时间预测方面的准确度难以得到提高。

近年来随着深层神经网络(Deep Neural Network,DNN)的发展，对于车流量数据的分析与处理逐渐由传统方法过渡到DNN方法且效果不错。车流量处理任务分为车流量分类、车流量预测和车流量补全三类，其中车流量预测是ITS各项应用发展的基础，自监督学习利用大量无标签的数据训练一个能学习到数据深层表征的预训练模型并进一步通过少量有标签数据针对不同的下游任务进行微调并在加速下游任务训练的同时也能获得不错的性能。

申请号为202110190389.0的专利公开了一种车辆数据处理的方法及装置，应用于云端服务器中，其中所述方法包括：获取各车辆对象的原始采集数据；从所述原始采集数据中挖掘出目标数据；确定所述目标数据的标签信息，并为所述目标数据添加所述标签信息，所述标签信息包括如下的一种或结合：车辆感知标签、决策规划标签、路径标签、定位标签、地图标签；以所述标签信息作为索引，存储所述目标数据。

在NLP领域中，BERT的大规模预训练模型通过自监督学习的训练方法在不同的任务中都获得了更佳的性能表现，其中BERT模型设计的预训练任务为遮罩语言建模(MaskedLanguage Model,MLM)和下一句预测(Next Sentence Prediction,NSP)，为各种NLP任务提供强大的预训练模型；受自监督学习在NLP中的成功所启发，研究人员进一步在计算机视觉(Computer Vision,CV)领域探究在学习图像视觉表征方面的能力：在自监督预训练阶段，输入的图像以一种不加分类标签的任务无关方式输入进模型进行训练，用以获得并非适用于某一特定分类任务的表征信息，更大更深层的模型能够更好得利用无标签数据以获得在下游任务上更高的分类准确率。随着大数据和万物互联时代的到来，各种终端设备和大量部署的传感器能够为我们实时采集到海量的数据，其中车流量数据便能由遍布路网中的交通探头和传感器实时获得且为使用机器学习和深度学习研究ITS提供了基础，但是常规的机器学习/深度学习方法需要大量有标签数据来让模型模仿学习，然而数据的标注工作需要有专业知识的技术人员手工进行，费时费力且难以大规模获取，使得这些未标注的原始数据很难得到高效、精准的利用。面向车流量数据的分析、处理并不仅仅集中于预测这一单一任务，还有分类、补全的其他任务，且不同任务也包含不同的任务需求，例如，短期预测、中期预测、长期预测、二分类、多分类、连续缺失补全或随机缺失补全，这就要求对每个特定任务需要单独训练与之相匹配的模型，即针对车流量预测任务训练的预测模型无法完成车流量分类或补全的其他任务；而且当之前的任务更新或被替代以后需要从头开始重新训练一个新模型。

目前对车流量数据的处理都将一个时间步作为分析的最小单位，而非将包含几个连续时间点的序列看作一个统一的整体，基于一个个点训练的模型更多地关注车流量数据中的短时联系和高频特征并导致其难以应用于长期预测、连续补全的任务中。

现有的车流量数据处理方法都是将车流量数据看作由一个个点组成的时间序列，这就使得模型训练时只能关注与数据间短期、高频的特征，会导致在下游任务中表现不佳。

传统方法和目前基于卷积神经网络(Convolutional Neural Network,CNN)和长短时记忆(Long-Short Term Memory,LSTM)的深度学习方法在进行长时预测或补全时性能很差。

发明内容

本发明的目的在于提供一种能够克服上述技术问题的一种基于数据分词的车流量数据处理方法TSSN(Token-based Self-Supervised Network)，本发明所述方法具体包括数据处理及分词、一个任务无关的预训练模型及任务相关的下游微调模型，其中，“分词”来源于NLP中对一个句子进行词切分的操作，TSSN借鉴了这一思路并沿用了这一表达方式，即，在TSSN中，“分词”是指将一段车流量数据分成多个子段，每一段即类比为NLP中的一个“词”，本发明旨在解决现有利用深度学习模型处理车流量数据的方法中需要大量难以获得的有标注数据、且针对不同下游任务需要训练不同模型的问题。

本发明所述方法包括以下步骤：

步骤1，数据处理及分词，所述数据为车流量数据且由公路上部署的传感器采集得到，定义数据集为X，每条数据长度记为N，定义x_i∈X,i＝1,…,N为一条数据中的第i个点，对数据的预处理及分词步骤如下：

步骤1.1，数据预处理，对数据即车流量数据进行归一化处理，使用最大-最小值归一化方法将所有数据调整到[0，1]之间，如以下公式(1)所示：

步骤1.2，数据分词，定义每个词中包含K个点，每条数据中则包含M＝N/K个词，定义每条数据中的第i个词为t_j,j∈[1,M]，如以下公式(2)所示：

t_j:＝x_(j-1)K:jK＝{x_(j-1)K+1,x_(j-1)K+2,...,x_jK}，……(2)，

原始数据经过归一化后再分词，即将K个连续的点视作一个统一的整体进行处理，每个句子共有M个词作为原始输入进入模型；

步骤2，模型构建：

步骤2.1，词嵌入(Token Embedding)，设定由步骤1分词后的输入为X，维度为M×K，即M个词，每个词包含K个点，X乘上一个权重矩阵后得到每个词的嵌入向量构成的矩阵并以此将输入向量映射到一个高维隐空间以方便后续模型的训练，高维隐空间维度定义为D，与之后Transformer编码器的维度相同，如以下公式(3)所示：

其中，

D是词嵌入维度；

步骤2.2，位置编码(Positional Encoding)，词嵌入矩阵要和位置编码相加来融合词与词之间的位置关系信息，此处的位置信息是词层面而非单个点层面的，输入数据的位置由一组不同频率的正弦和余弦函数编码，位置编码矩阵由以下公式(4)给出：

其中，j∈[1,M],d∈[1,D]，表示位置编码矩阵P中第j行第d列的元素，最后，将位置编码矩阵和词嵌入矩阵相加，如以下公式(5)所示：

步骤2.3，自注意力机制，词嵌入矩阵将经过Y个L头注意力的Transformer的编码器(encoder)，得到车流量数据每一个词的表征向量，Transformer直接采用现有的模型，定义Transformer编码器为

则词的表征向量构成的矩阵如以下公式(6)所示：

其中，

的维度为M×D，最后，表征矩阵经过一层全连接层并进行维度变换后得到最终输出，如以下公式(7)所示：

其中，

F(N)表示将输出展平为N维向量，最终模型输出维度和初始输入维度一致，为N维向量；

步骤3，前置任务设计及预训练损失函数定义，设计MTP前置任务对步骤2所述模型进行训练以学习车流量数据的内在特征并得到数据的表征向量，具体步骤如下：

步骤3.1，MTP前置任务，预训练任务为预测被随机遮罩的词，随机选择一句话中一部分的词叠加一个均匀分布的噪声，如以下公式(8)所示：

其中，ξ_j∈[0,1]为第j个词相关的随机数，α为遮罩的概率；

叠加噪声的词中又有概率加的是正噪声来模拟存在人为指挥的因素导致的路况变好、短时间内车流量增加的情况，剩下的概率则是叠加一个负噪声来模拟道路堵塞的因素导致的路况变差、短时间内车流量减少的情况；

损失函数定义为预测结果与真实结果之间的均方误差(Mean Squared Error,MSE)且只有被遮罩的词的位置参与计算，定义遮罩词的位置如以下公式(9)所示：

其中，m_(j-1)K:jK表示向量m中第(j-1)K到第jK个连续元素(左开右闭)，前置任务MTP损失函数设计如以下公式(10)所示：

其中，θ代表模型的所有可训练参数，

为按元素相乘操作符；

步骤3.2，预训练，被遮罩的词是随机选择的，这使得提取到的特征更加抽象，通过强迫预训练模型利用大量无标签车流量数据以自监督学习的方式解决前置任务，模型提取出车流量数据的内在关联性以利于直接用于任何车流量数据的下游任务的微调，前置任务在于随机遮罩的最小单位是包含一串连续点的一整个词而非单个点以令模型更多地关注数据内部的中长期特征；

步骤4，依据下游任务微调，在微调阶段，针对不同下游任务的目标将最后一层全连接层替换为对应的输出层，使用少量任务相关且有标注的数据作为输入，在预训练阶段得到关于车流量数据的一致性表征再通过不同任务特定的输出层得到任务下模型的输出。

本发明所述方法具有如下的有益效果：

1、本发明所述方法提出的基于分词的自监督网络TSSN(Token-based Self-Supervised Network)在预训练阶段能够高效利用道路传感器每时每刻采集到的无标注车流量数据，通过自监督学习的方式训练模型，数据无需集中存储与再经专业人士标注，省去了数据标注所需的时间和专业知识，节省了人力物力的同时还能够使海量数据得到充分、高效的利用，并得到具备泛化性的模型；

2、本发明所述方法在针对不同下游任务的微调阶段，只需要用任务相关的少数模型层来替代预训练模型最后的输出层，即在微调任务的时候，预训练模型只输出学习到的针对车流量数据的表征，只需要少量的任务相关的有标注数据微调训练，在微调过程中保持预训练层参数不变，只有后接的几个任务相关层参数进行模型训练更新，这样无需从头开始模型训练且由于所需训练样本少、参与参数更新的模型结构简单，因而与从头开始模型训练相比节省了大量时间；

3、本发明所述方法通过车流量数据的预训练任务能够使模型在自监督预训练过程中深度挖掘车流量数据的内部一致性特征并能够在不同的下游任务中使用少量任务相关的有标签数据微调后获得优越的性能，通过自监督学习的方法针对车流量数据得到的同一预训练模型能够适用于ITS诸多不同的应用，仅需要少量的数据微调且不用针对不同的应用从头开始训练不同的模型；

4、本发明所述方法通过分词操作使输入模型的最小单位是包含多个连续的点的词(Token)，能更多地关注数据内部中长期的特征并更好地挖掘数据内部的联系，经过模型内的注意力机制(Attention mechanism)学习词与词之间的语义信息，使模型得到关于车流量数据的更准确的表征；

5、本发明所述方法针对车流量数据的特性以及现存方法无法提取其中长度特征的问题，首次提出将车流量数据进行分词后再输入进一个高效的任务无关模型并能够通过自监督的方法学习连续一串点的隐层表征从而使得在各项ITS应用中均得到性能提升；

6、本发明所述方法通过随机遮罩一部分词并使预训练模型根据被遮罩词周围的语义信息推断位置的真实值，以此强迫模型充分挖掘车流量数据的深层特征；

7、本发明所述方法针对ITS的各项应用，经过预训练过程提取得到的车流量数据的隐层表征能直接应用于各种不同的下游任务当中，如：车流量数据分类、车流量数据预测和车流量数据补全，通过使用少量数据进行少量的训练即能达到良好的性能表现；

8、本发明所述方法是首次将分词和自监督学习应用到车流量数据处理上，基于分词的算法比基于点的算法更能够挖掘出车流量数据中宏观的和长时联系，同时自监督学习的方法打破了不同任务间在模型训练时的边界。

附图说明

图1是本发明所述方法的原理示意图；

图2是本发明所述方法的车流量分类任务性能结果示意图；

图3是本发明所述方法的车流量预测任务性能结果示意图；

图4是本发明所述方法P＝1时的7天预测结果展示示意图；

图5是本发明所述方法P＝6时的7天预测结果展示示意图；

图6是本发明所述方法P＝12时的7天预测结果展示示意图；

图7是本发明所述方法P＝36时的7天预测结果展示示意图；

图8是本发明所述方法的不同模型下12点车流量补全结果示意图；

图9是本发明所述方法的不同模型下36点车流量补全结果示意图；

图10是本发明所述方法的车流量补全任务性能结果示意图。

具体实施方式

下面结合附图对本发明的实施方式进行详细描述。

本发明所述方法包括以下步骤：

步骤1，数据处理及分词，所述数据为车流量数据且由公路上部署的传感器采集得到，定义数据集为X，每条数据长度记为N，定义x_i∈X,i＝1,...,N为一条数据中的第i个点，对数据的预处理及分词步骤如下：

步骤1.2，数据分词，分词示意图如图3所示，定义每个词中包含K个点，每条数据中则包含M＝N/K个词，定义每条数据中的第i个词为t_j,j∈[1,M]，如以下公式(2)所示：

t_j:＝x_(j-1)K:jK＝{x_(j-1)K+1,x_(j-1)K+2,...,x_jK}，……(2)，

步骤2，模型构建：

其中，

D是词嵌入维度；

则词的表征向量构成的矩阵如以下公式(6)所示：

其中，

其中，

其中，ξ_j∈[0,1]为第j个词相关的随机数，α为遮罩的概率；

其中，θ代表模型的所有可训练参数，

为按元素相乘操作符；

本发明所述方法原理示意图如图1所示，本发明所述方法分为两个阶段：预训练阶段和微调阶段，在预训练阶段中，TSSN利用大量无标注的车流量数据、通过解决前置任务——遮罩词预测(Masked Token Prediction,MTP)训练一个与下游任务无关的预训练模型，得到关于车流量分词数据的表征向量；在微调阶段，TSSN在表征向量的基础上，利用小规模的任务相关的有标注数据进行少量的训练，即能完成针对不同下游任务的微调，即通过大量无标注数据和大量训练得到的预训练模型能够应用于各种不同的车流量下游任务中，在加速下游任务训练的同时，也无需针对不同应用场景从头开始训练多个不同的模型。

本发明所述方法实施例所有仿真实验运行在配备CUDA 10的NVIDIA Tesla图形处理器(Graphics Processing Units,GPUs)上。

为了验证TSSN的性能，本发明所述方法实施例设计验证了五种不同的词长度：K＝1(5min)、K＝2(10min)、K＝6(0.5h)、K＝12(1h)和K＝24(2h)，嵌入层维度和Transformer编码器的隐层维度均为64，堆叠三个Transformer编码块，每个块的多头注意力层由8个并行的点乘注意力组成，TSSN预训练模型输出的隐层表征即为M*64(M＝N/K)。

预训练使用的数据集是由加州交管局统计的全州部分高速道路探头采集的车流量数据(Performance Measurement System,PeMS)，实时采集到的数据每5分钟聚合为一个点，即每小时12点、每天288点的时间序列，原始采集数据为离散的点，经过平滑和归一化处理后划分数据集，其中80％用作模型训练、20％用作性能验证；接着进行分词处理，并对15％的词随机遮罩，所叠加噪声为服从[0,0.5]的均匀分布；对每个词长度K，模型使用1*10^-4的学习率训练50轮，并在每轮训练结束后进行验证。

在微调阶段，因为在有预训练保存的模型参数的基础上再进行训练模型更易收敛，故将初始学习率下调为2*10^-5，并验证如下三种下游任务：

工作日和周末的车流量数据展现出不同的模式，本任务使用的数据集为在西雅图地区采集的车流量数据，采集和预处理方式与预训练时相同，并根据真实日期给原始数据打上对应的分类标签；

微调模型将隐层表征输入两层全连接层中，最后通过Softmax层输出分类结果，并与真实类别计算交叉熵(Cross-entropy)损失函数；

同时使用两个在处理时间序列数据上具有优势的基础的深度学习模型：三层全连接网络(Three-layer Fully Connected Network,FC)和门控循环单元(Gated RecurrentUnit,GRU)作为对比，统计如下指标：分类准确率、精准度、召回率、F1指数和Kappa系数。

分类任务的结果如结果图2所示：其中当分词长度K＝2时性能最佳；所有分词长度K的TSSN的分类准确率均高于两个对比模型，说明TSSN能显著提升分类任务的性能；Kappa系数表明TSSN是有效且可靠的。

TSSN的预测任务分为短期预测和长期预测，预测未来1个点、6个点和12个点(分别代表5分钟、半小时和一个小时)为短期预测；预测未来36个点和72个点(分别代表3小时和6小时)为长期预测。

为了利用已知车流量数据精确预测未来数据，在TSSN表征层之后接两层全连接层，最后一层的输出维度与要预测的未来点数相同。，计算预测值和真实值之间的MSE。

使用双向长短时记忆网络(Bidirectional Long-Short Term Memory,Bi-LSTM)和Transformer模型作为对比，统计平均绝对误差(Mean Absolute Error,MAE)、均方根误差(Root Mean Square Error,RMSE)、平均绝对百分比误差(Mean Absolute PercentageError,MAPE)和R²系数。

对车流量预测来说，P≤12(1h)时是短期预测、P＞12时是长期预测，当使用MAPE作为评价指标时，将MAPE＝20％看作模型是否可用的分界线，预测结果如图3所示。

当P＝1时，所有分词长度下的TSSN性能均不如Bi-LSTM，这是因为Bi-LSTM更能捕捉数据的短时特征，而TSSN更专注于中长期特征；Transformer模型和未经分词的K＝1TSSN由于MAPE接近20％并不适用于单点车流量预测，预测结果如图4所示；

当P＝6和P＝12时，在MAPE这一指标上TSSN开始比Bi-LSTM表现好，说明TSSN确实能够捕捉到车流量词间的表征、提取到车流量数据中更丰富的内部信息，但是结果并没有证实更大的分词长度K更长时的预测中表现得更好，经过分词的TSSN模型比TSSN(K＝1)和对比模型表现要好，预测结果如图5和图6所示；

当P＝36时，分词的TSSN的MAPE均低于20％，其中TSSN(K＝12)性能最佳，而TSSN(K＝1)的MAPE超过20％，说明基于分词的预训练模型在长期预测时的有效性，其他两种对比模型已不再适用于这一任务，预测结果如图7所示。

72点预测比36点预测难度大幅度提升，表现最好的模型是TSSN(K＝12)，但是其MAPE也略微超过了20％，除了TSSN(K＝12)和TSSN(K＝24)，其余模型对72点预测任务来说性能过差，尤其是两个对比模型。

所有点预测的评价指标统计结果趋势如下：Bi-LSTM在一开始(P＝1)性能最好，但是模型在之后的长期预测中表现不佳；Transformer模型和TSSN(K＝1)在所有长度的预测任务中性能都不好(二者的差别只在于TSSN(K＝1)经过了预训练)，这说明transformer类的模型结构并不能完全适用于车流量预测这一任务，且单单使用预训练并不能提高其性能；其他分词长度的TSSN模型表现相近且都好于Transformer和TSSN(K＝1)，这一结果充分证实了本发明所述方法提出的基于分词的车流量处理方法能有效提升transformer类结构预训练模型的性能。

为应对道路传感器故障的情况，车流量补全利用已知周围信息推断缺失的值，缺失值的位置是随机且连续的，本发明所述方法实施例评估了两种缺失长度的数据补全性能，分别为12点(1小时)和36点(3小时)，由于车流量数据在一天之中也存在不同模式且特征明显，在每种缺失长度的情况下又随机选择三种位置(上坡、波峰和下坡)进行性能验证，利用两层全连接层输出补全位置值并与真实值计算MSE，与预训练时的前置任务不同的是：缺失值使用一个特定值来表示，而不是在真实值上叠加噪声，使用三层FC和Transformer模型作为对比，统计MAE、RMSE、MAPE和R²系数。

对12点和36点补全，根据车流量数据的连续一天的外在形态定义上坡(upslope)、平坦(stationary)和下坡(downslope)三种模式，并在全部测试集上随机选择一天进行补全结果测试，12点和36点的结果分别如图8和图9所示，所有补全性能测试结果如图10所示。

在所有补全结果中，TSSN(K＝24)性能最佳，结果说明TSSNs能够提升车流量补全任务的性能，对于三种模式来说，由于上坡和下坡模式近似无太多抖动的线性，平坦模式存在一些剧烈抖动，这就使得模型较难提取其中特征，导致补全的结果不如上坡和下坡模式。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明公开的范围内，能够轻易想到的变化或替换，都应涵盖在本发明权利要求的保护范围内。

Claims

1.一种基于数据分词的车流量数据处理方法，其特征在于，包括以下步骤：

步骤1，数据处理及分词，所述数据为车流量数据且由公路上部署的传感器采集得到，定义数据集为X，每条数据长度记为N，定义x_i＝X,i＝1,...,N为一条数据中的第i个点；

步骤2，模型构建；

步骤3，前置任务设计及预训练损失函数定义，设计MTP前置任务对步骤2所述模型进行训练以学习车流量数据的内在特征并得到数据的表征向量；

2.根据权利要求1所述的一种基于数据分词的车流量数据处理方法，其特征在于，所述步骤1包括以下步骤：

t_j:＝x_(j-1)K:jK＝{x_(j-1)K+1,x_(j-1)K+2,...,x_jK}，……(2)，

原始数据经过归一化后再分词，即将K个连续的点视作一个统一的整体进行处理，每个句子共有M个词作为原始输入进入模型。

3.根据权利要求1所述的一种基于数据分词的车流量数据处理方法，其特征在于，所述步骤2包括以下步骤：

步骤2.1，词嵌入，设定由步骤1分词后的输入为X，维度为M×K，即M个词，每个词包含K个点，X乘上一个权重矩阵后得到每个词的嵌入向量构成的矩阵并以此将输入向量映射到一个高维隐空间以方便后续模型的训练，高维隐空间维度定义为D，与之后Transformer编码器的维度相同，如以下公式(3)所示：

其中，

D是词嵌入维度；

步骤2.2，位置编码，词嵌入矩阵要和位置编码相加来融合词与词之间的位置关系信息，此处的位置信息是词层面而非单个点层面的，输入数据的位置由一组不同频率的正弦和余弦函数编码，位置编码矩阵由以下公式(4)给出：

步骤2.3，自注意力机制，词嵌入矩阵将经过Y个L头注意力的Transformer的编码器，得到车流量数据每一个词的表征向量，Transformer直接采用现有的模型，定义Transformer编码器为

则词的表征向量构成的矩阵如以下公式(6)所示：

其中，

其中，

F(N)表示将输出展平为N维向量，最终模型输出维度和初始输入维度一致，为N维向量。

4.根据权利要求1所述的一种基于数据分词的车流量数据处理方法，其特征在于，所述步骤3包括以下步骤：

其中，ξ_j∈[0,1]为第j个词相关的随机数，α为遮罩的概率；

损失函数定义为预测结果与真实结果之间的均方误差且只有被遮罩的词的位置参与计算，定义遮罩词的位置如以下公式(9)所示：

其中，m_(j-1)K:jK表示向量m中第(j-1)K到第jK个连续元素，前置任务MTP损失函数设计如以下公式(10)所示：

其中，θ代表模型的所有可训练参数，

为按元素相乘操作符；

步骤3.2，预训练，被遮罩的词是随机选择的，这使得提取到的特征更加抽象，通过强迫预训练模型利用大量无标签车流量数据以自监督学习的方式解决前置任务，模型提取出车流量数据的内在关联性以利于直接用于任何车流量数据的下游任务的微调，前置任务在于随机遮罩的最小单位是包含一串连续点的一整个词而非单个点以令模型更多地关注数据内部的中长期特征。