CN111967667B

CN111967667B - 一种轨道交通分布式运维方法及***

Info

Publication number: CN111967667B
Application number: CN202010827008.0A
Authority: CN
Inventors: 付哲; 肖骁; 刘超
Original assignee: Traffic Control Technology TCT Co Ltd
Current assignee: Traffic Control Technology TCT Co Ltd
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2024-03-01
Anticipated expiration: 2040-08-17
Also published as: CN111967667A

Abstract

本发明实施例提供一种轨道交通分布式运维方法及***，该方法包括：由若干数据调度器接收原始设备数据，对处理后数据集进行数据漂移检测以及数据分配，得到修正设备数据；将轨道交通线路分割为若干集中站处理器，每个集中站处理器包括至少包含1个实际站点，最多包含4个实际站点，接收修正设备数据，运行单机算法和模型调优，得到优化模型训练参数；由模型聚合器收集并整合优化模型训练参数，将整合后的模型训练参数下发至若干集中站处理器，完成全局模型聚合。本发明实施例通过构建用于轨道交通***的分布式机器学习架构，设置集中站进行线路上数据集的切分，降低模型聚合器的工作量，避免单点故障，并采用数据漂移检测进行算法优化和***升级。

Description

一种轨道交通分布式运维方法及***

技术领域

本发明涉及轨道交通运维技术领域，尤其涉及一种轨道交通分布式运维方法及***。

背景技术

在智能运维场景中，例如在轨道交通***，通常会遇到如下问题：(1)中心化结构的***，其配置的传输线材的耗用量十分巨大，通信***的可用性也随之变差，单点故障即可导致全***的不可用；(2)线路长度过长，***需要处理的总数据量十分庞大，中心处理单元工作压力大，计算过程耗时过长。

因此，需要提出一种新的智能运维方法，能解决上述问题。

发明内容

本发明实施例提供一种轨道交通分布式运维方法及***，用以解决现有技术中存在的缺陷。

第一方面，本发明实施例提供一种轨道交通分布式运维方法，包括：

由若干数据调度器接收预设集中管辖区域内的原始设备数据，基于所述原始设备数据获得处理后的数据集，对所述处理后的数据集进行数据漂移检测以及数据分配，得到修正设备数据；

将轨道交通线路分割为若干集中站处理器，每个集中站处理器包括若干个实际站点，每个集中站处理器至少包含1个实际站点，最多包含4个实际站点，由所述若干集中站处理器接收所述修正设备数据，基于所述修正设备数据运行单机算法和模型调优，得到优化的模型训练参数；

由模型聚合器收集并整合所述优化的模型训练参数，将整合后的模型训练参数下发至所述若干集中站处理器，完成全局模型聚合。

进一步地，所述基于所述原始设备数据获得处理后的数据集，所述对所述处理后的数据集进行数据漂移检测以及数据分配，得到修正设备数据，具体包括：

对所述原始设备数据进行预处理，得到预处理的原始设备数据；

对所述预处理的原始设备数据执行特征分析，得到所述处理后的数据集；

按照预设拆分比例，将所述处理后的数据集拆分为训练集和测试集；

对所述处理后的数据集数据漂移检测，得到检测结果，基于所述检测结果执行对所述原始设备数据的预设分配操作，得到所述修正设备数据。

进一步地，所述对所述处理后的数据集数据漂移检测，得到检测结果，基于所述检测结果执行对所述原始设备数据的预设分配操作，得到所述修正设备数据，具体包括：

将所述训练集输入已训练好的模型，得到预测结果；

将所述预测结果与真实标签进行对比，得到模型预测准确率；

基于所述模型预测准确率和预设判断阈值，若判断获知发生模型漂移，则发出漂移警告，重新训练新的模型替代原有模型，由发生模型漂移的若干数据调度器与其余未发生模型漂移的若干数据调度器进行数据交换，将所述修正设备数据至所述若干集中站处理器；

若判断获知未发生模型漂移，仍使用原有模型进行预测，并将所述原始设备数据发送至所述若干集中站处理器。

进一步地，所述由发生模型漂移的若干数据调度器与其余未发生模型漂移的若干数据调度器进行数据交换，将所述修正设备数据至所述若干集中站处理器，具体包括：

获取发生模型漂移的时间点，由发生模型漂移的若干数据调度器舍弃所述时间点之前的原始数据；

发生模型漂移的若干数据调度器向其余未发生模型漂移的若干数据调度器发起数据交换请求；

每一个未发生模型漂移的数据调度器将所述时间点之后的1/N数据发送至所述发生模型漂移的若干数据调度器，其中N为所述若干集中站处理器的个数。

进一步地，所述由发生模型漂移的若干数据调度器与其余未发生模型漂移的若干数据调度器进行数据交换，将所述修正设备数据至所述若干集中站处理器，还包括：

所述若干集中站处理器接收到预设比例的其余未发生模型漂移的若干数据调度器发送的数据后，重新开始模型训练。

进一步地，所述由所述若干集中站处理器接收所述修正设备数据，基于所述修正设备数据运行单机算法和模型调优，得到优化的模型训练参数，具体包括：

采用Frank-Wlofe算法，基于所述修正设备数据进行单机机器学习优化，得到所述优化的模型训练参数。

进一步地，所述全局模型聚合具体包括：

按照预设聚合比例接收所述若干集中站处理器上传的所述整合后的模型训练参数后，采用预设优化算法进行模型聚合，使得全局模型达到一致。

第二方面，本发明实施例还提供一种轨道交通分布式运维***，包括：

调度模块，用于由若干数据调度器接收预设集中管辖区域内的原始设备数据，基于所述原始设备数据获得处理后的数据集，对所述处理后的数据集进行数据漂移检测以及数据分配，得到修正设备数据；

集中模块，用于将轨道交通线路分割为若干集中站处理器，每个集中站处理器包括若干个实际站点，每个集中站处理器至少包含1个实际站点，最多包含4个实际站点，由所述若干集中站处理器接收所述修正设备数据，基于所述修正设备数据运行单机算法和模型调优，得到优化的模型训练参数；

聚合模块，用于由模型聚合器收集并整合所述优化的模型训练参数，将整合后的模型训练参数下发至所述若干集中站处理器，完成全局模型聚合。

第三方面，本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述轨道交通分布式运维方法的步骤。

第四方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述轨道交通分布式运维方法的步骤。

本发明实施例提供的轨道交通***分布式运维方法及***，通过构建用于轨道交通***的分布式机器学习架构，设置集中站进行线路上数据集的切分，降低模型聚合器的工作量，避免单点故障，并采用数据漂移检测进行算法优化和***升级。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种轨道交通分布式运维方法的流程示意图；

图2是本发明实施例提供的分布式运维***框架图；

图3是本发明实施例提供的数据漂移应用方式示意图；

图4是本发明实施例提供的模型聚合过程中的通信流程图；

图5是本发明实施例提供的一种轨道交通分布式运维***的结构示意图；

图6是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的一种轨道交通分布式运维方法的流程示意图，如图1所示，包括：

S1，由若干数据调度器接收预设集中管辖区域内的原始设备数据，基于所述原始设备数据获得处理后的数据集，对所述处理后的数据集进行数据漂移检测以及数据分配，得到修正设备数据；

S2，将轨道交通线路分割为若干集中站处理器，每个集中站处理器包括若干个实际站点，每个集中站处理器至少包含1个实际站点，最多包含4个实际站点，由所述若干集中站处理器接收所述修正设备数据，基于所述修正设备数据运行单机算法和模型调优，得到优化的模型训练参数；

S3，由模型聚合器收集并整合所述优化的模型训练参数，将整合后的模型训练参数下发至所述若干集中站处理器，完成全局模型聚合。

具体地，本发明实施例应用的前提是：将轨道交通线路分割为若干个集中站，每个集中站包含了若干个实际站点，每个集中站至少包含一个实际站点，最多包含4个实际站点。

此处，整体由数据调度器、集中站处理器和模型聚合器三部分组成，框架流程如图2所示：

数据调度器主要负责管辖范围内的数据收集、数据漂移检测、数据预处理等功能；集中站处理器负责单机算法运行和调优；模型聚合器负责将来自不同工作节点的模型参数进行聚合，以得到一个完整的全局模型。

本发明实施例通过构建用于轨道交通***的分布式机器学习架构，设置集中站进行线路上数据集的切分，降低模型聚合器的工作量，避免单点故障，并采用数据漂移检测进行算法优化和***升级。

基于上述实施例，该方法步骤S1具体包括：

其中，所述对所述处理后的数据集数据漂移检测，得到检测结果，基于所述检测结果执行对所述原始设备数据的预设分配操作，得到所述修正设备数据，具体包括：

将所述训练集输入已训练好的模型，得到预测结果；

其中，所述由发生模型漂移的若干数据调度器与其余未发生模型漂移的若干数据调度器进行数据交换，将所述修正设备数据至所述若干集中站处理器，具体包括：

其中，所述由发生模型漂移的若干数据调度器与其余未发生模型漂移的若干数据调度器进行数据交换，将所述修正设备数据至所述若干集中站处理器，还包括：

具体地，数据调度器与集中站处理器一一对应，即数据调度器的数量与编号，与集中站编号和集中站处理器编号保持一致，分别实现以下功能：

(1)接收预设集中管辖区域内的设备数据，对数据进行预处理，该预处理包括缺失值填充、去噪、归一化等；

(2)执行特征分析操作，包括但不限于统计特征分析和深度特征分析等；

(3)数据集拆分，将预处理后的数据集拆分为训练集和测试集，此处预设拆分比例由人为设定，例如8:2和7:3等；

(4)数据漂移检测：

数据漂移检测又称为模型漂移或概念漂移，主要因为数据的分布发生变化使得模型的性能降低，当此类现象发生时，***需要及时修正算法训练所使用的数据集，以应对可能存在的性能降低。带有概念漂移检测的模型更新框架如图3所示：首先将输入的一批样本送入已训练好的模型可得到相应的预测结果；然后，将预测结果与真实标签对比，可计算出模型的准确率；最后，根据模型的准确率判定是否发生概念漂移，若发生概念漂移，对外发出警告声明存在概念漂移，并重新训练模型以替代原有模型。若没有发生概念漂移，则继续使用原模型进行预测。在***初次训练开启后，集中站处理器可以根据自身管辖范围内数据分布的实际变化情况，决定训练迭代的轮次以及每个轮次开始的时间。

(5)数据分配，在此功能下，数据调度器负责向集中站处理器执行预设分配操作，分为如下两种情况：

1)未发生“数据漂移”情况时，数据调度器将管辖范围内的原始数据发送给集中站处理器；

2)发生“数据漂移”情况时，漂移情况所在的数据调度器会舍弃该时间之前的原始数据并记录“数据漂移”发生的时间点，同时，数据调度器会向全线路上未发生“数据漂移”的其他数据调度器发起数据交换请求以补充数据量的不足，未发生“数据漂移”的其他数据调度器接受到数据交换请求后，将该时间点之后的数据的1/N发送给命令请求方，其中N为集中站处理器的个数。

此处，数据调度器的数据分配过程，还可使用全线路随机抽样的方式，其优点在于方法简单，实现起来更容易，同时避免了单机优化过程中可能存在的过拟合问题，而缺点在于分布式节点之间的通信负担较大。

对应地，发起数据交换请求的集中站处理器，在接收到预设比例，例如三分之二以上的未发生“数据漂移”的其他数据调度器发送的数据后，即可开始重新训练的过程。

本发明实施例由数据调度器负责管辖范围内的数据收集、数据漂移检测、数据预处理等功能，并基于数据漂移检测功能，数据调度器可以判断算法开启重新训练的时机，以达到算法优化和***升级的目的。

基于上述任一实施例，该方法中步骤S2具体包括：

具体地，各个集中站处理器根据数据调度器分配给自己的数据执行当前模型的过程是一个传统的单机机器学习任务，在本发明实施例中，集中站处理器对单机机器学习的优化过程采取Frank-Wlofe算法，引入该算法的目的在于使得单机机器学习能够得到最优化的模型参数。

本发明实施例通过集中站的设置，切分了整条线路上的数据集，降低模型聚合器的工作量，同时，避免单个站点设备故障导致的全局不可用。

基于上述任一实施例，所述全局模型聚合具体包括：

具体地，模型聚合器的目的在于：收集全部集中站处理器的模型训练参数并整合，将整合后的模型参数下发给各集中站处理器以达到全局模型一致。

同时，模型聚合器还是***每次启动训练的发起者。

为了简化本发明实施例的计算过程，在模型聚合过程中采用预设优化算法，例如模型平均的方法，计算公式如下：

其中，ω_t指的是集中站处理器上传的某个模型参数，ω指的是该参数的汇总值，K指的是模型聚合器在当前参数下，一共收到K个值，即有K个集中站处理器上传了当前的参数值。

此处，模型聚合的过程还可采用如ADMM、SSGD等方法，具体采用的哪种方法，要根据具体的数据情况来确定。

在接收集中站处理器上传的模型参数的过程中，模型聚合器接收到预设聚合比例，如80％的集中站处理器上传的参数即可开始模型聚合过程，具体流程如图4所示。

本发明实施例的模型聚合器仅仅接收集中站处理器发送的模型参数，与传统方案里发送原始数据相比，大大降低了***中心部分的通信负担。

下面对本发明实施例提供的轨道交通分布式运维***进行描述，下文描述的轨道交通分布式运维***与上文描述的轨道交通分布式运维方法可相互对应参照。

图5是本发明实施例提供的一种轨道交通分布式运维***的结构示意图，如图5所示，包括：调度模块51、集中模块52和聚合模块53；其中：

调度模块51用于由若干数据调度器接收预设集中管辖区域内的原始设备数据，基于所述原始设备数据获得处理后的数据集，对所述处理后的数据集进行数据漂移检测以及数据分配，得到修正设备数据；集中模块52用于将轨道交通线路分割为若干集中站处理器，每个集中站处理器包括若干个实际站点，每个集中站处理器至少包含1个实际站点，最多包含4个实际站点，由所述若干集中站处理器接收所述修正设备数据，基于所述修正设备数据运行单机算法和模型调优，得到优化的模型训练参数；聚合模块53用于由模型聚合器收集并整合所述优化的模型训练参数，将整合后的模型训练参数下发至所述若干集中站处理器，完成全局模型聚合。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(communicationinterface)620、存储器(memory)630和通信总线(bus)640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行轨道交通分布式运维方法，该方法包括：由若干数据调度器接收预设集中管辖区域内的原始设备数据，基于所述原始设备数据获得处理后的数据集，对所述处理后的数据集进行数据漂移检测以及数据分配，得到修正设备数据；将轨道交通线路分割为若干集中站处理器，每个集中站处理器包括若干个实际站点，每个集中站处理器至少包含1个实际站点，最多包含4个实际站点，由所述若干集中站处理器接收所述修正设备数据，基于所述修正设备数据运行单机算法和模型调优，得到优化的模型训练参数；由模型聚合器收集并整合所述优化的模型训练参数，将整合后的模型训练参数下发至所述若干集中站处理器，完成全局模型聚合。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的轨道交通分布式运维方法，该方法包括：由若干数据调度器接收预设集中管辖区域内的原始设备数据，基于所述原始设备数据获得处理后的数据集，对所述处理后的数据集进行数据漂移检测以及数据分配，得到修正设备数据；将轨道交通线路分割为若干集中站处理器，每个集中站处理器包括若干个实际站点，每个集中站处理器至少包含1个实际站点，最多包含4个实际站点，由所述若干集中站处理器接收所述修正设备数据，基于所述修正设备数据运行单机算法和模型调优，得到优化的模型训练参数；由模型聚合器收集并整合所述优化的模型训练参数，将整合后的模型训练参数下发至所述若干集中站处理器，完成全局模型聚合。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的轨道交通分布式运维方法，该方法包括：由若干数据调度器接收预设集中管辖区域内的原始设备数据，基于所述原始设备数据获得处理后的数据集，对所述处理后的数据集进行数据漂移检测以及数据分配，得到修正设备数据；将轨道交通线路分割为若干集中站处理器，每个集中站处理器包括若干个实际站点，每个集中站处理器至少包含1个实际站点，最多包含4个实际站点，由所述若干集中站处理器接收所述修正设备数据，基于所述修正设备数据运行单机算法和模型调优，得到优化的模型训练参数；由模型聚合器收集并整合所述优化的模型训练参数，将整合后的模型训练参数下发至所述若干集中站处理器，完成全局模型聚合。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种轨道交通分布式运维方法，其特征在于，包括：

由模型聚合器收集并整合所述优化的模型训练参数，将整合后的模型训练参数下发至所述若干集中站处理器，完成全局模型聚合；

所述基于所述原始设备数据获得处理后的数据集，所述对所述处理后的数据集进行数据漂移检测以及数据分配，得到修正设备数据，具体包括：

对所述处理后的数据集数据漂移检测，得到检测结果，基于所述检测结果执行对所述原始设备数据的预设分配操作，得到所述修正设备数据；

所述对所述处理后的数据集数据漂移检测，得到检测结果，基于所述检测结果执行对所述原始设备数据的预设分配操作，得到所述修正设备数据，具体包括：

将所述训练集输入已训练好的模型，得到预测结果；

若判断获知未发生模型漂移，仍使用原有模型进行预测，并将所述原始设备数据发送至所述若干集中站处理器；

所述由发生模型漂移的若干数据调度器与其余未发生模型漂移的若干数据调度器进行数据交换，将所述修正设备数据至所述若干集中站处理器，具体包括：

每一个未发生模型漂移的数据调度器将所述时间点之后的1/N数据发送至所述发生模型漂移的若干数据调度器，其中N为所述若干集中站处理器的个数；

所述由发生模型漂移的若干数据调度器与其余未发生模型漂移的若干数据调度器进行数据交换，将所述修正设备数据至所述若干集中站处理器，还包括：

所述若干集中站处理器接收到预设比例的其余未发生模型漂移的若干数据调度器发送的数据后，重新开始模型训练；

所述由所述若干集中站处理器接收所述修正设备数据，基于所述修正设备数据运行单机算法和模型调优，得到优化的模型训练参数，具体包括：

采用Frank-Wlofe算法，基于所述修正设备数据进行单机机器学习优化，得到所述优化的模型训练参数；

所述全局模型聚合具体包括：

2.一种轨道交通分布式运维***，其特征在于，包括：

聚合模块，用于由模型聚合器收集并整合所述优化的模型训练参数，将整合后的模型训练参数下发至所述若干集中站处理器，完成全局模型聚合；

将所述训练集输入已训练好的模型，得到预测结果；

所述全局模型聚合具体包括：

3.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1所述轨道交通分布式运维方法的步骤。

4.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1所述轨道交通分布式运维方法的步骤。