CN114124784B

CN114124784B - 一种基于垂直联邦的智能路由决策保护方法和***

Info

Publication number: CN114124784B
Application number: CN202210096691.4A
Authority: CN
Inventors: 杨林; 高先明; 冯涛; 张京京; 陶沛琳; 王雯
Original assignee: Institute of Network Engineering Institute of Systems Engineering Academy of Military Sciences
Current assignee: Institute of Network Engineering Institute of Systems Engineering Academy of Military Sciences
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2022-04-12
Anticipated expiration: 2042-01-27
Also published as: CN114124784A

Abstract

本发明提出一种基于垂直联邦的智能路由决策保护方法和***。所述方法包括：步骤S1、通过采样获取应用场景中的智能体的采样状态数据，所述采样状态数据分为N组采样子状态数据分别被发送至N个客户端，N≥2且为正整数；步骤S2、所述N个客户端中的每一个客户端都基于接收到的采样子状态数据，利用构建的客户端模型，来生成所述采样子状态数据的特征数据，并将所述特征数据发送至服务器端；步骤S3、所述服务器端利用构建的服务器端模型，基于接收到的来自于所述N个客户端的N组特征数据生成针对所述智能体的整体任务的路由决策。

Description

一种基于垂直联邦的智能路由决策保护方法和***

技术领域

本发明属于针对智能路由的数据处理领域，尤其涉及一种基于垂直联邦的智能路由决策保护方法和***。

背景技术

在网络***连接对象海量化、连接关系复杂化的背景下，传统基于人工配置的路由决策方法导致在有限时间内无法配置出最优的路由决策，促使研究人员将人工智能算法引入到智能路由决策过程中。随着深度强化学习已经在机器人控制、游戏博弈、计算机视觉、无人驾驶等领域被成功应用，研究人员将深度强化学习应用到智能路由决策领域，提升网络流量调度效能、网络资源分配合理性等方面。

尽管深度强化学***，但其训练过程容易受到攻击，导致其训练集数据异常，进而影响了智能路由在学习过程中对于决策的判断或者动作的选择，最终使智能路由朝着失败的方向学习动作。在智能路由决策模型安全防护领域，面向深度强化学习的模型保护技术还没有很多的新进展，如何保护智能路由决策模型安全性成为了安全应用领域中的重要挑战。

发明内容

为了解决上述技术问题，本发明提供了一种基于垂直联邦的智能路由决策保护方案，目的在于保护基于深度强化学习的路由决策模型不受自身决策漏洞或者恶意攻击的影响。

本发明第一方面公开了一种基于垂直联邦的智能路由决策保护方法。所述方法包括：

步骤S1、通过采样获取应用场景中的智能体的采样状态数据，所述采样状态数据分为N组采样子状态数据分别被发送至N个客户端，N≥2且为正整数；

步骤S2、所述N个客户端中的每一个客户端都基于接收到的采样子状态数据，利用构建的客户端模型，来生成所述采样子状态数据的特征数据，并将所述特征数据发送至服务器端；

步骤S3、所述服务器端利用构建的服务器端模型，基于接收到的来自于所述N个客户端的N组特征数据生成针对所述智能体的整体任务的路由决策。

根据本发明第一方面的方法，在所述步骤S2中，构建的N个客户端模型具有相同的模型结构，每个客户端模型都包含两个客户端子模型，各个客户端子模型也具有相同的模型结构，每个客户端子模型都包含两个全连接层和两个激活函数层。

根据本发明第一方面的方法，在所述步骤S3中，所述服务器端对接收到的来自于所述N个客户端的所述N组特征数据进行拼接处理，以获得完整特征数据，所述服务器端模型根据所述完整特征数据生成针对所述智能体的整体任务的路由决策，所述服务器端模型包含一个全连接层和一个Tanh激活函数层。

根据本发明第一方面的方法，在所述步骤S1至所述步骤S3之前，所述方法还包括：步骤S0、对所述服务器端模型和N个所述客户端模型进行预训练，所述预训练具体包括：

步骤S0-1、通过预采样获取所述应用场景中的所述智能体的训练状态数据，所述训练状态数据分为N组训练子状态数据，在N组训练子状态数据中的第k组训练子状态数据中加入表征恶意攻击的干扰噪声，随后将所述第k组训练子状态数据和其他N-1组训练子状态数据分别发送至N个客户端，1≤k≤N且k为正整数；

步骤S0-2、所述N个客户端中的每一个客户端都基于接收到的训练子状态数据，利用所述客户端模型，来生成所述训练子状态数据的训练特征数据，并将所述训练特征数据发送至所述服务器端；

步骤S0-3、所述服务器端利用所述服务器端模型，基于接收到的来自于所述N个客户端的N组训练特征数据生成针对所述智能体的训练任务的路由决策；

步骤S0-4、获取所述智能体的训练任务的真实决策，基于所述训练任务的路由决策和所述训练任务的真实决策计算损失函数；

步骤S0-5、所述损失函数被反馈至所述N个客户端，所述N个客户端在接收到所述损失函数后，重复所述步骤S0-1至所述步骤S0-4，直到计算得到的损失函数低于阈值，随后利用经预训练的所述服务器端模型和所述N个客户端模型执行所述步骤S1至所述步骤S3。

根据本发明第一方面的方法，在所述步骤S0-4中：

利用如下公式表示所述损失函数：

其中，

表示所述客户端模型中动作网络的损失函数，

表示所述客户端模型中判别网络的损失函数，

表示所述客户端模型的模型参数；

所述动作网络的损失函数为：

其中，

表示所述动作网络的状态转移概率，

表示动作网络的前次状态转移概率，

表示所述客户端模型的当前模型参数，

表示所述客户端模型的前次模型参数，

表示截取函数，截取

范围内的值，

表示超参数，

表示时间步

时的估计优势，

表示在所述客户端模型的前次模型参数下所述时间步

时的估计优势；

所述判别网络的损失函数为：

其中，

是目标值函数，

是预测值，

和

分别表示状态和动作，

和

表示超参数。

根据本发明第一方面的方法，在获取所述采样状态数据和所述训练状态数据时，均采用近段策略优化算法，来采集多个时刻的状态、动作、奖励值；具体包括：在第一时刻，所述智能体从所述应用场景的仿真环境中获取状态数据，所述动作网络基于所述状态数据做出对应的动作，所述判别网络针对所述动作网络做出的动作给出奖励值；在其他时刻，以同样的方式获取某一时刻下的状态、动作、奖励值。

本发明第二方面公开了一种基于垂直联邦的智能路由决策保护***。所述***包括：

状态采样模块，被配置为，通过采样获取应用场景中的智能体的采样状态数据，所述采样状态数据分为N组采样子状态数据分别被发送至N个客户端，N≥2且为正整数；

特征生成模块，被配置为，基于所述N个客户端中的每一个客户端接收到的采样子状态数据，利用构建的客户端模型，来生成所述采样子状态数据的特征数据，并将所述特征数据发送至服务器端；

路由决策模块，被配置为，利用构建的服务器端模型，基于所述服务器端接收到的来自于所述N个客户端的N组特征数据，来生成针对所述智能体的整体任务的路由决策。

根据本发明第二方面的***，构建的N个客户端模型具有相同的模型结构，每个客户端模型都包含两个客户端子模型，各个客户端子模型也具有相同的模型结构，每个客户端子模型都包含两个全连接层和两个激活函数层。

根据本发明第二方面的***，所述服务器端对接收到的来自于所述N个客户端的所述N组特征数据进行拼接处理，以获得完整特征数据，所述服务器端模型根据所述完整特征数据生成针对所述智能体的整体任务的路由决策，所述服务器端模型包含一个全连接层和一个Tanh激活函数层。

根据本发明第二方面的***，所述***包括：预处理模块，被配置为，对所述服务器端模型和N个所述客户端模型进行预训练，所述预训练具体包括：

通过预采样获取所述应用场景中的所述智能体的训练状态数据，所述训练状态数据分为N组训练子状态数据，在N组训练子状态数据中的第k组训练子状态数据中加入表征恶意攻击的干扰噪声，随后将所述第k组训练子状态数据和其他N-1组训练子状态数据分别发送至N个客户端，1≤k≤N且k为正整数；

所述N个客户端中的每一个客户端都基于接收到的训练子状态数据，利用所述客户端模型，来生成所述训练子状态数据的训练特征数据，并将所述训练特征数据发送至所述服务器端；

所述服务器端利用所述服务器端模型，基于接收到的来自于所述N个客户端的N组训练特征数据生成针对所述智能体的训练任务的路由决策；

获取所述智能体的训练任务的真实决策，基于所述训练任务的路由决策和所述训练任务的真实决策计算损失函数；

所述损失函数被反馈至所述N个客户端，所述N个客户端在接收到所述损失函数后，重复上述步骤，直到计算得到的损失函数低于阈值。

根据本发明第二方面的***，利用如下公式表示所述损失函数：

其中，

表示所述客户端模型中动作网络的损失函数，

表示所述客户端模型中判别网络的损失函数，

表示所述客户端模型的模型参数；

所述动作网络的损失函数为：

其中，

表示所述动作网络的状态转移概率，

表示动作网络的前次状态转移概率，

表示所述客户端模型的当前模型参数，

表示所述客户端模型的前次模型参数，

表示截取函数，截取

范围内的值，

表示超参数，

表示时间步

时的估计优势，

表示在所述客户端模型的前次模型参数下所述时间步

时的估计优势；

所述判别网络的损失函数为：

其中，

是目标值函数，

是预测值，

和

分别表示状态和动作，

和

表示超参数。

根据本发明第二方面的***，在获取所述采样状态数据和所述训练状态数据时，均采用近段策略优化算法，来采集多个时刻的状态、动作、奖励值；具体包括：在第一时刻，所述智能体从所述应用场景的仿真环境中获取状态数据，所述动作网络基于所述状态数据做出对应的动作，所述判别网络针对所述动作网络做出的动作给出奖励值；在其他时刻，以同样的方式获取某一时刻下的状态、动作、奖励值。

本发明第三方面公开了一种电子设备。所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时，实现本发明第一方面所述的一种基于垂直联邦的智能路由决策保护方法中的步骤。

本发明第四方面公开了一种计算机可读存储介质。所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现本发明第一方面所述的一种基于垂直联邦的智能路由决策保护方法中的步骤。

综上，本发明的技术方案基于垂直联邦本身模型以及数据保护功能，设计基于垂直联邦的强化学习框架，将模型的训练划分为本地客户端和服务器端，客户端的数量任意，不同客户端各自拿到不同特征数据来训练，同时上传到服务器端的数据只有特征，从而也能迷惑攻击者即使拿到某个客户端的输入以及输出也无法等价出整体策略模型划分了输入特征，并将划分的特征分给不同客户端进行训练。采用本发明可以使攻击者很难窃取智能路由决策完整训练任务，无法窃取整个智能路由决策模型，从而达到保护智能路由决策模型的目的。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例的一种基于垂直联邦的智能路由决策保护方法的流程图；

图2为根据本发明实施例的垂直联邦的架构示意图；

图3为根据本发明实施例的近端策略优化算法的结构示意图；

图4为根据本发明实施例的一种基于垂直联邦的智能路由决策保护***的结构图；

图5为根据本发明实施例的一种电子设备的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明第一方面公开了一种基于垂直联邦的智能路由决策保护方法。图1为根据本发明实施例的一种基于垂直联邦的智能路由决策保护方法的流程图；如图1所示，所述方法包括：,步骤S1、通过采样获取应用场景中的智能体的采样状态数据，所述采样状态数据分为N组采样子状态数据分别被发送至N个客户端，N≥2且为正整数；步骤S2、所述N个客户端中的每一个客户端都基于接收到的采样子状态数据，利用构建的客户端模型，来生成所述采样子状态数据的特征数据，并将所述特征数据发送至服务器端；步骤S3、所述服务器端利用构建的服务器端模型，基于接收到的来自于所述N个客户端的N组特征数据生成针对所述智能体的整体任务的路由决策。

图2为根据本发明实施例的垂直联邦的架构示意图；如图2所示，图中实线表示前向传播，虚线表示反向传播，仿真环境可以是各种强化学习场景。

在步骤S1，通过采样获取应用场景中的智能体的采样状态数据，所述采样状态数据分为N组采样子状态数据分别被发送至N个客户端，N≥2且为正整数。

在步骤S2，所述N个客户端中的每一个客户端都基于接收到的采样子状态数据，利用构建的客户端模型，来生成所述采样子状态数据的特征数据，并将所述特征数据发送至服务器端。

在一些实施例中，在所述步骤S2中，构建的N个客户端模型具有相同的模型结构，每个客户端模型都包含两个客户端子模型，各个客户端子模型也具有相同的模型结构，每个客户端子模型都包含两个全连接层和两个激活函数层。

具体地，首先将传统深度强化学习的模型分为若干个客户端和一个服务器端，本发明以设计两个客户端为例，将采样的状态进行拆分分发给各个客户端，各个客户端拿到不同特征的数据以建立垂直联邦环境，各个客户端拿到数据之后需要在本地进行数据处理（特征提取），此处特征提取可以采用主成分分析法以及多维尺度分析法等，本发明通过客户端模型输出特征发送给服务器端。接下来搭建客户端模型以及服务器端模型，每个客户端模型结构一致，都由两个子模型组成，子模型结构一致而且都包含两层全连接，两层激活函数，服务器端模型包含一个全连接层。

在步骤S3，所述服务器端利用构建的服务器端模型，基于接收到的来自于所述N个客户端的N组特征数据生成针对所述智能体的整体任务的路由决策。

在一些实施例中，在所述步骤S3中，所述服务器端对接收到的来自于所述N个客户端的所述N组特征数据进行拼接处理，以获得完整特征数据，所述服务器端模型根据所述完整特征数据生成针对所述智能体的整体任务的路由决策，所述服务器端模型包含一个全连接层和一个Tanh激活函数层。

具体地，各个客户端模型输出的特征信息会在服务器端进行聚合，此处聚合器是对服务器端传送的特征进行拼接操作。将本地模型输出的特征上传到服务器，服务器端首先利用聚合器将数据聚合然后放入服务器端模型进行处理，以生成针对所述智能体的整体任务的路由决策。

在一些实施例中，在所述步骤S1至所述步骤S3之前，所述方法还包括：步骤S0、对所述服务器端模型和N个所述客户端模型进行预训练，所述预训练具体包括：

在一些实施例中，在所述步骤S0-4中：

利用如下公式表示所述损失函数：

其中，

表示所述客户端模型中动作网络的损失函数，

表示所述客户端模型中判别网络的损失函数，

表示所述客户端模型的模型参数；

所述动作网络的损失函数为：

其中，

表示所述动作网络的状态转移概率，

表示动作网络的前次状态转移概率，

表示所述客户端模型的当前模型参数，

表示所述客户端模型的前次模型参数，

表示截取函数，截取

范围内的值，

表示超参数，

表示时间步

时的估计优势，

表示在所述客户端模型的前次模型参数下所述时间步

时的估计优势；

所述判别网络的损失函数为：

其中，

是目标值函数，

是预测值，

和

分别表示状态和动作，

和

表示超参数。

具体地，考虑测试阶段可能存在的攻击，训练好的模型分布在各地，很难被同时操纵，假如攻击者能拿到其中一个客户端模型并通过各种攻击策略对输入加噪声，这一操作较难对整体任务造成很大影响。因此，在训练阶段，对多个客户端中的一个客户端加入表征恶意攻击的干扰噪声，在另外一些实施例中，也可以对多于一个的客户端加入表征恶意攻击的干扰噪声。

各个客户端模型也是利用服务器端模型的损失反馈进行模型参数更新。虽然服务器端模型训练损失函数与近端策略优化算法（Proximal Policy Optimization，PPO）模型相似，但网络模型不同，此处服务器端的动作网络和评价网络都用了一层全连接加Tanh激活函数来构建。

在一些实施例中，在获取所述采样状态数据和所述训练状态数据时，均采用近段策略优化算法，来采集多个时刻的状态、动作、奖励值；具体包括：在第一时刻，所述智能体从所述应用场景的仿真环境中获取状态数据，所述动作网络基于所述状态数据做出对应的动作，所述判别网络针对所述动作网络做出的动作给出奖励值；在其他时刻，以同样的方式获取某一时刻下的状态、动作、奖励值。

具体地，以PPO为例来生成观测数据集；图3为根据本发明实施例的近端策略优化算法（PPO）的结构示意图；如图3所示，强化学习主要是通过观察周围的环境，采取最优行动，并获得反馈，从而不断优化决策。从训练场景中采集N个时刻的状态、动作以及奖励值对

。将该数据集合作为待训练样本集。目标模型选用基于PPO算法的深度强化学习（Deep Reinforcement Learning，DRL）模型，基于该模型进行攻击防御，基于PPO算法的DRL 模型如图2所示。该模型决策过程由元组

描述，其中

为有限的状态集，

为有限的动作集，P为状态转移概率，R为奖励函数，

为折扣因子，用来计算长期累积回报。DRL模型训练中智能体需要不断与环境进行交互，在当前状态S _t时智能体根据学习的策略采取动作A _t。同时，环境会给智能体反馈一个奖励值

来评价当前动作的好坏。PPO使用了重要性采样，解决的问题是当想要从一个分布中采样，但是采样很困难，所以提出从另一个容易采样的分布中采样。当PPO将重要性采样与动作-判别框架结合时，智能体的由两部分组成，一部分是动作，负责与环境互动收集样本，另一部分是判别，负责评判动作的好坏。

更新动作网络，动作的更新即可使用PPO梯度更新公式：

其中，

是策略参数，

指时间步长的经验期望，

指需要训练的动作网络的状态转移概率，

指旧的动作网络状态转移概率，

是一个超参数，通常取值 0.1或0.2，

是时间步t时的估计优势，优势函数计算公式为：

其中，

，

是t时刻的判别网络计算得到的状态值函数，r _t是t时刻奖励值。

更新判别网，PPO模型中的另一个需要更新的是判别网络，该部分网络损失函数计算如下:

其中，

是目标值函数，

是预测值，s和a分别是状态和动作，通过这个损失函数反向传播更新网络参数。

训练阶段（或者测试阶段）的客户端模型窃取攻击

为了提高模型窃取的效果，窃取模型的模型结构选择与目标模型一样的输入的DQN。

（1）窃取数据集

使用训练好深度强化学习的模型作为目标模型，在测试阶段采样状态动作对作为窃取数据集，并用作等价模型的训练样本。

（2）训练等价模型

在窃取数据的基础上利用模仿学习训练等价策略，在模仿策略的训练过程中，利用动作网络代替生成器G，其输出的动作与状态成对输入到判别器，与专家数据进行对比，判别器

的输出作为奖励值用来指导模仿学习的策略学习。因此，模仿学习中的判别器损失函数可以表示为：

其中，

表示模仿学习得到的策略，

表示采样的专家策略。第一项中的

表示判别器对真实数据的判断，第二项

则表示对生成数据的判断，通过这样一个最大最小博弈过程，循环交替优化G和D来训练所需要的动作网络和判别网络。

训练过程中，通过梯度求导来最小化损失函数从而反向更新判别网络和动作网络的参数，其损失函数如下：

其中，

是模仿策略

的熵，由常数

控制，作为损失函数中的策略正则项；随后利用训练好的等价模型生成对抗样本攻击目标模型。

防御可行性分析

联邦学习旨在建立一个基于分布数据集的联邦学习模型。在模型训练的过程中，模型相关的信息能够在各方之间交换，但原始数据不能。这一交换不会暴露每个站点上数据的任何受保护的隐私部分。已训练好的联邦学习模型可以置于联邦学习***的各参与方，也可以在多方之间共享，保护了隐私信息。垂直联邦基于客户端数据特征重叠较低的特点，只上传模型处理后的特征到服务器端，很好的保护了模型以及数据隐私；主要在模型保护上有很好的提升，攻击者如果只等价到单个客户端模型是无法学到近似策略的，无法获取总任务，而且对单个客户端模型的攻击并不会对总任务造成很大影响。

具体示例

假设一个垂直联邦的场景，原始完整数是x，有两个客户端，它们的数据分别是x ₁ 和x ₂，而且x ₁和x ₂没有特征重叠。另有客户端模型

，客户端模型

以及服务器端模型

。模型攻击者在客户端进行模型攻击，假设攻击者能拿到其中一个客户端的数据模型，攻击者将通过各种策略对当前客户端模型的输入进行干扰，加干扰后模型执行如下:

其中

是噪声，x ₁、x ₂分别是两个客户端的输入，

是特征连接的操作。此时客户端模型的输入变化是

，显然如果x的维度为a则x ₁和x ₂的维度将都为a/2，如果a足够小，这个时候噪声

将造成影响比较大，如果噪声大于一定阈值将对整体影响较小。又假如有n个客户端模型，每个客户端模型的输入维度为a/n，如果n足够大，则一个客户端受噪声干扰也不会对总体任务造成很大影响。因此对于输入特征维度越大的模型客户端模型输入特征维度越小模型的防御能力就越强。

本发明第二方面公开了一种基于垂直联邦的智能路由决策保护***。图4为根据本发明实施例的一种基于垂直联邦的智能路由决策保护***的结构图；如图4所示，所述***400包括：

状态采样模块401，被配置为，通过采样获取应用场景中的智能体的采样状态数据，所述采样状态数据分为N组采样子状态数据分别被发送至N个客户端，N≥2且为正整数；

特征生成模块402，被配置为，基于所述N个客户端中的每一个客户端接收到的采样子状态数据，利用构建的客户端模型，来生成所述采样子状态数据的特征数据，并将所述特征数据发送至服务器端；

路由决策模块403，被配置为，利用构建的服务器端模型，基于所述服务器端接收到的来自于所述N个客户端的N组特征数据，来生成针对所述智能体的整体任务的路由决策。

根据本发明第二方面的***，所述***包括：预处理模块404，被配置为，对所述服务器端模型和N个所述客户端模型进行预训练，所述预训练具体包括：

其中，

表示所述客户端模型中动作网络的损失函数，

表示所述客户端模型中判别网络的损失函数，

表示所述客户端模型的模型参数；

所述动作网络的损失函数为：

其中，

表示所述动作网络的状态转移概率，

表示动作网络的前次状态转移概率，

表示所述客户端模型的当前模型参数，

表示所述客户端模型的前次模型参数，

表示截取函数，截取

范围内的值，

表示超参数，

表示时间步

时的估计优势，

表示在所述客户端模型的前次模型参数下所述时间步

时的估计优势；

所述判别网络的损失函数为：

其中，

是目标值函数，

是预测值，

和

分别表示状态和动作，

和

表示超参数。

图5为根据本发明实施例的一种电子设备的结构图；如图5所示，电子设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、近场通信（NFC）或其他技术实现。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本公开的技术方案相关的部分的结构图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在深度强化学习训练过程中，训练好的模型本身存在很大安全隐患，其模型和数据很容易被攻击者恶意利用，攻击者可以根据输入状态和输出动作训练等价模型从而生成恶意样本去影响目标智能体决策，基于此种情况，借鉴垂直联邦本身饿模型以及数据保护功能，设计基于垂直联邦的强化学习框架，将模型的训练划分为本地客户端和服务器端，客户端数量任意，不同客户端各自拿到不同特征数据来训练，同时上传到服务器端的数据只有特征，从而也能迷惑攻击者即使拿到某个客户端的输入以及输出也无法等价出整体策略模型，从而达到了模型以及数据保护的功能。

本发明的有益效果主要表现在：对深度强化学习模型中毒提出了基于垂直联邦的深度强化学习模型保护方法；不仅能保护模型，还能保护数据；在强化学习训练过程中拆分输入状态保证客户端拿到不同特征分布的数据从而保护了数据和模型；利用该方法具有良好的适用性，能够有效的检测模型中毒，并且不影响正常策略的执行。

请注意，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于垂直联邦的智能路由决策保护方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于垂直联邦的智能路由决策保护方法，其特征在于，在所述步骤S2中，构建的N个客户端模型具有相同的模型结构，每个客户端模型都包含两个客户端子模型，各个客户端子模型也具有相同的模型结构，每个客户端子模型都包含两个全连接层和两个激活函数层。

3.根据权利要求2所述的一种基于垂直联邦的智能路由决策保护方法，其特征在于，在所述步骤S3中，所述服务器端对接收到的来自于所述N个客户端的所述N组特征数据进行拼接处理，以获得完整特征数据，所述服务器端模型根据所述完整特征数据生成针对所述智能体的整体任务的路由决策，所述服务器端模型包含一个全连接层和一个Tanh激活函数层。

4.根据权利要求3所述的一种基于垂直联邦的智能路由决策保护方法，其特征在于，在所述步骤S1至所述步骤S3之前，所述方法还包括：步骤S0、对所述服务器端模型和N个所述客户端模型进行预训练，所述预训练具体包括：

5.根据权利要求4所述的一种基于垂直联邦的智能路由决策保护方法，其特征在于，在所述步骤S0-4中：

利用如下公式表示所述损失函数：