CN114286413B

CN114286413B - Tsn网络联合路由选择与流分配方法及相关设备

Info

Publication number: CN114286413B
Application number: CN202111290231.7A
Authority: CN
Inventors: 魏翼飞; 阳柳; 李骏; 王小娟; 宋梅
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-11-02
Filing date: 2021-11-02
Publication date: 2023-09-19
Anticipated expiration: 2041-11-02
Also published as: CN114286413A

Abstract

本申请提供一种TSN网络联合路由选择与流分配方法及相关设备，所述方法包括：基于软件定义网络，构建TSN网络的***模型，所述***模型包括控制器；构建TSN网络中通信流分配和路由选择问题的马尔可夫决策模型，确定状态空间、动作空间和奖励函数；将所述控制器作为智能体，基于所述马尔可夫决策模型，以满足约束条件下所述通信流的最小端到端平均时延为优化目标，利用DQN算法得到所述通信流的路由选择策略；根据所述路由选择策略，为各所述通信流分配路由路径。本申请的技术方案，能够满足高优先级流量传输的服务质量的同时，低优先级流量也能在最大端到端时延内完成传输。

Description

TSN网络联合路由选择与流分配方法及相关设备

技术领域

本申请涉及通信网络技术领域，尤其涉及一种TSN网络联合路由选择与流分配方法及相关设备。

背景技术

时间敏感网络(Time Sensitive Networking,TSN),是一种混合流***，存在确定性流量和非确定性流量。TSN网络中生成的每条消息根据其通信需求分为时间触发(TT)流量、音视频桥接(AVB)流量和尽力而为(BE)流量。

TSN网络主要依靠有界的时延和抖动来保证网络的服务质量，为防止尽力而为流量对实时流量造成干扰，需要对TSN网络中不同的流量进行调度和路由。目前，很多方法为了简化和抽象复杂的问题，假设路由路径集和调度流是固定、先验的，导致网络的利用率很低；此外，当链路发生变化或突发流量发生时这些方法不再适用，泛化能力低，无法有效地对流量进行调度。

发明内容

有鉴于此，本申请的目的在于提出一种解决上述问题的TSN网络联合路由选择与流分配方法及相关设备。

基于上述目的，本申请第一方面提供了一种TSN网络联合路由选择与流分配方法，包括：

基于软件定义网络，构建TSN网络的***模型，所述***模型包括控制器；

构建TSN网络中通信流分配和路由选择问题的马尔可夫决策模型，确定状态空间、动作空间和奖励函数；

将所述控制器作为智能体，基于所述马尔可夫决策模型，以满足约束条件下所述通信流的最小端到端平均时延为优化目标，利用DQN算法得到所述通信流的路由选择策略；

根据所述路由选择策略，为各所述通信流分配路由路径。

进一步地，所述路由选择策略包括：

所述智能体根据当前网络状态，为当前各节点队列中的每个所述通信流选择下一跳节点，直至每个所述通信流均完成路径分配或达到预设的迭代次数。

进一步地，所述约束条件由下式表示：

其中，表示通信流从源节点传输到目的节点过程中的端到端时延，t表示时隙，f_k表示通信流，F_TT表示时间触发TT流量的集合，τ_TT表示TT流量的端到端时延的最大值，τ_AVB表示音频桥接AVB流量的端到端时延的最大值，F_AVB表示AVB流量的集合，T表示通信周期，F_BE表示尽力而为BE流量的集合，/>表示通信流在节点i到节点j已使用的链路容量，u_ij表示节点i到节点j的链路容量；

所述优化目标由下式表示：

其中，ω₁和ω₂为权重，表示优化倾向，且ω₁+ω₂＝1，T’表示通信周期内所有时隙，表示时隙t下TT流量的归一化平均时延，/>表示时隙t下AVB流量的归一化平均时延。

进一步地，所述状态空间包括网络状态所述网络状态包括节点链路、节点链路的剩余容量、节点队列和所述通信流的状态；

所述动作空间包括为当前节点中每个所述通信流选择下一跳节点并转发，使所述通信流进入相应的优先级队列；

所述奖励函数r_t由下式表示：

其中，ρ_t,η_t均表示控制函数，当时隙t各所述通信流都到达目的节点时，ρ_t＝-1，否则ρ_t＝0；若当前节点的累计时延超过最大允许时延时，/>否则/>若所述通信流未到达目的节点且未超过最大允许延时，η_t＝-1，否则η_t＝0；U均为大于0的常数，Φ_t表示一个与当前节点队列长度正相关的函数。

进一步地，所述利用DQN算法得到所述通信流的路由选择策略，之前还包括：

获取TSN网络的网络拓扑图；

利用预先训练的图卷积神经网络对所述网络拓扑图的每个节点进行特征提取，以得到特征提取结果；

基于所述特征提取结果对所述网络状态进行更新。

进一步地，所述图卷积神经网络的层数为2层，所述图卷积神经网络第l层隐藏层的传播规则由下式表示：

其中，σ(·)表示激活函数，表示为每个节点增加自循环，且/>J表示节点间的连接关系，I为单位矩阵，/>表示与节点相连接链路数量的度矩阵，W^(l)表示所述图卷积神经网络第l层的权重矩阵，σ(·)表示激活函数；

所述图卷积神经网络的图卷积算子由下式表示：

其中，表示节点i在第(l+1)层的特征，/>表示节点i在第l层的特征，/>表示节点i的邻居节点集合，/>表示归一化因子；

所述图卷积神经网络前向传播公式如下：

其中，表示对/>进行标准化，H⁽⁰⁾表示节点特征矩阵，W⁽⁰⁾和W⁽¹⁾分别表示图卷积神经网络第一层和第二层的权重矩阵。

进一步地，所述***模型包括拓扑管理模块、流量管理模块和队列管理模块；其中，

所述拓扑管理模块用于获取TSN网络的网络拓扑信息，并利用有向图G＝(V,E)进行表示，其中，V＝{v₁,v₂,…,v_N}表示网络中N个交换机的节点集合，E＝{e_ij|i,j∈N,i≠j}表示L条物理链路集合；

所述流量管理模块用于获取TSN网络中的通信任务，并将所述通信任务抽象为所述通信流，所述通信流通过如下元组f′_k表示：

其中，n_src,k,n_dst,k,∈V分别表示通信流f_k的源、目的节点，表示通信流的大小，Ρ_k∈N^*表示通信流的周期，τ_k∈R⁺表示通信流的最大允许时延，δ_k表示通信流的优先级，且/>

所述队列管理模块用于根据所述通信流的优先级，生成所述通信流的节点队列，所述节点队列的表达式如下：

q_i≡{q_i,1,q_i,2,…,q_i,p}

其中，q_i,p表示节点v_i的第p个优先级队列。

基于同一发明构思，本申请第二方面提供了一种TSN网络联合路由选择与流分配装置，

从上面所述可以看出，本申请提供的，包括：

第一构建模块：被配置为基于软件定义网络，构建TSN网络的***模型，所述***模型包括控制器；

第二构建模块：被配置为构建TSN网络中通信流分配和路由选择问题的马尔可夫决策模型，确定状态空间、动作空间和奖励函数；

数据处理模块：被配置为将所述控制器作为智能体，基于所述马尔可夫决策模型，以满足约束条件下所述通信流的最小端到端平均时延为优化目标，利用DQN算法得到所述通信流的路由选择策略；

策略执行模块：被配置为根据所述路由选择策略，为各所述通信流分配路由路径。

基于同一发明构思，本申请第三方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的方法。

基于同一发明构思，本申请第四方面提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行第一方面所述的方法。

从上面所述可以看出，本申请提供的TSN网络联合路由选择与流分配方法及相关设备，考虑了TSN网络中关键流量和非关键流量的混合调度，更接近于真实的网络环境，增加了流量调度的灵活性，保证TT流量传输的低延迟和抖动，还降低了AVB流量的端到端时延，并且BE流量也能够在最大端到端时延内正常传输。

附图说明

为了更清楚地说明本申请或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的TSN网络联合路由选择与流分配方法流程图；

图2为本申请实施例的TSN网络的***模型的结构示意图；

图3为本申请实施例的利用图卷积神经网络对网络状态进行更新的流程图；

图4为本申请实施例的TSN网络联合路由选择与流分配装置结构示意图；

图5为本申请实施例的电子设备结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本申请进一步详细说明。

需要说明的是，除非另外定义，本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。

如背景技术部分所述，相关技术中对TSN网络中流量调度的技术方案还难以满足需要，其通过固定其中一种流量只对其中一种流量进行调度，且设定路由路径集和调度流是固定的、先验的。申请人在实现本申请的过程中发现先关技术中的技术方案存在以下问题：使用固定的路由路径集对流量进行传输，导致网络的利用率低；更重要的是，当网络中节点间的链路出现故障或者流量发生变化时，会无法对流量进行合理调度。

鉴于此，本申请提供了一种TSN网络联合路由选择与流分配的方案，将图卷积神经网络(Graph convolutional neural network,GCN)和深度强化学习算法相结合，对TSN网络的流量进行调度和路由选择，既保证TT业务传输的低延时和抖动，又降低了AVB业务的端到端延时，还能够使BE流量的正常传输。

以下，通过具体的实施例来详细说明本申请的技术方案。

参考图1，本申请一个实施例提供的一种TSN网络联合路由选择与流分配方法，具体包括以下步骤：

步骤S101，基于软件定义网络(Software Defined Network，SDN)，构建TSN网络的***模型，所述***模型包括控制器。

本步骤中，结合图2，所述***模型包括数据平面、控制平面和应用平面。

数据平面终端设备、交换机和它们之间的全双工物理链路。终端设备是生成通信任务的网络设备，通常生成消息的端设备是通话器，然后通过物理链路传输的消息到达的另一个端设备是接收器，每个端设备既是通话器也是接收器。交换机充当了消息传递过程之间的桥梁，它根据调度表来接收和发送消息。可将网络拓扑表示为一个有向图G＝(V,E)，其中V＝{v₁,v₂,…,v_N}表示网络中N个交换机的节点集合，E＝{e_ij|i,j∈N,i≠j}表示L条物理链路集合。

控制平面包括控制器，控制器又包括集中用户控制器(Centralized UserConfiguration,CUC)、集中网络控制器(Central Network Controller,CNC)和SDN控制器。控制器之间通过网关进行连接。需要说明的是，CUC用于收集通信需求(频率、时延/抖动要求)并发送给CNC；CNC用于根据CUC提供的通信请求，计算出路由路径和调度表；由于TSN网络的跳数限制，通过SDN控制器在物理***中提供动态网络连接。

控制平面连接数据平面和应用平面，为应用平面提供数据平面的全局视图，通过收集网络状态信息，包括通信流状态、节点状态等。应用平面可提供不同的服务，包括网络监控、数据存储、流量调度和路由等。

步骤S102，构建TSN网络中通信流分配和路由选择问题的马尔可夫决策模型，确定状态空间、动作空间和奖励函数。

本步骤中，TSN网络中通信流的分配和路由过程是序列决策问题，因此可将该过程建模为马尔科夫决策过程。考虑到求解问题的环境动态变化以及求解空间很大且具有较高的复杂性，可采用强化学习算法进行求解。

步骤S103，将所述控制器作为智能体，基于所述马尔可夫决策模型，以满足约束条件下所述通信流的最小端到端平均时延为优化目标，利用DQN(Deep Q-Learning)算法得到所述通信流的路由选择策略。

本步骤中，强化学习算法是一种不需要环境先验知识，而是通过与环境交互来获取信息的算法，强化学习的过程如下：在t时间步，智能体接收到的状态s_t∈S时，根据策略π(a_t|s_t)选择一个动作a_t∈A，策略π时状态空间到动作空间的映射表示为π：S→P(A)，在执行了动作a_t后得到一个及时奖励r_t，然后在转移概率P(s_t+1|s_t,a_t)转移到下一个状态s_t+1，不断迭代直到回合结束或者满足终止条件。智能体的目的是使最终状态下的长期累积收益最大化，累积奖励可以表示为其中，γ∈(0,1]表示折扣因子。

具体的，强化学习算法使用状态值函数(state-value function)或动作值函数(action value)来评估智能体在某个状态的性能或者在给定状态下智能体的某个动作的性能。状态值在策略π下状态s_t的预期返回值，其可以分解为如下贝尔曼期望方程表示：

其中，V(s_t)表示在时隙t时的状态s_t下的状态值函数，V(s_t+1)表示在时隙t+1时的状态s_t+1下的状态值函数。贝尔曼期望方程能够找到最优策略，其中，最优动作值函数定义为：

在状态值收敛后最优策略π^*可以通过下式计算得到：

需要说明的是，由于无法获取场景的先验知识，因此采用无模型的强化学习算法，其次，由于TSN网络中通信流的分配和路由过程的动作空间和状态空间很大，在值迭代的强化学习算法(Q-learning)中枚举出所有的状态和动作将增加较多的时间和内存成本，因此采用DQN算法，DQN算法是在Q-learning的基础上引入深度学习。

DQN网络由两个结构相同但参数不同的网络组成：目标网络和Q网络，目标网络的参数每间隔C次迭代后采用Q网络的参数更新一次。DQN采用深度网络(Q网络)来逼近值函数Q(s_t,a_t)，Q网络得到的近似值函数可表示为Q(s_t,a_t；θ_i)，θ_i表示Q网络第i次迭代时的参数，即神经网络的连接权重。Q网络每次迭代优化的目标由目标网络产生，可表示为：

其中，a_t+1表示下一时刻动作，s_t+1表示下一时刻状态，表示目标网络的参数。

在Q网络训练过程中，通过最小化以下损失函数进行参数更新：

L(θ_i)＝E[(y_t-Q(s_t,a_t|θ_i))²]

对所述损失函数求偏导可得：

DQN算法的另一个改进是引入了经验回放机制。在t时间步，智能体将经验e_t＝(s_t,a_t,r_t,s_t+1)包括当前状态、动作、奖励以及下一状态存储在经验池D中，每次从D中随机采样小批量样本对网络参数进行更新，其表达式如下：

步骤S104，根据所述路由选择策略，为各所述通信流分配路由路径。

可见，本实施例的技术方案考虑了TSN网络中关键流量和非关键流量的混合调度，更接近于真实的网络环境，增加了流量调度的灵活性，保证了TT流量传输的低延迟和抖动，同时降低了AVB流量的端到端时延，保障了BE流量的正常传输，构建的***模型为强化学习的实现提供了有利条件，提高了DQN算法的计算效率。

在一些实施例中，所述路由选择策略包括：

本实施例中，通过结合不同类型通信流的时延特性，对非关键流量和关键流量进行混合调度，更接近于真实的网络环境，增加了调度的灵活性。

在一些实施例中，所述约束条件由以下表达式表示：

其中，表示通信流从源节点传输到目的节点过程中的端到端时延，t表示时隙，f_k表示通信流，F_TT表示时间触发TT流量的集合，τ_TT表示TT流量的端到端时延的最大值，τ_AVB表示音频桥接AVB流量的端到端时延的最大值，F_AVB表示AVB流量的集合，T表示通信周期，F_BE表示尽力而为BE流量的集合，/>表示通信流在节点i到节点j已使用的链路容量，u_ij表示节点i到节点j的链路容量。

需要说明的是，约束(a)表示TT流量的端到端延迟小于等于TT流量的最大允许端到端时延；约束(b)表示AVB流量的端到端延迟小于等于AVB流量的最大允许端到端时延；约束(c)表示BE流量的传输应在预设的通信周期内完成，以保证BE流量能够得到及时传输；约束(d)表示当前时隙的链路利用率不能超过链路容量。

具体的，通信流从源节点传输到目的节点过程中的端到端时延可由下式表示：

其中，d_pr表示处理时延，其大小取决于交换机设计；d_tr表示传输时延，由帧大小和链路传输速率决定；d_pg表示链路传播时延，其大小由传播介质和电缆长度决定；d_q表示排队时延。

上述时延都是确定性的、有界的，然而排队时延发生在几个通信流试图在交换机出端口进行传输时，排队时延的值是不确定性的，取决于目前队列长度。因此，端到端时延主要由排队时延决定，可对通信流在时空上进行隔离，以减小排队时延。

所述优化目标由下式表示：

具体的，时隙t下TT流量的归一化平均时延通过下式表示：

其中，|F_TT|表示TT流量的数目，τ_TT表示TT流量的最大允许端到端时延，是一个常数。

时隙t下AVB流量的归一化平均时延由下式表示：

其中，|F_AVB|表示AVB流量的数目，τ_AVB表示AVB流量的最大允许端到端时延，是一个常数。

在一些实施例中，所述状态空间包括网络状态所述网络状态包括节点链路的剩余容量g_i、节点队列q_i、所述通信流f_k的状态Υ_k和网络状态的相关信息，n_src,k,n_dst,k分别表示通信流的源节点、目的节点，n_pos,k表示通信流当前所在节点，r_k表示通信流的大小，Ρ_k表示通信流的周期，ζ_k表示通信流到目前节点的累积时延，δ_k表示通信流的优先级。所述网络状态的相关信息包括通信任务数K，网络节点数N，队列的优先级P。

具体的，状态空间S中时隙t的状态s_t由下式表示：

s_t＝{g₁(t),g₂(t),…,g_N(t),q₁(t),q₂(t),…,q_N(t),Υ₁(t),Υ₂(t),…,Υ_K(t)}

其中,g_i(t)＝[g_i1(t),g_i2(t),…,g_iN(t)]表示与节点i相连链路的剩余链路容量；q_i(t)＝[q_i,1(t),q_i,2(t),…,q_n,p(t)]表示节点i的队列，Υ_k＝表示节点的通信流状态。

所述动作空间包括为当前节点中每个所述通信流选择下一跳节点并转发，使所述通信流进入相应的优先级队列。

需要说明的是，在为每个通信流进行路由选择时(通信流是不可分的，只在同时在一条路径上传输)，智能体需要为每个流分配从源节点到目的节点路径，由于在大规模网络中直接为通信流选择一条路径困难较大，不同路径之间存在的共享链路可能会导致不同流之间的冲突和干扰。在本方案中，智能体为节点中每个通信流选择下一跳，将通信流发送到下一个节点并进入相应的优先级队列。与直接选择路径的比较，选择下一跳的方式提高了算法的泛化能力，最终通过不断迭代完成通信流的路径选择过程。

具体的，A表示动作空间，在t时隙的动作a_t∈A表示为：

其中，表示通信流k选择作为下一跳的候选节点，当/>时，表示节点n被选择作为通信流k的下一跳，反之，/>表示节点n未被选中。

所述奖励函数r_t由下式表示：

在一些实施例中，参考图3，所述利用DQN算法得到所述通信流的路由选择策略，之前还包括以下步骤：

步骤S301，获取TSN网络的网络拓扑图。

本步骤中，TSN网络的网络拓扑图可通过控制平面中的拓扑管理模块得到。

步骤S302，利用预先训练的图卷积神经网络对所述网络拓扑图的每个节点进行特征提取，以得到特征提取结果。

本步骤中，通过图卷积神经网络对每个节点进行特征提取，处理后的节点特征不仅包含了当前节点的特征还包括了邻居节点的特征。

步骤S303，基于所述特征提取结果对所述网络状态进行更新。

本步骤中，当网络拓扑发生变化时，及时对当前的网络节点特征进行更新，以保证路由选择策略的有效性。

在一些实施例中，所述图卷积神经网络的层数为2层，所述图卷积神经网络第l层隐藏层的传播规则由下式表示：

其中，σ(·)表示激活函数，表示为每个节点增加自循环，且/>J表示节点间的连接关系，I为单位矩阵，/>表示与节点相连接链路数量的度矩阵，W^(l)表示所述图卷积神经网络第l层的权重矩阵，σ(·)表示激活函数。

所述图卷积神经网络的图卷积算子由下式表示：

其中，表示节点i在第(l+1)层的特征，/>表示节点i在第l层的特征，/>表示节点i的邻居节点集合，/>表示归一化因子。

所述图卷积神经网络前向传播公式如下：

在一些实施例中，结合图2，所述***模型包括拓扑管理模块(TPM)、流量管理模块(TMM)和队列管理模块(QMM)。其中，

所述拓扑管理模块用于获取TSN网络的网络拓扑信息，并利用有向图G＝(V,E)进行表示，其中，V＝{v₁,v₂,…,v_N}表示网络中N个交换机的节点集合，E＝{e_ij|i,j∈N,i≠j}表示L条物理链路集合。

q_i≡{q_i,1,q_i,2,…,q_i,p}

其中，q_i,p表示节点v_i的第p个优先级队列。

需要说明的是，本申请实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种TSN网络联合路由选择与流分配装置。

参考图4，所述TSN网络联合路由选择与流分配装置，包括：

第一构建模块401，被配置为基于软件定义网络，构建TSN网络的***模型，所述***模型包括控制器；

第二构建模块402，被配置为构建TSN网络中通信流分配和路由选择问题的马尔可夫决策模型，确定状态空间、动作空间和奖励函数；

数据处理模块403，被配置为将所述控制器作为智能体，基于所述马尔可夫决策模型，以满足约束条件下所述通信流的最小端到端平均时延为优化目标，利用DQN算法得到所述通信流的路由选择策略；

策略执行模块404，被配置为根据所述路由选择策略，为各所述通信流分配路由路径。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的TSN网络联合路由选择与流分配方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的TSN网络联合路由选择与流分配方法。

图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作***和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的TSN网络联合路由选择与流分配方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的TSN网络联合路由选择与流分配方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的TSN网络联合路由选择与流分配方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本申请的范围(包括权利要求)被限于这些例子；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本申请实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本申请实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本申请的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本申请的具体实施例对本申请进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本申请实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种TSN网络联合路由选择与流分配方法，其特征在于，包括：

将所述控制器作为智能体，基于所述马尔可夫决策模型，以满足约束条件下所述通信流的最小端到端平均时延为优化目标，利用DQN算法得到所述通信流的路由选择策略；所述约束条件由下式表示：Subject to 其中，/>表示通信流从源节点传输到目的节点过程中的端到端时延，t表示时隙，f_k表示通信流，F_TT表示时间触发TT流量的集合，τ_TT表示TT流量的端到端时延的最大值，τ_AVB表示音频桥接AVB流量的端到端时延的最大值，F_AVB表示AVB流量的集合，T表示通信周期，F_BE表示尽力而为BE流量的集合，/>表示通信流在节点i到节点j已使用的链路容量，u_ij表示节点i到节点j的链路容量；所述优化目标由下式表示：其中，ω₁和ω₂为权重，表示优化倾向，且ω₁+ω₂＝1，T’表示通信周期内所有时隙，/>表示时隙t下TT流量的归一化平均时延，/>表示时隙t下AVB流量的归一化平均时延；

根据所述路由选择策略，为各所述通信流分配路由路径。

2.根据权利要求1所述的方法，其特征在于，所述路由选择策略包括：

3.根据权利要求1所述的方法，其特征在于，所述状态空间包括网络状态所述网络状态包括节点链路、节点链路的剩余容量、节点队列和所述通信流的状态；

所述奖励函数r_t由下式表示：

其中，均表示控制函数，当时隙t各所述通信流都到达目的节点时，ρ_t＝-1，否则ρ_t＝0；若当前节点的累计时延超过最大允许时延时，/>否则/>若所述通信流未到达目的节点且未超过最大允许延时，η_t＝-1，否则η_t＝0；U均为大于0的常数，Φ_t表示一个与当前节点队列长度正相关的函数。

4.根据权利要求3所述的方法，其特征在于，所述利用DQN算法得到所述通信流的路由选择策略，之前还包括：

获取TSN网络的网络拓扑图；

基于所述特征提取结果对所述网络状态进行更新。

5.根据权利要求4所述的方法，其特征在于，所述图卷积神经网络的层数为2层，所述图卷积神经网络第l层隐藏层的传播规则由下式表示：

所述图卷积神经网络的图卷积算子由下式表示：

所述图卷积神经网络前向传播公式如下：

6.根据权利要求1所述的方法，其特征在于，所述***模型包括拓扑管理模块、流量管理模块和队列管理模块；其中，

其中，n_src,k,n_dst,k,∈V分别表示通信流f_k的源、目的节点，表示通信流的大小，P_k∈N^*表示通信流的周期，τ_k∈R⁺表示通信流的最大允许时延，δ_k表示通信流的优先级，且

q_i＝{q_i，1，q_i，2，…,q_i，p}

其中，q_i,p表示节点v_i的第p个优先级队列。

7.一种TSN网络联合路由选择与流分配装置，其特征在于，包括：

数据处理模块：被配置为将所述控制器作为智能体，基于所述马尔可夫决策模型，以满足约束条件下所述通信流的最小端到端平均时延为优化目标，利用DQN算法得到所述通信流的路由选择策略；所述约束条件由下式表示：Subject to 其中，/>表示通信流从源节点传输到目的节点过程中的端到端时延，t表示时隙，f_k表示通信流，F_TT表示时间触发TT流量的集合，τ_TT表示TT流量的端到端时延的最大值，τ_AVB表示音频桥接AVB流量的端到端时延的最大值，F_AVB表示AVB流量的集合，T表示通信周期，F_BE表示尽力而为BE流量的集合，/>表示通信流在节点i到节点j已使用的链路容量，u_ij表示节点i到节点j的链路容量；所述优化目标由下式表示：/>其中，ω₁和ω₂为权重，表示优化倾向，且ω₁+ω₂＝1，T’表示通信周期内所有时隙，/>表示时隙t下TT流量的归一化平均时延，/>表示时隙t下AVB流量的归一化平均时延；

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任意一项所述的方法。

9.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，其特征在于，所述计算机指令用于使计算机执行权利要求1至6任一所述方法。