CN111917642B - 分布式深度强化学习的sdn网络智慧路由数据传输方法 - Google Patents

分布式深度强化学习的sdn网络智慧路由数据传输方法 Download PDF

Info

Publication number
CN111917642B
CN111917642B CN202010673851.8A CN202010673851A CN111917642B CN 111917642 B CN111917642 B CN 111917642B CN 202010673851 A CN202010673851 A CN 202010673851A CN 111917642 B CN111917642 B CN 111917642B
Authority
CN
China
Prior art keywords
network
actor
parameters
local
evaluator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010673851.8A
Other languages
English (en)
Other versions
CN111917642A (zh
Inventor
刘宇涛
崔金鹏
章小宁
贺元林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010673851.8A priority Critical patent/CN111917642B/zh
Publication of CN111917642A publication Critical patent/CN111917642A/zh
Application granted granted Critical
Publication of CN111917642B publication Critical patent/CN111917642B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/12Shortest path evaluation
    • H04L45/124Shortest path evaluation using a combination of metrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/12Shortest path evaluation
    • H04L45/121Shortest path evaluation by minimising delays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/12Shortest path evaluation
    • H04L45/125Shortest path evaluation based on throughput or bandwidth

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了分布式深度强化学习的SDN网络智慧路由数据传输方法,实现了快速路由路径的计算,在保证延迟的情况下最大化吞吐量,解决传统算法的慢速、吞吐量小的问题。本发明使用了强化学习算法,该算法将路由计算过程简化为简单的输入输出,避免了计算时的多次迭代从而实现路由路径的快速计算,路由算法速度的加快降低了转发延迟,使原本因ttl到期被丢弃的数据包有更大概率存活并成功转发,增大了网络吞吐量。本发明设置有离线训练和在线训练两个阶段的训练,在动态环境中更新参数选择最优路径因此具有拓扑自适应性。

Description

分布式深度强化学习的SDN网络智慧路由数据传输方法
技术领域
本发明属于数据传输领域,具体涉及分布式深度强化学习的SDN网络智慧路由数据传输方法。
背景技术
当前信息技术步入成熟阶段,在SDN网络(软件定义网络Software DefinedNetwork)架构中数据流灵活可控、控制器具有全网视图并可实时感知网络状态变化(如流量分布、拥塞状况以及链路利用情况等),在现实中,路由选择问题往往通过最短路径算法来解决,将一些简单的网络参数(如路径跳数、时延等)作为算法的优化指标,以寻找跳数最少路径或时延最小路径作为算法的最终目标。单一的度量标准和优化目标,容易导致部分关键链路拥塞,造成网络负载不均衡的问题。虽然在多业务路径分配时,基于拉格朗日松弛的最短路由算法可以找到复合多约束条件的最优路径,但该类启发式路由算法必须经过多次迭代才能计算出最优路径,收敛速度慢、时效性不佳、吞吐量不大。
发明内容
针对现有技术中的上述不足,本发明提供的分布式深度强化学习的SDN网络智慧路由数据传输方法解决了上述现有技术中存在的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种分布式深度强化学习的SDN网络智慧路由数据传输方法,包括以下步骤:
S1、构建奖励函数和包含行动者网络和评价者网络的深度强化学习模型,并在SDN网络的应用层布置深度强化学习模型;
S2、随机初始化深度强化学习模型的行动者网络参数θa和评价者网络参数θc
S3、随机初始化SDN网络的控制层中第i个本地GPUi上行动者网络的本地行动者参数θ′a和评价者网络的本地评价者参数θ′c
S4、根据奖励函数、行动者网络参数θa、评价者网络参数θc、本地行动者参数θ′a和本地评价者参数θ′c,使用A3C算法对第i个本地GPUi上的深度强化学习模型进行离线训练,更新行动者网络参数θa和评价者网络参数θc
S5、将更新后的行动者网络参数θa和更新后的评价者网络参数θc作用于SDN网络全局,使用更新参数后的SDN网络进行数据的传输;
S6、定时检测SDN网络的拓扑结构是否发生改变,若是,则进入步骤S7,否则重复步骤S6;
S7、对深度强化学习模型进行在线训练,使用自适应运行算法对行动者网络参数θa和评价者网络参数θc进行更新,并将行动者网络参数θa和评价者网络参数θc作用于SDN网络全局,使用更新参数后的SDN网络进行数据的传输;
其中,i=1,2,...,L,L表示本地GPU的总数。
进一步地,所述步骤S1中行动者网络为全连接神经网络,所述步骤S1中评价者网络为全连接神经网络和CNN卷积神经网络的组合网络;所述行动者网络和评价者网络的输入均包括SDN网络的网络状态,所述网络状态包括当前节点信息、目的节点信息、带宽要求和时延要求,所述评价者网络的输入还包括由CNN卷积神经网络处理后的SDN网络的网络特征;所述CNN卷积神经网络包括依次连接的输入层、卷积层、池化层、全连接层和输出层。
进一步地,所述步骤S1中奖励函数为:
Figure BDA0002583337990000021
其中,
Figure BDA0002583337990000022
表示在状态sn的情况下,SDN网络中第n个路由节点向第m个路由节点做出动作an后得到的奖励值;g表示动作惩罚,a1表示第一权重,a2表示第二权重,c(n)表示第n个路由节点的剩余容量,c(m)表示第m个路由节点的剩余容量,c(l)表示SDN网络中第l个链路的剩余容量,d(n)表示第n个路由节点与其邻接节点的流量负载的差异程度,d(m)示第m个路由节点与其邻接节点的流量负载的差异程度;所述状态sn包括:数据包所在节点为第n个路由节点、数据包的最终目的节点、数据报的转发带宽需求和数据包的延迟要求;所述动作an表示在状态sn的情况下可以采取的所有转发操作。
进一步地,所述步骤S4包括以下分步骤:
S41、设置第一计数器t=0、第二计数器T=0、最大迭代次数Tmax和路由跳数限制tmax
S42、令dθa=0和dθc=0,并进行本地参数与全局参数的同步,将本地行动者参数θa'的值同步为行动者网络参数θa的值,将本地评价者参数θc'的值同步为评价者网络参数θc的值;
S43、令第一中间计数值tstart=t,通过本地GPUi读取当前时刻的状态st
S44、通过行动者网络获取策略π(at|st;θ′a),并根据策略π(at|st;θ′a)执行动作at,其中,π(at|st;θ′a)表示在状态st和本地GPUi上本地行动者参数θ′a的情况下所需要执行的动作为at
S45、获取执行动作at后的奖励值rt和新状态st+1,并令第一计数器t的计数值加一;
S46、判断新状态st是否达到最终状态所限定的条件,若是,则设置更新奖励值R=0,并进入步骤S48,否则进入步骤S47;
S47、判断t-tstart是否大于路由跳数限制tmax,若是,则设置更新奖励值R=V(st,θ′c),并进入步骤S48,否则返回步骤S44,其中V(st,θ′c)表示评价者网络在本地评价者参数θ′c时对到达状态st的路由策略评价值;
S48、设置第三计数器z=t-1和梯度更新奖励值Rupdata=rz+γR,初始化行动者网络参数的梯度Δθa和评价者网络参数的梯度Δθc为0;
S49、根据梯度更新奖励值Rupdata、本地行动者参数θ′a和本地评价者参数θ′c,获取本地行动者参数梯度Δθa的更新值和本地行动者参数梯度Δθc的更新值为:
Figure BDA0002583337990000041
Figure BDA0002583337990000042
其中,Δθa_updata表示梯度Δθa的更新值,
Figure BDA0002583337990000043
表示本地行动者参数θ′a的导数,logπ(az|sz;θ′a)表示在参数θ′a和状态sz的情况下执行动作az这个策略的概率的对数,rz表示执行动作az的奖励值,γ表示奖励折扣率,V(sz;θ′c)表示评价者网络在本地评价者参数θ′c时对到达状态sz的路由策略评价值,Δθc_updata表示梯度Δθc的更新值,
Figure BDA0002583337990000044
表示对(Rupdata-V(sz;θ′c))2求取θ′c的偏导数;
S410、令Δθa=Δθa_updata、Δθc=Δθc_updata和R=Rupdata,并判断第三计数器z是否等于第一中间计数值tstart,若是,则进入步骤S411,否则令第三计数器z的计数值减一,将梯度更新奖励值Rupdata更新为rz+γR,并返回步骤S49;
S411、判断第二计数器T是否大于或等于最大迭代次数Tmax,若是,则使用本地行动者参数梯度Δθa和本地行动者参数梯度Δθc分别更新行动者网络参数θa和评价者网络参数θc,并结束更新流程,否则令第二计数器T的计数值加一,并返回步骤S42。
进一步地,所述步骤S411中使用本地行动者参数梯度Δθa和本地行动者参数梯度Δθc分别更新行动者网络参数θa和评价者网络参数θc的公式为:
θa_updata=θa+βΔθa
θc_updata=θc+βΔθc
其中,θa_updata表示更新后的行动者网络参数θa,θc_updata表示更新后的评价者网络参数θc,β表示本地GPUi在SDN网络中的权重。
进一步地,所述步骤S7包括以下分步骤:
S71、设置第四计数器j=1,并采集路由请求任务f;
S72、将路由请求任务f分配给SDN网络中空闲的GPU,空闲的GPU为GPUidle
S73、设定dθa=0和dθc=0,并将GPUidle的本地行动者参数θ′a同步为行动者网络参数θa参数值,将本地评价者参数θ′c同步为评价者网络参数θc参数值;
S74、令第二中间计数值jstart=j,并读取当前时刻的初始状态sj
S75、通过行动者网络获取在状态sj和本地行动者参数θ′a的情况下执行动作aj的策略π(aj|sj;θ′a),并执行策略π(aj|sj;θ′a);
S76、获取执行动作aj后的奖励值rj和新状态sj+1,令第四计数器j的计数值加一,并将动作aj加入动作集合A;
S77、判断新状态sj是否达到路由请求任务f的最终状态所限定的条件,若是,则进入步骤S78,否则返回步骤S75;
S78、根据动作集合A获取路由路径p,并判断路由请求任务f是否与路由路径p匹配,若是,则令更新奖励值R=0,并进入步骤S79,否则令更新奖励值R=V(sj,θ′c),并进入步骤S79;
S79、设定第五计数器k=j-1和梯度更新奖励值Rupdata=rk+γR,初始化行动者网络参数的梯度Δθa和评价者网络参数的梯度Δθc为0;
S710、根据梯度更新奖励值Rupdata、本地行动者参数θ′a和本地评价者参数θ′c,获取本地行动者参数梯度Δθa的更新值和本地行动者参数梯度Δθc的更新值为:
Figure BDA0002583337990000051
Figure BDA0002583337990000052
其中,Δθa_updata表示梯度Δθa的更新值,
Figure BDA0002583337990000053
表示本地行动者参数θ′a的导数,logπ(ak|sk;θ′a)表示在参数θ′a和状态sz的情况下执行动作ak这个策略的概率的对数,rk表示执行动作ak的奖励值,γ表示奖励折扣率,V(sk;θ′c)表示评价者网络在本地评价者参数θ′c时对到达状态sk的路由策略评价值,Δθc_updata表示梯度Δθc的更新值,
Figure BDA0002583337990000061
表示对(Rupdata-V(sk;θ′c))2求取θ′c的偏导数;
S711、令Δθa=Δθa_updata、Δθc=Δθc_updata和R=Rupdata,并判断第五计数器k是否等于第二中间计数值jstart,若是,则进入步骤S712,否则令第五计数器k的计数值减一,将梯度更新奖励值Rupdata更新为rk+γR,并返回步骤S710;
S712、通过本地行动者参数梯度Δθa和本地行动者参数梯度Δθc分别更新行动者网络参数θa和评价者网络参数θc,并将行动者网络参数θa和评价者网络参数θc作用于SDN网络全局,使用更新参数后的SDN网络进行数据的传输。
本发明的有益效果为:
(1)本发明实现了快速路由路径的计算,在保证延迟的情况下最大化吞吐量,解决传统算法的慢速、吞吐量小的问题。
(2)本发明使用了强化学习算法,该算法将路由计算过程简化为简单的输入输出,避免了计算时的多次迭代从而实现路由路径的快速计算,路由算法速度的加快降低了转发延迟,使原本因ttl到期被丢弃的数据包有更大概率存活并成功转发,增大了网络吞吐量。
(3)本发明设置有离线训练和在线训练两个阶段的训练,在动态环境中更新参数选择最优路径因此具有拓扑自适应性。
(4)本发明设置了奖励函数,使节点或链路负载、路由需求和网络拓扑信息更好的约束强化学习的训练过程,使训练后的深度强化学习模型能够更加准确地执行路由任务。
附图说明
图1为本发明提出的分布式深度强化学习的SDN网络智慧路由数据传输方法流程图;
图2为本发明中CNN卷积神经网络示意图;
图3为本发明中深度强化学习模型示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
下面结合附图详细说明本发明的实施例。
如图1所示,一种分布式深度强化学习的SDN网络智慧路由数据传输方法,包括以下步骤:
S1、构建奖励函数和包含行动者网络和评价者网络的深度强化学习模型,并在SDN网络的应用层布置深度强化学习模型;
S2、随机初始化深度强化学习模型的行动者网络参数θa和评价者网络参数θc
S3、随机初始化SDN网络的控制层中第i个本地GPUi上行动者网络的本地行动者参数θ′a和评价者网络的本地评价者参数θ′c
S4、根据奖励函数、行动者网络参数θa、评价者网络参数θc、本地行动者参数θ′a和本地评价者参数θ′c,使用A3C算法对第i个本地GPUi上的深度强化学习模型进行离线训练,更新行动者网络参数θa和评价者网络参数θc
S5、将更新后的行动者网络参数θa和更新后的评价者网络参数θc作用于SDN网络全局,使用更新参数后的SDN网络进行数据的传输;
S6、定时检测SDN网络的拓扑结构是否发生改变,若是,则进入步骤S7,否则重复步骤S6;
S7、对深度强化学习模型进行在线训练,使用自适应运行算法对行动者网络参数θa和评价者网络参数θc进行更新,并将行动者网络参数θa和评价者网络参数θc作用于SDN网络全局,使用更新参数后的SDN网络进行数据的传输;
其中,i=1,2,...,L,L表示本地GPU的总数。
所述步骤S1中行动者网络为全连接神经网络,所述步骤S1中评价者网络为全连接神经网络和CNN卷积神经网络的组合网络;所述行动者网络和评价者网络的输入均包括SDN网络的网络状态,所述网络状态包括当前节点信息、目的节点信息、带宽要求和时延要求,所述评价者网络的输入还包括由CNN卷积神经网络处理后的SDN网络的网络特征。
如图2所示,所述CNN卷积神经网络包括依次连接的输入层、卷积层、池化层、全连接层和输出层。
所述步骤S1中奖励函数为:
Figure BDA0002583337990000081
其中,
Figure BDA0002583337990000082
表示在状态sn的情况下,SDN网络中第n个路由节点向第m个路由节点做出动作an后得到的奖励值;g表示动作惩罚,a1表示第一权重,a2表示第二权重,c(n)表示第n个路由节点的剩余容量,c(m)表示第m个路由节点的剩余容量,c(l)表示SDN网络中第l个链路的剩余容量,d(n)表示第n个路由节点与其邻接节点的流量负载的差异程度,d(m)示第m个路由节点与其邻接节点的流量负载的差异程度;所述状态sn包括:数据包所在节点为第n个路由节点、数据包的最终目的节点、数据报的转发带宽需求和数据包的延迟要求;所述动作an表示在状态sn的情况下可以采取的所有转发操作。
所述步骤S4包括以下分步骤:
S41、设置第一计数器t=0、第二计数器T=0、最大迭代次数Tmax和路由跳数限制tmax
S42、令dθa=0和dθc=0,并进行本地参数与全局参数的同步,将本地行动者参数θ′a的值同步为行动者网络参数θa的值,将本地评价者参数θ′c的值同步为评价者网络参数θc的值;
S43、令第一中间计数值tstart=t,通过本地GPUi读取当前时刻的状态st
S44、通过行动者网络获取策略π(at|st;θ′a),并根据策略π(at|st;θ′a)执行动作at,其中,π(at|st;θ′a)表示在状态st和本地GPUi上本地行动者参数θ′a的情况下所需要执行的动作为at
S45、获取执行动作at后的奖励值rt和新状态st+1,并令第一计数器t的计数值加一;
S46、判断新状态st是否达到最终状态所限定的条件,若是,则设置更新奖励值R=0,并进入步骤S48,否则进入步骤S47;
S47、判断t-tstart是否大于路由跳数限制tmax,若是,则设置更新奖励值R=V(st,θ′c),并进入步骤S48,否则返回步骤S44,其中V(st,θ′c)表示评价者网络在本地评价者参数θ′c时对到达状态st的路由策略评价值;
S48、设置第三计数器z=t-1和梯度更新奖励值Rupdata=rz+γR,初始化行动者网络参数的梯度Δθa和评价者网络参数的梯度Δθc为0;
S49、根据梯度更新奖励值Rupdata、本地行动者参数θ′a和本地评价者参数θ′c,获取本地行动者参数梯度Δθa的更新值和本地行动者参数梯度Δθc的更新值为:
Figure BDA0002583337990000091
Figure BDA0002583337990000101
其中,Δθa_updata表示梯度Δθa的更新值,
Figure BDA0002583337990000102
表示本地行动者参数θ′a的导数,logπ(az|sz;θ′a)表示在参数θ′a和状态sz的情况下执行动作az这个策略的概率的对数,rz表示执行动作az的奖励值,γ表示奖励折扣率,V(sz;θ′c)表示评价者网络在本地评价者参数θ′c时对到达状态sz的路由策略评价值,Δθc_updata表示梯度Δθc的更新值,
Figure BDA0002583337990000103
表示对(Rupdata-V(sz;θ′c))2求取θ′c的偏导数;
S410、令Δθa=Δθa_updata、Δθc=Δθc_updata和R=Rupdata,并判断第三计数器z是否等于第一中间计数值tstart,若是,则进入步骤S411,否则令第三计数器z的计数值减一,将梯度更新奖励值Rupdata更新为rz+γR,并返回步骤S49;
S411、判断第二计数器T是否大于或等于最大迭代次数Tmax,若是,则使用本地行动者参数梯度Δθa和本地行动者参数梯度Δθc分别更新行动者网络参数θa和评价者网络参数θc,并结束更新流程,否则令第二计数器T的计数值加一,并返回步骤S42。
所述步骤S411中使用本地行动者参数梯度Δθa和本地行动者参数梯度Δθc分别更新行动者网络参数θa和评价者网络参数θc的公式为:
θa_updata=θa+βΔθa
θc_updata=θc+βΔθc
其中,θa_updata表示更新后的行动者网络参数θa,θc_updata表示更新后的评价者网络参数θc,β表示本地GPUi在SDN网络中的权重。
所述步骤S7包括以下分步骤:
S71、设置第四计数器j=1,并采集路由请求任务f;
S72、将路由请求任务f分配给SDN网络中空闲的GPU,空闲的GPU为GPUidle
S73、设定dθa=0和dθc=0,并将GPUidle的本地行动者参数θ′a同步为行动者网络参数θa参数值,将本地评价者参数θ′c同步为评价者网络参数θc参数值;
S74、令第二中间计数值jstart=j,并读取当前时刻的初始状态sj
S75、通过行动者网络获取在状态sj和本地行动者参数θ′a的情况下执行动作aj的策略π(aj|sj;θ′a),并执行策略π(aj|sj;θ′a);
S76、获取执行动作aj后的奖励值rj和新状态sj+1,令第四计数器j的计数值加一,并将动作aj加入动作集合A;
S77、判断新状态sj是否达到路由请求任务f的最终状态所限定的条件,若是,则进入步骤S78,否则返回步骤S75;
S78、根据动作集合A获取路由路径p,并判断路由请求任务f是否与路由路径p匹配,若是,则令更新奖励值R=0,并进入步骤S79,否则令更新奖励值R=V(sj,θ′c),并进入步骤S79;
S79、设定第五计数器k=j-1和梯度更新奖励值Rupdata=rk+γR,初始化行动者网络参数的梯度Δθa和评价者网络参数的梯度Δθc为0;
S710、根据梯度更新奖励值Rupdata、本地行动者参数θa'和本地评价者参数θc',获取本地行动者参数梯度Δθa的更新值和本地行动者参数梯度Δθc的更新值为:
Figure BDA0002583337990000111
Figure BDA0002583337990000112
其中,Δθa_updata表示梯度Δθa的更新值,
Figure BDA0002583337990000113
表示本地行动者参数θ′a的导数,logπ(ak|sk;θ′a)表示在参数θ′a和状态sz的情况下执行动作ak这个策略的概率的对数,rk表示执行动作ak的奖励值,γ表示奖励折扣率,V(sk;θ′c)表示评价者网络在本地评价者参数θ′c时对到达状态sk的路由策略评价值,Δθc_updata表示梯度Δθc的更新值,
Figure BDA0002583337990000114
表示对(Rupdata-V(sk;θ′c))2求取θ′c的偏导数;
S711、令Δθa=Δθa_updata、Δθc=Δθc_updata和R=Rupdata,并判断第五计数器k是否等于第二中间计数值jstart,若是,则进入步骤S712,否则令第五计数器k的计数值减一,将梯度更新奖励值Rupdata更新为rk+γR,并返回步骤S710;
S712、通过本地行动者参数梯度Δθa和本地行动者参数梯度Δθc分别更新行动者网络参数θa和评价者网络参数θc,并将行动者网络参数θa和评价者网络参数θc作用于SDN网络全局,使用更新参数后的SDN网络进行数据的传输。
如图3所示,在本实施例中,深度强化学习模型包括行为者和评论者对,它们都是使用神经网络NN构建的,行为者网络输出对于给定状态下所有动作的概率分布和路由策略,是多输出的神经网络。评论者网络使用时间差误差来评价行为者的策略,是一输出的神经网络。行动者网络是全连接神经网络,在当前节点、目的节点信息、带宽要求和时延要求等数据输入后会在每个神经网络节点计算加权求和及经过激活函数处理,输出多个结果。行动者网络根据当前状态给出下一步动作,动作有多种可选所以是多输出的神经网络,输出为多个路由选择的概率。而评价者网络包括四项网络信息输入外还有网络特征的输入,其输出是对行动者网络的策略的评价,所以是单一输出的。评价者网络输入中多了一个网络特征输入,该输入就是网络的变化信息,在评价行动者网络策略时加入实时的网络状态变化,使智慧路由具有自适应性。

Claims (6)

1.一种分布式深度强化学习的SDN网络智慧路由数据传输方法,其特征在于,包括以下步骤:
S1、构建奖励函数和包含行动者网络和评价者网络的深度强化学习模型,并在SDN网络的应用层布置深度强化学习模型;
S2、随机初始化深度强化学习模型的行动者网络参数
Figure 969418DEST_PATH_IMAGE001
和评价者网络参数
Figure 509727DEST_PATH_IMAGE002
S3、随机初始化SDN网络的控制层中第i个本地
Figure 649984DEST_PATH_IMAGE003
上行动者网络的本地行动者参数
Figure 674221DEST_PATH_IMAGE004
和评价者网络的本地评价者参数
Figure 908500DEST_PATH_IMAGE005
S4、根据奖励函数、行动者网络参数
Figure 637289DEST_PATH_IMAGE006
、评价者网络参数
Figure 530421DEST_PATH_IMAGE007
、本地行动者参数
Figure 618069DEST_PATH_IMAGE008
和本地评价者参数
Figure 650397DEST_PATH_IMAGE009
,使用A3C算法对第i个本地
Figure 204613DEST_PATH_IMAGE010
上的深度强化学习模型进行离线训练,更新行动者网络参数
Figure 850620DEST_PATH_IMAGE011
和评价者网络参数
Figure 408204DEST_PATH_IMAGE012
S5、将更新后的行动者网络参数
Figure 554758DEST_PATH_IMAGE013
和更新后的评价者网络参数
Figure 613631DEST_PATH_IMAGE014
作用于SDN网络全局,使用更新参数后的SDN网络进行数据的传输;
S6、定时检测SDN网络的拓扑结构是否发生改变,若是,则进入步骤S7,否则重复步骤S6;
S7、对深度强化学习模型进行在线训练,使用自适应运行算法对行动者网络参数
Figure 744004DEST_PATH_IMAGE015
和评价者网络参数
Figure 379647DEST_PATH_IMAGE016
进行更新,并将行动者网络参数
Figure 195024DEST_PATH_IMAGE017
和评价者网络参数
Figure 684518DEST_PATH_IMAGE018
作用于SDN网络全局,使用更新参数后的SDN网络进行数据的传输;
其中,i=1,2,...,LL表示本地GPU的总数。
2.根据权利要求1所述的分布式深度强化学习的SDN网络智慧路由数据传输方法,其特征在于,所述步骤S1中行动者网络为全连接神经网络,所述步骤S1中评价者网络为全连接神经网络和CNN卷积神经网络的组合网络;所述行动者网络和评价者网络的输入均包括SDN网络的网络状态,所述网络状态包括当前节点信息、目的节点信息、带宽要求和时延要求,所述评价者网络的输入还包括由CNN卷积神经网络处理后的SDN网络的网络特征;所述CNN卷积神经网络包括依次连接的输入层、卷积层、池化层、全连接层和输出层。
3.根据权利要求1所述的分布式深度强化学习的SDN网络智慧路由数据传输方法,其特征在于,所述步骤S1中奖励函数为:
Figure 305117DEST_PATH_IMAGE019
其中,
Figure 216222DEST_PATH_IMAGE020
表示在状态s n 的情况下,SDN网络中第n个路由节点向第m个路由节点做出动作a n 后得到的奖励值;g表示动作惩罚,
Figure 540631DEST_PATH_IMAGE021
表示第一权重,
Figure 664008DEST_PATH_IMAGE022
表示第二权重,
Figure 503395DEST_PATH_IMAGE023
表示第n个路由节点的剩余容量,
Figure 746419DEST_PATH_IMAGE024
表示第m个路由节点的剩余容量,
Figure 259090DEST_PATH_IMAGE025
表示SDN网络中第l个链路的剩余容量,
Figure 887124DEST_PATH_IMAGE026
表示第n个路由节点与其邻接节点的流量负载的差异程度,
Figure 279054DEST_PATH_IMAGE027
示第m个路由节点与其邻接节点的流量负载的差异程度;所述状态s n 包括:数据包所在的第n个路由节点、数据包的最终目的节点、数据包的转发带宽需求和数据包的延迟要求;所述动作a n 表示在状态s n 的情况下可以采取的所有转发操作。
4.根据权利要求1所述的分布式深度强化学习的SDN网络智慧路由数据传输方法,其特征在于,所述步骤S4包括以下分步骤:
S41、设置第一计数器t=0、第二计数器T=0、最大迭代次数
Figure 543680DEST_PATH_IMAGE028
和路由跳数限制
Figure 639419DEST_PATH_IMAGE029
S42、令
Figure 647476DEST_PATH_IMAGE030
=0和
Figure 198805DEST_PATH_IMAGE031
=0,并进行本地参数与全局参数的同步,将本地行动者参数
Figure 452806DEST_PATH_IMAGE032
的值同步为行动者网络参数
Figure 131613DEST_PATH_IMAGE033
的值,将本地评价者参数
Figure 242395DEST_PATH_IMAGE034
的值同步为评价者网络参数
Figure 80688DEST_PATH_IMAGE035
的值;
S43、令第一中间计数值
Figure 469206DEST_PATH_IMAGE036
,通过本地
Figure 601854DEST_PATH_IMAGE037
读取当前时刻的状态
Figure 183006DEST_PATH_IMAGE038
S44、通过行动者网络获取策略
Figure 174840DEST_PATH_IMAGE039
,并根据策略
Figure 573241DEST_PATH_IMAGE040
执行动作
Figure 701340DEST_PATH_IMAGE041
,其中,
Figure 156855DEST_PATH_IMAGE042
表示在状态
Figure 161283DEST_PATH_IMAGE043
和本地
Figure 154254DEST_PATH_IMAGE044
上本地行动者参数
Figure 673878DEST_PATH_IMAGE045
的情况下所需要执行的动作为
Figure 562943DEST_PATH_IMAGE046
S45、获取执行动作
Figure 797877DEST_PATH_IMAGE047
后的奖励值
Figure 346538DEST_PATH_IMAGE048
和新状态
Figure 511546DEST_PATH_IMAGE049
,并令第一计数器t的计数值加一;
S46、判断新状态
Figure 105601DEST_PATH_IMAGE050
是否达到最终状态所限定的条件,若是,则设置更新奖励值R=0,并进入步骤S48,否则进入步骤S47;
S47、判断
Figure 830761DEST_PATH_IMAGE051
是否大于路由跳数限制
Figure 431113DEST_PATH_IMAGE052
,若是,则设置更新奖励值
Figure 116873DEST_PATH_IMAGE053
,并进入步骤S48,否则返回步骤S44,其中
Figure 678567DEST_PATH_IMAGE054
表示评价者网络在本地评价者参数
Figure 416322DEST_PATH_IMAGE055
时对到达状态
Figure 357383DEST_PATH_IMAGE056
的路由策略评价值;
S48、设置第三计数器
Figure 562231DEST_PATH_IMAGE057
和梯度更新奖励值
Figure 26317DEST_PATH_IMAGE058
,初始化行动者网络参数的梯度
Figure 941050DEST_PATH_IMAGE059
和评价者网络参数的梯度
Figure 883205DEST_PATH_IMAGE060
为0;
S49、根据梯度更新奖励值
Figure 880242DEST_PATH_IMAGE061
、本地行动者参数
Figure 52247DEST_PATH_IMAGE062
和本地评价者参数
Figure 30174DEST_PATH_IMAGE063
,获取本地行动者参数梯度
Figure 982212DEST_PATH_IMAGE064
的更新值和本地行动者参数梯度
Figure 293808DEST_PATH_IMAGE065
的更新值为:
Figure 302959DEST_PATH_IMAGE066
Figure 242883DEST_PATH_IMAGE067
其中,
Figure 998612DEST_PATH_IMAGE068
表示梯度
Figure 701732DEST_PATH_IMAGE069
的更新值,
Figure 492838DEST_PATH_IMAGE070
表示本地行动者参数
Figure 245024DEST_PATH_IMAGE071
的导数,
Figure 660569DEST_PATH_IMAGE072
表示在参数
Figure 486705DEST_PATH_IMAGE073
和状态
Figure 843517DEST_PATH_IMAGE074
的情况下执行动作
Figure 17753DEST_PATH_IMAGE075
这个策略的概率的对数,
Figure 44179DEST_PATH_IMAGE076
表示执行动作
Figure 190733DEST_PATH_IMAGE077
的奖励值,
Figure 246676DEST_PATH_IMAGE078
表示奖励折扣率,
Figure 851750DEST_PATH_IMAGE079
表示评价者网络在本地评价者参数
Figure 281201DEST_PATH_IMAGE080
时对到达状态
Figure 377919DEST_PATH_IMAGE081
的路由策略评价值,
Figure 542447DEST_PATH_IMAGE082
表示梯度
Figure 894537DEST_PATH_IMAGE083
的更新值,
Figure 602380DEST_PATH_IMAGE084
表示对
Figure 723526DEST_PATH_IMAGE085
求取
Figure 590114DEST_PATH_IMAGE086
的偏导数;
S410、令
Figure 626903DEST_PATH_IMAGE087
Figure 398157DEST_PATH_IMAGE088
Figure 114090DEST_PATH_IMAGE089
,并判断第三计数器z是否等于第一中间计数值
Figure 213895DEST_PATH_IMAGE090
,若是,则进入步骤S411,否则令第三计数器z的计数值减一,将梯度更新奖励值
Figure 602895DEST_PATH_IMAGE091
更新为
Figure 726576DEST_PATH_IMAGE092
,并返回步骤S49;
S411、判断第二计数器T是否大于或等于最大迭代次数
Figure 825244DEST_PATH_IMAGE093
,若是,则使用本地行动者参数梯度
Figure 765125DEST_PATH_IMAGE094
和本地行动者参数梯度
Figure 53804DEST_PATH_IMAGE095
分别更新行动者网络参数
Figure 229177DEST_PATH_IMAGE096
和评价者网络参数
Figure 385615DEST_PATH_IMAGE097
,并结束更新流程,否则令第二计数器T的计数值加一,并返回步骤S42。
5.根据权利要求4所述的分布式深度强化学习的SDN网络智慧路由数据传输方法,其特征在于,所述步骤S411中使用本地行动者参数梯度
Figure 552854DEST_PATH_IMAGE098
和本地行动者参数梯度
Figure 588550DEST_PATH_IMAGE099
分别更新行动者网络参数
Figure 183260DEST_PATH_IMAGE100
和评价者网络参数
Figure 787679DEST_PATH_IMAGE101
的公式为:
Figure 69363DEST_PATH_IMAGE102
其中,
Figure 406670DEST_PATH_IMAGE103
表示更新后的行动者网络参数
Figure 330370DEST_PATH_IMAGE104
Figure 54875DEST_PATH_IMAGE105
表示更新后的评价者网络参数
Figure 903532DEST_PATH_IMAGE106
Figure 444979DEST_PATH_IMAGE107
表示本地
Figure 175299DEST_PATH_IMAGE108
在SDN网络中的权重。
6.根据权利要求4所述的分布式深度强化学习的SDN网络智慧路由数据传输方法,其特征在于,所述步骤S7包括以下分步骤:
S71、设置第四计数器j=1,并采集路由请求任务f
S72、将路由请求任务f分配给SDN网络中空闲的GPU,空闲的GPU
Figure 683205DEST_PATH_IMAGE109
S73、设定
Figure 103428DEST_PATH_IMAGE110
Figure 872451DEST_PATH_IMAGE111
,并将
Figure 937621DEST_PATH_IMAGE112
的本地行动者参数
Figure 164947DEST_PATH_IMAGE113
同步为行动者网络参数
Figure 352477DEST_PATH_IMAGE114
参数值,将本地评价者参数
Figure 948410DEST_PATH_IMAGE115
同步为评价者网络参数
Figure 220866DEST_PATH_IMAGE116
参数值;
S74、令第二中间计数值
Figure 977732DEST_PATH_IMAGE117
,并读取当前时刻的初始状态
Figure 745618DEST_PATH_IMAGE118
S75、通过行动者网络获取在状态
Figure 483373DEST_PATH_IMAGE119
和本地行动者参数
Figure 615978DEST_PATH_IMAGE120
的情况下执行动作
Figure 430612DEST_PATH_IMAGE121
的策略
Figure 160277DEST_PATH_IMAGE122
,并执行策略
Figure 125609DEST_PATH_IMAGE123
S76、获取执行动作
Figure 867431DEST_PATH_IMAGE124
后的奖励值
Figure 189435DEST_PATH_IMAGE125
和新状态
Figure 904317DEST_PATH_IMAGE126
,令第四计数器j的计数值加一,并将动作
Figure 947491DEST_PATH_IMAGE127
加入动作集合A;
S77、判断新状态
Figure 552391DEST_PATH_IMAGE128
是否达到路由请求任务f的最终状态所限定的条件,若是,则进入步骤S78,否则返回步骤S75;
S78、根据动作集合A获取路由路径p,并判断路由请求任务f是否与路由路径p匹配,若是,则令更新奖励值R=0,并进入步骤S79,否则令更新奖励值
Figure 403935DEST_PATH_IMAGE129
,并进入步骤S79;
S79、设定第五计数器k=j-1和梯度更新奖励值
Figure 684524DEST_PATH_IMAGE130
,初始化行动者网络参数的梯度
Figure 353010DEST_PATH_IMAGE131
和评价者网络参数的梯度
Figure 303211DEST_PATH_IMAGE132
为0;
S710、根据梯度更新奖励值
Figure 478103DEST_PATH_IMAGE133
、本地行动者参数
Figure 392576DEST_PATH_IMAGE134
和本地评价者参数
Figure 554217DEST_PATH_IMAGE135
,获取本地行动者参数梯度
Figure 845128DEST_PATH_IMAGE136
的更新值和本地行动者参数梯度
Figure 671263DEST_PATH_IMAGE137
的更新值为:
Figure 898850DEST_PATH_IMAGE138
Figure 214031DEST_PATH_IMAGE139
其中,
Figure 314492DEST_PATH_IMAGE140
表示梯度
Figure 463976DEST_PATH_IMAGE141
的更新值,
Figure 782568DEST_PATH_IMAGE142
表示本地行动者参数
Figure 641503DEST_PATH_IMAGE143
的导数,
Figure 70954DEST_PATH_IMAGE144
表示在参数
Figure 74945DEST_PATH_IMAGE145
和状态
Figure 507981DEST_PATH_IMAGE146
的情况下执行动作
Figure 594492DEST_PATH_IMAGE147
这个策略的概率的对数,
Figure 48475DEST_PATH_IMAGE148
表示执行动作
Figure 969288DEST_PATH_IMAGE149
的奖励值,
Figure 301787DEST_PATH_IMAGE150
表示奖励折扣率,
Figure 147033DEST_PATH_IMAGE151
表示评价者网络在本地评价者参数
Figure 918287DEST_PATH_IMAGE152
时对到达状态
Figure 91343DEST_PATH_IMAGE153
的路由策略评价值,
Figure 597673DEST_PATH_IMAGE154
表示梯度
Figure 658776DEST_PATH_IMAGE155
的更新值,
Figure 974001DEST_PATH_IMAGE156
表示对
Figure 804160DEST_PATH_IMAGE157
求取
Figure 74867DEST_PATH_IMAGE158
的偏导数;
S711、令
Figure 844107DEST_PATH_IMAGE159
Figure 691584DEST_PATH_IMAGE160
Figure 647688DEST_PATH_IMAGE161
,并判断第五计数器k是否等于第二中间计数值
Figure 354875DEST_PATH_IMAGE162
,若是,则进入步骤S712,否则令第五计数器k的计数值减一,将梯度更新奖励值
Figure 656150DEST_PATH_IMAGE163
更新为
Figure 567038DEST_PATH_IMAGE164
,并返回步骤S710;
S712、通过本地行动者参数梯度
Figure 640298DEST_PATH_IMAGE165
和本地行动者参数梯度
Figure 187561DEST_PATH_IMAGE166
分别更新行动者网络参数
Figure 450833DEST_PATH_IMAGE167
和评价者网络参数
Figure 640112DEST_PATH_IMAGE168
,并将行动者网络参数
Figure 395028DEST_PATH_IMAGE169
和评价者网络参数
Figure 381701DEST_PATH_IMAGE170
作用于SDN网络全局,使用更新参数后的SDN网络进行数据的传输。
CN202010673851.8A 2020-07-14 2020-07-14 分布式深度强化学习的sdn网络智慧路由数据传输方法 Expired - Fee Related CN111917642B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010673851.8A CN111917642B (zh) 2020-07-14 2020-07-14 分布式深度强化学习的sdn网络智慧路由数据传输方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010673851.8A CN111917642B (zh) 2020-07-14 2020-07-14 分布式深度强化学习的sdn网络智慧路由数据传输方法

Publications (2)

Publication Number Publication Date
CN111917642A CN111917642A (zh) 2020-11-10
CN111917642B true CN111917642B (zh) 2021-04-27

Family

ID=73280083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010673851.8A Expired - Fee Related CN111917642B (zh) 2020-07-14 2020-07-14 分布式深度强化学习的sdn网络智慧路由数据传输方法

Country Status (1)

Country Link
CN (1) CN111917642B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818788B (zh) * 2021-01-25 2022-05-03 电子科技大学 一种基于无人机集群的分布式卷积神经网络分层匹配方法
CN113316216B (zh) * 2021-05-26 2022-04-08 电子科技大学 一种用于微纳卫星网络的路由方法
CN113537628B (zh) * 2021-08-04 2023-08-22 郭宏亮 一种基于分布强化学习的通用可靠最短路方法
CN114051272A (zh) * 2021-10-30 2022-02-15 西南电子技术研究所(中国电子科技集团公司第十研究所) 动态拓扑网络智能路由方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108803615A (zh) * 2018-07-03 2018-11-13 东南大学 一种基于深度强化学习的虚拟人未知环境导航算法
CN109343341A (zh) * 2018-11-21 2019-02-15 北京航天自动控制研究所 一种基于深度强化学习的运载火箭垂直回收智能控制方法
CN110472738A (zh) * 2019-08-16 2019-11-19 北京理工大学 一种基于深度强化学习的无人艇实时避障算法
CN110472880A (zh) * 2019-08-20 2019-11-19 李峰 评价合作问题解决能力的方法、装置及存储介质
CN110770761A (zh) * 2017-07-06 2020-02-07 华为技术有限公司 深度学习***和方法以及使用深度学习的无线网络优化
CN111316295A (zh) * 2017-10-27 2020-06-19 渊慧科技有限公司 使用分布式优先化回放的强化学习

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150269479A1 (en) * 2014-03-24 2015-09-24 Qualcomm Incorporated Conversion of neuron types to hardware
CN106873585B (zh) * 2017-01-18 2019-12-03 上海器魂智能科技有限公司 一种导航寻路方法、机器人及***
US10396919B1 (en) * 2017-05-12 2019-08-27 Virginia Tech Intellectual Properties, Inc. Processing of communications signals using machine learning
US10375585B2 (en) * 2017-07-06 2019-08-06 Futurwei Technologies, Inc. System and method for deep learning and wireless network optimization using deep learning
CN108600104B (zh) * 2018-04-28 2019-10-01 电子科技大学 一种基于树状路由的sdn物联网流量聚合方法
EP3769264A1 (en) * 2018-05-18 2021-01-27 Deepmind Technologies Limited Meta-gradient updates for training return functions for reinforcement learning systems
US10940863B2 (en) * 2018-11-01 2021-03-09 GM Global Technology Operations LLC Spatial and temporal attention-based deep reinforcement learning of hierarchical lane-change policies for controlling an autonomous vehicle
CN109803344B (zh) * 2018-12-28 2019-10-11 北京邮电大学 一种无人机网络拓扑及路由联合构建方法
CN110611619B (zh) * 2019-09-12 2020-10-09 西安电子科技大学 一种基于ddpg强化学习算法的智能化路由决策方法
CN110515303B (zh) * 2019-09-17 2022-09-09 余姚市浙江大学机器人研究中心 一种基于ddqn的自适应动态路径规划方法
CN111010294B (zh) * 2019-11-28 2022-07-12 国网甘肃省电力公司电力科学研究院 一种基于深度强化学习的电力通信网路由方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110770761A (zh) * 2017-07-06 2020-02-07 华为技术有限公司 深度学习***和方法以及使用深度学习的无线网络优化
CN111316295A (zh) * 2017-10-27 2020-06-19 渊慧科技有限公司 使用分布式优先化回放的强化学习
CN108803615A (zh) * 2018-07-03 2018-11-13 东南大学 一种基于深度强化学习的虚拟人未知环境导航算法
CN109343341A (zh) * 2018-11-21 2019-02-15 北京航天自动控制研究所 一种基于深度强化学习的运载火箭垂直回收智能控制方法
CN110472738A (zh) * 2019-08-16 2019-11-19 北京理工大学 一种基于深度强化学习的无人艇实时避障算法
CN110472880A (zh) * 2019-08-20 2019-11-19 李峰 评价合作问题解决能力的方法、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Multi-task Deep Reinforcement Learning for Scalable Parallel Task Scheduling;Lingxin Zhang;《2019 IEEE International Conference on Big Data (Big Data)》;20200224;正文第1-10页 *
名址分离网络中一种新的双层映射***研究;章小宁;《电子与信息学报》;20141030(第36卷第10期);正文第1-7页 *

Also Published As

Publication number Publication date
CN111917642A (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
CN111917642B (zh) 分布式深度强化学习的sdn网络智慧路由数据传输方法
CN110611619B (zh) 一种基于ddpg强化学习算法的智能化路由决策方法
CN112437020B (zh) 一种基于深度强化学习的数据中心网络负载均衡方法
CN108111335B (zh) 一种调度和链接虚拟网络功能的方法及***
CN111988225A (zh) 基于强化学习和迁移学习的多路径路由方法
WO2020172825A1 (zh) 一种确定传输策略的方法及装置
CN114697229B (zh) 一种分布式路由规划模型的构建方法及应用
CN116527567B (zh) 一种基于深度强化学习的智能网络路径优选方法与***
CN113570039B (zh) 一种基于强化学习的优化共识的区块链***
CN113784410B (zh) 基于强化学习td3算法的异构无线网络垂直切换方法
CN112631717A (zh) 基于异步强化学习的网络服务功能链动态部署***及方法
CN114415735B (zh) 面向动态环境的多无人机分布式智能任务分配方法
CN113821041A (zh) 一种多机器人协同导航与避障的方法
CN111416774A (zh) 网络拥塞控制方法、装置、计算机设备及存储介质
CN117041129A (zh) 一种基于多智能体强化学习的低轨卫星网络流路由方法
CN113469891A (zh) 一种神经网络架构搜索方法、训练方法、图像补全方法
CN111340192B (zh) 网络路径分配模型训练方法、路径分配方法、以及装置
CN115225561A (zh) 一种基于图结构特征的路由优化方法与***
CN115033359A (zh) 一种基于时延控制的物联代理多任务调度方法和***
CN114707575A (zh) 一种基于ap聚类的sdn多控制器部署方法
CN114205251B (zh) 基于时空特征的交换机链路资源预测方法
Fuji et al. Deep multi-agent reinforcement learning using dnn-weight evolution to optimize supply chain performance
CN117014355A (zh) 一种基于ddpg深度强化学习算法的tssdn动态路由决策方法
CN113887748B (zh) 在线联邦学习任务分配方法、装置、联邦学习方法及***
CN110852435A (zh) 一种基于神经进化计算模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210427

CF01 Termination of patent right due to non-payment of annual fee