CN111104732B - 一种基于深度强化学习的机动通信网智能规划方法 - Google Patents

一种基于深度强化学习的机动通信网智能规划方法 Download PDF

Info

Publication number
CN111104732B
CN111104732B CN201911219452.8A CN201911219452A CN111104732B CN 111104732 B CN111104732 B CN 111104732B CN 201911219452 A CN201911219452 A CN 201911219452A CN 111104732 B CN111104732 B CN 111104732B
Authority
CN
China
Prior art keywords
planning
mobile communication
communication network
training
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911219452.8A
Other languages
English (en)
Other versions
CN111104732A (zh
Inventor
杨若鹏
聂宗哲
殷昌盛
江尚
朱巍
邹小飞
张其增
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201911219452.8A priority Critical patent/CN111104732B/zh
Publication of CN111104732A publication Critical patent/CN111104732A/zh
Application granted granted Critical
Publication of CN111104732B publication Critical patent/CN111104732B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开一种基于深度强化学习的机动通信网智能规划方法及装置,所述方法包括以下步骤:1、资源要素预处理,对机动通信网网络的保障节点、被保障用户、架设地域等资源要素进行预处理;2、规划规则预处理,对机动通信网网络的规划规则进行预处理;3、训练样本生成,对预处理结果进行随机蒙特卡洛式搜索演算,生成训练样本;4、模型训练,基于递归神经网络,使用训练样本对网络规划模型进行训练;5、模型生成,构造联合损失函数,依照联合损失函数指示,重复对样本进行搜索和训练,生成机动通讯网网络规划模型。基于深度强化学习的机动通信网智能规划方法及装置,有效解决了当前机动通信网网络规划大量依赖人工操作、规划时间超出任务要求、对突发任务和陌生环境适应性差、资源利用率不高等问题,提高了机动通信网网络规划总体效率。

Description

一种基于深度强化学习的机动通信网智能规划方法
技术领域
本发明涉及信息技术领域,特别涉及一种机动通信网网络智能规划方法。
背景技术
机动通信网通常指特殊领域保障大规模特殊任务所使用的一种机动通信网络,通常由固定光纤网络、微波网络、卫星网络、升空中继网络、短波超短波电台网络等多种子网多种设备组成的综合机动网络,其最小单位为单个通信保障平台或设备,视为机动通信网网络中的一个保障节点。机动通信网被保障人通常在数百人及以上,架设需求随机性较强,时间较为紧张,规划时间通常在24小时之内或更短。
网络规划,是指网络规划人员或技术保障人员充分利用现有的***设备,平衡现实需求和矛盾障碍,为保障当前任务完成进行的针对机动通信网网络架设的筹划和组织工作。本专利主要指根据机动通信网网络支持保障的任务人员及分组、任务供给的各类设备、连接关系、地理环境,为机动通信网各网络***设备选址,设计网络架构,以支撑设备架设和部署。
由于机动通信网通常用于在难以预测的时间和地点保障各类突发的任务,因此其具有网络规划需求差异大、内容复杂、设备条件受限、时间要求紧迫等特点。当前,机动通信网络规划通常使用大量人工结合固定算法***进行规划,其中的人工规划需要专业规划人员在从业过程中累积大量经验才有可能胜任该工作,并且需要的人员较多,具有规划时间长、数据交互频繁等缺点;机动通信网网络规划的固定算法***能够在一定程度上辅助规划人员进行规划工作,但使用固定算法的规划***无法灵活适用于所有可能展开机动通信网的具体场景,不经过底层修改无法应对不同的地理环境和设备限制等情况,且由于这类***在设计上偏重于网络设计,当网络规模增加,约束条件增多之后难以得出较为直观准确的规划结果,只能为规划人员的提供有限的辅助支持,影响了任务保障的效果。
发明内容
本发明的目的在于克服现有技术的缺陷,针对机动通信网网络规划条件复杂、时间紧急、地点不定、设备条件受限等现实问题,实现了一种基于深度强化学习的机动通讯网智能规划方法。
为实现上述目的,本发明采用了如下技术方案:
一种基于深度强化学习的机动通讯网智能规划方法,所述方法包括如下步骤:
S1、资源要素预处理,对机动通信网的架设地域、保障节点、被保障用户进行抽象和映射,建立机动通信网资源要素的仿真模型;
S1.1、对机动通信网网络的架设地域进行预处理;
S1.2、对机动通信网网络的保障节点进行预处理;
S1.3、对机动通信网网络的被保障用户进行预处理。
S2、规划规则预处理,对机动通信网的保障关系、规划状态进行抽象和映射,融合步骤S1的资源要素仿真模型,建立机动通信网规划的整体仿真模型;
S2.1、对机动通信网网络的连接关系进行预处理;
S2.2、对机动通信网网络的规划状态进行预处理。
S3、训练样本生成,按照步骤S2的整体仿真模型建立网络规划仿真,并采用基于上限置信区间算法(UCT)的蒙特卡洛树搜索方法运行模拟,产生训练样本并形成可供深度强化学习使用的训练样本集;
S3.1、按照步骤S2的整体仿真模型,建立网络规划仿真,初始训练时,首先随机生成被保障用户位置;
S3.2、对应生成的被保障用户位置,使用搜索算法进行模拟部署;
S3.3、使用搜索方法重复模拟部署,得到满足条件的样本和评价集。
S4、模型训练,基于递归神经网络等深度强化学习算法,使用步骤S3的训练样本对步骤S2的整体仿真模型进行训练,对每次的训练结果进行比较筛选,将得到的规划空间策略和步骤实时规划满足度反馈到步骤S3,优化基于上限置信区间算法(UCT)的蒙特卡洛树搜索算法的搜索结果,得到优化训练样本;
S4.1、初始化使用三大类要素描述规划局面;
S4.2、递归神经网络采用公共的全卷积网络,构造过滤器(filter),尾部分成规划策略和规划满足度两路分支;
S4.3、将步骤S4.2的结果反馈给步骤3.2,细化搜索过程;
S4.4、定义局部策略评价;
S4.5、结合递归神经网络输出,搜索流程全部更新为寻找最大值的部署动作;
S4.6、按照步骤S4.5的流程,对每一个态势结合用时和有效结果,执行搜索流程,确定新的选址策略。
S5、模型生成,将得到的优化训练样本输入步骤S4的训练网络中,根据训练目标构造联合损失函数,并依照联合损失函数指示,对样本进行搜索和训练,生成机动通讯网网络规划模型;
S5.1、根据训练目标构造联合损失函数;
S5.2、对模型训练后与训练前对比,按照仿真模型规则进行结果评判;
S5.3、基于步骤S4.1和S4.2进行训练,获取机动通信网网络规划模型。
本发明采用基于深度强化学习的机动通讯网智能规划方法,优点如下:
1、采用基于上限置信区间算法(UCT)的蒙特卡洛树搜索方法,结合结构简单但切实有效的递归神经网络,大大减少了对硬件的算力需求和处理时间,可以较快地解决机动网网络规划问题;
2、通过采用深度强化学习算法对智能规划模型进行训练,使规划模型克服了适用场景单一的缺陷,能够适应不同地域、不同保障设备、不同被保障用户的场景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的基于深度强化学习的机动通讯网智能规划方法实施例的详细流程示意图;
图2是本发明的组成结构框图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
参照附图1,示出了本发明的一种基于深度强化学习的机动通讯网智能规划方法实施例的流程示意图,具体包括以下步骤:
S1、资源要素预处理,对机动通信网的架设地域、保障节点、被保障用户进行抽象和映射,建立机动通信网资源要素的仿真模型;
S1.1、对机动通信网网络的架设地域进行预处理,将架设地域类比为棋盘进行抽象。设定地域大小N2km2,以架设地域地形图的左下角坐标为零点坐标,以N的某一个约数为一个单位长度,横纵向划分架设区域,每个交点作为一个定位点,得到一个的节点位置矩阵,本专利中预设架设地域为长宽相等的正方形地域,即得到一个N×N的节点位置矩阵,亦可继续进行多次展开细分;
S1.2、对机动通信网网络的通信平台/设备,即保障节点(如移动通信车、移动电台、手台等)进行预处理,预设P类保障节点,保障节点的通信距离R和链路数量L依据设备的具体型号而定。本专利中保障节点主要划分为两类,即主要节点P1和次要节点P2,并依次按照保障优先级B进行建模,设置主要节点优先级为B1,次要节点优先级为B2,其中主要节点通信保障范围按照以节点部署位置为圆心,单跳微波通信距离R1km为半径的圆形进行建模,其链路数设定为L1,次要节点通信保障范围按照以节点部署位置为圆心,单跳微波通信距离R1km、单跳短波通信距离R2km为半径的圆形进行建模,其微波链路数设定为L2,短波链路数设定为L′2
S1.3、对机动通信网网络的被保障用户(如不同级别的军事单位团级、营级、连级、班、单兵等)进行预处理,预设Q类保障节点,被保障用户节点的通信距离R和链路数量L依据设备的具体型号而定。本专利中被保障用户主要划分为三类,即主要用户Q1、次要用户Q2和下级用户Q3,并依次按照保障优先级A进行建模,设定主要用户优先级为A1,次要用户为A2,下级用户为A3,其中主要用户单跳微波通信距离为R1km,链路数为U1;次要用户单跳微波通信距离为R1km,链路数为U2,下级用户单跳短波通信距离为R2km,链路数为U′3
本步骤对机动通信网网络的资源要素进行了抽象和映射,为后续完成机动通信网网络的规则和整体建模提供了支撑。
S2、规划规则预处理,对机动通信网网络的规划规则进行预处理。对机动通信网的保障关系、规划状态进行抽象和映射,融合步骤S1的资源要素仿真模型,建立机动通信网规划的整体仿真模型;
S2.1、对机动通信网网络的连接关系进行预处理,将保障节点与保障节点,保障节点与被保障用户进行关联;
S2.1.1、按照优先级关联A→B,将保障节点与被保障用户进行关联,确定保障关系。在本专利中,A1与B1相对应,A2与B2、B3相对应,即主要节点P1保障主要用户Q1,次要节点P2保障次要用户Q2及下级用户Q3,每个用户都至少需要有一个相应的保障节点与之相连;
S2.1.2、确定保障节点间的连接关系,本专利中,所有的主要节点需要构成连通图,同时次要节点P2必须与至少一个主要节点P1相连接;
S2.1.3、所有的连接需要满足步骤S1中规定的通信类型,即相同通信类型的链路才可相连;
S2.1.4、所有的连接需要满足步骤S1中规定的链路数量,即连接的数量不能超过规定的节点链路数L才可相连;
S2.1.5、所有的连接需要满足步骤S1中规定的通信距离,即任意两个节点的距离必须小于使用通信设备的最大通信距离R才可相连;
S2.1.6、整个机动网通信网络拓扑结构最低需能构成最小生成树;
S2.2、对机动通信网网络的规划状态进行预处理,根据前述保障节点、被保障用户、架设地域、网络规划规则建立一个网络态势s,包括机动通信网网络的全部信息,即s=(P,Q,A,B,R,L…),但主要平面用于描述各节点的规划位置,在已规划位置用字符占位,未规划位置则记为0,形如
Figure BDA0002300386110000051
S2.2.1、网络态势s的初始态势记为s0,主要描述全部被保障用户节点的规划位置,即根据被保障人员实际任务需求,直接确定被保障人员在架设地域模型中的位置,形如
Figure BDA0002300386110000052
其中以被保障用户集合P中的符号在矩阵中表示被保障用户节点的所处位置。
S2.2.2、后续保障节点的规划则视为一个典型的马尔科夫过程,即每一个保障节点的部署情况都可以看作一个针对当前网络态势si-1的动作响应ai(其中i∈[1,K],K为保障节点总数量,在本专利中即为主要节点和次要节点之和),该动作即为确定某个保障节点Q的选址,如
Figure BDA0002300386110000061
S2.2.3、所有被保障节点选址规划条件达到满足,或保障节点布置完毕记为终局,终局时得到网络态势形如
Figure BDA0002300386110000062
本步骤在步骤S1的基础上,对机动通信网网络的规划规则进行了抽象和映射,建立了整体的机动通信网仿真模型,为后续深度强化学习规划策略提供了支撑。
S3、训练样本生成,按照步骤S2的整体仿真模型建立网络规划仿真,并采用基于上限置信区间算法(UCT)的蒙特卡洛树搜索方法运行模拟,产生训练样本并形成可供深度强化学习使用的训练样本集;
S3.1、按照步骤S2的整体仿真模型,建立网络规划仿真,初始训练时,首先随机生成被保障用户位置;
S3.2、对应生成的被保障用户位置,使用基于上限置信区间算法(UCT)的蒙特卡洛树搜索算法进行模拟部署;
S3.2.1、从初始态势s0开始初始化模拟部署,此状态即为搜索树的根节点,此时初始化搜索树基于某个态势的每一次行动(s,a),其中,E(s,a)为该态势下每一个保障节点可能选择位置的综合行动评价。
S3.2.2、在未引入神经网络时,所有态势下初始的E(s,a)评分均相等,设为r0,以随机遍历的方式持续搜索,直到保障节点全部部下,即达到终局后,参照步骤S1、S2进行判断,根据终局结果是否满足条件,计算每一个对应当前态势si-1的部署动作ai的行动评价r,设置反馈评价为r′,若满足则计为r=r0+r′,不满足则记为r=r0-r',进行归一化处理后得到形如:
Figure BDA0002300386110000063
的评价集合。
S3.3、使用搜索方法重复模拟部署,得到满足条件的样本和评价集。
S4、模型训练,基于递归神经网络,使用步骤S3的训练样本对步骤S2的整体仿真模型进行训练,对每次的训练结果进行比较筛选,将得到的规划空间策略和步骤实时规划满足度反馈到步骤S3,优化基于上限置信区间算法(UCT)的蒙特卡洛树搜索算法的搜索结果,得到优化训练样本;
S4.1、初始化使用三大类共6个平面描述规划局面,即保障用户Q三个平面,被保障用户P两个平面,以及架设地域一个平面;
S4.2、递归神经网络首先采用4层公共的全卷积网络,分别使用Relu函数构造32、64、128、256个3×3的过滤器(filter),尾部分成规划策略和规划满足度两路分支,策略分支使用4个1×1的降维filter,一个全连接层,使用softmax函数输出规划空间中每个节点的选择概率P,满足度分支使用2个1×1的降维filter,一个全连接层,使用tanh函数输出范围为[0,1]满足度评分C,即:
fθ(s)=(P,C)
S4.3、将S4.2得到的规划策略概率P和满足度评分C返回S3.2,细化UCT树搜索的展开过程,将每一次行动态势更新为(s,a)=(E(s,a),N(s,a),Ev(s,a),P(s,a));
S4.3.1、N(s,a)为基于当前态势所选的下一节点(子节点)的访问次数;
S4.3.2、Ev(s,a)为平均行动评价,
Figure BDA0002300386110000071
结合神经网络输出后更新为
Figure BDA0002300386110000072
S4.4、定义局部策略评价El(s,a),El(s,a)等于平行UCT搜索水平常数Upuct(初始化为3)与递归神经网络输出策略概率P(s,a)和父节点访问次数N(s,b)开方的乘积,再与1+某子节点访问次数N(s,a)的商,具体算法如下:
Figure BDA0002300386110000073
S4.5、结合递归神经网络输出后,此时UCT搜索树流程全部更新为寻找某态势si-1下,使得Ev(s,a)+El(s,a)获得最大值的部署动作ai,在经过一定次数的搜索树和神经网络的循环训练后,一次UCT搜索树的搜索流程具体如下:
S4.5.1、针对当前被保障用户的初始态势s0,选择当前Ev(s0,a1)+El(s0,a1)值最大的部署动作a并进行部署;
S4.5.2、重复4.5.1,直到某个态势si没有已评估过Ev+El值,无法选择,此时将当前态势si导入神经网络fθ(s)进行评估,得到fθ(si)=(Pi,Ci);
S4.5.3、更新当前节点的访问次数N(si,ai+1)=N(si,ai+1)+1;
S4.5.4、使用Pi继续进行下一部署动作ai+1的预测,并重复4.5.2、4.5.3,直到达到终局;
S4.5.5、回传整个树搜索的结果,按照4.5.3更新每个所经过节点的访问次数,根据叶子节点回传更新所有子节点的满足度评分,不满足为0,满足为1;
S4.5.6、按照S4.3.2计算每个节点的平均行动评价:
Figure BDA0002300386110000081
S4.6、按照S4.5的全部流程,对于每一个态势si,结合用时和有效结果的考虑,都进行800次搜索树搜索流程,最终根据搜索树的实际行动集合{an}来确定新的选址策略M为:
Figure BDA0002300386110000082
其中τ为搜索常数,负责控制选址的随机性,τ越大随机性越强,由于选址活动具有一定的关联性,将τ设置为按照选址过程不断下降,最终稳定在0.4。
S5、模型生成,将得到的优化训练样本输入步骤S4的训练网络中,根据训练目标构造联合损失函数,并依照联合损失函数指示,对样本进行搜索和训练,生成机动通讯网网络规划模型;
S5.1、根据训练目标构造联合损失函数Loss,为最小化神经网络预测满足度C和上限置信区间算法搜索规划满足度C′的误差,并使神经网络输出的策略概率P与UCT树搜索算法搜索得到的分支概率π尽可能相似,再加入防止过拟合的控制参数g||θ||,得到联合损失函数Loss:
Loss=(C'-C)2TlogP+g||θ||
其中,g||θ||为神经网络变量的L2范数;
S5.2、设置所获模型每50次训练批次后与之前模型对比,按照仿真模型规则进行结果评判:符合保障规则的胜出;都不符合流局,保留之前的模型参数;都符合时按照所用保障节点的数目进行判定,数目少的模型予以保留;
S5.3、基于步骤S4.1和S4.2持续进行训练,获取机动通信网网络规划模型。
参照附图2,示出了本发明的组成结构框图,具体包括:
资源要素预处理模块100:对机动通信网的架设地域、保障节点、被保障用户进行抽象和映射,建立机动通信网资源要素的仿真模型,具体包括:
架设地域预处理单元101:对机动通信网网络的架设地域进行预处理;
保障节点预处理单元102:对机动通信网网络的保障节点进行预处理;
被保障用户预处理单元103:对机动通信网网络的被保障用户进行预处理;
规划规则预处理模块200:对机动通信网的保障关系、规划状态进行抽象和映射,融合资源要素预处理模块100的资源要素仿真模型,建立机动通信网规划的整体仿真模型,具体包括:
连接关系预处理单元201:对机动通信网网络的连接关系进行预处理;
规划状态预处理单元202:对机动通信网网络的规划状态进行预处理;
训练样本生成模块300:按照规划规则预处理模块200的整体仿真模型建立网络规划仿真,并采用搜索方法运行模拟,产生训练样本并形成可供深度强化学习使用的训练样本集,具体包括:
网络规划仿真建立单元301:按照规划规则预处理模块200的整体仿真模型,建立网络规划仿真,初始训练时,首先随机生成被保障用户位置;
模拟部署单元302:对应生成的被保障用户位置,使用搜索算法进行模拟部署;
样本和评价集生成单元303:使用搜索方法重复模拟部署,得到满足条件的样本和评价集;
模型训练模块400:基于递归神经网络,使用训练样本生成模块300的训练样本对规划规则预处理模块200的整体仿真模型进行训练,对每次的训练结果进行比较筛选,将得到的规划空间策略和步骤实时规划满足度反馈到训练样本生成模块300,优化所述搜索算法的搜索结果,得到优化训练样本,具体包括:
规划局面初始化单元401:初始化使用三大类要素描述规划局面;
过滤器构造单元402:递归神经网络采用公共的全卷积网络,构造过滤器(filter),尾部分成规划策略和规划满足度两路分支;
搜索过程细化单元403:将过滤器构造单元402的结果反馈给模拟部署单元302,细化搜索过程;
局部策略评价定义单元404:定义局部策略评价;
搜索过程更新单元405:结合递归神经网络输出,搜索流程全部更新为寻找最大值的部署动作;
新选址策略确定单元406:按照搜索过程更新单元405的流程,对每一个态势结合用时和有效结果,执行搜索流程,确定新的选址策略;
模型生成模块500:将得到的优化训练样本输入模型训练模块400的训练网络中,根据训练目标构造联合损失函数,并依照联合损失函数指示,对样本进行搜索和训练,生成机动通讯网网络规划模型,具体包括:
联合损失函数构造单元501:根据训练目标构造联合损失函数;
结果评判单元502:对模型训练后与训练前对比,按照仿真模型规则进行结果评判;
模型生成单元503:基于规划局面初始化单元401和过滤器构造单元402进行训练,获取机动通信网网络规划模型;
网络规划模块600:应用训练好的网络规划模型,输入架设地域、保障节点、被保障用户参数,获取机动通信网络规划参数,具体包括:
网络规划要素输入单元601:输入架设地域、保障节点、被保障用户参数;
模型运算单元602:调用训练好的网络规划模型进行运算;
网络规划参数生成单元603:模型生成网络规划参数。

Claims (9)

1.一种基于深度强化学习的机动通信网智能规划方法,其特征在于,所述方法包括以下步骤:
S1、资源要素预处理,对机动通信网的架设地域、保障节点、被保障用户进行抽象和映射,建立机动通信网资源要素的仿真模型;
S2、规划规则预处理,对机动通信网的保障关系、规划状态进行抽象和映射,融合步骤S1的资源要素仿真模型,建立机动通信网规划的整体仿真模型;
S3、训练样本生成,按照步骤S2的整体仿真模型建立网络规划仿真,并采用搜索方法运行模拟,产生训练样本并形成可供深度强化学习使用的训练样本集;
S4、模型训练,基于深度强化学习算法,使用步骤S3的训练样本对步骤S2的整体仿真模型进行训练,对每次的训练结果进行比较筛选,将得到的规划空间策略和步骤实时规划满足度反馈到步骤S3,优化所述搜索算法的搜索结果,得到优化训练样本;
S5、模型生成,将得到的优化训练样本输入步骤S4的训练网络中,根据训练目标构造联合损失函数,并依照联合损失函数指示,对样本进行搜索和训练,生成机动通讯网网络规划模型。
2.根据权利要求1所述的基于深度强化学习的机动通信网智能规划方法,其特征在于,所述资源要素预处理包括以下步骤:
S1.1、对机动通信网网络的架设地域进行预处理;
S1.2、对机动通信网网络的保障节点进行预处理;
S1.3、对机动通信网网络的被保障用户进行预处理。
3.根据权利要求1所述的基于深度强化学习的机动通信网智能规划方法,其特征在于,所述规划规则预处理包括以下步骤:
S2.1、对机动通信网网络的连接关系进行预处理;
S2.2、对机动通信网网络的规划状态进行预处理。
4.根据权利要求1所述的基于深度强化学习的机动通信网智能规划方法,其特征在于,所述训练样本生成包括以下步骤:
S3.1、按照步骤S2的整体仿真模型,建立网络规划仿真,初始训练时,首先随机生成被保障用户位置;
S3.2、对应生成的被保障用户位置,使用搜索算法进行模拟部署;
S3.3、使用搜索方法重复模拟部署,得到满足条件的样本和评价集。
5.根据权利要求1所述的基于深度强化学习的机动通信网智能规划方法,其特征在于,所述模型训练包括以下步骤:
S4.1、初始化使用三大类要素描述规划局面;
S4.2、递归神经网络采用公共的全卷积网络,构造过滤器(filter),尾部分成规划策略和规划满足度两路分支;
S4.3、将步骤S4.2的结果反馈给步骤3.2,细化搜索过程;
S4.4、定义局部策略评价;
S4.5、结合递归神经网络输出,搜索流程全部更新为寻找最大值的部署动作;
S4.6、按照步骤S4.5的流程,对每一个态势结合用时和有效结果,执行搜索流程,确定新的选址策略。
6.根据权利要求1所述的基于深度强化学习的机动通信网智能规划方法,其特征在于,所述模型生成包括以下步骤:
S5.1、根据训练目标构造联合损失函数;
S5.2、对模型训练后与训练前对比,按照仿真模型规则进行结果评判;
S5.3、基于步骤S4.1和S4.2进行训练,获取机动通信网网络规划模型。
7.根据权利要求1或4所述的基于深度强化学习的机动通信网智能规划方法,其特征在于,所述搜索方法为基于上限置信区间算法(UCT)的蒙特卡洛树搜索方法。
8.根据权利要求1所述的基于深度强化学习的机动通信网智能规划方法,其特征在于,所述深度强化学习算法为递归神经网络。
9.一种基于深度强化学习的机动通信网智能规划装置,其特征在于,所述装置包括:
资源要素预处理模块100:对机动通信网的架设地域、保障节点、被保障用户进行抽象和映射,建立机动通信网资源要素的仿真模型,具体包括:
架设地域预处理单元101:对机动通信网网络的架设地域进行预处理;
保障节点预处理单元102:对机动通信网网络的保障节点进行预处理;
被保障用户预处理单元103:对机动通信网网络的被保障用户进行预处理;
规划规则预处理模块200:对机动通信网的保障关系、规划状态进行抽象和映射,融合资源要素预处理模块100的资源要素仿真模型,建立机动通信网规划的整体仿真模型,具体包括:
连接关系预处理单元201:对机动通信网网络的连接关系进行预处理;
规划状态预处理单元202:对机动通信网网络的规划状态进行预处理;
训练样本生成模块300:按照规划规则预处理模块200的整体仿真模型建立网络规划仿真,并采用搜索方法运行模拟,产生训练样本并形成可供深度强化学习使用的训练样本集,具体包括:
网络规划仿真建立单元301:按照规划规则预处理模块200的整体仿真模型,建立网络规划仿真,初始训练时,首先随机生成被保障用户位置;
模拟部署单元302:对应生成的被保障用户位置,使用搜索算法进行模拟部署;
样本和评价集生成单元303:使用搜索方法重复模拟部署,得到满足条件的样本和评价集;
模型训练模块400:基于递归神经网络,使用训练样本生成模块300的训练样本对规划规则预处理模块200的整体仿真模型进行训练,对每次的训练结果进行比较筛选,将得到的规划空间策略和步骤实时规划满足度反馈到训练样本生成模块300,优化所述搜索算法的搜索结果,得到优化训练样本,具体包括:
规划局面初始化单元401:初始化使用三大类要素描述规划局面;
过滤器构造单元402:递归神经网络采用公共的全卷积网络,构造过滤器(filter),尾部分成规划策略和规划满足度两路分支;
搜索过程细化单元403:将过滤器构造单元402的结果反馈给模拟部署单元302,细化搜索过程;
局部策略评价定义单元404:定义局部策略评价;
搜索过程更新单元405:结合递归神经网络输出,搜索流程全部更新为寻找最大值的部署动作;
新选址策略确定单元406:按照搜索过程更新单元405的流程,对每一个态势结合用时和有效结果,执行搜索流程,确定新的选址策略;
模型生成模块500:将得到的优化训练样本输入模型训练模块400的训练网络中,根据训练目标构造联合损失函数,并依照联合损失函数指示,对样本进行搜索和训练,生成机动通讯网网络规划模型,具体包括:
联合损失函数构造单元501:根据训练目标构造联合损失函数;
结果评判单元502:对模型训练后与训练前对比,按照仿真模型规则进行结果评判;
模型生成单元503:基于规划局面初始化单元401和过滤器构造单元402进行训练,获取机动通信网网络规划模型;
网络规划模块600:应用训练好的网络规划模型,输入架设地域、保障节点、被保障用户参数,获取机动通信网络规划参数,具体包括:
网络规划要素输入单元601:输入架设地域、保障节点、被保障用户参数;
模型运算单元602:调用训练好的网络规划模型进行运算;
网络规划参数生成单元603:模型生成网络规划参数。
CN201911219452.8A 2019-12-03 2019-12-03 一种基于深度强化学习的机动通信网智能规划方法 Active CN111104732B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911219452.8A CN111104732B (zh) 2019-12-03 2019-12-03 一种基于深度强化学习的机动通信网智能规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911219452.8A CN111104732B (zh) 2019-12-03 2019-12-03 一种基于深度强化学习的机动通信网智能规划方法

Publications (2)

Publication Number Publication Date
CN111104732A CN111104732A (zh) 2020-05-05
CN111104732B true CN111104732B (zh) 2022-09-13

Family

ID=70420933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911219452.8A Active CN111104732B (zh) 2019-12-03 2019-12-03 一种基于深度强化学习的机动通信网智能规划方法

Country Status (1)

Country Link
CN (1) CN111104732B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797292B (zh) * 2020-06-02 2023-10-20 成都方未科技有限公司 一种基于uct行为轨迹数据挖掘方法及***
CN112532442B (zh) * 2020-11-25 2023-02-03 中国人民解放军军事科学院评估论证研究中心 一种用于全域指控网络的任务协同能力评估方法
CN112348175B (zh) * 2020-11-30 2022-10-28 福州大学 一种基于强化学习来进行特征工程的方法
CN113765691B (zh) * 2021-01-14 2023-06-27 北京京东振世信息技术有限公司 一种网络规划方法和装置
CN115238599B (zh) * 2022-06-20 2024-02-27 中国电信股份有限公司 制冷***节能方法及模型强化学习训练方法、装置
CN115174416B (zh) * 2022-07-12 2024-04-12 中国电信股份有限公司 一种网络规划***、方法、装置及电子设备
CN114964269B (zh) * 2022-08-01 2022-11-08 成都航空职业技术学院 一种无人机路径规划方法
CN116668306B (zh) * 2023-06-08 2024-02-23 中国人民解放军国防科技大学 一种基于三视角的机动通信网网络工程化规划方法及***
CN116962196A (zh) * 2023-06-08 2023-10-27 中国人民解放军国防科技大学 一种基于关系推理的机动通信网网络智能规划方法及***
CN116684273B (zh) * 2023-06-08 2024-01-30 中国人民解放军国防科技大学 一种基于粒子群的机动通信网络结构自动规划方法及***
CN117669993B (zh) * 2024-01-30 2024-07-02 南方科技大学 一种渐进式充电设施规划方法、装置、终端及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109560968A (zh) * 2018-12-20 2019-04-02 中国电子科技集团公司第三十研究所 一种动态策略驱动的网络资源智能规划与配置方法
CN110297490A (zh) * 2019-06-17 2019-10-01 西北工业大学 基于强化学习算法的异构模块化机器人自重构规划方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109560968A (zh) * 2018-12-20 2019-04-02 中国电子科技集团公司第三十研究所 一种动态策略驱动的网络资源智能规划与配置方法
CN110297490A (zh) * 2019-06-17 2019-10-01 西北工业大学 基于强化学习算法的异构模块化机器人自重构规划方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于稠密卷积网络和竞争架构的改进路径规划算法;黄颖等;《计算机与数字工程》;20190420(第04期);全文 *

Also Published As

Publication number Publication date
CN111104732A (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
CN111104732B (zh) 一种基于深度强化学习的机动通信网智能规划方法
US20210133536A1 (en) Load prediction method and apparatus based on neural network
Melo et al. A novel surrogate model to support building energy labelling system: A new approach to assess cooling energy demand in commercial buildings
Lam et al. Decision support system for contractor pre‐qualification—artificial neural network model
CN103327082B (zh) 一种多蚁群疏散优化交换方法
CN106656308A (zh) 空间信息网络中任务的规划方法和装置
CN107194504A (zh) 土地使用状态的预测方法、装置和***
US20240202852A1 (en) Methods for cleaning communal facilities in smart cities based on the internet of things, systems, and mediums
Lopez et al. Distributed reinforcement learning in emergency response simulation
Buijs et al. Adaptive planning for flood resilient areas: dealing with complexity in decision-making about multilayered flood risk management
CN106067077A (zh) 一种基于神经网络的负荷预测方法及装置
CN115688600A (zh) 油藏井位优化方法、电子设备及存储介质
CN116523187A (zh) 一种基于bim的工程进度监控方法及其***
CN113240219A (zh) 一种土地利用模拟及预测方法
Sun et al. Adapting principles of developmental biology and agent-based modelling for automated urban residential layout design
CN117612413A (zh) 基于gcn的有人无人航空器融合运行空域关键节点识别方法
CN116167254A (zh) 基于城市大数据的多维城市仿真推演方法和***
CN104703059A (zh) 一种宽带接入网络的规划方法及装置
CN106161618A (zh) 一种车联网专用短程通信***路侧通信单元布局优化方法
Yang et al. Integrating case‐based reasoning and expert system techniques for solving experience‐oriented problems
CN112613830B (zh) 一种物资储备中心选址方法
CN110096506B (zh) 一种多层需求的树形胞元结构描述及存储方法
Mantelas et al. A fuzzy cellular automata modeling approach–accessing urban growth dynamics in linguistic terms
CN116070714B (zh) 基于联邦学习和神经架构搜索的云边协同训练方法及***
Li et al. Construction Technology Safety Management under the Background of BIM and Information System Modeling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant