CN111767991A - 一种基于深度q学习的测控资源调度方法 - Google Patents

一种基于深度q学习的测控资源调度方法 Download PDF

Info

Publication number
CN111767991A
CN111767991A CN202010609039.9A CN202010609039A CN111767991A CN 111767991 A CN111767991 A CN 111767991A CN 202010609039 A CN202010609039 A CN 202010609039A CN 111767991 A CN111767991 A CN 111767991A
Authority
CN
China
Prior art keywords
measurement
control
task
resource
scheduling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010609039.9A
Other languages
English (en)
Other versions
CN111767991B (zh
Inventor
郭茂耘
武艺
唐奇
梁皓星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202010609039.9A priority Critical patent/CN111767991B/zh
Publication of CN111767991A publication Critical patent/CN111767991A/zh
Application granted granted Critical
Publication of CN111767991B publication Critical patent/CN111767991B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06315Needs-based resource requirements planning or analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种基于深度Q学习的测控资源调度方法,属于智能调度领域。该方法包括以下步骤:S1:对复杂测控场景的描述;S2:测控调度性能评价指标设计;S3:测控资源调度方案形成;S4:DQN算法在测控资源调度方案生成中的应用;S5:基于DQN的测控资源调度方法实施。本发明能够在复杂测控环境中,在无需对测控环境进行精确建模的条件下,生成与测控场景相适应的测控资源调度策略,从而达到测控资源调度效能的最大化。

Description

一种基于深度Q学习的测控资源调度方法
技术领域
本发明属于智能调度领域,涉及一种基于深度Q学习的测控资源调度方法。
背景技术
目前,用于解决卫星测控资源调度方法主要有:蚁群算法、粒子群算法、SVM方法等智能算法以及分支定界算法,拉格朗日松弛算法等确定性算法,贪婪算法、邻域搜索算法、模拟退火算法等启发式算法。针对天地一体化测控资源方面的研究相对较少,并且较多的从传统算法的角度进行研究,如拉格朗日松弛算法、蚁群算法、遗传算法,在深度强化学习算法方面的应用相对较少。
本发明主要解决由于测控任务与日俱增所造成的测控资源与测控对象的冲突。从测控资源与测控对象之间的可见性的角度出发,构建基于测控时间窗口的测控场景,利用深度Q学习(DeepQNetwork,DQN)求解测控任务的最佳进行时段,最终形成最优的测控调度方案,实现测控***在特定指标下的最优运行。
发明内容
有鉴于此,本发明的目的在于提供一种基于深度Q学习的测控资源调度方法。针对现有测控任务与测控资源数量冲突日益激烈的现状,考虑在测控资源数量受限情况下,测控任务仍受到测控资源资源与测控对象可见性、测控持续时间、测控任务优先级等多种条件的限制,这使得测控资源的调度成为一个在多种时空约束条件下的复杂组合优化问题。单一种类的测控资源测控业务以及测控范围存在差异性与局限性,而测控任务越来越趋向于复杂多样化,这使得测控调度决策难度不断增加,因而有必要对天地测控资源进行联合调度,实现天地一体化测控资源的综合调度性能最优。
本发明旨在构建一种基于深度强化学习的测控资源调度实现方法,利用深度强化学习实现对天地一体化测控资源的智能调度,对测控***与测控场景进行更精确的抽象与特征提取,寻找到与测控场景适应的测控资源调度方案,以达到完成测控任务和提高测控资源利用综合效能的目的。通过对多约束条件下的资源调度问题的抽象,实现DQN算法的创新应用。
为达到上述目的,本发明提供如下技术方案:
一种基于深度Q学习的测控资源调度方法,该方法包括以下步骤:
S1:对复杂测控场景的描述;
S2:测控调度性能评价指标设计;
S3:测控资源调度方案形成;
S4:DQN算法在测控资源调度方案生成中的应用;
S5:基于DQN的测控资源调度方法实施。
可选的,所述步骤S1具体为:
(1)测控场景中实体的描述
从天地一体化测控***的测控资源的角度出发,对测控场景中的要素进行基于可见时间窗口的描述;
天地一体化测控资源描述为:
RESOURCE={S,TYPE,TS,DS,L,LMAX}
其中,S为天地一体化测控资源的集合,在其中对多类多个测控资源进行统一化编号,S={s1,s2,...sj,...sM};j为测控资源的编号,M为所有测控资源的总的数量;
TYPE表征测控资源的种类,TYPE为1则该测控资源为天基测控资源,TYPE为0则该资源为地基测控资源;
TS表征对于每个测控资源的空闲时间窗口,即当前可用于测控的时间窗口;
TS={TS1,TS2,...TSj,...TSM}
={[tb1(s1),te1(s1)],[tb2(s1),te2(s1)],...,[tb1(s2),te1(s2)],[tb2(s2),te2(s2)].....,....[tb1(sM),te1(sM)]}
TSj表征第j个测控资源的所有可用时间窗口,即空闲时间窗口,tb1(s1)与te1(s1),分别表示第j个测控资源的第1个可见时间窗口的起始时间与终止时间,可见窗口的次序按照时间顺序标记,以此类推;
DS表征测控资源每个空闲时间窗口的长度
Figure BDA0002560215510000021
Figure BDA0002560215510000022
表征第j个测控资源的第k个空闲时间窗口的长度;
LSj表示所有的中低轨卫星对于单个测控资源的占用
Figure BDA0002560215510000023
表示测控任务i对于单个测控资源j的负载占用情况,其中i表征测控任务的编号,n为测控任务的总数目;
L表征所有中低轨卫星对于天地一体化测控资源的占用;具体如下:
Figure BDA0002560215510000031
Figure BDA0002560215510000032
表示所有的测控任务对于单个测控资源j的负载占用情况;
LMAX={LMAX1,LMAX2,...LMAXj,...LMAXM}
LMAXj表示测控资源j最多可以接收的测控任务负载,即测控资源的最大负载;
从测控任务的角度出发,对测控场景中的要素进行基于可见时间窗口的描述;测控任务描述为:
TASK={T,Sat,P,D,TA,TC,TOi}
其中,T为所有测控任务的编号集合,T={T1,T2,...Ti...Tn};
Ti表示测控任务的编号;在这个公式以及以下公式中,i为测控任务的次序,n为测控任务的总的个数;
Sat表征测控任务来源即其对应的任务卫星,Sat={Sat1,Sat2,…Sato}
Sati表示次序为i的测控任务的来源卫星;
P为测控任务的优先级,P={P1,P2,...Pi...Pn},Pi表示次序为i的测控任务的优先级;
D为各测控任务所对应的最短测控时间D={d1,d2,...di...dn);di表示次序为i的测控任务的最短持续时间;
TA表征测控任务可以测控的时间区间
TA={[t1B,t1E],[t2B,t2E],....[tiB,tiE],...[tnB,tnE]};
[tiB,tiE]表示次序为i的测控任务可以进行测控任务的时间窗口,tiB为测控任务的最早开始时间,tiE为测控任务的最晚结束时间;
TC表征任务的实际测控区间
TC={[t1b,t1e],[t2b,t2e],....[tib,tie],...[tnb,tne]};
[tib,tie]表示次序为i的测控任务实际进行的时间窗口,tib为测控任务调度之后的实际开始时间,tie为测控任务实际调度之后的实际结束时间;
Toi描述为各个任务所对应的可见弧段的集合
Figure BDA0002560215510000041
Figure BDA0002560215510000042
表示对于次序为i的测控任务,第m个测控资源对其的第k个可见时间窗口,具体表示为[tb1(sim),te1(sim)],tb1(sim)为该可见窗口的开始时间,te1(sim)为该可见窗口的结束时间;
(2)测控状态设计
测控状态s的设计是依据测控资源的利用情况即在时间空间可视性的基础上,对测控***中的不同的可视状态/可用状态利用可见时间窗口来表达;对于一个特定的测控场景,用能够表征每个测控资源状态的0-1矩阵来作为该测控场景的状态,其大小由测控资源个数与测控时间窗口的划分尺度决定;对于每一个测控资源,按照具体需求确定划分尺度对其每日的工作时间进行划分,并对划分后的测控设备时间区间进行可视状态的标记,其中可视/可用单位时间所对应矩阵状态设置为0,不可视/不可用单位时间所对应矩阵状态设置为1,确定在某一确定时刻的测控设备的使用情况即测控状态;
所述步骤S3具体为:
(3)测控动作的设计
测控动作的设计采用层层递进的决策思路,依次决定是否接受测控任务,接受测控任务的测控资源,接受任务的测控资源具体用于该任务的测控时间区间,测控动作设计为:
Figure BDA0002560215510000043
其中,ai表征是否接受测控任务,type表示接受测控任务的测控资源的类型,xij表征接受测控任务的测控资源编号,yjk表示用资源j的第k个可见时间窗口执行测控任务,tib表征测控任务的实际开始时间。
可选的,所述步骤S2具体为:
设计一个将测控任务完成度、测控资源利用均衡度、测控资源负载均衡度三个指标考虑在内的综合性的测控性能评价指标,用于DQN算法在测控调度中应用的决策依据;测控资源调度期望得到使这一综合评价指标最大的调度策略;
将测控资源调度性能评价指标设为r=sR*RUR/load;
其中,sR表征测控任务的满足度,load表征测控资源利用的均衡度,RUR表征所有测控资源的平均利用率;
测控任务的满足度:
Figure BDA0002560215510000051
Figure BDA0002560215510000052
测控资源负载均衡度:
Figure BDA0002560215510000053
测控资源的平均利用率:
Figure BDA0002560215510000054
可选的,所述步骤S3具体为:
依据S1中对测控动作的设计,测控调度方案的形成也主要包括确定是否接受测控任务,确定进行测控任务的测控资源,确定测控任务完成的测控弧段三个方面;
具体地:依据可见时间窗口即可见弧段为测控状态的建模依据,针对特定测控任务,通过判断是否存在测控任务的可见时间窗口来确定是否接受测控任务;在对测控场景进行建模的过程中,对测控资源以及测控任务都进行了统一的编号,针对具体的测控任务,求解符合条件的可见弧段,并依据可见弧段与测控资源的对应关系,即确定完成测控任务的资源类型与编号;
在测控状态的设计中,将测控任务对应的可见弧段进行离散化,依据测控任务的可能开始时间在选定的可见弧段上进行测控弧段的滑动,确定最佳的能够完成任务的测控弧段。
可选的,所述步骤S4具体为:
(1)当前时刻的任务状态发生变化,测控资源的可见时间窗口发生变化,则***的测控状态发生变化;
(2)更新测控环境,提取场景特征,更新***的测控状态;
(3)依据深度强化学习算法的动作选取规则,选定测控动作的决策策略,从而将测控资源与测控任务在时间和空间上的匹配,完成对测控任务的实现;
(4)针对上述选定的测控策略引起的测控环境以及测控状态的更新,对其测控调度的结果进行评估反馈;
(5)根据对测控策略的评估反馈结果,利用深度强化学习网络对测控决策策略进行更新,并观测测控场景及测控状态的更新;
经过循环往复的算法更新,实现对测控资源分配策略的选择与优化,实现最优测控调度策略的选取。
可选的,所述步骤S5具体为:
(1)对测控场景进行描述,明确场景中的基本物理要素;基于实际物理场景,对测控调度的DQN方法中所涉及的相关要素进行整理与总结,明确测控状态、测控动作、测控动作奖励和测控方案基本要素的构成;
(2)深度Q学习测控资源调度网络的初始化,根据实际容量需求初始化其记忆库,并初始化网络参数,包括学习率、折扣因子以及描述Q值的实际值神经网络与目标值神经网络的结构与参数;
(3)依据测控场景模型进行测控状态s的设计并初始化测控调度网络输入,并计算相应输出;以概率ε随机选择测控动作,以概率1-ε通过测控调度网络输出的Q值选择测控动作,即ε-greedy贪婪策略,并在测控资源调度网络中执行相应的测控动作;得到动作执行之后的奖励r,即测控动作的评价指标以及下一个动作执行前的测控状态即下一时刻的测控状态si+1;根据当前选择的测控动作以及当前状态计算测控调度网络中实际值神经网络和当前值神经网络的下一个时刻的Q值,即实际Q值与估计的Q值;
(4)将四个参数(si,Xi,ri,si+1)作为一个样本一起存入记忆库中;
(5)随机从记忆库中取出一定数量个样本状态,并计算每一个状态的目标值,通过执行后的reward更新Q值作为目标值;通过随机梯度下降法更新实际值神经网络参数,每N次对实际值神经网络参数迭代更新之后,将实际值神经网络中的当前参数赋值给目标值神经网络,从而实现测控调度网络中目标值神经网络参数的更新;不断更新参数来进行测控调度网络的训练;
(6)经过循环往复的算法更新,实现对测控资源分配策略的选择与优化,实现最优测控调度策略的选取;完成测控资源调度流程。
本发明的有益效果在于:能够在复杂测控环境中,在无需对测控环境进行精确建模的条件下,生成与测控场景相适应的测控资源调度策略,从而达到测控资源调度效能的最大化。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为测控状态设计示意图;
图2为测控资源调度方案形成流程图;
图3为基于DQN的测控资源调度决策流程;
图4为实施例中测控状态示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1~图4,为一种基于深度Q学习的测控资源调度方法。
本发明涉及一种基于DQN算法的测控资源调度方法,主要通过构建基于测控资源与测控对象之间可见窗口的测控场景,利用DQN算法中神经网络强大的模型描述能力对测控动作的长期奖励进行刻画,并利用其中的记忆回放机制的方式打破数据之间的关联性,从而通过与测控场景的交互来学习评价当前状态的好坏来学习最优策略,适应复杂的测控资源调度环境。该方法的技术方案具体如下:
1.对复杂测控场景的描述
本方法所涉及复杂测控场景中,测控资源主要指天一体化测控资源,即地基测控资源与天基测控资源,其中地基测控资源主要针对地面站,天基测控资源主要考虑跟踪与数据中继卫星。测控资源的类型通过类型变量进行明确。测控场景的描述主要基于测控资源与测控对象的可见状态以及可见时间窗口的描述来进行。具体的,通过对测控场景中各个物理实体进行抽象表达(包括对其中的测控任务以及相关约束条件的描述)以及对测控状态、测控动作的设计完成对复杂测控场景的描述。
(1)测控场景中实体的描述
从天地一体化测控***的测控资源的角度出发,对测控场景中的要素进行基于可见时间窗口的描述。
天地一体化测控资源可描述为:
RESOURCE={S,TYPE,TS,DS,L,LMAX}
其中,S为天地一体化测控资源的集合,在其中对多类多个测控资源进行统一化编号,S={s1,s2,...sj,...sM};在本公式以及下述公式中,j为测控资源的编号,M为所有测控资源的总的数量。
TYPE表征测控资源的种类,TYPE为1则该测控资源为天基测控资源,TYPE为0则该资源为地基测控资源;
TS表征对于每个测控资源的空闲时间窗口(即当前可用于测控的时间窗口);
TS={TS1,TS2,...TSj,...TSM}
={[tb1(s1),te1(s1)],[tb2(s1),te2(s1)],...,[tb1(s2),te1(s2)],[tb2(s2),te2(s2)].....,....[tb1(sM),te1(sM)]}
TSj表征第j个测控资源的所有可用时间窗口(即空闲时间窗口),tb1(s1)与te1(s1),分别表示第j个测控资源的第1个可见时间窗口的起始时间与终止时间,可见窗口的次序按照时间顺序标记。以此类推。
DS表征测控资源每个空闲时间窗口的长度
Figure BDA0002560215510000081
表征第j个测控资源的第k个空闲时间窗口的长度。
LSj表示所有的中低轨卫星对于单个测控资源的占用
Figure BDA0002560215510000082
表示测控任务i对于单个测控资源j的负载占用情况,其中i表征测控任务的编号,n为测控任务的总数目。
L表征所有中低轨卫星对于天地一体化测控资源的占用。具体如下:
Figure BDA0002560215510000091
LSj表示所有的测控任务对于单个测控资源j的负载占用情况。
LMAX={LMAX1,LMAX2,...LMAXj,...LMAXM}
LMAXj表示测控资源j最多可以接收的测控任务负载,即测控资源的最大负载。
从测控任务的角度出发,对测控场景中的要素进行基于可见时间窗口的描述。测控任务可以描述为:
TASK={T,Sat,P,D,TA,TC,TOi}
其中,T为所有测控任务的编号集合,T={T1,T2,...Ti...Tn}
Ti表示测控任务的编号。在这个公式以及以下公式中,i为测控任务的次序,n为测控任务的总的个数。
Sat表征测控任务来源即其对应的任务卫星,Sat={Sat1,Sat2,…Sato}
Sati表示次序为i的测控任务的来源卫星。
P为测控任务的优先级,P={P1,P2,...Pi...Pn},Pi表示次序为i的测控任务的优先级。
D为各测控任务所对应的最短测控时间D={d1,d2,...di...dn);di表示次序为i的测控任务的最短持续时间。
TA表征测控任务可以测控的时间区间
TA={[t1B,t1E],[t2B,t2E],....[tiB,tiE],...[tnB,tnE]};
[tiB,tiE]表示次序为i的测控任务可以进行测控任务的时间窗口,tiB为测控任务的最早开始时间,tiE为测控任务的最晚结束时间。
TC表征任务的实际测控区间
TC={[t1b,t1e],[t2b,t2e],....[tib,tie],...[tnb,tne]};
[tib,tie]表示次序为i的测控任务实际进行的时间窗口,tib为测控任务调度之后的实际开始时间,tie为测控任务实际调度之后的实际结束时间。
Toi描述为各个任务所对应的可见弧段的集合
Figure BDA0002560215510000101
Figure BDA0002560215510000102
表示对于次序为i的测控任务,第m个测控资源对其的第k个可见时间窗口,具体可表示为[tb1(sim),te1(sim)],tb1(sim)为该可见窗口的开始时间,te1(sim)为该可见窗口的结束时间。
(2)测控状态设计
测控状态s的设计是依据测控资源的利用情况即在时间空间可视性的基础上,对测控***中的不同的可视状态/可用状态利用可见时间窗口来表达。如图1所示,对于一个特定的测控场景,用能够表征每个测控资源状态的0-1矩阵来作为该测控场景的状态,其大小由测控资源个数与测控时间窗口的划分尺度决定。对于每一个测控资源,按照具体需求确定划分尺度对其每日的工作时间进行划分,并对划分后的测控设备时间区间进行可视状态的标记,其中可视/可用单位时间所对应矩阵状态设置为0,不可视/不可用单位时间所对应矩阵状态设置为1,由此确定在某一确定时刻的测控设备的使用情况即测控状态。
(3)测控动作的设计
测控动作的设计采用层层递进的决策思路,依次决定是否接受测控任务,接受测控任务的测控资源,接受任务的测控资源具体用于该任务的测控时间区间,因此,测控动作设计为:
Figure BDA0002560215510000103
其中,ai表征是否接受测控任务,type表示接受测控任务的测控资源的类型,xij表征接受测控任务的测控资源编号,yjk表示用资源j的第k个可见时间窗口执行测控任务,tib表征测控任务的实际开始时间。
2.测控调度性能评价指标设计
本方法中,设计一个将测控任务完成度、测控资源利用均衡度、测控资源负载均衡度三个指标考虑在内的综合性的测控性能评价指标,用于DQN算法在测控调度中应用的决策依据。测控资源调度期望得到使这一综合评价指标最大的调度策略。
具体地,将测控资源调度性能评价指标设为r=sR*RUR/load。
其中,sR表征测控任务的满足度,load表征测控资源利用的均衡度,RUR表征所有测控资源的平均利用率。
测控任务的满足度:
Figure BDA0002560215510000111
Figure BDA0002560215510000112
测控资源负载均衡度:
Figure BDA0002560215510000113
测控资源的平均利用率:
Figure BDA0002560215510000114
3.测控资源调度方案形成
依据1中对测控动作的设计,测控调度方案的形成也主要包括确定是否接受测控任务,确定进行测控任务的测控资源,确定测控任务完成的测控弧段三个方面。具体地:本发明主要依据可见时间窗口即可见弧段为测控状态的建模依据,因此,针对特定测控任务,通过判断是否存在测控任务的可见时间窗口来确定是否接受测控任务。在对测控场景进行建模的过程中,对测控资源以及测控任务都进行了统一的编号,因此,针对具体的测控任务,求解符合条件的可见弧段,并依据可见弧段与测控资源的对应关系,即可确定完成测控任务的资源类型与编号。在测控状态的设计中,将测控任务对应的可见弧段进行离散化,因此本发明依据测控任务的可能开始时间在选定的可见弧段上进行测控弧段的滑动,确定最佳的能够完成任务的测控弧段。
因此,测控资源调度方案形成流程如图2所示:
4.DQN算法在测控资源调度方案生成中的应用
在本文所述方法中,基于深度强化学习框架以及DQN的学习原理,可构建如下的测控资源调度决策流程,从而选择出测控效能最优的测控资源调度策略。
实施步骤可以概括为:
(1)当前时刻的任务状态发生变化,测控资源的可见时间窗口发生变化,则***的测控状态发生变化。
(2)更新测控环境,提取场景特征,更新***的测控状态。
(3)依据深度强化学习算法的动作选取规则,选定测控动作的决策策略,从而将测控资源与测控任务在时间和空间上的匹配,完成对测控任务的实现。
(4)针对上述选定的测控策略引起的测控环境以及测控状态的更新,对其测控调度的结果进行评估反馈。
(5)根据对测控策略的评估反馈结果,利用深度强化学习网络对测控决策策略进行更新,并观测测控场景及测控状态的更新。
经过循环往复的算法更新,实现对测控资源分配策略的选择与优化,实现最优测控调度策略的选取。
5.基于DQN的测控资源调度方法实施流程
(1)对测控场景进行描述,明确场景中的基本物理要素。基于实际物理场景,对测控调度的DQN方法中所涉及的相关要素进行整理与总结,明确测控状态、测控动作、测控动作奖励、测控方案等基本要素的构成。
(2)深度Q学习测控资源调度网络的初始化,根据实际容量需求初始化其记忆库,并初始化网络参数,包括学习率、折扣因子以及描述Q值的实际值神经网络与目标值神经网络的结构与参数。
(3)依据测控场景模型进行测控状态s的设计并初始化测控调度网络输入,并计算相应输出。以概率ε随机选择测控动作,以概率1-ε通过测控调度网络输出的Q值选择测控动作(即ε-greedy贪婪策略),并在测控资源调度网络中执行相应的测控动作。得到动作执行之后的奖励r(即测控动作的评价指标)以及下一个动作执行前的测控状态即下一时刻的测控状态si+1。根据当前选择的测控动作以及当前状态计算测控调度网络中实际值神经网络和当前值神经网络的下一个时刻的Q值,即实际Q值与估计的Q值。
(4)将四个参数(si,Xi,ri,si+1)作为一个样本一起存入记忆库中。
(5)随机从记忆库中取出一定数量个样本状态,并计算每一个状态的目标值(通过执行后的reward更新Q值作为目标值)。通过随机梯度下降法更新实际值神经网络参数,每N次对实际值神经网络参数迭代更新之后,将实际值神经网络中的当前参数赋值给目标值神经网络,从而实现测控调度网络中目标值神经网络参数的更新。不断更新参数来进行测控调度网络的训练。
(6)经过循环往复的算法更新,实现对测控资源分配策略的选择与优化,实现最优测控调度策略的选取。完成测控资源调度流程。
实施例:
1.对复杂测控场景进行描述。以2个地基测控资源、1个天基测控资源,并需要完成9个测控任务的测控场景为例,对测控资源场景进行初始化以及统一化的描述。依据实际测控场景,从天地一体化测控资源的角度出发,可以将测控场景描述为以下形式:
天地一体化测控***的测控资源为:
RESOURCE={S,TYPE,TS,DS,L,LMAX}
其中,S为天地一体化测控资源的集合,S={s1,s2,...sj,...sM}
TYPE表征测控资源的种类,TYPE为1则该测控资源为天基测控资源,TYPE为0则该资源为地基测控资源;
TS表征对于每个测控资源的空闲时间窗口(即当前可用于测控的时间窗口),
TS={TS1,TS2,...TSj,...TSM};
={[tb1(s1),te1(s1)],[tb2(s1),te2(s1)],...,[tb1(s2),te1(s2)],[tb2(s2),te2(s2)].....,....[tb1(sM),te1(sM)]}
DS表征测控资源每个空闲时间窗口的长度
Figure BDA0002560215510000131
LSj表示所有的中低轨卫星对于单个测控资源的占用
Figure BDA0002560215510000134
L表征所有中低轨卫星对于天地一体化测控资源的占用。具体如下:
L={LS1,LS2,...,LSj,...LSM}
={L1,L2,...Li,...Ln}
从测控任务的角度出发,对测控场景中的要素进行基于可见时间窗口的描述为:
TASK={T,Sat,P,D,TA,TC,TOi}
其中,T为所有中低轨卫星的测控任务的集合,T={T1,T2,...Ti...Tn}
Sat表征测控任务来源即其对应的任务卫星,Sat={Sat1,Sat2,…Sato}
P为测控任务的优先级,P={P1,P2,...Pi...Pn}
D为各测控任务所对应的最短测控时间D={d1,d2,...di...dn);
TA表征测控任务可以测控的时间区间TA={[t1B,t1E],[t2B,t2E],....[tiB,tiE],...[tnB,tnE]},
TC表征任务的实际测控区间TC={[t1b,t1e],[t2b,t2e],....[tib,tie],...[tnb,tne]},
Toi描述为各个任务所对应的可见弧段的集合
Figure BDA0002560215510000133
依据测控场景模型进行测控状态s的设计,对于一个特定的测控场景,由能够表征每个测控资源状态的0-1矩阵来作为该测控场景的测控状态。以1h为划分尺度为例,在该测控场景下,共有3个测控资源,故对于每一天,其测控状态矩阵大小为3×24,并且其中可视/可用单位时间所对应矩阵状态设置为0,不可视/不可用单位时间所对应矩阵状态设置为1。据此,在该情形下,测控状态可由以图4形象化描述。
测控动作即决策变量描述为:
Figure BDA0002560215510000141
其中,ai表征是否接受测控任务,type表示接受测控任务的测控资源的类型,xij表征接受测控任务的测控资源编号,yjk表示用资源j的第k个可见时间窗口执行测控任务,tib表征测控任务的实际开始时间。
测控调度性能评价指标表示为r=sR*RUR/load,综合评价测控资源调度性能,其中,sR表征测控任务的满足度,load表征测控资源利用的均衡度,RUR表征所有测控资源的平均利用率。
2.依据测控场景需求,构造卷积神经网络对测控资源调度网络中的Q值进行描述,其中实际值神经网络与目标值神经网络分别为结构相同、参数不完全相同的两个卷积神经网络,卷积神经网络包含2个卷积层和1个全连接层,采用sigmoid函数作为其激活函数。深度Q学习测控资源调度网络的初始化过程中,根据实际容量需求初始化其记忆库,并初始化网络参数,包括学习率、折扣因子以及描述Q值的实际值神经网络与目标值神经网络的相关参数。
3.依据1中测控场景的具体描述,对测控状态、测控动作、测控动作奖励、测控方案进行进一步细化。在此基础上,依据测控场景模型进行测控状态s的设计并初始化测控调度网络输入,并计算相应输出。以概率ε随机选择测控动作,以概率1-ε通过测控调度网络输出的Q值选择测控动作(即ε-greedy贪婪策略),并在测控资源调度网络中执行相应的动作。得到动作执行之后的奖励r以及下一个动作执行前的测控状态即下一时刻的测控状态si+1。根据当前选择的测控动作以及当前状态计算测控调度网络中实际值神经网络和当前值神经网络的下一个时刻的Q值。
4.将四个参数(si,Xi,ri,si+1)作为一个样本一起存入记忆库中。
5.随机从记忆库中取出一定数量个样本状态,并计算每一个状态的目标值(通过执行后的reward更新Q值作为目标值)。通过随机梯度下降法更新实际值神经网络参数,每N次对实际值神经网络参数迭代更新之后,将实际值神经网络中的当前参数赋值给目标值神经网络,从而实现测控调度网络中目标值神经网络参数的更新。
不断更新参数来进行测控调度网络的训练。
6.经过循环往复的算法更新,实现对测控资源分配策略的选择与优化,实现最优测控调度策略的选取。完成测控资源调度流程。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种基于深度Q学习的测控资源调度方法,其特征在于:该方法包括以下步骤:
S1:对复杂测控场景的描述;
S2:测控调度性能评价指标设计;
S3:测控资源调度方案形成;
S4:DQN算法在测控资源调度方案生成中的应用;
S5:基于DQN的测控资源调度方法实施。
2.根据权利要求1所述的一种基于深度Q学习的测控资源调度方法,其特征在于:所述步骤S1具体为:
(1)测控场景中实体的描述
从天地一体化测控***的测控资源的角度出发,对测控场景中的要素进行基于可见时间窗口的描述;
天地一体化测控资源描述为:
RESOURCE={S,TYPE,TS,DS,L,LMAX}
其中,S为天地一体化测控资源的集合,在其中对多类多个测控资源进行统一化编号,S={s1,s2,...sj,...sM};j为测控资源的编号,M为所有测控资源的总的数量;
TYPE表征测控资源的种类,TYPE为1则该测控资源为天基测控资源,TYPE为0则该资源为地基测控资源;
TS表征对于每个测控资源的空闲时间窗口,即当前可用于测控的时间窗口;
TS={TS1,TS2,...TSj,...TSM}
={[tb1(s1),te1(s1)],[tb2(s1),te2(s1)],...,[tb1(s2),te1(s2)],[tb2(s2),te2(s2)].....,....[tb1(sM),te1(sM)]}
TSj表征第j个测控资源的所有可用时间窗口,即空闲时间窗口,tb1(s1)与te1(s1),分别表示第j个测控资源的第1个可见时间窗口的起始时间与终止时间,可见窗口的次序按照时间顺序标记,以此类推;
DS表征测控资源每个空闲时间窗口的长度
Figure FDA0002560215500000011
Figure FDA0002560215500000012
表征第j个测控资源的第k个空闲时间窗口的长度;
LSj表示所有的中低轨卫星对于单个测控资源的占用
Figure FDA0002560215500000014
Figure FDA0002560215500000013
表示测控任务i对于单个测控资源j的负载占用情况,其中i表征测控任务的编号,n为测控任务的总数目;
L表征所有中低轨卫星对于天地一体化测控资源的占用;具体如下:
Figure FDA0002560215500000021
LSj表示所有的测控任务对于单个测控资源j的负载占用情况;
LMAX={LMAX1,LMAX2,...LMAXj,...LMAXM}
LMAXj表示测控资源j最多可以接收的测控任务负载,即测控资源的最大负载;
从测控任务的角度出发,对测控场景中的要素进行基于可见时间窗口的描述;测控任务描述为:
TASK={T,Sat,P,D,TA,TC,TOi}
其中,T为所有测控任务的编号集合,T={T1,T2,...Ti...Tn};
Ti表示测控任务的编号;在这个公式以及以下公式中,i为测控任务的次序,n为测控任务的总的个数;
Sat表征测控任务来源即其对应的任务卫星,Sat={Sat1,Sat2,…Sato}
Sati表示次序为i的测控任务的来源卫星;
P为测控任务的优先级,P={P1,P2,...Pi...Pn},Pi表示次序为i的测控任务的优先级;
D为各测控任务所对应的最短测控时间D={d1,d2,...di...dn);di表示次序为i的测控任务的最短持续时间;
TA表征测控任务可以测控的时间区间
TA={[t1B,t1E],[t2B,t2E],....[tiB,tiE],...[tnB,tnE]};
[tiB,tiE]表示次序为i的测控任务可以进行测控任务的时间窗口,tiB为测控任务的最早开始时间,tiE为测控任务的最晚结束时间;
TC表征任务的实际测控区间
TC={[t1b,t1e],[t2b,t2e],....[tib,tie],...[tnb,tne]};
[tib,tie]表示次序为i的测控任务实际进行的时间窗口,tib为测控任务调度之后的实际开始时间,tie为测控任务实际调度之后的实际结束时间;
Toi描述为各个任务所对应的可见弧段的集合
Figure FDA0002560215500000031
Figure FDA0002560215500000032
表示对于次序为i的测控任务,第m个测控资源对其的第k个可见时间窗口,具体表示为[tb1(sim),te1(sim)],tb1(sim)为该可见窗口的开始时间,te1(sim)为该可见窗口的结束时间;
(2)测控状态设计
测控状态s的设计是依据测控资源的利用情况即在时间空间可视性的基础上,对测控***中的不同的可视状态/可用状态利用可见时间窗口来表达;对于一个特定的测控场景,用能够表征每个测控资源状态的0-1矩阵来作为该测控场景的状态,其大小由测控资源个数与测控时间窗口的划分尺度决定;对于每一个测控资源,按照具体需求确定划分尺度对其每日的工作时间进行划分,并对划分后的测控设备时间区间进行可视状态的标记,其中可视/可用单位时间所对应矩阵状态设置为0,不可视/不可用单位时间所对应矩阵状态设置为1,确定在某一确定时刻的测控设备的使用情况即测控状态;
所述步骤S3具体为:
(3)测控动作的设计
测控动作的设计采用层层递进的决策思路,依次决定是否接受测控任务,接受测控任务的测控资源,接受任务的测控资源具体用于该任务的测控时间区间,测控动作设计为:
Figure FDA0002560215500000033
其中,ai表征是否接受测控任务,type表示接受测控任务的测控资源的类型,xij表征接受测控任务的测控资源编号,yjk表示用资源j的第k个可见时间窗口执行测控任务,tib表征测控任务的实际开始时间。
3.根据权利要求1所述的一种基于深度Q学习的测控资源调度方法,其特征在于:所述步骤S2具体为:
设计一个将测控任务完成度、测控资源利用均衡度、测控资源负载均衡度三个指标考虑在内的综合性的测控性能评价指标,用于DQN算法在测控调度中应用的决策依据;测控资源调度期望得到使这一综合评价指标最大的调度策略;
将测控资源调度性能评价指标设为r=sR*RUR/load;
其中,sR表征测控任务的满足度,load表征测控资源利用的均衡度,RUR表征所有测控资源的平均利用率;
测控任务的满足度:
Figure FDA0002560215500000041
Figure FDA0002560215500000042
测控资源负载均衡度:
Figure FDA0002560215500000043
测控资源的平均利用率:
Figure FDA0002560215500000044
4.根据权利要求1所述的一种基于深度Q学习的测控资源调度方法,其特征在于:所述步骤S3具体为:
依据S1中对测控动作的设计,测控调度方案的形成也主要包括确定是否接受测控任务,确定进行测控任务的测控资源,确定测控任务完成的测控弧段三个方面;
具体地:依据可见时间窗口即可见弧段为测控状态的建模依据,针对特定测控任务,通过判断是否存在测控任务的可见时间窗口来确定是否接受测控任务;在对测控场景进行建模的过程中,对测控资源以及测控任务都进行了统一的编号,针对具体的测控任务,求解符合条件的可见弧段,并依据可见弧段与测控资源的对应关系,即确定完成测控任务的资源类型与编号;
在测控状态的设计中,将测控任务对应的可见弧段进行离散化,依据测控任务的可能开始时间在选定的可见弧段上进行测控弧段的滑动,确定最佳的能够完成任务的测控弧段。
5.根据权利要求1所述的一种基于深度Q学习的测控资源调度方法,其特征在于:所述步骤S4具体为:
(1)当前时刻的任务状态发生变化,测控资源的可见时间窗口发生变化,则***的测控状态发生变化;
(2)更新测控环境,提取场景特征,更新***的测控状态;
(3)依据深度强化学习算法的动作选取规则,选定测控动作的决策策略,从而将测控资源与测控任务在时间和空间上的匹配,完成对测控任务的实现;
(4)针对上述选定的测控策略引起的测控环境以及测控状态的更新,对其测控调度的结果进行评估反馈;
(5)根据对测控策略的评估反馈结果,利用深度强化学习网络对测控决策策略进行更新,并观测测控场景及测控状态的更新;
经过循环往复的算法更新,实现对测控资源分配策略的选择与优化,实现最优测控调度策略的选取。
6.根据权利要求1所述的一种基于深度Q学习的测控资源调度方法,其特征在于:所述步骤S5具体为:
(1)对测控场景进行描述,明确场景中的基本物理要素;基于实际物理场景,对测控调度的DQN方法中所涉及的相关要素进行整理与总结,明确测控状态、测控动作、测控动作奖励和测控方案基本要素的构成;
(2)深度Q学习测控资源调度网络的初始化,根据实际容量需求初始化其记忆库,并初始化网络参数,包括学习率、折扣因子以及描述Q值的实际值神经网络与目标值神经网络的结构与参数;
(3)依据测控场景模型进行测控状态s的设计并初始化测控调度网络输入,并计算相应输出;以概率ε随机选择测控动作,以概率1-ε通过测控调度网络输出的Q值选择测控动作,即ε-greedy贪婪策略,并在测控资源调度网络中执行相应的测控动作;得到动作执行之后的奖励r,即测控动作的评价指标以及下一个动作执行前的测控状态即下一时刻的测控状态si+1;根据当前选择的测控动作以及当前状态计算测控调度网络中实际值神经网络和当前值神经网络的下一个时刻的Q值,即实际Q值与估计的Q值;
(4)将四个参数(si,Xi,ri,si+1)作为一个样本一起存入记忆库中;
(5)随机从记忆库中取出一定数量个样本状态,并计算每一个状态的目标值,通过执行后的reward更新Q值作为目标值;通过随机梯度下降法更新实际值神经网络参数,每N次对实际值神经网络参数迭代更新之后,将实际值神经网络中的当前参数赋值给目标值神经网络,从而实现测控调度网络中目标值神经网络参数的更新;不断更新参数来进行测控调度网络的训练;
(6)经过循环往复的算法更新,实现对测控资源分配策略的选择与优化,实现最优测控调度策略的选取;完成测控资源调度流程。
CN202010609039.9A 2020-06-29 2020-06-29 一种基于深度q学习的测控资源调度方法 Active CN111767991B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010609039.9A CN111767991B (zh) 2020-06-29 2020-06-29 一种基于深度q学习的测控资源调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010609039.9A CN111767991B (zh) 2020-06-29 2020-06-29 一种基于深度q学习的测控资源调度方法

Publications (2)

Publication Number Publication Date
CN111767991A true CN111767991A (zh) 2020-10-13
CN111767991B CN111767991B (zh) 2023-08-15

Family

ID=72724129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010609039.9A Active CN111767991B (zh) 2020-06-29 2020-06-29 一种基于深度q学习的测控资源调度方法

Country Status (1)

Country Link
CN (1) CN111767991B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113613332A (zh) * 2021-07-14 2021-11-05 广东工业大学 基于协作分布式dqn联合模拟退火算法的频谱资源分配方法和***
CN113779856A (zh) * 2021-09-15 2021-12-10 成都中科合迅科技有限公司 一种面向电子***功能在线重组的离散微粒群算法建模方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140277599A1 (en) * 2013-03-13 2014-09-18 Oracle International Corporation Innovative Approach to Distributed Energy Resource Scheduling
CN107798388A (zh) * 2017-11-23 2018-03-13 航天天绘科技有限公司 基于Multi‑Agent与DNN的测控资源调度分配的方法
CN109388484A (zh) * 2018-08-16 2019-02-26 广东石油化工学院 一种基于Deep Q-network算法的多资源云作业调度方法
CN109409763A (zh) * 2018-11-08 2019-03-01 北京航空航天大学 一种基于贪婪式分组策略的动态测试任务调度方法及调度平台
CN109542613A (zh) * 2017-09-22 2019-03-29 中兴通讯股份有限公司 一种cdn节点内服务调度的分配方法、装置及存储介质
CN109729586A (zh) * 2017-10-30 2019-05-07 上海诺基亚贝尔股份有限公司 基于窗口的调度方法、设备和计算机可读介质
CN109960544A (zh) * 2019-03-26 2019-07-02 中国人民解放军国防科技大学 基于数据驱动型敏捷卫星任务并行调度方法
CN110781614A (zh) * 2019-12-06 2020-02-11 北京工业大学 基于深度强化学习的舰载机出动回收在线调度方法
CN111026549A (zh) * 2019-11-28 2020-04-17 国网甘肃省电力公司电力科学研究院 一种电力信息通信设备自动化测试资源调度方法
CN111026548A (zh) * 2019-11-28 2020-04-17 国网甘肃省电力公司电力科学研究院 一种逆向深度强化学习的电力通信设备测试资源调度方法
CN111162831A (zh) * 2019-12-24 2020-05-15 中国科学院遥感与数字地球研究所 地面站资源调度方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140277599A1 (en) * 2013-03-13 2014-09-18 Oracle International Corporation Innovative Approach to Distributed Energy Resource Scheduling
CN109542613A (zh) * 2017-09-22 2019-03-29 中兴通讯股份有限公司 一种cdn节点内服务调度的分配方法、装置及存储介质
CN109729586A (zh) * 2017-10-30 2019-05-07 上海诺基亚贝尔股份有限公司 基于窗口的调度方法、设备和计算机可读介质
CN107798388A (zh) * 2017-11-23 2018-03-13 航天天绘科技有限公司 基于Multi‑Agent与DNN的测控资源调度分配的方法
CN109388484A (zh) * 2018-08-16 2019-02-26 广东石油化工学院 一种基于Deep Q-network算法的多资源云作业调度方法
CN109409763A (zh) * 2018-11-08 2019-03-01 北京航空航天大学 一种基于贪婪式分组策略的动态测试任务调度方法及调度平台
CN109960544A (zh) * 2019-03-26 2019-07-02 中国人民解放军国防科技大学 基于数据驱动型敏捷卫星任务并行调度方法
CN111026549A (zh) * 2019-11-28 2020-04-17 国网甘肃省电力公司电力科学研究院 一种电力信息通信设备自动化测试资源调度方法
CN111026548A (zh) * 2019-11-28 2020-04-17 国网甘肃省电力公司电力科学研究院 一种逆向深度强化学习的电力通信设备测试资源调度方法
CN110781614A (zh) * 2019-12-06 2020-02-11 北京工业大学 基于深度强化学习的舰载机出动回收在线调度方法
CN111162831A (zh) * 2019-12-24 2020-05-15 中国科学院遥感与数字地球研究所 地面站资源调度方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
BERND WASCHNECK等: "Optimization of global production scheduling with deep reinforcement learning", 《51ST CIRP CONFERENCE ON MANUFACTURING SYSTEMS》, vol. 72, pages 1264 - 1269 *
XIAOYU CHEN等: "A mixed integer linear programming model for multi-satellite scheduling", 《EUROPEAN JOURNAL OF OPERATIONAL RESEARCH》, vol. 275, no. 2, pages 694 - 707 *
YI WU等: "A TT&C Resources Schedule Method Based on Markov Decision Process", 《PROCEEDINGS OF 2018 CHINESE INTELLIGENT SYSTEMS CONFERENCE》, pages 815 - 825 *
刘冰雁等: "基于改进DQN的复合模式在轨服务资源分配", 《航空学报》, vol. 41, no. 5, pages 1 - 9 *
康宁等: "基于任务开始时刻的天地基测控资源调度模型", 《装备指挥技术学院学报》, vol. 22, no. 6, pages 97 - 101 *
张天骄等: "基于混合蚁群优化的天地一体化调度方法", 《***工程与电子技术》, vol. 38, no. 7, pages 1555 - 1562 *
武艺: "基于深度强化学习的多星测控资源调度方法研究", 《中国优秀硕士学位论文全文数据库 工程科技II辑》, no. 2022, pages 031 - 341 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113613332A (zh) * 2021-07-14 2021-11-05 广东工业大学 基于协作分布式dqn联合模拟退火算法的频谱资源分配方法和***
CN113613332B (zh) * 2021-07-14 2023-06-09 广东工业大学 基于协作分布式dqn联合模拟退火算法的频谱资源分配方法和***
CN113779856A (zh) * 2021-09-15 2021-12-10 成都中科合迅科技有限公司 一种面向电子***功能在线重组的离散微粒群算法建模方法
CN113779856B (zh) * 2021-09-15 2023-06-27 成都中科合迅科技有限公司 一种面向电子***功能在线重组的离散微粒群算法建模方法

Also Published As

Publication number Publication date
CN111767991B (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
Li et al. Prediction for tourism flow based on LSTM neural network
CN112685165B (zh) 一种基于联合强化学习策略的多目标云工作流调度方法
CN112231091B (zh) 一种基于强化学习策略的并行云工作流调度方法
WO2021027153A1 (zh) 交通流数据分析模型的构建方法和装置
CN111371644B (zh) 基于gru的多域sdn网络流量态势预测方法及***
Liao et al. Accurate sub-swarms particle swarm optimization algorithm for service composition
CN104539601B (zh) 动态网络攻击过程可靠性分析方法及***
CN112631717A (zh) 基于异步强化学习的网络服务功能链动态部署***及方法
CN113784410B (zh) 基于强化学习td3算法的异构无线网络垂直切换方法
CN115115389B (zh) 一种基于价值细分和集成预测的快递客户流失预测方法
CN114330863A (zh) 时间序列预测处理方法、装置、存储介质及电子装置
CN111767991A (zh) 一种基于深度q学习的测控资源调度方法
CN114896899B (zh) 一种基于信息交互的多智能体分散式决策方法及***
CN110098964A (zh) 一种基于蚁群算法的部署优化方法
CN113887748B (zh) 在线联邦学习任务分配方法、装置、联邦学习方法及***
CN110263136B (zh) 基于强化学习模型向用户推送对象的方法和装置
CN104217296A (zh) 一种上市公司绩效综合评价方法
CN117077511A (zh) 一种基于改进萤火虫算法和svr的多元负荷预测方法、装置及存储介质
CN111046156A (zh) 奖励数据的确定方法、装置和服务器
Lu et al. AI-assisted resource advertising and pricing to realize distributed tenant-driven virtual network slicing in inter-DC optical networks
Liu et al. 5G/B5G Network Slice Management via Staged Reinforcement Learning
Abdi et al. Long-term load forecasting based on gravitational search algorithm
Mueller Multi-objective optimization of software architectures using ant colony optimization
Quan et al. Dynamic service selection based on user feedback in the IoT environment
CN116070714B (zh) 基于联邦学习和神经架构搜索的云边协同训练方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant