CN114356535A - 无线传感器网络的资源管理方法和装置 - Google Patents

无线传感器网络的资源管理方法和装置 Download PDF

Info

Publication number
CN114356535A
CN114356535A CN202210255790.2A CN202210255790A CN114356535A CN 114356535 A CN114356535 A CN 114356535A CN 202210255790 A CN202210255790 A CN 202210255790A CN 114356535 A CN114356535 A CN 114356535A
Authority
CN
China
Prior art keywords
wireless sensor
sensor network
agent
reward
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210255790.2A
Other languages
English (en)
Inventor
曾勇
万子金
熊山山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jincheng Century Consulting Service Co ltd
Original Assignee
Beijing Jincheng Century Consulting Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jincheng Century Consulting Service Co ltd filed Critical Beijing Jincheng Century Consulting Service Co ltd
Priority to CN202210255790.2A priority Critical patent/CN114356535A/zh
Publication of CN114356535A publication Critical patent/CN114356535A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本申请涉及一种无线传感器网络的资源管理方法和装置;所述方法包括:将无线传感器网络中的每一个传感器节点作为一个智能体;为无线传感器网络设置网络参数,所述网络参数至少包括:环境状态、行动列表和奖励函数;基于所述网络参数进行多智能体的迭代交互,确定最优策略;根据所述最优策略对无线传感器网络中的传感器节点进行资源分配和任务调度。本申请的方案将多智能体的动态交互理论应用于无线传感器网络,解决了无线传感器网络中资源分配和任务调度问题,从而使无线传感器网络能够在不可访问、外界无法干预的情况下,主动地进行资源分配和任务调度并提供在线监测功能。

Description

无线传感器网络的资源管理方法和装置
技术领域
本申请涉及人工智能技术领域,具体涉及一种无线传感器网络的资源管理方法和装置。
背景技术
通常在无线传感器网络中,无线传感器节点是异构的、能量受限的,并且倾向于在动态和不明确的情况下运行。在这些情况下,节点需要了解如何在任务和资源(包括功率和带宽)上进行协作。
相关技术中,在一些应用场景下,无线传感器网络有时会断开与外界的网络连接,处于不可访问的状态,外界无法对传感器网络进行调度和管理。在这样的情况下,无线传感器网络需要主动进行资源分配和任务调度。
发明内容
为至少在一定程度上克服相关技术中存在的问题,本申请提供一种无线传感器网络的资源管理方法和装置。
根据本申请实施例的第一方面,提供一种无线传感器网络的资源管理方法,包括:
将无线传感器网络中的每一个传感器节点作为一个智能体;
为无线传感器网络设置网络参数,所述网络参数至少包括:环境状态、行动空间和奖励函数;
基于所述网络参数进行多智能体的迭代交互,确定最优策略;
根据所述最优策略对无线传感器网络中的传感器节点进行资源分配和任务调度。
进一步地,所述环境状态包括:电池电量和/或频谱可用性;所述行动列表包括:接收或发送指定的包,和/或执行指定的任务;所述奖励函数包括:内部奖励和/或外部奖励。
进一步地,所述内部奖励是基于内部变量定义的奖励函数,所述外部奖励是根据中央控制器或其他节点的反馈定义的奖励函数;
其中,每个传感器节点均有对应的奖励函数;所述其他节点为无线传感器网络中除自身以外的其他传感器节点。
进一步地,所述将无线传感器网络中的每一个传感器节点作为一个智能体,包括:
对无线传感器网络进行建模,令
Figure 690994DEST_PATH_IMAGE001
作为智能体的集合;其中
Figure 841352DEST_PATH_IMAGE002
为无线传感器网络中传感器节点的数量;
Figure 108386DEST_PATH_IMAGE003
表示状态空间;其中,
Figure 353291DEST_PATH_IMAGE004
是共享状态空间,
Figure 22170DEST_PATH_IMAGE005
是智能体
Figure 343430DEST_PATH_IMAGE006
的局部状态空间,
Figure 645229DEST_PATH_IMAGE007
Figure 647820DEST_PATH_IMAGE008
表示行动空间,其中
Figure 233522DEST_PATH_IMAGE009
为第
Figure 397787DEST_PATH_IMAGE006
个智能体的行动空间。
进一步地,所述奖励函数为:
Figure 948068DEST_PATH_IMAGE010
其中,
Figure 488770DEST_PATH_IMAGE011
为智能体
Figure 928979DEST_PATH_IMAGE006
所获得的奖励;
Figure 342774DEST_PATH_IMAGE012
进一步地,所述进行多智能体的迭代交互,包括:
定义动作值函数和价值函数;
通过多智能体的迭代交互,收敛到最优的动作值函数;
根据最优的动作值函数确定最优策略。
进一步地,所述动作值函数为:
Figure 806116DEST_PATH_IMAGE013
所述价值函数为:
Figure 212827DEST_PATH_IMAGE014
其中,
Figure 710804DEST_PATH_IMAGE015
表示从状态
Figure 528457DEST_PATH_IMAGE016
开始并从行动空间中选取动作
Figure 744674DEST_PATH_IMAGE017
进入下一个状态
Figure 689497DEST_PATH_IMAGE018
时,智能体所获得的奖励;
Figure 41980DEST_PATH_IMAGE019
为折扣因子,取值范围是0≤γ≤1。
进一步地,所述多智能体的迭代交互的步骤包括:
Figure 531999DEST_PATH_IMAGE020
其中,
Figure 969933DEST_PATH_IMAGE021
表示学习率。
进一步地,所述根据最优的动作值函数确定最优策略,包括:
Figure 718446DEST_PATH_IMAGE022
其中,
Figure 239951DEST_PATH_IMAGE023
表示在状态
Figure 353401DEST_PATH_IMAGE016
时从行动空间中选取动作
Figure 340948DEST_PATH_IMAGE024
为最优策略。
根据本申请实施例的第二方面,提供一种无线传感器网络的资源管理装置,包括:
设置模块,用于将无线传感器网络中的每一个传感器节点作为一个智能体,并为无线传感器网络设置网络参数;所述网络参数至少包括:环境状态、行动列表和奖励函数;
迭代模块,用于基于所述网络参数进行多智能体的迭代交互,确定最优策略;
管理模块,用于根据所述最优策略对无线传感器网络中的传感器节点进行资源分配和任务调度。
本申请的实施例提供的技术方案具备以下有益效果:
本申请的方案将多智能体的动态交互理论应用于无线传感器网络,解决了无线传感器网络中资源分配和任务调度问题,从而使无线传感器网络能够在不可访问、外界无法干预的情况下,主动地进行资源分配和任务调度并提供在线监测功能,例如:控制核反应堆的温度,或侵入性大脑或肌肉信号监测。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是根据一示例性实施例示出的一种无线传感器网络的资源管理方法的流程图。
图2是多智能体强化学习中智能体与环境的交互示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的方法和装置的例子。
图1是根据一示例性实施例示出的一种无线传感器网络的资源管理方法的流程图。该方法可以包括以下步骤:
步骤S1、将无线传感器网络中的每一个传感器节点作为一个智能体;
步骤S2、为无线传感器网络设置网络参数,所述网络参数至少包括:环境状态、行动列表和奖励函数;
步骤S3、基于所述网络参数进行多智能体的迭代交互,确定最优策略;
步骤S4、根据所述最优策略对无线传感器网络中的传感器节点进行资源分配和任务调度。
本申请的方案将多智能体的动态交互理论应用于无线传感器网络,解决了无线传感器网络中资源分配和任务调度问题,从而使无线传感器网络能够在不可访问、外界无法干预的情况下,主动地进行资源分配和任务调度并提供在线监测功能,例如:控制核反应堆的温度,或侵入性大脑或肌肉信号监测。
应当理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
为进一步详述本申请的技术方案,首先简单介绍多智能体强化学习问题。
多智能体强化学习由几个与环境交互的智能体组成,并在交互的基础上获得奖励。为了对具有强化学习的无线传感器网络进行建模,本方案将无线传感器节点称为智能体,可以考虑它们所处的环境,或将其他节点视为它们在一段时间内倾向于交互的环境。
在强化学习中,有一个环境状态;在一些实施例中,可以是节点正在做的一系列测量,比如:它们的电池电量、频谱可用性。将所有环境状态的集合定义为状态空间,随着集合中参数的增多,使得状态空间的大小呈指数增长。
另一个需要解决的指标是行动列表。节点可以接收或发送指定的包,甚至可以执行指定的任务。
最后,需要定义如何设置奖励函数。研究了两种类型的奖励函数:(1)内部奖励,即智能体基于一些内部变量,如能源使用,为自己定义一个奖励函数;(2)外部奖励,即智能体从中央控制器或其他节点接收到某些奖励,比如,确认包已成功接收。
多智能体强化学习问题是一个广泛的研究课题。本方案主要考虑与Q-Learning相关的解决方案,Q-Learning是环境中没有可用模型的场景的经典解决方案之一。
为了对环境进行建模,Q-Learning将环境视为马尔可夫决策过程,其中模型环境的状态集、概率函数基于当前状态、智能体的行动和下一个状态。
本方案用于多智能体Q-learning在无线传感器通信资源管理问题中的应用。使用了三个主要框架来解决无线传感器网络中资源分配的多智能体 Q-Learning问题:(1)无线节点是独立的学习者;(2)使用随机博弈的框架来模拟联合学习者的情景;(3)对于一个领导者和几个追随者的情况,收敛到最优动作值函数更快。
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明的实施例作进一步详细描述。
1、Q-learning
本方案定义了主要参数列表。一个随机博弈是一个元组:
Figure 565256DEST_PATH_IMAGE001
智能体集
Figure 705382DEST_PATH_IMAGE025
Figure 52049DEST_PATH_IMAGE003
示由局部状态空间和共享状态空间组成的状态空间。
Figure 198997DEST_PATH_IMAGE004
是共享状态空间,
Figure 538580DEST_PATH_IMAGE005
是智能体
Figure 782480DEST_PATH_IMAGE006
的局部状态空间,其中
Figure 50781DEST_PATH_IMAGE007
Figure 950604DEST_PATH_IMAGE008
智能体的行动空间
Figure 579031DEST_PATH_IMAGE026
传递函数
Figure 923775DEST_PATH_IMAGE027
其中
Figure 549929DEST_PATH_IMAGE028
智能体实际价值奖励函数
在Q-Learning中,智能体通过与环境的迭代交互来寻找最优策略。在每个步骤中,智能体首先观察环境状态,考虑环境状态的完全可观测性,并基于其当前的策略函数,采用马尔可夫决策过程(MDP)建模。它决定采取任何能够改变环境状态的行动去最大化它所期望的累积奖励(
Figure 733785DEST_PATH_IMAGE029
最大)。)
基于它得到的奖励值去观察下一个状态,它从环境中更新自己的决策。
为了从数学上讨论Q-Learning函数,首先需要定义状态动作值函数和状态值函数:
Figure 916636DEST_PATH_IMAGE030
Figure 135128DEST_PATH_IMAGE031
状态动作值函数,如果从状态S开始并从可用动作集中采取动作U,则(或Q函数,公式1)得到基于状态-动作的预期累积奖励;其中,状态值函数(或V函数,公式2)表示如果从状态S开始,则可以获得到基于状态的预期累积奖励。需要说明的是,公式一(Q函数)是基于状态动作所得到的预期奖励,公式二(V函数)只基于状态无动作得到的预期奖励;两个函数都是期望值,而期望的自变量不一样。
折扣因子0≤γ≤1表示:智能体做决策时考虑多长远,取值范围 (0,1]。
Figure 932183DEST_PATH_IMAGE019
越大智能体往前考虑的步数越多,但训练难度也越高;
Figure 852603DEST_PATH_IMAGE019
越小智能体越注重眼前利益,训练难度也越小。
如果知道最佳动作值函数,可以按以下方式计算最佳策略:
Figure 822833DEST_PATH_IMAGE032
在Q-Learning中,智能体迭代地开始与环境交互。在每一个步骤中,基于它开始的状态、它所采取的行动、它所获得的奖励、以及它所获得的状态,它会迭代地更新其状态动作值函数和状态值函数(公式4)。在公式4中,
Figure 833514DEST_PATH_IMAGE021
表示学习率。Q-Learning的目标是迭代收敛到最优的状态动作值函数和状态值函数,如式4所示:
Figure 614520DEST_PATH_IMAGE033
2、面向多智能体场景的扩展Q-Learning
如图2所示,有多个与同一环境交互的智能体。最明显的解决方案是考虑有独立的学习者与环境被动交互,并为状态动作值函数、状态值函数和奖励函数添加智能体索引序号i(为智能体添加索引序号i)。
Figure 772969DEST_PATH_IMAGE034
这种方法有几个问题:
首先,在这种情况下,智能体可以自私地尝试最大化他们的预期累积报酬,而不考虑其他智能体的行动。
其次,智能体不能在不考虑其他智能体行为的情况下单方面最大化自己的期望累计奖励。
最后,价值函数的定义不再有效。无法通过针对智能体i的可用操作集最大化操作价值函数来更新预期的累积奖励。
为了解决第一个和第二个问题,可以将其他智能体的动作添加到状态动作值函数和奖励函数中(公式6)。
Figure 799087DEST_PATH_IMAGE035
3、寻找最优价值函数的方法
一般情况下,更新价值函数的方法主要有两种:
A、采用随机对策框架,这是马尔可夫对策的一种广义形式,适用于多个智能体同时与同一环境交互;B、使用广泛形式的游戏来模拟采用场景的连续行动。
在无线传感器网络资源管理应用中,可以将寻找最优价值函数的方法分为两个主要框架。
3.1 独立智能体
在无线传感器网络资源管理问题中,提出了基于独立学习者的多智能体Q-Learning算法。虽然将传感器节点训练为联合动作学习器更加准确,但在大多数情况下,两种框架中的智能体的性能几乎相同。
这种方法将降低训练成本,无论是整个网络还是仅仅一个新的传感器节点,以及节点之间通信的需要。
有两种情况下他们的方法是行不通的:(1)当需要在智能体之间为特定任务进行严格的协调任务时;(2)当智能体所采取的行动和它所获得的奖励之间存在延迟时,例如,当智能体需要等待接收方的某个确认时,节点不能将延迟的奖励与它的动作连接起来。
3.2随机游戏
多智能体Q-learning问题是利用随机博弈的框架建立模型的主要方法和经典方法。提出了三种最成功的更新价值函数的算法: NashQ-Learning、friends and Foe Q-Learning和Minimax Q-Learning。
这三种方法的作者都表明,在某些情况下,动作值函数收敛到最优值。
这个框架的主要挑战是维度,很难训练大量的智能体。
基于Minimax Q-Learning,可以更新两个零和智能体中的价值函数如下:
Figure 929854DEST_PATH_IMAGE036
对于一般场景,每个智能体都有同伴和竞争者。基于这个假设,可以将价值函数更新如下:
Figure 131028DEST_PATH_IMAGE037
通用的解决方案称为NashQ-Learning,它使用以下命令更新值函数:
Figure 261926DEST_PATH_IMAGE038
本方案旨在调查多智能体Q-Learning算法,分析不同的博弈理论框架,解决每个框架的应用。本方案的目标应用是无线传感器网络中的资源管理,扩展了Q-Learning算法用于多智能体场景,解决无线传感器网络中资源分配和任务调度问题的博弈论框架。
本申请的实施例还提供一种无线传感器网络的资源管理装置,包括:
设置模块,用于将无线传感器网络中的每一个传感器节点作为一个智能体,并为无线传感器网络设置网络参数;所述网络参数至少包括:环境状态、行动列表和奖励函数;
迭代模块,用于基于所述网络参数进行多智能体的迭代交互,确定最优策略;
管理模块,用于根据所述最优策略对无线传感器网络中的传感器节点进行资源分配和任务调度。
关于上述实施例中的装置,其中各个模块执行操作的具体步骤已经在有关该方法的实施例中进行了详细描述,此处不再详细阐述说明。上述资源管理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种无线传感器网络的资源管理方法,其特征在于,包括:
将无线传感器网络中的每一个传感器节点作为一个智能体;
为无线传感器网络设置网络参数,所述网络参数至少包括:环境状态、行动列表和奖励函数;
基于所述网络参数进行多智能体的迭代交互,确定最优策略;
根据所述最优策略对无线传感器网络中的传感器节点进行资源分配和任务调度。
2.根据权利要求1所述的方法,其特征在于,所述环境状态包括:电池电量和/或频谱可用性;所述行动列表包括:接收或发送指定的包,和/或执行指定的任务;所述奖励函数包括:内部奖励和/或外部奖励。
3.根据权利要求2所述的方法,其特征在于,所述内部奖励是基于内部变量定义的奖励函数,所述外部奖励是根据中央控制器或其他节点的反馈定义的奖励函数;
其中,每个传感器节点均有对应的奖励函数;所述其他节点为无线传感器网络中除自身以外的其他传感器节点。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述将无线传感器网络中的每一个传感器节点作为一个智能体,包括:
对无线传感器网络进行建模,令
Figure 645155DEST_PATH_IMAGE001
作为智能体的集合;其中
Figure 94591DEST_PATH_IMAGE002
为无线传感器网络中传感器节点的数量;
Figure 11863DEST_PATH_IMAGE003
表示状态空间;其中,
Figure 230354DEST_PATH_IMAGE004
是共享状态空间,
Figure 27409DEST_PATH_IMAGE005
是智能体
Figure 947829DEST_PATH_IMAGE006
的局部状态空间,
Figure 183639DEST_PATH_IMAGE007
Figure 194320DEST_PATH_IMAGE008
表示行动空间,其中
Figure 975325DEST_PATH_IMAGE009
为第
Figure 133774DEST_PATH_IMAGE006
个智能体的行动空间。
5.根据权利要求4所述的方法,其特征在于,所述奖励函数为:
Figure 911891DEST_PATH_IMAGE010
其中,
Figure 42658DEST_PATH_IMAGE011
为智能体
Figure 243832DEST_PATH_IMAGE006
所获得的奖励;
Figure 640310DEST_PATH_IMAGE012
6.根据权利要求5所述的方法,其特征在于,所述进行多智能体的迭代交互,包括:
定义动作值函数和价值函数;
通过多智能体的迭代交互,收敛到最优的动作值函数;
根据最优的动作值函数确定最优策略。
7.根据权利要求6所述的方法,其特征在于,所述动作值函数为:
Figure 952343DEST_PATH_IMAGE013
所述价值函数为:
Figure 937616DEST_PATH_IMAGE014
其中,
Figure 558959DEST_PATH_IMAGE015
表示从状态
Figure 426421DEST_PATH_IMAGE016
开始并从行动空间中选取动作
Figure 479828DEST_PATH_IMAGE017
进入下一个状态
Figure 398236DEST_PATH_IMAGE018
时,智能体所获得的奖励;
Figure 941213DEST_PATH_IMAGE019
为折扣因子,取值范围是0≤γ≤1。
8.根据权利要求7所述的方法,其特征在于,所述多智能体的迭代交互的步骤包括:
Figure 548168DEST_PATH_IMAGE020
其中,
Figure 405266DEST_PATH_IMAGE021
表示学习率。
9.根据权利要求8所述的方法,其特征在于,所述根据最优的动作值函数确定最优策略,包括:
Figure 161869DEST_PATH_IMAGE022
其中,
Figure 360901DEST_PATH_IMAGE023
表示在状态
Figure 406217DEST_PATH_IMAGE016
时从行动空间中选取动作
Figure 129322DEST_PATH_IMAGE024
为最优策略。
10.一种无线传感器网络的资源管理装置,其特征在于,包括:
设置模块,用于将无线传感器网络中的每一个传感器节点作为一个智能体,并为无线传感器网络设置网络参数;所述网络参数至少包括:环境状态、行动列表和奖励函数;
迭代模块,用于基于所述网络参数进行多智能体的迭代交互,确定最优策略;
管理模块,用于根据所述最优策略对无线传感器网络中的传感器节点进行资源分配和任务调度。
CN202210255790.2A 2022-03-16 2022-03-16 无线传感器网络的资源管理方法和装置 Pending CN114356535A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210255790.2A CN114356535A (zh) 2022-03-16 2022-03-16 无线传感器网络的资源管理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210255790.2A CN114356535A (zh) 2022-03-16 2022-03-16 无线传感器网络的资源管理方法和装置

Publications (1)

Publication Number Publication Date
CN114356535A true CN114356535A (zh) 2022-04-15

Family

ID=81095210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210255790.2A Pending CN114356535A (zh) 2022-03-16 2022-03-16 无线传感器网络的资源管理方法和装置

Country Status (1)

Country Link
CN (1) CN114356535A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090187641A1 (en) * 2006-03-29 2009-07-23 Cong Li Optimization of network protocol options by reinforcement learning and propagation
CN106358203A (zh) * 2016-08-30 2017-01-25 湖南大学 一种分布式认知无线传感器网络中基于q学习的频谱分配方法
CN109462858A (zh) * 2017-11-08 2019-03-12 北京邮电大学 一种无线传感器网络参数自适应调节方法
CN111065145A (zh) * 2020-01-13 2020-04-24 清华大学 一种面向水下多智能体的q学习蚁群路由方法
CN111641681A (zh) * 2020-05-11 2020-09-08 国家电网有限公司 基于边缘计算和深度强化学习的物联网服务卸载决策方法
CN113141592A (zh) * 2021-04-11 2021-07-20 西北工业大学 一种长生命周期的水声传感器网络自适应多路径路由机制
CN113938917A (zh) * 2021-08-30 2022-01-14 北京工业大学 应用于工业物联网的异构b5g/rfid智能资源分配***
CN114095940A (zh) * 2021-11-17 2022-02-25 北京邮电大学 混合接入认知无线网络切片资源分配方法及设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090187641A1 (en) * 2006-03-29 2009-07-23 Cong Li Optimization of network protocol options by reinforcement learning and propagation
CN106358203A (zh) * 2016-08-30 2017-01-25 湖南大学 一种分布式认知无线传感器网络中基于q学习的频谱分配方法
CN109462858A (zh) * 2017-11-08 2019-03-12 北京邮电大学 一种无线传感器网络参数自适应调节方法
CN111065145A (zh) * 2020-01-13 2020-04-24 清华大学 一种面向水下多智能体的q学习蚁群路由方法
CN111641681A (zh) * 2020-05-11 2020-09-08 国家电网有限公司 基于边缘计算和深度强化学习的物联网服务卸载决策方法
CN113141592A (zh) * 2021-04-11 2021-07-20 西北工业大学 一种长生命周期的水声传感器网络自适应多路径路由机制
CN113938917A (zh) * 2021-08-30 2022-01-14 北京工业大学 应用于工业物联网的异构b5g/rfid智能资源分配***
CN114095940A (zh) * 2021-11-17 2022-02-25 北京邮电大学 混合接入认知无线网络切片资源分配方法及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
我勒个矗: "强化学习(Reinforcement Learning)知识整理", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/25319023》 *

Similar Documents

Publication Publication Date Title
Fox et al. Multi-level discovery of deep options
CN113225377B (zh) 物联网边缘任务卸载方法及装置
CN112329948A (zh) 一种多智能体策略预测方法及装置
CN114375066B (zh) 一种基于多智能体强化学习的分布式信道竞争方法
CN116069512B (zh) 一种基于强化学习的Serverless高效资源分配方法及***
Gallego et al. Opponent aware reinforcement learning
Yang et al. Keeping in Touch with Collaborative UAVs: A Deep Reinforcement Learning Approach.
Xu et al. Living with artificial intelligence: A paradigm shift toward future network traffic control
CN114090108B (zh) 算力任务执行方法、装置、电子设备及存储介质
Sun et al. Markov decision evolutionary game theoretic learning for cooperative sensing of unmanned aerial vehicles
CN114356535A (zh) 无线传感器网络的资源管理方法和装置
Zhang et al. Clique-based cooperative multiagent reinforcement learning using factor graphs
CN115150335B (zh) 一种基于深度强化学习的最优流量分割的方法和***
Rapetswa et al. Towards a multi-agent reinforcement learning approach for joint sensing and sharing in cognitive radio networks
CN116193516A (zh) 一种物联网场景下用于高效联邦学习的成本优化方法
CN115903901A (zh) 内部状态未知的无人集群***输出同步优化控制方法
CN113157344B (zh) 移动边缘计算环境下基于drl的能耗感知任务卸载方法
Taylor et al. Two decades of multiagent teamwork research: past, present, and future
EP4226279A1 (en) Interactive agent
Jin et al. Hector: A reinforcement learning-based scheduler for minimizing casualties of a military drone swarm
Chen WEIGHT SPEEDY Q-LEARNING FOR FEEDBACK STABILIZATION OF PROBABILISTIC BOOLEAN CONTROL NETWORKS: http://dx. doi. org/10.17654/0972096023009
Liu et al. A novel data-driven model-free synchronization protocol for discrete-time multi-agent systems via TD3 based algorithm
US20230281277A1 (en) Remote agent implementation of reinforcement learning policies
Burger et al. Developing Action Policies with Q-Learning and Shallow Neural Networks on Reconfigurable Embedded Devices
Peng et al. A review of the development of distributed task planning in command and control domain

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220415