CN114356535A

CN114356535A - 无线传感器网络的资源管理方法和装置

Info

Publication number: CN114356535A
Application number: CN202210255790.2A
Authority: CN
Inventors: 曾勇; 万子金; 熊山山
Original assignee: Beijing Jincheng Century Consulting Service Co ltd
Current assignee: Beijing Jincheng Century Consulting Service Co ltd
Priority date: 2022-03-16
Filing date: 2022-03-16
Publication date: 2022-04-15

Abstract

本申请涉及一种无线传感器网络的资源管理方法和装置；所述方法包括：将无线传感器网络中的每一个传感器节点作为一个智能体；为无线传感器网络设置网络参数，所述网络参数至少包括：环境状态、行动列表和奖励函数；基于所述网络参数进行多智能体的迭代交互，确定最优策略；根据所述最优策略对无线传感器网络中的传感器节点进行资源分配和任务调度。本申请的方案将多智能体的动态交互理论应用于无线传感器网络，解决了无线传感器网络中资源分配和任务调度问题，从而使无线传感器网络能够在不可访问、外界无法干预的情况下，主动地进行资源分配和任务调度并提供在线监测功能。

Description

无线传感器网络的资源管理方法和装置

技术领域

本申请涉及人工智能技术领域，具体涉及一种无线传感器网络的资源管理方法和装置。

背景技术

通常在无线传感器网络中，无线传感器节点是异构的、能量受限的，并且倾向于在动态和不明确的情况下运行。在这些情况下，节点需要了解如何在任务和资源（包括功率和带宽）上进行协作。

相关技术中，在一些应用场景下，无线传感器网络有时会断开与外界的网络连接，处于不可访问的状态，外界无法对传感器网络进行调度和管理。在这样的情况下，无线传感器网络需要主动进行资源分配和任务调度。

发明内容

为至少在一定程度上克服相关技术中存在的问题，本申请提供一种无线传感器网络的资源管理方法和装置。

根据本申请实施例的第一方面，提供一种无线传感器网络的资源管理方法，包括：

将无线传感器网络中的每一个传感器节点作为一个智能体；

为无线传感器网络设置网络参数，所述网络参数至少包括：环境状态、行动空间和奖励函数；

基于所述网络参数进行多智能体的迭代交互，确定最优策略；

根据所述最优策略对无线传感器网络中的传感器节点进行资源分配和任务调度。

进一步地，所述环境状态包括：电池电量和/或频谱可用性；所述行动列表包括：接收或发送指定的包，和/或执行指定的任务；所述奖励函数包括：内部奖励和/或外部奖励。

进一步地，所述内部奖励是基于内部变量定义的奖励函数，所述外部奖励是根据中央控制器或其他节点的反馈定义的奖励函数；

其中，每个传感器节点均有对应的奖励函数；所述其他节点为无线传感器网络中除自身以外的其他传感器节点。

进一步地，所述将无线传感器网络中的每一个传感器节点作为一个智能体，包括：

对无线传感器网络进行建模，令

作为智能体的集合；其中

为无线传感器网络中传感器节点的数量；

令

表示状态空间；其中，

是共享状态空间，

是智能体

的局部状态空间，

；

令

表示行动空间，其中

为第

个智能体的行动空间。

进一步地，所述奖励函数为：

其中，

为智能体

所获得的奖励；

。

进一步地，所述进行多智能体的迭代交互，包括：

定义动作值函数和价值函数；

通过多智能体的迭代交互，收敛到最优的动作值函数；

根据最优的动作值函数确定最优策略。

进一步地，所述动作值函数为：

；

所述价值函数为：

；

其中，

表示从状态

开始并从行动空间中选取动作

进入下一个状态

时，智能体所获得的奖励；

为折扣因子，取值范围是0≤γ≤1。

进一步地，所述多智能体的迭代交互的步骤包括：

；

其中，

表示学习率。

进一步地，所述根据最优的动作值函数确定最优策略，包括：

；

其中，

表示在状态

时从行动空间中选取动作

为最优策略。

根据本申请实施例的第二方面，提供一种无线传感器网络的资源管理装置，包括：

设置模块，用于将无线传感器网络中的每一个传感器节点作为一个智能体，并为无线传感器网络设置网络参数；所述网络参数至少包括：环境状态、行动列表和奖励函数；

迭代模块，用于基于所述网络参数进行多智能体的迭代交互，确定最优策略；

管理模块，用于根据所述最优策略对无线传感器网络中的传感器节点进行资源分配和任务调度。

本申请的实施例提供的技术方案具备以下有益效果：

本申请的方案将多智能体的动态交互理论应用于无线传感器网络，解决了无线传感器网络中资源分配和任务调度问题，从而使无线传感器网络能够在不可访问、外界无法干预的情况下，主动地进行资源分配和任务调度并提供在线监测功能，例如：控制核反应堆的温度，或侵入性大脑或肌肉信号监测。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种无线传感器网络的资源管理方法的流程图。

图2是多智能体强化学习中智能体与环境的交互示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的方法和装置的例子。

图1是根据一示例性实施例示出的一种无线传感器网络的资源管理方法的流程图。该方法可以包括以下步骤：

步骤S1、将无线传感器网络中的每一个传感器节点作为一个智能体；

步骤S2、为无线传感器网络设置网络参数，所述网络参数至少包括：环境状态、行动列表和奖励函数；

步骤S3、基于所述网络参数进行多智能体的迭代交互，确定最优策略；

步骤S4、根据所述最优策略对无线传感器网络中的传感器节点进行资源分配和任务调度。

应当理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

为进一步详述本申请的技术方案，首先简单介绍多智能体强化学习问题。

多智能体强化学习由几个与环境交互的智能体组成，并在交互的基础上获得奖励。为了对具有强化学习的无线传感器网络进行建模，本方案将无线传感器节点称为智能体，可以考虑它们所处的环境，或将其他节点视为它们在一段时间内倾向于交互的环境。

在强化学习中，有一个环境状态；在一些实施例中，可以是节点正在做的一系列测量，比如：它们的电池电量、频谱可用性。将所有环境状态的集合定义为状态空间，随着集合中参数的增多，使得状态空间的大小呈指数增长。

另一个需要解决的指标是行动列表。节点可以接收或发送指定的包，甚至可以执行指定的任务。

最后，需要定义如何设置奖励函数。研究了两种类型的奖励函数：（1）内部奖励，即智能体基于一些内部变量，如能源使用，为自己定义一个奖励函数；（2）外部奖励，即智能体从中央控制器或其他节点接收到某些奖励，比如，确认包已成功接收。

多智能体强化学习问题是一个广泛的研究课题。本方案主要考虑与Q-Learning相关的解决方案，Q-Learning是环境中没有可用模型的场景的经典解决方案之一。

为了对环境进行建模，Q-Learning将环境视为马尔可夫决策过程，其中模型环境的状态集、概率函数基于当前状态、智能体的行动和下一个状态。

本方案用于多智能体Q-learning在无线传感器通信资源管理问题中的应用。使用了三个主要框架来解决无线传感器网络中资源分配的多智能体 Q-Learning问题：（1）无线节点是独立的学习者；（2）使用随机博弈的框架来模拟联合学习者的情景；（3）对于一个领导者和几个追随者的情况，收敛到最优动作值函数更快。

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明的实施例作进一步详细描述。

1、Q-learning

本方案定义了主要参数列表。一个随机博弈是一个元组：

智能体集

示由局部状态空间和共享状态空间组成的状态空间。

是共享状态空间，

是智能体

的局部状态空间，其中

。

智能体的行动空间

传递函数

其中

智能体实际价值奖励函数

在Q-Learning中，智能体通过与环境的迭代交互来寻找最优策略。在每个步骤中，智能体首先观察环境状态，考虑环境状态的完全可观测性，并基于其当前的策略函数，采用马尔可夫决策过程(MDP)建模。它决定采取任何能够改变环境状态的行动去最大化它所期望的累积奖励（

最大）。）

基于它得到的奖励值去观察下一个状态，它从环境中更新自己的决策。

为了从数学上讨论Q-Learning函数，首先需要定义状态动作值函数和状态值函数：

状态动作值函数，如果从状态S开始并从可用动作集中采取动作U，则（或Q函数，公式1）得到基于状态-动作的预期累积奖励；其中，状态值函数（或V函数，公式2）表示如果从状态S开始，则可以获得到基于状态的预期累积奖励。需要说明的是，公式一（Q函数）是基于状态动作所得到的预期奖励，公式二（V函数）只基于状态无动作得到的预期奖励；两个函数都是期望值，而期望的自变量不一样。

折扣因子0≤γ≤1表示：智能体做决策时考虑多长远，取值范围 (0,1]。

越大智能体往前考虑的步数越多，但训练难度也越高；

越小智能体越注重眼前利益，训练难度也越小。

如果知道最佳动作值函数，可以按以下方式计算最佳策略：

在Q-Learning中，智能体迭代地开始与环境交互。在每一个步骤中，基于它开始的状态、它所采取的行动、它所获得的奖励、以及它所获得的状态，它会迭代地更新其状态动作值函数和状态值函数(公式4)。在公式4中，

表示学习率。Q-Learning的目标是迭代收敛到最优的状态动作值函数和状态值函数，如式4所示：

2、面向多智能体场景的扩展Q-Learning

如图2所示，有多个与同一环境交互的智能体。最明显的解决方案是考虑有独立的学习者与环境被动交互，并为状态动作值函数、状态值函数和奖励函数添加智能体索引序号i（为智能体添加索引序号i）。

这种方法有几个问题：

首先，在这种情况下，智能体可以自私地尝试最大化他们的预期累积报酬，而不考虑其他智能体的行动。

其次，智能体不能在不考虑其他智能体行为的情况下单方面最大化自己的期望累计奖励。

最后，价值函数的定义不再有效。无法通过针对智能体i的可用操作集最大化操作价值函数来更新预期的累积奖励。

为了解决第一个和第二个问题，可以将其他智能体的动作添加到状态动作值函数和奖励函数中（公式6）。

3、寻找最优价值函数的方法

一般情况下，更新价值函数的方法主要有两种：

A、采用随机对策框架，这是马尔可夫对策的一种广义形式，适用于多个智能体同时与同一环境交互；B、使用广泛形式的游戏来模拟采用场景的连续行动。

在无线传感器网络资源管理应用中，可以将寻找最优价值函数的方法分为两个主要框架。

3.1 独立智能体

在无线传感器网络资源管理问题中，提出了基于独立学习者的多智能体Q-Learning算法。虽然将传感器节点训练为联合动作学习器更加准确，但在大多数情况下，两种框架中的智能体的性能几乎相同。

这种方法将降低训练成本，无论是整个网络还是仅仅一个新的传感器节点，以及节点之间通信的需要。

有两种情况下他们的方法是行不通的：（1）当需要在智能体之间为特定任务进行严格的协调任务时；（2）当智能体所采取的行动和它所获得的奖励之间存在延迟时，例如，当智能体需要等待接收方的某个确认时，节点不能将延迟的奖励与它的动作连接起来。

3.2随机游戏

多智能体Q-learning问题是利用随机博弈的框架建立模型的主要方法和经典方法。提出了三种最成功的更新价值函数的算法： NashQ-Learning、friends and Foe Q-Learning和Minimax Q-Learning。

这三种方法的作者都表明，在某些情况下，动作值函数收敛到最优值。

这个框架的主要挑战是维度，很难训练大量的智能体。

基于Minimax Q-Learning，可以更新两个零和智能体中的价值函数如下：

对于一般场景，每个智能体都有同伴和竞争者。基于这个假设，可以将价值函数更新如下：

通用的解决方案称为NashQ-Learning，它使用以下命令更新值函数：

本方案旨在调查多智能体Q-Learning算法，分析不同的博弈理论框架，解决每个框架的应用。本方案的目标应用是无线传感器网络中的资源管理，扩展了Q-Learning算法用于多智能体场景，解决无线传感器网络中资源分配和任务调度问题的博弈论框架。

本申请的实施例还提供一种无线传感器网络的资源管理装置，包括：

关于上述实施例中的装置，其中各个模块执行操作的具体步骤已经在有关该方法的实施例中进行了详细描述，此处不再详细阐述说明。上述资源管理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。