CN111867105A

CN111867105A - 后向散射终端的动作分配方法、装置及电子设备

Info

Publication number: CN111867105A
Application number: CN202010768696.8A
Authority: CN
Inventors: 丰雷; 周凡钦; 姚贤炯; 孙德栋; 杨志祥; 陈毅龙; 陈志杰; 游兆阳; 李温静; 欧清海; 张宁池; 马文洁; 杨储华; 王志强; 郭少勇
Original assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; Beijing University of Posts and Telecommunications; State Grid Shanghai Electric Power Co Ltd; State Grid Shaanxi Electric Power Co Ltd; Beijing Fibrlink Communications Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; Beijing University of Posts and Telecommunications; State Grid Shanghai Electric Power Co Ltd; State Grid Shaanxi Electric Power Co Ltd; Beijing Fibrlink Communications Co Ltd
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2020-10-30
Anticipated expiration: 2040-08-03
Also published as: CN111867105B

Abstract

本发明涉及通信技术领域，具体涉及后向散射终端的动作分配方法、装置及电子设备，其中方法包括获取目标通信网络中各个后向散射终端的第一状态信息以及其他终端的第二状态信息，以形成目标通信网络的网络状态空间；获取各个后向散射终端的网络动作空间以及发送的数据包的数量；利用各个后向散射终端的优先级权重、以及在后向散射与主动传输下发送的数据包的数量，构建目标通信网络中所有后向散射终端的吞吐量；基于网络状态空间、网络动作空间以及吞吐量，形成通信模型；以吞吐量最大化为目标，利用强化学习算法对通信模型进行优化，得到各个后向散射终端的动作。根据各个终端的状态求解各个后向散射终端最优动作的分配，实现网络吞吐量的最大化。

Description

后向散射终端的动作分配方法、装置及电子设备

技术领域

本发明涉及通信技术领域，具体涉及后向散射终端的动作分配方法、装置及电子设备。

背景技术

随着智能电网的快速发展，越来越多的无线传感器被部署到电网中，对输电线路、变电站、家庭等进行检测和监控。后向散射是一种绿色超低功耗的通信技术，当环境中的信号到达后向散射终端(例如，无线传感器)时，终端反射该环境信号的同时将自身要发送的信息叠加上去，这样就实现了后向散射通信，整个过程消耗的能量几乎可以忽略。环境中的信号其实也是一种能量信号，终端可以通过改变其内部电路，将环境信号中的能量转化为电量存储在蓄电池中。

如图1所示，智能电网后向散射通信网络中的设备包括移动边缘计算中心、后向散射终端以及其他终端。移动边缘计算中心(MEC)，其掌握其余终端的基本状态信息，充当资源分配策略的管理者；后向散射终端，也可以称之为基于射频充电的次用户(SU)，其具有四种动作：保持等待、后向散射、能量捕获和主动传输；其他终端，也可以称之为主用户(PU)，是变电站等设备主要负责智能电网中控制、管理等重要信息的传输。PUs和SUs都需要将信息传输给接收方MEC。当信道被PU占用时，SU可以将自己的信号叠加在PU的射频信号上进行后向散射通信，或者进行能量捕获存储能量。当PU离开通道使信道空闲时，SU可以访问该通道并消耗存储的能量向MEC发送信号。

由于后向散射终端在各个时隙可选择的动作不同，那么通过如何调整各个后向散射终端在不同模式下的资源分配，以实现最优的吞吐量是亟待解决的问题。

发明内容

有鉴于此，本发明实施例提供了一种后向散射终端的动作分配方法、装置及电子设备，以解决智能电网后向散射通信网络中后向散射终端的动作分配问题。

根据第一方面，本发明实施例提供了一种后向散射终端的动作分配方法，包括：

获取目标通信网络中各个后向散射终端的第一状态信息以及其他终端的第二状态信息，以形成所述目标通信网络的网络状态空间；以及，获取各个所述后向散射终端的网络动作空间以及各个所述后向散射终端在后向散射与主动传输下发送的数据包的数量；其中，所述第一状态信息包括优先级权重，所述第二状态信息包括其他终端对应的信道状态；

获取各个所述后向散射终端的网络动作空间以及各个所述后向散射终端在后向散射与主动传输下发送的数据包的数量；

在所述网络状态空间以及所述网络动作空间中，利用各个后向散射终端的优先级权重、以及所述在后向散射以及主动传输下发送的数据包的数量，构建所述目标通信网络中所有后向散射终端的吞吐量；

基于所述网络状态空间、所述网络动作空间以及所述目标通信网络中所有后向散射终端的吞吐量，形成所述目标通信网络的通信模型；

以所述目标通信网络中所有后向散射终端的吞吐量最大化为目标，利用强化学习算法对所述通信模型进行优化，得到所述各个后向散射终端的动作。

本发明实施例提供的后向散射终端的动作分配方法，基于目标通信网络中各个后向散射终端、其他终端的状态信息，以及后向散射终端的网络动作空间，并结合目标通信网络中所有后向散射终端的吞吐量形成目标通信网络的通信模型；其中，各个后向散射终端的状态包括各自对应的优先级权重，将各个后向散射终端划分为不同的优先级，以保证高优先级用户的通信需求。再结合深度强化学习的方法，根据各个终端的状态求解各个后向散射终端最优动作的分配策略，以实现网络吞吐量的最大化。

结合第一方面，在第一方面第一实施方式中，所述在所述网络状态空间以及所述网络动作空间中，利用各个后向散射终端的优先级权重、以及所述在后向散射以及主动传输下发送的数据包的数量，构建所述目标通信网络中所有后向散射终端的吞吐量，还包括：

接收目标后向散射终端发送的优先级权重调整请求信息；其中，所述优先级权重调整请求信息是所述目标后向散射终端基于所接收到的消息确定的；

调整所述目标后向散射终端的所述优先级权重。

本发明实施例提供的后向散射终端的动作分配方法，结合目标通信网络中紧急业务的突发性，当某个后向散射终端基于接收到的消息确定其发生紧急业务时发送优先级权重调整请求信息，以快速调整目标后向散射终端的优先级权重。

结合第一方面第一实施方式，在第一方面第二实施方式中，所述调整所述目标后向散射终端的所述优先级权重，包括：

基于所述目标后向散射终端的类型，确定紧急权重；

计算所述目标后向散射终端的初始优先级权重与所述紧急权重之和，得到所述目标后向散射终端的所述优先级权重。

本发明实施例提供的后向散射终端的动作分配方法，在目标后向散射终端发生紧急业务之后，本地将目标后向散射终端的优先级权重调整为初始优先级权重与紧急权重之后，以提高该目标后向散射终端的优先级，使得目标后向散射终端能够优先进行动作资源的分配。

结合第一方面，或第一方面第一实施方式，或第一方面第二实施方式，在第一方面第三实施方式中，所述目标通信网络中所有后向散射终端的吞吐量采用如下公式表示：

其中，s为所述网络状态空间中的预设状态；a为所述网络动作空间中的预设动作；N为所述目标通信网络中所述后向散射终端的数量；w_n为后向散射终端n的优先级权重；

为后向散射终端n在所述后向散射下发送数据包的数量；

为后向散射终端n在所述主动传输下发送数据包的数量；1{}为指示函数，a_n＝c1表示后向散射终端n的动作为所述后向散射，a_n＝c2表示后向散射终端n的动作为所述主动传输；R{s,a}为所述目标通信网络中所有后向散射终端的吞吐量。

本发明实施例提供的后向散射终端的动作分配方法，由于动作分配的目标是最大化全部的SUs的总吞吐量，所以吞吐量的设计与发送的数据包的数量直接相关。同时，将各个后向散射终端的优先级权重引入吞吐量的计算过程中，SU的业务越重要，实际优先级权重就越大。当信道资源紧张时，将信道分配给更重要用户的操作将获得更多的奖励(即，上述的吞吐量)。

结合第一方面，在第一方面第四实施方式中，所述第一状态信息还包括数据队列状态以及能量状态；其中，所述获取目标通信网络中各个后向散射终端的第一状态信息以及其他终端的第二状态信息，以形成所述目标通信网络的网络状态空间，包括：

利用所述数据队列状态、所述能量状态以及所述优先级权重，形成所述目标通信网络中对应于所述后向散射终端的第一网络状态空间；

利用其他终端对应的信道状态，形成所述目标通信网络中对应于所述其他终端的第二网络状态空间；

基于所述第一网络状态空间以及所述第二网络状态空间，形成所述网络状态空间。

本发明实施例提供的后向散射终端的动作分配方法，由于目标通信网络中的终端分为后向散射终端以及其他终端，这两种终端的状态形成整个目标通信网络状态空间。其中，其他终端为该目标通信网络中的主用户，利用主用户的信道占用情况形成第二网络状态空间；后向散射终端的状态形成第一网络状态空间。

结合第一方面第四实施方式，在第一方面第五实施方式中，所述网络状态空间表示为：

式中，S_m＝{f_m；f_m∈{0,1}}；

其中，S为所述网络状态空间；M为其他终端的数量，S_m为所述第二网络空间状态；N为所述后向散射终端的数量，S_n为所述第一网络空间状态；f_m为其他终端m对应的信道状态，0表示其他终端m离开信道，1表示其他终端m占用信道；r_n为后向散射终端n的数据队列状态，R_n为后向散射终端n的数据队列空间的最大长度；c_n为后向散射终端n的能量状态，C_n为后向散射终端n的电池的最大储能；w_n为后向散射终端n的优先级权重，w_0,n为后向散射终端n的初始优先级权重，w_e,n为后向散射终端n的紧急权重，1{}为指示函数，E_n(t)＝1表示后向散射终端n发送了优先级权重调整请求信息。

结合第一方面，在第一方面第六实施方式中，所述获取各个所述散射终端的网络动作空间，包括：

获取各个所述后向散射终端占用信道的情况；

利用各个所述后向散射终端的动作以及被分配信道的情况，形成所述网络动作空间。

本发明实施例提供的后向散射终端的动作分配方法，每个空闲的信道只能分配给一个后向散射终端来进行主动传输，因此，利用后向散射终端占用信道的情况形成网络动作空间，可以避免干扰。

结合第一方面第六实施方式，在第一方面第七实施方式中，所述网络动作空间表示为：

式中，A_n＝{(a_n,p_n)；a_n∈{c1,c2,c3,c4},p_n∈{0,1,2,...,M}}

其中，A为所述网络动作空间；a_n为后向散射终端n的动作，c1为所述后向散射，c2为所述主动传输，c3为能量捕获，c4为保持等待；p_n为后向散射终端n占用信道的情况，p_n＝M表示信道M被分配给后向散射终端n。

结合第一方面，在第一方面第八实施方式中，所述方法还包括：

获取各个所述后向散射终端执行预设动作从第一状态变化为第二状态的概率；

其中，所述通信模型表示为：<S,A,P,R>；S为所述网络状态空间；A为所述网络动作空间；P为所述后向散射终端执行预设动作从第一状态变化为第二状态的概率；R为所有后向散射终端的吞吐量。

结合第一方面，在第一方面第九实施方式中，所述目标通信网络中所有后向散射终端的吞吐量最大化采用如下公式表示：

其中，π为预设动作策略，Π为所有动作策略组成的策略空间。

根据第二方面，本发明实施例还提供了一种后向散射终端的动作分配装置，包括：

获取模块，用于获取目标通信网络中各个后向散射终端的第一状态信息以及其他终端的第二状态信息，以形成所述目标通信网络的网络状态空间；以及，获取各个后向散射终端的网络动作空间以及各个后向散射终端在后向散射与主动传输下发送的数据包的数量；其中，所述第一状态信息包括优先级权重，所述第二状态信息包括其他终端对应的信道状态；

构建模块，用于在所述网络状态空间以及所述网络动作空间中，利用各个后向散射终端的优先级权重、以及所述在后向散射以及主动传输下发送的数据包的数量，构建所述目标通信网络中所有后向散射终端的吞吐量；

通信模型模块，用于基于所述网络状态空间、所述网络动作空间以及所述目标通信网络中所有后向散射终端的吞吐量，形成所述目标通信网络的通信模型；

优化模块，用于以所述目标通信网络中所有后向散射终端的吞吐量最大化为目标，利用强化学习算法对所述通信模型进行优化，得到所述各个后向散射终端的动作。

根据第三方面，本发明实施例提供了一种电子设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行第一方面或者第一方面的任意一种实施方式中所述的后向散射终端的动作分配方法。

根据第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行第一方面或者第一方面的任意一种实施方式中所述的后向散射终端的动作分配方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是智能电网后向散射通信网络的结构示意图；

图2是根据本发明实施例的后向散射终端的动作分配方法的流程图；

图3是根据本发明实施例的后向散射终端的动作分配方法的流程图；

图4是根据本发明实施例的后向散射终端的动作分配方法的流程图；

图5是根据本发明实施例的后向散射终端的动作分配装置的结构框图；

图6是本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，图1所示的智能电网后向散射通信网络仅仅是一种可选的网络结构，但是本发明的保护范围并不限于此，也可以为其他网络结构。如图1所示，假设该***中的主用户(PU)和后向散射终端(SU)的数量分别为M和N，其中，PU通过频分复用的方式接入网络，以避免干扰。PU以及SU均需要将信息传输给移动边缘计算中心(MEC)，MEC充当整个***的管理者，负责整个***资源的策略分配。

后向散射终端有多种工作模式，即：保持等待、后向散射、能量获取以及主动传输。其中，当后向散射终端处于后向散射或主动传输状态时，会进行数据包的传输，而后向散射终端的模式又与其他终端的信道占用之间存在一定的关系。基于此，本申请所提出的一种后向散射终端的动作分配方法，是基于后向散射终端以及其他终端的状态信息进行的。

根据本发明实施例，提供了一种后向散射终端的动作分配方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种后向散射终端的动作分配方法，可用于上述的移动边缘计算中心，图2是根据本发明实施例的后向散射终端的动作分配方法的流程图，如图2所示，该流程包括如下步骤：

S11，获取目标通信网络中各个后向散射终端的第一状态信息以及其他终端的第二状态信息，以形成目标通信网络的网络状态空间。

其中，所述第一状态信息包括优先级权重，所述第二状态信息包括其他终端对应的信道状态。

具体地，各个后向散射终端的优先级权重可以是人为规定的，也可以是移动边缘计算中心事先根据后向散射终端所负责的业务确定的。所负责的业务越重要，其对应的优先级权重越大。由于不同的智能电网业务对通信资源需求不同，根据后向散射终端所传输信息的重要程度，SUs被划分为不同的优先级j(j＝1， 2，…， J)，其中，J为优先级的种类。传输重要信息的SUs具有较高的优先级，而传输具有高延迟容忍的信息的SUs具有较低的优先级。通过优先级排序，可以先传输高优先级用户的信息，然后传输低优先级用户的数据。这样可以大大减少高优先级用户的通信延迟。

SUs的优先级权重可以事先存储在MEC中，也可以是在目标通信网络的运行过程中，MEC根据SUs的业务处理情况进行及时的更新。具体将在下文中进行详细描述。

由于PUs与MEC之间通信连接，那么PUs可以将其对应的信道状态发送给MEC，即MEC能够获知PUs占用信道的情况。

MEC在获知各个后向散射终端的第一状态信息以及其他终端的第二状态信息之后，就可以利用第一状态信息以及第二状态信息形成该目标通信网络的网络状态空间。例如，网络状态空间可以是第一状态信息与第二状态信息的组合，也可以是其他结合方式。具体的将在下文中进行详细描述。

S12，获取各个后向散射终端的网络动作空间以及各个后向散射终端在后向散射与主动传输下发送的数据包的数量。

如上文所述，各个后向散射终端的动作可以是：保持等待、后向散射、能量获取以及主动传输，那么各个后向散射终端的动作就可以形成网络动作空间。

各个后向散射终端在后向散射与主动传输下发送的数据包的数量，可以是事先通过统计分析得到，也可以是根据先验知识确定等等。为下文描述方便，对应SU n，规定每个时隙捕获

个能量单位，后向散射模式下每个时隙传输

个数据包；主动传输模式下，每个时隙消耗

个能量单位，传输

个数据包。

需要说明的是，上述S11以及S12并不存在步骤之间的先后关系，可以先执行S11再执行S12，或，先执行S12再执行S11，或，S11与S12同时执行。上文仅仅是为了清楚地描述将其拆分成S11以及S12分别进行描述。

S13，在网络状态空间以及网络动作空间中，利用各个后向散射终端的优先级权重、以及在后向散射与主动传输下发送的数据包的数量，构建目标通信网络中所有后向散射终端的吞吐量。

因为后向散射终端的动作分配的目标是最大化全部的SUs的总吞吐量，所以吞吐量的设计与发送的数据包的数量直接相关。同时，将实际的优先级权重引入吞吐量的计算中。SU的业务越重要，实际优先级权重就越大。当信道资源紧张时，将信道分配给更重要用户的操作将获得更多的奖励(即，所述的吞吐量)。

具体地，目标通信网络中所有后向散射终端的吞吐量表示发送数据包的数量，而后向散射终端在后向散射模式以及主动传输模式下才进行数据包的发送。同时，为了保证在信道资源紧张时，能够将信道分配给更重要的用户操作，因此，在吞吐量构建时还引入了后向散射终端的优先级权重。

S14，基于网络状态空间、网络动作空间以及目标通信网络中所有后向散射终端的吞吐量，形成目标通信网络的通信模型。

目标通信网络的通信模型可以是一个决策模型，例如，马尔可夫决策模型，也可以是其他决策模型等等。只需保证该通信模型的基于网络状态空间、网络动作空间以及吞吐量建立的即可，对决策模型的具体结构细节并不做任何限制。

S15，以目标通信网络中所有后向散射终端的吞吐量最大化为目标，利用强化学习算法对通信模型进行优化，得到各个后向散射终端的动作。

MEC在形成通信模型之后，以后向散射终端的吞吐量最大化为优化目标，利用强化学习算法对该通信模型进行优化，确定各个后向散射终端的动作。所述的强化学习算法可以根据实际情况进行具体的选择，在此对具体的算法并不做任何限制。

本实施例提供的后向散射终端的动作分配方法，基于目标通信网络中各个后向散射终端、其他终端的状态信息，以及后向散射终端的网络动作空间，并结合目标通信网络中所有后向散射终端的吞吐量形成目标通信网络的通信模型；其中，各个后向散射终端的状态包括各自对应的优先级权重，将各个后向散射终端划分为不同的优先级，以保证高优先级用户的通信需求。再结合深度强化学的方法，根据各个终端的状态求解各个后向散射终端最优动作的分配策略，以实现网络吞吐量的最大化。

在本实施例中提供了一种后向散射终端的动作分配方法，可用于上述的移动边缘计算中心，图3是根据本发明实施例的后向散射终端的动作分配方法的流程图，如图3所示，该流程包括如下步骤：

S21，获取目标通信网络中各个后向散射终端的第一状态信息以及其他终端的第二状态信息，以形成目标通信网络的网络状态空间。

详细请参见图2所示实施例的S11，在此不再赘述。

S22，获取各个后向散射终端的网络动作空间以及各个后向散射终端在后向散射以及主动传输下发送的数据包的数量。

详细请参见图2所示实施例的S12，在此不再赘述。

需要说明的是，上述S21以及S22并不存在步骤之间的先后关系，可以先执行S21再执行S22，或，先执行S22再执行S21，或，S21与S22同时执行。上文仅仅是为了清楚地描述将其拆分成S21以及S22分别进行描述。

S23，在网络状态空间以及网络动作空间中，利用各个后向散射终端的优先级权重、以及在后向散射以及主动传输下发送的数据包的数量，构建目标通信网络中所有后向散射终端的吞吐量。

其中，上述S23包括如下步骤：

S231，接收目标后向散射终端发送的优先级权重调整请求信息。

其中，所述优先级权重调整请求信息是所述目标后向散射终端基于所接收到的消息确定的。

后向散射终端在接收到业务处理数据包之后，会对该数据包进行解析，以判断其是否存在紧急业务。当存在紧急业务时，该后向散射终端(即为所述的目标后向散射终端)向MEC发送优先级权重调整请求信息，以使得MEC知晓该目标后向散射终端有紧急业务需要处理。

S232，调整目标后向散射终端的优先级权重。

后向散射终端在接收到目标后向散射终端发送的优先级权重调整请求信息之后，对目标后向散射终端的优先级权重进行调整。调整的目的在于，提高目标后向散射终端的优先级，以便于其业务能够得到及时处理。

具体地，上述S232包括如下步骤：

(1)基于目标后向散射终端的类型，确定紧急权重。

MEC可以根据目标后向散射终端的类型，确定紧急权重；其中，各个目标后向散射终端对应的紧急权重可以是相同的，也可以是不同的。具体可以根据实际需求进行相应的设置。

(2)计算目标后向散射终端的初始优先级权重与所述紧急权重之和，得到目标后向散射终端的优先级权重。

由于各个后向散射终端已经具有对应的初始优先级权重，MEC在目标后向散射终端的初始优先级权重的基础上，加上其对应的紧急权重，即可得到目标后向散射终端的优先级权重。

例如，SU n的初始优先级权重表示为：w_0,n，紧急权重表示为：w_e,n，那么，当SU n发生紧急业务之后，其对应的优先级权重为：w_0,n+w_e,n。

在目标后向散射终端发生紧急业务之后，MEC将目标后向散射终端的优先级权重调整为初始优先级权重与紧急权重之和，以提高该目标后向散射终端的优先级，使得目标后向散射终端能够优先进行动作资源的分配。

进一步地，所述目标通信网络中所有后向散射终端的吞吐量采用如下公式表示：

为后向散射终端n在所述后向散射下发送数据包的数量；

由于动作分配的目标是最大化全部的SUs的总吞吐量，所以吞吐量的设计与发送的数据包的数量直接相关。同时，将各个后向散射终端的优先级权重引入吞吐量的计算过程中，SU的业务越重要，实际优先级权重就越大。当信道资源紧张时，将信道分配给更重要用户的操作将获得更多的奖励(即，上述的吞吐量)。

S24，基于网络状态空间、网络动作空间以及目标通信网络中所有后向散射终端的吞吐量，形成目标通信网络的通信模型。

详细请参见图2所示实施例的S14，在此不再赘述。

S25，以目标通信网络中所有后向散射终端的吞吐量最大化为目标，利用强化学习算法对通信模型进行优化，得到各个后向散射终端的动作。

详细请参见图2所示实施例的S15，在此不再赘述。

本实施例提供的后向散射终端的动作分配方法，结合目标通信网络中紧急业务的突发性，当某个后向散射终端基于接收到的消息确定其发生紧急业务时发送优先级权重调整请求信息，以快速调整目标后向散射终端的优先级权重。

在本实施例中提供了一种后向散射终端的动作分配方法，可用于上述的移动边缘计算中心，图4是根据本发明实施例的后向散射终端的动作分配方法的流程图，如图4所示，该流程包括如下步骤：

S31，获取目标通信网络中各个后向散射终端的第一状态信息以及其他终端的第二状态信息，以形成目标通信网络的网络状态空间。

其中，所述第一状态信息包括优先级权重，所述第二状态信息包括其他终端对应的信道状态。所述第一状态信息还包括数据队列状态以及能量状态。

具体地，上述S31包括如下步骤：

S311，利用数据队列状态、能量状态以及优先级权重，形成目标通信网络中对应于后向散射终端的第一网络状态空间。

其中，所述的数据队列状态为各个后向散射终端的数据队列中数据包的数量，所述的能量状态为各个后向散射终端的电池电量。第一状态信息包括：优先级权重、数据队列状态以及能量状态，那么，对应于后向散射终端的第一网络状态空间就可以利用上述三种状态表示。即，第一网络状态空间为一个三元组。当然，MEC还可以结合SUs的其他状态形成所述的第一网络状态空间。

例如，第一网络状态空间可以采用如下公式表示：

其中，S为所述网络状态空间；M为其他终端的数量，S_m为所述第二网络空间状态；N为所述后向散射终端的数量，S_n为所述第一网络空间状态；f_m为其他终端m对应的信道状态，0表示其他终端m离开信道，1表示其他终端m占用信道；rn为后向散射终端n的数据队列状态，R_n为后向散射终端n的数据队列空间的最大长度；cn为后向散射终端n的能量状态，C_n为后向散射终端n的电池的最大储能；wn为后向散射终端n的优先级权重，w_0,n为后向散射终端n的初始优先级权重，we_,n为后向散射终端n的紧急权重，1{}为指示函数，E_n(t)＝1表示后向散射终端n发送了优先级权重调整请求信息。

S312，利用其他终端对应的信道状态，形成目标通信网络中对应于其他终端的第二网络状态空间。

其中，所述其他终端对应的信道状态用于表示其他终端是否占用通道。那么，第二网络状态空间可以采用如下公式表示：

S_m＝{f_m；f_m∈{0,1}}；

其中，0表示其他终端m离开信道；否则，表示其他终端m占用通道。

S313，基于第一网络状态空间以及第二网络状态空间，形成网络状态空间。

MEC在形成第一网络状态空间以及第二网络状态空间之后，利用这两者就可以形成网络状态空间。所述的网络状态空间可以采用如下公式表示：

S32，获取各个后向散射终端的网络动作空间以及各个后向散射终端在后向散射以及主动传输下发送的数据包的数量。

SUs的网络动作空间可以看作是每个SU的动作空间集合。具体地，上述S32包括如下步骤：

S321，获取各个后向散射终端占用信道的情况。

MEC通过于各个后向散射终端进行通信，即可知道各个后向散射终端是否占用信道；若占用信道，可以确定其占用的是哪个信道。因此，MEC能够获取到各个后向散射终端占用信道的情况。

S322，利用各个后向散射终端的动作以及被分配信道的情况，形成网络动作空间。

MEC利用SUs的动作以及占用信道的情况，形成一个二元组，该二元组用于表示网络动作空间。

具体地，所述网络动作空间表示为：

式中，A_n＝{(a_n,p_n)；a_n∈{c1,c2,c3,c4},p_n∈{0,1,2,...,M}}

需要说明的是，上述S31以及S32并不存在步骤之间的先后关系，可以先执行S31再执行S32，或，先执行S32再执行S31，或，S31与S32同时执行。上文仅仅是为了清楚地描述将其拆分成S31以及S32分别进行描述。

S33，在网络状态空间以及网络动作空间中，利用各个后向散射终端的优先级权重、以及在后向散射以及主动传输下发送的数据包的数量，构建目标通信网络中所有后向散射终端的吞吐量。

详细请参见图3所示实施例的S23，在此不再赘述。

S34，基于网络状态空间、网络动作空间以及目标通信网络中所有后向散射终端的吞吐量，形成目标通信网络的通信模型。

MEC在形成目标通信网络的通信模型之前，还包括：获取各个后向散射终端执行预设动作从第一状态变化为第二状态的概率。即，后向散射终端执行预设动作，从状态s变化为s’的概率。可以采用如下公式表示：

p(s,a,s')＝Pr(s(t+1)＝s'|s(t)＝s,a(t)＝a)；其中，上述的Pr()表示()内事件发生的概率。

针对一个确定的通信环境，代理执行a操作，然后从状态s转移到状态s'的概率为p(s,a,s')＝1。若通信环境为一个不确定的环境，那么所述的概率即为一个变量，这个变量与通信环境相关。

在本实施例中，由于图1所示的通信环境为一个确定性的环境，那么可以将上述概率看作是1。

MEC在获得网络状态空间S、网络动作空间A、概率P以及吞吐量R之后，就可以形成通信模型。所述通信模型表示为：<S,A,P,R>；P为所述后向散射终端执行预设动作从第一状态变化为第二状态的概率。

S35，以目标通信网络中所有后向散射终端的吞吐量最大化为目标，利用强化学习算法对通信模型进行优化，得到各个后向散射终端的动作。

所述目标通信网络中所有后向散射终端的吞吐量最大化采用如下公式表示：

MEC在形成通信模型之后，利用强化学习算法对其进行优化，算法的目标是找出最大化总吞吐量所采取的动作。因为一般的强化学习(RL)算法，比如q-learning，只适用于状态动作空间很小的情况。为了获得大规模状态空间S到动作空间A的映射，在本实施例中采用的是A3C算法。为了加快收敛速度，A3C采用了多线程体验回放的技巧，多个线程同时与环境交互学习，每个线程的学习结果放在一起并存储在公共场所；然后定期从公共场所检索学习结果，以指导与环境的下一次交互。A3C框架以异步方式消除了经验回放数据的强相关性。

在开始时，A3C需要维护一个策略函数π(a_t|s_t；θ)，包含参数θ；以及，一个值函数近似值V(s_t；θ_v)，包含参数θ_v。代理使用估计值函数更新策略。为了减小估计的方差，采用优势估计，其形式为：

式中，A(s,a；θ,θ_v)为优势函数，U_t(θ_v)为状态动作值的估计值，R为目标通信网络中所有后向散射终端的吞吐量，β为大于0且小于1的折扣系数.

将神经网络训练成策略π(a_t|s_t；θ)和值函数V(s_t；θ_v)的近似值。

一开始，每个演员-学***行和独立的。通过计算得到的梯度更新网络参数，并将新的参数发送到全局网络。同样，全球网络将更新后的权重参数传播给参与者-学习者，以确保它们共享一个公共策略。分别定义了策略损失函数和估计值损失函数。策略损失函数及其梯度如下：

f_π(θ)＝logπ(a_t|s_t；θ)A(s,a；θ,θ_v)

估计值损失函数及其梯度表示为：

f_v(θ_v)＝A(s,a；θ,θ_v)

神经网络训练若干轮后，A3C算法给出决策结果。A3C算法需要花费一定的时间根据网络状态动态选择最佳的资源分配动作。A3C的伪代码如下所示：

本实施例提供的后向散射终端的动作分配方法，每个空闲的信道只能分配给一个后向散射终端来进行主动传输，因此，利用后向散射终端占用信道的情况形成网络动作空间，可以避免干扰。

在本实施例中还提供了一种后向散射终端的动作分配装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种后向散射终端的动作分配装置，如图5所示，包括：

获取模块41，用于获取目标通信网络中各个后向散射终端的第一状态信息以及其他终端的第二状态信息，以形成所述目标通信网络的网络状态空间；以及，获取各个后向散射终端的网络动作空间以及各个后向散射终端在后向散射与主动传输下发送的数据包的数量；其中，所述第一状态信息包括优先级权重，所述第二状态信息包括其他终端对应的信道状态；

构建模块42，用于在所述网络状态空间以及所述网络动作空间中，利用各个所述后向散射终端的优先级权重以及在所述后向散射以及所述主动传输下发送数据包的数量构建所述目标通信网络中所有后向散射终端的吞吐量；

通信模型模块43，用于基于所述网络状态空间、所述网络动作空间以及所述目标通信网络中所有后向散射终端的吞吐量，形成所述目标通信网络的通信模型；

优化模块44，用于以所述目标通信网络中所有后向散射终端的吞吐量最大化为目标，利用强化学习算法对所述通信模型进行优化，得到所述各个后向散射终端的动作。

本实施例提供的后向散射终端的动作分配装置，基于目标通信网络中各个后向散射终端、其他终端的状态信息，以及后向散射终端的网络动作空间，并结合目标通信网络中所有后向散射终端的吞吐量形成目标通信网络的通信模型；其中，各个后向散射终端的状态包括各自对应的优先级权重，将各个后向散射终端划分为不同的优先级，以保证高优先级用户的通信需求。再结合深度强化学的方法，根据各个终端的状态求解各个后向散射终端最优动作的分配策略，以实现网络吞吐量的最大化。

本实施例中的后向散射终端的动作分配装置是以功能单元的形式来呈现，这里的单元是指ASIC电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

上述各个模块的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本发明实施例还提供一种电子设备，具有上述图5所示的后向散射终端的动作分配装置。

请参阅图6，图6是本发明可选实施例提供的一种电子设备的结构示意图，如图6所示，该电子设备可以包括：至少一个处理器51，例如CPU(Central Processing Unit，中央处理器)，至少一个通信接口53，存储器54，至少一个通信总线52。其中，通信总线52用于实现这些组件之间的连接通信。其中，通信接口53可以包括显示屏(Display)、键盘(Keyboard)，可选通信接口53还可以包括标准的有线接口、无线接口。存储器54可以是高速RAM存储器(Random Access Memory，易挥发性随机存取存储器)，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器54可选的还可以是至少一个位于远离前述处理器51的存储装置。其中处理器51可以结合图5所描述的装置，存储器54中存储应用程序，且处理器51调用存储器54中存储的程序代码，以用于执行上述任一方法步骤。

其中，通信总线52可以是外设部件互连标准(peripheral componentinterconnect，简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture，简称EISA)总线等。通信总线52可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器54可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard diskdrive，缩写：HDD)或固态硬盘(英文：solid-state drive，缩写：SSD)；存储器54还可以包括上述种类的存储器的组合。

其中，处理器51可以是中央处理器(英文：central processing unit，缩写：CPU)，网络处理器(英文：network processor，缩写：NP)或者CPU和NP的组合。

其中，处理器51还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integrated circuit，缩写：ASIC)，可编程逻辑器件(英文：programmable logic device，缩写：PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，缩写：CPLD)，现场可编程逻辑门阵列(英文：field-programmable gate array，缩写：FPGA)，通用阵列逻辑(英文：generic arraylogic,缩写：GAL)或其任意组合。

可选地，存储器54还用于存储程序指令。处理器51可以调用程序指令，实现如本申请图2至4实施例中所示的后向散射终端的动作分配方法。

本发明实施例还提供了一种非暂态计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的后向散射终端的动作分配方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种后向散射终端的动作分配方法，其特征在于，包括：

获取目标通信网络中各个后向散射终端的第一状态信息以及其他终端的第二状态信息，以形成所述目标通信网络的网络状态空间；以及，获取各个后向散射终端的网络动作空间以及各个后向散射终端在后向散射与主动传输下发送的数据包的数量；其中，所述第一状态信息包括优先级权重，所述第二状态信息包括其他终端对应的信道状态；

2.根据权利要求1所述的方法，其特征在于，所述在所述网络状态空间以及所述网络动作空间中，利用各个所述后向散射终端的优先级权重、以及所述在后向散射以及主动传输下发送的数据包的数量，构建所述目标通信网络中所有后向散射终端的吞吐量，还包括：

调整所述目标后向散射终端的所述优先级权重。

3.根据权利要求2所述的方法，其特征在于，所述调整所述目标后向散射终端的所述优先级权重，包括：

基于所述目标后向散射终端的类型，确定紧急权重；

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述目标通信网络中所有后向散射终端的吞吐量采用如下公式表示：

为后向散射终端n在所述后向散射下发送数据包的数量；

5.根据权利要求1所述的方法，其特征在于，所述第一状态信息还包括数据队列状态以及能量状态；其中，所述获取目标通信网络中各个后向散射终端的第一状态信息以及其他终端的第二状态信息，以形成所述目标通信网络的网络状态空间，包括：

6.根据权利要求5所述的方法，其特征在于，所述网络状态空间表示为：

式中，S_m＝{f_m；f_m∈{0,1}}；

S_n＝{(r_n,c_n,w_n)；r_n∈{0,1,...,R_n},c_n∈{0,1,...,C_n},

7.根据权利要求1所述的方法，其特征在于，所述获取各个所述散射终端的网络动作空间，包括：

获取各个所述后向散射终端占用信道的情况；

8.根据权利要求7所述的方法，其特征在于，所述网络动作空间表示为：

式中，A_n＝{(a_n,p_n)；a_n∈{c1,c2,c3,c4},p_n∈{0,1,2,...,M}}

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

10.根据权利要求1所述的方法，其特征在于，所述目标通信网络中所有后向散射终端的吞吐量最大化采用如下公式表示：

11.一种后向散射终端的动作分配装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1-10中任一项所述的后向散射终端的动作分配方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使计算机执行权利要求1-10中任一项所述的后向散射终端的动作分配方法。