CN114221686B

CN114221686B - Mimo资源优化方法、装置和电子设备

Info

Publication number: CN114221686B
Application number: CN202210154367.3A
Authority: CN
Inventors: 姚海鹏; 黄山; 苏波; 买天乐; 忻向军; 葛洪武; 吴巍; 吴小华; 王山
Original assignee: Beijing Tianchi Network Co ltd; Beijing University of Posts and Telecommunications
Current assignee: Beijing Tianchi Network Co ltd; Beijing University of Posts and Telecommunications
Priority date: 2022-02-21
Filing date: 2022-02-21
Publication date: 2022-04-26
Anticipated expiration: 2042-02-21
Also published as: CN114221686A

Abstract

本发明提供了一种MIMO资源优化方法、装置和电子设备，涉及通信的技术领域，包括获取待优化MIMO地理区域的备选子波束集合和目标天线权值组的权值数量；基于权值数量和备选子波束集合确定初始飞蛾种群；利用预设飞蛾扑火算法对初始飞蛾种群进行迭代更新，直至达到预设结束条件；将预设结束条件下的最优飞蛾智能体对应的可选天线权值组确定为待优化MIMO地理区域的目标天线权值组。该方法采用的预设飞蛾扑火算法是基于策略函数和贪婪算法确定每代飞蛾种群中每个飞蛾智能体动作的算法，相比传统群体智能飞蛾扑火算法中的飞蛾单智能体的固定动作策略，该方法解决了传统算法存在的无效寻优问题，提升了算法对MIMO天线权值组的寻优速度。

Description

MIMO资源优化方法、装置和电子设备

技术领域

本发明涉及通信的技术领域，尤其是涉及一种MIMO资源优化方法、装置和电子设备。

背景技术

MIMO（Multiple Input Multiple Output，多输入多输出）权值寻优是5G的核心技术之一，通过多组天线单元来成倍提升***容量。MIMO权值组由预设数量个权值组成，每一个权值代表一个子波束。MIMO权值寻优就是要找到一组子波束使得指定地理区域内所有栅格的参考信号接收功率（Reference Signal Receiving Power，RSRP）整体最大，当备选子波束有上百种时，MIMO权值组就有上亿种组合，需要在这上亿种MIMO权值组中选出最好的组合十分困难。

目前MIMO寻优通常采用群体智能算法，上述算法个体智能能力较低，算法个体沿既定的轨迹进行寻优，以至于寻优过程通常包含很多无效搜索，寻优次数极多，导致寻优结果不理想，算法时间复杂度大。

发明内容

本发明的目的在于提供一种MIMO资源优化方法、装置和电子设备，以提升现有的MIMO资源优化方法对MIMO天线权值组的寻优速度。

第一方面，本发明提供一种MIMO资源优化方法，包括：获取待优化MIMO地理区域的备选子波束集合和目标天线权值组的权值数量；基于所述权值数量和所述备选子波束集合确定初始飞蛾种群；其中，所述初始飞蛾种群中包括多个飞蛾智能体；每个所述飞蛾智能体表示一种可选天线权值组；利用预设飞蛾扑火算法对所述初始飞蛾种群进行迭代更新，直至达到预设结束条件；其中，所述预设飞蛾扑火算法为基于策略函数和贪婪算法确定每代飞蛾种群中每个飞蛾智能体的动作的算法；所述飞蛾智能体的动作用于表征相应的所述可选天线权值组中待修改的权值；将所述预设结束条件下的最优飞蛾智能体对应的可选天线权值组确定为所述待优化MIMO地理区域的目标天线权值组。

在可选的实施方式中，所述预设结束条件包括：所有所述飞蛾智能体的当前策略函数相同，或者，当前飞蛾种群中飞蛾智能体的数量为0；所述利用预设飞蛾扑火算法对所述初始飞蛾种群进行迭代更新，包括：基于所述贪婪算法和目标飞蛾智能体的策略函数确定所述目标飞蛾智能体的动作；其中，所述目标飞蛾智能体表示当前飞蛾种群中的任一个飞蛾智能体；初次迭代时，所述当前飞蛾种群为所述初始飞蛾种群；基于所有所述飞蛾智能体的动作更新所述目标飞蛾智能体的策略函数、所有飞蛾智能体的平均策略函数和当前飞蛾种群。

在可选的实施方式中，所述基于所有所述飞蛾智能体的动作更新所述目标飞蛾智能体的策略函数、所有飞蛾智能体的平均策略函数和当前飞蛾种群，包括：在所述目标飞蛾智能体执行相应的动作之后，确定所述待优化MIMO地理区域反馈给所述目标飞蛾智能体的回报；基于所述回报更新所述目标飞蛾智能体的动作期望值和相应的所述策略函数；基于所有所述飞蛾智能体的策略函数更新所述平均策略函数；将所述当前飞蛾种群中回报靠后的预设数量个飞蛾智能体淘汰，得到更新后的当前飞蛾种群。

在可选的实施方式中，所述基于所述回报更新所述目标飞蛾智能体的动作期望值和相应的所述策略函数，包括：利用算式

更新所述目标飞蛾智能体的动作期望值；其中，

表示目标飞蛾智能体i在第t+1代执行动作

的动作期望值，

表示学习率，且

，

表示所述目标飞蛾智能体i在第t代执行动作

的动作期望值，

表示所述目标飞蛾智能体i在第t代执行动作

的回报，

表示折扣因子，且

，

表示所述目标飞蛾智能体i在第1至t代执行动作的最大动作期望值；利用算式

更新所述目标飞蛾智能体相应的所述策略函数；其中，

表示所述目标飞蛾智能体i在第t+1代执行动作

的策略函数，

表示所述目标飞蛾智能体i在第t代执行动作

的策略函数，

，

表示第一预设数值，

表示第二预设数值，M表示所述目标天线权值组的权值数量，

表示所述目标飞蛾智能体i在第t代执行动作

的动作期望值，A表示所述目标飞蛾智能体i在第t代的所有可选动作的集合，

表示所述目标飞蛾智能体i在第t代执行动作

的策略函数。

在可选的实施方式中，所述基于所有所述飞蛾智能体的策略函数更新所述平均策略函数，包括：利用算式

更新所述所有飞蛾智能体的平均策略函数；其中，

表示所述所有飞蛾智能体在第t+1代的平均策略函数，

表示所述所有飞蛾智能体在第t代的平均策略函数，

表示所述目标飞蛾智能体i在第t代执行动作

的策略函数，

表示所述当前飞蛾种群中飞蛾智能体的数量。

在可选的实施方式中，确定所述待优化MIMO地理区域反馈给所述目标飞蛾智能体的回报，包括：确定所述待优化MIMO地理区域采用更新后的天线权值组的情况下，所述待优化MIMO地理区域中目标栅格的数量；其中，所述目标栅格为参考信号接收功率大于预设阈值的栅格；所述更新后的天线权值组为当前目标飞蛾智能体所对应的可选天线权值组；基于所述目标栅格的数量和所述待优化MIMO地理区域中所有栅格的数量确定所述目标飞蛾智能体的回报。

第二方面，本发明提供一种MIMO资源优化装置，包括：获取模块，用于获取待优化MIMO地理区域的备选子波束集合和目标天线权值组的权值数量；第一确定模块，用于基于所述权值数量和所述备选子波束集合确定初始飞蛾种群；其中，所述初始飞蛾种群中包括多个飞蛾智能体；每个所述飞蛾智能体表示一种可选天线权值组；迭代更新模块，用于利用预设飞蛾扑火算法对所述初始飞蛾种群进行迭代更新，直至达到预设结束条件；其中，所述预设飞蛾扑火算法为基于策略函数和贪婪算法确定每代飞蛾种群中每个飞蛾智能体的动作的算法；所述飞蛾智能体的动作用于表征相应的所述可选天线权值组中待修改的权值；第二确定模块，用于将所述预设结束条件下的最优飞蛾智能体对应的可选天线权值组确定为所述待优化MIMO地理区域的目标天线权值组。

在可选的实施方式中，所述预设结束条件包括：所有所述飞蛾智能体的当前策略函数相同，或者，当前飞蛾种群中飞蛾智能体的数量为0；所述迭代更新模块包括：确定单元，基于所述贪婪算法和目标飞蛾智能体的策略函数确定所述目标飞蛾智能体的动作；其中，所述目标飞蛾智能体表示当前飞蛾种群中的任一个飞蛾智能体；初次迭代时，所述当前飞蛾种群为所述初始飞蛾种群；更新单元，用于基于所有所述飞蛾智能体的动作更新所述目标飞蛾智能体的策略函数、所有飞蛾智能体的平均策略函数和当前飞蛾种群。

第三方面，本发明提供一种电子设备，包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述前述实施方式中任一项所述的方法的步骤。

第四方面，本发明提供一种具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述处理器执行前述实施方式中任一项所述的方法。

本发明提供的MIMO资源优化方法，包括：获取待优化MIMO地理区域的备选子波束集合和目标天线权值组的权值数量；基于权值数量和备选子波束集合确定初始飞蛾种群；其中，初始飞蛾种群中包括多个飞蛾智能体；每个飞蛾智能体表示一种可选天线权值组；利用预设飞蛾扑火算法对初始飞蛾种群进行迭代更新，直至达到预设结束条件；其中，预设飞蛾扑火算法为基于策略函数和贪婪算法确定每代飞蛾种群中每个飞蛾智能体的动作的算法；飞蛾智能体的动作用于表征相应的可选天线权值组中待修改的权值；将预设结束条件下的最优飞蛾智能体对应的可选天线权值组确定为待优化MIMO地理区域的目标天线权值组。

本发明所提供的MIMO资源优化方法，其采用的预设飞蛾扑火算法是基于策略函数和贪婪算法确定每代飞蛾种群中每个飞蛾智能体的动作的算法，相比传统群体智能飞蛾扑火算法中的飞蛾单智能体的固定动作策略，本发明方法解决了传统算法存在的无效寻优问题，提升了算法对MIMO天线权值组的寻优速度。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种MIMO资源优化方法的流程图；

图2为本发明实施例提供的一种MIMO资源优化方法的算法框架图；

图3为本发明实施例提供的一种MIMO资源优化方法的模型结构设计图；

图4为本发明实施例提供的一种MIMO资源优化方法与现有的爬山算法的寻优时长比较图；

图5为本发明实施例提供的一种MIMO资源优化装置的功能模块图；

图6为本发明实施例提供的一种电子设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

MIMO权值寻优是5G的核心技术之一，通过多组天线单元来成倍提升***容量。但MIMO小区的天线权值配置组合非常多，不同的应用场景需要不同的权值配置。传统相对静态的天线配置方式已经无法满足5G网络优化的需求，更加难以保证最佳的覆盖性能和业务吸收效果，而且预设天线权值无法应对多样化、动态变化的覆盖场景。

MIMO权值组由预设数量个权值组成，每一个权值代表一个子波束。一般地，寻优范围通常将一片地理区域划分为预设尺寸（例如，5m*5m）大小的栅格，每一个子波束在对应的栅格上有一个参考信号接收功率（Reference Signal Receiving Power，RSRP），实际上每个栅格上的RSRP值应该是MIMO权值组中预设数量个子波束RSRP值中的最大值。MIMO权值寻优就是要找到一组子波束使得所有栅格的RSRP整体最大，当备选子波束有上百种时，MIMO权值组就有上亿种组合，需要在这上亿种MIMO权值组中选出最好的组合十分困难。

目前MIMO寻优通常采用群体智能算法，上述算法个体智能能力较低，算法个体沿既定的轨迹进行寻优，以至于寻优过程通常包含很多无效搜索，寻优次数极多，导致寻优结果不理想，算法时间复杂度大。有鉴于此，本发明实施例提供了一种MIMO资源优化方法，用以缓解上文中所提出的技术问题。

实施例一

图1为本发明实施例提供的一种MIMO资源优化方法的流程图，如图1所示，该方法具体包括如下步骤：

步骤S102，获取待优化MIMO地理区域的备选子波束集合和目标天线权值组的权值数量。

具体的，要为待优化MIMO地理区域进行MIMO权值寻优，首先需要获取待优化MIMO地理区域的备选子波束集合，以及目标天线权值组的权值数量，一个待优化MIMO地理区域可以为一个蜂窝小区，也可以是用户指定的地理范围，本发明实施例不对MIMO地理区域的地理范围进行具体限定；一个备选子波束可以理解为一种备选天线，目标天线权值组是指上述待优化MIMO地理区域的MIMO权值寻优结果，其包含的权值数量即相当于需要从备选子波束集合中挑选出来的子波束的数量。本发明实施例不对目标天线权值组的权值数量进行具体限定，用户可以根据实际需求进行设置，例如，可以设置为8个。

步骤S104，基于权值数量和备选子波束集合确定初始飞蛾种群。

本发明实施例采用改进后的飞蛾扑火算法（也即，下文中的预设飞蛾扑火算法）对待优化MIMO地理区域的天线权值组合进行寻优，因此，在获取到其备选子波束集合和目标天线权值组的权值数量之后，即可根据用户的实际需求随机初始化飞蛾种群，其中，初始飞蛾种群中包括多个飞蛾智能体；每个飞蛾智能体表示一种可选天线权值组，天线权值组中的每一个权值代表一个子波束。

假设备选子波束集合中包括200个备选子波束，且每个子波束具有唯一的编号（1-200），目标天线权值组的权值数量为8，那么在初始化飞蛾种群时，每个飞蛾智能体可表示为W={w1，w2，w3，w4，w5，w6，w7，w8}，其中，w1至w8随机选择编号1-200的备选子波束，且同一飞蛾智能体中，一个编号只能出现一次，也即，每个飞蛾智能体必须包含8个不同的备选子波束。

步骤S106，利用预设飞蛾扑火算法对初始飞蛾种群进行迭代更新，直至达到预设结束条件。

传统的飞蛾扑火算法中，每个飞蛾智能体的智能能力较低，通常飞蛾的寻优的轨迹是较为规则弧形，算法沿既定的轨迹进行寻优极多的增大了寻优次数，导致寻优结果不理想，而且算法时间复杂度十分大。有鉴于此，为了解决无效寻优问题，提升算法对MIMO天线权值组的寻优速度，本发明实施例利用预设飞蛾扑火算法对初始飞蛾种群进行迭代更新，其中，预设飞蛾扑火算法为基于策略函数和贪婪算法确定每代飞蛾种群中每个飞蛾智能体的动作的算法；飞蛾智能体的动作用于表征相应的可选天线权值组中待修改的权值。

在利用上述预设飞蛾扑火算法对飞蛾种群进行迭代更新，并达到预设结束条件之后，即可停止迭代。本发明实施例中，预设结束条件可以根据飞蛾智能体的数量进行设置，也可以根据飞蛾智能体的策略函数进行设置，本发明实施例不对其进行具体限定，用户可以根据实际需求进行选择。

步骤S108，将预设结束条件下的最优飞蛾智能体对应的可选天线权值组确定为待优化MIMO地理区域的目标天线权值组。

在本发明实施例中，最优飞蛾智能体表示备选子波束集合中使得上述待优化MIMO地理区域内所有栅格的RSRP整体最大的天线权值组。

在一个可选的实施方式中，预设结束条件包括：所有飞蛾智能体的当前策略函数相同，或者，当前飞蛾种群中飞蛾智能体的数量为0；上述步骤S106，利用预设飞蛾扑火算法对初始飞蛾种群进行迭代更新，具体包括如下步骤：

步骤S1061，基于贪婪算法和目标飞蛾智能体的策略函数确定目标飞蛾智能体的动作。

步骤S1062，基于所有飞蛾智能体的动作更新目标飞蛾智能体的策略函数、所有飞蛾智能体的平均策略函数和当前飞蛾种群。

通过上文中的介绍可知，采用群体智能算法作为寻优算法时，群体智能中的个体智能能力有限，只能局限于较为规律的螺旋方向寻优，为了解决这个问题，本发明实施例采用多智能体强化学习的方法来强化群体智能的动作决策，将飞蛾扑火中的寻优动作从传统的规则弧形寻优轨迹优化成通过强化学习方法进行寻优方向的决策问题，将飞蛾智能体的动作设为其寻优方向，由强化学习给出最优的寻优轨迹。在这种情况下，飞蛾单智能体可避免很多无效寻优过程。其中，飞蛾智能体的每次动作即改变其自身的一个子波束编号，不同的子波束编号表示不同的运动方向，并且搜索范围采用Wolf-PHC算法。

具体的，飞蛾种群中的所有飞蛾智能体共同组成了MIMO天线权值组寻优***，每个飞蛾智能体的最终目标都是使自己收益最大化。且飞蛾种群初次迭代时，每个飞蛾智能体的策略函数都是随机生成的，并且，飞蛾智能体所执行的动作（寻优方向）都是根据策略函数采用ε贪婪算法选择的。在本发明实施例中，飞蛾种群的每次迭代更新都是从根据贪婪算法和目标飞蛾智能体的策略函数确定目标飞蛾智能体的动作开始，其中，目标飞蛾智能体表示当前飞蛾种群中的任一个飞蛾智能体；初次迭代时，当前飞蛾种群为初始飞蛾种群。

当目标飞蛾智能体做出相应的动作之后，待优化MIMO地理区域将反馈给目标飞蛾智能体回报，进而飞蛾智能体可根据其回报更新自身策略函数，且只有在飞蛾种群中的所有飞蛾智能体均得到相应回报之后，才能更新所有飞蛾智能体的平均策略函数，以及更新当前飞蛾种群。

在得到所有飞蛾智能体的当前策略函数，以及更新后的当前飞蛾种群之后，判断当前种群情况是否达到上述预设结束条件（所有飞蛾智能体的当前策略函数相同，或者，当前飞蛾种群中飞蛾智能体的数量为0），如果未达到，则返回步骤S1061进入下一次迭代，通过不断地迭代更新，飞蛾智能体的策略函数会逐渐稳定，最终收敛于使飞蛾智能体自身收益最大的策略；如果达到预设结束条件，则结束迭代，并确定出最优飞蛾智能体。

在一个可选的实施方式中，上述步骤S1062，基于所有飞蛾智能体的动作更新目标飞蛾智能体的策略函数、所有飞蛾智能体的平均策略函数和当前飞蛾种群，具体包括如下步骤：

步骤S10621，在目标飞蛾智能体执行相应的动作之后，确定待优化MIMO地理区域反馈给目标飞蛾智能体的回报。

图2为本发明实施例提供的一种MIMO资源优化方法的算法框架图，图2中，飞蛾智能体1、2、3均是预设飞蛾扑火算法中的单个飞蛾智能体，这些独立的飞蛾智能体构成了一个多智能体***，可以建模为Dec-POMDP模型，在数学上，一个Dec-POMDP可以被形式化为一个五元组<N，S，A_i，O_i，R>，其中，N表示飞蛾智能体的集合，S表示全局状态集合（多飞蛾智能体的状态集合），A_i表示飞蛾智能体i的行动集合，O_i表示飞蛾智能体i的局部观察集合（局部观测信号集合），R表示回报。

在本发明实施例中，若目标天线权值组的权值数量为M，那么第i个飞蛾智能体在第t代的局部观察集合可以表示为：O_t=[x_1,t-1，x_2,t-1，…x_M,t-1,]，由于飞蛾种群每次寻优之后，每个飞蛾智能体都会确定一个相应的可选天线权值组，每个可选天线权值组均由M个子波束组成，将第i个飞蛾智能体所表示的可选天线权值组与当前记录最好结果（回报最大）的天线权值组进行对位比较，如果权值相同就将观测信号x记为1，不同则将观测信号x记为0，进而得到第i个飞蛾智能体的局部观察集合，也即，O_t是一个M位二进制编码，飞蛾智能体的局部观察集合即当前MIMO寻优的状态，该状态以所有智能体最后一次动作完成后的那一时刻决定的。

飞蛾智能体能够根据待优化MIMO地理区域反馈的本地观测信号和相应的当前策略函数采取行动（执行动作），动作执行之后，待优化MIMO地理区域立即反馈给目标飞蛾智能体一个回报Reward，这个状态s会过渡到一个新的状态s’。每个飞蛾智能体的学习目标是得到使其期望回报最大化的策略函数。在本发明实施例中，策略函数是一种映射关系，是观察向动作的概率映射。

当前飞蛾种群中所有飞蛾智能体的回报表示为

，其中，

表示回报计算函数，

表示飞蛾智能体i在第t代执行的动作，

表示第t代飞蛾种群中飞蛾智能体的数量，

表示飞蛾智能体i在第t代执行动作的回报。在本发明实施例中，回报计算函数采用飞蛾智能体的目标函数。

步骤S10622，基于回报更新目标飞蛾智能体的动作期望值和相应的策略函数。

多智能体***中的策略生成学***稳学习问题)，它是由其他智能体带来的噪声信号引起的，直接应用单智能体强化学习(如Q-learning、策略梯度)将会严重受到不收敛问题的影响。因此，本发明实施例在***中引入了一种增强的策略梯度算法，即狼性爬山算法(Wolf-PHC)。Wolf-PHC采用了“要么赢，要么快学”的方案(即赢的时候学慢，输的时候学快)，通过不同的学习速率来激励奖励收益。因此，只有在每个飞蛾智能体得到相应的回报之后，才能根据回报更新其动作期望值，进而更新策略函数。

可选的，基于回报更新目标飞蛾智能体的动作期望值和相应的策略函数，具体包括如下内容：

首先，利用算式

更新目标飞蛾智能体的动作期望值；其中，

表示目标飞蛾智能体i在第t+1代执行动作

的动作期望值，

表示学习率，且

，

表示目标飞蛾智能体i在第t代执行动作

的动作期望值，期望值越大说明选择这个动作越好。

表示目标飞蛾智能体i在第t代执行动作

的回报，

表示折扣因子，且

，折扣因子决定未来回报的重要性。

表示目标飞蛾智能体i在第1至t代执行动作的最大动作期望值。

然后，利用算式

更新目标飞蛾智能体相应的策略函数；其中，

表示目标飞蛾智能体i在第t+1代执行动作

的策略函数，

表示目标飞蛾智能体i在第t代执行动作

的策略函数，

，

表示第一预设数值，

表示第二预设数值，M表示目标天线权值组的权值数量，

表示目标飞蛾智能体i在第t代执行动作

的动作期望值，A表示目标飞蛾智能体i在第t代的所有可选动作的集合，

表示目标飞蛾智能体i在第t代执行动作

的策略函数。

在飞蛾种群迭代更新过程中，飞蛾智能体不断更新他们的策略函数，以最大限度地实现预期目标，然后减少其他动作选择的概率，并使得策略函数朝向最优策略更新，通过向环境（待优化MIMO地理区域）学习使回报累积最大化。为了更新目标飞蛾智能体相应的策略函数，WoLF机制采用了两种学习率：胜利时学习率和失败时学习率，胜利时学习率慢，而失败时学习率快。在本发明实施例中，当

时（表示胜利），谨慎地采用

更新策略函数（小幅度更新）；否则（失败时），采用

快速的更新（大幅度更新）飞蛾智能体的策略函数。

通过上文中的描述可知，预设结束条件其中一种是：所有飞蛾智能体的当前策略函数相同，因此，在得到所有飞蛾智能体更新后的策略函数之后，判断所有飞蛾智能体的当前策略函数是否相同，如果相同，则停止对飞蛾种群的迭代，并输出寻优结果。

步骤S10623，基于所有飞蛾智能体的策略函数更新平均策略函数。

初始状态下，所有飞蛾智能体的策略函数都是随机的，且平均策略函数为所有飞蛾智能体的策略函数的平均值，但是，当飞蛾种群开始迭代更新之后，在本发明实施例中，基于所有飞蛾智能体的策略函数更新平均策略函数，具体包括如下内容：

利用算式

更新所有飞蛾智能体的平均策略函数；其中，

表示所有飞蛾智能体在第t+1代的平均策略函数，

表示所有飞蛾智能体在第t代的平均策略函数，

表示目标飞蛾智能体i在第t代执行动作

的策略函数，

表示当前飞蛾种群中飞蛾智能体的数量。

步骤S10624，将当前飞蛾种群中回报靠后的预设数量个飞蛾智能体淘汰，得到更新后的当前飞蛾种群。

图3为本发明实施例提供的一种MIMO资源优化方法的模型结构设计图，飞蛾种群每次迭代之后，都会将所有的飞蛾智能体的寻优结果进行记录排序，本发明实施例将待优化MIMO地理区域反馈给各个飞蛾智能体的回报作为寻优结果，回报最大值作为当前飞蛾适应度值（目标函数）。同时，飞蛾智能体需根据回报更新各自的策略函数，上文中已对该过程进行介绍，此处不再赘述。

在将所有飞蛾智能体的回报进行排序之后，需要执行撞火操作，也即淘汰操作，将当前飞蛾种群中回报靠后的预设数量个飞蛾智能体淘汰，得到更新后的当前飞蛾种群，并将更新后的当前飞蛾种群重新定义为飞蛾种群的初始位置（图3中，预设数量取值为2）。同时，还需将当前飞蛾种群的最优解（最大回报值）与截止当前寻优的回报最大值maxtrag进行比较，如果大于maxTrag，则更新maxTrag。

多次执行上述更新步骤之后，如果始终无法满足所有飞蛾智能体的当前策略函数相同，则只有在更新后的当前飞蛾种群中的飞蛾智能体数量为0时，停止迭代，并输出最终的寻优结果。

在一个可选的实施方式中，上述步骤S10621，确定待优化MIMO地理区域反馈给目标飞蛾智能体的回报，具体包括如下步骤：

步骤S106211，确定待优化MIMO地理区域采用更新后的天线权值组的情况下，待优化MIMO地理区域中目标栅格的数量。

通过上文中的描述可知，MIMO天线权值寻优就是要找到一组子波束使得待优化MIMO地理区域内所有栅格的RSRP整体最大。已知每一个子波束在对应的栅格上有一个RSRP，且每个栅格上的RSRP值应该是MIMO天线权值组中预设数量个子波束RSRP值中的最大值。为了便于理解，下面举例说明，若目标天线权值组中包括5个权值，针对栅格g，5个权值对应的5子波束在栅格g上的RSRP分别为{P1，P2，P3，P4，P5}，且已知P2为P1至P5中的最大值，那么栅格g的RSRP值即为P2。

在本发明实施例中，备选子波束集合中的每个子波束在各个栅格上的RSRP是存储在预设数据表中的，因此，在目标飞蛾智能体执行相应的动作，也即，得到更新后的天线权值组之后，首先通过查表的方式确定出当前目标飞蛾智能体所包含的每个子波束在所有栅格上的RSRP，进而确定出每个栅格的RSRP值。接下来，通过将每个栅格的RSRP值与预设阈值进行比较，即可确定出待优化MIMO地理区域中目标栅格的数量，其中，目标栅格为参考信号接收功率大于预设阈值的栅格；更新后的天线权值组为当前目标飞蛾智能体所对应的可选天线权值组。

步骤S106212，基于目标栅格的数量和待优化MIMO地理区域中所有栅格的数量确定目标飞蛾智能体的回报。

在得到更新后的天线权值组对应的目标栅格的数量之后，将目标栅格的数量与待优化MIMO地理区域中所有栅格的数量的比值作为目标飞蛾智能体的回报，也即，目标栅格越多，目标飞蛾智能体的回报值越大。

图4为本发明实施例提供的一种MIMO资源优化方法（也即，多智能体飞蛾算法）与现有的爬山算法的寻优时长比较图，通过图4可知，多智能体强化学习优化群体智能的MIMO权值组寻优方法的算法收敛速度远快于爬山这样的启发式算法，同时受到MIMO权值波束数量的影响也相对较小因此，比启发式算法MIMO寻优模型的稳定性更强。

综上所述，本发明实施例提供的MIMO资源优化方法，通过多智能体强化学习来优化群体智能飞蛾扑火算法中的飞蛾单智能体动作策略，解决了启发式算法中很多无效寻优的问题，提升了算法在MIMO天线权值组合寻优的速度；并且，通过飞蛾扑火中的撞火操作始终保留距离目标权值点最近的寻优节点，还能避免启发式算法中起点距寻优起点距离比较的远情况导致的搜索时长过长的问题，以及容易陷入局部优解的问题。

实施例二

本发明实施例还提供了一种MIMO资源优化装置，该MIMO资源优化装置主要用于执行上述实施例一所提供的MIMO资源优化方法，以下对本发明实施例提供的MIMO资源优化装置做具体介绍。

图5是本发明实施例提供的一种MIMO资源优化装置的功能模块图，如图5所示，该装置主要包括：获取模块10，第一确定模块20，迭代更新模块30，第二确定模块40，其中：

获取模块10，用于获取待优化MIMO地理区域的备选子波束集合和目标天线权值组的权值数量。

第一确定模块20，用于基于权值数量和备选子波束集合确定初始飞蛾种群；其中，初始飞蛾种群中包括多个飞蛾智能体；每个飞蛾智能体表示一种可选天线权值组。

迭代更新模块30，用于利用预设飞蛾扑火算法对初始飞蛾种群进行迭代更新，直至达到预设结束条件；其中，预设飞蛾扑火算法为基于策略函数和贪婪算法确定每代飞蛾种群中每个飞蛾智能体的动作的算法；飞蛾智能体的动作用于表征相应的可选天线权值组中待修改的权值。

第二确定模块40，用于将预设结束条件下的最优飞蛾智能体对应的可选天线权值组确定为待优化MIMO地理区域的目标天线权值组。

本发明提供的MIMO资源优化装置，包括：获取模块10，用于获取待优化MIMO地理区域的备选子波束集合和目标天线权值组的权值数量；第一确定模块20，用于基于权值数量和备选子波束集合确定初始飞蛾种群；其中，初始飞蛾种群中包括多个飞蛾智能体；每个飞蛾智能体表示一种可选天线权值组；迭代更新模块30，用于利用预设飞蛾扑火算法对初始飞蛾种群进行迭代更新，直至达到预设结束条件；其中，预设飞蛾扑火算法为基于策略函数和贪婪算法确定每代飞蛾种群中每个飞蛾智能体的动作的算法；飞蛾智能体的动作用于表征相应的可选天线权值组中待修改的权值；第二确定模块40，用于将预设结束条件下的最优飞蛾智能体对应的可选天线权值组确定为待优化MIMO地理区域的目标天线权值组。

本发明所提供的MIMO资源优化装置，其执行的MIMO资源优化方法采用的预设飞蛾扑火算法是基于策略函数和贪婪算法确定每代飞蛾种群中每个飞蛾智能体的动作的算法，相比传统群体智能飞蛾扑火算法中的飞蛾单智能体的固定动作策略，本发明方法解决了传统算法存在的无效寻优问题，提升了算法对MIMO天线权值组的寻优速度。

可选地，预设结束条件包括：所有飞蛾智能体的当前策略函数相同，或者，当前飞蛾种群中飞蛾智能体的数量为0；迭代更新模块30包括：

确定单元，基于贪婪算法和目标飞蛾智能体的策略函数确定目标飞蛾智能体的动作；其中，目标飞蛾智能体表示当前飞蛾种群中的任一个飞蛾智能体；初次迭代时，当前飞蛾种群为初始飞蛾种群。

更新单元，用于基于所有飞蛾智能体的动作更新目标飞蛾智能体的策略函数、所有飞蛾智能体的平均策略函数和当前飞蛾种群。

可选地，更新单元包括：

第一确定子单元，用于在目标飞蛾智能体执行相应的动作之后，确定待优化MIMO地理区域反馈给目标飞蛾智能体的回报。

第一更新子单元，用于基于回报更新目标飞蛾智能体的动作期望值和相应的策略函数。

第二更新子单元，用于基于所有飞蛾智能体的策略函数更新平均策略函数。

淘汰单元，用于将当前飞蛾种群中回报靠后的预设数量个飞蛾智能体淘汰，得到更新后的当前飞蛾种群。

可选地，第一更新子单元具体用于：

利用算式

更新目标飞蛾智能体的动作期望值；其中，

表示目标飞蛾智能体i在第t+1代执行动作

的动作期望值，

表示学习率，且

，

表示目标飞蛾智能体i在第t代执行动作

的动作期望值，

表示目标飞蛾智能体i在第t代执行动作

的回报，

表示折扣因子，且

，

利用算式

更新目标飞蛾智能体相应的策略函数；其中，

表示目标飞蛾智能体i在第t+1代执行动作

的策略函数，

表示目标飞蛾智能体i在第t代执行动作

的策略函数，

，

表示第一预设数值，

表示第二预设数值，M表示目标天线权值组的权值数量，

表示目标飞蛾智能体i在第t代执行动作

表示目标飞蛾智能体i在第t代执行动作

的策略函数。

可选地，第二更新子单元具体用于：

利用算式

更新所有飞蛾智能体的平均策略函数；其中，

表示所有飞蛾智能体在第t+1代的平均策略函数，

表示所有飞蛾智能体在第t代的平均策略函数，

表示目标飞蛾智能体i在第t代执行动作

的策略函数，

表示当前飞蛾种群中飞蛾智能体的数量。

可选地，第一确定子单元具体用于：

确定待优化MIMO地理区域采用更新后的天线权值组的情况下，待优化MIMO地理区域中目标栅格的数量；其中，目标栅格为参考信号接收功率大于预设阈值的栅格；更新后的天线权值组为当前目标飞蛾智能体所对应的可选天线权值组。

基于目标栅格的数量和待优化MIMO地理区域中所有栅格的数量确定目标飞蛾智能体的回报。

实施例三

参见图6，本发明实施例提供了一种电子设备，该电子设备包括：处理器60，存储器61，总线62和通信接口63，所述处理器60、通信接口63和存储器61通过总线62连接；处理器60用于执行存储器61中存储的可执行模块，例如计算机程序。

其中，存储器61可能包含高速随机存取存储器（RAM，Random Access Memory），也可能还包括非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。通过至少一个通信接口63（可以是有线或者无线）实现该***网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线62可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器61用于存储程序，所述处理器60在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器60中，或者由处理器60实现。

处理器60可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器60中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器60可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器61，处理器60读取存储器61中的信息，结合其硬件完成上述方法的步骤。

本发明实施例所提供的一种MIMO资源优化方法方法、装置和电子设备的计算机程序产品，包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

此外，术语“水平”、“竖直”、“悬垂”等术语并不表示要求部件绝对水平或悬垂，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种MIMO资源优化方法，其特征在于，包括：

获取待优化MIMO地理区域的备选子波束集合和目标天线权值组的权值数量；

基于所述权值数量和所述备选子波束集合确定初始飞蛾种群；其中，所述初始飞蛾种群中包括多个飞蛾智能体；每个所述飞蛾智能体表示一种可选天线权值组；

利用预设飞蛾扑火算法对所述初始飞蛾种群进行迭代更新，直至达到预设结束条件；其中，所述预设飞蛾扑火算法为基于策略函数和贪婪算法确定每代飞蛾种群中每个飞蛾智能体的动作的算法；所述飞蛾智能体的动作用于表征相应的所述可选天线权值组中待修改的权值；

将所述预设结束条件下的最优飞蛾智能体对应的可选天线权值组确定为所述待优化MIMO地理区域的目标天线权值组。

2.根据权利要求1所述的方法，其特征在于，所述预设结束条件包括：所有所述飞蛾智能体的当前策略函数相同，或者，当前飞蛾种群中飞蛾智能体的数量为0；

所述利用预设飞蛾扑火算法对所述初始飞蛾种群进行迭代更新，包括：

基于所述贪婪算法和目标飞蛾智能体的策略函数确定所述目标飞蛾智能体的动作；其中，所述目标飞蛾智能体表示当前飞蛾种群中的任一个飞蛾智能体；初次迭代时，所述当前飞蛾种群为所述初始飞蛾种群；

基于所有所述飞蛾智能体的动作更新所述目标飞蛾智能体的策略函数、所有飞蛾智能体的平均策略函数和当前飞蛾种群。

3.根据权利要求2所述的方法，其特征在于，所述基于所有所述飞蛾智能体的动作更新所述目标飞蛾智能体的策略函数、所有飞蛾智能体的平均策略函数和当前飞蛾种群，包括：

在所述目标飞蛾智能体执行相应的动作之后，确定所述待优化MIMO地理区域反馈给所述目标飞蛾智能体的回报；

基于所述回报更新所述目标飞蛾智能体的动作期望值和相应的所述策略函数；

基于所有所述飞蛾智能体的策略函数更新所述平均策略函数；

将所述当前飞蛾种群中回报靠后的预设数量个飞蛾智能体淘汰，得到更新后的当前飞蛾种群。

4.根据权利要求3所述的方法，其特征在于，所述基于所述回报更新所述目标飞蛾智能体的动作期望值和相应的所述策略函数，包括：

利用算式

更新所述目标飞蛾智能体的动作期望值；其中，

表示目标飞蛾智能体i在第t+1代执行动作

的动作期望值，

表示学习率，且

，

表示所述目标飞蛾智能体i在第t代执行动作

的动作期望值，

表示所述目标飞蛾智能体i在第t代执行动作

的回报，

表示折扣因子，且

，

表示所述目标飞蛾智能体i在第1至t代执行动作的最大动作期望值；

利用算式

更新所述目标飞蛾智能体相应的所述策略函数；其中，

表示所述目标飞蛾智能体i在第t+1代执行动作

的策略函数，

表示所述目标飞蛾智能体i在第t代执行动作

的策略函数，

，

表示第一预设数值，

表示第二预设数值，M表示所述目标天线权值组的权值数量，

表示所述目标飞蛾智能体i在第t代执行动作

表示所述目标飞蛾智能体i在第t代执行动作

的策略函数。

5.根据权利要求3所述的方法，其特征在于，所述基于所有所述飞蛾智能体的策略函数更新所述平均策略函数，包括：

利用算式

更新所述所有飞蛾智能体的平均策略函数；其中，

表示所述所有飞蛾智能体在第t+1代的平均策略函数，

表示所述所有飞蛾智能体在第t代的平均策略函数，

表示所述目标飞蛾智能体i在第t代执行动作

的策略函数，

表示所述当前飞蛾种群中飞蛾智能体的数量。

6.根据权利要求3所述的方法，其特征在于，确定所述待优化MIMO地理区域反馈给所述目标飞蛾智能体的回报，包括：

确定所述待优化MIMO地理区域采用更新后的天线权值组的情况下，所述待优化MIMO地理区域中目标栅格的数量；其中，所述目标栅格为参考信号接收功率大于预设阈值的栅格；所述更新后的天线权值组为当前目标飞蛾智能体所对应的可选天线权值组；

基于所述目标栅格的数量和所述待优化MIMO地理区域中所有栅格的数量确定所述目标飞蛾智能体的回报。

7.一种MIMO资源优化装置，其特征在于，包括：

获取模块，用于获取待优化MIMO地理区域的备选子波束集合和目标天线权值组的权值数量；

第一确定模块，用于基于所述权值数量和所述备选子波束集合确定初始飞蛾种群；其中，所述初始飞蛾种群中包括多个飞蛾智能体；每个所述飞蛾智能体表示一种可选天线权值组；

迭代更新模块，用于利用预设飞蛾扑火算法对所述初始飞蛾种群进行迭代更新，直至达到预设结束条件；其中，所述预设飞蛾扑火算法为基于策略函数和贪婪算法确定每代飞蛾种群中每个飞蛾智能体的动作的算法；所述飞蛾智能体的动作用于表征相应的所述可选天线权值组中待修改的权值；

第二确定模块，用于将所述预设结束条件下的最优飞蛾智能体对应的可选天线权值组确定为所述待优化MIMO地理区域的目标天线权值组。

8.根据权利要求7所述的装置，其特征在于，所述预设结束条件包括：所有所述飞蛾智能体的当前策略函数相同，或者，当前飞蛾种群中飞蛾智能体的数量为0；

所述迭代更新模块包括：

确定单元，基于所述贪婪算法和目标飞蛾智能体的策略函数确定所述目标飞蛾智能体的动作；其中，所述目标飞蛾智能体表示当前飞蛾种群中的任一个飞蛾智能体；初次迭代时，所述当前飞蛾种群为所述初始飞蛾种群；

更新单元，用于基于所有所述飞蛾智能体的动作更新所述目标飞蛾智能体的策略函数、所有飞蛾智能体的平均策略函数和当前飞蛾种群。

9.一种电子设备，包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至6中任一项所述的方法的步骤。

10.一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行权利要求1至6中任一项所述的方法。