CN114501530A

CN114501530A - 基于深度强化学习的天线参数的确定方法和装置

Info

Publication number: CN114501530A
Application number: CN202011172142.8A
Authority: CN
Inventors: 王西点; 高鹏; 石铎; 王磊; 徐晶; 周胜; 高峰; 贾子寒; 聂臻霖; 王亚楠
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Design Institute Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Design Institute Co Ltd
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2022-05-13
Anticipated expiration: 2040-10-28
Also published as: CN114501530B

Abstract

本发明实施例提供一种基于深度强化学***波瓣宽度；基于栅格化的MDT数据构成环境状态矩阵，所述栅格化的MDT数据包括用户终端分布栅格数据、用户终端RSRP栅格数据和用户终端干扰栅格数据；将环境状态矩阵输入天线参数优化模型，输出天线下倾角和方位角组合；其中，天线参数优化模型是基于样本环境状态矩阵和天线下倾角和方位角组合标签进行训练得到的，天线参数优化模型的训练网络为深度强化学习DQN网络。本发明实施例提供的方法和装置，实现了基于环境状态准确、快速实现不同用户环境分布下的天线权值参数优化。

Description

基于深度强化学习的天线参数的确定方法和装置

技术领域

本发明涉及天线参数技术领域，尤其涉及一种基于深度强化学习的天线参数的确定方法和装置。

背景技术

Massive-MIMO大规模天线阵列技术的成熟为5G时代提供了更好覆盖保障和频谱效应。其可调节的多种波束赋型，能针对多种场景实现更优的波束赋型配置，有效改善用户体验。但Massive-MIMO天线权值多维可调整参数在不同用户分布场景的优化选择带来了巨大挑战。其中根据天线设备厂家权值配置具体包括：整体赋型波束的水平宽度、垂直宽度、电子方位角以及电子下倾角四个参数的调整，其权值组合优化的候选空间解达到数万种，现有塔工上站结合专家经验的传统调整方式难以适用。不同的用户分布场景对应不同的天线权值配置组合，如何能合理、科学的利用终端用户分布数据来指导权值实现自动智能优化，成为提升天线增益和用户感知的关键。

目前，现网中天线权值的优化处理主要由网优专家经验结合地理场景进行分析选择。此处理方法一方面存在重要问题遗漏，难以实现对全局最优配置方案；另一方面虽然现有一些研究利用相关算法实现天线权值参数优化，但缺乏对不同用户分布下的天线权值参数优化。

目前现有的对天线权值参数优化的方法中，包括：对天线的每一权值参数按照预设幅度进行增大和减小的双向调整，并在各调整方向下对应的网络性能指标收益；直至权值参数超过预设门限。但该方法存在网络性能指标收益存在反馈周期长，难以快速实现权值优化。同时针对多种不同用户和环境分布，难以有效实现当前天线权值参数的最佳优化。其他方法还有根据用户定位方法，获取栅格化的MR数据；根据所述栅格化的MR数据和小区的流量指标数据,获取小区的话务地图；根据所述栅格化的MR数据和所述话务地图，识别小区的覆盖场景；根据所述覆盖场景，优化单个小区的天线权值；根据所述单个小区的天线权值和遗传算法，优化区域内多个小区的天线权值。但MR数据存在用户分布信息定位不准，数据准确性差，无法准确反应某个区域的信号特征。同时遗传算法在多小区的区域调整中大量配置方案中难以收敛到最佳优化方案，迭代寻优周期长，难以准确、快速实现不同用户环境分布下的天线权值参数优化。

随着近年机器学习的兴起，对天线权值参数优化的方案有基于传播模型的仿真寻优，其中传播模型难以刻画真实的用户分布环境状态空间，无法实现针对不同用户分布下的天线权值参数优化调整。同时目前的传播模型仿真，在真实场景下，存在较大偏差，难以获得准确有效的优化配置参数。

当前还包括一种基于MR数据采用遗传算法的天线权值参数优化算法。其中，MR数据存在用户分布信息定位不准，数据准确性差，无法准确反应某个区域的信号特征。而遗传算法在多小区的区域调整中大量配置方案中难以收敛到最佳优化方案，迭代寻优周期长。综上所述，该方法难以准确、快速实现不同用户环境分布下的天线权值参数优化。

因此，现有技术不适合应用于不同用户分布下天线权值参数优化的场景。如何能充分分析用户分布环境空间与天线权值参数之间的关联性，进而合理调整天线权值参数，是提升网络覆盖以及干扰等指标的动态均衡优化要求的关键。

因此，如何避免现有的天线权值参数优化方法不能实现不同用户分布场景下的自适应问题，迭代寻优周期长且难以准确、快速实现不同用户环境分布下的天线权值参数优化的困扰，仍然是本领域技术人员亟待解决的问题。

发明内容

本发明实施例提供一种基于深度强化学习的天线参数的确定方法和装置，用以解决现有技术中天线权值参数优化方法不能实现不同用户分布场景下的自适应问题，迭代寻优周期长且难以准确、快速实现不同用户环境分布下的天线权值参数优化的问题。

第一方面，本发明实施例提供一种基于深度强化学习的天线参数的确定方法，包括：

获取用户终端上报的MDT数据和小区基站工参资源数据；

基于所述MDT数据和小区基站工参资源数据中提取的用户终端和小区基站位置信息确定天线垂直波瓣宽度，基于所述MDT数据中提取的用户终端分布确定天线水平波瓣宽度；

基于栅格化的MDT数据构成环境状态矩阵，所述栅格化的MDT数据包括用户终端分布栅格数据、用户终端RSRP栅格数据和用户终端干扰栅格数据；

将所述环境状态矩阵输入天线参数优化模型，输出对应于所述环境状态矩阵的天线下倾角和方位角组合；

其中，所述天线参数优化模型是基于样本环境状态矩阵和对应的天线下倾角和方位角组合标签进行训练得到的，所述天线参数优化模型的训练网络为深度强化学习DQN网络。

优选地，该方法中，所述基于所述MDT数据和小区基站工参资源数据中提取的用户终端和小区基站位置信息确定天线垂直波瓣宽度，具体包括：

对所述MDT数据中提取的所有用户终端的位置以及所述小区基站工参资源数据中提取的小区基站的位置进行关联，确定属于该小区的W个用户终端；

基于所述MDT数据确定任一用户终端的位置高度h_i，i＝1,2,...,W，以及所述小区基站工参资源数据确定的基站高度H通过如下阶梯判定方式确定垂直波瓣宽度：

若满足h_i-H≥50的用户终端占W个用户终端的比例超过第一阈值，则确定天线垂直波瓣宽度为M₁度；

若满足25≤h_i-H<50的用户终端占W个用户终端的比例超过第二阈值，则确定天线垂直波瓣宽度为M₂度；

若不满足上述任一条件，则确定天线垂直波瓣宽度为M₃度；

其中，M₁、M₂和M₃均为正整数，且M₁>M₂>M₃。

优选地，该方法中，所述基于所述MDT数据中提取的用户终端分布确定天线水平波瓣宽度，具体包括：

采用聚类算法对所述MDT数据中的用户位置进行热点聚类，确定用户分布的中心点为聚类中心点；

以所述小区基站到所述用户分布的中心点的方向为法线按照15度步长向两侧扩张，当扩张区域内覆盖用户终端占用户终端总数的比例超过第三阈值时，记录当前扩张角度，并确定天线水平波瓣宽度为大于当前扩张角度的最小水平波瓣宽度。

优选地，该方法中，所述基于栅格化的MDT数据构成环境状态矩阵，所述栅格化的MDT数据包括用户终端分布栅格数据、用户终端RSRP栅格数据和用户终端干扰栅格数据，具体包括：

以所述小区基站的位置为中心点，对所述中心点预设范围内的三维空间进行基于预设步长的三维栅格化，形成用户终端分布栅格三维空间、用户终端RSRP栅格三维空间和用户终端干扰栅格三维空间；

所述用户终端分布栅格三维空间的栅格(i,j,k)的表征值S_usr_raste_i,j,k通过如下公式计算：

所述用户终端RSRP栅格三维空间的栅格(i,j,k)的表征值S_rsrp_raste_i,j,k通过如下公式计算：

S_rsrp_raste_i,j,k＝avg(usr_rsrp_i,j,k)

所述用户终端干扰栅格三维空间的栅格(i,j,k)的表征值S_rsrp_raste_i,j,k通过如下公式计算：

其中，usr_i,j,k为栅格(i,j,k)空间内包含用户终端的个数，Σusr_i,j,k为所述中心点预设范围内的三维空间内包含用户终端的总数，usr_rsrp_i,j,k为栅格(i,j,k)空间内各用户终端的RSRP信号强度值，avg(usr_rsrp_i,j,k)为栅格(i,j,k)空间内所有用户终端的RSRP信号强度取平均，usr_over_i,j,k为栅格(i,j,k)空间内判断为重叠覆盖用户终端的个数，所述重叠覆盖用户终端的判定规则为若满足当前用户终端接收所述小区基站的RSRP信号强度与相邻小区基站的RSRP信号强度之差小于第四阈值的相邻小区的个数超过第五阈值，则所述当前用户终端为重叠覆盖用户终端；

将所述用户终端分布栅格三维空间、所述用户终端RSRP栅格三维空间和所述用户终端干扰栅格三维空间以同一方向进行排列拼接，得到环境状态矩阵。

优选地，该方法中，所述天线参数优化模型是基于样本环境状态矩阵和对应的天线下倾角和方位角组合标签进行训练得到的，所述天线参数优化模型的训练网络为深度强化学习DQN网络，具体包括：

提取历史用户终端上报的MDT数据和小区基站工参资源数据以及对应的小区基站天线的最优下倾角和方位角组合，分别构成样本环境状态矩阵和对应的天线下倾角和方位角组合标签，其中，所述样本环境状态矩阵包括基于历史用户终端上报的MDT数据得到的用户终端分布栅格数据、用户终端RSRP栅格数据和用户终端干扰栅格数据；

基于所述样本环境状态矩阵建立状态集，基于对应的天线下倾角和方位角组合标签建立动作集；

基于状态集和动作集建立动作值评价函数Q(S，A；θ),θ为训练过程中不断调整的网络参数向量；

进行初始化，在第t次迭代中，在状态集S_t下执行动作集A_t得到新状态集S_t+1，基于Bellman方程按下式更新当前网络参数向量θ_t得到第t+1次迭代的网络参数向量θ_t+1:

其中，α为表示学习率的超参数，取值范围为(0,1)，γ为折扣系数，取值范围为(0,1)，R_t表示当前状态S_t下执行动作A_t的立即回报，

表示在状态S_t下执行动作A_t获得的评价值对网络参数向量θ_t的梯度，maxQ(S_t+1,A_t+1；θ_t)表示在状态S_t下执行动作A_t后获得新的状态S_t+1再在状态S_t+1下执行所有动作能够获得的最大评价值；

反复迭代，直到达到最大学习次数，或Q的每一行得到最大值。

优选地，该方法中，所述当前状态S_t下执行动作A_t的立即回报R_t通过如下公式计算：

其中，

为当前状态S_t下对应的用户终端分布栅格三维空间的栅格(i,j,k)的表征值，

为当前状态S_t下对应的用户终端RSRP栅格三维空间的栅格(i,j,k)的表征值，

为当前状态S_t下对应的用户终端干扰栅格三维空间的栅格(i,j,k)的表征值，score_rsrp_t表示当前状态S_t下覆盖信号强度得分值，score_over_t表示当前状态S_t下过覆盖情况得分值，d_rsrp_t表示当前状态S_t下执行动作A_t后的时刻覆盖信号强度提升值，d_rsrp_t表示当前状态S_t下执行动作A_t后的时刻过覆盖情况改善值，a和b均为可调加权系数。

第二方面，本发明实施例提供一种基于深度强化学习的天线参数的确定装置，包括：

获取单元，用于获取用户终端上报的MDT数据和小区基站工参资源数据；

波瓣宽度单元，用于基于所述MDT数据和小区基站工参资源数据中提取的用户终端和小区基站位置信息确定天线垂直波瓣宽度，基于所述MDT数据中提取的用户终端分布确定天线水平波瓣宽度；

状态矩阵单元，用于基于栅格化的MDT数据构成环境状态矩阵，所述栅格化的MDT数据包括用户终端分布栅格数据、用户终端RSRP栅格数据和用户终端干扰栅格数据；

输出单元，用于将所述环境状态矩阵输入天线参数优化模型，输出对应于所述环境状态矩阵的天线下倾角和方位角组合；

优选地，该装置中，所述基于所述MDT数据和小区基站工参资源数据中提取的用户终端和小区基站位置信息确定天线垂直波瓣宽度，具体包括：

若不满足上述任一条件，则确定天线垂直波瓣宽度为M₃度；

其中，M₁、M₂和M₃均为正整数，且M₁>M₂>M₃。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的基于深度强化学习的天线参数的确定的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的基于深度强化学习的天线参数的确定的步骤。

本发明实施例提供的方法和装置，获取用户终端上报的MDT数据和小区基站工参资源数据；基于所述MDT数据和小区基站工参资源数据中提取的用户终端和小区基站位置信息确定天线垂直波瓣宽度，基于所述MDT数据中提取的用户终端分布确定天线水平波瓣宽度；基于栅格化的MDT数据构成环境状态矩阵，所述栅格化的MDT数据包括用户终端分布栅格数据、用户终端RSRP栅格数据和用户终端干扰栅格数据；将所述环境状态矩阵输入天线参数优化模型，输出对应于所述环境状态矩阵的天线下倾角和方位角组合；其中，所述天线参数优化模型是基于样本环境状态矩阵和对应的天线下倾角和方位角组合标签进行训练得到的，所述天线参数优化模型的训练网络为深度强化学习DQN网络。如此，基于栅格化的MDT数据构成环境状态矩阵，所述栅格化的MDT数据包括用户终端分布栅格数据、用户终端RSRP栅格数据和用户终端干扰栅格数据，使得环境状态矩阵能有效地刻画出用户分布、覆盖分布和过覆盖干扰分布情况，将信号覆盖和过覆盖干扰作为天线参数优化目标需要考量的因素，使得MDT数据能被充分的利用到天线参数优化中，其次，基于深度强化学习DQN网络也可以使训练过程的迭代周期短且训练好的天线参数优化模型可以准确、快速实现天线参数优化。因此，本发明实施例提供的方法和装置，实现了充分考虑用户分布的环境状态，准确、快速实现不同用户环境分布下的天线权值参数优化。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于深度强化学习的天线参数的确定方法的流程示意图；

图2为本发明实施例提供的确定天线水平波瓣宽度方法的原理示意图；

图3为本发明实施例提供的一种环境状态矩阵构建实例的原理示意图；

图4为本发明实施例提供的DQN深度强化学习网络的结构示意图；

图5为本发明实施例提供的基于深度强化学习的天线参数的确定装置的结构示意图；

图6为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中天线权值参数优化方法普遍存在不能实现不同用户分布场景下的自适应，迭代寻优周期长且难以准确、快速实现不同用户环境分布下的天线权值参数优化的问题。对此，本发明实施例提供了一种基于深度强化学习的天线参数的确定方法。图1为本发明实施例提供的基于深度强化学习的天线参数的确定方法的流程示意图，如图1所示，该方法包括：

步骤110，获取用户终端上报的MDT数据和小区基站工参资源数据。

具体地，首先获取用户终端上报的MDT数据和小区基站工参资源数据，其中，MDT数据是用来表征用户本征属性的用户位置信息和信号覆盖强度的数据。例如，MDT数据通常包括：用户所在小区的小区编号、经纬度信息、主小区的信号覆盖强度(RSRP)以及信号覆盖质量、多个邻小区的邻区编号、频点、信号覆盖强度等。这些数据表征了用户所在位置和所在小区以及邻区的覆盖强度的本征属性；小区基站工参资源数据是用来表征基站本征属性的参数配置状态数据以及小区标识数据。例如，小区基站工参资源数据通常包括：开通时间、地理位置、厂家、频点号、物理小区标识(Physical Cell Identifier，简称“PCI”)、覆盖场景、天线挂高、方向角下倾角、天线波束配置参数等。这些数据表征了基站的本征属性。本发明实施例首先获取用户终端上报的MDT数据和小区基站工参资源数据，便于为后续确定天线垂直和水平波瓣宽度提供判定依据，并为后续要构建的环境状态矩阵提供数据源。

步骤120，基于所述MDT数据和小区基站工参资源数据中提取的用户终端和小区基站位置信息确定天线垂直波瓣宽度，基于所述MDT数据中提取的用户终端分布确定天线水平波瓣宽度。

具体地，天线垂直波瓣宽度主要考虑的是用户终端在垂直高度上的分布情况，因此，基于所述MDT数据和小区基站工参资源数据中提取的用户终端和小区基站位置信息可以确定用户终端相对于基站的高度分布情况，然后确定天线的垂直波瓣宽度，当用户终端越集中在高层区域，天线的垂直波瓣宽度就需要设置得越大。天线水平波瓣宽度需要考虑的是用户终端在水平面上的横向分布情况，若横向分布越扩散，则水平波瓣宽度就需要设置得越大。上述高度分布情况及横向扩散情况都可以基于预设的判定规则进行判定，此处不作具体限定。

步骤130，基于栅格化的MDT数据构成环境状态矩阵，所述栅格化的MDT数据包括用户终端分布栅格数据、用户终端RSRP栅格数据和用户终端干扰栅格数据。

具体地，对预先获取的MDT数据进行栅格化处理，对于用户终端分布情况的统计栅格化的规格通常采用20米×20米×20米或25米×25米×25米或30米×30米×30米的栅格。对小区进行栅格化后可计算栅格化数据，例如，将一个小区粗略的位置信息(经纬度)细化到每个栅格的位置信息，还可以计算栅格内的性能参数，如每个栅格内主小区信号强度均值、每个栅格内用户终端分布比例和每个栅格内过覆盖干扰情况等，因此，本发明实施例提供的基于栅格化的MDT数据构成环境状态矩阵包括三种栅格数据：用户终端分布栅格数据、用户终端RSRP栅格数据和用户终端干扰栅格数据，即基于划分的栅格三维空间，构建三种栅格数据，每种栅格数据中对应栅格本别用于表征不同的性能参数，如用户终端分布、用户终端RSRP信号强度和用户终端过覆盖干扰。如此，将MDT数据提取多种物理参数来形成环境状态矩阵，以便后续将信号覆盖和过覆盖干扰作为天线参数优化目标需要考量的因素，使得MDT数据能被充分的利用到天线参数优化中。

步骤140，将所述环境状态矩阵输入天线参数优化模型，输出对应于所述环境状态矩阵的天线下倾角和方位角组合；

具体地，将所述环境状态矩阵输入天线参数优化模型，输出对应于所述环境状态矩阵的天线下倾角和方位角组合；其中，所述天线参数优化模型是基于样本环境状态矩阵和对应的天线下倾角和方位角组合标签进行训练得到的。所述样本环境状态矩阵和对应的天线下倾角和方位角组合标签都是基于历史MDT数据和小区基站工参资源数据形成栅格化的MDT数据再组成样本环境状态矩阵，其中，样本环境状态矩阵的构成方式与使用天线参数优化模型时输入的环境状态矩阵的构建方法相同，都是使用步骤130中记载的构建环境状态矩阵的方法，栅格化的历史MDT数据包括用户终端分布栅格数据、用户终端RSRP栅格数据和用户终端干扰栅格数据；而对应的天线下倾角和方位角组合标签则是从历史数据中选出的执行该下倾角和方位角组合后使得主小区信号覆盖率和过覆盖干扰效果最好的动作组合。其次，所述天线参数优化模型的训练网络为深度强化学习DQN网络保证了模型迭代周期短，收敛速度快。

本发明实施例提供的方法，获取用户终端上报的MDT数据和小区基站工参资源数据；基于所述MDT数据和小区基站工参资源数据中提取的用户终端和小区基站位置信息确定天线垂直波瓣宽度，基于所述MDT数据中提取的用户终端分布确定天线水平波瓣宽度；基于栅格化的MDT数据构成环境状态矩阵，所述栅格化的MDT数据包括用户终端分布栅格数据、用户终端RSRP栅格数据和用户终端干扰栅格数据；将所述环境状态矩阵输入天线参数优化模型，输出对应于所述环境状态矩阵的天线下倾角和方位角组合；其中，所述天线参数优化模型是基于样本环境状态矩阵和对应的天线下倾角和方位角组合标签进行训练得到的，所述天线参数优化模型的训练网络为深度强化学习DQN网络。如此，基于栅格化的MDT数据构成环境状态矩阵，所述栅格化的MDT数据包括用户终端分布栅格数据、用户终端RSRP栅格数据和用户终端干扰栅格数据，使得环境状态矩阵能有效地刻画出用户分布、覆盖分布和过覆盖干扰分布情况，将信号覆盖和过覆盖干扰作为天线参数优化目标需要考量的因素，使得MDT数据能被充分的利用到天线参数优化中，其次，基于深度强化学习DQN网络也可以使训练过程的迭代周期短且训练好的天线参数优化模型可以准确、快速实现天线参数优化。因此，本发明实施例提供的方法，实现了充分考虑用户分布的环境状态，准确、快速实现不同用户环境分布下的天线权值参数优化。

基于上述实施例，该方法中，所述基于所述MDT数据和小区基站工参资源数据中提取的用户终端和小区基站位置信息确定天线垂直波瓣宽度，具体包括：

若不满足上述任一条件，则确定天线垂直波瓣宽度为M₃度；

其中，M₁、M₂和M₃均为正整数，且M₁>M₂>M₃。

具体地，本发明实施例采用了阶梯式计算天线垂直波瓣宽度的参数调整策略。

在对天线权值配置参数进行优化时，主要涉及整体赋型波束的水平宽度、垂直宽度、电子方位角以及电子下倾角四个参数的调整。天线权值之间相互影响，水平波瓣宽度和天线方位角之间以及垂直波瓣宽度与下倾角根据权值配置不同，调整的范围也不同。表1为现有天线参数可调范围实例，如表1所示，其中波束场景中H105V6表示水平波瓣宽度为105度，垂直波瓣宽度为6度。

表1现有天线参数可调范围实例表

其中，权值配置参数中的方向角和下倾角以1度为步长进行计算，调整的方案共计5091种，直接进行建模其配置种类，难以获得较好的优化配置策略。因此，提出阶梯式分段方法计算调整波束的垂直波瓣宽度、水平波瓣宽度、下倾角和方位角。其中，阶梯式计算天线权值配置参数调整策略的方法具体步骤如下：

对垂直波瓣宽度进行计算调整，此处优选的设定三种天线垂直波瓣宽度方案(M₁、M₂、M₃，且M₁>M₂>M₃)。以24小时粒度的MDT进行处理，对属于该小区的终端用户进行三维建模刻画，获取终端用户的经纬度信息以及小区基站的位置坐标进行关联，并对位置信息进行坐标转换，将经纬度坐标系转换成墨卡托直角坐标系。转换计算公式如下：

其中，lon_i,lat_i分别表示为采样点(即用户终端)经度和纬度，l为地球长轴半周长，x_i,y_i为转换后得到的新直角坐标系横轴值和纵轴值。对所在小区的MDT数据进行统计，关联基站小区的坐标信息。其中，将MDT的用户终端位置高度h_i结合基站挂高H，进行计算，其中判断优先级如下：

A.计算h_i-H≥50的MDT采样点的数量，i＝1,2,…,W，W为对用户终端的位置以及小区基站的位置进行关联后确定的属于该小区的用户终端的总数，是否满足该数量占总采样点数量比例大于第一阈值如果满足则选择M₁垂直波束宽度，优选地，第一阈值取值0.1；

B.计算25≤h_i-H<50的MDT采样点的数量，i＝1,2,…,W，W为对用户终端的位置以及小区基站的位置进行关联后确定的属于该小区的用户终端的总数，是否满足该数量占总采样点数量比例大于第二阈值如果满足则选择M₂垂直波束宽度，优选地，第二阈值取值0.3；

C.其他情况均采用M₃垂直波束宽度；

对于常用的天线，优选地，M₁＝25，M₂＝12，M₃＝6。

基于上述任一实施例，该方法中，所述基于所述MDT数据中提取的用户终端分布确定天线水平波瓣宽度，具体包括：

具体地，本发明实施例提供的调整水平波瓣宽度方法，采用该小区24小时粒度的MDT数据，并对部分偏离点进行剔除，之后采用聚类算法对MDT数据中用户位置信息进行热点聚类，获得用户分布热点。将聚类中心点作为用户分布的中心点。其中用户分布聚类中心点(x_centre,y_centre)，Kmeans表示一种聚类算法，计算公式如下所示：

(x_centre,y_centre)＝Kmeans(x_i,y_i)

关联用户中心点和小区基站位置，可计算获得用户中心点的所在方位角位置信息。以以所述小区基站到所述用户分布的中心点的方向作为法线方向按照15度步长向两侧进行扩张，当扩张区域可以覆盖全体用户MDT数据的第三阈值的比例的采样点，记录其扩张角度并选择大于该角度最小的水平波瓣宽度作为其水平波瓣计算调整角度，优选地，第三阈值取值0.8。图2为本发明实施例提供的确定天线水平波瓣宽度方法的原理示意图。如图2所示，图中的黑点代表获取的MDT数据中的各个用户位置(即各个采样点)，基于聚类算法确定中心点，然后确定法线A，法线A是从小区基站位置C到确定的中心点的方向形成的，再以法线为中心线小区基站位置C为原点按照15度步长向两侧进行扩张，每扩展一个步长，都计算一次扩张区域内覆盖用户终端占用户终端总数的比例，直到计算得到的比例大于第三阈值，则停止扩张，并确定天线水平波瓣宽度为大于当前扩张角度的最小水平波瓣宽度。图2中的扩展进行了3个步长，因此，选取的天线水平波瓣宽度为大于90度的最小水平波瓣宽度。

基于上述任一实施例，该方法中，所述基于栅格化的MDT数据构成环境状态矩阵，所述栅格化的MDT数据包括用户终端分布栅格数据、用户终端RSRP栅格数据和用户终端干扰栅格数据，具体包括：

S_rsrp_raste_i,j,k＝avg(usr_rsrp_i,j,k)

具体地，根据MDT数据构建三维环境状态空间，能有效的刻画出用户的分布、覆盖分布、过覆盖干扰分布情况。在强化学习中环境状态空间作为输入信息表征，通过采取不同的动作(该不同的动作对应于不同的天线下倾角和方位角组合)，根据反馈获得对应动作值评价函数。经过大量的训练使得模型收敛，每当输入一种环境状态后均会输出对应分布下的最优配置动作策略，即天线的权值配置参数。构建环境状态空间，以小区基站位置的坐标为中心(x0,y0)，将所在小区的终端用户的MDT数据进行栅格化，构建三维立体栅格空间。其中构建三个栅格空间：包括用户分布栅格空间、用户RSRP信号强度栅格空间和用户干扰栅格空间，将所述用户终端分布栅格三维空间、所述用户终端RSRP栅格三维空间和所述用户终端干扰栅格三维空间以同一方向进行排列拼接，得到环境状态矩阵。例如：图3为本发明实施例提供的一种环境状态矩阵构建实例的原理示意图，如图3所示，每个栅格空间均以正北方向作为Y轴，正东方向为X轴，垂直方向为Z轴，以小区基站坐标(x₀,y₀)为中心点的终端用户位置坐标(x_i,y_i)对应的相对坐标为为(x_i-x₀，y_i-y₀)，创建三维栅格矩阵，其中，将预设步长设置为25米，设置预设范围为X轴与Y轴的坐标范围为(-500,500)，Z轴的坐标范围为(0,150)，栅格粒度为25米×25米×25米，栅格数量40×40×6。并将用户分布栅格空间、用户RSRP信号强度栅格空间按照Y轴方向结合成一个完整的环境状态空间栅格数量40×120×6，图3中各个种类栅格空间中每个栅格的表征值通过如下公式进行计算：

S_rsrp_raste_i,j,k＝avg(usr_rsrp_i,j,k)

其中，usr_i,j,k为栅格(i,j,k)空间内包含用户终端的个数，Σusr_i,j,k为所述中心点预设范围内的三维空间内包含用户终端的总数，usr_rsrp_i,j,k为栅格(i,j,k)空间内各用户终端的RSRP信号强度值，avg(usr_rsrp_i,j,k)为栅格(i,j,k)空间内所有用户终端的RSRP信号强度取平均，usr_over_i,j,k为栅格(i,j,k)空间内判断为重叠覆盖用户终端的个数，所述重叠覆盖用户终端的判定规则为若满足当前用户终端接收所述小区基站的RSRP信号强度与相邻小区基站的RSRP信号强度之差小于第四阈值的相邻小区的个数超过第五阈值，则所述当前用户终端为重叠覆盖用户终端。

基于上述任一实施例，该方法中，所述天线参数优化模型是基于样本环境状态矩阵和对应的天线下倾角和方位角组合标签进行训练得到的，所述天线参数优化模型的训练网络为深度强化学习DQN网络，具体包括：

具体地，将下倾角和方位角联合构建配置动作集，其中按照步长为1度方式进行组合，有n种下倾角配置方式，m种方位角配置方式，共计有m×n种组合方式，其中动作集合A表示为：

将该动作集结合MDT数据构建环境状态集，利用深度强化学习算法进行建模。通过对历史数据中不同用户分布下的MDT数据进行训练，获得天线参数优化模型，能有效获得在当前环境状态下的选择的最优动作，即其天线权值的下倾角和方位角配置组合。

DQN深度强化学习算法是一种策略优化算法，通过对大量训练数据的学习获得天线权值的优化策略，其中策略的值评价函数Q用来评估当前策略的优化收益。设动作集合为A，模型结构选择多层卷积神经网络结合两层全连接网络。图4为本发明实施例提供的DQN深度强化学习网络的结构示意图，如图4所示，网络结构采用多层卷积神经网络对环境状态空间矩阵中进行特征提取，并在最后的全连接层输出当前状态下不同动作的值评价函数，其中输出层的节点数为动作集合的动作数量，即上文所述的m×n个，图4中输出层的节点数为4仅做示意。根据历史采集MDT数据和基站小区工参数据构建训练数据集，再利用均匀随机采样的方法从数据库中抽取数据，并利用抽取的数据训练神经网络。

根据玻尔兹曼策略进行动作选择，其中Q(S，A；θ)为动作值评价函数，该策略表示在S状态下以π(A|S,θ)的概率选择动作A，π(A|S,θ)表示当A的动作值函数越大则发生的概率越大，其中,θ表示目标函数的参数向量。π(A|S,θ)与Q(S，A；θ)的关系通过以下公式表示：

其中，B表示动作集中除了A以外的其他动作。

利用神经网络对动作值评价函数进行逼近，通过梯度下降法对动作值评价函数的参数进行更新，更新网络参数向量θ再获得更新的Q(S,A；θ)，其中，值评价函数的网络参数向量更新计算方式如下：

对基于深度强化学习的天线参数优化模型进行训练，经过多次迭代训练后，模型收敛，则停止迭代，其中，模型收敛的条件为达到最大学习次数或Q的每一行得到最大值。

基于上述任一实施例，该方法中，所述所述当前状态S_t下执行动作A_t的立即回报R_t通过如下公式计算：

其中，

具体地，根据π(A|S,θ)的概率在当前状态下S_t下选择动作A_t并执行，根据反馈的最新MDT数据，计算当前小区所属的状态S_t+1，再根据收益函数计算其回报，其中收益函数计算公式为：

其中，

为当前状态S_t下对应的用户终端干扰栅格三维空间的栅格(i,j,k)的表征值，score_rsrp_t表示当前状态S_t下覆盖信号强度得分值，score_over_t表示当前状态S_t下过覆盖情况得分值，d_rsrp_t表示当前状态S_t下执行动作A_t后的时刻覆盖信号强度提升值，d_rsrp_t表示当前状态S_t下执行动作A_t后的时刻过覆盖情况改善值，a和b均为可调加权系数，score_rsrp_t表示当前时刻环境状态的覆盖信号强度整体得分，score_over_t表示当前时刻环境状态的过覆盖整体得分，d_rsrp_t表示下一时刻的环境状态的覆盖信号强度整体提升差异，d_over_t表示下一时刻的环境状态的过覆盖情况整体改善差异，只有当两者均有提升时，R_t收益回报为两者变化量的加权平均，其他条件下回报收益均为-1。

基于上述任一实施例，本发明实施例提供一种基于深度强化学习的天线参数的确定装置，图5为本发明实施例提供的基于深度强化学习的天线参数的确定装置的结构示意图。如图5所示，该装置包括获取单元510、波瓣宽度单元520、状态矩阵单元530和输出单元540，其中，

所述获取单元510，用于获取用户终端上报的MDT数据和小区基站工参资源数据；

所述波瓣宽度单元520，用于基于所述MDT数据和小区基站工参资源数据中提取的用户终端和小区基站位置信息确定天线垂直波瓣宽度，基于所述MDT数据中提取的用户终端分布确定天线水平波瓣宽度；

所述状态矩阵单元530，用于基于栅格化的MDT数据构成环境状态矩阵，所述栅格化的MDT数据包括用户终端分布栅格数据、用户终端RSRP栅格数据和用户终端干扰栅格数据；

所述输出单元540，用于将所述环境状态矩阵输入天线参数优化模型，输出对应于所述环境状态矩阵的天线下倾角和方位角组合；

本发明实施例提供的装置，获取用户终端上报的MDT数据和小区基站工参资源数据；基于所述MDT数据和小区基站工参资源数据中提取的用户终端和小区基站位置信息确定天线垂直波瓣宽度，基于所述MDT数据中提取的用户终端分布确定天线水平波瓣宽度；基于栅格化的MDT数据构成环境状态矩阵，所述栅格化的MDT数据包括用户终端分布栅格数据、用户终端RSRP栅格数据和用户终端干扰栅格数据；将所述环境状态矩阵输入天线参数优化模型，输出对应于所述环境状态矩阵的天线下倾角和方位角组合；其中，所述天线参数优化模型是基于样本环境状态矩阵和对应的天线下倾角和方位角组合标签进行训练得到的，所述天线参数优化模型的训练网络为深度强化学习DQN网络。如此，基于栅格化的MDT数据构成环境状态矩阵，所述栅格化的MDT数据包括用户终端分布栅格数据、用户终端RSRP栅格数据和用户终端干扰栅格数据，使得环境状态矩阵能有效地刻画出用户分布、覆盖分布和过覆盖干扰分布情况，将信号覆盖和过覆盖干扰作为天线参数优化目标需要考量的因素，使得MDT数据能被充分的利用到天线参数优化中，其次，基于深度强化学习DQN网络也可以使训练过程的迭代周期短且训练好的天线参数优化模型可以准确、快速实现天线参数优化。因此，本发明实施例提供的装置，实现了充分考虑用户分布的环境状态，准确、快速实现不同用户环境分布下的天线权值参数优化。

基于上述任一实施例，该装置中，

所述基于所述MDT数据和小区基站工参资源数据中提取的用户终端和小区基站位置信息确定天线垂直波瓣宽度，具体包括：

若不满足上述任一条件，则确定天线垂直波瓣宽度为M₃度；

其中，M₁、M₂和M₃均为正整数，且M₁>M₂>M₃。

基于上述任一实施例，该装置中，

所述基于所述MDT数据中提取的用户终端分布确定天线水平波瓣宽度，具体包括：

基于上述任一实施例，该装置中，

所述基于栅格化的MDT数据构成环境状态矩阵，所述栅格化的MDT数据包括用户终端分布栅格数据、用户终端RSRP栅格数据和用户终端干扰栅格数据，具体包括：

S_rsrp_raste_i,j,k＝avg(usr_rsrp_i,j,k)

基于上述任一实施例，该装置中，

所述天线参数优化模型是基于样本环境状态矩阵和对应的天线下倾角和方位角组合标签进行训练得到的，所述天线参数优化模型的训练网络为深度强化学习DQN网络，具体包括：

基于上述任一实施例，该装置中，

所述当前状态S_t下执行动作A_t的立即回报R_t通过如下公式计算：

其中，

图6为本发明实施例提供的电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)601、通信接口(Communications Interface)602、存储器(memory)603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信。处理器601可以调用存储在存储器603上并可在处理器601上运行的计算机程序，以执行上述各实施例提供的基于深度强化学***波瓣宽度；基于栅格化的MDT数据构成环境状态矩阵，所述栅格化的MDT数据包括用户终端分布栅格数据、用户终端RSRP栅格数据和用户终端干扰栅格数据；将所述环境状态矩阵输入天线参数优化模型，输出对应于所述环境状态矩阵的天线下倾角和方位角组合；其中，所述天线参数优化模型是基于样本环境状态矩阵和对应的天线下倾角和方位角组合标签进行训练得到的，所述天线参数优化模型的训练网络为深度强化学习DQN网络。

此外，上述的存储器603中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的基于深度强化学***波瓣宽度；基于栅格化的MDT数据构成环境状态矩阵，所述栅格化的MDT数据包括用户终端分布栅格数据、用户终端RSRP栅格数据和用户终端干扰栅格数据；将所述环境状态矩阵输入天线参数优化模型，输出对应于所述环境状态矩阵的天线下倾角和方位角组合；其中，所述天线参数优化模型是基于样本环境状态矩阵和对应的天线下倾角和方位角组合标签进行训练得到的，所述天线参数优化模型的训练网络为深度强化学习DQN网络。

以上所描述的***实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于深度强化学习的天线参数的确定方法，其特征在于，包括：

获取用户终端上报的MDT数据和小区基站工参资源数据；

2.根据权利要求1所述的基于深度强化学习的天线参数的确定方法，其特征在于，所述基于所述MDT数据和小区基站工参资源数据中提取的用户终端和小区基站位置信息确定天线垂直波瓣宽度，具体包括：

若不满足上述任一条件，则确定天线垂直波瓣宽度为M₃度；

其中，M₁、M₂和M₃均为正整数，且M₁>M₂>M₃。

3.根据权利要求1所述的基于深度强化学***波瓣宽度，具体包括：

4.根据权利要求1所述的基于深度强化学习的天线参数的确定方法，其特征在于，所述基于栅格化的MDT数据构成环境状态矩阵，所述栅格化的MDT数据包括用户终端分布栅格数据、用户终端RSRP栅格数据和用户终端干扰栅格数据，具体包括：

S_rsrp_raste_i,j,k＝avg(usr_rsrp_i,j,k)

其中，usr_i,j,k为栅格(i,j,k)空间内包含用户终端的个数，∑usr_i,j,k为所述中心点预设范围内的三维空间内包含用户终端的总数，usr_rsrp_i,j,k为栅格(i,j,k)空间内各用户终端的RSRP信号强度值，avg(usr_rsrp_i,j,k)为栅格(i,j,k)空间内所有用户终端的RSRP信号强度取平均，usr_over_i,j,k为栅格(i,j,k)空间内判断为重叠覆盖用户终端的个数，所述重叠覆盖用户终端的判定规则为若满足当前用户终端接收所述小区基站的RSRP信号强度与相邻小区基站的RSRP信号强度之差小于第四阈值的相邻小区的个数超过第五阈值，则所述当前用户终端为重叠覆盖用户终端；

5.根据权利要求1所述的基于深度强化学习的天线参数的确定方法，其特征在于，所述天线参数优化模型是基于样本环境状态矩阵和对应的天线下倾角和方位角组合标签进行训练得到的，所述天线参数优化模型的训练网络为深度强化学习DQN网络，具体包括：

θ_t+1＝θ_t+α[R_t+γmaxQ(S_t+1,A_t+1；θ_t)-Q(S_t,A_t；θ_t)]▽Q(S_t,A_t；θ_t)

其中，α为表示学习率的超参数，取值范围为(0,1)，γ为折扣系数，取值范围为(0,1)，R_t表示当前状态S_t下执行动作A_t的立即回报，▽Q(S_t,A_t；θ_t)表示在状态S_t下执行动作A_t获得的评价值对网络参数向量θ_t的梯度，maxQ(S_t+1,A_t+1；θ_t)表示在状态S_t下执行动作A_t后获得新的状态S_t+1再在状态S_t+1下执行所有动作能够获得的最大评价值；

6.根据权利要求5所述的基于深度强化学习的天线参数的确定方法，其特征在于，所述当前状态S_t下执行动作A_t的立即回报R_t通过如下公式计算：

其中，

7.一种基于深度强化学习的天线参数的确定装置，其特征在于，包括：

8.根据权利要求7所述的基于深度强化学习的天线参数的确定装置，其特征在于，所述基于所述MDT数据和小区基站工参资源数据中提取的用户终端和小区基站位置信息确定天线垂直波瓣宽度，具体包括：

若不满足上述任一条件，则确定天线垂直波瓣宽度为M₃度；

其中，M₁、M₂和M₃均为正整数，且M₁>M₂>M₃。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6中任一项所述的基于深度强化学习的天线参数的确定方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6中任一项所述的基于深度强化学习的天线参数的确定方法的步骤。