CN114365424A

CN114365424A - 提供用于多天线发射机的预编码器选择策略

Info

Publication number: CN114365424A
Application number: CN201980100257.5A
Authority: CN
Inventors: 李欣哲; M·吉尔克
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2022-04-15
Also published as: EP4029152A4; US11968005B2; EP4029152A1; WO2021049984A1; US20220393729A1

Abstract

用于为被设置为在无线通信网络(1000)的通信信道(530；730；1030)上发送数据的多天线发射机(511，711)提供预编码器选择策略的方法和设备(510；511；720；721；1003；1004；1010；1020；1050；1051；1200)。应用采用强化学习形式的机器学习，该强化学习涉及被配置为基于指示多天线发射机(511；711)的预编码器的信息和指示至少与通信信道(530；730；1030)有关的状态的信息来计算动作值的动作值函数的适配。所述适配进一步基于由奖励函数提供的指示在通信信道(530；730；1030)上发送数据的成功程度的奖励信息，所述预编码器选择策略基于从强化学习得到的所述经适配的动作值函数来提供。

Description

提供用于多天线发射机的预编码器选择策略

技术领域

本文的实施例涉及与为被设置为在无线通信网络(例如，电信网络)的通信信道上发送数据的多天线发射机提供预编码器选择策略有关的方法和设置。

背景技术

诸如无线通信设备之类的通信设备(可以简单地被命名为无线设备)也可以被称为例如用户设备(UE)、移动终端、无线终端和/或移动台。无线设备被使能在无线通信网络、无线通信***或无线电通信***(例如，电信网络，有时也被称为蜂窝无线电***、蜂窝网络或蜂窝通信***)中无线地通信。通信可以例如在两个无线设备之间、在无线设备与普通电话之间、和/或在无线设备与服务器之间经由在蜂窝通信网络内包括的无线电接入网络(RAN)和可能的一个或多个核心网络被执行。无线设备还可以被称为移动电话、蜂窝电话、膝上型计算机、个人数字助理(PDA)、平板计算机，这只是提及一些进一步的示例。无线设备可以是所谓的机器对机器(M2M)设备或机器通信类型(MTC)设备，即，与常规用户不相关联的设备。

无线设备例如可以是便携式、袖珍型、手持式、包含计算机的、或车载式移动设备，被使能经由RAN与另一个实体(诸如另一个无线设备或服务器)进行语音和/或数据通信。

无线通信网络可以覆盖被划分成小区区域的地理区域，其中，每个小区区域由至少一个基站(BS)服务，例如，无线电基站(RBS)，其有时可以被称为例如“eNB”、“eNodeB”、“NodeB”、“B节点”、gNB或BTS(基站收发信台)，这取决于所使用的技术和术语。基于传输功率并因此也基于小区大小，基站可以具有不同的类别，诸如例如宏eNodeB、家庭eNodeB或微微基站。小区通常由一个或多个小区标识来标识。在基站站点处的基站可以为一个或多个小区提供无线电覆盖。因此，小区通常与地理区域相关联，其中，针对该小区的无线电覆盖由在基站站点处的基站提供。小区可以重叠，以使得若干小区覆盖相同的地理区域。由基站提供或服务小区通常意味着基站提供无线电覆盖，以使得位于提供无线电覆盖的地理区域中的一个或多个无线设备可以由所述小区中的基站来服务。当无线设备被称为在小区中被服务或由该小区服务时，这表明该无线设备由为该小区提供无线电覆盖的基站来服务。一个基站可以服务于一个或几个小区。进一步地，每个基站可以支持一种或多种通信技术。基站通过在无线电频率上操作的空中接口与在基站的范围内的无线设备进行通信。

在一些RAN中，若干基站可以例如通过陆线或微波而被连接到无线电网络控制器(例如，通用移动电信***(UMTS)中的无线电网络控制器(RNC))和/或彼此连接。无线电网络控制器(有时也被称为基站控制器(BSC)，例如在GSM中)可以监督并协调与其连接的多个基站的各种活动。GSM是全球移动通信***(原名：Groupe Spécial Mobile)的缩写，其可以被称为第二代或2G。

UMTS是第三代移动通信***，其可以被称为第三代或3G并且是从GSM演进而来的，并基于宽带码分多址(WCDMA)接入技术而提供改进的移动通信服务。UMTS地面无线电接入网络(UTRAN)本质上是使用针对无线设备的宽带码分多址的无线电接入网络。高速分组接入(HSPA)是由3GPP定义的两个移动电话协议即高速下行链路分组接入(HSDPA)和高速上行链路分组接入(HSUPA)的结合，其扩展并改进现有的使用WCDMA的第三代移动电信网络的性能。这样的网络可以被命名为WCDMA/HSPA。

表述“下行链路(DL)”可以被用于从基站到无线设备的传输路径。表述“上行链路(UL)”可以被用于在相反方向上的即从无线设备到基站的传输路径。

在第三代合作伙伴计划(3GPP)长期演进(LTE)中，可被称为eNodeB或eNB的基站可以被直接连接到其他基站并且可以被直接连接到一个或多个核心网络。LTE可以被称为第4代或4G。

3GPP已经着手进一步演进基于UTRAN和GSM的无线电接入网络技术，例如，将其演进成在LTE中使用的演进UTRAN(E-UTRAN)。

开发下一代广域网的工作正在进行中，该下一代广域网可以被称为下一代(NX)、新无线电(NR)或第五代(5G)。

多天线技术可以显著提高无线通信***的数据速率和可靠性。如果发射机和接收机两者都被配备有多个天线(这产生多输入多输出(MIMO)通信信道)，则会尤其提高性能。这样的***和/或相关技术通常被称为MIMO。MIMO信道可以指在发射机和接收机处具有多个天线的无线电链路。此外，从***的角度来看，具有多个发射天线和多个接收天线的***可以被称为MIMO***。还存在与多个发射天线和单个接收天线有关的多输入单输出(MISO)信道和***，以及与单个发射天线和多个接收天线有关的单输入多输出(SIMO)。有时虽然在技术上不正确，但使用MIMO来指代涉及多个天线用于传输的任何信道或***。在任何情况下，在本公开的上下文中，主要侧重于使用多个天线以用于传输，并因此侧重于MIMO和MISO的情况。

NR的第一个版本即5G标准已经被规定。NR中的核心组件是支持MIMO天线部署和MIMO相关技术。预计NR将支持具有信道相关预编码的下行链路MIMO。空间复用模式的目的是在有利的信道条件下的高数据速率。在图1中提供了空间复用操作的图示，其中，循环前缀(CP)正交频分复用(OFDM)被用于下行链路中。

如该附图所示，携带具有k层的符号向量d的信息被乘以N_nt x k预编码矩阵W，这会在N_nt维向量空间的子空间中分配发射能量，其中，N_nt对应于天线端口的数量。d中的k个符号各自对应一层，并且k通常被称为传输秩。以这种方式，实现了空间复用，因为多个符号可以在相同的时间和/或频率资源元素(TFRE)上同时被发送。符号数量k通常被调整以适于当前的信道特性。

预编码问题具有挑战性，尤其是在多小区多用户环境下。图2示意性地图示了这种环境的示例，其中，多个基站即BS想要使用相同的时间和频率资源来向多个无线设备(在本文中是用户设备即UE)发送数据流。如由虚线所示，对应于不期望的信号，由BS服务的UE可能受到来自到其他UE的传输的干扰的影响，这些传输源自相同的BS和/或源自其他BS。可意识到在发射机、接收机、用户的数量甚至更多的实践中并且在真实世界的动态环境下，这会变得更加具有挑战性。

由于无线电资源有限且昂贵，因此，希望使用MIMO技术以便增加在UE的天线处的接收功率并减少小区内和小区间干扰，以使得更有效地利用时间和频率资源。为了能够做到这一点，如上所提及的，需要选择合适的预编码器，这甚至是至关重要的。这可以被称为预编码优化问题，或者被简称为预编码问题。

存在针对预编码器问题的若干不同解决方案。然而，事实证明，大多数分析解决方案对于实际实现来说变得过于复杂，至少在目前的频率选择性宽带***下是这样的。相反，对于频率选择性信道，预编码优化问题是通过近似方法来解决的。一种标准近似方法是将一组相关联的信道矩阵替换为其协方差矩阵的近似版本。

发明内容

鉴于上述情况，目的在于提供相对于现有技术的一个或多个改进，特别是提供关于用于在无线通信网络的通信信道上发送数据的多天线发射机的预编码器选择的改进。

根据本文的实施例的第一方面，该目标通过由一个或多个第一设备执行的用于为被设置为在无线通信网络的通信信道上发送数据的多天线发射机提供预编码器选择策略的第一方法来实现。应用采用强化学习形式的机器学习，该强化学习涉及被配置为基于动作信息和状态信息来计算动作值的动作值函数的适配。该动作信息是指示多天线发射机的预编码器的信息。该状态信息是指示至少与该通信信道有关的状态的信息。该动作值函数的所述适配进一步基于由奖励函数提供的奖励信息，其中，该奖励信息是指示在该通信信道上发送数据的成功程度的信息。此外，基于从该强化学习得到的所述经适配的动作值函数来提供所述预编码器选择策略。

根据本文的实施例的第二方面，该目的通过一种包括指令的计算机程序来实现，这些指令在由处理电路执行时使所述一个或多个第一设备执行根据第一方面所述的第一方法。

根据本文的实施例的第三方面，该目的通过一种包括根据第二方面所述的计算机程序的载体来实现。

根据本文的实施例的第四方面，该目的通过由一个或多个第二设备执行的用于选择多天线发射机的预编码器的第二方法来实现。该多天线发射机被配置为在无线通信网络的通信信道上发送数据。获得根据第一方面提供的预编码器选择策略。此外，获得关于当前状态的状态信息。进而，基于所获得的预编码器选择策略和所获得的当前状态信息来选择预编码器。

根据本文的实施例的第五方面，该目的通过一种包括指令的计算机程序来实现，这些指令在由处理电路执行时使所述一个或多个第二设备执行根据第四方面所述的第二方法。

根据本文的实施例的第六方面，该目的通过一种包括根据第五方面所述的计算机程序的载体来实现。

根据本文的实施例的第七方面，该目标通过用于为被设置为在无线通信网络的通信信道上发送数据的多天线发射机提供预编码器选择策略的一个或多个第一设备来实现。所述第一设备被配置为应用采用强化学习形式的机器学习，该强化学习涉及被配置为基于动作信息和状态信息来计算动作值的动作值函数的适配。该动作信息是指示多天线发射机的预编码器的信息。该状态信息是指示至少与该通信信道有关的状态的信息。该动作值函数的所述适配进一步基于由奖励函数提供的奖励信息，其中，该奖励信息是指示在该通信信道上发送数据的成功程度的信息。此外，所述第一设备被配置为基于从该强化学习得到的所述经适配的动作值函数来提供所述预编码器选择策略。

根据本文的实施例的八个方面，该目标通过用于选择多天线发射机的预编码器的一个或多个第二设备来实现。该多天线发射机被配置为在无线通信网络的通信信道上发送数据。该第二设备被配置为获得根据第一方面所述的预编码器选择策略，以及获得关于当前状态的状态信息。该预编码器进一步被配置为基于所获得的预编码器选择策略和所获得的当前状态信息来选择预编码器。

本文的实施例使能通过强化学习基于奖励信息的反馈来学习优化的预编码器选择策略，而无需关于无线通信网络中的下属***和信道模型的任何详细知识。例如，模拟结果支持实施例具有用相对简单的代理(例如，其可以由浅层神经网络来实现)来达成用于单个用户(SU)预编码器的近似最优的策略的能力。其次，实现本文的实施例需要极少的手工工程，并且本文的实施例还可以很容易地利用未来改进且新颖的强化学习算法和架构，例如，如目前正在针对深度神经网络和相关学习方法开发的强化学习算法和架构。本文的实施例可以适用于非常具有挑战性的MIMO问题。

附图说明

参考所附的示意图更详细地描述本文的实施例的示例，在下文中对其进行简要描述。

图1示意性地图示用于NR网络的MIMO***的空间复用操作。

图2示意性地图示多小区多用户环境的示例。

图3示意性地示出具有已知MIMO***的功能块的框图。

图4是示意性地示出强化学习过程的原理的框图。

图5示意性地示出具有用于说明本文一些实施例的MIMO***的功能块的框图。

图6是示意性地图示与本文一些实施例有关的奖励生成的示例的框图。

图7示意性地示出具有用于说明本文一些进一步的实施例的另一个MIMO***的功能块的框图。

图8示意性地图示神经网络以及在本文一些实施例中可以如何使用它。

图9A-B是关于本文中与“双向”和“单向”方法有关的一些实施例的实现的伪代码。

图10是示意性地描绘可以在其中实现本文的实施例的无线通信网络的示例的框图。

图11A是示意性地图示根据本文的实施例的第一方法的实施例的流程图。

图11B是示意性地图示根据与第一方法有关的一些实施例的动作的实施例的流程图。

图12是用于图示一个或多个第一设备可以如何被配置为执行第一方法的实施例的示意框图。

图13是示意性地图示根据本文的实施例的第二方法的实施例的流程图。

图14是用于图示一个或多个第二设备可以如何被配置为执行第二方法的实施例的示意框图。

图15是图示与计算机程序及其载体有关的一些实施例的示意图。

具体实施方式

遍及以下描述，如果适用，则相似的参考数字可以被用于标示相似的元件、单元、模块、电路、节点、部件、物品或特征。

本文中的实施例通过示例性实施例来说明。应当注意，这些实施例未必是相互排斥的。可以默认地假设来自一个实施例的组件存在于另一个实施例中，并且对于本领域的技术人员来说，这些组件可以如何在其他示例性实施例中使用是显而易见的。

在背景技术中提及的现有技术近似方法的使用通常意味着即使在具有良好信道估计精度的可接受信道条件下，预编码器的精度也可能变得不可接受。因此，需要现有技术分析和近似方法的一些替代方案，并且这些替代方案使能针对预编码器问题(即，关于预编码器的选择)的改进的解决方案并且是可实际应用的。

根据本文的实施例的解决方案可以被简要地描述为与用于寻找(诸如MIMO***的)多天线发射机的合适预编码器的学习方法有关，其中，学习代理可以基于关于相关环境条件的上下文信息(对应于关于***的状态的信息)来选择和/或观察用于多天线发射机的预编码器，同时基于来自环境的奖励反馈来调整预编码器选择策略并寻求最大化由预定义的奖励函数提供的奖励(例如，奖励值)。即使在非常具有挑战性的动态MIMO/MISO环境中，所提出的基于学习的方法(将在下文中详细地描述)也能够学习一种优化甚至最优的用于预编码器选择的策略。可以从预定义的码本中选择预编码器，以使得所选择的预编码器最大化针对给定状态信息的奖励。

本文的实施例使能基于奖励的反馈来学习优化的预编码器选择策略，而无需关于无线通信环境中的下属***和信道模型的任何详细知识。例如，模拟结果支持实施例具有用相对简单的代理(例如，其可以由浅层神经网络来实现)来达成用于单个用户(SU)预编码器的近似最优的策略的能力。其次，实现本文的实施例需要极少的手工工程，并且本文的实施例还可以很容易地利用即将改进且新颖的强化学习算法和架构，例如，如目前正在针对深度神经网络和相关学习方法开发的强化学习算法和架构。本文的实施例可以适用于非常具有挑战性的MIMO问题。

强化学习(Reinforcement Learning，RL)是机器学习(ML)的领域，并且最近RL技术已得到显著发展，其不仅受到ML研究团体的极大关注，而是受到各个行业的极大关注。RL例如具有巨大的潜力作为当前和未来的无线网络的颠覆性演进的主要推动力。

RL可以被描述为允许代理学习最优动作策略的一组方法，该最优动作策略通过与动态环境的试错交互(trial-and-error interaction)而返回最大奖励。强化学习与更广为人知的使用训练数据的监督ML不同，在监督ML中用正确答案本身来训练模型，而在强化学习中没有答案，而是代替地通过涉及不同程度的试错的经验来进行学习(通常是通过使用所谓的RL代理)。对于熟悉ML的人来说，通过RL进行训练可以很容易地被识别为某种类型的ML。如本文中所使用的，RL可以更具体地被视为基于适配动作值函数(例如，与动作策略有关)的ML以改进或优化它，因此它可以被用于从动作空间提供改进或优化的动作。适配是基于动作信息、状态信息和奖励信息，其中，动作信息是指示动作空间中的动作的信息，状态信息是指示与受来自动作空间的动作影响的环境有关的状态的信息，奖励信息(例如由奖励函数提供的)是指示在学习即训练期间从所应用的某一动作产生的奖励的信息。当该值函数已经被适配即被训练时，它可以被用于基于状态信息来提供来自动作空间的改进的即更好的、优化的或者甚至最优的动作，而不必使用奖励函数。

深度学习(Deep Learning，DL)方法是具有多个表征级的通过组合简单但非线性的模块而获得的表征学习方法，其中每个模块将在一个级别的表示变换成在稍高且更抽象的级别的表示。基于组合足够多的这种变换，可以学习非常复杂的函数。因此，通过结合RL和DL这两种技术的优势，所得到的结果是所谓的深度RL(DRL)。DRL可以被用于提取环境条件的上下文特征(对应于状态)，并学习所提取的特征与针对非常复杂的优化问题的最佳动作之间的映射(诸如在具有挑战性的无线通信环境中，在包括物理层、数据链路层、网络层和传输层的不同的网络层)。下面进一步描述的本文的一些实施例是基于DRL的。

图3示意性地示出具有已知的、通常基于码本的MIMO***300的功能块的框图，该MIMO***被配备有N_TX个发射天线314和N_TX个接收天线324，其中，预编码器块312的预编码器对应于复值预编码向量

并被包括在多天线发射机311中。如应理解的，在本文中k标示如在背景技术中讨论的传输秩，并因此对应于经受了预编码的符号向量d的传输的层数。预编码向量w可以从预定义的码本

中选择。在发射机处的预编码向量和在多天线接收机321中包括的接收机处的相关联组合向量被应用，以利用MIMO***中可用的空间分集。

所示的***在本文中将不会被讨论任何具体细节，因为它是基于已知模型的，其中，部件及其功能对于本领域技术人员而言是已知的。它在在本文中主要被用作参考，并且用于在下文进一步解释本文的实施例可以如何与这种***一起使用以及如何与这种***有关。因此，所示的细节可以被认为是有助于理解本文的实施例的细节选择。这种选择不被认为是现有技术的一部分。

发射机311可以被包括在发送设备310中(例如，诸如gNB之类的基站)，接收机可以被包括在接收设备320中(例如，诸如UE之类的无线通信设备)。所示的框图可以基于MIMO***的已知的复值基带信号模型来考虑。比特交织编码调制(BICM)已被用于广泛的无线通信***，包括IEEE局域网(LAN)和3GPP LTE***。时间用某一时长被划分成时隙，诸如1ms，其对应于LTE***中的一个传输时间间隔(TTI)。在每个时间步长，一个传输数据比特块B_TX可以在发射机侧被生成，并在该附图中由编码器315使用卷积信道码和循环冗余校验(CRC)码而被编码为码块C_TX。CRC码在数据通信中被广泛地用作对分组的最终完整性检查，从而执行错误检测。如该附图中所示，通常，编码器315为将要被发送的数据提供信道编码，并提供与发送码块C_TX对应的编码数据以用于发送，并因此其可以被输入到多天线发射机311(例如，输入到其中的调制器313)。调制器313进而提供其输出信号(在此是符号向量d)作为到预编码器块312的输入，以用于诸如通过从预定义的码本

中选择的预编码向量w进行预编码。预编码器块312的输出对应于附图中的信号x并被输入到离散傅里叶逆变换(IDFT)315，其进而通过所述发射天线314提供用于发送的信号。

发射天线314被设置为在通信信道330上进行发送，在本文中通信信道330对应于MIMO信道并且可以由信道矩阵H来描述。

为了在通信信道330上可靠地发送信号d，希望找到一种最好是最优的预编码器选择算法，以用于例如从预定义的码本

中选择尽可能最佳的或者甚至最优的预编码器。换句话说，如上所述，希望使用优化性能的预编码器。

接收机321可以以传统方式进行操作，并因此与发射机311相比它基本上以相反的顺序操作。因此，接收机321的接收天线324接收由发射天线314在通信信道330上发送的信号。DFT 325分别对接收天线324的输出进行操作，并因此对所接收的信号进行操作。DFT输出被输入到组合器326，组合器326进而提供信号z作为输出，解调器327可以对该信号z进行操作，并提供所接收的编码数据C_RX以用于例如由解码器328进一步解码等。

可以看出，在图3中，还指示了反向链路信道中探测参考信号(SRS)的存在，即，在本文中是从接收机到发射机的方向上。这些SRS可以对应于常规的这种信号。通常，在支持MIMO通信技术的通信***中，可以访问关于发射机与接收机之间(诸如基站(例如，gNB)与在相关联的小区中被服务的无线设备(例如，UE)之间)的信道响应(通常是其估计)的信息。这种信息的示例是信道状态信息(CSI)。至少对于基于TDD的***，可以应用具有互易性的物理信道特性并使用上行链路探测和信道估计以获得下行链路信道估计。例如，在3GPPLTE和NR***中，由于信道互易性，被称为SRS的导频符号是可用的，并且可以由UE在上行链路中发送并由BS接收以获得例如MIMO信道的下行链路CSI。因此，在假设在上行链路和下行链路方向上的信道响应相同的情况下，在上行链路方向上在与SRS相关联的资源元素处的所估计信道可以例如被用于在下行链路方向上的预编码。

在宽带LTE和NR***中，多载波***可以被应用于应对频率选择性信道。已经针对多载波方法提出了正交频分复用(OFDM)。在频率选择性衰落信道的情况下，应当跨子载波和OFDM符号发送多个SRS。

在所示的***中并且如上所述，调制器313可以例如通过QAM星座将发送码块C_TX转换为符号向量d。进而，将符号向量d与预编码矩阵w相乘以形成N_TX维复发送信号向量x＝wd。进而，复值接收信号向量

可以由下式给出：

y＝Hx+n 方程式1

其中，

是加性高斯白噪声(AWGN)向量，其元素是具有零均值和方差

的i.i.d.复值高斯。在所示的接收机323中，图示了如何在每个接收天线324处添加噪声n。不失一般性地，可以假设d中的数据符号和预编码向量w被归一化，以使得‖x‖²＝‖wd‖²＝1，其中，‖·‖表示向量的2范数。在这些假设下，SNR由下式给出：

在接收机处，接收码块C_RX将通过解调器327被恢复。

图4是示意性地示出针对例如诸如图3中的MIMO***的多发射机的预编码问题的强化学习过程的原理的框图。本文的实施例可以基于所示的原理来考虑，该原理在于代理通过状态s_t、动作a_t和奖励r_t的序列学习优化或最优的动作选择策略。应当理解，在实践中，状态、动作和奖励对应于合适类型的信息。该代理可以观察环境条件的上下文向量(对应于状态s)，并且进而可以从预定义的码本

中选择与动作a对应的预编码器以服务所述环境。注意，本文的代理可以通过与黑盒子环境的交互实现其学习目标，即，无需利用关于环境及其部分的任何详细知识。在每个时间步长t之后，该代理接收与奖励r_t对应的反馈，以所采取的动作a_t作为回报。在时间t＝0,1,…,上，代理可以由此学习上下文向量即状态s_t和与预编码器对应的动作a_t是如何相互关联的，以使得该代理随后可以通过仅观察状态s(例如，上下文向量，对应于从环境中提取的信息)来预测最佳的预编码器(对应于采取动作a)。原则上，任何环境信息可以帮助代理学习最优策略。对于本文的实施例，状态s或者更确切地说与所述上下文向量对应的状态信息可以从例如信道状态信息(CSI)中提取。通信信道(例如，对应于通信信道330或类似信道)可以由高维且连续的信道矩阵

表示。状态s可以采用H中具有大小为2N_RXN_TX元素的向量的形式来表示，如下：

其中，h_j,i表示从发射天线i到接收天线j的信道系数，Re[·]和Im[·]表示复值的实部和虚部。

图5示意性地示出具有MIMO***500的功能块的框图。该附图的主要目的是说明与如图3中的现有技术MIMO***相比本文的一些实施例可以如何操作。为了避免重复，在下文中将侧重于与图3中的MIMO***300相比的差异上。与图3中的特征对应的特征在图5中已经用虚线绘制，以便于比较并关注这些差异。因此，在图5中，存在可以对应于发射天线314的发射天线514，可以对应于接收天线324的接收天线524，在许多细节上对应于发送设备310并且包括与多天线发射机311类似的多天线发射机511的发送设备510，在许多细节上对应于接收设备320并且包括与多天线接收机321类似的多天线接收机521的接收设备520，可以对应于编码器315的编码器515，可以对应于调制器313的调制器513，可以对应于IDFT 315的IDFT 515，可以对应于通信信道330的通信信道530，可以对应于DFT 325的DFT 525，可以对应于组合器326的组合器526，可以对应于解调器327的解调器527，以及可以对应于解码器328的解码器528。

还存在通信信道530，其可以与通信信道330类似或者甚至相同并且可以由信道矩阵H来描述。

与图3相比的不同之处在于RL代理540，其可以对应于图4中的代理并且在此被设置为基于RL来优化对用于预编码器块512的预编码器的选择，即，RL代理540被设置为基于强化学习来学习如何选择最优的预编码器。预编码器块512的主要功能对应于预编码器块312的功能，即，诸如基于针对预编码器问题的分析或近似解决方案来选择将要使用的预编码器，而不是只应用常规的预编码器选择策略，在本文中预编码器选择是基于RL，并且至少在训练期间预编码器块512可以由RL代理540控制。

因此，RL代理540旨在学习如何从预定义的码本

中选择预编码器

以便最大化由该附图中的奖励函数块541的奖励函数提供的奖励r。如该附图中所指示并如下面进一步描述的，奖励r和奖励函数可以是基于在通信信道上的传输之后在接收机处的误码率(BER)。在解码接收码块C_RX时的CRC码可以被检查并被用于计算BER作为奖励函数的一部分，例如，在该附图中的奖励函数块541中被实现。该奖励函数可以如图示地在接收设备520中被实现，甚至在接收机521中被实现，但原则上可以由具有计算能力的被配置为从接收设备520获得关于BER的信息并被通信地连接到RL代理540以提供关于根据奖励函数计算的奖励r的信息的任何设备或节点来实现。

BER性能可以通过比较发送码块C_TX与接收码块C_RX来计算，其可以被认为是代表基于信道状态H的预编码器w的动作值。实验性的BER可以被表述为：

BER_exp(H,w)＝BER(C_TX,C_RX|H,w) 方程式3

在根据方程式3的BER计算中，一个问题可能是在接收机侧发送码块C_TX的可用性。然而，接收机520可以通过仅在CRC校验通过时对接收数据块B_RX进行重新编码来恢复发送码块C_TX。图6是示意性地图示该原理以及它可以如何被奖励函数块541使用的框图，即，用于在CRC校验和编码器的帮助下的奖励生成。所示的内容应是相当不言自明的，其原理在于如果CRC校验通过，则基于C_RX和对表示C_TX的接收数据块B_RX的重新编码来计算BER。进而可以基于BER来计算奖励r，如下文中所解释的。

奖励函数应当取决于H和w(即，信道和所选择的预编码器)，即，可以被表述为f(H,w)并且可以从方程式3中的实验性的BER_exp(H,w)推导出来。BER区的上限可以是预定的最大BER值，例如，0.5(50％)。

BER_exp(H,w)←min(BER_exp(H,w)),0.5) 方程式4

进而，比特成功率(BSR)可以被定义为：

BSR_exp(H,w)←1-BER_exp(H,w) 方程式5

最后，奖励函数f(H,w)∈[-0.5,+0.5]可以通过对所述BSR使用以下预处理来定义：

f(H,w)←log₂(BSR_exp(H,w))+0.5 方程式6

如所解释的，在所提出的RL方法中，通过在采取该动作并遵循最优策略时估计每个动作的最优值来解决学习问题。

令Q^*(s,a)标示状态-动作对(s,a)的最优值。根据此定义，通过采取如下在给定状态s下具有最高动作值的动作a^*来获得简单的最优策略：

因此，RL代理540的目标可以是通过经由s和r(即，基于状态和奖励信息)与MIMO***500的环境的交互而学习值函数Q^*(s,a)。一旦该学习完成，所学习的值函数就可以被用于通过仅观察状态s基于方程式7来选择优化预编码器。

换句话说，在训练之后即当存在从训练得到的经训练和/或优化的预编码器选择策略时，布置可与图5中所示的有所不同。此时不需要使用奖励反馈，并且预编码器选择可以仅基于作为输入的状态信息，例如，基于SRS和/或CSI。因此，经训练的预编码器选择策略例如可以直接在发射机中或者由发射机来实现，诸如在预编码器块512中用状态信息作为输入。当然，还可以保留在训练期间所使用的RL代理并只改变其操作模式，而不是训练和改进预编码器选择策略，仅基于状态信息s来应用所学习的预编码器选择策略，即，不必考虑任何奖励r。

图7示意性地示出了具有另一个MIMO***700的功能块的框图，并且将被用于讨论本文中的一些进一步的实施例。为了不因太多细节而模糊不清，将侧重于与MIMO***500和以上关于图5讨论的情况的差异。因此，图7也以较少细节绘制。除了以下所指出的差异以外，细节和功能可以与MIMO***500的相同。因此，应意识到存在类似于发送设备510并且包括多天线发射机711的发送设备710，类似于接收设备520并且包括多天线接收机721的接收设备720。

还存在通信信道730，其可以与通信信道530类似或相同。

此外，存在可以与奖励函数块541类似或相同的奖励函数块741。

主要区别在于存在被设置用于“单向”训练即“单向”RL的RL代理740，而图5中的RL代理540是基于“双向”训练即“双向”RL。也就是说，在图5中，RL代理540被设置以使得它可以在训练期间参与选择预编码器，并且RL代理540可以在训练期间控制动作即所选择的预编码器的探索和利用。这与一些优势相关联，然而，从某些角度来看并且在某些情况下，它可能是不利的，例如，如果在被训练的***在真实世界中运行并且在服务真实用户，这意味着用户将面临非最优且可能更差的预编码器选择，至少在训练已产生最优或至少经充分训练的预编码器选择策略为止。此外，如从图5中认识到的，在训练期间有从接收设备520到发送设备510的奖励信息的反馈要关心。如果在训练期间的动作选择意味着对所涉及的MIMO***的中断或干扰，则这可能代价高昂，因为无线电频率频谱在真实世界的无线网络中是一种有限且昂贵的资源。无线通信网络的运营商可能还必须保证一定的服务质量和/或不想拿客户关系冒险。此外，RL代理在训练期间选择预编码器可以显著影响***的性能，例如，对MIMO***造成有害干扰。

对此，如图7中所指示的“单向训练”提供了一种解决方案。基本思想是除了监视状态s之外，RL代理740还监视和观察根据一些现有的预编码器选择策略而选择的预编码器，即，监视和观察所采取的并与所观察到的状态s相关联的每个动作a。与之前类似，RL代理740获得关于与状态和动作对(s,a)相关联的奖励r的信息。标识所选预的编码器并因此对应于动作a的预编码器索引通常从发射机被发送到接收机(即，在前向链路中)并且在接收设备中可用。此外，诸如解调参考信号(DMRS)和类似信号之类的导频信号在前向链路中也是可用的，并且可以与上述反向链路SRS类似地被使用以提供关于状态s的信息。

由于现有的预编码器选择策略不是最优的，它们将包含探索和利用的混合，因此可以用于训练。例如，MIMO预编码设计可以在MIMO OFDM***中以预编码资源块组(PRG)为基础被应用在频率选择性衰落上，这表示在真实世界部署中的MIMO预编码应用。3GPP例如已经规定每个PRG可以由连续的物理资源块(PRB)形成，并且预编码器对于PRG内的所有PRB是相同的。由于频率选择性使获得对于PRG内的所有PRB最优的MIMO预编码矩阵成为一项挑战，因此，常规的网络和***使用基于在PRG中的导频信号上平均的信道协方差矩阵的近似算法以找到次优解决方案。

RL代理740可以有利地在接收设备720中实现，尽管它可以可替代地在一些其他设备中实现，只要它可以获得(例如，接收)关于动作a、状态s和相关联的奖励r的信息即可。然而，这需要设备之间的一些信令，而如果它在接收设备720中被实现，则可以避免这些信令。

如与上面关于图5的描述类似的，在训练之后，经训练的预编码器选择策略可以被传送到发射机，并且例如可以在发送设备710的预编码器块711中被实现。预编码器块711被配置为根据经训练的预编码器选择策略和关于状态s的信息来选择预编码器。由于是在发送设备710中实现的，因此关于状态s的信息现在可以是基于反向链路SRS。

因此，RL代理740可以在真实世界环境中安全地学习，而无需与环境直接交互，即，无需在RL期间选择任何预编码器。这种能力(即，在RL期间学习而不会冒中断或负面干扰MIMO***的风险)可以是实现RL和相关最新学习技术的全部益处的关键。

现在将进一步讨论上述RL以及如何有利地实现它。

一种最新的学***控制(Human-level control through deep reinforcement learning)”(《自然》，第518卷，第529-532页，2015年2月)。在Q学习中使用神经网络具有对连续状态空间泛化以使得代理可以在与它之前在学习期间已看到的环境类似的测试环境中表现良好的益处。这意味着DQN可以通过仅用状态空间的有限子集进行学习而在整个状态空间上产生良好的近似。因此，即使对于大得多的多维和连续状态问题，DQN算法也能有效地找到近似值函数，而与所谓的表格法相比受到维数灾难的影响更小，其中该表格法可以在状态和动作空间对于将由表格表示的函数逼近器来说足够小时找到值函数。

泛化也是动作空间设计中的一个重要问题。对动作空间的泛化意味着在相似状态下的相似动作往往具有相似的动作值，这进一步意味着邻近的状态可以具有针对给定状态的相似最优动作。因此，动作设计可以被表述为最优动作空间中的量化问题。因此，可以通过量化在目标环境下的最优动作空间来设计动作组。由于量化问题与格拉斯曼插值之间的内在关系，可以通过使用格拉斯曼码本来获得具有所需特性的动作组。参见例如D.J.Love、R.W.Heath和T.Strohmer的“用于多输入多输出无线***的格拉斯曼波束成形(Grassmannian Beamforming for Multiple-Input Multiple-Output WirelessSystems)”(IEEE信息论期刊，第49卷，第2735-2748页，2003年10月)。通过假设空间不相关i.i.d.瑞利衰落矩阵信道H中的最优波束成形向量的分布，最优预编码器组可以从线包(line packing)问题中获得。格拉斯曼线包(Grassmannian line packing)是这样的一个问题：间隔穿过原点的N条线，以便最大化任意两条线之间的最小角度的正弦。所得到的N条线均匀分布在复单位球体上并且可以被用于获得大小为N的码本。本文的实施例可以使用例如大小为N＝64的格拉斯曼码本，其可以被标示为

如上已所指示的，在学习中，代理(例如，RL代理540)可以以离散的时间步长t＝1,2,…,T-1与(例如，MIMO***500的)环境交互，以观察状态s_t并选择动作

在每次从s_t转变到s_t+1之后，该代理获得基本上立即的奖励rt。因此，以时间步长t的每个经验转变可以由一个元组表示：

e_t＝[s_t,a_t,r_t,s_t+1] 方程式8

图8示意性地示出了采用具有输入层801、输出层802和函数逼近器部分803(即，具有参数θ、状态s作为输入，以及针对每个动作

的不同输出q_a(对应于动作值)的DQN动作值逼近器Q_θ，其中，

标示预定义码本的大小)的DQN的形式的神经网络800。在本文中，每个动作a可以对应于诸如在LTE MIMO***中使用的预编码矩阵指示符(PMI)。令Q_θ(s,a)标示由状态-动作对(s,a)索引的最优动作值的DQN近似。进而，通过测量当前值估计与基于每个新经验的新估计之间的差异，DQN算法可以将最优值函数Q^*(s,a)近似为Q_θ(s,a)。例如：

对于每个经验e_t＝[s_t,a_t,r_t,s_t+1]，当前的在线值由下式给出：

Q_θ(s_t,a_t) 方程式9

而新估计的值(由

标示)可以被获得为：

损失函数可以被定义为这两个值之间的均方误差：

进而，通过经由关于损失函数L(θ)的损失最小化问题找到最优参数θ，可以实现值学习。用于损失函数优化的标准方法是所谓的梯度下降算法(gradient descentalgorithm)。在实践中，真正的梯度下降通常通过被称为随机梯度下降(SGD)的过程来近似，以有效地更新参数。参数更新可以根据下式通过在梯度的反方向上调整参数来进行：

其中，Δ_θQ_θ(s,a)标示关于分量θ的偏导数向量。

综上所述，所学习的动作值函数Q_θ可以直接逼近最优的动作值函数Q^*，并因此，可以从方程式7进行动作预测。图8还示意性地图示了通过使用所学习的DQN动作值逼近器的动作选择，其中，已选择PMI#2是基于它导致最高动作值。在该附图中的箭头被用于图示动作值q的大小，其中，与更细的箭头相比，更粗的箭头指示更高的值。

图9A是关于实现上面关于图5讨论的“双向”RL的伪代码。参考以上已经描述和说明的内容，该伪代码应是相当不言自明的。

图9B是关于实现上面关于图7讨论的“单向”RL的伪代码。参考以上已经描述和说明的内容，该伪代码应是相当不言自明的。

图10是示意性地描绘被用于进一步讨论本文的实施例并且可以在其中实现本文的实施例的无线通信网络1000(例如，电信网络)的示例的框图。无线通信网络1000可以包括无线电接入网络(RAN)1001部分和核心网络(CN)1002部分。无线通信网络1000通常是电信网络或***，诸如支持至少一个无线电接入技术(RAT)的蜂窝通信网络，例如，LTE或4G、也可以被称为5G的新无线电(NR)。如所认识到的，它还应例如通过支持MIMO和/或MISO接收机和/或发射机而支持多天线发射机。

无线通信网络1000包括通信地互连的网络节点。这些网络节点可以是逻辑和/或物理的，并且位于一个或多个物理设备中。无线通信网络1000(通常是RAN 1001)包括诸如基站之类的无线电网络节点1010(即，是或包括无线电发送网络节点的网络节点)，和/或是或包括控制一个或多个无线电发送网络节点的控制节点。所述无线电网络节点例如可以被通信地连接，诸如被配置为通过或经由例如所谓的X2-U通信接口或通信链路或与RAN 1001中包括的其他无线电网络节点(未示出)进行通信。

此外，无线通信网络1000(或者更确切地说是CN 1002)通常包括一个或多个核心网络节点，例如，一个或多个核心网络节点1004，其可以通过或经由通信接口或通信链路(诸如所谓的S1-U)与RAN 1001的无线电网络节点(例如，与无线电网络节点1010)通信地连接(诸如被配置为与之通信)。

无线通信网络1000(或者具体地说是它的一个或多个网络节点，例如，网络节点1010)通常被配置为服务和/或控制和/或管理无线电覆盖区域(即，其中提供无线电覆盖以用于与一个或多个通信设备的通信的区域)中的一个或多个无线通信设备(诸如无线设备1020和无线设备1021)。无线设备1020可以可替代地被命名为无线通信设备、UE等，如在本文其他地方所解释的。每个无线电覆盖可以由特定的RAT提供和/或与之相关联。无线电覆盖可以是无线电波束(可以被简称为波束)的无线电覆盖。如本领域技术人员应认识到的，与传统小区相比，波束是更动态且相对更窄且定向的无线电覆盖，并且可以通过所谓的波束成形来实现。波束通常用于同时服务一个或几个无线设备，并且可以被专门设置以用于服务这一个或几个无线设备。可以通过波束成形动态地改变波束，以例如通过MIMO或MISO向由该波束服务的一个或多个无线设备提供预期的覆盖。可存在由同一个网络节点提供的多于一个的波束。

在该附图中，还指示了通信信道1030，其可以对应于通信信道530或730。

在该图中，还示出了远程设备1051(例如，远程网络节点)和远程计算机网络1050，远程设备1051可以是远程计算机网络1050的一部分或者被连接到远程计算机网络1050。远程计算机网络1050可以对应于提供某些服务的所谓的计算机云(或者被简称为云)。远程设备1051和/或远程网络1050可以例如被通信地连接到无线通信网络1000，例如，被连接到其中的一个或多个设备和/或节点，诸如CN 1002和核心网络节点1003。

无线通信网络1000(例如，其CN 1002)通常进一步被通信地连接到(例如，经由核心网络节点1003)外部网络(例如，因特网)，从而例如向所述无线通信设备1020提供对外部网络的接入。外部网络可以包括并被连接到更多的网络节点(例如，外部网络节点)，诸如对应于用于以数据流的形式向无线设备提供数据的一个或多个数据提供设备。在本文中，外部是指无线通信网络1000的外部。数据提供设备例如可以对应于向一个或多个其他因特网连接设备(例如，无线设备1020，如上所提及的，其可以经由无线通信网络1000(例如，经由核心网络节点1003)而被提供有对外部网络(例如，因特网)的接入)提供服务的服务器设备(例如，作为服务提供计算机云的一部分)。这种服务器设备(或者被简称为服务器)可以可替代地被称为例如主机计算机、服务器***等。

需要注意的是图1仅仅是示意性的并且是用于举例说明的目的，并且在该附图中所示的所有内容对于本文的所有实施例并非都是必需的，这对于本领域技术人员来说是显而易见的。此外，如本领域技术人员所认识到的，与该附图中所示的相对应的通信***和无线通信网络通常将包括若干其他设备、网络节点和细节，但是在本文中为了简化起见而未被示出。

图11A是示意性地图示根据本文的实施例并基于以上详细示例的第一方法的实施例的流程图。该第一方法用于为被设置为在无线通信网络(例如，无线通信网络1000)的通信信道(例如，通信信道530、730、1030中的任意一个)上发送数据的多天线发射机(例如，多天线发射机511、711中的任意一个)提供预编码器选择策略。该第一方法可以由一个或多个第一设备(即，第一设备，诸如510、511、720、721、1003、1004、1010、1020、1050、1051中的一个或多个)来执行。本领域技术人员将从本文所公开的内容中认识到下面讨论的特定实施例的细节可以确定哪个/哪些设备适合于执行该第一方法和/或其哪个动作。

以下动作可以采用任何合适的顺序，和/或可以在可能且合适的情况下在时间上完全或部分重叠地被执行。

动作1100

所述第一设备应用采用强化学习形式的机器学习，该强化学习涉及动作值函数(例如，上述方程式9中的Q_θ(st,at))的适配。该动作值函数是被配置为基于动作信息(例如，对应于a_t)和状态信息(例如，对应于s_t)来计算动作值的函数。本文的动作信息是指示多天线发射机(例如，511或711)的预编码器的信息，并且本文的状态信息是指示至少与所述通信信道(例如，530、730、1030)有关的状态的信息。该动作值函数的适配进一步基于由奖励函数(例如，方程式6中的f(H,w))提供的奖励信息，其中，本文的奖励信息是指示在通信信道上发送数据的成功程度的信息。如上所解释的，f(H,w)是基于通信信道上的BER性能的奖励函数的示例。

可注意到动作值函数的所述适配因此可以对应于动作值函数(例如，Q_θ)朝向(即，接近和/或近似)诸如上述Q*(s,a)之类的最优值函数的训练。最优值函数会使能通过会导致针对给定状态的最高动作值的动作a而采取最优动作a(在本文中对应于将要选择的最优预编码器)，如上面关于方程式7所讨论的。换句话说，预编码器选择策略可以基于对针对给定状态信息根据经适配的动作值函数产生最高动作值的预编码器的选择。

在上面的示例中，Q_θ朝向Q*的适配是基于使用奖励函数f(H,w)来定义损失函数L(θ)并通过损失最小化进行训练，参见方程式10-12。如本领域技术人员所认识到的，这仅仅是一个示例，并且可以定义许多其他奖励函数和/或训练算法。例如，强化学习和动作值函数的适配可以包括神经网络(例如，上面关于图8讨论的神经网络800)的训练。在一些实施例中，强化学习是基于DQN强化学习算法，并且所述神经网络对应于DQN。神经网络的输入层(例如，801)可以被配置为获得所述状态信息，并且神经网络的输出层(例如，802)可以被配置为提供动作值，来自预定义的可能动作信息集的每个动作信息一个动作值。

在一些实施例中，动作信息与标识预定义预编码器集合中的预编码器的标识符相关。在这些实施例中并且在神经网络的情况下，该神经网络被配置为提供动作值，来自预定义的可能动作信息集的每个动作信息一个动作值可以对应于提供动作值，标识来自预定义的可能预编码器集合中的预编码器的每个标识符一个动作值。

如上所提及的，本文的状态至少与通信信道有关，然而，该状态还可以进一步与多天线发射机有关。例如，状态信息可以是基于关于通信信道并优选地还关于多天线发射机的环境信息。该环境信息可以对应于影响在通信信道上的数据传输的参数的测量，例如，该环境信息可以包括CSI、关于在多天线发射机处的负载条件的数据、关于在调度由多天线发射机发送的数据中涉及的调度器的que状态的信息、在使用多天线发射机发送数据时应用的流量模型等。

在涵盖上面讨论的详细示例的一些实施例中，所述状态信息是基于在所述通信信道(例如，通信信道530、730、1030中的任意一个)上或者在所述通信信道的互易通信信道上发送的参考信号。如本文所使用的，互易通信信道是指另一个通信信道但其表现得如此相似以至于在该通信信道上与在该互易通信信道上的传输之间没有或基本上没有差异。所述参考信号可以由无线通信设备(例如，无线通信设备1020)发送到无线通信网络(例如，无线通信网络1000)，以使该无线通信网络能够基于所接收的参考信号来获得关于该通信信道的状态的信息。因此，如前文中已所指示的，参考信号可以对应于DMRS或SRS，和/或关于通信信道的状态的所述信息可以对应于CSI。还如前文中所指示的，DMRS通常在前向链路中被使用，而SRS在反向链路中被使用。本文的链路是指在通信信道上的通信，并且方向前向和反向与传输方向(即，从发射机到接收机)相关。

此外，在一些实施例中，奖励函数和奖励信息是基于与在所述通信信道上的数据传输相关联的误码率，并被提供以使得低误码率比高误码率得到更多奖励。因此，这类似于根据前文中的详细示例所述的情况，其中，BSR从BER形成并且奖励函数基于该BSR而形成，参见方程式3-6。

动作1110

所述第一设备基于从强化学习得到的所述经适配的动作值函数来提供所述预编码器选择策略。换句话说，在如动作100中的基于强化学习的训练之后，经适配的即经训练的动作值函数(诸如Q_θ的经训练的版本)被提供并且可以(即，在训练后)被用于选择用于多天线发射机的预编码器。这将在下面关于图13单独地讨论。例如，在训练神经网络(例如，神经网络800)的情况下，所提供的预编码器选择策略因此是基于神经网络的经训练的版本。

图11B是示意性地图示根据与该第一方法有关的一些实施例并基于以上详细示例的动作实施例的流程图。更特别地，这些实施例涉及可以如何更详细地执行图11A中的动作1100，或者换句话说，这些实施例涉及采用强化学习形式的机器学习的所述应用可以包括的内容。

与图11A相同，以下动作可以采用任何合适的顺序，和/或可以在可能且合适的情况下在时间上完全或部分重叠地被执行。

动作1101

所述第一设备获得动作值函数的初始版本。

动作1102

所述第一设备获得奖励函数。

动作1103

所述第一设备在不同的时间点并由此以状态信息、动作信息和奖励信息的不同组合执行动作1104-1107的迭代。将要执行多长时间、在哪个时间点执行和/或适合执行多少次迭代可以根据情况而改变并且留给技术人员发现和/或它可以被预先确定。原则上，每次迭代将使能更好的经训练的动作值函数和可能更好的结果。

动作1104

所述第一设备获得关于当前状态的状态信息。如上所解释的，当前状态应当是通信信道和/或多天线发射机的当前状态。

动作1105

所述第一设备获得指示在所述当前状态期间由多天线发射机在应用的预编码器的动作信息。在本文中，该预编码器当然应当是多天线发射机关于通信信道而应用的预编码器。

动作1106

所述第一设备从奖励函数获得与由所获得的动作信息指示的预编码器的应用相关联的奖励信息，例如，至少部分从由所获得的动作信息指示的预编码器的应用得到。

动作1107

基于所获得的奖励信息、所获得的状态信息和所获得的动作(即，如在动作1104-1106中获得的)，所述第一设备提供初始动作值函数的更新版本，或者在动作1104-1107的前一迭代中更新的动作值函数的版本。

动作1108

在动作1104-1107的所述迭代之后，例如，当认为通过强化学习的训练足够时，所述第一设备基于从所执行的迭代得到的动作值函数的更新版本(即，通常是根据最后一次迭代的更新版本)来提供由此经适配的即经训练的动作值函数。

在例如涵盖图9A中所示的伪代码示例的一些实施例中，在动作1105中获得动作信息包括根据以下中的一个或多个来选择动作信息：

a)从预定义动作信息集中随机地。

b)从所述预定义集的子集中随机地，该子集包括产生比所述预定义集中的其余的动作信息更大的动作值的动作信息。

c)从所述预定义集的动作信息之中产生最大动作值的动作信息中。在这些实施例中，所述动作值因此应当是从应用初始动作值函数而得到的，或者是从应用在前一迭代中更新的动作值函数而得到的。

此外，在这些实施例中，可以优选在动作1105的每次迭代中使用所选择的动作信息来选择所应用的预编码器(即，在迭代和训练的一部分中使用的预编码器)。如上所提及的，本文的动作信息因此优选地与标识预定义预编码器集合中的预编码器的标识符相关。这与上面结合图9A的伪代码讨论的“双向”交互是一致的。因此，如在a)中那样进行随机地选择(例如，从预定义预编码器集合中)意味着进行高探索程度。如b)中那样进行随机地选择意味着使用根据初始动作值函数的更新版本或者来自前一迭代的动作值函数的更新版本产生最大(例如，最高)动作值的预编码器的探索(exploration)和利用(exploitation)的某种混合。另一方面，如c)中那样进行选择意味着仅利用，从学习和培训的角度来看这通常不是最优的，但可以例如与a)组合。通常，使用b)，或者与a)相组合例如对于在b)下描述的某一(诸如预定义的)概率可以是优选的，否则使用a)。

然而，如上面关于图9B所讨论的，在训练期间可并不总是期望“双向”交互，而是代替地预期“单向”交互。也就是说，在训练期间并且在迭代中，动作值函数没有被用于选择诸如预编码器之类的动作信息，而是代替地可以以某种常规方式选择预编码器，并且这在训练中被观察到并被使用，即，用于更新如本文中所描述的动作值函数。在运营商在某一站点处采用并参与服务真实用户的现有的“启动并运行”多天线发射机的情况下，这可以是优选的。在这种情况下，可能不期望让未经充分训练的函数参与选择预编码器。

换句话说，在例如涵盖图9B中所示的伪代码示例的一些实施例中，在动作1105中获得的动作信息与在应用另一个预定义预编码器选择策略(例如，常规的和/或现有的)下在无线通信网络(例如，无线通信网络1000)中操作多天线发射机时选择的预编码器有关(诸如对应于该预编码器或由其确定)。因此，在这种情况下，动作值函数应当不会或不需要在迭代中被使用来选择动作信息，而是代替地在训练期间存在“单向”类交互。

在训练期间的这种“单向”交互中，动作函数因此可以基于通过诸如现有的“真实世界”实时操作多天线发射机的现有技术和/或已经“在使用中”的选择方法或策略而选择的预编码器来更新，所选择的预编码器进而可以是服务无线通信设备的现有基站的一部分。该多天线发射机可以执行预编码器选择，例如，应用已经存在的预编码器选择策略和/或根据一些现有技术选择方法(诸如背景技术中指示的方法中的任意一个)，或者基于先前训练的用于预编码器选择的函数或模型。因此，单向训练的优势在于对于基于值函数的更新版本而选择的预编码器，不需要开放任何现有的、实时且可操作的无线通信网络以及由其服务的用户，直到存在预编码器选择策略可以以之为基础并且以之为根据来选择预编码器的经充分训练的值函数。已经发现现有技术***通常执行最优和次优选择两者，并由此可以被认为覆盖了与选择预编码器的方式中探索和利用方面两者的混合类似的内容，并因此可以(甚至可以是有益地)被用于此类训练。

当然，所述“单向”和“双向”方法可以被组合。例如，首先，预编码器选择策略被“单向”训练，进而，在继续训练期间对应的值函数使用“双向”，而同时它被用于选择预编码器。例如，根据上述c)选择动作信息可以与“单向”方法相组合，从而产生“双向”方法的变体，但不必将***开放于随机选择中。

在一些实施例中，对于动作1104-1107的所述迭代中每一个或一些，来自每个这种迭代的状态、动作和奖励信息的组合可以被保存以用于在将来对动作值函数进行更新。在这些实施例中，动作1107中的动作值函数的所述更新可以通过(例如，随机地)选择状态、动作和奖励信息的所述保存的组合中的一个或多个来执行。

这可以被描述为经验重放，其中，状态、动作和奖励信息的经验可以保存在存储器中并在随后被用于更新动作值函数，例如通过随机地选择一个这种经验(其可以被称为基于非批处理的学习)，或者通过选择多个这种经验(其可以被称为基于批处理的学习)。这两者都可以导致改进的学习行为。

图12是用于图示一个或多个第一设备1200(例如，上面结合图11A-11B讨论的所述一个或多个第一设备)可以如何被配置为执行上面结合图11A-11B讨论的第一方法和动作的实施例的示意框图。

因此，设备1200涉及(例如，用于)为被设置为在无线通信网络(例如，无线通信网络1000)的通信信道(例如，通信信道530、730或1030)上发送数据的多天线发射机(例如，多天线发射机511或711)提供预编码器选择策略。

设备1200可以包括诸如部件、一个或多个硬件模块(包括例如一个或多个处理器)、和/或一个或多个软件模块之类的用于执行所述方法和/或动作的处理模块1201。

设备1200可以进一步包括存储器1202，其可以包括(诸如包含或存储)计算机程序1203。计算机程序1203包括可由设备1200直接或间接地执行的用于执行所述方法和/或动作的“指令”或“代码”。存储器1202可以包括一个或多个存储器单元，并且可以进一步被设置为存储诸如参与或用于执行本文的实施例的功能和动作的配置和/或应用之类的数据。

此外，设备1200可以包括处理器1204(即，一个或多个处理器)作为示例性硬件模块，并且可以包括或对应于一个或多个处理电路。在一些实施例中，处理模块1201可以包括处理器1204，例如，“采用处理器1204的形式体现”或“由处理器1204实现”。在这些实施例中，存储器1202可以包括可由处理器1204执行的计算机程序1203，由此，设备1200是可操作以或被配置为执行所述方法和/或其动作。

通常，设备1200(例如，处理模块1201)包括诸如电路之类的被配置为参与(例如，通过执行)去往/来自其他单元和/或设备的任何通信(诸如向其他设备发送信息和/或从其他设备接收信息，例如，从无线电网络节点1010接收以及向无线设备1020发送)的输入/输出(I/O)模块1205。当适用时，I/O模块1205可以通过获得(例如，接收)模块和/或提供(例如，发送)模块进行例示。

此外，在一些实施例中，设备1200(例如，处理模块1201)包括应用模块、获得模块、启动模块、提供模块、选择模块、执行模块中的一个或多个，作为示例性的用于执行本文的实施例的动作的硬件和/或软件模块。这些模块可以全部或部分地由处理器1204实现。

因此，设备1200，和/或处理模块1201，和/或处理器1204，和/或I/O模块1205，和/或应用模块可以可操作以或被配置为应用采用强化学习形式的所述机器学习。

此外，设备1200，和/或处理模块1201，和/或处理器1204，和/或I/O模块1205，和/或提供模块可以可操作以或被配置为基于从强化学习得到的所述经适配的动作值函数来提供所述预编码器选择策略。

此外，设备1200，和/或处理模块1201，和/或处理器1204，和/或I/O模块1205，和/或获得模块可以可操作以或被配置为获得动作值函数和奖励函数的所述初始版本。

设备1200，和/或处理模块1201，和/或处理器1204，和/或I/O模块1205，和/或执行模块可以可操作以或被配置为在不同的时间点并由此以状态信息和动作信息的不同组合执行所述迭代，也就是说，以获得关于当前状态的所述状态信息，获得指示在所述当前状态期间由多天线发射机在应用的预编码器的动作信息，从奖励函数获得与由所获得的动作信息指示的预编码器的应用相关联的所述奖励，以及基于所获得的奖励信息、所获得的状态信息和所获得的动作信息来提供初始动作值函数的所述更新版本或者在前一迭代中更新的动作值函数的所述版本的所述更新版本。

此外，设备1200，和/或处理模块1201，和/或处理器1204，和/或I/O模块1205，和/或提供模块可以可操作以或被配置为基于从所执行的迭代得到的动作值函数的更新版本来提供经适配的动作值函数。

图13是示意性地图示根据本文的实施例的第二方法的实施例的流程图。基本上，该第二方法涉及由如上面关于图11A-图11B所描述的第一方法提供的预编码器选择策略的使用，即，在已通过强化学习而被训练之后的动作值函数的使用。该第二方法用于选择多天线发射机(例如，多天线发射机511、711中的任意一个)的预编码器。因此，多天线发射机被配置为在无线通信网络(例如，无线通信网络1000)的通信信道(例如，通信信道530、730、1030中的一个或多个)上发送数据。该第二方法可以由一个或多个第二设备(即，第二设备，诸如510、511、710、711、1003、1004、1010、1050、1051中的一个或多个)来执行。本领域技术人员将从本文所公开的内容中认识到下面讨论的特定实施例的细节可以确定哪个/哪些设备适合于执行该第二方法和/或其哪个动作。

动作1301

所述第二设备获得根据第一方法提供的预编码器选择策略。也就是说，如上所解释的，预编码器选择策略基于经适配的即经训练的动作值函数，其中，已经通过强化学习完成训练。

动作1302

所述第二设备获得关于当前状态的状态信息。如所认识到的，这种状态应当如在训练期间(即，在本文中是在执行第一方法时)被定义。

动作1303

所述第二设备基于所获得的预编码器选择策略和所获得的当前状态信息来选择预编码器。

如针对上述第一方法所解释的，预编码器选择策略是基于从强化学习得到的所述经适配的动作值函数，即，经训练的动作值函数。换句话说，在当前动作中选择预编码器可以对应于：选择在关于当前状态的状态信息与经适配的动作值函数一起被使用(即，被用作经适配的动作值函数的输入)时，与从经适配的动作值函数产生最大动作值的动作信息相关联的预编码器。

图14是用于图示一个或多个第二设备1400(例如，上面结合图13讨论的所述一个或多个第二设备)可以如何被配置为执行上面结合图13讨论的第二方法和动作的实施例的示意框图。

因此，设备1400涉及(例如，用于)选择被配置为在无线通信网络(例如，无线通信网络1000)的通信信道(例如，通信信道530、730或1030)上发送数据的多天线发射机(例如，多天线发射机511或711)的预编码器。

设备1400可以包括诸如部件、一个或多个硬件模块(包括例如一个或多个处理器)、和/或一个或多个软件模块之类的用于执行所述方法和/或动作的处理模块1401。

设备1400可以进一步包括存储器1402，其可以包括(诸如包含或存储)计算机程序1403。计算机程序1403包括可由设备1400直接或间接地执行的用于执行所述方法和/或动作的“指令”或“代码”。存储器1402可以包括一个或多个存储器单元，并且可以进一步被设置为存储诸如参与或用于执行本文的实施例的功能和动作的配置和/或应用之类的数据。

此外，设备1400可以包括处理器1404(即，一个或多个处理器)作为示例性硬件模块，并且可以包括或对应于一个或多个处理电路。在一些实施例中，处理模块1401可以包括处理器1404，例如，“采用处理器1404的形式体现”或“由处理器1404实现”。在这些实施例中，存储器1402可以包括可由处理器1404执行的计算机程序1403，由此，设备1400是可操作以或被配置为执行所述方法和/或其动作。

通常，设备1400(例如，处理模块1401)包括诸如电路之类的被配置为参与(例如，通过执行)去往/来自其他单元和/或设备的任何通信(诸如向其他设备发送信息和/或从其他设备接收信息，例如，从无线电网络节点1010接收以及向无线设备1020发送)的输入/输出(I/O)模块1405。当适用时，I/O模块1405可以通过获得(例如，接收)模块和/或提供(例如，发送)模块进行例示。

此外，在一些实施例中，设备1400(例如，处理模块1401)包括获得模块和选择模块中的一个或多个，作为示例性的用于执行本文的实施例的动作的硬件和/或软件模块。这些模块可以全部或部分地由处理器1404实现。

因此，设备1400，和/或处理模块1401，和/或处理器1404，和/或I/O模块1405，和/或获得模块可以可操作以或被配置为获得根据第一方法提供的预编码器选择策略，以及获得关于当前状态的所述状态信息。

此外，设备1400，和/或处理模块1201，和/或处理器1204，和/或I/O模块1205，和/或选择模块可以可操作以或被配置为基于所获得的预编码器选择策略和所获得的当前状态信息来选择预编码器。

图15是图示与用于使上面讨论的所述设备1200、1400中的一个或多个执行所述第一方法、第二方法和/或相关动作的计算机程序及其载体有关的一些实施例的示意图。计算机程序可以是计算机程序1203和/或1403，并且包括在由处理器1204和/或1404和/或处理模块1201和/或1401执行时使设备1200和/或1400如上所述地执行的指令。在一些实施例中，提供了载体(或者更具体地说，提供了数据载体)，例如，包括计算机程序的计算机程序产品。载体可以是电子信号、光信号、无线电信号和计算机可读存储介质(例如，如在该附图中示意性图示的计算机可读存储介质1501)中的一个或多个。因此，计算机程序1203和/或1403可以被存储在计算机可读存储介质1501上。载体可以排除暂时性传播信号，并且数据载体可以相应地被命名为非暂时性数据载体。是计算机可读存储介质的数据载体的非限制性示例是存储卡或存储棒、诸如CD或DVD之类的光盘存储介质、或通常基于硬盘驱动器或固态驱动器(SSD)的大容量存储设备。计算机可读存储介质1501可以被用于存储在计算机网络1502(例如，互联网或局域网(LAN))上可访问的数据。计算机程序1203和/或1403还可以被提供为纯计算机程序，或者被包括在一个或多个文件中。一个或多个文件可以被存储在计算机可读存储介质1501上，并且可经由服务器例如在如该附图中所指示的在计算机网络1502上例如通过下载获得。服务器可以例如是Web或文件传输协议(FTP)服务器。一个或多个文件可以例如是可执行文件，用于直接或间接下载到所述设备1200和/或1400并且在其上执行，以例如通过由处理器1204和/或1404执行而使它/它们如上所述地执行。一个或多个文件还可以或可替代地用于涉及同一或另一个处理器的中间下载和编译，以使它们在进一步下载和执行之前可执行，从而使所述设备1200和/或1400如上所述地执行。

应注意，在前文中提及的任何处理模块和电路可以被实现为软件和/或硬件模块，例如，在现有的硬件中和/或被实现为专用集成电路(ASIC)、现场可编程门阵列(FPGA)等。还应注意，在前文中提及的任何硬件模块和/或电路可以例如被包括在单个ASIC或FPGA中，或者被分布在若干单独的硬件组件中，无论其是单独封装的还是被组装到片上***(SoC)中。

本领域的技术人员还将理解，本文讨论的模块和电路可以是指硬件模块、软件模块、模拟和数字电路、和/或被配置有软件和/或固件(例如，被存储在存储器中)的一个或多个处理器的组合，其在由一个或多个处理器执行时可以使节点和设备被配置为和/或执行如上所描述的方法和动作。

在本文中，由任何标识符进行的标识可以是隐式或显式的。该标识在某一上下文中(例如，在无线通信网络中或者至少在其相关部分或区域中)可以是唯一的。

如本文所使用的，术语“网络节点”或简称“节点”可以由此指代可以与通信网络(例如，IP网络或无线通信网络)中的另一个节点通信并且被包括在该通信网络中的任何类型的节点。此外，这种节点可以是或被包括在无线电网络节点(在下面被描述)或任何网络节点中，该节点例如可以与无线电网络节点通信。这种网络节点的示例包括任何无线电网络节点、核心网络节点、操作和维护(O&M)、操作支持***(OSS)、自组织网络(SON)节点等。

如本文中可以使用的，术语“无线电网络节点”可以由此指代用于服务无线通信设备(例如，所谓的用户设备或UE)的，和/或被连接到其他网络节点或网络单元或无线通信设备从其接收信号的任何无线电节点的任何类型的网络节点。无线电网络节点的示例是节点B、基站(BS)、诸如多标准无线电(MSR)BS、eNB、eNodeB、gNB之类的MSR节点、网络控制器、RNC、基站控制器(BSC)、中继器、施主节点控制中继器、基站收发台(BTS)、接入点(AP)、新无线电(NR)节点、传输点、传输节点、分布式天线***(DAS)中的节点等。

如本文中可以使用的，术语“无线通信设备”、“用户设备”和“UE”中的每一个可以由此指代被设置为与无线、蜂窝和/或移动通信***中的无线电网络节点通信的任何类型的无线设备，并因此可以将其称为无线通信设备。示例包括：目标设备、设备对设备UE、用于机器通信类型(MTC)的设备、机器类型UE或具有机器对机器(M2M)通信能力的UE、个人数字助理(PDA)、平板计算机、移动设备、终端、智能电话、膝上型嵌入式设备(LEE)、膝上型安装式设备(LME)、通用串行总线(USB)加密狗等。

虽然为了方便起见在本文中、或在涉及其他命名法(例如，3GPP或其他标准相关的某一命名法)的示例的上下文中经常使用一些术语，但是必须理解这种术语是非限制性的。

还应注意，尽管本文使用的术语可以尤其与某些通信***或网络相关联和/或通过某些通信***或网络来例示，但这不应被视为将本文的实施例的范围仅限于这样的某些***或网络等。

如本文所使用的，术语“存储器”可以是指用于存储数字信息的数据存储器，通常是硬盘、磁存储设备、介质、便携式计算机软盘或光盘、闪存存储器、随机存取存储器(RAM)等。此外，存储器可以是处理器的内部寄存器存储器。

还应注意，诸如第一设备或节点、第二设备或节点、第一基站、第二基站等之类的任何枚举的术语都应被认为是非限制性的，并且这种术语并没有暗示某种层次关系。相反，在没有任何明确信息的情况下，通过枚举的命名应被认为仅仅是一种实现不同名称的方式。

如本文所使用的，表述“被配置为”可以意味着处理电路被配置为或适于通过软件或硬件配置来执行本文描述的动作中的一个或多个。

如本文所使用的，术语“数”或“值”可以是指任何种类的数字，诸如二进制、实数、虚数或有理数等。此外，“数”或“值”可以是一个或多个字符，诸如字母或字母串。此外，“数”或“值”可以由比特串来表示。

如本文所使用的，表述“可以”和“在一些实施例中”通常已被用于指示所描述的特征可以与本文公开的任何其他实施例相组合。

在附图中，可仅存在于一些实施例中的特征通常使用点线或虚线来绘制。

如本文所使用的，表述“发射”和“发送”通常是可互换的。这些表述可以包括通过广播、单播、组播等进行的传输。在此上下文中，通过广播进行的传输可以由在范围内的任何授权设备接收并解码。在单播的情况下，一个特定寻址的设备可以对传输进行接收和解码。在组播(例如，多播)的情况下，一组特定寻址的设备可以对传输进行接收和解码。

当使用词语“包括”或“包含”时，应将其解释为非限制性的，即，其含义是“至少由……组成”。

本文的实施例不限于如上所描述的实施例。可以使用各种替代、修改和等效物。因此，上述实施例不应被视为限制本发明的范围，本发明的范围由所附的权利要求限定。

Claims

1.一种由一个或多个第一设备(510；511；720；721；1003；1004；1010；1020；1050；1051；1200)执行的用于为多天线发射机(511，711)提供预编码器选择策略的方法，所述多天线发射机(511，711)被设置为在无线通信网络(1000)的通信信道(530；730；1030)上发送数据，其中，所述方法包括：

-应用(1100)采用强化学习形式的机器学习，所述强化学习涉及被配置为基于动作信息和状态信息来计算动作值的动作值函数的适配，其中，动作信息是指示所述多天线发射机(511；711)的预编码器的信息，状态信息是指示至少与所述通信信道(530；730；1030)有关的状态的信息，所述动作值函数的所述适配进一步基于由奖励函数提供的奖励信息，其中，奖励信息是指示在所述通信信道(530；730；1030)上发送数据的成功程度的信息，以及

-基于从所述强化学习得到的所述经适配的动作值函数，提供(1110)所述预编码器选择策略。

2.根据权利要求1所述的方法，其中，所述预编码器选择策略是基于对针对给定状态信息根据所述经适配的动作值函数产生最高动作值的预编码器的选择。

3.根据权利要求1-2中任一项所述的方法，其中，所述强化学习和所述动作值函数的适配包括神经网络(800)的训练，并且所提供的预编码器选择策略是基于所述神经网络(800)的经训练的版本。

4.根据权利要求3所述的方法，其中，所述强化学习是基于深度Q网络DQN强化学习算法，并且所述神经网络(800)对应于DQN。

5.根据权利要求2-4中任一项所述的方法，其中，所述神经网络(800)的输入层(801)被配置为获得所述状态信息，并且所述神经网络(800)的输出层(802)被配置为提供动作值，来自预定义的可能动作信息集的每个动作信息一个动作值。

6.根据权利要求1-5中任一项所述的方法，其中，所述状态进一步还与所述多天线发射机(511，711)有关。

7.根据权利要求1-6中任一项所述的方法，其中，所述应用采用强化学习形式的机器学习包括：

-获得(1101)所述动作值函数的初始版本，

-获得(1102)所述奖励函数，

-在不同的时间点并由此以状态信息、动作信息和奖励信息的不同组合执行(1103)以下的迭代：

获得(1104)关于当前状态的状态信息，

获得(1105)指示由所述多天线发射机(511；711)在所述当前状态期间应用的预编码器的动作信息，

从所述奖励函数获得(1106)与由所获得的动作信息指示的所述预编码器的应用相关联的奖励，以及

基于所获得的奖励信息、所获得的状态信息和所获得的动作信息，提供(1107)所述初始动作值函数的更新版本或者在前一迭代中更新的所述动作值函数的版本的更新版本；

-基于从所执行的迭代得到的所述动作值函数的所述更新版本，提供(1108)经适配的动作值函数。

8.根据权利要求7所述的方法，其中，所述动作信息与标识预定义预编码器集合中的预编码器的标识符有关。

9.根据权利要求7-8中任一项所述的方法，其中，所获得的动作信息与在应用另一个预定义预编码器选择策略下在所述无线通信网络(1000)中操作所述多天线发射机时选择的预编码器有关。

10.根据权利要求7-9中任一项所述的方法，其中，所述获得动作信息包括根据以下中的一个或多个来选择所述动作信息：

从预定义动作信息集中随机地，

从所述预定义集的子集中随机地，所述子集包括产生比所述预定义集中的其余的动作信息更大的动作值的动作信息，以及

从所述预定义集的动作信息之中产生最大动作值的动作信息中。

11.根据权利要求1-10中任一项所述的方法，其中，所述状态信息是基于在所述通信信道(530；730；1030)上或者在所述通信信道(530；730；1030)的互易通信信道上发送的参考信号。

12.根据权利要求11所述的方法，其中，所述参考信号由无线通信设备(1020)发送到所述无线通信网络(1000)，以使所述无线通信网络(1000)能够基于所接收的参考信号来获得关于所述通信信道(530；730；1030)的状态的信息。

13.根据权利要求11-12中任一项所述的方法，其中，所述参考信号对应于解调参考信号DMRS和/或探测参考信号SRS，和/或关于所述通信信道的状态的所述信息对应于信道状态信息CSI。

14.根据权利要求1-13中任一项所述的方法，其中，所述奖励函数和所述奖励信息是基于与在所述通信信道(530；730；1030)上的数据传输相关联的误码率，并被提供以使得低误码率比高误码率得到更多奖励。

15.一种计算机程序(1203)，包括指令，所述指令在由所述一个或多个第一设备(510；511；720；721；1003；1004；1010；1020；1050；1051；1200)执行时使所述一个或多个第一设备执行根据权利要求1-14中任一项所述的方法。

16.一种载体，包括根据权利要求15所述的计算机程序(1203)，其中，所述载体是电子信号、光信号、无线电信号或计算机可读存储介质(1501)之一。

17.一种由一个或多个第二设备(510；511；710；711；1003；1004；1010；1020；1050；1051；1400)执行的用于选择多天线发射机(511，711)的预编码器的方法，所述多天线发射机(511，711)被配置为在无线通信网络(1000)的通信信道(530；730；1030)上发送数据，其中，所述方法包括：

-获得(1301)根据权利要求1-14中任一项提供的预编码器选择策略，

-获得(1302)关于当前状态的状态信息；以及

-基于所获得的预编码器选择策略和所获得的当前状态信息，选择(1303)所述预编码器。

18.一种计算机程序(1403)，包括指令，所述指令在由所述一个或多个第二设备(510；511；710；711；1003；1004；1010；1020；1050；1051；1400)执行时使所述一个或多个第二设备执行根据权利要求17所述的方法。

19.一种载体，包括根据权利要求18所述的计算机程序(1403)，其中，所述载体是电子信号、光信号、无线电信号或计算机可读存储介质(1501)之一。

20.一个或多个第一设备(510；511；720；721；1003；1004；1010；1020；1050；1051；1200)，用于为多天线发射机(511，711)提供预编码器选择策略，所述多天线发射机(511，711)被设置为在无线通信网络(1000)的通信信道(530；730；1030)上发送数据，其中，所述一个或多个第一设备被配置为：

应用(1100)采用强化学习形式的机器学习，所述强化学习涉及被配置为基于动作信息和状态信息来计算动作值的动作值函数的适配，其中，动作信息是指示所述多天线发射机(511；711)的预编码器的信息，状态信息是指示至少与所述通信信道(530；730；1030)有关的状态的信息，所述动作值函数的所述适配进一步基于由奖励函数提供的奖励信息，其中，奖励信息是指示在所述通信信道(530；730；1030)上发送数据的成功程度的信息，以及

基于从所述强化学习得到的所述经适配的动作值函数，提供(1110)所述预编码器选择策略。

21.根据权利要求20所述的一个或多个第一设备，其中，所述预编码器选择策略是基于对针对给定状态信息根据所述经适配的动作值函数产生最高动作值的预编码器的选择。

22.根据权利要求20-21中任一项所述的一个或多个第一设备，其中，所述强化学习和所述动作值函数的适配包括神经网络(800)的训练，并且所提供的预编码器选择策略是基于所述神经网络(800)的经训练的版本。

23.根据权利要求22所述的一个或多个第一设备，其中，所述强化学习是基于深度Q网络DQN强化学习算法，并且所述神经网络(800)对应于DQN。

24.根据权利要求22-23中任一项所述的一个或多个第一设备，其中，所述神经网络(800)的输入层(801)被配置为获得所述状态信息，并且所述神经网络(800)的输出层(802)被配置为提供动作值，来自预定义的可能动作信息集中的每个动作信息一个动作值。

25.根据权利要求20-24中任一项所述的一个或多个第一设备，其中，所述状态进一步还与所述多天线发射机(511，711)有关。

26.根据权利要求20-25中任一项所述的一个或多个第一设备，其中，被配置为应用(1100)采用强化学习形式的机器学习的所述一个或多个第一设备包括所述一个或多个第一设备被配置为：

获得(1101)所述动作值函数的初始版本，

获得(1102)所述奖励函数，

在不同的时间点并由此以状态信息、动作信息和奖励信息的不同组合执行(1103)以下的迭代：

获得(1104)关于当前状态的状态信息，

基于从所执行的迭代得到的所述动作值函数的所述更新版本，提供(1108)经适配的动作值函数。

27.根据权利要求26所述的一个或多个第一设备，其中，所述动作信息与标识预定义预编码器集合中的预编码器的标识符相关。

28.根据权利要求26-27中任一项所述的一个或多个第一设备，其中，所获得的动作信息与在应用另一个预定义预编码器选择策略下在所述无线通信网络(1000)中操作所述多天线发射机时选择的预编码器有关。

29.根据权利要求26-28中任一项所述的一个或多个第一设备，其中，被配置为获得所述动作信息的所述一个或多个第一设备包括根据以下中的一个或多个来选择所述动作信息：

从预定义动作信息集中随机地，

30.根据权利要求20-29中任一项所述的一个或多个第一设备，其中，所述状态信息是基于在所述通信信道(530；730；1030)上或者在所述通信信道(530；730；1030)的互易通信信道上发送的参考信号。

31.根据权利要求30所述的一个或多个第一设备，其中，所述参考信号由无线通信设备(1020)发送到所述无线通信网络(1000)，以使所述无线通信网络(1000)能够基于所接收的参考信号来获得关于所述通信信道(530；730；1030)的状态的信息。

32.根据权利要求30-31中任一项所述的一个或多个第一设备，其中，所述参考信号对应于解调参考信号DMRS和/或探测参考信号SRS，和/或关于所述通信信道的状态的所述信息对应于信道状态信息CSI。

33.根据权利要求20-32中任一项所述的一个或多个第一设备，其中，所述奖励函数和所述奖励信息是基于与在所述通信信道(530；730；1030)上的数据传输相关联的误码率，并被提供以使得低误码率比高误码率得到更多奖励。

34.一个或多个第二设备(510；511；710；711；1003；1004；1010；1020；1050；1051；1400)，用于选择多天线发射机(511，711)的预编码器，所述多天线发射机(511、711)被配置为在无线通信网络(1000)的通信信道(530；730；1030)上发送数据，其中，所述一个或多个第二设备被配置为：

获得(1301)根据权利要求1-14中任一项提供的预编码器选择策略，

获得(1302)关于当前状态的状态信息；以及

基于所获得的预编码器选择策略和所获得的当前状态信息，选择(1303)所述预编码器。