CN116627624A

CN116627624A - 数据处理方法、装置及其相关设备

Info

Publication number: CN116627624A
Application number: CN202210130307.8A
Authority: CN
Inventors: 吴立臣; 杨现俊
Original assignee: Datang Mobile Communications Equipment Co Ltd
Current assignee: Datang Mobile Communications Equipment Co Ltd
Priority date: 2022-02-11
Filing date: 2022-02-11
Publication date: 2023-08-22

Abstract

本申请公开了一种数据处理方法、装置及其相关设备，涉及无线通信领域。具体实现方案为：获取多个计算资源节点的初始状态信息；根据多个计算资源节点的初始状态信息，确定多个计算资源节点中至少一个目标计算资源节点对应的目标算力分配策略；向至少一个目标计算资源节点发送对应的目标算力分配策略，其中目标算力分配策略包括多个计算资源节点的目标算力分配比例，用于对应的目标计算资源节点根据多个计算资源节点的目标算力分配比例，分发待处理数据。由此，可以实现动态地调整各计算资源节点待处理的数据量，使得各计算资源节点处理的数据量与自身算力匹配，提升移动通信***中各计算资源节点的资源利用率，提升移动通信***中的数据处理效率。

Description

数据处理方法、装置及其相关设备

技术领域

本申请涉及无线通信技术领域，尤其涉及一种数据处理方法、装置及其相关设备。

背景技术

在移动通信***中，引入机器学习的方式来替换传统的通信模块或者辅助***决策，以提升通信***的性能增益。上述机器学习应用的在线训练过程中，需要不同的计算资源节点处理不同来源的数据和执行大量的计算任务，其中，计算资源节点可以包括终端、基站、核心网设备和边缘计算设备等。

然而，受限于不同计算资源节点的计算能力，当计算资源节点的待处理数据的数据量较大时，可能导致该计算资源节点无法及时完成计算任务，从而导致业务延时，甚至可能影响节点整体性能。

发明内容

本申请提供了一种用于数据处理方法、装置及其相关设备。

根据本申请的一方面，提供了一种数据处理方法，所述方法由计算中心节点执行，所述方法包括：

获取多个计算资源节点的初始状态信息；

根据所述多个计算资源节点的初始状态信息，确定所述多个计算资源节点中至少一个目标计算资源节点对应的目标算力分配策略；

向所述至少一个目标计算资源节点发送对应的目标算力分配策略，其中，所述目标算力分配策略包括所述多个计算资源节点的目标算力分配比例，用于对应的目标计算资源节点根据所述多个计算资源节点的目标算力分配比例，分发待处理数据。

可选地，所述初始状态信息包括对应计算资源节点的待处理数据的数据量、对应计算资源节点处理所述待处理数据所需的计算量、对应计算资源节点的可用存储空间和对应计算资源节点的可用算力中的至少一个；

其中，所述可用算力用于表征对应计算资源节点在单位时间内可处理的数据量。

可选地，所述获取多个计算资源节点的初始状态信息之前，所述方法还包括：

获取各所述计算资源节点所处的位置、各所述计算资源节点的待处理数据的数据特征和数据类型中的至少一种；

根据各所述计算资源节点所处的位置、各所述计算资源节点的待处理数据的数据特征和数据类型中的至少一种，从各所述计算资源节点中确定所述多个计算资源节点；

向所述多个计算资源节点发送指示信息，其中，所述指示信息，用于指示所述多个计算资源节点向所述计算中心节点发送对应的初始状态信息。

可选地，所述根据所述多个计算资源节点的初始状态信息，确定所述多个计算资源节点中至少一个目标计算资源节点对应的目标算力分配策略，包括：

根据所述多个计算资源节点的初始状态信息，生成状态序列；

根据所述多个计算资源节点的初始状态信息以及所述至少一个目标计算资源节点的初始算力分配策略，生成动作序列；其中，所述初始算力分配策略包括所述多个计算资源节点的初始算力分配比例；

根据所述状态序列和所述动作序列，确定累积奖赏；其中，所述累积奖赏，与在所述状态序列所指示的状态下执行所述动作序列所需消耗的资源量或时间成反向关系；

根据所述累积奖赏，对所述至少一个目标计算资源节点的初始算力分配策略进行至少一次更新，训练强化学习模型，以得到所述至少一个目标计算资源节点对应的目标算力分配策略。

可选地，所述强化学习模型通过以下步骤训练得到：

获取训练样本，所述训练样本包括所述多个计算资源节点的状态序列、所述累积奖赏最大时对应的动作序列、所述状态序列下采取所述累积奖赏最大时对应的动作序列后获得的奖赏、以及采取所述累积奖赏最大时对应的动作序列后转移的状态序列，其中，所述累积奖赏最大时对应的动作序列是根据使得所述累积奖赏最大的所述多个计算资源节点的算力分配比例确定的；

根据所述训练样本训练强化学习模型，以对所述强化学习模型的模型参数进行更新；

在未满足模型训练结束条件的情况下，采用更新后的训练样本继续对更新后的所述强化学习模型进行训练，直至满足所述模型训练结束条件，停止对所述强化学习模型进行训练。

可选地，所述模型训练结束条件包括所述强化学习模型的累积奖赏收敛、所述强化学习模型的训练时间达到预设阈值和所述强化学习模型的迭代更新次数达到设定次数中的至少一个条件。

可选地，所述方法还包括：

接收所述多个计算资源节点发送的待处理数据；

根据所述多个计算资源节点的待处理数据，对目标模型进行训练，以得到经过计算中心节点训练后的目标模型；

接收所述多个计算资源节点发送的经过计算资源节点训练后的目标模型；

将所述经过计算中心节点训练后的目标模型和各所述经过计算资源节点训练后的目标模型进行聚合，以得到聚合后的目标模型；

向所述多个计算资源节点发送所述聚合后的目标模型。

根据本申请的另一方面，提供了另一种数据处理方法，所述方法由目标计算资源节点执行，所述方法包括：

向计算中心节点发送所述目标计算资源节点的初始状态信息；

接收所述计算中心节点发送的目标算力分配策略，其中，所述目标算力分配策略包括多个计算资源节点的目标算力分配比例；

根据所述多个计算资源节点的目标算力分配比例，分发所述目标计算资源节点的待处理数据。

可选地，所述向计算中心节点发送所述目标计算资源节点的初始状态信息之前，所述方法还包括：

接收所述计算中心节点发送的指示信息，其中，所述指示信息，用于指示向所述计算中心节点发送对应的初始状态信息。

可选地，所述根据所述多个计算资源节点的目标算力分配比例，分发所述目标计算资源节点的待处理数据，包括：

从所述目标计算资源节点的待处理数据中，确定与所述目标计算资源节点对应的目标算力分配比例匹配的第一目标数据；

根据所述多个计算资源节点中所述目标计算资源节点的上级计算资源节点对应的目标算力分配比例，向所述上级计算资源节点发送所述目标计算资源节点的待处理数据中除所述第一目标数据之外的其余数据。

可选地，所述方法还包括：

接收所述目标计算资源节点对应的各下级计算资源节点发送的第二目标数据，其中，所述第二目标数据是根据各所述下级计算资源节点对应的目标算力分配比例和各所述下级计算资源节点对应的待处理数据确定的。

可选地，所述方法还包括：

根据各所述下级计算资源节点发送的第二目标数据和所述第一目标数据，对目标模型进行训练，以得到经过所述目标计算资源节点训练后的目标模型；

向所述计算中心节点发送经过所述目标计算资源节点训练后的目标模型；

接收所述计算中心节点发送的聚合后的目标模型。

根据本申请的另一方面，提供了一种计算中心节点，包括：

存储器，收发机，处理器：

存储器，用于存储计算机程序；收发机，用于在所述处理器的控制下收发数据；处理器，用于读取所述存储器中的计算机程序并执行以下操作：

获取多个计算资源节点的初始状态信息；

根据本申请的另一方面，提供了一种目标计算资源节点，包括：

存储器，收发机，处理器：

根据本申请的另一方面，提供了一种数据处理装置，包括：

获取单元，用于获取多个计算资源节点的初始状态信息；

确定单元，用于根据所述多个计算资源节点的初始状态信息，确定所述多个计算资源节点中至少一个目标计算资源节点对应的目标算力分配策略；

发送单元，用于向所述至少一个目标计算资源节点发送对应的目标算力分配策略，其中，所述目标算力分配策略包括所述多个计算资源节点的目标算力分配比例，用于对应的目标计算资源节点根据所述多个计算资源节点的目标算力分配比例，分发待处理数据。

根据本申请的另一方面，提供了另一种数据处理装置，包括：

发送单元，用于向计算中心节点发送所述目标计算资源节点的初始状态信息；

接收单元，用于接收所述计算中心节点发送的目标算力分配策略，其中，所述目标算力分配策略包括多个计算资源节点的目标算力分配比例；

分发单元，用于根据所述多个计算资源节点的目标算力分配比例，分发所述目标计算资源节点的待处理数据。

根据本申请的另一方面，提供了一种处理器可读存储介质，其特征在于，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行上述任一实施例所述的数据处理方法。

根据本申请的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本申请上述任一实施例所述的数据处理方法。

本申请实施例提供的数据处理方法、装置及其相关设备，通过获取多个计算资源节点的初始状态信息；根据多个计算资源节点的初始状态信息，确定多个计算资源节点中至少一个目标计算资源节点对应的目标算力分配策略；向至少一个目标计算资源节点发送对应的目标算力分配策略，其中，目标算力分配策略包括多个计算资源节点的目标算力分配比例，用于对应的目标计算资源节点根据多个计算资源节点的目标算力分配比例，分发待处理数据。由此，可以实现根据各计算资源节点的状态，生成各计算资源节点对应的算力分配策略，从而各计算资源节点按照对应算力分配策略，分发对应的待处理数据，可以实现动态地调整各计算资源节点待处理的数据量，使得各计算资源节点处理的数据量与自身算力匹配，提升移动通信***中各计算资源节点的资源利用率，以及提升移动通信***中的数据处理效率。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请实施例一所提供的数据处理方法的流程示意图；

图2为本申请实施例中算力分配***的结构示意图；

图3为本申请实施例所提供的另一种数据处理方法的流程示意图；

图4为本申请实施例所提供的另一种数据处理方法的流程示意图；

图5为本申请实施例所提供的另一种数据处理方法的流程示意图；

图6为本申请实施例中算力分配策略的学习流程示意图；

图7为自编码器的结构示意图；

图8为本申请实施例中CSI反馈及信道重建***的结构示意图；

图9为本申请实施例中CSI反馈及信道重建算力分配策略学习流程示意图；

图10为本申请实施例所提供的另一种数据处理方法的流程示意图；

图11为本申请实施例所提供的一种计算中心节点的结构示意图；

图12为本申请实施例所提供的一种目标计算资源节点的结构示意图；

图13为本申请实施例所提供的一种数据处理装置的结构示意图；

图14为本申请实施例所提供的另一种数据处理装置的结构示意图。

具体实施方式

本申请实施例中术语“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请实施例中术语“多个”是指两个或两个以上，其它量词与之类似。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，并不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在移动通信***中，引入机器学习的方式来替换传统的通信模块或辅助***决策，需要先通过模型训练过程生成人工智能(ArtificialIntelligence，简称AI)模型，然后部署或更新模型执行推演服务，再根据推演结果来进行***优化。

其中，模型训练过程涉及到终端、基站、核心网设备和边缘计算设备等计算资源节点，各计算资源节点在运行过程中，将生成或采集巨量数据，并对巨量数据进行处理和相关计算。其中，各计算资源节点可以在单独的离线训练***中执行模型训练任务，或者，也可以在移动通信***中在线完成模型训练。

应当理解的是，在移动通信***中执行在线训练任务，可以在第一时间获取现网运行中的实际数据，及时生成更贴近应用场景的训练模型，保证策略更新的适应性和辅助决策的准确性。

然而，在移动通信***中执行在线训练任务时，由于移动通信***中生成训练数据的节点与具备强大算力的节点往往不是同一个节点，生成训练数据的节点的算力往往不能满足进行在线训练的计算需求，可能造成节点无法及时完成计算任务。即当节点生成的数据和算力不匹配时，不可避免的要解决数据传递和训练任务分配的问题。

第一种方式是：数据本地处理，在数据生成/采集节点(例如，终端或物联网(Internet of Things，简称IoT)传感器节点)执行相关训练任务。

第二种方式是：数据全部发送给特定聚合节点(例如，基站或边缘计算设备等)进行统一处理，执行综合性的训练。

第三种方式是：将上述两种方式结合，部分在数据生成/采集节点训练，部分在特定聚合节点训练，数据生成/采集节点和特定聚合节点之间交互训练数据和模型参数。

然而，在上述第一种方式中，当数据量较大，和/或，数据产生的速度较快时，数据生成/采集节点的计算能力可能不足，从而导致数据生成/采集节点无法及时完成计算任务，导致业务延时，甚至可能影响节点的整体性能。例如，当数据生成/采集节点为终端时，如果终端需要处理大量数据，或执行繁重的训练任务，则可能会影响终端的通话、数据等业务，也可能消耗较多的电量，导致终端的可用性体验降低。

在上述第二种方式中，所有数据要通过网络发送到特定聚合节点，再由聚合节点执行统一训练。当训练数据生成频率较快时，通过网络传输大量的训练数据，可能造成网络负荷瞬时高峰，此时，容易造成网络拥塞，且过多的通信开销，可能会影响移动通信***中其它业务的性能。此外，聚合节点的性能也可能会成为整体训练任务的瓶颈，导致在线训练任务的可用性受限于聚合节点的硬件配置。

在上述第三种方式中，如何确定哪些数据在数据生成/采集节点训练，哪些数据发送到聚合节点训练，没有确定的准则，拆分尺度不易把握。虽然混合训练的方式，可以在一定程度上解决数据和算力不匹配的问题，但是难于控制，也增加了训练算法实施的复杂度。

因此，为了解决上述问题，本申请实施例提供了一种数据处理方法、装置及其相关设备，其中，方法和装置是基于同一申请构思的，由于方法和装置解决问题的原理相似，因此装置和方法的实施可以相互参见，重复之处不再赘述。

下面参考附图对本申请提供的数据处理方法、装置及其相关设备进行详细描述。

图1为本申请实施例所提供的一种数据处理方法的流程示意图。

本申请实施例的数据处理方法，可以由计算中心节点执行。其中，计算中心节点是指移动通信***中用于生成算力分配策略的控制节点。

作为一种示例，以多个计算资源节点应用于在线训练场景中进行示例性说明，计算中心节点可以为边缘计算节点，或者，计算中心节点也可以为核心节点。例如，如果计算资源节点(比如数据生成/采集节点)为端节点或汇聚节点，则计算中心节点可以为预设的边缘计算节点，以尽可能地靠近数据侧，提高计算效率；如果计算资源节点(比如数据生成/采集节点)为核心节点，则计算中心节点可以为预设的核心节点。

其中，各节点的解释说明可以参见下述实施例，在此不做赘述。

如图1所示，该数据处理方法可以包括以下步骤：

步骤101，获取多个计算资源节点的初始状态信息。

在本申请实施例中，计算资源节点可以包括但不限于终端、基站、核心网设备和多接入边缘计算(Multi-access Edge Computing，简称MEC)设备等计算节点。

作为一种示例，以多个计算资源节点应用于在线训练场景中进行示例性说明，根据计算资源节点在移动通信***中的角色或用途，计算资源节点可以分为数据生成/采集节点、一般计算节点、中间节点、计算中心节点和策略库。

其中，数据生成/采集节点：是移动通信***中，用于生成或采集数据(比如训练数据)的节点。

一般计算节点：是执行协同训练功能的计算节点。

中间节点：是不执行协同训练功能的计算节点，即数据生成/采集节点并没有卸载在线训练任务给中间节点，但要经过中间节点与计算中心节点进行通信。

计算中心节点：是生成算力分配策略的控制节点。

策略库：是保存移动通信***中算力分配策略的数据库。

作为另一种示例，根据计算资源节点在移动通信***中的网络拓扑中的位置和功能，计算资源节点又可以分为端节点、汇聚节点、边缘计算连接节点、边缘计算节点和核心节点。

其中，端节点：是离用户最近的计算节点，可以是终端、IoT设备等，具备基本的计算能力。如果端节点是终端或移动设备，则一般采用电池供电，对能耗比较敏感；如果端节点是IoT设备，则可能采用电源供电，也可能采用电池供电。其中，端节点通常作为数据生成/采集节点，在隐私不敏感和供电充足的情况下，也可能作为一般计算节点。

汇聚节点：作为端节点的上级节点，可以是基站或物联网中的采集聚合节点。其中，汇聚节点可以作为数据生成/采集节点、中间节点或一般计算节点。

边缘计算节点：通常比汇聚节点具有更强的计算能力，可以是靠近无线接入网侧的MEC设备或应用(Application，简称App)服务器。边缘计算节点通过边缘计算连接节点与汇聚节点和核心节点联通，用于在靠近用户侧提供计算服务，以降低时延，提升用户体验。其中，边缘计算节点可以作为一般计算节点或计算中心节点。

边缘计算连接节点：具有连接和管理功能的节点，用于作为计算节点间的连接节点，通常不作为计算节点。例如，边缘计算连接节点可以是核心网的用户面功能(UserPlane Function，简称UPF)节点。

核心节点：具有集中强大计算能力的计算节点，通常对应核心网设备节点。以各计算资源节点应用于在线训练场景中进行示例性说明，当训练任务在核心网内部时，核心节点可以作为数据生成/采集节点、一般计算节点或计算中心节点。移动通信***的策略库可以位于预设的核心节点，用于保存移动通信***的所有算力分配策略。

其中，上述终端可以是指向用户提供语音和/或数据连通性的设备，具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备等。在不同的***中，终端的名称可能也不相同，例如在5G***中，终端可以称为用户设备(User Equipment，简称UE)。其中，无线终端可以经无线接入网(Radio Access Network，简称RAN)与一个或多个核心网(Core Network，简称CN)进行通信，无线终端可以是移动终端设备，如移动电话(或称为“蜂窝”电话)和具有移动终端设备的计算机，例如，可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，它们与无线接入网交换语言和/或数据。例如，个人通信业务(Personal Communication Service，简称PCS)电话、无绳电话、会话发起协议(SessionInitiated Protocol，简称SIP)话机、无线本地环路(Wireless Local Loop，简称WLL)站、个人数字助理(Personal Digital Assistant，简称PDA)等设备。无线终端也可以称为***、订户单元(subscriber unit)、订户站(subscriber station)，移动站(mobilestation)、移动台(mobile)、远程站(remote station)、接入点(access point)、远程终端设备(remote terminal)、接入终端设备(access terminal)、用户终端设备(userterminal)、用户代理(user agent)、用户装置(user device)，本申请实施例中并不限定。

其中，上述基站可以包括多个为终端提供服务的小区。根据具体应用场合不同，基站又可以称为接入点，或者可以是接入网中在空中接口上通过一个或多个扇区与无线终端通信的设备，或者其它名称。基站可用于将收到的空中帧与网际协议(Internet Protocol，简称IP)分组进行相互更换，作为无线终端与接入网的其余部分之间的路由器，其中接入网的其余部分可包括网际协议(IP)通信网络。基站还可协调对空中接口的属性管理。例如，本申请实施例涉及的基站可以是全球移动通信***(Global System for Mobilecommunications，简称GSM)或码分多址接入(Code Division Multiple Access，简称CDMA)中的基站(Base Transceiver Station，简称BTS)，也可以是带宽码分多址接入(Wide-bandCode Division Multiple Access，简称WCDMA)中的基站(NodeB)，还可以是长期演进(longterm evolution，简称LTE)***中的演进型基站(evolutional Node B，简称eNB或e-NodeB)、5G网络架构(next generation system)中的5G基站(简称gNB)，也可以是家庭演进基站(Home evolved Node B，简称HeNB)、中继节点(relay node)、家庭基站(femto)、微微基站(pico)等，本申请实施例中并不限定。在一些网络结构中，基站可以包括集中单元(Centralized Unit，简称CU)节点和分布单元(Distributed Unit，简称DU)节点，集中单元和分布单元也可以地理上分开布置。

在本申请实施例中，计算中心节点可以接收多个计算资源节点发送的初始状态信息。

步骤102，根据多个计算资源节点的初始状态信息，确定多个计算资源节点中至少一个目标计算资源节点对应的目标算力分配策略。

在本申请实施例中，目标计算资源节点可以为上述多个计算资源节点中的任一计算资源节点。

在本申请实施例中，计算中心节点可以根据多个计算资源节点的初始状态信息，确定多个计算资源节点中至少一个目标计算资源节点对应的目标算力分配策略。

步骤103，向至少一个目标计算资源节点发送对应的目标算力分配策略，其中，目标算力分配策略包括多个计算资源节点的目标算力分配比例，用于对应的目标计算资源节点根据各计算资源节点的目标算力分配比例，分发待处理数据。

在本申请实施例中，待处理数据可以为待训练数据，或者，也可以为与待处理任务相关的数据，或者，也可以为任一需要处理的数据，本申请对此并不做限制。

在本申请实施例中，计算中心节点在确定各目标计算资源节点对应的目标算力分配策略后，可以向各目标计算资源节点发送对应的目标算力分配策略，其中，目标算力分配策略包括上述多个计算资源节点的目标算力分配比例，用于对应的目标计算资源节点根据各计算资源节点的目标算力分配比例，分发待处理数据。

也就是说，每个目标计算资源节点在接收到对应的目标算力分配策略后，可以从对应的待处理数据中，确定与对应目标算力分配策略中该目标计算资源节点的目标算力分配比例匹配的第一目标数据，并根据上述多个计算资源节点中该目标计算资源节点的上级计算资源节点对应的目标算力分配比例，向上级计算资源节点发送目标计算资源节点的待处理数据中除第一目标数据之外的其余数据。

举例而言，假设目标计算资源节点对应的待处理数据的数据量为100，并假设目标计算资源节点具有3个上级计算资源节点，分别为节点A、节点B和节点C，节点A、节点B和节点C对应的目标算力分配比例分别为10％、20％和30％，则目标计算资源节点向节点A发送的数据量为100*10％＝10，向节点B发送的数据量为100*20％＝20、向节点C发送的数据量为100*30％＝30，目标计算资源节点保留的第一目标数据的数据量可以为100*(100％-10％-20％-30％)＝40。

在本申请实施例的一种可能的实现方式中，目标计算资源节点不仅可以向其上级计算资源节点发送数据，而且，目标计算资源节点还可以接收其下级计算资源节点发送的数据。即本申请中，针对每个目标计算资源节点，该目标计算资源节点还可以接收该目标计算资源节点对应的各下级计算资源节点发送的第二目标数据，其中，第二目标数据是根据各下级计算资源节点对应的目标算力分配比例和各下级计算资源节点对应的待处理数据确定的。也就是说，针对目标计算资源节点的每个下级计算资源节点，该下级计算资源节点可以根据对应的待处理数据和对应的目标算力分配比例，确定第二目标数据。

举例而言，下级计算资源节点对应的待处理数据的数据量为100，对应的目标算力分配比例为10％，则第二目标数据的数据量为100*10％＝10。

作为一种应用场景，以多个计算资源节点应用于在线训练场景中进行示例性说明，多个计算资源节点均可以接收计算中心节点发送的算力分配策略，根据对应的算力分配策略，分发对应的待处理数据。由此，在移动通信***中执行在线训练任务时，可以充分利用移动通信***中的可用计算资源，高效的完成在线训练任务，提高了移动通信***的资源利用率。

本申请实施例的数据处理方法，通过获取多个计算资源节点的初始状态信息；根据多个计算资源节点的初始状态信息，确定多个计算资源节点中至少一个目标计算资源节点对应的目标算力分配策略；向至少一个目标计算资源节点发送对应的目标算力分配策略，其中，目标算力分配策略包括多个计算资源节点的目标算力分配比例，用于对应的目标计算资源节点根据多个计算资源节点的目标算力分配比例，分发待处理数据。由此，可以实现根据各计算资源节点的状态，生成各计算资源节点对应的算力分配策略，从而各计算资源节点按照对应算力分配策略，分发对应的待处理数据，可以实现动态地调整各计算资源节点待处理的数据量，使得各计算资源节点处理的数据量与自身算力匹配，提升移动通信***中各计算资源节点的资源利用率，以及提升移动通信***中的数据处理效率。

作为一种示例，在移动通信***中，以各计算资源节点应用于在线训练场景中进行示例性说明，各个节点之间的交互可以如图2所示。不失一般性，图2仅以同类节点的个数为2个进行示例。

其中，图2中各节点的功能如下所示：

1、端节点用于生成或采集原始数据，可选地，端节点可以对上述原始数据执行特征工程或数据增强等预处理流程，以生成训练数据；

端节点还可以综合存储空间、计算和***状态，确定是否将本节点训练数据和任务卸载到一般计算节点(边缘计算连接节点除外)；

在本节点执行在线训练计算任务；

经汇聚节点、边缘计算连接节点，向作为计算中心节点的预设边缘计算节点报告本节点状态信息；

接收学习得到的算力分配策略。

2、汇聚节点可以作为数据生成/采集节点、中间节点或一般计算节点。

当汇聚节点作为数据生成/采集节点时，该汇聚节点的作用为：

1)用于生成或采集原始数据，可选地，汇聚节点可以对上述原始数据执行特征工程或数据增强等预处理流程，生成训练数据；

2)综合存储空间、计算和***状态，确定是否将本节点训练数据和任务卸载到一般计算节点(边缘计算连接节点除外)；

3)在本节点执行在线训练计算任务；

4)经边缘计算连接节点，向作为计算中心节点的预设边缘计算节点报告本节点状态信息；

5)接收学习得到的算力分配策略；

当汇聚节点作为一般计算节点时，该汇聚节点的作用为：

1)聚合端节点分流的训练数据；

2)在本节点执行在线训练计算任务；

3)经边缘计算连接节点，向作为计算中心节点的预设边缘计算节点报告本节点状态信息；

4)接收学习得到的算力分配策略；

当汇聚节点作为中间节点时，该汇聚节点的作用为：经边缘计算连接节点，向作为计算中心节点的预设边缘计算节点转发端节点状态信息。

3、边缘计算节点可以作为一般计算节点或计算中心节点。

当边缘计算节点作为一般计算节点时，该边缘计算节点的作用为：

1)聚合端节点和汇聚节点分流的训练数据；

2)在本节点执行在线训练计算任务；

3)向作为计算中心节点的预设边缘计算节点报告本节点状态信息；

4)接收学习得到的算力分配策略；

当边缘计算节点作为计算中心节点时，该边缘计算节点的作用为：

1)驱动算力分配策略训练流程；

2)按一定策略模拟数据生成/采集节点动作；

3)接收数据生成/采集节点和一般计算节点状态信息；

4)执行强化学习算法；

5)训练生成算力分配策略；

6)返回算力分配策略给数据生成/采集节点和一般计算节点；

7)可选地，发送算力分配策略到作为策略库的预设核心节点保存。

4、边缘计算连接节点为具有连接和管理功能的节点，用于作为计算节点间的连接节点，通常不作为计算节点。例如，边缘计算连接节点可以是核心网的UPF功能节点。

边缘计算连接节点可以用于连接汇聚节点、边缘计算节点和核心节点；

边缘计算连接节点可以用于汇聚节点、边缘计算节点和核心节点间的数据传输和管理；

边缘计算连接节点可以用于转发汇聚节点、边缘计算节点和核心节点间的训练数据和算力分配策略。

5、核心节点可以作为数据生成/采集节点、一般计算节点或计算中心节点。当核心节点作为数据生成/采集节点时，该核心节点的作用为：

1)生成或采集原始数据；

2)可选地，核心节点可以对上述原始数据执行特征工程或数据增强等预处理流程，生成训练数据；

3)综合存储空间、计算和***状态，确定是否将本节点训练数据和任务卸载到其它核心节点；

4)在本节点执行在线训练计算任务；

5)向作为计算中心节点的预设核心节点报告本节点状态信息；

6)接收学习得到的算力分配策略；

当核心节点作为一般计算节点时，该核心节点的作用为：

1)聚合其它核心节点分流的训练数据；

2)在本节点执行在线训练计算任务；

3)向作为计算中心节点的预设核心节点报告本节点状态信息；

4)接收学习得到的算力分配策略；

当核心节点作为计算中心节点时，该核心节点的作用为：

1)驱动算力分配策略训练流程；

2)按一定策略模拟数据生成/采集节点动作；

3)接收其它核心节点状态信息；

4)执行强化学习算法；

5)训练生成算力分配策略；

6)返回算力分配策略给其它核心节点；

7)可选地，发送算力分配策略到作为策略库的预设核心节点保存；

当核心节点作为***的策略库时，该核心节点的作用为：

1)接收并保存学习得到的算力分配策略；

2)响应并返回请求的算力分配策略。

此外，图2中各节点间的通信接口的功能如下所示：

a接口：核心节点和汇聚节点间接口，用于传递用户数据和控制信息，其中，用户数据包括算力分配策略信息等；

b接口：汇聚节点和端节点间接口，用于传递用户数据和控制信息，其中，用户数据包括训练数据、端节点状态信息，以及算力分配策略信息等；b接口根据网络情况，可能是无线传输也可能是有线传输；

c接口：汇聚节点和边缘计算连接节点间接口，用于传输用户数据，包括端节点和汇聚节点状态信息、训练数据，以及算力分配策略信息等；

d接口：汇聚节点间接口，可以由常见的交换网络构成，也可以是点对点的连接，用于传输端节点和汇聚节点状态信息、训练数据，以及算力分配策略信息等；

e接口：边缘计算节点和边缘计算连接节点间接口，用于传输用户数据，包括端节点和汇聚节点状态信息、训练数据，以及算力分配策略信息等；

f接口：边缘计算节点间接口，可以由常见的交换网络构成，也可以是点对点的连接，用于传输用户数据，包括端节点和汇聚节点状态信息、训练数据，以及算力分配策略信息等；

g接口：核心节点和边缘计算连接节点间接口，用于传输管理相关数据和用户数据，其中，用户数据包括算力分配策略信息等。

图3为本申请实施例所提供的另一种数据处理方法的流程示意图。

如图3所示，该数据处理方法可由计算中心节点执行，可以包括以下步骤：

步骤301，获取多个计算资源节点的初始状态信息。

步骤301可以采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

在本申请的任意一个实施例之中，每个计算资源节点的初始状态信息可以包括该计算资源节点的待处理数据的数据量、该计算资源节点处理待处理数据所需的计算量、该计算资源节点的可用存储空间和该计算资源节点的可用算力中的至少一个，其中，可用算力用于表征该计算资源节点在单位时间内可处理的数据量。

作为一种示例，假设多个计算资源节点的数量为n，标记第j个计算资源节点(后续简称为节点j)的初始状态信息为：

s_j,t＝(d_j,t,c_j,t,m_j,g_j)； (1)

其中，1≤j≤n，d_j,t为节点j的待处理数据的数据量，单位可以为Mbytes；c_j,t为在节点j处理待处理数据所需的计算量，单位可以为Mbytes；m_j为节点j的可用存储空间，单位可以为Mbytes；g_j为节点j的可用算力，即在单位时间内(比如每秒)可处理的数据量。其中，可用算力可以包括逻辑运算能力(单位是OPS，即操作次数每秒)、并行计算能力(单位是FLOPS，即浮点操作次数每秒)和神经网络加速能力(单位是FLOPS)，具体表达式可以为：

其中，第一项表示节点j中n_j,1个逻辑运算芯片的算力，当节点j中包含逻辑运算芯片时，ρ_j,1＝1，否则，ρ_j,1＝0；第二项表示节点j中n_j,2个并行计算芯片的算力，当节点j中包含并行运算芯片时，ρ_j,2＝1，否则，ρ_j,2＝0；第三项表示节点j中n_j,3个神经网络加速芯片的算力，当节点j中包含神经网络加速芯片时，ρ_j,3＝1，否则，ρ_j,3＝0；F(x)为芯片算力的映射函数，为映射比例，q为其他计算单元的算力。

步骤302，根据多个计算资源节点的初始状态信息，生成状态序列。

在本申请实施例中，计算中心节点可以根据多个计算资源节点的初始状态信息，生成状态序列。

作为一种示例，标记状态序列为s_t，则s_t＝(s_1,t,s_2,t,…,s_n,t)；其中，n为计算资源节点的个数。

步骤303，根据多个计算资源节点的初始状态信息以及至少一个目标计算资源节点的初始算力分配策略，生成动作序列；其中，初始算力分配策略包括多个计算资源节点的初始算力分配比例。

在本申请实施例中，计算中心节点可以根据多个计算资源节点的初始状态信息以及至少一个目标计算资源节点的初始算力分配策略，生成动作序列，其中，目标计算资源节点的初始算力分配策略包括上述多个计算资源节点的初始算力分配比例。比如，初始算力分配策略中多个计算资源节点的初始算力分配比例可以为(1,0,...,0)，或者，也可以为随机分配的比例，本申请对此并不作限制。

作为一种示例，标记动作序列为a_t，则：

a_t＝(a_1,t,…,a_j,t,…,a_n,t)； (3)

其中，a_j,t表示节点j的动作。对于节点j对应的待处理数据的数据量d_j,t而言，a_j,t＝1+∑_i∈Θ(p_i→j,t×d_i,t/d_j,t)-∑_k∈Kp_j→k,t；对于节点j处理待处理数据所需的计算量c_j,t而言，a_j,t＝1+∑_i∈Θ(p_i→j,t×c_i,t/c_j,t)-∑_k∈Kp_j→k,t。

其中，0≤p_i→j,t≤1，表示初始算力分配策略中，节点j的下级节点i发送至节点j的数据比例(本申请中记为初始算力分配比例)，0≤p_j→k,t≤1表示节点j发送至该节点j的上级节点k的数据比例(本申请中记为初始算力分配比例)，Θ为向节点j发送数据的下级节点集合，K为节点j发送至的上级节点集合。

步骤304，根据状态序列和动作序列，确定累积奖赏；其中，累积奖赏，与在状态序列所指示的状态下，执行动作序列所需消耗的资源量或时间成反向关系。

在本申请实施例中，计算中心节点可以根据状态序列和动作序列，确定累积奖赏，其中，累积奖赏与在状态序列所指示的状态下，执行动作序列所需消耗的资源量或时间成反向关系。

作为一种示例，以累积奖赏为状态-动作值函数(比如Q函数)进行示例性说明，可以根据状态序列和动作序列，计算回报函数r_t：或者，

其中，T_j,t,1为节点j处理对应的待处理数据所需的时间，式中G(d_j,t)为d_j,t数据量所需的计算次数；T_j,t,2为节点j传输p_j→k,td_j,t数据所需的时间，式中R_j为节点j的传输速率；T_j,t,3为节点j接收(∑_i∈Θp_i→j,td_i,t)数据所需的时间，/>式中R_i为节点i的传输速率；μ为一个大于0的常数。

E_j,t,1为节点j处理对应的待处理数据所消耗的资源量(或称为能量)，式中η_j为节点j的算力效率，单位是OPS/W(Operations/J)；E_j,t,2为节点j传输p_j→kd_j,t-1所消耗的资源量(或能量)，/>式中ζ_j为节点j的能效，单位可以为bytes/J；E_j,t,3为节点j接收(∑_i∈Θ(p_i→j×d_i,t-1/d_j,t-1))d_j,t-1数据所消耗的资源量(或能量)，/>式中ζ_i为节点i的能效，单位可以为bytes/J。

需要说明的是，节点j的算力效率与节点j的硬件能力相关，可以通过一定的方式测量得到，比如，可以通过特定的测量程序或测量工具，预先测量得到各个节点的算力效率。节点i的能效与节点i的硬件和***设计相关，可以预先测量得到，比如，可以预先根据节点i多次发送测试数据的量和发射功率、耗电量等，估算节点i的能效。

从而本申请中，可以根据回报函数，确定累积奖赏，其中，回报函数与在状态序列所指示的状态下，执行动作序列所需消耗的资源量或时间成反向关系，累积奖赏与回报函数成正向关系。

作为一种示例，以累积奖赏为状态-动作值函数(比如Q函数)进行示例性说明，Q函数可以为：

其中，为了便于表示，上述公式省略了迭代下标t，为在s状态下执行动作a转移到状态s'的概率，S为有限的状态空间，A为有限的动作空间，γ为折扣因子。

步骤305，根据累积奖赏，对至少一个目标计算资源节点的初始算力分配策略进行至少一次更新，训练强化学习模型，以得到至少一个目标计算资源节点对应的目标算力分配策略。

在本申请实施例中，可以根据累积奖赏，对至少一个目标计算资源节点的初始算力分配策略进行至少一次更新，来训练强化学习模型，以得到至少一个目标计算资源节点对应的目标算力分配策略。

步骤306，向至少一个目标计算资源节点发送对应的目标算力分配策略，其中，目标算力分配策略包括多个计算资源节点的目标算力分配比例，用于对应的目标计算资源节点根据各计算资源节点的目标算力分配比例，分发待处理数据。

步骤306可以采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

本申请实施例的数据处理方法，通过根据多个计算资源节点的初始状态信息，生成状态序列；根据多个计算资源节点的初始状态信息以及至少一个目标计算资源节点的初始算力分配策略，生成动作序列；其中，初始算力分配策略包括多个计算资源节点的初始算力分配比例；根据状态序列和动作序列，确定累积奖赏；其中，累积奖赏，与在状态序列所指示的状态下执行动作序列所需消耗的资源量或时间成反向关系；根据累积奖赏，对至少一个目标计算资源节点的初始算力分配策略进行至少一次更新，训练强化学习模型，以得到至少一个目标计算资源节点对应的目标算力分配策略。由此，可以实现基于强化学习算法，有效确定目标计算资源节点对应的目标算力分配策略。

下面结合图4，对强化学习模型的训练过程进行说明。

图4为本申请实施例所提供的另一种数据处理方法的流程示意图。其中，该数据处理方法可由计算中心节点执行。

如图4所示，强化学习模型通过以下步骤训练得到：

步骤401，获取训练样本，训练样本包括多个计算资源节点的状态序列、累积奖赏最大时对应的动作序列、状态序列下采取累积奖赏最大时对应的动作序列后获得的奖赏、以及采取累积奖赏最大时对应的动作序列后转移的状态序列。

其中，累积奖赏最大时对应的动作序列是根据使得累积奖赏最大的多个计算资源节点的算力分配比例确定的。

其中，奖赏可以为回报函数的取值。

步骤402，根据训练样本训练强化学习模型，以对强化学习模型的模型参数进行更新。

在本申请实施例中，可以根据训练样本训练强化学习模型，以对强化学习模型的模型参数进行更新。

步骤403，在未满足模型训练结束条件的情况下，采用更新后的训练样本继续对更新后的强化学习模型进行训练，直至满足模型训练结束条件，停止对强化学习模型进行训练。

在本申请实施例中，可以判断是否满足模型训练结束条件，在未满足模型训练结束条件的情况下，可以对训练样本进行更新，比如可以更新训练样本中的动作序列、状态序列和累积奖赏中的至少一项，并采用更新后的训练样本继续对更新后的强化学习模型进行训练，直至满足模型训练结束条件，停止对强化学习模型进行训练。从而可以采用经过训练后的强化学习模型，输出多个计算资源节点中至少一个目标计算资源节点对应的目标算力分配策略，即可以将多个计算资源节点的初始状态信息输入至经过训练后的强化学习模型，由强化学习模型输出各目标计算资源节点对应的目标算力分配策略。

在本申请的任意一个实施例之中，模型训练结束条件包括强化学习模型的累积奖赏收敛、强化学习模型的训练时间达到预设阈值和强化学习模型的迭代更新次数达到设定次数中的至少一个条件。

在本申请的任意一个实施例之中，以多个计算资源节点应用于在线训练场景中进行示例，多个计算资源节点的待处理数据，可以用于对目标模型进行训练，其中，目标模型可以为相关技术中的任意一个AI模型。在目标计算资源节点对待处理数据进行分发后，各计算资源节点可以对自身保留的数据以及接收到的数据进行处理，以完成对目标模型的训练。

具体地，每个目标计算资源节点在接收到对应的各下级计算资源节点发送的第二目标数据后，可以根据自身保留的第一目标数据和各下级计算资源节点发送的第二目标数据，对目标模型进行训练，以得到经过该目标计算资源节点训练后的目标模型。

其他计算资源节点也可以根据对应的待处理数据，对目标模型进行训练，以得到经过对应计算资源节点训练后的目标模型。

多个计算资源节点可以向计算中心节点发送经过对应计算资源节点训练后的目标模型，相应的，计算中心节点可以接收上述多个计算资源节点发送的经过对应计算资源节点训练后的目标模型。

计算中心节点可以将上述多个计算资源节点发送的经过对应计算资源节点训练后的目标模型进行聚合，以得到聚合后的目标模型，并向多个计算资源节点发送聚合后的目标模型。

或者，计算中心节点还可以接收多个计算资源节点发送的待处理数据，并根据每个计算资源节点对应的待处理数据，对目标模型进行训练，以得到经过计算中心节点训练后的目标模型。计算中心节点可以将经过计算中心节点训练后的目标模型和各经过计算资源节点训练后的目标模型进行聚合，以得到聚合后的目标模型，并向多个计算资源节点发送聚合后的目标模型。

也就是说，本申请中，计算中心节点不仅可以作为算力分配策略计算的辅助节点，在分布式训练场景下，计算中心节点也可以作为模型聚合节点，本申请中，计算中心节点可以将经过各节点训练后的目标模型进行聚合，并向各节点发送聚合后的目标模型，从而各节点在接收到聚合后的目标模型后，可以使用该聚合后的目标模型。

举例而言，以目标模型为自编码器进行示例性说明，自编码器可以包括编码器和解码器(或称为译码器)。在模型训练过程中，各计算资源节点可以将待处理数据中的原始数据输入编码器，由编码器对原始数据进行编码，得到编码数据，并由解码器对编码数据进行解码，得到解码数据，可以计算解码数据和原始数据之间的差异，根据上述差异确定重构错误，训练的目标是最小化重构错误。

其中，自编码器可以用于频分双工(Frequency-Division Duplexing，简称FDD)***中的信道状态信息(ChannelState Information，简称CSI)反馈及信道重建。

本申请实施例的数据处理方法，通过对强化学习模型进行训练，从而可以采用经过训练后的强化学习模型，输出各目标计算资源节点对应的目标算力分配策略。

图5为本申请实施例所提供的另一种数据处理方法的流程示意图。

如图5所示，该数据处理方法可由计算中心节点执行，可以包括以下步骤：

步骤501，获取各计算资源节点所处的位置、各计算资源节点的待处理数据的数据特征和数据类型中的至少一种。

在本申请实施例中，计算中心节点可以获取各计算资源节点所处的位置。比如，各计算资源节点可以向计算中心节点发送自身所处的位置，从而计算中心节点可以获取各计算资源节点所处的位置。

在本申请实施例中，计算中心节点可以获取各计算资源节点的待处理数据的数据类型。比如，各计算资源节点可以向计算中心节点发送自身对应的待处理数据的数据类型，从而计算中心节点可以获取各计算资源节点的待处理数据的数据类型。

在本申请实施例中，计算中心节点可以获取各计算资源节点的待处理数据的数据特征，比如，各计算资源节点可以向计算中心节点发送自身对应的待处理数据的数据特征，从而计算中心节点可以获取各计算资源节点的待处理数据的数据特征。

步骤502，根据各计算资源节点所处的位置、各计算资源节点的待处理数据的数据特征和数据类型中的至少一种，从各计算资源节点中确定多个计算资源节点。

在本申请实施例的一种可能的实现方式中，计算中心节点可以根据各计算资源节点所处的位置，从各计算资源节点中确定多个计算资源节点。

作为一种示例，可以根据各计算资源节点所处的位置和该计算中心节点所处的位置，确定各计算资源节点与计算中心节点之间的距离，根据各计算资源节点与计算中心节点之间的距离，从各计算资源节点中确定多个计算资源节点。比如，可以将各计算资源节点按照距离的取值，由小至大排序，选取排序在前的设定个数的计算资源节点，作为上述多个计算资源节点。

在本申请实施例的另一种可能的实现方式中，计算中心节点可以根据各计算资源节点的待处理数据的数据类型，从各计算资源节点中确定多个计算资源节点。

作为一种示例，以上述多个计算资源节点的待处理数据用于对目标模型进行训练进行示例，可以根据各计算资源节点的待处理数据的数据类型，从各计算资源节点中，确定用于对目标模型进行训练的待处理数据所对应的计算资源节点。

举例而言，假设目标模型的训练数据所对应的数据类型为类型A，则可以从各计算资源节点中，确定待处理数据的数据类型为类型A的计算资源节点。

在本申请实施例的又一种可能的实现方式中，计算中心节点可以根据各计算资源节点的待处理数据的数据特征，从各计算资源节点中确定多个计算资源节点。

作为一种示例，以上述多个计算资源节点的待处理数据用于对目标模型进行训练进行示例，可以根据各计算资源节点的待处理数据的数据特征，从各计算资源节点中，确定用于对目标模型进行训练的待处理数据所对应的计算资源节点。

举例而言，以目标模型为用于频分双工***中的信道状态信息反馈及信道重建的自编码器进行示例，可以根据各计算资源节点的待处理数据的数据特征，从各计算资源节点中，确定待处理数据与信道状态信息相关的计算资源节点。

需要说明的是，上述仅以根据各计算资源节点所处的位置、各计算资源节点的待处理数据的数据特征和数据类型中的一种，从各计算资源节点中确定多个计算资源节点进行示例，实际应用时，可以结合各计算资源节点所处的位置、各计算资源节点的待处理数据的数据特征和数据类型中的多种，从各计算资源节点中确定多个计算资源节点，本申请对此并不作限制。

步骤503，向多个计算资源节点发送指示信息，其中，指示信息用于指示多个计算资源节点向计算中心节点发送对应的初始状态信息。

在本申请实施例中，计算中心节点可以向上述多个计算资源节点发送指示信息，其中，指示信息用于指示上述多个计算资源节点向计算中心节点发送对应的初始状态信息。相应的，多个计算资源节点中的每个计算资源节点在接收到上述指示信息后，可以向计算中心节点发送自身的初始状态信息。

步骤504，获取多个计算资源节点的初始状态信息。

步骤505，根据多个计算资源节点的初始状态信息，确定多个计算资源节点中至少一个目标计算资源节点对应的目标算力分配策略。

步骤506，向至少一个目标计算资源节点发送对应的目标算力分配策略，其中，目标算力分配策略包括多个计算资源节点的目标算力分配比例，用于对应的目标计算资源节点根据各计算资源节点的目标算力分配比例，分发待处理数据。

步骤504至506可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

本申请实施例的数据处理方法，通过计算中心节点获取各计算资源节点所处的位置、各计算资源节点的待处理数据的数据特征和数据类型中的至少一种；根据各计算资源节点所处的位置、各计算资源节点的待处理数据的数据特征和数据类型中的至少一种，从各计算资源节点中确定多个计算资源节点；向多个计算资源节点发送指示信息，其中，指示信息，用于指示多个计算资源节点向计算中心节点发送对应的初始状态信息。由此，可以实现由计算中心节点，确定参与协同计算的各计算资源节点，可以提升该方法的灵活性。

在本申请的任意一个实施例之中，可以基于强化学习方法，生成各计算资源节点对应的算力分配策略，以解决相关技术中算力与数据量不匹配的技术问题。

以多个计算资源节点应用于在线训练场景中进行示例，可以根据不同节点的待处理数据的数据量、计算能力、实时计算负载和节点状态条件，确定各节点的算力分配策略。从而各计算资源节点可以按照对应算力分配策略，分发对应的待处理数据，可以实现动态地将各计算资源节点的待处理数据(比如在线训练数据)调度到最匹配的计算资源节点，以充分利用网络和各计算资源节点的能力，来执行分布式训练任务，从而降低数据传输的信令开销、提高计算资源利用率和在线训练效率。

例如，计算资源节点可以为数据生成/采集节点，各数据生成/采集节点可以将在线训练任务卸载至其他节点，其中，根据在线训练任务的不同，数据生成/采集节点可以为端节点、汇聚节点或核心节点。

由于各类节点的算力、存储空间以及网络的传输带宽都是有限的，当一个计算任务从数据生成/采集节点经网络调度到其它节点执行时，也涉及到数据的存储、计算和传输，所以多个数据生成/采集节点同时参与训练任务时，涉及不同节点之间数据传输、存储空间和计算任务的合理分配，针对各个数据生成/采集节点的算力分配决策是互相影响的，因此需要一个***的协作算力分配策略。

可以应用强化学习算法来生成***算力分配策略，生成算力分配策略的过程可以看作一个马尔科夫决策过程，并用元组(S，A，R，p)表示，其中，S为***状态空间，A为动作空间，R为回报函数，p为状态转移概率。

本申请中，可以将所有的数据生成/采集节点看作是一个决策者，在每个决策时刻t，采取联合动作a_t＝(a₁,…,a_n)并且获得回报***状态s_t会根据转移概率转移到下一状态s_t+1。

每个数据生成/采集节点根据当前各计算资源节点状态，以最大化***累积奖赏(或称为累积收益)为目标，进行任务卸载决策。可以周期性地启动决策过程，即定时方式，也可以在满足预先设定的条件时启动决策流程，即按需方式。生成***算力分配策略的强化学习算法的基本元素可表示为：

1、智能体：是所有数据生成/采集节点的集合，假设共有n个节点。根据在线训练任务不同，可能在端节点、汇聚节点或核心节点中的任意类型的节点获取数据，所以上述类型的节点均可能是数据生成/采集节点。在算力分配策略生成过程中，由计算中心节点模拟数据生成/采集节点的动作来进行决策，但由数据生成/采集节点来执行决策的动作；

2、状态：节点在第次迭代时的状态为：

s_j，t＝(d_j，t，c_j，t，m_j，g_j)； (1)

其中，1≤j≤n，d_j,t为节点j在第t次迭代时待训练的数据量，单位是Mbytes；c_j,t为在节点j在第t次迭代时进行任务训练所需的计算量，单位是Mbytes；m_j为节点j的可用存储空间，单位是Mbytes；g_j为节点j的可用算力，即每秒可处理的信息量或数据量，包括逻辑运算能力(单位是OPS，即操作次数每秒)、并行计算能力(单位是FLOPS，即浮点操作次数每秒)和神经网络加速能力(单位是FLOPS)，具体表达式为：

节点状态可能是数据生成/采集节点的状态或一般计算节点的状态，***状态包括数据生成/采集节点在内的所有计算资源节点的状态，即s_t＝(s_1,t,s_2,t,…,s_n,t)。

3、动作：移动通信***中所有的数据生成/采集节点在第t次迭代时的联合动作为：

a_t＝(a_1,t,…,a_j,t,…,a_n,t)； (3)

其中，a_j,t表示节点j的动作。具体地，对于节点j待训练的数据量d_j,t而言，a_j,t＝1+∑_i∈Θ(p_i→j,t×d_i,t/d_j,t)-∑_k∈Kp_j→k,t，对于节点j在第t次迭代时进行任务训练所需的计算量c_j,t而言，a_j,t＝1+∑_i∈Θ(p_i→j,t×c_i,t/c_j,t)-∑_k∈Kp_j→k,t。其中，0≤p_i→j,t≤1，表示在第t次迭代时节点j的下级节点i发送至节点j的数据比例，0≤p_j→k,t≤1表示在第t次迭代时节点j发送至其上级节点k的数据比例，Θ为向节点j发送数据的下级节点集合，K为节点j发送至的上级节点集合。

需要说明的是，数据生成/采集节点在本节点保留的训练数据或分流出去的训练数据，依据训练任务的要求不同，可能是生成或采集的原始数据，也可能是经过特征工程或数据增强等预处理流程的待训练数据。

4、状态更新：节点j执行动作a_j,t后在完成第t次迭代后更新的状态为：

其中，p_i→j,t和p_j→k,t需满足以下约束条件：

(1+∑_i∈Θ(p_i→j,t×d_i,t/d_j,t)-∑_k∈Kp_j→k,t)d_j,t<m_j；

(1+∑_i∈Θ(p_i→j,t×c_i,t/c_j,t)-∑_k∈Kp_j→k,t)c_j,t<g_j；

5、回报函数：

其中，T_j,t,1为节点j在第t次迭代中完成待训练数据(即本申请中的待处理数据)的训练所需的时间，式中G(d_j,t)为d_j,t数据量所需的计算次数；T_j,t,2为节点j在第t次迭代中传输p_j→k,td_j,t数据所需的时间，/>式中R_j为节点j的传输速率；T_j,t,3为节点j在第t次迭代中接收(∑_i∈Θp_i→j,td_i,t)数据所需的时间，式中R_i为节点i的传输速率；μ为一个大于0的常数；

或者，回报函数：

其中，E_j,t,1为节点j在第t次迭代中完成待训练数据的训练所消耗的能量，式中η_j为节点j的算力效率，单位是OPS/W(Operations/J)；E_j,t,2为节点j在第t次迭代中传输p_j→kd_j,t-1所消耗的能量，/>式中，ζ_j为节点j的能效，单位是bytes/J；E_j,t,3为节点j在第t次迭代中接收(∑_i∈Θ(p_i→j×d_i,t-1/d_j,t-1))d_j,t-1数据所消耗的能量，/>式中ζ_i为节点i的能效，单位是bytes/J；

6、状态动作值函数Q(s,a)：是指从状态s出发，执行动作a所带来的累积奖赏。前述状态空间和动作空间都是连续的，可以用值函数近似的方式计算状态动作值函数Q(s,a)，采用带经验回放的深度Q网络(Deep Q-Networks，简称DQN)算法，用函数Q_φ(s,a)来近似计算，其中，函数Q_φ(s,a)通常是一个参数为φ的函数，比如神经网络，输出为一个实数，称为Q网络(Q-network)。

算力分配策略学习过程由所有数据生成/采集节点同时参与，在策略学习周期内，每个数据生成/采集节点将节点状态上报给预先确定的计算中心节点，在计算中心节点驱动完成策略学习流程。

具体的算力分配策略学习流程可以如图6所示：

1)计算中心节点初始化训练参数。包括但不限于经验池、Q网络和目标Q网络参数等信息。

2)计算中心节点接收各计算资源节点报告的节点初始状态。

各计算资源节点或称为计算节点(其中，边缘计算连接节点在移动通信***中不作为计算节点，因此不包括在内)向计算中心节点报告其节点初始状态s_j,t，包括节点的数据量、相关数据所需要的计算量、本节点的可用存储空间和算力等信息。对于数据生成/采集节点，数据量是指生成或采集的数据大小，对于一般计算节点，数据量是指由该节点接收的待训练数据大小，对于初始状态该值为0。在训练过程中，数据量是随机生成的，以加快训练速度。可选地，根据节点所处位置不同，节点状态报告路径也不同：

对于端节点：经汇聚节点、边缘计算连接节点，上报给作为计算中心节点的预设边缘计算节点；

对于汇聚节点：经边缘计算连接节点，上报给作为计算中心节点的预设边缘计算节点；

对于核心节点：直接上报给作为计算中心节点的预设核心节点。

3)计算中心节点将数据生成/采集节点和一般计算节点的状态聚合为***状态s_t(本申请中记为状态序列)。

4)计算中心节点在当前***状态下，应用带经验回放的DQN算法，训练Q网络，并更新训练参数和当前***状态，直至当前***状态为结束状态。

计算中心节点采用ε-贪心法，以ε的概率给每个数据生成/采集节点随机选择其训练数据分配比例(p_0,t,p_1,t,…,p_k,t)，该分配比例对于每个数据生成/采集节点采用不同数值，这里p_0,t为在数据生成/采集节点训练的数据比例，p_q,t(1≤q≤k)为分配到一般计算节点进行在线训练的数据比例，且满足对于当前节点j，p_q,t对应发送至上级节点k的比例p_j→k,t，对于上级节点，p_q,t对应下级节点i发送到本节点的数据比例p_i→j,t；以1-ε的概率，选择当前最优动作，即给每个数据生成/采集节点选择其训练数据分配比例为argmax_a'∈AQ(s',a')对应的(p_0,t,p_1,t,…,p_k,t)值。然后根据各节点训练数据分配比例计算联合动作a_t；

计算中心节点根据上述聚合的***状态s_t，根据公式(5)或(6)计算回报r_t，具体包括：进行强化学习训练所消耗的时间或资源量(比如能量)。

计算中心节点按照上述比例，根据公式(4)更新数据生成/采集节点和一般计算节点的状态，并将数据生成/采集节点和一般计算节点状态聚合为***状态s_t+1；

将s_t、a_t、r_t、s_t+1放入经验池；

从经验池中采样训练Q网络；

更新***当前状态s_t为s_t+1；

更新Q网络和目标Q网络参数；

判断***当前状态是否为结束状态。其中，结束状态条件包括但不限于训练次数达到预设次数或训练时间达到预设阈值等。如果结束，则转步骤5)，否则，则转步骤4)；

5)判断是否应结束算力分配策略学习。其中，结束条件包括但不限于近似值函数Q_φ(s,a)是否收敛、尝试次数满足预先设定的条件或训练时间达到预设阈值等。如果结束，则转步骤6)，否则，则转步骤2)；

6)输出算力分配策略：结束策略学习并输出学到的策略。将算力分配策略返回给各计算资源节点。

可选地，还可以将算力分配策略发送给作为策略库的预设核心节点保存。

下面结合实施例A，以各计算资源节点用于自编码器的在线训练进行具体说明。

实施例A：基于自编码器算法的信道状态信息反馈及信道重建。

在FDD***中，大规模多入多出(MultipleInputMultipleOutput，简称MIMO)的增益是通过下行信道的CSI反馈获得的。但在FDD***中，反馈链路的回传信息量是有限的，所以在反馈时需要以一定的方式进行压缩，然后基站通过反馈链路收到CSI反馈后，再采用某种方式重建原始信道信息。目前，基于深度学习的方式可以进行CSI反馈及信道重建，例如，可以采用如图7所示的自编码器(Autoencoder)算法，对CSI进行压缩和还原。其中，自编码器可以包括编码器和解码器(或称为译码器)，分别用于对CSI进行压缩和还原。在编码器端，通过学习训练数据，将原始信道矩阵转换成压缩表示(码字)，在解码器(或译码器)端，实现将码字重建为原始信道矩阵。

移动通信***中CSI反馈及信道重建的自编码器模型在线训练时，训练数据在终端获取，在线训练在何处执行，也涉及到算力分配的问题。通过本申请的强化学习方法，学习得到在移动通信***中的算力分配策略，CSI反馈及信道重建的自编码器模型在线训练时，依据此算力分配策略调度移动通信***中的计算和网络资源，可以提高训练效率。参与CSI反馈及信道重建在线训练算力分配策略学习的计算节点可以如图8所示。

算力分配策略的学习过程由所有终端同时参与，执行如图9所示的学习流程。执行的触发条件可以是定时启动或者按需启动，按需启动即手动启动或当满足预设条件时启动(比如当数据生成/采集节点的待处理数据的数据量累积到设定阈值时启动)。其中，对于按需启动方式，可以通过计算中心节点发送指示信息的方式，指示参与学习的节点(比如数据生成/采集节点)。

如图9所示，学习流程具体可以包括：

1)MEC设备初始化训练参数。包括但不限于经验池、Q网络和目标Q网络参数等信息；

2)终端获取初始状态信息s_j,t，包括需要采集的数据量、相关数据所需要的计算量、终端可用存储空间和算力等信息。在学习流程中，数据量是随机生成的，以加快学习速度；

3)终端向基站报告终端初始状态信息s_j,t；

4)基站向MEC设备报告终端状态信息和基站状态信息。其中，基站状态信息包括从终端接收的待训练的数据量(初始值为0)、需要的计算量、基站可用存储空间和算力等信息；

5)MEC设备将各基站和终端的状态聚合为***状态s_t；

6)MEC设备在终端和基站当前状态下，应用带经验回放的DQN算法，训练Q网络，并更新训练参数和终端、基站当前状态，直至终端、基站当前状态为结束状态；

MEC设备采用ε-贪心法，以ε的概率给每个终端随机选择其训练数据分配比例(p_0,t,p_1,t,…,p_k,t)，该分配比例对每个终端采用不同数值，这里p_0,t为在终端训练的数据比例，p_q,t为分配到基站进行在线训练的数据比例，且满足对于终端，p_q,t对应发送至基站k的比例p_j→k,t，对于基站，p_q,t对应终端i发送到基站的数据比例p_i→j,t；以1-ε的概率，选择当前最优动作，即给每个终端选择其训练数据分配比例为argmax_a'∈AQ(s',a')对应的(p_0,t,p_1,t,…,p_k,t)值。然后根据各终端、基站训练数据分配比例计算联合动作a_t；

MEC设备根据上述聚合的***状态s_t，根据公式(5)或(6)计算初始回报r_t，具体包括终端上报训练数据所需的信令开销、终端训练自身数据所需的时间、基站将汇聚数据转发至MEC设备所需的信令开销、基站训练汇聚数据所需的时间等；

MEC设备按照上述比例更新终端和基站的状态，并根据公式(4)将终端和基站状态聚合为***状态s_t+1；

将s_t、a_t、r_t、s_t+1、放入经验池；

从经验池中采样训练Q网络；

更新终端、基站当前聚合状态s_t为s_t+1；

更新Q网络和目标Q网络参数；

判断当前终端和基站状态是否为结束状态。其中，结束状态条件包括但不限于训练次数达到预设次数或训练时间达到预设阈值等。如果结束，则转步骤7)，否则，则转步骤6)；

7)判断是否应结束算力分配策略学习。其中，结束条件包括但不限于近似值函数Q_φ(s,a)是否收敛、尝试次数满足预先设定的条件或训练时间达到预设阈值等。如果结束，则转步骤8)，否则，则转步骤2)；

8)生成算力分配策略：结束策略学习并生成学到的策略；

9)MEC设备将算力分配策略返回给基站；

10)MEC将算力分配策略发送给作为策略库的预设核心网设备保存；

11)基站将算力分配策略返回给终端。

上述CSI反馈及信道重建实施例中，各设备的功能如下所示：

1、终端：属于端节点，在本实施例中，终端作为数据生成/采集节点，数据是下行信道状态信息。终端在通常功能的基础上，具有如下新增功能：

1)采集下行信道状态信息作为原始数据；

2)可选地，执行特征工程或数据增强等预处理流程生成待训练数据；

3)综合内存、计算和***状态，确定是否需要将终端训练数据和任务卸载到基站或MEC(边缘计算)设备；

4)如保留部分数据在本地训练，则在终端执行相关在线训练计算任务；

5)经基站、UPF，向作为计算中心节点的预设MEC设备报告本终端状态信息。

6)接收学习得到的算力分配策略；

2、基站：属于汇聚节点，在本实施例中，基站作为一般计算节点和中间节点。基站在通常功能的基础上，具有如下新增功能：

1)聚合终端分流的训练数据；

2)在本节点执行在线训练计算任务；

3)经UPF，向作为计算中心节点的预设MEC设备报告本节点状态信息；

4)经UPF，向作为计算中心节点的预设MEC设备转发终端状态信息；

5)接收学习得到的算力分配策略；

3、MEC设备：属于边缘计算节点，是靠近无线接入网侧的MEC主机或App服务器，通过UPF与基站和核心网相连，用于在靠近用户侧提供计算服务，以降低时延，提升用户体验。在本实施例中，MEC设备作为计算中心节点，在通常功能的基础上，具有如下新增功能：

1)驱动算力分配策略训练流程；

2)按一定策略模拟终端的动作；

3)接收终端和基站的状态信息；

4)执行强化学习算法；

5)训练生成算力分配策略；

6)返回算力分配策略给基站和终端；

7)可选地，发送算力分配策略到作为策略库的预设核心网设备保存；

4、UPF：属于边缘计算连接节点，是基站、MEC设备、核心网间的连接节点，不作为计算节点。UPF在通常功能的基础上，具有如下新增功能：

1)连接基站、MEC设备和核心网；

2)基站、MEC设备和核心网间的数据传输和管理；

3)转发基站、MEC设备和核心网间的训练数据和算力分配策略；

5、核心网：具有集中强大计算能力的计算节点。在本实施例中作为***策略库。核心网设备在通常功能的基础上，具有如下新增功能：

1)接收并保存MEC设备发送的学习得到的算力分配策略；

2)响应并返回请求的算力分配策略。

上述图8所示的移动通信***中，各接口的功能如下：

a接口：核心网和基站间接口，用于传递用户数据和控制信息。在本申请中，在核心网和基站之间的接口中，增加了如下交互信息：算力分配策略信息；

b接口：基站和终端间接口，用于传递基站和终端之间的空口数据。在本申请中，在空间接口中增加了如下交互信息：终端状态信息、训练数据，以及算力分配策略信息；

c接口：基站和UPF间接口，用于传输用户数据。在本申请中，在基站和UPF间的接口中，增加了如下交互信息：终端和基站状态信息、训练数据，以及算力分配策略信息。

d接口：基站间接口，可以由常见的交换网络构成，也可以是点对点的连接。在本申请中，在基站与基站之间的接口中，增加了如下交互信息：终端和基站状态信息、训练数据，以及算力分配策略信息。

e接口：MEC设备和UPF间接口，用于传输用户数据。在本申请中，在MEC设备和UPF间的接口中，增加了如下交互信息：终端和基站状态信息、训练数据，以及算力分配策略信息。

f接口：MEC设备间接口，可以由常见的交换网络构成，也可以是点对点的连接。在本申请中，在MEC设备间的接口中，增加了如下交互信息：终端和基站状态信息、训练数据，以及算力分配策略信息。

g接口：核心网设备和UPF间接口。在本申请中，在核心网设备和UPF间的接口中，增加了如下交互信息：算力分配策略信息。

由此，在移动通信***中执行在线训练任务时，可以充分利用移动通信***中所有可用计算资源，高效地完成在线训练任务，提高了移动通信***的资源利用率。

上述各方法实施例为计算中心节点执行的，本申请还提出一种由目标计算资源节点执行的数据处理方法。

图10为本申请实施例所提供的另一种数据处理方法的流程示意图。

如图10所示，该数据处理方法可由目标计算资源节点执行，可以包括以下步骤：

步骤1001，向计算中心节点发送目标计算资源节点的初始状态信息。

在本申请实施例中，目标计算资源节点可以向计算中心节点发送对应的初始状态信息。

在本申请实施例的一种可能的实现方式中，目标计算资源节点可以在接收到指示信息的情况下，向计算中心节点发送对应的初始状态信息，其中，指示信息，用于指示向计算中心节点发送对应的初始状态信息。

其中，计算中心节点可以根据各计算资源节点所处的位置、各计算资源节点的待处理数据的数据特征和数据类型中的至少一种，从各计算资源节点中，确定向其发送指示信息的计算资源节点。

步骤1002，接收计算中心节点发送的目标算力分配策略，其中，目标算力分配策略包括多个计算资源节点的目标算力分配比例。

在本申请实施例中，计算中心节点在接收到目标计算资源节点的初始状态信息后，可以根据自身接收到的多个计算资源节点的初始状态信息，确定多个计算资源节点中至少一个目标计算资源节点对应的目标算力分配策略，并向至少一个目标计算资源节点发送对应的目标算力分配策略。相应的，目标计算资源节点可以接收计算中心节点发送的目标算力分配策略。

需要说明的是，前述任一实施例中对目标算力分配策略的解释说明，也适用于该实施例，即前述任一实施例中对计算中心节点执行的数据处理方法的解释说明和技术细节的描述，也适用于上述目标计算资源节点，其实现原理类似，此处不做赘述。

步骤1003，根据多个计算资源节点的目标算力分配比例，分发目标计算资源节点的待处理数据。

在本申请实施例中，目标计算资源节点在接收到目标算力分配策略后，可以根据目标算力分配策略中上述多个计算资源节点的目标算力分配比例，分发目标计算资源节点的待处理数据。

在本申请实施例的一种可能的实现方式中，目标计算资源节点在接收到目标算力分配策略后，可以从该目标计算资源节点的待处理数据中，确定与该目标计算资源节点的目标算力分配比例匹配的第一目标数据，并根据上述多个计算资源节点中该目标计算资源节点的上级计算资源节点对应的目标算力分配比例，向上级计算资源节点发送目标计算资源节点的待处理数据中除第一目标数据之外的其余数据。

在本申请实施例的一种可能的实现方式中，目标计算资源节点不仅可以向其上级计算资源节点发送数据，而且，目标计算资源节点还可以接收其下级计算资源节点发送的数据。即本申请中，目标计算资源节点还可以接收该目标计算资源节点对应的各下级计算资源节点发送的第二目标数据，其中，第二目标数据是根据各下级计算资源节点对应的目标算力分配比例和各下级计算资源节点对应的待处理数据确定的。也就是说，针对目标计算资源节点的每个下级计算资源节点，该下级计算资源节点可以根据对应的待处理数据和对应的目标算力分配比例，确定第二目标数据。

具体地，目标计算资源节点在接收到对应的各下级计算资源节点发送的第二目标数据后，可以根据自身保留的第一目标数据和各下级计算资源节点发送的第二目标数据，对目标模型进行训练，以得到经过该目标计算资源节点训练后的目标模型。

目标计算资源节点还可以向计算中心节点发送经过该目标计算资源节点训练后的目标模型，相应的，计算中心节点在接收每个计算资源节点发送的经过对应计算资源节点训练后的目标模型后，可以将各计算资源节点发送的经过对应计算资源节点训练后的目标模型进行聚合，以得到聚合后的目标模型，并向各计算资源节点发送聚合后的目标模型。

或者，计算中心节点还可以接收多个计算资源节点发送的待处理数据，并根据每个计算资源节点对应的待处理数据，对目标模型进行训练，以得到经过计算中心节点训练后的目标模型。计算中心节点可以将经过计算中心节点训练后的目标模型和各经过计算资源节点训练后的目标模型进行聚合，以得到聚合后的目标模型，并向上述多个计算资源节点发送聚合后的目标模型。

从而本申请中，目标计算资源节点可以接收计算中心节点发送的聚合后的目标模型，以使用该聚合后的目标模型。

本申请实施例的数据处理方法，通过向计算中心节点发送目标计算资源节点的初始状态信息；接收计算中心节点发送的目标算力分配策略，其中，目标算力分配策略包括多个计算资源节点的目标算力分配比例；根据多个计算资源节点的目标算力分配比例，分发目标计算资源节点的待处理数据。由此，可以实现根据各计算资源节点的状态，生成各计算资源节点对应的算力分配策略，从而各计算资源节点按照对应算力分配策略，分发对应的待处理数据，可以实现动态地调整各计算资源节点待处理的数据量，使得各计算资源节点处理的数据量与自身算力匹配，提升移动通信***中各计算资源节点的资源利用率，以及提升移动通信***中的数据处理效率。

本申请实施例提供的技术方案可以适用于多种***，尤其是5G***。例如适用的***可以是全球移动通讯(Global System of Mobile communication，简称GSM)***、码分多址(Code Division Multiple Access，简称CDMA)***、宽带码分多址(Wideband CodeDivision Multiple Access，简称WCDMA)通用分组无线业务(General Packet RadioService，简称GPRS)***、长期演进(long term evolution，简称LTE)***、LTE频分双工(Frequency Division Duplex，简称FDD)***、LTE时分双工(time division duplex，简称TDD)***、高级长期演进(Long Term Evolution Advanced，简称LTE-A)***、通用移动***(Universal Mobile Telecommunication System，简称UMTS)、全球互联微波接入(Worldwide interoperability for Microwave Access，简称WiMAX)***、5G新空口(NewRadio，简称NR)***等。这多种***中均包括终端和网络设备。***中还可以包括核心网部分，例如演进的分组***(Evloved Packet System，简称EPS)、5G***(5GS)等。

为了实现上述实施例，本申请还提出一种计算中心节点。

图11为本申请实施例所提供的一种计算中心节点的结构示意图。

如图11所示，该计算中心节点可以包括：收发机1100、处理器1110、存储器1120。

其中，存储器1120，用于存储计算机程序；收发机1100，用于在处理器1110的控制下收发数据；处理器1110，用于读取存储器1120中的计算机程序并执行以下操作：获取多个计算资源节点的初始状态信息；根据多个计算资源节点的初始状态信息，确定多个计算资源节点中至少一个目标计算资源节点对应的目标算力分配策略；向至少一个目标计算资源节点发送对应的目标算力分配策略，其中，目标算力分配策略包括多个计算资源节点的目标算力分配比例，用于对应的目标计算资源节点根据多个计算资源节点的目标算力分配比例，分发待处理数据。

收发机1100，用于在处理器1110的控制下接收和发送数据。

其中，在图11中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器1110代表的一个或多个处理器和存储器1120代表的存储器的各种电路链接在一起。总线架构还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机1100可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元，这些传输介质包括无线信道、有线信道、光缆等传输介质。处理器1110负责管理总线架构和通常的处理，存储器1120可以存储处理器1110在执行操作时所使用的数据。

处理器1110可以是CPU、ASIC、FPGA或CPLD，处理器1110也可以采用多核架构。

在本申请一种可能的实现形式中，初始状态信息包括对应计算资源节点的待处理数据的数据量、对应计算资源节点处理待处理数据所需的计算量、对应计算资源节点的可用存储空间和对应计算资源节点的可用算力中的至少一个；其中，可用算力用于表征对应计算资源节点在单位时间内可处理的数据量。

在本申请一种可能的实现形式中，获取多个计算资源节点的初始状态信息之前，还包括：

获取各计算资源节点所处的位置、各计算资源节点的待处理数据的数据特征和数据类型中的至少一种；

根据各计算资源节点所处的位置、各计算资源节点的待处理数据的数据特征和数据类型中的至少一种，从各计算资源节点中确定多个计算资源节点；

向多个计算资源节点发送指示信息，其中，指示信息，用于指示多个计算资源节点向计算中心节点发送对应的初始状态信息。

在本申请一种可能的实现形式中，根据多个计算资源节点的初始状态信息，确定多个计算资源节点中至少一个目标计算资源节点对应的目标算力分配策略，包括：

根据多个计算资源节点的初始状态信息，生成状态序列；

根据多个计算资源节点的初始状态信息以及至少一个目标计算资源节点的初始算力分配策略，生成动作序列；其中，初始算力分配策略包括多个计算资源节点的初始算力分配比例；

根据状态序列和动作序列，确定累积奖赏；其中，累积奖赏，与在状态序列所指示的状态下执行动作序列所需消耗的资源量或时间成反向关系；

根据累积奖赏，对至少一个目标计算资源节点的初始算力分配策略进行至少一次更新，训练强化学习模型，以得到至少一个目标计算资源节点对应的目标算力分配策略。

在本申请一种可能的实现形式中，强化学习模型通过以下步骤训练得到：

获取训练样本，训练样本包括多个计算资源节点的状态序列、累积奖赏最大时对应的动作序列、状态序列下采取累积奖赏最大时对应的动作序列后获得的奖赏、以及采取累积奖赏最大时对应的动作序列后转移的状态序列，其中，累积奖赏最大时对应的动作序列是根据使得累积奖赏最大的多个计算资源节点的算力分配比例确定的；

根据训练样本训练强化学习模型，以对强化学习模型的模型参数进行更新；

在未满足模型训练结束条件的情况下，采用更新后的训练样本继续对更新后的强化学习模型进行训练，直至满足模型训练结束条件，停止对强化学习模型进行训练。

在本申请一种可能的实现形式中，模型训练结束条件包括强化学习模型的累积奖赏收敛、强化学习模型的训练时间达到预设阈值和强化学习模型的迭代更新次数达到设定次数中的至少一个条件。

在本申请一种可能的实现形式中，还包括：

接收多个计算资源节点发送的待处理数据；

根据多个计算资源节点的待处理数据，对目标模型进行训练，以得到经过计算中心节点训练后的目标模型；

接收多个计算资源节点发送的经过计算资源节点训练后的目标模型；

将经过计算中心节点训练后的目标模型和各经过计算资源节点训练后的目标模型进行聚合，以得到聚合后的目标模型；

向多个计算资源节点发送聚合后的目标模型。

在此需要说明的是，本申请实施例提供的计算中心节点，能够实现上述图1至图5方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

为了实现上述实施例，本申请还提出一种目标计算资源节点。

图12为本申请实施例所提供的一种目标计算资源节点的结构示意图。

如图12所示，该目标计算资源节点可以包括：收发机1200、处理器1210、存储器1220。

其中，存储器1220，用于存储计算机程序；收发机1200，用于在处理器1210的控制下收发数据；处理器1210，用于读取存储器1220中的计算机程序并执行以下操作：向计算中心节点发送目标计算资源节点的初始状态信息；接收计算中心节点发送的目标算力分配策略，其中，目标算力分配策略包括多个计算资源节点的目标算力分配比例；根据多个计算资源节点的目标算力分配比例，分发目标计算资源节点的待处理数据。

收发机1200，用于在处理器1210的控制下接收和发送数据。

其中，在图12中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器1210代表的一个或多个处理器和存储器1220代表的存储器的各种电路链接在一起。总线架构还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机1200可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元，这些传输介质包括无线信道、有线信道、光缆等传输介质。处理器1210负责管理总线架构和通常的处理，存储器1220可以存储处理器1210在执行操作时所使用的数据。

处理器1210可以是CPU、ASIC、FPGA或CPLD，处理器1210也可以采用多核架构。

在本申请一种可能的实现形式中，向计算中心节点发送目标计算资源节点的初始状态信息之前，还包括：

接收计算中心节点发送的指示信息，其中，指示信息，用于指示向计算中心节点发送对应的初始状态信息。

在本申请一种可能的实现形式中，根据多个计算资源节点的目标算力分配比例，分发目标计算资源节点的待处理数据，包括：

从目标计算资源节点的待处理数据中，确定与目标计算资源节点对应的目标算力分配比例匹配的第一目标数据；

根据多个计算资源节点中目标计算资源节点的上级计算资源节点对应的目标算力分配比例，向上级计算资源节点发送目标计算资源节点的待处理数据中除第一目标数据之外的其余数据。

在本申请一种可能的实现形式中，还包括：

接收目标计算资源节点对应的各下级计算资源节点发送的第二目标数据，其中，第二目标数据是根据各下级计算资源节点对应的目标算力分配比例和各下级计算资源节点对应的待处理数据确定的。

在本申请一种可能的实现形式中，还包括：

根据各下级计算资源节点发送的第二目标数据和第一目标数据，对目标模型进行训练，以得到经过目标计算资源节点训练后的目标模型；

向计算中心节点发送经过目标计算资源节点训练后的目标模型；

接收计算中心节点发送的聚合后的目标模型。

在此需要说明的是，本发明实施例提供的目标计算资源节点，能够实现上述图10方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

与上述图1至图5实施例提供的数据处理方法相对应，本申请还提供一种数据处理装置，由于本申请实施例提供的数据处理装置与上述图1至图5实施例提供的数据处理方法相对应，因此在数据处理方法的实施方式也适用于本申请实施例提供的数据处理装置，在本申请实施例中不再详细描述。

图13为本申请实施例所提供的一种数据处理装置的结构示意图。

如图13所示，该数据处理装置1300应用于计算中心节点，可以包括：。

其中，获取单元1310，用于获取多个计算资源节点的初始状态信息。

确定单元1320，用于根据多个计算资源节点的初始状态信息，确定多个计算资源节点中至少一个目标计算资源节点对应的目标算力分配策略。

发送单元1330，用于向至少一个目标计算资源节点发送对应的目标算力分配策略，其中，目标算力分配策略包括多个计算资源节点的目标算力分配比例，用于对应的目标计算资源节点根据多个计算资源节点的目标算力分配比例，分发待处理数据。

进一步的，在本申请一种可能的实现形式中，初始状态信息包括对应计算资源节点的待处理数据的数据量、对应计算资源节点处理待处理数据所需的计算量、对应计算资源节点的可用存储空间和对应计算资源节点的可用算力中的至少一个；其中，可用算力用于表征对应计算资源节点在单位时间内可处理的数据量。

进一步的，在本申请另一种可能的实现形式中，获取单元1310，还用于获取各计算资源节点所处的位置、各计算资源节点的待处理数据的数据特征和数据类型中的至少一种。

确定单元1320，还用于根据各计算资源节点所处的位置、各计算资源节点的待处理数据的数据特征和数据类型中的至少一种，从各计算资源节点中确定多个计算资源节点；

发送单元1330，还用于向多个计算资源节点发送指示信息，其中，指示信息，用于指示多个计算资源节点向计算中心节点发送对应的初始状态信息。

进一步的，在本申请另一种可能的实现形式中，确定单元1320，具体用于：根据多个计算资源节点的初始状态信息，生成状态序列；根据多个计算资源节点的初始状态信息以及至少一个目标计算资源节点的初始算力分配策略，生成动作序列；其中，初始算力分配策略包括多个计算资源节点的初始算力分配比例；根据状态序列和动作序列，确定累积奖赏；其中，累积奖赏，与在状态序列所指示的状态下执行动作序列所需消耗的资源量或时间成反向关系；根据累积奖赏，对至少一个目标计算资源节点的初始算力分配策略进行至少一次更新，训练强化学习模型，以得到至少一个目标计算资源节点对应的目标算力分配策略。

进一步的，在本申请又一种可能的实现形式中，强化学习模型通过以下步骤训练得到：

获取单元1310，还用于获取训练样本，训练样本包括多个计算资源节点的状态序列、累积奖赏最大时对应的动作序列、状态序列下采取累积奖赏最大时对应的动作序列后获得的奖赏、以及采取累积奖赏最大时对应的动作序列后转移的状态序列，其中，累积奖赏最大时对应的动作序列是根据使得累积奖赏最大的多个计算资源节点的算力分配比例确定的。

训练单元，用于根据训练样本训练强化学习模型，以对强化学习模型的模型参数进行更新。

训练单元，还用于在未满足模型训练结束条件的情况下，采用更新后的训练样本继续对更新后的强化学习模型进行训练，直至满足模型训练结束条件，停止对强化学习模型进行训练。

进一步的，在本申请又一种可能的实现形式中，模型训练结束条件包括强化学习模型的累积奖赏收敛、强化学习模型的训练时间达到预设阈值和强化学习模型的迭代更新次数达到设定次数中的至少一个条件。

进一步的，在本申请又一种可能的实现形式中，该数据处理装置1300还可以包括：

接收单元，用于接收多个计算资源节点发送的待处理数据。

训练单元，还用于根据多个计算资源节点的待处理数据，对目标模型进行训练，以得到经过计算中心节点训练后的目标模型。

接收单元，还用于接收多个计算资源节点发送的经过计算资源节点训练后的目标模型。

聚合单元，用于将经过计算中心节点训练后的目标模型和各经过计算资源节点训练后的目标模型进行聚合，以得到聚合后的目标模型。

发送单元1330，还用于向多个计算资源节点发送聚合后的目标模型。

在此需要说明的是，本申请实施例提供的上述数据处理装置，能够实现上述图1至图5方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

与上述图10实施例提供的数据处理方法相对应，本申请还提供一种数据处理装置，由于本申请实施例提供的数据处理装置与上述图10实施例提供的数据处理方法相对应，因此在数据处理方法的实施方式也适用于本申请实施例提供的数据处理装置，在本申请实施例中不再详细描述。

如图14所示，该数据处理装置1400应用于目标计算资源节点，可以包括：。

其中，发送单元1410，用于向计算中心节点发送目标计算资源节点的初始状态信息。

接收单元1420，用于接收计算中心节点发送的目标算力分配策略，其中，目标算力分配策略包括多个计算资源节点的目标算力分配比例。

分发单元1430，用于根据多个计算资源节点的目标算力分配比例，分发目标计算资源节点的待处理数据。

在本申请一种可能的实现形式中，接收单元1420，还用于接收计算中心节点发送的指示信息，其中，指示信息，用于指示向计算中心节点发送对应的初始状态信息。

在本申请一种可能的实现形式中，分发单元1430，具体用于：从目标计算资源节点的待处理数据中，确定与目标计算资源节点对应的目标算力分配比例匹配的第一目标数据；根据多个计算资源节点中目标计算资源节点的上级计算资源节点对应的目标算力分配比例，向上级计算资源节点发送目标计算资源节点的待处理数据中除第一目标数据之外的其余数据。

在本申请一种可能的实现形式中，接收单元1420，还用于接收目标计算资源节点对应的各下级计算资源节点发送的第二目标数据，其中，第二目标数据是根据各下级计算资源节点对应的目标算力分配比例和各下级计算资源节点对应的待处理数据确定的。

在本申请一种可能的实现形式中，该数据处理装置1400还可以包括：

训练单元，用于根据各下级计算资源节点发送的第二目标数据和第一目标数据，对目标模型进行训练，以得到经过目标计算资源节点训练后的目标模型。

发送单元，用于向计算中心节点发送经过目标计算资源节点训练后的目标模型。

接收单元1420，还用于接收所述计算中心节点发送的聚合后的目标模型。

在此需要说明的是，本申请实施例提供的上述数据处理装置，能够实现上述图10方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

需要说明的是，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

为了实现上述实施例，本申请还提出一种处理器可读存储介质。

其中，该处理器可读存储介质存储有计算机程序，该计算机程序用于使该处理器执行本申请图1至图5任一实施例的数据处理方法。

其中，处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。

其中，该处理器可读存储介质存储有计算机程序，该计算机程序用于使该处理器执行本申请图10实施例所述的数据处理方法。

其中，所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机可执行指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机可执行指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些处理器可执行指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的处理器可读存储器中，使得存储在该处理器可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些处理器可执行指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种数据处理方法，其特征在于，应用于计算中心节点，所述方法包括：

获取多个计算资源节点的初始状态信息；

2.根据权利要求1所述的方法，其特征在于，所述初始状态信息包括对应计算资源节点的待处理数据的数据量、对应计算资源节点处理所述待处理数据所需的计算量、对应计算资源节点的可用存储空间和对应计算资源节点的可用算力中的至少一个；

3.根据权利要求1所述的方法，其特征在于，所述获取多个计算资源节点的初始状态信息之前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述多个计算资源节点的初始状态信息，确定所述多个计算资源节点中至少一个目标计算资源节点对应的目标算力分配策略，包括：

5.根据权利要求4所述的方法，其特征在于，所述强化学习模型通过以下步骤训练得到：

6.根据权利要求5所述的方法，其特征在于，所述模型训练结束条件包括所述强化学习模型的累积奖赏收敛、所述强化学习模型的训练时间达到预设阈值和所述强化学习模型的迭代更新次数达到设定次数中的至少一个条件。

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述方法还包括：

接收所述多个计算资源节点发送的待处理数据；

向所述多个计算资源节点发送所述聚合后的目标模型。

8.一种数据处理方法，其特征在于，应用于目标计算资源节点，所述方法包括：

9.根据权利要求8所述的方法，其特征在于，所述向计算中心节点发送所述目标计算资源节点的初始状态信息之前，所述方法还包括：

10.根据权利要求8或9所述的方法，其特征在于，所述根据所述多个计算资源节点的目标算力分配比例，分发所述目标计算资源节点的待处理数据，包括：

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

接收所述计算中心节点发送的聚合后的目标模型。

13.一种计算中心节点，其特征在于，包括存储器，收发机，处理器：

获取多个计算资源节点的初始状态信息；

14.根据权利要求13所述的计算中心节点，其特征在于，所述初始状态信息包括对应计算资源节点的待处理数据的数据量、对应计算资源节点处理所述待处理数据所需的计算量、对应计算资源节点的可用存储空间和对应计算资源节点的可用算力中的至少一个；

15.根据权利要求13所述的计算中心节点，其特征在于，所述获取多个计算资源节点的初始状态信息之前，还包括：

16.根据权利要求13所述的计算中心节点，其特征在于，所述根据所述多个计算资源节点的初始状态信息，确定所述多个计算资源节点中至少一个目标计算资源节点对应的目标算力分配策略，包括：

17.根据权利要求16所述的计算中心节点，其特征在于，所述强化学习模型通过以下步骤训练得到：

18.根据权利要求17所述的计算中心节点，其特征在于，所述模型训练结束条件包括所述强化学习模型的累积奖赏收敛、所述强化学习模型的训练时间达到预设阈值和所述强化学习模型的迭代更新次数达到设定次数中的至少一个条件。

19.根据权利要求13-18中任一项所述的计算中心节点，其特征在于，还包括：

接收所述多个计算资源节点发送的待处理数据；

向所述多个计算资源节点发送所述聚合后的目标模型。

20.一种目标计算资源节点，其特征在于，包括存储器，收发机，处理器：

21.根据权利要求20所述的目标计算资源节点，其特征在于，所述向计算中心节点发送所述目标计算资源节点的初始状态信息之前，还包括：

22.根据权利要求20或21所述的目标计算资源节点，其特征在于，所述根据所述多个计算资源节点的目标算力分配比例，分发所述目标计算资源节点的待处理数据，包括：

23.根据权利要求22所述的目标计算资源节点，其特征在于，还包括：

24.根据权利要求23所述的目标计算资源节点，其特征在于，还包括：

接收所述计算中心节点发送的聚合后的目标模型。

25.一种数据处理装置，其特征在于，包括：

获取单元，用于获取多个计算资源节点的初始状态信息；

26.一种数据处理装置，其特征在于，包括：

27.一种处理器可读存储介质，其特征在于，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行权利要求1至7任一项所述的方法，或者，执行权利要求8至12任一项所述的方法。