CN115456168B

CN115456168B - 强化学习模型的训练方法、能耗确定方法和装置

Info

Publication number: CN115456168B
Application number: CN202211081070.5A
Authority: CN
Inventors: 闻雅兰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-09-05
Filing date: 2022-09-05
Publication date: 2023-08-25
Anticipated expiration: 2042-09-05
Also published as: CN115456168A

Abstract

本公开提供了一种强化学习模型的训练方法、能耗确定方法和装置，涉及人工智能领域，具体为强化学习、深度学习、物联网等技术领域，适用于能耗预测场景。强化学习模型的训练方法包括：将历史能耗数据和多个目标模型的模型能力数据，输入待训练的强化学习模型的第一子模型，输出与多个目标模型相关联的权重；利用待训练的强化学习模型的第二子模型，基于权重确定用于评价第一子模型的评价值；基于评价值，调整第一子模型的模型参数和第二子模型的模型参数，得到经训练的强化学习模型。

Description

强化学习模型的训练方法、能耗确定方法和装置

技术领域

本公开涉及人工智能领域，具体为强化学习、深度学习、物联网等技术领域，适用于能耗预测场景。

背景技术

在一些场景下，需要预测工业设备的能耗数据，以便基于能耗数据得知工业设备的运行情况或进行能耗调度。但是，相关技术在预测能耗数据时，依赖人工经验，导致预测成本高、扩展性和通用性较差。

发明内容

本公开提供了一种强化学习模型的训练方法、能耗确定方法、装置、电子设备、存储介质以及程序产品。

根据本公开的一方面，提供了一种强化学习模型的训练方法，包括：将历史能耗数据和多个目标模型的模型能力数据，输入待训练的强化学习模型的第一子模型，输出与所述多个目标模型相关联的权重；利用所述待训练的强化学习模型的第二子模型，基于所述权重确定用于评价所述第一子模型的评价值；基于所述评价值，调整所述第一子模型的模型参数和所述第二子模型的模型参数，得到经训练的强化学习模型。

根据本公开的另一方面，提供了一种能耗确定方法，包括：将历史能耗数据输入目标模型中，输出能耗确定值；利用强化学习模型确定与所述目标模型相关联的权重；基于所述权重和能耗确定值，确定能耗加权值，其中，所述强化学习模型是利用上述的强化学习模型的训练方法得到的。

根据本公开的另一方面，提供了一种强化学习模型的训练装置，包括：输入输出模块、第一确定模块以及调整模块。输入输出模块，用于将历史能耗数据和多个目标模型的模型能力数据，输入待训练的强化学习模型的第一子模型，输出与所述多个目标模型相关联的权重；第一确定模块，用于利用所述待训练的强化学习模型的第二子模型，基于所述权重确定用于评价所述第一子模型的评价值；调整模块，用于基于所述评价值，调整所述第一子模型的模型参数和所述第二子模型的模型参数，得到经训练的强化学习模型。

根据本公开的另一方面，提供了一种能耗确定装置，包括：输入输出模块、第一确定模块和第二确定模块。输入输出模块，用于将历史能耗数据输入目标模型中，输出能耗确定值；第一确定模块，用于利用强化学习模型确定与所述目标模型相关联的权重；第二确定模块，用于基于所述权重和能耗确定值，确定能耗加权值，其中，所述强化学习模型是利用上述的强化学习模型的训练装置得到的。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器和与所述至少一个处理器通信连接的存储器。其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的强化学习模型的训练方法和能耗确定方法中的至少一个。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机程序/指令存储于可读存储介质和电子设备其中至少之一上，所述计算机指令用于使所述计算机执行上述的强化学习模型的训练方法和能耗确定方法中的至少一个。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令存储于可读存储介质和电子设备其中至少之一上，所述计算机程序/指令被处理器执行时实现上述强化学习模型的训练方法的步骤和和能耗确定方法的步骤中的至少一个。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开一实施例的强化学习模型的训练方法的流程图；

图2示意性示出了根据本公开一实施例的强化学习模型的训练方法的原理图；

图3示意性示出了根据本公开一实施例的能耗确定方法的流程图；

图4示意性示出了根据本公开一实施例的能耗确定方法的示意图；

图5示意性示出了根据本公开一实施例的目标模型预测精度的示意图；

图6示意性示出了根据本公开另一实施例的目标模型预测精度的示意图；

图7示意性示出了根据本公开一实施例的数据链路的示意图；

图8示意性示出了根据本公开一实施例的强化学习模型的训练装置的框图；

图9示意性示出了根据本公开一实施例的能耗确定装置的框图；以及

图10是用来实现本公开实施例的用于执行强化学习模型的训练方法和能耗确定方法中的至少一个的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/ 或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、 B、C的***等)。

利用物联网、大数据与人工智能等先进技术进行节能减排，已经成为企业高质量发展转型的必然选择。物联网技术的不断发展为重工业、农业、房地产等传统行业的能源生产、能耗采集、能耗监控以及能耗管理提供了先决条件。例如，在边云融合的物联网中，边缘端的传感器能够实时采集工业现场的能耗数据并上传至云端的数据库中。同时，云端的控制***基于边缘端的数据，通过云端大数据建模和计算，可以实时预测未来所生产或所需的能耗，提前对边缘端的控制设备进行调节，或者调度配置相关的能耗资源，比如电量、碳排放量等。

一些能耗预测方法主要通过专家经验进行人工预测，预测成本高昂，而且难以有效利用大量的测点数据，并且监控和预测方法不具备扩展性和通用性。

基于机器学***稳性、动态变化的特征。对于可再生能源的生产数据，比如风力发电，其时间序列数据受到天气等不确定因素等影响，还具有非连续性的特点，预测精度难以保证。

在一些示例中，可以通过集成学习的方法进行能耗预测，集成学习的方法采用多个基学习器(弱学习器)进行预测，并将其预测结果以不同方式进行组合，基学习器例如与下文的目标模型类似。由于采取了多个基学习器，在一定程度上可以提高模型的泛化性能，但是集成学习的方法相较于深度学习方法需要大量特征工程来提高其预测精度，特征工程耗费人工成本。

有鉴于此，本公开的实施例提出了一种强化学习模型的训练方法，包括：将历史能耗数据和多个目标模型的模型能力数据，输入待训练的强化学习模型的第一子模型，输出与多个目标模型相关联的权重。然后，利用待训练的强化学习模型的第二子模型，基于权重确定用于评价第一子模型的评价值。接下来，基于评价值，调整第一子模型的模型参数和第二子模型的模型参数，得到经训练的强化学习模型。

在描述本公开实施例的具体实现方案之前，先对强化学习模型的一些术语进行解释。

训练强化学习模型的过程中涉及马尔可夫决策，马尔可夫决策过程主要包含5个要素，即M＝<S，A，P，r，γ>。5个要素具体定义如下。

S：状态空间，使用s_t∈R^T×ds表示t时刻环境对应的状态，也即t时刻对应的多维时间序列数据。T是时间序列数据的长度，d_s是时间序列数据的维度，每个维度可以是每个传感器采集的数据，采集的数据例如包括温度、压力、用电量等等。

A：动作空间，如公式(1)所示，使用a_t∈R^N表示t时刻的动作，由一组N维的非负向量构成。其中，表示第i个目标模型在t时刻的权重，权重总和为1。每个目标模型在每个时刻的权重可以不同。在得到N 个目标模型在t时刻的权重之后，可以利用N个目标模型预测t+1时刻的能耗得到N个预测值，利用当前权重对N个预测值进行加权求和，得到 t+1时刻的能耗预测值。

P(s_t+1|s_t，a_t)：状态转移概率，时间序列数据的下一个状态不受到a_t的影响，故而有P(s_t+1|s_t，a_t)＝P(s_t+1|s_t)，即动作不影响环境(状态)。

r(s，a)：奖赏函数，是一种反馈函数，如公式(2)所示，通过奖赏函数可以计算组合模型的预测结果与真实值y_i的对称平均绝对百分比误差 (symmetric Mean AbsolutePercentage Error，sMASE)，并通过归一化，使其数值大小位于[-1，1]区间。组合模型的预测结果/>是通过利用N个目标模型进行能耗预测得到N个预测值，并通过各自的权重对N个预测值进行加权平均得到的。其中n为维度，与上文的d_s相同。

γ：折扣因子，用于计算累积回报，如果只关注当前t时刻的预测准确率，折扣因子则可以设置为0。折扣因子对时间越近的回报值影响越小，所以时间近的状态对累积回报值的影响更大，从而对决策结果影响更大。即，越远的奖赏，对当前的动作影响越小。基于以上的问题定义，t时刻的累积回报可以定义为：

其中，s₀为初始状态，为学习策略函数。

图1示意性示出了根据本公开一实施例的强化学习模型的训练方法的流程图。

如图1所示，本公开实施例的强化学习模型的训练方法100例如可以包括操作S110～操作S130。

在操作S110，将历史能耗数据和多个目标模型的模型能力数据，输入待训练的强化学习模型的第一子模型，输出与多个目标模型相关联的权重。

在操作S120，利用待训练的强化学习模型的第二子模型，基于权重确定用于评价第一子模型的评价值。

在操作S130，基于评价值，调整第一子模型的模型参数和第二子模型的模型参数，得到经训练的强化学习模型。

示例性地，目标模型例如包括用于预测能耗的预测模型。目标模型包括多个，每个目标模型对应一个权重，根据权重对每个目标模型的预测结果进行加权，从而得到最终的能耗预测结果。强化学习模型用于输出多个目标模型的权重。待训练的强化学习模型包括第一子模型和第二子模型。

多个目标模型的模型能力不同，模型能力例如表征了目标模型的预测误差或预测准确性，模型能力越高，预测误差越小或预测准确性越高。待训练的强化学习模型的第一子模型用于输出目标模型的权重，例如，将历史能耗数据和多个目标模型的模型能力数据输入第一子模型中，输出与每个目标模型相关联的权重。

在得到目标模型的权重之后，利用待训练的强化学习模型的第二子模型基于权重评价第一子模型的准确性，得到评价值，基于评价值调整第一子模型的模型参数和第二子模型的模型参数，从而训练得到强化学习模型。

根据本公开的实施例，通过强化学习模型确定目标模型的模型权重，提高的权重的准确性，在训练强化学习模型时，基于历史能耗数据和目标模型的模型能力数据进行训练，提高了强化学习模型的模型精度。

图2示意性示出了根据本公开一实施例的强化学习模型的训练方法的原理图。

如图2所示，预先训练多个目标模型，多个目标模型是利用能耗数据样本训练得到的，能耗数据样本包括历史时间序列数据。

在训练得到多个目标模型之后，利用每个目标模型基于历史能耗数据 (t-1时刻之前的数据)进行预测，预测得到t-1时刻的能耗确定值。

能耗确定值是预测值，通过将能耗确定值和能耗参考值进行比较，得到每个目标模型在t-1时刻的预测误差，能耗参考值例如为真实值，例如能耗参考值为S_t-1，将预测误差作为每个目标模型的数据处理误差。接下来，可以基于数据处理误差对多个目标模型进行排序，得到排序结果，排序越靠前的目标模型，其数据处理误差越小，表征目标模型的预测精度越大。然后，将排序结果确定为t-1时刻的模型能力数据，每个目标模型在每个时刻对应一个模型能力数据。

待训练的强化学习模型例如包括DDPG(Deep Deterministic Policy Gradient)。待训练的强化学习模型包括第一子模型和第二子模型，第一子模型例如包括Actor模型，第二子模型例如包括Critic模型。将历史能耗数据和模型能力数据输入第一子模型中，得到多个目标模型的权重。

例如，第一子模型包括嵌入层、编码层、激活层。嵌入层例如包括 embedding层，编码层例如包括encoder层，激活层例如包括softmax层。将历史能耗数据和模型能力数据输入嵌入层，输出拼接数据，例如嵌入层将历史能耗数据和模型能力数据进行拼接，得到一个多维向量，将该多维向量作为拼接数据。然后，将拼接数据输入编码层，编码层对拼接数据进行降维和特征提取，输出特征数据。然后，将特征数据输入激活层，输出每个目标模型的权重。

目标模型例如包括N个目标模型，在得到每个目标模型的权重之后，利用每个目标模型基于历史能耗数据预测t时刻的能耗确定值，得到N个能耗确定值(以一个目标模型的能耗确定值为例，该能耗确定值表示为S_t’)。利用N个目标模型在t-1时刻各自对应的权重对N个能耗确定值进行加权平均，得到能耗加权值。

能耗加权值是预测值，基于能耗加权值和能耗参考值，确定与第一子模型相关联的奖赏值。能耗参考值例如是t时刻的真实值，能耗参考值例如为S_t。可以利用上文的奖赏函数基于能耗加权值和能耗参考值计算 sMASE误差，并进行归一化，得到奖赏值。

在得到奖赏值之后，将历史能耗数据、模型能力数据、能耗加权值、权重和奖赏值，确定为训练样本。然后，将训练样本输入第二子模型中，输出用于评价第一子模型的精度的评价值。

例如，可以基于奖赏值对训练样本进行分组。根据与分组相关联的抽取比例，从分组中抽取第一目标训练样本，并将第一目标训练样本输入第二子模型，输出评价值。例如，以分组包括第一分组和第二分组为例，第一分组和第二分组的抽取比例可以相同，从第一分组和第二分组抽取均等数量的第一目标训练样本来训练第二子模型。

以训练样本包括N个训练样本为例，N为大于0的整数，每个训练样本对应一个时刻，在每个时刻均利用第一子模型输出每个目标模型的权重进而计算得到奖赏值。

对于第一分组和第二分组，从N个训练样本中确定第二目标训练样本，并将第二目标训练样本划分至第一分组，第二目标训练样本对应的奖赏值小于预设奖赏值。将N个训练样本划分至第二分组。换言之，第一分组中存储奖赏值低的训练样本，第二分组存储所有的训练样本。奖赏值低的训练样本表示第一子模型的学习效果不佳，因此单独存储奖赏值低的训练样本，并均等地从第一分组和第二分组中进行样本抽取来训练第二子模型，提高了强化学习模型的泛化性能。

在第二子模型输出评价值之后，可以基于评价值确定与第一子模型相关联的第一损失值，以及基于评价值确定与第二子模型相关联的第二损失值。可以理解，第一损失值和第二损失值除了与评价值相关，还可以与奖赏值或其他参数相关，本公开的实施例对第一损失值和第二损失值的具体计算方式不作限定。

在得到第一损失值和第二损失值之后，可以基于第一损失值调整第一子模型的模型参数，以及基于第二损失值调整第二子模型的模型参数，从而训练得到强化学习模型。在调整第一子模型的模型参数时，可以保持第二子模型的模型参数不变，在调整第二子模型的模型参数时，可以保持第一子模型的模型参数不变。

在本公开的另一示例中，多个目标模型的输入特征包括目标特征，目标特征是通过多个目标模型中的任意一个目标模型得到的。换言之，可以通过一个目标模型得到历史耗能数据的目标特征，并将目标特征作为每个目标模型的输入特征，使得多个目标模型的预测精度不受到特征不同的影响，从而降低特征工程的成本。

根据本公开的实施例，当需要使用多个目标模型来预测能耗时，可以将多个目标模型的预测结果进行加权组合得到最终的预测结果。由于每个目标模型对不同时间序列数据的处理能力不同，为了提高预测准确性，可以为每个目标模型配置不同的权重。因此，通过强化学习模型根据历史能耗数据的数据特征和目标模型对历史能耗数据的预测能力，自动学习目标模型的权重，并基于权重对多个目标模型的预测结果进行加权组合得到最终的预测结果，提高了预测准确性。

图3示意性示出了根据本公开一实施例的能耗确定方法的流程图。

如图3所示，本公开实施例的能耗确定方法300例如可以包括操作 S310～操作S330。

在操作S310，将历史能耗数据输入目标模型中，输出能耗确定值。

在操作S320，利用强化学习模型确定与目标模型相关联的权重。

在操作S330，基于权重和能耗确定值，确定能耗加权值。

根据本公开的实施例，将历史能耗数据分别输入多个目标模型中进行预测，得到与多个目标模型一一对应的多个能耗确定值。在强化学***均，得到能耗加权值，能耗加权值为最终的预测结果。

例如，在训练得到强化学习模型之后，可以保留强化学习模型的第一子模型，并利用第一子模型确定与多个目标模型相关联的权重。

根据本公开的实施例，通过强化学习模型学习目标模型的权重，并通过集成学习(多个目标模型组合)的方式来预测能耗，提高了目标模型的能耗预测精度，以适应实际生产中不断变化的能耗数据。另外，本公开实施例的方法在实际生产过程中，无需人工干预即可自适应地更新目标模型和目标模型的权重，降低了成本，适应于各类能源生产、能耗预测场景，具有良好的拓展性及通用型。

图4示意性示出了根据本公开一实施例的能耗确定方法的示意图。

如图4所示，示例性地，能耗管理***将数据采集装置(例如传感器) 采集的历史能耗数据(时间序列数据)上传至规则引擎中，由规则引擎将时间序列数据导入时间序列数据库中存储。

可以通过离线训练或在线训练的方式训练组合模型，组合模型包括强化学习模型和多个目标模型。例如基于时间序列数据库中的数据先训练多个目标模型，再训练强化学习模型。其中，多个目标模型可以通过离线训练的方式进行训练，强化学习模型可以通过离线训练或在线训练的方式进行训练。

针对特定的能耗场景，需要对时间序列数据进行探索性数据分析，得到数据分析结果，探索性数据分析包括对仪表数据、天气数据、人流数据、节假日数据进行分析。换言之，仪表数据、天气数据、人流数据、节假日数据可能影响能耗数据。得到数据分析结果之后，基于数据分析结果对历史能耗数据进行特征工程预处理，特征工程包括异常值检测剔除、缺失值插补，特征离散化、特征选择等等。通过特征工程预处理之后得到训练数据，将训练数据用于训练组合模型。

在训练得到组合模型之后，可以利用组合模型实时进行能耗预测。例如，从时间序列数据库中获取实时数据，对实时数据进行特征提取得到特征数据，利用组合模型对特征数据进行实时预测，得到实时预测结果。得到实时预测结果之后，可以基于实时预测结果监控模型的效果以及进行能耗调度。

可以理解，在进行实际线上能耗预测之前，需要预先对特定场景的数据进行数据探索以及数据处理，并针对目标模型进行特征工程以及模型的训练。在目标模型训练完成之后，可以采用离线训练或在线训练的方式对强化学习模型进行训练。最后在线上预测时，通过强化学习模型输出的权重对多个目标模型的预测结果进行加权组合，提升目标模型的鲁棒性，以适应实时数据分布的变化情况。另外，可以通过定期更新的方式，先对目标模型进行更新，再对强化学习模型进行更新，充分利用线上数据，形成正向循环迭代。

在本公开的另一示例中，多个目标模型之间具有一定的差异性，不同的目标模型可适用于不同的时间序列数据场景。即，不同的目标模型，对不同类型时间序列数据的预测精度不同。

图5示意性示出了根据本公开一实施例的目标模型预测精度的示意图。

如图5所示，时间序列数据例如包括耗电数据，针对时间序列数据完整的场景，不同的目标模型的预测精度不同。例如，目标模型包括Xgboost 模型、线性回归模型、深度学习模型等等。Xgboost模型的预测误差例如为3.0％，线性回归模型的预测误差例如为4.1％，深度学习模型的预测误差例如为6.3％，误差越小，精度越大。

图6示意性示出了根据本公开另一实施例的目标模型预测精度的示意图。

如图6所示，时间序列数据例如包括耗电数据，针对时间序列数据缺失的场景，不同的目标模型的预测精度不同。例如，目标模型包括基于相似日预测模型、Xgboost模型等等，基于相似日预测模型的预测误差例如为3.94％，Xgboost模型的预测误差例如为5.01％，误差越小，精度越大。

图7示意性示出了根据本公开一实施例的数据链路的示意图。

如图7所示，在生产过程中，每个产线通常通过大量的数据采集设备 710(传感器)分时采集数据，如果每个数据采集设备710都向控制*** 740上报数据，那么当控制***740不具备高性能时，大量数据来临时控制***740会出现拒绝服务的问题，这对于监控预警是个巨大的挑战。因此，本公开的实施例可以通过网关设备720管理数据采集设备710的数据，同时负责处理上报数据，网关设备720例如包括工控机、边缘网关等。

网关设备720例如使用高性能的非阻塞通信框架接收数据采集设备 710上报的数据，非阻塞通信框架例如包括netty。数据采集设备710可以通过HTTP方式将数据上传给网关设备720，网关设备720可以采用TCP Socket通信方式对数据采集设备710进行控制，TCPSocket通信方式是一种实时的、小巧的通信方式，能够确保数据采集设备710收到指令以执行指令。

从网关设备720到控制***740的链路中，如果通过HTTP或TCP 方式通信，当链接建立失败时，那么此次数据可能会丢失。因此可以采用中间件消息队列730的方式进行通信以确保消息的可靠性，消息队列730 例如包括RabbitMQ。在上报数据时，网关设备720的角色是发送者，将数据打包成固定的格式，发送到消息队列730中，图中的“pub”表示发送。控制***740作为消费者，从消息队列730中获取数据，写到控制***740的数据库中，图中的“sub”表示获取。相比于数据即时推送，本公开实施例选择缓存批量推送的方式，降低了控制***740的高性能需求。通过批量推送的方式，将一部分的数据压力转移到网关设备720，使得控制***740的实时性及可用性得到了保障。

在下发控制指令时，网关设备720的角色是消费者，从消息队列730 中获取指令，而控制***740是发送者，将指令发送到消息队列730。通过消息队列730对数据资源进行划分，可以规划网关设备720与消息队列 730的映射关系，当发生问题时也能够很快定位。

图8示意性示出了根据本公开一实施例的强化学习模型的训练装置的框图。

如图8所示，本公开实施例的强化学习模型的训练装置800例如包括输入输出模块810、第一确定模块820以及调整模块830。

输入输出模块810可以用于将历史能耗数据和多个目标模型的模型能力数据，输入待训练的强化学习模型的第一子模型，输出与多个目标模型相关联的权重。根据本公开实施例，输入输出模块810例如可以执行上文参考图1描述的操作S110，在此不再赘述。

第一确定模块820可以用于利用待训练的强化学习模型的第二子模型，基于权重确定用于评价第一子模型的评价值。根据本公开实施例，第一确定模块820例如可以执行上文参考图1描述的操作S120，在此不再赘述。

调整模块830可以用于基于评价值，调整第一子模型的模型参数和第二子模型的模型参数，得到经训练的强化学习模型。根据本公开实施例，调整模块830例如可以执行上文参考图1描述的操作S130，在此不再赘述。

根据本公开的实施例，在利用待训练的强化学习模型的第二子模型，基于权重确定用于评价第一子模型的评价值之前，装置800还可以包括：第二确定模块和第三确定模块。第二确定模块，用于基于权重和能耗确定值，确定能耗加权值，其中，能耗确定值是利用多个目标模型基于历史能耗数据得到的；第三确定模块，用于基于能耗加权值和能耗参考值，确定与第一子模型相关联的奖赏值。

根据本公开的实施例，第一确定模块820包括：第一确定子模块和第一输入输出子模块。第一确定子模块，用于将历史能耗数据、模型能力数据、能耗加权值、权重和奖赏值，确定为训练样本；第一输入输出子模块，用于将训练样本输入第二子模型，输出评价值。

根据本公开的实施例，第一输入输出子模块包括：分组单元、抽取单元和输入输出单元。分组单元，用于基于奖赏值，对训练样本进行分组；抽取单元，用于根据与分组相关联的抽取比例，从分组中抽取第一目标训练样本；输入输出单元，用于将第一目标训练样本输入第二子模型，输出评价值。

根据本公开的实施例，训练样本包括M个训练样本，M为大于0的整数；分组单元包括：第一划分子单元和第二划分子单元。第一划分子单元，用于从M个训练样本中确定第二目标训练样本，并将第二目标训练样本划分至第一分组，其中，第二目标训练样本对应的奖赏值小于预设奖赏值；第二划分子单元，用于将M个训练样本划分至第二分组。

根据本公开的实施例，装置800还可以包括：第四确定模块、排序模块和第五确定模块。第四确定模块，用于基于能耗确定值和能耗参考值，确定多个目标模型的数据处理误差；排序模块，用于基于数据处理误差对多个目标模型进行排序，得到排序结果；第五确定模块，用于将排序结果，确定为模型能力数据。

根据本公开的实施例，第一子模型包括嵌入层、编码层、激活层；输入输出模块810包括：第二输入输出子模块、第三输入输出子模块和第四输入输出子模块。第二输入输出子模块，用于将历史能耗数据和模型能力数据，输入嵌入层，输出拼接数据；第三输入输出子模块，用于将拼接数据输入编码层，输出特征数据；第四输入输出子模块，用于将特征数据输入激活层，输出权重。

根据本公开的实施例，调整模块830包括：第二确定子模块、第三确定子模块、第一调整子模块和第二调整子模块。第二确定子模块，用于基于评价值，确定与第一子模型相关联的第一损失值；第三确定子模块，用于基于评价值，确定与第二子模型相关联的第二损失值；第一调整子模块，用于基于第一损失值，调整第一子模型的模型参数；第二调整子模块，用于基于第二损失值，调整第二子模型的模型参数。

根据本公开的实施例，多个目标模型的输入特征包括目标特征，目标特征是通过多个目标模型中的任意一个目标模型得到的。

图9示意性示出了根据本公开一实施例的能耗确定装置的框图。

如图9所示，本公开实施例的能耗确定装置900例如包括输入输出模块910、第一确定模块920以及第二确定模块930。

输入输出模块910可以用于将历史能耗数据输入目标模型中，输出能耗确定值。根据本公开实施例，输入输出模块910例如可以执行上文参考图3描述的操作S310，在此不再赘述。

第一确定模块920可以用于利用强化学习模型确定与目标模型相关联的权重。根据本公开实施例，第一确定模块920例如可以执行上文参考图 3描述的操作S320，在此不再赘述。

第二确定模块930可以用于基于权重和能耗确定值，确定能耗加权值。根据本公开实施例，第二确定模块930例如可以执行上文参考图3描述的操作S330，在此不再赘述。

在本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开实施例，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行上文所描述的强化学习模型的训练方法和能耗确定方法中的至少一个。

根据本公开实施例，提供了一种计算机程序产品，包括计算机程序/ 指令，计算机程序/指令存储于可读存储介质和电子设备其中至少之一上，计算机程序/指令被处理器执行时实现上文所描述的强化学习模型的训练方法和能耗确定方法中的至少一个。

图10示出了可以用来实施本公开实施例的示例电子设备1000的示意性框图。电子设备1000旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如强化学习模型的训练方法和能耗确定方法中的至少一个。例如，在一些实施例中，强化学习模型的训练方法和能耗确定方法中的至少一个可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的强化学习模型的训练方法的一个或多个步骤，以及能耗确定方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行强化学习模型的训练方法和能耗确定方法中的至少一个。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/ 或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程强化学习模型的训练装置和能耗确定装置中的至少一个的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入) 来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种强化学习模型的训练方法，包括：

将历史能耗数据和多个目标模型的模型能力数据，输入待训练的强化学习模型的第一子模型，输出与所述多个目标模型相关联的权重；所述模型能力数据表征目标模型的预测误差；

利用所述待训练的强化学习模型的第二子模型，基于所述权重确定用于评价所述第一子模型的评价值；以及

基于所述评价值，调整所述第一子模型的模型参数和所述第二子模型的模型参数，得到经训练的强化学习模型；

其中，在利用所述待训练的强化学习模型的第二子模型，基于所述权重确定用于评价所述第一子模型的评价值之前，所述方法还包括：

基于所述权重和能耗确定值，确定能耗加权值，其中，所述能耗确定值是利用所述多个目标模型基于所述历史能耗数据得到的；以及

基于所述能耗加权值和能耗参考值，确定与所述第一子模型相关联的奖赏值；

其中，所述利用所述待训练的强化学习模型的第二子模型，基于所述权重确定用于评价所述第一子模型的评价值包括：

将所述历史能耗数据、所述模型能力数据、所述能耗加权值、所述权重和所述奖赏值，确定为训练样本；以及

将所述训练样本输入所述第二子模型，输出所述评价值；

其中，所述将所述训练样本输入所述第二子模型，输出所述评价值包括：

基于所述奖赏值，对所述训练样本进行分组；

根据与所述分组相关联的抽取比例，从所述分组中抽取第一目标训练样本；以及

将所述第一目标训练样本输入所述第二子模型，输出所述评价值；

其中，所述预测误差是根据所述能耗确定值和所述能耗参考值确定的。

2. 根据权利要求1所述的方法，其中，所述训练样本包括M个训练样本，M为大于0的整数；所述基于所述奖赏值，对所述训练样本进行分组包括：

从所述M个训练样本中确定第二目标训练样本，并将所述第二目标训练样本划分至第一分组，其中，所述第二目标训练样本对应的所述奖赏值小于预设奖赏值；以及

将所述M个训练样本划分至第二分组。

3.根据权利要求1-2中任意一项所述的方法，还包括：

基于所述能耗确定值和所述能耗参考值，确定所述多个目标模型的数据处理误差；

基于所述数据处理误差对所述多个目标模型进行排序，得到排序结果；以及

将所述排序结果，确定为所述模型能力数据。

4.根据权利要求1-2中任意一项所述的方法，其中，所述第一子模型包括嵌入层、编码层、激活层；所述将历史能耗数据和多个目标模型的模型能力数据，输入待训练的强化学习模型的第一子模型，输出与所述多个目标模型相关联的权重包括：

将所述历史能耗数据和所述模型能力数据，输入所述嵌入层，输出拼接数据；

将所述拼接数据输入所述编码层，输出特征数据；以及

将所述特征数据输入所述激活层，输出所述权重。

5.根据权利要求1-2中任意一项所述的方法，其中，所述基于所述评价值，调整所述第一子模型的模型参数和所述第二子模型的模型参数，得到经训练的强化学习模型包括：

基于所述评价值，确定与所述第一子模型相关联的第一损失值；

基于所述评价值，确定与所述第二子模型相关联的第二损失值；

基于所述第一损失值，调整所述第一子模型的模型参数；以及

基于所述第二损失值，调整所述第二子模型的模型参数。

6.根据权利要求1-2中任意一项所述的方法，其中，所述多个目标模型的输入特征包括目标特征，所述目标特征是通过所述多个目标模型中的任意一个目标模型得到的。

7.一种能耗确定方法，包括：

将历史能耗数据输入目标模型中，输出能耗确定值；

利用强化学习模型确定与所述目标模型相关联的权重；以及

基于所述权重和能耗确定值，确定能耗加权值，

其中，所述强化学习模型是利用根据权利要求1-6中任意一项所述的方法得到的。

8.根据权利要求7所述的方法，其中，所述利用强化学习模型确定与所述目标模型相关联的权重包括：

利用所述强化学习模型的第一子模型，确定所述权重。

9.一种强化学习模型的训练装置，包括：

输入输出模块，用于将历史能耗数据和多个目标模型的模型能力数据，输入待训练的强化学习模型的第一子模型，输出与所述多个目标模型相关联的权重；所述模型能力数据表征目标模型的预测误差；

第一确定模块，用于利用所述待训练的强化学习模型的第二子模型，基于所述权重确定用于评价所述第一子模型的评价值；以及

调整模块，用于基于所述评价值，调整所述第一子模型的模型参数和所述第二子模型的模型参数，得到经训练的强化学习模型；

其中，在利用所述待训练的强化学习模型的第二子模型，基于所述权重确定用于评价所述第一子模型的评价值之前，所述装置还包括：

第二确定模块，用于基于所述权重和能耗确定值，确定能耗加权值，其中，所述能耗确定值是利用所述多个目标模型基于所述历史能耗数据得到的；以及

第三确定模块，用于基于所述能耗加权值和能耗参考值，确定与所述第一子模型相关联的奖赏值；

其中，所述第一确定模块包括：

第一确定子模块，用于将所述历史能耗数据、所述模型能力数据、所述能耗加权值、所述权重和所述奖赏值，确定为训练样本；以及

第一输入输出子模块，用于将所述训练样本输入所述第二子模型，输出所述评价值；

其中，所述第一输入输出子模块包括：

分组单元，用于基于所述奖赏值，对所述训练样本进行分组；

抽取单元，用于根据与所述分组相关联的抽取比例，从所述分组中抽取第一目标训练样本；以及

输入输出单元，用于将所述第一目标训练样本输入所述第二子模型，输出所述评价值，

10. 根据权利要求9所述的装置，其中，所述训练样本包括M个训练样本，M为大于0的整数；所述分组单元包括：

第一划分子单元，用于从所述M个训练样本中确定第二目标训练样本，并将所述第二目标训练样本划分至第一分组，其中，所述第二目标训练样本对应的所述奖赏值小于预设奖赏值；以及

第二划分子单元，用于将所述M个训练样本划分至第二分组。

11.根据权利要求9-10中任意一项所述的装置，还包括：

第四确定模块，用于基于所述能耗确定值和所述能耗参考值，确定所述多个目标模型的数据处理误差；

排序模块，用于基于所述数据处理误差对所述多个目标模型进行排序，得到排序结果；以及

第五确定模块，用于将所述排序结果，确定为所述模型能力数据。

12.根据权利要求9-10中任意一项所述的装置，其中，所述第一子模型包括嵌入层、编码层、激活层；所述输入输出模块包括：

第二输入输出子模块，用于将所述历史能耗数据和所述模型能力数据，输入所述嵌入层，输出拼接数据；

第三输入输出子模块，用于将所述拼接数据输入所述编码层，输出特征数据；以及

第四输入输出子模块，用于将所述特征数据输入所述激活层，输出所述权重。

13.根据权利要求9-10中任意一项所述的装置，其中，所述调整模块包括：

第二确定子模块，用于基于所述评价值，确定与所述第一子模型相关联的第一损失值；

第三确定子模块，用于基于所述评价值，确定与所述第二子模型相关联的第二损失值；

第一调整子模块，用于基于所述第一损失值，调整所述第一子模型的模型参数；以及

第二调整子模块，用于基于所述第二损失值，调整所述第二子模型的模型参数。

14.根据权利要求9-10中任意一项所述的装置，其中，所述多个目标模型的输入特征包括目标特征，所述目标特征是通过所述多个目标模型中的任意一个目标模型得到的。

15.一种能耗确定装置，包括：

输入输出模块，用于将历史能耗数据输入目标模型中，输出能耗确定值；

第一确定模块，用于利用强化学习模型确定与所述目标模型相关联的权重；以及

第二确定模块，用于基于所述权重和能耗确定值，确定能耗加权值，

其中，所述强化学习模型是利用根据权利要求9-14中任意一项所述的装置得到的。

16.根据权利要求15所述的装置，其中，所述第一确定模块还包括：

利用所述强化学习模型的第一子模型，确定所述权重。

17. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。