CN113705809B

CN113705809B - 一种数据预测模型训练方法、工业指标预测方法和装置

Info

Publication number: CN113705809B
Application number: CN202111041854.0A
Authority: CN
Inventors: 任磊; 刘雨鑫
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2024-03-19
Anticipated expiration: 2041-09-07
Also published as: CN113705809A

Abstract

本发明涉及了一种数据预测模型训练方法、工业指标预测方法、装置以及电子设备，其中，数据预测模型训练方法包括：接收工业互联网中至少一个传感器采集到的第一时间序列数据；对第一时间序列数据进行数据预处理，以得到对应的第二时间序列数据；通过预设局部注意力神经网络提取第二时间序列数据中每个通道时间序列数据的数据特征值，以训练得到数据预测模型，其中，所述数据特征值包括贡献特征值，贡献特征值用于表征任一通道时间序列数据在数据预测模型中的预测贡献权重；输出数据预测模型，用于对工业互联网中的待预测指标进行预测。本发明提高了数据预测模型的表征能力，提高工业互联网的指标预测的准确性。

Description

一种数据预测模型训练方法、工业指标预测方法和装置

技术领域

本发明涉及计算机技术领域，尤其是一种数据预测模型训练方法、工业指标预测方法和装置，以及电子设备。

背景技术

工业互联网(Industrial Internet)，是新一代信息通信技术与工业经济深度融合的新型基础设施、应用模式和工业生态，其通过对人、机、物、***等的全面连接构建起覆盖全产业链、全价值链的全新制造和服务体系，为工业乃至产业数字化、网络化、智能化发展提供了实现途径。

随着人工智能(Artificial Intelligence，AI)技术的发展，工业互联网也逐步走向智能。工业智能的实现同样离不开数据，相关技术中，通过采集工业互联网中的海量多通道时序数据，为实现工业智能中精准预测提供了基础，进而提高工业互联网的产量和收益。

在相关技术中，工业互联网常用的数据驱动的方法包括但不限于卷积神经网络(Convolutional Neural Network，CNN)、循环神经网络(Recurrent Neural Network，RNN)、前两者的变种网络及混合网络等。但是，由于工业互联网中多数为多通道时序数据，且每一个通道的时序数据对最终的预测贡献是不相同的。然而，在相关技术方法中，是将所有通道的时序数据平等对待，这降低了预测模型的表征能力。

发明内容

为了解决上述全部或者部分技术问题，提出了本发明。本发明的实施例提供了一种数据预测模型训练方法、工业指标预测方法、装置以及电子设备。

根据本发明实施例的第一个方面，提供了一种数据预测模型训练方法，包括：

接收工业互联网中至少一个传感器采集到的第一时间序列数据；

对所述第一时间序列数据进行数据预处理，以得到对应的第二时间序列数据，其中，所述第一时间序列数据和所述第二时间序列数据均为多通道时间序列数据；

通过预设局部注意力神经网络提取所述第二时间序列数据中每个通道时间序列数据的数据特征值，以训练得到所述数据预测模型，其中，所述数据特征值包括贡献特征值，所述贡献特征值用于表征任一通道时间序列数据在所述数据预测模型中的预测贡献权重；

输出所述数据预测模型，用于对所述工业互联网中的待预测指标进行预测。

根据本发明实施例的第二个方面，提供了一种工业指标预测方法，包括：

接收工业互联网中至少一个传感器采集到的时间序列数据，所述时间序列数据为多通道数据序列数据；

对所述时间序列数据进行数据预处理；

将所述数据预处理后的时间序列数据输入预先训练好的数据预测模型，以使所述数据预测模型提取所述时间序列数据中每个通道时间序列数据的数据特征值，对所述工业互联网中的待预测指标进行预测，其中，所述数据特征值包括贡献特征值，所述贡献特征值用于表征任一通道时间序列数据在所述数据预测模型中的预测贡献权重。

根据本发明实施例的第三个方面，提供了一种数据预测模型训练装置，包括：

第一数据接收模块，用于接收工业互联网中至少一个传感器采集到的第一时间序列数据；

第一预处理模块，用于对所述第一时间序列数据进行数据预处理，以得到对应的第二时间序列数据，其中，所述所述第一时间序列数据和所述第二时间序列数据均为多通道时间序列数据；

模型训练模块，用于通过预设局部注意力神经网络提取所述第二时间序列数据中每个通道时间序列数据的数据特征值，以训练得到所述数据预测模型，其中，所述数据特征值包括贡献特征值，所述贡献特征值用于表征任一通道时间序列数据在所述数据预测模型中的预测贡献权重；

输出模块，用于输出所述数据预测模型，用于对所述工业互联网中的待预测指标进行预测。

根据本发明实施例的第四个方面，提供了一种工业指标预测装置，包括：

第二接收模块，用于接收工业互联网中至少一个传感器采集到的时间序列数据，所述时间序列数据为多通道数据序列数据；

第二预处理模块，用于对所述时间序列数据进行数据预处理；

预测模块，用于将所述数据预处理后的时间序列数据输入预先训练好的数据预测模型，以使所述数据预测模型提取所述时间序列数据中每个通道时间序列数据的数据特征值，对所述工业互联网中的待预测指标进行预测，其中，所述数据特征值包括贡献特征值，所述贡献特征值用于表征任一通道时间序列数据在所述数据预测模型中的预测贡献权重。

根据本发明实施例的第五个方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述第一个方面所述的数据预测模型训练方法或第二个方面提供的工业指标预测方法。

根据本发明实施例的第六个方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述第一个方面所述的数据预测模型训练方法或者执行第二个方面所述的工业指标预测方法。

基于本发明上述实施例提供的一种数据预测模型训练方法、工业指标预测方法、装置以及电子设备，在接收到工业互联网中传感器采集的时间序列数据后，其中，时间序列数据是多通道时间序列数据，将对多通道时间序列数据进行数据预处理，进而基于预处理后的多通道时间序列数据和预设的局部注意力神经网络，实现对每个通道时间序列数据的特征值提取，以训练得到数据预测模型，并基于该数据预测模型对工业互联网中的待预测指标进行预测，综上，本发明基于局部注意力机制的神经网络提取出的特征值，由于其注意力机制使特征值是带有通道的贡献值的，即“考虑”了不同通道对预测的贡献，从而提高了数据预测模型的表征能力，提高工业互联网的指标预测的准确性。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本发明所适用的示意性***结构图。

图2是本发明一示例性实施例提供的数据预测模型训练方法的流程示意图。

图3是本发明另一示例性实施例提供的工业指标预测方法的流程示意图。

图4是图2至图3发明的示例性实施例提供的数据处理全流程示意图。

图5是本发明一示例性实施例提供的数据预测模型训练装置的结构框图。

图6是本发明一示例性实施例提供的工业指标预测装置的结构框图。

图7是本发明一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

本领域技术人员可以理解，本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本发明实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本发明实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本发明中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本发明中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本发明对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于终端设备、计算机***、服务器等电子设备，其可与众多其它通用或专用计算***环境或配置一起操作。适于与终端设备、计算机***、服务器等电子设备一起使用的众所周知的终端设备、计算***、环境和/或配置的例子包括但不限于：个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***﹑大型计算机***和包括上述任何***的分布式云计算技术环境，等等。

终端设备、计算机***、服务器等电子设备可以在由计算机***执行的计算机***可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算***存储介质上。

申请概述

图1是本发明所适用的示意性***结构图。如图1所示，工业互联网中可以包括至少一个传感器或者传感器装置，用于对工业互联网中的各设备、***、环境等进行数据采集，还可以包括通信网络、用于计算的终端电子设备(例如，计算机、服务器等)和用于数据存储的终端设备(例如，存储服务器、云存储等)。在一些实施例中，传感器或者传感器装置采集的数据可以通过通信网络传输至存储服务器或云存储端进行数据存储，也可以由本地存储装置进行数据存储；另一方面，传感器或者传感器装置采集的数据可以传输至用于计算的终端电子设备，可以作为工业互联网的数据驱动基础，例如可以作为神经网络的数据基础，以基于不同的数据特征、不同的神经网络结构，训练相关神经网络模型(例如，本发明实施例的数据预测模型)；更进一步地，还可以将传感器或者传感器装置采集的数据输入相关功能的神经网络模型(例如，用于指标预测的模型)，以实现相应的功能。

在相关技术中，在相关技术中，工业互联网常用的数据驱动的方法包括但不限于卷积神经网络(Convolutional Neural Network，CNN)、循环神经网络(Recurrent NeuralNetwork，RNN)、前两者的变种网络及混合网络等。在实现本发明的过程中，发明人发现，至少存在以下问题：

(1)由于工业互联网中多数为多通道时序数据，且每一个通道的时序数据对最终的预测贡献是不相同的。然而，在相关技术数据驱动方法中，是将所有通道的时序数据平等对待，这降低了预测模型的表征能力；

(2)工业互联网中的多通道时序数据存中，长距离时序关系挖掘难度大，卷积神经网络(CNN)受限于卷积操作，需要增加网络深度来扩大感受视野，以此来提取潜在的长距离时序关系，而循环神经网络(RNN)由于其循环结构，需要在计算过程中尽可能保留所有必要的信息。综上而言，无论卷积神经网络(CNN)还是循环神经网络(RNN)，一方面，它们都无法直接提取多通道时序数据潜在的长距离时序关系，另一方面，由于网络本身结构，如要实现对多通道时序数据潜在的长距离时序关系的挖掘，都将增加网络的复杂度及数据的计算量。

(3)在实际应用中，与及早预测相比，滞后预测更容易引发风险。然而，目前相关技术中的均方误差损失函数，同等对待及早预测和滞后预测，而对风险较大的滞后预测却没有更严格的惩罚机制，甚至滞后预测引发的风险都没有被考虑。

综上所述，本发明提出了一种数据预测模型训练方法、工业指标预测方法和装置，以及电子设备，以解决前述相关技术中的部分或者全部技术问题。

示例性方法

图2是本发明一示例性实施例提供的数据预测模型训练方法的流程示意图之一。本实施例可应用在电子设备上，如图2所示，本发明实施例的一种数据预测模型训练方法包括如下步骤：

步骤201，接收工业互联网中至少一个传感器采集到的第一时间序列数据。

工业互联网中可以包括至少一个传感器，以对特定设备的数据进行采集，也可以包括多个传感器，与工业互联网中的各个设备、***进行连接安装，以对其宿主设备、***进行数据采集。其中，传感器采集的数据信息例如可以包括数据采集时间-设备运行数据。任一传感器采集的某时间段的数据形成了第一时间序列数据。对于工业互联网中至少一个传感器采集到的时间序列数据，进行数据整合，以形成多通道时间序列数据。在本发明实施例中，第一时间序列数据包括多通道的时间序列数据。

步骤202，对第一时间序列数据进行数据预处理，以得到对应的第二时间序列数据。

对第一时间序列数据进行数据预处理，其中，数据预处理例如对第一时间序列数据进行数据去噪、数据归一化等处理。在本申请实施例中，数据预处理可以包含通道选择、数据归一化、通过时间窗口提取序列及标志位嵌入。

下面将详细介绍第一时间序列数据的数据预处理的实现过程：

步骤2021(图中未示出)：对第一时间序列数据的每个通道时间序列数据进行筛选，以在确定任一通道时间序列数据不符合预设筛选条件时，剔除该通道时间序列数据。

在本步骤中，针对第一时间序列数据的多个通道的时间序列数据，确定每个通道的时间序列数据是否符合预设筛选条件，如果不符合，则删除该通道的时间序列数据。示例性地，在任一通道的时间序列一直保持稳定的情况下，则无法从该通道的时间序列数据中提取出有效的特征，对于这样通道的时间序列数据可以确定为不符合筛选条件的数据。

举例来讲，第一时间序列数据中包括5个通道的时间序列数据：

通道	时间序列数据
		P₁	[X₁，X₂，X₃，X₄…X_n]，其中，X_i＝{(t₁，s₁)，(t₂，s₂)…(t_k，s_k)}
P₂	[X_n+1，X_n+2，X_n+3，X_n+4…X_2n]，其中，X_i＝{(t₁，s₁)，(t₂，s₂)…(t_k，s_k)}
		P₃	[X_2n+1，X_2n+2，X_2n+3，X_2n+4…X_4n]，其中，X_i＝{(t₁，s₁)，(t₂，s₂)…(t_k，s_k)}
P₄	[X_4n+1，X_4n+2，X_4n+3，X_4n+4…X_8n]，其中，X_i＝{(t₁，s₁)，(t₂，s₂)…(t_k，s_k)}
		P₅	[X_8n+1，X_8n+2，X_8n+3，X_8n+4…X_16n]，其中，X_i＝{(t₁，s₁)，(t₂，s₂)…(t_k，s_k)}

假设通道P₄的时间序列数据较为平稳，例如，两个相邻时间序列的数据向量间差值相同或差值在预设差值范围内，则确定通道P₄不符合预设筛选条件，则删除通道P₄的时间序列数据。需要说明的是，在工业互联网中，当采集到的任一通道的时间序列数据变化较为平稳，或可认定为该设备或***运行良好，如果用这类数据预测设备或***的故障指标，由于故障特征不明显，而可能影响故障预测结果的准确度。

步骤2022(图中未示出)：针对第一时间序列数据中符合预设筛选条件的每一个通道时间序列数据进行归一化处理。

不同通道的数据拥有不同量纲，这会加大数据预测模型的训练难度，因此对第一时间序列数据进行归一化处理，可以实现所有通道的时间序列数据的量纲统一化，而降低数据预测模型的训练难度。

在一些实施例中，本发明实施例中，可以采用如下方法对每一个通道的时间序列数据进行归一化处理，以使每个通道的时间序列数据可以处于同一数量级：首先，针对第一时间序列数据中符合预设筛选条件的任一个通道时间序列数据，确定出该通道时间序列数据中的最大值和最小值；然后，基于该通道时间序列数据中的最大值和最小值，对该通道的所有时间序列数据进行线性变换，以使该通道时间序列数据的变换值大于等于零且小于等于1。示例性地，可以通过如下转换函数实现：

其中，max为该通道时间序列数据的最大值，min为该通道时间序列数据的最小值，X^*为该通道时间序列数据的变换值。

在另一些实施例中，还可以采用如下方法对每一个通道的时间序列数据进行归一化处理：首先，确定任一个通道时间序列数据的均值和标准差(standard deviation)，基于所述均值和标准差对该通道的时间序列数据进行数据的标准化，以使经过处理的时间序列数据符合标准正态分布，即均值为0，标准差为1。

步骤2023(图中未示出)：对所述归一化处理后的任一通道时间序列数据进行窗口数据提取，以得到时间窗口数据，其中，所述时间窗口数据包括任一时刻及该时刻之前的相邻至少一个时刻的数据。

本步骤对归一化处理后的通道时间序列数据进行窗口数据提取，首先，可以确定预设时间窗口，示例性地，该预设时间窗口大小固定(例如，时间窗口大小为m秒)，然后，在任一通道时间序列数据中，以任一时刻为起点滑动预设时间窗口，以提取出该通道时间序列数据的时间窗口数据。例如，令预设时间窗口大小为S_w，在任意时刻滑动与预设时间窗口提取的时间序列为T＝[T₀,T₁,…,T_n-2]^T，其中n＝S_w+1，/> 代表在时间窗口内时间序列在第j通道、第i时间步长上的数值。通过本步骤，使用预设时间窗口对当前t时刻及先前相邻的多个时刻的数据进行提取，以保证在得到的当前预测不借助未来信息。

步骤2024(图中未示出)：在该通道的时间窗口数据的末位添加预设标志位，以得到第二时间序列数据。

将标志位T_n-1＝[c,c,…,c]，***至由时间窗口提取的时间序列尾部，c∈[0,1]。在该节中，c值取1。在每一时刻由时间窗口提取的时间序列T会更新为

步骤203，通过预设局部注意力神经网络提取第二时间序列数据中每个通道时间序列数据的数据特征值，以训练得到数据预测模型。

本发明实施例中，预设局部注意力神经网络可以包括通道注意力、时间序列嵌入、多层局部注意力编码器及最终映射层。基于前述神经网络结构，本步骤可以通过如下步骤实现：

步骤2031，基于预设局部注意力神经网络的注意力机制，确定第二时间序列数据中每个通道时间序列数据的贡献特征值。

该步骤可以基于预设局部注意力神经网络的通道注意力的注意力机制，来衡量不同通道的时间序列数据的贡献(即贡献特征值)，其中，贡献特征值用于表征任一通道时间序列数据在数据预测模型中的预测贡献权重，以基于预测贡献权重放缩该通道的时间序列数据。

示例性地，可以利用非线性映射G_c来获得每个通道归一化注意力权重(或预测贡献权重)C_a：

C_a＝G_c(T)＝Softmax[W_DReLU[W_U(W_PT)]],

ReLU(x)＝max(0,x),

其中，是将时间序列T从向量空间/>映射至/>的可学习矩阵权重，是比例为2的通道上采样的可学习矩阵权重，/>是比例为2的通道下采样的可学习矩阵权重，进一步地，利用归一化注意力权重C_a＝[s₁,s₂,…,s_k]来放缩时间序列T的元素：

加权后的第j通道的时间序列T_i会更新为

步骤2032，针对确定贡献特征值的第二时间序列数据，添加每个序列数据的序列位置信息，以得到第三时间序列数据，第三时间序列数据包括查询序列向量、键序列向量和值序列向量。

在步骤2031确定每个通道的贡献特征值后，再对第二时间序列数据中的每个序列数据添加序列位置信息。在一些实施例中，可以对利用归一化注意力权重放缩后的时间序列数据从维度k映射至高维度d_model，即形成高维度线性映射的时间序列数据，由于本发明实施例的预设局部注意力神经网络的局部注意力编码器不会以卷积或循环结构为主，将序列位置信息添加至时间序列数据中，即得到第三时间序列数据，该时间序列数据可以充分利用时间序列数据的顺序价值。在本发明实施例中，可以利用不同频率的正余弦函数来添加序列位置信息：

其中，pos代表序列位置信息，i代表维度。

需要说明的是，序列位置信息与进行高维度线性映射的时间序列数据具有相同的维度d_model，因此，序列位置信息能够直接相加至上述高维度线性映射的时间序列数据。

步骤2033，将第三时间序列数据的查询序列向量、键序列向量和值序列向量输入所述预设局部注意力神经网络，以利用预设局部注意力神经网络注意力机制得到注意力特征值。

其中，注意力特征值用于表征查询向量中的任一元素与键序列向量对应的局部视野之间的关系。在本发明实施例中，可以利用预设局部注意力神经网络的多层局部注意力编码器实现，示例性地，将第三时间序列数据的查询序列向量、键序列向量和值序列向量作为预设局部注意力神经网络的多层局部注意力编码器的输入数据，使预设局部注意力神经网络的多层局部注意力编码器通过一系列的计算得到相应的输出Y＝[Y₀,Y₁,…,Y_n-1]^T，其中，Y与第三时间序列数据的维度都是(n,dmodel)。

在详细说明多层局部注意力编码器如何计算得到Y之前，先简单说明下本发明实施例中的多层局部注意力编码器。多层局部注意力编码器包括多个局部注意力编码器，其中每一层局部注意力编码器可以包括包含两大子层：多头局部注意力机制和多层感知机(MLP)。

在说明多头局部注意力机制前，为了能够准确地理解，先对单头局部注意力进行简单描述。在多头局部注意力机制中，单头局部注意力公式如下：

首先，将查询序列向量Q、键序列向量K和值序列向量V设定为同一输入序列向量，其中，然后，利用一维卷积Conv1d对键序列向量K和值序列向量V进行处理。在一维卷积中，令卷积核大小ck与卷积步长cs数值相等，卷积核的数量nc设定为d_model。卷积填充(padding)的数量由下式确定：

经过一维卷积Conv1d处理后得到的键序列向量Conv1d(K)和值序列向量Con1d(V)包含其局部视野信息。当卷积填充的数量为0时，键序列向量与值序列向量的长度n将会减少至n/c_s；当卷积填充的数量不为0时，键序列向量与值序列向量的长度n将会减少至

进一步地，计算键序列向量各个局部视野相对于查询序列向量Q中任意一个元素的得分，获得查询序列向量任意一个元素与键序列向量各个局部视野之间的关系，并且结果除以缩放因子来使在网络训练中获得稳定的梯度。

更进一步地，利用softmax函数来归一化得分，并获得值序列向量对应的注意力矩阵，然后将得到的最终的注意力矩阵与值序列向量相乘，得到注意力计算结果(即注意力特征值)。为了使局部注意力网络能够从输入序列中以不同角度学习更多的信息，用不同的映射矩阵W^Q与一维卷积Conv1d^K,Conv1d^V将原始的查询序列向量Q、键序列向量K和值序列向量V映射h次，并将这h次的计算结果拼接，以通过矩阵映射至最终输出，如下所示：

MultiHeadAttention(Q,K,V)＝Concat(head₁,head₂,…,head_h)W^O,

其中和/>是可学习的线性矩阵，h是注意力机制头的数量，d_h是线性映射的隐藏维度。

在多头局部注意力机制中，一维卷积的卷积核的数量n_c设定为d_h，放缩因子和隐藏维度d_h都设为d_model/h，以使总计算量与单头局部注意力机制的计算量相似。

在多头局部自注意力机制后，每一个编码器还包括一个多层感知机(MLP)，公式如下：

MLP_e(X)＝ReLU(XW₁)W₂.

其中，和/>是线性变换矩阵。除此之外，在每层编码器中应用层归一化和跳跃连接来优化网络性能，公式如下：

Y＝Φ(Layer Norm(X))+X.

其中X和Y分别代表该子层的输入与输出，Φ(·)代表子层的功能函数。

步骤2034，从注意力特征值确定出标志位值，以将标志位值作为预设局部注意力神经网络的映射层的输入，并输出标志位值对应的预测值，得到数据预测模型。

本发明实施例的该步骤由预设局部注意力神经网络的最终映射层实现，示例性地：在最终映射层，利用最终的多层感知机(Final MLP)将最后一层的注意力编码器在标志位的输出Y_n-1进行计算，得到最终预测如下所示：

其中和/>是线性映射矩阵。

步骤204，输出数据预测模型，用于对工业互联网中的待预测指标进行预测。

通过前述步骤得到数据预测模型后，输出数据预测模型。其中，数据预测模型可以为应用程序是一种API接口，供给应用程序调用，以用于对工业互联网中的待预测指标进行预测。在另一些实施例中，数据预测模型还可以经过处理后，直接嵌入应用程序的结构中，作为应用程序自身的数据测试功能，从而对工业互联网的中的待测试指标进行预测。

通过本发明实施例提供的数据预测模型训练方法，在接收到工业互联网中传感器采集的时间序列数据后，其中，时间序列数据是多通道时间序列数据，将对多通道时间序列数据进行数据预处理，进而基于预处理后的多通道时间序列数据和预设的局部注意力神经网络，实现对每个通道时间序列数据的特征值提取，以训练得到数据预测模型，并基于该数据预测模型对工业互联网中的待预测指标进行预测，综上，本发明基于局部注意力机制的神经网络提取出的特征值，由于其注意力机制使特征值是带有通道的贡献值的，即“考虑”了不同通道对预测的贡献，从而提高了数据预测模型的表征能力，提高工业互联网的指标预测的准确性。

而在模型训练中，将时间序列数据中任意位置数列向量与各个局部视野直接相连，可以直接提取其相互间潜在的时序关系。

对时间序列数据进行数据预处理过程中，通道筛选过程，可以剔除多通道中时间序列数据较为平稳的或者特征不明显的通道，一方面减少后期数据计算的资源耗费率，另一方面，使用变动较大，不够平稳或特征明显的通道时间序列数据，可以最大限度地还原工业互联网的运行场景，使得训练得到的数据预测模型具备“真正”的预测功能，对工业互联网设备中可能出现的各种情况进行预测，提高了数据预测模型在工业互联网的应用范围，同时提高了数据预测模型的预测的准确度；通道时间序列数据的归一化处理过程，统一了多通道时间序列数据的量纲，可以降低数据预测模型的训练难度；在时间窗口数据提取的过程中，使用预设时间窗口对当前t时刻及先前相邻的多个时刻的数据进行提取，以保证在得到的当前预测不借助未来信息，有助于提取时间序列数据中的长距离时序关系，提高数据预测模型的预测准确性，降低对未来信息的依赖，提高数据预测模型的计算难度；此外，在每一个通道的时间序列数据完成时间窗口数据提取后，对提取得到的时间序列数据尾部***了相同数值的不含特定语义信息的标志位，该标志位对应的最终输出能够用作时间序列数据的全局表示，为注意力机制下训练数据预测模型提高全局视野的数据基础。

最后，由于本发明实施例的预设局部注意力神经网络的局部注意力编码器不会以卷积或循环结构为主，将序列位置信息添加至时间序列数据中，可以充分利用数据序列数据的顺序价值，使得训练的的数据预测模型的预测准确度更高。

在本发明另一些实施例中，为了提高数据预测模型的性能，例如，使数据预测模型在任意时刻得到的预测值都与真实值相等，因此，本发明实施例的数据预测模型训练方法还可以包括优化过程，如下述步骤：步骤A、通过数据预测模型确定任一时刻的指标预测值；步骤B、确定指标预测值与指标真实值的加权均方误差损失函数；步骤C、基于加权均方误差损失函数优化预设局部注意力神经网络的网络参数，以输出优化后的数据预测模型。为了使该实施例更清楚，下面通过算法原理等进行详细介绍：

预测从预测结果来划分可以分为及早预测和滞后预测，其中，及早预测为当预测值和真实值之间存在误差时，及早预测是指预测值小于真实值，类似于未来某一时刻的预测值，而滞后预测是指预测值大于真实值，类似于过去某一时刻的预测值。在实际应用中，相比于及早预测，滞后预测更容易引发危险。因此，对于拥有相同绝对值预测误差的及早预测和滞后预测，滞后预测应该受到更多的惩罚，即实际应用中更期望使及早预测，从而对出现滞后预测的网络或者模型，需要对该网络或模型进行更大程度的优化。

在本发明实施例中，提供一种带有上下限的加权函数f(·)被添加到均方误差损失函数中，即得到步骤B中的加权均方误差损失函数，从而使得均方误差函数损失结果较大的(即出现滞后预测)情况，其优化权重更大，实现滞后预测较及早预测受到更大的惩罚。带有L2正则化项的加权均方误差损失函数的公式如下：

其中y_j和分别代表第j个时间序列数据的真实值和预测值，λ代表正则化系数，W_model代表预测网络参数。当预测值过大或过小时，加权参数/>的值将会是1.5，当预测值与真实值相等时，加权参数值将会是1。预测值越接近真实值，加权参数的数值约接近1。在非零预测误差绝对值相同的情况下，滞后预测的加权参数数值大于及早预测的加权参数数值，即：

1<f(-x)<f(x)<1.5,0<x<∞.

综上，前述实施例所提供的数据预测模型训练方法，能够对工业互联网多通道时序数据的各通道贡献进行衡量，并对多通道时许数据进行放缩、通过局部注意力机制能够将时序数据中任意位置与各局部视野相连，从而直接提取其间的潜在时序关系，提高数据预测模型的预测能力，并且通过加权均方误差损失函数能够减少数据预测模型的滞后预测，降低由可能由滞后预测带来的风险。

图3是本发明另一示例性实施例提供的工业指标预测方法的流程示意图。如图3所示，本发明的工业指标预测方法，可以包括如下步骤：

步骤301，接收工业互联网中至少一个传感器采集到的时间序列数据，时间序列数据为多通道数据序列数据。

步骤302，对时间序列数据进行数据预处理。

步骤303，将数据预处理后的时间序列数据输入预先训练好的数据预测模型，以使数据预测模型提取所述时间序列数据中每个通道时间序列数据的数据特征值，对工业互联网中的待预测指标进行预测，其中，数据特征值包括贡献特征值，贡献特征值用于表征任一通道时间序列数据在所述数据预测模型中的预测贡献权重。

为了简洁，本实施例的相关方案如时间序列数据的获取、时间序列数据的数据预处理过程，数据特征值的提取等可以参考如图2所示的实施例，在此不再赘述。本实施例为数据预测模型的在工业互联网中的应用过程，例如，可以将数据预测模型嵌入到工业互联网中任一设备或***的预测***或电子设备中，以作为预测***或电子设备的一项功能；再例如，可以为预测***或电子设备提高API接口，从而使预测***或电子设备在预测时候直接调用该接口，实现预测功能。

下面为了本领域技术人员能够更准确地理解本发明实施例的相关技术方案，下面结合图4，对前述实施例进行数据处理全流程的描述。如图4所示：在图中所示的A模块，工业互联网中的任一工业设备可以设置一个或多个传感器(或者智能传感器)，以实现对该工业设备的数据采集，采集的数据经过整合处理后形成多通道时间序列数据(简称多通道时序数据)；图中所示的B模块，为多通道时序数据的预处理过程(详细内容参见前述数据预处理部分的相关描述，在此不再赘述)：通道筛选—归一化处理—滑动时间窗口提取时间窗口数据—标志位处理；图中所示的C模块，将B模块中得到的时间序列数据输入预设局部注意力神经网络(即图中基于局部注意力机制的预测网络)，以进行模型训练和优化，得到最终的数据预测模型，用于工业互联网的指标预测。

本发明实施例提供的任一种方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本发明实施例提供的任一种方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本发明实施例提及的任一种方法。下文不再赘述。

示例性装置

与前述方法实施例对应地，本发明还提供了相关装置，其中，装置与对应的方法的实现原理、技术效果均相同。下面结合附图对本发明实施例中的装置进行描述。

图5是本发明一示例性实施例提供的数据预测模型训练装置的结构框图。如图5所示，数据预测模型训练装置可以包括：

第一数据接收模块51，用于接收工业互联网中至少一个传感器采集到的第一时间序列数据；

第一预处理模块52，用于对所述第一时间序列数据进行数据预处理，以得到对应的第二时间序列数据，其中，所述所述第一时间序列数据和所述第二时间序列数据均为多通道时间序列数据；

模型训练模块53，用于通过预设局部注意力神经网络提取所述第二时间序列数据中每个通道时间序列数据的数据特征值，以训练得到所述数据预测模型，其中，所述数据特征值包括贡献特征值，所述贡献特征值用于表征任一通道时间序列数据在所述数据预测模型中的预测贡献权重；

输出模块54，用于输出所述数据预测模型，用于对所述工业互联网中的待预测指标进行预测。

图6是本发明一示例性实施例提供的工业指标预测装置的结构框图。如图6所示，工业指标预测装置可以包括：

第二接收模块61，用于接收工业互联网中至少一个传感器采集到的时间序列数据，所述时间序列数据为多通道数据序列数据；

第二预处理模块62，用于对所述时间序列数据进行数据预处理；

预测模块63，用于将数据预处理后的时间序列数据输入预先训练好的数据预测模型，以使所述数据预测模型提取所述时间序列数据中每个通道时间序列数据的数据特征值，对所述工业互联网中的待预测指标进行预测，其中，所述数据特征值包括贡献特征值，所述贡献特征值用于表征任一通道时间序列数据在所述数据预测模型中的预测贡献权重。

示例性电子设备

下面，参考图7来描述根据本发明实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图7图示了根据本发明实施例的电子设备的框图。

如图7所示，电子设备包括一个或多个处理器101和存储器102。

处理器101可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。

存储器102可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器101可以运行所述程序指令，以实现上文所述的本发明的各个实施例的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备还可以包括：输入装置103和输出装置104，这些组件通过总线***和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是第一设备或第二设备时，该输入装置103可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置103可以是通信网络连接器，用于从第一设备和第二设备接收所采集的输入信号。

此外，该输入设备103还可以包括例如键盘、鼠标等等。

该输出装置104可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备104可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图7中仅示出了该电子设备中与本发明有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本发明的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本发明的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，在本发明中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外，上述发明的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本发明为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于***实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本发明的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

还需要指出的是，在本发明的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。

提供所发明的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此，本发明不意图被限制到在此示出的方面，而是按照与在此发明的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本发明的实施例限制到在此发明的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种数据预测模型训练方法，包括：

输出所述数据预测模型，用于对所述工业互联网中的待预测指标进行预测，其中，所述通过预设局部注意力神经网络提取所述第二时间序列数据中每个通道时间序列数据的数据特征值，以训练得到所述数据预测模型，包括：

基于所述预设局部注意力神经网络的注意力机制，确定所述第二时间序列数据中每个通道时间序列数据的贡献特征值；

针对确定贡献特征值的第二时间序列数据，添加每个序列数据的序列位置信息，以得到第三时间序列数据，所述第三时间序列数据包括查询序列向量、键序列向量和值序列向量；

将第三时间序列数据的查询序列向量、键序列向量和值序列向量输入所述预设局部注意力神经网络，以利用所述预设局部注意力神经网络注意力机制得到注意力特征值，其中，所述注意力特征值用于表征所述查询序列向量中的任一元素与所述键序列向量对应的局部视野之间的关系；

从所述注意力特征值确定出标志位值，以将所述标志位值作为所述预设局部注意力神经网络的映射层的输入，并输出所述标志位值对应的预测值，得到所述数据预测模型。

2.根据权利要求1所述的方法，其中，所述方法还包括：

通过所述数据预测模型确定任一时刻的指标预测值；

确定所述指标预测值与指标真实值的加权均方误差损失函数；

基于所述加权均方误差损失函数优化所述预设局部注意力神经网络的网络参数，以输出优化后的数据预测模型。

3.根据权利要求1所述的方法，其中，所述对所述第一时间序列数据进行数据预处理，以得到对应的第二时间序列数据，包括：

对所述第一时间序列数据的每个通道时间序列数据进行筛选，以在确定任一通道时间序列数据不符合预设筛选条件时，剔除该通道时间序列数据；

针对所述第一时间序列数据中符合预设筛选条件的每一个通道时间序列数据进行归一化处理；

对所述归一化处理后的任一通道时间序列数据进行窗口数据提取，以得到时间窗口数据，其中，所述时间窗口数据包括任一时刻及该时刻之前的相邻至少一个时刻的数据；

在该通道的所述时间窗口数据的末位添加预设标志位，以得到所述第二时间序列数据。

4.根据权利要求3所述的方法，其中，所述针对所述第一时间序列数据中符合预设筛选条件的每一个通道时间序列数据进行归一化处理，包括：

针对所述第一时间序列数据中符合预设筛选条件的任一个通道时间序列数据，确定出该通道时间序列数据中的最大值和最小值；

基于该通道时间序列数据中的最大值和最小值，对该通道的所有时间序列数据进行线性变换，以使该通道时间序列数据的变换值大于等于零且小于等于 1。

5.根据权利要求4所述的方法，其中，所述对所述归一化处理后的任一通道时间序列数据进行窗口数据提取，以得到时间窗口数据，包括：

确定预设时间窗口，所述预设时间窗口大小固定；

在任一通道时间序列数据中，以任一时刻为起点滑动所述预设时间窗口，以提取出该通道时间序列数据的时间窗口数据。

6.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-5任一所述的数据预测模型训练方法。