CN115034504B

CN115034504B - 基于云边协同训练的刀具磨损状态预测***及方法

Info

Publication number: CN115034504B
Application number: CN202210754025.5A
Authority: CN
Inventors: 李孝斌; 王明星; 江沛; 尹超
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2024-05-28
Anticipated expiration: 2042-06-28
Also published as: CN115034504A

Abstract

本发明具体涉及基于云边协同训练的刀具磨损状态预测***及方法。所述***包括：设备层，用于获取待测刀具的传感器数据；边缘平台，部署有经过训练的特征提取模型和轻量化预测模型；特征提取模型用于提取传感器数据中的数据特征作为待测特征信息，轻量化预测模型用于将待测特征信息作为输入并输出对应的刀具磨损状态预测结果；云平台，部署有基于注意力机制的大规模预测模型；所述大规模预测模型学***台的轻量化预测模型中，以实现云边模型的协同训练。本发明还公开了刀具磨损状态预测方法。本发明能够在边缘侧部署预测模型来实现刀具磨损状态的预测，并通过云边协同训练的方式提高刀具磨损状态预测的精度。

Description

基于云边协同训练的刀具磨损状态预测***及方法

技术领域

本发明涉及刀具磨损状态预测技术领域，具体涉及基于云边协同训练的刀具磨损状态预测***及方法。

背景技术

机床刀具的磨损状态是影响制造车间产品加工质量稳定性和可靠性的重要因素。当刀具磨损量增加到一定限度时，切削参数失稳，产品不合格率上升，继续加工将造成时间和材料的浪费，严重时会导致整个生产过程无法正常运行。因此，在机械加工过程中实现对机床刀具磨损状态的实时、准确监控与预测显得尤为重要。

现有的刀具磨损状态检测方法分为直接测量法和间接测量法。直接测量法可通过传感器直接识别刀具的外观、表面品质和磨损状态，但其要求停机时才能够检测。由于实际生产加工过程刀具周围环境复杂，无法直接实时检测刀具的磨损状态，通常采用间接测量法，实时采集刀具加工过程中的振动信号、切削力、切削温度、切削功率等多传感器数据，经过数据清洗、数据融合、特征工程，将特征数据输入到机器学习模型当中，输出预测结果，完成刀具磨损状态的监测。

申请人发现，大数据驱动下的深度学习方法往往需要大量的计算资源。然而，现有的中心智能运行模式一般将预测模型部署到云端，这使得无论是模型训练还是实际预测均受到网络流畅度的影响，导致刀具磨损状态预测的稳定性偏低。同时，大量训练数据或传感器数据上传到云端会造成严重的带宽消耗，进而无法满足实际生产加工环境中刀具磨损状态监测的实时响应需求，导致刀具磨损状态预测的实时性差。因此，如何设计一种能够提高刀具磨损状态预测稳定性和实时性的方法是亟需解决的技术问题。

发明内容

针对上述现有技术的不足，本发明所要解决的技术问题是：如何提供一种基于云边协同训练的刀具磨损状态预测方法，以能够在边缘侧部署预测模型来实现刀具磨损状态的预测，从而能够提高刀具磨损状态预测的稳定性和实时性，并通过云边协同训练的方式提高刀具磨损状态预测的精度。

为了解决上述技术问题，本发明采用了如下的技术方案：

基于云边协同训练的刀具磨损状态预测***，包括：

设备层，用于获取待测刀具的传感器数据；

边缘平台，部署有经过训练的特征提取模型和轻量化预测模型；特征提取模型用于提取传感器数据中的数据特征作为待测特征信息，轻量化预测模型用于将待测特征信息作为输入并输出对应的刀具磨损状态预测结果；

云平台，部署有基于注意力机制的大规模预测模型；所述大规模预测模型学***台的轻量化预测模型中，以实现云边模型的协同训练。

优选的，边缘平台还部署有数据预处理模块；数据预处理模块用于对传感器数据进行数据清洗和Z-score归一化处理。

本发明还公开了基于云边协同训练的刀具磨损状态预测方法，基于本发明的刀具磨损状态预测***实施，具体包括以下步骤：

S1：通过设备层获取待测刀具的传感器数据，并上传至边缘平台；

S2：边缘平台接收传感器数据并输入经过训练的特征提取模型中，提取出数据特征作为待测特征信息；然后将待测特征信息输入经过云边协同训练的轻量化预测模型中，输出对应的刀具磨损状态预测结果；

S3：边缘平台基于刀具磨损状态预测结果生成反馈控制信息，并下发至设备层；

S4：设备层基于反馈控制信息控制待测刀具的机床执行对应动作。

优选的，步骤S2中，通过如下步骤实现云边协同训练：

S201：获取具有若干组训练数据及其标签数据的训练数据集；

S202：将训练数据输入特征提取模型中，提取出数据特征作为训练特征信息；

S203：将训练特征信息及对应的标签数据输入轻量化预测模型中，更新特征提取模型和轻量化预测模型的参数；

S204：将训练特征信息及对应的标签数据上传至云平台并输入至大规模预测模型中，更新大规模预测模型的参数，进而蒸馏输出该轮训练的注意力特征；

S205：基于云端迁移的注意力特征和历史数据对特征提取模型和轻量化预测模型进行训练和参数更新；

S206：重复步骤S202至S205，直至轻量化预测模型达到预期。

优选的，步骤S202中，特征提取模型包括两部分卷积操作，第一部分卷积操作包括将1×1卷积核和3×1卷积核的卷积结果相加并进行批量正则化；第二部分卷积操作包括将不同尺寸核的基本卷积结果进行通道拼接，基本卷积包含卷积、批量正则化和ReLU激活函数；

特征提取模型将传感器数据作为第一部分卷积操作的输入；对经过第一部分卷积操作批量正则化后输出的结果进行池化处理，并作为第二部分卷积操作的输入；最后对第二部分卷积操作和通道拼接后的结果进行池化处理，输出对应的特征张量即数据特征；

其中，基本卷积表示为：

BasicConv(X)＝relu(bn(conv(X,k,1)))＝relu(bn(W_k*X+b_k))；

式中：X表示输入数据；W_k表示大小为k₁×k₂的卷积核；*表示卷积操作；b_k表示偏置；relu表示ReLU激活函数；在卷积与ReLU激活函数之间添加批量正则化操作bn；

ReLU激活函数relu表示为：

式中：x表示输入数据；

通过学习小批量数据中的均值μ_β和方差以实现批量正则化；

式中：x_i表示输入数据样本；m表示当前批次数据大小；

式中：ε表示大于零的较小值；γ和β分别表示可训练的比例参数和偏差参数；表示规范化后的数据；y_i是自学习尺寸变换和偏移后的输出；

池化操作的基本池化层表示为：

BasicPool(x)＝concat(pool(x,k₁,s),conv(x,k₂,s))；

式中：pool表示池化操作；conv表示卷积操作；k₁和k₂分别表示池化核和卷积核的尺寸；s表示步长；concat表示将特征向量进行通道维度拼接；

特征张量F_f的形状为w_f×1×c_f；

式中：w_f表示时域尺寸；c_f表示通道域尺寸。

优选的，步骤S204中，大规模预测模型包括由三个注意力密集模块依次连接构成的密集连接结构、两层池化层和全连接层；

其中，每个注意力密集模块包含若干个相应的密集层和一个注意力层，各个层之间进行密集连接；每一个密集层包含若干不同尺寸卷积核的基本卷积，对张量进行通道拼接后输入线性卷积，并与输入张量构成残差连接后进行ReLU激活得到该密集层的输出；注意力模块从时间和通道两个维度出发，为目标数据的特征进行权重学习；

其中，密集层的结构表示为：

IncepResLayer_B(X_i)＝relu(X_i+linerConv(X_m,5×1))；

X_m＝concat(BasicConv(X_i,1×1),BasicConv(BasicConv(X_i,1×1),5×1))；

式中：IncepResLayer_B表示第B种类型的密集层；X_i表示密集层的输入；relu表示ReLU激活函数；linerConv(x)函数表示无激活的线性卷积层；concat表示将特征向量进行通道维度拼接；BasicConv(x)表示基本卷积；

池化层包含相同步长、多尺寸卷积核的最大池化层和基本卷积层；

池化层的结构表示为：

Pool(X_i)＝concat(X_m1,X_m2,X_m3)；

X_m1＝Maxpool(X_i,k₁×1)；

X_m2＝BasicConv(X_i,k₁×1)；

X_m3＝BasicConv(BasicConv(X_i,1×1),k₁×1)；

式中：Pool表示池化层；concat表示将特征向量进行通道维度拼接；Maxpool(x)表示最大池化操作，核尺寸为k₁×1；X_i表示池化层的输入；BasicConv(x)表示基本卷积；所有卷积操作和池化操作的步长均为strides＝4；

注意力模块的工作逻辑如下：

1)对给定的输入序列X＝x₁,x₂,...,x_T和滤波器F＝f₁,f₂,...f_K进行如下的时域卷积，得到相关序列A＝a₁,a₂,...,a_T；

通过Softmax函数获取最终的时域权重序列Y＝y₁,y₂,...,y_T；

2)对于输入特征F_i ^w×1×c，经过单通道1×1卷积得到一维序列并通过时域卷积和Softmax函数得到时域权重/>

式中：Softmax表示Softmax函数；TemporalConv表示时域卷积；Conv表示卷积；1×1和3×1分别表示卷积与时域卷积的卷积核形状；

3)时域权重转置后与输入特征F_i ^w×1×c进行矩阵相乘，得到一维序列/>并按照c/r的比率将一维序列/>的通道数进行缩小，同时进行层归一化与ReLU激活，再按照原始倍率进行原通道数的放回，得到通道域权重/>

式中：Conv表示卷积；ReLU表示ReLU激活函数；LayerNorm表示层归一化；表示时域权重；上标T表示转置操作；c/r表示通道域降维比率；

4)将时域与通道域的特征分别与对应的时域权重和通道域权重/>相乘，得到注意力映射张量/>并与输入特征F_i ^w×1×c构成残差连接得到注意力特征输出/>即注意力特征。

优选的，步骤S203中，轻量化预测模型在大规模预测模型的架构基础上取消了密集连接结构并通过空洞卷积来替代普通卷积，以实现轻量化设计。

优选的，步骤S205中，基于历史数据的标签数据和注意力特征分别计算MSE损失和注意力蒸馏损失以得到对应的训练损失，进而通过该训练损失对轻量化预测模型进行参数更新；

其中，Loss_all＝Loss_mse+λLoss_att＝Loss_mse+λ∑_i＝a,b,cD_C(f_t ^c_i,f_t ^e_i)；

λ＝(1-α^ep)λ₀；

式中：Loss_all表示训练损失；Loss_mse表示MSE损失；Loss_att表示注意力蒸馏损失；N为批量大小；为预测值；y_i为标签数据；D_C(f₁,f₂)表示余弦距离；<f₁,f₂>表示两向量内积；f_t ^c_i和f_t ^e_i分别为大规模预测模型和轻量化预测模型中注意力特征的时间特征序列；/>和/>分别表示时间特征序列f_t ^c_i和f_t ^e_i中的元素值；w为张量时间域数量；λ表示动态蒸馏损失系数；α表示一个小于1的数；λ₀表示初始蒸馏损失系数；ep表示训练轮数；

通过如下公式计算时间特征序列：

式中：f_t表示时间特征序列；F_o ^w×1×c为注意力特征；为注意力特征/>每个通道域的特征向量；c表示通道个数；通过该式计算得到大规模预测模型和轻量化预测模型中注意力特征的时间特征序列f_t ^c_i和f_t ^e_i。

优选的，步骤S2中，将待测特征信息上传至云平台并输入至大规模预测模型中进行模型精度评估，当大规模预测模型的损失超出期望阈值时，对大规模预测模型进行增量式训练。

优选的，增量式训练具体包括步骤如下：

S211：用历史模型库中最新的参数初始化待训练模型，将新的训练数据分别输入待训练模型和历史模型，分别计算各个历史模型与待训练模型特征映射之间的欧氏距离；

式中：表示模型特征之间的欧式距离；F和Fⁱ分别为待训练模型与历史模型的特征张量；D_t和D_c分别为时间序列和通道序列的欧式距离；x_j和/>分别为待训练模型与历史模型的时间序列元素；y_k和/>分别为待训练模型与历史模型的通道序列元素；

S212：基于每一个历史模型均得到一个距离损失

S213：基于历史模型的重要程度，设置对应的遗忘因子η；

η＝η₀e^-ki；

式中：η₀表示初始遗忘因子；k表示遗忘系数；i表示历史模型编号；随着模型的更新，历史模型的特征距离损失权重成指数级下跌；

S214：基于历史模型与待训练模型特征映射之间的欧氏距离构建增量式损失函数，以此为指标进行增量化训练；

式中：L_incre表示增量式损失；L_mse表示标签数据的均方方差；n表示历史模型个数。

本发明中基于云边协同训练的刀具磨损状态预测方法，具有如下有益效果：

本发明通过设备层获取待测刀具的传感器数据，进而通过边缘平台的特征提取模型和轻量化预测模型提取数据特征并输出刀具磨损状态预测结果，而边缘平台设置于实际生产环境附近，有效解决了传统云端范式框架的高延迟响应问题，能够提高整个***的灵活性和可扩展性，从而能够提高刀具磨损状态预测的稳定性和实时性。并且，本发明在边缘平台部署的是轻量化预测模型，其能够在保留模型拟合能力的情况下，具有更少的参数和更快的推理速度，从而能够进一步提高刀具磨损状态预测的实时性。

同时，本发明通过部署在云平台的大规模预测模型，在每一轮训练过程中蒸馏出注意力特征来辅助轻量化预测模型的训练，进而形成了一种云边缘协同训练、边缘侧实时推理的智能框架，能够充分利用云平台的模型知识来提升边缘侧轻量化预测模型的精度，避免了因边缘侧轻量化预测模型的结构简单、参数量少导致的模型预测精度有限的问题，从而能够通过云边协同训练的方式进一步提高刀具磨损状态预测的精度。

附图说明

为了使发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为基于云边协同训练的刀具磨损状态预测***的逻辑框图；

图2为基于云边协同训练的刀具磨损状态预测方法的逻辑框图；

图3为特征提取模型的框架图；

图4为大规模预测模型的框架图；

图5为注意力模块的时通域注意力机制模块示意图；

图6为轻量化预测模型的框架图；

图7为云边协同训练方法的逻辑框图；

图8为基于余弦距离的特征映射和蒸馏损失示意图；

图9为增量式训练的逻辑示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。此外，术语“水平”、“竖直”等术语并不表示要求部件绝对水平或悬垂，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

下面通过具体实施方式进一步详细的说明：

实施例一：

本实施例中公开了一种基于云边协同训练的刀具磨损状态预测***。

如图1所示，基于云边协同训练的刀具磨损状态预测***，包括：

设备层，用于获取待测刀具的传感器数据；

本实施例中，在待测刀具的数控机床上安装若干数据采集卡与控制器，机床刀具主轴和主轴电机上分别安装加速度传感器与电流传感器，将其与数据采集卡相连，分别获取待测刀具的切削振动信号与电流信号即传感器数据。

机床进行切削加工过程中的传感器数据通过DDS上传至边缘平台进行后续处理，同时设备层所安装的控制器可以接收边缘层返回的反馈控制信息(包括控制指令和预警信号)，控制机床等相关设备采取相应的措施。

边缘平台，部署有经过训练的特征提取模型和轻量化预测模型；特征提取模型用于提取(预处理后)传感器数据中的特征作为待测特征信息，轻量化预测模型用于将待测特征信息作为输入并输出对应的刀具磨损状态预测结果；

本实施例中，边缘平台还部署有数据预处理模块以及用于存储历史模型及其数据的边缘模型库；数据预处理模块用于对传感器数据进行数据清洗和Z-score归一化处理，进而将预处理后的传感器数据存储至边缘数据库中，用以后续输入至特征提取模型。

边缘平台还能够基于刀具磨损状态预测结果生成对应的反馈控制信息(包括控制指令和预警信号)并下发至设备层。刀具磨损状态预测结果生成反馈控制信息采用的是现有成熟手段，具体内容这里不再赘述。

云平台，部署有基于注意力机制的大规模预测模型；该模型学***台的轻量化预测模型中，以实现云边模型的协同训练。

本实施例中，云平台还部署有用于评估大规模预测模型预测精度的模型评估模块，以及用于对大规模预测模型进行增量式训练的增量式训练模块。

需要说明的是，本发明所述的轻量化预测模型不是绝对的“轻量化”，而是相对于本发明中的大规模预测模型或现有的其他深度网络模型而言的“轻量化”，其相比于上述模型具有更少的参数和更快的推理速度。

本发明通过设备层获取待测刀具的传感器数据，进而通过边缘平台的特征提取模型和轻量化预测模型提取数据特征并输出刀具磨损状态预测结果，而边缘平台设置于实际生产环境附近，有效解决了传统云端范式框架的高延迟响应问题，能够提高整个***的灵活性和可扩展性，从而能够提高刀具磨损状态预测的稳定性和实时性。并且，本发明在边缘平台部署的是轻量化预测模型，其能够在保留模型拟合能力的情况下，具有更少的参数和更快的推理速度，能够降低模型的训练难度低并提高模型的预测效率，从而能够进一步提高刀具磨损状态预测的实时性。

同时，本发明通过部署在云平台的大规模预测模型，在每一轮训练过程中蒸馏出注意力特征来辅助训练轻量化预测模型，进而形成了一种云边缘协同训练、边缘侧实时推理的智能框架，能够充分利用云平台的模型知识来提升边缘侧轻量化预测模型的精度，避免了因边缘侧轻量化预测模型的结构简单、参数量少导致的模型预测精度有限的问题，从而能够通过云边协同训练的方式进一步提高刀具磨损状态预测的精度。

具体的：

如图3所示，特征提取模型包括两部分卷积操作，第一部分卷积操作包括将1×1卷积核和3×1卷积核的卷积结果相加并进行批量正则化；第二部分卷积操作包括将不同尺寸核的基本卷积结果进行通道拼接，基本卷积包含卷积、批量正则化和ReLU激活函数；

其中，基本卷积表示为：

BasicConv(X)＝relu(bn(conv(X,k,1)))＝relu(bn(W_k*X+b_k))；

ReLU激活函数relu表示为：

式中：x表示输入数据；

通过学习小批量数据中的均值μ_β和以实现批量正则化；

式中：x_i表示输入数据样本；m表示当前批次数据大小；

池化操作的基本池化层表示为：

BasicPool(x)＝concat(pool(x,k₁,s),conv(x,k₂,s))；

式中：pool表示池化操作；conv表示卷积操作；k₁和k₂别表示池化核和卷积核的尺寸；s表示步长；concat表示将特征向量进行通道维度拼接；

特征张量F_f的形状为w_f×1×c_f；

式中：w_f表示时域尺寸；c_f表示通道域尺寸。

本发明的特征提取模型具有稀疏交互和参数共享的能力，使得能够有效的从传感器数据中提取出数据特征用于模型训练和实时预侧，能够有效的减少计算量并抑制过拟合，从而能够进一步提高刀具磨损状态预测的实时性。

如图4所示，大规模预测模型包括由三个注意力密集模块依次连接构成的密集连接结构、两层池化层和全连接层；

其中，密集层的结构表示为：

IncepResLayer_B(X_i)＝relu(X_i+linerConv(X_m,5×1))；

X_m＝concat(BasicConv(X_i,1×1),BasicConv(BasicConv(X_i,1×1),5×1))；

池化层的结构表示为：

Pool(X_i)＝concat(X_m1,X_m2,X_m3)；

X_m1＝Maxpool(X_i,k₁×1)；

X_m2＝BasicConv(X_i,k₁×1)；

X_m3＝BasicConv(BasicConv(X_i,1×1),k₁×1)；

如图5所示，注意力模块的工作逻辑如下：

通过Softmax函数获取最终的时域权重序列Y＝y₁,y₂,...,y_T；

具体实施过程中，如图6所示，轻量化预测模型在大规模预测模型的架构基础上取消了密集连接结构并通过空洞卷积来替代普通卷积，以实现轻量化设计。

具体实施过程中，由于轻量化预测模型的学习能力有限，为了能够使得模型能够在边缘端挖掘到更多的数据信息，具有更强的泛化能力，我们需要将大规模预测模型学习到的知识向边缘侧迁移。

如图7所示，边缘模型库、特征提取模型和轻量化预测模型均部署在边缘平台，云平台中则部署有大规模预测模型。每一轮的训练过程都进行了三个模型的参数更新和云边数据传输。首先，忽略云模型，特征提取模型提取数据特征后传入轻量化预测模型中并根据MSE规则进行两参数的更新，然后数据再次经过特征提取模型进行正向传播，并将特征与标签上传到云平台中，进行注意力蒸馏参数的更新，并将大规模预测模型的注意力特征只是发送至边缘平台，最后，轻量化预测模型按照MSE损失函数，以及加权的注意力特征蒸馏损失更新参数，从而完成一轮的训练。

云边***训练的算法如下：

通过如下步骤实现云边协同训练：

S201：获取具有若干组训练数据及其标签数据的训练数据集；

本实施例中，通过现有的MSE损失函数优化特征提取模型和轻量化预测模型的参数。

本实施例中，通过现有的MSE损失函数优化大规模预测模型的参数。

本实施例中，通过MSE损失函数+注意力蒸馏损失函数优化轻量化预测模型的参数。

S206：重复步骤S202至S205，直至特征提取模型和轻量化预测模型达到预期。

本发明基于注意力机制、残差网络等深度学习方法，提出了一种深度多卷积核注意力残差网络模型即大规模预测模型，以及轻量化动态空洞卷积模型即轻量化预测模型，并建立了云边缘协同训练、边缘侧实时推理的智能框架，使得能够充分发掘不同传感器数据的时序信号在不同领域之间的数据特征，并对其进行了时间和空间上的数据融合，与现有其他常用模型相比，本发明的云边协同构架具有更好的预测精度和更快的推理速度，从而能够进一步提高刀具磨损状态预测的精度和实时性。

具体实施过程中，如图8所示，云模型与轻量化模型分别得到相应的注意力特征F_o ^w ^×1×c，分别按照下式进行注意力映射操作，得到对应的时间特征序列f_t。

式中：f_t表示时间特征序列；F_o ^w×1×c为注意力特征；为注意力特征F_o ^w×1×c每个通道域的特征向量；c表示通道个数；通过该式计算得到大规模预测模型和轻量化预测模型中注意力特征的时间特征序列f_t ^c_i和f_t ^e_i。

采用余弦距离来度量边缘模型中每个特征时间序列与其对应云模型序列之间的权重相似程度。

基于历史数据的标签数据和注意力特征分别计算MSE损失和注意力蒸馏损失以得到对应的训练损失，进而通过该训练损失对轻量化预测模型进行参数更新；

λ＝(1-α^ep)λ₀；

式中：Loss_all表示训练损失；Loss_mse表示MSE损失；Loss_att表示注意力蒸馏损失；N为批量大小；为预测值；y_i为标签数据；D_C(f₁,f₂)表示余弦距离；＜f₁,f₂＞表示两向量内积；f_t ^c_i和f_t ^e_i分别为大规模预测模型和轻量化预测模型中注意力特征的时间特征序列；/>和/>分别表示时间特征序列f_t ^c_i和f_t ^e_i中的元素值；w为张量时间域数量；λ表示动态蒸馏损失系数；α表示一个小于1的数；λ₀表示初始蒸馏损失系数；ep表示训练轮数。

本发明基于历史数据的标签数据和注意力特征分别计算MSE损失和注意力蒸馏损失以得到对应的训练损失，进而通过该训练损失对轻量化预测模型进行参数更新，实现了基于注意力特征的云边协同训练，能够充分利用云平台的模型知识来提升边缘侧轻量化预测模型的精度，避免了因边缘侧轻量化预测模型的结构简单、参数量少导致的模型预测精度有限的问题。

具体实施过程中，在实际生产环境当中，机床刀具磨损数据源源不断产生，随着时间的推移、设备的老化以及加工条件变化等，模型的性能也会随之降低。由于存储限制或隐私保护等原因，旧数据往往无法用于模型的重新训练，但仅依靠新数据当中的知识，则很容易造成模型的灾难性遗忘。

为此，本发明将待测特征信息上传至云平台并输入至大规模预测模型中进行模型精度评估，当大规模预测模型的损失超出期望阈值时，对大规模预测模型进行增量式训练，进而提出了一种基于历史模型库与注意力遗忘因子的增量式训练方法。

基于历史模型库与注意力遗忘因子的增量式训练方法的算法如下：

如图9所示，增量式训练具体包括步骤如下：

本实施例中，历史模型库存储历史训练过程中每一个版本的大规模预测模型的参数。

S212：基于每一个历史模型均得到一个距离损失

S213：基于历史模型的重要程度，设置对应的遗忘因子η；

η＝η₀e^-ki；

在实际生产环境当中，机床刀具磨损数据源源不断产生，随着时间的推移、设备的老化以及加工条件变化等，模型的性能也会随之降低。

为此，本发明提出了上述基于注意力遗忘因子的增量化训练算法，通过边缘模型库的历史模型及参数结合遗忘因子对大规模预测模型进行增量式训练，使得能够避免历史数据的大规模重复训练或灾难性遗忘，进而提高大规模预测模型的终身学习能力，从而能够在长期运行过程中持续性的保证轻量化预测模型的刀具磨损状态预测精度，为数控机床刀具磨损状态检测提供了一种切实可行的解决方案。

实施例二：

本实施例还公开了一种基于云边协同训练的刀具磨损状态预测方法，基于实施例一中的刀具磨损状态预测***实施。

如图2所示，基于云边协同训练的刀具磨损状态预测方法，具体包括以下步骤：

本实施例中，在待测刀具的数控机床上安装若干数据采集卡与控制器，机床刀具主轴和主轴电机上分别安装加速度传感器与电流传感器，将其与数据采集卡相连，分别获取待测刀具的切削振动信号与电流信号即传感器数据。机床进行切削加工过程中的传感器数据通过DDS上传至边缘平台进行后续处理。

本实施例中，刀具磨损状态预测结果生成反馈控制信息(包括控制指令和预警信号)采用的是现有成熟手段，具体内容这里不再赘述。

本实施例中，设备层所安装的控制器可以接收边缘层返回的反馈控制信息(包括控制指令和预警信号)，控制机床等相关设备采取相应的措施。

具体实施过程中，相比于循环神经网络，卷积神经网络可执行并行计算，能够更快速地进行训练和推理。另外，因其具有稀疏交互和参数共享的能力，有效地减少了计算量并抑制过拟合。

特征提取模型将传感器数据作为第一部分卷积操作的输入；对经过第一部分卷积操作批量正则化后输出的结果进行池化处理，并作为第二部分卷积操作的输入；最后对第二部分卷积操作和通道拼接后的结果进行池化处理，输出对应的特征张量即数据特征；其中，基本卷积表示为：

BasicConv(X)＝relu(bn(conv(X,k,1)))＝relu(bn(W_k*X+b_k))；

ReLU激活函数relu表示为：

式中：x表示输入数据；

式中：x_i表示输入数据样本；m表示当前批次数据大小；

池化操作的基本池化层表示为：

BasicPool(x)＝concat(pool(x,k₁,s),conv(x,k₂,s))；

特征张量F_f的形状为w_f×1×c_f；

式中：w_f表示时域尺寸；c_f表示通道域尺寸。

具体实施过程中，当数据特征提取到之后，需要设计一种大规模的刀具磨损值预测模型部署到云平台来进行知识抽取。注意力机制的引入更有利于模型特征域知识的迁移。相比于图像数据，信号在时间域具有一维性和时序性，并且不同传感器数据以及不同通道特征的重要性有差异。

其中，密集层的结构表示为：

IncepResLayer_B(X_i)＝relu(X_i+linerConv(X_m,5×1))；

X_m＝concat(BasicConv(X_i,1×1),BasicConv(BasicConv(X_i,1×1),5×1))；

池化层的结构表示为：

Pool(X_i)＝concat(X_m1,X_m2,X_m3)；

X_m1＝Maxpool(X_i,k₁×1)；

X_m2＝BasicConv(X_i,k₁×1)；

X_m3＝BasicConv(BasicConv(X_i,1×1),k₁×1)；

如图5所示，注意力模块的工作逻辑如下：

通过Softmax函数获取最终的时域权重序列Y＝y₁,y₂,...,y_T；

如图7所示，边缘模型库、特征提取模型和轻量化预测模型均部署在边缘侧，云平台中则部署有大规模预测模型。每一轮的训练过程都进行了三个模型的参数更新和云边数据传输。首先，忽略云模型，特征提取模型提取数据特征后传入轻量化预测模型中并根据MSE规则进行两参数的更新，然后数据再次经过特征提取模型进行正向传播，并将特征与标签上传到云平台中，进行注意力蒸馏参数的更新，并将大规模预测模型的注意力特征只是发送至边缘平台，最后，轻量化预测模型按照MSE损失函数，以及加权的注意力特征蒸馏损失更新参数，从而完成一轮的训练。

云边***训练的算法如下：

具体的，通过如下步骤实现云边协同训练：

S201：获取具有若干组训练数据及其标签数据的训练数据集；

本发明基于注意力机制、残差网络等深度学习方法，提出了一种深度多卷积核注意力残差网络模型即大规模预测模型，以及轻量化动态空洞卷积模型即轻量化预测模型，并建立了云边缘协同训练、边缘侧实时推理的智能框架，使得能够充分发掘不同传感器数据的时序信号在不同领域之间的数据特征，并对其进行了时间和空间上的数据融合，与现有其他模型相比，本发明的云边协同构架具有更好的预测精度和更快的推理速度，从而能够进一步提高刀具磨损状态预测的精度和实时性。

λ＝(1-α^ep)λ₀；

如图9所示，增量式训练具体包括步骤如下：

S212：基于每一个历史模型均得到一个距离损失

S213：基于历史模型的重要程度，设置对应的遗忘因子η；

η＝η₀e^-ki；

最后需要说明的是，以上实施例仅用以说明本发明的技术方案而非限制技术方案，本领域的普通技术人员应当理解，那些对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.基于云边协同训练的刀具磨损状态预测***，其特征在于，包括：

设备层，用于获取待测刀具的传感器数据；

云平台，部署有基于注意力机制的大规模预测模型；所述大规模预测模型学***台的轻量化预测模型中，以实现云边模型的协同训练；

基于云边协同训练的刀具磨损状态预测方法，基于刀具磨损状态预测***实施，具体包括以下步骤：

步骤S2中，通过如下步骤实现云边协同训练：

S201：获取具有若干组训练数据及其标签数据的训练数据集；

步骤S202中，特征提取模型包括两部分卷积操作，第一部分卷积操作包括将1×1卷积核和3×1卷积核的卷积结果相加并进行批量正则化；第二部分卷积操作包括将不同尺寸核的基本卷积结果进行通道拼接，基本卷积包含卷积、批量正则化和ReLU激活函数；

其中，基本卷积表示为：

BasicConv(X)＝relu(bn(conv(X,k,1)))＝relu(bn(W_k*X+b_k))；

ReLU激活函数relu表示为：

式中：x表示输入数据；

式中：x_i表示输入数据样本；m表示当前批次数据大小；

池化操作的基本池化层表示为：

BasicPool(x)＝concat(pool(x,k₁,s),conv(x,k₂,s))；

特征张量F_f的形状为w_f×1×c_f；

式中：w_f表示时域尺寸；c_f表示通道域尺寸；

步骤S203中，轻量化预测模型在大规模预测模型的架构基础上取消了密集连接结构并通过空洞卷积来替代普通卷积，以实现轻量化设计；

步骤S204中，大规模预测模型包括由三个注意力密集模块依次连接构成的密集连接结构、两层池化层和全连接层；

其中，密集层的结构表示为：

IncepResLayer_B(X_i)＝relu(X_i+linerConv(X_m,5×1))；

X_m＝concat(BasicConv(X_i,1×1),BasicConv(BasicConv(X_i,1×1),5×1))；

池化层的结构表示为：

Pool(X_i)＝concat(X_m1,X_m2,X_m3)；

X_m1＝Maxpool(X_i,k₁×1)；

X_m2＝BasicConv(X_i,k₁×1)；

X_m3＝BasicConv(BasicConv(X_i,1×1),k₁×1)；

注意力模块的工作逻辑如下：

通过Softmax函数获取最终的时域权重序列Y＝y₁,y₂,...,y_T；

4)将时域与通道域的特征分别与对应的时域权重和通道域权重/>相乘，得到注意力映射张量/>并与输入特征F_i ^w×1×c构成残差连接得到注意力特征输出/>即注意力特征；

步骤S205中，基于历史数据的标签数据和注意力特征分别计算MSE损失和注意力蒸馏损失以得到对应的训练损失，进而通过该训练损失对轻量化预测模型进行参数更新；

λ＝(1-α^ep)λ₀；

式中：Loss_all表示训练损失；Loss_mse表示MSE损失；Loss_att表示注意力蒸馏损失；N为批量大小；为预测值；y_i为标签数据；D_C(f₁,f₂)表示余弦距离；＜f₁,f₂＞表示两向量内积；f_t ^c_i和f_t ^e_i分别为大规模预测模型和轻量化预测模型中注意力特征的时间特征序列；和/>分别表示时间特征序列f_t ^c_i和f_t ^e_i中的元素值；w为张量时间域数量；λ表示动态蒸馏损失系数；α表示一个小于1的数；λ₀表示初始蒸馏损失系数；ep表示训练轮数；

通过如下公式计算时间特征序列：

式中：f_t表示时间特征序列；为注意力特征；/>为注意力特征/>每个通道域的特征向量；c表示通道个数；通过该式计算得到大规模预测模型和轻量化预测模型中注意力特征的时间特征序列f_t ^c_i和f_t ^e_i；

S206：重复步骤S202至S205，直至轻量化预测模型达到预期；

步骤S2中，将待测特征信息上传至云平台并输入至大规模预测模型中进行模型精度评估，当大规模预测模型的损失超出期望阈值时，对大规模预测模型进行增量式训练；

增量式训练具体包括步骤如下：

S212：基于每一个历史模型均得到一个距离损失

S213：基于历史模型的重要程度，设置对应的遗忘因子η；

η＝η₀e^-ki；

式中：L_incre表示增量式损失；L_mse表示标签数据的均方方差；n表示历史模型个数；

2.如权利要求1所述的基于云边协同训练的刀具磨损状态预测***，其特征在于：边缘平台还部署有数据预处理模块；数据预处理模块用于对传感器数据进行数据清洗和Z-score归一化处理。