CN114241363A

CN114241363A - 工序识别方法、装置、电子设备和存储介质

Info

Publication number: CN114241363A
Application number: CN202111436226.2A
Authority: CN
Inventors: 张梓良; 沈飞
Original assignee: Shengjing Intelligent Technology Jiaxing Co ltd
Current assignee: Shengjing Intelligent Technology Jiaxing Co ltd
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-03-25

Abstract

本发明提供一种工序识别方法、装置、电子设备和存储介质，所述方法包括：从图像帧集合中确定待识别图像帧；按照预设时间间隔，从目标图像帧集合中抽取配对图像帧，并将各配对图像帧与待识别图像帧组合成图像对；目标图像帧集合为图像帧集合中时刻位于待识别图像帧之前的图像帧集合；对各图像对以及各图像对的差分图像进行拼接，得到时序状态图像，并将时序状态图像输入至工序识别模型，得到工序识别模型输出的工序识别结果。本发明能够准确获取持续时长不固定且波动较大的工序前后的关键特征变化，准确得到工序识别结果。

Description

工序识别方法、装置、电子设备和存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种工序识别方法、装置、电子设备和存储介质。

背景技术

工艺和工序是现代化工业生产链路的基本组成单元，在整个制造环节里，从零部件的生产、焊接、打磨、抛光、电镀到大型成品的成型、装配、调试等，一个产品的生产周期必然包含数十甚至上百道工序环节。随着人工智能应用的发展，对生产工序的智能识别和实时监控不仅对工艺人员分析工序时长和设备能耗有极大的帮助，还对推动产品的标准化制造链路有着积极的推动作用。

目前，多利用两类视觉算法对工序的识别，一类是基于图像中关键特征进行检测或者使用其他方法提取关键特征再分类的方法，另一类是基于视频流使用视频分类或检测的方法进行工序识别。然而，上述方法适用于对持续时长较短且时间波动较小的事件进行识别和分析，例如针对人体动作姿态的视频识别方案、影视剧片头片尾的自动打标方案等，但面对时长变化较大、视觉流程复杂的工序识别问题，精度较低。

发明内容

本发明提供一种工序识别方法、装置、电子设备和存储介质，用以解决现有技术中工序识别精度较低的缺陷。

本发明提供一种工序识别方法，包括：

从图像帧集合中确定待识别图像帧；

按照预设时间间隔，从目标图像帧集合中抽取配对图像帧，并将各配对图像帧与所述待识别图像帧组合成图像对；所述目标图像帧集合为所述图像帧集合中时刻位于所述待识别图像帧之前的图像帧集合；

对各图像对以及各图像对的差分图像进行拼接，得到时序状态图像，并将所述时序状态图像输入至工序识别模型，得到所述工序识别模型输出的工序识别结果；

其中，所述工序识别模型是基于样本时序状态图像以及样本工序类别标签训练得到的，所述样本时序状态图像是对样本图像对以及样本图像对的样本差分图像进行拼接后得到的；所述工序识别模型用于对所述时序状态图像进行注意力计算，得到注意力掩码，并基于所述注意力掩码得到所述工序识别结果。

根据本发明提供的一种工序识别方法，所述将所述时序状态图像输入至工序识别模型，得到所述工序识别模型输出的工序识别结果，包括：

将所述时序状态图像输入至所述工序识别模型的特征提取层，由所述特征提取层对各图像对进行特征提取，得到所述特征提取层输出的图像对特征；

将所述时序状态图像输入至所述工序识别模型的注意力层，由所述注意力层对各图像对的差分图像进行注意力计算，得到所述注意力层输出的注意力掩码；

将所述图像对特征以及所述注意力掩码输入至所述工序识别模型的特征融合层，得到所述特征融合层输出的融合特征；

将所述融合特征输入至所述工序识别模型的工序识别层，得到所述工序识别层输出的所述工序识别结果。

根据本发明提供的一种工序识别方法，在得到所述工序识别模型输出的工序识别结果之后，还包括：

若存在预设数量连续待识别图像帧的工序识别结果均为目标工序，则以所有连续待识别图像帧的平均时间作为所述目标工序的工序时间。

根据本发明提供的一种工序识别方法，所述样本时序状态图像包括正样本时序状态图像；所述正样本时序状态图像是基于如下步骤确定的：

从样本视频中确定样本工序节点的前状态图像帧和后状态图像帧；

基于所述前状态图像帧和所述后状态图像帧，确定正样本差分图像；

对所述前状态图像帧、所述后状态图像帧和所述正样本差分图像进行拼接，得到所述正样本时序状态图像。

根据本发明提供的一种工序识别方法，所述图像帧集合是基于如下步骤确定的：

确定待识别视频，并按预设图像帧间隔对所述待识别视频中的各图像帧进行光流检测，得到各图像帧的变化系数；

在所述变化系数大于阈值时，将对应图像帧添加至所述图像帧集合。

根据本发明提供的一种工序识别方法，所述样本时序状态图像包括负样本时序状态图像；所述负样本时序状态图像是基于如下步骤确定的：

从样本视频中滤除样本工序节点的前状态图像帧和后状态图像帧，得到样本视频帧集合；

从所述样本视频帧集合中随机抽取两张图像作为第一图像帧和第二图像帧；

基于所述第一图像帧和所述第二图像帧，确定负样本差分图像；

对所述第一图像帧、所述第二图像帧以及所述负样本差分图像进行拼接，得到所述负样本时序状态图像。

根据本发明提供的一种工序识别方法，所述样本视频包括所述样本工序节点的图像帧，或所述样本视频包括所述样本工序节点的图像帧和非样本工序节点的图像帧。

本发明还提供一种工序识别装置，包括：

确定单元，用于从图像帧集合中确定待识别图像帧；

配对单元，用于按照预设时间间隔，从目标图像帧集合中抽取配对图像帧，并将各配对图像帧与所述待识别图像帧组合成图像对；所述目标图像帧集合为所述图像帧集合中时刻位于所述待识别图像帧之前的图像帧集合；

识别单元，用于对各图像对以及各图像对的差分图像进行拼接，得到时序状态图像，并将所述时序状态图像输入至工序识别模型，得到所述工序识别模型输出的工序识别结果；

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述工序识别方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述工序识别方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述工序识别方法的步骤。

本发明提供的工序识别方法、装置、电子设备和存储介质，通过工序识别模型对时序状态图像进行注意力计算，从而可以获取用于表征图像对关键特征变化的注意力掩码，进而能够以注意力掩码作为先验信息，对时序状态图像中的图像对之间的差异信息进行识别，从而能够准确获取持续时长不固定且波动较大的工序前后的关键特征变化，准确得到工序识别结果。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的工序识别方法的流程示意图之一；

图2是本发明提供的工序识别方法的流程示意图之二；

图3是本发明提供的正样本时序状态图像获取方法示意图；

图4是本发明提供的工序识别装置的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

对此，本发明提供一种工序识别方法。图1是本发明提供的工序识别方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤110、从图像帧集合中确定待识别图像帧。

此处，待识别图像帧是指待识别工序类型的图像，图像帧集合是从待识别视频中确定的图像帧集合，该集合中的各图像帧之间存在差异，例如可以对待识别视频的各图像帧进行光流检测，当任一图像帧的变化系数超过阈值时，表明该图像帧与上一图像帧存在差异，从而可以将该图像帧添加至图像帧集合。

可以理解的是，在确定待识别图像帧后，可以对待识别图像帧进行降噪处理，从而可以消除待识别图像帧的噪声影响，进而能够准确基于待识别图像进行工序识别。

步骤120、按照预设时间间隔，从目标图像帧集合中抽取配对图像帧，并将各配对图像帧与待识别图像帧组合成图像对；目标图像帧集合为图像帧集合中时刻位于待识别图像帧之前的图像帧集合。

具体地，在确定待识别图像帧后，可以将待识别图像帧看作是工序的后状态图像，然后以待识别图像帧对应的时间作为基准，从图像帧集合中选取时间位于待识别图像帧之间的图像帧集合，再按照预设时间间隔，从目标图像帧集合中抽取配对图像帧，每个配对图像帧与待识别图像帧分别组合成图像对。

步骤130、对各图像对以及各图像对的差分图像进行拼接，得到时序状态图像，并将时序状态图像输入至工序识别模型，得到工序识别模型输出的工序识别结果；

其中，工序识别模型是基于样本时序状态图像以及样本工序类别标签训练得到的，样本时序状态图像是对样本图像对以及样本图像对的样本差分图像进行拼接后得到的；工序识别模型用于对时序状态图像进行注意力计算，得到注意力掩码，并基于注意力掩码得到所述工序识别结果。

具体地，在得到各图像对后，可以将图像对中的待识别图像帧看作是工序的后状态图像，图像对中的另一图像帧看作是工序的前状态图像，然后使用一阶差分确定前状态图像与后状态图像的差分图像，即为图像对的差分图像。其中，前状态图像指工序前对应的图像，后状态图像指工序后对应的图像。

在确定各图像对的差分图像后，可以将各图像对以及各图像对的差分图像沿深度方向进行拼接，进而可以获得9通道的时序状态图像，然后将时序状态图像输入至工序识别模型，由工序识别模型对时序状态图像进行注意力计算，由于时序状态图像中包含有差分图像的信息，而差分图像用于表征工序前后的差异信息，从而在对时序状态图像进行注意力计算时，可以关注工序前后关键特征的变化，得到用于表征关键特征变化的注意力掩码，从而可以基于注意力掩码得到工序识别结果。

由此可见，工序识别模型对时序状态图像进行注意力计算，从而可以获取用于表征工序前后关键特征变化的注意力掩码，进而能够准确获取持续时长不固定且波动较大的工序前后的关键特征变化，从而能够准确识别工序类别。此外，工序识别模型是以时序状态图像作为输入进行识别，而不是以视频数据作为输入进行识别，从而可以有效减小模型的大小，加快模型的识别速度，降低模型部署所占用的资源。

可选地，设图像帧集合为一个容量为C的先进先出图像队列Q，该图像帧集合的确定过程为：从待识别视频中每隔s帧抓取1张图像样本进行光流检测，与上一图像帧变化超过阈值时放入Q中，记待识别图像帧为I(t)，此时I(t)为Q中第C个样本，以I(t)作为后状态图像，以一定间隔g在Q中选取配对图像帧与I(t)组合为图像对，如[I(t-g*s)，I(t)]，[I(t-2*g*s)，I(t)]等，共k＝C/g对图像对，然后获得各图像对对应的9通道时序状态图像输入到工序识别模型中，由工序识别模型确定待识别图像帧对应工序类别的概率，并将最大概率对应的工序类别作为待识别图像帧的工序识别结果，并确定其对应的置信度。

其中，在将时序状态图像输入至工序识别模型之前，还可以预先训练得到工序识别模型，具体可以通过执行如下步骤实现：首先，收集大量样本图像对以及样本图像对的样本差分图像，然后对两者进行拼接，得到样本时序状态图像，通过人工标注确定其对应的样本工序类别标签。随即，基于样本时序状态图像以及样本工序类别标签对初始模型进行训练，从而得到工序识别。

本发明实施例提供的工序识别方法，通过工序识别模型对时序状态图像进行注意力计算，从而可以获取用于表征图像对关键特征变化的注意力掩码，进而能够以注意力掩码作为先验信息，对时序状态图像中的图像对之间的差异信息进行识别，从而能够准确获取持续时长不固定且波动较大的工序前后的关键特征变化，准确得到工序识别结果。

基于上述实施例，将时序状态图像输入至工序识别模型，得到工序识别模型输出的工序识别结果，包括：

将时序状态图像输入至工序识别模型的特征提取层，由特征提取层对各图像对进行特征提取，得到特征提取层输出的图像对特征；

将时序状态图像输入至工序识别模型的注意力层，由注意力层对各图像对的差分图像进行注意力计算，得到注意力层输出的注意力掩码；

将图像对特征以及注意力掩码输入至工序识别模型的特征融合层，得到特征融合层输出的融合特征；

将融合特征输入至工序识别模型的工序识别层，得到工序识别层输出的工序识别结果。

具体地，时序状态图像是对图像对和各图像对的差分图像进行拼接后得到的，从而在将时序状态图像输入至特征提取层时，特征提取层可以对时序状态图像中的各图像对进行特征提取，得到图像对特征，注意力层可以对时序状态图像中的各图像对的差分图像进行注意力计算，得到用于表征图像对关键特征变化的注意力掩码。

然后，将图像对特征以及注意力掩码输入至工序识别模型的特征融合层，由特征融合层对图像对特征和注意力掩码进行融合，得到融合特征，从而工序识别层可以基于融合特征准备得到工序识别结果。

如图2所示，将图像对(IA_pre，IA_post)进行一阶差分，得到差分图像(IA_diff)，通过特征提取层对图像对进行特征提取，得到图像对特征F，以及通过注意力层对差分图像进行注意力计算，得到注意力掩码Mask，由特征融合层对图像对特征F和注意力掩码Mask进行融合，得到融合特征，并由工序识别层基于融合特征进行识别，得到工序识别结果。

基于上述任一实施例，在得到工序识别模型输出的工序识别结果之后，还包括：

若存在预设数量连续待识别图像帧的工序识别结果均为目标工序，则以所有连续待识别图像帧的平均时间作为目标工序的工序时间。

具体地，不同工序之间在某个图像帧中可能会出现相同的特征信息，即不同工序之间可能存在重叠部分，为了避免不同工序重叠部分可能导致的误检问题以及预测时间不准的问题，本发明实施例在存在预设数量的连续待识别图像帧的工序识别结果均为目标工序，即连续待识别图像帧的工序识别结果相同，则表明工序识别结果的置信度较大，因此可以将目标工序作为最终工序识别结果，并将所有连续待识别图像帧的平均时间作为目标工序的工序时间。

例如，采用投票机制，当连续m个图像帧被预测为类别pred_i时，以m个时刻的均值，即((t)+(t+s)+(t+2*s)+…+(t+(m-1)*s))/m作为pred_i类工序的最终识别到的工序时间。

基于上述任一实施例，样本时序状态图像包括正样本时序状态图像；正样本时序状态图像是基于如下步骤确定的：

基于前状态图像帧和后状态图像帧，确定正样本差分图像；

对前状态图像帧、后状态图像帧和正样本差分图像进行拼接，得到正样本时序状态图像。

具体地，如图3所示，假设共有k道工序需进行识别，从样本视频中抓取连续的待识别工序节点A的前状态图像帧IA_pre1及后状态图像帧IA_post1，使用一阶差分获得前后状态图像帧的正样本差分图像IA_diff1，将3张图像沿深度方向拼接，获得9通道正样本时序状态图像IA1＝[IA_pre1，IA_post1，IA_diff1]。其中，前状态图像帧指样本工序节点前的图像，后状态图像帧指样本工序节点后的图像。

基于上述任一实施例，样本时序状态图像包括负样本时序状态图像；负样本时序状态图像是基于如下步骤确定的：

从样本视频帧集合中随机抽取两张图像作为第一图像帧和第二图像帧；

基于第一图像帧和第二图像帧，确定负样本差分图像；

对第一图像帧、第二图像帧以及负样本差分图像进行拼接，得到负样本时序状态图像。

具体地，从样本视频中滤除样本工序节点的前状态图像帧和后状态图像帧，得到样本视频帧集合，然后从视频帧集合中随机抽取两张图像作为第一图像帧和第二图像帧，以及两者的差分图像作为负样本差分图像。将第一图像帧、第二图像帧以及负样本差分图像沿深度方向进行拼接，由于第一图像帧、第二图像帧以及负样本差分图像分别为3通道的RGB图像，从而得到的负样本时序状态图像为9通道的时序状态图像。其中，

基于上述任一实施例，样本视频包括样本工序节点的图像帧，或样本视频包括样本工序节点的图像帧和非样本工序节点的图像帧。

具体地，样本视频中可以包括样本工序节点的图像帧，从而正样本时序状态图像可以从样本工序节点的图像帧中提取前状态图像帧和后状态图像帧，得到正样本时序状态图像，负样本时序状态图像可以从样本工序节点的图像帧中滤除前状态图像帧和后状态图像帧后，随机抽取两个图像帧后得到。

样本视频中可以包括样本工序节点的图像帧和非样本工序节点的图像帧，从而正样本时序状态图像可以从样本工序节点的图像帧中提取前状态图像帧和后状态图像帧，得到正样本时序状态图像，负样本时序状态图像可以从样本工序节点的图像帧中滤除前状态图像帧和后状态图像帧后，随机抽取两个图像帧后得到，还可以从非样本工序节点的图像帧中随机抽取两个图像帧后得到。其中，非样本工序节点的图像帧可以为不需要进行工序识别的图像帧。

基于上述任一实施例，图像帧集合是基于如下步骤确定的：

确定待识别视频，并按预设图像帧间隔对待识别视频中的各图像帧进行光流检测，得到各图像帧的变化系数；

在变化系数大于阈值时，将对应图像帧添加至图像帧集合。

具体地，待识别视频指待进行工序识别的视频。由于待是被视频中包括多个图像帧，相邻两个图像帧可能相似度比较大，若对每个图像帧进行识别，则会浪费资源计算量。因此，本发明实施例按预设图像帧间隔对待识别视频中的各图像帧进行光流检测，得到各图像帧的变化系数，在变化系数大于阈值时，表明对应的图像帧与上一图像帧的差异较大，可以用于进行工序识别，从而可以将对应图像帧添加至图像帧集合。

下面对本发明提供的工序识别装置进行描述，下文描述的工序识别装置与上文描述的工序识别方法可相互对应参照。

基于上述任一实施例，本发明还提供一种工序识别装置，如图4所示，该装置包括：

确定单元410，用于从图像帧集合中确定待识别图像帧；

配对单元420，用于按照预设时间间隔，从目标图像帧集合中抽取配对图像帧，并将各配对图像帧与所述待识别图像帧组合成图像对；所述目标图像帧集合为所述图像帧集合中时刻位于所述待识别图像帧之前的图像帧集合；

识别单元430，用于对各图像对以及各图像对的差分图像进行拼接，得到时序状态图像，并将所述时序状态图像输入至工序识别模型，得到所述工序识别模型输出的工序识别结果；

其中，所述工序识别模型是基于样本时序状态图像以及样本工序类别标签训练得到的，所述样本时序状态图像是对样本图像对以及样本图像对的样本差分图像进行拼接后得到的。

基于上述任一实施例，所述识别单元430，包括：

特征提取单元，用于将所述时序状态图像输入至所述工序识别模型的特征提取层，由所述特征提取层对各图像对进行特征提取，得到所述特征提取层输出的图像对特征；

注意力单元，用于将所述时序状态图像输入至所述工序识别模型的注意力层，由所述注意力层对各图像对的差分图像进行注意力计算，得到所述注意力层输出的注意力掩码；

融合单元，用于将所述图像对特征以及所述注意力掩码输入至所述工序识别模型的特征融合层，得到所述特征融合层输出的融合特征；

工序识别单元，用于将所述融合特征输入至所述工序识别模型的工序识别层，得到所述工序识别层输出的所述工序识别结果。

基于上述任一实施例，还包括：

工序时间确定单元，用于在得到所述工序识别模型输出的工序识别结果之后，若存在预设数量连续待识别图像帧的工序识别结果均为目标工序，则以所有连续待识别图像帧的平均时间作为所述目标工序的工序时间。

基于上述任一实施例，所述样本时序状态图像包括正样本时序状态图像；所述装置还包括：

第一状态图像帧确定单元，用于从样本视频中确定样本工序节点的前状态图像帧和后状态图像帧；

正样本差分图像单元，用于基于所述前状态图像帧和所述后状态图像帧，确定正样本差分图像；

正样本时序状态确定单元，用于对所述前状态图像帧、所述后状态图像帧和所述正样本差分图像进行拼接，得到所述正样本时序状态图像。

基于上述任一实施例，所述样本时序状态图像包括负样本时序状态图像；所述装置还包括：

滤除单元，用于从样本视频中滤除样本工序节点的前状态图像帧和后状态图像帧，得到样本视频帧集合；

第二状态图像帧确定单元，用于从所述样本视频帧集合中随机抽取两张图像作为第一图像帧和第二图像帧；

负样本差分图像确定单元，用于基于所述第一图像帧和所述第二图像帧，确定负样本差分图像；

负样本时序状态图像确定单元，用于对所述第一图像帧、所述第二图像帧以及所述负样本差分图像进行拼接，得到所述负样本时序状态图像。

基于上述任一实施例，所述样本视频包括所述样本工序节点的图像帧，或所述样本视频包括所述样本工序节点的图像帧和非样本工序节点的图像帧。

基于上述任一实施例，所述装置还包括：

变化系数确定单元，用于确定待识别视频，并按预设图像帧间隔对所述待识别视频中的各图像帧进行光流检测，得到各图像帧的变化系数；

图像帧集合确定单元，用于在所述变化系数大于阈值时，将对应图像帧添加至所述图像帧集合。

图5是本发明提供的电子设备的结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行工序识别方法，该方法包括：从图像帧集合中确定待识别图像帧；按照预设时间间隔，从目标图像帧集合中抽取配对图像帧，并将各配对图像帧与所述待识别图像帧组合成图像对；所述目标图像帧集合为所述图像帧集合中时刻位于所述待识别图像帧之前的图像帧集合；对各图像对以及各图像对的差分图像进行拼接，得到时序状态图像，并将所述时序状态图像输入至工序识别模型，得到所述工序识别模型输出的工序识别结果；其中，所述工序识别模型是基于样本时序状态图像以及样本工序类别标签训练得到的，所述样本时序状态图像是对样本图像对以及样本图像对的样本差分图像进行拼接后得到的；所述工序识别模型用于对所述时序状态图像进行注意力计算，得到注意力掩码，并基于所述注意力掩码得到所述工序识别结果。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的工序识别方法，该方法包括：从图像帧集合中确定待识别图像帧；按照预设时间间隔，从目标图像帧集合中抽取配对图像帧，并将各配对图像帧与所述待识别图像帧组合成图像对；所述目标图像帧集合为所述图像帧集合中时刻位于所述待识别图像帧之前的图像帧集合；对各图像对以及各图像对的差分图像进行拼接，得到时序状态图像，并将所述时序状态图像输入至工序识别模型，得到所述工序识别模型输出的工序识别结果；其中，所述工序识别模型是基于样本时序状态图像以及样本工序类别标签训练得到的，所述样本时序状态图像是对样本图像对以及样本图像对的样本差分图像进行拼接后得到的；所述工序识别模型用于对所述时序状态图像进行注意力计算，得到注意力掩码，并基于所述注意力掩码得到所述工序识别结果。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的工序识别方法，该方法包括：从图像帧集合中确定待识别图像帧；按照预设时间间隔，从目标图像帧集合中抽取配对图像帧，并将各配对图像帧与所述待识别图像帧组合成图像对；所述目标图像帧集合为所述图像帧集合中时刻位于所述待识别图像帧之前的图像帧集合；对各图像对以及各图像对的差分图像进行拼接，得到时序状态图像，并将所述时序状态图像输入至工序识别模型，得到所述工序识别模型输出的工序识别结果；其中，所述工序识别模型是基于样本时序状态图像以及样本工序类别标签训练得到的，所述样本时序状态图像是对样本图像对以及样本图像对的样本差分图像进行拼接后得到的；所述工序识别模型用于对所述时序状态图像进行注意力计算，得到注意力掩码，并基于所述注意力掩码得到所述工序识别结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种工序识别方法，其特征在于，包括：

从图像帧集合中确定待识别图像帧；

2.根据权利要求1所述的工序识别方法，其特征在于，所述将所述时序状态图像输入至工序识别模型，得到所述工序识别模型输出的工序识别结果，包括：

3.根据权利要求1所述的工序识别方法，其特征在于，在得到所述工序识别模型输出的工序识别结果之后，还包括：

4.根据权利要求1所述的工序识别方法，其特征在于，所述样本时序状态图像包括正样本时序状态图像；所述正样本时序状态图像是基于如下步骤确定的：

5.根据权利要求1所述的工序识别方法，其特征在于，所述图像帧集合是基于如下步骤确定的：

6.根据权利要求1至5任一项所述的工序识别方法，其特征在于，所述样本时序状态图像包括负样本时序状态图像；所述负样本时序状态图像是基于如下步骤确定的：

7.根据权利要求6所述的工序识别方法，其特征在于，所述样本视频包括所述样本工序节点的图像帧，或所述样本视频包括所述样本工序节点的图像帧和非样本工序节点的图像帧。

8.一种工序识别装置，其特征在于，包括：

确定单元，用于从图像帧集合中确定待识别图像帧；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述工序识别方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述工序识别方法的步骤。