CN113269067A

CN113269067A - 基于深度学习的周期性工业视频片段关键帧两阶段提取方法

Info

Publication number: CN113269067A
Application number: CN202110532120.6A
Authority: CN
Inventors: 王雅琳; 戚雨栋; 袁小锋; 王凯; 刘晨亮; 郭静宇; 刘柢炬; 桂卫华
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2021-08-17
Anticipated expiration: 2041-05-17
Also published as: CN113269067B

Abstract

本发明涉及一种基于深度学习的周期性工业视频片段关键帧两阶段提取方法。该方法包括：获取工业视频图像，提取感兴趣区域，预处理，得到预处理后图像序列；构建基于深度学习的语义分割网络模型，提取所述预处理后图像的目标区域；第一阶段，构建卷积神经网络对所述预处理后图像进行分类，并对其时间序列进行分割，得候选关键帧序列集合；第二阶段，构建所述目标区域相似度矩阵，对所述候选关键帧序列进行聚类、筛选和融合，得关键帧。本发明针对工业视频特征复杂，当前方法缺乏全局性和局部性的问题，引入深度学习技术，以“先全局后局部”的两阶段思想，更快、更准确地提取了工业视频关键帧，对优化生产，实现提质增产具有指导意义。

Description

基于深度学习的周期性工业视频片段关键帧两阶段提取方法

技术领域

本发明涉及机器视觉、图像处理、模式识别领域，特别涉及一种基于深度学习的周期性工业视频片段关键帧两阶段提取方法。

背景技术

周期性生产过程是一种常见的工业生产过程。在这类过程中，一系列既定的工序被周而复始的执行。例如，在钢铁烧结过程中，存在着“布料→点火→台车行进→卸料”这一周期性生产过程；再比如，在注塑过程中，“合模→填充→保压→冷却→开模→脱模”这一系列工序被循环执行。

工业视频是工业生产过程工况信息的直观表现和间接反映。对于某一生产工序而言，关键帧是其监控视频片段中最能反映当前工业生产过程工况特征的图像，是评估该工序当前生产工况的重要特征参数之一。但是由于工业过程的复杂性，导致目前对关键帧的提取存在着以下问题。

(1)生产周期的动态性

理论上对于周期性生产过程，在生产速率一定的情况下，可以确定每个关键帧之间的时间间隔。在人为确定第一帧关键帧后，可以根据生产速率确定后续生产过程中的各关键帧。但是受到物料、燃料、操作、环境等因素的波动的影响，生产周期往往存在一定的波动，导致各关键帧之间时间间隔无法确定。

(2)工序间的相似性

在实际生产过程中，不同工序往往在同一场合下进行，这使得获得的各工序监控视频间存在着较多相似场景。例如，在烧结过程的机尾断面监控视频中，“台车运行”和“卸料”两个工序之间便存在着“烧结料层”这一共同场景，而“卸料”过程特有的“燃烧带”图像在这一场景中仅占了很小的一部分，从图像特征角度来看，这导致了两工序图像间的相似性。而传统的手工特征提取方法无法有效的克服这一相似性，造成了工序视频片段分割的困难性。

(3)工序内的相似性

在实际生产过程中，生产设备的动作，以及物料、产品的各种物理化学变化，往往为连续变化过程，监控视频各帧之间的差异较小，并主要体现在空间位置和纹理上，传统的手工特征无法有效的表达这一差异性。例如，在烧结过程的机尾断面监控视频中，“卸料”工序的各断面图像间的主要差异主要表现为燃烧带空间分布、纹理等变化，简单的亮度、直方图等手工特征无法精确的描述这一变化。这一问题便导致了工序视频片段关键帧提取的困难性。

因此，如何克服上述问题，准确提取工业视频图像特征，快速实现周期性工业视频片段关键帧提取是工业过程工况评估中亟需解决的问题。

发明内容

基于此，本发明针对上述技术问题，提出了一种基于深度学习的关键帧提取方法，其目的是为了解决现有关键帧提取过程各关键帧时间间隔无法确定，无法有效克服工序相似性以及特征无法精确描述的技术问题，提供一种准确提取工业视频图像特征，快速实现周期性工业视频片段关键帧提取的方法。

本发明提供了一种基于深度学习的工业视频周期性生产片段关键帧两阶段提取方法，，具体包括：

S1:获取工业视频图像，提取兴趣区域图像，并进行预处理，获得预处理图像序列；

S2:构建基于深度学习的语义分割网络模型，对所述预处理图像序列提取图像目标区域；

S3:获取所述步骤S2中语义分割网络模型中间层的输出特征，并构建卷积神经网络模型，对所述预处理图像序列进行二分类，获得图像类别特征；

S4:根据所述图像类别特征对所述预处理后的图像序列进行分割获得候选关键帧序列集合；

S5：计算所述候选关键帧序列集合中各图像目标区域的相似度，构建相似度矩阵，并以所述相似度矩阵为输入，对所述候选关键帧序列进行聚类处理，获得多类别图像集合；

S6:根据工业过程实际需求，构建关键帧选择指标和权值矩阵，根据所述关键帧选择指标对所述多类别图像集合进行筛选获得关键帧序列，并根据所述权值矩阵对所述关键帧序列进行加权平均，获得关键帧。

进一步的，所述步骤S1中的预处理包括去噪、色彩校正和去雾处理。

进一步的，所述步骤S2具体包括：

从预处理图像序列随机选取多张第一典型图像，并筛选出第一掩模图像，构建第一训练集和第一测试集；

将所述第一训练集和第一测试集进行平移、尺度、亮度和旋转变换处理获得增强训练集和测试集；

构建深度语义分割网络模型，以所述增强训练集为输入对网络模型进行输入，并以增强测试集对网络模型进行测试，获得训练后的深度语义分割网络模型；

将所述预处理图像采用训练后的深度语义分割网络模型进行类别特征提取，获得图像类别特征。

进一步的，所述步骤S3具体包括：

从预处理图像序列随机选取多张第二典型图像，并根据工业过程的实际需求将所述第二典型图像进行分类，构建第二训练集和第二测试集；

以所述第二训练集和第二测试集为输入，采用步骤S2中的深度语义分割模型进行模拟，获取模型中间层输出作为图像深度特征；

构建卷积神经网络模型，以所述图像深度特征为输入和分类作为输出，多网络进行训练和测试，获得训练后的卷积神经网络模型；

将所述预处理图像采用训练后的卷积神经网络模型进行特征提取，获得图像类别特征。

进一步的，所述步骤S4具体包括：

构建临时图像序列并设定最小图像序列长度；遍历所述预处理图像序列，提取当前图像的类别特征，并判断图像是否属于目标图像；

若当前图像为目标图像时，将当前图像添加至临时图像序列，且目标图像数量增加1，当所述临时图像序列的数量大于最小图像序列长度时，将临时图像序列中除最后张图像外的所有图像添加至当前目标图像序列；所述当前目标图像序列集合即为候选关键帧序列集合。

进一步的，所述构建相似度矩阵具体包括：

取候选关键帧序列

中任意两张图像I_n和I_m，利用所述深度语义分割网络提取相应目标区域Mask_n和Mask_m，并计算Mask_n和Mask_m之间的相似度

其中，

表示Mask_n和Mask_m之间的匹配特征描述子数量，W和H分别为图像的宽度和长度，∑∑Mask_n和∑∑Mask_m分别表示目标区域Mask_n和Mask_m的面积，K_n和K_m分别表示Mask_n和Mask_m的特征描述子数量；

计算候选关键帧序列

中所有图像之间的相似度，得相似度矩阵

进一步的，所述聚类处理具体包括：

根据工业实际需求，设定类别数量D，以所述相似度矩阵为输入，对相对应的候选关键帧序列进行聚类操作，获得多类别图像集合。

进一步的，所述步骤S6具体包括：

以工业过程实际需求为目标，根据所述图像目标区域构建关键帧选择目标，从所述类别图像集合中选择图像获得关键帧序列；

以工业过程实际需求为目标，根据所述图像目标区域构建权值矩阵，对所述关键帧序列中图像进行加权平均，获得关键帧。

有益效果：

本发明的上述实施例所述的基于深度学***均合成关键帧的方式，最大程度减少了图像变化过程中的特征丢失，能够更加完整的反映工业生产过程中的视觉信息。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的基于深度学习的周期性工业视频片段关键帧两阶段提取方法的流程示意图；

图2为本发明实施例提供的典型的原始ROI图像，及其预处理后的图像；

图3为本发明实施例提供的深度语义分割网络结构示意图；

图4为本发明实施例提供的典型的预处理后图像及其图像目标区域；

图5为本发明实施例提供的聚类结果的示意图；

图6为本发明实施例提供的典型关键帧；

图7为本发明实施例提供的各方法对关键帧提取效果的对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，在本发明实施例中，提出了一种基于深度学习的周期性工业视频片段关键帧两阶段提取方法的流程示意图，具体包括以下步骤：

步骤S1，获取工业视频图像，提取兴趣区域图像，并进行预处理，获得预处理图像序列。

在本发明实施例中，对获取的工业视频图像，进行定宽高裁剪，去除图像中的无用背景，提取出感兴趣区域(Region ofInterest，ROI)图像，再对所述ROI图像进行去噪、色彩校正和去雾等预处理操作，降低图像中受不同光照、高温、扬尘影响而产生的噪点、照度不均以及雾化等缺陷，得到预处理后图像序列，如图2所示的ROI图像及其预处理后的图像。

步骤S2，构建基于深度学习的语义分割网络模型，对所述预处理图像序列提取图像目标区域。

在本发明实施例中，首先从所述预处理后的图像中随机选取多张第一典型图像，并筛选出第一掩模图像，构建第一训练集和第一测试集；将所述第一训练集和第一测试集图像进行随机的平移、尺度、亮度和旋转变换等数据增强操作，得增强训练集和测试集；构建深度语义分割网络，如图3所示，其输入的烧结断面尺寸为1024×128×3，整体结构包括四个编码器层和四个对应的解码器层。每层编码器层包含两个3×3的卷积层(Convolution)、一个批正则化层(BatchNormalization)和一个最大池化层(MaxPooling)；每层解码器包含一个上采样层(Upsampling)、一个3×3的卷积层、一个联合层(concatenate)、两个3×3的卷积层，以及一个批正则化层。最后经两个3×3的卷积层，由Sigmoid激活函数激活后，输出大小为1024×128×1的燃烧带形态。图3展示了本文设计的深度语义分割网络结构。然后选取所述增强训练集和增强测试集对网络进行训练和测试，训练时采用交叉熵(Cross Entropy)作为损失函数，Adam作为优化器，其学习率为3×10^-4。使用训练后的深度语义分割网络，提取所述预处理图像的目标区域，提取结果如图4所示。

步骤S3，获取所述步骤S2中语义分割网络模型中间层的输出特征，并构建卷积神经网络模型，对所述预处理图像序列进行二分类，获得图像类别特征。

在本发明实施例中，引入迁移学习的思想，从预处理图像序列随机选取多张第二典型图像，并根据工业过程的实际需求将所述第二典型图像进行分类，构建第二训练集和第二测试集；以所述第二训练集和第二测试集为输入，采用步骤S2中的深度语义分割模型进行模拟，获取模型中间层输出作为图像深度特征；构建构建卷积神经网络模型，主要包括一个Flatten层、一个128维的全连接层、一个批正则化层、一个2维的全连接层和一个Sigmoid激活层，以所述图像深度特征为输入，以所述人工分类结果为输出，对网络进行训练，训练时采用交叉熵(Cross Entropy)作为损失函数，Adam作为优化器，其学习率为3×10^-4；将所述预处理图像采用训练后的卷积神经网络模型进行特征提取，获得图像类别特征。

步骤S4，根据所述图像类别特征对所述预处理后的图像序列进行分割获得候选关键帧序列集合。

在本发明实施例中，所述分割处理具体包括：

步骤S41，输入将预处理图像序列S_input和最小图像序列长度δ；

步骤S42，定义当前目标图像序列

和临时图像序列T，以及目标图像数量C_g＝0和非目标图像数量C_ng＝0；

步骤S43，遍历图像序列S_input，提取当前图像I的类别特征；

步骤S44，判断图像I是否为目标图像，如果是，则跳转至步骤S45；否则，跳转至步骤S47；

步骤S45，将图像I添加至临时图像序列T，同时令目标图像数量C_g自增1；

步骤S46，判断目标图像数量C_g是否大于等于最小图像序列长度δ，如果是，则令非目标图像数量C_ng＝0；

步骤S47，令非目标图像数量C_ng自增1，同时判断目标图像数量C_g是否大于等于最小图像序列长度δ，如果是，则将图像I添加至临时图像序列T；

步骤S48，判断非目标图像数量C_ng是否大于等于最小图像序列长度δ，如果是，则跳转至步骤S49；否则，跳转至步骤S412；

步骤S49，判断目标图像数量C_g是否大于等于最小图像序列长度δ，如果是，则跳转至步骤S410；否则，跳转至步骤S411；

步骤S410，将临时图像序列T中除最后δ张图像外的所有图像添加至当前目标图像序列

步骤S411，将目标图像数量C_g和非目标图像数量C_ng清零，同时清空临时图像序列T；

步骤S412，重复步骤S43至步骤S411，直到图像序列S_input终止；

步骤S413，得到候选关键帧序列集合

步骤S5，计算所述候选关键帧序列集合中各图像目标区域的相似度，构建相似度矩阵，并以所述相似度矩阵为输入，对所述候选关键帧序列进行聚类处理，获得多类别图像集合。

在本发明实施例中，取候选关键帧序列

中任意两张图像I_n和I_m，利用所述深度语义分割网络提取相应目标区域Mask_n和Mask_m；首先使用STFI算法提取Mask_n和Mask_m的SIFT特征描述集合

和

其中

和

分别为128维的特征描述子；然后计算F_n中特征描述子

与F_m中各特征描述子

之间的欧式距离

并选取距离最小的特征描述子作为

在F_m的匹配特征描述子

同理，可以得到F_m中特征描述子

在F_n中的匹配特征描述子为

如果

则称

与

为M_i和M_j之间的匹配特征描述子；

考虑工业过程的时序规律，以及候选关键帧序列中各图像之间的相似性，这里记Mask_n和Mask_m的相似度为

其中

表示Mask_n和Mask_m之间的匹配特征描述子数量，W和H分别为图像的宽度和长度，∑∑Mask_n和∑∑Mask_m分别表示Mask_n和Mask_m的面积，K_n和K_m分别表示Mask_n和Mask_m的特征描述子数量；

计算候选关键帧序列

中所有图像之间的相似度，得相似度矩阵

在本发明实施例中，所述聚类处理具体包括：结合工业生产实际，将生产过程划分为前期、中期和后期，选取类别数量D＝3；采用谱聚类算法，以所述相似度矩阵A_i为输入，对相应的候选关键帧序列

进行聚类操作，得到多类别图像集合C＝(c₁,c₂,…,c_d,…,c_D)，其聚类结果示意图如图5所示。

步骤S6，根据工业过程实际需求，构建关键帧选择指标和权值矩阵，根据所述关键帧选择指标对所述多类别图像集合进行筛选获得关键帧序列，并根据所述权值矩阵对所述关键帧序列进行加权平均，获得关键帧。

在本发明实施例中，以工业过程实际需求为目标，认为关键帧序列需满足目标区域总面积最大，并位于生产周期的中部；在所述目标区域的基础上，构建关键帧选择指标

其中N为候选关键帧序列的图像数量。

从所述多类别图像集合C＝(c₁,c₂,…,c_d,…,c_D)中选择最佳图像集合，得关键帧序列

以工业过程实际需求为目标，根据所述图像目标区域，以目标区域面积为权值，构建权值矩阵W＝[w₁,w₂,…,w_K]；对关键帧序列

中所有图像，以所述权值矩阵W为权，计算其加权平均，得关键帧I_key，其结果如图6所示。

在本发明实施例，图7展示了图像特征曲线峰值法以目标面积为特征，对工业视频关键帧提取的结果。图A、B和C分别为生产专家提取的关键帧、图像特征曲线峰值法提取的关键帧和本文所提方法提取的关键帧的及其对应的图像目标区域。为了对两种方法的优异进行评估，本发明使用均值哈希距离、差值哈希距离、感知哈希距离、余弦距离和SIFT匹配特征点匹配率(生产专家提取的关键帧的SIFT特征点被匹配的百分比)计算两种方法与生产专家所提关键帧之间的相似度。其中，均值哈希距离、差值哈希距离和感知哈希距离越小，说明两幅图像之间的相似度越高；余弦距离和SIFT匹配特征点匹配率越大，说明两幅图像之间的相似度越高。表1展示上述方法对两种算法的评估结果，可见本发明所提方法能够更加准确的提取关键帧。

表1不同方法与生产专家所提关键帧之间的相似度

根据生产专家和本文所提方法，图7中框1内的图像属于同一生产周期，但图像特征曲线峰值法将其分为了三个周期，可见本发明所提方法对关键帧提取的准确率更高。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。