CN113269067A - 基于深度学习的周期性工业视频片段关键帧两阶段提取方法 - Google Patents

基于深度学习的周期性工业视频片段关键帧两阶段提取方法 Download PDF

Info

Publication number
CN113269067A
CN113269067A CN202110532120.6A CN202110532120A CN113269067A CN 113269067 A CN113269067 A CN 113269067A CN 202110532120 A CN202110532120 A CN 202110532120A CN 113269067 A CN113269067 A CN 113269067A
Authority
CN
China
Prior art keywords
image
key frame
sequence
constructing
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110532120.6A
Other languages
English (en)
Other versions
CN113269067B (zh
Inventor
王雅琳
戚雨栋
袁小锋
王凯
刘晨亮
郭静宇
刘柢炬
桂卫华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202110532120.6A priority Critical patent/CN113269067B/zh
Publication of CN113269067A publication Critical patent/CN113269067A/zh
Application granted granted Critical
Publication of CN113269067B publication Critical patent/CN113269067B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06316Sequencing of tasks or work
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Development Economics (AREA)
  • Computational Linguistics (AREA)
  • Educational Administration (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于深度学习的周期性工业视频片段关键帧两阶段提取方法。该方法包括:获取工业视频图像,提取感兴趣区域,预处理,得到预处理后图像序列;构建基于深度学习的语义分割网络模型,提取所述预处理后图像的目标区域;第一阶段,构建卷积神经网络对所述预处理后图像进行分类,并对其时间序列进行分割,得候选关键帧序列集合;第二阶段,构建所述目标区域相似度矩阵,对所述候选关键帧序列进行聚类、筛选和融合,得关键帧。本发明针对工业视频特征复杂,当前方法缺乏全局性和局部性的问题,引入深度学习技术,以“先全局后局部”的两阶段思想,更快、更准确地提取了工业视频关键帧,对优化生产,实现提质增产具有指导意义。

Description

基于深度学习的周期性工业视频片段关键帧两阶段提取方法
技术领域
本发明涉及机器视觉、图像处理、模式识别领域,特别涉及一种基于深度学习的周期性工业视频片段关键帧两阶段提取方法。
背景技术
周期性生产过程是一种常见的工业生产过程。在这类过程中,一系列既定的工序被周而复始的执行。例如,在钢铁烧结过程中,存在着“布料→点火→台车行进→卸料”这一周期性生产过程;再比如,在注塑过程中,“合模→填充→保压→冷却→开模→脱模”这一系列工序被循环执行。
工业视频是工业生产过程工况信息的直观表现和间接反映。对于某一生产工序而言,关键帧是其监控视频片段中最能反映当前工业生产过程工况特征的图像,是评估该工序当前生产工况的重要特征参数之一。但是由于工业过程的复杂性,导致目前对关键帧的提取存在着以下问题。
(1)生产周期的动态性
理论上对于周期性生产过程,在生产速率一定的情况下,可以确定每个关键帧之间的时间间隔。在人为确定第一帧关键帧后,可以根据生产速率确定后续生产过程中的各关键帧。但是受到物料、燃料、操作、环境等因素的波动的影响,生产周期往往存在一定的波动,导致各关键帧之间时间间隔无法确定。
(2)工序间的相似性
在实际生产过程中,不同工序往往在同一场合下进行,这使得获得的各工序监控视频间存在着较多相似场景。例如,在烧结过程的机尾断面监控视频中,“台车运行”和“卸料”两个工序之间便存在着“烧结料层”这一共同场景,而“卸料”过程特有的“燃烧带”图像在这一场景中仅占了很小的一部分,从图像特征角度来看,这导致了两工序图像间的相似性。而传统的手工特征提取方法无法有效的克服这一相似性,造成了工序视频片段分割的困难性。
(3)工序内的相似性
在实际生产过程中,生产设备的动作,以及物料、产品的各种物理化学变化,往往为连续变化过程,监控视频各帧之间的差异较小,并主要体现在空间位置和纹理上,传统的手工特征无法有效的表达这一差异性。例如,在烧结过程的机尾断面监控视频中,“卸料”工序的各断面图像间的主要差异主要表现为燃烧带空间分布、纹理等变化,简单的亮度、直方图等手工特征无法精确的描述这一变化。这一问题便导致了工序视频片段关键帧提取的困难性。
因此,如何克服上述问题,准确提取工业视频图像特征,快速实现周期性工业视频片段关键帧提取是工业过程工况评估中亟需解决的问题。
发明内容
基于此,本发明针对上述技术问题,提出了一种基于深度学习的关键帧提取方法,其目的是为了解决现有关键帧提取过程各关键帧时间间隔无法确定,无法有效克服工序相似性以及特征无法精确描述的技术问题,提供一种准确提取工业视频图像特征,快速实现周期性工业视频片段关键帧提取的方法。
本发明提供了一种基于深度学习的工业视频周期性生产片段关键帧两阶段提取方法,,具体包括:
S1:获取工业视频图像,提取兴趣区域图像,并进行预处理,获得预处理图像序列;
S2:构建基于深度学习的语义分割网络模型,对所述预处理图像序列提取图像目标区域;
S3:获取所述步骤S2中语义分割网络模型中间层的输出特征,并构建卷积神经网络模型,对所述预处理图像序列进行二分类,获得图像类别特征;
S4:根据所述图像类别特征对所述预处理后的图像序列进行分割获得候选关键帧序列集合;
S5:计算所述候选关键帧序列集合中各图像目标区域的相似度,构建相似度矩阵,并以所述相似度矩阵为输入,对所述候选关键帧序列进行聚类处理,获得多类别图像集合;
S6:根据工业过程实际需求,构建关键帧选择指标和权值矩阵,根据所述关键帧选择指标对所述多类别图像集合进行筛选获得关键帧序列,并根据所述权值矩阵对所述关键帧序列进行加权平均,获得关键帧。
进一步的,所述步骤S1中的预处理包括去噪、色彩校正和去雾处理。
进一步的,所述步骤S2具体包括:
从预处理图像序列随机选取多张第一典型图像,并筛选出第一掩模图像,构建第一训练集和第一测试集;
将所述第一训练集和第一测试集进行平移、尺度、亮度和旋转变换处理获得增强训练集和测试集;
构建深度语义分割网络模型,以所述增强训练集为输入对网络模型进行输入,并以增强测试集对网络模型进行测试,获得训练后的深度语义分割网络模型;
将所述预处理图像采用训练后的深度语义分割网络模型进行类别特征提取,获得图像类别特征。
进一步的,所述步骤S3具体包括:
从预处理图像序列随机选取多张第二典型图像,并根据工业过程的实际需求将所述第二典型图像进行分类,构建第二训练集和第二测试集;
以所述第二训练集和第二测试集为输入,采用步骤S2中的深度语义分割模型进行模拟,获取模型中间层输出作为图像深度特征;
构建卷积神经网络模型,以所述图像深度特征为输入和分类作为输出,多网络进行训练和测试,获得训练后的卷积神经网络模型;
将所述预处理图像采用训练后的卷积神经网络模型进行特征提取,获得图像类别特征。
进一步的,所述步骤S4具体包括:
构建临时图像序列并设定最小图像序列长度;遍历所述预处理图像序列,提取当前图像的类别特征,并判断图像是否属于目标图像;
若当前图像为目标图像时,将当前图像添加至临时图像序列,且目标图像数量增加1,当所述临时图像序列的数量大于最小图像序列长度时,将临时图像序列中除最后张图像外的所有图像添加至当前目标图像序列;所述当前目标图像序列集合即为候选关键帧序列集合。
进一步的,所述构建相似度矩阵具体包括:
取候选关键帧序列
Figure BDA0003068296140000051
中任意两张图像In和Im,利用所述深度语义分割网络提取相应目标区域Maskn和Maskm,并计算Maskn和Maskm之间的相似度
Figure BDA0003068296140000052
Figure BDA0003068296140000053
其中,
Figure BDA0003068296140000054
表示Maskn和Maskm之间的匹配特征描述子数量,W和H分别为图像的宽度和长度,∑∑Maskn和∑∑Maskm分别表示目标区域Maskn和Maskm的面积,Kn和Km分别表示Maskn和Maskm的特征描述子数量;
计算候选关键帧序列
Figure BDA0003068296140000055
中所有图像之间的相似度,得相似度矩阵
Figure BDA0003068296140000056
进一步的,所述聚类处理具体包括:
根据工业实际需求,设定类别数量D,以所述相似度矩阵为输入,对相对应的候选关键帧序列进行聚类操作,获得多类别图像集合。
进一步的,所述步骤S6具体包括:
以工业过程实际需求为目标,根据所述图像目标区域构建关键帧选择目标,从所述类别图像集合中选择图像获得关键帧序列;
以工业过程实际需求为目标,根据所述图像目标区域构建权值矩阵,对所述关键帧序列中图像进行加权平均,获得关键帧。
有益效果:
本发明的上述实施例所述的基于深度学***均合成关键帧的方式,最大程度减少了图像变化过程中的特征丢失,能够更加完整的反映工业生产过程中的视觉信息。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的基于深度学习的周期性工业视频片段关键帧两阶段提取方法的流程示意图;
图2为本发明实施例提供的典型的原始ROI图像,及其预处理后的图像;
图3为本发明实施例提供的深度语义分割网络结构示意图;
图4为本发明实施例提供的典型的预处理后图像及其图像目标区域;
图5为本发明实施例提供的聚类结果的示意图;
图6为本发明实施例提供的典型关键帧;
图7为本发明实施例提供的各方法对关键帧提取效果的对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,在本发明实施例中,提出了一种基于深度学习的周期性工业视频片段关键帧两阶段提取方法的流程示意图,具体包括以下步骤:
步骤S1,获取工业视频图像,提取兴趣区域图像,并进行预处理,获得预处理图像序列。
在本发明实施例中,对获取的工业视频图像,进行定宽高裁剪,去除图像中的无用背景,提取出感兴趣区域(Region ofInterest,ROI)图像,再对所述ROI图像进行去噪、色彩校正和去雾等预处理操作,降低图像中受不同光照、高温、扬尘影响而产生的噪点、照度不均以及雾化等缺陷,得到预处理后图像序列,如图2所示的ROI图像及其预处理后的图像。
步骤S2,构建基于深度学习的语义分割网络模型,对所述预处理图像序列提取图像目标区域。
在本发明实施例中,首先从所述预处理后的图像中随机选取多张第一典型图像,并筛选出第一掩模图像,构建第一训练集和第一测试集;将所述第一训练集和第一测试集图像进行随机的平移、尺度、亮度和旋转变换等数据增强操作,得增强训练集和测试集;构建深度语义分割网络,如图3所示,其输入的烧结断面尺寸为1024×128×3,整体结构包括四个编码器层和四个对应的解码器层。每层编码器层包含两个3×3的卷积层(Convolution)、一个批正则化层(BatchNormalization)和一个最大池化层(MaxPooling);每层解码器包含一个上采样层(Upsampling)、一个3×3的卷积层、一个联合层(concatenate)、两个3×3的卷积层,以及一个批正则化层。最后经两个3×3的卷积层,由Sigmoid激活函数激活后,输出大小为1024×128×1的燃烧带形态。图3展示了本文设计的深度语义分割网络结构。然后选取所述增强训练集和增强测试集对网络进行训练和测试,训练时采用交叉熵(Cross Entropy)作为损失函数,Adam作为优化器,其学习率为3×10-4。使用训练后的深度语义分割网络,提取所述预处理图像的目标区域,提取结果如图4所示。
步骤S3,获取所述步骤S2中语义分割网络模型中间层的输出特征,并构建卷积神经网络模型,对所述预处理图像序列进行二分类,获得图像类别特征。
在本发明实施例中,引入迁移学习的思想,从预处理图像序列随机选取多张第二典型图像,并根据工业过程的实际需求将所述第二典型图像进行分类,构建第二训练集和第二测试集;以所述第二训练集和第二测试集为输入,采用步骤S2中的深度语义分割模型进行模拟,获取模型中间层输出作为图像深度特征;构建构建卷积神经网络模型,主要包括一个Flatten层、一个128维的全连接层、一个批正则化层、一个2维的全连接层和一个Sigmoid激活层,以所述图像深度特征为输入,以所述人工分类结果为输出,对网络进行训练,训练时采用交叉熵(Cross Entropy)作为损失函数,Adam作为优化器,其学习率为3×10-4;将所述预处理图像采用训练后的卷积神经网络模型进行特征提取,获得图像类别特征。
步骤S4,根据所述图像类别特征对所述预处理后的图像序列进行分割获得候选关键帧序列集合。
在本发明实施例中,所述分割处理具体包括:
步骤S41,输入将预处理图像序列Sinput和最小图像序列长度δ;
步骤S42,定义当前目标图像序列
Figure BDA0003068296140000081
和临时图像序列T,以及目标图像数量Cg=0和非目标图像数量Cng=0;
步骤S43,遍历图像序列Sinput,提取当前图像I的类别特征;
步骤S44,判断图像I是否为目标图像,如果是,则跳转至步骤S45;否则,跳转至步骤S47;
步骤S45,将图像I添加至临时图像序列T,同时令目标图像数量Cg自增1;
步骤S46,判断目标图像数量Cg是否大于等于最小图像序列长度δ,如果是,则令非目标图像数量Cng=0;
步骤S47,令非目标图像数量Cng自增1,同时判断目标图像数量Cg是否大于等于最小图像序列长度δ,如果是,则将图像I添加至临时图像序列T;
步骤S48,判断非目标图像数量Cng是否大于等于最小图像序列长度δ,如果是,则跳转至步骤S49;否则,跳转至步骤S412;
步骤S49,判断目标图像数量Cg是否大于等于最小图像序列长度δ,如果是,则跳转至步骤S410;否则,跳转至步骤S411;
步骤S410,将临时图像序列T中除最后δ张图像外的所有图像添加至当前目标图像序列
Figure BDA0003068296140000091
步骤S411,将目标图像数量Cg和非目标图像数量Cng清零,同时清空临时图像序列T;
步骤S412,重复步骤S43至步骤S411,直到图像序列Sinput终止;
步骤S413,得到候选关键帧序列集合
Figure BDA0003068296140000092
步骤S5,计算所述候选关键帧序列集合中各图像目标区域的相似度,构建相似度矩阵,并以所述相似度矩阵为输入,对所述候选关键帧序列进行聚类处理,获得多类别图像集合。
在本发明实施例中,取候选关键帧序列
Figure BDA0003068296140000093
中任意两张图像In和Im,利用所述深度语义分割网络提取相应目标区域Maskn和Maskm;首先使用STFI算法提取Maskn和Maskm的SIFT特征描述集合
Figure BDA0003068296140000101
Figure BDA0003068296140000102
其中
Figure BDA0003068296140000103
Figure BDA0003068296140000104
分别为128维的特征描述子;然后计算Fn中特征描述子
Figure BDA0003068296140000105
与Fm中各特征描述子
Figure BDA0003068296140000106
之间的欧式距离
Figure BDA0003068296140000107
并选取距离最小的特征描述子作为
Figure BDA0003068296140000108
在Fm的匹配特征描述子
Figure BDA0003068296140000109
同理,可以得到Fm中特征描述子
Figure BDA00030682961400001010
在Fn中的匹配特征描述子为
Figure BDA00030682961400001011
如果
Figure BDA00030682961400001012
则称
Figure BDA00030682961400001013
Figure BDA00030682961400001014
为Mi和Mj之间的匹配特征描述子;
考虑工业过程的时序规律,以及候选关键帧序列中各图像之间的相似性,这里记Maskn和Maskm的相似度为
Figure BDA00030682961400001015
其中
Figure BDA00030682961400001016
表示Maskn和Maskm之间的匹配特征描述子数量,W和H分别为图像的宽度和长度,∑∑Maskn和∑∑Maskm分别表示Maskn和Maskm的面积,Kn和Km分别表示Maskn和Maskm的特征描述子数量;
计算候选关键帧序列
Figure BDA00030682961400001017
中所有图像之间的相似度,得相似度矩阵
Figure BDA00030682961400001018
在本发明实施例中,所述聚类处理具体包括:结合工业生产实际,将生产过程划分为前期、中期和后期,选取类别数量D=3;采用谱聚类算法,以所述相似度矩阵Ai为输入,对相应的候选关键帧序列
Figure BDA0003068296140000111
进行聚类操作,得到多类别图像集合C=(c1,c2,…,cd,…,cD),其聚类结果示意图如图5所示。
步骤S6,根据工业过程实际需求,构建关键帧选择指标和权值矩阵,根据所述关键帧选择指标对所述多类别图像集合进行筛选获得关键帧序列,并根据所述权值矩阵对所述关键帧序列进行加权平均,获得关键帧。
在本发明实施例中,以工业过程实际需求为目标,认为关键帧序列需满足目标区域总面积最大,并位于生产周期的中部;在所述目标区域的基础上,构建关键帧选择指标
Figure BDA0003068296140000112
其中N为候选关键帧序列的图像数量。
从所述多类别图像集合C=(c1,c2,…,cd,…,cD)中选择最佳图像集合,得关键帧序列
Figure BDA0003068296140000113
以工业过程实际需求为目标,根据所述图像目标区域,以目标区域面积为权值,构建权值矩阵W=[w1,w2,…,wK];对关键帧序列
Figure BDA0003068296140000114
中所有图像,以所述权值矩阵W为权,计算其加权平均,得关键帧Ikey,其结果如图6所示。
在本发明实施例,图7展示了图像特征曲线峰值法以目标面积为特征,对工业视频关键帧提取的结果。图A、B和C分别为生产专家提取的关键帧、图像特征曲线峰值法提取的关键帧和本文所提方法提取的关键帧的及其对应的图像目标区域。为了对两种方法的优异进行评估,本发明使用均值哈希距离、差值哈希距离、感知哈希距离、余弦距离和SIFT匹配特征点匹配率(生产专家提取的关键帧的SIFT特征点被匹配的百分比)计算两种方法与生产专家所提关键帧之间的相似度。其中,均值哈希距离、差值哈希距离和感知哈希距离越小,说明两幅图像之间的相似度越高;余弦距离和SIFT匹配特征点匹配率越大,说明两幅图像之间的相似度越高。表1展示上述方法对两种算法的评估结果,可见本发明所提方法能够更加准确的提取关键帧。
表1不同方法与生产专家所提关键帧之间的相似度
Figure BDA0003068296140000121
根据生产专家和本文所提方法,图7中框1内的图像属于同一生产周期,但图像特征曲线峰值法将其分为了三个周期,可见本发明所提方法对关键帧提取的准确率更高。
本发明的上述实施例所述的基于深度学***均合成关键帧的方式,最大程度减少了图像变化过程中的特征丢失,能够更加完整的反映工业生产过程中的视觉信息。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

Claims (8)

1.一种基于深度学习的工业视频周期性生产片段关键帧两阶段提取方法,其特征在于,具体包括:
S1:获取工业视频图像,提取兴趣区域图像,并进行预处理,获得预处理图像序列;
S2:构建基于深度学习的语义分割网络模型,对所述预处理图像序列提取图像目标区域;
S3:获取所述步骤S2中语义分割网络模型中间层的输出特征,并构建卷积神经网络模型,对所述预处理图像序列进行二分类,获得图像类别特征;
S4:根据所述图像类别特征对所述预处理后的图像序列进行分割获得候选关键帧序列集合;
S5:计算所述候选关键帧序列集合中各图像目标区域的相似度,构建相似度矩阵,并以所述相似度矩阵为输入,对所述候选关键帧序列进行聚类处理,获得多类别图像集合;
S6:根据工业过程实际需求,构建关键帧选择指标和权值矩阵,根据所述关键帧选择指标对所述多类别图像集合进行筛选获得关键帧序列,并根据所述权值矩阵对所述关键帧序列进行加权平均,获得关键帧。
2.根据权利要求1所述的基于深度学习的工业视频周期性生产片段关键帧两阶段提取方法,其特征在于,所述步骤S1中的预处理包括去噪、色彩校正和去雾处理。
3.根据权利要求1所述的基于深度学习的工业视频周期性生产片段关键帧两阶段提取方法,其特征在于,所述步骤S2具体包括:
从预处理图像序列随机选取多张第一典型图像,并筛选出第一掩模图像,构建第一训练集和第一测试集;
将所述第一训练集和第一测试集进行平移、尺度、亮度和旋转变换处理获得增强训练集和测试集;
构建深度语义分割网络模型,以所述增强训练集为输入对网络模型进行输入,并以增强测试集对网络模型进行测试,获得训练后的深度语义分割网络模型;
将所述预处理图像采用训练后的深度语义分割网络模型进行类别特征提取,获得图像类别特征。
4.根据权利要求1所述的基于深度学习的工业视频周期性生产片段关键帧两阶段提取方法,其特征在于,所述步骤S3具体包括:
从预处理图像序列随机选取多张第二典型图像,并根据工业过程的实际需求将所述第二典型图像进行分类,构建第二训练集和第二测试集;
以所述第二训练集和第二测试集为输入,采用步骤S2中的深度语义分割模型进行模拟,获取模型中间层输出作为图像深度特征;
构建卷积神经网络模型,以所述图像深度特征为输入和分类作为输出,多网络进行训练和测试,获得训练后的卷积神经网络模型;
将所述预处理图像采用训练后的卷积神经网络模型进行特征提取,获得图像类别特征。
5.根据权利要求1所述的基于深度学习的工业视频周期性生产片段关键帧两阶段提取方法,其特征在于,所述步骤S4具体包括:
构建临时图像序列并设定最小图像序列长度δ;遍历所述预处理图像序列,提取当前图像的类别特征,并判断图像是否属于目标图像;
若当前图像为目标图像时,将当前图像添加至临时图像序列,且目标图像数量增加1,当所述临时图像序列的数量大于最小图像序列长度δ时,将临时图像序列中除最后张图像外的所有图像添加至当前目标图像序列;所述当前目标图像序列集合即为候选关键帧序列集合。
6.根据权利要求1所述的基于深度学习的工业视频周期性生产片段关键帧两阶段提取方法,其特征在于,所述构建相似度矩阵具体包括:
取候选关键帧序列
Figure FDA0003068296130000031
中任意两张图像In和Im,利用所述深度语义分割网络提取相应目标区域Maskn和Maskm,并计算Maskn和Maskm之间的相似度
Figure FDA0003068296130000032
Figure FDA0003068296130000033
其中,
Figure FDA0003068296130000034
表示Maskn和Maskm之间的匹配特征描述子数量,W和H分别为图像的宽度和长度,∑∑Maskn和∑∑Maskm分别表示目标区域Maskn和Maskm的面积,Kn和Km分别表示Maskn和Maskm的特征描述子数量;
计算候选关键帧序列
Figure FDA0003068296130000035
中所有图像之间的相似度,得相似度矩阵
Figure FDA0003068296130000036
7.根据权利要求1所述的基于深度学习的工业视频周期性生产片段关键帧两阶段提取方法,其特征在于,所述聚类处理具体包括:
根据工业实际需求,设定类别数量D,以所述相似度矩阵为输入,对相对应的候选关键帧序列进行聚类操作,获得多类别图像集合。
8.根据权利要求1所述的基于深度学习的工业视频周期性生产片段关键帧两阶段提取方法,其特征在于,所述步骤S6具体包括:
以工业过程实际需求为目标,根据所述图像目标区域构建关键帧选择目标,从所述类别图像集合中选择图像获得关键帧序列;
以工业过程实际需求为目标,根据所述图像目标区域构建权值矩阵,对所述关键帧序列中图像进行加权平均,获得关键帧。
CN202110532120.6A 2021-05-17 2021-05-17 基于深度学习的周期性工业视频片段关键帧两阶段提取方法 Active CN113269067B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110532120.6A CN113269067B (zh) 2021-05-17 2021-05-17 基于深度学习的周期性工业视频片段关键帧两阶段提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110532120.6A CN113269067B (zh) 2021-05-17 2021-05-17 基于深度学习的周期性工业视频片段关键帧两阶段提取方法

Publications (2)

Publication Number Publication Date
CN113269067A true CN113269067A (zh) 2021-08-17
CN113269067B CN113269067B (zh) 2023-04-07

Family

ID=77231053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110532120.6A Active CN113269067B (zh) 2021-05-17 2021-05-17 基于深度学习的周期性工业视频片段关键帧两阶段提取方法

Country Status (1)

Country Link
CN (1) CN113269067B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023056835A1 (zh) * 2021-10-09 2023-04-13 北京字节跳动网络技术有限公司 视频封面生成方法、装置、电子设备及可读介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590442A (zh) * 2017-08-22 2018-01-16 华中科技大学 一种基于卷积神经网络的视频语义场景分割方法
CN107784118A (zh) * 2017-11-14 2018-03-09 北京林业大学 一种针对用户兴趣语义的视频关键信息提取***
CN107943837A (zh) * 2017-10-27 2018-04-20 江苏理工学院 一种前景目标关键帧化的视频摘要生成方法
CN109377494A (zh) * 2018-09-14 2019-02-22 阿里巴巴集团控股有限公司 一种用于图像的语义分割方法和装置
US20200413070A1 (en) * 2019-06-28 2020-12-31 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method for image coding, electronic device and computer-readable storage medium

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590442A (zh) * 2017-08-22 2018-01-16 华中科技大学 一种基于卷积神经网络的视频语义场景分割方法
CN107943837A (zh) * 2017-10-27 2018-04-20 江苏理工学院 一种前景目标关键帧化的视频摘要生成方法
CN107784118A (zh) * 2017-11-14 2018-03-09 北京林业大学 一种针对用户兴趣语义的视频关键信息提取***
CN109377494A (zh) * 2018-09-14 2019-02-22 阿里巴巴集团控股有限公司 一种用于图像的语义分割方法和装置
US20200413070A1 (en) * 2019-06-28 2020-12-31 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method for image coding, electronic device and computer-readable storage medium

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YUDONG QI.ET.: "Computer Vision-Based Online Heterogeneity Assessment of the Sintering Transversal Thermal State", 《PROCEEDINGS OF THE 39TH CHINESE CONTROL CONFERENCE》 *
王蒲: "自动驾驶中的视频语义分割技术研究", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023056835A1 (zh) * 2021-10-09 2023-04-13 北京字节跳动网络技术有限公司 视频封面生成方法、装置、电子设备及可读介质

Also Published As

Publication number Publication date
CN113269067B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
Jenkins et al. A deep convolutional neural network for semantic pixel-wise segmentation of road and pavement surface cracks
CN110111344B (zh) 病理切片图像分级方法、装置、计算机设备和存储介质
CN109543627B (zh) 一种判断驾驶行为类别的方法、装置、及计算机设备
CN112036335B (zh) 一种反卷积引导的半监督植物叶部病害识别与分割方法
CN108573246B (zh) 一种基于深度学习的时序动作识别方法
CN110287777B (zh) 一种自然场景下的金丝猴躯体分割算法
CN110322445B (zh) 基于最大化预测和标签间相关性损失函数的语义分割方法
CN111260055A (zh) 基于三维图像识别的模型训练方法、存储介质和设备
CN112633061A (zh) 一种轻量级的fire-det火焰检测方法及***
CN115019111B (zh) 用于互联网文创作品的数据处理方法
CN111986126B (zh) 一种基于改进vgg16网络的多目标检测方法
CN111160481B (zh) 基于深度学习的adas目标检测方法及***
Muttu et al. Effective face detection, feature extraction & neural network based approaches for facial expression recognition
CN113269067B (zh) 基于深度学习的周期性工业视频片段关键帧两阶段提取方法
Muslihah et al. Texture characteristic of local binary pattern on face recognition with probabilistic linear discriminant analysis
CN113344000A (zh) 证件翻拍识别方法、装置、计算机设备和存储介质
CN104637045A (zh) 一种基于超级像素层次特征的图像像素标号方法
Marzan et al. Automated tobacco grading using image processing techniques and a convolutional neural network
CN114724218A (zh) 视频检测方法、装置、设备及介质
Zhou et al. Attention transfer network for nature image matting
CN112528058A (zh) 基于图像属性主动学习的细粒度图像分类方法
CN114444566B (zh) 一种图像伪造检测方法、装置以及计算机存储介质
Silva et al. Online weighted one-class ensemble for feature selection in background/foreground separation
CN116206227B (zh) 5g富媒体信息的图片审查***、方法、电子设备及介质
CN116645562A (zh) 一种细粒度伪造图像的检测方法及其模型训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant