CN113158829A - 一种基于EfficientDet网络的深度学习矿石大小测量方法及预警*** - Google Patents

一种基于EfficientDet网络的深度学习矿石大小测量方法及预警*** Download PDF

Info

Publication number
CN113158829A
CN113158829A CN202110343840.8A CN202110343840A CN113158829A CN 113158829 A CN113158829 A CN 113158829A CN 202110343840 A CN202110343840 A CN 202110343840A CN 113158829 A CN113158829 A CN 113158829A
Authority
CN
China
Prior art keywords
ore
network
size
efficientdet
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110343840.8A
Other languages
English (en)
Inventor
段章领
周行云
盛一帆
朱明杰
徐岳
杨富超
胡倩凝
汪志敏
马腾
张馨雨
周明祎
熊天乐
潘悦靓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN202110343840.8A priority Critical patent/CN113158829A/zh
Publication of CN113158829A publication Critical patent/CN113158829A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于EfficientDet网络的深度学习矿石测量方法及应用***,其中包括:通过高帧率摄像头获取流动皮带上的矿石图像;预处理矿石图像:标记图像中所有矿石,去除异常数据,对图像进行数据增强;将标记后的样本按7:2:1分为训练集,验证集和测试集;使用EfficientDet网络进行训练得到网络模型;在测试的时候使用EfficientDet网络模型得到的预测框定位出矿石的位置并通过摄像头的焦距以及图像像素大小计算出矿石的大小;根据***预设阈值,发现有矿石大小超过***阈值时发出提醒。本发明可以的高效的检测矿石的大小,相对于其他网络模型,使用更少的参数,有更快的检测速度,极大地降低了对人工的依赖。

Description

一种基于EfficientDet网络的深度学习矿石大小测量方法及 预警***
技术领域
本发明涉及一种图像目标识别方法,一种基于EfficientDet网络的深度学习矿石大小测量方法及预警***。
背景技术
矿产资源指经过地质成矿作用,使埋藏于地下或出露于地表、并具有开发利用价值的矿物或有用元素的含量达到具有工业利用价值的集合体。矿产资源是重要的自然资源,是社会生产发展的重要物质基础,现代社会人们的生产和生活都离不开矿产资源。矿产资源属于不可再生资源,其储量是有限的。要加大对矿产资源的利用的广度和深度。按其特点和用途,通常分为金属矿产、非金属矿产和能源矿产三大类。金属矿石的采掘以***形式进行,不均匀的矿石经过皮带机运输到一级破碎机时,如果矿石大小太大容易损伤破碎机机体。目前主要人工进行监控,再筛选大块矿石,以降低对破碎机机体的损害。而人工筛选的问题主要有两点:首先是安全问题,提升井皮带机环境恶劣,粉尘和噪声严重,长时间对工人身体造成损伤;其次是人工监测长时间工作会出现视觉疲劳,容易出现漏检情况,导致损伤破碎机机体。国外一些发达国家,已经将机器视觉的相关知识应用到矿石的开采中,以提高效率,而国内现在使用机器视觉相关知识的还比较少。本专利采用深度学习领域机器视觉相关知识,构建EfficientDet检测网络,实现所有的矿石块的实时检测,定位其位置,识别其大小,并在遇到超过***阈值大小的矿石块时进行实时预警,告知皮带控制***相关情况,使皮带及时停止。于此同时将异常信号传输给执行机构,执行机构拨出大块矿石。大量减少了人工的使用,保障工人安全的同时提高了检测效率,极大地降低漏检的情况。模型效率在计算机视觉中十分重要, EfficientDet网络相较于之前的深度学习网络如MaskR-CNN等,可以使用更少的参数和更低的运算量达到更高的精度,以提高检测的效率。
综上所述,传统的矿石大小检测需要大量的人工进行手工操作问题,基于神经网络的模型的检测参数量过大,需要强大的算力的技术问题,本专利使用EfficientDet进行矿石大小检测和预警,大量减少了人工的使用,提高了检测效率。
发明内容
对于上述现有技术存在的问题,提出了一种基于EfficientDet网络的深度学习矿石大小测量方法及预警***,目的是为了解决矿石大小检测中存在的极大地依赖人工,效率低,准确率低,模型参数量过大,需要强大的算力的技术问题。具体包括:通过高帧率摄像头捕捉皮带上运输矿石的视频流,将视频流转换为图片;将图像进行手工标注,并剔除异常的矿石图片;将获取到的矿石图片按7:2:1分为训练图片、验证图片和测试图片;对矿石图片进行数据增强提高泛化能力;使用EfficientNet网络作为骨干,创建EfficientDet目标检测网络,使用训练数据集得到网络模型;使用训练完成的EfficientDet网络模型进行测试,将得到的预测框用于定位出矿石的位置并通过摄像头的焦距以及图像像素大小计算出矿石的大小。根据***预设阈值,发现有矿石大小超过***阈值时发出预警,同时将异常信号传输给执行机构,执行机构拨出大块矿石。
本发明采用如下技术方案解决技术问题: 一种基于EfficientDet网络的深度学习矿石大小测量方法及预警***,用在矿业中检测矿石大小,并对超过阈值大小的矿石块进行智能化处理,具体步骤如下:
S1、数据获取阶段:通过高速摄像头拍摄流动皮带上矿石,将视频流的关键帧存储为图片;
S2、数据预处理阶段:将图像进行手工标注,检测并剔除异常的矿石图片;将获取到的矿石图片按7:2:1分为训练图片、验证图片和测试图片;对矿石图片进行数据增强提高泛化能力;
S3、创建与训练网络阶段:使用EfficientNet网络作为骨干网络,BiFPN(bi-directional feature pyramid network)作为特征提取网络,选择EfficientD0至D7中的一个来创建EfficientDet目标检测网络,设置参数如学习率、Batch size、训练的轮数、优化器等,使用矿石训练数据集得到网络模型;
S4、测试阶段:使用训练完成的EfficientDet网络模型进行测试,将得到的预测框用于定位出矿石的位置并通过摄像头的焦距以及图像大小计算出矿石的大小;
S5、提醒阶段:根据***预设阈值,发现有矿石大小超过***阈值时发出预警,同时将异常信号传输给执行机构,执行机构拨出大块矿石。
对上述方案的进行进一步描述:
所述步骤S1中数据获取,由以下步骤组成:
(1)、通过安装在皮带附近的多个不同角度的高帧率摄像头获取矿石图片视频流;
(2)、从已经获取到的图片视频流中截取关键帧作为图像数据;
所述步骤S2中数据预处理,由以下步骤组成:
(i)使用图像标注工具Lableme对获取到的图片数据中矿石位置、大小进行标记,矿石的大小并不规整,需要进行多边形标记;
(ii)检测出不符合要求的矿石图片数据,并将其剔除;主要是检测标注的数据是否超过图片的边界的异常情况以及坐标位置颠倒的情况;
(iii)对训练图片进行数据增强:对矿石图片随机进行不同角度的水平和竖直反转;对矿石图片进行缩放;通过直方图均衡调整图像的像素值使得其值变为均匀分布;添加随机噪声;将图像从RGB色彩空间转换为HSV色彩空间调整图片亮度,将图像进行正规化操作,以及对噪声进行处理;以此来提高网络的泛化能力。
所述步骤S3中创建与训练网络阶段,由以下步骤组成:
(Ⅰ)使用EfficientNet网络作为骨干网络,采用BiFPN网路对EfficientNet提取到的网络特征进行融合,EfficientDet的Head对提取到的特征进行分类和回归预测;
(Ⅱ)整个EfficientNet有B0-B7多个版本,其中EfficientNet-B0由1个Conv(3×3)、1个MBConv1(3×3)、2个MBConv6(3×3)、2个MBConv6(5×5)、3个MBConv6(3×3)、3个MBConv6(5×5)、4个MBConv6(5×5)、一个MBConv6(3×3)、一个Conv(1×1)、一个Pooling层,一个FC层。其中MBConv包含残差结构。先使用1×1的卷积进行升维操作,再进行3×3或5×5的卷积,此后增加关于通道的注意力机制,在使用1×1的卷积进行降维操作,再与残差结构进行堆叠。MBConv的激活函数使用的是Swish函数,并使用Batch Normalization进行标准化;
Swish函数的定义为
Figure 100002_DEST_PATH_IMAGE001
其中
Figure 100002_DEST_PATH_IMAGE002
是一个常数或可训练的参数;
Figure 365017DEST_PATH_IMAGE003
函数表达式如下:
Figure 100002_DEST_PATH_IMAGE004
于此同时EfficientNet-B0将网络的宽度(depth)、深度(width)和分辨率 (resolution)按照公式X(TODO)的要求,使用系数
Figure 100002_DEST_PATH_IMAGE005
进行复合缩放。其中,α、β、γ是可以通 过网格搜索确定的常数。在
Figure 100002_DEST_PATH_IMAGE006
Figure 891945DEST_PATH_IMAGE007
的约束下, EfficientNet-B0的最佳值为
Figure 100002_DEST_PATH_IMAGE008
=1.2,
Figure 609365DEST_PATH_IMAGE002
=1.1,
Figure 196118DEST_PATH_IMAGE009
=1.15。
Figure 100002_DEST_PATH_IMAGE010
所述步骤S3中创建BiFPN,由以下步骤组成:
(A) BiFPN网络可以学习来自不同输入特征的重要性,同时重复应用自顶向下和自底向上的多大小特征融合。加强提取网络由多个BiFPN构成,其中EfficientDet-D0到D7分别由3、4、5、6、7、7、8、8个BiFPN构成;
(B)EfficientDet包含EfficientNet主干提取网络和BiFPN加强提取网络,以及 Efficient Head将提取到的特征转化为预测结果。首先EfficientNet将输入的图片不断进 行下采样,原始的EfficientNet的下采样次数是5次,通过EfficientNet可以获得
Figure 682594DEST_PATH_IMAGE011
Figure 100002_DEST_PATH_IMAGE012
Figure 442739DEST_PATH_IMAGE013
Figure 100002_DEST_PATH_IMAGE014
Figure 647456DEST_PATH_IMAGE015
Figure 315197DEST_PATH_IMAGE011
是输入图片长和宽压缩一次的结果,
Figure 452918DEST_PATH_IMAGE012
是输入图片长和宽压缩两次的结果,
Figure 649544DEST_PATH_IMAGE013
是 输入图片长和宽压缩三次的结果,以此类推。由于
Figure 872715DEST_PATH_IMAGE011
Figure 78568DEST_PATH_IMAGE012
并不具有较高的语义信息,因此在 加强提取网络BiFPN中并不会用到
Figure 70795DEST_PATH_IMAGE011
Figure 969481DEST_PATH_IMAGE012
Figure 679948DEST_PATH_IMAGE013
Figure 158334DEST_PATH_IMAGE014
Figure 270646DEST_PATH_IMAGE015
具有比较高的语义信息,因此在加强提 取网络BiFPN中使用到,作为5个有效特征层中的三个。对P5进行两次下采样,获得具有更高 语义的信息的
Figure 100002_DEST_PATH_IMAGE016
Figure 543496DEST_PATH_IMAGE017
。获得5个有效特征层
Figure 741259DEST_PATH_IMAGE013
Figure 288915DEST_PATH_IMAGE014
Figure 255734DEST_PATH_IMAGE015
Figure 496222DEST_PATH_IMAGE016
Figure 915702DEST_PATH_IMAGE017
(C)将这5个特征层,传入加强提取网络BiFPN进行进一步的特征提取,其中
Figure 100002_DEST_PATH_IMAGE018
表 示分辨率为输入图像
Figure 470312DEST_PATH_IMAGE019
的特征级别。例如,如果输入分辨率为640x640,
Figure DEST_PATH_IMAGE020
代表分辨率为 80x80的特征级别3(640/
Figure 760479DEST_PATH_IMAGE021
= 80),而
Figure 100002_DEST_PATH_IMAGE022
代表代表分辨率为5x5的7级特征级别;具体如下:
①进行通道数的调整,获得
Figure 640710DEST_PATH_IMAGE023
Figure 100002_DEST_PATH_IMAGE024
Figure 16328DEST_PATH_IMAGE025
Figure 100002_DEST_PATH_IMAGE026
Figure 374628DEST_PATH_IMAGE027
,如果是第一次进入BiFPN,将
Figure 50460DEST_PATH_IMAGE024
通过减少通道数转化为
Figure 632751DEST_PATH_IMAGE024
_1和
Figure 26823DEST_PATH_IMAGE024
_2,
Figure 719973DEST_PATH_IMAGE025
通过减少通道转化为
Figure 984732DEST_PATH_IMAGE025
_1和
Figure 737924DEST_PATH_IMAGE025
_2;
②在获得
Figure 619293DEST_PATH_IMAGE023
Figure 116133DEST_PATH_IMAGE024
_1、
Figure 766557DEST_PATH_IMAGE024
_2、
Figure 425072DEST_PATH_IMAGE025
_1、
Figure 793736DEST_PATH_IMAGE025
_2、
Figure 563109DEST_PATH_IMAGE026
Figure 599198DEST_PATH_IMAGE027
之后需要对
Figure 428614DEST_PATH_IMAGE027
进行上采样,上采 样后与
Figure 18995DEST_PATH_IMAGE026
采用注意力机制,用来判断是更关注
Figure 857638DEST_PATH_IMAGE027
还是
Figure 217075DEST_PATH_IMAGE026
,再用swish函数进行激活,再进 行卷积从而获得
Figure 100002_DEST_PATH_IMAGE028
③对
Figure 686234DEST_PATH_IMAGE028
进行上采样,上采样后与
Figure 763911DEST_PATH_IMAGE025
_1采用注意力机制,用来判断是更关注
Figure 406245DEST_PATH_IMAGE028
还 是
Figure 885768DEST_PATH_IMAGE025
_1,再用swish函数进行激活,再进行卷积从而获得
Figure 322566DEST_PATH_IMAGE029
④对
Figure 887539DEST_PATH_IMAGE029
进行上采样,上采样后与
Figure 67985DEST_PATH_IMAGE024
_1采用注意力机制,用来判断是更关注
Figure 402014DEST_PATH_IMAGE029
还 是
Figure 755853DEST_PATH_IMAGE024
_1,再用swish函数进行激活,再进行卷积从而获得
Figure 100002_DEST_PATH_IMAGE030
⑤对
Figure 276964DEST_PATH_IMAGE030
进行上采样,上采样后与
Figure 995521DEST_PATH_IMAGE023
采用注意力机制,用来判断是更关注
Figure 449636DEST_PATH_IMAGE030
还是
Figure 493816DEST_PATH_IMAGE023
,再用swish函数进行激活,再进行卷积从而获得
Figure 767802DEST_PATH_IMAGE031
⑥在获得
Figure 290050DEST_PATH_IMAGE031
Figure 598672DEST_PATH_IMAGE030
Figure 548173DEST_PATH_IMAGE024
_2、
Figure 43877DEST_PATH_IMAGE029
Figure 369816DEST_PATH_IMAGE025
_2、
Figure 532944DEST_PATH_IMAGE026
Figure 653347DEST_PATH_IMAGE028
Figure 167505DEST_PATH_IMAGE027
之后,需要对
Figure 31555DEST_PATH_IMAGE031
进行下采样,下 采样后与
Figure 49190DEST_PATH_IMAGE030
Figure 340494DEST_PATH_IMAGE024
_2采用注意力机制,用来判断是更关注
Figure 76369DEST_PATH_IMAGE031
Figure 744111DEST_PATH_IMAGE030
还是
Figure 616252DEST_PATH_IMAGE024
_2,再用swish函数 进行激活,再进行卷积从而获得
Figure 100002_DEST_PATH_IMAGE032
⑦对
Figure 547299DEST_PATH_IMAGE032
进行下采样,下采样后与
Figure 36049DEST_PATH_IMAGE029
Figure 241902DEST_PATH_IMAGE025
_2采用注意力机制,用来判断是更关注
Figure 234129DEST_PATH_IMAGE032
Figure 867236DEST_PATH_IMAGE029
还是
Figure 312123DEST_PATH_IMAGE025
_2,再用swish函数进行激活,再进行卷积从而获得
Figure 321668DEST_PATH_IMAGE033
;之后对
Figure 433980DEST_PATH_IMAGE033
进行下 采样,下采样后与
Figure 237988DEST_PATH_IMAGE026
Figure 435751DEST_PATH_IMAGE028
采用注意力机制,用来判断是更关注
Figure 983407DEST_PATH_IMAGE033
Figure 950226DEST_PATH_IMAGE026
还是
Figure 925135DEST_PATH_IMAGE028
,再用swish 函数进行激活,再进行卷积从而获得
Figure 100002_DEST_PATH_IMAGE034
;之后对
Figure 79036DEST_PATH_IMAGE034
进行下采样,下采样后与
Figure 430383DEST_PATH_IMAGE027
采用注意 力机制,用来判断是更关注
Figure 251709DEST_PATH_IMAGE034
、还是
Figure 397519DEST_PATH_IMAGE027
,再用swish函数进行激活,再进行卷积从而获得
Figure 304295DEST_PATH_IMAGE035
⑧将获得的
Figure 193754DEST_PATH_IMAGE031
Figure 135165DEST_PATH_IMAGE032
Figure 451877DEST_PATH_IMAGE033
Figure 580370DEST_PATH_IMAGE034
Figure 273520DEST_PATH_IMAGE035
作为
Figure 69437DEST_PATH_IMAGE023
Figure 822630DEST_PATH_IMAGE024
Figure 703998DEST_PATH_IMAGE025
Figure 935259DEST_PATH_IMAGE026
Figure 320104DEST_PATH_IMAGE027
,重复之前步骤进 行堆叠即可,对于EffiicientDet-B0,还需要重复2次,此时
Figure 244198DEST_PATH_IMAGE024
_1和
Figure 612862DEST_PATH_IMAGE024
_2不需要分开了,
Figure 647814DEST_PATH_IMAGE025
_1和
Figure 152745DEST_PATH_IMAGE025
_2也不需要分开。以上融合特征在第6层可以简述为:
Figure DEST_PATH_IMAGE036
Figure 716581DEST_PATH_IMAGE037
其中
Figure DEST_PATH_IMAGE038
代表第
Figure DEST_PATH_IMAGE039
层的特征,其中
Figure DEST_PATH_IMAGE040
是自上而下路径上第6级的中间特征,而
Figure DEST_PATH_IMAGE041
是自下而上路径中第6级的输出特征;
当融合不同分辨率的特征时,一种常见的方法是首先将它们调整到相同的分辨率,然后对它们进行求和,以前的方法一视同仁地对待所有输入特征;
由于不同的输入特征具有不同的分辨率,它们对输出特征的贡献通常是不相等的;
BiFPN每个输入添加额外的权重,并让网络了解每个输入特征的重要性。BiFPN使用Fast normalized fusion(快速归一化融合):
Figure DEST_PATH_IMAGE042
Figure 639452DEST_PATH_IMAGE043
是一个可学习的权重,可以是标量(每个特征)、矢量(每个通道)或多维张量(每 个像素)。为了避免数值不稳定,
Figure DEST_PATH_IMAGE044
设置为一个较小的值
Figure 681357DEST_PATH_IMAGE045
=0.0001;
BiFPN的宽度和深度使用以下公式缩放:
Figure 100002_DEST_PATH_IMAGE046
Figure DEST_PATH_IMAGE047
其中1.35作为BiFPN宽度缩放因子,
Figure 100002_DEST_PATH_IMAGE048
是控制所有其他比例维度的复合系数。预测 网络的宽度和BiFPN相同:
Figure 447319DEST_PATH_IMAGE049
预测网络的深度使用等式进行线性增加:
Figure 100002_DEST_PATH_IMAGE050
所述步骤S3中构建损失函数,由以下步骤组成:
(P1)使用如下损失函数计算网络结果与真实值之间的差异:
Figure 182057DEST_PATH_IMAGE051
其中
Figure 100002_DEST_PATH_IMAGE052
是分类的loss,
Figure 462997DEST_PATH_IMAGE053
是回归的loss。
Figure 105330DEST_PATH_IMAGE053
使用的是是Smooth-L1 loss函 数。Smooth-L1 loss函数如下所示:
Figure 100002_DEST_PATH_IMAGE054
(P2)一张图像有很多候选框,其中包含目标的是正样本,不包含目标的是负样本。如果样本一属于类别一的概率为0.9,样本二属于类别一的概率为0.6,前者是容易分类的样本,后者是难分类的样本。EfficientDet中的分类loss是Focal loss。Focal loss可以控制正负样本的权重,同时可以控制容易分类和难分类样本的权重;
(P3) Focal loss源自于交叉熵损失函数,二分类的交叉熵函数损失为:
Figure 53695DEST_PATH_IMAGE055
使用
Figure 100002_DEST_PATH_IMAGE056
简化交叉熵损失函数:
Figure DEST_PATH_IMAGE057
Figure 100002_DEST_PATH_IMAGE058
控制正负样本的权重,可以在交叉熵损失函数前增加一个系数
Figure DEST_PATH_IMAGE059
Figure 100002_DEST_PATH_IMAGE060
Figure DEST_PATH_IMAGE061
控制容易分类和难分类样本的权重;
Figure DEST_PATH_IMAGE062
Figure 506804DEST_PATH_IMAGE063
称为调制系数(modulating factor)。当γ=0的时候,focal loss就是 交叉熵损失函数,可以通过调整
Figure 71778DEST_PATH_IMAGE009
实现调制系数的改变。两种权重进行合并可得:
Figure 100002_DEST_PATH_IMAGE064
其中
Figure 455486DEST_PATH_IMAGE008
= 0.25和
Figure 55094DEST_PATH_IMAGE009
= 1.5。
所述步骤S4中测试阶段,由以下步骤组成:
(Q1)为了和普通特征层区分,我们称之为BiFPN提取到的特征层称为有效特征层,将这五个有效的特征层传入ClassNet(分类预测网络)和BoxNet(回归预测网络)即可获得预测结果;
(Q2)对于Efficientdet-B0来说,ClassNet采用3次64通道的深度可分离卷积和1次该特征层所拥有的先验框数量乘以网络共有多少类的目标的卷积,先验框数量默认为9。BoxNet采用3次64通道的卷积和1次该特征层所拥有的先验框数量乘以四的卷积,四指的是先验框的调整情况,调增中心位置和宽高。EfficientDet默认有9个先验框,可按照实际情况对先验框的长宽比例进行调整,以适合检测的目标。EfficientDet会判定先验框中的物体以及物体的种类,并且会对先验框进行调整,使用非极大抑制(soft-NMS)筛选出在一定区域属于同一种类置信度最大的框,获得最终的预测框;
(Q3) 将预先的保留的矿石测试图片传入EfficientDet网络进行预测,得到图片中矿石的预测框,并计算出预测框的大小,再通过预测框的大小和误差计算出真实矿石的大小;
(Q4) 根据摄像头的安装角度、摄像头到皮带的距离以及网络模型预测框的大小和图像的像素计算出其真实大小:
Figure 100002_DEST_PATH_IMAGE065
Figure 100002_DEST_PATH_IMAGE066
是摄像头与皮带垂线的夹角,
Figure DEST_PATH_IMAGE067
表示矿石的真实大小,
Figure 100002_DEST_PATH_IMAGE068
表示摄像 头与皮带间的垂直距离,
Figure 7001DEST_PATH_IMAGE069
表示摄像头的焦距,
Figure 100002_DEST_PATH_IMAGE070
表示EfficientDet网络模型预测框的大 小。
所述步骤S5中提醒阶段,由以下步骤组成:
(T1)设置***阈值为矿石大小报警阈值与误差阈值之和,将计算得到的矿石真实大小与***阈值进行比较;
(T2) 发现有矿石大小超过***阈值时发出预警,同时将异常信号传输给执行机构,执行机构拨出大块矿石。
所述预警***,由以下部分组成:
(D1) 用户模块,负责用户的注册、登录、管理,显示个人的用户信息,提供超级用户的管理权限;
(D2) 矿石视频流采集模块,通过安装在矿石流动皮带附近各个角度的摄像头采集矿石视频流,并将采集到的图像发送给实时预警模块;
(D3) 实时预警模块,接受矿石视频流采集模块发送的矿石图像,并矿石图像传入到经过训练的EfficientDet网络中,得到矿石的位置及大小,将计算得到的矿石真实大小与***阈值进行比较。如果其真实大小比***阈值更大,则将异常信息显示到页面上,并将异常信息写入数据库;
(D4) 设置模块,设置***相关参数以及日志相关参数,如报警矿石块大小等;
(D5)日志模块,接受实时预警***的异常记录并显示该异常,并将异常记录同步到云端服务器。
所述预警***Web端的用户模块,由以下部分组成:
(U1) 对新的管理人员提供注册、登录功能,可以操作并使用整个***,将其信息保存至云端服务器,并赋予相应的权限;
(U2) 对权限高的超级管理员提供操作***的高级权限,操作并使用整个***的同时管理其他用户。
所述预警***Web端的实时预警模块,由以下部分组成:
(R1)添加、删除、修改对应的工控机设备;
(R2)实时显示已经添加的工控机设备的皮带转动画面;支持启动和停止显示该工控机设备的皮带转动画面;
(R3)当检测到某工控机矿石真实大小大于***阈值时,显示异常信息,用户可以根据异常信息选择是否停止该工控机的运转,并将异常记录的工控机信息、发生异常的时间和图片保存至数据库中,同时写入日志模块;每隔一段时间将数据库中的异常记录同步至云端服务器。
所述预警***Web端的设置模块,由以下部分组成:
设置预警***的相关信息,主要有设置***预警的矿石块大小,设置***误差的大小以及设置相机的焦距、云端服务器端口等。
所述预警***Web端的日志模块,由以下部分组成:
(Z1)接受实时告警***的异常记录,实时显示在页面上,并将记录写入数据库;
(Z2)选择是否将日志同步到云端服务器;
(Z3)提供搜索功能,可能根据工控机设备、时间、阈值等信息搜索告警记录。
所述预警***APP端的用户模块,由以下部分组成:
(M1)与Web端的数据库保持同步,对新的管理人员提供注册、登录功能,可以操作并使用整个***,将其信息保存至云端服务器,并赋予相应的权限;
(M2)权限高的超级管理员提供操作***的高级权限,操作并使用整个***的同时管理其他用户。
所述预警***APP端的实时预警模块,由以下部分组成:
(X1)同步数据库中的工控机设备内容,可以添加、删除、修改对应的工控机设备;
(X2)实时显示已经添加的工控机设备的皮带转动画面;支持启动和停止显示该工控机设备的皮带转动画面;
(X3)当检测到某工控机矿石真实大小大于***阈值时,显示异常信息,用户可以根据异常信息选择是否停止该工控机的运转,并将异常记录的工控机信息、发生异常的时间和图片保存至数据库中,同时写入日志模块;每隔一段时间将数据库中的异常记录同步至云端服务器。
所述预警***APP端的日志模块,由以下部分组成:
(Y1)实时查询数据库,将异常信息显示在页面上;
(Y2)提供搜索功能,可能根据工控机设备、时间、阈值等信息搜索告警记录。
如上所述,本发明提出了一种基于EfficientDet网络的深度学习矿石大小测量方法及预警***,通过EfficientDet网络模型解决矿石大小检测中存在的极度依赖人工、效率低、准确率低、模型参数量过大等问题。
附图说明
图1为本发明的矿石大小测量方法步骤示意图;
图2为本发明的的EfficientDet骨架网络EfficientNet的架构示意图;
图3为本发明的的EfficientDet特征提取网络BiFPN的架构示意图;
图4显示为本发明的EfficientDet网络的整体结构示意图;
图5显示为图1中步骤S1在一实施例中的具体流程图;
图6显示为图1中步骤S2在一实施例中的具体流程图;
图7显示为图1中步骤S3在一实施例中的具体流程图;
图8显示为图1中步骤S4在一实施例中的具体流程图;
图9显示为图1中步骤S5在一实施例中的具体流程图;
图10显示为本发明一种基于EfficientDet网络的深度学习矿石大小测量方法及预警***模块示意图;
图11显示为图10中用户模块M3在一实施例中的具体模块图;
图12显示为图10中实时预警模块M2在一实施例中的具体模块图;
图13显示为图10中设置模块M4在一实施例中的具体模块图;
图14显示为图10中日志模块M5在一实施例中的具体模块图;
附图标记:M1、视频流采集模块;M2实时预警模块;M21APP端;M22Web端;M3用户模块;M4设置模块;M5日志模块;M6数据库模块;S1~S5为方法步骤;S11~S14为方法步骤;S21~S25为方法步骤;S31~S36为方法步骤;S41~S43为方法步骤;S51~S54为方法步骤。
具体实施方式
根据图1、图2和图3,为本发明的矿石大小测量方法步骤示意图、EfficientDet骨架网络EfficientNet的架构示意图和特征提取网络BiFPN的架构示意图;本发明旨在通过EfficientDet网络模型解决矿石大小检测中存在的极度依赖人工、效率低、准确率低、模型参数量过大等问题。EfficientDet有EfficientDet-D0至EfficientDet-D7共8个版本,随着版本号的提升模型参数和运算量都有提升,同时精度也在提升。选择合适的网络版本以适应不同的应用场景,接下来以EfficientDet-D0为例。包括以下方法步骤:
S1、数据获取阶段:通过高速摄像头拍摄流动皮带上矿石,将视频流的关键帧存储为图片;
S2、数据预处理阶段:将图像进行手工标注,检测并剔除异常的矿石图片;将获取到的矿石图片按7:2:1分为训练图片、验证图片和测试图片;对矿石图片进行数据增强提高泛化能力;
S3、创建与训练网络阶段:使用EfficientNet网络作为骨干,创建EfficientDet目标检测网络,使用训练数据集得到网络模型;
S4、测试阶段:使用训练完成的EfficientDet网络模型进行测试,将得到的预测框用于定位出矿石的位置并通过摄像头的焦距、摄像头距离皮带的距离以及图像大小计算出矿石的大小;
S5、提醒阶段:根据***预设阈值,发现有矿石大小超过***阈值时发出提醒。
根据图5,其为S1的具体实施步骤,包括以下步骤:
S11、将摄像头安装在流动皮带上方高垂直高度L处的位置,使得摄像头的拍摄范围,能够覆盖流动皮带的横向宽度,以获得完整的矿石视频流;
S12、设置摄像头参数数据,包括分辨率、帧率、色彩空间等参数,以获取更为清晰的矿石视频;
S13、选择适当的视频采集数据的存放格式,将视频存储为视频流,本发明采用的是MJPEG格式;
S14、将视频流中的关键帧数据截取出来,用作接下来训练、验证、测试的矿石图片。
根据图6,其为S2的具体实施步骤,包括以下步骤:
S21、使用图像标注工具Lableme对获取到的图片数据中矿石位置、大小进行标记,矿石的尺度并不规整,需要进行多边形标记,保存的json文件。json文件名与标记的名字相同,图片的存储格式为Base64编码;
S22、根据标注的数据对矿石图片进行处理,检测出不符合要求的图片,删除其图片;
S23、将获取到的矿石图片按7:2:1分为训练图片、验证图片和测试图片;
S24、对训练图片进行数据增强:对矿石图片进行水平和竖直反转、对矿石图片进行缩放的同时更改相应的标注位置;
S25、添加随机噪声;将图像从RGB色彩空间转换为HSV色彩空间调整图片亮度,以适应不同的光照变化,以及将图像进行正规化操作,提高训练的效果。
根据图7,其为S3的具体实施步骤,包括以下步骤:
S31、选择EfficientNet-B0网络的骨干类型,设置训练网络的超参数,学习率、Batch size、训练的轮数(Epochs)、优化器(如SGD、Adam)等。EfficientNet-B0由1个Conv(3×3)、1个MBConv1(3×3)、2个MBConv6(3×3)、2个MBConv6(5×5)、3个MBConv6(3×3)、3个MBConv6(5×5)、4个MBConv6(5×5)、一个MBConv6(3×3)、一个Conv(1×1)、一个Pooling层,一个FC层。其中MBConv包含残差结构。先使用1×1的卷积进行升维操作,再进行3×3或5×5的卷积,此后增加关于通道的注意力机制,在使用1×1的卷积进行降维操作,再与残差结构进行堆叠。MBConv的激活函数使用的是Swish函数,并使用Batch Normalization进行标准化;
Swish函数的定义为:
Figure 528112DEST_PATH_IMAGE071
其中
Figure 981090DEST_PATH_IMAGE002
是一个常数或可训练的参数;
Figure 435205DEST_PATH_IMAGE003
函数表达式如下:
Figure 100002_DEST_PATH_IMAGE072
进行网络缩放,确定EfficientNet-B0缩放的最佳值为α=1.2,β=1.1,γ=1.15;
S32、BiFPN网络可以学习来自不同输入特征的重要性,同时重复应用自顶向下和自底向上的多大小特征融合。加强提取网络由多个BiFPN构成,其中EfficientDet-D0由3个BiFPN构成;
根据图4,EfficientDet包含EfficientNet主干提取网络和BiFPN加强提取网络, 以及Efficient Head将提取到的特征转化为预测结果。首先EfficientNet将输入的图片不 断进行下采样,原始的EfficientNet的下采样次数是5次,通过EfficientNet可以获得
Figure 682647DEST_PATH_IMAGE011
Figure 222213DEST_PATH_IMAGE012
Figure 478882DEST_PATH_IMAGE013
Figure 787503DEST_PATH_IMAGE014
Figure 737005DEST_PATH_IMAGE015
Figure 498287DEST_PATH_IMAGE011
是输入图片长和宽压缩一次的结果,
Figure 558647DEST_PATH_IMAGE012
是输入图片长和宽压缩两次的结 果,
Figure 721775DEST_PATH_IMAGE013
是输入图片长和宽压缩三次的结果,以此类推。由于
Figure 842178DEST_PATH_IMAGE011
Figure 356336DEST_PATH_IMAGE012
并不具有较高的语义信 息,因此在加强提取网络BiFPN中并不会用到
Figure 220387DEST_PATH_IMAGE011
Figure 238021DEST_PATH_IMAGE012
Figure 529325DEST_PATH_IMAGE013
Figure 265200DEST_PATH_IMAGE014
Figure 667363DEST_PATH_IMAGE015
具有比较高的语义信息,因此 在加强提取网络BiFPN中使用到,作为5个有效特征层中的三个。对P5进行两次下采样,获得 具有更高语义的信息的
Figure 805083DEST_PATH_IMAGE016
Figure 532868DEST_PATH_IMAGE017
。获得5个有效特征层
Figure 490459DEST_PATH_IMAGE013
Figure 961892DEST_PATH_IMAGE014
Figure 954119DEST_PATH_IMAGE015
Figure 587225DEST_PATH_IMAGE016
Figure 297692DEST_PATH_IMAGE017
将这5个特征层,传入加强提取网络BiFPN进行进一步的特征提取,其中
Figure 318955DEST_PATH_IMAGE018
表示分 辨率为输入图像
Figure 900109DEST_PATH_IMAGE019
的特征级别。例如,如果输入分辨率为640x640,
Figure 969697DEST_PATH_IMAGE020
代表分辨率为 80x80的特征级别3(640/
Figure 901881DEST_PATH_IMAGE021
= 80),而
Figure 715116DEST_PATH_IMAGE022
代表代表分辨率为5x5的7级特征级别;
图3所示的两个融合特征在第6层的情况:
Figure 681935DEST_PATH_IMAGE073
Figure 100002_DEST_PATH_IMAGE074
其中
Figure 100002_DEST_PATH_IMAGE075
代表第
Figure 100002_DEST_PATH_IMAGE076
层的特征,其中
Figure DEST_PATH_IMAGE077
是自上而下路径上第6级的中间特征,而
Figure DEST_PATH_IMAGE078
是自下而上路径中第6级的输出特征;
当融合不同分辨率的特征时,一种常见的方法是首先将它们调整到相同的分辨率,然后对它们进行求和,以前的方法一视同仁地对待所有输入特征;
由于不同的输入特征具有不同的分辨率,它们对输出特征的贡献通常是不相等的;
BiFPN每个输入添加额外的权重,并让网络了解每个输入特征的重要性。BiFPN使用Fast normalized fusion(快速归一化融合)
Figure DEST_PATH_IMAGE079
Figure 469893DEST_PATH_IMAGE043
是一个可学习的权重,可以是标量(每个特征)、矢量(每个通道)或多维张量(每 个像素)。为了避免数值不稳定,
Figure 154953DEST_PATH_IMAGE044
设置为一个较小的值
Figure 506299DEST_PATH_IMAGE045
=0.0001;
BiFPN的宽度和深度使用以下公式缩放:
Figure 100002_DEST_PATH_IMAGE080
Figure 796467DEST_PATH_IMAGE081
其中1.35作为BiFPN宽度缩放因子,
Figure 942277DEST_PATH_IMAGE005
是控制所有其他比例维度的复合系数;
预测网络的宽度和BiFPN相同:
Figure 100002_DEST_PATH_IMAGE082
预测网络的深度使用等式进行线性增加:
Figure 317895DEST_PATH_IMAGE083
S33、使用如下损失函数计算网络结果与真实值之间的差异:
Figure DEST_PATH_IMAGE084
其中
Figure 676195DEST_PATH_IMAGE052
是分类的loss,
Figure 352027DEST_PATH_IMAGE053
是回归的loss。
Figure 934318DEST_PATH_IMAGE053
使用的是是Smooth-L1 loss函 数。Smooth-L1 loss函数如下所示:
Figure 328390DEST_PATH_IMAGE085
Figure 21540DEST_PATH_IMAGE052
使用的是Focal loss,如下所示
Figure DEST_PATH_IMAGE086
Figure 20720DEST_PATH_IMAGE087
称为调制系数(modulating factor)。当γ=0的时候,focal loss就是 交叉熵损失函数,可以通过调整
Figure 773912DEST_PATH_IMAGE009
实现调制系数的改变。两种权重进行合并可得:
Figure DEST_PATH_IMAGE088
其中
Figure 124122DEST_PATH_IMAGE008
= 0.25和
Figure 355383DEST_PATH_IMAGE009
= 1.5
S34、对整个训练过程进行可视化,通过判断EfficientDet-D0网络在训练集和验证集的表现,判断网络是否欠拟合或者过拟合,针对性的对参数进行调整,如调整学习率、增加训练的轮数、更换优化器、调整anchor的大小等;
S35、根据loss函数以及网络的表现,选择是否提前结束训练;
S36、至此结束训练,获得EfficientDet-D0网络模型。
根据图8,其为S4的具体实施步骤,包括以下步骤:
S41、将预先保留的测试图片,使用之前训练得来的EfficientDet-D0网络模型进行预测;
S42、得到图片中矿石的预测框,计算出预测框的大小;
S43、根据摄像头的安装角度、摄像头到皮带的距离以及网络模型预测框的大小和图像的像素计算出其真实大小:
Figure 5807DEST_PATH_IMAGE089
Figure 929901DEST_PATH_IMAGE066
是摄像头与皮带垂线的夹角,
Figure 298565DEST_PATH_IMAGE067
表示矿石的真实大小,
Figure 333518DEST_PATH_IMAGE068
表示摄像 头与皮带间的垂直距离,
Figure 838448DEST_PATH_IMAGE069
表示摄像头的焦距,
Figure 667864DEST_PATH_IMAGE070
表示EfficientDet-D0网络模型预测框的 大小。
根据图9,其为S5的具体实施步骤,包括以下步骤:
S51、再***的Web端设置矿石大小报警阈值以及误差阈值,***阈值为矿石大小报警阈值与误差阈值之和;
S52、计算***计算得到的矿石真实大小与***阈值进行比较;
S53、当检测到某工控机矿石真实大小大于***阈值时,显示异常信息;
S54、用户可以根据异常信息选择是否停止该工控机的运转,并将异常记录的工控机信息、发生异常的时间和图片保存至数据库中。
根据图10,由以下模块组成:
视频流采集模块(M1),实时采集视频流,并将视频流中的关键帧给实时预警模块,由实施预警模块镜像判断是否发出预警;实时预警模块(M2),包括Web端和App端,更加方便用户的使用,Web端包括用户模块、实时预警模块、设置模块、日志模块。App包括用户模块、实时预警模块、日志模块。其中Web端主要是基于Django框架实现。根据图11用户模块(M3)主要包括:1、注册功能2、登录功能3、权限管理功能;根据图12实时预警模块(M4)主要包括:1、工控机设备添加、删除、修改、列出2、实时显示工控机设备皮带对应画面3、启动或停止显示工控机画面4、显示并且发送异常信息给执行机构5、将异常信息的记录保存到数据库中。根据图13设置模块主要包括:1、设置***预警的矿石块大小2、设置***的误差大小3、设置要同步的云端服务器端口4、设置相机的参数信息。根据图14日志模块(M5)主要包括:1、查询日志2、导出日志3、显示最近异常记录4、选择是否将日志从本机同步到云端服务器。数据库模块(M6):可以将本地数据同步到云端数据库,以及将云端数据库中的数据记录下载到本地。

Claims (9)

1.一种基于EfficientDet网络的深度学习矿石大小测量方法及预警***,用在矿业中检测矿石尺度,并对超过阈值大小的矿石块进行智能化处理,其特征的具体步骤如下:
S1、数据获取阶段:通过高速摄像头拍摄流动皮带上矿石,将视频流的关键帧存储为图片;
S2、数据预处理阶段:将图像进行手工标注,检测并剔除异常的矿石图片;将获取到的矿石图片按7:2:1分为训练图片、验证图片和测试图片;对矿石图片进行数据增强提高泛化能力;
S3、创建与训练网络阶段:使用EfficientNet网络作为骨干,创建EfficientDet目标检测网络,使用训练数据集得到网络模型;
S4、测试阶段:使用训练完成的EfficientDet网络模型进行测试,将得到的预测框用于定位出矿石的位置并通过摄像头的焦距、摄像头距离皮带的距离以及图像大小计算出矿石的尺度;
S5、提醒阶段:根据***预设阈值,发现有矿石尺度超过***阈值时发出提醒。
2.根据权利要求1所述一种基于EfficientDet网络的深度学习矿石大小测量方法及预警***,其特征是所述数据获取阶段,具体包括:
(1)、通过安装在皮带附近的多个不同角度的摄像头获取矿石图片的视频数据流;
(2)、从已经获取到的视频数据流中截取关键帧作为矿石图片数据。
3.根据权利要求1所述一种基于EfficientDet网络的深度学习矿石大小测量方法及预警***,其特征是所述数据预处理阶段,具体包括:
(i)、使用图像标注工具Lableme对获取到的图片数据中矿石位置、大小进行标记,矿石的尺度并不规整,需要进行多边形标记;
(ii)、检测出不符合要求的矿石图片数据,并将其剔除;
(iii)、对训练图片进行数据增强:对矿石图片随机进行不同角度的水平和竖直反转;对矿石图片进行缩放;通过直方图均衡调整图像的像素值使得其值变为均匀分布;添加随机噪声;将图像从RGB色彩空间转换为HSV色彩空间调整图片亮度,将图像进行正规化操作,以及对噪声进行处理。
4.根据权利要求1所述一种基于EfficientDet网络的深度学习矿石大小测量方法及预警***,其特征是所述创建与训练网络阶段,具体包括:
(Ⅰ)、使用EfficientNet网络作为骨干网络,采用BiFPN网路对EfficientNet提取到的网络特征进行融合,EfficientDet的Head对提取到的特征进行分类和回归预测;
(Ⅱ)、整个EfficientNet有B0-B7多个版本,其中EfficientNet-B0由1个Conv(3×3)、1个MBConv1(3×3)、2个MBConv6(3×3)、2个MBConv6(5×5)、3个MBConv6(3×3)、3个MBConv6(5×5)、4个MBConv6(5×5)、一个MBConv6(3×3)、一个Conv(1×1)、一个Pooling层,一个FC层;
其中MBConv包含残差结构;
先使用1×1的卷积进行升维操作,再进行3×3或5×5的卷积,此后增加关于通道的注意力机制,在使用1×1的卷积进行降维操作,再与残差结构进行堆叠;
MBConv的激活函数使用的是Swish函数,并使用Batch Normalization进行标准化;
Swish函数的定义为:
Figure DEST_PATH_IMAGE001
其中
Figure DEST_PATH_IMAGE002
是一个常数或可训练的参数;
Figure 608517DEST_PATH_IMAGE003
函数表达式如下:
Figure DEST_PATH_IMAGE004
于此同时Efficient-B0将网络的宽度(depth)、深度(width)和分辨率(resolution)按照公式(3)用系数
Figure DEST_PATH_IMAGE005
进行复合缩放;
其中,α、β、γ是可以通过网格搜索确定的常数;
Figure DEST_PATH_IMAGE006
Figure 994499DEST_PATH_IMAGE007
的约束下,EfficientNet-B0的最佳值为
Figure DEST_PATH_IMAGE008
=1.2,
Figure 603597DEST_PATH_IMAGE002
=1.1,
Figure DEST_PATH_IMAGE010
=1.15;
Figure 451336DEST_PATH_IMAGE011
5.根据权利要求1所述一种基于EfficientDet网络的深度学习矿石大小测量方法及预警***,其特征是构建BiFPN,具体包括:
(A)、BiFPN(bi-directional feature pyramid network)网路可学习的权重来学习不同输入特征的重要性,同时重复应用自顶向下和自底向上的多尺度特征融合;
加强提取网络由多个BiFPN构成,其中EfficientDet有D0-D7八个版本,这八个版本分别由3、4、5、6、7、7、8、8个BiFPN构成;
(B)、EfficientDet包含EfficientNet主干提取网络和BiFPN加强提取网络,以及Efficient Head将提取到的特征转化为预测结果;
首先EfficientNet将输入的图片不断进行下采样,原始的EfficientNet的下采样次数是5次,通过EfficientNet可以获得
Figure DEST_PATH_IMAGE012
Figure 468971DEST_PATH_IMAGE013
Figure DEST_PATH_IMAGE014
Figure 245428DEST_PATH_IMAGE015
Figure DEST_PATH_IMAGE016
Figure 512461DEST_PATH_IMAGE012
是输入图片长和宽压缩一次的结果,
Figure 39258DEST_PATH_IMAGE013
是输入图片长和宽压缩两次的结果,
Figure 708136DEST_PATH_IMAGE014
是输入图片长和宽压缩三次的结果,以此类推;
由于
Figure 904762DEST_PATH_IMAGE012
Figure 659092DEST_PATH_IMAGE013
并不具有较高的语义信息,因此在加强提取网络BiFPN中并不会用到
Figure 350098DEST_PATH_IMAGE012
Figure 873484DEST_PATH_IMAGE013
Figure 303328DEST_PATH_IMAGE014
Figure 138429DEST_PATH_IMAGE015
Figure 413552DEST_PATH_IMAGE016
具有比较高的语义信息,因此在加强提取网络BiFPN中使用到,作为5个有效特征层中的三个;
对P5进行两次下采样,获得具有更高语义的信息的
Figure 260286DEST_PATH_IMAGE017
Figure DEST_PATH_IMAGE018
获得5个有效特征层
Figure 595452DEST_PATH_IMAGE014
Figure 278368DEST_PATH_IMAGE015
Figure 357183DEST_PATH_IMAGE016
Figure 855160DEST_PATH_IMAGE017
Figure 830069DEST_PATH_IMAGE018
将这5个特征层,传入加强提取网络BiFPN进行进一步的特征提取,其中
Figure 780708DEST_PATH_IMAGE019
表示分辨率为输入图像
Figure 991109DEST_PATH_IMAGE021
的特征级别;
例如,如果输入分辨率为640x640,
Figure DEST_PATH_IMAGE022
代表分辨率为80x80的特征级别3(640/
Figure 343593DEST_PATH_IMAGE023
= 80),而
Figure DEST_PATH_IMAGE024
代表代表分辨率为5x5的7级特征级别;
具体如下:
①进行通道数的调整,获得
Figure 240136DEST_PATH_IMAGE025
Figure DEST_PATH_IMAGE026
Figure 881333DEST_PATH_IMAGE027
Figure DEST_PATH_IMAGE028
Figure 754480DEST_PATH_IMAGE029
,如果是第一次进入BiFPN,将
Figure 227050DEST_PATH_IMAGE026
通过减少通道数转化为
Figure DEST_PATH_IMAGE030
_1和
Figure 435439DEST_PATH_IMAGE031
Figure 360670DEST_PATH_IMAGE027
通过减少通道转化为
Figure DEST_PATH_IMAGE032
1和
Figure 788240DEST_PATH_IMAGE027
_2;
②在获得
Figure 849737DEST_PATH_IMAGE025
Figure 586618DEST_PATH_IMAGE026
_1、
Figure 999145DEST_PATH_IMAGE026
_2、
Figure 856505DEST_PATH_IMAGE027
_1、
Figure 38087DEST_PATH_IMAGE027
_2、
Figure 227760DEST_PATH_IMAGE028
Figure 330845DEST_PATH_IMAGE029
之后需要对
Figure 896956DEST_PATH_IMAGE029
进行上采样,上采样后与
Figure 651154DEST_PATH_IMAGE028
采用注意力机制,用来判断是更关注
Figure 11728DEST_PATH_IMAGE029
还是
Figure 398847DEST_PATH_IMAGE028
,再用swish函数进行激活,再进行卷积从而获得;
③对
Figure 971911DEST_PATH_IMAGE033
进行上采样,上采样后与
Figure 862507DEST_PATH_IMAGE027
_1采用注意力机制,用来判断是更关注
Figure 488922DEST_PATH_IMAGE033
还是
Figure 97758DEST_PATH_IMAGE027
_1,再用swish函数进行激活,再进行卷积从而获得
Figure DEST_PATH_IMAGE034
④对
Figure 723781DEST_PATH_IMAGE034
进行上采样,上采样后与
Figure 734462DEST_PATH_IMAGE026
_1采用注意力机制,用来判断是更关注
Figure 171260DEST_PATH_IMAGE034
还是
Figure 267392DEST_PATH_IMAGE026
_1,再用swish函数进行激活,再进行卷积从而获得
Figure 978996DEST_PATH_IMAGE035
⑤对
Figure 673544DEST_PATH_IMAGE035
进行上采样,上采样后与
Figure 812402DEST_PATH_IMAGE025
采用注意力机制,用来判断是更关注
Figure 395830DEST_PATH_IMAGE035
还是
Figure 98075DEST_PATH_IMAGE025
,再用swish函数进行激活,再进行卷积从而获得
Figure 83349DEST_PATH_IMAGE037
⑥在获得
Figure 596370DEST_PATH_IMAGE037
Figure 667094DEST_PATH_IMAGE035
Figure 720501DEST_PATH_IMAGE026
_2、
Figure 490838DEST_PATH_IMAGE034
Figure 971498DEST_PATH_IMAGE027
_2、
Figure 591835DEST_PATH_IMAGE028
Figure 448933DEST_PATH_IMAGE033
Figure 143219DEST_PATH_IMAGE029
之后,需要对
Figure 998043DEST_PATH_IMAGE037
进行下采样,下采样后与
Figure 43359DEST_PATH_IMAGE035
Figure 392563DEST_PATH_IMAGE026
_2采用注意力机制,用来判断是更关注
Figure 941356DEST_PATH_IMAGE037
Figure 29398DEST_PATH_IMAGE035
还是
Figure 889906DEST_PATH_IMAGE026
_2,再用swish函数进行激活,再进行卷积从而获得
Figure 88807DEST_PATH_IMAGE039
⑦对
Figure 492106DEST_PATH_IMAGE039
进行下采样,下采样后与
Figure 954311DEST_PATH_IMAGE034
Figure 708641DEST_PATH_IMAGE027
_2采用注意力机制,用来判断是更关注
Figure 399647DEST_PATH_IMAGE039
Figure 923033DEST_PATH_IMAGE034
还是
Figure 352877DEST_PATH_IMAGE027
_2,再用swish函数进行激活,再进行卷积从而获得
Figure 532186DEST_PATH_IMAGE041
;之后对
Figure 72888DEST_PATH_IMAGE041
进行下采样,下采样后与
Figure 716359DEST_PATH_IMAGE028
Figure 51526DEST_PATH_IMAGE033
采用注意力机制,用来判断是更关注
Figure 905081DEST_PATH_IMAGE041
Figure 983896DEST_PATH_IMAGE028
还是
Figure 481873DEST_PATH_IMAGE033
,再用swish函数进行激活,再进行卷积从而获得
Figure 987941DEST_PATH_IMAGE043
;之后对
Figure 830257DEST_PATH_IMAGE043
进行下采样,下采样后与
Figure 712762DEST_PATH_IMAGE029
采用注意力机制,用来判断是更关注
Figure 65246DEST_PATH_IMAGE043
、还是
Figure 7794DEST_PATH_IMAGE029
,再用swish函数进行激活,再进行卷积从而获得
Figure 570363DEST_PATH_IMAGE045
⑧将获得的
Figure DEST_PATH_IMAGE046
Figure 990980DEST_PATH_IMAGE039
Figure 463550DEST_PATH_IMAGE041
Figure 937518DEST_PATH_IMAGE043
Figure 862749DEST_PATH_IMAGE045
作为
Figure 87057DEST_PATH_IMAGE025
Figure 414133DEST_PATH_IMAGE026
Figure 823118DEST_PATH_IMAGE027
Figure 235645DEST_PATH_IMAGE028
Figure 998064DEST_PATH_IMAGE029
,重复之前步骤进行堆叠即可,对于EffiicientDet-B0,还需要重复2次,此时
Figure 179647DEST_PATH_IMAGE026
_1和
Figure 260998DEST_PATH_IMAGE026
_2不需要分开了,
Figure 160821DEST_PATH_IMAGE027
_1和
Figure 726931DEST_PATH_IMAGE027
_2也不需要分开;
例如,以上融合特征在第6层可以简述为:
Figure 763020DEST_PATH_IMAGE047
Figure DEST_PATH_IMAGE048
其中
Figure 513807DEST_PATH_IMAGE049
代表第
Figure DEST_PATH_IMAGE050
层的特征,其中
Figure 900926DEST_PATH_IMAGE051
是自上而下路径上第6级的中间特征,而
Figure DEST_PATH_IMAGE052
是自下而上路径中第6级的输出特征;
BiFPN的宽度和深度使用以下公式缩放:
Figure 631247DEST_PATH_IMAGE053
Figure DEST_PATH_IMAGE054
Figure 787422DEST_PATH_IMAGE055
其中1.35作为BiFPN宽度缩放因子,
Figure 709111DEST_PATH_IMAGE005
是控制所有其他比例维度的复合系数:
预测网络的宽度和BiFPN相同:
Figure DEST_PATH_IMAGE056
Figure 317946DEST_PATH_IMAGE057
预测网络的深度使用等式(9)行线性增加:
Figure DEST_PATH_IMAGE058
Figure 117537DEST_PATH_IMAGE059
6.根据权利要求1所述一种基于EfficientDet网络的深度学习矿石大小测量方法及预警***,其特征是构建损失函数,具体包括:
(P1)使用如下损失函数计算网络结果与真实值之间的差异:
Figure DEST_PATH_IMAGE060
)
其中
Figure 128219DEST_PATH_IMAGE061
是分类的loss,
Figure 96175DEST_PATH_IMAGE063
是回归的loss;
Figure 316941DEST_PATH_IMAGE063
使用的是是Smooth-L1 loss函数;
Smooth-L1 loss函数如下所示:
Figure DEST_PATH_IMAGE064
)
(P2)一张图像有很多候选框,其中包含目标的是正样本,不包含目标的是负样本;
如果样本一属于类别一的概率为0.9,样本二属于类别一的概率为0.6,前者是容易分类的样本,后者是难分类的样本;
EfficientDet中的分类loss是Focal loss;
Focal loss可以控制正负样本的权重,同时可以控制容易分类和难分类样本的权重;
(P3)Focal loss源自于交叉熵损失函数,二分类的交叉熵函数损失为:
Figure DEST_PATH_IMAGE065
)
使用
Figure DEST_PATH_IMAGE066
简化交叉熵损失函数:
Figure 389064DEST_PATH_IMAGE067
)
Figure DEST_PATH_IMAGE068
控制正负样本的权重,可以在交叉熵损失函数前增加一个系数
Figure 519831DEST_PATH_IMAGE069
Figure DEST_PATH_IMAGE070
Figure 783322DEST_PATH_IMAGE071
控制容易分类和难分类样本的权重:
Figure DEST_PATH_IMAGE072
)
Figure 366750DEST_PATH_IMAGE073
称为调制系数(modulating factor);
当γ=0的时候,focal loss就是交叉熵损失函数,可以通过调整
Figure 616466DEST_PATH_IMAGE010
实现调制系数的改变;
两种权重进行合并可得:
Figure DEST_PATH_IMAGE074
)
其中
Figure 227838DEST_PATH_IMAGE008
= 0.25和
Figure 537597DEST_PATH_IMAGE010
= 1.5。
7.根据权利要求1所述一种基于EfficientDet网络的深度学习矿石大小测量方法及预警***,其特征是预测结果,具体包括:
(Q1)为了和普通特征层区分,我们称之为BiFPN提取到的特征层称为有效特征层,将这五个有效的特征层传入ClassNet(分类预测网络)和BoxNet(回归预测网络)即可获得预测结果;
(Q2)对于Efficientdet-B0来说,ClassNet采用3次64通道的深度可分离卷积和1次该特征层所拥有的先验框数量乘以网络共有多少类的目标的卷积,先验框数量默认为9;
BoxNet采用3次64通道的卷积和1次该特征层所拥有的先验框数量乘以四的卷积,四指的是先验框的调整情况,调增中心位置和宽高;
EfficientDet默认有9个先验框,可按照实际情况对先验框的长宽比例进行调整,以适合检测的目标;
EfficientDet会判定先验框中的物体以及物体的种类,并且会对先验框进行调整,使用非极大抑制(soft-NMS)筛选出在一定区域属于同一种类置信度最大的框,获得最终的预测框。
8.根据权利要求1所述一种基于EfficientDet网络的深度学习矿石大小测量方法及预警***,其特征是进行网络模型测试,具体包括:
(T1)将预先的保留的矿石测试图片传入EfficientDet网络进行预测,得到图片中矿石的预测框,并计算出预测框的大小,再通过预测框的大小和误差计算出真实矿石的大小;
(T2)根据摄像头的安装角度、摄像头到皮带的距离以及网络模型预测框的大小和图像的像素计算出其真实尺寸:
Figure DEST_PATH_IMAGE075
Figure DEST_PATH_IMAGE076
是摄像头与皮带垂线的夹角,
Figure 732955DEST_PATH_IMAGE077
表示矿石的真实大小,
Figure 786361DEST_PATH_IMAGE079
表示摄像头与皮带间的垂直距离,
Figure DEST_PATH_IMAGE080
表示摄像头的焦距,
Figure DEST_PATH_IMAGE082
表示EfficientDet网络模型预测框的大小。
9.根据权利要求1所述一种基于EfficientDet网络的深度学习矿石大小测量方法及预警***,其特征是矿石大小超过***阈值时发出提醒,具体包括:
设置矿石大小报警阈值,并将***阈值大小置为报警阈值与误差阈值之和,将计算得到的矿石真实大小与***阈值进行比较;
如果其真实大小比阈值更大,则产生异常信息,并将异常信息发送给实时告警模块,
根据权力所述告警***,其特征具体包括:
(D1)用户模块,负责用户的注册、登录、管理,显示个人的用户信息,提供超级用户的管理权限;
(D2)矿石视频流采集模块,通过安装在矿石流动皮带附近各个角度的摄像头采集矿石视频流,并将采集到的图像发送给实时告警模块;
(D3)实时告警模块,接受矿石视频流采集模块发送的矿石图像,并矿石图像传入到经过训练的EfficientDet网络中,得到矿石的位置及大小,将计算得到的矿石真实大小与***阈值进行比较;
如果其真实大小比***阈值更大,则将异常信息显示到页面上,并将异常信息写入数据库;
(D4)设置模块,设置***相关参数以及日志相关参数,如报警矿石块大小等;
(D5)日志模块,接受实时告警***的异常记录并显示该异常,并将异常记录同步到云端服务器;
告警***的用户模块,具体包括:
(U1)对新的管理人员提供注册、登录功能,可以操作并使用整个***,将其信息保存至云端服务器,并赋予相应的权限;
(U2)对权限高的超级管理员提供操作***的高级权限,操作并使用整个***的同时管理其他用户;
告警***的实时告警模块,具体包括:
(R1)工控机设备管理,包括添加、删除、修改、列出对应的工控机设备;
(R2)实时显示已经添加的工控机设备的皮带转动画面;支持启动和停止显示该工控机设备的皮带转动画面;
(R3)当检测到某工控机矿石真实大小大于***阈值时,显示异常信息,用户可以根据异常信息选择是否停止该工控机的运转,并将异常记录的工控机信息、发生异常的时间和图片保存至数据库中,同时写入日志模块;每隔一段时间将数据库中的异常记录同步至云端服务器;
告警***的设置模块,具体包括:
设置告警***的相关信息,主要有设置***预警的矿石块大小,设置***误差的大小以及设置相机的焦距、云端服务器端口等;
告警***的日志模块,具体包括:
(Z1)接受实时告警***的异常记录,实时显示在页面上,并将记录写入数据库;
(Z2)选择是否将日志同步到云端服务器;
(Z3)提供搜索功能,可能根据工控机设备、时间、阈值等信息搜索告警记录。
CN202110343840.8A 2021-03-31 2021-03-31 一种基于EfficientDet网络的深度学习矿石大小测量方法及预警*** Pending CN113158829A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110343840.8A CN113158829A (zh) 2021-03-31 2021-03-31 一种基于EfficientDet网络的深度学习矿石大小测量方法及预警***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110343840.8A CN113158829A (zh) 2021-03-31 2021-03-31 一种基于EfficientDet网络的深度学习矿石大小测量方法及预警***

Publications (1)

Publication Number Publication Date
CN113158829A true CN113158829A (zh) 2021-07-23

Family

ID=76885508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110343840.8A Pending CN113158829A (zh) 2021-03-31 2021-03-31 一种基于EfficientDet网络的深度学习矿石大小测量方法及预警***

Country Status (1)

Country Link
CN (1) CN113158829A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435425A (zh) * 2021-08-26 2021-09-24 绵阳职业技术学院 一种基于递归多特征融合的野生动物出没检测方法
CN114462555A (zh) * 2022-04-13 2022-05-10 国网江西省电力有限公司电力科学研究院 基于树莓派的多尺度特征融合配电网设备识别方法
CN116612311A (zh) * 2023-03-13 2023-08-18 浙江大学 一种面向样本不均衡的不合格免疫组化图像识别***
CN116912186A (zh) * 2023-07-05 2023-10-20 山东能源集团鲁西矿业有限公司 一种用于铁矿石皮带运输过程中铁质异物的排检方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284780A (zh) * 2018-09-10 2019-01-29 中山大学 矿石矿物图像自动识别与分类方法
CN110390691A (zh) * 2019-06-12 2019-10-29 合肥合工安驰智能科技有限公司 一种基于深度学习的矿石尺度测量方法及应用***
CN110852395A (zh) * 2019-11-15 2020-02-28 鞍钢集团矿业有限公司 一种基于自主学习和深度学习的矿石粒度检测方法和***
CN111161292A (zh) * 2019-11-21 2020-05-15 合肥合工安驰智能科技有限公司 一种矿石尺度测量方法及应用***
CN111563494A (zh) * 2020-07-16 2020-08-21 平安国际智慧城市科技股份有限公司 基于目标检测的行为识别方法、装置和计算机设备
CN112001878A (zh) * 2020-05-21 2020-11-27 合肥合工安驰智能科技有限公司 基于二值化神经网络的深度学习矿石尺度测量方法及应用***
CN112348776A (zh) * 2020-10-16 2021-02-09 上海布眼人工智能科技有限公司 基于EfficientDet的织物瑕疵检测方法
CN112419397A (zh) * 2020-12-08 2021-02-26 鞍钢集团矿业有限公司 一种基于图像和深度神经网络的矿石粒度分级方法及***

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284780A (zh) * 2018-09-10 2019-01-29 中山大学 矿石矿物图像自动识别与分类方法
CN110390691A (zh) * 2019-06-12 2019-10-29 合肥合工安驰智能科技有限公司 一种基于深度学习的矿石尺度测量方法及应用***
CN110852395A (zh) * 2019-11-15 2020-02-28 鞍钢集团矿业有限公司 一种基于自主学习和深度学习的矿石粒度检测方法和***
CN111161292A (zh) * 2019-11-21 2020-05-15 合肥合工安驰智能科技有限公司 一种矿石尺度测量方法及应用***
CN112001878A (zh) * 2020-05-21 2020-11-27 合肥合工安驰智能科技有限公司 基于二值化神经网络的深度学习矿石尺度测量方法及应用***
CN111563494A (zh) * 2020-07-16 2020-08-21 平安国际智慧城市科技股份有限公司 基于目标检测的行为识别方法、装置和计算机设备
CN112348776A (zh) * 2020-10-16 2021-02-09 上海布眼人工智能科技有限公司 基于EfficientDet的织物瑕疵检测方法
CN112419397A (zh) * 2020-12-08 2021-02-26 鞍钢集团矿业有限公司 一种基于图像和深度神经网络的矿石粒度分级方法及***

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MINGXING TAN ET AL: "EfficientDet: Scalable and Efficient Object Detection", 《ARXIV》 *
MINGXING TAN ET AL: "EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks", 《ARXIV》 *
余阿祥 等: "多注意力机制的口罩检测网络", 《南京师范大学学报(工程技术版)》 *
董洪义: "《深度学习之PyTorch物体检测实战》", 31 January 2020, 《机械工业出版社》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435425A (zh) * 2021-08-26 2021-09-24 绵阳职业技术学院 一种基于递归多特征融合的野生动物出没检测方法
CN114462555A (zh) * 2022-04-13 2022-05-10 国网江西省电力有限公司电力科学研究院 基于树莓派的多尺度特征融合配电网设备识别方法
US11631238B1 (en) 2022-04-13 2023-04-18 Iangxi Electric Power Research Institute Of State Grid Method for recognizing distribution network equipment based on raspberry pi multi-scale feature fusion
CN116612311A (zh) * 2023-03-13 2023-08-18 浙江大学 一种面向样本不均衡的不合格免疫组化图像识别***
CN116912186A (zh) * 2023-07-05 2023-10-20 山东能源集团鲁西矿业有限公司 一种用于铁矿石皮带运输过程中铁质异物的排检方法

Similar Documents

Publication Publication Date Title
CN113158829A (zh) 一种基于EfficientDet网络的深度学习矿石大小测量方法及预警***
CN110390691B (zh) 一种基于深度学习的矿石尺度测量方法及应用***
US9805451B2 (en) Building material classifications from imagery
CN111161292B (zh) 一种矿石尺度测量方法及应用***
US11468538B2 (en) Segmentation and prediction of low-level temporal plume patterns
CN109580656B (zh) 基于动态权重组合分类器的手机导光板缺陷检测方法及***
CN110751195B (zh) 一种基于改进YOLOv3的细粒度图像分类方法
CN109409327B (zh) 基于端到端深度神经网络的rru模块物件位姿检测方法
CN110490099B (zh) 一种基于机器视觉的地铁公共地点人流量分析方法
CN111222478A (zh) 一种工地安全防护检测方法和***
CN112001878A (zh) 基于二值化神经网络的深度学习矿石尺度测量方法及应用***
CN104202547A (zh) 投影画面中提取目标物体的方法、投影互动方法及其***
CN115331172A (zh) 一种基于监控视频的车间危险行为识别报警方法及***
CN115169855B (zh) 一种基于数字孪生车间混合数据集的不安全状态检测方法
CN104318254A (zh) 一种基于dct低频分量特征的快速煤岩识别方法
CN116030074A (zh) 一种道路病害的识别方法、重识别方法及相关设备
CN117011295B (zh) 基于深度可分离卷积神经网络的uhpc预制件质量检测方法
CN115147418B (zh) 缺陷检测模型的压缩训练方法和装置
CN111563408A (zh) 多层次感知特征渐进自学习的高分辨率影像滑坡自动检测方法
CN112785557A (zh) 皮带料流检测方法及装置、皮带料流检测***
CN111507379A (zh) 基于深度学习的矿石自动识别与粗分拣***
CN116152226A (zh) 基于可融合的特征金字塔的换向器内侧图像缺陷检测方法
CN115359392A (zh) 一种基于改进YOLOv5模型的路边施工行为检测方法
CN115272826A (zh) 一种基于卷积神经网络的图像识别方法、装置及***
CN111507398A (zh) 基于目标检测的变电站金属仪器锈蚀识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210723

WD01 Invention patent application deemed withdrawn after publication