CN116912774A - 一种基于边缘计算的输变电设备红外图像目标识别方法、电子装置及存储介质 - Google Patents

一种基于边缘计算的输变电设备红外图像目标识别方法、电子装置及存储介质 Download PDF

Info

Publication number
CN116912774A
CN116912774A CN202310926824.0A CN202310926824A CN116912774A CN 116912774 A CN116912774 A CN 116912774A CN 202310926824 A CN202310926824 A CN 202310926824A CN 116912774 A CN116912774 A CN 116912774A
Authority
CN
China
Prior art keywords
power transmission
infrared image
transformation equipment
module
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310926824.0A
Other languages
English (en)
Inventor
陆剑峰
张可
金炜
王剑
黄文礼
侯仕杰
姜文东
刘爽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Nanrui Jiyuan Power Grid Technology Co ltd
State Grid Zhejiang Electric Power Co Ltd
Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
State Grid Electric Power Research Institute
Original Assignee
Anhui Nanrui Jiyuan Power Grid Technology Co ltd
State Grid Zhejiang Electric Power Co Ltd
Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
State Grid Electric Power Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Nanrui Jiyuan Power Grid Technology Co ltd, State Grid Zhejiang Electric Power Co Ltd, Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd, State Grid Electric Power Research Institute filed Critical Anhui Nanrui Jiyuan Power Grid Technology Co ltd
Priority to CN202310926824.0A priority Critical patent/CN116912774A/zh
Publication of CN116912774A publication Critical patent/CN116912774A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/95Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于边缘计算的输变电设备红外图像目标识别方法、电子装置及存储介质。通过获取待识别的输变电设备红外图像,并执行预处理缩放成固定大小的第一图像;根据预定的目标识别网络模型对第一图像进行识别;其中,预定的目标识别网络模型以YOLOv7的网络框架为基础并部署到边缘计算节点当中,模型包括骨干网络Backbone、检测头Head;获取第一图像的识别结果;识别结果为预定的目标识别网络模型生成的目标预测框。相比于现有技术,通过经过改进的CA模块加入了残差结构,在提高信息保存能力的同时增加相应对象的特征表示,从而为Head部分的预测提供更有效的特征;在三个Detect检测器中加入CoT模块,学习输入特征的上下文信息,提高最终的分类精度。

Description

一种基于边缘计算的输变电设备红外图像目标识别方法、电 子装置及存储介质
技术领域
本发明涉及目标识别技术领域,具体而言,涉及一种基于边缘计算的输变电设备红外图像目标识别方法、电子装置及存储介质。
背景技术
对于输变电设备的识别来说,传统算法很难去设计一个通用的模型去提取不同设备的特征,并且由于红外图像拍摄角度的距离差异、光照的影响以及复杂背景干扰,导致对复杂物体识别的准确率收到很大的制约。除此以外,传统算法需要消耗大量的时间,不利于快速准确的完成后续的对设备的分析。
目前基于深度学习的方法主要是通过YOLO系列或者是R-CNN(Region-basedConvolution Neural Networks,基于区域的卷积神经网络))等模型来实现对输变电设备的识别与检测,但是R-CNN虽然精度较高,但是把网络分为两个阶段,步骤繁琐,同时在提取图片时,由于生成的候选区域比较多,会存在一些冗余,完成的时间会变长,也增加了在复场景下的候选框的提取难度,因此它不能很好地满足部分需要实时性场景的需要。
发明内容
有鉴于此,本发明实施例的目的在于提供通过向YOLOv7的网络中添加改进的CA模块以及CoT模块生成识别模型,提高了网络的表征能力以及对输变电设备的分类精度;利用该网络训练的模型可以很好地完成输变电设备红外图像目标识别任务,从而实时地对变电设备状态进行监测,有利于提高输变电设备的运行可靠性和资源的利用率。
本发明的第一方面提供了一种基于边缘计算的输变电设备红外图像目标识别方法,所述方法包括:
获取待识别的输变电设备红外图像,并执行预处理缩放成固定大小的第一图像;
根据部署在边缘计算节点当中的目标识别网络模型对所述第一图像进行识别;其中,所述预定的目标识别网络模型以YOLOv7的网络框架为基础,包括骨干网络Backbone、检测头Head;所述骨干网络Backbone包括两个CA模块,所述两个CA模块位于两个卷积模块Conv之后;所述检测头Head部分中的三个Detect模块中都加入了一个CoT模块,CoT模块将静态和动态上下文表示的特征图融合作为输出;
获取所述第一图像的识别结果;所述识别结果为预定的目标识别网络模型生成的目标预测框。
优选地,所述CA模块,用于对输入的特征信息执行一维水平全局池化和一维垂直全局池化,而后基于通道数相加、二维卷积、归一化以及激活操作,将输入映射到(0,1)之间以便于Re-weight模块对Residual残差连接信息的权重分配。
优选地,所述CoT模块,用于将输入数据X的静态上下文表示映射为K1,并根据上下文化的注意矩阵A,生成新的特征图K2;将静态上下文K1和动态上下文K2通过注意力机制融合产生所述CoT模块的输出。
优选地,所述预定的目标识别网络模型还包括YOLOv7自带模块;所述YOLOv7自带模块包括ELAN,ELAN-H,MPConv,SPPCSPC,RepConv;ELAN由多个卷积层构成,输入输出特征大小保持不变,通道数在通过两个卷积后会有变化,经过最后一个卷积输出为需要的通道;ELAN-H也由多个卷积层构成,其操作是在ELAN最后Concat的时候多考虑到了之前两次卷积的结果;
MPConv模块的输入输出的通道数相等,但是输出size大小为输入size的一半,上半部分通过MaxPool使size减半,再通过卷积使通道数减半,下半部分则先通过卷积使通道数减半,再通过一个步长为2的卷积使size减半,而后上下部分通过cat合并得到输出;
SPPCSPC的网络结构主要由卷积层和MaxPool组成。整个SPPCSPC层的输出层通道为out_c,训练时中会计算出一个隐藏层通道hidden_c=int(2*e*out_c),用于信息量的拓展,一般取e=0.5,则hidden_c=out_c。
优选地,所述RepConv在训练和推理的时候使用不同的结构,并且使用了模型重参数化技术;在训练的时候,RepConv由一个3*3卷积的分支和一个1*1卷积的分支构成,同时如果输入和输出的通道数以及size的大小一致时,会到添加一个仅有BN层的分支,三个分支相加输出;在推理时,为了提高效率,会将分支的参数重参数化到主分支上,取3*3的主分支卷积输出。
优选地,所述方法还包括预定的目标识别网络模型的训练过程;所述训练过程包括:使用若干输变电设备红外图像生成训练集、测试集;设置准确率、召回率、IOU的性能指标,基于预设的识别精度以及预测框与真正框IOU的比值,训练优化模型,使得预测框与实际设备的标记框的重合度较高。
此外,本发明的第二方面提供了一种电子装置,所述电子装置包括:一个或多个处理器,存储器,所述存储器用于存储一个或多个计算机程序;其特征在于,所述计算机程序被配置成由所述一个或多个处理器执行,所述程序包括用于执行如第一方面所述的基于边缘计算的输变电设备红外图像目标识别方法步骤。
此外,本发明的第三方面提供了一种存储介质,所述存储介质存储有计算机程序;所述程序由处理器加载并执行以实现如第一方面所述的基于边缘计算的输变电设备红外图像目标识别方法步骤。
本发明的方案中,通过获取待识别的输变电设备红外图像,并执行预处理缩放成固定大小的第一图像;根据预定的目标识别网络模型对所述第一图像进行识别;其中,所述预定的目标识别网络模型以YOLOv7的网络框架为基础,包括骨干网络Backbone、检测头Head;所述骨干网络Backbone包括两个CA模块,所述两个CA模块位于两个卷积模块Conv之后;所述检测头Head部分中的三个Detect中都加入了一个CoT模块,CoT模块将静态和动态上下文表示的特征图融合作为输出;获取所述第一图像的识别结果;所述识别结果为预定的目标识别网络模型生成的目标预测框。相比于现有技术,通过提出改进YOLOv7的输变电设备红外图像目标识别算法CACoT-YOLOv7,该算法以YOLOv7为基础,在YOLOv7的Backbone中加入了经过改进的CA模块,和原来的CA模块相比加入了残差结构,在提高信息保存能力的同时增加相应对象的特征表示,从而为Head部分的预测提供更有效的特征;除以以外,在三个Detect检测器中加入CoT模块,学***的目的。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例公开的目标识别网络模型整体结构示意图;
图2是本发明实施例公开的CA模块的结构示意图;
图3是本发明实施例公开的CoT模块的结构示意图;
图4是本发明实施例公开的性能指标示意图;
图5是本发明实施例公开的目标识别网络模型的预测图像示意图;
图6是本发明实施例公开的边缘计算架构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
需要说明的是:在本文中提及的“多个”是指两个或两个以上。
以下对本申请实施例的技术方案的实现细节进行详细阐述:
本实施例的名词解释:
目标检测模型(YouOnly Look Oncev7,YOLOv7)
输变电设备(Power transmission and transformation equipment)
红外图像(Infrared image,IR)
目标检测(Object Detection)
深度学习(deep-learning,DL)
国家发展迅速导致了用电量的需求不断增加,同时电力设备覆盖了国家的各个区域,进而提高了电力设备发生故障的概率。由于电力***引起的事故不断发生,我国对电力设备的安全性及其自动化程度越来越重视。输变电设备是电力设备的重要组成环节,输变电设备发生故障的主要表现包括机械损伤、温度升高和局部的电场改变。传统的设备监测需要有经验的人工,并且成本高,容易出现较大的偏差,增了电力巡检智能化的困难程度,而非接触的设备监测可以有效解决这个问题。非接触的设备监测主要通过红外图像分析设备状况,它的测温范围广、准确度高,被广泛运用于输变电设备的监测中。
随着红外诊断技术的不断发展,红外技术在输变电设备关于温度的应用领域也十分的广阔,可以通过设备的红外图像直观地发现设备的发热问题。同时,随着目标检测技术的不断成熟,将经过处理的输变电设备红外图像与目标检测算法相结合,可以很快的进行输变电设备的故障诊断。基于深度学习的目标检测方法目前已经应用于各个图像识别领域,将该方法运用于检测输变电设备可以很大程度地提高识别的精度和速度,并用于后续对设备的各类分析,从而保证输变电设备安全稳定的运行,进一步提高变电站工作的安全系数。因此,在变电站中使用基于深度学习的目标检测方法识别输变电设备具有明显的优势,通过红外图像数据训练出的检测模型可以实现对大量变电站红外图像的自动识别,从而降低成本并有效保障变电站的安全效益、社会效益和经济效益。
目前的输变电设备检测算法主要分为两种,一种是传统方法,一种是基于深度学习的方法。传统的目标检测算法主要包括Cascade+HOG/DPM+Haar等,也有很多检测算法是根据以上算法的改进。总体来说,一般是通过算法提取各种设备的边缘信息,也就是特征提取,在得到这些特征信息后再结合支持向量机(Support Vector Machine,SVM),自适应增强(Adaptive boosting)等算法来实现对不同设备的分类。基于深度学习的方法主要采用基于YOLO系列的模型或者R-CNN算法,R-CNN是通过分割算法在图像上生成很多小区域,根据这些小区域的颜色和结构特征进行合并,得到候选框。然后在统一图片尺寸后过卷积神经网络和全连接层实现目标检测和分类。YOLO系列的算法一般是将输入的图片转换为7*7的网格,然后通过两个边界框boundingboxes对这些网格进行预测,最后通过极大值抑制对boundingboxes的预测结果进行筛选得到最终的预测框。无论是哪一种基于深度学习的方法,它们一般都是通过对标注各种设备信息之后的红外图像进行训练或者先在其他数据集上训练得到预训练模型再迁移学习,训练之后可以得到一个模型,这个模型能够实现对输变电设备更加精确和快速的识别与定位。
对于输变电设备的识别来说,传统算法很难去设计一个通用的模型去提取不同设备的特征,并且由于红外图像拍摄角度的距离差异、光照的影响以及复杂背景干扰,导致对复杂物体识别的准确率收到很大的制约。除此以外,传统算法需要消耗大量的时间,不利于快速准确的完成后续的对设备的分析。目前基于深度学习的方法主要是通过YOLO系列或者是R-CNN等模型来实现对输变电设备的识别与检测,但是R-CNN虽然精度较高,但是把网络分为两个阶段,步骤繁琐,同时在提取图片时,由于生成的候选区域比较多,会存在一些冗余,完成的时间会变长,也增加了在复场景下的候选框的提取难度,因此它不能很好地满足部分需要实时性场景的需要。对于YOLO系列,它不用将网络分为两个阶段,直接通过一个网络就可以完成目标的检测和分类,YOLOv2相对于YOLOv1加入了回归先验框机制,并且使用新的网络结构Darknet-19,YOLOv3相对于YOLOv2加入了残差网络,还利用了多尺度特征融合进行目标检测。YOLOv4和YOLOv3本质上相差不大,主要是引入了csp block(CSP模块)提高了准确率。YOLOv5基于Pytorch框架速度更快,配置文件对用户更友好。而YOLOv7使用了高效聚合网络并结合重参数化,在保证模型性能的条件下加速网络,在5FPS到160FPS的范围内,无论是速度或是精度,都超过了先前研发的检测器。
除此以外,有一些工作将YOLO系列与注意力机制结合来提高网络的识别能力,这些注意力机制包括Squeeze-and-Excitation block(SE),Bottleneck Attention Module(BAM)和Convolutional Block Attention Module(CBAM)等。然而,SE机制只考虑了通道间信息的编码,而忽略了位置信息的重要性,这对在视觉任务中捕获目标结构至关重要。BAM机制和CBAM机制,试图利用位置信息,减少输入张量的通道维度,然后使用卷积计算空间注意,然而,卷积只能捕获局部关系,不能对长期依赖关系进行建模。Coordinate Attention(CA)机制将位置信息嵌入到信道注意中,使移动网络能够在更大区域内关注,同时避免产生显著的计算开销并提高分类精度。Contextual Transformer(CoT)是一种自注意力机制,相较于在Transforme中使用的自注意力机制,它可以充分利用了输入键之间的上下文信息,指导动态注意矩阵的学习,从而增强了视觉表征的能力。
然而,随着实际运用中输变电设备红外图像的不断输入,对服务器的计算需求会不断增大。为了解决传统数据处理方式下时延高、数据实时分析能力匮乏等弊端,边缘计算技术应运而生。边缘计算技术是在靠近物或数据源头的网络边缘侧,通过融合网络、计算、存储、应用核心能力的分布式开放平台,就近提供边缘智能服务。简单点讲,边缘计算是将从终端采集到的数据,直接在靠近数据产生的本地设备或网络中激进型分析,无需再将数据传输至云端数据处理中心。
为了实现对绝缘子类、导电线类、金具类、变压器套管等输变电设备的高精度目标识别,本实施例提供了一种基于改进YOLOv7的输变电设备红外图像目标识别算法称为CACoT-YOLOv7,它以YOLOv7的网络框架为基础,在其基础上加入了改进的CA模块以及CoT模块,改进的CA模块提高了Backbone部分的表征能力,CoT模块利用Backbone部分提供的特征在Head预测的过程完成自我注意学习。将这两种注意力机制和YOLOv7结合提高了网络的分类和识别能力,可以完成对红外图像中各类输变电设备的准确定位及识别。除此以外,将训练完成的模型部署到边缘计算节点当中可以有效地降低部署成本并提高信息的安全性。
如图1所示为本实施例的目标识别网络模型整体结构示意图。
具体地,从网络的整体结构来看,除了Input主要分为两部分,分别是Backbone和Head。Backbone用于提取特征,Head用于预测。Backbone中的Conv模块由两组Conv+BN+SiLU构成,这两组中除了Conv层的Stride不同以外,其他参数相同。Conv+BN+SiLU,表示卷积层+归一化+SiLU激活层。
从流程来说,先是将图片resize成固定大小输入到Backbone网络中,然后根据Backbone网络中三层不同的size大小的特征图在Head部分继续输出,最后经过RepConv模块后对边框进行预测输出最后的结果。Size指特征图的宽和高,resize指对输入图像尺寸的调整。
在Bacbone部分拥有两个改进的CA模块,它的位置位于两个Conv模块之后,由于CA模块的作用是提高特征图的表征能力且两个Conv模块生成的特征图具有不同的尺度以及深度,因此两个CA模块可以从不同的尺度作用于输入图像的特征图,提高了后续网络中空间结构的有效性。在Head部分中的三个Detect中都加入了一个CoT模块,CoT将静态和动态上下文表示的融合作为输出,能够更加充分地利用到不同尺度下特征图的上下文信息,提高分类精度。
本实施例的第一方面提供了一种基于边缘计算的输变电设备红外图像目标识别方法,所述方法包括:
S1,获取待识别的输变电设备红外图像,并执行预处理缩放成固定大小的第一图像;
具体地,通过将图片resize成适应于识别模型的固定大小,比如640×480。
S2,根据部署在边缘计算节点当中的目标识别网络模型对所述第一图像进行识别。
具体地,本实施例,所述预定的目标识别网络模型以YOLOv7的网络框架为基础,包括骨干网络Backbone、检测头Head;所述骨干网络Backbone包括两个CA模块,所述两个CA模块位于两个卷积模块Conv之后;所述检测头Head部分中的三个Detect中都加入了一个CoT模块,CoT模块将静态和动态上下文表示的特征图融合作为输出。CA全称CoordinateAttention(CA,协调注意力),CoT全称为Contextual Transformer(CoT,上下文转换器)。
所述方法生成的模型将部署在边缘计算节点当中,所述边缘计算指将从终端采集到的数据,直接在靠近数据产生的本地设备或网络中进行分析,所述分析指通过模型对输入的输变电红外图像中的各类输变电设备完成预测。通过将训练的模型部署到边缘计算节点当中,实现低延时、低成本、易扩展的本地输变电设备识别。
(a)CA模块
优选地,所述CA模块,用于对输入的特征信息执行一维水平全局池化和一维垂直全局池化,而后基于通道数相加、二维卷积、归一化以及激活操作,将输入映射到(0,1)之间以便于Re-weight模块对Residual残差连接信息的权重分配。
本实施例,一维水平全局池化和一维垂直全局池化是对输入的操作,Residual残差连接信息只用于最后的权重分配。通道数相加、二维卷积、归一化以及激活操作目的是为了通过注意力机制完成特征筛选。Sigmoid层完成最终的映射。
具体到网络的结构细节,改进的CA模块在图1中用CA表示。CA模块的结构如图2所示。
如图2所示,其中,X Avg Pool和Y Avg Pool分别表示一维水平全局池化和一维垂直全局池化,使用这两个池化层的原因是由于全局池化通常用于信道注意,对空间信息进行全局编码,但它将全局空间信息压缩到信道描述符中,很难保存位置信息,而位置信息对输变电设备的识别至关重要。为了鼓励注意力块用精确的位置信息在空间上捕获长期的交互作用,将全局池化分解为一对一维特征编码操作,也就是X Avg Pool和Y Avg Pool。
具体来说,对于输入X,使用的池化核的尺寸分别为(H,1)或(1,W),分别沿着水平坐标和垂直坐标对每个通道进行编码。因此,第c个通道在高度h处的输出可以表示为:
同样,宽度为w的第c个通道的输出也可以写成:
其中和/>表示第c个通道的输出,xc表示输入X的第c个通道。上述两个变换分别沿着两个空间方向聚集特征,生成一对具有方向感知能力的特征图。
Concat是通道数的相加,Conv2d是二维卷积,BatchNorm+Non-linear是归一化加上一个激活函数,Sigmoid是将输出映射到(0,1)之间以便于Re-weight对Residual残差连接信息的权重分配。和原来的CA模块相比,改进的CA模块中加入了两个残差连接,避免了在Concat和BatchNorm层的信息丢失,Add操作为简单的像素叠加,是描述图像的特征下的信息量增多了,但是描述图像的维度本身并没有增加,只是每一维下的信息量在增加,这显然是对最终的图像的分类是有益的。
(b)CoT模块
本实施例,所述CoT模块,用于将输入数据X的静态上下文表示映射为K1,并根据上下文化的注意矩阵A,生成新的特征图K2;将静态上下文K1和动态上下文K2通过注意力机制融合产生所述CoT模块的输出。
加入的CoT模块在图1中用CoT表示。CoT模块的结构如图3所示。
如图3所示,其中,*表示局部矩阵乘法运算。从流程上来看,假设输入的二维映射为X,keys(K),queries(Q)和values(V)分别定义为:
K=X (3)
Q=X (4)
V=XWv (5)
其中,Wv是嵌入矩阵。keys,queries和values分别是Key,Query和Value的元素。从图三的流程来看,KeyMap通过一个k×k的群卷积,将每个keys的表示映射为K1,K1就是输入X的静态上下文表示,在这之后,将K1与Query进行Concat操作,实现通道数的相加。然后是注意力矩阵的实现:
A=[K1,Q]WθWδ (6)
其中,K1是keys的映射,Wθ是带有ReLu激活函数的1×1卷积,而Wδ是不带激活函数的1×1卷积,A是输出的注意矩阵。换句话说,对于多头注意力的每个头,A的每个空间位置的局部注意矩阵是基于Query特征和上下文化的Key特征来学习的,而不是单独的Query和Key的对应。这种方法在挖掘出的静态上下文K1的指导下增强了自我注意学习。之后,根据上下文化的注意矩阵A,新的特征图K2通过如下操作得出:
K2=V*A (7)
可以看出,特征图K2捕获了输入之间的动态特征交互作用,K2被称为输入的动态上下文表示。最后,CoT模块的输出是将静态上下文K1和动态上下文K2通过注意力机制融合产生。
(c)YOLOv7自带模块
本实施例,YOLOv7自带模块包括ELAN,ELAN-H,MPConv,SPPCSPC,RepConv。ELAN由多个卷积层构成,输入输出特征大小保持不变,通道数在通过两个卷积后会有变化,经过最后一个卷积输出为需要的通道。它使用扩展,随机分组,合并基数的方式来实现在不破坏原始梯度路径的情况下不断增强网络的学习能力。
在体系结构方面,ELAN-H只改变了计算块中的体系结构,而过渡层的体系结构则完全不变,这个策略是利用群卷积来扩展计算块的通道和基数。除此以外,它使用相同组的参数和跨通道整合用于一个计算层的所有计算块。除了保留了传统的ELAN设计架构外,ELAN-H还可以指导不同组的计算块来学习更多样化的特性。ELAN-H也由多个卷积层构成,其操作与ELAN大体相同,就是在最后Concat的时候多考虑到了之前两次卷积的结果;Concat是通道数的相加。它的输入输出特征大小经过最后一个卷积后也保持不变,同样的,它的通道数在通过两个卷积后也会降为一半,最后的通道数是输入通道数的两倍。它的作用和ELAN相似。
MPConv模块的输入输出的通道数相等,但是输出size大小为输入size的一半,上半部分通过MaxPool使size减半,再通过卷积使通道数减半,下半部分则先通过卷积使通道数减半,再通过一个步长为2的卷积使size减半,而后上下部分通过cat合并得到输出。MaxPool为最大池化操作。
SPPCSPC的网络结构主要由卷积层和MaxPool组成。整个SPPCSPC层的输出层通道为out_c,训练时中会计算出一个隐藏层通道hidden_c=
int(2*e*out_c),用于信息量的拓展,一般取e=0.5,则hidden_c=out_c。
RepConv在训练和推理的时候使用不同的结构,并且使用了模型重参数化技术。重参数化技术可以看作是一种集成技术,可以将其分为模块级集成和模型级集成两类。为了获得最终的推理模型,对于模型级重参数化有两种常见的实践。一是用不同的训练数据训练多个相同的模型,然后对多个训练模型的权重进行平均。另一种方法是对不同迭代次数下模型的权重进行加权平均。模块级重参数化在训练过程中将一个模块分割为多个相同或不同的模块分支,并在推理过程中将多个分支模块集成到一个完全等价的模块中。具体到网络结构中,在训练的时候由一个3*3卷积的分支和一个1*1卷积的分支构成,同时如果输入和输出的通道数以及size的大小一致时,会到添加一个仅有BN层的分支,三个分支相加输出。在推理时,为了提高效率,会将分支的参数重参数化到主分支上,取3*3的主分支卷积输出。
S3,获取所述第一图像的识别结果;所述识别结果为预定的目标识别网络模型生成的目标预测框。
优选地,所述方法还包括预定的目标识别网络模型的训练过程;所述训练过程包括:使用若干输变电设备红外图像生成训练集、测试集;选择准确率、召回率、mAP作为性能指标,并基于预设的识别精度以及预测框与真正框IOU的比值,训练优化模型,使得预测框与实际设备的标记框的重合度较高
这里,各项指标是训练完成的模型计算出来的。准确率指所有被判定为正类中,真实的正类占的比例。召回率指的是所有真实为正类中,被判定为正类占的比例。IOU指交并比,代表真实框和预测框重合的程度。训练轮数的选择一般看模型收敛的程度,一般各项指标变化不明显可以结束训练。
从实验的流程来看,主要分为三步,首先是数据集的制作,然后是数据集的训练,最后是模型的测试。具体来说,数据集的制作主要是将红外图像中的绝缘子类、导电线类、金具类、变压器套管等输变电设备标记出来,并将标好的数据集按比例分为训练集和验证集。训练部分是将数据集放到CACoT-YOLOv7的网络中并设置好需要识别的目标类型和模型的参数,经过训练后将效果最好的模型用于测试。最后的测试要使用未经过标记的图片,并根据画出的预测框和实际框得到模型的准确度。
我们的实验使用了5821张红外图像,其中5182张图片作为训练集,639张图片作为测试集。训练中,我们的epoch设置为170,其性能指标如图4所示,其精度在86%到87%之间。[email protected]表示IOU(Intersection over Union,交并比)阈值大于0.5的各种类平均mAP,其中IOU表示预测框与真正框交集与表示预测框与真正框并集的比值,[email protected]最终稳定在0.77左右。AP表示平均精确度,mAP表示所有类别的AP求平均。
最终模型的预测图像如图5所示,可以看出CACoT-YOLOv7网络训练的模型对各类大小的输变电设备都可以有效识别,且通过该模型生成+的预测框与实际设备的标记框的重合度较高。
其中,模型的实际应用会部署到边缘计算节点当中。边缘计算是在靠近物或数据源头的网络边缘侧,通过融合网络、计算、存储、应用核心能力的分布式开放平台,就近提供边缘智能服务。边缘计算架构如图6所示,其中终端节点是拍摄红外图像的设备,主要完成收集原始数据并上传的功能。边缘计算节点通过合理部署和调配网络边缘侧节点的计算和存储能力,实现基础服务响应。网络节点负责将边缘计算节点处理后的有用数据上传至云计算节点进行分析处理。云计算节点将边缘计算层的上报数据将在云计算节点进行永久性存储,同时边缘计算节点无法处理的分析任务和综合全局信息的处理任务仍旧需要在云计算节点完成。除此之外,云计算节点还可以根据网络资源分布动态调整边缘计算层的部署策略和算法。
本实施例,基于CACoT-YOLOv7的输变电设备红外图像目标识别可以实现对各类输变电设备的准确识别,相对于传统方法和现有的基于深度学习的网络模型,它通过向YOLOv7的网络中添加改进的CA模块以及CoT模块,提高了网络的表征能力以及对输变电设备设备的分类精度。利用该网络训练的模型可以很好地完成输变电设备红外图像目标识别任务,从而实时地对变电设备状态进行监测,有利于提高输变电设备的运行可靠性和资源的利用率,对于降低维修成本也具有重要意义。
此外,本实施例的第二方面提供了一种电子装置,所述电子装置包括:一个或多个处理器,存储器,所述存储器用于存储一个或多个计算机程序;其特征在于,所述计算机程序被配置成由所述一个或多个处理器执行,所述程序包括用于执行如第一方面所述的基于边缘计算的输变电设备红外图像目标识别方法步骤。
此外,本实施例的第三方面提供了一种存储介质,所述存储介质存储有计算机程序;所述程序由处理器加载并执行以实现如第一方面所述的基于边缘计算的输变电设备红外图像目标识别方法步骤。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网格设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于边缘计算的基于边缘计算的输变电设备红外图像目标识别方法,其特征在于,所述方法包括:
获取待识别的输变电设备红外图像,并执行预处理缩放成固定大小的第一图像;
根据部署在边缘计算节点当中的目标识别网络模型对所述第一图像进行识别;其中,所述预定的目标识别网络模型以YOLOv7的网络框架为基础,包括骨干网络Backbone、检测头Head;所述骨干网络Backbone包括两个CA模块,所述两个CA模块位于两个卷积模块Conv之后;所述检测头Head部分中的三个Detect模块中都加入了一个CoT模块,CoT模块将静态和动态上下文表示的特征图融合作为输出;
获取所述第一图像的识别结果;所述识别结果为预定的目标识别网络模型生成的目标预测框。
2.根据权利要求1所述的基于边缘计算的输变电设备红外图像目标识别方法,其特征在于,所述CA模块,用于对输入的特征信息执行一维水平全局池化和一维垂直全局池化,而后基于通道数相加、二维卷积、归一化以及激活操作,将输入映射到(0,1)之间以便于Re-weight模块对Residual残差连接信息的权重分配。
3.根据权利要求2所述的基于边缘计算的输变电设备红外图像目标识别方法,其特征在于,所述CoT模块,用于将输入数据X的静态上下文表示映射为K1,并根据上下文化的注意矩阵A,生成新的特征图K2;将静态上下文K1和动态上下文K2通过注意力机制融合产生所述CoT模块的输出。
4.根据权利要求3所述的基于边缘计算的输变电设备红外图像目标识别方法,其特征在于,所述预定的目标识别网络模型还包括YOLOv7自带模块;所述YOLOv7自带模块包括ELAN,ELAN-H,MPConv,SPPCSPC,RepConv;ELAN由多个卷积层构成,输入输出特征大小保持不变,通道数在通过两个卷积后会有变化,经过最后一个卷积输出为需要的通道;ELAN-H也由多个卷积层构成,其操作是在ELAN最后concat的时候多考虑到了之前两次卷积的结果;
MPConv模块的输入输出的通道数相等,但是输出size大小为输入size的一半,上半部分通过MaxPool使size减半,再通过卷积使通道数减半,下半部分则先通过卷积使通道数减半,再通过一个步长为2的卷积使size减半,而后上下部分通过cat合并得到输出;
SPPCSPC的网络结构主要由卷积层和MaxPool组成;整个SPPCSPC层的输出层通道为out_c,训练时中会计算出一个隐藏层通道hidden_c=int(2*e*out_c),用于信息量的拓展,取e=0.5,则hidden_c=out_c。
5.根据权利要求4所述的基于边缘计算的输变电设备红外图像目标识别方法,其特征在于,所述RepConv在训练和推理的时候使用不同的结构,并且使用了模型重参数化技术;在训练的时候,RepConv由一个3*3卷积的分支和一个1*1卷积的分支构成,同时如果输入和输出的通道数以及size的大小一致时,会到添加一个仅有BN层的分支,三个分支相加输出;在推理时,为了提高效率,会将分支的参数重参数化到主分支上,取3*3的主分支卷积输出。
6.根据权利要求5所述的基于边缘计算的输变电设备红外图像目标识别方法,其特征在于,所述方法还包括预定的目标识别网络模型的训练过程;所述训练过程包括:使用若干输变电设备红外图像生成训练集、测试集;设置准确率、召回率、IOU的性能指标,基于预设的识别精度以及预测框与真正框IOU的比值,训练优化模型,使得预测框与实际设备的标记框的重合度较高。
7.一种电子装置,所述电子装置包括:一个或多个处理器,存储器,所述存储器用于存储一个或多个计算机程序;其特征在于,所述计算机程序被配置成由所述一个或多个处理器执行,所述程序包括用于执行如权利要求1-6任一项所述的基于边缘计算的输变电设备红外图像目标识别方法步骤。
8.一种存储介质,所述存储介质存储有计算机程序;所述程序由处理器加载并执行以实现如权利要求1-6任一项所述的基于边缘计算的输变电设备红外图像目标识别方法步骤。
CN202310926824.0A 2023-07-25 2023-07-25 一种基于边缘计算的输变电设备红外图像目标识别方法、电子装置及存储介质 Pending CN116912774A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310926824.0A CN116912774A (zh) 2023-07-25 2023-07-25 一种基于边缘计算的输变电设备红外图像目标识别方法、电子装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310926824.0A CN116912774A (zh) 2023-07-25 2023-07-25 一种基于边缘计算的输变电设备红外图像目标识别方法、电子装置及存储介质

Publications (1)

Publication Number Publication Date
CN116912774A true CN116912774A (zh) 2023-10-20

Family

ID=88364570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310926824.0A Pending CN116912774A (zh) 2023-07-25 2023-07-25 一种基于边缘计算的输变电设备红外图像目标识别方法、电子装置及存储介质

Country Status (1)

Country Link
CN (1) CN116912774A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117854113A (zh) * 2024-02-02 2024-04-09 广州天竞智能科技有限公司 一种安全防护用品的佩戴检测方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117854113A (zh) * 2024-02-02 2024-04-09 广州天竞智能科技有限公司 一种安全防护用品的佩戴检测方法、装置、设备及存储介质
CN117854113B (zh) * 2024-02-02 2024-05-24 广州天竞智能科技有限公司 安全防护用品的佩戴检测方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110929622B (zh) 视频分类方法、模型训练方法、装置、设备及存储介质
CN112990211B (zh) 一种神经网络的训练方法、图像处理方法以及装置
US9251425B2 (en) Object retrieval in video data using complementary detectors
CN109711416B (zh) 目标识别方法、装置、计算机设备和存储介质
CN114972213A (zh) 一种基于机器视觉的两阶段主板图像缺陷检测及定位方法
CN109034206A (zh) 图像分类识别方法、装置、电子设备及计算机可读介质
Liao et al. Fusion of infrared-visible images in UE-IoT for fault point detection based on GAN
CN113920097A (zh) 一种基于多源图像的电力设备状态检测方法及***
CN116912774A (zh) 一种基于边缘计算的输变电设备红外图像目标识别方法、电子装置及存储介质
Bose et al. In-situ recognition of hand gesture via Enhanced Xception based single-stage deep convolutional neural network
CN114972794A (zh) 基于多视图Pooling Transformer的三维对象识别方法
CN109740527B (zh) 一种视频帧中图像处理方法
Xiang et al. Crowd density estimation method using deep learning for passenger flow detection system in exhibition center
CN109064444B (zh) 基于显著性分析的轨道板病害检测方法
Luo et al. RBD-Net: robust breakage detection algorithm for industrial leather
CN117635630A (zh) 基于变电站实景点云的对象自动分割方法及***
CN116977265A (zh) 缺陷检测模型的训练方法、装置、计算机设备和存储介质
CN114333062B (zh) 基于异构双网络和特征一致性的行人重识别模型训练方法
Yan et al. YOLOv5-CSF: an improved deep convolutional neural network for flame detection
Wang et al. High-Voltage Transmission Line Foreign Object and Power Component Defect Detection Based on Improved YOLOv5
Itano et al. Human actions recognition in video scenes from multiple camera viewpoints
Huang Object extraction of tennis video based on deep learning
Xudong et al. Research of YOLOv5s Model Acceleration Strategy in AI Chip
CN114565773A (zh) 语义分割图像的方法、装置、电子设备以及存储介质
Zhang et al. Channel compression optimization oriented bus passenger object detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination