CN114596244A

CN114596244A - 基于视觉处理和多特征融合的红外图像识别方法及***

Info

Publication number: CN114596244A
Application number: CN202011404625.6A
Authority: CN
Inventors: 胥明凯; 何峰; 胡旭冉; 刘斌; 慕世友; 任志刚; 周大洲; 黄锐; 郭锐; 王海鹏; 张德才; 鲍新
Original assignee: State Grid Intelligent Technology Co Ltd; Jinan Power Supply Co of State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Intelligent Technology Co Ltd; Jinan Power Supply Co of State Grid Shandong Electric Power Co Ltd
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2022-06-07

Abstract

本发明提供了一种基于视觉处理和多特征融合的红外图像识别方法及***，利用图像预处理技术对采集的红外图像进行处理，以过滤背景和其他因素对设备识别的干扰，利用基于VGG‑Net多特征融合的目标检测模型对红外图像进行目标检测，定位电力设备在红外图像中的位置，利用训练好的设备分类模型对定位后的电力设备种类进行识别，本发明能够保证红外图像设备定位和识别的准确性，能够满足变电站场景机器人巡检的要求。

Description

基于视觉处理和多特征融合的红外图像识别方法及***

技术领域

本发明属于巡检机器人与计算机视觉技术领域，涉及一种基于视觉处理和多特征融合的红外图像识别方法及***。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

国内外利用红外热成像技术对电气设备进行检测并进行故障诊断的研究蓬勃开展起来，该技术也被广泛应用于现有的变电站巡检机器人***。红外热成像技术是一种非接触、被动式的测量技术。它可以检测和诊断电力设备大量的内部、外部缺陷，尤其还可以诊断许多常规试验方法不便于或无法检测的故障。但据发明人了解，当前变电站携带红外热像传感器进行变电站电气设备的故障诊断还存在一些不足，主要表现为：

1)红外热成像技术反映的是温度场信息，会造成对象形状的严重变形。该技术无法对变电站设备的红外图像进行有效地定位和识别，从而导致无法准确的在图像中映射温度场信息与电气设备及其各个部分的对应关系；

2)为了通过红外图像智能识别技术对变电站设备进行识别，我们积累了大量的红外图像数据资源，但传统的机器学习算法无法对这些数据资源进行有效利用，也就无法有效地对变电站设备进行故障诊断；

3)通过红外图像分析得到的往往是一块区域的温度信息，设备定位影响了数据判断的准确性，并且相关标定方法有待进一步提高，需要一种精确的电气设备目标定位与识别方法，从而减少背景信息的干扰。

红外图像不同于可见光图像，一些现有的可见光图像中设备检测和定位方法来直接处理红外图像是不可行的。红外图像灰度的整体分布较低且较集中，并且由于周围环境给红外成像过程带来的随机干扰和热成像***本身的不完善，红外图像的信噪比和对比度比较低。因此，通过红外图像对电力设备进行识别，对目标检测和定位算法要求很高，传统的视觉识别算法无法满足这种复杂场景下的设备识别需求。

发明内容

本发明为了解决上述问题，提出了一种基于视觉处理和多特征融合的红外图像识别方法及***，本发明能够准确的从红外图像里定位并识别出变电站设备类型，能够实际应用到电力场景下的巡检图像识别任务中。

根据一些实施例，本发明采用如下技术方案：

一种基于视觉处理和多特征融合的红外图像识别方法，包括以下步骤：

利用图像预处理技术对采集的红外图像进行处理，以过滤背景和其他因素对设备识别的干扰，通过基于多特征融合的目标检测模型对处理后的红外图像进行目标检测，定位电力设备在处理后的红外图像中的位置，利用训练好的设备分类模型对定位后的电力设备种类进行识别。

作为可选择的实施方式，还包括以下步骤，利用训练好的第二分类模型，对分类好的电力设备进行缺陷诊断，识别电力设备的状态。

作为可选择的实施方式，利用图像预处理技术对采集的红外图像进行处理的具体过程包括：

对采集的电力设备红外图像，设定R、G、B三个通道灰度级，计算三个通道的归一化直方图；

对图像的三个通道分别进行均衡化处理；

将三个通道分别进行均衡化后的图像进行通道合并，变成彩色图像，就得到了红外图像最终的处理结果。

作为可选择的实施方式，目标检测模型对处理后的图像进行目标检测的具体过程包括：

将训练样本统一缩放至设定大小，对于训练集中每一张图片出现的完整的待检测目标，标记其***框，并将***框坐标位置进行记录，并给定类别标签；

对训练样本进行数据增强；

基于SSD网络，将其全连接层用卷积层进行替换，各卷积层的特征图尺寸不同，并将特征图通过反卷积的方式构建特征金字塔，形成多尺度特征融合的目标检测模型；

对目标检测模型进行训练，利用训练后的模型进行待检测目标的检测。

作为进一步的限定，形成多尺度特征融合的目标检测模型的具体过程包括：以VGG-16为基本网络结构，将其中的3个全连接层使用2个卷积层替换，并且使用卷积核将Conv7的分辨率减半；将Conv4、Conv5、Conv6以及Conv7特征图通过反卷积的方式构建特征金字塔，达到多尺度目标定位检测效果。

作为进一步的限定，形成多尺度特征融合的目标检测模型的具体过程还包括：在每个尺度的特征图上生成目标先验，减少样本搜索空间，判断该区域是否包含目标；每个尺度的检测器结合目标先验，生成所有的检测结果，并使用非极大值抑制算法对所有检测结果进行筛选。

作为可选择的实施方式，所述设备分类模型的构建方法包括：

搭建卷积层，设置三个卷积层的卷积核大小；

搭建池化层，每个卷积层后面各接一个池化层和PReLu激活函数，前两个池化层使用Max pool，后一个池化层使用Max pool；

搭建全连接层，设置第一个全连接层的输出特征维度，以及第二个全连接层的输出特征维度，分别表示对输入图像的类别预测值。

作为可选择的实施方式，所述第二分类模型的构建方法包括：

搭建卷积层和池化层；网络的输入层后首先连接一个卷积层和池化层，卷积层的卷积核大小为3×3，池化层使用Max pool；

搭建Inception模块；Inception模块使用3个不同大小的滤波器对输入执行卷积操作，并执行最大池化，在3x3卷积层之前添加额外的1x1卷积层，之后将所有子层的输出级联起来，并传送至下一个Inception模块；

在每个Inception模块后面添加Batch Normalization层。

一种基于视觉处理和多特征融合的红外图像识别***，包括：

预处理模块，被配置为利用图像预处理技术对采集的红外图像进行处理；

目标检测识别模块，被配置为构建基于多特征融合的目标检测模型，对处理后的红外图像进行目标检测，定位电力设备在红外图像中的位置，利用训练好的设备分类模型对定位后的电力设备种类进行识别。

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的一种基于视觉处理和多特征融合的红外图像识别方法。

一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种基于视觉处理和多特征融合的红外图像识别方法。

一种巡检设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种基于视觉处理和多特征融合的红外图像识别方法。

本发明提供的巡检设备包括但不限于巡检机器人、巡检无人机、自动巡检车等。

与现有技术相比，本发明的有益效果为：

本发明创新性提出了一种基于视觉处理和多特征融合的红外图像识别方法，构建多个卷积层，每个卷积层的特征图尺寸大小不一致，并在每个尺度的特征图上生成目标先验，对检测结果进行筛选，该方法能够保证红外图像设备定位和识别的准确性，能够满足变电站场景机器人巡检的要求；

本发明采用单步目标检测算法来对红外图像进行定位，通过多特征提取网络融合的方式来提升了目标定位的准确度，通过多特征融合的SSD目标检测模型对红外图像进行目标检测，能够同时兼顾目标检测的速度和精度，提高了目标检测的实时性和可靠性。减少了人工投入，有效缩短了检测时间。

本发明创新性的将计算机视觉技术和深度学习技术相结合，构建了轻量化红外图像设备识别和诊断模型，分别对设备的种类和缺陷进行识别，有效提高红外图像识别的准确度，能够实际应用到电力场景下的巡检图像识别任务中，解决了红外图像识别技术对干扰目标的误识难题。

本发明提出了视觉均衡化处理和噪声过滤算法，通过视觉均衡化处理和噪声过滤算法来过滤背景和其他因素对设备识别的干扰，能够降低不同质量的红外图像对目标识别的影响，极大提高了红外图像设备定位和识别的精度，解决了红外图像质量较差以及灰度分布整体较低的问题。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为SSD红外图像设备定位网络；

图2为cnn-net1网络结构图；

图3为cnn-net2网络结构图。

具体实施方式：

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

一种基于视觉处理和多模型融合的红外图像识别方法，包括以下步骤：

(1)采集变电站设备红外图像，对图像中的目标区域进行标定，分析图像的背景特性，采用直方图均衡化技术对图像进行滤波处理，提升图像的对比度；

(2)为了解决红外图像中的目标定位问题，选取基于深度学习的多目标检测算法(SSD)来对目标进行定位，通过多特征提取网络融合的方式来提升目标定位的准确度；

(3)设计一个卷积神经网络分类模型cnn-net1，用来对电力设备的种类进行识别。

(4)设计一个卷积神经网络分类模型cnn-net2，用来对电力设备进行缺陷诊断。

(5)根据制作的红外图像设备样本训练cnn-net1模型和cnn-net2模型，设置网络超参数，运行训练脚本，得到训练模型。

所述步骤(1)中，在变电站巡检机器人采集的红外图像中，电力设备置身的环境有很大的差异，复杂的背景、干扰光源以及与目标相近的背景都会对目标的识别影响很大，不利于后期设备的定位和检测。这里我们采用直方图均衡化的方法对采集的设备图像进行滤波，尽量减少图像背景对设备识别的干扰。直方图均衡化(Histogram Equalization)又称直方图平坦化，实质上是对图像进行非线性拉伸,重新分配图像象元值，使一定灰度范围内象元值的数量大致相等。这样，原来直方图中间的峰顶部分对比度得到增强，而两侧的谷底部分对比度降低，输出图像的直方图是一个较平的分段直方图：如果输出数据分段值较小的话，会产生粗略分类的视觉效果。对机房场景下的设备指示灯图像进行取样，通过直方图均衡化技术对图像进行处理，具体步骤包括：

(1-1)对于采集的设备红外图像，假设三个通道灰度级(intensity levels)范围分别为[0,L_R-1]、[0,L_G-1]、[0,L_B-1]，图像的维数是M×N×3，MN表示图像的每个通道的像素总数，首先求出图像R、G、B三个通道的归一化直方图，三个通道的归一化直方图分别用下式表示

p_R(k)＝n_k/MN k＝0,1,2…L_R

p_G(k)＝n_k/MN k＝0,1,2…L_G

p_B(k)＝n_k/MN k＝0,1,2…L_B

上式中p_R、p_G、p_B分别表示一张图片R、G、B三个通道的归一化直方图。

(1-2)对图像的三个通道分别进行均衡化处理，过程用下式表示

上式中S_R表示对图像的R通道进行均衡化处理的结果，S_G表示对图像的G通道进行均衡化处理的结果，S_B表示对图像的B通道进行均衡化处理的结果。

(1-3)将三个通道分别进行均衡化后的图像进行通道合并，变成彩色图像，就得到了红外图像最终的处理结果。

所述步骤(2)中，根据红外图像的特点，结合当前卷积神经网络模型的发展。将红外图像设备定位模型设计为基于SSD的网络模型。SSD是一种使用单个深层神经网络检测图像中目标物的方法，它将边界框的输出空间离散化为一组默认框。在SSD的网络结构中，不同尺度的特征图上都有一系列固定大小的Box，这些在SSD中称为DefaultBox，它是用来框定目标物***置的，在网络训练的时候Ground Troth会赋予给每个固定的Box。SSD方法的核心就是使用卷积滤波器来预测特征图上固定的一组默认框的类别分数和位置偏移，它是基于前向传播的CNN网络。另外，该模型还拥有高准确率以及高检测速度，是一种实时的目标检测方法。与主流的目标检测方法不同，该方法无需区域提名，还可以直接将整张图像或视频帧放入卷积神经网络，并且直接回归出目标的位置及分类。

例如，通过SSD建立指示灯定位模型，具体步骤包括：

(2-1)准备训练数据集；数据集主要机器人巡检时所拍摄的红外图像，且机器人采集的图片具有很高的分辨率。在训练样本中，总共包含3000张训练图像，每张图片大小为6000×4000。首先将训练样本统一缩放至1200×800，然后对于训练集中每一张图片出现的完整的指示灯目标，标记其***框，并将***框坐标位置进行记录，并给定类别标签。

(2-2)数据增强；将训练集中的图像分别做了镜像、不同角度旋转、不同尺度缩放的数据增强操作，共得到20000张训练样本，扩大了训练样本集。

(2-3)基于SSD网络，设计的红外图像目标检测网络；它分为两部分，前面一部分是用来图像分类的基础网络(去掉了分类相关的层)，后面的网络是用来检测的多尺度特征映射层，这样可以检测到不同大小的目标。该模型用整张图像进行训练并直接优化检测结果，将边框检测作为一个回归问题，省去了复杂的数据传递过程，是一个端到端的检测***。

(2-4)SSD网络多层特征融合进行红外图像设备定位；算法以VGG-16为基本网络结构，

VGG-16网络包括13个卷积层和3个全连接层，首先将其中的3个全连接层使用2个卷积层替换，并且使用一个2*2的卷积核将Conv7的分辨率减半。对于输入图像的尺寸大小而言，Conv4、Conv5、Conv6以及Conv7特征图尺寸大小分为输入图像的1/8、1/16、1/32、1/64。然后将Conv4、Conv5、Conv6以及Conv7特征图通过反卷积的方式构建特征金字塔，达到多尺度目标定位检测效果。接着在每个尺度的特征图上生成目标先验，减少样本搜索空间，判断该区域是否包含目标。最后每个尺度的检测器结合目标先验，生成所有的检测结果，并使用非极大值抑制(NMS)算法对所有检测结果进行筛选。

(2-5)模型训练，将待训练图像以及步骤一中获取的图像Ground Truth数据作为输入，针对目标区域进行有监督的训练网络模型。网络的初始化权值参数通过SSD在ImageNet数据集上的预训练模型得到。

所述步骤(3)中，通过卷积神经网络分类模型cnn-net1，可以用来对电力设备的种类进行识别。在本实施例中，网络包含3个卷积层、3个池化层、二个全连接层，模型大小为391k。

由于电力设备的种类识别是一个图像分类问题，任务比较简单，所以不需要设计复杂的网络结构就可以满足要求。为了保证算法运行的速度和准确度，设计小型的分类器cnn-net1对电力设备的种类进行识别。

在本实施例中，CNN网络的搭建流程包括：

(3-1)搭建卷积层，前两个卷积层的卷积核大小为3×3，第三个卷积层的卷积核大小为2×2。

(3-2)搭建池化层，每个卷积层后面各接一个池化层和PReLu激活函数。前两个池化层使用Max pool(3×3)，后一个池化层使用Max pool(2×2)。

(3-3)搭建全连接层，第一个全连接层的输出特征维度是128，第2个全连接层的输出特征维度是2，分别表示对输入图像的类别预测值。

所述步骤(4)中，通过卷积神经网络分类模型cnn-net2，可以用来对电力设备进行缺陷识别，判断设备有没有缺陷，在本实施例中，网络包含1个卷积层、1个池化层、2个Inception模块、二个全连接层。

由于基于红外图像的设备缺陷识别问题涉及细粒度图像分类，一方面，不同设备缺陷之间在温度场上的差异性一般很小，体现设备缺陷的特征不是很明显；另一方面，不同设备之间会互相遮挡，互相重叠，这会对设备缺陷识别造成很大的影响。为此，cnn-net2为较为复杂且分类能力较强的网络结构。

在本实施例中，cnn-net2采用Inception结构，Inception一种具有优良局部拓扑结构的网络，即对输入图像并行地执行多个卷积运算或池化操作，并将所有输出结果拼接为一个非常深的特征图。因为不同的卷积运算与池化操作可以获得输入图像的不同信息，并行处理这些运算并结合所有结果将获得更好的图像表征。cnn-net2的搭建流程如下：

(4-1)搭建卷积层和池化层；网络的输入层后首先连接一个卷积层和池化层，卷积层的卷积核大小为3×3，池化层使用Max pool(3×3)。

(4-2)搭建Inception模块；Inception模块使用3个不同大小的滤波器(1×1、3×3、5×5)对输入执行卷积操作，此外它还会执行最大池化。为了减少输入信道的数量以及降低计算复杂度，在3x3卷积层之前添加额外的1x1卷积层，之后所有子层的输出最后会被级联起来，并传送至下一个Inception模块。

(4-3)搭建Batch Normalization层，为了加快网络的收敛速度，避免过拟合的发生，在每个Inception模块后面添加Batch Normalization层。

所述步骤(5)中，具体步骤包括：

(5-1)制作红外图像设备识别样本，训练样本分为两部分，一部分样本包含设备种类，用来训练cnn-net1，另一部分样本包含设备的缺陷信息，用来训练cnn-net2。对两部分样本用图像标注工具进行标注。

(5-2)根据图像标注信息从红外图像中裁剪出目标区域，并统一缩放到32×32的尺寸；

(5-3)分别对cnn-net1和cnn-net2进行训练，训练过程中：60％的图像作为训练集，20％的图像的作为验证集，20％的图像作为测试集。使用随机梯度下降(SGD)方法来训练CNN网络，batch size的大小为256，网络中的权值是随机初始化的。初始学习率为0.01，动量为0.9。网络在训练的过程中总共迭代了10万次。

当然，在其他实施例中，上述参数可以根据具体情况进行调整。

上述实施例中，利用图像预处理技术对采集的图像进行处理，从而过滤背景和其他因素对设备识别的干扰，然后通过基于多特征融合的SSD目标检测模型对红外图像进行目标检测，从而定位电力设备在红外图像中的位置，接着利用训练好的设备分类模型对设备的种类进行识别。最后使用大量的变电站场景中的图片对算法进行测试，测试结果表明，该方法能够准确的从红外图像里定位并识别出变电站设备类型。能够实际应用到电力场景下的巡检图像识别任务中。

还提供以下产品实施例：

一种基于视觉处理和多特征融合的红外图像识别***，包括：

预处理模块，被配置为利用图像预处理技术对采集的图像进行处理，以过滤背景和其他因素对设备识别的干扰；

目标检测识别模块，被配置为构建基于多特征融合的目标检测模型，对实时检测的红外图像进行目标检测，从而定位电力设备在红外图像中的位置，利用训练好的设备分类模型对定位后的电力设备种类进行识别。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于视觉处理和多特征融合的红外图像识别方法，其特征是：包括以下步骤：

利用视觉均衡化技术对采集的红外图像进行处理，利用基于VGG-Net多特征融合的目标检测模型对红外图像进行目标检测，定位电力设备在红外图像中的位置，利用训练好的设备分类模型对定位后的电力设备种类进行识别。

2.如权利要求1所述的一种基于视觉处理和多特征融合的红外图像识别方法，其特征是：利用图像预处理技术对采集的红外图像进行处理的具体过程包括：

利用直方图均衡化对红外图像进行非线性拉伸，重新分配图像象元值，使一定灰度范围内象元值的数量大致相等。

3.如权利要求1所述的一种基于视觉处理和多特征融合的红外图像识别方法，其特征是：利用图像预处理技术对采集的红外图像进行处理的具体过程包括：

对图像的三个通道分别进行均衡化处理；

4.如权利要求1所述的一种基于视觉处理和多特征融合的红外图像识别方法，其特征是：利用基于VGG-Net多特征融合的目标检测模型对红外图像进行目标检测的过程包括：

对训练样本进行数据增强；

5.如权利要求4所述的一种基于视觉处理和多特征融合的红外图像识别方法，其特征是：所述基于VGG-Net多特征融合的目标检测模型构建的具体过程包括：以VGG-16为基本网络结构，将其中的3个全连接层使用2个卷积层替换，并且使用卷积核将Conv7的分辨率减半；将Conv4、Conv5、Conv6以及Conv7特征图通过反卷积的方式构建特征金字塔，达到多尺度目标定位检测效果。

6.如权利要求4所述的一种基于视觉处理和多特征融合的红外图像识别方法，其特征是：所述基于VGG-Net多特征融合的目标检测模型构建的具体过程还包括：在每个尺度的特征图上生成目标先验，减少样本搜索空间，判断该区域是否包含目标；每个尺度的检测器结合目标先验，生成所有的检测结果，并使用非极大值抑制算法对所有检测结果进行筛选。

7.如权利要求1所述的一种基于视觉处理和多特征融合的红外图像识别方法，其特征是：所述设备分类模型的构建方法包括：

搭建卷积层，设置三个卷积层的卷积核大小；

8.如权利要求1所述的一种基于视觉处理和多特征融合的红外图像识别方法，其特征是：还包括以下步骤，利用训练好的第二分类模型，对分类好的电力设备进行缺陷诊断，识别电力设备的状态。

9.如权利要求8所述的一种基于视觉处理和多特征融合的红外图像识别方法，其特征是：所述第二分类模型的构建方法包括：

搭建级联的Inception模块；

在每个Inception模块后面添加Batch Normalization层。

10.如权利要求9所述的一种基于视觉处理和多特征融合的红外图像识别方法，其特征是：搭建级联的Inception模块的具体步骤包括：Inception模块使用3个不同大小的滤波器对输入执行卷积操作，并执行最大池化，在3x3卷积层之前添加额外的1x1卷积层，之后将所有子层的输出级联起来，并传送至下一个Inception模块。

11.一种基于视觉处理和多特征融合的红外图像识别***，其特征是：包括：

目标检测识别模块，被配置为利用基于VGG-Net多特征融合的目标检测模型对红外图像进行目标检测，定位电力设备在红外图像中的位置，利用训练好的设备分类模型对定位后的电力设备种类进行识别。

12.一种计算机可读存储介质，其特征是：其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行权利要求1-10中任一项所述的一种基于视觉处理和多特征融合的红外图像识别方法。

13.一种终端设备，其特征是：包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行权利要求1-10中任一项所述的一种基于视觉处理和多特征融合的红外图像识别方法。