CN118038004A

CN118038004A - 基于ResNet的自监督双目电力设备识别方法及***

Info

Publication number: CN118038004A
Application number: CN202410162542.2A
Authority: CN
Inventors: 付磊; 杜昊; 班国邦; 杨平安; 张晓春; 张迅; 杨凤生; 李翱鹏; 席光辉; 何雨旻; 孟令雯; 郭思琪; 杨昆桦; 马金通; 吴昊; 黎安俊; 罗莎莎; 邹福
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Priority date: 2024-02-05
Filing date: 2024-02-05
Publication date: 2024-05-14

Abstract

本发明公开了基于ResNet的自监督双目电力设备识别方法及***，包括：采集电力设备的数据，并通过U‑Net架构提取特征；建立双目深度估计模型，计算重投影误差，对模型进行优化；利用立体视差估计***得到深度，通过反向投影生成激光雷达点云，完成电力设备识别。本发明方法通过结合双输入ResNet编码器和U‑Net架构，有效地从图像对中提取深度信息并生成高精度的点云数据。利用自监督学***滑损失，在保持边缘清晰度的同时，增强模型对尖锐边缘的识别能力和对噪声的消除能力。

Description

基于ResNet的自监督双目电力设备识别方法及***

技术领域

本发明涉及计算机视觉技术领域，具体为基于ResNet的自监督双目电力设备识别方法及***。

背景技术

目前立体图像可以捕捉到物体之间的深度信息，具有复杂的几何结构和分层组织，而传统的单一图像通常只包含了二维信息，这种额外的深度信息对于检测和识别电力设备非常有帮助。在电力环境中，设备之间可能存在遮挡，这会使基于二维图像的检测更加复杂。通过使用点云数据，可以更好地处理遮挡情况，从而提高遮挡物体的检测准确性。此外，三维信息可以减少深度估计中的模糊和不确定性，可以更准确地定位和识别电力设备，有助于减少误检和漏检，并提高***的整体性能。

在点云数据处理中，PSMNet模型是一种常用的处理方法，该模型架构过于繁琐，需要更多的时间来进行深度估计，因此相应的点云生成较慢。

发明内容

鉴于上述存在的问题，提出了本发明。

因此，本发明解决的技术问题是：现有技术点云生成较慢，实时性不足，在提高实时性的同时无法兼顾精度要求。

为解决上述技术问题，本发明提供如下技术方案：基于ResNet的自监督双目电力设备识别方法，包括：采集电力设备的数据，并通过U-Net架构提取特征；建立双目深度估计模型，计算重投影误差，对模型进行优化；利用立体视差估计***得到深度，通过反向投影生成激光雷达点云并进行评估，完成电力设备识别。

作为本发明所述的基于ResNet的自监督双目电力设备识别方法的一种优选方案，其中：所述U-Net架构包括编码器和解码器，编码器一个预训练的ResNet模型，以图像对作为输入，在形状的第一层(6，192，640)中使用卷积权重；解码器是一个全卷积网络，在最后一层有sigmoid激活，输出0和1之间的归一化视差映射。

作为本发明所述的基于ResNet的自监督双目电力设备识别方法的一种优选方案，其中：所述重投影误差包括，利用立体模式下预测值与目标之间的SSIM计算重投影误差，

I_s→t＝I_sPrj<(K,D,T_s→t)>

其中，L_p表示重投影误差；RE表示度量重建误差；I_t表示在时间t的目标图像；I_s→t表示重建后目标时间t的图像；I_s表示源图像；prj表示投影图像的二维坐标；K表示固有参数；D表示投影深度；T_s→t表示相对姿态。

作为本发明所述的基于ResNet的自监督双目电力设备识别方法的一种优选方案，其中：所述优化包括，计算目标帧与均值归一化反深度值之间的边缘感知平滑损失，

L＝μL_p+λL_s

其中，L表示训练损失函数；μ表示自掩模方法得到的掩模像素值；λ表示平滑项；L_s表示边缘感知平滑度；表示平均归一化逆深度；/>表示在x方向的梯度；/>表示在y方向的梯度。

作为本发明所述的基于ResNet的自监督双目电力设备识别方法的一种优选方案，其中：所述立体视差估计***包括，

其中，z(x,y)表示像素点(x,y)的深度；b表示水平基线；f表示相机的焦距。

作为本发明所述的基于ResNet的自监督双目电力设备识别方法的一种优选方案，其中：所述反向投影包括，将所有深度像素反向投影到一个三维坐标系中，生成激光雷达点云，

depth，Z(x,y)＝z

其中，X(x,y)表示三维空间中点的宽度坐标；Y(x,y)表示三维空间中点的高度坐标；c_x表示图像的中心像素宽度坐标；c_y表示图像的中心像素高度坐标。

作为本发明所述的基于ResNet的自监督双目电力设备识别方法的一种优选方案，其中：所述评估包括，通过平均绝对误差、平方误差、线性均方根误差和对数均方根误差评估深度估计的准确性，

其中，ASbs Rel表示平均绝对相对误差；SqRel表示平方相对误差；RMSE表示均方根误差；RMSElog表示对数均方根误差；N表示像素总数；Z_p(x_i,y_i)表示像素坐标(x_i,y_i)处模型预测的深度值；Z_g(x_i,y_i)表示像素坐标(x_i,y_i)处真实的深度值。

第二方面，本发明还提供了基于ResNet的自监督双目电力设备识别***，包括，数据采集模块，采集电力设备的数据，对采集到的图像数据进行预处理，使用改进的双输入ResNet编码器处理图像对，提取关键特征；模型构建模块，建立双目深度估计模型，利用立体模式下预测值与目标之间的SSIM计算重投影误差，计算目标帧与均值归一化反深度值之间的边缘感知平滑损失，增强模型识别尖锐边缘和消除噪声的能力；点云生成模块，利用立体视差估计***得到深度，将所有深度像素反向投影到三维坐标系中获得点云的三维坐标，生成激光雷达点云，完成电力设备识别。

第三方面，本发明还提供了一种计算设备，包括：存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现所述基于ResNet的自监督双目电力设备识别方法的步骤。

第四方面，本发明还提供了一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现所述基于ResNet的自监督双目电力设备识别方法的步骤。

本发明的有益效果：本发明方法通过结合双输入ResNet编码器和U-Net架构，有效地从图像对中提取深度信息并生成高精度的点云数据，从而实现对电力设备的精确识别。利用自监督学***滑损失，在保持边缘清晰度的同时，增强模型对尖锐边缘的识别能力和对噪声的消除能力。此外，通过多种误差评估指标来优化深度估计模型，确保了深度预测的准确性和***的实用性，为电力设备的检测和维护提供了一种高效、可靠的技术解决方案。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明一个实施例提供的基于ResNet的自监督双目电力设备识别方法的整体流程图；

图2为本发明第二个实施例提供的基于ResNet的自监督双目电力设备识别方法的深度网络的体系结构图；

图3为本发明第二个实施例提供的基于ResNet的自监督双目电力设备识别方法的立体深度网络架构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

实施例1

参照图1，为本发明的一个实施例，提供了基于ResNet的自监督双目电力设备识别方法，包括：

S1：采集电力设备的数据，并通过U-Net架构提取特征。

进一步的，从目标电力设备场景中采集图像，图像对是由双目相机拍摄得到，其中每对图像分别代表了同一场景的左视图和右视图，高质量且分辨率相同的图像可以提高后续处理的准确性，为了使识别模型具有更好的泛化能力，采集过程需要在不同的环境条件下进行，包括不同的照明条件、天气条件以及电力设备的不同状态和角度，同时，图像应包括新旧、干净或被污染、不同颜色和型号的电力设备图像，以及设备在不同操作状态下的图像。

进一步的，本发明所提出的架构是基于编码器-解码器的经典U-Net。编码器是一个预训练的ResNet模型，解码器将sigmoid的输出转换为深度图。U-Net架构是用于训练的主要网络，合并具有不同接受野大小的各种规模特征，并将它们池化为不同的大小并进行上采样，然后将特征图连接起来。ResNet编码器模块通常接受单个RGB图像作为输入，在本发明中，以图像对作为输入，并在此基础上进行估计。改进后的网络可以同时用于训练和推理。ResNet编码器没有使用ResNet默认值(3，192，640)，而是在形状的第一层(6，192，640)中使用卷积权重。深度解码器是一个全卷积网络，它利用不同尺度的特征映射，并在上采样后将它们连接起来。在最后一层有sigmoid激活，输出0和1之间的归一化视差映射。

需要说明的是，为确保采集的电力设备图像对能够支撑起后续的深度学习任务，采用精校的双目相机***进行图像对的捕获。这些图像对是在各种不同环境条件下捕获的，以确保模型的鲁棒性，特别是通过捕获在各种光照和天气条件下的电力设备运行状态，包括不同的运行和维护场景。此外，为了提高模型的泛化能力，图像对涵盖了电力设备的多种型号、新旧状态以及清洁和污染程度，从而让模型能够适应真实世界的多变环境。

为了进一步优化数据的质量和适用性，对双目相机进行精确的校准，包括内外参数的调整，以保证左右视图的几何一致性和时间同步，从而最大限度地减少立体匹配过程中的误差。采集到的图像数据经过严格的预处理，包括去畸变和亮度归一化，确保了后续U-Net架构在特征提取时的准确性，为自监督学习提供了一个坚实的基础，使得模型能够在没有外部标注的情况下，准确识别和评估电力设备的状态。

S2：建立双目深度估计模型，计算重投影误差，对模型进行优化。

进一步的，在单眼模式下，Monodepth2使用时间帧代替立体对来计算相机的外在参数和图像帧的位姿。本发明将不依赖于时间框架进行自监督预测，在立体训练中，利用立体模式下预测值与目标之间的SSIM计算重投影误差。重投影误差由相对姿态计算得出，利用每个像素的最小值，最小化目标图像与重建目标图像之间的差异。

I_s→t＝I_sPrj<(K,D,T_s→t)>

更进一步的，计算目标帧与均值归一化反深度值之间的边缘感知平滑损失，增强模型识别尖锐边缘和消除噪声的能力。重投影损失要求有正确的输出图像和目标帧，因此，该方法旨在从图像对中选择合适的目标帧。下式为最终的训练损失函数：

L＝μL_p+λL_s

在训练模型大小为640×192和1024×320时，学***滑度可描述为：

其中，L表示训练损失函数；μ表示自掩模方法得到的掩模像素值，μe{0,1}；λ表示平滑项，大小为0.001；L_s表示边缘感知平滑度；表示平均归一化逆深度；/>表示在x方向的梯度；/>表示在y方向的梯度。/>用于阻止估计深度的萎缩。

需要说明的是，不依赖于时间框架进行自监督预测允许***在没有连续时间序列数据的情况下工作，对于电力设备识别尤为重要，因为实际环境中的电力设施并不总是能够提供连续的视频流或者由于其静态的特性不经常发生变化。通过采用立体图像对，本发明能够利用空间差异而不是时间差异来估计深度，显著提高了在静态场景中工作的准确性和可靠性。

将包括焦距和图像中心在内的内在参数，根据图像分辨率进行归一化。将固定大小的水平平移应用于立体帧之间的水平变换。从分割文件中输入图像以及相应的图像对，但是，其余的计算是基于从分割数据集获取的第一个数据，而不是配对图像。

需要说明的是，选取的图像对首先通过分割文件进行输入，确保了模型训练在特征提取时能够专注于电力设备的关键区域。不仅提升了模型对电力设备的识别准确率，还优化了训练过程中的计算效率。意味着模型能够在更细粒度上学习电力设备的特征，而不是整个图像，有助于在复杂背景中更准确地识别和定位电力设备，为后续的三维重建和分析打下了坚实的基础。

S3：利用立体视差估计***得到深度，通过反向投影生成激光雷达点云并进行评估，完成电力设备识别。

进一步的，深度可以从一个立体视差估计***中得到，该***需要一对左右的图像，以水平基线为基准。深度估计***将左侧图像作为参考，保存相对于右侧传感器图像的每个像素的视差图。考虑到相机的焦距，可以得到深度变换公式：

其中，z(x,y)表示像素点(x,y)的深度；b表示水平基线；f表示相机的焦距；立体视差方法在计算深度时更加鲁棒，因为它不需要复杂的运动估计或场景动态性的假设。在电力设备监测的实际应用中，可以在单个时间点捕获的图像上直接应用深度学习模型，无论设备是在运动中还是静止的。因此，这种自监督方法更适合于监测和评估电力基础设施，尤其是在那些难以获得大量动态数据的场合。

点云在参考视点和方向上有自己的三维坐标，这种坐标可以通过将所有深度像素反向投影到一个三维坐标系中来获得，该坐标系将包含点坐标为使用数据集图像的项目矩阵对其进行反向投影，各点相对于左相机帧参考的三维位置可由标定矩阵计算得到。

depth，Z(x,y)＝z

通过反向投影创建出精确的三维模型，对于电力设备的监测和诊断是非常有价值的。它允许细节丰富的电力设施点云的生成，提供了设备的实际物理尺寸和空间位置，这对于确定设备状态、检测故障或损伤以及进行后续的维护工作至关重要。

因为电力设备通常具有复杂的几何结构，且需要高精度的三维数据来准确评估其状态。通过这种方法，即使在复杂的背景或在不利的光照条件下，也能够确保获得关于电力设备位置和结构的详尽信息。此外，这种方法不依赖于外部环境标记或额外的传感器数据，使得在各种环境和条件下的电力设施管理变得更加灵活和成本效益高。

将得到的点云数据进行处理，然后使用PointNet3D深度学习模型，从点云中直接提取关键特征，利用经过训练的深度学习模型对新的点云数据进行有效的分类和识别，从而实现对电力设备的快速准确识别。

更进一步的，评估基准主要说明了真实值与预测值之间的误差。给出的误差分别为平均绝对误差(Abs Rel)、平方误差(Sq Rel)、线性均方根误差(RMSE)和对数均方根误差(RMSE log)。本发明使用了Monodepth2提到的相同的ground truth，同时在编码器的输入层中使用立体图像作为输入。

其中，Abs Rel表示平均绝对相对误差；Sq Rel表示平方相对误差；RMSE表示均方根误差；RMSElog表示对数均方根误差；N表示像素总数；Z_p(x_i,y_i)表示像素坐标(x_i,y_i)处模型预测的深度值；Z_g(x_i,y_i)表示像素坐标(x_i,y_i)处真实的深度值。

本实施例还提供一种基于ResNet的自监督双目电力设备识别***，包括，数据采集模块，采集电力设备的数据，对采集到的图像数据进行预处理，使用改进的双输入ResNet编码器处理图像对，提取关键特征；模型构建模块，建立双目深度估计模型，利用立体模式下预测值与目标之间的SSIM计算重投影误差，计算目标帧与均值归一化反深度值之间的边缘感知平滑损失，增强模型识别尖锐边缘和消除噪声的能力；点云生成模块，利用立体视差估计***得到深度，将所有深度像素反向投影到三维坐标系中获得点云的三维坐标，生成激光雷达点云，完成电力设备识别。

本实施例还提供一种计算设备，包括，存储器和处理器；存储器用于存储计算机可执行指令，处理器用于执行计算机可执行指令，实现如上述实施例提出的实现基于ResNet的自监督双目电力设备识别方法。

本实施例还提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例提出的基于ResNet的自监督双目电力设备识别方法。

本实施例提出的存储介质与上述实施例提出的基于ResNet的自监督双目电力设备识别方法属于同一发明构思，未在本实施例中详尽描述的技术细节可参见上述实施例，并且本实施例与上述实施例具有相同的有益效果。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(ReadOnly，Memory，ROM)、随机存取存储器(RandomAccessMemory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

实施例2

参照图2和图3，为本发明的一个实施例，提供了基于ResNet的自监督双目电力设备识别方法，为了验证本发明的有益效果，通过经济效益计算和仿真实验进行科学论证。

如图3所示，为本发明提出的的基于编码器-解码器的经典U-Net架构图，选择KITTI数据集中的双目图像对作为实验数据，确保这些图像覆盖了电力设备在多种环境条件下的不同状态。数据集中有39，810个数据用于训练，4424个数据用于验证，确保4424个验证数据的多样性，以评估模型在不同条件下的表现。

表1显示，对于图像输入大小为(192，640)的编码器，可训练参数的输出总数为11，185，920，而对于基于单图像层的编码器，可训练参数的输出总数为11，176，512。ResNet编码器有20个Conv2d层，20个BatchNom2D层，17个ReLU层，1个MaxPool2D层，总共8个基本块。解码器层具有相同的块、内核大小和步长。

表1编码器的模型参数表

层	输出	参数
			Conv2D:1–1	[1，64，96，320]	18，816
BatchNorm2d:1–2	[1，64，96，320]	128
			ReLU:1–3	[1，64，96，320]	-
MaxPool2d:1–4	[1，64，48，160]	-
			Sequential:1–5	[1，64，48，160]	-
BasicBlock:2–1	[1，64，48，160]	73，984
			BasicBlock:2–2	[1，64，48，160]	73，984
Sequential:1–6	[1，128，24，80]	-
			BasicBlock:2–3	[1，128，24，80]	230，144
BasicBlock:2–4	[1，128，24，80]	295，424
			Sequential:1–7	[1，256，12，40]	-
BasicBlock:2–5	[1，256，12，40]	919，040
			BasicBlock:2–6	[1，256，12，40]	1，180，672
Sequential:1–8	[1，512，6，20]	-
			BasicBlock:2–7	[1，512，6，20]	3，673，088
BasicBlock:2–8	[1，512，6，20]	4，720，640

其中，总参数为11185，920，可训练参数为11185，920，不可训练参数为0。

本发明提出了一种使用自监督学***衡，有效提高电力设备识别效率；通过深度图反向投影像素，可以直接从二维图像数据中生成三维点云，该方法无需使用额外的传感器(如LiDAR)来采集三维信息，从而降低了成本和复杂性，可以有效应用在对实时性有要求的电力设备检测中；通过使用深度图来生成点云，可以减少深度估计中的误差传播，有助于提高生成的三维点云的准确性和稳定性，从而在电力设备检测中提供更可靠的数据。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于ResNet的自监督双目电力设备识别方法，其特征在于，包括：

采集电力设备的数据，并通过U-Net架构提取特征；

建立双目深度估计模型，计算重投影误差，对模型进行优化；

利用立体视差估计***得到深度，通过反向投影生成激光雷达点云并进行评估，完成电力设备识别。

2.如权利要求1所述的基于ResNet的自监督双目电力设备识别方法，其特征在于：所述U-Net架构包括编码器和解码器，编码器一个预训练的ResNet模型，以图像对作为输入，在形状的第一层(6，192，640)中使用卷积权重；

解码器是一个全卷积网络，在最后一层有sigmoid激活，输出0和1之间的归一化视差映射。

3.如权利要求2所述的基于ResNet的自监督双目电力设备识别方法，其特征在于：所述重投影误差包括，利用立体模式下预测值与目标之间的SSIM计算重投影误差，

I_s→t＝I_sprj<(K，D，T_s→t)>

4.如权利要求3所述的基于ResNet的自监督双目电力设备识别方法，其特征在于：所述优化包括，计算目标帧与均值归一化反深度值之间的边缘感知平滑损失，

L＝μL_p+λL_s

5.如权利要求4所述的基于ResNet的自监督双目电力设备识别方法，其特征在于：所述立体视差估计***包括，

6.如权利要求5所述的基于ResNet的自监督双目电力设备识别方法，其特征在于：所述反向投影包括，将所有深度像素反向投影到一个三维坐标系中，生成激光雷达点云，

width，

height，

depth，Z(x,y)＝z

7.如权利要求6所述的基于ResNet的自监督双目电力设备识别方法，其特征在于：所述评估包括，通过平均绝对误差、平方误差、线性均方根误差和对数均方根误差评估深度估计的准确性，

8.一种采用如权利要求1～7任一所述方法的基于ResNet的自监督双目电力设备识别***，其特征在于，包括，

数据采集模块，采集电力设备的数据，对采集到的图像数据进行预处理，使用改进的双输入ResNet编码器处理图像对，提取关键特征；

模型构建模块，建立双目深度估计模型，利用立体模式下预测值与目标之间的SSIM计算重投影误差，计算目标帧与均值归一化反深度值之间的边缘感知平滑损失，增强模型识别尖锐边缘和消除噪声的能力；

点云生成模块，利用立体视差估计***得到深度，将所有深度像素反向投影到三维坐标系中获得点云的三维坐标，生成激光雷达点云，完成电力设备识别。

9.一种计算设备，包括：存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至7任一项所述的方法的步骤。

10.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至7任一项所述的方法的步骤。