CN117422750A - 一种场景距离实时感知方法、装置、电子设备及存储介质 - Google Patents

一种场景距离实时感知方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117422750A
CN117422750A CN202311419098.XA CN202311419098A CN117422750A CN 117422750 A CN117422750 A CN 117422750A CN 202311419098 A CN202311419098 A CN 202311419098A CN 117422750 A CN117422750 A CN 117422750A
Authority
CN
China
Prior art keywords
image
convolution
parallax
depth
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311419098.XA
Other languages
English (en)
Inventor
刘金柱
闫海洋
王石磊
张森森
景国明
韩东伟
代庆超
张迪
李朝阳
王波
黄建华
王雷雄
张迎晨
宋玉存
李智恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Stein Smart Energy Technology Co ltd
State Grid Corp of China SGCC
Wuhan University WHU
Henan Power Transmission and Transformation Construction Co Ltd
Original Assignee
Nanjing Stein Smart Energy Technology Co ltd
State Grid Corp of China SGCC
Wuhan University WHU
Henan Power Transmission and Transformation Construction Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Stein Smart Energy Technology Co ltd, State Grid Corp of China SGCC, Wuhan University WHU, Henan Power Transmission and Transformation Construction Co Ltd filed Critical Nanjing Stein Smart Energy Technology Co ltd
Priority to CN202311419098.XA priority Critical patent/CN117422750A/zh
Publication of CN117422750A publication Critical patent/CN117422750A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration using histogram techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • G06T7/337Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Geometry (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种场景实时距离感知方法、装置、电子设备及存储介质,通过对双目相机拍摄到的左右变电站场景图像进行直方图均衡化处理,使左右图像的亮度分布更加均匀,有利于后续的特征提取和匹配;采用轻量化的深度可分离变形卷积对经过处理的左右变电站场景图像进行特征提取,克服利用可变形卷积增强深度可分离卷积的感受野,从而提取更丰富的特征信息;基于多视差通道注意力代价聚合,多视差通道注意力机制可以更好地捕捉不同视差通道下的物体信息,并提高场景距离感知的精度和鲁棒性,从而更准确地构建代价聚合,提高立体匹配的准确性。

Description

一种场景距离实时感知方法、装置、电子设备及存储介质
技术领域
本发明涉及图像识别测距技术领域,尤其涉及一种场景距离实时感知方法、装置、电子设备及存储介质。
背景技术
目前,变电站作为重要的电能供应设施,承担着电能传输与分配的关键任务。在变电站设备运维工作中,近电作业是常见的作业场景。由于近电作业的高危性,作业人员的安全问题是作业过程中必须高度重视的事项。因此,为了保障近电作业人员的安全,必须开发出高效、准确的安全距离感知技术,以及能够智能分析和预警的安全辅助***。
现有的变电站近电作业场景距离实时感知方法包括电场强度检测、激光雷达、北斗定位以及双目测距技术。
(1)电场监测方法:通过测量人员和设备的电场强度来估算与带电体的安全距离,但由于电场易畸变且难以精确测量,该方法存在较大的距离检测误差。
(2)定位技术:利用北斗和超宽带无线通信等技术实时监测人员和设备位置,并计算其与带电设备的距离,但该方法受天气影响、建设成本高和维护成本高等缺点。
(3)基于图像测距技术的安全距离监测方法,包括主动式和被动式方法:主动式方法通过融合视频监控和激光雷达或ToF深度相机来获取人员的近电安全距离,但受环境光和温度影响较大,测距范围也较近。激光雷达难以实时获取高分辨率的三维图像并与异构影像视频高精度融合。
(4)双目立体匹配方法:现有双目立体匹配方法使用两个相机分别拍摄同一场景,通过比较两幅图像的差异来推测物体的深度信息。这些方法在理论上可以提供深度信息,但由于图像质量、摄像机标定等因素的影响,其在复杂环境下的准确性有限。此外,这些方法通常需要大量计算资源和内存,限制了其在实时应用中的可行性。
(5)深度神经网络:一些方法利用深度神经网络从图像中提取特征,并预测物体的深度信息。虽然这些方法在一定程度上提高了距离感知的准确性,但在应用于实际环境时,计算资源和内存的需求仍然是一个挑战,尤其是在资源受限的场景中。
综上,电场监测距离测量是一种利用电场传感器来测量物体与传感器之间距离的方法,但电场强度测量受环境因素(设备运行状况、气候等)影响大,电场传感器精度受限,无法精准测量人或作业机械与带电设备的距离;北斗定位技术可以实时监测人员和设备的位置,并计算人员与带电设备之间的距离,但是其建设成本较高,难以在变电站进行大规模部署;激光雷达利用激光束发射与接收的时间差来测量目标物体与激光雷达之间的距离,但是激光雷达生成的点云数据,需要进行复杂的数据处理和算法分析,这需要额外的计算资源;双目测距通过比较两个相机拍摄的图像中的像素位移,可以推断出物体的距离,但是,双目测距同样易受环境影响,也需要大量的计算资源和内存。
现有技术在实际使用时,仍存在以下缺点:
距离感知准确性不足。现有的近电作业场景感知方法在获取环境深度信息时存在准确性不足的问题。这主要是由于现有双目立体匹配方法在处理图像间差异时受到图像质量、摄像机标定等因素的影响,导致深度预测的精度受到限制。
计算资源和内存占用较大。现有技术在实现双目立体匹配时通常需要大量计算资源和内存,这限制了方法在有限资源环境中的实时运行能力。这导致了***性能受限,可能难以在变电站计算资源受限的场景中应用。
环境复杂性引发干扰。变电站的作业场景中存在复杂的环境因素,如光线变化、阴影、反光等。这些因素会导致双目相机左右成像结果和处理受到干扰,从而降低了距离感知的准确性和稳定性。
发明内容
本发明的目的是提供一种场景距离实时感知方法、装置、电子设备及存储介质,能够解决现有技术中距离感知准确性不足、计算资源占用大和环境干扰问题,以及提高检测的精度,降低成本。
本发明采用的技术方案为:
一种场景距离实时感知方法,包括
以下步骤:
步骤1:在变电站近电作业场景下,使用双目相机对作业现场进行图像采集;
步骤2:对步骤1采集到的图像进行处理,具体包括图像对齐、直方图均衡化处理、对应点标记以及数据集的保存;
步骤3:将步骤2保存的数据集按左右图像输入轻量化的深度可分离变形卷积网络,进行双目图像特征提取,得到左右图像特征;
步骤4:利用步骤3提取到的左右图像特征构造相关性代价体Ci,x,y,即使用步骤3中提取到的左右图像特征,计算左图像中的每个像素与右图像中所有像素的相关性,相关性代价体Ci,x,y是一个三维矩阵,
Ci,x,y是相关性代价体,是一个三维矩阵;lf和rf分别是左右图像的特征,i是视差索引,x是特征的宽,y是特征的高,n是图像特征的通道数,其中每个元素表示左图像像素与右图像相对应像素的相关性程度;通过计算相关性,可以获取左图像中每个像素与右图像的匹配程度,用于后续视差计算;
步骤5:对步骤4得到的相关性代价体Ci,x,y使用多视差通道注意力进行代价聚合,得到代价聚合Yi
步骤6:使用步骤5得到的代价聚合Yi进行视差回归:即计算每个像素点的视差值;视差值表示左右图像中对应像素之间的水平位移量,视差回归的目的是找到使得代价最小的视差值,转换过程涉及到校正和修正,用于提高深度图的精确性和可靠性,以获得最佳的深度估计结果;
步骤7:将得到最终的视差图转化为深度图:利用步骤6中得到的视差图,可以通过已知的摄像机参数和几何关系,进行深度值的计算和转化;深度图表示场景中每个像素点到相机的距离,可以通过将视差值转换为深度值来获得。
所述的步骤2具体包括如下步骤:对左右两个相机采集到的图像进行校准,使得左右图像对应的像素点在空间上对齐,以便后续处理;对采集到的图像进行直方图均衡化,增强图像的对比度和细节,提高后续特征提取的效果;通过计算两个相机图像之间的匹配关系,标记出对应点的位置,用于后续的立体视觉处理;将处理后的图像数据和对应的标签信息保存为数据集,用于模型的训练和评估。
所述的步骤2中对采集到的图像进行直方图均衡化,增强图像的对比度和细节,提高后续特征提取的效果具体包括如下步骤:
2.1直方图分析:对于每一对双目图像,首先进行直方图分析,以了解图像中不同亮度级别的分布情况。
2.2局部区域划分:将图像划分为多个局部区域。每个局部区域的大小根据图像分辨率和光照变化情况进行调整。
2.3局部直方图均衡化:针对每个局部区域,进行直方图均衡化操作。直方图均衡化可以通过重新分配像素值的方式,使得每个局部区域的亮度分布更加均匀。
2.4亮度调整映射函数生成:根据经过局部直方图均衡化后的两张图像,生成一个亮度调整映射函数,该函数的表达式为(6),该映射函数为分段线性函数,其中,L(img)是调整后的亮度值,R(img)是原始亮度值,ε是分段亮度阈值,用于分隔不同的亮度调整区域。a,b,c,d是线性变换的参数,用于控制不同区域内的亮度调整。该映射函数能够根据图像中的亮度分布情况,自适应地调整图像中的亮度级别。
2.5亮度调整应用:使用生成的亮度调整映射函数,对双目图像进行亮度调整。通过对图像中每个像素的亮度值进行映射,可以使图像中的亮度在不同光照条件下更加一致。
所述的步骤3具体包括如下步骤:
3.1输入特征图X和深度可分离变形卷积的卷积核参数W;
3.2对输入特征图X进行深度可分离变形卷积操作,生成中间特征图M和输出特征图Y;深度可分离变形卷积包括三个步骤:
(a)计算偏移:首先,使用一个小型的卷积操作计算偏移场p,其中每个位置(i,j)上的偏移值是一个二维向量pi,j=(δxi,j,δyi,j);这个偏移场用于动态调整卷积核的位置;
(b)计算变形卷积:然后,使用偏移场p来调整卷积核的位置,从而执行变形卷积操作;对输入X的每个通道分别应用深度变形卷积核;假设有C个通道,卷积核的大小为W,则深度变形卷积的计算公式如下:
其中,Mc是中间特征图的第c个通道,i和j是输出特征图X上的位置,k和l是卷积核W的索引;这个公式使用偏移场p调整了卷积核的位置,达到变形卷积的操作;
(c)逐点卷积:对深度变形卷积得到的特征图Mc应用逐点卷积,将通道之间的信息整合起来,使用1×1的卷积核来实现:
通过将不同层数、不同大小卷积核的深度可分离变形卷积层与池化层和激活函数SiLU组成深度可分离变形卷积特征提取网络;
所述的步骤5具体包括如下步骤:
首先对相关性代价体Ci,x,y按视差通道进行切分,具体采用公式(2)进行计算,Concatnate是将切分的相关性代价体Ci进行拼接;
Ci,x,y=Concatnate([C0,C1,…,Ci-1]) (2)
接着对切分的代价体Ci进行全局池化处理,得到Zi,具体采用公式(3)进行计算;
Zi=Pooling(Ci) (3)
然后对Zi带入到Softmax函数进行计算,具体采用公式(4)进行计算,经过计算得到多视差通道注意力atti
最后将相关性代价体Ci与多视差通道注意力atti,x,y进行逐元素相乘,得到代价聚合Yi,具体采用公式(5)进行计算;
Yi=Ci⊙atti (5)。
所述的视差是左右两幅图像中对应点之间的水平偏移量,深度是物体距离相机的距离,它们之间的关系可以由以下公式表示:其中:D是视差值,B是双目摄像头的基线长度,f是摄像机的焦距,Z是物体距离相机的深度。要将视差图转化为深度图,需要知道摄像机的内参,包括焦距f和基线长度B,对于每个像素点(x,y)上的视差值D(x,y),可以使用上述公式计算深度值Z(x,y)。
一种场景距离感知装置,包括
双目摄像***,用于通过触发机制或定时采集的方式捕捉到变电站近电作业现场的图像,对作业现场进行图像采集;
自适应直方图均衡处理模块,用于图像进行预处理;
卷积网络模块,用于进行双目图像特征提取;
代价体构建模块,用于可以获取左图像中每个像素与右图像的匹配程度,用于后续视差计算;
代价体聚合模块,用于减少视差计算中的误差;
视察回归模块,用于以获得最佳的深度估计结果;
深度图转换模块,用于提高深度图的精确性和可靠性。
一种计算机可读存储介质,其上存储有计算机程序,所述的计算机程序被处理器执行时,使所述计算机可读存储介质所在设备执行权利要求1-7任意一项所述的场景距离实时感知方法。
一种电子设备,包括:存储器和处理器,所述存储器上存储有可在所述处理器上运行的程序,所述处理器执行所述程序时实现如权利要求1-7任一所述的场景距离实时感知方法。
本发明通过对双目相机拍摄到的左右变电站场景图像进行直方图均衡化处理,使左右图像的亮度分布更加均匀,有利于后续的特征提取和匹配;采用轻量化的深度可分离变形卷积对经过处理的左右变电站场景图像进行特征提取,克服利用可变形卷积增强深度可分离卷积的感受野,从而提取更丰富的特征信息;基于多视差通道注意力代价聚合,多视差通道注意力机制可以更好地捕捉不同视差通道下的物体信息,并提高场景距离感知的精度和鲁棒性,从而更准确地构建代价聚合,提高立体匹配的准确性,进而提升作业的安全性、可靠性和效率,最终降低事故风险和安全隐患。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的原理框图;
图2为本发明的流程图;
图3为本发明所述自适应直方图均衡化的亮度调整效果图;
图4为本发明所述深度可分离变形卷积示意图;
图5为本发明所述多视差通道注意力代价聚合图
图6为本发明与现有方法的效果对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1、2和3所示,本发明包括以下步骤:
步骤1:在变电站近电作业场景下,使用双目相机对作业现场进行图像采集。使用双目相机***,包括两个相机以一定的间距放置,将双目相机安装在合适的位置,用于确保能够捕捉到变电站近电作业现场的图像。通过触发机制或定时采集的方式,对作业现场进行图像采集。
步骤2:对步骤1采集到的图像进行处理,包括图像对齐、直方图均衡化处理、对应点标记以及数据集的保存。图像对齐:对左右两个相机采集到的图像进行校准,使得左右图像对应的像素点在空间上对齐,以便后续处理。直方图均衡化处理:对采集到的图像进行直方图均衡化,增强图像的对比度和细节,提高后续特征提取的效果。对应点标记:通过计算两个相机图像之间的匹配关系,标记出对应点的位置,用于后续的立体视觉处理。数据集的保存:将处理后的图像数据和对应的标签信息保存为数据集,用于模型的训练和评估。
通过自适应直方图均衡化的亮度调整技术来解决在变电站户外环境中双目相机图像亮度差异所带来的问题。在变电站户外环境中,光照角度和强度随时间不断变化,导致双目相机捕获的图像亮度存在显著差异,进而影响了立体匹配算法的准确性。为了解决这一问题,本发明采用了自适应直方图均衡化的亮度调整技术。如图3所示,具体而言,该技术通过以下步骤来实现:
(1)直方图分析:对于每一对双目图像,首先进行直方图分析,以了解图像中不同亮度级别的分布情况。
(2)局部区域划分:将图像划分为多个局部区域。每个局部区域的大小根据图像分辨率和光照变化情况进行调整。
(3)局部直方图均衡化:针对每个局部区域,进行直方图均衡化操作。直方图均衡化可以通过重新分配像素值的方式,使得每个局部区域的亮度分布更加均匀。
(4)亮度调整映射函数生成:根据经过局部直方图均衡化后的两张图像,生成一个亮度调整映射函数,该函数的表达式为(6),该映射函数为分段线性函数,其中,L(img)是调整后的亮度值,R(img)是原始亮度值,ε是分段亮度阈值,用于分隔不同的亮度调整区域。a,b,c,d是线性变换的参数,用于控制不同区域内的亮度调整。该映射函数能够根据图像中的亮度分布情况,自适应地调整图像中的亮度级别。
(5)亮度调整应用:使用生成的亮度调整映射函数,对双目图像进行亮度调整。通过对图像中每个像素的亮度值进行映射,可以使图像中的亮度在不同光照条件下更加一致。
本申请使用深度可分离卷积网络作为基础模型,能够有效减少模型的参数量和计算复杂度。相比传统的卷积神经网络,深度可分离卷积网络在特征提取过程中具有更高的效率和实时性。这对于变电站双目图像的特征提取尤为重要,因为变电站场景通常较为复杂,传统特征提取方法往往无法满足实时性的要求。通过采用深度可分离卷积网络,可以提高特征提取的速度和效率,使得特征信息能够实时准确地被提取出来。
其次,引入变形卷积操作能够增强网络对图像中细微变化和形变的距离感知能力。在变电站场景中,物体的形变和尺度变化较为常见。传统的卷积操作对于这种变化的适应性较差,容易导致特征提取的失真或不准确。通过引入变形卷积,网络可以对特征图进行局部的空间变形,从而更好地适应图像中物体的形变和尺度变化。这样可以增强特征提取的鲁棒性和准确性,提高对变电站双目图像中复杂场景的适应能力。
本发明旨在解决变电站户外环境中双目相机图像亮度差异对立体匹配算法准确性的影响。该技术方案能够提高双目图像亮度的一致性,为双目立体匹配算法提供更可靠和准确的输入数据,从而提高变电站户外环境下的双目立体匹配效果。
步骤3:将步骤2制作的数据集按左右图像输入轻量化的深度可分离变形卷积网络,进行双目图像特征提取。使用数据集中的左右图像对作为输入,构建一个轻量化的深度可分离变形卷积网络模型。将左右图像输入网络模型,并通过网络模型进行双目图像特征提取,用于后续的视差估计。
通过基于深度可分离变形卷积网络的方法,实现对变电站双目图像特征的实时准确提取,为变电站双目立体匹配提供准确有效的技术支撑。该技术方案旨在解决传统特征提取方法在变电站复杂场景下效果较差、特征提取实时性差的问题,提高图像处理和模式识别任务的准确性和实时性。
本技术方案通过以下步骤来实现基于深度可分离变形卷积网络的特征提取:如图4所示,
深度可分离变形卷积结合了深度可分离卷积和可变形卷积的概念,以在卷积神经网络中减少参数量和提高特征建模的效率。计算深度可分离变形卷积的公式可以按以下步骤描述:
(1)输入特征图X和深度可分离变形卷积的卷积核参数W。
(2)对输入特征图X进行深度可分离变形卷积操作,生成中间特征图M和输出特征图Y。深度可分离变形卷积包括三个步骤:
(a)计算偏移:首先,使用一个小型的卷积操作计算偏移场p,其中每个位置(i,j)上的偏移值是一个二维向量pi,j=(δxi,j,δyi,j)。这个偏移场用于动态调整卷积核的位置。
(b)计算变形卷积:然后,使用偏移场p来调整卷积核的位置,从而执行变形卷积操作。对输入X的每个通道分别应用深度变形卷积核。假设有C个通道,卷积核的大小为W,则深度变形卷积的计算公式如下:
其中,Mc是中间特征图的第c个通道,i和j是输出特征图X上的位置,k和l是卷积核W的索引。这个公式使用偏移场p调整了卷积核的位置,达到变形卷积的操作。
(c)逐点卷积:对深度变形卷积得到的特征图Mc应用逐点卷积,将通道之间的信息整合起来,使用1×1的卷积核来实现:
在深度可分离卷积网络的基础上,引入变形卷积操作。首先,输入特征图的每个通道分别应用一个可变形卷积进行卷积操作。对于每个输入通道都有一个对应的卷积核,用于提取通道内的空间特征。深度可变形卷积的输出是一组特征图,每个特征图对应一个输入通道的卷积结果。然后,使用1x1卷积核对深度可变形卷积的输出进行卷积操作。使用1x1卷积可以将通道间的信息整合,同时减少特征图的通道数。1x1卷积的每个卷积核只对一个通道进行卷积,因此输出特征图的通道数等于1x1卷积的卷积核个数,深度可分离变形卷积的流程如图4所示。通过将不同层数、不同大小卷积核的深度可分离变形卷积层与池化层和激活函数SiLU组成深度可分离变形卷积特征提取网络。
通过上述基于深度可分离变形卷积网络的特征提取技术方案,本发明旨在提供一种有效的图像特征提取方法。该技术方案结合了深度可分离卷积网络和变形卷积操作,能够准确地提取变电站复杂环境图像中的特征信息。这些特征表示可以用于后续的变电站双目立体匹配。
步骤4:利用步骤3提取到的左右图像特征构造相关性代价体Ci,x,y。使用步骤3中提取到的左右图像特征,计算左图像中的每个像素与右图像中所有像素的相关性。相关性代价体Ci,x,y是一个三维矩阵,公式(1)是相关性代价体的计算公式。
Ci,x,y是相关性代价体,是一个三维矩阵。lf和rf分别是左右图像的特征。i是视差索引,x是特征的宽,y是特征的高,n是图像特征的通道数。其中每个元素表示左图像像素与右图像相对应像素的相关性程度。通过计算相关性,可以获取左图像中每个像素与右图像的匹配程度,用于后续视差计算。
本发明采用了自适应直方图均衡化的亮度调整技术,能够解决变电站户外环境中双目相机图像亮度差异所带来的问题。在变电站户外环境中,光照条件不断变化,导致双目相机捕获的图像亮度存在显著差异。通过应用自适应直方图均衡化的亮度调整技术,可以使图像中的亮度在不同光照条件下更加一致。这样可以提高双目立体匹配算法的准确性,确保输入数据的可靠性和一致性。
其次,本发明采用直方图分析和局部直方图均衡化的步骤,能够针对每个局部区域进行亮度调整。通过重新分配像素值的方式,使得每个局部区域的亮度分布更加均匀。这样可以避免整体图像的亮度调整导致细节丢失或图像失真的问题。局部直方图均衡化能够更加精细地调整图像的亮度,从而提高了亮度调整的准确性和效果。
最后,本发明生成亮度调整映射函数并将其应用于双目图像,能够根据图像中的亮度分布情况自适应地调整亮度级别。这种自适应性能够使得亮度调整更加灵活和准确,能够适应不同的光照条件和环境变化。通过亮度调整的应用,双目图像的亮度在不同光照条件下更加一致,为双目立体匹配算法提供了更可靠和准确的输入数据,进而提高了变电站户外环境下的双目立体匹配效果。
通过基于多视差通道注意力代价聚合方法,实现对不同视差通道下物体信息的更好捕捉,并提高场景距离感知的精度和鲁棒性。该技术方案旨在解决传统立体匹配方法在复杂场景下准确性较低的问题,提高立体匹配的准确度和稳定性。实际使用时,本技术方案通过以下步骤来实现基于多视差通道注意力代价聚合:
引入多视差通道注意力机制,以更好地捕捉不同视差通道下的物体信息。首先,将代价体按视差通道进行全局池化处理,提取不同视差通道特征图的通道注意力,得到每个不同视差上的通道注意力向量。然后,利用Softmax,公式(4),对多视差通道注意力向量进行特征重新标定,得到新的多视差通道交互之后的注意力权重。最后,对重新校准的权重和相应的特征图按元素进行点乘操作,输出得到一个多视差特征信息注意力加权之后的特征图。该特征图多尺度信息表示能力更丰富,使得模型在代价聚合阶段更加关注具有重要特征的视差通道,提高场景距离感知的精度和鲁棒性。
如图5所示,根据多视差通道注意力权重对不同视差通道的代价体Ci,x,y进行聚合,计算公式为(1)-(5)。通过加权求和以及卷积操作,将不同视差通道的代价信息融合,得到最终的视差图。该技术方案使用多视差通道注意力机制,能够更好地捕捉不同视差通道下的物体信息,并提高立体匹配的准确度和鲁棒性。该方法在变电站复杂场景下具有更好的性能,可应用于双目立体匹配的变电站近电作业场景实时距离感知。
步骤5:对步骤4得到的相关性代价体Ci,x,y使用多视差通道注意力进行代价聚合。公式(2)-(5)为详细的计算过程。首先对相关性代价体Ci,x,y按视差通道进行切分,公式(2)为计算过程,Concatnate是将切分的相关性代价体Ci进行拼接。接着对切分的代价体Ci进行全局池化处理,得到Zi,计算公式为(3)。然后对Zi带入到Softmax函数进行计算,计算公式为(4),经过计算得到多视差通道注意力atti。最后将相关性代价体Ci与多视差通道注意力atti,x,y进行逐元素相乘,得到代价聚合Yi,计算公式为(5)。使用多视差通道注意力机制,对相关性代价体进行加权聚合,以减少视差计算中的误差。多视差通道注意力机制可以根据像素位置和相关性代价体的值,调整不同视差通道的权重,以提高聚合效果。通过代价聚合,可以得到更准确的视差估计结果。
Ci,x,y=Concatnate([C0,C1,…,Ci-1]) (2)
Zi=Pooling(Ci) (3)
Yi=Ci⊙atti (5)
多视差通道注意力机制的引入使得双目立体模型能够更好地捕捉不同视差通道下的物体信息。通过学习注意力权重,模型能够关注具有重要特征的视差通道,从而提高场景感知的精度和鲁棒性。这样的注意力机制可以减少对无关信息的干扰,使得立体匹配更加准确。
多视差通道代价聚合通过加权求和以及卷积操作,将不同视差通道的代价信息融合,得到最终的视差图。这种代价聚合方法能够充分利用多视差通道的信息,提高立体匹配的准确度和稳定性。与传统方法相比,该技术方案能够更好地捕捉物体信息,同时在复杂场景下具有更好的性能。
步骤6:使用步骤5得到的代价聚合进行视差回归。利用步骤5中聚合后的代价体,进行视差回归,即计算每个像素点的视差值。视差值表示左右图像中对应像素之间的水平位移量,视差回归的目的是找到使得代价最小的视差值,以获得最佳的深度估计结果。
步骤7:得到最终的视差图转化为深度图。利用步骤6中得到的视差图,可以通过已知的摄像机参数和几何关系,进行深度值的计算和转化。深度图表示场景中每个像素点到相机的距离,可以通过将视差值转换为深度值来获得。转换过程涉及到校正和修正,提高深度图的精确性和可靠性。
视差是左右两幅图像中对应点之间的水平偏移量,深度是物体距离相机的距离。它们之间的关系可以由以下公式表示:
其中:D是视差值,B是双目摄像头的基线长度,f是摄像机的焦距,Z是物体距离相机的深度。要将视差图转化为深度图,需要知道摄像机的内参,包括焦距f和基线长度B。对于每个像素点(x,y)上的视差值D(x,y),可以使用上述公式计算深度值Z(x,y)。
本发明采用基于深度神经网络的双目立体匹配技术,从双目相机图像中学习丰富的特征信息,更加准确获取变电站场景中设备与作业人员的深度信息。进一步的,本发明的深度神经网络采用轻量化设计,优化模型结构和参数设置,以降低计算资源和内存占用。这使得本发明在变电站有限资源环境中能够实现实时运行,为近电作业提供实时的场景距离感知支持。进一步的,为了应对复杂的变电站作业环境,如图6所示,本发明在图像处理过程中引入了对光线变化、阴影、反光等环境因素的处理方法。通过预处理和图像增强,本发明能够有效地减少这些干扰因素对变电站场景距离感知的影响,提高准确性和稳定性。
本专利提供了一种基于双目立体匹配的变电站近电作业场景实时距离感知方法。通过对双目相机拍摄到的左右变电站场景图像进行直方图均衡化处理,使左右图像的亮度分布更加均匀,有利于后续的特征提取和匹配;采用轻量化的深度可分离变形卷积对经过处理的左右变电站场景图像进行特征提取,克服利用可变形卷积增强深度可分离卷积的感受野,从而提取更丰富的特征信息;基于多视差通道注意力代价聚合,多视差通道注意力机制可以更好地捕捉不同视差通道下的物体信息,并提高场景距离感知的精度和鲁棒性,从而更准确地构建代价聚合,提高立体匹配的准确性。
综上所述,本发明能够提高双目立体匹配算法的准确性、确保输入数据的可靠性和一致性、精细调整图像亮度、自适应性强、适应不同光照条件和环境变化。本发明在解决变电站户外环境中双目相机图像亮度差异问题上具有显著的技术优势,能够提高双目立体匹配的效果并增强对变电站环境的适应性。其中,基于深度可分离变形卷积网络的特征提取方法具有高效性、实时性和准确性的优点。通过该技术方案,可以有效地提取变电站双目图像中的特征信息,为后续的双目立体匹配提供准确有效的技术支撑。这将有助于提高变电站图像处理和模式识别任务的准确性和实时性,进一步提升变电站***的效能和安全性。基于多视差通道注意力代价聚合方法具有以下优点:更好地捕捉不同视差通道下的物体信息,提高立体匹配的准确度和稳定性;充分利用多视差通道信息进行代价聚合。这些优点使得该技术方案在变电站复杂场景下具有更好的性能,并可应用于双目立体匹配的变电站近电作业场景实时距离感知。
在本发明的描述中,需要说明的是,对于方位词,如有术语“中心”,“横向”、“纵向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示方位和位置关系为基于附图所示的方位或位置关系,仅是为了便于叙述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定方位构造和操作,不能理解为限制本发明的具体保护范围。
需要说明的是,本申请的说明书和权利要求书中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
注意,上述仅为本发明的较佳实施例及运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行较详细的说明,但本发明不限于这里所述的特定实施例,在不脱离本发明构思的情况下,还可以包括更多其他等有效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (9)

1.一种场景距离实时感知方法,其特征在于:包括以下步骤:
步骤1:在变电站近电作业场景下,使用双目相机对作业现场进行图像采集;
步骤2:对步骤1采集到的图像进行处理,具体包括图像对齐、直方图均衡化处理、对应点标记以及数据集的保存;
步骤3:将步骤2保存的数据集按左右图像输入轻量化的深度可分离变形卷积网络,进行双目图像特征提取,得到左右图像特征;
步骤4:利用步骤3提取到的左右图像特征构造相关性代价体Ci,x,y,即使用步骤3中提取到的左右图像特征,计算左图像中的每个像素与右图像中所有像素的相关性,相关性代价体Ci,x,y是一个三维矩阵,
Ci,x,y是相关性代价体,是一个三维矩阵;lf和rf分别是左右图像的特征,i是视差索引,x是特征的宽,y是特征的高,n是图像特征的通道数,其中每个元素表示左图像像素与右图像相对应像素的相关性程度;通过计算相关性,可以获取左图像中每个像素与右图像的匹配程度,用于后续视差计算;
步骤5:对步骤4得到的相关性代价体Ci,x,y使用多视差通道注意力进行代价聚合,得到代价聚合Yi
步骤6:使用步骤5得到的代价聚合Yi进行视差回归:即计算每个像素点的视差值;视差值表示左右图像中对应像素之间的水平位移量,视差回归的目的是找到使得代价最小的视差值,转换过程涉及到校正和修正,用于提高深度图的精确性和可靠性,以获得最佳的深度估计结果;
步骤7:将得到最终的视差图转化为深度图:利用步骤6中得到的视差图,可以通过已知的摄像机参数和几何关系,进行深度值的计算和转化;深度图表示场景中每个像素点到相机的距离,可以通过将视差值转换为深度值来获得。
2.根据权利要求1所述的场景距离实时感知方法,其特征在于:所述的步骤2具体包括如下步骤:对左右两个相机采集到的图像进行校准,使得左右图像对应的像素点在空间上对齐,以便后续处理;对采集到的图像进行直方图均衡化,增强图像的对比度和细节,提高后续特征提取的效果;通过计算两个相机图像之间的匹配关系,标记出对应点的位置,用于后续的立体视觉处理;将处理后的图像数据和对应的标签信息保存为数据集,用于模型的训练和评估。
3.根据权利要求1所述的场景距离实时感知方法,其特征在于:所述的步骤2中对采集到的图像进行直方图均衡化,增强图像的对比度和细节,提高后续特征提取的效果具体包括如下步骤:
2.1直方图分析:对于每一对双目图像,首先进行直方图分析,以了解图像中不同亮度级别的分布情况。
2.2局部区域划分:将图像划分为多个局部区域。每个局部区域的大小根据图像分辨率和光照变化情况进行调整。
2.3局部直方图均衡化:针对每个局部区域,进行直方图均衡化操作。直方图均衡化可以通过重新分配像素值的方式,使得每个局部区域的亮度分布更加均匀。
2.4亮度调整映射函数生成:根据经过局部直方图均衡化后的两张图像,生成一个亮度调整映射函数,该函数的表达式为(6),该映射函数为分段线性函数,其中,L(img)是调整后的亮度值,R(img)是原始亮度值,ε是分段亮度阈值,用于分隔不同的亮度调整区域。a,b,c,d是线性变换的参数,用于控制不同区域内的亮度调整。该映射函数能够根据图像中的亮度分布情况,自适应地调整图像中的亮度级别。
2.5亮度调整应用:使用生成的亮度调整映射函数,对双目图像进行亮度调整。通过对图像中每个像素的亮度值进行映射,可以使图像中的亮度在不同光照条件下更加一致。
4.根据权利要求2所述的场景距离实时感知方法,其特征在于:所述的步骤3具体包括如下步骤:
3.1输入特征图X和深度可分离变形卷积的卷积核参数W;
3.2对输入特征图X进行深度可分离变形卷积操作,生成中间特征图M和输出特征图Y;深度可分离变形卷积包括三个步骤:
(a)计算偏移:首先,使用一个小型的卷积操作计算偏移场p,其中每个位置(i,j)上的偏移值是一个二维向量pi,j=(δxi,j,δyi,j);这个偏移场用于动态调整卷积核的位置;
(b)计算变形卷积:然后,使用偏移场p来调整卷积核的位置,从而执行变形卷积操作;对输入X的每个通道分别应用深度变形卷积核;假设有C个通道,卷积核的大小为W,则深度变形卷积的计算公式如下:
其中,Mc是中间特征图的第c个通道,i和j是输出特征图X上的位置,k和l是卷积核W的索引;这个公式使用偏移场p调整了卷积核的位置,达到变形卷积的操作;
(c)逐点卷积:对深度变形卷积得到的特征图Mc应用逐点卷积,将通道之间的信息整合起来,使用1×1的卷积核来实现:
通过将不同层数、不同大小卷积核的深度可分离变形卷积层与池化层和激活函数SiLU组成深度可分离变形卷积特征提取网络;
5.根据权利要求3所述的场景距离实时感知方法,其特征在于:所述的步骤5具体包括如下步骤:
首先对相关性代价体Ci,x,y按视差通道进行切分,具体采用公式(2)进行计算,Concatnate是将切分的相关性代价体Ci进行拼接;
Ci,x,y=Concatnate([C0,C1,…,Ci-1]) (2)
接着对切分的代价体Ci进行全局池化处理,得到Zi,具体采用公式(3)进行计算;
Zi=Pooling(Ci) (3)
然后对Zi带入到Softmax函数进行计算,具体采用公式(4)进行计算,经过计算得到多视差通道注意力atti
最后将相关性代价体Ci与多视差通道注意力atti,x,y进行逐元素相乘,得到代价聚合Yi,具体采用公式(5)进行计算;
Yi=Ci⊙atti (5)。
6.根据权利要求3所述的场景距离实时感知方法,其特征在于:所述的视差是左右两幅图像中对应点之间的水平偏移量,深度是物体距离相机的距离,它们之间的关系可以由以下公式表示:其中:D是视差值,B是双目摄像头的基线长度,f是摄像机的焦距,Z是物体距离相机的深度。要将视差图转化为深度图,需要知道摄像机的内参,包括焦距f和基线长度B,对于每个像素点(x,y)上的视差值D(x,y),可以使用上述公式计算深度值Z(x,y)。
7.一种场景距离感知装置,其特征在于:包括
双目摄像***,用于通过触发机制或定时采集的方式捕捉到变电站近电作业现场的图像,对作业现场进行图像采集;
自适应直方图均衡处理模块,用于图像进行预处理;
卷积网络模块,用于进行双目图像特征提取;
代价体构建模块,用于可以获取左图像中每个像素与右图像的匹配程度,用于后续视差计算;代价体聚合模块,用于减少视差计算中的误差;
视察回归模块,用于以获得最佳的深度估计结果;
深度图转换模块,用于提高深度图的精确性和可靠性。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述的计算机程序被处理器执行时,使所述计算机可读存储介质所在设备执行权利要求1-7任意一项所述的场景距离实时感知方法。
9.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器上存储有可在所述处理器上运行的程序,所述处理器执行所述程序时实现如权利要求1-7任一所述的场景距离实时感知方法。
CN202311419098.XA 2023-10-30 2023-10-30 一种场景距离实时感知方法、装置、电子设备及存储介质 Pending CN117422750A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311419098.XA CN117422750A (zh) 2023-10-30 2023-10-30 一种场景距离实时感知方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311419098.XA CN117422750A (zh) 2023-10-30 2023-10-30 一种场景距离实时感知方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN117422750A true CN117422750A (zh) 2024-01-19

Family

ID=89529839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311419098.XA Pending CN117422750A (zh) 2023-10-30 2023-10-30 一种场景距离实时感知方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117422750A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019192290A1 (zh) * 2018-04-04 2019-10-10 腾讯科技(深圳)有限公司 一种深度信息确定的方法及相关装置
WO2020020160A1 (zh) * 2018-07-25 2020-01-30 北京市商汤科技开发有限公司 图像视差估计
WO2021164269A1 (zh) * 2020-02-18 2021-08-26 平安科技(深圳)有限公司 基于注意力机制的视差图获取方法和装置
US20220051426A1 (en) * 2020-08-14 2022-02-17 Samsung Electronics Co., Ltd. System and method for disparity estimation based on cost-volume attention
WO2022089077A1 (zh) * 2020-10-28 2022-05-05 西安交通大学 一种基于自适应候选视差预测网络的实时双目立体匹配方法
CN115311168A (zh) * 2022-08-29 2022-11-08 上海大学 面向多视角视觉***的深度估计方法、电子设备及介质
CN115830406A (zh) * 2021-09-15 2023-03-21 南京大学 一种基于多视差尺度的快速光场深度估计方法
CN116402876A (zh) * 2023-03-30 2023-07-07 深圳市优必选科技股份有限公司 双目深度估计方法、装置、嵌入式设备和可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019192290A1 (zh) * 2018-04-04 2019-10-10 腾讯科技(深圳)有限公司 一种深度信息确定的方法及相关装置
WO2020020160A1 (zh) * 2018-07-25 2020-01-30 北京市商汤科技开发有限公司 图像视差估计
WO2021164269A1 (zh) * 2020-02-18 2021-08-26 平安科技(深圳)有限公司 基于注意力机制的视差图获取方法和装置
US20220051426A1 (en) * 2020-08-14 2022-02-17 Samsung Electronics Co., Ltd. System and method for disparity estimation based on cost-volume attention
WO2022089077A1 (zh) * 2020-10-28 2022-05-05 西安交通大学 一种基于自适应候选视差预测网络的实时双目立体匹配方法
CN115830406A (zh) * 2021-09-15 2023-03-21 南京大学 一种基于多视差尺度的快速光场深度估计方法
CN115311168A (zh) * 2022-08-29 2022-11-08 上海大学 面向多视角视觉***的深度估计方法、电子设备及介质
CN116402876A (zh) * 2023-03-30 2023-07-07 深圳市优必选科技股份有限公司 双目深度估计方法、装置、嵌入式设备和可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李航等: "基于改进3D卷积神经网络的代价聚合算法", 计算机与数字工程, no. 09, 20 September 2020 (2020-09-20) *
桑海伟等: "基于像素注意力的双通道立体匹配网络", 计算机工程与科学, no. 05, 15 May 2020 (2020-05-15) *

Similar Documents

Publication Publication Date Title
CN110675418B (zh) 一种基于ds证据理论的目标轨迹优化方法
CN110689562A (zh) 一种基于生成对抗网络的轨迹回环检测优化方法
CN102999939B (zh) 坐标获取装置、实时三维重建***和方法、立体交互设备
CN107560592B (zh) 一种用于光电跟踪仪联动目标的精确测距方法
Wu et al. Passive measurement method of tree diameter at breast height using a smartphone
CN110070025B (zh) 基于单目图像的三维目标检测***及方法
CN110334701B (zh) 数字孪生环境下基于深度学习和多目视觉的数据采集方法
CN111027415A (zh) 一种基于偏振图像的车辆检测方法
CN113643345A (zh) 一种基于双光融合的多目道路智能识别方法
CN114332494A (zh) 车路协同场景下基于多源融合的三维目标检测与识别方法
CN116071424A (zh) 基于单目视觉的果实空间坐标定位方法
CN116958420A (zh) 一种数字人教师三维人脸的高精度建模方法
Parmehr et al. Automatic registration of optical imagery with 3d lidar data using local combined mutual information
CN104200469B (zh) 一种视觉智能数控***的数据融合方法
CN113670268B (zh) 基于双目视觉的无人机和电力杆塔距离测量方法
CN117422750A (zh) 一种场景距离实时感知方法、装置、电子设备及存储介质
CN112926498B (zh) 基于多通道融合和深度信息局部动态生成的活体检测方法及装置
CN115272454A (zh) 一种基于深度图像的低成本易部署的井下定位方法
CN114140659A (zh) 一种基于无人机视角下人体检测的社交距离监控方法
CN113792645A (zh) 一种融合图像和激光雷达的ai眼球
SrirangamSridharan et al. Object localization and size estimation from RGB-D images
CN117994504B (zh) 目标检测方法、目标检测装置
Guo et al. Unsupervised cross-spectrum depth estimation by visible-light and thermal cameras
Ding et al. A novel stumpage detection method for forest harvesting based on multi-sensor fusion
Zhang et al. Research on binocular real-time ranging method in window area

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination