CN117474961A - 减少深度估计模型误差的方法、装置、设备及存储介质 - Google Patents

减少深度估计模型误差的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117474961A
CN117474961A CN202210867058.0A CN202210867058A CN117474961A CN 117474961 A CN117474961 A CN 117474961A CN 202210867058 A CN202210867058 A CN 202210867058A CN 117474961 A CN117474961 A CN 117474961A
Authority
CN
China
Prior art keywords
frame image
depth estimation
estimation model
target frame
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210867058.0A
Other languages
English (en)
Inventor
刘宗玮
郭锦斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hon Hai Precision Industry Co Ltd
Original Assignee
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hon Hai Precision Industry Co Ltd filed Critical Hon Hai Precision Industry Co Ltd
Priority to CN202210867058.0A priority Critical patent/CN117474961A/zh
Priority to US18/224,620 priority patent/US20240029281A1/en
Publication of CN117474961A publication Critical patent/CN117474961A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/521Depth or shape recovery from laser ranging, e.g. using interferometry; from the projection of structured light
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Optics & Photonics (AREA)
  • Image Analysis (AREA)

Abstract

本申请提出一种减少深度估计模型误差的方法、装置、电子设备及计算机可读存储介质,该方法包括:获取单目影像及单目影像的点云数据,每个单目影像包括目标帧图像及参考帧图像;根据参考帧图像及预设初始深度估计模型对目标帧图像进行重建得到重建帧图像,以确定目标帧图像与重建帧图像的重建误差;根据点云数据的速度信息与目标帧图像的像素信息,得到每个像素的惯性概率;对惯性概率高于预设阈值的每个像素进行标注,得到掩膜数据;根据重建误差与掩膜数据得到损失函数,并基于损失函数对预设初始深度估计模型进行训练,以得到目标深度估计模型。本申请可获得更精确的动态场景的深度估计结果。

Description

减少深度估计模型误差的方法、装置、设备及存储介质
技术领域
本申请涉及计算机视觉技术领域,尤其涉及一种减少深度估计模型误差的方法、装置、电子设备及计算机可读存储介质。
背景技术
如何从三维场景采集所成的二维图像序列恢复场景的深度信息是计算机视觉领域一个重要的研究内容,而单目深度估计是理解三维场景几何关系的重要方法。单目深度估计是指通过对单目摄像头拍摄的图片或视频进行处理,得到图片或视频所对应深度数据的过程。其中,利用单目摄像头所拍摄到的视频可以称为单目视频。在拍摄单目视频时,受镜头的晃动、拍摄场景中的物体移动以及噪声等不稳定因素的影响,拍摄得到的单目视频中,相邻的帧之间可能会存在差异。这种差异会导致对单目视频进行单目深度估计时会存在较大的抖动,即相邻两个视频帧的深度数据存在较大差异。
为了抑制这种抖动,目前单目深度估计的深度学习方法中,主要利用SFM(Structure From Motion)原理,通过给予模型不同时间、视角的影像,让模型推论目标深度并利用参考影像重建目标视角的影像。误差较低的深度估计所重建出来的影像会较接近原始的目标影像,但重建影像相似度在以下情境中无法精准表达深度的误差程度:移动中的物体不符合SFM的视角位姿转换,无法正确重建。
现有技术在训练单目深度估计模型的过程中无法完全过滤出移动的物体,使得模型深度估计的精准度有较大的误差,从而无法使模型参数达到最优。
发明内容
有鉴于此,本申请提出的一种减少深度估计模型误差的方法、装置、电子设备及计算机可读存储介质,能够保证在模型训练过程中动态物体的亮度差不会影响深度学习,可以减少深度估计误差,以获得更精确的动态场景的深度估计结果。
第一方面,本申请一实施例提供一种减少深度估计模型误差的方法,包括:
获取单目影像及所述单目影像的点云数据,每个所述单目影像包括目标帧图像及参考帧图像;
根据所述参考帧图像及预设初始深度估计模型对所述目标帧图像进行重建得到重建帧图像,以确定所述目标帧图像与所述重建帧图像的重建误差;
根据所述点云数据的速度信息与所述目标帧图像的像素信息,得到每个所述像素的惯性概率;
对所述惯性概率高于预设阈值的每个所述像素进行标注,得到掩膜数据;
根据所述重建误差与所述掩膜数据得到损失函数,并基于所述损失函数对所述预设初始深度估计模型进行训练,以得到目标深度估计模型。
于一实施例中,所述根据所述点云数据的速度信息与所述目标帧图像的像素信息,得到每个所述像素的惯性概率,包括:根据所述点云数据的速度信息与所述目标帧图像的像素信息,计算每个像素对于不同的点云的初始惯性概率;利用非极大值抑制算法融合每个像素对于不同的点云的初始惯性概率,选取最大的初始惯性概率作为每个所述像素的惯性概率。
于一实施例中,所述初始惯性概率的计算公式为:
Pr(x)=c(x,r)s(I(x),I(r))
其中,Pr(x)表示每个像素对不同的点云的初始惯性概率,x表示每个像素,r代表每个点云,I(x)表示每个像素x的颜色,I(r)表示每个点云r的颜色,c表示贴近度函数,s表示相似性函数。
于一实施例中,所述根据所述参考帧图像及预设初始深度估计模型对所述目标帧图像进行重建得到重建帧图像,包括:通过所述预设初始深度估计模型对所述目标帧图像进行深度估计,得到所述目标帧图像的深度信息;将所述目标帧图像及所述参考帧图像输入预设位姿估计模型,得到所述目标帧图像与所述参考帧图像间的相机位姿变化信息;根据所述深度信息及所述相机位姿变化信息对所述目标帧图像进行重建,得到所述目标帧图像重构后的重建帧图像。
于一实施例中,所述确定所述目标帧图像与所述重建帧图像的重建误差,包括:计算所述目标帧图像与所述重建帧图像的光度差,根据所述光度差获取所述重建误差。
于一实施例中,在所述得到训练完成的目标深度估计模型之后,还包括:获取待测影像,所述待测影像包括目标帧与参考帧;利用所述目标深度模型推论出所述目标帧的深度信息;根据所述参考帧及所述深度信息对所述目标帧进行重建,获得所述目标帧的预测深度图像。
于一实施例中,所述点云数据的获取方法包括:利用激光雷达扫描所述单目影像,得到所述激光雷达的点云数据。
第二方面,本申请一实施例提供一种减少深度估计模型误差的装置,包括:获取模块,用于获取单目影像及所述单目影像的点云数据,每个所述单目影像包括目标帧图像及参考帧图像;重建模块,用于根据所述参考帧图像及预设初始深度估计模型对所述目标帧图像进行重建得到重建帧图像,以确定所述目标帧图像与所述重建帧图像的重建误差;计算模块,用于根据所述点云数据的速度信息与所述目标帧图像的像素信息,得到每个所述像素的惯性概率;融合模块,用于对所述惯性概率高于预设阈值的每个所述像素进行标注,得到掩膜数据;训练模块,根据所述重建误差与所述掩膜数据得到损失函数,并基于所述损失函数对所述预设初始深度估计模型进行训练,以得到目标深度估计模型。
第三方面,本申请一实施例提供一种电子设备,所述电子设备包括处理器和存储器,所述存储器用于存储指令,所述处理器用于调用所述存储器中的指令,使得所述电子设备执行如第一方面所述的减少深度估计模型误差的方法。
第四方面,本申请一实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如第一方面所述的减少深度估计模型误差的方法。
本申请实施方式提供的减少深度估计模型误差的方法、装置、电子设备及计算机可读存储介质,通过参考帧图像及预设初始深度估计模型得到重建帧图像,以确定目标帧图像与重建帧图像的重建误差。根据所述点云数据的速度信息与所述目标帧图像的像素信息,得到每个所述像素的惯性概率。对所述惯性概率高于预设阈值的每个所述像素进行标注,得到掩膜数据。根据所述重建误差与所述掩膜数据得到损失函数,以得到训练完成的目标深度估计模型。通过以上方法训练出来的目标深度估计模型,在对视频序列中单目影像进行深度图估计时,所得深度图的精确度得到显著的提高,从而能够获得更精确的动态场景的深度估计结果。
附图说明
图1为本申请一实施例的减少深度估计模型误差的方法的应用场景示意图。
图2为本申请一实施例的减少深度估计模型误差的方法的步骤流程示意图。
图3为本申请一实施例的目标深度估计模型的深度估计方法的步骤流程示意图。
图4为本申请一实施例的减少深度估计模型误差的装置的功能模块示意图。
图5为本申请一实施例的电子设备的架构示意图。
主要元件符号说明
减少深度估计模型误差的装置 10
获取模块 11
重建模块 12
计算模块 13
融合模块 14
训练模块 15
电子设备 20
处理器 21
存储器 22
如下具体实施方式将结合上述附图进一步说明本申请。
具体实施方式:
下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本申请一部分实施方式,而不是全部的实施方式。
需要说明的是,本申请实施例中“至少一个”是指一个或者多个,多个是指两个或两个以上。除非另有定义,本文所使用的所有的技术和科学术语与属于本申请中的技术领域的技术人员通常理解的含义相同。本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
需要说明的是,本申请实施例中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请实施例的描述中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
本公开实施例具体涉及计算机视觉和深度学习技术领域,可应用于图像处理和图像识别场景下。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。计算机视觉,指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。图像处理和图像识别场景可以是采用一些硬件设备或者软件计算处理逻辑对待处理图像进行识别,以识别得到相应的图像特征,并采用该图像特征辅助后续的检测应用。
请参阅图1,图1为本申请一实施例的减少深度估计模型误差的方法的应用场景示意图。
本实施例提供的减少深度估计模型误差的方法主要应用于包含动态物体的动态环境中,如图1所示,动态物体意指前一时刻在单目相机O1视角下位置为P,但后一时刻在单目相机O2视角下位置为P'的物体。P'在单目相机O2视角下的投影点为P3,(P1,P3)为动态物体的特征点匹配。(P1,P3)动态物体特征点匹配不同于(P1,P2)等静态物体的特征点匹配求出的视角转换位姿关系,现有技术大多应用在静态物体的建模,无法完全过滤出移动物体,使得模型精准度有较大的误差。
请参阅图2,为本申请一实施例提供的减少深度估计模型误差的方法的步骤流程示意图。
具体地,本实施例公开的减少深度估计模型误差的方法可以包括:
S100,获取单目影像及单目影像的点云数据,每个单目影像包括目标帧图像及参考帧图像。
具体地,可以利用单目相机,比如RGB相机或IR相机获取当前环境中包含动态物体的单目影像。通过单目相机拍摄周围的环境信息,是由于单目相机安装方便、体积小、成本低等优点,在深度估计领域具有更广阔的应用前景。
具体地,点云数据的获取方法包括:利用激光雷达扫描单目影像,得到激光雷达的点云数据。
优选地,在采用目标帧图像及参考帧图像训练预设初始深度估计模型之前,可以对目标帧图像及参考帧图像进行校正标定处理,从而保证后续预设初始深度模型训练效果。
优选地,可以从单目影像中抽取连续的目标帧图像及参考帧图像用于在训练预设初始深度估计模型过程中作为训练数据,以辅助降低预设初始深度估计模型训练时所需要的训练数据的采集成本,并且,能够有效避免借助于过多的外部图像信息,从而在有效地保障预设初始深度估计模型的学习建模能力的同时,有效降低预设初始深度估计模型的训练成本。例如,目标帧图像及参考帧图像的数量可以是一张或多张,本申请对此不做限制。
S200,根据参考帧图像及预设初始深度估计模型对目标帧图像进行重建得到重建帧图像,以确定目标帧图像与重建帧图像的重建误差。
具体地,通过预设初始深度估计模型对目标帧图像进行深度估计,得到目标帧图像的深度信息。将目标帧图像及参考帧图像输入预设位姿估计模型,得到目标帧图像与参考帧图像间的相机位姿变化信息。根据深度信息及相机位姿变化信息对目标帧图像进行重建,得到目标帧图像重构后的重建帧图像。计算目标帧图像与重建帧图像的光度差,根据光度差获取重建误差。其中,预设的位姿估计模型是现有成熟技术,不再具体描述。
需要说明的是,图像的光度可以理解为图像的明暗程度,而光度差信息可以是在前一时刻单目相机拍摄到的目标帧图像和在后一时刻单目相机拍摄到的参考帧图像所确定得到的。光度差信息,能够用于描述图像光度识别处理过程中,计算得到的光度和实际的光度之间的误差情况,即目标帧图像与重建帧图像的重建误差。
需要说明的是,本实施例中可以采用任意可能的方式来确定目标帧图像与重建帧图像的光度差,比如可以采用模型匹配的方式、工程学方式,图像处理的方式等,对此不做限制。
S300,根据点云数据的速度信息与目标帧图像的像素信息,得到每个像素的惯性概率。
具体地,根据点云数据的速度信息与目标帧图像的像素信息,计算每个像素x对于不同的点云r的初始惯性概率Pr(x)。利用非极大值抑制算法NMS(Non MaximumSuppression),融合每个像素x对于不同的点云r的初始惯性概率Pr(x),选取最大的初始惯性概率Pr(x)作为每个像素x的惯性概率P(x)。
进一步地,初始惯性概率Pr(x)的计算公式为:
Pr(x)=c(x,r)s(I(x),I(r))
其中,Pr(x)表示每个像素x对不同的点云r的初始惯性概率,x表示每个像素,r代表每个点云。I(x)表示每个像素x的颜色,I(r)表示每个点云r的颜色。c(closenessfunction)表示贴近度函数,为2D高斯分布(gaussian distribution),像素x离点云r位置越近则c值越高。s(similarity function)表示相似性函数,亦为2D高斯分布(gaussiandistribution),像素x与点云r颜色越接近则s值越高。
进一步地,初始惯性概率P(x)的计算公式为:
P(x)=NMSr∈R(Pr(x))
其中,惯性概率P(x)代表该像素x属于动态物体的概率。
S400,对惯性概率高于预设阈值的每个像素进行标注,得到掩膜数据。
具体地,根据试验结果设定一预设阈值,标注惯性概率P(x)高于预设阈值T的区域,从而得到掩膜数据。掩膜数据可以让模型训练时避免动态物体的损失值影响学习,排除移动中的物体。
S500,根据重建误差与掩膜数据得到损失函数,并基于损失函数对预设初始深度估计模型进行训练,以得到目标深度估计模型。
通过上述训练方法训练出的目标深度估计模型可以排除单目影像中所有正在移动的物体,克服了原有方法只能排除相对于相机等速移动的物体的弊端,消除了动态场景中移动目标所带来的影响,同时,通过迭代求解的方式,对预设初始深度估计模型所存在的***误差进行修正,提高了目标深度估计模型的深度估计精度。
在本实施例中,损失函数是损失值的计算方法可以为:
假设重建误差为D,掩膜数据为M,损失函数为L,则涉及的计算公式如下:
Loss=DM
其中,重建误差D是大小为W*H的图片,像素x代表误差值,掩膜数据M也是大小为W*H的图片,像素x∈{0,1}。
损失函数Loss为重建误差D与掩膜数据M的乘积,损失函数Loss的结果会保留掩膜数据M中像素值为1时,重建误差D的误差值,将所保留的误差值平均后作为最后的损失值。基于该损失值辅助训练预设初始深度估计模型,以得到目标深度估计模型,对此不做限制。
在本实施例中,通过参考帧图像及预设初始深度估计模型得到重建帧图像,以确定目标帧图像与重建帧图像的重建误差。根据点云数据的速度信息与目标帧图像的像素信息,得到每个像素的惯性概率。对惯性概率高于预设阈值的每个像素进行标注,得到掩膜数据。根据重建误差与掩膜数据得到损失函数,以得到训练完成的目标深度估计模型,能够有效地辅助提升训练得到的目标深度估计模型针对图像的深度特征的表达建模能力。
通过上述方法训练出来的目标深度估计模型,在对视频序列中单目影像进行深度图像估计时,所得深度图像的精确度得到显著的提高,从而能够获得更精确的动态场景的深度估计结果。
于一实施例中,如图3所示,步骤S500后还可以包括:
S10,获取待测影像,待测影像包括目标帧与参考帧。
S20,利用目标深度模型推论出目标帧的深度信息。
S30,根据参考帧及深度信息对目标帧进行重建,获得目标帧的预测深度图像。
具体地,待测影像可以是静态图像,也可以是动态视频,对此不作限制。
在本实施例中,通过获取待测影像,并将从待测影像中抽取连续的目标帧及参考帧,将目标帧输入至上述的减少深度估计模型误差的方法训练得到的目标深度估计模型之中,以得到目标帧的深度信息,然后,根据参考帧及深度信息对目标帧进行重建,获得目标帧的预测深度图像。由于目标深度估计模型是根据重建误差与掩膜数据得到的损失函数训练得到的,从而在采用目标深度估计模型对待测影像进行深度估计时,所得到的更为准确的预测深度图像,从而能够获得更精确的动态场景的深度估计结果。
上述实施例的流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
请参阅图4,图4为本申请一实施例提供的减少深度估计模型误差的装置10的功能模块示意图。
在本实施例中,基于与上述实施例中的减少深度估计模型误差的方法相同的思想,本申请还提供一种减少深度估计模型误差的装置10,该减少深度估计模型误差的装置10可用于执行上述减少深度估计模型误差的方法。为了便于说明,减少深度估计模型误差的装置10实施例的功能模块示意图中,仅仅示出了与本申请实施例相关的部分,本领域技术人员可以理解,图示结构并不构成对该减少深度估计模型误差的装置10的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
具体地,在本实施例中,减少深度估计模型误差的装置10可以包括:获取模块11,用于获取单目影像及单目影像的点云数据,每个单目影像包括目标帧图像及参考帧图像;重建模块12,用于根据参考帧图像及预设初始深度估计模型对目标帧图像进行重建得到重建帧图像,以确定目标帧图像与重建帧图像的重建误差;计算模块13,用于根据点云数据的速度信息与目标帧图像的像素信息,得到每个像素的惯性概率;融合模块14,用于对惯性概率高于预设阈值的每个像素进行标注,得到掩膜数据;训练模块15,用于根据重建误差与掩膜数据得到损失函数,并基于损失函数对预设初始深度估计模型进行训练,以得到目标深度估计模型。
请参阅图5,图5为本申请一实施例提供的电子设备20的架构图。
具体地,电子设备20包括处理器21和存储器22,存储器22用于存储计算机指令,处理器21用于调用存储器22中的计算机指令,使得电子设备20执行如上述实施例的减少深度估计模型误差的方法的步骤。
示例性的,计算机指令可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器22中,并由处理器21执行。一个或多个模块/单元可以是能够完成特定功能的一系列计算机指令指令段,指令段用于描述计算机指令在电子设备20中的执行过程。例如,可以分割成图4所示的获取模块11、重建模块12、计算模块13、融合模块14、训练模块15。
电子设备20可以是桌上型计算机、笔记本、掌上电脑、工业电脑、平板电脑、服务器等计算设备。本领域技术人员可以理解,示意图仅仅是电子设备20的示例,并不构成对电子设备20的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如电子设备20还可以包括输入输出设备、网络接入设备、总线等。
处理器21可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器、单片机或者处理器21也可以是任何常规的处理器等。
存储器22可用于存储计算机指令和/或模块/单元,处理器21通过运行或执行存储在存储器22内的计算机指令和/或模块/单元,以及调用存储在存储器22内的数据,实现电子设备20的各种功能。存储器22可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备20的使用所创建的数据(比如音频数据)等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。
本申请还公开一种计算机可读存储介质,计算机可读存储介质存储计算机指令,当计算机指令在电子设备20上运行时,使得电子设备20执行如上述实施例的减少深度估计模型误差的方法的步骤。其中,存储介质可以是U盘、移动硬盘、只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施方式提供的减少深度估计模型误差的方法、装置、电子设备及计算机可读存储介质,通过参考帧图像及预设初始深度估计模型得到重建帧图像,以确定目标帧图像与重建帧图像的重建误差。根据点云数据的速度信息与目标帧图像的像素信息,得到每个像素的惯性概率。对惯性概率高于预设阈值的每个像素进行标注,得到掩膜数据。根据重建误差与掩膜数据得到损失函数,以得到训练完成的目标深度估计模型,能够有效地辅助提升训练得到的目标深度估计模型针对图像的深度特征的表达建模能力。通过上述方法训练出来的目标深度估计模型,在对视频序列中单目影像进行深度图像估计时,所得深度图像的精确度得到显著的提高,从而能够获得更精确的动态场景的深度估计结果。
本技术领域的普通技术人员应当认识到,本说明书中所描述的具体实施例,所取名称可以不同,本说明书中所描述的以上内容仅仅是对本申请结构所做的举例说明。凡依据本申请构思的构造、特征及原理所做的等效变化或者简单变化,均包括于本申请的保护范围内。本申请所属技术领域的技术人员可以对所描述的具体实例做各种各样的修改或补充或采用类似的方法,只要不偏离本申请的结构或者超越本权利要求书所定义的范围,均应属于本申请的保护范围。

Claims (10)

1.一种减少深度估计模型误差的方法,其特征在于,包括:
获取单目影像及所述单目影像的点云数据,每个所述单目影像包括目标帧图像及参考帧图像;
根据所述参考帧图像及预设初始深度估计模型对所述目标帧图像进行重建得到重建帧图像,以确定所述目标帧图像与所述重建帧图像的重建误差;
根据所述点云数据的速度信息与所述目标帧图像的像素信息,得到每个所述像素的惯性概率;
对所述惯性概率高于预设阈值的每个所述像素进行标注,得到掩膜数据;
根据所述重建误差与所述掩膜数据得到损失函数,并基于所述损失函数对所述预设初始深度估计模型进行训练,以得到目标深度估计模型。
2.如权利要求1所述的减少深度估计模型误差的方法,其特征在于,所述根据所述点云数据的速度信息与所述目标帧图像的像素信息,得到每个所述像素的惯性概率,包括:
根据所述点云数据的速度信息与所述目标帧图像的像素信息,计算每个像素对于不同的点云的初始惯性概率;
利用非极大值抑制算法融合每个像素对于不同的点云的初始惯性概率,选取最大的初始惯性概率作为每个所述像素的惯性概率。
3.如权利要求2所述的减少深度估计模型误差的方法,其特征在于,所述初始惯性概率的计算公式为:
Pr(x)=c(x,r)s(I(x),I(r))
其中,Pr(x)表示每个像素对不同的点云的初始惯性概率,x表示每个像素,r代表每个点云,I(x)表示每个像素x的颜色,I(r)表示每个点云r的颜色,c表示贴近度函数,s表示相似性函数。
4.如权利要求1所述的减少深度估计模型误差的方法,其特征在于,所述根据所述参考帧图像及预设初始深度估计模型对所述目标帧图像进行重建得到重建帧图像,包括:
通过所述预设初始深度估计模型对所述目标帧图像进行深度估计,得到所述目标帧图像的深度信息;
将所述目标帧图像及所述参考帧图像输入预设位姿估计模型,得到所述目标帧图像与所述参考帧图像间的相机位姿变化信息;
根据所述深度信息及所述相机位姿变化信息对所述目标帧图像进行重建,得到所述目标帧图像重构后的重建帧图像。
5.如权利要求1所述的减少深度估计模型误差的方法,其特征在于,所述确定所述目标帧图像与所述重建帧图像的重建误差,包括:计算所述目标帧图像与所述重建帧图像的光度差,根据所述光度差获取所述重建误差。
6.如权利要求1所述的减少深度估计模型误差的方法,其特征在于,在所述得到训练完成的目标深度估计模型之后,还包括:获取待测影像,所述待测影像包括目标帧与参考帧;利用所述目标深度模型推论出所述目标帧的深度信息;根据所述参考帧及所述深度信息对所述目标帧进行重建,获得所述目标帧的预测深度图像。
7.如权利要求1所述的减少深度估计模型误差的方法,其特征在于,所述点云数据的获取方法包括:利用激光雷达扫描所述单目影像,得到所述激光雷达的点云数据。
8.一种减少深度估计模型误差的装置,其特征在于,包括:
获取模块,用于获取单目影像及所述单目影像的点云数据,每个所述单目影像包括目标帧图像及参考帧图像;
重建模块,用于根据所述参考帧图像及预设初始深度估计模型对所述目标帧图像进行重建得到重建帧图像,以确定所述目标帧图像与所述重建帧图像的重建误差;
计算模块,用于根据所述点云数据的速度信息与所述目标帧图像的像素信息,得到每个所述像素的惯性概率;
融合模块,用于对所述惯性概率高于预设阈值的每个所述像素进行标注,得到掩膜数据;
训练模块,用于根据所述重建误差与所述掩膜数据得到损失函数,并基于所述损失函数对所述预设初始深度估计模型进行训练,以得到目标深度估计模型。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器用于存储指令,所述处理器用于调用所述存储器中的指令,使得所述电子设备执行权利要求1至权利要求7中任一项所述的减少深度估计模型误差的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如权利要求1至权利要求7中任一项所述的减少深度估计模型误差的方法。
CN202210867058.0A 2022-07-22 2022-07-22 减少深度估计模型误差的方法、装置、设备及存储介质 Pending CN117474961A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210867058.0A CN117474961A (zh) 2022-07-22 2022-07-22 减少深度估计模型误差的方法、装置、设备及存储介质
US18/224,620 US20240029281A1 (en) 2022-07-22 2023-07-21 Method for reducing error of depth estimation model, electronic device, and non-transitory storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210867058.0A CN117474961A (zh) 2022-07-22 2022-07-22 减少深度估计模型误差的方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117474961A true CN117474961A (zh) 2024-01-30

Family

ID=89576814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210867058.0A Pending CN117474961A (zh) 2022-07-22 2022-07-22 减少深度估计模型误差的方法、装置、设备及存储介质

Country Status (2)

Country Link
US (1) US20240029281A1 (zh)
CN (1) CN117474961A (zh)

Also Published As

Publication number Publication date
US20240029281A1 (en) 2024-01-25

Similar Documents

Publication Publication Date Title
CN111783820B (zh) 图像标注方法和装置
CN110322500B (zh) 即时定位与地图构建的优化方法及装置、介质和电子设备
CN109934065B (zh) 一种用于手势识别的方法和装置
JP2023082038A (ja) 畳み込み画像変換を使用して同時位置特定およびマッピングを実施する方法およびシステム
CN110675487B (zh) 基于多角度二维人脸的三维人脸建模、识别方法及装置
CN108960045A (zh) 眼球追踪方法、电子装置及非暂态电脑可读取记录媒体
CN110363817B (zh) 目标位姿估计方法、电子设备和介质
KR102169309B1 (ko) 정보 처리장치 및 그 제어방법
CN112036339B (zh) 人脸检测的方法、装置和电子设备
CN109934873B (zh) 标注图像获取方法、装置及设备
CN114862973B (zh) 基于固定点位的空间定位方法、装置、设备及存储介质
JP2017123087A (ja) 連続的な撮影画像に映り込む平面物体の法線ベクトルを算出するプログラム、装置及び方法
CN112200056A (zh) 人脸活体检测方法、装置、电子设备及存储介质
CN111680573B (zh) 人脸识别方法、装置、电子设备和存储介质
CN113592706B (zh) 调整单应性矩阵参数的方法和装置
CN113902932A (zh) 特征提取方法、视觉定位方法及装置、介质和电子设备
US20210118172A1 (en) Target detection method, target detection apparatus, and unmanned aerial vehicle
JP7498404B2 (ja) 被写体の3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム
CN112749664A (zh) 一种手势识别方法、装置、设备、***及存储介质
CN117058183A (zh) 一种基于双摄像头的图像处理方法、装置、电子设备及存储介质
CN113822174B (zh) 视线估计的方法、电子设备及存储介质
CN113723432B (zh) 一种基于深度学习的智能识别、定位追踪的方法及***
CN115841602A (zh) 基于多视角的三维姿态估计数据集的构建方法及装置
CN117252914A (zh) 深度估计网络的训练方法、装置、电子设备及存储介质
CN114399800A (zh) 人脸姿态估计方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination