CN114820752A - 深度估计方法和*** - Google Patents

深度估计方法和*** Download PDF

Info

Publication number
CN114820752A
CN114820752A CN202210282978.6A CN202210282978A CN114820752A CN 114820752 A CN114820752 A CN 114820752A CN 202210282978 A CN202210282978 A CN 202210282978A CN 114820752 A CN114820752 A CN 114820752A
Authority
CN
China
Prior art keywords
image
domain
depth estimation
target
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210282978.6A
Other languages
English (en)
Inventor
王珂
马晨光
陈志远
陈智泉
胡永恒
王泽荣
方硕
李瑞达
马兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202210282978.6A priority Critical patent/CN114820752A/zh
Publication of CN114820752A publication Critical patent/CN114820752A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本说明书提供的深度估计方法和***,获取目标物体的异质双目图像,对所述异质双目图像进行跨域迁移处理生成同质双目图像,将所述同质双目图像输入深度估计网络模型,能够准确地获取所述深度估计网络模型输出的所述目标物体的深度图,而且不依赖3D摄像头,达到了降本增效的效果。

Description

深度估计方法和***
技术领域
本说明书涉及图像处理技术领域,尤其涉及一种深度估计方法和***。
背景技术
深度估计可以理解为:通过图像采集装置采集物体的图像,利用物体的图像估计物体各点到图像采集装置的成像平面的垂直距离,该垂直距离即为该物体上对应点的深度信息。
现有技术中,深度信息被广泛应用于各个领域,如自动驾驶领域、人脸识别领域等。以人脸识别为例,目前大部分IoT(Internetof Things,物联网)设备上使用的刷脸机具一般会搭载3D结构光摄像头来获取人脸的深度图,也就得到了人脸的深度信息。3D结构光摄像头是指利用结构光和三角测量的原理进行深度测量的3D摄像头,但通过3D结构光摄像头进行深度估计的方法成本较高,如果去掉3D结构光摄像头,深度估计的准确性又会下降。因此,需要提供一种降本增效的深度估计方法和***。
发明内容
本说明书提供了一种不需要任何3D摄像头又能准确估计出物体深度图的降本增效的深度估计方法和***。
第一方面,本说明书提供一种深度估计方法,包括:获取目标物体的异质双目图像,所述异质双目图像包括所述目标物体在第一视觉域中的第一原始图像和在第二视觉域中的第二原始图像,所述第一视觉域不同于所述第二视觉域;对所述异质双目图像进行跨域迁移处理生成同质双目图像,所述同质双目图像包括第一目标图像和第二目标图像,所述第一目标图像和所述第二目标图像的视觉域相同;以及将所述同质双目图像输入深度估计网络模型,获取所述深度估计网络模型输出的所述目标物体的深度图。
在一些实施例中,其中所述深度估计网络模型在计算所述深度图的过程中不获取视差信息。
在一些实施例中,其中所述跨域迁移处理包括:对所述第一原始图像进行跨域迁移,生成伪域图像,所述伪域图像在所述第二视觉域;以及对所述伪域图像进行图像校准,生成所述第一目标图像。
在一些实施例中,其中所述对所述第一原始图像进行跨域迁移,生成伪域图像包括:将所述第一原始图像输入目标生成对抗网络模型进行跨域迁移,生成所述伪域图像。
在一些实施例中,其中所述跨域迁移处理包括:对所述第一原始图像进行图像校准,生成第一校准图像;以及对所述第一校准图像进行跨域迁移,生成所述第一目标图像,所述第一目标图像在第二视觉域。
在一些实施例中,其中所述对所述第一校准图像进行跨域迁移,生成所述第一目标图像包括:将所述第一校准图像输入目标生成对抗网络模型进行跨域迁移,生成所述第一目标图像。
在一些实施例中,其中所述目标生成对抗网络模型是基于所述第一视觉域中的多个样本图像对初始生成对抗网络模型训练得到的,每个样本图像对应有标签,所述标签是指通过与所述多个样本图像视角相同的第二视觉域的摄像头拍摄的图像,所述初始生成对抗网络模型对所述每个样本图像进行处理得到所述每个样本图像的预测值,以所述预测值与所述标签的偏差在预设范围内为优化目标训练所述初始生成对抗网络模型。
在一些实施例中,其中所述跨域迁移处理还包括:对所述第二原始图像进行图像校准,生成所述第二目标图像。
在一些实施例中,其中所述第一目标图像与所述第二目标图像为共面图像且行对准,所述行对准是指所述第一目标图像中的任一像素点A所在的像素行,和所述第二目标图像中与所述像素点A匹配的像素点B所在的像素行是同一行,所述像素点A和所述像素点B对应所述目标物体的同一点。
在一些实施例中,其中所述深度估计网络模型是通过将样本物体的真实深度图作为监督图进行训练得到的网络模型。
第二方面,本说明书还提供一种深度估计***,包括至少一个存储介质以及至少一个处理器,所述至少一个存储介质存储有至少一组指令集用于深度估计;所述至少一个处理器同所述至少一个存储介质通信连接,其中当所述深度估计***运行时,所述至少一个处理器读取所述至少一个指令集并实施本说明书第一方面所述的深度估计方法。
由以上技术方案可知,本说明书提供的深度估计方法和***,通过将目标物体的异质双目图像转换为同质双目图像后输入端到端的深度估计网络模型,进而能够准确地获取到目标物体的深度图,而且获取深度图的过程不依赖3D摄像头,达到了降本增效的效果。
本说明书提供的深度估计方法和***,获取的是目标物体的异质双目图像,而不是必须得使用两个同源且型号一样的图像采集设备,对图像采集设备的要求不苛刻,可拓展性较好。
本说明书提供的深度估计方法和***,所述异质双目图像包括目标物体在两个不同视觉域中的图像;所述图像在不同的视觉域中可以呈现不同的特征。而本深度估计方法和***利用该图像的多种特征能更准确地估计出目标物体的深度图,因此,采用目标物体的异质双目图像能够提高深度估计的准确性。
本说明书提供的深度估计方法和***,对异质双目图像进行跨域迁移处理生成同质双目图像,进而通过同质双目图像获取目标物体的深度图,不仅提高了深度估计的鲁棒性和环境适应能力,而且降低了深度估计的复杂度。
本说明书提供的深度估计方法和***,将同质双目图像输入深度估计网络模型,所述深度估计网络模型即会直接输出目标物体的深度图。也即是,通过端到端的深度估计网络模型直接回归出目标物体的深度,在这个过程中不涉及任何的视差信息。现有技术中需要计算视差,然后将视差转换为深度,由于视差是离散的,对离散的视差数据进行处理转换为深度后在深度空间中会导致米级别的误差(尤其对于远距离处的目标物体)。而本说明书中公开的深度估计方法和***不计算视差,直接回归深度,避免了视差转深度带来的误差,提高了深度估计的准确性,尤其在人脸识别领域,基于本说明书估计的深度图能够提高人脸识别的活体防御能力,即能够很准确地区分出真实人脸和伪造人脸。
本说明书提供的深度估计方法和***的其他功能将在以下说明中部分列出。根据描述,以下数字和示例介绍的内容将对那些本领域的普通技术人员显而易见。本说明书提供的深度估计方法和***的创造性方面可以通过实践或使用下面详细示例中所述的方法、装置和组合得到充分解释。
附图说明
为了更清楚地说明本说明书实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本说明书的一些实施例提供的一种深度估计方法与***的***架构图;
图2示出了根据本说明书的一些实施例提供的一种深度估计方法的***流程图;
图3示出了根据本说明书的一些实施例提供的一种深度估计方法的***流程图;
图4示出了根据本说明书的一些实施例提供的一种经过图像校准后的RGB图像和NIR图像;
图5示出了根据本说明书的一些实施例提供的一种深度估计方法500的流程图;
图6示出了根据本说明书的一些实施例提供的一种目标GAN模型的结构图;
图7示出了根据本说明书的一些实施例提供的一种初始目标GAN模型训练过程中的示例图像;
图8示出了根据本说明书的一些实施例提供的获取所述深度估计网络模型输出的深度图的示意图;
图9示出了根据本说明书的一些实施例提供的活体认证模型的效果图;以及
图10示出了根据本说明书的一些实施例提供的活体认证模型的效果图。
具体实施方式
以下描述提供了本说明书的特定应用场景和要求,目的是使本领域技术人员能够制造和使用本说明书中的内容。对于本领域技术人员来说,对所公开的实施例的各种局部修改是显而易见的,并且在不脱离本说明书的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用。因此,本说明书不限于所示的实施例,而是与权利要求一致的最宽范围。
这里使用的术语仅用于描述特定示例实施例的目的,而不是限制性的。比如,除非上下文另有明确说明,这里所使用的,单数形式“一”,“一个”和“该”也可以包括复数形式。当在本说明书中使用时,术语“包括”、“包含”和/或“含有”意思是指所关联的整数,步骤、操作、元素和/或组件存在,但不排除一个或多个其他特征、整数、步骤、操作、元素、组件和/或组的存在或在该***/方法中可以添加其他特征、整数、步骤、操作、元素、组件和/或组。
考虑到以下描述,本说明书的这些特征和其他特征、以及结构的相关元件的操作和功能、以及部件的组合和制造的经济性可以得到明显提高。参考附图,所有这些形成本说明书的一部分。然而,应该清楚地理解,附图仅用于说明和描述的目的,并不旨在限制本说明书的范围。还应理解,附图未按比例绘制。
本说明书中使用的流程图示出了根据本说明书中的一些实施例的***实现的操作。应该清楚地理解,流程图的操作可以不按顺序实现。相反,操作可以以反转顺序或同时实现。此外,可以向流程图添加一个或多个其他操作。可以从流程图中移除一个或多个操作。
在对本说明书具体实施例说明之前,先对本说明书的应用场景进行如下介绍:
随着人工智能的普及,机器识别在智能手机、互联网娱乐、金融、医疗、教育、零售等行业的应用日趋广泛。相对于只能识别出目标物体的二维数据的2D识别,3D识别的应用更加广泛,因为3D识别可以识别出目标物体的深度信息,而该深度信息可以更好的突出目标物体在空间上的特性,具有空间的形状表征,且信息量比二维数据更丰富。基于这些特性,3D识别可以简单、快速、有效地将不同的目标物体区分开。
目前大部分机器识别***都会通过搭载3D摄像头(如3D结构光摄像头)来获取目标物体的三维数据,成本相对较高。但如果去掉3D摄像头,仅靠目标物体的二维数据而没有深度信息又很难保证目标识别的准确性。所以如何在只能采集到目标物体的二维数据的可见光摄像头和/或近红外摄像头的配置下,恢复出目标物体的深度信息是一个亟需解决的问题。
而本说明书提供的深度估计方法和***就可以适用于普通的没有加装3D摄像头的机器识别***,还能准确地估计出目标物体的深度图。所述机器识别***可以作为人脸识别的刷脸机具应用到人脸识别的场景中。所述刷脸机具受益于本说明书估计出的深度信息提高了其活体防御能力,也即是,所述刷脸机具在面对照片、翻拍图像的攻击时,能够有效分辨出当前的人脸是否为活体,带来更便捷、安全、高效的刷脸体验。其中,所述刷脸机具例如可以是手机等移动设备,也可以是自动售货机中具有刷脸即时支付功能的设备(如:有支付宝刷脸支付功能的饮料自动售货柜)。所述机器识别***还可以作为自动驾驶车辆的摄像设备应用于无人驾驶的场景中。比如,所述摄像设备可以通过本说明书提供的深度估计方法估计出位于自动驾驶车辆周围的车辆、行人、道路障碍物以及建筑物的三维信息,使得自动驾驶车辆可以获得周围物体更具象的信息,从而提高无人驾驶的安全性。
无论是作为人脸识别的刷脸机具还是作为自动驾驶车辆的摄像设备,这类设备可以在只有普通可见光摄像头和/或红外摄像头而没有3D摄像头的情况下恢复出目标物体的深度信息。而且,该方法和***可以通过将目标物体的异质双目图像转换为同质双目图像后输入端到端的深度估计网络模型,进而能够准确地获取到目标物体的深度图,达到了降本增效的效果。
为了方便描述,本说明书对以下描述将会出现的术语进行解释:
深度估计:利用目标物体的图像估计目标物体各点到图像采集装置的成像平面的垂直距离,该垂直距离即为物体的深度信息。
视觉域:指图像所处的光谱范围,如紫外光域、可见光域、近红外光域、中红外光、远红外光等。不同视觉域中的图像是指处在不同光谱范围的图像,如紫外图像、可见光图像、近红外图像、中红外图像、远红外图像等。本说明书中的可见光图像主要指RGB图像,近红外图像可称为NIR(Near Infrared)图像,远红外图像可称为FIR(FarInfrared)图像。
异质双目图像:由两个不同光谱范围响应的摄像头组成的异质双目相机采集的图像,也就是通过跨不同视觉域的异质双目相机所采集的视觉域不同的图像。该异质双目相机例如可以包括一个可见光摄像头和一个近红外摄像头。所述异质双目图像例如可以为RGB-NIR双目图像、RGB-FIR双目图像或者NIR-FIR双目图像等。因为是双目相机所采集,因此该异质双目图像的内容可以是视角略有差异的同一个场景。
跨域迁移:将图像的频率分布(光谱)从一个视觉域映射到另一个视觉域。
伪域图像:通过跨域迁移后生成的图像。对于同一个视觉域的图像,为了便于区分该图像是通过摄像头直接拍摄得到的,还是经跨域迁移生成的,本说明书实施例将通过跨域迁移生成的图像称为伪域图像,例如PseudoNIR图像、PseudoRGB图像或者PseudoFIR图像等。
生成对抗网络(Generative Adversarial Network,GAN)模型:来源于博弈论中零和博弈的思想,在训练生成对抗网络模型的过程中,通过生成网络G(Generator)和判别网络D(Discriminator)不断博弈,进而使G学习到数据的分布,从而得到训练好的只包含生成网络G的生成对抗网络模型。如果将G用到图像生成上,G可以从一段随机数中生成逼真的图像。为了便于描述,后续将在训练过程中的生成对抗网络模型称为初始生成对抗网络模型(即初始GAN模型),将最终训练好的生成对抗网络模型称为目标生成对抗网络模型(即目标GAN模型)。
图1示出了根据本说明书的一些实施例提供的一种深度估计方法与***的***架构图100。本说明书提供的深度估计方法可以应用于如图1所示的***架构100中。如图1所示,所述深度估计的***架构100可以包括异质双目相机101和深度估计***102。所述异质双目相机101和深度估计***102可以作为整体安装,也可以分别安装。
异质双目相机101可以采集目标物体的异质双目图像。异质双目相机可以包括两个不同光谱范围响应的摄像头,或者说包括两个不同视觉域的摄像头,例如,异质双目相机包括一个可见光摄像头和一个近红外摄像头,或者,包括一个近红外摄像头和一个远红外摄像头等。
深度估计***102可以执行本说明书描述的深度估计方法。所述深度估计方法将在后面的描述中详细介绍。深度估计***102可以包括至少一个处理器120和至少一个存储介质130。在一些实施例中,深度估计***102还可以包括通信模块150和内部通信总线110。深度估计***102为可以执行深度估计方法的示例性计算设备。在一些实施例中,计算设备可以是分布式计算设备,包括多个分布式计算节点。
内部通信总线110可以连接不同的***组件,包括存储介质130、处理器120以及通信模块150。
存储介质130可以包括数据存储装置。所述数据存储装置可以是非暂时性存储介质,也可以是暂时性存储介质。比如,所述数据存储装置可以包括磁盘132、只读存储介质(ROM)134或随机存取存储介质(RAM)136中的一种或多种。存储介质130可以存储至少一个指令集。所述指令集可以是一个或者多个指令的集合。比如,所述指令集可以是多条计算机程序代码,所述计算机程序代码在被处理器120调取和执行时可以指示所述处理器120执行本说明书提供的深度估计方法的程序、例程、对象、组件、数据结构、过程、模块等等。
至少一个处理器120可以同至少一个存储介质130通信连接。至少一个处理器120用以读取/调用并执行上述至少一个指令集。当深度估计***300运行时,至少一个处理器120读取所述至少一个指令集,并且根据所述至少一个指令集的指示执行本说明书提供的深度估计方法。处理器120可以执行深度估计方法包含的所有步骤。处理器120可以是一个或多个处理器的形式,在一些实施例中,处理器120可以包括一个或多个硬件处理器,例如微控制器,微处理器,精简指令集计算机(RISC),专用集成电路(ASIC),特定于应用的指令集处理器(ASIP),中心处理单元(CPU),图形处理单元(GPU),物理处理单元(PPU),微控制器单元,数字信号处理器(DSP),现场可编程门阵列(FPGA),高级RISC机器(ARM),可编程逻辑器件(PLD),能够执行一个或多个功能的任何电路或处理器等,或其任何组合。仅仅为了说明问题,在本说明书中深度估计***102中仅描述了一个处理器120。然而,应当注意,本说明书中深度估计***102还可以包括多个处理器120,因此,本说明书中披露的操作和/或方法步骤可以如本说明书所述的由一个处理器执行,也可以由多个处理器联合执行。例如,如果在本说明书中深度估计***102的处理器120执行步骤A和步骤B,则应该理解,步骤A和步骤B也可以由两个不同处理器120联合或分开执行(例如,第一处理器执行步骤A,第二处理器执行步骤B,或者第一和第二处理器共同执行步骤A和B)。
当然,本说明书中公开的执行本说明书提供的深度估计方法的模块也可以被设计成专门的电路、硬件模块和/或设备,独立地同所述深度估计***102通信连接或者作为内部零件存在于所述深度估计***102中(图2未标出)。
通信模块150可以与处理器120连接,用于深度估计***102同外界的数据通讯,比如服务器和数据库(图2未标出)。通信模块150可以包括有线通信模块和无线通信模块中的至少一种。
图2示例性的示出了根据本说明书的一些实施例提供的一种深度估计方法的***流程图200。如图2所示,深度估计方法的***流程图200可以包括三个部分,分别为跨域生成201、图像校准202和深度估计203。这三个部分可以是存储在所述存储介质130中的一个或者多个执行对应指令的指令集,并且由深度估计***102中的处理器120来执行。这三个部分也可以是深度估计***102中的一部分电路、硬件设备或者模组。比如跨域生成201可以是深度估计***102中对第一原始图像进行跨域迁移生成伪域图像的硬件设备/模组,深度估计203可以是深度估计***102中将同质双目图像输入深度估计网络模型,获取所述深度估计网络模型输出的所述目标物体的深度图的硬件设备/模组,等等。本说明书将以处理器120读取并执行存储在存储介质130中的指令集为例对流程200进行说明。需要说明的是,图2只是示例性地示出了一种深度估计方法的***流程图,并不会对本说明书的实施例造成限定。在一些实施例中,本说明书实施例提供的深度估计方法可以包括跨域生成201和深度估计203这两个部分,而不包括图像校准202。
如图2所示,在跨域生成201部分中,处理器120可以获取目标物体的RGB-NIR双目图像(即RGB图像和NIR图像),将RGB图像经过跨域迁移生成Pseudo NIR图像,对NIR图像进行预处理,预处理可以包括将图像摆正的方向矫正操作、噪音滤除操作以及亮度增强等操作。
在图像校准202部分中,处理器120可以对双目相机进行立体标定以获取双目相机的标定参数,利用标定参数对Pseudo NIR图像和NIR图像进行图像校准,得到校准后的Pseudo NIR图像和校准后的NIR图像。所述标定参数可以包括内参、外参和畸变系数,内参可以包括焦距等相机内部固有的物理参数,外参可以包括旋转矩阵和平移矩阵。需要是说明的是,对双目相机进行立体标定之前,可以对双目相机进行时间配准,也就是,保证同一时刻触发双目相机的两个摄像头。
利用标定参数对Pseudo NIR图像和NIR图像进行图像校准的过程包括去畸变和行对准(图2中未示出)。具体地,处理器120可以对Pseudo NIR图像和NIR图像分别乘以通过标定参数推导得到的单应矩阵,进而实现去畸变和行对准。所述去畸变可以指将Pseudo NIR图像和NIR图像映射到同一平面(即Pseudo NIR图像和NIR图像为共面图像)且使这两个图像的光轴平行。所述行对准可以指使目标物体的同一点分别映射在Pseudo NIR图像和NIR图像上的两个像素点位于相同的像素行。也即是,经过图像校准后的Pseudo NIR图像和NIR图像为共面图像且行对准。
深度估计203部分包括特征提取、特征匹配和人脸深度三个子部分。这三个子部分可以是深度估计网络模型中的三个网络层。在一些实施例中,所述深度估计网络模型还可以包括除这三个子部分之外的其他网络层,例如代价计算的网络层,本说明实施例对此不作限定。通过所述特征提取,处理器120可以分别提取校准后的Pseudo NIR图像和校准后的NIR图像的特征;再通过所述特征匹配,处理器120可以找到目标物体的每一点映射到Pseudo NIR图像和NIR图像中的两个像素点。人脸深度这部分是以目标物体为人脸时的示例,在一些实施例中,人脸深度这部分可以替换成获取目标物体的深度图;所述目标物体可以为任意的物体。本说明书将以人脸深度为例进行解释,即处理器120通过执行人脸深度这部分的步骤获取到人脸的深度图。
图2的***流程图示出了所述双目图像的处理先经过跨域生成部分再经过图像校准部分的流程,但实际上所述双目图像也可以先经过图像校准部分再经过跨域生成部分的流程。
图3示例性的示出了根据本说明书的一些实施例提供的一种深度估计方法的***流程图300。如图3所示,深度估计方法的***流程图300可以包括三个部分,分别为图像校准301、跨域生成302和深度估计303。同样,这三个部分可以是存储在所述存储介质130中的一个或者多个执行对应指令的指令集,并且由深度估计***102中的处理器120来执行。这三个部分也可以是深度估计***102中的一部分电路、硬件设备或者模组。比如跨域生成302可以是深度估计***102中对第一校准图像进行跨域迁移生成第一目标图像的硬件设备/模组,深度估计303可以是深度估计***102中将所述同质双目图像输入深度估计网络模型,获取所述深度估计网络模型输出的所述目标物体的深度图的硬件设备/模组,等等。本说明书将以处理器120读取并执行存储在存储介质130中的指令集为例对流程300进行说明。
如图3所示,在图像校准301部分中,处理器120可以获取目标物体的RGB-NIR双目图像(即RGB图像和NIR图像);处理器120可以对双目相机进行立体标定以获取双目相机的标定参数,利用标定参数对RGB图像和NIR图像进行图像校准,得到校准RGB-NIR双目图像(即校准后的RGB和校准后的NIR两个图像)。所述标定参数与图2中的标定参数类似,在此不再赘述。
利用标定参数对RGB图像和NIR图像进行图像校准的过程也可以包括去畸变和行对准(图3中未示出)。对RGB图像和NIR图像去畸变和行对准的过程与图2中类似,在此也不再赘述。经过图像校准后的RGB图像和NIR图像为共面图像且行对准。图4示出了根据本说明书的一些实施例提供的一种经过图像校准后的RGB图像和NIR图像。在图4中,左边的图像为NIR图像,右边的图像实际为RGB图像,为了便于显示,本说明书将RGB图像转换成了灰度图像进行示意。比如在图4中,左边的NIR图像和右边的RGB图像为共面图像且行对准,图4中的多条横线表示左边的NIR图像和右边的RGB图像行对准。
在跨域生成302部分中,处理器120可以将校准后的RGB图像经过跨域迁移生成Pseudo NIR图像,所述Pseudo NIR图像为经过校准后的图像;处理器120可以对校准后的NIR图像进行预处理,预处理可以包括将图像摆正的方向矫正操作、噪音滤除操作以及亮度增强等操作。
在深度估计303部分中处理器120可以对Pseudo NIR图像和校准后的NIR图像进行深度估计,获取目标物体的深度图。深度估计部分303的结构和图2中的深度估计部分203的结构相似,在不再赘述。
图5示出了根据本说明书的一些实施例提供的一种深度估计方法500的流程图。如前所述,深度估计***102可以用来执行本说明书所述的深度估计方法500。具体地,处理器120可以读取存储在其本地存储介质中的指令集,然后根据所述指令集的规定,执行本说明书所述的深度估计方法500。如图5所示,所述方法500可以包括:
S510:获取目标物体的异质双目图像。
由于异质双目相机101与深度估计***102连接,因此,异质双目相机采集到目标物体的异质双目图像后,可以将异质双目图像发送给深度估计***102,进而,深度估计***中的处理器120获取到了目标物体的异质双目图像。
本说明书中的异质双目相机101是跨不同视觉域的双目相机,因此,异质双目图像包括目标物体在第一视觉域的第一原始图像和在第二视觉域的第二原始图像,所述第一视觉域不同于所述第二视觉域。例如,第一原始图像为RGB图像,第二原始图像为NIR图像,或者,第一原始图像为NIR图像,第二原始图像为FIR图像等。
在一些实施例中,所述目标物体可以是任意物体。比如,如果将深度估计方法500应用到人脸识别领域,所述目标物体可以是人脸;如果将深度估计方法500应用到无人驾驶领域,所述目标物体可以是车辆、路侧障碍物或者行人等。
处理器120在获取到目标物体的异质双目图像后,所述方法500还可以包括:
S520:对所述异质双目图像进行跨域迁移处理生成同质双目图像。
在一些实施例中,处理器120可以直接利用第一原始图像和第二原始图像进行深度估计,也即是,处理器120可以直接将异质双目图像输入深度估计网络模型,获取所述深度估计网络模型输出的目标物体的深度图。这样,图像处理的过程就省略了跨域迁移处里的步骤,相应地降低了深度估计的成本。但是,所述第一原始图像和第二原始图像在两个不同的视觉域,不同视觉域之间的差异较大,处理器120直接利用第一原始图像和第二原始图像进行深度估计的算法比较复杂,因此,在一些实施例中,处理器120可以对异质双目图像进行跨域迁移处理生成同质双目图像,进而利用同质双目图像进行深度估计。由于所述同质双目图像的视觉域相同(也就是所述第一目标图像和所述第二目标图像的视觉域相同),因此处理器120在对所述同质双目图像进行深度估计时就缩小了双目图像之间的跨域差异,有利于后续使用深度估计网络模型进行深度估计。其中,同质双目图像包括的第一目标图像和第二目标图像例如可以是两个RGB图像,或者两个NIR图像等。
所述跨域迁移处理包括跨域迁移和图像校准。如前所述,所述跨域迁移是将图像的频率分布从一个视觉域映射到另一个视觉域,例如,将一个RGB图像的频率分布从可见光域映射到近红外域,也就生成了在近红外域的伪域图像(PseudoNIR图像)。经过图像校准后的两个图像的关系是共面关系且行对准。
在一些实施例中,所述进行跨域迁移处理时处理器120可以先进行跨域迁移操作,再进行图像校准。例如,处理器120可以对第一原始图像进行跨域迁移,生成在第二视觉域的伪域图像,然后,对所述伪域图像和第二原始图像进行图像校准,生成伪域图像对应的第一目标图像和第二原始图像对应的第二目标图像。比如,以所述异质双目图像为RGB-NIR双目图像为例,处理器120可以对RGB图像进行跨域迁移,生成Pseudo NIR图像,然后,对Pseudo NIR图像和NIR图像进行图像校准,生成校准后的Pseudo NIR图像(第一目标图像)和校准后的NIR图像(第二目标图像)。再比如,以所述异质双目图像为NIR-FIR双目图像为例,处理器120可以对NIR图像进行跨域迁移,生成Pseudo FIR图像,然后,对Pseudo FIR图像和FIR图像进行图像校准,生成校准后的Pseudo FIR图像(第一目标图像)和校准后的FIR图像(第二目标图像)。
在一些实施例中,所述进行跨域迁移处理时处理器120还可以先进行图像校准,再进行跨域迁移操作。例如,处理器120可以对第一原始图像和第二原始图像进行图像校准,生成第一原始图像对应的第一校准图像和第二原始图像对应的第二目标图像,然后,对所述第一校准图像进行跨域迁移,生成在第二视觉域的第一目标图像。参考图4,比如当所述异质双目图像为RGB-NIR双目图像时,处理器120可以先对NIR图像和RGB图像分别进行图像校准,生成校准后的NIR图像(第二目标图像)和校准后的RGB图像。然后,对校准后的RGB图像进行跨域迁移,生成Pseudo NIR图像(第一目标图像),该Pseudo NIR图像是经过图像校准的图像。再比如,当所述异质双目图像为NIR-FIR双目图像时,处理器120可以先对FIR图像和NIR图像分别进行图像校准,生成校准后的FIR图像(第二目标图像)和校准后的NIR图像。然后,对校准后的NIR图像进行跨域迁移,生成Pseudo FIR图像(第一目标图像),该Pseudo FIR图像是经过图像校准的图像。
无论处理器120先进行跨域迁移再进行图像校准,还是先进行图像校准再进行跨域迁移,得到的第一目标图像和第二目标图像都经过了图像校准。因此,第一目标图像与第二目标图像为共面图像且行对准,也就是说,第一目标图像中的任一像素点A所在的像素行,和第二目标图像中与像素点A匹配的像素点B所在的像素行是同一行。其中,像素点A和像素点B对应目标物体的同一点。
需要说明的是,处理器120可以通过目标GAN模型实现跨域迁移。具体地,可以将需要跨域迁移的图像输入目标GAN模型,获取目标GAN模型输出的伪域图像。如果处理器120对上述第一原始图像进行跨域迁移,可以将第一原始图像输入目标GAN模型进行跨域迁移生成伪域图像。如果处理器120对上述第一校准图像进行跨域迁移,可以将第一校准图像输入目标GAN模型进行跨域迁移,生成第一目标图像。
如前所述,目标GAN模型只包括生成网络,目标GAN模型的具体结构可以参考图6,图6示出了根据本说明书的一些实施例提供的一种目标GAN模型的结构图。为了方便描述,对图6中的部分图像进行了标号。
如图6所示,目标GAN模型包括两类子网络,第一类子网络为子网络G1,第二类子网络为子网络G2。在子网络G2中,输入图像1的特征图2经过卷积操作后得到特征图3。处理器120可以将输入图像1进行2倍下采样得到子网络G1中的图像4。子网络G1中,图像4的特征图5经过由多个残差块组成的残差网络和反卷积的处理得到特征图7,特征图7即为图像8的特征图。处理器120可以将特征图3和特征图7进行整合操作得到子网络G2中的特征图9。特征图9经过由多个残差块组成的残差网络的处理,得到特征图10。特征图10经过一个反卷积操作得到特征图11。特征图11为输出图像12的特征图。其中,如果输入图像1是第一原始图像,输出图像12可以是伪域图像,如果输入图像1是第一校准图像,输出图像12可以是第一目标图像。
当然,如果处理器120也可以通过其他网络模型实现跨域迁移,比如条件生成对抗网络(CGAN,Conditional Generative Adversarial Networks)模型、深度卷积生成对抗网络(DCGAN,Deep Convolutional Generative Adversarial Networks)模型、最小二乘生成对抗网络(LAGAN,Least Squares Generative Adversarial Networks)模型,本说明书实施例对此不作限定。
为了提高通过目标GAN模型实现跨域迁移的准确性,需要通过多个样本图像训练初始GAN模型以得到最终训练好的目标GAN模型。
在通过多个样本图像训练初始GAN模型的过程中,可以以每个样本图像的预测值与所述每个样本的标签的偏差在预设范围内为优化目标来训练所述初始GAN模型。其中,所述多个样本图像在第一视觉域中,每个样本图像都对应有标签,所述标签是指通过与所述多个样本图像视角相同的第二视觉域的摄像头拍摄的图像,所以标签是第二视觉域的图像。每个样本图像的预测值是所述初始GAN模型对每个样本图像进行处理后输出的值。例如,多个样本图像均为RGB图像,RGB图像的标签为相同视角下的NIR摄像头拍摄的NIR图像,RGB图像的预测值为Pseudo NIR图像。图7示出了根据本说明书的一些实施例提供的一种初始目标GAN模型训练过程中的示例图像。图7的第1列为初始GAN模型的输入的两个RGB样本图像。为了便于显示,这里将RGB图像转换成了灰度图像进行示意。图7的第2列为RGB样本图像的标签,此处为与RGB图像相同视角下的NIR摄像头拍摄的NIR图像,第3列为初始GAN模型输出的预测值,此处为Pseudo NIR图像。
需要说明的是,可以通过如下损失函数使每个样本图像的预测值与所述每个样本的标签的偏差在预设范围内:
Lidloss(G(x),y)=E(x~data(x))[||E(y)-E(G(x))||cos]
其中,Lidloss(G(x),y)表示损失函数,由于可以将所述样本图像的标签称为所述样本图像的身份标识,所以所述Lidloss(G(x),y)也可以称为标识损失函数。x表示样本图像,G(x)表示初始GAN模型对x图像跨域迁移后的预测值(在上个例子中对应于Pseudo NIR图像),y表示x图像的标签(在上个例子中对应于相同视角下的NIR摄像头拍摄的NIR图像)。E表示将G(x)与y进行比较的一个网络模型,(x~data(x))表示x服从一个给定的数据分布。E(y)和E(G(x))均是特征向量,[||E(y)-E(G(x))||cos]表示以cos作为约束将E(y)和E(G(x))在特征层面进行对齐比较。
处理器120在生成同质双目图像后,所述方法500还可以包括:
S530:将所述同质双目图像输入深度估计网络模型,获取所述深度估计网络模型输出的所述目标物体的深度图。其中,所述深度估计网络模型是通过将样本物体的真实深度图作为监督图进行训练得到的网络模型。
在这一步中,处理器120在训练深度估计网络模型时,可以将样本物体的RGB图像和真实深度图一并送到深度估计网络,该真实深度图为RGB图像的标签。处理器120可以通过将该标签作为深度估计网络的监督图对该网络进行训练,训练之后得到深度估计网络模型。所述样本物体与目标物体的类型可以一样,比如,都为人脸,或者都为车辆。当然,所述样本物体与目标物体的类型也可以不完全一样,比如,样本物体包括人脸和车辆,而目标物体为人脸,本说明书实施例对此不作限定。
由于处理器120在训练深度估计网络模型时,直接采用样本物体的真实深度图作为监督图进行训练,因此,处理器120将同质双目图像输入深度估计网络模型后,深度估计网络模型即可直接输出目标物体的深度图。需要说明的是,处理器120在通过深度估计网络模型获取目标物体的深度图的过程中,全程不涉及视差信息,即不获取视差信息,也不利用视差信息计算深度图,而是直接回归出深度图。
所述深度估计网络模型可以包括特征提取、代价计算、特征匹配以及深度估计这几个网络层。处理器120通过特征提取网络层可以提取同质双目图像的特征,在代价计算网络层中可以基于提取的特征计算第一目标图像中的每个像素点与第二目标图像中每个像素点之间的代价值,在特征匹配网络层中可以基于计算的代价值从第二目标图像中找到与第一目标图像中每个像素点匹配的像素点,也就找到了目标物体的每一点映射到第一目标图像和第二目标图像中的两个像素点。最后,通过深度估计网络层输出目标物体的深度图。
以目标物体是人脸为例,图8示出了根据本说明书的一些实施例提供的获取所述深度估计网络模型输出的深度图的示意图。如图8所示,处理器120首先获取NIR图像和RGB图像,对NIR图像和RGB图像进行跨域迁移处理后生成同质双目图像,将同质双目图像输入包含特征提取、代价计算、特征匹配以及深度估计这几个网络层的深度估计网络模型,进而获取深度估计网络模型输出的深度图。
在获取深度估计网络模型输出的目标物体的深度图后,处理器120可以将所述目标物体的深度图输入物体检测模型中以对所述目标物体进行检测,所述物体检测模型的输出第一结果或者第二结果,第一结果表明所述目标物体是真实物体,第二结果表明所述目标物体是伪造物体。也即是,通过所述物体检测模型能够区分真实物体和伪造物体。所述物体检测模型例如可以是活体认证模型或者车辆检测模型,该活体认证模型可以是用于人脸识别的模型。
需要说明的是,可以先使用虚拟数据集对活体认证模型进行训练得到预训练模型,然后加入人脸数据集对活体认证模型进行微调,进而得到训练好的活体认证模型。其中,虚拟数据集包括虚拟深度图。虚拟数据集不是通过图像采集设备实际采集的图像,而是通过图像生成平台生成的一些虚拟图像,例如游戏场景图等,或者是通过人工设计出的图像,例如人工设计的汽车图像等。人脸数据集可以包括同质双目相机拍摄得到的真实人脸的深度图和/或3D结构光摄像头拍摄的真实人脸的深度图。
在一些实施例中,所述人脸数据集还可以包括通过上述深度估计网络模型估计出的人脸深度图。通过把所述深度估计网络模型估计出人脸深度图输入给活体认证模型进行训练,有助于提升活体认证模型的鲁棒性,增强活体认证模型的活体防御能力。
图9示出了根据本说明书的一些实施例提供的活体认证模型的效果图。图10也示出了根据本说明书的一些实施例提供的活体认证模型的效果图。如图9所示,左边的两幅图是真实人脸的NIR图像和RGB图像,为了便于显示,将RGB图像转换成了灰度图像进行示意。右边的两幅图分别是真实人脸的正面深度图和侧面深度图,正面深度图和侧面深度图都有起伏凹凸的人脸特征。如图10所示,左边的两幅图是伪造人脸(照片)的NIR图像和RGB图像,为了便于显示,将RGB图像转换成了灰度图像进行示意。右边的两幅图分别是伪造人脸的正面深度图和侧面深度图,这两个深度图都是平面图像,没有起伏凹凸的人脸特征。从图9和图10可以看出,活体认证模型对于真实人脸和伪造人脸具有很好的深度区分性,真实人脸的深度图像有相对位置的起伏,而伪造人脸的深度图像是一个平面。由此可见,所述活体认证模型能够有效区分活体人脸和伪造人脸,活体防御能力较强。
综上所述,本说明书提供的深度估计方法500和***102,本说明书提供的深度估计方法和***,通过将目标物体的异质双目图像转换为同质双目图像后输入端到端的深度估计网络模型,进而能够准确地获取到目标物体的深度图,而且获取深度图的过程中不依赖3D摄像头,达到了降本增效的效果。
本说明书提供的深度估计方法500和***102,获取的是目标物体的异质双目图像,而不是必须得使用两个同源且型号一样的图像采集设备,对图像采集设备的要求不苛刻,可拓展性较好。
本说明书提供的深度估计方法500和***102中,所述异质双目图像包括目标物体在两个不同视觉域中的图像;所述图像在不同的视觉域中可以呈现不同的特征。而本深度估计方法和***利用该图像的多种特征能更准确地估计出目标物体的深度图,因此,采用目标物体的异质双目图像能够提高深度估计的准确性。
本说明书提供的深度估计方法500和***102,对异质双目图像进行跨域迁移处理生成同质双目图像,进而通过同质双目图像获取目标物体的深度图,不仅提高了深度估计的鲁棒性和环境适应能力,而且降低了深度估计的复杂度。
本说明书提供的深度估计方法500和***102,将同质双目图像输入深度估计网络模型。所述深度估计网络模型即会直接输出目标物体的深度图,也即是,通过端到端的深度估计网络模型直接回归出目标物体的深度,在这个过程中不涉及任何的视差信息。现有技术中需要计算视差,然后将视差转换为深度,由于视差是离散的,对离散的视差数据进行处理转换为深度后在深度空间中会导致米级别的误差(尤其对于远距离处的目标物体)。而本说明书中公开的深度估计方法和***不计算视差,直接回归深度,避免了视差转深度带来的误差,提高了深度估计的准确性,尤其在人脸识别领域,基于本说明书估计的深度图能够提高人脸识别的活体防御能力,即能够很准确地区分出真实人脸和伪造人脸。
本说明书另一方面提供一种非暂时性存储介质,存储有至少一组用来进行数据处理的可执行指令。当所述可执行指令被处理器执行时,所述可执行指令指导所述处理器实施本说明书所述的数据处理方法P100的步骤。在一些可能的实施方式中,本说明书的各个方面还可以实现为一种程序产品的形式,其包括程序代码。当所述程序产品在深度估计***102上运行时,所述程序代码用于使深度估计***102执行本说明书描述的数据处理方法P100的步骤。用于实现上述方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)包括程序代码,并可以在深度估计***102上运行。然而,本说明书的程序产品不限于此,在本说明书中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***使用或者与其结合使用。所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本说明书操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在深度估计***102上执行、部分地在深度估计***102上执行、作为一个独立的软件包执行、部分在深度估计***102上部分在远程计算设备上执行、或者完全在远程计算设备上执行。
上述对本说明书特定实施例进行了描述。其他实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者是可能有利的。
综上所述,在阅读本详细公开内容之后,本领域技术人员可以明白,前述详细公开内容可以仅以示例的方式呈现,并且可以不是限制性的。尽管这里没有明确说明,本领域技术人员可以理解本说明书需求囊括对实施例的各种合理改变,改进和修改。这些改变,改进和修改旨在由本说明书提出,并且在本说明书的示例性实施例的精神和范围内。
此外,本说明书中的某些术语已被用于描述本说明书的实施例。例如,“一个实施例”,“实施例”和/或“一些实施例”意味着结合该实施例描述的特定特征,结构或特性可以包括在本说明书的至少一个实施例中。因此,可以强调并且应当理解,在本说明书的各个部分中对“实施例”或“一个实施例”或“替代实施例”的两个或更多个引用不一定都指代相同的实施例。此外,特定特征,结构或特性可以在本说明书的一个或多个实施例中适当地组合。
应当理解,在本说明书的实施例的前述描述中,为了帮助理解一个特征,出于简化本说明书的目的,本说明书将各种特征组合在单个实施例、附图或其描述中。然而,这并不是说这些特征的组合是必须的,本领域技术人员在阅读本说明书的时候完全有可能将其中一部分设备标注出来作为单独的实施例来理解。也就是说,本说明书中的实施例也可以理解为多个次级实施例的整合。而每个次级实施例的内容在于少于单个前述公开实施例的所有特征的时候也是成立的。
本文引用的每个专利,专利申请,专利申请的出版物和其他材料,例如文章,书籍,说明书,出版物,文件,物品等,可以通过引用结合于此。用于所有目的的全部内容,除了与其相关的任何起诉文件历史,可能与本文件不一致或相冲突的任何相同的,或者任何可能对权利要求的最宽范围具有限制性影响的任何相同的起诉文件历史。现在或以后与本文件相关联。举例来说,如果在与任何所包含的材料相关联的术语的描述、定义和/或使用与本文档相关的术语、描述、定义和/或之间存在任何不一致或冲突时,使用本文件中的术语为准。
最后,应理解,本文公开的申请的实施方案是对本说明书的实施方案的原理的说明。其他修改后的实施例也在本说明书的范围内。因此,本说明书披露的实施例仅仅作为示例而非限制。本领域技术人员可以根据本说明书中的实施例采取替代配置来实现本说明书中的申请。因此,本说明书的实施例不限于申请中被精确地描述过的实施例。

Claims (11)

1.一种深度估计方法,包括:
获取目标物体的异质双目图像,所述异质双目图像包括所述目标物体在第一视觉域中的第一原始图像和在第二视觉域中的第二原始图像,所述第一视觉域不同于所述第二视觉域;
对所述异质双目图像进行跨域迁移处理生成同质双目图像,所述同质双目图像包括第一目标图像和第二目标图像,所述第一目标图像和所述第二目标图像的视觉域相同;以及
将所述同质双目图像输入深度估计网络模型,获取所述深度估计网络模型输出的所述目标物体的深度图。
2.如权利要求1所述的方法,其中所述深度估计网络模型在计算所述深度图的过程中不获取视差信息。
3.如权利要求1所述的方法,其中所述跨域迁移处理包括:
对所述第一原始图像进行跨域迁移,生成伪域图像,所述伪域图像在所述第二视觉域;以及
对所述伪域图像进行图像校准,生成所述第一目标图像。
4.如权利要求3所述的方法,其中所述对所述第一原始图像进行跨域迁移,生成伪域图像包括:
将所述第一原始图像输入目标生成对抗网络模型进行跨域迁移,生成所述伪域图像。
5.如权利要求1所述的方法,其中所述跨域迁移处理包括:
对所述第一原始图像进行图像校准,生成第一校准图像;以及
对所述第一校准图像进行跨域迁移,生成所述第一目标图像,所述第一目标图像在第二视觉域。
6.如权利要求5所述的方法,其中所述对所述第一校准图像进行跨域迁移,生成所述第一目标图像包括:
将所述第一校准图像输入目标生成对抗网络模型进行跨域迁移,生成所述第一目标图像。
7.如权利要求4或6所述的方法,其中所述目标生成对抗网络模型是基于所述第一视觉域中的多个样本图像对初始生成对抗网络模型训练得到的,每个样本图像对应有标签,所述标签是指通过与所述多个样本图像视角相同的第二视觉域的摄像头拍摄的图像,所述初始生成对抗网络模型对所述每个样本图像进行处理得到所述每个样本图像的预测值,以所述预测值与所述标签的偏差在预设范围内为优化目标训练所述初始生成对抗网络模型。
8.如权利要求1所述的方法,其中所述跨域迁移处理还包括:
对所述第二原始图像进行图像校准,生成所述第二目标图像。
9.如权利要求1所述的方法,其中所述第一目标图像与所述第二目标图像为共面图像且行对准,所述行对准是指所述第一目标图像中的任一像素点A所在的像素行,和所述第二目标图像中与所述像素点A匹配的像素点B所在的像素行是同一行,所述像素点A和所述像素点B对应所述目标物体的同一点。
10.如权利要求1所述的方法,其中所述深度估计网络模型是通过将样本物体的真实深度图作为监督图进行训练得到的网络模型。
11.一种深度估计***,包括:
至少一个存储介质,存储有至少一组指令集用于深度估计;以及
至少一个处理器,同所述至少一个存储介质通信连接,
其中当所述深度估计***运行时,所述至少一个处理器读取所述至少一个指令集并实施权利要求1-10中任一项所述的深度估计方法。
CN202210282978.6A 2022-03-22 2022-03-22 深度估计方法和*** Pending CN114820752A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210282978.6A CN114820752A (zh) 2022-03-22 2022-03-22 深度估计方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210282978.6A CN114820752A (zh) 2022-03-22 2022-03-22 深度估计方法和***

Publications (1)

Publication Number Publication Date
CN114820752A true CN114820752A (zh) 2022-07-29

Family

ID=82530521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210282978.6A Pending CN114820752A (zh) 2022-03-22 2022-03-22 深度估计方法和***

Country Status (1)

Country Link
CN (1) CN114820752A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116740158A (zh) * 2023-08-14 2023-09-12 小米汽车科技有限公司 图像深度确定方法、装置和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116740158A (zh) * 2023-08-14 2023-09-12 小米汽车科技有限公司 图像深度确定方法、装置和存储介质
CN116740158B (zh) * 2023-08-14 2023-12-05 小米汽车科技有限公司 图像深度确定方法、装置和存储介质

Similar Documents

Publication Publication Date Title
KR101595537B1 (ko) 국부화된 세그먼트화 이미지들의 네트워크 캡처 및 3d 디스플레이
CN105404888B (zh) 结合颜色和深度信息的显著性目标检测方法
CN107204012A (zh) 降低飞行时间深度成像的功耗
US11227149B2 (en) Method and apparatus with liveness detection and object recognition
CN107025660B (zh) 一种确定双目动态视觉传感器图像视差的方法和装置
CN111444744A (zh) 活体检测方法、装置以及存储介质
CN109191513B (zh) 基于全局优化的电力设备立体匹配方法
Hariharan et al. Shape-from-focus by tensor voting
CN109240291B (zh) 一种基于远程控制的机器人运动线路规划方法及***
CN111067522A (zh) 大脑成瘾结构图谱评估方法及装置
KR20110021500A (ko) 이동객체의 실시간 추적과 거리 측정 방법 및 그 장치
CN114820752A (zh) 深度估计方法和***
EP3958170B1 (en) Method and apparatus with liveness detection
US20220270360A1 (en) Method and apparatus for authentication of a three-dimensional object
CN113160210A (zh) 基于深度相机的排水管道缺陷检测方法及装置
CN111382654B (zh) 图像处理方法和装置以及存储介质
CN116486038A (zh) 一种三维构建网络训练方法、三维模型生成方法以及装置
CN113592777B (zh) 双摄拍照的图像融合方法、装置和电子***
CN109784315B (zh) 3d障碍物的跟踪检测方法、装置、***及计算机存储介质
CN112016495A (zh) 人脸识别的方法、装置和电子设备
Genovese et al. Driver attention assistance by pedestrian/cyclist distance estimation from a single RGB image: A CNN-based semantic segmentation approach
Ikehata et al. Confidence-based refinement of corrupted depth maps
CN112132077A (zh) 一种基于神经网络的人脸活体验证方法、***及电子设备
KR20220013882A (ko) 멀티 위상 검출 센서를 이용한 라이브니스 검사 방법 및 장치
CN117928540A (zh) 机器人的定位方法、定位装置、机器人以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination