CN108399633A

CN108399633A - 用于立体视觉的方法和装置

Info

Publication number: CN108399633A
Application number: CN201711037329.5A
Authority: CN
Inventors: Y·沃尔夫; G·戈伦; E·威茨拉宾; G·吉拉德
Original assignee: Rob Team Home Co Ltd
Current assignee: Rob Team Home Co Ltd
Priority date: 2017-02-06
Filing date: 2017-10-30
Publication date: 2018-08-14
Also published as: US20180227564A1; EP3358846A1; US10567732B2

Abstract

立体视觉装置、方法和机器人，所述立体视觉装置包括：第一图像捕获装置和第二图像捕获装置，被配置为通过被配置为在多个方向上发射NIR光的光源来捕获在所述装置的环境中形成的光图案，第一图像捕获装置和第二图像捕获装置中的每一个包括被配置为透射至少75％的NIR光并且透射至多50％的可见光的滤光器；以及处理器，被配置为：根据由所述第一图像捕获装置捕获的第一图像和由所述第二图像捕获装置捕获的第二图像，使用在第一图像和第二图像中捕获的光图案，确定所述环境的深度信息；并且使用第一个图像和第二个图像确定环境的颜色信息。

Description

用于立体视觉的方法和装置

技术领域

本发明涉及立体视觉装置领域。

背景技术

在多种应用中需要并使用立体视觉，包括但不限于在其中自动导航机器人的环境中确定三维信息。该任务在室内或其中机器人被处于距机器人不同且变化的距离处的多个静态或动态对象围绕的环境中特别复杂。

为了获得环境的三维信息，一些***使用其视场(FOV)具有部分或全部重叠的一对照相机。可以通过配准两个图像来获得深度信息，包括识别出现在两个图像中的一个或多个对象或位置，以及从它们各自的位置、大小、方位或其他参数推导深度信息。

然而，这些***需要存在这样可比较的对象或位置。例如，如果照相机瞄准空白表面，则不能识别这样的对象，并且不能配准图像。

为了克服这个缺陷，一些解决方案涉及在近红外(NIR)波长范围内投射多个，例如十到几万个光点。

这些点可以随机地分布，从而创建可以在由两个照相机捕获的两个图像中匹配的图案，从而即使在没有现有特征的情况下也能够进行配准。

然而，该解决方案存在缺陷，并且不能总是用于获得足够用于在环境内导航的信息。

发明概述

结合旨在是示例性和说明性的而不是限制范围的***、工具和方法描述和示出了以下实施方案和方面。

根据实施方案，提供了一种立体视觉装置，包括：第一图像捕获装置和第二图像捕获装置，其被配置为通过被配置为在多个方向上发射近红外(NIR)光的光源捕获在装置的环境中形成的光图案，第一图像捕获装置和第二图像捕获装置中的每一个包括被配置为透射至少75％的NIR光并且透射最多50％的可见光的滤光器；以及处理器，其被配置为：根据由所述第一图像捕获装置捕获的第一图像和由所述第二图像捕获装置捕获的第二图像，使用在所述第一图像和所述第二图像中捕获的光图案，确定所述环境的深度信息；并且使用第一个图像和第二个图像确定环境的颜色信息。在装置内，滤光器可选地配置为透射至少85％的NIR光。在装置内，滤光器可选配置为透射最多40％的可见光。

根据另一实施方案，提供了一种用于获得环境的立体数据的方法，包括：在多个方向上发射NIR光，从而在环境中形成光图案；获得由第一图像捕捉装置捕获的第一图像和由第二捕获装置捕获的第二图像，所述第一图像和第二图像描绘所述光图案的至少部分，其中所述第一图像捕获装置和所述第二图像图像捕获装置分别通过被配置为透射至少75％的NIR光并且透射最多50％的可见光的滤光器来捕获第一图像和第二图像；识别第一图像和第二图像中的光图案；根据光图案配准第一图像和第二图像；确定包括在光图案中的每个光点的深度信息；以及从第一图像和第二图像确定环境的颜色信息。在该方法中，滤光器可选地配置为透射至少85％的NIR光。在该方法中，滤光器可选地配置为透射最多40％的可见光。在该方法中，深度信息可选地通过比较在第一图像和第二图像中捕获的光图案中的点的位置来确定。

根据另一个实施方案，提供了一种机器人，其包括：被配置为在多个方向上发射NIR光的图案从而在机器人的环境中形成光图案的光源；第一图像捕获装置和第二图像捕获装置，每个包括被配置为透射至少75％的NIR光并且透射至多50％的可见光的滤光器，所述第一图像捕获装置和第二图像捕获装置被配置为捕获光图案的至少部分；以及处理器，其被配置为：根据由所述第一图像捕获装置捕获的第一图像和由所述第二图像捕获装置捕获的第二图像，使用第一图像和第二图像中捕获的光图案的至少部分，确定环境中的深度信息，并根据第一图像和第二图像确定至少一个对象的颜色信息；转向机构，用于根据至少一个对象改变所述机器人的位置；以及用于启动转向机构的电动机。在机器人内，滤光器配置为透射至少85％的NIR光。在机器人内，滤光器可选地配置为透射最多40％的可见光。在机器人中，深度信息可选地通过比较在第一图像中和第二图像中捕获的光图案中的点的位置来确定。

除了上述示例性方面和实施方案之外，通过参考附图并且通过研究以下详细描述，其他方面和实施方案将变得显而易见。

附图说明

示例性实施方案在参考的图中示出。通常选择附图中所示的部件和特征的尺寸以便呈现的方便和清楚，并且不一定按比例显示。附图列出如下。

图1示出了根据本公开主题的实施例的用于不同波长的滤光器的实验波长透射率的示意性示例性说明；

图2示出了根据本公开主题的实施例的包括立体视觉装置的移动装置的示意图；

图3示出了根据本公开主题的实施例的使用光源和两个照相机的移动装置的功能框图；和

图4是根据本公开主题的实施例，通过使用光源和两个照相机的装置获得环境立体视觉而实施的操作的流程图。

发明详述

由所公开的主题处理的一个技术问题涉及对立体视觉的***和方法的需要。

由所公开的主题处理的另一个技术问题涉及用于在静态或移动对象被考虑，例如被跟踪、引导或避开的区域中进行导航的***和方法。

立体视觉和立体视觉导航通常通过捕获以稍微不同的角度拍摄的至少两个对应的图像，并且基于出现在两个图像中的特征或对象来配准图像来完成。

然而，在一些情况下，没有识别出用于配准两个图像的特征或者没有识别出足够的特征用于配准两个图像。为了克服这种情况，已知的技术包括在近红外(NIR)波长范围内的投射多个点或其他形状，例如十到几万甚至更多的点或其他形状。这些点可以由与衍射光学元件(DOE)组合的激光发射器以预定图案或任何随机图案投射。通过识别两个图像中的对应图案，可以配准图像。通过使用具有对NIR波长敏感的透镜的照相机，可以检测这些点，而不会干扰环境中的人类。然而，将这些点与它们的周围环境区分开是困难的，因为对象反射的颜色分量通常比NIR分量更为显著。为了克服这一点，通常将滤光器与这种照相机一起使用，滤光器过滤可见光范围并且仅通过NIR范围。然后，由于仍然需要获得颜色信息以便接收用于诸如跟踪、引导、避障之类的算法的关于环境的更多信息并且区分对象，可以向***添加第三照相机以对于每个由仅捕获NIR点的两个照相机识别的深度点捕获颜色信息。这种三照相机组合的实施例包括由加利福尼亚的圣塔克拉拉的因特尔公司提供的intel Realsense r200照相机。

这种方法具有许多缺点，例如：A.第三照相机的成本以及由于使用三个照相机而导致的装置尺寸的增加。B.深度照相机和彩色照相机之间的额外配准负担，这意味着三个***之间的配准。此外，这种配准需要在实时并且对于每个深度点进行。C.一些材料，例如某些织物吸收NIR波长范围，使得深度照相机不识别这些织物的对象或特征，并且不会为它们提供深度信息。另一方面，彩色照相机仅为由深度照相机识别的点提供颜色信息，因此也不会识别这些对象。例如，一个穿着这种织物的人不会被识别，并且关于该人在现场的存在的信息将不可用。

由本公开提供的一个技术方案是提供两照相机组，其中每个照相机配备有滤光器，其使全部或大部分的NIR光通过，并且阻止大部分(但不是全部)可见波长。例如，滤光器可以在400-650nm的范围内具有约10-40％的透射率，对于850nm附近的波长具有至少约85％的透射率，这可被一些激光源使用。本领域技术人员将理解，对于每个波长可以使用不同的透射，但是只要为NIR波长提供比对于可见光更高的透射率。

现在参考图1，示出了用根据本公开制造的示例性滤光器所获得的透射率的测量，其中波长为400-650nm的光的所需透射率被定义为20％，并且波长为约850nm的光的所需透射率被定义为90％。可以看出，有些波长有多个测量值。然而，对于超过约400nm和低于740nm的波长的所有测量值都低于40％，并且对于超过约450nm且低于约700的波长的所有测量值都低于约30％，因此从定义偏离高达约8％。因此，在实际滤光器上进行的示例性测量显示滤光器滤除大部分可见光，并透过大部分NIR光。在以获得能够在环境中导航的方式识别对象的令人满意的结果情况下进行了示例性的测量。

应当理解，所示的测量仅是示例性的，并且可能发生透射度的变化，然而，NIR光的大部分被透射，并且可见颜色的大部分部分地但不完全地被阻挡，使得该颜色信息仍然可用。

具有如上所公开的具有滤光器的两个照相机的***提供了，投射的点图案是显著的，从而实现了两个照相机中的图案之间的配准以及深度信息的重建。深度信息可以包括例如在每个特定角度处找到最近对象的距离，从而对***附近的可用空间进行测绘。另一方面，颜色信息是可用的并且足以跟踪对象，包括吸收NIR辐射的对象，因此没有获得它们的深度信息。在一些实施方案中，例如导航机器人，不需要向人类显示所捕获的环境，因此除了区分和跟踪对象的能力之外，颜色质量不是特别重要。

现在参考图2，示出了包括根据所公开的立体视觉装置导航的立体视觉装置的诸如机器人的移动装置的图示，以及参考图3，示出了根据其功能框图。

总体上标示为200的移动装置包括可位于其底部204处的转向机构300(图2中未示出)，并且包括一个或多个车轮或一个或多个轴承，链条或任何其他移动机构。装置200还可以包括用于启动转向机构300的电动机304和用于根据所需运动向电动机304提供命令的电动机控制器308。

移动装置200还可以包括一个或多个立体视觉装置208，从而实现立体视觉。立体视觉装置208可以包括，光源309，例如发射NIR波长的光的激光发射器，第一照相机310和第二照相机311，每个照相机包括诸如上面结合图1描述的滤光器的滤光器。立体视觉装置208还可以包括下面与处理器324相关联地描述的处理器。

在一些实施方案中，立体视觉装置208可以例如以120RPM的速率旋转，使得每分钟可以捕获和分析装置周围的对象至少120次。

移动装置200还可以包括实用工具312，例如托盘或手柄，显示装置212等。

显示装置212可以将由照相机308和309捕获的环境的部分显示给用户或其他人，从而给出人类指导者领先或跟随用户的感觉。显示装置还可以显示警报，娱乐信息，所需的信息，例如要携带的物品，或任何其他信息。实用工具312还可以包括用于播放或流式传输声音的扬声器，篮子等。

移动装置200还可以包括一个或多个计算机存储装置316，用于存储可操作以使移动装置200执行与以下详细描述的方法的任何步骤或者与例如机器人的导航相关的任何其它步骤相关联的动作的数据或程序代码。存储装置316可以是持久的或易失性的。例如，存储装置316可以是闪存盘、随机存取存储器(RAM)、存储器芯片，诸如CD、DVD或激光盘的光存储装置；诸如磁带、硬盘、存储区域网络(SAN)、网络连接存储(NAS)或其它的磁存储装置；半导体存储装置，例如闪存装置，记忆棒等。

在所公开的主题的一些示例性实施方案中，移动装置200可以包括一个或多个输入/输出(I/O)装置320，其可以用于从移动装置200接收输入或向移动装置200提供输出，诸如接收命令，显示指令等。I/O装置320可以包括先前提及的构件，诸如显示器212、扬声器、麦克风、触摸屏或其它。

在一些示例性实施方案中，移动装置200可以包括一个或多个处理器324。每个处理器324可以是中央处理单元(CPU)、微处理器、电子电路、集成电路(IC)等。可替代地，处理器324可以被实现为针对特定处理器(例如数字信号处理器(DSP)或微控制器)编程或移植的固件，或者可以被实现为硬件或可配置硬件，例如现场可编程门阵列(FPGA)或专用集成电路(ASIC)。

在一些实施方案中，一个或多个处理器324可以远离移动装置200定位，使得一些或所有的计算是从装置远程执行的，并且结果经由通信信道被传送到移动装置200。

应当理解，处理器324可以被配置为根据在非暂时计算机可读存储介质(例如但不限于存储装置316)上实现的计算机可读指令来执行多个功能模块。这样的功能模块在下文中被称为包括在处理器中。

以下详细描述的部件可以被实现为例如由处理器324或另一个处理器执行的一组或多组相互关联的计算机指令。例如，与图像相关的或由立体视觉装置208捕获的部件可以由与立体视觉装置108相关联的处理器执行。部件可以被布置为以任何编程语言且在任何计算环境下编程的一个或多个可执行文件、动态库、静态库、方法、函数、服务等等。

处理器324可以包括图像配准模块328，用于接收由第一捕获装置309和第二捕获装置310捕获的两个图像，第一捕获装置309和第二捕获装置310两者都包括如上所述的滤光器。每个图像表示多个光点，并且可以通过匹配相应的光图案来确定图像之间的配准。应当理解，由于照相机相对于彼此处于恒定位置，不需要不间断的配准，而是可以在准备阶段，在特定时间，以一定间隔或在特定事件发生时执行配准。

处理器324可以包括深度信息检索模块332，用于检索在两个图像中识别的每个点的深度信息，从而产生深度信息。通过捕获装置周围的图像，可以对完整的环境进行测绘。

处理器324可以包括颜色信息检索模块336，用于基于颜色差异来检索颜色信息并区分对象。由深度信息检索模块332确定的深度信息以及由颜色信息检索模块236检索的颜色可以提供足够的数据用于导航，以便跟随或引导诸如人物的对象，避开诸如家具的对象，等等。应当理解，具有吸收IR波长的图案的对象仍然可以基于它们的颜色信息来区分，因为颜色检索不限于深度信息可用的点。

处理器324可以包括导航模块340，用于基于所收集的对象信息在环境内导航。

应当理解，使用立体视觉装置实现了与传统解决方案相比的多种优点。该装置包括两个照相机，因此节省了第三台照相机所需的附加成本和附加位置。通过两个照相机以相同透射率图捕获对象，不需要在以不同方式捕获对象的照相机之间进行配准。仅使用两个照相机意味着更高效的过程，因为仅需要一次配准，并且还避免由多个配准引起的误差累积。在一些实施方案中，可以离线执行配准，从而在持续的基础上节省计算资源。

由于照相机的颜色敏感性，甚至可以检测和跟踪由吸收NIR辐射的材料制成的对象，因为颜色识别和因此对象分离独立于深度信息，与仅对于通过NIR识别获得深度信息的点获得来获得颜色信息的传统***不同。因此，根据本公开的立体视觉装置避免了在环境描述中的差距。

现在参考图4，示出了根据本公开的一些实施方案的为获得环境的立体视觉而执行的操作的流程图。

在步骤400处，在NIR波长范围内的频率处的多个光点可以由装置的环境中的光源投射。

在步骤404，可以获得示出光点并由具有诸如上述公开的滤光器的滤光器的第一照相机捕获的第一图像。

在步骤408，可以获得示出光点并由具有诸如上述公开的滤光器的滤光器的第二照相机捕获的第二图像。

在步骤412，可以在第一图像和第二图像中识别NIR点。如果照相机没有可用的有效配准，则可以通过匹配由光点形成的相应图案来执行配准。应当理解，由于照相机彼此相对固定，因此不需要对每对图像执行配准，而只在设置改变时或根据特定需求时执行配准。

在步骤416，可以根据两个图像之间的每个点的位置的差异针对每个光点确定深度信息。

在步骤420，可以从图像获得颜色信息。虽然由于滤光器在可见光谱上的低和不均匀的透射率引起的变化使得图像中的颜色与人类用户看到的不同，颜色确实能够使对象之间进行区分，包括在一定程度上吸收NIR辐射的对象。该差异使得能够在每个这样的对象的区域的连续图像之间跟踪对象。

本发明可以是***、方法和/或计算机程序产品。计算机程序产品可以包括其上具有用于使处理器执行本发明的各个方面的计算机可读程序指令的计算机可读存储介质(或多个介质)。

计算机可读存储介质可以是可以保留和存储由指令执行装置使用的指令的有形装置。计算机可读存储介质可以是例如但不限于电子存储装置、磁存储装置、光学存储装置、电磁存储装置、半导体存储装置或上述的任何合适的组合。计算机可读存储介质的更具体实施例的非详尽列表包括以下：便携式计算机软盘，硬盘，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编程只读存储器(EPROM或闪存)，静态随机存取存储器(SRAM)，便携式光盘只读存储器(CD-ROM)，数字通用盘(DVD)，记忆棒，软盘，其中记录有指令的机械编码装置，以及前述的任何合适的组合。如本文所使用的，计算机可读存储介质不应被解释为暂时信号本身，例如无线电波或其它自由传播的电磁波，通过波导或其它传输介质传播的电磁波(例如，通过光纤电缆的光脉冲)或通过电线传输的电信号。相反，计算机可读存储介质是非瞬态(即非易失性)介质。

本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理装置或经由网络(例如，因特网，局域网，宽域网和/或无线网)下载到外部计算机或外部存储装置。网络可以包括铜传输电缆，光传输光纤，无线传输，路由器，防火墙，交换机，网关计算机和/或边缘服务器。每个计算/处理装置中的网络适配器卡或网络接口从网络接收计算机可读程序指令，并将计算机可读程序指令转发以存储在相应的计算/处理装置内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编器指令，指令集架构(ISA)指令，机器指令，机器相关指令，微代码，固件指令，状态设置数据或以一种或多种编程语言的任何组合编写的源代码或目标代码，编程语言包括诸如Java，Smalltalk，C++等的面向对象的编程语言，以及诸如“C”编程语言或类似编程语言的常规程序编程语言。计算机可读程序指令可以完全在用户的计算机上执行，部分地在用户的计算机上执行，作为独立的软件包执行，部分地在用户的计算机上且部分地在远程计算机上执行，或者完全在远程计算机或服务器上执行。在后一种场景中，远程计算机可以通过任何类型的网络连接到用户的计算机，包括局域网(LAN)或广域网(WAN)，或者可连接到外部计算机(例如，通过互联网，使用互联网服务提供商)。在一些实施方案中，包括例如可编程逻辑电路，现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息个性化电子电路来执行计算机可读程序指令，以便执行本发明的方面。

本文参考根据本发明的实施方案的方法、装置(***)和计算机程序产品的流程图和/或框图来描述本发明的各方面。应当理解，流程图和/或框图的每个块以及流程图和/或框图中的块的组合可以由计算机可读程序指令来实现。

可以将这些计算机可读程序指令提供给通用计算机、专用计算机或其他可编程数据处理设备的处理器以产生机器，使得经由计算机或其它可编程数据处理设备的处理器执行的指令创建用于实现流程图和/或框图的一个框或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中，计算机可读存储介质可引导计算机、可编程数据处理设备和/或其它装置以特定方式工作，使得其中存储指令的计算机可读存储介质包括制造品，制造品包括实现流程图和/或框图的一个框或多个框中指定的功能/动作的各方面的指令。

计算机可读程序指令还可以被加载到计算机、其他可编程数据处理设备或其他装置上，以使得在计算机、其他可编程设备或其他装置上执行一系列操作步骤以产生计算机实现的过程，使得在计算机、其他可编程设备或其他装置上执行的指令实现流程图和/或框图的一个框或多个框中指定的功能/动作。

附图中的流程图和框图示出了根据本发明的各种实施方案的***、方法和计算机程序产品的可能实现的架构、功能和操作。在这方面，流程图或框图中的每个框可以表示包括用于实现指定的逻辑功能的一个或多个可执行指令的指令模块、段或部分。在一些替代的实现方案中，框中记载的功能可能不以在附图中所示的顺序发生。例如，取决于所涉及的功能，连续示出的两个框实际上可以基本同时执行，或者有时可以以相反的顺序执行框。还将注意到，框图和/或流程图图示的各个框以及框图和/或流程图图示中的框的组合可以由执行指定的功能或动作或者执行专用硬件和计算机指令的组合的特殊目的的基于硬件的***来实现。

已经出于说明的目的呈现了本发明的各种实施方案的描述，但并不旨在穷举或限于所公开的实施方案。在不脱离所描述的实施方案的范围和精神的情况下，许多修改和变化对于本领域普通技术人员将是显而易见的。选择这里使用的术语是为了最好地解释实施方案的原理，实际应用或对市场中发现的技术的技术改进，或使得本领域普通技术人员能够理解本文公开的实施方案。

Claims

1.立体视觉装置，包括：

第一图像捕获装置和第二图像捕获装置，被配置为通过被配置为在多个方向上发射近红外(NIR)光的光源捕获在所述装置的环境中形成的光图案，所述第一图像捕获装置和所述第二图像捕获装置中的每一个均包括滤光器，所述滤光器被配置为透射至少75％的所述NIR光，并且透射至多50％的可见光；和

处理器，被配置为：

根据由所述第一图像捕获装置捕获的第一图像和由所述第二图像捕获装置捕获的第二图像，使用在所述第一图像和所述第二图像中捕获的所述光图案，确定所述环境的深度信息；并且

使用所述第一图像和所述第二图像确定所述环境的颜色信息。

2.根据权利要求1所述的装置，其中所述滤光器被配置为透射至少85％的所述NIR光。

3.根据权利要求1所述的装置，其中所述滤光器被配置为透射最多40％的可见光。

4.用于获得环境的立体数据的方法，包括：

在多个方向发射NIR光，从而在所述环境中形成光图案；

获得由第一图像捕获装置捕获的第一图像和由第二捕获装置捕获的第二图像，所述第一图像和第二图像描绘所述光图案的至少部分，

其中所述第一图像捕获装置和所述第二图像捕获装置中的每一个分别通过配置成透射至少75％的所述NIR光并且透射最多50％的可见光的滤光器捕获所述第一图像和所述第二图像；

识别所述第一图像和所述第二图像中的光图案；

根据所述光图案对所述第一图像和所述第二图像进行配准；

确定包括在所述光图案中的每个光点的深度信息；以及

从所述第一图像和所述第二图像确定所述环境的颜色信息。

5.根据权利要求4所述的方法，其中所述滤光器被配置为透射至少85％的所述NIR光。

6.根据权利要求4所述的方法，其中所述滤光器被配置为透射最多40％的可见光。

7.根据权利要求4所述的方法，其中，通过比较在所述第一图像和所述第二图像中捕获的所述光图案中的点的位置来确定所述深度信息。

8.机器人，包括：

光源，被配置为在多个方向上发射NIR光的图案，从而在所述机器人的环境中形成光图案；

第一图像捕获装置和第二图像捕获装置，每个包括被配置为透射至少75％的NIR光并且透射至多50％的可见光的滤光器，所述第一图像捕获装置和第二图像捕获装置被配置为捕获所述光图案的至少部分；和

处理器，被配置为：

根据由所述第一图像捕获装置捕获的第一图像和由所述第二图像捕获装置捕获的第二图像，使用所述第一图像和所述第二图像中捕获的所述光图案的所述至少部分，确定所述环境中的深度信息；并且

从所述第一图像和所述第二图像确定至少一个对象的颜色信息；

转向机构，用于根据至少一个对象改变所述机器人的位置；和

用于启动所述转向机构的电动机。

9.根据权利要求8所述的机器人，其中所述滤光器被配置为透射至少85％的所述NIR光。

10.根据权利要求8所述的机器人，其中所述滤光器被配置为透射最多40％的可见光。

11.根据权利要求8所述的机器人，其中，通过比较在所述第一图像和所述第二图像中捕获的光图案中的点的位置来确定所述深度信息。