CN114728417A

CN114728417A - 由远程操作员触发的机器人自主对象学习

Info

Publication number: CN114728417A
Application number: CN202080079918.3A
Authority: CN
Inventors: G.墨菲; P.莱格
Original assignee: X Development LLC
Current assignee: X Development LLC
Priority date: 2019-12-17
Filing date: 2020-11-10
Publication date: 2022-07-08
Anticipated expiration: 2040-11-10
Also published as: US11584004B2; WO2021126415A1; CN114728417B; US20230158668A1; CN118204972A; EP4045239A1; US20210178576A1

Abstract

一种方法，包括：由机器人设备的控制***从远程计算设备接收关于环境中的对象的数据，其中，数据至少包括位置数据和标识符数据。该方法还包括基于位置数据，使机器人设备的至少一个附肢移动通过预定的学习运动路径。该方法还包括当至少一个附肢移动通过预定的学习运动路径时，使一个或多个视觉传感器捕获多个图像，以用于与标识符数据潜在关联。该方法还包括向远程计算设备发送要在远程计算设备的显示界面上显示的多个捕获的图像。

Description

由远程操作员触发的机器人自主对象学习

对相关申请的交叉引用

本申请要求于2019年12月17日提交的第16/716,874号美国专利申请的优先权，其全部内容通过引用被合并于此。

背景技术

随着技术的进步，各种类型的机器人设备正在被创建用于执行可以帮助用户的各种功能。机器人设备可以用于涉及材料处理、运输、焊接、组装和分配等的应用。随着时间的推移，这些机器人***的操作方式变得更加智能、高效和直观。随着机器人***在现代生活的许多方面变得越来越普遍，希望机器人***是高效的。因此，对高效机器人***的需求有助于在致动器、运动、传感技术以及组件设计和组装方面开辟一个创新领域。

发明内容

示例实施例涉及一种用于机器人设备的对象识别训练方法。机器人设备可以配备具有用于捕获目标对象的图像的视觉传感器的可移动附肢。机器人设备可以配备具有用于移动目标对象的夹取器的可移动附肢，同时视觉传感器也捕获该对象的图像，或者取而代之。人类操作员可以通过远程计算设备向机器人设备发送关于目标对象的数据，以使得对象识别训练方法开始，并使得机器人设备移动附肢通过预定的学习运动路径。机器人设备可以在附肢移动通过预定的学习运动路径时用一个或多个视觉传感器捕获目标对象的图像。具有一个或多个视觉传感器的附肢可以移动通过预定的学习运动路径。具有夹取器的附肢可以用于拾取目标对象，并在一个或多个视觉传感器的视场下或替代地移动对象通过预定的学习运动路径。机器人设备可以将捕获的图像发送到远程计算设备，以显示给人类操作员。人类操作员可以验证包含目标对象的图像，并将验证的图像发送到机器人设备，以训练机器学习模型以用于未来的对象识别。

在一个实施例中，一种方法包括由机器人设备的控制***从远程计算设备接收关于环境中的对象的数据，其中，数据至少包括位置数据和标识符数据。该方法还包括，基于位置数据，使机器人设备的至少一个附肢移动通过预定的学习运动路径。该方法还包括，当至少一个附肢移动通过预定的学习运动路径时，使一个或多个视觉传感器捕获多个图像以用于与标识符数据潜在关联。该方法还包括向远程计算设备发送要在远程计算设备的显示界面上显示的多个捕获的图像。

在另一实施例中，机器人设备包括至少一个附肢、一个或多个视觉传感器以及控制***。控制***可以被配置为从远程计算设备接收关于环境中的对象的数据，其中，数据至少包括位置数据和标识符数据。控制***还可以被配置为基于位置数据，使机器人设备的至少一个附肢移动通过预定的学习运动路径。控制***还可以被配置为当至少一个附肢移动通过预定的学习运动路径时，使一个或多个视觉传感器捕获多个图像以用于与所述标识符数据潜在关联。控制***还可以被配置为向远程计算设备发送要在远程计算设备的显示界面上显示的多个捕获的图像。

在另一实施例中，提供了一种非暂时性计算机可读介质，其包括可由至少一个处理器执行以使该至少一个处理器执行功能的编程指令。该功能包括由机器人设备的控制***从远程计算设备接收关于环境中的对象的数据，其中，数据至少包括位置数据和标识符数据。该功能还包括，基于位置数据，使机器人设备的至少一个附肢移动通过预定的学习运动路径。功能还包括，当至少一个附肢移动通过预定的学习运动路径时，使一个或多个视觉传感器捕获多个图像用于与标识符数据潜在关联。该功能还包括向远程计算设备发送要在远程计算设备的显示界面上显示的多个捕获的图像。

在另一实施例中，提供了一种***，该***包括用于由机器人设备的控制***从远程计算设备接收关于环境中的对象的数据的装置，其中，数据至少包括位置数据和标识符数据。该***还包括用于基于位置数据使机器人设备的至少一个附肢移动通过预定学习运动路径的装置。该***还包括用于在至少一个附肢移动通过预定学习运动路径时，使一个或多个视觉传感器捕获多个图像用于与标识符数据潜在关联的装置。该***还包括用于向远程计算设备发送要在远程计算设备的显示界面上显示的多个捕获图像的装置。

在另一实施例中，一种方法包括从用户界面接收关于机器人设备的环境中的对象的数据，其中，数据至少包括位置数据和标识符数据。该方法还包括向机器人设备发送数据，以使机器人设备的至少一个附肢在捕获图像的同时移动通过预定的学习运动路径。该方法还包括在向机器人设备发送数据之后，接收由机器人设备捕获的多个图像。该方法还包括在用户界面上显示多个图像。

在又一实施例中，提供了一种非暂时性计算机可读介质，其包括可由至少一个处理器执行以使该至少一个处理器执行功能的编程指令。该功能包括从用户界面接收关于机器人设备环境中的对象的数据，其中，数据至少包括位置数据和标识符数据。该功能还包括向机器人设备发送数据，以使机器人设备的至少一个附肢在捕获图像的同时移动通过预定的学习运动路径。该功能还包括在向机器人设备发送数据之后，接收由机器人设备捕获的多个图像。该功能还包括在用户界面上显示多个图像。

在另一实施例中，提供了一种***，该***包括用于从用户界面接收关于机器人设备的环境中的对象的数据的装置，其中，数据至少包括位置数据和标识符数据。该***还包括用于向机器人设备发送数据，以使机器人设备的至少一个附肢在捕获图像的同时移动通过预定的学习运动路径的装置。该***还包括在向机器人设备发送数据之后，接收由机器人设备捕获的多个图像。该***还包括在用户界面上显示多个图像。

前面的摘要仅仅是说明性的，并不旨在以任何方式进行限制。除了上述说明性的方面、实施例和特征之外，通过参考附图和以下详细描述以及附图，进一步的方面、实施例和特征将变得显而易见。

附图说明

图1图示了根据示例实施例的机器人***的配置。

图2图示了根据示例实施例的移动机器人。

图3图示了根据示例实施例的移动机器人的分解图。

图4图示了根据示例实施例的机器人臂。

图5是根据示例实施例的信息流图。

图6是根据示例实施例的感应对象的机器人的侧视图。

图7A是根据示例实施例的处于初始位置的机器人的俯视图。

图7B是根据示例实施例的处于最终位置的机器人的俯视图。

图7C是根据示例实施例的处于另一最终位置的机器人的俯视图。

图8A是根据示例实施例的具有捕获的图像的运动路径。

图8B是根据示例实施例的显示捕获的图像的用户界面。

图9是根据示例实施例的方法的块图。

图10是根据示例实施例的另一方法的块图。

具体实施方式

本文描述了示例方法、设备和***。应当理解，本文使用的词语“示例”和“示例性的”表示“用作示例、实例或说明”。本文描述为“示例”或“示例性”的任何实施例或特征不一定被解释为优于或比其他实施例或特征有优势，除非如此指明。在不脱离本文呈现的主题的范围的情况下，能够利用其他实施例，并且能够进行其他改变。

因此，本文描述的示例实施例不意味着是限制性的。将容易理解的是，如本文一般描述的和在附图中示出的，本公开的方面能够以多种不同的配置来布置、替换、组合、分离和设计。

在整个说明书中，冠词“一”用于介绍示例实施例的元件。任何对“一”或“一个”的引用都是指“至少一个”，任何对“该”的引用都是指“至少一个”，除非另有说明，或者除非上下文另有明确规定。在所描述的至少两个术语的列表中使用连词“或”的意图是指示任何所列术语或所列术语的任何组合。

诸如“第一”、“第二”、“第三”等序数的使用是为了区分相应元件，而不是表示这些元件的特定顺序。出于描述的目的，术语“多个”指的是“两个或更多”或“一个以上”

此外，除非上下文另有暗示，否则每个图中所示的特征可以彼此结合使用。因此，附图通常应被视为一个或多个总体实施例的组成方面，应理解并非所有示出的特征对于每个实施例都是必要的。在附图中，相似的符号通常标识相似的组件，除非上下文另有指示。此外，除非另有说明，附图不是按比例绘制的，仅用于说明目的。此外，附图仅是代表性的，并未示出所有组件。例如，附加的结构或约束构件可能没有显示。

此外，本说明书或权利要求中的元件、块或步骤的任何列举都是为了清楚的目的。因此，这种列举不应被解释为要求或暗示这些元件、块或步骤遵循特定的安排或以特定的顺序执行。

I.概览

为了使机器人能够自主并独立于人类控制，机器人可以学习识别对象和周围以进行导航和决策。这通常是通过让机器人通过诸如相机的视觉传感器接收视觉数据来实现的。然后，视觉数据由连接到机器人的处理器和/或计算***处理。处理能够包括对象识别、三维(3D)模型生成和/或环境映射。根据这些结果，机器人可以在周围环境中导航，并规划运动路径以控制附肢与对象进行交互。然而，如果传感器或处理未能正确地检测或识别对象或周围的一部分，则能够导致机器人难以在该环境中操作。例如，机器人可能与障碍物发生碰撞，或者无法正确抓取对象。

为了改善机器人操作，可以训练机器学习模型来处理视觉数据。常见的方法包括边缘检测和对象识别。然而，这些方法有时会失败。当相似颜色的对象重叠或对象半透明时，边缘检测可能会失败。如果对象是新的(例如，不在一组已知的标识标签中)或者没有检测到对象的边缘，则对象识别可能失败。允许机器人重复错误识别对象或试图抓住它不能完全看到的对象可以是低效的。

本文描述的方法和实施例能够用于帮助训练具有视觉传感器的机器人识别机器人不能用初始视觉感测识别的对象。所公开的方法可以涉及机器人和人类控制器之间的交互过程。机器人可以具有至少一个可移动附肢，该附肢具有至少一个附接的视觉传感器，该视觉传感器能够用来收集关于对象的附加传感器数据。机器人还可以具有至少一个可移动附肢，该附肢具有附接的夹取器，该夹取器也可以或替代地用于拾取和移动视觉传感器视场内的对象。

当使用机器学习模型来识别视觉数据中的对象以及预测的对象标识时，该模型可以输出置信度分数，置信度分数越高，该模型越确定预测的对象标识是正确的。基于从视觉传感器收集的视觉数据，机器人可能无法识别对象，或者返回具有低置信度分数的对象标识。然后，机器人可以提醒操作人员识别失败。然后，人类操作员可以检查警报和失败的识别，并确定是否让机器人开始进一步的学习过程以收集附加的数据。让人类操作员决定开始该过程而不是让机器人自动开始该过程可以节省机器人可能不必要花费的时间。

如果人类操作员决定触发进一步的学习过程，操作员能够发送机器人不能成功识别的对象的标识符数据，以便附加数据能够与具有高置信度的正确对象相关联。例如，标识符数据可以是与机器人控制***的对象识别机器学习模型兼容的标识符标签。由于机器人可能没有成功定位对象，操作者也能够向机器人发送未识别对象的位置数据。例如，位置数据可以是在从机器人的视觉传感器重建的机器人的二维环境视图上围绕对象绘制的二维边界框。作为另一示例，位置数据可以是对象在物理世界中所处的三维空间中的点。数据可以从具有用户界面的计算设备被创建和发送。用户界面可以允许人类操作员查看机器人的二维环境视图，并基于该视图提供位置数据。用户界面还可以让操作员访问对象识别库，以便操作员可以提供与库一致的标识符数据。计算设备可以与机器人处于相同的环境中，或者计算设备可以位于远离机器人的位置。数据可以通过无线和/或有线通信从计算设备发送到机器人的控制***。一旦机器人接收到数据，它就能够启动学习动作程序。

基于机器人从计算设备接收的数据，机器人能够将具有视觉传感器的至少一个附肢——诸如机器人的头部——移动到学习运动过程的运动路径的开始位置。该开始位置可以是具有视觉传感器的附肢被定位的位置，使得基于来自操作者的位置数据，未识别的对象预期位于视觉传感器的视场的中心。在进一步的示例中，开始位置也可以是具有夹取器的附肢夹取对象并在视觉传感器的视场中保持该对象的位置。在到达开始位置之后，该附肢可以开始在运动路径上移动，同时收集视觉数据。运动路径可以是在运行时间之前编程到机器人控制***中的预定运动路径。运动路径也可以从多个不同的预定运动路径中选择。该变化可以取决于对象的尺寸、对象的位置和/或执行运动路径的附肢。如果机器人有一个以上的可移动附肢，多个附肢可以各自执行一个运动路径来收集视觉数据。此外，如果多个附肢正在执行运动路径，则它们可以执行不同的运动路径。

捕获的视觉数据可以包括由相机拍摄的照片或由机器人的视觉传感器收集的其他数据。视觉数据可以被定向为包括未识别的对象，但是不是所有的数据都可以包含该对象，因为机器人可能没有精确的对象位置信息。运动路径可以引导视觉传感器捕获附加数据，这些数据将有助于在将来更准确地识别对象及其边缘。例如，运动路径可以从位于视觉传感器视场中心的对象开始，然后以视觉传感器视场之外的对象结束。对象的附加捕获图像可以允许更精确地检测对象的边缘。在一些示例中，运动路径可以是螺旋运动:从视觉传感器视场中的中心对象开始，然后以扩展的圆周运动移动，收集视觉数据，直到运动路径完成。一旦运动路径已经结束，视觉数据可以与来自操作者的对象标识数据相关联或被标记。

在一些示例中，收集的视觉数据可以被发送到计算设备，诸如人类操作员用来触发进一步学习过程的计算设备。对象标识数据或标签可用于将视觉数据添加到对象识别库的训练数据中。为了增加与标识标签相关联的视觉数据的准确性，可以在计算设备上为人类操作员提供用户界面，该用户界面允许操作员在图像数据被添加到训练数据之前验证该图像数据包含该对象。例如，如果机器人在执行运动路径时使用相机来拍摄对象的照片，然后将标记有标识数据的图像发送到具有用户界面的远程计算机，人类操作员可以浏览图像并确认每个图像包含对象和/或移除不包含对象的图像。然后，添加到对象识别库的训练数据中的视觉数据可以被用于训练机器人控制***或其他视觉传感器的对象识别方法，以用于将来的对象识别。以这种方式，在人类操作员的帮助下生成的训练数据可以提高机器人将来对类似对象的自动识别。

II.示例机器人***

图1图示了可以结合本文描述的实施方式使用的机器人***的示例配置。机器人***100可以被配置为自主地、半自主地或者使用用户提供的指示来操作。机器人***100可以以各种形式实现，诸如机器人臂、工业机器人或一些其他布置。一些示例实现涉及机器人***100，该机器人***100被工程设计为在规模上是低成本的，并且被设计为支持各种任务。机器人***100可以被设计为能够在人周围操作。机器人***100也可以针对机器学习进行优化。在整个说明书中，机器人***100也可以被称为机器人、机器人设备或移动机器人，以及其他名称。

如图1所示，机器人***100可以包括处理器102、数据贮存器104和控制器108，它们一起可以是控制***118的一部分。机器人***100还可以包括传感器112、电源114、机械组件110和电气组件116。尽管如此，机器人***100是为了说明的目的而示出的，并且可以包括更多或更少的组件。机器人***100的各种组件可以以任何方式连接，包括有线或无线连接。此外，在一些示例中，机器人***100的组件可以分布在多个物理实体中，而不是单个物理实体中。机器人***100的其他示例图示也可以存在。

处理器102可以作为一个或多个通用硬件处理器或专用硬件处理器(例如，数字信号处理器、专用集成电路等)操作。处理器102可以被配置为执行计算机可读程序指令106，并操纵数据107，指令和数据两者都存储在数据贮存器104中。处理器102还可以直接或间接地与机器人***100的其他组件(诸如传感器112、电源114、机械组件11()0或电气组件116)交互。

数据贮存器104可以是一种或多种类型的硬件存储器。例如，数据贮存器104可以包括或采取一个或多个计算机可读存储介质的形式，其可以由处理器102读取或访问。一个或多个计算机可读存储介质可以包括易失性或非易失性存储组件，诸如光、磁、有机或另一类型的存储器或贮存器，它们可以整体或部分地与处理器102集成。在一些实施方式中，数据贮存器104可以是单个物理设备。在其他实施方式中，数据贮存器104可以使用两个或更多物理设备来实现，这些物理设备可以经由有线或无线通信彼此通信。如前所述，数据贮存器104可以包括计算机可读程序指令106和数据107。数据107可以是任何类型的数据，诸如配置数据、传感器数据或诊断数据等。

控制器108可以包括一个或多个电路、数字逻辑单元、计算机芯片或微处理器，其被配置为(可能在其他任务中)在机械组件110、传感器112、电源114、电气组件116、控制***118或机器人***100的用户的任何组合之间进行交互。在一些实施方式中，控制器108可以是专门构建的嵌入式设备，用于利用机器人***100的一个或多个子***执行特定操作。

控制***118可以监控并物理改变机器人***100的操作条件。这样，控制***118可以用作机器人***100的各部分之间的链接，诸如机械组件110或电气组件116之间的链接。在一些情况下，控制***118可以用作机器人***100和另一计算设备之间的接口。此外，控制***118可以用作机器人***100和用户之间的接口。在一些情况下，控制***118可以包括用于与机器人***100通信的各种组件，包括操纵杆、按钮或端口等。上面提到的示例接口和通信可以通过有线或无线连接或者两者来实现。控制***118也可以为机器人***100执行其他操作。

在操作期间，控制***118可以经由有线或无线连接与机器人***100的其他***通信，并且还可以被配置为与机器人的一个或多个用户通信。作为一个可能的示例，控制***118可以接收(例如，来自用户或来自另一机器人的)输入，该输入指示执行所请求的任务的指令，诸如从一个位置拾取对象并将其移动到另一位置。基于该输入，控制***118可以执行操作以使机器人***100进行一系列运动来执行所请求的任务。作为另一示例，控制***可以接收指示移动到请求位置的指令的输入。作为响应，控制***118(可能在其他组件或***的帮助下)可以确定移动机器人***100通过环境到达所请求位置的方向和速度。

控制***118可以被配置为使用一个或多个机器学习模型。机器学习模型是被训练为基于诸如环境的图像数据的输入数据生成与机器人操作相关的输出的软件组件。作为示例，机器学习模型可以被训练以执行对象识别分析，诸如识别机器人环境的图像中的对象类型。在一些示例中，机器学习模型可以是在至少一个输入节点和至少一个输出节点之间包括一层或多层的人工神经网络(ANN)。在本公开的情境中也可以使用其他类型的机器学习模型。

控制***118的操作可以由处理器102执行。替代地，这些操作可以由控制器108或者处理器102和控制器108的组合来执行。在一些实施方式中，控制***118可以部分或全部位于机器人***100之外的设备上，并且因此可以至少部分地远程控制机器人***100。

机械组件110表示机器人***100的硬件，其可以使机器人***100能够执行物理操作。作为几个示例，机器人***100可以包括一个或多个物理构件，诸如臂、末端执行器、头部、颈部、躯干、基座和轮子。机器人***100的物理构件或其他部分还可以包括被布置为相对于彼此移动物理构件的致动器。机器人***100还可以包括用于容纳控制***118或其他组件的一个或多个结构化主体，并且还可以包括其他类型的机械组件。给定机器人中使用的特定机械组件110可以基于机器人的设计而变化，也可以基于机器人可以被配置为执行的操作或任务而变化。

在一些示例中，机械组件110可以包括一个或多个可移除组件。机器人***100可以被配置为添加或移除这样的可移除组件，这可以涉及来自用户或另一机器人的帮助。例如，机器人***100可以配置有可移除的末端执行器或手指，其能够根据需要或期望被替换或改变。在一些实施方式中，机器人***100可以包括一个或多个可移除或可替换的电池单元、控制***、电源***、缓冲器或传感器。在一些实施方式中，可以包括其他类型的可移除组件。

机器人***100可以包括被布置为感测机器人***100的各方面的传感器112。传感器112可以包括一个或多个力传感器、扭矩传感器、速度传感器、加速度传感器、位置传感器、接近传感器、运动传感器、定位传感器、负载传感器、温度传感器、触摸传感器、深度传感器、超声波范围传感器、红外传感器、对象传感器或相机以及其他可能性。在一些示例中，机器人***100可以被配置为从物理上与机器人分离的传感器(例如，位于其他机器人上或者位于机器人操作的环境内的传感器)接收传感器数据。

传感器112可以向处理器102提供传感器数据(可能通过数据107)，以允许机器人***100与其环境交互，以及监控机器人***100的操作。传感器数据可以用于控制***118对机械组件110和电气组件116的激活、移动和去激活的各种因素的评估。例如，传感器112可以捕获与环境的地形或附近对象的位置相对应的数据，这可以有助于环境识别和导航。

在一些示例中，传感器112可以包括RADAR(例如，用于长距离对象检测、距离确定或速度确定)、LIDAR(例如，用于短距离对象检测、距离确定或速度确定)、SONAR(例如，用于水下对象检测、距离确定或速度确定)、

(例如，用于运动捕获)、一个或多个相机(例如，用于3D视觉的立体相机)、全球定位***(GPS)收发器或用于捕获在其中机器人***100正在操作的环境的信息的其他传感器。传感器112可以实时监控环境，并检测障碍物、地形要素、天气条件、温度或环境的其他方面。在另一示例中，传感器112可以捕获与目标或识别的对象的一个或多个特性相对应的数据，诸如对象的尺寸、形状、轮廓、结构或方向。

此外，机器人***100可以包括被配置为接收指示机器人***100的状态的信息的传感器112，包括可以监控机器人***100的各种组件的状态的传感器112。传感器112可以测量机器人***100的***的活动，并接收基于机器人***100的各种特征的操作的信息，诸如机器人***100的可延伸臂、末端执行器或其他机械或电气特征的操作。由传感器112提供的数据可以使控制***118能够确定操作中的错误，以及监控机器人***100的组件的整体操作。

例如，机器人***100可以使用力/扭矩传感器来测量机器人***100的各种组件上的负载。在一些实施方式中，机器人***100可以包括在臂或末端执行器上的一个或多个力/扭矩传感器，以测量移动臂或末端执行器的一个或多个构件的致动器上的负载。在一些示例中，机器人***100可以包括在手腕或末端执行器处或附近但是不在机器人臂的其他关节处或附近的力/扭矩传感器。在进一步的示例中，机器人***100可以使用一个或多个位置传感器来感测机器人***的致动器的位置。例如，这种位置传感器可以感测臂或末端执行器上的致动器的伸出、缩回、定位或旋转状态。

作为另一示例，传感器112可以包括一个或多个速度或加速度传感器。例如，传感器112可以包括惯性测量单元(IMU)。IMU可以感测世界坐标系中相对于重力矢量的速度和加速度。然后，基于机器人***100中IMU的位置和机器人***100的运动学，由IMU感测的速度和加速度可以被转换成机器人***100的速度和加速度。

机器人***100可以包括本文没有明确讨论的其他类型的传感器。附加地或替代地，机器人***可以使用特定的传感器用于本文没有列举的目的。

机器人***100还可以包括被配置为向机器人***100的各种组件供电的一个或多个电源114。在其他可能的动力***中，机器人***100可以包括液压***、电气***、电池或其他类型的动力***。作为示例说明，机器人***100可以包括被配置为向机器人***100的组件提供电荷的一个或多个电池。一些机械组件110或电气组件116可以各自连接到不同的电源、可以由相同的电源供电，或者由多个电源供电。

任何类型的电源都可以用于给机器人***100供电，诸如电力或汽油发动机。附加地或替代地，机器人***100可以包括液压***，该液压***被配置为使用流体动力向机械组件110提供动力。例如，机器人***100的组件可以基于通过液压***发送到各种液压马达和液压缸的液压流体进行操作。液压***可以通过管道、柔性软管或机器人***100的组件之间的其他链接以加压液压流体的方式传递液压动力。电源114可以使用各种类型的充电来充电，诸如到外部电源的有线连接、无线充电、燃烧或其他示例。

电气组件116可以包括能够处理、传输或提供电荷或电信号的各种机制。在可能的示例中，电气组件116可以包括电线、电路或无线通信发射器和接收器，以实现机器人***100的操作。电气组件116可以与机械组件110交互工作，以使机器人***100能够执行各种操作。例如，电气组件116可以被配置为从电源114向各种机械部件110提供动力。此外，机器人***100可以包括电动机。也可以存在电组件116的其他示例。

机器人***100可以包括主体，其可以连接到或容纳机器人***的附肢和组件。这样，主体的结构可以在示例中变化，并且可以进一步取决于给定机器人可能已经被设计来执行的特定操作。例如，被开发来搬运重负载的机器人可以具有宽的主体，从而能够放置负载。类似地，设计用于在狭窄空间操作的机器人可以具有相对较高、较窄的主体。此外，主体或其他组件可以使用各种类型的材料(诸如金属或塑料)开发。在其他示例中，机器人可以具有不同结构或由各种类型的材料制成的主体。

主体或其他组件可以包括或携带传感器112。这些传感器可以位于机器人***100上的不同位置，诸如主体、头部、颈部、基部、躯干、臂或末端执行器等。

机器人***100可以被配置为承载负载，诸如要运输的一类货物。在一些示例中，机器人***100可以将负载放入附接到机器人***100的箱柜或其他容器中。负载还可以表示机器人***100可以利用的外部电池或其他类型的电源(例如，太阳能电池板)。搬运负载表示机器人***100可以被配置的一个示例用途，但是机器人***100也可以被配置为执行其他操作。

如上所述，机器人***100可以包括各种类型的附肢、轮子、末端执行器、抓取装置等。在一些示例中，机器人***100可以包括具有轮子、踏板或一些其他运动形式的移动基座。此外，机器人***100可以包括机器人臂或一些其他形式的机器人操纵器。在移动基座的情况下，基座可以被认为是机械组件110中的一个，并且可以包括由一个或多个致动器驱动的轮子，除了主体的其余部分之外，轮子还允许机器人臂的移动。

图2图示了根据示例实施例的移动机器人。图3图示了根据示例实施例的移动机器人的分解图。更具体地，机器人200可以包括移动基座202、中间部分204、臂206、臂端***(EOAS)208、桅杆210、感知外壳212和感知套件214。机器人200还可以包括存储在移动基座202内的计算盒216。

移动基座202包括位于机器人200前端的两个驱动轮，以便为机器人200提供运动。移动基座202还包括附加的脚轮(未示出),以便于移动基座202在地面上的运动。移动基座202可以具有模块化架构，该架构允许计算盒216被容易地移除。计算盒216可以用作机器人200的可拆卸控制***(而不是机械集成的控制***)。在移除外壳之后，计算盒216可以被容易地移除和/或替换。移动基座202也可以被设计为允许附加的模块化。例如，移动基座202也可以被设计为使得电力***、电池和/或外部缓冲器都可以被容易地移除和/或替换。

中间部分204可以在移动基座202的前端附接到移动基座202。中间部分204包括固定到移动基座202的安装柱。中间部分204额外包括用于臂206的旋转关节。更具体地，中间部分204包括臂206的前两个自由度(肩部偏转J0关节和肩部俯仰J1关节)。安装柱和肩部偏转J0关节可以形成移动基座202前面的堆叠塔的一部分。安装柱和肩部偏转J0关节可以是同轴的。中间部分204的安装柱的长度可以被选择为臂206提供足够的高度，以在通常遇到的高度水平(例如，咖啡桌顶部和柜台顶部水平)执行操作任务。中间部分204的安装柱的长度也可以允许肩部俯仰J1关节在移动基座202上方旋转臂206，而不接触移动基座202。

当连接到中间部分204时，臂206可以是7DOF机器人臂。如所提到的，臂206的前两个DOF可以包括在中间部分204中。如图2和图3所示，剩余的五个DOF可以包括在臂206的独立部分中。臂206可以由塑料单片链接结构制成。在臂206内部可以容纳独立的致动器模块、本地电机驱动器和通孔电缆。

EOAS 208可以是臂206末端的末端执行器。EOAS 208可以允许机器人200操纵环境中的对象。如图2和图3所示，EOAS 208可以是夹取器，诸如欠驱动夹紧夹取器。夹取器可以包括一个或多个接触传感器，诸如力/扭矩传感器，和/或非接触传感器，诸如一个或多个相机，以便于对象检测和夹取器控制。EOAS 208也可以是不同类型的夹取器，诸如吸力夹取器，或者不同类型的工具，诸如钻头或刷子。EOAS 208也可以是可交换的，或者包括可交换的组件，诸如夹取器手指。

桅杆210可以是臂206的肩部偏转J0关节和感知外壳212之间的相对长、窄的组件。桅杆210可以是移动基座202前面的堆叠塔的一部分。桅杆210可以相对于移动基座202固定。桅杆210可以与中间部分204同轴。桅杆210的长度可以便于感知套件214感知由EOAS208操纵的对象。桅杆210可以具有这样的长度，使得当肩部俯仰J1关节垂直向上旋转时，臂206的二头肌的顶点近似与桅杆210的顶部对齐。然后桅杆210的长度可以足以防止当肩部俯仰J1关节垂直向上旋转时感知外壳212和臂206之间的碰撞。

如图2和图3所示，桅杆210可以包括被配置为收集关于环境的深度信息的3DLIDAR传感器。3D LIDAR传感器可以耦合到桅杆210的切开部分，并以向下的角度固定。可以针对定位、导航和前悬崖检测来优化激光雷达位置。

感知外壳212可以包括组成感知套件214的至少一个传感器。感知外壳212可以连接到平移/倾斜控制以允许感知外壳212的重新定向(例如，查看由EOAS 208操纵的对象)。感知外壳212可以是固定到移动基座202的堆叠塔的一部分。感知外壳212的后部可以与桅杆210同轴。

感知套件214可以包括被配置为收集表示机器人200的环境的传感器数据的传感器套件。感知套件214可以包括红外(IR)辅助的立体深度传感器。感知套件214可以额外包括广角红绿蓝(RGB)相机，用于人机交互和情境信息。感知套件214可以额外包括用于对象分类的高分辨率RGB相机。还可以包括围绕感知套件214的面部光环，用于改善人机交互和场景照明。在一些示例中，感知套件214还可以包括被配置为将图像和/或视频投影到环境中的投影仪。

图4图示了根据示例实施例的机器人臂。机器人臂包括7个自由度:肩部偏转J0关节、肩部俯仰J1关节、二头肌滚动J2关节、肘部俯仰J3关节、前臂滚动J4关节、手腕俯仰J5关节和手腕滚动J6关节。每个关节可以耦合到一个或多个致动器。耦合到关节的致动器可操作以使连杆沿着运动链(以及连接到机器人臂的任何末端执行器)运动。

肩部偏航J0关节允许机器人臂向机器人的前方以及向机器人的后方旋转。这种运动的一个益处是允许机器人拾取器人前面的对象，并快速将该对象放置在机器人的后部(以及反向运动)。这种运动的另一个益处是将机器人臂从机器人后面的装载配置快速移动到机器人前面的活动位置(以及反向运动)。

肩部俯仰J1关节允许机器人提升机器人臂(例如，使得二头肌达到机器人的感知套件水平)和降低机器人臂(例如，使得二头肌刚好在移动基座上方)。这种运动有利于允许机器人在环境中的不同目标高度水平有效地执行操纵操作(例如，顶部抓握和侧部抓握)。例如，肩部俯仰J1关节可以旋转到垂直向上的位置，以允许机器人容易地操纵环境中桌子上的对象。肩部俯仰J1关节可以旋转到垂直向下的位置，以允许机器人容易地操纵环境中地面上的对象。

二头肌滚动J2关节允许机器人旋转二头肌，以相对于二头肌移动肘部和前臂。这种运动可以特别有利于机器人的感知套件清晰地观察EOAS。通过旋转二头肌滚动J2关节，机器人可以踢出肘部和前臂，以改善对机器人夹取器中夹取的对象的视线。

沿着运动链向下移动，交替的俯仰和滚动关节(肩部俯仰J1关节、二头肌滚动J2关节、肘部俯仰J3关节、前臂滚动J4关节、手腕俯仰J5关节和手腕滚动J6关节)被提供来提高机器人臂的可操作性。手腕俯仰J5关节、手腕滚动J6关节和前臂滚动J4关节的轴相交，以减少臂运动来重新定向对象。提供腕部滚动J6点来代替腕部中的两个俯仰关节，以便改善对象旋转。

在一些示例中，诸如图4所图示的机器人臂能够在教导模式下操作。特别地，教导模式可以是机器人臂的操作模式，其允许用户与机器人臂进行物理交互并引导机器人臂执行并记录各种运动。在教导模式下，基于旨在教导机器人如何执行特定任务的教导输入，将外力(例如，由用户)施加到机器人臂。机器人臂因此可以基于来自用户的指令和指导获得关于如何执行特定任务的数据。这种数据可以涉及机械组件的多种配置、关节位置数据、速度数据、加速度数据、扭矩数据、力数据和功率数据，以及其他可能性。

在教导模式期间，在一些示例中，用户可以抓握EOAS或手腕，或者在其他示例中，抓握机器人臂的任何部分，并且通过物理移动机器人臂来提供外力。特别地，用户可以引导机器人臂抓取对象，然后将对象从第一位置移动到第二位置。当用户在教导模式期间引导机器人臂时，机器人可以获得并记录与移动相关的数据，使得机器人臂可以被配置为在独立操作期间的未来时间独立执行任务(例如，当机器人臂在教导模式之外独立操作时)。在一些示例中，外力也可以由物理工作空间中的其他实体施加，诸如由其他对象、机器或机器人***以及其他可能性施加。

图5是根据示例实施例的信息流图。更具体地，图5图示了可以由机器人控制器和远程计算设备利用的示例流水线500，机器人控制器可以类似于机器人***100的控制***118，以便进行关于对象的进一步视觉数据收集。在一些示例中，机器人设备可以是参考图1-图4图示和描述的机器人设备，一个或多个视觉传感器和/或一个或多个夹取器安装在机器人设备的一个或多个附肢上。流水线500也可以由具有不同形状因数的机器人设备使用。在进一步的示例中，可以省略或组合一个或多个块，和/或可以添加一个或多个附加块。

块560表示机器人设备的机器人控制器。由块560表示的机器人控制器可以类似于机器人***100的控制***118。机器人设备可以处于包括一个或多个对象的环境中。在一些示例中，机器人设备可以处于包含至少一个未识别对象的环境中。

块550表示可以远离包含由块560表示的机器人控制器的机器人设备的计算设备。由块550表示的远程计算设备可以具有人类操作员可以用来输入信息的用户界面。由块550表示的远程计算设备可以通过无线和/或有线连接与由块560表示的机器人控制器通信耦合。

块510包括由机器人设备确定的世界状态信息。世界状态信息可以包括机器人设备所处的环境中的对象的位置信息。世界状态信息还可以包括环境中对象的标识信息。世界状态信息还可以包括机器人和机器人的任何附肢的姿态。世界状态信息还可以包括关于环境和/或环境中的对象的其他类型的信息。

块520包括关于与机器人控制器560相关联的机器人设备的环境中的对象的位置和标识符数据。世界状态信息可以显示在远程计算设备550的用户界面上。所显示的世界状态信息可以包括从机器人的视觉传感器重建的机器人的二维环境视图。位置和标识符数据两者都可以由操作员通过用户界面输入到远程计算设备550。位置数据可以包括围绕机器人的二维环境视图上的对象绘制的二维边界框。作为另一示例，位置数据可以是对象在物理世界中所处的三维空间中的点。标识符数据可以是与机器人控制器560的对象识别机器学习模型兼容的标识符标签。

块530包括捕获的图像。当机器人控制附肢移动通过预定的学习运动路径时，多个捕获的图像可以由与机器人控制器相关联的机器人设备的一个或多个视觉传感器捕获。可以控制机器人以响应于从远程计算设备接收到对象位置和标识信息而移动附肢通过预定的学习运动路径，如块520所示。与位置和标识符数据520相关联的对象可以出现在一些或所有图像中。多个捕获的图像可以一起发送到远程计算设备550。替换地，多个捕获的图像可以在它们被一个或多个视觉传感器捕获时被单独发送到远程计算设备550。

块540包括一个或多个经验证的图像。通过确认与位置和标识符数据520相关联的对象存在于图像中，人类操作员可以通过远程计算设备550的用户界面来验证多个捕获图像中的每个图像。一个或多个经验证的图像540可以被发送到机器人控制器560。一个或多个经验证的图像540可以用于训练机器人控制器560的对象识别机器学习模型。

在一些实施例中，数据可以通过无线通信连接在远程计算设备550和机器人控制器560之间传送。在其他实施例中，数据可以经由有线通信连接在远程计算设备550和机器人控制器560之间流动。

图6是根据示例实施例的用一个或多个视觉传感器感测对象的机器人的侧视图。更具体地，机器人602包括移动基座604、机器人臂606和视觉传感器608。机器人602可以与参照图1-图4图示和描述的机器人相同或相似，并且机器人602可以包括头戴式视觉传感器608。机器人臂606可以包括与机器人200的夹取器208相同或相似的夹取器。机器人602可以使用一个或多个视觉传感器来确定世界状态信息。世界状态信息可以包括关于机器人602的环境中的一个或多个对象的视觉信息，诸如对象612和614。机器人602可以尝试识别诸如对象612和614的对象，以便理解对象的几何形状和/或其他属性。在一些示例中，可以使用经过训练的机器学习模型来执行对象识别。对象识别可以输出对象标识标签和置信度分数。置信度得分可以是数值，机器学习模型越确定对象识别是正确的，该数值就越大。

在一些示例中，机器人602能够用视觉传感器608检测对象612。机器人602可以尝试识别对象612(例如，咖啡杯)。对象识别结果可以被发送到远程计算设备以供人类操作员查看。人类操作员可以通过用户界面查看对象识别结果，以确认识别是正确的。在一些示例中，该识别可能是正确的，但是置信度得分可能较低。在其他示例中，对象识别可能失败，并且可以向远程计算设备发送通知。在任一示例中，操作人员可以查看不准确的识别，并且可以触发进一步的视觉数据收集方法。

在一些示例中，机器人602可能不能用视觉传感器608检测对象612。人类操作员可以通过远程计算设备的用户界面注意到检测失败。然后操作员可以触发进一步的视觉数据收集方法。在进一步的示例中，机器人602可以尝试用机器人臂606的夹取器抓取对象612，但是失败了，因为视觉传感器608不能准确地检测对象612的边缘。操作失败可以触发发送给人类操作员的警报以寻求帮助。然后人类操作员可以触发进一步的视觉数据收集方法。

图7A、图7B和图7C是根据示例实施例的在表面上有对象的环境中的机器人的俯视图。更具体地，机器人702具有视觉传感器704，该视觉传感器704具有附接到可移动附肢的视场708。对象706在与机器人702相同的环境中的表面710上。机器人702可以与参照图1-图4描述的机器人相同或相似。

图7A描绘了根据示例实施例的机器人和包含视觉传感器的附肢的可能的初始对准。更具体地，对象706在附接到机器人702的可移动附肢的视觉传感器704的视场708中。在一些实施例中，视觉传感器704和机器人的控制***能够检测对象706，并且可以尝试识别它。如果识别失败，机器人控制***可以向远程计算设备发送警报。人类操作员可以查看远程计算设备上的警报，并且可以发送关于对象706的位置和标识符数据，以便使机器人702在捕获图像以收集进一步的视觉数据的同时移动视觉传感器704通过预定的学习运动路径。在其他实施例中，尽管对象706在视场708中，视觉传感器704和机器人的控制***可能不能检测到对象706。人类操作员可以注意到失败的检测，并且可以发送关于对象706的位置和标识符数据，以便使机器人702在捕获图像以收集进一步的视觉数据的同时移动视觉传感器704通过预定的学习运动路径。

图7B描绘了根据示例实施例的机器人和包含视觉传感器的附肢的可能的最终对准。更具体地，机器人702的视觉传感器704被定位成使得对象706不在视觉传感器704的视场708中。在一些实施例中，当机器人正在执行预定的学习运动路径时，该预定的学习运动路径不被改变，并且机器人将在整个运动路径上用视觉传感器704捕获图像，而不管对象是否仍在视场708中。例如，如果预定的学习运动路径是从位于视场708中心的对象开始的螺旋，则视觉传感器704可以在类似于图7B的位置结束。

图7C描绘了机器人和包含视觉传感器的附肢的替代的可能的最终对准。更具体地，机器人702的视觉传感器704被定位成使得对象706在视觉传感器704的视场708中。在一些示例中，由视觉传感器704捕获的图像可以在被捕获时被单独发送到远程计算设备。在这样的示例中，多个图像中的一个或多个图像可以由人类操作员使用远程计算设备的用户界面来验证。当机器人702仍然控制视觉传感器704沿着预定的学习运动路径移动时，一个或多个经验证的图像可以被发送回机器人702的控制***。机器人702的控制***可以使用一个或多个经验证的图像来实时检测和/或跟踪对象706。然后控制***可以调整视觉传感器704的移动，以努力将对象706保持在视场708中，使得一个或多个随后捕获的图像将包含对象706。因此，在一些实施例中，在预定的学习运动路径的末端，视觉传感器704可以以类似于图7C的对准结束。

图8A是根据示例实施例的机器人可以遵循的示例预定的学习运动路径和可以收集的目标对象的示例视觉数据。在一些实施例中，人类操作员可以触发机器人进行进一步的视觉数据收集，然后机器人可以沿着运动路径800移动至少一个附肢。在一些实施例中，附肢可以包含一个或多个视觉传感器来进行进一步的视觉数据收集。在其他实施例中，一个或多个视觉传感器可以安装到机器人上，并且夹取器附接到附肢上，使得夹取器在沿着运动路径800移动时将目标对象保持在一个或多个视觉传感器的视场内。在一些示例中，机器人可以在沿着运动路径800移动时使用相机来捕获图像。在所示的示例中，图像802、804、806、808、810、812、814、816、818和820由相机捕获。运动路径800可以被编程以有效地捕获图像。例如，可以对运动路径800进行编程，使得捕获的每个图像包含新的视觉数据，以便避免捕获相同的图像。这可以通过将运动路径800编程为从开始点向外扩展来完成，诸如但不限于螺旋路径。在诸如所示的示例中，预定的学习运动路径自身不重叠。在一些实施例中，所收集的图像可以被发送到远程计算设备以在用户界面上显示。

图8B描绘了根据示例实施例的已被发送收集的视觉数据的远程计算设备的示例用户界面。在所图示的示例中，用户界面822显示收集的图像802、804、806、808、810、812、814、816、818和820。在进一步的实施例中，人类操作员可以验证哪些显示的图像包含目标对象，并输入验证值。在一些示例中，验证值可以是二进制值，其可以作为复选标记824输入到该示例用户界面中。在其他示例中，验证值可以是比例分数，其中分数基于图像中存在多少对象而增加或减少。

图9是根据示例实施例的方法的块图。在一些示例中，图9的方法900可以由控制***执行，诸如机器人***100的控制***118。在进一步的示例中，方法900可以由诸如处理器102的一个或多个处理器执行，执行存储在诸如数据存储装置104的数据存储装置中的程序指令，诸如程序指令106。方法900的执行可以涉及机器人设备，诸如参考图1-图4图示和描述的。其他机器人设备也可以用于方法900的执行。在进一步的示例中，方法900的一些或所有块可以由远离机器人设备的控制***来执行。在又一示例中，方法900的不同块可以由位于机器人设备上和/或远离机器人设备的不同控制***来执行。

在块910，方法900包括从远程计算设备接收关于环境中的对象的位置和标识符数据。更具体地，机器人设备的控制***可以接收关于环境中的对象的数据，其中，数据至少包括位置数据和标识符数据。数据可以由操作员通过远程计算设备的用户界面发送。在一些示例中，位置数据可以是围绕从机器人的视觉传感器重建的机器人的二维环境视图上的对象绘制的二维边界框。标识符数据可以是与机器人控制***的对象识别机器学习模型库兼容的标识符标签。

在块920，方法900包括使附肢移动通过预定的学习运动路径。更具体地，基于块910的位置数据，机器人设备的控制***可以使机器人设备的至少一个附肢移动通过预定的学习运动路径。该至少一个附肢可以包括一个或多个视觉传感器。该至少一个附肢可以包括夹取器。控制***可以使用对象的位置数据作为初始种子来排列机器人设备的附肢，使得对象在一个或多个视觉传感器的视场中。在一些示例中，附肢可以包括一个或多个视觉传感器。在其他示例中，附肢可以包括夹持对象的夹取器。机器人可以控制附肢移动通过预定的学习运动路径。在一些示例中，预定的学习运动路径可以是螺旋运动路径。在进一步的示例中，预定的学习运动路径可以从多个预定的学习运动路径中选择。预定的学习运动路径可以基于对象的尺寸和形状而变化。此外，预定的学习运动路径可以基于机器人设备的环境和周围环境而变化。在一些实施例中，机器人设备可以具有一个以上的附肢，并且可以控制这些附肢沿着不同的预定的学习运动路径移动。

在块930，方法900包括使视觉传感器捕获多个图像。更具体地，当至少一个附肢移动通过预定的学习运动路径时，一个或多个视觉传感器可以捕获多个图像，用于与标识符数据潜在关联。多个图像中的一些或全部可以包含与位置数据相关联的对象。在一些情况下，多个图像中的一个或多个可以不包含与位置数据相关联的对象。

在块940，方法900包括向远程计算设备发送多个捕获的图像。更具体地，机器人控制***可以发送多个捕获的图像以显示在远程计算机设备的显示界面上。在一些实施例中，一旦预定的学习运动路径已经完成，多个捕获的图像可以从机器人控制***被发送到远程计算设备。在其他实施例中，可以在收集每个图像时单独发送多个捕获的图像中的每个图像。

在一些示例中，对象可以在方法900的整个执行过程中保持静止，同时包括一个或多个视觉传感器的至少一个附肢移动通过预定的学习运动路径。在进一步的示例中，在方法900的整个执行过程中，一个或多个视觉传感器可以保持固定在机器人上，同时至少一个附肢用夹取器移动对象通过预定的学习运动路径。在又一示例中，方法900的执行可以涉及在仅移动一个或多个视觉传感器而对象保持固定的一个或多个阶段和仅移动对象而一个或多个视觉传感器保持固定的一个或多个阶段之间交替。在其他示例中，在方法900的执行期间，对象和视觉传感器两者可以由分离的附肢同步地同时移动。

在进一步的实施例中，在接收位置和标识数据之前，机器人设备可以最初尝试用一个或多个视觉传感器来识别对象。在一些实施例中，机器人设备可能错误地识别了对象。在其他实施例中，机器人设备可能没有准确地检测到对象。

在进一步的实施例中，多个收集的图像中的一个或多个可以在远程计算设备上被验证为包含与位置数据相关联的对象。在一些实施例中，在多个收集的图像中的所有图像已经经历验证过程之后，机器人控制***可以接收一个或多个经验证的图像。在其他实施例中，当通过验证过程验证多个收集的图像中的每一个时，机器人控制***可以单独接收一个或多个经验证的图像。

在进一步的示例中，机器人控制***可以在预定的学习运动路径完成之前接收经验证的图像，并且可以在训练机器学习模型中使用经验证的图像来识别和/或检测对象，并且可以调整预定的学习运动路径以使得随后捕获的图像包含对象。在进一步的示例中，机器人控制***可以调整预定的学习运动路径，以使得随后捕获的图像包含在一个或多个视觉传感器的帧的中心的对象。

在进一步的实施例中，一个或多个经验证的图像可以用于训练机器学习模型来识别对象。在进一步的示例中，在用一个或多个视觉传感器捕获一个或多个附加图像的同时，可以基于经训练的机器学习模型来控制机器人的附肢移动通过附加运动路径。在又一示例中，附加的一个或多个图像也可以被验证为包含对象。然后附加的一个或多个经验证的图像可以用于训练机器人设备的对象识别机器学习模型，用于未来的对象识别。

在进一步的实施例中，一个或多个经验证的图像可以用于训练机器人设备的对象识别机器学习模型，以供机器人设备和机器人控制***使用一个或多个视觉传感器进行未来的对象识别。在更进一步的实施例中，一个或多个经验证的图像可以用于训练由其他机器人设备和机器人控制***使用的对象识别机器学习模型。

图10是根据示例实施例的方法的块图。在一些示例中，图10的方法1000可以由远离机器人的计算设备来执行。在进一步的示例中，方法1000可以由一个或多个执行存储在数据存储器中的程序指令的处理器来执行。方法900的执行可以包括与机器人设备的通信，如参考图1-图4图示和描述。其他机器人设备也可以用于方法1000的执行。在进一步的示例中，方法1000的不同块可以由位于机器人设备上和/或远离机器人设备的不同控制***来执行。

在块1010，方法1000包括从用户界面接收关于机器人设备环境中的对象的位置和标识符数据。更具体地，远程计算设备可以从用户界面接收关于机器人设备环境中的对象的数据，其中，数据至少包括位置数据和标识符数据。数据可以由操作员通过远程计算设备的用户界面输入。在一些实施例中，位置数据可以是围绕从机器人设备的视觉传感器重新创建的机器人设备的二维环境视图上的对象绘制的二维边界框。在一些实施例中，标识符数据可以是与机器人设备的控制***的对象识别机器学习模型库兼容的标识符标签。

在块1020，方法1000包括向机器人设备发送关于对象的位置和标识符数据。更具体地，位置和标识符数据可以从远程计算设备发送到机器人设备，以使得机器人设备的至少一个附肢在捕获图像的同时移动通过预定的学习运动路径。在一些实施例中，数据可以通过无线通信连接发送。在其他实施例中，数据可以通过有线通信连接发送。

在块1030，方法1000包括从机器人设备接收多个图像。更具体地，在向机器人设备发送数据之后，远程计算设备可以接收由机器人设备捕获的多个图像。在一些实施例中，多个图像可以由移动通过预定的学习运动路径的机器人设备的一个或多个视觉传感器来捕获。在一些示例中，当多个图像中的每个图像由一个或多个视觉传感器收集时，可以单独接收每个图像。在一些示例中，可以一次接收多个图像。

在块1040，方法1000包括在用户界面上显示多个图像。在一些实施例中，一旦接收到多个图像，就可以在远程计算设备上显示它们。在一些示例中，可以单独接收多个图像，并且可以一次显示一个图像。在其他示例中，可以同时显示多个图像。

在进一步的实施例中，远程计算设备的用户界面可以提供允许人类操作员查看显示的图像并验证它们是否包含与位置数据相关联的对象的功能。更具体地，方法1000可以包括基于从用户界面接收的用户输入来验证多个捕获的图像中的一个或多个，其中对象存在于一个或多个验证的图像中。在一些示例中，该验证可以是二进制值，该二进制值指示图像中存在对象的至少一些部分或者图像中不存在对象的任何部分。在其他示例中，验证可以包括比例分数，其中分数基于图像中存在多少对象而增加或减少。在一些示例中，多个图像可以在它们被接收时被单独显示，并且人类操作员可以在它们被显示时单独验证它们。在一些示例中，当机器人设备在预定的学习运动路径中移动时，可以验证多个图像。在一些示例中，人类操作员可以确认标识符数据和一个或多个经验证的图像之间的关联。

在进一步的实施例中，一个或多个经验证的图像可以被发送到机器人设备。在一些示例中，一个或多个经验证的图像可以一次全部发送到机器人设备。在其他示例中，一个或多个经验证的图像可以被单独发送给机器人。在进一步的示例中，一个或多个经验证的图像可以在机器人设备已经完成预定的学习运动路径之前被发送到机器人设备。在一些示例中，机器人设备可以使用经验证的图像来训练一个或多个机器学习模型以用于未来的对象识别。在一些示例中，经验证的图像可用于训练一个或多个机器学习模型，该模型也由其他机器人设备使用或替代。

III.结论

本公开不限于本申请中描述的特定实施例，这些实施例旨在说明各个方面。对于本领域的技术人员来说，显而易见的是，在不脱离本发明的精神和范围的情况下，能够进行许多修改和变化。除了本文列举的方法和装置之外，对于本领域的技术人员来说，根据前面的描述，本发明范围内的功能等同的方法和装置是显而易见的。这种修改和变化旨在落入所附权利要求的范围内。

以上详细描述参考附图描述了所公开的***、设备和方法的各种特征和功能。在附图中，相似的符号通常标识相似的组件，除非上下文另有指示。本文和附图中描述的示例实施例并不意味着是限制性的。在不脱离本文呈现的主题的精神或范围的情况下，能够利用其他实施例，并且能够进行其他改变。将容易理解的是，如本文一般描述的和在附图中示出的，本公开的方面能够以多种不同的配置来布置、替换、组合、分离和设计，所有这些本文都是明确预期的。

表示信息处理的块可以与能够被配置为执行本文描述的方法或技术的特定逻辑功能的电路相对应。替代地或附加地，表示信息处理的块可以与程序代码的模块、片段或一部分(包括相关数据)相对应。程序代码可以包括可由处理器执行的一个或多个指令，用于实现方法或技术中的特定逻辑功能或动作。程序代码或相关数据可以存储在任何类型的计算机可读介质上，诸如包括磁盘或硬盘驱动器或其他存储介质的存储设备。

计算机可读介质还可以包括非暂时性计算机可读介质，诸如短期存储数据的计算机可读介质，如寄存器存储器、处理器高速缓存和随机存取存储器(RAM)。计算机可读介质还可以包括将程序代码或数据存储更长时间的非暂时性计算机可读介质，诸如辅存储器或永久性长期存储器，如只读存储器(ROM)、光盘或磁盘、光盘只读存储器(CD-ROM)。计算机可读介质也可以是任何其他易失性或非易失性存储***。例如，计算机可读介质可以被认为是计算机可读存储介质，或者有形存储设备。

此外，表示一个或多个信息传输的块可以与同一物理设备中的软件或硬件模块之间的信息传输相对应。然而，其他信息传输可以在不同物理设备中的软件模块或硬件模块之间进行。

附图中所示的特定布置不应被视为限制性的。应当理解，其他实施例能够包括更多或更少的给定附图中所示的每个元件。此外，一些示出的元件能够被组合或省略。此外，示例实施例能够包括图中未示出的元件。

虽然本文已经公开了各种方面和实施例，但是其他方面和实施例对于本领域技术人员来说将是显而易见的。本文公开的各种方面和实施例是为了说明的目的，而不是为了限制，真正的范围由所附权利要求指示。

Claims

1.一种方法，包括:

由机器人设备的控制***从远程计算设备接收关于环境中的对象的数据，其中，数据至少包括位置数据和标识符数据；

基于位置数据，使机器人设备的至少一个附肢移动通过预定的学习运动路径；

当至少一个附肢移动通过预定的学习运动路径时，使一个或多个视觉传感器捕获多个图像，以用于与标识符数据潜在关联；和

向远程计算设备发送要在远程计算设备的显示界面上显示的多个捕获的图像。

2.根据权利要求1所述的方法，其中，一个或多个视觉传感器位于机器人设备的至少一个附肢上。

3.根据权利要求1所述的方法，其中，至少一个附肢包括至少一个夹取器，所述夹取器在执行预定的学习运动路径之前拾取对象，使得至少一个附肢在一个或多个视觉传感器的视场中移动对象。

4.根据权利要求1所述的方法，进一步包括:

最初尝试用一个或多个视觉传感器识别环境中的对象而不移动至少一个附肢，其中，响应于对象的不充分的初始识别，使机器人设备的至少一个附肢移动通过预定的学习运动路径被执行。

5.根据权利要求1所述的方法，其中，位置数据包括二维(2D)边界框。

6.根据权利要求1所述的方法，其中，预定的学习运动路径从一个位置开始，在该位置中，一个或多个视觉传感器被预期最初将对象置于图像帧的中心。

7.根据权利要求1所述的方法，其中，预定的学习运动路径是螺旋运动路径。

8.根据权利要求1所述的方法，其中，预定的学习运动路径是从基于对象的尺寸而变化的多个运动路径中选择的。

9.根据权利要求1所述的方法，其中，至少一个附肢包括多个附肢，并且其中，多个附肢中的每个附肢执行不同的预定的学习运动路径。

10.根据权利要求1所述的方法，其中，当预定的学习运动路径已经完成时，多个捕获的图像被一起发送到远程计算设备。

11.如权利要求1所述的方法，其中，当用一个或多个视觉传感器捕获多个捕获的图像时，一次一个地将它们发送到远程计算设备。

12.根据权利要求1所述的方法，还包括：从远程计算设备接收多个捕获的图像中的一个或多个经验证的图像，其中，一个或多个经验证的图像被验证为包含所述对象。

13.根据权利要求12所述的方法，其中，在完成预定的学习运动路径之前接收一个或多个经验证的图像，其中，一旦接收到一个或多个经验证的图像，所述方法还包括:

使用一个或多个经验证的图像，训练机器学习模型来识别和检测对象；和

调整预定的学习运动路径以使随后捕获的图像包含所述对象。

14.根据权利要求13所述的方法，其中，调整预定的学习运动路径以使下一个捕获的图像包含位于帧中心的对象。

15.根据权利要求12所述的方法，其中，在接收到一个或多个经验证的图像之后，所述方法还包括:

使用一个或多个经验证的图像来训练机器学习模型以识别对象；

在用一个或多个视觉传感器捕获一个或多个附加图像的同时，基于经训练的机器学习模型使至少一个附肢移动通过附加运动路径；以及

验证附加的一个或多个图像包含所述对象。

16.根据权利要求12所述的方法，其中，一个或多个经验证的图像被用于由机器人设备使用一个或多个视觉传感器的未来的对象识别。

17.一种方法，包括:

从用户界面接收关于机器人设备的环境中的对象的数据，其中，数据至少包括位置数据和标识符数据；

将数据发送到机器人设备，以使机器人设备的至少一个附肢在捕获图像的同时移动通过预定的学习运动路径；

在向机器人设备发送数据之后，接收由机器人设备捕获的多个图像；以及

在用户界面上显示多个图像。

18.根据权利要求17所述的方法，其中，对象的标识符数据是多个预定义的标识符中的一个。

19.根据权利要求17所述的方法，进一步包括:

基于从用户界面接收的用户输入，验证多个捕获的图像中的一个或多个，其中，对象存在于一个或多个经验证的图像中；以及

将一个或多个经验证的图像发送到机器人设备。

20.一种机器人设备，包括:

至少一个附肢；

一个或多个视觉传感器；以及

控制***，被配置为:

从远程计算设备接收关于环境中的对象的数据，其中，数据至少包括位置数据和标识符数据；

当至少一个附肢移动通过预定的学习运动路径时，使一个或多个视觉传感器捕获多个图像以用于与标识符数据潜在关联；以及