CN113196291A

CN113196291A - 自动选择用于注释的数据样本

Info

Publication number: CN113196291A
Application number: CN202080007039.XA
Authority: CN
Inventors: H·凯撒
Original assignee: Motional AD LLC
Current assignee: Motional AD LLC
Priority date: 2019-01-23
Filing date: 2020-01-23
Publication date: 2021-07-30
Also published as: KR102593948B1; GB2589751B; WO2020152627A1; US11521010B2; US20200272854A1; KR20210112293A; GB202304340D0; DE112020000487T5; GB2589751A8; GB202020160D0; GB2589751A

Abstract

描述了用于自动选择用于注释的数据样本的技术等。该技术使用基于边界框得分分布的边界框预测、根据边界框大小和位置所确定的空间概率密度以及根据多个机器学习模型的输出所确定的整体得分方差来选择用于注释的数据样本。在实施例中，使用时间不一致性线索来选择用于注释的数据样本。在实施例中，使用数字地图约束或其它基于地图的数据来将数据样本排除于注释。在示例性应用中，使用注释的数据样本来训练输出自主运载工具应用的感知数据的机器学习模型。

Description

自动选择用于注释的数据样本

相关申请的交叉引用

本申请要求于2019年1月23日提交的美国临时申请62/796,064的权益。

技术领域

本说明书涉及机器学习，并且更具体地涉及使用主动学习技术来自动选择用于注释的数据样本。

背景技术

卷积神经网络(CNN)已经成功地用于自主驾驶应用中的感知任务。CNN结构包括通过训练数据而学习的层。学习对图像和视频样本进行分类需要人类注释员用标签对各数据样本进行标记。必须对成千上万的数据样本进行注释是乏味且冗余的。

发明内容

公开了一种用于从数据样本池中自动地选择数据样本(例如，图像、点云)以供人类进行注释的主动学习***和方法。该***和方法使用基于边界框得分概率分布的边界框预测、根据数据样本中的边界框大小和位置所确定的空间概率密度以及根据多个机器学习模型的输出所确定的整体得分方差来选择用于注释的数据样本。在实施例中，使用时间不一致性线索来选择具有时间噪声(例如，闪烁)的注释数据样本(例如，连续视频帧)。在实施例中，使用数字地图来从注释数据样本中排除违反地图约束(硬约束和/或统计约束)的样本。在示例性应用中，使用注释数据样本来训练机器学习模型(例如，CNN)，该机器学习模型输出自主运载工具应用所用的感知数据(例如，所标记的对象和场景)。在实施例中，该主动学习***在自主运载工具的规划模块中实现。

所公开的主动学习***的优点包括从大样本池中自动选择用于人类注释的数据子集，从而减少人工准备用于自主运载工具应用的机器学习模型的训练数据集的时间量和成本。

在实施例中，方法包括：使用计算机***获得数据样本集合，各数据样本包括一个或多个边界框，各边界框包含环境中的潜在对象或场景，各边界框具有标签和指示所述标签正确的置信度的边界框得分；以及使用所述计算机***基于边界框预测置信度和整体得分方差来选择用于注释的数据样本子集，所述边界框预测置信度是使用边界框得分的概率分布来确定的，所述整体得分方差基于根据由多个机器学习模型所输出的预测集合所计算出的整体得分的差。

在实施例中，该方法还包括：使用所述计算机***基于所述边界框预测置信度、由边界框大小和位置所参数化的边界框的空间概率密度以及所述整体得分方差来选择用于注释的所述数据样本子集。

在实施例中，边界框预测还包括：针对各标签，生成边界框得分的概率分布；以及基于所述分布来确定特定边界框未正确标记的可能性；以及基于所述可能性来选择所述特定边界框用于注释或将所述特定边界框排除于注释。

在实施例中，所述分布由具有表示边界框得分的范围的区间(bin)的直方图近似，并且各区间与可能性相关联。

在实施例中，针对各区间，根据分配给该区间的未正确标记的边界框的数量与分配给该区间的所标记的边界框的数量的比率来计算所述可能性。

在实施例中，该方法还包括：针对各标签、传感器和尺度，在针对所述标签、传感器和尺度的边界框集合上使用高斯混合模型(GMM)来确定所述空间概率密度，其中，所述GMM通过边界框大小和位置来参数化。

在实施例中，标签的空间概率密度是通过将该标签的空间密度除以该标签的所有空间密度值中的最大密度值来确定的。

在实施例中，该方法还包括：通过多个不同的机器学习模型处理所述数据样本以生成预测的标记边界框；计算对预测的标记边界框的各成对比较的整体得分，其中，各预测的标记边界框是用于与其它预测的标记边界框进行比较的地面真值；以及基于所述整体得分来计算整体得分方差。

在实施例中，所述多个不同的机器学习模型包括通过由不同类型的传感器所提供的训练数据样本调谐的多个不同的神经网络。

在实施例中，所述不同类型的传感器包括LiDAR、雷达和照相机。

在实施例中，所述多个不同的神经网络是在不同随机顺序的训练数据样本上被训练的。

在一个实施例中，该方法还包括：通过所述计算机***检测连续数据样本之间的时间不一致性；并且根据检测到所述时间不一致性而选择所述连续数据样本用于注释。

在实施例中，该方法还包括：通过所述计算机***使用地图约束来检测与边界框相关联的错误；以及根据检测到所述错误而将边界框排除于注释。

这些和其它方面、特征和实现被表示为用于进行功能的方法、设备、***、组件、程序产品、装置或步骤以及其它方式。

这些和其它方面、特征和实现将通过以下描述(包括权利要求书)变得清楚。

附图说明

图1示出具有自主能力的自主运载工具的示例。

图2例示示例“云”计算环境。

图3例示计算机***。

图4示出自主运载工具的示例架构。

图5示出感知模块可以使用的输入和输出的示例。

图6示出LiDAR***的示例。

图7示出操作中的LiDAR***。

图8示出LiDAR***的操作的附加细节。

图9示出规划模块的输入和输出之间的关系的框图。

图10示出路径规划中所使用的有向图。

图11示出控制模块的输入和输出的框图。

图12示出控制器的输入、输出和组件的框图。

图13示出由感知模块输出的场景，该场景包括边界框以及相应的标签和边界框得分。

图14示出用于自动选择用于注释的数据样本的主动学习***的框图。

图15示出边界框得分的堆叠直方图。

图16示出针对特定标签和特定传感器的空间GMM密度的图。

图17示出集成***的框图。

图18示出用于自动选择用于注释的样本的主动学习过程的流程图。

具体实施方式

在以下描述中，为了解释的目的，阐述了许多具体细节，以便提供对本发明的透彻理解。然而，本发明可以在没有这些具体细节的情况下实施将是明显的。在其它实例中，众所周知的构造和装置是以框图形式示出的，以避免不必要地使本发明模糊。

在附图中，为了便于描述，示出了示意要素(诸如表示装置、模块、指令块和数据要素的那些要素)的具体排列或次序。然而，本领域技术人员应当理解，附图中示意要素的具体次序或排列并不意在意味着要求特定的处理次序或序列、或处理过程的分离。此外，在附图中包含示意要素并不意在意味着在所有实施例中都需要这种要素，也不意在意味着由这种要素表示的特征不能包括在一些实施例中或不能在一些实施例中与其它要素结合。

此外，在附图中，连接要素、诸如实线或虚线或箭头用于例示两个或更多个其它示意要素之间的连接、关系或关联，没有任何此类连接要素并不意在意味着不能存在连接、关系或关联。换句话说，一些要素之间的连接、关系或关联未在附图中示出，以便不使本公开内容模糊。此外，为了便于例示，使用单个连接要素来表示要素之间的多个连接、关系或关联。例如，如果连接要素表示信号、数据或指令的通信，本领域技术人员应理解，这种要素表示影响通信可能需要的一个或多个信号路径(例如，总线)。

现在将详细参考实施例，其示例在附图中例示出。在以下的详细描述中，阐述了许多具体细节，以便提供对所描述的各种实施例的透彻理解。然而，对于本领域的普通技术人员来说将明显的是，可以在没有这些具体细节的情况下实施所描述的各种实施例。在其它情况下，没有详细描述众所周知的方法、程序、组件、电路和网络，以便不会不必要地使实施例的方面模糊。

下面描述的若干特征各自可以彼此独立地使用，也可以与其它特征的任何组合一起使用。然而，任何个别特征可能不能解决以上所讨论的任何问题，或者只能解决以上所讨论的问题之一。以上所讨论的一些问题可能不能通过本文所描述的任何一个特征得到充分解决。虽然提供了标题，但在本说明书的其它地方也可以找到与具体标题有关但在具有该标题的部分中未找到的信息。本文根据以下概要描述实施例:

1.总体概述

2.***概述

3.自主运载工具架构

4.自主运载工具输入

5.自主运载工具规划

6.自主运载工具控制

7.主动学习***

总体概述

我们描述了用于自动选择数据样本(例如，图像、点云)以用于人类进行注释的技术等。该技术使用边界框预测、根据边界框大小和位置所确定的空间概率密度以及根据多个机器学习模型的输出所确定的整体得分方差来选择用于注释的数据样本。在实施例中，时间不一致性线索用于选择用于注释的数据样本。在实施例中，数字地图约束或其它基于地图的数据用于将数据样本排除出注释。在示例性应用中，所注释的数据样本用于训练机器学习模型(例如，CNN)，该机器学习模型输出用于自主运载工具应用的感知数据(例如，标签对象和场景)。在实施例中，主动学习***可以由自主运载工具的规划模块实现。

***概述

图1示出具有自主能力的自主运载工具100的示例。

如本文所使用的，术语“自主能力”是指一种功能、特征或设施，该功能、特征或设施使运载工具能够部分地或完全地操作，而无需实时的人类干预，包括但不限于完全自主运载工具、高度自主运载工具和有条件自主运载工具。

如本文所使用的，自主运载工具(AV)是一种具有自主能力的运载工具。

如本文所使用的，“运载工具”包括货物或人员的运输方式。例如，小汽车、公共汽车、火车、飞机、无人机、卡车、船只、舰艇、潜水器、飞船等。无人驾驶的小汽车是运载工具的示例。

如本文所使用的，“轨迹”是指将AV从第一时空地点导航到第二时空地点的路径或路线。在实施例中，第一时空地点被称为初始地点或起始地点，第二时空地点被称为目的地、最终地点、目标、目标位置或目标地点。在一些示例中，轨迹由一个或多个路段(例如，道路的数段)组成，并且各路段由一个或多个块(例如，车道或交叉口的一部分)组成。在实施例中，时空地点对应于真实世界地点。例如，时空地点是上车或下车地点，以使人员或货物上车或下车。

如本文所使用的，“(一个或多个)传感器”包括一个或多个硬件组件，用于检测与传感器周围环境有关的信息。一些硬件组件可包括感测组件(例如，图像传感器、生物特征传感器)、传输和/或接收组件(例如，激光或射频波发射器和接收器)、电子组件(诸如，模数转换器)、数据存储装置(诸如，RAM和/或非易失性存储器)、软件或固件组件和数据处理组件(诸如，专用集成电路)、微处理器和/或微控制器。

如本文所使用的，“场景描述”是一种数据结构(例如，列表)或数据流，其包括由AV运载工具上的一个或多个传感器检测到的一个或多个经分类或加标签的对象，或由AV外部的源提供的一个或多个经分类或加标签的对象。

如本文所使用的，“道路”是一个可以被运载工具穿过的物理区域，并且可以对应于已命名的通道(例如，城市街道、州际高速公路等)或可对应于未命名的通道(例如，房屋或办公楼内的行车道、停车场的一段、空置停车场的一段、乡村区域的污物通道等)。因为有些运载工具(例如，四轮驱动的小卡车、越野车(SUV)等)能够穿过各种不特别适合运载工具行驶的物理区域，因此“道路”可以是任何市政当局或其它政府或行政机构没有正式定义为一条通道的物理区域。

如本文所使用的，“车道”是道路的可被运载工具穿过的部分。车道有时基于车道标记来识别。例如，车道可以对应于车道标记之间的大部分或全部空间，或仅对应于车道标记之间的一些空间(例如，小于50％)。例如，具有相距远的车道标记的道路可能在标记之间容纳两个或更多个运载工具，使得一个运载工具可以在不穿过车道标记的情况下超过另一个运载工具，并且因此可被解释为具有比车道标记之间的空间窄的车道，或在车道标记之间具有两个车道。在没有车道标记的情况下，也可以对车道进行解释。例如，车道可以基于环境的物理特征(例如乡村区域沿着通道的岩石和树木，或者例如未开发区域中要避开的自然障碍物)来定义。车道还可以独立于车道标记或物理特征来解释。例如，车道可以基于否则就缺少将被解释为车道边界的特征的区域中没有障碍物的任意路径来解释。在示例场景中，AV可以解释通过田地或空地的无障碍部分的车道。在另一示例场景中，AV可以解释通过没有车道标记的宽道路(例如，宽达两个或更多个车道)的车道。在该场景下，AV能够将与车道有关的信息传送给其它AV，以便其他AV能够使用同一车道信息来协调它们之间的路径规划。

术语“空中(OTA)客户端”包括嵌入、耦接到AV或与AV通信的任何AV或任何电子装置(例如，计算机、控制器、IoT装置、电子控制单元(ECU))。

术语“空中(OTA)更新”是指使用专有和/或标准化无线通信技术(包括但不限于：蜂窝移动通信(例如，2G、3G、4G、5G)、无线电无线区域网络(例如，WiFi)和/或卫星互联网)递送到OTA客户端的对软件、固件、数据或配置设置或其任意组合的任何更新、改变、删除或添加。

术语“边缘节点”是指耦接到网络的一个或多个边缘装置，其提供用于与AV通信的门户，并且可以与其它边缘节点和基于云的计算平台通信，以用于向OTA客户端调度和递送OTA更新。

术语“边缘装置”是指实现边缘节点并提供到企业或服务提供商(例如，VERIZON、AT&T)核心网络中的物理无线接入点(AP)的装置。边缘装置的示例包括但不限于：计算机、控制器、发射器、路由器、路由交换机、集成接入装置(IAD)、多路复用器、城域网(MAN)和广域网(WAN)接入装置。

“一个或多个”包括由一个要素执行的功能、由多个要素例如以分布式的方式执行的功能、由一个要素执行的若干功能、由若干要素执行的若干功能、或上述的任何组合。

还将理解的是，尽管在一些情况下，术语“第一”、“第二”等在本文中是用来描述各种要素的，但这些要素不应受到这些术语的限制。这些术语仅用于区分一个要素与另一个要素。例如，在未背离各种所描述的实施例的范围的情况下，第一触点可被称为第二触点，并且类似地，第二触点可被称为第一触点。第一触点和第二触点两者都是触点，但它们不是相同触点。

在本文所描述的各种实施例的说明书中使用的术语仅用于描述特定实施例的目的，而不是意在限制。如在所描述的各种实施例的说明书和所附权利要求书中所使用的，单数形式“a”、“an”和“the”也意在包括复数形式，除非上下文另有明确说明。还将理解的是，如本文所使用的“和/或”是指并且包括一个或多个相关清单项目的任何和所有可能的组合。还将理解的是，当在本说明书中使用术语“包括”、“包含”、“具备”和/或“具有”时，具体说明存在所陈述的特征、整数、步骤、操作、要素和/或组件，但并不排除存在或添加一个或多个其它特征、整数、步骤、操作、要素、组件、和/或其群组。

如本文所使用的，取决于上下文，术语“如果”可选地被理解为意指“当”或“在当时”或“响应于确定为”或“响应于检测到”。类似地，取决于上下文，短语“如果已确定”或“如果[所陈述的条件或事件]已被检测到”可选地被理解为意指“在确定时”或“响应于确定为“或”在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。

如本文所使用的，AV***是指AV以及支持AV操作的硬件、软件、存储的数据和实时生成的数据的阵列。在实施例中，AV***并入在AV内。在实施例中，AV***跨若干地点分布。例如，AV***的一些软件是在类似于下面关于图2描述的云计算环境200的云计算环境中实现的。

一般而言，本文件描述了适用于任何具有一种或多种自主能力的运载工具的技术，包括完全自主运载工具、高度自主运载工具和有条件自主运载工具，诸如分别为所谓的第5级、第4级和第3级运载工具(见SAE国际标准J3016：道路上机动车自动驾驶***相关术语的分类和定义，通过引用将其全部内容并入本文件，用于了解运载工具自主权等级的更多详细信息)。本文件所描述的技术也适用于部分自主运载工具和驾驶员辅助运载工具，诸如所谓的第2级和第1级运载工具(见SAE国际标准J3016：道路上机动车自动驾驶***相关术语的分类和定义)。在实施例中，一个或多个第1级、第2级、第3级、第4级和第5级运载工具***可基于对传感器输入的处理，在某些操作条件下自动执行某些运载工具操作(例如，转向、制动和使用地图)。本文件中所描述的技术可以使从完全自主运载工具到人类操作的运载工具范围内的任何级别的运载工具受益。

与需要人类驾驶员的运载工具相比，自主运载工具具有优势。一个优势是安全性。例如，在2016年，美国发生了600万起车祸，240万人受伤，4万人死亡，1300万运载工具碰撞，估计社会成本为9100+亿美元。从1965年到2015年，美国每1亿英里的交通死亡人数已经从大约6人减少到大约1人，部分原因是运载工具所部署有的附加的安全措施。例如，将发生碰撞的额外半秒的报警被认为可以减轻60％的前-后碰撞。然而，被动安全特征(例如，安全带、安全气囊)在改善这一数字方面可能已达到了极限。因此，诸如运载工具的自动控制的主动的安全措施可能是改善这些统计数据的下一步。因为在95％的碰撞中，人类驾驶员被认为是对严重的预碰撞事故有责任，所以自主驾驶***可能会实现更好的安全结果，例如，比人类更可靠地识别和避免危急情形；比人类更好地做出更好的决策、遵守交通规则、并预测未来事件；以及比人类更可靠地控制运载工具。

参考图1，AV***120使AV 100沿着轨迹198操作，穿过环境190至目的地199(有时称为最终地点)，同时避开对象(例如，自然障碍物191、运载工具193、行人192、骑车者和其它障碍物)和遵守道路规则(例如，操作规则或驾驶偏好)。

在实施例中，AV***120包括被装备以从计算机处理器146接收操作命令并对其进行操作的装置101。在实施例中，计算处理器146与下面参考图3描述的处理器304类似。装置101的示例包括转向控制器102、制动器103、挡位、加速踏板或其它加速控制机构、挡风玻璃雨刮器、侧门锁、窗控器和转向指示器。

在实施例中，AV***120包括用于测量或推断AV 100的状态或条件的属性的传感器121，这些属性诸如是AV的位置、线速度和角速度及线加速度和角加速度、以及航向(例如，AV 100的前端的方向)。传感器121的示例是GPS、测量运载工具线加速度和角速率两者的惯性测量单元(IMU)、用于测量或估计轮滑移率的轮速率传感器、轮制动压力或制动扭矩传感器、引擎扭矩或轮扭矩传感器以及转向角度和角速率传感器。

在实施例中，传感器121还包括用于感测或测量AV的环境的属性的传感器。例如，可见光、红外或热(或两者兼有)光谱的单目或立体摄像机122、LiDAR 123、雷达、超声波传感器、飞行时间(TOF)深度传感器、速率传感器、温度传感器、湿度传感器和降水传感器。

在实施例中，AV***120包括数据存储单元142和存储器144，用于存储与计算机处理器146相关联的机器指令或由传感器121收集的数据。在实施例中，数据存储单元142与以下关于图3描述的ROM 308或存储装置310类似。在实施例中，存储器144与下面描述的主存储器306类似。在实施例中，数据存储单元142和存储器144存储有关环境190的历史、实时和/或预测性信息。在实施例中，存储的信息包括地图、驾驶性能、交通拥堵更新或天气条件。在实施例中，与环境190有关的数据从远程数据库134通过通信信道传输到AV100。

在实施例中，AV***120包括通信装置140，用于将对其它运载工具的状态和条件(诸如位置、线速度和角速度、线加速度和角加速度、以及线航向和角航向)测量或推断的属性传送到AV 100。这些装置包括运载工具到运载工具(V2V)和运载工具到基础设施(V2I)通信装置以及用于通过点对点或自组织(ad hoc)网络或两者进行无线通信的装置。在实施例中，通信装置140跨电磁频谱(包括无线电和光通信)或其它介质(例如，空气和声介质)进行通信。运载工具对运载工具(V2V)、运载工具对基础设施(V2I)通信(以及在一些实施例中为一种或多种其它类型的通信)的组合有时被称为运载工具对所有事物(V2X)通信。V2X通信通常符合一个或多个通信标准，用于与自主运载工具进行的和在自主运载工具之间的通信。

在实施例中，通信装置140包括通信接口。例如，有线、无线、WiMAX、WiFi、蓝牙、卫星、蜂窝、光、近场、红外或无线电接口。通信接口将数据从远程数据库134传输到AV***120。在实施例中，远程数据库134嵌入在如图2中所描述的云计算环境200中。通信接口140将从传感器121收集的数据或与AV 100操作有关的其它数据传输到远程数据库134。在实施例中，通信接口140向AV 100传输与遥操作有关的信息。在一些实施例中，AV 100与其它远程(例如，“云”)服务器136通信。

在实施例中，远程数据库134还存储和传输数字数据(例如，存储诸如道路和街道地点的数据)。这些数据存储在AV 100上的存储器144中，或者通过通信信道从远程数据库134传输到AV 100。

在实施例中，远程数据库134存储和传输与以前在一天中类似时间沿着轨迹198行驶的运载工具的驾驶属性有关的历史信息(例如，速率和加速度分布)。在一个实现中，这种数据可以存储在AV 100上的存储器144中，或者通过通信信道从远程数据库134传输到AV100。

位于AV 100上的计算装置146基于实时传感器数据和先验信息两者以算法方式生成控制动作，允许AV***120执行其自主驾驶能力。

在实施例中，AV***120包括耦接到计算装置146的计算机***设备132，用于向AV100的用户(例如，乘员或远程用户)提供信息和提醒并接收来自该用户的输入。在实施例中，***设备132类似于下面参考图3讨论的显示器312、输入装置314和光标控制器316。耦接是无线的或有线的。任意两个或更多个的接口装置可以集成到单个装置中。

图2例示示例“云”计算环境。云计算是一种服务交付模式，用于使得能够方便、按需地在网络上访问可配置计算资源(例如网络、网络带宽、服务器、处理、内存、存储、应用程序、虚拟机和服务)的共享池。在典型的云计算***中，一个或多个大型云数据中心容纳用于交付云所提供的服务的机器。现在参考图2，云计算环境200包括通过云202互连的云数据中心204a、204b和204c。数据中心204a、204b和204c为连接到云202的计算机***206a、206b、206c、206d、206e和206f提供云计算服务。

云计算环境200包括一个或多个云数据中心。一般而言，云数据中心(例如图2中所示的云数据中心204a)是指构成云(例如图2中所示的云202或云的特定部分)的服务器的物理排列。例如，服务器在云数据中心中物理排列成房间、组、行和机架。云数据中心有一个或多个区域，其中包括一个或多个服务器房间。每个房间有一行或多行服务器，并且每行包括一个或多个机架。每个机架包括一个或多个单独的服务器节点。在一些实现中，区域、房间、机架和/或行中的服务器基于数据中心设施的物理基础设施要求(包括电力、能源、热力、热源和/或其它要求)被排列成若干组。在实施例中，服务器节点类似于图3中描述的计算机***。数据中心204a具有许多分布在多个机架上的计算***。

云202包括云数据中心204a、204b和204c以及用于连接云数据中心204a、204b和204c并有助于促进计算***206a-f对云计算服务的访问的网络和网络资源(例如，网络设备、节点、路由器、交换机和网络电缆)。在实施例中，该网络表示一个或多个本地网络、广域网或通过使用地面或卫星连接部署的有线或无线链路耦接的网际网络的任意组合。通过网络交换的数据使用多种网络层协议(诸如，因特网协议(IP)、多协议标签交换(MPLS)、异步传输模式(ATM)、帧中继(Frame Relay)等)进行传输。此外，在网络表示多个子网络的组合的实施例中，在每个底层子网络上使用不同的网络层协议。在一些实施例中，网络表示一个或多个互连网际网络(诸如公共因特网等)。

计算***206a-f或云计算服务消费者通过网络链路和网络适配器连接到云202。在实施例中，计算***206a-f被实现为各种计算装置，例如服务器、台式机、膝上型计算机、平板电脑、智能手机、物联网(IoT)装置、自主运载工具(包括小汽车、无人机、航天飞机、火车、公共汽车等)和消费电子产品。在实施例中，计算***206a-f在其它***中实现或作为其它***的一部分实现。

图3例示计算机***300。在实现中，计算机***300是一种专用计算装置。专用计算装置被硬连线以执行这些技术，或包括诸如一个或多个专用集成电路(ASIC)或现场可编程门阵列(FPGA)的被持久编程为执行上述技术的数字电子装置，或可包括一个或多个通用硬件处理器，这些硬件处理器经编程以根据固件、存储器、其它存储器、或者组合中的程序指令执行这些技术。这种专用的计算装置还可以将定制的硬线逻辑、ASIC或FPGA与定制的编程相结合来完成这些技术。在各种实施例中，专用计算装置是台式计算机***、便携式计算机***、手持装置、网络装置或包含硬线和/或程序逻辑以实现这些技术的任何其它设备。

在实施例中，计算机***300包括总线302或用于传达信息的其它通信机制、以及与总线302耦接以处理信息的硬件处理器304。硬件处理器304是例如通用微处理器。计算机***300还包括主存储器306，诸如随机存取存储器(RAM)或其它动态存储装置，该主存储器306耦接到总线302以存储信息和指令，该信息和指令由处理器304执行。在一个实现中，主存储器306用于在执行要由处理器304执行的指令期间存储临时变量或其它中间信息。当这些指令存储在处理器304可访问的非暂时性存储介质中时，使计算机***300变成一个专用机器，该机器被定制以执行指令中指定的操作。

在实施例中，计算机***300还包括只读存储器(ROM)308或耦接到总线302的其它静态存储装置，用于存储处理器304的静态信息和指令。提供诸如磁盘、光盘、固态驱动器或三维交叉点存储器的存储装置310，并且该存储装置310耦接到总线302以存储信息和指令。

在实施例中，计算机***300通过总线302耦接到诸如阴极射线管(CRT)、液晶显示器(LCD)、等离子体显示器、发光二极管(LED)显示器或用于向计算机用户显示信息的有机发光二极管(OLED)显示器的显示器312。包括字母数字键和其它键的输入装置314耦接到总线302，用于向处理器304传送信息和命令选择。另一种类型的用户输入装置是光标控制器316，诸如鼠标、轨迹球、触控显示器或光标方向键，用于将方向信息和命令选择传送到处理器304，并用于控制光标在显示器312上的移动。这种输入装置通常具有两个轴(第一轴(例如，x轴)和第二轴(例如，y轴))上的两个自由度，这两个轴允许装置指定平面上的位置。

根据一个实施例，本文的技术由计算机***300响应于处理器304执行主存储器306中包含的一个或多个指令的一个或多个序列而执行。这些指令从诸如存储装置310的另一存储介质读入主存储器306。执行主存储器306中包含的指令序列使处理器304执行本文所描述的过程步骤。在替代实施例中，使用硬连线电路代替或与软件指令结合使用。

如本文所使用的术语“存储介质”是指存储数据和/或指令的任何非暂时性介质，这些数据和/或指令使机器以特定方式操作。这种存储介质包括非易失性介质和/或易失性介质。非易失性介质例如包括诸如存储装置310的光盘、磁盘、固态驱动器或三维交叉点存储器。易失性介质包括动态存储器，诸如主存储器306。存储介质的常见形式包括例如软盘、软磁盘、硬盘、固态驱动器、磁带或任何其它磁数据存储介质、CD-ROM、任何其它光数据存储介质、任何具有孔型的物理介质、RAM、PROM和EPROM、FLASH-EPROM、NV-RAM、或任何其它存储芯片或存储盒。

存储介质有别于传输介质，但可以与传输介质相结合使用。传输介质参与存储介质之间的信息传输。例如，传输介质包括同轴电缆、铜线和光纤，其包括具备总线302的电线。传输介质也可以采取声波或光波的形式，诸如在无线电波和红外数据通信过程中产生的声波或光波。

在实施例中，各种形式的介质涉及将一个或多个指令的一个或多个序列承载到处理器304以供执行。例如，这些指令最初是在远程计算机的磁盘或固态驱动器上执行的。远程计算机将指令加载到其动态存储器中，并使用调制解调器通过电话线路发送指令。计算机***300的本地调制解调器接收电话线路上的数据，并使用红外发射器将数据转换为红外信号。红外检测器接收红外信号中承载的数据，并且适当的电路将数据放置在总线302上。总线302将数据承载到主存储器306，处理器304从主存储器306检索并执行指令。主存储器306接收的指令可以可选地在处理器304执行之前或之后存储在存储装置310上。

计算机***300还包括耦接到总线302的通信接口318。通信接口318提供耦接到连接至本地网络322的网络链路320的双向数据通信。例如，通信接口318是综合业务数字网(ISDN)卡、电缆调制解调器、卫星调制解调器或用以提供与相应类型电话线路的数据通信连接的调制解调器。作为另一示例，通信接口318是局域网(LAN)卡，用于提供与兼容LAN的数据通信连接。在一些实现中，无线链路也被实现。在任何这种实现中，通信接口318发送和接收承载表示各种类型的信息的数字数据流的电、电磁或光信号。

网络链路320通常通过一个或多个网络向其它数据装置提供数据通信。例如，网络链路320通过本地网络322提供与主计算机324或与由因特网服务提供商(ISP)326运营的云数据中心或设备的连接。ISP 326又通过现在通常称为“因特网”328的世界范围分组数据通信网络来提供数据通信服务。本地网络322和因特网328两者都使用承载数字数据流的电、电磁或光信号。通过各种网络的信号以及网络链路320上并通过通信接口318的信号是传输介质的示例形式，其中这些信号承载了进出计算机***300的数字数据。在实施例中，网络320包含上述云202或云202的一部分。

计算机***300通过(一个或多个)网络、网络链路320和通信接口318发送消息和接收包括程序代码的数据。在实施例中，计算机***300接收用于处理的代码。接收到的代码在接收到时由处理器304执行，和/或存储在存储装置310中，或存储在其它非易失性存储装置中以便以后执行。

自主运载工具架构

图4示出用于自主运载工具(例如，图1所示的AV 100)的示例架构400。架构400包括感知模块402(有时称为感知电路)、规划模块404(有时称为规划电路)、控制模块406(有时称为控制电路)、定位模块408(有时称为定位电路)和数据库模块410(有时称为数据库电路)。各模块在AV 100的操作中发挥作用。共同地，模块402、404、406、408和410可以是图1所示的AV***120的一部分。在一些实施例中，模块402、404、406、408和410中的任何模块是计算机软件(例如，计算机可读介质上所存储的可执行代码)和计算机硬件(例如，一个或多个微处理器、微控制器、专用集成电路[ASIC]、硬件存储器装置、其它类型的集成电路、其它类型的计算机硬件、或者这些硬件中的任何或所有的组合)的组合。模块402、404、406、408和410中的各个模块有时被称为处理电路(例如，计算机硬件、计算机软件或两者的组合)。模块402、404、406、408和410中的任何或所有模块的组合也是处理电路的示例。

在使用中，规划模块404接收表示目的地412的数据，并且确定表示AV100为了到达(例如，抵达)目的地412而可以行驶的轨迹414(有时称为路线)的数据。为了使规划模块404确定表示轨迹414的数据，规划模块404从感知模块402、定位模块408和数据库模块410接收数据。

感知模块402使用例如也如图1所示的一个或多个传感器121来识别附近的物理对象。将对象分类(例如，分组成诸如行人、自行车、汽车、交通标志等的类型)，并且将包括经分类的对象416的场景描述提供至规划模块404。在实施例中，感知模块402包括检测对象和对对象进行标记的对象检测器。示例对象检测器是卷积神经网络(CNN)。在实施例中，对象检测器可以输出图像或点云，该图像或点云包括围绕检测到的对象的边界框、用于对象的标签和指示所检测到的对象被正确标记的置信度的边界框得分。在实施例中，边界框得分可以在范围[0.0 1.0]内，其中，0.0指示未正确标记的对象，1.0指示正确标记的对象，并且两者之间的值指示该对象被正确标记的置信度。

规划模块404还从定位模块408接收表示AV位置418的数据。定位模块408通过使用来自传感器121的数据和来自数据库模块410的数据(例如，地理数据)以计算位置来确定AV位置。例如，定位模块408使用来自GNSS(全球导航卫星***)传感器的数据和地理数据来计算AV的经度和纬度。在实施例中，定位模块408所使用的数据包括具有行车道几何属性的高精度地图、描述道路网络连接属性的地图、描述行车道物理属性(诸如交通速率、交通量、运载工具和自行车车道的数量、车道宽度、车道交通方向、或车道标记类型和地点，或者它们的组合)的地图、以及描述道路特征(诸如十字路口、交通标志或各种类型的其它行驶信号等)的空间地点的地图。在实施例中，高精度地图是通过经自动或手动的注释向低精度地图添加数据来构建的。

控制模块406接收表示轨迹414的数据和表示AV位置418的数据，并且以将使得AV100行驶轨迹414到达目的地412的方式来操作AV的控制功能420a～420c(例如，转向、油门、制动、点火)。例如，如果轨迹414包括左转，则控制模块406将以如下方式操作控制功能420a～420c：转向功能的转向角度将使得AV 100左转，并且油门和制动将使得AV 100在进行转弯之前暂停并等待经过的行人或运载工具。

自主运载工具输入

图5示出感知模块402(图4)所使用的输入502a-502d(例如，图1中所示的传感器121)和输出504a-504d(例如，传感器数据)的示例。一个输入502a是LiDAR(光检测和测距)***(例如，图1所示的LiDAR 123)。LiDAR是使用光(例如，诸如红外光等的一道光)来获得与其视线中的物理对象有关的数据的技术。LiDAR***产生LiDAR数据作为输出504a。例如，LiDAR数据是用于构造环境190的表示的3D或2D点(也称为点云)的集合。

另一输入502b是RADAR(雷达)***。雷达是使用无线电波来获得与附近的物理对象有关的数据的技术。雷达可以获得与不在LiDAR***的视线内的对象有关的数据。雷达***502b产生雷达数据作为输出504b。例如，雷达数据是用于构造环境190的表示的一个或多个射频电磁信号。

另一输入502c是照相机***。照相机***使用一个或多个照相机(例如，使用诸如电荷耦合器件[CCD]等的光传感器的数字照相机)来获取与附近的物理对象有关的信息。照相机***产生照相机数据作为输出504c。照相机数据通常采用图像数据(例如，诸如RAW、JPEG、PNG等的图像数据格式的数据)的形式。在一些示例中，照相机***具有例如为了立体影像(立体视觉)的目的的多个独立照相机，这使得照相机***能够感知深度。尽管照相机***所感知的对象在这里被描述为“附近”，但这是相对于AV而言的。在使用中，照相机***可被配置为“看见”远处的(例如，AV前方的远至1公里或更远的)对象。因此，照相机***可以具有为了感知遥远的对象而优化的诸如传感器和镜头等的特征。

另一输入502d是交通灯检测(TLD)***。TLD***使用一个或多个照相机来获得与交通灯、街道标志和提供视觉导航信息的其它物理对象有关的信息。TLD***产生TLD数据作为输出504d。TLD数据经常采用图像数据(例如，诸如RAW、JPEG、PNG等的图像数据格式的数据)的形式。TLD***与包含照相机的***的不同之处在于：TLD***使用具有宽视场(例如，使用广角镜头或鱼眼镜头)的照相机，以获得与尽可能多的提供视觉导航信息的物理对象有关的信息，使得AV 100能够访问这些对象所提供的所有相关导航信息。例如，TLD***的视角可以为约120度或更大。

在一些实施例中，使用传感器融合技术来组合输出504a-504d。因而，将个体输出504a-504d提供至AV 100的其它***(例如，提供至如图4所示的规划模块404)，或者可以采用相同类型的单个组合输出或多个组合输出(例如，使用相同组合技术或组合相同输出或者这两者)或不同类型的单个组合输出或多个组合输出(例如，使用不同的各个组合技术或组合不同的各个输出或者这两者)的形式，将组合输出提供至其它***。在一些实施例中，使用早期融合技术。早期融合技术的特征在于：在将一个或多个数据处理步骤应用到组合输出之前，将输出组合。在一些实施例中，使用后期融合技术。后期融合技术的特征在于：在将一个或多个数据处理步骤应用到个体输出之后，将输出组合。

图6示出LiDAR***602的示例(例如，图5所示的输入502a)。LiDAR***602从发光器606(例如，激光发射器)发射光604a-604c。LiDAR***所发射的光通常不在可见光谱中；例如，经常使用红外光。所发射的光604b中的一些光遇到物理对象608(例如，运载工具)并且反射回到LiDAR***602。(从LiDAR***发射的光通常不会穿透物理对象，例如，实心形式的物理对象。)LiDAR***602还具有用于检测反射光的一个或多个光检测器610。在实施例中，与LiDAR***相关联的一个或多个数据处理***生成表示LiDAR***的视场614的图像612。图像612包括表示物理对象608的边界616的信息。这样，图像612用于确定AV附近的一个或多个物理对象的边界616。

图7示出操作中的LiDAR***602。在该图所示的情境中，AV 100接收采用图像702的形式的照相机***输出504c和采用LiDAR数据点704的形式的LiDAR***输出504a两者。在使用中，AV 100的数据处理***将图像702与数据点704进行比较。特别地，在数据点704中也识别在图像702中识别出的物理对象706。这样，AV 100基于数据点704的轮廓和密度来感知物理对象的边界。

图8示出LiDAR***602的操作的附加细节。如上所述，AV 100基于LiDAR***602所检测到的数据点的特性来检测物理对象的边界。如图8所示，诸如地面802等的平坦对象将以一致的方式反射从LiDAR***602发射的光804a-804d。换句话说，由于LiDAR***602使用一致的间隔发射光，因此地面802将以相同的一致间隔将光反射回到LiDAR***602。在AV100在地面802上行驶时，在没有东西阻挡道路的情况下，LiDAR***602将继续检测到由下一个有效地面点806反射的光。然而，如果对象808阻挡道路，则LiDAR***602所发射的光804e-804f将以与预期一致方式不一致的方式从点810a-810b反射。根据该信息，AV 100可以确定存在对象808。

路径规划

图9示出(例如，如图4所示的)规划模块404的输入和输出之间的关系的框图900。一般而言，规划模块404的输出是从起点904(例如，源地点或初始地点)到终点906(例如，目的地或最终地点)的路线902。路线902通常由一个或多个路段定义。例如，路段是指要在街道、道路、公路、行车道或适合汽车行驶的其它物理区域的至少一部分上行驶的距离。在一些示例中，例如，如果AV 100是诸如四轮驱动(4WD)或全轮驱动(AWD)小汽车、SUV或小卡车等的能够越野的运载工具，则路线902包括诸如未铺面路径或开阔田野等的“越野”路段。

除路线902之外，规划模块还输出车道级路线规划数据908。车道级路线规划数据908用于在特定时间基于路线902的路段的条件来驶过这些路段。例如，如果路线902包括多车道公路，则车道级路线规划数据908包括轨迹规划数据910，其中AV 100可以使用该轨迹规划数据910以例如基于出口是否临近、多个车道中的一个或多个车道是否存在其它运载工具、或者在几分钟或更少时间的过程中变化的其它因素来从这多个车道中选择某车道。类似地，在一些实现中，车道级路线规划数据908包括路线902的某路段特有的速率约束912。例如，如果该路段包括行人或非预期交通，则速率约束912可以将AV 100限制到比预期速率慢的行驶速率，例如基于该路段的限速数据的速率。

在实施例中，向规划模块404的输入包括(例如，来自图4所示的数据库模块410的)数据库数据914、当前地点数据916(例如，图4所示的AV位置418)、(例如，用于图4所示的目的地412的)目的地数据918和对象数据920(例如，如图4所示的感知模块402所感知的经分类的对象416)。在一些实施例中，数据库数据914包括规划时所使用的规则。规则是使用形式语言(例如，使用布尔逻辑)指定的。在AV 100所遇到的任何给定情形中，这些规则中的至少一些规则将适用于该情形。如果规则具有基于AV 100可用的信息(例如，与周围环境有关的信息)所满足的条件，则该规则适用于给定情形。规则可以具有优先级。例如，“如果公路是高速公路，则移动到最左侧车道”这一规则与“如果出口在一英里内临近，则移动到最右侧车道”相比可以具有更低的优先级。

图10示出在路径规划中(例如，由规划模块404(图4))使用的有向图1000。一般而言，如图10所示的有向图那样的有向图1000用于确定任何起点1002和终点1004之间的路径。在现实世界中，分隔起点1002和终点1004的距离可能相对较大(例如，在两个不同的都市区域中)，或者可能相对较小(例如，毗邻城市街区的两个十字路口或多车道道路的两条车道)。

在实施例中，有向图1000具有表示起点1002和终点1004之间的AV 100可能占用的不同地点的节点1006a-1006d。在一些示例中，例如，在起点1002和终点1004表示不同的都市区域时，节点1006a-1006d表示道路的路段。在一些示例中，例如，在起点1002和终点1004表示相同道路上的不同地点时，节点1006a-1006d表示该道路上的不同位置。这样，有向图1000包括不同粒度级别的信息。在实施例中，具有高粒度的有向图也是具有更大尺度的另一有向图的子图。例如，起点1002和终点1004相距远(例如，相距许多英里)的有向图的大部分信息处于低粒度，并且该有向图是基于所存储的数据，但该有向图还包括用于该有向图中的表示AV 100的视场中的物理地点的一部分的一些高粒度信息。

节点1006a-1006d不同于无法与节点重叠的对象1008a-1008b。在实施例中，在粒度低时，对象1008a-1008b表示汽车不能穿过的地区，例如无街道或道路的区域。在粒度高时，对象1008a-1008b表示AV 100的视场中的物理对象，例如其它汽车、行人、或AV 100不能与之共用物理空间的其它实体。在实施例中，对象1008a-1008b的一部分或全部是静态对象(例如，不改变位置的对象，诸如街灯或电线杆等)或动态对象(例如，能够改变位置的对象，诸如行人或其它小汽车等)。

节点1006a-1006d通过边缘1010a-1010c连接。如果两个节点1006a-1006b通过边缘1010a连接，则AV 100可以在一个节点1006a和另一节点1006b之间行驶，例如，而不必在到达另一节点1006b之前行驶到中间节点。(当提到AV100在节点之间行驶时，意味着AV 100在由相应节点表示的两个物理位置之间行驶。)边缘1010a-1010c通常是双向的，从某种意义上，AV 100从第一节点行驶到第二节点，或者从第二节点行驶到第一节点。在实施例中，边缘1010a-1010c是单向的，从某种意义上，AV 100可以从第一节点行驶到第二节点，然而AV 100不能从第二节点行驶到第一节点。在边缘1010a-1010c表示例如单向街道，街道、道路或公路的单独车道，或者由于法律或物理约束因而仅能沿一个方向穿过的其它特征的情况下，边缘1010a-1010c是单向的。

在实施例中，规划模块404使用有向图1000来识别由起点1002和终点1004之间的节点和边缘组成的路径1012。

边缘1010a-1010c具有关联成本1014a-1014b。成本1014a-1014b是表示在AV 100选择该边缘的情况下将花费的资源的值。典型的资源是时间。例如，如果一个边缘1010a所表示的物理距离是另一边缘1010b所表示的物理距离的两倍，则第一边缘1010a的关联成本1014a可以是第二边缘1010b的关联成本1014b的两倍。影响时间的其它因素包括预期交通、十字路口的数量、限速等。另一典型的资源是燃料经济性。两个边缘1010a-1010b可以表示相同的物理距离，但例如由于道路条件、预期天气等，因此一个边缘1010a与另一边缘1010b相比需要更多的燃料。

在规划模块404识别起点1002和终点1004之间的路径1012时，规划模块404通常选择针对成本优化的路径，例如，在将边缘的个体成本相加到一起时具有最小总成本的路径。

自主运载工具控制

图11示出(例如，如图4所示的)控制模块406的输入和输出的框图1100。控制模块根据控制器1102而操作，该控制器1102例如包括：与处理器304类似的一个或多个处理器(例如，诸如微处理器或微控制器或这两者等的一个或多个计算机处理器)；与主存储器306、ROM 308和存储装置310类似的短期和/或长期数据存储装置(例如，存储器，随机存取存储器或闪速存储器或这两者)；以及存储器中所存储的指令，这些指令在(例如，由一个或多个处理器)执行时执行控制器1102的操作。

在实施例中，控制器1102接收表示期望输出1104的数据。期望输出1104通常包括速度，例如速率和航向。期望输出1104例如可以基于从(例如，如图4所示的)规划模块404接收到的数据。根据期望输出1104，控制器1102产生可用作油门输入1106和转向输入1108的数据。油门输入1106表示例如通过接合转向踏板或接合另一油门控件来接合AV 100的油门(例如，加速控制)以实现期望输出1104的大小。在一些示例中，油门输入1106还包括可用于接合AV100的制动器(例如，减速控制)的数据。转向输入1108表示转向角度，例如AV的转向控制(例如，方向盘、转向角致动器或用于控制转向角度的其它功能)应被定位成实现期望输出1104的角度。

在实施例中，控制器1102接收在调整提供至油门和转向的输入时使用的反馈。例如，如果AV 100遇到诸如山丘等的干扰1110，则AV 100的测量速率1112降至低于期望输出速率。在实施例中，任何测量输出1114均被提供至控制器1102，使得例如基于测量速率和期望输出之间的差分1113来进行所需的调整。测量输出1114包括测量位置1116、测量速度1118(包括速率和航向)、测量加速度1120和AV 100的传感器可测量的其它输出。

在实施例中，例如通过诸如照相机或LiDAR传感器等的传感器预先检测与干扰1110有关的信息，并且该信息被提供至预测性反馈模块1122。然后，预测性反馈模块1122将控制器1102可用于相应地调整的信息提供至控制器1102。例如，如果AV 100的传感器检测到(“看见”)山丘，则控制器1102可以使用该信息来准备在适当时间接合油门，以避免显著减速。

图12示出控制器1102的输入、输出和组件的框图1200。控制器1102具有影响油门/制动器控制器1204的操作的速率分析器1202。例如，速率分析器1202根据例如由控制器1102接收到并由速率分析器1202处理后的反馈，来指示油门/制动器控制器1204使用油门/制动器1206进行加速或进行减速。

控制器1102还具有影响方向盘控制器1210的操作的横向跟踪控制器1208。例如，横向跟踪控制器1208根据例如由控制器1102接收到并由横向跟踪控制器1208处理后的反馈，来指示方向盘控制器1210调整转向角致动器1212的位置。

控制器1102接收用于确定如何控制油门/制动器1206和转向角致动器1212的若干输入。规划模块404提供控制器1102例如选择AV 100开始操作时的航向并确定在AV 100到达十字交叉路口时穿过哪个道路路段所使用的信息。定位模块408例如将描述AV 100的当前地点的信息提供至控制器1102，使得控制器1102可以确定AV 100是否处于基于正控制油门/制动器1206和转向角致动器1212的方式而预期的地点。在实施例中，控制器1102接收来自其它输入1214的信息，例如从数据库、计算机网络等接收到的信息。

主动学习***

图13示出由感知模块402输出的示例数据样本1300，该示例数据样本1300包括具有相应的边界框标签和得分的10个边界框1301a-1301k。在示出的示例中，数据样本是由摄像机捕获的图像。边界框标签识别对象，并且边界框得分指示其相应边界框包括正确标记的对象的置信水平。在任何给定数据样本中，可以存在包括对象的边界框、不包括对象的边界框和可能包括对象的边界框。在数据样本1300中，边界框得分的范围从0.00至1.00，其中0.00意味着未检测到对象，1.00意味着对象被检测到且被正确标记，并且两者之间的数字表示对象被检测到且被正确标记的置信度。例如，边界框1301c包含小汽车并且具有1.00的边界框得分，其指示小汽车被检测到且被正确标记为“小汽车”。同样，边界框1301d包括行人且具有0.96的边界框得分，其指示行人被正确标记为“人”的高置信度。边界框1301k不包含对象，并且因此具有0.00的边界框得分。注意，在实践中，各边界框具有用于各类别的边界框得分。然而，在各种滤波步骤之后，仅具有高得分(高于指定阈值)的边界框被包括在感知模块的输出中。

具有边界框和边界框得分的数千个数据样本可以从AV中的感知模块收集并且存储在数据库中。为了减少手动标记的花费和时间，如下面参考图14所描述的，使用主动学习***来自动向人类注释员询问将要对哪个未标记边界框进行标记或者对哪个未正确标记的边界框进行重新标记。在实施例中，在AV 100的感知模块402中实现主动学习***，并且由AV 100的计算机***300通过无线传输或其它传送机制(例如，拇指驱动器)向人类注释员提供所选择的数据样本。在其它实施例中，AV 100向人类注释员提供所收集的数据样本，并且安装在远离AV 100的计算机***上的主动学习应用用于自动选择数据样本以进行注释。

由于在实际***中存在太多的传感器数据要存储，因此这里公开的主动学***衡以优化***性能和成本。此外，可以分析不同种类的注释错误(例如，缺失对象、不准确的位置)对性能的影响，以及用不同数据量来训练同一神经网络。

图14示出用于自动选择数据样本1401的子集用于注释的主动学习***1400的框图。在所示的示例中，主动学习***1400包括数据样本1401、边界框预测模块1402、空间概率密度模块1403、整体得分方差模块1404、所选数据样本1405和注释员1406。

存在未标记或未正确标记的数据是大量的但由人类手动标记是昂贵的场景。在这样的场景中，主动学习***1400自动向注释员1406询问标签。数据样本1401(例如，图像、点云)包括具有已知标签的边界框和具有未知标签的边界框。所标记的边界框可能被正确地标记或不正确地标记。主动学习***1400自动选择具有未知和/或不正确标签的边界框子集以由注释员1406手动标记(注释)。

更具体地，在第一步骤中，边界框预测模块1402从输入数据样本1401中检索所标记的边界框的集合及其相应边界框得分。然后边界框预测模块1402生成所标记的边界框集合上的边界框得分的概率分布。在实施例中，概率分布由堆叠直方图近似，如图15所示。

图15示出边界框得分的堆叠直方图。对于各标签，基于所标记的边界框集合中的正确标记和未正确标记的边界框的数量来生成堆叠直方图。在该示例中，堆叠直方图针对“行人”标签。x轴包括表示边界框得分的范围(0.0至1.0)的直方图的区间。y轴是各区间中的边界框的数量。各区间具有未正确标记的边界框的数量1501和正确标记的边界框的数量1502。这些数量取决于最佳置信度阈值1503和地面真值标签。最佳置信度阈值1503对假阳性(太多检测)与假阴性(太多缺失检测)之间的关系进行加权。例如，具有落在最佳置信度阈值1503左侧的得分的边界框被视为具有不正确标签，而具有落在最佳置信度阈值1503右侧的得分的边界框被视为具有正确标签。

给定边界框得分被不正确地分类的可能性1504由未正确标记的边界框的数量1501与未正确标记的边界框的数量1501和正确标记的边界框的数量1502之和的比率来确定。如可以从图15观察到，在可能性1504中在接近行人标签的最佳置信度阈值1503处存在峰1505。当选择未标记的边界框用于注释时，主动学习***1400将选择具有在峰1505周围的边界框得分的边界框。

返回参考图14，由主动学习***1400进行的下一步骤是针对各标签、传感器和尺度来计算边界框集合上的空间概率密度。由于大多数数据样本是在驾驶级的同时从AV收集的，并且由于传感器(例如，照相机、LiDAR、雷达)通常在位置上是固定的，因此可以使用空间概率密度来识别将不适合注释的异常边界框。

在实施例中，针对各标签、传感器(例如，照相机)和尺度，高斯混合模型(GMM)被应用于边界框集合。GMM由样本参考帧中的边界框大小(宽度、高度)和边界框位置(x，y)来参数化，其中x、y可以是样本参考帧(例如，图像参考帧)中的边界框的左上角的位置坐标。为了将空间密度视为概率，通过将空间密度除以边界框集合中遇到的最大空间密度值来将空间密度归一化为在[0，1]的范围内。在实施例中，可以对最大空间密度值的最小值进行强制(例如，1e-4)以避免由归一化产生的除以零的错误。

再次参考图16，该绘图示出针对“bike_without_rider(没有骑车人的自行车)”标签和用于中等大小的边界框尺度(例如，框因子1.0)的照相机B0的GMM的空间概率密度。在该示例中，照相机B0面向后，这是空间概率密度沿着垂直轴对称的原因。如果照相机面对AV100的一侧，则空间概率密度可能不是对称的。

空间概率密度示出在该图像中可能发现没有骑车人的自行车的位置。该绘图可以被视为图像空间上的没有骑车人的自行车的概率分布。从绘图中可以观察到，大多数密度聚集在中间带1600中，并且存在延伸到绘图的左下侧和右下侧中的可能的峰。当选择用于标注的边界框时，主动学***的)，因而不可能在天空中检测到自行车。因此，位于中间带1600外的边界框被排除于注释。

再次参考图14，由主动学***均精确度(mAP)值的集合)，其中，各预测集合进而在框级别上是其它预测集合的“地面真值(ground truth)”。然后整体得分方差生成器1703计算整体得分方差，其是N个整体得分之间的差的度量。当选择用于注释的数据样本(例如，图像)时，主动学习***1400选择具有最高整体得分方差(最高不确定性)的数据样本。在可选实施例中，使用交叉模态整体，其中在由多个不同传感器(例如，雷达、LiDAR和照相机)输出的对象检测之间做出一致性的度量。

在实施例中，时间不一致性线索用于确定连续数据样本帧(例如，连续视频帧)是否包含时间噪声(例如，“闪烁”)。例如，在连续视频帧中对象可能消失然后重新出现。可以使用对象跟踪算法(例如，轮廓跟踪、基于内核的跟踪、基于CNN的方法)来跨帧跟踪对象以检测“闪烁”。选择引起闪烁的数据样本用于注释。

在实施例中，数字地图用于确定对象是否违反地图约束。例如，在建筑物内部检测到的小汽车违反地图约束。违反地图约束的边界框被排除在用于注释的选择之外。地图约束不需要是硬约束。在实施例中，对行人在道路、人行道等上的可能性进行统计建模。

图18示出用于自动选择用于注释的数据样本的主动学习过程的流程图。过程1800可以通过图14中所示的主动学习***使用例如图3中所示的AV计算机***300来实现。

过程1800以获得包括边界框和相应的边界框得分的数据样本(1801)开始。例如，数据样本可以由如参考图4和图5所描述的AV的感知模块中的对象检测器生成。对象检测器可以是神经网络(例如，CNN)。对象检测器可以分别采用照相机和LiDAR/雷达捕获的图像和/或点云作为输入。对象检测器输出图像或点云，该图像或点云具有围绕所检测到的对象的边界框、用于标记对象的标签和指示边界框被正确地标记的对象检测器的置信度的边界框得分。

过程1800继续生成边界框得分的分布(1802)。例如，过程1800能够将具有在最佳置信度阈值1503(图15)左侧的边界框得分的边界框识别为未正确标记，并且将具有在最佳置信度阈值1503右侧的边界框得分的边界框识别为正确标记。然后可以使用未正确和正确标记的边界框的数量来创建堆叠直方图以近似分布，如参考图15所描述的。针对堆叠直方图的各区间计算可能性且使用该可能性来选择用于注释的边界框。

处理1800继续基于框大小和位置针对各标签、传感器和尺度生成边界框集合上的空间概率密度(1803)。例如，可以使用由图像样本中的框大小和位置所参数化的GMM来生成边界框集合的空间概率密度。使用空间概率密度来确定异常边界框，从而进行用于注释的选择，如参考图16所描述的。

处理1800继续根据从多个机器学习模型输出的预测集合生成整体得分方差(1804)。例如，利用训练数据(例如，训练图像)来训练N个机器学习(ML)模型(例如，3个CNN)。机器学习模型的“整体”生成被馈送到成对比较器模块中的N个预测集合。成对比较器模块计算N个预测集合之间的成对一致性以生成N个整体得分(例如，N个mAP值的集合)，其中，各预测集合进而在框级别上是其它预测集合的“地面真值”。然后整体得分方差生成器计算整体得分方差，其是N个整体得分之间的差的度量。当选择用于注释的边界框时，主动学习***将选择具有最高方差的数据样本。在可选实施例中，使用交叉模态整体，其中在由多个不同传感器(例如，雷达、LiDAR和照相机)输出的对象检测之间做出一致性的度量。

过程1800继续使用边界框得分分布、空间概率密度和整体得分方差的特定组合来选择用于注释的数据样本(1805)。在实施例中，在不使用空间概率密度的情况下，使用整体得分方差和边界框得分的分布来选择用于注释的数据样本。在实施例中，在不使用边界框得分的分布的情况下，使用整体得分方差和空间概率密度来选择用于注释的数据样本。在实施例中，在不使用整体得分方差的情况下，使用边界框得分的分布和空间概率密度来选择用于注释的数据样本。

在先前描述中，已经参考许多具体细节描述了本发明的实施例，这些具体细节可因实现而不同。因此，说明书和附图应被视为说明性的，而非限制性意义的。本发明范围的唯一且排他的指示、以及申请人期望是本发明范围的内容是以发布权利要求书的具体形式从本申请发布的权利要求书的字面和等同范围，包括任何后续修正。本文中明确阐述的用于被包括在此类权利要求中的术语的任何定义应当以此类术语如在权利要求书中所使用的意义为准。另外，当在先前的说明书或所附权利要求书使用术语“还包括”时，该短语的下文可以是附加的步骤或实体、或先前所述的步骤或实体的子步骤/子实体。

Claims

1.一种方法，包括：

使用一个或多个处理器获得数据样本集合，其中，各数据样本包括一个或多个边界框，各边界框包含环境中的潜在对象或场景，各边界框具有标签和指示所述标签正确的置信度的边界框得分；以及

使用所述一个或多个处理器基于边界框预测置信度和整体得分方差来选择用于注释的数据样本子集，所述边界框预测置信度是使用边界框得分的概率分布来确定的，以及所述整体得分方差基于根据由多个机器学习模型所输出的预测集合所计算出的整体得分的差。

2.根据权利要求2所述的方法，还包括：

使用所述一个或多个处理器基于所述边界框预测置信度、由边界框大小和位置参数化的所述边界框的空间概率密度、以及所述整体得分方差来选择用于注释的所述数据样本子集。

3.根据权利要求1所述的方法，其中，所述边界框预测还包括：

针对各标签：

生成边界框得分的概率分布；

基于所述分布来确定特定边界框未正确标记的可能性；以及

基于所述可能性来选择所述特定边界框用于注释或将所述特定边界框排除于注释。

4.根据权利要求3所述的方法，其中，所述分布由具有表示边界框得分的范围的区间的直方图近似，并且各区间与可能性相关联。

5.根据权利要求4所述的方法，其中，针对各区间，根据分配给该区间的未正确标记的边界框的数量与分配给该区间的所述未正确标记的边界框的数量和标记的边界框的数量之和的比率来计算所述可能性。

6.根据权利要求2所述的方法，还包括：

针对各标签、传感器和尺度：

针对所述标签、传感器和尺度，在边界框集合上使用高斯混合模型即GMM来确定所述空间概率密度，其中，所述GMM通过边界框大小和位置来参数化。

7.根据权利要求6所述的方法，其中，所述标签的空间概率密度是通过将该标签的空间密度除以该标签的所有空间密度值中的最大密度值来确定的。

8.根据权利要求1所述的方法，还包括：

通过多个不同的机器学习模型处理所述数据样本以生成预测的标记边界框；

计算对预测的标记边界框的各成对比较的整体得分，其中，各预测的标记边界框是用于与其它预测的标记边界框进行比较的地面真值；以及

基于所述整体得分来计算整体得分方差。

9.根据权利要求8所述的方法，其中，所述多个不同的机器学习模型包括通过由不同类型的传感器所提供的训练数据样本调谐的多个不同的神经网络。

10.根据权利要求9所述的方法，其中，所述不同类型的传感器包括光检测和测距即LiDAR、雷达和照相机。

11.根据权利要求9所述的方法，其中，所述多个不同的神经网络是在不同随机顺序的训练数据样本上被训练的。

12.根据权利要求1所述的方法，还包括：

通过所述一个或多个处理器检测连续数据样本之间的时间不一致性；

根据检测到所述时间不一致性而选择所述连续数据样本中的至少一个数据样本用于注释。

13.根据权利要求1所述的方法，还包括：

通过所述一个或多个处理器使用地图约束来检测与边界框相关联的错误；以及

根据检测到所述错误而将所述边界框排除于注释。

14.一种主动学习***，包括：

存储装置，其包括数据样本；

一个或多个处理器；

存储器，其存储指令，所述指令在由所述一个或多个处理器执行时使所述一个或多个处理器执行前述权利要求1至13中任一项所述的方法：

获得数据样本集合，其中，各数据样本包括一个或多个边界框，各边界框包含环境中的潜在对象或场景，各边界框具有标签和指示所述标签正确的置信度的边界框得分；以及

基于边界框预测置信度和整体得分方差来选择用于注释的数据样本子集，所述边界框预测置信度是使用边界框得分的概率分布来确定的，所述整体得分方差基于根据由多个机器学习模型所输出的预测集合所计算出的整体得分的差。

15.根据权利要求14所述的***，还包括：

基于所述边界框预测置信度、由边界框大小和位置参数化的所述边界框的空间概率密度、以及所述整体得分方差来选择用于注释的所述数据样本子集。

16.根据权利要求14所述的***，其中，所述边界框预测还包括：

针对各标签：

生成边界框得分的概率分布；以及

基于所述分布来确定特定边界框未正确标记的可能性；以及

17.根据权利要求16所述的***，其中，所述分布由具有表示边界框得分的范围的区间的直方图近似，并且各区间与可能性相关联。

18.根据权利要求17所述的***，其中，针对各区间，根据分配给该区间的未正确标记的边界框的数量与分配给该区间的未正确标记的边界框的数量和标记的边界框的数量之和的比率来计算所述可能性。

19.根据权利要求15所述的***，还包括：

针对各标签、传感器和尺度：

20.根据权利要求19所述的***，其中，所述标签的空间概率密度是通过将该标签的空间密度除以该标签的所有空间密度值中的最大密度值来确定的。

21.根据权利要求14所述的***，还包括：

基于所述整体得分来计算整体得分方差。

22.根据权利要求21所述的***，其中，所述多个不同的机器学习模型包括通过由不同类型的传感器所提供的训练数据样本调谐的多个不同的神经网络。

23.根据权利要求22所述的***，其中，所述不同类型的传感器包括光检测和测距即LiDAR、雷达和照相机。

24.根据权利要求22所述的***，其中，所述多个不同的神经网络是在不同随机顺序的训练数据样本上被训练的。

25.根据权利要求14所述的***，还包括：

检测连续数据样本之间的时间不一致性；

26.根据权利要求14所述的***，还包括：

使用地图约束来检测与边界框相关联的错误；以及

根据检测到所述错误而将所述边界框排除于注释。