CN117011329A - 用于自主***和应用的对象追踪和碰撞时间估计 - Google Patents

用于自主***和应用的对象追踪和碰撞时间估计 Download PDF

Info

Publication number
CN117011329A
CN117011329A CN202310172835.4A CN202310172835A CN117011329A CN 117011329 A CN117011329 A CN 117011329A CN 202310172835 A CN202310172835 A CN 202310172835A CN 117011329 A CN117011329 A CN 117011329A
Authority
CN
China
Prior art keywords
image
determining
feature point
scalar
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310172835.4A
Other languages
English (en)
Inventor
M·K·科贾马兹
P·帕里克
吴相旼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nvidia Corp
Original Assignee
Nvidia Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US17/955,827 external-priority patent/US20230360232A1/en
Application filed by Nvidia Corp filed Critical Nvidia Corp
Publication of CN117011329A publication Critical patent/CN117011329A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及用于自主***和应用的对象追踪和碰撞时间估计。在各种示例中,描述了用于追踪对象和确定与对象相关联的碰撞时间值的***和方法。例如,该***和方法可以使用与第一图像中描绘的对象相关联的特征点和与第二图像相关联的特征点来确定与该对象相关联的标量变化。然后,这些***和方法可以使用标量变化来确定与该对象相关的平移。使用标量变化和平移,***和方法可以确定该对象也描绘于第二幅图像中。***和方法可以进一步使用标量变化和时间基线来确定与该对象相关联的碰撞时间。在执行确定后,***和方法可以输出至少表示对象的标识符、对象的位置和/或碰撞时间的数据。

Description

用于自主***和应用的对象追踪和碰撞时间估计
相关申请的交叉引用
本申请要求于2022年5月6日提交的美国临时申请第63/339,371号的利益,该申请在此通过引用的方式并入其全部内容。
背景技术
车辆—诸如半自主车辆和自主车辆—使用感知***来追踪周围环境中的对象或行为者。常规的***可以使用不同的技术来追踪对象,诸如使用贝叶斯滤波器(例如卡尔曼滤波器(KF)、粒子滤波器等)或深度神经网络(DNN)(例如卷积神经网络)。然而,这两种技术都严重依赖对象检测器来执行对象追踪,这可能导致不太准确或不太可靠的结果。例如,一些贝叶斯滤波器技术定义了对象从一个图像到下一个图像的运动,诸如通过使用图像之间的被追踪对象的状态转换向量。因此,当第一次在图像中观察到对象时,状态转换向量被初始化为预定值,并且基于与一个或更多个后续图像相对应的后续检测来修正这些值。预定值的初始化是一项具有挑战性的任务,这至少是由于预测对象速度的困难,并且因为在后续的确定中依赖这些初始化的值,这种挑战可以导致对象轨迹的准确性或精确性低于期望或需求。
此外,一些DNN技术试图将DNN的特征编码能力用于对象追踪。例如,大多数现有的DNN模型最初在对象检测管线中训练DNN特征。然后,现有的DNN模型使用现成的匹配/关联算法来处理DNN特征,以便将DNN特征与不同的对象相匹配。然而,在某些情况下,经学习的DNN特征和关联算法都是直接针对对象追踪任务而优化的,这可能会导致对象之间的身份切换--例如,由于对象在帧中被遮挡或以其他方式在一个或更多个帧中失去对对象的追踪。此外,为每个检测到的对象提取和缓存DNN特征在计算上会是很昂贵的。正因为如此,这些DNN模型可能不能够扩展到环境中存在大量要追踪的对象的情况。
车辆还使用这些感知***来确定与环境内与被追踪对象相关联的碰撞时间(time-to-collision,TTC)估计。例如,常规的***可以最初追踪对象,诸如通过使用上述过程中的一个或更多个,并且然后独立地确定与该对象相关联的TTC估计。为了确定TTC估计,传统***可以使用追踪对象位置作为模型的输入,该模型确定环境内追踪对象的三维(3D)速度和3D位置。使用对象的3D速度和3D位置,然后常规的***进行后处理,以计算与追踪对象相关联的TTC估计值。
发明内容
本公开的实施例涉及用于追踪对象以及使用特征点确定与对象相关联的碰撞时间(TTC)估计的技术。例如,所公开的***和方法确定多个(例如,连续的)图像中描绘的对象的特征点集。然后,***和方法使用这些特征点集来从一个图像到下一个图像追踪对象。例如,***和方法可以使用特征点集来确定至少与该对象相关联的平移(translation)和标量变化(scalar change)。然后,***和方法可以使用平移、标量变化以及与图像中描绘的对象相关联的包围形状(bounding shape)来预测与另一个后续图像相关联的包围形状。此外,该***和方法可以使用该预测的包围形状来确定另一个图像中检测到的对象与被追踪对象相关联。
本文所述的***和方法可以进一步使用特征点来确定与该对象相关联的TTC估计。例如,可使用特征点来确定与不同的特征点对相关联的相应的标量变化。然后,标量变化可用于确定在(例如时间基线)内的与该对象相关联的最终标量变化。为了确定TTC估计,可以使用一种或更多种算法来基于时间基线内的最终标量变化确定TTC估计。
与常规的***(诸如上述的***)相比,在一些实施例中,当前的***能够使用与图像相关联的特征点集来追踪对象的位置。因此,当前的***不需要或不设置任何初始状态转换向量或贝叶斯滤波器来追踪对象状态和对象的运动--这导致了与常规的***相比,追踪精度和准确性的改善。此外,与常规的***相比,本公开的***和方法可以使用与图像相关联的特征点集来确定与对象相关联的TTC估计。正因为如此,当前的***可以不使用任何二维(2D)或3D投影来确定TTC估计,而是依赖与图像空间相对应的数据来确定TTC估计——与常规的***相比,这可以进一步提高当前***的准确性和精度,同时还可以减少计算和延迟。
附图说明
下面参考附图详细描述用于追踪对象并确定与对象相关联的碰撞时间估计的本***和方法,其中:
图1示出了根据本公开的一些实施例的用于追踪对象以及确定与对象相关联的碰撞时间(TTC)估计的过程的示例数据流程图;
图2示出了根据本公开的一些实施例的与图像中描绘的对象相关联的特征点的示例;
图3示出了根据本公开的一些实施例的确定与对象相关联的包围形状的示例;
图4A至图4D示出了根据本公开的一些实施例的使用特征点确定对象的预测的状态的示例;
图5A至图5B示出了根据本公开的一些实施例的将检测到的对象与被追踪对象关联的示例;
图6示出了根据本公开的一些实施例的使用置信度分数来确定被追踪对象的各种状态的示例;
图7示出了根据本公开的一些实施例的确定与对象相关联的碰撞时间估计的示例;
图8示出了根据本公开的一些实施例的验证用于确定TTC估计的标量变化的示例;
图9是显示根据本公开的一些实施例的用于使用特征点追踪对象的方法的流程图;
图10是显示根据本公开的一些实施例的用于确定与对象相关联的TTC估计的方法的流程图;
图11A是根据本公开的一些实施例的示例自主车辆的图示;
图11B是根据本公开的一些实施例的图11A的示例自主车辆的相机位置和视野的示例;
图11C是根据本公开的一些实施例的图11A的示例自主车辆的示例***架构的框图;
图11D是根据本公开的一些实施例的用于在基于云的服务器与图11A的示例自主车辆之间通信的***图;
图12是适合用于实现本公开的一些实施例的示例计算设备的框图;以及
图13是适合用于实现本公开的一些实施例的示例数据中心的框图。
具体实施方式
公开了与追踪对象和使用特征点确定与对象相关联的碰撞时间(TTC)估计有关的***和方法。尽管可针对示例自主或半自主车辆1100(在本文可替代性地称为“车辆1100”或“自机器(ego-machine)1100”,其示例关于图11A-图11D进行了描述)描述本公开内容,这并不意味着是限制性的。例如,本文描述的***和方法可由但不限于以下各项使用:非自主车辆、半自主车辆(例如,在一个或更多个自适应驾驶辅助***(ADAS)中)、驾驶和非驾驶机器人或机器人平台、仓库车辆、越野车辆、与一辆或更多辆拖车相连的车辆、飞行船、船、穿梭机、应急车辆、摩托车、电动或机动自行车、飞机、建筑车辆、水下飞船、无人机和/或其他车辆类型。此外,尽管本公开内容可以关于对象追踪和/或TTC估计进行描述,但这并不意味着是限制性的,本文描述的***和方法可用于增强现实、虚拟现实、混合现实、机器人学、安全和监视、自主或半自主机器应用和/或可使用对象追踪或TTC(或其他冲击或碰撞确定)的任何其他技术空间。
例如,本文描述的***和方法可以确定与多个(例如,连续的、时间间隔的等)图像中描绘的对象相关联的相应的特征点集。为了确定特征点集,最初可以针对第一图像确定与该对象相关联的第一包围形状。第一包围形状可以包括与第一图像相关联的特征点,其中至少一部分特征点与对象相关并且一部分特征点可以与对象周围的背景相关联。可以确定与对象相关联的追踪形状,诸如通过减少先前确定的包围形状的大小。使用该追踪形状,可以识别与第二后续图像相关联的特征点集。此外,该特征点集可用于识别来自第一图像的对应的特征点集。这样,本文所述的***和方法可以识别包括与对象相关联的特征点的特征点集,而不包括与对象周围背景或环境相关联的特征点。
然后,***和方法可以使用特征点集来确定与对象相关联的从第一图像(例如,在时间=t-b,其中b是时间基线)到第二图像(例如,在时间=t)的状态变化。例如,特征点集可以用于确定与对象相关联的一个或更多个参数—诸如平移和标量变化。为了确定这些参数,第一图像中特征点对之间的第一距离和第二图像中的对应特征点对之间的第二距离被确定。然后确定特征点对之间的标量变化,诸如通过从第一距离中减去第二距离,并且使用标量变化来确定最终标量变化。在一些示例中,最终标量变化可以基于标量变化的平均值、标量变化的中位数、标量变化的众数(mode)和/或使用一种或更多种附加的和/或可替代的技术来确定。
然后使用最终标量变化来确定特征点中的一个或更多个的平移。例如,可通过将第一图像中的特征点乘以最终标量变化并且然后减去第二图像中的特征点位置来确定特征点的平移。这个过程可以被应用于特征点集中的一个或更多个特征点,以便确定该特征点的平移。此外,可以使用该特征点的平移来确定最终平移。在一些示例中,最终平移可以基于平移的平均值、平移的中位数、平移的众数和/或使用一种或更多种附加的和/或可替代的技术来确定。
然后,***和方法可以使用与第一图像相关联的第一包围形状、最终标量变化和最终平移,从第一图像到第二图像追踪对象。例如,可以使用与第一图像相关联的第一包围形状、最终标量变化和最终平移来确定对象的预测的包围形状。在一些示例中,预测的包围形状可以通过以下过程来确定:将与第一包围形状相对应的值(例如,大小、尺寸、点的坐标等)乘以最终标量变化来确定并且然后基于平移来移动该包围形状。然后可以使用预测的包围形状和与检测到的对象相关联的第二包围形状确定,使用第二图像检测到的对象与来自第一图像的对象(例如,被追踪对象)相关联。然后,这些过程可以在任何数量的迭代中重复进行,以便在多个图像中追踪对象—诸如直到在某阈值数量的后续帧(例如,一帧、十帧、十五帧等)中不再检测到该对象。
如本文所述,在一些示例中,***和方法可以进一步使用特征点集来确定与对象相关联的TTC估计。例如,该***和方法可以执行上述过程中的一个或更多个,以确定从第一图像到第二图像的特征点对的标量变化。在一些示例中,与不满足(例如,小于)阈值距离的一个或更多个距离相关联的标量变化中的一个或更多个可以被过滤掉。然后,使用剩余的标量变化来确定TTC估计的最终标量变化。在一些示例中,最终标量变化是基于标量变化的平均值、标量变化的中位数、标量变化的众数和/或使用一种或更多种附加的和/或可替代的技术来确定的。然后,该***和方法可以使用一种或更多种算法来基于最终标量变化和第一图像与第二图像之间的时间基线确定TCC估计。在一些示例中,并且如本文更详细描述的那样,可以使用一种或更多种平滑操作来确定最终的TTC。
本文描述的***和方法可由但不限于非自主车辆、半自主车辆(例如,在一个或更多个自适应驾驶辅助***(ADAS)中)、驾驶的和非驾驶的机器人或机器人平台、仓库车辆、越野车辆、与一个或更多个拖车相连的车辆、飞行船、船、穿梭机、应急车辆、摩托车、电动或机动自行车、飞机、建筑车辆、水下飞船、无人机和/或其他车辆类型来使用。此外,本文描述的***和方法可用于各种目的,通过举例且不限于机器控制、机器运动、机器驾驶、合成数据生成、模型训练、感知、增强现实、虚拟现实、混合现实、机器人学、安全和监视、自主或半自主机器应用、深度学习、环境模拟、数据中心处理、对话式AI、光传输模拟(例如,光线追踪、路径追踪等)、3D资产的协作内容创建、云计算和/或任何其他合适的应用。
所公开的实施例可包含在各种不同的***中,例如汽车***(例如,用于自主或半自主机器的控制***、用于自主或半自主机器的感知***)、使用机器人实现的***、航空***、医疗***、划船***、智能区域监测***、用于执行深度学习操作的***、用于执行模拟操作的***、使用边缘设备实现的***、合并一个或更多个虚拟机(VM)的***、用于执行合成数据生成操作的***、至少部分地在数据中心中实现的***、用于执行对话式AI的***、用于执行光传输模拟的***、用于执行3D资产协作内容创建的***、至少部分地使用云计算资源实现的***和/或其他类型的***。
图1示出了根据本公开内容的一些实施例的用于追踪对象并确定与该对象相关联的碰撞时间(TTC)估计的过程100的示例数据流程图。应该理解的是,这里描述的这种和其他安排只是作为示例提出。其他安排和元素(例如,机器、界面、功能、命令、功能的分组等)可以用来补充或代替所示的那些安排和元素,并且一些元素可以完全省略。此外,本文描述的许多元素是功能实体,可以作为离散的或分布式的组件,或与其他组件结合,并且以任何合适的组合和位置来实现。本文描述的由实体执行的各种功能可以由硬件、固件和/或软件来执行。例如,各种功能可以由执行存储在存储器中的指令的处理器来执行。在一些实施例中,本文描述的***、方法和过程可以使用与图11A-图11D的示例自主车辆1100、图12的示例计算设备1200和/或图13的示例数据中心1300的类似组件、特征和/或功能来执行。
过程100可以包括追踪环境内的对象的追踪组件102。例如,追踪组件102可以包括预测组件104,该预测组件处理检测的对象数据106和特征点数据108,以预测在由传感器数据(例如图像数据)表示的图像(或其他传感器数据表示,诸如点云、投影图像等)上的对象的新状态。在一些示例中,车辆的感知***最初检测图像内的对象并且然后将检测的对象数据106和特征点数据108发送到追踪组件102。
例如,图2示出了根据本公开的一些实施例的与由传感器数据206表示的图像204相关联的特征点202(1)-(24)(也单数称为“特征点202”或复数称为“特征点202”)(其可由特征点数据108表示)的示例。在一些示例中,车辆的感知***208最初处理可以包括图像数据的传感器数据108。图像数据可以包括表示描绘车辆的一个或更多个相机(例如,图像传感器)的一个或更多个视场的图像的数据,诸如立体相机、广角相机(例如,鱼眼相机)、红外相机、环绕相机(例如,360度相机)、长程和/或中程相机和/或自主车辆的其他相机类型。在一些示例中,图像数据可以以一种格式(例如,RCCB、RCCC、RBGC等)捕获,并且然后(例如,在图像数据的预处理期间)转换为另一种格式。在其他一些示例中,图像数据可以作为输入提供给传感器数据预处理器(未显示)以生成预处理的图像数据(本文所讨论的)。许多图像的类型或格式可以被用作输入;例如,压缩图像(诸如联合摄影专家组(JPEG)、红绿蓝(RGB)或亮度/色度(YUV)格式)、压缩图像作为源自压缩视频格式的帧(诸如H.264/高级视频编码(AVC)或H.265/高效视频编码(HEVC))、原始图像(诸如源自红清蓝(RCCB)、红清(RCCC)或其他类型成像传感器)。在一些示例中,不同的格式和/或分辨率可以被用于训练神经网络,而不是用于推理(例如,在自主车辆中部署机器学习模型期间)。
感知***208可以使用一种或更多种技术来处理传感器数据206,以便确定特征点202。这些技术可以包括但不限于哈里斯角(Harris Corner)、尺度不变特征变换(ScaleInvariant Feature Transform,SIFT)、加速稳健特征(Speeded Up Robust Feature,SURF)、来自加速段测试特征(Features from Accelerated Segment Test,FAST)、定向FAST和旋转BRIEF(Oriented FAST and Rotated BRIEF,ORB)和/或任何其他技术。虽然图2的示例示出了与图像204相关联的二十四个特征点202,但在其他示例中,图像可以与任何数量的特征点(例如,一个特征点、五个特征点、五十个特征点、一百个特征点、一千个特征点,等等)相关联。此外,虽然图1-2的示例示出了感知***208与追踪组件102和预测组件104分开,在其他示例中,感知***208可以作为追踪***102和/或预测组件的一部分被包括。
感知***208还可以包括用于执行对象检测、分割和/或分类的功能。例如,感知***208可以输出指示检测到的驾驶表面上的车道和边界、检测到的可驾驶的自由空间、检测到的杆或标志、检测到的交通灯、检测到的环境中的对象(例如,车辆、行人、动物、无生命对象等)、检测到的等待条件和交叉口和/或类似物的对象数据106。在附加的或可替代的示例中,感知***208可以生成对象数据106,该对象数据指示与检测到的对象和/或该对象所处的环境相关联的一个或更多个特性。与对象相关联的特性可以包括但不限于x-位置(全局和/或局部位置)、y-位置(全局和/或局部位置)、z-位置(全局和/或局部位置)、取向(例如,滚动、俯仰、偏航)、对象分类(例如,对象的类型)、速度、加速度、对象的范围(大小)等。
在感知***208执行检测的那些实施例中,感知***208可以生成指示在图像中检测到的对象的检测的输出数据106。这样的检测可以包括检测到的对象的二维包围形状和/或掩码。此外,在一些示例中,输出数据106可以指示与对象相关联的概率,诸如与对象的位置、对象的分类和/或类似物相关联的概率。在一些示例中,感知***208的检测可以使用机器学习方法(例如,尺度不变特征变换(scale-invariant feature transform,SIFT)、定向梯度直方图(histogram of oriented gradient,HOG)等),然后是支持向量机(supportvector machine,SVM),来对由传感器数据206表示的图像中描绘的对象进行分类。此外,或者可替代地,检测可以利用基于卷积神经网络(convolutional neural network,CNN)的深度学习方法来对由传感器数据206表示的图像中描绘的对象进行分类。
例如,图3示出了根据本公开的一些实施例的感知***208确定与图像204中描绘的对象304相关联的包围形状302的示例。在一些示例中,感知组件206可以使用一个或更多个对象识别和/或计算机视觉技术来确定包围形状302。对象识别和/或计算机视觉技术可以包括但不限于SURF、FAST、FAST R-CNN、只看一次(You Only Look Once,YOLO)、定向梯度直方图(HOG)、空间金字塔池化(Spatial Pyramid Pooling,SPP-net)和/或任何其他技术。虽然图3的示例示出包围形状302包括矩形,但在其他示例中,包围形状302可以包括任何其他形状(例如,圆形、三角形、正方形、六角形等)。
然后预测组件104可以使用表示特征点202的特征点数据108和表示至少包围形状302的对象数据106来预测对象304的新状态。例如,图4A-图4D示出了根据本公开的实施例的使用特征点202和包围形状302来确定在后续的图像402内的对象304的新状态(其中对象304由于清晰的原因没有被示出)的示例。如图4A的示例所示,预测组件104可以使用包围形状302来确定后续图像402内的追踪形状402。在一些示例中,预测组件104可以通过缩小包围形状302的大小(诸如通过标量值)来确定被追踪形状402。在一些示例中,预测组件104可以使用一个或更多个因素来确定被追踪形状304(例如,标量值)。如本文所述,因素可以包括但不限于对象的分类、与对象的距离、对象的大小(例如,如在图像204中描绘的)和/或任何其他因素。
如图所示,追踪的形状402包括为图像404确定的特征点406(1)-(6)(也单数称为“特征点406”或复数称为“特征点406”),诸如通过使用与特征点202类似的过程(例如,使用感知***208)。然后,预测组件104可以使用来自图像204的特征点406和对应的特征点202来预测对象304的新状态。在一些示例中,预测组件104可以使用至少阈值数量的特征点406来预测对象304的新状态。阈值数量的特征点406可以包括但不限于两个特征点406、五个特征点406、十个特征点406、五十个特征点406和/或任何其他数量的特征点406。
在图4A的示例中,预测组件104(和/或感知***208)可以使用本文所述的一个或更多个过程来确定与特征点406相对应的特征点202(1)-(6)。例如,如显示,预测组件104可以确定特征点406(1)与特征点202(1)相对应,特征点406(2)与特征点202(2)相对应,特征点406(3)与特征点202(3)相对应,特征点406(4)与特征点202(4)相对应,特征点406(5)与特征点202(5)相对应,特征点406(6)与特征点202(6)相对应,这在图4A的示例中由箭头指示。换句话说,预测组件104可以确定来自图像404的特征点406(1)-(6)分别是与来自图像204的特征点202(1)-(6)相同的特征点。
如图4A的示例还示出的那样,通过使用被追踪形状402来确定特征点406,预测组件104可以在预测对象304的新状态时不考虑与其他对象和/或背景相关联的特征点202。例如,预测组件104在预测对象304的新状态时可以不考虑由“X”指示的特征点202(11)(和/或类似的特征点202(12)-(24),由于清晰原因未示出)。此外,预测组件104可以不考虑与对象304相关联的至少一些特征点202。例如,预测组件104在预测对象304的新状态时可以不考虑也由“X”指示的特征点202(7)(和/或类似的特征点202(8)-(9),为清晰起见没有示出)。然而,预测组件104仍然能够用与对象304相关联的剩余特征点202(1)-(6)来预测对象304的新状态。
然后,预测组件104可以确定特征点对202、406的标量变化。例如,并且如图4B的示例所示,并且对于特征点对202(1)-(2)、406(1)-(2),预测组件104可以确定特征点202(1)与特征点202(2)之间的第一距离408(1)以及特征点406(1)与特征点406(2)之间的第二距离408(2)。然后,预测组件104可以基于第一距离408(1)和第二距离408(2)来确定与特征点对202(1)-(2)、406(1)-(2)相关联的标量变化。例如,在一些示例中,预测组件104可以通过取第二距离408(2)和第一距离408(1)之间的差异来确定与特征点对202(1)-(2)、406(1)-(2)相关联的标量变化。然后,预测组件104可以执行类似的过程以确定与另一对特征点202、406相关联的标量变化。例如,并且在一些示例中,预测组件104可以为每对特征点202、406确定标量变化。
在一些示例中,并且如图4C的示例所示,预测组件104可以生成与特征点202、406的对414(1)-(15)(也单数称为“对414”或复数称为“对414”)相关联的标量变化412(1)-(15)列表410(也单数称为“标量变化412”或复数称为“标量变化412”)。在图4C的示例中,预测组件104确定了15个标量变化412,因为特征点202、406的对414有15个不同的组合。然而,在其他示例中,如本文所述,预测组件104可以为少于特征点202、406的对414的所有组合确定标量变化412。然后,预测组件104可以使用列表410来确定与对象304相关联的最终标量变化。
在一些示例中,在确定最终标量变化之前和/或同时,预测组件104可以最初过滤掉与不满足(例如,小于)阈值距离的距离相关联的特征点202、406的对414。例如,并参考图4B,预测组件104可以确定特征点202(5)与特征点202(6)之间的第三距离408(3)和/或特征点406(5)与特征点406(6)之间的第四距离408(4)。然后,预测组件104可以确定第三距离408(3)和/或第四距离408(4)小于阈值距离。因此,预测组件104可以没有最初确定与包括特征点202(5)-(6)、406(5)-(6)的对414(15)相关联的标量变化412(15)和/或在确定最终标量变化时可以过滤掉标量变化412(15)。
然后,预测组件104可以使用标量变化412(和/或过滤后的剩余标量变化412)来确定最终标量变化。如本文所述,预测组件104可以将最终标量变化确定为标量变化412的平均值、标量变化412的中位数、标量变化412的众数,和/或使用一种或更多种附加的和/或可替代的技术。然后,预测组件104可以使用最终标量变化来确定在图像204和图像404之间的与对象304相关联的平移。
例如,预测组件104可以确定与特征点202(1)-(6)中的一个或更多个相关联的一个或更多个平移。为了确定与特征点202相关联的平移,预测组件104可以将特征点202乘以最终标量变化,并且然后用对应的特征点406的位置减去该结果。例如,并且对于特征点202(1),预测组件104可以通过将特征点202(1)乘以最终标量变化,并且然后用与特征点202(1)相对应的特征点406(1)的位置减去该结果来确定平移。在一些示例中,预测组件104可以执行类似的过程以确定其他特征点202(2)-(6)中的一个或更多个(例如,全部)的平移。然后,预测组件104可以使用该平移来确定与对象304相关联的最终平移。如本文所述,预测组件104可以将最终平移确定为平移的平均值、平移的中位数、平移的众数,和/或使用一种或更多个附加的和/或可替代的技术。
接下来,并且如图4D的示例所示出,预测组件104然后可以使用包围形状302、最终标量变化和最终平移来确定图像404中描绘的对象304的新包围形状416(出于清晰的原因在图4D的示例中未示出)。在一些示例中,预测组件104通过将包围形状302乘以最终标量变化,并且然后加上最终平移来确定预测的包围形状416。因此,预测组件104可以将预测的包围形状416的大小确定为包围形状302乘以最终标量变化的大小。然后,预测组件104可以通过在与最终平移相关联的x方向和y方向上移动预测的包围形状416,来确定预测的包围形状416的位置。在图4A-图4D的示例中,预测的包围形状416可以表示对象304的预测的状态。
尽管在此被称为标量变化,但在实施例中,变化可以使用标量值以外的东西来表示。例如,变化可以使用变化的向量、张量和/或其他表示方法来反映。
参考图1,过程100可以包括预测组件102的关联组件110确定被追踪对象和在(例如,后续)图像内检测到的对象之间的关联。在一些示例中,关联组件110使用检测到的对象的确定位置(例如,使用对象数据106)和被追踪对象的预测位置(例如,预测的包围形状416)来确定检测到的对象的分数。在一些示例中,关联组件110为检测到的对象确定多于一个分数,其中各个分数将检测到的对象与相应的被追踪对象的相应的预测位置关联。例如,如果在图像内检测到五个对象,并且追踪组件102当前正在追踪四个对象,那么关联组件110可以确定二十个分数。
例如,图5A示出了根据本公开的一些实施例的针对检测到的对象确定分数的示例,其中分数随后被用于将检测到的对象与被追踪对象关联起来。如图5A的示例所示,假设组件110可以使用由预测组件104确定的预测的包围形状416和针对检测到的对象504(1)的确定的包围形状502(1)来确定检测到的对象504(1)是被追踪对象304的第一分数。在一些示例中,包围形状502(1)是使用与包围形状302类似的一个或更多个过程(例如,使用感知***208)确定的。在一些示例中,关联组件110可以使用交并比(Intersection overUnion,IoU)来确定第一分数。例如,包围形状502(1)和预测的包围形状416之间的重叠越大,第一分数越高。此外,包围形状502(1)和预测的包围形状416之间的重叠越小,第一分数就越低。然而,在其他示例中,关联组件110可以使用一种或更多种附加的和/或可替代的技术来确定第一分数。
在图5A的示例中,关联组件110可以进一步使用另一个被追踪对象的预测的包围形状506和包围形状502(1)确定检测到的对象504(1)与另一个追踪对象相关联的第二分数。此外,关联组件110可以使用与检测到的对象504(2)相关联的包围形状502(2)和预测的包围形状416来确定被追踪对象504(2)是与预测的包围形状416相关联的追踪对象的第三分数。最后,关联组件110可以使用与检测到的对象504(2)相关联的包围形状502(2)和预测的包围形状504来确定检测到的对象504(2)是与预测的包围形状504相关联的被追踪对象的第四分数。因此,由于有两个检测到的对象504(1)-(2)和两个与预测的包围形状416、504相关联的被追踪对象,关联组件110可以确定四个分数。
在一些示例中,并且如图5B所示,关联组件110可以生成包括与检测到的对象504(1)-(2)相关联的分数512(1)-(4)(也被单数称为“分数512”或复数称为“分数512”)的关联表510。例如,并且如图5B的示例所示,关联表510可以包括检测到的对象502(1)-(2)和被追踪对象之间的各种关联514(1)-(4)(也被单数称为“关联514”或复数称为“关联514”)。例如,关联表510包括检测到的对象504(1)和与预测的包围形状416相关联的被追踪对象(例如,对象304)之间的第一关联514(1),检测到的对象504(1)和与预测的包围形状504相关联的被追踪对象之间的第二关联514(2),检测到的对象504(2)和与预测的包围形状416相关联的被追踪对象之间的第三关联514(3),以及检测到的对象504(2)和与预测的包围形状504相关联的被追踪对象之间的第四关联514(4)。然后,关联组件110可以使用关联表510将检测到的对象504(1)-(2)关联于与预测的包围形状416、504相关联的被追踪对象。
例如,在一些示例中,关联组件110可以确定检测到的对象504(1)-(2)是与最高分数512相关联的被追踪对象。例如,关联组件110可以基于比第一分数512(1)大于第二分数512(2)来确定检测到的对象504(1)是与预测的包围形状416相关联的被追踪对象,该预测的包围形状可以包括对象304。在一些示例中,关联组件110可以设置用于将检测到的对象504(1)-(2)与追踪对象关联的最小阈值分数。例如,并且使用图5A-5B的示例,关联组件110可以确定第三分数512(3)和第四分数512(4)小于最小阈值分数。因此,关联组件110可以确定检测到的对象504(2)不与被追踪对象相关联(例如,检测到的对象504(2)包括新的对象,这将本文详细描述)。
参考图1,过程100可以包括追踪组件102的更新组件112,如果识别被追踪对象的关联,则更新被追踪对象的追踪形状。例如,并且使用图2至图5B的示例,与对象304相关联的追踪形状416可以基于图像404内检测到的对象504(1)与对象304相关联而使用包围形状502进行更新。这样,追踪组件102能够继续追踪对象304的位置,因为表示描绘对象304的新图像的传感器数据106由追踪组件102接收。
另外,在一些示例中,配置更新组件112以更新被追踪对象中的一个或更多个(例如,每个)的相应的置信度分数。例如,更新组件112可以在追踪组件102使用本文所述的过程最初识别对象(例如,检测到的对象504(2))时为新对象确定初始置信度分数。然后,更新组件112可以基于是否与图像中检测到的对象形成关联来增加或减少被追踪对象的置信度分数。例如,更新组件112可以在关联组件110每次能够将被追踪对象与图像中的检测到的对象关联起来时,增加被追踪对象的置信度分数(在实施例中,不超过最大置信度值)。例如,并且使用图2至5B的示例,更新组件112可以基于将图像204中描绘的对象304与来自图像404的检测到的对象504(1)关联起来,来更新与对象304相关联的置信度分数。此外,更新组件112可以在关联组件110每次无法将被追踪对象与来自图像的检测到的对象关联起来时降低置信度分数(在实施例中,不低于最小置信度值)。
在一些示例中,更新组件112可以线性地更新与被追踪对象相关联的置信度分数。例如,当关联组件110将检测到的对象与被追踪对象关联时,关联组件112可以通过例如设定量来增加与追踪对象相关联的置信度分数。此外,当关联组件110不能将检测到的对象与被追踪对象关联时,关联组件112可以通过例如设定量(与用于正向关联的量相同或不同的量)来减少与被追踪对象相关联的置信度分数。在一些示例中,更新组件112可以非线性地更新与被追踪对象相关联的置信度分数。在这样的示例中,更新组件112可以在更新置信度分数时使用一个或更多个因素。该一个或更多个因素可以包括,但不限于,对象是否在图像内被遮挡,与被追踪对象相关联的特征点的数量,与检测到的对象相关联的特征点的数量,被追踪对象的分类,到被追踪对象的距离,和/或类似因素。
在一些示例中,更新组件112可以进一步被配置为使用置信度分数来更新与被追踪对象相关联的一个或更多个状态。例如,图6示出了根据本公开内容的一些示例的在时间段604内使用置信度分数602更新与被追踪对象相关联的状态的示例。如图6的示例所示,置信度分数602在时间T(0)时最初为零,因为追踪组件102尚未检测到与置信度分数602相关联的被追踪对象。然后,追踪组件102可以继续使用时间T(0)和时间T(2)之间的图像来检测被追踪对象。因此,并且如图所示,更新组件112可以开始增加与时间T(0)和时间T(2)之间的被追踪对象相关联的置信度分数602。
接下来,追踪组件102可以不再使用时间T(2)和时间T(3)之间的图像来检测被追踪对象。因此,如图所示,更新组件112可以开始减少与时间T(2)和时间T(3)之间的被追踪对象相关联的置信度分数602。接下来,追踪组件102可以再次使用时间T(3)和时间T(4)之间的图像检测被追踪对象。因此,如图所示,更新组件112可以再次增加与时间T(3)和时间T(4)之间的被追踪对象相关联的置信度分数602。最后,追踪组件102可以再次不再使用时间T(4)和时间T(7)之间的图像来检测被追踪对象。因此,并且如图所示,更新组件112可以开始减少与时间T(4)和时间T(7)之间的被追踪对象相关联的置信度分数602。
如图6的示例进一步所示,更新组件112可以使用阈值606(1)-(3)(也被单数称为“阈值606”或复数称为“阈值606”)来确定与被追踪对象相关联的状态。例如,更新组件112可以最初确定被追踪对象处于时间T(0)和时间T(1)之间的第一状态,因为置信度分数602不满足(例如,小于)第一阈值606(1)。在一些示例中,第一状态可能与被追踪对象尚未被验证为实际对象(例如,预追踪对象)相关联。然后,更新组件112可以基于置信度分数602满足(例如,等于或大于)第一阈值606(1)来确定被追踪对象在时间T(1)处从第一状态切换到第二状态。在一些示例中,第二状态可以与确认被追踪对象是实际对象而不是与追踪组件102和/或感知***208相关联的错误相关联。
更新组件112还可以基于置信度分数602不满足(例如,小于)第二阈值604(2)来确定被追踪对象在时间T(5)处从第二状态切换到第三状态。如本文更详细地描述的那样,第三状态也与“预追踪”对象相关联,其中与被追踪对象相关联的数据不再由追踪组件102输出。接下来,更新组件112可以基于置信度分数602不满足(例如,小于)第三阈值604(3)来确定被追踪对象在时间T(6)处从第三状态切换到第四状态。如本文更详细的描述,第四状态与终止关联于该对象的轨道相关联。
虽然图6的示例示出第一阈值606(1)大于第二阈值606(2)和第三阈值606(3),但在其他示例中,第一阈值606(1)可以小于第二阈值606(2)和/或第三阈值606(3)。此外,虽然图6的示例示出第二阈值606(2)大于第三阈值606(3),但在其他示例中,第二阈值606(2)可以小于第三阈值606(3)。
另外,虽然图6的示例描述了使用置信度分数602来确定状态,但在一些示例中,更新组件112可以使用一种或更多种附加的和/或可替代的技术来确定状态。例如,更新组件112可以基于描绘被追踪对象的图像的第一百分比(例如,基于确定在第一阈值百分比的图像中检测到的对象与被追踪对象相关联)来确定被追踪对象从第一状态切换到第二状态。图像的第一阈值百分比可以包括,但不限于,图像的百分之五十,图像的百分之七十五,图像的百分之九十,和/或任何其他百分比。例如,如果图像的第一阈值百分比是百分之八十,那么更新组件112可以基于在五张图像中的至少四张图像中检测到被追踪对象来确定被追踪对象从第一状态切换到第二状态。
更新组件112还可以基于第二百分比的图像不描绘被追踪对象(例如,基于确定被追踪对象在第二阈值百分比的图像中不与检测到的对象相关联)来确定被追踪对象从第二状态切换到第四状态(和/或第三状态)。图像的第二阈值百分比可以包括但不限于图像的百分之五十,图像的百分之七十五,图像的百分之九十,和/或任何其他百分比。例如,如果图像的第二阈值百分比再次为百分之八十,那么更新组件112可以基于在五张图像中至少有四张图像没有检测到被追踪对象来确定被追踪对象从第二状态切换到第四状态。
参考图1,过程100还可以包括追踪组件102的终止组件114终止与被追踪对象相关联的轨道。例如,基于更新组件112将被追踪对象的状态更新为第四状态,这在本文进行了描述,终止组件114可以终止该对象的轨道。因此,追踪组件102可以不再使用新的图像追踪该对象,或者如果该对象重新出现时可以使用新的轨道来追踪该对象。
该过程100还可以包括追踪组件102的创建组件116为检测到的新对象创建新的轨道。例如,无论何时由追踪组件102检测到新对象时(例如,关联组件110确定不与被追踪对象关联的检测到的对象和/或更新组件112确定对象处于第一状态),创建组件116可以创建与该对象关联的新轨道。通过创建新轨道,追踪组件102然后可以执行本文所述的过程,以使用新图像追踪该对象。
该过程100还可以包括追踪组件102生成与追踪对象相关联的输出数据118。如本文所述,追踪对象的输出数据118可以包括与对象相关联的标识符(例如,数字标识符、字母标识符、字母数字标识符和/或任何其他类型的标识符)、对象的位置(例如,与该对象相关联的更新的包围形状)、与对象相关联的分类(例如,车辆、行人、标志、结构、道路等)、与对象相关联的置信度分数和/或任何其他信息。在一些示例中,输出数据118包括与一个或更多个(例如,全部)关联于第二状态的对象相关联的信息。在一些示例中,输出数据118包括与关联于其他状态中的一个或更多个的一个或更多个(例如,全部)对象相关联的信息。
在一些示例中,追踪组件102可以继续执行本文所述的过程,以随着生成和/或接收新传感器数据206来追踪对象。此外,虽然图2至图6的示例描述了在图像上追踪单个对象304,但在其他示例中,追踪组件102可以执行类似的过程来追踪任何数量的对象。
该过程100还可以包括碰撞组件120,该碰撞组件被配置呈确定与被追踪对象相关联的TTC估计。例如,并且如图所示,碰撞组件120可以包括处理对象数据106、特征点数据108和/或由追踪组件102输出以确定被追踪对象的TTC估计的数据的TTC组件122。在一些示例中,为了确定被追踪对象的TTC估计,TTC组件122可以执行本文所述的关于追踪组件102的过程中的一个或更多个,以确定与被追踪对象相关联的最终标量变化(和/或可以从追踪组件102接收表示最终标量变化的数据)。TTC组件122还可以确定与用于确定最终标量变化的图像相关联的时间基线。例如,TTC组件122可以将时间基线确定为生成图像的时间之间的时间差。例如,并且使用图2至图5B的示例,TTC组件122可以将时间基线确定为生成图像204的时间与生成图像404的时间之间的时间差。然后,TTC组件122可以使用最终标量变化和时间基线来确定TTC估计。例如,TTC组件122可以通过将时间基线除以最终标量变化来确定TTC估计。
在一些示例中,TTC组件122可以执行一个或更多个平滑操作以确定与被追踪对象相关联的最终TTC估计。例如,图7示出了根据本公开的一些实施例的使用一种或更多种平滑技术来确定与被追踪对象相关联的最终TTC估计的示例。在图7的示例中,TTC组件122可以执行本文所述的过程以确定与被追踪对象相关联的TTC估计702(1)-(N)(也单数称为“TTC估计702”或复数称为“TTC估计702”)。然后,TTC组件122可以使用平滑窗口持续时间704(1)-(M)(也被单数称为“平滑窗口持续时间702”或复数称为“平滑窗口持续时间702”)来确定与被追踪对象相关联的最终TTC估计,这样在每个实例中TTC组件122确定与被追踪对象相关联的相应的TTC估计702。在一些示例中,平滑窗口持续时间704与时间段相关联,诸如,但不限于,十毫秒、一百毫秒、一秒钟和/或任何其他时间段。在一些实例中,平滑窗口持续时间704与设定的图像数量(例如,由传感器数据106表示的帧)相关联,诸如,但不限于,五个图像、十个图像、二十个图像、五十个图像和/或任何其他数量的图像。
对于确定最终TTC估计的示例,TTC组件122可以执行本文所述的过程以确定在特定时间的被追踪对象的TTC估计702(5)。然后,TTC组件122可以使用与特定时间的TTC估计702(5)的平滑窗口持续时间704(2)相关联的TTC估计702(2)-(5)来确定特定时间的被追踪对象的最终TTC估计。在一些示例中,TTC组件122将最终TTC估计确定为TTC估计702(2)-(5)的平均值、TTC估计702(2)-(5)的中位数、TTC估计702(2)-(5)的众数,和/或使用一种或更多种附加的和/或可替代的技术。在一些实施例中,可以使用加权,诸如对最近的TTC估计702比先前的TTC估计702加权更高。
在一些实施例中,TTC组件122可以在平滑计算中使用TTC估计702之前最初验证与对象相关联的TTC估计702。例如,图8示出了根据本公开的一些实施例的验证TTC估计的示例。如图所示,TTC组件122可以存储与被追踪对象相关联的对象状态历史信息802。在一些实施例中,当追踪组件102将检测到的对象与被追踪对象关联和/或当碰撞组件120确定与被追踪对象相关联的TTC估计时,TTC组件122使用本文描述的一个或更多个过程生成和/或存储对象状态信息804(1)-(O)(也被称为“对象状态信息804”)。例如,TTC组件122可以针对检测到的对象与被追踪对象相关联和/或为被追踪对象确定TTC估计的一个或更多个图像(例如,每个图像)生成和/或存储对象状态信息804。在一些示例中,对象状态信息804可以包括,但不限于,与被追踪对象相关联的包围形状、被追踪对象的TTC估计、TTC估计是否有效、与被追踪对象相关联的最终标量变化、与追踪对象相关联的最终平移和/或任何其他信息。
当生成新的对象状态信息804时,TTC组件122可以执行TTC验证806以确定与对象状态信息802相关联的TTC估计是否有效。在一些示例中,为了执行TTC验证806,并且在框B808处,预测组件122可以使用最终标量变化和与对象相关联的先前的包围形状来最初预测包围形状。例如,并参考图2至图5B的示例,预测组件122可以执行至少关于图2至图5B所述的过程,以便使用最终标量变化和与对象304相关联的包围形状302来预测包围形状416。
然后,预测组件122可以,在框B810,确定IoU是否大于阈值。例如,预测组件122可以执行本文所述的关于至少图2-图5B的过程,以使用预测的包围形状416和与对象304相关联的确定的包围形状502(1)来确定IoU。预测组件122然后可以确定IoU是否大于阈值。如果在框B810,预测组件122确定IoU大于阈值,那么在框B812,预测组件122可以确定TTC估计有效。在一些示例中,预测组件122可以做出这样的确定,因为用于确定TTC估计的最终标量变化被验证为准确。然而,如果在框B814,预测组件122确定IoU小于或等于阈值,则在框B814,预测组件122可以确定TTC估计无效。在一些示例中,预测组件122可以做出这样的确定,因为最终标量变化没有被验证为准确。
在一些实例中,并且如图8的示例中进一步示出的,在框B816,预测组件122可以基于TTC估计有效来将TTC估计添加到平滑阵列中。例如,TTC组件122可以使用有效的一个或更多个TTC估计(例如,所有TTC估计),而在使用平滑窗口持续时间确定最终TTC估计时不使用无效的一个或更多个TTC估计(例如,所有TTC估计)。这可以增加最终TTC估计的准确性,因为在计算中使用了被验证为有效的TTC估计。
参考图1,过程100可以包括生成与被追踪对象相关联的输出数据124的TTC组件122。在一些示例中,输出数据124可以至少表示与被追踪对象相关联的标识符和与被追踪对象相关联的TTC估计。虽然图1的示例示出了追踪组件102生成输出数据118,该输出数据与由碰撞组件120生成的输出数据124分开,但在其他示例中,追踪组件102和碰撞组件120可以输出包括输出数据118和输出数据124的组合数据。
现在参考图9和图10,本文描述的方法900和方法1000的每个框包括可使用硬件、固件和/或软件的任何组合执行的计算过程。例如,各种功能可以由处理器执行存储在存储器中的指令来实施。方法900和方法1000也可以体现为存储在计算机存储介质上的计算机可使用指令。方法900和方法1000可以由独立的应用程序、服务或托管服务(独立的或与另一托管服务相结合)、或另一产品的插件提供,仅举几例。此外,方法900和方法1000是以举例的方式关于图1至图5B描述的。然而,这些方法900和方法1000可以附加地或可替代地由任何一个***或任何***的组合来执行,包括但不限于本文所描述的那些。
图9是显示根据本公开的一些实施例的用于使用特征点追踪对象的方法900的流程图。该方法900,在框B902,可以包括至少部分地基于表示第一图像的第一图像数据来确定与第一图像中描绘的对象相关联的第一特征点。例如,追踪组件102可以确定与第一图像204相关联的第一特征点202。在一些示例中,追踪组件102使用一种或更多种技术(诸如,但不限于哈里斯角点、SIFT、SURF、FAST、定向FAST和ORB,和/或任何其他技术)来确定第一特征点202。在一些实例中,追踪组件102通过接收表示第一特征点的特征点数据108来确定第一特征点202。
方法900,在框B904,可以包括至少部分地基于表示第二图像的第二图像数据来确定与第二图像相关联的第二特征点。例如,追踪组件102可以执行本文所述的过程以确定与第二图像404相关联的初始特征点集。然后,追踪组件102可以使用与第一图像204相关联的包围形状302来确定与第二图像404相关联的追踪形状402。使用追踪形状402,追踪组件102可以从初始特征点集中确定第二特征点406。例如,追踪组件102可以将第二特征点406确定为来自初始特征点集的位于追踪形状402内的特征点。
方法900,在框B906,可以包括至少部分地基于第一特征点和第二特征点来确定与对象相关联的标量变化。例如,追踪组件102可以使用第一特征点202和第二特征点406来确定标量变化。如本文所述,并且在一些示例中,追踪组件102可以通过最初确定第一特征点202对之间的第一距离和第二特征点406对之间的第二距离来确定标量变化。然后,追踪组件102可以确定第一距离和第二距离之间的差异。使用该差异,追踪组件102可以确定与特征点对相关联的标量变化。然后,追踪组件102可以使用标量变化来确定对象的最终标量变化。
方法900,在框B908,可以包括至少部分地基于标量变化来确定该对象也被描绘在第二图像中。例如,追踪组件102可以使用标量变化来确定在第二图像中描绘的检测到的对象是与第一图像相关联的对象(例如,被追踪对象)。在一些示例中,为了做出确定,追踪组件102可以使用包围形状302、标量变化和平移来确定包围形状416。然后,追踪组件102可以将包围形状416与关联于检测到的对象的包围形状502进行比较。基于该比较,追踪组件102可以确定与检测到的对象相关联的分数,并且使用该分数来确定检测到的对象是来自第一图像的被追踪对象。
现在参考图10,图10是显示根据本公开的一些实施例的用于使用特征点来确定与对象相关联的TTC估计的方法1000的流程图。该方法1000,在框B1002,可以包括至少部分地基于表示第一图像的第一图像数据来确定与第一图像中描绘的对象相关联的第一特征点。例如,碰撞组件120可以确定与第一图像204相关联的第一特征点202。在一些示例中,碰撞组件120使用一种或更多种技术(诸如,但不限于哈里斯角点、SIFT、SURF、FAST、定向FAST和ORB,和/或任何其他技术)来确定第一特征点202。在一些示例中,碰撞组件120通过接收表示第一特征点的特征点数据108来确定第一特征点202。
方法1000,在框B1004,可以包括至少部分地基于表示第二图像的第二图像数据来确定与第二图像中描绘的对象相关联的第二特征点。例如,碰撞组件120可以执行本文所述的过程,以确定与第二图像404相关联的初始特征点集。然后,碰撞组件120可以使用与第一图像204相关联的包围形状302来确定与第二图像404相关联的追踪形状402。使用追踪形状402,碰撞组件120可以从初始特征点集确定第二特征点406。例如,碰撞组件120可以将第二特征点406确定为来自初始特征点集的位于追踪形状402内的特征点。
方法1000,在框B1006,可以包括至少部分地基于第一特征点和第二特征点来确定与对象相关联的标量变化。例如,碰撞组件120可以使用第一特征点202和第二特征点406来确定标量变化。如本文所述,并且在一些示例中,碰撞组件120可以通过最初确定第一特征点202对之间的第一距离和第二特征点406对之间的第二距离来确定标量变化。然后,碰撞组件120可以确定第一距离和第二距离之间的差异。使用该差异,碰撞组件120可以确定与特征点对相关联的标量变化。碰撞组件120然后可以使用标量变化来确定对象的最终标量变化。
方法1000,在框B1008,可以包括至少部分地基于标量变化来确定与对象相关联的碰撞时间估计。例如,碰撞组件120可以使用标量变化来确定与对象304相关联的TTC估计。如本文所述,碰撞组件120可以使用标量变化和时间基线来确定TTC估计。在一些示例中,碰撞组件120可以进一步执行一个或更多个平滑操作以确定TTC估计。
示例自主车辆
图11A是根据本公开的一些实施例的示例自主车辆1100的图示。自主车辆1100(可替代地,在本文称为“车辆1100”)可以包括但不限于,客运车辆,如小汽车、卡车、公共汽车、第一响应车辆、摆渡车、电动或机动自行车、摩托车、消防车、警用车辆,救护车、船、施工车辆、水下船只、机器人车辆、无人机、飞机、与拖车相连的车辆(例如,用于托运货物的半拖曳式卡车)和/或另一类型的车辆(例如,无人驾驶的和/或容纳一个或更多个乘客的车辆)。自主车辆通常按照美国运输部的一个部门——国家公路交通安全管理局(NHTSA)以及汽车工程师协会(SAE)“Taxonomy and Definitions for Terms Related to DrivingAutomation Systems for On-Road Motor Vehicles”(2018年6月15日发布的标准No.J3016-201806,2016年9月30日发布的标准No.J3016-201609,以及该标准的先前和未来的版本)定义的自动化级别进行描述。车辆1100可能够实现符合自主驾驶级别的3级-5级中的一个或更多个的功能。车辆1100可能够实现符合自主驾驶级别的1级-5级中的一个或更多个的功能。例如,取决于实施例,车辆1100可能够实现驾驶员辅助(1级)、部分自动化(2级)、条件自动化(3级)、高自动化(4级)和/或全自动化(5级)。本文所用的术语“自主”可包括车辆1100或其他机器的任何和/或所有类型的自主,诸如完全自主、高度自主、有条件自主、部分自主、提供辅助自主、半自主、主要自主,或其他指定。
车辆1100可以包括诸如底盘、车身、车轮(例如2个、4个、6个、8个、18个等)、轮胎、车轴之类的部件以及车辆的其他部件。车辆1100可以包括推进***1150,例如内燃机、混合动力发电厂、全电动发动机和/或另一种推进***类型。推进***1150可以连接到可以包括变速器的车辆1100的传动系以便实现车辆1100的推进。可以响应于接收到来自油门/加速器1152的信号而控制推进***1150。
可以包括方向盘的转向(steering)***1154可以用来在推进***1150操作时(例如在车辆运动时)使车辆1100转向(例如沿着希望的路径或路线)。转向***1154可以接收来自转向致动器1156的信号。对于全自动(5级)功能而言,方向盘可以是可选的。
制动传感器***1146可以用来响应于接收到来自制动致动器1148和/或制动传感器的信号而操作车辆制动器。
可以包括一个或更多个片上***(SoC)1104(图11C)和/或一个或更多个GPU的一个或更多个控制器1136可以向车辆1100的一个或更多个部件和/或***提供(例如表示命令的)信号。例如,一个或更多个控制器可以发送经由一个或更多个制动致动器1148操作车辆制动器、经由一个或更多个转向致动器1156操作转向***1154、经由一个或更多个油门/加速器1152操作推进***1150的信号。一个或更多个控制器1136可以包括一个或更多个板载(例如集成)计算设备(例如超级计算机),所述计算设备处理传感器信号并且输出操作命令(例如表示命令的信号),以实现自主驾驶和/或辅助人类驾驶员驾驶车辆1100。一个或更多个控制器1136可以包括用于自主驾驶功能的第一控制器1136、用于功能性安全功能的第二控制器1136、用于人工智能功能(例如计算机视觉)的第三控制器1136、用于信息娱乐功能的第四控制器1136、用于紧急情况下的冗余的第五控制器1136和/或其他控制器。在一些示例中,单个控制器1136可以处理上述功能中的两个或更多,两个或更多控制器1136可以处理单个功能,和/或其任意组合。
一个或更多个控制器1136可以响应于接收自一个或更多个传感器的传感器数据(例如传感器输入),提供用于控制车辆1100的一个或更多个部件和/或***的信号。传感器数据可以接收自例如且不限于全球导航卫星***(“GNSS”)传感器1158(例如全球定位***传感器)、RADAR传感器1160、超声传感器1162、LIDAR传感器1164、惯性测量单元(IMU)传感器1166(例如加速度计、陀螺仪、磁罗盘、磁力计等)、麦克风1196、立体相机1168、广角相机1170(例如鱼眼相机)、红外相机1172、环绕相机1174(例如360度相机)、远程和/或中程相机1198、速度传感器1144(例如用于测量车辆1100的速率)、振动传感器1142、转向传感器1140、制动传感器(例如作为制动传感器***1146的部分)和/或其他传感器类型。
控制器1136中的一个或更多个可以接收来自车辆1100的仪表组1132的输入(例如由输入数据表示),并且经由人机接口(HMI)显示器1134、听觉信号器、扬声器和/或经由车辆1100的其他部件提供输出(例如输出数据、显示数据等表示的)。这些输出可以包括诸如车辆速度、速率、时间、地图数据(例如图11C的高清(“HD”)地图1122)、位置数据(例如,车辆1100例如在地图上的位置)、方向、其他车辆的位置(例如占用网格)之类的信息,如控制器1136所感知的关于对象和对象状态的信息等等。例如,HMI显示器1134可以显示关于一个或更多个对象(例如街道指示牌、警示牌、交通灯变化等)的存在性的信息和/或关于车辆已经做出、正在做出或者将会做出的驾驶机动的信息(例如现在变道、两英里后离开34B,等等)。
车辆1100还包括网络接口1124,其可以使用一个或更多个无线天线1126和/或调制解调器通过一个或更多个网络通信。例如,网络接口1124可能够通过长期演进(“LTE”)、宽带码分多址(“WCDMA”)、通用移动通信***(“UMTS”)、全球移动通信***(“GSM”)、IMT-CDMA多载波(“CDMA2000”)等通信。一个或更多个无线天线1126也可以使用诸如蓝牙、蓝牙低能量(“LE”)、Z波、ZigBee等等之类的一个或更多个局域网和/或诸如LoRaWAN、SigFox等等之类的一个或更多个低功率广域网(“LPWAN”)实现环境中的对象(例如车辆、移动设备等等)之间的通信。
图11B为根据本公开一些实施例的用于图11A的示例自主车辆1100的相机位置和视场的示例。相机和各自的视场是一个示例实施例,并不意图是限制性的。例如,可以包括附加的和/或可替换的相机,和/或这些相机可以位于车辆1100上的不同位置。
用于相机的相机类型可以包括但不限于可以适于与车辆1100的部件和/或***一起使用的数字相机。所述相机可以在汽车安全完整性级别(ASIL)B下和/或在另一个ASIL下操作。相机类型可以具有任何图像捕获率,例如60帧每秒(fps)、120fps、240fps等等,这取决于实施例。相机可能够使用滚动快门、全局快门、另一种类型的快门或者其组合。在一些示例中,滤色器阵列可以包括红白白白(RCCC)滤色器阵列、红白白蓝(RCCB)滤色器阵列、红蓝绿白(RBGC)滤色器阵列、Foveon X3滤色器阵列、拜耳传感器(RGGB)滤色器阵列、单色传感器滤色器阵列和/或另一种类型的滤色器阵列。在一些实施例中,诸如具有RCCC、RCCB和/或RBGC滤色器阵列的相机之类的清晰像素相机可以用在提高光敏感度的努力中。
在一些示例中,所述相机中的一个或更多个可以用来执行高级驾驶员辅助***(ADAS)功能(例如作为冗余或故障安全设计的部分)。例如,可以安装多功能单目相机以提供包括车道偏离警告、交通指示牌辅助和智能前照灯控制在内的功能。所述相机中的一个或更多个(例如全部相机)可以同时记录和提供图像数据(例如视频)。
所述相机中的一个或更多个可以安装在诸如定制设计的(三维(3D)打印的)组件之类的安装组件中,以便切断可能干扰相机的图像数据捕获能力的杂散光和来自汽车内的反射(例如挡风玻璃镜中反射的来自仪表板的反射)。关于翼镜安装组件,翼镜组件可以是定制3D打印的,使得相机安装板匹配翼镜的形状。在一些示例中,一个或更多个相机可以集成到翼镜中。对于侧视相机而言,一个或更多个相机也可以集成到驾驶室每个拐角的四根柱子内。
具有包括车辆1100前面的环境部分的视场的相机(例如前置相机)可以用于环视,以帮助识别前向路径和障碍,以及在一个或更多个控制器1136和/或控制SoC的帮助下辅助提供对于生成占用网格和/或确定优选车辆路径至关重要的信息。前置相机可以用来执行许多与LIDAR相同的ADAS功能,包括紧急制动、行人检测和碰撞避免。前置相机也可以用于ADAS功能和***,包括车道偏离警告(“LDW”)、自主巡航控制(“ACC”),和/或诸如交通指示牌识别之类的其他功能。
各种各样的相机可以用于前置配置中,包括例如包括互补金属氧化物半导体(CMOS)彩色成像仪在内的单目相机平台。另一个示例可以是广角相机1170,其可以用来感知从周边进入视场的对象(例如行人、十字路***通或者自行车)。尽管图11B中图示出仅仅一个广角相机,但是在车辆1100上可以存在任意数量(包括0)的广角相机1170。此外,任意数量的远程相机1198(例如长视立体相机对)可以用于基于深度的对象检测,尤其是用于尚未针对其训练神经网络的对象。远程相机1198也可以用于对象检测和分类以及基本的对象追踪。
任意数量的立体相机1168也可以包括在前置配置中。在至少一个实施例中,立体相机1168中的一个或更多个可以包括集成控制单元,该单元包括可扩展处理单元,其可以提供在单个芯片上具有集成的控制器区域网络(“CAN”)或以太网接口的多核微处理器和可编程逻辑(“FPGA”)。这样的单元可以用来生成车辆环境的3D地图,包括针对图像中的所有点的距离估计。可替代的立体相机1168可以包括紧凑型立体视觉传感器,其可以包括两个相机镜头(左右各一个)以及可以测量从车辆到目标对象的距离并且使用生成的信息(例如元数据)激活自主紧急制动和车道偏离警告功能的图像处理芯片。除了本文所描述的那些之外或者可替代地,可以使用其他类型的立体相机1168。
具有包括车辆1100的侧面的环境部分的视场的相机(例如侧视相机)可以用于环视,提供用来创建和更新占用网格以及生成侧撞击碰撞警告的信息。例如,环绕相机1174(例如如图11B中所示的四个环绕相机1174)可以置于车辆1100上。环绕相机1174可以包括广角相机1170、鱼眼相机、360度相机和/或类似物。四个示例,四个鱼眼相机可以置于车辆的前面、后面和侧面。在一种可替代的布置中,车辆可以使用三个环绕相机1174(例如左边、右边和后面),并且可以利用一个或更多个其他相机(例如前向相机)作为第四环视相机。
具有包括车辆1100的后面的环境部分的视场的相机(例如后视相机)可以用于辅助停车、环视、后面碰撞警告以及创建和更新占用网格。可以使用各种各样的相机,包括但不限于也适合作为如本文所描述的前置相机(例如远程和/或中程相机1198、立体相机1168、红外相机1172等等)的相机。
图11C为根据本公开一些实施例的用于图11A的示例自主车辆1100的示例***架构的框图。应当理解,这种布置和本文描述的其他布置仅仅作为示例而被阐述。除了所示的那些之外或者代替它们的是,可以使用其他的布置和元素(例如机器、接口、功能、顺序、功能分组等等),并且一些元素可以完全省略。进一步,许多本文描述的元素是功能实体,其可以实现为分立的或分布式部件或者结合其他部件实现,以及以任何适当的组合和位置实现。本文描述为由实体执行的各个功能可以通过硬件、固件和/或软件实现。例如,各个功能可以通过处理器执行存储在内存中的指令而实现。
图11C中车辆1100的部件、特征和***中的每一个被图示为经由总线1102连接。总线1102可以包括控制器区域网络(CAN)数据接口(可替代地,本文称为“CAN总线”)。CAN可以是车辆1100内部的网络,用来辅助控制车辆1100的各种特征和功能,例如制动器、加速、制动、转向、挡风玻璃雨刷等等的驱动。CAN总线可以被配置为具有数十或者甚至数百个节点,每个节点具有其自己的唯一标识符(例如CAN ID)。可以读取CAN总线以找到方向盘角度、地速、每分钟发动机转速(RPM)、按钮位置和/或其他车辆状态指示符。CAN总线可以是ASIL B兼容的。
尽管这里将总线1102描述为CAN总线,但是这并不意图是限制性的。例如,除了CAN总线之外或者可替代地,可以使用FlexRay和/或以太网。此外,尽管用单条线来表示总线1102,但是这并不意图是限制性的。例如,可以存在任意数量的总线1102,其可以包括一条或更多条CAN总线、一条或更多条FlexRay总线、一条或更多条以太网总线和/或一条或更多条使用不同协议的其他类型的总线。在一些示例中,两条或更多总线1102可以用来执行不同的功能,和/或可以用于冗余。例如,第一总线1102可以用于碰撞避免功能,并且第二总线1102可以用于驱动控制。在任何示例中,每条总线1102可以与车辆1100的任何部件通信,并且两条或更多总线1102可以与相同的部件通信。在一些示例中,车辆内的每个SoC 1104、每个控制器1136和/或每个计算机可以有权访问相同的输入数据(例如来自车辆1100的传感器的输入),并且可以连接到诸如CAN总线之类的公共总线。
车辆1100可以包括一个或更多个控制器1136,例如本文关于图11A所描述的那些控制器。控制器1136可以用于各种各样的功能。控制器1136可以耦合到车辆1100的任何其他不同的部件和***,并且可以用于车辆1100的控制、车辆1100的人工智能、用于车辆1100的信息娱乐和/或类似物。
车辆1100可以包括一个或更多个片上***(SoC)1104。SoC 1104可以包括CPU1106、GPU 1108、处理器1110、高速缓存1112、加速器1114、数据存储1116和/或未图示出的其他部件和特征。在各种各样的平台和***中,SoC 1104可以用来控制车辆1100。例如,一个或更多个SoC 1104可以在***(例如车辆1100的***)中与HD地图1122结合,所述HD地图可以经由网络接口1124从一个或更多个服务器(例如图11D的一个或更多个服务器1178)获得地图刷新和/或更新。
CPU 1106可以包括CPU簇或者CPU复合体(可替代地,本文称为“CCPLEX”)。CPU1106可以包括多个核和/或L2高速缓存。例如,在一些实施例中,CPU 1106在一致性多处理器配置中可以包括八个核。在一些实施例中,CPU 1106可以包括四个双核簇,其中每个簇具有专用的L2高速缓存(例如2MB L2高速缓存)。CPU 1106(例如CCPLEX)可以被配置为支持同时簇操作,使得CPU 1106的簇的任意组合能够在任何给定时间是活动的。
CPU 1106可以实现包括以下特征中的一个或更多个的功率管理能力:各硬件块在空闲时可以自动进行时钟门控以节省动态功率;由于WFI/WFE指令的执行,每个核时钟可以在该核不主动地执行指令时进行门控;每个核可以独立地进行功率门控;当所有核都进行时钟门控或者功率门控时,可以独立地对每个核簇进行时钟门控;和/或当所有核都进行功率门控时,可以独立地对每个核簇进行功率门控。CPU 1106可以进一步实现用于管理功率状态的增强算法,其中指定允许的功率状态和期望的唤醒时间,并且硬件/微代码为所述核、簇和CCPLEX确定要进入的最佳的功率状态。处理核可以在软件中支持简化的功率状态进入序列,该工作被卸载到微代码。
GPU 1108可以包括集成的GPU(可替代地,本文称为“iGPU”)。GPU1108可以是可编程的,并且对于并行工作负载而言是高效的。在一些示例中,GPU 1108可以使用增强张量指令集。GPU 1108可以包括一个或更多个流式微处理器,其中每个流式微处理器可以包括L1高速缓存(例如具有至少96KB存储能力的L1高速缓存),并且这些流式微处理器中的两个或更多可以共享L2高速缓存(例如具有512KB存储能力的L2高速缓存)。在一些实施例中,GPU1108可以包括至少八个流式微处理器。GPU 1108可以使用计算应用编程接口(API)。此外,GPU 1108可以使用一个或更多个并行计算平台和/或编程模型(例如NVIDIA的CUDA)。
在汽车和嵌入式使用的情况下,可以对GPU 1108进行功率优化以实现最佳性能。例如,可以在鳍式场效应晶体管(FinFET)上制造GPU 1108。然而,这并不意图是限制性的,并且GPU 1108可以使用其他半导体制造工艺来制造。每个流式微处理器可以合并划分成多个块的若干混合精度处理核。例如且非限制性地,可以将64个PF32核和32个PF64核划分成四个处理块。在这样的示例中,每个处理块可以分配16个FP32核、8个FP64核、16个INT32核、用于深层学习矩阵算术的两个混合精度NVIDIA张量核、L0指令高速缓存、线程束(warp)调度器、分派单元和/或64KB寄存器文件。此外,流式微处理器可以包括独立的并行整数和浮点数据路径,以利用计算和寻址计算的混合提供工作负载的高效执行。流式微处理器可以包括独立线程调度能力,以允许实现并行线程之间的更细粒度的同步和协作。流式微处理器可以包括组合的L1数据高速缓存和共享内存单元,以便在简化编程的同时提高性能。
GPU 1108可以包括在一些示例中提供大约900GB/s的峰值内存带宽的高带宽内存(HBM)和/或16GB HBM2内存子***。在一些示例中,除了HBM内存之外或者可替代地,可以使用同步图形随机存取存储器(SGRAM),例如第五代图形双倍数据速率同步随机存取存储器(GDDR5)。
GPU 1108可以包括统一内存技术,其包括访问计数器以允许内存页面更精确地迁移到最频繁地访问它们的处理器,从而提高处理器之间共享的内存范围的效率。在一些示例中,地址平移服务(ATS)支持可以用来允许GPU 1108直接访问CPU 1106页表。在这样的示例中,当GPU 1108内存管理单元(MMU)经历遗漏时,可以将地址平移请求传输至CPU 1106。作为响应,CPU 1106可以在其页表中寻找用于地址的虚拟-物理映射,并且将平移传输回GPU 1108。这样,统一内存技术可以允许单个统一虚拟地址空间用于CPU 1106和GPU 1108二者的内存,从而简化了GPU 1108编程和将应用程序移(port)到GPU 1108。
此外,GPU 1108可以包括访问计数器,其可以追踪GPU 1108访问其他处理器的内存的频率。访问计数器可以帮助确保内存页面移至最频繁地访问这些页面的处理器的物理内存。
SoC 1104可以包括任意数量的高速缓存1112,包括本文描述的那些高速缓存。例如,高速缓存1112可以包括CPU 1106和GPU 1108二者可用的L3高速缓存(例如,其连接到CPU 1106和GPU 1108二者)。高速缓存1112可以包括回写高速缓存,其可以例如通过使用高速缓存一致性协议(例如MEI、MESI、MSI等)追踪行的状态。取决于实施例,L3高速缓存可以包括4MB或者更多,但是也可以使用更小的高速缓存大小。
SoC 1104可以包括算术逻辑单元(ALU),所述算术逻辑单元可以在执行关于车辆1100的各种任务或操作中的任何任务或操作(如处理DNN)的处理中被利用。此外,SoC 1104可以包括用于在***内执行数学运算的浮点单元(FPU)(或其他数学协处理器或数字协处理器类型)。例如,SoC104可以包括集成为CPU 1106和/或GPU 1108内的执行单元的一个或更多个FPU。
SoC 1104可以包括一个或更多个加速器1114(例如硬件加速器、软件加速器或者其组合)。例如,SoC 1104可以包括硬件加速器簇,其可以包括优化的硬件加速器和/或大型片上内存。该大型片上内存(例如4MB SRAM)可以使得硬件加速器簇能够加速神经网络和其他计算。硬件加速器簇可以用来补充GPU 1108,并且卸载GPU 1108的一些任务(例如释放GPU 1108的更多周期以用于执行其他任务)。作为一个示例,加速器1114可以用于足够稳定以易于控制加速的有针对性的工作负载(例如感知、卷积神经网络(CNN)等等)。当在本文中使用时,术语“CNN”可以包括所有类型的CNN,包括基于区域的或者区域卷积神经网络(RCNN)和快速RCNN(例如用于对象检测)。
加速器1114(例如硬件加速器簇)可以包括深度学习加速器(DLA)。DLA可以包括可以被配置成为深度学习应用和推理提供额外的每秒10万亿次操作的一个或更多个张量处理单元(TPU)。TPU可以是被配置为执行图像处理功能(例如用于CNN、RCNN等)且针对执行图像处理功能而优化的加速器。DLA可以进一步针对特定的一组神经网络类型和浮点运算以及推理进行优化。DLA的设计可以比通用GPU提供每毫米更高的性能,并且远远超过CPU的性能。TPU可以执行若干功能,包括单实例卷积函数,支持例如用于特征和权重二者的INT8、INT16和FP16数据类型,以及后处理器功能。
DLA可以在处理的或者未处理的数据上针对各种各样的功能中的任何功能快速且高效地执行神经网络,尤其是CNN,例如且不限于:用于使用来自相机传感器的数据进行对象识别和检测的CNN;用于使用来自相机传感器的数据进行距离估计的CNN;用于使用来自麦克风的数据进行应急车辆检测和识别与检测的CNN;用于使用来自相机传感器的数据进行面部识别和车主识别的CNN;和/或用于安全和/或安全相关事件的CNN。
DLA可以执行GPU 1108的任何功能,并且通过使用推理加速器,例如,设计者可以使DLA或GPU 1108针对任何功能。例如,设计者可以将CNN的处理和浮点运算聚焦在DLA上,并且将其他功能留给GPU 1108和/或其他加速器1114。
加速器1114(例如硬件加速器簇)可以包括可编程视觉加速器(PVA),其在本文中可以可替代地称为计算机视觉加速器。PVA可以被设计和配置为加速用于高级驾驶员辅助***(ADAS)、自主驾驶和/或增强现实(AR)和/或虚拟现实(VR)应用的计算机视觉算法。PVA可以提供性能与灵活性之间的平衡。例如,每个PVA可以包括例如且不限于任意数量的精简指令集计算机(RISC)核、直接内存访问(DMA)和/或任意数量的向量处理器。
RISC核可以与图像传感器(例如本文描述的任何相机的图像传感器)、图像信号处理器和/或类似物交互。这些RISC核中的每一个可以包括任意数量的内存。取决于实施例,RISC核可以使用若干协议中的任何协议。在一些示例中,RISC核可以执行实时操作***(RTOS)。RISC核可以使用一个或更多个集成电路设备、专用集成电路(ASIC)和/或存储设备实现。例如,RISC核可以包括指令高速缓存和/或紧密耦合的RAM。
DMA可以使得PVA的部件能够独立于CPU 1106访问***内存。DMA可以支持用来向PVA提供优化的任意数量的特征,包括但不限于支持多维寻址和/或循环寻址。在一些示例中,DMA可以支持高达六个或更多维度的寻址,其可以包括块宽度、块高度、块深度、水平块步进、竖直块步进和/或深度步进。
向量处理器可以是可编程处理器,其可以被设计为高效且灵活地执行用于计算机视觉算法的编程并且提供信号处理能力。在一些示例中,PVA可以包括PVA核和两个向量处理子***分区。PVA核可以包括处理器子***、一个或更多个DMA引擎(例如两个DMA引擎)和/或其他***设备。向量处理子***可以作为PVA的主处理引擎而操作,并且可以包括向量处理单元(VPU)、指令高速缓存和/或向量内存(例如VMEM)。VPU核可以包括数字信号处理器,诸如例如单指令多数据(SIMD)、超长指令字(VLIW)数字信号处理器。SIMD和VLIW的组合可以增强吞吐量和速率。
向量处理器中的每一个可以包括指令高速缓存并且可以耦合到专用内存。结果,在一些示例中,向量处理器中的每一个可以被配置为独立于其他向量处理器执行。在其他示例中,包括在特定PVA中的向量处理器可以被配置为采用数据并行化。例如,在一些实施例中,包括在单个PVA中的多个向量处理器可以执行相同的计算机视觉算法,但是在图像的不同区域上执行。在其他示例中,包括在特定PVA中的向量处理器可以在相同的图像上同时执行不同的计算机视觉算法,或者甚至在序列图像或者图像的部分上执行不同的算法。除其他的以外,任意数量的PVA可以包括在硬件加速器簇中,并且任意数量的向量处理器可以包括在这些PVA中的每一个中。此外,PVA可以包括附加的纠错码(ECC)内存,以增强总体***安全性。
加速器1114(例如硬件加速器簇)可以包括片上计算机视觉网络和SRAM,以提供用于加速器1114的高带宽、低延迟SRAM。在一些示例中,片上内存可以包括由例如且不限于八个现场可配置的内存块组成的至少4MB SRAM,其可以由PVA和DLA二者访问。每对内存块可以包括高级***总线(APB)接口、配置电路***、控制器和复用器。可以使用任何类型的内存。PVA和DLA可以经由向PVA和DLA提供高速内存访问的主干(backbone)访问内存。主干可以包括(例如使用APB)将PVA和DLA互连到内存的片上计算机视觉网络。
片上计算机视觉网络可以包括在传输任何控制信号/地址/数据之前确定PVA和DLA二者都提供就绪且有效的信号的接口。这样的接口可以提供用于传输控制信号/地址/数据的单独相位和单独信道,以及用于连续数据传输的突发式通信。这种类型的接口可以符合ISO 26262或者IEC 61508标准,但是也可以使用其他标准和协议。
在一些示例中,SoC 1104可以包括例如在2018年8月10日提交的美国专利申请No.16/101,232中描述的实时光线追踪硬件加速器。该实时光线追踪硬件加速器可以用来快速且高效地确定(例如世界模型内的)对象的位置和范围,以便生成实时可视化仿真,以用于RADAR信号解释、用于声音传播合成和/或分析、用于SONAR***仿真、用于一般波传播仿真、用于为了定位和/或其他功能的目的与LIDAR数据相比较和/或用于其他用途。在一些实施例中,一个或更多个树遍历单元(TTU)可以用于执行一个或更多个光线追踪相关操作。
加速器1114(例如硬件加速器簇)具有广泛的自主驾驶用途。PVA可以是可编程视觉加速器,其可以用于ADAS和自主车辆中的关键处理阶段。PVA的能力是需要可预测处理、低功率和低延迟的算法域的良好匹配。换言之,PVA在半密集或者密集规则计算上,甚至在需要具有低延迟和低功率的可预测运行时间的小数据集上都表现良好。因此,在用于自主车辆的平台的背景下,PVA被设计为运行经典计算机视觉算法,因为它们在对象检测和整数数学运算方面很有效。
例如,根据该技术的一个实施例,PVA用来执行计算机立体视觉。在一些示例中,可以使用基于半全局匹配的算法,但是这并不意图是限制性的。许多用于3-5级自主驾驶的应用都需要即时运动估计/立体匹配(例如来自运动的结构、行人识别、车道检测等等)。PVA可以在来自两个单目相机的输入上执行计算机立体视觉功能。
在一些示例中,PVA可以用来执行密集的光流。根据过程原始RADAR数据(例如使用4D快速傅立叶变换)以提供经处理的RADAR。在其他示例中,PVA用于飞行时间深度处理,其例如通过处理原始飞行时间数据以提供经处理的飞行时间数据。
DLA可以用来运行任何类型的网络以增强控制和驾驶安全性,包括例如输出用于每个对象检测的置信度度量的神经网络。这样的置信度值可以解释为概率,或者解释为提供每个检测与其他检测相比的相对“权重”。该置信度值使得***能够做出关于哪些检测应当被认为是真阳性检测而不是假阳性检测的进一步决定。例如,***可以为置信度设置阈值,并且仅仅将超过阈值的检测看作真阳性检测。在自动紧急制动(AEB)***中,假阳性检测会使得车辆自动地执行紧急制动,这显然是不希望的。因此,只有最确信的检测才应当被认为是AEB的触发因素。DLA可以运行用于回归置信度值的神经网络。该神经网络可以将至少一些参数子集作为其输入,例如边界框维度,(例如从另一个子***)获得的地平面估计,与车辆1100取向、距离相关的惯性测量单元(IMU)传感器1166输出,从神经网络和/或其他传感器(例如LIDAR传感器1164或RADAR传感器1160)获得的对象的3D位置估计等。
SoC 1104可以包括一个或更多个数据存储1116(例如内存)。数据存储1116可以是SoC 1104的片上内存,其可以存储要在GPU和/或DLA上执行的神经网络。在一些示例中,为了冗余和安全,数据存储1116可以容量足够大以存储神经网络的多个实例。数据存储1112可以包括L2或L3高速缓存1112。对数据存储1116的引用可以包括对与如本文所描述的PVA、DLA和/或其他加速器1114关联的内存的引用。
SoC 1104可以包括一个或更多个处理器1110(例如嵌入式处理器)。处理器1110可以包括启动和功率管理处理器,其可以是用于处理启动功率和管理功能以及有关安全实施的专用处理器和子***。启动和功率管理处理器可以是SoC 1104启动序列的一部分,并且可以提供运行时间功率管理服务。启动功率和管理处理器可以提供时钟和电压编程、辅助***低功率状态转换、SoC 1104热和温度传感器管理和/或SoC 1104功率状态管理。每个温度传感器可以实现为环形振荡器,其输出频率与温度成比例,并且SoC 1104可以使用环形振荡器检测CPU 1106、GPU 1108和/或加速器1114的温度。如果确定温度超过阈值,那么启动和功率管理处理器可以进入温度故障例程并且将SoC 1104置于较低功率状态和/或将车辆1100置于司机安全停车模式(例如使车辆1100安全停车)。
处理器1110可以还包括可以用作音频处理引擎的一组嵌入式处理器。音频处理引擎可以是一种音频子***,其允许实现对于通过多个接口的多声道音频的完全硬件支持以及一系列广泛而灵活的音频I/O接口。在一些示例中,音频处理引擎是具有带有专用RAM的数字信号处理器的专用处理器核。
处理器1110可以还包括始终在处理器上的引擎,其可以提供必要的硬件特征以支持低功率传感器管理和唤醒用例。该始终在处理器上的引擎可以包括处理器核、紧密耦合的RAM、支持***设备(例如定时器和中断控制器)、各种I/O控制器***设备和路由逻辑。
处理器1110可以还包括安全簇引擎,其包括处理汽车应用的安全管理的专用处理器子***。安全簇引擎可以包括两个或更多处理器核、紧密耦合的RAM、支持***设备(例如定时器、中断控制器等等)和/或路由逻辑。在安全模式下,所述两个或更多核可以操作于锁步模式下,并且用作具有检测它们的操作之间的任何差异的比较逻辑的单核。
处理器1110可以还包括实时相机引擎,其可以包括用于处理实时相机管理的专用处理器子***。
处理器1110可以还包括高动态范围信号处理器,其可以包括图像信号处理器,该图像信号处理器是一种硬件引擎,该硬件引擎是相机处理管线的部分。
处理器1110可以包括可以是(例如微处理器上实现的)处理块的视频图像复合器,其实现视频回放应用程序产生用于播放器窗口的最终图像所需的视频后处理功能。视频图像复合器可以对广角相机1170、环绕相机1174和/或对驾驶室内监控相机传感器执行镜头畸变校正。驾驶室内监控相机传感器优选地由运行在高级SoC的另一个实例上的神经网络监控,被配置为识别驾驶室内事件并且相对应地做出响应。驾驶室内***可以执行唇读,以激活移动电话服务并拨打电话、口述电子邮件、改变车辆目的地、激活或改变车辆的信息娱乐***和设置或者提供语音激活的网上冲浪。某些功能仅在车辆操作于自主模式下时对于驾驶员可用,并且在其他情况下被禁用。
视频图像复合器可以包括用于空间和时间降噪的增强时间降噪。例如,在视频中出现运动的情况下,降噪适当地对空间信息加权,降低邻近帧提供的信息的权重。在图像或者图像的部分不包括运动的情况下,视频图像复合器执行的时间降噪可以使用来自先前的图像的信息以降低当前图像中的噪声。
视频图像复合器也可以被配置为对输入立体镜头帧执行立体校正。当操作***桌面正在使用并且GPU 1108无需连续地渲染(render)新的表面时,视频图像复合器可以进一步用于用户接口组成。甚至在GPU 1108上电并且激活,进行3D渲染时,视频图像复合器可以用来减轻GPU 1108的负担以提高性能和响应能力。
SoC 1104可以还包括用于从相机接收视频和输入的移动行业处理器接口(MIPI)相机串行接口、高速接口和/或可以用于相机和有关像素输入功能的视频输入块。SoC 1104可以还包括可以由软件控制并且可以用于接收未提交到特定角色的I/O信号的输入/输出控制器。
SoC 1104可以还包括大范围的***设备接口,以使能与***设备、音频编解码器、功率管理和/或其他设备通信。SoC 1104可以用来处理来自(通过千兆多媒体串行链路和以太网连接的)相机、传感器(例如可以通过以太网连接的LIDAR传感器1164、RADAR传感器1160等等)的数据,来自总线1102的数据(例如车辆1100的速率、方向盘位置等等),来自(通过以太网或CAN总线连接的)GNSS传感器1158的数据。SoC 1104可以还包括专用高性能大容量存储控制器,其可以包括它们自己的DMA引擎,并且其可以用来从日常数据管理任务中释放CPU 1106。
SoC 1104可以是具有灵活架构的端到端平台,该架构跨越自动化3-5级,从而提供利用和高效使用计算机视觉和ADAS技术以实现多样性和冗余、连同深度学***台的综合功能安全架构。SoC 1104可以比常规的***更快、更可靠,甚至更加能量高效和空间高效。例如,当与CPU 1106、GPU 1108和数据存储1116结合时,加速器1114可以提供用于3-5级自主车辆的快速高效平台。
因此该技术提供了不能通过常规***实现的能力和功能。例如,计算机视觉算法可以在CPU上执行,这些CPU可以使用诸如C编程语言之类的高级编程语言配置为跨各种各样的视觉数据执行各种各样的处理算法。然而,CPU常常不能满足许多计算机视觉应用的性能要求,诸如与例如执行时间和功耗有关的那些要求。特别地,许多CPU不能实时地执行复杂的对象检测算法,这是车载ADAS应用的要求和实用3-5级自主车辆的要求。
与常规***形成对比的是,通过提供CPU复合体、GPU复合体和硬件加速器簇,本文描述的技术允许同时和/或顺序地执行多个神经网络,并且将结果组合在一起以实现3-5级自主驾驶功能。例如,在DLA或dGPU(例如GPU 1120)上执行的CNN可以包括文本和单词识别,允许超级计算机读取和理解交通指示牌,包括尚未针对其特别地训练神经网络的指示牌。DLA可以还包括能够识别、解释和提供对指示牌的语义理解,并且将该语义理解传递给运行在CPU复合体上的路径规划模块的神经网络。
作为另一个示例,如3、4或5级驾驶所需的,多个神经网络可以同时运行。例如,由“注意:闪烁的灯指示结冰条件”组成的警告指示牌连同电灯可以由若干神经网络独立地或者共同地进行解释。指示牌本身可以由部署的第一神经网络(例如经过训练的神经网络)识别为交通指示牌,文本“闪烁的灯指示结冰条件”可以由部署的第二神经网络解释,该部署的第二神经网络告知车辆的路径规划软件(优选地在CPU复合体上执行)当检测到闪烁的灯时,存在结冰条件。闪烁的灯可以通过在多个帧上操作部署的第三神经网络而识别,该神经网络告知车辆的路径规划软件闪烁的灯的存在(或不存在)。所有三个神经网络可以例如在DLA内和/或在GPU 1108上同时运行。
在一些示例中,用于面部识别和车主识别的CNN可以使用来自相机传感器的数据识别车辆1100的授权的驾驶员和/或车主的存在。始终在传感器上的处理引擎可以用来在车主接近驾驶员车门时解锁车辆并且打开灯,并且在安全模式下,在车主离开车辆时禁用车辆。按照这种方式,SoC 1104提供了防范盗窃和/或劫车的安全性。
在另一个示例中,用于应急车辆检测和识别的CNN可以使用来自麦克风1196的数据来检测并且识别应急车辆警报(siren)。与使用通用分类器检测警报并且手动地提取特征的常规***形成对比的是,SoC 1104使用CNN以对环境和城市声音分类以及对视觉数据分类。在优选的实施例中,运行在DLA上的CNN被训练为识别应急车辆的相对关闭速率(例如通过使用多普勒效应)。CNN也可以被训练为识别如GNSS传感器1158所识别的特定于车辆在其中操作的局部区域的应急车辆。因此,例如,当在欧洲操作时,CNN将寻求检测欧洲警报,并且当在美国时,CNN将寻求识别仅仅北美的警报。一旦检测到应急车辆,在超声传感器1162的辅助下,控制程序可以用来执行应急车辆安全例程,使车辆放慢速度,开到路边,停下车辆,和/或使车辆空转,直到应急车辆通过。
车辆可以包括可以经由高速互连(例如PCIe)耦合到SoC 1104的CPU 1118(例如分立的CPU或dCPU)。CPU 1118可以包括例如X86处理器。CPU 1118可以用来执行各种各样的功能中的任何功能,包括例如仲裁ADAS传感器与SoC 1104之间潜在地不一致的结果,和/或监控控制器1136和/或信息娱乐SoC 1130的状态和健康状况。
车辆1100可以包括可以经由高速互连(例如NVIDIA的NVLINK)耦合到SoC 1104的GPU 1120(例如分立的GPU或dGPU)。GPU 1120可以例如通过执行冗余的和/或不同的神经网络而提供附加的人工智能功能,并且可以用来至少部分地基于来自车辆1100的传感器的输入(例如传感器数据)来训练和/或更新神经网络。
车辆1100可以还包括网络接口1124,该网络接口可以包括一个或更多个无线天线1126(例如用于不同通信协议的一个或更多个无线天线,例如蜂窝天线、蓝牙天线等等)。网络接口1124可以用来使能通过因特网与云(例如与服务器1178和/或其他网络设备)、与其他车辆和/或与计算设备(例如乘客的客户端设备)的无线连接。为了与其他车辆通信,可以在这两辆车之间建立直接链接,和/或可以建立间接链接(例如跨网络以及通过因特网)。直接链接可以使用车对车通信链路提供。车对车通信链路可以向车辆1100提供关于接近车辆1100的车辆(例如车辆1100前面、侧面和/或后面的车辆)的信息。该功能可以是车辆1100的协作自适应巡航控制功能的部分。
网络接口1124可以包括提供调制和解调功能并且使得控制器1136能够通过无线网络通信的SoC。网络接口1124可以包括用于从基带到射频的上平移以及从射频到基带的下平移的射频前端。频率平移可以通过公知的过程执行,和/或可以使用超外差(super-heterodyne)过程执行。在一些示例中,射频前端功能可以由单独的芯片提供。网络接口可以包括用于通过LTE、WCDMA、UMTS、GSM、CDMA2000、蓝牙、蓝牙LE、Wi-Fi、Z波、ZigBee、LoRaWAN和/或其他无线协议通信的无线功能。
车辆1100可以还包括可包括片外(例如SoC 1104外)存储装置的数据存储1128。数据存储1128可以包括一个或更多个存储元件,包括RAM、SRAM、DRAM、VRAM、闪存、硬盘和/或可以存储至少一个比特的数据的其他部件和/或设备。
车辆1100可以还包括GNSS传感器1158。GNSS传感器1158(例如GPS、辅助GPS传感器、差分GPS(DGPS)传感器等)用于辅助映射、感知、占用网格生成和/或路径规划功能。可以使用任意数量的GNSS传感器1158,包括例如且不限于使用带有以太网到串行(RS-232)网桥的USB连接器的GPS。
车辆1100可以还包括RADAR传感器1160。RADAR传感器1160可以甚至在黑暗和/或恶劣天气条件下也由车辆1100用于远程车辆检测。RADAR功能安全级别可以是ASILB。RADAR传感器1160可以使用CAN和/或总线1102(例如以传输RADAR传感器1160生成的数据)以用于控制以及访问对象追踪数据,在一些示例中接入以太网以访问原始数据。可以使用各种各样的RADAR传感器类型。例如且非限制性地,RADAR传感器1160可以适合前面、后面和侧面RADAR使用。在一些示例中,使用脉冲多普勒RADAR传感器。
RADAR传感器1160可以包括不同的配置,例如具有窄视场的远程、具有宽视场的短程、短程侧覆盖等等。在一些示例中,远程RADAR可以用于自适应巡航控制功能。远程RADAR***可以提供通过两个或更多独立扫描实现的广阔视场(例如250m范围内)。RADAR传感器1160可以帮助区分静态对象和运动对象,并且可以由ADAS***用于紧急制动辅助和前方碰撞警告。远程RADAR传感器可以包括具有多根(例如六根或更多)固定RADAR天线以及高速CAN和FlexRay接口的单站多模RADAR。在具有六根天线的示例中,中央四根天线可以创建聚焦的波束图案,其被设计为在更高速率下以来自邻近车道的最小交通干扰记录车辆1100的周围环境。其他两根天线可以扩展视场,使得快速地检测进入或离开车辆1100的车道的车辆成为可能。
作为一个示例,中程RADAR***可以包括高达1160m(前面)或80m(后面)的范围以及高达42度(前面)或1150度(后面)的视场。短程RADAR***可以包括但不限于被设计为安装在后保险杠两端的RADAR传感器。当安装在后保险杠两端时,这样的RADAR传感器***可以创建持续地监控后方和车辆旁边的视盲点的两个波束。
短程RADAR***可以在ADAS***中用于视盲点检测和/或变道辅助。
车辆1100可以还包括超声传感器1162。可以置于车辆1100的前面、后面和/或侧面的超声传感器1162可以用于停车辅助和/或创建和更新占用网格。可以使用各种各样的超声传感器1162,并且不同的超声传感器1162可以用于不同的检测范围(例如2.5m、4m)。超声传感器1162可以操作于功能安全级别的ASIL B。
车辆1100可以包括LIDAR传感器1164。LIDAR传感器1164可以用于对象和行人检测、紧急制动、碰撞避免和/或其他功能。LIDAR传感器1164可以为功能安全级别的ASILB。在一些示例中,车辆1100可以包括可以使用以太网(例如以将数据提供给千兆以太网交换机)的多个LIDAR传感器1164(例如两个、四个、六个等等)。
在一些示例中,LIDAR传感器1164可能够对360度视场提供对象列表及其距离。商业上可用的LIDAR传感器1164可以具有例如近似1100m的广告范围,精度为2cm-3cm,支持1100Mbps以太网连接。在一些示例中,可以使用一个或更多个非突出的LIDAR传感器1164。在这样的示例中,LIDAR传感器1164可以实现为可以嵌入到车辆1100的前面、后面、侧面和/或拐角的小设备。在这样的示例中,LIDAR传感器1164可以甚至对于低反射率对象提供高达120度水平的和35度竖直的视场,具有200m的范围。前面安装的LIDAR传感器1164可以被配置用于45度与135度之间的水平视场。
在一些示例中,也可以使用诸如3D闪光LIDAR之类的LIDAR技术。3D闪光LIDAR使用激光的闪光作为发射源,以照亮高达约200m的车辆周围环境。闪光LIDAR单元包括接受器,该接受器将激光脉冲传输时间和反射光记录在每个像素上,其进而与从车辆到对象的范围相对应。闪光LIDAR可以允许利用每个激光闪光生成周围环境的高度精确且无失真的图像。在一些示例中,可以部署四个闪光LIDAR传感器,车辆1100的每一侧一个。可用的3D闪光LIDAR***包括没有风扇以外的运动部件(moving part)的固态3D凝视阵列LIDAR相机(例如非扫描LIDAR设备)。闪光LIDAR设备可以使用每帧5纳秒I类(眼睛安全)激光脉冲,并且可以以3D范围点云和共同寄存的强度数据的形式捕获反射的激光。通过使用闪光LIDAR,并且因为闪光LIDAR是没有运动部件的固态设备,LIDAR传感器1164可以不太容易受到运动模糊、振动和/或震动的影响。
该车辆可以还包括IMU传感器1166。在一些示例中,IMU传感器1166可以位于车辆1100的后轴的中心。IMU传感器1166可以包括例如且不限于加速度计、磁力计、陀螺仪、磁罗盘和/或其他传感器类型。在一些示例中,例如在六轴应用中,IMU传感器1166可以包括加速度计和陀螺仪,而在九轴应用中,IMU传感器1166可以包括加速度计、陀螺仪和磁力计。
在一些实施例中,IMU传感器1166可以实现为微型高性能GPS辅助惯性导航***(GPS/INS),其结合微机电***(MEMS)惯性传感器、高灵敏度GPS接收器和高级卡尔曼滤波算法以提供位置、速度和姿态的估计。这样,在一些示例中,IMU传感器1166可以使得车辆1100能够在无需来自磁传感器的输入的情况下通过直接观察从GPS到IMU传感器1166的速度变化并且将其相关来估计方向(heading)。在一些示例中,IMU传感器1166和GNSS传感器1158可以结合到单个集成单元中。
该车辆可以包括置于车辆1100中和/或车辆1100周围的麦克风1196。除别的以外,麦克风1196可以用于应急车辆检测和识别。
该车辆可以还包括任意数量的相机类型,包括立体相机1168、广角相机1170、红外相机1172、环绕相机1174、远程和/或中程相机1198和/或其他相机类型。这些相机可以用来捕获车辆1100整个***周围的图像数据。使用的相机类型取决于实施例和车辆1100的要求,并且相机类型的任意组合可以用来提供车辆1100周围的必要覆盖。此外,相机的数量可以根据实施例而不同。例如,该车辆可以包括六个相机、七个相机、十个相机、十二个相机和/或另一数量的相机。作为一个示例且非限制性地,这些相机可以支持千兆多媒体串行链路(GMSL)和/或千兆以太网。所述相机中的每一个在本文关于图11A和图11B更详细地进行了描述。
车辆1100可以还包括振动传感器1142。振动传感器1142可以测量车辆的诸如车轴之类的部件的振动。例如,振动的变化可以指示道路表面的变化。在另一个示例中,当使用两个或更多振动传感器1142时,振动之间的差异可以用来确定道路表面的摩擦或滑移(例如当动力驱动轴与自由旋转轴之间存在振动差异时)。
车辆1100可以包括ADAS***1138。在一些示例中,ADAS***1138可以包括SoC。ADAS***1138可以包括自主/自适应/自动巡航控制(ACC)、协作自适应巡航控制(CACC)、前方撞车警告(FCW)、自动紧急制动(AEB)、车道偏离警告(LDW)、车道保持辅助(LKA)、视盲点警告(BSW)、后方穿越交通警告(RCTW)、碰撞警告***(CWS)、车道居中(LC)和/或其他特征和功能。
ACC***可以使用RADAR传感器1160、LIDAR传感器1164和/或相机。ACC***可以包括纵向ACC和/或横向ACC。纵向ACC监控并控制到紧接在车辆1100前方的车辆的距离,并且自动地调节车速以维持离前方车辆的安全距离。横向ACC执行距离保持,并且在必要时建议车辆1100改变车道。横向ACC与诸如LCA和CWS之类的其他ADAS应用程序有关。
CACC使用来自其他车辆的信息,该信息可以经由网络接口1124和/或无线天线1126经由无线链路或者通过网络连接(例如通过因特网)间接地从其他车辆接收。直接链接可以由车对车(V2V)通信链路提供,而间接链接可以是基础设施到车辆(I2V)的通信链路。通常,V2V通信概念提供关于紧接在前的车辆(例如紧接在车辆1100前方且与其处于相同车道的车辆)的信息,而I2V通信概念提供关于前方更远处的交通的信息。CACC***可以包括I2V和V2V信息源中的任一个或者二者。给定车辆1100前方车辆的信息,CACC可以更加可靠,并且它有可能提高交通流的畅通性且降低道路拥堵。
FCW***被设计为提醒驾驶员注意危险,使得驾驶员可以采取纠正措施。FCW***使用耦合到专用处理器、DSP、FPGA和/或ASIC的前置相机和/或RADAR传感器1160,该专用处理器、DSP、FPGA和/或ASIC电耦合至诸如显示器、扬声器和/或振动部件之类的驾驶员反馈。FCW***可以提供例如声音、视觉警告、振动和/或快速制动脉冲形式的警告。
AEB***检测即将发生的与另一车辆或其他对象的前方碰撞,并且可以在驾驶员在指定的时间或距离参数内没有采取纠正措施的情况下自动地应用制动器。AEB***可以使用耦合到专用处理器、DSP、FPGA和/或ASIC的前置相机和/或RADAR传感器1160。当AEB***检测到危险时,它典型地首先提醒(alert)驾驶员采取纠正措施以避免碰撞,并且如果驾驶员没有采取纠正措施,那么AEB***可以自动地应用制动器以努力防止或者至少减轻预测的碰撞的影响。AEB***可以包括诸如动态制动支持和/或碰撞迫近制动之类的技术。
LDW***提供了诸如方向盘或座位振动之类的视觉、听觉和/或触觉警告,以在车辆1100穿过车道标记时提醒驾驶员。当驾驶员指示有意偏离车道时,通过激活转弯信号,不激活LDW***。LDW***可以使用耦合到专用处理器、DSP、FPGA和/或ASIC的前侧朝向相机,该专用处理器、DSP、FPGA和/或ASIC电耦合至诸如显示器、扬声器和/或振动部件之类的驾驶员反馈。
LKA***是LDW***的变型。如果车辆1100开始离开车道,那么LKA***提供纠正车辆1100的转向输入或制动。
BSW***检测并向驾驶员警告汽车视盲点中的车辆。BSW***可以提供视觉、听觉和/或触觉警报以指示合并或改变车道是不安全的。***可以在驾驶员使用转弯信号时提供附加的警告。BSW***可以使用耦合到专用处理器、DSP、FPGA和/或ASIC的后侧朝向相机和/或RADAR传感器1160,该专用处理器、DSP、FPGA和/或ASIC电耦合至诸如显示器、扬声器和/或振动部件之类的驾驶员反馈。
RCTW***可以在车辆1100倒车时在后置相机范围之外检测到对象时提供视觉、听觉和/或触觉通知。一些RCTW***包括AEB以确保应用车辆制动器以避免撞车。RCTW***可以使用耦合到专用处理器、DSP、FPGA和/或ASIC的一个或更多个后置RADAR传感器1160,该专用处理器、DSP、FPGA和/或ASIC电耦合至诸如显示器、扬声器和/或振动部件之类的驾驶员反馈。
常规的ADAS***可能易于出现假阳性结果,这可能会让驾驶员烦恼并分散注意力,但是典型地不是灾难性的,因为ADAS***提醒驾驶员并且允许驾驶员决定安全条件是否真正存在并且相对应地采取行动。然而,在自主车辆1100中,在冲突结果的情况下,车辆1100本身必须决定是否注意(heed)来自主计算机或者辅助计算机(例如第一控制器1136或第二控制器1136)的结果。例如,在一些实施例中,ADAS***1138可以是用于向备用计算机合理性模块提供感知信息的备用和/或辅助计算机。备用计算机合理性监视器可以在硬件部件上运行冗余多样的软件,以检测感知和动态驾驶任务中的故障。来自ADAS***1138的输出可以提供给监督MCU。如果来自主计算机和辅助计算机的输出冲突,那么监督MCU必须确定如何协调该冲突以确保安全操作。
在一些示例中,主计算机可以被配置为向监督MCU提供置信度评分,指示主计算机对所选结果的置信度。如果置信度评分超过阈值,那么监督MCU可以遵循主计算机的方向,而不管辅助计算机是否提供冲突或不一致的结果。在置信度评分不满足阈值的情况下并且在主计算机和辅助计算机指示不同的结果(例如冲突)的情况下,监督MCU可以在这些计算机之间进行仲裁以确定适当的结果。
监督MCU可以被配置为运行神经网络,所述神经网络被训练并且被配置为至少部分地基于来自主计算机和辅助计算机的输出,确定辅助计算机提供假警报的条件。因此,监督MCU中的神经网络可以了解何时可以信任辅助计算机的输出以及何时不能。例如,当辅助计算机为基于RADAR的FCW***时,监督MCU中的神经网络可以了解FCW***何时正在识别事实上不是危险的金属对象,例如触发警报的排水栅格或井盖。类似地,当辅助计算机是基于相机的LDW***时,监督MCU中的神经网络可以学习在骑车者或行人在场并且车道偏离实际上是最安全的策略时无视该LDW。在包括运行在监督MCU上的神经网络的实施例中,监督MCU可以包括适合于利用关联的内存运行神经网络的DLA或GPU中的至少一个。在优选的实施例中,监督MCU可以包括SoC 1104的部件和/或作为SoC1104的部件而被包括。
在其他示例中,ADAS***1138可以包括使用传统计算机视觉规则执行ADAS功能的辅助计算机。这样,辅助计算机可以使用经典的计算机视觉规则(如果-那么),并且在监督MCU中存在神经网络可以提高可靠性、安全性和性能。例如,多样化的实现方式和有意的非完全相同(non-identity)使得整个***更加容错,对于软件(或者软件-硬件接口)功能造成的故障而言尤其如此。例如,如果在主计算机上运行的软件中存在软件漏洞或错误并且运行在辅助计算机上的非完全相同的软件代码提供相同的总体结果,那么监督MCU可以更加确信总体结果是正确的,并且主计算机上的软件或硬件中的漏洞不造成实质性的错误。
在一些示例中,ADAS***1138的输出可以馈送至主计算机的感知块和/或主计算机的动态驾驶任务块。例如,如果ADAS***1138由于对象紧接在前的原因而指示前方碰撞警告,那么感知块可以在识别对象时使用该信息。在其他示例中,辅助计算机可以具有它自己的神经网络,其被训练并且因此如本文所描述的降低假阳性的风险。
车辆1100可以还包括信息娱乐SoC 1130(例如车载信息娱乐***(IVI))。尽管被图示和描述为SoC,但是信息娱乐***可以不是SoC,并且可以包括两个或更多分立的部件。信息娱乐SoC 1130可以包括可以用来向车辆1100提供音频(例如音乐、个人数字助理、导航指令、新闻、广播等等)、视频(例如TV、电影、流媒体等等)、电话(例如免提呼叫)、网络连接(例如LTE、WiFi等等)和/或信息服务(例如导航***,后停车援助,无线电数据***,诸如燃油水平、覆盖的总距离、制动燃油水平、油位、车门开/关、空气过滤器信息之类的车辆有关信息,等等)的硬件和软件的组合。例如,信息娱乐SoC 1130可以包括收音机、盘播放器、导航***、视频播放器、USB和蓝牙连接、车载电脑、车载娱乐、WiFi、方向盘音频控件、免提语音控件、平视显示器(HUD)、HMI显示器1134、远程信息处理设备、控制面板(例如用于控制各种部件、特征和/或***,和/或与其交互)和/或其他部件。信息娱乐SoC 1130可以进一步用来向车辆的用户提供信息(例如视觉的和/或听觉的),例如来自ADAS***1138的信息,诸如规划的车辆机动、轨迹、周围环境信息(例如交叉路口信息、车辆信息、道路信息等等)之类的自主驾驶信息,和/或其他信息。
信息娱乐SoC 1130可以包括GPU功能。信息娱乐SoC 1130可以通过总线1102(例如CAN总线、以太网等)与车辆1100的其他设备、***和/或部件通信。在一些示例中,信息娱乐SoC 1130可以耦合至监督MCU,使得在主控制器1136(例如车辆1100的主和/或备用计算机)出现故障的情况下,信息娱乐***的GPU可以执行一些自驾驶功能。在这样的示例中,信息娱乐SoC 1130可以如本文所描述的将车辆1100置于司机安全停车模式。
车辆1100可以还包括仪表组1132(例如数字仪表板、电子仪表组、数字仪表面板等等)。仪表组1132可以包括控制器和/或超级计算机(例如分立的控制器或超级计算机)。仪表组1132可以包括一套仪器,例如车速表、燃油水平、油压、转速表、里程表、转弯指示器、换档位置指示器、安全带警告灯、停车制动警告灯、发动机故障灯、安全气囊(SRS)***信息、照明控件、安全***控件、导航信息等等。在一些示例中,信息可以被显示和/或在信息娱乐SoC 1130和仪表组1132之间共享。换言之,仪表组1132可以作为信息娱乐SoC 1130的部分而被包括,或者反之亦然。
图11D为根据本公开一些实施例的基于云的服务器与图11A的示例自主车辆1100之间的通信的***示意图。***1176可以包括服务器1178、网络1190以及包括车辆1100在内的车辆。服务器1178可以包括多个GPU1184(A)-1284(H)(这里统称为GPU 1184)、PCIe交换机1182(A)-1182(H)(这里统称为PCIe交换机1182)和/或CPU 1180(A)-1180(B)(这里统称为CPU 1180)。GPU 1184、CPU 1180和PCIe交换机可以与诸如例如且不限于NVIDIA开发的NVLink接口1188之类的高速互连和/或PCIe连接1186互连。在一些示例中,GPU 1184经由NVLink和/或NVSwitch SoC连接,并且GPU 1184和PCIe交换机1182经由PCIe互连连接。尽管图示出八个GPU 1184、两个CPU 1180和两个PCIe交换机,但是这并不意图是限制性的。取决于实施例,服务器1178中的每一个可以包括任意数量的GPU 1184、CPU 1180和/或PCIe交换机。例如,服务器1178中的每一个可以包括八个、十六个、三十二个和/或更多GPU 1184。
服务器1178可以通过网络1190并且从车辆接收图像数据,该图像数据表示示出诸如最近开始的道路工程之类的意外或改变的道路状况的图像。服务器1178可以通过网络1190并且向车辆传输神经网络1192、更新的神经网络1192和/或地图信息1194,包括关于交通和道路状况的信息。对地图信息1194的更新可以包括对于HD地图1122的更新,例如关于建筑工地、坑洼、弯道、洪水或其他障碍物的信息。在一些示例中,神经网络1192、更新的神经网络1192和/或地图信息1194可以已从新的训练和/或从环境中的任意数量的车辆接收的数据中表示和/或基于数据中心处执行的训练(例如使用服务器1178和/或其他服务器)的经验产生。
服务器1178可以用来基于训练数据训练机器学习模型(例如神经网络)。训练数据可以由车辆生成,和/或可以在仿真中生成(例如使用游戏引擎)。在一些示例中,训练数据被标记(例如在神经网络受益于有监督学习的情况下)和/或经历其他预处理,而在其他示例中,训练数据不被标记和/或预处理(例如在神经网络无需有监督学习的情况下)。可以根据任何一类或更多类别的机器学习技术来执行训练,包括但不限于诸如以下类别:监督训练、半监督训练、非监督训练、自学习、强化学习、联合学习、转移学习、特征学习(包括主要组成和聚类分析)、多线性子空间学习、流形学习、表示学习(包括备用字典学习)、基于规则的机器学习、异常检测及其任何变体或组合。一旦机器学习模型被训练,机器学习模型可以由车辆使用(例如通过网络1190传输至车辆),和/或机器学习模型可以由服务器1178用来远程地监控车辆。
在一些示例中,服务器1178可以接收来自车辆的数据,并且将该数据应用到最新的实时神经网络以用于实时智能推理。服务器1178可以包括由GPU 1184供电的深度学习超级计算机和/或专用AI计算机,例如NVIDIA开发的DGX和DGX站机器。然而,在一些示例中,服务器1178可以包括仅使用CPU供电的数据中心的深度学习基础设施。
服务器1178的深度学习基础设施可能够快速实时推理,并且可以使用该能力来评估并验证车辆1100中的处理器、软件和/或关联硬件的健康状况。例如,深度学习基础设施可以接收来自车辆1100的定期更新,例如图像序列和/或车辆1100已经定位的位于该图像序列中的对象(例如经由计算机视觉和/或其他机器学习对象分类技术)。深度学习基础设施可以运行它自己的神经网络以识别对象并且将它们与车辆1100识别的对象相比较,如果结果不匹配并且该基础设施得出车辆1100中的AI发生故障的结论,那么服务器1178可以向车辆1100传输信号,指示车辆1100的故障保护计算机进行控制,通知乘客,并且完成安全停车操作。
为了推理,服务器1178可以包括GPU 1184和一个或更多个可编程推理加速器(例如NVIDIA的TensorRT)。GPU供电的服务器和推理加速的组合可以使得实时响应成为可能。在其他示例中,例如在性能不那么重要的情况下,CPU、FPGA和其他处理器供电的服务器可以用于推理。
示例计算设备
图12是适合用于实现本公开的一些实施例的示例计算设备1200的框图。计算设备1200可以包括直接或间接耦合以下设备的互连***1202:存储器1204、一个或更多个中央处理单元(CPU)1206、一个或更多个图形处理单元(GPU)1208、通信接口1210、输入/输出(I/O)端口1212、输入/输出组件1214、电源1216,一个或更多个呈现组件1218(例如,(一个或更多个)显示器)和一个或更多个逻辑单元1220。在至少一个实施例中,(一个或更多个)计算设备1200可以包括一个或更多个虚拟机(VM),和/或其任何组件可以包括虚拟组件(例如,虚拟硬件组件)。对于非限制性示例,GPU 1208中的一个或更多个可以包括一个或更多个vGPU,CPU1206中的一个或更多个可以包括一个或更多个vCPU,和/或逻辑单元1220中的一个或更多个可以包括一个或更多个虚拟逻辑单元。这样,(一个或更多个)计算设备1200可以包括分立组件(例如,专用于计算设备1200的全GPU)、虚拟组件(例如,专用于计算设备1200的GPU的一部分)、或其组合。
尽管图12的各个方框被示出为利用线路经由互连***1202连接,但这并不旨在是限制性的并且仅是为了清楚起见。例如,在一些实施例中,呈现组件1218(诸如显示设备)可被认为是I/O组件1214(例如,如果显示器是触摸屏)。作为另一个示例,CPU 1206和/或GPU1208可以包括存储器(例如,存储器1204可以表示除了GPU 1208的存储器、CPU 1206和/或其他组件之外的存储设备)。换言之,图12的计算设备仅是说明性的。在如“工作站”、“服务器”、“膝上型计算机”、“桌面型计算机”、“平板计算机”、“客户端设备”、“移动设备”、“手持式设备”、“游戏控制台”、“电子控制单元(ECU)”、“虚拟现实***”和/或其他设备或***类型的此类类别之间不做区分,因为所有都被考虑在图12的计算设备的范围内。
互连***1202可表示一个或更多个链路或总线,诸如地址总线、数据总线、控制总线或其组合。互连***1202可以包括一个或更多个总线或链路类型,诸如工业标准架构(ISA)总线、扩展工业标准架构(EISA)总线、视频电子标准协会(VESA)总线、***组件互连(PCI)总线、快速***组件互连(PCIe)总线和/或另一类型的总线或链路。在一些实施例中,组件之间存在直接连接。作为示例,CPU 1206可直接连接到存储器1204。进一步,CPU 1206可直接连接到GPU 1208。在组件之间存在直接或点对点连接的情况下,互连***1202可包括PCIe链路以执行连接。在这些示例中,PCI总线不需要被包括在计算设备1200中。
存储器1204可以包括各种计算机可读介质中的任何计算机可读介质。计算机可读介质可以是可由计算设备1200访问的任何可用介质。计算机可读介质可以包括易失性和非易失性介质,以及可移除和不可移除介质。作为示例而非限制,计算机可读介质可包括计算机存储介质和通信介质。
计算机存储介质可以包括以用于存储诸如计算机可读指令、数据结构、程序模块和/或其他数据类型的信息的任何方法或技术实现的易失性和非易失性介质和/或可移动和不可移动介质。例如,存储器1204可以存储计算机可读指令(例如,表示(一个或更多个)程序和/或(一个或更多个)程序元件,诸如操作***)。计算机存储介质可以包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术,CD-ROM、数字通用盘(DVD)或其他光盘存储、磁带盒、磁带、磁盘存储装置或其他磁性存储装置,或可用于存储所要信息且可由计算设备1200存取的任何其他介质。如本文所使用的,计算机存储介质不包括信号本身。
计算机存储介质可将计算机可读指令、数据结构、程序模块和/或其他数据类型体现在诸如载波或其他传输机制之类的已调制数据信号中,并且包括任何信息传递介质。术语“调制数据信号”可以指代以编码信号中的信息的方式设置或改变其一个或更多个特性的信号。作为示例而非限制,计算机存储介质可包括有线介质(诸如有线网络或直接有线连接)和无线介质(诸如声学、RF、红外和其他无线介质)。以上任何内容的组合也应包含在计算机可读介质的范围内。
CPU 1206可经配置以执行计算机可读指令中的至少一些以控制计算设备1200的一个或更多个组件执行本文中所描述的方法和/或过程中的一个或更多个。CPU 1206可各自包含能够同时处置众多软件线程的一个或更多个核心(例如,一个、两个、四个、八个、二十八个、七十二个等)。CPU 1206可包含任何类型的处理器,且可取决于所实施的计算设备1200的类型而包含不同类型的处理器(例如,针对移动装置具有较少核心的处理器和针对服务器具有较多核心的处理器)。例如,取决于计算设备1200的类型,处理器可以是使用精简指令集计算(RISC)实现的高级RISC机器(ARM)处理器或使用复杂指令集计算(CISC)实现的x86处理器。除了一个或更多个微处理器或补充协处理器(诸如数学协处理器)之外,计算设备1200还可包括一个或更多个CPU 1206。
除(一个或更多个)CPU 1206以外或替代(一个或更多个)CPU 1206,(一个或更多个)GPU 1208可被配置成执行计算机可读指令中的至少一些以控制计算设备1200的一个或更多个组件执行本文所描述的方法和/或过程中的一个或更多个。GPU 1208中的一个或更多个可为集成GPU(例如,有CPU 1206中的一个或更多个)和/或GPU 1208中的一个或更多个可为离散GPU。在实施例中,GPU 1208中的一个或更多个可以是CPU 1206中的一个或更多个的协处理器。GPU 1208可由计算设备1200使用以渲染图形(例如,3D图形)或执行通用计算。例如,GPU 1208可用于GPU上的通用计算(GPGPU)。GPU 1208可包含能够同时处置数百或数千软件线程的数百或数千核心。GPU 1208可响应于渲染命令(例如,经由主机接口从CPU1206接收的渲染命令)而产生输出图像的像素数据。GPU 1208可包含用于存储像素数据或任何其他合适数据(例如,GPGPU数据)的图形存储器(例如,显示存储器)。显示存储器可作为存储器1204的一部分被包括。GPU 1208可包含并行操作(例如,经由链路)的两个或两个以上GPU。链路可以直接连接GPU(例如,使用NVLINK)或可以通过交换机(例如,使用NVSwitch)连接GPU。当组合在一起时,每一GPU 1208可产生用于输出的不同部分或用于不同输出的像素数据或GPGPU数据(例如,用于第一图像的第一GPU和用于第二图像的第二GPU)。每一GPU可包含其自己的存储器,或可与其他GPU共享存储器。
除CPU 1206和/或GPU 1208之外或替代CPU 1206和/或GPU 1208,逻辑单元1220可经配置以执行计算机可读指令中的至少一些以控制计算设备1200的一个或更多个组件执行本文中所描述的方法和/或过程中的一个或更多个。在实施例中,(一个或更多个)CPU1206、(一个或更多个)GPU 1208、和/或(一个或更多个)逻辑单元1220可以离散地或联合地执行方法、过程和/或其部分的任何组合。逻辑单元1220中的一个或更多个可为CPU 1206和/或GPU 1208中的一个或更多个中的一部分和/或集成于CPU 1206和/或GPU 1208中的一个或更多个和/或逻辑单元1220中的一个或更多个可为离散组件或以其他方式在CPU 1206和/或GPU 1208外部。在实施例中,逻辑单元1220中的一个或更多个可以是CPU 1206中的一个或更多个和/或GPU 1208中的一个或更多个的协处理器。
逻辑单元1220的示例包括一个或更多个处理核心和/或其组件,诸如数据处理单元(DPU)、张量核心(TC)、张量处理单元(TPU)、像素视觉核心(PVC)、视觉处理单元(VPU)、图形处理群集(GPC)、纹理处理群集(TPC)、流多处理器(SM)、树横向单元(TTU)、人工智能加速器(AIA)、深度学习加速器(DLA)、算术逻辑单元(ALU)、专用集成电路(ASIC)、浮点单元(FPU)、输入/输出(I/O)元件、***组件互连(PCI)或快速***组件互连(PCIe)元件等。
通信接口1210可以包括使计算设备1200能够经由电子通信网络(包括有线和/或无线通信)与其他计算设备通信的一个或更多个接收机、发射机和/或收发机。通信接口1210可包括实现通过多个不同网络中的任一个进行通信的组件和功能,诸如无线网络(例如,Wi-Fi、Z-Wave、蓝牙、蓝牙LE、ZigBee等)、有线网络(例如,通过以太网或无限带通信)、低功率广域网(例如,LoRaWAN、SigFox等)和/或互联网。在一个或更多个实施例中,逻辑单元1220和/或通信接口1210可包括一个或更多个数据处理单元(DPU),以将通过网络和/或通过互连***1202接收到的数据直接传输到一个或更多个GPU 1208(例如,其存储器)。
I/O端口1212可以使得计算设备1200能够逻辑地耦合到包括I/O组件1214、(一个或更多个)呈现组件1218和/或其他组件的其他设备,其中一些可以被内置到(例如,集成在)计算设备1200中。说明性I/O组件1214包括麦克风、鼠标、键盘、操纵杆、游戏垫、游戏控制器、碟形卫星天线、扫描仪、打印机、无线设备等。I/O组件1214可以提供处理空中姿势、语音或由用户生成的其他生理输入的自然用户界面(NUI)。在一些情况下,可将输入发射到适当的网络元件以供进一步处理。NUI可实现与计算设备1200的显示器相关联的语音识别、指示笔识别、面部识别、生物特征识别、屏幕上和屏幕附近的姿势识别、空中姿势、头部和眼睛跟踪、以及触摸识别(如以下更详细地描述的)的任何组合。计算设备1200可以包括用于手势检测和识别的深度相机,诸如立体相机***、红外相机***、RGB相机***、触摸屏技术和这些的组合。另外,计算设备1200可包含使得能够检测运动的加速度计或陀螺仪(例如,作为惯性测量单元(IMU)的部分)。在一些示例中,计算设备1200可以使用加速度计或陀螺仪的输出来渲染沉浸式增强现实或虚拟现实。
电源1216可包括硬连线电源、电池电源或其组合。电源1216可向计算设备1200提供电力以使得计算设备1200的组件能够操作。
呈现组件1218可包括显示器(例如,监视器、触摸屏、电视屏幕、平视显示器(HUD)、其他显示器类型或其组合)、扬声器和/或其他呈现组件。呈现组件1218可从其他组件(例如,GPU 1208、CPU 1206、DPU等)接收数据,且输出所述数据(例如,作为图像、视频、声音等)。
示例数据中心
图13示出了可在本公开的至少一个实施例中使用的示例数据中心1300。数据中心1300可包括数据中心基础设施层1310、框架层1320、软件层1330和/或应用层1340。
如图13所示,数据中心基础设施层1310可以包括资源协调器1312、分组的计算资源1314和节点计算资源(“节点C.R.s”)1316(1)-1316(N),其中“N”表示任何完整的正整数。在至少一个实施例中,节点C.R.s 1316(1)-1316(N)可包括,但不限于任何数量的中央处理单元(CPU)或其他处理器(包括DPU、加速器、现场可编程门阵列(FPGA)、图形处理器或图形处理单元(GPU)等),存储器设备(例如,动态只读存储器),存储设备(例如,固态或磁盘驱动器),网络输入/输出(NW I/O)装置、网络交换机、虚拟机(VM)、功率模块和/或冷却模块,等等。在一些实施例中,来自节点C.R.s 1316(1)-1316(N)中的一个或更多个节点C.R.s可对应于具有上述计算资源中的一个或更多个的服务器。此外,在一些实施例中,节点C.R.s1316(1)-13161(N)可包括一个或更多个虚拟组件,诸如vGPU、vCPU等,和/或节点C.R.s1316(1)-1316(N)中的一个或更多个可对应于虚拟机(VM)。
在至少一个实施例中,分组的计算资源1314可包括容纳在一个或更多个机架(未示出)内的节点C.R.s 1316的单独分组,或容纳在不同地理位置(也未示出)处的数据中心内的许多机架。分组的计算资源1314内的节点C.R.s 1316的单独分组可包括可被配置或分配来支持一个或更多个工作负荷的分组计算、网络、存储器或存储资源。在至少一个实施例中,包括CPU、GPU、DPU和/或其他处理器的若干节点C.R.s 1316可以分组在一个或更多个机架内以提供计算资源来支持一个或更多个工作负荷。一个或更多个机架还可包括任意组合的任意数量的功率模块、冷却模块和/或网络交换机。
资源协调器1312可配置或以其他方式控制一个或更多个节点C.R.s1316(1)-1316(N)和/或分组的计算资源1314。在至少一个实施例中,资源协调器1312可以包括用于数据中心1300的软件设计基础设施(SDI)管理实体。资源协调器1312可以包括硬件、软件或其某种组合。
在至少一个实施例中,如图13所示,框架层1320可以包括作业调度器1333、配置管理器1334、资源管理器1336和/或分布式文件***1338。框架层1320可以包括支持软件层1330的软件1332和/或应用层1340的一个或更多个应用1342的框架。软件1332或应用1342可分别包含基于网络的服务软件或应用,例如由Amazon(亚马逊)网络服务、Google Cloud(谷歌云)和Microsoft Azure提供的那些。框架层1320可以是但不限于可以利用分布式文件***1338进行大规模数据处理(例如,大数据)的免费和开源的软件网络应用框架(如Apache SparkTM(下文称为“Spark”))的类型。在至少一个实施例中,作业调度器1333可以包括Spark驱动器以促进调度由数据中心1300的不同层支持的工作负荷。配置管理器1334可以能够配置不同层,诸如软件层1330和框架层1320(其包括用于支持大规模数据处理的Spark和分布式文件***1338)。资源管理器1336可以能够管理被映射到分布式文件***1338和作业调度器1333或被分配用于支持分布式文件***1338和作业调度器1333的集群的或分组的计算资源。在至少一个实施例中,集群的或分组的计算资源可包括在数据中心基础设施层1310的分组的计算资源1314。资源管理器1336可与资源协调器1312协调以管理这些被映射或分配的计算资源。
在至少一个实施例中,在软件层1330中包括的软件1332可包括由节点C.R.s 1316(1)-1316(N)、分组的计算资源1314和/或框架层1320的分布式文件***1338中的至少部分使用的软件。一种或更多种类型的软件可以包括但不限于互联网网页搜索软件、电子邮件病毒扫描软件、数据库软件和流式视频内容软件。
在至少一个实施例中,在应用层1340中包括的应用1342可包括由节点C.R.s 1316(1)-1316(N)、分组的计算资源1314和/或框架层1320的分布式文件***1338中的至少部分使用的一个或更多个类型的应用。一种或更多种类型的应用可以包括但不限于任何数量的基因组应用、认知计算和机器学习应用,包括训练或推断软件、机器学习框架软件(例如,PyTorch、TensorFlow、Caffe等)和/或结合一个或更多个实施例使用的其他机器学习应用。
在至少一个实施例中,配置管理器1334、资源管理器1336和资源协调器1312中的任一个可基于在任何技术上可行的方式中获取的任何量和类型的数据来实现任何数量和类型的自修改动作。自修改动作可使数据中心1300的数据中心操作者免于做出可能较差的配置决策和可能避免数据中心的未充分利用和/或较差执行部分。
根据本文描述的一个或更多个实施例,数据中心1300可包括工具、服务、软件或其他资源来训练一个或更多个机器学习模型或使用一个或更多个机器学习模型来预测或推断信息。例如,可以通过使用以上相对于数据中心1300描述的软件和/或计算资源根据神经网络架构来计算权重参数来训练(一个或更多个)机器学习模型。在至少一个实施例中,对应于一个或更多个神经网络的经训练或部署的机器学习模型可用于通过使用通过一种或更多种训练技术(诸如但不限于本文中描述的那些训练技术)计算的权重参数,使用上文相对于数据中心1300描述的资源来推断或预测信息。
在至少一个实施例中,数据中心1300可使用CPU、专用集成电路(ASIC)、GPU、FPGA和/或其他硬件(或与其对应的虚拟计算资源)来使用上述资源执行训练和/或推断。此外,上文所描述的一或更多个软件和/或硬件资源可被配置为允许用户训练或执行对信息的推断的服务,例如图像识别、语音识别或其他人工智能服务。
示例网络环境
适合用于实现本公开的实施例的网络环境可以包括一个或更多个客户端设备、服务器、网络附加存储(NAS)、其他后端设备和/或其他设备类型。客户端设备、服务器和/或其他设备类型(例如,每个设备)可以在图12的(一个或更多个)计算设备1200的一个或更多个实例上实现——例如,每个设备可以包括(一个或更多个)计算设备1200的类似部件、特征和/或功能。此外,在实现后端设备(例如,服务器、NAS等)的情况下,后端设备可被包括作为数据中心1300的一部分,数据中心1300的示例在本文中关于图13更详细地描述。
网络环境的组件可经由网络彼此通信,所述网络可为有线的、无线的或为两者。网络可以包括多个网络或多个网络中的一个网络。例如,网络可包括一个或更多个广域网(WAN)、一个或更多个局域网(LAN)、一个或更多个公共网络(诸如互联网和/或公共交换电话网(PSTN))和/或一个或更多个私有网络。在网络包括无线电信网络的情况下,诸如基站、通信塔或者甚至接入点(以及其他组件)的组件可以提供无线连接。
兼容的网络环境可以包括一个或更多个对等网络环境(在这种情况下,服务器可以不被包括在网络环境中)和一个或更多个客户端-服务器网络环境(在这种情况下,一个或更多个服务器可以被包括在网络环境中)。在对等网络环境中,本文针对服务器所描述的功能可在任何数量的客户端设备上实现。
在至少一个实施例中,网络环境可包括一个或更多个基于云的网络环境、分布式计算环境、其组合等。基于云的网络环境可包括框架层、作业调度器、资源管理器和在一个或更多个服务器上实现的分布式文件***,所述服务器可包括一个或更多个核心网服务器和/或边缘服务器。框架层可包括支持软件层的软件和/或应用层的一个或更多个应用的框架。软件或应用可分别包含基于网络的服务软件或应用。在实施例中,一个或更多个客户端设备可以使用基于网络的服务软件或应用(例如,通过经由一个或更多个应用编程接口(API)访问服务软件和/或应用)。框架层可以是但不限于如可以使用分布式文件***进行大规模数据处理(例如,“大数据”)的一种免费和开源软件网络应用框架。
基于云的网络环境可提供执行本文描述的计算和/或数据存储功能(或其一个或更多个部分)的任何组合的云计算和/或云存储。这些不同功能中的任何功能可以分布在来自(例如,可以分布在州、地区、国家、全球等的一个或更多个数据中心的)中央或核心服务器的多个位置上。如果与用户(例如,客户端设备)的连接相对靠近边缘服务器,则核心服务器可以将功能的至少一部分指定给边缘服务器。基于云的网络环境可以是私有的(例如,限于单个组织),可以是公共的(例如,对许多组织可用),和/或其组合(例如,混合云环境)。
(一个或更多个)客户端设备可以包括本文关于图12所描述的(一个或更多个)示例计算设备1200的组件、特征和功能中的至少一些。作为示例而非限制,客户端设备可被实现为个人计算机(PC),膝上型计算机、移动设备、智能电话、平板计算机、智能手表、可穿戴计算机、个人数字助理(PDA)、MP3播放器、虚拟现实耳机、全球定位***(GPS)或设备、视频播放器、摄像机、监视设备或***、车辆、船、飞船、虚拟机、无人机、机器人、手持式通信设备、医院设备、游戏设备或***、娱乐***、车辆计算机***、嵌入式***控制器、遥控器、电器、消费电子设备、工作站、边缘设备、这些描绘的设备的任何组合或任何其他合适的设备。
本公开可以在由计算机或者诸如个人数字助理或其他手持式设备之类的其他机器执行的、包括诸如程序模块之类的计算机可执行指令的机器可使用指令或者计算机代码的一般背景下进行描述。通常,包括例程、程序、对象、组件、数据结构等等的程序模块指的是执行特定任务或者实现特定抽象数据类型的代码。本公开可以在各种各样的***配置中实践,这些配置包括手持式设备、消费电子器件、通用计算机、更专业的计算设备等等。本公开也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实践。
如在本文中使用的,“和/或”关于两个或更多元件的叙述应当解释为仅指一个元件或者元件组合。例如,“元件A、元件B和/或元件C”可以包括仅仅元件A,仅仅元件B,仅仅元件C,元件A和元件B,元件A和元件C,元件B和元件C,或者元件A、B和C。此外,“元件A或元件B中的至少一个”可以包括元件A中的至少一个,元件B中的至少一个,或者元件A中的至少一个和元件B中的至少一个。进一步,“元件A和元件B中的至少一个”可以包括元件A中的至少一个,元件B中的至少一个,或者元件A中的至少一个和元件B中的至少一个。
这里详细地描述了本公开的主题以满足法定要求。然而,描述本身并非意在限制本公开的范围。相反地,本公开人已经设想到,要求保护的主题也可以以其他的方式具体化,以包括与本文中结合其他当前或未来技术描述的步骤不同的步骤或者相似的步骤的组合。而且,尽管术语“步骤”和/或“块”在本文中可以用来隐含采用的方法的不同元件,但是这些术语不应当被解释为暗示本文公开的各个步骤之中或之间的任何特定顺序,除非明确描述了各步骤的顺序。

Claims (21)

1.一种方法,包括:
至少基于表示第一图像的第一图像数据,确定与所述第一图像中描绘的对象相关联的第一特征点;
至少基于表示第二图像的第二图像数据,确定与所述第二图像相关联的第二特征点;
至少基于所述第一特征点与所述第二特征点的比较,确定与所述对象相关联的标量变化;
至少基于所述标量变化,确定所述对象描绘于所述第二图像中;以及
至少基于所述对象描绘于所述第二图像中,对与所述对象对应的轨道执行一个或更多个操作。
2.根据权利要求1所述的方法,其中确定与所述第二图像相关联的所述第二特征点包括:
至少基于所述第一图像数据,确定与所述对象相关联的第一包围形状;
通过至少调整所述第一包围形状的大小来确定与所述对象相关联的第二包围形状;以及
至少基于所述第二图像数据,确定位于所述第二包围形状内的所述第二特征点。
3.根据权利要求1所述的方法,进一步包括:
至少基于所述标量变化、所述第一特征点中的至少一个和所述第二特征点中的至少一个,确定与所述对象相关联的平移;
其中确定所述对象描绘于所述第二图像中进一步至少基于所述平移。
4.根据权利要求1所述的方法,其中确定所述对象描绘于所述第二图像中包括:
至少基于所述第一图像数据,确定与所述对象相关联的第一包围形状;
至少基于所述第一包围形状和所述标量变化,确定第二包围形状;
至少基于所述第二图像数据,确定与所述对象相关联的第三包围形状;以及
至少基于所述第二包围形状与所述第三包围形状的比较,确定所述对象描绘于所述第二图像中。
5.根据权利要求4所述的方法,其中确定所述对象描绘于所述第二图像中包括:
确定所述第三包围形状和所述第二包围形状之间的重叠量;
至少基于所述重叠量,确定与所述对象相关联的分数;以及
至少基于所述分数,确定所述对象描绘于所述第二图像中。
6.根据权利要求1所述的方法,其中确定所述标量变化包括:
从所述第一特征点确定第一特征点和第二特征点之间的第一距离;
从所述第二特征点确定第三特征点和第四特征点之间的第二距离,其中所述第三特征点与所述第一特征点相关联,并且所述第四特征点与所述第二特征点相关联;以及
至少基于所述第一距离和所述第二距离来确定所述标量变化。
7.根据权利要求1所述的方法,进一步包括:
至少基于所述对象描绘于所述第二图像中,确定与所述对象相关联的置信度分数;
其中执行所述一个或更多个操作包括:至少基于所述置信度分数来生成与所述对象相关联的所述轨道。
8.根据权利要求7所述的方法,进一步包括:
至少基于表示第三图像的第三图像数据,确定与所述第三图像相关联的第三特征点;
至少基于所述第二特征点和所述第三特征点,确定与所述对象相关联的附加的标量变化;
至少基于所述附加的标量变化,确定所述对象是否描绘于所述第三图像中;以及
以下其中之一:
至少基于所述对象描绘于所述第三图像中,通过增加所述置信度分数,来确定与所述对象相关联的附加的置信度分数;或
至少基于所述对象未描绘于所述第三图像中,通过减少所述置信度分数,来确定所述附加的置信度分数。
9.根据权利要求1所述的方法,其中所述一个或更多个操作包括:生成与所述对象相关联的所述轨道,并且其中所述方法进一步包括:
至少基于表示第三图像的第三图像数据,确定与所述第三图像相关联的第三特征点;
至少基于所述第二特征点和所述第三特征点,确定与所述对象相关联的附加的标量变化;
至少基于所述附加的标量变化,确定所述对象未描绘于所述第三图像中;以及
至少基于所述对象未描绘于所述第三图像中,终止与所述对象相关联的所述轨道。
10.一种***,包括:
一个或更多个处理单元,用于:
至少基于表示第一图像的第一图像数据,确定与所述第一图像中描绘的对象相关联的第一特征点;
至少基于表示第二图像的第二图像数据,确定与所述第二图像中描绘的所述对象相关联的第二特征点;
至少基于所述第一特征点和所述第二特征点,确定与所述对象相关联的标量变化;以及
至少基于所述标量变化,确定与所述对象相关联的碰撞时间TTC值。
11.根据权利要求10所述的***,其中确定所述第二特征点与所述对象相关联至少基于:
至少基于所述第一图像数据,确定与所述对象相关联的第一包围形状;
通过至少调整所述第一包围形状的大小,确定与所述对象相关联的第二包围形状;以及
至少基于所述第二图像数据,确定所述第二特征点位于所述第二包围形状内。
12.根据权利要求10所述的***,其中确定所述标量变化至少基于:
从所述第一特征点确定第一特征点和第二特征点之间的第一距离;
从所述第二特征点确定第三特征点和第四特征点之间的第二距离,其中所述第三特征点与所述第一特征点相关联并且所述第四特征点与所述第二特征点相关联;以及
至少基于所述第一距离和所述第二距离来确定所述标量变化。
13.根据权利要求10所述的***,其中确定所述标量变化至少基于:
从所述第一特征点确定第一特征点对之间的第一距离;
从所述第二特征点确定第二特征点对之间的第二距离,其中所述第二特征点对与所述第一特征点对相关联;
至少基于所述第一距离和所述第二距离来确定所述标量变化;以及
将所述标量变化确定为所述标量变化的中位数或所述标量变化的平均值中的至少一个。
14.根据权利要求10所述的***,其中所述一个或更多个处理单元进一步用于:
确定所述第一图像和所述第二图像之间的时间差;
其中至少基于所述时间差进一步确定所述TTC。
15.根据权利要求10所述的***,其中所述一个或更多个处理单元进一步用于:
至少基于表示第三图像的第三图像数据,确定与所述第三图像中描绘的所述对象相关联的第三特征点;
至少基于所述第一特征点和所述第三特征点,确定与所述对象相关联的附加的标量变化;
至少基于所述附加的标量变化,确定与所述对象相关联的附加的TTC;以及
至少基于所述TTC和所述附加的TTC,确定与所述对象相关联的最终TTC。
16.根据权利要求10所述的***,其中所述一个或更多个处理单元进一步用于:
至少基于所述第一图像数据,确定与所述对象相关联的第一包围形状;
至少基于所述第一包围形状和所述标量变化,确定与所述对象相关联的第二包围形状;
至少基于所述第二图像数据,确定与所述对象相关联的第三包围形状;以及
至少基于所述第二包围形状和所述第三包围形状,确定所述标量变化得到验证。
17.根据权利要求10所述的***,其中所述一个或更多个处理单元进一步用于:
至少基于所述标量变化、所述第一特征点中的至少一个和所述第二特征点中的至少一个,确定与所述对象相关联的平移;以及
至少基于所述标量变化和所述平移,确定所述第一图像中描绘的所述对象与所述第二图像中描绘的所述对象是同一对象。
18.根据权利要求10所述的***,其中所述***被包括在以下中的至少一个中:
用于自主或半自主机器的控制***;
用于自主或半自主机器的感知***;
用于执行模拟操作的***;
用于执行数字孪生操作的***;
用于执行光传输模拟的***;
用于生成或呈现虚拟现实内容、增强现实内容或混合现实内容中的至少一个的***;
用于执行用于3D资产的协作内容创建的***;
用于执行深度学习操作的***;
使用边缘设备实现的***;
使用机器人实现的***;
用于执行对话式AI操作的***;
用于生成合成数据的***;
合并一个或更多个虚拟机VM的***;
至少部分地在数据中心中实现的***;或
至少部分地使用云计算资源实现的***。
19.一种处理器,包括:
一个或更多个处理单元,用于至少基于与对象相关联的标量变化来执行一个或更多个操作,其中所述标量变化至少基于与描绘所述对象的第一图像相关联的第一特征点和与第二图像相关联的第二特征点之间的比较来确定。
20.根据权利要求19所述的处理器,其中所述一个或更多个操作包括以下中的至少一个:
至少基于所述标量变化,确定所述对象描绘于所述第二图像中;或
至少基于所述标量变化,确定与所述对象相关联的碰撞时间TTC。
21.根据权利要求19所述的处理器,其中所述处理器被包括在以下中的至少一个中:
用于自主或半自主机器的控制***;
用于自主或半自主机器的感知***;
用于执行模拟操作的***;
用于执行数字孪生操作的***;
用于执行光传输模拟的***;
用于执行用于3D资产的协作内容创建的***;
用于执行深度学习操作的***;
使用边缘设备实现的***;
用于生成或呈现虚拟现实内容、增强现实内容或混合现实内容中的至少一个的***;
使用机器人实现的***;
用于执行对话式AI操作的***;
用于生成合成数据的***;
合并一个或更多个虚拟机VM的***;
至少部分地在数据中心中实现的***;或
至少部分地使用云计算资源实现的***。
CN202310172835.4A 2022-05-06 2023-02-24 用于自主***和应用的对象追踪和碰撞时间估计 Pending CN117011329A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US63/339,371 2022-05-06
US17/955,827 2022-09-29
US17/955,827 US20230360232A1 (en) 2022-05-06 2022-09-29 Object tracking and time-to-collision estimation for autonomous systems and applications

Publications (1)

Publication Number Publication Date
CN117011329A true CN117011329A (zh) 2023-11-07

Family

ID=88575092

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310172835.4A Pending CN117011329A (zh) 2022-05-06 2023-02-24 用于自主***和应用的对象追踪和碰撞时间估计

Country Status (1)

Country Link
CN (1) CN117011329A (zh)

Similar Documents

Publication Publication Date Title
US11841458B2 (en) Domain restriction of neural networks through synthetic data pre-training
US11928822B2 (en) Intersection region detection and classification for autonomous machine applications
US11995895B2 (en) Multi-object tracking using correlation filters in video analytics applications
CN113168505B (zh) 用于自主驾驶机器的基于回归的线检测
US20240116538A1 (en) Lane change planning and control in autonomous machine applications
US11636689B2 (en) Adaptive object tracking algorithm for autonomous machine applications
CN112989914B (zh) 具有自适应加权输入的注视确定机器学习***
WO2021174118A1 (en) Object detection using image alignment for autonomous machine applications
US20230054759A1 (en) Object tracking using lidar data for autonomous machine applications
US20220297706A1 (en) Combining rule-based and learned sensor fusion for autonomous systems and applications
US20230110713A1 (en) Training configuration-agnostic machine learning models using synthetic data for autonomous machine applications
US20230213945A1 (en) Obstacle to path assignment for autonomous systems and applications
US20240059295A1 (en) Multi-view geometry-based hazard detection for autonomous systems and applications
US20220301186A1 (en) Motion-based object detection for autonomous systems and applications
CN115701623A (zh) 自主机器应用中范围图像映射的置信传播
CN118119981A (zh) 用于自主***和应用的使用机器学习的自由空间检测
US20240017743A1 (en) Task-relevant failure detection for trajectory prediction in machines
WO2024015632A1 (en) Surround scene perception using multiple sensors for autonomous systems and applications
CN118251705A (zh) 用于自主***和应用中的使用多个传感器的环绕场景感知
US20230360231A1 (en) Joint 2d and 3d object tracking for autonomous systems and applications
CN117581117A (zh) 自主机器***和应用中使用LiDAR数据的动态对象检测
CN116500619A (zh) 用于汽车雷达感知的雷达信号采样
US12026955B2 (en) Assigning obstacles to lanes using neural networks for autonomous machine applications
US20230186640A1 (en) Single and across sensor object tracking using feature descriptor mapping in autonomous systems and applications
CN116106905A (zh) 基于雷达的变道安全***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination