CN116263688A - 在自主***和应用程序中使用特征描述符绘图进行单个和跨传感器对象追踪 - Google Patents

在自主***和应用程序中使用特征描述符绘图进行单个和跨传感器对象追踪 Download PDF

Info

Publication number
CN116263688A
CN116263688A CN202211411781.4A CN202211411781A CN116263688A CN 116263688 A CN116263688 A CN 116263688A CN 202211411781 A CN202211411781 A CN 202211411781A CN 116263688 A CN116263688 A CN 116263688A
Authority
CN
China
Prior art keywords
feature
vehicle
data
sensors
feature descriptor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211411781.4A
Other languages
English (en)
Inventor
M·K·科贾马兹
徐克�
吴相旼
权丁铉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nvidia Corp
Original Assignee
Nvidia Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nvidia Corp filed Critical Nvidia Corp
Publication of CN116263688A publication Critical patent/CN116263688A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/098Distributed learning, e.g. federated learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2420/00Indexing codes relating to the type of sensors based on the principle of their operation
    • B60W2420/40Photo, light or radio wave sensitive means, e.g. infrared sensors
    • B60W2420/403Image sensing, e.g. optical camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

本公开涉及在自主***和应用程序中使用特征描述符绘图进行单个和跨传感器对象追踪。在各种示例中,可以利用来自车辆传感器的实时感知来为车辆生成对象追踪路径,以促进实时或接近实时的导航控制。例如,可以训练深度神经网络(DNN)来计算各种输出,诸如特征描述符图,该特征描述符图包括与一个或更多个传感器视场中包含的对象相对应的特征描述符向量。可以对输出进行解码和/或以其他方式进行后处理以重建对象追踪,并确定用于导航车辆的建议或潜在路径。

Description

在自主***和应用程序中使用特征描述符绘图进行单个和跨 传感器对象追踪
背景技术
自主驾驶***和高级驾驶员辅助***(ADAS)可以使用传感器(诸如相机、LIDAR(激光雷达)传感器、RADAR(雷达)传感器和/或类似物)来执行各种任务——诸如对象检测、对象追踪、车道保持、车道改变、车道分配、相机校准、转弯、路径规划和/或定位。例如,为了使自主和ADAS***独立和有效地运行,必须实现对机器周围环境的理解。这种理解可包括关于对象位置和对象路径或轨迹的信息,并且机器在做路径规划或控制决策时可以使用这些信息——诸如要遵循什么路径或轨迹。
例如,当规划机器路径、避开对象和/或做出控制决策时,关于自主或半自主机器的环境中的对象位置和对象路径的信息是重要的——诸如在哪里停止、使用什么路径来安全地穿过交叉路口、其他车辆或行人可能位于哪里等。
传统的对象追踪***使用运动模型或基于卷积DNN的模型,两者都严重依赖于对象检测器。例如,一些运动模型使用边界形状内的关键点(诸如尺度不变特征变换(SIFT)算法和/或Kanade-Lucas-Tomasi(KLT)特征追踪器)作为特征描述符。运动模型方法试图使用先前的关键点位置和预定义的运动模型来预测当前的边界形状位置,并且通过计算由运动模型预测的边界形状位置和由对象检测器预测的边界形状位置之间的交并联合(IOU)分数来实现追踪。然而,简单的关键点通常不能捕获各个对象的高级语义特征。换句话说,使用运动模型的对象追踪高度依赖于关键点的连续性和可见性。因此,相机视点的变化和部分观察通常会导致追踪失败。
类似地,当对象移动不遵循预定义的运动模型时,运动模型也会失败——例如,当对象彼此靠近或以相反方向彼此交叉时,通常会出现追踪错误。例如,当一群人以相反的方向穿过街道时,运动模型可能无法准确地追踪每个人的路径,因为一些行动者(actor)遮挡了其他行动者。这些运动模型通常严重依赖于手动调整的阈值,诸如最小关键点数和置信度阈值,其需要针对不同的路况和场景进行重新调整。
依赖于基于卷积DNN的模型的最近的方法利用DNN的特征编码能力来追踪对象。通常,这些基于DNN的模型首先作为对象检测管道的一部分进行训练,然后使用商业上可用的匹配或关联算法进行检测后追踪。然而,DNN特征和关联算法都没有针对对象追踪进行优化,这通常会导致对象识别切换——例如,当两个对象交叉路径时,追踪可能会将每个行动者误认为另一个行动者。此外,为每个检测到的对象提取和缓存DNN特征的计算成本很高,因此不能很好地扩展到追踪大量对象。
发明内容
本公开的实施例涉及针对单传感器应用程序和多传感器应用程序使用学习的特征向量的对象追踪。公开了利用来自机器的各种传感器的输出以使用基于向量的特征描述符追踪单个传感器的视图中或跨多个传感器的对象的***和方法。此外,公开了利用来自各种传感器的输出来使用向量三元组训练人工智能引擎的***和方法。例如,与诸如上述那些的常规***相比,可以使用像素级特征描述符来直接训练DNN用于对象追踪。因此,基于DNN的模型可以追踪单个传感器内的对象——或在同一时间实例跨多个传感器——即使对象仅被部分地观察、遮挡、交叉路径等。来自单传感器追踪和/或跨传感器追踪的对象追踪数据可由自我机器的一个或更多个下游组件使用——诸如世界模型管理器、路径规划器、控制组件、定位组件、避障组件、致动组件等——以执行用于控制自我机器通过环境的一个或更多个操作。
附图说明
下面参考附图详细地描述用于单个和跨传感器对象追踪的学习的特征向量的本***和方法,其中:
图1描绘了示出了根据本公开的一些实施例的用于训练机器学习模型以计算特征描述符图的示例训练过程的数据流程图;
图2A描绘了根据本公开的一些实施例的传感器数据实例的示例可视化;
图2B描绘了根据本公开的一些实施例的用于生成与传感器数据的实例相对应的真值数据的注释的示例可视化;
图2C-2D描绘了根据本公开的一些实施例的与神经网络的训练数据相对应的示例特征描述符向量图;
图3A-3B描绘了根据本公开的一些实施例的来自特征描述符向量图的示例正样本、负样本和锚样本;
图4A-4B描绘了根据本公开的一些实施例的用于训练机器学习模型以追踪对象的示例方法的流程图;
图5描绘了示出了根据本公开的一些实施例的用于使用机器学习模型追踪对象的示例过程的数据流程图;
图6A-6C描绘了根据本公开的一些实施例的示例特征描述符图;
图7描绘了根据本公开的一些实施例的用于使用机器学习模型追踪对象的示例方法的流程图;
图8A是根据本公开的一些实施例的示例自主车辆的图示;
图8B是根据本公开的一些实施例的图8A的示例自主车辆的相机位置和视场的示例;
图8C是根据本公开的一些实施例的图8A的示例自主车辆的示例***架构的框图;
图8D是根据本公开的一些实施例的用于在基于云的服务器与图8A的示例自主车辆之间通信的***图;
图9是适合用于实现本公开的一些实施例的示例计算设备的框图;以及
图10是适合用于实现本公开的一些实施例的示例数据中心的框图。
具体实施方式
公开了与用于单个和跨传感器对象追踪的学***台、仓库车辆、越野车辆、与一辆或更多辆拖车相连的车辆、飞行船、船、摆渡车、应急车辆、摩托车、电动或机动自行车、飞机、工程车辆、水下航行器、无人机和/或其他车辆类型。此外,尽管本公开可针对跨多个传感器和/或通过时间追踪对象进行描述,但这并非旨在限制,并且本文描述的***和方法可用于增强现实、虚拟现实、混合现实、机器人、安全和监视、自主或半自主机器应用和/或任何其他可以使用跨多个传感器和/或通过时间追踪对象的技术空间。
如本文所述,并且与对象追踪的常规方法相比,当前***和方法提供了使用来自机器的传感器(例如,相机、RADAR、传感器、LIDAR等)的输出来实时或接近实时地追踪对象的技术。为了实现这一点,***使用真值(ground truth)向量三元组来训练DNN。通常,将训练数据作为输入提供给DNN,并且DNN使用训练数据来生成至少包括与对象相关联的像素的一维(1D)向量特征描述符的描述符图(map)。训练数据可以被选择为包括多向量三元组,其包括锚(anchor)向量(例如,与已知与对象相对应的第一像素相关联)、正向量(例如,与已知与该对象相对应的第二像素相关联)和负向量(例如,与已知对应于与对象不同的对象的第三像素相关联)。以这种方式,当DNN使用训练数据计算输出特征向量时,这些已知的锚向量、正向量和负向量可以被用作真值来训练DNN,以最小化正向量和锚向量之间的距离,同时最大化锚向量和负向量之间的距离。以这种方式,DNN可以被训练以计算用于同一对象的相似或相同的特征向量描述符以及用于不同对象的不同特征向量。
特别地,可以使用用边界形状标记图像(或空间的其他传感器数据表示)中的对象的对象检测算法来选择真值向量三元组。在一些方面,短于预定最小轨迹(track)长度的轨迹被移除。预定最小轨迹长度可基于对象类别(例如,车辆或行人)而变化。此外,在一些方面,可以对数据序列(例如,视频)的最后30帧进行过滤,以通过消除错误的对象检测错误来增强真值数据的准确性。在一些方面,为了减少训练负担,可以每n帧对长于预定阈值的数据序列进行采样,以减少数据序列长度。然后可以将轨迹ID分配给每个边界形状——例如,可以为同一边界形状内的每个像素分配相同的轨迹ID值,并且可以为背景像素(例如,未被任何边界形状覆盖的像素)分配零(0)的值。在训练期间,特定边界形状(例如,用相同的轨迹ID标记)内的所有特征向量被认为是正样本,而属于其他对象的所有特征向量被认为是负样本。
向量三元组可以从跨空间和/或时间的特征描述符图创建。例如,在单传感器追踪场景中,至少两个描述符图(t1-k处的描述符图1和t1处的描述符图2)可用于创建向量三元组。正样本可以是来自描述符图1的正样本的一个或更多个向量(例如,具有相同轨迹ID的边界形状内的向量),而负样本可以是来自描述符图1的负样本的一个或更多个向量(例如,另一边界形状内的向量)。锚可以是来自描述符图2的正样本的一个或更多个向量。
类似地,可以生成向量三元组来训练DNN进行跨传感器追踪——例如,在同一时间步长。在这样的示例中,正样本可以是来自第一传感器描述符图的正样本的一个或更多个向量(例如,具有相同轨迹ID的边界形状内的向量),而负样本可以是来自第一传感器描述符图的负样本的一个或更多个向量(例如,另一个边界形状内的向量)。锚可以是来自第二传感器描述符图的正样本的一个或更多个向量。
对于给定的三元组,可以使用三元组损失函数来最小化锚特征描述符和正特征描述符之间的距离(例如,锚“a”和正“p”之间的距离“d”)。换句话说,三元组损失最小化d(a,p)。类似地,三元组损失函数可以最小化锚和负数之间的距离(例如,最小化d(a,n))。因此,该损失函数可以使DNN在嵌入空间中学***凡的(全零)特征向量,可以将边距(margin)值添加到最大边距损失。此外,即使在真值数据包括部分模糊的对象的情况下,也可以在像素级计算三元组损失,以使DNN学习有用的特征描述符。
有利地,向量三元组的使用促进了使用多个挖掘(mining)选项的DNN训练。通常,有三种类型的三元组:简单三元组、困难(hard)三元组和半困难(semi-hard)三元组。在一个或更多个实施例中,简单三元组具有0的三元组损失,困难三元组是其中负样本比正样本更接近锚的三元组,而半困难三元组是其中负样本不比正样本更接近锚的三元组,但仍有正损失。在实施例中,为了加速训练并增加DNN的辨别能力,在训练期间可以仅使用半困难和困难三元组。然而,在某些方面的训练期间,可以使用简单三元组、半困难三元组和困难三元组。此外,使用向量三元组有助于轮次(epoch)或批量挖掘。例如,可以在轮次长三元组上训练DNN之前计算整个训练集的向量和边界形状。或者,可以实现对三元组挖掘的批量所有或批量困难方法。对于批量所有三元组挖掘,为给定的批量选择所有有效的三元组,对困难和半困难三元组的损失进行平均,并且忽略简单的三元组。对于批量困难三元组挖掘,选择在针对每个锚的批量中的最难正例和最难负例,并且仅计算最难三元组的三元组损失函数。
在实施例中,训练DNN以使用向量三元组追踪对象有助于以最小的内存负担进行部署集成。例如,通过使用像素级到边界形状级的转换,可以将经训练或经部署的DNN集成到具有最小下游影响的传统自我机器***中。说明性地,在部署期间,可以通过对特定边界形状内的所有像素级特征描述符进行平均来将像素级特征描述符转换为边界形状级特征描述符。然后可以将平均值分配为边界形状级特征描述符,并且可以跨帧(例如,来自相同传感器或跨不同传感器)使用该边界形状级特征描述符来追踪对应的对象。
相对直接的后处理步骤可以促进单传感器和多传感器对象追踪。对于单传感器追踪中的应用程序,DNN分别处理连续帧(例如,tx、tx-1、tx-2、tx-3等),并如上所述为检测到的对象生成边界形状级特征描述符。可以计算每个边界形状特征描述符之间的对象关联分数,并且可以计算特征描述符的差异以跨帧识别同一对象。例如,在特征描述符之间的距离小于阈值的情况下,不同帧中的边界形状可被确定为与同一对象相对应。在一些方面,对象关联分数是每个边界形状特征描述符之间的余弦距离。在实施例中,为了追踪目的,可以使用KNN算法来找到最佳匹配。
参考图1,图1是示出了根据本公开的一些实施例的用于训练DNN以使用机器的一个或更多个传感器的输出来追踪对象的示例过程100的示例数据流。应当理解,本文所述的这个和其他布置仅作为示例被阐述。除了所示的那些布置和元件之外或代替所示的那些布置和元件,可以使用其他布置和元件(例如,机器、接口、功能、顺序、功能分组等),并且一些元件可以完全省略。进一步,本文描述的许多元件是可被实现为分立或分布式组件,或结合其他组件且以任何合适的组合和位置实现的功能实体。本文中描述为由实体执行的各个功能可由硬件、固件和/或软件执行。例如,各个功能可通过处理器执行存储在存储器中的指令来执行。在一些实施例中,本文描述的***、方法和过程可以使用与图8A-8D的示例自主车辆800、图9的示例计算设备900和/或图10的示例数据中心1000的那些类似的组件、特征和/或功能来执行。
在高级别,过程100可以包括一个或更多个机器学习模型104,其接收一个或更多个输入(诸如传感器数据102),并生成一个或更多个输出,诸如输出(例如,一个或更多个特征描述符图106)。如参考训练所使用的,传感器数据102可被称为训练数据。尽管传感器数据102主要是关于表示图像的图像数据来讨论的,但这并不旨在限制,并且传感器数据102可以包括用于对象检测和/或对象追踪的其他类型的传感器数据,例如LIDAR数据、SONAR(声纳)数据、RADAR数据等——例如,如由参考图8A-8D所描述的车辆800的一个或更多个传感器产生。
过程100可以包括生成和/或接收来自一个或更多个传感器的传感器数据102。作为非限制性示例,可以从机器(例如,图8A-8D的车辆800)的一个或更多个传感器接收传感器数据102。传感器数据102可以由自我机器800使用,并且在过程100内,用于跨帧和/或跨传感器追踪对象。传感器数据102可以包括但不限于来自车辆的任何传感器的传感器数据102,包括例如并参考图8A-8C,一个或更多个全球导航卫星***(GNSS)传感器858(例如,一个或更多个全球定位***传感器)、一个或更多个RADAR传感器860、一个或更多个超声波传感器862、一个或更多个LIDAR传感器864、一个或更多个惯性测量单元(IMU)传感器866(例如,一个或更多个加速度计、一个或更多个陀螺仪、一个或更多个磁罗盘、一个或更多个磁力计等)、一个或更多个麦克风876、一个或更多个立体相机868、一个或更多个广角相机870(例如,鱼眼相机)、一个或更多个红外相机872、一个或更多个环绕相机874(例如,360度相机)、一个或更多个远程和/或中程相机878、一个或更多个速度传感器844(例如,用于测量车辆800的速度)和/或其他传感器类型。作为另一个示例,传感器数据102可以包括从虚拟车辆或其他虚拟对象的任何数量的传感器生成的虚拟传感器数据。在这样的示例中,虚拟传感器可对应于模拟环境中的虚拟车辆或其他虚拟对象(例如,用于测试、训练和/或验证神经网络性能),并且虚拟传感器数据可表示由模拟或虚拟环境内的虚拟传感器捕获的传感器数据。因此,通过使用虚拟传感器数据,本文中描述的一个或更多个机器学习模型104可在模拟环境中使用模拟的数据来测试、训练和/或验证,这可允许测试现实世界环境之外的更极端的场景,在现实世界环境中此类测试可能是较不安全的。
在一些实施例中,传感器数据102可包括表示一个或更多个图像的图像数据、表示视频的图像数据(例如,视频的快照)、和/或表示传感器的传感场的表示的传感器数据(例如,LIDAR传感器的深度图,超声波传感器的值图等)。在传感器数据102包括图像数据的情况下,可以使用任何类型的图像数据格式,例如但不限于压缩图像(如联合图像专家组(JPEG)或亮度/色度(YUV)格式),作为源自压缩视频格式(如H.264/高级视频编码(AVC)或H.265/高效视频编码(HEVC))的帧的压缩图像,诸如源自红色清晰蓝(RCCB)、红色清晰(RCCC)或其他类型的成像传感器的原始图像,和/或其他格式。另外,在一些示例中,可在过程100内使用传感器数据102而无需任何预处理(例如,以原始或捕获格式),而在其他示例中,传感器数据102可以经历预处理(例如,噪声平衡、去马赛克、缩放、裁剪、增强、白平衡、色调曲线调整等,诸如使用传感器数据预处理器(未示出))。如本文所使用的,传感器数据102可以参考未处理的传感器数据、预处理的传感器数据或其组合。
用于训练的传感器数据102可包括原始图像(例如,如由一个或更多个图像传感器捕获)、下采样图像、上采样图像、经裁剪或兴趣区(ROI)图像、以其他方式增强的图像和/或其组合。可以使用图像(和/或其他传感器数据102)以及对应的真值数据(例如,一个或更多个轨迹ID图118)来训练一个或更多个机器学习模型104。真值数据(例如,一个或更多个轨迹ID图118)可以包括注释、标签、掩码、地图等。例如,在一些实施例中,真值数据可以包括轨迹图。编码器116可以使用对象检测108和注释来编码真值数据(例如,轨迹ID图120)。在一些实施例中,对象检测108可以包括一个或更多个边界形状110和一个或更多个轨迹ID标签114。
参考对象检测108和注释112,在一些示例中,对象检测108和注释112可以在绘图程序(例如,注释程序)、计算机辅助设计(CAD)程序、标记程序、适合于生成注释112和/或其他真值数据(例如,一个或更多个轨迹ID图118)的另一类型的程序内生成,和/或可以是手绘的。在任何示例中,对象检测108、注释112和/或真值数据(例如,一个或更多个轨迹ID图118)可以是合成产生的(例如,从计算机模型或渲染生成的)、真实产生的(例如,从真实世界数据设计和产生的)、机器自动化的(例如,使用对象检测和追踪来从数据提取特征并随后生成标签)、人工注释的(例如,标注员或注释专家,定义标签的位置)和/或其组合。对象检测108可以包括用与传感器数据102中感兴趣的对象相对应的边界形状110来标记对象。在一些示例中,边界形状可以由围绕与传感器数据102中的对象相对应的像素的一组线段来定义。线段可以是直的和/或弯曲的。一个或更多个轨迹ID标签114可以是有助于在任何标记的项目和任何其他标记的项目之间进行识别的值。例如,可以为传感器数据中包括的边界形状内的每个对象、边界形状和/或像素生成轨迹ID标签114。在一些实施例中,将特定对象的轨迹ID标签分配给与该对象相对应的边界形状。类似地,在一些实施例中,可以将特定边界形状的轨迹ID标签分配给该边界形状内的每个像素。另外,默认或空轨迹ID标签可以定义与对象不相关联的传感器数据的区域。例如,传感器数据中的背景特征可以用零(0)的轨迹ID标签来标记。
现在参考图2A-2D,图2A-2D示出了根据本公开的一些实施例的应用于传感器数据的示例注释,用于在真值生成中用于训练机器学习模型以追踪对象。例如,图2A示出了可用于根据图1的训练过程100生成真值数据的图像200A。图2B示出了应用于传感器数据以训练机器学习模型以追踪对象的注释的示例。尽管图像200A和200B被描绘为不同的图像,但提供这种区别是为了便于描述特别相关的特征。换句话说,在一些方面,图像200B中描绘的注释(例如,边界形状)可以被包括在图像200A中。
图像中的对象(例如,对象202、204、206、208和210)可以用边界形状(例如,图2B的边界形状222、224、226、228和230)和轨迹ID标签(例如,轨迹ID标签232、234、236、238和240)来注释。例如,对象202可以由边界形状222限定并且用轨迹ID 232标记。类似地,对象204可以用边界形状224注释并且用轨迹ID 234标记,对象206可以用边界形状226注释并且用轨迹ID 236标记,对象208可以用边界形状228注释并且用轨迹ID 236标记,对象208可以用边界形状228注释并且用轨迹ID 238标记,并且对象210可以用边界形状230注释并且用轨迹ID 240标记。另外,在一些方面,边界形状、对象和/或像素可以用对象分类(例如,车辆、行人、骑自行车的人等)来注释。
再次参考图1,编码器116可以被配置为使用一个或更多个注释110对与对象通过时间和/或空间的轨迹相对应的真值信息进行编码。例如,如本文所述,可以用注释112来注释一组传感器数据。一旦被注释,该组数据可以由编码器编码以生成真值数据(例如,轨迹ID图118),其可以包括轨迹ID图118。此外,因为应用于一个或更多个机器学习模型104的传感器数据102的空间分辨率可能不同——例如,大于、小于等——与机器学习模型104的预测相对应的输出空间分辨率,所以真值信息可以被编码成各种格式。例如,可以通过数据序列(例如,一组传感器数据)追踪在注释期间识别的对象以确定注释对象的对象轨迹长度(例如,帧数)。基于对象轨迹,可以在编码期间过滤数据序列。例如,比预定最小轨迹长度短的对象轨迹在编码期间被去除。预定的最小轨迹长度可以基于对象类别(例如,车辆或行人)而变化。
另外,传感器数据102的过滤和/或采样可以在编码期间发生。例如,可以过滤数据序列(例如,视频)的最后30帧,以通过消除对象检测错误来提高真值数据的准确性。对于另一示例,为了减少训练负担,可以每n帧对长于预定阈值的数据序列进行采样以减少数据序列长度。
此外,可以用与边界形状的轨迹ID相对应的轨迹ID对同一边界形状内的每个像素进行编码。例如,图2C和图2D描绘了可用于训练DNN的图像的两个编码示例。在一些方面,图像200C和图像200D可以描绘由相同传感器在不同时间(例如,tx,tx-1)捕获的图像。在一些方面,图像200C和图像200D可以描绘由不同传感器(例如,传感器1和传感器2)同时捕获的图像。
图2C描绘了具有由边界形状242和244限定的检测到的对象的第一编码图像200C。如上所述,边界形状242和244可以各自具有轨迹ID注释。在编码期间,边界形状242内的每个像素(例如,v1、v2、v9、v10、v17、v18)可以用与边界形状242相关联的轨迹ID进行编码。例如,像素248可以用与边界形状242相同的轨迹ID进行编码。类似地,边界形状244内的每个像素可以用与边界形状244相关联的轨迹ID进行编码。例如,像素250可以用与边界形状244相同的轨迹ID进行编码。在一些方面,背景像素(例如,未被边界形状覆盖的像素,诸如像素246)可以被分配共同的轨迹ID(例如,零(0)的轨迹ID值)。
图2D描绘了具有由边界形状262和264限定的检测到的对象的第二编码图像200D。在编码期间,边界形状262内的每个像素(例如,v8、v9、v16、v17、v24、v25)可以用与边界形状262相关联的轨迹ID编码。如上所述,在一些方面,边界形状242和边界形状262可以限定在不同时间捕获的图像中的同一对象。在一些方面,边界形状242和边界形状262可以限定由不同传感器同时捕获的同一对象。因此,为边界形状242内和边界形状262内的像素编码的轨迹ID可以是相同的轨迹ID。
返回图1,一旦为传感器数据102的每个实例(例如,为传感器数据102包括图像数据的每个图像)生成真值数据(例如,一个或更多个轨迹ID图118)。例如,编码器116可以编码多个带注释的图像(例如,图像200C和图像200D)以生成轨迹ID图118。轨迹ID图因此可以包括传感器数据的一系列离散表示。在一些实施例中,该系列可以包括传感器数据随时间的离散表示和/或传感器数据跨多个传感器的离散表示。另外,一个或更多个轨迹ID图包括通过传感器数据的离散表示的真值对象识别(例如,经由轨迹ID值)。一个或更多个机器学习模型104可以使用真值数据(例如,轨迹ID图118)来训练。例如,一个或更多个机器学习模型104可以生成特征描述符图106,并且输出可以和对应于传感器数据102的各个实例的真值数据进行比较。例如,机器学习模型104可以生成输出特征描述符图106(其可以包括与在输出分辨率的每个像素相对应的特征向量),并且来自特征描述符图106的特征向量可以使用与来自轨迹ID图118的那些相同像素相对应的轨迹ID进行比较。因此,在与两个像素相对应的特征向量不同,但是基于轨迹ID已知这两个像素与同一对象相对应的情况下,一个或更多个损失函数126可以惩罚该输出以使一个或更多个机器学习模型104学习以为与同一对象相对应的像素计算更相似(例如,相同)的特征向量。类似地,对于与不同对象相对应的像素,如果特征向量相似,但真值数据(例如,轨迹ID图118)指示像素与不同对象相对应,则机器学习模型104可能会受到惩罚。因此,来自损失函数126的反馈可用于根据真值数据(例如,轨迹ID图118)更新机器学习模型104的参数(例如,权重和偏差)直到机器学习模型104收敛到可接受或期望的准确度。使用这个过程,一个或更多个机器学习模型104可以被训练以使用损失函数126和真值数据(例如,轨迹ID图118)准确地预测来自传感器数据102的输出(例如,一个或更多个特征描述符图106)。
机器学习模型104可以使用传感器数据102来计算输出(例如,特征描述符图106),其最终可以应用于解码器或一个或更多个其他后处理组件(本文至少关于图5更详细地描述)以生成对象追踪信息。尽管本文描述的示例是关于使用深度神经网络(DNN),特别是卷积神经网络(CNN)作为机器学习模型104(例如,关于图1和图5),但这不是旨在限制。例如但不限于,机器学习模型104可以包括任何类型的机器学习模型,诸如使用线性回归、逻辑回归、决策树、支持向量机(SVM)、天然贝叶斯、k最近邻(Knn)、K均值聚类、随机森林、维度减少算法、梯度提升算法、神经网络(例如,自动编码器、卷积、递归、感知器、长/短期记忆/LSTM、霍普菲尔德、玻尔兹曼、深度置信、解卷积、生成对抗、液态机器等)、计算机视觉算法的一个或更多个机器学习模型,和/或其他类型的机器学习模型。
作为示例,例如在一个或更多个机器学习模型104包括CNN的情况下,一个或更多个机器学习模型104可以包括任何数量的层。一个或更多个层可以包括输入层。输入层可以保存与传感器数据102相关联的值(例如,在后处理之前或之后)。例如,当传感器数据102是图像时,输入层可以将表示一个或更多个图像的原始像素值的值保存为体积(例如,宽度、高度和颜色通道(例如,RGB),诸如32x32x3)。
一层或更多层可以包括卷积层。卷积层可以计算连接到输入层中的局部区域的神经元的输出,每个神经元计算它们的权重与它们在输入体中所连接到的小区域之间的点积。卷积层的结果可以是另一体积,其中一个维度基于所应用的滤波器的数量(例如,宽度、高度和滤波器的数量,诸如32x32x12,如果12是滤波器的数量)。
一层或更多层可以包括整流线性单元(ReLU)层。ReLU层可以应用逐元件激活函数,例如max(0,x),例如零阈值化。ReLU层的结果体积可以与ReLU层的输入的体积相同。
一层或更多层可以包括池化层。池化层可以沿着空间维度(例如,高度和宽度)执行下采样操作,这可以导致比池化层的输入更小的体积(例如,来自32x32x12输入体积的16x16x12)。
一层或更多层可包括一个或更多个全连接层。一个或更多个全连接层中的每一神经元可连接到先前卷中的每一神经元。全连接层可计算类别得分,且所得的体积可为1x1x类别的数量。在一些示例中,CNN可以包括一个或更多个全连接层,使得CNN的一个或更多个层的输出可以作为输入提供给CNN的一个或更多个全连接层。在一些示例中,一个或更多个卷积流可以由一个或更多个机器学习模型104实现,并且一些或所有卷积流可以包括相应的一个或更多个全连接层。
在一些非限制性实施例中,一个或更多个机器学习模型104可以包括一系列卷积和最大池化层以促进图像特征提取,随后是多尺度扩张卷积和上采样层以促进全局上下文特征提取。
虽然输入层、卷积层、池化层、ReLU层和全连接层在本文中关于机器学习模型104进行了讨论,但这并不旨在进行限制。例如,可以在一个或更多个机器学习模型104中使用附加或替代层,诸如归一化层、SoftMax层和/或其他层类型。
在一个或更多个机器学习模型104包括CNN的实施例中,可以根据实施例使用不同顺序和数量的CNN层。换句话说,一个或更多个机器学习模型104的层的顺序和数量不限于任何一种架构。
此外,一些层可包括参数(例如,权重和/或偏差),诸如卷积层和全连接层,而其他层可不包括,诸如ReLU层和池化层。在一些示例中,参数可以由一个或更多个机器学习模型104在训练期间学习。此外,一些层可能包括额外的超参数(例如,学习率、步幅、轮次等),诸如卷积层、全连接层和池化层,而其他层可不包括,诸如ReLU层。参数和超参数不受限制并且可以根据实施例而不同。
过程100包括三元组挖掘120。三元组挖掘120可以包括从训练数据生成一个或更多个向量三元组122。可以跨空间和/或时间从特征描述符图(例如,一个或更多个特征描述符图106和/或一个或更多个轨迹ID图118)挖掘一个或更多个向量三元组122。例如,在单传感器追踪场景中,至少两个描述符图(例如,其中特征描述符图是从由单个传感器捕获的传感器数据生成的,描述符图200C可以表示t1-k并且描述符图200D可以表示t1)可用于创建向量三元组。向量三元组可以包括正样本、负样本和锚。正样本可以是来自描述符图200C的正样本的一个或更多个向量(例如,具有相同轨迹ID的边界形状内的向量),而负样本可以是来自描述符图200C的负样本的一个或更多个向量(例如,另一个边界形状内的向量)。锚可以是来自描述符图200D的正样本的一个或更多个向量。
对于另一示例,可以生成向量三元组来训练DNN进行跨传感器追踪——例如,在同一时间步长。在这样的示例中,(例如,在特征描述符图200C和200D由不同传感器生成的情况下)正样本可以是来自第一传感器的描述符图200C的正对象的一个或更多个向量(例如,边界形状242内的向量),而负样本可以是来自第一传感器描述符图200C的负样本的一个或更多个向量(例如,边界形状244内的向量)。锚可以是来自第二传感器描述符图200D的边界形状262的一个或更多个向量。
换句话说,在一些方面,向量三元组可以包括由机器学习模型为至少两个时间点和/或来自两个传感器(例如,正样本和锚)的正对象识别的基于像素级向量的特征描述符。向量三元组还可以包括由机器学习模型为至少一个时间点和/或来自一个传感器(例如,负样本)的负对象识别的基于像素级向量的特征描述符。
可以通过多种方式挖掘或生成向量三元组。例如并返回图1,传感器数据102可以作为输入提供给一个或更多个机器学习模型104。一个或更多个机器学习模型104可以输出一个或更多个特征描述符图106。在传感器数据是图像或一系列图像的情况下,一个或更多个特征描述符图106可以包括为图像中的每个像素生成的一维(1D)向量(以一个或更多个机器学习模型104的输出分辨率)。此外,由于应用于机器学习模型104的传感器数据102的空间分辨率可能不同——例如,大于、小于等——与机器学习模型104的预测相对应的输出空间分辨率,因此特征描述符图可以以各种格式编码。在一些方面,在与第一对象(例如,对象202)相关联的对应轨迹ID图中与边界形状内的像素相关联的每个向量(例如,vn)被指定为正向量。在一些方面,在与第二对象相关联的对应轨迹ID图中与边界形状内的像素相关联的每个向量被指定为负向量。此外,在一些方面,在与第一对象相关联的第二对应轨迹ID图中与边界形状内的像素相关联的每个向量被指定为锚向量。
向量三元组可以从跨空间和/或时间的特征描述符图创建。例如,可以组合正向量(p)、负向量(n)和锚向量(a)以形成一组向量三元组。对于给定的三元组,可以使用三元组损失函数来最小化锚特征描述符和正特征描述符之间的距离(例如,锚“a”和正“p”之间的距离“d”)。换句话说,三元组损失最小化了d(a,p)。类似地,三元组损失函数可以最小化锚和负之间的距离(例如,最小化d(a,n))。在一些实施例中,可以将边距值添加到最大边距损失。例如,在伪函数表达式中,损失函数124可以包括公式(1)的损失函数,如下:
Figure BDA0003938481890000151
因此,来自一个或更多个损失函数126的反馈可用于根据真值数据(例如,一个或更多个轨迹ID图118)更新一个或更多个机器学习模型104的参数(例如,权重和偏差)直到一个或更多个机器学习模型104收敛到可接受或期望的准确度。使用过程100,一个或更多个机器学习模型104可以被训练以使用一个或更多个损失函数124、一个或更多个向量三元组122和真值数据(例如,一个或更多个轨迹ID图118)准确地预测来自传感器数据102的输出(例如,一个或更多个特征描述符图106)(和/或相关联的分类)。
如上所述,三元组一般分为三种类型:简单三元组、困难三元组和半困难三元组。简单三元组的三元组损失为零(0),困难三元组是负样本比正样本更靠近锚的三元组,而半困难三元组是负样本不比正样本更靠近锚的三元组,但仍有正损失。在一些实施例中,可以在训练期间使用半困难三元组和困难三元组作为来自一个或更多个损失函数126的反馈以更新一个或更多个机器学习模型104的参数。在一些实施例中,在一些方面,在训练过程中可使用简单、半困难和困难三元组。
此外,可以使用轮次或批量挖掘来挖掘向量三元组。例如,对于轮次挖掘,一个或更多个向量三元组122可以基于一轮次的一个或更多个轨迹ID图120为每个特征描述符图106生成。来自该轮次每个三元组的损失函数的反馈可用于更新参数。对于另一示例,对于批量挖掘一个或更多个向量三元组122,一个轮次的子集可以被批处理,并且对于该批量的每个三元组,来自一个或更多个损失函数124的反馈可以用于更新一个或更多个机器学习模型104的参数。可以对轮次的另一个子集进行批处理,并使用一个或更多个机器学习模型104的更新参数生成反馈。来自第二子集的一个或更多个向量三元组122和对于该批量的每个三元组的来自一个或更多个损失函数124的反馈可用于更新一个或更多个机器学习模型104的参数。该批量挖掘方法可在批量所有或批量次困难上下文中使用。
例如,并且简要地转向图3A并继续参考图1,根据本文描述的一些方面,描绘了示例特征描述符图300A。特征描述符图300A包括正向量(例如,v0、v1、v8、v9、v16和v17)和负向量(例如,v13、v14、v15、v21、v22、v23、v29、v30、v31)。特征描述符图300A还包括第一边界形状302和第二边界形状304。简要地转向图3A并继续参考图1,根据本文描述的一些方面,描绘了示例特征描述符图300B。特征描述符图300B包括正向量(例如,v9、v10、v17、v18、v25和v26)和负向量(例如,v5、v6、v7、v13、v14、v15、v21、v22和v23)。特别地,特征描述符图300B包括在不同时间从同一对象生成的和/或由不同传感器检测为来自特征描述符图300A的正向量的正向量。因此,对于向量三元组挖掘,可以说特征描述符图300B包括锚向量(例如,v9、v10、v17、v18、v25和v26)。
在批量所有三元组挖掘中,为给定的批量选择所有有效的三元组。例如,具有来自特征描述符图300B的锚v9的有效三元组包括来自特征描述符图300A的任何正向量(例如,v0、v1、v8、v9、v16和v17)、以及来自任一特征描述符图300A或300B的任何负向量。在一些实施例中,针对挖掘的每个有效三元组确定损失。在一些实施例中,困难三元组和半困难三元组可以被平均,并且忽略简单三元组。在批量困难三元组挖掘中,选择每个锚的批量中最难正数和最难负数,并且仅针对最难的三元组计算三元组损失函数。
此外,本领域的技术人员将理解,图2C、图2D、图3A、图3B、图6A和6B中描绘的边界形状和像素是说明性的。如图所示,像素没有被边界形状包围。换句话说,认识到像素的一部分延伸超出了图2C、图2D、图3A、图3B、图6A和6B中描绘的边界形状。然而,这并不旨在引入对图形和对应描述的冲突解释。相反,边界形状和像素边界的描述旨在清楚地区分每个特征,同时在图形的约束范围内传达信息。
现在参考图4A和4B,本文描述的方法400和方法420的每个框包括可以使用硬件、固件和/或软件的任何组合来执行的计算过程。例如,可以通过处理器执行存储在存储器中的指令来执行各种功能。方法400和420也可以体现为存储在计算机存储介质上的计算机可用指令。方法400和420可以由独立应用程序、服务或托管服务(独立或与另一托管服务组合)或另一产品的插件提供,仅举几例。此外,方法400和方法420以示例的方式关于图1的过程100进行描述。然而,方法400和方法420可以附加地或替代地由任何一个***或***的任何组合执行,包括但不限于本文所描述的那些。
图4A是示出根据本公开的一些实施例的用于训练神经网络以追踪对象的方法400的示例流程图。在框B402,方法400包括接收传感器数据。例如,可以生成和/或接收传感器数据102,其中传感器数据102包括表示描绘在不同时间和/或来自不同传感器的对象位置的图像的图像数据。
在框B404,方法400包括接收表示与和由传感器数据表示的对象相关联的边界形状相对应的注释的第一数据,以及与边界形状的轨迹ID标签相对应的第二数据。例如,可以生成和/或接收表示对象检测110和注释112的数据。
在框B406,方法400包括将与每个边界形状相关联的轨迹ID标签编码到由该边界形状限定的每个像素。例如,编码器116可以将具有轨迹ID标签的像素编码到轨迹ID图120以用作真值数据(例如,轨迹ID图118)来训练一个或更多个机器学习模型104。
在框B408,方法400包括从一个或更多个特征描述符图挖掘多向量三元组。例如,可以基于一个或更多个轨迹ID图120和一个或更多个特征描述符图106来挖掘向量三元组122。向量三元组可以是三种类型之一:简单三元组、困难三元组和半困难三元组。简单三元组的损失为零(0),困难三元组是三元组。
在框410,方法400包括使用一个或更多个特征描述符图作为真值数据来训练神经网络。例如,一个或更多个轨迹ID图120可以与一个或更多个向量三元组122一起用作真值数据以训练机器学习模型来追踪对象。
图4B是示出根据本公开的一些实施例的用于训练神经网络以追踪对象的方法420的另一个示例流程图。在框B422,方法420包括使用训练数据将第一帧的第一边界形状和第二帧的第二边界形状标记为与对象相对应。例如,对象检测108可以用边界形状110标记传感器数据102。
在框B424,方法420包括使用深度神经网络确定与第一帧的第一边界形状内的第一点相对应的一个或更多个第一特征描述符和与第二帧的第二边界形状内的第二点相对应的一个或更多个第二特征描述符。例如,三元组挖掘120可用于基于特征描述符图106和对应的轨迹ID图118来生成向量三元组122的正负。
在框B426,方法420包括确定一个或更多个第一特征描述符中的与第一点的锚点相对应的第一特征描述符。例如,三元组挖掘120可用于基于特征描述符图106和对应的轨迹ID图118来生成向量三元组122的锚。
在框B428,方法420包括使用损失函数将第一特征描述符和与第二点中的第二点相对应的第二特征描述符进行比较。例如,损失函数124可用于比较向量三元组122的特征描述符。
在框B430,方法420包括至少部分地基于比较来更新深度神经网络的一个或更多个参数。例如,损失函数124的输出可用于更新机器学习模型104的一个或更多个参数。
现在参考图5,图5是示出根据本公开的一些实施例的用于使用来自车辆的传感器的输出实时或接近实时地生成对象追踪数据的示例过程500的数据流图。应当理解,这里描述的这种和其他布置仅作为示例阐述。除了所示出的那些之外或代替所示出的那些,可以使用其他布置和元素(例如,机器、接口、功能、命令、功能分组等),并且可以完全省略一些元素。此外,这里描述的许多元素是功能实体,其可以实现为离散或分布式组件或与其他组件结合,并以任何合适的组合和位置。本文描述为由实体执行的各种功能可以由硬件、固件和/或软件来执行。例如,可以通过处理器执行存储在存储器中的指令来执行各种功能。在一些实施例中,本文描述的***、方法和过程可以使用与8A-8D的示例性自主车辆800、图9的示例计算设备900和/或图10的示例数据中心1000的组件、特征和/或功能类似的组件、特征和/或功能来执行。虽然主要参照图5描述的被追踪的对象是车辆,但这并不旨在限制,并且仅用于示例目的。
传感器数据102可以类似于本文至少关于图1所描述的。在部署期间,传感器数据102可以应用于已经根据过程100训练的一个或更多个机器学习模型104,例如,以使用训练传感器数据102计算一个或更多个特征描述符图106。因此,一个或更多个机器学习模型104可以输出——或回归于——如至少关于图1中的一个或更多个特征描述符图108更详细地描述的一个或更多个特征描述符图106。
一个或更多个特征描述符图106可以应用于解码器502以生成一个或更多个解码输出504。在一些示例中,解码器502可以使用一个或更多个后处理算法(例如,时间平滑、曲线拟合、过滤等)以计算一个或更多个解码输出504。例如,解码器502可以使用一个或更多个特征描述符图106来通过时间和/或跨多个传感器追踪对象,这可以被使用进而生成用于自我机器的控制命令,例如,通过控制组件508。解码输出可以包括对象ID、像素级特征向量、边界形状级特征向量和/或与检测到的对象相对应的其他信息(例如,与对象相对应的边界形状,其可用于跨时间和/或跨传感器生成对象的可视化以进行调试等)。
在一些实施例中,一个或更多个输出可以以不同于与传感器数据102相对应的第二空间分辨率的第一空间分辨率(例如,下采样的空间分辨率)生成。因此,解码器502可以从输出的第一空间分辨率解码数据并且将数据投影或归因于传感器数据102的第二空间分辨率(例如,使用如本文所述的一个或更多个特征描述符图106)。结果,可以增加一个或更多个机器学习模型104的处理速度,同时为***的其他任务保留计算资源。此外,通过增加处理速度,可以减少***的运行时间,从而使得能够在***(例如,车辆800)内实时或接近实时地部署过程500。
附加地或可替代地,输出可以用于促进具有相对最小下游影响的对象追踪,这可以为***的其他任务保留计算资源。例如,在一些实施例中,像素级特征描述符可以在后处理504期间被转换为边界形状级特征描述符。后处理504可以包括对特征描述符图106的特定边界形状内的像素级特征描述符进行平均。然后可以将平均特征描述符分配为边界形状级特征描述符。可以跨帧(来自相同传感器或跨不同传感器)使用边界形状级特征描述符来追踪对应的对象。
例如,参考图6A,对于特征描述符图600,与第一边界形状(例如,边界形状602,如使用对象检测模块510计算的)相关联的像素级特征描述符向量(例如,v0、v1、v8、v9、v16和v17)可以被平均并且得到的特征描述符向量可以被分配为对象特征描述符向量。类似地,与第二边界形状(例如,边界形状604)相关联的像素级特征描述符向量(例如,v13、v14、v15、v21、v22、v23、v29、v30和v31)可以被平均并且得到的特征描述符向量可以被分配为对象特征描述符向量。在实施例中,可以使用对象检测模块510来计算与对象相对应的边界形状,该对象检测模块510可以包括计算机视觉算法、机器学习模型、神经网络(例如,卷积神经网络)和/或计算边界形状位置的另一种算法类型。在一些实施例中,对象检测模块510可以被包括在一个或更多个机器学习模型104内——例如,一个或更多个机器学习模型104可以计算除了边界形状的位置之外的预测特征描述符图106。
附加地或可替代地,后处理504可以生成追踪输出506以促进跨时间和/或传感器追踪对象。例如,并参考图6B,在通过时间范围的单传感器追踪的一些应用程序中,机器学习模型104可以分别处理连续帧并生成包括如上所述的检测对象的边界形状级特征描述符的特征描述符图(例如,特征描述符图610、620、630和640)。可以在时间序列的每个边界形状级特征描述符之间生成对象关联分数。例如,可以使用向量之间的余弦距离在边界形状级特征描述符612、614、622、624、632、634、642和644的每个组合之间生成对象关联分数。可以计算特征描述符的差异,并且可以将最佳匹配识别为跨时间序列的同一对象。例如,出于追踪目的,可以使用K最近邻(KNN)算法找到最佳匹配。
附加地或可替代地,在一些实施例中,每个对象(例如,612、622和632)的边界形状级特征描述符可以被平均并且可以针对对象通过时间序列的轨迹被分配。可以将最近的特征描述符图(例如,特征描述符图640)的边界形状级特征描述符(例如,642)与轨迹的每个平均特征描述符进行比较。最近的特征描述符和平均特征描述符之间的最佳匹配被分配给相同的对象轨迹。
类似地,简要参考图6C,在跨传感器追踪的一些应用程序中,一个或更多个机器学习模型104可以分别处理由每个传感器生成的帧并生成包括如上所述的检测对象的边界形状级特征描述符的特征描述符图(例如,特征描述符图650、660、670和680)。可以在多传感器系列的每个边界形状级特征描述符之间生成对象关联分数。例如,可以使用向量之间的余弦距离在边界形状级特征描述符652、654、662、664、672、674、682和684的每个组合之间生成对象关联分数。可以计算特征描述符的差异,并且可以将最佳匹配识别为跨时间序列的同一对象。例如,出于追踪目的,可以使用K最近邻(KNN)算法找到最佳匹配。
附加地或可替代地,在一些实施例中,跨传感器的每个对象(例如,652、662和672)的边界形状级特征描述符可以被平均并且可以被分配给对象的轨迹。可以将另一个传感器的特征描述符图(例如,特征描述符图680)的边界形状级特征描述符(例如,682)与轨迹的每个平均特征描述符进行比较。最近的特征描述符和平均特征描述符之间的最佳匹配被分配给相同的对象轨迹。
因此,传感器数据102可以用作一个或更多个机器学习模型的输入。一个或更多个机器学习模型可以分配存在于传感器数据中的对象的身份,并且可以使用该身份跨多个传感器和/或随时间来追踪对象。追踪输出506可以传送到自主机器(例如,自我机器)的控制组件508。例如,控制组件508可以使用该数据来制动、加速、通过转向输入改变路径或自主机器能够进行的任何其他控制操作。
现在参考图7,本文描述的方法700的每个框包括可以使用硬件、固件和/或软件的任何组合来执行的计算过程。例如,可以通过处理器执行存储在存储器中的指令来执行各种功能。方法700也可以体现为存储在计算机存储介质上的计算机可用指令。方法700可以由独立运行的应用程序、服务或托管服务(独立运行的或与另一托管服务组合)或另一产品的插件提供,仅举几例。此外,作为示例,相对于图5的过程500描述了方法700。然而,该方法700可以附加地或替代地由任何一个***或***的任何组合执行,包括但不限于本文描述的那些。
图7是示出根据本公开的一些实施例的用于检测和追踪对象的方法700的流程图。尽管未描绘,但方法700的一些实施例接收传感器数据并将传感器数据应用于神经网络。例如,表示车辆800的至少一个传感器的视场中的对象图像的传感器数据102可以应用于一个或更多个机器学习模型104。
在框B702,方法700包括使用神经网络并且至少部分地基于自我机器的传感器数据来计算表示一个或更多个特征描述符的第一特征图。例如,机器学习模型104可以计算包括一个或更多个特征描述符图106的一个或更多个输出。
在框B704,方法700包括至少部分地基于一个或更多个第一特征描述符将第一特征描述符与第一对象相关联。例如,解码器502可以对一个或更多个特征描述符图106进行解码以确定在传感器数据中检测到的每个对象的边界形状级特征描述符向量。解码器502可以基于像素级特征描述符向量的计算平均值来确定边界形状的特征描述符向量。
在框B706,方法700包括使用深度神经网络并且至少部分地基于使用自我机器的一个或更多个传感器生成的第二传感器数据来计算第二特征图,第二特征图表示一个或更多个第二特征描述符。例如,机器学习模型104可以计算包括一个或更多个第二特征描述符图106的一个或更多个输出。
在框B708,方法700包括至少部分地基于一个或更多个第二特征描述符将第二特征描述符与第二对象相关联。例如,解码器502可以对一个或更多个特征描述符图106进行解码以确定在传感器数据中检测到的每个对象的边界形状级特征描述符向量。解码器502可以基于像素级特征描述符向量的计算平均值来确定边界形状的特征描述符向量。
在B710,方法700包括确定第一对象和第二对象是同一对象。例如,解码器502可以基于计算的对象关联分数来确定边界形状级特征描述符之间的最佳匹配。可以在追踪输出506中将边界形状之间的最佳匹配识别为跨传感器和/或时间的同一对象。
在框B712,方法700包括由车辆基于确定第一对象和第二对象是同一对象来执行一个或更多个操作。例如,一个或更多个控制组件508可以使车辆800基于基于追踪输出506确定的建议路径来执行一个或更多个操作。
示例自主车辆
图8A是根据本公开的一些实施例的示例自主车辆800的图示。自主车辆800(可替代地,在本文称为“车辆800”)可以包括但不限于,客运车辆,如小汽车、卡车、公共汽车、第一响应车辆、摆渡车、电动或机动自行车、摩托车、消防车、警用车辆,救护车、船、施工车辆、水下船只、无人机、与拖车相连的车辆和/或另一类型的车辆(例如,无人驾驶的和/或容纳一个或更多个乘客的车辆)。自主车辆通常按照美国运输部的一个部门——国家公路交通安全管理局(NHTSA)以及汽车工程师协会(SAE)“Taxonomy and Definitions for TermsRelated to Driving Automation Systems for On-Road Motor Vehicles”(2018年6月15日发布的标准No.J3016-201806,2016年9月30日发布的标准No.J3016-201609,以及该标准的先前和未来的版本)定义的自动化级别进行描述。车辆800可能够实现符合自主驾驶级别的3级-5级中的一个或更多个的功能。车辆800可以能够实现根据自动驾驶级别的1级-5级中的一个或多个的功能。例如,取决于实施例,车辆800可能够实现驾驶员辅助(1级)、部分自动化(2级)、条件自动化(3级)、高自动化(4级)和/或全自动化(5级)。如本文所用,术语“自主”可包括车辆800或其他机器的任何和/或所有类型的自主,例如完全自主、高度自主、有条件自主、部分自主、提供辅助自主、半自主、主要自主或其他名称。
车辆800可以包括诸如底盘、车身、车轮(例如2个、4个、6个、8个、18个等)、轮胎、车轴之类的部件以及车辆的其他部件。车辆800可以包括推进***850,例如内燃机、混合动力发电厂、全电动发动机和/或另一种推进***类型。推进***850可以连接到可以包括变速器的车辆800的传动系以便实现车辆800的推进。可以响应于接收到来自油门/加速器852的信号而控制推进***850。
可以包括方向盘的转向(steering)***854可以用来在推进***850操作时(例如在车辆运动时)使车辆800转向(例如沿着希望的路径或路线)。转向***854可以接收来自转向致动器856的信号。对于全自动(5级)功能而言,方向盘可以是可选的。
制动传感器***846可以用来响应于接收到来自制动致动器848和/或制动传感器的信号而操作车辆制动器。
可以包括一个或更多个片上***(SoC)804(图8C)和/或一个或更多个GPU的一个或更多个控制器836可以向车辆800的一个或更多个部件和/或***提供(例如表示命令的)信号。例如,一个或更多个控制器可以发送经由一个或更多个制动致动器848操作车辆制动器、经由一个或更多个转向致动器856操作转向***854、经由一个或更多个油门/加速器852操作推进***850的信号。一个或更多个控制器836可以包括一个或更多个板载(例如集成)计算设备(例如超级计算机),所述计算设备处理传感器信号并且输出操作命令(例如表示命令的信号),以实现自主驾驶和/或辅助人类驾驶员驾驶车辆800。一个或更多个控制器836可以包括用于自主驾驶功能的第一控制器836、用于功能性安全功能的第二控制器836、用于人工智能功能(例如计算机视觉)的第三控制器836、用于信息娱乐功能的第四控制器836、用于紧急情况下的冗余的第五控制器836和/或其他控制器。在一些示例中,单个控制器836可以处理上述功能中的两个或更多,两个或更多控制器836可以处理单个功能,和/或其任意组合。
一个或更多个控制器836可以响应于接收自一个或更多个传感器的传感器数据(例如传感器输入),提供用于控制车辆800的一个或更多个部件和/或***的信号。传感器数据可以接收自例如且不限于全球导航卫星***传感器858(例如全球定位***传感器)、RADAR传感器860、超声传感器862、LIDAR传感器864、惯性测量单元(IMU)传感器866(例如加速度计、陀螺仪、磁罗盘、磁力计等)、麦克风896、立体相机868、广角相机870(例如鱼眼相机)、红外相机872、环绕相机874(例如360度相机)、远程和/或中程相机898、速度传感器844(例如用于测量车辆800的速率)、振动传感器842、转向传感器840、制动传感器(例如作为制动传感器***846的部分)和/或其他传感器类型。
控制器836中的一个或更多个可以接收来自车辆800的仪表组832的输入(例如由输入数据表示),并且经由人机接口(HMI)显示器834、听觉信号器、扬声器和/或经由车辆800的其他部件提供输出(例如输出数据、显示数据等表示的)。这些输出可以包括诸如车辆速度、速率、时间、地图数据(例如图8C的HD地图822)、位置数据(例如,车辆800例如在地图上的位置)、方向、其他车辆的位置(例如占用网格)之类的信息,如控制器836所感知的关于对象和对象状态的信息等等。例如,HMI显示器834可以显示关于一个或更多个对象(例如街道指示牌、警示牌、交通灯变化等)的存在性的信息和/或关于车辆已经做出、正在做出或者将会做出的驾驶机动的信息(例如现在变道、两英里后离开34B,等等)。
车辆800还包括网络接口824,其可以使用一个或更多个无线天线826和/或调制解调器通过一个或更多个网络通信。例如,网络接口824可能够通过LTE、WCDMA、UMTS、GSM、CDMA2000等通信。一个或更多个无线天线826也可以使用诸如蓝牙、蓝牙LE、Z波、ZigBee等等之类的一个或更多个局域网和/或诸如LoRaWAN、SigFox等等之类的一个或更多个低功率广域网(LPWAN)实现环境中的对象(例如车辆、移动设备等等)之间的通信。
图8B为根据本公开一些实施例的用于图8A的示例自主车辆800的相机位置和视场的示例。相机和各自的视场是一个示例实施例,并不意图是限制性的。例如,可以包括附加的和/或可替换的相机,和/或这些相机可以位于车辆800上的不同位置。
用于相机的相机类型可以包括但不限于可以适于与车辆800的部件和/或***一起使用的数字相机。所述相机可以在汽车安全完整性级别(ASIL)B下和/或在另一个ASIL下操作。相机类型可以具有任何图像捕获率,例如60帧每秒(fps)、120fps、240fps等等,这取决于实施例。相机可能够使用滚动快门、全局快门、另一种类型的快门或者其组合。在一些示例中,滤色器阵列可以包括红白白白(RCCC)滤色器阵列、红白白蓝(RCCB)滤色器阵列、红蓝绿白(RBGC)滤色器阵列、Foveon X3滤色器阵列、拜耳传感器(RGGB)滤色器阵列、单色传感器滤色器阵列和/或另一种类型的滤色器阵列。在一些实施例中,诸如具有RCCC、RCCB和/或RBGC滤色器阵列的相机之类的清晰像素相机可以用在提高光敏感度的努力中。
在一些示例中,所述相机中的一个或更多个可以用来执行高级驾驶员辅助***(ADAS)功能(例如作为冗余或故障安全设计的部分)。例如,可以安装多功能单目相机以提供包括车道偏离警告、交通指示牌辅助和智能前照灯控制在内的功能。所述相机中的一个或更多个(例如全部相机)可以同时记录和提供图像数据(例如视频)。
所述相机中的一个或更多个可以安装在诸如定制设计的(3-D打印的)组件之类的安装组件中,以便切断可能干扰相机的图像数据捕获能力的杂散光和来自汽车内的反射(例如挡风玻璃镜中反射的来自仪表板的反射)。关于翼镜安装组件,翼镜组件可以是定制3-D打印的,使得相机安装板匹配翼镜的形状。在一些示例中,一个或更多个相机可以集成到翼镜中。对于侧视相机而言,一个或更多个相机也可以集成到驾驶室每个拐角的四根柱子内。
具有包括车辆800前面的环境部分的视场的相机(例如前置相机)可以用于环视,以帮助识别前向路径和障碍,以及在一个或更多个控制器836和/或控制SoC的帮助下辅助提供对于生成占用网格和/或确定优选车辆路径至关重要的信息。前置相机可以用来执行许多与LIDAR相同的ADAS功能,包括紧急制动、行人检测和碰撞避免。前置相机也可以用于ADAS功能和***,包括车道偏离警告(LDW)、自主巡航控制(ACC),和/或诸如交通指示牌识别之类的其他功能。
各种各样的相机可以用于前置配置中,包括例如包括CMOS(互补金属氧化物半导体)彩色成像仪在内的单目相机平台。另一个示例可以是广角相机870,其可以用来感知从周边进入视场的对象(例如行人、十字路***通或者自行车)。尽管图8B中图示出仅仅一个广角相机,但是在车辆800上可以存在任意数量的广角相机870。此外,远程相机898(例如长视立体相机对)可以用于基于深度的对象检测,尤其是用于尚未针对其训练神经网络的对象。远程相机898也可以用于对象检测和分类以及基本的对象追踪。例如,一个或更多个远程相机898可以生成传感器数据102。
一个或更多个立体相机868也可以包括在前置配置中。立体相机868可以包括集成控制单元,该单元包括可扩展处理单元,其可以提供在单个芯片上具有集成的CAN或以太网接口的多核微处理器和可编程逻辑(FPGA)。这样的单元可以用来生成车辆环境的3-D地图,包括针对图像中的所有点的距离估计。可替代的立体相机868可以包括紧凑型立体视觉传感器,其可以包括两个相机镜头(左右各一个)以及可以测量从车辆到目标对象的距离并且使用生成的信息(例如元数据)激活自主紧急制动和车道偏离警告功能的图像处理芯片。除了本文所描述的那些之外或者可替代地,可以使用其他类型的立体相机868。
具有包括车辆800的侧面的环境部分的视场的相机(例如侧视相机)可以用于环视,提供用来创建和更新占用网格以及生成侧撞击碰撞警告的信息。例如,环绕相机874(例如如图8B中所示的四个环绕相机874)可以置于车辆800上。环绕相机874可以包括广角相机870、鱼眼相机、360度相机和/或类似物。四个示例,四个鱼眼相机可以置于车辆的前面、后面和侧面。在一种可替代的布置中,车辆可以使用三个环绕相机874(例如左边、右边和后面),并且可以利用一个或更多个其他相机(例如前向相机)作为第四环视相机。
具有包括车辆800的后面的环境部分的视场的相机(例如后视相机)可以用于辅助停车、环视、后面碰撞警告以及创建和更新占用网格。可以使用各种各样的相机,包括但不限于也适合作为如本文所描述的前置相机(例如远程和/或中程相机898、立体相机868、红外相机872等等)的相机。
如将理解的,一个或更多个远程相机898、一个或更多个环绕相机874、一个或更多个立体相机868、一个或更多个红外相机872或任何其他传感器可以生成传感器数据102,其可以是作为输入提供给一个或更多个机器学习模型(例如,关于图1和图5描述的一个或更多个机器学习模型104)。
图8C为根据本公开一些实施例的用于图8A的示例自主车辆800的示例***架构的框图。应当理解,这种布置和本文描述的其他布置仅仅作为示例而被阐述。除了所示的那些之外或者代替它们的是,可以使用其他的布置和元素(例如机器、接口、功能、顺序、功能分组等等),并且一些元素可以完全省略。进一步,许多本文描述的元素是功能实体,其可以实现为分立的或分布式部件或者结合其他部件实现,以及以任何适当的组合和位置实现。本文描述为由实体执行的各个功能可以通过硬件、固件和/或软件实现。例如,各个功能可以通过处理器执行存储在内存中的指令而实现。
图8C中车辆800的部件、特征和***中的每一个被图示为经由总线802连接。总线802可以包括控制器区域网络(CAN)数据接口(可替代地,本文称为“CAN总线”)。CAN可以是车辆800内部的网络,用来辅助控制车辆800的各种特征和功能,例如制动器、加速、制动、转向、挡风玻璃雨刷等等的驱动。CAN总线可以被配置为具有数十或者甚至数百个节点,每个节点具有其自己的唯一标识符(例如CAN ID)。可以读取CAN总线以找到方向盘角度、地速、每分钟发动机转速(RPM)、按钮位置和/或其他车辆状态指示符。CAN总线可以是ASIL B兼容的。
尽管这里将总线802描述为CAN总线,但是这并不意图是限制性的。例如,除了CAN总线之外或者可替代地,可以使用FlexRay和/或以太网。此外,尽管用单条线来表示总线802,但是这并不意图是限制性的。例如,可以存在任意数量的总线802,其可以包括一条或更多条CAN总线、一条或更多条FlexRay总线、一条或更多条以太网总线和/或一条或更多条使用不同协议的其他类型的总线。在一些示例中,两条或更多总线802可以用来执行不同的功能,和/或可以用于冗余。例如,第一总线802可以用于碰撞避免功能,并且第二总线802可以用于驱动控制。在任何示例中,每条总线802可以与车辆800的任何部件通信,并且两条或更多总线802可以与相同的部件通信。在一些示例中,车辆内的每个SoC 804、每个控制器836和/或每个计算机可以有权访问相同的输入数据(例如来自车辆800的传感器的输入),并且可以连接到诸如CAN总线之类的公共总线。
车辆800可以包括一个或更多个控制器836,例如本文关于图8A所描述的那些控制器。控制器836可以用于各种各样的功能。控制器836可以耦合到车辆800的任何其他不同的部件和***,并且可以用于车辆800的控制、车辆800的人工智能、用于车辆800的信息娱乐和/或类似物。
车辆800可以包括一个或更多个片上***(SoC)804。SoC 804可以包括CPU 806、GPU 808、处理器810、高速缓存812、加速器814、数据存储816和/或未图示出的其他部件和特征。在各种各样的平台和***中,SoC 804可以用来控制车辆800。例如,一个或更多个SoC804可以在***(例如车辆800的***)中与HD地图822结合,所述HD地图可以经由网络接口824从一个或更多个服务器(例如图8D的一个或更多个服务器878)获得地图刷新和/或更新。
CPU 806可以包括CPU簇或者CPU复合体(可替代地,本文称为“CCPLEX”)。CPU 806可以包括多个核和/或L2高速缓存。例如,在一些实施例中,CPU 806在一致性多处理器配置中可以包括八个核。在一些实施例中,CPU 806可以包括四个双核簇,其中每个簇具有专用的L2高速缓存(例如2MB L2高速缓存)。CPU 806(例如CCPLEX)可以被配置为支持同时簇操作,使得CPU 806的簇的任意组合能够在任何给定时间是活动的。
CPU 806可以实现包括以下特征中的一个或更多个的功率管理能力:各硬件块在空闲时可以自动进行时钟门控以节省动态功率;由于WFI/WFE指令的执行,每个核时钟可以在该核不主动地执行指令时进行门控;每个核可以独立地进行功率门控;当所有核都进行时钟门控或者功率门控时,可以独立地对每个核簇进行时钟门控;和/或当所有核都进行功率门控时,可以独立地对每个核簇进行功率门控。CPU 806可以进一步实现用于管理功率状态的增强算法,其中指定允许的功率状态和期望的唤醒时间,并且硬件/微代码为所述核、簇和CCPLEX确定要进入的最佳的功率状态。处理核可以在软件中支持简化的功率状态进入序列,该工作被卸载到微代码。
GPU 808可以包括集成的GPU(可替代地,本文称为“iGPU”)。GPU 808可以是可编程的,并且对于并行工作负载而言是高效的。在一些示例中,GPU 808可以使用增强张量指令集。GPU 808可以包括一个或更多个流式微处理器,其中每个流式微处理器可以包括L1高速缓存(例如具有至少96KB存储能力的L1高速缓存),并且这些流式微处理器中的两个或更多可以共享L2高速缓存(例如具有512KB存储能力的L2高速缓存)。在一些实施例中,GPU 808可以包括至少八个流式微处理器。GPU 808可以使用计算应用编程接口(API)。此外,GPU808可以使用一个或更多个并行计算平台和/或编程模型(例如NVIDIA的CUDA)。
在汽车和嵌入式使用的情况下,可以对GPU 808进行功率优化以实现最佳性能。例如,可以在鳍式场效应晶体管(FinFET)上制造GPU 808。然而,这并不意图是限制性的,并且GPU 808可以使用其他半导体制造工艺来制造。每个流式微处理器可以合并划分成多个块的若干混合精度处理核。例如且非限制性地,可以将64个PF32核和32个PF64核划分成四个处理块。在这样的示例中,每个处理块可以分配16个FP32核、8个FP64核、16个INT32核、用于深层学习矩阵算术的两个混合精度NVIDIA张量核、L0指令高速缓存、线程束(warp)调度器、分派单元和/或64KB寄存器文件。此外,流式微处理器可以包括独立的并行整数和浮点数据路径,以利用计算和寻址计算的混合提供工作负载的高效执行。流式微处理器可以包括独立线程调度能力,以允许实现并行线程之间的更细粒度的同步和协作。流式微处理器可以包括组合的L1数据高速缓存和共享内存单元,以便在简化编程的同时提高性能。
GPU 808可以包括在一些示例中提供大约900GB/s的峰值内存带宽的高带宽内存(HBM)和/或16GB HBM2内存子***。在一些示例中,除了HBM内存之外或者可替代地,可以使用同步图形随机存取存储器(SGRAM),例如第五代图形双倍数据速率同步随机存取存储器(GDDR5)。
GPU 808可以包括统一内存技术,其包括访问计数器以允许内存页面更精确地迁移到最频繁地访问它们的处理器,从而提高处理器之间共享的内存范围的效率。在一些示例中,地址转换服务(ATS)支持可以用来允许GPU 808直接访问CPU 806页表。在这样的示例中,当GPU 808内存管理单元(MMU)经历遗漏时,可以将地址转换请求传输至CPU 806。作为响应,CPU 806可以在其页表中寻找用于地址的虚拟-物理映射,并且将转换传输回GPU808。这样,统一内存技术可以允许单个统一虚拟地址空间用于CPU 806和GPU 808二者的内存,从而简化了GPU 808编程和将应用程序移(port)到GPU 808。
此外,GPU 808可以包括访问计数器,其可以追踪GPU 808访问其他处理器的内存的频率。访问计数器可以帮助确保内存页面移至最频繁地访问这些页面的处理器的物理内存。
SoC 804可以包括任意数量的高速缓存812,包括本文描述的那些高速缓存。例如,高速缓存812可以包括CPU 806和GPU 808二者可用的L3高速缓存(例如,其连接到CPU 806和GPU 808二者)。高速缓存812可以包括回写高速缓存,其可以例如通过使用高速缓存一致性协议(例如MEI、MESI、MSI等)追踪行的状态。取决于实施例,L3高速缓存可以包括4MB或者更多,但是也可以使用更小的高速缓存大小。
SoC 804可以包括算术逻辑单元(ALU),所述算术逻辑单元可以在执行关于车辆800的各种任务或操作中的任何任务或操作(如处理DNN)的处理中被利用。此外,SoC 804可以包括用于在***内执行数学运算的浮点单元(FPU)(或其他数学协处理器或数字协处理器类型)。例如,SoC 104可以包括集成为CPU 806和/或GPU 808内的执行单元的一个或更多个FPU。
SoC 804可以包括一个或更多个加速器814(例如硬件加速器、软件加速器或者其组合)。例如,SoC 804可以包括硬件加速器簇,其可以包括优化的硬件加速器和/或大型片上内存。该大型片上内存(例如4MB SRAM)可以使得硬件加速器簇能够加速神经网络和其他计算。硬件加速器簇可以用来补充GPU 808,并且卸载GPU 808的一些任务(例如释放GPU808的更多周期以用于执行其他任务)。作为一个示例,加速器814可以用于足够稳定以易于控制加速的有针对性的工作负载(例如感知、卷积神经网络(CNN)等等)。当在本文中使用时,术语“CNN”可以包括所有类型的CNN,包括基于区域的或者区域卷积神经网络(RCNN)和快速RCNN(例如用于对象检测)。
加速器814(例如硬件加速器簇)可以包括深度学习加速器(DLA)。DLA可以包括可以被配置成为深度学习应用和推理提供额外的每秒10万亿次操作的一个或更多个张量处理单元(TPU)。TPU可以是被配置为执行图像处理功能(例如用于CNN、RCNN等)且针对执行图像处理功能而优化的加速器。DLA可以进一步针对特定的一组神经网络类型和浮点运算以及推理进行优化。DLA的设计可以比通用GPU提供每毫米更高的性能,并且远远超过CPU的性能。TPU可以执行若干功能,包括单实例卷积函数,支持例如用于特征和权重二者的INT8、INT16和FP16数据类型,以及后处理器功能。
DLA可以在处理的或者未处理的数据上针对各种各样的功能中的任何功能快速且高效地执行神经网络,尤其是CNN,例如且不限于:用于使用来自相机传感器的数据进行对象识别和检测的CNN;用于使用来自相机传感器的数据进行距离估计的CNN;用于使用来自麦克风的数据进行应急车辆检测和识别与检测的CNN;用于使用来自相机传感器的数据进行面部识别和车主识别的CNN;和/或用于安全和/或安全相关事件的CNN。
DLA可以执行GPU 808的任何功能,并且通过使用推理加速器,例如,设计者可以使DLA或GPU 808针对任何功能。例如,设计者可以将CNN的处理和浮点运算聚焦在DLA上,并且将其他功能留给GPU 808和/或其他加速器814。
加速器814(例如硬件加速器簇)可以包括可编程视觉加速器(PVA),其在本文中可以可替代地称为计算机视觉加速器。PVA可以被设计和配置为加速用于高级驾驶员辅助***(ADAS)、自主驾驶和/或增强现实(AR)和/或虚拟现实(VR)应用的计算机视觉算法。PVA可以提供性能与灵活性之间的平衡。例如,每个PVA可以包括例如且不限于任意数量的精简指令集计算机(RISC)核、直接内存访问(DMA)和/或任意数量的向量处理器。
RISC核可以与图像传感器(例如本文描述的任何相机的图像传感器)、图像信号处理器和/或类似物交互。这些RISC核中的每一个可以包括任意数量的内存。取决于实施例,RISC核可以使用若干协议中的任何协议。在一些示例中,RISC核可以执行实时操作***(RTOS)。RISC核可以使用一个或更多个集成电路设备、专用集成电路(ASIC)和/或存储设备实现。例如,RISC核可以包括指令高速缓存和/或紧密耦合的RAM。
DMA可以使得PVA的部件能够独立于CPU 806访问***内存。DMA可以支持用来向PVA提供优化的任意数量的特征,包括但不限于支持多维寻址和/或循环寻址。在一些示例中,DMA可以支持高达六个或更多维度的寻址,其可以包括块宽度、块高度、块深度、水平块步进、竖直块步进和/或深度步进。
向量处理器可以是可编程处理器,其可以被设计为高效且灵活地执行用于计算机视觉算法的编程并且提供信号处理能力。在一些示例中,PVA可以包括PVA核和两个向量处理子***分区。PVA核可以包括处理器子***、一个或更多个DMA引擎(例如两个DMA引擎)和/或其他***设备。向量处理子***可以作为PVA的主处理引擎而操作,并且可以包括向量处理单元(VPU)、指令高速缓存和/或向量内存(例如VMEM)。VPU核可以包括数字信号处理器,诸如例如单指令多数据(SIMD)、超长指令字(VLIW)数字信号处理器。SIMD和VLIW的组合可以增强吞吐量和速率。
向量处理器中的每一个可以包括指令高速缓存并且可以耦合到专用内存。结果,在一些示例中,向量处理器中的每一个可以被配置为独立于其他向量处理器执行。在其他示例中,包括在特定PVA中的向量处理器可以被配置为采用数据并行化。例如,在一些实施例中,包括在单个PVA中的多个向量处理器可以执行相同的计算机视觉算法,但是在图像的不同区域上执行。在其他示例中,包括在特定PVA中的向量处理器可以在相同的图像上同时执行不同的计算机视觉算法,或者甚至在序列图像或者图像的部分上执行不同的算法。除其他的以外,任意数量的PVA可以包括在硬件加速器簇中,并且任意数量的向量处理器可以包括在这些PVA中的每一个中。此外,PVA可以包括附加的纠错码(ECC)内存,以增强总体***安全性。
加速器814(例如硬件加速器簇)可以包括片上计算机视觉网络和SRAM,以提供用于加速器814的高带宽、低延迟SRAM。在一些示例中,片上内存可以包括由例如且不限于八个现场可配置的内存块组成的至少4MB SRAM,其可以由PVA和DLA二者访问。每对内存块可以包括高级***总线(APB)接口、配置电路***、控制器和复用器。可以使用任何类型的内存。PVA和DLA可以经由向PVA和DLA提供高速内存访问的主干(backbone)访问内存。主干可以包括(例如使用APB)将PVA和DLA互连到内存的片上计算机视觉网络。
片上计算机视觉网络可以包括在传输任何控制信号/地址/数据之前确定PVA和DLA二者都提供就绪且有效的信号的接口。这样的接口可以提供用于传输控制信号/地址/数据的单独相位和单独信道,以及用于连续数据传输的突发式通信。这种类型的接口可以符合ISO 26262或者IEC 61508标准,但是也可以使用其他标准和协议。
在一些示例中,SoC 804可以包括例如在2018年8月10日提交的美国专利申请No.16/101,232中描述的实时光线追踪硬件加速器。该实时光线追踪硬件加速器可以用来快速且高效地确定(例如世界模型内的)对象的位置和范围,以便生成实时可视化仿真,以用于RADAR信号解释、用于声音传播合成和/或分析、用于SONAR***仿真、用于一般波传播仿真、用于为了定位和/或其他功能的目的与LIDAR数据相比较和/或用于其他用途。在一些实施例中,一个或更多个树遍历单元(TTU)可以用于执行一个或更多个光线追踪相关操作。
加速器814(例如硬件加速器簇)具有广泛的自主驾驶用途。PVA可以是可编程视觉加速器,其可以用于ADAS和自主车辆中的关键处理阶段。PVA的能力是需要可预测处理、低功率和低延迟的算法域的良好匹配。换言之,PVA在半密集或者密集规则计算上,甚至在需要具有低延迟和低功率的可预测运行时间的小数据集上都表现良好。因此,在用于自主车辆的平台的背景下,PVA被设计为运行经典计算机视觉算法,因为它们在对象检测和整数数学运算方面很有效。
例如,根据该技术的一个实施例,PVA用来执行计算机立体视觉。在一些示例中,可以使用基于半全局匹配的算法,但是这并不意图是限制性的。许多用于3-5级自主驾驶的应用都需要即时运动估计/立体匹配(例如来自运动的结构、行人识别、车道检测等等)。PVA可以在来自两个单目相机的输入上执行计算机立体视觉功能。
在一些示例中,PVA可以用来执行密集的光流。根据过程原始RADAR数据(例如使用4D快速傅立叶变换)以提供经处理的RADAR。在其他示例中,PVA用于飞行时间深度处理,其例如通过处理原始飞行时间数据以提供经处理的飞行时间数据。
DLA可以用来运行任何类型的网络以增强控制和驾驶安全性,包括例如输出用于每个对象检测的置信度度量的神经网络。这样的置信度值可以解释为概率,或者解释为提供每个检测与其他检测相比的相对“权重”。该置信度值使得***能够做出关于哪些检测应当被认为是真阳性检测而不是假阳性检测的进一步决定。例如,***可以为置信度设置阈值,并且仅仅将超过阈值的检测看作真阳性检测。在自动紧急制动(AEB)***中,假阳性检测会使得车辆自动地执行紧急制动,这显然是不希望的。因此,只有最确信的检测才应当被认为是AEB的触发因素。DLA可以运行用于回归置信度值的神经网络。该神经网络可以将至少一些参数子集作为其输入,例如边界框维度,(例如从另一个子***)获得的地平面估计,与车辆800取向、距离相关的惯性测量单元(IMU)传感器866输出,从神经网络和/或其他传感器(例如LIDAR传感器864或RADAR传感器860)获得的对象的3D位置估计等。
SoC 804可以包括一个或更多个数据存储816(例如内存)。数据存储816可以是SoC804的片上内存,其可以存储要在GPU和/或DLA上执行的神经网络。在一些示例中,为了冗余和安全,数据存储816可以容量足够大以存储神经网络的多个实例。数据存储812可以包括L2或L3高速缓存812。对数据存储816的引用可以包括对与如本文所描述的PVA、DLA和/或其他加速器814关联的内存的引用。
SoC 804可以包括一个或更多个处理器810(例如嵌入式处理器)。处理器810可以包括启动和功率管理处理器,其可以是用于处理启动功率和管理功能以及有关安全实施的专用处理器和子***。启动和功率管理处理器可以是SoC 804启动序列的一部分,并且可以提供运行时间功率管理服务。启动功率和管理处理器可以提供时钟和电压编程、辅助***低功率状态转换、SoC 804热和温度传感器管理和/或SoC 804功率状态管理。每个温度传感器可以实现为环形振荡器,其输出频率与温度成比例,并且SoC 804可以使用环形振荡器检测CPU 806、GPU 808和/或加速器814的温度。如果确定温度超过阈值,那么启动和功率管理处理器可以进入温度故障例程并且将SoC 804置于较低功率状态和/或将车辆800置于司机安全停车模式(例如使车辆800安全停车)。
处理器810可以还包括可以用作音频处理引擎的一组嵌入式处理器。音频处理引擎可以是一种音频子***,其允许实现对于通过多个接口的多声道音频的完全硬件支持以及一系列广泛而灵活的音频I/O接口。在一些示例中,音频处理引擎是具有带有专用RAM的数字信号处理器的专用处理器核。
处理器810可以还包括始终在处理器上的引擎,其可以提供必要的硬件特征以支持低功率传感器管理和唤醒用例。该始终在处理器上的引擎可以包括处理器核、紧密耦合的RAM、支持***设备(例如定时器和中断控制器)、各种I/O控制器***设备和路由逻辑。
处理器810可以还包括安全簇引擎,其包括处理汽车应用的安全管理的专用处理器子***。安全簇引擎可以包括两个或更多处理器核、紧密耦合的RAM、支持***设备(例如定时器、中断控制器等等)和/或路由逻辑。在安全模式下,所述两个或更多核可以操作于锁步模式下,并且用作具有检测它们的操作之间的任何差异的比较逻辑的单核。
处理器810可以还包括实时相机引擎,其可以包括用于处理实时相机管理的专用处理器子***。
处理器810可以还包括高动态范围信号处理器,其可以包括图像信号处理器,该图像信号处理器是一种硬件引擎,该硬件引擎是相机处理管线的部分。
处理器810可以包括可以是(例如微处理器上实现的)处理块的视频图像复合器,其实现视频回放应用程序产生用于播放器窗口的最终图像所需的视频后处理功能。视频图像复合器可以对广角相机870、环绕相机874和/或对驾驶室内监控相机传感器执行镜头畸变校正。驾驶室内监控相机传感器优选地由运行在高级SoC的另一个实例上的神经网络监控,被配置为识别驾驶室内事件并且相对应地做出响应。驾驶室内***可以执行唇读,以激活移动电话服务并拨打电话、口述电子邮件、改变车辆目的地、激活或改变车辆的信息娱乐***和设置或者提供语音激活的网上冲浪。某些功能仅在车辆操作于自主模式下时对于驾驶员可用,并且在其他情况下被禁用。
视频图像复合器可以包括用于空间和时间降噪的增强时间降噪。例如,在视频中出现运动的情况下,降噪适当地对空间信息加权,降低邻近帧提供的信息的权重。在图像或者图像的部分不包括运动的情况下,视频图像复合器执行的时间降噪可以使用来自先前的图像的信息以降低当前图像中的噪声。
视频图像复合器也可以被配置为对输入立体镜头帧执行立体校正。当操作***桌面正在使用并且GPU 808无需连续地渲染(render)新的表面时,视频图像复合器可以进一步用于用户接口组成。甚至在GPU 808上电并且激活,进行3D渲染时,视频图像复合器可以用来减轻GPU 808的负担以提高性能和响应能力。
SoC 804可以还包括用于从相机接收视频和输入的移动行业处理器接口(MIPI)相机串行接口、高速接口和/或可以用于相机和有关像素输入功能的视频输入块。SoC 804可以还包括可以由软件控制并且可以用于接收未提交到特定角色的I/O信号的输入/输出控制器。
SoC 804可以还包括大范围的***设备接口,以使能与***设备、音频编解码器、功率管理和/或其他设备通信。SoC 804可以用来处理来自(通过千兆多媒体串行链路和以太网连接的)相机、传感器(例如可以通过以太网连接的LIDAR传感器864、RADAR传感器860等等)的数据,来自总线802的数据(例如车辆800的速率、方向盘位置等等),来自(通过以太网或CAN总线连接的)GNSS传感器858的数据。SoC 804可以还包括专用高性能大容量存储控制器,其可以包括它们自己的DMA引擎,并且其可以用来从日常数据管理任务中释放CPU806。
SoC 804可以是具有灵活架构的端到端平台,该架构跨越自动化3-5级,从而提供利用和高效使用计算机视觉和ADAS技术以实现多样性和冗余、连同深度学***台的综合功能安全架构。SoC 804可以比常规的***更快、更可靠,甚至更加能量高效和空间高效。例如,当与CPU 806、GPU 808和数据存储816结合时,加速器814可以提供用于3-5级自主车辆的快速高效平台。
因此该技术提供了不能通过常规***实现的能力和功能。例如,计算机视觉算法可以在CPU上执行,这些CPU可以使用诸如C编程语言之类的高级编程语言配置为跨各种各样的视觉数据执行各种各样的处理算法。然而,CPU常常不能满足许多计算机视觉应用的性能要求,诸如与例如执行时间和功耗有关的那些要求。特别地,许多CPU不能实时地执行复杂的对象检测算法,这是车载ADAS应用的要求和实用3-5级自主车辆的要求。
与常规***形成对比的是,通过提供CPU复合体、GPU复合体和硬件加速器簇,本文描述的技术允许同时和/或顺序地执行多个神经网络,并且将结果组合在一起以实现3-5级自主驾驶功能。例如,在DLA或dGPU(例如GPU 820)上执行的CNN可以包括文本和单词识别,允许超级计算机读取和理解交通指示牌,包括尚未针对其特别地训练神经网络的指示牌。DLA可以还包括能够识别、解释和提供对指示牌的语义理解,并且将该语义理解传递给运行在CPU复合体上的路径规划模块的神经网络。
作为另一个示例,如3、4或5级驾驶所需的,多个神经网络可以同时运行。例如,由“注意:闪烁的灯指示结冰条件”组成的警告指示牌连同电灯可以由若干神经网络独立地或者共同地进行解释。指示牌本身可以由部署的第一神经网络(例如经过训练的神经网络)识别为交通指示牌,文本“闪烁的灯指示结冰条件”可以由部署的第二神经网络解释,该部署的第二神经网络告知车辆的路径规划软件(优选地在CPU复合体上执行)当检测到闪烁的灯时,存在结冰条件。闪烁的灯可以通过在多个帧上操作部署的第三神经网络而识别,该神经网络告知车辆的路径规划软件闪烁的灯的存在(或不存在)。所有三个神经网络可以例如在DLA内和/或在GPU 808上同时运行。
在一些示例中,用于面部识别和车主识别的CNN可以使用来自相机传感器的数据识别车辆800的授权的驾驶员和/或车主的存在。始终在传感器上的处理引擎可以用来在车主接近驾驶员车门时解锁车辆并且打开灯,并且在安全模式下,在车主离开车辆时禁用车辆。按照这种方式,SoC 804提供了防范盗窃和/或劫车的安全性。
在另一个示例中,用于应急车辆检测和识别的CNN可以使用来自麦克风896的数据来检测并且识别应急车辆警报(siren)。与使用通用分类器检测警报并且手动地提取特征的常规***形成对比的是,SoC 804使用CNN以对环境和城市声音分类以及对视觉数据分类。在优选的实施例中,运行在DLA上的CNN被训练为识别应急车辆的相对关闭速率(例如通过使用多普勒效应)。CNN也可以被训练为识别如GNSS传感器858所识别的特定于车辆在其中操作的局部区域的应急车辆。因此,例如,当在欧洲操作时,CNN将寻求检测欧洲警报,并且当在美国时,CNN将寻求识别仅仅北美的警报。一旦检测到应急车辆,在超声传感器862的辅助下,控制程序可以用来执行应急车辆安全例程,使车辆放慢速度,开到路边,停下车辆,和/或使车辆空转,直到应急车辆通过。
车辆可以包括可以经由高速互连(例如PCIe)耦合到SoC 804的CPU 818(例如分立的CPU或dCPU)。CPU 818可以包括例如X86处理器。CPU 818可以用来执行各种各样的功能中的任何功能,包括例如仲裁ADAS传感器与SoC 804之间潜在地不一致的结果,和/或监控控制器836和/或信息娱乐SoC 830的状态和健康状况。
车辆800可以包括可以经由高速互连(例如NVIDIA的NVLINK)耦合到SoC 804的GPU820(例如分立的GPU或dGPU)。GPU 820可以例如通过执行冗余的和/或不同的神经网络而提供附加的人工智能功能,并且可以用来至少部分地基于来自车辆800的传感器的输入(例如传感器数据)来训练和/或更新神经网络。
车辆800可以还包括网络接口824,该网络接口可以包括一个或更多个无线天线826(例如用于不同通信协议的一个或更多个无线天线,例如蜂窝天线、蓝牙天线等等)。网络接口824可以用来使能通过因特网与云(例如与服务器878和/或其他网络设备)、与其他车辆和/或与计算设备(例如乘客的客户端设备)的无线连接。为了与其他车辆通信,可以在这两辆车之间建立直接链接,和/或可以建立间接链接(例如跨网络以及通过因特网)。直接链接可以使用车对车通信链路提供。车对车通信链路可以向车辆800提供关于接近车辆800的车辆(例如车辆800前面、侧面和/或后面的车辆)的信息。该功能可以是车辆800的协作自适应巡航控制功能的部分。
网络接口824可以包括提供调制和解调功能并且使得控制器836能够通过无线网络通信的SoC。网络接口824可以包括用于从基带到射频的上转换以及从射频到基带的下转换的射频前端。频率转换可以通过公知的过程执行,和/或可以使用超外差(super-heterodyne)过程执行。在一些示例中,射频前端功能可以由单独的芯片提供。网络接口可以包括用于通过LTE、WCDMA、UMTS、GSM、CDMA2000、蓝牙、蓝牙LE、Wi-Fi、Z波、ZigBee、LoRaWAN和/或其他无线协议通信的无线功能。
车辆800可以还包括可包括片外(例如SoC 804外)存储装置的数据存储828。数据存储828可以包括一个或更多个存储元件,包括RAM、SRAM、DRAM、VRAM、闪存、硬盘和/或可以存储至少一个比特的数据的其他部件和/或设备。
车辆800可以还包括GNSS传感器858。GNSS传感器858(例如GPS、辅助GPS传感器、差分GPS(DGPS)传感器等)用于辅助映射、感知、占用网格生成和/或路径规划功能。可以使用任意数量的GNSS传感器858,包括例如且不限于使用带有以太网到串行(RS-232)网桥的USB连接器的GPS。
车辆800可以还包括RADAR传感器860。RADAR传感器860可以甚至在黑暗和/或恶劣天气条件下也由车辆800用于远程车辆检测。RADAR功能安全级别可以是ASIL B。RADAR传感器860可以使用CAN和/或总线802(例如以传输RADAR传感器860生成的数据)以用于控制以及访问对象追踪数据,在一些示例中接入以太网以访问原始数据。可以使用各种各样的RADAR传感器类型。例如且非限制性地,RADAR传感器860可以适合前面、后面和侧面RADAR使用。在一些示例中,使用脉冲多普勒RADAR传感器。
RADAR传感器860可以包括不同的配置,例如具有窄视场的远程、具有宽视场的短程、短程侧覆盖等等。在一些示例中,远程RADAR可以用于自适应巡航控制功能。远程RADAR***可以提供通过两个或更多独立扫描实现的广阔视场(例如250m范围内)。RADAR传感器860可以帮助区分静态对象和运动对象,并且可以由ADAS***用于紧急制动辅助和前方碰撞警告。远程RADAR传感器可以包括具有多根(例如六根或更多)固定RADAR天线以及高速CAN和FlexRay接口的单站多模RADAR。在具有六根天线的示例中,中央四根天线可以创建聚焦的波束图案,其被设计为在更高速率下以来自邻近车道的最小交通干扰记录车辆800的周围环境。其他两根天线可以扩展视场,使得快速地检测进入或离开车辆800的车道的车辆成为可能。在一些方面,传感器数据102可包括由一个或更多个RADAR传感器860生成的数据。
作为一个示例,中程RADAR***可以包括高达860m(前面)或80m(后面)的范围以及高达42度(前面)或850度(后面)的视场。短程RADAR***可以包括但不限于被设计为安装在后保险杠两端的RADAR传感器。当安装在后保险杠两端时,这样的RADAR传感器***可以创建持续地监控后方和车辆旁边的视盲点的两个波束。
短程RADAR***可以在ADAS***中用于视盲点检测和/或变道辅助。
车辆800可以还包括超声传感器862。可以置于车辆800的前面、后面和/或侧面的超声传感器862可以用于停车辅助和/或创建和更新占用网格。可以使用各种各样的超声传感器862,并且不同的超声传感器862可以用于不同的检测范围(例如2.5m、4m)。超声传感器862可以操作于功能安全级别的ASIL B。在一些方面,传感器数据102可包括由一个或更多个超声传感器862生成的数据。
车辆800可以包括LIDAR传感器864。LIDAR传感器864可以用于对象和行人检测、紧急制动、碰撞避免和/或其他功能。LIDAR传感器864可以为功能安全级别的ASIL B。在一些示例中,车辆800可以包括可以使用以太网(例如以将数据提供给千兆以太网交换机)的多个LIDAR传感器864(例如两个、四个、六个等等)。
在一些示例中,LIDAR传感器864可能够对360度视场提供对象列表及其距离。商业上可用的LIDAR传感器864可以具有例如近似800m的广告范围,精度为2cm-3cm,支持800Mbps以太网连接。在一些示例中,可以使用一个或更多个非突出的LIDAR传感器864。在这样的示例中,LIDAR传感器864可以实现为可以嵌入到车辆800的前面、后面、侧面和/或拐角的小设备。在这样的示例中,LIDAR传感器864可以甚至对于低反射率对象提供高达120度水平的和35度竖直的视场,具有200m的范围。前面安装的LIDAR传感器864可以被配置用于45度与135度之间的水平视场。
一些示例中,也可以使用诸如3D闪光LIDAR之类的LIDAR技术。3D闪光LIDAR使用激光的闪光作为发射源,以照亮高达约200m的车辆周围环境。闪光LIDAR单元包括接受器,该接受器将激光脉冲传输时间和反射光记录在每个像素上,其进而与从车辆到对象的范围相对应。闪光LIDAR可以允许利用每个激光闪光生成周围环境的高度精确且无失真的图像。在一些示例中,可以部署四个闪光LIDAR传感器,车辆800的每一侧一个。可用的3D闪光LIDAR***包括没有风扇以外的运动部件(moving part)的固态3D凝视阵列LIDAR相机(例如非扫描LIDAR设备)。闪光LIDAR设备可以使用每帧5纳秒I类(眼睛安全)激光脉冲,并且可以以3D范围点云和共同寄存的强度数据的形式捕获反射的激光。通过使用闪光LIDAR,并且因为闪光LIDAR是没有运动部件的固态设备,LIDAR传感器864可以不太容易受到运动模糊、振动和/或震动的影响。在一些方面,传感器数据102可包括由一个或更多个LIDAR传感器864生成的数据。
该车辆可以还包括IMU传感器866。在一些示例中,IMU传感器866可以位于车辆800的后轴的中心。IMU传感器866可以包括例如且不限于加速度计、磁力计、陀螺仪、磁罗盘和/或其他传感器类型。在一些示例中,例如在六轴应用中,IMU传感器866可以包括加速度计和陀螺仪,而在九轴应用中,IMU传感器866可以包括加速度计、陀螺仪和磁力计。
在一些实施例中,IMU传感器866可以实现为微型高性能GPS辅助惯性导航***(GPS/INS),其结合微机电***(MEMS)惯性传感器、高灵敏度GPS接收器和高级卡尔曼滤波算法以提供位置、速度和姿态的估计。这样,在一些示例中,IMU传感器866可以使得车辆800能够在无需来自磁传感器的输入的情况下通过直接观察从GPS到IMU传感器866的速度变化并且将其相关来估计方向(heading)。在一些示例中,IMU传感器866和GNSS传感器858可以结合到单个集成单元中。
该车辆可以包括置于车辆800中和/或车辆800周围的麦克风896。除别的以外,麦克风896可以用于应急车辆检测和识别。
该车辆可以还包括任意数量的相机类型,包括立体相机868、广角相机870、红外相机872、环绕相机874、远程和/或中程相机898和/或其他相机类型。这些相机可以用来捕获车辆800整个***周围的图像数据。使用的相机类型取决于实施例和车辆800的要求,并且相机类型的任意组合可以用来提供车辆800周围的必要覆盖。此外,相机的数量可以根据实施例而不同。例如,该车辆可以包括六个相机、七个相机、十个相机、十二个相机和/或另一数量的相机。作为一个示例且非限制性地,这些相机可以支持千兆多媒体串行链路(GMSL)和/或千兆以太网。所述相机中的每一个在本文关于图8A和图8B更详细地进行了描述。
车辆800可以还包括振动传感器842。振动传感器842可以测量车辆的诸如车轴之类的部件的振动。例如,振动的变化可以指示道路表面的变化。在另一个示例中,当使用两个或更多振动传感器842时,振动之间的差异可以用来确定道路表面的摩擦或滑移(例如当动力驱动轴与自由旋转轴之间存在振动差异时)。
车辆800可以包括ADAS***838。在一些示例中,ADAS***838可以包括SoC。ADAS***838可以包括自主/自适应/自动巡航控制(ACC)、协作自适应巡航控制(CACC)、前方撞车警告(FCW)、自动紧急制动(AEB)、车道偏离警告(LDW)、车道保持辅助(LKA)、视盲点警告(BSW)、后方穿越交通警告(RCTW)、碰撞警告***(CWS)、车道居中(LC)和/或其他特征和功能。
ACC***可以使用RADAR传感器860、LIDAR传感器864和/或相机。ACC***可以包括纵向ACC和/或横向ACC。纵向ACC监控并控制到紧接在车辆800前方的车辆的距离,并且自动地调节车速以维持离前方车辆的安全距离。横向ACC执行距离保持,并且在必要时建议车辆800改变车道。横向ACC与诸如LCA和CWS之类的其他ADAS应用程序有关。
CACC使用来自其他车辆的信息,该信息可以经由网络接口824和/或无线天线826经由无线链路或者通过网络连接(例如通过因特网)间接地从其他车辆接收。直接链接可以由车对车(V2V)通信链路提供,而间接链接可以是基础设施到车辆(I2V)的通信链路。通常,V2V通信概念提供关于紧接在前的车辆(例如紧接在车辆800前方且与其处于相同车道的车辆)的信息,而I2V通信概念提供关于前方更远处的交通的信息。CACC***可以包括I2V和V2V信息源中的任一个或者二者。给定车辆800前方车辆的信息,CACC可以更加可靠,并且它有可能提高交通流的畅通性且降低道路拥堵。
FCW***被设计为提醒驾驶员注意危险,使得驾驶员可以采取纠正措施。FCW***使用耦合到专用处理器、DSP、FPGA和/或ASIC的前置相机和/或RADAR传感器860,该专用处理器、DSP、FPGA和/或ASIC电耦合至诸如显示器、扬声器和/或振动部件之类的驾驶员反馈。FCW***可以提供例如声音、视觉警告、振动和/或快速制动脉冲形式的警告。
AEB***检测即将发生的与另一车辆或其他对象的前方碰撞,并且可以在驾驶员在指定的时间或距离参数内没有采取纠正措施的情况下自动地应用制动器。AEB***可以使用耦合到专用处理器、DSP、FPGA和/或ASIC的前置相机和/或RADAR传感器860。当AEB***检测到危险时,它典型地首先提醒(alert)驾驶员采取纠正措施以避免碰撞,并且如果驾驶员没有采取纠正措施,那么AEB***可以自动地应用制动器以努力防止或者至少减轻预测的碰撞的影响。AEB***可以包括诸如动态制动支持和/或碰撞迫近制动之类的技术。
LDW***提供了诸如方向盘或座位振动之类的视觉、听觉和/或触觉警告,以在车辆800穿过车道标记时提醒驾驶员。当驾驶员指示有意偏离车道时,通过激活转弯信号,不激活LDW***。LDW***可以使用耦合到专用处理器、DSP、FPGA和/或ASIC的前侧朝向相机,该专用处理器、DSP、FPGA和/或ASIC电耦合至诸如显示器、扬声器和/或振动部件之类的驾驶员反馈。
LKA***是LDW***的变型。如果车辆800开始离开车道,那么LKA***提供纠正车辆800的转向输入或制动。
BSW***检测并向驾驶员警告汽车视盲点中的车辆。BSW***可以提供视觉、听觉和/或触觉警报以指示合并或改变车道是不安全的。***可以在驾驶员使用转弯信号时提供附加的警告。BSW***可以使用耦合到专用处理器、DSP、FPGA和/或ASIC的后侧朝向相机和/或RADAR传感器860,该专用处理器、DSP、FPGA和/或ASIC电耦合至诸如显示器、扬声器和/或振动部件之类的驾驶员反馈。
RCTW***可以在车辆800倒车时在后置相机范围之外检测到对象时提供视觉、听觉和/或触觉通知。一些RCTW***包括AEB以确保应用车辆制动器以避免撞车。RCTW***可以使用耦合到专用处理器、DSP、FPGA和/或ASIC的一个或更多个后置RADAR传感器860,该专用处理器、DSP、FPGA和/或ASIC电耦合至诸如显示器、扬声器和/或振动部件之类的驾驶员反馈。
常规的ADAS***可能易于出现假阳性结果,这可能会让驾驶员烦恼并分散注意力,但是典型地不是灾难性的,因为ADAS***提醒驾驶员并且允许驾驶员决定安全条件是否真正存在并且相对应地采取行动。然而,在自主车辆800中,在冲突结果的情况下,车辆800本身必须决定是否注意(heed)来自主计算机或者辅助计算机(例如第一控制器836或第二控制器836)的结果。例如,在一些实施例中,ADAS***838可以是用于向备用计算机合理性模块提供感知信息的备用和/或辅助计算机。备用计算机合理性监视器可以在硬件部件上运行冗余多样的软件,以检测感知和动态驾驶任务中的故障。来自ADAS***838的输出可以提供给监督MCU。如果来自主计算机和辅助计算机的输出冲突,那么监督MCU必须确定如何协调该冲突以确保安全操作。
在一些示例中,主计算机可以被配置为向监督MCU提供置信度评分,指示主计算机对所选结果的置信度。如果置信度评分超过阈值,那么监督MCU可以遵循主计算机的方向,而不管辅助计算机是否提供冲突或不一致的结果。在置信度评分不满足阈值的情况下并且在主计算机和辅助计算机指示不同的结果(例如冲突)的情况下,监督MCU可以在这些计算机之间进行仲裁以确定适当的结果。
监督MCU可以被配置为运行神经网络,所述神经网络被训练并且被配置为至少部分地基于来自主计算机和辅助计算机的输出,确定辅助计算机提供假警报的条件。因此,监督MCU中的神经网络可以了解何时可以信任辅助计算机的输出以及何时不能。例如,当辅助计算机为基于RADAR的FCW***时,监督MCU中的神经网络可以了解FCW***何时正在识别事实上不是危险的金属对象,例如触发警报的排水栅格或井盖。类似地,当辅助计算机是基于相机的LDW***时,监督MCU中的神经网络可以学习在骑车者或行人在场并且车道偏离实际上是最安全的策略时无视该LDW。在包括运行在监督MCU上的神经网络的实施例中,监督MCU可以包括适合于利用关联的内存运行神经网络的DLA或GPU中的至少一个。在优选的实施例中,监督MCU可以包括SoC 804的部件和/或作为SoC 804的部件而被包括。
在其他示例中,ADAS***838可以包括使用传统计算机视觉规则执行ADAS功能的辅助计算机。这样,辅助计算机可以使用经典的计算机视觉规则(如果-那么),并且在监督MCU中存在神经网络可以提高可靠性、安全性和性能。例如,多样化的实现方式和有意的非完全相同(non-identity)使得整个***更加容错,对于软件(或者软件-硬件接口)功能造成的故障而言尤其如此。例如,如果在主计算机上运行的软件中存在软件漏洞或错误并且运行在辅助计算机上的非完全相同的软件代码提供相同的总体结果,那么监督MCU可以更加确信总体结果是正确的,并且主计算机上的软件或硬件中的漏洞不造成实质性的错误。
在一些示例中,ADAS***838的输出可以馈送至主计算机的感知块和/或主计算机的动态驾驶任务块。例如,如果ADAS***838由于对象紧接在前的原因而指示前方碰撞警告,那么感知块可以在识别对象时使用该信息。在其他示例中,辅助计算机可以具有它自己的神经网络,其被训练并且因此如本文所描述的降低假阳性的风险。
车辆800可以还包括信息娱乐SoC 830(例如车载信息娱乐***(IVI))。尽管被图示和描述为SoC,但是信息娱乐***可以不是SoC,并且可以包括两个或更多分立的部件。信息娱乐SoC 830可以包括可以用来向车辆800提供音频(例如音乐、个人数字助理、导航指令、新闻、广播等等)、视频(例如TV、电影、流媒体等等)、电话(例如免提呼叫)、网络连接(例如LTE、WiFi等等)和/或信息服务(例如导航***,后停车援助,无线电数据***,诸如燃油水平、覆盖的总距离、制动燃油水平、油位、车门开/关、空气过滤器信息之类的车辆有关信息,等等)的硬件和软件的组合。例如,信息娱乐SoC 830可以包括收音机、盘播放器、导航***、视频播放器、USB和蓝牙连接、车载电脑、车载娱乐、WiFi、方向盘音频控件、免提语音控件、平视显示器(HUD)、HMI显示器834、远程信息处理设备、控制面板(例如用于控制各种部件、特征和/或***,和/或与其交互)和/或其他部件。信息娱乐SoC 830可以进一步用来向车辆的用户提供信息(例如视觉的和/或听觉的),例如来自ADAS***838的信息,诸如规划的车辆机动、轨迹、周围环境信息(例如交叉路口信息、车辆信息、道路信息等等)之类的自主驾驶信息,和/或其他信息。
信息娱乐SoC 830可以包括GPU功能。信息娱乐SoC 830可以通过总线802(例如CAN总线、以太网等)与车辆800的其他设备、***和/或部件通信。在一些示例中,信息娱乐SoC830可以耦合至监督MCU,使得在主控制器836(例如车辆800的主和/或备用计算机)出现故障的情况下,信息娱乐***的GPU可以执行一些自驾驶功能。在这样的示例中,信息娱乐SoC830可以如本文所描述的将车辆800置于司机安全停车模式。
车辆800可以还包括仪表组832(例如数字仪表板、电子仪表组、数字仪表面板等等)。仪表组832可以包括控制器和/或超级计算机(例如分立的控制器或超级计算机)。仪表组832可以包括一套仪器,例如车速表、燃油水平、油压、转速表、里程表、转弯指示器、换档位置指示器、安全带警告灯、停车制动警告灯、发动机故障灯、安全气囊(SRS)***信息、照明控件、安全***控件、导航信息等等。在一些示例中,信息可以被显示和/或在信息娱乐SoC 830和仪表组832之间共享。换言之,仪表组832可以作为信息娱乐SoC 830的部分而被包括,或者反之亦然。
图8D为根据本公开一些实施例的基于云的服务器与图8A的示例自主车辆800之间的通信的***示意图。***876可以包括服务器878、网络890以及包括车辆800在内的车辆。服务器878可以包括多个GPU 884(A)-884(H)(这里统称为GPU 884)、PCIe交换机882(A)-882(H)(这里统称为PCIe交换机882)和/或CPU 880(A)-880(B)(这里统称为CPU 880)。GPU884、CPU 880和PCIe交换机可以与诸如例如且不限于NVIDIA开发的NVLink接口888之类的高速互连和/或PCIe连接886互连。在一些示例中,GPU 884经由NVLink和/或NVSwitch SoC连接,并且GPU 884和PCIe交换机882经由PCIe互连连接。尽管图示出八个GPU 884、两个CPU880和两个PCIe交换机,但是这并不意图是限制性的。取决于实施例,服务器878中的每一个可以包括任意数量的GPU 884、CPU 880和/或PCIe交换机。例如,服务器878中的每一个可以包括八个、十六个、三十二个和/或更多GPU 884。
服务器878可以通过网络890并且从车辆接收图像数据,该图像数据表示示出诸如最近开始的道路工程之类的意外或改变的道路状况的图像。服务器878可以通过网络890并且向车辆传输神经网络892、更新的神经网络892和/或地图信息894,包括关于交通和道路状况的信息。对地图信息894的更新可以包括对于HD地图822的更新,例如关于建筑工地、坑洼、弯道、洪水或其他障碍物的信息。在一些示例中,神经网络892、更新的神经网络892和/或地图信息894可以已从新的训练和/或从环境中的任意数量的车辆接收的数据中表示和/或基于数据中心处执行的训练(例如使用服务器878和/或其他服务器)的经验产生。
服务器878可以用来基于训练数据训练机器学习模型(例如神经网络)。训练数据可以由车辆生成,和/或可以在仿真中生成(例如使用游戏引擎)。在一些示例中,训练数据被标记(例如在神经网络受益于有监督学习的情况下)和/或经历其他预处理,而在其他示例中,训练数据不被标记和/或预处理(例如在神经网络无需有监督学习的情况下)。可以根据任何一类或更多类别的机器学习技术来执行训练,包括但不限于诸如以下类别:监督训练、半监督训练、非监督训练、自学习、强化学习、联合学习、转移学习、特征学习(包括主要组成和聚类分析)、多线性子空间学习、流形学习、表示学习(包括备用字典学习)、基于规则的机器学习、异常检测及其任何变体或组合。一旦机器学习模型被训练,机器学习模型可以由车辆使用(例如通过网络890传输至车辆),和/或机器学习模型可以由服务器878用来远程地监控车辆。
在一些示例中,服务器878可以接收来自车辆的数据,并且将该数据应用到最新的实时神经网络以用于实时智能推理。服务器878可以包括由GPU 884供电的深度学习超级计算机和/或专用AI计算机,例如NVIDIA开发的DGX和DGX站机器。然而,在一些示例中,服务器878可以包括仅使用CPU供电的数据中心的深度学习基础设施。
服务器878的深度学习基础设施可能够快速实时推理,并且可以使用该能力来评估并验证车辆800中的处理器、软件和/或关联硬件的健康状况。例如,深度学习基础设施可以接收来自车辆800的定期更新,例如图像序列和/或车辆800已经定位的位于该图像序列中的对象(例如经由计算机视觉和/或其他机器学习对象分类技术)。深度学习基础设施可以运行它自己的神经网络以识别对象并且将它们与车辆800识别的对象相比较,如果结果不匹配并且该基础设施得出车辆800中的AI发生故障的结论,那么服务器878可以向车辆800传输信号,指示车辆800的故障保护计算机进行控制,通知乘客,并且完成安全停车操作。
为了推理,服务器878可以包括GPU 884和一个或更多个可编程推理加速器(例如NVIDIA的TensorRT)。GPU供电的服务器和推理加速的组合可以使得实时响应成为可能。在其他示例中,例如在性能不那么重要的情况下,CPU、FPGA和其他处理器供电的服务器可以用于推理。
示例计算设备
图9是适合用于实现本公开的一些实施例的示例计算设备900的框图。计算设备900可以包括直接或间接耦合以下设备的互连***902:存储器904、一个或更多个中央处理单元(CPU)906、一个或更多个图形处理单元(GPU)908、通信接口910、输入/输出(I/O)端口912、输入/输出组件914、电源916,一个或更多个呈现组件918(例如,(一个或更多个)显示器)和一个或更多个逻辑单元920。在至少一个实施例中,(一个或更多个)计算设备900可以包括一个或更多个虚拟机(VM),和/或其任何组件可以包括虚拟组件(例如,虚拟硬件组件)。对于非限制性示例,GPU 908中的一个或更多个可以包括一个或更多个vGPU,CPU 906中的一个或更多个可以包括一个或更多个vCPU,和/或逻辑单元920中的一个或更多个可以包括一个或更多个虚拟逻辑单元。这样,(一个或更多个)计算设备900可以包括分立组件(例如,专用于计算设备900的全GPU)、虚拟组件(例如,专用于计算设备900的GPU的一部分)、或其组合。
尽管图9的各个方框被示出为利用线路经由互连***902连接,但这并不旨在是限制性的并且仅是为了清楚起见。例如,在一些实施例中,呈现组件918(诸如显示设备)可被认为是I/O组件914(例如,如果显示器是触摸屏)。作为另一个示例,CPU 906和/或GPU 908可以包括存储器(例如,存储器904可以表示除了GPU 908的存储器、CPU 906和/或其他组件之外的存储设备)。换言之,图9的计算设备仅是说明性的。在如“工作站”、“服务器”、“膝上型计算机”、“桌面型计算机”、“平板计算机”、“客户端设备”、“移动设备”、“手持式设备”、“游戏控制台”、“电子控制单元(ECU)”、“虚拟现实***”和/或其他设备或***类型的此类类别之间不做区分,因为所有都被考虑在图9的计算设备的范围内。
互连***902可表示一个或更多个链路或总线,诸如地址总线、数据总线、控制总线或其组合。互连***902可以包括一个或更多个总线或链路类型,诸如工业标准架构(ISA)总线、扩展工业标准架构(EISA)总线、视频电子标准协会(VESA)总线、***组件互连(PCI)总线、快速***组件互连(PCIe)总线和/或另一类型的总线或链路。在一些实施例中,组件之间存在直接连接。作为示例,CPU 906可直接连接到存储器904。进一步,CPU 906可直接连接到GPU 908。在组件之间存在直接或点对点连接的情况下,互连***902可包括PCIe链路以执行连接。在这些示例中,PCI总线不需要被包括在计算设备900中。
存储器904可以包括各种计算机可读介质中的任何计算机可读介质。计算机可读介质可以是可由计算设备900访问的任何可用介质。计算机可读介质可以包括易失性和非易失性介质,以及可移除和不可移除介质。作为示例而非限制,计算机可读介质可包括计算机存储介质和通信介质。
计算机存储介质可以包括以用于存储诸如计算机可读指令、数据结构、程序模块和/或其他数据类型的信息的任何方法或技术实现的易失性和非易失性介质和/或可移动和不可移动介质。例如,存储器904可以存储计算机可读指令(例如,表示(一个或更多个)程序和/或(一个或更多个)程序元件,诸如操作***)。计算机存储介质可以包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术,CD-ROM、数字通用盘(DVD)或其他光盘存储、磁带盒、磁带、磁盘存储装置或其他磁性存储装置,或可用于存储所要信息且可由计算设备900存取的任何其他介质。如本文所使用的,计算机存储介质不包括信号本身。
计算机存储介质可将计算机可读指令、数据结构、程序模块和/或其他数据类型体现在诸如载波或其他传输机制之类的已调制数据信号中,并且包括任何信息传递介质。术语“调制数据信号”可以指代以编码信号中的信息的方式设置或改变其一个或更多个特性的信号。作为示例而非限制,计算机存储介质可包括有线介质(诸如有线网络或直接有线连接)和无线介质(诸如声学、RF、红外和其他无线介质)。以上任何内容的组合也应包含在计算机可读介质的范围内。
CPU 906可经配置以执行计算机可读指令中的至少一些以控制计算设备900的一个或更多个组件执行本文中所描述的方法和/或过程中的一个或更多个。CPU 906可各自包含能够同时处置众多软件线程的一个或更多个核心(例如,一个、两个、四个、八个、二十八个、七十二个等)。CPU 906可包含任何类型的处理器,且可取决于所实施的计算设备900的类型而包含不同类型的处理器(例如,针对移动装置具有较少核心的处理器和针对服务器具有较多核心的处理器)。例如,取决于计算设备900的类型,处理器可以是使用精简指令集计算(RISC)实现的高级RISC机器(ARM)处理器或使用复杂指令集计算(CISC)实现的x86处理器。除了一个或更多个微处理器或补充协处理器(诸如数学协处理器)之外,计算设备900还可包括一个或更多个CPU 906。
除(一个或更多个)CPU 906以外或替代(一个或更多个)CPU 906,(一个或更多个)GPU 908可被配置成执行计算机可读指令中的至少一些以控制计算设备900的一个或更多个组件执行本文所描述的方法和/或过程中的一个或更多个。GPU 908中的一个或更多个可为集成GPU(例如,有CPU 906中的一个或更多个)和/或GPU 908中的一个或更多个可为离散GPU。在实施例中,GPU 908中的一个或更多个可以是CPU 906中的一个或更多个的协处理器。GPU 908可由计算设备900使用以渲染图形(例如,3D图形)或执行通用计算。例如,GPU908可用于GPU上的通用计算(GPGPU)。GPU 908可包含能够同时处置数百或数千软件线程的数百或数千核心。GPU 908可响应于渲染命令(例如,经由主机接口从CPU 906接收的渲染命令)而产生输出图像的像素数据。GPU 908可包含用于存储像素数据或任何其他合适数据(例如,GPGPU数据)的图形存储器(例如,显示存储器)。显示存储器可作为存储器904的一部分被包括。GPU 908可包含并行操作(例如,经由链路)的两个或两个以上GPU。链路可以直接连接GPU(例如,使用NVLINK)或可以通过交换机(例如,使用NVSwitch)连接GPU。当组合在一起时,每一GPU 908可产生用于输出的不同部分或用于不同输出的像素数据或GPGPU数据(例如,用于第一图像的第一GPU和用于第二图像的第二GPU)。每一GPU可包含其自己的存储器,或可与其他GPU共享存储器。
除CPU 906和/或GPU 908之外或替代CPU 906和/或GPU 908,逻辑单元920可经配置以执行计算机可读指令中的至少一些以控制计算设备900的一个或更多个组件执行本文中所描述的方法和/或过程中的一个或更多个。在实施例中,(一个或更多个)CPU 906、(一个或更多个)GPU 908、和/或(一个或更多个)逻辑单元920可以离散地或联合地执行方法、过程和/或其部分的任何组合。逻辑单元920中的一个或更多个可为CPU 906和/或GPU 908中的一个或更多个中的一部分和/或集成于CPU 906和/或GPU 908中的一个或更多个和/或逻辑单元920中的一个或更多个可为离散组件或以其他方式在CPU 906和/或GPU 908外部。在实施例中,逻辑单元920中的一个或更多个可以是CPU 906中的一个或更多个和/或GPU908中的一个或更多个的协处理器。
逻辑单元920的示例包括一个或更多个处理核心和/或其组件,诸如数据处理单元(DPU)、张量核心(TC)、张量处理单元(TPU)、像素视觉核心(PVC)、视觉处理单元(VPU)、图形处理群集(GPC)、纹理处理群集(TPC)、流多处理器(SM)、树横向单元(TTU)、人工智能加速器(AIA)、深度学习加速器(DLA)、算术逻辑单元(ALU)、专用集成电路(ASIC)、浮点单元(FPU)、输入/输出(I/O)元件、***组件互连(PCI)或快速***组件互连(PCIe)元件等。
通信接口910可以包括使计算设备900能够经由电子通信网络(包括有线和/或无线通信)与其他计算设备通信的一个或更多个接收机、发射机和/或收发机。通信接口910可包括实现通过多个不同网络中的任一个进行通信的组件和功能,诸如无线网络(例如,Wi-Fi、Z-Wave、蓝牙、蓝牙LE、ZigBee等)、有线网络(例如,通过以太网或无限带通信)、低功率广域网(例如,LoRaWAN、SigFox等)和/或互联网。在一个或更多个实施例中,一个或更多个逻辑单元920和/或通信接口910可以包括一个或更多个数据处理单元(DPU)以将通过网络和/或通过互连***902接收的数据直接传输到一个或更多个GPU 908(例如,的存储器)。
I/O端口912可以使得计算设备900能够逻辑地耦合到包括I/O组件914、(一个或更多个)呈现组件918和/或其他组件的其他设备,其中一些可以被内置到(例如,集成在)计算设备900中。说明性I/O组件914包括麦克风、鼠标、键盘、操纵杆、游戏垫、游戏控制器、碟形卫星天线、扫描仪、打印机、无线设备等。I/O组件914可以提供处理空中姿势、语音或由用户生成的其他生理输入的自然用户界面(NUI)。在一些情况下,可将输入发射到适当的网络元件以供进一步处理。NUI可实现与计算设备900的显示器相关联的语音识别、指示笔识别、面部识别、生物特征识别、屏幕上和屏幕附近的姿势识别、空中姿势、头部和眼睛追踪、以及触摸识别(如以下更详细地描述的)的任何组合。计算设备900可以包括用于手势检测和识别的深度相机,诸如立体相机***、红外相机***、RGB相机***、触摸屏技术和这些的组合。另外,计算设备900可包含使得能够检测运动的加速度计或陀螺仪(例如,作为惯性测量单元(IMU)的部分)。在一些示例中,计算设备900可以使用加速度计或陀螺仪的输出来渲染沉浸式增强现实或虚拟现实。
电源916可包括硬连线电源、电池电源或其组合。电源916可向计算设备900提供电力以使得计算设备900的组件能够操作。
呈现组件918可包括显示器(例如,监视器、触摸屏、电视屏幕、平视显示器(HUD)、其他显示器类型或其组合)、扬声器和/或其他呈现组件。呈现组件918可从其他组件(例如,GPU908、CPU906、DPU等)接收数据,且输出所述数据(例如,作为图像、视频、声音等)。
示例数据中心
图10示出了可在本公开的至少一个实施例中使用的示例数据中心1000。数据中心1000可包括数据中心基础设施层1010、框架层1020、软件层1030和/或应用层1040。
如图10所示,数据中心基础设施层1010可以包括资源协调器1012、分组的计算资源1014和节点计算资源(“节点C.R.s”)1016(1)-1016(N),其中“N”表示任何完整的正整数。在至少一个实施例中,节点C.R.s 1016(1)-1016(N)可包括,但不限于任何数量的中央处理单元(CPU)或其他处理器(包括DPU、加速器、现场可编程门阵列(FPGA)、图形处理器或图形处理单元(GPU)等),存储器设备(例如,动态只读存储器),存储设备(例如,固态或磁盘驱动器),网络输入/输出(NW I/O)装置、网络交换机、虚拟机(VM)、功率模块和/或冷却模块,等等。在一些实施例中,来自节点C.R.s 1016(1)-1016(N)中的一个或更多个节点C.R.s可对应于具有上述计算资源中的一个或更多个的服务器。此外,在一些实施例中,节点C.R.s1016(1)-10161(N)可包括一个或更多个虚拟组件,诸如vGPU、vCPU等,和/或节点C.R.s1016(1)-1016(N)中的一个或更多个可对应于虚拟机(VM)。
在至少一个实施例中,分组的计算资源1014可包括容纳在一个或更多个机架(未示出)内的节点C.R.s 1016的单独分组,或容纳在不同地理位置(也未示出)处的数据中心内的许多机架。分组的计算资源1014内的节点C.R.s 1016的单独分组可包括可被配置或分配来支持一个或更多个工作负荷的分组计算、网络、存储器或存储资源。在至少一个实施例中,包括CPU、GPU、DPU和/或其他处理器的若干节点C.R.s 1016可以分组在一个或更多个机架内以提供计算资源来支持一个或更多个工作负荷。一个或更多个机架还可包括任意组合的任意数量的功率模块、冷却模块和/或网络交换机。
资源协调器1012可配置或以其他方式控制一个或更多个节点C.R.s 1016(1)-1016(N)和/或分组的计算资源1014。在至少一个实施例中,资源协调器1012可以包括用于数据中心1000的软件设计基础设施(SDI)管理实体。资源协调器1012可以包括硬件、软件或其某种组合。
在至少一个实施例中,如图10所示,框架层1020可以包括作业调度器1032、配置管理器1034、资源管理器1036和/或分布式文件***1038。框架层1020可以包括支持软件层1030的软件1032和/或应用层1040的一个或更多个应用1042的框架。软件1032或应用1042可分别包含基于网络的服务软件或应用,例如由Amazon(亚马逊)网络服务、Google Cloud(谷歌云)和Microsoft Azure提供的那些。框架层1020可以是但不限于可以利用分布式文件***1038进行大规模数据处理(例如,“大数据”)的免费和开源的软件网络应用框架(如Apache SparkTM(下文称为“Spark”))的类型。在至少一个实施例中,作业调度器1032可以包括Spark驱动器以促进调度由数据中心1000的不同层支持的工作负荷。配置管理器1034可以能够配置不同层,诸如软件层1030和框架层1020(其包括用于支持大规模数据处理的Spark和分布式文件***1038)。资源管理器1036可以能够管理被映射到分布式文件***1038和作业调度器1032或被分配用于支持分布式文件***1038和作业调度器1032的集群的或分组的计算资源。在至少一个实施例中,集群的或分组的计算资源可包括在数据中心基础设施层1010的分组的计算资源1014。资源管理器1036可与资源协调器1012协调以管理这些被映射或分配的计算资源。
在至少一个实施例中,在软件层1030中包括的软件1032可包括由节点C.R.s 1016(1)-1016(N)、分组的计算资源1014和/或框架层1020的分布式文件***1038中的至少部分使用的软件。一种或更多种类型的软件可以包括但不限于互联网网页搜索软件、电子邮件病毒扫描软件、数据库软件和流式视频内容软件。
在至少一个实施例中,在应用层1040中包括的应用1042可包括由节点C.R.s 1016(1)-1016(N)、分组的计算资源1014和/或框架层1020的分布式文件***1038中的至少部分使用的一个或更多个类型的应用。一种或更多种类型的应用可以包括但不限于任何数量的基因组应用、认知计算和机器学习应用,包括训练或推断软件、机器学习框架软件(例如,PyTorch、TensorFlow、Caffe等)和/或结合一个或更多个实施例使用的其他机器学习应用。
在至少一个实施例中,配置管理器1034、资源管理器1036和资源协调器1012中的任一个可基于在任何技术上可行的方式中获取的任何量和类型的数据来实现任何数量和类型的自修改动作。自修改动作可使数据中心1000的数据中心操作者免于做出可能较差的配置决策和可能避免数据中心的未充分利用和/或较差执行部分。
根据本文描述的一个或更多个实施例,数据中心1000可包括工具、服务、软件或其他资源来训练一个或更多个机器学习模型或使用一个或更多个机器学习模型来预测或推断信息。例如,可以通过使用以上相对于数据中心1000描述的软件和/或计算资源根据神经网络架构来计算权重参数来训练(一个或更多个)机器学习模型。在至少一个实施例中,对应于一个或更多个神经网络的经训练或部署的机器学习模型可用于通过使用通过一种或多种训练技术(诸如但不限于本文中描述的那些训练技术)计算的权重参数,使用上文相对于数据中心1000描述的资源来推断或预测信息。
在至少一个实施例中,数据中心1000可使用CPU、专用集成电路(ASIC)、GPU、FPGA和/或其他硬件(或与其对应的虚拟计算资源)来使用上述资源执行训练和/或推断。此外,上文所描述的一或更多个软件和/或硬件资源可被配置为允许用户训练或执行对信息的推断的服务,例如图像识别、语音识别或其他人工智能服务。
示例网络环境
适合用于实现本公开的实施例的网络环境可以包括一个或更多个客户端设备、服务器、网络附加存储(NAS)、其他后端设备和/或其他设备类型。客户端设备、服务器和/或其他设备类型(例如,每个设备)可以在图9的(一个或更多个)计算设备900的一个或更多个实例上实现——例如,每个设备可以包括(一个或更多个)计算设备900的类似部件、特征和/或功能。此外,在实现后端设备(例如,服务器、NAS等)的情况下,后端设备可被包括作为数据中心1000的一部分,数据中心1000的示例在本文中关于图10更详细地描述。
网络环境的组件可经由网络彼此通信,所述网络可为有线的、无线的或为两者。网络可以包括多个网络或多个网络中的一个网络。例如,网络可包括一个或更多个广域网(WAN)、一个或更多个局域网(LAN)、一个或更多个公共网络(诸如互联网和/或公共交换电话网(PSTN))和/或一个或更多个私有网络。在网络包括无线电信网络的情况下,诸如基站、通信塔或者甚至接入点(以及其他组件)的组件可以提供无线连接。
兼容的网络环境可以包括一个或更多个对等网络环境(在这种情况下,服务器可以不被包括在网络环境中)和一个或更多个客户端-服务器网络环境(在这种情况下,一个或更多个服务器可以被包括在网络环境中)。在对等网络环境中,本文针对服务器所描述的功能可在任何数量的客户端设备上实现。
在至少一个实施例中,网络环境可包括一个或更多个基于云的网络环境、分布式计算环境、其组合等。基于云的网络环境可包括框架层、作业调度器、资源管理器和在一个或更多个服务器上实现的分布式文件***,所述服务器可包括一个或更多个核心网服务器和/或边缘服务器。框架层可包括支持软件层的软件和/或应用层的一个或更多个应用的框架。软件或应用可分别包含基于网络的服务软件或应用。在实施例中,一个或更多个客户端设备可以使用基于网络的服务软件或应用(例如,通过经由一个或更多个应用编程接口(API)访问服务软件和/或应用)。框架层可以是但不限于如可以使用分布式文件***进行大规模数据处理(例如,“大数据”)的一种免费和开源软件网络应用框架。
基于云的网络环境可提供执行本文描述的计算和/或数据存储功能(或其一个或更多个部分)的任何组合的云计算和/或云存储。这些不同功能中的任何功能可以分布在来自(例如,可以分布在州、地区、国家、全球等的一个或更多个数据中心的)中央或核心服务器的多个位置上。如果与用户(例如,客户端设备)的连接相对靠近边缘服务器,则核心服务器可以将功能的至少一部分指定给边缘服务器。基于云的网络环境可以是私有的(例如,限于单个组织),可以是公共的(例如,对许多组织可用),和/或其组合(例如,混合云环境)。
(一个或更多个)客户端设备可以包括本文关于图9所描述的(一个或更多个)示例计算设备900的组件、特征和功能中的至少一些。作为示例而非限制,客户端设备可被实现为个人计算机(PC),膝上型计算机、移动设备、智能电话、平板计算机、智能手表、可穿戴计算机、个人数字助理(PDA)、MP3播放器、虚拟现实耳机、全球定位***(GPS)或设备、视频播放器、摄像机、监视设备或***、车辆、船、飞船、虚拟机、无人机、机器人、手持式通信设备、医院设备、游戏设备或***、娱乐***、车辆计算机***、嵌入式***控制器、遥控器、电器、消费电子设备、工作站、边缘设备、这些描绘的设备的任何组合或任何其他合适的设备。
本公开可以在由计算机或者诸如个人数字助理或其他手持式设备之类的其他机器执行的、包括诸如程序模块之类的计算机可执行指令的机器可使用指令或者计算机代码的一般背景下进行描述。通常,包括例程、程序、对象、组件、数据结构等等的程序模块指的是执行特定任务或者实现特定抽象数据类型的代码。本公开可以在各种各样的***配置中实践,这些配置包括手持式设备、消费电子器件、通用计算机、更专业的计算设备等等。本公开也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实践。
如在本文中使用的,“和/或”关于两个或更多元件的叙述应当解释为仅指一个元件或者元件组合。例如,“元件A、元件B和/或元件C”可以包括仅仅元件A,仅仅元件B,仅仅元件C,元件A和元件B,元件A和元件C,元件B和元件C,或者元件A、B和C。此外,“元件A或元件B中的至少一个”可以包括元件A中的至少一个,元件B中的至少一个,或者元件A中的至少一个和元件B中的至少一个。进一步,“元件A和元件B中的至少一个”可以包括元件A中的至少一个,元件B中的至少一个,或者元件A中的至少一个和元件B中的至少一个。
这里详细地描述了本公开的主题以满足法定要求。然而,描述本身并非意在限制本公开的范围。相反地,本公开人已经设想到,要求保护的主题也可以以其他的方式具体化,以包括与本文中结合其他当前或未来技术描述的步骤不同的步骤或者相似的步骤的组合。而且,尽管术语“步骤”和/或“块”在本文中可以用来隐含采用的方法的不同元件,但是这些术语不应当被解释为暗示本文公开的各个步骤之中或之间的任何特定顺序,除非明确描述了各步骤的顺序。

Claims (28)

1.一种处理器,包括:
一个或更多个电路,用于:
使用深度神经网络DNN并至少部分地基于使用自我机器的一个或更多个第一传感器生成的第一传感器数据,计算表示一个或更多个第一特征描述符的第一特征图;
至少部分地基于所述一个或更多个第一特征描述符将第一特征描述符与第一对象相关联;
使用所述DNN并至少部分地基于使用所述自我机器的所述一个或更多个第一传感器或一个或更多个第二传感器中的至少一个生成的第二传感器数据,计算表示一个或更多个第二特征描述符的第二特征图;
至少部分地基于所述一个或更多个第二特征描述符将第二特征描述符与第二对象相关联;
至少部分地基于所述第一特征描述符和所述第二特征描述符确定所述第一对象和所述第二对象是同一对象;以及
至少部分地基于确定所述第一对象和所述第二对象是同一对象,由所述自我机器执行一个或更多个操作。
2.根据权利要求1所述的处理器,其中使用所述一个或更多个第一传感器在第一时间戳生成所述第一传感器数据,以及使用所述一个或更多个第一传感器在第二时间戳生成所述第二传感器数据。
3.根据权利要求1所述的处理器,其中在使用所述一个或更多个第二传感器生成所述第二传感器数据的同时,使用所述一个或更多个第一传感器生成所述第一传感器数据。
4.根据权利要求1所述的处理器,其中关联所述第一特征描述符与所述第一对象包括:
至少部分地基于所述第一传感器数据来计算边界形状;
确定至少部分地在所述边界形状内的所述一个或更多个第一特征描述符的子集;以及
使用所述子集生成所述第一特征描述符。
5.根据权利要求4所述的处理器,其中使用所述子集生成所述第一特征描述符包括:对与所述一个或更多个第一特征描述符的子集相对应的值进行平均。
6.根据权利要求4所述的处理器,其中使用所述DNN、另一DNN或对象检测算法中的一个来执行计算所述边界形状。
7.根据权利要求1所述的处理器,其中所述一个或更多个操作包括追踪所述同一对象。
8.根据权利要求1所述的处理器,其中所述一个或更多个第一特征描述符中的每个第一特征描述符和所述一个或更多个第二特征描述符中的每个第二特征描述符使用一维特征向量来表示。
9.根据权利要求1所述的处理器,其中使用三元组损失函数来训练所述DNN。
10.根据权利要求1所述的处理器,其中使用批量困难三元组挖掘或批量半困难三元组挖掘中的至少一个来进一步地训练所述DNN。
11.根据权利要求1所述的处理器,其中所述处理器被包括在以下至少一个中:
用于自主或半自主机器的控制***;
用于自主或半自主机器的感知***;
用于执行模拟操作的***;
用于执行深度学习操作的***;
使用边缘设备实现的***;
使用机器人实现的***;
合并一个或更多个虚拟机VM的***;
至少部分地在数据中心中实现的***;或
至少部分地使用云计算资源实现的***。
12.一种***,包括:
一个或更多个处理单元;以及
存储有指令的一个或更多个存储器单元,当由所述一个或更多个处理单元执行所述指令时,使所述一个或更多个处理单元执行以下操作,包括:
使用深度神经网络DNN并且至少部分地基于使用自我机器的一个或更多个第一传感器生成的第一传感器数据来计算一个或更多个第一特征向量;
使用所述一个或更多个第一特征向量将第一特征向量与第一对象相关联;
使用所述DNN并且至少部分地基于使用所述自我机器的所述一个或更多个第一传感器或一个或更多个第二传感器生成的第二传感器数据来计算一个或更多个第二特征向量;
至少部分地基于所述一个或更多个第二特征向量将第二特征向量与第二对象相关联;
至少部分地基于所述第一特征向量和所述第二特征向量将所述第一对象和所述第二对象定义为同一对象;以及
至少部分地基于将所述第一对象和所述第二对象定义为所述同一对象,由所述自我机器执行一个或更多个操作。
13.根据权利要求12所述的***,其中使用所述一个或更多个第一传感器在第一时间生成所述第一传感器数据,以及使用所述一个或更多个第一传感器在第二时间生成所述第二传感器数据。
14.根据权利要求12所述的***,其中使用所述一个或更多个第一传感器在一时间生成所述第一传感器数据,并且使用所述一个或更多个第二传感器在该时间生成所述第二传感器数据。
15.根据权利要求12所述的***,其中关联所述第一特征向量与所述第一对象包括:
至少部分地基于所述第一传感器数据来计算边界形状;
确定至少部分地在所述边界形状内的所述一个或更多个第一特征向量的子集;以及
使用所述子集生成所述第一特征向量。
16.根据权利要求15所述的***,其中使用所述子集生成所述第一特征向量包括:对与所述一个或更多个第一特征向量的子集相对应的值进行平均。
17.根据权利要求12所述的***,其中:
所述操作还包括计算所述第一特征向量和所述第二特征向量之间的距离;以及
至少部分地基于所述距离小于阈值距离而将所述第一对象和所述第二对象定义为同一对象。
18.根据权利要求17所述的***,其中使用余弦距离、L1距离、L2距离或K最近邻KNN距离中的至少一个来执行计算所述距离。
19.根据权利要求12所述的***,其中所述***被包括在以下至少一个中:
用于自主或半自主机器的控制***;
用于自主或半自主机器的感知***;
用于执行模拟操作的***;
用于执行深度学习操作的***;
使用边缘设备实现的***;
使用机器人实现的***;
合并一个或更多个虚拟机VM的***;
至少部分地在数据中心中实现的***;或
至少部分地使用云计算资源实现的***。
20.一种方法,包括:
使用训练数据,将第一帧的第一边界形状和第二帧的第二边界形状标记为与对象相对应;
使用深度神经网络DNN来确定与所述第一帧的所述第一边界形状内的第一点相对应的一个或更多个第一特征描述符及与所述第二帧的所述第二边界形状内的第二点相对应的一个或更多个第二特征描述符;
确定所述一个或更多个第一特征描述符中的与所述第一点中的锚点相对应的第一特征描述符;
使用损失函数将所述第一特征描述符与和所述第二点中的第二点相对应的第二特征描述符进行比较;以及
至少部分地基于所述比较来更新所述DNN的一个或更多个参数。
21.根据权利要求20所述的方法,其中使用所述损失函数计算的损失是基于与所述第一特征描述符相对应的第一值和与所述第二特征描述符相对应的第二值之间的差的大小。
22.根据权利要求20所述的方法,还包括:
使用所述训练数据将第三帧的第三边界形状标记为与另一对象相对应;
使用所述深度神经网络DNN来确定与所述第三帧的所述第三边界形状内的第三点相对应的一个或更多个第三特征描述符;以及
使用所述损失函数将所述第一特征描述符与和所述第三点中的一个第三点相对应的第三特征描述符进行比较,
其中更新所述DNN的所述一个或更多个参数还至少部分地基于将所述第一特征描述符与所述第三特征描述符进行比较。
23.根据权利要求22所述的方法,其中所述第三帧与所述第二帧相对应。
24.根据权利要求22所述的方法,其中使用所述损失函数计算的损失是基于与所述第一特征描述符相对应的第一值和与所述第二特征描述符相对应的第二值之间的差的大小。
25.根据权利要求20所述的方法,其中所述损失函数是三元组损失函数。
26.根据权利要求20所述的方法,其中使用在线三元组挖掘来选择所述训练数据。
27.根据权利要求26所述的方法,其中所述在线三元组挖掘包括批量困难在线三元组挖掘或批量半困难在线三元组挖掘中的至少一个。
28.一种处理器,包括:
一个或更多个电路,用于跨使用传感器数据生成的两个或更多个帧并且至少部分地基于确定与第一传感器帧中的对象相对应的第一特征向量在与第二传感器帧中的所述对象相对应的第二特征向量的阈值相似度内来追踪所述对象,其中使用深度神经网络DNN来计算所述第一特征向量和所述第二特征向量。
CN202211411781.4A 2021-12-15 2022-11-11 在自主***和应用程序中使用特征描述符绘图进行单个和跨传感器对象追踪 Pending CN116263688A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/551,986 2021-12-15
US17/551,986 US20230186640A1 (en) 2021-12-15 2021-12-15 Single and across sensor object tracking using feature descriptor mapping in autonomous systems and applications

Publications (1)

Publication Number Publication Date
CN116263688A true CN116263688A (zh) 2023-06-16

Family

ID=86498579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211411781.4A Pending CN116263688A (zh) 2021-12-15 2022-11-11 在自主***和应用程序中使用特征描述符绘图进行单个和跨传感器对象追踪

Country Status (4)

Country Link
US (1) US20230186640A1 (zh)
JP (1) JP2023088849A (zh)
CN (1) CN116263688A (zh)
DE (1) DE102022132671A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12001175B2 (en) * 2021-12-20 2024-06-04 Gm Cruise Holdings Llc Long tail lidar 3-D object detection improvement with targeted simulation data injection

Also Published As

Publication number Publication date
US20230186640A1 (en) 2023-06-15
DE102022132671A1 (de) 2023-06-15
JP2023088849A (ja) 2023-06-27

Similar Documents

Publication Publication Date Title
US11928822B2 (en) Intersection region detection and classification for autonomous machine applications
US11897471B2 (en) Intersection detection and classification in autonomous machine applications
CN113168505B (zh) 用于自主驾驶机器的基于回归的线检测
US11688181B2 (en) Sensor fusion for autonomous machine applications using machine learning
US11508049B2 (en) Deep neural network processing for sensor blindness detection in autonomous machine applications
US12013244B2 (en) Intersection pose detection in autonomous machine applications
US11651215B2 (en) Landmark detection using curve fitting for autonomous driving applications
CN114155272A (zh) 自主机器应用中的自适应目标跟踪算法
CN116767245A (zh) 使用自主***和应用的神经网络的地图信息对象数据管理
CN116263688A (zh) 在自主***和应用程序中使用特征描述符绘图进行单个和跨传感器对象追踪
CN117581117A (zh) 自主机器***和应用中使用LiDAR数据的动态对象检测
CN116795091A (zh) 自主***和应用程序的环境重建和路径规划
US12026955B2 (en) Assigning obstacles to lanes using neural networks for autonomous machine applications
CN112989914B (zh) 具有自适应加权输入的注视确定机器学习***
US20230099494A1 (en) Assigning obstacles to lanes using neural networks for autonomous machine applications
US20240022601A1 (en) Detecting identity spoofing attacks in multi-sensor systems and applications
US20240071064A1 (en) Object detection using deep learning for real-time streaming applications
US20230360255A1 (en) Joint 2d and 3d object tracking for autonomous systems and applications
CN117011329A (zh) 用于自主***和应用的对象追踪和碰撞时间估计
CN118154639A (zh) 用于自主***及应用的对象跟踪管理
CN117034024A (zh) 使用神经网络用于自主***和应用的区域的地理空间集群
CN116500619A (zh) 用于汽车雷达感知的雷达信号采样
CN117516565A (zh) 用于在自主***和应用中导航的车道偏置
CN116229390A (zh) 使用基于相机的输入用于自主***和应用的基于深度学习的操作域验证
CN116106905A (zh) 基于雷达的变道安全***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination