CN111108507B - 根据二维图像和点云数据生成三维边界框 - Google Patents

根据二维图像和点云数据生成三维边界框 Download PDF

Info

Publication number
CN111108507B
CN111108507B CN201880061600.5A CN201880061600A CN111108507B CN 111108507 B CN111108507 B CN 111108507B CN 201880061600 A CN201880061600 A CN 201880061600A CN 111108507 B CN111108507 B CN 111108507B
Authority
CN
China
Prior art keywords
point
bounding box
image
point cloud
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880061600.5A
Other languages
English (en)
Other versions
CN111108507A (zh
Inventor
徐丹菲
D·D·安格洛夫
A·简恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zoox Inc
Original Assignee
Zoox Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zoox Inc filed Critical Zoox Inc
Priority to CN202311797062.5A priority Critical patent/CN117636331A/zh
Publication of CN111108507A publication Critical patent/CN111108507A/zh
Application granted granted Critical
Publication of CN111108507B publication Critical patent/CN111108507B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/02Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00
    • G01S7/41Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section
    • G01S7/417Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section involving the use of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/86Combinations of radar systems with non-radar systems, e.g. sonar, direction finder
    • G01S13/867Combination of radar systems with cameras
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/88Radar or analogous systems specially adapted for specific applications
    • G01S13/93Radar or analogous systems specially adapted for specific applications for anti-collision purposes
    • G01S13/931Radar or analogous systems specially adapted for specific applications for anti-collision purposes of land vehicles
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/86Combinations of lidar systems with systems other than lidar, radar or sonar, e.g. with direction finders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/89Lidar systems specially adapted for specific applications for mapping or imaging
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/93Lidar systems specially adapted for specific applications for anti-collision purposes
    • G01S17/931Lidar systems specially adapted for specific applications for anti-collision purposes of land vehicles
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/88Radar or analogous systems specially adapted for specific applications
    • G01S13/93Radar or analogous systems specially adapted for specific applications for anti-collision purposes
    • G01S13/931Radar or analogous systems specially adapted for specific applications for anti-collision purposes of land vehicles
    • G01S2013/9323Alternative operation using light waves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/04Indexing scheme for image data processing or generation, in general involving 3D image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20164Salient point detection; Corner detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30236Traffic on road, railway or crossing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/22Cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Electromagnetism (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

根据二维图像和点云确定三维边界框。可以传递与图像相关联的特征向量和与点云相关联的特征向量通过神经网络,以确定三维边界框的参数。还可以确定和考虑与点云中的每个点相关联的特征向量,以在逐点基础上生成三维边界框的估计。

Description

根据二维图像和点云数据生成三维边界框
要求优先权
本PCT国际申请要求于2017年10月30日递交的美国专利申请号15/797,573、以及于2017年9月22日递交的美国临时申请号62/562,193的优先权的权益,该两个专利申请的全部内容通过引用并入本文中。
技术领域
本发明涉及三维技术领域,具体涉及一种用于估计三维边界框的***及计算机实现的方法。
背景技术
多种应用需要环境中存在的三维对象的信息。例如,各种自主***(例如,无人驾驶车辆和无人机)利用对象的三维数据来避免碰撞和避障。为了有效地在三维环境中导航,这样的自主***需要有关障碍物的信息,例如包括有关障碍物的大小和定位的信息。此外,这些***可能需要估计此类对象与环境的交互方式。三维对象的一种这样的表示形式就是三维边界框。三维边界框可以是由八个角定义的三维对象的简单表示,并且三维对象具有位置、方位、长度、宽度和高度。
发明内容
根据本发明的一方面,提供了一种用于估计三维边界框的***,所述***包括非暂时性计算机可读介质,所述介质包括指令,当所述指令由一个或多个处理器执行时,所述指令将使所述***执行以下操作:接收从图像捕获设备捕获的图像;检测所述图像中的对象;剪裁所述图像,以形成包括所述对象的剪裁图像;从不同于所述图像捕获设备的三维传感器接收与所述对象相关联的点云数据;使用第一处理算法和与所述对象相关联的所述点云数据,确定与所述点云数据相关联的第一特征向量,其中所述第一特征向量是几何特征向量;使用第二处理算法和包括所述对象的所述剪裁的图像,确定与所述剪裁图像相关联的第二特征向量,其中所述第二特征向量是外观特征向量;将所述第一特征向量和所述第二特征向量传递到神经网络中;以及从所述神经网络接收描述表示所述对象的三维边界框的坐标。
根据本发明的另一方面,提供了一种用于估计环境中的对象的三维边界框的计算机实现的方法,所述计算机实现的方法包括:从图像捕获设备接收所述环境的图像;从不同于所述图像捕获设备的三维传感器接收与所述环境相关联的点云数据,所述点云数据包括多个点;检测所述图像中的对象;剪裁所述图像,以形成包括所述对象的图像的剪裁图像;将所述剪裁图像输入到第一神经网络;将所述点云输入到第二神经网络;从所述第一神经网络中提取与所述剪裁图像相关联的外观特征向量;从所述第二神经网络中提取与所述点云数据相关联的全局几何特征向量;从所述第二神经网络中提取多个逐点几何特征向量,单个的逐点几何特征向量与多个点中的单点相关联;将所述外观特征向量、所述全局几何特征向量和所述多个逐点几何特征向量输入到第三神经网络中;以及从所述第三神经网络接收与所述对象的三维边界框相关联的信息。
附图说明
图1示出了环境、与该环境相关联的图像数据和点云数据、以及该环境中围绕对象的三维边界框的示例;
图2是示例性过程的图形表示,二维图像和点云按照该过程通过神经网络,以确定三维边界框的参数;
图3是另一示例性过程的图形表示,二维图像和点云按照该过程通过神经网络,以确定三维边界框的参数;
图4描绘了表示用于根据二维图像和点云数据确定三维边界框的一个或多个过程的流程图;
图5描绘了表示用于根据二维图像和点云数据确定三维边界框的一个或多个附加过程的流程图;以及
图6描绘了可用于根据二维图像和点云数据确定三维边界框的示例性计算机化***。
具体实施方式
以下详细描述针对用于估计表示环境中的对象的三维边界框的技术。存在各种需要环境中存在的对象的空间信息的应用。举个简单的例子,许多自主***(例如,半自主和全自主驾驶汽车、自主无人机等)需要对象在其环境中的位置、方位和维度,以便执行跟踪、导航、避免碰撞等。
自主驾驶车辆***可包括用于检测、跟踪和识别对象和/或对象属性的不同类型传感器的阵列。例如,传感器(例如,LIDAR和RADAR)、超声换能器、深度相机等可以提供关于环境中的对象的三维信息,而传感器(例如,常规相机)可以提供有关环境的二维信息。例如,LIDAR***可以具有光发射器和光传感器,其中,光发射器包括一个或多个激光器,这些激光器将高度聚焦的光导向对象或表面,该对象或表面将光反射回到光传感器。LIDAR***的测量可以表示为三维LIDAR数据,其具有对应于由LIDAR***捕获的位置或距离的坐标(例如,笛卡尔坐标、极坐标等)。例如,LIDAR数据可以包括点云数据,该点云数据包括环境中的多个点。在某些实例中,LIDAR传感器可以在很短的时间内生成大量的距离测量值(例如,每0.1秒1000-100000个距离测量值)。类似地,已知RADAR***会生成有关环境中3D对象或特征的点云数据。相反,图像捕获设备可以提供关于环境的2D图像数据,例如RGB图像数据、灰度图像数据或其他。
在本公开的实施方式中,例如来自LIDAR***或RADAR***的点云数据、和2D图像数据可用于在自主驾驶车辆的环境中创建对象的三维表示。三维表示的一个示例是三维边界框。三维边界框可以是包围对象的最小体积的长方体。三维边界框提供有关其所包括的对象的空间定位、方位以及大小的信息。例如,自主***可以将该信息用于跟踪、导航和避免碰撞。
根据本公开的实施例,将机器学习算法应用于图像数据和点云数据,以估计与环境中的一个或多个对象相关联的三维边界框的参数。例如,可以将与图像数据相关联的第一特征向量(例如,与对应于感兴趣的对象的剪裁图像相关联)、以及与点云数据相关联的第二特征向量输入到机器学习算法。机器学习算法可以输出三维边界框的参数。参数可以包括坐标系中的八个点,这八个点代表三维边界框的八个角。用于恢复参数的示例性机器学习算法是人工神经网络(ANN),它可以是卷积神经网络(CNN)。
在一些实施方式中,可以从残差网络中提取与图像数据相关联的特征向量,和/或可以从被配置为处理点云数据的深度神经网络中提取与点云数据相关联的特征向量。例如,在通过另一机器学习算法之前,可以将与图像数据相关联的特征向量和与点云数据相关联的特征向量连结在一起(concatenated)。
同样在本公开的实施方式中,可以考虑逐点数据来确定三维边界框。例如,在例如使用最大池化、平均池化等组合关于各个点的信息之前,用于处理点云数据的已知深度学习网络可以单独考虑每个点。然而,在实施方式中,为点云中的每个点确定特征向量,并且这些特征向量可以连同与图像数据相关联的特征向量和与(全局)点云相关联的特征向量一起输入到机器学习算法。以这种方式,该算法可以针对点云中的每个点,确定估计边界框的属性的多个参数。例如,对于点云中的每个点,本公开的实施方式可以确定三维边界框的每个角相对于该点的偏移量。确定相对于每个点的偏移量可以提供改进的简单性、功能性和/或可靠性。除了计算这些偏移量之外,机器学习算法还可以确定与每个点的偏移量关联的置信度值。在一些示例中,可以选择与最高置信度值相关联的点及其对应的偏移量以定义三维边界框。
在一些实施方式中,可以训练机器学习算法,以确定置信度值。在一些实施方式中,可以使用指示点在三维边界框中还是在三维边界框外的数据,以受监督的方式训练ANN。在其他实施方式中,可以使用三维边界框的回归损失函数,以无监督的方式训练ANN。
使用三维边界框的可以是***(例如,自主无人机、全自主或半自主驾驶车辆***)、或另一些用于跟踪对象、辅助导航、和/或用于避免碰撞的***。三维边界框的其他用途对于受益于本公开的本领域普通技术人员来说也是显而易见的。下面参考图1-6提供更多细节。
转向图1,环境100可以包括各种对象。为了示例性目的,环境100中的一个这样的对象是车辆102。环境100与坐标系104相关联。坐标系104可以是全局坐标系或局部坐标系。在全局坐标系中,在坐标系104中表示的任何点都是绝对坐标。可替代地,在局部坐标系中,点是相对于任意定义的原点(例如,当无人驾驶车辆在环境中行驶时,车辆的中心)来表示,其可以在全局坐标系中移动。
与环境100相关联的三维数据可以由三维传感器(例如,LIDAR***(未示出))生成。如上所述,LIDAR***可以输出LIDAR数据(例如,一个或多个点云),其包括代表环境中对象的外表面的一组数据点。例如,由附图标记106表示的LIDAR数据包括点云108,该点云108包括与车辆102相关联的多个点。尽管将该点云108描述为由LIDAR传感器生成,但是该点云可以包括来自LIDAR传感器、RADAR传感器和/或其他三维传感器中的一个或多个的点。例如,点云108可以包括从一个或多个LIDAR传感器、一个或多个RADAR传感器、和/或一个或多个其他三维传感器组合或融合的数据,以提供关于环境100的信息,例如但不限于深度相机、超声换能器、相控阵雷达等。点云中的每个点可以由图像坐标系表示,例如由三维坐标表示,例如(x,y,z)。
同样如图1所示,除了点云信息之外,环境100的图像110可以由至少一个图像捕获设备(未示出)捕获。图像110包括图像数据。出于示例性目的,图像捕获设备可以是相机。然而,可以设想其他图像捕获设备,例如,红、绿、蓝、深度(RGBD)相机、立体相机等。在示例性实施例中,图像110中的每个像素由图像坐标系表示为二维坐标,例如(u,v)。在捕获图像110时,车辆102表示为图像110中的车辆图像112。一旦从图像捕获设备接收到图像数据,则可将各种算法(例如,单帧检测器多框(Single Shot Detector Multibox)、Fast-CNN、Faster-R CNN、overfeat、基于区域的全连接网络等)应用于识别图像中的对象,并在某些实施方式中标识二维边界框。可以选择这些算法以仅识别某些对象类别。例如,该算法可以仅检测汽车、行人、动物或其任何组合,尽管可以设想到检测任何数量的对象类别。如图1所示,这种算法已经检测到对象(在这里是车辆),并且已经识别了相应的二维边界框114。二维边界框114是矩形的,并且其维度和位置被确定为完全包围图像110内的车辆图像112。在替代实施例中,图像110由至少一个立体相机、RGBD相机和/或深度相机捕获。使用多个相机可以允许通过使用多视图几何来恢复深度信息。在该实施例中,使用来自立体或RGBD相机的深度信息来辅助检测图像110中的对象,以对图像110进行分割,并创建二维边界框114。
在本公开的实施方式中,点云108和图像110(并且更具体地说,边界框114中的车辆图像112)可用于创建三维边界框116。三维边界框116的尺寸、位置和方位可以被设定为完全包围车辆102,使得三维边界框116具有最小的体积。可以相对于坐标系104、相对于点云中的一个或多个点、和/或相对于某些其他坐标系,来限定三维边界框130的属性。例如,在本公开的实施方式中,三维边界框可以被定义为具有x,y和z坐标的三维空间中的八个点,八个点对应于三维边界框的八个角。下面更详细地描述用于估计三维边界框116的参数的方法和技术。
图2示出了用于使用图像数据和点云数据来确定三维边界框的参数的过程200的图像表示。在该实施方式中,描述环境的三维数据202包括点云204。如图1的示例所示,点云204包括与环境中的三维对象相关联的多个点,并且为了便于说明,点云204被示为仅包括与单个车辆的外表面相关联的若干个点。然而,在其他实施方式中,点云204可以包括与环境中靠近车辆的其他特征的外表面相对应的点。同样在该示例中,提供了环境的图像206。图像206由描述环境的二维数据组成。可以处理该图像数据,以定义二维边界框208,以从图像206中分割出车辆的车辆图像210。
图2还示意性地示出了第一处理算法212,第一处理算法212被配置为接收点云204。在本公开的一些实施方式中,第一处理算法212可包括人工神经网络(例如,卷积神经网络),其被配置为接收点云并分析点。例如,第一处理算法212可以是点网(PointNet)网络。PointNet是一种深度网络架构,其可接收原始点云数据并学习全局点特征和局部点特征。PointNet传统上已用于分类、部件分割和语义分割目的。然而,出于本公开的目的,第一处理算法212可以被配置为产生与点云相关联的特征向量。例如,当将PointNet用作第一处理算法212时,可以在预测层之前的几个层中的一层上生成特征向量。过程200可以提取这些特征向量中的一个或多个,如在214所示。特征向量214可以是纯粹的几何特征向量,其仅与点云206中的点的定位相关。
在过程200中还提供了第二处理算法216。第二处理算法216被可配置为接收车辆图像210,并产生与车辆图像210相关联的一个或多个外观特征向量218。在本公开的一些实施方式中,第二处理算法216可以体现为残差学***均。特征向量218可以是纯粹的外观向量,即没有任何几何信息。
因此,第一处理算法212和第二处理算法218被配置为分别产生特征向量214、218。特征向量214、218可以对应于从一层或多层神经网络提取的神经网络处理特征,一层或多层神经网络包括第一处理算法和第二处理算法。在所示的实施例中,特征向量214是与点云206相关联的几何特征向量,并且特征向量218是与车辆图像210相关联的外观特征向量。如附图标记220所示,特征向量214、218可被组合并输入到另一个人工神经网络(ANN)222中。例如,特征向量214、218可以连结在一起。ANN 222可以是具有完全连接的层的多层神经网络,该完全连接的层被配置为使点云206和图像212的八个边界框角的三维坐标回归。因此,在本公开的示例性实施例中,边界框参数224可以包括一组八个坐标,八个坐标中的每个坐标对应于长方体的角,该长方体是与图像对象(即,在该示例中为车辆)相对应的三维边界框。图2示出了由八个角228限定的示例性三维边界框226。在另一个示例中,ANN 222可以预测该边界框的中心定位、方位和三维范围。以这种方式,ANN 222可以约束输出,以保持矩形的体积形状。
如刚才描述的,图2所示的过程提供了一种全局架构,该架构直接使描述边界框的坐标回归。图3是过程300的图形表示,过程300类似于过程200,也使用与对象相关联的点云302和剪裁图像304,来确定三维边界框的参数。然而,与过程200不同,过程300是具有增大密度的架构,该架构预测点云302中每个点的边界框坐标,而不是点云和图像对的单组参数。
与过程200相似,过程300提供配置为接收点云302的第一处理算法306和配置为接收剪裁图像304的第二处理算法308。在本公开的示例性实施方式中,第一处理算法306可以是PointNet神经网络,其被配置为接收一组无序的三维点作为输入。如以上关于图2所讨论的,PointNet神经网络可被配置为产生针对整个点云的一个输出,或针对每个输入点的一个输出。因为PointNet神经网络全局地和单独地考虑了这些点,所以可以从PointNet神经网络中提取与整个点云304相关联的第一特征向量310(如图2所示的实施例类似)以及逐点特征向量312(即,针对点云304中每个点的特征向量312)。
与过程200一样,图像处理算法308可以是残差神经网络(例如,ResNet101),从中可以得出外观特征向量314。例如,也如上所讨论的,在本公开的一些实施方式中,外观特征向量314可以从网络的最终残差中提取,并在特征图定位上求平均。
如在316处所示,逐点特征向量312、全局点云特征向量310、和外观特征向量314被组合(例如,被连结在一起)并输入到ANN 318。在一些实施方式中,与每个点相关联的特征向量可以单独地与全局点云特征向量310组合(例如,连结在一起),使得全局点云特征向量310被连结到每个点的特征向量。与上面讨论的ANN 222不同,ANN 318对每个输入点进行预测。更具体地,ANN 318可以针对点云中的每个点,预测边界框的八个角中的每个角相对于该点的空间偏移量,并确定所预测的偏移量的置信度分数322。在324处示出了边界框的八个角中的每个角的空间偏移量的概念。具体而言,如图所示,针对点云中的给定点326计算了八个偏移量320。每个偏移量对应于估计的三维边界框330的不同角328a、328b、…、328h。
如从前述理解的,将为点云302中的每个点估计相同的边界框330(即,针对相同对象)。并且,置信度值322与每个点相关联。在本公开的实施方式中,可以选择点云302中的一个点及其相关联的偏移值320作为最能代表对象的三维边界框。在一示例中,与最高置信度分数322相关联的点和对应的偏移量320被确定为三维边界框。在其他实施方式中,与一些预定数量的点相关联的平均值可以用于确定三维边界框。例如,可以对与具有最高置信度值的一些预定数量的点相关联的偏移量进行平均。
过程300估计相对于每个点的偏移量,因为相对于预测绝对目标,通常更容易预测相对目标。例如,在估计城市环境中的边界框的情况下,边界框的位置相对于安装在车辆上的LIDAR传感器可能在2m至100m之间变化。先前定义三维边界框的尝试已试图迫使网络学习预测较宽的取值范围。然而,替代地,过程300训练网络去预测相对于输入点的角定位,从而限制了目标的分布。
在本公开的实施方式中,可以使用记分函数公式来确定置信度值322。在一个实施方式中,记分函数公式可以是受监督公式,其中训练网络以针对每个点预测该点是否在具有二进制分类目标的预测边界框内,并且分数是预测概率。在另一实施方式中,记分函数公式可以是无监督公式,其包括预测置信度分数,并将回归损失与置信度相乘。在一些实施方式中,可以通过预测低置信度而不是最小化回归损失,来优化该损失。还可以添加置信度损失,以惩罚低置信度。在一些实施例中,置信度损失可以是具有恒定权重因子的对数概率,其例如由以下方程表示:
L=Lreg*con f-log(con f)*w.
在该损失方程中,w表示可以通过经验实验确定的可选权重因子。这样的加权可以平衡网络压力,以具有如对数函数所提供的高置信度,并且可以利用压力输出低回归损失。无监督公式可以允许ANN 318确定哪个点更可能产生正确的边界预测。
如上所述,在功能316处通过ANN 318之前,组合(例如,连结)图像和点云特征。融合可以是全局点云特征向量310、逐点特征向量312和外观特征向量314的连结。在本公开的一些实施方式中,还可以执行局部融合。例如,来自PointNet的逐点特征向量可以与从图像处理算法308的中间层提取的局部外观信息相关联。具体地说,在点云302中的点与图像304的属性(例如,像素)之间没有明确的对应性。在本公开的实施方式中,可以使用已知的相机模型,将点云302中的每个点投影到图像平面上。可以从图像处理算法308的中间层提取围绕该点的特征补丁,并使用双线性插值将其调整大小为固定大小的特征向量。然后,可以将特征补丁与其他特征向量连结起来,以输入到ANN 318。
在图2和3的过程中,可以在这些层(包括图像处理算法216、308和/或点云处理算法212、306的层)的每一层上排除批量归一化(batch normalization)。批量归一化在现代神经架构设计中已成为必不可少,因为其可以有效减少输入数据/特征的协方差偏移。但是,已经发现在某些情况下,批归一化可能会阻碍网络的性能。例如,批量归一化假设到某个层的输入特征图带有一些偏差地正态分布,并且希望减少协方差偏移。然而,当在给定点云的情况下估计边界框时,如在本公开的实施方式中,输入点云的分布显然不是高斯分布。点定位的数值直接用于预测边界框定位。例如通过使用批量归一化来归一化分布,将丢弃此类信息,从而妨碍性能。
根据本公开的实施例,PointNet架构可以用作用于处理点云数据的处理算法,因为它不需要特殊的预处理(例如,体素化或投影),和/或因为它具有针对稀疏点云的鲁棒性。然而,在本公开的实施例中,最好有一些数据预处理。例如,输入点云和边界框目标都可以旋转为沿Z轴居中。在一个实施方式中,可以确定感兴趣区域的中心,例如由图像捕获设备捕获的图像的帧中心。然后,可以将感兴趣区域的中心不投影到相机帧中作为射线,并且可以找到将该射线旋转到相机帧的z轴的刚性旋转。然后,可以将该旋转应用于输入点云和边界框目标。仅考虑点云中位于图像中的那些点(即,从考虑部分丢弃其余部分),并使其到某个坐标系的中心。类似地,可以剪裁图像数据,使得仅保留位于图像数据的二维边界框中的像素(即,丢弃其余部分),并且将图像重新居中,以使剪裁后的图像在另一图像坐标系中居中。因此,为供考虑,输入数据可以通过ANN 318进行归一化。
图4和5是示出确定指示三维边界框的参数的示例性方法400、500的流程图。图4和5中所示的方法400、500示出为逻辑流程图中的框的集合,其表示可以以硬件、软件或其组合来实现的一系列操作。在软件的情境中,框表示存储在一个或多个计算机可读存储介质上的计算机可执行指令,当指令由一个或多个处理器(例如,由控制器的一个或多个处理器或其他组件)执行时,这些指令可使一个或多个处理器执行所述操作。通常,计算机可执行指令包括执行特定功能或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。描述这些操作的顺序不是旨在被理解为限制性的,并且可以以任何顺序和/或并行地组合任意数量的所描述的框以实现这些过程。
应当理解,本文提出的主题可以实现为计算机过程、计算机控制的装置、计算***、或工业产品(例如,计算机可读存储介质)。尽管关于方法400、500描述的主题是在一般操作情境中呈现,其可以在一个或多个计算设备上执行和/或与一个或多个计算设备一起执行,但是本领域技术人员将认识到,可以与各种程序/控制器模块组合执行其他实施方式。通常,这样的模块包括例程、程序、组件、数据结构以及执行特定任务或实现特定抽象数据类型的其他类型的结构。
本领域的技术人员还应当理解,关于方法400、500所描述的主题的各方面可以在除本文所述之外的其他计算机***配置上来实践或结合其他计算机***配置来实践,其他计算机***配置包括多处理器***、基于微处理器的或可编程的消费电子产品、小型计算机、大型计算机、手持式计算机、移动电话设备、平板计算设备、专用硬件设备、网络家电等。
如图4所示,确定三维边界框的示例性方法400可以包括在402处接收图像数据,以及在404处接收点云数据。如上文所详述,图像数据可包括来自常规图像捕获设备(例如,RGB相机)的输出,并且点云数据可包括来自三维传感器的输出,三维传感器例如有激光雷达、雷达传感器、深度相机(例如,结构化的光或飞行时间)等。在本公开的实施方式中,图像数据提供环境的二维描述,并且点云数据提供该环境的三维描述。因为在402处接收到的图像数据和在404处接收到的点云数据是同一环境的描述,所以可以将这两种类型的数据例如关联起来,以解释相机和用于获取数据的传感器的偏移量。该偏移量可以通过相对姿态变换来定义。
示例性方法400还包括在406处确定环境中的感兴趣区域。例如,由点云数据中的图像数据描述的环境可以包括多个对象。例如,环境可以是城市环境,其可以包括汽车、行人、自行车骑者、建筑物、道路标志和/或类似物,并且在406处,可以识别与该环境中的一个对象相对应的感兴趣区域。如上所述,已知识别环境中的对象的***,并且这样的***可以用于确定感兴趣区域。在一些示例实施方式中,在406处可以使用二维边界框来定义感兴趣区域。对于包括多个感兴趣区域的那些图像,可以将以下过程依次或并行地应用于所有这种感兴趣区域。
在408处,示例性方法400还包括将图像剪裁到感兴趣区域。以这种方式剪裁图像可以提供剪裁后的图像。例如,剪裁后的图像可以包括环境中感兴趣的对象的图像。
示例性方法400还包括在410处归一化点云数据和剪裁图像。例如,点云和边界框目标都可被剪裁(或以其他方式更改为仅在图像中的二维边界框内保留数据并且在点云中保留相关点(例如,通过使用两个传感器之间的已知变换的重新投影),并使其旋转以沿传感器的轴线(例如,Z轴)居中。
在412处,获得针对点云的特征向量(例如,几何特征向量),并且在414处,获得针对剪裁图像的特征向量(例如,外观特征向量)。如上所述,可以使点云数据通过处理算法(例如,PointNet),并且可以从PointNet神经网络的层中提取几何特征向量。在该示例性实施例中,几何特征向量可以是与整个点云相对应的全局特征向量。类似地,可以将剪裁图像通过图像处理算法(例如,ResNet101),并且可以从残差网络(例如,最终残差块)的层中提取外观特征向量。
在416处,在示例性方法400中,通过功能处理几何特征向量和外观特征向量,并且在418,将处理后的特征向量通过机器学习算法。例如,416可以包括在外观特征向量中的几何特征向量的连结。机器学习算法可以包括人工神经网络,例如,卷积神经网络和/或多个完全连接的层。
示例性方法400还包括在420处,输出描述与感兴趣对象相关联的三维边界框的参数。如上所述,三维边界框可以是完全包围感兴趣对象的长方体。在该示例性方法400中,机器学习算法针对点云和剪裁图像,直接回归三维边界框的八个角的三维坐标。
图5示出了估计三维边界框的另一示例性方法500。在一些实施方式中,方法500可以对应于图3所示的过程300。根据方法500,在502,接收对象的剪裁图像,并且在504,接收与对象相关联的点云数据。如上所述,剪裁图像可以是特征识别和/或创建围绕对象的二维边界框的结果。可以从三维传感器(例如,从一个或多个LIDAR、雷达、和/或其他传感器***)接收点云数据,该传感器被配置为将关于对象的三维信息输出(例如,作为点云)。
与上述方法400相似,方法500还包括在506获取针对点云的特征向量(例如,几何特征向量),并在510获得针对剪裁图像的外观特征向量。然而,与方法400不同,方法500还包括在508处获得逐点特征向量。如以上结合图3所描述的,已知用于处理无序点云数据的神经网络,其基于每一点和基于全局考虑该数据。该神经网络的一个例子是PointNet神经网络。在一些示例中,可以在不同层从相同网络提取这样的逐点特征向量和全局特征向量。
方法500还可以包括:在512处将剪裁图像的一部分与每个点相关联。在本文描述的架构中,将图像数据和几何数据一起考虑,以确定环境中对象的三维边界框。但是,该架构可能不包括点云与模型中图像之间的明确对应关系,尽管存在该信息可能易于访问的事实。因此,在512处,点云中的每个点可被投影到图像平面上。一旦投影,就可以在图像处理算法的中间层围绕该点提取特征补丁,然后,可以使用双线性插值,对补丁进行大小调整,得到固定大小的特征向量。该特征可以与在506处获得的全局点云特征、在508处获得的逐点特征向量、以及在510处获得的外观特征向量连结在一起(concatenated)。在其他实施方式中,在利用针对整个点云的全局几何特征向量和针对剪裁图像的外观特征向量进行处理之前,特征补丁可以与在508处获得的逐点特征向量连结。
在514,使特征向量通过机器学习算法,该机器学习算法可以是人工神经网络,例如卷积神经网络。因为包括了逐点特征向量,所以在516处,对于每个点,卷积神经网络将输出与三维边界框的角相关联的位移或偏移的预测,并且在518处输出置信度分数。因此,在该示例性实施方式中,对于点云中的每个点,卷积神经网络将为每个点生成八个偏移参数,八个偏移参数中的每一个对应于三维边界框的不同角。置信度分数可以是0到1之间的数字,并且如以上结合图3所描述的,可以以受监督方式或无监督方式训练神经网络,以确定置信度分数。
方法500还包括在520基于置信度分数输出三维边界框。在本公开的实施方式中,三维边界框可以对应于与具有最高置信度分数的点云中的点相关联的偏移参数。在其他实施方式中,三维边界框可以对应于与点云中的一个以上点相关联的偏移参数的平均值。作为非限制性示例,可以对与一些预定数量的点(例如,具有最高置信度分数的点)相关联的偏移参数求平均,以确定偏移参数。
图6示出了其上可以全部或部分实现本发明的计算机化***600。计算机化***600描绘了一个或多个计算机***602,其包括存储装置604、一个或多个处理器606、存储器608和操作***610。存储装置604、一个或多个处理器606、存储器608和操作***610可以通过通信基础设施612通信耦合。可选地,一个或多个计算机***602可以经由I/O设备614与用户或环境进行交互,以及经由通信基础设施612、在网络616上与一个或多个其他计算设备进行交互。操作***610可以与其他组件进行交互,以控制一个或多个应用程序618。
在某些实例中,一个或多个计算机***602可以实现任何硬件和/或软件,以执行对本文所讨论的三维边界框的估计。
可以以软件或硬件或其任何组合来实现本文描述的***和方法。可以使用可在物理上或逻辑上彼此分离或可以不彼此分离的一个或多个计算设备来实现本文描述的***和方法。可以由被布置为本地硬件、本地虚拟***、或私有管控实例的组件执行这些方法。另外,本文描述的方法的各个方面可以被组合或合并到其他功能中。
图6示出了用于实现本文所述的***和方法的示例性环境和计算机化***。处理器或计算机***可以被配置为特别地执行本文描述的一些或全部方法。在一些实施例中,这些方法可以由一个或多个计算机或处理器部分或完全自主化。可以使用硬件、固件和/或软件中的任何一种的组合来实现本文描述的***和方法。可以使用硬件、软件、固件或其组合来实现本文描述的本***和方法(或其任意一部分或多部分,或其一个或多个功能),并且可以在一个或多个计算机***或其他处理***中实现。在一些实施例中,示出的***元件可以被组合到单个硬件设备中,或被分离成多个硬件设备。如果使用了多个硬件设备,则这些硬件设备可能在物理上定位成彼此靠近或彼此远离。所描述和示出的方法的实施例旨在是说明性的而非限制性的。例如,在不同的实施例中,可以组合、重新布置和/或省略这些方法的一些或全部步骤。
在一个示例性实施例中,本文描述的***和方法可以针对能够执行本文描述的功能的一个或多个计算机***。示例性计算设备可以是但不限于运行任何操作***(例如,但不限于OS XTM,iOSTM,LinuxTM,AndroidTM和MicrosoftTM WindowsTM)的个人计算机(PC)***。然而,本文描述的***和方法可能不限于这些平台。相反,可以在运行任何适当的操作***的任何适当的计算机***上实现本文描述的***和方法。本文描述的***和方法的其他组件也可以使用计算设备来实现,其他组件例如但不限于计算设备、通信设备、移动电话、智能手机、电话设备、电话、个人数字助理(PDA)、个人计算机(PC)、手持式PC、交互式电视(iTV)、数字录像机(DVD)、客户端工作站、瘦客户端、胖客户端、代理服务器、网络通信服务器、远程访问设备、客户端计算机、服务器计算机、路由器、网络服务器、数据服务器、媒体服务器、音频服务器、视频服务器、电话或流技术服务器等。使用例如但不限于交互式电视(iTV)、视频点播***(VOD),并经由数字视频记录器(DVR)、或其他点播观看***,可以根据点播提供服务。
该***可以包括一个或多个处理器。一个或多个处理器可以连接到通信基础设施,通信基础设施例如但不限于通信总线、交叉条、或网络等。处理和处理器不必位于相同的物理定位。换句话说,可以通过例如LAN或WAN连接,在一个或多个地理上相距较远的处理器处执行处理。计算设备可以包括显示接口,该显示接口可以转发来自通信基础设施的图形、文本和其他数据,以显示显示单元上。
该计算机***还可以包括但不限于主存储器、随机存取存储器(RAM)和辅助存储器等。辅助存储器可以包括例如硬盘驱动器和/或可移动存储驱动器,例如光盘驱动器CD-ROM等。可移动存储驱动器可以从可移动存储单元读取和/或写入可移动存储单元。可以理解,可移动存储单元可以包括将计算机软件和/或数据存储其中的计算机可用存储介质。在一些实施例中,机器可访问介质可以指用于存储可由计算机访问的数据的任何存储设备。机器可访问介质的示例可以包括例如但不限于:磁硬盘;软盘;光盘,例如光盘只读存储器(CD-ROM)或数字多功能光盘(DVD);磁带;和/或存储芯片等。
处理器还可包括一个或多个用于存储数据的数据存储装置,或者处理器可操作地与所述数据存储设备耦合以与其通信。作为非限制性示例,该数据存储装置可以包括磁盘(磁盘包括内部硬盘和可移动磁盘)、磁光盘、光盘、只读存储器、随机存取存储器和/或闪存。适用于有形地体现计算机程序指令和数据的存储设备还可以包括所有形式的非易失性存储器,其包括例如半导体存储器件,例如,EPROM、EEPROM和闪存装置;磁盘,例如,内部硬盘和可移动磁盘;磁光盘;以及CD-ROM和DVD-ROM光盘。处理器和存储器可以由ASIC(专用集成电路)补充或集成到ASIC中。
处理***可以与计算机化数据存储***通信。数据存储***可以包括非关系或关系数据存储,例如MySQLTM或其他关系数据库。可以使用其他物理和逻辑数据库类型。数据存储可以是数据库服务器(例如,Microsoft SQL ServerTM、OracleTM、IBM DB2TM、SQLITETM)或任何其他数据库软件(关系数据库或者其他)。数据存储可以存储识别语法标签的信息,以及对语法标签进行操作所需的任何信息。在一些实施例中,处理***可以使用面向对象编程,并且可以将数据存储在对象中。在这些实施例中,处理***可以使用对象关系映射器(ORM),以将数据对象存储在关系数据库中。可以使用任何数量的物理数据模型来实现本文描述的***和方法。在一个示例性实施例中,可以使用关系数据库管理***(RDBMS)。在那些实施例中,RDBMS中的表可以包括代表坐标的列。对于经济***,表示公司、产品等的数据可以存储在RDBMS中的表中。这些表之间可以具有预定关系。这些表还可以具有与坐标相关联的附属部分。
在替代示例性实施例中,辅助存储器可以包括用于允许将计算机程序或其他指令加载到计算机***中的其他类似装置。这种装置可以包括例如可移动存储单元和接口。这样的示例可以包括程序盒和盒式接口(例如,但不限于在视频游戏设备中找到的那些程序盒和盒式接口)、可移动存储芯片(例如,但不限于可擦除可编程只读存储器(EPROM)、或可编程只读存储器(PROM)和相关的插槽),以及其他可移动存储单元和接口,其可以使软件和数据从可移动存储单元传输到计算机***。
计算设备还可以包括输入设备,输入设备例如但不限于语音输入设备(例如麦克风)、触摸屏、手势识别设备(例如,相机)、其他自然用户界面、鼠标或其他定点设备(例如,数字化仪)、以及键盘或其他数据输入设备。计算设备还可以包括输出设备,输出设备例如但不限于显示器和显示接口。计算设备可以包括输入/输出(I/O)设备,输入/输出(I/O)设备例如但不限于通信接口、电缆和通信路径等。这些设备可以包括但不限于网络接口卡和调制解调器。一个或多个通信接口可以允许软件和数据在计算机***与一个或多个外部设备之间传输。
在一个或多个实施例中,计算设备可以可操作地耦合到汽车***。这种汽车***可以是手动操作、半自主操作或完全自主操作。在该实施例中,输入和输出设备可以包括一个或多个图像捕获设备、控制器、微控制器、和/或其他处理器,以控制汽车功能,汽车功能例如但不限于加速、制动和转向。此外,在该实施例中,通信基础设施还可以包括控制器局域网(CAN)总线。
在一个或多个实施例中,计算设备可以可操作地耦合到任何基于机器视觉的***。例如,所述基于机器的视觉***包括但不限于手动操作的、半自主的或完全自主的工业或农业机器人、家用机器人、检查***、安全***等。也就是说,本文描述的实施例不限于一个特定情境,并且可以适用于任何利用机器视觉的应用。
在一个或多个实施例中,可以在一个或多个计算机网络的环境中实践本实施例。该网络可以包括专用网络或公用网络(例如,如下所述的互联网)或两者的组合。该网络可以包括硬件、软件或两者的组合。
从面向电信的角度看,网络可以描述为一组由通信设施互连的硬件节点,一个或多个进程(硬件、软件或其组合)运行在每个这样的节点上。这些进程可以使用进程间通信路径,经由它们之间的通信路径,相互通信并彼此交换信息。在这些路径上,使用适当的通信协议。
根据所述实施例的示例性计算机和/或电信网络环境可以包括若干个节点,其可以包括硬件、软件、或硬件和软件的组合。节点可以经由通信网络互连。每个节点可以包括一个或多个进程,一个或多个进程可由集成到节点中的处理器执行。例如,单个进程可以由多个处理器运行,或者多个进程可以由单个处理器运行。另外,每个节点可以提供网络与外界之间的接口点,并且可以集成子网的集合。
在示例性实施例中,这些过程可以通过支持通过任何通信协议的通信的进程间通信路径而彼此通信。这些途径可以依次或并行、连续或间歇地运行。除了许多计算机使用的标准并行指令集之外,这些路径还可以使用本文中针对通信网络描述的任何通信标准、协议或技术。
这些节点可以包括能够执行处理功能的任何实体。可以与实施例一起使用的节点的示例包括计算机(例如,个人计算机、工作站、服务器、或大型机)、手持式无线设备和有线设备(例如,个人数字助理(PDA)、具有处理能力的调制解调蜂窝电话、无线电子邮件设备(包括BlackBerryTM设备)、文档处理设备(例如,扫描仪、打印机、传真机或多功能文件机)、或连接了处理器的集合的复杂实体(例如,局域网或广域网),如上所述。例如,在本公开的情境中,节点本身可以是广域网(WAN)、局域网(LAN)、专用网络(例如,虚拟专用网络(VPN))或网络集合。
可以通过通信网络来实现节点之间的通信。节点可以连续或间断地与通信网络连接。作为示例,在本公开的情境中,通信网络可以是提供足够的带宽和信息安全性的数字通信基础设施。
通信网络可以包括使用任何类型的标准、协议或技术,以任何频率的有线通信能力、无线通信能力或两者的组合。另外,在所述实施例中,通信网络可以是专用网络(例如,VPN)或公共网络(例如,互联网)。
通信网络使用的示例性无线协议和技术的非包含性列表可以包括BluetoothTM(蓝牙)、通用分组无线服务(GPRS)、蜂窝数字分组数据(CDPD)、移动解决方案平台(MSP)、多媒体消息传递(MMS)、无线应用协议(WAP)、码分多址(CDMA)、短消息服务(SMS)、无线标记语言(WML)、手持式设备标记语言(HDML)、用于无线的二进制运行环境(BREW)、无线接入网(RAN)和分组交换核心网(PS-CN)。还包括各代的无线技术。通信网络使用的主有线协议和技术的示例性非包含性列表包括异步传输模式(ATM)、增强型内部网关路由协议(EIGRP)、帧中继(FR)、高级数据链路控制(HDLC)、互联网控制消息协议(ICMP)、内部网关路由协议(IGRP)、互联网分组交换(IPX)、ISDN、点对点协议(PPP)、传输控制协议/互联网协议(TCP/IP)、路由信息协议(RIP)和用户数据报协议(UDP)。如本领域技术人员将认识到的,可以使用任何其他已知或预期的无线或有线协议和技术。
本公开的实施例可以包括用于执行本文中的操作的装置。可以为期望的目的而专门构造一种装置,或者该装置可以包括由设备中存储的程序选择性地激活或重新配置的通用设备。
在一个或多个实施例中,本实施例被体现在机器可执行指令中。指令可以用于使处理设备(例如,用指令编程的通用或专用处理器)执行本公开的步骤。替代地,本公开的步骤可以由包括用于执行步骤的硬连线逻辑的特定硬件组件来执行,或者由编程的计算机组件和定制硬件组件的任意组合来执行。例如,正如上文所述,可以将本公开提供为计算机程序产品。在这种环境下,实施例可以包括有指令存储其上的机器可读介质。所述指令可用于对任何一个或多个处理器(或其他电子设备)进行编程,以执行根据本示例性实施例的过程或方法。另外,本公开也可以下载并存储在计算机程序产品上。在此,可以经由通信链路(例如,调制解调器或网络连接),通过在载波或其他传播介质中体现的数据信号,将程序从远程计算机(例如,服务器)传输到请求计算机(例如,客户端),最终可以将此类信号存储在计算机***上以供后续执行。
这些方法可以在可从计算机可用或计算机可读存储介质访问的计算机程序产品中实现,该计算机可用或计算机可读存储介质提供了供计算机或任何指令执行***使用,或与计算机或任何指令执行***结合使用的程序代码。计算机可用或计算机可读存储介质可以是这样的任何装置:该装置可以包括或存储由计算机或指令执行***、装置或设备使用的程序,或与计算机或指令执行***、装置或设备结合使用的程序。
适用于存储和/或执行相应程序代码的数据处理***可以包括至少一个直接或间接耦合到计算机化数据存储设备(例如,存储元件)的处理器。输入/输出(I/O)设备(该设备包括但不限于键盘、显示器、定点设备等)可以耦合到该***。网络适配器也可以耦合到该***,以使数据处理***能够通过中间的专用或公共网络,耦合到其他数据处理***或远程打印机或存储装置。为了提供与用户的交互,可以在计算机上实现这些特征,计算机具有显示设备(例如,LCD(液晶显示器)、或其他类型的用于向用户显示信息的监视器)、以及键盘和输入设备(例如,鼠标或轨迹球),用户可以通过输入设备向计算机提供输入。
计算机程序可以是可以在计算机中直接或间接使用的一组指令。可以使用编程语言或者或编程语言的组合来实现本文所述的***和方法,编程语言例如CUDA、OpenCL、FlashTM、JAVATM、C++、C、C#、Python、Visual BasicTM、JavaScriptTMPHP、XML、HTML等,编程语言的组合包括编译或解释语言,并且可以以任何形式部署本文所述的***和方法,包括作为独立程序或作为模块、组件、子例程、或适用于计算环境的其他单元。该软件可以包括但不限于固件、常驻软件、微码等。协议(例如,SOAP/HTTP)可以用于实现编程模块之间的接口。可以使用适合于软件开发的任何编程语言,在虚拟化或非虚拟化环境中执行的任何桌面操作***上实施本文所述的组件和功能,编程语言包括但不限于不同版本的MicrosoftWindowsTM,AppleTMMacTM,iOSTM,UnixTM/X-WindowsTM,LinuxTM等。可以使用网络应用程序框架(例如,Ruby on Rails)来实现该***。
用于执行指令程序的合适处理器包括但不限于通用和专用微处理器,以及任何类型计算机的唯一处理器或多个处理器或从处理核中的一个。处理器可以从计算机化的数据存储装置(例如,只读存储器、随机存取存储器、两者、或本文描述的数据存储装置的任意组合)接收并存储指令和数据。处理器可以包括可操作以控制电子设备的操作和性能的任何处理电路或控制电路。
可以使用软件或硬件元件的任何组合来实现本文描述的***、模块和方法。可以使用单独操作或彼此组合操作的一个或多个虚拟机来实现本文所述的***、模块和方法。任何适用的虚拟化解决方案都可以用于将物理计算机平台封装到虚拟机中,该虚拟机在硬件计算平台或主机上运行的虚拟化软件的控制下执行。虚拟机可以同时具有虚拟***硬件和客户操作***软件。
可以在以下这样的计算机***中实现本文所述的***和方法,计算机***包括后端组件(例如,数据服务器)或包括中间件组件(例如,应用服务器或互联网服务器),或包括前端组件(例如,具有图形用户界面或互联网浏览器的客户端计算机),或它们的任意组合。***的组件可以通过任何形式或介质的数字数据通信(例如,通信网络)进行连接。通信网络的示例包括例如LAN、WAN以及形成互联网的计算机和网络。
本公开的一个或多个实施例可以通过其他计算机***配置来实践,其他计算机***包括手持式设备、微处理器***、基于微处理器的或可编程的消费者电子产品、小型计算机、大型计算机等。本文描述的***和方法也可以在分布式计算环境中实践,在分布式计算环境中,任务由通过网络链接的远程处理设备执行。
术语“计算机程序介质”和“计算机可读介质”可通常用于指代这样的介质:介质例如但不限于可移动存储驱动器、安装在硬盘驱动器中的硬盘。这些计算机程序产品可以向计算机***提供软件。本文描述的***和方法可以针对这样的计算机程序产品。
对“一个实施例”、“实施例”、“示例性实施例”、“各种实施例”等的引用可以指示本公开的一个或多个实施例可以包括特定的特征、结构、或特性,但并非每个实施例都必然包括特定的特征、结构或特性。此外,尽管重复使用短语“在一个实施例中”或“在示例性实施例中”并不一定指相同的实施例,尽管它们可能指相同的实施例。类似地,对“实例”的引用可以指示本公开的各种一个或多个实例可以包括特定的特征、结构或特性,但是并非每个实例都必然包括特定的特征、结构或特性。此外,重复使用短语“在某些实例中”不一定指相同的情况,尽管可能指相同的情况。
在说明书和权利要求书中,可以使用术语“耦合”和“连接”及其派生词。应当理解,这些术语可能不旨在作为彼此的同义词。而是,在特定实施例中,“连接”可以用于指示两个或多个元件彼此直接物理或电接触。“耦合”可以意指两个或多个元件直接物理或电接触。但是,“耦合”也可能意指两个或多个元件彼此不直接接触,但仍彼此协作或交互。
这里,算法通常可以被认为是导致期望结果的动作或操作的自相一致序列。这些动作或操作包括对物理量的物理操纵。通常,尽管不是必须的,这些量采取能够被存储、传输、组合、比较和以其他方式操纵的电信号或磁信号的形式。主要出于通用目的,有时已经证明将这些信号指代位、值、元素、符号、字符、项、数字等是方便的。但是,应该理解,所有这些术语和类似术语均应与适当的物理量相关联,并且仅仅是应用于这些量的方便标记。
除非另外特别说明,否则可以理解,在整个说明书中,例如“处理”、“计算(computing)”、“运算(calculating)”、“确定”等术语是指计算机或计算***或类似的电子计算设备的动作和/或过程,计算机或计算***或类似的电子计算设备将计算***的寄存器和/或存储器中表示为物理量(例如,电量)的数据操纵和/或转换为类似表示为计算***的存储器、寄存器或其他此类信息存储、传输或显示设备中的物理量的其他数据。
以类似的方式,术语“处理器”可以指具有以下功能的任何设备或设备的一部分:该设备或设备的一部分处理来自寄存器和/或存储器的电子数据,以将该电子数据转换成可以存储在寄存器和/或存储器中的其他电子数据。作为非限制性示例,“处理器”可以是中央处理单元(CPU)或图形处理单元(GPU)。“计算平台”可以包括一个或多个处理器。如本文所使用的,“软件”过程可以包括例如随时间执行工作的软件和/或硬件实体,例如任务、线程和智能代理。而且,每个过程可以指代多个过程,以连续地或间歇地、顺序地或并行地执行指令。术语“***”和“方法”在本文中可以互换使用,只要该***可以体现一种或多种方法,并且这些方法可以被认为是一个***。
尽管已经描述了一个或多个实施例,但是其各种改变、添加、置换及其等效变型都包括在本公开的范围内。
在对实施例的描述中,参考了形成其一部分的附图,附图通过说明的方式显示了所要求保护的主题的特定实施例。应当理解,可以使用其他实施例,并且可以进行改变或替换(例如,结构改变)。相对于所要求保护的主题,这样的实施例、改变或替换不一定偏离范围。尽管本文中的步骤可以以特定顺序呈现,但是在某些实例中,可以改变顺序,以便在不改变所描述的***的功能和方法的情况下,以不同的时间或以不同的顺序提供某种输入。也可以以不同的顺序执行所公开的过程。另外,这里不需要以所公开的顺序执行各种计算,并且可以容易实现使用替代计算顺序的其他实施例。除了重新排序外,这些计算还可以分解为具有相同结果的若干个子计算。
尽管以上讨论阐述了所描述的技术的示例性实施方式,但是其他架构可以用于实现所描述的功能,并且其他架构应该落入本公开的范围内。此外,尽管出于讨论目的在上面定义了具体的职责分配,但是根据各种情况,各种功能和职责可能以不同的方式分配和划分。
此外,尽管已经用特定于结构特征和/或方法行为的语言描述了主题,但是应该理解,所附权利要求书中定义的主题不必限于描述的特定特征或动作。而是,将特定特征或动作公开为实现权利要求的示例性形式。
示例性条款
A:一种用于估计三维边界框的***,所述***包括非暂时性计算机可读介质,所述介质包括指令,当所述指令由一个或多个处理器执行时,所述指令将使所述***执行以下操作:接收从图像捕获设备捕获的图像;检测图像中的对象;剪裁图像,以形成包括对象的剪裁图像;接收与对象相关联的点云数据;确定与点云数据相关联的第一特征向量,所述第一特征向量包括几何特征向量;确定与剪裁图像相关联的第二特征向量,所述第二特征向量包括外观特征向量;将第一特征向量和第二特征向量传递到神经网络中;以及从神经网络接收描述与对象相关联的三维边界框的坐标。
B:根据段落A所述的***,其中,所述指令还使所述***执行以下操作:确定多个第三特征向量,多个第三特征向量中的第一个与所述点云数据中的第一点相对应,以及多个第三特征向量中的第二个与所述点云数据中的第二点相对应;将多个第三特征向量与多个第一特征向量和多个第二特征向量一起传递到神经网络中;针对第一点确定第一组偏移量和第一置信度分数,所述第一组偏移量对应于所述三维边界框的角相对于所述第一点的第一估计位置;以及针对第二点确定第二组偏移量和第二置信度分数,所述第二组偏移量对应于所述三维边界框的角相对于所述第二点的第二估计位置,其中,当第一置信度分数高于第二置信度分数时,***接收与第一估计位置相对应的坐标,并且当第二置信度分数高于第一置信度分数时,***接收与第二估计位置相对应的坐标。
C:根据段落A或者段落B所述的***,其中,所述指令使所述***从被配置为处理原始点云数据的点云神经网络的处理层中提取所述第一特征向量,并且其中,所述指令使所述***从残差学习神经网络提取所述第二特征向量。
D:根据段落A到C中任一段所述的***,其中:神经网络包括一个或多个完全连接的层。
E:根据段落A到D中任一段所述的***,其中,所述指令还使所述***通过将所述点云数据转换成原点,来归一化所述点云数据。
F:根据段落A到E中任一段所述的***,其中,所述坐标包括八个点,所述八个点中的每个点与所述三维边界框的相应角相关联。
G:根据段落A到F中任一段所述的***,其中,使用识别出点是在三维边界框内还是在三维边界框外的数据集,以受监督的方式训练所述第一神经网络。
H:根据段落A到G中任一段所述的***,其中,使用包括所述边界框的回归损失的边界框损失函数,来训练所述第一神经网络。
I:根据段落A到H中任一段所述的***,其中,所述指令还使所述***执行以下操作:确定与第一点相关联的剪裁图像的第一部分;以及确定与第二点相关联的剪裁图像的第二部分,其中,至少部分使用双线性插值,确定第一部分或第二部分中的至少一个。
J:一种示例性计算机实现的方法,用于估计环境中的对象的三维边界框,所述计算机实现的方法包括:从图像捕获设备接收环境图像;接收与环境相关联的点云数据,所述点云数据包括多个点;检测图像中的对象;剪裁图像,以形成包括对象的图像的剪裁图像;将剪裁图像输入到第一神经网络;将点云输入到第二神经网络;从第一神经网络中提取与剪裁图像相关联的外观特征向量;从第二神经网络中提取与点云数据相关联的全局几何特征向量;从第二神经网络中提取多个逐点几何特征向量,单个逐点几何特征向量与多个点中的单个点相关联;将外观特征向量、全局几何特征向量和多个逐点几何特征向量输入到第三神经网络;以及从第三神经网络接收与对象的三维边界框相关联的信息。
K:根据段落J所述的计算机实现的方法,其中,接收与所述三维边界框相关联的信息包括:接收相对于所述点云中的点的多个位移,所述多个位移对应于所述三维边界框的若干个角。
L:根据段落J或者段落K所述的计算机实现的方法,其中,所述第三神经网络针对所述点云中的每个点,确定多个偏移和置信度分数,其中,所述偏移包括所述三维边界框的估计角相对于相应点的位移,其中,接收三维边界框包括:接收与具有最高置信度分数的点相关联的参数。
M:根据段落J到段落L中任一段所述的计算机实现的方法,其中,使用包括所述边界框的回归损失的边界框损失函数,来训练所述第三神经网络。
N:根据段落J到段落M中任一段所述的计算机实现的方法,其中,使用点是在三维边界框内还是在三维边界框外的指示,以受监督的方式训练所述第三神经网络。
O:根据段落J到段落N中任一段所述的计算机实现的方法,其中,将所述图像外观特征向量、所述全局几何特征向量和所述多个逐点几何特征向量输入到第三神经网络包括:将每一个逐点几何特征向量与全局几何特征向量连结在一起。
P:一种用于估计三维边界框的示例性***,该***包括:自主驾驶汽车;图像捕获设备,其与自主驾驶车辆相关联,并且被配置为在自主驾驶车辆的环境中捕获图像;传感器,其与所述自主驾驶车辆相关联,并被配置为输出与所述环境相对应的点云数据;一个或多个处理器;非暂时性计算机可读介质,其包括指令,当所述指令由一个或多个处理器执行时,所述指令使***执行以下操作:接收由图像捕获设备捕获的图像;检测图像中的对象;剪裁图像,以形成包括对象的剪裁图像;接收点云数据;确定与点云数据相关联的第一特征向量;确定与剪裁图像相关联的第二特征向量;将第一特征向量和第二特征向量传递到神经网络中;以及从神经网络接收与针对对象的三维边界框相关联的坐标。
Q:根据段落P所述的***,其中,所述指令还使所述***执行以下操作:确定多个第三特征向量,多个第三特征向量中的第一个与所述点云数据中的第一点相对应,以及多个第三特征向量中的第二个与所述点云数据中的第二点相对应;将多个第三特征向量连同多个第一特征向量和多个第二特征向量一起传递到神经网络中;针对第一点确定第一组偏移量和第一置信度分数,所述第一组偏移量对应于所述三维边界框的角相对于所述第一点的第一估计位置;以及针对第二点确定第二组偏移量和第二置信度分数,所述第二组偏移量对应于所述三维边界框的角相对于所述第二点的第二估计位置,其中,当第一置信度分数高于第二置信度分数时,***接收与第一估计位置相对应的坐标,并且当第二置信度分数高于第一置信度分数时,***接收与第二估计位置相对应的坐标。
R:根据段落P或者段落Q所述的***,其中,图像捕获设备包括被配置为捕获RGB图像的相机,其中,所述传感器包括LIDAR传感器或RADAR传感器,其中,来自传感器的点云数据和RGB图像是对齐的。
S:根据段落P至段落R中任一段所述的***,其中,所述指令还使所述***执行以下操作:确定与第一点相关联的剪裁图像的第一部分;以及确定与第二点相关联的剪裁图像的第二部分。
T:根据段落P至段落S中任一段所述的***,其中,所述指令使所述***通过从被配置为处理原始点云数据的神经网络提取第一特征向量来确定第一特征向量,以及通过从残差学习网络提取所述第二特征向量来确定第二特征向量。

Claims (15)

1.一种用于估计三维边界框的***,所述***包括非暂时性计算机可读介质,所述介质包括指令,当所述指令由一个或多个处理器执行时,所述指令将使所述***执行以下操作:
接收从图像捕获设备捕获的图像;
检测所述图像中的对象;
剪裁所述图像,以形成包括所述对象的剪裁图像;
从不同于所述图像捕获设备的三维传感器接收与所述对象相关联的点云数据;
使用第一处理算法和与所述对象相关联的所述点云数据,确定与所述点云数据相关联的第一特征向量,其中所述第一特征向量是几何特征向量;
使用第二处理算法和包括所述对象的所述剪裁的图像,确定与所述剪裁图像相关联的第二特征向量,其中所述第二特征向量是外观特征向量;
将所述第一特征向量和所述第二特征向量传递到神经网络中;以及
从所述神经网络接收描述表示所述对象的三维边界框的坐标。
2.根据权利要求1所述的***,其中,所述指令还使所述***执行以下操作:
确定多个第三特征向量,所述多个第三特征向量中的第一个与所述点云数据中的第一点相对应,以及所述多个第三特征向量中的第二个与所述点云数据中的第二点相对应;
将所述多个第三特征向量与多个所述第一特征向量和多个所述第二特征向量一起传递到所述神经网络中;
针对所述第一点确定第一组偏移量和第一置信度分数,所述第一组偏移量对应于所述三维边界框的角相对于所述第一点的第一估计位置;以及
针对所述第二点确定第二组偏移量和第二置信度分数,所述第二组偏移量对应于所述三维边界框的角相对于所述第二点的第二估计位置,
其中,当所述第一置信度分数高于所述第二置信度分数时,所述***接收与所述第一估计位置相对应的坐标,并且当所述第二置信度分数高于所述第一置信度分数时,所述***接收与所述第二估计位置相对应的坐标。
3.根据权利要求1所述的***,其中,所述指令使所述***从被配置为处理原始点云数据的点云神经网络的处理层中提取所述第一特征向量,并且其中,所述指令使所述***从残差学习神经网络中提取所述第二特征向量。
4.根据权利要求1所述的***,其中:
所述神经网络包括一个或多个完全连接的层;
所述图像捕获设备包括被配置为捕获RGB图像的相机;
传感器包括LIDAR传感器或RADAR传感器;以及
来自所述传感器的点云数据和RGB图像是对齐的。
5.根据权利要求1所述的***,其中,所述指令还使所述***通过将所述点云数据转换成原点,来归一化所述点云数据。
6.根据权利要求1所述的***,其中,所述坐标包括八个点,所述八个点中的每个点与所述三维边界框的相应角相关联。
7.根据权利要求2所述的***,其中,使用识别出点是在三维边界框内还是在三维边界框外的数据集,以受监督的方式训练所述神经网络。
8.根据权利要求2所述的***,其中,使用包括所述边界框的回归损失的边界框损失函数,来训练所述神经网络。
9.根据权利要求2所述的***,其中,所述指令还使所述***执行以下操作:
确定与所述第一点相关联的所述剪裁图像的第一部分;以及
确定与所述第二点相关联的所述剪裁图像的第二部分,
其中,至少部分使用双线性插值,确定所述第一部分或所述第二部分中的至少一个。
10.一种用于估计环境中的对象的三维边界框的计算机实现的方法,所述计算机实现的方法包括:
从图像捕获设备接收所述环境的图像;
从不同于所述图像捕获设备的三维传感器接收与所述环境相关联的点云数据,所述点云数据包括多个点;
检测所述图像中的对象;
剪裁所述图像,以形成包括所述对象的图像的剪裁图像;
将所述剪裁图像输入到第一神经网络;
将所述点云数据输入到第二神经网络;
从所述第一神经网络中提取与所述剪裁图像相关联的外观特征向量;
从所述第二神经网络中提取与所述点云数据相关联的全局几何特征向量;
从所述第二神经网络中提取多个逐点几何特征向量,单个的逐点几何特征向量与多个点中的单点相关联;
将所述外观特征向量、所述全局几何特征向量和所述多个逐点几何特征向量输入到第三神经网络中;以及
从所述第三神经网络接收与所述对象的三维边界框相关联的信息。
11.根据权利要求10所述的计算机实现的方法,其中,接收与所述三维边界框相关联的信息包括:接收相对于所述点云中的点的多个位移,所述多个位移对应于所述三维边界框的角。
12.根据权利要求10所述的计算机实现的方法,其中,所述第三神经网络针对所述点云中的每个点,确定多个偏移量和置信度分数,其中,所述偏移量包括从所述三维边界框的估计角相对于相应点的位移,其中,接收所述三维边界框包括:接收与具有最高置信度分数的点相关联的参数。
13.根据权利要求10所述的计算机实现的方法,其中,使用包括所述边界框的回归损失的边界框损失函数,来训练所述第三神经网络。
14.根据权利要求10所述的计算机实现的方法,其中,使用点是在三维边界框内还是在三维边界框外的指示,以受监督的方式训练所述第三神经网络。
15.根据权利要求10所述的计算机实现的方法,其中,将所述图像外观特征向量、所述全局几何特征向量和所述多个逐点几何特征向量输入到第三神经网络中包括:将每个单个的逐点几何特征向量与所述全局几何特征向量连结在一起。
CN201880061600.5A 2017-09-22 2018-08-31 根据二维图像和点云数据生成三维边界框 Active CN111108507B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311797062.5A CN117636331A (zh) 2017-09-22 2018-08-31 根据二维图像和点云数据生成三维边界框

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762562193P 2017-09-22 2017-09-22
US62/562,193 2017-09-22
US15/797,573 2017-10-30
US15/797,573 US10438371B2 (en) 2017-09-22 2017-10-30 Three-dimensional bounding box from two-dimensional image and point cloud data
PCT/US2018/049129 WO2019060125A1 (en) 2017-09-22 2018-08-31 THREE-DIMENSIONAL DELIMITATION FRAMEWORK BASED ON TWO-DIMENSIONAL IMAGE DATA AND CLOUD OF POINTS

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202311797062.5A Division CN117636331A (zh) 2017-09-22 2018-08-31 根据二维图像和点云数据生成三维边界框

Publications (2)

Publication Number Publication Date
CN111108507A CN111108507A (zh) 2020-05-05
CN111108507B true CN111108507B (zh) 2024-01-12

Family

ID=65807708

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201880061600.5A Active CN111108507B (zh) 2017-09-22 2018-08-31 根据二维图像和点云数据生成三维边界框
CN202311797062.5A Pending CN117636331A (zh) 2017-09-22 2018-08-31 根据二维图像和点云数据生成三维边界框

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202311797062.5A Pending CN117636331A (zh) 2017-09-22 2018-08-31 根据二维图像和点云数据生成三维边界框

Country Status (5)

Country Link
US (2) US10438371B2 (zh)
EP (1) EP3685306A1 (zh)
JP (1) JP7282080B2 (zh)
CN (2) CN111108507B (zh)
WO (1) WO2019060125A1 (zh)

Families Citing this family (112)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10002415B2 (en) * 2016-04-12 2018-06-19 Adobe Systems Incorporated Utilizing deep learning for rating aesthetics of digital images
WO2018199958A1 (en) * 2017-04-27 2018-11-01 Hewlett-Packard Development Company, L.P. Object recognition
US10438371B2 (en) 2017-09-22 2019-10-08 Zoox, Inc. Three-dimensional bounding box from two-dimensional image and point cloud data
US10872228B1 (en) * 2017-09-27 2020-12-22 Apple Inc. Three-dimensional object detection
US11475351B2 (en) * 2017-11-15 2022-10-18 Uatc, Llc Systems and methods for object detection, tracking, and motion prediction
US11017550B2 (en) * 2017-11-15 2021-05-25 Uatc, Llc End-to-end tracking of objects
CN108229305B (zh) * 2017-11-21 2021-06-04 北京市商汤科技开发有限公司 用于确定目标对象的外接框的方法、装置和电子设备
TWI651686B (zh) * 2017-11-30 2019-02-21 國家中山科學研究院 一種光學雷達行人偵測方法
US10705216B2 (en) * 2017-12-07 2020-07-07 Institute For Information Industry Three-dimensional point cloud tracking apparatus and method using recurrent neural network
KR101982942B1 (ko) * 2017-12-21 2019-05-27 건국대학교 산학협력단 객체 추적 방법 및 이를 수행하는 장치들
CN108225348B (zh) * 2017-12-29 2021-08-24 百度在线网络技术(北京)有限公司 地图创建以及运动实体定位的方法和装置
US10657391B2 (en) * 2018-01-05 2020-05-19 Uatc, Llc Systems and methods for image-based free space detection
US10745005B2 (en) * 2018-01-24 2020-08-18 Ford Global Technologies, Llc Inter-vehicle cooperation for vehicle self height estimation
US11282389B2 (en) * 2018-02-20 2022-03-22 Nortek Security & Control Llc Pedestrian detection for vehicle driving assistance
WO2019161558A1 (en) * 2018-02-26 2019-08-29 Intel Corporation Method and system of point cloud registration for image processing
US10692183B2 (en) * 2018-03-29 2020-06-23 Adobe Inc. Customizable image cropping using body key points
US10816992B2 (en) * 2018-04-17 2020-10-27 Baidu Usa Llc Method for transforming 2D bounding boxes of objects into 3D positions for autonomous driving vehicles (ADVs)
US10852420B2 (en) * 2018-05-18 2020-12-01 Industrial Technology Research Institute Object detection system, autonomous vehicle using the same, and object detection method thereof
US11022693B1 (en) * 2018-08-03 2021-06-01 GM Global Technology Operations LLC Autonomous vehicle controlled based upon a lidar data segmentation system
EP3833177B1 (en) * 2018-08-08 2022-07-27 The Toro Company Handle and method for training an autonomous vehicle, and methods of storing same
US10915793B2 (en) * 2018-11-08 2021-02-09 Huawei Technologies Co., Ltd. Method and system for converting point cloud data for use with 2D convolutional neural networks
DK201970115A1 (en) 2018-11-08 2020-06-09 Aptiv Technologies Limited DEEP LEARNING FOR OBJECT DETECTION USING PILLARS
US11010592B2 (en) * 2018-11-15 2021-05-18 Toyota Research Institute, Inc. System and method for lifting 3D representations from monocular images
WO2020113235A1 (en) * 2018-11-30 2020-06-04 Qualcomm Incorporated Processing sensor information for object detection
US11069081B1 (en) * 2019-01-25 2021-07-20 Google Llc Location discovery
US11087175B2 (en) * 2019-01-30 2021-08-10 StradVision, Inc. Learning method and learning device of recurrent neural network for autonomous driving safety check for changing driving mode between autonomous driving mode and manual driving mode, and testing method and testing device using them
US20220146677A1 (en) * 2019-02-15 2022-05-12 Arizona Board Of Regents On Behalf Of The University Of Arizona Mobile 3d imaging system and method
JP7352368B2 (ja) * 2019-03-29 2023-09-28 株式会社コーエーテクモゲームス ゲーム操作学習プログラム、ゲームプログラム、ゲームプレイプログラム、及びゲーム操作学習方法
CN111753822B (zh) 2019-03-29 2024-05-24 北京市商汤科技开发有限公司 文本识别方法及装置、电子设备和存储介质
CN111857111B (zh) * 2019-04-09 2024-07-19 商汤集团有限公司 对象三维检测及智能驾驶控制方法、装置、介质及设备
CN112132888B (zh) * 2019-06-25 2024-04-26 黑芝麻智能科技(重庆)有限公司 大规模室内稀疏激光雷达点云内的单目相机定位
JP2021006011A (ja) * 2019-06-27 2021-01-21 株式会社クボタ 農作業車のための障害物検出システム
US20210004566A1 (en) * 2019-07-02 2021-01-07 GM Global Technology Operations LLC Method and apparatus for 3d object bounding for 2d image data
US20210004021A1 (en) * 2019-07-05 2021-01-07 DeepMap Inc. Generating training data for deep learning models for building high definition maps
US11195064B2 (en) * 2019-07-11 2021-12-07 Waymo Llc Cross-modal sensor data alignment
CN110363863B (zh) * 2019-07-15 2023-09-12 上海点积实业有限公司 一种神经网络的输入数据生成方法和***
EP3767521A1 (en) * 2019-07-15 2021-01-20 Promaton Holding B.V. Object detection and instance segmentation of 3d point clouds based on deep learning
JP7226553B2 (ja) * 2019-07-22 2023-02-21 日本電気株式会社 情報処理装置、データ生成方法、及びプログラム
US11176693B1 (en) * 2019-07-24 2021-11-16 Amazon Technologies, Inc. Rapid point cloud alignment and classification with basis set learning
US11747443B2 (en) * 2019-08-05 2023-09-05 Tellus You Care, Inc. Non-contact identification of multi-person presence for elderly care
WO2021024805A1 (ja) * 2019-08-06 2021-02-11 ソニー株式会社 情報処理装置、および情報処理方法、並びにプログラム
EP3783525A1 (en) * 2019-08-22 2021-02-24 Argo AI GmbH Method for detecting an object in surroundings of a vehicle, corresponding system and vehicle
CN110490865B (zh) * 2019-08-22 2022-04-01 易思维(杭州)科技有限公司 基于螺柱高反光特性的螺柱点云分割方法
US11327178B2 (en) * 2019-09-06 2022-05-10 Volvo Car Corporation Piece-wise network structure for long range environment perception
US10614340B1 (en) * 2019-09-23 2020-04-07 Mujin, Inc. Method and computing system for object identification
CN110956194A (zh) * 2019-10-10 2020-04-03 深圳先进技术研究院 三维点云的结构化方法、分类方法、设备及装置
DE102019127306A1 (de) * 2019-10-10 2021-04-15 Valeo Schalter Und Sensoren Gmbh System und Verfahren zum Erfassen von Objekten in einer dreidimensionalen Umgebung eines Trägerfahrzeugs
US11281917B2 (en) 2019-10-31 2022-03-22 Aptiv Technologies Limited Multi-domain neighborhood embedding and weighting of point cloud data
GB2591171B (en) 2019-11-14 2023-09-13 Motional Ad Llc Sequential fusion for 3D object detection
CN112907659B (zh) * 2019-11-19 2024-07-12 浙江菜鸟供应链管理有限公司 移动设备定位***、方法及设备
US11584377B2 (en) * 2019-11-21 2023-02-21 Gm Cruise Holdings Llc Lidar based detection of road surface features
WO2021114030A1 (zh) * 2019-12-09 2021-06-17 深圳市大疆创新科技有限公司 点云孔洞填充方法、装置和存储介质
CN113075922A (zh) * 2019-12-17 2021-07-06 图森有限公司 来自多个传感器的数据集成
WO2021132758A1 (ko) * 2019-12-26 2021-07-01 (주) 로탈 스테레오 카메라를 이용한 객체 위치 결정 시스템
CN111223136B (zh) * 2020-01-03 2024-04-23 三星(中国)半导体有限公司 稀疏2d点集的深度特征提取方法及装置
CN111208530B (zh) * 2020-01-15 2022-06-17 北京四维图新科技股份有限公司 定位图层生成方法、装置、高精度地图及设备
CN111259829B (zh) * 2020-01-19 2023-10-20 北京小马慧行科技有限公司 点云数据的处理方法和装置、存储介质及处理器
US11403764B2 (en) * 2020-02-14 2022-08-02 Mujin, Inc. Method and computing system for processing candidate edges
CN111339880A (zh) * 2020-02-19 2020-06-26 北京市商汤科技开发有限公司 一种目标检测方法及装置、电子设备和存储介质
US11804051B2 (en) * 2020-02-25 2023-10-31 Zebra Technologies Corporation Parallel data capture system
KR102551149B1 (ko) * 2020-02-27 2023-07-03 애플 인크. 포인트 클라우드 클러스터들의 공간적 관계들
US11195033B2 (en) * 2020-02-27 2021-12-07 Gm Cruise Holdings Llc Multi-modal, multi-technique vehicle signal detection
US11668799B2 (en) 2020-03-20 2023-06-06 Aptiv Technologies Limited Histogram based L-shape detection of target objects
CN111414888A (zh) * 2020-03-31 2020-07-14 杭州博雅鸿图视频技术有限公司 低分辨率人脸识别方法、***、装置及存储介质
CN113496184A (zh) * 2020-04-08 2021-10-12 北京京东乾石科技有限公司 目标检测方法及装置、计算机存储介质、电子设备
CN113536867B (zh) * 2020-04-22 2023-09-22 杭州海康威视数字技术股份有限公司 物体识别的方法、装置及***
CN111709988B (zh) * 2020-04-28 2024-01-23 上海高仙自动化科技发展有限公司 一种物体的特征信息的确定方法、装置、电子设备及存储介质
US10970645B1 (en) * 2020-05-08 2021-04-06 StradVision, Inc. Method for explainable active learning, to be used for object detector, by using Bayesian dual autoencoder and active learning device using the same
US11410356B2 (en) 2020-05-14 2022-08-09 Toyota Research Institute, Inc. Systems and methods for representing objects using a six-point bounding box
CN111738293B (zh) * 2020-05-18 2024-07-23 阿波罗智能技术(北京)有限公司 点云数据的处理方法、装置、电子设备及可读存储介质
US11532096B2 (en) 2020-05-21 2022-12-20 Verizon Connect Development Limited Systems and methods for utilizing a deep learning model to determine vehicle viewpoint estimations
CN113763231B (zh) * 2020-06-08 2024-02-09 北京京东乾石科技有限公司 模型生成方法、图像透视图确定方法、装置、设备及介质
KR20210152741A (ko) * 2020-06-09 2021-12-16 삼성전자주식회사 첨단 운전자 지원 장치 및 이의 객체를 검출하는 방법
JP7489834B2 (ja) 2020-06-12 2024-05-24 株式会社デンソーアイティーラボラトリ 情報処理装置、プロブラムおよび情報処理方法
CN111722245B (zh) * 2020-06-22 2023-03-10 阿波罗智能技术(北京)有限公司 定位方法、定位装置和电子设备
US11715277B2 (en) * 2020-06-23 2023-08-01 Tusimple, Inc. Perception system for autonomous vehicles
US11628856B2 (en) * 2020-06-29 2023-04-18 Argo AI, LLC Systems and methods for estimating cuboids from LiDAR, map and image data
US11527084B2 (en) * 2020-07-10 2022-12-13 Huawei Technologies Co., Ltd. Method and system for generating a bird's eye view bounding box associated with an object
CN111895931B (zh) * 2020-07-17 2021-11-26 嘉兴泊令科技有限公司 一种基于计算机视觉的煤矿作业区标定方法
US20220026917A1 (en) * 2020-07-22 2022-01-27 Motional Ad Llc Monocular 3d object detection from image semantics network
US11210533B1 (en) 2020-08-09 2021-12-28 Phantom AI, Inc. Method of predicting trajectory of vehicle
US11756317B2 (en) * 2020-09-24 2023-09-12 Argo AI, LLC Methods and systems for labeling lidar point cloud data
CN112102496B (zh) * 2020-09-27 2024-03-26 安徽省农业科学院畜牧兽医研究所 牛体格测量方法、模型训练方法和***
US11189049B1 (en) * 2020-10-16 2021-11-30 Ford Global Technologies, Llc Vehicle neural network perception and localization
EP3985411A1 (en) * 2020-10-19 2022-04-20 Aptiv Technologies Limited Method and device for detecting objects
CN112433193B (zh) * 2020-11-06 2023-04-07 山东产研信息与人工智能融合研究院有限公司 一种基于多传感器的模位置定位方法及***
US20220156972A1 (en) * 2020-11-16 2022-05-19 Waymo Llc Long range distance estimation using reference objects
CN112416018B (zh) * 2020-11-24 2021-07-09 广东技术师范大学 基于多信号采集与路径规划模型的无人机避障方法和装置
CN112241204B (zh) * 2020-12-17 2021-08-27 宁波均联智行科技股份有限公司 一种车载ar-hud的手势交互方法和***
CN112509126B (zh) * 2020-12-18 2024-07-12 南京模数智芯微电子科技有限公司 三维物体检测的方法、装置、设备及存储介质
US11657719B2 (en) * 2020-12-18 2023-05-23 Zoox, Inc. System for sparsely representing and storing geographic and map data
US11733369B2 (en) * 2021-02-11 2023-08-22 Waymo Llc Methods and systems for three dimensional object detection and localization
CN113066124A (zh) * 2021-02-26 2021-07-02 华为技术有限公司 一种神经网络的训练方法以及相关设备
CN112926475B (zh) * 2021-03-08 2022-10-21 电子科技大学 一种人体三维关键点提取方法
RU2767831C1 (ru) * 2021-03-26 2022-03-22 Общество с ограниченной ответственностью "Яндекс Беспилотные Технологии" Способы и электронные устройства для обнаружения объектов в окружении беспилотного автомобиля
CN112801059B (zh) * 2021-04-07 2021-07-20 广东众聚人工智能科技有限公司 图卷积网络***和基于图卷积网络***的3d物体检测方法
US11823465B2 (en) 2021-04-13 2023-11-21 Ford Global Technologies, Llc Neural network object identification
CN113255444A (zh) * 2021-04-19 2021-08-13 杭州飞步科技有限公司 图像识别模型的训练方法、图像识别方法和装置
CN112862730B (zh) * 2021-04-26 2021-07-27 深圳大学 点云特征增强方法、装置、计算机设备和存储介质
KR102343041B1 (ko) * 2021-05-14 2021-12-24 주식회사 인피닉 3d 데이터에서 객체 자동 특정 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
CN113269820B (zh) * 2021-05-26 2024-07-19 北京地平线信息技术有限公司 空间几何信息估计模型的生成方法和装置
US11978259B2 (en) 2021-07-09 2024-05-07 Ford Global Technologies, Llc Systems and methods for particle filter tracking
US11741631B2 (en) * 2021-07-15 2023-08-29 Vilnius Gediminas Technical University Real-time alignment of multiple point clouds to video capture
CN113645063B (zh) * 2021-07-16 2024-03-19 上海德衡数据科技有限公司 基于边缘计算的智能集成数据的方法及***
CN113780078B (zh) * 2021-08-05 2024-03-19 广州西威科智能科技有限公司 无人驾驶视觉导航中故障物快速精准识别方法
US11966452B2 (en) * 2021-08-05 2024-04-23 Ford Global Technologies, Llc Systems and methods for image based perception
CN113538315B (zh) * 2021-08-20 2024-02-02 支付宝(杭州)信息技术有限公司 图像处理方法及装置
CN113920175B (zh) * 2021-08-26 2024-06-11 广东工业大学 一种激光雷达的点云相似度评价方法
CN113984037B (zh) * 2021-09-30 2023-09-12 电子科技大学长三角研究院(湖州) 一种基于任意方向目标候选框的语义地图构建方法
US12039757B2 (en) 2021-12-30 2024-07-16 Waymo Llc Associating labels between multiple sensors
CN114862952B (zh) * 2022-04-27 2024-03-19 江西理工大学 无人机检测与防御方法及***
WO2023223765A1 (ja) * 2022-05-18 2023-11-23 株式会社アイシン 物体検知装置および物体検知方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295678A (zh) * 2016-07-27 2017-01-04 北京旷视科技有限公司 神经网络训练与构建方法和装置以及目标检测方法和装置
CN106651765A (zh) * 2016-12-30 2017-05-10 深圳市唯特视科技有限公司 一种采用深度神经网络的缩略图自动生成的方法
CN107077735A (zh) * 2014-10-28 2017-08-18 惠普发展公司,有限责任合伙企业 三维对象识别

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6996505B1 (en) * 2000-06-21 2006-02-07 Raindrop Geomagic, Inc. Methods, apparatus and computer program products for automatically generating nurbs models of triangulated surfaces using homeomorphisms
JP4978615B2 (ja) 2008-11-27 2012-07-18 三菱電機株式会社 対象特定装置
US8605998B2 (en) * 2011-05-06 2013-12-10 Toyota Motor Engineering & Manufacturing North America, Inc. Real-time 3D point cloud obstacle discriminator apparatus and associated methodology for training a classifier via bootstrapping
WO2014020364A1 (en) * 2012-07-30 2014-02-06 Zinemath Zrt. System and method for generating a dynamic three-dimensional model
US9269022B2 (en) * 2013-04-11 2016-02-23 Digimarc Corporation Methods for object recognition and related arrangements
US9037396B2 (en) * 2013-05-23 2015-05-19 Irobot Corporation Simultaneous localization and mapping for a mobile robot
US9715761B2 (en) * 2013-07-08 2017-07-25 Vangogh Imaging, Inc. Real-time 3D computer vision processing engine for object recognition, reconstruction, and analysis
US20150131924A1 (en) * 2013-11-13 2015-05-14 Microsoft Corporation Creation of Rectangular Images from Input Images
TWI534755B (zh) * 2013-11-20 2016-05-21 財團法人資訊工業策進會 三維立體模型之建立方法和裝置
US10203762B2 (en) * 2014-03-11 2019-02-12 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality
WO2015154008A1 (en) * 2014-04-04 2015-10-08 Massachusetts Institute Of Technology System and method for extracting dominant orientations from a scene
WO2015157643A1 (en) * 2014-04-10 2015-10-15 Vega-Avila Rolando Solar energy forecasting
US9846961B2 (en) * 2014-04-30 2017-12-19 Intel Corporation System and method of limiting processing by a 3D reconstruction system of an environment in a 3D reconstruction of an event occurring in an event space
US9858681B2 (en) * 2014-10-27 2018-01-02 Digimarc Corporation Signal detection, recognition and tracking with feature vector transforms
US10043097B2 (en) * 2015-03-10 2018-08-07 Fringefy Ltd. Image abstraction system
US9881226B1 (en) * 2015-09-24 2018-01-30 Amazon Technologies, Inc. Object relation builder
CN107025642B (zh) 2016-01-27 2018-06-22 百度在线网络技术(北京)有限公司 基于点云数据的车辆轮廓检测方法和装置
EP3408848A4 (en) * 2016-01-29 2019-08-28 Pointivo Inc. SYSTEMS AND METHOD FOR EXTRACTING INFORMATION ON OBJECTS FROM SCENE INFORMATION
CA3014446A1 (en) * 2016-02-29 2017-11-23 Urugus S.A. System for planetary-scale analytics
WO2017214595A1 (en) * 2016-06-10 2017-12-14 The Board Of Trustees Of The Leland Systems and methods for performing three-dimensional semantic parsing of indoor spaces
US10304191B1 (en) * 2016-10-11 2019-05-28 Zoox, Inc. Three dimensional bounding box estimation from two dimensional images
AU2017361061B2 (en) * 2016-11-15 2022-02-03 Magic Leap, Inc. Deep learning system for cuboid detection
US10096122B1 (en) * 2017-03-28 2018-10-09 Amazon Technologies, Inc. Segmentation of object image data from background image data
US10395144B2 (en) * 2017-07-24 2019-08-27 GM Global Technology Operations LLC Deeply integrated fusion architecture for automated driving systems
US10438371B2 (en) 2017-09-22 2019-10-08 Zoox, Inc. Three-dimensional bounding box from two-dimensional image and point cloud data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107077735A (zh) * 2014-10-28 2017-08-18 惠普发展公司,有限责任合伙企业 三维对象识别
CN106295678A (zh) * 2016-07-27 2017-01-04 北京旷视科技有限公司 神经网络训练与构建方法和装置以及目标检测方法和装置
CN106651765A (zh) * 2016-12-30 2017-05-10 深圳市唯特视科技有限公司 一种采用深度神经网络的缩略图自动生成的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIAOZHI CHEN 等.Multi-view 3D Object Detection Network for Autonomous Driving.ARXIV - 1611.07004V2, pages 6526 - 6534, XP055530958, ISBN: 978-1-5386-0457-1, DOI: 10.1109/CVPR.2017.691.2017,第1节-第3节,图1-6. *

Also Published As

Publication number Publication date
JP7282080B2 (ja) 2023-05-26
US10438371B2 (en) 2019-10-08
US20200005485A1 (en) 2020-01-02
US20190096086A1 (en) 2019-03-28
CN117636331A (zh) 2024-03-01
CN111108507A (zh) 2020-05-05
JP2020534617A (ja) 2020-11-26
US11216971B2 (en) 2022-01-04
WO2019060125A1 (en) 2019-03-28
EP3685306A1 (en) 2020-07-29

Similar Documents

Publication Publication Date Title
CN111108507B (zh) 根据二维图像和点云数据生成三维边界框
US11361196B2 (en) Object height estimation from monocular images
US11688161B2 (en) Three dimensional bounding box estimation from two dimensional images
US9933264B2 (en) System and method for achieving fast and reliable time-to-contact estimation using vision and range sensor data for autonomous navigation
CN111615703B (zh) 传感器数据分割
US10991156B2 (en) Multi-modal data fusion for enhanced 3D perception for platforms
EP3414641B1 (en) System and method for achieving fast and reliable time-to-contact estimation using vision and range sensor data for autonomous navigation
WO2019179464A1 (zh) 用于预测目标对象运动朝向的方法、车辆控制方法及装置
US20190073524A1 (en) Method and apparatus for predicting walking behaviors, data processing apparatus, and electronic device
EP2671384B1 (en) Mobile camera localization using depth maps
CN110796692A (zh) 用于同时定位与建图的端到端深度生成模型
CN113378760A (zh) 训练目标检测模型和检测目标的方法及装置
US20220156483A1 (en) Efficient three-dimensional object detection from point clouds
Ruf et al. Real-time on-board obstacle avoidance for UAVs based on embedded stereo vision
EP3639192A1 (en) Computer vision-based thin object detection
CN113378605B (zh) 多源信息融合方法及装置、电子设备和存储介质
CN112509126A (zh) 三维物体检测的方法、装置、设备及存储介质
CN115359326A (zh) 单目3d目标检测方法及装置
EP4206977A1 (en) Electronic device and control method of electronic device
CN115588187A (zh) 基于三维点云的行人检测方法、装置、设备以及存储介质
US11417063B2 (en) Determining a three-dimensional representation of a scene
EP4242986A1 (en) Method and system to detect and estimate dynamic obstacles using rgbd sensors for robot navigation
CN117746417A (zh) 目标检测模型构建方法、目标检测方法及相关装置
KR20220061812A (ko) 전자 장치 및 전자 장치의 제어 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant