CN110325818B - 经由多模融合的联合3d对象检测和取向估计 - Google Patents

经由多模融合的联合3d对象检测和取向估计 Download PDF

Info

Publication number
CN110325818B
CN110325818B CN201880013889.3A CN201880013889A CN110325818B CN 110325818 B CN110325818 B CN 110325818B CN 201880013889 A CN201880013889 A CN 201880013889A CN 110325818 B CN110325818 B CN 110325818B
Authority
CN
China
Prior art keywords
proposals
candidates
point cloud
pooling
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880013889.3A
Other languages
English (en)
Other versions
CN110325818A (zh
Inventor
王健一
陈怡婷
阿萨马纳拉亚南·拉克希米纳拉亚南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of CN110325818A publication Critical patent/CN110325818A/zh
Application granted granted Critical
Publication of CN110325818B publication Critical patent/CN110325818B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C3/00Measuring distances in line of sight; Optical rangefinders
    • G01C3/02Details
    • G01C3/06Use of electric means to obtain final indication
    • G01C3/08Use of electric radiation detectors
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/02Systems using the reflection of electromagnetic waves other than radio waves
    • G01S17/06Systems determining position data of a target
    • G01S17/42Simultaneous measurement of distance and other co-ordinates
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/48Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S17/00
    • G01S7/4802Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S17/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Remote Sensing (AREA)
  • Electromagnetism (AREA)
  • Radar, Positioning & Navigation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

本公开整体涉及用于从3D点云和2D图像识别对象的方法和***。该方法可包括使用3D点云上的欧几里徳聚类确定第一组3D提案,以及基于3D卷积神经网络来确定来自3D点云的第二组3D提案。该方法可包括池化第一组3D提案和第二组3D提案来确定一组3D候选者。该方法可包括将第一组3D提案投影到2D图像上以及使用2D卷积神经网络来确定第一组2D提案。该方法可包括池化投影的第一组3D提案和第一组2D提案以确定一组2D候选者,随后池化该一组3D候选者和该一组2D候选者。

Description

经由多模融合的联合3D对象检测和取向估计
相关申请的交叉引用
本专利申请要求2017年3月17日提交的名称为“JOINT 3D OBJECT DETECTION ANDORIENTATION ESTIMATION VIA MULTIMODALFUSION”的临时申请号62/473,054的优先权,该临时申请被转让给其受让人并且其全文以引用方式并入本文。
背景技术
了解三维(3D)场景对于包括自动驾驶和高级驾驶辅助***的许多应用可为有用的。在这些应用中,定位和识别不同的交通参与者(例如,车辆、行人和骑车者)以进行决策、风险评估和运动规划可为有用的。在自动驾驶平台上,通常使用多模感知设备,因为每个传感器都有其优缺点。相机和光检测和测距(LiDAR)是两个常见的感知传感器。图像包含用于识别任务的大量视觉提示。然而,图像质量可受不同照明变化的影响,并且由于透视投影,可能难以从图像数据重构深度信息。另一方面,LiDAR传感器提供精确的深度测量并且照明不变。然而,LiDAR传感器数据相对稀疏,使得难以像在图像域中那样精确地识别对象。
鉴于上述情况,可存在更准确地检测感兴趣的对象并估计它们的在3D中取向的方法。通过下文提供的公开内容,其他优点将变得显而易见。
发明内容
提供该发明内容是为了引入对简化形式的概念的选择,这些概念将在下文具体实施方式中进一步描述。本发明内容并非旨在识别受权利要求书保护的主题的关键特征,也不旨在用于辅助确定受权利要求书保护的主题的范围。
在一个方面,本公开提供了用于从3D点云和2D图像识别对象的方法。该方法可包括使用3D点云上的欧几里德聚类确定第一组3D提案。该方法可包括基于3D卷积神经网络确定来自3D点云的第二组3D提案。该方法可包括池化第一组3D提案和第二组3D提案来确定一组3D候选者。该方法可包括将第一组3D提案投影到2D图像上。该方法可包括使用2D卷积神经网络基于图像确定第一组2D提案。该方法可包括池化投影的第一组3D提案和第一组2D提案来确定一组2D候选者。该方法可包括池化一组3D候选者和一组2D候选者。
在另一方面,本公开提供了一种车辆,其包括被配置为获得2D图像的相机和被配置为获得3D点云的光检测和测距(LiDAR)***。车辆可包括被配置为识别来自3D点云和2D图像的对象的多模融合***。多模融合***可包括存储器和通信地耦接到存储器的处理器。处理器可被配置为使用3D点云上的欧几里徳聚类来确定第一组3D提案。处理器可被配置为基于3D卷积神经网络确定来自3D点云的第二组3D提案。处理器可被配置为池化第一组3D提案和第二组3D提案来确定一组3D候选者。处理器可被配置为将第一组3D提案投影到2D图像上。处理器可被配置为使用2D卷积神经网络基于图像确定第一组2D提案。处理器可被配置为池化投影的第一组3D提案和第一组2D提案来确定一组2D候选者。处理器可被配置为池化一组3D候选者和一组2D候选者。
在另一方面,本公开提供一种非暂态计算机可读介质,其包括指令,该指令当由处理器执行时使得处理器识别来自3D点云和2D图像的对象。计算机可读介质可包括用于使用3D点云上的欧几里徳聚类来确定第一组3D提案的指令。计算机可读介质可包括用于基于3D卷积神经网络确定来自3D点云的第二组3D提案的指令。计算机可读介质可包括用于池化第一组3D提案和第二组3D提案以确定一组3D候选者的指令。计算机可读介质可包括用于将第一组3D提案投影到2D图像上的指令。计算机可读介质可包括用于使用2D卷积神经网络基于图像确定第一组2D提案的指令。计算机可读介质可包括用于池化第一组3D提案和第一组2D提案以确定一组2D候选者的指令。计算机可读介质可包括用于池化一组3D候选者和一组2D候选者的指令。
在查看以下具体实施方式后,将更充分地理解本发明的这些和其他方面。
附图说明
据信表示本公开的特征的新型特征在所附权利要求书中示出。在随后的描述中,在整个说明书和附图中分别用相同的数字标记类似的部件。附图未必按比例绘制,并且为了清楚和简洁起见,某些附图可以放大或广义的形式示出。然而,当结合附图阅读时,通过参考以下对本公开的示例性方面的详细描述,将最好地理解本公开本身以及优选的使用模式以及另外的对象及其进展,其中:
图1示出了根据本公开的方面的用于3D对象检测和取向的多模融合***的示例性操作环境的示意图;
图2示出了示出根据本公开的方面的多模融合***的总体架构的概念图;
图3示出了根据本公开的方面的用于对象检测的示例性3D点云;
图4示出了根据本公开的方面的用于对象检测的示例性2D图像;
图5示出了示出根据本公开的方面的对象检测和定位的示例性方法的流程图;
图6呈现了根据本公开的方面使用的各种硬件部件和其他特征部的示例性***图;并且
图7为根据本公开的方面使用的各种示例性***部件的框图。
具体实施方式
以下包括本文所用的选定术语的定义。这些定义包括落在术语范围内并且可用于实施的各种示例和/或组件形式。这些示例并非旨在进行限制。
如本文所用,“处理器”处理信号并执行一般计算和算术功能。由处理器处理的信号可包括数字信号、数据信号、计算机指令、处理器指令、消息、比特、比特流,或可被接收、传输和/或检测的其他计算。
如本文所用,“总线”是指可操作地连接以在单个或多个***内的计算机部件之间传输数据的互连架构。总线可以是存储器总线、存储器控制器、***总线、外部总线、交换开关和/或本地总线等等。总线也可以是使用协议诸如控制器区域网络(CAN)、本地互连网络(LIN)等协议来互连车辆内部部件的车辆总线。
如本文所用,“存储器”可包括易失性存储器和/或非易失性存储器。非易失性存储器可包括例如ROM(只读存储器)、PROM(可编程只读存储器)、EPROM(可擦除PROM)和EEPROM(可电擦除的PROM)。易失性存储器可包括例如RAM(随机存取存储器)、同步RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDRSDRAM)和/或直连RAM总线RAM(DRRAM)。
如本文所用,“可操作连接”可包括实体“可操作地连接”的连接,即在该连接中,可发送和/或接收信号、物理通信和/或逻辑通信。可操作的连接可包括物理接口、数据接口和/或电接口。
如本文所用,“车辆”是指由任何形式的能量供电的任何移动车辆。车辆可载有人或货物。术语“车辆”包括但不限于:轿车、卡车、货车、小型货车、SUV、摩托车、踏板车、船只、个人船只和飞行器。在一些情况下,机动车辆包括一个或多个引擎。
最近关于2D对象检测的工作由于深度卷积神经网络的成功而取得了巨大的进展。然而,已知从图像重构深度信息具有挑战性,因为3D对象检测可能需要深度信息。本公开提供了一种利用LiDAR点云数据和图像数据来定位3D中的对象的***。本公开提供了用于在驾驶场景中处理多类对象的有效的3D对象提案算法。本公开提供了一种将2D和3D卷积神经网络与2D和3D感兴趣区域(ROI)池化整合在一起的框架。本公开提供了一种多模框架,其使用紧凑的双线性池化算法合并来自图像和点云的信息。该框架在挑战真实数据集诸如KITTI数据集方面显示出有利的结果。
转到图1,其提供了根据本公开的一个方面的用于3D对象检测和取向的对象检测***110的示例性操作环境100的示意图。对象检测***110可驻留在车辆102内。可将对象检测***110的部件以及本文所述的其他***、硬件架构和软件架构的部件组合、省略或组织成各种具体实施。
车辆102通常可包括可操作地控制多个车辆***的电子控制单元(ECU)112。车辆***可包括但不限于包括多模融合***140等的对象检测***110,包括车辆HVAC***、车辆音频***、车辆视频***、车辆信息娱乐***、车辆电话***等。多模融合***140可包括相机120或其他图像捕获设备(例如扫描器),其也可连接到ECU 112以提供车辆102周围的环境的图像,如下文更详细所述。多模融合***140还可包括可捕获3D点云的LiDAR传感器122。对象检测***110还可包括处理器114和存储器116,该处理器和存储器与相机120、LiDAR传感器122、通信设备130和自动驾驶***132通信。
ECU 112可包括内部处理存储器、接口电路以及用于传输数据,发送命令以及与车辆***通信的总线。ECU 112可包括内部处理器和存储器,其未示出。车辆102还可包括用于在对象检测***110的各个部件之间内部发送数据的总线。
车辆102还可包括通信设备130(例如,无线调制解调器),以用于利用各种协议来提供有线或无线计算机通信,以在内部相对于车辆102内的特征部和***以及相对于外部设备发送/接收电子信号。这些协议可包括利用射频(RF)通信(例如,IEEE 802.11(Wi-Fi)、IEEE 802.15.1
Figure BDA0002178951540000051
)的无线***、近场通信***(NFC)(例如,ISO 13157)、局域网(LAN)、无线广域网(WAN)(例如蜂窝)和/或点对点***。另外,车辆102的通信设备130可被可操作地连接以经由总线(例如,CAN或LIN协议总线)进行内部计算机通信,以有利于电子控制单元112与车辆特征部和***之间的数据输入和输出。在一个方面,通信设备130可被配置用于车辆到车辆(V2V)通信。例如,V2V通信可包括预留频谱上的无线通信。又如,V2V通信可包括使用Wi-Fi或
Figure BDA0002178951540000052
组建的车辆之间的自组织网络。
车辆102可包括至少一个相机120。相机120可以是能够捕获一个或多个图像或图像流的数字相机,或者可以是另一个图像捕获设备,诸如扫描仪。相机120可在车辆102的正前方提供空间的图像。其他相机可提供围绕车辆102的其他空间的图像。例如,后置相机可位于车辆的保险杠上方。相机120可向多模融合***140的2D分支146和多模融合***140的3D分支144提供图像。
车辆102可包括至少一个光检测和测距(LiDAR)传感器122。LiDAR传感器122可利用激光照射区域并检测反向散射。LiDAR传感器122可生成指示对象反射激光的潜在位置的3D点云。LiDAR传感器122还可向多模融合***140的3D分支144和3D提案模块142提供3D点云。
车辆102可包括用于控制车辆102的自动驾驶***132。除了其他***之外,自动驾驶***132可包括车道保持辅助***、碰撞警告***或完全自主驾驶***。自动驾驶***132可从多模融合***140接收对象位置和取向信息。在一个方面,多模融合***140可为自动驾驶***132的部件。
图2示出了示出多模式融合***的总体框架的概念图200。整个框架由若干部分组成:3D对象提案模块142、3D神经网络分支144、2D神经网络分支146和用于检测和取向估计的多模紧凑双线性(MCB)池化层148。
3D对象提案模块142可生成一小组3D候选框,以便将大多数前景对象定位在3D空间中。3D对象提案模块142可利用离散的3D网格下的占用估计和具有原始点云的3D几何分析来在3D空间中提出精确的对象提案。
图3示出了示例性LiDAR点云202。利用LiDAR点云202的单个帧(例如,来自LiDAR传感器122),由于LiDAR范围的封闭和限制,定位每一个周围对象是具有挑战性的。例如,落在前景对象上的LiDAR射线会遮挡另一个对象。又如,由于指数LiDAR功率随距离增大而减小,因此远处对象的LiDAR射线可为稀疏的。然而,可将LiDAR用于单帧LiDAR点云的最佳能力以获得对周围环境的良好估计。通过跟踪单个帧中的每个LiDAR光线,3D对象提案模块142可估计空间的占用概率。该方法可被称为二进制占用网格模型,并且可生成二进制占用网格204。在将3D空间离散成体素之后,3D对象提案模块142可对被占用或未被占用的每个体素采用二进制状态。3D对象提案模块142可迭代地更新由LiDAR射线遍历的每个体素的占用对数几率。例如,用于更新体素的占位对数几率的过程描述于D.Maturana和S.Scherer的“VoxNet:A 3D Convolutional Neural Network for Real-Time Object Recognition”(IROS,2015)中,该文献以引用方式并入本文。3D对象提案模块142可产生对应于每个体素的占用概率,范围为[0,1]。对于在过程中没有更新的体素,由于它们位于LiDAR命中表面(例如,封闭表面)后面,因此3D对象建议模块可将它们假定为被占据并将该概率设置为1,这不同于Maturana和Scherer的过程。离散化占用网格不仅提供缩小前景对象的可能位置的LiDAR命中表面,而且还减小了3D输入的大小以用于在端到端融合网络中进一步提取特征。
在室外驾驶场景下捕获的单帧LiDAR点云202具有类似的模式,并且通过仅考虑原始LiDAR点云的几何提示,很容易从其提取有意义的群集。3D对象提案模块142可首先使用地面移除模块220移除地面点,该地面移除模块可例如执行渐进式形态学滤波算法。示例性算法描述于K.Zhang、S.-C.Chen、D.Whitman、M.-L.Shyu、J.Yan和C.Zhang的“AProgressive Morphological Filter for Removing Nonground Measurements FromAirborne LIDAR Data”(IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING,41(4):872–882,2003)中,该文献以引用方式并入本文。该示例性算法通常用于提取地面点,并且对于道路上的***是稳健的。在地面点脱离点云之后,3D对象提案模块142可使用欧几里徳聚类模块222,该模块可执行欧几里徳聚类算法以将点云202的其余部分聚类并获得可能的对象群集。对于集群c中的点p,3D对象提案142模块可将p与其最近的邻居之间的欧几里徳距离表示为d1。如果距离d1小于或等于阈值th,则群集中包括最近的邻居。由于室外场景中对象之间的距离不同,因此可选择不同的阈值th以提取具有不同粒度的对象群集。
尽管从3D几何分析获得的对象群集可指示周围对象的大致位置,但3D对象提案模块142还可提出具有更精确的位置和尺寸的3D框。3D对象提案模块142可包括3D提案生成模块224,以将每个3D提案框226参数化为(l,w,h,x,y,z),其为LiDAR坐标系中的3D提案框226的尺寸(长度、宽度和高度)和中心(x,y,z)(以米为单位)。3D对象建议模块142可为与目标对象类别的公共纵横比对应的3D提案框226指定一小组尺寸Ssize。用于3D对象方案生成的示例性算法在X.Chen、H.Ma、J.Wan、B.Li和T.Xia的“Multi-View 3D Object DetectionNetwork for Autonomous Driving”(CVPR,2017)中有所描述,该文献以引用的方式并入本文。
3D对象提案模块142可使用平均移位聚类算法来将训练集中的地面实况(GT)对象尺寸聚类以获得Ssize。对于从3D几何分析获得的每个对象群集,3D对象提案模块142可提出具有(l,w,h)∈Ssize的框。可将提案的取向固定成与LIDAR坐标系中的长轴对齐。
关于每个3D提案框226的位置,可基于来自3D几何分析的地面高度和对象高度h来计算框中心的z坐标。确定(x,y)可利用得自占用网格204的3D空间中的占用估计。直观来看,可假设周围对象不应位于LiDAR命中表面的前方并覆盖自由空间。因此,通过利用来自占用网格204的LIDAR命中表面提示,对于每个纵横比,3D对象提案模块142可生成可同时包围对象群集并覆盖大部分占用空间的提案框226。3D对象提案模块142可变化(x,y)以查找被占用最多的框,因为z已为固定的。对象群集在xy平面上的边界可被表示为:(Objxmin,Objymin,Objxmax,Objymax)。在提案尺寸(l,w)的情况下,中心的可能位置的范围是[Objxmax–l/2,Objxmin+l/2]x[Objymax-w/2,Objymin+w/2]。对于中心的每个可能位置,3D对象提案模块142可计算框中的占用几率的和,并且最后选择具有最大占用概率的位置。若当Objxmax-l/2>Objxmin+l/2或Objymax-w/2>Objymin+w/2时对象群集太大而无法被框包围,则3D对象提案模块142可生成具有x=(Objxmin+Objxmax)/2以及y=(Objymin+Objymax)/2的框226,因为对象群集不总是完美的。最后,如果Ssize有N个不同的尺寸和来自3D几何分析的K个对象群集,则将存在NK个不同的提案框。由于来自3D几何分析的对象群集K的数量不同,因此点云的每个帧的提案数量将有所不同。
多模融合***140可提供来自多模信息的精确的3D定位和分类结果。尽管LiDAR点云202可提供对象的更稳健的3D定位(包括位置和取向),但对LiDAR点云202的分析无法使用稀疏数据很好地识别对象。另一方面,图像206具有更好的识别对象的能力,因为图像206具有来自红绿蓝(RGB)信道的信息并且提供更密集的结构化数据。图4示出了示例性图像206,其示出了与图3中的点云202相同的环境的表示。因此,多模融合***140可使用3D神经网络分支144和2D神经网络分支146来利用这两组数据的优点,并且可共同对3D对象提案进行分类并进行3D提案框回归。
多模融合***140的3D分支144可将整个占用网格204作为输入,其表示具有较低分辨率的原始3D LIDAR点云202。3D分支144可使用若干3D卷积层210,214和最大池化层212来提取特征。3D分支144可为每个3D提案框226生成3D的卷积特征图。一种示例性技术描述于R.Girshick的“Fast R-CNN”(ICCV,2015)中,该文献以引用的方式并入本文。3D分支144可使用3D感兴趣区域(ROI)池化层216从由卷积层214输出的特征图提取固定尺寸的3D特征向量。完全连接的层218可堆叠在3D分支144的末端,以使特征向量扁平化以用于进一步的融合过程。
对于网络设计,示例性3D分支144堆叠具有最大池化层212的两个3D卷积层210,接着堆叠另外两个3D卷积层214以从占用网格提取特征。例如,3D卷积层210可针对神经网络使用参数(32,5,2,1)。卷积层214可针对神经网络使用参数(64,5,2,1)。交通场景(例如,点云202)中的目标对象(例如,轿车、行人、骑车者)的尺寸与整个3D空间相比可非常小,因此3D支路144可仅应用一个最大池化层212以保持大的特征图,以便检测那些小对象。由于与图像206相比,占用网格204中的结构化信息较少,因此发现该架构设计被提供用于学习功能强大的3D表示。
融合网络200的2D分支146可包括2D卷积网络230,诸如如Girshick所述的Fast-RCNN网络。Fast-RCNN网络可采用整个图像206作为输入,并且可使用VGG16网络生成2D特征图。此外,2D提案框232可通过投影从3D提案框226获得。然后,2D ROI池化层234可为每个2D提案框232提取固定的2D特征向量。接下来,完全连接的层236可如在3D分支144中那样使2D特征向量变平。
为了利用来自两个输入(点云202和图像206)的优点,多模紧凑双线性(MCB)池化层148可用于高效且快速地组合多模特征。原始双线性池化模型计算两个向量之间的外积,这允许两个向量的所有元素之间的相乘交互作用。然后,原始双线性池化模型利用CountSketch投影函数来减小双线性池化的维度并提高其效率。原始双线性池化模型的示例描述于A.Fukui、D.H.Park、D.Yang、A.Rohrbach、T.Darrell和M.Rohrbach的“MultimodalCompact Bilinear Pooling for Visual Question Answering and Visual Grounding”(arXiv,2016)和Y.Gao、O.Beijbom、N.Zhang和T.Darrell的“Compact Bilinear Pooling”(CVPR,2016)中,所述文献均以引用方式并入本文。通过组合来自视觉表示和文本表示的多模特征,将原始紧凑双线性池化层应用到视觉问题回答任务。多模紧凑双线性池化的成功已示出其处理来自两个非常不同的域的特征融合的潜力。
在一个方面,多模紧凑双线性池化层148可采用由3D分支144从3D域提取的两个扁平化特征向量和由2D分支146从2D域提取的两个扁平化特征向量,并产生用于分类和3D边界框回归的4096-D多模表示。分类可由分类模块240执行。
考虑到来自多模紧凑双线性池化层148的融合表示,边界框回归模块242可从3D提案框226中回归3D边界框的取向和尺寸。对于尺寸回归,类似于Fast-RCNN,边界框回归模块242可通过t=(Δx,Δy,Δz,Δl,Δw,Δh)来对回归目标参数化,其中(Δx,Δy,Δz)为由方案尺寸归一化的中心偏移,并且(Δl,Δw,Δh)计算为Δs=log(sGT/sproposal),s∈{l,w,h}。对于取向回归,3D取向回归模块244可通过Δθ=θGTproposal来对回归目标参数化,其中θ为3D边界框围绕z轴的旋转角度。在车辆设置中,对地面实况(GT)进行标注,使得(l,w,h)始终与(x,y,z)轴对齐,因此角度范围可限制在[-π/4,π/4]中,这使得取向回归更容易。由于提案框被设置为与LIDAR坐标中的长轴对齐(θproposal=0),因此可将取向目标简化为Δθ=ΔGT
图5示出了用于检测对象和取向的示例性方法500的流程图。方法500可由车辆102内的对象检测***110执行。
在框510处,方法500可包括使用3D点云上的欧几里徳聚类确定第一组3D提案。在一个方面,例如,3D提案模块142可使用3D点云上的欧几里徳聚类来确定第一组3D提案。在一个方面,框510可包括生成表示3D点云的离散体素的占用网格。例如,3D提案模块142可生成二进制占用网格204。框510可包括基于3D点云将每个体素指定为被占用或未被占用。例如,3D提案模块142可基于点云202将二进制占用网格204的每个体素指定为被占用或未被占用。框510可包括使用与由LiDAR射线遍历的体素对应的占用概率来更新占用网格。例如,3D提案模块142可使用与由LiDAR射线遍历的体素对应的占用概率来更新二进制占用网格204。框510可包括设置封闭体素的占用概率以指示体素被占用。例如,3D提案模块142可设定二进制占用网格204中的封闭体素的占用概率,以指示体素被占用。例如,被表面封闭的体素可假定被表面后方的对象占用。
在另一方面,框510可包括从3D点云移除地面点。例如,地面移除模块220可从点云202移除地面点。框510可包括将点云中的具有小于阈值的欧几里徳距离的点聚类为所提议的群集。例如,欧几里徳聚类模块222可将点云202中的具有小于阈值的欧几里徳距离的点聚类到所提议的群集中。
在一个方面,框510可包括将每个所提议的群集参数化为具有长度、宽度、高度和中心坐标的3D提案框。例如,3D提案生成模块224可将每个所提议的群集参数化为具有长度、宽度、高度和中心坐标的3D提案框226。3D提案生成模块224可基于地面高度(由地面移除模块220确定)和提案框226的高度来设定中心坐标的z坐标。在一个方面,框510可包括生成具有固定长度和高度的至少一个提案框226。可选择提案框226的中心坐标的x坐标和y坐标,以使提案框226内的体素的占用概率最大化。例如,3D提案生成模块224可设置固定长度和高度(例如,基于预先确定的对象类型)并选择使提案框226的占用率最大化的x坐标和y坐标。3D提案生成模块224可为所提议的群集生成多个提案框,每个提案框具有长度、高度和宽度的不同组合(例如,对应于不同的预定对象类型)。在框520处,方法500可包括基于3D卷积神经网络来确定来自3D点云的第二组3D提案。在一个方面,例如,3D分支144可基于3D卷积神经网络来确定来自3D点云的第二组3D提案。在一个方面,3D支路144可应用多个卷积层和至少一个最大池化层,以产生包括第二组3D提案的卷积特征图。例如,3D卷积神经网络可包括3D卷积层310、最大池化层212和3D卷积层312。
在框530处,方法500可包括池化第一组3D提案和第二组3D提案以确定一组3D候选者。在一个方面,例如,3D分支144可池化第一组3D提案和第二组3D提案以确定一组3D候选者。在一个方面,在框530中池化第一组3D提案和第二组3D提案可包括从卷积特征图中提取针对第二组3D提案中的每个3D提案的固定尺寸的3D特征向量。例如,3D ROI池化层144可从卷积特征图中提取针对第二组3D提案中的每个3D提案的固定尺寸的3D特征向量。框530还可包括使用完全连接的层使固定尺寸的3D特征向量扁平化。例如,3D支路144可使用完全连接的层218来使固定尺寸的3D特征向量扁平化。
在框540处,方法500可包括将第一组3D提案投影到2D图像上。在一个方面,例如,2D分支146可将第一组3D提案投影到2D图像上。2D分支146可生成2D提案框232。
在框550处,方法500可包括使用2D卷积神经网络基于图像确定第一组2D提案。在一个方面,例如,2D分支146可使用2D卷积神经网络230基于图像来确定第一组2D提案。例如,2D卷积神经网络230可产生包括第一组2D提案的2D特征图。
在框560处,方法500可包括池化投影的第一组3D提案和第一组2D提案以确定一组2D候选者。在一个方面,多模紧凑双线性池化层148可池化投影的第一组3D提案和第一组2D提案以确定一组2D候选者。
在框570处,方法500可包括池化一组3D候选者和一组2D候选者。在一个方面,例如,多模紧凑双线性池化层148可池化一组3D候选者和一组2D候选者。在一个方面,框570可包括计算表示一组3D候选者的3D特征向量和表示一组2D候选者的2D特征向量之间的外积,以生成多模表示。框570还可包括从多模表示中回归3D提案框的尺寸和取向。例如,3D边界框回归模块242可回归3D提案框的尺寸,并且3D取向回归模块244可回归3D提案框的取向。
本公开的各方面可使用硬件、软件或它们的组合来实现,并且可在一个或多个计算机***或其他处理***中实现。在一个方面,本公开涉及能够执行本文所述功能的一个或多个计算机***。图6呈现了根据本公开的各方面可使用的各种硬件部件和其他特征部的示例性***图。本公开的各方面可使用硬件、软件或它们的组合来实现,并且可在一个或多个计算机***或其他处理***中实现。在一个示例性变型中,本公开的各方面涉及能够执行本文所述功能的一个或多个计算机***。此类计算机***600的示例在图6中示出。
计算机***600包括一个或多个处理器,诸如处理器604。处理器604连接至通信基础设施606(例如,通信总线、交叉条或网络)。根据该示例性计算机***描述了各个软件方面。阅读本说明之后,对于相关领域的技术人员将显而易见的是,如何使用其他计算机***和/或架构来实施本公开的各方面。
计算机***600可包括显示界面602,该显示界面转发来自通信基础设施606(或来自未示出的帧缓冲区)的图形、文本和其他数据,以用于显示在显示单元630上。计算机***600还包括主存储器608,优选地随机存取存储器(RAM),并且还可包括辅助存储器610。辅助存储器610可包括例如硬盘驱动器612和/或可移除存储驱动器614,其表示软盘驱动器、磁带驱动器、光盘驱动器等。可移除存储驱动器614以熟知的方式从可移除存储单元618读取和/或写入该可移除存储单元。可移除存储单元618表示软盘、磁带、光盘等,其被可移除存储驱动器614读取并写入该可移除存储驱动器。应当理解,可移除存储单元618包括其上存储有计算机软件和/或数据的计算机可用存储介质。
在另选的方面,辅助存储器610可包括用于允许将计算机程序或其他指令加载到计算机***600中的其他类似设备。此类设备可包括例如可移除存储单元622和接口620。此类示例可包括程序盒式存储器和盒式接口(诸如在视频游戏设备中存在的盒式接口)、可移除存储器芯片(诸如可擦除可编程只读存储器(EPROM))或可编程只读存储器(PROM)和相关联的套接字,以及允许软件和数据从可移除存储单元622传输至计算机***600的其他可移除存储单元622和接口620。
计算机***600还可包括通信接口624。通信接口624允许软件和数据在计算机***600和外部设备之间传输。通信接口624的示例可包括调制解调器、网络接口(诸如以太网卡)、通信端口、个人计算机存储卡国际协会(PCMCIA)插槽和卡等。经由通信接口624传输的软件和数据为信号628的形式,该信号可为能够被通信接口624接收的电子信号、电磁信号、光学信号或其他信号。这些信号628经由通信路径(例如,信道)626提供给通信接口624。该路径626承载信号628并且可使用电线或电缆、光纤、电话线、蜂窝链路、射频(RF)链路和/或其他通信信道来实现。在本文档中,术语“计算机程序介质”和“计算机可用介质”通常用于指诸如可移除存储驱动器680、安装在硬盘驱动器670中的硬盘以及信号628等介质。这些计算机程序产品向计算机***600提供软件。本公开的各方面涉及此类计算机程序产品。
计算机程序(也称为计算机控制逻辑)存储在主存储器608和/或辅助存储器610中。计算机程序还可经由通信接口624来接收。当被执行时,此类计算机程序使得计算机***600能够根据本公开的各方面执行各种特征,如本文所述。具体地,当执行时,计算机程序使处理器604能够执行此类特征。因此,此类计算机程序表示计算机***600的控制器。
在使用软件实现本公开的各方面的变型中,可使用可移除存储驱动器614、硬盘驱动器612或通信接口620将软件存储在计算机程序产品中并加载到计算机***600中。当由处理器604执行时,控制逻辑(软件)使得处理器604根据如本文所述的本公开的各方面来执行功能。在另一个变型中,各方面主要在硬件中使用例如硬件部件诸如专用集成电路(ASIC)来实现。实现硬件状态机以便执行本文所述的功能对于相关领域的技术人员将是显而易见的。
在另一个示例性变型中,使用硬件和软件两者的组合来实现本公开的各方面。
图7为可根据本公开的各方面使用的各种示例性***部件的框图。例如,各种部件可位于车辆102内,或者部件中的仅一些可位于车辆102内,并且其他部件可远离车辆102。***700包括一个或多个访问器760,762(本文中也可互换地称为一个或多个“用户”)和一个或多个终端742,766(此类终端可为或包括例如对象检测***110的各种特征部)。在一个方面,用于根据本公开的方面使用的数据例如由访问者760,762经由终端742,766输入和/或访问,该终端诸如个人计算机(PC)、小型计算机、大型计算机、微型计算机、电话设备或无线设备,诸如个人数字助理(“PDA”)或耦接到服务器743的手持式无线设备,诸如PC、小型计算机、大型计算机、微型计算机或具有处理器和数据仓库和/或经由例如网络744诸如互联网或内联网和耦接件745,746,764连接至数据仓库的其它设备。耦接件745,746,764包括例如有线、无线或光纤链路。在另一个示例性变型中,根据本公开的各方面的方法和***在独立环境中操作,诸如在单个终端上。
本文所讨论的本公开的各方面也可在存储计算机可执行指令的计算机可读存储介质的上下文中描述和实现。计算机可读存储介质包括计算机存储介质和通信介质。例如,闪存存储器驱动器、数字通用光盘(DVD)、光盘(CD)、软盘和磁带盒。计算机可读存储介质可包括在用于存储信息诸如计算机可读指令、数据结构、模块或其他数据的任何方法或技术中实现的易失性和非易失性、可移除和不可移除的介质。
应当理解,上述公开的特征和功能和其他特征和功能的各种具体实施或它们的替代形式或变型形式,可有利地组合为许多其他不同的***或应用。另外,本领域的技术人员可随后作出各种当前未预见或未预期的替代形式、修改形式、变型形式或改进形式,这些替代形式、修改形式、变型形式或改进形式也旨在由以下权利要求书涵盖。

Claims (20)

1.一种从3D点云和2D图像识别对象的方法,包括:
使用所述3D点云上的欧几里德聚类确定第一组3D提案;
基于3D卷积神经网络确定来自所述3D点云的第二组3D提案;
池化所述第一组3D提案和所述第二组3D提案来确定一组3D候选者;
将所述第一组3D提案投影到所述2D图像上;
使用2D卷积神经网络基于所述图像确定第一组2D提案;
池化所投影的第一组3D提案和所述第一组2D提案来确定一组2D候选者;以及
池化所述一组3D候选者和所述一组2D候选者。
2.根据权利要求1所述的方法,其中使用所述3D点云上的欧几里德聚类确定第一组3D提案包括:
生成表示所述3D点云的离散体素的占用网格;
基于所述3D点云将每个离散体素指定为被占用或未被占用;
使用与由LiDAR射线遍历的体素对应的占用概率来更新所述占用网格;以及
设置封闭体素的所述占用概率以指示与每个封闭体素对应的所述离散体素被占用。
3.根据权利要求1所述的方法,其中使用所述3D点云上的欧几里德聚类确定第一组3D提案包括:
从所述3D点云移除地面点;以及
将所述点云中的具有小于阈值的欧几里德距离的点聚类为所提议的群集。
4.根据权利要求3所述的方法,其中使用所述3D点云上的欧几里德聚类确定第一组3D提案还包括:
将每个所提议的群集参数化为具有长度、宽度、高度和中心坐标的3D提案框。
5.根据权利要求4所述的方法,其中对每个所提议的群集进行参数化包括:
基于地面高度和对象高度来设置所述中心坐标的z坐标;
生成至少一个提案框,所述至少一个提案框具有固定长度和高度和使所述提案框内的体素的占用概率最大化的x坐标和y坐标。
6.根据权利要求5所述的方法,其中生成所述至少一个提案框包括针对所提议的群集生成多个提案框,每个提案框具有长度、高度和宽度的不同组合。
7.根据权利要求1所述的方法,其中基于3D卷积神经网络来确定来自所述3D点云的第二组3D提案包括应用多个卷积层和至少一个最大池化层,以产生包括所述第二组3D提案的卷积特征图。
8.根据权利要求7所述的方法,其中池化所述第一组3D提案和所述第二组3D提案包括:
从所述卷积特征图中提取针对所述第二组3D提案中的每个3D提案的固定尺寸的3D特征向量;以及
使用完全连接的层使所述固定尺寸的3D特征向量扁平化。
9.根据权利要求1所述的方法,其中使用2D卷积神经网络基于所述图像来确定所述第一组2D提案包括使用所述2D卷积神经网络来产生2D特征图。
10.根据权利要求1所述的方法,其中池化所投影的第一组3D提案和所述第一组2D提案以确定一组2D候选者包括为每个2D提案框提取固定的2D特征向量。
11.根据权利要求4所述的方法,其中池化所述一组3D候选者和所述一组2D候选者包括计算表示所述一组3D候选者的3D特征向量和表示所述一组2D候选者的2D特征向量之间的外积,以生成多模表示。
12.根据权利要求11所述的方法,其中池化所述一组3D候选者和所述一组2D候选者包括从所述多模表示中回归所述3D提案框的尺寸和取向。
13.一种车辆,包括:
相机,所述相机被配置为获得2D图像;
光检测和测距LiDAR***,所述LiDAR***被配置为获得3D点云;和
多模融合***,所述多模融合***被配置为识别来自所述3D点云和所述2D图像的对象,所述多模融合***包括存储器和通信地耦接到所述存储器的处理器,所述处理器被配置为:
使用所述3D点云上的欧几里德聚类确定第一组3D提案;
基于3D卷积神经网络确定来自所述3D点云的第二组3D提案;
池化所述第一组3D提案和所述第二组3D提案来确定一组3D候选者;
将所述第一组3D提案投影到所述2D图像上;
使用2D卷积神经网络基于所述图像确定第一组2D提案;
池化所投影的第一组3D提案和所述第一组2D提案来确定一组2D候选者;以及
池化所述一组3D候选者和所述一组2D候选者。
14.根据权利要求13所述的车辆,其中所述处理器被配置为:
生成表示所述3D点云的离散体素的占用网格;
基于所述3D点云将每个离散体素指定为被占用或未被占用;
使用与由LiDAR射线遍历的体素对应的占用概率来更新所述占用网格;以及
设置封闭体素的所述占用概率以指示与每个封闭体素对应的所述离散体素被占用。
15.根据权利要求13所述的车辆,其中所述处理器被配置为:
从所述3D点云移除地面点;以及
将所述点云中的具有小于阈值的欧几里德距离的点聚类为所提议的群集,
将每个所提议的群集参数化为具有长度、宽度、高度和中心坐标的3D提案框。
16.根据权利要求13所述的车辆,其中所述处理器被配置为应用多个卷积层和至少一个最大池化层以产生包括所述第二组3D提案的卷积特征图。
17.根据权利要求16所述的车辆,其中所述处理器被配置为:
从所述卷积特征图中提取针对所述第二组3D提案中的每个3D提案的固定尺寸的3D特征向量;以及
使用完全连接的层使所述固定尺寸的3D特征向量扁平化。
18.根据权利要求13所述的车辆,其中所述处理器被配置为提取用于每个2D提案框的固定的2D特征向量以确定所述一组2D候选者。
19.根据权利要求15所述的车辆,其中所述处理器被配置为:
计算表示所述一组3D候选者的3D特征向量和表示所述一组2D候选者的2D特征向量之间的外积,以生成多模表示;以及
从所述多模表示中回归所述3D提案框的尺寸和取向。
20.一种存储计算机可执行指令的计算机可读介质,所述计算机可执行指令在由处理器执行时使得所述处理器:
获得来自相机的2D图像以及来自光检测和测距LiDAR***的3D点云;
使用所述3D点云上的欧几里德聚类确定第一组3D提案;
基于3D卷积神经网络确定来自所述3D点云的第二组3D提案;
池化所述第一组3D提案和所述第二组3D提案来确定一组3D候选者;
将所述第一组3D提案投影到所述2D图像上;
使用2D卷积神经网络基于所述图像确定第一组2D提案;
池化所投影的第一组3D提案和所述第一组2D提案来确定一组2D候选者;以及
池化所述一组3D候选者和所述一组2D候选者。
CN201880013889.3A 2017-03-17 2018-03-16 经由多模融合的联合3d对象检测和取向估计 Active CN110325818B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762473054P 2017-03-17 2017-03-17
US62/473,054 2017-03-17
PCT/US2018/022995 WO2018170472A1 (en) 2017-03-17 2018-03-16 Joint 3d object detection and orientation estimation via multimodal fusion

Publications (2)

Publication Number Publication Date
CN110325818A CN110325818A (zh) 2019-10-11
CN110325818B true CN110325818B (zh) 2021-11-26

Family

ID=63523320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880013889.3A Active CN110325818B (zh) 2017-03-17 2018-03-16 经由多模融合的联合3d对象检测和取向估计

Country Status (5)

Country Link
US (1) US10885398B2 (zh)
JP (1) JP6799169B2 (zh)
CN (1) CN110325818B (zh)
DE (1) DE112018000899T5 (zh)
WO (1) WO2018170472A1 (zh)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11144747B2 (en) * 2017-03-31 2021-10-12 Pioneer Corporation 3D data generating device, 3D data generating method, 3D data generating program, and computer-readable recording medium storing 3D data generating program
US10751548B2 (en) * 2017-07-28 2020-08-25 Elekta, Inc. Automated image segmentation using DCNN such as for radiation therapy
US10769411B2 (en) * 2017-11-15 2020-09-08 Qualcomm Technologies, Inc. Pose estimation and model retrieval for objects in images
US11925446B2 (en) * 2018-02-22 2024-03-12 Vayyar Imaging Ltd. Radar-based classification of vehicle occupants
US11221413B2 (en) * 2018-03-14 2022-01-11 Uatc, Llc Three-dimensional object detection
US11768292B2 (en) 2018-03-14 2023-09-26 Uatc, Llc Three-dimensional object detection
US11080542B2 (en) * 2018-07-27 2021-08-03 International Business Machines Corporation Sparse region-of-interest pooling for object detection
US11100669B1 (en) * 2018-09-14 2021-08-24 Apple Inc. Multimodal three-dimensional object detection
US10984540B2 (en) * 2018-10-15 2021-04-20 Tusimple, Inc. Tracking and modeling processing of image data for LiDAR-based vehicle tracking system and method
US10983201B2 (en) * 2018-10-29 2021-04-20 Dji Technology, Inc. User interface for displaying point clouds generated by a lidar device on a UAV
DK201970115A1 (en) * 2018-11-08 2020-06-09 Aptiv Technologies Limited DEEP LEARNING FOR OBJECT DETECTION USING PILLARS
DE102018127990A1 (de) * 2018-11-08 2020-05-14 Bayerische Motoren Werke Aktiengesellschaft Verfahren und Verarbeitungseinheit zur Ermittlung von Information in Bezug auf ein Objekt in einem Umfeld eines Fahrzeugs
US20200153926A1 (en) * 2018-11-09 2020-05-14 Toyota Motor North America, Inc. Scalable vehicle data compression systems and methods
US11032370B2 (en) * 2018-11-14 2021-06-08 Toyota Jidosha Kabushiki Kaisha Wireless communications in a vehicular macro cloud
US11217012B2 (en) * 2018-11-16 2022-01-04 Uatc, Llc System and method for identifying travel way features for autonomous vehicle motion control
CN109543601A (zh) * 2018-11-21 2019-03-29 电子科技大学 一种基于多模态深度学习的无人车目标检测方法
US10861176B2 (en) 2018-11-27 2020-12-08 GM Global Technology Operations LLC Systems and methods for enhanced distance estimation by a mono-camera using radar and motion data
CN109635685B (zh) * 2018-11-29 2021-02-12 北京市商汤科技开发有限公司 目标对象3d检测方法、装置、介质及设备
US11468690B2 (en) * 2019-01-30 2022-10-11 Baidu Usa Llc Map partition system for autonomous vehicles
CN112105890B (zh) * 2019-01-30 2023-11-17 百度时代网络技术(北京)有限公司 用于自动驾驶车辆的基于rgb点云的地图生成***
EP3714285B1 (en) * 2019-01-30 2022-07-27 Baidu.com Times Technology (Beijing) Co., Ltd. Lidar localization using rnn and lstm for temporal smoothness in autonomous driving vehicles
US10817777B2 (en) * 2019-01-31 2020-10-27 StradVision, Inc. Learning method and learning device for integrating object detection information acquired through V2V communication from other autonomous vehicle with object detection information generated by present autonomous vehicle, and testing method and testing device using the same
DE102019102769A1 (de) * 2019-02-05 2020-08-06 Bayerische Motoren Werke Aktiengesellschaft Verfahren und eine Vorrichtung zur Sensordatenfusion für ein Fahrzeug
JP7201909B2 (ja) * 2019-02-25 2023-01-11 富士通株式会社 データセット作成方法、データセット作成装置、及びデータセット作成プログラム
WO2020190781A1 (en) 2019-03-16 2020-09-24 Nvidia Corporation Leveraging multidimensional sensor data for computationally efficient object detection
CN109959911A (zh) * 2019-03-25 2019-07-02 清华大学 基于激光雷达的多目标自主定位方法及装置
CN110007675B (zh) * 2019-04-12 2021-01-15 北京航空航天大学 一种基于行车态势图的车辆自动驾驶决策***及基于无人机的训练集制备方法
CN111886597A (zh) * 2019-06-28 2020-11-03 深圳市大疆创新科技有限公司 可移动平台的障碍物检测方法、装置及可移动平台
EP3980932A1 (en) * 2019-07-08 2022-04-13 Waymo LLC Object detection in point clouds
US11455806B2 (en) * 2019-07-10 2022-09-27 Deka Products Limited Partnership System and method for free space estimation
CN110490915B (zh) * 2019-08-19 2023-11-24 重庆大学 一种基于卷积受限玻尔兹曼机的点云配准方法
EP3789794A1 (de) * 2019-09-04 2021-03-10 Ibeo Automotive Systems GmbH Verfahren und vorrichtung zur distanzmessung
US11327178B2 (en) * 2019-09-06 2022-05-10 Volvo Car Corporation Piece-wise network structure for long range environment perception
CN111079523B (zh) * 2019-11-05 2024-05-14 北京迈格威科技有限公司 物体检测方法、装置、计算机设备和存储介质
GB2591171B (en) 2019-11-14 2023-09-13 Motional Ad Llc Sequential fusion for 3D object detection
US11407431B2 (en) * 2019-11-22 2022-08-09 Samsung Electronics Co., Ltd. System and method for object trajectory prediction in an autonomous scenario
US11543534B2 (en) * 2019-11-22 2023-01-03 Samsung Electronics Co., Ltd. System and method for three-dimensional object detection
CN111060923B (zh) * 2019-11-26 2022-05-13 武汉乐庭软件技术有限公司 一种多激光雷达的汽车驾驶障碍物检测方法及***
CN111179247A (zh) * 2019-12-27 2020-05-19 上海商汤智能科技有限公司 三维目标检测方法及其模型的训练方法及相关装置、设备
CN111199206A (zh) * 2019-12-30 2020-05-26 上海眼控科技股份有限公司 三维目标检测方法、装置、计算机设备及存储介质
JP7501398B2 (ja) 2020-02-18 2024-06-18 株式会社デンソー 物体検出装置
CN115176175A (zh) * 2020-02-18 2022-10-11 株式会社电装 物体检测装置
US11524701B2 (en) 2020-03-30 2022-12-13 Toyota Research Institute, Inc. Methods and systems of predicting road agent behavior using voxel grids
CN114078181A (zh) * 2020-08-19 2022-02-22 北京达佳互联信息技术有限公司 人体三维模型的建立方法、装置、电子设备及存储介质
CN112307890B (zh) * 2020-09-22 2023-01-20 西人马帝言(北京)科技有限公司 一种物体识别方法、装置、物体识别设备及存储介质
US20220270327A1 (en) * 2021-02-24 2022-08-25 Denso International America, Inc. Systems and methods for bounding box proposal generation
CN112927217B (zh) * 2021-03-23 2022-05-03 内蒙古大学 一种基于目标检测的甲状腺结节侵袭性预测方法
CN113313831B (zh) * 2021-05-24 2022-12-16 华南理工大学 基于极坐标图卷积神经网络的三维模型特征提取方法
CN113870422B (zh) * 2021-11-30 2022-02-08 华中科技大学 一种点云重建方法、装置、设备及介质
EP4224366A1 (en) 2022-02-03 2023-08-09 AImotive Kft. Neural network training method using semi-pseudo-labels
DE102022107770A1 (de) 2022-04-01 2023-10-05 Valeo Detection Systems GmbH Verfahren zur Verfolgung wenigstens eines Objekts mit wenigstens einer Detektionsvorrichtung, Detektionsvorrichtung und Fahrzeug mit wenigstens einer Detektionsvorrichtung
CN115829898B (zh) * 2023-02-24 2023-06-02 北京百度网讯科技有限公司 数据处理方法、装置、电子设备、介质以及自动驾驶车辆

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102317973A (zh) * 2009-02-13 2012-01-11 哈里公司 用于场景解释和对准性能估计的2d电光图像和3d点云数据的融合
WO2013045917A1 (en) * 2011-09-30 2013-04-04 The Chancellor Masters And Scholars Of The University Of Oxford Localising transportable apparatus
CN105825173A (zh) * 2016-03-11 2016-08-03 福州华鹰重工机械有限公司 通用道路和车道检测***与方法
CN106157309A (zh) * 2016-07-04 2016-11-23 南京大学 一种基于虚拟种子点的机载LiDAR地面点云滤波方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4232167B1 (ja) * 2007-08-27 2009-03-04 三菱電機株式会社 対象特定装置、対象特定方法および対象特定プログラム
US8705792B2 (en) * 2008-08-06 2014-04-22 Toyota Motor Engineering & Manufacturing North America, Inc. Object tracking using linear features
US8488877B1 (en) * 2009-12-02 2013-07-16 Hrl Laboratories, Llc System for object recognition in colorized point clouds
JP5950296B2 (ja) * 2012-01-27 2016-07-13 国立研究開発法人産業技術総合研究所 人物追跡属性推定装置、人物追跡属性推定方法、プログラム
US10007336B2 (en) * 2013-09-10 2018-06-26 The Board Of Regents Of The University Of Texas System Apparatus, system, and method for mobile, low-cost headset for 3D point of gaze estimation
GB2520338A (en) * 2013-11-19 2015-05-20 Nokia Corp Automatic scene parsing
EP3123399A4 (en) 2014-03-27 2017-10-04 Hrl Laboratories, Llc System for filtering, segmenting and recognizing objects in unconstrained environments
GB201616095D0 (en) * 2016-09-21 2016-11-02 Univ Oxford Innovation Ltd A neural network and method of using a neural network to detect objects in an environment

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102317973A (zh) * 2009-02-13 2012-01-11 哈里公司 用于场景解释和对准性能估计的2d电光图像和3d点云数据的融合
WO2013045917A1 (en) * 2011-09-30 2013-04-04 The Chancellor Masters And Scholars Of The University Of Oxford Localising transportable apparatus
CN105825173A (zh) * 2016-03-11 2016-08-03 福州华鹰重工机械有限公司 通用道路和车道检测***与方法
CN106157309A (zh) * 2016-07-04 2016-11-23 南京大学 一种基于虚拟种子点的机载LiDAR地面点云滤波方法

Also Published As

Publication number Publication date
JP2020509494A (ja) 2020-03-26
WO2018170472A1 (en) 2018-09-20
CN110325818A (zh) 2019-10-11
DE112018000899T5 (de) 2019-10-31
JP6799169B2 (ja) 2020-12-09
US20190188541A1 (en) 2019-06-20
US10885398B2 (en) 2021-01-05

Similar Documents

Publication Publication Date Title
CN110325818B (zh) 经由多模融合的联合3d对象检测和取向估计
CN112292711B (zh) 关联lidar数据和图像数据
CN110895674B (zh) 用于基于自我中心视觉的未来车辆定位的***和方法
US11482014B2 (en) 3D auto-labeling with structural and physical constraints
US10915793B2 (en) Method and system for converting point cloud data for use with 2D convolutional neural networks
EP3516624B1 (en) A method and system for creating a virtual 3d model
US10282860B2 (en) Monocular localization in urban environments using road markings
Yao et al. Estimating drivable collision-free space from monocular video
Chen et al. RoIFusion: 3D object detection from LiDAR and vision
EP3903293A1 (en) Crowdsourced detection, identification and sharing of hazardous road objects in hd maps
US11669972B2 (en) Geometry-aware instance segmentation in stereo image capture processes
CN112997187A (zh) 基于鸟瞰图点云的二维对象边界框信息估计
Giering et al. Multi-modal sensor registration for vehicle perception via deep neural networks
US11062141B2 (en) Methods and apparatuses for future trajectory forecast
Ruf et al. Real-time on-board obstacle avoidance for UAVs based on embedded stereo vision
EP3703008A1 (en) Object detection and 3d box fitting
CN116310673A (zh) 一种基于点云与图像特征融合的三维目标检测方法
CN112861599A (zh) 用于对道路上的对象进行分类的方法和设备、计算机程序及存储介质
Li et al. Feature point extraction and tracking based on a local adaptive threshold
Sahdev Free space estimation using occupancy grids and dynamic object detection
CN112433193B (zh) 一种基于多传感器的模位置定位方法及***
Dai et al. Enhanced Object Detection in Autonomous Vehicles through LiDAR—Camera Sensor Fusion
Dworak et al. Cross-Domain Spatial Matching for Camera and Radar Sensor Data Fusion in Autonomous Vehicle Perception System
Zhu et al. A survey on deep learning approaches for data integration in autonomous driving system
US20230342944A1 (en) System and Method for Motion Prediction in Autonomous Driving

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant