CN110726399A

CN110726399A - 姿态估计

Info

Publication number: CN110726399A
Application number: CN201910637488.1A
Authority: CN
Inventors: 勒达·戴勒; 金塔拉斯·文森特·普斯科里奥斯; 古萨姆·肖林格
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2018-07-16
Filing date: 2019-07-15
Publication date: 2020-01-24
Also published as: US20200020117A1; DE102019119162A1

Abstract

本公开提供了“姿态估计”。一种计算***可以基于图像中的第一车辆的宽度、高度和位置而裁剪所述图像。所述计算***可以基于将所述裁剪的图像以及所述第一车辆的所述宽度、所述高度和所述位置输入深度神经网络中而估计所述第一车辆的姿态。然后，所述计算***可以基于所述估计的姿态而操作第二车辆。

Description

姿态估计

技术领域

本公开大体涉及车辆传感器，并且更具体地涉及估计车辆姿态。

背景技术

车辆可以被配备来在自主和乘员导引模式两者下操作。车辆可以被配备有计算装置、网络、传感器和控制器以获取关于车辆环境的信息并基于该信息来操作车辆。车辆的安全和舒适的操作可以取决于获取关于车辆环境的准确和及时的信息。车辆传感器可以提供关于在车辆环境中要行驶的路线和要避开的对象的数据。车辆的安全和有效的操作可以取决于当车辆在道路上操作时获取关于在车辆环境中的路线和对象的准确和及时的信息。存在用于识别造成碰撞风险的对象的现有机制和/或在规划车辆沿路线的路径时应考虑到这些机制。然而，还有改善对象识别和估计技术的空间。

发明内容

在车辆中的计算装置可以被编程为获取关于车辆周围的外部环境的数据并使用该数据来确定用于以自主和半自主模式操作车辆的轨迹。计算装置可以检测和跟踪车辆周围的环境中的交通对象，其中交通对象被定义为占据车辆周围的真实世界中的物理空间的刚性或半刚性三维(3D)实体对象。交通对象的示例包括车辆和行人等，如下面关于图2所讨论。检测和跟踪交通对象可以包括确定交通对象相对于车辆的位置的多个估计以确定运动并由此预测交通对象的未来位置，并且由此允许计算装置确定车辆行驶的避免涉及交通对象的碰撞或其它不期望的事件的路径。计算装置可以使用如下面关于图1所讨论的激光雷达传感器来确定距车辆环境中的交通对象的距离，然而，可能需要随时间的多个激光雷达数据样本来估计交通对象的轨迹并预测未来位置。本文讨论的技术可以在车辆环境中的交通对象的真实世界坐标中估计如下面关于图2所限定的3D位置和定向，并且由此允许计算装置基于车辆环境的彩***图像而预测交通对象的未来位置。

本文公开的是一种方法，所述方法包括：基于图像中的第一车辆的宽度、高度和中心而裁剪所述图像以确定图像块；基于将所述图像块以及所述第一车辆的所述宽度、所述高度和所述中心输入深度神经网络中而估计所述第一车辆的3D姿态；以及基于所述估计的3D姿态而操作第二车辆。所述估计的3D姿态可以包括所述第一车辆相对于3D坐标系的估计的3D位置、估计的侧倾、估计的俯仰和估计的横摆。可以基于依据分割所述图像来确定所述图像中的对象来确定所述第一车辆图像块的所述宽度、所述高度和所述中心。可以基于确定所述分割的图像中的矩形边界框而确定所述第一车辆的所述宽度、所述高度和所述中心。可以基于裁剪来自所述矩形边界框的图像数据并调整所述图像数据的大小以适合以经验确定的高度和宽度而确定所述图像块。所述深度神经网络可以包括：多个卷积神经网络层，所述多个卷积神经网络层用于处理所述裁剪的图像；第一多个完全连接的神经网络层，所述第一多个完全连接的神经网络层用于处理所述第一车辆的所述高度、所述宽度和所述位置；以及第二多个完全连接的神经网络层，所述第二多个完全连接的神经网络层用于组合来自所述卷积神经网络层和所述第一完全连接的神经网络层的输出，以确定所述估计的姿态。

可以基于将所述第一车辆图像块的所述宽度、所述高度和所述中心输入所述深度神经网络中以确定估计的侧倾、估计的俯仰和估计的横摆而确定所述第一车辆的估计的3D姿态。可以确定所述第一车辆的估计的3D姿态，其中所述深度神经网络包括第三多个完全连接的神经网络层，所述第三多个完全连接的神经网络层用于处理所述第一车辆图像块的所述高度、所述宽度和所述中心，以确定3D位置。可以基于模拟图像数据而训练所述深度神经网络以基于图像块、第一车辆的宽度、高度和中心、以及关于第一车辆的3D姿态的地面实况而估计所述3D姿态。关于所述第一车辆的所述3D姿态的地面实况可以包括相对于3D坐标系的3D位置、侧倾、俯仰和横摆。可以基于记录的图像数据和获取的地面实况而训练所述深度神经网络以基于图像块、第一车辆的宽度、高度和中心、以及关于第一车辆的3D姿态的地面实况而估计所述3D姿态。可以从包括在所述第二车辆中的视频传感器记录所述记录的图像数据。可以基于摄影测量而确定对应于所述记录的图像数据的所述地面实况。摄影测量可以是基于依据车辆品牌和型号而确定车辆的尺寸。

还公开了一种计算机可读介质，所述计算机可读介质存储用于执行上述一些或全部方法步骤的程序指令。此外，本文公开的是一种计算机，所述计算机被编程为用于执行上述一些或全部方法步骤，包括计算机设备，所述计算机设备被编程为：基于图像中的第一车辆的宽度、高度和中心而裁剪所述图像以确定图像块；基于将所述图像块以及所述第一车辆的所述宽度、所述高度和所述中心输入深度神经网络中而估计所述第一车辆的3D姿态；以及基于所述估计的3D姿态而操作第二车辆。所述估计的3D姿态可以包括所述第一车辆相对于3D坐标系的估计的3D位置、估计的侧倾、估计的俯仰和估计的横摆。可以基于依据分割所述图像来确定所述图像中的对象来确定所述第一车辆图像块的所述宽度、所述高度和所述中心。可以基于确定所述分割的图像中的矩形边界框而确定所述第一车辆的所述宽度、所述高度和所述中心。可以基于裁剪来自所述矩形边界框的图像数据并调整所述图像数据的大小以适合以经验确定的高度和宽度而确定所述图像块。所述深度神经网络可以包括：多个卷积神经网络层，所述多个卷积神经网络层用于处理所述裁剪的图像；第一多个完全连接的神经网络层，所述第一多个完全连接的神经网络层用于处理所述第一车辆的所述高度、所述宽度和所述位置；以及第二多个完全连接的神经网络层，所述第二多个完全连接的神经网络层用于组合来自所述卷积神经网络层和所述第一完全连接的神经网络层的输出，以确定所述估计的姿态。

所述计算机设备可以进一步被编程为可以基于将所述第一车辆图像块的所述宽度、所述高度和所述中心输入所述深度神经网络中以确定估计的侧倾、估计的俯仰和估计的横摆而确定所述第一车辆的估计的3D姿态。可以确定所述第一车辆的估计的3D姿态，其中所述深度神经网络包括第三多个完全连接的神经网络层，所述第三多个完全连接的神经网络层用于处理所述第一车辆图像块的所述高度、所述宽度和所述中心，以确定3D位置。可以基于模拟图像数据而训练所述深度神经网络以基于图像块、第一车辆的宽度、高度和中心、以及关于第一车辆的3D姿态的地面实况而估计所述3D姿态。关于所述第一车辆的所述3D姿态的地面实况可以包括相对于3D坐标系的3D位置、侧倾、俯仰和横摆。可以基于记录的图像数据和获取的地面实况而训练所述深度神经网络以基于图像块、第一车辆的宽度、高度和中心、以及关于第一车辆的3D姿态的地面实况而估计所述3D姿态。可以从包括在所述第二车辆中的视频传感器记录所述记录的图像数据。可以基于摄影测量而确定对应于所述记录的图像数据的所述地面实况。摄影测量可以是基于依据车辆品牌和型号而确定车辆的尺寸。

附图说明

图1是示例车辆的框图。

图2是交通场景的示例图像的图。

图3是交通场景的示例图像的图。

图4是示例深度神经网络的图。

图5是基于裁剪的图像而估计车辆姿态的示例过程的流程图。

具体实施方式

图1是车辆信息***100的图，该车辆信息***包括可以自主(“自主”本身在本公开中是指“完全自主”)模式和乘员导引(也被称为非自主)模式操作的车辆110。车辆110也包括用于在自主操作期间执行计算以导引车辆110的一个或多个计算装置115。计算装置115可以从传感器116接收关于车辆的操作的信息。计算装置115可以以自主模式、半自主模式或非自主模式来操作车辆110。出于本公开的目的，将自主模式定义为由计算装置控制车辆110的推进、制动和转向中的每一者的模式；在半自主模式下，计算装置115控制车辆110的推进、制动和转向中的一者或两者；在非自主模式下，操作人员控制车辆的推进、制动和转向。

计算装置115包括诸如已知的处理器和存储器。另外，存储器包括一种或多种形式的计算机可读介质，并且存储指令，该指令可由处理器执行以执行包括如本文所公开的各种操作。例如，计算装置115可以包括编程来操作车辆制动、推进(例如，通过控制内燃发动机、电动马达、混合动力发动机等中的一者或多者来控制车辆110的加速度)、转向、气候控制、内部和/或外部灯等中的一者或多者，以及确定计算装置115而不是操作人员是否控制此类操作和何时控制此类操作。

计算装置115可以包括多于一个计算装置，例如，包括在车辆110中以用于监测和/或控制各种车辆部件的控制器等(例如，动力传动***控制器112、制动控制器113、转向控制器114等)，或例如经由如下文进一步描述的车辆通信总线联接到多于一个计算装置。计算装置115一般被布置为用于通过车辆通信网络(例如，包括车辆110中的总线，诸如控制器局域网(CAN)等)通信；车辆110网络可以另外地或可选地包括诸如已知的有线或无线通信机制，例如以太网或其它通信协议。

经由车辆网络，计算装置115可以向车辆中的各种装置(例如，控制器、执行器、传感器(包括传感器116)等)传输消息和/或从这些装置接收消息。可选地或另外地，在计算装置115实际上包括多个装置的情况下，车辆通信网络可以用于本公开中被表示为计算装置115的装置之间的通信。此外，如下所述，各种控制器或感测元件(诸如传感器116)可以经由车辆通信网络向计算装置115提供数据。

另外，计算装置115可以被配置为用于经由网络130通过车辆对基础设施(V对I)接口111与远程服务器计算机120(例如，云服务器)进行通信，如下所述，该接口111包括允许计算装置115经由诸如无线互联网(Wi-Fi)或蜂窝网络的网络130与远程服务器计算机120通信的硬件、固件和软件。因此，V对I接口111可以包括处理器、存储器、收发器等，它们被配置为利用各种有线和/或无线联网技术，例如蜂窝、

和有线和/或无线分组网络。计算装置115可以被配置为用于使用在附近车辆110间在移动自组网的基础上形成或通过基于基础设施的网络形成的车辆对车辆(V对V)网络(例如，根据专用短距离通信(DSRC)和/或类似的通信)通过V对I接口111与其它车辆110通信。计算装置115也包括诸如已知的非易失性存储器。计算装置115可以通过将信息存储在非易失性存储器中以供以后检索和经由车辆通信网络和车辆对基础设施(V对I)接口111传输到服务器计算机120或用户移动装置160来记录信息。

如上文已经提及，一般包括在存储在存储器中并可由计算装置115的处理器执行的指令中的是编程来用于在没有操作人员的干预的情况下操作(例如，制动、转向、推进等)一个或多个车辆110部件。使用在计算装置115中接收的数据(例如，来自传感器116、服务器计算机120等的传感器数据)，计算装置115可以在没有驾驶员操作车辆110的情况下做出各种确定和/或控制各种车辆110部件和/或操作。例如，计算装置115可以包括编程来调节车辆110操作行为(即，车辆110操作的物理表现)，诸如速度、加速度、减速度、转向等，以及策略性行为(即，典型地以预期实现路线的安全和有效的行驶的方式进行的操作行为控制)，诸如在车辆之间的距离和/或在车辆之间的时间量、车道改变、在车辆之间的最小间隙、左转跨过路径最小值、在特定位置处的到达时间和为了通过十字路口的十字路口(无指示灯)最小到达时间。

控制器(如该术语在本文中所使用的那样)包括典型地被编程以控制特定车辆子***的计算装置。示例包括动力传动***控制器112、制动控制器113和转向控制器114。控制器典型地是诸如已知的电子控制单元(ECU)等，可能包括如本文所述的附加编程。控制器可以通信地连接到计算装置115并从计算装置接收指令以根据指令致动子***。例如，制动控制器113可以从计算装置115接收指令以操作车辆110的制动。

用于车辆110的一个或多个控制器112、113、114可以包括已知的电子控制单元(ECU)等，作为非限制性示例，包括一个或多个动力传动***控制器112、一个或多个制动控制器113和一个或多个转向控制器114。控制器112、113、114中的每一者可以包括相应的处理器和存储器以及一个或多个执行器。控制器112、113、114可以被编程并连接到车辆110通信总线，诸如控制器局域网(CAN)总线或局域互连网(LIN)总线，以从计算机115接收指令并基于该指令而控制执行器。

传感器116可以包括已知的各种装置以经由车辆通信总线提供数据。例如，固定到车辆110的前部(例如，前保险杠(未示出))的雷达可以提供从车辆110到在车辆110前方的下一个车辆的距离，或设置在车辆110中的全球定位***(GPS)传感器可以提供车辆110的地理坐标。由雷达和/或其它传感器116提供的距离和/或由GPS传感器提供的地理坐标可以由计算装置115使用来自主地或半自主地操作车辆110。

车辆110一般是具有三个或更多个车轮的陆基半自主和/或自主车辆110，例如乘用汽车、轻型卡车等。车辆110包括一个或多个传感器116、V对I接口111、计算装置115和一个或多个控制器112、113、114。传感器116可以收集与车辆110和车辆110的操作环境相关的数据。以举例的方式但非限制，传感器116可以包括例如测高仪、摄像机、激光雷达(LIDAR)、雷达、超声传感器、红外传感器、压力传感器、加速度计、陀螺仪、温度传感器、压力传感器、霍尔传感器、光学传感器、电压传感器、电流传感器、机械传感器(诸如开关)等。传感器116可以用来感测车辆110的操作环境，例如，传感器116可以检测诸如天气条件(降雨、外界温度等)的现象、道路坡度、道路位置(例如，使用道路边缘、车道标记等)或目标对象(诸如邻近车辆110)的位置。传感器116还可以用来收集数据，包括与车辆110的操作相关的动态车辆110数据(诸如速度、横摆率、转向角度、发动机转速、制动压力、油压力、施加到车辆110中的控制器112、113、114的功率电平、在部件之间的连接性和车辆110的部件的准确和及时的性能)。

图2是以黑色和白色呈现的交通场景的示例彩色图像200的图，以符合37 C.F.R.§1.84(a)(1)。彩色图像200可以由包括在车辆110中的视频传感器116获取。视频传感器116可以获取彩***数据并将彩***数据传输到计算装置115，计算装置115可以将彩***数据存储在非易失性存储器中，彩***数据在非易失性存储器中可以由计算装置115调用并且进行处理。如上面关于图1所讨论，计算装置115可以被编程为部分地基于来自视频传感器116的彩***数据而操作车辆110。计算装置115可以被编程为辨识包括其它车辆202和道路204的彩色图像200中的交通对象。例如，深度神经网络(DNN)可以被编程为对交通对象进行分割和分类，包括车辆、行人、障碍物、交通信号、交通标记、道路、植物、地形和建筑物。应用DNN来分割彩***数据中的交通对象是当前学术和工业研究的主题。学术研究小组和一些商业实体已经开发了可用于开发用于图像分割任务(包括交通对象分割)的DNN的库和工具包。例如，Caffe是由加利福尼亚州伯克利市加利福尼亚大学伯克利分校伯克利视觉和学习中心94720(Berkeley Vision and Learning Center,University ofCalifornia,Berkeley,Berkeley,California 94720)创建的卷积神经网络库，其可以用于开发交通对象分割DNN。

图像分割是机器视觉过程，其中输入彩色图像被分割成连接的区域。通过输入多个彩色图像以及“地面实况”数据，可以训练DNN将输入彩色图像分割成连接的区域。地面实况被定义为指定与图像数据相关联的真实世界状况或状态的信息或数据。例如，在交通场景的图像中，地面实况数据可以包括关于包括在彩色图像中的交通对象的信息，诸如区域和从彩***传感器116到在视野中的车辆的距离和方向。可以独立于彩色图像来获取地面实况数据，例如通过直接观察或测量，或通过独立于DNN处理的处理。地面实况数据可以用于在训练期间向DNN提供反馈，以奖励正确结果并惩罚不好结果。通过用多个不同DNN参数执行多个试验并用地面实况数据评估结果，可以训练DNN以在输入彩色图像数据时输出正确结果。例如，连接的区域可以经受最小和最大区域。可以通过用对应于交通对象的多个不同类别中的一个标记每个连接的区域来对连接的区域进行分类。类别可以由DNN基于彩色图像200中的交通对象的大小、形状和位置而选择。例如，DNN可以包括用于车辆的不同品牌和型号的不同类别。

训练DNN以确定输入彩色图像200中的车辆的3D姿态可能需要具有关于多个车辆的真实世界3D姿态的对应的地面实况的记录的彩色图像200。地面实况可以被表达为距彩***传感器116的距离或范围和方向。在一些示例中，计算装置115可以通过摄影测量(即，诸如已知用于从照片或图像进行测量的技术)来确定从彩***传感器116到彩色图像200中的交通对象的距离或范围。摄影测量可以将关于视野的信息(包括彩***传感器116的透镜的倍率、位置和三维(3D)光轴方向)与关于交通对象的真实世界大小的信息组合，以估计从彩***传感器116的透镜到交通对象的距离和方向。例如，关于其它车辆202的真实世界高度的信息可以与与其它车辆202相关联的交通对象的像素中的彩色图像200高度信息组合，并且基于镜头的倍率和3D方向，确定相对于车辆110距另一个车辆202的距离和方向。

基于摄影测量而确定距离和方向取决于确定交通对象的位置和姿态。交通对象被假定为刚性3D对象(车辆等)或半刚性3D对象(行人等)；因此，在真实世界3D空间中的交通对象位置和定向可以由关于三轴坐标系的六个自由度来描述。假设具有限定的原点的x、y、z三轴坐标系，可以将3D位置定义为从x、y、z坐标中的原点的平移，并且姿态可以被定义为分别关于x、y和z轴的角旋转(侧倾、俯仰和横排)。位置和姿态可以分别描述在真实世界3D空间中的交通对象的位置和定向(例如，相对于x、y和z轴中的每一者的角度，可能例如相对于车辆表达为侧倾、俯仰和横摆)。对交通对象的侧倾、俯仰和横摆的估计被称为预测的定向。与3D位置组合的定向在本文将被称为3D姿态，并且与预测的3D位置组合的预测的定向在本文将被称为预测的3D姿态。

例如，摄影测量可以确定彩色图像200中的数据点的位置，并且是基于关于获取彩色图像200的彩***传感器116的视野的信息和从彩***传感器中的3D点到在真实世界3D空间中的数据点的距离的估计。例如，可以使用关于数据点的先验信息来估计中从彩***传感器中的3D点到在真实世界3D空间的数据点的距离。例如，可以假设数据点包括在由计算装置115从一个或多个传感器116的数据例如根据常规的对象辨识和/或分类技术来识别的分类的交通对象中。交通对象类别可以由计算装置115使用来调用关于交通对象的真实世界(即，实际)大小的先验信息。交通对象的真实世界大小可以被定义为可测量的尺寸的大小，例如整体高度、长度或宽度。例如，乘用车量以标准尺寸制造。乘用车辆的品牌和型号的图像可以由计算装置115使用机器视觉技术并基于该车辆的以真实世界单位计(例如，毫米)的可测量的尺寸来辨识，该可测量的尺寸可以从存储在计算装置115处的车辆可测量的尺寸的列表调用。可以将以彩色图像中的像素测量的可测量的尺寸的大小与以真实世界单位计的可测量的尺寸的大小进行比较，以例如基于包括在彩***传感器116中的透镜的倍率和可测量的尺寸相对于包括在透镜和彩***传感器116中包括的图像传感器平面中的光轴的交点的位置而确定交通对象距彩***传感器116的距离。关于可测量的尺寸的先验信息可以与彩色图像200中的交通对象的测量的位置和大小以及关于彩***传感器116透镜的倍率的信息以这种方式组合以估计从彩***传感器到分类的交通对象的真实世界3D距离。

在一些示例中，计算装置可以通过获取和处理来自激光雷达传感器116的信息来确定从彩***传感器116到彩色图像200中的交通对象的距离或范围。如上面关于图1所讨论，激光雷达传感器116可以获取表示在3D空间中的表面的位置的数据点的点云。可以通过基于彩色图像传感器116的视野而将被确定为与其它车辆302相关联的3D激光雷达数据点的估计的3D位置投射到彩色图像300中来确定其它车辆302相对于车辆110的位置。基于将彩色图像传感器116和激光雷达传感器116的视野进行比较，可以确定3D激光雷达数据点与其它车辆相关联。

图3是以黑色和白色呈现的交通场景的示例彩色图像300。计算装置115可以被编程为辨识彩色图像300中的交通对象，包括如上面关于图2所讨论的其它车辆302和道路304。基于与其它车辆302相关联的交通对象数据，可以围绕其它车辆302构建矩形边界框306。

可以基于来自彩色图像数据300的分割的交通对象数据而构造边界框306。基于确定彩色图像300中的某个位置处与其它车辆302一致的具有类别“车辆”的交通对象，计算装置115可以通过确定包括彩色图像300的连接的区域中的被确定为属于“车辆”类别的图像像素的最小矩形形状来构造边界框，其中边界框的侧面被约束为平行于彩色图像300的侧面(顶部、底部、左侧、右侧)。边界框306由包括中心的上下文信息描述，该中心被表达为相对于原点的像素的x、y坐标，即像素的宽度和像素的高度。中心的x、y坐标可以是边界框的中心。边界框的高度和宽度可以由包括在连接的区域中的像素的最大和最小像素x以及最大和最小y坐标来确定。

可以基于边界框306而裁剪彩色图像300。在裁剪中，丢弃彩色图像300的不在边界框306内的所有像素。然后，彩色图像300仅包括在边界框306内的像素。由于边界框306包括比原始、未剪切的彩色图像300少得多的像素，因此裁剪的彩色图像300的处理可以快许多倍，从而改善与预测的3D姿态相关的处理。

裁剪的彩色图像300和关于裁剪的彩色图像300相对于原始、未裁剪的彩色图像300的位置和大小的上下文信息可以输入到下面关于图4所述的DNN，以确定其它车辆302的姿态预测，即，估计的侧倾、俯仰和横摆。可以由计算装置115使用姿态预测来预测其它车辆302的移动，并且由此通过避免碰撞和接近碰撞并行驶与安全操作一致的最短路径来辅助计算装置115安全和有效地操作车辆110。

图4是示例姿态预测DNN 400(即，可被训练为响应于输入彩色图像402而输出预测得定向420和预测得位置424的机器学习程序)的图。预测的定向420和预测的位置424是如上面关于图2所限定的真实世界3D姿态(位置、侧倾、俯仰和横摆)的预测或估计，其从对包括在输入彩***图像402中的另一个车辆的图像的分析预测。DNN 400可以响应于输入彩色图像402而输出位置预测424。位置预测是如上面关于图2所限定的真实世界3D位置(x、y、z)，其从包括在输入彩***图像402中的其它车辆的图像预测。可以基于多个输入彩色图像而训练DNN 400，该输入彩色图像包括指定包括在输入彩色图像中的车辆的真实世界3D位置和姿态的地面实况。训练DNN 400包括输入彩色图像402，并且反向传播所得的输出姿态预测420以与与输入彩色图像402相关联的地面实况进行比较。

如上面所限定，地面实况可以是相对于包括在车辆110中的彩***传感器116确定的彩色图像402中绘出的车辆的正确真实世界3D姿态。可以从独立于彩色图像402的源获得地面实况信息。例如，可以物理地测量另一个车辆相对于彩***传感器116的3D姿态，并且然后可以获取另一个车辆的彩色图像402，并且地面实况和获取的图像用于训练DNN400。在其它示例中，模拟数据可以用于创建彩色图像402。在该示例中，3D姿态被输入到模拟程序。模拟数据可以由类似于视频游戏软件程序的软件程序创建，该软件程序可以像照片那样逼真地呈现输出视频图像，例如，输出视频图像看起来像真实世界场景的照片。

通过将DNN 400处理的结果与地面实况进行比较并对该过程进行正面地奖励或负面地惩罚，DNN 400的行为可以在重复试验之后受到影响或进行训练，以在针对各种不同色彩的图像402输入对应的彩色图像402时提供相对于地面实况的正确答案。以这种方式训练DNN 400训练部件神经网络卷积神经网络(CNN)块408和过程裁剪姿态(PCP)块412来响应于输入彩色图像402而分别输出正确图像特征414和正确姿态特征416作为组合图像姿态CIP块418的输入，而不必明确地针对这些中间特征提供地面实况。将关于定向预测420和位置预测424的地面实况与来自组合图像姿态(CIP)块和过程裁剪位置(PCL)块422的输出进行比较以训练DNN 400。

作为用DNN 400处理彩色图像402的第一步，计算装置115可以将彩色图像402输入到裁剪和填充(C&P)块404，其中彩***图像402被裁剪、调整大小和进行填充。可以通过确定与车辆的图像相关联的边界框并丢弃在边界框外部的所有像素来裁剪彩色图像402，如上面关于图3所讨论。所得的裁剪的彩色图像可以具有像素的高度和宽度，其不同于CNN块408所需的输入高度和宽度。为了解决这个问题，可以通过扩展或收缩裁剪的彩色图像来调整裁剪的彩色图像的大小，直到高度和宽度或裁剪的彩色图像等于CNN块408所需的输入高度和宽度，例如100×100像素。可以通过复制像素来扩展裁剪的彩色图像，并且可以通过对像素进行采样来收缩小裁剪的彩色图像。可以在扩展和收缩裁剪的彩色图像时应用空间过滤器，以提高准确性。还可以通过沿着裁剪和调整大小的彩色图像的顶部、底部、左侧和右侧边缘添加行和列的像素来填充裁剪的彩色图像，以提高由CNN块408执行的卷积操作的准确性。裁剪、调整大小的和进行填充的彩色图像406被输出到CNN块408。

CNN块408通过使用多个卷积核将输入的裁剪、调整大小和进行填充的彩色图像406连续地与多个卷积层卷积接着合并来处理裁剪、调整大小和进行填充的彩色图像406，其中从卷积层输出的中间结果可以通过根据规则将连续的像素邻域(例如，2×2邻域)组合成单个像素(例如，确定邻域像素的最大值或中值)来空间上降低分辨率。例如，也可以通过经由跳层连接包括来自先前确定的较高分辨率卷积层的信息来空间上扩展来自卷积层的中间结果。CNN块408可以通过基于将来自DNN 400的结果与关于车辆定向和位置的地面实况进行比较而确定要由CNN块408的卷积层使用的卷积核的序列来训练。CNN块408将图像特征414输出到CIP块418，其中它们与由PCP块412输出的姿态特征416组合以形成输出定向预测420。

返回到C&P块404，C&P块404将基于输入彩色图像402的裁剪信息410输出到PCP块412和PCL块422。裁剪信息包括以像素计的裁剪的彩色图像的原始高度和宽度以及以像素计的裁剪的彩色图像的中心相对于彩色图像402坐标系的原点的x、y坐标。PCP块412将裁剪信息410输入多个完全连接的神经网络层中，这些完全连接的神经网络层处理裁剪信息410以形成定向特征416来输出到CIP 418。在训练时，可以调整或设置被包括作为在包括在PCP412(其组合在完全连接的层中的值以形成输出定向特征416)中的等式中的系数的参数，以致使PCP 412基于地面实况而输出期望值。与此并行地，PCL 422输入裁剪信息并确定裁剪、调整大小和进行填充的彩色图像406中表示的车辆的真实世界3D位置以输出作为位置预测424，其包括表示在输入彩色图像402中表示的车辆的真实世界3D位置的估计的x、y和z坐标。PCL 422可以通过调整或设置被包括作为在包括在PCL 422(其组合完全连接的层中的值以响应于基于地面实况的裁剪的图像输入而输出正确的值)中的等式中的系数的参数来训练。

CIP块418将图像特征414和定向特征416输入多个完全连接的神经网络层中以确定定向预测420。定向预测420是输入彩色图像402中表示的车辆的定向的估计，其被表达为关于如关于图2描述的相机3D坐标系的轴线的以度为单位的侧倾、俯仰和横摆。在训练时，可以调整或设置被包括作为包括在CIP块418(其组合完全连接的层中的值以形成输出定向预测420)中的等式中的系数的参数，以致使CIP 418基于地面实况而输出期望值。可以组合定向预测420和位置预测424以形成车辆的预测的3D姿态，并且将3D姿态输出到计算装置115以存储和调用来用于操作车辆110。例如，关于在包括在车辆110中的视频传感器116的视野中的车辆的位置和姿态的信息可以用于操作车辆110，以避免与在视野中的车辆发生碰撞或接近碰撞。

可以基于记录的输入彩***图像402和关于包括在输入彩***图像402中的车辆的3D姿态的对应的地面实况来训练DNN 400。输入彩***图像402和对应的地面实况可以通过记录真实世界场景和测量3D姿态来获得，例如本文讨论的技术还可以基于计算机模拟而获得输入彩***图像402和关于包括在彩***图像中的车辆的3D姿态的对应的地面实况。计算装置可以基于像照片那样逼真地描述表面和对象的数字数据而呈现彩***图像，以根据多个车辆的季节和当日时间、位置和姿态来模拟真实世界天气和照明条件。由于彩***图像402可以是合成的，因此包括的车辆的3D姿态包括在数字数据中，因此精确地知道地面实况，而没有真实世界数据可能的测量误差。例如，可以通过经由缩放或移位有意地调整边界框306使包括在真实世界数据中的误差包括在模拟数据中，以进行附加的训练。

计算装置115可以基于多级控制过程层级来操作车辆110，其中多个协作的独立控制过程创建和交换关于车辆110及其环境(包括真实世界交通对象)的信息，以将车辆110从其当前位置安全地操作到目的地，其中车辆110的安全操作包括避免碰撞和接近碰撞。本文讨论的示例技术允许改善的控制过程以确定关于车辆110操作的信息，即预测的3D姿态，包括在车辆110的真实世界环境中的交通对象(车辆)的定向(侧倾、俯仰和横摆)和位置(x、y和z)。其它控制过程可以基于车辆位置信息和映射数据而确定在真实世界坐标中的目的地。进一步控制过程可以基于横向和纵向加速度极限以及用于避开交通对象的以经验确定的最小距离而确定预测的多项式路径，其可以由更进一步控制过程使用来将车辆110操作到确定的目的地。更进一步控制过程确定要发送到控制器112、113、114的控制信号，以通过基于操作车辆110沿着预测的多项式路径行驶而控制转向、制动和动力传动***来操作车辆110。

本文所述的用于确定包括在彩***图像中的车辆的预测的3D姿态的技术可以通过将预测的3D姿态信息从DNN 400输出到在计算装置115上执行的基于相对于车辆110的3D姿态和包括地图信息的道路而确定预测的车辆移动的控制过程来包括在多级控制过程层级中。预测在彩***传感器116的视野中的车辆的移动可以允许计算装置115确定由多项式路径函数表示的路径，该多项式路径函数可以由计算装置115使用来通过预测其它车辆的位置并相应地规划多项式路径来操作车辆110安全地实现自主和半自主操作。例如，计算装置115可以操作车辆110以执行半自主任务，包括驾驶员辅助任务，如车道更改操纵、巡航控制和停车等。

执行驾驶员辅助任务(如车道改变操纵、巡航控制和停车等)可以包括通过经由控制车辆110的转向、制动和动力传动***部件应用横向和纵向加速度以确定多项式路径并沿多项式路径操作车辆110来操作车辆110。例如，执行驾驶员辅助任务可能需要修改车辆110速度以维持最小车辆对车辆距离或将速度与其它车辆匹配以在车道改变操纵期间并入交通。基于确定以真实世界坐标的其它车辆姿态和位置而预测在包括在车辆110中的传感器116的视野中的其它车辆的移动和位置可以包括在由计算装置115进行的多项式路径规划中。在多项式路径规划中包括预测的姿态和位置可以允许计算装置115操作车辆110以安全地执行车辆辅助任务。

图5是关于图1至图4描述的用于基于预测第一车辆的估计的3D姿态而操作第二车辆110的示例过程500的流程图。例如，过程500可以通过计算装置115的处理器从传感器116获得信息作为输入并经由控制器112、113、114执行命令和发送控制信号来实现。本文将过程500描述为包括以所公开的指定次序进行的多个步骤。其它实现方式是可能的，其中过程500包括更少的步骤和/或包括以不同次序进行的所公开的步骤。

过程500开始于步骤502处，其中包括在第二车辆110中的计算装置115裁剪包括第一车辆的表示的彩色图像402、调整该彩色图像402的大小并对其进行填充。如上面关于图3和图4所讨论，彩色图像402被裁剪为仅包括第一车辆的图像，被调整大小以适合DNN 400所需的输入尺寸，并且进行填充以辅助CNN 408的卷积。

在步骤504处，计算装置115将裁剪、调整大小和进行填充的图像数据输入CNN 408中，其中CNN 408处理输入的裁剪、调整大小和进行填充的彩色图像数据，以形成图像特征414来输出到CIP 418，如上面关于图4所讨论。

在步骤506处，计算装置115将包括裁剪的彩色图像的高度、宽度和中心的裁剪数据输入到PCP块412，其中由多个完全连接的神经网络层处理裁剪数据以确定描述与输入彩***402中表示的其它车辆相关联的3D定向的姿态特征416。

在步骤508处，计算装置115将图像特征414和姿态特征416输入CIP块418中，其中多个完全连接的神经网络层处理输的入图像特征414和姿态特征416以确定和输出以相对于彩***传感器116 3D坐标系的侧倾、俯仰和横摆的程度描述在输入彩色图像402中表示的车辆的定向的定向预测420。计算装置还将裁剪信息410输入PCL块422中，PCL块422处理裁剪信息410以形成预测的3D位置424。可以组合预测的3D位置424和预测的定向420以形成预测的3D姿态。

在步骤510处，计算装置115基于在步骤508处的3D姿态预测输出而操作车辆110。例如，计算装置115可以使用3D姿态预测来预测在包括在车辆110中的彩***传感器116的视野中的车辆的移动。例如，计算装置115在规划用于驾驶员辅助任务的多项式路径的程序中使用在彩***传感器116的视野中的车辆的位置和预测的移动。确定车辆110遵循以执行包括车道改变操纵、巡航控制或停车的驾驶员辅助任务的多项式路径可以是部分地基于在彩***传感器116的视野中的车辆的预测的移动。预测在彩***传感器116的视野中的车辆的移动可以允许计算装置115操作车辆110，以便在执行驾驶员辅助任务时避免与另一个车辆的碰撞或接近碰撞，例如，如上面关于图4所讨论。

诸如本文讨论的那些的计算装置一般各自包括命令，该命令可由诸如上文所述的那些的一个或多个计算装置执行并用于执行上文所述的过程的框或步骤。例如，上文讨论的过程框可以被体现为计算机可执行命令。

计算机可执行命令可以由使用各种编程语言和/或技术创建的计算机程序来编译或解译，该编程语言和/或技术包括但不限于以下的单一形式或组合形式：Java^TM、C、C++、Visual Basic、Java Script、Perl、HTML等。一般，处理器(例如，微处理器)接收例如来自存储器、计算机可读介质等的命令，并且执行这些命令，从而执行一个或多个过程，包括本文所述的过程中的一个或多个。可以使用多种计算机可读介质来将此类命令和其它数据存储在文件中并传输此类命令和其它数据。计算装置中的文件一般是存储在计算机可读介质(诸如存储介质、随机存储存储器等)上的数据的集合。

计算机可读介质包括参与提供可由计算机读取的数据(例如，命令)的任何介质。这种介质可以采用许多形式，包括但不限于非易失性介质、易失性介质等。非易失性介质包括例如光盘或磁盘和其它持久性存储器。易失性介质包括典型地构成主存储器的动态随机存取存储器(DRAM)。常见形式的计算机可读介质包括(例如)软磁盘、软盘、硬盘、磁带、任何其它磁性介质、CD-ROM、DVD、任何其它任何光学介质、穿孔卡、纸带、任何其它带有穿孔图案的物理介质、RAM、PROM、EPROM、快闪-EEPROM、任何其它存储芯片或盒式磁带、或计算机可从中读取的任何其它介质。

权利要求所用的所有术语旨在被赋予如本领域的技术人员所理解的这些术语的常见和普通的含义，除非在本文中做出明确的相反指示。具体地，单数冠词诸如“一个”、“该”、“所述”等的使用应当被理解为引用一个或多个所指元件，除非权利要求给出明确的相反限制。

术语“示例性”在本文中以表示示例的意义使用，例如，对“示例性小部件”的引用应当被理解为仅指代小部件的示例。

修饰值或结果的副词“约”是指形状、结构、测量、值、确定、计算结果等可以因材料、加工、制造、传感器测量、计算、处理时间、通信时间等的缺陷等而与确切描述的几何结构、距离、测量、值、确定、计算结果等有偏差。

在附图中，相同的附图标记指示相同的元件。此外，可以改变这些元件中的一些或全部。关于本文所述的介质、过程、***、方法等，应当理解，虽然此类过程的步骤等已经被描述为按照特定次序发生，但是可以在按照本文所述的次序以外的次序执行所述步骤的情况下实践此类过程。还应当理解，可以同时地执行某些步骤，可以添加其它步骤，或者可以省略本文所述的某些步骤。换句话说，本文对过程的描述是为了示出某些实施例而提供，而决不应当将其理解为对所要求保护的发明进行限制。

根据本发明，一种方法包括：基于图像中的第一车辆的宽度、高度和中心而裁剪所述图像以确定图像块；基于将所述图像块以及所述第一车辆的所述宽度、所述高度和所述中心输入深度神经网络中而估计所述第一车辆的3D姿态；以及基于所述估计的3D姿态而操作第二车辆。

根据一个实施例，所述估计的3D姿态包括所述第一车辆相对于3D坐标系的估计的3D位置、估计的侧倾、估计的俯仰和估计的横摆。

根据一个实施例，上述发明的特征还在于基于依据分割所述图像来确定所述图像中的对象来确定所述第一车辆图像块的所述宽度、所述高度和所述中心。

根据一个实施例，上述发明的特征还在于基于确定所述分割的图像中的矩形边界框而确定所述第一车辆的所述宽度、所述高度和所述中心。

根据一个实施例，上述发明的特征还在于基于裁剪来自所述矩形边界框的图像数据并调整所述图像数据的大小以适合以经验确定的高度和宽度而确定所述图像块。

根据一个实施例，所述深度神经网络包括：多个卷积神经网络层，所述多个卷积神经网络层用于处理所述裁剪的图像；第一多个完全连接的神经网络层，所述第一多个完全连接的神经网络层用于处理所述第一车辆的所述高度、所述宽度和所述位置；以及第二多个完全连接的神经网络层，所述第二多个完全连接的神经网络层用于组合来自所述卷积神经网络层和所述第一完全连接的神经网络层的输出，以确定所述估计的姿态。

根据一个实施例，上述发明的特征还在于基于将所述第一车辆图像块的所述宽度、所述高度和所述中心输入所述深度神经网络中以确定估计的侧倾、估计的俯仰和估计的横摆而确定所述第一车辆的估计的3D姿态。

根据一个实施例，上述发明的特征还在于确定所述第一车辆的估计的3D姿态，其中所述深度神经网络包括第三多个完全连接的神经网络层，所述第三多个完全连接的神经网络层用于处理所述第一车辆图像块的所述高度、所述宽度和所述中心，以确定3D位置。

根据一个实施例，上述发明的特征还在于基于模拟图像数据而训练所述深度神经网络以基于图像块、第一车辆的宽度、高度和中心、以及关于第一车辆的3D姿态的地面实况而估计所述3D姿态。

根据本发明，提供了一种***，所述***具有：处理器；以及存储器，所述存储器包括将由所述处理器执行以进行以下操作的指令：基于图像中的第一车辆的宽度、高度和中心而裁剪所述图像以确定图像块；基于将所述图像块以及所述第一车辆的所述宽度、所述高度和所述中心输入深度神经网络中而估计所述第一车辆的3D姿态；以及基于所述估计的3D姿态而操作第二车辆。

根据一个实施例，所述估计的姿态包括所述第一车辆相对于3D坐标系的估计的3D位置、估计的侧倾、估计的俯仰和估计的横摆。

根据一个实施例，所述深度神经网络包括：多个卷积神经网络层，所述多个卷积神经网络层用于处理所述裁剪的图像；第一多个完全连接的神经网络层，所述第一多个完全连接的神经网络层用于处理所述第一车辆的所述高度、所述宽度和所述中心；以及第二多个完全连接的神经网络层，所述第二多个完全连接的神经网络层用于组合来自所述卷积神经网络层和所述第一完全连接的神经网络层的输出，以确定所述估计的姿态。

根据本发明，提供了一种***，所述***具有：用于控制第二车辆转向、制动和动力传动***的构件；用于进行以下操作的构件：基于第一车辆的宽度、高度和中心而裁剪图像以确定图像块；基于将所述图像块以及所述第一车辆的所述宽度、所述高度和所述中心输入第一深度神经网络中而估计所述第一车辆的3D姿态；以及通过指示所述用于控制第二车辆转向、制动和动力传动***的构件来基于所述第一车辆的所述估计的3D姿态而操作第二车辆。

Claims

1.一种方法，所述方法包括：

基于图像中的第一车辆的宽度、高度和中心而裁剪所述图像以确定图像块；

基于将所述图像块以及所述第一车辆的所述宽度、所述高度和所述中心输入深度神经网络中而估计所述第一车辆的3D姿态；以及

基于所述估计的3D姿态而操作第二车辆。

2.如权利要求1所述的方法，其中所述估计的3D姿态包括所述第一车辆相对于3D坐标系的估计的3D位置、估计的侧倾、估计的俯仰和估计的横摆。

3.如权利要求1所述的方法，所述方法还包括基于依据分割所述图像来确定所述图像中的对象来确定所述第一车辆图像块的所述宽度、所述高度和所述中心。

4.如权利要求3所述的方法，所述方法还包括基于确定所述分割的图像中的矩形边界框而确定所述第一车辆的所述宽度、所述高度和所述中心。

5.如权利要求4所述的方法，所述方法还包括基于裁剪来自所述矩形边界框的图像数据并调整所述图像数据的大小以适合以经验确定的高度和宽度而确定所述图像块。

6.如权利要求1所述的方法，其中所述深度神经网络包括：多个卷积神经网络层，所述多个卷积神经网络层用于处理所述裁剪的图像；第一多个完全连接的神经网络层，所述第一多个完全连接的神经网络层用于处理所述第一车辆的所述高度、所述宽度和所述位置；以及第二多个完全连接的神经网络层，所述第二多个完全连接的神经网络层用于组合来自所述卷积神经网络层和所述第一完全连接的神经网络层的输出，以确定所述估计的姿态。

7.如权利要求6所述的方法，所述方法还包括基于将所述第一车辆图像块的所述宽度、所述高度和所述中心输入所述深度神经网络中以确定估计的侧倾、估计的俯仰和估计的横摆而确定所述第一车辆的估计的3D姿态。

8.如权利要求7所述的方法，所述方法还包括确定所述第一车辆的估计的3D姿态，其中所述深度神经网络包括第三多个完全连接的神经网络层，所述第三多个完全连接的神经网络层用于处理所述第一车辆图像块的所述高度、所述宽度和所述中心，以确定3D位置。

9.如权利要求1所述的方法，所述方法还包括基于模拟图像数据而训练所述深度神经网络以基于图像块、第一车辆的宽度、高度和中心、以及关于第一车辆的3D姿态的地面实况而估计所述3D姿态。

10.如权利要求9所述的方法，其中关于所述第一车辆的所述3D姿态的地面实况包括相对于3D坐标系的3D位置、侧倾、俯仰和横摆。

11.如权利要求1所述的方法，所述方法还包括基于记录的图像数据和获取的地面实况而训练所述深度神经网络以基于图像块、第一车辆的宽度、高度和中心、以及关于第一车辆的3D姿态的地面实况而估计所述3D姿态。

12.如权利要求11所述的方法，其中从包括在所述第二车辆中的视频传感器记录所述记录的图像数据。

13.如权利要求12所述的方法，其中基于摄影测量而确定对应于所述记录的图像数据的所述地面实况。

14.如权利要求13所述的方法，其中摄影测量是基于依据车辆品牌和型号而确定车辆的尺寸。

15.一种***，所述***包括被编程为执行如权利要求1至14中任一项所述的方法的计算机。