WO2022115987A1

WO2022115987A1 - 一种自动驾驶数据采集和闭环管理的方法及***

Info

Publication number: WO2022115987A1
Application number: PCT/CN2020/133062
Authority: WO
Inventors: 胡悦; 邓堃; 张剑锋; 郑鑫宇
Original assignee: 浙江吉利控股集团有限公司; 吉利汽车研究院（宁波）有限公司
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2022-06-09
Also published as: EP4257443A1; US20230419683A1; CN116601065A

Abstract

一种自动驾驶数据采集和闭环管理的方法及***。该方法包括：获取车辆驾驶数据（S102）；对所述车辆驾驶数据进行预处理（S104）；通过预训练的神经网络根据预设筛选规则对预处理后的所述车辆驾驶数据进行筛选得到增量数据（S106）；存储所述增量数据，或将所述增量数据发送至云端（S108）。该方法能够有效筛选出高价值的增量数据，从而降低了***数据存储量和/或对数据传输带宽的要求。上述***可以后装或前装的方式安装在车辆上，不依赖具体车型，无需车辆配备成本高昂的激光雷达等真值***，大大提高了***使用的便捷性，有利于快速和大规模应用。

Description

一种自动驾驶数据采集和闭环管理的方法及***

技术领域

本发明涉及自动驾驶技术领域，特别是涉及一种自动驾驶数据采集和闭环管理的方法及***。

背景技术

近年来，自动驾驶技术发展迅速，但大规模部署自动驾驶汽车仍然受到传感器成本和感知决策算法能力的限制，其中，感知决策算法能力取决于所采用的神经网络如深度神经网络(Deep Neural Network，DNN)的性能，而神经网络性能的提升则依赖于自动驾驶数据的采集和积累。

当前自动驾驶数据的采集一般有以下两种方法：一种是采用专业数据采集车辆和路测车辆对所感知的数据进行采集；另一种是在量产车辆上部署数据采集***，并对车辆感知、状态及控制数据进行一定的处理后上传至云端。然而，采用采集车辆和路测车辆以大量路测的方式进行数据采集，一方面，面临着采集场景范围小、单车数据采集量大、记录大量冗余数据、需要配备激光雷达等真值***等问题；另一方面，发掘有价值的数据成本也在逐步增加，使得数据的平均价值密度越来越稀疏，采集成本越来越高。采用量产车辆采集数据丰富了数据的数量和多样性，同时也极大地了节约了数据采集的成本，但目前大多数汽车企业通过T-box等回传至云端的数据仍然以车辆、动力***的动态参数等数值型数据为主，还不支持图像、视频等数据的采集及回传，不足以支持对于自动驾驶的感知和决策***DNN的训练，同时也仍然存在高价值数据筛选的难题。Tesla初步探索了在量产车辆中部署数据采集***，通过“影子模式”、数据打分机制等方式筛选高价值数据，但其高价值数据筛选机制并未明确，可能会对***传输带宽有较高的要求，且***设计较为复杂。因此，如何结合自动驾驶场景和整车企业所具有的车辆优势，面向自动驾驶感知和决策***DNN性能提升的需求，设计有效、可大规模应用的增量式高价值数据采集及闭环方案，成为本领域亟待解决的技术问题。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的自动驾驶数据采集和闭环管理的方法及***。

本发明的一个目的在于提供一种可有效筛选出高价值的增量数据的自动驾驶数据采集和闭环管理的方法及***。

本发明的一个进一步的目的在于通过利用筛选出的增量数据训练自动驾驶的感知决策***神经网络，并部署训练后的神经网络以更新预训练的神经网络用于数据采集，以此形成以提升神经网络感知能力为目标的增量数据闭环管理。

特别地，根据本发明实施例的一方面，提供了一种自动驾驶数据采集和闭环管理方法，应用于车辆端，包括：

获取车辆驾驶数据；

对所述车辆驾驶数据进行预处理；

通过预训练的神经网络根据预设筛选规则对预处理后的所述车辆驾驶数据进行筛选得到增量数据；

存储所述增量数据，或将所述增量数据发送至云端。

可选地，在存储所述增量数据之后，所述方法还包括：

接收并部署云端下发的训练后的神经网络以更新所述预训练的神经网络，其中，所述训练后的神经网络为经过所述增量数据训练后的神经网络。

可选地，所述车辆驾驶数据包括车辆感知数据，所述神经网络为深度神经网络。

可选地，所述车辆感知数据包括车载视觉感知数据；

所述对所述车辆驾驶数据进行预处理包括：

对所述车载视觉感知数据进行下列至少之一的处理：变形恢复、降噪、去模糊、白平衡、强光或弱光条件下的图像补足和恢复。

可选地，所述车辆感知数据还包括车辆导航数据和车辆状态数据；

所述对所述车辆驾驶数据进行预处理还包括：

对所述车载视觉感知数据、所述车辆导航数据和所述车辆状态数据进行时间同步，形成结构化的车辆感知数据，其中，每一所述结构化的车辆感知数据包括时间戳、当前时刻的感知图像、当前时刻的车辆位置以及当前时刻的车辆动力学参数。

可选地，所述预设筛选规则包括下列至少之一：

高精地图与感知数据对比筛选规则、预测数据与感知数据对比筛选规则、云端指令筛选规则、相邻帧图像差异筛选规则。

可选地，所述高精地图与感知数据对比筛选规则包括：

运行所述预训练的神经网络对所述结构化的车辆感知数据进行识别得到识别数据；

当车辆距离高精地图中已标记的目标道路基础设施的前向距离小于第一阈值时，判断当前时刻的所述识别数据中是否包括所述已标记的目标道路基础设施；

若否，将以当前时刻的所述结构化的车辆感知数据为中心前后相邻的指定数量帧的结构化的车辆感知数据作为所述增量数据。

可选地，所述预测数据与感知数据对比筛选规则包括：

预测当前时刻起未来第一数量帧中障碍车辆的第一位置；

通过所述预训练的神经网络基于当前时刻起未来第二数量帧的所述结构化的车辆感知数据得到实际感知的当前时刻起未来第二数量帧中所述障碍车辆的第二位置，所述第二数量大于或等于所述第一数量；

根据未来每一帧中第一位置与对应帧中的第二位置判断预测数据与感知数据是否一致；

可选地，所述根据未来每一帧中第一位置与对应帧中的第二位置判断预测数据与感知数据是否一致，包括：

根据下式(1)计算预测数据与感知数据的距离差d：

式(1)中，

表示实际感知的未来第i帧中的障碍车辆的第二位置，

表示预测的未来第i帧中的障碍车辆的第一位置，n等于所述第一数量；

判断所述距离差d是否大于第二阈值；

若是，则确定预测数据与感知数据不一致。

可选地，所述云端指令筛选规则包括：

根据云端下发的数据筛选指令对所述结构化的车辆感知数据进行筛选得到所述增量数据。

可选地，所述相邻帧图像差异筛选规则包括：

计算相邻的前一帧和后一帧的所述结构化的车辆感知数据中所述感知图像之间的差异指标；

判断所述差异指标是否大于第三阈值；

若是，则将以所述后一帧的所述结构化的车辆感知数据为中心前后相邻的指定数量帧的结构化的车辆感知数据作为所述增量数据。

可选地，所述差异指标为均方误差；

所述计算相邻的前一帧和后一帧的所述结构化的车辆感知数据中所述感知图像之间的差异指标包括：

根据下式(2)计算前一帧和后一帧的所述结构化的车辆感知数据中所述感知图像之间的均方误差MSE：

式(2)中，I _t(i，j)、I _t+1(i，j)分别表示t时刻和t+1时刻相邻两帧感知图像的像素值，i和j分别表示所述感知图像中的像素点坐标，m和n分别表示所述感知图像尺寸的长度和宽度；或者

所述差异指标为结构相似性；

根据下式(3)计算前一帧和后一帧的所述结构化的车辆感知数据中所述感知图像之间的结构相似性SSIM：

式(3)中，x和y分别表示相邻两帧感知图像的像素值，μ _x是x的均值，μ _y是y的均值，σ _x是x的方差，σ _y是y的方差，σ _xy是x和y的协方差；c ₁和c ₂为维持稳定的常数，c ₁＝(k ₁*L) ²，c ₂＝(k ₂*L) ²，其中，k ₁和k ₂为常数，L是像素值的动态范围。

可选地，所述车辆驾驶数据包括车辆控制数据，所述神经网络为深度强化学习神经网络。

可选地，所述车辆控制数据包括当前车辆状态数据S _t和所述车辆的驾驶员的当前控制动作a _human；

所述通过预训练的神经网络根据预设筛选规则对预处理后的所述车辆驾驶数据进行筛选得到增量数据包括：

采集所述预训练的深度强化学习神经网络基于所述当前车辆状态数据S _t输出的当前控制动作a _nn；

计算所述深度强化学习神经网络输出的当前控制动作a _nn与所述驾驶员的当前控制动作a _human之间的差异；

判断所述差异是否大于第四阈值；

若是，则确定所述当前车辆状态数据S _t和所述深度强化学习神经网络输出的当前控制动作a _nn下所述深度强化学习神经网络的赏罚函数值r(t)；

以所述当前车辆状态数据S _t、所述深度强化学习神经网络输出的当前控制动作a _nn、所述驾驶员的当前控制动作a _human、所述赏罚函数值r(t)和下一时刻的车辆状态数据S _t+1构造数据包作为所述增量数据。

可选地，所述确定所述当前车辆状态数据S _t和所述深度强化学习神经网络输出的当前控制动作a _nn下所述深度强化学习神经网络的赏罚函数值r(t)，包括：

根据下式(4)计算所述深度强化学习神经网络的赏罚函数r(t)：

r(t)＝R _ca(t)+b ₁R _ma(t)+b ₂R _lk(t)+b ₃R _speed(t)+b ₄R _steer(t) (4)

其中，R _ca(t)表示避免碰撞指标，R _ma(t)表示任务完成度指标，R _lk(t)表示车道保持能力指标，R _speed(t)表示速度合理性指标，R _steer(t)表示转向合理性指标，R _ca(t)、R _ma(t)、R _lk(t)、R _speed(t)和R _steer(t)是在所述当前车辆状态数据S _t下假设对所述车辆的控制***施加所述深度强化学习神经网络输出的当前控制动作a _nn后计算得到，b ₁、b ₂、b ₃、b ₄表示权重系数。

可选地，所述当前车辆状态数据S _t包括下列至少之一：当前环境信息、当前车速、当前车辆转向角度；

所述驾驶员的当前控制动作a _human包括下列至少之一：第一决策指令、转向角度、加速踏板/制动踏板开度；

所述深度强化学习神经网络输出的当前控制动作a _nn包括下列至少之一：第二决策指令、转向指令、速度指令。

可选地，在通过预训练的神经网络根据预设筛选规则对预处理后的所述车辆驾驶数据进行筛选得到增量数据之前，还包括：

缓存预处理后的所述车辆驾驶数据。

根据本发明实施例的另一方面，还提供了一种自动驾驶数据采集和闭环管理***，应用于车辆端，包括：

数据获取器，配置为获取车辆驾驶数据；

数据处理器，包括：数据预处理模块，配置为对所述车辆驾驶数据进行预处理；以及数据筛选模块，其上部署有预训练的神经网络，配置为通过所述预训练的神经网络根据预设筛选规则对预处理后的所述车辆驾驶数据进行筛选得到增量数据；以及

存储器，配置为存储所述增量数据；和/或

发送模块，配置为将所述增量数据发送至云端。

可选地，所述数据筛选模块还配置为：

可选地，所述数据获取器包括一个或多个车载摄像头，所述一个或多个车载摄像头配置为获取车载视觉感知数据；

所述数据预处理模块还配置为：

可选地，所述数据获取器还包括：

导航设备，配置为获取车辆导航数据；和

整车网络设备，配置为获取车辆状态数据；并且

所述数据处理器还包括数据同步模块，配置为对所述车载视觉感知数据、所述车辆导航数据和所述车辆状态数据进行时间同步，形成结构化的车辆感知数据，其中，每一所述结构化的车辆感知数据包括时间戳、当前时刻的感知图像、当前时刻的车辆位置以及当前时刻的车辆动力学参数。

可选地，所述数据处理器还包括：

数据缓存模块，配置为缓存预处理后的所述车辆驾驶数据。

可选地，所述存储器为车载移动硬盘。

本发明实施例提供的自动驾驶数据采集和闭环管理方法和***中，在通过预训练的神经网络根据预设筛选规则对预处理后的车辆驾驶数据进行筛选得到增量数据后，再存储增量数据或将增量数据发送至云端，以用于神经网络的训练。本发明的方案能够有效筛选出高价值的增量数据，从而降低了***数据存储量和/或对数据传输带宽的要求。本发明的***可以后装或前装的方式安装在车辆上，不依赖具体车型，无需车辆配备成本高昂的激光雷达等真值***，大大提高了***使用的便捷性，有利于快速和大规模应用。

进一步地，本发明的方案采用高精地图与感知数据对比筛选规则、预测数据与感知数据对比筛选规则、云端指令筛选规则、相邻帧图像差异筛选规则等的至少之一对采集的车辆驾驶数据进行筛选，可获得更精确、更有价值的增量数据，从而大幅缩减感知数据存储量或传输量。

进一步地，本发明的方案通过利用筛选出的增量数据训练自动驾驶的感知决策***神经网络，并部署训练后的神经网络以更新预训练的神经网络用于数据采集和筛选，以此形成以提升神经网络感知能力为目标的增量数据闭环管理。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本发明的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1为根据本发明一个实施例的自动驾驶数据采集和闭环管理方法的流程示意图；

图2为根据本发明另一个实施例的自动驾驶数据采集和闭环管理方法的流程示意图；

图3为根据本发明又一个实施例的自动驾驶数据采集和闭环管理方法的流程示意图；

图4为根据本发明再一个实施例的自动驾驶数据采集和闭环管理方法的流程示意图；

图5为根据本发明一个实施例的自动驾驶数据采集和闭环管理***的结构示意图；

图6为根据本发明另一个实施例的自动驾驶数据采集和闭环管理***的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

目前自动驾驶***的感知模块大多采用DNN来进行目标检测、识别、分类和预测。通过实际数据不断优化迭代感知和决策***DNN，提高DNN的性能指标，增强自动驾驶***应对各类场景的鲁棒性和稳定性，是目前自动驾驶车辆大规模部署的关键。目前大多数企业和科研机构通常采用专门的数据采集车或试验车的方式进行集中式数据采集，这些数据采集车辆一般需要配备激光雷达等真值***，对设备要求高，并且数据采集过程没有设计筛选机制或筛选机制不明，导致数据存储空间要求很大或数据传输带宽要求很大，既对硬件***提出了很高的要求，也为后续的数据挖掘、寻找有价值数据增加了难度。

鉴于上述技术问题，本发明实施例提出了一种自动驾驶数据采集和闭环管理方法和***，此方法和***可应用于车辆端。

图1示出了根据本发明一个实施例的自动驾驶数据采集和闭环管理方法的流程示意图。参见图1所示，该自动驾驶数据采集和闭环管理方法至少可以包括以下步骤S102至S108。

步骤S102，获取车辆驾驶数据。

步骤S104，对车辆驾驶数据进行预处理。

步骤S106，通过预训练的神经网络根据预设筛选规则对预处理后的车辆驾驶数据进行筛选得到增量数据。

步骤S108，存储增量数据，或将增量数据发送至云端。

具体地，步骤S108中，可将增量数据存储于本地(即，车辆端存储器)，之后再定期将存储于本地的增量数据拷贝转移到云端(如云端计算中心)以用于进行后续的数据处理和神经网络训练。或者，也可以直接通过网络通信模块(如T-box)将增量数据发送至云端，以用于进行后续的数据处理和神经网络训练。当然，也可以同时在本地存储并上传云端，从而实现多重备份，保证数据不会丢失。

本发明实施例提供的自动驾驶数据采集和闭环管理方法采用分布式增量数据采集方式，能够有效筛选出高价值的增量数据，从而降低了***数据存储量和/或对数据传输带宽的要求。

在一个实施例中，参见图2所示，在步骤S108之后，还可以执行步骤S110：接收并部署云端下发的训练后的神经网络以更新预训练的神经网络，其中，训练后的神经网络为经过增量数据训练后的神经网络。具体地，可以通过OTA(Over-the-Air，空中下载)方式经由车辆配置的T-box接收云端下发的训练后的神经网络。本实施例通过利用筛选出的增量数据训练自动驾驶的感知决策***神经网络，并部署训练后的神经网络以更新预训练的神经网络，更新后的神经网络再次被用于数据采集和筛选，以此形成以提升神经网络感知能力为目标的增量数据闭环管理。

在一种实施方式中，存储于本地的增量数据可以定期拷贝到云端计算中心，对增量数据进行分析和标注后，利用标注后的数据对神经网络进行增量式训练，得到训练后的神经网络。在另一种实施方式中，将增量数据发送至云端后，可直接对增量数据进行分析和标注，并利用标注后的数据对神经网络进行增量式训练，得到训练后的神经网络。通过对筛选后的增量数据进行分析和标注，可有效提高数据处理效率；在此基础上利用标注后的数据进行神经网络的增量式训练，可有效提高神经网络的性能指标，提高神经网络的训练和学习效率。

在另一个实施例中，继续参见图2所示，在执行步骤S106之前，还可以先执行以下步骤S105：缓存预处理后的车辆驾驶数据。具体地，可缓存预设时间(如5min)内获取到的预处理后的车辆驾驶数据，以便留有足够的时间进行步骤S106中的数据筛选操作。

在自动驾驶领域，车辆驾驶数据可包括车辆感知数据或车辆控制数据，下面对这两种数据的采集和闭环管理方法分别进行介绍。

对于车辆感知数据，通常采用深度神经网络DNN基于车辆感知数据进行感知决策。在一个实施例中，参见图3所示，上文步骤S102可以具体实施为：

步骤S302，获取车辆驾驶数据，其中车辆驾驶数据包括车辆感知数据。车辆感知数据具体可以包括车载视觉感知数据，即，由车辆上配置的视觉***(具体可为一个或多个摄像头)获取的图像、视频等感知数据。

在这种情况下，上文步骤S104可以具体包括以下步骤S304：对车载视觉感知数据进行变形恢复、降噪、去模糊、白平衡、强光或弱光条件下的图像补足和恢复等至少之一种处理，以增强车载视觉感知数据的清晰度和精确度。

进一步地，车辆感知数据还可以包括车辆导航数据和车辆状态数据。具体地，车辆导航数据可以通过车辆配置的导航设备获取，车辆状态数据可以通过车辆的整车网络设备从车辆的各种传感器(如车速传感器、加速度传感器等)和/或仪表处获取。在这种情况下，上文步骤S104还可以具体包括以下步骤S306：对车载视觉感知数据、车辆导航数据和车辆状态数据进行时间同步，形成结构化的车辆感知数据，其中，每一结构化的车辆感知数据包括时间戳、当前时刻的感知图像、当前时刻的车辆位置以及当前时刻的车辆动力学参数。车辆动力学参数可包括车速、方向盘转角、加/减速度等。在对车载视觉感知数据、车辆导航数据和车辆状态数据进行时间同步时，可以以车辆的导航***时钟或用于实现本方法的数据采集和闭环管理***的***时钟为时间基准。

进一步地，对于预处理后的车辆感知数据，执行步骤S308：通过预训练的深度神经网络根据预设筛选规则对预处理后的车辆感知数据进行筛选得到增量数据，其中预设筛选规则包括高精地图与感知数据对比筛选规则、预测数据与感知数据对比筛选规则、云端指令筛选规则、相邻帧图像差异筛选规则中的至少之一。下面对上述四种预设筛选规则分别进行介绍。

第一种：高精地图与感知数据对比筛选规则。在高精地图与感知数据对比筛选规则中，运行预训练的神经网络(具体为深度神经网络)对每一帧结构化的车辆感知数据进行识别得到识别数据。当车辆距离高精地图中已标记的目标道路基础设施的前向距离小于第一阈值时，判断当前时刻的识别数据中是否包括已标记的目标道路基础设施。若否，则将以当前时刻的结构化的车辆感知数据为中心前后相邻的指定数量帧的结构化的车辆感知数据作为增量数据。具体地，高精地图(HD-Map)可由车辆配置的导航设备导入，并对高精地图中的道路基础设施(如交通信号灯杆、道路静态路障等)进行标记。第一阈值可根据实际应用需求进行设置，例如，可设置为50m。指定数量可以根据实际应用的精度需求进行设置，例如，可设置为20，此时，将包括当前时刻的结构化的车辆感知数据在内的前后相邻的20帧结构化的车辆感知数据作为增量数据。这种方式可适用于静态数据的对比筛选，能够筛选出深度神经网络未能准确识别的车辆感知数据，其对于训练深度神经网络、提升深度神经网络感知能力更为有效。

第二种：预测数据与感知数据对比筛选规则。在预测数据与感知数据对比筛选规则中，预测当前时刻起未来第一数量帧中障碍车辆的第一位置，并通过预训练的神经网络基于当前时刻起未来第二数量帧的结构化的车辆感知数据得到实际感知的当前时刻起未来第二数量帧中障碍车辆的第二位置，其中第二数量大于或等于第一数量。然后，根据未来每一帧中第一位置与对应帧中的第二位置判断预测数据与感知数据是否一致。若否，则将以当前时刻的结构化的车辆感知数据为中心前后相邻的指定数量帧的结构化的车辆感知数据作为增量数据。

具体地，可采用车辆运动学、LSTM(Long Short-Term Memory，长短期记忆网络)等方法预测障碍车辆的未来轨迹和位置。通过以下方式判断预测数据与感知数据是否一致：首先，根据下式(1)计算预测数据与感知数据的距离差d：

式(1)中，

表示实际感知的未来第i帧中的障碍车辆的第二位置，

表示预测的未来第i帧中的障碍车辆的第一位置，n等于第一数量。然后，判断所计算的距离差d是否大于第二阈值dmin，若是，则可确定预测数据与感知数据不一致。

第一数量和第二数量可以根据实际应用需求进行设置，例如，第一数量一般可设置为8帧，第二数量可设置为20帧。若预测到障碍车辆在未来8帧内将超出本车辆的视觉***的感知视野，则第一数量可设置为视觉***的感知视野内帧数。此外，若在感知视野内检测到障碍车辆出现漏帧，可将该帧的

均设为一个大值(例如1000)，以保证可筛选出该感知数据。第二阈值dmin可根据实际应用进行设置，本发明对此不做限制。

这种方式可适用于无真值类感知数据的筛选，能够筛选出与预测数据不一致的车辆感知数据，其对于训练深度神经网络、提升深度神经网络感知能力更为有效。

第三种：云端指令筛选规则。在云端指令筛选规则中，根据云端下发的数据筛选指令对结构化的车辆感知数据进行筛选得到增量数据。具体地，可以根据深度神经网络的训练需求，在云端设置数据筛选指令(如采集制动减速度大于阈值时车辆感知数据、采集红绿灯路口时车辆感知数据等)，并通过T-box将数据筛选指令发送至车辆端，车辆端执行从云端接收到的数据筛选指令。这种方式可有目的、针对性地筛选出神经网络训练所需的增量数据，提升数据处理效率和神经网络训练效率。

第四种：相邻帧图像差异筛选规则。在相邻帧图像差异筛选规则中，首先计算相邻的前一帧和后一帧的结构化的车辆感知数据中感知图像之间的差异指标。然后，判断差异指标是否大于第三阈值，若是，则将以后一帧的结构化的车辆感知数据为中心前后相邻的指定数量帧的结构化的车辆感知数据作为增量数据。第三阈值可根据实际应用需求进行设置，本发明对此不做限制。指定数量的限定如前文所述，例如，指定数量设置为20时，在前后帧感知图像的差异指标大于第三阈值时，将包括该后一帧的结构化的车辆感知数据在内的前后相邻的20帧结构化的车辆感知数据作为增量数据。

具体地，上述差异指标可以是两帧感知图像之间的均方误差(Mean Square Error，MSE)或结构相似性(Structural Similarity，SSIM)。

对于均方误差，可根据下式(2)计算前一帧和后一帧的结构化的车辆感知数据中感知图像之间的均方误差MSE：

式(2)中，I _t(i，j)、I _t+1(i，j)分别表示t时刻和t+1时刻相邻两帧感知图像的像素值，i和j分别表示感知图像中的像素点坐标，m和n分别表示感知图像尺寸的长度和宽度。

对于结构相似性，可根据下式(3)计算前一帧和后一帧的结构化的车辆感知数据中感知图像之间的结构相似性SSIM：

式(3)中，x和y分别表示相邻两帧感知图像的像素值，μ _x是x的均值，μ _y是y的均值，σ _x是x的方差，σ _y是y的方差，σ _xy是x和y的协方差；c ₁和c ₂为维持稳定的常数，c ₁＝(k ₁*L) ²，c ₂＝(k ₂*L) ²，其中，k ₁和k ₂为常数，L是像素值的动态范围。一般情况下，k ₁＝0.01，k ₂＝0.03。

当前后帧图像出现明显差异时，说明车辆进入新的场景或环境，此时车辆感知数据具有较高的价值。本方式通过筛选出相邻帧图像差异超过阈值的车辆感知数据以用于神经网络训练，可更有效地提升深度神经网络感知能力。

步骤S310的操作与前文步骤S108相同，此处不再重复。

本实施例通过采用高精地图与感知数据对比筛选规则、预测数据与感知数据对比筛选规则、云端指令筛选规则、相邻帧图像差异筛选规则等的至少之一对采集的车辆驾驶数据进行筛选，可获得更精确、更有价值的增量数据，从而大幅缩减感知数据存储量或传输量。

对于车辆控制数据，可采用深度强化学习(Deep Reinforcement Learning，DRL)神经网络进行感知决策。在一个实施例中，参见图4所示，自动驾驶数据采集和闭环管理方法可以包括以下步骤S402至S416。

步骤S402，获取车辆控制数据，其中车辆控制数据包括当前车辆状态数据S _t和车辆的驾驶员的当前控制动作a _human。

具体地，当前车辆状态数据S _t可包括当前环境信息(如图像信息、栅格地图等)、当前车速、当前车辆转向角度等。驾驶员的当前控制动作a _human可包括第一决策指令、转向角度、加速踏板/制动踏板开度等。车辆控制数据可通过车辆配置的视觉***(如摄像头)、导航设备、整车网络设备等获取。

步骤S404，对车辆控制数据进行预处理。

本步骤中可采用现有的常用处理方式对车辆控制数据进行预处理，具体可根据实际应用进行选择，本文不再赘述。

在对车辆控制数据进行筛选的场合，上文步骤S106可以具体实施为以下步骤S406至S414。

步骤S406，采集预训练的深度强化学习神经网络基于当前车辆状态数据S _t输出的当前控制动作a _nn。

深度强化学习神经网络输出的当前控制动作a _nn可包括第二决策指令、转向指令、速度指令等。

步骤S408，计算深度强化学习神经网络输出的当前控制动作a _nn与驾驶员的当前控制动作a _human之间的差异。

本步骤中差异计算应为本领域技术人员所知晓，不另详述。

步骤S410，判断差异是否大于第四阈值。若是，则执行步骤S412。

步骤S412，确定当前车辆状态数据S _t和深度强化学习神经网络输出的当前控制动作a _nn下深度强化学习神经网络的赏罚函数值r(t)。

具体地，根据下式(4)计算深度强化学习神经网络的赏罚函数r(t)：

其中，R _ca(t)表示避免碰撞(Collision Avoidance)指标，R _ma(t)表示任务完成度(Mission Achievement)指标，R _lk(t)表示车道保持能力(Lane Keeping)指标，R _speed(t)表示速度合理性指标，R _steer(t)表示转向合理性指标，R _ca(t)、R _ma(t)、R _lk(t)、R _speed(t)和R _steer(t)是在当前车辆状态数据S _t下假设对车辆的控制***施加深度强化学习神经网络输出的当前控制动作a _nn后计算得到，b ₁、b ₂、b ₃、b ₄表示权重系数。各权重系数代表对相应指标的关注程度，可根据经验设定。

步骤S414，以当前车辆状态数据S _t、深度强化学习神经网络输出的当前控制动作a _nn、驾驶员的当前控制动作a _human、赏罚函数值r(t)和下一时刻的车辆状态数据S _t+1构造数据包作为增量数据。

下一时刻的车辆状态数据S _t+1指车辆状态数据S _t在车辆被施加驾驶员的当前控制动作a _human后所转变成的状态数据。本步骤中构造的数据包形式可为[S _t，a _nn，a _human，r(t)，S _t+1]。

步骤S416，存储增量数据，或将增量数据发送至云端。

步骤S416的操作与前文步骤S108相同，不再赘述。

进一步地，在步骤S416之后，还可以接收并部署云端下发的训练后的深度强化学习神经网络以更新预训练的深度强化学习神经网络，其中，训练后的深度强化学习神经网络为经过筛选出的车辆控制数据的增量数据训练后的深度强化学习神经网络。

本实施例对车辆控制数据进行增量数据采集和闭环管理，能够极大地降低***数据存储量和/或对数据传输带宽的要求，提高数据处理效率，并提升深度强化学习神经网络的感知决策能力。

基于同一技术构思，本发明实施例还提供了一种自动驾驶数据采集和闭环管理***，应用于车辆端。图5示出了本发明一个实施例的自动驾驶数据采集和闭环管理***10的结构示意图。参见图5所示，自动驾驶数据采集和闭环管理***10至少可以包括数据获取器100和数据处理器200。数据获取器100配置为获取车辆驾驶数据。数据处理器200可包括数据预处理模块201和数据筛选模块202。数据预处理模块201配置为对车辆驾驶数据进行预处理。数据筛选模块202中部署有预训练的神经网络，配置为通过预训练的神经网络根据预设筛选规则对预处理后的车辆驾驶数据进行筛选得到增量数据。数据处理器200可以是可运行神经网络(如DNN)的GPU(Graphics Processing Unit，图形处理器)。自动驾驶数据采集和闭环管理***10还可以进一步包括：存储器300，配置为存储增量数据；和/或，发送模块400，配置为将增量数据发送至云端。具体地，发送模块400通过网络通信模块500(例如可以为T-box等)将增量数据发送至云端。

在一个实施例中，数据筛选模块202还可以配置为接收并部署云端下发的训练后的神经网络以更新预训练的神经网络，其中，训练后的神经网络为经过增量数据训练后的神经网络。

在一个实施例中，参见图6所示，数据获取器100可以包括视觉***101(具体可为一个或多个车载摄像头)，配置为获取车载视觉感知数据。相应地，数据预处理模块201还可以配置为对车载视觉感知数据进行下列至少之一的处理：变形恢复、降噪、去模糊、白平衡、强光或弱光条件下的图像补足和恢复。

在一个实施例中，继续参见图6所示，数据获取器100还可以包括导航设备102和整车网络设备103。导航设备102例如可以为组合导航***，配置为获取车辆导航数据。整车网络设备103例如可以为车载CAN网络总线、车载以太网总线等，通过整车网络设备103从车辆的各种传感器(如车速传感器、加速度传感器等)和/或仪表处获取车辆状态数据。数据处理器200还可以包括数据同步模块203，配置为对车载视觉感知数据、车辆导航数据和车辆状态数据进行时间同步，形成结构化的车辆感知数据，其中，每一结构化的车辆感知数据包括时间戳、当前时刻的感知图像、当前时刻的车辆位置以及当前时刻的车辆动力学参数。

在一个实施例中，继续参见图6所示，数据处理器200还可以包括数据缓存模块204，配置为缓存预处理后的车辆驾驶数据。

在一个实施例中，存储器300可以为车载移动硬盘。由于车载移动硬盘容量较大，可存储大量的筛选得到的增量数据，然后再批量从车载移动硬盘拷贝转移至云端计算中心，使得本***采集的图像或视频数据可以不依赖于无线网络的带宽进行传输。

在具体实施中，数据筛选模块202可以配置为执行前文任意实施例或实施例组合所述的数据筛选操作，本文不再重复介绍。

本发明实施例提供的自动驾驶数据采集和闭环管理***10可以前装(即在车辆生产时安装)或后装(即在车辆出厂后安装)的方式安装在车辆上，不依赖具体车型，无需车辆配备成本高昂的激光雷达等真值***，图像或视频数据传输不依赖无线网络的带宽，从而大大提高了***使用的便捷性，有利于本自动驾驶数据采集和闭环管理***10的快速和大规模应用。

前面详细介绍了本发明的自动驾驶数据采集和闭环管理方法和***的多种实施方式，下面通过特定的具体实施例说明本发明的实施方式。

实施例1

本实施例中的自动驾驶数据采集和闭环管理***10为前装***，相比图6减少了发送模块400，视觉***101采用一个或多个摄像头，存储器300为车载移动硬盘。在应用中，摄像头获取的视觉感知数据、导航设备102获取的车辆导航数据和整车网络设备103获取的车辆状态数据是数据处理器200的输入。在数据处理器200的数据筛选模块202中部署预训练的DNN，并可通过OTA方式对DNN进行升级。在数据预处理模块201和数据同步模块203对输入数据进行预处理和同步后，数据筛选模块202使用高精地图与感知数据对比筛选规则、预测数据与感知数据对比筛选规则、云端指令筛选规则、相邻帧图像差异筛选规则等规则进行数据筛选，并将筛选后的结构化感知数据保存至车载移动硬盘。在前装***中，数据处理器200中的DNN结果输出也可以作为车辆的智能驾驶***的输入源之一，以提高***的复用率。

在大规模部署本自动驾驶数据采集和闭环管理***10后，车辆在不同场景下采集并筛选出增量数据。车辆采集筛选的增量数据首先在计算中心进行数据处理和分类，可根据位置、车速、加速度等信息进行场景分类。当然，也可以按照云端设定的筛选指令条件采集特定条件下的数据。之后，再对增量数据进行标注，利用标注的增量数据对DNN进行算法增量式训练和DNN的性能提升。最后，定期地通过OTA的方式将迭代更新的DNN网络，部署到车辆的数据处理器200中，再进行新一轮增量数据采集，从而形成数据采集及闭环管理***。

实施例2

本实施例中的自动驾驶数据采集和闭环管理方法和***用于自动驾驶控制增量数据的采集，以用于训练DRL神经网络。

本实施例中，自动驾驶数据采集和闭环管理***10安装在自动驾驶试验车上，并在安装在自动驾驶试验车上的数据处理器200中部署预训练的DRL神经网络，且该部署的DRL神经网络以后台运行的方式运行，即DRL神经网络输出的动作不直接作用于实车控制。

在应用中，自动驾驶数据采集和闭环管理***10实时检测DRL神经网络的输出动作与人类驾驶员的动作差异，获得差异超出第四阈值的增量控制数据，增量控制数据以数据包[S _t，a _nn，a _human，r，S _t+1]进行存储。其中，DRL神经网络的输出动作与人类驾驶员的动作差异的计算、判断以及增量控制数据的数据包的构建如前文所述，此处不再重复。

在获得增量控制数据后，利用增量控制数据训练DRL神经网络。定期地通过OTA的方式将训练后的DRL神经网络部署到试验车中，形成以提升DRL神经网络控制能力KPI为目标的增量式数据闭环管理***。

根据上述任意一个可选实施例或多个可选实施例的组合，本发明实施例能够达到如下有益效果：

至此，本领域技术人员应认识到，虽然本文已详尽示出和描述了本发明的示例性实施例，但是，在不脱离本发明精神和范围的情况下，仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此，本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。

Claims

一种自动驾驶数据采集和闭环管理方法，应用于车辆端，包括：

获取车辆驾驶数据；

对所述车辆驾驶数据进行预处理；

通过预训练的神经网络根据预设筛选规则对预处理后的所述车辆驾驶数据进行筛选得到增量数据；

存储所述增量数据，或将所述增量数据发送至云端。
根据权利要求1所述的方法，其中，在存储所述增量数据之后，还包括：

接收并部署云端下发的训练后的神经网络以更新所述预训练的神经网络，其中，所述训练后的神经网络为经过所述增量数据训练后的神经网络。
根据权利要求1或2所述的方法，其中，所述车辆驾驶数据包括车辆感知数据，所述神经网络为深度神经网络。
根据权利要求3所述的方法，其中，所述车辆感知数据包括车载视觉感知数据；

所述对所述车辆驾驶数据进行预处理包括：

对所述车载视觉感知数据进行下列至少之一的处理：变形恢复、降噪、去模糊、白平衡、强光或弱光条件下的图像补足和恢复。
根据权利要求4所述的方法，其中，所述车辆感知数据还包括车辆导航数据和车辆状态数据；

所述对所述车辆驾驶数据进行预处理还包括：

对所述车载视觉感知数据、所述车辆导航数据和所述车辆状态数据进行时间同步，形成结构化的车辆感知数据，其中，每一所述结构化的车辆感知数据包括时间戳、当前时刻的感知图像、当前时刻的车辆位置以及当前时刻的车辆动力学参数。
根据权利要求5所述的方法，其中，所述预设筛选规则包括下列至少之一：

高精地图与感知数据对比筛选规则、预测数据与感知数据对比筛选规则、云端指令筛选规则、相邻帧图像差异筛选规则。
根据权利要求6所述的方法，其中，所述高精地图与感知数据对比筛选规则包括：

运行所述预训练的神经网络对所述结构化的车辆感知数据进行识别得到识别数据；

当车辆距离高精地图中已标记的目标道路基础设施的前向距离小于第一阈值时，判断当前时刻的所述识别数据中是否包括所述已标记的目标道路基础设施；

若否，将以当前时刻的所述结构化的车辆感知数据为中心前后相邻的指定数量帧的结构化的车辆感知数据作为所述增量数据。
根据权利要求6所述的方法，其中，所述预测数据与感知数据对比筛选规则包括：

预测当前时刻起未来第一数量帧中障碍车辆的第一位置；

通过所述预训练的神经网络基于当前时刻起未来第二数量帧的所述结构化的车辆感知数据得到实际感知的当前时刻起未来第二数量帧中所述障碍车辆的第二位置，所述第二数量大于或等于所述第一数量；

根据未来每一帧中第一位置与对应帧中的第二位置判断预测数据与感知数据是否一致；

若否，将以当前时刻的所述结构化的车辆感知数据为中心前后相邻的指定数量帧的结构化的车辆感知数据作为所述增量数据。
根据权利要求8所述的方法，其中，所述根据未来每一帧中第一位置与对应帧中的第二位置判断预测数据与感知数据是否一致，包括：

根据下式(1)计算预测数据与感知数据的距离差d：

式(1)中，
表示实际感知的未来第i帧中的障碍车辆的第二位置，
表示预测的未来第i帧中的障碍车辆的第一位置，n等于所述第一数量；

判断所述距离差d是否大于第二阈值；

若是，则确定预测数据与感知数据不一致。
根据权利要求6所述的方法，其中，所述云端指令筛选规则包括：

根据云端下发的数据筛选指令对所述结构化的车辆感知数据进行筛选得到所述增量数据。
根据权利要求6所述的方法，其中，所述相邻帧图像差异筛选规则包括：

计算相邻的前一帧和后一帧的所述结构化的车辆感知数据中所述感知图像之间的差异指标；

判断所述差异指标是否大于第三阈值；

若是，则将以所述后一帧的所述结构化的车辆感知数据为中心前后相邻的指定数量帧的结构化的车辆感知数据作为所述增量数据。
根据权利要求11所述的方法，其中，所述差异指标为均方误差；

所述计算相邻的前一帧和后一帧的所述结构化的车辆感知数据中所述感知图像之间的差异指标包括：

根据下式(2)计算前一帧和后一帧的所述结构化的车辆感知数据中所述感知图像之间的均方误差MSE：

式(2)中，I _t(i，j)、I _t+1(i，j)分别表示t时刻和t+1时刻相邻两帧感知图像的像素值，i和j分别表示所述感知图像中的像素点坐标，m和n分别表示所述感知图像尺寸的长度和宽度；或者

所述差异指标为结构相似性；

所述计算相邻的前一帧和后一帧的所述结构化的车辆感知数据中所述感知图像之间的差异指标包括：

根据下式(3)计算前一帧和后一帧的所述结构化的车辆感知数据中所述感知图像之间的结构相似性SSIM：

式(3)中，x和y分别表示相邻两帧感知图像的像素值，μ _x是x的均值，μ _y是y的均值，σ _x是x的方差，σ _y是y的方差，σ _xy是x和y的协方差；c ₁和c ₂为维持稳定的常数，c ₁＝(k ₁*L) ²，c ₂＝(k ₂*L) ²，其中，k ₁和k ₂为常数，L是像素值的动态范围。
根据权利要求1或2所述的方法，其中，所述车辆驾驶数据包括车辆控制数据，所述神经网络为深度强化学习神经网络。
根据权利要求13所述的方法，其中，所述车辆控制数据包括当前车辆状态数据S _t和所述车辆的驾驶员的当前控制动作a _human；

所述通过预训练的神经网络根据预设筛选规则对预处理后的所述车辆驾驶数据进行筛选得到增量数据包括：

采集所述预训练的深度强化学习神经网络基于所述当前车辆状态数据S _t输出的当前控制动作a _nn；

计算所述深度强化学习神经网络输出的当前控制动作a _nn与所述驾驶员的当前控制动作a _human之间的差异；

判断所述差异是否大于第四阈值；

若是，则确定所述当前车辆状态数据S _t和所述深度强化学习神经网络输出的当前控制动作a _nn下所述深度强化学习神经网络的赏罚函数值r(t)；

以所述当前车辆状态数据S _t、所述深度强化学习神经网络输出的当前控制动作a _nn、所述驾驶员的当前控制动作a _human、所述赏罚函数值r(t)和下一时刻的车辆状态数据S _t+1构造数据包作为所述增量数据。
根据权利要求14所述的方法，其中，所述确定所述当前车辆状态数据S _t和所述深度强化学习神经网络输出的当前控制动作a _nn下所述深度强化学习神经网络的赏罚函数值r(t)，包括：

根据下式(4)计算所述深度强化学习神经网络的赏罚函数r(t)：

r(t)＝R _ca(t)+b ₁R _ma(t)+b ₂R _lk(t)+b ₃R _speed(t)+b ₄R _steer(t) (4)

其中，R _ca(t)表示避免碰撞指标，R _ma(t)表示任务完成度指标，R _lk(t)表示车道保持能力指标，R _speed(t)表示速度合理性指标，R _steer(t)表示转向合理性指标，R _ca(t)、R _ma(t)、R _lk(t)、R _speed(t)和R _steer(t)是在所述当前车辆状态数据S _t下假设对所述车辆的控制***施加所述深度强化学习神经网络输出的当前控制动作a _nn后计算得到，b ₁、b ₂、b ₃、b ₄表示权重系数。
根据权利要求14所述的方法，其中，所述当前车辆状态数据S _t包括下列至少之一：当前环境信息、当前车速、当前车辆转向角度；

所述驾驶员的当前控制动作a _human包括下列至少之一：第一决策指令、转向角度、加速踏板/制动踏板开度；

所述深度强化学习神经网络输出的当前控制动作a _nn包括下列至少之一：第二决策指令、转向指令、速度指令。
根据权利要求1所述的方法，其中，在通过预训练的神经网络根据预设筛选规则对预处理后的所述车辆驾驶数据进行筛选得到增量数据之前，还包括：

缓存预处理后的所述车辆驾驶数据。
一种自动驾驶数据采集和闭环管理***，应用于车辆端，包括：

数据获取器，配置为获取车辆驾驶数据；

数据处理器，包括：数据预处理模块，配置为对所述车辆驾驶数据进行预处理；以及数据筛选模块，其上部署有预训练的神经网络，配置为通过所述预训练的神经网络根据预设筛选规则对预处理后的所述车辆驾驶数据进行筛选得到增量数据；以及

存储器，配置为存储所述增量数据；和/或

发送模块，配置为将所述增量数据发送至云端。
根据权利要求18所述的***，其中，所述数据筛选模块还配置为：

接收并部署云端下发的训练后的神经网络以更新所述预训练的神经网络，其中，所述训练后的神经网络为经过所述增量数据训练后的神经网络。
根据权利要求18或19所述的***，其中，所述数据获取器包括一个或多个车载摄像头，所述一个或多个车载摄像头配置为获取车载视觉感知数据；

所述数据预处理模块还配置为：

对所述车载视觉感知数据进行下列至少之一的处理：变形恢复、降噪、去模糊、白平衡、强光或弱光条件下的图像补足和恢复。
根据权利要求20所述的***，其中，所述数据获取器还包括：

导航设备，配置为获取车辆导航数据；和

整车网络设备，配置为获取车辆状态数据；并且

所述数据处理器还包括数据同步模块，配置为对所述车载视觉感知数据、所述车辆导航数据和所述车辆状态数据进行时间同步，形成结构化的车辆感知数据，其中，每一所述结构化的车辆感知数据包括时间戳、当前时刻的感知图像、当前时刻的车辆位置以及当前时刻的车辆动力学参数。
根据权利要求18所述的***，其中，所述数据处理器还包括：

数据缓存模块，配置为缓存预处理后的所述车辆驾驶数据。
根据权利要求18所述的***，其中，所述存储器为车载移动硬盘。